CN110333739A - 一种基于强化学习的auv行为规划及动作控制方法 - Google Patents
一种基于强化学习的auv行为规划及动作控制方法 Download PDFInfo
- Publication number
- CN110333739A CN110333739A CN201910775602.7A CN201910775602A CN110333739A CN 110333739 A CN110333739 A CN 110333739A CN 201910775602 A CN201910775602 A CN 201910775602A CN 110333739 A CN110333739 A CN 110333739A
- Authority
- CN
- China
- Prior art keywords
- auv
- wall
- reward
- behavior
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000006399 behavior Effects 0.000 claims abstract description 110
- 230000033001 locomotion Effects 0.000 claims abstract description 47
- 238000001514 detection method Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 37
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000013461 design Methods 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 34
- 230000004888 barrier function Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 3
- 230000003447 ipsilateral effect Effects 0.000 claims description 3
- 239000011800 void material Substances 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000035882 stress Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
一种基于强化学习的AUV行为规划及动作控制方法,属于水下机器人技术领域。为了解决AUV规划复杂任务时过于依靠人工经验,以及基于智能算法设计的控制方法需要精确的环境模型,从而导致训练经验局限,在现实环境中应用困难的问题。本发明将AUV探测隧洞定义为总任务;完成任务对应的行为包括:趋向目标、墙壁跟踪和避障;将机器人在水下需要完成所规划的行为而产生的控制指令定义为动作;AUV在执行隧洞探测任务时,使用深度强化学习DQN算法进行实时行为规划,构建对应的深度学习的行为网络,完成隧洞探测任务的规划。通过DDPG方法训练AUV的动作网络,将AUV视为环境模型,得到力到状态的映射,从而实现AUV的动作控制。
Description
技术领域
本发明属于水下机器人技术领域,具体涉及一种AUV行为规划及动作控制方法。
背景技术
21世纪是海洋世纪,大力发展海洋事业已经成为世界各国的广泛共识。我国也发布并实施了重要海洋战略,由于我国目前正处于高速发展阶段,且属于人口大国,陆地资源受限,海洋资源已经成为支持可持续发展的重要资源空间。而海洋资源开发和勘探是实时海洋战略的重要前提基础,智能水下机器人(Autonomous Underwater Vehicle,AUV)作为一种水下关键技术装备,在海洋民用、军用和科研等领域已经成为实用有效的开发工具,是海洋开发探索的重要手段。它的应用与技术研发升级将是未来重点关注的对象,是世界各国在海洋领域取得领先地位的重要途径。研制AUV涉及到多种高端技术的应用才得以实现,覆盖面广泛包括导航定位、水下目标探测、通讯技术、智能控制技术、仿真技术、能源系统技术和规划技术等。
规划及控制技术是实现AUV智能化的关键要素之一,是AUV自主决策完成作业任务的前提基础。由于水下环境是复杂动态、非结构化的且不确定的,水下环境信息不易获取,使得AUV在水下执行作业任务过程中难免要面对无法预知的突发事件。由于水下通信手段的限制,AUV智能依靠自行决策处理突发事件,这就需要AUV改变原有的规划指令,根据环境突发事件进行重新规划。本发明重点研究复杂环境下的AUV规划技术,将有压输水隧洞作为复杂的水下环境,以隧洞探测任务为典型应用背景,提出一种基于强化学习的AUV行为规划及控制方法。
有压输水隧洞检测是水利工程管理的重要内容之一,有压输水隧洞是用于连接水电站等水利工程的地下输水通道。目前中小型水库出险多数是输水隧洞隐患没有及时发现造成的,长时间运行隧洞中会出现沉积、腐蚀、渗漏和障碍物等缺陷问题,在汛期输水隧洞更易出现管道老化问题,直接影响到水下工程安全运行,因此对隧洞进行定期检测掌握水下工程情况越来越受到重视。但由于输水隧洞存在部分洞径小、汛期流速大以及水下工程环境复杂等问题,使得人员难以进入检测,需要依靠其他探测装置代替检测人员完成探测任务。
智能水下机器人(AUV)作为良好的水下探测装备搭载平台,可以在水下长时间地、自主安全地执行目标任务,能够在隧洞复杂的水域环境中,具备较强的机动能力和状态保持能力,搭载水下探测设备和传感器满足探测需求,自主地完成隧洞探测任务,是未来隧洞探测的主要手段。本发明基于强化学习算法设计AUV隧洞检测任务的行为规划及控制方法,增加了AUV的环境自适应性,提高AUV在突发态势下的决策能力。
发明内容
本发明为了解决水下机器人完成复杂任务时,智能化水平不高、过于依靠人工经验的问题,以及现有水下机器人基于智能算法设计的控制方法需要精确的环境模型,从而导致训练经验非常局限,在现实环境中应用困难的问题。
一种基于强化学习的AUV行为规划及动作控制方法,包括以下步骤:
水下机器人探测隧洞定义为总任务,即任务;完成任务对应的行为包括:趋向目标、墙壁跟踪和避障;将机器人在水下需要完成所规划的行为而产生的具体的控制指令定义为动作;
AUV在执行隧洞探测任务时,根据探测的水下环境,使用深度强化学习DQN算法进行实时行为规划:构建基于多行为网络调用的行为规划体系结构;根据任务需求定义三个行为的环境状态特征输入和输出动作,构建对应的深度学习的行为网络,并设计奖惩函数;规划系统通过调用训练好的行为网络来完成隧洞探测任务;
控制系统通过调用训练好的动作网络来完成所规划出的行为。
所述的一种基于强化学习的AUV行为规划及动作控制方法,构建对应的深度学习的行为网络并设计奖惩函数的过程包括以下步骤:
对于隧洞探测任务,任务被分解为行为序列,全局航路规划根据先验环境信息规划出一系列可行的路径点,AUV从布放位置开始出发,依次达到各路径点;
由于路径点为已知环境下的全局规划,因此在航渡过程中,AUV根据实时环境状态,调用避障行为安全达到路径点;隧洞探测任务中AUV主要调用墙壁跟踪行为,按预定的探测目标完成任务;
决策模块包含全局数据、决策系统、行为库和评价系统;全局数据存储了任务信息、态势信息、规划知识;决策系统是结合DQN算法的自学习规划系统,决策系统先进行训练,在每次执行规划任务前先从行为库中提取训练好的网络参数,再以当前环境状态信息为输入,规划出当前行为动作;评价系统是强化学习算法的奖励函数系统,它在AUV规划一个行为动作规划并执行后,根据状态环境和任务信息给出一个奖励,所有数据存储到全局数据库中;
所述行为中的趋向目标过程包括以下步骤:
趋向目标点的行为是使AUV在未检测到障碍物时调整艏向角朝目标点航行,特征输入量主要考虑AUV与目标点的位置和角度关系,具体设置为当前AUV位置坐标(xAUV,yAUV)、目标点坐标(xgoal,ygoal)、当前艏向角θ和目标艏向角β总共6维的输入;其中目标艏向角β为当AUV正向朝着目标航行时的艏向角;
奖惩函数:趋向目标行为驱使AUV在无障碍物环境下朝目标点航行,奖励函数设置为两项,第一项r11考虑AUV与目标点距离变化:
第二项r12考虑AUV的艏向角变化,艏向角越接近目标,目标值奖励值越大,当前AUV艏向与目标艏向夹角α为:
α=θ-β
当α绝对值越小,获取奖励值越大,具体为:
r12=kAcos(α)
式中kA为趋向目标过程对应的奖励系数;
总奖励值为两项加权:
r1=k11r11+k12r12
其中k11、k12分别为权值;
所述行为中的墙壁跟踪过程包括以下步骤:
AUV墙壁跟踪行为考虑AUV与墙壁距离和相对角度信息;AUV依靠一侧布置的前后两个测距声呐获取AUV到墙壁的距离x4和x5;
通过磁罗经获取当前AUV艏向角θ,则推算出当前墙壁角度θwall:
式中lAUV为前后两个声呐的距离,墙壁跟踪行为的环境状态特征输入设置为x1、x2、x3、x4、x5、θ、θwall和目标跟踪距离lgoal,其中,x1-x5分别三个前视声呐和一侧设置的前后声呐所测得的数据;特征输入量个数为8,以上特征变量可以完整地描述AUV与墙壁之间状态关系;声呐数据通过设置距离阈值进行判断,在训练过程中超出阈值则结束当前训练周期;
奖惩函数:使AUV能够尽量保持与墙壁平行,并与墙壁保持在一定距离范围内;基于虚拟目标点的墙壁跟踪行为的奖励信号主要设置为四项,一般的墙壁跟踪行为的奖励信号主要设置为两项;
一项考虑AUV与当前墙壁所成角度如下公式,当AUV与墙壁角度增大并超过阈值时,获取一个负奖励值,当在减小时获取一个正奖励值:
第二项考虑AUV前后两端与墙壁距离如下公式,当AUV与墙壁距离与预设值的差值减小,则获取一个正奖励,当差值增大时获取一个负奖励,允许跟踪距离在预设值的±0.2m范围内,当进入跟踪范围内此项奖励值为0,这里与墙壁距离值为同侧面两个测距声呐数据的平均值;
一般的墙壁跟踪行为总的奖励r即为两项奖励加权:
r2=k21r21+k22r22
其中k21-k22分别为权值;
基于虚拟目标点的跟踪:为外直角和内直角墙壁构建的虚拟目标点;当环境为外直角时,由于前侧的声呐在没有检测到障碍物时输入为最大探测距离,构建虚拟墙壁,添加虚拟目标点;当环境为内直角时,当前视声呐检测到墙壁时,在AUV相对当前目标墙壁的另一侧构建虚拟目标点;
根据虚拟目标点构建奖惩函数为:
r24=kBcos(α)
式中kB为墙壁跟踪过程对应的奖励系数;
基于虚拟目标点的跟踪行为总的奖励r即为四项奖励加权:
r2=k21r21+k22r22+k23r23+k24r24
其中k23-k24分别为权值;
当AUV逐渐调整至跟踪下一段墙壁时,如外直角环境中测距声呐重新检测到目标墙壁或内直角环境中前视声呐不再检测到前方墙壁时,则取消虚拟目标点,调用一般的墙壁跟踪行为网络;
所述行为中的避障过程包括以下步骤:
针对AUV避障行为的需求,环境状态特征输入包括三个前视声呐和两侧分别设置的前端声呐的数据;AUV在避障机动过程中应同时向目标点方向靠近,特征输入还包括AUV的当前位置坐标(xAUV,yAUV)、目标点位置坐标(xgoal,ygoal)、当前艏向角θ和目标艏向角β总共11维的输入;
奖惩函数:将奖励信号分为三项,第一项是依据AUV相对于障碍物距离所得到的奖励值r31,当AUV与障碍物靠近时,得到一个负奖励的警告;当AUV与障碍物距离变远时,获得一个正奖励,鼓励AUV远离障碍物航行,与障碍物碰撞时获取奖励值为-1并结束当前训练周期;
第二项是依据当前AUV与目标点的距离产生的奖励值r32,鼓励AUV在避开障碍物的同时朝着目标点航行,所以当AUV远离目标点时获取一个负奖励,靠近时获取一个正奖励,当AUV到达目标点时获取正奖励值1.0并结束训练周期;
第三项是根据AUV与当前目标所成角度α产生的奖励r33,同样鼓励AUV朝着目标点方向航行,但该项奖励主要在于让AUV学习调整艏向角靠近当前的目标艏向,减小路径长度;
r33=kCcos(α)
式中kC为墙避障过程对应的奖励系数;
最后总奖励信号就等于这三项奖励值加权:
r3=k31r31+k32r32+k33r33
其中k31-k33分别为权值;
强化学习是训练动作到环境的映射,将机器人当作环境,通过DDPG训练得到力和力矩作用于水下机器人,利用AUV模型计算得到机器人的速度和角速度,根据速度和角速度与目标速度和目标角速度的误差设计奖励值r4=-|Δv+Δψ|,Δv为速度误差、Δψ为艏向误差;同时在训练过程中的AUV模型中加入随机干扰力,从而训练出一个基于DDPG的控制系统;待控制系统训练完成后,由机器人的当前位置及目标路径,根据路径跟踪策略得到目标指令,利用DDPG控制系统控制机器人跟踪规划指令。
本发明的有益效果:
1、本发明设计的三层规划系统,将总任务分解为趋向目标和避障子行为,设计了环境状态模型和奖惩函数,通过在行为中进行策略寻优实现空间的降维,能在复杂环境模型中规划出一条安全无碰撞的路径,解决了“维数灾”问题。
同时本发明的智能化水平较高,不用依靠人工编程进行规划,不依赖与人工经验,就能够实现机器人的控制。
2、本发明将基于深度强化学习算法应用于行为规划系统,通过神经网络提取高维数据特征解决连续环境状态下的感知问题,再利用强化学习进行行为决策规划。针对隧洞探测任务需求定义了趋向目标点、墙壁跟踪和避障三个典型行为,分别为每种行为构建了行为网络,设计对应的环境状态变量和奖惩函数,针对墙角问题,提出基于虚拟目标点的跟踪方法。每种行为都达到了对应的目标,通过调用各个行为网络完成隧洞探测任务,算法稳定性高,泛化能力强。
3、本发明把AUV的动力学模型当作环境,训练力到速度的映射关系,所以本发明的控制方法不需要精确的环境模型,并解决了训练经验非常局限,在现实环境中应用困难的问题;较之于其他智能控制算法的研究,具有普遍的适应能力,只需要成功训练一次即可应用于各种作业任务。
附图说明
图1为智能水下机器人任务划分为三个层次的示意图;
图2为任务分解示意图;
图3为墙壁跟踪行为示意图;
图4为外直角墙壁环境示意图;
图5为内直角墙壁环境示意图;
图6为避障行为示意图;
图7为AUV声纳布置图。
具体实施方式
具体实施方式一:
本实施方式为一种基于强化学习的AUV行为规划及动作控制方法。
本发明定义了智能水下机器人任务的三层结构,即:任务层、行为层及动作层;在遇到突发状态时进行AUV行为规划,利用Deep Deterministic Policy Gradient(DDPG)控制器对AUV进行动作控制。
实现过程包括如下三部分内容:
(1)智能水下机器人任务分层设计;
(2)行为规划系统构建;
(3)基于DDPG控制算法设计;
进一步的,所述内容(1)的过程如下:
为完成水下机器人隧洞探测任务的分层,定义智能水下机器人隧洞探测任务、行为和动作的概念:将水下机器人探测隧洞定义为总任务;为完成总任务定义趋向目标、墙壁跟踪和避障三种典型行为;将机器人在水下航行为完成所规划的行为而产生的具体的控制指令定义为动作,如:左转n度、右转n度、以n节的速度前进等。
如图1所示,将智能水下机器人的行为规划系统的体系结构划分为三个层次:总任务层、行为层、动作层。该模型是一个由底向上的分层框架,动作层可以看作是AUV与环境交互的过程,AUV执行动作并作用于环境,规划系统通过该层获取实时的环境和自身状态数据,通过与规划系统之前的学习经历进行学习训练,更新全局规划知识。将训练样本库中关于环境状态数据的历史经验信息与当前环境状态进行对比分析,然后将对比结果和规划知识更新数据反馈到总任务层;总任务层是规划系统较高级的层次,主要分析当前环境状态并按一定的内部策略输出规划结果,以行为动作序列的形式发给行为层,也就是根据当前环境状态数据规划出行为序列;行为层为中间层,主要考虑当前动作层获取的局部的环境状态数据,按照总任务层给出的高层规划结果,按照一定的策略选择行为。综上,总任务层根据环境状态数据给出高层规划结果,行为层根据高层规划结果进一步选择行为执行,动作层中AUV再按行为策略执行基本动作,并负责感知环境状态变化,三层框架形成了一个自底向上学习的规划决策模型。
进一步的,所述内容(2)的过程如下:
AUV在执行隧洞探测任务时,按任务需求依次达到全局航路规划给出的关键路径点。但在实际作业过程中,存在部分未知的环境信息如突发障碍物、隧洞洞壁损坏造成洞壁环境的变化等,这需要AUV根据环境信息和自身状态做出及时机动以保证安全性。基于深度强化学习的行为规划系统采用一种基于反应式的规划体系结构,它通过构建环境状态和动作的映射关系,使AUV根据环境变化快速规划动作,能够提高AUV应对突发环境变化的能力。
本发明以一个智能有压输水隧洞探测AUV为研究对象,借助其配备的水声设备和传感器等探测水下环境,使用深度强化学习DQN算法进行实时行为规划:构建基于多行为网络调用的行为规划体系结构;根据任务需求定义三个基本行为的环境状态特征输入和输出动作,构建对应的深度学习的行为网络,并设计奖惩函数;在墙壁跟踪行为中,针对墙角问题,提出基于虚拟目标点的跟踪方法。
本发明针对行为层的规划问题,以隧洞探测为典型应用背景,提出了趋向目标行为、墙壁跟踪行为和避障行为三个典型行为,定义了底层的基本动作,设计行为网络,规划系统通过调用训练好的行为网络来完成隧洞探测任务。对于隧洞探测任务,该任务可以被分解为行为序列,如图2所示,全局航路规划根据先验环境信息规划出一系列可行的路径点,AUV从布放位置开始出发,依次达到各路径点。
其中航渡任务为AUV从起点到达各个路径关键点,在每段航渡任务中可以设置不同的速度约束。由于路径点为已知环境下的全局规划,因此在航渡过程中,AUV根据实时环境状态,调用避障行为安全达到路径点,因此每段航迹并不唯一。隧洞探测任务从路径点3开始到路径点4结束,AUV主要调用墙壁跟踪行为,按预定的探测目标完成任务。
此外体系结构中的感知模块(包括声呐)负责获取AUV传感器数据,根据行为需求通过解析数据,检测实时的AUV状态信息和环境信息。决策模块是整个规划系统的核心,它包含了全局数据、决策系统、行为库和评价系统。全局数据存储了任务信息、态势信息、规划知识等;决策系统也就是结合DQN算法的自学习规划系统,决策系统先进行大量的训练,在每次执行规划任务前先从行为库中提取训练好的网络参数,再以当前环境状态信息为输入,规划出当前行为动作;评价系统也就是强化学习算法的奖励函数系统,它在AUV规划一个行为动作规划并执行后,根据状态环境和任务信息给出一个奖励,所有数据存储到全局数据库中。
2.1)趋向目标
在AUV执行隧洞探测任务过程中,AUV都需要到达预先全局规划好的目标点,为保证路径最短,趋向目标点的行为是使AUV在未检测到障碍物时调整艏向角朝目标点航行,因此在趋向目标行为过程中AUV的实时艏向需要尽可能控制在目标方向附近。根据趋向目标行为的需求,如图2所示,特征输入量主要考虑AUV与目标点的位置和角度关系,具体设置为当前AUV位置坐标(xAUV,yAUV)、目标点坐标(xgoal,ygoal)、当前艏向角θ和目标艏向角β总共6维的输入。其中目标艏向角β为当AUV正向朝着目标航行时的艏向角。
2.1.1)奖惩函数设计:趋向目标行为主要驱使AUV在无障碍物环境下朝目标点航行,因此具体奖励函数设置为两项,第一项r11考虑AUV与目标点距离变化,具体为:
第二项r12考虑AUV的艏向角变化,鼓励AUV调整至目标艏向航行,艏向角越接近目标,目标值奖励值越大,当前AUV艏向与目标艏向夹角α为:
α=θ-β (2)
当α绝对值越小,获取奖励值越大,具体为:
r12=kAcos(α) (3)
式中kA为趋向目标过程对应的奖励系数;
总奖励值为两项加权:
r1=k11r11+k12r12 (4)
其中k11、k12分别为权值;
2.2)墙壁跟踪
由于大部分隧洞距离较长,整个水利工程可以达到十公里以上,且AUV一旦进入隧洞入口,就再难以进行人工干预,这就要求AUV能够根据隧洞环境自主的完成探测任务。为避免发生碰撞,AUV需要距离墙壁一定安全距离,并且在水下受光源和能见度等限制,AUV到墙壁之间的距离也直接影响图像采集的质量,因此就要求AUV具备延墙壁航行并保持一定距离的功能。
2.2.1)根据上述AUV墙壁跟踪功能的需求,这种行为主要考虑AUV与墙壁距离和相对角度信息。如图3所示,以AUV跟踪自身右侧墙壁航行为例,AUV依靠右侧布置的前后两个测距声呐获取AUV到墙壁的距离x4和x5;
本实施方式中AUV共设置7个测距声呐,如图7所示,其中AUV前端设置三个前视声呐(图7中的①②③),AUV两侧各设有两个声呐(图7中的④⑤和⑥⑦),每侧的两个声呐分别在前、后各设有一个,前端的称为前端声呐,后端的称为后端声呐。
通过磁罗经获取当前AUV艏向角θ,则推算出当前墙壁角度θwall:
式中lAUV为前后两个声呐的距离,墙壁跟踪行为的环境状态特征输入设置为x1、x2、x3、x4、x5、θ、θwall和目标跟踪距离lgoal,其中,x1-x5分别三个前视声呐和一侧设置的前后声呐(本实施方式中表示编号①-⑤声纳)所测得的数据;特征输入量个数为8,包括前视声呐和侧面声呐的数据,前视声呐主要用于探测墙角环境下的前方墙壁距离x1,以上特征变量可以完整地描述AUV与墙壁之间状态关系。声呐数据通过设置距离阈值进行判断,在训练过程中超出阈值则结束当前训练周期。
2.2.2)奖惩函数设计:在AUV墙壁跟踪行为学习中,奖惩函数的目的是使AUV能够尽量保持与墙壁平行,与墙壁所成角度维持在0°附近,并与墙壁保持在一定距离范围内。考虑以上因素,基于虚拟目标点的墙壁跟踪行为的奖励信号主要设置为四项,一般的墙壁跟踪行为的奖励信号主要设置为两项。
一项考虑AUV与当前墙壁所成角度如公式(6),当AUV与墙壁角度增大并超过阈值时,获取一个负奖励值,当在减小时获取一个正奖励值:
第二项考虑AUV前后两端与墙壁距离如公式(7),当AUV与墙壁距离与预设值的差值减小,则获取一个正奖励,当差值增大时获取一个负奖励,允许跟踪距离在预设值的±0.2m范围内,当进入跟踪范围内此项奖励值为0,这里与墙壁距离值为同侧面两个测距声呐数据的平均值。
一般的墙壁跟踪行为总的奖励r即为两项奖励加权:
r2=k21r21+k22r22 (8)
其中k21-k22分别为权值;
2.2.3)基于虚拟目标点的跟踪方法:一般墙壁环境下,墙壁跟踪行为只需要考虑目标艏向角和目标跟踪距离,与趋向目标和避障行为不同的是,它没有实际目标点的引导,因此在墙角等特殊环境无法给出正确规划结果。墙角问题是AUV墙壁跟踪行为的主要难点,本发明主要考虑两种墙角环境:外直角和内直角环境。由于墙角环境的特殊性,在外直角跟踪时,AUV靠前的测距声呐会出现检测不到墙壁的情况,使AUV不能及时调整艏向角而丢失目标,在内侧墙角时,基本奖惩函数设计没有考虑前方墙壁障碍物而发生碰撞。
针对此问题,本发明提出构建虚拟目标点来引导AUV墙壁跟踪的方法。如图4和图5所示,为外直角和内直角墙壁构建的虚拟目标点。当环境为外直角时,由于前侧的声呐在没有检测到障碍物时输入为最大探测距离,因此构建虚拟墙壁如虚线所示,并在此基础上添加虚拟目标点。虚拟目标点位置由AUV位置、测距声呐数据和安全距离L1确定:
Xgoal=xAUV+0.5(x4+x5)cos(θ)+[0.5lAUVarcsin(θ+θwall)+L1]cos(θwall)-lgoalsin(θwall) (9)
Ygoal=yAUV-0.5(x4+x5)sin(θ)+[0.5lAUVarcsin(θ+θwall)+L1]sin(θwall)+lgoalcos(θwall) (10)
当环境为内直角时,如图5所示,无法构建虚拟墙壁,考虑AUV需要及时转向以避开前方墙壁障碍物,当前视声呐检测到墙壁时,在AUV相对当前目标墙壁的另一侧构建虚拟目标点,虚拟目标点位置由AUV位置、艏向角和安全距离L2确定:
Xgoal=xAUV+0.5lAUVcos(θ)-L2sin(θ) (11)
Ygoal=yAUV+0.5lAUVsin(θ)+L2cos(θ) (12)
在两种环境中都设置了安全距离L1和L2,取值大小经过仿真试验确定在目标跟踪距离左右,行为规划效果较好。根据虚拟目标点构建奖惩函数为:
r24=kBcos(α) (14)
式中kB为墙壁跟踪过程对应的奖励系数;
基于虚拟目标点的跟踪行为总的奖励r即为四项奖励加权:
r2=k21r21+k22r22+k23r23+k24r24 (15)
其中k23-k24分别为权值;
奖惩系数k23和k24值相对比较大,使得AUV在墙角环境时更倾向于虚拟目标点的引导。当AUV逐渐调整至跟踪下一段墙壁时,即外直角环境中测距声呐重新检测到目标墙壁或内直角环境中前视声呐不再检测到前方墙壁时,则取消虚拟目标点,调用一般的墙壁跟踪行为网络。
2.3)避障
避障行为是行为规划系统的关键,体现AUV自主决策水平能力,决定着AUV能否安全地执行作业任务。
2.3.1)针对AUV避障行为的需求,如图6所示,行为规划系统需要充分获取周围的障碍物环境信息,因此环境状态特征输入包括三个前视声呐和两侧分别设置的前端声呐的数据。AUV在避障机动过程中应同时向目标点方向靠近,需要获取AUV与目标点的相对位置信息,因此特征输入还包括AUV的当前位置坐标(xAUV,yAUV)、目标点位置坐标(xgoal,ygoal)、当前艏向角θ和目标艏向角β总共11维的输入。
2.3.2)奖惩函数设计:避障行为的目的在于让AUV有效避开突发障碍物并顺利到达目标点,因此将奖励信号分为三项,第一项是依据AUV相对于障碍物距离所得到的奖励值r31,如公式16所示,当AUV与障碍物靠近时,得到一个负奖励的警告;当AUV与障碍物距离变远时,获得一个正奖励,鼓励AUV远离障碍物航行,与障碍物碰撞时获取奖励值为-1并结束当前训练周期。
第二项是依据当前AUV与目标点的距离产生的奖励值r32,鼓励AUV在避开障碍物的同时朝着目标点航行,所以当AUV远离目标点时获取一个负奖励,靠近时获取一个正奖励,当AUV到达目标点时获取正奖励值1.0并结束训练周期。
第三项是根据AUV与当前目标所成角度α产生的奖励r33,同样鼓励AUV朝着目标点方向航行,但该项奖励主要在于让AUV学习调整艏向角靠近当前的目标艏向,减小路径长度。
r33=kCcos(α) (18)
式中kC为避障过程对应的奖励系数;
最后总奖励信号就等于这三项奖励值加权:
r3=k31r31+k32r32+k33r33 (19)
其中k31-k33分别为权值;
进一步的,所述内容(3)的过程如下:
强化学习是训练动作到环境的映射,可以通过把机器人模型当作环境模型,训练动作到机器人模型的映射。所以本发明直接将机器人当作环境,建立一个模糊水动力参数的机器人运动学及动力学模型,即AUV模型,通过DDPG训练得到力和力矩作用于水下机器人,利用AUV模型计算得到机器人的速度和角速度,根据速度和角速度与目标速度和目标角速度的误差设计奖励值r4=-|Δv+Δψ|,Δv为速度误差、Δψ为艏向误差。同时训练过程中的AUV模型中加入随机干扰力以模拟水下动态多变的环境,从而训练出一个基于DDPG的具有抗干扰能力的完整的控制系统。待控制系统训练完成后,由机器人的当前位置及目标路径,根据路径跟踪策略得到目标指令,利用DDPG控制系统控制机器人跟踪规划指令。
所述DDPG的控制系统对应动作网络,Deep Deterministic Policy Gradient(DDPG)是将Actor Critic与DQN相结合的一种算法,提高了Actor Critic的稳定性和收敛性。其思想是将DQN结构中的记忆库以及两套结构相同但参数更新频率不同的神经网络思想运用到Actor Critic中。同时利用Deterministic思想改变了原来Actor Critic在连续动作区间上进行随机筛选的方式,只在连续区间上输出一个动作值。
对于Critic系统,Critic的学习过程跟DQN类似,以现实的Q值和估计的Q值的损失函数来进行网络学习,如下式:
loss=R+γmaxa Q(s′,a)-Q(s,a) (20)
上面的式子中Q(s,a)是根据状态估计网络得到的,a是动作估计网络传过来的动作。而前面部分R+γmaxaQ(s′,a)是现实的Q值,与DQN不同的是,这里计算Q值时,不再使用贪心算法来选择动作a′,而是动作现实网络得到这里的a′。总的来说,Critic的状态估计网络的训练还是基于现实的Q值和估计的Q值的平方损失,估计的Q值根据当前的状态s和动作估计网络输出的动作a输入状态估计网络得到,而现实的Q值根据现实的奖励R,以及将下一时刻的状态s′和动作现实网络得到的动作a′输入到状态现实网络而得到的Q值加和得到。
在Actor系统中,基于下式进行动作估计网络的参数更新
s表示状态,st为t时刻的状态,a表示动作,θQ和θμ表示网络的权重参数;
假如对于同一个状态,系统输出了两个不同的动作a1和a2,从状态估计网络得到了两个反馈的Q值,分别是Q1和Q2,假设Q1>Q2,即采取动作1可以得到更多的奖励,那么根据Policy gradient的思想,增加a1的概率,降低a2的概率,也就是说,Actor想要尽可能的得到更大的Q值。所以Actor的损失可以简单的理解为得到的反馈Q值越大损失越小,得到的反馈Q值越小损失越大,因此需要对状态估计网络返回的Q值取个负号即可。
DDPG控制器的思想是将强化学习算法中的动作对应于机器人的推力及力矩,将算法中的状态对应于机器人的速度及角速度。对算法进行学习训练从而实现力到状态的映射关系。
将DDPG应用于AUV控制,首先需要建立Critic神经网络结构Q(stat|θQ)及Actor神经网络结构μ(st|θμ),θQ和θμ表示网络的权重参数。然后分别在Critic和Actor两个结构中建立两个神经网络:目标网络(target_net)和预测网络(eval_net)。然后将DDPG的动作输出看作控制系统的作用力τ,控制系统输出的作用力控制机器人运动,即可以将DDPG控制系统看作是AUV当前状态s到机器人所受力的映射,结合公式(21)中的a=μ(st|θμ)用函数表示为:
τ=μ(st|θμ) (20)
机器人状态s主要体现于机器人的速度和艏向:
其中u,v,r分别为AUV的纵向速度、横向速度和角速度;ψ为AUV的艏向角;
因为是水平面运动,忽略v、r;所以,
τ=μ(st)=μ(u(t),ψ(t)) (24)
该式即表示控制系统输出力控制机器人的速度、艏向和纵倾角达到目标指令。
具体实施方式二:
具体实施方式一中所述的建立一个模糊水动力参数的AUV模型的过程就是普通的AUV动力学建模过程,采用本领域的现有技术即可实现,为了使用上述过程更加清楚,本实施方式对建立一个模糊水动力参数的AUV模型的过程进行说明,需要说明的是,本发明包括但不限于以下方式建立一个模糊水动力参数的AUV模型。建立一个模糊水动力参数的AUV模型的过程包括以下步骤:
建立水下机器人的水动力方程:
其中,f—随机干扰力;M—系统惯性系数矩阵,满足M=MRB+MA≥0;MRB—载体的惯性矩阵,满足且MA—附加质量系数矩阵,满足—科氏力-向心力系数矩阵,满足CRB—向心力系数矩阵;—科氏力(矩)系数矩阵,满足—粘性水动力系数矩阵,满足τ—控制输入向量;g0—静压载向量,为了研究方便取零;—回复力/力矩向量。
根据智能水下机器人的执行机构配置情况考虑其横摇较小,主要利用推进器做升潜、纵移、摇艏和纵摇运动,其动力学模型可以近似用五自由度方程来描述。
式中X、Y、Z、M、N表示水下机器人执行器产生的作用在水下机器人各个自由度上的力(力矩),包括:水下机器人受到的重力和浮力、推进器的推力、水下机器人运动引起的流体水动力和一些环境外力;
M为水下机器人水下全排水量的质量;
xG,yG,zG为水下机器人重心在艇体坐标系中的坐标;
Iy,Iz分别为水下机器人质量相对于艇体坐标系y,z轴的转动惯量;
u,v,ω,q,r分别为水下机器人艇体坐标系下纵向速度、横向速度、垂向速度、纵倾角速度、回转角速度;
为水下机器人艇体坐标系下相应自由度的(角)加速度;
Xuu,Yv等都为艇体的一阶或二阶水动力导数,可以通过理论计算、约束模型试验、辨识及近似估算可以得到。
实施例
本发明的最主要的目的是让水下机器人在水下环境中根据当前环境状态自主完成行为决策及动作控制,从而使人摆脱繁杂的编程过程,具体实现过程如下:
1)利用编程软件搭建基于深度强化学习的智能水下机器人的行为规划仿真系统,通过仿真训练的得到机器人的最优决策策略,具体步骤如下:
1.1)建立环境模型,确定初始位置和目标点,初始化算法参数;
1.2)确定当前t时刻环境状态以及机器人任务,将任务分解为行为:趋向目标、墙壁跟踪、避障;
1.3)根据当前状态选择趋向目标、墙壁跟踪或避障,将行为分解为动作;
1.4)执行动作a,观察新的状态s′,得到奖励值R;
1.5)训练神经网络得到各个动作的Q值,根据最大Q值输出动作;
1.6)更新Q函数;
1.7)判断当前时刻状态,若抵达目标状态,转1.8);否则转1.4);
1.8)完成所选择的行为,更新Q函数;
1.9)判断是否完成探测,若是,转1.10),否则,返回1.3);
1.10)判断Q值是否收敛,若是,结束训练或规划,否则,初始化机器人位置,转1.2);
2)利用DDPG控制器控制机器人完成规划所输出的动作,具体步骤如下:
2.1)初始化参数;
2.2)进行外部循环:
2.2.1)随机生成目标艏向、目标速度;
2.2.2)进行内部循环:
2.2.2.1)运行DDPG算法,输出动作τ=a=μ(st|θμ);
2.2.2.2)根据AUV动力学模型计算AUV的加速度:
2.2.2.3)根据AUV运动学模型计算AUV速度及艏向角及纵倾角计算速度误差Δv、艏向误差Δψ及纵倾误差Δθ,根据奖励策略获取奖励值:r=-|Δv+Δψ+Δθ|;
2.2.2.4)如果控制误差为0,r+=1,结束小循环;
2.2.2.5)更新critic神经网络以获取最小损失:
loss=R+γmaxaQ(s′,at|θQ)-Q(s,at|θQ)
2.2.2.6)用梯度下降法更新actor:
2.2.2.7)更新网络参数θQ′=ρθQ+(1-ρ)θQ′,θμ′=ρθμ+(1-ρ)θμ′
2.2.2.8)若达到内部循环步数,结束内部循环;
2.2.3)若达到外部循环步数,结束外部循环。
Claims (7)
1.一种基于强化学习的AUV行为规划及动作控制方法,其特征在于,包括以下步骤:
水下机器人探测隧洞定义为总任务,即任务;完成任务对应的行为包括:趋向目标、墙壁跟踪和避障;将机器人在水下需要完成所规划的行为而产生的具体的控制指令定义为动作;
AUV在执行隧洞探测任务时,根据探测的水下环境,使用深度强化学习DQN算法进行实时行为规划:构建基于多行为网络调用的行为规划体系结构;根据任务需求定义三个行为的环境状态特征输入和输出动作,构建对应的深度学习的行为网络,并设计奖惩函数;
规划系统通过调用训练好的行为网络来完成隧洞探测任务;
控制系统通过调用训练好的动作网络来完成所规划出的行为。
2.根据权利要求1所述的一种基于强化学习的AUV行为规划及动作控制方法,其特征在于,构建对应的深度学习的行为网络并设计奖惩函数的过程包括以下步骤:
对于隧洞探测任务,任务被分解为行为序列,全局航路规划根据先验环境信息规划出一系列可行的路径点,AUV从布放位置开始出发,依次达到各路径点;
由于路径点为已知环境下的全局规划,因此在航渡过程中,AUV根据实时环境状态,调用避障行为安全达到路径点;隧洞探测任务中AUV主要调用墙壁跟踪行为,按预定的探测目标完成任务;
决策模块包含全局数据、决策系统、行为库和评价系统;全局数据存储了任务信息、态势信息、规划知识;决策系统是结合DQN算法的自学习规划系统,决策系统先进行训练,在每次执行规划任务前先从行为库中提取训练好的网络参数,再以当前环境状态信息为输入,规划出当前行为动作;评价系统是强化学习算法的奖励函数系统,它在AUV规划一个行为动作规划并执行后,根据状态环境和任务信息给出一个奖励,所有数据存储到全局数据库中;
所述行为中的趋向目标过程包括以下步骤:
趋向目标点的行为是使AUV在未检测到障碍物时调整艏向角朝目标点航行,特征输入量主要考虑AUV与目标点的位置和角度关系,具体设置为当前AUV位置坐标(xAUV,yAUV)、目标点坐标(xgoal,ygoal)、当前艏向角θ和目标艏向角β总共6维的输入;其中目标艏向角β为当AUV正向朝着目标航行时的艏向角;
奖惩函数:趋向目标行为驱使AUV在无障碍物环境下朝目标点航行,奖励函数设置为两项,第一项r11考虑AUV与目标点距离变化:
第二项r12考虑AUV的艏向角变化,艏向角越接近目标,目标值奖励值越大,当前AUV艏向与目标艏向夹角α为:
α=θ-β (2)
当α绝对值越小,获取奖励值越大,具体为:
r12=kAcos(α) (3)
式中kA为趋向目标过程对应的奖励系数;
总奖励值为两项加权:
r1=k11r11+k12r12 (4)
其中k11、k12分别为权值;
所述行为中的墙壁跟踪过程包括以下步骤:
AUV墙壁跟踪行为考虑AUV与墙壁距离和相对角度信息;AUV依靠一侧布置的前后两个测距声呐获取AUV到墙壁的距离x4和x5;
通过磁罗经获取当前AUV艏向角θ,则推算出当前墙壁角度θwall:
式中lAUV为前后两个声呐的距离,墙壁跟踪行为的环境状态特征输入设置为x1、x2、x3、x4、x5、θ、θwall和目标跟踪距离lgoal,其中,x1-x5分别三个前视声呐和一侧设置的前后声呐所测得的数据;特征输入量个数为8,以上特征变量可以完整地描述AUV与墙壁之间状态关系;声呐数据通过设置距离阈值进行判断,在训练过程中超出阈值则结束当前训练周期;
奖惩函数:使AUV能够尽量保持与墙壁平行,并与墙壁保持在一定距离范围内;基于虚拟目标点的墙壁跟踪行为的奖励信号主要设置为四项,一般的墙壁跟踪行为的奖励信号主要设置为两项;
一项考虑AUV与当前墙壁所成角度如公式(6),当AUV与墙壁角度增大并超过阈值时,获取一个负奖励值,当在减小时获取一个正奖励值:
第二项考虑AUV前后两端与墙壁距离如公式(7),当AUV与墙壁距离与预设值的差值减小,则获取一个正奖励,当差值增大时获取一个负奖励,允许跟踪距离在预设值的±0.2m范围内,当进入跟踪范围内此项奖励值为0,这里与墙壁距离值为同侧面两个测距声呐数据的平均值;
一般的墙壁跟踪行为总的奖励r即为两项奖励加权:
r2=k21r21+k22r22 (8)
其中k21-k22分别为权值;
基于虚拟目标点的跟踪:为外直角和内直角墙壁构建的虚拟目标点;当环境为外直角时,由于前侧的声呐在没有检测到障碍物时输入为最大探测距离,构建虚拟墙壁,添加虚拟目标点;当环境为内直角时,当前视声呐检测到墙壁时,在AUV相对当前目标墙壁的另一侧构建虚拟目标点;
根据虚拟目标点构建奖惩函数为:
r24=kBcos(α)
式中kB为墙壁跟踪过程对应的奖励系数;
基于虚拟目标点的跟踪行为总的奖励r即为四项奖励加权:
r2=k21r21+k22r22+k23r23+k24r24
其中k23-k24分别为权值;
当AUV逐渐调整至跟踪下一段墙壁时,如外直角环境中测距声呐重新检测到目标墙壁或内直角环境中前视声呐不再检测到前方墙壁时,则取消虚拟目标点,调用一般的墙壁跟踪行为网络;
所述行为中的避障过程包括以下步骤:
针对AUV避障行为的需求,环境状态特征输入包括三个前视声呐和两侧分别设置的前端声呐的数据;AUV在避障机动过程中应同时向目标点方向靠近,特征输入还包括AUV的当前位置坐标(xAUV,yAUV)、目标点位置坐标(xgoal,ygoal)、当前艏向角θ和目标艏向角β总共11维的输入;
奖惩函数:将奖励信号分为三项,第一项是依据AUV相对于障碍物距离所得到的奖励值r31,当AUV与障碍物靠近时,得到一个负奖励的警告;当AUV与障碍物距离变远时,获得一个正奖励,鼓励AUV远离障碍物航行,与障碍物碰撞时获取奖励值为-1并结束当前训练周期;
第二项是依据当前AUV与目标点的距离产生的奖励值r32,鼓励AUV在避开障碍物的同时朝着目标点航行,所以当AUV远离目标点时获取一个负奖励,靠近时获取一个正奖励,当AUV到达目标点时获取正奖励值1.0并结束训练周期;
第三项是根据AUV与当前目标所成角度α产生的奖励r33,同样鼓励AUV朝着目标点方向航行,但该项奖励主要在于让AUV学习调整艏向角靠近当前的目标艏向,减小路径长度;
r33=kCcos(α)
式中kC为墙避障过程对应的奖励系数;
最后总奖励信号就等于这三项奖励值加权:
r3=k31r31+k32r32+k33r33
其中k31-k33分别为权值;
强化学习是训练动作到环境的映射,将机器人当作环境,通过DDPG训练得到力和力矩作用于水下机器人,利用AUV模型计算得到机器人的速度和角速度,根据速度和角速度与目标速度和目标角速度的误差设计奖励值r4=-|Δv+Δψ|,Δv为速度误差、Δψ为艏向误差;同时在训练过程中的AUV模型中加入随机干扰力,从而训练出一个基于DDPG的控制系统;待控制系统训练完成后,由机器人的当前位置及目标路径,根据路径跟踪策略得到目标指令,利用DDPG控制系统控制机器人跟踪规划指令。
3.根据权利要求2所述的一种基于强化学习的AUV行为规划及动作控制方法,其特征在于,所述为外直角和内直角墙壁构建的虚拟目标点的过程中,当环境为外直角时,所述虚拟目标点位置由AUV位置、测距声呐数据和安全距离L1确定:
Xgoal=xAUV+0.5(x4+x5)cos(θ)+[0.5lAUVarcsin(θ+θwall)+L1]cos(θwall)-lgoalsin(θwall)
Ygoal=yAUV-0.5(x4+x5)sin(θ)+[0.5lAUVarcsin(θ+θwall)+L1]sin(θwall)+lgoalcos(θwall)。
4.根据权利要求3所述的一种基于强化学习的AUV行为规划及动作控制方法,其特征在于,所述为外直角和内直角墙壁构建的虚拟目标点的过程中,当环境为内直角时,所述虚拟目标点位置由AUV位置、艏向角和安全距离L2确定:
Xgoal=xAUV+0.5lAUVcos(θ)-L2sin(θ)
Ygoal=yAUV+0.5lAUVsin(θ)+L2cos(θ)。
5.根据权利要求2、3或4所述的一种基于强化学习的AUV行为规划及动作控制方法,其特征在于,所述利用DDPG控制系统控制机器人跟踪规划指令的过程包括以下步骤:
DDPG控制器将强化学习算法中的动作对应于机器人的推力及力矩,将算法中的状态对应于机器人的速度及角速度;对算法进行学习训练从而实现力到状态的映射关系;
将DDPG应用于AUV控制首先需要建立Critic神经网络结构Q(stat|θQ)及Actor神经网络结构μ(st|θμ),θQ和θμ表示网络的权重参数;分别在Critic和Actor两个结构中建立两个神经网络:目标网络target_net和预测网络eval_net;然后将DDPG的动作输出看作控制系统的作用力τ,控制系统输出的作用力控制机器人运动,结合a=μ(st|θμ)用函数表示为:
τ=μ(st|θμ)
机器人状态s主要体现于机器人的速度和艏向:
v=[u,v,r]
ψ=[0,θ,ψ]
其中u,v,r分别为AUV的纵向速度、横向速度和角速度;ψ为AUV的艏向角;
忽略v、r,
τ=μ(st)=μ(u(t),ψ(t))
该式表示控制系统输出力控制机器人的速度、艏向和纵倾角达到目标指令。
6.根据权利要求5所述的一种基于强化学习的AUV行为规划及动作控制方法,其特征在于,所述Critic中,以现实的Q值和估计的Q值的损失函数来进行网络学习:
loss=R+γmaxaQ(s′,a)-Q(s,a)
上面的式子中Q(s,a)是根据状态估计网络得到的,a是动作估计网络传过来的动作;R+γmaxaQ(s′,a)是现实的Q值,现实的Q值根据现实的奖励R以及将下一时刻的状态s′和动作现实网络得到的动作a′输入到状态现实网络而得到的Q值加和得到。
7.根据权利要求6所述的一种基于强化学习的AUV行为规划及动作控制方法,其特征在于,所述Actor中,基于下式进行动作估计网络的参数更新
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910775602.7A CN110333739B (zh) | 2019-08-21 | 2019-08-21 | 一种基于强化学习的auv行为规划及动作控制方法 |
JP2020139299A JP6854549B2 (ja) | 2019-08-21 | 2020-08-20 | 強化学習に基づくauv行動計画及び動作制御の方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910775602.7A CN110333739B (zh) | 2019-08-21 | 2019-08-21 | 一种基于强化学习的auv行为规划及动作控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110333739A true CN110333739A (zh) | 2019-10-15 |
CN110333739B CN110333739B (zh) | 2020-07-31 |
Family
ID=68150103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910775602.7A Active CN110333739B (zh) | 2019-08-21 | 2019-08-21 | 一种基于强化学习的auv行为规划及动作控制方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6854549B2 (zh) |
CN (1) | CN110333739B (zh) |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110658827A (zh) * | 2019-10-25 | 2020-01-07 | 嘉应学院 | 一种基于物联网的运输车自动引导系统及其方法 |
CN110909859A (zh) * | 2019-11-29 | 2020-03-24 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
CN111079936A (zh) * | 2019-11-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN111142522A (zh) * | 2019-12-25 | 2020-05-12 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
CN111198568A (zh) * | 2019-12-23 | 2020-05-26 | 燕山大学 | 一种基于q学习的水下机器人避障控制方法 |
CN111240345A (zh) * | 2020-02-11 | 2020-06-05 | 哈尔滨工程大学 | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 |
CN111273677A (zh) * | 2020-02-11 | 2020-06-12 | 哈尔滨工程大学 | 一种基于强化学习技术的自主水下机器人速度和艏向控制方法 |
CN111290270A (zh) * | 2020-02-11 | 2020-06-16 | 哈尔滨工程大学 | 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法 |
CN111638646A (zh) * | 2020-05-29 | 2020-09-08 | 平安科技(深圳)有限公司 | 四足机器人行走控制器训练方法、装置、终端及存储介质 |
CN111667513A (zh) * | 2020-06-01 | 2020-09-15 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
CN111813143A (zh) * | 2020-06-09 | 2020-10-23 | 天津大学 | 一种基于强化学习的水下滑翔机智能控制系统及方法 |
CN111982117A (zh) * | 2020-08-17 | 2020-11-24 | 电子科技大学 | 一种基于深度学习的auv光学引导与测向方法 |
CN112162564A (zh) * | 2020-09-25 | 2021-01-01 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112241176A (zh) * | 2020-10-16 | 2021-01-19 | 哈尔滨工程大学 | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 |
CN112347961A (zh) * | 2020-11-16 | 2021-02-09 | 哈尔滨工业大学 | 水流体内无人平台智能目标捕获方法及系统 |
CN112526524A (zh) * | 2020-12-09 | 2021-03-19 | 青岛澎湃海洋探索技术有限公司 | 一种基于前视声纳图像和auv平台的水下渔网检测方法 |
CN112560671A (zh) * | 2020-12-15 | 2021-03-26 | 哈尔滨工程大学 | 基于旋转卷积神经网络的船舶检测方法 |
CN112731804A (zh) * | 2019-10-29 | 2021-04-30 | 北京京东乾石科技有限公司 | 一种实现路径跟随的方法和装置 |
CN113052372A (zh) * | 2021-03-17 | 2021-06-29 | 哈尔滨工程大学 | 一种基于深度强化学习的动态auv追踪路径规划方法 |
CN113050430A (zh) * | 2021-03-29 | 2021-06-29 | 浙江大学 | 一种基于鲁棒强化学习的排水系统控制方法 |
WO2021135554A1 (zh) * | 2019-12-31 | 2021-07-08 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
CN113093773A (zh) * | 2021-06-10 | 2021-07-09 | 深之蓝海洋科技股份有限公司 | 基于水下机器人的水下结构检测方法、系统、设备及介质 |
CN113177366A (zh) * | 2021-05-28 | 2021-07-27 | 华北电力大学 | 一种综合能源系统规划方法、装置和终端设备 |
CN113252028A (zh) * | 2021-06-28 | 2021-08-13 | 深之蓝海洋科技股份有限公司 | 输水隧洞内机器人的定位方法、电子设备及存储介质 |
CN113268933A (zh) * | 2021-06-18 | 2021-08-17 | 大连理工大学 | 基于强化学习的蛇形急救机器人结构参数快速设计方法 |
CN113268074A (zh) * | 2021-06-07 | 2021-08-17 | 哈尔滨工程大学 | 一种基于联合优化的无人机航迹规划方法 |
CN113406957A (zh) * | 2021-05-19 | 2021-09-17 | 成都理工大学 | 基于免疫深度强化学习的移动机器人自主导航方法 |
CN113552881A (zh) * | 2021-07-15 | 2021-10-26 | 浙江工业大学 | 一种用于神经网络训练的多路径规划数据集生成方法 |
CN113791612A (zh) * | 2021-08-17 | 2021-12-14 | 中南民族大学 | 智能体实时路径规划方法、装置、设备及存储介质 |
CN113799949A (zh) * | 2020-06-11 | 2021-12-17 | 中国科学院沈阳自动化研究所 | 一种基于q学习的auv浮力调节方法 |
CN114139675A (zh) * | 2021-12-08 | 2022-03-04 | 中国科学技术大学 | 提升智能体控制中选择可靠动作准确性的方法 |
CN114995468A (zh) * | 2022-06-06 | 2022-09-02 | 南通大学 | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 |
CN115135358A (zh) * | 2020-02-27 | 2022-09-30 | 美国西门子医学诊断股份有限公司 | 使用机器学习的自动传感器追踪验证 |
CN115178944A (zh) * | 2022-08-04 | 2022-10-14 | 广东工业大学 | 一种安全强化学习的狭窄空间机器人作业规划方法 |
CN115291616A (zh) * | 2022-07-25 | 2022-11-04 | 江苏海洋大学 | 一种基于近端策略优化算法的auv动态避障方法 |
CN115314854A (zh) * | 2022-08-08 | 2022-11-08 | 广东智能无人系统研究院 | 一种海上风电水下设施无人巡检系统及方法 |
CN115586782A (zh) * | 2022-10-17 | 2023-01-10 | 湖南大学 | 一种自主式水下机器人运动控制方法及装置 |
CN115657678A (zh) * | 2022-10-28 | 2023-01-31 | 中国船舶重工集团公司第七一九研究所 | 面向复杂动态环境的水下无人潜航器航迹生成方法及系统 |
CN115855226A (zh) * | 2023-02-24 | 2023-03-28 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
CN116301027A (zh) * | 2023-02-08 | 2023-06-23 | 北京航空航天大学 | 一种基于安全强化学习的城市空域内无人机路径规划方法 |
CN118466569A (zh) * | 2024-07-10 | 2024-08-09 | 中南大学 | 基于区间理论的高超声速变体飞行器预设性能控制方法 |
US12124325B2 (en) | 2021-02-25 | 2024-10-22 | Siemens Healthcare Diagnostics Inc. | Automatic sensor trace validation using machine learning |
Families Citing this family (93)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515119A (zh) * | 2021-04-25 | 2021-10-19 | 华北电力大学 | 一种基于强化学习的变电站内巡检机器人路径规划方案 |
CN113290557A (zh) * | 2021-05-21 | 2021-08-24 | 南京信息工程大学 | 一种基于数据驱动的蛇形机器人控制方法 |
CN115494831B (zh) * | 2021-06-17 | 2024-04-16 | 中国科学院沈阳自动化研究所 | 一种人机自主智能协同的跟踪方法 |
CN113283181B (zh) * | 2021-06-28 | 2024-02-27 | 上海海事大学 | 一种障碍物和海流环境中多auv快速围捕方法 |
CN113821903B (zh) * | 2021-07-09 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 温度控制方法和设备、模块化数据中心及存储介质 |
CN113916254B (zh) * | 2021-07-22 | 2024-08-09 | 北京控制工程研究所 | 一种停靠式抓捕的航天器自主交会对接试验方法 |
CN113592162B (zh) * | 2021-07-22 | 2023-06-02 | 西北工业大学 | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 |
CN113589842B (zh) * | 2021-07-26 | 2024-04-19 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
CN113592958A (zh) * | 2021-08-13 | 2021-11-02 | 大连海事大学 | 一种基于单目视觉的auv对接坞站光学引导方法 |
CN113573235A (zh) * | 2021-08-16 | 2021-10-29 | 苏州云享阁智能科技有限公司 | 一种基于ddpg算法获得最优资源分配以提升定位精度的方法 |
CN113836788B (zh) * | 2021-08-24 | 2023-10-27 | 浙江大学 | 基于局部数据增强的流程工业强化学习控制的加速方法 |
CN113671834B (zh) * | 2021-08-24 | 2023-09-01 | 郑州大学 | 一种机器人柔性行为决策方法及设备 |
CN113433953A (zh) * | 2021-08-25 | 2021-09-24 | 北京航空航天大学 | 多机器人协同避障方法、装置和智能机器人 |
CN114003029B (zh) * | 2021-09-12 | 2023-06-30 | 西北工业大学 | 一种声光融合导引的自主水下航行器鲁棒对接回收方法 |
CN113741533A (zh) * | 2021-09-16 | 2021-12-03 | 中国电子科技集团公司第五十四研究所 | 一种基于模仿学习与强化学习的无人机智能决策系统 |
CN113821035A (zh) * | 2021-09-22 | 2021-12-21 | 北京邮电大学 | 无人船轨迹追踪控制方法和装置 |
CN113848974B (zh) * | 2021-09-28 | 2023-08-15 | 西安因诺航空科技有限公司 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
CN114296440B (zh) * | 2021-09-30 | 2024-04-09 | 中国航空工业集团公司北京长城航空测控技术研究所 | 一种融合在线学习的agv实时调度方法 |
CN113848927A (zh) * | 2021-10-07 | 2021-12-28 | 兰州理工大学 | 一种自主规划路径的自动驾驶系统 |
CN113919217B (zh) * | 2021-10-08 | 2024-05-17 | 南开大学 | 自抗扰控制器自适应参数整定方法及装置 |
CN113771044B (zh) * | 2021-10-09 | 2022-11-11 | 北京卫星环境工程研究所 | 一种机器人末端负载动态受力感知方法 |
CN113829351B (zh) * | 2021-10-13 | 2023-08-01 | 广西大学 | 一种基于强化学习的移动机械臂的协同控制方法 |
CN113848946B (zh) * | 2021-10-20 | 2023-11-03 | 郑州大学 | 一种基于神经调节机制的机器人行为决策方法及设备 |
CN113885564A (zh) * | 2021-10-20 | 2022-01-04 | 哈尔滨工程大学 | 一种基于大数据的组队循迹规划导航方法 |
CN114063624A (zh) * | 2021-10-22 | 2022-02-18 | 中国船舶重工集团公司第七一九研究所 | 一种爬游无人潜水器多模式规划运动控制器及其控制方法 |
CN113867396B (zh) * | 2021-10-22 | 2024-04-26 | 吉林大学 | 一种网联无人机航线规划与航线平滑方法及装置 |
CN114020013B (zh) * | 2021-10-26 | 2024-03-15 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
CN113985876B (zh) * | 2021-10-27 | 2023-09-26 | 广州大学 | 基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统 |
CN114019805B (zh) * | 2021-11-17 | 2023-05-23 | 九江职业技术学院 | 一种欠驱动auv的模型预测对接控制方法 |
CN114089633B (zh) * | 2021-11-19 | 2024-04-26 | 江苏科技大学 | 一种水下机器人多电机耦合驱动控制装置及方法 |
CN114077258B (zh) * | 2021-11-22 | 2023-11-21 | 江苏科技大学 | 一种基于强化学习ppo2算法的无人艇位姿控制方法 |
CN113885549B (zh) * | 2021-11-23 | 2023-11-21 | 江苏科技大学 | 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法 |
CN114200833B (zh) * | 2021-11-24 | 2024-04-12 | 华中科技大学 | 一种基于观测器的机器人网络动态区域覆盖的控制方法 |
CN114155298B (zh) * | 2021-12-09 | 2024-05-17 | 山东大学 | 一种基于主动感知的机器人堵漏方法及系统 |
CN114153216B (zh) * | 2021-12-14 | 2023-10-03 | 浙江大学湖州研究院 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
CN114692890B (zh) * | 2021-12-24 | 2024-06-25 | 中国人民解放军军事科学院战争研究院 | 基于模型的权值组合规划值扩展的方法 |
CN114355915B (zh) * | 2021-12-27 | 2024-04-02 | 杭州电子科技大学 | 一种基于深度强化学习的agv路径规划 |
CN114355980B (zh) * | 2022-01-06 | 2024-03-08 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN114399225B (zh) * | 2022-01-24 | 2024-08-02 | 北京理工大学 | 一种基于Q-Learning的深空探测器任务规划方法 |
CN114527642B (zh) * | 2022-03-03 | 2024-04-02 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
CN114675535B (zh) * | 2022-03-07 | 2024-04-02 | 大连理工大学 | 一种基于强化学习的航空发动机过渡态寻优控制方法 |
CN114578712B (zh) * | 2022-03-08 | 2023-09-26 | 北京航空航天大学 | 多功能水下自主航行器集群仿真系统 |
CN114625151B (zh) * | 2022-03-10 | 2024-05-28 | 大连理工大学 | 一种基于强化学习的水下机器人避障路径规划方法 |
CN114785397B (zh) * | 2022-03-11 | 2023-04-07 | 成都三维原光通讯技术有限公司 | 无人机基站控制方法、飞行轨迹优化模型构建、训练方法 |
CN114800488B (zh) * | 2022-03-18 | 2023-06-20 | 清华大学深圳国际研究生院 | 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置 |
CN114610070B (zh) * | 2022-03-21 | 2024-06-21 | 大连理工大学 | 一种无人机协同的风电场智能巡检方法 |
CN114679699A (zh) * | 2022-03-23 | 2022-06-28 | 重庆邮电大学 | 基于深度强化学习的多无人机节能巡航通信覆盖方法 |
CN114815864B (zh) * | 2022-03-31 | 2024-08-20 | 哈尔滨工程大学 | 一种基于强化学习的高超声速飞行器航迹规划方法 |
CN114578830B (zh) * | 2022-04-11 | 2024-06-28 | 北京化工大学 | 基于强化学习的仿蛇机器人运动规划方法 |
CN114879660B (zh) * | 2022-04-14 | 2023-08-15 | 海南大学 | 一种基于目标驱动的机器人环境感知方法 |
CN114721397B (zh) * | 2022-04-19 | 2024-05-31 | 北方工业大学 | 一种基于强化学习和好奇心的迷宫机器人路径规划方法 |
CN114910072A (zh) * | 2022-04-21 | 2022-08-16 | 海南大学 | 基于深度强化学习的无人机导航方法、装置、设备及介质 |
CN114923486B (zh) * | 2022-04-21 | 2024-05-17 | 厦门大学 | 一种基于全局环境图和注意力侧重的机器人导航方法 |
CN114859910A (zh) * | 2022-04-28 | 2022-08-05 | 武汉理工大学 | 基于深度强化学习的无人船路径跟随系统及方法 |
CN114879671B (zh) * | 2022-05-04 | 2024-10-15 | 哈尔滨工程大学 | 一种基于强化学习mpc的无人艇轨迹跟踪控制方法 |
CN114840928B (zh) * | 2022-05-07 | 2023-04-18 | 西北工业大学 | 一种基于深度学习的水下航行器集群运动仿真方法 |
CN115167484B (zh) * | 2022-05-13 | 2024-04-19 | 西北工业大学 | 基于神经网络的自主水下航行器模型预测路径跟踪方法 |
CN115016405B (zh) * | 2022-05-26 | 2024-09-24 | 天津大学 | 一种基于深度强化学习的工艺路线多目标优化方法 |
CN114895697B (zh) * | 2022-05-27 | 2024-04-30 | 西北工业大学 | 一种基于元强化学习并行训练算法的无人机飞行决策方法 |
CN114879706A (zh) * | 2022-06-17 | 2022-08-09 | 哈尔滨工程大学 | 一种rrt与人工势场法相结合的auv目标搜索方法 |
CN115119174A (zh) * | 2022-06-30 | 2022-09-27 | 西安理工大学 | 灌区场景中基于能耗优化的无人机自主部署方法 |
CN115033000A (zh) * | 2022-07-06 | 2022-09-09 | 重庆大学 | 基于深度强化学习的双目标路径规划方法 |
CN114964268B (zh) * | 2022-07-29 | 2023-05-02 | 白杨时代(北京)科技有限公司 | 一种无人机导航方法及装置 |
CN115278901B (zh) * | 2022-08-04 | 2023-06-06 | 哈尔滨工程大学 | 水下无定位移动网络的自适应通信方法 |
CN115328143B (zh) * | 2022-08-26 | 2023-04-18 | 齐齐哈尔大学 | 一种基于环境驱动的主从水面机器人回收导引方法 |
CN115468454A (zh) * | 2022-08-30 | 2022-12-13 | 南京理工大学 | 虚拟力法与引战配合相结合的多弹协同对抗策略 |
CN115550236B (zh) * | 2022-08-31 | 2024-04-30 | 国网江西省电力有限公司信息通信分公司 | 一种面向安全中台资源池路由优化的数据保护方法 |
CN115494733A (zh) * | 2022-10-27 | 2022-12-20 | 南方电网调峰调频发电有限公司储能科研院 | 一种基于gazebo的水下机器人自适应控制方法 |
CN115493597B (zh) * | 2022-11-15 | 2023-04-18 | 山东大学 | 一种基于sac算法的auv路径规划控制方法 |
CN115686076A (zh) * | 2022-11-17 | 2023-02-03 | 中国人民解放军海军航空大学 | 基于增量式发育深度强化学习的无人机路径规划方法 |
CN115981369B (zh) * | 2023-01-09 | 2023-12-01 | 南京航空航天大学 | 有限通信下面向多无人机联合任务分配和航迹规划的方法 |
CN116424573B (zh) * | 2023-02-16 | 2024-07-19 | 哈尔滨工业大学(深圳) | 一种未知复杂环境下无拖曳卫星控制方法 |
CN115993831B (zh) * | 2023-03-23 | 2023-06-09 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116430900B (zh) * | 2023-05-04 | 2023-12-05 | 四川大学 | 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 |
CN116295449B (zh) * | 2023-05-25 | 2023-09-12 | 吉林大学 | 水下自主航行器路径指示方法及装置 |
CN117035263B (zh) * | 2023-06-27 | 2024-10-18 | 哈尔滨工程大学 | 一种水下大范围环境内多auv节点的任务分配方法、计算机及存储介质 |
CN116578102B (zh) * | 2023-07-13 | 2023-09-19 | 清华大学 | 水下自主航行器避障方法、装置、计算机设备和存储介质 |
CN116909280B (zh) * | 2023-07-20 | 2024-09-13 | 山东科技大学 | 一种基于视觉感知的强化学习双层决策agv避障方法 |
CN117130379B (zh) * | 2023-07-31 | 2024-04-16 | 南通大学 | 一种基于lqr近视距的无人机空战攻击方法 |
CN116700020B (zh) * | 2023-08-10 | 2023-11-24 | 西安爱生无人机技术有限公司 | 变后掠翼无人机的控制方法、系统、无人机及存储介质 |
CN117140527B (zh) * | 2023-09-27 | 2024-04-26 | 中山大学·深圳 | 一种基于深度强化学习算法的机械臂控制方法及系统 |
CN117055591B (zh) * | 2023-10-11 | 2024-03-15 | 青岛哈尔滨工程大学创新发展中心 | 综合洋流影响和机动性约束的auv全局路径规划方法 |
CN117233520B (zh) * | 2023-11-16 | 2024-01-26 | 青岛澎湃海洋探索技术有限公司 | 基于改进Sim-GAN的AUV推进系统故障检测评估方法 |
CN117856904B (zh) * | 2023-12-12 | 2024-09-24 | 山东科技大学 | 一种基于深度强化学习的多auv协同移动光通信方法 |
CN117872347B (zh) * | 2024-01-12 | 2024-06-21 | 兰州理工大学 | 基于双层强化学习优化的jpda多目标跟踪方法及系统 |
CN117682429B (zh) * | 2024-02-01 | 2024-04-05 | 华芯(嘉兴)智能装备有限公司 | 一种物料控制系统的天车搬运指令调度方法及装置 |
CN117744540B (zh) * | 2024-02-19 | 2024-04-30 | 青岛哈尔滨工程大学创新发展中心 | 水下无人航行器的水下作业水动力特性趋势预测方法 |
CN118244755A (zh) * | 2024-03-11 | 2024-06-25 | 华中科技大学 | 基于成像声呐的水下航行器对接控制方法及装置 |
CN117970931B (zh) * | 2024-03-29 | 2024-07-05 | 青岛科技大学 | 一种机器人动态路径规划方法、设备及介质 |
CN117990111B (zh) * | 2024-04-03 | 2024-07-12 | 北京盛安同力科技开发有限公司 | 一种基于mbse模型的探月机器人局部路径规划方法及系统 |
CN118289183B (zh) * | 2024-04-08 | 2024-09-24 | 山东科技大学 | 一种仿哥布林鲨的海参捕捞机器人及其位姿控制方法 |
CN118189977B (zh) * | 2024-05-17 | 2024-09-17 | 广东海洋大学 | 基于人工智能的水下机器人集群路径规划与控制方法 |
CN118249474B (zh) * | 2024-05-27 | 2024-08-06 | 西北工业大学宁波研究院 | 一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006309519A (ja) * | 2005-04-28 | 2006-11-09 | Institute Of National Colleges Of Technology Japan | 強化学習システム、及び強化学習プログラム |
JP2007066242A (ja) * | 2005-09-02 | 2007-03-15 | Yokohama National Univ | 強化学習の価値関数表現方法およびこれを用いた装置 |
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN107102644A (zh) * | 2017-06-22 | 2017-08-29 | 华南师范大学 | 基于深度强化学习的水下机器人轨迹控制方法及控制系统 |
CN107490965A (zh) * | 2017-08-21 | 2017-12-19 | 西北工业大学 | 一种空间自由漂浮机械臂的多约束轨迹规划方法 |
CN108444481A (zh) * | 2018-03-25 | 2018-08-24 | 哈尔滨工程大学 | 一种基于辅助决策系统的水下潜器路径规划方法 |
CN108594834A (zh) * | 2018-03-23 | 2018-09-28 | 哈尔滨工程大学 | 一种面向未知环境下多auv自适应目标搜索和避障方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108873687A (zh) * | 2018-07-11 | 2018-11-23 | 哈尔滨工程大学 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
CN109212476A (zh) * | 2018-09-18 | 2019-01-15 | 广西大学 | 一种基于ddpg的rfid室内定位算法 |
CN109241552A (zh) * | 2018-07-12 | 2019-01-18 | 哈尔滨工程大学 | 一种基于多约束目标的水下机器人运动规划方法 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
CN109540151A (zh) * | 2018-03-25 | 2019-03-29 | 哈尔滨工程大学 | 一种基于强化学习的auv三维路径规划方法 |
CN109906132A (zh) * | 2016-09-15 | 2019-06-18 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
CN110023965A (zh) * | 2016-10-10 | 2019-07-16 | 渊慧科技有限公司 | 用于选择由机器人智能体执行的动作的神经网络 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4495703B2 (ja) * | 2006-08-24 | 2010-07-07 | 日本電信電話株式会社 | 水中ロボットの動作制御方法、装置及びプログラム |
-
2019
- 2019-08-21 CN CN201910775602.7A patent/CN110333739B/zh active Active
-
2020
- 2020-08-20 JP JP2020139299A patent/JP6854549B2/ja active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006309519A (ja) * | 2005-04-28 | 2006-11-09 | Institute Of National Colleges Of Technology Japan | 強化学習システム、及び強化学習プログラム |
JP2007066242A (ja) * | 2005-09-02 | 2007-03-15 | Yokohama National Univ | 強化学習の価値関数表現方法およびこれを用いた装置 |
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN109906132A (zh) * | 2016-09-15 | 2019-06-18 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
CN110023965A (zh) * | 2016-10-10 | 2019-07-16 | 渊慧科技有限公司 | 用于选择由机器人智能体执行的动作的神经网络 |
CN107102644A (zh) * | 2017-06-22 | 2017-08-29 | 华南师范大学 | 基于深度强化学习的水下机器人轨迹控制方法及控制系统 |
CN107490965A (zh) * | 2017-08-21 | 2017-12-19 | 西北工业大学 | 一种空间自由漂浮机械臂的多约束轨迹规划方法 |
CN108594834A (zh) * | 2018-03-23 | 2018-09-28 | 哈尔滨工程大学 | 一种面向未知环境下多auv自适应目标搜索和避障方法 |
CN109540151A (zh) * | 2018-03-25 | 2019-03-29 | 哈尔滨工程大学 | 一种基于强化学习的auv三维路径规划方法 |
CN108444481A (zh) * | 2018-03-25 | 2018-08-24 | 哈尔滨工程大学 | 一种基于辅助决策系统的水下潜器路径规划方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108873687A (zh) * | 2018-07-11 | 2018-11-23 | 哈尔滨工程大学 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
CN109241552A (zh) * | 2018-07-12 | 2019-01-18 | 哈尔滨工程大学 | 一种基于多约束目标的水下机器人运动规划方法 |
CN109212476A (zh) * | 2018-09-18 | 2019-01-15 | 广西大学 | 一种基于ddpg的rfid室内定位算法 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
Non-Patent Citations (3)
Title |
---|
JIANGUO WANG: "Fault diagnosis of Underwater Robots based on recurrent neural network", 《2009 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND BIOMIMETICS (ROBIO)》 * |
LEI WAN: "A Depth Control Method of Underactuated AUVs Based on Residual Buoyancy Identification", 《2018 OCEANS - MTS/IEEE KOBE TECHNO-OCEANS (OTO)》 * |
冉祥瑞: "基于分层强化学习的AUV路径规划方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110658827A (zh) * | 2019-10-25 | 2020-01-07 | 嘉应学院 | 一种基于物联网的运输车自动引导系统及其方法 |
CN112731804A (zh) * | 2019-10-29 | 2021-04-30 | 北京京东乾石科技有限公司 | 一种实现路径跟随的方法和装置 |
CN111079936B (zh) * | 2019-11-06 | 2023-03-14 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN111079936A (zh) * | 2019-11-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN110909859A (zh) * | 2019-11-29 | 2020-03-24 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
CN111198568A (zh) * | 2019-12-23 | 2020-05-26 | 燕山大学 | 一种基于q学习的水下机器人避障控制方法 |
CN111142522A (zh) * | 2019-12-25 | 2020-05-12 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
CN111142522B (zh) * | 2019-12-25 | 2023-06-09 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
US11747155B2 (en) | 2019-12-31 | 2023-09-05 | Goertek Inc. | Global path planning method and device for an unmanned vehicle |
WO2021135554A1 (zh) * | 2019-12-31 | 2021-07-08 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
CN111240345B (zh) * | 2020-02-11 | 2023-04-07 | 哈尔滨工程大学 | 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 |
CN111290270B (zh) * | 2020-02-11 | 2022-06-03 | 哈尔滨工程大学 | 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法 |
CN111273677B (zh) * | 2020-02-11 | 2023-05-12 | 哈尔滨工程大学 | 基于强化学习技术的自主水下机器人速度和艏向控制方法 |
CN111290270A (zh) * | 2020-02-11 | 2020-06-16 | 哈尔滨工程大学 | 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法 |
CN111273677A (zh) * | 2020-02-11 | 2020-06-12 | 哈尔滨工程大学 | 一种基于强化学习技术的自主水下机器人速度和艏向控制方法 |
CN111240345A (zh) * | 2020-02-11 | 2020-06-05 | 哈尔滨工程大学 | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 |
CN115135358A (zh) * | 2020-02-27 | 2022-09-30 | 美国西门子医学诊断股份有限公司 | 使用机器学习的自动传感器追踪验证 |
CN111638646A (zh) * | 2020-05-29 | 2020-09-08 | 平安科技(深圳)有限公司 | 四足机器人行走控制器训练方法、装置、终端及存储介质 |
CN111667513A (zh) * | 2020-06-01 | 2020-09-15 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
CN111667513B (zh) * | 2020-06-01 | 2022-02-18 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
CN111813143B (zh) * | 2020-06-09 | 2022-04-19 | 天津大学 | 一种基于强化学习的水下滑翔机智能控制系统及方法 |
CN111813143A (zh) * | 2020-06-09 | 2020-10-23 | 天津大学 | 一种基于强化学习的水下滑翔机智能控制系统及方法 |
CN113799949B (zh) * | 2020-06-11 | 2022-07-26 | 中国科学院沈阳自动化研究所 | 一种基于q学习的auv浮力调节方法 |
CN113799949A (zh) * | 2020-06-11 | 2021-12-17 | 中国科学院沈阳自动化研究所 | 一种基于q学习的auv浮力调节方法 |
CN111982117A (zh) * | 2020-08-17 | 2020-11-24 | 电子科技大学 | 一种基于深度学习的auv光学引导与测向方法 |
CN111982117B (zh) * | 2020-08-17 | 2022-05-10 | 电子科技大学 | 一种基于深度学习的auv光学引导与测向方法 |
CN112162564A (zh) * | 2020-09-25 | 2021-01-01 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112162564B (zh) * | 2020-09-25 | 2021-09-28 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112179367B (zh) * | 2020-09-25 | 2023-07-04 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112241176B (zh) * | 2020-10-16 | 2022-10-28 | 哈尔滨工程大学 | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 |
CN112241176A (zh) * | 2020-10-16 | 2021-01-19 | 哈尔滨工程大学 | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 |
CN112347961B (zh) * | 2020-11-16 | 2023-05-26 | 哈尔滨工业大学 | 水流体内无人平台智能目标捕获方法及系统 |
CN112347961A (zh) * | 2020-11-16 | 2021-02-09 | 哈尔滨工业大学 | 水流体内无人平台智能目标捕获方法及系统 |
CN112526524B (zh) * | 2020-12-09 | 2022-06-17 | 青岛澎湃海洋探索技术有限公司 | 一种基于前视声纳图像和auv平台的水下渔网检测方法 |
CN112526524A (zh) * | 2020-12-09 | 2021-03-19 | 青岛澎湃海洋探索技术有限公司 | 一种基于前视声纳图像和auv平台的水下渔网检测方法 |
CN112560671A (zh) * | 2020-12-15 | 2021-03-26 | 哈尔滨工程大学 | 基于旋转卷积神经网络的船舶检测方法 |
US12124325B2 (en) | 2021-02-25 | 2024-10-22 | Siemens Healthcare Diagnostics Inc. | Automatic sensor trace validation using machine learning |
CN113052372B (zh) * | 2021-03-17 | 2022-08-02 | 哈尔滨工程大学 | 一种基于深度强化学习的动态auv追踪路径规划方法 |
CN113052372A (zh) * | 2021-03-17 | 2021-06-29 | 哈尔滨工程大学 | 一种基于深度强化学习的动态auv追踪路径规划方法 |
CN113050430A (zh) * | 2021-03-29 | 2021-06-29 | 浙江大学 | 一种基于鲁棒强化学习的排水系统控制方法 |
CN113050430B (zh) * | 2021-03-29 | 2023-05-02 | 浙江大学 | 一种基于鲁棒强化学习的排水系统控制方法 |
CN113406957B (zh) * | 2021-05-19 | 2022-07-08 | 成都理工大学 | 基于免疫深度强化学习的移动机器人自主导航方法 |
CN113406957A (zh) * | 2021-05-19 | 2021-09-17 | 成都理工大学 | 基于免疫深度强化学习的移动机器人自主导航方法 |
CN113177366A (zh) * | 2021-05-28 | 2021-07-27 | 华北电力大学 | 一种综合能源系统规划方法、装置和终端设备 |
CN113177366B (zh) * | 2021-05-28 | 2024-02-02 | 华北电力大学 | 一种综合能源系统规划方法、装置和终端设备 |
CN113268074B (zh) * | 2021-06-07 | 2022-05-13 | 哈尔滨工程大学 | 一种基于联合优化的无人机航迹规划方法 |
CN113268074A (zh) * | 2021-06-07 | 2021-08-17 | 哈尔滨工程大学 | 一种基于联合优化的无人机航迹规划方法 |
CN113093773A (zh) * | 2021-06-10 | 2021-07-09 | 深之蓝海洋科技股份有限公司 | 基于水下机器人的水下结构检测方法、系统、设备及介质 |
CN113268933A (zh) * | 2021-06-18 | 2021-08-17 | 大连理工大学 | 基于强化学习的蛇形急救机器人结构参数快速设计方法 |
CN113268933B (zh) * | 2021-06-18 | 2022-02-15 | 大连理工大学 | 基于强化学习的蛇形急救机器人结构参数快速设计方法 |
CN113252028B (zh) * | 2021-06-28 | 2021-09-21 | 深之蓝海洋科技股份有限公司 | 输水隧洞内机器人的定位方法、电子设备及存储介质 |
CN113252028A (zh) * | 2021-06-28 | 2021-08-13 | 深之蓝海洋科技股份有限公司 | 输水隧洞内机器人的定位方法、电子设备及存储介质 |
CN113552881B (zh) * | 2021-07-15 | 2024-03-26 | 浙江工业大学 | 一种用于神经网络训练的多路径规划数据集生成方法 |
CN113552881A (zh) * | 2021-07-15 | 2021-10-26 | 浙江工业大学 | 一种用于神经网络训练的多路径规划数据集生成方法 |
CN113791612A (zh) * | 2021-08-17 | 2021-12-14 | 中南民族大学 | 智能体实时路径规划方法、装置、设备及存储介质 |
CN113791612B (zh) * | 2021-08-17 | 2023-10-24 | 中南民族大学 | 智能体实时路径规划方法、装置、设备及存储介质 |
CN114139675B (zh) * | 2021-12-08 | 2024-09-20 | 中国科学技术大学 | 提升智能体控制中选择可靠动作准确性的方法 |
CN114139675A (zh) * | 2021-12-08 | 2022-03-04 | 中国科学技术大学 | 提升智能体控制中选择可靠动作准确性的方法 |
CN114995468A (zh) * | 2022-06-06 | 2022-09-02 | 南通大学 | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 |
CN115291616A (zh) * | 2022-07-25 | 2022-11-04 | 江苏海洋大学 | 一种基于近端策略优化算法的auv动态避障方法 |
CN115178944A (zh) * | 2022-08-04 | 2022-10-14 | 广东工业大学 | 一种安全强化学习的狭窄空间机器人作业规划方法 |
CN115178944B (zh) * | 2022-08-04 | 2024-05-24 | 广东工业大学 | 一种安全强化学习的狭窄空间机器人作业规划方法 |
CN115314854A (zh) * | 2022-08-08 | 2022-11-08 | 广东智能无人系统研究院 | 一种海上风电水下设施无人巡检系统及方法 |
CN115586782B (zh) * | 2022-10-17 | 2024-04-12 | 湖南大学 | 一种自主式水下机器人运动控制方法及装置 |
CN115586782A (zh) * | 2022-10-17 | 2023-01-10 | 湖南大学 | 一种自主式水下机器人运动控制方法及装置 |
CN115657678A (zh) * | 2022-10-28 | 2023-01-31 | 中国船舶重工集团公司第七一九研究所 | 面向复杂动态环境的水下无人潜航器航迹生成方法及系统 |
CN115657678B (zh) * | 2022-10-28 | 2024-04-26 | 中国船舶重工集团公司第七一九研究所 | 面向复杂动态环境的水下无人潜航器航迹生成方法及系统 |
CN116301027A (zh) * | 2023-02-08 | 2023-06-23 | 北京航空航天大学 | 一种基于安全强化学习的城市空域内无人机路径规划方法 |
CN116301027B (zh) * | 2023-02-08 | 2023-12-05 | 北京航空航天大学 | 一种基于安全强化学习的城市空域内无人机路径规划方法 |
CN115855226B (zh) * | 2023-02-24 | 2023-05-30 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
CN115855226A (zh) * | 2023-02-24 | 2023-03-28 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
CN118466569A (zh) * | 2024-07-10 | 2024-08-09 | 中南大学 | 基于区间理论的高超声速变体飞行器预设性能控制方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6854549B2 (ja) | 2021-04-07 |
JP2021034050A (ja) | 2021-03-01 |
CN110333739B (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110333739A (zh) | 一种基于强化学习的auv行为规划及动作控制方法 | |
US20220189312A1 (en) | Intelligent collision avoidance method for a swarm of unmanned surface vehicles based on deep reinforcement learning | |
Zhang et al. | 2D Lidar‐Based SLAM and Path Planning for Indoor Rescue Using Mobile Robots | |
Liu et al. | The fast marching method based intelligent navigation of an unmanned surface vehicle | |
Zhen et al. | Formation control of a multi-AUVs system based on virtual structure and artificial potential field on SE (3) | |
CN109765929B (zh) | 一种基于改进rnn的uuv实时避障规划方法 | |
Statheros et al. | Autonomous ship collision avoidance navigation concepts, technologies and techniques | |
CN109540151A (zh) | 一种基于强化学习的auv三维路径规划方法 | |
CN108319293B (zh) | 一种基于lstm网络的uuv实时避碰规划方法 | |
CN108334677B (zh) | 一种基于gru网络的uuv实时避碰规划方法 | |
CN109445456A (zh) | 一种多无人机集群导航方法 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN109784201A (zh) | 基于四维风险评估的auv动态避障方法 | |
CN112034711A (zh) | 一种基于深度强化学习的无人艇抗海浪干扰控制方法 | |
CN115016496A (zh) | 基于深度强化学习的水面无人艇路径跟踪方法 | |
Lan et al. | Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning | |
CN114859910A (zh) | 基于深度强化学习的无人船路径跟随系统及方法 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
CN116448119A (zh) | 一种面向突发威胁的无人蜂群协同航迹规划方法 | |
CN117590867A (zh) | 基于深度强化学习的水下自主航行器接驳控制方法和系统 | |
CN112947438B (zh) | 基于全振荡型入侵野草优化算法的auv在线路径规划方法 | |
CN114609925B (zh) | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 | |
CN112799414B (zh) | 一种auv松弛轨迹规划方法 | |
CN115107948A (zh) | 一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法 | |
Cui et al. | Intelligent Ship Decision System Based on DDPG Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |