CN108873687A - 一种基于深度q学习的智能水下机器人行为体系结规划方法 - Google Patents
一种基于深度q学习的智能水下机器人行为体系结规划方法 Download PDFInfo
- Publication number
- CN108873687A CN108873687A CN201810759163.6A CN201810759163A CN108873687A CN 108873687 A CN108873687 A CN 108873687A CN 201810759163 A CN201810759163 A CN 201810759163A CN 108873687 A CN108873687 A CN 108873687A
- Authority
- CN
- China
- Prior art keywords
- behavior
- robot
- movement
- underwater robot
- study
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000006399 behavior Effects 0.000 claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000013461 design Methods 0.000 claims abstract description 20
- 230000007613 environmental effect Effects 0.000 claims abstract description 7
- 230000010391 action planning Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 21
- 230000009471 action Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 210000000481 breast Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B17/00—Systems involving the use of models or simulators of said systems
- G05B17/02—Systems involving the use of models or simulators of said systems electric
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Manipulator (AREA)
Abstract
本发明属于水下机器人技术领域,具体设计一种基于深度Q学习的智能水下机器人行为体系结构规划方法。包括:AUV行为规划体系结构分层设计;基于深度Q学习的行为规划及动作规划策略设计。主要流程为:将AUV的行为规划体系结构划分为“任务‑行为‑动作”三个层次,首先任务分解层将AUV收到的任务指令分解为各个行为,然后行为规划层通过获取到的环境信息对完成任务所需要的行为进行规划,最后动作执行层利用Q学习的方法训练AUV完成最优动作规划,通过控制AUV执行机构产生动作达到目标指令。本方法利用强化学习的方法训练水下机器人,使AUV能够在真实的动态水下环境中实现自主行为规划,省去了大量逻辑编程,提高了水下机器人的智能性。
Description
技术领域
本发明属于水下机器人技术领域,具体设计一种基于深度Q学习的智能水下机器人行为体系结构规划方法。
背景技术
21世纪是人类大规模开发利用海洋的时期,海洋在国家经济发展格局和对外开放中的作用更加重要,在维护国家主权、安全、发展利益中的地位更加突出,在国家生态文明建设中的角色更加显著,在国际政治、经济、军事、科技竞争中的战略地位也明显上升。而智能水下机器人(AUV)由于其具有体积小、隐蔽性高、作业范围广等特点逐渐成为世界各个海洋大国的研究热点,其在水下管道探测、水下数据采集、水下军事巡逻与侦查、水下目标探测与识别、水下排雷布雷等方面具有广泛的应用。
就目前的研究进展来说,智能水下机器人的体系结构是“任务-动作”的方式,即通过机器人控制系统算法编程控制机器人运动完成相应任务。这种方式对于机器人完成简单任务完全适用,但是当机器人在复杂环境中完成复杂作业任务时,仍需要人为的参与辅助,无法独立完成任务,其在复杂水下环境中行为规划与决策的智能化水平还有一定的不足。
发明内容
本发明的目的在于提供一种基于分层的思想,将智能水下机器人的任务系统进行分层设计形成AUV行为规划体系分层结构,并将深度Q学习算法应用于智能水下机器人载体的控制规划系统中以实现其行为动作规划功能的方法。
一种基于深度Q学习的智能水下机器人行为体系结构规划方法,包括如下步骤:
1.AUV行为规划体系结构分层设计;
2.基于深度Q学习的行为规划及动作规划策略设计。
所述步骤1具体包括:
1.定义智能水下机器人任务、行为和动作的概念:将水下机器人需要完成的工作定义为机器人的任务,如:路径规划、目标跟踪、地形检测、水下搜索等;将机器人在水下航行而产生的具体的控制指令定义为动作,如:左转n度、右转n度、以n节的速度前进等;将水下机器人为了完成任务而产生的一连串动作的集合定义为行为,如:避障、目标搜索、路径跟踪等。
2.将智能水下机器人的行为规划体系结构划分为三个层次:任务分解层、行为规划层、动作执行层。任务分解层将水下机器人收到的任务指令分解为各个行为,行为规划层通过获取到的环境信息对完成任务所需要的行为进行规划,动作执行层利用Q学习的方法训练机机器人动作完成动作规划,通过控制水下机器人执行机构产生动作达到目标指令。
3.确定任务,然后将任务分解为完成该任务所需要的行为集合,根据传感器探测到的周围环境信息以及任务要求进行行为规划并将行为分解为动作,训练机器人产生动作作用于环境,环境产生状态转移并根据状态转移的好坏反馈给机器人奖励值R,通过奖励值R的不断积累并使之达到最大来得到机器人的最优规划策略。
所述步骤2具体包括:
1.设计学习参数
1.1根据不同的任务要求,设计奖惩函数R,R值包括层次之间传递的强化信号R1以及动作的奖励值R2。R1的设计如下:
R2设计为机器人所产生的动作使得环境状态向完成任务的方向发展得到正奖励,使得环境状态向未完成任务的方向发展得到负奖励;如路径规划任务,设计R2值为:碰撞障碍物获得负奖励,抵达目标位置得到正奖励,即:
1.2设计动作集合a:以某一速度前进、向左或向右旋转一定角度(0°-90°)、上浮、下潜、后退、停止等;定义行为集合为:目标跟踪、路径跟踪、避障、目标搜索、悬停、定深、定速、定向等;定义任务集合为:区域检测、管道检测、地形扫描、路径规划、坝体扫描、目标追踪、探雷排雷、军事侦察等。
1.3给定任务M,并将其分解为一系列行为的集合{X0,X1,…,Xn},为每个行为定义一个三元组<Ti,Ai,Ri>:
Ti为终止判据,当环境状态属于某种情况时,相应的行为Xi被选择,当环境达到Ti状态时,Xi立即终止;
Ai为完成行为Xi的动作集合,为a的子集;
Ri为奖惩函数,选择正确行为为正值,选择错误行为为负值。
2.建立学习模型
2.1动作-行为学习模型:在仿真环境中训练智能水下机器人动作完成行为。根据当前环境状态选择动作,产生状态迁移并得到奖励值R2,由Q学习算法,建立算法更新函数为:
Q1 *(st,at)=Q1(st,at)+α(R2+γmaxQ1(st+1,at+1)-Q1(st,at))
式中,s表示状态,a表示动作,R2为当前状态所对应动作的奖励值,γ为学习参数,根据情况其值在0到1之间取值,如果γ接近0,机器人趋于考虑即时奖励;如果γ接近1,机器人会更加考虑未来的累计奖励,α为学习率,取0.9。
利用神经网络训练计算Q值,将环境状态和(R2+γmaxQ1(st+1,at+1))作为神经网络的输入,将所有动作的值作为神经网络的输出,根据Q学习原理,选择拥有最大值的动作当作下一步要做的动作。
2.2任务-行为学习模型:训练水下机器人行为完成任务。将水下机器人一系列动作的实现而导致其状态的改变视为行为对环境状态的影响,水下机器人动作训练的好怀,将会影响行为的完成情况,从而影响任务的达成。所以,建立水下机器人任务-行为的Q学习模型为:初始化机器人行为,根据当前环境状态,机器人选择行为X,产生状态迁移并得到奖励值R1,建立Q函数为:
Q2 *(s′t,Xt)=V(s′t,Xt)+Q2(s′t,Xt)+α(R1+γmaxQ2(s′t+1,Xt+1)-Q2(s′t,Xt))
式中,Xt表示机器人当前所选择的行为,其产生状态迁移并得到奖励值R1,V(s′t,Xt)表示系统对完成该行为的一系列动作导致环境状态从s转移到s′的累计评价函数:
式中k为系统调节参数,根据奖励值设置的大小而定。
依然利用神经网络训练计算Q值,将环境状态和(R1+γmaxQ2(st+1,Xt+1))作为神经网络的输入,将所有行为的值作为神经网络的输出,根据Q学习原理,选择拥有最大值的行为当作下一步要执行的行为。
2.3训练神经网络:
建立损失函数:
通过训练更新网络参数θ使损失函数L最小,以便当前的Q值逼近目标Q值。
一种基于深度Q学习的智能水下机器人行为体系结构规划方法还包括:
为保障机器人安全并得到完备的策略,动作执行层的学习采用离线的方式进行:通过设置训练场景,让机器人在各种环境状态下尝试动作选择,然后根据动作的回报或者动作的好坏评价进行学习。采用强化学习的学习过程让机器人在各种训练场景下进行动作尝试,并根据动作回报来学习最优的动作策略。利用编程软件搭建智能水下机器人的仿真系统,在仿真环境下训练机器人动作完成相应行为。高层的学习基于低层的学习,动作执行层在取得较为理想的效果后,进行高一级层次的学习,高层的学习在考虑低层信息的同时,更多需要考虑机器人当前所处的世界环境信息,根据环境信息学习自身的行为决策策略。
本发明的有益效果在于:
水下机器人的行为规划体系结构自顶向下是一个决策的过程:机器人各层不直接根据环境状态产生相应的指令,而是按照一个从高级到低级的结构划分顺序,逐层进行决策,直至最终确定其所要执行的基本动作指令,能够实现决策的逐步求精;水下机器人的行为规划体系结构自底向上是一个学习的过程:首先是动作执行层学习动作的实现,然后行为规划层学习行为的选择策略,最终通过行为的选择实现总任务,从低级到高级的学习过程符合人类的学习习惯和思维模式。该方法适用于水下动态复杂环境,在遇到没有预想到的情况时,通过学习训练也能够使得机器人完成任务。同时本专利利用强化学习的方法训练水下机器人的动作和行为,省去了大量的逻辑编程的过程,不需要考虑多种情况,让机器人自主航行到相应位置完成相应行为任务,提高了水下机器人的智能性。
附图说明
图1为智能水下机器人行为规划体系结构示意图;
图2为智能水下机器人任务分解示意图;
图3为基于深度Q学习的智能水下机器人行为规划策略流程图。
具体实施方式
下面结合附图对本发明做进一步描述:
如附图1所示,将智能水下机器人的行为规划体系结构划分为三个层次:任务分解层、行为规划层、动作执行层。任务分解层将水下机器人收到的任务指令分解为各个行为,行为规划层通过获取到的环境信息对完成任务所需要的行为进行规划,动作执行层利用Q学习的方法训练机机器人动作完成动作规划,通过控制水下机器人执行机构产生动作达到目标指令。例如:水下机器人收到路径跟踪的任务指令,任务分解层将路径跟踪任务分为直线路径跟踪行为、曲线路径跟踪行为、点跟踪、目标搜索行为、避障行为、返回路径行为;行为规划层根据传感器检测到的周围环境信息,对完成任务所需要的行为进行规划,将规划的行为传递给动作执行层,利用Q学习算法对机器人动作进行训练得到动作的最优策略,动作执行层控制执行机构产生规划的动作。
如附图2所示,根据强化学习的思想,智能水下机器人在水下作业时,首先确定任务,然后将任务分解为完成该任务所需要的行为集合,根据传感器探测到的周围环境信息以及任务要求进行行为规划并将行为分解为动作,训练机器人产生动作作用于环境,环境产生状态转移并根据状态转移的好坏反馈给机器人奖励值R,通过奖励值R的不断积累并使之达到最大来得到机器人的最优规划策略。
如附图3所示,基于深度Q学习的行为及动作规划策略设计步骤为:
1.设计学习参数
1.1根据不同的任务要求,设计奖惩函数R,R值包括层次之间传递的强化信号R1以及动作的奖励值R2。R1的设计如下:
R2设计为机器人所产生的动作使得环境状态向完成任务的方向发展得到正奖励,使得环境状态向未完成任务的方向发展得到负奖励;如路径规划任务,设计R2值为:碰撞障碍物获得负奖励,抵达目标位置得到正奖励,即:
1.2设计动作集合a:以某一速度前进、向左或向右旋转一定角度(0°-90°)、上浮、下潜、后退、停止等;定义行为集合为:目标跟踪、路径跟踪、避障、目标搜索、悬停、定深、定速、定向等;定义任务集合为:区域检测、管道检测、地形扫描、路径规划、坝体扫描、目标追踪、探雷排雷、军事侦察等。
1.3给定任务M,并将其分解为一系列行为的集合{X0,X1,…,Xn},为每个行为定义一个三元组<Ti,Ai,Ri>:
Ti为终止判据,当环境状态属于某种情况时,相应的行为Xi被选择,当环境达到Ti状态时,Xi立即终止;
Ai为完成行为Xi的动作集合,为a的子集;
Ri为奖惩函数,选择正确行为为正值,选择错误行为为负值。
2.建立学习模型
2.1动作-行为学习模型:在仿真环境中训练智能水下机器人动作完成行为。根据当前环境状态选择动作,产生状态迁移并得到奖励值R2,由Q学习算法,建立算法更新函数为:
Q1 *(st,at)=Q1(st,at)+α(R2+γmaxQ1(st+1,at+1)-Q1(st,at))
式中,s表示状态,a表示动作,R2为当前状态所对应动作的奖励值,γ为学习参数,根据情况其值在0到1之间取值,如果γ接近0,机器人趋于考虑即时奖励;如果γ接近1,机器人会更加考虑未来的累计奖励,α为学习率,取0.9。
利用神经网络训练计算Q值,将环境状态和(R2+γmaxQ1(st+1,at+1))作为神经网络的输入,将所有动作的值作为神经网络的输出,根据Q学习原理,选择拥有最大值的动作当作下一步要做的动作。
2.2任务-行为学习模型:训练水下机器人行为完成任务。将水下机器人一系列动作的实现而导致其状态的改变视为行为对环境状态的影响,水下机器人动作训练的好怀,将会影响行为的完成情况,从而影响任务的达成。所以,建立水下机器人任务-行为的Q学习模型为:初始化机器人行为,根据当前环境状态,机器人选择行为X,产生状态迁移并得到奖励值R1,建立Q函数为:
Q2 *(s′t,Xt)=V(s′t,Xt)+Q2(s′t,Xt)+α(R1+γmaxQ2(s′t+1,Xt+1)-Q2(s′t,Xt))
式中,Xt表示机器人当前所选择的行为,其产生状态迁移并得到奖励值R1,V(s′t,Xt)表示系统对完成该行为的一系列动作导致环境状态从s转移到s′的累计评价函数:
式中k为系统调节参数,根据奖励值设置的大小而定。
依然利用神经网络训练计算Q值,将环境状态和(R1+γmaxQ2(st+1,Xt+1))作为神经网络的输入,将所有行为的值作为神经网络的输出,根据Q学习原理,选择拥有最大值的行为当作下一步要执行的行为。
2.3训练神经网络:
建立损失函数:
通过训练更新网络参数θ使损失函数L最小,以便当前的Q值逼近目标Q值。
本专利的主要目的是让水下机器人在水下环境中根据当前环境状态自主完成决策,从而使人摆脱繁杂的编程过程,其具体实现分为仿真训练过程和真实试验过程。
1.利用编程软件搭建基于深度Q学习的智能水下机器人的行为规划仿真系统,通过仿真训练的得到机器人的最优决策策略,具体步骤如下:
1.1建立环境模型,设定障碍,确定初始位置和目标点,初始化算法参数;
1.2确定当前t时刻环境状态以及机器人任务,将任务分解为相应行为;
1.3根据当前状态选择行为,将行为分解为相应动作;
1.4执行动作a,观察新的状态s′,得到奖励值R2;
1.5训练神经网络得到各个动作的Q值,按照90%的概率选择最大Q值的动作作为下一个动作,10%的概率随机选择动作;
1.6更新Q1函数;
1.7判断当前时刻状态,若抵达目标状态,转1.8);否则转1.4);
1.8完成所选择的行为,更新Q2函数;
1.9判断是否完成任务,若是,转1.10),否则,返回1.3);
1.10判断Q值是否收敛,若是,结束训练,否则,初始化机器人位置,转1.2);
2.在智能水下机器人下位机模块搭建行为规划系统,同时将仿真训练得到的策略导入该系统;
3.在真实海洋环境中进行任务试验:
3.1利用水下机器人上位机将任务下达给下位机行为规划系统,对任务进行分层;
3.2根据当前环境状态,选择最大Q2值的行为;
3.3机器人根据当前环境状态选择最大Q1值的动作,判断当前状态是否达到终止判据,若是,转3.4,否则转3.3);
3.4判断当前状态是否达到目标状态,若是,结束,否则转3.2。
Claims (9)
1.一种基于深度Q学习的智能水下机器人行为体系结构规划方法,其特征在于,包括以下步骤:
步骤1:AUV行为规划体系结构分层设计;
步骤2:基于深度Q学习的行为规划及动作规划策略设计。
2.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法,其特征在于:所述步骤1定义了智能水下机器人任务、行为和动作的概念,将水下机器人需要完成的工作定义为机器人的任务;将机器人在水下航行而产生的具体的控制指令定义为动作;将水下机器人为了完成任务而产生的一连串动作的集合定义为行为。
3.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法,其特征在于:所述步骤1将智能水下机器人的行为规划体系结构划分为三个层次,任务分解层、行为规划层、动作执行层,任务分解层将水下机器人收到的任务指令分解为各个行为,行为规划层通过获取到的环境信息对完成任务所需要的行为进行规划,动作执行层利用Q学习的方法训练机机器人动作完成动作规划,通过控制水下机器人执行机构产生动作达到目标指令。
4.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法,其特征在于:所述步骤2包括设计奖惩函数R,R值包括层次之间传递的强化信号R1以及动作的奖励值R2,R1设计为
R2设计为机器人所产生的动作使得环境状态向完成任务的方向发展得到正奖励,使得环境状态向未完成任务的方向发展得到负奖励。
。
5.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法,其特征在于:所述步骤2包括设计动作集合a,以某一速度前进、向左或向右旋转一定角度(0°-90°)、上浮、下潜、后退、停止;定义行为集合为,目标跟踪、路径跟踪、避障、目标搜索、悬停、定深、定速、定向;定义任务集合为,区域检测、管道检测、地形扫描、路径规划、坝体扫描、目标追踪、探雷排雷、军事侦察。
6.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法,其特征在于:所述步骤2包括建立动作-行为学习模型,在仿真环境中训练智能水下机器人动作完成行为,根据当前环境状态选择动作,产生状态迁移并得到奖励值R2,由Q学习算法,建立算法更新函数为
Q1 *(st,at)=Q1(st,at)+α(R2+γmaxQ1(st+1,at+1)-Q1(st,at))
式中,s表示状态,a表示动作,R2为当前状态所对应动作的奖励值,γ为学习参数,根据情况其值在0到1之间取值,如果γ接近0,机器人趋于考虑即时奖励;如果γ接近1,机器人会更加考虑未来的累计奖励,α为学习率,取0.9。
7.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法,其特征在于:所述步骤2包括建立水下机器人任务-行为的Q学习模型为,初始化机器人行为,根据当前环境状态,机器人选择行为X,产生状态迁移并得到奖励值R1,建立Q函数为
Q2 *(s′t,Xt)=V(s′t,Xt)+Q2(s′t,Xt)+α(R1+γmaxQ2(s′t+1,Xt+1)-Q2(s′t,Xt))
式中,Xt表示机器人当前所选择的行为,其产生状态迁移并得到奖励值R1,V(s′t,Xt)表示系统对完成该行为的一系列动作导致环境状态从s转移到s′的累计评价函数
式中k为系统调节参数,根据奖励值设置的大小来确定。
8.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法,其特征在于:所述步骤2包括训练神经网络,建立损失函数
通过训练更新网络参数θ使损失函数L最小,以便当前的Q值逼近目标Q值。
9.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法,其特征在于:所述步骤1中动作执行层的学习采用离线的方式进行,利用强化学习的学习过程让机器人在各种训练场景下进行动作尝试,并根据动作回报来学习最优的动作策略,动作执行层在取得理想的效果后,进行高一级层次的学习,高层的学习在考虑低层信息的同时,更多考虑机器人当前所处的世界环境信息,根据环境信息学习行为策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810759163.6A CN108873687B (zh) | 2018-07-11 | 2018-07-11 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810759163.6A CN108873687B (zh) | 2018-07-11 | 2018-07-11 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108873687A true CN108873687A (zh) | 2018-11-23 |
CN108873687B CN108873687B (zh) | 2020-06-26 |
Family
ID=64301217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810759163.6A Active CN108873687B (zh) | 2018-07-11 | 2018-07-11 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108873687B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109445437A (zh) * | 2018-11-30 | 2019-03-08 | 电子科技大学 | 一种无人电动车的路径规划方法 |
CN109697458A (zh) * | 2018-11-27 | 2019-04-30 | 深圳前海达闼云端智能科技有限公司 | 控制设备移动的方法、装置、存储介质及电子设备 |
CN109739090A (zh) * | 2019-01-15 | 2019-05-10 | 哈尔滨工程大学 | 一种自主式水下机器人神经网络强化学习控制方法 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110394804A (zh) * | 2019-08-26 | 2019-11-01 | 山东大学 | 一种基于分层线程框架的机器人控制方法、控制器及系统 |
CN110963209A (zh) * | 2019-12-27 | 2020-04-07 | 中电海康集团有限公司 | 一种基于深度强化学习的垃圾分拣装置与方法 |
CN111290270A (zh) * | 2020-02-11 | 2020-06-16 | 哈尔滨工程大学 | 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法 |
CN111538234A (zh) * | 2020-07-08 | 2020-08-14 | 深圳市优必选科技股份有限公司 | 任务分层控制方法、装置、机器人和可读存储介质 |
CN112925307A (zh) * | 2021-01-20 | 2021-06-08 | 中国科学院重庆绿色智能技术研究院 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
CN113029123A (zh) * | 2021-03-02 | 2021-06-25 | 西北工业大学 | 一种基于强化学习的多auv协同导航方法 |
CN113062601A (zh) * | 2021-03-17 | 2021-07-02 | 同济大学 | 一种基于q学习的混凝土布料机器人轨迹规划方法 |
CN113093773A (zh) * | 2021-06-10 | 2021-07-09 | 深之蓝海洋科技股份有限公司 | 基于水下机器人的水下结构检测方法、系统、设备及介质 |
CN113282094A (zh) * | 2021-04-09 | 2021-08-20 | 武汉理工大学 | 一种基于深度q学习的智能水下滑翔器行为体系结构规划方法 |
CN113799949A (zh) * | 2020-06-11 | 2021-12-17 | 中国科学院沈阳自动化研究所 | 一种基于q学习的auv浮力调节方法 |
CN114967713A (zh) * | 2022-07-28 | 2022-08-30 | 山东大学 | 基于强化学习的水下航行器浮力离散变化下的控制方法 |
CN115202373A (zh) * | 2022-04-30 | 2022-10-18 | 西北工业大学 | 一种基于Q-learning的水下滑翔机路径规划方法 |
CN115494844A (zh) * | 2022-09-26 | 2022-12-20 | 成都朴为科技有限公司 | 一种多机器人搜索方法及系统 |
CN115657477A (zh) * | 2022-10-13 | 2023-01-31 | 北京理工大学 | 一种基于离线强化学习的动态环境机器人自适应控制方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521202A (zh) * | 2011-11-18 | 2012-06-27 | 东南大学 | 面向复杂系统中的maxq任务图结构的自动发现方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN104932264A (zh) * | 2015-06-03 | 2015-09-23 | 华南理工大学 | 基于rbf网络的q学习框架仿人机器人稳定控制方法 |
CN105137967A (zh) * | 2015-07-16 | 2015-12-09 | 北京工业大学 | 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
CN107748566A (zh) * | 2017-09-20 | 2018-03-02 | 清华大学 | 一种基于强化学习的水下自主机器人固定深度控制方法 |
CN107911299A (zh) * | 2017-10-24 | 2018-04-13 | 浙江工商大学 | 一种基于深度q学习的路由规划方法 |
CN108051999A (zh) * | 2017-10-31 | 2018-05-18 | 中国科学技术大学 | 基于深度强化学习的加速器束流轨道控制方法及系统 |
-
2018
- 2018-07-11 CN CN201810759163.6A patent/CN108873687B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521202A (zh) * | 2011-11-18 | 2012-06-27 | 东南大学 | 面向复杂系统中的maxq任务图结构的自动发现方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN104932264A (zh) * | 2015-06-03 | 2015-09-23 | 华南理工大学 | 基于rbf网络的q学习框架仿人机器人稳定控制方法 |
CN105137967A (zh) * | 2015-07-16 | 2015-12-09 | 北京工业大学 | 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
CN107748566A (zh) * | 2017-09-20 | 2018-03-02 | 清华大学 | 一种基于强化学习的水下自主机器人固定深度控制方法 |
CN107911299A (zh) * | 2017-10-24 | 2018-04-13 | 浙江工商大学 | 一种基于深度q学习的路由规划方法 |
CN108051999A (zh) * | 2017-10-31 | 2018-05-18 | 中国科学技术大学 | 基于深度强化学习的加速器束流轨道控制方法及系统 |
Non-Patent Citations (1)
Title |
---|
付成伟: "《基于分层强化学习的移动机器人路径规划》", 《万方学位论文》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697458A (zh) * | 2018-11-27 | 2019-04-30 | 深圳前海达闼云端智能科技有限公司 | 控制设备移动的方法、装置、存储介质及电子设备 |
CN109445437A (zh) * | 2018-11-30 | 2019-03-08 | 电子科技大学 | 一种无人电动车的路径规划方法 |
CN109739090A (zh) * | 2019-01-15 | 2019-05-10 | 哈尔滨工程大学 | 一种自主式水下机器人神经网络强化学习控制方法 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110333739B (zh) * | 2019-08-21 | 2020-07-31 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110394804A (zh) * | 2019-08-26 | 2019-11-01 | 山东大学 | 一种基于分层线程框架的机器人控制方法、控制器及系统 |
CN110394804B (zh) * | 2019-08-26 | 2022-08-12 | 山东大学 | 一种基于分层线程框架的机器人控制方法、控制器及系统 |
CN110963209A (zh) * | 2019-12-27 | 2020-04-07 | 中电海康集团有限公司 | 一种基于深度强化学习的垃圾分拣装置与方法 |
CN111290270B (zh) * | 2020-02-11 | 2022-06-03 | 哈尔滨工程大学 | 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法 |
CN111290270A (zh) * | 2020-02-11 | 2020-06-16 | 哈尔滨工程大学 | 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法 |
CN113799949B (zh) * | 2020-06-11 | 2022-07-26 | 中国科学院沈阳自动化研究所 | 一种基于q学习的auv浮力调节方法 |
CN113799949A (zh) * | 2020-06-11 | 2021-12-17 | 中国科学院沈阳自动化研究所 | 一种基于q学习的auv浮力调节方法 |
CN111538234A (zh) * | 2020-07-08 | 2020-08-14 | 深圳市优必选科技股份有限公司 | 任务分层控制方法、装置、机器人和可读存储介质 |
CN112925307A (zh) * | 2021-01-20 | 2021-06-08 | 中国科学院重庆绿色智能技术研究院 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
CN113029123A (zh) * | 2021-03-02 | 2021-06-25 | 西北工业大学 | 一种基于强化学习的多auv协同导航方法 |
CN113062601A (zh) * | 2021-03-17 | 2021-07-02 | 同济大学 | 一种基于q学习的混凝土布料机器人轨迹规划方法 |
CN113062601B (zh) * | 2021-03-17 | 2022-05-13 | 同济大学 | 一种基于q学习的混凝土布料机器人轨迹规划方法 |
CN113282094A (zh) * | 2021-04-09 | 2021-08-20 | 武汉理工大学 | 一种基于深度q学习的智能水下滑翔器行为体系结构规划方法 |
CN113093773B (zh) * | 2021-06-10 | 2021-09-03 | 深之蓝海洋科技股份有限公司 | 基于水下机器人的水下结构检测方法、系统、设备及介质 |
CN113093773A (zh) * | 2021-06-10 | 2021-07-09 | 深之蓝海洋科技股份有限公司 | 基于水下机器人的水下结构检测方法、系统、设备及介质 |
CN115202373A (zh) * | 2022-04-30 | 2022-10-18 | 西北工业大学 | 一种基于Q-learning的水下滑翔机路径规划方法 |
CN115202373B (zh) * | 2022-04-30 | 2024-10-29 | 西北工业大学 | 一种基于Q-learning的水下滑翔机路径规划方法 |
CN114967713A (zh) * | 2022-07-28 | 2022-08-30 | 山东大学 | 基于强化学习的水下航行器浮力离散变化下的控制方法 |
CN114967713B (zh) * | 2022-07-28 | 2022-11-29 | 山东大学 | 基于强化学习的水下航行器浮力离散变化下的控制方法 |
CN115494844A (zh) * | 2022-09-26 | 2022-12-20 | 成都朴为科技有限公司 | 一种多机器人搜索方法及系统 |
CN115657477A (zh) * | 2022-10-13 | 2023-01-31 | 北京理工大学 | 一种基于离线强化学习的动态环境机器人自适应控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108873687B (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108873687A (zh) | 一种基于深度q学习的智能水下机器人行为体系结规划方法 | |
Yu et al. | Deep reinforcement learning based optimal trajectory tracking control of autonomous underwater vehicle | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
Liu et al. | Scanning-chain formation control for multiple unmanned surface vessels to pass through water channels | |
Li et al. | Neural-network-based path planning for a multirobot system with moving obstacles | |
CN108762281A (zh) | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 | |
Guo et al. | Research progress of path planning methods for autonomous underwater vehicle | |
CN109784201A (zh) | 基于四维风险评估的auv动态避障方法 | |
CN111240345A (zh) | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
CN113534668B (zh) | 基于最大熵的演员-评论家框架的auv运动规划方法 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
Li et al. | Bio-inspired intelligence with applications to robotics: a survey | |
Cheng et al. | Decentralized control of multi-agent systems for swarming with a given geometric pattern | |
Lan et al. | Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning | |
Hao et al. | Independent generative adversarial self-imitation learning in cooperative multiagent systems | |
CN111811532B (zh) | 基于脉冲神经网络的路径规划方法和装置 | |
Zhou et al. | An improved beetle swarm optimization algorithm for the intelligent navigation control of autonomous sailing robots | |
CN110716575A (zh) | 基于深度双q网络强化学习的uuv实时避碰规划方法 | |
CN113759935B (zh) | 基于模糊逻辑的智能群体编队移动控制方法 | |
CN109828467A (zh) | 一种数据驱动的无人船强化学习控制器结构及设计方法 | |
Liu et al. | A swarm of unmanned vehicles in the shallow ocean: A survey | |
Liu et al. | Reinforcement learning-based collision avoidance: Impact of reward function and knowledge transfer | |
Okereke et al. | An overview of machine learning techniques in local path planning for autonomous underwater vehicles | |
Zhong et al. | Research on target tracking for robotic fish based on low-cost scarce sensing information fusion | |
CN114047758B (zh) | 基于Q-learning的多移动机器人编队方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |