CN113064422A - 基于双神经网络强化学习的自主水下航行器路径规划方法 - Google Patents
基于双神经网络强化学习的自主水下航行器路径规划方法 Download PDFInfo
- Publication number
- CN113064422A CN113064422A CN202110253524.1A CN202110253524A CN113064422A CN 113064422 A CN113064422 A CN 113064422A CN 202110253524 A CN202110253524 A CN 202110253524A CN 113064422 A CN113064422 A CN 113064422A
- Authority
- CN
- China
- Prior art keywords
- auv
- information
- action
- state
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002787 reinforcement Effects 0.000 title claims abstract description 28
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 13
- 230000009977 dual effect Effects 0.000 claims description 4
- QBPFLULOKWLNNW-UHFFFAOYSA-N chrysazin Chemical compound O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=CC=C2O QBPFLULOKWLNNW-UHFFFAOYSA-N 0.000 claims description 2
- 238000013508 migration Methods 0.000 abstract 1
- 230000005012 migration Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241001181114 Neta Species 0.000 description 1
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/0206—Control of position or course in two dimensions specially adapted to water vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于双神经网络强化学习的自主水下航行器路径规划方法,基于双神经网络强化学习算法解决自主水下航行器的路径规划问题。针对Q‑learning学习算法存在需要存储空间大和查找时间长的问题,进行优化处理;在Q‑learning学习算法的基础上融入目标网络和记忆池经验回放技术得到双神经网络强化学习算法,并构建基于双神经网络强化学习算法的AUV智能路径规划框架;量化处理自主水下航行器的环境状态信息,将其与双神经网络强化学习算法相结合,并判断AUV运动方向与目标点位置关系,得到AUV智能规划路径的决策。本发明显著地降低了运算的复杂性,满足实时决策要求,具有突出的迁移能力和环境适应性,为AUV提供安全快捷可靠的路径规划方案。
Description
技术领域
本发明属于人工智能及路径规划领域,具体涉及一种基于双神经网络强化学习的自主水下航行器路径规划方法。
背景技术
随着人工智能领域的逐渐发展,越来越多专家的关注和研究如何利用人工智能技术解决自主水下航行器的路径规划问题,科学界也涌现出了大量智能算法,其中包含深度学习、强化学习等,使自主水下航行器(Autonomous Underwater Vehicle,AUV)的路径规划越来越精确。但是,AUV最终要面临的是如何在未知的环境中的做到准确航行,所以在研究AUV如何提高自身性能的同时也要充分考虑到在未知环境中准确航行的问题。与在已知环境信息下AUV的路径规划问题相比,在未知环境信息下AUV的路径规划问题更加具有挑战性。在现代科学追求高安全性,高精确性和高效率性的时代背景下,在AUV的路径规划问题上,如何提高AUV在未知环境中的学习能力和AUV的环境自适应性也成为目前研究的关键技术性问题。而且,在路径规划算法问题上,传统的单一算法存在较大的弊端,例如被广泛应用的神经网络算法容易陷入局部最优解的问题,而强化学习是一种可以与环境进行交互式学习的重要人工智能方法,该算法通过不断地试错与探索,逐渐学习到相关的决策模型,具有灵活的路径规划能力,可用于解决在未知环境中自主水下航行器的路径规划问题。如何改进路径规划算法,又如何提高AUV在未知环境中的学习能力和环境自适应性,是AUV路径规划方法研究的热点,也是本发明研究的重点。
发明内容
发明目的:为了解决现有技术中AUV路径规划存在的面对未知环境的自我学习能力和环境自适应问题,本发明提供一种基于双神经网络强化学习的自主水下航行器路径规划方法。
技术方案:本发明提供一种基于双神经网络强化学习的自主水下航行器路径规划方法,具体包括以下步骤:
(1)对Q-learning学习算法中存在的需要存储空间大和查找时间长的问题进行优化处理;
(2)在Q-learning学习算法的基础上融入目标网络和基于“优先级”的记忆池经验回放技术得到双神经网络强化学习算法,并构建基于双神经网络强化学习算法的AUV智能路径规划框架;
(3)量化处理AUV的环境状态信息,将其与DQN算法相结合得到神经网络结构,并判断AUV运动方向与目标点位置关系,得到AUV智能规划路径的决策模型。
进一步地,所述步骤(1)实现过程如下:
Q-learning学习算将AUV当前状态st和执行动作at构成一张Q值表,命名为Q Net,用于存放AUV每一时刻的状态和执行动作;然后根据Q值表来选取能够获得最大收益的下一步动作at+1,在此基础上优化Q-learning学习算法就是根据AUV当前所处的环境信息去除Q值表中的无效动作,来减少Q值表所需的存储空间和查找Q值表所需要的时间。
进一步地,所述步骤(2)包括以下步骤:
(21)在优化后的Q-learning学习算法的基础上融入目标网络构成两个浅层神经网络:
Qt+1(s,a)=Qt(s,a;θ)+β(r+γmax Qt(st+1,at+1;θt)-Qt(st,at;θ)) (2)
其中,Qt+1(s,a)为根据Q值更新公式得到的目标函数值;Qt(s,a)为根据st和at拟合出的当前函数值;β为学习率;r为即时反馈值;γ为折价系数;a为在状态s下执行的动作;
(22)对记忆池进行初始化,并且利用参数θ初始化Q Net网络,利用参数θt初始化目标网络Aim Net;θ为Q Net中函数值的向量表示;θt为Aim Net中函数值的向量表示
(23)将AUV的状态信息定义为其周围障碍物信息加上其本身的姿态信息,初始化AUV开始状态信息为s0,初始化AUV此后每一时刻的当前状态信息为st,时间为t;
(24)根据AUV当前状态信息st选择动作at:AUV的动作由Q Net根据当前输入状态信息st下的预测值,选择神经网络输出层最大的Q值对应的动作at作为最优动作;
(25)执行动作at后,AUV的状态转移到下一状态信息st+1,并通过环境信息以及动作信息at和状态信息st+1的反馈,获得即时反馈值rt;
(26)AUV在每次执行动作之后都会得到一组样本信息(st,at,rt,st+1),将样本信息存放到记忆池中,然后构造优先级数组来存放样本信息的优先级和位置索引信息;其中,st为当前时刻AUV的状态;at为当前时刻的状态下AUV执行的动作;st+1为AUV执行动作at后下一时刻的状态;rt为AUV根据st+1获得的即时反馈值;
(27)获得一定数目的样本信息后,判断记忆池中的样本数量是否达到初始化权值θ,若达到θ则开始训练模型,若没达到则继续收集样本信息。
进一步地,所述步骤(27)包括以下步骤:
(271)在记忆池中抽取m个样本(st,at,rt,st+1),构成训练样本信息的集合;
(272)针对每个样本信息,将状态信息st输入到Q Net当中,计算at的Q值函数Qt(s,a;θ);将状态信息st+1输入到目标函数Aim Net中,目标函数Aim Net输出动作at,选取动作at对应的最大值函数maxQt(st+1,at+1;θt);将上述结果和反馈值rt带入公式(2),可得到待拟合Q函数的真实值Qt+1(s,a);
(273)计算损失函数LOSE:
LOSE=(Qt+1(s,a)-Qt(s,a;θ))2 (4)
其中,Qt+1(s,a)为根据Q值更新公式得到的目标函数值,a为在状态s下执行的动作;判断状态信息st+1是否为目标状态或碰到障碍物,若是,则停止本次训练并且回到起始状态重新开始模型训练;若不是目标状态并且也没有发生碰撞,则更新当前状态信息st=st+1,重复训练过程。
进一步地,所述步骤(3)包括以下步骤:
(31)获取AUV当前环境状态信息:AUV自身当前艏向角ψR;AUV与其周围障碍物位置关系;基于大地坐标系下AUV自身位置信息;AUV与目标点之间的夹角信息;
(32)AUV自身位置信息的计算:AUV在大地坐标系下的位置坐标为(xr,yr),将AUV执行偏转角动作所需时间看作Δt,根据当前AUV位置信息(xr,yr)计算下一时刻AUV的位置信息(xr+1,yr+1):
xr+1=xr+v cos(ψr+Δψr)Δt (5)
yr+1=yr+v sin(ψr+Δψr)Δt (6)
其中,xr为AUV在大地坐标下的横坐标;yr为AUV在大地坐标下的纵坐标;Δt为AUV执行偏转角动作所需要的时间;v为AUV的速度;xr+1为AUV执行偏转角动作后的横坐标;yr+1为AUV执行偏转角动作后的纵坐标;ψR为AUV当前艏相角;AUV根据当前状态信息来执行偏转角动作的方式进行决策,根据公式(5)和(6)生成下一步的目标位置,不断重复得到的一系列目标位置信息构成了最终到达目标点的规划路径;
(33)将AUV的环境状态信息和AUV运动方向与目标点位置关系加入到基于双神经网络DQN强化学习算法得到AUV下一步运动方向。
有益效果:与现有技术相比,本发明的有益效果:1、本发明将目标网络和记忆池经验回放技术与Q-learning算法相结合,进行优势互补,使AUV基于DQN算法进行路径规划,克服了单一算法存在的弊端,实时性能好,能够安全避障,有很强的自我学习能力,效率得到很大的提升;通过基于“优先级”记忆池经验回放技术的应用使该算法具有更强的自我学习能力,减少学习时间,提高学习效率;2、将未知环境这一影响因素考虑在内,使AUV路径规划更为精确。
附图说明
图1是本发明的流程图;
图2是基于双神经网络强化学习算法部分的流程图;
图3是误差函数计算过程的流程图;
图4是优先级样本抽取方法的流程图;
图5是基于DQN算法的AUV智能规划框架图;
图6是AUV环境信息描述图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
如图1所示,本发明提出一种基于双神经网络强化学习的自主水下航行器路径规划方法,基将目标函数和记忆池经验回放技术加入Q-learning学习算法构成双神经网络强化学习(Deep Q Network,DQN)算法并结合AUV位置状态信息得到AUV路径规划决策;具体包括以下步骤:
步骤1:针对Q-learning学习算法存在需要存储空间大和查找时间长的问题进行优化处理。
Q-learning学习算法的主要思想是将AUV当前状态st和执行动作at构成一张Q值表(Q Net,用于存放AUV每一时刻的状态和执行动作)来存储Q值,然后根据Q值表来选取能够获得最大收益的下一步动作at+1,在此基础上优化Q-learning学习算法就是根据AUV当前所处的环境信息去除Q值表中的无效动作,来减少Q值表所需的存储空间和查找Q值表所需要的时间,来加快模型训练的速度。
当AUV所处环境为隐性马尔科夫环境,则AUV在每一时刻t的学习过程描述如下:
①根据环境信息获得当前AUV的状态st;
②AUV在状态st下选择执行动作at;
③AUV状态发生转移,转移后的状态为st+1;
④根据环境信息和转移后状态st+1获得即时反馈值rt;
⑤根据Q值更新公式更新Q值:
其中,Qt+1(s,a)为根据Q值更新公式得到的目标函数值;Qt(s,a)为根据st和at拟合出的当前函数值;β为学习率;r为即时反馈值;γ为折价系数;a为在状态s下执行的动作;
⑥根据转移后的状态st+1和反馈值rt去除Q值表中已存储的无效动作;
Q-learning算法的算法过程就是更新一个可以迭代计算的Q值表。
步骤2:在Q-learning学习算法的基础上融入目标网络和基于“优先级”的记忆池经验回放技术得到DQN算法,并构建基于DQN算法的AUV智能路径规划框架。
DQN算法是Q-learning学习算法的优化形式,利用两个浅层神经网络来训练AUV的智能决策模型,在Q-learning学习算法基础上融入目标神经网络和基于“优先级”的记忆池经验回放技术来得到DQN算法。具体过程如图2所示。
(2.1)在优化后的Q-learning学习算法的基础上融入目标网络构成两个浅层神经网络。
将表示状态和动作的Q函数值调整为周期性更新的目标函数值,从而减少与Q值表的相关性。在强化学习的基础上训练神经网络以达到代替Q值表的迭代更新的目的,这样的方法存在明显的低效率的缺陷,所以在训练神经网络迭代更新的Q值表(Q Net)的基础上,引入第二个神经网络:目标网络(Aim Net)。Aim Net与Q Net具有相同的网络结构,Q Net所拟合的当前函数值为Q(s,a;θ),则目标网络所拟合的当前函数值为Q(s,a;θt),表示状态和动作的目标函数值Qt+1(s,a)更新公式如(2):
Qt+1(s,a)=Qt(s,a;θ)+β(r+γmax Qt(st+1,at+1;θt)-Qt(st,at;θ)) (2)
神经网络误差函数计算过程如图3所示,对每个样本(st,at,rt,st+1)都构造误差函数,将AUV下一刻的状态量st+1作为Aim Net的输入量,计算出在状态st+1下AUV所有的动作at+1对应的Q值,并提取出最大的Q值:maxQt(st+1,at+1;θt)用于计算误差函数。将AUV当前状态st作为Q Net的输入量,计算出在状态st下AUV所有动作at对应的Q值,选择所执行动作at对应的Qt(s,at;θ)用于计算误差函数,再根据即时反馈值r和公式(2)可构造出每个样本信息所对应的误差函数值Error:
Error=β(r+γmaxQt(st+1,at+1;θt)-Qt(st,at;θ)) (3)
Q Net接收到Error误差值后进行反向迭代计算,训练神经网络参数。随着训练的进行Q Net是实时更新的。每训练j(j∈N+)步,将当前Q Net的参数直接赋值到Aim Net中,保持Aim Net的参数不变,继续训练Q Net,当再一次训练j步时,重复之前的赋值过程。利用这种方法可以减少表示当前动作和状态的函数值Q和Aim Net之间存在的相关性。
(2.2)基于“优先级”的记忆池经验回放技术的融入。
记忆池经验回放技术使AUV不仅可以学习到新采集的样本信息,而且对于过去的样本信息也有机会进行重复学习,并且可以去除序列中与Q Net有关样本信息的相关性,使数据的分布变化更加平滑。基于“优先级”的记忆池经验回放技术与随机记忆池经验回放技术相比较而言,优先级样本的抽取过程如图4所示,可以使AUV有更大的概率对质量更好的样本信息进行优先学习,缩短学习过程所用的时间。优先级样本抽取方法的其中一个理想化标准是AUV从其当前状态st向下一时刻状态st+1转移的过程中获得,那么这个标准可以利用样本信息的误差函数值Error来代替,用误差函数值Error来表示这个样本在状态转移过程中的“优先级”,若误差函数值Error越大,那么AUV越需要学习这个样本信息,即此样本信息的优先级越高。
以Error作为优先级样本抽取方法理想化标准,利用一个二维数组来存放每个样本信息的优先级,以及此样本信息在记忆池中的位置索引信息,则此二维数组被称作优先级数组,并且此二维数组与记忆池的容量相同。记忆池在训练过程中每增加一个样本的同时,会将此样本所对应的优先级信息和位置索引信息存入优先级数组中,并且以样本的优先级从低到高的顺序对优先级数组中的数据进行排列,然后将优先级数组均分成n个优先级区间。当需要对m个样本信息进行重复学习时,就在每个优先级区间中以随机的方式抽取个数据,再根据每个数据附带的位置索引信息,从记忆池中找出这些需要被重复学习的样本信息。利用这样的选择方式,从每个优先级区间中选出等量的样本信息进行重复学习,保证了每个样本信息具有相同的可能性被重复学习。
(2.3)如图5所示,构建基于DQN算法的AUV智能路径规划框架。
首先对记忆池进行初始化,并且利用参数θ初始化Q Net网络,利用参数θt初始化目标网络Aim Net。在AUV路径规划方法的问题上,将AUV的状态信息定义为其周围障碍物信息加上其本身的姿态信息,初始化AUV开始状态信息为s0,初始化AUV此后每一时刻的当前状态信息为st,时间为t。
其次,根据AUV当前状态信息st选择动作at。AUV的动作由Q Net根据当前输入状态信息st下的预测值,选择神经网络输出层最大的Q值对应的动作at作为最优动作。
执行动作at后,AUV的状态转移到下一状态信息st+1,并通过环境信息以及动作信息at和状态信息st+1的反馈,获得即时反馈值rt。AUV在每次执行动作之后都会得到一组样本信息(st,at,rt,st+1)。将样本信息存放到记忆池中,然后构造优先级数组来存放样本信息的优先级和位置索引信息。
获得一定数目的样本信息后,判断记忆池中的样本数量是否达到初始化权值θ,若达到θ则开始训练模型,若没达到则继续收集样本信息。模型训练过程如下:
①在记忆池中抽取m个样本(st,at,rt,st+1),构成训练样本信息的集合。
②针对每个样本信息,将状态信息st输入到Q Net当中,计算at的Q值函数Qt(s,a;θ);将状态信息st+1输入到目标函数Aim Net中,目标函数Aim Net输出动作at,选取动作at对应的最大值函数maxQt(st+1,at+1;θt);其中,θ为Q Net中函数值的向量表示;θt为Aim Net中函数值的向量表示。将上述结果和反馈值rt带入公式(2),可得到待拟合Q函数的真实值Qt+1(s,a)。
③计算损失函数LOSE:
LOSE=(Qt+1(s,a)-Qt(s,a;θ))2 (4)
根据损失函数并通过梯度下降法来更新目标网络Aim Net中函数值的向量表示θt,增加选择最优动作的概率,并标记此次学习结束。
判断状态信息st+1是否为目标状态或碰到障碍物,若是,则停止本次训练并且回到起始状态重新开始模型训练;若不是目标状态并且也没有发生碰撞,则更新当前状态信息st=st+1,重复上述训练过程。
步骤3:量化处理AUV的环境状态信息,将其与DQN算法相结合,并判断AUV运动方向与目标点位置关系,进而得到AUV智能规划路径的决策模型。
(3.1)获取AUV当前环境状态信息:
通过传感器获取当前位置周围的障碍物信息以及自身位置信息,构成AUV当前环境状态信息。环境状态信息表示:以相对位置信息作为AUV每一时刻的状态信息,对AUV状态信息的提取特征主要包含以下四个方面:
①AUV自身当前艏向角ψR;
②AUV与其周围障碍物位置关系;
③基于大地坐标系下AUV自身位置信息;
④AUV与目标点之间的夹角信息;
AUV自身位置信息的计算:在大地坐标系下,可以将AUV看作一个质点,AUV在大地坐标系下的位置坐标看作(xr,yr),将AUV执行偏转角动作所需时间看作Δt,根据当前AUV位置信息(xr,yr)可以计算下一时刻AUV的位置信息(xr+1,yr+1):
xr+1=xr+v cos(ψr+Δψr)Δt (5)
yr+1=yr+v sin(ψr+Δψr)Δt (6)
其中,xr为AUV在大地坐标下的横坐标;yr为AUV在大地坐标下的纵坐标;Δt为AUV执行偏转角动作所需要的时间;v为AUV的速度;xr+1为AUV执行偏转角动作后的横坐标;yr+1为AUV执行偏转角动作后的纵坐标;ψR为AUV当前艏相角。
AUV根据当前状态信息来执行偏转角动作的方式进行决策,根据公式(5)和(6)生成下一步的目标位置,不断重复上述的过程,得到的一系列目标位置信息构成了最终到达目标点的规划路径。
(3.2)将环境状态信息和AUV与目标点位置关系与DQN算法相结合:
将AUV的环境状态信息所示和AUV运动方向与目标点位置关系加入到基于双神经网络DQN强化学习算法得到AUV下一步运动方向。
AUV通过传感器(如声呐)实时探测一定范围内的障碍物位置信息,以此来识别其周围的环境信息,声呐可以扫描AUV当前运动方向正前方1800的范围。利用其中在七个不同角度(-π/2,-π/3,-π/6,0,π/6,π/3,π/2)探测到的障碍物信息作为获取环境信息的来源。如果声呐探测到有障碍物,则返回与AUV距离最近的障碍物的距离测量值,用d表示。定义声呐探测距离AUV20米范围内的障碍物的距离值为有效信息,量化处理连续的障碍物的距离测量值,并且视20米外探测到的障碍物信息为无效信息。将障碍物与AUV之间的距离测量值和角度差作为表示环境信息的一部分,把这七个不同角度的障碍物位置信息dsi(i=1,2,3,...7)写成向量形式:{ds1,ds2,ds3,ds4,ds5,ds6,ds7}。
如图6,在AUV环境状态信息描述中,其中:di是AUV与各个角度的障碍物之间的距离;dg为AUV与目标点之间的距离测量值;α为AUV的正前方向与目标点方向之间的夹角;ψR为AUV艏向角。
AUV当前位置的坐标为(xr,yr),艏向角为ψR,目标点的坐标为(xg,yg),AUV所在位置的水平线与目标点之间的夹角为AUV前进方向与目标点方向之间的夹角为α=θrg-ψR。因为角度是连续变量,所以将角度做特征变换进行量化处理:
其中,αg为量化处理之后的AUV前进方向与目标点方向之间的夹角,表示AUV前进方向与目标点方向之间的相对位置关系,α为AUV前进方向与目标点方向之间的夹角。
因为环境状态信息包括AUV周围障碍物的位置信息和AUV前进方向与目标点之间的夹角信息,所以将状态信息表示为向量{ds1,ds2,ds3,ds4,ds5,ds6,ds7,αg}。
Claims (5)
1.一种基于双神经网络强化学习的自主水下航行器路径规划方法,其特征在于,包括以下步骤:
(1)对Q-learning学习算法中存在的需要存储空间大和查找时间长的问题进行优化处理;
(2)在Q-learning学习算法的基础上融入目标网络和基于“优先级”的记忆池经验回放技术得到双神经网络强化学习算法,并构建基于双神经网络强化学习算法的AUV智能路径规划框架;
(3)量化处理AUV的环境状态信息,将其与DQN算法相结合得到神经网络结构,并判断AUV运动方向与目标点位置关系,得到AUV智能规划路径的决策模型。
2.根据权利要求1所述的基于双神经网络强化学习的自主水下航行器路径规划方法,其特征在于,所述步骤(1)实现过程如下:
Q-learning学习算法将AUV当前状态st和执行动作at构成一张Q值表,命名为QNet,用于存放AUV每一时刻的状态和执行动作;然后根据Q值表来选取能够获得最大收益的下一步动作at+1,在此基础上优化Q-learning学习算法就是根据AUV当前所处的环境信息去除Q值表中的无效动作,来减少Q值表所需的存储空间和查找Q值表所需要的时间。
3.根据权利要求1所述的基于双神经网络强化学习的自主水下航行器路径规划方法,其特征在于,所述步骤(2)包括以下步骤:
(21)在优化后的Q-learning学习算法的基础上融入目标网络构成两个浅层神经网络:
Qt+1(s,a)=Qt(s,a;θ)+β(r+γmax Qt(st+1,at+1;θt)-Qt(st,at;θ)) (2)
其中,Qt+1(s,a)为根据Q值更新公式得到的目标函数值;Qt(s,a)为根据st和at拟合出的当前函数值;β为学习率;r为即时反馈值;γ为折价系数;a为在状态s下AUV执行的动作;
(22)对记忆池进行初始化,并且利用参数θ初始化Q Net网络,利用参数θt初始化目标网络Aim Net;θ为QNet中函数值的向量表示;θt为Aim Net中函数值的向量表示;
(23)将AUV的状态信息定义为其周围障碍物信息加上其本身的姿态信息,初始化AUV开始状态信息为s0,初始化AUV此后每一时刻的当前状态信息为st,时间为t;
(24)根据AUV当前状态信息st选择动作at:AUV的动作由Q Net根据当前输入状态信息st下的预测值,选择神经网络输出层最大的Q值对应的动作at作为最优动作;
(25)执行动作at后,AUV的状态转移到下一状态信息st+1,并通过环境信息以及动作信息at和状态信息st+1的反馈,获得即时反馈值rt;
(26)AUV在每次执行动作之后都会得到一组样本信息(st,at,rt,st+1),将样本信息存放到记忆池中,然后构造优先级数组来存放样本信息的优先级和位置索引信息;其中st为当前时刻AUV的状态;at为当前时刻状态下AUV执行的动作;st+1为执行动作at后AUV的状态;rt为根据环境信息以及动作信息at和状态信息st+1获得的即时反馈值;
(27)获得一定数目的样本信息后,判断记忆池中的样本数量是否达到初始化权值θ,若达到θ则开始训练模型,若没达到则继续收集样本信息。
4.根据权利要求3所述的基于双神经网络强化学习的自主水下航行器路径规划方法,其特征在于,所述步骤(27)包括以下步骤:
(271)在记忆池中抽取m个样本(st,at,rt,st+1),构成训练样本信息的集合;
(272)针对每个样本信息,将状态信息st输入到QNet当中,计算at的Q值函数Qt(s,a;θ);将状态信息st+1输入到目标函数AimNet中,目标函数AimNet输出动作at,选取动作at对应的最大值函数maxQt(st+1,at+1;θt);将上述结果和反馈值rt带入公式(2),可得到待拟合Q函数的真实值Qt+1(s,a);
(273)计算损失函数LOSE:
LOSE=(Qt+1(s,a)-Qt(s,a;θ))2 (4)
其中,Qt+1(s,a)为根据Q值更新公式得到的目标函数值,a为在状态s下执行的动作;判断状态信息st+1是否为目标状态或碰到障碍物,若是,则停止本次训练并且回到起始状态重新开始模型训练;若不是目标状态并且也没有发生碰撞,则更新当前状态信息st=st+1,重复训练过程。
5.根据权利要求1所述的基于双神经网络强化学习的自主水下航行器路径规划方法,其特征在于,所述步骤(3)包括以下步骤:
(31)获取AUV当前环境状态信息:AUV自身当前艏向角ψR;AUV与其周围障碍物位置关系;基于大地坐标系下AUV自身位置信息;AUV与目标点之间的夹角信息;
(32)AUV自身位置信息的计算:AUV在大地坐标系下的位置坐标为(xr,yr),将AUV执行偏转角动作所需时间看作Δt,根据当前AUV位置信息(xr,yr)计算下一时刻AUV的位置信息(xr+1,yr+1):
xr+1=xr+v cos(ψr+Δψr)Δt (5)
yr+1=yr+v sin(ψr+Δψr)Δt (6)
其中,xr为AUV在大地坐标下的横坐标;yr为AUV在大地坐标下的纵坐标;Δt为AUV执行偏转角动作所需要的时间;v为AUV的速度;xr+1为AUV执行偏转角动作后的横坐标;yr+1为AUV执行偏转角动作后的纵坐标;ψR为AUV当前艏相角;AUV根据当前状态信息来执行偏转角动作的方式进行决策,根据公式(5)和(6)生成下一步的目标位置,不断重复得到的一系列目标位置信息构成了最终到达目标点的规划路径;
(33)将AUV的环境状态信息和AUV运动方向与目标点位置关系加入到基于双神经网络DQN强化学习算法得到AUV下一步运动方向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110253524.1A CN113064422B (zh) | 2021-03-09 | 2021-03-09 | 基于双神经网络强化学习的自主水下航行器路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110253524.1A CN113064422B (zh) | 2021-03-09 | 2021-03-09 | 基于双神经网络强化学习的自主水下航行器路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113064422A true CN113064422A (zh) | 2021-07-02 |
CN113064422B CN113064422B (zh) | 2022-06-28 |
Family
ID=76560073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110253524.1A Active CN113064422B (zh) | 2021-03-09 | 2021-03-09 | 基于双神经网络强化学习的自主水下航行器路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113064422B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003059A (zh) * | 2021-11-01 | 2022-02-01 | 河海大学常州校区 | 运动学约束条件下基于深度强化学习的uav路径规划方法 |
CN114609925A (zh) * | 2022-01-14 | 2022-06-10 | 中国科学院自动化研究所 | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109514553A (zh) * | 2018-11-21 | 2019-03-26 | 苏州大学 | 一种机器人移动控制的方法、系统及设备 |
WO2020068141A1 (en) * | 2018-09-26 | 2020-04-02 | Google Llc | Predicted variables in programming |
CN111240344A (zh) * | 2020-02-11 | 2020-06-05 | 哈尔滨工程大学 | 一种基于双神经网络强化学习技术的自主水下机器人无模型控制方法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112198870A (zh) * | 2020-06-01 | 2021-01-08 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
-
2021
- 2021-03-09 CN CN202110253524.1A patent/CN113064422B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020068141A1 (en) * | 2018-09-26 | 2020-04-02 | Google Llc | Predicted variables in programming |
CN109514553A (zh) * | 2018-11-21 | 2019-03-26 | 苏州大学 | 一种机器人移动控制的方法、系统及设备 |
CN111240344A (zh) * | 2020-02-11 | 2020-06-05 | 哈尔滨工程大学 | 一种基于双神经网络强化学习技术的自主水下机器人无模型控制方法 |
CN112198870A (zh) * | 2020-06-01 | 2021-01-08 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
Non-Patent Citations (5)
Title |
---|
CONG WANG 等: "《Geomagnetic Navigation with Adaptive Search Space for AUV based on Deep Double-Q-Network》", 《GLOBAL OCEANS 2020: SINGAPORE – U.S. GULF COAST》 * |
JUNWU ZHAO 等: "《A Deep Reinforcement Learning Approach for Autonomous Highway Driving》", 《IFAC PAPERSONLINE 53-5》 * |
李严: "《基于增强学习的水下无人航行器控制方法研究》", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
沈寒伊 等: "《水下机器人任务执行次序与路径规划改进算法》", 《惯性传感器技术与应用研讨会文集》 * |
陈荣发: "《基于深度强化学习的水下机器人导航算法研究》", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003059A (zh) * | 2021-11-01 | 2022-02-01 | 河海大学常州校区 | 运动学约束条件下基于深度强化学习的uav路径规划方法 |
CN114003059B (zh) * | 2021-11-01 | 2024-04-16 | 河海大学常州校区 | 运动学约束条件下基于深度强化学习的uav路径规划方法 |
CN114609925A (zh) * | 2022-01-14 | 2022-06-10 | 中国科学院自动化研究所 | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113064422B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885891B (zh) | 一种智能车gpu并行加速轨迹规划方法 | |
CN108803321B (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN113345018B (zh) | 一种动态场景下的激光单目视觉融合定位建图方法 | |
CN110703747A (zh) | 一种基于简化广义Voronoi图的机器人自主探索方法 | |
CN113033119B (zh) | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 | |
CN110717927A (zh) | 基于深度学习和视惯融合的室内机器人运动估计方法 | |
CN106780631B (zh) | 一种基于深度学习的机器人闭环检测方法 | |
CN114625151B (zh) | 一种基于强化学习的水下机器人避障路径规划方法 | |
CN107146237B (zh) | 一种基于在线状态学习与估计的目标跟踪方法 | |
CN116263335A (zh) | 一种基于视觉与雷达信息融合与强化学习的室内导航方法 | |
CN113064422B (zh) | 基于双神经网络强化学习的自主水下航行器路径规划方法 | |
CN114237235B (zh) | 一种基于深度强化学习的移动机器人避障方法 | |
CN112669345B (zh) | 一种面向云端部署的多目标轨迹跟踪方法及系统 | |
CN110146085A (zh) | 基于建图和快速探索随机树的无人机实时规避重规划方法 | |
CN114740846A (zh) | 面向拓扑-栅格-度量混合地图的分层路径规划方法 | |
Aslan et al. | Goal distance-based UAV path planning approach, path optimization and learning-based path estimation: GDRRT*, PSO-GDRRT* and BiLSTM-PSO-GDRRT | |
CN113110455A (zh) | 一种未知初始状态的多机器人协同探索方法、装置及系统 | |
CN113033555B (zh) | 基于度量学习的视觉slam闭环检测方法 | |
CN108469729B (zh) | 一种基于rgb-d信息的人体目标识别与跟随方法 | |
CN116758153A (zh) | 用于机器人精准位姿获取的基于多因子图的后端优化方法 | |
CN116679711A (zh) | 一种基于有模型与无模型强化学习的机器人避障方法 | |
CN117213470B (zh) | 一种多机碎片地图聚合更新方法及系统 | |
CN114397894A (zh) | 一种模仿人类记忆的移动机器人目标搜索方法 | |
CN110779526B (zh) | 一种路径规划方法、装置及存储介质 | |
CN116679710A (zh) | 一种基于多任务学习的机器人避障策略训练与部署方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |