CN108279692A - 一种基于lstm-rnn的uuv动态规划方法 - Google Patents
一种基于lstm-rnn的uuv动态规划方法 Download PDFInfo
- Publication number
- CN108279692A CN108279692A CN201810043819.4A CN201810043819A CN108279692A CN 108279692 A CN108279692 A CN 108279692A CN 201810043819 A CN201810043819 A CN 201810043819A CN 108279692 A CN108279692 A CN 108279692A
- Authority
- CN
- China
- Prior art keywords
- lstm
- uuv
- layer
- input
- rnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000007613 environmental effect Effects 0.000 claims abstract description 16
- 230000033001 locomotion Effects 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 28
- 239000003016 pheromone Substances 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 18
- 238000004088 simulation Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000000644 propagated effect Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000003014 reinforcing effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000013461 design Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/04—Control of altitude or depth
- G05D1/06—Rate of change of altitude or depth
- G05D1/0692—Rate of change of altitude or depth specially adapted for under-water vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于LSTM‑RNN的UUV动态规划方法,属于无人潜航器领域,包括如下步骤:步骤(1):选择几何模型构建障碍环境模型;步骤(2):利用蚁群算法建立用于获取数据集的UUV动态规划器;步骤(3):设计用于动态规划的LSTM‑RNN网络模型;步骤(4):获取数据集:步骤(5):利用数据集中训练集的数据训练LSTM‑RNN网络,得到基于LSTM‑RNN网络的动态规划器;步骤(6):将声纳探测信息及目标点信息输入至基于LSTM‑RNN网络的运动规划器,获得UUV下一时刻的航向及航速。本方法具有强大的学习能力,同时还具有非常强的泛化能力,这使得所实现的动态规划器适用于复杂的环境。同时满足实时性的要求,并且所规划的路径符合UUV的运动特性。
Description
技术领域
本发明属于无人潜航器领域,尤其涉及一种基于LSTM-RNN的UUV动态规划方法。
背景技术
UUV在未知环境下的动态路径规划能力是体现其智能水平的重要指标之一。传统动态规划方法往往遭受着环境模型精度与规划实时性矛盾的困扰,且在具有大量随机运动障碍的复杂环境中,还需设计辅助策略才能实现理想的规避,这些辅助策略的设计是相当复杂的,而且需要大量的计算时间。因此,探寻一种简单、廉价、高效、易于实现的动态路径规划方法具有重大的理论和实践价值。
随着陆地资源消耗日趋枯竭,各国开始大量投入金钱、时间和人力开发水下资源,水下无人潜航器被重点所关注,而各种各样的无人潜航器在达到复杂作业及安全航行时,均要按照相应的航行路径进行操作,才能完成一次水下潜航。为了实施最佳航行计划、保持潜航器能在预定的航向上运行,要保证潜航器的操纵性,潜航器具备很好的操纵性时,能稳定维持行驶航向、深度及航速,又能快速对航向、深度及航速进行改变,正确的执行种种操作。水下无人潜航器路径的控制,也影响着无人潜航器的工作性能,需要对水下潜航器的路径进行有效的控制。
路径规划,即找到一条从起点到终点的无碰撞安全路径,并且使特定的规划指标如路径最短、风险最小、任务完成量最多等达到最优。路径规划算法在国内外已有相当多的研究,比较常用的有A*算法、Dijkstra算法、蚁群和遗传等仿生智能算法。然而基于上述传统算法的实时路径规划系统,存在环境模型的精度以及路径的优化程度与规划的实时性相互矛盾的问题。深度学习是目前最具潜力的人工智能算法,其强大的非线性拟合能力可以为UUV提供一套简单、高效、易于实现的运动规划系统。这使得UUV具有了一定的自主学习的能力,从而减少了其对感知设备的依赖,增强了其在避碰过程中的灵活度。运动规划系统的规划能力随着UUV在运动的过程中的不断学习而逐步提高。
中国专利CN107368076A公开了一种智能环境下机器人运动路径深度学习控制规划方法,该方法使用深度学习DBN网络解决运载机器人全局路径规划问题。所提深度学习DBN网络包括一层输入层、三层隐藏层以及一层输出层,其中可视层与第一隐藏层构成第一层限制玻尔兹曼机RBM,第一隐藏层与第二隐藏层构成第二层限制玻尔兹曼机RBM,第二隐藏层与第三隐藏层构成BP网络层。该专利采用逐层训练的方法依次对两层限制玻尔兹曼机RBM和BP网络层进行训练。与全局路径规划不同,动态规划器需要根据过去一段时间内的环境信息实时输出规划结果。相较于限制玻尔兹曼机RBM,LSTM-RNN具有处理较长时间序列的能力,且更适用于复杂的规划问题。
发明内容
本发明的目的在于公开灵活度高,能够适应复杂环境的一种基于LSTM-RNN的UUV动态规划方法。
本发明的目的是这样实现的:
一种基于LSTM-RNN的UUV动态规划方法,包含如下步骤:
步骤(1):选择几何模型构建障碍环境模型:
对于椭圆形或圆形障碍,存储椭圆形或圆形障碍的两个对角点坐标,利用这两点坐标,计算出椭圆圆心和长短半径,获得椭圆形或圆形障碍的全部信息;对于多边形障碍,存储多边形顶点的坐标,由任意一个顶点开始,按顺时针或者逆时针顺序将多边形顶点依次存储于一个顺序链表中,通过顺序链表获取多边形障碍的全部信息。
步骤(2):利用蚁群算法建立用于获取数据集的UUV动态规划器:
蚁群算法信息素更新规则为:
上式中,i,j是状态点序号,m是蚁群中蚂蚁总数,ρ是挥发系数,Q是常数,Lk是蚂蚁k寻食付出的代价,即路径长度;
每一代蚂蚁中排名前四分之一的蚂蚁走过的路径的信息素强化规则为:
τij(t+1)=λ×τij(t+1)
上式中,D是起点到终点的欧式距离;
信息素浓度的限制处理:
上式中,τmin是自行设置的信息素浓度上限,τmax是自行设置的信息素浓度下限。
蚁群算法的状态转移规则如下:
为蚂蚁k处于i点处时下一步转移到i的可视点j的概率,allowi为蚂蚁k允许做状态转移的i点的可视点集合,η是启发式函数,取为i点到目标点距离的倒数,α为信息素的重要程度,β为启发函数的重要程度;
步骤(3):设计用于动态规划的LSTM-RNN网络模型:
LSTM-RNN网络模型:包括输入层,波束合并层,隐藏层,中间层以及输出层五个部分;
输入层:接收样本输入,接收样本有181维,前180维为模拟感知器探测的局部环境信息,最后1维为UUV当前位置与目标点在局部坐标下形成的夹角;
波束合并层:波束合并层是对输入层邻近波束求和后取平均;合并领域的大小为2,且不重叠,即该层每个单元对输入层每相邻两个单元的输出值求和取平均后输出;波束合并层共91维,其中前90维为合并后的局部环境特征,最后一维特征不做处理,直接输出;波束合并层的输出和一个偏置项一起作为记忆模块的输入,采用全连接形式;
隐藏层:包括10个记忆模块;记忆模块包括输入单元、输出单元、输入门、输出门、遗忘门、Cell;输入单元、输出单元、输入门、输出门、遗忘门、Cell的维度都为46;采用的序列长度为10,按序列展开后有10个记忆模块,上一时刻的模块输出反馈到下一时刻的模块中;假定第一个记忆模块虚拟的前驱模块输出恒为0向量;输入门、输出门、遗忘门的激活函数是sigmoid函数,输入单元、输出单元的激活函数是tanh函数;
中间层:第10个记忆模块的输出添加上偏置后以全连接方式输入到中间层,维度为23,激活函数是tanh函数;
输出层:中间层加上一个偏置项后以全连接方式输入到输出层,输出层维度为2,激活函数为线性函数,分别输出UUV的航向和航速。
步骤(4):获取数据集:
在全局坐标系中生成若干组随机地图,采用教师系统进行运动规划,水平覆盖角为360°、包含180个波束的二维仿真声呐在每个路径节点采集环境信息,所采集的信息为训练样本,训练样本构成训练集,将教师系统输出的航向及航速作为训练标签;
二维仿真声呐在每个路径节点采集的环境信息为:
上式中,为当前时刻第i个波束探测到的距离信息;
当第i个波束未探测到障碍时,
将t时刻仿真声纳探测到的距离信息做如下处理:
将t时刻UUV所在位置与目标点形成的角度表示为则t时刻LSTM-RNN网络的输入向量为:
t时刻LSTM-RNN网络的标签:
lt=[θt,vt],
上式中,θt表示期望的UUV的航向,vt表示期望的UUV的航速
步骤(5):利用数据集中训练集的数据训练LSTM-RNN网络,得到基于LSTM-RNN网络的动态规划器:
具体的训练步骤为:
步骤(5.1):初始化LSTM-RNN网络各层权重,令i=0;
步骤(5.2):将训练集中的输入数据[xt-9,L,xt]馈入网络,经过LSTM-RNN网络的前向传播过程得到对应输出yt:
步骤(5.3):计算网络输出yt与对应标签lt的误差;
步骤(5.4):判断是否训练集中数据均完成计算,若是,执行五,否则t=t+1,并返回步骤(5.2);
步骤(5.5):利用标准梯度下降误差反向传播算法更新LSTM-RNN网络权重;
步骤(5.6):i=i+1,并判断iMOD500是否为零,若是,执行七,否则返回步骤(5.2);
步骤(5.7):在测试集中随机选取50个序列,使用当前网络进行测试,计算平均误差;
步骤(5.8):若测试集中均方误差连续10次没有减小,则停止训练,否则返回步骤(5.2)。
步骤(5.2)中的LSTM-RNN网络的前向传播过程为:
输入门:
遗忘门:
记忆模块中的输入单元:
Cell更新:
输出门:
记忆模块输出:
输出层:
计算损失:
上述式子中,X表示网络输入,Y表示网络输出,G表示记忆模块的输入单元,S表示记忆模块的Cell,H表示整个记忆模块;分别使用I、O、F表示输入门、输出门、遗忘门。W表示权值矩阵,Wi-j表示i单元与j单元的权值;符号“·”表示向量或矩阵之间对应元素相乘;函数f为门控单元激活函数;函数g、h、y分别是输入单元、输出单元、输出层的激活函数;当一个完整的序列完成一次前向传播后,可以得到损失函数:
上式中,T为序列长度。
步骤(5.5)中的标准梯度下降误差反向传播算法为:
输出层局部梯度:
记忆模块局部梯度:
输出门局部梯度:
Cell状态局部梯度:
遗忘门局部梯度:
输入门局部梯度:
记忆模块输入单元局部梯度:
步骤(6):将声纳探测信息及目标点信息输入至基于LSTM-RNN网络的运动规划器,获
得UUV下一时刻的航向及航速。
本发明的有益效果为:
本发明利用了LSTM-RNN在长时间序列上强大的非线性拟合能力实现了一个端到端的简单高效的动态规划器。设计的LSTM-RNN网络,不仅有强大的学习能力,同时还具有非常强的泛化能力,这使得所实现的动态规划器适用于复杂的环境。同时,该动态规划器满足实时性的要求,并且所规划的路径符合UUV的运动特性。
附图说明
图1是一种基于LSTM-RNN的UUV动态规划方法的LSTM-RNN网络结构图。
图2是一种基于LSTM-RNN的UUV动态规划方法的感知设备仿真示意图。
图3是一种基于LSTM-RNN的UUV动态规划方法的角度示意图。
图4是一种基于LSTM-RNN的UUV动态规划方法在静态环境中的仿真效果图。
图5是一种基于LSTM-RNN的UUV动态规划方法在动态环境中不同时刻的仿真效果图。
具体实施方式
下面结合附图来进一步描述本发明:
一种基于LSTM-RNN的UUV动态规划方法,包含如下步骤:
步骤(1):选择几何模型构建障碍环境模型:
对于二维的几何模型,遵循“使用最少的数据量,描述最完整的信息”的原则,将障碍物按形状分为椭圆形或圆形障碍,多边形障碍两种类型。
对于椭圆形或圆形障碍,存储椭圆形或圆形障碍的两个对角点坐标,利用这两点坐标,计算出椭圆圆心和长短半径,获得椭圆形或圆形障碍的全部信息。
对于多边形障碍,存储多边形顶点的坐标,由任意一个顶点开始,按顺时针或者逆时针顺序将多边形顶点依次存储于一个顺序链表中,这样就可以通过顺序链表还原多边形障碍的信息。
步骤(2):利用蚁群算法建立用于获取数据集的UUV动态规划器:
蚁群算法的信息素更新规则如下:
上式中,i,j是状态点序号,m是蚁群中蚂蚁总数,ρ是挥发系数,Q是常数,Lk是蚂蚁k寻食付出的代价,即路径长度。
为了加快收敛速度,对每一代蚂蚁中排名前四分之一的蚂蚁走过的路径做信息素强化:
τij(t+1)=λ×τij(t+1)
上式中,D是起点到终点的欧式距离。
为了使蚁群算法在搜索后期仍具有一定的探索能力,在信息素更新以及信息素强化完成后,再做信息素浓度的限制处理:
上式中,τmin是自行设置的信息素浓度上限,τmax是自行设置的信息素浓度下限。
蚁群算法的状态转移规则如下:
为蚂蚁k处于i点处时下一步转移到i的可视点j的概率,allowi为蚂蚁k允许做状态转移的i点的可视点集合,η是启发式函数,取为i点到目标点距离的倒数。α为信息素的重要程度。β为启发函数的重要程度
步骤(3):设计用于动态规划的LSTM-RNN网络模型:
如图1,LSTM-RNN网络模型包括输入层,波束合并层,隐藏层,中间层以及输出层五个部分。
输入层:接收样本输入,接收样本有181维,如图2,前180维为模拟感知器探测的局部环境信息,如图3,最后1维为UUV当前位置与目标点在局部坐标下形成的夹角;
波束合并层:波束合并层是对输入层邻近波束求和后取平均,利用相邻波束间的高度相关性,降低输入维度;
合并领域的大小为2,且不重叠,即该层每个单元对输入层每相邻两个单元的输出值求和取平均后输出;
波束合并层共91维,其中前90维为合并后的局部环境特征,最后一维特征不做处理,直接输出;
波束合并层的输出和一个偏置项一起作为记忆模块的输入,采用全连接形式。
隐藏层:记忆模块中Cell的维度取为46,内部的输入单元、输出单元、输入门、输出门、遗忘门的维度都为46;采用的序列长度为10,按序列展开后有10个记忆模块,上一时刻的模块输出反馈到下一时刻的模块中;由于第一个模块没有实质的前驱模块,假定其虚拟的前驱模块输出恒为0向量;门控单元采用的激活函数都是sigmoid函数,输入、输出单元的激活函数是tanh函数;
中间层:第十个记忆模块输出添加上偏置后以全连接方式输入到中间层,维度为23,激活函数是tanh函数;
输出层:中间层加上一个偏置后以全连接方式输入到输出层,输出层维度为2,激活函数为线性函数,分别输出UUV的航向和航速。
步骤(4):获取数据集:
如图4,在全局坐标系中生成若干组随机地图,采用教师系统进行运动规划,水平覆盖角为360°、包含180个波束的二维仿真声呐在每个路径节点采集环境信息,所采集的信息为训练样本,将教师系统输出的航向及航速作为训练标签。
二维仿真声呐在每个路径节点采集环境信息为:
其中为当前时刻第i个波束探测到的距离信息,当第i个波束未探测到障碍时,
为了简化输入信息,将t时刻声纳探测到的距离信息做如下处理:
将t时刻UUV所在位置与目标点形成的角度表示为则t时刻LSTM-RNN网络的输入向量
t时刻LSTM-RNN网络的标签
lt=[θt,vt],
上式中,θt表示期望的UUV的航向,vt表示期望的UUV的航速。
步骤(5):利用训练集中数据训练LSTM-RNN网络,得到基于LSTM-RNN网络的动态规划器:
将训练数据中的二维仿真声呐在每个路径节点采集的环境信息作为输入数据,将训练集中相对应的训练标签作为输出数据,对LSTM-RNN网络进行训练,从而获得基于LSTM-RNN网络的动态规划器;
损失函数为平方损失函数;
在训练开始前对数据集中数据做如下预处理:数据集的归一化方法为减去列最小值后除以列最大值和列最小值的差。
在训练过程中输入数据和标签对应关系为:
若时刻t<10,则[x1,L,xt]对应标签lt,若t≥10,则[xt-9,L,xt]对应标签lt。
LSTM-RNN网络的训练过程可表述为:
步骤(5.1):初始化LSTM-RNN网络各层权重,令i=0;
步骤(5.2):将训练集中的输入数据[xt-9,L,xt]馈入网络,经过LSTM-RNN网络的前向传播
过程得到对应输出yt;
步骤(5.3):计算网络输出yt与对应标签lt的误差;
步骤(5.4):判断是否训练集中数据均完成计算,若是,执行五,否则t=t+1,并返回步骤(5.2);
步骤(5.5):利用标准梯度下降误差反向传播算法更新LSTM-RNN网络权重;
步骤(5.6):i=i+1,并判断iMOD500是否为零,若是,执行七,否则返回步骤(5.2);
步骤(5.7):在测试集中随机选取50个序列,使用当前网络进行测试,计算平均误差;
步骤(5.8):若测试集中均方误差连续10次没有减小,则停止训练,否则返回步骤(5.2)。
LSTM-RNN网络的前向传播过程为:
输入门:
遗忘门:
记忆模块中的输入单元:
Cell更新:
输出门:
记忆模块输出:
输出层:
计算损失:
上述式子中,X表示网络输入,Y表示网络输出,G表示记忆模块的输入单元,S表示记忆模块的Cell,H表示整个记忆模块;分别使用I、O、F表示输入门、输出门、遗忘门。W表示权值矩阵,Wi-j表示i单元与j单元的权值。符号“·”表示向量(或矩阵)之间对应元素相乘。函数f为门控单元激活函数,一般取sigmoid函数;函数g、h、y分别是输入单元、输出单元、输出层的激活函数,根据具体任务选择适合类型的激活函数。当一个完整的序列完成一次前向传播后,可以得到损失函数:
上式中,T为序列长度。
标准梯度下降误差反向传播算法为:
输出层局部梯度:
记忆模块局部梯度:
输出门局部梯度:
Cell状态局部梯度:
遗忘门局部梯度:
输入门局部梯度:
记忆模块输入单元局部梯度:
步骤(6):将声纳探测信息及目标点信息输入至基于LSTM-RNN网络的运动规划器,获得UUV下一时刻的航向及航速。
在具体的工作过程中,本发明的使用过程是这样的:
第一步:将UUV布放在起始位置;
第二步:仿真声纳开始获取UUV当前位置的环境信息xt;
第三步:将仿真声纳获取的环境信息[xt-9,L,xt]输出到LSTM-RNN,获得下一时刻UUV的航向及航速;
第四步:UUV执行运动指令,到达下一路径点;
第五步:判断UUV是否到达目标点,若是,动态规划器停止工作,否则返回第二步。
如图5,本发明在动态环境中不同时刻的仿真效果图。
本发明提供了一种基于LSTM-RNN的UUV动态规划方法,利用了LSTM-RNN在长时间序列上强大的非线性拟合能力实现了一个端到端的简单高效的动态规划器。设计的LSTM-RNN网络,不仅有强大的学习能力,同时还具有非常强的泛化能力,这使得所实现的动态规划器适用于复杂的环境。同时,该动态规划器满足实时性的要求,并且所规划的路径符合UUV的运动特性。
这里必须指出的是,本发明所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。
Claims (8)
1.一种基于LSTM-RNN的UUV动态规划方法,其特征在于,包含如下步骤:
步骤(1):选择几何模型构建障碍环境模型;
步骤(2):利用蚁群算法建立用于获取数据集的UUV动态规划器;
步骤(3):设计用于动态规划的LSTM-RNN网络模型;
步骤(4):获取数据集:
步骤(5):利用数据集中训练集的数据训练LSTM-RNN网络,得到基于LSTM-RNN网络的动态规划器;
步骤(6):将声纳探测信息及目标点信息输入至基于LSTM-RNN网络的运动规划器,获得UUV下一时刻的航向及航速。
2.根据权利要求1所述的一种基于LSTM-RNN的UUV动态规划方法,其特征在于:所述的步骤(1)具体为:对于椭圆形或圆形障碍,存储椭圆形或圆形障碍的两个对角点坐标,利用这两点坐标,计算出椭圆圆心和长短半径,获得椭圆形或圆形障碍的全部信息;对于多边形障碍,存储多边形顶点的坐标,由任意一个顶点开始,按顺时针或者逆时针顺序将多边形顶点依次存储于一个顺序链表中,通过顺序链表获取多边形障碍的全部信息。
3.根据权利要求1所述的一种基于LSTM-RNN的UUV动态规划方法,其特征在于:所述的步骤(2)具体为:蚁群算法信息素更新规则为:
上式中,i,j是状态点序号,m是蚁群中蚂蚁总数,ρ是挥发系数,Q是常数,Lk是蚂蚁k寻食付出的代价,即路径长度;
每一代蚂蚁中排名前四分之一的蚂蚁走过的路径的信息素强化规则为:
τij(t+1)=λ×τij(t+1)
上式中,D是起点到终点的欧式距离;
信息素浓度的限制处理:
上式中,τmin是自行设置的信息素浓度上限,τmax是自行设置的信息素浓度下限;
蚁群算法的状态转移规则如下:
为蚂蚁k处于i点处时下一步转移到i的可视点j的概率,allowi为蚂蚁k允许做状态转移的i点的可视点集合,η是启发式函数,取为i点到目标点距离的倒数,α为信息素的重要程度,β为启发函数的重要程度。
4.根据权利要求1所述的一种基于LSTM-RNN的UUV动态规划方法,其特征在于:所述的步骤(3)中的LSTM-RNN网络模型:包括输入层,波束合并层,隐藏层,中间层以及输出层五个部分;
输入层:接收样本输入,接收样本有181维,前180维为模拟感知器探测的局部环境信息,最后1维为UUV当前位置与目标点在局部坐标下形成的夹角;
波束合并层:波束合并层是对输入层邻近波束求和后取平均;合并领域的大小为2,且不重叠,即该层每个单元对输入层每相邻两个单元的输出值求和取平均后输出;波束合并层共91维,其中前90维为合并后的局部环境特征,最后一维特征不做处理,直接输出;波束合并层的输出和一个偏置项一起作为记忆模块的输入,采用全连接形式;
隐藏层:包括10个记忆模块;记忆模块包括输入单元、输出单元、输入门、输出门、遗忘门、Cell;输入单元、输出单元、输入门、输出门、遗忘门、Cell的维度都为46;采用的序列长度为10,按序列展开后有10个记忆模块,上一时刻的模块输出反馈到下一时刻的模块中;假定第一个记忆模块虚拟的前驱模块输出恒为0向量;输入门、输出门、遗忘门的激活函数是sigmoid函数,输入单元、输出单元的激活函数是tanh函数;
中间层:第10个记忆模块的输出添加上偏置后以全连接方式输入到中间层,维度为23,激活函数是tanh函数;
输出层:中间层加上一个偏置项后以全连接方式输入到输出层,输出层维度为2,激活函数为线性函数,分别输出UUV的航向和航速。
5.根据权利要求1所述的一种基于LSTM-RNN的UUV动态规划方法,其特征在于:所述的步骤(4)具体为:在全局坐标系中生成若干组随机地图,采用教师系统进行运动规划,水平覆盖角为360°、包含180个波束的二维仿真声呐在每个路径节点采集环境信息,所采集的信息为训练样本,训练样本构成训练集,将教师系统输出的航向及航速作为训练标签;
二维仿真声呐在每个路径节点采集的环境信息为:
上式中,为当前时刻第i个波束探测到的距离信息;
当第i个波束未探测到障碍时,
将t时刻仿真声纳探测到的距离信息做如下处理:
将t时刻UUV所在位置与目标点形成的角度表示为则t时刻LSTM-RNN网络的输入向量为:
t时刻LSTM-RNN网络的标签:
lt=[θt,vt],
上式中,θt表示期望的UUV的航向,vt表示期望的UUV的航速。
6.根据权利要求1所述的一种基于LSTM-RNN的UUV动态规划方法,其特征在于:所述的步骤(5)具体为:
步骤(5.1):初始化LSTM-RNN网络各层权重,令i=0;
步骤(5.2):将训练集中的输入数据[xt-9,L,xt]馈入网络,经过LSTM-RNN网络的前向传播过程得到对应输出yt:
步骤(5.3):计算网络输出yt与对应标签lt的误差;
步骤(5.4):判断是否训练集中数据均完成计算,若是,执行五,否则t=t+1,并返回步骤(5.2);
步骤(5.5):利用标准梯度下降误差反向传播算法更新LSTM-RNN网络权重;
步骤(5.6):i=i+1,并判断iMOD500是否为零,若是,执行七,否则返回步骤(5.2);
步骤(5.7):在测试集中随机选取50个序列,使用当前网络进行测试,计算平均误差;
步骤(5.8):若测试集中均方误差连续10次没有减小,则停止训练,否则返回步骤(5.2)。
7.根据权利要求6所述的一种基于LSTM-RNN的UUV动态规划方法,其特征在于:所述的LSTM-RNN网络的前向传播过程为:
输入门:
遗忘门:
ft (in)=xtWX-F+ht-1WH-F+st-1WS-F,
ft (out)=f(ft (in));
记忆模块中的输入单元:
Cell更新:
输出门:
记忆模块输出:
输出层:
计算损失:
上述式子中,X表示网络输入,Y表示网络输出,G表示记忆模块的输入单元,S表示记忆模块的Cell,H表示整个记忆模块;分别使用I、O、F表示输入门、输出门、遗忘门;W表示权值矩阵,Wi-j表示i单元与j单元的权值;符号“·”表示向量或矩阵之间对应元素相乘;函数f为门控单元激活函数;函数g、h、y分别是输入单元、输出单元、输出层的激活函数;当一个完整的序列完成一次前向传播后,可以得到损失函数:
上式中,T为序列长度。
8.根据权利要求6所述的一种基于LSTM-RNN的UUV动态规划方法,其特征在于:所述的标准梯度下降误差反向传播算法:
输出层局部梯度:
记忆模块局部梯度:
输出门局部梯度:
Cell状态局部梯度:
遗忘门局部梯度:
输入门局部梯度:
记忆模块输入单元局部梯度:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810043819.4A CN108279692B (zh) | 2018-01-17 | 2018-01-17 | 一种基于lstm-rnn的uuv动态规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810043819.4A CN108279692B (zh) | 2018-01-17 | 2018-01-17 | 一种基于lstm-rnn的uuv动态规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108279692A true CN108279692A (zh) | 2018-07-13 |
CN108279692B CN108279692B (zh) | 2020-12-22 |
Family
ID=62803875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810043819.4A Active CN108279692B (zh) | 2018-01-17 | 2018-01-17 | 一种基于lstm-rnn的uuv动态规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108279692B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108989133A (zh) * | 2018-08-27 | 2018-12-11 | 山东大学 | 基于蚁群算法的网络探测优化方法 |
CN109164815A (zh) * | 2018-09-06 | 2019-01-08 | 中国计量大学 | 一种基于改进蚁群算法的自主水下航行器路径规划方法 |
CN109188420A (zh) * | 2018-08-27 | 2019-01-11 | 西安电子科技大学 | 基于深度长短期记忆网络的窄带雷达目标跟踪方法 |
CN109409200A (zh) * | 2018-09-01 | 2019-03-01 | 哈尔滨工程大学 | 一种基于sgru神经网络的uuv集群行为识别技术 |
CN109460045A (zh) * | 2019-01-14 | 2019-03-12 | 哈尔滨工程大学 | 动态障碍在线感知下usv基于改进蚁群优化的避碰规划方法 |
CN109727270A (zh) * | 2018-12-10 | 2019-05-07 | 杭州帝视科技有限公司 | 心脏核磁共振图像的运动机理和纹理特征分析方法和系统 |
CN109765929A (zh) * | 2019-01-14 | 2019-05-17 | 哈尔滨工程大学 | 一种基于改进rnn的uuv实时避障规划方法 |
CN110221611A (zh) * | 2019-06-11 | 2019-09-10 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110333517A (zh) * | 2019-07-11 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 障碍物感知方法、装置及存储介质 |
CN110716575A (zh) * | 2019-09-29 | 2020-01-21 | 哈尔滨工程大学 | 基于深度双q网络强化学习的uuv实时避碰规划方法 |
CN110738138A (zh) * | 2019-09-26 | 2020-01-31 | 哈尔滨工程大学 | 基于循环神经网络的水声通信信号调制模式识别方法 |
CN110969287A (zh) * | 2019-11-07 | 2020-04-07 | 郑州大学 | 一种舰载机导引路径规划方法 |
CN111538059A (zh) * | 2020-05-11 | 2020-08-14 | 东华大学 | 一种基于改进的玻尔兹曼机的自适应快速动态定位系统及方法 |
CN112668758A (zh) * | 2020-12-15 | 2021-04-16 | 山东鲁能软件技术有限公司 | 一种配电网网格化规划成果的校验方法 |
CN113485385A (zh) * | 2021-07-13 | 2021-10-08 | 中国人民解放军战略支援部队信息工程大学 | 基于误差椭圆的uuv集群编队构型设计方法 |
CN113643322A (zh) * | 2021-07-16 | 2021-11-12 | 重庆邮电大学 | 基于DeepLabv3+_SLAM的动态对象检测方法 |
CN117008464A (zh) * | 2023-10-07 | 2023-11-07 | 广东海洋大学 | 一种基于姿态控制的无人船导航方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408772A (zh) * | 2008-11-21 | 2009-04-15 | 哈尔滨工程大学 | Auv智能避碰装置及避碰方法 |
CN101833338A (zh) * | 2010-05-17 | 2010-09-15 | 哈尔滨工程大学 | 无人潜航器垂直面欠驱动运动控制方法 |
US20160099010A1 (en) * | 2014-10-03 | 2016-04-07 | Google Inc. | Convolutional, long short-term memory, fully connected deep neural networks |
CN105549600A (zh) * | 2016-02-05 | 2016-05-04 | 哈尔滨工程大学 | 一种基于虚拟膨化的运动障碍与uuv相向航行的规避方法 |
CN105607646A (zh) * | 2016-02-05 | 2016-05-25 | 哈尔滨工程大学 | 一种障碍环境下有必经点的uuv航路规划方法 |
CN105843234A (zh) * | 2016-05-12 | 2016-08-10 | 哈尔滨工程大学 | 一种uuv对圆形障碍物几何绕行的二维航路规划方法 |
CN106020213A (zh) * | 2016-05-12 | 2016-10-12 | 哈尔滨工程大学 | 一种uuv对矩形障碍物几何绕行的二维航路规划方法 |
EP3101598A2 (en) * | 2015-06-05 | 2016-12-07 | Google, Inc. | Augmented neural networks |
CN106557809A (zh) * | 2015-09-30 | 2017-04-05 | 富士通株式会社 | 神经网络系统及对该神经网络系统进行训练的方法 |
CN107092254A (zh) * | 2017-04-27 | 2017-08-25 | 北京航空航天大学 | 一种基于深度增强学习的家用扫地机器人的设计方法 |
US20170255832A1 (en) * | 2016-03-02 | 2017-09-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Detecting Actions in Videos |
US9760806B1 (en) * | 2016-05-11 | 2017-09-12 | TCL Research America Inc. | Method and system for vision-centric deep-learning-based road situation analysis |
CN107883961A (zh) * | 2017-11-06 | 2018-04-06 | 哈尔滨工程大学 | 一种基于Smooth‑RRT算法的水下机器人路径优化方法 |
-
2018
- 2018-01-17 CN CN201810043819.4A patent/CN108279692B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408772A (zh) * | 2008-11-21 | 2009-04-15 | 哈尔滨工程大学 | Auv智能避碰装置及避碰方法 |
CN101833338A (zh) * | 2010-05-17 | 2010-09-15 | 哈尔滨工程大学 | 无人潜航器垂直面欠驱动运动控制方法 |
US20160099010A1 (en) * | 2014-10-03 | 2016-04-07 | Google Inc. | Convolutional, long short-term memory, fully connected deep neural networks |
EP3101598A2 (en) * | 2015-06-05 | 2016-12-07 | Google, Inc. | Augmented neural networks |
CN106557809A (zh) * | 2015-09-30 | 2017-04-05 | 富士通株式会社 | 神经网络系统及对该神经网络系统进行训练的方法 |
CN105549600A (zh) * | 2016-02-05 | 2016-05-04 | 哈尔滨工程大学 | 一种基于虚拟膨化的运动障碍与uuv相向航行的规避方法 |
CN105607646A (zh) * | 2016-02-05 | 2016-05-25 | 哈尔滨工程大学 | 一种障碍环境下有必经点的uuv航路规划方法 |
US20170255832A1 (en) * | 2016-03-02 | 2017-09-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Detecting Actions in Videos |
US9760806B1 (en) * | 2016-05-11 | 2017-09-12 | TCL Research America Inc. | Method and system for vision-centric deep-learning-based road situation analysis |
CN106020213A (zh) * | 2016-05-12 | 2016-10-12 | 哈尔滨工程大学 | 一种uuv对矩形障碍物几何绕行的二维航路规划方法 |
CN105843234A (zh) * | 2016-05-12 | 2016-08-10 | 哈尔滨工程大学 | 一种uuv对圆形障碍物几何绕行的二维航路规划方法 |
CN107092254A (zh) * | 2017-04-27 | 2017-08-25 | 北京航空航天大学 | 一种基于深度增强学习的家用扫地机器人的设计方法 |
CN107883961A (zh) * | 2017-11-06 | 2018-04-06 | 哈尔滨工程大学 | 一种基于Smooth‑RRT算法的水下机器人路径优化方法 |
Non-Patent Citations (7)
Title |
---|
AYESHA KHAN 等: "Using Recurrent Neural Networks (RNNs) as Planners for Bio-Inspired Robotic Motion", 《2017 IEEE CONFERENCE ON CONTROL TECHNOLOGY AND APPLICATIONS (CCTA)》 * |
MASAYA INOUE 等: "Robot Path Training and Planning Using LSTM Network", 《PROCEEDINGS OF THE 2017 JSME CONFERENCE ON ROBOTICS AND MECHATRONICS》 * |
ZHANG XUELIAN 等: "UUV Dynamic Path Planning and Trap Escape Strategies in Unknown Environment", 《PROCEEDINGS OF THE 35TH CHINESE CONTROL CONFERENCE》 * |
徐本连 等: "《智能控制及LabVIEW应用》", 31 December 2017, 西安电子科技大学出版社 * |
温志文 等: "基于改进蚁群算法的UUV三维路径规划方法", 《鱼雷技术》 * |
王宏健 等: "基于高斯混合容积卡尔曼滤波的UUV自主导航定位算法", 《仪器仪表学报》 * |
罗亚波: "《作业系统调度优化理论与方法》", 30 November 2011, 华中科技大学出版社 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109188420A (zh) * | 2018-08-27 | 2019-01-11 | 西安电子科技大学 | 基于深度长短期记忆网络的窄带雷达目标跟踪方法 |
CN108989133A (zh) * | 2018-08-27 | 2018-12-11 | 山东大学 | 基于蚁群算法的网络探测优化方法 |
CN109409200A (zh) * | 2018-09-01 | 2019-03-01 | 哈尔滨工程大学 | 一种基于sgru神经网络的uuv集群行为识别技术 |
CN109164815A (zh) * | 2018-09-06 | 2019-01-08 | 中国计量大学 | 一种基于改进蚁群算法的自主水下航行器路径规划方法 |
CN109727270A (zh) * | 2018-12-10 | 2019-05-07 | 杭州帝视科技有限公司 | 心脏核磁共振图像的运动机理和纹理特征分析方法和系统 |
CN109765929B (zh) * | 2019-01-14 | 2022-04-05 | 哈尔滨工程大学 | 一种基于改进rnn的uuv实时避障规划方法 |
CN109765929A (zh) * | 2019-01-14 | 2019-05-17 | 哈尔滨工程大学 | 一种基于改进rnn的uuv实时避障规划方法 |
CN109460045A (zh) * | 2019-01-14 | 2019-03-12 | 哈尔滨工程大学 | 动态障碍在线感知下usv基于改进蚁群优化的避碰规划方法 |
CN109460045B (zh) * | 2019-01-14 | 2022-02-22 | 哈尔滨工程大学 | 动态障碍在线感知下usv基于改进蚁群优化的避碰规划方法 |
CN110221611B (zh) * | 2019-06-11 | 2020-09-04 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110221611A (zh) * | 2019-06-11 | 2019-09-10 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110333517A (zh) * | 2019-07-11 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 障碍物感知方法、装置及存储介质 |
CN110333517B (zh) * | 2019-07-11 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 障碍物感知方法、装置及存储介质 |
CN110738138A (zh) * | 2019-09-26 | 2020-01-31 | 哈尔滨工程大学 | 基于循环神经网络的水声通信信号调制模式识别方法 |
CN110716575A (zh) * | 2019-09-29 | 2020-01-21 | 哈尔滨工程大学 | 基于深度双q网络强化学习的uuv实时避碰规划方法 |
CN110969287A (zh) * | 2019-11-07 | 2020-04-07 | 郑州大学 | 一种舰载机导引路径规划方法 |
CN110969287B (zh) * | 2019-11-07 | 2022-11-01 | 郑州大学 | 一种舰载机导引路径规划方法 |
CN111538059A (zh) * | 2020-05-11 | 2020-08-14 | 东华大学 | 一种基于改进的玻尔兹曼机的自适应快速动态定位系统及方法 |
CN112668758A (zh) * | 2020-12-15 | 2021-04-16 | 山东鲁能软件技术有限公司 | 一种配电网网格化规划成果的校验方法 |
CN113485385A (zh) * | 2021-07-13 | 2021-10-08 | 中国人民解放军战略支援部队信息工程大学 | 基于误差椭圆的uuv集群编队构型设计方法 |
CN113485385B (zh) * | 2021-07-13 | 2023-11-07 | 中国人民解放军战略支援部队信息工程大学 | 基于误差椭圆的uuv集群编队构型设计方法 |
CN113643322A (zh) * | 2021-07-16 | 2021-11-12 | 重庆邮电大学 | 基于DeepLabv3+_SLAM的动态对象检测方法 |
CN113643322B (zh) * | 2021-07-16 | 2024-03-22 | 重庆邮电大学 | 基于DeepLabv3+_SLAM的动态对象检测方法 |
CN117008464A (zh) * | 2023-10-07 | 2023-11-07 | 广东海洋大学 | 一种基于姿态控制的无人船导航方法 |
CN117008464B (zh) * | 2023-10-07 | 2023-12-15 | 广东海洋大学 | 一种基于姿态控制的无人船导航方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108279692B (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108279692A (zh) | 一种基于lstm-rnn的uuv动态规划方法 | |
Ruan et al. | Mobile robot navigation based on deep reinforcement learning | |
Hao et al. | Dynamic path planning of a three-dimensional underwater AUV based on an adaptive genetic algorithm | |
Niu et al. | Energy efficient path planning for unmanned surface vehicle in spatially-temporally variant environment | |
Chen et al. | Optimal time-consuming path planning for autonomous underwater vehicles based on a dynamic neural network model in ocean current environments | |
Zhu et al. | Task assignment and path planning of a multi-AUV system based on a Glasius bio-inspired self-organising map algorithm | |
Xiaofei et al. | Global path planning algorithm based on double DQN for multi-tasks amphibious unmanned surface vehicle | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
Zhou et al. | An improved flower pollination algorithm for optimal unmanned undersea vehicle path planning problem | |
CN109540151A (zh) | 一种基于强化学习的auv三维路径规划方法 | |
Guo et al. | Research progress of path planning methods for autonomous underwater vehicle | |
CN106873599A (zh) | 基于蚁群算法和极坐标变换的无人自行车路径规划方法 | |
Wang et al. | Cooperative collision avoidance for unmanned surface vehicles based on improved genetic algorithm | |
Ma et al. | Obstacle avoidance path planning of unmanned submarine vehicle in ocean current environment based on improved firework-ant colony algorithm | |
CN109933067A (zh) | 一种基于遗传算法和粒子群算法的无人艇避碰方法 | |
Gao et al. | Ship collision avoidance anthropomorphic decision-making for structured learning based on AIS with Seq-CGAN | |
Chen et al. | Autonomous port management based AGV path planning and optimization via an ensemble reinforcement learning framework | |
CN108319293A (zh) | 一种基于lstm网络的uuv实时避碰规划方法 | |
Qu et al. | Pursuit-evasion game strategy of USV based on deep reinforcement learning in complex multi-obstacle environment | |
CN110472738A (zh) | 一种基于深度强化学习的无人艇实时避障算法 | |
CN111880535A (zh) | 一种基于强化学习的无人艇混合感知自主避障方法及系统 | |
Du et al. | An optimized path planning method for coastal ships based on improved DDPG and DP | |
Liu et al. | Intelligent path planning for AUVs in dynamic environments: An EDA-based learning fixed height histogram approach | |
Zhang et al. | AUV path planning based on differential evolution with environment prediction | |
CN117606490B (zh) | 一种水下自主航行器协同搜索路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |