CN109765929B

CN109765929B - 一种基于改进rnn的uuv实时避障规划方法

Info

Publication number: CN109765929B
Application number: CN201910033349.8A
Authority: CN
Inventors: 王宏健; 林常见; 袁建亚; 付明玉; 阮力
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2022-04-05
Anticipated expiration: 2039-01-14
Also published as: CA3067575A1; CN109765929A

Abstract

本发明属于无人水下航行领域，具体涉及一种基于改进RNN的UUV实时避障规划方法。本发明提供了一种基于改进RNN的UUV实时避碰规划方法，该方法采用卷积连接方式代替原RNN网络中的全连接，减少了网络参数，降低了算法学习时间，提高了算法信息处理能力。本发明设计的用于UUV实时避碰规划的改进RNN算法，在复杂的不确定环境中有较强的适应性；有较强的学习能力、泛化能力及抗噪声干扰能力。

Description

一种基于改进RNN的UUV实时避障规划方法

技术领域

本发明属于无人水下航行领域，具体涉及一种基于改进RNN的UUV实时避障规划方法。

背景技术

无人水下航行器UUV是没有人驾驶，靠自主控制在水下航行的器具，主要代替潜水员或载人下型潜艇进行深海探测、救生、排除水雷等高危险性水下作业。UUV的主要目标之一就是实现在动态、复杂的环境下的高度自治。UUV的自主航行能力是指其在航行时根据需要自行选择行动方案的能力。作为UUV自主航行的关键技术，其自主避障能力是UUV执行各类任务的基础。

目前用于UUV避碰规划的方法主要有随机抽样、线性拟合、势场法、蚁群算法、量子行为算法以及一些混合算法。然而，上述方法还存在对噪声敏感、在复杂环境下难满足实时性要求、可移植性差等不足。为了提高UUV避碰规划的自主能力，一些学者提出了基于强化学习的避障规划方法。但任然面临奖励函数及动作策略设计困难的挑战。特别是当UUV航行在狭窄的海洋环境，由于有限的环境信息，基于强化学习的避障规划方法很难做出最优决策。

循环神经网络RNN的内部节点定向连接成环，因此其可以展示动态时序行为。UUV实时避障规划问题的本质就是根据时序的声呐探测信息规划UUV的动作，使其避过障碍物。然而传统的RNN避障规划存在网络参数较多、训练时间长以及有限的信息处理能力等不足。本发明针对上述问题提出了一种基于改进RNN的UUV实时避障规划方法。

发明内容

本发明的目的在于提供一种基于改进RNN的UUV实时避障规划方法。

一种基于改进RNN的UUV实时避障规划方法，该方法包括以下步骤：

步骤1：将UUV布放在起始位置；

步骤2：UUV通过板载的传感器获得关于环境信息和目标点信息的时间序列数据；

步骤3：基于改进RNN的UUV实时避障规划进行网络训练；

步骤4：对该时间序列进行预处理，并输入到已经训练好的基于改进RNN的UUV实时避障规划网络；

步骤5：将避障规划网络输出的转艏和速度指令输入到UUV执行机构；

步骤6：执行机构得到指令后驱动UUV航行；

步骤7：判断UUV是否到达目标点，若是，避碰规划系统停止工作，否则返回步骤2；

步骤3所述基于改进RNN的UUV实时避障规划进行网络训练包括以下步骤：

步骤3.1：初始化改进RNN避障规划网络各层权重，令i＝0；

步骤3.2：令k＝0；

步骤3.3：取第k个批量的数据作为本次训练集，并令t＝0；

步骤3.4：将本次训练集中的输入数据输入到网络，经过改进RNN避障规划网络的前向传播过程得到对应输出y_t；

步骤3.5：计算网络输出与对应标签的误差；

步骤3.6：判断是否完成该批量计算，若是，执行步骤3.7，否则t＝t+1，并返回步骤3.4；

步骤3.7：利用小批量梯度下降误差反向传播算法更新改进RNN避障规划网络权重；

步骤3.8：判断是否所有批量数据均完成训练，若是，执行步骤3.9，否则k＝k+1，并返回步骤3.3；

步骤3.9：i＝i+1，并判断iMOD500是否为零，若是，执行步骤3.10，否则返回步骤3.2；

步骤3.10：在测试集中随机选取50个序列，使用当前网络进行测试，计算均方误差；

步骤3.11：若测试集中均方误差连续10次没有减小，则停止训练，否则返回步骤3.2。

步骤4所述基于改进RNN的UUV实时避障规划网络具体结构分为：输入层、隐藏层和输出层，其中输入层由81个单元组成，输入层前80个单元对应80维声纳探测信息，输入层第81个单元对应UUV当前位置与目标点之间的夹角

隐藏层由卷积层、池化层和全连接层组成；输出层由两个单元组成，分别对应期望的UUV转艏及航速；输入层与隐藏层通过卷积操作连接，隐藏层与输出层间的连接方式为全连接；

基于改进RNN避障规划网络的前向传播过程可表述为：

h^t＝tanh(W^La^t,L-1+b^L+Uh^t-1)

o^t＝Vh^t+c

其中，a^t,l为t时刻第l层的输出向量，b,c为偏置，W,U,V为权重矩阵，tanh为正切函数，ReLU为线性整形单元，pool为池化操作，o为输出向量，

为网络输出,L为网络层数。

基于改进RNN避障规划网络的反向传播过程可表述为：

误差函数可定义为：

其中y为网络期望输出。

c和V的梯度为：

定义第L层在t时刻的误差项为：

W^L、U及b^L的梯度为：

对于l＝L-1到2，误差项为：

W^l和b^l的梯度为：

本发明的有益效果在于：

本发明提供了一种基于改进RNN的UUV实时避碰规划方法，该方法采用卷积连接方式代替原RNN网络中的全连接，减少了网络参数，降低了算法学习时间，提高了算法信息处理能力。本发明设计的用于UUV实时避碰规划的改进RNN算法，在复杂的不确定环境中有较强的适应性；有较强的学习能力、泛化能力及抗噪声干扰能力。

附图说明

图1是本发明建立的仿真声呐探测示意图。

图2是本发明改进的RNN结构示意图。

图3是本发明仿真效果图。

具体实施方式

下面结合附图对本发明做进一步的描述。

本发明将提供一种基于改进RNN的UUV实时避障规划方法。利用卷积连接代替原RNN中的全连接，减少了网络参数，缩短了网络训练所用时间，提高了网络的信息处理能力。实现了一个简单、高效、对噪声不敏感、泛化及可移植能力强的UUV实时避障规划系统。

一种基于改进RNN的UUV实时避障规划方法，包括以下步骤：

步骤1：构建全局和船体坐标系，建立声纳仿真模型；

全局坐标系为北东坐标系，坐标原点在地图左下角，正北方向为X轴，正东方向为Y轴；

船体坐标系原点在UUV重心处，X轴取在UUV纵向剖面内，指向UUV艏端，Y轴与纵剖面垂直，指向右舷；

二维多波束声纳仿真模型水平开角为120°，最大探测半径为120m，共80个波束，波束角为1.5°，水平方向分辨率为5m，虚警误警率为10％；

步骤2：设计用于实时避障规划的改进RNN算法；

所设计的实时避障规划网络包含输入层、隐藏层及输出层三层，网络输入为传感器探测信息，输出为UUV预期航速及转艏角度；

步骤3：收集训练数据；

训练数据包括网络输入及期望输出，其中网络输入包括声纳探测信息(80维)及目标点位置信息，期望输出包含期望转艏及期望速度；

步骤4：训练网络，得到基于改进RNN的UUV实时避障规划器；

采用基于时间的随机梯度下降反向传播算法修改网络权值，损失函数为均方误差函数；

步骤5：UUV运动过程中将声纳探测信息及目标点信息实时传入基于改进RNN的UUV实时避障规划网络，得到转艏及速度指令；

基于改进RNN的UUV实时避障规划网络具体结构为：

输入层由81个单元组成，其中前80个单元对应80维声纳探测信息，第81个单元对应UUV当前位置与目标点之间的夹角

隐藏层由卷积层、池化层和全连接层组成；

输出层由两个单元组成，分别对应期望的UUV转艏及航速；

输入层与隐藏层通过卷积操作连接，隐藏层与输出层间的连接方式为全连接；

基于改进RNN避障规划网络的前向传播过程可表述为：

h^t＝tanh(W^La^t,L-1+b^L+Uh^t-1)

o^t＝Vh^t+c

为网络输出,L为网络层数。

基于改进RNN避障规划网络的反向传播过程可表述为：

误差函数可定义为：

其中y为网络期望输出。

c和V的梯度为：

定义第L层在t时刻的误差项为：

W^L、U及b^L的梯度为：

对于l＝L-1到2，误差项为：

W^l和b^l的梯度为：

基于改进RNN避障规划网络训练过程：

1)初始化改进RNN避障规划网络各层权重，令i＝0；

2)令k＝0；

3)取第k个批量的数据作为本次训练集，并令t＝0；

4)将本次训练集中的输入数据输入到网络，经过改进RNN避障规划网络的前向传播过程得到对应输出y_t；

5)计算网络输出与对应标签的误差；

6)判断是否完成该批量计算，若是，执行7)，否则t＝t+1，并返回4)；

7)利用小批量梯度下降误差反向传播算法更新改进RNN避障规划网络权重；

8)判断是否所有批量数据均完成训练，若是，执行9)，否则k＝k+1，并返回3)；

9)i＝i+1，并判断iMOD500是否为零，若是，执行10)，否则返回2)；

10)在测试集中随机选取50个序列，使用当前网络进行测试，计算均方误差；

11)若测试集中均方误差连续10次没有减小，则停止训练，否则返回2)。

基于改进RNN的UUV实时避碰规划其工作过程为：

1)将UUV布放在起始位置；

2)UUV通过板载的传感器获得关于环境信息和目标点信息的时间序列数据；

3)对该时间序列进行预处理，并输入到已经训练好的基于改进RNN的UUV实时避障规划网络；

3)将避障规划网络输出的转艏和速度指令输入到UUV执行机构；

4)执行机构得到指令后驱动UUV航行；

5)判断UUV是否到达目标点，若是，避碰规划系统停止工作，否则返回2)。

Claims

1.一种基于改进RNN的UUV实时避障规划方法，其特征在于，该方法包括以下步骤：

步骤1：将UUV布放在起始位置；

步骤3：训练基于改进RNN的UUV实时避障规划网络；

基于改进RNN的UUV实时避障规划网络包含输入层、隐藏层及输出层三层，网络输入为传感器探测信息，输出为UUV预期航速及转艏角度；

隐藏层由卷积层、池化层和全连接层组成；

输出层由两个单元组成，分别对应期望的UUV转艏及航速；

基于改进RNN的UUV实时避障规划网络的前向传播过程可表述为：

h^t＝tanh(W^La^t,L-1+b^L+Uh^t-1)

o^t＝Vh^t+c

其中，a^t,l为t时刻第l层的输出向量；b,c为偏置；W,U,V为权重矩阵；tanh为正切函数；ReLU为线性整形单元；pool为池化操作；o为输出向量；

为网络输出；L为网络层数；

基于改进RNN的UUV实时避障规划网络的反向传播过程可表述为：

误差函数定义为：

其中y为网络期望输出；

c和V的梯度为：

定义第L层在t时刻的误差项为：

W^L、U及b^L的梯度为：

对于l＝L-1到2，误差项为：

W^l和b^l的梯度为：

基于改进RNN的UUV实时避障规划网络的训练过程：

步骤3.1：初始化改进RNN避障规划网络各层权重，令i＝0；

步骤3.2：令k＝0；

步骤3.3：取第k个批量的数据作为本次训练集，并令t＝0；

步骤3.5：计算网络输出与对应标签的误差；

步骤3.7：利用小批量梯度下降误差反向传播方法更新改进RNN避障规划网络权重；

步骤3.9：令i＝i+1，并判断iMOD 500是否为零，若是，执行步骤3.10，否则返回步骤3.2；

步骤3.11：若测试集中均方误差连续10次没有减小，则停止训练，否则返回步骤3.2；

步骤4：对关于环境信息和目标点信息的时间序列进行预处理，并输入到已经训练好的基于改进RNN的UUV实时避障规划网络；

步骤5：将避障规划网络输出的转艏和速度输入到UUV执行机构；

步骤6：执行机构得到转艏和速度后驱动UUV航行；

步骤7：判断UUV是否到达目标点，若是，避碰规划系统停止工作，否则返回步骤2。