CN108334677B

CN108334677B - 一种基于gru网络的uuv实时避碰规划方法

Info

Publication number: CN108334677B
Application number: CN201810052628.4A
Authority: CN
Inventors: 王宏健; 林常见; 吕洪莉; 李庆; 张勋; 刘大伟
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2021-06-11
Anticipated expiration: 2038-01-17
Also published as: CN108334677A

Abstract

本发明公开了一种基于GRU网络的UUV实时避碰规划方法，属于水下航行器避障领域。本发明包括：将UUV布放在起始位置；仿真声纳开始获取UUV当前位置的环境信息；将仿真声纳获取的环境信息输入到GRU网络，获得下一时刻UUV转艏及速度的调整指令；UUV执行运动指令，到达下一路径点；判断UUV是否到达目标点，若是则避碰规划器停止工作。本发明利用GRU强大的拟合长时间序列的能力，解决了UUV实时避碰规划的问题，克服了现有的实时避碰规划方法存在环境模型的精度与规划的实时性之间的矛盾，实现了一个简单、高效、易于实现的端到端的实时避碰规划器。

Description

一种基于GRU网络的UUV实时避碰规划方法

技术领域

本发明涉及一种基于GRU网络的UUV实时避碰规划方法，属于水下航行器避障领域。

背景技术

作为新一代水下机器人，UUV具有活动范围大、隐蔽性强、机动性好、安全、智能等优点，是完成各种水下任务的重要工具。在民用领域，UUV可用于海底考察、数据收集、铺设管线、钻井支援、海底施工、水下设备维护与维修等。在军用领域，UUV可用于侦查、布雷、扫雷、援潜和救生等。实时避碰规划能力是保证UUV安全航行的关键技术，是UUV完成各种任务的基础。

实时避碰规划，即UUV在航行过程中根据传感器探测到的已知的环境信息找到一条从起点到终点的无碰撞安全路径。常用的传统的实时避碰规划方法包括蚁群算法、人工免疫算法、遗传算法、粒子群优化算法、人工势场法、A*算法、Dijkstra算法等。对于实时避碰规划问题，除了考虑安全性和避碰运动平滑性等，系统的实时性也是重要的指标，然而基于上述传统算法的实时避碰规划系统，存在环境模型的精度以及路径的优化程度与规划的实时性相互矛盾的问题。深度学习是目前最具潜力的人工智能算法，其强大的非线性拟合能力可以为UUV提供一套简单、高效、易于实现的实时避碰规划系统。这使得UUV具有了一定的自主学习的能力，从而减少了其对感知设备的依赖，增强了其在避碰过程中的灵活度。实时避碰规划系统的规划能力随着UUV在运动的过程中的不断学习而逐步提高。即使训练集中只包含简单环境下的避碰规划样本，训练完成后的基于GRU网络的UUV实时避碰规划器也可以灵活处理复杂多变环境下的避碰规划问题。

中国专利CN107368076A公开了一种智能环境下机器人运动路径深度学习控制规划方法，该方法使用深度学习DBN网络解决运载机器人全局路径规划问题。所提深度学习DBN网络包括一层输入层、三层隐藏层以及一层输出层，其中可视层与第一隐藏层构成第一层限制玻尔兹曼机RBM，第一隐藏层与第二隐藏层构成第二层限制玻尔兹曼机RBM，第二隐藏层与第三隐藏层构成BP网络层。该专利采用逐层训练的方法依次对两层限制玻尔兹曼机RBM和BP网络层进行训练。与全局路径规划不同，避碰规划器需要根据过去一段时间内的环境障碍信息实时输出规划结果。相较于限制玻尔兹曼机RBM，GRU网络具有处理较长时间序列的能力，且更适用于复杂的规划问题。

发明内容

本发明的目的是这样实现的：

一种基于GRU网络的UUV实时避碰规划方法，其特征在于，包括以下步骤：

步骤一构建全局坐标系和局部坐标系，建立声纳仿真模型；

全局坐标系采用北东坐标系，地图左下角为原点，正北方向为X轴，正东方向为Y轴；局部坐标系原点选在UUV重心处，X轴取在UUV纵向剖面内，指向UUV艏端，Y轴与纵剖面垂直，指向UUV右舷；二维多波束声纳仿真模型水平开角为120°，最大探测半径为120m，共80个波束，波束角为1.5°，每个波束上探测噪声为±1％；

步骤二设计用于实时避碰规划的GRU网络；

所设计的GRU网络为端对端模型，可以直接根据传感器探测信息得出规划结果，该网络模型包含四层，分别为输入层、隐藏层、中间层以及输出层；

步骤三构建数据集；

数据集包括训练集和测试集，分别用于神经网络的训练阶段和测试阶段；构建训练集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为训练样本，将实时路径中UUV艏向调整的转艏及速度作为训练标签；构建测试集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为测试样本，将实时路径中UUV转艏及速度作为测试标签；

步骤四利用训练集中数据训练GRU网络，得到基于GRU网络的实时避碰规划器；

将训练数据中的声纳信息作为输入数据，将训练集中相对应的标签作为输出数据，对GRU网络进行训练，从而获得基于GRU网络的实时避碰规划器；损失函数为均方差函数；在训练过程中，采用小批量梯度下降误差反向传播算法优化GRU网络的权值；

步骤五将声纳探测信息及目标点信息输入至基于GRU网络的避碰规划器，获得UUV下一时刻的转艏及速度的调整指令。

GRU网络的输入层由81个单元组成，其中前80个单元分别对应仿真声纳的80个波束中包含的距离信息，第81个单元对应UUV当前位置与目标点之间的夹角；隐藏层由45个GRU模块组成，每个GRU模块都包含复位门和更新门结构；序列长度为10，上一时刻的隐藏层的输出反馈到下一时刻的模块中；中间层由23个单元组成；输出层由2个单元组成，分别对应所规划的下一时刻UUV的转艏和速度；输入层与隐藏层、隐藏层与中间层、中间层与输出层间的连接方式为全连接；

GRU记忆模块输出计算方式为：

z_t＝σ(W_hzh_t-1+W_xzx_t+b_z)

r_t＝σ(W_hrh_t-1+W_xrx_t+b_r)

其中，

z_t、r_t和h_t分别为t时刻更新门、复位门和记忆模块的输出；x_t为t时刻记忆模块的输入向量；h_t-1为t-1时刻记忆模块的输出向量；W_xz、W_xr和W_xh分别为模块输入与更新门、复位门和

间的权重矩阵；W_hz和W_hr分别为t-1时刻记忆模块的输出与更新门和复位门间的权重矩阵；b_z、b_r和b_h分别为更新门、复位门和

的偏置；σ(·)表示逻辑sigmoid函数，其为门单元的激活函数；·表示对应元素相乘。

数据集中仿真声纳探测到的距离信息为

其中

为当前时刻第i个波束探测到的距离信息，当第i个波束未探测到障碍时，

将t时刻声纳探测到的距离信息做如下处理：

将t时刻UUV所在位置与目标点形成的角度表示为

则t时刻GRU网络的输入向量

t时刻GRU网络的标签l_t＝[Δθ_t,v_t]，其中Δθ_t和v_t分别表示期望的UUV转艏和速度的调整指令。

在GRU网络训练开始前对数据集中数据做如下预处理：

将数据集中数据分为n个批量；数据集的归一化方法为减去列最小值后除以列最大值和列最小值的差；在GRU网络训练过程中输入数据和标签对应关系为：若时刻t＜10，则[x₁,…,x_t]对应标签l_t，若t≥10，则[x_t-9,…,x_t]对应标签l_t。

所述GRU网络训练过程包含以下步骤：

步骤一初始化GRU网络各层权重，令i＝0；

步骤二令k＝0；

步骤三取第k个批量的数据作为本次训练集，并令t＝0；

步骤四将本次训练集中的输入数据[x_t-9,…,x_t]输入到网络，经过GRU网络的前向传播过程得到对应输出y_t；

步骤五计算网络输出y_t与对应标签l_t的误差；

步骤六判断是否完成该批量计算，若是，执行步骤七，否则t＝t+1，并返回步骤四；

步骤七利用小批量梯度下降误差反向传播算法更新GRU网络权重；

步骤八判断是否所有批量数据均完成训练，若是，执行步骤九，否则k＝k+1，并返回步骤三；

步骤九i＝i+1，并判断i MOD 500是否为零，若是，执行步骤十，否则返回步骤二；

步骤十在测试集中随机选取50个序列，使用当前网络进行测试，计算均方误差；

步骤十一若测试集中均方误差连续10次没有减小，则停止训练，否则返回步骤二。

与现有技术相比，本发明的有益效果是：本发明提供了一种基于GRU网络的UUV实时避碰规划方法，该方法利用了GRU在长时间序列上强大的非线性拟合能力，实现了一个端到端的简单高效的实时避碰规划器。本发明设计的用于UUV实时避碰规划的GRU网络，不仅有强大的学习能力，同时还具有非常强的泛化能力，这使得所实现的实时避碰规划器适用于各种复杂的环境；同时，该避碰规划器满足实时性的要求，并且所规划的路径满足UUV运动特性的要求。

附图说明

图1是本发明的仿真声纳示意图；

图2是本发明的GRU网络结构图；

图3是本发明的角度示意图；

图4是本发明的仿真效果图。

具体实施方式

下面结合附图对本发明做详细地描述：

本发明将提供了一种基于GRU网络的UUV实时避碰规划方法。利用GRU强大的拟合长时间序列的能力，解决了UUV实时避碰规划的问题，克服了现有的实时避碰规划方法存在环境模型的精度与规划的实时性之间的矛盾，实现了一个简单、高效、易于实现的端到端的实时避碰规划器。

一种基于GRU网络的UUV实时避碰规划方法，包括以下步骤：

步骤1：构建全局坐标系和局部坐标系，建立声纳仿真模型；

全局坐标系采用北东坐标系，地图左下角为原点，正北方向为X轴，正东方向为Y轴；

局部坐标系原点选在UUV重心处，X轴取在UUV纵向剖面内，指向UUV艏端，Y轴与纵剖面垂直，指向右舷；

二维多波束声纳仿真模型水平开角为120°，最大探测半径为120m，共80个波束，波束角为1.5°，每个波束上探测噪声为±1％；

步骤2：设计用于实时避碰规划的GRU网络；

步骤3：构建数据集；

数据集包括训练集和测试集，分别用于神经网络的训练阶段和测试阶段；

构建训练集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为训练样本，将实时路径中UUV艏向调整的角度(转艏)及速度作为训练标签；

构建测试集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为测试样本，将实时路径中UUV转艏及速度作为测试标签；

步骤4：利用训练集中数据训练GRU网络，得到基于GRU网络的实时避碰规划器；

将训练数据中的声纳信息作为输入数据，将训练集中相对应的标签作为输出数据，对GRU网络进行训练，从而获得基于GRU网络的实时避碰规划器；

损失函数为均方差函数；

在训练过程中，采用小批量梯度下降误差反向传播算法优化GRU网络的权值；

步骤5：将声纳探测信息及目标点信息输入至基于GRU网络的避碰规划器，获得UUV下一时刻的转艏及速度的调整指令；

GRU网络具体结构为：

输入层由81个单元组成，其中前80个单元分别对应仿真声纳的80个波束中包含的距离信息，第81个单元对应UUV当前位置与目标点之间的夹角；

隐藏层由45个GRU模块组成，每个GRU模块都包含复位门和更新门等结构；

序列长度为10，上一时刻的隐藏层的输出反馈到下一时刻的模块中；

中间层由23个单元组成；

输出层由2个单元组成，分别对应所规划的下一时刻UUV的转艏和速度；

输入层与隐藏层、隐藏层与中间层、中间层与输出层间的连接方式为全连接。

GRU记忆模块输出计算方式为：

z_t＝σ(W_hzh_t-1+W_xzx_t+b_z)

r_t＝σ(W_hrh_t-1+W_xrx_t+b_r)

其中，

数据集中数据具体为：

仿真声纳探测到的距离信息为

其中

为了简化输入信息，将t时刻声纳探测到的距离信息做如下处理：

将t时刻UUV所在位置与目标点形成的角度表示为

则t时刻GRU网络的输入向量

在训练开始前对数据集中数据做如下预处理：

将数据集中数据分为n个批量；

数据集的归一化方法为减去列最小值后除以列最大值和列最小值的差。

在训练过程中输入数据和标签对应关系为：

若时刻t＜10，则[x₁,…,x_t]对应标签l_t，若t≥10，则[x_t-9,…,x_t]对应标签l_t。

GRU网络的训练过程可表述为：

1)初始化GRU网络各层权重，令i＝0；

2)令k＝0；

3)取第k个批量的数据作为本次训练集，并令t＝0；

4)将本次训练集中的输入数据[x_t-9,…,x_t]输入到网络，经过GRU网络的前向传播过程得到对应输出y_t；

5)计算网络输出y_t与对应标签l_t的误差；

6)判断是否完成该批量计算，若是，执行7)，否则t＝t+1，并返回4)；

7)利用小批量梯度下降误差反向传播算法更新GRU网络权重；

8)判断是否所有批量数据均完成训练，若是，执行9)，否则k＝k+1，并返回3)；

9)i＝i+1，并判断i MOD 500是否为零，若是，执行10)，否则返回2)；

10)在测试集中随机选取50个序列，使用当前网络进行测试，计算均方误差；

11)若测试集中均方误差连续10次没有减小，则停止训练，否则返回2)。

基于GRU网络的UUV实时避碰规划其工作过程为：

1)将UUV布放在起始位置；

2)仿真声纳开始获取UUV当前位置的环境信息x_t；

3)将仿真声纳获取的环境信息[x_t-9,…,x_t]输入到GRU网络，获得下一时刻UUV转艏及速度的调整指令；

4)UUV执行运动指令，到达下一路径点；

5)判断UUV是否到达目标点，若是，避碰规划器停止工作，否则返回2)；

结合附图可以看出，本发明提供了一种基于GRU网络的UUV实时避碰规划方法，该方法利用了GRU在长时间序列上强大的非线性拟合能力，实现了一个端到端的简单高效的实时避碰规划器。本发明设计的用于UUV实时避碰规划的GRU网络，不仅有强大的学习能力，同时还具有非常强的泛化能力，这使得所实现的实时避碰规划器适用于各种复杂的环境；同时，该避碰规划器满足实时性的要求，并且所规划的路径满足UUV运动特性的要求。

Claims

1.一种基于GRU网络的UUV实时避碰规划方法，其特征在于，包括以下步骤：

步骤一构建全局坐标系和局部坐标系，建立声纳仿真模型；

步骤二设计用于实时避碰规划的GRU网络；

步骤三构建数据集；

2.根据权利要求1所述的一种基于GRU网络的UUV实时避碰规划方法，其特征在于，GRU网络的输入层由81个单元组成，其中前80个单元分别对应仿真声纳的80个波束中包含的距离信息，第81个单元对应UUV当前位置与目标点之间的夹角；隐藏层由45个GRU模块组成，每个GRU模块都包含复位门和更新门结构；序列长度为10，上一时刻的隐藏层的输出反馈到下一时刻的模块中；中间层由23个单元组成；输出层由2个单元组成，分别对应所规划的下一时刻UUV的转艏和速度；输入层与隐藏层、隐藏层与中间层、中间层与输出层间的连接方式为全连接；

GRU记忆模块输出计算方式为：

z_t＝σ(W_hzh_t-1+W_xzx_t+b_z)

r_t＝σ(W_hrh_t-1+W_xrx_t+b_r)