CN108459614B

CN108459614B - 一种基于cw-rnn网络的uuv实时避碰规划方法

Info

Publication number: CN108459614B
Application number: CN201810044019.4A
Authority: CN
Inventors: 王宏健; 林常见; 袁建亚; 练青坡; 王成龙; 付明玉
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2020-12-04
Anticipated expiration: 2038-01-17
Also published as: CN108459614A

Abstract

本发明提供了一种基于CW‑RNN网络的UUV实时避碰规划方法，属于水下航行器导航领域。本发明提供的方法如下：步骤1：构建全局坐标系和局部坐标系，建立声纳仿真模型；步骤2：设计用于实时避碰规划的CW‑RNN网络；步骤3：构建数据集用于神经网络的训练阶段和测试阶段；步骤4：利用训练集中数据训练CW‑RNN网络，得到实时避碰规划器；步骤5：将声纳探测信息及目标点信息输入至基于CW‑RNN网络的避碰规划器，获得UUV下一时刻的转艏及速度的调整指令。本发明提供的方法得到的规划器不仅有强大的学习能力，同时还具有非常强的泛化能力，适用于各种复杂的环境；同时可满足实时性的要求，并且所规划的路径满足UUV运动特性的要求。

Description

一种基于CW-RNN网络的UUV实时避碰规划方法

技术领域

本发明涉及一种基于时钟装置循环神经网络(Clock Work Recurrent NeuralNetwork,CW-RNN)的无人水下航行器(UUV)的实时避碰规划方法，属于水下航行器导航领域。

背景技术

随着人类对海洋资源的不断开发与探索，水下机器人在各个领域都得到了越来越广泛的应用。作为新一代水下机器人具有隐蔽性强、机动性好、活动范围大、安全、智能等优点，是完成各种水下任务的重要工具。为完成各种任务，UUV必须具有在未知环境下工作的能力。这就需要UUV具备实时避碰规划的能力来保证UUV的安全航行。

实时避碰规划要求UUV在航行过程中根据传感器探测到的已知的环境信息找到一条从起点到终点的无碰撞安全路径。目前可用于避碰规划的方法主要有蚁群算法、遗传算法、人工免疫算法、人工势场法、粒子群优化算法、A*算法、Dijkstra算法等。对于实时避碰规划问题，除了考虑安全性和避碰运动平滑性等，系统的实时性也是重要的指标，然而基于上述传统算法的实时避碰规划系统，存在环境模型的精度以及路径的优化程度与规划的实时性相互矛盾的问题。深度学习是目前最具潜力的人工智能算法，其强大的非线性拟合能力可以为UUV提供一套简单、高效、易于实现的实时避碰规划系统。这使得UUV具有了一定的自主学习的能力，从而减少了其对感知设备的依赖，增强了其在避碰过程中的灵活度。实时避碰规划系统的规划能力随着UUV在运动的过程中的不断学习而逐步提高。即使训练集中只包含简单环境下的避碰规划样本，训练完成后的基于CW-RNN网络的UUV实时避碰规划器也可以灵活处理复杂多变环境下的避碰规划问题。

中国专利CN107368076A公开了一种智能环境下机器人运动路径深度学习控制规划方法，该方法使用深度学习DBN网络解决运载机器人全局路径规划问题。所提深度学习DBN网络包括一层输入层、三层隐藏层以及一层输出层，其中可视层与第一隐藏层构成第一层限制玻尔兹曼机RBM，第一隐藏层与第二隐藏层构成第二层限制玻尔兹曼机RBM，第二隐藏层与第三隐藏层构成BP网络层。该专利采用逐层训练的方法依次对两层限制玻尔兹曼机RBM和BP网络层进行训练。与全局路径规划不同，避碰规划器需要根据过去一段时间内的环境障碍信息实时输出规划结果。相较于限制玻尔兹曼机RBM，CW-RNN具有处理较长时间序列的能力，且更适用于复杂的规划问题。

发明内容

本发明将提供了一种基于CW-RNN网络的UUV实时避碰规划方法，目的在于利用CW-RNN强大的拟合长时间序列的能力，解决UUV实时避碰规划的问题，克服现有的实时避碰规划方法存在环境模型的精度与规划的实时性之间的矛盾，实现一个简单、高效、易于实现的端到端的实时避碰规划方法。

本发明的目的通过以下方式实现：

步骤1：构建全局坐标系和局部坐标系，建立声纳仿真模型；

步骤2：设计用于实时避碰规划的CW-RNN网络；

步骤3：构建数据集，包括训练集和测试集，分别用于神经网络的训练阶段和测试阶段；

步骤4：利用训练集中数据训练CW-RNN网络，得到基于CW-RNN网络的实时避碰规划器；

步骤5：将声纳探测信息及目标点信息输入至基于CW-RNN网络的避碰规划器，获得UUV下一时刻的转艏及速度的调整指令。

与现有技术相比，本发明提供的一种基于CW-RNN网络的UUV实时避碰规划方法优势在于：

1.本发明提供的方法用于UUV实时避碰规划的CW-RNN网络，具有强大的学习能力；2.本发明提供的方法具有非常强的泛化能力，这使得所实现的实时避碰规划器适用于各种复杂的环境；3.本发明提供的方法满足实时性的要求，并且所规划的路径满足UUV运动特性的要求。

附图说明

图1是本发明的仿真声纳示意图；

图2是本发明的CW-RNN网络结构图；

图3是本发明的角度示意图；

图4是本发明的仿真效果图。

具体实施方式

下面结合说明书附图对本发明提供的一种基于CW-RNN网络的UUV实时避碰规划方法进行说明：

一种基于CW-RNN网络的UUV实时避碰规划方法，包括以下步骤：

步骤1：构建全局坐标系和局部坐标系，建立声纳仿真模型：全局坐标系采用北东坐标系，地图左下角为原点，正北方向为X轴，正东方向为Y轴；局部坐标系原点选在UUV重心处，X’轴取在UUV纵向剖面内，指向UUV艏端，Y’轴与纵剖面垂直，指向右舷；二维多波束声纳仿真模型水平开角为120°，最大探测半径为120m，共80个波束，波束角为1.5°，每个波束上探测噪声为±1％；

步骤2：设计用于实时避碰规划的CW-RNN网络：所设计的CW-RNN网络为端对端模型，可以直接根据传感器探测信息得出规划结果，该网络模型包含四层，分别为输入层、隐藏层、中间层以及输出层；输入层由81个单元组成，其中前80个单元分别对应仿真声纳的80个波束中包含的距离信息，第81个单元对应UUV当前位置与目标点之间的夹角；隐藏层由CW-RNN组成，序列长度为10，上一时刻的隐藏层的输出为下一时刻隐藏层的输入；中间层由23个单元组成；输出层由2个单元组成，分别对应所规划的下一时刻UUV的转艏和速度；输入层与隐藏层、隐藏层与中间层、中间层与输出层间的连接方式为全连接；

步骤3：构建数据集；数据集包括训练集和测试集，分别用于神经网络的训练阶段和测试阶段；

构建训练集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为训练样本，将实时路径中UUV艏向调整的角度(转艏)及速度作为训练标签；

构建测试集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为测试样本，将实时路径中UUV转艏及速度作为测试标签；

步骤4：利用训练集中数据训练CW-RNN网络，得到基于CW-RNN网络的实时避碰规划器：将训练数据中的声纳信息作为输入数据，将训练集中相对应的标签作为输出数据，对CW-RNN网络进行训练，从而获得基于CW-RNN网络的实时避碰规划器；损失函数为均方差函数，在训练过程中，采用小批量梯度下降误差反向传播算法优化CW-RNN网络的权值；

CW-RNN结构的优势：

CW-RNN是为了解决循环神经网络(RNN)无法建立长时间依赖的问题提出的，相对于其他改进的网络，其结构更简单，参数更少，训练速度更快。

在t时刻，RNN的输出可以通过下式计算：

s_t＝σ(W_xsx_t+W_sss_t-1+b_s)

o_t＝tanh(W_sos_t+b_o)

其中，W_xs为输入层与隐藏层间的权重矩阵，W_ss为隐藏层与隐藏层间的权重矩阵，W_so为隐藏层与输出层间的权重矩阵，x_t、s_t和o_t分别为t时刻网络的输入向量、隐藏层状态向量和输出向量，b_s和b_o分别为隐藏层和输出层的偏置项。

CW-RNN与RNN的区别为：

CW-RNN将隐藏层分为若干模块，并给每个模块分配一个时钟周期；同一模块隐藏层之间为全链接，不同模块之间的连接为从高时钟频率的模块指向低时钟频率的模块。

CW-RNN的具体实现：

本发明将隐藏层分为4个模块，每个模块包含45个单元，第i个模块对应的时钟周期T_i＝2^i-1；

相对应的，W_xs和W_ss也被分为4组，即

其中，W_ss为上三角矩阵，即W_ssi＝{0,…,0,W_ssi,i,…,W_ssi,4}；

只有满足tMODT_i＝0时，模块i才被激活，被激活的模块参与运算，并更新自身状态，未被激活的模块不参与运算，并保持原状态，即

数据集中数据具体为：

仿真声纳探测到的距离信息为

其中

为当前时刻第i个波束探测到的距离信息，当第i个波束未探测到障碍时，

为了简化输入信息，将t时刻声纳探测到的距离信息做如下处理：

将t时刻UUV所在位置与目标点形成的角度表示为

则t时刻CW-RNN网络的输入向量

t时刻CW-RNN网络的标签l_t＝[Δθ_t,v_t]，其中Δθ_t和v_t分别表示期望的UUV转艏和速度的调整指令。

在训练开始前对数据集中数据做如下预处理：

将数据集中数据分为n个批量；数据集的归一化方法为减去列最小值后除以列最大值和列最小值的差。

在训练过程中输入数据和标签对应关系为：

若时刻t<10，则[x₁,…,x_t]对应标签l_t，若t≥10，则[x_t-9,…,x_t]对应标签l_t。

CW-RNN网络的训练过程可表述为：

1)初始化CW-RNN网络各层权重，令i＝0；

2)令k＝0；

3)取第k个批量的数据作为本次训练集，并令t＝0；

4)将本次训练集中的输入数据[x_t-9,…,x_t]输入到网络，经过CW-RNN网络的前向传播过程得到对应输出y_t；

5)计算网络输出y_t与对应标签l_t的误差；

6)判断是否完成该批量计算，若是，执行7)，否则t＝t+1，并返回4)；

7)利用小批量梯度下降误差反向传播算法更新CW-RNN网络权重；

8)判断是否所有批量数据均完成训练，若是，执行9)，否则k＝k+1，并返回3)；

9)i＝i+1，并判断iMOD500是否为零，若是，执行10)，否则返回2)；

10)在测试集中随机选取50个序列，使用当前网络进行测试，计算均方误差；

11)若测试集中均方误差连续10次没有减小，则停止训练，否则返回2)。

基于CW-RNN网络的UUV实时避碰规划其工作过程为：

1)将UUV布放在起始位置；

2)仿真声纳开始获取UUV当前位置的环境信息x_t；

3)将仿真声纳获取的环境信息[x_t-9,…,x_t]输入到CW-RNN网络，获得下一时刻UUV转艏及速度调整指令；

4)UUV执行运动指令，到达下一路径点；

5)判断UUV是否到达目标点，若是，避碰规划器停止工作，否则返回2)。

Claims

1.一种基于CW-RNN网络的UUV实时避碰规划方法，其特征在于：所述方法步骤如下，步骤(1)：构建全局坐标系和局部坐标系，建立声纳仿真模型；步骤(2)：设计用于实时避碰规划的CW-RNN网络；步骤(3)：构建数据集，包括训练集和测试集，分别用于神经网络的训练阶段和测试阶段；步骤(4)：利用训练集中数据训练CW-RNN网络，得到基于CW-RNN网络的实时避碰规划器；步骤(5)：将声纳探测信息及目标点信息输入至基于CW-RNN网络的避碰规划器，获得UUV下一时刻的转艏及速度的调整指令；

步骤(1)中所述的全局坐标系采用北东坐标系，地图左下角为原点，正北方向为X轴，正东方向为Y轴；局部坐标系原点选在UUV重心处，X’轴取在UUV纵向剖面内，指向UUV艏端，Y’轴与纵剖面垂直，指向右舷；二维多波束声纳仿真模型水平开角为120°，最大探测半径为120m，共80个波束，波束角为1.5°，每个波束上探测噪声为±1％；

步骤(2)中所述的CW-RNN网络为端对端模型，可以直接根据传感器探测信息得出规划结果，该网络模型包含四层，分别为输入层、隐藏层、中间层以及输出层；输入层由81个单元组成，其中前80个单元分别对应仿真声纳的80个波束中包含的距离信息，第81个单元对应UUV当前位置与目标点之间的夹角；隐藏层由CW-RNN组成，序列长度为10，上一时刻的隐藏层的输出为下一时刻隐藏层的输入；中间层由23个单元组成；输出层由2个单元组成，分别对应所规划的下一时刻UUV的转艏和速度；输入层与隐藏层、隐藏层与中间层、中间层与输出层间的连接方式为全连接；

步骤(3)中构建训练集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为训练样本，将实时路径中UUV艏向调整的角度及速度作为训练标签；构建测试集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为测试样本，将实时路径中UUV转艏及速度作为测试标签；

步骤(4)中所述的获得实时避碰规划器的过程如下，将训练数据中的声纳信息作为输入数据，将训练集中相对应的标签作为输出数据，对CW-RNN网络进行训练，从而获得基于CW-RNN网络的实时避碰规划器；损失函数为均方差函数，在训练过程中，采用小批量梯度下降误差反向传播算法优化CW-RNN网络的权值；

所述的CW-RNN网络实现方式如下，将隐藏层分为4个模块，每个模块包含45个单元，第i个模块对应的时钟周期T_i＝2^i-1；

相对应的，W_xs和W_ss也被分为4组，即

W_xs为输入层与隐藏层间的权重矩阵，W_ss为隐藏层与隐藏层间的权重矩阵，

其中，W_ss为上三角矩阵，即W_ssi＝{0,…,0,W_ssi,i,…,W_ssi,4}；

步骤(3)所述的数据集中数据具体如下，仿真声纳探测到的距离信息为

其中

将t时刻UUV所在位置与目标点形成的角度表示为

则t时刻CW-RNN网络的输入向量

t时刻CW-RNN网络的标签l_t＝[Δθ_t,v_t]，其中Δθ_t和v_t分别表示期望的UUV转艏和速度的调整指令，在训练开始前对数据集中数据做如下预处理：将数据集中数据分为n个批量；数据集的归一化方法为减去列最小值后除以列最大值和列最小值的差，在训练过程中输入数据和标签对应关系为：若时刻t＜10，则[x₁,…,x_t]对应标签l_t，若t≥10，则[x_t-9,…,x_t]对应标签l_t。

2.根据权利要求1所述的一种基于CW-RNN网络的UUV实时避碰规划方法，其特征在于：步骤(4)中所述的CW-RNN网络的训练过程如下，

(1)初始化CW-RNN网络各层权重，令i＝0；

(2)令k＝0；

(3)取第k个批量的数据作为本次训练集，并令t＝0；

(4)将本次训练集中的输入数据[x_t-9,…,x_t]输入到网络，经过CW-RNN网络的前向传播过程得到对应输出y_t；

(5)计算网络输出y_t与对应标签l_t的误差；

(6)判断是否完成该批量计算，若是，执行(7)，否则t＝t+1，并返回(4)；

(7)利用小批量梯度下降误差反向传播算法更新CW-RNN网络权重；

(8)判断是否所有批量数据均完成训练，若是，执行(9)，否则k＝k+1，并返回(3)；

(9)i＝i+1，并判断iMOD500是否为零，若是，执行(10)，否则返回(2)；

(10)在测试集中随机选取50个序列，使用当前网络进行测试，计算均方误差；

(11)若测试集中均方误差连续10次没有减小，则停止训练，否则返回(2)。

3.根据权利要求1所述的一种基于CW-RNN网络的UUV实时避碰规划方法，其特征在于：步骤(5)所述的基于CW-RNN网络的UUV实时避碰规划其工作过程如下，

(1)将UUV布放在起始位置；

(2)仿真声纳开始获取UUV当前位置的输入向量x_t；

(3)将仿真声纳获取的输入数据[x_t-9,…,x_t]输入到CW-RNN网络，获得下一时刻UUV转艏及速度调整指令；

(4)UUV执行运动指令，到达下一路径点；

(5)判断UUV是否到达目标点，若是，避碰规划器停止工作，否则返回(2)。