CN111694365B

CN111694365B - 一种基于深度强化学习的无人船艇编队路径跟踪方法

Info

Publication number: CN111694365B
Application number: CN202010626769.XA
Authority: CN
Inventors: 马勇; 赵玉蛟; 李�昊
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2021-04-20
Anticipated expiration: 2040-07-01
Also published as: US11914376B2; CN111694365A; US20220004191A1

Abstract

本发明公开了一种基于深度强化学习的无人船艇编队路径跟踪方法，包括无人船艇航行环境探索、奖励函数设计、编队队形保持、随机制动机制以及路径跟踪，无人船艇航行环境探索采用多艇同时探索，提取环境信息，奖励函数设计包括针对编队队形组成情况和路径跟踪误差的设计，随机制动机制可以优化深度强化学习的训练过程，编队队形保持通过编队队形控制策略实现，路径跟踪是通过领导者‑跟随者编队控制策略控制无人船艇沿预设路径运动，通过不断更新无人船艇的位置，从而使编队中所有无人船艇实现路径跟踪，本发明通过协同探索策略加速训练无人船艇路径点跟踪模型，并与领导者‑跟随者编队控制策略结合，形成无人船艇编队路径跟踪方法。

Description

一种基于深度强化学习的无人船艇编队路径跟踪方法

技术领域

本发明属于无人船艇编队路径跟踪控制领域，尤其涉及一种基于深度强化学习的无人船艇编队路径跟踪方法。

背景技术

无人船艇具有灵活、高速的特点，常被用于执行一些无人的任务，如海洋测绘、气象监视、环境监测等方面。近年来，无人船艇的相关研究和技术有了很大的发展。同时，后续的多欠驱动无人船艇编队路径跟踪也逐渐引起广泛关注。多无人船艇编队在搜救、侦察、数据收集、海洋清理等方面可发挥重要作用。路径跟踪是无人船艇控制中的基本问题之一。无人船艇编队路径跟踪的主要目的是使多艘无人船艇保持一定的编队队形沿预设路径航行。

与此同时，强化学习技术在人工智能、机器学习和自动控制等领域中得到了广泛的研究和应用，并被认为是设计智能系统的核心技术之一。随着机器学习领域的技术突破，相关人员开展了大量的强化学习与深度学习相结合的研究。因此，如何实现基于深度强化学习的无人船艇编队路径跟踪是目前亟需解决的技术难题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提出了一种基于深度强化学习的无人船艇编队路径跟踪方法，以实现基于深度强化学习的无人船艇编队路径跟踪。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度强化学习的无人船艇编队路径跟踪方法，包括：

S1：构建决策神经网络模型；

S2：根据多艇同时探索，提取航行水域环境信息，并储存经验数据；

S3：从储存的经验数据中选取训练数据训练所述决策神经网络模型，并采用随机制动机制优化深度强化学习的训练过程，获取无人船艇编队队形保持能力；

S4：基于协同探索的决策神经网络模型控制无人船艇沿预设路径运动，并通过不断更新无人船艇的位置，从而使编队中所有无人船艇实现路径跟踪；

S5：按照路径跟踪控制无人船艇队形移动，使无人船艇保持跟踪队形，实现编队路径跟踪。

优选地，步骤S2包括：

通过所述决策神经网络模型输出动作，并将相关状态、动作、奖励保存到经验池中，然后从所述经验池中选择经验数据形成训练数据集，在采用所述训练数据集训练所述决策神经网络模型时，每个无人船艇从不同的初始状态开始探测，并将探测的运动状态存入所述经验池中。

优选地，奖励函数考虑了无人船艇速度的同时，最大化无人船艇驶向参考坐标点的航向速度，最小化无人船艇横向偏移速度，将无人船艇与参考点之间的距离视为奖励函数的设计因子。

优选地，由R＝k_vR_v+k_dR_d设计奖励函数，其中，R_v表示无人船艇的速度，R_d表示无人船艇与参考点的距离，k_v和k_d是速度和距离的权重。

优选地，步骤S3包括：

基于DDPG算法对所述决策神经网络模型进行训练，在训练过程中将OU过程引入到DDPG中来探索环境，当所述决策神经网络模型做出决策和输出动作a_t＝μ(s_t)时，由随机过程产生的动作

噪声

的平均值为0，a_t表示神经网络输出的动作，μ(s_t)表示神经网络决策策略，s_t表示t时刻输入神经网络的状态输入，a_no-brake表示神经网络输出的动作加入随机噪声后生成的动作。

优选地，所述决策神经网络模型通过学习共享决策实现无人船艇编队队形保持，将actor网络设计为近似策略，采用梯度下降法更新所述actor网络中的参数。

优选地，由

确定所述决策神经网络模型中的目标评价网络，并通过优化损失函数对所述目标评价网络进行更新为：

通过随机梯度下降法更新参数

其中，

是在线评价网络中的参数，

是目标评价网络中的参数，s'是指在状态s处采取动作a后的下一个状态，a'是决策神经网络在s'处采取的行动，r是奖励值，

表示训练的网络的输出值与期望值之间的损失值，

表示

和

的集合，r(s,a)表示奖励值，γ表示折扣因子，

表示目标评价网络的目标评价值，

表示在线评价网络的目标评价值，C(s,a)表示s和a的组合，s表示状态向量，a表示动作向量。

优选地，步骤S4包括：

设无人船艇编队中心点为p_c(x_c,y_c)，其中，x_c,y_c分别表示无人船艇编队中心点的横坐标和纵坐标，e_d表示p_c与预设路径上的点p_p(x_p,y_p)之间的交叉航迹误差，x_p,y_p表示p_p(x_p,y_p)的横坐标和纵坐标，p_v(x_v,y_v)表示虚拟引导者的预期位置，x_v,y_v表示虚拟引导者的横坐标和纵坐标，无人船艇编队路径跟踪要求无人船艇编队虚拟引导者沿参数化预设路径(x_p(θ),y_p(θ))移动，x_p(θ),y_p(θ)表示预设路径上的点，θ表示路径参数；

由

确定路径跟踪的交叉航迹误差e_d；

无人船艇编队路径跟踪过程中，无人船艇编队中心点p_c的位置会不断变化，p_c在预设路径上的投影p_p也会发生变化，根据e_d在预设路径上选择虚拟引导者p_v以保持与p_p点的距离。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

首先要构建航行水域环境信息获取方案，科学表征水域复杂环境信息；考虑无人船艇故障、调度、航行区域限制等问题，提出新的编队队形动态控制策略；引入人工智能领域前沿技术，构建面向无人船艇编队路径跟踪的深度强化学习模型；围绕深度强化学习模型训练关键点，考虑编队队形组成情况和路径跟踪误差设计奖励函数；采用无人船艇编队协同探测策略，加速深度强化学习模型。本发明通过协同探索策略加速训练无人船艇路径点跟踪模型，并将其与领导者-跟随者编队控制策略结合，形成一种无人船艇编队路径跟踪方法。

附图说明

图1是本发明实施例提供的一种基于深度强化学习的无人船艇编队跟踪方法的流程示意图；

图2是本发明实施例提供的一种环境探索与经验数据收集；

图3是本发明实施例提供的一种随机制动机制下的动作选择；

图4是本发明实施例提供的一种编队队形保持控制流程；

图5是本发明实施例提供的一种编队路径跟踪策略。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的目的在于提供一种基于深度强化学习的无人船艇编队路径跟踪方法，它将基于协同探索的深度强化学习算法应用于无人船艇编队路径跟踪，设计路径点跟踪奖励函数，并通过协同探索策略加速训练无人船艇路径点跟踪模型，将其与领导者-跟随者编队控制策略结合，形成一种新颖的无人船艇编队路径跟踪算法。本发明提供的一种基于深度强化学习的无人船艇编队路径跟踪方法区别于传统的无人艇编队路径跟踪方法的地方有以下三方面：提出了基于深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)的多个无人船艇形成路径跟踪策略，以实现多无人船艇编队路径跟踪，利用神经网络训练替代数学推导与计算；编队中的无人船艇可以动态退出编队，以应对无人船艇故障或紧急调度；在DDPG训练中引入随机制动机制，多欠驱动无人船艇编队在编队保持和路径跟踪方面达到优异的性能。

实施例一

如图1所示是本发明实施例提供的一种方法流程示意图，在图1所示的方法中包括以下步骤：

S1：构建决策神经网络模型；

在本发明的一个实施例中，决策神经网络包括输入层、卷积层、隐藏层和输出层，卷积层与隐藏层之间、隐藏层和输出层之间通过激活函数连接。

在本发明的一个实施例中，决策神经网络中的卷积层，通过卷积核降低输入特征的维度。

在本发明的一个实施例中，决策神经网络中的全连接层的激活函数均为Relu函数。

在本发明的一个实施例中，决策神经网络训练算法中的探索函数是按概率决定是否对未知状态探索，该概率初始值为0.9，最小值为0.01，并且该概率随训练过程减小。

在本发明的一个实施例中，决策神经网络训练算法中的状态观测方法观测到的状态包括水面无人艇与预设路径的位置偏差、方向偏差，与预设速度的偏差。

在本发明的一个实施例中，决策神经网络的训练结果的评估结果是由测试数据集的准确率决定的。

S2：设计奖励函数；

在本发明的一个实施例中，为使无人船艇快速形成编队并保持编队快速到达参考坐标点，在奖励函数的设计中考虑了无人船艇的速度R_v，最大化无人船艇向参考坐标点航行速度，最小化无人船艇横向偏差速度，可用公式表示为：

R_v＝v_icosβ_i-v_isinβ_i (1)

其中，v_i＝[u_i,v_i,r_i]^T，u_i,v_i,r_i分别表示无人船艇的纵荡、横荡速度和艏摇角速度，无人船艇间夹角为β_i。

在本发明的一个实施例中，为避免出现编队控制模型陷入局部最优，将无人船艇与参考点的距离R_d作为奖励函数的设计因子，用公式表示为：

其中，e_f是实际编队位置与预期编队位置之间的误差，e_f-max表示允许的编队位置与预期编队位置之间的最大误差，若误差超过该值，则本次训练无效，开始下次训练。

因此，奖励函数为：

R＝k_vR_v+k_dR_d (3)

其中，k_v和k_d是速度和距离的权重。

S3：探索未知环境，储存经验数据；

在本发明的一个实施例中，未知环境下的探测问题是将深度强化学习模型应用于路径跟踪任务的关键，从路径跟踪的角度出发，无人船艇编队在航行中需避开水上构筑物、桥墩、岛屿、暗礁、浅滩等静态障碍物，还需应对渡船、来往船只、水上漂浮物等动态障碍物，此外，还要充分考虑水流扰动的影响。

在本发明的一个实施例中，在复杂的环境信息数据的基础上，快速训练路径跟踪决策下的无人船艇，确保无人船艇具备抵御水流扰动的能力，适应曲线、折线、直线等多种路径跟踪任务要求，使无人船艇编队在保持编队队形的条件下，以较小的位置偏差和航向偏差航行在预定路径上，高质量完成路径跟踪任务。

如图2所示，在本发明的一个实施例中，通过决策神经网络输出动作，将相关状态、动作、奖励保存到经验池中，然后从经验池中选择经验数据形成训练数据集，在训练决策神经网络时，无人船艇编队对环境进行探测，编队中每个无人船艇会从不同的初始状态开始探测，从而大大降低了环境探索经验的重复率，并更快地探索到不同的运动状态、更快地积累经验池中的训练数据集。

如图3所示，在本发明的一个实施例中，基于DDPG算法的决策神经网络训练中存在一种试错学习机制，将Ornstein-Uhlenbeck(OU)过程引入到DDPG中来探索环境，当决策神经网络做出决策和输出动作a_t＝μ(s_t)时，由随机过程产生的

噪声

的平均值为0，OU过程实际上是带有随机噪声的均值回归，OU过程可以表示为：

da_t＝θ*(δ-a_t)dt+σdW (4)

其中，δ是加入噪声后动作的平均值，W是布朗运动产生的随机噪声，而且δ是W的权重，a_t表示神经网络输出的动作，θ和σ分别表示动作和随机噪声W的权重，μ(s_t)表示神经网络决策策略，s_t表示t时刻输入神经网络的状态输入，a_no-brake表示神经网络输出的动作加入随机噪声后生成的动作。

S4：训练决策神经网络，获取无人船艇编队队形保持能力；

如图4所示，在本发明的一个实施例中，决策神经网络模型旨在学习共享决策，因此actor网络设计为近似策略，并采用梯度下降法更新actor网络中的参数，梯度如下：

其中，ρ是概率分布，E表示的是

的期望值，

表示策略梯度，

表示动作值函数对动作的偏导数，

表示决策网络输出对权值矩阵的偏导数，

表示决策网络的权值矩阵，μ表示神经网络决策策略，J(μ)表示目标策略函数。

在本发明的一个实施例中，通常随机抽取小批量样本作为训练数据，然后对梯度下降过程进行如下描述：

其中，N是小批量样本的大小，

是目标评价网络中的参数，

表示动作值函数，

表示第i次迭代的评价网络权值，

表示第i次迭代的决策网络权值，s_i表示第i次迭代的神经网络的状态输入，μ(s_i)表示神经网络决策策略。

在本发明的一个实施例中，假设C(s,a)可以连接状态向量s和动作向量a，Q称为目标评价网络，如下述公式(7)所示：

其中，C(s,a)表示s和a的组合。

在本发明的一个实施例中，可以通过优化损失函数对公式(7)进行更新，更新后公式(8)如下所示：

其中，

是在线评价网络中的参数，s'是指在状态s处采取动作a后的下一个状态，a'是决策神经网络在s'处采取的行动，r是奖励值，

表示训练的网络的输出值与期望值之间的损失值，

表示

和

的集合，r(s,a)表示奖励值，γ表示折扣因子，

表示目标评价网络的目标评价值，

表示在线评价网络的目标评价值。

在本发明的一个实施例中，在线评价网络中的参数

通过随机梯度下降法进行更新，其中梯度如下：

其中，

表示梯度。

在本发明的一个实施例中，在决策神经网络完成动作选择后引入随机制动，通过引入随机制动机制，无人水面艇(Unmanned Surface Vessel，USV)在远离参考坐标点时可以快速加速，而在靠近参考坐标点时可以正确制动。

在本发明的一个实施例中，无人船艇保持最大速度将获得最高回报，在通过决策神经网络训练无人船艇选择动作时会剔除减速运动，无人船艇到达参考坐标点后会保持最大速度围绕参考坐标点旋转，为避免这种情况的出现，通过引入随机制动机制，随机概率选择决策神经网络输出的动作和船舶减速动作，作为无人船艇最终的动作。

S5：路径跟踪方案；按照路径跟踪方案控制无人船艇编队保持预设队形移动，实现无人船艇编队路径跟踪。

在本发明的一个实施例中，为解决无人船艇编队路径跟踪问题，引入了领导者-跟随者编队控制策略，根据虚拟引导者的位置建立编队中各无人船艇的参考位置，虚拟引导者的位置代表了整个无人船艇编队的位置。

如图5所示，在本发明的一个实施例中，无人船艇编队中心点为p_c(x_c,y_c)，其中，x_c,y_c分别表示无人船艇编队中心点的横坐标和纵坐标，e_d表示p_c与预设路径上的点p_p(x_p,y_p)之间的交叉航迹误差，x_p,y_p表示p_p(x_p,y_p)的横坐标和纵坐标，p_v(x_v,y_v)表示虚拟引导者的预期位置，x_v,y_v表示虚拟引导者的横坐标和纵坐标。无人船艇编队路径跟踪要求无人船艇编队虚拟引导者沿参数化预设路径(x_p(θ),y_p(θ))移动，x_p(θ),y_p(θ)表示预设路径上的点，θ表示路径参数，路径可表示为含θ的函数，路径跟踪的交叉航迹误差e_d可以表示为：

在本发明的一个实施例中，无人船艇编队路径跟踪过程中，无人船艇编队中心点p_c的位置会不断变化，p_c在预设路径上的投影p_p也会发生变化，在预设路径上选择虚拟引导者p_v以保持与p_p点的距离。

在本发明的一个实施例中，虚拟引导者的更新与编队的中心点的位置有关，如图5所示，λ为固定值，当无人船艇编队中心点p_c的位置会不断变化，虚拟引导者可以随着无人船艇编队的移动而不断更新，以确保无人船艇编队保持和路径跟踪效果。

实施例二

在本发明所实施的实例中，无人船艇运动模型采用3自由度欠驱动船舶运动模型，船舶操作被离散化为“向前加速”、“向前减速”、“向左加速”、“向左减速”、“向右加速”、“向右减速”6个固定动作。

在构建决策神经网络模型时，决策神经网络包括输入层、卷积层、隐藏层和输出层，卷积层与隐藏层之间、隐藏层和输出层之间通过激活函数连接，由于无人船艇保持最大速度将获得最高回报，因此无人船艇无法学习减速，无人船艇会以最大速度前进到参考坐标点，并在到达参考坐标点时以最大速度围绕参考点旋转，所以在设计奖励函数时要考虑无人船艇的减速运动。

无人船艇形成路径跟随模型的训练是与环境相互作用的过程，无人船艇编队会对周围环境进行探测并根据周围环境的观测状态做出决策并结合任务目标与观测状态来评估无人船艇形成路径跟随的动作选择，然后根据评估值按照训练模型来训练无人船艇以形成跟随路径，最后执行选定的操作并改变环境来重新获取观测状态，重复该过程直到无人船艇编队路径跟踪模型可以选择预期的动作。

在训练决策神经网络时，多个无人船艇会同时探索环境，每个无人船艇从不同的初始状态开始探索，从而大大降低探索经验重复率并更快的探索到不同的运动状态，多个无人船艇适用于同一个决策神经网络，无需分别训练每一个无人船艇，确保了无人船艇在编队中行为一致性，最终决策神经网络输出动作并将相关的状态、动作、奖励保存到经验池后从经验池中选择经验数据形成训练数据集。

制动操作可以增加动作空间，同时也会降低无人船艇速度和奖励值，所以编队控制模型会忽略制动操作，并且编队控制模型会产生一些不良的经验数据到最后恒定制动的局部最优情况，为避免上述情况，本发明在无人船艇编队训练过程中增加了随机制动机制，设置概率以随机选择制动动作，加入了随机制动的训练模型只能在一定概率下制动，并且能够避免恒定制动的局部最优并最终学会制动，采用了随机制动机制后，无人船艇在远离参考坐标点时能快速加速，在接近参考坐标点时能适当制动。

无人船艇编队路径跟踪任务可以分为无人船艇编队队形保持任务和无人船艇路径跟踪任务，从无人船艇编队队形保持任务的角度看，无人船艇的状态以及虚拟引导者和其他无人船艇之间关系是影响无人船艇编队速度和标准的主要因素，无人船艇的状态是由其位置、航向以及速度来表征，每个无人船艇的预期位置和虚拟引导者的位置信息都是必要的，从无人船艇路径跟踪任务的角度来看，虚拟引导者的更新与路径跟踪的交叉航迹误差e_d有关。

通过引入领导者-跟随者编队控制策略，虚拟引导者可以随着无人船艇编队的移动而不断更新，确保了无人船艇编队保持预设队形实现编队路径跟踪。

本申请还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现方法实施例中的基于深度强化学习的无人船艇编队路径跟踪方法。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的无人船艇编队路径跟踪方法，其特征在于，包括：

S1：构建决策神经网络模型；

其中，步骤S2包括：

通过所述决策神经网络模型输出动作，并将相关状态、动作、奖励保存到经验池中，然后从所述经验池中选择经验数据形成训练数据集，在采用所述训练数据集训练所述决策神经网络模型时，每个无人船艇从不同的初始状态开始探测，并将探测的运动状态存入所述经验池中；

其中，步骤S4包括：

由

确定路径跟踪的交叉航迹误差e_d；

无人船艇编队路径跟踪过程中，无人船艇编队中心点p_c的位置会不断变化，p_c在预设路径上的投影p_p也会发生变化，根据e_d在预设路径上选择虚拟引导者p_v以保持与p_p点的距离；

2.根据权利要求1所述的方法，其特征在于，奖励函数考虑了无人船艇速度的同时，最大化无人船艇驶向参考坐标点的航向速度，最小化无人船艇横向偏移速度，将无人船艇与参考点之间的距离视为奖励函数的设计因子。

3.根据权利要求2所述的方法，其特征在于，由R＝k_vR_v+k_dR_d设计奖励函数，其中，R_v表示无人船艇的速度，R_d表示无人船艇与参考点的距离，k_v和k_d是速度和距离的权重。

4.根据权利要求1至3任意一项所述的方法，其特征在于，步骤S3包括：

噪声

5.根据权利要求4所述的方法，其特征在于，所述决策神经网络模型通过学习共享决策实现无人船艇编队队形保持，将actor网络设计为近似策略，采用梯度下降法更新所述actor网络中的参数。

6.根据权利要求5所述的方法，其特征在于，由

通过随机梯度下降法更新参数

其中，

是在线评价网络中的参数，

表示训练的网络的输出值与期望值之间的损失值，

表示

和

的集合，r(s,a)表示奖励值，γ表示折扣因子，

表示目标评价网络的目标评价值，

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。