CN110362089A

CN110362089A - 一种基于深度强化学习和遗传算法的无人船自主导航的方法

Info

Publication number: CN110362089A
Application number: CN201910712690.6A
Authority: CN
Inventors: 王宁; 徐宏威
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2019-10-22

Abstract

本发明公开了一种基于深度强化学习和遗传算法的无人船自主导航的方法，属于无人船领域，该方法分为路径规划和路径跟踪两部分，路径规划中，提前通过卫星图像获得环境的概况，预先确定规划路径的起点和终点；采用精英‑遗传算法，任意环境下离散、有序的和最优的N_w个无障碍航路点，通过K阶B样条算法公式将起点、N_w个无障碍航路点和终点拟合成一条连续的无人船路径规划曲线，根据无人船路径规划曲线的所有参数及任意时刻状态立即奖励函数结合无人船运动学模型和动力学模型，通过深度强化学习中的深度确定性策略梯度在有限时间内的自我学习能力得到无人船的控制力矩，进行无人船路径跟踪，采用精英‑遗传算法，能在狭窄环境中得到数量适中且安全的路径点。

Description

一种基于深度强化学习和遗传算法的无人船自主导航的方法

技术领域

本发明涉及无人船领域尤其涉及一种基于深度强化学习和遗传算法的无人船自主导航的方法。

背景技术

随着自动化理论及实践在海洋工程的广泛应用，欠驱动水面船作为一种高度自主的无人交通工具，可以灵活便捷地完成系列高风险海洋任务。其中，高精度的自主导航技术在发展欠驱动水面无人船自主性方面起着至关重要的作用。实际上，通过将路径规划与路径跟踪综合相结合，可以很好地解决自主导航问题。在路径规划子系统设计中，有许多传统的路径搜索算法被提出来。基于采样的算法，例如：随机扩展树、概率路线图路径规划器等。通过状态空间的随机采样点，把搜索导向空白区域，从而寻找到一条从起始点到目标点的规划路径。基于图像搜索算法，例如：A*算法、D*算法等。通过设计特定的启发函数得到一条代价最小的路径。智能搜索算法，例如：遗传算法、蚁群算法、粒子群算法等。根据自然界的启示，通过不断的迭代计算，获取到一条无障碍的路径。在路径跟踪的系统设计中，反步法、奇异摄动法、模糊划分法以及各种自适应控制方法已被有效运用于船舶运动控制中，但是这些控制方法需要根据任务设计不同的控制器，从而降低了控制系统的灵活性和迁移性，在已有的自主导航的方法中，通常都是通过摄像头或者雷达进行实时的控制，这样使得无人船的整体运行状态很大的依赖于传感器的性能以及船载芯片的计算能力。

本发明将自主导航分为路径规划和制导两部分，两部分相对独立，提高了系统的容错性。并且路径规划子系统得到的结果可适用于其他不同种类的航行器。提前通过卫星图像对整体环境进行全局规划，减少了许多实时计算量。在制导子系统中，使用深度强化学习算法，针对不航行器以及任务，控制器不需要重新设计，从而极大地增强了路径跟踪控制系统的工作效率。

发明内容

在现有的路径跟踪的系统设计中，反步法、奇异摄动法、模糊划分法以及各种自适应控制方法已被有效运用于船舶运动控制中，但是这些控制方法需要根据任务设计不同的控制器，从而降低了控制系统的灵活性和迁移性，在已有的自主导航的方法中，通常都是通过摄像头或者雷达进行实时的控制，这样使得无人船的整体运行状态很大的依赖于传感器的性能以及船载芯片的计算能力，本发明公开了一种基于深度强化学习和遗传算法的无人船自主导航的方法，该方法包括以下步骤：

S1：提前通过卫星图像获得环境的概况，预先确定规划路径的起点和终点；

S2：将具有N_p个个体的种群按照适应度函数计算适应度值，适应度值降序排列，其中每个个体具有N_w个无人船航路点，排序后的个体采用精英保留策略、选择、交叉、变异和随机生成方式进行迭代产生下一代，当种群适应度值达到稳定且完成设定的N_max次迭代，则迭代结束，第N_max迭代中适应值最高的个体的N_w个无人船航路点为任意环境下离散、有序的和最优的N_w个无障碍航路点；S2:将起点、N_w个无障碍航路点和终点根据K阶B样条算法公式拟合成一条连续的无人船路径规划曲线；

S3：根据无人船路径规划曲线的B样条基参数及任意时刻状态立即奖励函数结合无人船运动学模型和动力学模型，通过深度强化学习中的深度确定性策略梯度在有限时间内的自我学习能力得到无人船的控制力矩，进行无人船路径跟踪。

进一步地：所述精英保留策略是指N_p个个体根据适应度函数得到适应值按照由高到底的排序，设定适应值排序在前X位的个体直接进行下一代复制，生成精英个体。

进一步地：所述状态立即奖励函数如下：

其中s_k表示在k时刻的无人船状态，表示k时刻无人船位置误差，p_e＝p-p_d，p代表无人船实际位置，p_d代表理想曲线的位置；表示k时刻无人船速度误差，代表无人船实际速度，代表理想曲线的速度；t_k＝t₀+kt_Δ，t_k表示k时刻的时间，t₀表示初始时间，t_Δ表示时间采样间隔；K_s是立即奖励行数中的一个常数对角矩阵，K_s＝diag(K_s，1，…，K_s，6)>0，a_k(s_k)表示在状态s_k下采取的动作，a_k(s_k)＝[τ_u(s_k)，τ_r(s_k)]^T，k＝0，1，…，N_tr，k时刻的前向力矩τ_u(s_k)和回转力矩τ_r(s_k)。

进一步地，K阶B样条算法公式如下：

其中p_d(θ)＝[x(θ)，y(θ)]^T，p_i ^*∈，表示控制点，由起点和终点以及N_w规划出的航路点所组成，p_d(θ)＝[x(θ)，y(θ)]^T，p_d(θ)表示关于节点θ的拟合曲线；其中节点θ的范围是并且θ的取值是中依次取得的。

进一步地，所述个体适应度函数为：

其中是大于零的常数参数，S_Ω表示环境中的可行区域，表示个体的适应值，L_p表示将起点和终点以及N_w个航路点依次排序后的响铃航路点的距离之和，其中表示在个体中的N_w个航路点。

由于采用了上述技术方案，本发明提供的本发明将一种基于深度强化学习和遗传算法的无人船自主导航的方法，自主导航分为路径规划和路径跟踪两部分，并且都是离线计算，两部分相对独立，能显著减少机载芯片的计算压力，提高了系统的容错性，并且路径规划得到的结果可适用于其他不同种类的航行器。提前通过卫星图像，获得整体需要规划路径环境的概况，减少了许多实时计算量，路径规划过程中，采用EGA智能算法，通过设计适应度函数找到从起点到终点的航路点，能在狭窄环境中得到数量适中且安全的路径点，并且使用B样条拟合技术将少量的路径点拟合成一条连续的路径，在路径跟踪过程中，使用深度强化学习算法，只需要通过不断的自我学习避免了传统跟踪算法中需要设计观测器就能得到一系列连续的控制序列，针对不航行器以及任务，控制器不需要重新设计，从而极大地增强了路径跟踪控制系统的工作效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于深度强化学习和遗传算法的无人船自主导航系统流程图；

图2为精英-遗传算法更新过程图；

图3为B样条拟合算法示意图；

图4为深度确定性策略梯度更新过程图；

图5为群体适应度值变化图；

图6为精英-遗传算法与蚁群算法生成的航路点示意图；

图7为不同拟合算法对比结果图；

图8为深度强化学习回合训练奖励图；

图9为理想曲线和实际曲线平面图；

图10为无人船航行过程中转动力矩三维示意图；

图11为无人船航行过程中前向力矩三维示意图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

图1为基于深度强化学习和遗传算法的无人船自主导航系统流程图，基于深度强化学习和遗传算法的无人船自主导航的方法，该无人船自主导航包括路径规划子系统和路径跟踪控制子系统；在路径规划子系统中，通过卫星图像对环境进行建模及预处理，再使用精英-遗传算法(简称：EGA)进行离线训练，得到起点到终点数量合适的无障碍航路点；在路径跟踪控制系统中，摒弃传统的控制器和观测器，通过深度强化学习中的深度确定性策略梯度(简称：DDPG)在有限时间内的自我学习能力得到航行器的控制力矩，所涉及的算法框架保证了系统具有较高的易用性和灵活性，航行器能在受限环境下的具有很好的自主导航能力。

具体地，该方法包括以下步骤：

S2：如图2为精英-遗传算法更新过程图，基于精英-遗传算法的迭代过程中使用精英保留策略和多样化随机生成方案，这不仅保证了在每一次更新过程中的优秀的个体能被保留，并且种群也具有一定的探索能力，精英-遗传算法具体过程如下：将具有N_p个个体的种群按照适应度函数计算适应度值，适应度值降序排列，其中每个个体具有N_w个无人船航路点，排序后的个体采用精英保留策略、选择、交叉、变异和随机生成方式进行迭代产生下一代，当种群适应度值达到稳定且完成设定的N_max次迭代，则迭代结束，第N_max迭代中适应值最高的个体的N_w个无人船航路点为任意环境下离散、有序的和最优的N_w个无障碍航路点；

S3：将起点、N_w个无障碍航路点和终点，根据K阶B样条算法公式拟合成一条连续的无人船路径规划曲线；

S4：根据无人船路径规划曲线的B样条基参数及任意时刻状态立即奖励函数结合无人船运动学模型和动力学模型，通过深度强化学习中的深度确定性策略梯度在有限时间内的自我学习能力得到无人船的控制力矩，进行无人船路径跟踪。

进一步地，所述精英保留策略是指N_p个个体根据适应度函数得到适应值按照由高到底的排序，设定排序前X适应值的个体直接进行下一代复制，生成精英个体。

进一步地，所述个体适应度函数具体如下：

其中S_Ω为可行区域，是相邻航路点的距离，因此最后需要得到的航路点应是其中p₀和分别为起点和终点。

进一步地，如图3为B样条拟合算法示意图，主要作用是将离散的航路点拟合成一条连续曲线以用于后面的跟踪操作，所述K阶B样条算法公式如下:

其中p_d(θ)＝[x(θ)，y(θ)]^T，p_i ^*∈，表示控制点，由起点和终点以及Nw规划出的航路点所组成，p_d(θ)＝[x(θ)，y(θ)]^T，p_d(θ)表示关于节点θ的拟合曲线；其中节点θ的范围是并且θ的取值是从中依次取得的。

B_i,k(θ)是第i次k阶由Cox-de Boor递归公式得出，表达式如下：

其中表示第θ的取值范围，并且

进一步地，无人船运动学和动力学模型如下：

其中运动学模型如(4)式：

代表惯性坐标系下无人船的位置和航向，(u，v，r)代表主体固定坐标系下无人船的前向，横向速度和航向角速度。

动力学模型如(5)时所示：

其中d₁₁，d₂₂，d₃₃代表水动力阻尼参数，m₁₁，m₂₂，m₃₃代表惯性质量参数，可利用的控制输入为前向推力τ_u和转向力矩τ_r。

为了得到了跟踪曲线的所有参数，先得出曲线关于时间的导数为：

其中且T＝N_trt_Δ，T一个完整的训练周期所需时间，N_tr和t_Δ分别为采样周期和时间间隔。

定义在时刻k下的立即奖励为：

其中s_k表示在k时刻的无人船状态，表示k时刻无人船位置误差，p_e＝p-p_d，p代表无人船实际位置，p_d代表理想曲线的位置；表示k时刻无人船速度误差，代表无人船实际速度，代表理想曲线的速度；t_k＝t₀+kt_△，t_k表示k时刻的时间，t₀表示初始时间，t_Δ表示时间采样间隔；K_s是立即奖励行数中的一个常数对角矩阵，K_s＝diag(K_s，1，…，K_s，6)>0，a_k(s_k)表示在状态s_k下采取的动作，a_k(s_k)＝[τ_u(s_k)，τ_r(s_k)]^T，k＝0，1，…，N_tr，k时刻的前向力矩τ_u(s_k)，和回转力矩τ_r(s_k)。

因为a_k是未知的，引入一个参数为的神经网络动作逼近器得出：

其中σ是OU随机过程产生的随机数，为了使网络具有探索能力。

在r_k的帮助下，可以得到总体能量方程J：

其中0＜γ＜1是折扣因子；k表示时刻；

由于J中包含了未来的奖励，这些是未知的，引入一个参数为的神经网络评判逼近器如下：

为了增加神经网络的收敛性，使用目标网络机制和重播缓冲区机制，目标网络机制将复制动作逼近器和评判逼近器为和用于网络更新，图4为深度确定性策略梯度更新过程图，

目标网络的更新为：

其中0＜ζ＜＜1。

实际网络的更新为：

其中分别为评判网络和动作网络的更新率，L是损失函数：

其中为k时刻下实际Q值，N_r为每次训练从重播缓冲区抽取的序列个数。

经过N_dqr次训练周期后，得到训练好的动作神经网络得到无人船的控制力矩为：

其中τ_u,k为k时刻的前向力矩，τ_r,k为k时刻的回转力矩。

为了检验所提出方法的有效性，在利用Cybership I船舶在中国辽宁省大连市临海港进行了实景模拟无人船自主导航，并且用该发明提出的路径规划方法和拟合技术与蚁群算法(ACO)、粒子群算法(PSO)和杜宾曲线(Dubins Curve)、贝塞尔曲线(Bezier curve)进行对比，进一步说明了GDRL算法的效果。该船舶模型参数为：

m₁₁＝19kg,m₂₂＝35.2kg,m₃₃＝4.2kg,d₁₁＝4kg/s,d₂₂＝1kg/s,d₃₃＝10kg/s。

船舶的初始状态设定为：初始力矩为：a₀＝[0，0]^T。

精英-遗传算法(EGA)中的设定参数选择为：

N_max＝200，N_P＝100，N_w＝5，FC0＝100，FC1＝100，FC2.1＝2，FC2.2＝1，N_dqr＝5000，γ＝0.90，N_tr＝200，N_r＝32，

其中：N_max为EGA最大迭代次数，N_PEGA中个体数量，N_w拟规划航路点数量，l适应度函数中的常数参数，FC0层中的神经元个数，FC1层中的神经元个，FC2.1层中的神经元个数，FC2.2层中的神经元个数，N_dqr深度确定性神经网络的训练周期，γ折扣因子，N_tr表示一次完整训练周期的所需时间，评判神经网络的学习率，动作神经网络的学习率。

图5为EGA在每一次迭代过程中的群体适应度，适应度只经过27次迭代就已经收敛。表1为对比不同的路径点生成算法得到的结果：

算法	航路点数量	运行时间	是否找到
				EGA	5	1.678s	√
PSO	\	3.778s	\
				ACO	420	4326.727s	√

表1

可以看出，EGA算法不仅在运行时间上有优势，而且在航路点数量上也有优势，并且PSO一直没有找到无障碍的航路点。

图6精英-遗传算法与蚁群算法生成的航路点示意图，将精英-遗传算法EGA和蚁群算法ACO得到的航路点显示在环境中。

图7不同拟合算法对比结果图，表2为使用不同的拟合计算得到的拟合路径长度：

表2

从图7和表2可以看出，虽然Bezier曲线的距离最短，但是会与障碍物发生碰撞，而Dubins曲线不仅距离过长，而且存在很多不必要的弧线。

图8为深度强化学习回合训练奖励图，表示在DDPG训练过程中，每一回合的累积奖励的变换情况，可以看出在经过600次训练，曲线已经稳定在0附近。

图9理想曲线和实际曲线平面图，显示了使用第5000次训练后的模型进行路径跟踪，实际曲线和理想曲线几乎一模一样。

图10无人船航行过程中转动力矩三维示意图和图11无人船航行过程中前向力矩三维示意图，展示了无人船在航行过程中每时每刻的力矩输入。

可以得到结论：所提出的方案能使得无人船在狭窄路径中精确导航，具有显著的有效性和优越性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度强化学习和遗传算法的无人船自主导航的方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习和遗传算法的无人船自主导航的方法，其特征还在于：所述精英保留策略是指N_p个个体根据适应度函数得到适应值按照由高到底的排序，设定适应值排序在前X位的个体直接进行下一代复制，生成精英个体。

3.根据权利要求1所述的一种基于深度强化学习和遗传算法的无人船自主导航的方法，其特征还在于：所述状态立即奖励函数如下：

其中s_k表示在k时刻的无人船状态，p_e ^T(t_k)表示k时刻无人船位置误差，p_e＝p-p_d，p代表无人船实际位置，p_d代表理想曲线的位置；表示k时刻无人船速度误差，代表无人船实际速度，代表理想曲线的速度；t_k＝t₀+kt_Δ，t_k表示k时刻的时间，t₀表示初始时间，t_Δ表示时间采样间隔；K_s是立即奖励行数中的一个常数对角矩阵，K_s＝diag(K_s，1，…，K_s，6)>0，a_k(s_k)表示在状态s_k下采取的动作，a_k(s_k)＝[τ_u(s_k)，τ_r(s_k)]^T，k＝0，1，…，N_tr，k时刻的前向力矩τ_u(s_k)和回转力矩τ_r(s_k)。

4.根据权利要求1所述的一种基于深度强化学习和遗传算法的无人船自主导航的方法，其特征还在于：K阶B样条算法公式如下：

其中p_d(θ)＝[x(θ)，y(θ)]^T，表示控制点，由起点和终点以及N_w规划出的航路点所组成，p_d(θ)＝[x(θ)，y(θ)]^T，p_d(θ)表示关于节点θ的拟合曲线；其中节点θ的范围是并且θ的取值是中依次取得的。

5.根据权利要求1所述的一种基于深度强化学习和遗传算法的无人船自主导航的方法，其特征还在于，所述个体适应度函数为：

其中l是大于零的常数参数，表示环境中的可行区域，表示个体的适应值，L_p表示将起点和终点以及N_w个航路点依次排序后的响铃航路点的距离之和，其中表示在个体中的N_w个航路点。