CN113064422A

CN113064422A - 基于双神经网络强化学习的自主水下航行器路径规划方法

Info

Publication number: CN113064422A
Application number: CN202110253524.1A
Authority: CN
Inventors: 黄浩乾; 李光辉; 韩亦鸣; 王冰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-07-02
Anticipated expiration: 2041-03-09
Also published as: CN113064422B

Abstract

本发明公开了一种基于双神经网络强化学习的自主水下航行器路径规划方法，基于双神经网络强化学习算法解决自主水下航行器的路径规划问题。针对Q‑learning学习算法存在需要存储空间大和查找时间长的问题,进行优化处理；在Q‑learning学习算法的基础上融入目标网络和记忆池经验回放技术得到双神经网络强化学习算法，并构建基于双神经网络强化学习算法的AUV智能路径规划框架；量化处理自主水下航行器的环境状态信息，将其与双神经网络强化学习算法相结合，并判断AUV运动方向与目标点位置关系，得到AUV智能规划路径的决策。本发明显著地降低了运算的复杂性，满足实时决策要求，具有突出的迁移能力和环境适应性，为AUV提供安全快捷可靠的路径规划方案。

Description

基于双神经网络强化学习的自主水下航行器路径规划方法

技术领域

本发明属于人工智能及路径规划领域，具体涉及一种基于双神经网络强化学习的自主水下航行器路径规划方法。

背景技术

随着人工智能领域的逐渐发展，越来越多专家的关注和研究如何利用人工智能技术解决自主水下航行器的路径规划问题，科学界也涌现出了大量智能算法，其中包含深度学习、强化学习等，使自主水下航行器(Autonomous Underwater Vehicle，AUV)的路径规划越来越精确。但是，AUV最终要面临的是如何在未知的环境中的做到准确航行，所以在研究AUV如何提高自身性能的同时也要充分考虑到在未知环境中准确航行的问题。与在已知环境信息下AUV的路径规划问题相比，在未知环境信息下AUV的路径规划问题更加具有挑战性。在现代科学追求高安全性，高精确性和高效率性的时代背景下，在AUV的路径规划问题上，如何提高AUV在未知环境中的学习能力和AUV的环境自适应性也成为目前研究的关键技术性问题。而且，在路径规划算法问题上，传统的单一算法存在较大的弊端，例如被广泛应用的神经网络算法容易陷入局部最优解的问题，而强化学习是一种可以与环境进行交互式学习的重要人工智能方法，该算法通过不断地试错与探索，逐渐学习到相关的决策模型，具有灵活的路径规划能力，可用于解决在未知环境中自主水下航行器的路径规划问题。如何改进路径规划算法，又如何提高AUV在未知环境中的学习能力和环境自适应性，是AUV路径规划方法研究的热点，也是本发明研究的重点。

发明内容

发明目的：为了解决现有技术中AUV路径规划存在的面对未知环境的自我学习能力和环境自适应问题，本发明提供一种基于双神经网络强化学习的自主水下航行器路径规划方法。

技术方案：本发明提供一种基于双神经网络强化学习的自主水下航行器路径规划方法，具体包括以下步骤：

(1)对Q-learning学习算法中存在的需要存储空间大和查找时间长的问题进行优化处理；

(2)在Q-learning学习算法的基础上融入目标网络和基于“优先级”的记忆池经验回放技术得到双神经网络强化学习算法，并构建基于双神经网络强化学习算法的AUV智能路径规划框架；

(3)量化处理AUV的环境状态信息，将其与DQN算法相结合得到神经网络结构，并判断AUV运动方向与目标点位置关系，得到AUV智能规划路径的决策模型。

进一步地，所述步骤(1)实现过程如下：

Q-learning学习算将AUV当前状态s_t和执行动作a_t构成一张Q值表，命名为Q Net，用于存放AUV每一时刻的状态和执行动作；然后根据Q值表来选取能够获得最大收益的下一步动作a_t+1，在此基础上优化Q-learning学习算法就是根据AUV当前所处的环境信息去除Q值表中的无效动作，来减少Q值表所需的存储空间和查找Q值表所需要的时间。

进一步地，所述步骤(2)包括以下步骤：

(21)在优化后的Q-learning学习算法的基础上融入目标网络构成两个浅层神经网络：

Q_t+1(s,a)＝Q_t(s,a；θ)+β(r+γmax Q_t(s_t+1,a_t+1；θ_t)-Q_t(s_t,a_t；θ)) (2)

其中，Q_t+1(s,a)为根据Q值更新公式得到的目标函数值；Q_t(s,a)为根据s_t和a_t拟合出的当前函数值；β为学习率；r为即时反馈值；γ为折价系数；a为在状态s下执行的动作；

(22)对记忆池进行初始化，并且利用参数θ初始化Q Net网络，利用参数θ_t初始化目标网络Aim Net；θ为Q Net中函数值的向量表示；θ_t为Aim Net中函数值的向量表示

(23)将AUV的状态信息定义为其周围障碍物信息加上其本身的姿态信息，初始化AUV开始状态信息为s₀,初始化AUV此后每一时刻的当前状态信息为s_t，时间为t；

(24)根据AUV当前状态信息s_t选择动作a_t：AUV的动作由Q Net根据当前输入状态信息s_t下的预测值，选择神经网络输出层最大的Q值对应的动作a_t作为最优动作；

(25)执行动作a_t后，AUV的状态转移到下一状态信息s_t+1，并通过环境信息以及动作信息a_t和状态信息s_t+1的反馈，获得即时反馈值r_t；

(26)AUV在每次执行动作之后都会得到一组样本信息(s_t,a_t,r_t,s_t+1)，将样本信息存放到记忆池中，然后构造优先级数组来存放样本信息的优先级和位置索引信息；其中，s_t为当前时刻AUV的状态；a_t为当前时刻的状态下AUV执行的动作；s_t+1为AUV执行动作a_t后下一时刻的状态；r_t为AUV根据s_t+1获得的即时反馈值；

(27)获得一定数目的样本信息后，判断记忆池中的样本数量是否达到初始化权值θ，若达到θ则开始训练模型，若没达到则继续收集样本信息。

进一步地，所述步骤(27)包括以下步骤：

(271)在记忆池中抽取m个样本(s_t,a_t,r_t,s_t+1)，构成训练样本信息的集合；

(272)针对每个样本信息，将状态信息s_t输入到Q Net当中，计算a_t的Q值函数Q_t(s,a；θ)；将状态信息s_t+1输入到目标函数Aim Net中，目标函数Aim Net输出动作a_t，选取动作a_t对应的最大值函数maxQ_t(s_t+1,a_t+1；θ_t)；将上述结果和反馈值r_t带入公式(2)，可得到待拟合Q函数的真实值Q_t+1(s,a)；

(273)计算损失函数LOSE：

LOSE＝(Q_t+1(s,a)-Q_t(s,a；θ))² (4)

其中，Q_t+1(s,a)为根据Q值更新公式得到的目标函数值，a为在状态s下执行的动作；判断状态信息s_t+1是否为目标状态或碰到障碍物，若是，则停止本次训练并且回到起始状态重新开始模型训练；若不是目标状态并且也没有发生碰撞，则更新当前状态信息s_t＝s_t+1，重复训练过程。

进一步地，所述步骤(3)包括以下步骤：

(31)获取AUV当前环境状态信息：AUV自身当前艏向角ψ_R；AUV与其周围障碍物位置关系；基于大地坐标系下AUV自身位置信息；AUV与目标点之间的夹角信息；

(32)AUV自身位置信息的计算：AUV在大地坐标系下的位置坐标为(x_r,y_r)，将AUV执行偏转角动作所需时间看作Δt，根据当前AUV位置信息(x_r,y_r)计算下一时刻AUV的位置信息(x_r+1,y_r+1)：

x_r+1＝x_r+v cos(ψ_r+Δψ_r)Δt (5)

y_r+1＝y_r+v sin(ψ_r+Δψ_r)Δt (6)

其中，x_r为AUV在大地坐标下的横坐标；y_r为AUV在大地坐标下的纵坐标；Δt为AUV执行偏转角动作所需要的时间；v为AUV的速度；x_r+1为AUV执行偏转角动作后的横坐标；y_r+1为AUV执行偏转角动作后的纵坐标；ψ_R为AUV当前艏相角；AUV根据当前状态信息来执行偏转角动作的方式进行决策，根据公式(5)和(6)生成下一步的目标位置，不断重复得到的一系列目标位置信息构成了最终到达目标点的规划路径；

(33)将AUV的环境状态信息和AUV运动方向与目标点位置关系加入到基于双神经网络DQN强化学习算法得到AUV下一步运动方向。

有益效果：与现有技术相比，本发明的有益效果：1、本发明将目标网络和记忆池经验回放技术与Q-learning算法相结合，进行优势互补，使AUV基于DQN算法进行路径规划，克服了单一算法存在的弊端，实时性能好，能够安全避障，有很强的自我学习能力，效率得到很大的提升；通过基于“优先级”记忆池经验回放技术的应用使该算法具有更强的自我学习能力，减少学习时间，提高学习效率；2、将未知环境这一影响因素考虑在内，使AUV路径规划更为精确。

附图说明

图1是本发明的流程图；

图2是基于双神经网络强化学习算法部分的流程图；

图3是误差函数计算过程的流程图；

图4是优先级样本抽取方法的流程图；

图5是基于DQN算法的AUV智能规划框架图；

图6是AUV环境信息描述图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

如图1所示，本发明提出一种基于双神经网络强化学习的自主水下航行器路径规划方法，基将目标函数和记忆池经验回放技术加入Q-learning学习算法构成双神经网络强化学习(Deep Q Network，DQN)算法并结合AUV位置状态信息得到AUV路径规划决策；具体包括以下步骤：

步骤1：针对Q-learning学习算法存在需要存储空间大和查找时间长的问题进行优化处理。

Q-learning学习算法的主要思想是将AUV当前状态s_t和执行动作a_t构成一张Q值表(Q Net，用于存放AUV每一时刻的状态和执行动作)来存储Q值，然后根据Q值表来选取能够获得最大收益的下一步动作a_t+1，在此基础上优化Q-learning学习算法就是根据AUV当前所处的环境信息去除Q值表中的无效动作，来减少Q值表所需的存储空间和查找Q值表所需要的时间，来加快模型训练的速度。

当AUV所处环境为隐性马尔科夫环境，则AUV在每一时刻t的学习过程描述如下：

①根据环境信息获得当前AUV的状态s_t；

②AUV在状态s_t下选择执行动作a_t；

③AUV状态发生转移，转移后的状态为s_t+1；

④根据环境信息和转移后状态s_t+1获得即时反馈值r_t；

⑤根据Q值更新公式更新Q值：

⑥根据转移后的状态s_t+1和反馈值r_t去除Q值表中已存储的无效动作；

Q-learning算法的算法过程就是更新一个可以迭代计算的Q值表。

步骤2：在Q-learning学习算法的基础上融入目标网络和基于“优先级”的记忆池经验回放技术得到DQN算法，并构建基于DQN算法的AUV智能路径规划框架。

DQN算法是Q-learning学习算法的优化形式，利用两个浅层神经网络来训练AUV的智能决策模型，在Q-learning学习算法基础上融入目标神经网络和基于“优先级”的记忆池经验回放技术来得到DQN算法。具体过程如图2所示。

(2.1)在优化后的Q-learning学习算法的基础上融入目标网络构成两个浅层神经网络。

将表示状态和动作的Q函数值调整为周期性更新的目标函数值，从而减少与Q值表的相关性。在强化学习的基础上训练神经网络以达到代替Q值表的迭代更新的目的，这样的方法存在明显的低效率的缺陷，所以在训练神经网络迭代更新的Q值表(Q Net)的基础上，引入第二个神经网络：目标网络(Aim Net)。Aim Net与Q Net具有相同的网络结构，Q Net所拟合的当前函数值为Q(s,a；θ)，则目标网络所拟合的当前函数值为Q(s,a；θ_t),表示状态和动作的目标函数值Q_t+1(s,a)更新公式如(2)：

神经网络误差函数计算过程如图3所示，对每个样本(s_t,a_t,r_t,s_t+1)都构造误差函数，将AUV下一刻的状态量s_t+1作为Aim Net的输入量，计算出在状态s_t+1下AUV所有的动作a_t+1对应的Q值，并提取出最大的Q值：maxQ_t(s_t+1,a_t+1；θ_t)用于计算误差函数。将AUV当前状态s_t作为Q Net的输入量，计算出在状态s_t下AUV所有动作a_t对应的Q值，选择所执行动作a_t对应的Q_t(s,a_t；θ)用于计算误差函数，再根据即时反馈值r和公式(2)可构造出每个样本信息所对应的误差函数值Error：

Error＝β(r+γmaxQ_t(s_t+1,a_t+1；θ_t)-Q_t(s_t,a_t；θ)) (3)

Q Net接收到Error误差值后进行反向迭代计算，训练神经网络参数。随着训练的进行Q Net是实时更新的。每训练j(j∈N⁺)步，将当前Q Net的参数直接赋值到Aim Net中，保持Aim Net的参数不变，继续训练Q Net，当再一次训练j步时，重复之前的赋值过程。利用这种方法可以减少表示当前动作和状态的函数值Q和Aim Net之间存在的相关性。

(2.2)基于“优先级”的记忆池经验回放技术的融入。

记忆池经验回放技术使AUV不仅可以学习到新采集的样本信息，而且对于过去的样本信息也有机会进行重复学习，并且可以去除序列中与Q Net有关样本信息的相关性，使数据的分布变化更加平滑。基于“优先级”的记忆池经验回放技术与随机记忆池经验回放技术相比较而言，优先级样本的抽取过程如图4所示，可以使AUV有更大的概率对质量更好的样本信息进行优先学习，缩短学习过程所用的时间。优先级样本抽取方法的其中一个理想化标准是AUV从其当前状态s_t向下一时刻状态s_t+1转移的过程中获得，那么这个标准可以利用样本信息的误差函数值Error来代替，用误差函数值Error来表示这个样本在状态转移过程中的“优先级”，若误差函数值Error越大，那么AUV越需要学习这个样本信息，即此样本信息的优先级越高。

以Error作为优先级样本抽取方法理想化标准，利用一个二维数组来存放每个样本信息的优先级，以及此样本信息在记忆池中的位置索引信息，则此二维数组被称作优先级数组，并且此二维数组与记忆池的容量相同。记忆池在训练过程中每增加一个样本的同时，会将此样本所对应的优先级信息和位置索引信息存入优先级数组中，并且以样本的优先级从低到高的顺序对优先级数组中的数据进行排列，然后将优先级数组均分成n个优先级区间。当需要对m个样本信息进行重复学习时，就在每个优先级区间中以随机的方式抽取

个数据，再根据每个数据附带的位置索引信息，从记忆池中找出这些需要被重复学习的样本信息。利用这样的选择方式，从每个优先级区间中选出等量的样本信息进行重复学习，保证了每个样本信息具有相同的可能性被重复学习。

(2.3)如图5所示，构建基于DQN算法的AUV智能路径规划框架。

首先对记忆池进行初始化，并且利用参数θ初始化Q Net网络，利用参数θ_t初始化目标网络Aim Net。在AUV路径规划方法的问题上，将AUV的状态信息定义为其周围障碍物信息加上其本身的姿态信息，初始化AUV开始状态信息为s₀,初始化AUV此后每一时刻的当前状态信息为s_t，时间为t。

其次，根据AUV当前状态信息s_t选择动作a_t。AUV的动作由Q Net根据当前输入状态信息s_t下的预测值，选择神经网络输出层最大的Q值对应的动作a_t作为最优动作。

执行动作a_t后，AUV的状态转移到下一状态信息s_t+1，并通过环境信息以及动作信息a_t和状态信息s_t+1的反馈，获得即时反馈值r_t。AUV在每次执行动作之后都会得到一组样本信息(s_t,a_t,r_t,s_t+1)。将样本信息存放到记忆池中，然后构造优先级数组来存放样本信息的优先级和位置索引信息。

获得一定数目的样本信息后，判断记忆池中的样本数量是否达到初始化权值θ，若达到θ则开始训练模型，若没达到则继续收集样本信息。模型训练过程如下：

①在记忆池中抽取m个样本(s_t,a_t,r_t,s_t+1)，构成训练样本信息的集合。

②针对每个样本信息，将状态信息s_t输入到Q Net当中，计算a_t的Q值函数Q_t(s,a；θ)；将状态信息s_t+1输入到目标函数Aim Net中，目标函数Aim Net输出动作a_t，选取动作a_t对应的最大值函数maxQ_t(s_t+1,a_t+1；θ_t)；其中，θ为Q Net中函数值的向量表示；θ_t为Aim Net中函数值的向量表示。将上述结果和反馈值r_t带入公式(2)，可得到待拟合Q函数的真实值Q_t+1(s,a)。

③计算损失函数LOSE：

LOSE＝(Q_t+1(s,a)-Q_t(s,a；θ))² (4)

根据损失函数并通过梯度下降法来更新目标网络Aim Net中函数值的向量表示θ_t，增加选择最优动作的概率，并标记此次学习结束。

判断状态信息s_t+1是否为目标状态或碰到障碍物，若是，则停止本次训练并且回到起始状态重新开始模型训练；若不是目标状态并且也没有发生碰撞，则更新当前状态信息s_t＝s_t+1，重复上述训练过程。

步骤3：量化处理AUV的环境状态信息，将其与DQN算法相结合，并判断AUV运动方向与目标点位置关系，进而得到AUV智能规划路径的决策模型。

(3.1)获取AUV当前环境状态信息：

通过传感器获取当前位置周围的障碍物信息以及自身位置信息，构成AUV当前环境状态信息。环境状态信息表示：以相对位置信息作为AUV每一时刻的状态信息，对AUV状态信息的提取特征主要包含以下四个方面：

①AUV自身当前艏向角ψ_R；

②AUV与其周围障碍物位置关系；

③基于大地坐标系下AUV自身位置信息；

④AUV与目标点之间的夹角信息；

AUV自身位置信息的计算：在大地坐标系下，可以将AUV看作一个质点，AUV在大地坐标系下的位置坐标看作(x_r,y_r)，将AUV执行偏转角动作所需时间看作Δt，根据当前AUV位置信息(x_r,y_r)可以计算下一时刻AUV的位置信息(x_r+1,y_r+1)：

x_r+1＝x_r+v cos(ψ_r+Δψ_r)Δt (5)

y_r+1＝y_r+v sin(ψ_r+Δψ_r)Δt (6)

其中，x_r为AUV在大地坐标下的横坐标；y_r为AUV在大地坐标下的纵坐标；Δt为AUV执行偏转角动作所需要的时间；v为AUV的速度；x_r+1为AUV执行偏转角动作后的横坐标；y_r+1为AUV执行偏转角动作后的纵坐标；ψ_R为AUV当前艏相角。

AUV根据当前状态信息来执行偏转角动作的方式进行决策，根据公式(5)和(6)生成下一步的目标位置，不断重复上述的过程，得到的一系列目标位置信息构成了最终到达目标点的规划路径。

(3.2)将环境状态信息和AUV与目标点位置关系与DQN算法相结合：

将AUV的环境状态信息所示和AUV运动方向与目标点位置关系加入到基于双神经网络DQN强化学习算法得到AUV下一步运动方向。

AUV通过传感器(如声呐)实时探测一定范围内的障碍物位置信息，以此来识别其周围的环境信息，声呐可以扫描AUV当前运动方向正前方1800的范围。利用其中在七个不同角度(-π/2，-π/3，-π/6，0，π/6，π/3，π/2)探测到的障碍物信息作为获取环境信息的来源。如果声呐探测到有障碍物，则返回与AUV距离最近的障碍物的距离测量值，用d表示。定义声呐探测距离AUV20米范围内的障碍物的距离值为有效信息，量化处理连续的障碍物的距离测量值，并且视20米外探测到的障碍物信息为无效信息。将障碍物与AUV之间的距离测量值和角度差作为表示环境信息的一部分，把这七个不同角度的障碍物位置信息d_si(i＝1,2,3,...7)写成向量形式：{d_s1,d_s2,d_s3,d_s4,d_s5,d_s6,d_s7}。

如图6，在AUV环境状态信息描述中，其中：d_i是AUV与各个角度的障碍物之间的距离；d_g为AUV与目标点之间的距离测量值；α为AUV的正前方向与目标点方向之间的夹角；ψ_R为AUV艏向角。

AUV当前位置的坐标为(x_r,y_r)，艏向角为ψ_R，目标点的坐标为(x_g,y_g)，AUV所在位置的水平线与目标点之间的夹角为

AUV前进方向与目标点方向之间的夹角为α＝θ_rg-ψ_R。因为角度是连续变量，所以将角度做特征变换进行量化处理：

其中，α_g为量化处理之后的AUV前进方向与目标点方向之间的夹角，表示AUV前进方向与目标点方向之间的相对位置关系，α为AUV前进方向与目标点方向之间的夹角。

因为环境状态信息包括AUV周围障碍物的位置信息和AUV前进方向与目标点之间的夹角信息，所以将状态信息表示为向量{d_s1,d_s2,d_s3,d_s4,d_s5,d_s6,d_s7,α_g}。

Claims

1.一种基于双神经网络强化学习的自主水下航行器路径规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于双神经网络强化学习的自主水下航行器路径规划方法，其特征在于，所述步骤(1)实现过程如下：

Q-learning学习算法将AUV当前状态s_t和执行动作a_t构成一张Q值表，命名为QNet，用于存放AUV每一时刻的状态和执行动作；然后根据Q值表来选取能够获得最大收益的下一步动作a_t+1，在此基础上优化Q-learning学习算法就是根据AUV当前所处的环境信息去除Q值表中的无效动作，来减少Q值表所需的存储空间和查找Q值表所需要的时间。

3.根据权利要求1所述的基于双神经网络强化学习的自主水下航行器路径规划方法，其特征在于，所述步骤(2)包括以下步骤：

其中，Q_t+1(s,a)为根据Q值更新公式得到的目标函数值；Q_t(s,a)为根据s_t和a_t拟合出的当前函数值；β为学习率；r为即时反馈值；γ为折价系数；a为在状态s下AUV执行的动作；

(22)对记忆池进行初始化，并且利用参数θ初始化Q Net网络，利用参数θ_t初始化目标网络Aim Net；θ为QNet中函数值的向量表示；θ_t为Aim Net中函数值的向量表示；

(26)AUV在每次执行动作之后都会得到一组样本信息(s_t,a_t,r_t,s_t+1)，将样本信息存放到记忆池中，然后构造优先级数组来存放样本信息的优先级和位置索引信息；其中s_t为当前时刻AUV的状态；a_t为当前时刻状态下AUV执行的动作；s_t+1为执行动作a_t后AUV的状态；r_t为根据环境信息以及动作信息a_t和状态信息s_t+1获得的即时反馈值；

4.根据权利要求3所述的基于双神经网络强化学习的自主水下航行器路径规划方法，其特征在于，所述步骤(27)包括以下步骤：

(272)针对每个样本信息，将状态信息s_t输入到QNet当中，计算a_t的Q值函数Q_t(s,a；θ)；将状态信息s_t+1输入到目标函数AimNet中，目标函数AimNet输出动作a_t，选取动作a_t对应的最大值函数maxQ_t(s_t+1,a_t+1；θ_t)；将上述结果和反馈值r_t带入公式(2)，可得到待拟合Q函数的真实值Q_t+1(s,a)；

(273)计算损失函数LOSE：

LOSE＝(Q_t+1(s,a)-Q_t(s,a；θ))² (4)

5.根据权利要求1所述的基于双神经网络强化学习的自主水下航行器路径规划方法，其特征在于，所述步骤(3)包括以下步骤：

x_r+1＝x_r+v cos(ψ_r+Δψ_r)Δt (5)

y_r+1＝y_r+v sin(ψ_r+Δψ_r)Δt (6)