CN113052372A

CN113052372A - 一种基于深度强化学习的动态auv追踪路径规划方法

Info

Publication number: CN113052372A
Application number: CN202110283966.0A
Authority: CN
Inventors: 赵玉新; 刘延龙; 邓雄; 杨硕; 郝日栩; 赵恒德; 杜登辉; 成小会
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-29
Anticipated expiration: 2041-03-17
Also published as: CN113052372B

Abstract

本发明提供一种基于深度强化学习的动态AUV追踪路径规划方法，通过引入深度强化学习算法，运用航路模型来处理AUV的路径追踪问题。首先对目标和AUV状态分析，判断并选择采用哪种航路进行追踪，建立三种航路模型，用训练好的模型对AUV下一状态进行预测。采用纯方位最小二乘估计法对检测到的目标信号进行运动要素解算，获得目标信息。将目标和AUV运动情况作为状态输入，AUV下一状态的动作和航向作为输出，建立状态——动作映射策略。根据任务要求，选择奖赏函数，AUV每段时间所采取的决策都会获得相应评价。本发明结合深度学习和强化学习的优点，将深度强化学习算法用在AUV路径追踪上，实现了对动态AUV的追踪路径规划。

Description

一种基于深度强化学习的动态AUV追踪路径规划方法

技术领域

本发明涉及一种基于深度强化学习的动态AUV追踪路径规划方法，属于人工智能算法领域。

背景技术

AUV有很大的特点是噪声小，航行在水下，借助于海水的遮盖，隐蔽性很强，进行目标的追踪有得天独厚的优势。海洋环境复杂，有暗礁、有浅滩还可能存在大小不一的岛屿和不易预测的洋流，为保证AUV的航行安全和对目标追踪的准确性，必须对其进行航路规划。路径规划的目的是探索一条能完成任务的最优路径，据环境信息的确定与否可分为全局路径规划和局部路径规划。全局路径规划主要包括：A*算法、网格法、拓扑法等，主要解决环境信息已知的路径规划，局部路径规划包括：基于神经网络方法、粒子群算法、遗传算法等，主要解决环境信息部分已知或者未知的路径规划。

随着机器学习、深度学习和强化学习等人工智能算法的发展，可以实现智能体通过对大量数据的学习获得隐藏的知识。对于AUV的路径规划而言，研究的热点是如何提高其环境自适应力和学习能力。强化学习(Reinforcement Learning,RL)是一种通过数据进行驱动的决策模型，通过智能体与环境进行交互，并在探索中学习进而获得最优策略。此种方法尤其适合条件复杂的优化问题，让智能体通过自学进行探索，有广阔发展空间。

发明内容

本发明的目的是为了实现AUV路径追踪而提供一种提高AUV对环境自适应力和学习能力的深度强化学习方法，可以让AUV通过学习探索而实现对智能体的路径追踪。

本发明的目的是这样实现的：

通过引入深度强化学习(DQN)算法，运用航路模型来处理AUV的路径追踪问题。首先对目标和AUV状态分析，判断并选择采用哪种航路进行追踪，建立三种航路模型，用训练好的模型对AUV下一状态进行预测。采用纯方位最小二乘估计法对检测到的目标信号进行运动要素解算，获得目标信息。将目标和AUV运动情况作为状态输入，AUV下一状态的动作和航向作为输出，建立状态——动作映射策略。根据任务要求，选择奖赏函数，AUV每段时间所采取的决策都会获得相应评价。

一种基于深度强化学习的动态AUV追踪路径规划方法，引入深度强化学习算法，运用航路模型来处理AUV的路径追踪问题，具体包括如下步骤：

步骤1：确定AUV的状态与动作

首先要根据目标方位的变化量，判断AUV转入接近航路、反航路或者是离开航路，在确定完所要转入的航路之后，再通过各自航路的DQN算法，由AUV和追踪目标双方作为深度神经网络的输入，产生相应的决策使计算的目标方位与实际测量方位保持在一定的限度以内,从而使AUV达到很好的追踪效果；

AUV的位置、速度和目标方位的变化为输入的状态变量，AUV的速度大小和航向为输出动作，由当前时刻的位置，通过改变其速度和航向即可获得下一时刻的位置和航向：

步骤2：确定奖赏函数

选择所计算的AUV预测方位与AUV执行动作后的实际方位的误差倒数作为奖赏函数，误差越小，所得到的奖赏值越大，代表对于AUV的控制越好、追踪也越好；

进行奖励时在一定时间内对实际方位与计算方位进行多次地比较，设定一个门限值，超过则认为奖赏值为1，在门限值以内就为0；

设AUV的动作为a_k＝(C_w,k,V_w,k)，k代表的是动作的个数，当j时刻时，会有：

x_m0 cos B_j-y_m0 sin B_j+(t_j-t₀)cos B_jV_mx-(t_j-t₀)sin B_jV_my

＝(x_wj-x_w0)cos B_j-(y_wj-y_w0)-sin B_j

B_j表示当前j时刻的方位观测量，x_wj表示当前j时刻的AUV的位置，所以根据B_j和x_wj就可以进行计算，解算出目标的速度

初始位置

航向

在这解算值的基础上就可以对下一时刻的方位进行预测，公式如下：

存在的方位误差可表示为：

进行门限值的设定，当方位预测误差低于设置的门限值时是有效情况，当连续1～1.5分钟方位误差有效时，则认定为收敛，并对当前时刻进行记录；

设定奖赏函数如下：

利用Q-learning算法对AUV的未来奖励进行估计，并且采用深度强化的神经网络对Q函数进行拟合，这样结合起来就是DQN算法；

AUV在t时刻的状态是s_t，此时选取a_t这个动作进行航行，转换成下一状态s_t+1，获得了r_t+1这个奖励，所以AUV在s_t这一状态时的Q值表示为Q(s_t,a_t)，用下面的公式对Q(s_t,a_t)进行描述：

Q(s_t,a_t)＝r_t+1+γmaxQ(s_t+1,a_t)

在上式中Q(s_t+1,a_t)代表AUV在s_t+1这一状态采取a_t这一动作时所获得的状态——动作Q值，将此时的Q(s_t,a_t)当做AUV采取a_t这一动作的目标值来代替奖赏函数r，其他M-1个动作的目标值为对应的神经网络输出值；

步骤3：建立神经网络

利用深度神经网络来代替状态——动作函数，采用梯度下降法来代替强化学习原本的数据迭代更新，将AUV和目标的运动数据作为神经网络的输入量，然后经过神经网络的前向传播运算，输出得到动作估值，这样就能选择估值最大的最优动作a＝maxQ(s,a,w)来执行；

建立全连接神经网络，输入层为AUV的位置、速度和目标的方位，所以输入层包含6个神经元，有M个神经元在全连接神经网络的输出层，表示输出了M个对于此状态的动作估值，全连接神经网络还包括两个隐藏层；

设定神经网络的两个隐含层使用ReLU激活函数，ReLU激活函数如下式所示：

目标值神经网络与当前值神经网络结构是一样的，初始时，目标值神经网络相对于当前值神经网络有一个延迟，延迟步数为n，当前值网络进行训练n次后目标值神经网络对应于进行数据更新；

步骤4：训练神经网络

通过大量的训练样本对神经网络模型进行参数更新，最终得到训练充足的神经网络模型，然后通过训练好的神经网络对AUV进行局部的路径追踪规划。

所述步骤4具体为：

设定AUV的追踪航行时间，将初始位置作为起点，速度方向为起始方向，AUV从起始点开始航行追踪目标的一定时间作为一个航行周期；

根据AUV在t时刻的当前状态s_t，通过当前值网络就可以对AUV进行计算输出M个动作值，选择最大Q值所对应的动作a_t使AUV航行到下一状态，根据公式就能够求得下一状态AUV的位置坐标和速度；根据t+1时刻AUV所处的位置就能够求得此时AUV的Q函数；通过将AUV s_t+1这一状态作为目标值网络的输入，就能够得到AUV的输出值，再次选取最大值然后与上一步所得的值相加即可获得Q函数值；此时的Q函数值就可作为当前值网络对应动作a_t的目标值；用此种方法就能够通过估计AUV每一个状态的未来奖励值，来解决强化学习中的短视问题；

重复以上步骤，直至达到所设定的时间，一个训练周期就完成了；当一个周期结束后，状态重置，然后进行下一个周期的训练，通过让AVU大量地训练来建立最优的动作选择策略；

当训练次数达到最大时，可根据训练结果判断模型是否训练成功，成功的话就结束训练否则继续训练直至训练完成；采用训练好的模型对AUV进行航路追踪的规划，输入当前时刻AUV所在的位置坐标以及速度和方位还有目标的方位，通过对应的神经网络模型就能够获得AUV采取的M个动作所对应的的输出值，然后自动选择最优动作——Q值最大，进行输出，此时动作为AUV的速度；当AUV执行动作的误差越小时，奖励就越大；这样通过不断获得下一最优动作就能获得AUV的最优航路节点，节点相连就能获得规划好的AUV追踪航路。

与现有技术相比，本发明的有益效果是：

本发明公开了一种基于深度强化学习的动态AUV追踪路径规划的方法。通过引入深度强化学习(DQN)算法，运用航路模型来处理AUV的路径追踪问题。首先对目标和AUV状态分析，判断并选择采用哪种航路进行追踪，建立三种航路模型，用训练好的模型对AUV下一状态进行预测。采用纯方位最小二乘估计法对检测到的目标信号进行运动要素解算，获得目标信息。将目标和AUV运动情况作为状态输入，AUV下一状态的动作和航向作为输出，建立状态——动作映射策略。根据任务要求，选择奖赏函数，AUV每段时间所采取的决策都会获得相应评价。本发明结合深度学习和强化学习的优点，将深度强化学习算法用在AUV路径追踪上，实现了对动态AUV的追踪路径规划。

附图说明

图1是本发明中采用的深度强化学习算法；

图2是本发明中基于深度强化学习的AUV路径追踪流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

本发明通过引入深度强化学习(DQN)算法，运用航路模型来处理AUV的路径追踪问题。首先对目标和AUV状态分析，判断并选择采用哪种航路进行追踪，建立三种航路模型，用训练好的模型对AUV下一状态进行预测。采用纯方位最小二乘估计法对检测到的目标信号进行运动要素解算，获得目标信息。将目标和AUV运动情况作为状态输入，AUV下一状态的动作和航向作为输出，建立状态——动作映射策略。根据任务要求，选择奖赏函数，AUV每段时间所采取的决策都会获得相应评价。

一种基于深度强化学习的动态AUV追踪路径规划。其特征在于，包括以下几个步骤：

步骤1基于DQN的AUV路径规划算法模型框架设计

步骤1.1确定AUV的状态与动作

在整个系统中，首先要根据目标方位的变化量，判断AUV转入接近航路、反航路或者是离开航路，在确定完所要转入的航路之后，再通过各自航路的DQN算法，由AUV和追踪目标双方作为深度神经网络的输入，产生相应的决策使计算的目标方位与实际测量方位保持在一定的限度以内,从而使AUV达到很好的追踪效果。

在强化学习中，智能体通过采取相应的动作来进行状态的改变。在AUV航路规划中，也同样需要确定AUV到达下一个状态时要采取的动作，因此状态变量应该是能反映AUV与目标双方的运动要素。因为可由AUV自身获得其位置、速度等信息，可通过最小二乘法对目标方位的变化进行解算而得到目标速度、目标与AUV之间的距离等信息，所以选择AUV的位置、速度和目标方位的变化为输入的状态变量。

为使系统能形成不断执行下去的闭环，应选择执行后可以对下一状态产生影响的动作为输出。因此选择AUV的速度大小和航向为输出动作，由当前时刻的位置，通过改变其速度和航向即可获得下一时刻的位置和航向：

x_t+1＝x_t+v_t×sin(θ)

y_t+1＝y_t+v_t×cos(θ)

步骤1.2确定奖赏函数

奖励时强化学习中智能体的追求目标。智能体选择的动作会得到环境的“评分”，即为奖励数值，所以奖励就是评判智能体动作的标准，对动作选择的好坏就体现在奖励数值大小上。智能体只有一个目标，就是追求最大化的总奖励值。奖励值表示的是智能体一步或者短时间内的动作好坏，而奖赏函数则是对动作进行长远地评价所制定的一个评价规则。并且奖赏函数的设置不仅影响对动作的评价，还会以此对智能体的学习速度产生影响。并且奖赏函数的设置是强化学习中的重点和关键，一定要按照任务目标选择奖赏函数，这样智能体才能按照预想地进行学习，建立正确的决策，同时对于深度神经网络的训练才能朝着预期变好。

在本系统中，目标是控制AUV按照规定对目标实施追踪，所以选择系统所计算的AUV预测方位与AUV执行动作后的实际方位的误差作为奖赏函数。执行任务时当然是误差越小代表对于AUV的控制越好、追踪也越好，所以设置误差的倒数为本模型的奖赏函数，这样当误差越小时，所得到的奖赏值越大。

将AUV和目标的当前状态作为深度神经网络的输入，输出即为预测的动作，AUV根据此动作进行航行到达下一状态，就可得到新的位置信息，然后利用纯方位最小二乘估计法对所测得的目标方位进行运动要素解算就可得到系统计算的方位。并且进行奖励时不是选取单次误差进行计算而是在一定时间内对实际方位与计算方位进行多次地比较，设定一个门限值，超过则认为奖赏值为1，在门限值以内就为0。

设AUV的动作为a_k＝(C_w,k,V_w,k)，k代表的是动作的个数。当j时刻时，会有：

x_m0 cos B_j-y_m0 sin B_j+(t_j-t₀)cos B_jV_mx-(t_j-t₀)sin B_jV_my

＝(x_wj-x_w0)cos B_j-(y_wj-y_w0)-sin B_j

初始位置

航向

存在的方位误差可表示为：

进行门限值的设定，当方位预测误差低于设置的门限值时是有效情况，当连续1～1.5分钟方位误差有效时，则认定为收敛，并对当前时刻进行记录。

设定奖赏函数如下：

利用Q-learning算法对AUV的未来奖励进行估计，并且采用深度强化的神经网络对Q函数进行拟合，这样结合起来就是DQN算法。

Q(s_t,a_t)＝r_t+1+γmaxQ(s_t+1,a_t)

在上式中Q(s_t+1,a_t)代表AUV在s_t+1这一状态采取a_t这一动作时所获得的状态——动作Q值。将此时的Q(s_t,a_t)当做AUV采取a_t这一动作的目标值来代替奖赏函数r，其他M-1个动作的目标值为对应的神经网络输出值。

步骤1.3建立神经网络

强化学习通过对智能体的大量训练使其获得策略的优化，从而得到状态——动作的最佳映射，对不同的状态能选择出最合适的动作。AUV状态用三个元素表示——s＝[x,y,z]，其中AUV位置坐标(x,y)可以在任务区域的任何一点，速度角度范围在[0,2π]间任意一个角度，假设AUV可采取M个动作，相对应于状态——动作函数的设置任务就很艰巨，对应的矩阵会很大。并且这只是考虑一个AUV的情况下，若将其拓展为AUV群，那么状态空间矩阵将是高维且计算量非常大的，并且训练时间长效果不一定好。所以在本研究中利用深度神经网络来代替状态——动作函数，采用梯度下降法来代替强化学习原本的数据迭代更新。将AUV和目标的运动数据作为神经网络的输入量，然后经过神经网络的前向传播运算，输出得到动作估值，这样就能选择估值最大的最优动作a＝maxQ(s,a,w)来执行。

建立全连接神经网络，输入层为AUV的位置、速度和目标的方位，所以输入层包含6个神经元，有M个神经元在全连接神经网络的输出层，表示输出了M个对于此状态的动作估值，全连接神经网络还包括两个隐藏层。

目标值神经网络与当前值神经网络结构是一样的，初始时，目标值神经网络相对于当前值神经网络有一个延迟，延迟步数为n，当前值网络进行训练n次后目标值神经网络对应于进行数据更新。

步骤1.4训练神经网络

通过大量的训练样本对神经网络模型进行参数更新，最终得到训练充足的神经网络模型，然后通过训练好的神经网络对AUV进行局部的路径追踪规划。设定AUV的追踪航行时间，将初始位置作为起点，速度方向为起始方向，AUV从起始点开始航行追踪目标的一定时间作为一个航行周期。

根据AUV在t时刻的当前状态s_t，通过当前值网络就可以对AUV进行计算输出M个动作值，选择最大Q值所对应的动作a_t使AUV航行到下一状态，根据公式就能够求得下一状态AUV的位置坐标和速度。根据t+1时刻AUV所处的位置就能够求得此时AUV的Q函数。通过将AUV s_t+1这一状态作为目标值网络的输入，就能够得到AUV的输出值，再次选取最大值然后与上一步所得的值相加即可获得Q函数值。此时的Q函数值就可作为当前值网络对应动作a_t的目标值。用此种方法就能够通过估计AUV每一个状态的未来奖励值，来解决强化学习中的短视问题。

重复以上步骤，直至达到所设定的时间，一个训练周期就完成了。当一个周期结束后，状态重置，然后进行下一个周期的训练，通过让AVU大量地训练来建立最优的动作选择策略。

当训练次数达到最大时，可根据训练结果判断模型是否训练成功，成功的话就结束训练否则继续训练直至训练完成。采用训练好的模型对AUV进行航路追踪的规划，输入当前时刻AUV所在的位置坐标以及速度和方位还有目标的方位，通过对应的神经网络模型就能够获得AUV采取的M个动作所对应的的输出值，然后自动选择最优动作——Q值最大，进行输出，此时动作为AUV的速度。当AUV执行动作的误差越小时，奖励就越大。这样通过不断获得下一最优动作就能获得AUV的最优航路节点，节点相连就能获得规划好的AUV追踪航路。

步骤2.基于深度强化学习的AUV路径追踪算法设计。

步骤2.1初始化经验池D(容量为N)，用于储存训练样本。

步骤2.2设状态值函数Q作为预测网络，并随机初始化权重参数θ。

步骤2.3设状态值函数

作为目标网络，初始化权重参数θ^-与θ相同。

步骤2.4设定航路追踪次数为M，即AUV最大的航路追踪次数为M次。

步骤2.5根据当前状态s₁，由神经网络得到动作，即计算φ₁＝φ(s₁)，即在状s₁下获得AUV对应的动作。

步骤2.6根据概率随机选择动作a_t，根据网络计算出当前状态对应动作的Q值，并选择Q值最大的一个动作作为最优动作a_t。注：动作包括速度v和航向α。

步骤2.7AUV执行动作a_t，获得环境反馈(判断是否收敛)的奖励信号r_t(如果不收敛为-1，收敛为1)和下一个网络的输入。

步骤2.8基于新的状态s_t+1＝s_t，x_t+1，根据φ_t+1＝φ(s_t+1)计算下一时间状态得航路。

步骤2.9将获得的状态转换参数(φ_t，a_t，r_t,φ_t+1)存入经验池D中。

步骤2.10AUV从经验池D中随机取出小批量状态相关信息。

步骤2.11计算每一个状态得目标值，AUV通过目标网络

执行动作后的奖励r_j更新Q值。

步骤2.12基于小批量样本采用随机梯度下降算法更新Q网络的权重参数θ。

步骤2.13每经过C次迭代后，更新目标动作值函数

的网络参数θ^-为预测网络得参数θ。

步骤3.基于深度强化学习的路径追踪模型训练过程

步骤3.1首先对记忆池进行初始化，设置其容量即容纳训练样本数为N。对Q神经网络的权值参数初始化，选择随机权值θ来作为其初始权值，对于目标网络的权值θ^-＝θ也进行初始化。对于本研究中的AUV路径追踪问题，将输入状态定义为AUV和目标的运动信息，初始化的起始点状态为s₀，t＝0。

步骤3.2算法通过对应状态选择合适的执行动作a_t，就是让AUV进行环境探索的训练。采用ε贪心策略用概率的形式来对动作进行选择。随机生成数字β，规定当β＞ε的时候，在状态空间A中进行等可能性地对执行动作进行随机选取；当β＜ε的时候，则运用实际Q神经网络根据经验对此次状态的动作进行预测，选取Q值最大的最优动作作为此次的执行动作a_t。由于初始训练时，AUV对环境完全陌生，还未进行探索，所以不宜让其自主选择执行的动作，所以设置ε＝0，采用随机选择的动作来探索环境丰富经验池。

步骤3.3在执行了a_t这一动作后，AUV的状态就会由s_t转变为新的状态s_t+1，然后获得环境所给的反馈r_t这一即时奖励。所以每次决策的执行都会获得(s_t,a_t,r_t,s_t+1)这样一组样本，此样本就会被存储到记忆池中。记忆池是有某确定数值的阈值，所以每增加一组样本就会进行是否到达经验池阈值的判断，若已经到达就开始对模型进行训练，否则继续收集样本。

步骤3.4当开始模型训练时：

第一步，设置batch_size这一数值，然后从记忆池中的样本随机抽取batch_size个作为训练样本的合集；

第二步，对每个样本来说，将s_t+1这一状态作为目标网络的输入，此时网络就会输出所有动作相应的Q(s_t+1，a)值函数，并选取

这一最大值函数对应的那个动作；将s_t这一状态作为Q神经网络的输入，会输出Q_t(s，a；θ)，即a_t这动作对应的Q值函数；将上述的结果加上r_t这一奖赏值一起带入下面的公式，就会获得神经网络代拟合的Q_t+1(s，a)这一真实值，公式如下：

第三步，对神经网络的权值进行更新，通过神经网络逆误差传播这个原理来计算损失函数LOSS＝(Q_t+1(s，a)-Q_t(s，a；θ))²，然后神经网络权值的更新是采用SGD，此时为一次的学习过程，学习次数要记录。在每一次学习结束时，ε同时更新为ε+Δε，通过减少随机探索的概率来更加自主选择最优动作的机会。当学习次数逐渐增加并到达所规定的C值时，目标神经网络的权值θ^-就会更新为当前值函数的神经网络权值θ。

达到训练次数，停止训练，否则重复上述过程。

步骤4基于深度强化学习的AUV路径追踪仿真过程

步骤4.1检测，输入到系统中AUV到追踪目标的方位和距离，然后采用纯方位最小二乘法来对目标进行运动要素解算。此过程中AUV按照方位航路进行航行，期间采用声呐对目标方位进行2次数据采集。

步骤4.2航路选择，结合第一阶段中目标方位变化量，确定AUV追踪目标所采用的航路。

步骤4.3对航路进行训练即选择最优动作，根据所给的AUV的速度、位置和方位以及目标的方位这些信息，输入DQN算法中，进行最优动作的训练然后输出，并控制AUV到达预测位置，实现对于AUV的局部路径追踪规划。

Claims

1.一种基于深度强化学习的动态AUV追踪路径规划方法，其特征在于，引入深度强化学习算法，运用航路模型来处理AUV的路径追踪问题，具体包括如下步骤：

步骤1：确定AUV的状态与动作

步骤2：确定奖赏函数

x_m0cosB_j-y_m0sinB_j+(t_j-t₀)cosB_jV_mx-(t_j-t₀)sinB_jV_my

＝(x_wj-x_w0)cosB_j-(y_wj-y_w0)-sinB_j

初始位置

航向

存在的方位误差可表示为：

设定奖赏函数如下：

Q(s_t,a_t)＝r_t+1+γmaxQ(s_t+1,a_t)

步骤3：建立神经网络

步骤4：训练神经网络

2.根据权利要求1所述的一种基于深度强化学习的动态AUV追踪路径规划方法，其特征在于，所述步骤4具体为：

根据AUV在t时刻的当前状态s_t，通过当前值网络就可以对AUV进行计算输出M个动作值，选择最大Q值所对应的动作a_t使AUV航行到下一状态，根据公式就能够求得下一状态AUV的位置坐标和速度；根据t+1时刻AUV所处的位置就能够求得此时AUV的Q函数；通过将AUVs_t+1这一状态作为目标值网络的输入，就能够得到AUV的输出值，再次选取最大值然后与上一步所得的值相加即可获得Q函数值；此时的Q函数值就可作为当前值网络对应动作a_t的目标值；用此种方法就能够通过估计AUV每一个状态的未来奖励值，来解决强化学习中的短视问题；