CN113534668B

CN113534668B - 基于最大熵的演员-评论家框架的auv运动规划方法

Info

Publication number: CN113534668B
Application number: CN202110930108.0A
Authority: CN
Inventors: 孙玉山; 于鑫; 张国成; 罗孝坤; 薛源; 张红星; 柴璞鑫
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2022-06-10
Anticipated expiration: 2041-08-13
Also published as: CN113534668A

Abstract

本发明公开了基于最大熵的演员‑评论家框架的AUV运动规划方法，包括以下步骤：S1：构建AUV操纵性模型；S2：确定AUV的状态空间与动作空间；S3：基于MDP决策过程，提出基于最大熵的强化学习算法，构建神经网络结构，搭建AUV运动规划系统；S4：设置一个综合的奖励函数来评估AUV决策的优劣，指导AUV完成运动规划任务的目标：在躲避障碍物到达目标点的同时，航行路程及所用时间达到最优；S5：通过自交互训练获得最优策略，保存训练好的神经网络参数，将最优策略对应的具体指令传递给下位机，最终实现感知‑规划‑控制的运动规划过程；本发明能够发现到达目标位置的多种策略，在应对各种突发态势时有较好的鲁棒性，且能在多约束的条件下顺利完成指定任务。

Description

基于最大熵的演员-评论家框架的AUV运动规划方法

技术领域

本发明涉及水下机器人的运动规划领域，特别是一种基于最大熵的演员-评论家框架的AUV运动规划方法。

背景技术

伴随着人工智能技术在近现代的不断发展，自主水下机器人(AutonomousUnderwater Vehicle，AUV)凭借其灵活性在海床测绘、海洋监测、水底结构物勘察、收集情报、水下排雷等方面扮演着重要的角色。运动规划技术是AUV能够自主航行、完成各类任务的基础。

AUV运动规划是以全局路径规划为指导，利用传感设备在线得到的局部环境信息，通过控制水下机器人执行机构的输出力(矩)，从而规划出机器人运动过程中的位置、速度及加速度。AUV运动规划作为一个多目标的优化问题，通常来说需要满足两个条件：(1)完整性：在AUV满足各类约束条件时，能够成功规划出一条无碰撞且能到达目标点的路线。(2)最优性：在完成基本的规划任务的同时，使系统规划的路线最短、所用时间最少或是耗能最低，在某些情况下需要指标中的一个或多个达到最优。由于海洋环境的不确定性以及AUV自身的系统动力学约束，加之避障声呐等传感器设备对海洋环境感知的局限性，AUV在航行中运动规划成为十分困难的问题，它不仅关系到远程AUV是否能顺利完成作业使命，还直接关系到AUV自身的安全。

强化学习(Reinforcement Learning，RL)技术在AUV运动规划研究中的应用，可以充分发挥强化学习在无样本学习中的优势。通过自交互训练，可以生成一系列考虑长期影响的决策序列，可以大大提高AUV的鲁棒性和对复杂环境的适应性。

发明内容

为解决现有技术中存在的问题，本发明提供了基于最大熵的演员-评论家框架的AUV运动规划方法，本发明能够发现到达目标位置的多种策略，在应对各种突发态势时有较好的鲁棒性，且能在多约束的条件下顺利完成指定任务。

本发明提供了基于最大熵的演员-评论家框架的AUV运动规划方法，包括以下步骤：

S1：考虑系统的动力学约束，构建AUV操纵性模型；

S2：将运动规划问题公式化，确定AUV的状态空间与动作空间；

S3：基于MDP决策过程，提出基于最大熵的强化学习算法，构建神经网络结构，搭建AUV运动规划系统；

S4：设置一个综合的奖励函数来评估AUV决策的优劣，指导AUV完成运动规划任务的目标：在躲避障碍物到达目标点的同时，使得航行路程及所用时间达到最优；

S5：通过自交互训练获得最优策略，保存训练好的神经网络参数，将最优策略对应的具体指令传递给下位机，最终实现感知-规划-控制的运动规划过程。

优选地，S1的模型为：

其中，R(ψ)是AUV水平运动的三自由度坐标转换矩阵

C(v)代表科氏向心力矩阵，D(v)为AUV所受的水动力阻力矩阵，τ表示控制输入，以欠驱动类型的AUV为例，系统输入数目小于运动自由度数，只需要输出纵向推力与偏航力矩，即：

τ＝[τ_u 0 τ_r]。

优选地，S3包括以下子步骤：

S31：基于马尔可夫决策过程来搭建AUV运动规划系统；

S32：基于最大熵的演员-评论家即SAC的框架，提出本发明中强化学习的训练目标；

S33：构建本发明中系统的神经网络结构。

优选地，S5包括以下子步骤：

S51：基于以上AUV模型及提出的SAC算法，搭建仿真平台；

S52：在训练达到收敛后，保存训练好的神经网络参数，将具体的控制指令传递给下位机来指导AUV的实际航行过程。

本发明基于最大熵的演员-评论家框架的AUV运动规划方法的有益效果如下：

1.SAC是一种离线学习的算法，这意味着该算法可以重用之前的经验进行多次学习更新，以提高AUV的学习效率。

2.该算法的性能对超参数的敏感性低于其他强化学习算法，大大减少了因为调节超参数所耗费的时间。

3.对于确定性策略，策略的分布通常具有很小的方差，其中心靠近导致高回报的特定行为。在SAC的目标函数中，熵的出现会增加策略分布的方差。对于策略来说，分布方差的增加意味着策略有更多不同的动作可供选择。因此，基于本发明的AUV具有较强的环境探索能力，在水下这种复杂多变的环境中也可以寻找到规划的最优解，避免陷入局部最优，且能在多约束的条件下顺利完成指定任务。与其他方法相比，AUV能够发现到达目标位置的多种策略，在应对各种突发态势时有较好的鲁棒性。

4.本发明设计了一个与航行位置、速度、艏向角等有关的综合的奖励函数，可以避免奖励值稀疏的问题。即使AUV在复杂的环境中难以获得终端奖励，在每航行一步的过程中也可以获得奖励或惩罚，可以对AUV的艏向、速度及加速度进行规范，进而影响航行路线，使规划路程和所用时间尽可能达到最优。

附图说明

图1为AUV运动坐标系图。

图2为AUV声纳模型。

图3为马尔可夫决策过程图。

图4为神经网络结构示意图。

图5为奖励值获取流程图。

图6为AUV运动规划过程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

步骤一：考虑系统的动力学约束，构建AUV操纵性模型

首先构建AUV的操纵性模型，本发明仅考虑了AUV的平面运动，AUV的水平面运动可以看作由进退、横移以及偏航三部分运动组成。AUV平面运动参考坐标如图所示，AUV的状态可以由向量v＝[u,v,r]^T和η＝[x,y,ψ]表示，它们分别代表了AUV的速度信息和位置信息，ψ代表了AUV的艏向角，[x,y]是AUV在大地坐标系下的位置，线速度[u,v,r]^T对应AUV自身坐标系下的纵向速度、横向速度和转艏角速度。在这种情况下，AUV的非线性运动方程可以被描述为：

其中，R(ψ)是AUV水平运动的三自由度坐标转换矩阵

惯性矩阵M为附加质量矩阵和刚体自身矩阵的结合，C(v)代表科氏向心力矩阵，D(v)为AUV所受的水动力阻力矩阵。g_η表示重力和浮力所产生的力和力矩，本发明只考虑AUV的平面运动，所以将其忽略。τ表示控制输入，以欠驱动类型的AUV为例，系统输入数目小于运动自由度数，只需要输出纵向推力与偏航力矩，即：

τ＝[τ_u 0 τ_r] (4)

步骤二：将运动规划问题公式化，确定AUV的状态空间与动作空间

接下来需要对AUV运动规划过程进行公式化处理，AUV的运动规划是一个复杂的多约束问题，其基本任务是在到达目标点的同时避开障碍物。在实际运动过程中，需要传感器将环境和自身状态的信息s_t传递给AUV，然后输出规划策略。根据AUV的动力学方程可以看出，推进器输出纵向推力和偏航力矩来控制AUV的航行。因此，本发明提出的端到端AUV运动规划系统将状态信息s_t直接映射到AUV每一时刻的动作a_t＝(τ_u,τ_r)∈A²。可以表示为：

a_t＝(τ_u,τ_r)＝f(s_t)∈A² (5)

s_t＝(x_t,v_t,o_t) (6)

AUV运动规划的输入信息s_t包括目标点和AUV的位置信息x_t、AUV的实际速度信息v_t以及通过避障声纳检测到的障碍物信息o_t。

将运动规划问题公式化后，首先确定AUV的状态空间。位置信息x_t＝(x_d,x_r)∈R³不仅要包含AUV与目标点的距离信息x_d，还要包含它们的相对位置信息x_r：

x_r＝(x_goal-x_AUV,y_goal-y_AUV)∈R² (7)

其中(x_AUV,y_AUV)，(x_goal,y_goal)分别表示AUV和目标点在世界坐标系中的坐标。

其次，从AUV的操纵性方程可以看出，AUV规划的轨迹与其自身的速度有很大关系，因此将其作为观察向量引入到神经网络中。AUV的速度信息可以通过DVL结合惯性导航系统获得，速度信息v_t＝(v_s,v_ψ)∈R⁴应该包括AUV速度的大小v_s以及运动的方向v_ψ。v_s＝(u,v,r)∈R³中包含的信息只包括速度的大小，速度的方向也会影响AUV运动规划任务的成败。可以用以下公式表示速度的方向：

v_ψ＝Angle(u,x_r) (8)

其中u代表AUV的纵向速度向量，x_r代表AUV位置指向目标位置的向量。Angle(u,x_r)表示两个向量之间的角度。

最后，为了使AUV实时避障，需要利用避障声纳获得障碍物的位置信息o_t，声纳的最大探测距离为20m。如图2为AUV传感器模型，AUV共搭载10个避障声纳，因此可以探测到十个方向的障碍物距离信息，o_t∈R¹⁰这是一个10维的状态空间。

下一步，为了使神经网络的收敛速度更快，需要将观察向量的值归一化到范围[-1,+1]或[0,1]。

由于水下环境的不确定性，AUV难免会遇到目标位置不明确、探测设备故障、跟踪目标丢失等情况。这对运动规划任务来说是一个很大的挑战。规划系统收到的部分观察结果通常包含不完整的信息。为了克服这一点，本发明通过“堆叠”的方法向代理提供有限的“记忆”，而无需添加一个复杂的循环神经网络(recurrentneural network，RNN)。堆叠意味着重复上一步的观察结果作为一个更大的观察向量作为神经网络的输入。例如，AUV执行四个步骤，得到的观测向量经过堆叠后的效果如下：

表1观测向量堆叠后的效果

在这里我们设置堆叠的大小为3

通过这种方式，神经网络可以对比前后几次观测值中AUV的行为以及奖赏值发生的变化，以便于神经网络更好提取观测向量的特征。通过AUV前后几步的距离差及速度差等信息变化时奖励值的不同，神经网络可以更好地更新其参数，实现训练目标。

接下来确定AUV的动作空间，由前面可以得到，推进器可以输出的外力只包括纵向推力以及偏航力矩，不包含横向推力。它们可以控制AUV的纵向速度以及转艏角速度，进而改变其运动轨迹。因此，这里描述的运动规划问题的动作空间是一个2维的动作空间。在本发明中，将神经网络输出的动作值控制在(-1,1)之间，而后对其进行简单的线性变换：

τ_u＝clip(-1,1)*20₁+10 (9)

τ_r＝clip(-1,1)*30 (10)

动作向量τ_u∈(-10，30)和τ_r∈(-30,30)是两个浮点数，符号表示力的方向，绝对值表示力和力矩的大小。变换的目的是根据实际物理模型选择合适的动作边界，避免遗漏动作并去除无关动作。τ_u∈(-10，30)目的是对动作输出的减速度施加一定的限制，减少AUV向后的运动状态。

步骤三：基于MDP决策过程，提出基于最大熵的强化学习算法，构建神经网络结构，搭建AUV运动规划系统。

下一步基于马尔可夫决策过程(Markov decisionprocess，MDP)来搭建AUV运动规划系统。如图3所示，在这个过程中，规划系统根据行为的好坏给予AUV一定的奖励值r_t，以此来调整执行每一个动作的概率，AUV将处于下一状态s_t+1。对于深度强化学习来说就是通过调整神经网络的权重w_i来更新策略π_θ，重复以上过程，AUV与环境不断地进行交互，直至得到最优策略

通过一系列的状态-动作序列，AUV可以得到一条完整的光滑轨迹Trajectory＝(s₀,a₀,s₁,a₁,......,s_end)，在这里s_end代表终端状态。

接下来基于最大熵的演员-评论家(SoftActorCritic，SAC)框架，提出本发明中强化学习的训练目标，因为SAC是基于Actor-Critic框架的最大熵强化学习方法，它将策略的熵度量纳入奖励以鼓励探索，训练的目的不仅最大化预期的回报总和，而且最大化策略的熵。因此目标函数定义为：

其中π是更新以找到最大熵增回报的策略。α是温度参数，可以根据回报调节熵项，α越大，策略的随机性越强，H(π(·|s_t))表示熵。

下一步构建本发明中系统的神经网络结构，如图4所示。它与一般的Actor-Critic框架相同。Actor负责执行决策，Critic负责指导Actor的决策是否正确。Actor由一个策略网络组成，在实际过程中输出高斯分布的均值和方差。Critic借用DDQN的思想来减少政策改进步骤中的正偏差。在实际设计过程中，使用了两个软Q函数网络，参数为θ₁，θ₂，更新的目标函数为：

两个Q值中的最小值用于训练策略网络，训练公式为：

同时有两个目标Q网络用于更新Q值函数，它们各自的参数

通过下式进行小幅度的更新：

除了训练软Q函数和策略，通过最小化下式中的目标函数来学习α：

在训练的过程中，AUV与环境之间的不断地交互收集经验，将经验以转换元组的形式即(s_t,a_t,r_t,s_t+1)存储在记忆库D中，然后每次都从记忆库中采样小批量经验。最后，使用随机梯度下降的方法来训练神经网络参数。

本发明中基于最大熵演员-评论家框架的深度强化学习算法流程如下：

步骤四：设置一个综合的奖励函数来评估AUV决策的优劣，指导AUV完成运动规划任务的目标：在躲避障碍物到达目标点的同时，使得航行路程及所用时间达到最优

下一步设置奖励函数，如图5所示为AUV在训练过程中奖励值获取流程图

当AUV到达目标点时获得正的奖励值r₁，回合结束；当AUV碰撞到障碍物时，给予其负的奖励值r₂，同时回合结束，这些统称为终端奖励值；其余情况下，AUV继续航行，即：

但运动规划任务本身为奖励值稀疏的任务，因为能到达目标点的次数在样本中的数量屈指可数，仅依靠终端奖励是不够的，为了鼓励AUV接近目标点，设计了距离奖励项：

在上述公式中，d_old与d_new分别代表上一时刻与当前时刻AUV与目标点的距离，AUV上一时刻与目标点的距离大于当前时刻，则意味着AUV在不断靠近目标点，给予其正向的奖励值，反之给予其负向的惩罚，k₁和k₂分别代表奖励值的权重。实验过程中k₁＞k₂，这样做是为了避免AUV在训练过程中产生异常行为。如果k₁≤k₂，智能体会变得更加“贪婪”，对于AUV来说收益最高的选择不是尽快抵达终点，而是不断重复“靠近-远离”的动作，如此地累加，收益远超过直接抵达目标点的行为，所以k₁＞k₂的目的即为督促AUV尽快到达目标点。

接下来，根据AUV运动规划任务的目标：要设置一个奖励项，鼓励AUV在到达目标点与避障的同时，还要尽可能的使规划的路程和时间最少。但在实际过程想使其全部达到最优是及其困难的，不仅受到环境条件的限制，还要考虑AUV的系统动力学的因素。所以本发明对AUV的运动状态进行如下约束，我们希望AUV在行进过程中，当AUV前方无障碍物阻挡时，AUV艏向方向可以指向目标点，并沿着直线航行，当航行方向准确且固定后，速度u尽可能大一些可以保证快速到达目标点，所以下一步设置了与纵向速度u以及艏向角度有关的奖励项：

r_s＝k₃·|u|·cos(Angle(u,x_r)) (19)

在这里，k₃为奖励值权重，Angle(u,x_r)∈[0,π]为向量u与x_r的夹角，u与x_r具体含义与状态空间中的相同。当两个向量的夹角为

时，奖励为正，且夹角为0时，即AUV的艏向指向目标点时，奖励最大，且随着u的增大而升高，这会鼓励AUV选择合适的速度与艏向角，尽快到达目标点；当夹角为

时，奖励为负，即AUV远离目标点时系统将给予其惩罚。

其次，在AUV实际规划过程中，不鼓励AUV进行长时间的倒退运动，因为此时控制难度高、航行阻力大、推进器效率低，所以设置了一个惩罚项限制这种运动，但有时短暂的倒退可以使AUV运动更加灵活、运行路程短，所以此奖励项的数值应协调好以上问题，既要防止AUV长时间的倒退，又要避免使其丢失这种运动状态，即

r_u＝r₃ if u＜0 (20)

因此最终这个综合性的奖励函数设置为：

步骤五：通过自交互训练获得最优策略，保存训练好的神经网络参数，将策略的具体指令传递给下位机，最终实现感知-规划-控制的运动规划过程

基于以上AUV模型及提出的SAC算法，搭建仿真平台。实验利用Unity软件进行可视化的仿真，基于C#及python语言完成程序的编写，利用torch搭建神经网络，采用GPU对模型进行训练。具体的训练过程为：训练过程中，在每一回合的开始，重置AUV与目标点的位置，AUV的初始位置始终位于坐标系的原点。为了避免AUV仅学会在单一环境的策略，而是可以在多种环境下完成任务，目标点的位置并不是固定不变地，而是随机出现在地图范围内。除了AUV到达目标点或与障碍物碰撞导致的回合终止外，实验为了加快训练，避免AUV在探索过程中陷入死区的状况，还限制了其每回合训练最大步数，当超过此数值时，回合同样结束。

在训练达到收敛后，保存训练好的神经网络参数，将具体的控制指令传递给下位机来指导AUV的实际航行过程。AUV实际的规划过程如图6所示，AUV通过各类传感器获取环境与自身的状态信息，通过观测向量的形式传递给运动规划系统，运动规划系统基于训练好的神经网络模型，将输入的状态信息映射为输出指令，即确定每一时刻状态下最优的动作选择，而后由控制器控制AUV实现航行，最终完成感知-规划-控制的整个过程。在训练期间，AUV与环境之间不断地进行信息交互，策略不断地进行优化调整，最终得到躲避障碍物、到达目标点的最优策略，同时实现AUV对与航行路径、航行速度、艏向角及加速度的规划。本发明基于最大熵强化学习的运动规划系统在训练达到收敛后，基于训练好的策略，AUV不仅可以发现多条到达目标位置的安全路径，而且可以选择使AUV航行最优的速度和加速度控制指令，从而获得最短的航行路径和航行时间，正是因为最大熵强化学习算法的引入，AUV具有了较强的环境探索能力，在水下这种复杂多变的环境中也可以寻找到规划的最优解，且能在多约束的条件下顺利完成指定任务，在遇到突发态势时具有很好的环境鲁棒性和迁移性。