CN115493597B

CN115493597B - 一种基于sac算法的auv路径规划控制方法

Info

Publication number: CN115493597B
Application number: CN202211420838.7A
Authority: CN
Inventors: 李沂滨; 张忠铝; 张天泽; 张悦; 孙雨泽
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-04-18
Anticipated expiration: 2042-11-15
Also published as: CN115493597A

Abstract

本发明涉及一种基于SAC算法的AUV路径规划控制方法，属于机器人路径规划技术领域，主要包括在SAC算法中引入动态人工势场法，可以在智能体难以做出决策或者长时间做出无效动作时提供引导作用，也可以避免纯粹人工势场法陷入局部最优的问题，AUV基于结合人工势场法的强化学习SAC算法采取动作并执行动作，使用AUV的声纳搜索障碍物，并将障碍物信息保存到障碍物集合中；在SAC算法中引入启发式函数，用来引导AUV做出正确的动作，以加快强化学习的训练过程，解决稀疏奖励的问题，网络训练完毕后，将环境信息输入到策略网络中，使用策略网络输出的动作控制AUV运动，最终得到规划路径。

Description

一种基于SAC算法的AUV路径规划控制方法

技术领域

本发明涉及一种基于SAC算法的AUV路径规划的连续控制方法，属于机器人路径规划技术领域。

背景技术

随着科技的发展，人类对海洋资源的开发和投入越来越大，海洋拥有丰富的矿产资源、生物资源以及可再生能源，是人类社会可持续发展的重要资产。自主水下航行器（autonomousunderwatervehicle，AUV）作为海洋作业的重要工具，非常适合海上搜索、调查、识别和打捞作业，AUV 路径规划技术的研究与发展使海洋开发进入了一个新的时代。

传统的AUV路径规划方法主要包括以下几种：

（1）基于几何模型搜索的方法，如Dijkstra、A*等，这类方法需要建立运动环境的几何模型，规划出的轨迹不够平滑，难以满足AUV的机动性要求，且每一个新的规划都必须从头开始计算，规划过程不够智能化。

（2）基于虚拟势场的方法，如人工势场法，这类方法所需环境信息少，操作方便，然而，它很容易陷入局部最优。

（3）基于人工智能的方法，如蚁群算法、遗传算法等，这类方法的主要优点是不需要建立复杂的环境障碍物模型，AUV可以在环境空间中进行随机或特定搜索，但在面临复杂的海洋环境时效果较差，且难以完成实时动态规划。

近年来，随着深度学习和强化学习的发展，强化学习在AUV路径规划技术中的应用越来越多。强化学习通过智能体和环境的不断交互来不断优化智能体的策略，相比于传统方法具有更好的路径规划效果，训练出来的智能体具有更好的环境适应性，且可以针对环境信息进行实时路径规划。

然而AUV所处的海洋环境十分复杂，强化学习存在训练过程缓慢、收敛速度慢等问题，且强化学习的奖励往往由人为规定，很难实现理想的环境奖励设置，导致强化学习在训练过程中存在奖励稀疏的问题，即存在智能体长时间得不到有效奖励导致训练速度极慢甚至训练失败的问题。

发明内容

针对现有技术的不足，为了解决上述背景技术中存在的问题，本发明提供一种基于强化学习SAC算法的AUV路径规划方法，并主要对方法进行两个方面的改进：第一是在SAC算法中引入动态人工势场法，可以在智能体难以做出决策或者长时间做出无效动作时提供引导作用，同时SAC算法具有极强的探索能力，可以避免纯粹人工势场法陷入局部最优的问题；第二是在SAC算法中引入启发式函数，以加快强化学习的训练过程，解决稀疏奖励的问题。

本发明的技术方案如下：

本发明一个方面为使用SAC算法结合人工势场法的AUV路径规划方法，包括：

使用基于最大熵随机策略的强化学习算法SAC，该方法基于actor-critic框架，使用策略网络输出随机动作，驱动AUV运动，使用价值网络评判动作的好坏。在训练过程中，设置AUV的声纳搜素范围，在每一步的运动中，将声纳发现的障碍物添加到障碍物集合中，并在一定条件下，根据当前障碍物集合中的障碍物使用人工势场法采取动作，随着训练的进行，调整使用人工势场法的概率。

本发明的第二个方面提供了一种基于启发式函数的奖励函数设计方法，其包括：

对传统奖励函数进行修正，在奖励函数中引入启发式函数，用来引导AUV做出正确的动作，并随着训练的进行，适当调整启发式函数的影响因子，降低启发式函数的影响。

一种基于SAC算法的AUV路径规划控制方法，包含以下步骤：

第一步，建立连续坐标值的二维平面地图，定义环境的奖励函数，初始化相关参数及障碍物集合；

第二步，AUV基于结合人工势场法的强化学习SAC算法采取动作；

第三步，执行第二步计算出的动作，使用AUV的声纳搜索障碍物，并将障碍物信息保存到障碍物集合中；在SAC算法的奖励函数中加入启发式函数，计算启发式奖励；

第四步，进行价值网络和策略网络的更新；

第五步，调整动作选择策略的相关概率及启发函数的启发系数；

第六步，重复执行第二步至第五步，直至达到一定收敛条件为止；

第七步，最后，网络训练完毕后，将环境信息输入到策略网络中，使用策略网络输出的动作控制AUV运动，最终得到规划路径。

优选的，第一步：建立目标点障碍物的环境模型，初始化参数；首先生成1200*800的连续环境地图，设置地图的某一坐标为目标点位置，设置地图另一坐标为AUV起始运动坐标，设置AUV的速度v=(x, y)，其中x为AUV的运动幅度，y为AUV的转动角度，x和y均为连续值；在地图中随机生成n个障碍物，以圆形表示AUV、障碍物和目标点，优选的，其中AUV的半径为20，声纳搜索半径为150，目标点的半径为100，障碍物的半径为范围内随机值。初始化概率参数p1，p2，初始化启发系数，初始化SAC的策略网络和价值网络，初始化障碍物集合D，将每个障碍物的坐标原点添加到障碍物集合中。

优选的，奖励函数最初的奖励定义为：在AUV采取每一步动作后，如果AUV到达了目标点给予奖励值r1，r1>0，如果AUV触碰到了边界给予奖励值r2，r2<0，如果AUV触碰到了障碍物给予奖励值r3，r3<r2<0，其他情况下，给予奖励值0。

优选的，策略网络为一神经网络，输入变量为AUV观测的环境状态，经过线性计算后分别输出动作分布的均值和标准差，AUV根据标准正态分布结合策略网络输出的均值和标准差计算动作；价值网络为另一神经网络，输入变量为AUV观测的环境状态和AUV采取的动作，输出一标量值用来衡量AUV在当前状态采取当前动作的好坏程度，该值越大代表采取的动作越好。

优选的，第二步，计算AUV的动作，策略网络输出动作的均值mean和标准差std，然后生成和动作相同维度的标准正态分布并获取采样值normal，则输出的动作为mean +normal * std；以p1概率采取策略网络输出的动作，以1-p1概率采取其他动作；在采取其他动作的情况下，以p2概率采取人工势场法，以1-p2的概率采取随机动作。

其中人工势场法动作的计算如下：对障碍物集合中的所有障碍物使用式（1）建立斥力势场，使用式（2）计算斥力，

（1）

（2）

其中为斥力系数，为当前点到障碍物的距离，为斥力失效距离，距离超过则斥力为0，为当前点到目标点的距离，为q点所受到的斥力场大小，q为当前所在点的坐标，为q点所受到的斥力大小，其中和分别为q点所受斥力分解为横向x方向和纵向y方向的斥力大小，n为一任意正常数，优选的，这里n取2。

对目标点使用式（3）建立引力势场，使用式（4）计算引力，

（3）

（4）

其中，为q点所受到的斥力场大小，为q点所受到的斥力大小，为引力系数，为当前点到目标点的距离；最后求得引力和所有斥力的合力向量，向量的幅度作为AUV的运动幅度，向量的角度与AUV前一步运动方向的夹角作为AUV的转动角度。

优选的，合力向量的计算为：首先计算出AUV所受的引力和斥力，将引力和斥力分别分解为横向x方向的引力斥力和纵向y方向的引力斥力，再分别求出x方向和y方向的合力，具体为对x方向的所有引力取正值，所有斥力取负值，再累加求和得到x方向的合力，同理对y方向的所有引力取正值，所有斥力取负值，再累加求和得到y方向的合力，最后根据x方向的合力和y方向的合力计算出整体的合力即为AUV当前所受到的合力向量。

优选的，第三步，执行动作，更新障碍物集合并计算奖励；执行第二步计算出来的动作，环境状态自动更新，将AUV声纳范围内的障碍物信息添加到障碍物集合中，计算启发式奖励，更新价值网络和策略网络，其中启发式奖励的计算如式（5）所示，

（5）

其中，为当前的环境奖励，为新的奖励，f为启发式函数，为启发系数，启发系数用来决定奖励函数中启发式奖励所占的比例，为折扣因子，为新的折扣因子，为AUV下一时刻观测到的状态，为AUV当前时刻观测到的状态，为AUV当前时刻采取的动作，为AUV在状态下采取动作后到达状态所获得的启发式奖励的期望值，新的折扣因子降低了奖励函数中未来长期回报的比重，启发函数在奖励函数中增加了以先验知识为指导的奖励；

对于启发式函数f的选择，可以如式（6）所示，

（6）

其中和为正常数，选择AUV声纳范围内最近的障碍物作为目标障碍物，和分别表示当前AUV与目标点和目标障碍物之间的距离，和分别表示前一步AUV与目标点和目标障碍物之间的距离，通过启发式奖励函数，可以引导AUV靠近目标点，同时远离障碍物。

优选的，第四步，更新网络参数；对价值网络使用软贝尔曼方程更新，如式（7）所示，

（7）

其中为温度系数，用来控制策略熵的比重，为t时刻的价值网络输出，为t+1时刻的价值网络输出，为动作的熵，为策略网络，表示t+1时刻在状态下采取动作后所得到的价值网络输出与动作的熵的和的期望，为t时刻的奖励，为奖励的折扣因子；对策略网络更新采用最小化策略与Q函数的KL散度的方式，使策略的分布接近于Q函数的分布，如式（8）所示，

（8）

为新的策略网络，为旧的策略网络，为t时刻的价值网络输出分布，用来规范化分布，它对新的策略网络的梯度没有贡献，计算时可以忽略不计，为策略网络输出分布。

优选的，第五步，更新相关系数；随着训练的进行，策略网络输出的动作越来越准确，障碍物集合中的障碍物信息也越来越多，对于第二步中的动作选择，可以逐渐增大p2的值，根据人工势场法采取动作的概率，同时增大p1的值，增加AUV根据策略网络的采取动作的概率；对于第三步中的启发式函数f，可以逐渐增大启发系数，从而降低启发函数f的比重，增加未来长期回报的比重。

进一步优选的，增大p2的值具体为：设置p2的上限值为h2，初始值为l2，其中0<l2<h2<1，训练的总轮数为n，则每轮训练后，p2增加(h2-l2)/n；增大p1的值具体为，设置p1的上限值为h1，初始值为l1，其中0<l1<h1<1，训练的总轮数为n，则每轮训练后，p1增加(h1-l1)/n；增大启发系数具体为：增大启发系数相当于降低奖励函数中启发式奖励的比例，同理，设置的上限值为，初始值为，其中0<<<1，训练的总轮数为n，则每轮训练后，增加(-)/n。

优选的，收敛条件为：达到最大训练轮数n或者在x轮训练过程中所获得的平均奖励函数的标准差小于，为一正常数，即视为收敛。

本发明的有益效果在于：

本发明的主要技术包含以下两个方面，第一，使用强化学习SAC算法结合人工势场法作为AUV路径规划的动作选择策略，既保证了SAC算法的强探索性，又使用人工势场法加以约束，避免在训练初期难以有效更新网络。其中SAC算法的策略网络作为最终AUV采取动作的方式，人工势场法用来辅助SAC的训练，加快训练的流程，解决稀疏奖励的问题，避免训练时因长时间得不到有效奖励导致网络不能得到很好的更新。同时基于SAC算法的路径规划算法可以实现实时规划，且可以避免陷入局部最优解。第二，在奖励函数中引入启发式算法，考虑AUV在训练过程中与目标点和障碍物之间的距离变化，将变化添加到奖励函数中，降低未来长期回报的比重，进一步提高模型的收敛速度。

附图说明

图1为本发明技术方案的总体流程图；

图2为本发明示例的模拟环境地图示意图；

图3为本发明示例的动作选择流程示意图。

具体实施方式

下面通过实施例并结合附图对本发明做进一步说明，但不限于此。应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

实施例1：

图1为本发明技术方案的总体流程图。以下为本发明技术方案的具体方法步骤：

第一步：建立目标点障碍物的环境模型，初始化参数。参阅图2，首先生成1200*800的连续环境地图，设置地图的右上角坐标为(1100,700)位置为目标点位置，设置地图左下角坐标为(150,150)位置为AUV起始运动坐标，设置AUV的速度v=(x, y)，其中x为AUV的运动幅度，y为AUV的转动角度，x和y均为连续值。在地图中随机生成n个障碍物，示例中设n=8，以圆形表示AUV、障碍物和目标点，其中AUV的半径为20，声纳搜索半径为150，目标点的半径为100，障碍物的半径为范围内随机值，初始化概率参数p1，p2，初始化启发系数，初始化SAC的策略网络和价值网络，初始化障碍物集合D，将坐标原点添加到障碍物集合中。

第二步，计算AUV的动作。参阅图3，策略网络输出动作的均值mean和标准差std，然后生成和动作相同维度的标准正态分布并获取采样值normal，则输出的动作为mean +normal * std；以p1概率采取策略网络输出的动作，以1-p1概率采取其他动作。在采取其他动作的情况下，以p2概率采取人工势场法，以1-p2的概率采取随机动作。其中人工势场法动作的计算如下：对障碍物集合中的所有障碍物使用式（1）建立斥力势场，使用式（2）计算斥力，

（1）

（2）

（3）

（4）

合力向量的计算为：首先计算出AUV所受的引力和斥力，将引力和斥力分别分解为横向x方向的引力斥力和纵向y方向的引力斥力，再分别求出x方向和y方向的合力，具体为对x方向的所有引力取正值，所有斥力取负值，再累加求和得到x方向的合力，同理对y方向的所有引力取正值，所有斥力取负值，再累加求和得到y方向的合力，最后根据x方向的合力和y方向的合力计算出整体的合力即为AUV当前所受到的合力向量。

第三步，执行动作，更新障碍物集合并计算奖励；执行第二步计算出来的动作，更新环境状态（状态由环境自己更新，相当于AUV移动之后所处的状态就改变了，不需要人为干预），将AUV声纳范围内的障碍物信息添加到障碍物集合中，计算启发式奖励，更新价值网络和策略网络，其中启发式奖励的计算如式（5）所示，

（5）

对于启发式函数f的选择，可以如式（6）所示，

（6）

第四步，更新网络参数；对价值网络使用软贝尔曼方程更新，如式（7）所示，

（7）

其中为温度系数，用来控制策略熵的比重。为t时刻的价值网络输出，为t+1时刻的价值网络输出，为动作的熵，为策略网络，表示t+1时刻在状态下采取动作后所得到的价值网络输出与动作的熵的和的期望，为t时刻的奖励，为奖励的折扣因子；对策略网络更新采用最小化策略与Q函数的KL散度的方式，使策略的分布接近于Q函数的分布，如式（8）所示，

（8）

第五步，更新相关系数。随着训练的进行，策略网络输出的动作越来越准确，障碍物集合中的障碍物信息也越来越多，对于第二步中的动作选择，可以逐渐增大p2的值，根据人工势场法采取动作的概率，同时增大p1的值，增加AUV根据策略网络的采取动作的概率。对于第三步中的启发函数f，可以逐渐增大启发系数，从而降低启发函数f的比重，增加未来长期回报的比重。

增大p2的值具体为：设置p2的上限值为h2，初始值为l2，其中0<l2<h2<1，训练的总轮数为n，则每轮训练后，p2增加(h2-l2)/n；增大p1的值具体为，设置p1的上限值为h1，初始值为l1，其中0<l1<h1<1，训练的总轮数为n，则每轮训练后，p1增加(h1-l1)/n；增大启发系数具体为：增大启发系数相当于降低奖励函数中启发式奖励的比例，同理，设置的上限值为，初始值为，其中0<<<1，训练的总轮数为n，则每轮训练后，增加(-)/n。

第六步，重复执行第二步到第五步，直至达到一定收敛条件为止，如：直到训练达到最大训练轮数n或者在x轮训练过程中所获得的平均奖励函数的标准差小于，为一正常数，即视为收敛。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

Claims

1.一种基于SAC算法的AUV路径规划控制方法，其特征在于，包含以下步骤：

第四步，进行价值网络和策略网络的更新；策略网络为一神经网络，输入变量为AUV观测的环境状态，经过线性计算后分别输出动作分布的均值和标准差，AUV根据标准正态分布结合策略网络输出的均值和标准差计算动作；价值网络为另一神经网络，输入变量为AUV观测的环境状态和AUV采取的动作，输出一标量值用来衡量AUV在当前状态采取当前动作的好坏程度，该值越大代表采取的动作越好；

2.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法，其特征在于，第一步，建立连续坐标值的二维平面地图，定义环境的奖励函数，初始化相关参数及障碍物集合，具体包括：建立目标点障碍物的环境模型，初始化参数；首先生成1200*800的连续环境地图，设置地图的某一坐标为目标点位置，设置地图另一坐标为AUV起始运动坐标，设置AUV的速度v=(x,y)，其中x为AUV的运动幅度，y为AUV的转动角度，x和y均为连续值；在地图中随机生成k个障碍物，以圆形表示AUV、障碍物和目标点，初始化概率参数p1，p2，初始化启发系数，初始化SAC的策略网络和价值网络，初始化障碍物集合D，将每个障碍物的坐标点添加到障碍物集合中。

3.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法，其特征在于，第一步中，以圆形表示AUV、障碍物和目标点，设定AUV的半径为20，声纳搜索半径为150，目标点的半径为100，障碍物的半径为范围内随机值。

4.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法，其特征在于，第一步的奖励函数中最初的奖励定义为：在AUV采取每一步动作后，如果AUV到达了目标点给予奖励值r1，r1>0，如果AUV触碰到了边界给予奖励值r2，r2<0，如果AUV触碰到了障碍物给予奖励值r3，r3<r2<0，其他情况下，给予奖励值0。

5.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法，其特征在于，第二步，AUV基于结合人工势场法的强化学习SAC算法采取动作，具体包括：计算AUV的动作，策略网络输出动作的均值mean和标准差std，然后生成和动作相同维度的标准正态分布并获取采样值normal，则输出的动作为mean + normal * std；以p1概率采取策略网络输出的动作，以1-p1概率采取其他动作；在采取其他动作的情况下，以p2概率采取人工势场法，以1-p2的概率采取随机动作；

（1）

（2）

其中为斥力系数，为当前点到障碍物的距离，为斥力失效距离，距离超过则斥力为0，为当前点到目标点的距离，为q点所受到的斥力场大小，q为当前点的坐标，为q点所受到的斥力大小，其中和分别为q点所受斥力分解为横向x方向和纵向y方向的斥力大小，n为一任意正常数；

（3）

（4）

其中，为q点所受到的引力场大小，为q点所受到的引力大小，为引力系数，为当前点到目标点的距离；最后求得引力和所有斥力的合力向量，向量的幅度作为AUV的运动幅度，向量的角度与AUV前一步运动方向的夹角作为AUV的转动角度。

6.根据权利要求5所述的基于SAC算法的AUV路径规划控制方法，其特征在于，第二步中，合力向量的计算为：首先计算出AUV所受的引力和斥力，将引力和斥力分别分解为横向x方向的引力斥力和纵向y方向的引力斥力，再分别求出x方向和y方向的合力，具体为对x方向的所有引力取正值，所有斥力取负值，再累加求和得到x方向的合力，同理对y方向的所有引力取正值，所有斥力取负值，再累加求和得到y方向的合力，最后根据x方向的合力和y方向的合力计算出整体的合力即为AUV当前所受到的合力向量。

7.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法，其特征在于，第三步，执行第二步计算出的动作，使用AUV的声纳搜索障碍物，并将障碍物信息保存到障碍物集合中；在SAC算法的奖励函数中加入启发式函数，计算启发式奖励，具体包括：执行第二步计算出来的动作，环境状态自动更新，将AUV声纳范围内的障碍物信息添加到障碍物集合中，计算启发式奖励，更新价值网络和策略网络，其中启发式奖励的计算如式（5）所示，

（5）

其中，为当前的环境奖励，为新的环境奖励，f为启发式函数，为启发系数，启发系数用来决定奖励函数中启发式奖励所占的比例，为折扣因子，为新的折扣因子，为AUV下一时刻观测到的状态，为AUV当前时刻观测到的状态，为AUV当前时刻采取的动作，为AUV在状态下采取动作后到达状态所获得的启发式奖励的期望值；

启发式函数f如式（6）所示，

（6）

其中和为正常数，选择AUV声纳范围内最近的障碍物作为目标障碍物，和分别表示当前AUV与目标点和目标障碍物之间的距离，和分别表示前一步AUV与目标点和目标障碍物之间的距离。

8.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法，其特征在于，第四步，进行价值网络和策略网络的更新；策略网络为一神经网络，输入变量为AUV观测的环境状态，经过线性计算后分别输出动作分布的均值和标准差，AUV根据标准正态分布结合策略网络输出的均值和标准差计算动作；价值网络为另一神经网络，输入变量为AUV观测的环境状态和AUV采取的动作，输出一标量值用来衡量AUV在当前状态采取当前动作的好坏程度，该值越大代表采取的动作越好，具体包括：更新网络参数；对价值网络使用软贝尔曼方程更新，如式（7）所示，

（7）

其中为温度系数，用来控制动作的熵的比重，为t时刻的价值网络输出，为t+1时刻的价值网络输出，为动作的熵，为策略网络，表示t+1时刻在状态下采取动作后所得到的价值网络输出与动作的熵的和的期望，为t时刻的奖励，为奖励的折扣因子；对策略网络更新采用最小化策略与Q函数的KL散度的方式，使策略的分布接近于Q函数的分布，如式（8）所示，

（8）

9.根据权利要求7所述的基于SAC算法的AUV路径规划控制方法，其特征在于，第五步，调整动作选择策略的相关概率及启发函数的启发系数，具体包括：对于第二步中的动作选择，逐渐增大p2的值，同时增大p1的值，增加AUV根据策略网络的采取动作的概率；对于第三步中的启发式函数f，逐渐增大启发系数；

增大p2的值具体为：设置p2的上限值为h2，初始值为l2，其中0<l2<h2<1，训练的总轮数为m，则每轮训练后，p2增加(h2-l2)/m；增大p1的值具体为，设置p1的上限值为h1，初始值为l1，其中0<l1<h1<1，训练的总轮数为m，则每轮训练后，p1增加(h1-l1)/m；增大启发系数具体为：设置的上限值为，初始值为，其中0<<<1，训练的总轮数为m，则每轮训练后，增加(-)/m。

10.根据权利要求9所述的基于SAC算法的AUV路径规划控制方法，其特征在于，第六步中，重复执行第二步至第五步，直至达到一定收敛条件为止，其中，收敛条件为：达到总轮数m或者在x轮训练过程中所获得的平均奖励函数的标准差小于，为一正常数，即视为收敛。