CN112241176B

CN112241176B - 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法

Info

Publication number: CN112241176B
Application number: CN202011109095.2A
Authority: CN
Inventors: 孙玉山; 罗孝坤; 张国成; 冉祥瑞; 柴璞鑫; 薛源; 于鑫; 张红星
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2022-10-28
Anticipated expiration: 2040-10-16
Also published as: CN112241176A

Abstract

本发明是一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法。本发明涉及水下机器人路径避障规划技术领域，本发明建立存在大尺度连续性障碍物模拟训练环境，以避障传感器信息为输入，航行速度和偏航角速度为输出搭建深度强化学习神经网络的状态与动作，针对运动规划避障控制过程的多目标结构，对奖赏函数进行了模块化设计，为了避免稀疏奖励引起系统不稳定，结合人工势场法设置连续性奖励。本发明利用基于改进的深度确定性策略梯度算法，对水下自主航行器进行避障训练，将训练所得到的避障策略写入机器人下位机控制系统；水下自主航行器在水下峡谷中行驶时，利用训练学习到的避障策略进行避障，安全的到达目标区域。

Description

一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法

技术领域

本发明涉及水下机器人路径避障规划技术领域，是一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法。

背景技术

海洋是人类生命的摇篮，其中蕴藏着丰富的能源、生物资源和矿产资源，走向海洋逐渐成为人们的共识，海洋不仅关系到一个国家的兴衰发展，更与人类的生存紧密相连。伴随着海洋开发、海洋军事应用的需要，水下作业技术、作业装备的研究与研发需求日益紧迫。随着人类科技的进步，对海底世界的探索、海洋环境探测和资源调查监测逐渐成为目前海洋工程及海洋科学领域的研究热点课题。目前各国都相近提出由浅海迈向深海发展的战略方针，各个国家的海洋研究机构都把大量人力财力投向，水下自主航行器(水下自主航行器)的研究，因为水下自主航行器(水下自主航行器)是深海世界探索的最重要的手段，它能在水下代替人类完成某一特定任务，它可以搭载不同类型的设备进行水下甚至是海底进行高效率工作。

海洋深处是一种复杂多变的环境，分布着各种山脉，当水下自主航行器到达深海航行时，水下自主航行器面临着大大小小的水下峡谷，坚硬的谷壁等严重威胁着水下自主航行器安全。此外流体的密度和粘性影响着水下自主航行器在水下的运动；海流对水下自主航行器的运动也存在不确定性的干扰。水下自主航行器必须具备很高的自主避障控制能力才能完成深海勘测任务。因此水下自主航行器在水下峡谷中水下自主航行器自主避障研究是水下自主航行器领域重要技术之一。

深度确定性策略梯度算法具有良好的在线自适应性和对非线性系统的学习能力，在人工智能、机器学习和自动控制领域中得到了广泛的研究；将该算法应用于水下自主航行器的控制系统中实现水下自主航行器自主避障功能以提高其环境的自适应性，另外深度确定性策略梯度算法还可以改善其它规划方法的维数灾、规划时间长、精度低等问题，对水下自主航行器的水下峡谷安全航行具有重要的实际意义。

发明内容

本发明为实现水下自主航行器在水下峡谷环境中避开大型连续性静态障碍物岩壁，安全到达目标区域，本发明提供了一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法，本发明提供了以下技术方案：

一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法，包括以下步骤：

步骤1：建立水下自主航行器模型与运动学模型，获取水下机器人周围障碍物的信息；

步骤2：根据水下机器人周围障碍物的信息，在笛卡尔坐标系下建立水下峡谷模拟训练环境，生成避障策略；

步骤3：将生成的避障策略转化为MDP过程，并进行训练得到水下自主航行器连续性障碍物避障MDP模型的状态集；

步骤4：根据状态集进行深度强化学习训练，直至无碰撞到达目标区域，并保存避障策略；

步骤5：将深度强化学习后保存的避障策略，通过数据传输给下位机模块，指导控制模块融合传感器数据信息，实时计算出水下自主航行器偏航角及速度，此时的水下自主航行器偏航角及速度，引导水下自主航行器避开水下峡谷岩壁，并到达目标区域，完成航行任务。

优选地，所述步骤1具体为：

建立水平面3自由度水下自主航行器模型与运动学模型，设置7个避障声呐分别为S_i，其中，i＝1,2,3…7，测距声纳采样频率为2Hz，探测距离为150m，通过避障声呐获取水下机器人周围障碍物的信息；

将水平面3自由度水下自主航行器模型与运动学模型进行简化，简化为等尺度的长方形，并用对称分布在长方形周边的7条虚线，随体坐标系下分布角度依次为θ_i，通过θ_i＝90°,60°,30°,0°,-30°,-60°,90°表示7个避障声呐，通过下式表示水平面3自由度水下自主航行器与运动学模型方程：

υ＝[u,v,r]^T∈R³

其中，

为水下自主航行器大地坐标系下的水平面位置矢量包含水平面位置坐标和偏航角；υ为水下自主航行器在载体下的水平面速度矢量包含水平速度和偏航角速度；R(ψ)为转换矩阵，ψ为水下自主航行器的偏航角；u、v和r分别水下自主航行器在随体坐标系下的水平速度矢量的X轴向分量、Y轴向分量和偏航角速度。

优选地，所述步骤2具体为：

在笛卡尔坐标系下建立水下峡谷模拟训练环境，根据水下机器人周围障碍物的信息在上位机模块的界面及仿真系统模块中建立水下自主航行器水下峡谷环境二维模拟训练环境模型，并且在模拟环境搭建过程需要融合连续性静态障碍物避障方法，

确定水下自主航行器的声呐与连续障碍物表面的探测交点，通过T_i表示水下自主航行器的声呐与连续障碍物表面的探测交点，D_i是水下自主航行器到T点的距离，通过控制D_i≥ρ_s，ρ_s为水下自主航行器最小安全距离，实现水下自主航行器对连续性障碍物进行规避，生成避障策略。

优选地，所述步骤3具体为：

为了进行深度强化学习训练，将生成的避障策略转化为MDP模型，MDP模型由四元组构成，通过下式表示MDP模型：

MDP＝(S,A,P_sa,R)

其中A表示动作集，S表示状态集，P_sa表示状态转移概率，R为奖赏函数；

对MDP模型进行设定，所述MDP模型设定运动规划任务是水平的，有三个自由度；同时将时间作离散化处理，避障系统以采样率为T_S＝0.5s的间隔定期输出，由此水下自主航行器在t时刻接收到状态信息后，输出动作μ_t∈A，产生的t时刻的奖赏值R_t＝f(s_t)，状态变为s_t+1；

Agent输出的动作u_t由策略π决定，策略π为状态s_t映射到每个动作的概率：S→P(A)，得到水下自主航行器大尺度连续性障碍物避障MDP模型的状态集。

优选地，所述步骤4具体为：

步骤4.1：在仿真系统模块中，基于水下自主航行器大尺度连续性障碍物避障MDP模型的状态集，建立仿真试验平台，搭建python编译环境，编写分层强化学习训练模块，利用pyglet库建立水下峡谷海洋环境，建立水下自主航行器运动学模型和障碍物运动学模型，导入利用Python语言编写实现基于SumTree-DDPG的连续性障碍物环境避障控制器，设置水下自主航行器的初始参数及神经网络训练超参数，进行训练；

步骤4.2：进行训练：水下自主航行器在水下峡谷环境中根据初始速度和初始偏航角运动，并且水下自主航行器的7个声呐探测的环境数据作为深度强化学习的状态，当7个声呐探测的范围中没有障碍物，水下自主航行器允许继续学习探索，直到到达目标区域，结束该回合学习；

步骤4.3：当7个声呐探测的范围存在障碍物且探测线的最小距离小于安全距离，表明水下自主航行器与障碍物相撞，该回合结束，回到起点重新开始学习；

不断的循环学习，直到每个回合都是无碰撞到达目标区域而触发的回合结束，此时表明训练收敛，保存学习到的策略。

优选地，所述SumTree-DDPG避障控制器具体实现过程为：

步骤4.1.1：随机初始化评论家网络Q(s,a|θ^Q)和演员网络μ(s|θ^u)的权重参数θ^Q和θ^μ；初始化目标网络Q'和μ'，网络权重参数为θ^Q'←θ^Q,θ^μ'←θ^μ；初始化SumTree并定义容量为H＝φ，记忆库数据存储到达最大容量为len_Max(Data)＝M；设置初始位置为当前状态，到达目标区域为目标状态；

状态空间为水下自主航行器7个避障声呐的实时探测到与障碍物或目标的距离，确定在时刻t的状态，通过下式表示在时刻t的状态：

步骤4.1.2：初始化动作空间，在时刻t定义动作空间为偏航角速度ω(t)和水平速度V(t)，确定a_t,通过下式表示动作集a_t：

训练回合数Ep最大回合数10000初始化为Ep＝1；

步骤4.1.3：Ep回合中时间步t最大时间步2000为初始化t＝1；

步骤4.1.4：在线Actor策略网络根据当前状态s_t策略选择出包含水下自主航行器的偏航角速度及水平速度的动作集，通过下式表示当前状态下动作集：

a_t＝μ(s_t|θ^μ)+N_t；

根据输出的动作

结合水下自主航行器的水平面3自由度的运动学模型，得到微分式，通过下式表示微分式：

其中，

为水下自主航行器大地坐标系下的水平面位置矢量包含水平面位置坐标和偏航角；υ(t)为水下自主航行器在载体下的水平面速度矢量包含水平速度和偏航角速度；R(ψ(t))为转换矩阵；ψ(t)为时间步t时水下自主航行器的偏航角，并且

为ψ(t)对时间步t的微分；u(t)，v(t)，r(t)分别时间步t时水下自主航行器在随体坐标系下的水平速度矢量的X轴向分量、Y轴向分量和偏航角速度；

根据四阶龙格-库塔法求解微分式，得到执行动作后的新位置向量η(t+1)，通过下式表示所述向量：

η(t+1)＝[x(t+1),y(t+1),ψ(t+1)]^T∈R³

由执行动作后的新位置向量转到下一个状态s_t+1，获得即时奖励值r_t；

将四元组(s_t,a_t,r_t,s_t+1)存入SumTree结构H＝φ，当数据存储到达最大容量时，len(Data)＞M，从SumTree容量中H＝φ中依据采样概率

权重ω_k＝(P(k)/min_jP(j))^-β采样小批量的N个经验样本

其中，

表示时间步t时的第k条经验样本，并且k＝1,2,…,N，N为小批量样本总数；

从SumTree容量中采样小批量的N个经验样本

构成数据集，发送给在线策略网络、目标策略网络、在线评价网络和目标评价网络；

根据采样的数据集，目标策略网络根据状态s_t+1输出动作a′_t+1，计算目标Q值，记为y_i，通过下式表示y_i：

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')|θ^Q')；

目标评价网络根据状态s_t+1、目标策略网络输出的动作a′_t+1和目标Q值的y_i，更新损失函数更新评论家在线评价网络参数θ，通过下式进行在线评价:

其中，L为损失函数；

将小批量的N个经验样本结合随机梯度下降法，更新演员网络的策略和在线策略网络参数δ，通过下式进行更新:

其中，

为抽样策略梯度；

根据在线网络参数θ和δ以软更新的形式更新θ'和δ'：

其中τ在线网络参数的权重；

步骤4.1.5：更新SumTree结构中每个节点的优先值，p_k←|δ_j|；

步骤4.1.6：回合数用Ep表示，Ep＝1回合中时间步t＝t+1，重复运行步骤4.1.4到步骤4.1.5；

当在t≤2000时水下自主航行器进行探索过程碰撞障碍物或者到达目标区域转，回合数Ep＝Ep+1，重复运行步骤4.1.3到步骤4.1.6；

当Ep＝10000，水下自主航行器在大尺度连续性障碍物环境训练完成，保存学习后的避障策略。

优选地，即时奖励值r_t具体计算步骤如下；

步骤4.2.1：抗海流干扰稳定性模块奖励值更新r₁(s_t,a_t,s_t+1)←r₁(s_t,a_t,s_t+1)-0.01×(|ω_t+1-ω_t|+|sin(ψ_t-φ)|)，当水下自主航行器从安全区域驶向的下一个状态仍然是安全区域，目标模块奖励值更新

其中，r₁(s_t,a_t,s_t+1)表示时间步t时奖励值r_t的第一个分量抗海流干扰稳定性模块奖励值，式中ω_t、ω_t+1分别为当前时刻与下一时刻水下自主航行器的偏航角速度，ψ_t、φ分别在笛卡尔坐标系下的为水下自主航行器当前时刻的偏航角、水流方向角；r₃(s_t,a_t,s_t+1)表示时间步t时奖励值r_t的第三个分量目标模块奖励值，d₀和d_t分别为在大地坐标系下水下自主航行器的起始点与目标区域中心处距离，以及在大地坐标系下水下自主航行器在时间步t时位置与目标区域中心处距离；

步骤4.2.2：当水下自主航行器从安全区域驶向的下一个状态不是安全区域，安全模块奖励值r₂(s_t,a_t,s_t+1)更新，当不安全区域为碰撞峡谷谷壁，安全模块奖励值更新为：r₂(s_t,a_t,s_t+1)←r₂(s_t,a_t,s_t+1)-R并且重新回到起点探索，结束回合；

否则处于避碰峡谷谷壁的危险区域，当声纳波束探测到水下自主航行器与障碍物距离小于1.5倍安全距离大于安全距离时，对安全模块奖励值进行更新，通过下式进行更新：

r₂(s_t,a_t,s_t+1)←r₂(s_t,a_t,s_t+1)-(D_t-1.5×r_s)²；

其中，r₂(s_t,a_t,s_t+1)表示时间步t时奖励值r_t的第二个分量安全模块奖励值，R为正常数，D_t为时间步t时7个避障声呐探索到水下自主航行器与大尺度连续性障碍物之间的欧氏距离欧式值中最小值，r_s为水下自主航行器的最小安全距离；

步骤4.2.3：当下一个状态是抵达目标区域，目标模块奖励值更新r₃(s_t,a_t,s_t+1)←r₃(s_t,a_t,s_t+1)+R，结束回合；

其中，R为正常数；

步骤4.2.4：结束回合后，得到即时奖励值r_t←r_t+τ₁r₁(s_t,a_t,s_t+1)+τ₂r₂(s_t,a_t,s_t+1)+τ₃r₃(s_t,a_t,s_t+1)；

其中，τ₁、τ₂和τ₃分别表示三个奖励模块的比例系数。

本发明具有以下有益效果：

本发明根据经验样本重要性的不同，结合SumTree结构对样本进行分类存储并不断抽取优质样本，提高了模型收敛速度。DDPG算法采用经验回放的方法，将Agent与环境交互产生的经验样本存放于经验缓冲池中，并从中随机抽取样本用来训练网络。这种随机抽取样本的方法，既没有考虑到不同数据所具有的不同的重要性，又没有充分考虑到被抽取样本应具有的多样性，导致模型收敛较慢。针对这一问题，本发明的样本存储和抽取策略，不同于原生DDPG算法的单个经验缓冲池随机抽取样本方法，而是按照数据重要性采取按优先级抽取的方法，有效提高了模型的收敛速度。

目前多数水下自主航行器路径规划系统都是靠人工在上位机点击选取路径节点的方法规划全局路径，并且不具备实时避障能力，并且面对大尺度连续性障碍物传统的方法也很难实现避障。该系统利用深度强化学习的算法对水下自主航行器进行避障训练，并且通过仿真训练得到的避障策略可以直接通过无线网络写入下位机模块，结合下位机的控制模块输出偏航角、速度实现规避障碍物，到达目标区域。由此该方法不仅具有全局规划能力而且具备实时避障能力。

在仿真系统模块中对水下自主航行器进行避障训练避免了机器人的碰撞损坏，并且通过仿真训练时直接结合了水下自主航行器的运动学模型，由此得到的避障策略可以直接应用于实际的机器人，不需要进行二次动作规划，相对于传统路径规划、动作规划分开的模式，该方法可节省一定的人力物力。

本发明提出的基于SumTree-DDPG算法的大尺度连续性障碍物环境避障控制器对水下自主航行器的连续动作的控制具有良好的鲁棒性，可以改变训练环境模型，将该控制器用于水下自主航行器其他类似控制领域，如：路径跟踪。并且其中的SumTree-DDPG算法不断地择优抽取样本，减少了系统学习时间，提高了学习效率，收敛速度快，该算法也可迁移解决类似的连续控制问题，如：机械臂控制。

针对水下自主航行器路径规划、避障控制运用深度强化学习训练时奖励函数设计困难，该发明通过模块化设计并结合人工势场法处理奖励稀疏问题。本发明的奖励工程同时考虑了障碍物、目标点及海流的因素，可以训练水下自主航行器避开大型连续性障碍物抵达目标点的同时，还考虑了海流等环境因素的干扰。并且奖励工程是模块化设计，本发明可以针对不同需求仅调节比例系数即可实现任务，如将距目标点距离的比例系数调为最大可以保证水下自主航行器人优先考虑到达目标点。

附图说明

图1为水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制系统流程图；

图2为用于水下峡谷航行的水下自主航行器示意图；

图3为水下峡谷避障模型示意图；

图4为SumTree结构图；

图5为基于SumTree-DDPG算法的大尺度连续性障碍物环境避障控制器；

图6为基于某海域的水下峡谷模拟环境仿真训练结果图。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

根据图1至图6所示，本申请提供一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法，包括以下步骤：

所述步骤1具体为：

建立水平面3自由度水下自主航行器模型与运动学模型，设置7个避障声呐分别为S_i，其中，i＝1,2,3…7，测距声纳采样频率为2Hz，探测距离为150m，通过避障声呐获取水下机器人周围障碍物的信息；如附图2所示是用于实现大尺度连续性障碍物环境中行驶的水下自主航行器的实际模型

υ＝[u,v,r]^T∈R³

其中，

该型水下自主航行器有3个推进器一个尾推，2个侧推，可实现水下自主航行器的转艏、前进与后退。为了利于仿真训练，本发明将水下自主航行器简化为长方形，结合水下自主航行器的运动学模型保证了仿真训练系统训练出的策略可直接指导水下自主航行器的实际航行。

所述步骤2具体为：

如附图3所示为在笛卡尔坐标系下水下自主航行器和水下峡谷壁面的几何关系。附图3中黑色粗线部分代表不可穿透的连续障碍物峡谷壁面表面，G表示水下自主航行器的位置，在笛卡尔坐标系下建立水下峡谷模拟训练环境，根据水下机器人周围障碍物的信息在上位机模块的界面及仿真系统模块中建立水下自主航行器水下峡谷环境二维模拟训练环境模型，并且在模拟环境搭建过程需要融合连续性静态障碍物避障方法，

所述步骤3具体为：

为了进行深度强化学习训练，将生成的避障策略转化为MDP模型，MDP模型由四元组构成，如图3所示，通过下式表示MDP模型：

MDP＝(S,A,P_sa,R)

Agent输出的动作u_t由策略π决定，策略π为状态s_t映射到每个动作的概率：S→P(A)，得到水下自主航行器大尺度连续性障碍物避障MDP模型的状态集。水下自主航行器大尺度连续性障碍物避障MDP模型的状态集S如附表1，动作集A如附表2

表1状态集

表2动作集

所述步骤4具体为：

步骤4.1：在仿真系统模块中，基于水下自主航行器大尺度连续性障碍物避障MDP模型的状态集，建立仿真试验平台，搭建python编译环境，编写分层强化学习训练模块，利用pyglet库建立水下峡谷海洋环境，建立水下自主航行器运动学模型和障碍物运动学模型，导入利用Python语言编写实现基于SumTree-DDPG的连续性障碍物环境避障控制器，如附图5所示。设置水下自主航行器的初始参数及神经网络训练超参数，进行训练；

不断的循环学习，直到每个回合都是无碰撞到达目标区域而触发的回合结束，此时表明训练收敛，保存学习到的策略。某海域的水下峡谷模拟环境仿真训练结果图，如附图6所示

优选地，所述SumTree-DDPG避障控制器具体实现过程为：

训练回合数Ep最大回合数10000初始化为Ep＝1；

步骤4.1.3：Ep回合中时间步t最大时间步2000为初始化t＝1；

a_t＝μ(s_t|θ^μ)+N_t；

根据输出的动作

其中，

η(t+1)＝[x(t+1),y(t+1),ψ(t+1)]^T∈R³

即时奖励值r_t具体计算步骤如下；

r₂(s_t,a_t,s_t+1)←r₂(s_t,a_t,s_t+1)-(D_t-1.5×r_s)²；

其中，R为正常数；

其中，τ₁、τ₂和τ₃分别表示三个奖励模块的比例系数。

权重ω_k＝(P(k)/min_jP(j))^-β采样小批量的N个经验样本

其中，

从SumTree容量中采样小批量的N个经验样本

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')|θ^Q')；

其中，L为损失函数；

其中，

为抽样策略梯度；

根据在线网络参数θ和δ以软更新的形式更新θ'和δ'：

其中τ在线网络参数的权重；

步骤4.1.5：更新SumTree结构中每个节点的优先值，p_k←|δ_j|；

具体实施例二：

本发明公开了一种可用于水下自主航行器在有大尺度连续性障碍物(如：水下峡谷环境中岩壁、航道水域、人工运河和渠道环境中墙壁)环境中路径规划避障控制系统。该系统是一个端到端的运动规划系统，并基于深度强化学习算法对策略进行训练学习优化。它以传感器信息为状态输入，水下自主航行器航行速度和偏航角速度为动作输出。该水下自主航行器路径规划避障控制系统主要过程为，首先建立一个存在大尺度连续性障碍物模拟训练环境中，本发明以典型的存在大尺度连续性障碍物的环境：水下峡谷为例进行说明，水下峡谷岩壁视为大尺度连续性静态障碍物。然后以避障传感器信息为输入，航行速度和偏航角速度为输出搭建深度强化学习神经网络的状态与动作，并且针对运动规划避障控制过程的多目标结构，对奖赏函数进行了模块化设计，为了避免稀疏奖励引起系统不为稳定，本发明结合人工势场法设置连续性奖励。本发明还利用基于改进的深度确定性策略梯度算法(本文命名为：SumTree-DDPG)对水下自主航行器进行避障训练，并将训练所得到的避障策略写入机器人下位机控制系统；最后水下自主航行器在水下峡谷中行驶时，可利用训练学习到的避障策略进行避障，最终安全的到达目标区域。

奖励值函数模块设计：在对奖励值函数设计时，根据多目标多约束进行模块化设计，本发明考虑稳定性、安全、目标三个方面。

为了提高水下自主航行器避障系统的鲁棒性，防止控制过程中,艏向转角的抖动,此处引入转艏变化率的影响,以实现平顺的水下自主航行器转艏控制效果。水下自主航行器在航行过程中不可避免地会受到海流的影响。水下自主航行器受到的影响最大侧流，其他方向影响很小，可忽略。因此，考虑系统干扰与外界环境干扰的稳定性模块的奖励值函数设计如式(1)。

式中ω_t、ω_t+1分别为当前时刻与下一时刻水下自主航行器的偏航角速度，ψ_t、φ分别在笛卡尔坐标系下的为水下自主航行器当前时刻的偏航角，水流方向角。

在安全模块方面，本文为了减少训练过程中碰撞障碍物的次数，在传统的碰撞障碍物给与离散的负奖励基础上，引入人工势场法设计出中间奖励，即当声纳波束探测到水下自主航行器与障碍物距离小于1.5倍安全距离即将碰撞时，给与水下自主航行器奖励值f₂(D_t)，函数f₂(D_t)借鉴于斥力函数，表达式如式(2)。如水下自主航行器未逃离非安全区域，碰撞了水下峡谷谷壁，则得到一个负奖励值-R(R为正常数)，整个安全模块的奖励值函数表达式如式(3)。

f₂(D_t)＝-(D_t-1.5×r_s)² (2)

在目标模块中引入人工势场法设计正奖励，使水下机器人更快地找到目标位置。我们设计了以水下机器人当前位置与目标位置的距离为自变量的奖励函数f₃(d_t)，表达式如式(4)，并且当水下机器人当前位置与目标位置的距离小于上一时刻位置与目标位置的距离时，水下机器人将得到对应的正向奖励。如果水下自主航行器到达目标区域，则得到一个正奖励值R(R为正常数)，整个目标模块的奖励值函数表达式如式(5)。

式中d₀、d_t分别为起始点与目标区域中心处距离，以及水下自主航行器当前位置与目标区域中心处距离。

水下自主航行器得到的总奖励值为式(6)。

r(s_t,a_t,s_t+1)＝τ₁r₁(s_t,a_t,s_t+1)+τ₂r₂(s_t,a_t,s_t+1)+τ₃r₃(s_t,a_t,s_t+1) (6)

式中τ₁、τ₂和τ₃分别表示三个奖励模块的比例系数。

奖励函数算法伪代码如算法1所示：

SumTree是一种树形结构，如附图4所示，叶节点内存放样本的优先级P，每个叶节点对应一个索引值，利用索引值，可以实现对应样本的存取。每两个叶节点对应一个上级的父节点，父节点的优先级等于左右两个子节点优先级之和，所以SumTree结构的顶端就是所有P的和。

SumTree-DDPG算法重点就在本发明在batch抽样的时候并不是随机抽样，而是按照Memory中的样本优先级来抽。这能更有效地找到我们需要学习的样本。由于DDPG算法中，策略网络的参数依赖价值网络的选取，而价值网络中的参数由价值网络的损失函数，即目标Q值与现实Q值差值的期望来更新。差值越大，代表网络参数的预测准确度还很远,即该样本更需要被学习，也就是优先级P越高。有了优先级P，本发明使用SumTree结构的方法有效地根据P来抽样。抽样时，本研究首先用根节点的优先级(所有叶节点优先级之和)除以样本数N,将优先级按顺序从0到优先级之和分成N个区间。然后在每个区间里随机取一个数。因为优先级较大的节点也会占据较长的区间，因此被抽到的概率也会较高，这样便达到了优先级取样的目的。每抽到一个叶节点，返回其优先级，及对应的样本池数据。从SumTree结构中采集N个样本

每个样本的采样概率和权重分别如下式(9)、(10)所示。

通过对DDPG的经验池改进，并结合算法1，得到用于水下自主航行器在大尺度连续性障碍物环境中避障仿真训练的算法2。

以上所述仅是一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法的优选实施方式，一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。