CN116339316A

CN116339316A - 一种基于深度强化学习的深海采矿机器人路径规划方法

Info

Publication number: CN116339316A
Application number: CN202310101947.0A
Authority: CN
Inventors: 于鑫; 赵洋; 孟兆旭; 王相斌; 陶祎春
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-06-27

Abstract

本发明属于深海采矿机器人的路径规划领域，具体说是一种基于深度强化学习的深海采矿机器人路径规划方法，具体为：构建采矿机器人运动学模型；设计路径规划系统的状态输入；将采矿机器人的动作进行离散化处理，使用贪婪策略的方法进行动作选取；构建路径规划系统，将网络设置成对偶结构，搭建神经网络结构框架；构建记忆库存储交互数据，抽取经验进行学习，使用优先级经验回放技术，增加样本效率；基于任务需求及采矿机器人运动形式，将任务目标分解，设计奖励函数，引导采矿机器人完成路径规划任务，优化行驶路径；搭建虚拟仿真环境，进行训练直至获得最优策略，保存训练好的神经网络参数，将其用于真实环境中，输出规划策略，完成路径规划。

Description

一种基于深度强化学习的深海采矿机器人路径规划方法

技术领域

本发明属于深海采矿机器人的路径规划领域，具体说是一种基于深度强化学习的深海采矿机器人路径规划方法。

背景技术

21世纪以来，陆地上资源储备量不断下降，资源问题日益严重，伴随着科技的不断发展,大洋深海底部各种矿产资源的开发越来越引起科学家们的关注。其中,钴结壳蕴含着珍贵的稀土元素，使其成为最具吸引力的资源之一。深海环境复杂且恶劣，深海履带式采矿机器人因其性能优异,在深海采矿方面扮演着重要的角色。采矿机器人包含着多项系统模块，例如导航定位系统、控制系统、路径规划系统、动力传输系统等，其中路径规划技术是采矿机器人自主、精确和高效地完成深海采矿作业的基础。

目前现有的方法在规划过程中较少考虑采矿机器人的运动特点，规划的结果与任务需求差距较大。同时搜索能力较差，规划的结果容易陷入局部最优，在约束条件较多时，难以找到最优路径。因此如何保证采矿机器人遍历采矿区域范围，增加采集效率，满足采矿任务需求的同时，躲避行驶过程中遭遇的障碍物，确保安全，优化行驶路径，是深海采矿机器人路径规划的核心问题。

发明内容

本发明目的是提供一种基于深度强化学习方法的深海履带式采矿机器人路径规划方法，本发明可以保证采矿机器人充分探索环境，规划的路径可以遍历采矿区域范围，同时躲避行驶过程中遭遇的障碍物，满足采矿机器人的运动特点与任务需求，在实用性和扩展性方面具有明显的优势，收敛速度有了很大的提高，以克服上述现有技术中采矿机器人的缺陷。

本发明为实现上述目的所采用的技术方案是：一种基于深度强化学习的深海采矿机器人路径规划方法，包括以下步骤：

S1：构建采矿机器人运动学模型，并建立采矿机器人的路径规划系统；

建立采矿机器人的路径规划系统：

S2：设置路径规划系统的状态输入信息，在采矿机器人实际运行时，将历史状态输入信息与当前状态输入信息作为整体共同输入到路径规划系统中；

S3-1：将步骤S2中路径规划系统的输出作为采矿机器人的动作，并进行离散化处理，以简化运动过程，完成采矿机器人的动作设计；

S3-2：通过贪婪策略的方法对步骤S3-1中采矿机器人动作进行选取，在训练中，通过调整贪婪系数的大小来优化机器人探索环境的过程；

S4：基于马尔可夫决策过程，构建基于深度强化学习算法的采矿机器人路径规划系统，网络设置成对偶结构，并搭建神经网络结构框架；

S5：构建记忆库存储采矿机器人与环境之间的交互数据，系统通过从记忆库中抽取样本进行学习，从而完成对神经网络权重的更新，利用优先级经验回放技术，优化抽取样本的方式，以增加样本效率；

S6：基于采矿任务需求及采矿机器人运动形式，将路径规划任务目标分解，设计奖励函数，以在训练过程中指导采矿机器人到达导航目标点，同时优化所行驶路径；

S7：基于S1～S6构建的采矿机器人运动学模型及路径规划系统，进行搭建虚拟仿真环境，设置实验相关参数，并进行模型训练；训练结束后，依据实验结果调整系统参数，重复训练过程，直至获得最优策略；保存训练好的神经网络参数，将其用于真实环境中，输出规划策略，最终完成深海采矿机器人路径规划流程。

所述步骤S1，具体为：

采矿机器人在平面的运动形式包括：进退和旋转，则采矿机器人的运动学模型表示为：

其中，u为自身坐标系下的纵向速度，即采矿机器人线速度，w为旋转角速度，u_r,u_l分别为采矿机器人两条履带的速度，当u_r＝u_l，机器人沿直线行驶，当u_r≠u_l时，机器人会由于两履带差速而进行旋转；d代表两条履带之间的宽度，γ是与摩擦系数有关的无量纲参数。

所述状态输入信息，包括：采矿机器人与目标点之间的位置信息p_t、采矿机器人的速度信息v_t以及与障碍物距离信息σ_t∈R^k；

a.其中，采矿机器人与目标点的位置信息p_t代表相对位置信息，即以采矿机器人重心为原点建立极坐标系，目标点所在的位置坐标；

采矿机器人与目标点之间的位置信息

其中，ρ即为极径，即采矿机器人与目标点间的距离，/>

称为极角，/>

即采矿机器人艏向与目标点之间的夹角；

b.采矿机器人的速度信息v_t为：

v_t＝(u,w)∈R²

其中，u为自身坐标系下的纵向速度，即采矿机器人线速度，w为旋转角速度；

c.采矿机器人通过搭载测距声纳或激光来获取与障碍物距离信息，k为声纳的数量。

步骤S2中，所述设置路径规划系统的状态输入信息，具体为：

基于采矿机器人的运动学模型，路径规划系统通过输出线速度与角速度控制采矿机器人的运动过程，将其进行逐一映射，映射关系为：

ob_t＝(p_t,v_t,σ_t)

a_t＝f(ob_t)＝(v,w)∈A²

其中，ob_t为路径规划系统的状态输入信息，即状态空间，包括：p_t、v_t以及σ_t，a_t为路径规划系统的输出，即动作空间，包括：采矿机器人的线速度与角速度；

将状态输入信息ob_t进行归一化处理，同时，将历史状态输入信息ob_t-1与当前状态输入信息ob_t作为整体共同传入路径规划系统中，表示为：

其中，s_t为输入至路径规划系统的状态输入信息的矩阵形式，T代表历史步数。

所述步骤S3-1，具体为：

S3-1：所述采矿机器人的动作，即：路径规划系统输出的采矿机器人的线速度u与角速度w；

将采矿机器人的动作进行离散化处理，采矿机器人的动作设计如下：

且u_t∈(-k₁Δu,k₁Δu)Δu＞0k₁＞0

且w_t∈(-k₂Δw,k₂Δw)Δw＞0k₂＞0

其中，Δu与Δw分别代表线速度与角速度的增量，k₁、k₂代表边界系数；当u_t＞0且w_t＞0时，对于u_t，三种方式分别代表采矿机器人加速、保持当前速度和减速三种情况，对于w_t，三种方式分别代表采矿机器人增加角速度、保持当前角速度、减少角速度的状况；

当u_t＜0且w_t＜0时，对于u_t，三种方式分别代表采矿机器人减速、保持当前速度、加速三种情况，对于w_t，三种方式分别代表采矿机器人减少角速度、保持当前角速度、增加角速度的状况；

初始状态时，采矿机器人的线速度与角速度均为0，在行驶过程中，采矿机器人在每个决策步上仅对三种方式动作情况进行选择；

所述步骤S3-2，具体为：

通过贪婪策略的方法，采矿机器人在选择动作a的过程中，以概率ε，选取Q值最大的动作，以概率1-ε随机选择动作，则该过程表示为：

其中，Q(s,a)表示强化学习中的动作价值函数，

表示寻找具有最大评分的参量，random表示基于动作的随机函数，p代表概率，ε为贪婪系数，ε∈(0,1)；

在训练过程中，ε是动态变化的，即：

其中，ε初始值为0，Δε代表增量值，ε_max代表贪婪系数的最大值；

在训练过程中，每完成N步，贪婪系数进行一次自增，直至增加到最大值ε_max为止；

基于上述方法，通过调整贪婪系数的大小来优化机器人探索环境的过程。

所述步骤S4，具体为：

基于马尔可夫决策过程，构建基于Dueling DQN算法的路径规划系统；将神经网络设置成对偶结构，把动作价值函数Q(s,a)拆分成状态价值函数V(s)与优势函数A(s,a)两部分，即：

Q(s,a)＝V(s)+A(s,a)

其中，A(s,a)表示在某一状态下采取不同动作的优势，即

搭建神经网络结构：

(1)Dueling DQN中存在两个神经网络，分别为估计网络和目标网络；

(2)估计网络用于产生当前状态的Q值；目标网络产生下一步状态的Q值，用于计算对当前值函数的目标估计；

(3)估计网络输出两个分支为：V_η,α(s)和A_η,β(s,a)，二者通过求和获取Q值；其中η，α，β代表神经网络参数，η为状态价值函数和优势函数共享的部分，α和β分别为影响状态价值函数输出的部分和优势函数输出的部分；

(4)目标网络复制估计网络的网络参数，并用

来表示，为降低目标值Q_target与估计值Q_eval的相关性，避免过拟合，设定估计网络每个梯度步都进行更新，而目标网络需要经过设定步数后进行更新一次；

(5)计算神经网络的损失函数，用于网络参数更新，损失函数L表示为：

其中，r代表奖励值，γ代表折扣因子，s,a分别代表当前时刻的状态与动作，s′,a′代表下一时刻的状态与动作，

代表Q_target，Q_η,α,β(s,a)为Q_eval；

(6)对损失函数进行梯度计算：

基于上述梯度值，通过随机梯度下降的方法优化损失函数，进而更新网络参数。

所述步骤S5，具体为：

在训练的过程中，采矿机器人与环境之间每进行一次交互，将所获取的经验数据以四元组(s,a,r,s′)的形式存储于记忆库中，在进行更新时，随机抽取样本进行学习，当记忆库存满后，新的记忆会替换原来的记忆；

使用优先级经验回放技术，改善随机抽取样本的过程，到达目标点的个别经验将会被优先抽取，神经网络学习的过程将被优化；

该方法具体描述为：

S5-1：计算样本的时序差分，即目标值Q_target与估计值Q_eval的差值来确定经验的优先级，对于时序差分越大的样本，其价值越高；定义每组数据的优先级后，经验被抽取的概率与优先级的大小成正比，即优先级越大的经验抽取概率越大，优先级越小的经验被抽取的概率越小；则每个经验被抽取的概率定义为：

其中，P(x)为第x个经验被抽取的概率,p_x代表第x个经验的优先级，α为权重，p_x＝|TD-error|+ξ，ζ为正值，以保证优先级的值大于0；

S5-2：通过sum-tree的树状结构来存储所有经验的优先级，树的根节点是所有经验数据优先级的总和,则进行采样时，具体步骤为：

a)将记忆库的经验数量除以批次大小从而进行分段；

b)在每个区间之间均匀抽取一个随机数p，p的大小在[0,sum]之间；从根节点开始比较，依此向下层顺延；

c)将p和a1进行比较，左子节点的数字即a1>p，则从左侧分支依此向下比较，即将p与b1再进行比较；

d)如果左节点数字小于p即a1<p，则接下来与右侧a2分支进行比较，但p的值要减去左子节点的数值，即p-a1再与b3进行比较，直至找到叶结点，其中所储存的经验即为所抽取的样本。

所述步骤S6，包括以下步骤：

基于任务需求，将规划过程设定为预规划与实际规划两个阶段；预规划的主要任务是确定直线导航目标点与转弯目标点，基于该目标点，将任务分解为机器人直线行驶进行矿物采集与到达采矿区域边缘，转弯到下一采集路径两个过程，从而针对不同任务目标设定奖励函数；

在实际规划阶段，依据预规划所设定的目标点，所规划的路线在完成基本路径规划任务的同时，需要满足机器人在直线导航目标点间行驶时，减少采矿机器人的转动，尽量保持直线行驶；在转弯时按照规定的转弯半径进行旋转，以便顺利到达下一个导航目标点；

因此，奖励函数设置如下：

当采矿机器人到达导航目标点时，获得正向的奖励值r₁；

为避免采矿机器人与障碍物发生碰撞，设置障碍物的安全范围，当采矿机器人与障碍物之间的距离小于安全半径R时，给予其较大的惩罚，即负向的奖励值r₂；

r＝r₂ ifσ_i＜R；

基于欧式距离，设置一个连续性的与目标点距离成反比的奖励函数：

其中，λ_i代表不同奖励项的奖励值权重，(x,y)与(x_goal,y_goal)分别代表机器人与目标点的坐标；

直线航行阶段，为了保持直线航行，则对自身艏向和目标点之间的夹角施加约束，设置奖励项：

当

时，机器人获得正向的奖励值，当/>

时，奖励为负；当/>

时，即机器人的速度方向指向目标位置时，奖励值最大；

因此，在直线阶段，总奖励值定义为：

在转弯阶段，设定一个最优转弯半径

基于该转弯半径设置惩罚项为：

当采矿车的实际转弯半径与最优转弯半径存在差异时，系统将受到惩罚，且差值越小时，所受惩罚越少，基于该惩罚项，机器人可以按照规定的转弯半径进行转弯；

因此转弯阶段的总奖励值定义为：

为使采矿机器人快速完成任务，因此设置与总回合步数成反比的惩罚项：

抵达目标点；

则总的奖励函数设置为：

所述步骤S7，包括以下步骤：

基于构建的采矿机器人模型及路径规划系统，使用Unity3d软件进行可视化的仿真，并基于pytorch搭建神经网络框架；

根据实际海底环境特点，搭建虚拟仿真环境，实验过程中，增加环境随机化的程度，具体为：更改采矿机器人的初始位置与目标点位置，采矿机器人的初始状态，目标点的数量，障碍物的形状大小及位置，以此来训练模型，使系统具有适应不同的环境的能力；

设置实验参数，包括：各奖励值权重、最大训练回合数与步数、折扣因子、学习率、记忆库容量、学习时抽取样本数量大小、网络层数以及神经元数量；

依据所设定的参数及算法流程，开始进行训练，训练结束后，依据实验结果，不断调整系统各参数，重复训练过程，直至采矿机器人能够完成路径规划任务，同时累计折扣奖励值曲线平稳收敛；保存训练好的网络参数，此时规划系统获得最优策略，使采矿机器人具备路径规划的能力；

最终将采矿机器人放入真实环境中，基于传感设备获取状态输入信息，将状态信息输入到训练好的路径规划系统中，系统将状态输入信息映射为决策动作，进而完成路径规划。

本发明具有以下有益效果及优点：

1.本发明提供了一种基于深度强化学习的深海履带式采矿机器人路径规划方法，解决了未知环境搜索困难的问题，通过预规划的方式，设置直线导航目标点和转弯目标点，能够使得采矿机器人遍历采矿区域范围，达到采集率的要求，通过端到端的方式，基于传感器的感知信息，规划系统即可生成避障策略，确保了作业途中的安全。

2.本发明基于Dueling DQN的方法，将网络设置为对偶结构，将状态的价值与执行的动作分离开，机器人可以更加清晰地判断出执行不同动作的差异，从而更好地进行决策。使用优先级经验回放技术提高了样本效率，缩短了训练时间。

3.本发明设计的一整套综合的奖励函数解决了路径规划任务中环境奖励稀疏的问题，同时满足采矿机器人的运动特点及任务需求。

4.本发明与传统的分析方法相比，本发明提出的方法在实用性和扩展性方面具有明显的优势，使用相同的系统，目标和约束可以高度定制，以满足各种特殊需求，收敛速度有了很大的提高，避免了一些没有价值的迭代。

附图说明

图1为本发明的采矿机器人运动坐标系示意图；

图2为本发明的路径规划系统的网络框架；

图3为本发明中sum-tree结构示意图；

图4为本发明中环境训练模型；

图5为本发明的采矿机器人路径规划流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图5所示，为本发明的采矿机器人路径规划流程图，本发明一种基于深度强化学习的深海采矿机器人路径规划方法，包括以下步骤：

建立采矿机器人的路径规划系统：

(1)其中，步骤S1中构建采矿机器人运动学模型，具体包括以下步骤：

S1-1：首先构建采矿机器人的运动学模型，为了简化模型，本实施例中：采矿机器人质量分布均匀，左右对称，质心位于机器人的中纵剖面上，在运动时不存在着横向的滑动。

S1-2：以差速驱动的履带机器人为例，在平面的运动形式可以由进退和旋转两部分组成，其运动坐标参考系如图1所示，采矿机器人的运动学模型可以表示为：

其中，u代表自身坐标系下的纵向速度，即线速度，w代表旋转角速度，u_r,u_l分别代表两条履带的速度，当u_r＝u_l，机器人沿直线行驶，当u_r≠u_l时，机器人会由于两履带差速而进行旋转。d代表两条履带之间的宽度，γ是一个与履带摩擦系数、机器人自身重量、转弯半径等有关的无量纲参数，一般通过试验获得。

S1-3：这样采矿机器人的状态就可以由速度信息(u,w)和在大地坐标系下的位置信息(x,y,θ)来表示，其中(x,y)代表采矿机器人在大地坐标系的坐标，θ代表艏向角。它们之间的关系可以表示为：

S1-4：基于上式，完成了采矿机器人速度信息与大地坐标系下位置信息的转换。本发明只涉及深海采矿机器人路径规划领域，不涉及动力分配，因此规划系统只需要输出采矿机器人自身的线速度u和角速度w即可。

(2)步骤S2中，设计路径规划系统的状态输入信息，具体包括以下步骤：

确定路径规划系统的状态输入信息。采矿机器人路径规划任务的核心是保证机器人在到达目标点的同时躲避障碍物，在实际行驶过程中，系统需要获取外部的环境信息和采矿机器人自身的状态输入信息，然后输出路径规划策略。基于采矿机器人的运动学模型可以得到，路径规划系统通过输出线速度与角速度控制采矿机器人的运动过程，将其进行逐一映射，映射关系为：

ob_t＝(p_t,v_t,σ_t)

a_t＝f(ob_t)＝(v,w)∈A²

其中，ob_t为路径规划系统的状态输入信息，即状态空间，其包括：采矿机器人和目标点的位置信息p_t、采矿机器人的速度信息v_t以及与障碍物的距离信息σ_t，a_t为路径规划系统的输出，即动作空间，包括：采矿机器人的线速度与角速度；

状态输入信息具体解释为：p_t代表相对位置信息，即以采矿机器人重心为原点建立极坐标系，目标点所在的位置坐标。p_t＝(ρ,θ)，ρ即为极径，代表采矿机器人与目标点间的距离，θ称为极角，θ∈[0,2π)，代表采矿机器人艏向与目标点二者之间的夹角，基于此方式，用一个二维数据表示出整个坐标信息，简化了状态输入信息的维度。

采矿机器人的速度v_t为：

v_t＝(u,w)∈R²

采矿机器人通过搭载测距声纳或激光来获取与障碍物距离信息，k为声纳的数量。

进一步地，将状态输入信息ob_t进行归一化处理，从而加快训练速度。为使神经网络更好提取状态输入信息的特征，将历史状态输入信息ob_t-1与当前状态输入信息ob_t作为整体共同传入路径规划系统中，可以表示为：

其中，s_t为输入至路径规划系统的状态输入信息的矩阵形式，T代表历史步数。在本发明中，T设定在较小的范围内，因为T数值的简单改变将引起输入矩阵元素数量成倍的增减，影响训练时间，干扰训练过程。

(3)步骤S3：将路径规划系统的输出，即采矿机器人的动作进行离散化处理。使用贪婪策略的方法进行动作选取，在训练中，通过改变贪婪系数的大小来调整机器人探索-利用环境的过程。

由步骤S2中的映射过程可知，路径规划系统的输出信息为采矿机器人的线速度与角速度。进一步地，将采矿机器人的动作进行离散化处理，因为离散型的动作空间能够简化机器人的运动模型，降低任务难度，提高探索效率。动作设计如下：

式中，Δu与Δw分别代表线速度与角速度的增量，k₁、k₂代表边界系数；方式一、二、三的作用效果与u_t及w_t的正负相关，以当u_t＞0及w_t＞0时为例，对于u_t而言，三种方式分别代表采矿机器人加速、保持当前速度和减速三种情况，而对于w_t来说，三种方式分别代表采矿机器人增加角速度、保持当前角速度、减少角速度的状况；当u_t＜0及w_t＜0时，情况相反，对于u_t，三种方式分别代表采矿机器人减速、保持当前速度、加速三种情况，对于w_t，三种方式分别代表采矿机器人减少角速度、保持当前角速度、增加角速度的状况；

初始状态时采矿机器人的线速度与角速度都为0，在行驶过程中，将它们限制在一定的范围内，防止规划速度超出执行机构的最大性能。基于以上设定，机器人在每个决策步上只需要在三种动作情况上进行选择，简化了运动过程。

进一步地，设置动作选择方式，为使采矿机器人能够充分地探索环境，避免陷入局部最优，同时能够利用所获得的经验。在本发明中，使用贪婪策略(epsilon greedy)的方式，让在机器人在选择动作a的过程中，以概率ε选择Q值最大的动作，而以概率1-ε随机选择动作，该过程可以表示为：

其中，Q(s,a)表示强化学习中的动作价值函数，

表示寻找具有最大评分的参量，random表示基于动作的随机函数，p代表概率，ε为贪婪系数，ε∈(0,1)。

为优化上述过程，在本发明中，机器人在初始阶段，加大对环境的探索，即ε设定的小一些，动作选择时随机化程度高，在训练到一定步数后，系统此时已具备了一定的规划能力，此时加大对Q值的利用，即增大ε。基于上述需求，训练过程中，ε是动态变化的，表示为：

ε初始值为0，Δε代表增量值，ε_max代表贪婪系数的最大值。在训练过程中，每完成N步，贪婪系数进行一次自增，直至增加到最大值ε_max为止。

基于该方法，通过改变贪婪系数的大小来调整机器人探索-利用环境的过程。贪婪策略使得机器人在路径规划过程中具有随机选择动作的能力，可以充分探索环境，避免陷入局部最优，又能够利用已学习到的知识最大化累积奖励。

(4)步骤S4中：基于马尔可夫决策过程，构建基于Dueling DQN算法的采矿机器人路径规划系统，将动作价值函数拆分成状态价值函数与优势函数两部分，搭建神经网络结构框架。

具体步骤为：系统基于马尔可夫决策过程(Markov decision process，MDP)来实现路径规划的目标，该过程可以表示为：机器人根据当前状态选择动作，环境根据动作的优劣给予其正向的奖励或负向的惩罚，系统会根据该奖励值更新动作选择的方式，机器人处于下一状态，将下一状态设定为当前状态，重复上述过程，采矿机器人在与环境的交互中，将最终将朝着累计奖励值最大的状态与动作决策。

在本发明中，使用深度Q学习(Deep Q-learning，DQN)的改进算法，称之为DuelingDQN，将神经网络设置成对偶结构，动作价值函数Q(s,a)拆分成状态价值函数V(s)与优势函数A(s,a)两部分，即：

Q(s,a)＝V(s)+A(s,a) (10)

其中，A(s,a)表示在某一状态下采取不同动作的优势，有

基于该方式，将状态的价值以及在该状态下采取不同动作的价值区分开，更新频率更高、更准确。

如图2所示，为本发明的路径规划系统的网络框架图，本发明搭建神经网络结构，具体步骤如下：

Dueling DQN中存在两个神经网络，分别称为估计网络(Target network)和目标网络(Evaluationnetwork)，估计网络用于产生当前状态的Q值，目标网络产生下一步状态的Q值，用于计算对当前值函数的目标估计。以估计网络为例，输出V_η,α(s)和A_η,β(s,a)两个分支，二者通过求和得到Q值，其中η，α，β代表神经网络参数，η为状态价值函数和优势函数共享的部分，而α和β分别是影响状态价值函数和优势函数输出的部分。

在该结构中，目标网络直接复制估计网络的网络参数，参数用

来表示，但为了降低Q_target与Q_eval的相关性，避免过拟合，提高算法的稳定性，估计网络与目标网络的更新速度不一致，估计网络每个梯度步都进行更新，而目标网络需要经过一定步数后才更新一次。

进一步地，计算神经网络的损失函数，用于网络参数更新，损失函数L表示为：

代表Q_target，Q_η,α,β(s,a)为Q_eval；

对损失函数进行梯度计算：

(5)步骤S5中，构建记忆库存储采矿机器人与环境之间的交互数据，系统通过从记忆库中抽取样本进行学习，从而完成对神经网络权重的更新，利用优先级经验回放技术，优化抽取样本的方式，以增加样本效率。

在训练的过程中，采矿机器人与环境之间每进行一次交互，就会将经验数据以四元组(s,a,r,s′)的形式存储于记忆库中，在进行更新时，随机抽取小批量经验进行学习，当记忆库存满之后，新的记忆会替换原来的记忆。由于抽取样本的过程是随机的，在训练的前期，到达目标点的经验属于极少的个别经验，随机抽取的方式抽到特定经验的概率较小，所以训练时间较长。

在本发明中，使用优先级经验回放技术，来改善抽取样本的过程，神经网络学习的过程将被优化。

该方法具体描述为：

计算TD-error，即Q_target与Q_eval的差值来确定经验的优先级，对于TD-error大的样本，在神经网络训练时，其对梯度更新的影响也大，所以需要被优先训练学习，因此其优先级大。通过这种方式定义了每组数据的优先级后，经验被抽取的概率与优先级的大小成正比，即优先级越大的经验抽取概率越大，优先级越小的经验被抽取的概率越小，因此避免了一些不必要的训练过程，可以准确快速地学习到采矿机器人到达目标点的个别经验。

进一步地，每个经验被抽取的概率定义为：

其中，P(x)为第x个经验被抽取的概率,p_x代表第x个经验的优先级，α为权重，p_x＝|TD-error|+ξ，ζ是一个小的正值，目的是保证优先级的值大于0。

在训练过程中，通过遍历整个记忆库来选择优先级最高的经验的这种方式，会耗费大量的计算资源，效率低下，模型的训练速度慢。在本发明中，使用一种sum-tree的树状结构来存储所有经验的优先级；

如图3所示，为sum-tree的结构示意图。在该结构中，最上面一层称之为根节点，最下面一层称之为叶节点，每个叶节点存储每个经验的优先级。每个分支节点只有两个分支，两个分支的值的和为节点的值。因此，树的根节点是所有经验数据优先级的总和。

进一步地，进行采样时，具体做法如下：

a)将记忆库的经验数量除以批次大小从而进行分段；

(6)步骤S6，具体通过下述步骤实现：

基于采矿任务需求及采矿机器人运动形式，将路径规划任务目标分解，设计奖励函数，以在训练过程中指导采矿机器人到达导航目标点，同时优化所行驶路径，进而完成整个算法流程。

进一步地，在奖励函数设定之前，需要确认任务需求，将任务目标进行分解，从而针对任务目标设定奖励惩罚值，来指导采矿车的运动过程。基于任务需求，将规划过程设定为预规划与实际规划两个阶段；预规划的主要任务是确定直线导航目标点与转弯目标点，基于该目标点，将任务分解为机器人直线行驶进行矿物采集与到达采矿区域边缘，转弯到下一采集路径两个过程，从而针对不同任务目标设定奖励函数；

在进行目标点选取时，依据的原则是：采矿车的运动轨迹要尽可能遍历整个采矿区域，保证采集效率，同时在采矿区域的矩形范围内，增加采矿车直线行驶的时间，减少转弯，因为在转弯时打滑现象较严重，控制难度较高，因此矩形的长边为直线行驶阶段，短边为转弯阶段。

图4为Unity3D软件构建的环境训练模型。绿色为直线导航目标点，当采矿机器人达到矿区边缘时进行转弯，黄色代表转弯目标点，红色物体为行驶过程的障碍物。

因此在本实施例中，奖励函数设置如下：

当采矿机器人到达导航目标点时，获得正向的奖励值r₁；

r＝r₂ ifσ_i＜R (16)

当

时，机器人获得正向的奖励值，当/>

时，奖励为负；当/>

时，即机器人的速度方向指向目标位置时，奖励值最大；

因此，在直线阶段，总奖励值定义为：

在转弯阶段，设定一个最优转弯半径

基于该转弯半径设置惩罚项为：

因此转弯阶段的总奖励值定义为：

抵达目标点；

则总的奖励函数设置为：

综上，算法流程如下：

(7)步骤S7：基于S1～S6构建的采矿机器人运动学模型及路径规划系统，进行搭建虚拟仿真环境，设置实验相关参数，并进行模型训练；训练结束后，依据实验结果调整系统参数，重复训练过程，直至获得最优策略；保存训练好的神经网络参数，将其用于真实环境中，输出规划策略，最终完成深海采矿机器人路径规划流程。

步骤S7具体包括以下步骤：如图5所示，为本发明采矿机器人路径规划流程图，基于构建的采矿机器人模型及路径规划系统，使用Unity3d软件进行可视化的仿真，基于C#语言进行脚本的编写，基于pytorch搭建神经网络框架。

根据实际海底环境特点，搭建虚拟仿真环境，实验过程中，增加环境随机化的程度，具体为：更改采矿机器人的初始位置与目标点位置，采矿机器人的初始状态，目标点的数量，障碍物的形状大小及位置，以此来训练模型，使系统具有适应不同的环境的能力，从而提高采矿机器人的智能性与对不同环境的鲁棒性。

进一步地，设置实验参数，包括：各奖励值权重、最大训练回合数与步数、折扣因子、学习率、记忆库容量、学习时抽取样本数量大小、网络层数以及神经元数量；

最终将采矿机器人放入真实环境中，基于传感设备获取状态输入信息，将状态信息输入到训练好的路径规划系统中，系统将状态输入信息映射为决策动作，对于该系统而言，输出采矿机器人的线速度与角速度，二者作为目标速度与目标角速度传递给控制系统，进行履带的动力分配，最终实现采矿机器人的路径规划与跟踪。

以上所述仅为本发明的实施方式，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进、扩展等，均包含在本发明的保护范围内。

Claims

1.一种基于深度强化学习的深海采矿机器人路径规划方法，其特征在于，包括以下步骤：

建立采矿机器人的路径规划系统：

2.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法，其特征在于，所述步骤S1，具体为：

3.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法，其特征在于，所述状态输入信息，包括：采矿机器人与目标点之间的位置信息p_t、采矿机器人的速度信息v_t以及与障碍物距离信息σ_t∈R^k；

采矿机器人与目标点之间的位置信息

其中，ρ即为极径，即采矿机器人与目标点间的距离，/>

称为极角，/>

即采矿机器人艏向与目标点之间的夹角；

b.采矿机器人的速度信息v_t为：

v_t＝(u,w)∈R²

4.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法，其特征在于，步骤S2中，所述设置路径规划系统的状态输入信息，具体为：

ob_t＝(p_t,v_t,σ_t)

a_t＝f(ob_t)＝(v,w)∈A²

其中，ob_t为路径规划系统的状态输入信息，即状态空间，a_t为路径规划系统的输出，即动作空间，包括：采矿机器人的线速度与角速度；

5.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法，其特征在于，所述步骤S3-1，具体为：

初始状态时，采矿机器人的线速度与角速度均为0，在行驶过程中，采矿机器人在每个决策步上仅对三种方式动作情况进行选择。

6.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法，其特征在于，所述步骤S3-2，具体为：

其中，Q(s,a)表示强化学习中的动作价值函数，argm_aax表示寻找具有最大评分的参量，random表示基于动作的随机函数，p代表概率，ε为贪婪系数，ε∈(0,1)；

在训练过程中，ε是动态变化的，即：

7.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法，其特征在于，所述步骤S4，具体为：

Q(s,a)＝V(s)+A(s,a)

其中，A(s,a)表示在某一状态下采取不同动作的优势，即

搭建神经网络结构：

(4)目标网络复制估计网络的网络参数，并用

代表Q_target，Q_η,α,β(s,a)为Q_eval；

(6)对损失函数进行梯度计算：

8.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法，其特征在于，所述步骤S5，具体为：

该方法具体描述为：

S5-2：通过sum-tree的树状结构来存储所有经验的优先级，树的根节点是所有经验数据优先级的总和，则进行采样时，具体步骤为：

a)将记忆库的经验数量除以批次大小从而进行分段；

9.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法，其特征在于，所述步骤S6，包括以下步骤：

因此，奖励函数设置如下：

当采矿机器人到达导航目标点时，获得正向的奖励值r₁；

r＝r₂ ifσ_i＜R；

当

时，机器人获得正向的奖励值，当/>

时，奖励为负；当

时，即机器人的速度方向指向目标位置时，奖励值最大；

因此，在直线阶段，总奖励值定义为：

在转弯阶段，设定一个最优转弯半径

基于该转弯半径设置惩罚项为：

因此转弯阶段的总奖励值定义为：

if抵达目标点；

则总的奖励函数设置为：

10.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法，其特征在于，所述步骤S7，包括以下步骤：