CN116339316A - 一种基于深度强化学习的深海采矿机器人路径规划方法 - Google Patents

一种基于深度强化学习的深海采矿机器人路径规划方法 Download PDF

Info

Publication number
CN116339316A
CN116339316A CN202310101947.0A CN202310101947A CN116339316A CN 116339316 A CN116339316 A CN 116339316A CN 202310101947 A CN202310101947 A CN 202310101947A CN 116339316 A CN116339316 A CN 116339316A
Authority
CN
China
Prior art keywords
mining robot
robot
path planning
mining
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310101947.0A
Other languages
English (en)
Inventor
于鑫
赵洋
孟兆旭
王相斌
陶祎春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Automation of CAS
Original Assignee
Shenyang Institute of Automation of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Automation of CAS filed Critical Shenyang Institute of Automation of CAS
Priority to CN202310101947.0A priority Critical patent/CN116339316A/zh
Publication of CN116339316A publication Critical patent/CN116339316A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于深海采矿机器人的路径规划领域,具体说是一种基于深度强化学习的深海采矿机器人路径规划方法,具体为:构建采矿机器人运动学模型;设计路径规划系统的状态输入;将采矿机器人的动作进行离散化处理,使用贪婪策略的方法进行动作选取;构建路径规划系统,将网络设置成对偶结构,搭建神经网络结构框架;构建记忆库存储交互数据,抽取经验进行学习,使用优先级经验回放技术,增加样本效率;基于任务需求及采矿机器人运动形式,将任务目标分解,设计奖励函数,引导采矿机器人完成路径规划任务,优化行驶路径;搭建虚拟仿真环境,进行训练直至获得最优策略,保存训练好的神经网络参数,将其用于真实环境中,输出规划策略,完成路径规划。

Description

一种基于深度强化学习的深海采矿机器人路径规划方法
技术领域
本发明属于深海采矿机器人的路径规划领域,具体说是一种基于深度强化学习的深海采矿机器人路径规划方法。
背景技术
21世纪以来,陆地上资源储备量不断下降,资源问题日益严重,伴随着科技的不断发展,大洋深海底部各种矿产资源的开发越来越引起科学家们的关注。其中,钴结壳蕴含着珍贵的稀土元素,使其成为最具吸引力的资源之一。深海环境复杂且恶劣,深海履带式采矿机器人因其性能优异,在深海采矿方面扮演着重要的角色。采矿机器人包含着多项系统模块,例如导航定位系统、控制系统、路径规划系统、动力传输系统等,其中路径规划技术是采矿机器人自主、精确和高效地完成深海采矿作业的基础。
目前现有的方法在规划过程中较少考虑采矿机器人的运动特点,规划的结果与任务需求差距较大。同时搜索能力较差,规划的结果容易陷入局部最优,在约束条件较多时,难以找到最优路径。因此如何保证采矿机器人遍历采矿区域范围,增加采集效率,满足采矿任务需求的同时,躲避行驶过程中遭遇的障碍物,确保安全,优化行驶路径,是深海采矿机器人路径规划的核心问题。
发明内容
本发明目的是提供一种基于深度强化学习方法的深海履带式采矿机器人路径规划方法,本发明可以保证采矿机器人充分探索环境,规划的路径可以遍历采矿区域范围,同时躲避行驶过程中遭遇的障碍物,满足采矿机器人的运动特点与任务需求,在实用性和扩展性方面具有明显的优势,收敛速度有了很大的提高,以克服上述现有技术中采矿机器人的缺陷。
本发明为实现上述目的所采用的技术方案是:一种基于深度强化学习的深海采矿机器人路径规划方法,包括以下步骤:
S1:构建采矿机器人运动学模型,并建立采矿机器人的路径规划系统;
建立采矿机器人的路径规划系统:
S2:设置路径规划系统的状态输入信息,在采矿机器人实际运行时,将历史状态输入信息与当前状态输入信息作为整体共同输入到路径规划系统中;
S3-1:将步骤S2中路径规划系统的输出作为采矿机器人的动作,并进行离散化处理,以简化运动过程,完成采矿机器人的动作设计;
S3-2:通过贪婪策略的方法对步骤S3-1中采矿机器人动作进行选取,在训练中,通过调整贪婪系数的大小来优化机器人探索环境的过程;
S4:基于马尔可夫决策过程,构建基于深度强化学习算法的采矿机器人路径规划系统,网络设置成对偶结构,并搭建神经网络结构框架;
S5:构建记忆库存储采矿机器人与环境之间的交互数据,系统通过从记忆库中抽取样本进行学习,从而完成对神经网络权重的更新,利用优先级经验回放技术,优化抽取样本的方式,以增加样本效率;
S6:基于采矿任务需求及采矿机器人运动形式,将路径规划任务目标分解,设计奖励函数,以在训练过程中指导采矿机器人到达导航目标点,同时优化所行驶路径;
S7:基于S1~S6构建的采矿机器人运动学模型及路径规划系统,进行搭建虚拟仿真环境,设置实验相关参数,并进行模型训练;训练结束后,依据实验结果调整系统参数,重复训练过程,直至获得最优策略;保存训练好的神经网络参数,将其用于真实环境中,输出规划策略,最终完成深海采矿机器人路径规划流程。
所述步骤S1,具体为:
采矿机器人在平面的运动形式包括:进退和旋转,则采矿机器人的运动学模型表示为:
Figure SMS_1
其中,u为自身坐标系下的纵向速度,即采矿机器人线速度,w为旋转角速度,ur,ul分别为采矿机器人两条履带的速度,当ur=ul,机器人沿直线行驶,当ur≠ul时,机器人会由于两履带差速而进行旋转;d代表两条履带之间的宽度,γ是与摩擦系数有关的无量纲参数。
所述状态输入信息,包括:采矿机器人与目标点之间的位置信息pt、采矿机器人的速度信息vt以及与障碍物距离信息σt∈Rk
a.其中,采矿机器人与目标点的位置信息pt代表相对位置信息,即以采矿机器人重心为原点建立极坐标系,目标点所在的位置坐标;
采矿机器人与目标点之间的位置信息
Figure SMS_2
其中,ρ即为极径,即采矿机器人与目标点间的距离,/>
Figure SMS_3
称为极角,/>
Figure SMS_4
即采矿机器人艏向与目标点之间的夹角;
b.采矿机器人的速度信息vt为:
vt=(u,w)∈R2
其中,u为自身坐标系下的纵向速度,即采矿机器人线速度,w为旋转角速度;
c.采矿机器人通过搭载测距声纳或激光来获取与障碍物距离信息,k为声纳的数量。
步骤S2中,所述设置路径规划系统的状态输入信息,具体为:
基于采矿机器人的运动学模型,路径规划系统通过输出线速度与角速度控制采矿机器人的运动过程,将其进行逐一映射,映射关系为:
obt=(pt,vtt)
at=f(obt)=(v,w)∈A2
其中,obt为路径规划系统的状态输入信息,即状态空间,包括:pt、vt以及σt,at为路径规划系统的输出,即动作空间,包括:采矿机器人的线速度与角速度;
将状态输入信息obt进行归一化处理,同时,将历史状态输入信息obt-1与当前状态输入信息obt作为整体共同传入路径规划系统中,表示为:
Figure SMS_5
其中,st为输入至路径规划系统的状态输入信息的矩阵形式,T代表历史步数。
所述步骤S3-1,具体为:
S3-1:所述采矿机器人的动作,即:路径规划系统输出的采矿机器人的线速度u与角速度w;
将采矿机器人的动作进行离散化处理,采矿机器人的动作设计如下:
Figure SMS_6
且ut∈(-k1Δu,k1Δu)Δu>0k1>0
Figure SMS_7
且wt∈(-k2Δw,k2Δw)Δw>0k2>0
其中,Δu与Δw分别代表线速度与角速度的增量,k1、k2代表边界系数;当ut>0且wt>0时,对于ut,三种方式分别代表采矿机器人加速、保持当前速度和减速三种情况,对于wt,三种方式分别代表采矿机器人增加角速度、保持当前角速度、减少角速度的状况;
当ut<0且wt<0时,对于ut,三种方式分别代表采矿机器人减速、保持当前速度、加速三种情况,对于wt,三种方式分别代表采矿机器人减少角速度、保持当前角速度、增加角速度的状况;
初始状态时,采矿机器人的线速度与角速度均为0,在行驶过程中,采矿机器人在每个决策步上仅对三种方式动作情况进行选择;
所述步骤S3-2,具体为:
通过贪婪策略的方法,采矿机器人在选择动作a的过程中,以概率ε,选取Q值最大的动作,以概率1-ε随机选择动作,则该过程表示为:
Figure SMS_8
其中,Q(s,a)表示强化学习中的动作价值函数,
Figure SMS_9
表示寻找具有最大评分的参量,random表示基于动作的随机函数,p代表概率,ε为贪婪系数,ε∈(0,1);
在训练过程中,ε是动态变化的,即:
Figure SMS_10
其中,ε初始值为0,Δε代表增量值,ε_max代表贪婪系数的最大值;
在训练过程中,每完成N步,贪婪系数进行一次自增,直至增加到最大值ε_max为止;
基于上述方法,通过调整贪婪系数的大小来优化机器人探索环境的过程。
所述步骤S4,具体为:
基于马尔可夫决策过程,构建基于Dueling DQN算法的路径规划系统;将神经网络设置成对偶结构,把动作价值函数Q(s,a)拆分成状态价值函数V(s)与优势函数A(s,a)两部分,即:
Q(s,a)=V(s)+A(s,a)
其中,A(s,a)表示在某一状态下采取不同动作的优势,即
Figure SMS_11
搭建神经网络结构:
(1)Dueling DQN中存在两个神经网络,分别为估计网络和目标网络;
(2)估计网络用于产生当前状态的Q值;目标网络产生下一步状态的Q值,用于计算对当前值函数的目标估计;
(3)估计网络输出两个分支为:Vη,α(s)和Aη,β(s,a),二者通过求和获取Q值;其中η,α,β代表神经网络参数,η为状态价值函数和优势函数共享的部分,α和β分别为影响状态价值函数输出的部分和优势函数输出的部分;
(4)目标网络复制估计网络的网络参数,并用
Figure SMS_12
来表示,为降低目标值Qtarget与估计值Qeval的相关性,避免过拟合,设定估计网络每个梯度步都进行更新,而目标网络需要经过设定步数后进行更新一次;
(5)计算神经网络的损失函数,用于网络参数更新,损失函数L表示为:
Figure SMS_13
其中,r代表奖励值,γ代表折扣因子,s,a分别代表当前时刻的状态与动作,s′,a′代表下一时刻的状态与动作,
Figure SMS_14
代表Qtarget,Qη,α,β(s,a)为Qeval
(6)对损失函数进行梯度计算:
Figure SMS_15
Figure SMS_16
Figure SMS_17
基于上述梯度值,通过随机梯度下降的方法优化损失函数,进而更新网络参数。
所述步骤S5,具体为:
在训练的过程中,采矿机器人与环境之间每进行一次交互,将所获取的经验数据以四元组(s,a,r,s′)的形式存储于记忆库中,在进行更新时,随机抽取样本进行学习,当记忆库存满后,新的记忆会替换原来的记忆;
使用优先级经验回放技术,改善随机抽取样本的过程,到达目标点的个别经验将会被优先抽取,神经网络学习的过程将被优化;
该方法具体描述为:
S5-1:计算样本的时序差分,即目标值Qtarget与估计值Qeval的差值来确定经验的优先级,对于时序差分越大的样本,其价值越高;定义每组数据的优先级后,经验被抽取的概率与优先级的大小成正比,即优先级越大的经验抽取概率越大,优先级越小的经验被抽取的概率越小;则每个经验被抽取的概率定义为:
Figure SMS_18
其中,P(x)为第x个经验被抽取的概率,px代表第x个经验的优先级,α为权重,px=|TD-error|+ξ,ζ为正值,以保证优先级的值大于0;
S5-2:通过sum-tree的树状结构来存储所有经验的优先级,树的根节点是所有经验数据优先级的总和,则进行采样时,具体步骤为:
a)将记忆库的经验数量除以批次大小从而进行分段;
b)在每个区间之间均匀抽取一个随机数p,p的大小在[0,sum]之间;从根节点开始比较,依此向下层顺延;
c)将p和a1进行比较,左子节点的数字即a1>p,则从左侧分支依此向下比较,即将p与b1再进行比较;
d)如果左节点数字小于p即a1<p,则接下来与右侧a2分支进行比较,但p的值要减去左子节点的数值,即p-a1再与b3进行比较,直至找到叶结点,其中所储存的经验即为所抽取的样本。
所述步骤S6,包括以下步骤:
基于任务需求,将规划过程设定为预规划与实际规划两个阶段;预规划的主要任务是确定直线导航目标点与转弯目标点,基于该目标点,将任务分解为机器人直线行驶进行矿物采集与到达采矿区域边缘,转弯到下一采集路径两个过程,从而针对不同任务目标设定奖励函数;
在实际规划阶段,依据预规划所设定的目标点,所规划的路线在完成基本路径规划任务的同时,需要满足机器人在直线导航目标点间行驶时,减少采矿机器人的转动,尽量保持直线行驶;在转弯时按照规定的转弯半径进行旋转,以便顺利到达下一个导航目标点;
因此,奖励函数设置如下:
当采矿机器人到达导航目标点时,获得正向的奖励值r1
为避免采矿机器人与障碍物发生碰撞,设置障碍物的安全范围,当采矿机器人与障碍物之间的距离小于安全半径R时,给予其较大的惩罚,即负向的奖励值r2
r=r2 ifσi<R;
基于欧式距离,设置一个连续性的与目标点距离成反比的奖励函数:
Figure SMS_19
其中,λi代表不同奖励项的奖励值权重,(x,y)与(xgoal,ygoal)分别代表机器人与目标点的坐标;
直线航行阶段,为了保持直线航行,则对自身艏向和目标点之间的夹角施加约束,设置奖励项:
Figure SMS_20
Figure SMS_21
时,机器人获得正向的奖励值,当/>
Figure SMS_22
时,奖励为负;当/>
Figure SMS_23
时,即机器人的速度方向指向目标位置时,奖励值最大;
因此,在直线阶段,总奖励值定义为:
Figure SMS_24
在转弯阶段,设定一个最优转弯半径
Figure SMS_25
基于该转弯半径设置惩罚项为:
Figure SMS_26
当采矿车的实际转弯半径与最优转弯半径存在差异时,系统将受到惩罚,且差值越小时,所受惩罚越少,基于该惩罚项,机器人可以按照规定的转弯半径进行转弯;
因此转弯阶段的总奖励值定义为:
Figure SMS_27
为使采矿机器人快速完成任务,因此设置与总回合步数成反比的惩罚项:
Figure SMS_28
抵达目标点;
则总的奖励函数设置为:
Figure SMS_29
所述步骤S7,包括以下步骤:
基于构建的采矿机器人模型及路径规划系统,使用Unity3d软件进行可视化的仿真,并基于pytorch搭建神经网络框架;
根据实际海底环境特点,搭建虚拟仿真环境,实验过程中,增加环境随机化的程度,具体为:更改采矿机器人的初始位置与目标点位置,采矿机器人的初始状态,目标点的数量,障碍物的形状大小及位置,以此来训练模型,使系统具有适应不同的环境的能力;
设置实验参数,包括:各奖励值权重、最大训练回合数与步数、折扣因子、学习率、记忆库容量、学习时抽取样本数量大小、网络层数以及神经元数量;
依据所设定的参数及算法流程,开始进行训练,训练结束后,依据实验结果,不断调整系统各参数,重复训练过程,直至采矿机器人能够完成路径规划任务,同时累计折扣奖励值曲线平稳收敛;保存训练好的网络参数,此时规划系统获得最优策略,使采矿机器人具备路径规划的能力;
最终将采矿机器人放入真实环境中,基于传感设备获取状态输入信息,将状态信息输入到训练好的路径规划系统中,系统将状态输入信息映射为决策动作,进而完成路径规划。
本发明具有以下有益效果及优点:
1.本发明提供了一种基于深度强化学习的深海履带式采矿机器人路径规划方法,解决了未知环境搜索困难的问题,通过预规划的方式,设置直线导航目标点和转弯目标点,能够使得采矿机器人遍历采矿区域范围,达到采集率的要求,通过端到端的方式,基于传感器的感知信息,规划系统即可生成避障策略,确保了作业途中的安全。
2.本发明基于Dueling DQN的方法,将网络设置为对偶结构,将状态的价值与执行的动作分离开,机器人可以更加清晰地判断出执行不同动作的差异,从而更好地进行决策。使用优先级经验回放技术提高了样本效率,缩短了训练时间。
3.本发明设计的一整套综合的奖励函数解决了路径规划任务中环境奖励稀疏的问题,同时满足采矿机器人的运动特点及任务需求。
4.本发明与传统的分析方法相比,本发明提出的方法在实用性和扩展性方面具有明显的优势,使用相同的系统,目标和约束可以高度定制,以满足各种特殊需求,收敛速度有了很大的提高,避免了一些没有价值的迭代。
附图说明
图1为本发明的采矿机器人运动坐标系示意图;
图2为本发明的路径规划系统的网络框架;
图3为本发明中sum-tree结构示意图;
图4为本发明中环境训练模型;
图5为本发明的采矿机器人路径规划流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图5所示,为本发明的采矿机器人路径规划流程图,本发明一种基于深度强化学习的深海采矿机器人路径规划方法,包括以下步骤:
S1:构建采矿机器人运动学模型,并建立采矿机器人的路径规划系统;
建立采矿机器人的路径规划系统:
S2:设置路径规划系统的状态输入信息,在采矿机器人实际运行时,将历史状态输入信息与当前状态输入信息作为整体共同输入到路径规划系统中;
S3-1:将步骤S2中路径规划系统的输出作为采矿机器人的动作,并进行离散化处理,以简化运动过程,完成采矿机器人的动作设计;
S3-2:通过贪婪策略的方法对步骤S3-1中采矿机器人动作进行选取,在训练中,通过调整贪婪系数的大小来优化机器人探索环境的过程;
S4:基于马尔可夫决策过程,构建基于深度强化学习算法的采矿机器人路径规划系统,网络设置成对偶结构,并搭建神经网络结构框架;
S5:构建记忆库存储采矿机器人与环境之间的交互数据,系统通过从记忆库中抽取样本进行学习,从而完成对神经网络权重的更新,利用优先级经验回放技术,优化抽取样本的方式,以增加样本效率;
S6:基于采矿任务需求及采矿机器人运动形式,将路径规划任务目标分解,设计奖励函数,以在训练过程中指导采矿机器人到达导航目标点,同时优化所行驶路径;
S7:基于S1~S6构建的采矿机器人运动学模型及路径规划系统,进行搭建虚拟仿真环境,设置实验相关参数,并进行模型训练;训练结束后,依据实验结果调整系统参数,重复训练过程,直至获得最优策略;保存训练好的神经网络参数,将其用于真实环境中,输出规划策略,最终完成深海采矿机器人路径规划流程。
(1)其中,步骤S1中构建采矿机器人运动学模型,具体包括以下步骤:
S1-1:首先构建采矿机器人的运动学模型,为了简化模型,本实施例中:采矿机器人质量分布均匀,左右对称,质心位于机器人的中纵剖面上,在运动时不存在着横向的滑动。
S1-2:以差速驱动的履带机器人为例,在平面的运动形式可以由进退和旋转两部分组成,其运动坐标参考系如图1所示,采矿机器人的运动学模型可以表示为:
Figure SMS_30
其中,u代表自身坐标系下的纵向速度,即线速度,w代表旋转角速度,ur,ul分别代表两条履带的速度,当ur=ul,机器人沿直线行驶,当ur≠ul时,机器人会由于两履带差速而进行旋转。d代表两条履带之间的宽度,γ是一个与履带摩擦系数、机器人自身重量、转弯半径等有关的无量纲参数,一般通过试验获得。
S1-3:这样采矿机器人的状态就可以由速度信息(u,w)和在大地坐标系下的位置信息(x,y,θ)来表示,其中(x,y)代表采矿机器人在大地坐标系的坐标,θ代表艏向角。它们之间的关系可以表示为:
Figure SMS_31
S1-4:基于上式,完成了采矿机器人速度信息与大地坐标系下位置信息的转换。本发明只涉及深海采矿机器人路径规划领域,不涉及动力分配,因此规划系统只需要输出采矿机器人自身的线速度u和角速度w即可。
(2)步骤S2中,设计路径规划系统的状态输入信息,具体包括以下步骤:
确定路径规划系统的状态输入信息。采矿机器人路径规划任务的核心是保证机器人在到达目标点的同时躲避障碍物,在实际行驶过程中,系统需要获取外部的环境信息和采矿机器人自身的状态输入信息,然后输出路径规划策略。基于采矿机器人的运动学模型可以得到,路径规划系统通过输出线速度与角速度控制采矿机器人的运动过程,将其进行逐一映射,映射关系为:
obt=(pt,vtt)
at=f(obt)=(v,w)∈A2
其中,obt为路径规划系统的状态输入信息,即状态空间,其包括:采矿机器人和目标点的位置信息pt、采矿机器人的速度信息vt以及与障碍物的距离信息σt,at为路径规划系统的输出,即动作空间,包括:采矿机器人的线速度与角速度;
状态输入信息具体解释为:pt代表相对位置信息,即以采矿机器人重心为原点建立极坐标系,目标点所在的位置坐标。pt=(ρ,θ),ρ即为极径,代表采矿机器人与目标点间的距离,θ称为极角,θ∈[0,2π),代表采矿机器人艏向与目标点二者之间的夹角,基于此方式,用一个二维数据表示出整个坐标信息,简化了状态输入信息的维度。
采矿机器人的速度vt为:
vt=(u,w)∈R2
其中,u为自身坐标系下的纵向速度,即采矿机器人线速度,w为旋转角速度;
采矿机器人通过搭载测距声纳或激光来获取与障碍物距离信息,k为声纳的数量。
进一步地,将状态输入信息obt进行归一化处理,从而加快训练速度。为使神经网络更好提取状态输入信息的特征,将历史状态输入信息obt-1与当前状态输入信息obt作为整体共同传入路径规划系统中,可以表示为:
Figure SMS_32
其中,st为输入至路径规划系统的状态输入信息的矩阵形式,T代表历史步数。在本发明中,T设定在较小的范围内,因为T数值的简单改变将引起输入矩阵元素数量成倍的增减,影响训练时间,干扰训练过程。
(3)步骤S3:将路径规划系统的输出,即采矿机器人的动作进行离散化处理。使用贪婪策略的方法进行动作选取,在训练中,通过改变贪婪系数的大小来调整机器人探索-利用环境的过程。
由步骤S2中的映射过程可知,路径规划系统的输出信息为采矿机器人的线速度与角速度。进一步地,将采矿机器人的动作进行离散化处理,因为离散型的动作空间能够简化机器人的运动模型,降低任务难度,提高探索效率。动作设计如下:
Figure SMS_33
Figure SMS_34
式中,Δu与Δw分别代表线速度与角速度的增量,k1、k2代表边界系数;方式一、二、三的作用效果与ut及wt的正负相关,以当ut>0及wt>0时为例,对于ut而言,三种方式分别代表采矿机器人加速、保持当前速度和减速三种情况,而对于wt来说,三种方式分别代表采矿机器人增加角速度、保持当前角速度、减少角速度的状况;当ut<0及wt<0时,情况相反,对于ut,三种方式分别代表采矿机器人减速、保持当前速度、加速三种情况,对于wt,三种方式分别代表采矿机器人减少角速度、保持当前角速度、增加角速度的状况;
初始状态时采矿机器人的线速度与角速度都为0,在行驶过程中,将它们限制在一定的范围内,防止规划速度超出执行机构的最大性能。基于以上设定,机器人在每个决策步上只需要在三种动作情况上进行选择,简化了运动过程。
进一步地,设置动作选择方式,为使采矿机器人能够充分地探索环境,避免陷入局部最优,同时能够利用所获得的经验。在本发明中,使用贪婪策略(epsilon greedy)的方式,让在机器人在选择动作a的过程中,以概率ε选择Q值最大的动作,而以概率1-ε随机选择动作,该过程可以表示为:
Figure SMS_35
其中,Q(s,a)表示强化学习中的动作价值函数,
Figure SMS_36
表示寻找具有最大评分的参量,random表示基于动作的随机函数,p代表概率,ε为贪婪系数,ε∈(0,1)。
为优化上述过程,在本发明中,机器人在初始阶段,加大对环境的探索,即ε设定的小一些,动作选择时随机化程度高,在训练到一定步数后,系统此时已具备了一定的规划能力,此时加大对Q值的利用,即增大ε。基于上述需求,训练过程中,ε是动态变化的,表示为:
Figure SMS_37
ε初始值为0,Δε代表增量值,ε_max代表贪婪系数的最大值。在训练过程中,每完成N步,贪婪系数进行一次自增,直至增加到最大值ε_max为止。
基于该方法,通过改变贪婪系数的大小来调整机器人探索-利用环境的过程。贪婪策略使得机器人在路径规划过程中具有随机选择动作的能力,可以充分探索环境,避免陷入局部最优,又能够利用已学习到的知识最大化累积奖励。
(4)步骤S4中:基于马尔可夫决策过程,构建基于Dueling DQN算法的采矿机器人路径规划系统,将动作价值函数拆分成状态价值函数与优势函数两部分,搭建神经网络结构框架。
具体步骤为:系统基于马尔可夫决策过程(Markov decision process,MDP)来实现路径规划的目标,该过程可以表示为:机器人根据当前状态选择动作,环境根据动作的优劣给予其正向的奖励或负向的惩罚,系统会根据该奖励值更新动作选择的方式,机器人处于下一状态,将下一状态设定为当前状态,重复上述过程,采矿机器人在与环境的交互中,将最终将朝着累计奖励值最大的状态与动作决策。
在本发明中,使用深度Q学习(Deep Q-learning,DQN)的改进算法,称之为DuelingDQN,将神经网络设置成对偶结构,动作价值函数Q(s,a)拆分成状态价值函数V(s)与优势函数A(s,a)两部分,即:
Q(s,a)=V(s)+A(s,a) (10)
其中,A(s,a)表示在某一状态下采取不同动作的优势,有
Figure SMS_38
基于该方式,将状态的价值以及在该状态下采取不同动作的价值区分开,更新频率更高、更准确。
如图2所示,为本发明的路径规划系统的网络框架图,本发明搭建神经网络结构,具体步骤如下:
Dueling DQN中存在两个神经网络,分别称为估计网络(Target network)和目标网络(Evaluationnetwork),估计网络用于产生当前状态的Q值,目标网络产生下一步状态的Q值,用于计算对当前值函数的目标估计。以估计网络为例,输出Vη,α(s)和Aη,β(s,a)两个分支,二者通过求和得到Q值,其中η,α,β代表神经网络参数,η为状态价值函数和优势函数共享的部分,而α和β分别是影响状态价值函数和优势函数输出的部分。
在该结构中,目标网络直接复制估计网络的网络参数,参数用
Figure SMS_39
来表示,但为了降低Qtarget与Qeval的相关性,避免过拟合,提高算法的稳定性,估计网络与目标网络的更新速度不一致,估计网络每个梯度步都进行更新,而目标网络需要经过一定步数后才更新一次。
进一步地,计算神经网络的损失函数,用于网络参数更新,损失函数L表示为:
Figure SMS_40
其中,r代表奖励值,γ代表折扣因子,s,a分别代表当前时刻的状态与动作,s′,a′代表下一时刻的状态与动作,
Figure SMS_41
代表Qtarget,Qη,α,β(s,a)为Qeval
对损失函数进行梯度计算:
Figure SMS_42
Figure SMS_43
Figure SMS_44
基于上述梯度值,通过随机梯度下降的方法优化损失函数,进而更新网络参数。
(5)步骤S5中,构建记忆库存储采矿机器人与环境之间的交互数据,系统通过从记忆库中抽取样本进行学习,从而完成对神经网络权重的更新,利用优先级经验回放技术,优化抽取样本的方式,以增加样本效率。
在训练的过程中,采矿机器人与环境之间每进行一次交互,就会将经验数据以四元组(s,a,r,s′)的形式存储于记忆库中,在进行更新时,随机抽取小批量经验进行学习,当记忆库存满之后,新的记忆会替换原来的记忆。由于抽取样本的过程是随机的,在训练的前期,到达目标点的经验属于极少的个别经验,随机抽取的方式抽到特定经验的概率较小,所以训练时间较长。
在本发明中,使用优先级经验回放技术,来改善抽取样本的过程,神经网络学习的过程将被优化。
该方法具体描述为:
计算TD-error,即Qtarget与Qeval的差值来确定经验的优先级,对于TD-error大的样本,在神经网络训练时,其对梯度更新的影响也大,所以需要被优先训练学习,因此其优先级大。通过这种方式定义了每组数据的优先级后,经验被抽取的概率与优先级的大小成正比,即优先级越大的经验抽取概率越大,优先级越小的经验被抽取的概率越小,因此避免了一些不必要的训练过程,可以准确快速地学习到采矿机器人到达目标点的个别经验。
进一步地,每个经验被抽取的概率定义为:
Figure SMS_45
其中,P(x)为第x个经验被抽取的概率,px代表第x个经验的优先级,α为权重,px=|TD-error|+ξ,ζ是一个小的正值,目的是保证优先级的值大于0。
在训练过程中,通过遍历整个记忆库来选择优先级最高的经验的这种方式,会耗费大量的计算资源,效率低下,模型的训练速度慢。在本发明中,使用一种sum-tree的树状结构来存储所有经验的优先级;
如图3所示,为sum-tree的结构示意图。在该结构中,最上面一层称之为根节点,最下面一层称之为叶节点,每个叶节点存储每个经验的优先级。每个分支节点只有两个分支,两个分支的值的和为节点的值。因此,树的根节点是所有经验数据优先级的总和。
进一步地,进行采样时,具体做法如下:
a)将记忆库的经验数量除以批次大小从而进行分段;
b)在每个区间之间均匀抽取一个随机数p,p的大小在[0,sum]之间;从根节点开始比较,依此向下层顺延;
c)将p和a1进行比较,左子节点的数字即a1>p,则从左侧分支依此向下比较,即将p与b1再进行比较;
d)如果左节点数字小于p即a1<p,则接下来与右侧a2分支进行比较,但p的值要减去左子节点的数值,即p-a1再与b3进行比较,直至找到叶结点,其中所储存的经验即为所抽取的样本。
(6)步骤S6,具体通过下述步骤实现:
基于采矿任务需求及采矿机器人运动形式,将路径规划任务目标分解,设计奖励函数,以在训练过程中指导采矿机器人到达导航目标点,同时优化所行驶路径,进而完成整个算法流程。
进一步地,在奖励函数设定之前,需要确认任务需求,将任务目标进行分解,从而针对任务目标设定奖励惩罚值,来指导采矿车的运动过程。基于任务需求,将规划过程设定为预规划与实际规划两个阶段;预规划的主要任务是确定直线导航目标点与转弯目标点,基于该目标点,将任务分解为机器人直线行驶进行矿物采集与到达采矿区域边缘,转弯到下一采集路径两个过程,从而针对不同任务目标设定奖励函数;
在进行目标点选取时,依据的原则是:采矿车的运动轨迹要尽可能遍历整个采矿区域,保证采集效率,同时在采矿区域的矩形范围内,增加采矿车直线行驶的时间,减少转弯,因为在转弯时打滑现象较严重,控制难度较高,因此矩形的长边为直线行驶阶段,短边为转弯阶段。
图4为Unity3D软件构建的环境训练模型。绿色为直线导航目标点,当采矿机器人达到矿区边缘时进行转弯,黄色代表转弯目标点,红色物体为行驶过程的障碍物。
在实际规划阶段,依据预规划所设定的目标点,所规划的路线在完成基本路径规划任务的同时,需要满足机器人在直线导航目标点间行驶时,减少采矿机器人的转动,尽量保持直线行驶;在转弯时按照规定的转弯半径进行旋转,以便顺利到达下一个导航目标点;
因此在本实施例中,奖励函数设置如下:
当采矿机器人到达导航目标点时,获得正向的奖励值r1
为避免采矿机器人与障碍物发生碰撞,设置障碍物的安全范围,当采矿机器人与障碍物之间的距离小于安全半径R时,给予其较大的惩罚,即负向的奖励值r2
r=r2 ifσi<R (16)
基于欧式距离,设置一个连续性的与目标点距离成反比的奖励函数:
Figure SMS_46
其中,λi代表不同奖励项的奖励值权重,(x,y)与(xgoal,ygoal)分别代表机器人与目标点的坐标;
直线航行阶段,为了保持直线航行,则对自身艏向和目标点之间的夹角施加约束,设置奖励项:
Figure SMS_47
Figure SMS_48
时,机器人获得正向的奖励值,当/>
Figure SMS_49
时,奖励为负;当/>
Figure SMS_50
时,即机器人的速度方向指向目标位置时,奖励值最大;
因此,在直线阶段,总奖励值定义为:
Figure SMS_51
在转弯阶段,设定一个最优转弯半径
Figure SMS_52
基于该转弯半径设置惩罚项为:
Figure SMS_53
当采矿车的实际转弯半径与最优转弯半径存在差异时,系统将受到惩罚,且差值越小时,所受惩罚越少,基于该惩罚项,机器人可以按照规定的转弯半径进行转弯;
因此转弯阶段的总奖励值定义为:
Figure SMS_54
为使采矿机器人快速完成任务,因此设置与总回合步数成反比的惩罚项:
Figure SMS_55
抵达目标点;
则总的奖励函数设置为:
Figure SMS_56
综上,算法流程如下:
(7)步骤S7:基于S1~S6构建的采矿机器人运动学模型及路径规划系统,进行搭建虚拟仿真环境,设置实验相关参数,并进行模型训练;训练结束后,依据实验结果调整系统参数,重复训练过程,直至获得最优策略;保存训练好的神经网络参数,将其用于真实环境中,输出规划策略,最终完成深海采矿机器人路径规划流程。
步骤S7具体包括以下步骤:如图5所示,为本发明采矿机器人路径规划流程图,基于构建的采矿机器人模型及路径规划系统,使用Unity3d软件进行可视化的仿真,基于C#语言进行脚本的编写,基于pytorch搭建神经网络框架。
根据实际海底环境特点,搭建虚拟仿真环境,实验过程中,增加环境随机化的程度,具体为:更改采矿机器人的初始位置与目标点位置,采矿机器人的初始状态,目标点的数量,障碍物的形状大小及位置,以此来训练模型,使系统具有适应不同的环境的能力,从而提高采矿机器人的智能性与对不同环境的鲁棒性。
进一步地,设置实验参数,包括:各奖励值权重、最大训练回合数与步数、折扣因子、学习率、记忆库容量、学习时抽取样本数量大小、网络层数以及神经元数量;
依据所设定的参数及算法流程,开始进行训练,训练结束后,依据实验结果,不断调整系统各参数,重复训练过程,直至采矿机器人能够完成路径规划任务,同时累计折扣奖励值曲线平稳收敛;保存训练好的网络参数,此时规划系统获得最优策略,使采矿机器人具备路径规划的能力;
最终将采矿机器人放入真实环境中,基于传感设备获取状态输入信息,将状态信息输入到训练好的路径规划系统中,系统将状态输入信息映射为决策动作,对于该系统而言,输出采矿机器人的线速度与角速度,二者作为目标速度与目标角速度传递给控制系统,进行履带的动力分配,最终实现采矿机器人的路径规划与跟踪。
以上所述仅为本发明的实施方式,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进、扩展等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于深度强化学习的深海采矿机器人路径规划方法,其特征在于,包括以下步骤:
S1:构建采矿机器人运动学模型,并建立采矿机器人的路径规划系统;
建立采矿机器人的路径规划系统:
S2:设置路径规划系统的状态输入信息,在采矿机器人实际运行时,将历史状态输入信息与当前状态输入信息作为整体共同输入到路径规划系统中;
S3-1:将步骤S2中路径规划系统的输出作为采矿机器人的动作,并进行离散化处理,以简化运动过程,完成采矿机器人的动作设计;
S3-2:通过贪婪策略的方法对步骤S3-1中采矿机器人动作进行选取,在训练中,通过调整贪婪系数的大小来优化机器人探索环境的过程;
S4:基于马尔可夫决策过程,构建基于深度强化学习算法的采矿机器人路径规划系统,网络设置成对偶结构,并搭建神经网络结构框架;
S5:构建记忆库存储采矿机器人与环境之间的交互数据,系统通过从记忆库中抽取样本进行学习,从而完成对神经网络权重的更新,利用优先级经验回放技术,优化抽取样本的方式,以增加样本效率;
S6:基于采矿任务需求及采矿机器人运动形式,将路径规划任务目标分解,设计奖励函数,以在训练过程中指导采矿机器人到达导航目标点,同时优化所行驶路径;
S7:基于S1~S6构建的采矿机器人运动学模型及路径规划系统,进行搭建虚拟仿真环境,设置实验相关参数,并进行模型训练;训练结束后,依据实验结果调整系统参数,重复训练过程,直至获得最优策略;保存训练好的神经网络参数,将其用于真实环境中,输出规划策略,最终完成深海采矿机器人路径规划流程。
2.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法,其特征在于,所述步骤S1,具体为:
采矿机器人在平面的运动形式包括:进退和旋转,则采矿机器人的运动学模型表示为:
Figure FDA0004073303860000011
其中,u为自身坐标系下的纵向速度,即采矿机器人线速度,w为旋转角速度,ur,ul分别为采矿机器人两条履带的速度,当ur=ul,机器人沿直线行驶,当ur≠ul时,机器人会由于两履带差速而进行旋转;d代表两条履带之间的宽度,γ是与摩擦系数有关的无量纲参数。
3.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法,其特征在于,所述状态输入信息,包括:采矿机器人与目标点之间的位置信息pt、采矿机器人的速度信息vt以及与障碍物距离信息σt∈Rk
a.其中,采矿机器人与目标点的位置信息pt代表相对位置信息,即以采矿机器人重心为原点建立极坐标系,目标点所在的位置坐标;
采矿机器人与目标点之间的位置信息
Figure FDA0004073303860000021
其中,ρ即为极径,即采矿机器人与目标点间的距离,/>
Figure FDA0004073303860000022
称为极角,/>
Figure FDA0004073303860000023
即采矿机器人艏向与目标点之间的夹角;
b.采矿机器人的速度信息vt为:
vt=(u,w)∈R2
其中,u为自身坐标系下的纵向速度,即采矿机器人线速度,w为旋转角速度;
c.采矿机器人通过搭载测距声纳或激光来获取与障碍物距离信息,k为声纳的数量。
4.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法,其特征在于,步骤S2中,所述设置路径规划系统的状态输入信息,具体为:
基于采矿机器人的运动学模型,路径规划系统通过输出线速度与角速度控制采矿机器人的运动过程,将其进行逐一映射,映射关系为:
obt=(pt,vtt)
at=f(obt)=(v,w)∈A2
其中,obt为路径规划系统的状态输入信息,即状态空间,at为路径规划系统的输出,即动作空间,包括:采矿机器人的线速度与角速度;
将状态输入信息obt进行归一化处理,同时,将历史状态输入信息obt-1与当前状态输入信息obt作为整体共同传入路径规划系统中,表示为:
Figure FDA0004073303860000024
其中,st为输入至路径规划系统的状态输入信息的矩阵形式,T代表历史步数。
5.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法,其特征在于,所述步骤S3-1,具体为:
S3-1:所述采矿机器人的动作,即:路径规划系统输出的采矿机器人的线速度u与角速度w;
将采矿机器人的动作进行离散化处理,采矿机器人的动作设计如下:
Figure FDA0004073303860000025
Figure FDA0004073303860000031
其中,Δu与Δw分别代表线速度与角速度的增量,k1、k2代表边界系数;当ut>0且wt>0时,对于ut,三种方式分别代表采矿机器人加速、保持当前速度和减速三种情况,对于wt,三种方式分别代表采矿机器人增加角速度、保持当前角速度、减少角速度的状况;
当ut<0且wt<0时,对于ut,三种方式分别代表采矿机器人减速、保持当前速度、加速三种情况,对于wt,三种方式分别代表采矿机器人减少角速度、保持当前角速度、增加角速度的状况;
初始状态时,采矿机器人的线速度与角速度均为0,在行驶过程中,采矿机器人在每个决策步上仅对三种方式动作情况进行选择。
6.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法,其特征在于,所述步骤S3-2,具体为:
通过贪婪策略的方法,采矿机器人在选择动作a的过程中,以概率ε,选取Q值最大的动作,以概率1-ε随机选择动作,则该过程表示为:
Figure FDA0004073303860000032
其中,Q(s,a)表示强化学习中的动作价值函数,argmaax表示寻找具有最大评分的参量,random表示基于动作的随机函数,p代表概率,ε为贪婪系数,ε∈(0,1);
在训练过程中,ε是动态变化的,即:
Figure FDA0004073303860000033
其中,ε初始值为0,Δε代表增量值,ε_max代表贪婪系数的最大值;
在训练过程中,每完成N步,贪婪系数进行一次自增,直至增加到最大值ε_max为止;
基于上述方法,通过调整贪婪系数的大小来优化机器人探索环境的过程。
7.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法,其特征在于,所述步骤S4,具体为:
基于马尔可夫决策过程,构建基于Dueling DQN算法的路径规划系统;将神经网络设置成对偶结构,把动作价值函数Q(s,a)拆分成状态价值函数V(s)与优势函数A(s,a)两部分,即:
Q(s,a)=V(s)+A(s,a)
其中,A(s,a)表示在某一状态下采取不同动作的优势,即
Figure FDA0004073303860000034
搭建神经网络结构:
(1)Dueling DQN中存在两个神经网络,分别为估计网络和目标网络;
(2)估计网络用于产生当前状态的Q值;目标网络产生下一步状态的Q值,用于计算对当前值函数的目标估计;
(3)估计网络输出两个分支为:Vη,α(s)和Aη,β(s,a),二者通过求和获取Q值;其中η,α,β代表神经网络参数,η为状态价值函数和优势函数共享的部分,α和β分别为影响状态价值函数输出的部分和优势函数输出的部分;
(4)目标网络复制估计网络的网络参数,并用
Figure FDA0004073303860000047
来表示,为降低目标值Qtarget与估计值Qeval的相关性,避免过拟合,设定估计网络每个梯度步都进行更新,而目标网络需要经过设定步数后进行更新一次;
(5)计算神经网络的损失函数,用于网络参数更新,损失函数L表示为:
Figure FDA0004073303860000041
其中,r代表奖励值,γ代表折扣因子,s,a分别代表当前时刻的状态与动作,s′,a′代表下一时刻的状态与动作,
Figure FDA0004073303860000042
代表Qtarget,Qη,α,β(s,a)为Qeval
(6)对损失函数进行梯度计算:
Figure FDA0004073303860000043
Figure FDA0004073303860000044
Figure FDA0004073303860000045
基于上述梯度值,通过随机梯度下降的方法优化损失函数,进而更新网络参数。
8.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法,其特征在于,所述步骤S5,具体为:
在训练的过程中,采矿机器人与环境之间每进行一次交互,将所获取的经验数据以四元组(s,a,r,s′)的形式存储于记忆库中,在进行更新时,随机抽取样本进行学习,当记忆库存满后,新的记忆会替换原来的记忆;
使用优先级经验回放技术,改善随机抽取样本的过程,到达目标点的个别经验将会被优先抽取,神经网络学习的过程将被优化;
该方法具体描述为:
S5-1:计算样本的时序差分,即目标值Qtarget与估计值Qeval的差值来确定经验的优先级,对于时序差分越大的样本,其价值越高;定义每组数据的优先级后,经验被抽取的概率与优先级的大小成正比,即优先级越大的经验抽取概率越大,优先级越小的经验被抽取的概率越小;则每个经验被抽取的概率定义为:
Figure FDA0004073303860000046
其中,P(x)为第x个经验被抽取的概率,px代表第x个经验的优先级,α为权重,px=|TD-error|+ξ,ζ为正值,以保证优先级的值大于0;
S5-2:通过sum-tree的树状结构来存储所有经验的优先级,树的根节点是所有经验数据优先级的总和,则进行采样时,具体步骤为:
a)将记忆库的经验数量除以批次大小从而进行分段;
b)在每个区间之间均匀抽取一个随机数p,p的大小在[0,sum]之间;从根节点开始比较,依此向下层顺延;
c)将p和a1进行比较,左子节点的数字即a1>p,则从左侧分支依此向下比较,即将p与b1再进行比较;
d)如果左节点数字小于p即a1<p,则接下来与右侧a2分支进行比较,但p的值要减去左子节点的数值,即p-a1再与b3进行比较,直至找到叶结点,其中所储存的经验即为所抽取的样本。
9.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法,其特征在于,所述步骤S6,包括以下步骤:
基于任务需求,将规划过程设定为预规划与实际规划两个阶段;预规划的主要任务是确定直线导航目标点与转弯目标点,基于该目标点,将任务分解为机器人直线行驶进行矿物采集与到达采矿区域边缘,转弯到下一采集路径两个过程,从而针对不同任务目标设定奖励函数;
在实际规划阶段,依据预规划所设定的目标点,所规划的路线在完成基本路径规划任务的同时,需要满足机器人在直线导航目标点间行驶时,减少采矿机器人的转动,尽量保持直线行驶;在转弯时按照规定的转弯半径进行旋转,以便顺利到达下一个导航目标点;
因此,奖励函数设置如下:
当采矿机器人到达导航目标点时,获得正向的奖励值r1
为避免采矿机器人与障碍物发生碰撞,设置障碍物的安全范围,当采矿机器人与障碍物之间的距离小于安全半径R时,给予其较大的惩罚,即负向的奖励值r2
r=r2 ifσi<R;
基于欧式距离,设置一个连续性的与目标点距离成反比的奖励函数:
Figure FDA0004073303860000051
其中,λi代表不同奖励项的奖励值权重,(x,y)与(xgoal,ygoal)分别代表机器人与目标点的坐标;
直线航行阶段,为了保持直线航行,则对自身艏向和目标点之间的夹角施加约束,设置奖励项:
Figure FDA0004073303860000052
Figure FDA0004073303860000053
时,机器人获得正向的奖励值,当/>
Figure FDA0004073303860000054
时,奖励为负;当
Figure FDA0004073303860000061
时,即机器人的速度方向指向目标位置时,奖励值最大;
因此,在直线阶段,总奖励值定义为:
Figure FDA0004073303860000062
在转弯阶段,设定一个最优转弯半径
Figure FDA0004073303860000063
基于该转弯半径设置惩罚项为:
Figure FDA0004073303860000064
当采矿车的实际转弯半径与最优转弯半径存在差异时,系统将受到惩罚,且差值越小时,所受惩罚越少,基于该惩罚项,机器人可以按照规定的转弯半径进行转弯;
因此转弯阶段的总奖励值定义为:
Figure FDA0004073303860000065
为使采矿机器人快速完成任务,因此设置与总回合步数成反比的惩罚项:
Figure FDA0004073303860000066
if抵达目标点;
则总的奖励函数设置为:
Figure FDA0004073303860000067
10.根据权利要求1所述的一种基于深度强化学习的深海采矿机器人路径规划方法,其特征在于,所述步骤S7,包括以下步骤:
基于构建的采矿机器人模型及路径规划系统,使用Unity3d软件进行可视化的仿真,并基于pytorch搭建神经网络框架;
根据实际海底环境特点,搭建虚拟仿真环境,实验过程中,增加环境随机化的程度,具体为:更改采矿机器人的初始位置与目标点位置,采矿机器人的初始状态,目标点的数量,障碍物的形状大小及位置,以此来训练模型,使系统具有适应不同的环境的能力;
设置实验参数,包括:各奖励值权重、最大训练回合数与步数、折扣因子、学习率、记忆库容量、学习时抽取样本数量大小、网络层数以及神经元数量;
依据所设定的参数及算法流程,开始进行训练,训练结束后,依据实验结果,不断调整系统各参数,重复训练过程,直至采矿机器人能够完成路径规划任务,同时累计折扣奖励值曲线平稳收敛;保存训练好的网络参数,此时规划系统获得最优策略,使采矿机器人具备路径规划的能力;
最终将采矿机器人放入真实环境中,基于传感设备获取状态输入信息,将状态信息输入到训练好的路径规划系统中,系统将状态输入信息映射为决策动作,进而完成路径规划。
CN202310101947.0A 2023-02-13 2023-02-13 一种基于深度强化学习的深海采矿机器人路径规划方法 Pending CN116339316A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310101947.0A CN116339316A (zh) 2023-02-13 2023-02-13 一种基于深度强化学习的深海采矿机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310101947.0A CN116339316A (zh) 2023-02-13 2023-02-13 一种基于深度强化学习的深海采矿机器人路径规划方法

Publications (1)

Publication Number Publication Date
CN116339316A true CN116339316A (zh) 2023-06-27

Family

ID=86886641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310101947.0A Pending CN116339316A (zh) 2023-02-13 2023-02-13 一种基于深度强化学习的深海采矿机器人路径规划方法

Country Status (1)

Country Link
CN (1) CN116339316A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527567A (zh) * 2023-06-30 2023-08-01 南京信息工程大学 一种基于深度强化学习的智能网络路径优选方法与系统
CN117213501A (zh) * 2023-11-09 2023-12-12 成都工业职业技术学院 一种基于分布式模型预测的机器人避障规划方法
CN117273256A (zh) * 2023-11-23 2023-12-22 青岛慧拓智能机器有限公司 一种基于强化学习的露天矿卸载管理方法和系统
CN117555341A (zh) * 2024-01-12 2024-02-13 中国石油大学(华东) 基于改进蚁群算法的深海采矿车路径规划方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527567A (zh) * 2023-06-30 2023-08-01 南京信息工程大学 一种基于深度强化学习的智能网络路径优选方法与系统
CN116527567B (zh) * 2023-06-30 2023-09-12 南京信息工程大学 一种基于深度强化学习的智能网络路径优选方法与系统
CN117213501A (zh) * 2023-11-09 2023-12-12 成都工业职业技术学院 一种基于分布式模型预测的机器人避障规划方法
CN117213501B (zh) * 2023-11-09 2024-02-02 成都工业职业技术学院 一种基于分布式模型预测的机器人避障规划方法
CN117273256A (zh) * 2023-11-23 2023-12-22 青岛慧拓智能机器有限公司 一种基于强化学习的露天矿卸载管理方法和系统
CN117273256B (zh) * 2023-11-23 2024-03-26 青岛慧拓智能机器有限公司 一种基于强化学习的露天矿卸载管理方法和系统
CN117555341A (zh) * 2024-01-12 2024-02-13 中国石油大学(华东) 基于改进蚁群算法的深海采矿车路径规划方法及系统
CN117555341B (zh) * 2024-01-12 2024-05-24 中国石油大学(华东) 基于改进蚁群算法的深海采矿车路径规划方法及系统

Similar Documents

Publication Publication Date Title
CN113110592B (zh) 一种无人机避障与路径规划方法
CN116339316A (zh) 一种基于深度强化学习的深海采矿机器人路径规划方法
Zhao et al. Survey on computational-intelligence-based UAV path planning
CN111351488B (zh) 飞行器智能轨迹重构再入制导方法
Wu A survey on population-based meta-heuristic algorithms for motion planning of aircraft
CN110488859B (zh) 一种基于改进Q-learning算法的无人机航路规划方法
CN110703766B (zh) 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN109871032A (zh) 一种基于模型预测控制的多无人机编队协同控制方法
CN105717926A (zh) 基于改进蚁群算法的移动机器人旅行商优化方法
CN112857385B (zh) 一种基于非均匀栅格模型的快速无人车局部路径规划方法
CN112148008A (zh) 一种基于深度强化学习的实时无人机路径预测方法
Guo et al. A fusion method of local path planning for mobile robots based on LSTM neural network and reinforcement learning
CN113805609A (zh) 一种混沌迷失鸽群优化机制的无人机群目标搜索方法
Yang et al. Intelligent path planning of underwater robot based on reinforcement learning
CN113836803A (zh) 基于改进狼群算法的无人机群资源调度方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN114138022B (zh) 一种基于精英鸽群智能的无人机集群分布式编队控制方法
Xue et al. Multi-agent deep reinforcement learning for UAVs navigation in unknown complex environment
CN115729238A (zh) 一种用于移动机器人自主避障的动态路径规划方法
Liu et al. AUV path planning based on improved ant colony algorithm
Wu et al. Multi-phase trajectory optimization for an aerial-aquatic vehicle considering the influence of navigation error
Brintaki et al. Coordinated UAV path planning using differential evolution
Xie et al. Energy-and time-aware data acquisition for mobile robots using mixed cognition particle swarm optimization
Raiesdana A hybrid method for industrial robot navigation
Wang et al. Efficient reinforcement learning for autonomous ship collision avoidance under learning experience reuse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination