CN114489059B - 基于d3qn-per移动机器人路径规划方法 - Google Patents
基于d3qn-per移动机器人路径规划方法 Download PDFInfo
- Publication number
- CN114489059B CN114489059B CN202210038938.7A CN202210038938A CN114489059B CN 114489059 B CN114489059 B CN 114489059B CN 202210038938 A CN202210038938 A CN 202210038938A CN 114489059 B CN114489059 B CN 114489059B
- Authority
- CN
- China
- Prior art keywords
- mobile robot
- target
- obstacle
- action
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000002787 reinforcement Effects 0.000 claims abstract description 16
- 230000033001 locomotion Effects 0.000 claims abstract description 10
- 230000007613 environmental effect Effects 0.000 claims abstract description 7
- 239000002245 particle Substances 0.000 claims abstract description 7
- 230000001131 transforming effect Effects 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 83
- 230000006870 function Effects 0.000 claims description 61
- 230000000875 corresponding effect Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000001351 cycling effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 230000002045 lasting effect Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 241000695274 Processa Species 0.000 claims 1
- 230000004888 barrier function Effects 0.000 claims 1
- 238000010276 construction Methods 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 210000005036 nerve Anatomy 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004387 environmental modeling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
Abstract
本发明公开了基于D3QN‑PER移动机器人路径规划方法,首先进行环境建模,设计完整实验环境;利用移动机器人上的单线激光雷达对所处于当前环境进行观察,并提取出移动机器人所处于当前环境中的所有障碍物信息So;利用移动机器人运动学模型,将全局坐标系下的移动机器人自身状态信息SR、目标位置以及步骤S1.1提取的所有障碍物信息So变换到局部坐标系下;移动机器人及障碍物质点处理,设计完整的实验环境;搭建深度强化学习方法的框架;将获取的环境状态s描述为24维向量;最后进行训练模型,获取路径规划策略,本发明即提升移动机器人自主避障的能力,有利于降低移动机器人全局运动规划难度,同时也延伸了移动机器人的应用范围,具备较强的科研和应用价值。
Description
技术领域
本发明涉及应用深度学习和强化学习结合实现未知场景的路径规划技术领域,具体为基于D3QN-PER移动机器人路径规划方法。
背景技术
目前室内移动机器人主要采用基于已知室内环境模型的路径规划方法,如果环境模型和实际环境存在较大的误差会导致在路径规划过程中出现无法估计的影响,并且对环境建模需要耗费更多的资源。因此,研究对环境模型依赖程度低、自主学习适应室内环境的路径规划方法成为研究热点。
现今,人工智能领域取得一定进展,深度学习、增强学习、深度增强学习等各类人工智能方法被不断提出,并且逐步应用于实际工程领域。其中,深度增强学习结合了深度学习感知抽象能力与强化学习策略寻优能力,能通过端对端的学习方式来实现观测状态(激光雷达)作为算法的输入到决策动作输出的直接控制,训练机器人学习自主避障能力,在很多传统方法无法解决的问题上表现优异。这种端对端的方式对于自动控制系统、移动机器人控制、自动驾驶、游戏博弈等诸多问题的求解,具有天然的适用性。
发明内容
本发明的目的在于提供基于D3QN-PER移动机器人路径规划方法,
本发明是这样实现的:
基于D3QN-PER移动机器人路径规划方法,具体按以下步骤:
分为环境建模、搭建深度强化学习方法的框架和训练模型三个阶段,其特征在于:具体按以下步骤:
S1:环境建模,设计完整实验环境;
S1.1:利用移动机器人上的单线激光雷达对所处于当前环境进行观察,并提取出移动机器人所处于当前环境中的所有障碍物信息So;
S1.2:利用移动机器人运动学模型,将全局坐标系下的移动机器人自身状态信息SR、目标位置以及步骤S1.1提取的所有障碍物信息So变换到局部坐标系下;
S1.3:移动机器人及障碍物质点处理,设计完整的实验环境;
在步骤S1中,环境建模和设计完整实验场景的具体过程为:
S1.1.1:将全局坐标系下的移动机器人自身状态、目标位置以及步骤S1.1提取的所有障碍物状态信息变换到局部坐标系下,局部坐标系是以移动机器人自身为坐标原点,以移动机器人指向目标位置的方向为x轴正方向,垂直于x轴方向。
S1.1.2:状态信息表示为一个数组[vt,ωt,dt,θt],其中,vt和ωt为t时刻移动机器人的速度和角速度信息,dt和θt为t时刻移动机器人相对终点的距离和角度信息;
S1.1.3:对移动机器人和障碍物做质点处理,设置安全距离。设计完整的实验场景,其中包括移动机器人和多个障碍物。开始训练时,初始化移动机器人、障碍物的位置,要求移动机器人在当前场景下能避免互相碰撞和避开障碍物到达对应目的地,实现路径规划,在完整实验场景其中:do代表障碍物的半径大小,dr代表机器人的半径大小,dg代表目标点的半径大小;drg为移动机器人到目标位置的距离,且如式(1)和式(2)所示:
drg=||dr-dg||2 式(1)
dro为移动机器人到障碍物的距离
dro=||dr-do||2 式(2)
(vrx,vry)为移动机器人速度的x、y轴分量;θr代表移动机器人航向夹角。
进一步,S2:搭建深度强化学习方法的框架;
S2.1:将获取的环境状态s描述为24维向量;
S2.2:将移动机器人的连续动作空间中对应的动作进行离散化,设计D3QN网络输出的决策离散动作空间A(s);
S2.3:设计移动机器人的学习目标,其内容为躲避当前环境中的障碍物,朝着目标前进,直到抵达目标停止,通过奖励函数R(s,a)评估是否完成学习目标,奖励回报函数R(s,a)由到达目标位置奖励、碰撞障碍物惩罚两部分组成;
S2.4:确定探索策略,首先,Q值网络输出步骤2.2设置的动作对应的动作值函数Q(s,a),通过相应的探索规则选择当前时刻的决策动作;
S2.5:评价函数可以评估当下决策动作的好坏,指导移动机器人进行决策;利用DoubleDQN的思想和Dueling DQN的结构搭建D3QN网络去拟合状态价值函数Q(s,a),从而评估决策动作的累积奖励,获取最优的状态价值函数Q*(s,a);
在步骤S2中搭建深度强化学习框架的具体过程为,将环境中障碍物状态信息so描述为24维向量;
S2.1.1:决策离散动作空间a的集合为A,离散动作空间A由航向角θr和速度组成,航向角则集合A中有5个动作,包括向前移动,向左移动或左转,向右移动或右转;速度是包括角速度和线速度,设定前向动作v=1.0m/s,ω=0.3rad/s,其余四个动作的v=0.03m/s,ω=0.1rad/s。
S2.1.2:设计学习框架及学习目标,通过奖励函数进行评估是否完成学习目标D3QN网络的奖励函数R(s,a)的形式如式(3)所示:
R(s,a)=R1+R2 式(3)
其中:
其中,R1指到达目标点,K为安全检测阈值,K=0.4m。若移动机器人执行动作a后未遇到障碍物与目标点的距离prg在0.4m范围之内,认定移动机器人到达目标点,给予+200奖励值;否则不给予任何奖励;
其中:
其中,R2指碰撞障碍物,A为碰撞检测阈值,A=0.2m,若移动机器人执行动作a后与障碍物的之间距离pro在0.2m范围之内,认定移动机器人与障碍物发生碰撞,给与-200的惩罚值;否则不给予任何惩罚,
S2.1.3:本发明采用的探索策略是ε-greedy,将ε设定为0.3,如式(4)和式(5)所示:
εfinal=0.1 式(5)
其中:epsilon初始值为1.0,随着时间递减,当epsilon<0.1,结束贪婪策略;当epsilon<0.3,随机选择动作,当0.3<epsilon<0.99,计算出当前状态对应的动作Q值,并选择最大Q(state,action)对应的动作a作为最优动作a;
S2.1.4:评价函数可以评估当下决策动作的好坏,指导移动机器人进行决策。基于马尔可夫决策过程,可以得到评价函数Q(s,a),如公式(6);
由于上述算法会出现过度估计问题,因此利用Double DQN的思想,预测网络负责选择动作,目标网络计算目标Q值,得到新的状态价值函数Q(s,a),评估决策动作的累积奖励,获取最优的状态价值函数Q*(s,a),如公式(7)最优状态价值函数:
在Double DQN基础上,为了解决奖励偏置问题,将神经内部中原本的状态价值函数Q(s,a)修改为两路,上路为状态价值函数V(s;θ,β),表示自身状态价值;下路为动作优势函数A(s,a;θ,a),表示评价动作a好坏程度,最后将两个合并得到每个动作的Q(s,a;θ,α,β);基于上述网络结构,可以得到更加精确的状态价值函数,其公式(8)如下:
一般将优势动作值函数A(s,a;θ,α)减去某个状态下的平均值,提高算法稳定性。
进一步,S3:训练模型,获取路径规划策略
S3.1:处理移动机器人自身状态信息及环境障碍物状态信息;
S3.2:将训练过程中获取的数据作为四元组(s,s′,a,r)存储到经验回放池中,作为数据备份;
S3.3:采用改进的优先经验回放机制对回放经验池中数据进行小批量采样;
S3.4:将S3.3中数据送入S2:搭建的D3QN模型中进行,计算目标Q值和时间差分误差TD-error,进而更新优先回放经验机制中优先级P;
S3.5:通过随机梯度下降法计算损失函数,不断更新D3QN网络的权重参数;
S3.6:循环训练,满足完成学习目标和设置回合数,获取训练好的路径规划策略,可以应用于在未知环境移动机器人的路径规划。
在步骤S3中,训练模型,获取路径规划策略具体按以下步骤;
移动机器人自身状态信息和环境障碍物状态信息进行处理
S3.1.1:将步骤S1.1中提取的障碍物信息So,依次送入长短时记忆网络(Long ShortTerm Memory,LSTM),使用遗忘门ft进行重要信息筛选,然后输出门Ot将重要信息保存到隐藏层h中,在所有障碍物的状态信息(SO1,SO2,…SOn)输入后,转换为统一大小的状态向量so,再与移动机器人自身状态信息SR合并为状态集s,输送至D3QN模型的输入端;
S3.1.2:将训练过程中获取的数据作为四元组(s,s′,a,r)存储到经验回放池中移动机器人根据当前状态s,利用步骤1.3中探索策略ε-greedy在步骤设计的离散动作空间A(s)选择动作a,然后采用步骤四中奖励函数R(s,a)获取奖励值r进行动作评估,移动机器人切换到下一个状态s′,并将四元组信息(s,s′,a,r)存储到回放经验池中;
S3.1.3:改进的优先回放机制采样对经验回放池进行小批量采样,然后通过改进的均匀采样和优先采样结合的优先经验回放机制选取mini-batch样本进行训练,优先级采样公式如式(9):
确保样本的优先级与TD-error相关,确保最低优先级的转移概率也是非零的,如式(10)、式(11)和式(12);
Pj=|εj|+σ 式(11)
其中,指数α决定使用优先级的多少,当α等于0时是随机均匀采样;σ是防止TD接近为0时,缓存采样记忆单元的概率为0。
其中,ωi为转移样本i的权重,β用于调节偏差程度,且线性递减。通过调节权重ω的大小保证优先更新重要性高的转移样本,同时能够保证以一些概率更新重要性较低的转移样本,保证样本的多样性,提高网络的学习效率;
S3.1.4:计算目标Q值和时间差分误差,从而更新优先经验回放的优先级P,将采用步骤S3.1.2提取的四元组信息(s,s′,a,r)输入到D3QN-PER模型进行训练,首先,利用DoubleDQN思想,预测网络负责选择动作,目标网络计算目标Q值,计算时间差分误差TD-error,进而更新优先级P,初始化时预测神经网络θ和目标神经网络参数θ-相同,即θ-=θ;如式(13)和式(14)所示;
目标Q值:
时间差分误差TD-error:
S3.1.5:计算损失函数,更新D3QN网络权重参数,根据预测网络和目标网络的输出Q值计算时间差分误差,搭建损失函数L(θ)如公式(10)下,采用随机梯度下降法迭代更新权重,预测网络中θ-实时更新,目标网络中θ每隔C步更新;
其中,E表示数学期望,γ表示折损因子;
S3.1.6:循环训练,完成学习目标和设置回合数,获取路径规划策略,不断循环以上过程,以累积奖励值reward最大化为目标,完成设计的学习目标,更新机器人的路径规划策略,直至设定回合数训练完成,得到最优动作值函数Q*(s,a)对应的最优动作,获取训练好的移动机器人路径规划策略。
与现有技术相比,本发明的有益效果是:
1、本文采用DRL算法在室内移动机器人导航中的应用方法和提高其学习效率,随着移动机器人的广泛应用,如何让移动机器人面临存有静态障碍的未知室内场景下进行路径规划,提高其收敛速度和避障成功率,即提升移动机器人自主避障的能力,有利于降低移动机器人全局运动规划难度,同时也延伸了移动机器人的应用范围,具备较强的科研和应用价值。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是环境建模的流程图;
图2是移动机器人运动学模型图;
图3是移动机器人的完整实验环境图;
图4是搭建深度强化学习框架流程图;
图5是离散动作空间;
图6是Double DQN框架原理图;
图7是D3QN模型结构图;
图8是训练模型整体流程图;
图9是D3QN路径规划流程图;
图10是移动机器人状态信息处理图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1,基于D3QN-PER移动机器人路径规划方法,具体按以下步骤:
分为环境建模、搭建深度强化学习方法的框架和训练模型三个阶段,其特征在于:具体按以下步骤:
S1:环境建模,设计完整实验环境;如图1,
S1.1:利用移动机器人上的单线激光雷达对所处于当前环境进行观察,并提取出移动机器人所处于当前环境中的所有障碍物信息So;
S1.2:利用移动机器人运动学模型,将全局坐标系下的移动机器人自身状态信息SR、目标位置以及步骤S1.1提取的所有障碍物信息So变换到局部坐标系下;
S1.3:移动机器人及障碍物质点处理,设计完整的实验环境;
在步骤S1中,环境建模和设计完整实验场景的具体过程为:
S1.1.1:将全局坐标系下的移动机器人自身状态、目标位置以及步骤S1.1提取的所有障碍物状态信息变换到局部坐标系下,局部坐标系是以移动机器人自身为坐标原点,以移动机器人指向目标位置的方向为x轴正方向,垂直于x轴方向。如图2;
S1.1.2:状态信息表示为一个数组[vt,ωt,dt,θt],其中,vt和ωt为t时刻移动机器人的速度和角速度信息,dt和θt为t时刻移动机器人相对终点的距离和角度信息;
S1.1.3:对移动机器人和障碍物做质点处理,设置安全距离。设计完整的实验场景,其中包括移动机器人和多个障碍物。开始训练时,初始化移动机器人、障碍物的位置,要求移动机器人在当前场景下能避免互相碰撞和避开障碍物到达对应目的地,实现路径规划,在完整实验场景其中:do代表障碍物的半径大小,dr代表机器人的半径大小,dg代表目标点的半径大小;drg为移动机器人到目标位置的距离,且如式(1)和式(2)所示:
drg=||dr-dg||2 式(1)
dro为移动机器人到障碍物的距离
dro=||dr-do||2 式(2)
(vrx,vry)为移动机器人速度的x、y轴分量;θr代表移动机器人航向夹角。
本实施例中,S2:搭建深度强化学习方法的框架;如图4
S2.1:将获取的环境状态s描述为24维向量;
S2.2:将移动机器人的连续动作空间中对应的动作进行离散化,设计D3QN网络输出的决策离散动作空间A(s);
S2.3:设计移动机器人的学习目标,其内容为躲避当前环境中的障碍物,朝着目标前进,直到抵达目标停止,通过奖励函数R(s,a)评估是否完成学习目标,奖励回报函数R(s,a)由到达目标位置奖励、碰撞障碍物惩罚两部分组成;
S2.4:确定探索策略,首先,Q值网络输出步骤2.2设置的动作对应的动作值函数Q(s,a),通过相应的探索规则选择当前时刻的决策动作;
S2.5:评价函数可以评估当下决策动作的好坏,指导移动机器人进行决策;利用DoubleDQN的思想和Dueling DQN的结构搭建D3QN网络去拟合状态价值函数Q(s,a),从而评估决策动作的累积奖励,获取最优的状态价值函数Q*(s,a);
在步骤S2中搭建深度强化学习框架的具体过程为,将环境中障碍物状态信息so描述为24维向量;
S2.1.1:决策离散动作空间a的集合为A,离散动作空间A由航向角θr和速度组成,航向角则集合A中有5个动作,包括向前移动,向左移动或左转,向右移动或右转;速度是包括角速度和线速度,设定前向动作v=1.0m/s,ω=0.3rad/s,其余四个动作的v=0.03m/s,ω=0.1rad/s。
S2.1.2:设计学习框架及学习目标,通过奖励函数进行评估是否完成学习目标D3QN网络的奖励函数R(s,a)的形式如式(3)所示:
R(s,a)=R1+R2 式(3)
其中:
其中,R1指到达目标点,K为安全检测阈值,K=0.4m。若移动机器人执行动作a后未遇到障碍物与目标点的距离prg在0.4m范围之内,认定移动机器人到达目标点,给予+200奖励值;否则不给予任何奖励;
其中:
其中,R2指碰撞障碍物,A为碰撞检测阈值,A=0.2m,若移动机器人执行动作a后与障碍物的之间距离pro在0.2m范围之内,认定移动机器人与障碍物发生碰撞,给与-200的惩罚值;否则不给予任何惩罚,
S2.1.3:本发明采用的探索策略是ε-greedy,将ε设定为0.3,如式(4)和式(5)所示:
εfinal=0.1 式(5)
其中:epsilon初始值为1.0,随着时间递减,当epsilon<0.1,结束贪婪策略;当epsilon<0.3,随机选择动作,当0.3<epsilon<0.99,计算出当前状态对应的动作Q值,并选择最大Q(state,action)对应的动作a作为最优动作a;
S2.1.4:评价函数可以评估当下决策动作的好坏,指导移动机器人进行决策。基于马尔可夫决策过程,可以得到评价函数Q(s,a),如公式(6);
由于上述算法会出现过度估计问题,因此利用Double DQN的思想,预测网络负责选择动作,目标网络计算目标Q值,得到新的状态价值函数Q(s,a),评估决策动作的累积奖励,获取最优的状态价值函数Q*(s,a),如公式(7)最优状态价值函数:
在Double DQN基础上,为了解决奖励偏置问题,将神经内部中原本的状态价值函数Q(s,a)修改为两路,上路为状态价值函数V(s;θ,β),表示自身状态价值;下路为动作优势函数A(s,a;θ,α),表示评价动作a好坏程度,最后将两个合并得到每个动作的Q(s,a;θ,α,β);基于上述网络结构,可以得到更加精确的状态价值函数,其公式(8)如下:
一般将优势动作值函数A(s,a;θ,α)减去某个状态下的平均值,提高算法稳定性。
本实施例中,S3:训练模型,获取路径规划策略
S3.1:处理移动机器人自身状态信息及环境障碍物状态信息;
S3.2:将训练过程中获取的数据作为四元组(s,s′,a,r)存储到经验回放池中,作为数据备份;
S3.3:采用改进的优先经验回放机制对回放经验池中数据进行小批量采样;
S3.4:将S3.3中数据送入S2:搭建的D3QN模型中进行,计算目标Q值和时间差分误差TD-error,进而更新优先回放经验机制中优先级P;
S3.5:通过随机梯度下降法计算损失函数,不断更新D3QN网络的权重参数;
S3.6:循环训练,满足完成学习目标和设置回合数,获取训练好的路径规划策略,可以应用于在未知环境移动机器人的路径规划。
在步骤S3中,训练模型,获取路径规划策略具体按以下步骤;如图8-图9;
移动机器人自身状态信息和环境障碍物状态信息进行处理
S3.1.1:将步骤S1.1中提取的障碍物信息So,依次送入长短时记忆网络(Long ShortTerm Memory,LSTM),使用遗忘门ft进行重要信息筛选,然后输出门Ot将重要信息保存到隐藏层h中,在所有障碍物的状态信息(SO1,SO2,…SOn)输入后,转换为统一大小的状态向量so,再与移动机器人自身状态信息SR合并为状态集s,输送至D3QN模型的输入端;
S3.1.2:将训练过程中获取的数据作为四元组(s,s′,a,r)存储到经验回放池中移动机器人根据当前状态s,利用步骤1.3中探索策略ε-greedy在步骤设计的离散动作空间A(s)选择动作a,然后采用步骤四中奖励函数R(s,a)获取奖励值r进行动作评估,移动机器人切换到下一个状态s′,并将四元组信息(s,s′,a,r)存储到回放经验池中;
S3.1.3:改进的优先回放机制采样对经验回放池进行小批量采样,然后通过改进的均匀采样和优先采样结合的优先经验回放机制选取mini-batch样本进行训练,优先级采样公式如式(9):
确保样本的优先级与TD-error相关,确保最低优先级的转移概率也是非零的,如式(10)、式(11)和式(12);
Pj=|εj|+σ 式(11)
其中,指数α决定使用优先级的多少,当α等于0时是随机均匀采样;σ是防止TD接近为0时,缓存采样记忆单元的概率为0。
其中,ωi为转移样本i的权重,β用于调节偏差程度,且线性递减。通过调节权重ω的大小保证优先更新重要性高的转移样本,同时能够保证以一些概率更新重要性较低的转移样本,保证样本的多样性,提高网络的学习效率;
S3.1.4:计算目标Q值和时间差分误差,从而更新优先经验回放的优先级P,将采用步骤S3.1.2提取的四元组信息(s,s′,a,r)输入到D3QN-PER模型进行训练,首先,利用DoubleDQN思想,预测网络负责选择动作,目标网络计算目标Q值,计算时间差分误差TD-error,进而更新优先级P,初始化时预测神经网络θ和目标神经网络参数θ-相同,即θ-=θ;如式(13)和式(14)所示;
目标Q值:时间差分误差TD-error:
S3.1.5:计算损失函数,更新D3QN网络权重参数,根据预测网络和目标网络的输出Q值计算时间差分误差,搭建损失函数L(θ)如公式(10)下,采用随机梯度下降法迭代更新权重,预测网络中θ-实时更新,目标网络中θ每隔C步更新;
其中,E表示数学期望,γ表示折损因子;
S3.1.6:循环训练,完成学习目标和设置回合数,获取路径规划策略,不断循环以上过程,以累积奖励值reward最大化为目标,完成设计的学习目标,更新机器人的路径规划策略,直至设定回合数训练完成,得到最优动作值函数Q*(s,a)对应的最优动作,获取训练好的移动机器人路径规划策略。
以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.基于D3QN-PER移动机器人路径规划方法,分为环境建模、搭建深度强化学习方法的框架和训练模型三个阶段,其特征在于:具体按以下步骤:
S1:环境建模,设计完整实验环境;
S1.1:利用移动机器人上的单线激光雷达对所处于当前环境进行观察,并提取出移动机器人所处于当前环境中的所有障碍物信息;
S1.2:利用移动机器人运动学模型,将全局坐标系下的移动机器人自身状态信息、目标位置以及步骤S1.1提取的所有障碍物信息/>变换到局部坐标系下;
S1.3:移动机器人及障碍物质点处理,设计完整的实验环境;
S2:搭建深度强化学习方法的框架;
S2.1:将获取的环境状态s描述为24维向量;
S2.2:将移动机器人的连续动作空间中对应的动作进行离散化,设计D3QN网络输出的决策离散动作空间;
S2.3:设计移动机器人的学习目标,其内容为躲避当前环境中的障碍物,朝着目标前进,直到抵达目标停止,通过奖励函数评估是否完成学习目标,奖励函数/>由到达目标位置奖励、碰撞障碍物惩罚两部分组成;
S2.4:确定探索策略,首先,Q值网络输出步骤2.2设置的动作对应的去拟合状态价值函数,通过相应的探索规则选择当前时刻的决策动作;
S2.5:评价函数可以评估当下决策动作的好坏,指导移动机器人进行决策;利用DoubleDQN的思想和Dueling DQN的结构搭建D3QN网络去拟合状态价值函数,从而评估决策动作的累积奖励,获取最优的状态价值函数/>;
S3:训练模型,获取路径规划策略;
S3.1:处理移动机器人自身状态信息及环境障碍物状态信息;
S3.2:将训练过程中获取的数据作为四元组存储到经验回放池中,作为数据备份;
S3.3:采用改进的优先经验回放机制对回放经验池中数据进行小批量采样;
S3.4:将 S3.3中数据送入 S2搭建的D3QN模型中进行,计算目标Q值和时间差分误差TD-error,进而更新优先回放经验机制中优先级P;
S3.5:通过随机梯度下降法计算损失函数,不断更新D3QN网络的权重参数;
S3.6:循环训练,满足完成学习目标和设置回合数,获取训练好的路径规划策略,可以应用于在未知环境移动机器人的路径规划。
2.根据权利要求1所述的基于D3QN-PER移动机器人路径规划方法,其特征在于,在步骤S1中,环境建模和设计完整实验场景的具体过程为:
S1.1.1:将全局坐标系下的移动机器人自身状态、目标位置以及步骤S1.1提取的所有障碍物状态信息变换到局部坐标系下,局部坐标系是以移动机器人自身为坐标原点,以移动机器人指向目标位置的方向为x轴正方向,垂直于x轴方向;
S1.1.2:状态信息表示为一个数组,其中,/>和/>为t 时刻移动机器人的速度和角速度信息,/>和/>为t 时刻移动机器人相对终点的距离和角度信息;
S1.1.3:对移动机器人和障碍物做质点处理,设置安全距离,设计完整的实验场景,其中包括移动机器人和多个障碍物,开始训练时,初始化移动机器人、障碍物的位置,要求移动机器人在当前场景下能避免互相碰撞和避开障碍物到达对应目的地,实现路径规划,在完整实验场景其中:代表障碍物的半径大小,/>代表机器人的半径大小,/>代表目标点的半径大小;/>为移动机器人到目标位置的距离,且如式(1)和式(2)所示:
式(1)
为移动机器人到障碍物的距离;
式(2)
为移动机器人速度的x、y轴分量;/>代表移动机器人航向夹角。
3.根据权利要求1所述的基于D3QN-PER移动机器人路径规划方法,其特征在于,在步骤S2中搭建深度强化学习框架的具体过程为,将环境中障碍物状态信息描述为24维向量;
S2.1.1:决策离散动作空间a的集合为A,离散动作空间A由航向角和速度组成,航向角,则集合A中有5个动作,包括向前移动,向左移动或左转,向右移动或右转;速度是包括角速度和线速度,设定前向动作/>=1.0m/s,/>=0.3rad/s,其余四个动作的/>=0.03m/s,/>=0.1rad/s;
S2.1.2:设计学习框架及学习目标,通过奖励函数进行评估是否完成学习目标,D3QN网络的奖励函数的形式如式(3)所示:
式(3)
其中: ;
其中,指到达目标点,K为安全检测阈值,K=0.4m,若移动机器人执行动作/>后未遇到障碍物与目标点的距离/>在0.4m范围之内,认定移动机器人到达目标点,给予+200奖励值;否则不给予任何奖励;
其中:
其中,指碰撞障碍物,A为碰撞检测阈值,A=0.2m,若移动机器人执行动作/>后与障碍物的之间距离/>在0.2m范围之内,认定移动机器人与障碍物发生碰撞,给与-200的惩罚值;否则不给予任何惩罚,
S2.1.3:采用的探索策略是,将 /> 设定为 0.3 ,如式(4)和式(5)所示:
式(4)
式(5)
其中:epsilon初始值为1.0,随着时间递减,当,结束贪婪策略;当/>,随机选择动作,当/>,计算出当前状态对应的动作Q值,并选择最大对应的动作/>作为最优动作/>;
S2.1.4:评价函数可以评估当下决策动作的好坏,指导移动机器人进行决策,基于马尔可夫决策过程,可以得到状态价值函数,如公式(6);
式(6)
由于上述算法会出现过度估计问题,因此利用Double DQN的思想,预测网络负责选择动作,目标网络计算目标 Q 值,得到新的状态价值函数,评估决策动作的累积奖励,获取最优的状态价值函数/>,如公式(7)最优状态价值函数:
式(7)
在Double DQN基础上,为了解决奖励偏置问题,将神经内部中原本的状态价值函数修改为两路,上路为状态价值函数/>,表示自身状态价值;下路为动作优势函数,表示评价动作a好坏程度,最后将两个合并得到每个动作的/>;基于上述网络结构,可以得到更加精确的状态价值函数,其公式(8)如下:
式(8)
一般将优势动作值函数减去某个状态下的平均值,提高算法稳定性。
4.根据权利要求1所述的基于D3QN-PER移动机器人路径规划方法,其特征在于:在步骤S3中,训练模型,获取路径规划策略具体按以下步骤;
移动机器人自身状态信息和环境障碍物状态信息进行处理
S3.1.1:将步骤S1.1中提取的障碍物信息,依次送入长短时记忆网络(Long Short TermMemory , LSTM),使用遗忘门/>进行重要信息筛选,然后输出门/>将重要信息保存到隐藏层/>中,在所有障碍物的状态信息/>输入后,转换为统一大小的状态向量/>,再与移动机器人自身状态信息/>合并为状态集/>,输送至D3QN模型的输入端;
S3.1.2:将训练过程中获取的数据作为四元组存储到经验回放池中移动机器人根据当前状态/>,利用步骤1.3中探索策略/>在步骤设计的离散动作空间/>选择动作/>,然后采用步骤四中奖励函数/>获取奖励值/>进行动作评估,移动机器人切换到下一个状态/>,并将四元组信息/>存储到回放经验池中;
S3.1.3:改进的优先回放机制采样对经验回放池进行小批量采样,然后通过改进的均匀采样和优先采样结合的优先经验回放机制选取 mini-batch 样本进行训练,优先级采样公式如式(9):
式(9)
确保样本的优先级与TD-error相关,确保最低优先级的转移概率也是非零的,如式(10)、式(11)和式(12);
式(10)
式(11)
其中,指数决定使用优先级的多少,当/>等于 0 时是随机均匀采样;/>是防止TD 接近为0时,缓存采样记忆单元的概率为0,
式(12)
其中,为转移样本/>的权重,/>用于调节偏差程度,且线性递减,通过调节权重/>的大小保证优先更新重要性高的转移样本,同时能够保证以一些概率更新重要性较低的转移样本,保证样本的多样性,提高网络的学习效率;
S3.1.4:计算目标Q值和时间差分误差,从而更新优先经验回放的优先级P,将采用步骤S3.1.2提取的四元组信息输入到D3QN-PER模型进行训练,首先,利用Double DQN思想,预测网络负责选择动作,目标网络计算目标 Q 值,计算时间差分误差TD-error,进而更新优先级P,初始化时预测神经网络/>和目标神经网络参数/>相同,即/>;如式(13)和式(14)所示;
目标Q值: 式(13)
时间差分误差TD-error:
式(14)
S3.1.5:计算损失函数,更新D3QN网络权重参数,根据预测网络和目标网络的输出Q值计算时间差分误差,搭建损失函数如公式(10)下,采用随机梯度下降法迭代更新权重,预测网络中/>实时更新,目标网络中/>每隔C步更新;
式(15)
其中,E表示数学期望,表示折损因子;
S3.1.6:循环训练,完成学习目标和设置回合数,获取路径规划策略,不断循环以上过程,以累积奖励值reward最大化为目标,完成设计的学习目标,更新机器人的路径规划策略,直至设定回合数训练完成,得到最优状态价值函数对应的最优动作,获取训练好的移动机器人路径规划策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210038938.7A CN114489059B (zh) | 2022-01-13 | 2022-01-13 | 基于d3qn-per移动机器人路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210038938.7A CN114489059B (zh) | 2022-01-13 | 2022-01-13 | 基于d3qn-per移动机器人路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114489059A CN114489059A (zh) | 2022-05-13 |
CN114489059B true CN114489059B (zh) | 2024-02-02 |
Family
ID=81512849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210038938.7A Active CN114489059B (zh) | 2022-01-13 | 2022-01-13 | 基于d3qn-per移动机器人路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114489059B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115206157A (zh) * | 2022-08-05 | 2022-10-18 | 白杨时代(北京)科技有限公司 | 一种无人潜航器寻路训练方法、装置及无人潜航器 |
CN115657678B (zh) * | 2022-10-28 | 2024-04-26 | 中国船舶重工集团公司第七一九研究所 | 面向复杂动态环境的水下无人潜航器航迹生成方法及系统 |
CN115993831B (zh) * | 2023-03-23 | 2023-06-09 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116611635B (zh) * | 2023-04-23 | 2024-01-30 | 暨南大学 | 基于车路协同及强化学习的环卫机器人车调度方法及系统 |
CN116827685B (zh) * | 2023-08-28 | 2023-11-14 | 成都乐超人科技有限公司 | 基于深度强化学习的微服务系统动态防御策略方法 |
CN117213501B (zh) * | 2023-11-09 | 2024-02-02 | 成都工业职业技术学院 | 一种基于分布式模型预测的机器人避障规划方法 |
CN117474295B (zh) * | 2023-12-26 | 2024-04-26 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
CN110632931A (zh) * | 2019-10-09 | 2019-12-31 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
WO2020056875A1 (zh) * | 2018-09-20 | 2020-03-26 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN113759901A (zh) * | 2021-08-12 | 2021-12-07 | 杭州电子科技大学 | 一种基于深度强化学习的移动机器人自主避障方法 |
WO2021248607A1 (zh) * | 2020-06-10 | 2021-12-16 | 深圳大学 | 一种基于深度强化学习的出租车调度方法及系统 |
-
2022
- 2022-01-13 CN CN202210038938.7A patent/CN114489059B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020056875A1 (zh) * | 2018-09-20 | 2020-03-26 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
CN110632931A (zh) * | 2019-10-09 | 2019-12-31 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
WO2021248607A1 (zh) * | 2020-06-10 | 2021-12-16 | 深圳大学 | 一种基于深度强化学习的出租车调度方法及系统 |
CN113759901A (zh) * | 2021-08-12 | 2021-12-07 | 杭州电子科技大学 | 一种基于深度强化学习的移动机器人自主避障方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114489059A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114489059B (zh) | 基于d3qn-per移动机器人路径规划方法 | |
CN113110592B (zh) | 一种无人机避障与路径规划方法 | |
CN111780777B (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
CN113485380B (zh) | 一种基于强化学习的agv路径规划方法及系统 | |
Grigorescu et al. | Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles | |
CN111142522A (zh) | 一种分层强化学习的智能体控制方法 | |
CN111950873B (zh) | 基于深度强化学习的卫星实时引导任务规划方法及系统 | |
CN112937564A (zh) | 换道决策模型生成方法和无人车换道决策方法及装置 | |
CN112550314B (zh) | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统 | |
CN112286218B (zh) | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 | |
CN115016534A (zh) | 一种基于记忆增强学习的无人机自主避障导航方法 | |
Sefati et al. | Towards tactical behaviour planning under uncertainties for automated vehicles in urban scenarios | |
CN114020013B (zh) | 一种基于深度强化学习的无人机编队避撞方法 | |
CN113641192A (zh) | 一种基于强化学习的无人机群智感知任务的路径规划方法 | |
CN113962012A (zh) | 无人机对抗策略优化方法及装置 | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN113485323B (zh) | 一种级联多移动机器人灵活编队方法 | |
CN113218400B (zh) | 一种基于深度强化学习的多智能体导航算法 | |
CN113110101A (zh) | 一种生产线移动机器人聚集式回收入库仿真方法及系统 | |
CN116494247A (zh) | 基于深度确定性策略梯度的机械臂路径规划方法及系统 | |
CN116804879A (zh) | 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法 | |
CN115344046A (zh) | 一种基于改进深度q网络算法的移动机器人路径规划 | |
CN115542733A (zh) | 基于深度强化学习的自适应动态窗口法 | |
Zhang et al. | Safety correction from baseline: Towards the risk-aware policy in robotics via dual-agent reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |