CN114859911A - 一种基于drl的四足机器人路径规划方法 - Google Patents
一种基于drl的四足机器人路径规划方法 Download PDFInfo
- Publication number
- CN114859911A CN114859911A CN202210477781.8A CN202210477781A CN114859911A CN 114859911 A CN114859911 A CN 114859911A CN 202210477781 A CN202210477781 A CN 202210477781A CN 114859911 A CN114859911 A CN 114859911A
- Authority
- CN
- China
- Prior art keywords
- quadruped robot
- obstacle
- grid
- robot
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000009471 action Effects 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000002787 reinforcement Effects 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 12
- 230000007613 environmental effect Effects 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims 1
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明提供一种基于DRL的四足机器人路径规划方法,首先通过四足机器人自带的RGB‑D相机对环境进行预扫描,基于栅格法对运动环境进行建模得到环境地图,进而分解为一系列具有二值信息的栅格单元,得到初始状态,将其作为深度卷积神经网络的输入,引入注意力机制优化网络结构以解决深度强化学习DQN算法未能很好利用关键局部信息的问题;通过端对端训练,结合四足机器人的运动特点设置奖励函数,利用置信区间上界探索策略对神经网络进行训练,得到四足机器人所能够执行的八个动作的Q值;最后运用人工势场算法不断探测环境中的动态障碍物并进行实时避碍,实现有效的四足机器人路径规划。
Description
技术领域
本发明属于机器人路径规划技术领域,涉及一种基于深度强化学习的路径规划算法,采用DQN对全局信息进行规划,确定出一条最优路径后,基于人工势场算法,预测环境环境中的动态障碍物信息,进行实时避碍。
背景技术
随着机器人技术的发展,足式机器人被广泛应用于实际,如:灾后搜救、军事侦察等领域。相比较轮式、履带式机器人,足式机器人只需要寻找一系列离散的足散点来接触地面,对于一些崎岖的地形有较好的适应性;并且由于足式机器人的腿部具有多个自由度,其在运动时重心位置的调整具有很好的灵活性。
在足式机器人中,四足机器人以良好的负载能力和行走稳定性被广泛应用于实际。随着人工智能的兴起,四足机器人正朝着自探索、自学习、自适应的方向发展。四足机器人的自主导航过程可以分为环境感知、路径规划和运动控制三个过程。路径规划作为其中间环节,是移动机器人实现自主导航的关键技术,移动机器人路径规划结果的优劣程度将直接影响机器人完成任务的质量。
在移动机器人领域,路径规划一直是一大研究热点,其目的是规划出一条从起始点到目标点的最优无碰撞路径。传统的路径规划方法是基于物理模型构建机器人的运动环境,然后结合传统的搜索算法如粒子群优化算法来完成路径规划。然而这些方法需要提前搭建环境地图,对陌生的场景泛化能力差,四足机器人常常因无法绕过障碍物而陷在局部之中。并且在机器人的许多应用环境中,机器人的工作环境是复杂多样不可预测的,这要求机器人需要具有一定的智能程度,即具有自主学习能力和对环境的探索能力。另一方面,由于机器人在未知环境下,由于机器人对环境信息的掌握并不是很充足,为了让机器人成功地在未知环境下成功、高效地实现路径规划,需要机器人系统具有一定程度的适应能力和处理紧急情况的能力。因此,提高四足机器人对环境的适应性,对环境进行感知,对提高其路径规划的能力具有重大意义。
根据路径规划过程对环境信息的已知程度,路径规划可以分为全局路径规划和局部路径规划。其中应用较为广泛的全局路径规划有A*算法、dijkstra算法、自由空间法、可视图法等;局部路径规划算法有人工势场算法、遗传算法、强化学习算法等。
近年来,强化学习在四足机器人技术领域备受关注,在路径规划问题上有优秀的表现。强化学习作为一种重要的机器学习方法,其采用了“尝试与失败”机制,基于马尔可夫策略与环境不断交互与试错,根据环境反馈的立即奖励修改状态到动作的映射策略,从而获得最优行为策略。由于强化学习在学习过程中不需要先验知识,是通过与环境交互累计奖励来优化策略,因此其在求解复杂优化决策问题方面有着广泛的应用前景。
发明内容
本发明的目的是提供一种基于DRL的四足机器人路径规划方法,以解决四足机器人在复杂障碍物环境下(在该环境中不仅存在静态的已知障碍物还存在未知的动态障碍物)的路径规划问题。首先基于马尔可夫策略,对四足机器人运动环境进行建模,设置奖励函数,运用DQN算法对全局信息进行规划,得到一条最优或较优的路径;然后在全局规划的基础上,基于人工势场算法不断探测环境中的动态障碍物,进行实时避碍,使四足机器人的自主学习率和运动安全性均得到提高,避免陷在局部状态,其运动鲁棒性更强。
为到达上述目的,本发明通过如下技术方案来实现:一种基于DRL的四足机器人路径规划方法,包括如下步骤:
步骤S1、通过四足机器人的RGB-D相机对环境进行预扫描,基于栅格法对运动环境进行建模得到环境地图,将四足机器人、障碍物、目标位置均通过栅格坐标表示,得到初始状态;
步骤S2、将四足机器人运动环境分解为一系列具有二值信息的栅格单元,从而分成被障碍物占据的栅格和可自由通行的栅格;
步骤S3、基于马尔可夫决策过程进行建模,并初始化基本参数;
步骤S4、引入注意力机制优化神经网络模型,并建立DQN网络;
步骤S5、将提取到的状态特征和目标位置作为网络的输入,根据置信区间上界策略进行探索动作;
步骤S6、接下来在全局路径规划的基础上,运用人工势场算法不断探测环境中的动态障碍物,进行实时避碍;
步骤S7、执行动作,得到当前奖励值,不断通过目标值网络更新权重,以获取最佳的期望奖励,实现估计值网络的训练;
步骤S8、重复执行步骤S4、步骤S5和步骤S6,确定出一条最优的全局路径。
具体地,所述步骤S1中,在进行路径规划前,对四足机器人获得的环境图像进行分割处理,基于栅格法,将其运动环境定义为20*20的栅格图;如果在栅格中发现障碍物,则定义为障碍物位置;如果在栅格中发现目标点,则定义为目标位置。
具体地,所述步骤S2中,栅格图以每个栅格为基本单元,主要包括两种状态:若栅格中存在障碍物则定义为障碍栅格,否则为自由栅格;环境Map由栅格mapi构成,如公式(1)所示:
Map={mapi,mapi=0或1,i为整数} (1)
其中mapi=0表示该格为自由栅格,mapi=1表示该格为障碍栅格。
具体地,所述S3中,建模方式和初始化参数的具体步骤如下:
步骤S3.1:基于马尔可夫决策过程对四足机器人的运动环境进行建模,其MDP定义如下:
(1)单智能体:四足机器人;
(2)动作空间:四足机器人沿着空白栅格进行移动,可以进行上下左右的移动,则其动作空间可以表示为A={0,1,2,3},其中,0代表东,1代表东南,2代表南,3代表西南,4代表西,5代表西北,6代表北,7代表东北,方向为顺时针编码方向;
(3)状态空间:包括四足机器人的状态信息和t时刻障碍物的状态信息;四足机器人在t时刻的状态信息定义为St={(x,y),θ/2π,dobj,daim},其中(x,y)表示四足机器人在当前地图中的坐标,θ/2π表示其朝向,dobj和daim分别表示距离最近障碍物和目标位置的距离。t时刻观察状态的第i个障碍物的状态表示为Oi={px,py,vx,vy,r},分别表示障碍物的位置[px,py]、速度[vx,vy]和大小半径r;
(4)奖励函数:智能体通过环境的反馈来评价动作好坏,通过学习后选择奖励值最大的动作;当四足机器人抵达目标点或者障碍物时,给予一个固定的奖励值,同时本次路径规划结束;当四足机器人处于其他状态时,机器人距离目标点越近,在每一步的移动中,获得的奖励值越大;相反机器人距离障碍物越近,在每一步的移动中,会得到一个负奖励;这里将两个奖励值之和作为四足机器人执行一次动作后获得的最终的奖励,通过公式(2)计算:
四足机器人在执行动作时的奖励值函数如公式(3)所示:
其中,若是四足机器人到达目标点,奖励值为200;若是四足机器人与障碍物的最小距离小于设定值,表示与障碍物发生碰撞,奖励值为-200,在这两个条件下,四足机器人都会停止训练,否则,此时的奖励值由两部分组成:四足机器人与最近障碍物的距离信息的负奖励值,四足机器人与目标点距离信息的正奖励值;
步骤S3.2:初始化深度强化学习模型的基本参数的具体步骤为:强化学习学习率α∈(0,1),奖励折扣因子γ∈(0,1),贪婪因子ε,经验回放池容量L,目标值网络权重更新步长C,估计值网络随机参数θ,目标值网络参数θ’,迭代次数N,Q值函数的更新表达式如公式(4)所示:
Q(st,a)=Q(st,at)+α(reward+γmaxQ(st+1,at+1)-Q(st,at) (4)
步骤S3.3:随机生成起始点坐标和目标点坐标,并确保起始点和目标点处不存在障碍物。
具体地,所述步骤S4中,基于DQN的全卷积神经网络模型如下:该网络模型由4个3*3空间尺寸的卷积层和1个1*1的特殊卷积层组成,层间使用线性整流单元(ReLU)作为激活函数,卷积层的最终输出输入到Softmax函数中;在机器人路径规划问题中,选取具有最高价值的移动方向就可以得到问题的最优解。在网络中引入注意力机制可以充分利用特征的关键局部信息,它通过结构化方式选取输入的一部分,降低数据的维度,减少计算量。同时,它能够使神经网络更专注于利用输入数据中更关键的信息。环境特征提取的具体步骤如下:
(1)首先利用MLP对状态向量St和Ot进行特征提取,生成固定长度的状态特征向量,再进行特征融合得到n+1固定长度的特征向量ei,i=1,...,n+1,其中n表示环境中障碍物的个数;
(2)把得到的特征向量ei作为第二层MLP的输入,将ei分别输入到多层感知机φf和φa中分别求得成对的人机交互特征fi和每个障碍物的注意力分数ai,其中注意力分数指的是障碍物对四足机器人产生干扰的可能性大小;
fi=φf(ei,wf),i=1,...,n+1 (5)
ai=φa(ei,wa),i=1,...,n+1 (6)
(3)利用类Softmax对获得的注意力分数ai进行归一化处理,与人机交互特征fi线性组合得到环境障碍物特征Ct,如公式(7)所示:
(4)将环境障碍物特征Ct与四足机器人特征St进行特征融合得到特征Ht,将特征Ht输入到DQN网络中得到四足机器人下一时刻的最佳动作。
具体地,所述S5中,四足机器人动作选择策略的具体步骤为:采用置信区间上界(upper-confidence-bound,UCB)作为神经网络的探索策略,置信区间用于衡量一个随机变量分布的置信水平,当置信区间越大,越说明该变量不确定因素更大;UCB策略就是采用置信水平实现对开发与探索之间的平衡,如公式(8)所示:
at=argmax(Qt(a)+Ut(a)) (8)
其中Nt(a)表示动作a被选择的次数,lnt表示动作总次数的对数,c是一个权值;随着训练的进行,当前动作被采样的次数很低时,Nt(a)不变,而lnt在增加,Ut(a)值变大,不确定性越高,对应动作被执行的概率越大;反之亦然。
具体地,所述S6中,基于人工势场算法的实时避碍过程的具体步骤为:基于人工势场的思想,将四足机器人周围的运动虚拟化,障碍物会对其产生一个“斥力”,目标物会对其产生一个“引力”,“引力”和“斥力”势场函数分别如公式(9)、公式(10)所示:
其中:φ、η分别为引力和斥力增益系数;
ρ0为障碍物能够影响四足机器人的距离;
ρg为目标点到四足机器人的欧氏距离;
ρ为障碍物影响区域到机器人的最小距离。
势场函数的负梯度即为相应的引力、斥力函数,分别如公式(11)、公式(12)表示:
机器人受到的合力F=Fatt+Frep,该力决定了机器人的行走路径。
具体地,所述S7中,执行动作的具体步骤为:
步骤S7.1:执行选择的动作at,并根据奖励函数计算出所得到的奖励值rewardt,到达一个新的状态statett+1;
步骤S7.2:将statet、at、rewardt、statet+1组成经验集<statet,at,rewardt,statet+1>存入记忆池;由于经验池回放池的容量为L,当经验集的数量超过其容量时,则删除最早的经验集;
步骤S7.3:从经验回放池D中采用随机抽样的方式抽取小批量随机样本进行训练,根据目标值网络和经验集i计算出目标值yi,计算方式如公式(13)如下:
步骤S7.4:通过反向传播使用梯度下降法更新估计值网络的权重θ;
步骤S7.5:每隔C步更新一次目标值网络的权重θ’,使得θ’=θ;
步骤S7.6:当四足机器人到达目标位置或者与障碍物发生碰撞时,本次路径规划结束;
步骤S7.7:重复训练步骤。
本发明中,整个路径规划算法分为全局路径规划和局部路径规划,使用栅格法对四足机器人运动环境进行建模,运用DQN算法对全局信息进行规划,确定出一条最优或较优的路线,接下来再基于人工势场算法探测环境中动态障碍物信息,进行实时避碍,使四足机器人的自主学习率和运动安全性均得到提高,其运动鲁棒性更强,具有良好的泛化能力。
附图说明
图1是以示例性实施方式提供的基于注意力机制和深度强化学习的四足机器人实时避障与路径规划方法流程图;
图2是以示例性实施方式提供的四足机器人运动方向图;
图3是以示例性实施方式提供的四足机器人实时避障过程中使用的人工势场法受力分析图;
图4是以示例性实施方式提供的四足机器人实时避障与路径规划方法中深度强化学习DQN算法模型图。
具体实施方式
一种基于DRL的四足机器人路径规划方法,参考图1,该方法包括以下步骤:
步骤S1、通过四足机器人的RGB-D相机对环境进行预扫描,基于栅格法对运动环境进行建模得到环境地图,将四足机器人、障碍物、目标位置均通过栅格坐标表示,得到初始状态;
步骤S2、将机器人运动环境分解为一系列具有二值信息的栅格单元,从而分成被障碍物占据的栅格和可自由通行的栅格;
步骤S3、基于马尔可夫决策过程进行建模,并初始化基本参数;
步骤S4、引入注意力机制优化神经网络模型,并建立DQN网络;
步骤S5、将提取到环境状态特征和目标位置作为网络的输入,根据ε-greedy策略选择动作;
步骤S6、接下来在全局路径规划的基础上,运用人工势场算法不断探测环境中的动态障碍物,进行实时避碍;
步骤S7、执行动作,得到当前奖励值,不断通过目标值网络更新权重,以获取最佳的期望奖励,实现估计值网络的训练;
步骤S8、重复执行步骤S4、步骤S5和步骤S6,确定出一条最优的全局路径。
所述步骤S1中包括以下步骤:
栅格法是由W.E.Howden在1986年提出的,他在进行路径规划时采用了栅格表示地图。栅格法将机器人规划空间分解成一系列具有二值信息的网络单元,以基本元素为最小栅格粒度,将地图进行栅格划分。赋予每个栅格一个通行因子后,路径规划问题就变成在栅格网上寻求两个栅格节点间的最优路径问题。
在进行路径规划前,对四足机器人RGB-D相机获得的环境图像进行分割处理,基于栅格法,将其运动环境定义为20*20的栅格图。如果在栅格中发现障碍物,则定义为障碍物位置;如果在栅格中发现目标点,则定义为目标位置。
所述步骤S2中包括以下步骤:
栅格图以每个栅格为基本单元,主要包括两种状态:若栅格中存在障碍物则定义为障碍栅格取值为1,否则为自由栅格取值为0。环境Map由栅格mapi构成,其可以描述如下:
Map={mapi,mapi=0或1,i为整数} (1)
其中mapi=0表示该格为自由栅格,mapi=1表示该格为障碍栅格。
所述步骤S3中包括以下步骤:
步骤S3.1:基于马尔可夫决策过程对四足机器人的运动环境进行建模,其MDP定义如下:
(1)单智能体:四足机器人;
(2)动作空间:四足机器人沿着空白栅格进行移动,可以进行上下左右的移动,则其动作空间可以表示为A={0,1,2,3},其中,0代表东,1代表东南,2代表南,3代表西南,4代表西,5代表西北,6代表北,7代表东北,方向为顺时针编码方向,四足机器人工作方向如图2所示;
(3)状态空间:包括四足机器人的状态信息和t时刻障碍物的状态信息。四足机器人在t时刻的状态信息定义为St={(x,y),θ/2π,dobj,daim},其中(x,y)表示四足机器人在当前地图中的坐标,θ/2π表示其朝向,dobj和daim分别表示距离最近障碍物和目标位置的距离。t时刻观察状态的第i个障碍物的状态表示为Oi={px,py,vx,vy,r},分别表示障碍物的位置[px,py]、速度[vx,vy]和大小半径r;
(4)奖励函数:智能体通过环境的反馈来评价动作好坏,通过学习后选择奖励值最大的动作;当四足机器人抵达目标点或者障碍物时,给予一个固定的奖励值,同时本次路径规划结束;当四足机器人处于其他状态时,机器人距离目标点越近,在每一步的移动中,获得的奖励值越大;相反机器人距离障碍物越近,在每一步的移动中,会得到一个负奖励;这里将两个奖励值之和作为四足机器人执行一次动作后获得的最终的奖励,通过公式(2)计算:
四足机器人在执行动作时的奖励值函数如公式(3)所示:
其中,若是四足机器人到达目标点,奖励值为200;若是四足机器人与障碍物的最小距离小于设定值,表示与障碍物发生碰撞,奖励值为-200,在这两个条件下,四足机器人都会停止训练,否则,此时的奖励值由两部分组成:四足机器人与最近障碍物的距离信息的负奖励值,四足机器人与目标点距离信息的正奖励值;
步骤S3.2:初始化深度强化学习模型的基本参数的具体步骤为:设置强化学习学习率α=0.01,奖励折扣因子γ=0.9,贪婪因子ε,经验回放池容量L=10000,目标值网络权重更新步长C,估计值网络随机参数θ,目标值网络参数θ’,迭代次数N=12000,Q值函数的更新表达式如公式(4)所示:
Q(st,a)=Q(st,at)+α(reward+γmaxQ(st+1,at+1)-Q(st,at) (4)
所述步骤S4中包括以下步骤:首先设计一个基于DQN的全卷积神经网络模型,可以最大限度地保留图像原有的空间信息,该网络模型由4个3*3空间尺寸的卷积层和1个1*1的特殊卷积层组成,层间使用线性整流单元(ReLU)作为激活函数,卷积层的最终输出输入到Softmax函数中;由于在机器人路径规划问题中,选取具有最高价值的移动方向就可以得到问题的最优解;在网络中引入注意力机制可以充分利用特征的关键局部信息,它通过结构化方式选取输入的一部分,降低数据的维度,减少计算量。同时,它能够使神经网络更专注于利用输入数据中更关键的信息。具体步骤如下:
(1)首先利用MLP对状态向量St和Ot进行特征提取,生成固定长度的状态特征向量,再进行特征融合得到n+1固定长度的特征向量ei,i=1,...,n+1,其中n表示环境中障碍物的个数;
(2)把得到的特征向量ei作为第二层MLP的输入。将ei分别输入到多层感知机φf和φa中分别求得成对的人机交互特征fi和每个障碍物的注意力分数ai,其中注意力分数指的是障碍物对四足机器人产生干扰的可能性大小;
fi=φf(ei,wf),i=1,...,n+1 (5)
ai=φa(ei,wa),i=1,...,n+1 (6)
(3)利用类Softmax对获得的注意力分数ai进行归一化处理,与人机交互特征fi线性组合得到环境障碍物特征Ct,如公式(7)所示:
(4)将环境障碍物特征Ct与四足机器人特征St进行特征融合得到特征Ht,将特征Ht输入到DQN网络中得到四足机器人下一时刻的最佳动作。
所述步骤S5中包括以下步骤:步骤S5中动作选择策略具体过程如下:ε-greedy探索策略在训练初期由于样本数量小不能有助于四足机器人很好的探索最优动作,本发明采用置信区间上界(upper-confidence-bound,UCB)作为神经网络的探索策略;置信区间用于衡量一个随机变量分布的置信水平,当置信区间越大,越说明该变量不确定因素更大,UCB策略就是采用置信水平实现对开发与探索之间的平衡,如公式(8)所示:
at=argmax(Qt(a)+Ut(a)) (8)
通常其中Nt(a)表示动作a被选择的次数,lnt表示动作总次数的对数,c是一个权值。随着训练的进行,当前动作被采样的次数很低时,Nt(a)不变,而lnt在增加,Ut(a)值变大,不确定性越高,对应动作被执行的概率越大;反之亦然。
所述步骤S6中提到一种基于人工势场的局部路径规划算法包括以下步骤:
势场的方法是由Khatib最先提出的,他把机械手或者是移动机器人在环境中的运动视为在一种抽象的人造受力场中运动:目标点对机器人产生引力,障碍物对机器人产生斥力,最后基于人工势场的思想,将四足机器人周围的运动虚拟化,障碍物会对其产生一个“斥力”,目标物会对其产生一个“引力”。引力和斥力势场函数分别如公式(9)、公式(10)所示:
其中:φ、η分别为引力和斥力增益系数;
ρ0为障碍物能够影响四足机器人的距离;
ρg为目标点到四足机器人的欧氏距离;
ρ为障碍物影响区域到机器人的最小距离。
势场函数的负梯度即为相应的引力、斥力函数,分别如公式(11)、公式(12)表示:
机器人受到的合力F=Fatt+Frep,该力决定了机器人的行走路径,如图3所示。
所述步骤S7中,本发明算法模型如图4所示,执行动作的过程包括以下步骤:
步骤S7.1:执行选择的动作at,并根据奖励函数计算出所得到的奖励值rewardt,到达一个新的状态statett+1;
步骤S7.2:将statet、at、rewardt、statet+1组成经验集<statet,at,rewardt,statet+1>存入记忆池;由于经验池回放池的容量为L,当经验集的数量超过其容量时,则删除最早的经验集;
步骤S7.3:从经验回放池D中采用随机抽样的方式抽取小批量随机样本进行训练,根据目标值网络和经验集i计算出目标值yi,计算方式如公式(13)如下:
步骤S7.4:通过反向传播使用梯度下降法更新估计值网络的权重θ;
步骤S7.5:每隔C步更新一次目标值网络的权重θ’,使得θ’=θ;
步骤S7.6:当四足机器人到达目标位置或者与障碍物发生碰撞时,本次路径规划结束;
步骤S7.7:重复训练步骤。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.一种基于DRL的四足机器人路径规划方法,其特征在于,包括如下步骤:
步骤S1、通过四足机器人的RGB-D相机对环境进行预扫描,基于栅格法对运动环境进行建模得到环境地图,将四足机器人、障碍物、目标位置均通过栅格坐标表示,得到初始状态;
步骤S2、将四足机器人运动环境分解为一系列具有二值信息的栅格单元,从而分成被障碍物占据的栅格和可自由通行的栅格;
步骤S3、基于马尔可夫决策过程进行建模,并初始化基本参数;
步骤S4、引入注意力机制优化神经网络模型,并建立DQN网络;
步骤S5、将提取到的状态特征和目标位置作为网络的输入,根据置信区间上界策略进行探索动作;
步骤S6、运用人工势场算法不断探测环境中的动态障碍物,进行实时避碍;
步骤S7、执行动作,得到当前奖励值,不断通过目标值网络更新权重,以获取最佳的期望奖励,实现估计值网络的训练;
步骤S8、重复执行步骤S4、步骤S5和步骤S6,确定出一条最优的全局路径。
2.如权利要求1所述的一种基于DRL的四足机器人路径规划方法,其特征在于:步骤S1具体过程如下:在进行路径规划前,对四足机器人获得的环境图像进行分割处理:基于栅格法,将其运动环境定义为20*20的栅格图,如果在栅格中发现障碍物,则定义为障碍物位置;如果在栅格中发现目标点,则定义为目标位置。
3.如权利要求1所述的一种基于DRL的四足机器人路径规划方法,其特征在于:步骤S2具体过程如下:栅格图以每个栅格为基本单元,包括两种状态:若栅格中存在障碍物则定义为障碍栅格,否则为自由栅格;环境Map由栅格mapi构成,其描述如下:
Map={mapi,mapi=0或1,i为整数} (1)
其中,mapi=0表示该格为自由栅格,mapi=1表示该格为障碍栅格。
4.如权利要求1所述的一种基于DRL的四足机器人路径规划方法,其特征在于:步骤S3具体包括如下步骤:
步骤S3.1:基于马尔可夫决策过程对四足机器人的运动环境进行建模,其MDP定义如下:
(1)单智能体:四足机器人;
(2)动作空间:四足机器人沿着空白栅格进行移动,进行上下左右的移动,则其动作空间可以表示为A={0,1,2,3,4,5,6,7},其中,0代表东,1代表东南,2代表南,3代表西南,4代表西,5代表西北,6代表北,7代表东北,方向为顺时针编码方向;
(3)状态空间:包括四足机器人的状态信息和t时刻障碍物的状态信息;四足机器人在t时刻的状态信息定义为St={(x,y),θ/2π,dobj,daim},其中(x,y)表示四足机器人在当前地图中的坐标,θ/2π表示其朝向,dobj和daim分别表示距离最近障碍物和目标位置的距离,t时刻观察状态的第i个障碍物的状态表示为Oi={px,py,vx,vy,r},分别表示障碍物的位置[px,py]、速度[vx,vy]和大小半径r;
(4)奖励函数:智能体通过环境的反馈来评价动作好坏,通过学习后选择奖励值最大的动作;当四足机器人抵达目标点或者障碍物时,给予一个固定的奖励值,同时本次路径规划结束;当四足机器人处于其他状态时,机器人距离目标点越近,在每一步的移动中,获得的奖励值越大;相反机器人距离障碍物越近,在每一步的移动中,会得到一个负奖励;将两个奖励值之和作为四足机器人执行一次动作后获得的最终的奖励,通过公式(2)计算:
四足机器人在执行动作时的奖励值函数如公式(3)所示:
其中,若四足机器人到达目标点,奖励值为200;若四足机器人与障碍物的最小距离小于设定值,表示与障碍物发生碰撞,奖励值为-200,在这两个条件下,四足机器人都会停止训练,否则,此时的奖励值由两部分组成:四足机器人与最近障碍物的距离信息的负奖励值,四足机器人与目标点距离信息的正奖励值;
步骤S3.2:初始化深度强化学习模型的基本参数,基本参数包括:强化学习学习率α∈(0,1),奖励折扣因子γ∈(0,1),贪婪因子ε,经验回放池容量L,目标值网络权重更新步长C,估计值网络随机参数θ,目标值网络参数θ’,迭代次数N,Q值函数的更新表达式如公式(4)所示:
Q(st,a)=Q(st,at)+α(reward+γmaxQ(st+1,at+1)-Q(st,at) (4)
步骤S3.3:随机生成起始点坐标和目标点坐标,并确保起始点和目标点处不存在障碍物。
5.如权利要求1所述的一种基于DRL的四足机器人路径规划方法,其特征在于:步骤S4中的具体过程如下:
步骤S4.1:设计一个基于DQN的全卷积神经网络模型,能够最大限度地保留图像原有的空间信息,该网络模型由4个3*3空间尺寸的卷积层和1个1*1的特殊卷积层组成,层间使用线性整流单元作为激活函数,卷积层的最终输出输入到Softmax函数中;
步骤S4.2:在机器人路径规划问题中,选取具有最高价值的移动方向就得到问题的最优解;在网络中引入注意力机制能充分利用特征的关键局部信息,它通过结构化方式选取输入的一部分,降低数据的维度,减少计算量;同时,它能够使神经网络更专注于利用输入数据中更关键的信息,具体步骤如下:
(1)首先利用MLP对状态向量St和Ot进行特征提取,生成固定长度的状态特征向量,再进行特征融合得到n+1固定长度的特征向量ei,i=1,...,n+1,其中n表示环境中障碍物的个数;
(2)把得到的特征向量ei作为第二层MLP的输入,将ei分别输入到多层感知机φf和φa中分别求得成对的人机交互特征fi和每个障碍物的注意力分数ai,其中注意力分数指的是障碍物对四足机器人产生干扰的可能性大小;
fi=φf(ei,wf),i=1,...,n+1 (5)
ai=φa(ei,wa),i=1,...,n+1 (6)
(3)利用类Softmax对获得的注意力分数ai进行归一化处理,与人机交互特征fi线性组合得到环境障碍物特征Ct,如公式(7)所示:
(4)将环境障碍物特征Ct与四足机器人特征St进行特征融合得到特征Ht,将特征Ht输入到DQN网络中得到四足机器人下一时刻的最佳动作。
8.如权利要求1所述的一种基于DRL的四足机器人路径规划方法,其特征在于:步骤S7包括如下步骤:
步骤S7.1:执行选择的动作at,并根据奖励函数计算出所得到的奖励值rewardt,到达一个新的状态statett+1;
步骤S7.2:将statet、at、rewardt、statet+1组成经验集<statet,at,rewardt,statet+1>存入记忆池;由于经验池回放池的容量为L,当经验集的数量超过其容量时,则删除最早的经验集;
步骤S7.3:从经验回放池D中采用随机抽样的方式抽取小批量随机样本进行训练,根据目标值网络和经验集i计算出目标值yi,计算方式如公式(13)如下:
步骤S7.4:通过反向传播使用梯度下降法更新估计值网络的权重θ;
步骤S7.5:每隔C步更新一次目标值网络的权重θ’,使得θ’=θ;
步骤S7.6:当四足机器人到达目标位置或者与障碍物发生碰撞时,本次路径规划结束;
步骤S7.7:重复训练步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210477781.8A CN114859911A (zh) | 2022-04-28 | 2022-04-28 | 一种基于drl的四足机器人路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210477781.8A CN114859911A (zh) | 2022-04-28 | 2022-04-28 | 一种基于drl的四足机器人路径规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114859911A true CN114859911A (zh) | 2022-08-05 |
Family
ID=82635762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210477781.8A Pending CN114859911A (zh) | 2022-04-28 | 2022-04-28 | 一种基于drl的四足机器人路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114859911A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116429137A (zh) * | 2023-03-22 | 2023-07-14 | 上海知而行科技有限公司 | 用于清扫装置的遍历路径生成方法及设备 |
CN116619389A (zh) * | 2023-07-17 | 2023-08-22 | 中山大学 | 一种小型仿生鼠四足机器人的步态控制方法 |
CN117213501A (zh) * | 2023-11-09 | 2023-12-12 | 成都工业职业技术学院 | 一种基于分布式模型预测的机器人避障规划方法 |
CN117631547B (zh) * | 2024-01-26 | 2024-04-26 | 哈尔滨工业大学 | 一种小天体不规则弱引力场下的四足机器人着陆控制方法 |
-
2022
- 2022-04-28 CN CN202210477781.8A patent/CN114859911A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116429137A (zh) * | 2023-03-22 | 2023-07-14 | 上海知而行科技有限公司 | 用于清扫装置的遍历路径生成方法及设备 |
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN115993831B (zh) * | 2023-03-23 | 2023-06-09 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116619389A (zh) * | 2023-07-17 | 2023-08-22 | 中山大学 | 一种小型仿生鼠四足机器人的步态控制方法 |
CN116619389B (zh) * | 2023-07-17 | 2023-12-08 | 中山大学 | 一种小型仿生鼠四足机器人的步态控制方法 |
CN117213501A (zh) * | 2023-11-09 | 2023-12-12 | 成都工业职业技术学院 | 一种基于分布式模型预测的机器人避障规划方法 |
CN117213501B (zh) * | 2023-11-09 | 2024-02-02 | 成都工业职业技术学院 | 一种基于分布式模型预测的机器人避障规划方法 |
CN117631547B (zh) * | 2024-01-26 | 2024-04-26 | 哈尔滨工业大学 | 一种小天体不规则弱引力场下的四足机器人着陆控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114859911A (zh) | 一种基于drl的四足机器人路径规划方法 | |
Haarnoja et al. | Reinforcement learning with deep energy-based policies | |
Mohanan et al. | A survey of robotic motion planning in dynamic environments | |
CN111142522B (zh) | 一种分层强化学习的智能体控制方法 | |
Ram et al. | Using genetic algorithms to learn reactive control parameters for autonomous robotic navigation | |
Xia et al. | Neural inverse reinforcement learning in autonomous navigation | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
Kala et al. | Fusion of probabilistic A* algorithm and fuzzy inference system for robotic path planning | |
Lee | Heterogeneous-ants-based path planner for global path planning of mobile robot applications | |
Pei et al. | An improved dyna-q algorithm for mobile robot path planning in unknown dynamic environment | |
Das et al. | Co-operative control of a team of autonomous underwater vehicles in an obstacle-rich environment | |
Kanezaki et al. | Goselo: Goal-directed obstacle and self-location map for robot navigation using reactive neural networks | |
CN113253733B (zh) | 一种基于学习和融合的导航避障方法、装置及系统 | |
Xie et al. | Learning with stochastic guidance for robot navigation | |
Ntakolia et al. | Autonomous path planning with obstacle avoidance for smart assistive systems | |
Guo et al. | A fusion method of local path planning for mobile robots based on LSTM neural network and reinforcement learning | |
Liu et al. | Robot search path planning method based on prioritized deep reinforcement learning | |
Xue et al. | Multi-agent deep reinforcement learning for uavs navigation in unknown complex environment | |
Amar et al. | Hybrid metaheuristic approach for robot path planning in dynamic environment | |
Sundarraj et al. | Route Planning for an Autonomous Robotic Vehicle Employing a Weight-Controlled Particle Swarm-Optimized Dijkstra Algorithm | |
US20220269948A1 (en) | Training of a convolutional neural network | |
Raiesdana | A hybrid method for industrial robot navigation | |
CN115826586B (zh) | 一种融合全局算法和局部算法的路径规划方法及系统 | |
Liu et al. | Reinforcement learning for robot navigation in nondeterministic environments | |
CN114721273B (zh) | 一种固定时间收敛零化神经网络的多智能体编队控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |