CN109407676A - 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 - Google Patents
基于DoubleDQN网络和深度强化学习的移动机器人避障方法 Download PDFInfo
- Publication number
- CN109407676A CN109407676A CN201811562344.6A CN201811562344A CN109407676A CN 109407676 A CN109407676 A CN 109407676A CN 201811562344 A CN201811562344 A CN 201811562344A CN 109407676 A CN109407676 A CN 109407676A
- Authority
- CN
- China
- Prior art keywords
- network
- mobile robot
- coordinate system
- doubledqn
- barrier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000009471 action Effects 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000004888 barrier function Effects 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 13
- 238000013461 design Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 238000007796 conventional method Methods 0.000 abstract description 2
- 238000013480 data collection Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241001143500 Aceraceae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Aviation & Aerospace Engineering (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
基于DoubleDQN网络和深度强化学习的移动机器人避障方法,它属于移动机器人导航技术领域。本发明解决了现有的深度强化学习避障方法存在的响应延迟高、所需训练时间长以及避障成功率低的问题。本发明设计了特殊的决策动作空间以及回报函数、将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行,可以有效提高训练效率,解决了现有深度强化学习避障方法需要的训练时间长的问题;本发明使用Double DQN网络对动作值进行无偏估计,防止陷入局部最优,克服现有深度强化学习避障方法避障成功率低和响应延迟高的问题,与现有方法相比,本发明可以将网络训练时间缩短到现有技术的20%以下,且保持100%的避障成功率。本发明可以应用于移动机器人导航技术领域。
Description
技术领域
本发明属于移动机器人导航技术领域,具体涉及一种移动机器人避障方法。
背景技术
随着移动机器人行业的发展,避碰是许多机器人应用的核心,例如在多智能体协调,家庭服务机器人和仓库机器人等。然而,在寻找所用时间最短的路径的同时,还要保证准确的避障效果仍然是一项非常具有挑战性的工作。因为在很多情况下,需要在准确避障的同时,能以最短的时间抵达给定目标位置。
目前根据移动机器人间是否互相通信,将避障算法类型分为两大类,分别是通信类和非通信类。然而在实际应用场景中,我们有时候很难实时获取可靠的通信。关于非通信类型的避碰的现有工作可以大致分为两类,基于响应和基于局部路径规划。其中基于局部路径规划的方法通过预测其它移动机器人或者障碍物的运动趋势来明确智能体之间的未来状态的演变,然而,在拥挤的环境中,该类算法通常会将当前所在的区域内大部分面积标记为不安全区域,这将会导致机器人冻结问题。此外,由于模型和测量的不确定性,特别是在未来几秒内,其他智能体的实际路径可能不符合预测路径。因此,基于轨迹的方法也需要以高速率(传感器刷新率)运行,这将占用更多计算资源以及时间。
对于基于响应类的避障算法分为自主学习类和非自主学习类,非自主学习类的算法诸如人工势场法等算法,但由于当车子距离障碍物过近或者离目标位置太远将会导致局部震荡等一系列问题,虽然后续有改进版本的人工势场法,但也使得其参数变得很难整定,实际应用起来很难。对于自主学习类的移动机器人避障算法,目前主要是基于深度强化学习。目前应用深度强化学习进行避障较为成功的案例有诸如基于预测控制的深度强化学习避障(Decentralized Non-communicating Multiagent Collision Avoidance with DeepReinforcement Learning,CADRL),基于DDPG的深度强化学习避障(Virtual to real DeepReinforcement Learning Continuous Control of Mobile Robots for MaplessNavigation,VDRL-CCMRMN),以及DQN算法。
然而对于基于预测控制的深度强化学习(CADRL)的避障算法,首先其基于预测控制来线性预测行人的未来状态,这使得获取的系统状态并不准确;其次,其对动作空间里所有的动作采取的是逐个评估的方法,这意味着在决策时会加大响应延迟;最后,CADRL算法里涉及到的奖励回报仅仅线性叠加到动作值上,并没有真正参与到网络权值的更新,这不能称之为深度强化学习,因为其避障能力并不是学习出来的。
对于DQN算法,由于其只有一个网络,该网络即参与动作值的估计,也参与决策,产生的估计往往是有偏估计,易陷入局部最优,导致的结果是在避障性能上表现不佳,避障成功率不高。
对于基于DDPG的深度强化学习(VDRL-CCMRMN)避障算法,由于该算法是端到端的训练方式,使得移动机器人训练得到避障能力以及寻找目标能力所花费的时间代价巨大。
发明内容
本发明的目的是为解决现有的深度强化学习避障方法存在的响应延迟高、所需训练时间长以及避障成功率低的问题。
本发明为解决上述技术问题采取的技术方案是:基于DoubleDQN网络和深度强化学习的移动机器人避障方法,该方法包括以下步骤:
步骤一:利用移动机器人上的Kinect对移动机器人所处于的当前环境进行地图构建,并提取出移动机器人所处于的当前环境中的所有障碍物信息;
步骤二:将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下,将局部坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息作为Double DQN网络的状态输入;
步骤三:设计Double DQN网络输出的决策动作空间;
步骤四:设计Double DQN网络的回报函数,回报函数由步长奖励、碰撞惩罚、耗时惩罚和抵达目标位置奖励组成;
步骤五:确定Double DQN网络的决策输出策略;
步骤六:建立Double DQN网络,并对建立的Double DQN网络进行训练,直至训练过程中移动机器人每个回合获得的总体奖励不再增加时停止训练,得到训练好的Double DQN网络,将训练好的Double DQN网络应用于移动机器人的避障。
本发明的有益效果是:本发明的基于DoubleDQN网络和深度强化学习的移动机器人避障方法,本发明设计了特殊的决策动作空间以及回报函数、同时本发明将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行,可以有效提高训练效率,解决了现有的深度强化学习避障方法需要的训练时间长的问题;而且本发明通过使用Double DQN网络来对动作值进行估计,为无偏估计,防止陷入局部最优,克服了现有的深度强化学习避障方法的避障成功率低和响应延迟高的问题,与现有方法相比,本发明的方法可以将网络训练时间缩短到现有技术的20%以下,且保持100%的避障成功率。
附图说明
图1是本发明的基于DoubleDQN网络和深度强化学习的移动机器人避障方法的流程图;
图2是本发明将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下的示意图;
图中的v表示移动机器人速度(包括方向和大小)在局部坐标系下的表现形式,X和Y分别代表全局坐标系的X轴和Y轴,x和y分别代表局部坐标系的x轴和y轴;m为坐标轴的单位;
图3是本发明的动作空间的示意图;
图4是本发明的动作噪声ε的衰减曲线图;
图5是本发明的双线程异步数据收集方法与单线程异步数据收集方法的对比图;
图中虚线代表双线程异步数据收集方法,实线代表单线程异步数据收集方法。
具体实施方式
具体实施方式一:如图1所示,本实施方式所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法,该方法包括以下步骤:
步骤一:利用移动机器人上的Kinect对移动机器人所处于的当前环境进行地图构建,并提取出移动机器人所处于的当前环境中的所有障碍物信息;
步骤二:将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下,将局部坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息作为Double DQN网络的状态输入;
步骤三:设计Double DQN网络输出的决策动作空间;
步骤四:设计Double DQN网络的回报函数,回报函数由步长奖励、碰撞惩罚、耗时惩罚和抵达目标位置奖励组成;
步骤五:确定Double DQN网络的决策输出策略;
步骤六:建立Double DQN网络,并对建立的Double DQN网络进行训练,直至训练过程中移动机器人每个回合获得的总体奖励不再增加时停止训练,得到训练好的Double DQN网络,将训练好的Double DQN网络应用于移动机器人的避障。
本实施方式采用Kinect采集的图像具有视觉深度信息,在进行地图构建的同时,可以分别识别出是箱子、行人等等。特别的,在本发明试验中采用的是第二代kinect,即kinect2。
本实施方式设计输出的决策动作空间,可以使得训练收敛速度加快;
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤二的具体过程为:
将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下,坐标变换如图2所示,图中的v表示移动机器人速度(包括方向和大小)在局部坐标系下的表现形式;将局部坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息作为DoubleDQN网络的状态输入;所述局部坐标系是以移动机器人自身为坐标原点,以移动机器人指向目标位置的方向为x轴正方向,y轴的方向满足右手定则,且垂直于x轴方向。
DoubleDQN网络的状态输入s′的表达式如公式(1)所示:
其中:sjn代表全局坐标下的网络输入状态,rotate(sjn)代表对全局坐标下的网络输入状态进行坐标变换,vx′代表移动机器人速度在局部坐标系下的x轴分量(为标量),vy′代表移动机器人速度在局部坐标系下的y轴分量(为标量),代表障碍物在局部坐标系下的横坐标x,代表障碍物在局部坐标系下的纵坐标y,代表障碍物的半径大小;
dg为当前时刻移动机器人到目标位置的直线距离,且dg=||pg-p||2,pg为坐标变换后的目标位置,p为移动机器人自身的位置,da为当前时刻移动机器人与障碍物之间的直线距离,且 为坐标变换后的障碍物位置,r为移动机器人半径大小,为坐标变换后的障碍物速度,代表障碍物速度在局部坐标系下的x轴分量,代表障碍物速度在局部坐标系下的y轴分量;θ代表移动机器人速度与局部坐标系的x轴的夹角。
本实施方式中的θ可以表示候选动作方向与局部坐标系的x轴的夹角。
具体实施方式三:本实施方式与具体实施方式一不同的是:所述步骤三的具体过程为:
在局部坐标系下,设计DoubleDQN网络输出的决策动作空间a的集合为A,其中:集合A是指以局部坐标系的x轴方向为中心方向,以与中心方向角度相差-90°,-85°,-80°,···0°,5°,···85°,90°的一组候选速度方向的集合,则集合A中包含有37个候选动作。动作空间示意图如图3所示,候选动作如虚线箭头所示。
具体实施方式四:本实施方式与具体实施方式一不同的是:所述步骤四的具体过程为:
DoubleDQN网络的回报函数R(sjn,a)的形式如公式(2)所示:
R(sjn,a)=R1+R2+R3+R4 (2)
其中:R1=k·(dg_last-dg),R1表示步长奖励,代表当前时刻移动机器人与目标位置的直线距离和上一时刻移动机器人与目标位置的直线距离的差分,dg表示当前时刻移动机器人与目标位置的直线距离,dg_last表示上一时刻移动机器人与目标位置的直线距离;k表示步长奖励系数;R1表征每次决策下移动机器人与给定目标位置的距离缩短的程度;
R2表示碰撞惩罚,da和da_min分别表示当前时刻移动机器人与障碍物之间的直线距离以及移动机器人与障碍物之间的最小安全距离;车子与障碍物相距小于某一值可视为发生碰撞,则进行惩罚;
R3=-c·timer_count,R3表示耗时惩罚,代表对当前移动机器人到目标位置所用时间取负值,其表征所用的时间越多,对该智能体的惩罚则越大,可以在一定程度上刺激其在训练过程中找到最优路径使得抵达目标位置所用的时间最短;timer_count表示移动机器人到目标位置所用时间,c代表耗时惩罚系数;
R4表示若到达目标位置,则给定一个奖励,否则不给予任何奖励与惩罚。
具体实施方式五:本实施方式与具体实施方式一不同的是:所述步骤五的具体过程为:
对于视野中只有一个障碍物的情况:采用公式(3)所示的ε-greedy输出策略,所有动作值由DoubleDQN网络输出一次性给出;
其中:action代表网络的决策输出,epsilon表示一个随机产生的0到1之间的浮点数,action_space表示决策动作空间a的集合A,即包含所有候选动作,random函数表示从集合A内随机取一个动作;Q(state)表示将当前状态state输入到网络Q中,由于网络有37个输出(动作值,action value)对应37个候选动作,maxQ(state)表示从网络Q的输出中取最大值(最大动作值,action value),表示网络Q输出的最大值所对应的候选动作;即求出动作值最大的那个动作;
即在决策的时候并非完全是按照动作值最大的动作进行决策的,而是按照某个小概率进行随机给定决策,其它大概率以贪婪算法(按照动作值最大的动作进行决策)给定决策。
Double DQN算法中涉及到两个网络Q1和Q2,属于现有成熟的技术。Q1表示最终要输出的网络(目标网络),Q2表示训练过程中实时更新的网络,大致流程为:
训练时:1)训练时,每个程序周期都对Q2进行更新;2)每隔500个训练程序周期,利用Q2对Q1进行更新。
数据采集时:Q1网络和Q2网络用以互相估计,为无偏估计,防止陷入局部最优。
Q网络类似于一个评分器,输入是当前的状态state,输出是当前所有候选动作的评分(即动作值,action value),然后按照每个动作所得的分数来进行动作选取。
动作噪声ε随时间衰减,ε的表达式如公式(4)所示,衰减曲线如图4所示。
式中train_time代表训练时间;
对于视野中大于一个障碍物的情况:双智能体网络仍可应用与多智能体情况,用表示与移动机器人相邻的第i个障碍物,则移动机器人与第i个障碍物组成的状态的表达式为:
s表示移动机器人在局部坐标系下的状态;
则DoubleDQN网络的决策输出策略的表达式如公式(6)所示;
其中:表示利用全部的n个障碍物对当前某个待评估的候选动作的评分,则每个候选动作对应得到n个分数,在n个分数中取最低分,则代表每个候选动作对应的最低分;代表最高的最低分所对应的候选动作。
这类似于我们现实中的投票机制。将37个候选动作当作37个候选人,将n个障碍物当作n个投票人。对于这个n个投票人,每个人都对所有候选人进行投票,即我们要利用训练得到的双智能体网络去获取到所有的的值。反之,对于某一个候选人ak,k=0,1,···,73,其目前拥有了n个投票人给的n个分数,我们在这n个分数里取最低分,即对所有的37个候选人(候选动作)都采取这种得分方式。当对所有的候选人(候选动作)评分完毕之后,我们在所有候选人(候选动作)里取一个得分最高的候选人(候选动作)进行决策输出,即
之所以在给每个候选动作评分的时候取的是所有分数里最低的一个,原因在于对与某个候选人取得所有的n个分数里面,取最低分意味着我们在选取动作过程中做了最坏的打算,也就是保证了如果在最坏的情况下车子都能成功避障,那么其它情况车子也一定能正常避障,也即保证车子能以最大的裕度去通过多障碍物情况。
具体实施方式六:本实施方式与具体实施方式一不同的是:所述步骤六的具体过程为:
步骤六一、建立大小为(14,50,50,50,37)、采用非线性全连接、激活函数为ReLU的Double DQN网络,其中:14表示Double DQN网络有14个输入(对应着14维的输入状态),(50,50,50)代表Double DQN网络有三个神经元个数为50的隐藏层,37代表37个输出动作;
步骤六二、随机初始化Double DQN网络的参数;
步骤六三、利用反向传播规则对Double DQN网络进行训练,将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行;
步骤六四、直至训练过程中移动机器人每个回合获得的总体奖励(reward)不再增加(趋于稳定,收敛)时,则停止训练,得到训练好的Double DQN网络;
步骤六五、将训练好的Double DQN网络应用于移动机器人的避障。
本实施方式采用的是双线程异步数据收集方法,也就是将仿真的数据采集与网络训练分别放在两个独立的线程里面进行,为了显示出本发明的异步训练方法的有效性,将本发明的双线程异步数据收集方法与传统的单线程异步数据收集方法进行了对比,给出如图5所示的数据采集对比图。
本实施方式将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行,可以有效提高训练效率。
具体实施方式七:本实施方式与具体实施方式一不同的是:步骤一采用的Kinect为Kinect2。
Kinect采集的图像具有视觉深度信息,在进行地图构建的同时,可以分别识别出是箱子、行人等等。本实施方式采用的是第二代kinect,即kinect2。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (7)
1.基于DoubleDQN网络和深度强化学习的移动机器人避障方法,其特征在于,该方法包括以下步骤:
步骤一:利用移动机器人上的Kinect对移动机器人所处于的当前环境进行地图构建,并提取出移动机器人所处于的当前环境中的所有障碍物信息;
步骤二:将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下,将局部坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息作为Double DQN网络的状态输入;
步骤三:设计Double DQN网络输出的决策动作空间;
步骤四:设计Double DQN网络的回报函数,回报函数由步长奖励、碰撞惩罚、耗时惩罚和抵达目标位置奖励组成;
步骤五:确定Double DQN网络的决策输出策略;
步骤六:建立Double DQN网络,并对建立的Double DQN网络进行训练,直至训练过程中移动机器人每个回合获得的总体奖励不再增加时停止训练,得到训练好的Double DQN网络,将训练好的Double DQN网络应用于移动机器人的避障。
2.根据权利要求1所述的基于Double DQN网络和深度强化学习的移动机器人避障方法,其特征在于,所述步骤二的具体过程为:
将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下,将局部坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息作为DoubleDQN网络的状态输入;所述局部坐标系是以移动机器人自身为坐标原点,以移动机器人指向目标位置的方向为x轴正方向,y轴的方向满足右手定则,且垂直于x轴方向;
DoubleDQN网络的状态输入s′的表达式如公式(1)所示:
其中:sjn代表全局坐标下的网络输入状态,rotate(sjn)代表对全局坐标下的网络输入状态进行坐标变换,vx′代表移动机器人速度在局部坐标系下的x轴分量,vy′代表移动机器人速度在局部坐标系下的y轴分量,代表障碍物在局部坐标系下的横坐标x,代表障碍物在局部坐标系下的纵坐标y,代表障碍物的半径大小;
dg为当前时刻移动机器人到目标位置的直线距离,且dg=||pg-p||2,pg为坐标变换后的目标位置,p为移动机器人自身的位置,da为当前时刻移动机器人与障碍物之间的直线距离,且 为坐标变换后的障碍物位置,r为移动机器人半径大小,为坐标变换后的障碍物速度,代表障碍物速度在局部坐标系下的x轴分量,代表障碍物速度在局部坐标系下的y轴分量;θ代表移动机器人速度与局部坐标系的x轴的夹角。
3.根据权利要求1所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法,其特征在于,所述步骤三的具体过程为:
在局部坐标系下,设计DoubleDQN网络输出的决策动作空间a的集合为A,其中:集合A是指以局部坐标系的x轴方向为中心方向,以与中心方向角度相差-90°,-85°,-80°,…0°,5°,…85°,90°的一组候选速度方向的集合,则集合A中包含有37个候选动作。
4.根据权利要求1所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法,其特征在于,所述步骤四的具体过程为:
DoubleDQN网络的回报函数R(sjn,a)的形式如公式(2)所示:
R(sjn,a)=R1+R2+R3+R4 (2)
其中:R1=k·(dg_last-dg),R1表示步长奖励,dg表示当前时刻移动机器人与目标位置的直线距离,dg_last表示上一时刻移动机器人与目标位置的直线距离;k表示步长奖励系数;
R2表示碰撞惩罚,da和da_min分别表示当前时刻移动机器人与障碍物之间的直线距离以及移动机器人与障碍物之间的最小安全距离;
R3=-c·timer_count,R3表示耗时惩罚,timer_count表示移动机器人到目标位置所用时间,c代表耗时惩罚系数;
R4表示若到达目标位置,则给定一个奖励,否则不给予任何奖励与惩罚。
5.根据权利要求1所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法,其特征在于,所述步骤五的具体过程为:
对于视野中只有一个障碍物的情况:采用公式(3)所示的输出策略,所有动作值由DoubleDQN网络输出一次性给出;
其中:action代表网络的决策输出,epsilon表示一个随机产生的0到1之间的浮点数,action_space表示决策动作空间a的集合A,random函数表示从集合A内随机取一个动作;Q(state)表示将当前状态state输入到网络Q中,maxQ(state)表示从网络Q的输出中取最大值,表示网络Q输出的最大值所对应的候选动作;
动作噪声ε随时间衰减,ε的表达式如公式(4)所示,
式中:train_time代表训练时间;
对于视野中大于一个障碍物的情况:用表示与移动机器人相邻的第i个障碍物,则移动机器人与第i个障碍物组成的状态的表达式为:
s表示移动机器人在局部坐标系下的状态;
则DoubleDQN网络的决策输出策略的表达式如公式(6)所示;
其中:表示利用全部的n个障碍物对当前某个待评估的候选动作的评分,则每个候选动作对应得到n个分数,在n个分数中取最低分,则代表每个候选动作对应的最低分;代表最高的最低分所对应的候选动作。
6.根据权利要求1所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法,其特征在于,所述步骤六的具体过程为:
步骤六一、建立大小为(14,50,50,50,37)、采用非线性全连接、激活函数为ReLU的Double DQN网络,其中:14表示Double DQN网络有14个输入,(50,50,50)代表Double DQN网络有三个神经元个数为50的隐藏层,37代表37个输出动作;
步骤六二、随机初始化Double DQN网络的参数;
步骤六三、利用反向传播规则对Double DQN网络进行训练,将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行;
步骤六四、直至训练过程中移动机器人每个回合获得的总体奖励不再增加时,则停止训练,得到训练好的Double DQN网络;
步骤六五、将训练好的Double DQN网络应用于移动机器人的避障。
7.根据权利要求1所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法,其特征在于,步骤一采用的Kinect为Kinect2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811562344.6A CN109407676B (zh) | 2018-12-20 | 2018-12-20 | 基于DoubleDQN网络和深度强化学习的机器人避障方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811562344.6A CN109407676B (zh) | 2018-12-20 | 2018-12-20 | 基于DoubleDQN网络和深度强化学习的机器人避障方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109407676A true CN109407676A (zh) | 2019-03-01 |
CN109407676B CN109407676B (zh) | 2019-08-02 |
Family
ID=65460143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811562344.6A Active CN109407676B (zh) | 2018-12-20 | 2018-12-20 | 基于DoubleDQN网络和深度强化学习的机器人避障方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109407676B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147101A (zh) * | 2019-05-13 | 2019-08-20 | 中山大学 | 一种基于深度强化学习的端到端分布式多机器人编队导航方法 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110442129A (zh) * | 2019-07-26 | 2019-11-12 | 中南大学 | 一种多智能体编队的控制方法和系统 |
CN110471444A (zh) * | 2019-08-19 | 2019-11-19 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
CN110488835A (zh) * | 2019-08-28 | 2019-11-22 | 北京航空航天大学 | 一种基于双反向传播神经网络的无人系统智能局部路径规划方法 |
CN110530371A (zh) * | 2019-09-06 | 2019-12-03 | 电子科技大学 | 一种基于深度强化学习的室内地图匹配方法 |
CN110673488A (zh) * | 2019-10-21 | 2020-01-10 | 南京航空航天大学 | 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 |
CN110703766A (zh) * | 2019-11-07 | 2020-01-17 | 南京航空航天大学 | 一种基于迁移学习策略深度q网络的无人机路径规划方法 |
CN110716575A (zh) * | 2019-09-29 | 2020-01-21 | 哈尔滨工程大学 | 基于深度双q网络强化学习的uuv实时避碰规划方法 |
CN110989576A (zh) * | 2019-11-14 | 2020-04-10 | 北京理工大学 | 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 |
CN111105034A (zh) * | 2019-12-24 | 2020-05-05 | 中国科学院自动化研究所 | 基于反事实回报的多智能体深度强化学习方法、系统 |
CN111209832A (zh) * | 2019-12-31 | 2020-05-29 | 华瑞新智科技(北京)有限公司 | 变电站巡检机器人辅助避障训练方法、设备及介质 |
CN111260072A (zh) * | 2020-01-08 | 2020-06-09 | 上海交通大学 | 一种基于生成对抗网络的强化学习探索方法 |
CN111352419A (zh) * | 2020-02-25 | 2020-06-30 | 山东大学 | 基于时序差分更新经验回放缓存的路径规划方法及系统 |
CN111506063A (zh) * | 2020-04-13 | 2020-08-07 | 中国科学技术大学 | 一种基于分层强化学习框架的移动机器人无图导航方法 |
CN111552183A (zh) * | 2020-05-17 | 2020-08-18 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
CN111627064A (zh) * | 2020-04-25 | 2020-09-04 | 哈尔滨理工大学 | 一种行人交互友好型的单目避障方法 |
CN111645065A (zh) * | 2020-03-25 | 2020-09-11 | 南京大学 | 一种基于深度强化学习的机械臂运动规划方法 |
CN111784731A (zh) * | 2020-06-19 | 2020-10-16 | 哈尔滨工业大学 | 一种基于深度学习的目标姿态估计方法 |
CN111857107A (zh) * | 2020-06-10 | 2020-10-30 | 同济大学 | 基于学习组件库的辅助型移动机器人导航控制系统和方法 |
CN112925307A (zh) * | 2021-01-20 | 2021-06-08 | 中国科学院重庆绿色智能技术研究院 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
CN112947562A (zh) * | 2021-02-10 | 2021-06-11 | 西北工业大学 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
CN113110509A (zh) * | 2021-05-17 | 2021-07-13 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的仓储系统多机器人路径规划方法 |
CN113467508A (zh) * | 2021-06-30 | 2021-10-01 | 天津大学 | 面向围捕任务的多无人机智能协同决策方法 |
CN113486871A (zh) * | 2021-09-07 | 2021-10-08 | 中国人民解放军国防科技大学 | 基于深度图的无人车局部自主控制方法、装置和设备 |
CN113660241A (zh) * | 2021-08-11 | 2021-11-16 | 中电积至(海南)信息技术有限公司 | 一种基于深度强化学习的自动化渗透测试方法 |
CN114237235A (zh) * | 2021-12-02 | 2022-03-25 | 之江实验室 | 一种基于深度强化学习的移动机器人避障方法 |
CN114489059A (zh) * | 2022-01-13 | 2022-05-13 | 沈阳建筑大学 | 基于d3qn-per移动机器人路径规划方法 |
CN114526738A (zh) * | 2022-01-25 | 2022-05-24 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
US20150100530A1 (en) * | 2013-10-08 | 2015-04-09 | Google Inc. | Methods and apparatus for reinforcement learning |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107553490A (zh) * | 2017-09-08 | 2018-01-09 | 深圳市唯特视科技有限公司 | 一种基于深度学习的单目视觉避障方法 |
US20180089553A1 (en) * | 2016-09-27 | 2018-03-29 | Disney Enterprises, Inc. | Learning to schedule control fragments for physics-based character simulation and robots using deep q-learning |
US20180129974A1 (en) * | 2016-11-04 | 2018-05-10 | United Technologies Corporation | Control systems using deep reinforcement learning |
CN108255182A (zh) * | 2018-01-30 | 2018-07-06 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
CN108375379A (zh) * | 2018-02-01 | 2018-08-07 | 上海理工大学 | 基于变异的双重dqn的快速路径规划方法及移动机器人 |
-
2018
- 2018-12-20 CN CN201811562344.6A patent/CN109407676B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
US20150100530A1 (en) * | 2013-10-08 | 2015-04-09 | Google Inc. | Methods and apparatus for reinforcement learning |
US20180089553A1 (en) * | 2016-09-27 | 2018-03-29 | Disney Enterprises, Inc. | Learning to schedule control fragments for physics-based character simulation and robots using deep q-learning |
US20180129974A1 (en) * | 2016-11-04 | 2018-05-10 | United Technologies Corporation | Control systems using deep reinforcement learning |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107553490A (zh) * | 2017-09-08 | 2018-01-09 | 深圳市唯特视科技有限公司 | 一种基于深度学习的单目视觉避障方法 |
CN108255182A (zh) * | 2018-01-30 | 2018-07-06 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
CN108375379A (zh) * | 2018-02-01 | 2018-08-07 | 上海理工大学 | 基于变异的双重dqn的快速路径规划方法及移动机器人 |
Non-Patent Citations (2)
Title |
---|
TAI LEI 等: "A robot exploration strategy based on Q-learning network", 《PROCEEDINGS OF THE 2016 IEEE INTERNATIONAL CONFERENCE ON REAL-TIME COMPUTING AND ROBOTICS》 * |
刘庆杰: "面向智能避障场景的深度强化学习研究", 《智能物联技术》 * |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147101B (zh) * | 2019-05-13 | 2020-05-22 | 中山大学 | 一种基于深度强化学习的端到端分布式多机器人编队导航方法 |
CN110147101A (zh) * | 2019-05-13 | 2019-08-20 | 中山大学 | 一种基于深度强化学习的端到端分布式多机器人编队导航方法 |
CN110442129A (zh) * | 2019-07-26 | 2019-11-12 | 中南大学 | 一种多智能体编队的控制方法和系统 |
CN110442129B (zh) * | 2019-07-26 | 2021-10-22 | 中南大学 | 一种多智能体编队的控制方法和系统 |
CN110471444A (zh) * | 2019-08-19 | 2019-11-19 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
CN110471444B (zh) * | 2019-08-19 | 2022-07-12 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110333739B (zh) * | 2019-08-21 | 2020-07-31 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110488835A (zh) * | 2019-08-28 | 2019-11-22 | 北京航空航天大学 | 一种基于双反向传播神经网络的无人系统智能局部路径规划方法 |
CN110530371A (zh) * | 2019-09-06 | 2019-12-03 | 电子科技大学 | 一种基于深度强化学习的室内地图匹配方法 |
CN110530371B (zh) * | 2019-09-06 | 2021-05-18 | 电子科技大学 | 一种基于深度强化学习的室内地图匹配方法 |
CN110716575A (zh) * | 2019-09-29 | 2020-01-21 | 哈尔滨工程大学 | 基于深度双q网络强化学习的uuv实时避碰规划方法 |
CN110673488A (zh) * | 2019-10-21 | 2020-01-10 | 南京航空航天大学 | 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 |
CN110703766A (zh) * | 2019-11-07 | 2020-01-17 | 南京航空航天大学 | 一种基于迁移学习策略深度q网络的无人机路径规划方法 |
CN110703766B (zh) * | 2019-11-07 | 2022-01-11 | 南京航空航天大学 | 一种基于迁移学习策略深度q网络的无人机路径规划方法 |
CN110989576A (zh) * | 2019-11-14 | 2020-04-10 | 北京理工大学 | 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 |
CN110989576B (zh) * | 2019-11-14 | 2022-07-12 | 北京理工大学 | 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 |
CN111105034A (zh) * | 2019-12-24 | 2020-05-05 | 中国科学院自动化研究所 | 基于反事实回报的多智能体深度强化学习方法、系统 |
CN111105034B (zh) * | 2019-12-24 | 2023-11-17 | 中国科学院自动化研究所 | 基于反事实回报的多智能体深度强化学习方法、系统 |
CN111209832A (zh) * | 2019-12-31 | 2020-05-29 | 华瑞新智科技(北京)有限公司 | 变电站巡检机器人辅助避障训练方法、设备及介质 |
CN111209832B (zh) * | 2019-12-31 | 2023-07-25 | 华瑞新智科技(北京)有限公司 | 变电站巡检机器人辅助避障训练方法、设备及介质 |
CN111260072A (zh) * | 2020-01-08 | 2020-06-09 | 上海交通大学 | 一种基于生成对抗网络的强化学习探索方法 |
CN111352419A (zh) * | 2020-02-25 | 2020-06-30 | 山东大学 | 基于时序差分更新经验回放缓存的路径规划方法及系统 |
CN111645065A (zh) * | 2020-03-25 | 2020-09-11 | 南京大学 | 一种基于深度强化学习的机械臂运动规划方法 |
CN111506063A (zh) * | 2020-04-13 | 2020-08-07 | 中国科学技术大学 | 一种基于分层强化学习框架的移动机器人无图导航方法 |
CN111627064A (zh) * | 2020-04-25 | 2020-09-04 | 哈尔滨理工大学 | 一种行人交互友好型的单目避障方法 |
CN111627064B (zh) * | 2020-04-25 | 2021-07-09 | 哈尔滨理工大学 | 一种行人交互友好型的单目避障方法 |
CN111552183B (zh) * | 2020-05-17 | 2021-04-23 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
CN111552183A (zh) * | 2020-05-17 | 2020-08-18 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
CN111857107B (zh) * | 2020-06-10 | 2021-08-31 | 同济大学 | 基于学习组件库的辅助型移动机器人导航控制系统和方法 |
CN111857107A (zh) * | 2020-06-10 | 2020-10-30 | 同济大学 | 基于学习组件库的辅助型移动机器人导航控制系统和方法 |
CN111784731A (zh) * | 2020-06-19 | 2020-10-16 | 哈尔滨工业大学 | 一种基于深度学习的目标姿态估计方法 |
CN112925307A (zh) * | 2021-01-20 | 2021-06-08 | 中国科学院重庆绿色智能技术研究院 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
CN112947562B (zh) * | 2021-02-10 | 2021-11-30 | 西北工业大学 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
CN112947562A (zh) * | 2021-02-10 | 2021-06-11 | 西北工业大学 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
CN113110509A (zh) * | 2021-05-17 | 2021-07-13 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的仓储系统多机器人路径规划方法 |
CN113110509B (zh) * | 2021-05-17 | 2023-02-28 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的仓储系统多机器人路径规划方法 |
CN113467508A (zh) * | 2021-06-30 | 2021-10-01 | 天津大学 | 面向围捕任务的多无人机智能协同决策方法 |
CN113467508B (zh) * | 2021-06-30 | 2022-06-28 | 天津大学 | 面向围捕任务的多无人机智能协同决策方法 |
CN113660241A (zh) * | 2021-08-11 | 2021-11-16 | 中电积至(海南)信息技术有限公司 | 一种基于深度强化学习的自动化渗透测试方法 |
CN113486871A (zh) * | 2021-09-07 | 2021-10-08 | 中国人民解放军国防科技大学 | 基于深度图的无人车局部自主控制方法、装置和设备 |
CN114237235A (zh) * | 2021-12-02 | 2022-03-25 | 之江实验室 | 一种基于深度强化学习的移动机器人避障方法 |
CN114237235B (zh) * | 2021-12-02 | 2024-01-19 | 之江实验室 | 一种基于深度强化学习的移动机器人避障方法 |
CN114489059A (zh) * | 2022-01-13 | 2022-05-13 | 沈阳建筑大学 | 基于d3qn-per移动机器人路径规划方法 |
CN114489059B (zh) * | 2022-01-13 | 2024-02-02 | 沈阳建筑大学 | 基于d3qn-per移动机器人路径规划方法 |
CN114526738A (zh) * | 2022-01-25 | 2022-05-24 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
CN114526738B (zh) * | 2022-01-25 | 2023-06-16 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109407676B (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109407676B (zh) | 基于DoubleDQN网络和深度强化学习的机器人避障方法 | |
Loquercio et al. | Deep drone racing: From simulation to reality with domain randomization | |
CN113110592B (zh) | 一种无人机避障与路径规划方法 | |
WO2022007179A1 (zh) | 一种多agv运动规划方法、装置和系统 | |
CN104881043B (zh) | 一种针对多动态目标的多无人机智能协同察打方法 | |
CN114384920A (zh) | 一种基于局部栅格地图实时构建的动态避障方法 | |
Tianyu et al. | Local path planning algorithm for blind-guiding robot based on improved DWA algorithm | |
CN113534668B (zh) | 基于最大熵的演员-评论家框架的auv运动规划方法 | |
CN105701314A (zh) | 一种基于自适应智能体模型的复杂人群疏散行为仿真方法 | |
Zijian et al. | Imaginary filtered hindsight experience replay for UAV tracking dynamic targets in large-scale unknown environments | |
Liu et al. | TD3 Based Collision Free Motion Planning for Robot Navigation | |
CN117705113A (zh) | 一种改进ppo的无人机视觉避障及自主导航方法 | |
CN116362289A (zh) | 一种基于BiGRU结构的改进MATD3多机器人协同围捕方法 | |
CN116562332B (zh) | 一种人机共融环境下的机器人社交性运动规划方法 | |
Elallid et al. | Deep Reinforcement Learning for Autonomous Vehicle Intersection Navigation | |
Li | Design of human-computer interaction system using gesture recognition algorithm from the perspective of machine learning | |
CN117193303A (zh) | 基于固定时间扩张状态观测器的多无人艇编队控制方法 | |
CN116578080A (zh) | 一种基于深度强化学习的局部路径规划方法 | |
CN116227622A (zh) | 基于深度强化学习的多智能体地标覆盖方法及系统 | |
CN114167856B (zh) | 一种基于人工情感的服务机器人局部路径规划方法 | |
Ma et al. | Strategy generation based on reinforcement learning with deep deterministic policy gradient for UCAV | |
D’Andrea | The Cornell RoboCup robot soccer team: 1999–2003 | |
Cui et al. | Intelligent Ship Decision System Based on DDPG Algorithm | |
CN114326826A (zh) | 多无人机队形变换方法及系统 | |
CN114089751A (zh) | 一种基于改进ddpg算法的移动机器人路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190625 Address after: 150006 No. 92 Xidazhi Street, Nangang District, Harbin City, Heilongjiang Province Applicant after: Harbin Institute of Technology Applicant after: Harbin University of Science and Technology Address before: 150001 No. 92 West straight street, Nangang District, Heilongjiang, Harbin Applicant before: Harbin Institute of Technology |
|
GR01 | Patent grant | ||
GR01 | Patent grant |