CN111487864B - 一种基于深度强化学习的机器人路径导航方法及系统 - Google Patents
一种基于深度强化学习的机器人路径导航方法及系统 Download PDFInfo
- Publication number
- CN111487864B CN111487864B CN202010407984.0A CN202010407984A CN111487864B CN 111487864 B CN111487864 B CN 111487864B CN 202010407984 A CN202010407984 A CN 202010407984A CN 111487864 B CN111487864 B CN 111487864B
- Authority
- CN
- China
- Prior art keywords
- robot
- actor
- neural network
- action
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000002787 reinforcement Effects 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 86
- 230000009471 action Effects 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000011156 evaluation Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 5
- 238000004088 simulation Methods 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000004888 barrier function Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 230000008447 perception Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003334 potential effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0268—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
- G05D1/0274—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Aviation & Aerospace Engineering (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Optics & Photonics (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于深度强化学习的机器人路径导航方法及系统,包括:基于深度强化学习构建双Actor‑Critic神经网络,根据获取的机器人当前运动状态,采用第一Actor‑Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值;以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor‑Critic神经网络进行训练,根据训练后的第二Actor‑Critic神经网络对第一Actor‑Critic神经网络进行更新,以更新后的第一Actor‑Critic神经网络根据机器人当前运动状态输出最优移动动作,以此对机器人进行最优路径的导航。结合深度学习方法的感知能力和强化学习方法的策略能力,找到在机器人当前运动状态下最优的行动策略,在高度复杂的场景中,解决了传统机器人导航依赖障碍地图的局限性。
Description
技术领域
本发明涉及路径规划技术领域,特别是涉及一种基于深度强化学习的机器人路径导航方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线称之为路径,构成路径的策略称之为路径规划。机器人的无碰运动,即机器人导航也属于路径规划的一种。传统的路径规划算法包括:模拟退火算法、人工势场法、模糊逻辑算法、禁忌搜索算法等。
深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。深度强化学习将两者结合,优势互补,为复杂系统的感知决策问题提供了解决思路。
此外,发明人认为,传统的机器人导航方法主要取决于导航环境的障碍物图,导航过程需要全部或部分的先验环境知识,灵活性较差,局限性较大,不适用于复杂、动态未知的环境;而且由于模拟仿真环境与高度复杂的真实环境之间的巨大差异,将训练好的模型转化为真实机器人导航具有难度。
发明内容
为了解决上述问题,本发明提出了一种基于深度强化学习的机器人路径导航方法及系统,基于深度强化学习构建双Actor-Critic神经网络,包含两对Actor-Critic神经网络,第一Actor-Critic神经网络在导航环境中寻找潜在的行动策略,并将该经验数据对第二Actor-Critic神经网络进行训练,以训练后的参数对第一Actor-Critic神经网络进行更新,边训练边学习边更新的方式便于对机器人移动做出最优决策,实现复杂环境下的机器人路径规划。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种基于深度强化学习的机器人路径导航方法,包括:
基于深度强化学习构建双Actor-Critic神经网络,根据获取的机器人当前运动状态,采用第一Actor-Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值;
以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练,根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新,以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作,以此对机器人进行最优路径的导航。
第二方面,本发明提供一种基于深度强化学习的机器人路径导航系统,包括:
初始路径导航模块,用于基于深度强化学习构建双Actor-Critic神经网络,根据获取的机器人当前运动状态,采用第一Actor-Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值;
路径导航更新模块,用于以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练,根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新,以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作,以此对机器人进行最优路径的导航。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明结合深度学习方法的感知能力和强化学习方法的策略能力,找到在机器人当前运动状态下奖励值最大、最优的行动策略,不需要任何先验知识,在高度复杂的场景中,解决了传统机器人导航依赖障碍地图的局限性。
本发明构建双Actor-Critic神经网络,包含两对Actor-Critic神经网络,第一Actor-Critic神经网络在导航环境中进行探索,寻找潜在的最优策略,并将该经验数据采用经验回放机制对第二Actor-Critic神经网络进行训练,以训练后的参数对第一Actor-Critic神经网络进行更新,边训练边学习边更新的方式便于对机器人移动做出最优决策,实现复杂环境下的机器人路径规划。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的基于深度强化学习的机器人路径导航方法流程图;
图2为本发明实施例1提供的深度神经网络结构图;
图3为本发明实施例1提供的神经网络训练示意图。
具体实施方式:
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
如图1所示,本实施例提供一种基于深度强化学习的机器人路径导航方法,包括:
S1:基于深度强化学习构建双Actor-Critic神经网络,根据获取的机器人当前运动状态,采用第一Actor-Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值;
S2:以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练,根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新,以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作,以此对机器人进行最优路径的导航。
在本实施例中,对真实环境进行模拟,在模拟环境地图中,对机器人进行路径导航,故根据获取的机器人导航环境参数构建模拟导航地图;
在本实施例中,采用栅格化方法构建模拟导航地图;即采用大小相同的方块表示地图,既有代表道路的方格也有代表障碍物的方格;传统方法是根据地图中障碍物的疏密程度自主决定栅格粒度,而本实施例采用较小的栅格粒度,以使得模拟导航地图对环境信息的表示更加清晰;
在本实施例中,机器人导航环境参数包括机器人起点位置、障碍物位置、导航目的地位置;同时选择以左下角为坐标原点建立机器人移动坐标系,结合真实环境等比缩放建立机器人移动坐标系;
机器人移动坐标系为移动机器人和标注目标位置提供支持,机器人的移动动作是以角速度和线速度表示,目标位置则是以极坐标作为表示;
另外,在本实施例中,机器人起点位置和目的地位置随机分配,因激光测距传感器无法探测机器人背部,故机器人无法后退,即若起始位置和目的地位置相同,机器人则需走一个环路。
所述步骤S1中,如图2所示,基于深度强化学习构建双Actor-Critic神经网络,该网络包括两对参数一致的Actor-Critic神经网络,即为第一Actor-Critic神经网络和第二Actor-Critic神经网络;
在本实施例中,根据机器人携带的激光测距传感器获取机器人当前运动状态,使用10维激光测距结果,对传感器要求不高,该激光测距传感器从原始激光范围发现且以特定角度进行高度抽象采样,保证算法在真实环境的适用性;
所述机器人当前运动状态为激光测距传感器采集的10维激光测距结果、前动作和目标相对位置合并的14维向量;
其中,10维激光测距结果包括机器人当前状态下对10个方向的探测结果;前动作即机器人在当前状态之前的一个步长的速度;目标相对位置即导航的目的地相对于当前状态的位置,在机器人坐标系中以极坐标的形式表示;
该向量数据作为第一Actor-Critic神经网络中Actor神经网络的输入,Actor网络会直接输出机器人当前状态下的初始移动动作,机器人即可执行该动作;
在本实施例中,移动动作包括机器人移动的角速度和线速度。
在本实施例中,采用策略网络Actor是为找出当前运动策略下的最优动作,或奖励最大的动作,策略公式如下:
μ(St|θμ)=αt,
其中,μ(St|θμ)表示在状态st时采用策略μ应该采取的最佳动作at;
转换为对于机器人的公式如下:
vt=μ(xt,pt,vt-1),
其中,xt为10维激光测距结果,vt-1为之前的动作,pt为目标相对位置,此输入向量即可作为机器人的当前的瞬时状态st,vt即为在状态st时,策略网络给出的最优动作at;vt包括角速度和线速度,考虑到实际的动态特性,本实施例选择0.5m/s作为最大线速度,1rad/s作为最大角速度。
所述步骤S1中,在第一Actor-Critic神经网络的Actor神经网络中输出机器人当前运动状态的初始移动动作,对该初始移动动作采用Critic神经网络进行评价,包括:
(1)设置奖励函数,作为动作价值的评价标准,奖励函数如下:
其中,如果机器人到达目的地,则给予+1的奖励值;如果机器人和障碍物发生碰撞,则给予-1的奖励值;若不符合上述两种情况,则给予一个(dt-1-dt)的奖励值,dt-1代表上一个步长机器人与目的地的距离,dt代表当前机器人与目的地的距离。
(2)将当前运动状态和Actor输出的初始移动动作合并,即14维+2维的向量作为Critic网络的输入,输出该动作价值,即Q值;依据Q值评判动作的优劣,指导actor网络给出最优动作;
在本实施例中,将每次和模拟导航地图环境交互得到的动作奖励值与运动状态更新情况存储至经验回放池,作为训练第二Actor-Critic神经网络的训练集;
本实施例采用经验回放机制,将机器人与环境交互的信息存储,将样本收集和样本采样分开,打破交互得到的序列的相关性,达到训练样本独立同分布的要求。
本实施例采用强化学习DQN的思想,构建双Actor-Critic神经网络,第一Actor-Critic神经网络对环境进行探索,寻求潜在的最优策略,第二Actor-Critic神经网络根据经验回放池的数据进行训练,依靠第二Actor-Critic神经网络训练后的数据对第一Actor-Critic神经网络进行梯度下降,对参数进行更新后,依据当前状态,在无障碍导航地图的情况下,做出最优决策,执行最优动作,实现复杂环境下的机器人路径规划。
在本实施例中,第二Actor-Critic神经网络采用软更新的方式,即:
θQ′←τθQ+(1-τ)θQ′,
θμ′←τθμ+(1-τ)θμ′,
本实施例更新系数τ取0.001,target网络的参数变化小,比较稳定,训练益于收敛。
在本实施例中,第一Actor-Critic神经网络采用梯度下降的方法进行参数更新,本实施例采用的强化学习Actor-Critic框架,拥有策略网络Actor和评价网络Critic,采用卷积神经网络作为策略函数和Q函数的模拟,即使用深度学习的方法训练策略网络和Q网络;
神经网络的损失函数采取均方误差损失MSE,在计算策略梯度期望时,选择蒙特卡罗法来取无偏估计,使用梯度下降对网络进行训练,进而完成对参数的更新;如图3所示,更新方式如下:
(1)Q函数为:
Qμ=E[r(st,αt)+γQμ(st+1,μ(st+1))],
其中,奖励衰减因子γ取值0.001,采取近乎贪婪的策略,以快速找到最优路径;
(2)策略μ的好坏表示为:
Jβ(μ)=∫sρβ(s)Qμ(s,μ(s))ds=Es~ρ β[Qμ(s,μ(s))],
其中,s是环境的状态或机器人在环境中走过的状态路径,基于机器人的从经验回放池按照策略采样产生的,分布函数pdf为ρβ;Qμ(s,μ(s))是在每个状态下,按照μ策略选择移动动作时,能够产生的Q值;即,Jβ(μ)是在s根据ρβ分布时,Qμ(s,μ(s))的期望值。
本实施例训练的目标:最大化Jβ(μ),同时最小化Q网络的损失Loss;
在本实施例中,训练μ网络的过程,就是寻找μ网络参数θμ的最优解的过程,使用SGA(stochastic gradient ascent)的方法;
训练Q网络的过程,就是寻找Q网络参数θQ的最优解的过程,使用SGD的方法。
机器人依据更新后的第一Actor-Critic神经网络的指导,执行当前状态下的最优动作,直到到达目的地,完成无障碍地图的机器人路径规划。
实施例2
本实施例提供一种基于深度强化学习的机器人路径导航系统,包括:
初始路径导航模块,用于基于深度强化学习构建双Actor-Critic神经网络,根据获取的机器人当前运动状态,采用第一Actor-Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值;
路径导航更新模块,用于以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练,根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新,以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作,以此对机器人进行最优路径的导航。
此处需要说明的是,上述模块对应于实施例1中的步骤S1至S2,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (6)
1.一种基于深度强化学习的机器人路径导航方法,其特征在于,包括:
根据获取的机器人导航环境参数,采用栅格化方法构建模拟导航地图;所述机器人导航环境参数包括机器人起点位置、障碍物位置和导航目的地位置;
基于深度强化学习构建双Actor-Critic神经网络,根据获取的机器人当前运动状态,在第一Actor-Critic神经网络的Actor神经网络中输出机器人当前运动状态的初始移动动作,对该初始移动动作采用Critic神经网络进行评价,包括:
(1)设置奖励函数,作为动作价值的评价标准,奖励函数如下:
其中,如果机器人到达目的地,则给予+1的奖励值;如果机器人和障碍物发生碰撞,则给予-1的奖励值;若不符合上述两种情况,则给予一个(dt-1-dt)的奖励值,dt-1代表上一个步长机器人与目的地的距离,dt代表当前机器人与目的地的距离;
(2)将当前运动状态和Actor输出的初始移动动作合并,即14维+2维的向量作为Critic网络的输入,输出该动作价值,即Q值;依据Q值评判动作的优劣,指导actor网络给出最优动作;
以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练,根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新,以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作,以此对机器人进行最优路径的导航;
所述根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新,包括:对第一Actor-Critic神经网络采用梯度下降方法进行更新,更新方式如下:
(1)Q函数为:
Qμ=E[r(st,at)+γQμ(st+1,μ(st+1))],
其中,奖励衰减因子γ取值0.001,采取近乎贪婪的策略,以快速找到最优路径;
(2)策略μ的好坏表示为:
其中,s是环境的状态或机器人在环境中走过的状态路径,基于机器人的从经验回放池按照策略采样产生的,分布函数pdf为ρβ;Qμ(s,μ(s))是在每个状态下,按照μ策略选择移动动作时,能够产生的Q值;即,Jβ(μ)是在s根据ρβ分布时,Qμ(s,μ(s))的期望值。
2.如权利要求1所述的一种基于深度强化学习的机器人路径导航方法,其特征在于,根据机器人携带的激光测距传感器采集10维激光测距信息,结合机器人前动作和目的地相对位置得到机器人当前运动状态。
3.如权利要求1所述的一种基于深度强化学习的机器人路径导航方法,其特征在于,所述机器人当前运动状态和初始移动动作的评价值存储至经验回放池,作为第二Actor-Critic神经网络的训练集,第二Actor-Critic神经网络采用软更新的方法进行训练。
4.一种基于深度强化学习的机器人路径导航系统,其特征在于,包括:
模拟地图构建模块,用于根据获取的机器人导航环境参数,采用栅格化方法构建模拟导航地图;所述机器人导航环境参数包括机器人起点位置、障碍物位置和导航目的地位置;
初始路径导航模块,用于基于深度强化学习构建双Actor-Critic神经网络,根据获取的机器人当前运动状态,在第一Actor-Critic神经网络的Actor神经网络中输出机器人当前运动状态的初始移动动作,对该初始移动动作采用Critic神经网络进行评价,包括:
(1)设置奖励函数,作为动作价值的评价标准,奖励函数如下:
其中,如果机器人到达目的地,则给予+1的奖励值;如果机器人和障碍物发生碰撞,则给予-1的奖励值;若不符合上述两种情况,则给予一个(dt-1-dt)的奖励值,dt-1代表上一个步长机器人与目的地的距离,dt代表当前机器人与目的地的距离;
(2)将当前运动状态和Actor输出的初始移动动作合并,即14维+2维的向量作为Critic网络的输入,输出该动作价值,即Q值;依据Q值评判动作的优劣,指导actor网络给出最优动作;
路径导航更新模块,用于以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练,根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新,以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作,以此对机器人进行最优路径的导航;
所述根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新,包括:对第一Actor-Critic神经网络采用梯度下降方法进行更新,更新方式如下:
(1)Q函数为:
Qμ=E[r(st,at)+γQμ(st+1,μ(st+1))],
其中,奖励衰减因子γ取值0.001,采取近乎贪婪的策略,以快速找到最优路径;
(2)策略μ的好坏表示为:
其中,s是环境的状态或机器人在环境中走过的状态路径,基于机器人的从经验回放池按照策略采样产生的,分布函数pdf为ρβ;Qμ(s,μ(s))是在每个状态下,按照μ策略选择移动动作时,能够产生的Q值;即,Jβ(μ)是在s根据ρβ分布时,Qμ(s,μ(s))的期望值。
5.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-3任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010407984.0A CN111487864B (zh) | 2020-05-14 | 2020-05-14 | 一种基于深度强化学习的机器人路径导航方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010407984.0A CN111487864B (zh) | 2020-05-14 | 2020-05-14 | 一种基于深度强化学习的机器人路径导航方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111487864A CN111487864A (zh) | 2020-08-04 |
CN111487864B true CN111487864B (zh) | 2023-04-18 |
Family
ID=71798379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010407984.0A Active CN111487864B (zh) | 2020-05-14 | 2020-05-14 | 一种基于深度强化学习的机器人路径导航方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111487864B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112304314A (zh) * | 2020-08-27 | 2021-02-02 | 中国科学技术大学 | 一种分布式多机器人的导航方法 |
CN112629542B (zh) * | 2020-12-31 | 2022-08-30 | 山东师范大学 | 基于ddpg和lstm的无地图机器人路径导航方法及系统 |
CN112904848B (zh) * | 2021-01-18 | 2022-08-12 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN112925307B (zh) * | 2021-01-20 | 2023-03-24 | 中国科学院重庆绿色智能技术研究院 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
CN113093727B (zh) * | 2021-03-08 | 2023-03-28 | 哈尔滨工业大学(深圳) | 一种基于深度安全强化学习的机器人无地图导航方法 |
CN112990437B (zh) * | 2021-03-24 | 2024-05-14 | 厦门吉比特网络技术股份有限公司 | 一种基于因果多输出的强化学习神经网络及其构建方法 |
CN113503885B (zh) * | 2021-04-30 | 2024-02-20 | 山东师范大学 | 一种基于采样优化ddpg算法的机器人路径导航方法及系统 |
CN113408782B (zh) * | 2021-05-11 | 2023-01-31 | 山东师范大学 | 基于改进的ddpg算法的机器人路径导航方法及系统 |
CN113448246B (zh) * | 2021-05-25 | 2022-10-14 | 上海交通大学 | 一种口腔种植机器人自进化姿态调整方法及系统 |
CN113479727B (zh) * | 2021-06-04 | 2023-03-31 | 广州大学 | 一种施工升降机的控制系统、方法、装置及存储介质 |
CN113532457B (zh) * | 2021-06-07 | 2024-02-02 | 山东师范大学 | 机器人路径导航方法、系统、设备及存储介质 |
CN114415657A (zh) * | 2021-12-09 | 2022-04-29 | 安克创新科技股份有限公司 | 基于深度强化学习的清洁机器人沿墙方法和清洁机器人 |
CN114995468B (zh) * | 2022-06-06 | 2023-03-31 | 南通大学 | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105690392B (zh) * | 2016-04-14 | 2017-11-28 | 苏州大学 | 基于行动者‑评论家方法的机器人运动控制方法和装置 |
CN107450555A (zh) * | 2017-08-30 | 2017-12-08 | 唐开强 | 一种基于深度强化学习的六足机器人实时步态规划方法 |
CN108536011A (zh) * | 2018-03-19 | 2018-09-14 | 中山大学 | 一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法 |
CN108983804B (zh) * | 2018-08-27 | 2020-05-22 | 燕山大学 | 一种基于深度强化学习的双足机器人步态规划方法 |
CN110631596B (zh) * | 2019-04-23 | 2020-06-02 | 太原理工大学 | 一种基于迁移学习的装备车辆路径规划方法 |
US11345030B2 (en) * | 2019-05-28 | 2022-05-31 | Intel Corporation | Methods and apparatus for complex assembly via autonomous robots using reinforcement learning action primitives |
CN110806756B (zh) * | 2019-09-10 | 2022-08-02 | 西北工业大学 | 基于ddpg的无人机自主引导控制方法 |
CN110794842A (zh) * | 2019-11-15 | 2020-02-14 | 北京邮电大学 | 基于势场的强化学习路径规划算法 |
-
2020
- 2020-05-14 CN CN202010407984.0A patent/CN111487864B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111487864A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111487864B (zh) | 一种基于深度强化学习的机器人路径导航方法及系统 | |
CN107450593B (zh) | 一种无人机自主导航方法和系统 | |
Wang et al. | Learning to navigate through complex dynamic environment with modular deep reinforcement learning | |
Liu et al. | Robot navigation in crowded environments using deep reinforcement learning | |
CN110136481B (zh) | 一种基于深度强化学习的停车策略 | |
Gupta et al. | Cognitive mapping and planning for visual navigation | |
CN111098852B (zh) | 一种基于强化学习的泊车路径规划方法 | |
CN106873585B (zh) | 一种导航寻路方法、机器人及系统 | |
JP6915909B2 (ja) | 機器移動の制御方法、制御装置、記憶媒体及び電子機器 | |
CN111587408A (zh) | 机器人导航和对象跟踪 | |
Min et al. | Deep Q learning based high level driving policy determination | |
Wenzel et al. | Vision-based mobile robotics obstacle avoidance with deep reinforcement learning | |
CN116263335A (zh) | 一种基于视觉与雷达信息融合与强化学习的室内导航方法 | |
CN114237235B (zh) | 一种基于深度强化学习的移动机器人避障方法 | |
Yokoyama et al. | Success weighted by completion time: A dynamics-aware evaluation criteria for embodied navigation | |
Taniguchi et al. | Hippocampal formation-inspired probabilistic generative model | |
Li et al. | Learning view and target invariant visual servoing for navigation | |
CN114077807A (zh) | 基于语义环境图控制移动机器人的计算机实现方法和设备 | |
Shi et al. | Enhanced spatial attention graph for motion planning in crowded, partially observable environments | |
CN113433937B (zh) | 基于启发式探索的分层导航避障系统、分层导航避障方法 | |
Sharma et al. | Proxmap: Proximal occupancy map prediction for efficient indoor robot navigation | |
Vemprala et al. | Vision based collaborative path planning for micro aerial vehicles | |
CN117289691A (zh) | 用于导航场景下强化学习的路径规划智能体的训练方法 | |
Botteghi et al. | Entropy-based exploration for mobile robot navigation: a learning-based approach | |
Iser et al. | AntSLAM: global map optimization using swarm intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |