CN110147101A - 一种基于深度强化学习的端到端分布式多机器人编队导航方法 - Google Patents
一种基于深度强化学习的端到端分布式多机器人编队导航方法 Download PDFInfo
- Publication number
- CN110147101A CN110147101A CN201910394893.5A CN201910394893A CN110147101A CN 110147101 A CN110147101 A CN 110147101A CN 201910394893 A CN201910394893 A CN 201910394893A CN 110147101 A CN110147101 A CN 110147101A
- Authority
- CN
- China
- Prior art keywords
- robot
- network
- value
- formation
- team formation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000004888 barrier function Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 claims description 2
- 238000011217 control strategy Methods 0.000 abstract description 18
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0287—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0287—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
- G05D1/0289—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling with means for avoiding collisions between vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Automation & Control Theory (AREA)
- Aviation & Aerospace Engineering (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
- General Engineering & Computer Science (AREA)
- Manipulator (AREA)
Abstract
本发明涉及机器人中的多移动机器人领域,更具体地,涉及一种基于深度强化学习的端到端分布式多机器人编队导航方法。该方法基于深度强化学习,通过试错的方式得到控制策略。所得控制策略能够将多机器人编队的几何中心点安全、高效地导航至目标点,并且保证多机器人编队在导航的过程中的连通性。通过该方法得到的控制策略具有端到端的特性,也就是说能够直接将原始感知数据映射到机器人控制量,而无需先根据原始感知数据构建障碍物地图,因此能够节省计算资源。除此以外,通过一种集中式学习分布式执行的机制,该方法能够得到可分布式执行的控制策略,使得机器人拥有更高的自主性。
Description
技术领域
本发明涉及机器人中的多移动机器人领域,更具体地,涉及一种基于深度强化学习的端到端分布式多机器人编队导航方法。
背景技术
机器人编队在不确定的复杂环境中作业时可能会遇到障碍物的威胁。为了避免碰撞对机器人造成伤害,需要考虑机器人的避障问题。在某些场景下,机器人编队在避障的同时还需要保持一定连通性,例如:在机器人编队进行信息交换时,编队需要保持一定连通性来保证通信质量。因此,在保持连通性的条件下来躲避障碍物是一个重要的多机器人协作问题。
保持连通性的多机器人编队导航方法可以划分为以下两类方法:一是基于规则的方法,二是基于学习的方法。基于规则的方法可以进一步划分为:基于领航者-跟随者的方法,基于人工势场法的方法,基于图论的方法,基于一致性理论的方法,基于模型预测控制的方法,以及基于虚拟结构的方法等。
基于规则的方法对环境的感知依赖于障碍物地图,在使用基于规则的方法时,需要先通过原始感知数据构建障碍物地图。因此,基于规则的方法高度依赖于障碍物地图的构建。而在某些特定情况下,实时构建的障碍物地图的质量难以保证,而且构建障碍物地图的过程会占用大量计算资源,因此会影响基于规则的方法的效果。
基于学习的方法可以在无需构建障碍物地图的情况下,直接将原始感知数据映射到机器人的控制量。现有的基于学习的方法大多关注单机器人领域,部分应用在多机器人领域的方法没有考虑机器人之间的连通性。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度强化学习的端到端分布式多机器人编队导航方法,包括以下步骤:
S1.搭建仿真环境,机器人在仿真环境中进行试错学习;深度强化学习的基本思想是通过试错的方式,在智能体跟环境交互的过程中迭代优化智能体的控制策略;因此在使用本发明提出的方法时,需要搭建仿真环境,以供多机器人编队进行试错;
S2.设计奖励函数以引导机器人编队的学习,机器人编队的试错学习需要根据环境返回的奖励值来衡量决策的好坏,而奖励值的计算依赖于奖励函数,因此奖励函数是基于深度强化学习的方法的重要组成部分;所述的奖励函数由多个子奖励函数加权求和构成,即:
R(st,at)=ε+wg*Rg(st,at)+wc*Rc(st,at)+wf*Rf(st,at)+wv*Rv(st,at)
式中,st是t时刻的状态,at是t时刻的动作,ε是一个负常数,用于引导机器人编队尽快到达目标点;wg,wc,wf和wv分别是对应子奖励函数的权重值;Rg(st,at)用于引导机器人编队到达目标点;Rc(st,at)用于引导机器人避免碰撞;Rf(st,at)用于引导机器人编队保持连通性;Rv(st,at)用于引导机器人平滑地运动;
S3.设计策略网络和值网络;设计出的网络结构要能够有效地处理原始观测数据,特别的,对于策略网络,还要求能够分布式地执行;由于本发明针对的是同构机器人,各个机器人都采用相同的控制策略,因此各个机器人级别的策略网络是共享参数的;
S4.利用基于行动者-评价家的强化学习方法,在机器人编队与仿真环境交互的过程中更新策略网络和值网络;
S5.在执行阶段分布式地使用策略网络进行导航;在执行的时候,各个机器人使用机器人级别的策略网络,根据自身的观察值计算出自身的控制量。
本发明提供的方法基于深度强化学习,通过试错的方式得到控制策略。所得控制策略能够将多机器人编队的几何中心点安全、高效地导航至目标点,并且保证多机器人编队在导航的过程中的连通性。通过该方法得到的控制策略具有端到端的特性,也就是说能够直接将原始感知数据映射到机器人控制量,而无需先根据原始感知数据构建障碍物地图,因此能够节省计算资源。除此以外,通过一种集中式学习分布式执行的机制,该方法能够得到可分布式执行的控制策略,使得机器人拥有更高的自主性。
进一步的,所搭建的仿真环境具有以下功能:
i.表示场景:在大小为M×M的场景中,有多个障碍物,每个障碍物均为多边形,每个多边形通过多边形的各顶点来表示;
ii.表示机器人编队:用多个半径为r的圆形来表示机器人编队;
iii.随机初始化场景:随机生成位于不同位置,拥有不同形状的障碍物;随机生成位于不同位置的目标点;以及随机生成机器人编队的初始位置;
iv.根据环境的状态为机器人编队返回其局部观察值:每个机器人的观察值包含对环境的感知信息oe,即二维激光雷达的点云数据,自身的当前速度ov,其余机器人的位置om,以及目标点的位置og;
v.根据环境的状态以及机器人编队的控制指令更新环境的状态:除了需要根据机器人编队的控制指令去更新机器人的位置以外,还需要检测是否有碰撞的发生,碰撞包括机器人与机器人之间的碰撞以及机器人与障碍物之间的碰撞,以及机器人编队的几何中心是否已经到达目标点;
vi.根据环境的状态以及机器人编队的控制指令返回即时奖励值:奖励值的计算依赖于奖励函数。
进一步的,所述的奖励函数中的Rg(st,at)用于引导机器人编队到达目标点;当机器人编队往目标点靠近时,返回一个正数作为奖励;当机器人编队远离目标点的时候,返回一个负数作为惩罚,其数学表达式为:
式中,rgoal是机器人编队几何中心到达目标点的奖励值,εg是用于判断几何中心是否到达目标点的阈值,表示机器人编队几何中心在t时刻的位置,g表示目标点的位置。
进一步的,所述的奖励函数中的Rc(st,at)用于引导机器人避免碰撞,当碰撞发生时,给予机器人编队一个负数rcollision作为惩罚,其数学表达式为:
进一步的,所述的奖励函数中的Rf(st,at)用于引导机器人编队保持连通性;当机器人编队的连通性被破坏时,即机器人之间的距离超过阈值d时,给予机器人编队一个负数作为惩罚,其数学表达式为:
式中,avg表示求均值,min表示取最小值。
进一步的,所述的奖励函数中的Rv(st,at)用于引导机器人平滑地运动;当机器人的运动方向发生变化时,该子奖励函数会给予机器人编队一个负数作为惩罚;其数学表达式为:
式中,<a,b>表示两向量的内积。
进一步的,为了满足分布式执行的要求,编队级别的策略网络由多个机器人级别的策略网络构成,各个机器人利用机器人级别的策略网络,根据机器人级别的局部观察值计算出机器人级别的控制量,然后通过将机器人级别的控制量拼凑在一起,得到编队级别的控制量。
进一步的,所述的策略网络分为特征提取模块和后续处理模块,所述的特征提取模块先对环境的原始感知信息oe以及其余机器人的位置om进行了处理提取对应子特征,然后将所得子特征与自身的当前速度ov以及目标点的位置og拼接在一起,最后通过全连接层提取总特征;在提取环境原始感知信息oe的子特征时,采用了卷积神经网络来处理二维激光雷达的点云数据;在提取其余机器人的位置om的子特征时,采用了一个顺序无关模块来保证所得子特征跟输入的顺序无关;在顺序无关模块中,首先采用一个共享的全连接层处理不同的子输入得到不同的子输出,然后将不同的子输出求平均,得到顺序无关模块的总输出。
进一步的,所述的值网络先采用特征提取模块对不同机器人的观察值进行特征提取,然后将各个机器人的总特征求均值,最后通过全连接层得到价值评估;值网络的特征提取模块与策略网络的特征提取模块相同。
进一步的,所述的S4步骤具体包括:
S41.机器人编队从环境中获取观察值和奖励值;
S42.机器人编队根据观察值利用策略网络计算出控制量,并且执行;
S43.利用强化学习算法,根据交互信息:观察值、奖励值、控制量,对策略网络和值网络进行更新;
S44.重复步骤S41至S43。
与现有技术相比,有益效果是:
1.本发明提供的一种基于深度强化学习的端到端分布式多机器人编队导航方法,该方法通过深度强化学习和一种集中式学习分布式执行的机制,得到一种能够分布式执行的端到端控制策略。通过该控制策略,能够在保持多机器人编队连通性的条件下将机器人编队的几何中心导航至目标点。与现有基于规则的方法相比,所得的控制策略无需依赖障碍物地图,能够直接将原始感知数据映射到机器人的控制量;
2.发明基于深度强化学习,以试错的方式,通过机器人编队跟环境的交互得到最终的控制策略,而无需显式地设计控制策略;
3.通过S4步骤得到的控制策略(即策略网络)能够直接将原始感知数据映射到机器人的控制量,而无需构建障碍物地图;
4.得益于本发明所设计的策略网络结构,本发明所得控制策略(即策略网络)能够分布式地执行,提高了机器人的自主性。
附图说明
图1是本发明的整体框架示意图。
图2是本发明策略网络的结构示意图。
图3是本发明值网络的结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
如图1所示,一种基于深度强化学习的端到端分布式多机器人编队导航方法,包括以下步骤:
步骤1.搭建仿真环境。深度强化学习的基本思想是通过试错的方式,在智能体跟环境交互的过程中迭代优化智能体的控制策略。因此在使用本发明提出的方法时,需要搭建仿真环境,以供多机器人编队进行试错。所搭建的仿真环境需要满足以下功能:
i.表示场景:在大小为10m×10m的场景中,每个障碍物均为多边形,每个多边形通过多边形的各顶点来表示;
ii.表示机器人编队:用3个0.5m半径的的圆形来表示机器人编队,每个机器人都能进行全向运动,最大速度为0.7m/s;
iii.随机初始化场景:随机生成位于不同位置,拥有不同形状的障碍物;随机生成位于不同位置的目标点;以及随机生成机器人编队的初始位置;
iv.根据环境的状态为机器人编队返回其局部观察值:每个机器人的观察值包含对环境的感知信息oe,即二维激光雷达的点云数据,自身的当前速度ov,其余机器人的位置om,以及目标点的位置og;
v.根据环境的状态以及机器人编队的控制指令更新环境的状态:除了需要根据机器人编队的控制指令去更新机器人的位置以外,还需要检测是否有碰撞的发生,碰撞包括机器人与机器人之间的碰撞以及机器人与障碍物之间的碰撞,碰撞包括机器人与机器人之间的碰撞以及机器人与障碍物之间的碰撞,以及机器人编队的几何中心是否已经到达目标点;
vi.根据环境的状态以及机器人编队的控制指令返回即时奖励值:奖励值的计算依赖于奖励函数。
步骤2.设计奖励函数以引导机器人编队的学习:机器人编队的试错学习需要根据环境返回的奖励值来衡量决策的好坏,而奖励值的计算依赖于奖励函数,因此奖励函数是基于深度强化学习的方法的重要组成部分。
本发明中的奖励函数由多个子奖励函数加权求和而成,即:
R(st,at)=ε+wg*Rg(st,at)+wc*Rc(st,at)+wf*Rf(st,at)+wv*Rv(st,at)
其中,ε=-0.5,用于引导机器人编队尽快到达目标点;wg=10,wc=1,wf=10和wv=5分别是对应子奖励函数的权重值。
Rg(st,at)用于引导机器人编队到达目标点。当机器人编队往目标点靠近时,返回一个正数作为奖励;当机器人编队远离目标点的时候,返回一个负数作为惩罚,其数学表达式为:
其中,表示机器人编队几何中心在t时刻的位置,g表示目标点的位置。
Rc(st,at)用于引导机器人避免碰撞(碰撞包括机器人与机器人之间的碰撞以及机器人与障碍物之间的碰撞)。当碰撞发生时,给予机器人编队一个负数作为惩罚,其数学表达式为:
Rf(st,at)用于引导机器人编队保持连通性。当机器人编队的连通性被破坏时(即机器人之间的距离超过阈值d=3.5m时),给予机器人编队一个负数作为惩罚。其数学表达式为:
Rv(st,at)用于引导机器人平滑地运动。当机器人的运动方向发生变化时,该子奖励函数会给予机器人编队一个负数作为惩罚。其数学表达式为:
步骤3.设计策略网络和值网络。所设计出的网络结构要能够有效地处理原始观测数据。特别的,对于策略网络,还要求能够分布式地执行。
策略网络的结构如图2所示,具体的:
1.为了满足分布式执行的要求,编队级别的策略网络由多个机器人级别的策略网络构成。各个机器人利用机器人级别的策略网络,根据机器人级别的局部观察值计算出机器人级别的控制量。接下来通过将机器人级别的控制量拼接在一起,得到编队级别的控制量;
2.由于本发明针对的是同构机器人,各个机器人都采用相同的控制策略,因此各个机器人级别的策略网络是共享参数的;
3.机器人级别的策略网络可以分为特征提取模块和后续处理模块。
其中,特征提取模块先对环境的原始感知信息oe以及其余机器人的位置om进行了处理提取对应子特征,然后将所得子特征与自身的当前速度ov以及目标点的位置og拼接在一起,最后通过全连接层提取总特征。在提取环境原始感知信息oe的子特征时,采用了卷积神经网络来高效处理二维激光雷达的点云数据;在提取其余机器人的位置om的子特征时,采用了一个顺序无关模块来保证所得子特征跟输入的顺序无关。在顺序无关模块中,首先采用一个共享的全连接层处理不同的子输入得到不同的子输出,然后将不同的子输出求平均,得到顺序无关模块的总输出。
后续处理模块使用全连接层对特征提取模块得到的总特征进行进一步操作,最后得到机器人级别的控制量。
值网络的结构如图3所示:
值网络先采用特征提取模块(值网络的特征提取模块跟策略网络的特征提取模块相似)对不同机器人的观察值进行特征提取,然后将各个机器人的总特征求均值,最后通过全连接层得到价值评估。
步骤4.利用基于行动者-评价家的强化学习方法,在机器人编队与仿真环境交互的过程中更新策略网络和值网络;其过程如图1所示:
S41.机器人编队从环境中获取观察值和奖励值;
S42.机器人编队根据观察值利用策略网络计算出控制量,并且执行;
S43.利用强化学习算法,根据交互信息:观察值、奖励值、控制量,对策略网络和值网络进行更新;
S44.重复步骤S41至S43。
步骤5.在执行阶段分布式地使用策略网络进行导航。在执行的时候,各个机器人使用机器人级别的策略网络,根据自身的观察值计算出自身的控制量。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,包括以下步骤:
S1.搭建仿真环境,机器人在仿真环境中进行试错学习;
S2.设计奖励函数以引导机器人编队的学习,机器人编队的试错学习根据仿真环境中返回的奖励值来衡量决策的好坏;所述的奖励函数由多个子奖励函数加权求和构成,即:
R(st,at)=ε+wg*Rg(st,at)+wc*Rc(st,at)+wf*Rf(st,at)+wv*Rv(st,at)
式中,st是t时刻的状态,at是t时刻的动作,ε是一个负常数,用于引导机器人编队尽快到达目标点;wg,wc,wf和wv分别是对应子奖励函数的权重值;Rg(st,at)用于引导机器人编队到达目标点;Rc(st,at)用于引导机器人避免碰撞;Rf(st,at)用于引导机器人编队保持连通性;Rv(st,at)用于引导机器人平滑地运动;
S3.设计策略网络和值网络;
S4.利用基于行动者-评价家的强化学习方法,在机器人编队与仿真环境交互的过程中更新策略网络和值网络;
S5.在执行阶段分布式地使用策略网络进行导航;在执行的时候,各个机器人使用机器人级别的策略网络,根据自身的观察值计算出自身的控制量。
2.根据权利要求1所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,所搭建的仿真环境具有以下功能:
i.表示场景:在仿真场景中,有多个障碍物,每个障碍物均为多边形,每个多边形通过多边形的各顶点来表示;
ii.表示机器人编队:用多个半径为r的圆形来表示机器人编队;
iii.随机初始化场景:随机生成位于不同位置,拥有不同形状的障碍物;随机生成位于不同位置的目标点;以及随机生成机器人编队的初始位置;
iv.根据环境的状态为机器人编队返回其局部观察值:每个机器人的观察值包含对环境的感知信息oe,即二维激光雷达的点云数据,自身的当前速度ov,其余机器人的位置om,以及目标点的位置og;
v.根据环境的状态以及机器人编队的控制指令更新环境的状态:除了需要根据机器人编队的控制指令去更新机器人的位置以外,还需要检测是否有碰撞的发生,碰撞包括机器人与机器人之间的碰撞以及机器人与障碍物之间的碰撞,以及机器人编队的几何中心是否已经到达目标点;
vi.根据环境的状态以及机器人编队的控制指令返回即时奖励值:奖励值的计算依赖于奖励函数。
3.根据权利要求2所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,所述的奖励函数中的Rg(st,at)用于引导机器人编队到达目标点;当机器人编队往目标点靠近时,返回一个正数作为奖励;当机器人编队远离目标点的时候,返回一个负数作为惩罚,其数学表达式为:
式中,rgoal是机器人编队几何中心到达目标点的奖励值,εg是用于判断几何中心是否到达目标点的阈值,表示机器人编队几何中心在t时刻的位置,g表示目标点的位置。
4.根据权利要求2所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,所述的奖励函数中的Rc(st,at)用于引导机器人避免碰撞,当碰撞发生时,给予机器人编队一个负数rcollision作为惩罚,其数学表达式为:
5.根据权利要求2所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,所述的奖励函数中的Rf(st,at)用于引导机器人编队保持连通性;当机器人编队的连通性被破坏时,即机器人之间的距离超过阈值d时,给予机器人编队一个负数作为惩罚,其数学表达式为:
式中,avg表示求均值,min表示取最小值。
6.根据权利要求2所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,所述的奖励函数中的Rv(st,at)用于引导机器人平滑地运动;当机器人的运动方向发生变化时,该子奖励函数会给予机器人编队一个负数作为惩罚;其数学表达式为:
式中,<a,b>表示两向量的内积。
7.根据权利要求3至6任一项所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,为了满足分布式执行的要求,编队级别的策略网络由多个机器人级别的策略网络构成,各个机器人利用机器人级别的策略网络,根据机器人级别的局部观察值计算出机器人级别的控制量,然后通过将机器人级别的控制量拼凑在一起,得到编队级别的控制量。
8.根据权利要求7所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,所述的策略网络分为特征提取模块和后续处理模块,所述的特征提取模块先对环境的原始感知信息oe以及其余机器人的位置om进行了处理提取对应子特征,然后将所得子特征与自身的当前速度ov以及目标点的位置og拼接在一起,最后通过全连接层提取总特征;在提取环境原始感知信息oe的子特征时,采用了卷积神经网络来处理二维激光雷达的点云数据;在提取其余机器人的位置om的子特征时,采用了一个顺序无关模块来保证所得子特征跟输入的顺序无关;在顺序无关模块中,首先采用一个共享的全连接层处理不同的子输入得到不同的子输出,然后将不同的子输出求平均,得到顺序无关模块的总输出。
9.根据权利要求8所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,所述的值网络先采用特征提取模块对不同机器人的观察值进行特征提取,然后将各个机器人的总特征求均值,最后通过全连接层得到价值评估;值网络的特征提取模块与策略网络的特征提取模块相同。
10.根据权利要求10所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,所述的S4步骤具体包括:
S41.机器人编队从环境中获取观察值和奖励值;
S42.机器人编队根据观察值利用策略网络计算出控制量,并且执行;
S43.利用强化学习算法,根据交互信息:观察值、奖励值、控制量,对策略网络和值网络进行更新;
S44.重复步骤S41至S43。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910394893.5A CN110147101B (zh) | 2019-05-13 | 2019-05-13 | 一种基于深度强化学习的端到端分布式多机器人编队导航方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910394893.5A CN110147101B (zh) | 2019-05-13 | 2019-05-13 | 一种基于深度强化学习的端到端分布式多机器人编队导航方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147101A true CN110147101A (zh) | 2019-08-20 |
CN110147101B CN110147101B (zh) | 2020-05-22 |
Family
ID=67595119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910394893.5A Active CN110147101B (zh) | 2019-05-13 | 2019-05-13 | 一种基于深度强化学习的端到端分布式多机器人编队导航方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147101B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110470306A (zh) * | 2019-08-27 | 2019-11-19 | 中山大学 | 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法 |
CN110766216A (zh) * | 2019-10-17 | 2020-02-07 | 山东师范大学 | 一种端到端移动机器人路径导航模拟方法及系统 |
CN110908384A (zh) * | 2019-12-05 | 2020-03-24 | 中山大学 | 一种分布式多机器人协同过未知随机迷宫的编队导航方法 |
CN111562740A (zh) * | 2020-05-06 | 2020-08-21 | 清华大学 | 基于利用梯度的多目标强化学习算法的自动控制方法 |
CN111707270A (zh) * | 2020-06-23 | 2020-09-25 | 东南大学 | 一种基于分布估计和强化学习的无地图避障导航方法 |
CN111781922A (zh) * | 2020-06-15 | 2020-10-16 | 中山大学 | 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法 |
CN112051780A (zh) * | 2020-09-16 | 2020-12-08 | 北京理工大学 | 一种基于脑机接口的移动机器人编队控制系统及方法 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112304314A (zh) * | 2020-08-27 | 2021-02-02 | 中国科学技术大学 | 一种分布式多机器人的导航方法 |
CN112711261A (zh) * | 2020-12-30 | 2021-04-27 | 浙江大学 | 一种基于局部视野的多智能体编队规划方法 |
CN112711271A (zh) * | 2020-12-16 | 2021-04-27 | 中山大学 | 基于深度强化学习的自主导航无人机功率优化方法 |
CN113485323A (zh) * | 2021-06-11 | 2021-10-08 | 同济大学 | 一种级联多移动机器人灵活编队方法 |
CN113687657A (zh) * | 2021-08-26 | 2021-11-23 | 鲁东大学 | 用于多智能体编队动态路径规划的方法和存储介质 |
CN116069023A (zh) * | 2022-12-20 | 2023-05-05 | 南京航空航天大学 | 一种基于深度强化学习的多无人车编队控制方法和系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975802A (zh) * | 2006-11-28 | 2007-06-06 | 中国电子科技集团公司第三十八研究所 | 机动车辆编队行驶系统的控制方法 |
SE1350334A1 (sv) * | 2013-03-19 | 2014-09-20 | Scania Cv Ab | Anordning och metod för att reglera ett autonomt fordon |
US20160188996A1 (en) * | 2014-12-26 | 2016-06-30 | Here Global B.V. | Extracting Feature Geometries for Localization of a Device |
CN106502250A (zh) * | 2016-11-23 | 2017-03-15 | 北京邮电大学 | 三维空间内多机器人编队的路径规划算法 |
US20170269608A1 (en) * | 2014-02-07 | 2017-09-21 | Crown Equipment Corporation | Systems, methods, and mobile client devices for supervising industrial vehicles |
CN107992035A (zh) * | 2017-11-15 | 2018-05-04 | 西北工业大学 | 一种基于室内全局定位的多移动机器人编队控制方法 |
CN108255182A (zh) * | 2018-01-30 | 2018-07-06 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
CN108829087A (zh) * | 2018-07-19 | 2018-11-16 | 山东省科学院自动化研究所 | 一种自动驾驶汽车的智能测试系统及测试方法 |
CN108897313A (zh) * | 2018-05-23 | 2018-11-27 | 清华大学 | 一种分层式端到端车辆自动驾驶系统构建方法 |
CN109282817A (zh) * | 2018-10-16 | 2019-01-29 | 中山大学 | 一种多机器人协同定位与控制方法 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
-
2019
- 2019-05-13 CN CN201910394893.5A patent/CN110147101B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975802A (zh) * | 2006-11-28 | 2007-06-06 | 中国电子科技集团公司第三十八研究所 | 机动车辆编队行驶系统的控制方法 |
SE1350334A1 (sv) * | 2013-03-19 | 2014-09-20 | Scania Cv Ab | Anordning och metod för att reglera ett autonomt fordon |
US20170269608A1 (en) * | 2014-02-07 | 2017-09-21 | Crown Equipment Corporation | Systems, methods, and mobile client devices for supervising industrial vehicles |
US20160188996A1 (en) * | 2014-12-26 | 2016-06-30 | Here Global B.V. | Extracting Feature Geometries for Localization of a Device |
CN106502250A (zh) * | 2016-11-23 | 2017-03-15 | 北京邮电大学 | 三维空间内多机器人编队的路径规划算法 |
CN107992035A (zh) * | 2017-11-15 | 2018-05-04 | 西北工业大学 | 一种基于室内全局定位的多移动机器人编队控制方法 |
CN108255182A (zh) * | 2018-01-30 | 2018-07-06 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
CN108897313A (zh) * | 2018-05-23 | 2018-11-27 | 清华大学 | 一种分层式端到端车辆自动驾驶系统构建方法 |
CN108829087A (zh) * | 2018-07-19 | 2018-11-16 | 山东省科学院自动化研究所 | 一种自动驾驶汽车的智能测试系统及测试方法 |
CN109282817A (zh) * | 2018-10-16 | 2019-01-29 | 中山大学 | 一种多机器人协同定位与控制方法 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
Non-Patent Citations (4)
Title |
---|
HITOSHI IIMA: "Swarm Reinforcement Learning Method for a Multi-robot Formation Problem", 《2013 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND CYBERNETICS》 * |
PANG RUI: "Multi-UAV formation maneuvering control based on Q-Learning fuzzy controller", 《2010 2ND INTERNATIONAL CONFERENCE ON ADVANCED COMPUTER CONTROL》 * |
王醒策 等: "多机器人动态编队的强化学习算法研究", 《计算机研究与发展》 * |
葛媛 等: "模糊强化学习在机器人导航中的应用", 《信息技术》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110470306B (zh) * | 2019-08-27 | 2023-03-10 | 中山大学 | 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法 |
CN110470306A (zh) * | 2019-08-27 | 2019-11-19 | 中山大学 | 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法 |
CN110766216A (zh) * | 2019-10-17 | 2020-02-07 | 山东师范大学 | 一种端到端移动机器人路径导航模拟方法及系统 |
CN110908384A (zh) * | 2019-12-05 | 2020-03-24 | 中山大学 | 一种分布式多机器人协同过未知随机迷宫的编队导航方法 |
CN110908384B (zh) * | 2019-12-05 | 2022-09-23 | 中山大学 | 一种分布式多机器人协同过未知随机迷宫的编队导航方法 |
CN111562740A (zh) * | 2020-05-06 | 2020-08-21 | 清华大学 | 基于利用梯度的多目标强化学习算法的自动控制方法 |
CN111562740B (zh) * | 2020-05-06 | 2021-04-23 | 清华大学 | 基于利用梯度的多目标强化学习算法的自动控制方法 |
CN111781922A (zh) * | 2020-06-15 | 2020-10-16 | 中山大学 | 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法 |
CN111707270A (zh) * | 2020-06-23 | 2020-09-25 | 东南大学 | 一种基于分布估计和强化学习的无地图避障导航方法 |
CN111707270B (zh) * | 2020-06-23 | 2021-12-07 | 东南大学 | 一种基于分布估计和强化学习的无地图避障导航方法 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112068549B (zh) * | 2020-08-07 | 2022-12-16 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112304314A (zh) * | 2020-08-27 | 2021-02-02 | 中国科学技术大学 | 一种分布式多机器人的导航方法 |
CN112051780B (zh) * | 2020-09-16 | 2022-05-17 | 北京理工大学 | 一种基于脑机接口的移动机器人编队控制系统及方法 |
CN112051780A (zh) * | 2020-09-16 | 2020-12-08 | 北京理工大学 | 一种基于脑机接口的移动机器人编队控制系统及方法 |
CN112711271A (zh) * | 2020-12-16 | 2021-04-27 | 中山大学 | 基于深度强化学习的自主导航无人机功率优化方法 |
CN112711261A (zh) * | 2020-12-30 | 2021-04-27 | 浙江大学 | 一种基于局部视野的多智能体编队规划方法 |
CN113485323A (zh) * | 2021-06-11 | 2021-10-08 | 同济大学 | 一种级联多移动机器人灵活编队方法 |
CN113485323B (zh) * | 2021-06-11 | 2024-04-12 | 同济大学 | 一种级联多移动机器人灵活编队方法 |
CN113687657A (zh) * | 2021-08-26 | 2021-11-23 | 鲁东大学 | 用于多智能体编队动态路径规划的方法和存储介质 |
CN116069023A (zh) * | 2022-12-20 | 2023-05-05 | 南京航空航天大学 | 一种基于深度强化学习的多无人车编队控制方法和系统 |
CN116069023B (zh) * | 2022-12-20 | 2024-02-23 | 南京航空航天大学 | 一种基于深度强化学习的多无人车编队控制方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110147101B (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147101A (zh) | 一种基于深度强化学习的端到端分布式多机器人编队导航方法 | |
Yao et al. | Path planning method with improved artificial potential field—a reinforcement learning perspective | |
Das et al. | Intelligent-based multi-robot path planning inspired by improved classical Q-learning and improved particle swarm optimization with perturbed velocity | |
CN109960880B (zh) | 一种基于机器学习的工业机器人避障路径规划方法 | |
Liu et al. | A digital twin-based sim-to-real transfer for deep reinforcement learning-enabled industrial robot grasping | |
Tuncer et al. | Dynamic path planning of mobile robots with improved genetic algorithm | |
CN110162035B (zh) | 一种集群机器人在有障碍物场景中的协同运动方法 | |
Shiltagh et al. | Optimal path planning for intelligent mobile robot navigation using modified particle swarm optimization | |
CN113495578A (zh) | 一种基于数字孪生式训练的集群航迹规划强化学习方法 | |
US20210174209A1 (en) | Neural network obtaining method and related device | |
Capitanelli et al. | On the manipulation of articulated objects in human–robot cooperation scenarios | |
CN110389591A (zh) | 一种基于dbq算法的路径规划方法 | |
Papadopoulos et al. | Towards open and expandable cognitive AI architectures for large-scale multi-agent human-robot collaborative learning | |
CN110470306A (zh) | 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法 | |
CN110908384B (zh) | 一种分布式多机器人协同过未知随机迷宫的编队导航方法 | |
Ferreira et al. | An improved cellular automata-based model for robot path-planning | |
Fan et al. | Model-based stochastic search for large scale optimization of multi-agent UAV swarms | |
Chandrasekhar Rao et al. | Cooperative navigation planning of multiple mobile robots using improved krill herd | |
Su et al. | Robot path planning based on random coding particle swarm optimization | |
Zhou et al. | Modularity through attention: Efficient training and transfer of language-conditioned policies for robot manipulation | |
Hamami et al. | A systematic review on particle swarm optimization towards target search in the swarm robotics domain | |
Price et al. | GA directed self-organized search and attack UAV swarms | |
Zhang et al. | An iterative optimization approach for multi-robot pattern formation in obstacle environment | |
Dong et al. | A behavior-based policy for multirobot formation control | |
Rooban et al. | A detailed review of swarm robotics and its significance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |