CN111781922B - 一种基于深度强化学习的多机器人协同导航方法 - Google Patents

一种基于深度强化学习的多机器人协同导航方法 Download PDF

Info

Publication number
CN111781922B
CN111781922B CN202010544077.0A CN202010544077A CN111781922B CN 111781922 B CN111781922 B CN 111781922B CN 202010544077 A CN202010544077 A CN 202010544077A CN 111781922 B CN111781922 B CN 111781922B
Authority
CN
China
Prior art keywords
strategy
robot
auxiliary
task
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010544077.0A
Other languages
English (en)
Other versions
CN111781922A (zh
Inventor
杨旭韵
成慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010544077.0A priority Critical patent/CN111781922B/zh
Publication of CN111781922A publication Critical patent/CN111781922A/zh
Application granted granted Critical
Publication of CN111781922B publication Critical patent/CN111781922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明属于机器人中的多移动机器人技术领域,更具体地,涉及一种基于深度强化学习的多机器人协同导航方法。该方法结合了多任务学习的方式,通过深度强化学习方法来训练得到控制策略,使得机器人队伍的几何中心能够高效地到达目标点,在这过程中队伍能够安全地躲避动态障碍物和静态障碍物,并且能够尽量保持队伍的连通性。同时,通过有监督的深度学习方法来训练得到辅助策略,判断机器人个体的感知范围内是否存在动态障碍物,辅助策略的输出结果能够反映控制策略的决策过程,增强控制策略模型的可解释性。

Description

一种基于深度强化学习的多机器人协同导航方法
技术领域
本发明属于机器人中的多移动机器人技术领域,更具体地,涉及一种基于深度强化学习的多机器人协同导航方法。
背景技术
相比于单机器人系统,由多个移动机器人组成机器人队伍在现实中能够以更优的效率和性能来完成工作,具有较广泛的应用场景。在工作空间中通常会存在一些未知障碍物,出于安全性的考虑,机器人队伍需要自主避障;其中,动态障碍物的出现更会增加避障的难度。另外,机器人队伍还需要维持连通性,以满足上层任务对机器人之间的距离约束条件。特别地,动态障碍物的出现不仅使得环境状态变得不稳定,并且还会更加干扰队伍内的协作,使得机器人队伍避障的难度大大增加。
用于控制多机器人队伍协同导航的方法可以分为基于规则的方法和基于学习的方法。其中,基于规则的方法在解决躲避动态障碍物问题时,采用的方法主要包括动态窗口法和速度障碍法。基于规则的方法需要知道障碍物的位置和速度或者是运动模型等精确的信息,但一些情况下机器人队伍所在的场景是未知的、随机的、多样的,并且障碍物的运动是随机的,很难为各种场景及时地获取精确的信息。
基于学习的方法可以在不需要构建障碍物地图的情况下,根据局部感知信息做出决策来控制机器人的运动。该类方法在处理包含动态障碍物的场景时,通常使用具有记忆能力的循环神经网络来获取感知数据中的时序信息。但当前基于学习的方法通常只关注单个机器人的避障问题,没有考虑队伍整体的连通性;如专利201910795982,提供了一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法,虽然考虑队伍连通性的导航方法,但是并没有考虑处理动态障碍物的问题。在包含动态障碍物的动态场景中考虑保持连通性的多机器人队伍导航,是一项更为困难的任务,控制模型需要根据更多的动态信息来做出合理安全的决策。
发明内容
本发明为克服上述现有技术中的缺陷,提供一种用于复杂动态场景的基于深度强化学习的多机器人协同导航方法,使得机器人队伍在导航过程中,能够自主躲避场景中的静态障碍物以及做匀速直线运动的动态障碍物。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度强化学习的多机器人协同导航方法,其中,在深度强化学习方法的环境和机器人队伍交互的框架基础上,结合有监督的深度学习方法,训练得到机器人队伍的综合策略;所述的综合策略包括控制策略πc和辅助策略πa,所述的控制策略根据观测值o计算得到机器人队伍的控制量a,用于控制机器人队伍完成避障导航主任务;所述的辅助策略根据观测值o计算得到辅助任务的结果u,并使u值不断逼近辅助任务的真实值y;所述的控制策略πc和辅助策略πa均由前端的表示信息提取模块和后端的输出模块构成,控制策略πc和辅助策略πa共享同一个表示信息提取模块,表示信息提取模块根据输入的观测值o计算得到表示信息F(o),作为后续输出模块的共同输入。
本发明结合了多任务学习的方式,通过深度强化学习方法来训练得到控制策略,使得机器人队伍的几何中心能够高效地到达目标点,在这过程中队伍能够安全地躲避动态障碍物和静态障碍物,并且能够尽量保持队伍的连通性。同时,通过有监督的深度学习方法来训练得到辅助策略,判断机器人个体的感知范围内是否存在动态障碍物,辅助策略的输出结果能够反映控制策略的决策过程,增强控制策略模型的可解释性。
本发明的关键在于结合深度强化学习的试错方式和有监督的深度学习方式,训练一个综合策略模型,共同学习完成导航主任务与辅助任务。
进一步的,采用基于深度强化学习方法训练控制策略πc,采用基于监督深度学习的方法训练辅助策略πa,据此,定义综合策略的损失函数,其中θ为该策略模型的参数,包含了控制策略πc的损失函数和辅助策略πa的损失函数,其数学形式如下:
L(θ)=L(πc(o;θc))+L(πa(o;θa);ya)
其中,L(πc(o;θc))是深度强化学习相关的控制策略πc的损失函数,θc是控制策略的参数,包括了表示信息提取模块的参数θr和输出模块的参数θco,即θc={θr;θco};L(πa(o;θa);ya)是有监督深度学习相关的辅助策略πa的损失函数,θa是辅助策略的参数,包括了表示信息提取模块的参数θr和输出模块的参数θao,即θa={θr;θao};ya是通过有监督深度学习方法学习的辅助任务的标签,即辅助任务的真实值。
进一步的,在训练过程中,所述的综合策略的损失函数共同作用于共享的表示信息提取模块的参数θr,选择和主任务相关的任务作为辅助任务,在有监督深度学习中利用标签来提供额外的激励信号,引导表示信息提取模块学习提取更多有效的特征信息。此时,控制策略不再仅仅通过深度强化学习方法“试错”地学习提取感知数据中相关动态信息,通过有监督的辅助任务能够促进控制策略的学习效率并提升模型的效果。
根据上述模型学习方法可以得到综合策略模型,其中的控制策略模型是一个具有较好解释性的端到端模型。通过辅助策略的输出结果,在一定程度上反映了模型内部的表表示信息提取模块学习到了什么特征,有助于更好地理解端到端控制模型的决策过程。
进一步的,定义辅助任务为状态属性判断任务,即在机器人队伍导航过程中,判断机器人的局部感知范围内是否存在动态障碍物。
进一步的,所述的状态属性判断任务具体包括:当机器人在连续两个及以上的时刻内观测到场景中任意同一个动态障碍物,则表示机器人感测到动态障碍物,标记为类别1;反之,则表示机器人没有感测到动态障碍物,标记为类别0。
进一步的,采用分布式控制的方式控制机器人队伍完成导航任务和状态属性判断任务,各个机器人使用共享的个体控制策略和个体辅助策略。
进一步的,对于第i个机器人,1≤i≤N,N表示机器人队伍的个体数量,通过控制策略和辅助策略,在t时刻根据自身的局部感知数据
Figure GDA0003167376500000031
分别计算输出个体的控制量
Figure GDA0003167376500000032
和状态属性概率结果
Figure GDA0003167376500000033
其中局部感知数据
Figure GDA0003167376500000034
包括对环境的感知信息
Figure GDA0003167376500000035
即二维激光雷达的点云数据,自身的当前速度
Figure GDA0003167376500000036
其余机器人的位置
Figure GDA0003167376500000037
以及目标点的位置
Figure GDA0003167376500000038
进一步的,对应于分布式控制方法,设计机器人的个体策略模型,该个体策略模型由神经网络搭建而成;构建的个体策略网络结构包括前端的表示信息提取模块以及后端的控制策略输出模块和辅助策略输出模块;所述的表示信息提取模块包含了特征信息提取模块以及后续处理模块,所述的特征信息提取模块对原始感知数据进行特征提取;后续处理模块使用了门控循环单元,利用其记忆能力进一步获取时序信息;所述的控制策略输出模块和辅助策略输出模块对表示信息提取模块的输出分别进行进一步的处理,最终分别得到机器人的速度控制量和状态属性类别概率结果。
进一步的,所述的辅助策略输出模块通过softmax函数的计算输出
Figure GDA0003167376500000041
分别为属性类别0和类别1对应的概率。
进一步的,根据辅助策略模型的输出,定义辅助策略的损失函数的具体形式为交叉熵函数。
与现有技术相比,有益效果是:本发明提供的一种基于深度强化学习的多机器人协同导航方法,结合多任务学习的方式,使用基于有监督深度学习的辅助任务来辅助基于深度强化学习的多机器人队伍导航策略的学习;定义有监督的辅助任务为状态属性判断任务,引导策略模型提取有效的动态信息,使得训练得到的控制策略能够控制机器人队伍自主躲避场景中的动态障碍物和静态障碍物;在导航过程中,通过辅助策略的输出结果,能够反映模型内部的决策过程以及控制策略的决策依据,一定程度上增强了端到端控制策略模型的可解释性。
附图说明
图1是本发明方法的策略学习框架示意图。
图2是本发明机器人个体的综合策略的网络结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
实施例1:
如图1所示,一种基于深度强化学习的多机器人协同导航方法,其中,在深度强化学习方法的环境和机器人队伍交互的框架基础上,结合有监督的深度学习方法,训练得到机器人队伍的综合策略;综合策略包括控制策略πc和辅助策略πa,控制策略根据观测值o计算得到机器人队伍的控制量a,用于控制机器人队伍完成避障导航主任务;辅助策略根据观测值o计算得到辅助任务的结果u,并使u值不断逼近辅助任务的真实值y;控制策略πc和辅助策略πa均由前端的表示信息提取模块和后端的输出模块构成,控制策略πc和辅助策略πa共享同一个表示信息提取模块,表示信息提取模块根据输入的观测值o计算得到表示信息F(o),作为后续输出模块的共同输入。
对于这个综合策略的优化,本发明结合了多任务学习的方式,并且对不同任务采取了不同的学习方法;具体的,采用基于深度强化学习方法训练控制策略πc,采用基于监督深度学习的方法训练辅助策略πa,据此,定义综合策略的损失函数,其中θ为该策略模型的参数,包含了控制策略πc的损失函数和辅助策略πa的损失函数,其数学形式如下:
L(θ)=L(πc(o;θc))+L(πa(o;θa);ya)
其中,L(πc(o;θc))是深度强化学习相关的控制策略πc的损失函数,θc是控制策略的参数,包括了表示信息提取模块的参数θr和输出模块的参数θco,即θc={θr;θco};L(πa(o;θa);ya)是有监督深度学习相关的辅助策略πa的损失函数,θa是辅助策略的参数,包括了表示信息提取模块的参数θr和输出模块的参数θao,即θa={θr;θao};ya是通过有监督深度学习方法学习的辅助任务的标签,即辅助任务的真实值。在本发明中,利用基于行动者-评论家的深度强化学习方法,定义第一项控制策略πc损失函数。
其中,在训练过程中,综合策略的损失函数共同作用于共享的表示信息提取模块的参数θr,选择和主任务相关的任务作为辅助任务,在有监督深度学习中利用标签来提供额外的激励信号,引导表示信息提取模块学习提取更多有效的特征信息。此时,控制策略不再仅仅通过深度强化学习方法“试错”地学习提取感知数据中相关动态信息,通过有监督的辅助任务能够促进控制策略的学习效率并提升模型的效果。
根据上述模型学习方法可以得到综合策略模型,其中的控制策略模型是一个具有较好解释性的端到端模型。通过辅助策略的输出结果,在一定程度上反映了模型内部的表表示信息提取模块学习到了什么特征,有助于更好地理解端到端控制模型的决策过程。
另外,定义辅助任务为状态属性判断任务,即在机器人队伍导航过程中,判断机器人的局部感知范围内是否存在动态障碍物。状态属性判断任务具体包括:当机器人在连续两个及以上的时刻内观测到场景中任意同一个动态障碍物,则表示机器人感测到动态障碍物,标记为类别1;反之,则表示机器人没有感测到动态障碍物,标记为类别0。
在本实施例中,采用分布式控制的方式控制机器人队伍完成导航任务和状态属性判断任务,各个机器人使用共享的个体控制策略和个体辅助策略。对于第i个机器人,1≤i≤N,N表示机器人队伍的个体数量,通过控制策略和辅助策略,在t时刻根据自身的局部感知数据
Figure GDA0003167376500000061
分别计算输出个体的控制量
Figure GDA0003167376500000062
和状态属性概率结果
Figure GDA0003167376500000063
其中局部感知数据
Figure GDA0003167376500000064
包括对环境的感知信息
Figure GDA0003167376500000065
即二维激光雷达的点云数据,自身的当前速度
Figure GDA0003167376500000066
其余机器人的位置
Figure GDA0003167376500000067
以及目标点的位置
Figure GDA0003167376500000068
具体的,对应于分布式控制方法,设计机器人的个体策略模型,该个体策略模型由神经网络搭建而成;如图2所示,构建的个体策略网络结构包括前端的表示信息提取模块以及后端的控制策略输出模块和辅助策略输出模块;表示信息提取模块包含了特征信息提取模块以及后续处理模块,特征信息提取模块对原始感知数据进行特征提取;后续处理模块使用了门控循环单元,利用其记忆能力进一步获取时序信息;控制策略输出模块和辅助策略输出模块对表示信息提取模块的输出分别进行进一步的处理,最终分别得到机器人的速度控制量和状态属性类别概率结果。
其中,辅助策略输出模块通过softmax函数的计算输出
Figure GDA0003167376500000069
分别为属性类别0和类别1对应的概率。根据辅助策略模型的输出,定义辅助策略的损失函数的具体形式为交叉熵函数。
综上,本发明通过结合深度强化学习方法和有监督的深度学习方法,最终训练得到综合策略模型(包括控制策略和辅助策略),其中辅助策略用于完成辅助的状态属性判断任务,控制策略则可用于完成主要的机器人队伍协同导航任务。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种基于深度强化学习的多机器人协同导航方法,其特征在于,在深度强化学习方法的环境和机器人队伍交互的框架基础上,结合有监督的深度学习方法,训练得到机器人队伍的综合策略;所述的综合策略包括控制策略πc和辅助策略πa,所述的控制策略根据观测值o计算得到机器人队伍的控制量a,用于控制机器人队伍完成避障导航主任务;所述的辅助策略根据观测值o计算得到辅助任务的结果u,并使u值不断逼近辅助任务的真实值y;其中,定义辅助任务为状态属性判断任务,即在机器人队伍导航过程中,判断机器人的局部感知范围内是否存在动态障碍物;所述的控制策略πc和辅助策略πa均由前端的表示信息提取模块和后端的输出模块构成,控制策略πc和辅助策略πa共享同一个表示信息提取模块,表示信息提取模块根据输入的观测值o计算得到表示信息F(o),作为后续输出模块的共同输入;其中,采用基于深度强化学习方法训练控制策略πc,采用基于有监督深度学习的方法训练辅助策略πa,据此,定义综合策略的损失函数,其中θ为该策略模型的参数,包含了控制策略πc的损失函数和辅助策略πa的损失函数,其数学形式如下:
L(θ)=L(πc(o;θc))+L(πa(o;θa);ya)
其中,L(πc(o;θc))是深度强化学习相关的控制策略πc的损失函数,θc是控制策略的参数,包括了表示信息提取模块的参数θr和输出模块的参数θco,即θc={θr;θco};L(πa(o;θa);ya)是有监督深度学习相关的辅助策略πa的损失函数,θa是辅助策略的参数,包括了表示信息提取模块的参数θr和输出模块的参数θao,即θa={θr;θao};ya是通过有监督深度学习方法学习的辅助任务的标签,即辅助任务的真实值。
2.根据权利要求1所述的基于深度强化学习的多机器人协同导航方法,其特征在于,在训练过程中,所述的综合策略的损失函数共同作用于共享的表示信息提取模块的参数θr,选择和主任务相关的任务作为辅助任务,在有监督深度学习中利用标签来提供额外的激励信号,引导表示信息提取模块学习提取更多有效的特征信息。
3.根据权利要求2所述的基于深度强化学习的多机器人协同导航方法,其特征在于,所述的状态属性判断任务具体包括:当机器人在连续两个及以上的时刻内观测到场景中任意同一个动态障碍物,则表示机器人感测到动态障碍物,标记为类别1;反之,则表示机器人没有感测到动态障碍物,标记为类别0。
4.根据权利要求3所述的基于深度强化学习的多机器人协同导航方法,其特征在于,采用分布式控制的方式控制机器人队伍完成导航任务和状态属性判断任务,各个机器人使用共享的个体控制策略和个体辅助策略。
5.根据权利要求4所述的基于深度强化学习的多机器人协同导航方法,其特征在于,对于第i个机器人,1≤i≤N,N表示机器人队伍的个体数量,通过控制策略和辅助策略,在t时刻根据自身的局部感知数据
Figure FDA0003167376490000021
分别计算输出个体的控制量
Figure FDA0003167376490000022
和状态属性概率结果
Figure FDA0003167376490000023
其中局部感知数据
Figure FDA0003167376490000024
包括对环境的感知信息
Figure FDA0003167376490000025
即二维激光雷达的点云数据,自身的当前速度
Figure FDA0003167376490000026
其余机器人的位置
Figure FDA0003167376490000027
以及目标点的位置
Figure FDA0003167376490000028
6.根据权利要求5所述的基于深度强化学习的多机器人协同导航方法,其特征在于,对应于分布式控制方法,设计机器人的个体策略模型,该个体策略模型由神经网络搭建而成;构建的个体策略网络结构包括前端的表示信息提取模块以及后端的控制策略输出模块和辅助策略输出模块;所述的表示信息提取模块包含了特征信息提取模块以及后续处理模块,所述的特征信息提取模块对原始感知数据进行特征提取;后续处理模块使用了门控循环单元,利用其记忆能力进一步获取时序信息;所述的控制策略输出模块和辅助策略输出模块对表示信息提取模块的输出分别进行进一步的处理,最终分别得到机器人的速度控制量和状态属性类别概率结果。
7.根据权利要求6所述的基于深度强化学习的多机器人协同导航方法,其特征在于,所述的辅助策略输出模块通过softmax函数的计算输出
Figure FDA0003167376490000029
分别为属性类别0和类别1对应的概率。
8.根据权利要求7所述的基于深度强化学习的多机器人协同导航方法,其特征在于,根据辅助策略模型的输出,定义辅助策略的损失函数的具体形式为交叉熵函数。
CN202010544077.0A 2020-06-15 2020-06-15 一种基于深度强化学习的多机器人协同导航方法 Active CN111781922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010544077.0A CN111781922B (zh) 2020-06-15 2020-06-15 一种基于深度强化学习的多机器人协同导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010544077.0A CN111781922B (zh) 2020-06-15 2020-06-15 一种基于深度强化学习的多机器人协同导航方法

Publications (2)

Publication Number Publication Date
CN111781922A CN111781922A (zh) 2020-10-16
CN111781922B true CN111781922B (zh) 2021-10-26

Family

ID=72756567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010544077.0A Active CN111781922B (zh) 2020-06-15 2020-06-15 一种基于深度强化学习的多机器人协同导航方法

Country Status (1)

Country Link
CN (1) CN111781922B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965081B (zh) * 2021-02-05 2023-08-01 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法
CN113296502B (zh) * 2021-05-08 2022-11-01 华东师范大学 动态环境下基于层级关系图学习的多机器人协同导航方法
CN114927025B (zh) * 2022-06-07 2024-04-12 安胜(天津)飞行模拟系统有限公司 一种飞机模拟机复杂状态预防和改出训练方法
CN115034335B (zh) * 2022-08-09 2022-10-21 北京东方通网信科技有限公司 一种基于决策树模型的机器人自主协同控制方法和系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078951A1 (en) * 2000-04-13 2001-10-25 Zhimin Lin Semi-optimal path finding in a wholly unknown environment
CN102915465A (zh) * 2012-10-24 2013-02-06 河海大学常州校区 一种基于移动生物刺激神经网络的多机器人联合编队方法
CN103412490A (zh) * 2013-08-14 2013-11-27 山东大学 用于多机器人动态路径规划的多克隆人工免疫网络算法
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN109794937A (zh) * 2019-01-29 2019-05-24 南京邮电大学 一种基于强化学习的足球机器人协作方法
CN110045740A (zh) * 2019-05-15 2019-07-23 长春师范大学 一种基于人类行为模拟的移动机器人实时运动规划方法
CN110083166A (zh) * 2019-05-30 2019-08-02 浙江远传信息技术股份有限公司 针对多机器人的协同调度方法、装置、设备及介质
CN110470306A (zh) * 2019-08-27 2019-11-19 中山大学 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN110728368A (zh) * 2019-10-25 2020-01-24 中国人民解放军国防科技大学 一种仿真机器人深度强化学习的加速方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109974719A (zh) * 2017-12-28 2019-07-05 周秦娜 一种基于云计算的移动机器人环境感知的控制方法及装置
CN110147101B (zh) * 2019-05-13 2020-05-22 中山大学 一种基于深度强化学习的端到端分布式多机器人编队导航方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078951A1 (en) * 2000-04-13 2001-10-25 Zhimin Lin Semi-optimal path finding in a wholly unknown environment
CN102915465A (zh) * 2012-10-24 2013-02-06 河海大学常州校区 一种基于移动生物刺激神经网络的多机器人联合编队方法
CN103412490A (zh) * 2013-08-14 2013-11-27 山东大学 用于多机器人动态路径规划的多克隆人工免疫网络算法
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN109794937A (zh) * 2019-01-29 2019-05-24 南京邮电大学 一种基于强化学习的足球机器人协作方法
CN110045740A (zh) * 2019-05-15 2019-07-23 长春师范大学 一种基于人类行为模拟的移动机器人实时运动规划方法
CN110083166A (zh) * 2019-05-30 2019-08-02 浙江远传信息技术股份有限公司 针对多机器人的协同调度方法、装置、设备及介质
CN110470306A (zh) * 2019-08-27 2019-11-19 中山大学 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN110728368A (zh) * 2019-10-25 2020-01-24 中国人民解放军国防科技大学 一种仿真机器人深度强化学习的加速方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"End-to-end Decentralized Multi-robot Navigation in Unknown Complex Environments via Deep Reinforcement Learning";Xuyun Yang等;《Proceedings of 2019 IEEE International Conference on Mechatronics and Automation》;20190807;全文 *
"Research on decision-making strategy of soccer robot based on multi-agent reinforcement learning";Xiaoli Liu;《INTERNATIONAL JOURNAL OF ADVANCED ROBOTIC SYSTEMS》;20200531;第17卷(第3期);全文 *
"基于强化学习的多机器人协作控制方法研究";姜新丽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110615;全文 *
"基于深度强化学习的多机器人协同导航";周世正;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815;全文 *

Also Published As

Publication number Publication date
CN111781922A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111781922B (zh) 一种基于深度强化学习的多机器人协同导航方法
US20230161352A1 (en) Dynamic obstacle avoidance method based on real-time local grid map construction
US11720099B2 (en) Control method of automatic driving imported “smart gains” model, device and program
CN110147101B (zh) 一种基于深度强化学习的端到端分布式多机器人编队导航方法
CN111780777A (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN107479547B (zh) 基于示教学习的决策树行为决策算法
Chen et al. Self-learning exploration and mapping for mobile robots via deep reinforcement learning
CN110470306B (zh) 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
Liu et al. Visuomotor reinforcement learning for multirobot cooperative navigation
CN112987732A (zh) 基于人工势场法的多移动机器人编队避障控制方法
CN112817318B (zh) 一种多无人艇协同搜索控制方法及系统
Bicer et al. Sample efficient interactive end-to-end deep learning for self-driving cars with selective multi-class safe dataset aggregation
US11550327B2 (en) Composition method of automatic driving machine consciousness model
Szőke et al. Driving on highway by using reinforcement learning with CNN and LSTM networks
Chen et al. Deep reinforcement learning of map-based obstacle avoidance for mobile robot navigation
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
Lin et al. Connectivity guaranteed multi-robot navigation via deep reinforcement learning
Shan et al. A deep learning-based visual perception approach for mobile robots
Gao et al. Complete coverage path planning algorithm based on energy compensation and obstacle vectorization
Yuan et al. A centralised training algorithm with D3QN for scalable regular unmanned ground vehicle formation maintenance
Zhao et al. End-to-end autonomous driving based on the convolution neural network model
Piorkowski Unraveling Data Science, Artificial Intelligence, and Autonomy
CN116578088B (zh) 室外自主移动机器人连续轨迹生成方法及系统
Hu et al. A survey of deep neural network sliding mode control in robot application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant