CN111830971B - 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法 - Google Patents

一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法 Download PDF

Info

Publication number
CN111830971B
CN111830971B CN202010544064.3A CN202010544064A CN111830971B CN 111830971 B CN111830971 B CN 111830971B CN 202010544064 A CN202010544064 A CN 202010544064A CN 111830971 B CN111830971 B CN 111830971B
Authority
CN
China
Prior art keywords
scene
learning
robot formation
course
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010544064.3A
Other languages
English (en)
Other versions
CN111830971A (zh
Inventor
林俊潼
成慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010544064.3A priority Critical patent/CN111830971B/zh
Publication of CN111830971A publication Critical patent/CN111830971A/zh
Application granted granted Critical
Publication of CN111830971B publication Critical patent/CN111830971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于机器人中的多移动机器人技术领域,更具体地,涉及一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法。当奖励信号稀疏时,基于深度强化学习的多机器人编队导航方法难以通过试错的方式学习出有效的导航策略。为了让多机器人编队在奖励信号稀疏的情况下依然能够学习出导航策略,本发明提出了一种基于融合相对表现和绝对表现的课程学习方法;该方法首先依据起始点到目标点的距离对场景进行分类,然后基于多机器人编队在不同类型场景中的相对表现和绝对表现来安排接下来要进行交互的场景类型。通过本发明所提出的课程学习方法,多机器人编队能够在奖励信号稀疏的情况下学习出有效的导航策略。

Description

一种用于在稀疏奖励信号下学习多机器人编队导航策略的课 程学习方法
技术领域
本发明属于机器人中的多移动机器人技术领域,更具体地,涉及一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法。
背景技术
多机器人编队具有广泛的应用前景,比如说大规模搜救、测绘、农业植保等。当多机器人编队进行作业时,需要依赖多机器人编队导航来完成多机器人编队的运动。
专利CN2019103948935,公开了一种基于深度强化学习的端到端分布式多机器人编队导航方法,基于深度强化学习的多机器人编队导航方法能够通过试错的方式求解出优秀的导航策略,具有所需人工干预较少的特性。除此以外,所求解出的导航策略是端到端的导航策略,能够直接将原始感知信息映射到机器人的控制指令,而无须构建障碍物地图,因此具有较低的计算复杂度。然而,基于深度强化学习的多机器人编队导航方法依赖于稠密的奖励信号,也就是说要求环境对于机器人编队的每一个行为都有即时的反馈。但稠密的奖励信号往往需要利用专家知识进行奖励信号工程才能得到,是一个费时费力的工作。相比于稠密的奖励信号,稀疏的奖励信号具有所需专家知识较少的优势,可以比较容易地得到。然而,在稀疏奖励信号下,多机器人编队难以通过一般的基于深度强化学习的方法学习出有效的导航策略。
发明内容
本发明为克服上述现有技术中的缺陷,提供一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,提出了一种基于融合相对表现和绝对表现的课程学习方法;通过使用该方法,多机器人编队能够在稀疏奖励信号下学习出有效的导航策略。
为解决上述技术问题,本发明采用的技术方案是:一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,其中,使用基于融合相对表现和绝对表现的课程学习来让多机器人编队在稀疏奖励信号的情况下仍然能够学习出有效的导航策略;所述的基于融合相对表现和绝对表现的课程学习,即随着训练的进行,逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习,通过这种方式,在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略,在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略。
当奖励信号稀疏时,基于深度强化学习的多机器人编队导航方法难以通过试错的方式学习出有效的导航策略。为了让多机器人编队在奖励信号稀疏的情况下依然能够学习出导航策略,本发明提出了一种基于融合相对表现和绝对表现的课程学习方法;该方法首先依据起始点到目标点的距离对场景进行分类,然后基于多机器人编队在不同类型场景中的相对表现和绝对表现来安排接下来要进行交互的场景类型。通过本发明所提出的课程学习方法,多机器人编队能够在奖励信号稀疏的情况下学习出有效的导航策略。本发明相比于一般的基于深度强化学习的多机器人编队导航方法,本发明在训练的过程中不仅会对多机器人编队的导航策略进行更新,而且会对环境端进行调整,通过课程更新来让环境端选择适合多机器人编队进行交互的场景。
进一步的,所述的课程学习包括课程设计和课程安排,所述的课程设计是对不同场景进行划分以此得到不同的课程,所述的课程安排是根据机器人编队的表现来安排接下来机器人编队进行交互的场景。
进一步的,所述的课程设计,根据机器人编队起始点到目标点的距离对不同场景进行分类,并且通过离散化和均匀采样相结合的方法来处理距离这一连续变量。
进一步的,所述的课程设计具体包括:首先根据实际想要的场景种类数量Ns对多机器人编队初始位置与目标点的距离这一连续变量进行离散化,将其划分为Ns个等长的区间,每一类场景对应的就是距离落在一个区间中的场景。举例来说,假设多机器人编队初始位置与目标点的最大距离为10m,场景种类数量Ns=10的话,则第一类场景s1是距离在0m到1m之间的场景、第二类场景s2是距离在1m到2m之间的场景,以此类推。假若在某一次学习时,需要第i类场景si,则进一步在si对应的距离区间[i-1,i]里进行均匀采样,确定最终训练场景中的距离s,并通过工作空间仿真环境生成对应的场景。
进一步的,所述的课程安排依据机器人编队在不同类型场景中的相对表现和绝对表现进行课程调度。
进一步的,所述的相对表现指的是智能体在si场景中表现变化,即新旧策略在该场景中变现之差的绝对值,其数学表达形式为:
usi(θ,θ')=|Bsi(θ)-Bsi(θ')|
式中,θ表示新策略的参数,θ'表示旧策略的参数,Bsi(θ)表示参数为θ的策略在si场景中的表现;si表示第i类场景;
依据机器人编队在不同类型场景中的相对表现,按以下方式求出基于相对表现下各个场景的采样概率:
Figure BDA0002540065020000031
式中,j表示第j类场景。
进一步的,本发明选取累积奖励作为智能体表现的指标。
进一步的,除了考虑相对表现以外,本发明还考虑了绝对表现;所述的绝对表现基于智能体在场景中表现的负数,其数学表达式为:
Figure BDA0002540065020000032
其中,ρ是用于调节比例的参数;
基于绝对表现下各个场景的采样概率为:
Figure BDA0002540065020000033
式中,j表示第j类场景。
基于相对表现来安排课程能够有效地帮助智能体识别出力所能及的课程,从简单开始学起,但是不利于集中精力去克服困难的课程;于此相反,基于绝对表现来安排课程能够让智能体集中精力去攻克困难的课程,但是不利于循序渐进地学习。为了综合基于相对表现和基于绝对表现的优势,本发明提出基于融合相对表现和绝对表现的课程学习,即随着训练的进行,逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习,通过这种方式,在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略,在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略;下面以数学语言描述该融合方式:
Pf(i)=(1-ω)Pu(i)+ωPv(i)
式中,ω表示当前训练进度,即已经完成的学习长度和总学习长度之间的比值;
进一步的,在训练过程中,根据机器人编队在各类场景si中的表现Bsi(θ)计算出该类场景的采样概率Pf(i),并在下一次选择交互场景时,根据该采样概率进行采样确定要进行交互的场景类型,然后使用该类场景进行交互。
进一步的,在使用课程学习的情况下,通过深度强化学习求解出多机器人编队的导航策略包括以下步骤:
S1.收集数据,具体包括:
S11.环境端计算出各类型场景的采样概率Pf(i),并根据该采样概率采样出当前轮次所用到的场景s;
S12.机器人编队从场景s中获取观察值ot,其中,观察值ot由各个机器人的局部观察值
Figure BDA0002540065020000041
拼接而成,各个机器人的局部观察值
Figure BDA0002540065020000042
包含该机器人对环境的感知信息
Figure BDA0002540065020000043
即二维激光雷达的点云数据,自身的当前速度
Figure BDA0002540065020000044
其余机器人的位置
Figure BDA0002540065020000045
以及目标点的位置
Figure BDA0002540065020000046
S13.机器人编队根据当前的导航策略πθ计算出控制指令at,即各个机器人的速度,并执行该控制指令;
S14.根据机器人编队当前的状态及其执行的控制指令,环境端反馈给机器人编队一个奖励信号rt
S15.重复步骤S11到步骤S14,直至收集到足够数据;
S2.基于收集到的交互数据,机器人编队使用深度强化学习算法,来优化导航策略;
S3.重复步骤S1和步骤S2,直至得到理想的导航策略。
与现有技术相比,有益效果是:本发明提出的一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,提出了一种基于融合相对表现和绝对表现的课程学习方法;通过使用该方法,多机器人编队能够在稀疏奖励信号下学习出有效的导航策略。
附图说明
图1是本发明使用课程学习后的多机器人编队导航策略框架示意图。
图2是本发明离散化和均匀采样相结合的方法示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
实施例1:
如图1和图2所示,一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,其中,使用基于融合相对表现和绝对表现的课程学习来让多机器人编队在稀疏奖励信号的情况下仍然能够学习出有效的导航策略;基于融合相对表现和绝对表现的课程学习,即随着训练的进行,逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习,通过这种方式,在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略,在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略。
本发明相比于一般的基于深度强化学习的多机器人编队导航方法,本发明在训练的过程中不仅会对多机器人编队的导航策略进行更新,而且会对环境端进行调整,通过课程更新来让环境端选择适合多机器人编队进行交互的场景。
具体的,课程学习包括课程设计和课程安排,课程设计是对不同场景进行划分以此得到不同的课程,课程安排是根据机器人编队的表现来安排接下来机器人编队进行交互的场景。
其中,课程设计根据机器人编队起始点到目标点的距离对不同场景进行分类,并且通过离散化和均匀采样相结合的方法来处理距离这一连续变量。具体来说,本文首先根据实际想要的场景种类数量对多机器人编队初始位置与目标点的距离这一连续变量进行离散化,将其划分为10个等长的区间,每一类场景对应的就是距离落在一个区间中的场景。举例来说,假设多机器人编队初始位置与目标点的最大距离为10m,场景种类数量Ns=10的话,则第一类场景s1是距离在0m到1m之间的场景、第二类场景s2是距离在1m到2m之间的场景,以此类推。假若在某一次学习时,需要第i类场景si,则进一步在si对应的距离区间[i-1,i]里进行均匀采样,确定最终训练场景中的距离s,并通过工作空间仿真环境生成对应的场景。
具体的,课程安排依据机器人编队在不同类型场景中的相对表现和绝对表现进行课程调度。
其中,相对表现指的是智能体在si场景中表现变化,即新旧策略在该场景中变现之差的绝对值,其数学表达形式为:
usi(θ,θ')=|Bsi(θ)-Bsi(θ')|
式中,θ表示新策略的参数,θ'表示旧策略的参数,Bsi(θ)表示参数为θ的策略在si场景中的表现;si表示第i类场景;
依据机器人编队在不同类型场景中的相对表现,按以下方式求出基于相对表现下各个场景的采样概率:
Figure BDA0002540065020000061
式中,j表示第j类场景。
在本实施例中,选取累积奖励作为智能体表现的指标。
在本实施例中,除了考虑相对表现以外,本发明还考虑了绝对表现;绝对表现基于智能体在场景中表现的负数,其数学表达式为:
Figure BDA0002540065020000062
其中,ρ是用于调节比例的参数;
基于绝对表现下各个场景的采样概率为:
Figure BDA0002540065020000063
式中,j表示第j类场景。
基于相对表现来安排课程能够有效地帮助智能体识别出力所能及的课程,从简单开始学起,但是不利于集中精力去克服困难的课程;于此相反,基于绝对表现来安排课程能够让智能体集中精力去攻克困难的课程,但是不利于循序渐进地学习,进一步的,为了综合基于相对表现和基于绝对表现的优势,本发明提出基于融合相对表现和绝对表现的课程学习,即随着训练的进行,逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习,通过这种方式,在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略,在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略;下面以数学语言描述该融合方式:
Pf(i)=(1-ω)Pu(i)+ωPv(i)
式中,ω表示当前训练进度,即已经完成的学习长度和总学习长度之间的比值;
其中,在训练过程中,根据机器人编队在各类场景si中的表现Bsi(θ)计算出该类场景的采样概率Pf(i),并在下一次选择交互场景时,根据该采样概率进行采样确定要进行交互的场景类型,然后使用该类场景进行交互。
具体的,在使用课程学习的情况下,通过深度强化学习求解出多机器人编队的导航策略包括以下步骤:
S1.收集数据,具体包括:
S11.环境端计算出各类型场景的采样概率Pf(i),并根据该采样概率采样出当前轮次所用到的场景s;
S12.机器人编队从场景s中获取观察值ot,其中,观察值ot由各个机器人的局部观察值
Figure BDA0002540065020000071
拼接而成,各个机器人的局部观察值
Figure BDA0002540065020000072
包含该机器人对环境的感知信息
Figure BDA0002540065020000073
即二维激光雷达的点云数据,自身的当前速度
Figure BDA0002540065020000074
其余机器人的位置
Figure BDA0002540065020000075
以及目标点的位置
Figure BDA0002540065020000076
S13.机器人编队根据当前的导航策略πθ计算出控制指令at,即各个机器人的速度,并执行该控制指令;
S14.根据机器人编队当前的状态及其执行的控制指令,环境端反馈给机器人编队一个奖励信号rt
S15.重复步骤S11到步骤S14,直至收集到足够数据;
S2.基于收集到的交互数据,机器人编队使用深度强化学习算法,来优化导航策略;
S3.重复步骤S1和步骤S2,直至得到理想的导航策略。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,其特征在于,使用基于融合相对表现和绝对表现的课程学习来让多机器人编队在稀疏奖励信号的情况下仍然能够学习出有效的导航策略;所述的基于融合相对表现和绝对表现的课程学习,即随着训练的进行,逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习,通过这种方式,在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略,在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略;其中,所述的相对表现指的是智能体在si场景中表现变化,即新旧策略在该场景中表现之差的绝对值,其数学表达形式为:
usi(θ,θ')=|Bsi(θ)-Bsi(θ')|
式中,θ表示新策略的参数,θ'表示旧策略的参数,Bsi(θ)表示参数为θ的策略在si场景中的表现;si表示第i类场景;
依据机器人编队在不同类型场景中的相对表现,按以下方式求出基于相对表现下各个场景的采样概率:
Figure FDA0003114435630000011
式中,j表示第j类场景;
所述的绝对表现基于智能体在场景中表现的负数,其数学表达式为:
Figure FDA0003114435630000012
其中,ρ是用于调节比例的参数;
基于绝对表现下各个场景的采样概率为:
Figure FDA0003114435630000013
式中,j表示第j类场景;
所述的基于融合相对表现和绝对表现的课程学习,其数学表达形式为:
Pf(i)=(1-ω)Pu(i)+ωPv(i)
式中,ω表示当前训练进度,即已经完成的学习长度和总学习长度之间的比值。
2.根据权利要求1所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,其特征在于,所述的课程学习包括课程设计和课程安排,所述的课程设计是对不同场景进行划分以此得到不同的课程,所述的课程安排是根据机器人编队的表现来安排接下来机器人编队进行交互的场景。
3.根据权利要求2所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,其特征在于,所述的课程设计,根据机器人编队起始点到目标点的距离对不同场景进行分类,并且通过离散化和均匀采样相结合的方法来处理距离这一连续变量,具体包括:首先根据实际想要的场景种类数量Ns对多机器人编队初始位置与目标点的距离这一连续变量进行离散化,将其划分为Ns个等长的区间,每一类场景对应的就是距离落在一个区间中的场景。
4.根据权利要求3所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,其特征在于,所述的课程安排依据机器人编队在不同类型场景中的相对表现和绝对表现进行课程调度。
5.根据权利要求4所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,其特征在于,选取累积奖励作为智能体表现的指标。
6.根据权利要求4所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,其特征在于,在训练过程中,根据机器人编队在各类场景si中的表现BSi(θ)计算出该类场景的采样概率Pf(i),并在下一次选择交互场景时,根据该采样概率进行采样确定要进行交互的场景类型,然后使用该类场景进行交互。
7.根据权利要求6所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法,其特征在于,在使用课程学习的情况下,通过深度强化学习求解出多机器人编队的导航策略包括以下步骤:
S1.收集数据,具体包括:
S11.环境端计算出各类型场景的采样概率Pf(i),并根据该采样概率采样出当前轮次所用到的场景s;
S12.机器人编队从场景s中获取观察值ot,其中,观察值ot由各个机器人的局部观察值
Figure FDA0003114435630000031
拼接而成,各个机器人的局部观察值
Figure FDA0003114435630000032
包含该机器人对环境的感知信息
Figure FDA0003114435630000033
即二维激光雷达的点云数据,自身的当前速度
Figure FDA0003114435630000034
其余机器人的位置
Figure FDA0003114435630000035
以及目标点的位置
Figure FDA0003114435630000036
S13.机器人编队根据当前的导航策略πθ计算出控制指令at,即各个机器人的速度,并执行该控制指令;
S14.根据机器人编队当前的状态及其执行的控制指令,环境端反馈给机器人编队一个奖励信号rt
S15.重复步骤S11到步骤S14,直至收集到足够数据;
S2.基于收集到的交互数据,机器人编队使用深度强化学习算法,来优化导航策略;
S3.重复步骤S1和步骤S2,直至得到理想的导航策略。
CN202010544064.3A 2020-06-15 2020-06-15 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法 Active CN111830971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010544064.3A CN111830971B (zh) 2020-06-15 2020-06-15 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010544064.3A CN111830971B (zh) 2020-06-15 2020-06-15 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法

Publications (2)

Publication Number Publication Date
CN111830971A CN111830971A (zh) 2020-10-27
CN111830971B true CN111830971B (zh) 2021-09-07

Family

ID=72897723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010544064.3A Active CN111830971B (zh) 2020-06-15 2020-06-15 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法

Country Status (1)

Country Link
CN (1) CN111830971B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711261B (zh) * 2020-12-30 2021-12-28 浙江大学 一种基于局部视野的多智能体编队规划方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858574A (zh) * 2018-12-14 2019-06-07 启元世界(北京)信息技术服务有限公司 面向人机协同工作的智能体的自主学习方法和系统
CN110073376A (zh) * 2016-12-14 2019-07-30 索尼公司 信息处理装置和信息处理方法
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110073376A (zh) * 2016-12-14 2019-07-30 索尼公司 信息处理装置和信息处理方法
CN109858574A (zh) * 2018-12-14 2019-06-07 启元世界(北京)信息技术服务有限公司 面向人机协同工作的智能体的自主学习方法和系统
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Hierarchical automatic curriculum learning: Converting a sparse reward navigation task into dense reward;Nan Jiang,Sheng Jina,Changshui Zhang;《Neurocomputing》;20190613;第265-278页 *
Towards Practical Multi-Object Manipulation using Relational Reinforcement Learning;Richard Li;《2020 IEEE International Conference on Robotics and Automation (ICRA)》;20200915;第4051-4058页 *
基于自主优先课程学习的深度强化学习算法研究;任志鹏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180915;第I140-7页 *
强化学习稀疏奖励算法研究——理论与实验;杨瑞,严江鹏,李秀;《智能系统学报》;20200930;第888-899页 *
面向智能避障场景的深度强化学习研究;刘庆杰,林友勇,李少利;《智能物联技术》;20181231;第18-22页 *

Also Published As

Publication number Publication date
CN111830971A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN110032782B (zh) 一种城市级智能交通信号控制系统及方法
Wen et al. Path planning for active SLAM based on deep reinforcement learning under unknown environments
CN107479547B (zh) 基于示教学习的决策树行为决策算法
CN112799386B (zh) 基于人工势场与强化学习的机器人路径规划方法
CN106096729A (zh) 一种面向大规模环境中复杂任务的深度策略学习方法
CN106595671A (zh) 一种基于强化学习的无人机路径规划方法和装置
CN106558058A (zh) 分割模型训练方法、道路分割方法、车辆控制方法及装置
CN110481536B (zh) 一种应用于混合动力汽车的控制方法及设备
CN108229730B (zh) 一种基于模糊奖励的无人驾驶车辆轨迹生成方法
CN103926839A (zh) 一种轮式移动机器人的运动分段控制方法
CN111506063B (zh) 一种基于分层强化学习框架的移动机器人无图导航方法
CN111830971B (zh) 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法
CN111781922A (zh) 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN110806758B (zh) 一种基于情景模糊认知图的无人机群自主等级自适应调整方法
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
CN109764876B (zh) 无人平台的多模态融合定位方法
CN111580526A (zh) 面向固定车辆编队场景的协同驾驶方法
CN107464059A (zh) 一种基于历史信息的公交公司自动化排班控制方法
CN116620327A (zh) 基于PPO和Lattice实现自动驾驶的高速场景的变道决策方法
CN116300944A (zh) 基于改进Double DQN的自动驾驶决策方法及系统
CN110794825A (zh) 一种异构舞台机器人编队控制方法
CN101554725A (zh) 一种基于混沌机理的机器人自主导航方法
CN115097816A (zh) 一种模块化多机器人协作控制方法
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
CN116822659B (zh) 自动驾驶运动技能学习方法、系统、设备及计算机介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant