CN111830971B

CN111830971B - 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法

Info

Publication number: CN111830971B
Application number: CN202010544064.3A
Authority: CN
Inventors: 林俊潼; 成慧
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2021-09-07
Anticipated expiration: 2040-06-15
Also published as: CN111830971A

Abstract

本发明属于机器人中的多移动机器人技术领域，更具体地，涉及一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法。当奖励信号稀疏时，基于深度强化学习的多机器人编队导航方法难以通过试错的方式学习出有效的导航策略。为了让多机器人编队在奖励信号稀疏的情况下依然能够学习出导航策略，本发明提出了一种基于融合相对表现和绝对表现的课程学习方法；该方法首先依据起始点到目标点的距离对场景进行分类，然后基于多机器人编队在不同类型场景中的相对表现和绝对表现来安排接下来要进行交互的场景类型。通过本发明所提出的课程学习方法，多机器人编队能够在奖励信号稀疏的情况下学习出有效的导航策略。

Description

一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法

技术领域

本发明属于机器人中的多移动机器人技术领域，更具体地，涉及一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法。

背景技术

多机器人编队具有广泛的应用前景，比如说大规模搜救、测绘、农业植保等。当多机器人编队进行作业时，需要依赖多机器人编队导航来完成多机器人编队的运动。

专利CN2019103948935，公开了一种基于深度强化学习的端到端分布式多机器人编队导航方法，基于深度强化学习的多机器人编队导航方法能够通过试错的方式求解出优秀的导航策略，具有所需人工干预较少的特性。除此以外，所求解出的导航策略是端到端的导航策略，能够直接将原始感知信息映射到机器人的控制指令，而无须构建障碍物地图，因此具有较低的计算复杂度。然而，基于深度强化学习的多机器人编队导航方法依赖于稠密的奖励信号，也就是说要求环境对于机器人编队的每一个行为都有即时的反馈。但稠密的奖励信号往往需要利用专家知识进行奖励信号工程才能得到，是一个费时费力的工作。相比于稠密的奖励信号，稀疏的奖励信号具有所需专家知识较少的优势，可以比较容易地得到。然而，在稀疏奖励信号下，多机器人编队难以通过一般的基于深度强化学习的方法学习出有效的导航策略。

发明内容

本发明为克服上述现有技术中的缺陷，提供一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，提出了一种基于融合相对表现和绝对表现的课程学习方法；通过使用该方法，多机器人编队能够在稀疏奖励信号下学习出有效的导航策略。

为解决上述技术问题，本发明采用的技术方案是：一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，其中，使用基于融合相对表现和绝对表现的课程学习来让多机器人编队在稀疏奖励信号的情况下仍然能够学习出有效的导航策略；所述的基于融合相对表现和绝对表现的课程学习，即随着训练的进行，逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习，通过这种方式，在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略，在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略。

当奖励信号稀疏时，基于深度强化学习的多机器人编队导航方法难以通过试错的方式学习出有效的导航策略。为了让多机器人编队在奖励信号稀疏的情况下依然能够学习出导航策略，本发明提出了一种基于融合相对表现和绝对表现的课程学习方法；该方法首先依据起始点到目标点的距离对场景进行分类，然后基于多机器人编队在不同类型场景中的相对表现和绝对表现来安排接下来要进行交互的场景类型。通过本发明所提出的课程学习方法，多机器人编队能够在奖励信号稀疏的情况下学习出有效的导航策略。本发明相比于一般的基于深度强化学习的多机器人编队导航方法，本发明在训练的过程中不仅会对多机器人编队的导航策略进行更新，而且会对环境端进行调整，通过课程更新来让环境端选择适合多机器人编队进行交互的场景。

进一步的，所述的课程学习包括课程设计和课程安排，所述的课程设计是对不同场景进行划分以此得到不同的课程，所述的课程安排是根据机器人编队的表现来安排接下来机器人编队进行交互的场景。

进一步的，所述的课程设计，根据机器人编队起始点到目标点的距离对不同场景进行分类，并且通过离散化和均匀采样相结合的方法来处理距离这一连续变量。

进一步的，所述的课程设计具体包括：首先根据实际想要的场景种类数量N_s对多机器人编队初始位置与目标点的距离这一连续变量进行离散化，将其划分为N_s个等长的区间，每一类场景对应的就是距离落在一个区间中的场景。举例来说，假设多机器人编队初始位置与目标点的最大距离为10m，场景种类数量N_s＝10的话，则第一类场景s₁是距离在0m到1m之间的场景、第二类场景s₂是距离在1m到2m之间的场景，以此类推。假若在某一次学习时，需要第i类场景s_i，则进一步在s_i对应的距离区间[i-1,i]里进行均匀采样，确定最终训练场景中的距离s，并通过工作空间仿真环境生成对应的场景。

进一步的，所述的课程安排依据机器人编队在不同类型场景中的相对表现和绝对表现进行课程调度。

进一步的，所述的相对表现指的是智能体在s_i场景中表现变化，即新旧策略在该场景中变现之差的绝对值，其数学表达形式为：

u_si(θ,θ')＝|B_si(θ)-B_si(θ')|

式中，θ表示新策略的参数，θ'表示旧策略的参数，B_si(θ)表示参数为θ的策略在s_i场景中的表现；s_i表示第i类场景；

依据机器人编队在不同类型场景中的相对表现，按以下方式求出基于相对表现下各个场景的采样概率：

式中，j表示第j类场景。

进一步的，本发明选取累积奖励作为智能体表现的指标。

进一步的，除了考虑相对表现以外，本发明还考虑了绝对表现；所述的绝对表现基于智能体在场景中表现的负数，其数学表达式为：

其中，ρ是用于调节比例的参数；

基于绝对表现下各个场景的采样概率为：

式中，j表示第j类场景。

基于相对表现来安排课程能够有效地帮助智能体识别出力所能及的课程，从简单开始学起，但是不利于集中精力去克服困难的课程；于此相反，基于绝对表现来安排课程能够让智能体集中精力去攻克困难的课程，但是不利于循序渐进地学习。为了综合基于相对表现和基于绝对表现的优势，本发明提出基于融合相对表现和绝对表现的课程学习，即随着训练的进行，逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习，通过这种方式，在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略，在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略；下面以数学语言描述该融合方式：

P_f(i)＝(1-ω)P_u(i)+ωP_v(i)

式中，ω表示当前训练进度，即已经完成的学习长度和总学习长度之间的比值；

进一步的，在训练过程中，根据机器人编队在各类场景s_i中的表现B_si(θ)计算出该类场景的采样概率P_f(i)，并在下一次选择交互场景时，根据该采样概率进行采样确定要进行交互的场景类型，然后使用该类场景进行交互。

进一步的，在使用课程学习的情况下，通过深度强化学习求解出多机器人编队的导航策略包括以下步骤：

S1.收集数据，具体包括：

S11.环境端计算出各类型场景的采样概率P_f(i)，并根据该采样概率采样出当前轮次所用到的场景s；

S12.机器人编队从场景s中获取观察值o_t，其中，观察值o_t由各个机器人的局部观察值

拼接而成，各个机器人的局部观察值

包含该机器人对环境的感知信息

即二维激光雷达的点云数据，自身的当前速度

其余机器人的位置

以及目标点的位置

S13.机器人编队根据当前的导航策略π_θ计算出控制指令a_t，即各个机器人的速度，并执行该控制指令；

S14.根据机器人编队当前的状态及其执行的控制指令，环境端反馈给机器人编队一个奖励信号r_t；

S15.重复步骤S11到步骤S14，直至收集到足够数据；

S2.基于收集到的交互数据，机器人编队使用深度强化学习算法，来优化导航策略；

S3.重复步骤S1和步骤S2，直至得到理想的导航策略。

与现有技术相比，有益效果是：本发明提出的一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，提出了一种基于融合相对表现和绝对表现的课程学习方法；通过使用该方法，多机器人编队能够在稀疏奖励信号下学习出有效的导航策略。

附图说明

图1是本发明使用课程学习后的多机器人编队导航策略框架示意图。

图2是本发明离散化和均匀采样相结合的方法示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

实施例1：

如图1和图2所示，一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，其中，使用基于融合相对表现和绝对表现的课程学习来让多机器人编队在稀疏奖励信号的情况下仍然能够学习出有效的导航策略；基于融合相对表现和绝对表现的课程学习，即随着训练的进行，逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习，通过这种方式，在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略，在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略。

本发明相比于一般的基于深度强化学习的多机器人编队导航方法，本发明在训练的过程中不仅会对多机器人编队的导航策略进行更新，而且会对环境端进行调整，通过课程更新来让环境端选择适合多机器人编队进行交互的场景。

具体的，课程学习包括课程设计和课程安排，课程设计是对不同场景进行划分以此得到不同的课程，课程安排是根据机器人编队的表现来安排接下来机器人编队进行交互的场景。

其中，课程设计根据机器人编队起始点到目标点的距离对不同场景进行分类，并且通过离散化和均匀采样相结合的方法来处理距离这一连续变量。具体来说，本文首先根据实际想要的场景种类数量对多机器人编队初始位置与目标点的距离这一连续变量进行离散化，将其划分为10个等长的区间，每一类场景对应的就是距离落在一个区间中的场景。举例来说，假设多机器人编队初始位置与目标点的最大距离为10m，场景种类数量N_s＝10的话，则第一类场景s₁是距离在0m到1m之间的场景、第二类场景s₂是距离在1m到2m之间的场景，以此类推。假若在某一次学习时，需要第i类场景s_i，则进一步在s_i对应的距离区间[i-1,i]里进行均匀采样，确定最终训练场景中的距离s，并通过工作空间仿真环境生成对应的场景。

具体的，课程安排依据机器人编队在不同类型场景中的相对表现和绝对表现进行课程调度。

其中，相对表现指的是智能体在s_i场景中表现变化，即新旧策略在该场景中变现之差的绝对值，其数学表达形式为：

u_si(θ,θ')＝|B_si(θ)-B_si(θ')|

式中，j表示第j类场景。

在本实施例中，选取累积奖励作为智能体表现的指标。

在本实施例中，除了考虑相对表现以外，本发明还考虑了绝对表现；绝对表现基于智能体在场景中表现的负数，其数学表达式为：

其中，ρ是用于调节比例的参数；

基于绝对表现下各个场景的采样概率为：

式中，j表示第j类场景。

基于相对表现来安排课程能够有效地帮助智能体识别出力所能及的课程，从简单开始学起，但是不利于集中精力去克服困难的课程；于此相反，基于绝对表现来安排课程能够让智能体集中精力去攻克困难的课程，但是不利于循序渐进地学习，进一步的，为了综合基于相对表现和基于绝对表现的优势，本发明提出基于融合相对表现和绝对表现的课程学习，即随着训练的进行，逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习，通过这种方式，在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略，在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略；下面以数学语言描述该融合方式：

P_f(i)＝(1-ω)P_u(i)+ωP_v(i)

其中，在训练过程中，根据机器人编队在各类场景s_i中的表现B_si(θ)计算出该类场景的采样概率P_f(i)，并在下一次选择交互场景时，根据该采样概率进行采样确定要进行交互的场景类型，然后使用该类场景进行交互。

具体的，在使用课程学习的情况下，通过深度强化学习求解出多机器人编队的导航策略包括以下步骤：

S1.收集数据，具体包括：

拼接而成，各个机器人的局部观察值

包含该机器人对环境的感知信息

即二维激光雷达的点云数据，自身的当前速度

其余机器人的位置

以及目标点的位置

S15.重复步骤S11到步骤S14，直至收集到足够数据；

S3.重复步骤S1和步骤S2，直至得到理想的导航策略。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，其特征在于，使用基于融合相对表现和绝对表现的课程学习来让多机器人编队在稀疏奖励信号的情况下仍然能够学习出有效的导航策略；所述的基于融合相对表现和绝对表现的课程学习，即随着训练的进行，逐渐从基于相对表现的课程学习转换为基于绝对表现的课程学习，通过这种方式，在训练的前期通过基于相对表现的课程学习快速掌握基本的导航策略，在训练的后期通过基于绝对表现的课程学习来攻克复杂的导航策略；其中，所述的相对表现指的是智能体在s_i场景中表现变化，即新旧策略在该场景中表现之差的绝对值，其数学表达形式为：

u_si(θ,θ')＝|B_si(θ)-B_si(θ')|

式中，j表示第j类场景；

所述的绝对表现基于智能体在场景中表现的负数，其数学表达式为：

其中，ρ是用于调节比例的参数；

基于绝对表现下各个场景的采样概率为：

式中，j表示第j类场景；

所述的基于融合相对表现和绝对表现的课程学习，其数学表达形式为：

P_f(i)＝(1-ω)P_u(i)+ωP_v(i)

式中，ω表示当前训练进度，即已经完成的学习长度和总学习长度之间的比值。

2.根据权利要求1所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，其特征在于，所述的课程学习包括课程设计和课程安排，所述的课程设计是对不同场景进行划分以此得到不同的课程，所述的课程安排是根据机器人编队的表现来安排接下来机器人编队进行交互的场景。

3.根据权利要求2所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，其特征在于，所述的课程设计，根据机器人编队起始点到目标点的距离对不同场景进行分类，并且通过离散化和均匀采样相结合的方法来处理距离这一连续变量，具体包括：首先根据实际想要的场景种类数量N_s对多机器人编队初始位置与目标点的距离这一连续变量进行离散化，将其划分为N_s个等长的区间，每一类场景对应的就是距离落在一个区间中的场景。

4.根据权利要求3所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，其特征在于，所述的课程安排依据机器人编队在不同类型场景中的相对表现和绝对表现进行课程调度。

5.根据权利要求4所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，其特征在于，选取累积奖励作为智能体表现的指标。

6.根据权利要求4所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，其特征在于，在训练过程中，根据机器人编队在各类场景s_i中的表现B_Si(θ)计算出该类场景的采样概率P_f(i)，并在下一次选择交互场景时，根据该采样概率进行采样确定要进行交互的场景类型，然后使用该类场景进行交互。

7.根据权利要求6所述的用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法，其特征在于，在使用课程学习的情况下，通过深度强化学习求解出多机器人编队的导航策略包括以下步骤：

S1.收集数据，具体包括：

拼接而成，各个机器人的局部观察值

包含该机器人对环境的感知信息

即二维激光雷达的点云数据，自身的当前速度

其余机器人的位置

以及目标点的位置

S15.重复步骤S11到步骤S14，直至收集到足够数据；

S3.重复步骤S1和步骤S2，直至得到理想的导航策略。