CN111781922B

CN111781922B - 一种基于深度强化学习的多机器人协同导航方法

Info

Publication number: CN111781922B
Application number: CN202010544077.0A
Authority: CN
Inventors: 杨旭韵; 成慧
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2021-10-26
Anticipated expiration: 2040-06-15
Also published as: CN111781922A

Abstract

本发明属于机器人中的多移动机器人技术领域，更具体地，涉及一种基于深度强化学习的多机器人协同导航方法。该方法结合了多任务学习的方式，通过深度强化学习方法来训练得到控制策略，使得机器人队伍的几何中心能够高效地到达目标点，在这过程中队伍能够安全地躲避动态障碍物和静态障碍物，并且能够尽量保持队伍的连通性。同时，通过有监督的深度学习方法来训练得到辅助策略，判断机器人个体的感知范围内是否存在动态障碍物，辅助策略的输出结果能够反映控制策略的决策过程，增强控制策略模型的可解释性。

Description

一种基于深度强化学习的多机器人协同导航方法

技术领域

本发明属于机器人中的多移动机器人技术领域，更具体地，涉及一种基于深度强化学习的多机器人协同导航方法。

背景技术

相比于单机器人系统，由多个移动机器人组成机器人队伍在现实中能够以更优的效率和性能来完成工作，具有较广泛的应用场景。在工作空间中通常会存在一些未知障碍物，出于安全性的考虑，机器人队伍需要自主避障；其中，动态障碍物的出现更会增加避障的难度。另外，机器人队伍还需要维持连通性，以满足上层任务对机器人之间的距离约束条件。特别地，动态障碍物的出现不仅使得环境状态变得不稳定，并且还会更加干扰队伍内的协作，使得机器人队伍避障的难度大大增加。

用于控制多机器人队伍协同导航的方法可以分为基于规则的方法和基于学习的方法。其中，基于规则的方法在解决躲避动态障碍物问题时，采用的方法主要包括动态窗口法和速度障碍法。基于规则的方法需要知道障碍物的位置和速度或者是运动模型等精确的信息，但一些情况下机器人队伍所在的场景是未知的、随机的、多样的，并且障碍物的运动是随机的，很难为各种场景及时地获取精确的信息。

基于学习的方法可以在不需要构建障碍物地图的情况下，根据局部感知信息做出决策来控制机器人的运动。该类方法在处理包含动态障碍物的场景时，通常使用具有记忆能力的循环神经网络来获取感知数据中的时序信息。但当前基于学习的方法通常只关注单个机器人的避障问题，没有考虑队伍整体的连通性；如专利201910795982，提供了一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法，虽然考虑队伍连通性的导航方法，但是并没有考虑处理动态障碍物的问题。在包含动态障碍物的动态场景中考虑保持连通性的多机器人队伍导航，是一项更为困难的任务，控制模型需要根据更多的动态信息来做出合理安全的决策。

发明内容

本发明为克服上述现有技术中的缺陷，提供一种用于复杂动态场景的基于深度强化学习的多机器人协同导航方法，使得机器人队伍在导航过程中，能够自主躲避场景中的静态障碍物以及做匀速直线运动的动态障碍物。

为解决上述技术问题，本发明采用的技术方案是：一种基于深度强化学习的多机器人协同导航方法，其中，在深度强化学习方法的环境和机器人队伍交互的框架基础上，结合有监督的深度学习方法，训练得到机器人队伍的综合策略；所述的综合策略包括控制策略π_c和辅助策略π_a，所述的控制策略根据观测值o计算得到机器人队伍的控制量a，用于控制机器人队伍完成避障导航主任务；所述的辅助策略根据观测值o计算得到辅助任务的结果u，并使u值不断逼近辅助任务的真实值y；所述的控制策略π_c和辅助策略π_a均由前端的表示信息提取模块和后端的输出模块构成，控制策略π_c和辅助策略π_a共享同一个表示信息提取模块，表示信息提取模块根据输入的观测值o计算得到表示信息F(o)，作为后续输出模块的共同输入。

本发明结合了多任务学习的方式，通过深度强化学习方法来训练得到控制策略，使得机器人队伍的几何中心能够高效地到达目标点，在这过程中队伍能够安全地躲避动态障碍物和静态障碍物，并且能够尽量保持队伍的连通性。同时，通过有监督的深度学习方法来训练得到辅助策略，判断机器人个体的感知范围内是否存在动态障碍物，辅助策略的输出结果能够反映控制策略的决策过程，增强控制策略模型的可解释性。

本发明的关键在于结合深度强化学习的试错方式和有监督的深度学习方式，训练一个综合策略模型，共同学习完成导航主任务与辅助任务。

进一步的，采用基于深度强化学习方法训练控制策略π_c，采用基于监督深度学习的方法训练辅助策略π_a，据此，定义综合策略的损失函数，其中θ为该策略模型的参数，包含了控制策略π_c的损失函数和辅助策略π_a的损失函数，其数学形式如下：

L(θ)＝L(π_c(o；θ_c))+L(π_a(o；θ_a)；y_a)

其中，L(π_c(o；θ_c))是深度强化学习相关的控制策略π_c的损失函数，θ_c是控制策略的参数，包括了表示信息提取模块的参数θ_r和输出模块的参数θ_co，即θ_c＝{θ_r；θ_co}；L(π_a(o；θ_a)；y_a)是有监督深度学习相关的辅助策略π_a的损失函数，θ_a是辅助策略的参数，包括了表示信息提取模块的参数θ_r和输出模块的参数θ_ao，即θ_a＝{θ_r；θ_ao}；y_a是通过有监督深度学习方法学习的辅助任务的标签，即辅助任务的真实值。

进一步的，在训练过程中，所述的综合策略的损失函数共同作用于共享的表示信息提取模块的参数θ_r，选择和主任务相关的任务作为辅助任务，在有监督深度学习中利用标签来提供额外的激励信号，引导表示信息提取模块学习提取更多有效的特征信息。此时，控制策略不再仅仅通过深度强化学习方法“试错”地学习提取感知数据中相关动态信息，通过有监督的辅助任务能够促进控制策略的学习效率并提升模型的效果。

根据上述模型学习方法可以得到综合策略模型，其中的控制策略模型是一个具有较好解释性的端到端模型。通过辅助策略的输出结果，在一定程度上反映了模型内部的表表示信息提取模块学习到了什么特征，有助于更好地理解端到端控制模型的决策过程。

进一步的，定义辅助任务为状态属性判断任务，即在机器人队伍导航过程中，判断机器人的局部感知范围内是否存在动态障碍物。

进一步的，所述的状态属性判断任务具体包括：当机器人在连续两个及以上的时刻内观测到场景中任意同一个动态障碍物，则表示机器人感测到动态障碍物，标记为类别1；反之，则表示机器人没有感测到动态障碍物，标记为类别0。

进一步的，采用分布式控制的方式控制机器人队伍完成导航任务和状态属性判断任务，各个机器人使用共享的个体控制策略和个体辅助策略。

进一步的，对于第i个机器人，1≤i≤N，N表示机器人队伍的个体数量，通过控制策略和辅助策略，在t时刻根据自身的局部感知数据

分别计算输出个体的控制量

和状态属性概率结果

其中局部感知数据

包括对环境的感知信息

即二维激光雷达的点云数据，自身的当前速度

其余机器人的位置

以及目标点的位置

进一步的，对应于分布式控制方法，设计机器人的个体策略模型，该个体策略模型由神经网络搭建而成；构建的个体策略网络结构包括前端的表示信息提取模块以及后端的控制策略输出模块和辅助策略输出模块；所述的表示信息提取模块包含了特征信息提取模块以及后续处理模块，所述的特征信息提取模块对原始感知数据进行特征提取；后续处理模块使用了门控循环单元，利用其记忆能力进一步获取时序信息；所述的控制策略输出模块和辅助策略输出模块对表示信息提取模块的输出分别进行进一步的处理，最终分别得到机器人的速度控制量和状态属性类别概率结果。

进一步的，所述的辅助策略输出模块通过softmax函数的计算输出

分别为属性类别0和类别1对应的概率。

进一步的，根据辅助策略模型的输出，定义辅助策略的损失函数的具体形式为交叉熵函数。

与现有技术相比，有益效果是：本发明提供的一种基于深度强化学习的多机器人协同导航方法，结合多任务学习的方式，使用基于有监督深度学习的辅助任务来辅助基于深度强化学习的多机器人队伍导航策略的学习；定义有监督的辅助任务为状态属性判断任务，引导策略模型提取有效的动态信息，使得训练得到的控制策略能够控制机器人队伍自主躲避场景中的动态障碍物和静态障碍物；在导航过程中，通过辅助策略的输出结果，能够反映模型内部的决策过程以及控制策略的决策依据，一定程度上增强了端到端控制策略模型的可解释性。

附图说明

图1是本发明方法的策略学习框架示意图。

图2是本发明机器人个体的综合策略的网络结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

实施例1：

如图1所示，一种基于深度强化学习的多机器人协同导航方法，其中，在深度强化学习方法的环境和机器人队伍交互的框架基础上，结合有监督的深度学习方法，训练得到机器人队伍的综合策略；综合策略包括控制策略π_c和辅助策略π_a，控制策略根据观测值o计算得到机器人队伍的控制量a，用于控制机器人队伍完成避障导航主任务；辅助策略根据观测值o计算得到辅助任务的结果u，并使u值不断逼近辅助任务的真实值y；控制策略π_c和辅助策略π_a均由前端的表示信息提取模块和后端的输出模块构成，控制策略π_c和辅助策略π_a共享同一个表示信息提取模块，表示信息提取模块根据输入的观测值o计算得到表示信息F(o)，作为后续输出模块的共同输入。

对于这个综合策略的优化，本发明结合了多任务学习的方式，并且对不同任务采取了不同的学习方法；具体的，采用基于深度强化学习方法训练控制策略π_c，采用基于监督深度学习的方法训练辅助策略π_a，据此，定义综合策略的损失函数，其中θ为该策略模型的参数，包含了控制策略π_c的损失函数和辅助策略π_a的损失函数，其数学形式如下：

L(θ)＝L(π_c(o；θ_c))+L(π_a(o；θ_a)；y_a)

其中，L(π_c(o；θ_c))是深度强化学习相关的控制策略π_c的损失函数，θ_c是控制策略的参数，包括了表示信息提取模块的参数θ_r和输出模块的参数θ_co，即θ_c＝{θ_r；θ_co}；L(π_a(o；θ_a)；y_a)是有监督深度学习相关的辅助策略π_a的损失函数，θ_a是辅助策略的参数，包括了表示信息提取模块的参数θ_r和输出模块的参数θ_ao，即θ_a＝{θ_r；θ_ao}；y_a是通过有监督深度学习方法学习的辅助任务的标签，即辅助任务的真实值。在本发明中，利用基于行动者-评论家的深度强化学习方法，定义第一项控制策略π_c损失函数。

其中，在训练过程中，综合策略的损失函数共同作用于共享的表示信息提取模块的参数θ_r，选择和主任务相关的任务作为辅助任务，在有监督深度学习中利用标签来提供额外的激励信号，引导表示信息提取模块学习提取更多有效的特征信息。此时，控制策略不再仅仅通过深度强化学习方法“试错”地学习提取感知数据中相关动态信息，通过有监督的辅助任务能够促进控制策略的学习效率并提升模型的效果。

另外，定义辅助任务为状态属性判断任务，即在机器人队伍导航过程中，判断机器人的局部感知范围内是否存在动态障碍物。状态属性判断任务具体包括：当机器人在连续两个及以上的时刻内观测到场景中任意同一个动态障碍物，则表示机器人感测到动态障碍物，标记为类别1；反之，则表示机器人没有感测到动态障碍物，标记为类别0。

在本实施例中，采用分布式控制的方式控制机器人队伍完成导航任务和状态属性判断任务，各个机器人使用共享的个体控制策略和个体辅助策略。对于第i个机器人，1≤i≤N，N表示机器人队伍的个体数量，通过控制策略和辅助策略，在t时刻根据自身的局部感知数据

分别计算输出个体的控制量

和状态属性概率结果

其中局部感知数据

包括对环境的感知信息

即二维激光雷达的点云数据，自身的当前速度

其余机器人的位置

以及目标点的位置

具体的，对应于分布式控制方法，设计机器人的个体策略模型，该个体策略模型由神经网络搭建而成；如图2所示，构建的个体策略网络结构包括前端的表示信息提取模块以及后端的控制策略输出模块和辅助策略输出模块；表示信息提取模块包含了特征信息提取模块以及后续处理模块，特征信息提取模块对原始感知数据进行特征提取；后续处理模块使用了门控循环单元，利用其记忆能力进一步获取时序信息；控制策略输出模块和辅助策略输出模块对表示信息提取模块的输出分别进行进一步的处理，最终分别得到机器人的速度控制量和状态属性类别概率结果。

其中，辅助策略输出模块通过softmax函数的计算输出

分别为属性类别0和类别1对应的概率。根据辅助策略模型的输出，定义辅助策略的损失函数的具体形式为交叉熵函数。

综上，本发明通过结合深度强化学习方法和有监督的深度学习方法，最终训练得到综合策略模型(包括控制策略和辅助策略)，其中辅助策略用于完成辅助的状态属性判断任务，控制策略则可用于完成主要的机器人队伍协同导航任务。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度强化学习的多机器人协同导航方法，其特征在于，在深度强化学习方法的环境和机器人队伍交互的框架基础上，结合有监督的深度学习方法，训练得到机器人队伍的综合策略；所述的综合策略包括控制策略π_c和辅助策略π_a，所述的控制策略根据观测值o计算得到机器人队伍的控制量a，用于控制机器人队伍完成避障导航主任务；所述的辅助策略根据观测值o计算得到辅助任务的结果u，并使u值不断逼近辅助任务的真实值y；其中，定义辅助任务为状态属性判断任务，即在机器人队伍导航过程中，判断机器人的局部感知范围内是否存在动态障碍物；所述的控制策略π_c和辅助策略π_a均由前端的表示信息提取模块和后端的输出模块构成，控制策略π_c和辅助策略π_a共享同一个表示信息提取模块，表示信息提取模块根据输入的观测值o计算得到表示信息F(o)，作为后续输出模块的共同输入；其中，采用基于深度强化学习方法训练控制策略π_c，采用基于有监督深度学习的方法训练辅助策略π_a，据此，定义综合策略的损失函数，其中θ为该策略模型的参数，包含了控制策略π_c的损失函数和辅助策略π_a的损失函数，其数学形式如下：

L(θ)＝L(π_c(o；θ_c))+L(π_a(o；θ_a)；y_a)

2.根据权利要求1所述的基于深度强化学习的多机器人协同导航方法，其特征在于，在训练过程中，所述的综合策略的损失函数共同作用于共享的表示信息提取模块的参数θ_r，选择和主任务相关的任务作为辅助任务，在有监督深度学习中利用标签来提供额外的激励信号，引导表示信息提取模块学习提取更多有效的特征信息。

3.根据权利要求2所述的基于深度强化学习的多机器人协同导航方法，其特征在于，所述的状态属性判断任务具体包括：当机器人在连续两个及以上的时刻内观测到场景中任意同一个动态障碍物，则表示机器人感测到动态障碍物，标记为类别1；反之，则表示机器人没有感测到动态障碍物，标记为类别0。

4.根据权利要求3所述的基于深度强化学习的多机器人协同导航方法，其特征在于，采用分布式控制的方式控制机器人队伍完成导航任务和状态属性判断任务，各个机器人使用共享的个体控制策略和个体辅助策略。

5.根据权利要求4所述的基于深度强化学习的多机器人协同导航方法，其特征在于，对于第i个机器人，1≤i≤N，N表示机器人队伍的个体数量，通过控制策略和辅助策略，在t时刻根据自身的局部感知数据

分别计算输出个体的控制量

和状态属性概率结果

其中局部感知数据

包括对环境的感知信息

即二维激光雷达的点云数据，自身的当前速度

其余机器人的位置

以及目标点的位置

6.根据权利要求5所述的基于深度强化学习的多机器人协同导航方法，其特征在于，对应于分布式控制方法，设计机器人的个体策略模型，该个体策略模型由神经网络搭建而成；构建的个体策略网络结构包括前端的表示信息提取模块以及后端的控制策略输出模块和辅助策略输出模块；所述的表示信息提取模块包含了特征信息提取模块以及后续处理模块，所述的特征信息提取模块对原始感知数据进行特征提取；后续处理模块使用了门控循环单元，利用其记忆能力进一步获取时序信息；所述的控制策略输出模块和辅助策略输出模块对表示信息提取模块的输出分别进行进一步的处理，最终分别得到机器人的速度控制量和状态属性类别概率结果。

7.根据权利要求6所述的基于深度强化学习的多机器人协同导航方法，其特征在于，所述的辅助策略输出模块通过softmax函数的计算输出

分别为属性类别0和类别1对应的概率。

8.根据权利要求7所述的基于深度强化学习的多机器人协同导航方法，其特征在于，根据辅助策略模型的输出，定义辅助策略的损失函数的具体形式为交叉熵函数。