CN110908384A

CN110908384A - 一种分布式多机器人协同过未知随机迷宫的编队导航方法

Info

Publication number: CN110908384A
Application number: CN201911236860.4A
Authority: CN
Inventors: 钟俊勋; 成慧
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-03-24
Anticipated expiration: 2039-12-05
Also published as: CN110908384B

Abstract

本发明涉及一种分布式多机器人协同过未知随机迷宫的编队导航方法，包括以下步骤：步骤一：获取观察数据；步骤二：用特征提取层从输入的观察数据中提取特征；步骤三：将特征输入群体规划模块，获得估计的机器人群体运动方向；步骤四：将特征提取层输出的特征和群体规划模块输出的运动方向输入运动控制模块，获得当前机器人的运动方向。通过在神经网络中引入记忆模块，使得神经网络具备解决复杂情况的能力，如重复进入死胡同；神经网络利用输入的局部观察来估计整个机器人群的平均位置的移动方向而不是单个机器人的移动方向，保证方法的非中心化属性，降低运算量，提高鲁棒性。

Description

一种分布式多机器人协同过未知随机迷宫的编队导航方法

技术领域

本发明涉及机器人导航领域，更具体地，涉及一种分布式多机器人协同过未知随机迷宫的编队导航方法。

背景技术

多机器人编队导航在搜索、救援等领域中有广泛的应用，现有的实现多机器人协同导航的技术可以分为两类，一类是基于规则的方法，如领航者跟随者法、人工势场法等方法，这些基于规则的方法要在一个初始时未知的环境中实现导航，需要先通过传感器的数据建立环境地图，然后在此基础上进行导航规划，而实时建图的计算量较大，从而难以保持实时性，使机器人更容易发生碰撞。

另一类方法是基于学习的方法，通过构造一个端到端的神经网络，既输入为机器人的传感器数据而输出为机器人的运动控制信号。使用这类方法可以不用显式地建立环境地图，从而提高计算速度。但该方法大部分都是只能应用于单机器人的情况下的，而多机器人的情况下应用基于学习的方法则主要集中在研究避碰这一方面，而对于在复杂环境中进行导航则没有特别地进行设计，往往都设计成不具有记忆能力，所以当遇到初始时环境未知的情况时，就无法解决一些需要带有记忆能力的网络才能解决的情况，如遇到死胡同，遇到死胡同时由于初始时地图未知的原因，机器人必须先进入探索后才会了解，但网络没有记忆能力时，机器人会在离开死胡同后直接遗忘，从而可能重新返回死胡同而无法完成导航。该类型的方法还会遇到两个问题，一个是多个机器人生成的导航路径可能不一致，从而可能导致机器人间由于生成的路径不一致发生碰撞而导航失败；而另一个是若通信距离有限则有时机器人之间会因为距离过大而失联，从而使得输入大小发生变化，而神经网络由于结构固定而难以处理这种情况。

发明内容

本发明为克服上述现有技术中基于规则的方法计算量大和基于学习的方法无法处理复杂环境的问题，提供一种分布式多机器人协同过未知随机迷宫的编队导航方法，用神经网络搭建非中心化控制器降低运算量，同时在神经网络的设计中引入记忆模块，使神经网络具备解决复杂情况的能力。

为解决上述技术问题，本发明采用的技术方案是：提供一种分布式多机器人协同过未知随机迷宫的编队导航方法，通过神经网络搭建控制器，所述控制器的导航方法包括以下步骤：

步骤一：获取观察数据；通过机器人上安装的测距器，得到t时刻，机器人的局部观测

通过机器人的定位系统获得机器人各自的位置

和朝向

步骤二：用特征提取层从输入的观察数据中提取特征，即不同的全连接层神经网络分别从不同类型的观察数据中提取特征

其中f_l为从局部观测提取到的特征，f_m为从其它机器人的状态中提取到的特征，得到的特征作为特征提取层的输出；

步骤三：将特征输入群体规划模块，获得估计的机器人群体运动方向；所述群体规划模块主要由三个部分组成：可扩展特征合并层、记忆模块和值迭代网络；

具体的步骤为：

S3.1：将特征提取层得到的不定大小的特征输入可扩展特征合并层，将其合并为同样大小的特征；

S3.2：使用合并后的特征更新记忆模块；记忆模块将迷宫区域划分为n×n个子区域，每个子区域申请大小为m的记忆空间

从而构成大小为m×n×n的记忆空间

S3.3：将记忆空间输入值迭代网络获得导航路径，值迭代网络构建大小为n×n的值地图v，值地图上的一个值代表着当机器人群的平均位置在该值对应的子区域内的得分，值的取值范围为[0,v_max]，得分在终点区域中心对应的值

上恒定取最大，而其它的值则通过迭代获得。

步骤四：将特征提取层输出的特征和群体规划模块输出的运动方向输入运动控制模块，获得当前机器人的运动方向。

优选的，在所述步骤S3.1中，采用注意力机制合并特征，具体步骤为：

S3.1.1将各个特征分别输入全连接层得到关键值和查询值；

S3.1.2对每个查询值分别与所有的关键值求内积，得到一组权重；

S3.1.3利用每组权重对特征进行加权求和，得到特征数量个查询结果；

S3.1.4将此结果输入全连接层得到特征数量个权重值；

S3.1.5利用权重值对所有特征进行加权求和，得到合并后的特征。

其中每次求取的权重值要进行一次softmax计算以保证所有的权重值之和为1。

优选的，所述步骤S3.2的记忆模块的更新步骤如下：

S3.2.1获取更新前的记忆

S3.2.2将合并后的特征与更新前的记忆

拼接；

S3.2.3将拼接后的向量输入全连接层获得更新后的记忆

S3.2.4将更新后的记忆放回记忆空间

中。

优选的，在所述步骤S3.3中，具体的计算步骤如下：

S3.3.1：将值地图

初始化为零；

S3.3.2：将值地图中

设为最大值v_max；

S3.3.3：将当前记忆

与当前的值地图

拼接，并输入卷积层，得到动作得分

S3.3.4：对同一位置不同动作取最大值，得到更新后的值地图

S3.3.5：回到步骤S3.3.2，重复l次；

S3.3.6：取出最后一次计算得到的在机器人群平均位置对应子区域的不同动作得分

将取得的不同动作得分输入全连接层获得机器人群的二维移动方向d_p。

优选的，在所述步骤一中，设定机器人的通信距离r_c大于测距器的测量半径r_l；通过机器人的通信系统，机器人i得到的观察数据为

o_e为终点区域中心的位置，

和

为在世界坐标系下的机器人i的位置和朝向，

为机器人坐标系下输入和输出。

优选的，在所述步骤四中，具体的计算步骤如下：

S4.1：将群体规划模块的输出量输入至全连接层中，处理为与其它特征同样大小的特征；

S4.2：使用与所述步骤S3.1相同的可扩展特征合并层将所述步骤S4.1的特征与来自步骤二的特征合并；

S4.3：将合并后的特征输入全连接层获得机器人当前的动作

优选的，对所述神经网络进行训练，并定义损失函数为：

L_i＝L_ppo+L_plan

其中，L_ppo表示PPO算法的损失函数；L_plan表示为提高群体规划模块的收敛速度设计的损失函数；d_pi表示机器人i的群体规划模块输出的机器人群二维移动方向；

表示为机器人群移动目标子区域的中心；

表示为机器人群的平均位置。

优选的，对于机器人i使用的奖励函数如下：

其中，R_si表示机器人群平均位置到达终点区域会给一个正奖励；R_fi表示机器人i发生碰撞时会给一个惩罚；R_ci表示当机器人i与某个机器人间的距离超过了通信距离时会给一个惩罚。

与现有技术相比，本发明的有益效果是：通过在神经网络中引入记忆模块，使得神经网络具备解决复杂情况的能力，如重复进入死胡同；神经网络利用输入的局部观察来估计整个机器人群的平均位置的移动方向而不是单个机器人的移动方向，保证方法的非中心化属性，降低运算量；通过可扩展特征合并层，将输入大小不定的观察数据生成同样的特征，解决输入量大小变化的情况；将机器人的路径规划和移动控制分别用两个子网络实现，并且用损失函数配合实现每个机器人只依靠自己的局部观察来预测整个机器人群的路径规划，从而保证每个机器人生成的导航路径相似。

附图说明

图1是本发明的一种分布式多机器人协同过未知随机迷宫的编队导航方法的流程图；

图2是本发明的一种分布式多机器人协同过未知随机迷宫的编队导航方法的控制器框图；

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

实施例1

如图1-2所示为一种分布式多机器人协同过未知随机迷宫的编队导航方法的实施例，通过神经网络搭建控制器，控制器的导航方法包括以下步骤：

通过机器人的定位系统获得机器人各自的位置

和朝向

设定机器人的通信距离r_c大于测距器的测量半径r_l；通过机器人的通信系统，机器人i得到的观察数据为

o_e为终点区域中心的位置，

和

为在世界坐标系下的机器人i的位置和朝向，

为机器人坐标系下的输入和输出。

具体的步骤为：

S3.1：将特征提取层得到的不定大小的特征输入可扩展特征合并层，将其合并为同样大小的特征；采用注意力机制合并特征，具体步骤为：

S3.1.1将各个特征分别输入全连接层得到关键值和查询值；

S3.1.4将此结果输入全连接层得到特征数量个权重值；

从而构成大小为m×n×n的记忆空间

所述记忆模块的更新步骤如下：

S3.2.1获取更新前的记忆

S3.2.2将合并后的特征与更新前的记忆

拼接；

S3.2.3将拼接后的向量输入全连接层获得更新后的记忆

S3.2.4将更新后的记忆放回记忆空间

中。

S3.3：将记忆空间输入值迭代网络获得导航路径，值迭代网络构建大小为n×n的值地图

值地图上的一个值代表着当机器人群的平均位置在该值对应的子区域内的得分，值的取值范围为[0,v_max]，得分在终点区域中心对应的值

上恒定取最大，而其它的值则通过迭代获得。具体的计算步骤如下：

S3.3.1：将值地图

初始化为零；

S3.3.2：将值地图中

设为最大值v_max；

S3.3.3：将当前记忆

与当前的值地图

拼接，并输入卷积层，得到动作得分

S3.3.4：对同一位置不同动作取最大值，得到更新后的值地图

S3.3.5：回到步骤S3.3.2，重复l次；

步骤四：将特征提取层输出的特征和群体规划模块输出的运动方向输入运动控制模块，获得当前机器人的运动方向。具体的计算步骤如下：

S4.3：将合并后的特征输入全连接层获得机器人当前的动作

本实施例的有益效果：通过在神经网络中引入记忆模块，使得神经网络具备解决复杂情况的能力，如重复进入死胡同；神经网络利用输入的局部观察来估计整个机器人群的平均位置的移动方向而不是单个机器人的移动方向，保证方法的非中心化属性，降低运算量；通过可扩展特征合并层，将输入大小不定的观察数据生成同样的特征，解决输入量大小变化的情况。

实施例2

本实施例在实施例1的基础上，对实施例1中的神经网络进行训练，并定义损失函数为：

L_i＝L_ppo+L_plan

表示为机器人群移动目标子区域的中心；

表示为机器人群的平均位置。

优选的，对于机器人i使用的奖励函数如下：

本实施例的有益效果：将机器人的路径规划和移动控制分别用两个子网络实现，并且用损失函数配合实现每个机器人只依靠自己的局部观察来预测整个机器人群的路径规划，从而保证每个机器人生成的导航路径相似。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。