CN113110478A

CN113110478A - 一种多机器人运动规划的方法、系统及存储介质

Info

Publication number: CN113110478A
Application number: CN202110457604.9A
Authority: CN
Inventors: 汪明慧; 曾碧; 王秋杰; 王志宇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-13

Abstract

本发明提供的一种多机器人运动规划的方法、系统及存储介质，方法包括以下步骤：获取机器人运动中的运动状态和环境信息；根据离散化后的运动状态和环境信息，通过强化学习确定机器人的运动策略；其中，运动策略中的连续动作，是利用模糊神经网络确定强化学习状态空间，并输出得到的连续动作；根据运动策略中确定机器人的基础行为，进行群集运动；基础行为包括以下至少之一：向目标行进、避障运动、避碰运动以及沿墙运动；方法解决了在庞大状态空间和动态变化环境中对智能体进行最优行为策略学习，收敛速度过慢、预见能力差等问题，可广泛应用于机器人控制技术领域。

Description

一种多机器人运动规划的方法、系统及存储介质

技术领域

本发明涉及机器人控制技术领域，尤其是一种多机器人运动规划的方法、系统及存储介质。

背景技术

运动规划是多移动机器人研究的热点问题。目前多移动机器人的运动规划主要包括路径规划，编队控制，避障避碰三种控制行为。在众多的运动协调算法中，一种新的协调方式——群集(Flocking)控制模式是一种模拟自然界中生物聚集运动的新型分散式控制方法，多机器人运动中机器人之间位置的协调、躲避障碍物和向目标点移动这三个方面正好与群集运动的三个模型：分离，调整和聚合相一致。

群集控制的优势在于编队聚集、稳定队形，能躲避一定的障碍物向目标运动。但在多机器人群集运动中，如果机器人数量增多和障碍物密集度程度增加，需要获取其所在环境的全部信息，才能完成运动规划避开障碍，但是，这时的机器人运动规划就必须完全依赖于已经给定的全局环境信息。如果环境发生了变化，就必须把新的全局环境信息提供给所有的机器人，这样所需要的通讯量就会非常大了。

此外，强化学习是多智能体(Agent)体系研究的核心问题，是复杂Agent系统研究的热点，基于行为的机器人能直接完成从感知到行为的映射，具有快速执行性和灵活性，但因为通常基于具体的环境模型，所以存在环境知识获取困难、环境模型难以建立、自适应能力差等问题。强化学习具有不依赖于环境模型、不需要先验知识以及鲁棒性强等优点。因此，目前成为基于行为的机器人研究的一个新的方向。强化学习是一种智能体从环境状态到行为映射的学习，以使动作从环境中获得的累积强化信号(回报)最大。但传统强化学习用在未知动态多障碍环境下的自主机器人运动规划系统会面临三个问题：1)当状态空间和动作空间连续或数量过多时，强化学习收敛速度过慢；2)Agent在学习初期是盲目搜索，预见能力差；3)环境对每个动作的回报函数值不能明确定义。

发明内容

有鉴于此，为至少部分解决上述技术问题之一，本发明实施例目的在于提供一种快速、可靠性高多机器人运动规划的方法；此外，本发明实施例还提供了能够对应实现其方法的系统及计算机可读存储介质。

第一方面，本申请的技术方案提供了一种多机器人运动规划的方法，其步骤包括：

获取机器人运动中的运动状态和环境信息；

根据离散化后的所述运动状态和所述环境信息，通过强化学习确定所述机器人的运动策略；所述运动策略中的连续动作，是利用模糊神经网络确定强化学习状态空间，并输出得到的所述连续动作；

根据所述运动策略中确定所述机器人的基础行为，进行群集运动；所述基础行为包括以下至少之一：向目标行进、避障运动、避碰运动以及沿墙运动。

在本申请方案的一种可行的实施例中，所述根据所述运动策略中确定所述机器人的基础行为，进行群集运动这一步骤，其包括：

通过领航-跟随的编队控制方法，根据跟随机器人与领航机器人的距离间隔、位置以及方向形成机器人编队；

在所述机器人编队中，根据所述运动策略，通过群集内聚性运动分析和群集内成员行为分析确定群集控制律；

根据所述群集控制律进行集群运动。

在本申请方案的一种可行的实施例中，所述群集控制律包括编队子控制率，所述根据所述群集控制律进行集群运动这一步骤，其包括：

根据所述机器人的离散化后的所述环境信息以及所述机器人的通讯能力确定滚动窗口更新离散化后的所述环境信息，刷新所述滚动窗口中的窗口信息；

根据所述窗口信息在所述机器人的邻近个体中，产生所述领航机器人，形成群集编队。

在本申请方案的一种可行的实施例中，所述根据所述群集控制律进行集群运动这一步骤，其还包括：

根据所述机器人的位置，通过势场函数确定所述机器人的邻近个体中势能最小的所述机器人作为所述领航机器人。

在本申请方案的一种可行的实施例中，所述群集控制律包括避碰避障控制子控制率，所述根据所述群集控制律进行集群运动这一步骤，其还包括：

确定所述机器人进入死锁状态，生成虚拟伴随机器人，所述虚拟伴随机器人的坐标是由所述机器人用激光探测障碍物，返回的距障碍物最近的激光点所确定；

确定所述机器人进入沿墙运动模态，进行墙面建模确定墙面方向，控制所述机器人沿所述墙面方向运动；

检测与所述虚拟伴随机器人之间的距离，确定所述距离小于第一预设值，控制所述机器人沿与所述虚拟伴随机器人的连线的反方向旋转一定的角度，并保持沿所述墙面方向运动。

在本申请方案的一种可行的实施例中，所述根据离散化后的所述运动状态和所述环境信息，通过强化学习确定所述机器人的运动策略这一步骤，其包括以下步骤至少之一：

通过Q-learning学习算法从环境中获得的强化信号构成模糊神经网络输出的误差代价函数，通过误差的反向传播学习算法来确定模糊规则和调整模糊隶属度函数参数；

将所述强化学习的状态矢量作为模糊神经网络的输入变量，所述模糊神经网络的输出部分作为所述强化学习的动作空间，利用模糊神经网络的函数逼近特性实现状态到动作的映射。

在本申请方案的一种可行的实施例中，所述根据离散化后的所述运动状态和所述环境信息，通过强化学习确定所述机器人的运动策略这一步骤，其还包括：

对离散化后的所述环境信息进行融合和特征提取，得到特征期望；

更新群集运动中的所述特征期望，通过逆向强化学习更新特征值函数；

根据更新后的所述特征值函数进行特征提取得到回报值，根据所述回报值优化所述强化学习的过程。

第二方面，本发明的技术方案还提供一种多机器人运动规划的系统，其包括：

感知模块，用于获取机器人运动中的运动状态和环境信息；

强化模块，用于所述运动状态和所述环境信息，通过强化学习确定所述机器人的运动策略；所述运动策略中的连续动作，是利用模糊神经网络确定强化学习状态空间，并输出所述得到的连续动作；

执行模块，用于根据所述运动策略中确定所述机器人的基础行为，进行群集运动；所述基础行为包括以下至少之一：向目标行进、避障运动、避碰运动以及沿墙运动。

第三方面，本发明的技术方案还提供一种多机器人运动规划的硬件系统，其包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个程序被至少一个处理器执行，使得至少一个处理器运行第一方面中的一种多机器人运动规划的方法。

第四方面，本发明的技术方案还提供了一种存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于运行第一方面中的方法。

本发明的优点和有益效果将在下面的描述中部分给出，其他部分可以通过本发明的具体实施方式了解得到：

本申请的技术方案针对多机器人在未知环境的运动规划问题，采用群集控制使所有的机器人移动在一起，避免碰撞并向目标移动。将强化学习引入多机器人系统中，增强机器人的分析、推测能力来选择合适的行为动作进行群集运动；将基于行为的机器人技术加入群集控制，使机器人产生编队、避障、趋向目标等行为；强化学习则增强机器人的分析、推测能力来选择合适的行为动作进行群集运动。模糊神经网络解决了强化学习在庞大状态空间和动态变化环境中对智能体进行最优行为策略学习，收敛速度过慢、预见能力差等问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多机器人运动规划方法的步骤流程图；

图2为移动机器人运动规划的强化学习模块示意图；

图3为本发明实施例提供的机器人群集控制受力分析示意图；

图4为本发明实施例提供的一种多机器人运动规划系统的结构示意图；

图5为本发明实施例中领航机器人与跟随机器人通信示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

首先针对本申请技术方案涉及到的技术名词进行解释：

Q学习(Q-Learning)算法是一种与模型无关的强化学习算法，直接优化一个可迭代计算的Q函数。

模糊神经网络(FNN)是模糊理论同神经网络相结合的产物，它汇集了神经网络与模糊理论的优点，集学习、联想、识别、信息处理于一体。

在群集控制中，用“势场”概念统一了诸如编队保持、奔向目标点、避障等各子行为，对“势场”进行精确量化又使得群集运动成为一种可度量的运动协调模式，群集内部个体之间的几何关系更加灵活，其队形会根据系统初始状态与外界环境的变化进行实时调整，并能避免碰撞向目标方向前进，群集控制在动态未知环境下更具有其优越性。

在第一方面，如图1所示，本申请的技术方案提供了一种多机器人运动规划的方法的实施例，其中，方法包括步骤S100-S300：

S100、获取机器人运动中的运动状态和环境信息；

具体地，通过传感器、红外检测仪器、摄像头等信息采集设备或装置，采集机器人运动过程中机器人的运动状态，以及在运动过程中周围环境的变化信息，即为环境信息。

S200、根据离散化后的运动状态和环境信息，通过强化学习确定机器人的运动策略；

其中，运动策略中的连续动作，是利用模糊神经网络确定强化学习状态空间，并输出得到的连续动作。实施例中利用模糊神经网络(FNN)的函数逼近特性解决强化学习状态空间过大的问题，并能输出连续的动作，实现连续状态空间和动作空间的强化学习任务，如图2所示，实施例中的学习架构可以釆用逆向强化学习估计示教的回报函数，估计得到的回报被用来进行强化学习，并且利用神经网络对Q学习进行优化，求解出回报对应的最优策略。具体地，由于传统的强化学习是工作在离散和有限的状态和动作空间，因此，很难直接用到大多数涉及连续空间的现实世界的应用，即使状态可以离散化，学习的行为仍然是离散的。离散行为的切换通常导致机器人的控制在大多数应用中变得不平滑。因此，实施例基于群集控制和强化学习的多机器人进行运动规划，强化学习的过程在离散空间，其输入为离散化后的数据，包括但不限于离散化后的运动状态和环境信息；强化学习增强机器人的分析、推测能力来选择合适的运动策略进行群集运动。

S300、根据运动策略中确定机器人的基础行为，进行群集运动；

其中，基础行为包括以下至少之一：向目标行进、避障运动、避碰运动以及沿墙运动。具体地，与强化学习过程相反，群集控制过程针对连续空间，实现机器人行为控制；将基于行为的机器人技术加入群集控制中，通过设计机器人的局部控制规则和基本行为，使机器人产生一个整体的行为达到目标。基本行为主要包括奔向目标行为、避障、避碰行为以及沿墙运动行为，根据环境选择合适的行为非常重要，需加入机器学习进行决策。

在一些可行的实施例中，根据运动策略中确定机器人的基础行为，进行群集运动这一步骤S200，其包括S210-S230：

S210、通过领航-跟随的编队控制方法，根据跟随机器人与领航机器人的距离间隔、位置以及方向形成机器人编队；

具体地，实施例中采用领航-跟随(Leader-follower)的编队控制方法，跟随机器人以一定的距离间隔跟踪领航机器人的位置和方向，形成队形。

S220、在机器人编队中，根据运动策略，通过群集内聚性运动分析和群集内成员行为分析确定群集控制律；

具体地，编队中各机器人自主避障，在编队运动过程中遇到障碍物时，被障碍物阻挡的移动机器人选择合适的避障行为绕开障碍物，未被障碍物遮挡的机器人保持原有运动状态，自主避障具有灵活的特点。本实施例中采用群集控制来处理机器人之间的避碰问题，由群集内聚性运动分析和聚合群集内成员行为的分析设计出群集控制律，可以使群集机器人实现基本的避碰避障。对于复杂障碍物，如凹型障碍物，机器人进入势场的陷阱，通过构建虚拟机器人带领实体机器人走出陷阱。设计将对多种复杂障碍环境设计避障控制策略。

实施例中采用逆向强化学习估计示教的回报函数，估计得到的回报被用来进行强化学习，并且利用神经网络对Q学习进行优化，求解出回报对应的最优策略。结合机器学习算法中的强化学习和逆向强化学习，在机器人体系结构中实现了策略生成的学习架构。该学习架构采用逆向强化学习估计示教的回报函数，估计得到的回报被用来进行强化学习，从而求解出回报对应的最优策略。解决在庞大状态空间和动态变化环境中对智能体进行最优行为策略学习的问题。

S230、根据群集控制律进行集群运动；

具体地，在实施例中，可以用邻接图G来作为对智能体之间的相互作用的表示，G的顶点对应一个智能体，边表示一个智能体的控制器依赖于另一个智能体的状态，也就是有边相连的智能体之间有互相作用关系。

在有领导机器人Leader的群集控制中，群中所有智能体的速度矢量都渐进地趋于Leader的速度矢量。

实施例中采用分散控制的策略，将总控制律分为三个子控制律，对多机器人群集运动可以从编队控制，避障控制和向目标节点移动三个方面分别进行控制律；对多机器人群集运动从编队控制，避障控制和向目标节点移动三个方面分别生成控制律。

在一些可行的实施例中，群集控制律可以包括编队子控制率，进而，根据群集控制律进行集群运动这一步骤S230，可以进一步细分为步骤S231-S233、

S231、根据机器人的离散化后的环境信息以及机器人的通讯能力确定滚动窗口；

S232、更新离散化后的环境信息，刷新滚动窗口中的窗口信息；

S233、根据窗口信息在机器人的邻近个体中，产生领航机器人，形成群集编队。

具体地，实施例通过建立群集的模型、设计势场函数，并进行群集内聚性运动分析和聚合群集内成员行为的分析设计出群集控制律，实现群体内部的避碰与聚集且整体势能最小，使群集机器人避障避碰向目标移动。实施例采用Leader-follower的编队控制方法，对全局环境未知情况，实施例采用滚动窗口法来确定虚拟领导者，利用机器人实时测得的局部环境信息，周期性地刷新窗口信息，以滚动方式进行在线规划。根据个体周围的局部信息以及个体的通讯能力确定一个滚动窗口，在保证避开障碍物和更接近目标的前提下，在滚动窗口内实时产生虚拟领航者引导群体运行。跟随者以一定的距离间隔跟踪领航机器人的位置和方向，根据领航者与跟随机器人之间的相对位置关系，就可以形成不同的队形。

进一步的，实施例根据群集控制律进行集群运动这一步骤S230，还可以包括：步骤S234、根据机器人的位置，通过势场函数确定机器人的邻近个体中势能最小的机器人作为领航机器人。

具体地，考虑到如果领航机器人leader出现故障，后面以它为参考点的follower机器人将掉队，编队无法继续保持，于是采用编队容错替换算法以保持编队。如果leader发生故障，则在局部环境内利用邻近个体的位置信息，求取势能最小的个体作为新的leader引导智能群体运行，leader由局部环境决定，是实时变化的，具有自适应性。虚拟领导机器人的领航作用体现了个体有跟随局部领域内势能最小个体的运动趋势。每个个体均有自身的虚拟领导者，形成一对一模式，且各虚拟领导机器人间无公共信息，由于虚拟领导机器人是从局部邻近个体中选取的，该领导机器人的下一步运行状态由其自身局部领域内邻近的个体决定，因此领导机器人引导跟随机器人运行的同时也受跟随机器人的影响，两者之间形成双向信息流，这使得领导者机器人具备实时反映环境变化的能力。

在一些可行的实施例中，群集控制律可以包括碰避障控制子控制率，进而，根据群集控制律进行集群运动这一步骤S230，还可以包括S320a-S320c：

S320a、确定机器人进入死锁状态，生成虚拟伴随机器人，虚拟伴随机器人的坐标是由机器人用激光探测障碍物，返回的距障碍物最近的激光点所确定；

S320b、确定机器人进入沿墙运动模态，进行墙面建模确定墙面方向，控制机器人沿墙面方向运动；

S320c、检测与虚拟伴随机器人之间的距离，如果距离小于第一预设值，控制机器人沿与虚拟伴随机器人的连线的反方向旋转第一角度，并保持沿墙面方向运动。

其中，第一预设值即为距离阈值；具体地，在多机器人的群集运动过程中，机器人不可避免的会与其他机器人发生碰撞。群集中所有的机器人的位姿信息和速度信息都是已知的，实施例中，可以把机器人之间的避碰问题转化为两个刚体之间的避碰问题，即具有固定半径和固定的中心的两个刚体之问的避碰问题。考虑机器人之间的相对速度影响，引入虚拟刚体接触力的概念来处理机器人之间的避碰问题，当机器人之间的相对距离相同时，速度较大的机器人将会得到较大的排斥力。

实施例把刚体接触模型运用在多个机器人之间的非接触式避碰运动之中，刚体由两个部分组成：变形层和不变形核心层，刚体的变形层可分解为并联的阻尼器和弹簧，δ_N为接触点形变。假设机器人R的最大的半径为r_robot，该机器人的避碰安全距离为D，定义机器人R的虚拟刚体R’的半径r_field＝r_robot+D/2，(x_i，y_i)和(x_j，y_j)分别为机器人i和机器人j的全局坐标。当机器人虚拟刚体R_j’和R_i’发生碰撞时，R_i’的形变量为δ′_N，则有：

当δ′_N>0时为有效值，即虚拟刚体之间发生了接触，产生了形变，机器人在虚拟刚体接触点的受力为：f′＝K·δ′_N，其中，K为刚性系数。这样就把虚拟接触力转化为机器人的运动控制量。

由群集内聚性运动分析和聚合群集内成员行为的分析设计出群集控制律，可以使群集机器人实现基本的避碰避障。但对于复杂障碍物，还需要有针对性的避障策略才能解决。考虑机器人在包含凹型障碍物的复杂环境运动时，机器人进入势场的陷阱，解决问题的关键是如何判断进入陷阱和如何从凹型障碍物陷阱中逃逸成功到达目的地，此时避障控制策略因将运动分解成两种行为：一种是避障且接近目标行为；另一种是沿墙走行为。根据Saber提出的多Agent协调避障运动的过程中出现伴随的共生Agent的理念。本实施例将利用这种因避障而产生的虚拟机器人带领实体机器人走出陷阱。当机器人进入死锁状态后，此时产生虚拟伴随机器人，其坐标为实体机器人用激光探测障碍物时，返回的距障碍物最近的激光点的坐标值。实体机器人进入到沿墙运动模态后，并用墙面建模方法确定墙面的方向，并沿墙面方向作匀速的运动。同时，机器人会不断地检测与虚拟伴随机器人之间的距离，实体的机器人和虚拟机器人有斥力作用，若距离过近，实体机器人会朝着与虚拟的伴随机器人的连线的反方向的旋转一定的角度，来偏离危险的区域。当离开危险区域之后，实体机器人继续进行沿墙运动，直到离开陷阱为止。离开陷阱后，虚拟机器人消失，实体机器人通过群集控制的聚集运动回到队伍，继续向目标运动。本发明将对多种复杂障碍环境设计避障控制策略。

更为详细地，将机器人在环境中的运动视为一种机器人在虚拟的人工受力场的运动。障碍物对机器人会产生斥力，而目标点会对机器人产生引力，引力与斥力的合力作为机器人的加速力，来控制机器人的运动，可以得到引力函数如下：

根据引力场求导可得引力为：

该式中，ε是引力系数，ρ(q,q_goal)表示机器人当前状态与目标的距离，d_goal给定了一个阈值限定了目标与物体之间的距离。

斥力函数为：

根据斥力场求导可得斥力为：

公式(5)中：

其中，η是斥力系数，ρ(q,q_obs)表示了机器人当前状态与障碍物的距离，ρ₀也给定了一个阈值限定了目标与物体之间的距离。

实施例中趋向目标的控制器根据公式(3)产生引力，避障控制器根据公式(5)产生斥力。

在集群中，多机器人之间相互作用的势场能量为内势能U_in。单个机器人与外部环境相互作用的势场能量为外势能U_out，外势能包括来自障碍物的排斥势能U_outr和来自目标的吸引势能U_outa。

对于U_in，有：

A为势场调整系数且A>0，L为结构系数且L>0。对于U_outr，有：

在公式(10)和公式(11)中，||r_oi||为机器人与障碍物的距离。对于U_outa，有：

U_outa＝ε||r_id||(12)

在公式(12)和公式(13)中，||r_id||为机器人与目标的距离。

当进行无Leader的多机器人避障控制时，U_out＝U_outr+U_outa，当进行有Leader多机器人避障控制的时候，在Follower之间，U_out＝U_outr。追随者被视为障碍。直接利用障碍物的斥力势场，使机器人之间保持相当的距离，有效防止碰撞。根据编队任务中需要形成的不同的网络拓扑结构，如直线、三角形、菱形等，follower需要不断地更正自己相对于leader的位置。受力分析图如图3所示。在每个时间段内，计算机器人的运动方向和下一步的步长，然后得到方向和步长的总和，从而得到一个周期结束后机器人的位置。

在一些其他的实施例中，根据离散化后的运动状态和环境信息，通过强化学习确定机器人的运动策略这一步骤S200，可以包括更为细化的步骤S210-S220：

S210、通过Q-learning学习算法从环境中获得的强化信号构成模糊神经网络输出的误差代价函数，通过误差的反向传播来确定模糊规则和调整模糊隶属度函数参数；

S220、将强化学习的状态矢量作为模糊神经网络的输入变量，模糊神经网络的输出部分作为强化学习的动作空间，利用模糊神经网络的函数逼近特性实现状态到动作的映射。

具体地，一个机器人面临不确定的情况，需向目标位置运动，要避免任何潜在的碰撞。运动时需要不断感知观察周围的环境，从而计划下一步的行动，所有行为动作的决策都必须是实时的，要实现自主移动机器人灵活和有效的行为选择能力，必须在机器人的规划中引入学习机制。本发明实施例根据传统强化学习Q学习的问题，利用模糊神经网络优化，实现机器人跟踪环境状态选择合适行为的决策。针对状态空间和动作空间连续或数量过多时，利用神经网络(NN)和模糊推理系统(FIS)具有广泛的逼近特性，实现用函数逼近算法来逼近状态空间到动作空间的映射。神经网络具有容错能力强、自适应学习等优点，但它不能很好地利用经验知识，使得网络学习时间较长，也较难收敛到全局极值。FIS则能充分利用先验知识，其推理方式也符合人类的思维模式。FNN具有广泛的函数逼近特性，用它实现强化学习能有效解决状态空间过大时算法难以收敛等问题，并可输出连续的动作。

本实施例将Q学习算法与FNN相结合，构成FNN-Q学习系统，强化学习的目的是进行FNN的结构辨识和参数整定。即通过Q学习在给定规则前件的条件下，确定模糊规则的结论部分，并对模糊隶属度函数的相关参数进行调整，以提高系统的性能。使用FNN实现Q学习的方式是将强化学习的状态矢量作为FNN的输入变量，模糊规则的输出部分为强化学习的动作空间，利用FNN广泛的函数逼近特性来实现状态到动作的映射。由Q学习从环境中获得的强化信号构成FNN输出的误差代价函数，通过误差的反向传播来确定模糊规则和调整模糊隶属度函数参数。

在一些可行的实施例中，根据离散化后的运动状态和环境信息，通过强化学习确定机器人的运动策略这一步骤S200，还可以包括更为细化的步骤S230-S250：

S230、对离散化后的环境信息进行融合和特征提取，得到特征期望；

S240、更新群集运动中的特征期望，通过逆向强化学习更新特征值函数；

S250、根据更新后的特征值函数进行特征提取得到回报值，根据回报值优化强化学习的过程。

具体地，实施例在使用逆向强化学习设置回报值函数前需要先进行示教，然后逆向强化学习根据示教得到的特征来计算回报值函数。逆强化学习按照对环境特征的传感数据的不同处理方式，可以分为两个阶段，第一阶段为示教特征期望的采集，逆向强化学习使用分布式的各个传感器智能体进行环境感知，并对感知数据进行融合和特征提取最终得到特征期望。第二阶段为回报估计，机器人按照强化学习生成的最优策略进行行为运动，并采集期望特征，使用逆向强化学习算法得到更新后的特征值函数，特征提取智能体获得各个环境感知智能体的数据后进行特征提取。在一个策略结束后，回报估计智能体根据得到的期望特征以及上一阶段得到示教期望特征，作出回报估计，并发送给强化学习智能体。逆向强化学习解决了强化学习中回报函数值很难设定的问题。它根据示教的特征期望来得到各个动作的回报函数，再使用回报函数和强化学习算法来得到对应的策略。

在第二方面，如图4所示，本申请所提供的一种用于第一方面中方法的多机器人运动规划的系统，其包括：

感知模块，用于获取机器人运动中的运动状态和环境信息；

强化模块，用于根据离散化后的运动状态和环境信息，通过强化学习确定机器人的运动策略；其中，运动策略中的连续动作，是利用模糊神经网络确定强化学习状态空间，并输出得到的连续动作。

执行模块，用于根据运动策略中确定机器人的基础行为，进行群集运动；基础行为包括以下至少之一：向目标行进、避障运动、避碰运动以及沿墙运动。

在一些可行的实施例中，系统还可以包括行为模块和选择模块，其中，行为模块用于控制单个机器人完成基础行为，选择模块用于根据当前环境形成最优的运动策略。

第三方面，本申请的技术方案还提供多机器人运动规划的硬件系统，其包括至少一个处理器；至少一个存储器，用于存储至少一个程序；当至少一个程序被至少一个处理器执行，使得至少一个处理器运行如第一方面中的一种多机器人运动规划的方法。

本发明实施例还提供了一种存储介质内存储有程序，程序被处理器执行，实现如第一方面中的方法。

在基于实施例提供的方法、系统、装以及计算机可读存储介质的技术上，本申请还提供了无人车运动控制的实施过程，实施例中的方法是通过ROS(Robot OperatingSystem,机器人操作系统)进行算法实现，然后将ROS代码移植到轮式机器人进行运动规划实验，包括避障、编队、动态队形变换。

实验使用基于ROS的无人车来检验提出的多机器人运动规划算法，无人车具有激光雷达等传感器。雷达可以360度扫描环境，获取到自身与环境中障碍物的距离。

ROS是分布式的软件框架，为每个无人车建立节点(node)，以接收来自主程序的消息，节点通过Topic、Service的方式进行通信。主程序首先初始化无人车的激光雷达、运动底盘，并设置激光雷达的最大扫描半径、运动角速度、运动线速度等系统运动参数，并且初始化群集控制的势场模型参数，如引力半径、势场力增益因子等，以及编队控制模块默认参数，如领航者等待时间、线距离最大允许误差、角度最大允许误差等。

在多个无人车系统中设定ROS Master运行在一台无人车上，其它无人车只作为Slave通过ssh的方式和Master取得联系。无人车群队均处于同一个路由器的网络，通过ifconfig命令可以查看所有车的局域网IP地址，在ROS主机无人车、ROS从机无人车、ROS从机PC端分别配置bashrc文件。无人车之间的通信主要包含两部分，即坐标信息发布以及领航者控制信息发布；坐标信息发布模块如图5所示。每个无人车均需要向其它无人车广播自身坐标以及编队控制信息，以使领航者对编队的情况有一个整体的了解，也便于跟随者生成编队内坐标。为了统一所有无人车的坐标系，需要设定领航者坐标系为标准坐标系，因此跟随者从里程计获取的相对坐标需转换为标准坐标。跟随者发布的坐标信息也为经过转换后的坐标信息。领航者发送的每一条广播信息将间隔一段自定义的时间，这样可以使跟随者的目标点不至于变化太频繁，保证编队行为的连贯性。

设计launch文件实现多个无人车之间的通信运动，主程序通过launch文件向无人车发布topic，通过扫描Topic，系统实时获取每个机器人位姿信息和传感器扫描信息，将所获取信息传递给控制模块。前面的多机器人运动规划的各功能模块由控制模块的相关子程序实现，控制模块计算出每个机器人的前进方向、角速度和线速度，实现无人车的避障控制、以及对障碍物环境做出相应的编队控制和动态队形变换控制。

从上述具体的实施过程，可以总结出，本发明所提供的技术方案相较于现有技术存在以下优点或优势：

方法大大降低了编解码器的复杂度，减少了编解码的时间，同时也保证了滤波后的图像更加接近原始图像。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种多机器人运动规划的方法，其特征在于，包括以下步骤：

获取机器人运动中的运动状态和环境信息；

2.根据权利要求1所述的一种多机器人运动规划的方法，其特征在于，所述根据所述运动策略中确定所述机器人的基础行为，进行群集运动这一步骤，其包括：

根据所述群集控制律进行集群运动。

3.根据权利要求2所述的一种多机器人运动规划的方法，其特征在于，所述群集控制律包括编队子控制率，所述根据所述群集控制律进行集群运动这一步骤，其包括：

根据所述机器人的离散化后的所述环境信息以及所述机器人的通讯能力确定滚动窗口；

更新离散化后的所述环境信息，刷新所述滚动窗口中的窗口信息；

4.根据权利要求3所述的一种多机器人运动规划的方法，其特征在于，所述根据所述群集控制律进行集群运动这一步骤，其还包括：

5.根据权利要求2所述的一种多机器人运动规划的方法，其特征在于，所述群集控制律包括避碰避障控制子控制率，所述根据所述群集控制律进行集群运动这一步骤，其还包括：

检测与所述虚拟伴随机器人之间的距离，确定所述距离小于第一预设值，控制所述机器人沿与所述虚拟伴随机器人的连线的反方向旋转的第一角度，并保持沿所述墙面方向运动。

6.根据权利要求1所述的一种多机器人运动规划的方法，其特征在于，所述根据离散化后的所述运动状态和所述环境信息，通过强化学习确定所述机器人的运动策略这一步骤，其包括以下步骤至少之一：

7.根据权利要求1所述的一种多机器人运动规划的方法，其特征在于，所述根据离散化后的所述运动状态和所述环境信息，通过强化学习确定所述机器人的运动策略这一步骤，其还包括：

8.一种多机器人运动规划的系统，其特征在于，包括：

感知模块，用于获取机器人运动中的运动状态和环境信息；

9.一种多机器人运动规划的系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器运行如权利要求1-7任一项所述的一种多机器人运动规划的方法。

10.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于运行如权利要求1-7中任一项所述的一种多机器人运动规划的方法。