CN112230618B

CN112230618B - 一种从全局任务自动合成多机器人分布式控制器的方法

Info

Publication number: CN112230618B
Application number: CN202011183863.9A
Authority: CN
Inventors: 董威; 李睿; 陈立前; 尹良泽; 陈振邦; 赵旭东; 史浩
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-10-15
Anticipated expiration: 2040-10-29
Also published as: CN112230618A

Abstract

本发明公开了一种从全局任务自动合成多机器人分布式控制器的方法，包括：获取合成多机器人控制器规约；提取合成多机器人控制器规约中的全局任务，并通过GR(1)综合算法合成关于全局任务的全局策略，将全局策略向每一个机器人节点的命题集合投影生成每一个机器人的局部框架；分别计算得到每一个机器人的通信命题集C_i，用通信命题集C_i补充对应局部框架迁移边上的命题得到每一个机器人的局部策略；每一个机器人根据局部策略得到可用的控制器，分别使用SAT求解器求解得到机器人的后继。本发明能够自动且高效的为机器人生成控制器和通信策略。

Description

一种从全局任务自动合成多机器人分布式控制器的方法

技术领域

本发明涉及机器人控制领域，尤其涉及一种从全局任务自动合成多机器人分布式控制器的方法。

背景技术

“工业4.0”革命的高速发展，信息物理系统(Cyber-Physical Systems,CPS)领域无疑将是未来工业发展变革中尺寸必争的战略高地，尤其是无人系统，包括无人机(Unmanned Aerial Systems,UAS)和智能汽车(Smart Cars)等基于人工智能的CPS。其深度融合了环境感知、数据分析、身份验证和网络互联等技术。无人系统作为物理系统、异构网络和信息科技的高度融合体，集成了3C(Computation,Communication,Control)能力、实时感知和反馈控制等技术。无人系统具有一定自治能力和自主性的无人控制系统，它是人工智能与机器人技术以及实时控制决策系统的结合产物。其研究成果应用于农业、工业、医疗和军事各个领域，原因是无人系统能广泛替代人类于各种恶劣的、动态的环境下独立完成布置的任务，而不需要或者需要极少操控人员的控制，大大提高人类的感知范围，扩充人类的行为能力。机器人作为无人系统的重要元素，它的发展经历了三个阶段：从可编程、示教再现型机器人到具有视觉、听觉、触觉，具有一定适应能力的机器人，再到配备多种先进传感器，具有自适应、自学习功能的智能机器人。随着机器人相关技术的发展，机器人实现的功能越来越多，具有的能力也越来越大。但同时对机器人具有的能力进行开发和运用也是越来越难了。另外，单个机器人在信息获取、处理和控制等方面的能力都是有限的，对于重量大、复杂性大的任务和多变的工作环境，仅仅依靠单个机器人一般无法实现。于是，人们开始考虑用多机器人系统(Multi-robot System,MRS)来代替单个机器人。

多机器人系统往往面临的是复杂而多变的任务需求以及恶劣与不确定的外部环境，安全地控制多机器人系统在外部环境下完成任务是严峻而又急迫的研究内容。在传统方法上，设计者手工设计任务规划方案和运动规划方案，接着手工编写代码将设计者所设计的控制器实现并且部署到多机器人系统上对系统进行控制，这个流程是繁琐且非常容易出错的过程。所设计的控制器难以保证能够控制器无人系统安全地完成给定任务。在过去的几十年中，通过运动规划器和学习算法的发展，机器人控制诸如障碍物运动或抓紧物体等任务的技术水平已取得了显着进步。但是，让机器人执行诸如完成DARPA机器人挑战赛之类的复杂任务在很大程度上仍然是由一组训练有素的程序员手动完成的，这些程序员手动将不同的系统组件组合在一起。该手动过程非常耗时，容易出错，并且通常仅通过大量测试进行验证。

近年来，形式化方法综合理论和技术都有了很多突破。基于形式化方法的自动控制器合成技术也受到很多研究者的深入研究。形式化方法中模型验证是一项重要的理论，设计者将已有的系统控制行为抽象为模型，然后针对系统应当满足的性质用时序逻辑规约刻画。通过模型验证的方式验证该模型是否满足给定的规约。不同于模型验证，形式化综合是自动地构造控制策略，算法保证若系统控制器遵循该策略，那么无论环境如何变化，系统总是能够满足给定的规约，而不需要进行模型验证，综合生成的策略就可作为系统的高层控制行为。进一步将高层控制行为转换为系统控制代码，即自动地生成系统控制程序。机器人技术的形式综合提供了一种框架，该框架可以用数学上精确的语言指定复杂的机器人任务，并在可行的情况下自动将这些规范转换为按构造正确的机器人控制器。这种方法允许用户推理任务规范而不是实际实现，减少实现错误并为整体机器人行为提供保证。此外，对任务的形式描述使得能够提供有关规范本身的反馈，例如它们是否可以由物理机器人在可能未知的环境中实现。

一般来说，时序逻辑规约由命题、标准布尔运算和一些时序算子组成。从计算机程序到机器人运动控制，它们已经在多个领域用于表示系统的属性和要求。有几种不同的时序逻辑，例如计算树逻辑(CTL)、CTL*、实时时间逻辑和线性时序逻辑(Linear TemporalLogic,LTL)，线性时序逻辑作为一种广泛用于描述反应式系统属性的形式规约，它可以很容易地刻画复杂的机器人行为。

在形式综合领域，Pnueli等人第一次将综合引入到用线性时序逻辑刻画的反应式模块。反应式的综合可以看作一场关于系统和环境的二人博弈，我们总是希望系统能够赢得环境，若赢得环境，算法就可给出赢的策略作为系统的高层控制行为。但是由于综合的复杂度达到了公式长度的双指数级别，使得综合难以运用到实际软件工程中。Nir Piterman等人提出了求解GR(1)的博弈综合的具体算法，GR(1)(Generalized-Streett with Rank(1))作为LTL的子集得到了研究人员的重点研究，因为用GR(1)刻画的性质可以用博弈结构上的μ演算在多项式时间合成系统策略。并且GR(1)公式格式简单，易于理解和书写。这使得GR(1)的综合在机器人领域开始了许多运用场景。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种从全局任务自动合成多机器人分布式控制器的方法，能够自动且高效的为机器人生成控制器和通信策略。

为解决上述技术问题，本发明提出的技术方案为：

一种从全局任务自动合成多机器人分布式控制器的方法，包括以下步骤：

S1)获取合成多机器人控制器规约，所述合成多机器人控制器规约包括建模为机器人节点集合的多机器人模型以及由GR(1)规约刻画的全局任务；

S2)提取合成多机器人控制器规约中的全局任务，通过GR(1)综合算法合成关于全局任务的全局策略A_G，根据每一个机器人节点中预设的传感器命题集Ii和预设的执行器命题集Oi生成命题集合<I_i,O_i>，将全局策略A_G向每一个机器人节点的命题集合<I_i,O_i>投影生成每一个机器人的局部框架

S3)分别计算得到每一个机器人节点中的通信命题集C_i，用通信命题集C_i补充对应局部框架

迁移边上的命题得到每一个机器人的局部策略A_i；

S4)每一个机器人根据局部策略A_i得到可用的控制器，根据所有机器人的命题集合和多机器人模型生成通信策略M，根据通信策略M的强连通分量将所有机器人分组，从底部向上对每一个强联通分量中的机器人分别使用SAT求解器求解得到所有机器人的后继。

进一步的，步骤S1)中全局任务为根据GR(1)博弈结构综合得到的规约，函数表达式为：

上式中，

为全局任务，

为环境，

为系统，

为环境的初始，

为环境的迁移。

进一步的，步骤S2)中通过GR(1)综合算法合成关于全局任务的全局策略具体包括：通过JTLV工具对全局任务求解GR(1)的博弈综合得到关于全局任务的全局策略A_G。

进一步的，步骤S2)中机器人的局部框架

中各元素的函数关系如下：

上式中，i为机器人序号，

为机器人i的环境控制器的传感器变量以及网络通讯变量的集合，

为机器人i的系统控制的执行器变量的集合，

是机器人i的初始状态，

是机器人i的控制策略的状态集合，

是

的迁移函数，I_i为机器人i对应的机器人节点中预设的传感器命题集，O_i为机器人i对应的机器人节点中预设的执行器命题集，ini_G为全局策略A_G中的初始状态，S_G为全局策略A_G中所有机器人控制策略的状态集合，ρ_G是全局策略A_G中

的迁移函数，其中X_G为全局策略A_G中环境控制器的传感器变量以及网络通讯变量的集合，s为属于全局策略A_G中所有机器人控制策略的状态集合S_G以及迁移函数ρ_G的状态，s_x为属于全局策略A_G中迁移函数ρ_G的迁移边，t为s经过s_x到达的状态。

进一步的，步骤S3)具体包括：针对机器人i的局部框架

指定test函数和导致失败的集合F，通过Ddmin算法找到通信变量集，将通信变量集作为机器人i节点的通信命题集Ci，用局部框架

向命题集合

投影得到机器人i的局部策略A_i，函数表达式为：

上式中，i为机器人序号，

为机器人i的系统控制的执行器变量的集合。

进一步的，导致失败的集合F的函数表达式为：

上式中，i为机器人序号，

为机器人i的系统控制的执行器变量的集合，Σ为多机器人系统中所有机器人的命题的集合。

进一步的，通过Ddmin算法找到通信变量集具体包括以下步骤：

S31)从集合F中选取一个子集F`；

S32)判断是否同时满足test(F`)＝true且局部框架往命题集合

投影得到的控制策略是可用的控制策略，是则将子集F`作为通信变量集，否则返回步骤S31)。

进一步的，步骤S4)中使用SAT求解器求解得到机器人的后继具体步骤包括：

S41)对于当前强连通分量，当前环境输入为e，输入当前强连通分量中每一个机器人当前状态的所有后继集合S′_i，S′_i的函数表达式为：

上式中，i为机器人序号，s_i为机器人i的当前状态，e′_i为机器人i的环境输入，s′_i为下一个时刻状态，ρ_i是机器人i的局部策略A_i中

的迁移函数，其中S_i为机器人i的局部策略A_i中控制策略的状态集合，X_i为机器人i的局部策略A_i中环境控制器的传感器变量以及网络通讯变量的集合；

S42)针对集合S′_i的所有元素，分别使用SAT求解器求解包含该元素的逻辑公式

若得到的解令逻辑公式

为真，将计算结果作为当前强连通分量中所有机器人的后继，逻辑公式

具体为：

上式中，i为机器人序号，e为当前环境输入，L_i为机器人i的局部策略A_i中

的状态标签函数，其中S_i为机器人i的局部策略A_i中控制策略的状态集合，Y_i为机器人i的局部策略A_i中系统控制的执行器变量集合，s′_ij为集合S′_i中的元素。

与现有技术相比，本发明的优点在于：

(1)本发明中合成多机器人控制器规约包括建模为机器人节点集合的多机器人模型以及由GR(1)规约刻画的全局任务，相比于目前刻画多机器人这样的大规模性质规约，本发明中合成多机器人控制器规约更为简洁，解决了多机器人的规约书写问题；

(2)本发明针对多机器人系统中的每个机器人分布生成各自对应的控制器，相比于目前几乎都是面向单个机器人系统的已有规约语言和策略综合，本发明实现了机器人协同配合完成任务的需要；

(3)本发明通过计算生成通信策略，而不需要手工指定通信变量集合，自动地帮助设计者确定机器人之间交流的信息；

(4)本发明基于通信策略对机器人分组计算所有机器人的后继，减小了求解的规模，提高了计算效率。

附图说明

图1为本发明实施例的执行步骤流程图。

图2为本发明实施例的具体流程示意图。

图3为本发明实施例中根据通信策略的强联通分量对机器人分组的示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本发明的从全局任务自动合成多机器人分布式控制器的方法包括以下步骤：

迁移边上的命题得到每一个机器人的局部策略A_i；

本实施例中为了自动化地合成多机器人分布式控制器，首先给定一份合成多机器人分布式控制器(Synthesizing Multi-robot Controllers,后文中简称为SynMRC控制器)规约，SynMRC控制器规约包括一份多机器人系统的全局任务(Global tasks)以及多机器人模型(MRS model)，一份SynMRC控制器规约如下：

其中，

为全局任务，Δ为多机器人模型。

全局任务在步骤S1)中由GR(1)规约刻画，一份GR(1)规约包括了环境的初始

环境的迁移

和环境的目标

以及系统的初始

系统的迁移

和系统的目标

根据GR(1)博弈结构综合得到全局任务

的函数表达式为：

上式中，

为全局任务，

为环境，

为系统，

为环境的初始，

为环境的迁移。

本实施例中，多机器人模型Δ建模为机器人节点Ni的集合，即Δ＝{N_i}，其中一个机器人i对应的机器人节点Ni建模为由三个变量集合组成的结构，即N_i＝<I_i,O_i,C_i>，其中：

I_i为传感器命题集(sensors)，传感器命题是由机器人通过其传感器感知到的外部环境变量，也就是传感器命题是由环境控制的命题，比如外部的温度当高于某一个阈值的时候，传感器的值置为真；

O_i为执行器命题集(actuators)，执行器命题是由机器人自身存在的执行器所控制的命题，比如机器人能够打开摄像头，关闭摄像头等；

C_i为通信命题集(communications)，机器人之间为了能够合作完成任务，通信是难以避免的，机器人的通信命题就是机器人需要其他机器人告诉它的命题，本实施例中不需要设计者手工地指定通信变量集合，而是通过后续计算得到通信命题集。

本实施例的步骤S2)中通过GR(1)综合算法合成关于全局任务的全局策略具体包括：通过名为JTLV的现有工具并对全局任务

求解GR(1)的博弈综合得到关于全局任务的全局策略A_G。

本实施例中，所有的控制策略都是以迁移系统来呈现，形式定义如下：

A＝<X,Y,S,ini,ρ,L> (2)

上式中，X是环境控制器的传感器变量以及网络通讯变量集合，Y是系统控制的执行器变量集合，S是控制策略的状态集合，ini是初始状态，ρ是S×2^X→S的迁移函数，L是S→2^Y的状态标签函数。

根据式(2)得到全局策略A_G的函数表达式如下：

A_G＝<X_G,Y_G,S_G,ini_G,ρ_G,L_G> (3)

上式中，X_G是所有机器人环境控制器的传感器变量以及网络通讯变量集合，Y_G是所有机器人系统控制的执行器变量集合，S_G是所有机器人控制策略的状态集合，ini_G是初始状态，ρ_G是

的迁移函数，L_G是

的状态标签函数。

全局策略A_G融合了所有机器人的命题，是一份控制所有机器人的集中式控制器，为了获得分布式的控制器，本实施例中，对于每一个机器人i对应的机器人节点Ni，通过将全局策略A_G向每一个机器人节点的命题集合<I_i,O_i>做投影的方式为每一个机器人生成对应的局部框架

函数表达式为：

上式中，A_G为全局策略，I_i为机器人i的传感器命题集，O_i为机器人i的执行器命题集。

根据式(2)得到局部框架

的函数表达式如下：

上式中，i为机器人序号，

是机器人i环境控制器的传感器变量以及网络通讯变量集合，

是机器人i系统控制的执行器变量集合，

是机器人i控制策略的状态集合，

是初始状态，

是

的迁移函数，

是

的状态标签函数。

本实施例中，局部框架

中各元素与命题集合<I_i,O_i>以及全局策略A_G中各元素的函数关系如下：

上式中，i为机器人序号，

为机器人i的系统控制的执行器变量的集合，

是机器人i的初始状态，

是机器人i的控制策略的状态集合，

是

式(6)中，

表示在状态s中移除不属于执行器命题集O_i的标签所形成的新的状态，

表示迁移边上输入的命题集合中移除不属于传感器命题集I_i的变量所构成的新的迁移边输入，

表示在s经过s_x到达的状态中移除不属于执行器命题集O_i的标签所形成的新的状态。

经过式(4)至式(6)所得到的机器人i的局部框架

由于为全局策略A_G投影得到的结果，仅包含关于机器人i的命题，导致迁移边上的信息不足以区分不融洽的后继，使得局部框架

不可用，即根据当前的环境输入不能确定当前某些系统执行器命题的指派，从而使得机器人i获得当前的环境输入不能确定怎么执行下一步。例如全局策略A_G有两条迁移边

其中e₂不属于I_i，所以向命题集合<I_i,O_i>做投影后得到局部框架

的两条迁移边(s_i,{e₁},s_j1)∧(s_i,{e₁},s_j2)。所以s_i输入e₁后可以有后继s_j1和s_j2，若

则局部框架

不可用，因此需要对于局部框架

进行完善。

如图2所示，得到每一个机器人i的局部框架

后需要对于每一个机器人i的局部框架

完善为可用的控制策略，得到能够根据环境输入来确定下一步应该怎么执行的控制器。即本实施例的步骤S3)的具体内容，为了达到该目的，局部框架

需要更多额外的通信变量来补充迁移边上的命题。补充了足够的信息就可以使得机器人i的控制器能够根据外部环境输入和来自其他机器人的通信变量辅助来确定下一步应该怎么执行，步骤S3)具体包括：针对机器人i的局部框架

指定test函数和导致失败的集合F，通过Ddmin算法找到通信变量集，Ddmin算法是经典的寻找程序极小BUG核心的算法，该算法是一个分治算法，能够帮助设计者自动找到极小的通信变量集，将通信变量集作为机器人i对应的机器人节点的通信命题集Ci，用局部框架

向命题集合

投影得到机器人i的局部策略A_i，函数表达式为：

上式中，i为机器人序号，

为机器人i的系统控制的执行器变量的集合。

式(7)的含义为局部框架

不可用，是因为只根据输入命题集合

不足以判定接下来的行为，而补充额外的信息C_i即可使得局部框架

可用。

根据式(2)得到局部策略A_i的函数表达式如下：

A_i＝<X_i,Y_i,S_i,ini_i,ρ_i,L_i> (8)

上式中，i为机器人序号，X_i是机器人i环境控制器的传感器变量以及网络通讯变量集合，Y_i是机器人i系统控制的执行器变量集合，S_i是机器人i控制策略的状态集合，ini_i是初始状态，ρ_i是

的迁移函数，L_i是

的状态标签函数。

根据式(6)可得到本实施例中局部策略A_i中各元素与命题集合

以及局部框架

中各元素的函数关系如下：

上式中，i为机器人序号，X_i为机器人i的环境控制器的传感器变量以及网络通讯变量的集合，Y_i为机器人i的系统控制的执行器变量的集合，ini_i是机器人i的初始状态，S_i是机器人i的控制策略的状态集合，ρ_i是

的迁移函数，C_i为机器人i对应的机器人节点的通信命题集，

为局部框架

中环境控制器的传感器变量以及网络通讯变量的集合，

为局部框架

中系统控制的执行器变量集合，

为局部框架

中的初始状态，

为局部框架

中机器人i控制策略的状态集合，

是局部框架

中

的迁移函数，s′为属于局部框架

中机器人i控制策略的状态集合

以及迁移函数

的状态，s′_x为属于局部框架

中迁移函数

的迁移边，t′为s′经过s′_x到达的状态。

式(9)中，

表示在状态s′中移除不属于局部框架

中系统控制的执行器变量集合

的标签所形成的新的状态，

表示迁移边上输入的命题集合中移除不属于机器人i对应的机器人节点的通信命题集C_i以及局部框架

中环境控制器的传感器变量以及网络通讯变量的集合

的变量所构成的新的迁移边输入，

表示在状态s′经过s′_x到达的状态中移除不属于局部框架

中系统控制的执行器变量集合

的标签所形成的新的状态。

本实施例中导致失败的集合F的函数表达式为：

上式中，i为机器人序号，

本实施例中通过Ddmin算法找到通信变量集具体包括以下步骤：

S31)从集合F中选取一个子集F`；

S32)判断是否同时满足test(F`)＝true且局部框架往命题集合

根据通信命题集C_i中的通信变量，机器人i可以询问通信变量的拥有者关于该变量的信息来辅助其确定下一步的执行，所以通信命题集C_i确定了一个多机器人之间的通信策略，即如图2所示，由每一个机器人i的局部框架

完善的结果还可以得到通信策略，本实施例中通信策略M以迁移系统来呈现，形式定义如下：

M＝<Σ,Δ,T> (10)

上式中，Σ为多机器人系统中所有机器人的命题的集合，Δ为多机器人模型，T为Δ×Σ→Δ的迁移关系，通信策略M的迁移边(i,σ,j)表示机器人i需要询问机器人j关于σ的信息。

局部策略A_i包含的命题包括关于机器人i和与机器人i交流的其他机器人的命题，至此得到分布式的控制每一个机器人的可用控制器，如图2所示，为了让机器人能够配合起来完成全局任务，也为了避免机器人之间相互通讯询问信息导致死锁，需要对环境输入进行同步迁移。

本实施例的步骤S4)即为对环境输入进行同步迁移的步骤，首先将机器人分组以减小后期计算量，本实施例中根据通信策略M的强连通分量(Strongly connectedcomponent，后文中简称为SCC)将多机器人系统中的机器人分成多个小组，如图3所示，针对多机器人系统中的机器人A到机器人I，根据步骤S1)至步骤S3)的过程得到每个机器人的通信命题集并确定通信策略，根据通信策略的SCC将机器人A和机器人B分成一组、将机器人C至机器人F分成一组、将机器人G至机器人I分成一组。

在同一个SCC中的机器人需要使用SAT求解器求解后继，对不在同一个SCC内的机器人i和机器人j，若二者有通信联系，由于它们不属于同一个SCC，通信只会是单向的，通信策略M的迁移边(i,σ,j)表示机器人i需要询问机器人j关于σ的信息，由于它们不属于同一个SCC，机器人j直接向机器人i发送σ的值即可。

对于同一个SCC中的机器人需要使用SAT求解器求解后继，本实施例中按照从底部向上的顺序从底部SCC开始依次对每个SCC使用sat求解器求解得到机器人的后继，使用sat求解器求解得到机器人的后继具体步骤包括：

若得到的解令逻辑公式

具体为：

通过步骤S4)每一个机器人都能根据当前环境输入获得确定的后继，从而让机器人能够配合起来完成全局任务，也避免了机器人之间相互通讯询问信息导致死锁。

我们对多机器人系统按照步骤S1)至步骤S4)进行试验，试验数据如下表所示，第一列是多机器人系统所包含的所有命题；第二列是使用GR(1)算法综合全局策略A_G的时间花费；第三列是从全局策略A_G生成局部策略A_i的时间花费；第四列是全局策略A_G的状态空间；第五列是每一个机器人局部策略A_i的状态空间；第六列是全局策略A_G的输入命题数；第七列是每一个机器人局部策略A_i的输入命题数。

表1

随着命题数目的增加，综合时间不断上升。总体上讲使用GR(1)算法综合全局策略A_G的时间是最主要的时间开销，综合局部策略A_i的时间开销相比较短。从状态空间上来讲，局部策略A_i的状态空间相比于全局策略A_G的状态空间小得多。相比于全局策略A_G的命题输入数目，局部策略A_i的输入命题数目也会更小。较小的命题输入数目意味着更少的通信量，从而提高了多机器人系统的工作效率。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。