CN112297010A

CN112297010A - 一种面向多机器人系统的控制器迭代式综合方法

Info

Publication number: CN112297010A
Application number: CN202011180182.7A
Authority: CN
Inventors: 董威; 史浩; 赵旭东; 李睿; 陈立前; 尹良泽; 陈振邦
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-02
Anticipated expiration: 2040-10-29
Also published as: CN112297010B

Abstract

本发明公开了一种面向多机器人系统的控制器迭代式综合方法，包括：根据依赖关系为多机器人系统构建依赖图，遍历依赖图生成所有强连通分量的集合G；按照从底层到上层的顺序在集合G中依次选取强连通分量Gi，将其中依赖于外部的机器人进行信息提取与规约生成得到新的规约后对其中所有机器人进行控制器综合，然后针对其内部被依赖的机器人，对依赖于该机器人的机器人进行信息提取与规约生成得到新的规约，若被依赖的机器人控制器被更新，则对其中所有机器人进行控制器综合，最后将被选取的强连通分量Gi从集合G中移除，重复本步骤直到集合G为空。本发明可以为具有依赖关系的机器人自动生成规约并为多机器人系统生成优化后的控制器。

Description

一种面向多机器人系统的控制器迭代式综合方法

技术领域

本发明涉及机器人领域，尤其涉及一种面向多机器人系统的控制器迭代式综合方法。

背景技术

随着近年来机器人行业的飞速发展，拥有自主决策能力的机器人已广泛运用于智能物流、无人驾驶、救援作业等实用场景。在此类需要机器人依据外部环境进行合理决策的场景中，机器人的控制器起着关键的作用。如何根据机器人需要完成的各类任务设计控制策略，并自动实现控制器程序的综合，是机器人学的核心问题之一。从抽象层面来看，机器人的控制器可以看作是一个接受外部环境信息，并根据环境信息给出满足特定要求的动作指令的设备。结合软件工程领域的形式化方法，可以将单机器人的控制器生成问题，转化为在给定规约下的反应系统综合问题。反应系统的综合可以进一步简化为解决环境(系统输入)与系统(系统输出)之间的双人博弈问题。当控制器生成问题推广到多机器人系统中时，如果一个机器人与其余机器人需要进行交互，可以把其余机器人看作外部环境的一部分，则单机器人控制器的综合算法可以自然地扩展到多机器人系统当中。同时，编写多机器人系统的规约给设计师带来了更大的挑战，尤其在机器人之间的依赖关系较为复杂的情况下。

为了更准确地对机器人的控制需求进行描述，形式化方法中一般采用某种时序逻辑(Temporal Logic)来描述机器人需要满足或不可违背的属性。线性时序逻辑(LinearTemporal Logic，LTL)作为一种广泛应用于描述反应式系统属性的形式规约，经常在形式化领域被用来描述机器人的控制需求。对于给定的形式化规约，给出满足该规约的模型，这种问题被称为形式化综合问题。如果将LTL公式中的原子命题划分为输入命题和输出命题，则如何构造所有行为均符合该LTL公式的反应式模型，即LTL的反应式综合问题。图灵奖获得者Amir Pnueli在1989年便提出过LTL综合问题的解决方法，将LTL公式转化为确定的Rabin自动机，并通过求解双人博弈来进行模型综合。但这个方法的复杂度过高，用于程序生成时可生成的代码十分有限，一直没有得到很好的应用。近些年，Pnueli进一步提出了一种有效算法，如果将博弈结构的获胜条件限定在基于LTL的某种特定结构的公式(GeneralReactive(1)公式，GR(1)公式)时，可以在多项式时间内完成综合过程。GR(1)公式的合成方法被应用于多个领域，如模式规约的综合方法、可执行PLC代码的生成以及机器人控制器的综合等。

在机器人控制器综合领域，美国康奈尔大学的自主系统实验室对可验证机器人的控制策略进行了多年研究。该团队基于GR(1)综合方法，给出了一种基于GR(1)规约的机器人控制器综合方法。该方法将机器人模型进行抽象，把机器人的传感器命题看作输入，动作和位置命题看作输出，通过构造基于GR(1)公式的机器人控制规约，来综合得到可以指导机器人行为的控制器模型。基于该方法，该团队设计并实现了LTL任务规划工具LinearTemporal Logic MissiOn Planner(LTLMoP)，取得了很好的应用效果。

虽然基于GR(1)规约已有较为成熟的机器人控制器综合方法，但该方法在多机器系统的应用上仍存在很多限制。例如，在规约中描述环境时，很难完整描述其他机器人的行为，这可能会使环境的约束过于宽松，以致控制器无法生成。

如何处理不可综合的规约是GR(1)综合领域的一个重要问题，近年来引起了许多研究者的关注。一部分人致力于寻找GR(1)规约的不可综合核心，并据此为用户提供规约修改建议，还有人对不可综合时环境的胜利策略进行分析，并基于此进行规约自动修改，但这些方法均没有考虑规约修改后与实际需求是否相符。目前，还没有相关研究通过从机器人间的依赖关系提取信息，来优化多机器人系统控制器的综合过程。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种面向多机器人系统的控制器迭代式综合方法，为具有依赖关系的机器人自动生成规约并为多机器人系统生成优化后的控制器。

为解决上述技术问题，本发明提出的技术方案为：

一种面向多机器人系统的控制器迭代式综合方法，包括以下步骤：

S1)根据依赖关系为多机器人系统构建依赖图，遍历依赖图生成所有强连通分量的集合G；

S2)按照从底层到上层的顺序在集合G中依次选取强连通分量Gi，将强连通分量Gi中依赖于强连通分量Gi外部的机器人进行信息提取与规约生成得到新的规约后对强连通分量Gi中所有机器人进行控制器综合，然后针对强连通分量Gi中被依赖的机器人，对依赖于该机器人的机器人进行信息提取与规约生成得到新的规约，若被依赖的机器人控制器被更新，则对强连通分量Gi中所有机器人进行控制器综合，最后将被选取的强连通分量Gi从集合G中移除，重复本步骤直到集合G为空。

进一步的，步骤S2)中信息提取与规约生成包括从被依赖的机器人的控制器中为依赖于该机器人的机器人提取环境初始约束的步骤，具体包括：

A1)获取被依赖的机器人ri的控制器Ai；

A2)针对依赖于机器人ri的机器人rj，对于机器人ri中被机器人rj观察到的行为变量Z中的每一个命题z，遍历控制器Ai的初始状态Q0，记录z在各个初始状态的标签中出现的次数；

A3)如果z出现的次数与初始状态的个数相同，则将z合取到机器人rj的环境初始约束中；如果z出现的次数为0，则将﹁z合取到rj的环境初始约束中。

进一步的，步骤S2)中信息提取与规约生成包括从被依赖的机器人的控制器中为依赖于该机器人的机器人提取环境迁移约束的步骤，具体包括：

B1)获取被依赖的机器人ri的控制器Ai；

B2)针对依赖于机器人ri的机器人rj，将机器人ri的控制器Ai的每个迁移t分别按照机器人rj对机器人ri观察到的特征变量Zi的不同划分得到不同的等价类，Zi的表达式如下：

Zi＝(γ(q1)∩Z)∪(X^t∩X’)

上式中，q1为给定变量集合X中的变量，γ为ri的控制器Ai中的标签函数，Z为机器人ri中被机器人rj观察到的行为变量，X^t∈2^Xi，Xi是ri的控制器Ai中的环境变量，X’为机器人ri和机器人rj共同的环境变量；

B3)分别为每个等价类设置一个用于表示迁移的目标点集合ψ_Zi，将等价类中的每个迁移t和目标点析取到ψ_Zi中，目标点的表达式如下：

([[γ(q2)∩Z]]_∧∧﹁[[Z\(γ(q2)∩Z)]]_∨)

上式中，Z为机器人ri中被机器人rj观察到的行为变量，γ为控制器Ai的标签函数，q2为给定变量集合X中的变量；

B4)对于每个等价类，把约束了迁移出发点、迁移条件和迁移目标点的预设公式合取到机器人rj的环境迁移约束中，预设公式的表达式如下：

上式中，X’为机器人ri和机器人rj共同的环境变量，Zi为机器人rj对机器人ri观察到的特征变量，ψ_Zi为表示迁移的目标点集合，Z为机器人ri中被机器人rj观察到的行为变量，蕴含符号前约束了迁移出发点和迁移条件，蕴含符号后约束了迁移目标点。

进一步的，步骤S2)具体包括：

S21)按照从底层到上层的顺序在集合G中选取一个强连通分量Gi，判断强连通分量Gi中是否存在依赖于强连通分量Gi外部机器人的机器人，是则进入步骤S22)，否则跳转步骤S24)；

S22)对强连通分量Gi中依赖于强连通分量Gi外部机器人的机器人进行信息提取与规约生成；

S23)通过基于GR(1)规约的机器人控制器综合方法对强连通分量Gi中所有机器人进行控制器综合；

S24)将强连通分量Gi中所有机器人放入待综合集合todo，针对待综合集合todo中有依赖关系的机器人，取出被依赖的机器人，对依赖于被依赖的机器人的其他机器人进行信息提取与规约生成，若被依赖的机器人的控制器更新，则通过基于GR(1)规约的机器人控制器综合方法对强连通分量Gi中所有机器人进行控制器综合，重复本步骤直到待综合集合todo为空；

S25)将被选取的强连通分量Gi从集合G中移除，返回步骤S21直到集合G为空。

进一步的，步骤S24)具体包括：

S241)从待综合集合todo中取出一个机器人作为当前机器人，对于强连通分量Gi中依赖于当前机器人的机器人进行信息提取与规约生成；

S242)检查当前机器人的控制器是否被更新，是则进入步骤S243)，否则跳转步骤S244)；

S243)通过基于GR(1)规约的机器人控制器综合方法对强连通分量Gi中所有机器人进行控制器综合，若综合成功，把强连通分量Gi中依赖于当前机器人的机器人放入待综合集合todo，若综合失败，进入步骤S244)；

S244)返回步骤S241)直到待综合集合todo为空。

与现有技术相比，本发明的优点在于：

(1)本发明针对多机器人系统中机器人的依赖关系，通过迭代的方式在多机器系统中组织控制器综合的顺序，使得控制器综合成功率达到最大，并且使原本可综合的控制器变得更加精简，从而减少运行时的开销；

(2)本发明针对有依赖关系的机器人提供了信息提取与规约生成的步骤，从被依赖的机器人的控制器中提取信息并为依赖于该机器人的机器人自动生成规约，使得使用传统GR(1)综合根据所生成的规约可以生成控制器，可以提高多机器人系统生成控制器的成功率。

附图说明

图1为本发明实施例的步骤示意图。

图2为本发明实施例的具体流程图。

图3为本发明实施例中多机器人系统的依赖图。

图4为本发明实施例中多机器人系统中各机器人综合得到控制器的示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

在设计人员为机器人控制器编写GR(1)规约时，如果环境约束过松(即规约对环境的描写不够充分)，则意味着系统在博弈时需要面临更多的状况，致使无法计算出系统的获胜策略，导致控制器无法被综合。这种情况在多机器人系统中更容易发生，如果机器人的数量较大，尤其是当机器人的行为可以相互影响时，则很难在编写规约时理清他们之间的依赖关系。例如，如果一个机器人ri的动作yi可以被另一个机器人rj的传感器xj观察到，并且rj的行为与观察到的结果有关，则称rj依赖于ri。理想情况下，作为被依赖的系统，ri的行为应当在rj的环境约束中被描述清楚。然而，相较于外部环境，把机器人的行为描述清楚更为困难。针对上述情况，我们的方法分为两个部分：

(1)在两个有依赖关系的机器人之间，如果被依赖的机器人已经综合得到控制器，则根据两个机器人重合的环境变量以及造成依赖关系的变量，从控制器中为依赖于被依赖的机器人的机器人生成初始约束和迁移约束；

(2)对于整体多机器人系统，基于机器人之间的依赖关系构造依赖图，并在依赖图中计算全部的强连通分量，在强连通分量内部组织迭代式的规约提取与控制器综合，在强连通分量之间按照依赖关系从底层到上层进行提取与综合。最终使整个系统的控制器综合过程达到稳定状态。

如图1所示，本发明面向多机器人系统的控制器迭代式综合方法，包括以下步骤：

本实施例中，为了更有效地发挥有依赖关系的机器人间的信息提取和规约生成，首先根据依赖关系为多机器人系统构建依赖图，在依赖图上有序组织综合过程，在图论中，如果一个有向图中的每两个点之间都是可达的，则这个图是一个强连通图，有向图的极大连通子图被称为强连通分量(Strongly Connected Component，SCC)，得到依赖图后根据经典图论中的相关算法计算出图上所有的强连通分量得到强连通分量的集合G；

对于有依赖关系的机器人ri和机器人rj，机器人rj依赖于机器人ri，如果ri已经综合得到的控制器Ai，该控制器可以用Ai＝(Xi,Yi,Q,Q0,δ,γ)来表示。其中Xi为环境变量，Yi为系统变量，Q为控制器状态，Q0为初始状态，δ：Q×2^Xi→2^Q表示迁移关系，γ：Q→2^Y为标签函数，表示每个状态需要执行的动作。设定Z为ri中被rj观察到的行为变量，X’为两个机器人共同的环境变量，则可以为机器人rj生成新的环境初始约束与迁移约束。

本实施例中信息提取与规约生成包括从被依赖的机器人的控制器中为依赖于该机器人的机器人提取环境初始约束，主要思想为：如果ri中某个被观察行为在Ai中的所有初始状态中为真(或为假)，则它在rj的环境假设中应当也置真(或置假)，基于该思想的从被依赖的机器人的控制器中为依赖于该机器人的机器人提取环境初始约束的步骤具体包括：

A1)获取被依赖的机器人ri的控制器Ai；

A2)针对依赖于机器人ri的机器人rj，对于机器人ri中被机器人rj观察到的行为变量Z中的每一个命题z，遍历控制器Ai的初始状态Q0，记录z在各个初始状态q0(q0∈Q0)的标签中出现的次数；

A3)如果z出现的次数与初始状态的个数相同(即z在每个初始状态上都为真)，则将z合取到机器人rj的环境初始约束中；如果z出现的次数为0(即z在每个初始状态上都为假)，则将﹁z合取到rj的环境初始约束中。

本实施例中信息提取与规约生成还包括从被依赖的机器人的控制器中为依赖于该机器人的机器人提取环境迁移约束，本实施例中定义了以下变量：

给定任意变量集合X，令[[X]]_∧和[[X]]_∨表示公式∧qi和∨qi，其中qi∈X；

令T：Q×2^Xi×Q表示所有的状态迁移，其中Xi是ri的控制器Ai中的环境变量，则一个迁移t＝(q1,X^t,q2)∈T当且仅当q2∈δ(q1,X^t)，其中X^t∈2^Xi，δ为ri的控制器Ai中的迁移关系；

令Zi反映机器人rj对机器人ri观察到的变量，机器人ri为被依赖的机器人，机器人rj为依赖于机器人ri的机器人。

上述变量使得T可以根据特征变量Zi的不同划分为多个等价类{T_Z1,T_Z2,…,T_Zm}，其中Zi∈2^Z∪X’，有t＝(q1,X^t,q2)∈T_Zi当且仅当(γ(q1)∩Z)∪(X^t∩X’)＝Zi，即等价类的划分取决于rj对ri的观察能力。

基于上述变量和符号，本实施例中从被依赖的机器人的控制器中为依赖于该机器人的机器人提取环境迁移约束的步骤具体包括：

B1)获取被依赖的机器人ri的控制器Ai；

B2)针对依赖于机器人ri的机器人rj，将机器人ri的控制器Ai的每个迁移t＝(q1,X^t,q2)∈T分别按照机器人rj对机器人ri观察到的特征变量Zi的不同划分得到不同的等价类，其中Zi的表达式如下：

Zi＝(γ(q1)∩Z)∪(X^t∩X’) (1)

上式中，q1为给定变量集合X中的变量，γ为ri的控制器Ai中的标签函数，Z为机器人ri中被机器人rj观察到的行为变量，X^t∈2^Xi，Xi是ri的控制器Ai中的环境变量，X’为机器人ri和机器人rj共同的环境变量，即将ri和rj的共同环境变量与依赖行为变量作为迁移的划分依据；

B3)分别为每个等价类设置一个用于表示迁移的目标点集合ψ_Zi，将等价类中的每个迁移t＝(q1,X^t,q2)∈T和目标点析取到ψ_Zi中，目标点的表达式如下：

([[γ(q2)∩Z]]_∧∧﹁[[Z\(γ(q2)∩Z)]]_∨)(2)

上式中，X’为机器人ri和机器人rj共同的环境变量，Zi为机器人rj对机器人ri观察到的特征变量，ψ_Zi为表示迁移的目标点集合，Z为机器人ri中被机器人rj观察到的行为变量，上式的蕴含符号前约束了迁移出发点和迁移条件，上式的蕴含符号后约束了迁移目标点，整体对环境迁移进行了约束。

如图2所示，本实施例的步骤S2)具体包括：

本实施例的步骤S24)具体包括：

S244)返回步骤S241)直到待综合集合todo为空。

直观来说，迭代算法会将强连通分量中依赖于强连通分量外部的机器人优先进行信息提取和规约生成，然后为强连通分量中所有的机器人进行一次控制器综合。在强连通分量内部，对依赖于被依赖的机器人的机器人进行信息提取和规约生成，如果被依赖的机器人的控制器更新，则为强连通分量中所有的机器人进行一次控制器综合，迭代地执行上述过程，直到整个强连通分量中所有机器人的控制器综合达到稳定状态。需要指出的是，通过以上算法可以在方法框架内最大化计算强连通分量内部所有机器人的控制器，但如果规约对环境约束过松或系统约束出现矛盾，则仍有可能存在控制器无法综合的情况。

以下以多机器人系统R＝{rA，rB，rC}为例对本实施例面向多机器人系统的控制器迭代式综合方法进一步说明：

多机器人系统中rA、rB和rC的环境变量和系统变量如下表所示。直观来说，rA需要负责紧急状态下的巡逻，rB负责正常状态下的巡逻，而rC则在rB巡逻时进行协助。

表1多机器人系统的环境变量和系统变量

rA、rB和rC三个机器人的形式化规约如下表所示。

表2多机器人系统的形式化规约

在传统GR(1)综合方法中，rB和rC的规约是无法综合得到控制器的，因为它们对环境的描述不够完整，系统在面临某些情况是无法在博弈中获取必胜策略。采用本实施例面向多机器人系统的控制器迭代式综合方法则可以有效解决这个问题。通过本实施例的方法的步骤S1)可以得到rA、rB和rC三个机器人的依赖图如图3所示，可以看出，机器人rA和rB属于同一个强连通分量，机器人rC属于另一个强连通分量。通过本实施例的方法的步骤S2)首先对于在底层的机器人rA、机器人rB所属的强连通分量进行计算，经过迭代综合后，机器人rA和机器人rB会分别通过信息提取与规约生成得到新的规约，然后再通过基于GR(1)规约的机器人控制器综合方法进行控制器综合，机器人rB根据新的规约会从无法综合控制器变成可综合并得到控制器，而机器人rA根据新的规约则可以综合得到优化的控制器，机器人rC根据与机器人rA和机器人rB的依赖关系信息从机器人rA的控制器中提取对应的环境初始约束和环境迁移约束，并从机器人rB的控制器中提取对应的环境初始约束和环境迁移约束，从而根据所提取的环境初始约束和环境迁移约束生成新的规约，然后再通过基于GR(1)规约的机器人控制器综合方法进行控制器综合，机器人rC根据新的规约会从无法综合控制器变成可综合并得到控制器。三个机器人在应用迭代综合方法后得到的控制器如图4所示。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种面向多机器人系统的控制器迭代式综合方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向多机器人系统的控制器迭代式综合方法，其特征在于，步骤S2)中信息提取与规约生成包括从被依赖的机器人的控制器中为依赖于该机器人的机器人提取环境初始约束的步骤，具体包括：

A1)获取被依赖的机器人ri的控制器Ai；

3.根据权利要求1所述的面向多机器人系统的控制器迭代式综合方法，其特征在于，步骤S2)中信息提取与规约生成包括从被依赖的机器人的控制器中为依赖于该机器人的机器人提取环境迁移约束的步骤，具体包括：

B1)获取被依赖的机器人ri的控制器Ai；

Zi＝(γ(q1)∩Z)∪(X^t∩X’)

([[γ(q2)∩Z]]_∧∧﹁[[Z\(γ(q2)∩Z)]]_∨)

4.根据权利要求1所述的面向多机器人系统的控制器迭代式综合方法，其特征在于，步骤S2)具体包括：

5.根据权利要求4所述的面向多机器人系统的控制器迭代式综合方法，其特征在于，步骤S24)具体包括：

S244)返回步骤S241)直到待综合集合todo为空。