CN104942807B

CN104942807B - 基于扩展式合作博弈的多机器人围捕目标方法

Info

Publication number: CN104942807B
Application number: CN201510178542.2A
Authority: CN
Inventors: 李敏; 曹金阁; 李洋; 窦连航
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2015-04-16
Filing date: 2015-04-16
Publication date: 2017-02-22
Anticipated expiration: 2035-04-16
Also published as: CN104942807A

Abstract

本发明提供一种基于扩展式合作博弈的多机器人围捕目标方法，包括如下步骤：步骤一：对多机器人围捕的扩展式合作博弈模型进行数学建模；步骤二：制定机器人的运行策略；步骤三：围捕任务执行过程的制定；本发明使得围捕机器人在执行任务过程中可以有更加灵活的位置，它们可以快速的追赶目标，追赶过程中可以躲避障碍物和同伴，最后围堵在目标机器人周围，使得目标机器人无法从包围圈中逃脱。

Description

基于扩展式合作博弈的多机器人围捕目标方法

技术领域

本发明涉及多机器人协作围捕领域，尤其涉及一种基于扩展式合作博弈的多机器人围捕目标方法。

背景技术

近年来，多机器人协作已经得到了研究者的关注，在社会生活和军事项目中都起到了非常重要的作用。单个机器人现在功能越来越强大，可以完成难度大的任务，但是在单个机器人身上为了完成某种任务而添加功能，这样的成本是巨大的，所以研究者开始探寻其他的方法来弥补单机器人的此项弱点。多机器人系统一般是用成本低并且功能简单的轮式机器人来组成，它不仅可以完成单个机器人所能完成的任务，而且还能显著的提高机器人的工作效率。

多机器人协作围捕是检验多机器人工作效率的有效方法之一。多机器人围捕过程就是利用三个或者三个以上的轮式机器人，首先协作寻找到环境中移动的一个目标机器人，然后通过运动过程中围在目标周围来达到围捕目标的目的，最后目标没有运行的出口后，任务结束。传统的多机器人围捕通常是采用对多机器人队伍进行编队的形式，这种方法必须要求群体形成一个固定的队伍形状。但是这种方法使得机器人的运动不够灵活，每个机器人必须出现在一个固定的位置上来围捕目标，从而增加了完成任务的复杂度。基于编队形式的不足，人们运用博弈论的相关知识，在多机器人协作围捕系统中把围捕者和围捕目标看作博弈的两方，建立博弈模型，分析影响围捕行为中各个机器人博弈策略的要素，然后对群体机器人围捕策略进行优化，以求达到围捕团队整体性能最优。在博弈模型中，基于合作博弈的目标围捕方法采用非编队形式的运动，使多机器人群体具有强制性，同时具有开放性，在群体约束之下个体之间可以进行自由竞争，增加了任务执行的灵活性。

发明内容

鉴于上述提到的问题，本发明的目的在于提出一种基于扩展式合作博弈的多机器人围捕目标方法。

一种基于扩展式合作博弈的多机器人围捕目标方法，其特征在于，具体包括如下步骤：

步骤一：对多机器人围捕的扩展式合作博弈模型进行数学建模：

围捕机器人：多机器人群体协作系统中机器人集合为：；

表示的是系统中的围捕机器人i；目标机器人只有一个为Target；

行动集：轮到行动时，可以选择的所有行动的集合被称为行动集，记为；通过对本发明行动策略的分析和简化得到以下的行动集：

TT 策略表示围捕机器人朝目标机器人方向运动一步；

TL策略表示围捕机器人沿左侧最小避碰方向角运动一步；

TR策略表示围捕机器人沿右侧最小避碰方向角运动一步；

策略集Move中的策略分别指朝目标机器人左侧、右侧方向运动和朝目标机器人方向运动；

是具有较高碰撞危险度的机器人和之间的最小避碰方向角，与为最小避碰距离，代表机器人和之间的距离；公式表示为：

围捕者运动方向与环境x轴的夹角为，此为围捕者的运动方向角；那么可以得到三种运动策略的运动公式如下：

TT：

TL：

TR：

阶段和行动顺序：在扩展式合作博弈中，围捕者是按照一定的规则按照顺序进行运动，每次运动称为一个阶段；本发明要求每个阶段仅有一个围捕者进行运动，因此阶段数是由参与博弈的围捕者的数量决定；

围捕机器人运行角度的计算方法：a、b、c分别为围捕者、目标前一位置和现在位置组成三角形的三个边，围捕者与目标的连线是围捕者此时的运动方向，计算公式为如下：

围捕者与目标之间的距离为，为目标的坐标位置，()为围捕者坐标位置，的计算公式为：

综上所述，约定局中人博弈优先级顺序为如下三式：

式中，和分别为机器人的任务、与目标的相对距离和目标角对博弈优先级的影响函数，表示机器人到达目标的有效区域半径，为每一项的权值系数，且；

收益函数：在扩展式博弈中，博弈机器人的收益函数是所有个体共用的；在围捕机器人各自采取某种行为策略后，就形成一个局势，所以为了衡量局势的优劣，本发明采用局势评估函数作为收益函数，计算出的评估值作为围捕机器人的收益值；为了描述一个局势对围捕机器人完成目标的贡献大小，

步骤二：制定机器人的运行策略：

搜索目标机器人策略：任务初始，如果围捕机器人无法发现目标机器人的位置，此时他们需要进行目标机器人的搜索；目标机器人的扫描范围也是有限的，在没有发现围捕者的情况下，所有的围捕机器人进行漫无目的的行走，围捕机器人之间不进行通信以减少负担，一旦有一个围捕机器人扫描到了目标机器人，不断的用最大的速度来追捕目标机器人，与此同时此围捕机器人会马上发出信号，发送目标机器人的位置信息给其扫描范围之内的围捕机器人，收到信息的围捕机器人也会用最大的速度去追捕目标机器人，并且也会发出目标机器人的位置信息给其他的围捕机器人，最后所有收到目标机器人位置信息的围捕机器人会执行围捕任务；

判定围捕任务成功完成：由收益函数得知，围捕机器人在不发生碰撞的情况下，与目标机器人的距离越近收益越大，同时与其他围捕机器人距离越远其收益越大，但是由于是围捕任务，靠近目标比围捕机器人之间的距离更重要，所以在收益函数中靠近目标的收益权值比围捕机器人之间距离权值大，所以围捕机器人优先靠近目标机器人的情况下，再与其他围捕机器人保持最大的安全距离；当围捕机器人群体对目标形成围捕之后，群体几乎是均匀的分配在目标机器人周围；这样就会产生一个问题：围捕机器人群体较少时，相邻机器人之间的距离较大，容许目标机器人安全通过，造成无法完成围捕任务的情况；

目标机器人逃脱策略：围捕机器人到达危险区域后，离目标机器人越近的围捕机器人对其影响越大，围捕机器人对目标影响力相加得到矢量，即为目标此时的运动方向；所以目标机器人的逃脱方向的计算公式为如下式：

是指运动方向的矢量；是指与Target的距离；

步骤三：围捕任务执行过程的制定：

机器人分为围捕者与目标，围捕机器人有三个以上的机器人，目标只有一个机器人，所有的机器人都是同构机器人，以方便运行过程中的计算；围捕者快速的靠近目标，然后均匀的围住目标，将目标限制在围捕者组成的圈内，限制目标的运动；

整个围捕过程为：在一个平面空间中随机的产生n个围捕机器人，开始搜寻空间中的目标机器人；机器人的位置信息都是公开化的，围捕机器人根据位置信息和其他围捕机器人的运动方向来确定围捕队伍中动态博弈的顺序；根据动态博弈的顺序，围捕机器人开始了与其他机器人个体的博弈，最终确定自身的运动策略;目标机器人根据围捕机器人的位置信息确定危险情况而选择自身的运动策略；如果目标机器人围捕成功，便将目标押送到相应位置，如果围捕不成功，再次从开始制定围捕运动策略。

与现有技术相比，本发明具有如下的有益效果：其一，本发明基于扩展式合作博弈的概念，使得每个机器人面对决策的选择都能够找到对群体利益最大的一项；其二，本发明不是采用多机器人编队的方式来进行围捕，而是采用群体自适应的方式来达到围捕的目的。本发明使得围捕过程更加灵活，每个机器人通过扩展式合作博弈的方法来考虑策略，而不需要考虑整个群体的队形。

附图说明

图1是围捕机器人运行方向示意图。

图2是机器人避障示意图。

图3是三个围捕机器人工作图。

图4是系统运行流程框图。

具体实施方式

本发明具体实施结合附图说明如下。

本发明中提供的方法区别于现有方法的显著特征在于：其一，本发明基于扩展式合作博弈的概念，使得每个机器人面对决策的选择都能够找到对群体利益最大的一项；其二，本发明不是采用多机器人编队的方式来进行围捕，而是采用群体自适应的方式来达到围捕的目的。本发明使得围捕过程更加灵活，每个机器人通过扩展式合作博弈的方法来考虑策略，而不需要考虑整个群体的队形。

本发明基于扩展式合作博弈的多机器人围捕目标方法包括如下步骤：

（1）围捕机器人：

多机器人社会化群体协作系统中机器人集合为：；

表示的是系统中的围捕机器人i；目标机器人只有一个为Target。

（2）行动集：

轮到行动时，可以选择的所有行动的集合被称为行动集，记为。通过对本发明行动策略的分析和简化可以得到以下的行动集，如下式（1）：

（1）

TT 策略表示围捕机器人朝目标机器人方向运动一步；

TL策略表示围捕机器人沿左侧最小避碰方向角运动一步；

TR策略表示围捕机器人沿右侧最小避碰方向角运动一步；

策略集Move中的策略分别指朝目标机器人左侧、右侧方向运动和朝目标机器人方向运动；

是具有较高碰撞危险度的机器人和之间的最小避碰方向角，与为最小避碰距离，代表机器人和之间的距离。公式表示为如下式（2）：

（2）

如图1所示，围捕者运动方向与环境x轴的夹角为，此为围捕者的运动方向角。那么可以得到三种运动策略的运动公式为如下式（3）、（4）、（5）：

TT： （3）

TL： （4）

TR： （5）

（3）阶段和行动顺序：

在扩展式博弈中，围捕者是按照一定的规则按照顺序进行运动，每次运动称为一个阶段。本发明要求每个阶段仅有一个围捕者进行运动，因此阶段数是由参与博弈的围捕者的数量决定。

在此本发明主要考虑两个影响制定规则的因素：

a)任务的重要程度；

b)围捕机器人与目标点的接近程度，L_t越小且越小的围捕机器人于目标的接近程度越高；

定义1：围捕机器人运行角度的计算方法：如图2所示，a、b、c分别为围捕者、目标前一位置和现在位置组成三角形的三个边，围捕者与目标的连线是围捕者此时的运动方向，计算公式为如下式（6）：

（6）

围捕者与目标之间的距离为，为目标的坐标位置，()为围捕者坐标位置，的计算公式为如下式（7）：

（7）

综上所述，约定局中人博弈优先级顺序为如下式（8）、（9）、（10）：

（8）

（9）

（10）

（4）收益函数：

在扩展式合作博弈中，博弈机器人的收益函数是所有个体共用的。在围捕机器人各自采取某种行为策略后，就形成一个局势，所以为了衡量局势的优劣，本发明采用局势评估函数作为收益函数，计算出的评估值作为围捕机器人的收益值；为了描述一个局势对围捕机器人完成目标的贡献大小，本发明主要考虑以下两个因素：

(a)距离影响因素

距离影响因素是指某一局势在距离上对围捕机器人完成任务的贡献大小，我们考虑围捕机器人与目标机器人的相对距离以及围捕机器人与其他围捕机器人的相对距离两个方面的影响，、代表围捕机器人与目标机器人的安全距离和围捕机器人之间的安全距离，则收益函数分别被定义为：

从公式中得出越小，此局势对完成任务的贡献越大；越大，此局势对完成任务的贡献越大。要考虑所有围捕机器人对一个围捕机器人的收益，所以将与其他n-1个机器人的收益取平均数：

(b)角度影响因素

角度影响因素是指某一局势在运动方向上对围捕机器人完成任务的贡献大小，本发明考虑围捕机器人运动方向与目标的朝向角以及围捕机器人之间的碰撞角度的影响，收益函数被定义为：

综合考虑各影响因素得到围捕机器人的总的收益函数为：

其中，是机器人的候选行动j，分别是权值系数，且满足公式：

可以得出由本发明收益函数得到的收益值的范围在[0，1]之间，并且收益值越接近于1，局势对围捕机器人完成任务的贡献越大。

步骤二：制定机器人的运行策略：

搜索目标机器人策略：

任务初始，如果围捕机器人无法发现目标机器人的位置，此时他们需要进行目标机器人的搜索；目标机器人的扫描范围也是有限的，在没有发现围捕者的情况下，所有的围捕机器人进行漫无目的的行走，围捕机器人之间不进行通信以减少负担，一旦有一个围捕机器人扫描到了目标机器人，不断的用最大的速度来追捕目标机器人，与此同时此围捕机器人会马上发出信号，发送目标机器人的位置信息给其扫描范围之内的围捕机器人，收到信息的围捕机器人也会用最大的速度去追捕目标机器人，并且也会发出目标机器人的位置信息给其他的围捕机器人，最后所有收到目标机器人位置信息的围捕机器人会执行围捕任务；

判定围捕任务成功完成：

由收益函数得知，围捕机器人在不发生碰撞的情况下，与目标机器人的距离越近收益越大，同时与其他围捕机器人距离越远其收益越大，但是由于是围捕任务，靠近目标比围捕机器人之间的距离更重要，所以在收益函数中靠近目标的收益权值比围捕机器人之间距离权值大，所以围捕机器人优先靠近目标机器人的情况下，再与其他围捕机器人保持最大的安全距离。当围捕机器人群体对目标形成围捕之后，群体几乎是均匀的分配在目标机器人周围；这样就会产生一个问题：围捕机器人群体较少时，相邻机器人之间的距离较大，容许目标机器人安全通过，造成无法完成围捕任务的情况；

如图3所示，三个机器人去围捕目标机器人，目标机器人的最大安全距离是=0.5m（单位米），如果假定此时三个围捕机器人围住目标机器人之后，围捕机器人之间不存在安全距离问题，那么此时围捕机器人之间的距离大约为：，则，三个机器人便可以围捕成功。但是如果要考虑围捕机器人之间的安全距离如果达到了0.75m，则，此时目标机器人便可以从两个围捕机器人之间穿过，但是这种安全距离是不可能完成围捕任务的。所以在的情况下，机器人数量n满足，便可以完成围捕任务；

综上所述，围捕机器人对目标机器人进行围捕时，如果任意两个相邻围捕机器人之间的距离小于，此时目标机器人无法从两个围捕机器人中间穿过去，则系统就判定围捕任务成功完成；

目标机器人逃脱策略：

围捕机器人到达危险区域后，离目标机器人越近的围捕机器人对其影响越大，围捕机器人对目标影响力相加得到矢量，即为目标此时的运动方向。所以目标机器人的逃脱方向的计算公式为：

是指运动方向的矢量。是指与Target的距离；

步骤三：围捕任务执行过程的制定：

机器人分为围捕者与目标，围捕机器人有三个以上的机器人，目标只有一个机器人，所有的机器人都是同构机器人，以方便运行过程中的计算。围捕者快速的靠近目标，然后均匀的围住目标，将目标限制在围捕者组成的圈内，限制目标的运动；

整个围捕过程为：在一个平面空间中随机的产生n个围捕机器人，开始搜寻空间中的目标机器人;机器人的位置信息都是公开化的，围捕机器人根据位置信息和其他围捕机器人的运动方向来确定围捕队伍中动态博弈的顺序；根据动态博弈的顺序，围捕机器人开始了与其他机器人个体的博弈，最终确定自身的运动策略；目标机器人根据围捕机器人的位置信息确定危险情况而选择自身的运动策略;如果目标机器人围捕成功，便将目标押送到相应位置，如果围捕不成功，再次从开始制定围捕运动策略；系统运动框图如图4所示。

本发明公开了一种基于扩展式合作博弈论的多机器人围捕方法，分别建立了围捕机器人运行的扩展式合作博弈模型、机器人的运行策略和整个围捕任务的执行过程，不同于以往的编队围捕方法，本发明使得围捕机器人在执行任务过程中可以有更加灵活的位置，它们可以快速的追赶目标，追赶过程中可以躲避障碍物和同伴，最后围堵在目标机器人周围，使得目标机器人无法从包围圈中逃脱。同时也为目标机器人设定了有效的逃脱策略，增大了多机器人群体围捕的难度，使得围捕算法更具有说服性。

Claims

1.一种基于扩展式合作博弈的多机器人围捕目标方法，其特征在于，具体包括如下步骤：

围捕机器人：多机器人群体协作系统中机器人集合为：；

TT 策略表示围捕机器人朝目标机器人方向运动一步；

TL策略表示围捕机器人沿左侧最小避碰方向角运动一步；

TR策略表示围捕机器人沿右侧最小避碰方向角运动一步；

TT：

TL：

TR：

综上所述，约定局中人博弈优先级顺序为如下三式：

步骤二：制定机器人的运行策略：

是指运动方向的矢量；是指与Target的距离；

步骤三：围捕任务执行过程的制定：