CN113033756A

CN113033756A - 基于目标导向的聚集策略的多智能体控制方法

Info

Publication number: CN113033756A
Application number: CN202110321044.4A
Authority: CN
Inventors: 李涛; 李佳; 姚军; 敬博涛; 古平
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-25
Anticipated expiration: 2041-03-25
Also published as: CN113033756B

Abstract

本发明公开了一种基于目标导向的聚集策略的多智能体控制方法，根据各简单智能体的位置和控制智能体的位置判断控制智能体的行为状态，包括以下步骤：根据目的地和简单智能群体的全局中心确定驱赶区域，所述驱赶区域以目的地为顶点，以目的地与全局中心的连线为中心线；当存在一简单智能体位于驱赶区域以外时，触发控制智能体收集行为；简单智能体到全局中心的距离和到目的地的距离之和具有最大值的将被控制智能体选为目标点去收集；当所有简单智能体均位于驱赶区域以内时，触发控制智能体驱赶行为，控制智能体移动，并控制着简单智能群体向目标点推进，当简单智能群体到达目标区域时，完成控制任务。

Description

基于目标导向的聚集策略的多智能体控制方法

技术领域

本发明涉及群体智能启发式算法领域，具体涉及一种基于目标导向的聚集策略的多智能体控制方法。

背景技术

受自然界的启发，群智能系统可以描述为系统中相对基本的个体之间的相互作用。由于在自然界中发现的群智能解决方法十分有效，因此仿生算法是近些年的研究热点，包括蚁群算法，鸟群算法和控制智能体算法等。群智能系统中的多智能体控制是一个复杂的问题，可以分为高层次的路径规划和低层次的单智能体动力学。多智能体控制是一种通过控制智能体(强智能体)控制一群简单智能群体(弱智能体)的控制方法。

多智能体控制的一个典型应用场景就是牧羊犬赶羊，这样的场景在现实生活中很常见。通常作为简单智能群体的种群的数量成百上千，而控制智能体的数量很少。控制智能体主要有两个行为：收集种群、驱赶种群到目标点。以驱赶为例，即使用一只或者多只控制智能体，将一群在空间中随机分布的简单智能体，驱赶到一个指定的目标点。控制智能体驱赶问题背后的原理，其实就是一种控制智能体对简单智能群体的控制。多智能体控制技术有很多应用场景，比如：使用机器人进行放牧、人群控制、对于泄露石油清理、保护飞机免受鸟类的袭击、救灾和救援行动、管理群居野生动物、保护微生物、军事上无人车辆在战场的控制。

现有的传统模型中，典型的有SPPL模型，该模型在执行收集行为时，简单选择种群最外面的简单智能体作为收集目标点，而没有考虑控制智能体的位置和简单智能群体的全局中心的位置。因此在某些情况下将会导致控制智能体来回移动，影响最后的驱赶效率。因此该模型如果用于实际的机器人控制等应用场景，可能由于算法效率低下的原因，导致达不到现实中的实时性要求。

发明内容

本发明的目的在于克服现有技术中所存在SPPL模型等现有技术效率低，不能满足多智能体控制的实时性要求的不足，提供一种基于目标导向的聚集策略的多智能体控制方法。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于目标导向的聚集策略的多智能体控制方法，根据各简单智能体的位置和控制智能体的位置判断控制智能体的行为状态，包括以下步骤：

根据目的地和简单智能群体的全局中心确定驱赶区域，所述驱赶区域以目的地为顶点，以目的地与全局中心的连线为中心线；

当存在一简单智能体位于驱赶区域以外时，触发控制智能体收集行为；简单智能体到到全局中心的距离记作第一距离，简单智能体到目的地的距离记作第二距离，第一距离和第二距离的和记作距离和；控制智能体选择距离和最大的简单智能体作为目标点去收集；

当所有简单智能体均位于驱赶区域以内时，触发控制智能体驱赶行为，控制智能体移动，并控制着简单智能群体向目标点推进，当简单智能群体到达目标区域时，完成控制任务。

优选地，所述简单智能体的下一个位置根据简单智能体的当前位置和下一步要移动的方向和距离获得，简单智能体的下一个位置的位置向量A_i′的计算方式如下所示：

其中，A_i表示简单智能体a_i的位置向量；H′_i为下一步要移动的方向，表示从当前位置移动到下一个位置的移动方向；δ为简单智能体的移动速度。

优选地，所述下一步要移动的方向根据外部排斥力

内部排斥力

局部中心吸引力C_i、惯性力H_i以及噪声∈_i五个向量进行计算；上述5个向量归一化为单位向量后，线性加权组合得到下一步要移动的方向H_i′，计算方式如下所示：

其中，h为惯性力的权重；c为局部中心吸引力的权重；ρ_a为内部排斥力的权重；ρ_s为外部排斥力的权重；e为噪声的权重。

优选地，所述外部排斥力

计算方式如下所示：

其中，S表示控制智能体的位置向量，A_i表示简单智能体a_i的位置向量；

所述内部排斥力

的计算方式如下所示：

其中，A_j表示简单智能体a_i的邻居a_j的位置向量，k代表简单智能体a_i的邻居个数；

所述局部中心吸引力C_i的计算方式如下所示：

C_i＝LCM_i-A_i

其中，LCM_i为局部中心位置，表示距离简单智能体a_i最近的k个邻居的中心位置。

优选地，所述驱赶区域为扇形。

优选地，扇形驱赶区域的半径为|Γ-D|+f(N)，夹角为预设值2θ；简单智能体与目的地连线记作AL；目的地D与全局中心的连线记作CL；θ表示CL和AL的夹角，记作偏离角；所有简单智能体的偏离角θ的最大值记作最大偏离角θ_max；所有简单智能体与目的地的距离的最大值记作最大距离d_max；则触发条件表示为：d_max≤|Γ-D|+f(N)且θ_max≤θ，触发驱赶行为；反之则触发收集行为。

优选地，最大偏离角θ_max的计算方式如下所示：

其中，A_i表示简单智能体a_i的位置，D为目的地的位置，S为控制智能体的位置，Γ为全局中心GCM的位置，N为简单智能体的数量；

最大距离d_max的计算方式如下所示：

优选地，在收集行为时，为第一距离和第二距离分别设置权重α,β，所述控制智能体的控制方式如下所示：

D_max＝α|A_max-Γ|+β|A_max-D| (9)

公式(8)表示选择最大距离和的简单智能体i_max；其中α、β是自定义权重；公式(9)的D_max表示最大距离和，A_max表示最大距离和的简单智能体i_max的位置；公式(10)表示收集行为时，根据最大距离和的简单智能体的位置A_max选择控制智能体的下一个收集点P_c；其中ξ_c表示权重；公式(11)表示控制智能体以速度δ_s的速度向收集点移动，S′指控制智能体下一个位置。

优选地，驱赶行为时，控制智能体的控制方式如下所示：

公式(12)表示控制智能体将向驱赶点P_d移动，ξ_d表示权重；公式(13)表示以速度δ_s改变它的位置到控制智能体下一个位置S′。

优选地，简单智能群体聚集程度的计算公式如下所示：

其中，r_a为简单智能体之间的交互距离，N为简单智能体的数量。

与现有技术相比，本发明的有益效果：基于目标导向的聚集策略执行收集行为更有效地选择收集点，考虑了目的地、控制智能体和简单智能群体的全局中心的位置，避免了简单选择种群最外面的简单智能体作为收集目标点时控制智能体来回移动；同时提出了更为合适的策略来进行收集和驱赶的转换，传统的SPPL模型是当群体聚集到一定程度就转为驱赶行为，这可能会导致已经靠近目标点的简单智能体被聚集到群中心，降低了效率，本发明是群体在某一扇形区域时触发驱赶行为，避免靠近目标点的智能体被移动。本发明提高了将简单智能群体驱赶到指定的目的地的效率，以满足多智能体控制方法应用于实际的机器人控制时对实时性的要求。

附图说明：

图1为本发明示例性实施例1的基于目标导向的聚集策略的多智能体控制方法的收集和驱赶行为示意图；

图2为为本发明示例性实施例1的多智能体的位置分布图；

图3为本发明示例性实施例2的参数r_a选择效果图；

图4为本发明示例性实施例2的MDAF模型模拟过程；

图5为本发明示例性实施例2的SPPL模型模拟过程；

图6为本发明示例性实施例2的SPPL和MDAF模型运行时间步数对比图；

图7为本发明示例性实施例2的SPPL和MDAF模型分散程度对比图；

图8为本发明示例性实施例2的SPPL模型运行轨迹；

图9为本发明示例性实施例2的MDAF模型运行轨迹。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

本实施例提供一种基于目标导向的聚集策略的多智能体控制方法，根据各简单智能体的位置和控制智能体的位置判断控制智能体的行为状态，包括以下步骤：

当存在一简单智能体位于驱赶区域以外时，触发控制智能体收集行为；控制智能体选择驱赶到全局中心的距离和到目的地的距离之和具有最大值的简单智能体作为目标点去聚集；

如图1所示，本实施例中，基于目标导向的聚集策略来执行收集和驱赶行为，考虑了目的地的位置和简单智能群体的全局中心的位置，避免了简单选择种群最外面的简单智能体作为收集目标点时控制智能体来回移动，例如图1(a)中远离全局中心但靠近目的地的简单智能体B；设置驱赶条件时，考虑了目的地，避免再次对靠近目的地的简单智能体进行控制；基于目标导向的聚集策略来执行收集和驱赶行为，提高了收集和驱赶的效率，以便满足多智能体控制方法应用于实际的机器人控制时对实时性的要求。

本实施例中，控制智能体需要根据目的地和简单智能群体的状态(比如群体的分散程度)，做出下一次的控制行为。在简单智能群体中，每个简单智能体之间、简单智能体与控制智能体之间都是有相互作用。这在自然界是非常常见的，群居动物靠近同伴并远离潜在危险。如图2所示，综合起来看，简单智能体下一个位置主要是由外部排斥力

内部排斥力

局部中心吸引力C_i、惯性力H_i以及噪声∈_i等5个因素加权求和得到。我们使用向量S表示控制智能体的位置，向量A_i表示简单智能体a_i的位置。

1.外部排斥力

简单智能体需要和控制智能体保持一定距离，因此当控制智能体的位置与简单智能体的位置二者之间的距离小于控制智能体的感知距离r_s时，将会触发外部排斥力，使得简单智能体远离控制智能体；外部排斥力使用

表示，计算方式如下所示：

2.内部排斥力

简单智能体群体内部也有排斥力。当在交互距离r_a的范围内，简单智能体的数量≥2时，有一个内部排斥力

将它们分散。A_i表示简单智能体a_i的位置向量，A_j表示简单智能体a_i的邻居a_j的位置向量，k代表简单智能体a_i的邻居个数；内部排斥力

的计算方式如下所示：

3.局部中心吸引力

距离简单智能体a_i最近的k个邻居的中心位置记作局部中心位置，表示为LCM_i。当简单智能体和控制智能体之间的距离大于r_s，这时简单智能体将会有两种行为：不动或者随机移动。当小于这个值的时候简单智能体会远离控制智能体，会从当前位置移动到下一个位置。简单智能体a_i在远离控制智能体的同时，局部中心也会对a_i有一个吸引力，记作局部中心吸引力C_i，计算方式如下所示：

C_i＝LCM_i-A_i (3)。

4.惯性力

受惯性力H_i的影响，简单智能体在上一次的位置，将会影响其在下一次的位置。惯性力H_i用于表征简单智能体从上一次的位置移动到当前位置的移动方向和距离。

5.噪声

噪声代表了简单智能体的随机行为，表示简单智能体可能向任意一个方向随机移动，使用∈_i表示。

简单智能体的下一个位置根据简单智能体的当前位置和下一步要移动的方向和距离获得。具体的，A_i表示简单智能体a_i的位置向量；A′_i表示简单智能体a_i下一个位置的位置向量；H′_i为下一步要移动的方向；δ为简单智能体的移动速度，该值乘以移动方向上的单位距离就是移动方向和距离；下一个位置的位置向量A′_i的计算方式如下所示：

下一步要移动的方向根据外部排斥力、内部排斥力、局部中心吸引力、惯性力以及噪声等五个向量进行计算；上述5个向量归一化为单位向量后，线性加权组合得到下一步要移动的方向H′_i，计算方式如下所示：

其中，h为惯性力的权重；c为局部中心吸引力的权重；ρ_a为内部排斥力的权重；ρ_s为外部排斥力的权重；e为噪声的权重；每个向量的权重通过模型的参数指定。

本实施例中，控制智能体的任务就是将简单智能体全部引导向目的地，因此其主要有两种行为：收集和驱赶。为了便于描述，定义如下符号：

简单智能群体聚集程度：f(N)

简单智能群体的全局中心GCM的位置：

局部中心位置LCM_i：

简单智能体的位置：A_i

控制智能体的位置：S

目的地的位置：D

群子集：Ω

简单智能体的数量：N

本实施例对收集行为和驱赶行为的触发条件、收集目标点的选择以及驱赶方式进行了改进。控制智能体收集以及驱赶行为的触发条件如下所示：

根据目的地和全局中心确定驱赶区域，当存在一简单智能体位于驱赶区域以外时，触发控制智能体收集行为；

当所有简单智能体均位于驱赶区域以内时，触发控制智能体驱赶行为。

所述驱赶区域为扇形，且以目的地为顶点，以目的地与全局中心的连线为中心线。

进一步地，扇形区域的半径为|Γ-D|+f(N)，夹角为预设值2θ(由模型参数指定)。

除了扇形区域以外，本实施例还可以采用三角形等形状作为驱赶区域的形状，为了便于计算表达，本申请以扇形为例进行详细的解释说明。

当简单智能群体聚集到一定程度，满足驱赶行为的触发条件时，控制智能体自动切换到驱赶的状态，所以收集以及驱赶行为的触发条件的设置非常重要。现有的多智能体控制方法仅仅考虑将群体聚集到某一个半径为f(N)的范围内，而不考虑是否有简单智能体没有必要再将其向全局中心驱赶，继续对这部分简单智能体向全局中心驱赶将会降低效率。例如某些个体已经靠近目的地了(如图1(a)的简单智能体B)，继续对其进行驱赶的控制将影响效率。因此本发明提出了一个更合理的触发条件规则来切换收集与驱赶，即判断群体是否到达了以目的地为顶点且以目的地与全局中心的连线为中心线的一个扇形区域内(如图1所示)，而不是判断虚线表示的半径为f(N)的圆形。如果所有个体都在这个扇形区域，则自动切换到驱赶状态。

收集和驱赶行为的触发主要考虑两个部分：一是简单智能体与目的地连线以及目的地与全局中心的连线构成的偏离角的角度、二是简单智能体与目的地的距离。将简单智能体与目的地连线记作AL，目的地D与全局中心的连线记作CL，θ表示CL和AL的夹角，即偏离角；所有简单智能体的偏离角θ的最大值记作最大偏离角θ_max；所有简单智能体与目的地的距离的最大值记作最大距离d_max。

则触发条件可表示为：d_max≤|Γ-D|+f(N)且θ_max≤θ，触发驱赶行为；反之则触发收集行为，即当d_max≤|Γ-D|+f(N)，θ_max>θ或d_max>|Γ-D|+f(N)，θ_max≤θ或d_max>|Γ-D|+f(N)，θ_max>θ时，触发收集行为。

其中，最大偏离角θ_max的计算方式如下所示：

最大距离d_max的计算方式如下所示：

本实施例通过基于目标导向的聚集策略来执行收集和驱赶行为，提高了收集和驱赶的效率，控制智能体执行收集和驱赶行为时的详细控制方式如下所示。

如图1所示，在收集状态时，基于目标导向的方法同时考虑了简单智能体、GCM以及目的地三者，选取群体最外缘的个体作为控制智能体收集的目标点。简单智能体、GCM以及目的地三者将构成一个三角形，将简单智能体到到全局中心的距离记作第一距离，简单智能体到目标位置的距离记作第二距离，第一距离和第二距离的和记作距离和。选取距离和最大值的简单智能体作为收集点。

进一步地，在本实施例的模型中，为第一距离和第二距离分别设置权重α,β，以表示实际应用时，两个距离的重要性，具体的控制方式如下所示：

D_max＝α|A_max-Γ|+β|A_max-D| (9)

公式(8)表示选择最大距离和的简单智能体i_max，α,β分别为第一距离和第二距离的权重；公式(9)的D_max表示最大距离和，A_max表示最大距离和的简单智能体i_max的位置；公式(10)表示收集行为时，根据最大距离和的简单智能体的位置A_max选择控制智能体的下一个收集点P_c；其中ξ_c表示权重，由模型参数指定，典型取值为r_a；公式(11)表示控制智能体以速度δ_s的速度向收集点移动，S′指控制智能体下一个位置。

我们选择具有最大距离和的简单智能体作为目标点去聚集，将这只分散的个体驱赶到群体密度较大的位置，即群体的中心点全局中心。当分散的群体在空间上达到了一定的聚合程度，我们称之为收集完成。

在驱赶状态下，考虑目的地和全局中心的相对位置。通常选择在沿着全局中心和目的地的连线上，在群体的后方选取控制智能体的下一个驱赶点(如图1的位置P_d)，控制智能体向下一个驱赶点移动，控制着种群向目标点推进，最终当简单智能群体到达目标区域时，整个控制任务完成。

公式(12)表示控制智能体将向驱赶点P_d移动，ξ_d表示权重；公式(13)表示以速度δ_s改变它的位置到控制智能体下一个位置S′。其中ξ_d,ξ_c,δ_s的典型取值分别为

r_a，1.5δ，δ为简单智能体的移动速度。

实施例2

控制智能体的目标是控制简单智能群体向目的地移动，直到所有的简单的智能体都在目标区域位置。当简单智能群体太分散的时候，控制智能体就对群进行收集；当简单智能体全部都收集在一起时，控制智能体把种群向着目标点进行驱赶。其中如何聚集和如何驱赶的策略是讨论的重点。将基于目标导向的聚集策略的多智能体控制方法所采用的模型记作MDAF模型。本实施例将分别对比传统的SPPL模型与本发明提出的MDAF模型，以验证本发明的有效性。

所有的算例都在有12GB内存、2.9GHz因特尔CPU、64位windows操作系统上运行。模拟与数据分析采用Python3.7、标准图形化接口工具套件Tkinter。

基于目标导向的聚集策略的多智能体控制方法(MDAF模型)的仿真过程包括以下步骤：

1初始设置

整个模拟区域是一个大小为L×L的区域，整个区域处于完全封闭状态，左上角为坐标的原点。将会在该区域随机生成N个点，用来表示简单智能群体中的N个简单智能体。目标区域是整个区域右下角的l×l的矩形。在所有模拟开始的时候，控制智能体总是从目标区域开始工作。

初始参数如表1所示：

表1基于目标导向实验的初始参数

2探索r_a的最优取值

简单智能体之间的交互距离r_a对于决定其他参数，比如衡量聚集程度的参数d(N)，非常重要。因为在群内部没有排斥力的情况下，想要包含N个简单智能体的最小空间面积是

所以可以得到聚集程度的公式：

由于参数r_a的重要性，使用传统的控制算法SPPL模型来估计最优参数，并把其应用到本发明的模型中来。我们测试了不同交互距离r_a(6～20)在不同群体大小下的效果，以横轴表示r_a大小，纵轴表示总的时间步数，结果如图3所示：

结论：当r_a＜6时，整个控制任务无法完成。随着交互距离r_a由6增加到10，在不同种群大小下，完成任务的时间步数会明显的下降。当r_a>10时，时间步下降的趋势变得不明显，甚至随着r_a的增加呈现相反的变化趋势。因此实验中将选择10作为参数表中r_a的取值。

3结果分析

SPPL和MDAF模型运行50次，每一次开始的分布都不一样。为了评估SPPL和MDAF的性能差异，实验将测试如下三个指标。

任务完成度：在2000个时间步内完成任务。

分散度：模拟完成时，种群的分散状态。

轨迹：控制智能体在模拟完成任务的过程中所经过的距离。

3.1任务完成度比较

上面的轨迹过程中θ＝30°,N＝50，我们从图中可以看出，SPPL模型与MDAF模型在第280步中决策不同，这一不同导致了时间步数的巨大差距，具体的，MDAF模型在554步完成控制任务，而SPPL模型在1395步才完成控制任务。

随着简单智能体数量的增加，SPPL和MDAF模型在时间步数方面有不同的变化趋势，如图6所示。SPPL的时间步数随着简单智能体数量的增大呈现陡峭上升趋势，而MDAF的时间步数始终相对稳定，平均比SPPL模型在时间效率上有140.07％的提升。

3.2分散程度比较

使用分散程度来描述模拟结束时种群的状态，当该值较低时，表示模拟比较成功。分散程度是简单智能体与全局中心距离的平方和的平均值：

SPPL和MDAF模型分散程度对比图如图7所示，可得与SPPL模型相比，MDAF模型在更少的步数即可完成控制任务，且模拟结束时种群的状态相当，即MDAF模型在高效的完成任务的同时，控制效果较好。

3.3模拟轨迹比较

图8和图9分别为SPPL模型和MDAF模型的运动轨迹图，起始点都是从左下角开始的。很显然，SPPL模型在聚集时将会产生更多冗余的行为，直接导致整个控制任务的时间步数和轨迹距离的增加。MDAF模型由于考虑了目标点和全局中心的关系，表现更好。从表2可以看出，MDAF在控制智能体的移动距离、简单智能体全局中心移动距离方面分别有1.86和2.06的提升。

表2 N＝40时的运行结果

4结论

通过以上比较可知，本发明的MDAF模型相比于SPPL模型，在时间和空间效率上都有很大的提升。

以上所述，仅为本发明具体实施方式的详细说明，而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下，做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

Claims

1.一种基于目标导向的聚集策略的多智能体控制方法，其特征在于，根据各简单智能体的位置和控制智能体的位置判断控制智能体的行为状态，包括以下步骤：

2.根据权利要求1所述的基于目标导向的聚集策略的多智能体控制方法，其特征在于，所述简单智能体的下一个位置根据简单智能体的当前位置和下一步要移动的方向和距离获得，简单智能体的下一个位置的位置向量A′_i的计算方式如下所示：

3.根据权利要求2所述的基于目标导向的聚集策略的多智能体控制方法，其特征在于，所述下一步要移动的方向根据外部排斥力

内部排斥力

局部中心吸引力C_i、惯性力H_i以及噪声∈_i五个向量进行计算；上述5个向量归一化为单位向量后，线性加权组合得到下一步要移动的方向H′_i，计算方式如下所示：

4.根据权利要求3所述的基于目标导向的聚集策略的多智能体控制方法，其特征在于，所述外部排斥力

计算方式如下所示：

所述内部排斥力

的计算方式如下所示：

所述局部中心吸引力C_i的计算方式如下所示：

C_i＝LCM_i-A_i

5.根据权利要求1所述的基于目标导向的聚集策略的多智能体控制方法，其特征在于，所述驱赶区域为扇形。

6.根据权利要求5所述的基于目标导向的聚集策略的多智能体控制方法，其特征在于，扇形驱赶区域的半径为|Γ-D|+f(N)，夹角为预设值2θ；简单智能体与目的地连线记作AL；目的地D与全局中心的连线记作CL；θ表示CL和AL的夹角，记作偏离角；所有简单智能体的偏离角θ的最大值记作最大偏离角θ_max；所有简单智能体与目的地的距离的最大值记作最大距离d_max；则触发条件表示为：d_max≤|Γ-D|+f(N)且θ_max≤θ，触发驱赶行为；反之则触发收集行为。

7.根据权利要求6所述的基于目标导向的聚集策略的多智能体控制方法，其特征在于，最大偏离角θ_max的计算方式如下所示：

最大距离d_max的计算方式如下所示：

8.根据权利要求1所述的基于目标导向的聚集策略的多智能体控制方法，其特征在于，在收集行为时，为第一距离和第二距离分别设置权重α,β，所述控制智能体的控制方式如下所示：

D_max＝α|A_max-Γ|+β|A_max-D| (9)

9.根据权利要求1所述的基于目标导向的聚集策略的多智能体控制方法，其特征在于，驱赶行为时，控制智能体的控制方式如下所示：

10.根据权利要求1所述的基于最大角聚集策略的多智能体控制方法，其特征在于，简单智能群体聚集程度的计算公式如下所示：