CN110501905A

CN110501905A - 基于flocking模型的多agent系统自适应方法及其系统

Info

Publication number: CN110501905A
Application number: CN201910797085.3A
Authority: CN
Inventors: 包卫东; 朱晓敏; 马力; 张耀鸿; 周云; 周文; 王吉; 吴梦; 张亮
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-11-26
Anticipated expiration: 2039-08-27
Also published as: CN110501905B

Abstract

本发明提供了一种基于flocking模型的多agent系统自适应方法及其系统，包括：建立多agent系统；建立基于多agent系统的评价函数；以遗传算法为基础，依据评价函数对多agent系统的参数进行更新。本发明建立了一种评估机制，优化了机器人群的性能；基于评估机制，利用遗传算法设计了一种优化的机器人群flocking模型以用于参数更新。

Description

基于flocking模型的多agent系统自适应方法及其系统

技术领域

本发明涉及agent动力学领域，具体公开了一种基于flocking模型的多agent系统自适应方法。

背景技术

随着机器人群在各个领域的广泛部署，机器人群的稳定性和可扩展性成为机器人群服务提供者和用户的主要关注点。特别地，自适应和自主机器人群模型在工业和学术界中受到极大关注，以完成复杂任务和适应动态环境。机器人群构成了一个有吸引力且可扩展的解决方案，可以完成复杂的任务，例如搜索和救援，映射，目标跟踪和全覆盖攻击，这可以让人类远离枯燥，恶劣和危险的环境。机器人群解决方案的一个主要优点是复杂系统中个体之间的简单局部交互，可以生成在系统级别观察到的一些新属性和现象，例如一组集体行为。就像生物群体一样，如鱼群，鸟群，蚁群和细胞群，由此产生的集体模式对agent来说是健壮且灵活的加入和退出，特别是当障碍，危险和新任务等事故出现时。虽然机器人群具有许多优点，但是当存在延迟，不确定性和运动约束时，大规模自主机器人群由于现实条件而导致机器人高失效概率。这种现象在像Gremlins和LOCUST这样的军事项目中更为明显，因为它们建立在小型，低成本和半自动无人机上，其失效概率预计会高得多。另一方面，越来越多的企业和研究机构在机器人群上设计了模型和实际系统。值得注意的是，许多系统，例如空中，地面和海洋中的群体，都是基于雷诺的经典三个原则：短距离排斥，中距离速度对准和远距离吸引。将这种系统的行为推向某种理想的模式是非常重要的。首先，机器人是自主的和不完美的，即，每个机器人具有机载计算机，用于执行控制其自身动作所需的计算，用于测量相对位置和速度的传感器系统，以及通信设备，用于与邻近agent进行数据交换。这些特征反映了中描述的感知和自主反应。其次，这些系统应该没有中央控制，也就是说，尽管agent可以相互观察并且可以交换信息，但是它们不发送和接收直接控制命令，因为组内没有领导者，也没有外部监督者，例如基站或人类监督者。因此，开发用于稳定和可扩展的机器人群的自主和自适应flocking模型成为共同的挑战。

为了在受限环境中实现自主机器人群模型，已经进行了大量的研究，其中大量具有复杂非线性相互作用的参数起着重要作用。然而，很少有关于建模的研究在合理的时间内研究各种条件下的参数调整过程，这是影响群体性能的关键。基于规则的方法是实现分布式多机器人系统协同区域移动任务的有效方法。在基于规则的模型研究中，模拟实验是验证模型正确性的一种流行方法，其中包括许多自行设计的参数，参考现有研究或其专家的知识。广泛的研究已经考虑了现实生活环境的不确定因素，如静态障碍物，移动障碍物，噪声等。然而，与传统的多机器人系统不同，自主机器人群具有明显的特征：现实差距：在理想条件下进行模拟表现稳定的flocking模型，在延迟、不确定和运动学约束的真实条件下，会迅速振荡并且不稳定；可扩展性：在特定速度或集群大小情形下开发的flocking模型可能无法扩展_；也就是说，对于更高的速度或更大的群组，运动模式可能变得不稳定；高维度：在现实生活中工作良好的flocking模型通常会出现大量具有复杂非线性且相互作用的参数，需要在合理的时间内针对各种条件进行调整。上述特征给机器人群的研究带来了更多的困难。很少有研究深入研究上述问题。因此，现有的flocking模型很难从机器人群中充分受益。

发明内容

本发明目的在提供一种基于flocking模型的多agent系统自适应方法，以解决现有技术中存在的技术缺陷。

为实现上述目的，本发明提供了基于flocking模型的多agent系统自适应方法，包括以下步骤：

建立多agent系统；

建立基于多agent系统的评价函数；

以遗传算法为基础，依据评价函数调对多agent系统的参数进行更新。

优选地，建立多agent系统后，依据雷诺模型制定多agent系统的每一agent之间的准则。

优选地，准则为：

其中，和分别是跟随、吸引、排斥、避障和任务准则对速度的影响，zor_rep是排斥判定区域里其他智能体集合，zor_obs是避障判定区域里障碍的集合，Δv_i是速度受到的总影响。

优选地，多agent系统的权重参数为：

优选地，评价函数基于平均时间、死亡率、聚集性、稳定性以及各向异质性建立的。

优选地，评价函数为：

其中，F(x)是归一化函数，τ，分别代表完成区域移动任务的平均时间、多agent聚集性、稳定性和各向异质性。

优选地，以遗传算法为基础，依据评价函数调对多agent系统的参数进行更新的步骤包括：

编码，基于自然数字编码：对权重参数矩阵P^DNA中20个需要进行权重值调整的项使用自然数编码，自然数值为0.1，0.2...，1；

种群初始化，采用完全初始化的初始方法：随机产生0.1至1的值并将其分配给20个项；

交叉操作：随机选择两组权重参数矩阵p^DNA，并在两组权重参数矩阵p^DNA中随机选择等长的项进行权重值交换操作；

突变操作，使用随机突变策略：选择随机权重参数矩阵P^DNA中任一项的权重值并随机将项的权重值赋予另一个项，该权重值的范围为0.1，0.2...，1，变异系数为0.5；

选择操作：在所有父母，后代和一代的突变体中进行选择，选择具有最佳评价结果的个体以形成下一代的父亲。

依托于上述方法，本发明还提供了一种基于flocking模型的多agent系统自适应系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一所述方法的步骤。

本发明具有以下有益效果：

1、本发明建立了一种评估机制，优化了机器人群的性能；基于评估机制，利用遗传算法设计了一种优化的机器人群flocking模型以用于参数更新。参数更新速度快，大大提升了机器人群的整体性能优化。

2、本发明融合机器人群的特征，提出了一种新颖的防碰撞机制准则，保证了机器人群不同agent之间的防碰撞并且加快了自适应的过程。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明优提供的改进flocking框架图；

图2为本发明优选实施例提供的机器人智能体速度更新模型示意图；

图3为本发明优选实施例提供的BRIAN与BREAM实验效果对比图；

图4为本发明优选实施例提供的机器人群的均匀性随时间变化曲线图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1

本发明提供了基于flocking模型的多agent系统自适应方法，包括以下步骤：

S1：建立多agent系统。

多agent系统被称为MAS，由分布在网络上的多个问题求解器松散耦合而成的大型复杂系统，这些问题求解器相互作用以解决由单一个体的能力知识所不能处理的复杂问题。本实施例所述的多agent系统为机器人群，每一个agent为一个单独的机器人。

S2：建立集群运动模型。

本实施例提出一种以雷诺(Reynolds)模型为基础的一般化群体运动模型，综合考虑排斥、跟随、吸引、避障、任务等五个群体自组织区域移动的关键要素。图2(a)所示的是雷诺三原则的模型图，涉及机器人之间的排斥、跟随、吸引3种不同的行为规则：

在排斥速度更新公式(1)和(2)中，r_ij是agenti和j之间的距离，p_i和p_j分别是agenti和j的位置，R₀是agenti的排斥距离。

在跟随速度更新公式(3)中，v_i和v_j分别代表agenti和j的速度矢量，N_ali是agent跟随区域(R0＜R＜R1)里的agent数量。

在吸引速度更新公式(4)和(5)中，智能体吸引区域为(R1＜R＜R2)。

如图2(b)所示，是避障策略，将障碍物表面虚拟称为紧密排布的机器人个体，那么障碍对于个体的速度影响为agent i避障范围内的所有虚拟障碍agentk对agenti的影响之和。

在避障速度更新公式(6)中，M是障碍的数量，p_k代表虚拟agentk的位置，R₃是避障判定范围。

除雷诺三原则和避障策略以外，本实施例还考虑任务约束规则，区域移动的速度更新公式(7)，其中p_tar是目标区域的位置，r_itar代表agenti和目标区域的距离。

综合考虑以上各项速度更新要素的影响，以及不同任务阶段和环境场景对策略的影响，获得一般化速度更新公式(8)(9)(10)。

如果考虑所有约束的可能组合(每个约束可以有两个布尔值0和1的选择，它们分别表示类约束的存在和类约束的缺失)，那么总共可以得到2⁵条规则。每条规则都应根据专家经验设计，本实施例归纳出四条主要规则，代表2⁵条规则的主要特征，保证机器人集群行为的效果。如公式(11)所示：

因为引入了大量参数来为一般化的速度模型提供必要的自由度，由公式(11)可以获得由权重参数形成的基准矩阵(12)。

考虑到真实环境的局限性，本实施例还设计了不确定环境中的动态因素。考虑真实机器人群的一般特征：

(1)通信延迟。如果机器人群中两个智能体的距离超过一个值，则通信延迟的影响将变得明显，这可能会改变智能体的速度更新决策。因此，通信延迟在实验环境中设定为0.1s。

(2)机载传感器不准确。智能体的机载传感器，例如摄像机，红外传感器和辐射器，可能会犯错误，有时会受到其自身性能的限制，这将影响决策的正确性。这种行为可以描述为一个随机过程。因此，在本实施例中体现为测算agent与障碍之间的距离时会有随机误差，误差大小0-1m范围。

(3)通信范围有限。随着环境的变化，通信能力也会动态变化。因此，在本实施例中体现为agent吸引准则区域(最大通信范围)的大小在60-65m范围内波动，agent之间的位置感知是通过广播通信获得的。

(4)感知能力的局部性。随着环境的变化，传感能力也会动态变化。因此，在本实施例中体现为agent探测到障碍的最大距离在80-85m之间波动，agent的障碍感知是通过传感器获得的。

上述参数在本实施例中设置为固定值，通过给相应元素赋予一定的值来模拟的真实环境的不确定性，从而保证算法在应用于真实机器人群系统时表现出更好的性能。

S3：建立基于多agent系统的评价函数。

评价函数基于平均时间、死亡率、聚集性、稳定性以及各向异质性建立。其中：

平均时间定义为从导航开始直到机器人群到达目标区域所花费的平均时间。计算平均时间如公式(13)

其中和分别代表着agentj的出发时间和抵达目标区域的时间。

死亡率被描述为在从起始区域到目标区域的导航过程中机器人群体死亡的百分比。

其中N_death和N_total分别代表机器人群体的死亡数目和总数。

以每个机器人距离质心的平均距离的大小来描述聚集性，如公式(15)所示：

其中，和分别代表机器人j位置的横纵坐标，和分别代表机器人群体质心位置的横纵坐标。

以γ的变化大小来描述机器人群体的稳定性。

其中，Υ_t代表某个时刻t机器人群体距离质心的平均距离大小。

为描述整个运动过程中群体方向的一致性，设计各向异质性指标

其中，δ^t代表某一时刻t机器人群体平均速度的方向角大小，代表某以时刻tagentj的速度方向角。

综合考虑以上各个函数，设计综合评价函数如下：

F＝F^time·F^aggre·F^stabi.F^Aniso (21)

(1)编码：本实施例中的编码基于自然数字编码。每条染色体有20个DNA位代表20个需要参数调整的参数，每个DNA位使用自然数编码，值为0.1，0.2，0.3，......1。即对权重参数矩阵P^DNA中20个需要进行权重值调整的项使用自然数编码，自然数值为0.1，0.2...，1。

(2)种群初始化：种群初始化方法采用完全初始化。对于染色体中的每个DNA位，随机产生0.1至1的值并将其分配给染色体。随机产生0.1至1的值并将其分配给20个项；

(3)交叉操作：该操作随机选择群体中的两条染色体，并在两条染色体上随机选择等长的DNA片段进行交换操作。即随机选择两组权重参数矩阵P^DNA，并在两组权重参数矩阵P^DNA中随机选择等长的项进行权重值交换操作。

(4)突变操作：在突变操作中使用随机突变策略。该策略首先选择随机染色体中的DNA位点随机改变DNA位点的值到另一个值。该值的范围为0.1，0.2，0.3，......1.变异系数为0.5。即选择随机权重参数矩阵p^DNA中任一项的权重值并随机将项的权重值赋予另一个项，该权重值的范围为0.1，0.2...，1，变异系数为0.5。

(5)选择操作：在所有父母，后代和一代的突变体中进行选择，选择具有最佳评价结果的个体以形成下一代的父亲。

本实施例的G-flocking算法可通过以下代码实现：

要求：

R^exp：一套传统的专家规则；P(0)：随机生成初始种群规则；M：迭代次数的最大值；N_p：种群数量；L_R：规则长度；N_s：用于生产下一代的种子数量；r：突变率；

目的：

一组最佳评价结果的个体；

实施例2

为了揭示本实施例优化的导航机器人群(BRIAN)的性能改进，本实施例将其与基本的基于规则的模型(BREAM)进行比较。BREAM源自经典雷诺的集群模型，该模型已被广泛使用。为了将雷诺的集群模型应用于更复杂的环境，综合避障策略被整合到BREAM中。

为了清楚地观察公式的不同参数对速度更新的影响，本实施例将测试BREAM和BRIAN在3种基本环境因素中的性能。包括隧道障碍物、非凸障碍物和凸障碍物。如图3所示，BREAM基本上可以完成任务，但是它的均匀性和稳定性并不好。而通过BRIAN方法训练BREAM的参数，并且仅在15代演化之后即得到最优解P^Besol，其表现明显优于使用BREAM作为机器人群的输入。

P^DNA代表BREAM的权重参数，而P^Besol代表BRIAN的权重参数。通过对速度公式含义的分析，可以分析出以下规律：

无论是否检测到障碍物，我们都需要确保公式中的避障系数保持较大的值，这也证明了避障策略在完成整个任务中起着重要作用；在任何情况下，重要的是确保同时考虑所有因素；速度公式的参数与适应度函数的权重参数有关。跟随，吸引和目标趋向的权重参数(b，c和e)始终保持较高的值。通过分析，发现这与本实施例建立的适应度函数有关。时间与目标方向系数有关。此外，聚集，各向异质性和均匀性都与跟随和吸引系数有关。将群体死亡率的阈值(0.2)设置为约束条件，主要与避障参数(d)相关，因此排斥参数(a)对整个系统影响不大。因此，a的规定似乎与常识相悖。例如，当排斥区域中存在个体时，排斥系数a较小。下表1为BREAM与BRIAN比较。

表1

图3直接表明BRIAN在均匀性和稳定性方面比BREAM表现更好。图3(a)、图3(c)和图3(e)是BREAM模型的性能；图3(b)、图3(d)和图3(f)是BRIAN模型的性能。图3(a)和图3(b)表示具有20个机器人代理的这两个模型的性能，图3(c)和图3(d)具有60个机器人，图3(e)和图3(f)有100个机器人。显然，随着数量的增加，前者的表现明显越来越差，而后者则越来越好。本实施例在机器人数量和规模的三种情况下记录两个模型的每个评估指标的值。通常，BRIAN模型的所有指标表现都更好(越小越好)。具体而言，BRIAN的聚集率比BREAM低56％，而其他指标(各向异性，平均时间，均匀度，死亡率和适应度函数)的减少分别为88.61％，32.55％，89.69％，100％和99.92％。

图4显示了整个时间步长的均匀性变化。每组实验的总时间步长不尽相同，但从图中可以看出，每组BRIAN的数据在0和1之间稳定，这意味着集群的稳定性和紧密性在整个巡航期间非常好。当BREAM穿过障碍物时，可以看到在时间步长31和时间步长71附近会有大的波动。这种波动表示当群集穿过狭窄和非凸起的障碍物时群集紧密度和稳定性较低的情况，并且队形保持不够良好。同时，可以看出BRIAN在大约84秒内完成了整个任务，而BREAM大约耗时110秒才完成了整个任务。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于flocking模型的多agent系统自适应方法，其特征在于，包括以下步骤：

建立多agent系统；

建立基于所述多agent系统的评价函数；

以遗传算法为基础，依据所述评价函数调对所述多agent系统的参数进行更新。

2.根据权利要求1所述的基于flocking模型的多agent系统自适应方法，其特征在于，建立所述多agent系统后，依据雷诺模型制定所述多agent系统的每一agent之间的行为准则。

3.根据权利要求2所述的基于flocking模型的多agent系统自适应方法，其特征在于，所述准则为：

4.根据权利要求3所述的基于flocking模型的多agent系统自适应方法，其特征在于，所述多agent系统的权重参数矩阵为：

5.根据权利要求1所述的基于flocking模型的多agent系统自适应方法，其特征在于，所述评价函数基于平均时间、死亡率、聚集性、稳定性以及各向异质性建立的。

6.根据权利要求5所述的基于flocking模型的多agent系统自适应方法，其特征在于，所述评价函数为：

7.根据权利要求4所述的基于flocking模型的多agent系统自适应方法，其特征在于，以遗传算法为基础，依据所述评价函数调对所述多agent系统的参数进行更新的步骤包括：

编码，基于自然数字编码：对权重参数矩阵P^DNA中20个需要进行权重值调整的项使用自然数编码，自然数值为0.1，0.2…，1；

突变操作，使用随机突变策略：选择随机权重参数矩阵P^DNA中任一项的权重值并随机将项的权重值赋予另一个项，该权重值的范围为0.1，0.2…，1，变异系数为0.5；

8.基于flocking模型的多agent系统自适应系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一所述方法的步骤。