CN107479380A

CN107479380A - 基于演化博弈理论的多智能体协调控制方法

Info

Publication number: CN107479380A
Application number: CN201710741105.6A
Authority: CN
Inventors: 杜金铭; 王龙; 唐立新
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2017-12-15

Abstract

本发明公开了一种基于演化博弈理论的多智能体协调控制方法。通过构建一个具有自然选择属性的演化系统，考虑智能体之间的博弈冲突，实现多智能体的协调控制。所提出的方法包括以下步骤：S1：建立多智能体理论框架；S2：通过通讯拓扑图建立智能体之间的拓扑关系：设通讯拓扑图；S3：根据被控制的目标确定博弈类型；S4：根据智能体之间的博弈关系计算收益，基于博弈矩阵定义多智能体系统的状态，系统中每一组分量的变化采用复制动力学方程表示，分析复制动力学方程的平衡点，确定系统的演化稳定策略；S5：评估智能体的适应度；S6：在系统演化过程中智能体评估其收益并进行策略更新。

Description

基于演化博弈理论的多智能体协调控制方法

技术领域

本发明涉及多智能体系统的智能控制方法，尤其涉及基于演化博弈理论的多智能体协调控制方法。

背景技术

多智能体的协调控制问题，是被广泛关注的热点课题，它具有广阔的实际应用背景，例如群体目标的移动、追踪、队形控制，灾害的救援，多卫星簇系统等等，多智能体的交互行为是复杂系统中的普遍现象。系统中的众多简单的智能体通过适应、通讯、分工、合作、时空组织和学习，紧密联系在一起，实现整体系统的功能，并完成一定的任务。研究多智能体的协调控制方法，是诸多不同领域、特别是自动控制领域所关注的重要问题。特别是最近十几年来，关于多机器人群体的研究受到了广泛的关注。出于系统鲁棒性、容错能力和成本的考虑，在实际中，人们往往更倾向于用大量简单的智能体群体来代替单个复杂个体等效地完成相同的任务。在这其中，复杂人工系统的设计者，所面临的一大挑战就是，如何协调系统中所有智能体的行为，使得他们可以有机地组织在一起，实现系统的整体目标。

在众多实际的工程项目和人工复杂系统中，所设计的智能体往往应该具有“智能”。他们不仅仅被动地接受预设指令；相反，他们追求自身的利益，并依此调整智能体的行为。这种反映智能体理性的行为方式，是符合自然选择机制的。当然，理性智能体的决策可能导致群体利益在系统总效用最优上的偏离，因为每个智能体的自私行为在提高其自身收益的同时，可能产生与其他智能体的竞争，从而影响到整体系统目标的实现。

在现有的多智能体协调控制方法中，智能体间在各自优化方向上可能存在的竞争和冲突，并未得到充分考虑，控制系统模型中忽视了智能体在追求自身利益时对整体系统的影响。然而，对于一个真正有“智能”的系统，组成该系统的智能体应具有一定的思考能力。智能体需要在与其他智能体的交互中，考虑其自身的能量、损耗、成本、行为代价等因素，进而更理性地做出决策。

发明内容

根据现有多智能体控制技术中未能充分考虑智能体之间的利益冲突，导致系统无法进行更优的自适应演化的技术缺陷，本发明公开了一种基于演化博弈理论的多智能体协调控制方法。基于自然选择的思想，本方法构建一个演化系统用于实现多智能体的协调控制。在系统中，智能体扮演着博弈环境中参与者的角色。由多个智能体构成的系统，在宏观层面上具有一个共同的目标或任务。系统整体的性能，由所有智能体所采取的行动而决定。智能体通过选取不同的可选行为方式，确定他们的状态。智能体在每一时刻，通过与其他对手进行信息交互，根据其自身及对手的状态，获得一定的收益。具有理性特征的智能体，通过评估其收益，以自身利益为目标调整其行为和状态。经过更新过程，系统不断进化。在此过程中，智能体在无监督指导下自主调整其行为，该自适应进化过程使得系统最终达到目标状态。为使系统最终达到预想的状态，需要施加必要的控制，包括以下步骤：

S1：建立多智能体理论框架：设置一个由n个智能体构成的系统，系统中的智能体由集合N＝{1,2,…,n}确定，对每个智能体i∈N进行“状态”“行为”“通讯”“适应度”的多项定义；

S2：通过通讯拓扑图建立智能体之间的拓扑关系：设通讯拓扑图为G＝(N,ε)，其中结点集为N＝{1,2,…,n}，边集为

S3：根据被控制的目标确定博弈类型：所述控制的目标是使得由相互竞争的智能体所构成的整体系统实现预定的性能指标；

S4：根据智能体之间的博弈关系计算收益：基于博弈矩阵定义智能体系统的状态，系统中每一组分量的变化采用复制动力学方程表示，分析复制动力学方程的平衡点，确定系统的演化稳定策略；

S5：评估智能体的适应度：所述适应度通过智能体之间的博弈决定，在演化的每一时间步t∈{0,1,…}，智能体i依照所设计的适应度函数分别获得其适应度值Fitness_i(t)，该值由智能体依据自身及其邻居的信息，经适应度函数F_i计算而得；

S6：在系统演化过程中智能体评估其收益并进行策略更新：智能体的策略进化采用随机学习的方法，智能体比较其适应度与邻居平均适应度的差异，依概率更新其策略，多种不同的更新规则可用于刻画种群的进化。

所述S5中评估智能体的适应度时：

定义智能体Agent_i的邻居集合为C_i＝{j∈N|a_ij>0}，其中a_ij是邻接矩阵A＝[a_ij]∈R^n×n中的元素。当a_ij>0时，智能体Agent_i获取智能体Agent_j(j∈C_i)的信息，否则，a_ij＝0。设智能体Agent_i的邻居个数为k_i，Agent_i在与其邻居Agent_j博弈过程中所获得收益为π_ij，则其适应度表示如下：

智能体依概率更新其状态时：智能体Agent_i在状态空间{A,B}中切换其状态S_i的概率为：

其中，为智能体Agent_i的邻居的平均适应度，ω为选择强度，表征博弈所产生适应度的差异对智能体决策的影响程度，系统演化过程中，采用同步更新规则，即所有智能体同时更新其状态。

所述智能体的更新规则包括模仿和自评估学习。

由于采用了上述技术方案，本发明提供的基于演化博弈理论的多智能体协调控制方法，赋予智能体根据其自身的利益，通过局部交互，在竞争中学习，自主调整其行为的能力。智能体在调整行为的过程中，表现出其理性特点，不再像传统控制方法中那样一味执行固定的预设动力学行为，而是以最大化自身收益为目的调整策略。通过选择合适的博弈类型，设计适宜的收益计算方法、更新进化规则等，可以实现对于多智能体系统整体性能的有效控制。在系统演化过程中，并不需要指定某一特定智能体如何行动，因此不需要确定每一个智能体的具体动力学行为。只需要通过系统的自适应进化来实现整体目标。在演化过程中，智能体之间不仅交互信息，而且通过博弈相互作用。这类似于在自然选择中对于有限资源的相互竞争关系。这种邻近智能体间的连接关系，并非简单的相互参考，而是在交互过程中，为了自身利益的竞争和博弈关系。整个系统控制过程是一个可控、智能、自主决策的自适应调整过程。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多智能体协调控制方法的流程图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

多智能体系统的很多应用涉及高度复杂的任务，需要具有不同类型能力的智能体相互合作完成，这种针对复杂任务的分工合作非常常见，这类似于人类社会的劳动分工。人们时常会面临需要具有不同特长和技能的个体集体工作的局面，如捕鲸、企业中的大型项目、团队体育运动、国际关系和宏观经济等等。在复杂的人造系统，特别是群体机器人系统中，对于分工合作也提出了很高的要求。例如，目标追踪(类似捕猎行为)、机器人足球竞赛、具有多个步骤的机械组件的维修、灾害探测和营救等任务都是不同类型机器人分工合作的实例。

对于一项需要两种类型智能体协同完成的任务，该任务所呈现的特点是对于给一组智能体所分配的任务，需要通过两种不同角色的智能体分工合作才能完成，任一种角色的智能体都无法独立完成该任务。这就要求系统中的智能体自发地形成两个采取不同行动的子种群，相互协作，只有产生专业化的劳动分工，才能完成系统需求。在处理这样的协调控制问题时，一个重要的任务在于，在复杂的拓扑网络上，如何划分种群，才能实现有效地策略分布，使不同策略的智能体更高效地相互联结在一起。例如，用一个多智能体系统完成两步骤的机器组装任务，则有必要使得互补的智能体分布在尽可能近的位置上，这样有助于提高整体效率，使得相邻的智能体可以相互补充尽快完成组装任务。

如图1所示的基于演化博弈理论的多智能体协调控制方法，可以实现控制多智能体系统的演化过程，使之形成专业分工，即不同类型的智能体尽可能均匀地分布在其互补智能体的周围。

实施例：

步骤一：建立多智能体理论框架。

建立一个种群规模为n(N＝{1,2,…,n})的多智能体系统，其中智能体表示为{Agent_i|i∈N}，定义智能体如下Agent_i＝(S_i,B_i,C_i,F_i)。其中，状态(State)，S_i，代表智能体所采取的行动，状态空间由两种不同的行为组成，S_i∈{A,B}，智能体可以根据其利益选择策略A或B。其行为(Behavior)，B_i，依照其收益与邻居平均收益的差异进行决策切换。

步骤二：建立智能体之间的拓扑关系。

本例只考虑智能体的行为选择，不关注智能体间交互关系的变化，于是智能体的连接关系由预设的静态拓扑表示。通讯(Communication)，C_i，表示智能体Agent_i的邻居集合，即C_i＝{j∈N|a_ij>0}，其中a_ij是邻接矩阵A＝[a_ij]∈R^n×n中的元素。当a_ij>0时，智能体Agent_i可以获取智能体Agent_j的信息，否则，a_ij＝0。特别地，对于邻接矩阵中a_ij>0的项均简化地设定为a_ij＝1。

步骤三：根据控制目标，确定博弈类型。

在分工问题中，控制目标是尽可能使得相邻位置的智能体处于不同的“状态”，以便更高效地完成合作任务。因此，在智能体与其邻居博弈时，当他们持相同策略时所获得的收益应低于分别持不同策略。于是，在控制系统进化方向时，博弈类型的选取思路为，在该类型的2×2博弈中，纳什均衡应为每个参与者采取与对手相反的策略，此时整个种群方能获得更高的收益。雪堆博弈(或鹰鸽博弈、懦夫博弈)属于刻画该情景的典型博弈类型。当系统中的智能体之间展开一场雪堆博弈时，他们的演化稳定策略为：采取与对手相反的策略。采用此类博弈，系统可以向预想的方向演化。

步骤四：根据博弈关系计算收益。

根据控制目标，要求智能体在S_i和S_j(j∈C_i)不同时收益更高，于是，在收益矩阵中，设定a<c且b>d。一个最简单的例子为：

步骤五：评估智能体的适应度。

定义智能体Agent_i在与其邻居Agent_j(j∈C_i)(其邻居个数为k_i)博弈过程中所获得收益为π_ij，于是，其适应度表示如下：

步骤六：设计策略更新规则。

智能体的策略进化采用随机学习(Fermi过程)的方法。智能体比较其适应度与邻居平均适应度的差异，依概率更新其策略。假设种群的初始状态是随机分配的，不考虑策略的变异。于是，智能体Agent_i在状态空间{A,B}中切换其状态S_i的概率为：

其中，ω为选择强度，表征博弈所产生适应度的差异对智能体决策的影响程度。系统演化过程中，采用同步更新规则，即所有智能体同时更新其策略。

根据本发明公开的基于演化博弈理论的多智能体协调控制方法，所设计的系统最终可以进化到一个优化的状态，不同策略的智能体分布在系统拓扑图上，每个智能体都与其相邻智能体尽可能持不同的策略，可以有效实现多智能体分布式协调控制的目标。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于演化博弈理论的多智能体协调控制方法，其特征在于：包括以下步骤：

S6：在系统演化过程中智能体评估其收益并进行策略更新：智能体的策略进化采用随机学习的方法，智能体比较其适应度与邻居平均适应度的差异，依概率更新其策略，多种不同的更新规则用于刻画种群的进化。

2.根据权利要求1所述的基于演化博弈理论的多智能体协调控制方法，其特征还在于：所述S5中评估智能体的适应度时：

定义智能体Agent_i的邻居集合为C_i＝{j∈N|a_ij>0}，其中a_ij是邻接矩阵A＝[a_ij]∈R^n×n中的元素，当a_ij>0时，智能体Agent_i获取智能体Agent_j(j∈C_i)的信息，否则，a_ij＝0；智能体Agent_i的邻居个数为k_i，Agent_i在与其邻居Agent_j博弈过程中所获得收益为π_ij，则其适应度表示如下：

<mrow> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>&Element;</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>&pi;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>k</mi> <mi>i</mi> </msub> </mfrac> <mo>.</mo> </mrow>

3.根据权利要求1所述的基于演化博弈理论的多智能体协调控制方法，其特征还在于：

<mrow> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>&omega;</mi> <mrow> <mo>(</mo> <mrow> <mover> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>-</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>.</mo> </mrow>

4.根据权利要求1所述的基于演化博弈理论的多智能体协调控制方法，其特征还在于：所述智能体的更新规则包括模仿和自评估学习。