CN111294242A

CN111294242A - 一种提高多智能体系统合作水平的多跳学习方法

Info

Publication number: CN111294242A
Application number: CN202010094720.4A
Authority: CN
Inventors: 王涛; 韩乐; 关润宇; 熊伟明; 周达; 秦宇; 王卓娅; 金鑫
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-02-16
Filing date: 2020-02-16
Publication date: 2020-06-16

Abstract

一种提高多智能体系统合作水平的多跳学习方法，属于人工智能和计算机网络领域。基于网络演化博弈理论，通过增强智能体学习范围来促进智能体采用合作策略，提高系统的整体收益。首先将智能体关键的，重复的交互活动建模到猎鹿博弈或囚徒博弈，智能体采用合作或者背叛策略，并将智能体系统部署到网格网络；然后智能体之间进行博弈，累计各自的收益；接着智能体根据无条件学习方法或复制子动态方法学习多跳范围(2～5跳)的邻居，调整自己的策略，并重新开始博弈。该方法对建模在猎鹿博弈下的系统合作率最高比经典方法提升数十倍，可以应用于P2P网络，无线传感器网络等群体智能领域。

Description

一种提高多智能体系统合作水平的多跳学习方法

技术领域

本发明涉及一种加强多智能体系统中协同能力的方法，特别涉及一种基于演化博弈的通过多跳学习来增强智能体之间合作水平的方法。

背景技术

多智能体系统是由多个交互智能体组成的计算机化系统。是由在一个环境中交互的多个智能体组成的计算系统。多智能体系统也能被用在解决分离的智能体以及单层系统难以解决的问题。智能可以由一些方法，函数，过程，搜索算法或加强学习来实现。多智能体系统与单智能体差异非常大，其中一个很重要的问题是在一个去中心化的系统中，多智能体之间如何进行有效管理和协同利用，实现群体收益最大化。合作现象普遍存在于现实世界与网络世界，在个人利益与集体利益相权衡下，自私个体为了谋求自身利益最大化，常常使得系统陷入困境。因此如何促进自私个体之间展开合作以及合作的维持仍然是一个挑战。演化博弈论的出现，成为研究群体间合作行为的一个有力工具。演化博弈中常见的困境研究模型有囚徒困境博弈模型，雪堆博弈模型猎鹿博弈模型，公共物品博弈模型等。此类困境博弈的根本特点是整体合作收益大于非合作，而纳什均衡却不是合作策略。

与本方法相似的文献有：2016年，崔光海在博士论文“P2P网络中基于网络演化博弈论的节点合作激励机制及其有效性研究”中，提出了“胜利者乐观，失败者谨慎”的策略提高系统的合作水平；专利“基于动态博弈论的交通服务信息转发方法”(公开号CN107181793B)提出了通过奖惩机制抑制车联网中的自私行文的方法。现有方法和机制没有考虑到智能体学习能力的调整对系统合作水平的影响。

我们主要提出了网络机制下的一种多智能体系统的合作促进方法——多跳学习机制，也称为学习范围增强机制，即增加智能体的学习范围，使其学习范围不拘泥于近邻，并在两种常见的策略更新规则上引入该方法。

发明内容

本发明的目的是基于博弈理论，提出通过扩展智能体的学习范围从而增强智能体之间的协同合作的方法。智能体之间的博弈，是对智能体之间交互作用的一个抽象建模，具体在不同应用场景中代表不同的行为，如群智系统中合作完成某个任务，无线传感网络中的合作消息传递，等等，具体而言，本发明适合于能够建模到困境博弈(如猎鹿博弈和囚徒博弈)的多智能体活动，为促进其合作提供一种理论方法。

为了实现上述目的，本发明采用的技术方案是：

步骤一、判断该多智能体系统是否满足本方法的3个条件：

(1)智能体之间的交互模式能够建模到猎鹿博弈或囚徒博弈模型；此类博弈为困境博弈，猎鹿博弈纳什均衡策略有2个，为(背叛，背叛)和(合作，合作)，囚徒博弈纳什均衡为(背叛，背叛)，但是系统收益水平最高的策略是(合作，合作)，也就是相互作用的两个智能体只有采取合作策略，系统才能达到最优；猎鹿博弈的收益矩阵是

囚徒博弈的收益矩阵是

r为代价收益比，满足该矩阵关系的其他收益矩阵表述也是此两类博弈，适用于本方法；根据收益矩阵可以看出，系统收益近似正比于合作比率，合作比率为主要考察指标；

此类博弈是对智能体之间交互作用的一个抽象建模，具体在不同应用场景中代表不同的行为，如群智系统中合作完成某个任务，无线传感网络中的合作消息传递，等等，适合于所有能够使用猎鹿博弈和囚徒博弈模型描述的群体行为；

(2)智能体之间交互作用多次重复，参与智能体能根据环境调整自己的行为；

(3)智能体之间的相互联系可以建模到某种空间网络结构上，如2维网格；

步骤二、对同时满足以上3个条件的多智能体系统，执行以下操作：(1)将智能体系统关键交互活动建模到猎鹿博弈或囚徒博弈；(2)将多个智能体安置在某种拓扑的网络节点上，随机初始化其策略(合作或背叛)，博弈收益清0；重复执行步骤三,四，直至系统停止运行；

步骤三、每一代开始博弈时，智能体将博弈收益清0，然后开始和直接邻居博弈；所有的两两相连的智能体各自博弈一次，根据收益矩阵参数计算各自收益，并将各自和邻居博弈的收益累积；

步骤四、博弈完了后，智能体根据学习范围，即学习多跳范围内(2～5跳)的邻居，调整策略(合作或背叛)，策略有p＝0.01的概率反转，记录系统合作比率；一代博弈结束，进入下一代，回到步骤三；

智能体的学习范围，也就是学习跳数，表示对于个体学习能力的定义；首先，以4邻居晶格网络为例，假设每一个方格对应一个博弈个体，两个方格相邻即为一对博弈对象，个体仅能与他的邻居博弈；为了方便观察不同的学习范围，定义参数S来表示当前学习的邻居范围大小；如图1(a)所示，当S＝1时，它表示最经典的冯·诺依曼邻居(Von Neumannneighborhood,VNN)；当范围扩展到邻居的邻居时(即S＝2)，因为所有的个体只有4个邻居分别表示4个方向(上、下、左、右)，在范围扩展时也只考虑4个方向的扩大，整个范围大小如图1(b)所示；以此规律，就可以通过调节S来表示不同的学习能力，图1(c)表示了S＝4时的所有邻居范围，同时方格中的数字分别代表了对应的S值时的邻居范围；根据这个规律，可以得到S与对应范围内所有邻居数的关系：2S*(S+1)。1跳的学习是经典的学习范围，只学习直接邻居；我们的方法是指学习多跳范围内(S＝2～5)的邻居的策略，经实验表明，3～5跳为2维网格网络环境的最佳跳数。

智能体调整策略具体按照如下两种规则之一进行：

(1)无条件学习规则：一轮博弈之后，让智能体去学习其邻居中收益最大的邻居所采取的策略，首先必须满足的条件是这个邻居的收益要大于该智能体所得收益。以智能体a和智能体b为例来描述模仿概率公式：

其中，p(s_a→s_b)指的是智能体a模仿智能体b的概率，s_a和s_b分别指智能体a和智能体b各自当前的策略，I_a和I_b是一轮博弈结束后a和b各自的累积收益；

(2)复制子动态规则：复制子动态规则是最接近复制动力学的学习策略。在复制子动态规则中，一轮博弈完成后，智能体a会随机选择一个邻居智能体b，如果a的收益大于其随机选择到的这个邻居b的收益，那么a仍然会坚持自己的策略，而不去学习邻居b的策略。如果b的收益比a的大，那么智能体a将以一定的概率去学习b的策略。

为了保证学习概率p在(0，1)之间，令Φ＝max(k_a,k_b)(max(R,T)-min(P,S))。

其中k_a,k_b分别表示智能体a和智能体b的直接邻居个数。

系统合作比率计算方法如下：

Rc＝Nc/(Nc+Nd)

其中Nc表示选择合作的智能体数量，Nd表示选择背叛的智能体数量。

2、如权利要求1所述多个多智能体系统，其特征是，智能体数量一般在30个以上。

3、如权利要求1所述步骤四中的智能体获得多跳学习能力，其特征是，包括3种情况：

(1)全体参与的智能体都获得多跳学习能力；

(2)猎鹿博弈场景下，随机的部分智能体获得多跳学习能力；

(3)猎鹿博弈场景下，特定的部分智能体获得多跳学习能力：智能体根据自身的收益与直接邻居节点收益的比较结果，高于或低于所有邻居平均收益的智能体获得多跳学习能力；高于平均收益多跳学习的情况能够达到全体智能体多跳的效果。

本发明的有益效果是：

1)对于能够建模到猎鹿博弈的多智能体系统，应用无条件学习规则，在背叛诱惑r处于0.6～1之间时，多跳学习系统合作比率可以维持在99％左右，而原始无多跳系统合作比率由99％下降为1％左右。合作比率为原始情况的1～99倍；

2)对于能够建模到猎鹿博弈的多智能体系统，应用复制子动态规则，在背叛诱惑r处于0.6～0.8之间时，多跳学习系统合作比率维持在85％左右，而原始无多跳系统合作比率下降到10％左右。合作比率为原始情况的1-8倍；

3)对于能够建模到囚徒博弈的多智能体系统，多跳学习系统合作比率为原始情况的1～2倍。

附图说明

图1是不同学习跳数下的邻居范围；

图2是猎鹿博弈场景下具有不同学习能力(跳数)的智能体对复制子动态规则的系统合作比率，横坐标为收益参数r；

图3是猎鹿博弈场景下具有不同学习能力(跳数)的智能体对无条件学习规则的系统合作比率，横坐标为收益参数r；

图4是猎鹿博弈场景下具有随机不同比例的二跳学习能力的智能体系统对复制子动态规则的系统合作比率；横坐标为收益参数r；

图5是猎鹿博弈场景下具有随机不同比例的二跳学习能力的智能体系统对无条件学习规则的系统合作比率；横坐标为收益参数r；

图6是猎鹿博弈场景下收益低于或高于邻居平均收益则具有2/3/4跳学习能力的智能体对复制子动态规则的系统合作比率。横坐标为收益参数r；

图7是猎鹿博弈场景下收益低于或高于邻居平均收益则具有2/3/4跳学习能力的智能体对无条件学习规则的系统合作比率。横坐标为收益参数r；

图8是囚徒博弈场景下具有不同学习能力(跳数)的智能体对复制子动态规则的系统合作比率，横坐标为收益参数r；

图9是囚徒博弈场景下具有不同学习能力(跳数)的智能体对无条件学习规则的系统合作比率，横坐标为收益参数r；

图10是流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下将结合附图和具体实施例对本发明做进一步详细说明。

实施例一

P2P网络也称对等网，网络的参与者共享他们所拥有的资源，能被其它对等节点(Peer)直接访问。在此网络中的参与者既是资源、服务和内容的提供者(Server)，又是资源、服务和内容的获取者(Client)，可以看做是一个多智能体系统。每个独立的参与者考虑到带宽，cpu，存储等资源的消耗，会采取自私的行为，如只获取数据，不共享数据。

假设这样一个场景：P2P网络中传输普通数据和高清实时数据，实时数据对带宽和实时性都有要求。更多的节点参与传输实时数据意味着更好的传输速度和稳定性，少量的节点不参与会导致传输的失败。把多节点参与传输的宏观行为建模到两两相邻节点的行动策略，两相邻节点可以选择一起传输实时数据，也可以选择传输普通数据，成功的实时数据传输可以获得较高收益。然而，如果两个节点不同时传输实时流的话，实时流的传输会受到较大影响，可能引起数据失效或传输失败。

系统按如下步骤执行本方法：

步骤一、判断是否满足本方法的3个条件，可以看出满足3个条件。

步骤二、P2P节点的收益模型建模到猎鹿博弈

双方都传输实时流各得收益1，一方传输实时数据另一方传输普通数据，则实时数据传输方收益为-r(传输失败)，传输普通数据方收益r(获得一些收益，但是不如双方都传输实时数据高)。P2P网络设为无周期性边界的边长为30的4邻居2维网格网络，900个节点。随机初始化各节点策略(合作或背叛)，博弈收益清0。重复执行步骤三,四，直至系统停止运行；

步骤三、每一代开始博弈时，节点将博弈收益清0，然后开始和直接邻居博弈；所有的两两相连的节点各自博弈一次，根据收益矩阵参数计算各自收益，并将各自和所有其他邻居博弈的收益累积；

步骤四、博弈完了后，节点根据学习范围，即学习多跳范围内(2～5跳)的邻居，调整策略(合作或背叛)，策略有p＝0.01的概率反转，可以记录观察系统合作比率。一代博弈结束，进入下一代，回到步骤三；

节点调整策略具体按照如下两种规则之一进行：

(1)无条件学习规则：一轮博弈之后，让节点去学习其邻居中收益最大的邻居所采取的策略，首先必须满足的条件是这个邻居的收益要大于该节点所得收益；以节点a和节点b为例来描述模仿概率公式：

其中，p(s_a→s_b)指的是节点a模仿节点b的概率，s_a和s_b分别指节点a和节点b各自当前的策略，I_a和I_b是一轮博弈结束后a和b各自的累积收益。将收益参数r每隔0.1取一个值，实验结果如附图3所示。

(2)复制子动态规则：复制子动态规则是最接近复制动力学的学习策略。在复制子动态规则中，一轮博弈完成后，节点a会随机选择一个邻居节点b，如果a的收益大于其随机选择到的这个邻居b的收益，那么a仍然会坚持自己的策略，而不去学习邻居b的策略。如果b的收益比a的大，那么节点a将以一定的概率去学习b的策略；其学习概率公式如下：

为了保证学习概率p在(0，1)之间，令Φ＝max(k_a,k_b)(max(R,T)-min(P,S))；

其中k_a,k_b分别表示节点a和节点b的直接邻居个数。将收益参数r每隔0.1取一个值，实验结果如附图2所示。

系统合作比率计算方法如下：

Rc＝Nc/(Nc+Nd)

其中Nc表示选择合作的节点数量，Nd表示选择背叛的节点数量。

步骤四中除了所有节点都具有多跳学习能力的情况外，部分节点多跳学习也能促进合作，具体有以下两种情况：

(1)随机部分节点具有多跳能力，我们测试了网络中30％，60％，90％节点具有2跳学习能力的情况，并将原始无多跳、全部多跳的结果对比放到一起，实验结果见附图4,5。

(2)特定部分节点获得多跳学习能力：节点根据自身的收益与直接邻居节点收益的比较结果，高于(或低于)所有邻居平均收益的节点获得多跳学习能力。实验结果见附图6,7。

实施例二

P2P网络中，自私节点通常会只获得其他节点的资源而不共享自己的资源，系统按如下步骤执行本方法：

步骤二、P2P节点的收益模型建模到囚徒博弈，收益矩阵是

相邻的两个节点，双方共享各自数据各自收益1，单方共享收益为0，不共享方收益为1+r，双方都不共享各收益为0.1。

P2P网络设为无周期性边界的边长为30的4邻居2维网格网络，900个节点。随机初始化各节点策略(合作或背叛)，博弈收益清0。重复执行步骤三,四，直至系统停止运行；

节点调整策略具体按照如下两种规则之一进行：

其中，p(s_a→s_b)指的是节点a模仿节点b的概率，s_a和s_b分别指节点a和节点b各自当前的策略，I_a和I_b是一轮博弈结束后a和b各自的累积收益。将收益参数r每隔0.1取一个值，实验结果如附图9所示。

其中k_a,k_b分别表示节点a和节点b的直接邻居个数。将收益参数r每隔0.1取一个值，实验结果如附图8所示。

系统合作比率计算方法如下：

Rc＝Nc/(Nc+Nd)

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种通过增加学习范围促进演化博弈环境下的多智能体系统合作水平的方法，其特征在于，包括以下步骤：

步骤一、判断该多智能体系统是否满足本方法的3个条件：

(1>r>0)；囚徒博弈的收益矩阵是

(1>r>0)，r为代价收益比，满足该矩阵关系的其他收益矩阵表述也是此两类博弈，适用于本方法；根据收益矩阵可以看出，系统收益正比于合作比率，因此将合作比率为考察指标；

此类博弈是对智能体之间交互作用的一个抽象建模，具体在不同应用场景中代表不同的行为，如群智系统中合作完成某个任务，无线传感网络中的合作消息传递，P2P网络中限制搭便车的行为，适合于所有能够使用猎鹿博弈和囚徒博弈模型描述的群体行为；

智能体的学习范围，也就是学习跳数，表示对于个体学习能力的定义；首先，以4邻居晶格网络为例，假设每一个方格对应一个博弈个体，两个方格相邻即为一对博弈对象，个体仅能与他的邻居博弈；为了方便观察不同的学习范围，定义参数S来表示当前学习的邻居范围大小；如图1(a)所示，当S＝1时，它表示最经典的冯·诺依曼邻居(Von Neumannneighborhood,VNN)；当范围扩展到邻居的邻居时(即S＝2)，因为所有的个体只有4个邻居分别表示4个方向(上、下、左、右)，在范围扩展时也只考虑4个方向的扩大，整个范围大小如图1(b)所示；以此规律，就可以通过调节S来表示不同的学习能力，图1(c)表示了S＝4时的所有邻居范围，同时方格中的数字分别代表了对应的S值时的邻居范围；根据这个规律，可以得到S与对应范围内所有邻居数的关系：2S*(S+1)；1跳的学习是经典的学习范围，只学习直接邻居；我们的方法是指学习多跳范围内(S＝2～5)的邻居的策略，经实验表明，3～5跳为2维网格网络环境的最佳跳数。

智能体调整策略具体按照如下两种规则之一进行：

其中k_a,k_b分别表示智能体a和智能体b的直接邻居个数。

系统合作比率计算方法如下：

Rc＝Nc/(Nc+Nd)

2.如权利要求1所述多个多智能体系统，其特征是，智能体数量一般在30个以上。

3.如权利要求1所述步骤四中的智能体获得多跳学习能力，其特征是，包括3种情况：

(1)全体参与的智能体都获得多跳学习能力；

(2)猎鹿博弈场景下，随机的部分智能体获得多跳学习能力；

(3)猎鹿博弈场景下，特定的部分智能体获得多跳学习能力：智能体根据自身的收益与直接邻居节点收益的比较结果，高于或低于所有邻居平均收益的节点获得多跳学习能力；高于平均收益多跳学习的情况能够达到全体智能体多跳的效果。