CN109670602B

CN109670602B - 带有师生机制的社会强化学习实现群体规范快速涌现方法

Info

Publication number: CN109670602B
Application number: CN201810936993.1A
Authority: CN
Inventors: 侯韩旭; 郝建业; 王一茜
Original assignee: Guangdong Ducaizi Group Co ltd
Current assignee: Guangdong Ducaizi Group Co., Ltd.
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2021-04-30
Anticipated expiration: 2038-08-16
Also published as: CN109670602A

Abstract

本发明涉及一种带有师生机制的社会强化学习实现群体规范快速涌现方法，其针对较大规范空间，设计基于强化学习的方法促进主导规范的涌现。本发明将一次交互过程中的词典演变建模为马尔科夫博弈。在此基础上，提出带有师生机制的多Q和多R策略。大量实验证明了在收敛效率及规范质量上，本发明的方法都优于最先进的方法。针对未来展望，一个值得研究的方向是如何与层次学习结合，以进一步加速规范涌现。同时，还可以评估本方法在动态网络上的性能，以及结合动态网络重连是否可以提高收敛效率。

Description

带有师生机制的社会强化学习实现群体规范快速涌现方法

技术领域

本发明涉及多智能体技术领域，更具体地，涉及一种带有师生机制的社会强化学习实现群体规范快速涌现方法。

背景技术

在多智能体系统中，社会规范是保证智能体互相协作提高整体效益的关键。如何设计高效的机制促进社会规范的涌现是研究多智能体系统中各智能体如何交互的关键。目前主要存在两类生成群体规范的算法，一种是自下而上的，另一种是自上而下的。自下而上的方法主要探讨如何通过智能体间的大量交互收敛到整体系统同步的规范，自上而下的方法注重于在系统运行之初合成整体最优的规范，因此自下而上的方法更加适宜于分布式的多智能体系统。

目前建立社会规范的方法主要包括两类：基于传播的方法和基于强化学习的方法。传统的基于传播的方法结合了两种决策机制，局部最优和模仿。然而，这些方法只能处理相对较小的规范空间，例如两个备选规范的情况。随着规范空间的增长，面临一些需要解决的挑战。首先，复杂的规范空间一般存在大量备选规范。其次，已知的备选规范可能都不是最佳规范。所有备选规范的优先度是不同的，因为一些备选会更高效的促进多智能体整体协调。针对上述问题，目前主要提出了三种方法，都在具有大规范空间的语言协调博弈上进行验证。Salazar等人(SRA)引入进化算法拓展传统的基于传播的方法，以实现规范涌现。Franks等人提出在多智能体系统中插入一些带有高质量规范的影响力大的智能体，以加速智能体收敛到一个高质量的规范。最近，Hasan等人(TA)在SRA基础上，引入网络重连机制以加快规范涌现。然而，这些方法基于当前交互阶段使用简单的迁移策略来更新词典，容易造成词典质量的震荡。这些方法无法在合理时间内针对较大规范空间收敛到一个主导规范。

基于强化学习的方法主要是通过社会强化学习来达到规范涌现。Sen和Airiau通过智能体使用在线经验分布式调整自身行为的例子，刻画了规范的涌现。然而，他们只关注了较小的规范空间。针对较大规范空间，大部分已有的方法的收敛速度很慢或者无法收敛。最近，一些层次学习策略被提出，以加速规范涌现的速度，但是它们处理的规范空间最大只有6个备选规范。目前基于强化学习的方法直接探索规范空间，这就造成当规范空间很大时，规范涌现的失败。

本发明主要研究了怎样将基于强化学习的策略改进以适用于较大规范空间。和目前的三种方法相同，本发明也主要关注了语言规范涌现这一挑战，其中，它的规范空间非常大且与单词数之间呈指数关系。在多智能体系统中，沟通是智能体成功进行交互的关键因素。尤其是当智能体依赖于明确的沟通时，通用词典的产生便非常必要。然而，在开放异构的多智能体系统中，由于没有中心控制的存在，通用词典起初是不存在的。因此，研究如何通过智能体的交互得到一个通用的词典是非常必要的。

规范在保证智能体协作上起重要作用。基于传播的方法已经被证明可以用于在多智能体系统中建立规范。通常基于传播的机制在传播策略上加入选择策略，以实现规范涌现。通用的传播策略是拷贝迁移：每个智能体直接将自身的备选规范复制给邻居。然而，这些方法只适用于两个备选规范等情况。随着空间增大，就无法收敛。

针对上述问题，当存在较多备选规范时，一些方法扩展传统的基于传播的方法以得到高质量的主导规范。在大型开放多智能体系统中，一般存在如下问题。首先，初始时每个智能体的备选规范可能都不是最佳规范。其次，如果通讯不可靠，规范可能不收敛。Salazar等人首先使用进化算法扩展了传统的基于传播的方法以解决上述问题。但是，他们需要很多额外的机制(例如，自我保护机制)来保证规范收敛，而且有时会无法收敛。Franks等人提出在多智能体系统中插入一些带有高质量规范的影响力大的智能体，以加速智能体收敛到一个高质量的规范。和前两种方法不同，Hasan等人通过引入网络重连机制来加快规范涌现。然而，这些方法都采用简单的迁移策略，智能体本身缺乏对自身经验的有效利用，使得整体协作同步较难实现。

另外一种产生规范的机制是强化学习方法。Sen和Airiau提出了社会学习的模型，以探索随机网络下的规范涌现问题。之后一些工作研究了在更复杂和现实的网络结构下的情况。然而，这些工作都基于较小的规范空间，没有解决在规范空间较大时的规范涌现问题。近来，针对较大规范空间(6个备选规范)Yang等人提出了层次启发学习策略。但是，他们直接探索规范空间，这就造成空间显著增大时方法的不适用。

一些其他的旨在协调智能体行为的分布式学习策略也与本发明相关。这些方法普遍基于协调图的框架。在这个框架下，针对单状态的完全合作的多智能体系统，已经存在一些分布式优化的方法(例如，max-sum)来协调智能体行为。它们使用局部最优的行为值函数来估计最大全局行为收益。Kok等人提出了稀疏合作的Q学习将单状态任务拓展到了系列决策的任务上。如果将单状态下的规范涌现问题看做分布优化问题，这些技术同样可以被应用。然而，上述方法需要对智能体间的协调和通讯行为进行细致的设计。同时也意味着所有的智能体必须是合作的，以及具有社会导向的。相反，在规范涌现问题中，智能体是自私的，也可能对不同备选规范的优先选择顺序也不同，因此，这些方法还是很难应用于大型开放多智能体系统的规范涌现问题。

发明内容

为了解决以上现有技术的不足，本发明提供了一种带有师生机制的社会强化学习实现群体规范快速涌现方法。

为实现以上发明目的，采用的技术方案是：

带有师生机制的社会强化学习实现群体规范快速涌现方法，包括以下内容：

S1.在多智能体系统的每轮交互过程中，每个智能体均进行lamda次交互；

S2.在每轮交互中，对于每个智能体，其在当前状态下随机选择一个邻居进行交互；

S3.在当前状态下，智能体选择策略时先排除在本次交互阶段中已经在其他状态下选择过的动作；然后在剩余的动作中使用ε-greedy策略选择动作；其次，基于师生机制若其询问额度大于0，则计算向周围邻居发送请求的概率，在该概率下询问邻居动作建议；若邻居咨询额度大于0，则计算反馈建议的概率，在该概率下给出动作建议；

S4.若智能体收到建议，则排除在其他状态下选择过的动作，若此时动作集中不为空，则以各反馈建议的智能体的度为权重，计算各个动作建议的加权频率，采用最大频率对应的动作建议作为当前动作；若此时动作集中为空或智能体没有收到任何建议，则采用ε-greedy策略选择动作；

S5.对比交互双方智能体的动作，若相同，则收益为正值，反之为负，根据当前收益使用多Q和多R策略更新当前智能体的Q值；

S6.根据状态转移分布产生下一个状态，循环这一过程；每个智能体循环交互lamda次；

S7.当所有智能体都结束交互后，多智能体系统进行下一轮交互。

优选地，所述智能体的交互过程建模为马尔科夫博弈；定义为<S,{A_i}_i∈N,{R_i}_i∈N,T>，具体如下：

S代表状态集合，此处表示所有概念的集合；

N代表网络中的智能体数目；

{A_i}_i∈N代表动作集的集合，A_i表示智能体i的动作集；每个动作集都包含所有的单词；

{R_i}_i∈N代表奖励函数的集合，R_i:S×A_i×A_j→R表示智能体i的奖励函数，其中i和j代表交互的智能体；如果双方采用相同的动作，则奖励为正值，反之为负值；R_i满足高斯分布；

T代表状态转移函数：S×A_i×A_j→Prob(S)；对于每个状态及联合动作的下一个状态的概率分布表示为P(s′|s,(a_i,a_j))；状态转移表示了概念的使用频率。

优选地，所述使用多Q和多R策略更新当前智能体的Q值的具体过程如下：

多Q策略的具体流程如下：

首先，智能体i选择下一状态s’下的最优动作a^*，即最大化其Q值：

a^*＝argmax_aQ_i(s′，a)

其次，每个智能体使用观察机制观察到邻居在状态动作对(s′,a^*)下的Q值，并计算各个Q值的加权值代替之前的最大估计值：

其中，N(i)表示智能体i的邻居集合，权重f(i，j)表示了智能体j在智能体i的所有邻居中对其的相对影响力；

f(i,j)＝degree(j)/totalDegree

智能体i以如下方式更新其状态动作对(s,a)下的Q值：

Q_i(s,a)←Q_i(s,a)+α(r+γV(s′)-Q_i(s,a))

其中，α是学习率，r是当前的即时收益，γ是衰减因子；V(s′)是智能体i及其邻居在状态动作对(s′,a^*)下的Q值的加权平均；

多R策略的具体流程如下：

当智能体i收到收益r(s,a)时，计算自身收益的平均：

R_i(s,a)＝R_i(s,a)+1/n_i(s,a)(r(s,a)-R_i(s,a))

其中，n_i(s,a)表示智能体i经历(s,a)的次数；

其次，智能体i使用观察机制收集所有邻居在相同状态动作对的平均收益；将智能体i收集得到的信息形式化的表示为：

得到一个加权平均值：

其中，N(i)是智能体i的邻居集合，f(i,j)是智能体j影响智能体i的权重；

最后，更新Q值如下：

其中，α是学习率，

是加权平均值。

优选地，所述每个智能体都保存一个元组

代表智能体i询问邻居建议的概率；

代表当智能体i被询问时给出建议的概率；反映了智能体对自身策略的自信程度；

是智能体i询问建议次数的最大额度；

是智能体i给出建议次数的最大额度；反映了智能体给建议的内在意愿；

Gⁱ是智能体i可以交互的所有智能体的集合；

智能体根据以下概率分布向邻居请求建议：

其中，

表示当智能体i寻求建议时，与j沟通的概率，N_i指的是邻居尺度，

指的是智能体i和j的最短距离；将邻居尺度设为默认值1；

在智能体i寻求建议时，首先，观察询问建议的额度

若该值大于0，则智能体i以

的概率寻求建议；对于所有可以被询问的智能体j，i以

询问建议；若收到相关建议，则智能体i的建议额度

减1；然后，使用每个提供建议的智能体的度作为权重，计算收到的建议集合中每个动作出现的加权频率，选择频率最大的动作作为最终接受的建议；最后，若没有收到建议，则采用ε-greedy策略选择动作。

与现有技术相比，本发明的有益效果是：

本发明提供的方法针对较大规范空间，设计基于强化学习的方法促进主导规范的涌现。本发明将一次交互过程中的词典演变建模为马尔科夫博弈。在此基础上，提出带有师生机制的多Q和多R策略。大量实验证明了在收敛效率及规范质量上，本发明的方法都优于最先进的方法。针对未来展望，一个值得研究的方向是如何与层次学习结合，以进一步加速规范涌现。同时，还可以评估本方法在动态网络上的性能，以及结合动态网络重连是否可以提高收敛效率。

附图说明

图1(a)表示收敛为主导规范的智能体所占百分比(ACC)的动态变化图。

图1(b)表示四种方法的平均交流效益(ACE)的演变图。

图2表示在随机网络和无标度网络中智能体所占百分比(ACC)的动态变化图。

图3表示在随机网络和无标度网络中四种方法的平均交流效益(ACE)的演变图。

图4(a)表示相应四种方法的收敛为主导规范的智能体占比(ACC)的演变情况。

图4(b)表示四种方法的平均交流效益(ACE)的演变图。

图5表示在随机网络和无标度网络中智能体所占百分比(ACC)的动态变化图。

图6表示在随机网络和无标度网络中四种方法的平均交流效益(ACE)的演变图。

图7表示不同方法的可扩展性示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

Luc Steel提出的language game，指的是最开始每个智能体随机生成一词典，词典表示了概念与词语之间的映射关系，智能体通过与邻居之间的交互重组自身的词典。在智能体之间的交互过程中，每对智能体每次针对一个概念进行沟通。如果在该概念下双方使用相同的单词，则发送方得到正反馈，反之得到负反馈。本发明将智能体间的单轮交互建模为一个两个玩家n个动作的协调博弈。行为空间是每个概念可以选择的所有行为的集合。表1展示了一个简单的例子。在概念“belt”下，每个智能体都可以选择“ribbon”或者“stripe”进行交流，选择(ribbon，ribbon)或者(stripe，stripe)都是纳什均衡。

Table1：A coordination game under concept“belt”

除此之外，智能体之间的交流可能会被打断，例如环境扰动，不可靠传输信道等等。因此，奖励值的设定满足一定分布条件。而且，不可避免的会产生同义词或一词多义等现象，一般使用词典的特异性来衡量词典的质量。假定W_c表示目前概念c下选择的单词的集合，如果|W_c|＞0，则该概念的特异性为：

S_c＝1/|W_c|

如果概念c没有与之对应的单词，则S_c为0.词典的特异性为：

因此，一个高质量的词典指的是概念词语一一对应的映射关系。假设多智能体系统中，所有的智能体都是理性的，所以智能体均会根据效益较高的词典更新自身的词典。规范空间包含所有的词典，与单词呈指数关系。假设概念和单词数目相同，规范空间为|W|^|C|。可以看出当概念和单词增长时，规范空间会发生显著变化。

本发明考虑具有N个智能体的静态网络拓扑结构。智能体在每轮交互中随机选择一个邻居进行交互。多智能体系统的交互模型表示为一个无向图，G＝(V，E)。其中，G表示网络结构，V表示节点集合，E表示边的集合，即哪些节点是相邻的。如果(v_i，v_j)∈E，则v_i，v_j是邻居。N(i)是智能体i的邻居集合，即N(i)＝{v_j|(v_i，v_j)∈E}。本发明主要考虑了三种网络结构：随机网络，小世界网络和无标度网络。

本发明的目标是在大型开放多智能体系统中生成高质量的规范。本发明将语言协调问题建模为规范涌现问题。与TA相似，每个交互过程都包含了一系列交互步骤。感兴趣的部分是智能体群体如何通过连续的交互最后收敛为一个统一的词典规范。规范空间为|W|^|C|，这一空间太大以至于无法直接探索所有的备选规范。因此将词典解耦成为概念词语的映射，从而将词典建模为马尔科夫决策过程，这一做法将原始单状态的规范涌现问题转变为多智能体多状态的协调博弈问题。将交互过程中的词典规范的动态演变视为两个玩家的马尔科夫博弈，定义为<S,{A_i}_i∈N,{R_i}_i∈N,T>，具体如下：

S代表状态集合，此处表示所有概念的集合。

N代表网络中的智能体数目。

{A_i}_i∈N代表动作集的集合，A_i表示智能体i的动作集。每个动作集都包含所有的单词。

{R_i}_i∈N代表奖励函数的集合，R_i:S×A_i×A_j→R表示智能体i的奖励函数，其中i和j代表交互的智能体。如果双方采用相同的动作，则奖励为正值，反之为负值。R_i满足高斯分布。

T代表状态转移函数：S×A_i×A_j→Prob(S)。对于每个状态及联合动作的下一个状态的概率分布表示为P(s′|s,(a_i,a_j))。状态转移表示了概念的使用频率。

这里的马尔科夫博弈与一般的马尔科夫博弈定义有些微不同，其中，进行博弈的两个智能体不是固定的，因为智能体每次随机选择邻居进行交互。任何合理的概念使用频率都可以应用。

算法1描述了智能体系统整体的交互框架。在多智能体系统的每一轮交互中，每个智能体均交互lamda次。对于每一个智能体，在每次交互中，首先，在当前状态下，智能体随机选择一个邻居进行交互(行4)。其次，智能体根据相应动作选择策略得到当前状态下采取的动作，进行交流(行5)。然后，对比交互双方智能体的动作，若相同，则收益为正值，反之为负，根据收益使用基于强化学习的方法更新当前状态动作对的值函数(行6)。最后，根据状态转移分布产生下一个状态，进行循环(行7)。

由于本发明将一对智能体的交互过程建模为马尔科夫博弈，很自然就可以使用基于强化学习的方法里设计学习策略以促进规范涌现。基于强化学习的方法主要有两个好处。首先，可以更精确的计算词典的质量。每个智能体都最大化交互过程中对应词典的累积质量，可以更好的利用之前的历史经验。相反，基于传播的方法只基于当前交互过程评估词典质量，这就会造成词典质量经常浮动。

其次，另一个好处为允许词典更细粒度地更新。基于强化学习的方法单独递增地更新每个概念词语的映射，每个智能体的词典每轮都向更好的方向更新。相反，基于传播的方法使用迁移的策略更新词典。每个智能体从邻居中选择最优的词典，然后随机选择该词典的一部分替换自身的。这可能导致最优词典中较差的一部分映射代替了自身词典较好的一部分映射，从而影响规范涌现的速率。基于上述分析，本发明提出了提出了多Q学习策略和多R学习策略。

Q学习方法在随机环境中可能会由于值函数的高估导致较差的效果。Double Q学习将样本集分为独立的两部分，使用两个值函数估计代替Q学习中的最大值函数估计，以避免高估。智能体使用一个值函数决定最佳策略选择，使用另一个值函数估计目标函数值。本发明借鉴这一思想，将其运用于分布值函数，从而将分布值函数拓展到社会学习框架中。特别的，利用邻居的值函数，本发明提出一个加权的多值函数估计，提高Q值的估计精确度。

a^*＝argmax_aQ_i(s′,a)

其中，N(i)表示智能体i的邻居集合，权重f(i,j)表示了智能体j在智能体i的所有邻居中对其的相对影响力。需要注意的是本发明假设Q值的传播是同步的，也就是说每个智能体只有在接收到所有邻居的Q值后才会更新V值。如果由于传输错误某些邻居的Q值无法被接收，则使用相对应智能体之前被接收的Q值。一种定义f(i,j)的方式是使用每个智能体的连接度，具体如下：

f(i,j)＝degree(j)/totalDegree

其中，totalDegree表示智能体本身及其邻居的度的总和。由于每个智能体的连接度决定了和其他智能体交互的频率，因此反映了其对其他智能体的影响程度。

最后，智能体i以如下方式更新其状态动作对(s,a)下的Q值：

Q_i(s,a)←Q_i(s,a)+α(r+γV(s′)-Q_i(s,a))

其中，α是学习率，r是当前的即时收益，γ是衰减因子。V(s′)是智能体i及其邻居在状态动作对(s′,a^*)下的Q值的加权平均。

在每次交互过程中，每个智能体i都记录之前状态已选的动作，每次智能体选择动作时，排除掉已被记录的动作RA_i，然后使用ε-greedy策略选择当前状态下的动作：

需要注意的是当存在多个动作都对应最大Q值时，在这些动作中进行随机选择。由于智能体每次交互时只选择先前交互步骤未选择过的动作，这就避免了一个单词可能对应多个概念的情况。因此，这极大地减少了同义词，从而提高主导词典的质量。

上述提出的多Q策略主要关注如何通过邻居的Q值提高对自身Q值估计的准确性。然而，Q值被高估的根源在于及时收益的不准确性。针对这一问题，本发明提出直接通过提高实际的及时收益估计的准确性，来进一步更新Q值。每次交互过程中，智能体首先计算自身的平均收益，然后计算其自身和邻居的收益的加权平均。

首先，当智能体i收到收益r(s,a)时，计算自身收益的平均：

R_i(s,a)＝R_i(s,a)+1/n_i(s,a)(r(s,a)-R_i(s,a))

其中，n_i(s,a)表示智能体i经历(s,a)的次数。

其次，智能体i使用观察机制收集所有邻居在相同状态动作对的平均收益。可以将智能体i收集得到的信息形式化的表示为：

可以得到一个加权平均值：

其中，N(i)是智能体i的邻居集合，f(i,j)是智能体j影响智能体i的权重。

最后，更新Q值如下：

其中，α是学习率，

是加权平均值。

多R使用ε-greedy策略进行动作选择，与多Q相同。

师生机制可以与其他方法结合来加快学习效率。在多Q和多R两种策略的基础上，主要针对其中的策略选择机制，进一步引入师生机制，从而加快智能体间主导规范的涌现。在策略选择过程中，通过向教师寻求建议从而减少交互次数，这是因为一个有经验的智能体(教师)可以指导一个学生智能体的动作探索。每个智能体都保存一个元组

代表智能体i询问邻居建议的概率。

代表当智能体i被询问时给出建议的概率。反映了智能体对自身策略的自信程度。

是智能体i询问建议次数的最大额度。

是智能体i给出建议次数的最大额度。反映了智能体给建议的内在意愿。

Gⁱ是智能体i可以交互的所有智能体的集合。这里等同于直接相连的邻居集合。

和

会随着时间而改变。随着智能体的行为趋于收敛，

随之降低。相反，随着智能体得到更多的经验，

随之增长。

代表了智能体i寻求建议的概率，则问题首先在于智能体i可以向具体的智能体寻求建议。一种直观的方法是根据相对接近度，也就是最短距离，来划定寻求建议的范围。智能体根据以下概率分布向邻居请求建议：

其中，

指的是智能体i和j的最短距离。这里将邻居尺度设为默认值1，这意味着智能体只会询问直接相连的邻居。

算法2描述了寻求建议的智能体的策略选择。其中，本发明使用给出建议智能体的连接度来评估其专业程度。智能体的连接度越高，交互得到的经验就越多，给出建议的专业程度就越高。在智能体i寻求建议时，首先，观察询问建议的额度

若该值大于0，则智能体i以

的概率寻求建议(行1-5)。对于所有可以被询问的智能体j，i以

询问建议(行6-8)。若收到相关建议，则智能体i的建议额度

减1。然后，使用每个提供建议的智能体的度作为权重，计算收到的建议集合中每个动作出现的加权频率，选择频率最大的动作作为最终接受的建议(行10-16)。最后，若没有收到建议，智能体采用与多Q相同的动作选择策略(行17-18)。

算法3描述了给出建议的过程。当智能体i被询问时，首先，查看给出建议额度

是否大于0(行1-2)。若大于0，智能体i计算给出建议的概率

的概率(行3)。在该概率下，按照多Q中的动作选择策略给出建议，若给出建议，则

减1(行4-9)。否则，不提供建议(行9)。

另外的问题就是如何定义

和

从直观上看，智能体i在状态s下的自信越低，询问建议的可能性就越大，提供咨询的可能性与之相反，具体如下：

其中γ和Ψ是状态s出现次数相关的函数，V_i(s)指的是状态s下的最大值函数。γ和Ψ定义如下：

其中，

代表智能体i经历状态s的次数。

总体来讲，在多智能体系统的每轮交互过程中，每个智能体均进行lamda次交互。基于强化学习的多智能体系统中每个智能体都维护一张Q表，对应其对各个状态下使用不同动作可以获得的收益的估计，整体交互流程如下：

在每轮交互中，对于每个智能体，首先，在当前状态下，智能体随机选择一个邻居进行交互。其次，在当前状态下，智能体选择策略时，先排除在本次交互阶段(即lamda次以内)中已经在其他状态下选择过的动作。在剩余的动作中，首先，使用ε-greedy策略选择动作。其次，基于师生机制，若其询问额度大于0，计算向周围邻居发送请求的概率，在该概率下询问邻居动作建议。若邻居咨询额度大于0，计算反馈建议的概率，在该概率下给出动作建议。若智能体收到建议，智能体收到建议后排除在其他状态下选择过的动作，若不为空，则以各反馈建议的智能体的度为权重，计算各个动作建议的加权频率，采用最大频率对应的建议作为当前动作；若为空或智能体没有收到任何建议，则采用ε-greedy策略选择的动作。然后，对比交互双方智能体的动作，若相同，则收益为正值，反之为负，根据当前收益使用多Q和多R策略更新当前智能体的Q值。最后，根据状态转移分布产生下一个状态，循环这一过程。每个智能体循环交互lamda次。当所有智能体都结束交互后，多智能体系统进行下一轮交互。

实施例2

在规范空间为10¹⁰的语言游戏上进行实验。本发明在三种网络结构上，包括随机网络、小世界网络、无标度网络，比较了多Q(MQ)，带有师生机制的多Q(MQ+TS)，多R(MR)，带有师生机制的多R(MR+TS)，以及三种最先进的方法SRA、FGJ、TA的性能。主导词典指的是被最多智能体使用的词典。本发明主要比较了如下指标：

1)有效性：检验算法是否可以在有限时间内生成恰当的群体规范，即实验是否可以收敛。

2)高效性：衡量各个算法收敛到统一规范的效率。即主导规范的涌现所需要的交互轮数。

3)ACE(Average Communicative Efficacy)：该指标指的是交互过程中可以得到正反馈占所有交互的比重，表明了在每个时间点上系统收敛的水平。

4)DLS(Dominant Lexicon Specificity)：该指标衡量最后收敛到的群体规范即词典中的概念和词语的映射关系是否为一一对应，即所生成规范的质量，即每个概念对应的单词数的倒数的总和。一一对应的词典DLS为100％。

实验中采用WS(Watts and Strogatz 1998)方法构造小世界网络，无标度网络采用BA(Barabasi and Albert 1999)]模型。网络中包含1000个节点表示智能体，每个节点基本与20个邻居节点相连。与TA相似，实验中设置每个智能体交互的状态空间大小为10，即10个概念，每个概念都有10个词语供选择进行配对，则规范空间为10¹⁰。设置概念出现频率服从随机分布，也可以用其他分布。对于师生机制，每个智能体给出建议和询问建议的额度都为4000.FGL方法向各网络结构中引入了具有影响力的智能体(influencer agents)，这里将其数值设为50，初始时赋予这类智能体概念与词语一一对应的词典。设置实验的运行次数为60000次，每一次表示实验运行一轮。针对每个算法分别进行50次模拟实验，取实验运行轮数的平均值进行比较。

图1(a)表示收敛为主导规范的智能体所占百分比(ACC)的动态变化。首先，可以发现使用MR策略收敛速度快于MQ策略。其次，师生机制对加速MR和MQ收敛都有效。图1(b)表示四种方法的平均交流效益(ACE)如何演变。可以从图2和3观察到在随机网络和无标度网络中相似的ACC和ACE变化情况。

表2总结了当收敛为主导规范的智能体的占比分别为80％和90％时所需的收敛轮数和主导规范的质量。对于所有三种网络结构，MR优于MQ：在随机和小世界网络中，MR较MQ收敛速率提高了20％，在无标度网络中，MR也略微优于MQ。原因在于MR关注高估Q值的根本原因，即对实际的即使收益估计的不准确性，而MQ使用邻居信息以优化Q值估计。同样的，师生机制也在一定程度上提高了收敛速率，对于每个网路结构，带有师生机制的策略收敛速率都有大约15％的提升，这主要是由于师生机制中对动作选择的建议机制，减少了智能体间的交互次数。本发明同样实验了不同额度对于实验性能的影响，发现当额度小于3000时，随着额度增加，性能有所提高。额度大于3000之后，基本不对实验造成影响。另外，所有的方法都可以实现DLS的值为1.0.

Table 2：Performance Comparison：％ACCrefers to the percentage ofagents converging into a convention at time step t.DLS refers to dominantlexicon specificity at time-step t.

基于上述实验结果，本发明在随机和小世界网络中选择MR+TS，在无标度网络中选择MQ+TS，分别作为与最先进方法对比的策略。图4(a)展示了相应四种方法的收敛为主导规范的智能体占比(ACC)的演变情况。发现MR+TS表现优于其他方法。基于解耦的规范空间的使用强化学习的智能体较使用基于传播方法的智能体可以更快收敛到主导规范。图4(b)表示四种方法的平均交流效益(ACE)如何演变。MR+TS表现同样优于其他方法。通过比较图4中(a)和(b)图，可以发现及时收敛为主导规范的智能体占比较小时，平均交流效益可能也会较高。这可能是因为智能体所使用的词典有很大一部分相同的概念词语映射。图5和6分别展示了在随机和无标度网络中相似的ACC和ACE实验结果。

表2展示了所有三种网络结构下当收敛为主导规范的智能体占比为80％和90％时分别对应的收敛轮数和主导规范的质量。在先前的三种方法中法，TA表现最好，本发明的方法较TA有较大提升。在随机和小世界网络中，MR+TS需要大约33％TA的交互轮数，即可实现规范涌现。在无标度网络中，当80％智能体收敛为主导规范时，MQ+TS只需大约30％TA所需的交互轮数，在该网络下，TA无法使90％智能体收敛为主导规范。同时，FGJ在随机和无标度网络下，需要多于45000轮使80％的智能体趋于收敛，而在小世界网络中，无法实现80％智能体达到收敛。SRA在所有三种网络结构中都无法使80％智能体收敛。这一实验结果验证了本发明的分析：将规范分解为相关的子规范，并连续在子规范中学习，可以较先前的方法显著提高规范涌现效率。

另一方面，本发明的方法在三种网络结构下生成的主导规范的质量优于TA和SRA方法。原因在于每次交互过程中，本发明只选择当前未被选择的动作，这极大避免了同义词和一词多义现象。FGJ也可以实现规范的质量为100％。这是因为FGJ最初插入的智能体具有高质量的规范。接下来，表3总结了不同方法在每个网络结构下的最终交流效益的水平。不同方法之间的差别是统计显著的。这表明本文提出的方法具有鲁棒性，且智能体可以实现较高水平的协调。最后，图7展示了不同方法的可扩展性。从中可以看出，随着规范空间的增大，所有方法的收敛轮数都呈指数增长，但是，本发明的方法较先前方法增长较慢。这表明本发明的方法可扩展性好于先前的方法。

Table 3：ACE Performance Comparison：ACE refers to averagecommunicative efficacy after convergence.

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。