CN112801299B

CN112801299B - 奖惩机制演化博弈模型构建方法、系统及应用

Info

Publication number: CN112801299B
Application number: CN202110105123.1A
Authority: CN
Inventors: 赵楠; 杨棋; 陈南; 易运晖; 张兴才
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2023-12-01
Anticipated expiration: 2041-01-26
Also published as: CN112801299A

Abstract

本发明属于网络信息数据处理技术领域，公开了一种奖惩机制演化博弈模型构建方法、系统及应用，采用外部事件信息流入机制和基于态度行为的奖惩机制；在计算中心个体的自身所拥有信息量能否促使中心个体选择合作时所使用的公式符合随着信息量的增加，合作概率增加同时合作概率增加速率减缓的一般意义，且利用对数函数特性保证模型不会出现随着大量信息渗入社会群体直接快速全合作；利用声望值作为奖惩机制量化标准，在有数理推导的依托下分析社交网络稳定性条件并运用至仿真。本发明对社交网络稳定状态的条件做了探究同时在外界信息流入和对博弈个体的奖励惩罚机制上做了改进。

Description

奖惩机制演化博弈模型构建方法、系统及应用

技术领域

本发明属于网络信息数据处理技术领域，尤其涉及一种奖惩机制演化博弈模型构建方法、系统及应用。

背景技术

目前：“合作行为如何演化”被Science列为未来需要解决的25个最重要的科学问题之一。合作行为也是最普遍的群体行为之一，广泛地存在于各层次的生命系统之中。在演化生物研究领域中，合作常常被认为是除了变异和自然选择之外的第三个基本法则。关于社交网络上的外部信息的流入、扩散继而影响该网络的过程是收到网络内部个体的策略、态度、行为和社会关系的影响的，基于以上因素来探究社交网络的性质以及通过对特定参与者进行奖惩来适度控制群体中的合作行为占比显得尤为重要。而博弈论为研究多个个体之间的合作行为提供了有力的理论框架，其也是研究理性个体在交互过程中做出最优决策的一门重要学科。博弈论主要描述了参与方的个体们在面对利益和目标存在竞争性潜在冲突的背景下理性地选择合作或背叛的行为方式。随着自然选择和变异理论被引入博弈论，博弈论又被分为经典博弈理论和演化博弈理论。其主要区别是参与方的个体们在做决策时的理性程度：所有参与博弈的个体都是完全理性的决策者构成的即为经典博弈理论；基于群体中的参与个体在进行决策抉择的背景为非完全理性个体的研究则被称为演化博弈理论。随着基于博弈论对现实生活中各个体所处的社交网络的研究，研究者们发现以经济学因素作为博弈参与者之间的策略变化因素和行为选择因素的经典博弈理论所考虑的影响因子较少；演化博弈考虑了个体生物特性，在参与者、策略和收益上都和经典博弈理论有着较大的转变，构建的参与博弈的个体最重要的特点是个体的理性程度是有限的，可以更好地体现现实生活中实际参与博弈的个体的特点，更加贴近社会现实情况，其研究结果也更具有现实意义。

而基于复杂网络的演化博弈理论更是扩大了博弈论在现实生活中的应用范围，复杂网络上的合作演化和博弈动力学研究也越来越多。一次完整的经典博弈需要包含四个部分：(1)博弈参与者个体；(2)策略空间；(3)收益函数及交互规则；(4)博弈均衡。而基于复杂网络的社交演化博弈主要考虑的决定性影响因素包括博弈模型和策略更新规则。常见的博弈模型有囚徒困境、雪堆博弈、性别战博弈和智猪博弈等。常见的行为策略的更新规则有：灭生更新过程、生灭更新过程、对比较更新和模仿更新规则等。社交网络上的演化博弈的研究主要集中在三点：(1)研究不同的博弈模型在特定网络中不同演化策略的不同，进而找到稳定演化策略；(2)探究不同网络中、不同模型下可以促进社交网络中博弈个体合作行为的涌现和整个种群合作占比的机制；(3)探究动态可变的复杂网络模型下博弈个体的行为演化特点和影响因素。

奖励和惩罚机制对于重复性博弈中的合作演化的作用也是近年来直接互惠理论和实验研究的重要课题。通过对搭便车的背叛者的惩罚可以在多人公共品博弈中有较好效果，促进多人博弈中的合作涌现，而基于两人囚徒困境的博弈则需要将奖励和惩罚结合在一起，这样既可以避免“搭便车”现象和“二阶搭便车”的现象，也可以通过较低的代价对整个社交网络中的合作行为起到较大的促进推动效果。

从已有的关于社交网络上的内部信息传播、外界信息流入现状以及基于个体与种群态度行为演化的奖惩机制模型可以发现，现有的技术存在的主要问题有：大多只研究了博弈对网络内个体的合作行为单一因素的影响，考虑因素过于简单没有综合考虑外部事件因素、环境态度、个体自身态度对于个体行为的影响，相对来说不够符合现实实际情况；同时为了促进合作行为涌现而构建的奖励惩罚模型缺少更符合现实的探究和解释。

通过上述分析，现有技术存在的问题及缺陷为：随着互联网时代的到来，线上社交网络问题呈现出规模大幅增大，个体间交互加快且频繁。但关于将社交网络中个体的名誉值和用户节点间的链接关系与演化博弈理论结合的研究领域起步较晚，现有的基于链接权重可变的演化博弈模型所探究的影响因素较为单一。已有的相关研究方向大多着眼于不同网络结构模型下社交网络中用户个体的行为策略变化效果和演化趋势，即对于社交网络中个体的行为变化的本质原因探究较少。对个体是否合作所做出的奖励与惩罚措施缺少数理支撑和分析，意味着很多研究成果不够模块化，普适性较差。

另一方面，已有的研究内容主要是较为片面的对于网络内部的演化规律的探究，很少考虑外部因素例如，现实情况中外界事件信息是实时更新的，且任何网络都会受外部政策和多网络之间的影响，即研究较为孤立，研究者们为了简化模型而或多或少地牺牲了该问题的实际意义，对网络内部和外部因素结合考虑的有现实意义的影响因素的探究较少，大多实用性不足。

解决以上问题及缺陷的难度为：而之所以研究者们会选择简化模型，主要是由于现实生活中的社交网络情况非常复杂，用户间的博弈也不仅仅是单一的依照经典博弈理论或演化博弈理论进行的。用户的行为策略实际中会受到包括线上线下两种途径的信息交互、同一事件跨社交网络同时传播，不同时间社会群体的鼓励行为策略可能发生变动等因素影响。因此，要想完全模拟现实情况下的社交网络中个体博弈和行为策略演化需要考虑的变量和维度非常多。为了构建一个既能保证理论基础充足、又做到不失普适性，符合实际社交网络的模型，需要尽量多地综合考虑网络内外的主要影响因素，同时采用控制变量法探究各参数变量的影响，减小模型仿真复杂度。

解决以上问题及缺陷的意义为：通过综合考虑用户所在社交网络内外的各因素对其合作行为策略的影响和对整个网络合作行为的演化的趋势影响，可以保证更贴合现实地模拟社交网络中群体的博弈规律。

发明内容

针对现有技术存在的问题，本发明提供了一种奖惩机制演化博弈模型构建方法、系统及应用。

本发明是这样实现的，一种奖惩机制演化博弈模型构建方法，所述奖惩机制演化博弈模型构建方法采用外部事件信息流入机制和基于态度行为的奖惩机制；

该模型个体自身声望值的大小即衡量用户间行为态度博弈的收益大小的依据，因此该模型主要探究网络中各个体声望值的变化。而用户所拥有的信息量大小和其态度行为策略会直接影响该个体的自身声望值，其自身声望值的变动和与邻居声望值的大小的对比又会反过来影响该个体与其他个体链接权重的变化和适应度的变动。

在计算中心个体的自身所拥有信息量能否促使中心个体选择合作时所使用的公式符合随着信息量的增加，合作概率增加同时合作概率增加速率减缓的一般意义，且利用对数函数特性保证模型不会出现随着大量信息渗入社会群体直接快速全合作；

利用声望值直接作为奖惩机制量化标准，在有数理推导的依托下分析社交网络稳定性条件并运用至仿真。

进一步，所述外部事件信息流入机制考虑网络中个体的自主性和博弈个体的有限理性性：

进一步，所述奖惩机制演化博弈模型构建方法基于态度行为的奖惩机制下的策略收益矩阵为：

通过计算中心个体选择不同行为策略的期望和行为策略平均期望，得出中心个体选择合作行为策略的复制动态方程并对其求偏导得出：当Δ₂-Δ₃＜0且p＜p₀时，f_q(p,q₁)＜0，故q₁＝0为稳定平衡状态，即中心个体会选择在行为上背叛策略；当Δ₂-Δ₃＜0且p＞p₀时，f_q(p,q₂)＜0，故q₂＝1为稳定平衡状态，中心个体会选择在行为上合作的策略；当Δ₂-Δ₃＞0时，而1-p＞0，所以满足f_q(p,q₂)＜0，q₂＝1为稳定平衡状态，中心个体也会在行为上选择合作策略，得出社交网络的平衡稳定状态要求，确定仿真时各参数的关系，其中p、q分别为中心个体在态度和行为策略上选择合作的人数频率，。

进一步，所述奖惩机制演化博弈模型构建方法包括以下步骤：

第一步，建立的规则网格网络，进行多轮次的循环演化博弈；

第二步，记录每个个体的行为和态度，对网络中的中心个体的行为选择根据个体邻居态度和自身态度进行适应性调整；

第三步，根据邻居态度对受压力个体行为进行更新；根据中心个体自身态度对知行不合一个体进一步做个体态度策略更新；

第四步，构建基于态度行为的奖惩机制模型收益矩阵。

进一步，所述奖惩机制演化博弈模型构建方法建立一个大小为L*L的规则网格网络，L根据需模仿的网络规模设定为100、200或400，网络中每一个网格代表一个社交网络中的用户个体；每一个个体都被赋予其特有的属性值，包括(1)初始行为s，初始行为包括合作和背叛；(2)初始声望值R；(3)初始信息量I；(4)初始链接权重w及其上下限[w-e,w+e]；(5)链接权重变化值u；

设定博弈收益矩阵M、其主要取决于所采用的博弈模型，采用囚徒困境PDG时，收益矩阵为：

根据个体的初始行为和博弈收益矩阵计算每一个个体的初始博弈收益。

进一步，所述奖惩机制演化博弈模型构建方法进行多轮次的循环演化博弈过程包括：

每一轮次演化过程中，随机选取网格中的某一个位置处的节点用户作为中心个体，根据其所处网格位置的不同计算中心个体与其邻居个体的平均声望值并进行对比进行链接权重更新：(1)若中心个体的声望值大于所有邻居个体的平均声望值，且链接权重小于等于链接权重的阈值上界减链接权重增益值，则增加自身链接权重；(2)若中心个体的声望值小于所有邻居个体的平均声望值，且链接权重大于等于链接权重的阈值下界加链接权重增益值，则减小自身连接权重；(3)否则链接权重不变；

每一轮次演化过程中，比较中心个体与其邻居个体的信息量，进行中心个体所拥有信息量的更新：(1)若某一中心个体邻居信息量大，则挑选出信息量最大的邻居个体，中心个体将其信息量复制并作为自身信息量；(2)若中心个体的信息量不小于所有其邻居个体的信息量，则中心个体自身信息量不变；

记录每一轮次演化结束时网络中拥有最高声望值的个体作为意见领袖，记录其在网格中的位置、该轮次结束时的声望值和所意见领袖拥有的信息量；

在每一轮次的演化博弈过程中，对意见领袖进行声望值和信息量的更新：(1)若意见领袖选择合作，则在固定的时间间隔后向意见领袖进行外部事件信息流入的操作，并将意见领袖的声望值奖励较大增幅以稳固地位；具体信息流入操作为直接增加信息量，演化博弈整个过程的信息量的总增幅不变，每轮的增量与所设定的外部信息流入速率有关；(2)若意见领袖未合作，则不进行信息量和声望值的变化；

每一轮次演化过程中，中心个体根据自身已更新的所拥有信息量计算出自身选择合作行为的概率并进行判断，若中心个体的自身所拥有信息量没有促使中心个体选择合作，则通过个体和群体态度因素对个体进行分析，采取奖惩机制分析其是否有合作倾向和进行合作的机会。

进一步，所述奖惩机制演化博弈模型构建方法记录每个个体的行为和态度，对网络中的中心个体的行为选择根据个体邻居态度和自身态度进行适应性调整；

假设社会群体以合作行为为主，根据邻居态度对受压力个体行为进行更新：(1)若个体态度上采取合作策略且行为上采取背叛策略，则根据其邻居个体中观点合作数量占比来判断是否更改中心个体行为；(2)对于采取其他行为和态度策略的个体，视为所受邻居态度影响较小，知行不合一压力较小；

根据中心个体自身态度对知行不合一个体进一步做个体态度策略更新：(1)若中心个体行为和态度策略不一致，则根据其邻居个体中合作态度数量占比来判断是否更改中心个体态度；(2)符合知行合一个体不受自我压力；

每一轮次中心个体根据自身态度或群体态度判断采取背叛行为策略时，中心个体需考虑一次适应度的影响；

构建基于态度行为的奖惩机制模型收益矩阵，依照稳定状态门限对中心个体的声望值进行奖励或惩罚：(1)若个体在态度和行为上统一策略，则进行知行合一奖励，其中选择全合作，完全符合社会群体主流倾向，对其进行较大奖励Δ₁；全背叛不符合社会群体倾向，但促进了网络稳定，进行较小奖励Δ₃(2)若个体在态度或行为有趋向合作的潜在倾向，则对其进行适量奖励Δ₂；(3)若个体在行为策略上选择背叛策略，则对其进行惩罚c。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

第四步，构建基于态度行为的奖惩机制模型收益矩阵。

本发明的另一目的在于提供一种实施所述奖惩机制演化博弈模型构建方法的奖惩机制演化博弈模型构建系统，所述奖惩机制演化博弈模型构建系统包括：

规则网格网络建立模块，用于建立的规则网格网络；

循环演化博弈模块，用于进行多轮次的循环演化博弈；

行为适应性调整模块，用于记录每个个体的行为和态度，对网络中的中心个体的行为选择根据个体邻居态度和自身态度进行适应性调整；

个体信息更新模块，用于根据邻居态度对受压力个体行为进行更新；根据中心个体自身态度对知行不合一个体进一步做个体态度策略更新；

收益矩阵构建模块，用于构建基于态度行为的奖惩机制模型收益矩阵。

本发明的另一目的在于提供一种网络信息数据处理终端，所述网络信息数据处理终端用于实现所述的奖惩机制演化博弈模型构建方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明结合了演化博弈理论中博弈个体的有限理性特点、社交网络中个体分布和被选作中心个体进行演化博弈的均匀随机性和中心个体的行为策略的概率模仿策略更新规则的同时，添加了外部事件信息流入机制和基于态度行为的奖惩机制，很好地抑制了搭便车行为和二阶搭便车行为，增加社交网络中合作个体占比，提前了群体趋向全合作稳定态时间。

本发明在考虑了外部事件信息流入的规律特点，在计算中心个体的自身所拥有信息量能否促使中心个体选择合作时所使用的公式符合随着信息量的增加，合作概率增加同时合作概率增加速率减缓的一般意义，且利用对数函数特性保证了模型不会出现随着大量信息渗入社会群体直接快速全合作的现象，不符合实际社会情况，充分考虑了网络中个体的自主性和博弈个体的有限理性性。

本发明利用声望值作为奖惩机制量化标准，在有数理推导的依托下分析社交网络稳定性条件并运用至仿真，在理论性上有合理依托。同时考虑了群体态度、个体态度、内部环境和外部事件对社交网络的影响，更加具有实用性。

本发明基于态度行为的奖惩机制下的策略收益矩阵为：通过计算中心个体选择不同行为策略的期望和行为策略平均期望，得出中心个体选择合作行为策略的复制动态方程并对其求偏导得出：当Δ₂-Δ₃＜0且p＜p₀时，f_q(p,q₁)＜0，故q₁＝0为稳定平衡状态，即中心个体会选择在行为上背叛策略；当Δ₂-Δ₃＜0且p＞p₀时，f_q(p,q₂)＜0，故q₂＝1为稳定平衡状态，中心个体会选择在行为上合作的策略；当Δ₂-Δ₃＞0时，而1-p＞0，所以满足f_q(p,q₂)＜0，q₂＝1为稳定平衡状态，中心个体也会在行为上选择合作策略。由此讨论得出社交网络的平衡稳定状态要求，从而确定仿真时各参数的关系。

本发明对社交网络稳定状态的条件做了探究同时在外界信息流入和对博弈个体的奖励惩罚机制上做了改进，提出一种基于外部信息和态度行为的奖惩机制演化博弈模型构建方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的奖惩机制演化博弈模型构建方法流程图。

图2是本发明实施例提供的奖惩机制演化博弈模型构建系统的结构示意图；

图2中：1、规则网格网络建立模块；2、循环演化博弈模块；3、行为适应性调整模块；4、个体信息更新模块；5、收益矩阵构建模块。

图3是本发明实施例提供的基于外部信息与态度行为的奖惩机制演化博弈模型构建方法的流程图。

图4是本发明实施例提供的在不同链接权重界限e和背叛收益b下PDG博弈到一定量MCS轮次后处于平稳态的合作行为占比(ρc)，从左至右分别为e值0、0.2、0.4、0.6、0.8的拟合曲线图。

图5是本发明实施例提供的所得出的叛逃者出现门限bc1和合作者消亡门限bc2演化图。

图6是本发明实施例提供的改进后的链接权重可变的基于声望值基础模型在不同e值时的仿真曲线图。

图7是本发明实施例提供的引入基于外部信息与态度行为的奖惩机制模型后的演化博弈过程中社交网络个体态度与行为合作占比演化曲线示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种奖惩机制演化博弈模型构建方法、系统及应用，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的奖惩机制演化博弈模型构建方法包括以下步骤：

S101：建立的规则网格网络，进行多轮次的循环演化博弈；

S102：记录每个个体的行为和态度，对网络中的中心个体的行为选择根据个体邻居态度和自身态度进行适应性调整；

S103：根据邻居态度对受压力个体行为进行更新；根据中心个体自身态度对知行不合一个体进一步做个体态度策略更新；

S104：构建基于态度行为的奖惩机制模型收益矩阵。

本发明提供的奖惩机制演化博弈模型构建方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的奖惩机制演化博弈模型构建方法仅仅是一个具体实施例而已。

如图2所示，本发明提供的奖惩机制演化博弈模型构建系统包括：

规则网格网络建立模块1，用于建立的规则网格网络；

循环演化博弈模块2，用于进行多轮次的循环演化博弈；

行为适应性调整模块3，用于记录每个个体的行为和态度，对网络中的中心个体的行为选择根据个体邻居态度和自身态度进行适应性调整；

个体信息更新模块4，用于根据邻居态度对受压力个体行为进行更新；根据中心个体自身态度对知行不合一个体进一步做个体态度策略更新。

收益矩阵构建模块5，用于构建基于态度行为的奖惩机制模型收益矩阵。

下面结合附图对本发明的技术方案作进一步的描述。

如图3所示，本发明提供的奖惩机制演化博弈模型构建方法具体包括以下步骤：

(1)建立一个大小为L*L(L一般可根据需模仿的网络规模设定为100、200或400)的规则网格网络，网络中每一个网格代表一个社交网络中的用户个体。每一个个体都被赋予其特有的属性值，包括(1)初始行为s，初始行为包括合作和背叛；(2)初始声望值R；(3)初始信息量I；(4)初始链接权重w及其上下限[w-e,w+e]；(5)链接权重变化值u。

(2)设定博弈收益矩阵M、其主要取决于所采用的博弈模型，采用囚徒困境(PDG)时，收益矩阵为：

(3)根据个体的初始行为和博弈收益矩阵计算每一个个体的初始博弈收益。

(4)进行多轮次的循环演化博弈过程：

每一轮次演化过程中，随机选取网格中的某一个位置处的节点用户作为中心个体，根据其所处网格位置的不同计算中心个体与其邻居个体的平均声望值并进行对比从而进行链接权重更新：(1)若中心个体的声望值大于所有邻居个体的平均声望值，且链接权重小于等于链接权重的阈值上界减链接权重增益值，则增加自身链接权重；(2)若中心个体的声望值小于所有邻居个体的平均声望值，且链接权重大于等于链接权重的阈值下界加链接权重增益值，则减小自身连接权重；(3)否则链接权重不变。

每一轮次演化过程中，比较中心个体与其邻居个体的信息量，进行中心个体所拥有信息量的更新：(1)若某一中心个体邻居信息量大，则挑选出信息量最大的邻居个体，中心个体将其信息量复制并作为自身信息量；(2)若中心个体的信息量不小于所有其邻居个体的信息量，则中心个体自身信息量不变。

记录每一轮次演化结束时网络中拥有最高声望值的个体作为意见领袖，记录其在网格中的位置、该轮次结束时的声望值和所意见领袖拥有的信息量。

在每一轮次的演化博弈过程中，对意见领袖进行声望值和信息量的更新：(1)若意见领袖选择合作，则在固定的时间间隔后向意见领袖进行外部事件信息流入的操作，并将意见领袖的声望值奖励较大增幅以稳固地位。具体信息流入操作为直接增加信息量，演化博弈整个过程的信息量的总增幅不变，每轮的增量与所设定的外部信息流入速率有关。(2)若意见领袖未合作，则不进行信息量和声望值的变化。

(5)记录每个个体的行为和态度，对网络中的中心个体的行为选择根据个体邻居态度和自身态度进行适应性调整，结合对网络稳定性探究，以期达到或更快达到整个网络稳态。

(6)假设社会群体以合作行为为主，根据邻居态度对受压力个体行为进行更新：(1)若个体态度上采取合作策略且行为上采取背叛策略，则根据其邻居个体中观点合作数量占比来判断是否更改中心个体行为；(2)对于采取其他行为和态度策略的个体，视为所受邻居态度影响较小，知行不合一压力较小。

(7)根据中心个体自身态度对知行不合一个体进一步做个体态度策略更新：(1)若中心个体行为和态度策略不一致，则根据其邻居个体中合作态度数量占比来判断是否更改中心个体态度；(2)符合知行合一个体不受自我压力。

(8)每一轮次中心个体根据自身态度或群体态度判断采取背叛行为策略时，中心个体需考虑一次适应度的影响。

(9)构建基于态度行为的奖惩机制模型收益矩阵，依照稳定状态门限对中心个体的声望值进行奖励或惩罚：(1)若个体在态度和行为上统一策略，则进行知行合一奖励，其中选择全合作，完全符合社会群体主流倾向，对其进行较大奖励Δ₁；全背叛不符合社会群体倾向，但促进了网络稳定，进行较小奖励Δ₃(2)若个体在态度或行为有趋向合作的潜在倾向，则对其进行适量奖励Δ₂；(3)若个体在行为策略上选择背叛策略，则对其进行惩罚c。

本发明结合了演化博弈理论中博弈个体的有限理性特点、社交网络中个体分布和被选作中心个体进行演化博弈的均匀随机性和中心个体的行为策略的概率模仿策略更新规则的同时，添加了外部事件信息流入机制和基于态度行为的奖惩机制，很好地抑制了搭便车行为和二阶搭便车行为，增加社交网络中合作个体占比，提前了群体趋向全合作稳定态时间。

本发明在考虑了外部事件信息流入的规律特点，信息流入的模型构建时可以根据信息事件的不同设计不同的渗入方式，例如一般性的科普类信息可以使用均匀分布作为渗入模型；大规模的政策变动性信息可以使用指数分布以体现其快速的信息量爆炸特性；需要一定发酵时间才能达到舆论高潮的信息可以使用高斯分布。在计算中心个体的自身所拥有信息量能否促使中心个体选择合作时所使用的公式符合随着信息量的增加，合作概率增加同时合作概率增加速率减缓的一般意义，且利用对数函数特性保证了模型不会出现随着大量信息渗入社会群体直接快速全合作的现象，不符合实际社会情况，充分考虑了网络中个体的自主性和博弈个体的有限理性性。在这里，符合上述实际意义特点的其他合作概率计算方式也可以被对比考虑，例如不同外部事件散布和流入的时间间隔、时效性和传播速率都不尽相同，可以通过比较指数函数、对数函数、线性函数的递增趋势、递增衰减性以及初值特性，来对应选择更符合的概率计算公式。

本发明利用声望值作为奖惩机制量化标准，在有数理推导的依托下分析社交网络稳定性条件并运用至仿真，在理论性上有合理依托。同时考虑了群体态度、个体态度、内部环境和外部事件对社交网络的影响，更加具有实用性。基于态度行为的奖惩机制下的策略收益矩阵为：

本发明通过计算中心个体选择不同行为策略的期望和行为策略平均期望，

得出中心个体选择合作行为策略的复制动态方程：

并对其求偏导得出：当Δ₂-Δ₃＜0且p＜p₀时，f_q(p,q₁)＜0，故q₁＝0为稳定平衡状态，即中心个体会选择在行为上背叛策略；当Δ₂-Δ₃＜0且p＞p₀时，f_q(p,q₂)＜0，故q₂＝1为稳定平衡状态，中心个体会选择在行为上合作的策略；当Δ₂-Δ₃＞0时，而1-p＞0，所以满足f_q(p,q₂)＜0，q₂＝1为稳定平衡状态，中心个体也会在行为上选择合作策略。由此讨论得出社交网络的平衡稳定状态要求，从而确定仿真时各参数的关系。

如图4所示，在不同链接权重界限e和背叛收益b下PDG博弈到一定量MCS轮次后处于平稳态的合作行为占比(ρc)，从左至右分别为e值0、0.2、0.4、0.6、0.8的拟合曲线。可以看出随着背叛收益b的增加，社交网络中背叛策略用户占比增加，但是随着链接权重可变机制的引入和链接权重界限e值的增加，合作者越来越不容易受背叛收益影响而选择背叛；同时用户在全合作和全背叛之间的中间态占比越来越小，网络稳定性增加。

如图5所示，是根据图1所得出的叛逃者出现门限bc1和合作者消亡门限bc2演化。随着e值的增加，可以更直观地看出背叛者出现门限和合作者消亡门限都在稳步增加，即用户对背叛收益地忍耐程度越来越强。根据图3和图4可以更合理地设定在后续引进外部事件信息流入机制和基于态度行为的奖惩机制时地背叛收益参数b。

如图6所示，改进后的链接权重可变的基于声望值基础模型在不同e值时的仿真曲线，从下至上分别为e值0、0.2、0.4、0.6、0.8的演化曲线，达到稳定状态时合作占比分别为0.048、0.446、0.738、1、1。在e＝0未使用链接权重动态变化模型时，退化为囚徒困境博弈(PDG),用户最终会选择全背叛，但随着e值增加，选择合作的用户越来越多直至最后会达到全合作态。

如图7所示，引入基于外部信息与态度行为的奖惩机制模型后的演化博弈过程中社交网络个体态度与行为合作占比演化曲线。在引入本发明两种机制后，在行为和态度策略上用户都选择了不贪图“搭便车”收益而直接越来越趋向于全合作，且考虑了态度因素后用户的行为策略更快地达到了全合作态。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种奖惩机制演化博弈模型构建方法，其特征在于，所述奖惩机制演化博弈模型构建方法采用外部事件信息流入机制和基于态度行为的奖惩机制；

该模型个体自身声望值的大小即衡量用户间行为态度博弈的收益大小的依据；而用户所拥有的信息量大小和其态度行为策略会直接影响该个体的自身声望值，其自身声望值的变动和与邻居声望值的大小的对比又会反过来影响该个体与其他个体链接权重的变化和适应度的变动；

在计算中心个体的自身所拥有信息量能否促使中心个体选择合作符合随着信息量的增加，合作概率增加同时合作概率增加速率减缓的一般意义，且利用对数函数特性保证模型不会出现随着大量信息渗入社会群体直接快速全合作；

利用声望值直接作为奖惩机制量化标准，在有数理推导的依托下分析社交网络稳定性条件并运用至仿真；

所述奖惩机制演化博弈模型构建方法包括以下步骤：

第四步，构建基于态度行为的奖惩机制模型收益矩阵；

所述奖惩机制演化博弈模型构建方法建立一个大小为L*L的规则网格网络，L根据需模仿的网络规模设定为100、200或400，网络中每一个网格代表一个社交网络中的用户个体；每一个个体都被赋予其特有的属性值，包括(1)初始行为s，初始行为包括合作和背叛；(2)初始声望值R；(3)初始信息量I；(4)初始链接权重w及其上下限[w-e,w+e]；(5)链接权重变化值u；

根据个体的初始行为和博弈收益矩阵计算每一个个体的初始博弈收益；

所述奖惩机制演化博弈模型构建方法进行多轮次的循环演化博弈过程包括：

每一轮次演化过程中，中心个体根据自身已更新的所拥有信息量计算出自身选择合作行为的概率并进行判断，若中心个体的自身所拥有信息量没有促使中心个体选择合作，则通过个体和群体态度因素对个体进行分析，采取奖惩机制分析其是否有合作倾向和进行合作的机会；

所述奖惩机制演化博弈模型构建方法记录每个个体的行为和态度，对网络中的中心个体的行为选择根据个体邻居态度和自身态度进行适应性调整；

构建基于态度行为的奖惩机制模型收益矩阵，依照稳定状态门限对中心个体的声望值进行奖励或惩罚：(1)若个体在态度和行为上统一策略，则进行知行合一奖励，其中选择全合作，完全符合社会群体主流倾向，对其进行较大奖励Δ₁；全背叛不符合社会群体倾向，但促进了网络稳定，进行较小奖励Δ₃(2)若个体在态度或行为有趋向合作的潜在倾向，则对其进行适量奖励Δ₂；(3)若个体在行为策略上选择背叛策略，则对其进行惩罚c；

所述外部事件信息流入机制考虑网络中个体的自主性和博弈个体的有限理性：

所述奖惩机制演化博弈模型构建方法基于态度行为的奖惩机制下的策略收益矩阵为：

通过计算中心个体选择不同行为策略的期望和行为策略平均期望，得出中心个体选择合作行为策略的复制动态方程：/>并对其求偏导得出：当Δ₂-Δ₃＜0且p＜p₀时，f_q(p,q₁)＜0，故q₁＝0为稳定平衡状态，即中心个体会选择在行为上背叛策略；当Δ₂-Δ₃＜0且p＞p₀时，f_q(p,q₂)＜0，故q₂＝1为稳定平衡状态，中心个体会选择在行为上合作的策略；当Δ₂-Δ₃＞0时，而1-p＞0，所以满足f_q(p,q₂)＜0，q₂＝1为稳定平衡状态，中心个体也会在行为上选择合作策略，得出社交网络的平衡稳定状态要求，确定仿真时各参数的关系，其中p、q分别为中心个体在态度和行为策略上选择合作的人数频率。

2.一种实施权利要求1所述奖惩机制演化博弈模型构建方法的计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

第四步，构建基于态度行为的奖惩机制模型收益矩阵；设定博弈收益矩阵M、其主要取决于所采用的博弈模型，采用囚徒困境PDG时，收益矩阵为：

3.一种实施权利要求1所述奖惩机制演化博弈模型构建方法的奖惩机制演化博弈模型构建系统，其特征在于，所述奖惩机制演化博弈模型构建系统包括：

规则网格网络建立模块，用于建立的规则网格网络；

循环演化博弈模块，用于进行多轮次的循环演化博弈；

4.一种网络信息数据处理终端，其特征在于，所述网络信息数据处理终端用于实现权利要求1所述的奖惩机制演化博弈模型构建方法。