CN108984479B - 一种用于提高众包平台运行效率的方法 - Google Patents

一种用于提高众包平台运行效率的方法 Download PDF

Info

Publication number
CN108984479B
CN108984479B CN201710406646.3A CN201710406646A CN108984479B CN 108984479 B CN108984479 B CN 108984479B CN 201710406646 A CN201710406646 A CN 201710406646A CN 108984479 B CN108984479 B CN 108984479B
Authority
CN
China
Prior art keywords
worker
strategy
workers
zero determinant
improving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710406646.3A
Other languages
English (en)
Other versions
CN108984479A (zh
Inventor
唐长兵
苗月
黄志亮
鲁剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN201710406646.3A priority Critical patent/CN108984479B/zh
Publication of CN108984479A publication Critical patent/CN108984479A/zh
Application granted granted Critical
Publication of CN108984479B publication Critical patent/CN108984479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于数据处理技术领域,公开了一种用于提高众包平台运行效率的新方法,所述用于提高众包平台运行效率的新方法包括:首先,将工作者之间的互动映射成迭代博弈模型;其次,利用博弈理论中零行列式(ZD)策略算法提高众包系统的整体效益;最后,用仿真实验验证零行列式策略算法的有效性。本发明采用ZD策略算法比TFT在效率上提高了接近45%接近40%,采用ZD策略算法比Pavlov得到的稳态速度提高了接近22%。本发明在提高众包系统的运行效率上具有比TFT和Pavlov更好的效率及运行速度。

Description

一种用于提高众包平台运行效率的方法
技术领域
本发明属于数据处理技术领域,尤其涉及一种用于提高众包平台运行效率的方法。
背景技术
近几年,随着网络的快速发展,一种新型的商业创新模式----众包应运而生。众包已经成为商业领域用于解决复杂问题好渠道。一方面,众包打破了传统的创新组织方式,他将全球用户的集体智慧融入到企业的创新体系。另一方面,众包提高了解决问题的效率,并且大大节省了成本。企业需要投入大量人力物力财力的棘手问题,可以通过众包低成本,高效率的解决。但是,正是因为人人都有机会参与进来,使得搭便车者有利可图,他们为众包系统提供低质量的解决方案,从而给众包系统带来了巨大的挑战。因此,如何激励用户积极参与进来是确保众包系统高效运行的关键所在。
目前,为了激励用户积极参与进来是确保众包系统高效运行,国内外关于激励机制设置的研究主要基于两种激励方法——货币奖励机制和信誉更新机制。这两种较为传统的方法都存在各自的优缺点,货币激励机制设计起来较为简单,但是在实际的众包系统中实施起来却有一定的困难;信誉激励机制虽然不依赖于“中央银行”来控制,但是需要设计很复杂的信誉更新机制。同时因为人人都有机会参与进来,使得搭便车者有利可图,他们为众包系统提供低质量的解决方案。
除此之外,也有相当一部分算法采用博弈理论的方法来提高众包系统运行的效率,如TFT和Pavlov。TFT算法具有很好的收敛速度,但是系统效率却不高,且在鲁棒性方面存在缺陷;Pavlov算法具有较好的收益效率,但收敛速度一般。
综上所述,现有技术存在的问题是:众包系统工作者交互的复杂性及相互竞争性给众包问题的分析带来很大的困难;众包用户是理性的,致力于最大化自身效益,从而产生一些损害众包系统整体效益的欺骗行为,使得搭便车者有利可图,他们为众包系统提供低质量的解决方案。而博弈理论研究对象的自组织、无中央控制的特点,为研究众包系统的合作效率问题提供了成熟的理论框架,单如何利用更高效的博弈算法提高众包系统的运行效率及收敛速度仍存在诸多挑战和困难。
发明内容
针对现有技术存在的问题,本发明提供了一种用于提高众包平台运行效率的方法。
本发明是这样实现的,一种用于提高众包平台运行效率的方法,所述用于提高众包平台运行效率的方法包括:
首先,将工作者之间的互动映射成迭代博弈;
其次,利用零行列式策略算法提高众包系统的整体效益;
最后,进行仿真实验模拟用以验证零行列式策略算法。
进一步,所述将工作者之间的互动映射成迭代博弈中,每个工作者在每一迭代步都有两个策略选择;经过排列组合,得到每一迭代步共有四种情况{HH,HL,LH,LL};用向量v=[v1,v2,v3,v4]'表示上述四种情况出现的概率;工作者的收益分别表示成
Figure GDA0003041945010000021
Figure GDA0003041945010000022
其中r为工作者都努力工作者所产生的效益,c为工作者都努力工作时每个工作者所消耗的代价,c'努力工作的工作者在对手不努力工作时所消耗的代价(c'>c);两个工作者的策略分别用混合策略p=[p1,p2,p3,p4],q=[q1,q2,q3,q4]表示,其中p1表示在上一轮迭代中两工作者都努力工作时,本轮工作者1选择努力工作的概率;则1-p1表示工作者1选择不努力工作的概率;p2表示上一轮为HL时,本轮工作者1选择努力工作的概率,1-p2表示上一轮为HL时,本轮工作者1选择不努力工作的概率;类似的定义p2和p3;类似的,q1,q2,q3,q4表示工作者2在上一轮为分别为HH,HL,LH,LL时候,本轮采取努力工作的概率;
类似的,q1表示工作者2在上一轮为HH的时候,本轮采取努力工作的概率;该过程用马尔科夫链来表示,相应的马尔科夫链由下面的矩阵表示;
Figure GDA0003041945010000031
vs·M是一个随机矩阵,如果M正规,则它具有唯一的特征值为1的左特征向量,则有
vs·M=vs
这个特征向量表示马尔科夫链的平稳分布;两个工作者的期望收益如下:
w1=vsU1,w2=vsU2;
令M'=M-I,则v's·M'=0;由克拉姆法则和拉普拉斯变换得到:
Figure GDA0003041945010000032
当f=αU1+βU2-γ1时,α,β,γ为标量,令
Figure GDA0003041945010000033
Figure GDA0003041945010000034
然后将得到
αw1+βw2-γ=0 (1);
就将此时的p称为零行列式ZD策略;
进一步,所述利用零行列式策略算法提高众包系统的整体效益中,当单方工作者采取零行列式策略时,使所有工作者的收益成线性关系;
根据公式(1),当工作者1采取零行列策略时,不管工作者2采取何种策略,两工作者的期望收益成线性关系;
由于工作者1既控制着他的收益又控制着另一个工作者的收益,所以当工作者1收益增加时要想工作者2的收益也增加,也就意味着%<0;同时由
Figure GDA0003041945010000044
得到工作者1的策略需满足:
Figure GDA0003041945010000041
由0≤pi≤1(i=1,2,3,4),可以得到:
Figure GDA0003041945010000042
经过数学推导,得到各个参数的范围:
Figure GDA0003041945010000043
在此基础上,工作者2在面对采取ZD策略的工作者1时,不断的改变自己的策略去最大化自身的收益。
进一步,当工作者1采取ZD策略致力于实现最高社会效益时,可以得到具体的ZD策略为:
Figure GDA0003041945010000051
此时,工作者之间的博弈得到了均衡,而且社会效益为
Figure GDA0003041945010000052
具体包括:当工作者1为了实现最高社会效益,则有:
Figure GDA0003041945010000053
进而得到ZD策略
Figure GDA0003041945010000054
经计算可得(5);根据公式(4),工作者1能够单方面的控制两者的收益成如下线性关系:
Figure GDA0003041945010000055
此时博弈得到了一个均衡;而且两工作者的社会效益得到最大;
令α=0,此时,工作者1能够采取ZD策略
Figure GDA0003041945010000056
实现βw2-γ=0;经过数学推导得到具体的ZD策略如下:
Figure GDA0003041945010000057
经过化简:β和γ都可以由p1,p2,p3,p4表示;进一步化简得:工作者2的期望收益可以只由p1,p4表示;具体的:
Figure GDA0003041945010000061
当工作者1采取ZD策略
Figure GDA0003041945010000062
时,控制工作者2的期望收益,并且将工作者2的期望收益控制在一定的范围;记
Figure GDA0003041945010000063
进一步,当工作者1采取ZD策略不管工作者2采取什么策略,并且
Figure GDA0003041945010000064
时,工作者1将工作者2的期望收益控制在
Figure GDA0003041945010000065
参数γ满足:
Figure GDA0003041945010000066
具体包括:由公式(6)和0≤pi≤1,当γ>0时,得到
Figure GDA0003041945010000067
Figure GDA0003041945010000068
但是
Figure GDA0003041945010000069
工作者2的收益为空;
当γ≤0时,由p1≤1,p2≤1,有
Figure GDA00030419450100000610
同样由p3≥0,p3≥0,
Figure GDA00030419450100000611
因为
Figure GDA00030419450100000612
所以
Figure GDA00030419450100000613
此外,由p1≥0,p2≥0,有
Figure GDA00030419450100000614
同样有p3≤1,p4≤1,
Figure GDA00030419450100000615
因此,γ的范围为:
Figure GDA0003041945010000071
进一步,所述进行仿真实验模拟用以验证零行列式策略算法中,设置相关参数:v0=[0.25,0.25,0.25,0.25];r=10;c=1,c'=3;
Figure GDA0003041945010000072
α=-1,β=-7;
具体包括:
首先,将提出的两个ZD策略分别与TFT以牙还牙策略和Pavlov做比较;所述Pavlov为胜-保持与败-改变;
其次,在该ZD策略算法中,两个有关ZD策略定理的成立都需要合理的参数范围;分别取β=5,7,9,11,当工作者1采取ZD策略
Figure GDA0003041945010000073
达到最大社会效益时,社会收益能够得到稳定的状态,并且收敛速度与β的值成正相关;换句话说,当β在满足公式(4)的条件下,β的值越大,收敛速度越快;同样的,当工作者1采取ZD策略
Figure GDA0003041945010000074
时,也会得到当β在满足公式(4)的条件下,β的值越大,收敛速度越快的结果;
最后比较两个ZD策略的收敛速度,在其他条件都相同的情况下,分别让工作者1采取两个ZD策略。
本发明的另一目的在于提供一种用于提高众包平台运行效率的系统。
本发明的优点及积极效果为:
本发明主要考虑了如何在众包系统中促进任务工作者积极参与创新,从而提高众包系统的整体性能。巧妙的运用ZD策略,使得采用ZD策略的一方可以控制社会效益或对手的收益,进而使得整体效益达到稳定的最高水平。相比于以往的博弈算法,仿真实验更进一步的验证了ZD策略算法在解决众包系统中工作者合作问题的可靠性及有效性,通过与TFT和Pavlov两种算法的比较,表明:采用ZD策略算法比TFT算法在效率上提高了接近45%,比Pavlov算法虽然在效率上没有太大改观,但在收敛速度上提高了接近22%。
本发明在提高众包系统的运行效率上具有比TFT和Pavlov更好的效率及运行速度。
附图说明
图1是本发明实施例提供的用于提高众包平台运行效率的方法流程图。
图2是本发明实施例提供的工作者1、2采取不同的ZD策略后收益图。
图3是本发明实施例提供的ZD策略P1的收益vs TFT的收益示意图。
图4是本发明实施例提供的ZD策略P1的收益vs Pavlov的收益示意图。
图5是本发明实施例提供的ZD策略P2的收益vs TFT的收益示意图。
图6是本发明实施例提供的ZD策略P2收益vs Pavlov收益示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细步描述。
如图1所示,本发明实施例提供的用于提高众包平台运行效率的方法,包括:
S101:首先,将工作者之间的互动映射成迭代博弈;
S102:其次,利用零行列式策略算法提高众包系统的整体效益;
S103:最后,进行仿真实验模拟用以验证零行列式策略算法。
下面结合具体实施例对本发明的应用原理作进一步描述。
1、模型描述
一个典型的众包系统包括任务要求者、任务工作者、任务及奖金。假定一个众包系统的任务类型有K种。当任务要求者在众包系统上发布任务,并为该任务交付一定的酬金时,任务工作者可以根据自己的兴趣爱好选择任务,并通过解决任务得到一定的报酬。本发明中,考虑的都是复杂而具有难度的任务,这些任务往往需要拥有不同技能的任务工作者去共同完成。当任务被完成之后,为每个任务设定的奖金将会平分给每一个参与工作的工作者。将每个任务分成若干个子任务,这样奖金也被分成了若干份。解决子任务的过程定义成一种“竞争”,在每个竞争环节,所有参与的工作者共同解决任务,最终奖金平分给每个工作者。不失一般性,接下来我们就两个工作者展开研究。
子任务k(k∈{1,2,...,K})被两个工作者去解决,工作者都策略性的参与其中并致力于最大化自身的收益。当两个工作者解决子任务时,他们可以选择努力工作(H)也可以选择不努力工作(L),所以对每个工作者来说都有两个策略可供选择。当工作者都选择努力工作,他们各自花费的代价均为c,他们会同时收到r/2的收益。当工作者都选择不努力工作,此时不花费任何代价也不会收到任何收益。当一个工作者选择努力工作而另一个工作者选择不努力工作,努力工作的一方将会花费代价c’,并且c’>2c;不努力工作一方虽然不会花费任何代价,却可以收到r/2的收益。相应的收益矩阵如下:
Figure GDA0003041945010000091
经过分析,该收益矩阵反应的模型类似于经典的雪堆博弈模型。在该博弈中存在两个纳什均衡(H,L)和(L,H),
没有工作者会单方面的打破该均衡去得到更高的收益。由于每个工作者只关心自身的收益,并不会关心对方的策略和整体的收益。这样就会造成不满意的社会收益。也就是说,两个纳什均衡的社会收益低于两个人都努力的社会收益(r-2c>r-c')。然而,该均衡可以被打破当博弈重复进行。因此,本发明将引入重复博弈。重复博弈意味着工作者需要考虑他的行为对未来其他对手行为的影响。比如说,在本轮你如果采取不努力工作,那么下一轮也会选择不努力工作。现有技术在分析双人的重复囚徒困境博弈时发现了这么一种概率策略——零行列式策略。该策略可以使所有参与者的期望收益保持线性关系。并且该策略也存在于所有的双人及多人博弈中。接下来,本发明将重复博弈和ZD策略用于众包系统中。
2、理论分析:
在工作者解决任务的博弈中,每个工作者在每一迭代步都有两个策略可选择。经过排列组合,可以得到每一迭代步共有四种情况{HH,HL,LH,LL}。用向量v=[v1,v2,v3,v4]'表示上述四种情况出现的概率。工作者的收益可以分别表示成
Figure GDA0003041945010000101
Figure GDA0003041945010000102
两个工作者的策略分别用混合策略p=[p1,p2,p3,p4],q=[q1,q2,q3,q4]表示。其中p1表示在上一轮迭代中两工作者都努力工作时,本轮工作者1选择努力工作的概率。则1-p1表示工作者1选择不努力工作的概率。类似的,q1表示工作者2在上一轮为HH的时候,本轮采取努力工作的概率。由于该过程可以用马尔科夫链来表示,相应的马尔科夫链由下面的矩阵表示。
Figure GDA0003041945010000103
vs·M是一个随机矩阵,如果M正规,则它具有唯一的特征值为1的左特征向量则有
vs·M=vs
这个特征向量表示马尔科夫链的平稳分布。两个工作者的期望收益如下:
w1=vsU1,w2=vsU2;
令M'=M-I,则v's·M'=0。经过数学推导,由克拉姆法则和拉普拉斯变换可以得到:
Figure GDA0003041945010000111
发现当f=αU1+βU2-γ1时,α,β,γ为标量,令
Figure GDA0003041945010000112
Figure GDA0003041945010000116
然后将得到αw1+βw2-γ=0(1)。就将此时的p称为零行列式策略(ZD策略)。并且当单方工作者采取零行列式策略时,可以使所有工作者的收益成线性关系。
根据公式(1),当工作者1采取零行列策略时,不管工作者2采取何种策略,两工作者的期望收益成线性关系。由于工作者1既控制着他的收益又控制着另一个工作者的收益,所以当工作者1收益增加时要想工作者2的收益也增加,也就意味着α/β≤0。同时由
Figure GDA0003041945010000113
可以得到工作者1的策略需满足:
Figure GDA0003041945010000114
由0≤pi≤1(i=1,2,3,4),可以得到:
Figure GDA0003041945010000115
经过简单的数学推导,我们可以得到各个参数的范围:
Figure GDA0003041945010000121
在此基础上,工作者2在面对采取ZD策略的工作者1时,不断的改变自己的策略去最大化自身的收益。在这种情况下,可以得到下面的定理1。
定理1:当工作者1采取ZD策略去实现
Figure GDA00030419450100001213
时,工作者1和工作者2的期望收益(w1:w2)将落在AF和AC上的任一一点。
证明:如图2,四边形ABEC给出了两个工作者的收益
Figure GDA0003041945010000122
的所有可能情况。假设α<0,β>0。如果令
Figure GDA0003041945010000123
则工作者1采取ZD策略可以得到一条恒过点
Figure GDA0003041945010000124
的直线,形如:
Figure GDA0003041945010000125
由于三角形ABF内的所有点满足
Figure GDA0003041945010000126
使得:
Figure GDA0003041945010000127
显然与公式(4)矛盾。因此,三角形ABF内的点不能满足
Figure GDA0003041945010000128
换句话说,工作者采取ZD策略时,必须满足公式(4)中参数的范围。接下来分析四边形ACEF。
首先证明线段AF。AF平行于X轴,在公式(1)中假设α=0,则有βw2-γ=0,进而有
Figure GDA0003041945010000129
并且
Figure GDA00030419450100001210
满足公式(4)。所以当工作者1采取ZD策略而工作者2不断改变自己的策略时,线段AF上的点都可以实现。
对于线段AC上的点都满足
Figure GDA00030419450100001211
Figure GDA00030419450100001212
Figure GDA0003041945010000131
满足条件(4)且
Figure GDA0003041945010000132
此时,令γ=0满足了公式(4)中的条件。因此,工作者1采取ZD策略可以使收益点
Figure GDA0003041945010000133
满足
Figure GDA0003041945010000134
即收益保持了线性关系。
考虑线段CE上的点,满足
Figure GDA0003041945010000135
设Δ>0,则:
Figure GDA0003041945010000136
Figure GDA0003041945010000137
那么
Figure GDA0003041945010000138
由此可以找到一对满足条件的α,β,同时满足下面等式:
Figure GDA0003041945010000139
但是,由于
Figure GDA00030419450100001310
Figure GDA00030419450100001311
因此在满足参数条件的前提下,γ=α(0-Δ)+β0≤α(r/2-c)+β(r/2-c),此时可以求出Δ<0,与Δ>0矛盾。同理可得当Δ≤0时,同样存在着矛盾。综上可得,工作者1采取ZD策略并不能使两工作者的收益落到CE上的任一一点。类似的,我们可以得打EF上的点也不满足条件。
根据上面的讨论,得到:当工作者1采取不同的ZD策略,工作者2不断调节自己的策略时,两者的最终收益可以落到AF和AC上的任意一点。
实际上,在众包系统的目的是让工作者都采取H策略,即努力解决问题,提交高质量的解决方案。反应在收益图一上就是A点。如图2所示。
定理2:当工作者1采取ZD策略致力于实现最高社会效益时,可以得到具体的ZD策略为:
Figure GDA0003041945010000141
此时,工作者之间的博弈得到了均衡,而且社会效益为
Figure GDA0003041945010000142
(点A)。
证明:当工作者1为了实现最高社会效益,则有:
Figure GDA0003041945010000143
进而可以得到ZD策略
Figure GDA0003041945010000144
经计算可得(5)。根据公式(4)和引理一,工作者1能够单方面的控制两者的收益成如下线性关系:
Figure GDA0003041945010000145
此时博弈得到了一个均衡。而且两工作者的社会效益得到最大——如图2中的A点。
令α=0,此时,工作者1能够采取ZD策略
Figure GDA0003041945010000146
实现βw2-γ=0。经过数学推导得到具体的ZD策略如下:
Figure GDA0003041945010000147
经过化简发现:β和γ都可以由p1,p2,p3,p4表示。进一步化简可得:工作者2的期望收益可以只由p1,p4表示。具体的:
Figure GDA0003041945010000148
换句话说,当工作者1采取ZD策略
Figure GDA0003041945010000149
时,可以控制工作者2的期望收益,并且可以将工作者2的期望收益控制在一定的范围。记
Figure GDA0003041945010000151
Figure GDA0003041945010000152
定理3:当工作者1采取ZD策略(6)不管工作者2采取什么策略,并且
Figure GDA0003041945010000153
时,工作者1可以将工作者2的期望收益控制在
Figure GDA0003041945010000154
参数γ满足:
Figure GDA0003041945010000155
证明:由(6)和0≤pi≤1,当γ>0时,可以得到
Figure GDA0003041945010000156
Figure GDA0003041945010000157
但是
Figure GDA0003041945010000158
工作者2的收益为空。
当γ≤0时,由p1≤1,p2≤1,有
Figure GDA0003041945010000159
同样由p3≥0,p3≥0,得
Figure GDA00030419450100001510
因为
Figure GDA00030419450100001511
所以
Figure GDA00030419450100001512
此外,由p1≥0,p2≥0,有
Figure GDA00030419450100001513
同样有p3≤1,p4≤1,有
Figure GDA00030419450100001514
因此,γ的范围为:
Figure GDA00030419450100001515
证毕。
注释1:从定理3得到:工作者1可以单方面的控制工作者2的长期收益,并使其范围固定
Figure GDA00030419450100001516
此外,也可以将该ZD策略算法用于解决任务要求者和任务工作者之间的博弈。具体的说,任务要求者可以采取ZD策略
Figure GDA00030419450100001517
控制整体的效益,还可以采用
Figure GDA00030419450100001518
去控制任务工作者期望收益,最终使社会效益达到最优。
3、实验结果:
为了验证ZD策略算法的有效性,本发明做了几个仿真实验,并对结果进行了比较和分析。
相关参数设置如下:v0=[0.25,0.25,0.25,0.25];r=10;c=1,c'=3;
Figure GDA0003041945010000161
α=-1,β=-7。
首先,将提出的两个ZD策略分别与TFT(以牙还牙策略)和Pavlov(胜-保持,败-改变)做比较。
当工作者1采取ZD策略
Figure GDA0003041945010000162
工作者2采取策略[1,0,0,1]时,社会效益和两个工作者的收益都能得到稳定且很高的水平。换句话说,在稳定状态工作者们都选择努力工作。而当工作者1采取TFT策略时,社会效益和工作者们的收益明显下降。
同样的,当工作者1采取ZD策略
Figure GDA0003041945010000163
工作者2采取策略[1,0.1,0,0.1]时,社会效益和工作者们的收益可以保持在很高且又稳定的水平。
但当工作者1将ZD策略换成Pavlov策略时,虽然收益也可以保持在不错且稳定的水平,但是得到稳态的收敛速度却很慢。
其次,在该ZD策略算法中,两个有关ZD策略定理的成立都需要合理的参数范围。为了观察参数对社会效益的影响,做了如下两个仿真实验。
分别取β=5,7,9,11,当工作者1采取ZD策略
Figure GDA0003041945010000164
可以达到最大社会效益时,社会收益能够得到稳定的状态,并且收敛速度与β的值成正相关。换句话说,当β在满足公式(4)的条件下,β的值越大,收敛速度越快。
同样的,当工作者1采取ZD策略
Figure GDA0003041945010000165
时,也会得到相似的结果。
最后,为了比较两个ZD策略的收敛速度,在其他条件都相同的情况下,分别让工作者1采取两个ZD策略。
工作者1采取ZD策略
Figure GDA0003041945010000166
的收敛速度小于工作者1采取ZD策略
Figure GDA0003041945010000167
的速度。
最后,当两个工作者都采取ZD策略时,收敛速度明显比一个工作者采取ZD策略时的速度要快。也就是说,当两个工作者都选择努力工作时,不管是社会效益还是工作者们的收益都会很好。
图3是本发明实施例提供的ZD策略P1的收益vs TFT的收益示意图。
图4是本发明实施例提供的ZD策略P1的收益vs Pavlov的收益示意图。
图5是本发明实施例提供的ZD策略P2的收益vs TFT的收益示意图。
图6是本发明实施例提供的ZD策略P2收益vs Pavlov收益示意图。
4、总结
本发明主要分析了如何在众包系统中运用ZD策略,进而促进任务工作者积极参与创新,提高众包系统的整体性能。巧妙的运用ZD策略,使得采用ZD策略的一方可以控制社会效益或对手的收益,进而使得整体效益达到稳定的最高水平。除此之外,仿真实验更进一步的验证了该ZD策略算法在解决众包系统中工作者合作问题的可靠性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种用于提高众包平台运行效率的方法,其特征在于,所述用于提高众包平台运行效率的方法包括:
首先,将工作者之间的互动映射成迭代博弈;
其次,利用零行列式ZD策略算法提高众包系统的整体效益;
最后,进行仿真实验模拟用以验证零行列式ZD策略算法;
方法所述将工作者之间的互动映射成迭代博弈中,每个工作者在每一迭代步都有两个策略选择;经过排列组合,得到每一迭代步共有四种情况{HH,HL,LH,LL},H代表策略努力工作,L代表策略不努力工作;用向量v=[v1,v2,v3,v4]'表示上述四种情况出现的概率;工作者的收益分别表示成
Figure FDA0003078524130000011
Figure FDA0003078524130000012
其中r为工作者都努力时所产生的效益,c为工作者都努力工作时每个工作者所消耗的代价,c'努力工作的工作者在对手不努力工作时所消耗的代价(c'>c);两个工作者的策略分别用混合策略p=[p1,p2,p3,p4],q=[q1,q2,q3,q4]表示,其中p1表示在上一轮迭代中两工作者都努力工作时,本轮工作者1选择努力工作的概率;则1-p1表示工作者1选择不努力工作的概率;p2表示上一轮为HL时,本轮工作者1选择努力工作的概率,1-p2表示上一轮为HL时,本轮工作者1选择不努力工作的概率;按相同的方法定义p3和p4;按相同的方法q1,q2,q3,q4表示工作者2在上一轮为分别为HH,HL,LH,LL时候,本轮采取努力工作的概率;
该过程用马尔科夫链来表示,相应的马尔科夫链由下面的转移概率矩阵M表示;
Figure FDA0003078524130000021
vs·M是一个随机矩阵,如果M正规,则它具有唯一的特征值为1的左向量,则有
vs·M=vs
这个特征向量vs表示马尔科夫链的平稳分布;两个工作者的期望收益w1,w2如下:
w1=vsU1,w2=vsU2;
令M'=M-I,其中I为单位矩阵,则v's·M'=0;由克拉姆法则和拉普拉斯变换得到:
Figure FDA0003078524130000022
当f=αU1+βU2-γ1时,α,β,γ为标量,令
Figure FDA0003078524130000023
Figure FDA0003078524130000024
然后将得到
αw1+βw2-γ=0 (1);
就将此时的p称为零行列式ZD策略;
方法所述利用零行列式ZD策略算法提高众包系统的整体效益中,当单方工作者采取零行列式ZD策略时,使所有工作者的收益成线性关系;
根据公式(1),当工作者1采取零行列策略时,不管工作者2采取何种策略,两工作者的期望收益成线性关系;
由于工作者1既控制着他的收益又控制着另一个工作者的收益,所以当工作者1收益增加时要想工作者2的收益也增加,也就意味着α/β≤0;同时由
Figure FDA0003078524130000031
得到工作者1的策略需满足:
Figure FDA0003078524130000032
由0≤pi≤1(i=1,2,3,4),可以得到:
Figure FDA0003078524130000033
经过数学推导,得到各个参数的范围:
Figure FDA0003078524130000034
在此基础上,工作者2在面对采取零行列式ZD策略的工作者1时,不断的改变自己的策略去最大化自身的收益。
2.如权利要求1所述的用于提高众包平台运行效率的方法,其特征在于,当工作者1采取零行列式ZD策略致力于实现最高社会效益时,可以得到具体的零行列式ZD策略为:
Figure FDA0003078524130000041
此时,工作者之间的博弈得到了均衡,而且社会效益为
Figure FDA0003078524130000042
具体包括:当工作者1为了实现最高社会效益,则有:
Figure FDA0003078524130000043
进而得到零行列式ZD策略:
Figure FDA0003078524130000044
经计算可得(5);根据公式(4),工作者1能够单方面的控制两者的收益成如下线性关系:
Figure FDA0003078524130000045
此时博弈得到了一个均衡;而且两工作者的社会效益得到最大;
令α=0,此时,工作者1能够采取零行列式ZD策略
Figure FDA0003078524130000046
实现βw2-γ=0;经过数学推导得到具体的零行列式ZD策略如下:
Figure FDA0003078524130000047
经过化简:β和γ都可以由p1,p2,p3,p4表示;进一步化简得:工作者2的期望收益可以只由p1,p4表示;具体的:
Figure FDA0003078524130000048
当工作者1采取零行列式ZD策略
Figure FDA0003078524130000051
时,控制工作者2的期望收益,并且将工作者2的期望收益控制在一定的范围;记
Figure FDA0003078524130000052
3.如权利要求2所述的用于提高众包平台运行效率的方法,其特征在于,当工作者1采取零行列式ZD策略不管工作者2采取什么策略,并且
Figure FDA0003078524130000053
时,工作者1将工作者2的期望收益控制在
Figure FDA0003078524130000054
参数γ满足:
Figure FDA0003078524130000055
具体包括:由公式(6)和0≤pi≤1,当γ>0时,得到
Figure FDA0003078524130000056
Figure FDA0003078524130000057
但是
Figure FDA0003078524130000058
工作者2的收益为空;
当γ≤0时,由p1≤1,p2≤1,有
Figure FDA0003078524130000059
同样由p3≥0,p3≥0,
Figure FDA00030785241300000510
因为
Figure FDA00030785241300000511
所以
Figure FDA00030785241300000512
此外,由p1≥0,p2≥0,有
Figure FDA00030785241300000513
同样有p3≤1,p4≤1,
Figure FDA00030785241300000514
因此,γ的范围为:
Figure FDA0003078524130000061
4.如权利要求1所述的用于提高众包平台运行效率的方法,其特征在于,所述进行仿真实验模拟用以验证零行列式ZD策略算法中,设置相关参数:v0=[0.25,0.25,0.25,0.25];r=10;c=1,c'=3;
Figure FDA0003078524130000062
α=-1,β=-7;
具体包括:
首先,将提出的两个零行列式ZD策略分别与TFT以牙还牙策略和Pavlov策略做比较;
所述Pavlov为胜-保持与败-改变;
其次,在该零行列式ZD策略算法中,两个有关零行列式ZD策略定理的成立都需要合理的参数范围;分别取β=5,7,9,11,当工作者1采取零行列式ZD策略
Figure FDA0003078524130000063
达到最大社会效益时,社会收益能够得到稳定的状态,并且收敛速度与β的值成正相关;换句话说,当β在满足公式(4)的条件下,β的值越大,
收敛速度越快;同样的,当工作者1采取零行列式ZD策略
Figure FDA0003078524130000064
时,也会得到当β在满足公式(4)的条件下,β的值越大,收敛速度越快的结果;
最后比较两个零行列式ZD策略的收敛速度,在其他条件都相同的情况下,分别让工作者1采取两个零行列式ZD策略。
5.一种利用权利要求1所述用于提高众包平台运行效率的方法的用于提高众包平台运行效率的系统。
CN201710406646.3A 2017-06-02 2017-06-02 一种用于提高众包平台运行效率的方法 Active CN108984479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710406646.3A CN108984479B (zh) 2017-06-02 2017-06-02 一种用于提高众包平台运行效率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710406646.3A CN108984479B (zh) 2017-06-02 2017-06-02 一种用于提高众包平台运行效率的方法

Publications (2)

Publication Number Publication Date
CN108984479A CN108984479A (zh) 2018-12-11
CN108984479B true CN108984479B (zh) 2021-07-23

Family

ID=64501234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710406646.3A Active CN108984479B (zh) 2017-06-02 2017-06-02 一种用于提高众包平台运行效率的方法

Country Status (1)

Country Link
CN (1) CN108984479B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114905527A (zh) * 2022-05-31 2022-08-16 江苏经贸职业技术学院 一种基于马尔可夫链的足球机器人拦截方法及足球机器人

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794644A (zh) * 2015-04-16 2015-07-22 西安交通大学 一种面向智能服务引擎的任务众包方法
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN106204117A (zh) * 2016-06-30 2016-12-07 河南蓝海通信技术有限公司 多任务环境下众包平台定价方法
CN106462818A (zh) * 2014-06-09 2017-02-22 微软技术许可有限责任公司 评估众包环境中的工作者

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040176933A1 (en) * 2003-03-06 2004-09-09 International Business Machines Corporation Symbolic expansion of complex determinants

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462818A (zh) * 2014-06-09 2017-02-22 微软技术许可有限责任公司 评估众包环境中的工作者
CN104794644A (zh) * 2015-04-16 2015-07-22 西安交通大学 一种面向智能服务引擎的任务众包方法
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN106204117A (zh) * 2016-06-30 2016-12-07 河南蓝海通信技术有限公司 多任务环境下众包平台定价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种面向众包的基于信誉值的激励机制;芮兰兰等;《电子与信息学报》;20160731;第38卷(第7期);第1808-1815页 *

Also Published As

Publication number Publication date
CN108984479A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
Wang et al. A platform-free proof of federated learning consensus mechanism for sustainable blockchains
CN110442457A (zh) 基于联邦学习的模型训练方法、装置及服务器
Xu et al. Privacy-preserving incentive mechanism for multi-leader multi-follower IoT-edge computing market: A reinforcement learning approach
Lu et al. Auction-based cluster federated learning in mobile edge computing systems
WO2021212649A1 (zh) 一种入侵杂草算法求解资源受限项目调度方法
Mai et al. Automatic double-auction mechanism for federated learning service market in Internet of Things
CN113269461A (zh) 一种基于博弈的边缘计算资源管理方法
CN112215364A (zh) 一种基于强化学习的敌-友深度确定性策略方法及系统
He et al. Three-stage Stackelberg game enabled clustered federated learning in heterogeneous UAV swarms
Shen et al. Ringsfl: An adaptive split federated learning towards taming client heterogeneity
CN108984479B (zh) 一种用于提高众包平台运行效率的方法
Li et al. Online cooperative resource allocation at the edge: A privacy-preserving approach
CN116389270A (zh) 联邦学习中基于drl联合优化客户端选择和带宽分配的方法
Wang et al. Joint service caching, resource allocation and computation offloading in three-tier cooperative mobile edge computing system
Su et al. Game-based distributed pricing and task offloading in multi-cloud and multi-edge environments
Hu et al. Trusted resource allocation based on proof-of-reputation consensus mechanism for edge computing
Grupen et al. Cooperative multi-agent fairness and equivariant policies
Chen et al. An emd-based adaptive client selection algorithm for federated learning in heterogeneous data scenarios
CN117495052A (zh) 强化学习与遗传算法融合驱动的多农机多任务调度方法
Zhong et al. Can reinforcement learning find Stackelberg-Nash equilibria in general-sum Markov games with myopically rational followers?
CN112470123A (zh) 确定执行设备的动作选择方针
Miao et al. Zero-determinant strategy for cooperation enforcement in crowdsourcing
Fujita et al. Intelligent mining pool selection in the case of unobservable block withholding attack
Liu et al. Cooperative Stackelberg game based optimal allocation and pricing mechanism in crowdsensing
Guo et al. A leader-based cooperation-prompt protocol for the prisoner's dilemma game in multi-agent systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant