CN107239983B

CN107239983B - 众包平台劳动者挑选方法

Info

Publication number: CN107239983B
Application number: CN201610181796.4A
Authority: CN
Inventors: 吴帆; 吴纯纯; 陈贵海
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-03-28
Filing date: 2016-03-28
Publication date: 2020-12-08
Anticipated expiration: 2036-03-28
Also published as: CN107239983A

Abstract

一种众包平台劳动者挑选方法，首先建立包含劳动者集合、背书权重集合以及背书关系集合L的有向图以表示劳动者之间的关系，然后预测劳动者的数据可信度，根据数据可信度选择劳动者参与任务，任务完成后，每个参与任务的劳动者得到该任务的任务得分，并调整劳动者的背书权重，本发明可以预测劳动者的数据可信度，请求者能够快速精确的挑选合格劳动者，提高了请求者的满意度，同时避免劳动者提前付出导致收益为负。

Description

众包平台劳动者挑选方法

技术领域

本发明涉及的是一种网络安全领域的技术，具体是一种众包平台劳动者挑选方法。

背景技术

众包是一种分布式的计算模式，通过互联网分配工作任务、发现创意或解决技术问题。其普遍的框架是一个请求者在众包平台上发布任务，劳动者贡献出自己收集的数据，请求者根据劳动者们的数据得出自己满意答案。

但是无法验证参与到众包平台的互联网用户的知识水平和可靠程度，以及防止故意提交虚假数据的恶意用户。众包平台容易遭受恶意行为，例如：虚假的客户评价、垃圾邮件等。除此之外，稂莠不齐的劳动者水平也使得请求者必须检测所提交的数据，这样就会导致劳动者无用的付出，使得无法通过检测的劳动者的得不到收益。

现有平台中存在歧视问题，歧视问题是信誉社会中一直存在的非常棘手的问题：当一个全新的用户进入信誉社会时，他可能永远也没机会被选中去执行一项任务，因为其他人在之前就已经有足够的时候去积累他们的信誉分数。更糟糕的是，这样的情况还会一直持续下去，因为新用户无法被选中去执行任务就无法建立自己的信誉，没有信誉积累又永远不可能被选中去执行任务，就这样陷入了恶性循环。

现有技术中的冷启动问题是另一个困扰信誉机制的难题。对于一个全新的系统来说，所有人的信誉都是初始值的时候，它不能对任何劳动者做任何推断，因为没有足够的历史数据，也没有额外的数据支持推断。请求者只能随机地从劳动者中挑选人去完成他的任务，这样他得到的数据质量很难得到保障，请求者的满意度也不会很高。这样的情形只有当劳动者的信息越来越多的时候才逐渐慢慢改善。

经过对现有技术的检索发现，中国专利文献号CN104956386A，公开日为2015年09月30日，公开了一种用于众包的全局货币，其包括(人类智能的)每个购买者和(人类智能的)出售者的所存储的可信度值，从而创建了其中购买者和出售者彼此依赖的生态系统。这种依赖性是可信度的全局货币的属性，其中购买者的可信度是参与该购买者所发布的HIT的出售者的可信度的函数，而出售者的可信度是与该HIT相关联的可信度得分的函数，所述HIT的可信度得分又进一步取决于购买者的可信度。在每次HIT完成时更新可信度得分并将其通过网络传播，该网络将HIT与购买者、出售者和平台连接，并将出售者与其他出售者以及购买者与其他购买者连接，购买者和出售者可根据其可信度得分来竞标、拍卖和转介HIT。但该方法和现有的应用于众包的方法一样，将参与者独立对待，认为每个人都是自私并且理性的，这样的假设过于理想化。

发明内容

本发明针对现有技术存在的上述不足，提出一种众包平台劳动者挑选方法。

本发明是通过以下技术方案实现的：

本发明通过预先建立包含劳动者集合、背书权重集合以及背书关系集合的有向图以表示劳动者之间的关系，然后预测劳动者的数据可信度，申请者根据数据可信度选择劳动者参与任务，任务完成后，每个参与任务的劳动者得到该任务的任务得分，并调整劳动者的背书权重。

所述的数据可信度为

其中：RS_i和RS_j为劳动者i和其背书者j的信誉分数，k为当前任务，

为劳动者i的所有背书者的集合，e_jk为背书者j在当前任务k相关领域上的专业水平，d_ji为j对i的背书权重。

所述的众包平台劳动者挑选方法的具体步骤包括：

1)建立有向图G(N,L,D)表示劳动者之间关系；

2)预测背书者关于当前任务的专业水平；

3)预测劳动者的数据可信度；

4)根据数据可信度选择劳动者；

5)给每个完成任务的劳动者一个任务得分并计算其信誉分数；

6)根据任务得分调整劳动者的背书权重。

所述的步骤2)具体包括以下步骤：

2.1)设立评分矩阵，一个维度表示劳动者，另一个维度表示所有不同的任务，该矩阵中项

为劳动者i关于任一任务x(x∈X)的估计任务得分，X为所有任务的集合，

2.2)通过优化损失函数

获得特征向量

和

其中，K为历史数据集合，r_it为任一劳动者i参与过的任务t的任务得分；

2.3)计算专业水平

所述的信誉分数

其中：CoT_i为劳动者i参与过的所有任务的集合。

所述的步骤6)具体包括以下步骤：

6.1)建立泛化逻辑函数

其中：CoW_t是所有参与过任务t的劳动者集合，α为任务t的时间衰减因子，

为平均任务得分；

6.2)计算时间衰减因子α；

6.3)计算背书权重

其中：A_ji和B_ji为d_ji的下界和上界，u为增长速率，v、Q、M为调节背书权重的调节参数。

所述的下界

上界

其中：

为初始权重，c_ji为容忍度。

所述的时间衰减因子α在当劳动者表现超过平均任务得分时，α＝α_well，否则α＝α_well，其中：α_ill＞α_well。

技术效果

与现有技术相比，本发明可以预测劳动者的数据可信度，请求者能够快速精确的挑选合格劳动者，提高了请求者的满意度，同时避免劳动者提前付出导致收益为负。

附图说明

图1为本发明流程示意图；

图2为背书权重调整示意图；

图3为请求者满意度示意图；

图4为歧视问题效果示意图；

图5为冷启动问题效果示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示，本发明首先建立包含劳动者集合N、背书权重集合D以及背书关系集合L的有向图G＝(N,L,D)以表示劳动者之间的关系，然后预测劳动者的数据可信度，根据数据可信度选择劳动者参与任务，任务完成后，每个参与任务的劳动者得到该任务的任务得分，并调整劳动者的背书权重。本发明包括以下步骤：

步骤1、建立有向图G(N,L,D)表示劳动者之间关系。

所述的劳动者的技能水平各不相同，并参与请求者提出的具有不同需求的任务。这些任务可能来自不同的领域，或者要求劳动者具有一定任务领域的知识。

所述的劳动者通过背书关系连接，表示支持信任关系。每个背书关系都具有一个背书权重。该劳动者的集合为N，边L为所有背书关系的集合，D为边上的背书权重的集合。用i代表任一劳动者，j表示i的任一背书者，其中i和j都为整数，j,i∈N。一条边l_ji(背书关系)表示j背书了i，l_ji∈L，d_ji为背书关系l_ji的背书权重，d_ji∈D。

所述的背书关系建立时，背书者对其所背书的劳动者提供一个初始背书权重

表示起初它对被背书者的信任程度。该背书者还需确定其容忍度c_ji表示信任程度的变化范围，则得到每个背书权重的上界为

其下界为

即d_ji∈(A_ji,B_ji)。

步骤2、预测背书者关于当前任务k的专业水平。

所述的背书者j同时也是劳动者，可能参与过当前任务k，将其在该任务上的任务得分r_jk作为其关于当前任务的专业水平e_jk。如果该劳动者没有参与过当前任务，则需要预测背书者的专业水平，本实施例中，采用协同过滤的方法去预测劳动者在一个任务上的专业水平。

步骤2.1、设立评分矩阵，一个维度表示劳动者，另一个维度表示所有不同的任务，该矩阵中项

为劳动者i关于任一任务x(x∈X)的估计任务得分(估值)，X为所有任务的集合，

即隐语义模型。该矩阵中有些项在历史数据K中存在真实值，即劳动者i参与过X中的一些任务并得到的任务得分。

所述的向量

的每一个维度代表了该任务x的某一个特征，向量

表示劳动者i在向量

的维度上的专长。因此，这两个向量的内积代表了劳动者与任务的交互，即表示

步骤2.2、特征向量

和

通过优化损失函数来获得，该损失函数为：

其中：K为所有的历史数据，即r_it为任一劳动者i对应参与过的任务t的任务得分(真实值)。式中第一项为了让隐语义模型与历史数据契合，第二项为了防止过拟合，参数λ为控制正则化的强度。

所述的损失函数通过随机梯度下降法来优化，通过遍历整个训练集(即K中的已知的任务得分)来优化特征向量

和

那么真实值与其估计值存在误差

将特征向量

和

往其梯度方向的相反方向移动，对每一条已知的真实值进行迭代知道收敛，即：

其中：γ控制下降的速率，也就是参数λ前进的步伐速度。

步骤2.3、计算估计背书者的专业水平e_jk。背书者j没有参与过当前任务k，则将其估值作为j的专业水平即

如果参与过当前任务k，则其专业水平真实值r_jk，公式为：

步骤3、预测劳动者的数据可信度。预测劳动者的数据可信度除了需要上述的背书者的专业水平e_jk，还需要考虑劳动者自身的信誉分数RS_i及其背书者的信誉分数RS_j，还有背书权重d_ji。

所述的劳动者自身的信誉分数凝结了其以往的表现，从一定程度上反映了其可靠性。背书者的信誉分数越高，那么被其背书的劳动者的数据可信度也越高。将这些因素结合得到劳动者i关于当前任务k的数据可信度的公式为

为劳动者i的所有背书者j的集合。

步骤4、根据数据可信度选择劳动者。请求者根据数据可信度选择其所需要的劳动者来参与当前任务。

步骤5、给每个完成当前任务的劳动者一个任务得分并计算其信誉分数。任务完成后，请求者给每个参与的劳动者以新的任务得分r_ik，来衡量其在这次的任务表现。

而后，计算其信誉分数

其中：CoT_i是劳动者i加入众包平台以来执行过的所有任务的集合。log项的目的是为了偏爱那些长期以来一直都表现良好的用户，因为如果只看平均值的话，短期内表现良好的用户将得到与长期表现良好的用户一样的分数，这样不公平。长期保持良好表现可以很大程度地体现一个人的可信任度。

步骤6、调整劳动者的背书权重。

6.1)建立泛化逻辑函数

其中：CoW_t是所有参与过任务t的劳动者集合，a为任务t的时间衰减因子，0<α<1，

表示所有参加过任务t的劳动者的平均任务得分。

6.2)计算时间衰减因子α，1＞α＞0，当劳动者表现超过平均任务得分时，α＝α_well，否则α＝α_well。

6.3)计算背书权重

u表示增长速率，v＞0影响了临近渐近线时最大增长率发生的值，Q取决于d(0)，M表示当Q＝v时的最大增长率。

如图2所示，这些参数都是用来定制设计者想要的S曲线以让这个函数的增加速率符合期望。图2就是泛化逻辑函数的一种特殊形式，函数输入值(Function Input)得到输出的背书权重(Degree of Endorsement)d_ji，是一个0-1之间的值。

实验结果：

用来对比的基准机制(Benchmark)是一个典型的信誉机制，它在选择的时候只考虑用户的信誉分数，而本发明(EndorTrust)在考虑信誉分数的同时还考虑了背书关系。

如图3所示，检测的是请求者的平均满意度(Average Rating)，可以看到本发明比起Benchmark得到了更高的请求者满意度。这都得益于本发明可以更精确地识别出能力更好的用户来完成请求者的任务，从而提高请求者满意度。

如图4所示，检测本发明对于歧视问题的效果。本发明可以通过背书打破歧视问题的恶性循环，那些真正有潜力的值得信任的新用户，在加入信誉社会的时候，虽然还没有累积自己的信誉分数(Reputation Score)，但是可以通过社会关系证明自己的实力，即被其他人背书，从而提高他的数据可信任度，也提高了他被选中去执行任务的机会

如图5所示，检测本发明对冷启动问题的效果，本发明可以通过背书效应让请求者更快速地识别出哪些是可信任的可靠的劳动者，但是传统的信誉机制Benchmark由于缺乏足够的信息只能慢慢地走过冷启动阶段。

本发明与现有技术相比，可以预测一个劳动者的数据可信度，从而避免了没被选中的劳动者提前付出导致收益为负，帮助请求者更快更精确地挑选出合格的劳动者，从而提高请求者满意度，解决了信誉机制中一直存在的歧视问题和冷启动问题。