CN111292062B - 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质 - Google Patents

基于网络嵌入的众包垃圾工人检测方法、系统及存储介质 Download PDF

Info

Publication number
CN111292062B
CN111292062B CN202010083860.1A CN202010083860A CN111292062B CN 111292062 B CN111292062 B CN 111292062B CN 202010083860 A CN202010083860 A CN 202010083860A CN 111292062 B CN111292062 B CN 111292062B
Authority
CN
China
Prior art keywords
nodes
node
worker
path
workers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010083860.1A
Other languages
English (en)
Other versions
CN111292062A (zh
Inventor
邝砾
张欢
施如意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010083860.1A priority Critical patent/CN111292062B/zh
Publication of CN111292062A publication Critical patent/CN111292062A/zh
Application granted granted Critical
Publication of CN111292062B publication Critical patent/CN111292062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于网络嵌入的众包垃圾工人检测方法、系统及存储介质,基于工人的答案通过率构建了一个以工人和请求者为节点的众包异构网络;为众包异构网络中中心度不同的节点生成不同数目的不定长游走路径;对生成的路径进行正采样和负采样得到表示学习模型的训练数据;根据得到的数据训练HIN2Vec模型,以学习众包异构网络中工人节点的表示向量;基于工人向量利用OneClassSVM算法进行工人分类,以检测不同勾结模式的垃圾工人。本发明的检测方法能够高效检测不同勾结模式的众包垃圾工人。

Description

基于网络嵌入的众包垃圾工人检测方法、系统及存储介质
技术领域
本发明涉及机器学习领域,特别是一种基于网络嵌入的众包垃圾工人检测方法、系统及存储介质。
背景技术
众包是一种允许任务请求者将工作任务外包给非特定的大型网络大众,吸引大规模在线智慧群体(即工人)参与任务,快速解决问题的模式。众包平台中的垃圾工人是指本着最大化经济收益的目的,对请求者发布的任务提交大量快速随机的或重复的答案的一类工人。
在Amazon Mechanical Turk,CrowdFlower等众包平台,任务需求者(请求者)只需以小额报酬即可吸引大规模在线智慧群体(工人)参与任务,快速解决问题。这种经济且快捷的求解问题的新模式,已被广泛应用于解决情感分析、图像标注、实体识别等数据分析任务。然而众包平台的开放性以及经济奖励制度,使得平台中垃圾工人的比重不断增加。这些垃圾工人本着最大化经济收益的目的,会对请求者发布的任务提交大量快速随机的或重复的答案,这种行为一方面会造成数据污染,降低众包任务质量;另一方面会打消其他用户积极性,甚至造成平台失败。因此有效识别众包平台的垃圾工人变得尤为关键,而垃圾工人检测也已成为众包领域的一个热点问题。
为了抵御垃圾工人的威胁,研究者们已经提出了基于声誉的检测方法和基于验证的检测方法。基于声誉的方法根据工人在以往任务中的表现来决定其是否有资格参与任务,基于验证的方法通过设置测试问题来检测工人是否诚实,并组织审查者检查工人提交的答案以发现垃圾工人。然而基于声誉的方法难以检测出勾结同伙提升声誉的垃圾工人,基于验证的方法在面对大量通过勾结具有“良好”声誉的垃圾工人时,需要耗费时间金钱进行验证。而对于垃圾工人的勾结行为,研究者们有的考虑了工人之间的勾结,有的考虑了工人与请求者之间的勾结,并针对不同的勾结模式提出了各自的勾结检测方法。然而,现今还没有一种综合考虑以上两种、甚至更多勾结模式的检测方法,并且现有的勾结检测方法仅对有限类型的众包任务有效,这难以适应众包平台任务多类型的问题场景。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于网络嵌入的众包垃圾工人检测方法、系统及存储介质,高效检测不同勾结模式的垃圾工人。
为解决上述技术问题,本发明所采用的技术方案是:一种基于网络嵌入的众包垃圾工人检测方法,包括以下步骤:
1)根据原始的<工人,请求者,答案通过率>形式的输入数据构建一个由请求者节点、工人节点以及两种类型的边所组成的众包异构网络CHN;
2)为众包异构网络CHN中不同中心度的节点生成不同数目的不定长游走路径;
3)对生成的不定长游走路径进行正采样和负采样,生成<初始节点,目标节点,元路径,标签>形式的样本,以此作为CHN表示学习的训练集;
4)将训练集中每条样本视为一个预测任务,学习CHN中工人节点的表示向量;
5)将表示学习得到的工人节点的表示向量作为OneClassSVM算法的输入,进行工人分类以检测垃圾工人。
步骤1)的实现过程包括:
1)设定答案通过率阈值ε∈[0,1];
2)初始化众包异构网络CHN,使得该网络包含工人W和请求者R两种类型的节点,以及高可信边WR1和低可信边WR2两种类型的边;
3)针对原始数据中的每条<工人,请求者,答案通过率>形式的三元组,按照答案通过率高低为CHN添加边,即添加<初始节点,初始节点类型,目标节点,目标节点类型,边类型>形式的五元组,其中答案通过率DT∈[0,1]表示工人向请求者提交的所有答案中正确答案的比例;若DT≥ε,则CHN添加<工人,W,请求者,R,WR1>;若DT<ε,则CHN添加<工人,W,请求者,R,WR2>。
通过上述过程,本发明构建了一个语义丰富的众包异构网络,该网络能够有效反映出垃圾工人节点连接到其他节点时的DT值波动。
步骤2)的实现过程包括:
1)设定节点的初始路径数目n,游走停止概率p;
2)计算CHN中所有节点的中心度
Figure GDA0002447597290000031
其中x表示某一节点的邻居节点数目,y表示网络中所有节点数目;
3)将所有节点按照中心度由高到低排序,并将前50%的节点分配到high_centrality集合,后50%的节点分配到low_centrality集合;
4)根据节点所在集合,计算节点的路径数目l:若节点位于high_centrality集合,则
Figure GDA0002447597290000032
若节点位于low_centrality集合,则
Figure GDA0002447597290000033
5)按照节点的路径数目,为所有节点生成l条游走路径。
生成l条游走路径的具体实现过程包括:
1)设初始节点为v,初始化一条以v为起点的路径w,将路径的当前节点设置为v;
2)生成随机数isStop∈[0,1];若isStop大于或等于游走停止概率p,则进入步骤3);否则,返回路径w;
3)从当前节点的邻居节点中随机选择一个节点v′作为下一跳节点;
4)将v′添加到路径w,并将当前节点设置为v′,返回步骤2)。
本发明考虑节点中心度为节点不同数目生成不定长游走路径,有助于在减少表示学习时间的同时增强工人表示向量的可分性。
步骤3)的具体实现过程包括:
1)对生成的游走路径进行正采样,得到<初始节点,目标节点,元路径,标签>形式的数据,其中标签用于标注初始节点和目标节点之间是否存在元路径关系,若为1表示存在,为0表示不存在;设随机游走得到了路径
Figure GDA0002447597290000034
其中wi和rj分别表示第i个工人和第j个请求者,元路径长度不超过两跳,那么以w1为初始节点,正采样得到正样本<w1,r3,WR1,1>、<w1,w3,WR1-WR2,1>、<w1,r6,WR1-WR2-WR1,1>;
2)根据得到的正样本,针对每个正样本生成一定数目的负样本;
3)根据正样本集合进行负样本的过滤,排除错误生成的样本,得到作为CHN表示学习的训练集。
本发明在正采样和负采样的同时考虑错误样本的筛除,有助于生成样本丰富且可靠训练集。
步骤4)的具体实现过程包括:将步骤3)得到的每条<初始节点,目标节点,元路径,标签>形式的数据,视作一个二分类任务,通过一个单隐藏层的神经网络预测两个节点之间是否存在元路径关系,并结合反向传播算法和随机梯度下降算法进行模型训练,通过最大化目标函数更新神经网络各层间的权重,从而学习得到网络中工人节点的表示向量。
本发明通过预测节点之间的元路径关系,有效地捕捉了垃圾工人的网络特性,有助于提升工人表示向量的可分性。
步骤5)的具体实现过程包括:将步骤4)学习得到的部分普通工人向量作为训练集,学习一个分割普通工人和垃圾工人的超平面;将剩下的普通工人和垃圾工人向量作为测试集,对工人进行分类以检测垃圾工人。
本发明利用单类样本进行模型训练,即仅以普通工人作为训练样本,有助于解决具有不同勾结模式的垃圾工人的标记难问题。
相应地,本发明还提供了一种基于网络嵌入的众包垃圾工人检测系统,包括:
CHN构建单元,用于根据原始的<工人,请求者,答案通过率>形式的输入数据构建一个由请求者节点、工人节点以及两种类型的边所组成的众包异构网络CHN;
路径生成单元,用于为众包异构网络CHN中不同中心度的节点生成不同数目的不定长游走路径;
训练数据生成单元,用于对生成的不定长游走路径进行正采样和负采样,生成<初始节点,目标节点,元路径,标签>形式的样本,以此作为CHN表示学习的训练集;
CHN表示学习单元,用于将训练集中每条样本视为一个预测任务,学习CHN中工人节点的表示向量;
分类单元,用于将表示学习得到的工人节点的表示向量作为OneClassSVM算法的输入,进行工人分类以检测垃圾工人。
所述路径生成单元包括:
初始化模块,用于设定节点的初始路径数目n,游走停止概率p;
计算模块,用于计算CHN中所有节点的中心度
Figure GDA0002447597290000051
其中x表示某一节点的邻居节点数目,y表示网络中所有节点数目;
排序模块,用于将所有节点按照中心度由高到低排序,并将前50%的节点分配到high_centrality集合,后50%的节点分配到low_centrality集合;
路径数据计算模块,用于根据节点所在集合,计算节点的路径数目l:若节点位于high_centrality集合,则
Figure GDA0002447597290000052
若节点位于low_centrality集合,则
Figure GDA0002447597290000053
输出模块,用于按照节点的路径数目,为所有节点生成条游走路径。
作为一个发明构思,本发明还提供了一种计算机可读存储介质,其存储有程序,该程序用于执行上述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:本发明的检测方法能够高效检测不同勾结模式的垃圾工人,随机游走方法能够在降低模型训练时间的同时提升节点可分性。
附图说明
图1为基于异构网络的垃圾工人检测框架;
图2(a)为众包异构网络构建时的DT阈值;图2(b)为众包异构网络构建时的随机游走时的停止概率;
图3为三种勾结模式下垃圾工人检测方法的性能比较;(a)F1;(b)Recall;
图4为三种勾结模式下表示学习模型性能比较;(a)DeepWalk;(b)BiNE;(c)HIN2Vec。
具体实施方式
本发明提出的基于网络嵌入的众包垃圾工人检测方法的框架如图1所示,包括CHN构建、路径生成、训练数据生成、CHN表示学习以及工人分类五个部分。
1.CHN构建:根据原始的<工人,请求者,答案通过率>形式的输入数据构建一个由请求者节点、工人节点以及两种类型的边所组成的众包异构网络(CHN);
2.路径生成:提出一种基于节点中心度的不定长随机游走算法,运用该算法在CHN中随机游走,为不同中心度的节点生成不同数目的不定长游走路径;
3.训练数据生成:对生成的游走路径进行正采样和负采样,生成<初始节点,目标节点,元路径,标签>形式的样本,以此作为CHN表示学习的训练集;
4.CHN表示学习:将训练集中每条样本视为一个预测任务,利用HIN2Vec模型自动学习CHN中工人节点的表示向量;
5.工人分类:将表示学习得到的工人向量作为输入,利用OneClassSVM算法进行工人分类以检测垃圾工人。
五个部分的具体说明如下所示:
1.CHN构建:根据工人的答案通过率构建众包异构网络
1.1设定答案通过率阈值ε∈[0,1];
1.2初始化众包异构网络CHN,使得该网络包含工人W和请求者R两种类型的节点,以及高可信边WR1和低可信边WR2两种类型的边;
1.3针对原始数据中的每条<工人,请求者,答案通过率>形式的三元组,按照答案通过率高低为CHN添加边,即添加<初始节点,初始节点类型,目标节点,目标节点类型,边类型>形式的五元组,其中答案通过率表示工人向请求者提交的所有答案中正确答案的比例DT∈[0,1]:
1.3.1若DT≥ε,则CHN添加<工人,W,请求者,R,WR1>;
1.3.2若DT<ε,则CHN添加<工人,W,请求者,R,WR2>。
2.路径生成:在CHN上利用基于节点中心度的不定长随机游走算法生成多条路径
2.1设定节点的初始路径数目n,游走停止概率p;
2.2利用Degree Centrality算法计算CHN中所有节点的中心度
Figure GDA0002447597290000061
其中x表示某一节点的邻居节点数目,y表示网络中所有节点数目;
2.3将所有节点按照中心度由高到低排序,并将前50%的节点分配到high_centrality集合,后50%的节点分配到low_centrality集合;
2.4根据节点所在集合,计算节点的路径数目l:
2.4.1若节点位于high_centrality集合,则
Figure GDA0002447597290000062
2.4.2若节点位于low_centrality集合,则
Figure GDA0002447597290000063
2.5按照节点的路径数目,以该节点为初始节点生成l条游走路径,每条路径的生成方式如步骤2.5.1-2.5.4所示:
2.5.1假设初始节点为v,初始化一条以v为起点的路径w,将路径的当前节点设置为v;
2.5.2生成随机数isStop∈[0,1];
2.5.2.1若isStop大于等于游走停止概率p,则跳往2.5.3;
2.5.2.2若isStop小于游走停止概率p,则返回路径w;
2.5.3从当前节点的邻居节点中随机选择一个节点v′作为下一跳节点;
2.5.4将v′添加到路径w,并将当前节点设置为v′,返回步骤2.5.2。
3.训练数据生成:利用正采样和负采样技术生成表示学习的训练数据
3.1对生成的路径进行正采样,得到<初始节点,目标节点,元路径,标签>形式的数据,其中标签用于标注初始节点和目标节点之间是否存在元路径关系,若为1表示存在,为0表示不存在。假设随机游走得到了路径
Figure GDA0002447597290000071
Figure GDA0002447597290000072
假设元路径长度不超过两跳,那么以w1为初始节点,可以正采样得到<w1,r3,WR1,1>、<w1,w3,WR1-WR2,1>、<w1,r6,WR1-WR2-WR1,1>等正样本;
3.2根据得到的正样本,利用Word2Vec模型中的负采样思想,针对每个正样本生成一定数目的负样本。该负采样技术通过将正样本中的初始节点或目标节点替换成同类型的其他节点以生成负样本,例如针对正样本<w1,r3,WR1,1>,通过将w1替换成w2生成负样本<w2,r3,WR1,0>;
3.3根据正样本集合进行负样本的过滤,排除错误生成的样本,以保证训练集的可靠性。
4.CHN表示学习:利用HIN2Vec模型学习CHN中工人节点的表示向量
HIN2Vec模型将步骤3得到的每条<初始节点,目标节点,元路径,标签>形式的数据,视作一个二分类任务,通过一个单隐藏层的神经网络预测两个节点之间是否存在元路径关系,并结合反向传播算法和随机梯度下降算法进行模型训练。此外,该模型通过最大化目标函数logO更新神经网络各层间的权重,
Figure GDA0002447597290000073
其中(vi,vj,π)∈D,D表示训练样本集合,(vi,vj,π)表示<初始节点,目标节点,元路径>形式的样本,
Figure GDA0002447597290000081
用于衡量模型预测<vi,vj,π,L(vi,vj,π)>的准确率,其计算公式如下,P(π|vi,vj)表示模型预测vi和vj存在关系π的概率。
Figure GDA0002447597290000082
5.工人分类:利用OneClassSVM算法进行工人分类以检测垃圾工人
5.1在训练过程中,OneClassSVM算法将步骤4学习得到的部分普通工人向量作为训练集,学习一个分割普通工人和垃圾工人的超平面;
5.2在预测过程中,OneClassSVM算法将剩下的普通工人和垃圾工人向量作为测试集,对工人进行分类以检测垃圾工人。
实施例
为了定量分析方法性能,我们在真实的DBLP数据集上构建了模拟实验。本节首先介绍模拟数据集的构造,然后从调参、垃圾工人检测方法的整体性能、随机游走算法的有效性以及HIN2Vec表示学习的有效性四方面详细介绍实验过程,并对实验结果进行展示和分析。
(1)数据集
DBLP数据集是一个由作者和期刊组成的二分网络,其中边权重表示作者发表在目标期刊的论文数量,该网络的结构数据如表1所示。
表1 DBLP网络的数据
名称 DBLP
作者节点数目 6001
会议节点数目 1308
边数目 29256
网络密度 0.4%
由于DBLP网络来源于真实数据,其网络结构真实可靠,并且DBLP网络中作者向会议提交论文类似于众包异构网络中工人向请求者提交任务答案。因此我们借助于DBLP数据集的网络结构,将作者节点视为工人节点,会议节点视为请求者节点,通过模拟生成节点之间的DT值构造众包数据集。DT值的生成方式如下所示。
Figure GDA0002447597290000091
垃圾工人检测可视为一个二分类问题,所以检测结果可由表2的混淆矩阵表示,其中垃圾工人表示正例,普通工人表示负例。
表2垃圾工人检测的混淆矩阵
Figure GDA0002447597290000092
Figure GDA0002447597290000101
我们采用召回率Recall、精确率Precision、准确率Accuracy和F1作为评估指标,它们的定义如下所示。
Figure GDA0002447597290000102
Figure GDA0002447597290000103
Figure GDA0002447597290000104
Figure GDA0002447597290000105
(2)调参
由于本发明提出的垃圾工人检测方法涉及到多个参数,而不同的参数设定会影响节点表示学习的性能。我们对几个重要的参数值进行调节,观察工人分类后F1变化情况以确定参数默认值,这些参数包括:众包异构网络构建时的DT阈值以及随机游走时的停止概率。
首先,我们将DT阈值设定为0.05、0.25、0.45、0.65和0.85,观察F1的变化情况。由图2(a)可知,在一定范围内,随着DT值的增加,垃圾工人检测的F1也随之增加;而当DT值为0.45时,垃圾工人检测的F1随着DT值的增加而递减。由此可以发现阈值设置得过大和过小都会导致性能不佳,我们推测这是因为阈值过大和过小时,众包异构网络中两种类型的边的数量差距明显。当阈值为0或1时即为极端情况,此时网络中只有一种类型的边,而表示学习模型难以有效提取垃圾工人的特征,因而F1较低。由图2(a)可知,当阈值为0.45时F1达到峰值,因此在构建众包异构网络时将0.45作为DT阈值较为合适。
其次,我们将随机游走的停止概率设定为0.001、0.003、0.005、0.01、0.03、0.05和0.1,观察F1的变化情况。由图2(b)我们发现随着游走停止概率的增大,垃圾工人检测的F1不断减小。这是因为停止概率越大生成的路径越短,使得生成的训练数据不足,模型训练效果不佳。然而当停止概率极小时,大量未清洗的训练样本使得HIN2Vec模型训练时间增加、节点向量可分性降低。因此我们权衡了模型训练时间与垃圾工人检测的F1,最后将随机游走的停止概率设定为0.001。
(3)基于网络嵌入的众包垃圾工人检测方法的整体性能
我们将本发明提出的垃圾工人检测方法与众包领域其他的方法进行比较,以检验所提方法的有效性。对比的方法包括:(1)CrowdDefense方法:建立了一个众包信任网络,并计算网络中工人信任向量以此检测垃圾工人;(2)AMT方法:是一个基于工人答案通过率的信任模型,该模型应用于Amazon Mechanical Turk平台。在本实验中,我们采用F1和Recall作为评估指标。
图3显示了三种勾结模式下不同垃圾工人检测方法的F1和Recall结果,其中“+”标记曲线、“*”标记曲线和“.”标记曲线分别表示本发明方法、AMT方法和CrowdDefense方法的性能。从图3的(a)可以看出,随着垃圾工人的增加,在请求者主导型和混合型勾结模式中,本发明方法的F1总是远远高于其他两种方法的。这是因为AMT方法和CrowdDefense方法都是基于声誉的方法,他们并没有充分考虑垃圾工人勾结同伙提升声誉的不同勾结模式,因此这两种方法的检测效果要比本发明方法差。然而,在工人主导型的勾结模式中,本发明方法只是略胜于AMT方法。此外,从图3的(b)中可以看出,虽然CrowdDefense方法的Recall会随着垃圾工人的增加而增加,但是都低于40%。与之相反的是本发明方法的性能相对稳定,并且Recall都在80%以上。针对CrowdDefense方法表现不佳的问题,我们推测这是由于DT值模拟生成的方式不同造成的。CrowdDefense方法所采用的数据集假定垃圾工人在不存在勾结时的DT值极低,而本发明假定他们此时的DT值服从[0,1]的均匀分布。综上所述,本发明方法在F1和Recall上都优于其他两种方法,能够有效检测出具有不同勾结模式的垃圾工人。
(4)基于节点中心度的不定长随机游走的有效性
我们设计了两组试验来验证本发明随机游走算法的有效性,实验1比较了在传统的随机游走算法上考虑节点中心度、设置游走停止概率后,节点可分性以及模型训练时间的变化情况。实验2比较了在保证节点的平均路径数目不变的情况下,将节点按照中心度划分成不同数目的集合分配路径数目后,节点可分性以及模型训练时间的变化情况。
实验1我们采用OneClassSVM算法进行工人分类后的Precision、Recall、F1和Accuracy作为判断节点可分性的指标,采用HIN2Vec模型的训练时间作为时间评估指标。
表3不同随机游走方法的性能比较
Figure GDA0002447597290000121
由表3我们可以发现考虑节点中心度后,虽然Precision有所下降,但Recall、F1和Accuracy都有所上升,从总体性能上看,考虑节点中心度是有助于提升节点向量可分性的。我们发现传统的随机游走算法和考虑节点中心度的随机游走算法他们耗费在模型训练的时间是差不多的,这是因为节点的平均路径数目不变并且路径长度不变,所以采样得到的训练样本数目相近,因而模型训练时间比较接近。此外,我们在考虑节点中心度的基础上设置随机游走停止概率,发现节点的Recall、F1和Accuracy都有所上升,并且模型的训练时间大约降低了85%。我们猜测设置游走停止概率后,一方面,随机游走生成的不定长路径降低了路径总长度,因而减少了训练样本数目,降低了模型训练时间;另一方面,过多的未清理数据造成HIN2Vec模型的过拟合,使得模型学习得到的节点向量不再可靠,工人节点向量可分性不高。
实验2为了确认将节点分成两个集合分配路径数目的有效性,我们比较了在保证节点平均路径数目不变的情况下,将节点按照其中心度划分成一个集合、两个集合、三个集合以及四个集合,分配不同路径数目后节点可分性以及模型训练时间的变化情况。
表4不同集合数目的性能比较
Figure GDA0002447597290000122
由表4我们可以发现,将节点按照中心度划分成不同数目的集合后,节点可分性的差距并不明显。而模型训练时间却随着集合数目的增多而上升了,因此证明本发明将节点划分为两个集合进行路径数目分配是有效的。
(5)HIN2Vec表示学习模型的有效性
为了验证本发明使用的HIN2Vec表示学习模型的有效性,我们与DeepWalk模型和BiNE模型进行了比较。(1)DeepWalk:是一种同构网络嵌入方法,它通过执行统一的随机游走以获取节点序列,然后利用Word2Vec学习节点的向量表示;(2)BiNE:是一种加权二分网络的嵌入方法,通过执行有偏差的随机游走获得节点序列,然后利用SkipGram学习节点的向量表示。我们首先利用不同的模型学习众包异构网络中工人节点的特征向量,其次采用TSNE方法将原始的多维向量降至二维空间,然后可视化普通工人和垃圾工人的分布情况,以便观察不同模型得到的工人向量的可分性。
图4展示了三种勾结模式下不同表示学习模型的可视化结果,其中“。”标记点和“*”标记点分别表示垃圾工人和普通工人。从中我们可以看出,HIN2Vec在三种勾结模式下都能够有效地分割普通工人和垃圾工人,表明HIN2Vec学习得到的工人向量要显著优于DeepWalk和BiNE的。这是因为HIN2Vec通过预测节点之间的元路径关系,有效地捕捉了垃圾工人连接到其他参与者时出现的DT值波动,因而可以获取更为丰富的语义信息,提升工人向量的可分性。然而在图4的(c)中我们发现漏检的垃圾工人比预期的要多,我们分析原始数据后发现这些垃圾工人大多频繁地勾结同伙,因而产生了许多高于阈值的DT值。针对这类垃圾工人,人们难以单从DT值判定是否为垃圾工人。因此,这也侧面说明了我们有必要从真实的众包平台出发提取更多的信息,构建语义更丰富的众包异构网络,以提升表示学习模型的性能。

Claims (8)

1.一种基于网络嵌入的众包垃圾工人检测方法,其特征在于,包括以下步骤:
1)根据原始的<工人,请求者,答案通过率>形式的输入数据构建一个由请求者节点、工人节点以及两种类型的边所组成的众包异构网络CHN;
2)为众包异构网络CHN中不同中心度的节点生成不同数目的不定长游走路径;
步骤2)的实现过程包括:
21)设定节点的初始路径数目n,游走停止概率p;
22)计算CHN中所有节点的中心度
Figure FDA0004111615390000011
其中x表示某一节点的邻居节点数目,y表示网络中所有节点数目;
23)将所有节点按照中心度由高到低排序,并将前50%的节点分配到high_centrality集合,后50%的节点分配到low_centrality集合;
24)根据节点所在集合,计算节点的路径数目l:若节点位于high_centrality集合,则
Figure FDA0004111615390000012
若节点位于low_centrality集合,则
Figure FDA0004111615390000013
25)按照节点的路径数目,为所有节点生成游走路径;
3)对生成的不定长游走路径进行正采样和负采样,生成<初始节点,目标节点,元路径,标签>形式的样本,以此作为CHN表示学习的训练集;
4)将训练集中每条样本视为一个预测任务,学习CHN中工人节点的表示向量;
5)将表示学习得到的工人节点的表示向量作为OneClassSVM算法的输入,进行工人分类以检测垃圾工人。
2.根据权利要求1所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,步骤1)的实现过程包括:
1)设定答案通过率阈值ε∈[0,1];
2)初始化众包异构网络CHN,使得该网络包含工人W和请求者R两种类型的节点,以及高可信边WR1和低可信边WR2两种类型的边;
3)针对原始数据中的每条<工人,请求者,答案通过率>形式的三元组,按照答案通过率高低为CHN添加边,即添加<初始节点,初始节点类型,目标节点,目标节点类型,边类型>形式的五元组,其中答案通过率DT∈[0,1]表示工人向请求者提交的所有答案中正确答案的比例;若DT≥ε,则CHN添加<工人,W,请求者,R,WR1>;若DT<ε,则CHN添加<工人,W,请求者,R,WR2>。
3.根据权利要求1所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,生成l条游走路径的具体实现过程包括:
1)设初始节点为v,初始化一条以v为起点的路径w,将路径的当前节点设置为v;
2)生成随机数isStop∈[0,1];若isStop大于或等于游走停止概率p,则进入步骤3);否则,返回路径w;
3)从当前节点的邻居节点中随机选择一个节点v′作为下一跳节点;
4)将v′添加到路径w,并将当前节点设置为v′,返回步骤2)。
4.根据权利要求1所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,步骤3)的具体实现过程包括:
1)对生成的游走路径进行正采样,得到<初始节点,目标节点,元路径,标签>形式的数据,其中标签用于标注初始节点和目标节点之间是否存在元路径关系,若为1表示存在,为0表示不存在;设随机游走得到了路径
Figure FDA0004111615390000021
其中wi和rj分别表示第i个工人和第j个请求者,元路径长度不超过两跳,那么以w1为初始节点,正采样得到正样本<w1,r3,WR1,1>、<w1,w3,WR1-WR2,1>、<w1,r6,WR1-
WR2-WR1,1>;
2)根据得到的正样本,针对每个正样本生成一定数目的负样本;
3)根据正样本集合进行负样本的过滤,排除错误生成的样本,得到作为CHN表示学习的训练集。
5.根据权利要求1所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,步骤4)的具体实现过程包括:将步骤3)得到的每条<初始节点,目标节点,元路径,标签>形式的数据,视作一个二分类任务,通过一个单隐藏层的神经网络预测两个节点之间是否存在元路径关系,并结合反向传播算法和随机梯度下降算法进行模型训练,通过最大化目标函数更新神经网络各层间的权重,从而学习得到网络中工人节点的表示向量。
6.根据权利要求1所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,步骤5)的具体实现过程包括:将步骤4)学习得到的部分普通工人向量作为训练集,学习一个分割普通工人和垃圾工人的超平面;将剩下的普通工人和垃圾工人向量作为测试集,对工人进行分类以检测垃圾工人。
7.一种基于网络嵌入的众包垃圾工人检测系统,其特征在于,包括:
CHN构建单元,用于根据原始的<工人,请求者,答案通过率>形式的输入数据构建一个由请求者节点、工人节点以及两种类型的边所组成的众包异构网络CHN;
路径生成单元,用于为众包异构网络CHN中不同中心度的节点生成不同数目的不定长游走路径;
训练数据生成单元,用于对生成的不定长游走路径进行正采样和负采样,生成<初始节点,目标节点,元路径,标签>形式的样本,以此作为CHN表示学习的训练集;
CHN表示学习单元,用于将训练集中每条样本视为一个预测任务,学习CHN中工人节点的表示向量;
分类单元,用于将表示学习得到的工人节点的表示向量作为OneClassSVM算法的输入,进行工人分类以检测垃圾工人;
所述路径生成单元包括:
初始化模块,用于设定节点的初始路径数目n,游走停止概率p;
计算模块,用于计算CHN中所有节点的中心度
Figure FDA0004111615390000031
其中x表示某一节点的邻居节点数目,y表示网络中所有节点数目;
排序模块,用于将所有节点按照中心度由高到低排序,并将前50%的节点分配到high_centrality集合,后50%的节点分配到low_centrality集合;
路径数据计算模块,用于根据节点所在集合,计算节点的路径数目l:若节点位于high_centrality集合,则
Figure FDA0004111615390000041
若节点位于low_centrality集合,则
Figure FDA0004111615390000042
输出模块,用于按照节点的路径数目,为所有节点生成游走路径。
8.一种计算机可读存储介质,其特征在于,其存储有程序,该程序用于执行权利要求1~6之一所述方法的步骤。
CN202010083860.1A 2020-02-10 2020-02-10 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质 Active CN111292062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010083860.1A CN111292062B (zh) 2020-02-10 2020-02-10 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010083860.1A CN111292062B (zh) 2020-02-10 2020-02-10 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111292062A CN111292062A (zh) 2020-06-16
CN111292062B true CN111292062B (zh) 2023-04-25

Family

ID=71023597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010083860.1A Active CN111292062B (zh) 2020-02-10 2020-02-10 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111292062B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905820B (zh) * 2021-03-30 2022-11-11 山西大学 一种基于逻辑学习的多图检索方法
CN114880314B (zh) * 2022-05-23 2023-03-24 北京正远达科技有限公司 应用人工智能策略的大数据清洗决策方法及ai处理系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8955129B2 (en) * 2013-04-23 2015-02-10 Duke University Method and system for detecting fake accounts in online social networks
CN104133769B (zh) * 2014-08-02 2017-01-25 哈尔滨理工大学 基于心理学行为分析的众包欺诈检测方法
CN105184653A (zh) * 2015-09-08 2015-12-23 苏州大学 一种面向社交网络的基于信任的众包工人筛选方法
CN107767055B (zh) * 2017-10-24 2021-07-23 北京航空航天大学 一种基于串谋检测的众包结果汇聚方法及装置
CN108228728B (zh) * 2017-12-11 2020-07-17 北京航空航天大学 一种参数化的论文网络节点表示学习方法
CN109308497A (zh) * 2018-10-27 2019-02-05 北京航空航天大学 一种基于多标签网络的多向量表示学习方法

Also Published As

Publication number Publication date
CN111292062A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN110334742B (zh) 一种用于文档分类的基于强化学习的通过添加虚假节点的图对抗样本生成方法
Abd-Alsabour A review on evolutionary feature selection
Biswas et al. Teaching and learning best differential evoltuion with self adaptation for real parameter optimization
CN111292062B (zh) 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质
Xiong et al. A large-scale consensus model to manage non-cooperative behaviors in group decision making: A perspective based on historical data
CN115115389A (zh) 一种基于价值细分和集成预测的快递客户流失预测方法
CN117172875A (zh) 欺诈检测方法、装置、设备及存储介质
CN110830291A (zh) 一种基于元路径的异质信息网络的节点分类方法
Yan et al. A novel clustering algorithm based on fitness proportionate sharing
Leng et al. Interpretable stochastic block influence model: measuring social influence among homophilous communities
CN106815653B (zh) 一种基于距离博弈的社交网络关系预测方法及系统
CN112785156A (zh) 一种基于聚类与综合评价的产业领袖识别方法
Yolcu et al. A new fuzzy inference system for time series forecasting and obtaining the probabilistic forecasts via subsampling block bootstrap
Zhao An ant colony clustering algorithm
Chiu An early software-quality classification based on improved grey relational classifier
Saha et al. Multi-label collective classification using adaptive neighborhoods
Sun Algorithmic Fairness in Sequential Decision Making
Davarynejad et al. Accelerating convergence towards the optimal pareto front
Imran et al. A novel algorithm for class imbalance learning on big data using under sampling technique
Zou et al. FHC-DQP: Federated Hierarchical Clustering for Distributed QoS Prediction
Sood et al. Loss Functions in Link Prediction Based on Graph Neural Networks
Wickramarachchi et al. Temporal preferential attachment: Predicting new links in temporal social networks
Abd-Alsabour et al. Heuristic information for ant colony optimization for the feature selection problem
Zehnalova et al. Using self-organizing maps for identification of roles in social networks
Toghraee Evaluation of Meta-Heuristic Algorithms for Stable Feature Selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant