CN111292062A - 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质 - Google Patents

基于网络嵌入的众包垃圾工人检测方法、系统及存储介质 Download PDF

Info

Publication number
CN111292062A
CN111292062A CN202010083860.1A CN202010083860A CN111292062A CN 111292062 A CN111292062 A CN 111292062A CN 202010083860 A CN202010083860 A CN 202010083860A CN 111292062 A CN111292062 A CN 111292062A
Authority
CN
China
Prior art keywords
nodes
node
path
worker
chn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010083860.1A
Other languages
English (en)
Other versions
CN111292062B (zh
Inventor
邝砾
张欢
施如意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010083860.1A priority Critical patent/CN111292062B/zh
Publication of CN111292062A publication Critical patent/CN111292062A/zh
Application granted granted Critical
Publication of CN111292062B publication Critical patent/CN111292062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于网络嵌入的众包垃圾工人检测方法、系统及存储介质,基于工人的答案通过率构建了一个以工人和请求者为节点的众包异构网络;为众包异构网络中中心度不同的节点生成不同数目的不定长游走路径;对生成的路径进行正采样和负采样得到表示学习模型的训练数据;根据得到的数据训练HIN2Vec模型,以学习众包异构网络中工人节点的表示向量;基于工人向量利用OneClassSVM算法进行工人分类,以检测不同勾结模式的垃圾工人。本发明的检测方法能够高效检测不同勾结模式的众包垃圾工人。

Description

基于网络嵌入的众包垃圾工人检测方法、系统及存储介质
技术领域
本发明涉及机器学习领域,特别是一种基于网络嵌入的众包垃圾工人检测 方法、系统及存储介质。
背景技术
众包是一种允许任务请求者将工作任务外包给非特定的大型网络大众,吸引 大规模在线智慧群体(即工人)参与任务,快速解决问题的模式。众包平台中的垃 圾工人是指本着最大化经济收益的目的,对请求者发布的任务提交大量快速随机 的或重复的答案的一类工人。
在Amazon Mechanical Turk,CrowdFlower等众包平台,任务需求者(请求者) 只需以小额报酬即可吸引大规模在线智慧群体(工人)参与任务,快速解决问题。 这种经济且快捷的求解问题的新模式,已被广泛应用于解决情感分析、图像标注、 实体识别等数据分析任务。然而众包平台的开放性以及经济奖励制度,使得平台 中垃圾工人的比重不断增加。这些垃圾工人本着最大化经济收益的目的,会对请 求者发布的任务提交大量快速随机的或重复的答案,这种行为一方面会造成数据 污染,降低众包任务质量;另一方面会打消其他用户积极性,甚至造成平台失败。 因此有效识别众包平台的垃圾工人变得尤为关键,而垃圾工人检测也已成为众包 领域的一个热点问题。
为了抵御垃圾工人的威胁,研究者们已经提出了基于声誉的检测方法和基于 验证的检测方法。基于声誉的方法根据工人在以往任务中的表现来决定其是否有 资格参与任务,基于验证的方法通过设置测试问题来检测工人是否诚实,并组织 审查者检查工人提交的答案以发现垃圾工人。然而基于声誉的方法难以检测出勾 结同伙提升声誉的垃圾工人,基于验证的方法在面对大量通过勾结具有“良好”声 誉的垃圾工人时,需要耗费时间金钱进行验证。而对于垃圾工人的勾结行为,研 究者们有的考虑了工人之间的勾结,有的考虑了工人与请求者之间的勾结,并针 对不同的勾结模式提出了各自的勾结检测方法。然而,现今还没有一种综合考虑 以上两种、甚至更多勾结模式的检测方法,并且现有的勾结检测方法仅对有限类 型的众包任务有效,这难以适应众包平台任务多类型的问题场景。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于网络嵌 入的众包垃圾工人检测方法、系统及存储介质,高效检测不同勾结模式的垃圾工 人。
为解决上述技术问题,本发明所采用的技术方案是:一种基于网络嵌入的众 包垃圾工人检测方法,包括以下步骤:
1)根据原始的<工人,请求者,答案通过率>形式的输入数据构建一个由请 求者节点、工人节点以及两种类型的边所组成的众包异构网络CHN;
2)为众包异构网络CHN中不同中心度的节点生成不同数目的不定长游走 路径;
3)对生成的不定长游走路径进行正采样和负采样,生成<初始节点,目标 节点,元路径,标签>形式的样本,以此作为CHN表示学习的训练集;
4)将训练集中每条样本视为一个预测任务,学习CHN中工人节点的表示 向量;
5)将表示学习得到的工人节点的表示向量作为OneClassSVM算法的输入,
进行工人分类以检测垃圾工人。
步骤1)的实现过程包括:
1)设定答案通过率阈值ε∈[0,1];
2)初始化众包异构网络CHN,使得该网络包含工人W和请求者R两种类型 的节点,以及高可信边WR1和低可信边WR2两种类型的边;
3)针对原始数据中的每条<工人,请求者,答案通过率>形式的三元组,按 照答案通过率高低为CHN添加边,即添加<初始节点,初始节点类型,目 标节点,目标节点类型,边类型>形式的五元组,其中答案通过率DT∈ [0,1]表示工人向请求者提交的所有答案中正确答案的比例;若DT≥ε, 则CHN添加<工人,W,请求者,R,WR1>;若DT<ε,则CHN添加<工 人,W,请求者,R,WR2>。
通过上述过程,本发明构建了一个语义丰富的众包异构网络,该网络能够 有效反映出垃圾工人节点连接到其他节点时的DT值波动。
步骤2)的实现过程包括:
1)设定节点的初始路径数目n,游走停止概率p;
2)计算CHN中所有节点的中心度
Figure BDA0002381310410000031
其中x表示某一节点的邻居节点 数目,y表示网络中所有节点数目;
3)将所有节点按照中心度由高到低排序,并将前50%的节点分配到 high_centrality集合,后50%的节点分配到low_centrality集合;
4)根据节点所在集合,计算节点的路径数目l:若节点位于 high_centrality集合,则
Figure BDA0002381310410000032
若节点位于low_centrality集合, 则
Figure BDA0002381310410000033
5)按照节点的路径数目,为所有节点生成l条游走路径。
生成l条游走路径的具体实现过程包括:
1)设初始节点为v,初始化一条以v为起点的路径w,将路径的当前节点 设置为v;
2)生成随机数isStop∈[0,1];若isStop大于或等于游走停止概率p,则进 入步骤3);否则,返回路径w;
3)从当前节点的邻居节点中随机选择一个节点v′作为下一跳节点;
4)将v′添加到路径w,并将当前节点设置为v′,返回步骤2)。
本发明考虑节点中心度为节点不同数目生成不定长游走路径,有助于在减少 表示学习时间的同时增强工人表示向量的可分性。
步骤3)的具体实现过程包括:
1)对生成的游走路径进行正采样,得到<初始节点,目标节点,元路径, 标签>形式的数据,其中标签用于标注初始节点和目标节点之间是否存 在元路径关系,若为1表示存在,为0表示不存在;设随机游走得到 了路径
Figure BDA0002381310410000034
其中wi和rj分别表示第i个工人和第j个 请求者,元路径长度不超过两跳,那么以w1为初始节点,正采样得到 正样本<w1,r3,WR1,1>、<w1,w3,WR1-WR2,1>、<w1,r6,WR1- WR2-WR1,1>;
2)根据得到的正样本,针对每个正样本生成一定数目的负样本;
3)根据正样本集合进行负样本的过滤,排除错误生成的样本,得到作为CHN表示学习的训练集。
本发明在正采样和负采样的同时考虑错误样本的筛除,有助于生成样本丰富 且可靠训练集。
步骤4)的具体实现过程包括:将步骤3)得到的每条<初始节点,目标节点, 元路径,标签>形式的数据,视作一个二分类任务,通过一个单隐藏层的神经网 络预测两个节点之间是否存在元路径关系,并结合反向传播算法和随机梯度下降 算法进行模型训练,通过最大化目标函数更新神经网络各层间的权重,从而学习 得到网络中工人节点的表示向量。
本发明通过预测节点之间的元路径关系,有效地捕捉了垃圾工人的网络特性, 有助于提升工人表示向量的可分性。
步骤5)的具体实现过程包括:将步骤4)学习得到的部分普通工人向量作 为训练集,学习一个分割普通工人和垃圾工人的超平面;将剩下的普通工人和垃 圾工人向量作为测试集,对工人进行分类以检测垃圾工人。
本发明利用单类样本进行模型训练,即仅以普通工人作为训练样本,有助于 解决具有不同勾结模式的垃圾工人的标记难问题。
相应地,本发明还提供了一种基于网络嵌入的众包垃圾工人检测系统,包括:
CHN构建单元,用于根据原始的<工人,请求者,答案通过率>形式的输入 数据构建一个由请求者节点、工人节点以及两种类型的边所组成的众包异构网络 CHN;
路径生成单元,用于为众包异构网络CHN中不同中心度的节点生成不同数 目的不定长游走路径;
训练数据生成单元,用于对生成的不定长游走路径进行正采样和负采样,生 成<初始节点,目标节点,元路径,标签>形式的样本,以此作为CHN表示学习 的训练集;
CHN表示学习单元,用于将训练集中每条样本视为一个预测任务,学习CHN 中工人节点的表示向量;
分类单元,用于将表示学习得到的工人节点的表示向量作为OneClassSVM 算法的输入,进行工人分类以检测垃圾工人。
所述路径生成单元包括:
初始化模块,用于设定节点的初始路径数目n,游走停止概率p;
计算模块,用于计算CHN中所有节点的中心度
Figure BDA0002381310410000051
其中x表示某一节点的 邻居节点数目,y表示网络中所有节点数目;
排序模块,用于将所有节点按照中心度由高到低排序,并将前50%的节点 分配到high_centrality集合,后50%的节点分配到low_centrality集合;
路径数据计算模块,用于根据节点所在集合,计算节点的路径数目l:若节 点位于high_centrality集合,则
Figure BDA0002381310410000052
若节点位于low_centrality集合,则
Figure BDA0002381310410000053
输出模块,用于按照节点的路径数目,为所有节点生成条游走路径。
作为一个发明构思,本发明还提供了一种计算机可读存储介质,其存储有程 序,该程序用于执行上述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:本发明的检测方法能够高效 检测不同勾结模式的垃圾工人,随机游走方法能够在降低模型训练时间的同时提 升节点可分性。
附图说明
图1为基于异构网络的垃圾工人检测框架;
图2(a)为众包异构网络构建时的DT阈值;图2(b)为众包异构网络构 建时的随机游走时的停止概率;
图3为三种勾结模式下垃圾工人检测方法的性能比较;(a)F1;(b)Recall;
图4为三种勾结模式下表示学习模型性能比较;(a)DeepWalk;(b)BiNE; (c)HIN2Vec。
具体实施方式
本发明提出的基于网络嵌入的众包垃圾工人检测方法的框架如图1所示, 包括CHN构建、路径生成、训练数据生成、CHN表示学习以及工人分类五个部 分。
1.CHN构建:根据原始的<工人,请求者,答案通过率>形式的输入数据构建 一个由请求者节点、工人节点以及两种类型的边所组成的众包异构网络(CHN);
2.路径生成:提出一种基于节点中心度的不定长随机游走算法,运用该算法 在CHN中随机游走,为不同中心度的节点生成不同数目的不定长游走路径;
3.训练数据生成:对生成的游走路径进行正采样和负采样,生成<初始节点, 目标节点,元路径,标签>形式的样本,以此作为CHN表示学习的训练集;
4.CHN表示学习:将训练集中每条样本视为一个预测任务,利用HIN2Vec 模型自动学习CHN中工人节点的表示向量;
5.工人分类:将表示学习得到的工人向量作为输入,利用OneClassSVM算 法进行工人分类以检测垃圾工人。
五个部分的具体说明如下所示:
1.CHN构建:根据工人的答案通过率构建众包异构网络
1.1设定答案通过率阈值ε∈[0,1];
1.2初始化众包异构网络CHN,使得该网络包含工人W和请求者R两种类型的 节点,以及高可信边WR1和低可信边WR2两种类型的边;
1.3针对原始数据中的每条<工人,请求者,答案通过率>形式的三元组,按 照答案通过率高低为CHN添加边,即添加<初始节点,初始节点类型,目标节点, 目标节点类型,边类型>形式的五元组,其中答案通过率表示工人向请求者提交 的所有答案中正确答案的比例DT∈[0,1]:
1.3.1若DT≥ε,则CHN添加<工人,W,请求者,R,WR1>;
1.3.2若DT<ε,则CHN添加<工人,W,请求者,R,WR2>。
2.路径生成:在CHN上利用基于节点中心度的不定长随机游走算法生成多 条路径
2.1设定节点的初始路径数目n,游走停止概率p;
2.2利用Degree Centrality算法计算CHN中所有节点的中心度
Figure BDA0002381310410000061
其中x表 示某一节点的邻居节点数目,y表示网络中所有节点数目;
2.3将所有节点按照中心度由高到低排序,并将前50%的节点分配到 high_centrality集合,后50%的节点分配到low_centrality集合;
2.4根据节点所在集合,计算节点的路径数目l:
2.4.1若节点位于high_centrality集合,则
Figure BDA0002381310410000062
2.4.2若节点位于low_centrality集合,则
Figure BDA0002381310410000063
2.5按照节点的路径数目,以该节点为初始节点生成l条游走路径,每条路径 的生成方式如步骤2.5.1-2.5.4所示:
2.5.1假设初始节点为v,初始化一条以v为起点的路径w,将路径的当前节点 设置为v;
2.5.2生成随机数isStop∈[0,1];
2.5.2.1若isStop大于等于游走停止概率p,则跳往2.5.3;
2.5.2.2若isStop小于游走停止概率p,则返回路径w;
2.5.3从当前节点的邻居节点中随机选择一个节点v′作为下一跳节点;
2.5.4将v′添加到路径w,并将当前节点设置为v′,返回步骤2.5.2。
3.训练数据生成:利用正采样和负采样技术生成表示学习的训练数据
3.1对生成的路径进行正采样,得到<初始节点,目标节点,元路径,标签> 形式的数据,其中标签用于标注初始节点和目标节点之间是否存在元路径关系, 若为1表示存在,为0表示不存在。假设随机游走得到了路径
Figure BDA0002381310410000071
Figure BDA0002381310410000072
假设元路径长度不超过两跳,那么以w1为初始节点,可以正采样得到< w1,r3,WR1,1>、<w1,w3,WR1-WR2,1>、<w1,r6,WR1-WR2-WR1,1>等 正样本;
3.2根据得到的正样本,利用Word2Vec模型中的负采样思想,针对每个正 样本生成一定数目的负样本。该负采样技术通过将正样本中的初始节点或目标节 点替换成同类型的其他节点以生成负样本,例如针对正样本<w1,r3,WR1,1>, 通过将w1替换成w2生成负样本<w2,r3,WR1,0>;
3.3根据正样本集合进行负样本的过滤,排除错误生成的样本,以保证训练 集的可靠性。
4.CHN表示学习:利用HIN2Vec模型学习CHN中工人节点的表示向量
HIN2Vec模型将步骤3得到的每条<初始节点,目标节点,元路径,标签>形 式的数据,视作一个二分类任务,通过一个单隐藏层的神经网络预测两个节点之 间是否存在元路径关系,并结合反向传播算法和随机梯度下降算法进行模型训练。 此外,该模型通过最大化目标函数logO更新神经网络各层间的权重,
Figure BDA0002381310410000073
Figure BDA0002381310410000074
其中(vi,vj,π)∈D,D表示训练样本集合,(vi,vj,π) 表示<初始节点,目标节点,元路径>形式的样本,
Figure BDA0002381310410000081
用于衡量模型 预测<vi,vj,π,L(vi,vj,π)>的准确率,其计算公式如下,P(π|vi,vj)表示模型预测 vi和vj存在关系π的概率。
Figure BDA0002381310410000082
5.工人分类:利用OneClassSVM算法进行工人分类以检测垃圾工人
5.1在训练过程中,OneClassSVM算法将步骤4学习得到的部分普通工人向 量作为训练集,学习一个分割普通工人和垃圾工人的超平面;
5.2在预测过程中,OneClassSVM算法将剩下的普通工人和垃圾工人向量作 为测试集,对工人进行分类以检测垃圾工人。
实施例
为了定量分析方法性能,我们在真实的DBLP数据集上构建了模拟实验。本 节首先介绍模拟数据集的构造,然后从调参、垃圾工人检测方法的整体性能、随 机游走算法的有效性以及HIN2Vec表示学习的有效性四方面详细介绍实验过程, 并对实验结果进行展示和分析。
(1)数据集
DBLP数据集是一个由作者和期刊组成的二分网络,其中边权重表示作者发 表在目标期刊的论文数量,该网络的结构数据如表1所示。
表1DBLP网络的数据
名称 DBLP
作者节点数目 6001
会议节点数目 1308
边数目 29256
网络密度 0.4%
由于DBLP网络来源于真实数据,其网络结构真实可靠,并且DBLP网络中 作者向会议提交论文类似于众包异构网络中工人向请求者提交任务答案。因此我 们借助于DBLP数据集的网络结构,将作者节点视为工人节点,会议节点视为请 求者节点,通过模拟生成节点之间的DT值构造众包数据集。DT值的生成方式 如下所示。
Figure BDA0002381310410000091
垃圾工人检测可视为一个二分类问题,所以检测结果可由表2的混淆矩阵表 示,其中垃圾工人表示正例,普通工人表示负例。
表2垃圾工人检测的混淆矩阵
Figure BDA0002381310410000092
Figure BDA0002381310410000101
我们采用召回率Recall、精确率Precision、准确率Accuracy和F1作为评估指标,它们的定义如下所示。
Figure BDA0002381310410000102
Figure BDA0002381310410000103
Figure BDA0002381310410000104
Figure BDA0002381310410000105
(2)调参
由于本发明提出的垃圾工人检测方法涉及到多个参数,而不同的参数设定会 影响节点表示学习的性能。我们对几个重要的参数值进行调节,观察工人分类后 F1变化情况以确定参数默认值,这些参数包括:众包异构网络构建时的DT阈值 以及随机游走时的停止概率。
首先,我们将DT阈值设定为0.05、0.25、0.45、0.65和0.85,观察F1的变 化情况。由图2(a)可知,在一定范围内,随着DT值的增加,垃圾工人检测的F1 也随之增加;而当DT值为0.45时,垃圾工人检测的F1随着DT值的增加而递 减。由此可以发现阈值设置得过大和过小都会导致性能不佳,我们推测这是因为 阈值过大和过小时,众包异构网络中两种类型的边的数量差距明显。当阈值为0 或1时即为极端情况,此时网络中只有一种类型的边,而表示学习模型难以有效 提取垃圾工人的特征,因而F1较低。由图2(a)可知,当阈值为0.45时F1达到 峰值,因此在构建众包异构网络时将0.45作为DT阈值较为合适。
其次,我们将随机游走的停止概率设定为0.001、0.003、0.005、0.01、0.03、 0.05和0.1,观察F1的变化情况。由图2(b)我们发现随着游走停止概率的增大, 垃圾工人检测的F1不断减小。这是因为停止概率越大生成的路径越短,使得生 成的训练数据不足,模型训练效果不佳。然而当停止概率极小时,大量未清洗的 训练样本使得HIN2Vec模型训练时间增加、节点向量可分性降低。因此我们权 衡了模型训练时间与垃圾工人检测的F1,最后将随机游走的停止概率设定为 0.001。
(3)基于网络嵌入的众包垃圾工人检测方法的整体性能
我们将本发明提出的垃圾工人检测方法与众包领域其他的方法进行比较,以 检验所提方法的有效性。对比的方法包括:(1)CrowdDefense方法:建立了一个 众包信任网络,并计算网络中工人信任向量以此检测垃圾工人;(2)AMT方法: 是一个基于工人答案通过率的信任模型,该模型应用于Amazon Mechanical Turk 平台。在本实验中,我们采用F1和Recall作为评估指标。
图3显示了三种勾结模式下不同垃圾工人检测方法的F1和Recall结果,其 中“+”标记曲线、“*”标记曲线和“.”标记曲线分别表示本发明方法、AMT方法和 CrowdDefense方法的性能。从图3的(a)可以看出,随着垃圾工人的增加,在请 求者主导型和混合型勾结模式中,本发明方法的F1总是远远高于其他两种方法 的。这是因为AMT方法和CrowdDefense方法都是基于声誉的方法,他们并没 有充分考虑垃圾工人勾结同伙提升声誉的不同勾结模式,因此这两种方法的检测 效果要比本发明方法差。然而,在工人主导型的勾结模式中,本发明方法只是略 胜于AMT方法。此外,从图3的(b)中可以看出,虽然CrowdDefense方法的Recall 会随着垃圾工人的增加而增加,但是都低于40%。与之相反的是本发明方法的性能相对稳定,并且Recall都在80%以上。针对CrowdDefense方法表现不佳的问 题,我们推测这是由于DT值模拟生成的方式不同造成的。CrowdDefense方法所 采用的数据集假定垃圾工人在不存在勾结时的DT值极低,而本发明假定他们此 时的DT值服从[0,1]的均匀分布。综上所述,本发明方法在F1和Recall上都优 于其他两种方法,能够有效检测出具有不同勾结模式的垃圾工人。
(4)基于节点中心度的不定长随机游走的有效性
我们设计了两组试验来验证本发明随机游走算法的有效性,实验1比较了 在传统的随机游走算法上考虑节点中心度、设置游走停止概率后,节点可分性 以及模型训练时间的变化情况。实验2比较了在保证节点的平均路径数目不变 的情况下,将节点按照中心度划分成不同数目的集合分配路径数目后,节点可 分性以及模型训练时间的变化情况。
实验1我们采用OneClassSVM算法进行工人分类后的Precision、 Recall、F1和Accuracy作为判断节点可分性的指标,采用HIN2Vec模型的训 练时间作为时间评估指标。
表3不同随机游走方法的性能比较
Figure BDA0002381310410000121
由表3我们可以发现考虑节点中心度后,虽然Precision有所下降,但Recall、 F1和Accuracy都有所上升,从总体性能上看,考虑节点中心度是有助于提升节 点向量可分性的。我们发现传统的随机游走算法和考虑节点中心度的随机游走算 法他们耗费在模型训练的时间是差不多的,这是因为节点的平均路径数目不变并 且路径长度不变,所以采样得到的训练样本数目相近,因而模型训练时间比较接 近。此外,我们在考虑节点中心度的基础上设置随机游走停止概率,发现节点的 Recall、F1和Accuracy都有所上升,并且模型的训练时间大约降低了85%。我 们猜测设置游走停止概率后,一方面,随机游走生成的不定长路径降低了路径总 长度,因而减少了训练样本数目,降低了模型训练时间;另一方面,过多的未清 理数据造成HIN2Vec模型的过拟合,使得模型学习得到的节点向量不再可靠, 工人节点向量可分性不高。
实验2为了确认将节点分成两个集合分配路径数目的有效性,我们比较了在 保证节点平均路径数目不变的情况下,将节点按照其中心度划分成一个集合、两 个集合、三个集合以及四个集合,分配不同路径数目后节点可分性以及模型训练 时间的变化情况。
表4不同集合数目的性能比较
Figure BDA0002381310410000122
由表4我们可以发现,将节点按照中心度划分成不同数目的集合后,节点可 分性的差距并不明显。而模型训练时间却随着集合数目的增多而上升了,因此证 明本发明将节点划分为两个集合进行路径数目分配是有效的。
(5)HIN2Vec表示学习模型的有效性
为了验证本发明使用的HIN2Vec表示学习模型的有效性,我们与DeepWalk 模型和BiNE模型进行了比较。(1)DeepWalk:是一种同构网络嵌入方法,它通 过执行统一的随机游走以获取节点序列,然后利用Word2Vec学习节点的向量表 示;(2)BiNE:是一种加权二分网络的嵌入方法,通过执行有偏差的随机游走获 得节点序列,然后利用SkipGram学习节点的向量表示。我们首先利用不同的模 型学习众包异构网络中工人节点的特征向量,其次采用TSNE方法将原始的多维 向量降至二维空间,然后可视化普通工人和垃圾工人的分布情况,以便观察不同 模型得到的工人向量的可分性。
图4展示了三种勾结模式下不同表示学习模型的可视化结果,其中“。”标记 点和“*”标记点分别表示垃圾工人和普通工人。从中我们可以看出,HIN2Vec在 三种勾结模式下都能够有效地分割普通工人和垃圾工人,表明HIN2Vec学习得 到的工人向量要显著优于DeepWalk和BiNE的。这是因为HIN2Vec通过预测节 点之间的元路径关系,有效地捕捉了垃圾工人连接到其他参与者时出现的DT值 波动,因而可以获取更为丰富的语义信息,提升工人向量的可分性。然而在图4 的(c)中我们发现漏检的垃圾工人比预期的要多,我们分析原始数据后发现这些 垃圾工人大多频繁地勾结同伙,因而产生了许多高于阈值的DT值。针对这类垃 圾工人,人们难以单从DT值判定是否为垃圾工人。因此,这也侧面说明了我们 有必要从真实的众包平台出发提取更多的信息,构建语义更丰富的众包异构网络, 以提升表示学习模型的性能。

Claims (10)

1.一种基于网络嵌入的众包垃圾工人检测方法,其特征在于,包括以下步骤:
1)根据原始的<工人,请求者,答案通过率>形式的输入数据构建一个由请求者节点、工人节点以及两种类型的边所组成的众包异构网络CHN;
2)为众包异构网络CHN中不同中心度的节点生成不同数目的不定长游走路径;
3)对生成的不定长游走路径进行正采样和负采样,生成<初始节点,目标节点,元路径,标签>形式的样本,以此作为CHN表示学习的训练集;
4)将训练集中每条样本视为一个预测任务,学习CHN中工人节点的表示向量;
5)将表示学习得到的工人节点的表示向量作为0neClassSVM算法的输入,进行工人分类以检测垃圾工人。
2.根据权利要求1所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,步骤1)的实现过程包括:
1)设定答案通过率阈值ε∈[0,1];
2)初始化众包异构网络CHN,使得该网络包含工人W和请求者R两种类型的节点,以及高可信边WR1和低可信边WR2两种类型的边;
3)针对原始数据中的每条<工人,请求者,答案通过率>形式的三元组,按照答案通过率高低为CHN添加边,即添加<初始节点,初始节点类型,目标节点,目标节点类型,边类型>形式的五元组,其中答案通过率DT∈[0,1]表示工人向请求者提交的所有答案中正确答案的比例;若DT≥ε,则CHN添加<工人,W,请求者,R,WR1>;若DT<ε,则CHN添加<工人,W,请求者,R,WR2>。
3.根据权利要求1或2所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,步骤2)的实现过程包括:
1)设定节点的初始路径数目n,游走停止概率p;
2)计算CHN中所有节点的中心度
Figure FDA0002381310400000011
其中x表示某一节点的邻居节点数目,y表示网络中所有节点数目;
3)将所有节点按照中心度由高到低排序,并将前50%的节点分配到high_centrality集合,后50%的节点分配到low_centrality集合;
4)根据节点所在集合,计算节点的路径数目l:若节点位于high_centrality集合,则
Figure FDA0002381310400000021
若节点位于low_centrality集合,则
Figure FDA0002381310400000022
5)按照节点的路径数目,为所有节点生成游走路径。
4.根据权利要求3所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,生成l条游走路径的具体实现过程包括:
1)设初始节点为v,初始化一条以v为起点的路径w,将路径的当前节点设置为v;
2)生成随机数isStop∈[0,1];若isStop大于或等于游走停止概率p,则进入步骤3);否则,返回路径w;
3)从当前节点的邻居节点中随机选择一个节点v′作为下一跳节点;
4)将v′添加到路径w,并将当前节点设置为v′,返回步骤2)。
5.根据权利要求1所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,步骤3)的具体实现过程包括:
1)对生成的游走路径进行正采样,得到<初始节点,目标节点,元路径,标签>形式的数据,其中标签用于标注初始节点和目标节点之间是否存在元路径关系,若为1表示存在,为0表示不存在;设随机游走得到了路径
Figure FDA0002381310400000023
其中wi和rj分别表示第i个工人和第j个请求者,元路径长度不超过两跳,那么以w1为初始节点,正采样得到正样本<w1,r3,WR1,1>、<w1,w3,WR1-WR2,1>、<w1,r6,WR1-WR2-WR1,1>;
2)根据得到的正样本,针对每个正样本生成一定数目的负样本;
3)根据正样本集合进行负样本的过滤,排除错误生成的样本,得到作为CHN表示学习的训练集。
6.根据权利要求1所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,步骤4)的具体实现过程包括:将步骤3)得到的每条<初始节点,目标节点,元路径,标签>形式的数据,视作一个二分类任务,通过一个单隐藏层的神经网络预测两个节点之间是否存在元路径关系,并结合反向传播算法和随机梯度下降算法进行模型训练,通过最大化目标函数更新神经网络各层间的权重,从而学习得到网络中工人节点的表示向量。
7.根据权利要求1所述的基于网络嵌入的众包垃圾工人检测方法,其特征在于,步骤5)的具体实现过程包括:将步骤4)学习得到的部分普通工人向量作为训练集,学习一个分割普通工人和垃圾工人的超平面;将剩下的普通工人和垃圾工人向量作为测试集,对工人进行分类以检测垃圾工人。
8.一种基于网络嵌入的众包垃圾工人检测系统,其特征在于,包括:
CHN构建单元,用于根据原始的<工人,请求者,答案通过率>形式的输入数据构建一个由请求者节点、工人节点以及两种类型的边所组成的众包异构网络CHN;
路径生成单元,用于为众包异构网络CHN中不同中心度的节点生成不同数目的不定长游走路径;
训练数据生成单元,用于对生成的不定长游走路径进行正采样和负采样,生成<初始节点,目标节点,元路径,标签>形式的样本,以此作为CHN表示学习的训练集;
CHN表示学习单元,用于将训练集中每条样本视为一个预测任务,学习CHN中工人节点的表示向量;
分类单元,用于将表示学习得到的工人节点的表示向量作为OneClassSVM算法的输入,进行工人分类以检测垃圾工人。
9.根据权利要求8所述的基于网络嵌入的众包垃圾工人检测系统,其特征在于,所述路径生成单元包括:
初始化模块,用于设定节点的初始路径数目n,游走停止概率p;
计算模块,用于计算CHN中所有节点的中心度
Figure FDA0002381310400000031
其中x表示某一节点的邻居节点数目,y表示网络中所有节点数目;
排序模块,用于将所有节点按照中心度由高到低排序,并将前50%的节点分配到high_centrality集合,后50%的节点分配到low_centrality集合;
路径数据计算模块,用于根据节点所在集合,计算节点的路径数目l:若节点位于high_centrality集合,则
Figure FDA0002381310400000041
若节点位于low_centrality集合,则
Figure FDA0002381310400000042
输出模块,用于按照节点的路径数目,为所有节点生成条游走路径。
10.一种计算机可读存储介质,其特征在于,其存储有程序,该程序用于执行权利要求1~7之一所述方法的步骤。
CN202010083860.1A 2020-02-10 2020-02-10 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质 Active CN111292062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010083860.1A CN111292062B (zh) 2020-02-10 2020-02-10 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010083860.1A CN111292062B (zh) 2020-02-10 2020-02-10 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111292062A true CN111292062A (zh) 2020-06-16
CN111292062B CN111292062B (zh) 2023-04-25

Family

ID=71023597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010083860.1A Active CN111292062B (zh) 2020-02-10 2020-02-10 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111292062B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905820A (zh) * 2021-03-30 2021-06-04 山西大学 一种基于逻辑学习的多图检索方法
CN114880314A (zh) * 2022-05-23 2022-08-09 烟台聚禄信息科技有限公司 应用人工智能策略的大数据清洗决策方法及ai处理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140317736A1 (en) * 2013-04-23 2014-10-23 Telefonica Digital Espana, S.L.U. Method and system for detecting fake accounts in online social networks
CN104133769A (zh) * 2014-08-02 2014-11-05 哈尔滨理工大学 基于心理学行为分析的众包欺诈检测方法
CN105184653A (zh) * 2015-09-08 2015-12-23 苏州大学 一种面向社交网络的基于信任的众包工人筛选方法
CN107767055A (zh) * 2017-10-24 2018-03-06 北京航空航天大学 一种基于串谋检测的众包结果汇聚方法及装置
CN108228728A (zh) * 2017-12-11 2018-06-29 北京航空航天大学 一种参数化的论文网络节点表示学习方法
CN109308497A (zh) * 2018-10-27 2019-02-05 北京航空航天大学 一种基于多标签网络的多向量表示学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140317736A1 (en) * 2013-04-23 2014-10-23 Telefonica Digital Espana, S.L.U. Method and system for detecting fake accounts in online social networks
CN104133769A (zh) * 2014-08-02 2014-11-05 哈尔滨理工大学 基于心理学行为分析的众包欺诈检测方法
CN105184653A (zh) * 2015-09-08 2015-12-23 苏州大学 一种面向社交网络的基于信任的众包工人筛选方法
CN107767055A (zh) * 2017-10-24 2018-03-06 北京航空航天大学 一种基于串谋检测的众包结果汇聚方法及装置
CN108228728A (zh) * 2017-12-11 2018-06-29 北京航空航天大学 一种参数化的论文网络节点表示学习方法
CN109308497A (zh) * 2018-10-27 2019-02-05 北京航空航天大学 一种基于多标签网络的多向量表示学习方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905820A (zh) * 2021-03-30 2021-06-04 山西大学 一种基于逻辑学习的多图检索方法
CN112905820B (zh) * 2021-03-30 2022-11-11 山西大学 一种基于逻辑学习的多图检索方法
CN114880314A (zh) * 2022-05-23 2022-08-09 烟台聚禄信息科技有限公司 应用人工智能策略的大数据清洗决策方法及ai处理系统
CN114880314B (zh) * 2022-05-23 2023-03-24 北京正远达科技有限公司 应用人工智能策略的大数据清洗决策方法及ai处理系统

Also Published As

Publication number Publication date
CN111292062B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
Wang et al. A linguistic large group decision making method based on the cloud model
CN113191484B (zh) 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN112949837A (zh) 一种基于可信网络的目标识别联邦深度学习方法
Biswas et al. Teaching and learning best differential evoltuion with self adaptation for real parameter optimization
Hou et al. Prediction methods and applications in the science of science: A survey
CN107609084A (zh) 一种基于群智汇聚收敛的资源关联方法
Shi et al. Fedfaim: A model performance-based fair incentive mechanism for federated learning
CN112990385A (zh) 一种基于半监督变分自编码器的主动众包图像学习方法
CN111292062A (zh) 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质
Tian et al. An endo-confidence-based consensus with hierarchical clustering and automatic feedback in multi-attribute large-scale group decision-making
CN116227624A (zh) 面向异构模型的联邦知识蒸馏方法和系统
CN114218457B (zh) 一种基于转发社交媒体用户表征的假新闻检测方法
Tang et al. Credit and quality intelligent learning based multi-armed bandit scheme for unknown worker selection in multimedia MCS
CN115775026A (zh) 一种基于组织相似度的联邦学习方法
CN113361928B (zh) 一种基于异构图注意力网络的众包任务推荐方法
CN109919458B (zh) 社交网络中基于概念格的协作成本任务分配方法及其系统
CN115051929A (zh) 基于自监督目标感知神经网络的网络故障预测方法及装置
CN110110962A (zh) 一种任务群智执行团队的优选方法
CN116680633B (zh) 基于多任务学习的异常用户检测方法、系统及存储介质
CN112733035A (zh) 基于知识图谱的知识点推荐方法、装置、存储介质及电子装置
CN111753998A (zh) 多数据源的模型训练方法、装置、设备及存储介质
CN116306969A (zh) 基于自监督学习的联邦学习方法和系统
Zhang et al. AFOA: an adaptive fruit fly optimization algorithm with global optimizing ability
Sun Algorithmic Fairness in Sequential Decision Making
Wu et al. Network reconstruction and controlling based on structural regularity analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant