CN110442798B - 基于网络表示学习的垃圾评论用户群组检测方法 - Google Patents
基于网络表示学习的垃圾评论用户群组检测方法 Download PDFInfo
- Publication number
- CN110442798B CN110442798B CN201910601396.8A CN201910601396A CN110442798B CN 110442798 B CN110442798 B CN 110442798B CN 201910601396 A CN201910601396 A CN 201910601396A CN 110442798 B CN110442798 B CN 110442798B
- Authority
- CN
- China
- Prior art keywords
- user
- users
- network
- comment
- consistency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 230000006399 behavior Effects 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims 1
- 238000012552 review Methods 0.000 description 18
- 238000000034 method Methods 0.000 description 16
- 238000002474 experimental method Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于网络表示学习的垃圾评论用户群组检测方法,该方法包括以下步骤:1)采集用户对商品的评论并存储;2)垃圾评论活动信息建模,获得用户之间的共谋一致性;3)根据用户之间的共谋一致性,构造用户关系网络;4)根据用户关系网络估计用户之间的低阶关联性和高阶关联性;5)基于低阶关联性和高阶关联性,获得一个完整的模型来对用户的表示进行学习;6)根据学习到包含用户行为关系信息和网络拓扑结构信息的用户低维表示,从而计算两个用户的共谋可能性得分,通过计算ScoreF(ui,*)中最大的n个分数的平均值来获得用户ui的分数,并根据用户分数的排序获得最终的检测结果。本发明能有效提升垃圾评论群组检测的准确率。
Description
技术领域
本发明涉及数据挖掘领域,尤其涉及一种基于网络表示学习的垃圾评论用户群组检测方法。
背景技术
垃圾评论检测是信息过滤技术的子类,它的目标在于识别和移除虚假评论,从而显著减轻这些评论带来的负面影响。近十年来,许多工作基于垃圾评论检测展开,这其中存在许多基于监督的方法,但这些方法很大程度上依赖于标记数据的大小,同时标记垃圾评论是一项耗时且困难的任务,这导致了垃圾评论标记数据的稀缺性和不可靠性。后来的研究者提出来许多无监督的方法,大致可以分成三类1)基于语言规则的方法2)基于个体行为特征的方法3)基于图的方法。然而现有的方法仍存在若干缺点:(i)许多基于语言的方法表现不佳,因为评论文本可以被用户操控,垃圾评论者通过调整他们的评论语言使得语言信息无法有效反映用户的特征。(ii)基于行为的方法和基于图的方法,这些方法通常只关注用户之间的直接关系而忽视了他们之间的潜在关系,如高阶邻域结构信息等,在进行检测时仍然具有较大的局限性。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于网络表示学习的垃圾评论用户群组检测方法。
本发明解决其技术问题所采用的技术方案是:一种基于网络表示学习的垃圾评论用户群组检测方法,包括以下步骤:
1)采集用户对商品的评论并存储;存储记录包括:用户集合U={ui}|U|,P={pj}|P|表示类别集合为C={ci}|C|中商品集合,评论记录集合X={xij}|X|,其中,xij∈X表示用户ui对商品pj的评论,利用四元组(ui,pj,r,t)来表示用户ui对于商品pj在时间t发表的评分为r的评论,评论评分和评论时间分别用和表示;
2)垃圾评论活动信息建模,用户之间的共谋一致性为,
αK为权重向量,ψ(.)(i,j)为组合用户对(ui,uj)的所有成对一致性特征,包括;商品评分一致性、商品评分时间一致性、类别评分一致性、类别时间一致性;
3)根据用户之间的共谋一致性,构造用户关系网络,其中,用户为网络中的点,若两个用户ui和uj存在共同评论关系,则两个用户对应的点存在边lij,边lij的权值为计算得到的共谋一致性wij;
4)根据用户关系网络中点的直接连接信息估计用户之间的低阶关联性;根据用户关系网络中点的邻居结构信息来估计高阶关联性;
所述高阶关联性
其中,Pr(uj|ui)是通过基于内积的softmax函数来实现的共现概率,
其中,φj是当用户uj被视为用户ui的邻居时所对应的嵌入向量。
5)基于低阶关联性和高阶关联性,获得一个完整的模型来对用户的表示进行学习,
本发明产生的有益效果是:
1、本发明通过输入数据对用户组成的关系网络进行表示学习,从多个角度对用户之间的共谋性进行分析,更加有效的判断两个用户之间的共谋可能性,提升垃圾评论群组检测的准确率。
2、本发明提出的方法通过联合优化低阶关联性和高阶关联性,能够充分的挖掘用户之间的直接和潜在的联系,从而可以在用户的低维表示中保留用户的行为信息和用户关系网络的拓扑信息。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的垃圾评论群体检测的整体结构示意图;
图2是本发明实施例的AmazonCn数据集中用户对在成对特征上的分布图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于网络表示学习的垃圾评论用户群组检测方法,包括以下步骤:
1)采集用户对商品的评论;
利用P={pj}|P|来表示类别集合为C={ci}|C|中商品集合,U={ui}|U|和X={xij}|X|分别为用户集合和评论记录集合,其中xij∈X表示用户ui对商品pj的评论,考虑到用户ui可能对商品pj发表多次评论,利用四元组(ui,pj,r,t)来表示用户ui对于商品pj在时间t发表的评分为r的评论,在其中评论评分和评论时间分别用和表示。
2)垃圾评论活动信息建模
首先分析成对用户的特征,将成对用户分为三类,垃圾评论者-垃圾评论者,垃圾评论者-非垃圾评论者和非垃圾评论者-非垃圾评论者。
一般而言,来自相同垃圾评论活动的垃圾评论者们会针对特定的商品发表一致评分和相似观点(促进或诋毁)的评论,因此,给定用户对(ui,uj),判定商品评分一致性如下,
为了最大化垃圾评论活动的利益,垃圾评论者们会在一定时间内(不超过一个月)完成目标任务,这意味着垃圾评论者的评论在时间上将比正常评论者更加集中,因此针对用户对(ui,uj),判定商品时间一致性如下,
评分信息在类别上的一致性是衡量成对用户之间共谋特征的强烈信号。直观地说,当两个用户在共同评论类别上的评分分布是高度一致的,这两个用户更有可能是共谋者。针对用户对(ui,uj),判定类别评分一致性如下,
和类别评分一致性类似,成对用户之间在共同评论的类别上的时间分布的一致性也是衡量这两个用户的共谋特征程度的一个有效的信号,针对用户对(ui,uj),判定类别时间一致性如下,
我们通过权重向量α来组合用户对(ui,uj)的所有成对特征,定义一致性特征为,
其中,∑kαk=1(αk≥0)并且所有的成对特征ψ(.)(i,j)已经标准化到[0,1]。
为了更好的理解的效果,我们对AmazonCn数据集上的部分数据进行了分析,不同用户对在一致性特征上的分布图如图2所示。从图2中可以看到,随着一致性特征值的增加,垃圾评论者-垃圾评论者用户对和非垃圾评论者-非垃圾评论者用户对的变化趋势是不同的。基于对实际数据的观察,我们更新用户之间的共谋一致性为,
是一个置信分数通过用户对(ui,uj)共同评论的产品比例来得出。
低阶关联性建模
和负向边集合E-,同时满足E=E+∪E-={eij}|E|。在网络中通过权重矩阵W∈R|U|×|U|可以同时表示正向边和负向边,其中的每个元素wij∈W为通过用户成对特征分析后计算出的共谋一致性值。
可以通过似然函数最小化成对用户之间共谋可能的负对数似然估计,来估计用户之间的低阶关联性,
其中f(·,·;·)是似然函数,oi(j)表示d维的用户嵌入向量。
许多方式可以用来对似然函数进行建模,在这里我们定义似然函数为:
其中||·||表示向量的弗罗贝尼乌斯范数(Frobenius norm),δ表示一个平滑参数。通过这种方式,在所学到的用户嵌入中具有直接关联的用户对将会在低维空间中靠近。
高阶关联性建模
通过用户对之间的共同评论信息对低阶关联性进行建模是不足够的,并非所有的成对用户之间都有共同评论的商品,因此矩阵W的稀疏会造成较差的检测结果。直观上看,用户之间拥有更多相同的共同评论的邻居是这两个用户为共谋者的强烈信号。在这里不仅考虑用户关系网络中与用户直接连接的邻居,也考虑与用户非直接连接的邻居(经过k跳)。
为了建模每个用户的邻居网络结构,我们使用截断的随机游走算法(randomwalk)从每个点出发,在具有正负边的用户关系网络中随机移动k步,为了减少干扰,在这里只有在正向边上的移动是有效的。具体来说,对于每个用户ui我们获得了r个最大长度为k的序列,因此我们总共获得了r×|U|个序列S+。
作为共谋者的用户对会共享更多参与垃圾评论活动的共同邻居,虽然他们可能没有直接的共同评论的行为。因此,需要根据用户之间的邻居结构来估计用户对的高阶相关性,在这里需要建模两种不同的角色:1)用户本身建模2)用户的邻居建模,因此采用skip-gram模型来进行学习,
在这里Pr(uj|ui)是通过基于内积的softmax函数来实现的共现概率,
在这里φj是当用户uj被视为用户ui的邻居时所对应的低维向量。
统一模型
基于低阶关联性和高阶关联性,我们提供了一个完整的模型来对用户的表示进行学习,
垃圾评论者可能性分数计算
基于以上获取的用户向量表示,利用Frobenius距离来判断用户之间的共谋可能性。在学习用户嵌入向量时,高共谋可能性的用户将在低维空间中聚集,因此计算两个用户的共谋可能性得分为其中oi和oj是两个用户在低维空间中的表示。通过计算ScoreF(ui,*)中最大的n个分数的平均值来获得用户ui的分数,将所有用户按照分数进行排序,最后得到排序后的用户列表。这里n一般取20-50。例如:当用户总数为3000时,n取30。
根据用户列表,可以获得最终的垃圾评论者的检测结果:最后获得的用户列表是已经排好序一个列表,里面每个用户有一个对应的分数,分数越高的代表越有可能是垃圾评论者,这里由于是无监督学习,所以需要根据实际情况设定阈值,定义前多少人为垃圾评论者或者高于多少分数为垃圾评论者,阈值可以根据实际的数据集以及实际的目标来确定。本专利的主要目标是在最后的排序列表中将垃圾评论者排在非垃圾评论者之前。
经实验表明,相比已有主流方法,本发明的垃圾评论群组检测方法取得了更好的效果。实验采用两个基准在线评论数据集进行评估,即亚马逊中国网站评论数据集(AmazonCn)和Yelp平台旅馆评论数据集(YelpHotel)。数据集的详细信息如表1所示。
表1 数据集详细数据
实验部分旨在评估本发明所提出的垃圾评论群组检测模型在不同数据集上的有效性。具体来说,我们列出了AmazonCn数据集和YelpHotel数据集上的Precision@k、平均准确率AP(Average Precision)和AUC(Area Under ROC Curve)作为模型的评价指标,实验对比结果分别在表2、表3、表4和表5中给出。
表2 AmazonCn数据集P和AUC对比实验结果
表3 YelpHotel数据集AP和AUC对比实验结果
表4 AmazonCn数据集准确率对比实验结果
表5 Yelp数据集准确率对比实验结果
值得注意的是,从以上结果可以观察到,本发明提出的方法在不同数据集的任务指标中优于其他基准模型。因为这些模型大多数只考虑了用户之间的直接共谋关系,从而忽略了用户之间潜在的共谋关系,无法准确地检测出垃圾评论群体。通过联合优化低阶关联性和高阶关联性,本发明提出的方法能够充分的挖掘用户之间的直接和潜在的联系,从而可以在用户的低维表示中保留用户的行为信息和用户关系网络的拓扑信息。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (5)
1.一种基于网络表示学习的垃圾评论用户群组检测方法,其特征在于,包括以下步骤:
1)采集用户对商品的评论并存储;存储记录包括:用户集合U={ui}|u|,P={pj}|P|表示类别集合为C={ci}|C|中商品集合,评论记录集合X={xij}|x|,其中,xij∈X表示用户ui对商品pj的评论,利用四元组(ui,pj,r,t)来表示用户ui对于商品pj在时间t发表的评分为r的评论,评论评分和评论时间分别用和表示;
2)垃圾评论活动信息建模,用户之间的共谋一致性为,
αK为权重向量,ψ(.)(i,j)为组合用户对(ui,uj)的所有成对一致性特征,包括;商品评分一致性、商品评分时间一致性、类别评分一致性、类别时间一致性;
3)根据用户之间的共谋一致性,构造用户关系网络,其中,用户为网络中的点,若两个用户ui和uj存在共同评论关系,则两个用户对应的点存在边lij,边lij的权值为计算得到的共谋一致性wij;
4)根据用户关系网络中点的直接连接信息估计用户之间的低阶关联性;根据用户关系网络中点的邻居结构信息来估计高阶关联性;
5.根据权利要求1所述的基于网络表示学习的垃圾评论用户群组检测方法,其特征在于,所述步骤6)中n的取值范围为20至50。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910601396.8A CN110442798B (zh) | 2019-07-03 | 2019-07-03 | 基于网络表示学习的垃圾评论用户群组检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910601396.8A CN110442798B (zh) | 2019-07-03 | 2019-07-03 | 基于网络表示学习的垃圾评论用户群组检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442798A CN110442798A (zh) | 2019-11-12 |
CN110442798B true CN110442798B (zh) | 2021-10-08 |
Family
ID=68428724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910601396.8A Active CN110442798B (zh) | 2019-07-03 | 2019-07-03 | 基于网络表示学习的垃圾评论用户群组检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442798B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259140B (zh) * | 2020-01-13 | 2023-07-28 | 长沙理工大学 | 一种基于lstm多实体特征融合的虚假评论检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8973097B1 (en) * | 2012-07-06 | 2015-03-03 | Google Inc. | Method and system for identifying business records |
CN104881795A (zh) * | 2015-05-16 | 2015-09-02 | 成都数联铭品科技有限公司 | 一种电商虚假评价的判断识别方法 |
CN105183715A (zh) * | 2015-08-31 | 2015-12-23 | 南京大学 | 一种基于词分布和文档特征的垃圾评论自动分类方法 |
CN109460508A (zh) * | 2018-10-10 | 2019-03-12 | 浙江大学 | 一种高效的垃圾评论用户群组检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095181B (zh) * | 2014-05-19 | 2017-12-29 | 株式会社理光 | 垃圾评论检测方法及设备 |
CN104484336B (zh) * | 2014-11-19 | 2017-12-19 | 湖州师范学院 | 一种中文评论分析方法及其系统 |
EP3200136A1 (en) * | 2016-01-28 | 2017-08-02 | Institut Mines-Telecom / Telecom Sudparis | Method for detecting spam reviews written on websites |
CN109408634A (zh) * | 2018-09-17 | 2019-03-01 | 重庆邮电大学 | 一种基于派系过滤的意见垃圾用户群检测方法 |
-
2019
- 2019-07-03 CN CN201910601396.8A patent/CN110442798B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8973097B1 (en) * | 2012-07-06 | 2015-03-03 | Google Inc. | Method and system for identifying business records |
CN104881795A (zh) * | 2015-05-16 | 2015-09-02 | 成都数联铭品科技有限公司 | 一种电商虚假评价的判断识别方法 |
CN105183715A (zh) * | 2015-08-31 | 2015-12-23 | 南京大学 | 一种基于词分布和文档特征的垃圾评论自动分类方法 |
CN109460508A (zh) * | 2018-10-10 | 2019-03-12 | 浙江大学 | 一种高效的垃圾评论用户群组检测方法 |
Non-Patent Citations (2)
Title |
---|
SPR2EP:A semi-supervised spam review detection framework;Yilmaz CM等;《2018IEEE》;20181231;正文第306-313页 * |
虚假评论检测研究综述;李璐旸等;《计算机学报》;20180415;正文第947-963页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110442798A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Binary PSO with mutation operator for feature selection using decision tree applied to spam detection | |
Fayazi et al. | Uncovering crowdsourced manipulation of online reviews | |
CN1316419C (zh) | 从形成模型的共同可能性进行预测 | |
US8738534B2 (en) | Method for providing with a score an object, and decision-support system | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
Huang et al. | A graph neural network-based node classification model on class-imbalanced graph data | |
Chen et al. | Robust multi-view k-means clustering with outlier removal | |
Wang et al. | An improved data characterization method and its application in classification algorithm recommendation | |
Shi et al. | Learning from heterogeneous sources via gradient boosting consensus | |
Ahmed et al. | Pattern Recognition: An Introduction | |
Ji et al. | A novel cluster center initialization method for the k-prototypes algorithms using centrality and distance | |
CN115510184A (zh) | 融入文档图和事件图的新闻核心事件检测方法 | |
Wang et al. | Introduction of artificial Intelligence | |
Qian et al. | A survey on multi-label feature selection from perspectives of label fusion | |
Pourbahrami et al. | A geometric-based clustering method using natural neighbors | |
ElAlami | Unsupervised image retrieval framework based on rule base system | |
Jena et al. | An integrated novel framework for coping missing values imputation and classification | |
CN110442798B (zh) | 基于网络表示学习的垃圾评论用户群组检测方法 | |
CN113392334B (zh) | 冷启动环境下的虚假评论检测方法 | |
Agrawal | Fundamentals of machine learning | |
Tang et al. | Graph neural network-based node classification with hard sample strategy | |
Hou | A new clustering validity index based on K-means algorithm | |
Qasem et al. | Constrained ant brood clustering algorithm with adaptive radius: A case study on aspect based sentiment analysis | |
Raza et al. | Introduction to feature selection | |
Le et al. | Choosing seeds for semi-supervised graph based clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |