CN110442798B

CN110442798B - 基于网络表示学习的垃圾评论用户群组检测方法

Info

Publication number: CN110442798B
Application number: CN201910601396.8A
Authority: CN
Inventors: 魏巍; 王子扬; 陈志毅; 王赞博; 刘家邑; 杨佳鑫; 热克甫·艾则子
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2021-10-08
Anticipated expiration: 2039-07-03
Also published as: CN110442798A

Abstract

本发明公开了一种基于网络表示学习的垃圾评论用户群组检测方法，该方法包括以下步骤：1)采集用户对商品的评论并存储；2)垃圾评论活动信息建模，获得用户之间的共谋一致性；3)根据用户之间的共谋一致性，构造用户关系网络；4)根据用户关系网络估计用户之间的低阶关联性和高阶关联性；5)基于低阶关联性和高阶关联性，获得一个完整的模型

来对用户的表示进行学习；6)根据

学习到包含用户行为关系信息和网络拓扑结构信息的用户低维表示，从而计算两个用户的共谋可能性得分，通过计算Score_F(u_i，*)中最大的n个分数的平均值来获得用户u_i的分数，并根据用户分数的排序获得最终的检测结果。本发明能有效提升垃圾评论群组检测的准确率。

Description

基于网络表示学习的垃圾评论用户群组检测方法

技术领域

本发明涉及数据挖掘领域，尤其涉及一种基于网络表示学习的垃圾评论用户群组检测方法。

背景技术

垃圾评论检测是信息过滤技术的子类，它的目标在于识别和移除虚假评论，从而显著减轻这些评论带来的负面影响。近十年来，许多工作基于垃圾评论检测展开，这其中存在许多基于监督的方法，但这些方法很大程度上依赖于标记数据的大小，同时标记垃圾评论是一项耗时且困难的任务，这导致了垃圾评论标记数据的稀缺性和不可靠性。后来的研究者提出来许多无监督的方法，大致可以分成三类1)基于语言规则的方法2)基于个体行为特征的方法3)基于图的方法。然而现有的方法仍存在若干缺点：(i)许多基于语言的方法表现不佳，因为评论文本可以被用户操控，垃圾评论者通过调整他们的评论语言使得语言信息无法有效反映用户的特征。(ii)基于行为的方法和基于图的方法，这些方法通常只关注用户之间的直接关系而忽视了他们之间的潜在关系，如高阶邻域结构信息等，在进行检测时仍然具有较大的局限性。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于网络表示学习的垃圾评论用户群组检测方法。

本发明解决其技术问题所采用的技术方案是：一种基于网络表示学习的垃圾评论用户群组检测方法，包括以下步骤：

1)采集用户对商品的评论并存储；存储记录包括：用户集合U＝{u_i}_|U|，P＝{p_j}_|P|表示类别集合为C＝{c_i}_|C|中商品集合，评论记录集合X＝{x_ij}_|X|，其中，x_ij∈X表示用户u_i对商品p_j的评论，利用四元组(u_i,p_j,r,t)来表示用户u_i对于商品p_j在时间t发表的评分为r的评论，评论评分和评论时间分别用

和

表示；

2)垃圾评论活动信息建模，用户之间的共谋一致性为，

其中，η_PI(i,j)为通过用户对(u_i,u_j)共同评论的产品比例得出的置信分数，ζ为超参数，

为用户对(u_i,u_j)的一致性特征；

其中，

α_K为权重向量，ψ_(.)(i,j)为组合用户对(u_i,u_j)的所有成对一致性特征，包括；商品评分一致性、商品评分时间一致性、类别评分一致性、类别时间一致性；

3)根据用户之间的共谋一致性，构造用户关系网络，其中，用户为网络中的点，若两个用户u_i和u_j存在共同评论关系，则两个用户对应的点存在边l_ij，边l_ij的权值为计算得到的共谋一致性w_ij；

4)根据用户关系网络中点的直接连接信息估计用户之间的低阶关联性；根据用户关系网络中点的邻居结构信息来估计高阶关联性；

所述高阶关联性

其中，Pr(u_j|u_i)是通过基于内积的softmax函数来实现的共现概率，

其中，φ_j是当用户u_j被视为用户u_i的邻居时所对应的嵌入向量。

5)基于低阶关联性和高阶关联性，获得一个完整的模型来对用户的表示进行学习，

其中，O是所有用户嵌入向量所构成的矩阵，

是一个正则化项，γ是协调参数，在训练中用户表示o和邻居表示φ将会交替进行学习；

6)根据

学习到包含用户行为关系信息和网络拓扑结构信息的用户低维表示o，从而计算两个用户的共谋可能性得分

通过计算Score_F(u_i,*)中最大的n个分数的平均值来获得用户u_i的分数。

本发明产生的有益效果是：

1、本发明通过输入数据对用户组成的关系网络进行表示学习，从多个角度对用户之间的共谋性进行分析，更加有效的判断两个用户之间的共谋可能性，提升垃圾评论群组检测的准确率。

2、本发明提出的方法通过联合优化低阶关联性和高阶关联性，能够充分的挖掘用户之间的直接和潜在的联系，从而可以在用户的低维表示中保留用户的行为信息和用户关系网络的拓扑信息。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的垃圾评论群体检测的整体结构示意图；

图2是本发明实施例的AmazonCn数据集中用户对在成对特征上的分布图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种基于网络表示学习的垃圾评论用户群组检测方法，包括以下步骤：

1)采集用户对商品的评论；

利用P＝{p_j}_|P|来表示类别集合为C＝{c_i}_|C|中商品集合，U＝{u_i}_|U|和X＝{x_ij}_|X|分别为用户集合和评论记录集合，其中x_ij∈X表示用户u_i对商品p_j的评论，考虑到用户u_i可能对商品p_j发表多次评论，利用四元组(u_i,p_j,r,t)来表示用户u_i对于商品p_j在时间t发表的评分为r的评论，在其中评论评分和评论时间分别用

和

表示。

2)垃圾评论活动信息建模

首先分析成对用户的特征，将成对用户分为三类，垃圾评论者-垃圾评论者，垃圾评论者-非垃圾评论者和非垃圾评论者-非垃圾评论者。

一般而言，来自相同垃圾评论活动的垃圾评论者们会针对特定的商品发表一致评分和相似观点(促进或诋毁)的评论，因此，给定用户对(u_i,u_j)，判定商品评分一致性如下，

其中

代表着用户对(u_i,u_j)的平均评分偏差，它可以通过

来进行估计，P_i(j)表示用户u_i(j)评论的商品集合。

为了最大化垃圾评论活动的利益，垃圾评论者们会在一定时间内(不超过一个月)完成目标任务，这意味着垃圾评论者的评论在时间上将比正常评论者更加集中，因此针对用户对(u_i,u_j),判定商品时间一致性如下，

其中，

代表着用户对(u_i,u_j)的平均时间偏差，它可以通过

来进行估计，C和γ代表着平滑参数和权衡参数。

评分信息在类别上的一致性是衡量成对用户之间共谋特征的强烈信号。直观地说，当两个用户在共同评论类别上的评分分布是高度一致的，这两个用户更有可能是共谋者。针对用户对(u_i,u_j)，判定类别评分一致性如下，

其中，

并且C_i(j)是用户u_i(j)评论类别的集合，

代表用户在类别k上的平均评论评分。

其中

和c∈C_i∩C_j表示用户i和用户j之间的平均评分偏差。

和类别评分一致性类似，成对用户之间在共同评论的类别上的时间分布的一致性也是衡量这两个用户的共谋特征程度的一个有效的信号，针对用户对(u_i,u_j)，判定类别时间一致性如下，

其中C和γ将被设置为1和20，

表示用户i和用户j之间在共同评论的类别上的平均时间偏差,

表示用户i在类别k上的平均评论时间。

我们通过权重向量α来组合用户对(u_i,u_j)的所有成对特征，定义一致性特征为，

其中，∑_kα_k＝1(α_k≥0)并且所有的成对特征ψ_(.)(i,j)已经标准化到[0,1]。

为了更好的理解

的效果，我们对AmazonCn数据集上的部分数据进行了分析，不同用户对在一致性特征上的分布图如图2所示。从图2中可以看到，随着一致性特征值的增加，垃圾评论者-垃圾评论者用户对和非垃圾评论者-非垃圾评论者用户对的变化趋势是不同的。基于对实际数据的观察，我们更新用户之间的共谋一致性为，

其中ζ是一个超参数并且存在多种设置的方式，在这里设置为

从而可以过滤大部分非垃圾评论者-非垃圾评论者用户对，η_PI(i,j)

是一个置信分数通过用户对(u_i,u_j)共同评论的产品比例来得出。

低阶关联性建模

对于给定的用户对(u_i,u_j),低阶关联性用来衡量用户之间基于共同评论行为的共谋一致性。一个带符号的用户关系网络可以定义成二元组

其中包含用户的集合U＝{u_i}_|U|,以及正向边集合E⁺

和负向边集合E^-，同时满足E＝E⁺∪E^-＝{e_ij}_|E|。在网络中通过权重矩阵W∈R^|U|×|U|可以同时表示正向边和负向边，其中的每个元素w_ij∈W为通过用户成对特征分析后计算出的共谋一致性值。

可以通过似然函数最小化成对用户之间共谋可能的负对数似然估计，来估计用户之间的低阶关联性，

其中f(·,·；·)是似然函数，o_i(j)表示d维的用户嵌入向量。

许多方式可以用来对似然函数进行建模，在这里我们定义似然函数为：

其中||·||表示向量的弗罗贝尼乌斯范数(Frobenius norm)，δ表示一个平滑参数。通过这种方式，在所学到的用户嵌入中具有直接关联的用户对将会在低维空间中靠近。

高阶关联性建模

通过用户对之间的共同评论信息对低阶关联性进行建模是不足够的，并非所有的成对用户之间都有共同评论的商品，因此矩阵W的稀疏会造成较差的检测结果。直观上看，用户之间拥有更多相同的共同评论的邻居是这两个用户为共谋者的强烈信号。在这里不仅考虑用户关系网络中与用户直接连接的邻居，也考虑与用户非直接连接的邻居(经过k跳)。

为了建模每个用户的邻居网络结构，我们使用截断的随机游走算法(randomwalk)从每个点出发，在具有正负边的用户关系网络中随机移动k步，为了减少干扰，在这里只有在正向边上的移动是有效的。具体来说，对于每个用户u_i我们获得了r个最大长度为k的序列，因此我们总共获得了r×|U|个序列S⁺。

作为共谋者的用户对会共享更多参与垃圾评论活动的共同邻居，虽然他们可能没有直接的共同评论的行为。因此，需要根据用户之间的邻居结构来估计用户对的高阶相关性，在这里需要建模两种不同的角色：1)用户本身建模2)用户的邻居建模，因此采用skip-gram模型来进行学习，

在这里Pr(u_j|u_i)是通过基于内积的softmax函数来实现的共现概率，

在这里φ_j是当用户u_j被视为用户u_i的邻居时所对应的低维向量。

统一模型

基于低阶关联性和高阶关联性，我们提供了一个完整的模型来对用户的表示进行学习，

在这里O是所有用户嵌入向量所构成的矩阵,

是一个正则化项并且γ是一个协调参数，注意在训练中用户表示o和邻居表示φ将会交替进行优化学习。

垃圾评论者可能性分数计算

基于以上获取的用户向量表示，利用Frobenius距离来判断用户之间的共谋可能性。在学习用户嵌入向量时，高共谋可能性的用户将在低维空间中聚集，因此计算两个用户的共谋可能性得分为

其中o_i和o_j是两个用户在低维空间中的表示。通过计算Score_F(u_i,*)中最大的n个分数的平均值来获得用户u_i的分数，将所有用户按照分数进行排序，最后得到排序后的用户列表。这里n一般取20-50。例如：当用户总数为3000时，n取30。

根据用户列表，可以获得最终的垃圾评论者的检测结果：最后获得的用户列表是已经排好序一个列表，里面每个用户有一个对应的分数，分数越高的代表越有可能是垃圾评论者，这里由于是无监督学习，所以需要根据实际情况设定阈值，定义前多少人为垃圾评论者或者高于多少分数为垃圾评论者，阈值可以根据实际的数据集以及实际的目标来确定。本专利的主要目标是在最后的排序列表中将垃圾评论者排在非垃圾评论者之前。

经实验表明，相比已有主流方法，本发明的垃圾评论群组检测方法取得了更好的效果。实验采用两个基准在线评论数据集进行评估，即亚马逊中国网站评论数据集(AmazonCn)和Yelp平台旅馆评论数据集(YelpHotel)。数据集的详细信息如表1所示。

表1 数据集详细数据

实验部分旨在评估本发明所提出的垃圾评论群组检测模型在不同数据集上的有效性。具体来说，我们列出了AmazonCn数据集和YelpHotel数据集上的Precision@k、平均准确率AP(Average Precision)和AUC(Area Under ROC Curve)作为模型的评价指标，实验对比结果分别在表2、表3、表4和表5中给出。

表2 AmazonCn数据集P和AUC对比实验结果

表3 YelpHotel数据集AP和AUC对比实验结果

表4 AmazonCn数据集准确率对比实验结果

表5 Yelp数据集准确率对比实验结果

值得注意的是，从以上结果可以观察到，本发明提出的方法在不同数据集的任务指标中优于其他基准模型。因为这些模型大多数只考虑了用户之间的直接共谋关系，从而忽略了用户之间潜在的共谋关系，无法准确地检测出垃圾评论群体。通过联合优化低阶关联性和高阶关联性，本发明提出的方法能够充分的挖掘用户之间的直接和潜在的联系，从而可以在用户的低维表示中保留用户的行为信息和用户关系网络的拓扑信息。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于网络表示学习的垃圾评论用户群组检测方法，其特征在于，包括以下步骤：

1)采集用户对商品的评论并存储；存储记录包括：用户集合U＝{u_i}_|u|，P＝{p_j}_|P|表示类别集合为C＝{c_i}_|C|中商品集合，评论记录集合X＝{x_ij}_|x|，其中，x_ij∈X表示用户u_i对商品p_j的评论，利用四元组(u_i，p_j，r，t)来表示用户u_i对于商品p_j在时间t发表的评分为r的评论，评论评分和评论时间分别用