CN109408634A

CN109408634A - 一种基于派系过滤的意见垃圾用户群检测方法

Info

Publication number: CN109408634A
Application number: CN201811083188.5A
Authority: CN
Inventors: 徐光侠; 胡梦潇; 蒋鹏; 吴佳健; 马创; 刘俊
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2019-03-01

Abstract

本发明请求保护一种基于派系过滤的意见垃圾用户群检测方法，涉及生成候选意见垃圾用户群和排名候选意见垃圾用户群两个部分。因为意见垃圾检测领域普遍缺乏标记数据，且人工标记在大规模数据集上不可行，所以本方法采用一种完全无监督的方法来检测意见垃圾用户群。首先将评论数据建模为评论者‑产品二分图，在此基础上产生评论者投影，基于派系过滤方法找到评论者投影中的候选意见垃圾用户群；接着，采用基于个人和基于群组的垃圾指标得到每个候选意见垃圾用户群的垃圾分数，利用垃圾分数对候选意见垃圾用户群进行排名，排名越靠前的群组可疑性越大。

Description

一种基于派系过滤的意见垃圾用户群检测方法

技术领域

本发明属于数据挖掘与知识发现领域，涉及在线评论网站的垃圾用户检测技术，具体涉及一种基于派系过滤的意见垃圾用户群检测方法。

背景技术

Web2.0的出现使人们由单纯的网络信息接受者转向信息贡献和创造者。电子商务的发展促使在线用户评论数量急剧增长，产品评论成为人们上网购物的重要参考信息。购买商品或消费前，用户往往会查看相关评论信息，如果评价积极，消费者的购买意向可能就会很大。因而随着网络应用的不断深入，在线“网络口碑”对商品销量及商家名誉的影响力越来越大。据哈佛大学研究报道，美国最大的评论网站Yelp的产品评分每增长一星，将为该产品创造5-9％的收入。

令人震惊的是，Yelp网站中14-20％的评论都是虚假评论。某些组织或个人在各种利益的驱动下开始利用网络信息监管的缺失，弄虚作假，制造虚假评论混淆视听，误导用户。不良商家会雇佣一批人撰写虚假好评以此来获得消费者的好感，或撰写虚假差评以此来诋毁对手的产品或服务。撰写虚假评论的人被称为意见垃圾用户，意见垃圾用户撰写的虚假评论被称为意见垃圾，受到虚假好评或虚假差评的产品被称为目标产品。垃圾评论问题由来已久，现今的垃圾评论活动已经衍生为团伙作案。针对某一目标产品，一群评论者一起发布大量的好评以此来提升产品的声誉，或者一起发布大量的差评以此来诋毁某产品，这样的一群协同工作的评论者被称为意见垃圾用户群。如果某产品在发布初期就遭受到意见垃圾用户群的攻击，那么攻击者将完全掌控消费者的情绪，这对产品的影响将是毁灭性的。清除网络垃圾，净化网络环境，为人们提供一个真实可信的信息获取平台的需求日益迫切。因此，关于意见垃圾用户群检测问题的研究，已成为国内外研究的热点，具有重要的应用价值。

在现有的意见垃圾检测领域中，研究方向主要分3类：垃圾意见检测、意见垃圾用户检测和意见垃圾用户群检测。目前国内外学者已经提出了很多方法用于检测意见垃圾和意见垃圾用户，但是关于意见垃圾用户群的检测问题一直没有得到广泛的研究。

目前国内外学者已经提出了很多方法用于垃圾意见检测/意见垃圾用户检测，但大多数方法主要侧重于开发纯基于内容的分类器。这些方法背后的基本思想是通过分析评论内容来检测垃圾意见/意见垃圾用户。然而，这种纯基于内容的分类器目前已经进入了一个瓶颈期，原因如下：(1)垃圾用户可以轻松地操纵评论内容，避免检测。例如，如果重复的文本评论被认为是垃圾意见，垃圾用户可能会简单地对内容进行更改。(2)纯基于内容的分类器经常被设计为特定的应用领域，不能轻易应用于不同的领域。(3)因为大多数基于内容的分类器通常需要真实的标签，但是带标注的真实数据集通常很难获得。过去常采用人工标注的方式来获得带标记的数据集，这种做法在大规模数据集上应用异常困难。

发明内容

为了克服上述现有技术中存在的缺陷，本发明的目的是提供一种基于派系过滤的意见垃圾用户群检测方法。派系过滤方法原本属于社区发现领域，它能够找到被检测图中的所有k极大团，即k连通图。连通图中任意两点之间都有连边，是一种关联极其紧密的图形。而意见垃圾用户群因为相互协作，群组成员之间的关系会比正常群组成员之间的关系更加紧密，所以垃圾用户群之间的紧密关系与k极大团很相似。并且，已经有研究表明评论用户之间存在隐式社区。所以，本方法通过派系过滤方法找到评论网络中个体之间关系紧密的子图，这样的子图很可能是具有强烈可疑性的候选垃圾用户群。

本发明首先基于派系过滤方法生成候选意见垃圾用户群，然后利用基于群组和基于个人的指标来共同衡量每个候选意见垃圾用户群的可疑性，最终得到候选意见垃圾用户群的可疑性排名列表。本方法是一种完全无监督的方法。

为了实现本发明的上述目的，本发明采用了一种两阶段的完全无监督的方法来检测意见垃圾用户群，无需进行数据标注，克服了数据标注瓶颈问题，提供了一种基于派系过滤的意见垃圾用户群检测方法。具体包括如下步骤：

S1将评论数据建模为评论者-产品二分图，在此基础上产生评论者投影，基于派系过滤方法找到评论者投影中的候选意见垃圾用户群；

S2采用基于个人和基于群组的垃圾指标得到每个候选意见垃圾用户群的垃圾分数，利用垃圾分数对候选意见垃圾用户群进行排名，产生候选垃圾用户群的排名，排名越靠前的群组可疑性越大。

上述S1中的具体处理步骤如下：

S11：收集评论的相关信息，包括评论者ID、产品ID、评论时间和评分；

S12：对收集到的评论数据进行预处理，去除评论者ID或者产品ID为空的值；

S13：构建评论数据的评论者-产品二分图；

S14：构建评论者投影；

S15：基于派系过滤方法生成候选意见垃圾用户群。

上述S13中所述的构建评论数据的评论者-产品二分图方法为：二分图的两组节点对应于评论者集和产品集，边对应于评论集。如果评论者评论了一个产品，那么该评论者和该产品之间就有一条连边。

上述S14中所述的构建评论者-产品二分图的评论者投影方法为：评论者投影是在评论者-产品二分图的基础上构建的单模投影，图中只有评论者节点。当且仅当两个评论者共同评论了一个相同的产品时，这两个评论者之间产生一条连边。评论者投影中各条边的权重代表两个评论者共同评论的相似性，权重值由产品评分偏差和评分时间间隔这两个因素共同决定。权重的计算公式具体为其中，P_i和P_j分别是由i和j评论的产品集；表示共同评论的相关性，其中，是评论者i和j评论产品p的时间，是评论者i和j对产品p的评分，α是指定的时间范围。注意，如果评论者i和j共同评论产品k超过时间窗口α或其评分偏差大于2，则不会考虑共同评论，即认为这个评论不存在可疑性。

上述S15中所述的基于派系过滤方法生成候选意见垃圾用户群方法为：首先，删除评论者投影中边权重为0的边；然后，找到评论者投影中的所有团，构造团-团重叠矩阵；接着，构建阈值矩阵；最后，利用阈值矩阵得到对应的候选意见垃圾用户群。

本发明中，构造团-团重叠矩阵方法为：团团重叠矩阵是对称的，矩阵的第x行第y列表示第x个团和第y个团的公共节点数。

本发明中，构建阈值矩阵方法为：给定参数k，将团-团重叠矩阵中非对角线上元素小于k-1，且对角线上元素小于k的所有项置为0，其他的元素置为1。

本发明中，利用阈值矩阵得到对应的候选意见垃圾用户群方法为：令所有对角线为1的团为k团，非对角线为1的团x、团y是相邻的。

上述S2中所述构建基于群组和基于个人的垃圾指标方法为：对于每一个候选意见垃圾用户群，首先进行特征抽取，包括基于结构的特征和基于行为的特征。然后进行垃圾指标的构建，本方法中涉及的垃圾指标分为两类，一类为个人垃圾指标，另一类为群组垃圾指标。本方法中涉及的群组垃圾指标具体包括评论紧密度、产品紧密度、群组评级偏差和群组规模，本方法中涉及的个人垃圾指标具体包括时间突发性、最大评论数量和平均评级偏差。

本发明中，为了减少小型垃圾用户群的偶然性，本方法使用的惩罚函数为其中，|R_g|代表群组g的评论者个数，|P_g|代表群组g的产品个数。

本发明中，评论紧密度的计算公式为其中，|V_g|代表群组g中的评论数，|R_g||P_g|代表群组g中的评论者集和产品集的笛卡尔积的基数。显而易见，群组成员针对目标产品共同撰写虚假评论数越多，评论紧密度的值就越大，该群组的可疑度就越高。另外，具有较少成员和目标产品的群体更有可能是巧合。所以，我们利用惩罚函数L(g)来减少小规模群组的影响。

在本发明中，产品紧密度的计算公式为该指标被定义为群组g中所有成员共同评论的产品数量与群组g中所有成员评论的产品总数的比例。其中P_r代表评论者r所评论的产品集，R_g代表群组g中的评论者集。

在本发明中，群组评级偏差的计算公式为其中，S²(p,g)为群组g中的评论者对产品p的评分的方差，取所有目标产品的平均方差，并使用逻辑函数将其限制在范围[0.5,1]。方差越大，垃圾程度越小。将整个公式乘上一个常数值2，于是这个指标的范围扩展为了(0,1)。最后，使用惩罚函数L(g)来减少小规模群组的影响。

在本发明中，群组规模的计算公式为其中，|R_g|代表群组g的评论者个数，使用逻辑函数对其进行归一化。

在本发明中，时间突发性的计算公式为其中，L(r)是评论者的最新评论日期，F(r)是评论者的第一次评论日期，α是用户指定的时间阈值，例如10天。

在本发明中，最大评论数量的计算公式为该指标计算一个评论者一天内的最多评论数，并根据所有数据的最大值对其进行归一化。其中V代表评论者r一天内的评论数，R代表评论者集。

在本发明中，平均评级偏差的计算公式为其中，P_r代表被评论者r评论的产品集，代表评论者r对产品p的评级，代表产品p的平均评分。评分最高为5分，那么最大的评分偏差为4，利用最大的评分偏差来进行归一化。

通过计算各垃圾指标的均值来得到垃圾分数，群组的垃圾分数可以衡量一个垃圾用户群的可疑程度。垃圾分数的计算公式为其中，GroupSI代表群组垃圾指标得分，IndividualSI代表个人垃圾指标得分。

本发明基于评论者的行为特征来检测意见垃圾用户群，克服了以往检测方法的弊端。以往的检测方法主要根据评论内容为突破口，通过检测评论文本内容来判断是否为垃圾评论，但是这种方法使得垃圾用户可以轻松地操纵评论内容，避免检测。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的检测方法概述图；

图2是本发明的二分图模型；

图3是本发明的候选垃圾用户群的生成过程；

图4是本发明的垃圾分数的构建过程。

具体实施方式

下面结合附图对本发明的具体实施作进一步的详细阐明。

本发明提供了一种基于派系过滤的意见垃圾用户群检测方法，图1是本发明一种基于派系过滤的意见垃圾用户群检测方法的检测方法概述图，其包括如下步骤：

第一步：生成候选意见垃圾用户群，主要基于派系过滤方法检测出意见垃圾用户群。在本实施方式中，生成候选意见垃圾用户群的步骤为：

S13：构建评论数据的评论者-产品二分图；

S14：构建评论者投影；

S15：基于派系过滤方法生成候选意见垃圾用户群。

在本发明的实施方式中，构建评论数据的评论者-产品二分图的方法为：二分图的两组节点对应于评论者集和产品集，边对应于评论集。如果评论者评论了一个产品，那么该评论者和该产品之间就有一条连边。图2a显示了由4个评论者和3个产品组成的二分图。我们可以看到评论者R₁和R₄评论了所有目标产品，而评论者R₂和R₃只评论了产品P₁和P₃。

在本发明的实施方式中，构建评论者投影的方法为：评论者投影是在评论者-产品二分图的基础上构建的单模投影，单模投影(也称为二分图)构造一个新的图，当且仅当两个节点在原始二分图中至少具有一个公共相邻节点时，这两个节点在单模投影图中存在一条边。图2b是图2a中的评论者-产品二分图的评论者投影。在加权的评论者投影图中，边权重代表两个评论者共同评论的相似性，权重值由产品评分偏差和评分时间间隔这两个因素共同决定。权重的计算公式具体为其中，P_i和P_j分别是由i和j评论的产品集；表示共同评论的相关性，其中，是评论者i和j评论产品p的时间，是评论者i和j对产品p的评分，α是指定的时间范围。注意，如果评论者i和j共同评论产品k超过时间窗口α或其评分偏差大于2，则不会考虑共同评论，即认为这个评论不存在可疑性。

在本发明的实施方式中，基于派系过滤方法生成候选意见垃圾用户群的方法为：如图3所示为本发明的候选垃圾用户群的生成过程，首先，删除评论者投影中边权重为0的边。然后，找到评论者投影中的所有团，构造团-团重叠矩阵。团团重叠矩阵是对称的，矩阵的第x行第y列表示第x个团和第y个团的公共节点数。接着，构建阈值矩阵。给定参数k，将团-团重叠矩阵中非对角线上元素小于k-1，且对角线上元素小于k的所有项置为0，其他的元素置为1。最后，利用阈值矩阵得到对应的候选意见垃圾用户群。令所有对角线为1的团为k团，非对角线为1的团x、团y是相邻的。

第二步：排名候选意见垃圾用户群，根据基于个人和基于群组的垃圾指标来共同决定候选意见垃圾用户群的可疑性，最终产生候选垃圾用户群的排名。在本实施方式中，排名候选意见垃圾用户群的步骤为：

S21：构建基于群组和基于个人的垃圾指标；

S22：利用垃圾分数排名候选意见垃圾用户群。

在本发明的实施方式中，构建基于群组和基于个人的垃圾指标方法为：如图4所示为垃圾分数的构建过程，对于每一个候选意见垃圾用户群，首先进行特征抽取，包括基于结构的特征和基于行为的特征。然后进行垃圾指标的构建，本方法中涉及的垃圾指标分为两类，一类为个人垃圾指标，另一类为群组垃圾指标。本方法中涉及的群组垃圾指标具体包括评论紧密度、产品紧密度、群组评级偏差和群组规模，本方法中涉及的个人垃圾指标具体包括时间突发性、最大评论数量和平均评级偏差。

在本发明的实施方式中，为了减少小型垃圾用户群的偶然性，本方法使用的惩罚函数为其中，|R_g|代表群组g的评论者个数，|P_g|代表群组g的产品个数。

在本发明的实施方式中，评论紧密度的计算公式为其中，|V_g|代表群组g中的评论数，|R_g||P_g|代表群组g中的评论者集和产品集的笛卡尔积的基数。显而易见，群组成员针对目标产品共同撰写虚假评论数越多，评论紧密度的值就越大，该群组的可疑度就越高。另外，具有较少成员和目标产品的群体更有可能是巧合。所以，我们利用惩罚函数L(g)来减少小规模群组的影响。

在本发明的实施方式中，产品紧密度的计算公式为该指标被定义为群组g中所有成员共同评论的产品数量与群组g中所有成员评论的产品总数的比例。其中P_r代表评论者r所评论的产品集，R_g代表群组g中的评论者集。

在本发明的实施方式中，群组评级偏差的计算公式为其中，S²(p,g)为群组g中的评论者对产品p的评分的方差，取所有目标产品的平均方差，并使用逻辑函数将其限制在范围[0.5,1]。方差越大，垃圾程度越小。将整个公式乘上一个常数值2，于是这个指标的范围扩展为了(0,1)。最后，使用惩罚函数L(g)来减少小规模群组的影响。

在本发明的实施方式中，群组规模的计算公式为其中，|R_g|代表群组g的评论者个数，使用逻辑函数对其进行归一化。

在本发明的实施方式中，时间突发性的计算公式为其中，L(r)是评论者的最新评论日期，F(r)是评论者的第一次评论日期，α是用户指定的时间阈值，例如10天。

在本发明的实施方式中，最大评论数量的计算公式为该指标计算一个评论者一天内的最多评论数，并根据所有数据的最大值对其进行归一化。其中V_r代表评论者r一天内的评论数，R代表评论者集。

在本发明的实施方式中，平均评级偏差的计算公式为其中，P_r代表被评论者r评论的产品集，代表评论者r对产品p的评级，代表产品p的平均评分。评分最高为5分，那么最大的评分偏差为4，利用最大的评分偏差来进行归一化。

在本发明的实施方式中，利用垃圾分数排名候选意见垃圾用户群方法为：通过计算各垃圾指标的均值来得到垃圾分数，群组的垃圾分数可以衡量一个垃圾用户群的可疑程度。垃圾分数的计算公式为其中，GroupSI代表群组垃圾指标得分，IndividualSI代表个人垃圾指标得分。

Claims

1.一种基于派系过滤的意见垃圾用户群检测方法，其特征在于，包括以下步骤：

S2采用基于个人和基于群组的垃圾指标得到每个候选意见垃圾用户群的垃圾分数，利用垃圾分数对候选意见垃圾用户群进行排名，产生候选垃圾用户群的排名。

2.根据权利要求1所述一种基于派系过滤的意见垃圾用户群检测方法，其特征在于：所述评论者-产品二分图的构建方法为：二分图的两组节点对应于评论者集和产品集，边对应于评论集，评论者评论了一个产品，则该评论者和该产品之间就有一条连边。

3.根据权利要求2所述一种基于派系过滤的意见垃圾用户群检测方法，其特征在于：所述评论者投影的构建方法为：

评论者投影是在评论者-产品二分图的基础上构建的单模投影，图中只有评论者节点，当且仅当两个评论者共同评论了一个相同的产品时，这两个评论者之间产生一条连边；评论者投影中各条边的权重代表两个评论者共同评论的相似性，权重值由产品评分偏差和评分时间间隔这两个因素共同决定；权重的计算公式具体为其中，P_i和P_j分别是由i和j评论的产品集；表示共同评论的相关性，其中，是评论者i和j评论产品p的时间，是评论者i和j对产品p的评分，α是指定的时间范围。

4.根据权利要求1或2或3所述一种基于派系过滤的意见垃圾用户群检测方法，其特征在于：所述派系过滤方法的步骤包括：首先，删除评论者投影中边权重为0的边；然后，找到评论者投影中的所有团，构造团-团重叠矩阵；接着，构建阈值矩阵；最后，利用阈值矩阵得到对应的候选意见垃圾用户群。

5.根据权利要求4所述一种基于派系过滤的意见垃圾用户群检测方法，其特征在于：所述构造团-团重叠矩阵方法为：团团重叠矩阵是对称的，矩阵的第x行第y列表示第x个团和第y个团的公共节点数。

6.根据权利要求5所述一种基于派系过滤的意见垃圾用户群检测方法，其特征在于：所述构建阈值矩阵方法为：给定参数k，将团-团重叠矩阵中非对角线上元素小于k-1，且对角线上元素小于k的所有项置为0，其他的元素置为1。

7.根据权利要求5所述一种基于派系过滤的意见垃圾用户群检测方法，其特征在于：所述利用阈值矩阵得到对应的候选意见垃圾用户群的方法为：令所有对角线为1的团为k团，非对角线为1的团x、团y是相邻的。

8.根据权利要求1所述一种基于派系过滤的意见垃圾用户群检测方法，其特征在于，候选意见垃圾用户群的垃圾分数的构建方法为：

对于每一个候选意见垃圾用户群，首先进行特征抽取，包括基于结构的特征和基于行为的特征；然后进行垃圾指标的构建，包括个人垃圾指标和群组垃圾指标。

9.根据权利要求8所述一种基于派系过滤的意见垃圾用户群检测方法，其特征在于：所述群组垃圾指标具体包括评论紧密度、产品紧密度、群组评级偏差和群组规模，所述个人垃圾指标具体包括时间突发性、最大评论数量和平均评级偏差。

10.根据权利要求8所述一种基于派系过滤的意见垃圾用户群检测方法，其特征在于，所述利用垃圾分数对候选意见垃圾用户群进行排名的方法为：通过计算各垃圾指标的均值来得到垃圾分数，群组的垃圾分数可以衡量一个垃圾用户群的可疑程度。