CN109241527A

CN109241527A - 一种中文商品虚假评论数据集自动生成方法

Info

Publication number: CN109241527A
Application number: CN201810971800.6A
Authority: CN
Inventors: 毛郁欣; 申屠莹莹; 朱平
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2019-01-18
Anticipated expiration: 2038-08-24
Also published as: CN109241527B

Abstract

本发明公开了一种中文商品虚假评论数据集的自动生成方法，包括如下步骤：a)将事先采集到的商品评论数据读入内存；b)利用分词工具对评论进行分词，得到评论文本的词序列表示；c)对给定范围内的商品评论两两之间进行文本相似度的比较，得到商品虚假评论集合R_f1中；d)对R_f1中的评论执行关联查询，得到商品虚假评论结果集R₁；e)提取给定范围内商品评论对应的评论人的名称信息；f)对评论人名称进行分析，找出符合一定规律特征的系列评论人名称，对虚假评论人执行关联查询，得到商品虚假评论结果集R₂；g)最后，合并R₁和R₂，得到最终的商品虚假评论数据集。本发明完全自动化检测和识别商品评论数据中的虚假评论，无需人工干预和标注，自动生成商品虚假评论数据集。

Description

一种中文商品虚假评论数据集自动生成方法

技术领域

本发明涉及一种中文商品虚假评论数据集自动生成方法，能够基于国内电商网站的商品评论自动生成商品虚假评论的数据集。

技术背景

目前，各大电子商务(简称电商)网站都产生了海量的评论数据，再加上评论质量参差不齐，对于消费者而言，查阅和分析这些数据将面临巨大的挑战，已经远远超出了一个普通消费者的信息处理能力。海量的商品评论中，既包含了真实的、有价值的消费者体验和意见，也包含了相当一部分虚假评论。商品虚假评论背后是巨大商业利益的驱使，属于典型的不正当商业竞争。商品虚假评论泛滥必然会严重影响电商生态的健康发展。

目前，绝大部分商品虚假评论识别方法都是基于机器学习或者分类算法进行的，也取得了一定的效果。但是，这类方法的运用有一个前提，需要依靠经过标注的数据集来训练相应的模型，也就是需要一个训练集。因此，数据集(或者说训练集)的质量会直接影响识别方法的训练以及后续的识别准确性。然而，获得数据集的最大问题在于数据标注，因为用于训练的数据集中的每一条数据都需要被标注为真实或者虚假，才能够用于方法或模型的训练。

虽然商品评论数据本身可以比较轻易地从电商网站上获取，但是商品虚假评论数据的人工标注是一项需要消耗大量人力的工作。而目前尚无应用于中文商品虚假评论的自动化标注方法，也就无法自动化地生成支持中文商品虚假评论识别训练的数据集。

发明内容

本发明的目的在于提供一种自动生成中文商品虚假评论数据集的方法，克服现有的人工标注方法人力消耗较大的问题，为中文商品虚假评论识别方法的模型训练提供数据集。

为此，本发明提出一种中文商品虚假评论数据集的自动生成方法，该方法包括如下步骤：

a)将事先采集到的商品评论数据读入内存；

b)利用分词工具对评论进行分词，得到评论文本的词序列表示；

c)对给定范围内的商品评论两两之间进行文本相似度的比较，将相似度超过θ的商品评论标注为虚假评论，并统一添加到一个商品虚假评论集合R_f1中；

d)对商品虚假评论集合R_f1中的评论进一步执行关联查询，得到商品虚假评论结果集R₁；

e)提取给定范围内商品评论对应的评论人的名称信息；

f)对评论人名称进行分析，找出符合一定规律特征的系列评论人名称，对虚假评论人进一步执行关联查询，得到商品虚假评论结果集R₂；

g)最后，合并结果集R₁和结果集R₂，得到最终的商品虚假评论数据集。

本发明具有以下优势：完全自动化检测和识别商品评论数据中的虚假评论，无需人工干预和标注，通过自动识别商品虚假评论进而自动生成商品虚假评论数据集；直接利用商品评论数据自身的特征，特征值的计算复杂度低，方法易于程序化实现；采用基于规则的推理进行标注，不需要进行离线学习或训练，可以在线实时地将标注出商品虚假评论。

另外，因为本发明的主要目的在于自动生成商品虚假评论数据集，而不是进行真正的商品虚假评论识别或检测，因此允许结果集中存在一定概率的误标注。

附图说明

图1为本发明实施例的流程图。

具体实施方式

本发明实施例的提出一部分是基于发明人的如下发现，即发现现有技术自动化程度低的原因在于如下方面：

首先，真实评论和虚假评论都是由自然人撰写和发布的，虚假评论人为了让虚假评论显得真实，往往会事先斟酌评论内容，尽可能地让虚假评论看起来像真实评论。如果单纯从内容上分析，虚假评论和真实评论并没有太明显的区别，因此机器检测和识别的难度非常大。再加上电商网站上的商品评论大多数都是短评论，包含的特征信息比较少，又进一步增加了自动识别的难度。

其次，在分析评论内容的基础之上，虽然可以进一步结合评论人的特征信息来辅助识别虚假评论，但是目前国内大多数电商网站并不支持直接查看评论人的基本信息，第三方无法完整地掌握某个评论人在网站的评论行为，只能通过分析部分评论数据来间接推测评论人的行为特征。而且网站也不会集中展示某个评论人的所有历史评论。因此，依靠评论人的行为特征进行自动识别，准确度无法得到保证，行为特征往往只能作为内容分析的补充。

再次，部分商品虚假评论识别技术在训练模型时，为了减少数据集的人工标注，会直接采用经过电子商务网站后台系统过滤的数据集。然而网站的过滤算法属于商业机密，第三方一般无法直接获得其实现细节。现有技术试图对网站的过滤算法进行逆向推测，但是准确性无法保证。另外，网站也并没有将所有被过滤的评论直接标注为虚假评论，经过简单分析可以发现，其中有相当一部分属于无效评论或者低质量评论，而不是专门的虚假评论。

最后，现有技术在考虑评论人特征时，往往只关注评论人的行为特征，而没有充分利用评论人的元数据特征。目前被广泛使用的元数据特征主要是评论人在电商网站上的信誉度或者经验等级，但是虚假评论人同样可以通过长期使用网站提升信誉度或者等级。而实际上，除了信誉度之外，还有其他的评论人元数据是可以被用于虚假评论的自动识别的。

本发明实施例的方法流程如图1所示，其步骤如下所述：

a)将从电商网站上采集到的商品评论数据读入内存；

b)利用中文分词工具对商品评论进行分词，得到评论文本的词序列表示；

c)对给定范围内(例如，某一类商品或者某一款商品)的评论数据两两之间进行文本相似度的比较，并记录比较结果。采用Dice's Coefficient来计算商品评论两两之间的文本相似度。对于任意两条评论r_ij＝{w_j1,w_j2,…,w_jn}和r_ik＝{w_k1,w_k2,…,w_km}，其中w_js(s＝1,2,…,n)和w_kt(t＝1,2,…,m)分别表示r_ij和r_ik分词后得到的单词，给出基于Dice'sCoefficient的文本相似度定义如下：

其中comm(r_ij,r_ik)表示r_ij和r_ik之间共同的单词数，len表示以词为单位的文本长度，α和β为非负的调节系数。根据公式(1)，可以得出0≤DSC(r_ij,r_ik)≤1。

对于给定的商品评论数据集R，如果存在一个子集且满足任意r_i∈R'，都有DSC(r,r_i)≥θ，那么自动将R'中的评论自动标注为虚假评论，其中θ表示相似度阈值，根据经验一般可以设定θ为0.9，也可以根据实际需要动态设定。

另外，长度过短的评论，很容易出现因为使用了一些常用词或者短语而相似的情况。因此，在进行文本相似度比较时，需要先过滤掉一些长度过短的评论。根据经验，一般可以设定评论的长度阈值len_min＝10，也就是说自动过滤所有长度小于10的短评论。

在进行相似度比较时，考虑一种特殊情况：两条评论的内容完全一致，即相似度达到100％。部分重复评论的产生，可能是因为同一个用户对某一笔交易中的多个商品进行评价，这种评论不应该被认为是虚假评论。而这种评论有一个显著特征，即由同一个评论人发布，且两条或者多条评论之间的时间非常接近。因此，可以设定一个时间阈值(例如24小时)，当同一个用户的两条评论的内容完全相同，但是发布的时间间隔小于该阈值，则不将这两条评论标注为虚假评论。对于除了这种情况以外的其他重复评论，则直接标注为虚假评论。

因此，给定的商品评论数据集R，通过对R中的元素两两执行相似度计算操作，将相似度超过θ的商品评论标注为虚假评论，并统一添加到一个商品虚假评论集合中；

d)通过执行上一步骤得到的商品虚假评论集合记为R_f1，并执行以下操作：

①对于任意的r∈R_f1，其对应的评论人记为u(r)，在完整的商品评论集合R中查询并获得u(r)对应的所有评论，记为评论子集R_u；

②将R_u中的评论标注为虚假评论；

③循环执行①和②的操作，直到遍历R_f1中的所有元素；

④合并所有的评论子集，得到结果集R₁；

e)提取每条商品评论对应的评论人名称信息，一般为电商网站用户的id或者昵称，是一个由汉字、英文字母、数字等合法字符组成的字符串；

f)对给定范围内的商品评论对应的评论人名称进行分析，找出符合一定的规律的系列评论人名称。虚假评论人使用的账号，往往不是真实的消费者账号，而是以发布虚假评论为目的专门注册的“马甲”账号。为了快速大量地创建账号，造假者在注册账号时，往往会使用相似或者相近的用户名作为系列账号，有时候甚至利用程序或者脚本自动批量注册账号。在这种情况下，虚假评论人的用户名(或者账号名称)会呈现出一定的特征和规律。

以下表的商品评论为例，具体说明虚假评论人用户名特征规律的识别。表中列举了4个评论人发布的14条评论，这些评论对应的商品都属于同一类型，也就是女鞋。这些评论人的用户名类似，而且遵循一定的规律：即首字符都是数字5，而尾字符都是小写的英文字母(abde)。用户名中的字符*表示该评论人选择匿名方式提交评论，系统自动屏蔽了用户名称的部分信息。此外，有几个评论人发布多条评论的时间间隔也比较短，而且还有针对同一款商品的多条评论。因此，这些评论属于虚假评论的概率非常高。

给定的商品评论数据集R，其中任意一条商品评论r∈R，其对应的评论人用户名用un(r)表示。给定任意的字符串s，len(s)表示s的长度。当评论人的用户名满足以下3种模式之一时，说明该评论人有可能是虚假评论人：

①给定评论r₁∈R，对应的用户名un(r₁)为非匿名显示，且un(r₁)＝s_1as_1b，如果至少存在两条评论r₂,r₃∈R，对应的非匿名显示的用户名分别为un(r₂)＝s_2as_2b和un(r₃)＝s_3as_3b，且条件r₂≠r₃≠r₁，un(r₂)≠un(r₃)≠un(r₁)，s_2a＝s_3a＝s_1a和同时成立，其中η表示比例阈值，那么认为un(r₁)，un(r₂)和un(r₃)属于系列用户名；

②给定评论r₁∈R，对应的用户名un(r₁)为匿名或者部分匿名显示，且un(r₁)＝a₁s₁b₁，其中a₁为非数字字符，s₁为给定任意的字符串，b₁为数字，如果至少存在两条评论r₂,r₃∈R，对应的匿名显示的用户名分别为un(r₂)＝a₂s₂b₂和un(r₃)＝a₃s₃b₃，其中a₂和a₃为非数字字符，b₂和b₃为数字，且条件r₂≠r₃≠r₁，un(r₂)≠un(r₃)≠un(r₁)，a₁＝a₂＝a₃和b₁≠b₂≠b₃同时成立，那么认为un(r₁)，un(r₂)和un(r₃)属于系列用户名；

③给定评论r₁∈R，对应的用户名un(r₁)为匿名或者部分匿名显示，且un(r₁)＝a₁s₁b₁，其中a₁为非数字字符，s₁为给定任意的字符串，b₁为英文字母，如果至少存在两条评论r₂,r₃∈R，对应的匿名用户名称分别为un(r₂)＝a₂s₂b₂和un(r₃)＝a₃s₃b₃，其中a₂和a₃为非数字字符，b₂和b₃为英文字母，且条件r₂≠r₃≠r₁，un(r₂)≠un(r₃)≠un(r₁)，a₁＝a₂＝a₃和b₁≠b₂≠b₃同时成立，那么认为un(r₁)，un(r₂)和un(r₃)属于系列用户名。

如果用户名符合上述3种模式之一，说明该用户名属于一个系列，对应的账号将被自动标注为虚假评论人。

因此，给定的商品评论数据集R，可以执行以下操作：

①对于任意的r∈R，获得其对应的评论人用户名un(r)；

②如果un(r)符合上述3种模式之一，将un(r)添加到候选集UN_f2；

③循环执行①和②的操作，直到遍历R中的所有元素；

④得到最终的虚假评论人候选集UN_f2；

同时，虚假评论人通常不会只发布1-2条评论。因为注册一个账号本身是需要一定投入的，甚至很多电商网站都要求账号实名认证，从而极大地提高了批量注册账号的门槛。基于这个原因，虚假评论人通常都会重复多次使用一个账号，必然会导致每个账号对应多条商品评论。因此，还可以进一步结合用户名规律和评论次数特征，来自动识别和确定虚假评论人。为此，对于候选集UN_f2，执行以下操作：

①对于任意的un∈UN_f2，在完整的商品评论集合R中查询并获得un对应的所有评论，记为评论子集R_un；

②对任意的元素对<r_i,r_j>，r_i,r_j∈R_un，其发布时间分别记为t(r_i)和t(r_j)，如果|t(r_i)-t(r_j)|≤Δt_min，其中Δt_min表示同一用户连续发帖的最小时间间隔阈值，将r_i和r_j添加到集合R_t中；

③遍历R_un中的所有元素对，得到最终的R_t；

④如果|R_t|≥λ，其中λ是一个表示数量阈值的正整数(时间间隔)，根据经验可以设定λ为3，也可以根据实际需要动态设定，那么可以认定un为虚假评论人，同时将R_un中的评论标注为虚假评论；

⑤循环执行①-④的操作，直到遍历UN_f2中的所有元素；

合并所有在上述操作中满足|R_t|≥λ的评论子集，得到最终的结果集R₂。

g)合并结果集R₁和结果集R₂，即执行取并集操作R_f＝R₁∪R₂，得到最终的虚假商品数据集R_f。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种中文商品虚假评论数据集的自动生成方法，其特征在于，包括如下步骤：

a)将事先采集到的商品评论数据读入内存；

e)提取给定范围内商品评论对应的评论人的名称信息；

f)对评论人名称进行分析，找出符合一定规律特征的系列评论人名称，对虚假评论人进一步执行关联查询，得到商品虚假评论结果集R₂。

2.根据权利要求1所述的一种中文商品虚假评论数据集的自动生成方法，其特征在于，采用Dice's Coefficient来计算商品评论两两之间的文本相似度。

3.根据权利要求1所述的一种中文商品虚假评论数据集的自动生成方法，其特征在于，所述步骤d)中执行关联查询，得到商品虚假评论结果集R₁，具体如下：

①对于任意的评论r∈R_f1，其对应的评论人记为u(r)，在完整的商品评论集合R中查询并获得u(r)对应的所有评论，记为评论子集R_u；

②将R_u中的评论标注为虚假评论；

③循环执行①和②的操作，直到遍历R_f1中的所有元素；

④合并所有的评论子集，得到结果集R₁。

4.根据权利要求1所述的一种中文商品虚假评论数据集的自动生成方法，其特征在于，所述评论人的名称为电商网站用户的id或者昵称。

5.根据权利要求1所述的一种中文商品虚假评论数据集的自动生成方法，其特征在于，所述步骤f)中找出符合一定规律特征的系列评论人名称，具体如下：

①对于任意的评论r∈R，获得其对应的评论人用户名un(r)；

②如果un(r)符合3种模式之一，将un(r)添加到候选集UN_f2；

③循环执行①和②的操作，直到遍历R中的所有元素；

④得到最终的虚假评论人候选集UN_f2。

6.根据权利要求5所述的一种中文商品虚假评论数据集的自动生成方法，其特征在于，所述3中模式具体如下：

①给定评论r₁∈R，对应的用户名un(r₁)为非匿名显示，且un(r₁)＝s_1as_1b，如果至少存在两条评论r₂,r₃∈R，对应的非匿名显示的用户名分别为un(r₂)＝s_2as_2b和un(r₃)＝s_3as_3b，且条件r₂≠r₃≠r₁，un(r₂)≠un(r₃)≠un(r₁)，s_2a＝s_3a＝s_1a和同时成立，则认为un(r₁)，un(r₂)和un(r₃)属于系列用户名；s为给定任意的字符串，len(s)表示s的长度；η表示比例阈值；

7.根据权利要求1所述的一种中文商品虚假评论数据集的自动生成方法，其特征在于，所述步骤f)中对虚假评论人进一步执行关联查询，得到商品虚假评论结果集R₂，具体如下：

①对于任意的用户名un∈UN_f2，在完整的商品评论集合R中查询并获得un对应的所有评论，记为评论子集R_un；

③遍历R_un中的所有元素对，得到最终的R_t；

④如果|R_t|≥λ，其中λ是一个表示数量阈值的正整数(时间间隔)，那么认定un为虚假评论人，同时将R_un中的评论标注为虚假评论；

⑤循环执行①-④的操作，直到遍历UN_f2中的所有元素；