CN104866468B

CN104866468B - 一种中文虚假顾客评论识别方法

Info

Publication number: CN104866468B
Application number: CN201510164626.0A
Authority: CN
Inventors: 李秀; 闫欣伟; 杜佳; 陈�胜
Original assignee: SHENZHEN INSTITUTE OF STANDARDS AND TECHNOLOGY; Shenzhen Graduate School Tsinghua University
Current assignee: SHENZHEN INSTITUTE OF STANDARDS AND TECHNOLOGY; Shenzhen Graduate School Tsinghua University
Priority date: 2015-04-08
Filing date: 2015-04-08
Publication date: 2017-09-29
Anticipated expiration: 2035-04-08
Also published as: CN104866468A

Abstract

本发明涉及一种中文虚假顾客评论识别方法，包括如下步骤：a)评论数据逐条读入；b)将评论进行分词，得到语句的词性序列、语法成分与结构特征；c)至少分为以下二部分对一条评论同时进行特征提取：词数分布离群度特征提取、情感分布离群度特征提取；根据提取的结果，将离群度值超过设定阈值的评论标记为虚假评论。本发明具有以下优势：添加了顾客评论内容的情感分析，很好地识别了无效评论和不相关评论，并计算了评论的情感离群度，提高了中文虚假评论的识别率。

Description

一种中文虚假顾客评论识别方法

技术领域

本发明涉及一种中文虚假顾客评论识别方法，能够较快较准确地识别出国内电商网站的虚假顾客评论。

技术背景

随着电子商务的迅速发展，对于虚假顾客评论的自动识别显得越来越重要。顾客评论是解决网络交易中交易双方相互信任、以及弥补商品缺乏实体体验问题的关键一环，可以说在网上交易中诚信的价值更加凸显。但如果评论本身是虚假的，那么交易的根基就会受到影响；如果任由这种虚假评论泛滥，那么它所损害的就不仅是交易双方，而是整个电子商务产业。

但现在尚无应用于电商平台的中文虚假顾客评论自动识别系统。现有的技术在提取虚假评论特征时，仅通过词频特征和一些外部特征(如用户评论时间间隔、用户打分)刻画虚假评论，并未考虑评论内容本身的情感特征；而且只能识别完全相同的重复评论，不能识别模板评论；对团伙评论识别也无能为力。

比如邓莎莎等人2014年在《系统管理学报》提出的基于欺骗语言线索的虚假评论识别方法，其虚假评论特征选取为：名词动词和功能词的词频分布、表示时空词语所占比例、实体名称词频、感觉性动词词频、人称代词词频。利用这些特征训练分类器，可以一定程度上识别虚假评论。但这种通过词频特征和其他外部特征的虚假评论识别算法，识别率较低。

发明内容

本发明的目的在于提供一种中文虚假顾客评论识别方法，克服现有技术识别率低的问题，以便能够较快较准确地识别出国内电商网站的虚假顾客评论。

为此，本发明提出一种中文虚假顾客评论识别方法，包括如下步骤：a)评论数据逐条读入；b)将评论进行分词，得到语句的词性序列、语法成分与结构特征；c)至少分为以下二部分对一条评论同时进行特征提取：词数分布离群度特征提取、情感分布离群度特征提取；根据提取的结果，将离群度值超过设定阈值的评论标记为虚假评论。

本发明具有以下优势：添加了顾客评论内容的情感分析，很好地识别了无效评论和不相关评论，并计算了评论的情感离群度，提高了中文虚假评论的识别率。

在优选实施例中，本发明还对评论句子的结构信息编码，识别了模板评论与重复评论，为识别不良用户和团伙提供了基础；通过构建新的特征体系与识别方法，进一步提高了中文虚假评论的识别率。

附图说明

图1是本发明实施例的流程图。

具体实施方式

本发明实施例的提出一部分是基于发明人的如下发现，即发现现有技术识别率低的原因在于如下方面：

首先，它不考虑评论的内容，即不能正面判断评论的真与假，仅通过词频特征来区分，在中文语言丰富多样的情况下，难以保证识别率，说服力也较低。

其次，词频特征和外部特征难以识别非针对商品本身的评论和非评论语句。

再次，现有技术只能识别完全一样的重复评论，不能识别使用模板的评论。

最后，利用用户评论时间间隔等特征不能识别互换语句、使用模板团伙评论。

本发明实施例的算法程序流程图如图1所示。其步骤如下所述：

a).评论数据逐条读入；

b).利用开源中文分词工具(如fudanNLP)将评论进行分词，得到语句的词性序列、语法成分与结构特征；

c).这里分为以下三部分对一条评论同时进行特征提取；

1.词数分布离群度特征提取：

①对各词性词数进行统计，在现有方法上对统计对象进行丰富，包括能愿动词,专有名,形谓词,叹词,名词,趋向动词,人称代词,人名,把动词,量词,疑问代词,限定词,运算符,副词,时态词,网址,指示代词,省略词,表情符,方位词,语气词,机构名,时间短语,拟声词,动词,被动词,形容词,序数词,并列连词,品牌名,介词,型号名,标点,数词,地名,结构助词,事件名,从属连词,惯用词等，产生词数向量；

②建立商品的词数向量库，统计词数的总体分布。

③将评论的词数特征向量与该商品的词数总体分布比较，计算出该评论的词数分布离群度；

2.情感分布离群度特征提取：

①依据语法分析对原句进行搭配提取，搭配应包括主题词(名称或行为)，情感词(表达褒贬态度)和程度词(表达情感强烈程度)，每句评论一般有多组情感搭配；

②将无情感搭配的评论视为无效评论，进行记录；

③基于词语的相似度，对主题词进行匹配，确定搭配所描述的商品属性(如价格、质量、外观、服务等等)，如果无法匹配，则视为不相关评论进行记录。

④依据情感词和程度词词库，对搭配进行情感分析，得出评论的情感向量。

⑤建立商品的情感向量库，统计情感值的总体分布。

⑥将评论的情感特征向量与该商品的情感总体分布比较，计算出该评论的情感分布离群度；

词频离群度与情感离群度特征提取的例子：以下面10句评论说明如何对评论进行词频离群度与情感离群度特征提取，输入的10句评论为：

1)tb5700084_2011,用了差不多两周了，屏幕挺大，摄像头像素高，挺清晰的，拍照效果好。电池3100很耐用

2)shuangzaozeng,手机感觉不错，很实用，挺满意

3)s_jane21,用了近半个月，手机运行速还不错，很流畅。手机音质也很好，外放挺大。前置摄像头不错，后置摄像头似乎没1300百万那么理想。安装了很多软件兼容性不错，手机拿到没有太多垃圾软，经过官网升级达到最新。总体很满意，899性价比很高！服务很温和，比较满意！

4)qq535076804,手机很大气哦，很薄很轻，手机的灵敏度蛮高的，色彩非常好，外观精致高端大气，机身做工精致，触频的反应也很快。上网下载的速度也很快，像素很高，操作灵敏，系统很流畅，是一款性价比超高的智能机！！

5)xinningllz,红米NOTE外观难看，质量也不好，差评！

6)znh2146566,用了一天，感觉摸透了手机，说说优缺点。优点：手感不错，屏幕在应用较亮的主题情况下显示不错，和高清屏差距不是太大，肉眼难以分辨，发明人用的三星S5优势不是很明显。电池够用，发明人百分之三十的电用了一下午，估计二天一充吧。发热不严重，这点比S5强。通话声音好，比较大。安装程序不多，够用，一般占1G内存左右，S5可是要占1.3G。缺点：程序不够流畅，音质较差。照相不行，清晰度不够。外表没有高端机那么漂亮，但是漂亮不能当饭吃，S5漂亮、配置高，但质量极差，看你的选择了。总结：值得购买，支持国货，抵制洋货。

7)小杨网购65,手机收到了，好评！

8)超级买卖114,宝贝收到了，手机的灵敏度蛮高的，色彩非常好，外观精致大气，机身做工细腻，触频的反应也很快。上网下载的速度也很快，像素很高，操作灵敏，系统很流畅，是一款性价比超高的智能机

9)aqykbqi,宝贝收到了，手机的灵敏度蛮高的，色彩非常好，外观精致大气，机身做工细腻，触频的反应也很快。上网下载的速度也很快，像素很高，操作灵敏，系统很流畅，是一款性价比超高的智能机

10)a466434958,老实说吧，在买着手机之前发明人就去太平洋电脑网看点评，各种差评：1.预置软件多，占用内存大(其实有挺多软件可以手动删除的，内存使用都在1G左右，其实都够用的了，流畅，那种游戏发烧友也不看看什么价钱的货)2.扬声器垃圾，音质差(个人感觉还好，只要不出现沙沙的声人声变形就OK了，音量比之前的小米大，挺好的)3.屏幕易碎(这个还有待以后确认)4.机子发热厉害(看你玩什么了，发明人用过几部手机吧都是不同牌子的，觉得发热也不厉害，相对来说算好的了)5.实际像素没参数里的这么好(个人反复拍，这个确实是有点差，前镜头还好，后镜头画质真的一般般)总的来说还是值得买的，性价比高。。。上述是本人个人看法。还有发明人个人挺喜欢小米的系统的，所以没买华为荣耀3，挣扎纠结很久了，总之没让发明人失望吧！说这么多好像很假，哈哈

词频特征提取：由于样本较小，为免结果矩阵太过稀疏，只计算名词、形容词、动词、副词分布为示例，输出结果如下：

各列依次为：该评论总次数、名词数、形容词数、动词数、副词数、名词比例、形容词比例、动词比例、副词比例，最后一行为所有评论的统计数据(表中相应列竖着加总)。

离群度计算：用各维比例(每行后面的四个小数)与总比例(各维总比例分别为：152/728,100/728,86/728,117/728)相减，然后取绝对值求和，例如,以第二条为例：(|0.2‐152/728|+|0.3‐100/728|+|0.0‐86/728|+|0.3‐117/728|)＝0.43。按此方法算得各条评论的词频离群度分别为：0.12、0.43、0.12、0.17、0.25、0.07、0.27、0.16、0.16、0.13。因此，本例中，评论二离群度最大(其值为0.43，而其余最大为0.27)，虚假评论的可能性比其他评论高。这一结论也与事实相符，因评论二其包含的形容词副词过多，而实词较少，虚假评论的可能性比其他评论高。

情感特征提取：将上述评论先进行搭配提取，例如第一句评论提取结果为：<屏幕挺大> <像素高> <拍照好> <电池很耐用>

然后将搭配匹配到<外观，质量，价格，真实度，物流，服务>六个属性上，并计算情感值反映顾客对该属性的褒贬，输出如下：

最后一行为总情感值：将各个属性上不为零的值求平均。

离群度计算：用不为零的属性情感值与总属性(总情感值)相减，取绝对值求和，再除以不为零的属性个数。其中，

总情感值：即情感值求和，将每条评论的六维情感值相加，得到六个情感总值；情感值不为零的评论数：将每一维情感值不为零的评论的条数做统计，本例中，分别为8,8,2,0,1,3。

平均情感值：每一维总和除以该维不为零的评论数，如第一维：12.40/8，第二维17.84/8，第三维2.50/2。

情感离群度计算：每条评论不为零的维度与该维度的平均值的差求绝对值，然后各维度取平均。

以第五条评论为例，它有一维情感值不为零，即第二维，其离群度为：

(|‐1.00‐17.84/8|)/1＝3.23

以第二条评论为例，它有一维情感值不为零，即第一维，其离群度为：

(|0.12‐12.40/8|)/1＝1.43

以第十条评论为例，它有三维情感值不为零，即第一、二、三维，其离群度为：(|1.63‐12.40/8|+|‐1.04‐17.84/8|+|1.00‐2.50/2|)/3＝1.20

因此，算得各条评论的情感离群度分别为：0.43、1.43、1.07、1.26、3.23、1.41、0.00、1.27、1.27、1.20。

可见，上述小样本中第五条评论离群度较大(为3.23，其余最大为1.43)，判为虚假评论，这也与事实相符，该条确有诋毁嫌疑。

当评论数据量大时，总情感值趋于稳定，检测也会更准确。

3.模板评论与重复评论特征提取：

①对原句结构特征序列进行编码；

②建立商品的评论结构编码库；

③查找编码库是否有相同的编码，如果有，将评论模板特征置1，并将编码相同的评论的用户名记录，视为疑似团伙评论；

④再从编码相同的评论中，查找是否为同一用户的重复评论，将用户重复评论数设为重复评论特征；

d).用虚假评论的词数分布离群度、情感分布离群度、模板特征与重复评论特征训练分类器；

e).用分类器对新的评论进行虚假评论识别，输出识别结果，并更新各库；

f).结合大量商品的识别结果，判断是否存在刷评论的团伙或者不良用户。模板评论特征主要考察评论的原创性，通过检索是否有词性句式完全相同的评论，可推断评论是否为复制他人的评论或略作改动。发明人们假设在不良用户刻意刷评论时，使用原创评论的概率较小，故在大样本条件下，原创评论是虚假评论的可能性较小。分词工具进行分词的同时，会自动依据词性和句式输出一组数字序列，如以前给出的例子，其中第三行即评论结构特征的编码：

该编码主要依据评论的词性顺序和语句结构，当结构和词性完全相同时，编码序列也相同，例如：

所以只需将某一商品评论所有编码序列存储在数据库，检索有没有该编码序列相同的评论，如果有，这一维特征值就为1，没有就为0，以此就能大致得出评论是否为原创。而且完全相同的评论编码一定相同，通过比较用户名，可判断是否为同一用户所发，并进一步记录重复次数，作为第四个虚假评论判断特征。

在实际程序中，并不是将编码序列存储，而只是存储其长度、奇数位和、偶数位和三个数值，再将这三个数值串联转化为字符串，通过比较该字符串判断编码是否相同，这样大大提高了计算速度。

实施例二：大样本算例：

对华为某款手机四千条评论进行计算，得出了每条评论的词频统计结果与情感得分，并计算了其词频离群度和情感离群度，作为两个特征。第三个特征为是否使用模板评论，即是否有词性句式完全相同的评论，如果有，该特征为1，如果没有，为0。第四个特征为某评论被同一用户重复发表的次数。

同时，统计了各个句式模板使用者的信息，以及150条无效评论(没有有效搭配)使用者的信息。

发明人认为团伙评论往往互相使用同一模板，并针对商品进行多次评论，如果在不同的商品评论中，对比模板评论发表者和用户发表评论次数(本例中有部分用户发表了多达5次的重复评论)，如果发现相同用户名群体，则很有可能为团伙评论。例如如果在某款小米手机评论中，发现与华为手机评论行为相似的用户群体，即为评论团伙。

分类器为逻辑回归分类，对上述四千条评论的特征进行统计，例如：挑选含有4个特征的极值的100条样本作为Logit回归的训练集，进行回归运算，得到0到1之间的回归结果。通过设定合适的阈值(具体阈值选取可根据专家意见或经验统计值)，可划分评论是否为虚假评论，如设定>0.6为虚假评论，则1065条评论被判断为虚假评论。回归结果反映了评论为虚假评论的概率。

上述实施例的主要特点在于：

1、基于分词结果对中文顾客评论中搭配识别、主题匹配、情感极性分析的算法，以及在此基础上识别无效评论和不相关评论的方法。

2、依据评论的句子结构特征对评论进行编码，以及基于此的模板评论和重复评论识别算法。

3、依据所提取的特征对虚假评论识别的算法

综上所述，在传统的虚假顾客评论识别方法中，没有考虑到评论本身所包含的情感信息，本发明中，添加了顾客评论内容的情感分析，很好地识别了无效评论和不相关评论，并计算了评论的情感离群度；对评论句子的结构信息编码，识别了模板评论与重复评论，为识别不良用户和团伙提供了基础；通过构建新的特征体系与识别方法，大大提高了中文虚假评论的识别率。

Claims

1.一种中文虚假顾客评论识别方法，包括如下步骤：

a)评论数据逐条读入；

b)将评论进行分词，得到语句的词性序列、语法成分与结构特征；

c)至少分为以下二部分对一条评论同时进行特征提取：词数分布离群度特征提取、情感分布离群度特征提取；其中，所述情感分布离群度特征提取包括如下步骤：

依据语法分析对原句进行搭配提取，搭配包括主题词、情感词和程度词；

将无情感搭配的评论视为无效评论，进行记录；

基于词语的相似度，对主题词进行搭配，确定搭配所描述的商品属性，如果无法搭配，则视为不相关评论进行记录；

依据情感词和程度词词库，对搭配进行情感分析，得出评论的情感向量；

建立商品的情感向量库，统计情感值的总体分布；

将评论的情感向量与该商品的情感总体分布比较，计算出该评论的情感分布离群度；

其中，情感分布离群度的计算是用不为零的情感值与总情感值相减，取绝对值求和，再除以情感值不为零的评论数；其中，

总情感值：即情感值求和，将每条评论的六维情感值相加，得到总情感值；

情感值不为零的评论数：将每一维情感值不为零的评论的条数做统计；

根据提取的结果，将离群度值超过设定阈值的评论标记为虚假评论。

2.如权利要求1所述的中文虚假顾客评论识别方法，其特征是：所述词数分布离群度特征提取包括如下步骤：

对各词性词数进行统计；

建立商品的词数向量库，统计词数的总体分布；

将评论的词数向量与该商品的词数总体分布比较，计算出该评论的词数分布离群度。

3.如权利要求2所述的中文虚假顾客评论识别方法，其特征是：词数分布离群度的计算是用各维比例与总比例相减，然后取绝对值求和。

4.如权利要求1所述的中文虚假顾客评论识别方法，其特征是：还包括如下第三部分对一条评论同时进行特征提取：模板评论与重复评论特征提取。

5.如权利要求4所述的中文虚假顾客评论识别方法，其特征是：模板评论与重复评论特征提取包括如下步骤：

对原句结构特征序列进行编码；

建立商品的评论结构编码库；

查找编码库是否有相同的编码，如果有，将评论模板特征置1，并将编码相同的评论的用户名记录，视为疑似团伙评论；

再从编码相同的评论中，查找是否为同一用户的重复评论，将用户重复评论数设为重复评论特征。

6.如权利要求4或5所述的中文虚假顾客评论识别方法，其特征是：还包括如下步骤：

d)用虚假评论的词数分布离群度、情感分布离群度、模板评论与重复评论特征训练分类器；

e)用分类器对新的评论进行虚假评论识别，输出识别结果，并更新各库；

f)结合大量商品的识别结果，判断是否存在刷评论的团伙或者不良用户。

7.如权利要求6所述的中文虚假顾客评论识别方法，其特征是：分类器为逻辑回归分类。

8.如权利要求5所述的中文虚假顾客评论识别方法，其特征是：将某一商品评论所有编码存储在数据库，检索有没有与该编码相同的评论，如果有，这一维特征值就为1，没有就为0；或者不将编码存储，而只是存储其长度、奇数位和、偶数位和三个数值，再将这三个数值串联转化为字符串，通过比较该字符串判断编码是否相同。