CN103064971A

CN103064971A - 一种基于评分和中文情感分析的垃圾评论检测方法

Info

Publication number: CN103064971A
Application number: CN2013100029698A
Authority: CN
Inventors: 张卫丰; 徐胜国; 张迎周; 周国强; 王子元; 周国富; 钱小燕; 许碧欢; 陆柳敏
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2013-01-05
Filing date: 2013-01-05
Publication date: 2013-04-24

Abstract

为了更好的发现垃圾评论，本发明提出一种基于评分和中文情感分析的垃圾评论检测系统，主要是针对大部分的电子商务网站提供给用户对于所购买的商品发表自己的评论，利用评分机制结合中文情感分析，来检测哪些评论是垃圾评论，进而为用户购买商品提供参考意见。本系统提出一种新的情感模式的抽取方法，改善了分类器的性能，提高了分类精度，并将中文情感分析用于垃圾评论检测中，从一个新的角度来发现垃圾评论，帮助用户做出购买决策。

Description

一种基于评分和中文情感分析的垃圾评论检测方法

技术领域

本发明涉及一种基于评分和中文情感分析的垃圾评论检测系统，主要是针对大部分的电子商务网站提供给用户对于所购买的商品发表自己的评论，利用评分机制结合中文情感分析，来检测哪些评论是垃圾评论，进而为用户购买商品提供参考意见。属于自然语言处理，模式识别，机器学习交叉领域。

背景技术

垃圾评论(Review Spam)也称为Opinion Spam、Fake Review或者Bogus Review，发表此类评论的用户称为Review Spammer、Opinion Spammer或者Fake Reviewer。产品垃圾评论是由一些用户蓄意发表的不切实际、不真实的、有欺骗性质的评论，其目的是为了提高或者毁坏某一产品或某一类产品的声誉，从而误导潜在消费者，使其做出风险性的购买决策，或者干扰评论意见挖掘和情感分析系统的分析结果，降低精确度。Jindal N等人将产品垃圾评论分为3类：a)欺骗性的评论，指蓄意提高或毁坏产品声誉的不真实的评论，过度吹捧产品的评论称为Hyper Spam，过度贬低产品的评论称为Defaming Spam； b)不相关的评论，指评论的对象仅仅是品牌、生产商、销售商等与产品本身无关的评论；c)非评论信息,如广告、读者的问题和回复等。

针对垃圾评论检测，在国外，Theodoros Lappas 从攻击者的角度来看待这个问题。在研究中做了这样的一个分析，模拟一个基于真正的评论语料库的实际攻击，讨论不同的攻击策略，以及各种促成因素，确定攻击的影响，并做了实验和分析，了解假评论的本质。Arjun Mukherjee等人研究如何发现鉴别假评论小组(一组协同工作写假评论的评论者)。假评论者小组更加危险，因为他们可以控制对目标产品的所有意见，他们使用频繁项集挖掘方法找到一组候选团体。他们发现虽然标记单个假评论和评论者非常困难，但是，标记假评论家团体是多少容易。Bing Liu等人从评论的评论角度研究这个问题。针对评论的评价，从另外一方面看，是读者对于评论，他们遇到的问题和关心的事物的评价。很明显，评价的信息对于未来的读者和品牌都是非常有价值的。作者提出两种隐含变量模型来同时建模和提取这些关键信息，结果也能够用来准确分类评价。

针对文本情感分析，在国外，Turney等人提出一种利用无监督学习方法，即逐点互信息方法（PMI）来对评论文档进行情感分类。分类过程中，先提取评论句中的形容词或副词，再分别计算其与褒义种子词“excellent”及贬义种子词“poor”的PMI值，最后将文档中提取的所有形容词或副词短语的极性相加得到整个评论的情感倾向。若被提取出的形容词或副词短语的平均语义极性是正面的，则该评论分类为正面评论，反之为负面评论。在Pang等人的研究中，分别利用朴素贝叶斯（NB）、最大熵（ME）和支持向量机（SVM）三种分类算法来对整个文档进行训练和褒贬分类。Hatzivassiloglou等人在他们的研究中，主要分析了主观型评论句的判别方法。研究人员分析基于句子情感分类。句子情感分类方法主要是基于情感知识的方法和基于特征的分类方法。第一种方法主要依赖于一些现有的情感字典或领域字典。第二种方法主要是利用机器学习，通过选择大量有用的特征，从而来完成分类任务。有两种方法可以建立情感词典：基于字典的方法和基于语料库的方法。Turney等人使用了基于语料库来建立情感词典的方法。Hu等人和Kim等人建立情感字典基于词典的方法。

总之，以上的几种有关垃圾评论检测方法都有不足之处，本发明提出一种新的情感模式的抽取方法，改善了分类器的性能，提高了分类精度，并将中文情感分析用于垃圾评论检测中，更好的发现垃圾评论，帮助用户做出购买决策。

发明内容

技术问题：本发明涉及一种基于评分和中文情感分析的垃圾评论检测方法，主要是针对大部分的电子商务网站提供给用户对于所购买的商品发表自己的评论，利用评分机制结合中文情感分析，来检测哪些评论是垃圾评论，进而为用户购买商品提供参考意见。本系统提出一种新的情感模式的抽取方法，改善了分类器的性能，提高了分类精度，并将中文情感分析用于垃圾评论检测中，更好的发现垃圾评论，帮助用户做出购买决策。

技术方案：本发明的一种基于评分和中文情感分析的垃圾评论检测方法所包含的步骤为：

步骤1) 输入产品评论信息；

步骤2) 预处理产品评论信息：

步骤2.1) 生成评论信息语料库；

步骤2.2) 提取语料库的第一条评论信息；

步骤2.3) 判断评论信息是否存在语料库中，如果不存在，转步骤2.10)，否则，转步骤2.4)；

步骤2.4) 判断该条评论信息是否含广告信息，如果不含，转步骤2.6)，否则，转步骤2.5)；

步骤2.5) 删除该条评论信息，转步骤2.9)；

步骤2.6) 切分评论信息；

步骤2.7) 获取评论信息子句；

步骤2.8) 使用分词软件，分词并标注词性；

步骤2.9) 提取语料库的下一条评论信息，转步骤2.3)；

步骤2.10) 输出产品评论信息的处理结果；

步骤3) 输入情感词典；

步骤4) 输入句型模式集；

步骤5) 根据情感词典和句型模式集，提取对象词，情感词：

步骤5.1) 输入一条评论信息；

步骤5.2) 初始化该评论信息；

步骤5.3) 获取评论信息的子句集合；

步骤5.4) 提取第一条子句；

步骤5.5) 判断子句是否存在于集合中，如果不存在，转步骤5.13)，否则，转步骤5.6)；

步骤5.6) 获取情感词典；

步骤5.7) 判断该子句是否含情感词，如果不含，转步骤5.8)，否则，转步骤5.9)；

步骤5.8) 保存子句于客观句集合，转步骤5.12)；

步骤5.9) 保存子句于主观句集合；

步骤5.10) 输入句型模式集；

步骤5.11) 根据句型模式，提取集合：<对象词，情感词>；

步骤5.12) 获取下一条子句，转步骤5.5)；

步骤5.13) 输出集合：<对象词，情感词>；

步骤6) 分析评论信息的情感倾向：

步骤6.1) 输入一条评论信息；

步骤6.2) 获取评论信息的子句集合；

步骤6.3) 提取第一条子句；

步骤6.4) 判断子句是否存在于集合中，如果不存在，转步骤6.13)，否则，转步骤6.5)；

步骤6.5) 获取否定词集词典；

步骤6.6) 根据否定词词典，判断该句是否包含否定词，如果不包含，转步骤6.8)，否则，转步骤6.7)；

步骤6.7) 初始化否定词的倾向值为-1；

步骤6.8) 获取副词集词典；

步骤6.9) 根据副词集词典，判断该句是否包含副词，如果不包含，转步骤6.11)，否则，转步骤6.10)；

步骤6.10) 根据副词集词典，获取副词的强度等级值；

步骤6.11) 根据否定词的倾向值、副词的强度等级值、单词的倾向值，计算子句倾向值；

步骤6.12) 获取下一条子句，转步骤6.4)；

步骤6.13) 计算该条评论信息的倾向值；

步骤7) 根据评分和倾向值，获取结果信息：

步骤7.1) 输入一条评论倾向值；

步骤7.2) 获取该评论的评分；

步骤7.3) 计算该产品的平均评分；

步骤7.4) 如果该条评论倾向值大于零且评分小于平均评分，或者该条评论倾向值小于零且评分大于平均评分，转步骤7.5)，否则，转步骤7.6)；

步骤7.5) 输出结果：该评论为垃圾评论，转步骤7.7)；

步骤7.6) 输出结果：该评论为正常评论，转步骤7.7)；

步骤7.7) 结束垃圾评论检测。

有益效果：本发明对比已有技术具有以下创新点：

对获取的中文评论信息语料库，先进行预处理，去除掉一些广告的噪声信息，然后对每一条评论信息进行分词，切分，根据一种新的中文情感模型匹配抽取方法，提取出<主题词，情感词>集合，然后进行情感倾向分析，得到每条评论的情感倾向，最后结合评论的评分和上面的情感倾向值，判断是否为垃圾评论，输出结果给用户，做出合理的购买决策。

本发明对比已有技术具有以下显著优点：

1）中文语料库先进行预处理，去除噪声信息；

2）一种新的中文情感模型匹配抽取方法，提高分类精度；

3）将评分和中文情感分析结合起来检测垃圾评论。

总之，本发明做到了提高分类的精度，从中文情感分析的角度来识别垃圾评论检测。

附图说明

图1：基于中文情感倾向分析和用户评分的垃圾评论检测系统流程图；

图2：预处理产品评论信息流程图；

图3：生成<对象词，情感词>集合流程图；

图4：评论情感倾向分析流程图；

图5：基于评分和倾向值的垃圾评论检测流程图。

具体实施方式

本发明是一种基于评分和中文情感分析的垃圾评论检测方法，从开始输入产品评论信息到最终输出评论检测结果的实现步骤为：

步骤1) 由于在中文文本情感分析研究中，目前还没有公开的语料库，所以，为了研究方便，我们从亚马逊网站中选择某一品牌的照相机的评论信息作为语料库；

步骤2) 我们对获得的产品评论信息进行预处理，目的是去除掉噪声，有利于垃圾评论的检测，如图2所示：

步骤2.1) 生成评论信息语料库，对语料库中每一条语句进行分析，首先判断评论信息是否存在语料库中，如果不存在，转步骤2.4)，否则，转步骤2.2)；

步骤2.2) 接着，判断该条评论信息是否含广告信息，如果包含广告信息，删除该条评论信息，否则，这条评论信息是干净的。经过这样的循环判断得到干净的评论信息集合；

步骤2.3) 一条评论中，可能包含很多的子句，如果把分析窗口大小设为整条评论，有点浪费，而且不好分析，因此我们切分评论信息，将一条评论切分成若干子句。我们使用的是中科院ICTCLAS软件，对每一条评论子句进行分词并词性标注，中科院计算所汉语词性标记集(共计99个)包含名词，动词，形容词，区别词，状态词，副词等；

步骤2.4) 提取语料库的下一条评论信息，转步骤2.1)；

步骤2.5) 得到产品评论信息的处理结果；

步骤3) 一般有两种方法可以建立情感词典，我们基于字典的方法。我们基于知网Hownet的评论词典，经过整理，得到我们需要的情感词典，输入给系统；

步骤4) 为了能够提取出对象词和情感词，需要一个好的句型模型。我根据现代汉语语法信息词典，分析得出几种中文的搭配句型模型；

步骤5) 根据情感词典和句型模式集，提取对象词，情感词：

步骤5.1) 首先拿出一条评论信息；

步骤5.2) 获取评论信息的子句集合，接下来分析每一条子句，判断子句是否存在于集合中，如果不存在，转步骤5.5)，否则，转步骤5.3)；

步骤5.3) 根据情感词典，判断该子句是否含情感词，如果不含，说明它是客观句，存入一个客观句集合。否则，它是主观句，存入一个主观句集合；

步骤5.4) 根据句型模式进行模式匹配，提取出集合：<对象词，情感词>；

步骤5.5) 取出下一条子句，转步骤5.2)；

步骤5.6) 得到集合：<对象词，情感词>；

步骤6) 分析评论信息的情感倾向：

步骤6.1) 首先拿出一条评论信息；

步骤6.2) 获取评论信息的子句集合，接下来分析每一条子句，判断子句是否存在于集合中，如果不存在，转步骤6.6)，否则，转步骤6.3)；

步骤6.3) 否定词对句子的情感倾向起到很关键的作用，根据Hownet否定词集词典，判断该句是否含否定词，如果包含否定词，初始化否定词的倾向值T(Nword)：T(Nword)=-1，其中Nword表示否定词，否则，将T (Nword)赋值为1；

步骤6.4) 副词对句子的情感程度有影响作用，在分析情感时，也要将副词考虑进去。我根据Hownet副词集词典，判断该句是否含副词，如果包含，初始化副词的倾向值T(ADWord)，根据副词强度由弱到强，选择1.2，1.4，1.6，2，其中ADWord表示副词，否则，将T(ADWord)赋值为1；

步骤6.5) 接下来，根据公式T(Sent)=T(Word)*T(Nword)*T(ADword)计算出子句倾向值；其中Sent 表示该子句，Word表示情感词，Nword表示否定词，ADword表示副词；

步骤6.6) 获取下一条子句，转步骤6.2)；

步骤6.7) 将每条子句的倾向值求和得到这条评论的倾向值，得到这条评论倾向值；

步骤7) 根据评分和倾向值，获得结果信息：

步骤7.1) 输入一条评论倾向值；

步骤7.2) 获取该评论的评分；

步骤7.3) 计算该产品的平均评分：平均评分=总评分/总条数；

步骤7.4) 如果该条评论倾向值大于0且评分小于平均评分，或者该条评论倾向值小于0且评分大于平均评分为真，转步骤7.5)，否则，转步骤7.6)；

步骤7.5) 输出结果：该评论为垃圾评论，转步骤7.7)；

步骤7.6) 输出结果：该评论为正常评论，转步骤7.7)；

步骤7.7) 结束垃圾评论检测。

Claims

1.一种基于评分和中文情感分析的垃圾评论检测方法，其特征在于该方法所包含的步骤为：

步骤1) 输入产品评论信息；

步骤2) 预处理产品评论信息：

步骤2.1) 生成评论信息语料库；

步骤2.2) 提取语料库的第一条评论信息；

步骤2.5) 删除该条评论信息，转步骤2.9)；

步骤2.6) 切分评论信息；

步骤2.7) 获取评论信息子句；

步骤2.8) 使用分词软件，分词并标注词性；

步骤2.9) 提取语料库的下一条评论信息，转步骤2.3)；

步骤2.10) 输出产品评论信息的处理结果；

步骤3) 输入情感词典；

步骤4) 输入句型模式集；

步骤5) 根据情感词典和句型模式集，提取对象词，情感词：

步骤5.1) 输入一条评论信息；

步骤5.2) 初始化该评论信息；

步骤5.3) 获取评论信息的子句集合；

步骤5.4) 提取第一条子句；

步骤5.6) 获取情感词典；

步骤5.8) 保存子句于客观句集合，转步骤5.12)；

步骤5.9) 保存子句于主观句集合；

步骤5.10) 输入句型模式集；

步骤5.11) 根据句型模式，提取集合：<对象词，情感词>；

步骤5.12) 获取下一条子句，转步骤5.5)；

步骤5.13) 输出集合：<对象词，情感词>；

步骤6) 分析评论信息的情感倾向：

步骤6.1) 输入一条评论信息；

步骤6.2) 获取评论信息的子句集合；

步骤6.3) 提取第一条子句；

步骤6.5) 获取否定词集词典；

步骤6.7) 初始化否定词的倾向值为-1；

步骤6.8) 获取副词集词典；

步骤6.10) 根据副词集词典，获取副词的强度等级值；

步骤6.12) 获取下一条子句，转步骤6.4)；

步骤6.13) 计算该条评论信息的倾向值；

步骤7) 根据评分和倾向值，获取结果信息：

步骤7.1) 输入一条评论倾向值；

步骤7.2) 获取该评论的评分；

步骤7.3) 计算该产品的平均评分；

步骤7.5) 输出结果：该评论为垃圾评论，转步骤7.7)；

步骤7.6) 输出结果：该评论为正常评论，转步骤7.7)；

步骤7.7) 结束垃圾评论检测。