CN107818173A

CN107818173A - 一种基于向量空间模型的中文虚假评论过滤方法

Info

Publication number: CN107818173A
Application number: CN201711129611.6A
Authority: CN
Inventors: 刘珊; 杨波; 郑文锋; 蔡礼高
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2018-03-20
Anticipated expiration: 2037-11-15
Also published as: CN107818173B

Abstract

本发明公开了一种基于向量空间模型的中文虚假评论过滤方法，通过改进版向量空间模型判断评论间的相似性，将相似性高的评论作为虚假评论的一部分。同时结合评论的情感极性与用户评分，筛选出另一部分虚假评论。并且引入一部分真实评论样本，使用这两类样本训练BP神经网络。使用训练好的网络对未标签的评论进行判断。

Description

一种基于向量空间模型的中文虚假评论过滤方法

技术领域

本发明属于机器学习技术领域，更为具体地讲，涉及一种基于向量空间模型的中文虚假评论过滤方法。

背景技术

随着互联网技术的日益成熟，消费者网络点评积极性逐渐增强，网络上产生了数量庞大的评论数据。用户利用这些评论信息辅助消费决策的同时，也饱受评论质量参差不齐、信息过载等问题的困扰。

网络在给消费者带来便捷体验的同时，也由于它本身的无地域限制的特点导致了消费依据匮乏、商品描述信息与实际不符等弊端。因此越来越多的消费者在消费前都不得不先去了解已购顾客对该产品的评价和态度，以便做出可靠的决策。但随着评价数量的飞速增长以及评价内容的五花八门，用户越来越难以获取有价值的评价信息。

仅依靠人工方法难以从海量的评论中识别出真正对用户有价值的信息，迫切需要自动化方法辅助人们进行甄别，因而对文本内容的评价筛查有重要的研究价值。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于向量空间模型的中文虚假评论过滤方法，基于BP神经网络识别影评网站的虚假评论，以便达到为用户提供真实的消费参考。

为实现上述发明目的，本发明为一种基于向量空间模型的中文虚假评论过滤方法，其特征在于，包括以下步骤

(1)、模拟网站登录，抓取评论；

(2)、根据设定的评论长度L，剔除于L的评论；

(3)、将评论分词处理，获得语句成分结构

(3.1)、先建立一个干扰词库，干扰词库中包含连接词、主语和宾语，再计算每一条评论中的干扰词比例，将得到的干扰词比例与预设的比例阈值比较，剔除比例大于比例阈值的评论；

(3.2)、利用中科院NLPIR中文分词java版工具对步骤(3.1)中得到的评论进行分词处理，并删除标点符号，再将分词后的评论按照词性进行编码，建立评论结构编码库，然后查找评论结构编码库中是否有相同的编码，如果有，则将评论模板特征值加1，如果没有，则不修改；

(4)、按用户投票有用数对步骤(3)得到的评论进行排序，然后选择排序前5％的评论作为真实评论，并标记为正例样本；

(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型

(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计

TF＝f/m，TF值在0和1之间，f表示当前词在当前评论中出现的次数，m表示当前评论中所有词的出现次数之和；

n表示在整个语料中评论的总数，而表示含有当前词的评论数；

(5.2)、构建改进版向量空间模型

其中，d_i,d_j分别表示第i条评论和第j条评论，N表示所有词汇的数目总和，w_ik表示第k个词汇在第i条评论中的词频TF和反词频IDF统计乘积；

(5.3)、利用改进版向量空间模型计算任意两条评论的相似度，筛选出相同或相似评论标记为虚假评论，并标记为正例样本一；

(6)、根据BosonNLP情感词典数据和知网情感分析词数据对步骤(4)中未标记的评论进行进行情感打分，再根据情感得分进行情感极性判断，Score>0判断为正向，Score<0判断为负向；

将情感极性为正且用户评分低于平均评判标准，或者情感极性为负且用户评分高于平均评判标准的评论标记为虚假评论，并作为负例样本二；

(7)、对步骤(4)中未标记的评论按每个用户的评论次数对用户进行降序排序，再将前1％用户的所有评论标记为虚假评论，并作为负例样本三；

(8)、将步骤(4)、(5)、(6)、(7)得到的正例样本和负例样本分别组成正例向量和负例向量；再将正例向量输入至BP神经网络，通过迭代，使用前向传播和反向传播修改BP神经网络的每层之间的权值，使BP神经网络输出“1”；将负例向量输入至BP神经网络，通过迭代，使用前向传播和反向传播修改BP神经网络的每层之间的权值，使BP神经网络输出“0”，以此来训练BP神经网络；

(9)、将实时抓取的评论输入至训练好的BP神经网络，如果BP神经网络输出为“1”，则该评论为真实评论；如果BP神经网络输出为“0”，则该评论为虚假评论。

本发明的发明目的是这样实现的：

本发明一种基于向量空间模型的中文虚假评论过滤方法，通过改进版向量空间模型判断评论间的相似性，将相似性高的评论作为虚假评论的一部分。同时结合评论的情感极性与用户评分，筛选出另一部分虚假评论。并且引入一部分真实评论样本，使用这两类样本训练BP神经网络。使用训练好的网络对未标签的评论进行判断。

同时，本发明一种基于向量空间模型的中文虚假评论过滤方法还具有以下

有益效果：

(1)、将正例、负例样本整合到一起来训练BP神经网络，提高了训练样本的可靠性；其次，选用BP神经网络，在于它不仅能处理特征向量相对更大的情况，也能处理训练集相对更大的情况，在局限性上更优于逻辑回归和支撑向量机。

(2)、训练样本的向量化整合了结构编码，向量空间模型，情感极性，评论时间等隐藏影响因素。

附图说明

图1是本发明一种基于向量空间模型的中文虚假评论过滤方法流程图；

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种基于向量空间模型的中文虚假评论过滤方法流程图。

在本实施例中，如图1所示，本发明一种基于向量空间模型的中文虚假评论过滤方法，包括以下步骤

S1、用Python实现网站的模拟登录，运用正则表达式抓取到每条评论的发布时间，评论的文本内容，评论发布者的昵称，id以及主页地址等；

S2、根据设定的评论长度L，剔除小于L的评论；在本实施例中，设定阈值为15，剔除长度小于15的评论；

S3、将评论分词处理，获得语句成分结构

S3.1、先建立一个干扰词库，干扰词库中包含连接词、主语和宾语等无意义的词汇，再计算每一条评论中的干扰词比例，将得到的干扰词比例与预设的比例阈值50％比较，剔除比例大于比例50％的评论；

S3.2、利用中科院NLPIR中文分词java版工具对步骤S3.1中得到的评论进行分词处理，并删除标点符号，再将分词后的评论按照名词，动词，副词，形容词等词性进行编码，建立评论结构编码库，然后查找评论结构编码库中是否有相同的编码，如果有，则将评论模板特征值加1，如果没有，则不修改；

编码过程例如：

上述例子中的第三行即为评论结构编码；

S4、按用户投票有用数对步骤S3得到的评论进行排序，然后择排序前5％的评论作为真实评论，并标记为正例样本；

S5、利用步骤S4中未标记的评论构建改进版向量空间模型

向量空间模型(VSM：Vector space model)是最常用的相似度计算模型，在自然语言处理中有着广泛的应用，传统向量空间模型遵循以下原理：

假设共有十个词：w₁，w₂，……，w₁₀，而共有三个评论，分别为d₁，d₂和d₃。统计所得的词频表如表1所示：

	w₁	w₂	w₃	w₄	w₅	w₆	w₇	w₈	w₉	w₁₀
											d₁	1	2		5		7	9
d₂		3		4		6	8
											d₃	10		11		12		13	14	15

表1

常用的向量空间公式见下：

其中，d_i,d_j分别表示第i条评论和第j条评论，N表示所有词汇的数目总和，a_ik表示第k个词汇在第i条评论中出现的次数。

假设计算d₁和d₂的相似度，那么：

上面公式的计算量很大，这里为了减小计算量，采用降维的方法。采取降维的策略不仅可以提高效率，还可以提高精度。例如下面两句话：

1、这是我的饭。

2、那是你的饭。

如果把“这”、“那”、“你”、“我”、“是”、“的”都当功能词处理掉，那么相似度就是100％。如果都不去掉，相似度可能只有60％。而这两句话的主题显示是一样的。

直接使用词的个数在比较词数很多和词数很少的文档时存在着问题。例如文档I中含有10000个词，而词a出现了10次；文档II中含有100个词，而a出现了5次。这样在相似度计算时，文档I中a对最后结果的影响比文档II中的a要大。这显然是不合理的，因为a只占文档I的0.1％而却占文档II的5％。

为了解决这类问题，这里引入词频TF和反词频IDF两个概念，具体方法为：

S5.1、对步骤S4中未标记的评论进行词频TF和反词频IDF统计

TF＝f/m，TF值在0和1之间，f表示当前词在当前评论中出现的次数，m表示当前评论中出现次数最多的词的次数,这样做减小了评论中词的频率不合理分布所引起的误差；

n表示在整个语料中评论的总数，而表示含有当前词的评论数，这样做减少了在语料范围内词频分布不均匀造成的相似度误差；

S5.2、构建改进版向量空间模型

其中，d_i,d_j分别表示第i条评论和第j条评论，w_ik表示第k个词汇在第i条评论中的词频TF和反词频IDF统计乘积；

S5.3、利用改进版向量空间模型计算任意两条评论的相似度，筛选出相同或相似评论标记为虚假评论，并标记为负例样本一；

S6、根据BosonNLP情感词典数据和知网情感分析词数据对步骤S4中未标记的评论进行进行情感打分，再根据情感得分进行情感极性判断，Score>0判断为正向，Score<0判断为负向；

对比情感倾向与评分，如果情感倾向于好评，但是评分小于3星(5星为标准)，也就是将情感极性为正且用户评分低于平均评判标准的评论，或者是情感倾向于差评，但是评分大于3星，也就是情感极性为负且用户评分高于平均评判标准的评论都标记为虚假评论，并作为负例样本二；

S7、对步骤S4中未标记的评论按每个用户的评论次数对用户进行降序排序，再将前1％用户的所有评论标记为虚假评论，并作为负例样本三；

S8、将步骤S4、S5、S6、S7得到的正例样本和负例样本分别组成正例向量和负例向量，其中，无论是正例样本还是负例样本，每一条评论均构成一条向量，再将所有的正例向量输入至BP神经网络，通过迭代，使用前向传播和反向传播修改BP神经网络的每层之间的权值，使BP神经网络输出“1”；将所有的负例向量输入至BP神经网络，通过迭代，使用前向传播和反向传播修改BP神经网络的每层之间的权值，使BP神经网络输出“0”，以此来训练BP神经网络；

S9、将实时抓取的评论输入至训练好的BP神经网络，如果BP神经网络输出为“1”，则该评论为真实评论；如果BP神经网络输出为“0”，则该评论为虚假评论。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于向量空间模型的中文虚假评论过滤方法，其特征在于，包括以下步骤

(1)、模拟网站登录，抓取评论；

(2)、根据设定的评论长度L，剔除于L的评论；

(3)、将评论分词处理，获得语句成分结构

(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型

(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计

TF＝f/m，TF值在0和1之间，f表示当前词在当前评论中出现的次数，m表示当前评论中出现次数最多的词的次数；

(5.2)、构建改进版向量空间模型

<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <mo>|</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>

<mrow> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>TF</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <msub> <mi>IDF</mi> <mi>j</mi> </msub> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mrow> <mo>(</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mfrac> <mi>n</mi> <mrow> <mover> <mi>n</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

(8)、将步骤(4)、(5)、(6)、(7)得到的正例样本和负例样本分别组成正例向量和负例向量；再将正例向量输入至BP神经网络，通过迭代，使用前向传播和反向传播修改BP神经网络的每层之间的权值，使BP神经网络输出“1”；将负例向量输入至BP神经网络，通过迭代，使用使用前向传播和反向传播修改BP神经网络的每层之间的权值，使BP神经网络输出“0”，以此来训练BP神经网络；