CN109670542A

CN109670542A - 一种基于评论外部信息的虚假评论检测方法

Info

Publication number: CN109670542A
Application number: CN201811508152.7A
Authority: CN
Inventors: 田刚; 刘鹏飞; 任艳伟
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-04-23

Abstract

本发明提供了一种基于评论外部信息的虚假评论检测方法，该方法通过对评论文档中的评论内容及外部属性进行提取并加标签，形成评论及其标签数据组，将评论及其标签数据组按照4：1的比例分割成训练组与测试组，然后对训练组与测试组进行文本预处理，建立虚假评论检测模型，利用卷积神经网络来提取外部属性向量，利用加入注意力机制的长短期记忆网络提取评论内容向量，并在特征提取之后将在线性组合层中将提取的特征进行线性组合。本方法可以实现所有国际电商英文评论的虚假检测，具有较好的通用性，本检测方法的精度达到了81.4％，能够胜任大部分的检测任务。

Description

一种基于评论外部信息的虚假评论检测方法

技术领域

本发明涉及服务计算技术领域，具体涉及一种基于评论外部信息的虚假评论检测方法。

背景技术

随着互联网业务的发展，为了可以让用户根据自己的意图和其他消费者的评价来决定购买意向，各大电子商务平台开发了各种用户反馈机制，其中产品评价系统是最普及一种。由于许多用户在电商平台上倾向于在做出购买决定之前阅读相关的产品评论，所以某些不法者在电商平台利用评价系统注入大量虚假评论来左右产品的销量以达到盈利的目的。根据一些研究人员的统计，虚假评论占Yelp网站的14-20％，在Tripadvisor，Orbitz，Priceline和Expedia中有2-6％的假评论。在这种情况下，要有效识别虚假评论已成为一个中心问题，确保网上评论成为值得信赖的意见材料，提供发展健康有序的产品反馈环境。为了有效识别这类评论，一些学者使用基于浅层、显性语义特征的方法，虽然取得了一定成果，但是检测效果不尽人意。

因此，在互联网商品信息、用户评论数量的飞速增长下，提供一个准确的虚假评论检测方法可以解决产品评价系统检测的关键技术问题。

发明内容

针对现有的虚假评论检测方法存在的检测准确度不高的问题，本发明提供了一种基于评论外部信息的虚假评论检测方法。

本发明采用以下的技术方案：

一种基于评论外部信息的虚假评论检测方法，包括以下步骤：

步骤1：收集商品评论文档，对评论文档中的评论内容及外部属性进行提取并加标签，形成评论及其标签数据组，评论及其标签数据组包括评论内容集、外部属性集和标签集，将评论及其标签数据组按照4：1的比例分割成训练组与测试组；

步骤2：对训练组与测试组进行文本预处理：使用Word2Vec模型将训练组与测试组中的评论内容集和外部属性集分别训练成评论内容词向量和外部属性词向量，将训练组与测试组中的标签集转化为one-hot向量；

步骤3：将卷积神经网络与加入注意力机制的长短期记忆网络通过向量连接操作建立虚假评论检测模型，使用步骤2中训练组得到的评论内容词向量和外部属性词向量训练虚假评论检测模型，不断修改虚假评论检测模型参数使分类效果达到最优；

利用虚假评论检测模型对测试组得到的评论内容词向量和外部属性词向量进行分类，验证虚假评论检测模型准确度。

优选地，步骤1中对评论内容加标签的过程为：将虚假嫌疑大的评论内容标注为“0”，虚假嫌疑大评论内容是指评论内容具有非常规特征，非常规特征包括评论内容的长度过长或过短、评价星级过低或过高、有价值的反馈过少和存在大量重复内容；将其它评论内容标注为“1”，利用人工对标记好的评论进行微调。

优选地，所述步骤2，具体包括以下子步骤：

步骤2.1：使用Word2Vec模型训练训练组和测试组，得到每个单词的向量表示，所有单词的向量表示成为字典；

步骤2.2：基于步骤2.1中得到的向量表示进行映射，遍历训练组与测试组中的每一个单词，如果单词在字典中，则直接使用字典中对应的向量表示替换该单词；如果单词没有在词典中对应的向量表示，则将该单词丢弃；

经过多次迭代将评论内容集和外部属性集分别转化为评论内容词向量和外部属性词向量，从而将单词的向量特征嵌入空间，为基于评论外部信息的虚假评论检测模型构建输入。

优选地，所述步骤3包括将步骤2中的训练组得到的外部属性词向量输入到卷积神经网络内，将步骤2中的训练组得到的评论内容词向量输入到加入注意力机制的长短期记忆网络内，提取特征向量后进行整合并分类，具体包括以下步骤：

步骤3.1：将训练组得到的外部属性词向量输入到卷积神经网络内：将句子中的第i个词表示为n维单词向量为x_i∈Rⁿ，令x_i∈R^n+L表示输入的词向量，其中L是句子的长度；令K为滤波器的长度，向量F_i∈R^K*n表示为卷积运算的第i个滤波器，对于输入向量j中的每个位置设置窗口向量W_j，将此位置的连续的k个单词向量表示为W_j＝{x_i,x_i+1,…,x_i+k-1}，则经过卷积运算得到每个窗口的特征向量r_ij＝f(F_i*W_j+b_i)，其中b_i是偏置量，N个窗口的特征向量为其中表示向量的列连接操作；

步骤3.2：在步骤3.1的同时，将训练组得到的评论内容词向量输入到加入注意力机制的长短期记忆网络内，其工作流程是通过双向长短期记忆网络将输入的词向量处理成序列，设表示正向长短期记忆网络的输出序列，则表示反向长短期记忆网络输出序列，其中x_tj表示输入的第t个句子S_t的第j个词向量；设C_tj是h_tj经过单层多层感知器得到的隐层输出；

C_tj＝tanh(W*h_tj+b) (1)

其中，h代表词向量矩阵，W代表权重矩阵，b代表偏移量；

然后用向量u_w来衡量每个单词的重要性，其中u_w的参数是随机设置并自学习的，然后利用Softmax函数计算出每个词向量的权重值α_tj，α_tj控制不同单词向量对其分类结果的影响程度，计算如公式(2)所示：

其中，C_tj ^T代表C_tj的转置；

最后，乘以每个单词的权重矢量并输出整个句子S_t特征序列B_t＝∑_j(α_tjh_tj)；

步骤3.3：在得到步骤3.1与步骤3.2提取的评论内容特征和评论外部属性特征后，需要有效的合并由两个分类器提取的特征，使用线性连接方法，如式(3)所示：

其中，A表示由卷积神经网络提取的外部属性特征，B_t表示由加入注意力机制的长短期记忆网络提取的评论内容特征，C表示在内容特征和属性特征相连接后的总特征向量，符号表示向量列连接操作；

步骤3.4：步骤3.3之后，由于虚假评论检测问题是一个二分类分体，所以使用sigmoid函数将总特征向量映射到0,1之间，映射函数如公式(4)所示：

步骤3.5：在步骤3.4之后，将sigmoid函数映射的结果与one-hot标签向量进行比对，若不相同，则通过反向传播算法对模型的参数进行调整；若相同，则参数不变，经过迭代后训练出最优参数。

本发明具有的有益效果是：

(1)可以实现所有国际电商英文评论的虚假检测，具有较好的通用性；

(2)单纯的基于评论内容的虚假检测方法效果不准确，本方法通过利用外部属性来增强评论的向量特征，外部属性包括长度、时间、标题、有价值的反馈数目等，提高了检测结果的准确性；

(3)利用提取独立特征的卷积神经网络来提取外部属性向量，让适用提取文本上下文特征的加入注意力机制的长短期记忆网络提取评论内容向量，可以保证提取特征的丰富性与准确性；

(4)使用线性列连接的方法将两个分类器提取的特征合理的组合，不会混乱或丢失特征。

(5)本检测方法的精度达到了81.4％，能够胜任大部分的检测任务。

附图说明

图1为基于评论外部信息的虚假评论检测方法的结构示意图。

图2为加入注意力机制的长短期记忆网络的注意力机制示意图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

结合图1至图2，一种基于评论外部信息的虚假评论检测方法，包括以下步骤：

外部属性集包括长度、时间、标题、有价值的反馈数目等。

其中，对评论内容加标签的过程为：将虚假嫌疑大的评论内容标注为“0”，虚假嫌疑大评论内容是指评论内容具有非常规特征，非常规特征包括评论内容的长度过长或过短、评价星级过低或过高、有价值的反馈过少和存在大量重复内容；将其它评论内容标注为“1”，利用人工对标记好的评论进行微调。

所述步骤2，具体包括以下子步骤：

步骤3包括将步骤2中的训练组得到的外部属性词向量输入到卷积神经网络(CNN)内，将步骤2中的训练组得到的评论内容词向量输入到加入注意力机制的长短期记忆网络(AT-LSTM)内，提取特征向量后进行整合并分类，具体包括以下步骤：

C_tj＝tanh(W*h_tj+b) (1)

其中，h代表词向量矩阵，W代表权重矩阵，b代表偏移量；

其中，C_tj ^T代表C_tj的转置；

实施例1

下面是应用本发明具体实施例：

使用黄金标准数据集来验证本方法。该评论数据集是从某网站收集的，共包含580万条评论和670万条产品，并且基于该数据集随机抽取20万条评论作为基本数据集。

执行步骤1，首先利用种子词“fake”定位到基本评论数据中的5个位置，然后在每个位置的上部和下部区间中各取500个数据，总共获得5000条数据。这些数据有较大的虚假嫌疑。然后从基本数据集中随机选择5,000条评论数据，这些数据由于随机选取所以虚假性较低。然后采用人工分类10,000个数据。分类标准取决于评论的文字内容和评论属性，评论属性包括有用反馈的数量，反馈的总数，评分，评论的时间长度，评论日期和标题共计6项。通过上述步骤，我们收集了10,000个带标签的评论数据，其中6037份为真正的评论，3963份为假评论。在训练模型时，我们将数据分成训练集和测试集，使用80/20进行分割，然后分割句子并使用NLTK2进行校正。

执行步骤2，使用Word2Vec模型将训练组与测试组中的评论内容集和外部属性集分别训练成评论内容词向量和外部属性词向量，将训练组与测试组中的标签集转化为one-hot向量。在使用Word2vec之后，每个单词都获得一个连续向量的表达。例如“书”的向量表示为[2.74845356e-01 1.56477005e+00 1.48353190e+00 2.04618478e-01...]。

步骤3，利用步骤2训练好的词向量输入到模型，其中模型参数如表1所示：

表1模型参数设置

在步骤3之后，模型参数基本固定后，用测试集对模型进行评价，评价结果如表2所示：

表2测试结果

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于评论外部信息的虚假评论检测方法，其特征在于，包括以下步骤：

步骤1：收集商品评论文档，对评论文档中的评论内容及外部属性进行提取并加标签，形成评论及其标签数据组，评论及其标签数据组包括评论内容集、外部属性集和标签集，将评论及其标签数据组按照4∶1的比例分割成训练组与测试组；

2.根据权利要求1所述的一种基于评论外部信息的虚假评论检测方法，其特征在于，步骤1中对评论内容加标签的过程为：将虚假嫌疑大的评论内容标注为“0”，虚假嫌疑大评论内容是指评论内容具有非常规特征，非常规特征包括评论内容的长度过长或过短、评价星级过低或过高、有价值的反馈过少和存在大量重复内容；将其它评论内容标注为“1”，利用人工对标记好的评论进行微调。

3.根据权利要求1所述的一种基于评论外部信息的虚假评论检测方法，其特征在于，所述步骤2，具体包括以下子步骤：

4.根据权利要求1所述的一种基于评论外部信息的虚假评论检测方法，其特征在于，所述步骤3包括将步骤2中的训练组得到的外部属性词向量输入到卷积神经网络内，将步骤2中的训练组得到的评论内容词向量输入到加入注意力机制的长短期记忆网络内，提取特征向量后进行整合并分类，具体包括以下步骤：

步骤3.1：将训练组得到的外部属性词向量输入到卷积神经网络内：将句子中的第i个词表示为n维单词向量为x_i∈Rⁿ，令x_i∈R^n+L表示输入的词向量，其中L是句子的长度；令K为滤波器的长度，向量F_i∈R^K*n表示为卷积运算的第i个滤波器，对于输入向量j中的每个位置设置窗口向量W_j，将此位置的连续的k个单词向量表示为W_j＝{x_i，x_i+1，...，x_i+k-1}，则经过卷积运算得到每个窗口的特征向量r_ij＝f(F_i*W_j+b_i)，其中b_i是偏置量，N个窗口的特征向量为其中表示向量的列连接操作；

步骤3.2：在步骤3.1的同时，将训练组得到的评论内容词向量输入到加入注意力机制的长短期记忆网络内，其工作流程是通过双向长短期记忆网络将输入的词向量处理成序列，段表示正向长短期记忆网络的输出序列，则表示反向长短期记忆网络输出序列，其中x_tj表示输入的第t个句子S_t的第j个词向量；设C_tj是h_tj经过单层多层感知器得到的隐层输出；

C_tj＝tanh(W*h_tj+b) (1)

其中，h代表词向量矩阵，W代表权重矩阵，b代表偏移量；

其中，C_tj ^T代表C_tj的转置；

步骤3.4：步骤3.3之后，由于虚假评论检测问题是一个二分类分体，所以使用sigmoid函数将总特征向量映射到0，1之间，映射函数如公式(4)所示：