CN108345587A

CN108345587A - 一种评论的真实性检测方法与系统

Info

Publication number: CN108345587A
Application number: CN201810153301.6A
Authority: CN
Inventors: 李树栋; 方滨兴; 田志宏; 吴晓波; 殷丽华; 李爱平; 顾钊铨; 韩伟红; 仇晶; 崔翔; 王乐
Original assignee: Guangzhou University
Current assignee: National University of Defense Technology; Guangzhou University
Priority date: 2018-02-14
Filing date: 2018-02-14
Publication date: 2018-07-31
Anticipated expiration: 2038-02-14
Also published as: CN108345587B

Abstract

本发明公开一种评论的真实性检测方法，包括：对待检测评论进行分词预处理，以得到若干分词结果；将若干分词结果中的词语转化为词向量；通过预先构建的卷积神经网络模型计算待检测评论的情感标签；其中，卷积神经网络模型为通过训练集的每一标准句子的词向量和每一标准句子的情感标签训练卷积神经网络所生成；采用逻辑回归模型从所有待选变量中选取目标特征向量；计算待检测评论的目标特征向量到真实评论的聚类中心的距离，及计算待检测评论的目标特征向量到虚假评论的聚类中心的距离；根据距离和待检测评论的情感标签确定待检测评论的真实性。本发明实施例能够提高评论真实性检测的准确性，同时本发明还提供评论的真实性检测系统。

Description

一种评论的真实性检测方法与系统

技术领域

本发明涉及电子商务技术领域，尤其涉及一种评论的真实性检测方法与系统。

背景技术

随着web2.0时代的到来和蓬勃发展，用户在越来越频繁的使用各类电子商务平台进行购物和观点共享。

然而，大多数的电子商务平台存在很大的缺陷。这些平台允许来自全国各地甚至全世界的用户无限制的进行评论，这就促使了一些不法的商家或者制造商雇佣一些刷单员发布一些积极的评论来影响潜在消费者的判断从而增加自己的销售量，或者在竞争者的网店中发布一些消极的评论去影响竞争者的信誉。由于这些虚假评论的结构往往与真实评论非常相似，所以消费者在阅读这些评论的时候很难去识别这些具有危害性的虚假评论。因此，从评论中对虚假评论进行检测是必要的。通常情况下，在电商平台中进行评论的真实性检测时，将其定义为一个二分类的问题，首先通过手工标注的数据集训练分类器，然后将新的评论输入这个分类器去预测为虚假评论或真实评论。由于虚假评论的隐藏性和多样性，因此，手工标注的评论预料中存在着一定数量的错误样例，使用传统的全监督分类算法来识别虚假评论会存在比较大的误差。

现有的评论的真实性检测方法通常是从文本着手，利用自然语言处理技术，分析评论文本的情感极性，判断每个用户的情感偏离大众情感的程度。但由于用户评论噪声大、新词多、有自己固定的搭配、上下文信息有限等原因，用户评论情感的倾向性分析具有很大的难度。

发明内容

本发明实施例提出一种评论的真实性检测方法与系统，能够提高检测虚假评论的准确性。

本发明一方面提供一种评论的真实性检测方法，所述方法包括：

对待检测评论进行分词预处理，以得到所述待检测评论的若干分词结果；

将所述待检测评论的若干分词结果中的词语转化为词向量；

将所述待检测评论的所有词向量输入卷积神经网络模型，以得到所述待检测评论的情感标签；其中，所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成；

采用逻辑回归模型从所有待选变量中选取目标特征向量；

计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离，作为第一距离，及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离，作为第二距离；

根据所述第一距离、所述第二距离和所述待检测评论的情感标签，确定所述待检测评论的真实性。

在一种可选的实施方式中，所述采用逻辑回归模型从所有待选变量中选取目标特征向量，包括：

对评论语料库的每一参考评论，提取所述参考评论的变量；

将所述参考评论的所有变量作为自变量，将所述参考评论的真实性作为因变量，通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量，作为所述参考评论的目标特征向量；其中，所述因变量为二值变量；若所述参考评论为真实评论，则所述因变量等于0；若所述参考评论为虚假评论，则所述因变量等于1；

所述真实评论和虚假评论的聚类中心的获取过程，包括：

对所有参考评论的目标特征向量进行聚类运算，以得到真实评论和虚假评论的聚类中心。

在一种可选的实施方式中，所述卷积神经网络模型的构建过程包括：

对训练集的每一标准句子进行分词预处理，以得到所述标准句子的若干标准分词结果；

将所述若干标准分词结果中的词语转化为词向量；

构建卷积神经网络模型，并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络，以得到所述卷积神经网络模型的权值和截距。

在一种可选的实施方式中，所述构建卷积神经网络模型，并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络，以得到所述卷积神经网络模型的权值和截距，包括：

对每一所述标准句子，使用卷积神经网络中的卷积层对所述标准句子的所有词向量进行卷积，以抽取不同大小卷积核的句子级别特征；

对每个卷积层进行最大池化操作，生成一个固定长度的句子特征向量；

将所有卷积层生成的句子特征向量进行全连接，得到全局特征向量；

将所述全局特征向量传递至包含两个全连接层的神经网络，计算所述标准句子属于每个情感标签e∈E的得分；

给定句子x，参数集合为θ的模型对每个情感标签e计算一个得分score_θ(x)_e，通过最小负似然函数将得分转换为给定句子的情感标签和模型参数集θ的条件概率分布，以通过训练卷积神经网络得到所述卷积神经网络模型的权值和截距。

在一种可选的实施方式中，所述方法还包括：在卷积层卷积后，加入激活函数Relu。

在一种可选的实施方式中，所述将所述参考评论的所有变量作为自变量，将所述参考评论的真实性作为因变量，通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量，作为所述参考评论的目标特征向量，包括：

步骤S11、将仅有截距项的最大似然估计值设为L₀，分别计算m个变量的Score检测值，将有最小P值的变量设为X_e1，且有P_e1＝min(P_j)，若P_e1＜α_in，则变量X_e1进入逻辑回归模型，否则停止进入逻辑回归模型；其中，α_in为引入变量的显著性水平；

步骤S12、将X_j，j＝1，2，...，m，j≠e分别与X_e1进行拟合；对m－1变量分别计算Score检测值；将X_e1的P值设为P_j；将有最小P值的变量设为X_e2，且有P_e2＝min(P_j)；若P_e2＜α_in，则进入步骤S13，否则停止迭代；

步骤S12、使用Wald检验分别计算变量X_e1和X_e2的显著值和响应的P值；若P值大于α_out，则将对应的自变量从模型中删除，否则停止迭代计算；α_out为删除变量的显著性水平；

步骤S13、依次进行迭代计算，每当向前选择一个变量进入后，都进行向后删除的检查，循环终止的条件是：模型中的所有自变量的P值都小于α_out，被删除自变量的P值都大于α_in。

在一种可选的实施方式中，所述参考评论的所有变量包括去除情感极性外的文本长度、复杂度、关联度、一致性、是否包含转折词、复制文本、用户信誉、初评和追评一致性、及是否附有广告图片。

在一种可选的实施方式中，所述变量选取时使用流行病衡量危险因素作用大小的比数比例指标进行选择。

本发明另一方面还提供一种评论的真实性检测系统，包括：

预处理模块，用于对待检测评论进行分词预处理，以得到所述待检测评论的若干分词结果；

转化模块，用于将所述待检测评论的若干分词结果中的词语转化为词向量；

第一计算模块，用于将所述待检测评论的所有词向量输入卷积神经网络模型，以得到所述待检测评论的情感标签；其中，所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成；

选取模块，用于采用逻辑回归模型从所有待选变量中选取目标特征向量；

第二计算模块，用于计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离，作为第一距离，及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离，作为第二距离；

确定模块，用于根据所述第一距离、所述第二距离和所述待检测评论的情感标签，确定所述待检测评论的真实性。

在一种可选的实施方式中，所述选取模块包括：

提取单元，用于对评论语料库的每一参考评论，提取所述参考评论的变量；

选取单元，用于将所述参考评论的所有变量作为自变量，将所述参考评论的真实性作为因变量，通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量，作为所述参考评论的目标特征向量；其中，所述因变量为二值变量；若所述参考评论为真实评论，则所述因变量等于0；若所述参考评论为虚假评论，则所述因变量等于1；

所述真实评论和虚假评论的聚类中心的获取过程，包括：

相对于现有技术，本发明具有如下突出的有益效果：本发明提供了一种评论的真实性检测方法与系统，其中，所述方法通过将词级别向量作为原始特征，采用卷积神经网络模型进行情感极性分析，采用多种大小的卷积核的卷积神经网络进行情感分析，不仅摒弃了人工抽取特征，而且加入了语义的分析，提高了情感分析的准确性，然后对其他的特征使用逻辑回归的方式极性筛选得到最后的特征，最后对这些特征进行聚类得到真实评论和虚假评论的聚类中心，从而用来对当前评论的真实性进行预测，加入了评论用户的基本信息，通过聚类的方法得到虚假评论和真实评论的类簇，更加准确的挖掘出虚假评论。

附图说明

图1是本发明提供的评论的真实性检测方法的第一实施例的流程示意图；

图2是本发明提供的评论的真实性检测系统的第一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，其是本发明提供的评论的真实性检测方法的第一实施例的流程示意图，如图1所示，所述方法包括：

步骤S101、对待检测评论进行分词预处理，以得到所述待检测评论的若干分词结果。

步骤S102、将所述待检测评论的若干分词结果中的词语转化为词向量。

具体地，的模型将词级别向量作为原始特征，为得到词级别工具首先使用分词工具对句子进行分词，然后对每个词进行词向量训练。

例如对于博文“很好的一款手机壳，透气手感好，做工精细，值得推荐哦”，通过分词并去掉停用词得到以下组成，“很好一款手机壳透气手感好做工精细值得推荐”，每个词是句子的最小组成单位。

步骤S103、将所述待检测评论的所有词向量输入卷积神经网络模型，以得到所述待检测评论的情感标签；其中，所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成；

具体地，所述卷积神经网络模型的构建过程包括：

将所述若干标准分词结果中的词语转化为词向量；

具体地，设句子为x，x由N个基本单位w_i组成为{w₁,w₂,…,w_N}，卷积使用大小为k的卷积核对句子进行矩阵向量计算。

假设表示以句子中第n个基本单元为中心的前后各(k-1)/2个基本单位的词向量进行全连接，其中d表示句子中基本单位向量化表示后的向量长度。

s_n＝(w_n-(k-1)/2,…,w_n+(k-1)/2)^T＜公式一＞

卷积层计算计算句子特征向量的第j个元素的过程如下所示：

[w^sent]_j＝max_1＜n＜N[Qs_n+b^l]_j＜公式二＞

这里是该卷基层的权重矩阵。权重矩阵Q的计算给定了句子中每个计算单元w_i的窗口大小为k的局部信息，对句子中所有基本单元的卷积核大小取最大值，就抽取到一个在大小为k的卷积核的条件下长度为cl_u的句子特征向量。

由于卷积核大小的不同，所取到的局部信息也不同。因此，本专利中使用多个卷基层进行并行学习不同语言模型。每个卷积层经过最大池化操作后都会生成一个固定长度的句子特征向量，将所有卷积层生成的句子特征向量进行全连接得到新的句子特征向量。

在卷积层卷积后加入激活函数Relu，通过Relu层可以加速随机梯度下降的收敛速度。将所有窗口生成的句子特征向量进行全连接得到新的特征向量如下所示：

最后表示句子x的全局特征w^sent传递给包含两个全连接层的神经网络进行处理，计算该句子属于每个情感标签e∈E的得分，如下所示：

其中h是激活函数，这里使用正切函数。W和b是模型中需要学习的参数。

对于电商平台中的情感倾向性分析实质上是一个基于主题的文本分类问题，在本专利中将评论进行三类的分类，分别为正向、中性和负向。

使用最小化训练集D上的负对数似然函数进行训练。给定句子x，参数集合为θ的模型对每个情感标签e计算一个得分score_θ(x)_e。为了将这些得分转换为给定句子的情感标签和模型参数集θ的条件概率分布，在所有情感标签e的得分进行softmax操作：

然后对公式五求对数：

本专利中使用SGD最小负似然函数：

θ→∑_(x,y)∈D-log p(y|x,θ)＜公式七＞

公式七中，x表示语料库中D中的一条评论，y表示该评论的情感标签。

步骤S104、采用逻辑回归模型从所有待选变量中选取目标特征向量；

具体地，采用逻辑回归模型从参考评论的所有变量中选取对虚假评论的影响更明显的变量。

具体地，在逻辑回归模型中，因变量Y是一个二值变量，取值为：

自变量X是由X_i(i∈[1,m])组成，P表示在m个自变量作用下事件发生的概率，使用如下公式计算

分析Y取某个值的概率P与X的关系。令Y为0、1变量，Y＝1表示虚假评论，Y＝0表示真实评论，X是与虚假评论有关的因素。

具体地，在选取变量时使用流行病衡量危险因素作用大小的比数比例指标进行选择：

公式九中，P₀和P₁分别表示X_j取值为c₀和c₁存在虚假评论的概率，OR_j表示除去其他自变量影响后的当前自变量的作用。对比某一个自变量因素X_j＝c₁与X_j＝c₀的虚假情况，其优势比的对数公式为：

如果且c₁-c₀＝1＝1，则OR_j＝expβ_j，

其中

具体地，选择逐步回归的方式进行变量选择，主要思想是通过逐个引入影响模型的自变量，每次都是引入对Y影响最为显著的自变量，并对方程中存在的变量逐个进行检验，把不显著的变量逐个从模型中删除，最终，使得模型中存在的变量时对Y影响最为显著的变量，筛选步骤如下：首先给出引入变量的显著性水平α_in和删除变量的显著性水平α_out。

设仅有截距项的最大似然估计值为L₀，分别计算m个变量的Score检测值，设有最小P值的变量为X_e1，且有P_e1＝min(P_j)，若P_e1＜α_in，则此变量进入逻辑回归模型，不然停止。如果此变量是名义变量单面化的变量，则此变量的其他单面化变量也会进入模型，其中α_in表示要引入变量的显著性水平。

为了确定当变量X_e1在模型中时其他m－1变量是否也重要，将X_j，j＝1，2，...，m，j≠e分别与X_e1进行拟合。对m－1变量分别计算Score检测值，其P值设为P_j。设有最小P值的变量为X_e2，且有P_e2＝min(P_j)。若P_e2＜α_in，则进入下一步，否则停止迭代。

此时的模型中已经包含X_e1和X_e2两个变量，在引入变量X_e2之后，变量X_e1可能不再是显著性变量，使用Wald检验分别计算它们的显著值和响应的P值。如果P值大于α_out，则此变量从模型中删除，否则停止迭代计算；

依次进行迭代计算，每当向前选择一个变量进入后，都进行向后删除的检查，循环终止的条件是：模型中的所有自变量的P值都小于α_out，被删除自变量的P值都大于α_in。

具体地，对除去情感极性外的文本长度、复杂度、关联度、一致性、是否包含转折词、复制文本、用户信誉、初评和追评一致性、是否附有广告图片9个特征进行选择。

步骤S105、计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离，作为第一距离，及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离，作为第二距离；

步骤S106、根据所述第一距离、所述第二距离和所述待检测评论的情感标签，确定所述待检测评论的真实性。

具体地，通过聚类训练得到聚类中心，根据评论道聚类中心的距离判断当前评论是否为真实评论。选择使用K－均值进行聚类，本实施例中使用的K为2。

即通过将词级别向量作为原始特征，采用卷积神经网络模型进行情感极性分析，采用多种大小的卷积核的卷积神经网络进行情感分析，不仅摒弃了人工抽取特征，而且加入了语义的分析，提高了情感分析的准确性，然后对其他的特征使用逻辑回归的方式极性筛选得到最后的特征，最后对这些特征进行聚类得到真实评论和虚假评论的聚类中心，从而用来对当前评论的真实性进行预测，加入了评论用户的基本信息，通过聚类的方法得到虚假评论和真实评论的类簇，更加准确的挖掘出虚假评论。

本发明还提供了评论的真实性检测方法的第二实施例，所述方法包括：

将所述待检测评论的若干分词结果中的词语转化为词向量；

采用逻辑回归模型从所有待选变量中选取目标特征向量；

对评论语料库的每一参考评论，提取所述参考评论的变量；

所述真实评论和虚假评论的聚类中心的获取过程，包括：

将所述若干标准分词结果中的词语转化为词向量；

参见图2，其是本发明提供的评论的真实性检测系统的第一实施例的结构示意图，如图2所示，所述系统包括：

预处理模块201，用于对待检测评论进行分词预处理，以得到所述待检测评论的若干分词结果；

转化模块202，用于将所述待检测评论的若干分词结果中的词语转化为词向量；

第一计算模块203，用于将所述待检测评论的所有词向量输入卷积神经网络模型，以得到所述待检测评论的情感标签；其中，所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成；

选取模块204，用于采用逻辑回归模型从所有待选变量中选取目标特征向量；

第二计算模块205，用于计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离，作为第一距离，及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离，作为第二距离；

确定模块206，用于根据所述第一距离、所述第二距离和所述待检测评论的情感标签，确定所述待检测评论的真实性。

在一种可选的实施方式中，所述选取模块包括：

所述真实评论和虚假评论的聚类中心的获取过程，包括：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

需说明的是，以上所描述的装置或系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种评论的真实性检测方法，其特征在于，包括：

将所述待检测评论的若干分词结果中的词语转化为词向量；

采用逻辑回归模型从所有变量中选取目标特征向量；

2.如权利要求1所述的评论的真实性检测方法，其特征在于，所述采用逻辑回归模型从所有待选变量中选取目标特征向量，包括：

对评论语料库的每一参考评论，提取所述参考评论的变量；

所述真实评论和虚假评论的聚类中心的获取过程，包括：

3.如权利要求1或2所述的评论的真实性检测方法，其特征在于，所述卷积神经网络模型的构建过程包括：

将所述若干标准分词结果中的词语转化为词向量；

4.如权利要求3所述的评论的真实性检测方法，其特征在于，所述构建卷积神经网络模型，并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络，以得到所述卷积神经网络模型的权值和截距，包括：

5.如权利要求4所述的评论的真实性检测方法，其特征在于，所述方法还包括：在卷积层卷积后，加入激活函数Relu。

6.如权利要求5所述的评论的真实性检测方法，其特征在于，所述将所述参考评论的所有变量作为自变量，将所述参考评论的真实性作为因变量，通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量，作为所述参考评论的目标特征向量，包括：

步骤S12、使用Wald检验分别计算变量X_e1和X_e2的显著值和响应的P值；若P值大于α_out，则将对应的自变量从模型中删除，否则停止迭代计算；其中，α_out为删除变量的显著性水平；

7.如权利要求6所述的评论的真实性检测方法，其特征在于，所述参考评论的所有变量包括去除情感极性外的文本长度、复杂度、关联度、一致性、是否包含转折词、复制文本、用户信誉、初评和追评一致性、及是否附有广告图片。

8.如权利要求7所述的评论的真实性检测方法，其特征在于，所述变量选取时使用流行病衡量危险因素作用大小的比数比例指标进行选择。

9.一种评论的真实性检测系统，其特征在于，包括：

10.如权利要求9所述的评论的真实性检测系统，其特征在于，所述选取模块包括：

所述真实评论和虚假评论的聚类中心的获取过程，包括：