CN108345587A - 一种评论的真实性检测方法与系统 - Google Patents
一种评论的真实性检测方法与系统 Download PDFInfo
- Publication number
- CN108345587A CN108345587A CN201810153301.6A CN201810153301A CN108345587A CN 108345587 A CN108345587 A CN 108345587A CN 201810153301 A CN201810153301 A CN 201810153301A CN 108345587 A CN108345587 A CN 108345587A
- Authority
- CN
- China
- Prior art keywords
- comment
- variable
- detected
- neural networks
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种评论的真实性检测方法,包括:对待检测评论进行分词预处理,以得到若干分词结果;将若干分词结果中的词语转化为词向量;通过预先构建的卷积神经网络模型计算待检测评论的情感标签;其中,卷积神经网络模型为通过训练集的每一标准句子的词向量和每一标准句子的情感标签训练卷积神经网络所生成;采用逻辑回归模型从所有待选变量中选取目标特征向量;计算待检测评论的目标特征向量到真实评论的聚类中心的距离,及计算待检测评论的目标特征向量到虚假评论的聚类中心的距离;根据距离和待检测评论的情感标签确定待检测评论的真实性。本发明实施例能够提高评论真实性检测的准确性,同时本发明还提供评论的真实性检测系统。
Description
技术领域
本发明涉及电子商务技术领域,尤其涉及一种评论的真实性检测方法与系统。
背景技术
随着web2.0时代的到来和蓬勃发展,用户在越来越频繁的使用各类电子商务平台进行购物和观点共享。
然而,大多数的电子商务平台存在很大的缺陷。这些平台允许来自全国各地甚至全世界的用户无限制的进行评论,这就促使了一些不法的商家或者制造商雇佣一些刷单员发布一些积极的评论来影响潜在消费者的判断从而增加自己的销售量,或者在竞争者的网店中发布一些消极的评论去影响竞争者的信誉。由于这些虚假评论的结构往往与真实评论非常相似,所以消费者在阅读这些评论的时候很难去识别这些具有危害性的虚假评论。因此,从评论中对虚假评论进行检测是必要的。通常情况下,在电商平台中进行评论的真实性检测时,将其定义为一个二分类的问题,首先通过手工标注的数据集训练分类器,然后将新的评论输入这个分类器去预测为虚假评论或真实评论。由于虚假评论的隐藏性和多样性,因此,手工标注的评论预料中存在着一定数量的错误样例,使用传统的全监督分类算法来识别虚假评论会存在比较大的误差。
现有的评论的真实性检测方法通常是从文本着手,利用自然语言处理技术,分析评论文本的情感极性,判断每个用户的情感偏离大众情感的程度。但由于用户评论噪声大、新词多、有自己固定的搭配、上下文信息有限等原因,用户评论情感的倾向性分析具有很大的难度。
发明内容
本发明实施例提出一种评论的真实性检测方法与系统,能够提高检测虚假评论的准确性。
本发明一方面提供一种评论的真实性检测方法,所述方法包括:
对待检测评论进行分词预处理,以得到所述待检测评论的若干分词结果;
将所述待检测评论的若干分词结果中的词语转化为词向量;
将所述待检测评论的所有词向量输入卷积神经网络模型,以得到所述待检测评论的情感标签;其中,所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成;
采用逻辑回归模型从所有待选变量中选取目标特征向量;
计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离,作为第一距离,及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离,作为第二距离;
根据所述第一距离、所述第二距离和所述待检测评论的情感标签,确定所述待检测评论的真实性。
在一种可选的实施方式中,所述采用逻辑回归模型从所有待选变量中选取目标特征向量,包括:
对评论语料库的每一参考评论,提取所述参考评论的变量;
将所述参考评论的所有变量作为自变量,将所述参考评论的真实性作为因变量,通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量,作为所述参考评论的目标特征向量;其中,所述因变量为二值变量;若所述参考评论为真实评论,则所述因变量等于0;若所述参考评论为虚假评论,则所述因变量等于1;
所述真实评论和虚假评论的聚类中心的获取过程,包括:
对所有参考评论的目标特征向量进行聚类运算,以得到真实评论和虚假评论的聚类中心。
在一种可选的实施方式中,所述卷积神经网络模型的构建过程包括:
对训练集的每一标准句子进行分词预处理,以得到所述标准句子的若干标准分词结果;
将所述若干标准分词结果中的词语转化为词向量;
构建卷积神经网络模型,并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络,以得到所述卷积神经网络模型的权值和截距。
在一种可选的实施方式中,所述构建卷积神经网络模型,并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络,以得到所述卷积神经网络模型的权值和截距,包括:
对每一所述标准句子,使用卷积神经网络中的卷积层对所述标准句子的所有词向量进行卷积,以抽取不同大小卷积核的句子级别特征;
对每个卷积层进行最大池化操作,生成一个固定长度的句子特征向量;
将所有卷积层生成的句子特征向量进行全连接,得到全局特征向量;
将所述全局特征向量传递至包含两个全连接层的神经网络,计算所述标准句子属于每个情感标签e∈E的得分;
给定句子x,参数集合为θ的模型对每个情感标签e计算一个得分scoreθ(x)e,通过最小负似然函数将得分转换为给定句子的情感标签和模型参数集θ的条件概率分布,以通过训练卷积神经网络得到所述卷积神经网络模型的权值和截距。
在一种可选的实施方式中,所述方法还包括:在卷积层卷积后,加入激活函数Relu。
在一种可选的实施方式中,所述将所述参考评论的所有变量作为自变量,将所述参考评论的真实性作为因变量,通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量,作为所述参考评论的目标特征向量,包括:
步骤S11、将仅有截距项的最大似然估计值设为L0,分别计算m个变量的Score检测值,将有最小P值的变量设为Xe1,且有Pe1=min(Pj),若Pe1<αin,则变量Xe1进入逻辑回归模型,否则停止进入逻辑回归模型;其中,αin为引入变量的显著性水平;
步骤S12、将Xj,j=1,2,...,m,j≠e分别与Xe1进行拟合;对m-1变量分别计算Score检测值;将Xe1的P值设为Pj;将有最小P值的变量设为Xe2,且有Pe2=min(Pj);若Pe2<αin,则进入步骤S13,否则停止迭代;
步骤S12、使用Wald检验分别计算变量Xe1和Xe2的显著值和响应的P值;若P值大于αout,则将对应的自变量从模型中删除,否则停止迭代计算;αout为删除变量的显著性水平;
步骤S13、依次进行迭代计算,每当向前选择一个变量进入后,都进行向后删除的检查,循环终止的条件是:模型中的所有自变量的P值都小于αout,被删除自变量的P值都大于αin。
在一种可选的实施方式中,所述参考评论的所有变量包括去除情感极性外的文本长度、复杂度、关联度、一致性、是否包含转折词、复制文本、用户信誉、初评和追评一致性、及是否附有广告图片。
在一种可选的实施方式中,所述变量选取时使用流行病衡量危险因素作用大小的比数比例指标进行选择。
本发明另一方面还提供一种评论的真实性检测系统,包括:
预处理模块,用于对待检测评论进行分词预处理,以得到所述待检测评论的若干分词结果;
转化模块,用于将所述待检测评论的若干分词结果中的词语转化为词向量;
第一计算模块,用于将所述待检测评论的所有词向量输入卷积神经网络模型,以得到所述待检测评论的情感标签;其中,所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成;
选取模块,用于采用逻辑回归模型从所有待选变量中选取目标特征向量;
第二计算模块,用于计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离,作为第一距离,及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离,作为第二距离;
确定模块,用于根据所述第一距离、所述第二距离和所述待检测评论的情感标签,确定所述待检测评论的真实性。
在一种可选的实施方式中,所述选取模块包括:
提取单元,用于对评论语料库的每一参考评论,提取所述参考评论的变量;
选取单元,用于将所述参考评论的所有变量作为自变量,将所述参考评论的真实性作为因变量,通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量,作为所述参考评论的目标特征向量;其中,所述因变量为二值变量;若所述参考评论为真实评论,则所述因变量等于0;若所述参考评论为虚假评论,则所述因变量等于1;
所述真实评论和虚假评论的聚类中心的获取过程,包括:
对所有参考评论的目标特征向量进行聚类运算,以得到真实评论和虚假评论的聚类中心。
相对于现有技术,本发明具有如下突出的有益效果:本发明提供了一种评论的真实性检测方法与系统,其中,所述方法通过将词级别向量作为原始特征,采用卷积神经网络模型进行情感极性分析,采用多种大小的卷积核的卷积神经网络进行情感分析,不仅摒弃了人工抽取特征,而且加入了语义的分析,提高了情感分析的准确性,然后对其他的特征使用逻辑回归的方式极性筛选得到最后的特征,最后对这些特征进行聚类得到真实评论和虚假评论的聚类中心,从而用来对当前评论的真实性进行预测,加入了评论用户的基本信息,通过聚类的方法得到虚假评论和真实评论的类簇,更加准确的挖掘出虚假评论。
附图说明
图1是本发明提供的评论的真实性检测方法的第一实施例的流程示意图;
图2是本发明提供的评论的真实性检测系统的第一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,其是本发明提供的评论的真实性检测方法的第一实施例的流程示意图,如图1所示,所述方法包括:
步骤S101、对待检测评论进行分词预处理,以得到所述待检测评论的若干分词结果。
步骤S102、将所述待检测评论的若干分词结果中的词语转化为词向量。
具体地,的模型将词级别向量作为原始特征,为得到词级别工具首先使用分词工具对句子进行分词,然后对每个词进行词向量训练。
例如对于博文“很好的一款手机壳,透气手感好,做工精细,值得推荐哦”,通过分词并去掉停用词得到以下组成,“很好一款手机壳透气手感好做工精细值得推荐”,每个词是句子的最小组成单位。
步骤S103、将所述待检测评论的所有词向量输入卷积神经网络模型,以得到所述待检测评论的情感标签;其中,所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成;
具体地,所述卷积神经网络模型的构建过程包括:
对训练集的每一标准句子进行分词预处理,以得到所述标准句子的若干标准分词结果;
将所述若干标准分词结果中的词语转化为词向量;
构建卷积神经网络模型,并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络,以得到所述卷积神经网络模型的权值和截距。
具体地,设句子为x,x由N个基本单位wi组成为{w1,w2,…,wN},卷积使用大小为k的卷积核对句子进行矩阵向量计算。
假设表示以句子中第n个基本单元为中心的前后各(k-1)/2个基本单位的词向量进行全连接,其中d表示句子中基本单位向量化表示后的向量长度。
sn=(wn-(k-1)/2,…,wn+(k-1)/2)T<公式一>
卷积层计算计算句子特征向量的第j个元素的过程如下所示:
[wsent]j=max1<n<N[Qsn+bl]j<公式二>
这里是该卷基层的权重矩阵。权重矩阵Q的计算给定了句子中每个计算单元wi的窗口大小为k的局部信息,对句子中所有基本单元的卷积核大小取最大值,就抽取到一个在大小为k的卷积核的条件下长度为clu的句子特征向量。
由于卷积核大小的不同,所取到的局部信息也不同。因此,本专利中使用多个卷基层进行并行学习不同语言模型。每个卷积层经过最大池化操作后都会生成一个固定长度的句子特征向量,将所有卷积层生成的句子特征向量进行全连接得到新的句子特征向量。
在卷积层卷积后加入激活函数Relu,通过Relu层可以加速随机梯度下降的收敛速度。将所有窗口生成的句子特征向量进行全连接得到新的特征向量如下所示:
最后表示句子x的全局特征wsent传递给包含两个全连接层的神经网络进行处理,计算该句子属于每个情感标签e∈E的得分,如下所示:
其中h是激活函数,这里使用正切函数。W和b是模型中需要学习的参数。
对于电商平台中的情感倾向性分析实质上是一个基于主题的文本分类问题,在本专利中将评论进行三类的分类,分别为正向、中性和负向。
使用最小化训练集D上的负对数似然函数进行训练。给定句子x,参数集合为θ的模型对每个情感标签e计算一个得分scoreθ(x)e。为了将这些得分转换为给定句子的情感标签和模型参数集θ的条件概率分布,在所有情感标签e的得分进行softmax操作:
然后对公式五求对数:
本专利中使用SGD最小负似然函数:
θ→∑(x,y)∈D-log p(y|x,θ)<公式七>
公式七中,x表示语料库中D中的一条评论,y表示该评论的情感标签。
步骤S104、采用逻辑回归模型从所有待选变量中选取目标特征向量;
具体地,采用逻辑回归模型从参考评论的所有变量中选取对虚假评论的影响更明显的变量。
具体地,在逻辑回归模型中,因变量Y是一个二值变量,取值为:
自变量X是由Xi(i∈[1,m])组成,P表示在m个自变量作用下事件发生的概率,使用如下公式计算
分析Y取某个值的概率P与X的关系。令Y为0、1变量,Y=1表示虚假评论,Y=0表示真实评论,X是与虚假评论有关的因素。
具体地,在选取变量时使用流行病衡量危险因素作用大小的比数比例指标进行选择:
公式九中,P0和P1分别表示Xj取值为c0和c1存在虚假评论的概率,ORj表示除去其他自变量影响后的当前自变量的作用。对比某一个自变量因素Xj=c1与Xj=c0的虚假情况,其优势比的对数公式为:
如果且c1-c0=1=1,则ORj=expβj,
其中
具体地,选择逐步回归的方式进行变量选择,主要思想是通过逐个引入影响模型的自变量,每次都是引入对Y影响最为显著的自变量,并对方程中存在的变量逐个进行检验,把不显著的变量逐个从模型中删除,最终,使得模型中存在的变量时对Y影响最为显著的变量,筛选步骤如下:首先给出引入变量的显著性水平αin和删除变量的显著性水平αout。
设仅有截距项的最大似然估计值为L0,分别计算m个变量的Score检测值,设有最小P值的变量为Xe1,且有Pe1=min(Pj),若Pe1<αin,则此变量进入逻辑回归模型,不然停止。如果此变量是名义变量单面化的变量,则此变量的其他单面化变量也会进入模型,其中αin表示要引入变量的显著性水平。
为了确定当变量Xe1在模型中时其他m-1变量是否也重要,将Xj,j=1,2,...,m,j≠e分别与Xe1进行拟合。对m-1变量分别计算Score检测值,其P值设为Pj。设有最小P值的变量为Xe2,且有Pe2=min(Pj)。若Pe2<αin,则进入下一步,否则停止迭代。
此时的模型中已经包含Xe1和Xe2两个变量,在引入变量Xe2之后,变量Xe1可能不再是显著性变量,使用Wald检验分别计算它们的显著值和响应的P值。如果P值大于αout,则此变量从模型中删除,否则停止迭代计算;
依次进行迭代计算,每当向前选择一个变量进入后,都进行向后删除的检查,循环终止的条件是:模型中的所有自变量的P值都小于αout,被删除自变量的P值都大于αin。
具体地,对除去情感极性外的文本长度、复杂度、关联度、一致性、是否包含转折词、复制文本、用户信誉、初评和追评一致性、是否附有广告图片9个特征进行选择。
步骤S105、计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离,作为第一距离,及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离,作为第二距离;
步骤S106、根据所述第一距离、所述第二距离和所述待检测评论的情感标签,确定所述待检测评论的真实性。
具体地,通过聚类训练得到聚类中心,根据评论道聚类中心的距离判断当前评论是否为真实评论。选择使用K-均值进行聚类,本实施例中使用的K为2。
即通过将词级别向量作为原始特征,采用卷积神经网络模型进行情感极性分析,采用多种大小的卷积核的卷积神经网络进行情感分析,不仅摒弃了人工抽取特征,而且加入了语义的分析,提高了情感分析的准确性,然后对其他的特征使用逻辑回归的方式极性筛选得到最后的特征,最后对这些特征进行聚类得到真实评论和虚假评论的聚类中心,从而用来对当前评论的真实性进行预测,加入了评论用户的基本信息,通过聚类的方法得到虚假评论和真实评论的类簇,更加准确的挖掘出虚假评论。
本发明还提供了评论的真实性检测方法的第二实施例,所述方法包括:
对待检测评论进行分词预处理,以得到所述待检测评论的若干分词结果;
将所述待检测评论的若干分词结果中的词语转化为词向量;
将所述待检测评论的所有词向量输入卷积神经网络模型,以得到所述待检测评论的情感标签;其中,所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成;
采用逻辑回归模型从所有待选变量中选取目标特征向量;
计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离,作为第一距离,及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离,作为第二距离;
根据所述第一距离、所述第二距离和所述待检测评论的情感标签,确定所述待检测评论的真实性。
即通过将词级别向量作为原始特征,采用卷积神经网络模型进行情感极性分析,采用多种大小的卷积核的卷积神经网络进行情感分析,不仅摒弃了人工抽取特征,而且加入了语义的分析,提高了情感分析的准确性,然后对其他的特征使用逻辑回归的方式极性筛选得到最后的特征,最后对这些特征进行聚类得到真实评论和虚假评论的聚类中心,从而用来对当前评论的真实性进行预测,加入了评论用户的基本信息,通过聚类的方法得到虚假评论和真实评论的类簇,更加准确的挖掘出虚假评论。
在一种可选的实施方式中,所述采用逻辑回归模型从所有待选变量中选取目标特征向量,包括:
对评论语料库的每一参考评论,提取所述参考评论的变量;
将所述参考评论的所有变量作为自变量,将所述参考评论的真实性作为因变量,通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量,作为所述参考评论的目标特征向量;其中,所述因变量为二值变量;若所述参考评论为真实评论,则所述因变量等于0;若所述参考评论为虚假评论,则所述因变量等于1;
所述真实评论和虚假评论的聚类中心的获取过程,包括:
对所有参考评论的目标特征向量进行聚类运算,以得到真实评论和虚假评论的聚类中心。
在一种可选的实施方式中,所述卷积神经网络模型的构建过程包括:
对训练集的每一标准句子进行分词预处理,以得到所述标准句子的若干标准分词结果;
将所述若干标准分词结果中的词语转化为词向量;
构建卷积神经网络模型,并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络,以得到所述卷积神经网络模型的权值和截距。
在一种可选的实施方式中,所述构建卷积神经网络模型,并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络,以得到所述卷积神经网络模型的权值和截距,包括:
对每一所述标准句子,使用卷积神经网络中的卷积层对所述标准句子的所有词向量进行卷积,以抽取不同大小卷积核的句子级别特征;
对每个卷积层进行最大池化操作,生成一个固定长度的句子特征向量;
将所有卷积层生成的句子特征向量进行全连接,得到全局特征向量;
将所述全局特征向量传递至包含两个全连接层的神经网络,计算所述标准句子属于每个情感标签e∈E的得分;
给定句子x,参数集合为θ的模型对每个情感标签e计算一个得分scoreθ(x)e,通过最小负似然函数将得分转换为给定句子的情感标签和模型参数集θ的条件概率分布,以通过训练卷积神经网络得到所述卷积神经网络模型的权值和截距。
在一种可选的实施方式中,所述方法还包括:在卷积层卷积后,加入激活函数Relu。
在一种可选的实施方式中,所述将所述参考评论的所有变量作为自变量,将所述参考评论的真实性作为因变量,通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量,作为所述参考评论的目标特征向量,包括:
步骤S11、将仅有截距项的最大似然估计值设为L0,分别计算m个变量的Score检测值,将有最小P值的变量设为Xe1,且有Pe1=min(Pj),若Pe1<αin,则变量Xe1进入逻辑回归模型,否则停止进入逻辑回归模型;其中,αin为引入变量的显著性水平;
步骤S12、将Xj,j=1,2,...,m,j≠e分别与Xe1进行拟合;对m-1变量分别计算Score检测值;将Xe1的P值设为Pj;将有最小P值的变量设为Xe2,且有Pe2=min(Pj);若Pe2<αin,则进入步骤S13,否则停止迭代;
步骤S12、使用Wald检验分别计算变量Xe1和Xe2的显著值和响应的P值;若P值大于αout,则将对应的自变量从模型中删除,否则停止迭代计算;αout为删除变量的显著性水平;
步骤S13、依次进行迭代计算,每当向前选择一个变量进入后,都进行向后删除的检查,循环终止的条件是:模型中的所有自变量的P值都小于αout,被删除自变量的P值都大于αin。
在一种可选的实施方式中,所述参考评论的所有变量包括去除情感极性外的文本长度、复杂度、关联度、一致性、是否包含转折词、复制文本、用户信誉、初评和追评一致性、及是否附有广告图片。
在一种可选的实施方式中,所述变量选取时使用流行病衡量危险因素作用大小的比数比例指标进行选择。
参见图2,其是本发明提供的评论的真实性检测系统的第一实施例的结构示意图,如图2所示,所述系统包括:
预处理模块201,用于对待检测评论进行分词预处理,以得到所述待检测评论的若干分词结果;
转化模块202,用于将所述待检测评论的若干分词结果中的词语转化为词向量;
第一计算模块203,用于将所述待检测评论的所有词向量输入卷积神经网络模型,以得到所述待检测评论的情感标签;其中,所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成;
选取模块204,用于采用逻辑回归模型从所有待选变量中选取目标特征向量;
第二计算模块205,用于计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离,作为第一距离,及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离,作为第二距离;
确定模块206,用于根据所述第一距离、所述第二距离和所述待检测评论的情感标签,确定所述待检测评论的真实性。
在一种可选的实施方式中,所述选取模块包括:
提取单元,用于对评论语料库的每一参考评论,提取所述参考评论的变量;
选取单元,用于将所述参考评论的所有变量作为自变量,将所述参考评论的真实性作为因变量,通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量,作为所述参考评论的目标特征向量;其中,所述因变量为二值变量;若所述参考评论为真实评论,则所述因变量等于0;若所述参考评论为虚假评论,则所述因变量等于1;
所述真实评论和虚假评论的聚类中心的获取过程,包括:
对所有参考评论的目标特征向量进行聚类运算,以得到真实评论和虚假评论的聚类中心。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
需说明的是,以上所描述的装置或系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种评论的真实性检测方法,其特征在于,包括:
对待检测评论进行分词预处理,以得到所述待检测评论的若干分词结果;
将所述待检测评论的若干分词结果中的词语转化为词向量;
将所述待检测评论的所有词向量输入卷积神经网络模型,以得到所述待检测评论的情感标签;其中,所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成;
采用逻辑回归模型从所有变量中选取目标特征向量;
计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离,作为第一距离,及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离,作为第二距离;
根据所述第一距离、所述第二距离和所述待检测评论的情感标签,确定所述待检测评论的真实性。
2.如权利要求1所述的评论的真实性检测方法,其特征在于,所述采用逻辑回归模型从所有待选变量中选取目标特征向量,包括:
对评论语料库的每一参考评论,提取所述参考评论的变量;
将所述参考评论的所有变量作为自变量,将所述参考评论的真实性作为因变量,通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量,作为所述参考评论的目标特征向量;其中,所述因变量为二值变量;若所述参考评论为真实评论,则所述因变量等于0;若所述参考评论为虚假评论,则所述因变量等于1;
所述真实评论和虚假评论的聚类中心的获取过程,包括:
对所有参考评论的目标特征向量进行聚类运算,以得到真实评论和虚假评论的聚类中心。
3.如权利要求1或2所述的评论的真实性检测方法,其特征在于,所述卷积神经网络模型的构建过程包括:
对训练集的每一标准句子进行分词预处理,以得到所述标准句子的若干标准分词结果;
将所述若干标准分词结果中的词语转化为词向量;
构建卷积神经网络模型,并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络,以得到所述卷积神经网络模型的权值和截距。
4.如权利要求3所述的评论的真实性检测方法,其特征在于,所述构建卷积神经网络模型,并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络,以得到所述卷积神经网络模型的权值和截距,包括:
对每一所述标准句子,使用卷积神经网络中的卷积层对所述标准句子的所有词向量进行卷积,以抽取不同大小卷积核的句子级别特征;
对每个卷积层进行最大池化操作,生成一个固定长度的句子特征向量;
将所有卷积层生成的句子特征向量进行全连接,得到全局特征向量;
将所述全局特征向量传递至包含两个全连接层的神经网络,计算所述标准句子属于每个情感标签e∈E的得分;
给定句子x,参数集合为θ的模型对每个情感标签e计算一个得分scoreθ(x)e,通过最小负似然函数将得分转换为给定句子的情感标签和模型参数集θ的条件概率分布,以通过训练卷积神经网络得到所述卷积神经网络模型的权值和截距。
5.如权利要求4所述的评论的真实性检测方法,其特征在于,所述方法还包括:在卷积层卷积后,加入激活函数Relu。
6.如权利要求5所述的评论的真实性检测方法,其特征在于,所述将所述参考评论的所有变量作为自变量,将所述参考评论的真实性作为因变量,通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量,作为所述参考评论的目标特征向量,包括:
步骤S11、将仅有截距项的最大似然估计值设为L0,分别计算m个变量的Score检测值,将有最小P值的变量设为Xe1,且有Pe1=min(Pj),若Pe1<αin,则变量Xe1进入逻辑回归模型,否则停止进入逻辑回归模型;其中,αin为引入变量的显著性水平;
步骤S12、将Xj,j=1,2,...,m,j≠e分别与Xe1进行拟合;对m-1变量分别计算Score检测值;将Xe1的P值设为Pj;将有最小P值的变量设为Xe2,且有Pe2=min(Pj);若Pe2<αin,则进入步骤S13,否则停止迭代;
步骤S12、使用Wald检验分别计算变量Xe1和Xe2的显著值和响应的P值;若P值大于αout,则将对应的自变量从模型中删除,否则停止迭代计算;其中,αout为删除变量的显著性水平;
步骤S13、依次进行迭代计算,每当向前选择一个变量进入后,都进行向后删除的检查,循环终止的条件是:模型中的所有自变量的P值都小于αout,被删除自变量的P值都大于αin。
7.如权利要求6所述的评论的真实性检测方法,其特征在于,所述参考评论的所有变量包括去除情感极性外的文本长度、复杂度、关联度、一致性、是否包含转折词、复制文本、用户信誉、初评和追评一致性、及是否附有广告图片。
8.如权利要求7所述的评论的真实性检测方法,其特征在于,所述变量选取时使用流行病衡量危险因素作用大小的比数比例指标进行选择。
9.一种评论的真实性检测系统,其特征在于,包括:
预处理模块,用于对待检测评论进行分词预处理,以得到所述待检测评论的若干分词结果;
转化模块,用于将所述待检测评论的若干分词结果中的词语转化为词向量;
第一计算模块,用于将所述待检测评论的所有词向量输入卷积神经网络模型,以得到所述待检测评论的情感标签;其中,所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成;
选取模块,用于采用逻辑回归模型从所有待选变量中选取目标特征向量;
第二计算模块,用于计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离,作为第一距离,及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离,作为第二距离;
确定模块,用于根据所述第一距离、所述第二距离和所述待检测评论的情感标签,确定所述待检测评论的真实性。
10.如权利要求9所述的评论的真实性检测系统,其特征在于,所述选取模块包括:
提取单元,用于对评论语料库的每一参考评论,提取所述参考评论的变量;
选取单元,用于将所述参考评论的所有变量作为自变量,将所述参考评论的真实性作为因变量,通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量,作为所述参考评论的目标特征向量;其中,所述因变量为二值变量;若所述参考评论为真实评论,则所述因变量等于0;若所述参考评论为虚假评论,则所述因变量等于1;
所述真实评论和虚假评论的聚类中心的获取过程,包括:
对所有参考评论的目标特征向量进行聚类运算,以得到真实评论和虚假评论的聚类中心。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810153301.6A CN108345587B (zh) | 2018-02-14 | 2018-02-14 | 一种评论的真实性检测方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810153301.6A CN108345587B (zh) | 2018-02-14 | 2018-02-14 | 一种评论的真实性检测方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108345587A true CN108345587A (zh) | 2018-07-31 |
CN108345587B CN108345587B (zh) | 2020-04-24 |
Family
ID=62959889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810153301.6A Active CN108345587B (zh) | 2018-02-14 | 2018-02-14 | 一种评论的真实性检测方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108345587B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN109829166A (zh) * | 2019-02-15 | 2019-05-31 | 重庆师范大学 | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 |
CN110046253A (zh) * | 2019-04-10 | 2019-07-23 | 广州大学 | 一种语言冲突的预测方法 |
CN110442857A (zh) * | 2019-06-18 | 2019-11-12 | 平安科技(深圳)有限公司 | 情感智能判断方法、装置及计算机可读存储介质 |
CN110751180A (zh) * | 2019-09-19 | 2020-02-04 | 广东工业大学 | 一种基于谱聚类的虚假评论群组划分方法 |
CN111160037A (zh) * | 2019-12-02 | 2020-05-15 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN111428513A (zh) * | 2020-05-11 | 2020-07-17 | 安徽理工大学 | 一种基于卷积神经网络的虚假评论分析方法 |
CN111552790A (zh) * | 2020-04-27 | 2020-08-18 | 北京学之途网络科技有限公司 | 一种识别文章刷单的方法及装置 |
CN113592407A (zh) * | 2021-08-10 | 2021-11-02 | 深圳职业技术学院 | 一种商品售卖及配送方法和系统 |
CN114492423A (zh) * | 2021-12-28 | 2022-05-13 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
CN116385029A (zh) * | 2023-04-20 | 2023-07-04 | 深圳市天下房仓科技有限公司 | 酒店刷单检测方法、系统、电子设备及存储介质 |
US12001489B1 (en) * | 2023-01-25 | 2024-06-04 | Fujitsu Limited | Ethics-based multi-modal user post monitoring |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104867032A (zh) * | 2015-05-16 | 2015-08-26 | 成都数联铭品科技有限公司 | 电子商务客户评价鉴别系统 |
CN104867017A (zh) * | 2015-05-16 | 2015-08-26 | 成都数联铭品科技有限公司 | 电子商务客户虚假评价识别系统 |
CN106708966A (zh) * | 2016-11-29 | 2017-05-24 | 中国计量大学 | 基于相似度计算的垃圾评论检测方法 |
-
2018
- 2018-02-14 CN CN201810153301.6A patent/CN108345587B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104867032A (zh) * | 2015-05-16 | 2015-08-26 | 成都数联铭品科技有限公司 | 电子商务客户评价鉴别系统 |
CN104867017A (zh) * | 2015-05-16 | 2015-08-26 | 成都数联铭品科技有限公司 | 电子商务客户虚假评价识别系统 |
CN106708966A (zh) * | 2016-11-29 | 2017-05-24 | 中国计量大学 | 基于相似度计算的垃圾评论检测方法 |
Non-Patent Citations (5)
Title |
---|
刘龙飞 等: "基于卷积神经网络的微博情感倾向性分析", 《中文信息学报》 * |
宋海霞等: "基于自适应聚类的虚假评论检测", 《南京大学学报(自然科学)》 * |
李璐旸 等: "虚假评论检测研究综述", 《计算机学报》 * |
李蕾 等: "《机器智能》", 30 June 2016, 清华大学出版社 * |
赵军 等: "融合情感极性和逻辑回归的虚假评论检测方法", 《智能系统学报》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN109829166A (zh) * | 2019-02-15 | 2019-05-31 | 重庆师范大学 | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 |
CN109829166B (zh) * | 2019-02-15 | 2022-12-27 | 重庆师范大学 | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 |
CN110046253B (zh) * | 2019-04-10 | 2022-01-04 | 广州大学 | 一种语言冲突的预测方法 |
CN110046253A (zh) * | 2019-04-10 | 2019-07-23 | 广州大学 | 一种语言冲突的预测方法 |
CN110442857A (zh) * | 2019-06-18 | 2019-11-12 | 平安科技(深圳)有限公司 | 情感智能判断方法、装置及计算机可读存储介质 |
CN110442857B (zh) * | 2019-06-18 | 2024-05-10 | 平安科技(深圳)有限公司 | 情感智能判断方法、装置及计算机可读存储介质 |
CN110751180A (zh) * | 2019-09-19 | 2020-02-04 | 广东工业大学 | 一种基于谱聚类的虚假评论群组划分方法 |
CN110751180B (zh) * | 2019-09-19 | 2023-06-20 | 广东工业大学 | 一种基于谱聚类的虚假评论群组划分方法 |
CN111160037A (zh) * | 2019-12-02 | 2020-05-15 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN111552790A (zh) * | 2020-04-27 | 2020-08-18 | 北京学之途网络科技有限公司 | 一种识别文章刷单的方法及装置 |
CN111552790B (zh) * | 2020-04-27 | 2024-03-08 | 北京明略昭辉科技有限公司 | 一种识别文章刷单的方法及装置 |
CN111428513A (zh) * | 2020-05-11 | 2020-07-17 | 安徽理工大学 | 一种基于卷积神经网络的虚假评论分析方法 |
CN113592407B (zh) * | 2021-08-10 | 2022-03-29 | 深圳职业技术学院 | 一种商品售卖及配送方法和系统 |
CN113592407A (zh) * | 2021-08-10 | 2021-11-02 | 深圳职业技术学院 | 一种商品售卖及配送方法和系统 |
CN114492423B (zh) * | 2021-12-28 | 2022-10-18 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
CN114492423A (zh) * | 2021-12-28 | 2022-05-13 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
US12001489B1 (en) * | 2023-01-25 | 2024-06-04 | Fujitsu Limited | Ethics-based multi-modal user post monitoring |
CN116385029A (zh) * | 2023-04-20 | 2023-07-04 | 深圳市天下房仓科技有限公司 | 酒店刷单检测方法、系统、电子设备及存储介质 |
CN116385029B (zh) * | 2023-04-20 | 2024-01-30 | 深圳市天下房仓科技有限公司 | 酒店刷单检测方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108345587B (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108345587A (zh) | 一种评论的真实性检测方法与系统 | |
CN110188194B (zh) | 一种基于多任务学习模型的假新闻检测方法及系统 | |
Przybyla | Capturing the style of fake news | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN108616491B (zh) | 一种恶意用户的识别方法和系统 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN106919661B (zh) | 一种情感类型识别方法及相关装置 | |
CN109299268A (zh) | 一种基于双通道模型的文本情感分析方法 | |
CN108038725A (zh) | 一种基于机器学习的电商产品客户满意度分析方法 | |
CN110197389A (zh) | 一种用户识别方法及装置 | |
CN102789449B (zh) | 对评论文本进行评价的方法和装置 | |
CN108845986A (zh) | 一种情感分析方法、设备及系统、计算机可读存储介质 | |
CN109271627A (zh) | 文本分析方法、装置、计算机设备和存储介质 | |
JP4600045B2 (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
CN104778186A (zh) | 将商品对象挂载到标准产品单元的方法及系统 | |
CN110175851A (zh) | 一种作弊行为检测方法及装置 | |
CN110781428A (zh) | 评论展示方法、装置、计算机设备及存储介质 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
CN116956896A (zh) | 基于人工智能的文本分析方法、系统、电子设备及介质 | |
CN108268602A (zh) | 分析文本话题点的方法、装置、设备和计算机存储介质 | |
CN110489552A (zh) | 一种微博用户自杀风险检测方法及装置 | |
CN107688594B (zh) | 基于社交信息的风险事件的识别系统及方法 | |
CN113722487A (zh) | 用户情感分析方法、装置、设备及存储介质 | |
Habeeb | Hate Speech Detection using Deep Learning Master thesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220628 Address after: No. 230, Waihuan West Road, Guangzhou University City, Guangzhou 510000 Patentee after: Guangzhou University Patentee after: National University of Defense Technology Address before: No. 230, Waihuan West Road, Guangzhou University City, Guangzhou 510000 Patentee before: Guangzhou University |
|
TR01 | Transfer of patent right |