CN112597302A - 基于多维评论表示的虚假评论检测方法 - Google Patents
基于多维评论表示的虚假评论检测方法 Download PDFInfo
- Publication number
- CN112597302A CN112597302A CN202011505843.9A CN202011505843A CN112597302A CN 112597302 A CN112597302 A CN 112597302A CN 202011505843 A CN202011505843 A CN 202011505843A CN 112597302 A CN112597302 A CN 112597302A
- Authority
- CN
- China
- Prior art keywords
- comment
- sentence
- user
- fine
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
基于多维评论表示的虚假评论检测方法,属于信息挖掘技术领域。本发明是为了解决现有的虚假评论检测方法不能真实的、自动的、准确的解决电子商务平台中的商品评价信息处理的问题。本发明从词级和句子级将用户级相关特征表示、产品级相关特征表示和细粒度方面级相关特征表示进行融合,并对用户与产品之间的关系进行建模,将关系融入模型之中;基于注意力机制计算包含丰富上下文信息h′与用户‑产品知识的评论表示UP′之间的交互影响,获得最终的评论表示Fr,然后进行分类,进而判断评论是虚假评论还是真实评论。主要用于虚假评论的检测。
Description
技术领域
本发明涉及一种基于多维评论表示的虚假评论检测方法,属于信息挖掘技术领域。
背景技术
随着网络的飞速发展,用户使用网络的便捷性在不断上升。现如今,网络已不仅仅是人们获取知识的工具,同时还是人们发表观点和传播信息的载体。在电子商务方面,评论信息对网络平台中的用户与企业都影响重大,一方面影响着用户的购买决策,另一方面影响着企业的发展。据社交商务平台Bazaarvoice最新数据发现,超过50%的用户在发现产品有虚假评论后会停止购买行为,失去对品牌的信任。而针对虚假评论,据《华盛顿邮报》研究,亚马逊网站中电子产品的评论超过60%为虚假评论。正因此,自动鉴别网络平台信息的真假、给用户提供更加真实的信息至关重要。
现有的虚假评论的检测方法主要分为两种:一种是基于特征工程的虚假评论的检测方法,此方法多从文本特征和行为特征入手,例如在文本的语义特征方面包括评论文本的长度、词性特征和情感极性等,在用户行为特征方面包括好/差评论的发表数量,发表评论的频率等,然而在利益的驱使下,这些特征容易被虚假评论发布者反侦破,再伪装,虚假评论发布者的计策针对相应的检测特征也在不断提升和伪装;另一种是基于深度学习的虚假评论的检测方法,此方法相比基于特征的方法,能够自动识别文本内部隐含的特征,而不需要人工设计,具有更强的领域适应性,更为有效,但大多仅从单一的评论文本或用户角度出发,而忽略了用户自身隐含的一些表达模式以及用户、产品与文本三者之间的关联与影响;除此之外,我们发现用户在表达自己的真实感受的时候,无论是好评还是差评,都会从一些细节方面来描述说明,以此增强自己情感的表达,而虚假评论发布者因并非自己亲身经历或真实使用,并不能从细节处描述产品,大多是笼统的评论。
基于以上原因,在网络数据量飞速增长的环境下,提供一个自动的、准确的且不易被虚假评论发布者反侦破的虚假评论检测方法是解决电子商务平台中的商品评价信息处理的技术问题的关健。
发明内容
本发明是为了解决现有的虚假评论检测方法不能真实的、自动的、准确的解决电子商务平台中的商品评价信息处理的问题。现提供一种基于多维评论表示的虚假评论检测方法。
基于多维评论表示的虚假评论检测方法,包括以下步骤:
步骤1、提取细粒度方面词集:
首先,对评论语句进行预处理,提取评论语句中词性为名词且词频大于词频阈值的所有单词构成细粒度方面词集1;
然后,将评论中所包含的细粒度方面词视为当前评论句子中的主题,采用LDA主题挖掘模型结合主题困惑度计算对已有的评论集进行细粒度方面词的提取,得到细粒度方面词集2;
步骤2、构建词级融合模型:
通过用户ID信息、产品ID信息和细粒度方面词分别与评论文本中的单词基于注意力机制进行计算,获取用户级相关特征、产品级相关特征和细粒度方面级相关特征;
步骤3、构建句级交互模型:
步骤3.1、利用双向LSTM+max-pooling层作为基础模型,获取评论句子表示h:
步骤3.2、根据词级融合模型输出的用户级相关特征表示νuc、产品级相关特征表示νpc和细粒度方面级相关特征表示νaspect得到用户句子表示U、产品句子表示P以及细粒度方面句子表示A;
步骤3.3、将用户句子表示U与产品句子表示P拼接在一起生成用户-产品级句子表示,将细粒度方面句子表示A作为约束门,分别对评论句子表示h与用户-产品级句子表示UP传向下一层的信息进行约束,并将细粒度方面句子表示A分别融入包含丰富上下文信息h′与用户-产品知识的评论表示UP′中,基于注意力机制计算包含丰富上下文信息h′与用户-产品知识的评论表示UP′之间的交互影响,并获得最终的评论表示Fr;
步骤4、构建分类模型:
对句级交互模型输出的最终的评论表示Fr进行分类,判断评论是虚假评论还是真实评论。
进一步地,所述的步骤1中,对评论语句进行预处理的方式为:利用语法和形态分析工具对分词后的评论语句进行处理。
进一步地,所述的步骤1中,获得细粒度方面词集2的具体步骤如下:对评论语料进行语法和形态分析,然后利用语法和形态分析工具对分词后的评论语句进行预处理,通过LDA主题挖掘模型对预处理之后的评论集进行建模,采用困惑度最小时的主题数来确定每个评论集中的主题数,将确定的所有主题下的所有词全部进行整合,从而得到细粒度方面词集2。
进一步地,所述的步骤2中,获取用户级相关特征、产品级相关特征和细粒度方面级相关特征具体过程如下:
设定单词相关域d,基于注意力机制对每一个用户的ID信息在其所发表的评论的(wi′-d,wi′+d),从评论文本的单词中获取用户级相关特征表示vuc,计算过程如公式(1);
u=tanh(XW1+UcWu)
其中,X是(wi′-d,wi′+d)的词向量,i′∈[0,m],αi是整个句子中用户相关文本隐含模式重要程度的得分函数,W1和Wu是转换矩阵;u=[u1,u2,...,ui,...,un]是词向量与用户词向量加和之后进行tanh激活函数转化的一个矩阵,Uc矩阵是将用户Userc的ID的词向量进行复制2d+1倍的矩阵;
确定产品级相关特征表示vpc与确定用户级相关特征表示vuc的方式相同;
对于评论Sl,判定其是否包含细粒度方面词,使用Stanford的NLP库工具将Sl中的每一个词wi′,i′∈[0,m],进行词形还原,并与细粒度方面词集进行对比,若基于公式(2)进行计算,获取在虚假评论中细粒度方面级相关特征表示vaspect,
vaspect=βtXt
βt=softmax(apt) (2)
apt=tanh(XtW3+AtWa)
其中,Xt为wi′的词向量,At为评论Sl中所包含的细粒度方面词的词向量,βt为评论Sl中细粒度方面词的重要程度得分函数。
进一步地,所述的步骤3.1中获取评论句子表示h的具体过程如下:
首先对评论集S={S1,S2,...,Sl,...,SL}中的原始评论进行预处理,然后将预处理后的句子向量Sl作为模型的输入,将双向LSTM模型的前向输出向量与后向输出向量拼接得到文本语义特征S′l,双向LSTM模型即Bi-LSTM;最后,将双向LSTM模型的输出S′l进行最大池化操作,得到评论句子表示h:
ES=Embedding(S)
S′l=Bi-LSTM(ES) (3)
其中,ES∈R(l*m)×D。
进一步地,所述的步骤3.1中,对原始评论句子进行预处理的方式为:将句子中的缩略词进行替换并去掉句子中的标点符号。
进一步地,所述的步骤3.2中,获取用户句子表示、产品句子表示和细粒度方面句子表示的具体过程如下:
将每个用户级相关特征表示vuc分别与对应的评论Sl中wi′的表示进行拼接得到每个用户相关词表示,然后将所有的用户相关词表示拼接在一起得到用户级句矩阵Vu∈Rm×2D,选出当前句子中含有最多信息的特征将其转化为用户相关级句表征
Su=tanh(VuWv+b) (4)
其中,Wv∈R2D×D为转换矩阵,Su是对Vu的一个激活转换过程;
进一步地,所述的步骤3.3中,获得最终的评论表示Fr具体计算过程如下:
如公式(9)所示,将UPf,hf拼接起来作为最终的评论表示Fr,
Fr=UPfWf1+hfWf2 (9)
进一步地,所述的步骤4的过程包括以下步骤:
将句级交互模型输出的最终的评论表示Fr作为虚假评论识别的特征输入非线性层进行转化,
y=tanh(FrWr) (10)
其中,Wr为转换矩阵,ci是预测的类别,n0是分类的种类,y是Fr经过tanh函数激活转换之后的矩阵,θ代表模型中的参数;
最后使用softmax层进行分类进行确定评论的虚假性。
进一步地,所述方法还包括优化MIANA模型的目标函数的步骤,具体过程包括以下步骤:
将用户、评论和产品作为三元组信息,
基于TransD算法对三元组之间的关系进行知识表示,首先,将不同的实体属性映射到不同的矩阵,如公式(11)所示,构造两个投影矩阵Mru和Mrp,将头实体用户和尾实体产品从实体空间映射到关系空间;
Mru=meandim=1(U′)TF′r+ID×D
Mrp=meandim=1(P′)TF′r+ID×D (11)
其中,U′代表U的投影向量,P′代表P的投影向量,F′r代表Fr的投影向量,ID×D为单位矩阵;
然后确定头实体用户与尾实体产品在关系空间的距离,由公式(12)进行计算:
最后,对尾实体产品进行负采样,得到负采样的距离l(u,p)′,将lj(u,p)和lj(u,p)′之间的差值lj(u,p)作为三元组关系的loss,采用相似度损失MarginRankingLoss进行优化,将L(u,p)作为MIANA模型的正则化项,对MIANA模型的目标函数进行优化;
在模型训练过程中,训练目标是最小化优化后的交叉熵损失,如公式(13);
其中,λ为超参数。
有益效果:
本发明从全局角度出发,在细粒度方面信息的约束下,融合用户级表达模式、文本上下文语义信息以及产品细粒度属性作为评论的表示,基于注意力机制设计了一个具有细粒度方面约束的多级交互神经网络模型,并将评论与用户、产品之间的关系基于TransD进行建模,将模型训练结果作为多级交互神经网络模型的正则化项对模型进行优化,将评论与用户、产品之间的关系融入多级交互神经网络模型之中,增强虚假评论识别模型的性能。
实验结果证明,与现有的虚假评论检测方法相比,本发明提出的基于多维评论表示的虚假评论检测方法具有较大的优势,模型性能得到了很大的提升,更加适用于真实网络环境中的评论信息处理和分类。
附图说明
图1为本发明细粒度方面约束的多级交互神经网络模型MIANA。
具体实施方式
具体实施方式一:参照图1具体说明本实施方式,
本实施方式所述的基于多维评论表示的虚假评论检测方法,检测步骤具体如下:
步骤1、提取细粒度方面词集
经过对产品的真实评论数据分析和研究发现,用户在表达自己的真实感受的时候,无论是留下好评还是差评,都会从一些细节方面来描述说明,以此增强自己情感的表达,而虚假评论发布者因并非自己亲身经历或真实使用,并不能从细节处描述产品,大多是笼统的评论。例如对一个餐厅的评价中,真实用户user1无论发表好评还是差评,都会对产品详细的方面(Frech toast,chicken sausage)进行评价,而虚假评论发布者user2无论留下好评或差评,都只是笼统的一个评价(food,place)。
所述的细粒度方面词Aspect即用户评论中或者观点中出现的产品属性,细粒度方面词可以作为一种判别虚假评论的关键。
通过以下方式从评论中提取用户所关注的细粒度方面词(或者说产品被关注的的细粒度方面词),具体步骤如下:
首先,利用语法和形态分析工具对分词后的评论语句进行预处理,提取词性为名词且词频大于词频阈值的所有单词构成细粒度方面词集1;词频阈值优选取值10。
然后,当用户写下评论时,将评论中所包含的细粒度方面词视为当前评论句子中的主题,在此前提下,本实施方式采用LDA主题挖掘模型结合主题困惑度计算对已有的评论集S={S1,S2,...,Sl,...,SL}进行细粒度方面词的提取,其中评论集S中共有L条评论,每条评论语句Sl=[w1,w2,...,wm]中共有m个单词。
对评论语料进行语法和形态分析,然后利用语法和形态分析工具对分词后的评论语句进行预处理,通过LDA主题挖掘模型对预处理之后的评论集进行建模,采用困惑度最小时的主题数来确定每个评论集中的主题数,将确定的所有主题下的所有词全部进行整合,从而得到细粒度方面词集2。
本实施方式中共包含三个评论集,LDA主题挖掘模型对数据进行训练之后会生成指定主题,此处指定为5个,即确定每个评论集中主题数为5,共计15个主题,在指定的每个主题下会包含一些与主题相关性很高的单词,将模型所生成主题下的所有单词都集合到一起,得到细粒度方面词集2。
步骤2、构建词级融合模型
通过对产品的真实评论数据分析研究,若是从用户角度出发,每个用户在发表评论时都有自己的表达模式,这是与用户相关的文本隐含模式,也可以说是用户级相关特征,例如:用户在网站中对多个餐厅留下评论,而这些评论中包含了一种固定的表达模式:“整体评价+细节评价”,但仅从单条评论来看,并不会发现这样的问题。若是从产品的角度来看,评论语句中所包含的产品级相关特征同样如此。
因此,本发明从全局角度出发,为了获取用户级相关特征和产品级相关特征,分别将用户ID信息User和产品ID信息Prod与评论文本中的单词基于注意力机制进行计算。
如图1所示,为了减小分词对后续计算的影响,设定单词相关域d,基于注意力机制对每一个用户的ID信息在其所发表的评论的(wi′-d,wi′+d)上进行计算,以从评论文本的单词中获取用户级相关特征表示vuc,计算过程如公式(1)。
u=tanh(XW1+UcWu)
其中X是(wi′-d,wi′+d)的词向量,i′∈[0,m],αi是整个句子中用户相关文本隐含模式重要程度的得分函数,W1和Wu是转换矩阵,u=[u1,u2,...,ui,...,un]实际上是词向量与用户词向量加和之后进行tanh激活函数转化的一个矩阵;Uc矩阵是将Userc的ID的词向量进行复制2d+1倍的矩阵。
产品Pc的产品级相关特征表示vpc与用户级相关特征表示vuc的计算过程相似,计算过程如公式(2)。
p=tanh(XW2+PcWp)
其中,W2和Wp是转换矩阵,γi是整个句子中产品相关文本隐含模式重要程度的得分函数,p=[p1,p2,...,pi,...,pn]实际上是词向量与产品词向量加和之后进行tanh激活函数转化的一个矩阵;Pc矩阵是将Prodc的ID的词向量进行复制2d+1倍的矩阵。
除此之外,为了获取评论中的细粒度方面级相关特征,将细粒度方面词与评论文本中的单词基于注意力机制进行计算。
对于评论Sl,基于简单规则判定其是否包含细粒度方面词。使用Stanford的NLP库工具将Sl中的每一个词wi′,i′∈[0,m],进行词形还原,并与细粒度方面词集进行对比,若基于公式(3)进行计算,获取在虚假评论中细粒度方面级相关特征表示vaspect。
vaspect=βtXt
βt=softmax(apt) (3)
apt=tanh(XtW3+AtWa)
其中,Xt为wi′的词向量,At为评论Sl中所包含的细粒度方面词的词向量,βt为评论Sl中细粒度方面词的重要程度得分函数。
在词级融合模型中,得到了词级的用户级相关特征表示vuc、产品级相关特征表示vpc以及细粒度方面级相关特征表示vaspect,其中所述的词级即单词级别,指的是评论文本中的单词,因为在训练模型的过程中,可以对整个评论语句进行计算,称为句级;也可以对句子中的每一个词进行计算,称为词级。
步骤3、构建句级交互模型
句级交互模型中包含三部分句子处理机制。
步骤3.1因评论文本自身包含丰富的上下文语义信息,本发明使用RCNN网络(双向LSTM+max-pooling层)作为基础模型,首先对评论集S={S1,S2,...,Sl,...SL}中的原始评论进行预处理,即将句子中的缩略词进行替换(’re替换为are等)并去掉句子中的标点符号;然后将预处理后的句子向量Sl作为模型的输入,将双向LSTM模型(Bi-LSTM)的前向输出向量与后向输出向量拼接得到文本语义特征S′l;最后,将双向LSTM模型的输出S′l进行最大池化操作,得到评论句子表示h:
ES=Embedding(S)
S′l=Bi-LSTM(ES) (4)
其中,Es∈R(l*m)×D,至此,通过RCNN模型将原始评论自动编码为含有丰富文本特征的句表征。
步骤3.2对词级融合模型输出的用户级相关特征表示vuc、产品级相关特征表示vpc和细粒度方面级相关特征表示vaspect进一步操作,得到用户句子表示U、产品句子表示P以及细粒度方面句子表示A,
具体计算过程如下:将每个用户级相关特征表示vuc分别与对应的评论Sl中wi′的表示进行拼接得到每个用户相关词表示,然后将所有的用户相关词表示拼接在一起得到用户级句矩阵Vu∈Rm×2D,选出当前句子中含有最多信息的特征将其转化为用户相关级句表征
Su=tanh(VuWv+b) (5)
其中,Wv∈R2D×D为转换矩阵,Su是对Vu的一个激活转换过程。
用户句子表示、产品句子表示和细粒度方面句子表示可看做虚假评论识别的全局视角特征。
步骤3.3将用户句子表示U与产品句子表示P拼接在一起生成用户-产品级句子表示,即相关知识矩阵将细粒度方面句子表示A作为约束门,分别对评论句子表示h与用户-产品级句子表示UP传向下一层的信息进行约束,并将细粒度方面句子表示A分别融入包含丰富上下文信息h′与用户-产品知识的评论表示UP′中;
最后,如公式(7)和公式(8)所示,基于注意力机制计算包含丰富上下文信息h′与用户-产品知识的评论表示UP′之间的交互影响,即对于虚假评论识别,在给定文本特征的情况下,用户-产品级句子表示中的可疑特征有多少;在给定用户-产品特征的情况下,评论句子表示中的可疑特征有多少。
至此,本发明已将细粒度方面级信息融入到包含丰富上下文信息h′与用户-产品知识的评论表示UP′中,且包含丰富上下文信息h′与用户-产品知识的评论表示UP′之间的交互影响。
最后,如公式(10)所示,将UPf,hf拼接起来作为最终的评论表示Fr。
Fr=UPfWf1+hfWf2 (10)
Fr中包含了评论句子表示、用户句子表示、产品句子表示和细粒度方面句子表示4个视角的丰富的特征。
步骤4、构建分类模型
对句级交互模型输出的最终的评论表示Fr进行分类,判断评论是虚假评论还是真实评论。
如公式(11)所示,将句级交互模型输出的最终的评论表示Fr作为虚假评论识别的特征输入非线性层进行转化,最后使用softmax层进行分类,计算评论的虚假性。
y=tanh(FrWr) (11)
其中Wr为转换矩阵,ci是预测的类别,n0是分类的种类,y是Fr经过tanh函数激活转换之后的矩阵,θ代表模型中的参数。
步骤5、优化MIANA模型的目标函数
将用户、评论和产品作为三元组信息(Ui,S′,Pi),S′为Ui针对Pi所发表的评论,其中用户Ui与产品Pi之间不仅存在一对多或多对一的关系,而且在Ui/Pi中包含多个属性,例如情绪上的极性、写作习惯或产品的整体品质等,不同的关系对应着不同的属性,例如某用户U1对于某产品P1的评价是关于P1的价格的,而对于产品P2的评价是关于品质的;为了编码用户、评论及产品之间的关系,将用户和产品看做实体,头实体是人,尾实体是产品,将评论看做两实体之间的关系,三元组的头尾实体有很大的差异,因此同一关系中头尾实体共用相同的投影矩阵并不适用。
基于以上原因,在训练过程中,对三元组之间所存在的关系基于TransD算法进行关系建模,将模型训练结果作为正则化项对MIANA模型的目标函数进行优化,提高MIANA模型的准确率与精准率。
具体计算过程如下:
基于TransD算法对三元组之间的关系进行知识表示,首先,将不同的实体属性映射到不同的矩阵,如公式(12)所示,构造两个投影矩阵Mru和Mrp,将头实体用户和尾实体产品从实体空间映射到关系空间。
Mru=meandim=1(U′)TF′r+ID×D
Mrp=meandim=1(P′)TF′r+ID×D (12)
其中,U′代表U的投影向量,P′代表P的投影向量,F′r代表Fr的投影向量,ID×D为单位矩阵。
其次,头实体用户与尾实体产品在关系空间的距离由公式(13)进行计算:
最后,对尾实体产品进行负采样,得到负采样的距离l(u,p)′,将lj(u,p)和lj(u,p)′之间的差值Lj(u,p)作为三元组关系的loss,采用相似度损失MarginRankingLoss进行优化,将L(u,p)作为MIANA模型的正则化项,对MIANA模型的目标函数进行优化。
在模型训练过程中,训练目标是最小化优化后的交叉熵损失,如公式(14)。
其中,λ为超参数。
实施例
基于具体实施方式的过程进行仿真,通过在Yelp网站中餐厅及旅馆的非平衡公开数据集上的实验验证,如下表1所示,本发明所设计的具有细粒度方面信息约束的多级交互神经网络模型在平均准确率(AP)及AUC均超越现有的优先技术,获得平均5%的提升。证明了本发明设计的模型在虚假评论识别任务中的有效性与可迁移性。
表1实验结果(MIANA为本发明的模型)
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.基于多维评论表示的虚假评论检测方法,其特征在于:所述的检测方法包括以下步骤:
步骤1、提取细粒度方面词集:
首先,对评论语句进行预处理,提取评论语句中词性为名词且词频大于词频阈值的所有单词构成细粒度方面词集1;
然后,将评论中所包含的细粒度方面词视为当前评论句子中的主题,采用LDA主题挖掘模型结合主题困惑度计算对已有的评论集进行细粒度方面词的提取,得到细粒度方面词集2;
步骤2、构建词级融合模型:
通过用户ID信息、产品ID信息和细粒度方面词分别与评论文本中的单词基于注意力机制进行计算,获取用户级相关特征、产品级相关特征和细粒度方面级相关特征;
步骤3、构建句级交互模型:
步骤3.1、利用双向LSTM+max-pooling层作为基础模型,获取评论句子表示h:
步骤3.2、根据词级融合模型输出的用户级相关特征表示vuc、产品级相关特征表示vpc和细粒度方面级相关特征表示vaspect得到用户句子表示U、产品句子表示P以及细粒度方面句子表示A;
步骤3.3、将用户句子表示U与产品句子表示P拼接在一起生成用户-产品级句子表示,将细粒度方面句子表示A作为约束门,分别对评论句子表示h与用户-产品级句子表示UP传向下一层的信息进行约束,并将细粒度方面句子表示A分别融入包含丰富上下文信息h与用户-产品知识的评论表示UP′中,基于注意力机制计算包含丰富上下文信息h与用户-产品知识的评论表示UP′之间的交互影响,并获得最终的评论表示Fr;
步骤4、构建分类模型:
对句级交互模型输出的最终的评论表示Fr进行分类,判断评论是虚假评论还是真实评论。
2.根据权利要求1所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤1中,对评论语句进行预处理的方式为:利用语法和形态分析工具对分词后的评论语句进行处理。
3.根据权利要求2所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤1中,获得细粒度方面词集2的具体步骤如下:对评论语料进行语法和形态分析,然后利用语法和形态分析工具对分词后的评论语句进行预处理,通过LDA主题挖掘模型对预处理之后的评论集进行建模,采用困惑度最小时的主题数来确定每个评论集中的主题数,将确定的所有主题下的所有词全部进行整合,从而得到细粒度方面词集2。
4.根据权利要求3所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤2中,获取用户级相关特征、产品级相关特征和细粒度方面级相关特征具体过程如下:
设定单词相关域d,根据每一个用户的ID信息在其所发表的评论文本的(wi′-d,wi′+d)基于注意力机制进行计算,从评论文本的单词中获取用户级相关特征表示vuc,具体计算过程如公式(1);
其中,X是(wi′-d,wi′+d)的词向量,i′∈[0,m];αi是整个句子中用户相关文本隐含模式重要程度的得分函数,W1和Wu是转换矩阵;u=[u1,u2,...,ui,...,un]是词向量与用户词向量加和之后进行tanh激活函数转化的一个矩阵,Uc矩阵是将用户Userc的ID的词向量进行复制2d+1倍的矩阵;
确定产品级相关特征表示vpc与确定用户级相关特征表示vuc的方式相同;
对于评论Sl,判定其是否包含细粒度方面词,使用Stanford的NLP库工具将Sl中的每一个词wi′,i′∈[0,m],进行词形还原,并与细粒度方面词集进行对比,若基于公式(2)进行计算,获取在虚假评论中细粒度方面级相关特征表示νaspect,
vaspect=βtXt
βt=softmax(apt) (2)
apt=tanh(XtW3+AtWa)
其中,Xt为wi′的词向量,At为评论Sl中所包含的细粒度方面词的词向量,βt为评论Sl中细粒度方面词的重要程度得分函数。
6.根据权利要求5所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤3.1中,对原始评论句子进行预处理的方式为:将句子中的缩略词进行替换并去掉句子中的标点符号。
7.根据权利要求6所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤3.2中,获取用户句子表示、产品句子表示和细粒度方面句子表示的具体过程如下:
将每个用户级相关特征表示vuc分别与对应的评论Sl中wi′的表示进行拼接得到每个用户相关词表示,然后将所有的用户相关词表示拼接在一起得到用户级句矩阵选出当前句子中含有最多信息的特征将其转化为用户相关级句表征
Su=tanh(VuWv+b) (4)
其中,Wv∈R2D×D为转换矩阵,Su是对Vu的一个激活转换过程;
8.根据权利要求7所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤3.3中,获得最终的评论表示Fr具体计算过程如下:
如公式(9)所示,将UPf,hf拼接起来作为最终的评论表示Fr,
Fr=UPfWf1+hfWf2 (9)
10.根据权利要求1至9之一所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述方法还包括优化MIANA模型的目标函数的步骤,具体过程包括以下步骤:
将用户、评论和产品作为三元组信息,
基于TransD算法对三元组之间的关系进行知识表示,首先,将不同的实体属性映射到不同的矩阵,如公式(11)所示,构造两个投影矩阵Mru和Mrp,将头实体用户和尾实体产品从实体空间映射到关系空间;
Mru=meandim=1(U′)TF′r+ID×D
Mrp=meandim=1(P′)TF′r+ID×D (11)
其中,U′代表U的投影向量,P′代表P的投影向量,F′r代表Fr,的投影向量,ID×D为单位矩阵;
然后确定头实体用户与尾实体产品在关系空间的距离,由公式(12)进行计算:
最后,对尾实体产品进行负采样,得到负采样的距离l(u,p)′,将lj(u,p)和lj(u,p)′之间的差值Lj(u,p)作为三元组关系的loss,采用相似度损失MarginRankingLoss进行优化,将L(u,p)作为MIANA模型的正则化项,对MIANA模型的目标函数进行优化;
在模型训练过程中,训练目标是最小化优化后的交叉熵损失,如公式(13);
其中,λ为超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011505843.9A CN112597302B (zh) | 2020-12-18 | 2020-12-18 | 基于多维评论表示的虚假评论检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011505843.9A CN112597302B (zh) | 2020-12-18 | 2020-12-18 | 基于多维评论表示的虚假评论检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597302A true CN112597302A (zh) | 2021-04-02 |
CN112597302B CN112597302B (zh) | 2022-04-29 |
Family
ID=75199419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011505843.9A Active CN112597302B (zh) | 2020-12-18 | 2020-12-18 | 基于多维评论表示的虚假评论检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597302B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989056A (zh) * | 2021-04-30 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于方面特征的虚假评论识别方法及装置 |
CN114492423A (zh) * | 2021-12-28 | 2022-05-13 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
CN115269854A (zh) * | 2022-08-30 | 2022-11-01 | 重庆理工大学 | 基于主题和结构感知神经网络的虚假新闻检测方法 |
CN115374372A (zh) * | 2022-08-26 | 2022-11-22 | 广州工程技术职业学院 | 网络社区虚假信息快速识别方法及装置、设备、存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363790A (zh) * | 2018-02-12 | 2018-08-03 | 百度在线网络技术(北京)有限公司 | 用于对评论进行评估的方法、装置、设备和存储介质 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN108491377A (zh) * | 2018-03-06 | 2018-09-04 | 中国计量大学 | 一种基于多维度信息融合的电商产品综合评分方法 |
CN108984724A (zh) * | 2018-07-10 | 2018-12-11 | 凯尔博特信息科技(昆山)有限公司 | 利用高维表示提高特定属性情感分类准确率方法 |
CN109582764A (zh) * | 2018-11-09 | 2019-04-05 | 华南师范大学 | 基于依存句法的交互注意力情感分析方法 |
CN109597997A (zh) * | 2018-12-07 | 2019-04-09 | 上海宏原信息科技有限公司 | 基于评论实体、方面级情感分类方法和装置及其模型训练 |
WO2019183191A1 (en) * | 2018-03-22 | 2019-09-26 | Michael Bronstein | Method of news evaluation in social media networks |
CN110457480A (zh) * | 2019-08-16 | 2019-11-15 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
CN110688832A (zh) * | 2019-10-10 | 2020-01-14 | 河北省讯飞人工智能研究院 | 一种评论生成方法、装置、设备及存储介质 |
CN110929034A (zh) * | 2019-11-26 | 2020-03-27 | 北京工商大学 | 一种基于改进lstm的商品评论细粒度情感分类方法 |
CN111581980A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 基于决策树与共同注意力协作的假新闻检测系统及方法 |
-
2020
- 2020-12-18 CN CN202011505843.9A patent/CN112597302B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN108363790A (zh) * | 2018-02-12 | 2018-08-03 | 百度在线网络技术(北京)有限公司 | 用于对评论进行评估的方法、装置、设备和存储介质 |
US20190287142A1 (en) * | 2018-02-12 | 2019-09-19 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus for evaluating review, device and storage medium |
CN108491377A (zh) * | 2018-03-06 | 2018-09-04 | 中国计量大学 | 一种基于多维度信息融合的电商产品综合评分方法 |
WO2019183191A1 (en) * | 2018-03-22 | 2019-09-26 | Michael Bronstein | Method of news evaluation in social media networks |
CN108984724A (zh) * | 2018-07-10 | 2018-12-11 | 凯尔博特信息科技(昆山)有限公司 | 利用高维表示提高特定属性情感分类准确率方法 |
CN109582764A (zh) * | 2018-11-09 | 2019-04-05 | 华南师范大学 | 基于依存句法的交互注意力情感分析方法 |
CN109597997A (zh) * | 2018-12-07 | 2019-04-09 | 上海宏原信息科技有限公司 | 基于评论实体、方面级情感分类方法和装置及其模型训练 |
CN110457480A (zh) * | 2019-08-16 | 2019-11-15 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
CN110688832A (zh) * | 2019-10-10 | 2020-01-14 | 河北省讯飞人工智能研究院 | 一种评论生成方法、装置、设备及存储介质 |
CN110929034A (zh) * | 2019-11-26 | 2020-03-27 | 北京工商大学 | 一种基于改进lstm的商品评论细粒度情感分类方法 |
CN111581980A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 基于决策树与共同注意力协作的假新闻检测系统及方法 |
Non-Patent Citations (5)
Title |
---|
JANE CRYSTAL RODRIGUES等: "Machine & Deep Learning Techniques for Detection of Fake Reviews: A Survey", 《2020 INTERNATIONAL CONFERENCE ON EMERGING TRENDS IN INFORMATION TECHNOLOGY AND ENGINEERING (IC-ETITE)》 * |
MEILING LIU 等: "Detecting Fake Reviews Using Multidimensional Representations With Fine-Grained Aspects Plan", 《IEEE ACCESS》 * |
宋海霞等: "基于自适应聚类的虚假评论检测", 《南京大学学报(自然科学版)》 * |
汪建成等: "基于主题-对立情感依赖模型的虚假评论检测方法", 《山西大学学报(自然科学版)》 * |
胡玉琦等: "引入注意力机制的BiGRU-CNN情感分类模型", 《小型微型计算机系统》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989056A (zh) * | 2021-04-30 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于方面特征的虚假评论识别方法及装置 |
CN112989056B (zh) * | 2021-04-30 | 2021-07-30 | 中国人民解放军国防科技大学 | 基于方面特征的虚假评论识别方法及装置 |
CN114492423A (zh) * | 2021-12-28 | 2022-05-13 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
CN115374372A (zh) * | 2022-08-26 | 2022-11-22 | 广州工程技术职业学院 | 网络社区虚假信息快速识别方法及装置、设备、存储介质 |
CN115374372B (zh) * | 2022-08-26 | 2023-04-07 | 广州工程技术职业学院 | 网络社区虚假信息快速识别方法及装置、设备、存储介质 |
CN115269854A (zh) * | 2022-08-30 | 2022-11-01 | 重庆理工大学 | 基于主题和结构感知神经网络的虚假新闻检测方法 |
CN115269854B (zh) * | 2022-08-30 | 2024-02-02 | 重庆理工大学 | 基于主题和结构感知神经网络的虚假新闻检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112597302B (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597302B (zh) | 基于多维评论表示的虚假评论检测方法 | |
Tang et al. | Effective LSTMs for target-dependent sentiment classification | |
Bhuvaneshwari et al. | Sentiment analysis for user reviews using Bi-LSTM self-attention based CNN model | |
Wang et al. | Refined global word embeddings based on sentiment concept for sentiment analysis | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
Bhuvaneshwari et al. | Spam review detection using self attention based CNN and bi-directional LSTM | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN112668319B (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
CN108256968B (zh) | 一种电商平台商品专家评论生成方法 | |
Das et al. | Sarcasm detection on flickr using a cnn | |
CN113254678B (zh) | 跨媒体检索模型的训练方法、跨媒体检索方法及其设备 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN109726745A (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN110765769A (zh) | 一种基于子句特征的实体属性依赖情感分析方法 | |
CN111538841B (zh) | 基于知识互蒸馏的评论情感分析方法、装置及系统 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
Niu et al. | An Improved Method for Web Text Affective Cognition Computing Based on Knowledge Graph. | |
Rauf et al. | Using bert for checking the polarity of movie reviews | |
Mozafari et al. | Emotion detection by using similarity techniques | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
Yang et al. | News text mining-based business sentiment analysis and its significance in economy | |
CN113806545B (zh) | 基于标签描述生成的评论文本情感分类方法 | |
Wu et al. | MFD: Multi-Feature Detection of LLM-Generated Text | |
CN111666410B (zh) | 商品用户评论文本的情感分类方法及系统 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |