CN111259140A - 一种基于lstm多实体特征融合的虚假评论检测方法 - Google Patents

一种基于lstm多实体特征融合的虚假评论检测方法 Download PDF

Info

Publication number
CN111259140A
CN111259140A CN202010030663.3A CN202010030663A CN111259140A CN 111259140 A CN111259140 A CN 111259140A CN 202010030663 A CN202010030663 A CN 202010030663A CN 111259140 A CN111259140 A CN 111259140A
Authority
CN
China
Prior art keywords
comment
comments
entity
detected
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010030663.3A
Other languages
English (en)
Other versions
CN111259140B (zh
Inventor
向凌云
郭国庆
刘宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202010030663.3A priority Critical patent/CN111259140B/zh
Publication of CN111259140A publication Critical patent/CN111259140A/zh
Application granted granted Critical
Publication of CN111259140B publication Critical patent/CN111259140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于LSTM多实体特征融合的虚假评论检测方法,包括以下步骤:步骤1,将评论按用户和产品分别进行分组,提取待检测评论基于产品实体的评论序列和基于用户实体的评论序列;步骤2,对每个实体中的评论进行向量化,使用卷积神经网络提取文本特征;步骤3,根据相关行为分析,对每个实体的每条评论的行为特征进行提取;步骤4,将每个实体中每条评论的文本特征与行为特征进行联合,对评论的时序联合特征进行再提取,得到待检测评论在各个实体中的特征向量表示形式;步骤5,融合待检测评论在不同实体中的特征向量,学习新的特征并构建分类器,进行虚假评论和正常评论的判定。

Description

一种基于LSTM多实体特征融合的虚假评论检测方法
技术领域
本发明涉及文本挖掘领域,尤其涉及一种基于LSTM多实体特征融合的虚假评论检测方法。
背景技术
随着计算机技术的发展,网络与人们的生活紧紧联系到了一起,通过网络售卖货物已经越来越成为一种重要的销售方式,网上购物往往会受到他人对货物评论的影响,而人们也产生了强烈动机,通过发布一些虚假的观点或评论,来推销或诋毁一些目标产品、服务、组织或个人。
为检测虚假评论,已经有人进行了大量工作,他们从评论文本与用户数据两方面出发,试图找到用于表示虚假评论的线索,提取有效的文本特征和行为特征,并依此特征将评论进行表示,进而使用统计模型来检测虚假评论,然而现有的检测方法效果较差,无法精确的判别哪些评论是虚假评论。
为此本发明提出了一种基于LSTM多实体特征融合的虚假评论检测方法,能够精确的进行虚假评论检测。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种基于LSTM多实体特征融合的虚假评论检测方法,包括以下步骤:步骤1,将评论按用户和产品分别进行分组,提取待检测评论基于产品实体的评论序列和基于用户实体的评论序列;步骤2,对每个实体中的评论进行向量化,使用卷积神经网络提取文本特征;步骤3,根据相关行为分析,对每个实体的每条评论的行为特征进行提取;步骤4,将每个实体中每条评论的文本特征与行为特征进行联合,对评论的时序联合特征进行再提取,得到待检测评论在各个实体中的特征向量表示形式;步骤5,融合待检测评论在不同实体中的特征向量,学习新的特征并构建分类器,进行虚假评论和正常评论的判定。
所述的检测方法,其中步骤1包括:将评论数据集中的所有评论按照用户分组并依据发布时间进行排序,取用户u在发布待检测评论r之前已发布的k条评论,表示为:
ur={ruk,ru(k-1),…,ru2,ru1,r},
ur为待检测评论r与其对应用户u在待检测评论r之前最新发布的k条评论的集合;
将评论数据集中的所有评论重新按照产品分组并依据发布时间先后进行排序,将产品p在获得待检测评论r之前获得的m条评论表示为:
pr={rpm,rp(m-1),…,rp2,rp1,r}。
所述的检测方法,其中步骤2对于ur和pr中的每一条评论,使用卷积神经网络自动学习来自于评论内容的文本特征,具体过程包括:首先,使用预训练好的word2vec模型,将单条评论中的每个单词转换成300维的向量,经过多核卷积、池化、全连接操作,最终学习到单评论的文本特征输出;
假设评论r={w1,w2,…,wn},即包含n个单词,第i个单词wi经过word2vec模型后得到一个维度为300的向量E(wi)=[ei,1,ei,2,…,ei,300],如此,评论r可被表示为300×n的向量矩阵E(r)=[E(w1),E(w2),…,E(wn)];对向量矩阵E(r)进行卷积神经网络处理,在经过卷积神经网络处理之后,得到一个新的特征向量
Figure BDA0002364178700000031
其中l是卷积核个数,
Figure BDA0002364178700000032
是E(r)经过第i个卷积核得到特征图并进行了池化之后的输出,然后将Fe(r)进行全连接,得到r的文本特征Te(r)=[c1,c2,…,cd],其中,ci表示一个特征,d为设定的文本特征数量。
所述的检测方法,其中步骤3包括:每条评论从用户层面提取6个行为特征;基于产品为每条评论提取6个行为特征;从评论行为出发,每条评论提取5个行为特征;将单条评论r的行为特征表示为17维的向量q(r),该向量q(r)包括以上17个行为特征。
所述的检测方法,其中步骤4包括:经由上述步骤2和3提取到每一条评论的文本特征和多实体行为特征后,对于用户实体和产品实体,根据每条评论的时序表示ur和pr中所有评论的文本特征与相应行为特征,利用LSTM自动学习每条评论的不同实体时序特征,得到评论在不同实体中的最终特征表示。
所述的检测方法,其中:对于评论实体,直接连接待检测评论r的文本特征与行为特征作为最终的实体特征表示:
Figure BDA0002364178700000041
对于用户实体,待检测评论r的时序表示ur中存在有k条评论,第i条评论表示为rui,设利用步骤2所述方法提取的d维文本特征为Te(rui),使用步骤3所述方法提取的行为特征为q(rui),连接Te(rui),q(rui),得到rui的联合特征表示:
Figure BDA0002364178700000042
则评论r在用户实体中的时序联合特征表示v(ur)为:
v(ur)=[xu1,xu2,…,xuk]
r在产品实体中的时序表示pr中存在m条评论,第i条评论表示为rpi,设利用步骤2所述方法提取的d维文本特征为Te(rpi),使用步骤3所述方法提取的行为特征为q(rpi),连接Te(rpi),q(rqi),得到rpi的联合特征表示:
Figure BDA0002364178700000043
则评论r在产品实体中的时序联合特征表示v(pr)=[xp1,xp2,…,xpm];
将评论r的时序联合特征v(ur)和v(pr)传入长短期记忆网络LSTM,经过LSTM自动学习得到时序上更深层次的用户和实体特征表示:V(ur)和V(pr)。
所述的检测方法,其中步骤4包括:
将评论R在用户实体中的时序联合特征v(ur)输入LSTM,若t时刻输入为xut,遗忘门ft决定丢弃或保留的信息:
ft=σ(Wf·(ht-1,xut)+bf)
输入门it用于更新神经元状态:
it=σ(Wi·(ht-1,xut)+bi)
当前神经元状态Ct表示为:
Ct=ft·Ct-1+it·tanh(WC·(ht-1,xut)+bC)
输出门ot用来确定下一个隐藏状态的值:
ot=σ(Wo·(ht-1,xut)+bo)
最终得到当前神经元输出ht
ht=ot·tanh(Ct)
其中Wf,Wi,WC,Wo表示权重,bf,bi,bC,bo表示偏差,ht-1表示上个时刻的输出,Ct-1表示上个时刻的神经元状态,tanh为激活函数,σ表示sigmod函数;
经过上述LSTM步骤的自动学习,将得到时序上更深层次的用户特征表示V(ur),该特征表示为LSTM最后时刻的神经元输出;
将评论R在产品实体中的时序联合特征v(pr)输入LSTM,自动学习到时序上更深层次的用户特征表示V(pr),该特征表示为以v(pr)为输入的LSTM最后时刻的神经元输出。
所述的检测方法,其中步骤5包括:以步骤3从待检测评论本身提取到的特征向量V(r)为主体,附加以步骤4得到的基于用户的更深层次的特征表示V(ur)与基于产品的更深层次的特征表示V(pr),三者进行级联后,形成了新的特征向量
Figure BDA0002364178700000051
获得单条评论的最终特征表示Q(r)后,使用softmax构建分类器得到单条评论的分类结果:
y=soft max(WcQ(r)+bc)
其中Wc和bc为模型参数,y为输出类标签的概率分布,即输入特征向量Q(r)所对应评论是虚假类和正常类的概率分布,当得到待检测评论为虚假类的概率值大于该评论为正常类的概率值时,即判断该评论为虚假评论。
附图说明
图1为本发明基于LSTM多实体特征融合的虚假评论检测方法的流程图;
图2为评论时序预处理示意图;
图3为基于CNN的文本特征提取示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细说明。
本发明中会用到评论数据集,其中包含评论、用户、产品三种实体。评论实体包含评论内容、发布时间、发布人、评价对象等属性;用户实体包含评价过的产品、评价过的评论、注册时间、注册地等属性;产品实体包括评论数量、评论人数、注册时间、所在地、总体评分等属性。
如图1-3所示,本发明基于LSTM多实体特征融合的虚假评论检测方法主要包括五个步骤:步骤1,将评论按用户和产品分别进行分组,并根据发布时间进行排序,提取待检测评论基于产品实体的评论序列和基于用户实体的评论序列;步骤2,对每个实体中的评论进行向量化,使用卷积神经网络提取文本特征;步骤3,根据相关行为分析,对每个实体的每条评论的行为特征进行提取;步骤4,将每个实体中每条评论的文本特征与行为特征进行联合,得到每条评论的实体联合特征向量,然后使用LSTM对评论的时序联合特征进行再提取,得到待检测评论在各个实体中的最终时序特征向量表示形式;步骤5,融合待检测评论在不同实体中的特征向量,学习新的特征并构建分类器,实现虚假评论和正常评论的最终判定。
具体来说:
步骤1.基于时序的评论预处理
本发明从用户和产品两个方面对待检测评论的历史痕迹进行分析,提取评论在时序上的潜在特征,用于更有效的虚假评论检测。因此,本发明将首先对用户和产品实体中的评论进行预处理,如图2所示。
将评论数据集中的所有评论按照用户分组并依据发布时间进行排序,取用户u在发布待检测评论r之前已发布的k条评论,表示为:
ur={ruk,ru(k-1),…,ru2,ru1,r},
ur为待检测评论r与其对应用户u在待检测评论r之前最新发布的k条评论的集合,该集合直接作为待检测评论r在用户实体上的时序表示。在本发明中,k的取值范围可以是4-10,优选的k=6。
将评论数据集中的所有评论重新按照产品分组并依据发布时间先后进行排序,将产品p在获得待检测评论r之前获得的m条评论表示为:
pr={rpm,rp(m-1),…,rp2,rp1,r}.
pr即为待检测评论r在产品实体上的时序表示。在本发明中,m的取值范围可以是15-30,优选的m=20。
步骤2:文本特征提取
对于ur和pr中的每一条评论,使用卷积神经网络(CNN)自动学习来自于评论内容的文本特征,具体过程如图2所示。首先,为了将单词转换成向量以进行下一步操作,使用了预训练好的word2vec模型,将单条评论中的每个单词转换成300维的向量,从而将整条评论文本转换成一个向量矩阵(即进行了词向量编码),将评论内容进行词向量编码后,经过多核卷积、池化、全连接操作,最终学习到单评论的文本特征输出。
假设评论r={w1,w2,…,wn},即包含n个单词,第i个单词wi经过word2vec模型后得到一个维度为300的向量E(wi)=[ei,1,ei,2,…,ei,300],如此,评论r可被表示为300×n的向量矩阵E(r)=[E(w1),E(w2),…,E(wn)]。对向量矩阵E(r)进行卷积神经网络处理,在经过卷积神经网络处理之后,得到一个新的特征向量
Figure BDA0002364178700000081
其中l是卷积核个数,
Figure BDA0002364178700000082
是E(r)经过第i个卷积核得到特征图并进行了池化之后的输出。然后将Fe(r)进行全连接,得到r的文本特征Te(r)=[c1,c2,…,cd],其中,ci表示一个特征,d为设定的文本特征数量。
步骤3:行为特征提取
ur和pr中的每一条评论在不同的实体中呈现出不同的行为特征。本发明根据前人的研究,从评论、用户和商品三个层面,采用相应的专家知识,为ur和pr中的每条评论分别提取三类行为特征。具体如下:
表1基于用户或者产品的行为特征
Figure BDA0002364178700000091
表2基于评论行为特征
Figure BDA0002364178700000092
如表1所示,每条评论从用户层面提取6个行为特征,依次为:一天内发布的最大评论数量(MNR)、正面评价的比例(PR)、负面评价的比例(NR)、平均偏差率(avgRD)、用户评价分数的分布的熵(ERD)、突发性(BST)。同理,基于产品每条评论提取6个类似的产品实体关联的行为特征。
根据表2所示,从评论行为出发,每条评论提取5个行为特征,依次为:在所有商品评论中的次序(Rank)、评分偏差率的绝对值(RD)、评分的极端性(EXT)、带阈值的评分偏差率(DEV)、是否为单例(ISR)。
通过上述方法,为评论r提取到5个基于评论的行为特征,6个基于用户的行为特征,6个基于产品的行为特征,因此,最后,单条评论r的行为特征可表示为17维的向量q(r),该向量q(r)包括以上17个行为特征。
步骤四:时序特征提取
经由上述步骤2和3提取到每一条评论的文本特征和多实体行为特征后,对于用户实体和产品实体,根据每条评论的时序表示ur和pr中所有评论的文本特征与相应行为特征,利用LSTM自动学习每条评论的不同实体时序特征,得到评论在不同实体中的最终特征表示。
对于评论实体,直接连接待检测评论r的文本特征与行为特征作为最终的实体特征表示:
Figure BDA0002364178700000101
对于用户实体,待检测评论r的时序表示ur中存在有k条评论,第i条评论表示为rui,设利用步骤2所述方法提取的d维文本特征为Te(rui),使用步骤3所述方法提取的行为特征为q(rui),连接Te(rui),q(rui),得到rui的联合特征表示:
Figure BDA0002364178700000102
则评论r在用户实体中的时序联合特征表示v(ur)为:
v(ur)=[xu1,xu2,…,xuk]
类似的,r在产品实体中的时序表示pr中存在m条评论,第i条评论表示为rpi,设利用步骤2所述方法提取的d维文本特征为Te(rpi),使用步骤3所述方法提取的行为特征为q(rpi),连接Te(rpi),q(rqi),得到rpi的联合特征表示:
Figure BDA0002364178700000111
则评论r在产品实体中的时序联合特征表示为v(pr)=[xp1,xp2,…,xpm]。通常,同一产品对应的评论数量远大于同一用户对应的评论数量,因此,在提取产品实体上时序联合特征时,关联分析的评论数量要多于提取用户实体上时序联合特征时关联分析的评论数量,即通常取m>k。
评论r的时序表示ur与pr中关联的评论在步骤1中已按照发生时间进行过排序,因此每条评论可以被认为是一个时刻,即评论r在用户和产品实体上的时序联合特征项xSi(S∈(u,p))表示每个时刻,因此,评论r的时序联合特征表示为v(Sr)其中S∈(u,p)即为一个时间序列。为了从评论r的时序联合特征学习到更有效的深层特征,本发明采用LSTM进行时序特征提取。
LSTM是循环神经网络的一种,继承了大部分RNN模型的特性,同时解决了梯度反传过程由于逐步缩减而产生的Vanishing Gradient问题,被广泛应用于时间序列数据分析。LSTM的单个神经元包含有三个门:遗忘门,输入门,输出门。将评论R在用户实体中的时序联合特征v(ur)输入LSTM,若t时刻输入为xut,遗忘门ft决定丢弃或保留的信息:
ft=σ(Wf·(ht-1,xut)+bf)
输入门it用于更新神经元状态:
it=σ(Wi·(ht-1,xut)+bi)
当前神经元状态Ct表示为:
Ct=ft·Ct-1+it·tanh(WC·(ht-1,xut)+bC)
输出门ot用来确定下一个隐藏状态的值:
ot=σ(Wo·(ht-1,xut)+bo)
最终得到当前神经元输出ht
ht=ot·tanh(Ct)
其中Wf,Wi,WC,Wo表示权重(可通过训练得到),bf,bi,bC,bo表示偏差(可通过训练得到),ht-1表示上个时刻的输出,Ct-1表示上个时刻的神经元状态,tanh为激活函数,σ表示sigmod函数。
经过上述LSTM步骤的自动学习,将得到时序上更深层次的用户特征表示V(ur),该特征表示为LSTM最后时刻的神经元输出。
类似地,将评论R在产品实体中的时序联合特征v(pr)输入LSTM,将自动学习到时序上更深层次的用户特征表示V(pr),该特征表示为以v(pr)为输入的LSTM最后时刻的神经元输出。
步骤5:多实体特征融合与分类
本发明的最终目的是对待检测评论进行是否为虚假评论的判断,因此,对根据步骤2,3,4所述步骤获得的多个不同类型的实体特征进行融合再分类。
对于单条评论而言,它是评论者针对某个产品而发布的相关文本内容,是评论文本、用户、产品三者的结合,包含了三者的对应关系。在进行特征融合时,以步骤3从待检测评论本身提取到的特征向量V(r)为主体,附加以步骤4得到的基于用户的更深层次的特征表示V(ur)与基于产品的更深层次的特征表示V(pr)。三者进行级联后,形成了新的特征向量
Figure BDA0002364178700000131
该特征向量作为单条评论的最终特征表示形式。
获得单条评论的最终特征表示Q(r)后,本发明使用softmax构建分类器得到单条评论的分类结果。
y=soft max(WcQ(r)+bc)
其中Wc和bc为模型参数,y为输出类标签的概率分布,即输入特征向量Q(r)所对应评论是虚假类和正常类的概率分布。当得到待检测评论为虚假类的概率值大于该评论为正常类的概率值时,即判断该评论为虚假评论。
本发明通过上述五个步骤,分别从评论本身、用户实体和产品实体三个方面进行了特征的学习,通过多个实体特征的融合,实现了对虚假评论的高精度检测。当发表评论的用户行为信息稀疏时,通过多实体特征融合,引入了该评论对应产品的相关评论的特征信息,从而提升了用户行为信息缺乏情况下的虚假评论检测准确度。
对比实验仿真:
表3为在Yelp数据集hotels领域上,本发明提出的方法与其他虚假评论检测方法的检测结果。检测性能的评估采用的是检测精确度(p)、召回率(R)、F1值(F1)和准确度(A)作为评价指标。
Yelp数据集是第一个兼具商业性与ground truth的数据集。Yelp.com是一个商业性的评论收集网站,其虚假评论过滤算法成熟、准确率高,获得了工业界和学术界的认可。Yelp.com并没有公布其算法细节,但公布了其对评论过滤的结果。基于Yelp.com过滤算法的业界认可度和多年开发的成熟性,该数据集是目前在商业真实性与ground truth性之间,做出较好平衡的一个数据集。Yelp-hotels包括有来自于283291家宾馆,由5132名用户作出的688329条评论,其中有标注的数据为5679条,802条虚假评论,4876条正常评论。
对比的方法分别为Rayana等提出的基于图结构的模型SPEAGLE+、Mukherjee等提出的方法MK_BF和MK_BF+Bigram、Wang等提出的基于张量分解的方法W_VBF+Bigram。
从表3中的实验结果可以看出,本发明方法在检测准确度上相比于对比方法有了较大的提升,检测精确度也远高于所有对比方法,同时,F1值也为最优结果。因此,实验结果证明了本发明是一种能有效检测出虚假评论的方法。
表3对比实验结果
Figure BDA0002364178700000141
通过本发明,能够联合基于CNN文本特征与行为特征,从时间序列上使用LSTM(长短期记忆网络)自动学习每条评论在不同实体上的深层特征表示;将评论本身、用户、产品三种实体的深层特征进行融合,实现了虚假评论的高精度检测;一定程度上解决了当发表评论的用户行为信息稀疏引起检测效果不佳的问题,提高了虚假评论检测方法的性能。

Claims (2)

1.一种基于LSTM多实体特征融合的虚假评论检测方法,其特征在于包括以下步骤:步骤1,将评论按用户和产品分别进行分组,提取待检测评论基于产品实体的评论序列和基于用户实体的评论序列;步骤2,对每个实体中的评论进行向量化,使用卷积神经网络提取文本特征;步骤3,根据相关行为分析,对每个实体的每条评论的行为特征进行提取;步骤4,将每个实体中每条评论的文本特征与行为特征进行联合,对评论的时序联合特征进行再提取,得到待检测评论在各个实体中的特征向量表示形式;步骤5,融合待检测评论在不同实体中的特征向量,学习新的特征并构建分类器,进行虚假评论和正常评论的判定。
2.根据权利要求1所述的检测方法,其特征在于步骤1包括:将评论数据集中的所有评论按照用户分组并依据发布时间进行排序,取用户u在发布待检测评论r之前已发布的k条评论,表示为:
ur={ruk,ru(k-1),…,ru2,ru1,r},
ur为待检测评论r与其对应用户u在待检测评论r之前最新发布的k条评论的集合;
将评论数据集中的所有评论重新按照产品分组并依据发布时间先后进行排序,将产品p在获得待检测评论r之前获得的m条评论表示为:
pr={rpm,rp(m-1),…,rp2,rp1,r}。
CN202010030663.3A 2020-01-13 2020-01-13 一种基于lstm多实体特征融合的虚假评论检测方法 Active CN111259140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010030663.3A CN111259140B (zh) 2020-01-13 2020-01-13 一种基于lstm多实体特征融合的虚假评论检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010030663.3A CN111259140B (zh) 2020-01-13 2020-01-13 一种基于lstm多实体特征融合的虚假评论检测方法

Publications (2)

Publication Number Publication Date
CN111259140A true CN111259140A (zh) 2020-06-09
CN111259140B CN111259140B (zh) 2023-07-28

Family

ID=70946897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010030663.3A Active CN111259140B (zh) 2020-01-13 2020-01-13 一种基于lstm多实体特征融合的虚假评论检测方法

Country Status (1)

Country Link
CN (1) CN111259140B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666480A (zh) * 2020-06-10 2020-09-15 东北电力大学 一种基于滚动式协同训练的虚假评论识别方法
CN112395868A (zh) * 2020-11-17 2021-02-23 长沙理工大学 一种基于词替换的快速安全的自然语言信息隐藏方法
CN112434516A (zh) * 2020-12-18 2021-03-02 安徽商信政通信息技术股份有限公司 一种融合正文文本信息的自适应评论情感分析系统及方法
CN112765313A (zh) * 2020-12-31 2021-05-07 太原理工大学 一种基于原文和评论信息分析算法的虚假信息检测方法
CN113076754A (zh) * 2021-03-23 2021-07-06 山东师范大学 一种基于知识集成的虚假评论检测方法及系统
CN113392334A (zh) * 2021-06-29 2021-09-14 长沙理工大学 冷启动环境下的虚假评论检测方法
CN117689278A (zh) * 2024-02-04 2024-03-12 新疆盛诚工程建设有限责任公司 施工质量智能管理系统及方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130212181A1 (en) * 2010-10-25 2013-08-15 Nec Corporation Information-processing device, comment-prompting method, and computer-readable recording medium
CN105279146A (zh) * 2014-06-30 2016-01-27 邻客音公司 针对短不相关文本的检测的上下文感知方法
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法
US20170124468A1 (en) * 2015-10-30 2017-05-04 International Business Machines Corporation Bias correction in content score
US20170221111A1 (en) * 2016-01-28 2017-08-03 Institut Mines-Telecom Method for detecting spam reviews written on websites
JP2018092511A (ja) * 2016-12-07 2018-06-14 三菱重工業株式会社 運用支援装置、機器運用システム、運用方法、制御方法及びプログラム
US20180260860A1 (en) * 2015-09-23 2018-09-13 Giridhari Devanathan A computer-implemented method and system for analyzing and evaluating user reviews
CN109213859A (zh) * 2017-07-07 2019-01-15 阿里巴巴集团控股有限公司 一种文本检测方法、装置及系统
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109460508A (zh) * 2018-10-10 2019-03-12 浙江大学 一种高效的垃圾评论用户群组检测方法
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN109766435A (zh) * 2018-11-06 2019-05-17 武汉斗鱼网络科技有限公司 弹幕类别识别方法、装置、设备及存储介质
CN109902229A (zh) * 2019-02-01 2019-06-18 中森云链(成都)科技有限责任公司 一种基于评论的可解释推荐方法
CN110442798A (zh) * 2019-07-03 2019-11-12 华中科技大学 基于网络表示学习的垃圾评论用户群组检测方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130212181A1 (en) * 2010-10-25 2013-08-15 Nec Corporation Information-processing device, comment-prompting method, and computer-readable recording medium
CN105279146A (zh) * 2014-06-30 2016-01-27 邻客音公司 针对短不相关文本的检测的上下文感知方法
US20180260860A1 (en) * 2015-09-23 2018-09-13 Giridhari Devanathan A computer-implemented method and system for analyzing and evaluating user reviews
US20170124468A1 (en) * 2015-10-30 2017-05-04 International Business Machines Corporation Bias correction in content score
US20170221111A1 (en) * 2016-01-28 2017-08-03 Institut Mines-Telecom Method for detecting spam reviews written on websites
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法
JP2018092511A (ja) * 2016-12-07 2018-06-14 三菱重工業株式会社 運用支援装置、機器運用システム、運用方法、制御方法及びプログラム
CN109213859A (zh) * 2017-07-07 2019-01-15 阿里巴巴集团控股有限公司 一种文本检测方法、装置及系统
CN109460508A (zh) * 2018-10-10 2019-03-12 浙江大学 一种高效的垃圾评论用户群组检测方法
CN109766435A (zh) * 2018-11-06 2019-05-17 武汉斗鱼网络科技有限公司 弹幕类别识别方法、装置、设备及存储介质
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN109902229A (zh) * 2019-02-01 2019-06-18 中森云链(成都)科技有限责任公司 一种基于评论的可解释推荐方法
CN110442798A (zh) * 2019-07-03 2019-11-12 华中科技大学 基于网络表示学习的垃圾评论用户群组检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
向凌云等: "A Smart Mobile Diagnosis System for Citrus Diseases Based on Densely Connected Convolutional Networks", DIGITAL OBJECT IDENTIFIER, pages 87535 - 87542 *
张考;于洪涛;崔瑞飞;: "基于融合特征的虚假评论检测方法", no. 04, pages 124 - 128 *
房有丽;王红;: "融合评分-评价一致性和多维时间序列的虚假评论识别方法", no. 09, pages 158 - 163 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666480A (zh) * 2020-06-10 2020-09-15 东北电力大学 一种基于滚动式协同训练的虚假评论识别方法
CN112395868A (zh) * 2020-11-17 2021-02-23 长沙理工大学 一种基于词替换的快速安全的自然语言信息隐藏方法
CN112434516A (zh) * 2020-12-18 2021-03-02 安徽商信政通信息技术股份有限公司 一种融合正文文本信息的自适应评论情感分析系统及方法
CN112434516B (zh) * 2020-12-18 2024-04-26 安徽商信政通信息技术股份有限公司 一种融合正文文本信息的自适应评论情感分析系统及方法
CN112765313A (zh) * 2020-12-31 2021-05-07 太原理工大学 一种基于原文和评论信息分析算法的虚假信息检测方法
CN113076754A (zh) * 2021-03-23 2021-07-06 山东师范大学 一种基于知识集成的虚假评论检测方法及系统
CN113392334A (zh) * 2021-06-29 2021-09-14 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113392334B (zh) * 2021-06-29 2024-03-08 长沙理工大学 冷启动环境下的虚假评论检测方法
CN117689278A (zh) * 2024-02-04 2024-03-12 新疆盛诚工程建设有限责任公司 施工质量智能管理系统及方法

Also Published As

Publication number Publication date
CN111259140B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN111259140B (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN110472042B (zh) 一种细粒度情感分类方法
CN110502626B (zh) 一种基于卷积神经网络的方面级情感分析方法
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN112487199B (zh) 一种基于用户购买行为的用户特征预测方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN109460508B (zh) 一种高效的垃圾评论用户群组检测方法
CN112765480B (zh) 一种信息推送方法、装置及计算机可读存储介质
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN111881671B (zh) 一种属性词提取方法
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN112700274A (zh) 一种基于用户偏好的广告点击率预估方法
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN110134764A (zh) 一种文本数据的自动分类方法及系统
CN111708865A (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN116757218A (zh) 一种基于上下句关系预测的短文本事件共指消解方法
CN115033689B (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
Rani et al. Analyzing impact of number of features on efficiency of hybrid model of lexicon and stack based ensemble classifier for twitter sentiment analysis using WEKA tool
Chanakot et al. Classifying thai news headlines using an artificial neural network
CN113821571B (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant