CN111666480A - 一种基于滚动式协同训练的虚假评论识别方法 - Google Patents

一种基于滚动式协同训练的虚假评论识别方法 Download PDF

Info

Publication number
CN111666480A
CN111666480A CN202010523660.3A CN202010523660A CN111666480A CN 111666480 A CN111666480 A CN 111666480A CN 202010523660 A CN202010523660 A CN 202010523660A CN 111666480 A CN111666480 A CN 111666480A
Authority
CN
China
Prior art keywords
comment
text
emotion
feature
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010523660.3A
Other languages
English (en)
Inventor
王敬东
阚海涛
孟凡奇
李佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Electric Power University
Original Assignee
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Dianli University filed Critical Northeast Dianli University
Priority to CN202010523660.3A priority Critical patent/CN111666480A/zh
Publication of CN111666480A publication Critical patent/CN111666480A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于滚动式协同训练的虚假评论识别方法,涉及虚假评论识别技术领域,该方法包括:获取评论文本,根据所述评论文本确定评论文本内容特征;获取评论文本对应的评论者信息,根据所述评论者信息确定评论者行为特征;根据评论文本内容特征和评论者行为特征进行虚假评论识别;输出虚假评论识别结果。本申请的虚假评论识别方法有效利用未标注样本辅助模型学习,同时融合情感及文本表征等多个特征,通过多特征融合协同训练来提高模型的识别性能,较传统虚假评论识别方法准确率提升了3.5%。

Description

一种基于滚动式协同训练的虚假评论识别方法
技术领域
本发明涉及虚假评论识别技术领域,具体涉及一种基于滚动式协同训练的虚假评论识别方法。
背景技术
对于网络购物而言,由于线上商品信息与消费者线下收到的商品存在不一致现象,消费者会阅读大量目标商品的评论辅助判断。因此,商品评论影响消费者购买行为,同时也影响着商家的利益。积极评论会吸引更多潜在用户,消极评论使潜在用户流失。不法商家为了能够获得较高收益,通常会雇佣专业写手为自家商品撰写虚假好评,吸引潜在用户;为竞争对手撰写虚假差评,打压竞争对手。例如,“某些商家采用“好评返现”的方式来获得积极评论,不管消费者收到产品后是否满意,只要按照商家的规定上传购买商品的图片或视频,并发布好评,就会得到一定金额的红包。”商家的这些行为不仅严重误导了潜在消费者,还不利于电商平台的稳定发展。有关研究表明,虚假评论是不容易被消费者识别的,为了净化网络购物平台,为消费者带来良好的购物体验和获取真实有效评论,亟需有效方法来识别虚假评论。
目前,国内外已经有很多学者进行了虚假评论识别研究。例如,JindalN等人将虚假评论分为:仅涉及品牌的评论、没有实质内容的评论和不真实的评论。他们通过检测是否为重复评论来识别虚假评论。当时虚假评论没有公开数据集。Feng 等人研究了评论内容更深层的句法结构,重点分析写作风格,提取了上下文无关文法的特征,使用支持向量机对“黄金数据集”分类。MyleOtt等人通过亚马逊提供的在线众包服务,构建了虚假评论识别领域的“黄金”数据集。通过对词语的词性分布进行分析并提取出词性特征,使用了基于 n-gram 的特征集合,并使用了朴素贝叶斯和支持向量机作为分类器。
目前在虚假评论识别的相关研究中,主要存在以下问题:
(1)以采用全监督框架下的分类方法为主,全监督学习方法需要大量标注语料作为训练集,标准数据集的缺少及人工标注耗时费力等问题为全监督框架下的研究带来极大地局限性。
(2)学者们尝试使用无监督学习方法,无监督学习方法解决了标注数据集缺失的问题,但却存在识别精度普遍偏低的情况。
(3)半监督学习很好地平衡了全监督学习与无监督学习存在的主要问题,但当前在以半监督方法识别虚假评论的研究中,仅基于浅层的评论特征进行了简单的特征建模,忽略了不同特征与分类模型组合的差异对结果的影响。
发明内容
为了解决上述问题,本发明提供了一种基于动态信誉值的PBFT共识传播优化方法,该方法使用主观逻辑模型对物联网节点的信誉值进行高效动态计算,能够加快区块同步时间,提高系统的可扩展性,降低主节点失效的风险,从而进一步提高系统的安全性。
本发明提供的具体技术方案为:一种基于滚动式协同训练的虚假评论识别方法,包括:
获取评论文本,根据所述评论文本确定评论文本内容特征;
获取评论文本对应的评论者信息,根据所述评论者信息确定评论者行为特征;
根据评论文本内容特征和评论者行为特征进行虚假评论识别;
输出虚假评论识别结果。
进一步地,所述评论文本内容特征包括:语性特征、词汇特征、情感特征和字符特征;
其中:
语性特征即段落向量,指文本深层次语义表示;
词汇特征即词性频率,指文本中各词性词数与总词数比值;
情感特征包括:情感评分一致性、情感强度和情感词汇特征,所述情感词汇特征指文本中正面与负面情感词词数与总词数比值;
字符特征即评论文本长度;
根据所述评论的语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特点提取该评论语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特征值,并对该特征值进行归一化处理,使其在区间[-1.0,1.0] 内。
更进一步地,所述词性特征的提取方法见公式(1):
Figure 500055DEST_PATH_IMAGE002
式中,
Figure 100002_DEST_PATH_IMAGE003
表示形容词个数,
Figure 404557DEST_PATH_IMAGE004
表示副词个数,
Figure 100002_DEST_PATH_IMAGE005
为表示评论的总词数。
更进一步地,所述情感强度特征的提取方式为:
首先提取情感单元,利用语料库和情感词典,抽取指定词性搭配模式的情感词和上下文,构建三元搭配单元,三元情感单元定义为:
Figure 113887DEST_PATH_IMAGE006
,其中u为情感单元,w为情感词语,n为否定词,adv为程度副词;情感强度计算公式见式(2):
Figure 2208DEST_PATH_IMAGE008
式中,
Figure 100002_DEST_PATH_IMAGE009
表示评论文本的情感强度,Wj为评论句中情感词,re为评论句,
Figure 291238DEST_PATH_IMAGE010
表示情感词的极性,情感积极时值为1,相反为-1,
Figure 100002_DEST_PATH_IMAGE011
表示程度副词的权值,
Figure 50247DEST_PATH_IMAGE012
表示每个情感词前的否定词数量,无否定词
Figure 730146DEST_PATH_IMAGE012
为0,若有奇数个否定词则
Figure 100002_DEST_PATH_IMAGE013
值为-1,偶数个否定词
Figure 309026DEST_PATH_IMAGE014
值为1。
更进一步地,所述评论者行为特征包括:评分异常特征、数量异常特征和内容异常特征;
其中:
评分异常特征包括:
文本评分偏差,指该评分与该目标对象的平均评分的偏差;
评论者评分偏差,指该评论与评论者的平均评分的偏差;
极端评分,1星或5星评价;
数据异常特征指标包括:评论者日最大评论数、总评论数和评论频繁度;所述评论频繁度指评论者每日评论数同日平均评论数差值最大值;及
内容异常特征,指文本与该目标对象的所有文本相似度最大值;
根据所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特点分别提取所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值,并对所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值进行归一化处理,使其在区间[-1.0,1.0] 内。
更进一步地,所述内容异常特征中文本相似度的提取方式为:先把两条评论用Doc2Vec表征为80维的段落向量
Figure 100002_DEST_PATH_IMAGE015
,文本相似度计算见公式(4):
Figure 100002_DEST_PATH_IMAGE017
式中,
Figure 870588DEST_PATH_IMAGE018
表示文本相似度特征值,
Figure 100002_DEST_PATH_IMAGE019
为待测评论,
Figure 749682DEST_PATH_IMAGE020
为目标文本库
Figure 100002_DEST_PATH_IMAGE021
中的评论,遍历目标库,求得最大值
Figure 4077DEST_PATH_IMAGE018
作为文本相似度特征值。
更进一步地,所述评分异常特征中的文本评分偏差特征提取方法见公式(5):
Figure 100002_DEST_PATH_IMAGE023
式中,
Figure 866991DEST_PATH_IMAGE024
为文本评分偏差特征值,
Figure 100002_DEST_PATH_IMAGE025
为该评论的评分等级,
Figure 229315DEST_PATH_IMAGE026
为该目标商品所有评分等级的平均值,
Figure 100002_DEST_PATH_IMAGE027
为评级系统最大可能偏差。
更进一步地,所述根据评论文本内容特征和评论者行为特征进行虚假评论识别,包括:通过预设的虚假评论识别模型根据评论文本内容特征和评论者行为特征进行虚假评论识别。
更进一步地,所述虚假评论识别模型的建立方法包括:
S11:首先设定一个阈值,对评论数据分为已标注数据集L和未标注数据集U;
S12:通过评论的特征值对评论数据集L进行分类,得到基于评论文本内容视图的已标注数据集
Figure 290812DEST_PATH_IMAGE028
,基于评论外部信息视图的已标注数据集
Figure 100002_DEST_PATH_IMAGE029
S13:从未标注数据集
Figure 247266DEST_PATH_IMAGE030
中随机产生u个评论样本,生成候选样本集
Figure 100002_DEST_PATH_IMAGE031
S14:使用已标注数据集
Figure 597476DEST_PATH_IMAGE028
Figure 625475DEST_PATH_IMAGE029
分别训练分类器
Figure 10320DEST_PATH_IMAGE032
Figure 100002_DEST_PATH_IMAGE033
S15:使用
Figure 199993DEST_PATH_IMAGE032
Figure 568657DEST_PATH_IMAGE031
中所有评论进行标注,将分类结果中标记置信度最高的p个正例和n个负例加入到L中,更新
Figure 603610DEST_PATH_IMAGE029
S16:使用
Figure 842961DEST_PATH_IMAGE033
Figure 937956DEST_PATH_IMAGE031
中所有评论进行标注,将分类结果中标记置信度最高的p个正例和n个负例加入到L中,更新
Figure 590654DEST_PATH_IMAGE028
S17:将以上2(p+n)条评论从U中移除;
S18:从U中随机产生2(p+n)条新的候选评论对
Figure 898139DEST_PATH_IMAGE031
进行补充;
S19:判断U是否为空,或迭代次数达到设定阈值,若满足条件,迭代结束,否则迭代继续。
更进一步地,所述分类器采用的分类算法包括:随机森林、逻辑回归、线性判别、K近邻、决策树、支持向量机或朴素贝叶斯分类模型。
本发明的有益效果:
本申请的虚假评论识别方法有效利用未标注样本辅助模型学习,同时融合情感及文本表征等多个特征,通过多特征融合协同训练来提高模型的识别性能,较传统虚假评论识别方法准确率提升了3.5%左右。
本申请把识别置信度高的数据输入到模型训练模块,不断迭代更新训练分类器,不仅保证识别模型不会由于时间推进等因素影响识别效果,还能利用已有未标记数据训练模型。由于协同训练最终从不同视图上产生两个分类器,为降低模型最终的“误判率”,本申请将评论是否虚假的判定依据设定为:仅当两个分类器同时将其标记为虚假时,本条评论才为虚假,这样使虚假评论的识别更为准确。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将对本发明作进一步详细的说明。
附图说明:
图1是本发明实施例的基于基于滚动式协同训练的虚假评论识别方法框架图;
图2是本发明实施例的滚动式协同训练的虚假评论识别模型图;
图3是本发明实施例的情感评分一致性对比图;
图4是本发明实施例的文本表示维度对分类结果的影响趋势图;
图5是本发明实施例的文本特征各分类器性能图;
图6是本发明实施例的外部特征各分类器性能图;
图7是本发明实施例的未标记数据注入比例系数对各分类器分类性能的影响。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参考图1,一种基于滚动式协同训练的虚假评论识别方法,包括以下步骤:
获取评论文本,根据所述评论文本确定评论文本内容特征;
其中一个实施例中,所述评论文本内容特征包括:语性特征、词汇特征、情感特征和字符特征;
其中:
语性特征即段落向量,指文本深层次语义表示。
用Doc2vec语言模型把文本用语义向量表示,得到固定维数的特征向量作为评论识别的特征之一;
利用分词工具NLTK语言模型对商品评论进行分词和词性标注,再进行词性词频统计,得到每条评论文本的词性分布。形容词和副词可以更准确的表达评论者情感,采用形容词和副词的占总词汇的比例代表词汇的多样性,提取方法见公式(1):
Figure 523155DEST_PATH_IMAGE034
式中,
Figure 780262DEST_PATH_IMAGE003
表示形容词个数,
Figure 857940DEST_PATH_IMAGE004
表示副词个数,
Figure 297011DEST_PATH_IMAGE005
为表示评论的总词数。
词汇特征即词性频率,指文本中各词性词数与总词数比值;
情感特征包括:情感评分一致性、情感强度和情感词汇特征,所述情感词汇特征指文本中正面与负面情感词词数与总词数比值;
其中,所述情感强度特征的提取方式为:首先提取情感单元,利用语料库和情感词典,抽取指定词性搭配模式的情感词和上下文,构建三元搭配单元,三元情感单元定义为:
Figure 776534DEST_PATH_IMAGE006
,其中u为情感单元,w为情感词语,n为否定词,adv为程度副词;情感强度计算公式见式(2):
Figure 947753DEST_PATH_IMAGE008
式中,
Figure 512726DEST_PATH_IMAGE009
表示评论文本的情感强度,Wj为评论句中情感词,re为评论句,
Figure 224330DEST_PATH_IMAGE010
表示情感词的极性,情感积极时值为1,相反为-1,
Figure 823939DEST_PATH_IMAGE011
表示程度副词的权值,不同程度副词有不同的权值,如“更、较、愈、更加、越加”的权重为1.25,“略、蛮、稍微、一点、略微”权重为0.5,“半点、不大、轻度、丝毫”为0.25,
Figure 431638DEST_PATH_IMAGE012
表示每个情感词前的否定词数量,无否定词
Figure 218328DEST_PATH_IMAGE012
为0,若有奇数个否定词则
Figure 936885DEST_PATH_IMAGE013
值为-1,偶数个否定词
Figure 391000DEST_PATH_IMAGE014
值为1。
其中,基于词典的情感强度提取算法见表1:
表1 基于词典的情感强度提取算法
Figure DEST_PATH_IMAGE035
所述情感评分一致性特征的提取方法见公式(3):
Figure DEST_PATH_IMAGE037
式中,
Figure 107284DEST_PATH_IMAGE038
情感评分一致性指标特征值,Star为评论的评级,fs为情感极性。
所述字符特征即评论文本长度;
根据所述评论的语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特点提取该评论语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特征值,并对该特征值进行归一化处理,使其在区间[-1.0,1.0] 内,所述归一化处理方法采用公式(8),
Figure 443587DEST_PATH_IMAGE040
其中,yi为标准化后特征值,xi为未标准化特征值,i为当前数,z为该特征的特征值总个数,n为变量系数。
获取评论文本对应的评论者信息,根据所述评论者信息确定评论者行为特征;
所述评论外部信息特征包括:评分异常特征、数量异常特征和内容异常特征;
其中:
评分异常特征包括:
文本评分偏差,指该评分与该目标对象的平均评分的偏差;
评论者评分偏差,指该评论与评论者的平均评分的偏差;
所述文本评分偏差特征提取方法见公式(5):
Figure 965835DEST_PATH_IMAGE023
式中,
Figure 8878DEST_PATH_IMAGE024
为文本评分偏差特征值,
Figure 958379DEST_PATH_IMAGE025
为该评论的评分等级,
Figure 716732DEST_PATH_IMAGE026
为该目标商品所有评分等级的平均值,
Figure 839409DEST_PATH_IMAGE027
为评级系统最大可能偏差,若评论数据来源的评级系统为五星,则最大的评级偏差为4。
极端评分,1星或5星评价;
数据异常特征指标包括:评论者日最大评论数、总评论数和评论频繁度;所述评论频繁度特征;
一天内提交大量的评论是一种反常行为,通过统计用户日发布评论数与历史日最大发文量比值作为评论数量异常参数,能够获取虚假评论发布者的异常行为特征。所述数据异常特征中的评论频繁度的提取方法见公式(6):
Figure 2537DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
表示评论频繁度,
Figure 326202DEST_PATH_IMAGE044
为用户日评论数量,a表示用户日评论数,A表示所有历史日中用户评论的集合。
内容异常特征,指文本与该目标对象的所有文本相似度最大值。
所述文本相似度提取方式为:先把两条评论用Doc2Vec表征为80维的段落向量
Figure 637098DEST_PATH_IMAGE015
,文本相似度计算见公式(4):
Figure 501148DEST_PATH_IMAGE017
式中,
Figure 518783DEST_PATH_IMAGE018
表示文本相似度特征值,
Figure 75666DEST_PATH_IMAGE019
为待测评论,即某一商品的评论,
Figure 545962DEST_PATH_IMAGE020
为目标文本库
Figure 948124DEST_PATH_IMAGE021
中的评论(目标文本库为该商品的所有评论),遍历目标库,求得最大值
Figure 882582DEST_PATH_IMAGE018
作为文本相似度特征值。
根据所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特点分别提取所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值,并对所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值进行归一化处理,使其在区间[-1.0,1.0] 内,所述归一化处理的方法见公式(8):
Figure DEST_PATH_IMAGE045
其中,yi为标准化后特征值,xi为未标准化特征值,i为当前数,z为该特征的特征值总个数,n为变量系数。
根据评论文本内容特征和评论者行为特征进行虚假评论识别;
输出虚假评论识别结果。
所述根据评论文本内容特征和评论者行为特征进行虚假评论识别,包括:通过预设的虚假评论识别模型根据评论文本内容特征和评论者行为特征进行虚假评论识别。
参考图2,所述虚假评论识别模型的建立方法包括:
S11:首先设定一个阈值,将评论数据分为已标注数据集L和未标注数据集U;
S12:通过评论的特征值对评论数据集L进行分类,得到基于评论文本内容视图的已标注数据集
Figure 813629DEST_PATH_IMAGE028
,基于评论外部信息视图的已标注数据集
Figure 771221DEST_PATH_IMAGE029
;
S13:从未标注数据集
Figure 39391DEST_PATH_IMAGE030
中随机产生u个评论样本,生成候选样本集
Figure 766039DEST_PATH_IMAGE031
S14:使用已标注数据集
Figure 399145DEST_PATH_IMAGE028
Figure 906350DEST_PATH_IMAGE029
分别训练分类器
Figure 915895DEST_PATH_IMAGE032
Figure 497049DEST_PATH_IMAGE033
S15:使用
Figure 569565DEST_PATH_IMAGE032
Figure 501749DEST_PATH_IMAGE031
中所有评论进行标注,将分类结果中标记置信度最高的p个正例和n个负例加入到L中,更新
Figure 111722DEST_PATH_IMAGE029
S16:使用
Figure 78541DEST_PATH_IMAGE033
Figure 787871DEST_PATH_IMAGE031
中所有评论进行标注,将分类结果中标记置信度最高的p个正例和n个负例加入到L中,更新
Figure 269668DEST_PATH_IMAGE028
S17:将以上2(p+n)条评论从U中移除;
S18:从U中随机产生2(p+n)条新的候选评论对
Figure 621015DEST_PATH_IMAGE031
进行补充;
S19:判断U是否为空,或迭代次数达到设定阈值,若满足条件,迭代结束,否则迭代继续。
其中一个实施例中,所述分类器采用的分类算法包括:随机森林、逻辑回归、线性判别、K近邻、决策树、支持向量机或朴素贝叶斯分类模型。
下面结合具体实验例对本发明进一步描述
实验例:
(一)数据来源:
本发明从yelp点评网站获取原始实验数据集,所述原始实验数据集包括用户ID、评论总数、评论内容、评论等级、评论时间等多个字段,共 5854 条评论文本。并借助yelp点评网站的虚假评论过滤系统进行虚假评论的标注,得到实验数据集如表1所示。
表2实验数据集
数据类型 评论数 用户数
真实评论 5076 4231
虚假评论 778 743
评论总数 5854 4974
(二)实验平台
本申请所用算法采用服务器运行环境为Win64位;处理器Intel(R)Core(TM)i5-5200UCPU @2.20GHz 2.20GHz;运行内存8G;Python3.7.0版本;gensim3.8.0版本;scikit-learn0.20.1版本;文本段落向量训练采用Doc2vec工具;采用NLTK工具对文本分词和词性标注。
(三)实验过程及结果分析
通过实施例中的算法对数值数据进行特征提取,情感强度特征用公式(2)提取,算法设计由表1所示,本文所用情感词典为SenticNet 5提供,数据经过筛选和处理之后,包含积极情感词及情感词强度55311个,消极情感词及情感强度44589个,每个情感词情感强度区间在[0,1],例如积极情感词acclaimed的情感强度为0.91,而消极情感词abbreviate的情感强度只有0.046,几乎为中性词。所用程度副词词典为sentiment数据集中的程度级别词语英文版,其中程度副词178个,分为6个级别,分别为“极其”、“很”、“较”、“稍”、“欠”、“超”,例如“extreme”为“极其”级别,“fairly”为“稍”级别。
文本句子向量化表示通过Doc2Vec语言模型进行提取,设置提取维度,通过迭代训练,选取最佳参数和维度。词性特征提取借助NLTK语言模型包,并采用上述算法提取特征值。由于特征有正有负,所以选择标准化方法时,要考虑不改变正负的归一化方法。提取特征后,数据的缩放比例为绝对值最大值,并保留正负号,即在区间 [-1.0,1.0] 内,如公式(8):
Figure 442341DEST_PATH_IMAGE045
其中,yi为标准化后特征值,xi为未标准化特征值,i为当前数,z为该特征的特征值总个数,n为变量系数。
用公式(2)和公式(3)的算法对上述评论文本的情感一致性特征进行提取分析,结果见图3:
从图3可以看出,大量的虚假评论存在于极端评分中,1星评分中有存在明显的高情感值的虚假评论,原因可能是评论者为了提高刷单效率,复制了其他评论的内容,而评分评论者为了降低商品的总体评分来误导消费者。在5星评论中这种情况存在也很严重,从情感角度分析来看,虚假评论情感值存在区间主要在 [-10,35],真实评论情感值存在区间是[-20,80],由此看出,真实评论情感和虚假评论会出现一致的情况,因此不能把情感当作唯一指标。
表3为语言模型参数数值表
表3 Doc2Vec语言模型参数数值表
Doc2Vec模型参数 数值
最小数min_count 1
窗口Window 5
样本Sampl 1e-3
负值Negative 5
进程workers 4
遍历次数Epoch 70
测试Doc2Vec语言模型维数对分类效果的影响,针对不同维数来进行分类实验,结果如图4所示:
从图4可以看出,RF、SVM、LR、LDA的准确率相对较高,在一定范围内,随着文本向量维度的增加,交叉验证准确率也随之增加,SVM、LDA、LR在80维时取得最大值,RF在90维时取得最大值。此外,由于此前的研究都是基于N-garm语言模型的one-hot编码,向量维数由单词数来决定,维数过高,造成维数灾难和梯度消失,Doc2Vec语言模型为神经网络模型,把文本映射到高维向量空间,能够很好的表示文本内容信息。为了减小分类模型的时间和资源成本,这里选择80维作为以下实验文本表示维度。
本申请分别测试了随机森林(RF)、逻辑回归(LR)、线性判别(LDA)、K近邻(KNN)、决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)等七种常见的分类模型在两个视图上的交叉验证准确率分类性能,以形成协同训练的基分类器集,为保证实验结果的稳定性,采用十折交叉验证。结果如表3、表4和图5、图6所示:
表4 文本特征各分类器十折交叉每次结果
Figure DEST_PATH_IMAGE047
表5 外部信息特征各分类器十折交叉每次结果
Figure DEST_PATH_IMAGE049
由表4和表5、图 5和图6 可知,SVM与RF的整体表现性能要优于其他分类模型,仅从评论内容视图特征来看,SVM取得最高的整体分类准确率,其次是RF和LR,而在评论者行为视图特征上,RF的表现性能与DT相当,前者的总体准确率略高于后者。因此实验中选择 SVM与RF作为组合中的两个基分类器。
分别测试未标记数据注入比例系数对上述基分类器分类性能,实验分析迭代增加样本量对分类性能的影响,以设置协同训练决策规则比例系数阈值,结果如图7所示:
由图7所示,随着比例系数以及样本量的增加,准确率也随之增加,比例系数为0.8时效果最好;由于样本的增加,对分类器的训练效果也逐渐增强,但是样本数量过多时,可能造成过拟合现象,导致分类效果减弱,从多方面考虑选择0.8为比例系数。
调整特征与所选分类器的组合,设置协同训练决策规则以及参数,进行协同训练,结果如表6所示,其中C1表示评论内容特征视图上的分类器,C2表示行为特征视图上的分类器;由表 6 可知,组合1取得最好的分类结果,该结果与第一步实验结论吻合。
表6 不同分类器组合识别效果
Figure DEST_PATH_IMAGE051
设置对照组进行实验,证明本文方法的有效性,其中包括:
Supervised:少量样本的有标签数据的监督学习,该文采用分类效果较好的SVM、DT和RF分类器,比较三个分类器效果,选择分类效果最好的RF分类器作为对照组;
Semi-supervised:一种半监督学习,基于单分类器进行强化学习,分类器选择RF;
Co-training:标准的协同训练算法,采用不做任何处理的原始特征集作为输入进行模型训练;
Co-training(multi-feature fusion):本申请提出的方法,原始特征加入文本表示特征和情感特征,通过滚动式更新样本集来训练分类器。实验结果如表6。
表7 不同模型识别效果对比
Figure DEST_PATH_IMAGE053
由表7可以看出,本文提出的方法取得了不错的效果,其准确率和召回率均高于其他几组对照组,证明了该方法在虚假评论识别任务中的可行性和有效性。第二对照组中召回率比准确率高很多,说明模型存在较高的“误判率”,即将部分正常评论标记为虚假评论,而本文所提方法,取得了较好的识别效果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、同替换、改进,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于滚动式协同训练的虚假评论识别方法,其特征在于,包括:
获取评论文本,根据所述评论文本确定评论文本内容特征;
获取评论文本对应的评论者信息,根据所述评论者信息确定评论者行为特征;
根据评论文本内容特征和评论者行为特征进行虚假评论识别;
输出虚假评论识别结果。
2.根据权利要求1所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述评论文本内容特征包括:语性特征、词汇特征、情感特征和字符特征;
其中:
语性特征即段落向量,指文本深层次语义表示;
词汇特征即词性频率,指文本中各词性词数与总词数比值;
情感特征包括:情感评分一致性、情感强度和情感词汇特征,所述情感词汇特征指文本中正面与负面情感词词数与总词数比值;
字符特征即评论文本长度;
根据所述评论的语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特点提取该评论语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特征值,并对该特征值进行归一化处理,使其在区间[-1.0,1.0] 内。
3.根据权利要求2所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述词性特征的提取方法见公式(1):
Figure 213883DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
表示形容词个数,
Figure 878214DEST_PATH_IMAGE004
表示副词个数,
Figure DEST_PATH_IMAGE005
为表示评论的总词数。
4.根据权利要求2所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述情感强度特征的提取方式为:
首先提取情感单元,利用语料库和情感词典,抽取指定词性搭配模式的情感词和上下文,构建三元搭配单元,三元情感单元定义为:
Figure 511320DEST_PATH_IMAGE006
,其中u为情感单元,w为情感词语,n为否定词,adv为程度副词;情感强度计算公式见式(2):
Figure 284104DEST_PATH_IMAGE008
式中,
Figure DEST_PATH_IMAGE009
表示评论文本的情感强度,Wj为评论句中情感词,re为评论句,
Figure 700173DEST_PATH_IMAGE010
表示情感词的极性,情感积极时值为1,相反为-1,
Figure DEST_PATH_IMAGE011
表示程度副词的权值,
Figure 546907DEST_PATH_IMAGE012
表示每个情感词前的否定词数量,无否定词
Figure 413231DEST_PATH_IMAGE012
为0,若有奇数个否定词则
Figure DEST_PATH_IMAGE013
值为-1,偶数个否定词
Figure 283099DEST_PATH_IMAGE014
值为1。
5.根据权利要求1所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述评论者行为特征包括:评分异常特征、数量异常特征和内容异常特征;
其中:
评分异常特征包括:
文本评分偏差,指该评分与该目标对象的平均评分的偏差;
评论者评分偏差,指该评论与评论者的平均评分的偏差;
极端评分,1星或5星评价;
数据异常特征指标包括:评论者日最大评论数、总评论数和评论频繁度;所述评论频繁度指评论者每日评论数同日平均评论数差值最大值;及
内容异常特征,指文本与该目标对象的所有文本相似度最大值;
根据所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特点分别提取所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值,并对所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值进行归一化处理,使其在区间[-1.0,1.0] 内。
6.根据权利要求5所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述内容异常特征中文本相似度的提取方式为:先把两条评论用Doc2Vec表征为80维的段落向量
Figure DEST_PATH_IMAGE015
,文本相似度计算见公式(4):
Figure DEST_PATH_IMAGE017
式中,
Figure 299596DEST_PATH_IMAGE018
表示文本相似度特征值,
Figure DEST_PATH_IMAGE019
为待测评论,
Figure 732327DEST_PATH_IMAGE020
为目标文本库
Figure DEST_PATH_IMAGE021
中的评论,遍历目标库,求得最大值
Figure 707236DEST_PATH_IMAGE018
作为文本相似度特征值。
7.根据权利要求5所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述评分异常特征中的文本评分偏差特征提取方法见公式(5):
Figure DEST_PATH_IMAGE023
式中,
Figure 923454DEST_PATH_IMAGE024
为文本评分偏差特征值,
Figure DEST_PATH_IMAGE025
为该评论的评分等级,
Figure 743642DEST_PATH_IMAGE026
为该目标商品所有评分等级的平均值,
Figure DEST_PATH_IMAGE027
为评级系统最大可能偏差。
8.根据权利要求1所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,
所述根据评论文本内容特征和评论者行为特征进行虚假评论识别,包括:通过预设的虚假评论识别模型根据评论文本内容特征和评论者行为特征进行虚假评论识别。
9.根据权利要求8所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述虚假评论识别模型的建立方法包括:
S11:首先设定一个阈值,将评论数据分为已标注数据集L和未标注数据集U;
S12:通过评论的特征值对评论数据集L进行分类,得到基于评论文本内容视图的已标注数据集
Figure 299389DEST_PATH_IMAGE028
,基于评论外部信息视图的已标注数据集
Figure DEST_PATH_IMAGE029
;
S13:从未标注数据集
Figure 179620DEST_PATH_IMAGE030
中随机产生u个评论样本,生成候选样本集
Figure DEST_PATH_IMAGE031
S14:使用已标注数据集
Figure 758500DEST_PATH_IMAGE028
Figure 710275DEST_PATH_IMAGE029
分别训练分类器
Figure 854949DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
S15:使用
Figure 233978DEST_PATH_IMAGE032
Figure 565733DEST_PATH_IMAGE031
中所有评论进行标注,将分类结果中标记置信度最高的p个正例和n个负例加入到L中,更新
Figure 586779DEST_PATH_IMAGE029
S16:使用
Figure 57730DEST_PATH_IMAGE033
Figure 873239DEST_PATH_IMAGE031
中所有评论进行标注,将分类结果中标记置信度最高的p个正例和n个负例加入到L中,更新
Figure 20187DEST_PATH_IMAGE028
S17:将以上2(p+n)条评论从U中移除;
S18:从U中随机产生2(p+n)条新的候选评论对
Figure 720289DEST_PATH_IMAGE031
进行补充;
S19:判断U是否为空,或迭代次数达到设定阈值,若满足条件,迭代结束,否则迭代继续。
10.根据权利要求9所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述分类器采用的分类算法包括:随机森林、逻辑回归、线性判别、K近邻、决策树、支持向量机或朴素贝叶斯分类模型。
CN202010523660.3A 2020-06-10 2020-06-10 一种基于滚动式协同训练的虚假评论识别方法 Pending CN111666480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010523660.3A CN111666480A (zh) 2020-06-10 2020-06-10 一种基于滚动式协同训练的虚假评论识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010523660.3A CN111666480A (zh) 2020-06-10 2020-06-10 一种基于滚动式协同训练的虚假评论识别方法

Publications (1)

Publication Number Publication Date
CN111666480A true CN111666480A (zh) 2020-09-15

Family

ID=72386618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010523660.3A Pending CN111666480A (zh) 2020-06-10 2020-06-10 一种基于滚动式协同训练的虚假评论识别方法

Country Status (1)

Country Link
CN (1) CN111666480A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232073A (zh) * 2020-11-06 2021-01-15 山西三友和智慧信息技术股份有限公司 一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法
CN112307755A (zh) * 2020-09-28 2021-02-02 天津大学 基于多特征和深度学习的垃圾评论识别方法
CN112396433A (zh) * 2020-11-30 2021-02-23 翼果(深圳)科技有限公司 基于留评人行为识别虚假商品评论的方法及系统
CN112463966A (zh) * 2020-12-08 2021-03-09 北京邮电大学 虚假评论检测模型训练方法、检测方法及装置
CN112667813A (zh) * 2020-12-30 2021-04-16 北京华宇元典信息服务有限公司 用于裁判文书的敏感身份信息的识别方法
CN112732921A (zh) * 2021-01-19 2021-04-30 福州大学 一种虚假用户评论检测方法及系统
CN112989056A (zh) * 2021-04-30 2021-06-18 中国人民解放军国防科技大学 基于方面特征的虚假评论识别方法及装置
CN113177164A (zh) * 2021-05-13 2021-07-27 聂佼颖 基于大数据的多平台协同新媒体内容监控管理系统
CN114492423A (zh) * 2021-12-28 2022-05-13 广州大学 基于特征融合及筛选的虚假评论检测方法、系统及介质
CN115828906A (zh) * 2023-02-15 2023-03-21 天津戎行集团有限公司 一种基于nlp的网络异常言论分析监测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484679A (zh) * 2016-10-20 2017-03-08 北京邮电大学 一种应用于消费平台上的虚假评论信息识别方法及装置
CN108733838A (zh) * 2018-05-29 2018-11-02 东北电力大学 基于多极情感分析的用户行为预测系统及其方法
US20180357220A1 (en) * 2017-05-10 2018-12-13 Oracle International Corporation Enabling chatbots by detecting and supporting argumentation
CN109145187A (zh) * 2018-07-23 2019-01-04 浙江大学 基于评论数据的跨平台电商欺诈检测方法和系统
CN109670167A (zh) * 2018-10-24 2019-04-23 国网浙江省电力有限公司 一种基于Word2Vec的电力客服工单情感量化分析方法
CN110362679A (zh) * 2019-06-05 2019-10-22 北京大学(天津滨海)新一代信息技术研究院 一种基于情感词典的金融领域评论情感分类方法及系统
CN110941953A (zh) * 2019-11-26 2020-03-31 华中师范大学 一种兼顾可解释性的网络虚假评论的自动识别方法及系统
CN111259140A (zh) * 2020-01-13 2020-06-09 长沙理工大学 一种基于lstm多实体特征融合的虚假评论检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484679A (zh) * 2016-10-20 2017-03-08 北京邮电大学 一种应用于消费平台上的虚假评论信息识别方法及装置
US20180357220A1 (en) * 2017-05-10 2018-12-13 Oracle International Corporation Enabling chatbots by detecting and supporting argumentation
CN108733838A (zh) * 2018-05-29 2018-11-02 东北电力大学 基于多极情感分析的用户行为预测系统及其方法
CN109145187A (zh) * 2018-07-23 2019-01-04 浙江大学 基于评论数据的跨平台电商欺诈检测方法和系统
CN109670167A (zh) * 2018-10-24 2019-04-23 国网浙江省电力有限公司 一种基于Word2Vec的电力客服工单情感量化分析方法
CN110362679A (zh) * 2019-06-05 2019-10-22 北京大学(天津滨海)新一代信息技术研究院 一种基于情感词典的金融领域评论情感分类方法及系统
CN110941953A (zh) * 2019-11-26 2020-03-31 华中师范大学 一种兼顾可解释性的网络虚假评论的自动识别方法及系统
CN111259140A (zh) * 2020-01-13 2020-06-09 长沙理工大学 一种基于lstm多实体特征融合的虚假评论检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶琪: ""基于多视图学习的虚假评论识别研究"", 《中国优秀硕士论文全文数据库》 *
杨超: ""融合评论文本内容和评论者行为特征的虚假评论检测方法研究"", 《中国优秀硕士论文全文数据库》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307755A (zh) * 2020-09-28 2021-02-02 天津大学 基于多特征和深度学习的垃圾评论识别方法
CN112232073A (zh) * 2020-11-06 2021-01-15 山西三友和智慧信息技术股份有限公司 一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法
CN112396433A (zh) * 2020-11-30 2021-02-23 翼果(深圳)科技有限公司 基于留评人行为识别虚假商品评论的方法及系统
CN112463966A (zh) * 2020-12-08 2021-03-09 北京邮电大学 虚假评论检测模型训练方法、检测方法及装置
CN112463966B (zh) * 2020-12-08 2024-04-05 北京邮电大学 虚假评论检测模型训练方法、检测方法及装置
CN112667813B (zh) * 2020-12-30 2022-03-01 北京华宇元典信息服务有限公司 用于裁判文书的敏感身份信息的识别方法
CN112667813A (zh) * 2020-12-30 2021-04-16 北京华宇元典信息服务有限公司 用于裁判文书的敏感身份信息的识别方法
CN112732921A (zh) * 2021-01-19 2021-04-30 福州大学 一种虚假用户评论检测方法及系统
CN112732921B (zh) * 2021-01-19 2022-06-14 福州大学 一种虚假用户评论检测方法及系统
CN112989056A (zh) * 2021-04-30 2021-06-18 中国人民解放军国防科技大学 基于方面特征的虚假评论识别方法及装置
CN112989056B (zh) * 2021-04-30 2021-07-30 中国人民解放军国防科技大学 基于方面特征的虚假评论识别方法及装置
CN113177164A (zh) * 2021-05-13 2021-07-27 聂佼颖 基于大数据的多平台协同新媒体内容监控管理系统
CN114492423A (zh) * 2021-12-28 2022-05-13 广州大学 基于特征融合及筛选的虚假评论检测方法、系统及介质
CN114492423B (zh) * 2021-12-28 2022-10-18 广州大学 基于特征融合及筛选的虚假评论检测方法、系统及介质
CN115828906A (zh) * 2023-02-15 2023-03-21 天津戎行集团有限公司 一种基于nlp的网络异常言论分析监测方法

Similar Documents

Publication Publication Date Title
CN111666480A (zh) 一种基于滚动式协同训练的虚假评论识别方法
Derakhshan et al. Sentiment analysis on stock social media for stock price movement prediction
CN107862343B (zh) 基于规则和神经网络的商品评论属性级情感分类方法
Socher Recursive deep learning for natural language processing and computer vision
Fiarni et al. Sentiment analysis system for Indonesia online retail shop review using hierarchy Naive Bayes technique
Assiri et al. Arabic sentiment analysis: a survey
Chang et al. Research on detection methods based on Doc2vec abnormal comments
Kaushik et al. A study on sentiment analysis: methods and tools
Park et al. Semi-supervised distributed representations of documents for sentiment analysis
Li et al. Social emotion classification based on noise-aware training
Azim et al. Text to emotion extraction using supervised machine learning techniques
CN109522412A (zh) 文本情感分析方法、装置及介质
Rao et al. Detection of sarcasm on amazon product reviews using machine learning algorithms under sentiment analysis
Saeed et al. Optimizing sentiment classification for Arabic opinion texts
CN112364646A (zh) 一种考虑修饰词的句子评论情感极性分析方法
Fasha et al. Opinion mining using sentiment analysis: a case study of readers’ response on long Litt Woon’s the way through the woods in goodreads
Yarkareddy et al. Sentiment analysis of amazon fine food reviews
El-Alfy et al. Empirical study on imbalanced learning of Arabic sentiment polarity with neural word embedding
Balakrishnan et al. Sentiment and emotion analyses for Malaysian mobile digital payment applications
Yekrangi et al. Domain-Specific Sentiment Analysis: An Optimized Deep Learning Approach for the Financial Markets
Hridoy et al. Aspect based sentiment analysis for bangla newspaper headlines
Sani et al. Sentiment Analysis of Hausa Language Tweet Using Machine Learning Approach
Obagbuwa et al. Supervised machine learning models for depression sentiment analysis
Amjad et al. Survey of Fake News Datasets and Detection Methods in European and Asian Languages
Kamalesh et al. Sentiment Analysis on Amazon Product Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200915

RJ01 Rejection of invention patent application after publication