CN111666480A - 一种基于滚动式协同训练的虚假评论识别方法 - Google Patents
一种基于滚动式协同训练的虚假评论识别方法 Download PDFInfo
- Publication number
- CN111666480A CN111666480A CN202010523660.3A CN202010523660A CN111666480A CN 111666480 A CN111666480 A CN 111666480A CN 202010523660 A CN202010523660 A CN 202010523660A CN 111666480 A CN111666480 A CN 111666480A
- Authority
- CN
- China
- Prior art keywords
- comment
- text
- emotion
- feature
- false
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 title claims abstract description 36
- 238000005096 rolling process Methods 0.000 title claims abstract description 19
- 230000008451 emotion Effects 0.000 claims abstract description 78
- 238000012552 review Methods 0.000 claims abstract description 28
- 230000006399 behavior Effects 0.000 claims abstract description 19
- 230000002996 emotional effect Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 17
- 230000002159 abnormal effect Effects 0.000 claims description 15
- 238000007637 random forest analysis Methods 0.000 claims description 14
- 238000012706 support-vector machine Methods 0.000 claims description 14
- 150000001875 compounds Chemical class 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000005856 abnormality Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 230000008909 emotion recognition Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于滚动式协同训练的虚假评论识别方法,涉及虚假评论识别技术领域,该方法包括:获取评论文本,根据所述评论文本确定评论文本内容特征;获取评论文本对应的评论者信息,根据所述评论者信息确定评论者行为特征;根据评论文本内容特征和评论者行为特征进行虚假评论识别;输出虚假评论识别结果。本申请的虚假评论识别方法有效利用未标注样本辅助模型学习,同时融合情感及文本表征等多个特征,通过多特征融合协同训练来提高模型的识别性能,较传统虚假评论识别方法准确率提升了3.5%。
Description
技术领域
本发明涉及虚假评论识别技术领域,具体涉及一种基于滚动式协同训练的虚假评论识别方法。
背景技术
对于网络购物而言,由于线上商品信息与消费者线下收到的商品存在不一致现象,消费者会阅读大量目标商品的评论辅助判断。因此,商品评论影响消费者购买行为,同时也影响着商家的利益。积极评论会吸引更多潜在用户,消极评论使潜在用户流失。不法商家为了能够获得较高收益,通常会雇佣专业写手为自家商品撰写虚假好评,吸引潜在用户;为竞争对手撰写虚假差评,打压竞争对手。例如,“某些商家采用“好评返现”的方式来获得积极评论,不管消费者收到产品后是否满意,只要按照商家的规定上传购买商品的图片或视频,并发布好评,就会得到一定金额的红包。”商家的这些行为不仅严重误导了潜在消费者,还不利于电商平台的稳定发展。有关研究表明,虚假评论是不容易被消费者识别的,为了净化网络购物平台,为消费者带来良好的购物体验和获取真实有效评论,亟需有效方法来识别虚假评论。
目前,国内外已经有很多学者进行了虚假评论识别研究。例如,JindalN等人将虚假评论分为:仅涉及品牌的评论、没有实质内容的评论和不真实的评论。他们通过检测是否为重复评论来识别虚假评论。当时虚假评论没有公开数据集。Feng 等人研究了评论内容更深层的句法结构,重点分析写作风格,提取了上下文无关文法的特征,使用支持向量机对“黄金数据集”分类。MyleOtt等人通过亚马逊提供的在线众包服务,构建了虚假评论识别领域的“黄金”数据集。通过对词语的词性分布进行分析并提取出词性特征,使用了基于 n-gram 的特征集合,并使用了朴素贝叶斯和支持向量机作为分类器。
目前在虚假评论识别的相关研究中,主要存在以下问题:
(1)以采用全监督框架下的分类方法为主,全监督学习方法需要大量标注语料作为训练集,标准数据集的缺少及人工标注耗时费力等问题为全监督框架下的研究带来极大地局限性。
(2)学者们尝试使用无监督学习方法,无监督学习方法解决了标注数据集缺失的问题,但却存在识别精度普遍偏低的情况。
(3)半监督学习很好地平衡了全监督学习与无监督学习存在的主要问题,但当前在以半监督方法识别虚假评论的研究中,仅基于浅层的评论特征进行了简单的特征建模,忽略了不同特征与分类模型组合的差异对结果的影响。
发明内容
为了解决上述问题,本发明提供了一种基于动态信誉值的PBFT共识传播优化方法,该方法使用主观逻辑模型对物联网节点的信誉值进行高效动态计算,能够加快区块同步时间,提高系统的可扩展性,降低主节点失效的风险,从而进一步提高系统的安全性。
本发明提供的具体技术方案为:一种基于滚动式协同训练的虚假评论识别方法,包括:
获取评论文本,根据所述评论文本确定评论文本内容特征;
获取评论文本对应的评论者信息,根据所述评论者信息确定评论者行为特征;
根据评论文本内容特征和评论者行为特征进行虚假评论识别;
输出虚假评论识别结果。
进一步地,所述评论文本内容特征包括:语性特征、词汇特征、情感特征和字符特征;
其中:
语性特征即段落向量,指文本深层次语义表示;
词汇特征即词性频率,指文本中各词性词数与总词数比值;
情感特征包括:情感评分一致性、情感强度和情感词汇特征,所述情感词汇特征指文本中正面与负面情感词词数与总词数比值;
字符特征即评论文本长度;
根据所述评论的语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特点提取该评论语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特征值,并对该特征值进行归一化处理,使其在区间[-1.0,1.0] 内。
更进一步地,所述词性特征的提取方法见公式(1):
更进一步地,所述情感强度特征的提取方式为:
首先提取情感单元,利用语料库和情感词典,抽取指定词性搭配模式的情感词和上下文,构建三元搭配单元,三元情感单元定义为:
式中,表示评论文本的情感强度,Wj为评论句中情感词,re为评论句,表示情感词的极性,情感积极时值为1,相反为-1,表示程度副词的权值,表示每个情感词前的否定词数量,无否定词为0,若有奇数个否定词则值为-1,偶数个否定词值为1。
更进一步地,所述评论者行为特征包括:评分异常特征、数量异常特征和内容异常特征;
其中:
评分异常特征包括:
文本评分偏差,指该评分与该目标对象的平均评分的偏差;
评论者评分偏差,指该评论与评论者的平均评分的偏差;
极端评分,1星或5星评价;
数据异常特征指标包括:评论者日最大评论数、总评论数和评论频繁度;所述评论频繁度指评论者每日评论数同日平均评论数差值最大值;及
内容异常特征,指文本与该目标对象的所有文本相似度最大值;
根据所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特点分别提取所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值,并对所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值进行归一化处理,使其在区间[-1.0,1.0] 内。
更进一步地,所述评分异常特征中的文本评分偏差特征提取方法见公式(5):
更进一步地,所述根据评论文本内容特征和评论者行为特征进行虚假评论识别,包括:通过预设的虚假评论识别模型根据评论文本内容特征和评论者行为特征进行虚假评论识别。
更进一步地,所述虚假评论识别模型的建立方法包括:
S11:首先设定一个阈值,对评论数据分为已标注数据集L和未标注数据集U;
S17:将以上2(p+n)条评论从U中移除;
S19:判断U是否为空,或迭代次数达到设定阈值,若满足条件,迭代结束,否则迭代继续。
更进一步地,所述分类器采用的分类算法包括:随机森林、逻辑回归、线性判别、K近邻、决策树、支持向量机或朴素贝叶斯分类模型。
本发明的有益效果:
本申请的虚假评论识别方法有效利用未标注样本辅助模型学习,同时融合情感及文本表征等多个特征,通过多特征融合协同训练来提高模型的识别性能,较传统虚假评论识别方法准确率提升了3.5%左右。
本申请把识别置信度高的数据输入到模型训练模块,不断迭代更新训练分类器,不仅保证识别模型不会由于时间推进等因素影响识别效果,还能利用已有未标记数据训练模型。由于协同训练最终从不同视图上产生两个分类器,为降低模型最终的“误判率”,本申请将评论是否虚假的判定依据设定为:仅当两个分类器同时将其标记为虚假时,本条评论才为虚假,这样使虚假评论的识别更为准确。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将对本发明作进一步详细的说明。
附图说明:
图1是本发明实施例的基于基于滚动式协同训练的虚假评论识别方法框架图;
图2是本发明实施例的滚动式协同训练的虚假评论识别模型图;
图3是本发明实施例的情感评分一致性对比图;
图4是本发明实施例的文本表示维度对分类结果的影响趋势图;
图5是本发明实施例的文本特征各分类器性能图;
图6是本发明实施例的外部特征各分类器性能图;
图7是本发明实施例的未标记数据注入比例系数对各分类器分类性能的影响。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参考图1,一种基于滚动式协同训练的虚假评论识别方法,包括以下步骤:
获取评论文本,根据所述评论文本确定评论文本内容特征;
其中一个实施例中,所述评论文本内容特征包括:语性特征、词汇特征、情感特征和字符特征;
其中:
语性特征即段落向量,指文本深层次语义表示。
用Doc2vec语言模型把文本用语义向量表示,得到固定维数的特征向量作为评论识别的特征之一;
利用分词工具NLTK语言模型对商品评论进行分词和词性标注,再进行词性词频统计,得到每条评论文本的词性分布。形容词和副词可以更准确的表达评论者情感,采用形容词和副词的占总词汇的比例代表词汇的多样性,提取方法见公式(1):
词汇特征即词性频率,指文本中各词性词数与总词数比值;
情感特征包括:情感评分一致性、情感强度和情感词汇特征,所述情感词汇特征指文本中正面与负面情感词词数与总词数比值;
其中,所述情感强度特征的提取方式为:首先提取情感单元,利用语料库和情感词典,抽取指定词性搭配模式的情感词和上下文,构建三元搭配单元,三元情感单元定义为:,其中u为情感单元,w为情感词语,n为否定词,adv为程度副词;情感强度计算公式见式(2):
式中,表示评论文本的情感强度,Wj为评论句中情感词,re为评论句,表示情感词的极性,情感积极时值为1,相反为-1,表示程度副词的权值,不同程度副词有不同的权值,如“更、较、愈、更加、越加”的权重为1.25,“略、蛮、稍微、一点、略微”权重为0.5,“半点、不大、轻度、丝毫”为0.25,表示每个情感词前的否定词数量,无否定词为0,若有奇数个否定词则值为-1,偶数个否定词值为1。
其中,基于词典的情感强度提取算法见表1:
表1 基于词典的情感强度提取算法
所述情感评分一致性特征的提取方法见公式(3):
所述字符特征即评论文本长度;
根据所述评论的语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特点提取该评论语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特征值,并对该特征值进行归一化处理,使其在区间[-1.0,1.0] 内,所述归一化处理方法采用公式(8),
其中,yi为标准化后特征值,xi为未标准化特征值,i为当前数,z为该特征的特征值总个数,n为变量系数。
获取评论文本对应的评论者信息,根据所述评论者信息确定评论者行为特征;
所述评论外部信息特征包括:评分异常特征、数量异常特征和内容异常特征;
其中:
评分异常特征包括:
文本评分偏差,指该评分与该目标对象的平均评分的偏差;
评论者评分偏差,指该评论与评论者的平均评分的偏差;
所述文本评分偏差特征提取方法见公式(5):
极端评分,1星或5星评价;
数据异常特征指标包括:评论者日最大评论数、总评论数和评论频繁度;所述评论频繁度特征;
一天内提交大量的评论是一种反常行为,通过统计用户日发布评论数与历史日最大发文量比值作为评论数量异常参数,能够获取虚假评论发布者的异常行为特征。所述数据异常特征中的评论频繁度的提取方法见公式(6):
内容异常特征,指文本与该目标对象的所有文本相似度最大值。
根据所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特点分别提取所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值,并对所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值进行归一化处理,使其在区间[-1.0,1.0] 内,所述归一化处理的方法见公式(8):
其中,yi为标准化后特征值,xi为未标准化特征值,i为当前数,z为该特征的特征值总个数,n为变量系数。
根据评论文本内容特征和评论者行为特征进行虚假评论识别;
输出虚假评论识别结果。
所述根据评论文本内容特征和评论者行为特征进行虚假评论识别,包括:通过预设的虚假评论识别模型根据评论文本内容特征和评论者行为特征进行虚假评论识别。
参考图2,所述虚假评论识别模型的建立方法包括:
S11:首先设定一个阈值,将评论数据分为已标注数据集L和未标注数据集U;
S17:将以上2(p+n)条评论从U中移除;
S19:判断U是否为空,或迭代次数达到设定阈值,若满足条件,迭代结束,否则迭代继续。
其中一个实施例中,所述分类器采用的分类算法包括:随机森林、逻辑回归、线性判别、K近邻、决策树、支持向量机或朴素贝叶斯分类模型。
下面结合具体实验例对本发明进一步描述
实验例:
(一)数据来源:
本发明从yelp点评网站获取原始实验数据集,所述原始实验数据集包括用户ID、评论总数、评论内容、评论等级、评论时间等多个字段,共 5854 条评论文本。并借助yelp点评网站的虚假评论过滤系统进行虚假评论的标注,得到实验数据集如表1所示。
表2实验数据集
数据类型 | 评论数 | 用户数 |
真实评论 | 5076 | 4231 |
虚假评论 | 778 | 743 |
评论总数 | 5854 | 4974 |
(二)实验平台
本申请所用算法采用服务器运行环境为Win64位;处理器Intel(R)Core(TM)i5-5200UCPU @2.20GHz 2.20GHz;运行内存8G;Python3.7.0版本;gensim3.8.0版本;scikit-learn0.20.1版本;文本段落向量训练采用Doc2vec工具;采用NLTK工具对文本分词和词性标注。
(三)实验过程及结果分析
通过实施例中的算法对数值数据进行特征提取,情感强度特征用公式(2)提取,算法设计由表1所示,本文所用情感词典为SenticNet 5提供,数据经过筛选和处理之后,包含积极情感词及情感词强度55311个,消极情感词及情感强度44589个,每个情感词情感强度区间在[0,1],例如积极情感词acclaimed的情感强度为0.91,而消极情感词abbreviate的情感强度只有0.046,几乎为中性词。所用程度副词词典为sentiment数据集中的程度级别词语英文版,其中程度副词178个,分为6个级别,分别为“极其”、“很”、“较”、“稍”、“欠”、“超”,例如“extreme”为“极其”级别,“fairly”为“稍”级别。
文本句子向量化表示通过Doc2Vec语言模型进行提取,设置提取维度,通过迭代训练,选取最佳参数和维度。词性特征提取借助NLTK语言模型包,并采用上述算法提取特征值。由于特征有正有负,所以选择标准化方法时,要考虑不改变正负的归一化方法。提取特征后,数据的缩放比例为绝对值最大值,并保留正负号,即在区间 [-1.0,1.0] 内,如公式(8):
其中,yi为标准化后特征值,xi为未标准化特征值,i为当前数,z为该特征的特征值总个数,n为变量系数。
用公式(2)和公式(3)的算法对上述评论文本的情感一致性特征进行提取分析,结果见图3:
从图3可以看出,大量的虚假评论存在于极端评分中,1星评分中有存在明显的高情感值的虚假评论,原因可能是评论者为了提高刷单效率,复制了其他评论的内容,而评分评论者为了降低商品的总体评分来误导消费者。在5星评论中这种情况存在也很严重,从情感角度分析来看,虚假评论情感值存在区间主要在 [-10,35],真实评论情感值存在区间是[-20,80],由此看出,真实评论情感和虚假评论会出现一致的情况,因此不能把情感当作唯一指标。
表3为语言模型参数数值表
表3 Doc2Vec语言模型参数数值表
Doc2Vec模型参数 | 数值 |
最小数min_count | 1 |
窗口Window | 5 |
样本Sampl | 1e-3 |
负值Negative | 5 |
进程workers | 4 |
遍历次数Epoch | 70 |
测试Doc2Vec语言模型维数对分类效果的影响,针对不同维数来进行分类实验,结果如图4所示:
从图4可以看出,RF、SVM、LR、LDA的准确率相对较高,在一定范围内,随着文本向量维度的增加,交叉验证准确率也随之增加,SVM、LDA、LR在80维时取得最大值,RF在90维时取得最大值。此外,由于此前的研究都是基于N-garm语言模型的one-hot编码,向量维数由单词数来决定,维数过高,造成维数灾难和梯度消失,Doc2Vec语言模型为神经网络模型,把文本映射到高维向量空间,能够很好的表示文本内容信息。为了减小分类模型的时间和资源成本,这里选择80维作为以下实验文本表示维度。
本申请分别测试了随机森林(RF)、逻辑回归(LR)、线性判别(LDA)、K近邻(KNN)、决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)等七种常见的分类模型在两个视图上的交叉验证准确率分类性能,以形成协同训练的基分类器集,为保证实验结果的稳定性,采用十折交叉验证。结果如表3、表4和图5、图6所示:
表4 文本特征各分类器十折交叉每次结果
表5 外部信息特征各分类器十折交叉每次结果
由表4和表5、图 5和图6 可知,SVM与RF的整体表现性能要优于其他分类模型,仅从评论内容视图特征来看,SVM取得最高的整体分类准确率,其次是RF和LR,而在评论者行为视图特征上,RF的表现性能与DT相当,前者的总体准确率略高于后者。因此实验中选择 SVM与RF作为组合中的两个基分类器。
分别测试未标记数据注入比例系数对上述基分类器分类性能,实验分析迭代增加样本量对分类性能的影响,以设置协同训练决策规则比例系数阈值,结果如图7所示:
由图7所示,随着比例系数以及样本量的增加,准确率也随之增加,比例系数为0.8时效果最好;由于样本的增加,对分类器的训练效果也逐渐增强,但是样本数量过多时,可能造成过拟合现象,导致分类效果减弱,从多方面考虑选择0.8为比例系数。
调整特征与所选分类器的组合,设置协同训练决策规则以及参数,进行协同训练,结果如表6所示,其中C1表示评论内容特征视图上的分类器,C2表示行为特征视图上的分类器;由表 6 可知,组合1取得最好的分类结果,该结果与第一步实验结论吻合。
表6 不同分类器组合识别效果
设置对照组进行实验,证明本文方法的有效性,其中包括:
Supervised:少量样本的有标签数据的监督学习,该文采用分类效果较好的SVM、DT和RF分类器,比较三个分类器效果,选择分类效果最好的RF分类器作为对照组;
Semi-supervised:一种半监督学习,基于单分类器进行强化学习,分类器选择RF;
Co-training:标准的协同训练算法,采用不做任何处理的原始特征集作为输入进行模型训练;
Co-training(multi-feature fusion):本申请提出的方法,原始特征加入文本表示特征和情感特征,通过滚动式更新样本集来训练分类器。实验结果如表6。
表7 不同模型识别效果对比
由表7可以看出,本文提出的方法取得了不错的效果,其准确率和召回率均高于其他几组对照组,证明了该方法在虚假评论识别任务中的可行性和有效性。第二对照组中召回率比准确率高很多,说明模型存在较高的“误判率”,即将部分正常评论标记为虚假评论,而本文所提方法,取得了较好的识别效果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、同替换、改进,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于滚动式协同训练的虚假评论识别方法,其特征在于,包括:
获取评论文本,根据所述评论文本确定评论文本内容特征;
获取评论文本对应的评论者信息,根据所述评论者信息确定评论者行为特征;
根据评论文本内容特征和评论者行为特征进行虚假评论识别;
输出虚假评论识别结果。
2.根据权利要求1所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述评论文本内容特征包括:语性特征、词汇特征、情感特征和字符特征;
其中:
语性特征即段落向量,指文本深层次语义表示;
词汇特征即词性频率,指文本中各词性词数与总词数比值;
情感特征包括:情感评分一致性、情感强度和情感词汇特征,所述情感词汇特征指文本中正面与负面情感词词数与总词数比值;
字符特征即评论文本长度;
根据所述评论的语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特点提取该评论语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特征值,并对该特征值进行归一化处理,使其在区间[-1.0,1.0] 内。
5.根据权利要求1所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述评论者行为特征包括:评分异常特征、数量异常特征和内容异常特征;
其中:
评分异常特征包括:
文本评分偏差,指该评分与该目标对象的平均评分的偏差;
评论者评分偏差,指该评论与评论者的平均评分的偏差;
极端评分,1星或5星评价;
数据异常特征指标包括:评论者日最大评论数、总评论数和评论频繁度;所述评论频繁度指评论者每日评论数同日平均评论数差值最大值;及
内容异常特征,指文本与该目标对象的所有文本相似度最大值;
根据所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特点分别提取所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值,并对所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值进行归一化处理,使其在区间[-1.0,1.0] 内。
8.根据权利要求1所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,
所述根据评论文本内容特征和评论者行为特征进行虚假评论识别,包括:通过预设的虚假评论识别模型根据评论文本内容特征和评论者行为特征进行虚假评论识别。
9.根据权利要求8所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述虚假评论识别模型的建立方法包括:
S11:首先设定一个阈值,将评论数据分为已标注数据集L和未标注数据集U;
S17:将以上2(p+n)条评论从U中移除;
S19:判断U是否为空,或迭代次数达到设定阈值,若满足条件,迭代结束,否则迭代继续。
10.根据权利要求9所述的基于滚动式协同训练的虚假评论识别方法,其特征在于,所述分类器采用的分类算法包括:随机森林、逻辑回归、线性判别、K近邻、决策树、支持向量机或朴素贝叶斯分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010523660.3A CN111666480A (zh) | 2020-06-10 | 2020-06-10 | 一种基于滚动式协同训练的虚假评论识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010523660.3A CN111666480A (zh) | 2020-06-10 | 2020-06-10 | 一种基于滚动式协同训练的虚假评论识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111666480A true CN111666480A (zh) | 2020-09-15 |
Family
ID=72386618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010523660.3A Pending CN111666480A (zh) | 2020-06-10 | 2020-06-10 | 一种基于滚动式协同训练的虚假评论识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666480A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232073A (zh) * | 2020-11-06 | 2021-01-15 | 山西三友和智慧信息技术股份有限公司 | 一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法 |
CN112307755A (zh) * | 2020-09-28 | 2021-02-02 | 天津大学 | 基于多特征和深度学习的垃圾评论识别方法 |
CN112396433A (zh) * | 2020-11-30 | 2021-02-23 | 翼果(深圳)科技有限公司 | 基于留评人行为识别虚假商品评论的方法及系统 |
CN112463966A (zh) * | 2020-12-08 | 2021-03-09 | 北京邮电大学 | 虚假评论检测模型训练方法、检测方法及装置 |
CN112667813A (zh) * | 2020-12-30 | 2021-04-16 | 北京华宇元典信息服务有限公司 | 用于裁判文书的敏感身份信息的识别方法 |
CN112732921A (zh) * | 2021-01-19 | 2021-04-30 | 福州大学 | 一种虚假用户评论检测方法及系统 |
CN112989056A (zh) * | 2021-04-30 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于方面特征的虚假评论识别方法及装置 |
CN113177164A (zh) * | 2021-05-13 | 2021-07-27 | 聂佼颖 | 基于大数据的多平台协同新媒体内容监控管理系统 |
CN114492423A (zh) * | 2021-12-28 | 2022-05-13 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
CN115828906A (zh) * | 2023-02-15 | 2023-03-21 | 天津戎行集团有限公司 | 一种基于nlp的网络异常言论分析监测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484679A (zh) * | 2016-10-20 | 2017-03-08 | 北京邮电大学 | 一种应用于消费平台上的虚假评论信息识别方法及装置 |
CN108733838A (zh) * | 2018-05-29 | 2018-11-02 | 东北电力大学 | 基于多极情感分析的用户行为预测系统及其方法 |
US20180357220A1 (en) * | 2017-05-10 | 2018-12-13 | Oracle International Corporation | Enabling chatbots by detecting and supporting argumentation |
CN109145187A (zh) * | 2018-07-23 | 2019-01-04 | 浙江大学 | 基于评论数据的跨平台电商欺诈检测方法和系统 |
CN109670167A (zh) * | 2018-10-24 | 2019-04-23 | 国网浙江省电力有限公司 | 一种基于Word2Vec的电力客服工单情感量化分析方法 |
CN110362679A (zh) * | 2019-06-05 | 2019-10-22 | 北京大学(天津滨海)新一代信息技术研究院 | 一种基于情感词典的金融领域评论情感分类方法及系统 |
CN110941953A (zh) * | 2019-11-26 | 2020-03-31 | 华中师范大学 | 一种兼顾可解释性的网络虚假评论的自动识别方法及系统 |
CN111259140A (zh) * | 2020-01-13 | 2020-06-09 | 长沙理工大学 | 一种基于lstm多实体特征融合的虚假评论检测方法 |
-
2020
- 2020-06-10 CN CN202010523660.3A patent/CN111666480A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484679A (zh) * | 2016-10-20 | 2017-03-08 | 北京邮电大学 | 一种应用于消费平台上的虚假评论信息识别方法及装置 |
US20180357220A1 (en) * | 2017-05-10 | 2018-12-13 | Oracle International Corporation | Enabling chatbots by detecting and supporting argumentation |
CN108733838A (zh) * | 2018-05-29 | 2018-11-02 | 东北电力大学 | 基于多极情感分析的用户行为预测系统及其方法 |
CN109145187A (zh) * | 2018-07-23 | 2019-01-04 | 浙江大学 | 基于评论数据的跨平台电商欺诈检测方法和系统 |
CN109670167A (zh) * | 2018-10-24 | 2019-04-23 | 国网浙江省电力有限公司 | 一种基于Word2Vec的电力客服工单情感量化分析方法 |
CN110362679A (zh) * | 2019-06-05 | 2019-10-22 | 北京大学(天津滨海)新一代信息技术研究院 | 一种基于情感词典的金融领域评论情感分类方法及系统 |
CN110941953A (zh) * | 2019-11-26 | 2020-03-31 | 华中师范大学 | 一种兼顾可解释性的网络虚假评论的自动识别方法及系统 |
CN111259140A (zh) * | 2020-01-13 | 2020-06-09 | 长沙理工大学 | 一种基于lstm多实体特征融合的虚假评论检测方法 |
Non-Patent Citations (2)
Title |
---|
叶琪: ""基于多视图学习的虚假评论识别研究"", 《中国优秀硕士论文全文数据库》 * |
杨超: ""融合评论文本内容和评论者行为特征的虚假评论检测方法研究"", 《中国优秀硕士论文全文数据库》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307755A (zh) * | 2020-09-28 | 2021-02-02 | 天津大学 | 基于多特征和深度学习的垃圾评论识别方法 |
CN112232073A (zh) * | 2020-11-06 | 2021-01-15 | 山西三友和智慧信息技术股份有限公司 | 一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法 |
CN112396433A (zh) * | 2020-11-30 | 2021-02-23 | 翼果(深圳)科技有限公司 | 基于留评人行为识别虚假商品评论的方法及系统 |
CN112463966A (zh) * | 2020-12-08 | 2021-03-09 | 北京邮电大学 | 虚假评论检测模型训练方法、检测方法及装置 |
CN112463966B (zh) * | 2020-12-08 | 2024-04-05 | 北京邮电大学 | 虚假评论检测模型训练方法、检测方法及装置 |
CN112667813B (zh) * | 2020-12-30 | 2022-03-01 | 北京华宇元典信息服务有限公司 | 用于裁判文书的敏感身份信息的识别方法 |
CN112667813A (zh) * | 2020-12-30 | 2021-04-16 | 北京华宇元典信息服务有限公司 | 用于裁判文书的敏感身份信息的识别方法 |
CN112732921A (zh) * | 2021-01-19 | 2021-04-30 | 福州大学 | 一种虚假用户评论检测方法及系统 |
CN112732921B (zh) * | 2021-01-19 | 2022-06-14 | 福州大学 | 一种虚假用户评论检测方法及系统 |
CN112989056A (zh) * | 2021-04-30 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于方面特征的虚假评论识别方法及装置 |
CN112989056B (zh) * | 2021-04-30 | 2021-07-30 | 中国人民解放军国防科技大学 | 基于方面特征的虚假评论识别方法及装置 |
CN113177164A (zh) * | 2021-05-13 | 2021-07-27 | 聂佼颖 | 基于大数据的多平台协同新媒体内容监控管理系统 |
CN114492423A (zh) * | 2021-12-28 | 2022-05-13 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
CN114492423B (zh) * | 2021-12-28 | 2022-10-18 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
CN115828906A (zh) * | 2023-02-15 | 2023-03-21 | 天津戎行集团有限公司 | 一种基于nlp的网络异常言论分析监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666480A (zh) | 一种基于滚动式协同训练的虚假评论识别方法 | |
Derakhshan et al. | Sentiment analysis on stock social media for stock price movement prediction | |
CN107862343B (zh) | 基于规则和神经网络的商品评论属性级情感分类方法 | |
Socher | Recursive deep learning for natural language processing and computer vision | |
Fiarni et al. | Sentiment analysis system for Indonesia online retail shop review using hierarchy Naive Bayes technique | |
Assiri et al. | Arabic sentiment analysis: a survey | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
Kaushik et al. | A study on sentiment analysis: methods and tools | |
Park et al. | Semi-supervised distributed representations of documents for sentiment analysis | |
Li et al. | Social emotion classification based on noise-aware training | |
Azim et al. | Text to emotion extraction using supervised machine learning techniques | |
CN109522412A (zh) | 文本情感分析方法、装置及介质 | |
Rao et al. | Detection of sarcasm on amazon product reviews using machine learning algorithms under sentiment analysis | |
Saeed et al. | Optimizing sentiment classification for Arabic opinion texts | |
CN112364646A (zh) | 一种考虑修饰词的句子评论情感极性分析方法 | |
Fasha et al. | Opinion mining using sentiment analysis: a case study of readers’ response on long Litt Woon’s the way through the woods in goodreads | |
Yarkareddy et al. | Sentiment analysis of amazon fine food reviews | |
El-Alfy et al. | Empirical study on imbalanced learning of Arabic sentiment polarity with neural word embedding | |
Balakrishnan et al. | Sentiment and emotion analyses for Malaysian mobile digital payment applications | |
Yekrangi et al. | Domain-Specific Sentiment Analysis: An Optimized Deep Learning Approach for the Financial Markets | |
Hridoy et al. | Aspect based sentiment analysis for bangla newspaper headlines | |
Sani et al. | Sentiment Analysis of Hausa Language Tweet Using Machine Learning Approach | |
Obagbuwa et al. | Supervised machine learning models for depression sentiment analysis | |
Amjad et al. | Survey of Fake News Datasets and Detection Methods in European and Asian Languages | |
Kamalesh et al. | Sentiment Analysis on Amazon Product Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200915 |
|
RJ01 | Rejection of invention patent application after publication |