CN111666480A

CN111666480A - 一种基于滚动式协同训练的虚假评论识别方法

Info

Publication number: CN111666480A
Application number: CN202010523660.3A
Authority: CN
Inventors: 王敬东; 阚海涛; 孟凡奇; 李佳
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-15

Abstract

本发明公开了一种基于滚动式协同训练的虚假评论识别方法，涉及虚假评论识别技术领域，该方法包括：获取评论文本，根据所述评论文本确定评论文本内容特征；获取评论文本对应的评论者信息，根据所述评论者信息确定评论者行为特征；根据评论文本内容特征和评论者行为特征进行虚假评论识别；输出虚假评论识别结果。本申请的虚假评论识别方法有效利用未标注样本辅助模型学习，同时融合情感及文本表征等多个特征，通过多特征融合协同训练来提高模型的识别性能，较传统虚假评论识别方法准确率提升了3.5%。

Description

一种基于滚动式协同训练的虚假评论识别方法

技术领域

本发明涉及虚假评论识别技术领域，具体涉及一种基于滚动式协同训练的虚假评论识别方法。

背景技术

对于网络购物而言，由于线上商品信息与消费者线下收到的商品存在不一致现象，消费者会阅读大量目标商品的评论辅助判断。因此，商品评论影响消费者购买行为，同时也影响着商家的利益。积极评论会吸引更多潜在用户，消极评论使潜在用户流失。不法商家为了能够获得较高收益，通常会雇佣专业写手为自家商品撰写虚假好评，吸引潜在用户；为竞争对手撰写虚假差评，打压竞争对手。例如，“某些商家采用“好评返现”的方式来获得积极评论，不管消费者收到产品后是否满意，只要按照商家的规定上传购买商品的图片或视频，并发布好评，就会得到一定金额的红包。”商家的这些行为不仅严重误导了潜在消费者，还不利于电商平台的稳定发展。有关研究表明，虚假评论是不容易被消费者识别的，为了净化网络购物平台，为消费者带来良好的购物体验和获取真实有效评论，亟需有效方法来识别虚假评论。

目前，国内外已经有很多学者进行了虚假评论识别研究。例如，JindalN等人将虚假评论分为：仅涉及品牌的评论、没有实质内容的评论和不真实的评论。他们通过检测是否为重复评论来识别虚假评论。当时虚假评论没有公开数据集。Feng 等人研究了评论内容更深层的句法结构，重点分析写作风格，提取了上下文无关文法的特征，使用支持向量机对“黄金数据集”分类。MyleOtt等人通过亚马逊提供的在线众包服务，构建了虚假评论识别领域的“黄金”数据集。通过对词语的词性分布进行分析并提取出词性特征，使用了基于 n-gram 的特征集合，并使用了朴素贝叶斯和支持向量机作为分类器。

目前在虚假评论识别的相关研究中，主要存在以下问题：

（1）以采用全监督框架下的分类方法为主，全监督学习方法需要大量标注语料作为训练集，标准数据集的缺少及人工标注耗时费力等问题为全监督框架下的研究带来极大地局限性。

（2）学者们尝试使用无监督学习方法，无监督学习方法解决了标注数据集缺失的问题，但却存在识别精度普遍偏低的情况。

（3）半监督学习很好地平衡了全监督学习与无监督学习存在的主要问题，但当前在以半监督方法识别虚假评论的研究中，仅基于浅层的评论特征进行了简单的特征建模，忽略了不同特征与分类模型组合的差异对结果的影响。

发明内容

为了解决上述问题，本发明提供了一种基于动态信誉值的PBFT共识传播优化方法，该方法使用主观逻辑模型对物联网节点的信誉值进行高效动态计算，能够加快区块同步时间，提高系统的可扩展性，降低主节点失效的风险，从而进一步提高系统的安全性。

本发明提供的具体技术方案为：一种基于滚动式协同训练的虚假评论识别方法，包括：

获取评论文本，根据所述评论文本确定评论文本内容特征；

获取评论文本对应的评论者信息，根据所述评论者信息确定评论者行为特征；

根据评论文本内容特征和评论者行为特征进行虚假评论识别；

输出虚假评论识别结果。

进一步地，所述评论文本内容特征包括：语性特征、词汇特征、情感特征和字符特征；

其中：

语性特征即段落向量，指文本深层次语义表示；

词汇特征即词性频率，指文本中各词性词数与总词数比值；

情感特征包括：情感评分一致性、情感强度和情感词汇特征，所述情感词汇特征指文本中正面与负面情感词词数与总词数比值；

字符特征即评论文本长度；

根据所述评论的语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特点提取该评论语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特征值，并对该特征值进行归一化处理，使其在区间[-1.0,1.0] 内。

更进一步地，所述词性特征的提取方法见公式（1）：

式中，

表示形容词个数，

表示副词个数，

为表示评论的总词数。

更进一步地，所述情感强度特征的提取方式为：

首先提取情感单元，利用语料库和情感词典，抽取指定词性搭配模式的情感词和上下文，构建三元搭配单元，三元情感单元定义为：

，其中u为情感单元，w为情感词语，n为否定词，adv为程度副词；情感强度计算公式见式（2）：

式中，

表示评论文本的情感强度，W_j为评论句中情感词，re为评论句，

表示情感词的极性，情感积极时值为1，相反为-1，

表示程度副词的权值，

表示每个情感词前的否定词数量，无否定词

为0，若有奇数个否定词则

值为-1，偶数个否定词

值为1。

更进一步地，所述评论者行为特征包括：评分异常特征、数量异常特征和内容异常特征；

其中:

评分异常特征包括：

文本评分偏差，指该评分与该目标对象的平均评分的偏差；

评论者评分偏差，指该评论与评论者的平均评分的偏差；

极端评分，1星或5星评价；

数据异常特征指标包括：评论者日最大评论数、总评论数和评论频繁度；所述评论频繁度指评论者每日评论数同日平均评论数差值最大值；及

内容异常特征，指文本与该目标对象的所有文本相似度最大值；

根据所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特点分别提取所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值，并对所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值进行归一化处理，使其在区间[-1.0,1.0] 内。

更进一步地，所述内容异常特征中文本相似度的提取方式为：先把两条评论用Doc2Vec表征为80维的段落向量

，文本相似度计算见公式（4）：

式中，

表示文本相似度特征值，

为待测评论，

为目标文本库

中的评论，遍历目标库，求得最大值

作为文本相似度特征值。

更进一步地，所述评分异常特征中的文本评分偏差特征提取方法见公式（5）：

式中，

为文本评分偏差特征值，

为该评论的评分等级，

为该目标商品所有评分等级的平均值，

为评级系统最大可能偏差。

更进一步地，所述根据评论文本内容特征和评论者行为特征进行虚假评论识别，包括：通过预设的虚假评论识别模型根据评论文本内容特征和评论者行为特征进行虚假评论识别。

更进一步地，所述虚假评论识别模型的建立方法包括：

S11：首先设定一个阈值，对评论数据分为已标注数据集L和未标注数据集U；

S12：通过评论的特征值对评论数据集L进行分类，得到基于评论文本内容视图的已标注数据集

，基于评论外部信息视图的已标注数据集

；

S13：从未标注数据集

中随机产生u个评论样本，生成候选样本集

；

S14：使用已标注数据集

、

分别训练分类器

、

；

S15：使用

对

中所有评论进行标注，将分类结果中标记置信度最高的p个正例和n个负例加入到L中，更新

；

S16：使用

对

；

S17：将以上2（p+n）条评论从U中移除；

S18：从U中随机产生2（p+n）条新的候选评论对

进行补充；

S19：判断U是否为空，或迭代次数达到设定阈值，若满足条件，迭代结束，否则迭代继续。

更进一步地，所述分类器采用的分类算法包括：随机森林、逻辑回归、线性判别、K近邻、决策树、支持向量机或朴素贝叶斯分类模型。

本发明的有益效果：

本申请的虚假评论识别方法有效利用未标注样本辅助模型学习，同时融合情感及文本表征等多个特征，通过多特征融合协同训练来提高模型的识别性能，较传统虚假评论识别方法准确率提升了3.5%左右。

本申请把识别置信度高的数据输入到模型训练模块，不断迭代更新训练分类器，不仅保证识别模型不会由于时间推进等因素影响识别效果，还能利用已有未标记数据训练模型。由于协同训练最终从不同视图上产生两个分类器，为降低模型最终的“误判率”，本申请将评论是否虚假的判定依据设定为:仅当两个分类器同时将其标记为虚假时，本条评论才为虚假，这样使虚假评论的识别更为准确。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将对本发明作进一步详细的说明。

附图说明：

图1是本发明实施例的基于基于滚动式协同训练的虚假评论识别方法框架图；

图2是本发明实施例的滚动式协同训练的虚假评论识别模型图；

图3是本发明实施例的情感评分一致性对比图；

图4是本发明实施例的文本表示维度对分类结果的影响趋势图；

图5是本发明实施例的文本特征各分类器性能图；

图6是本发明实施例的外部特征各分类器性能图；

图7是本发明实施例的未标记数据注入比例系数对各分类器分类性能的影响。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参考图1，一种基于滚动式协同训练的虚假评论识别方法，包括以下步骤：

获取评论文本，根据所述评论文本确定评论文本内容特征；

其中一个实施例中，所述评论文本内容特征包括：语性特征、词汇特征、情感特征和字符特征；

其中：

语性特征即段落向量，指文本深层次语义表示。

用Doc2vec语言模型把文本用语义向量表示，得到固定维数的特征向量作为评论识别的特征之一；

利用分词工具NLTK语言模型对商品评论进行分词和词性标注，再进行词性词频统计，得到每条评论文本的词性分布。形容词和副词可以更准确的表达评论者情感，采用形容词和副词的占总词汇的比例代表词汇的多样性，提取方法见公式（1）：

式中，

表示形容词个数，

表示副词个数，

为表示评论的总词数。

词汇特征即词性频率，指文本中各词性词数与总词数比值；

其中，所述情感强度特征的提取方式为：首先提取情感单元，利用语料库和情感词典，抽取指定词性搭配模式的情感词和上下文，构建三元搭配单元，三元情感单元定义为：

式中，

表示情感词的极性，情感积极时值为1，相反为-1，

表示程度副词的权值，不同程度副词有不同的权值，如“更、较、愈、更加、越加”的权重为1.25，“略、蛮、稍微、一点、略微”权重为0.5，“半点、不大、轻度、丝毫”为0.25，

表示每个情感词前的否定词数量，无否定词

为0，若有奇数个否定词则

值为-1，偶数个否定词

值为1。

其中，基于词典的情感强度提取算法见表1：

表1 基于词典的情感强度提取算法

所述情感评分一致性特征的提取方法见公式（3）：

式中，

情感评分一致性指标特征值，Star为评论的评级，fs为情感极性。

所述字符特征即评论文本长度；

根据所述评论的语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特点提取该评论语性特征、词汇特征、情感评分一致性、情感强度和情感词汇特征和字符特征的特征值，并对该特征值进行归一化处理，使其在区间[-1.0,1.0] 内，所述归一化处理方法采用公式（8），

其中，y_i为标准化后特征值，x_i为未标准化特征值，i为当前数，z为该特征的特征值总个数，n为变量系数。

所述评论外部信息特征包括：评分异常特征、数量异常特征和内容异常特征；

其中:

评分异常特征包括：

文本评分偏差，指该评分与该目标对象的平均评分的偏差；

评论者评分偏差，指该评论与评论者的平均评分的偏差；

所述文本评分偏差特征提取方法见公式（5）：

式中，

为文本评分偏差特征值，

为该评论的评分等级，

为该目标商品所有评分等级的平均值，

为评级系统最大可能偏差，若评论数据来源的评级系统为五星，则最大的评级偏差为4。

极端评分，1星或5星评价；

数据异常特征指标包括：评论者日最大评论数、总评论数和评论频繁度；所述评论频繁度特征；

一天内提交大量的评论是一种反常行为，通过统计用户日发布评论数与历史日最大发文量比值作为评论数量异常参数，能够获取虚假评论发布者的异常行为特征。所述数据异常特征中的评论频繁度的提取方法见公式（6）：

表示评论频繁度，

为用户日评论数量，a表示用户日评论数，A表示所有历史日中用户评论的集合。

内容异常特征，指文本与该目标对象的所有文本相似度最大值。

所述文本相似度提取方式为：先把两条评论用Doc2Vec表征为80维的段落向量

，文本相似度计算见公式（4）：

式中，

表示文本相似度特征值，

为待测评论，即某一商品的评论，

为目标文本库

中的评论（目标文本库为该商品的所有评论），遍历目标库，求得最大值

作为文本相似度特征值。

根据所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特点分别提取所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值，并对所述文本评分偏差、评论者评分偏差、极端评分、评论者日最大评论数、总评论数、评论频繁度和内容异常特征的特征值进行归一化处理，使其在区间[-1.0,1.0] 内，所述归一化处理的方法见公式（8）：

输出虚假评论识别结果。

所述根据评论文本内容特征和评论者行为特征进行虚假评论识别，包括：通过预设的虚假评论识别模型根据评论文本内容特征和评论者行为特征进行虚假评论识别。

参考图2，所述虚假评论识别模型的建立方法包括：

S11：首先设定一个阈值，将评论数据分为已标注数据集L和未标注数据集U；

，基于评论外部信息视图的已标注数据集

;

S13：从未标注数据集

中随机产生u个评论样本，生成候选样本集

；

S14：使用已标注数据集

、

分别训练分类器

、

；

S15：使用

对

；

S16：使用

对

；

S17：将以上2（p+n）条评论从U中移除；

S18：从U中随机产生2（p+n）条新的候选评论对

进行补充；

其中一个实施例中，所述分类器采用的分类算法包括：随机森林、逻辑回归、线性判别、K近邻、决策树、支持向量机或朴素贝叶斯分类模型。

下面结合具体实验例对本发明进一步描述

实验例：

（一）数据来源：

本发明从yelp点评网站获取原始实验数据集，所述原始实验数据集包括用户ID、评论总数、评论内容、评论等级、评论时间等多个字段，共 5854 条评论文本。并借助yelp点评网站的虚假评论过滤系统进行虚假评论的标注，得到实验数据集如表1所示。

表2实验数据集

数据类型	评论数	用户数
			真实评论	5076	4231
虚假评论	778	743
			评论总数	5854	4974

（二）实验平台

本申请所用算法采用服务器运行环境为Win64位；处理器Intel（R）Core（TM）i5-5200UCPU @2.20GHz 2.20GHz；运行内存8G；Python3.7.0版本；gensim3.8.0版本；scikit-learn0.20.1版本；文本段落向量训练采用Doc2vec工具；采用NLTK工具对文本分词和词性标注。

（三）实验过程及结果分析

通过实施例中的算法对数值数据进行特征提取，情感强度特征用公式（2）提取，算法设计由表1所示，本文所用情感词典为SenticNet 5提供，数据经过筛选和处理之后，包含积极情感词及情感词强度55311个，消极情感词及情感强度44589个，每个情感词情感强度区间在[0,1]，例如积极情感词acclaimed的情感强度为0.91，而消极情感词abbreviate的情感强度只有0.046，几乎为中性词。所用程度副词词典为sentiment数据集中的程度级别词语英文版，其中程度副词178个，分为6个级别，分别为“极其”、“很”、“较”、“稍”、“欠”、“超”，例如“extreme”为“极其”级别，“fairly”为“稍”级别。

文本句子向量化表示通过Doc2Vec语言模型进行提取，设置提取维度，通过迭代训练，选取最佳参数和维度。词性特征提取借助NLTK语言模型包，并采用上述算法提取特征值。由于特征有正有负，所以选择标准化方法时，要考虑不改变正负的归一化方法。提取特征后，数据的缩放比例为绝对值最大值，并保留正负号，即在区间 [-1.0,1.0] 内，如公式（8）：

用公式（2）和公式（3）的算法对上述评论文本的情感一致性特征进行提取分析，结果见图3：

从图3可以看出，大量的虚假评论存在于极端评分中，1星评分中有存在明显的高情感值的虚假评论，原因可能是评论者为了提高刷单效率，复制了其他评论的内容，而评分评论者为了降低商品的总体评分来误导消费者。在5星评论中这种情况存在也很严重，从情感角度分析来看，虚假评论情感值存在区间主要在 [-10,35]，真实评论情感值存在区间是[-20,80]，由此看出，真实评论情感和虚假评论会出现一致的情况，因此不能把情感当作唯一指标。

表3为语言模型参数数值表

表3 Doc2Vec语言模型参数数值表

Doc2Vec模型参数	数值
		最小数min_count	1
窗口Window	5
		样本Sampl	1e-3
负值Negative	5
		进程workers	4
遍历次数Epoch	70

测试Doc2Vec语言模型维数对分类效果的影响，针对不同维数来进行分类实验，结果如图4所示：

从图4可以看出，RF、SVM、LR、LDA的准确率相对较高，在一定范围内，随着文本向量维度的增加，交叉验证准确率也随之增加，SVM、LDA、LR在80维时取得最大值，RF在90维时取得最大值。此外，由于此前的研究都是基于N-garm语言模型的one-hot编码，向量维数由单词数来决定，维数过高，造成维数灾难和梯度消失，Doc2Vec语言模型为神经网络模型，把文本映射到高维向量空间，能够很好的表示文本内容信息。为了减小分类模型的时间和资源成本，这里选择80维作为以下实验文本表示维度。

本申请分别测试了随机森林（RF）、逻辑回归（LR）、线性判别（LDA）、K近邻（KNN）、决策树（DT）、支持向量机（SVM）、朴素贝叶斯（NB）等七种常见的分类模型在两个视图上的交叉验证准确率分类性能，以形成协同训练的基分类器集，为保证实验结果的稳定性，采用十折交叉验证。结果如表3、表4和图5、图6所示：

表4 文本特征各分类器十折交叉每次结果

表5 外部信息特征各分类器十折交叉每次结果

由表4和表5、图 5和图6 可知，SVM与RF的整体表现性能要优于其他分类模型，仅从评论内容视图特征来看，SVM取得最高的整体分类准确率，其次是RF和LR，而在评论者行为视图特征上，RF的表现性能与DT相当，前者的总体准确率略高于后者。因此实验中选择 SVM与RF作为组合中的两个基分类器。

分别测试未标记数据注入比例系数对上述基分类器分类性能，实验分析迭代增加样本量对分类性能的影响，以设置协同训练决策规则比例系数阈值，结果如图7所示：

由图7所示，随着比例系数以及样本量的增加，准确率也随之增加，比例系数为0.8时效果最好；由于样本的增加，对分类器的训练效果也逐渐增强，但是样本数量过多时，可能造成过拟合现象，导致分类效果减弱，从多方面考虑选择0.8为比例系数。

调整特征与所选分类器的组合，设置协同训练决策规则以及参数，进行协同训练，结果如表6所示，其中C1表示评论内容特征视图上的分类器，C2表示行为特征视图上的分类器；由表 6 可知，组合1取得最好的分类结果，该结果与第一步实验结论吻合。

表6 不同分类器组合识别效果

设置对照组进行实验，证明本文方法的有效性，其中包括：

Supervised：少量样本的有标签数据的监督学习，该文采用分类效果较好的SVM、DT和RF分类器，比较三个分类器效果，选择分类效果最好的RF分类器作为对照组；

Semi-supervised：一种半监督学习，基于单分类器进行强化学习，分类器选择RF；

Co-training：标准的协同训练算法，采用不做任何处理的原始特征集作为输入进行模型训练；

Co-training（multi-feature fusion）：本申请提出的方法，原始特征加入文本表示特征和情感特征，通过滚动式更新样本集来训练分类器。实验结果如表6。

表7 不同模型识别效果对比

由表7可以看出，本文提出的方法取得了不错的效果，其准确率和召回率均高于其他几组对照组，证明了该方法在虚假评论识别任务中的可行性和有效性。第二对照组中召回率比准确率高很多，说明模型存在较高的“误判率”，即将部分正常评论标记为虚假评论，而本文所提方法，取得了较好的识别效果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、同替换、改进，均应包含在本发明的保护范围之内。

Claims

1.一种基于滚动式协同训练的虚假评论识别方法，其特征在于，包括：

获取评论文本，根据所述评论文本确定评论文本内容特征；

输出虚假评论识别结果。

2.根据权利要求1所述的基于滚动式协同训练的虚假评论识别方法，其特征在于，所述评论文本内容特征包括：语性特征、词汇特征、情感特征和字符特征；

其中：

语性特征即段落向量，指文本深层次语义表示；

词汇特征即词性频率，指文本中各词性词数与总词数比值；

字符特征即评论文本长度；

3.根据权利要求2所述的基于滚动式协同训练的虚假评论识别方法，其特征在于，所述词性特征的提取方法见公式（1）：

式中，

表示形容词个数，

表示副词个数，

为表示评论的总词数。

4.根据权利要求2所述的基于滚动式协同训练的虚假评论识别方法，其特征在于，所述情感强度特征的提取方式为：

式中，

表示情感词的极性，情感积极时值为1，相反为-1，

表示程度副词的权值，

表示每个情感词前的否定词数量，无否定词

为0，若有奇数个否定词则

值为-1，偶数个否定词

值为1。

5.根据权利要求1所述的基于滚动式协同训练的虚假评论识别方法，其特征在于，所述评论者行为特征包括：评分异常特征、数量异常特征和内容异常特征；

其中:

评分异常特征包括：

文本评分偏差，指该评分与该目标对象的平均评分的偏差；

评论者评分偏差，指该评论与评论者的平均评分的偏差；

极端评分，1星或5星评价；

6.根据权利要求5所述的基于滚动式协同训练的虚假评论识别方法，其特征在于，所述内容异常特征中文本相似度的提取方式为：先把两条评论用Doc2Vec表征为80维的段落向量

，文本相似度计算见公式（4）：

式中，

表示文本相似度特征值，

为待测评论，

为目标文本库

中的评论，遍历目标库，求得最大值

作为文本相似度特征值。

7.根据权利要求5所述的基于滚动式协同训练的虚假评论识别方法，其特征在于，所述评分异常特征中的文本评分偏差特征提取方法见公式（5）：

式中，

为文本评分偏差特征值，

为该评论的评分等级，

为该目标商品所有评分等级的平均值，

为评级系统最大可能偏差。

8.根据权利要求1所述的基于滚动式协同训练的虚假评论识别方法，其特征在于，

9.根据权利要求8所述的基于滚动式协同训练的虚假评论识别方法，其特征在于，所述虚假评论识别模型的建立方法包括：

，基于评论外部信息视图的已标注数据集

;

S13：从未标注数据集

中随机产生u个评论样本，生成候选样本集

；

S14：使用已标注数据集

、

分别训练分类器

、

；

S15：使用

对

；

S16：使用

对

；

S17：将以上2（p+n）条评论从U中移除；

S18：从U中随机产生2（p+n）条新的候选评论对

进行补充；

10.根据权利要求9所述的基于滚动式协同训练的虚假评论识别方法，其特征在于，所述分类器采用的分类算法包括：随机森林、逻辑回归、线性判别、K近邻、决策树、支持向量机或朴素贝叶斯分类模型。