CN110941953A

CN110941953A - 一种兼顾可解释性的网络虚假评论的自动识别方法及系统

Info

Publication number: CN110941953A
Application number: CN201911173946.7A
Authority: CN
Inventors: 王伟军; 黄英辉; 刘辉
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-03-31
Anticipated expiration: 2039-11-26
Also published as: CN110941953B

Abstract

本发明属于网络评论信息处理技术领域，公开了一种兼顾可解释性的网络虚假评论的自动识别方法及系统，构建网络虚假评论撰写人的语言使用行为和心理分析框架，构建中文网络评论语言线索指标体系；结合文本分布式表示构建虚假评论文本特征集；构建虚假评论分类器，判定网络评论的真假；量化评价不同解释性指标的重要性，获得维度均值具有显著区别的真实和虚假评论线索；根据候选网络评论在可解释性语言线索维度上的值，与所得到的解释性特征的均值进行比较，给出虚假评论自动识别方法判定结果的解释。本发明实现了对虚假网络评论的准确、自动识别和易于接受的、稳定可靠的解释，提升现有网络虚假评论自动分类方法的准确性和可解释性。

Description

一种兼顾可解释性的网络虚假评论的自动识别方法及系统

技术领域

本发明属于网络评论信息处理技术领域，尤其涉及一种兼顾可解释性的网络虚假评论的自动识别方法及系统。

背景技术

目前，业内常用的现有技术是这样的：早期的虚假评论标准中强调了用户评分与主流评分之间的差异，对用户数据规模要求较高，其结果往往过于粗糙。近年来，一些研究者将评论可信度问题转化为区分虚假和真实评论二元机器学习分类任务。其中，相关研究普遍采用了监督和半监督机器学习方法，并依赖于用户行为和评分的统计规律特征。然而，相关模型中所构建的分类器大多针对流行的项目和成熟的用户。而在现实情况下，大量新项目、新用户，其历史和活动的关联元数据经常不可获取。针对这一问题，相关工作聚焦于对用户评论的文本特征进行分析。从计算语言学视角上，相关研究可以大致分为基于语法分析、语义分析和基于文体元数据分析这三大类。

基于语法分析的虚假评论自动识别研究主要提取文本中的词袋、词性特征构建机器学习分类预测模型。具体而言，词袋特征多利用文本中词汇特征进行表示，如英文中的单词(unigram)、双词(bigram)和三词(trigram)等，或者在此基础上对其词袋特征的词频进行统计分析。

基于语义分析的虚假评论自动识别研究侧重于语义表征、语义相似和情感分布等文本语义层面信息的抽取和表示。相关方法有情感分析、语义表示学习、语义相似性计算等。

文体和元数据结合的虚假评论自动识别方法主要致力于挖掘评论的语言风格及评论撰写者的书写习惯。文体特征主要包含词汇和句法特征。词汇特征如大写字母、数字和第一人称的个数、评论的平均长度、短单词的比例等；句法特征如标点符号、功能词等的数量。

总体而言，在中文网络虚假评论情境中，现有技术存在的问题是：(1)如何将句法、语义以及文体元等文本特征进行整合以实现更优的分类准确率，实现更优的分类准确率仍是一大挑战。

(2)如何从一个统一的认知框架解释虚假评论撰写者的内在动机和词汇使用行为，导致相关预测方法缺乏解释性，无法给出真实与虚假在线评论的判定理由。

(3)使用深度神经网络增强虚假评论的自动识别方法具有三个方面的潜在优势。首先，深度神经网络使用稠密、庞大的隐藏层节点实现自动特征组合，可以捕获复杂文本的全局语义信息；而这些信息很难被传统虚假评论识别中的离散人工特征所表征。第二，深度神经网络以分布式嵌入词作为训练模型的输入，因而可以从大规模的在线评论文本中进行训练，从而在一定程度上减轻了所标注数据的稀疏性。但是，在虚假评论自动识别技术中，新兴神经网络表示学习技术能否和以上语言线索中的句法、语义和文体特征进行融合，以增强自动分类方法的性能仍不得而知。

要兼顾虚假网络评论自动识别的解释性和准确性，就必须深入挖掘评论文本背后的评论人的心理特点。但是，一方面，现有方法还没有提出有哪些心理特征能有效解释真实与在线虚假评论撰写人的心理过程。进一步，如何能够将网络评论中的语言线索与评论人心理特点进行映射仍不得而知。另一方面，要满足网络虚假评论自动识别的准确性和可解释性，包含可解释性维度的语言线索就必须与文本分布式表征特征进行有机整合。而现有的自动分类方法缺乏对这一整合过程的实现思路、操作步骤和方法实现。

综上所述，现有技术存在的问题是：(1)现有技术未有一个统一的认知框架解释虚假评论撰写者的内在动机和词汇使用行为，导致相关预测方法缺乏解释性，无法给出真实与虚假在线评论的判定理由。

(2)现有方法还未能解决上述语言线索中的句法、语义和文体特征等人工特征与深度神经网络的自动特征进行融合，无法进一步增强自动虚假评论分类方法的性能。

(3)现有无法解决网络评论中的语言线索与评论人心理特点的映射问题。

(4)现有的自动分类方法缺乏对句法、语义和神经网络特征的整合过程的实现思路、操作步骤和方法实现。

解决上述技术问题的难度：(1)异构数据的深度提取和有效整合。如何全面对非结构的文本中所蕴藏的信息进行全面抽取，如何实现人工特征与自动构建的分布式特征的有机整合。这些技术问题目前尚无解决之法，客观上存在技术创新难度。

(2)网络虚假评论人行为和心理的建模。为了从行为的广度和心理的深度上实现虚假评论的识别和解释，就必须对评论文本背后的认知心理机制进行深入、系统地建模。目前虚假评论识别相关技术尚无针对这一问题的解决方案，具有极大地技术创新难度。

解决上述技术问题的意义：本发明实现了对虚假网络评论的准确、自动识别和易于接受的、稳定可靠的解释，提升现有网络虚假评论自动分类方法的准确性和可解释性；为用户网络评论反馈的过滤、分析和应用提供基础性的方法支撑，为维护网络社区电子口碑的生态提供了技术保障。

发明内容

针对现有技术存在的问题，本发明提供了一种兼顾可解释性的网络虚假评论的自动识别方法及系统。

本发明是这样实现的，一种兼顾可解释性的网络虚假评论的自动识别方法，所述兼顾可解释性的网络虚假评论的自动识别方法具体包括：

步骤一，根据想象和真实体验的不同，撰写虚假评论数据收集指导问卷，获取虚假评论数据，结合真实评论数据，形成数据集；

步骤二，利用谎言识别相关的语言线索框架，构建网络虚假评论撰写人的语言使用行为和心理分析框架，构建可操作的包含认知负荷、确信度、情感、感知情境细节、认知过程和洞察词汇六大类解释性的系列指标的中文网络评论语言线索指标体系；

步骤三，利用表示学习方法，获得真实与虚假网络评论在文档层次的全局性表征，构建虚假评论文本特征模型；

步骤四，整合以上分散于各个语言线索指标体系中的词法、语义、文体元，以及文本全局性表征，基于支持向量机、逻辑回归、随机森林等分类器构建虚假评论自动识别模型；

步骤五，计算真实和虚假评论在所提出的可解释性语言线索维度上的值，通过显著性分析，获得具有显著区别的真实和虚假评论线索特征均值；

步骤六，判定网络评论的真假，根据候选网络评论在可解释性语言线索维度上的值，与步骤五得到的特征均值进行比较，判断其维度值表现，给出虚假评论自动识别模型判定结果的解释。

进一步，所述虚假评论数据集获取方法具体包括：

所述虚假评论数据集包括真实评论数据和虚假评论数据；

真实评论数据包括在大众点评上的消费凭证以及发布的最近三个月内消费过的营业场所的真实评论数据；所述营业场所的每一条真实评论数据均包含评级得分及评论文本；

虚假评论数据，在确认没有在指定营业场所消费过的前提下，按照虚假评论收集指南的要求其撰写这些机构的虚假评论。

进一步，步骤二中，所述网络虚假评论撰写人的语言使用行为和心理分析框架具体包括：

所述网络虚假评论撰写人的语言使用行为和心理分析框架为包含认知负荷、负面情感、心理距离、感知觉、认知过程、确定性六个方面认知心理学和社会心理学的理论框架。

进一步，步骤二中，所述中文网络评论语言线索指标体系具体包括：

所述中文网络评论语言线索指标体系包含认知负荷、确信度、情感、感知情境细节、认知过程和洞察词汇六大类解释性的系列指标；

其中：

认知负荷是指虚假评论中个体工作记忆资源的使用量；

确信度用于反映说谎者与其陈述内容之间的距离；

情感包含说谎行为会导致的特定的负面、正面情绪和一些非指定情感相关的语言线索；

感知情境细节用于挖掘经验丰富的事件在一个复杂的包含更多的感知细节、情境和语义信息信息网络中的相关语言线索；

认知过程和洞察词汇包含真实与谎言相关陈述事件的个体内在心理和洞察过程的相关语言线索。

进一步，步骤三构建虚假评论文本特征模型方法包括：

使用分布式语言表征技术Skip-Gram模型，在海量网络评论数据基础上，训练网络评论的文档表示；将文档表示作为识别虚假评论的输入，结合文本的句法、语义和文体元等构成整合的虚假评论文本特征模型。

进一步，步骤四构建虚假评论自动识别模型方法具体包括：

构建网络评论的TF-IDF词项权重向量，并利用主成分分析进行特征降维；结合文档表示、获取到的语言线索以及TF-IDF权重向量，使用了支持向量机进行真实、虚假评论的自动分类；同时使用逻辑回归、神经网络和决策树作为基准文本分类器，并将词袋模型和现有传统语言线索模型作为基准特征模型；使用标准的信息检索指标，包括准确性、召回率、F1值，量化评估分类器总体及分别在虚假、真实评论识别中的性能；采用十折交叉验证技术来评估模型结果对于测试数据的独立性，构建虚假评论自动识别模型。

进一步，步骤五获得具显著区别的真实和虚假评论线索特征均值具体包括：

步骤五，采用六大类解释性的指标作为特征集，构建相应的虚假评论识别模型，并评估该解释性特征集的预测性能。进一步，利用显著性检验方法，分析不同的可解释性维度在虚假评论识别中的作用。通过显著性分析比较真实和虚假评论在所提出的可解释性语言线索上的维度均值，获得具显著区别的真实和虚假评论线索及相应的维度均值。

进一步，步骤六，提出虚假评论判定结果的理由具体包括：

步骤六，根据六大解释性指标在虚假评论识别模型中的作用显著与否，以及真实与虚假评论这六大指标维度均值上的显著性差异，对本方法的判定结果在解释性维度上进行理解、解释和其可视化展示。

本发明另一目的在于提供一种兼顾可解释性的网络虚假评论的自动识别系统，包括：

虚假评论识别数据集获取模块，用于根据想象和真实体验的不同，撰写虚假评论数据收集指导问卷，获取虚假评论识别数据集；

心理线索指标体系及相应的文本特征集构建，利用谎言识别相关的语言线索框架，构建网络虚假评论撰写人的语言使用行为和心理分析框架，构建可操作的包含认知负荷、确信度、情感、感知情境细节、认知过程和洞察词汇六大类解释性的系列指标的中文网络评论语言线索指标体系；

虚假评论文本整合特征模型构建模块，利用表示学习方法，获得真实与虚假网络评论在文档层次的全局性表征，构建虚假评论文本特征模型；

虚假评论自动识别模型构建模块，用于整合分散于各个语言线索指标体系和文本全局性表征中的词法、语义、文体元，以及分布式词表示特征，基于支持向量机、逻辑回归、随机森林等分类器构建虚假评论自动分类模型及相应的基准模型；

真实和虚假评论线索特征显著性及均值获取模块，用于计算真实和虚假评论在所提出的可解释性语言线索维度上的均值，通过显著性分析，获得具有显著区别的真实和虚假评论线索及其特征均值；

判定结果解释判模块，用于判定网络评论的真假，根据候选网络评论在可解释性语言线索维度上的值，与步骤五得到的特征均值进行比较，判断其维度值表现，给出虚假评论自动识别模型判定结果的解释。

综上所述，本发明的优点及积极效果为：本发明实现了对虚假网络评论的准确、自动识别和可靠解释，提升现有网络虚假评论自动分类方法的准确性和可解释性。具体而言，本发明构建了六大解释性文本线索体系，综合了语法、语义、文体元等人工和分布式表征等文本特征，提升了现有基于文本特征的虚假评论识别方法，到达了89.3％的分类准确率(见表1)。并发现仅仅基于所提出了六大解释性文本特征维度的虚假评论识别模型能达到65.29％的分类准确率(见表3)，证明所提解释性系列指标同时也具有虚假评论预测效力。本发明也发现进一步发现了认知负荷、情感、认知情境细节和认知过程四个解释性指标具有显著的预测效力(见表3)，计算了能够显著区分真实与虚假评论的解释性心理指标维度均值(见表4)，进而据此提出虚假评论判别理由。

本发明构建网络评论的TF-IDF词项权重向量，并利用主成分分析进行特征降维，减少特征维度及分类器训练时间。

部分实验结果如表1所示，其中“senti&linguistic&meta&emb”为本发明所提出的语言线索、TF-IDF词项特征和分布式词表示特征的整合特征，“Ott(2012,2014)”为词袋特征。从表1中可以看出，本发明所提出的语言线索能够与以往学者所提出的特征能够形成很好地增量预测效果，取得了最优的综合预测准确率(0.893)和F值(0.886和0.899)。

表1本发明实施例不同特征模型及分类算法下的虚假评论自动识别性能表

本发明计算了不同分类器的相关评价指标均值，如表2所示。综合来看，首先逻辑回归在整体指标准确率和AUC值上均取得了最优的效果。其次，在对虚假评论的分类上，对比逻辑回归，SVM在召回率和F值上的取得了优势。总体而言，所选择的分类器中，逻辑回归和SVM算法在本数据上性能差异不大，逻辑回归效果略好。

表2本发明实施例提供的基于不同分类算法的虚假评论自动预测模型的性能评价指标均值

本发明基于逻辑回归，探索了所构建的可解释性的虚假评论识别语言线索体系的作用。相关分类预测评价指标结果如表3所示(仅包含三个及以上的维度组合)。其中特征要素一栏中，d1为所有的认知负荷特征，d2包含两种确信度特征，d3包含11种情感特征，d4包含8种心理距离特征，d5包含认知情境细节特征，d6则包含两种认知过程特征。而Accuracy、P_FR、R_FR、F_FR、P_RR、R_RR、F_RR、AOC分别为预测准确率、虚假评论准确率、虚假评论召回率、虚假评论F值、真实评论的精确率、真实评论的召回率、真实评论的F值以及接收者操作特征曲线下方面积(Area under the Curve of ROC，AUC)。整体来看，认知负荷、情感、认知情境细节和认知过程四个特征组合在准确率、AUC值以及虚假评论的精确率上取得了最佳预测效果(0.6529)。所有的真实监控线索的组合在真实评论的预测准确率和F值上取得了最佳效果。而认知负荷、心理距离、认知情境细节特征和认知过程在虚假评论分类的F值和真实评论的准确率上取得了最优效果，认知负荷、心理距离和认知过程在虚假评论识别的F值上取得了最佳效果。因此，本发明专利所提出的解释性语言线索具有显著的虚假评论自动识别效力。

表3本发明实施例提供的基于不同真实监控维度组合的虚假评论自动分类预测性能表

本发明获得了能显著区别真实评论和虚假评论的语言线索的维度均值，其中具有显著性区别的相关维度比较结果如表4所示(t检验中的p值<＝0.05)。

表4本发明实施例提供的预测模型中差异显著的不同真实监控理论维度值均值比较

总体而言，本发明在网络场景中，提出了一个具备可解释性的虚假评论心理线索指标体系，并有效地结合了语法、语义、文体元数据和全局性文档表示等多种文本特征，提出了准确性与解释性兼备的虚假评论自动识别方法。

附图说明

图1是本发明实施例提供的兼顾可解释性的网络虚假评论的自动识别方法流程图。

图2是本发明实施例提供的实验数据样例图

图3是本发明实施例提供的虚假评论自动识别方法原理图。

图4是本发明实施例提供的虚假评论收集指导图。

图5是本发明实施例提供的真实与虚假评论可解释性维度均值比较图。

图6是本发明实施例提供的虚假评论自动识别方法判定解释理由图。

图7是本发明实施例提供的兼顾可解释性的网络虚假评论的自动识别系统图。

图中：1、虚假评论识别数据集获取模块；2、心理线索指标体系及相应的文本特征集构建；3、虚假评论文本整合特征模型构建模块；4、虚假评论自动识别模型构建模块；5、真实和虚假评论线索特征显著性及均值获取模块；6、判定结果解释判模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术没有将句法、语义以及文体元等人工文本特征与分布式词表示的自动特征进行整合，缺乏对句法、语义和神经网络特征的整合过程的实现思路、操作步骤和方法实现，虚假评论识别准确率有待提升。现有技术未有一个统一的认知框架解释虚假评论撰写者的内在动机和词汇使用行为，导致相关预测方法缺乏解释性，无法给出真实与虚假在线评论的判定理由。现有无法解决网络评论中的语言线索与评论人心理特点的映射问题。

为解决上述问题，下面结合附图对本发明作详细说明。

如图1和图3所示，本发明实施例提供的兼顾可解释性的网络虚假评论的自动识别方法具体包括：

S101，根据想象和真实体验的不同，撰写虚假评论数据收集指导问卷，选取合适的被试，获取虚假评论自动识别数据。

S102，利用谎言识别相关的语言线索框架，构建网络虚假评论撰写人的语言使用行为和心理分析框架，构建可操作的包含认知负荷、确信度、情感、感知情境细节、认知过程和洞察词汇六大类解释性的系列指标的心理线索指标体系。

S103，利用表示学习方法，获得真实与虚假网络评论在文档层次的全局性表征，构建虚假评论文本特征模型。

S104，整合以上分散于各个语言线索指标体系中的词法、语义、文体元，以及文本全局性表征，进行特征抽取、降维等预处理工作，形成文本特征集，基于支持向量机、逻辑回归、随机森林等分类器构建虚假评论自动识别模型。

S105，利用六大解释性指标构建虚假评论识别模型，通过统计学方法获得解释性维度的重要性和预测显著性。计算真实和虚假评论在所提出的可解释性语言线索维度上的值，通过显著性分析，获得具显著区别的真实和虚假评论线索特征均值。

S106，判定网络评论的真假，根据候选评论在可解释性语言线索维度上的值，对其步骤五得到的特征均值之间的差异进行比较、研判，给出虚假评论自动识别模型判定结果的直观解释。

图3是本发明实施例提供的虚假评论自动识别方法原理。

本发明虚假评论数据集包括真实评论数据和虚假评论数据。

步骤S101中，真实评论数据包括被招募的评论人在大众点评上的消费凭证及其发布的最近三个月内消费过的营业场所的真实评论数据；所述营业场所的每一条真实评论数据均包含评级得分及评论文本。

而虚假评论数据，在确认没有在指定营业场所消费过的前提下，被招募的评论人按照虚假评论收集指南的要求其撰写这些机构的虚假评论。

步骤S102中，本发明实施例提供的网络虚假评论撰写人的语言使用行为和心理分析框架具体包括：

步骤S102中，本发明实施例提供的中文网络评论语言线索指标体系具体包括：

所述中文网络评论语言线索指标体系包含认知负荷、确信度、情感、感知情境细节、认知过程和洞察词汇六大类解释性的系列文本指标。

其中：

认知负荷是指虚假评论中个体工作记忆资源的使用量。

确信度用于反映说谎者与其陈述内容之间的距离。

情感包含说谎行为会导致的特定的负面、正面情绪和一些非指定情感相关的语言线索。

感知情境细节用于挖掘经验丰富的事件在一个复杂的包含更多的感知细节、情境和语义信息信息网络中相关语言线索。

认知过程和洞察词汇包含真实与谎言相关陈述事件的个体内在心理过程和洞察词汇相关语言线索。

步骤S103中，本发明实施例提供的构建虚假评论文本特征模型构建方法包括：

使用分布式语言表征技术Skip-Gram模型，在海量网络评论数据基础上，训练网络评论的文档表示；将文档表示作为识别虚假评论的输入，结合文本的句法、语义和文体元等构成整合的虚假评论文本特征集。

步骤S104中，本发明实施例提供的虚假评论自动识别方法具体包括：

构建网络评论的TF-IDF词项权重向量，并利用主成分分析进行特征降维。结合文档表示、获取到的语言线索以及TF-IDF权重向量，使用了支持向量机进行真实、虚假评论的自动分类；同时使用逻辑回归、神经网络和决策树等作为基准文本分类器，并将词袋模型和现有传统语言线索模型作为基准；使用标准的信息检索指标，包括准确性、召回率、F1值，量化评估分类器总体及对虚假、真实评论识别的性能；采用十折交叉验证技术来评估模型结果对于测试数据的独立性，构建虚假评论自动识别分类器。

步骤S105中，本发明实施例提供的虚假评论识别中的可解释性维度的显著性，及相应的真实与虚假评论维度均值方法包括：

使用逻辑回归方法，基于六个解释性指标及其组合，构建虚假评论识别模型；采用显著性分析统计方法，获得不同解释性指标在虚假评论识别中的显著性和差异。通过t检验方法，比较真实和虚假评论在所提出的可解释性语言线索维度上的维度值差异及其显著性。

步骤六，进一步，在判定了网络评论的真假之后，根据候选网络评论在可解释性语言线索维度上的值，结合上述真实与虚假评论特征均值，比较、研判其维度值表现，给出虚假评论自动识别方法判定结果的直观解释，并进行可视化展示。

下面结合具体实施例对本发明技术方案与技术效果做进一步说明。

实施例1：

本发明实施例提供的虚假评论自动识别方法包括：

步骤一，首先根据想象和真实体验的不同，撰写虚假评论数据收集指导问卷，获取一手的虚假评论自动识别数据集。

步骤二，利用谎言识别相关的语言线索框架，构建网络虚假评论撰写人的语言使用行为和心理分析框架，构建可操作的中文网络评论语言线索指标体系，其中包含认知负荷、确信度、情感、感知情境细节和认知操作六大类解释性的指标。

步骤三，利用表示学习方法，获得真实与虚假网络评论在文档层次的全局性表征。

步骤四，整合以上分散于各个语言线索指标体系中的词法、语义、文体元，以及文本全局性表征，基于支持向量机、逻辑回归、随机森林等分类器提出虚假评论自动识别方法，并验证所提方法可靠性和有效性。

步骤一具体包括实验数据的收集原则和方法。

对于真实评论，本发明要求评论撰写人提供其在大众点评上的消费凭证，并且发布的最近三个月内消费过的营业场所的真实评论数据。每一条均包含评级得分及评论文本。对于虚假评论，本发明首先确认被试没有在指定营业场所消费过，按照虚假评论收集指南的要求其撰写这些机构的虚假评论。虚假评论收集指南如图4所示。

步骤二进一步包括：

1)基于真实监控理论的可操作性语言分析框架

从传统的谎言识别理论真实监控理论出发，提出一个包含认知负荷、负面情感、心理距离、感知觉、认知过程、确定性等六个方面认知心理学和社会心理学的理论框架。其中，认知负荷是指虚假评论中个体工作记忆资源的使用量。本发明提出了具体认知负荷的操作定义如表5所示。

表5认知负荷相关语言线索

说谎者与其陈述内容之间的距离可能反映在语言的确信度上。因此，本发明提出了具体确信度的操作定义如表6所示。

表6确信度相关语言线索

说谎行为会导致特定的负面、正面情绪和一些非指定情感相关的语言线索。因此，本发明提出了具体情绪和情感相关语言线索如表7所示。

表7情感相关语言线索

2)与想象中的虚构事件相比，经验丰富的事件会被嵌入到一个复杂的通常包含更多的感知细节、情境和语义信息信息网络中。因此，本发明提出了感知和情境细节、认知过程相关语言线索。

表8感知和情境细节相关语言线索

真实与谎言相关陈述事件的个体内在心理过程(诸如推理等认知操作)也有显著差异。因此，本发明提出了认知过程(原因、应该)和洞察词汇(思考、知道、考虑)。

表9认知过程相关语言线索

步骤三包括：使用分布式语言表征技术Skip-Gram模型，在海量网络评论数据基础上，训练网络评论的文档表示。将文档表示作为识别虚假评论的输入，结合文本的句法、语义和文体元等构成整合的虚假评论文本特征模型。

步骤四包括：构建网络评论的TF-IDF词项权重向量，并利用主成分分析进行特征降维，以减少其特征维度及分类器训练时间。结合文档表示、步骤二中的语言线索以及TF-IDF权重向量，本专利使用了支持向量机(SVM)进行了真实、虚假评论的自动分类。并且也使用了逻辑回归(LR)、神经网络(NN)和决策树(DT)等作为基准文本分类器，同样也将词袋模型和传统语言线索模型作为基准特征集。本发明使用标准的信息检索指标，包括准确性、召回率、F1值，量化评估分类器总体及对虚假、真实评论识别的性能。采用十折交叉验证技术来评估模型结果对于测试数据的独立性。

步骤五包括计算真实和虚假评论在所提出的可解释性语言线索维度上的值，通过t检验显著性分析，获得具显著区别的真实和虚假评论线索特征均值。进一步，在所提方法判定了网络评论的真假之后，根据候选网络评论在可解释性语言线索维度上的值，与上述特征均值进行比较，获得其维度值表现，给出虚假评论自动识别方法判定结果的直观解释，并提供可视化的描述。

实施例2：

数据处理过程分为以下步骤。

(1)对于真实评论，本发明要求被试提供其在大众点评上的消费凭证，并且发布的最近三个月内消费过的餐厅或者休闲娱乐中心的真实评论数据。每一条均包含评级得分及评论文本。对于虚假评论，本发明首先确认被试没有在指定的6家餐馆和6家休闲娱乐中心消费过，按照要求其撰写这些机构的虚假评论。最终，所收集的在线评论的类别统计数据如下表10。具体的虚假评论撰写指导如图4所示：

表10真实评论和虚假评论统计数据

(2)对于评论中的文本内容，本发明进行了文本的分句分词、词性标注、命名实体识别、依存句法关系、语义角色类型等任务。标点符号、数字和特殊符号(如emoji表情符号)在分词后被删除。情感词汇及其分类来源于大连理工大学开放的情感词汇本体库。本发明采用了Word2Vec工具，计算获得评论的全局性分布式表征。训练的语料采用了大众点评评论数据集。

(3)为了系统地评估所提出的方法的有效性，本发明对实验结果进行了全面的分析。使用了支持向量机(SVM)、感知机(MLP)、随机森林(Random Forest)、逻辑回归(LR)、朴素贝叶斯、J48决策树六种分类器来预测大众点评虚假用户评论。根据以上语言线索及其操作定义，本发明将从所获取的数据集种提取输入的特征变量，包含认知负荷、确信度、情感、心理距离、认知情境特征和认知过程特征，共计6大类。其中语法类(“linguistic”)包括认知过程、确信度、认知和情境细节，情感特征(“senti”)包括正、负面情感词词频、泛指情感词词频以及情感的两面性、情感与评分的不一致性和情感极性。其中，情感的两面性为正面情感得分、负面情感得分的之间差值的绝对值，情感与评分的不一致性为泛化后的用户总体评分与情感倾向得分差值。

(4)本发明基于预测性能最佳的SVM分类器，对每一类真实监控语言线索特征进行了单独的研究，以探索特征在虚假评论识别中的有效性及差异性。本发明采用了5折交叉验证，不断迭代地将6种语言线索输入分类器并评估对应的模型性能。本发明计算了不同分类算法相关的评价指标均值。

(5)本发明采用逻辑回归方法，基于六大解释性指标构建虚假评论识别模型，并就各个维度对分类器性能的影响进行了独立样本t检验，计算了不同维度存在与缺失条件下预测模型的不同评价指标均值。为了获取真实评论和虚假评论在可解释性维度值上的差异，并进一步据此提出虚假评论判定理由，本发明计算了显著区分开来的真实和假评论相关的语言线索维度值均值。具体的虚假评论判定解释理由示意图如图6所示。

如图7所示，本发明提供一种兼顾可解释性的网络虚假评论的自动识别系统，包括：

虚假评论识别数据集获取模块1，用于根据想象和真实体验的不同，撰写虚假评论数据收集指导问卷，获取虚假评论自动识别数据集。

心理线索指标体系及相应的文本特征集构建2，利用谎言识别相关的语言线索框架，构建网络虚假评论撰写人的语言使用行为和心理分析框架，构建可操作的包含认知负荷、确信度、情感、感知情境细节、认知过程和洞察词汇六大类解释性的线索指标。

虚假评论文本整合特征模型构建模块3，利用表示学习方法，获得真实与虚假网络评论在文档层次的全局性表征，构建虚假评论文本特征模型。

虚假评论自动识别模型构建模块4，用于整合分散于各个语言线索指标体系中的词法、语义、文体元，以及文本全局性表征，进行特征预处理工作，基于支持向量机、逻辑回归、随机森林等分类器构建虚假评论自动识别模型。

真实和虚假评论线索特征显著性及均值获取模块5，用于计算真实和虚假评论在所提出的可解释性语言线索维度显著性及相应的线索维度均值。通过显著性分析，获得具显著区别的真实和虚假评论线索及其特征均值。

判定结果解释判模块6，用于判定网络评论的真假，根据候选网络评论在可解释性语言线索维度上的值，与步骤五得到的特征均值进行比较，判断其维度值表现，给出虚假评论自动识别方法判定结果的解释。

下面结合具体实验对本发明作进一步描述。

首先，本发明实施例所使用的原始数据样例如图1所示，数据描述统计情况如表10所示。

其次，本发明实施例的实验结果如上表1，其中“senti&linguistic&meta&emb”为本发明所提出的语言线索、TF-IDF词项特征和分布式词表示特征的整合特征，“Ott(2012,2014)”为基准的词袋特征。从表1中可以看出，本发明所提出的语言线索能够与以往基准方法所提出的特征能够形成很好地增量预测效果，取得了最优的综合预测准确率(0.893)和F值(0.886和0.899)。

再次，本发明计算了不同分类器的相关评价指标均值，如上表2所示。综合来看，首先逻辑回归在整体指标准确率和AUC值上均取得了最优的效果。其次，在对虚假评论的分类上，对比逻辑回归，SVM在召回率和F值上的取得了优势。总体而言，所选择的分类器中，逻辑回归和SVM算法在本数据上性能差异不大，逻辑回归效果略好。

最后，本发明基于逻辑回归，探索了所构建的可解释性的虚假评论识别语言线索体系的作用。相关分类预测评价指标结果如上表3所示(仅显示包含三个及以上的维度组合)。其中特征要素一栏中，d1为所有的认知负荷特征，d2包含两种确信度特征，d3包含11种情感特征，d4包含8种心理距离特征，d5包含认知情境细节特征，d6则包含两种认知过程特征。而Accuracy、P_FR、R_FR、F_FR、P_RR、R_RR、F_RR、AOC分别为预测准确率、虚假评论准确率、虚假评论召回率、虚假评论F值、真实评论的精确率、真实评论的召回率、真实评论的F值以及接收者操作特征曲线下方面积(Area under the Curve of ROC，AUC)。整体来看，认知负荷、情感、认知情境细节和认知过程四个特征组合在准确率、AUC值以及虚假评论的精确率上取得了最佳预测效果(0.6529)。所有的真实监控维度组合在真实评论的预测准确率和F值上取得了最佳效果。而认知负荷、心理距离、认知情境细节特征和认知过程在虚假评论分类的F值和真实评论的准确率上取得了最优效果，认知负荷、心理距离和认知过程在虚假评论识别的F值上取得了最佳效果。因此，本发明专利所提出的解释性语言线索具有显著的虚假评论识别效力。

此外，本发明获得了能显著区分真实评论和虚假评论的心理线索的维度均值，其中具有显著性区别的相关维度比较结果如上表4所示(t检验中的p值<0.05)。基于真实评论与虚假评论撰写人在心理维度特征上的差异，本发明实施例绘制了一个可视化展示虚假评论撰写人异常心理的雷达示意图，以辅助本方法和系统对虚假评论判定结果的解释，具体如如图6所示。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种兼顾可解释性的网络虚假评论的自动识别方法，其特征在于，所述兼顾可解释性的网络虚假评论的自动识别方法具体包括：

步骤一，根据想象和真实体验的不同，撰写虚假评论数据收集指导问卷，获取虚假评论数据集；

步骤五，计算真实和虚假评论在所提出的可解释性语言线索维度上的值，通过显著性分析，获得具显著区别的真实和虚假评论线索特征均值；

2.如权利要求1所述兼顾可解释性的网络虚假评论的自动识别方法，其特征在于，步骤一中，所述虚假评论数据集获取方法具体包括：

所述虚假评论数据集包括真实评论数据和虚假评论数据；

真实评论数据包括在大众点评上的消费凭证以及发布的最近三个月内消费过的营业场所的真实评论数据；所述营业场所的每一条真实评论数据均包含评论评级及评论文本；

3.如权利要求1所述兼顾可解释性的网络虚假评论的自动识别方法，其特征在于，步骤二中，所述网络虚假评论撰写人的语言使用行为和心理，分析框架具体包括：

4.如权利要求1所述兼顾可解释性的网络虚假评论的自动识别方法，其特征在于，步骤二中，所述中文网络评论语言线索指标体系具体包括：

所述中文网络评论语言线索指标体系包含认知负荷、确信度、情感、感知情境细节、认知过程和洞察词汇六大类解释性指标；

其中：

认知负荷是指虚假评论中个体工作记忆资源的使用量；

确信度用于反映说谎者与其陈述内容之间的距离；

感知情境细节用于挖掘经验丰富的事件在一个复杂的包含更多的感知细节、情境和语义信息的信息网络中的相关语言线索；

5.如权利要求1所述兼顾可解释性的网络虚假评论的自动识别方法，其特征在于，步骤三，构建虚假评论文本特征模型方法包括：

使用分布式语言表征技术Skip-Gram模型，在海量网络评论数据基础上，训练网络评论的文档表示；将文档表示作为识别虚假评论的输入，结合语言线索所包含的文本的句法、语义和文体元特征构成整合的虚假评论文本特征模型。

6.如权利要求1所述兼顾可解释性的网络虚假评论的自动识别方法，其特征在于，步骤四，构建虚假评论自动识别模型方法具体包括：

构建网络评论的TF-IDF词项权重向量，并利用主成分分析进行特征降维；结合文档表示、获取到的语言线索以及TF-IDF权重向量，使用了支持向量机进行真实、虚假评论的自动分类；同时使用逻辑回归、神经网络和决策树作为基准文本分类器，并将词袋模型和现有传统语言线索模型作为基准特征集；使用标准的信息检索指标，包括准确性、召回率、F1值，量化评估分类器总体及对虚假、真实评论识别的性能；采用十折交叉验证技术来评估模型结果对于测试数据的独立性，构建虚假评论自动识别模型。

7.一种实现权利要求1～6任意一项所述兼顾可解释性的网络虚假评论的自动识别方法的信息数据处理终端。

8.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-6任意一项所述的兼顾可解释性的网络虚假评论的自动识别方法。

9.一种兼顾可解释性的网络虚假评论的自动识别系统，其特征在于，所述兼顾可解释性的网络虚假评论的自动识别系统包括：

虚假评论识别数据集获取模块，用于根据想象和真实体验的不同，撰写虚假评论数据收集指导问卷，获取虚假评论数据集，相应地获取网络真实评论，构成数据集；

心理线索指标体系及相应的文本特征集构建，利用谎言识别相关的语言线索框架，构建网络虚假评论撰写人的语言使用行为和心理分析框架，构建可操作的包含认知负荷、确信度、情感、感知情境细节、认知过程和洞察词汇六大类解释性指标的中文网络评论语言线索指标体系；

虚假评论自动识别模型构建模块，用于整合分散于各个语言线索指标体系中的词法、语义、文体元，以及文本全局性表征，基于支持向量机、逻辑回归、随机森林分类器构建虚假评论自动识别模型；

真实和虚假评论线索特征显著性及均值获取模块，用于计算真实和虚假评论在所提出的可解释性语言线索维度上的值，通过显著性分析，获得具显著区别的真实和虚假评论线索特征均值；

判定结果解释判模块，用于判定网络评论的真假，根据候选网络评论在可解释性语言线索维度上的值，与步骤五得到的特征均值进行比较，判断其维度值表现，给出虚假评论自动识别结果的解释。