CN114492423A

CN114492423A - 基于特征融合及筛选的虚假评论检测方法、系统及介质

Info

Publication number: CN114492423A
Application number: CN202111623393.8A
Authority: CN
Inventors: 李树栋; 钟国金; 吴晓波; 韩伟红
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-13
Anticipated expiration: 2041-12-28
Also published as: CN114492423B

Abstract

本发明公开了基于特征融合及筛选的虚假评论检测方法、系统及介质，方法为：使用分词工具对文本评论进行操作后捕捉前后词对信息，进行词向量训练得到评论文本特征；提取评论者及其行为信息确定评论者行为特征；用异常检测算法提取虚假评论的异常信息，构建虚假分数特征；将三种特征进行拼接，获得虚假评论特征；对虚假评论特征使用多种特征选择方法筛选出重要特征集并求交集获得评论特征集；将评论特征集输入XGBoost模型中进行训练获得参数最优下的识别结果。本发明通过提取评论文本特征、多角度构建评论者行为特征及应用异常检测算法构建虚假分数特征，再借鉴集成思想将采用特征选择方法筛选出重要特征送入网络模型中进行训练，增强了特征可解释性，提升了检测性能。

Description

基于特征融合及筛选的虚假评论检测方法、系统及介质

技术领域

本发明属于虚假评论检测技术领域，具体涉及一种基于特征融合及筛选的虚假评论检测方法、系统及介质。

背景技术

随着网络通信的不断升级，当代人在网上进行购物交易的频率逐渐提高，伴随而来的便是消费者对购入商品信息评论的激增。由于交易平台对消费者发表评论限制较为宽松，导致许多消费者在评论时候会添加过于强烈的个人感情，更有甚者会刷恶意评论，也有商家为吸引用户雇佣水军刷虚假好评。已购入商品的消费者的反馈评论在很大程度上会影响之后用户对商品的选择，虚假的评论则不利于用户挑选出心仪的商品，严重损害用户权益和破坏市场平衡，所以对虚假评论进行识别检测是十分必要的。

现有技术中，在进行虚假评论检测时，将其定义为一个二分类的问题，首先通过已经标注的数据集来提取特征并且训练分类器，然后将新数据特征输入这个分类器去预测是虚假评论或真实评论。传统方法的特征基本来源于评论的文本内容、评论情感和用户行为这三大类，对于一些文本特征不明显的评论，效果并不佳。高珮发表的《基于马尔科夫随机场的虚假评论在线检测技术的研究》论文中，利用评论之间的关系生成动态评论图，随后建立马尔科夫随机场模型，最后利用LBP算法来求解该马尔科夫随机场，在处理虚假评论问题上有较高的精确率和召回率。王宇在《一种基于机器学习的垃圾评论实时检测方法》中，通过异常度的评论搭建了LDA_ABN模型，将文本进行预处理后进行标准比对，将语料文本长度大于7的文本提出，通过模型计算预估特征权重与垃圾评论的阈值比较，从而进行垃圾评论的筛选。

但上述方法主要从评论文本内容入手，过于依赖文本中评论的质量，且特征本身就难提取，如果文本评论数据质量不佳，相似性更加难以作为划分依据，并且当今虚假评论者在进行评论时，都会刻意模仿甚至抄袭真实评论，导致虚假和真实评论的文本内容十分相近。除此之外，很多时候虚假评论占少数，导致正负样本比例不平衡，不利于模型训练，导致最终实验效果不佳。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于特征融合及筛选的虚假评论检测方法、系统及介质，本方法不仅考虑了文本内容，并构建了评论者行为特征，还基于异常检测算法提取虚假评论的异常信息，得到虚假得分特征，解决了正负样本不平衡问题，同时使得特征空间表达更充分；借鉴集成思想，采用特征选择算法进行重要特征筛选，筛选结果稳定，特征可解释性强，从而使提升了检测性能。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了一种基于特征融合及筛选的虚假评论检测方法，包括下述步骤：

获取文本评论，使用分词工具对文本评论进行操作后，捕捉前后词对信息，进行词向量训练得到评论文本特征；

获取文本评论对应的评论者信息，提取评论者及其行为信息确定评论者行为特征；

根据评论文本特征和评论者行为特征，应用多种异常检测算法提取虚假评论样本的异常信息，计算异常得分即虚假得分作为虚假分数特征；

将评论文本特征、评论者行为特征及虚假分数特征进行拼接，获得虚假评论特征；

对虚假评论特征使用多种特征选择方法筛选出重要特征集并求交集获得评论特征集；

将评论特征集输入XGBoost模型中进行训练，使用网格搜索法和贝叶斯法结合调参，获得参数最优下的识别结果。

优先的，所述评论文本特征获取步骤具体为：

使用分词工具对文本评论进行分词、过滤停用词及删除非法字符操作，得到评论文本序列w＝{w₁,w₂,...,w_T}，T表示评论文本序列的长度；

对评论文本序列使用Bigram算法捕捉前后词对信息，得到Bigram评论文本序列u＝{w₁,(w₁,w₂),w₂,(w₂,w₃),...,w_T}；

将Bigram评论文本序列所对应的One-Hot词向量输入Word2vec模型中进行训练，使用Skip-gram算法得到分布式词向量；

遍历每条文本评论，累加所有分布式词向量并取平均得到文本向量作为评论文本特征。

优先的，所述Skip-gram算法依据中心词生成前后词，具体为：

Skip-gram算法中，给定中心词w_c及其对应One-Hot词向量v_c，前后词w_b及其对应One-Hot词向量u_b，则给定中心词w_c生成前后词w_b的概率为：

则对于长度为T的评论文本序列w，给定滑动窗口j，则任一中心词w^k生成前后词w^k ^+j的概率为：

其中，t表示滑动窗口的长度；

取对数获得最小化损失函数：

训练过程中，采用随机梯度下降更新算法参数，将(1)代入(3)求微分得到中心词向量v_c的梯度：

通过循环训练，最终得到分布式词向量。

优先的，所述评论者行为特征包括评论长度、所含单词平均长度、句子平均长度、评论所含数字数、单词数、句子数、评论所含名词、动词、形容词、副词个数、评论时间、评论情感极性、评分评论一致性、评论者极端评分比例、评论者评分偏差程度、评论者总评论数、评论者活跃程度；

所述评论长度、所含单词平均长度、句子平均长度、评论所含数字数、单词数及句子数，用于判断评论者商品体验状况；

所述评论所含名词、动词、形容词及副词个数，用于获取对应词类的使用频率；

所述评论时间，用于获取评论的时间戳信息；

所述评论情感极性，用于判断评论情感表达；

所述评分评论一致性，用于判断评论情感与评分的一致性；

所述评论者极端评分比例，用于获取评论者极端评分行为占所有评分行为的占比；

所述评论者评分偏差程度，用于获取评论者所有评分的方差；

所述评论者总评论数，用于获取评论者所有评分行为数；

所述评论者活跃程度，用于获取相邻两条评论时间的间隔最大值。

优先的，所述虚假分数特征获得步骤具体为：

将评论文本特征和评论者行为特征进行归一化处理，得到归一化特征集；

分别应用6种异常检测方法计算归一化特征集中每一样本的异常分数，获得样本的6维异常分数作为样本的虚假得分；

将所有样本虚假得分进行拼接，获得虚假分数特征。

优先的，所述6种异常检测方法包括IForest算法、PCA算法、LOF算法、KNN算法、HBOS算法和AutoEncoder算法；

所述IForest算法利用叶子节点到根节点的路径长度计算异常分数，具体为：

对于单棵树，存在n个样本，其中样本x在孤立树上的高度计算公式如下：

其中，c(n)表示树的平均路径长度，h(x)表示调和数，

为欧拉常数；

对于孤立森林，样本x在每棵树上的高度均值为E(h(x,n))，则IForest异常分数IForest_S(x,n)表示为：

所述PCA算法通过将向量矩阵特征分解为特征向量计算异常分数，具体为：

定义一个点x的PCA异常分数为PCA_S(x)，设样本矩阵X有n个特征向量，则PCA异常分数计算公式为：

其中，z_i为样本矩阵X中第i个特征向量，v_i为沿该特征向量方向上的方差，即为该特征向量对应的特征值，X^T为样本矩阵X的转置；

所述LOF算法利用密度计算异常分数，具体为：

设样本x的LOF异常分数为LOF_S(x)，d(x,y)表示样本x到样本y的距离，d_k(x,y)表示样本y是样本x第k远的距离，C_k(x)表示样本x第k类距离的邻域，则局部可达密度LRD的表达式为：

RD(x,y)＝max{d_k(x,y),d(x,y)}

通过LRD计算异常分数LOF_S(x)的表达式：

其中，LRD_k(y)表示样本y的第k邻域内的样本到y的平均可达距离的倒数，LRD_k(x)表示样本x的第k邻域内的样本到x的平均可达距离的倒数

所述KNN算法利用距离计算异常分数，具体为：

设样本集x的KNN异常分数为KNN_S(x)，样本集中的某一样本点(x₁,y₁)到其他某点(x₂,y₂)的欧式距离表示为：

计算样本集x中所有点到样本点的距离，取出前n个样本点，设其中正样本数为i，则异常分数KNN_S(x)表示为:

所述HBOS算法将每个维度划分为多个区间，利用区间密度来计算异常分数，具体为：

设某个维度有N个数据，按梯度排序后，将连续的

个数划分为一个区间；

每个区间的面积相同，区间宽度由每个区间第一个数和最后一个数决定，计算出每个区间的高度；设x为第x个样本，H_n(x)为第n个维度下x的高度，则HBOS异常分数HBOS_S(x)表示为：

所述AutoEncoder算法利用神经网络将一个高维输入用低维形式表示，当样本特征都是数值变量时，用MSE和MAE来计算异常分数，具体为：

设输入样本为X＝(X₁,X₂,....,X_n)，其中n代表n个维度；

样本X经过AutoEncoder算法重建后为X^R＝(X₁ ^R,X₂ ^R,....,X_n ^R)，AutoEncoder异常分数AutoEncoder_S(x)由MSE和MAE之和的负数来表示，公式为：

优先的，所述多种特征选择方法包括卡方检验法、信息增益筛选法和树模型特征重要度筛选法；

所述卡方检验法通过计算每个特征与标签的卡方值大小来进行筛选，具体为：

设理论值为E，观测到的真实值为X，其中有k个样本，则卡方检验偏差计算公式为：

n表示总的频数，p表示理论频率，根据卡方值大小筛选出与标签相关性高的特征子集FeatureSet₁；

所述信息增益筛选法利用特征前后信息熵差值计算信息增益值来进行筛选，具体为：

设样本集为S，样本集中类别个数为C，p_i表示第i类的概率，则信息熵计算公式为：

对于某特征X＝{x₁,x₂,...,x_i}，计算该特征每个值的条件熵后取平均：

最后计算该特征的信息增益值：

进而根据信息增益值大小筛选出相对重要的特征子集FeatureSet₂；

所述树模型特征重要度筛选法通过记录特征的分裂总次数以及平均信息增益对特征重要度进行筛选，具体为：

所述平均信息增益对特征重要度是在树节点分裂时，基于信息增益筛选法，将特征作为划分属性时计算的所有信息增益值取平均值得到；

依据各特征的平均信息增益对特征重要度，筛选出相对重要的特征子集FeatureSet₃；

基于集成学习中投票决策思想，对FeatureSet₁、FeatureSet₂、FeatureSet₃三个重要特征子集取交集，得到评论特征集FeatureSet_new。

优先的，所述XGBoost模型以决策树为基学习器，在梯度提升树的基础上将其目标函数泰勒展开成二阶，具体为：

设y_i为第i个目标的真实值，

为预测值，

为真实值与预测值之间的差异，n为样本容量，K为样本特征数，Ω(f_k)为模型复杂度，则XGBoost的目标函数为：

迭代t次后，目标函数结果为：

设g_i,h_i为均方损失函数的一阶导和二阶导，则二阶泰勒展开损失函数为：

采用网格搜索法结合贝叶斯法对XGBoost模型进行参数优化，获得参数最优下的虚假评论鉴别结果。

本发明另一方面提供了一种基于特征融合及筛选的虚假评论检测系统，应用于所述的基于特征融合及筛选的虚假评论检测方法，包括文本特征获取模块、行为特征获取模块、分数特征计算模块、拼接模块、特征筛选模块和识别模块；

所述文本特征获取模块用于获取文本评论，使用分词工具对文本评论进行操作后，捕捉前后词对信息，进行词向量训练得到评论文本特征；

所述行为特征获取模块用于获取文本评论对应的评论者信息，提取评论者及其行为信息确定评论者行为特征；

所述分数特征计算模块根据评论文本特征和评论者行为特征，应用多种异常检测算法提取虚假评论样本的异常信息，计算虚假得分作为虚假分数特征；

所述拼接模块用于将评论文本特征、评论者行为特征及虚假分数特征进行拼接，获得虚假评论特征；

所述特征筛选模块用于对虚假评论特征使用多种特征选择方法筛选出重要特征集并求交集获得评论特征集；

所述识别模块用于将评论特征集输入XGBoost模型中进行训练，使用网格搜索法和贝叶斯法结合调参，获得参数最优下的识别结果。

本发明又一方面提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于特征融合及筛选的虚假评论检测方法。

本发明与现有技术相比，具有如下优点和有益效果：

1、传统的虚假评论识别，仅提取文本内容特征进行训练，在虚假评论者刻意模仿真实评论的情况下识别准确率较低，且未考虑虚假评论仅占少数，导致正负样本不平衡的情况；而本方法不仅考虑文本内容，并且构建了评论者行为特征，并且应用多种异常检测算法提取虚假评论的异常信息，得到虚假得分特征，解决了正负样本不平衡问题，同时使得特征空间表达更充分，有助于提升分类器的泛化性能。

2、传统的特征筛选，仅使用单一方法进行，当该方法在给定数据集下效果较差时将损失大量信息；而本方法借鉴集成思想，采用特征选择算法对重要特征进行筛选，筛选结果更加稳定，特征可解释性更强，并且减少分类器的运行耗时。

3、XGBoost网络模型进行虚假评论检测识别时，在梯度提升树的基础上将目标函数优化任务转为求解二次函数的最小值，利用损失函数的二阶导数相关信息，提高了模型的精确度,并在损失函数中加入正则项，有效提升模型的泛化能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于特征融合及筛选的虚假评论检测方法的流程图；

图2为本发明实施例基于特征融合及筛选的虚假评论检测系统的结构图。

图3为本发明实施例计算机可读存储介质的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

请参阅图1，在本申请的一个实施例中提供了一种基于特征融合及筛选的虚假评论检测方法，包括下述步骤：

S1、获取文本评论，使用分词工具对文本评论进行操作后，捕捉前后词对信息，进行词向量训练得到评论文本特征，具体为：

S101、使用分词工具对文本评论进行分词、过滤停用词及删除非法字符操作，得到评论文本序列w＝{w₁,w₂,...,w_T}，T表示评论文本序列的长度；

S102、对评论文本序列使用Bigram算法捕捉前后词对信息，得到Bigram评论文本序列u＝{w₁,(w₁,w₂),w₂,(w₂,w₃),...,w_T}；

S103、将Bigram对应的One-Hot词向量输入Word2vec模型中进行训练，使用Skip-gram算法得到分布式词向量；

S104、遍历每条文本评论，累加所有分布式词向量并取平均得到文本向量作为评论文本特征。

本实施例中，基于文本评论，使用HanLP、Jieba等相关工具进行分词、过滤停用词、删除非法字符等操作后，应用Bigram算法捕捉前后词对信息，再使用Word2vec模型进行词向量训练；

例如对于评论“Thebestcoffeeever，Iloveit.”，进行分词、过滤停用词和Bigram处理后，变成“best,(best coffee),coffee,(coffee ever),ever,(ever I),I,(I,love),love,(love it),it”；由此可见，Bigram捕捉到了词对之间的关系，解决了此前无法区分“Iloveit”和“itloveI”的问题；进而输入到Word2vec模型中训练计算词向量。

Word2vec模型本质是神经网络模型，通过训练将输入的文本内容变成k维向量空间的向量；其中输入为Bigram算法处理后的文本序列所对应的One-Hot词向量形式，通过不断训练、修改网络参数并更新权重矩阵，最终得到分布式词向量输出；Word2vec由输入层、隐层和输出层组成，包含CBOW、Skip-gram两种算法，使用层次Softmax和负采样技术提高训练效率；CBOW算法依据前后词生成中心词，Skip-gram则依据中心词生成前后词，虽然Skip-gram训练速度较慢，但在数据量小和生僻词多情况下生成的词向量更加精准，故选用Skip-gram算法。

更具体的，Skip-gram算法具体为：

其中，t表示滑动窗口的长度；

取对数获得最小化损失函数：

通过循环训练，最终得到分布式词向量。

S2、获取文本评论对应的评论者信息，提取评论者及其行为信息确定评论者行为特征，具体为：

对于刻意模仿甚至抄袭其他真实评论的虚假评论，仅考虑文本内容语义特征将难以正确识别，则需要考虑评论者信息，构造评论者的评论行为特征，包括评论长度、所含单词平均长度、句子平均长度、评论所含数字数、单词数、句子数、评论所含名词、动词、形容词、副词个数、评论时间、评论情感极性、评分评论一致性、评论者极端评分比例、评论者评分偏差程度、评论者总评论数、评论者活跃程度；

评论长度、所含单词平均长度、句子平均长度、评论所含数字数、单词数及句子数，用于判断评论者商品体验状况；评论所含名词、动词、形容词及副词个数，用于获取对应词类的使用频率；评论时间，用于获取评论的时间戳信息；评论情感极性，用于判断评论情感表达；评分评论一致性，用于判断评论情感与评分的一致性；评论者极端评分比例，用于获取评论者极端评分行为占所有评分行为的占比；评论者评分偏差程度，用于获取评论者所有评分的方差；评论者总评论数，用于获取评论者所有评分行为数；评论者活跃程度，用于获取相邻两条评论时间的间隔最大值

构建的评论者行为特征具体如下表所示：

S3、根据评论文本特征和评论者行为特征，应用多种异常检测方法计算虚假得分作为虚假分数特征，具体为：

将所有样本虚假得分进行拼接，获得虚假分数特征。

现实中很多时候虚假评论仅占少数，这将导致正负样本不平衡，不利于后续分类器模型的训练。解决样本不平衡问题，可以借鉴异常检测思想，将虚假评论视作异常数据；对评论者的行为特征、评论文本特征归一化处理后，应用如孤立森林IForest、PCA等无监督异常检测算法，计算出每个样本的异常分数并视为该样本的虚假得分；若选取的异常检测模型越多，则样本的异常信息提取越全面，但模型过多也会造成时间成本较高，故需要选取合适个数、作用机制不同的异质模型。

本实施例中，使用IForest、PCA、LOF、KNN、HBOS、AutoEncoder这6种异常检测算法进行计算，得到6种算法评估每个样本的虚假分数，具体为：

IForest算法：孤立森林则是一种无监督算法，由许多的孤立树构成；测试集经过孤立森林，看测试集数据落在叶子哪个节点上，算出数据在孤立树的平均高度；由于异常点一般较稀有，所以在孤立树中会很快被划分到叶子节点，平均高度较低，因此可以用叶子节点到根节点的路径h(x)长度并结合公式计算出样本x的异常值来判断一条记录x是否是异常点。

其中，c(n)表示树的平均路径长度，h(x)表示调和数，

为欧拉常数；

异常分数IForest_S(x,n)在[0,1]内取值，IForest_S(x,n)越大，则越有可能是异常点，IForest_S(x,n)越接近0则表明是正常点的概率较高。

PCA算法：在用PCA算法对异常值检测的时候，先对向量矩阵进行特征分解，分解完成后便得到多个特征向量，特征向量反映了数据偏离的不同方向，而特征值的大小则反映了数据在对应方向上的偏离程度；如果一个样本点和总体样本在不同方向上偏离程度都比较大，那么这个样本点是异常值的可能性就较大。

定义一个点x的异常分数PCA_S(x)，设样本矩阵X有n个特征向量，则PCA异常分数计算公式为：

其中，z_i为样本矩阵X中第i个特征向量，v_i为沿该特征向量方向上的方差，即为该特征向量对应的特征值，X^T为样本矩阵X的转置。

LOF算法：是基于密度的异常检测算法，设样本x的LOF异常分数为LOF_S(x)，d(x,y)表示样本x到样本y的距离，d_k(x,y)表示样本y是样本x第k远的距离，C_k(x)表示样本x第k类距离的邻域，则局部可达密度LRD的表达式：

RD(x,y)＝max{d_k(x,y),d(x,y)}

通过LRD计算异常分数LOF_S(x)的表达式：

其中，LRD_k(y)表示样本y的第k邻域内的样本到y的平均可达距离的倒数，LRD_k(x)表示样本x的第k邻域内的样本到x的平均可达距离的倒数；

KNN算法：是利用距离来判定异常值的算法，设样本集x的KNN异常分数为KNN_S(x)，样本集中的某一样本点(x₁,y₁)到其他某点(x₂,y₂)的欧式距离表示为：

由此可以计算出一个集合中所有点到样本点的距离，取出前n个样本点，设其中正样本数为i，则异常分数KNN_S(x)定义为:

HBOS算法：HBOS将每个维度划分成多个区间，并利用区间的密度来对异常进行评分；设某个维度有N个数据，将其按梯度排序后，将连续的

个数划分为一个区间(K是自定义的)；由于每个区间的面积是相同的，而宽度是由每个区间第一个数和最后一个数来决定，计算出每个区间的高度；设x为第x个样本，H_n(x)为第n个维度下x的高度，则HBOS异常分数HBOS_S(x)表示为：

AutoEncoder算法：AutoEncoder利用神经网络来将一个高维输入用低维形式表示，当样本的特征都是数值变量的时候，则用MSE和MAE来当作还原误差；

设输入样本为X＝(X₁,X₂,....,X_n)，其中n代表n个维度；

根据以上六种算法可以基于不同角度计算出每一个样本的六维异常分数，并可将异常分数作为样本的虚假得分；将这这些虚假得分直接拼接起来可以得到虚假得分特征。

S4、将评论文本特征、评论者行为特征及虚假分数特征进行拼接，获得虚假评论特征，此时虚假评论特征所涵盖的有效信息更多，能够帮助分类器进行正确决策；

S5、对虚假评论特征使用多种特征选择方法筛选出重要特征集并求交集获得评论特征集，具体为：

和一般的特征选择方法不同的是，本实施例中对上述三种维度获取的特征采用三种特征选择方法进行筛选，包括卡方检验法、信息增益筛选法、树模型特征重要度筛选法，将三种特征选择方法选择出的重要特征集合进行求交集作为网络模型最终的输入，极大避免了特征冗余的现象，缓解了过拟合的问题。

卡方检验法：是通过真实值和理论值的偏差来确定变量之间独立理论的正确性；原假设假定变量之间是互相独立的，故理论值为原假设成立下的对应值，如果观察到的真实值与理论值之间的偏差足够小，可以被视为难以克服的自然误差时，即接受原假设，认为变量之间独立，否则接受备择假设；

卡方检验用于特征选择时，计算每个特征与标签的卡方值大小，卡方值越大，该特征与标签之间的相关性越强，特征相对重要，具体为：

n表示总的频数，p表示理论频率，进而根据卡方值大小筛选出与标签相关性高的特征子集FeatureSet₁。

信息增益筛选法：信息熵衡量一个变量所含信息量的大小，当该变量的可能变化越大，所含的信息量越大，当该变量的变化越小，所含信息量越小；而信息增益是指前后信息熵的变化情况，对于一个特征来说，整个特征空间在去除该特征前后的信息熵的差值，即为该特征的信息增益值；信息增益越大的特征，对整个特征空间的贡献越大，可认为该特征相对重要，具体为：

设样本集为S，样本集合中类别个数为C(在虚假评论检测下C＝2)，p_i表示第i类的概率，则信息熵计算公式为：

最后计算该特征的信息增益值：

进而根据信息增益值大小筛选出相对重要的特征子集FeatureSet₂。

模型特征重要度筛选法：树模型在训练过程中通过记录特征的分裂总次数以及平均信息增益对特征重要度进行筛选，具体为：

在树节点分裂时，基于信息增益筛选法，将特征划分属性计算的所有信息增益值(优化函数Loss下降)取平均值；重要度值越大则代表该特征在XGBoost建立过程中被选择作为分裂节点的次数更多，那么该特征相对更加重要；

依据各特征的重要度，可以筛选出相对重要的特征子集FeatureSet₃。

在卡方检验阀、信息增益筛选法、树特征特征重要度筛选法三种算法筛选得到FeatureSet₁、FeatureSet₂、FeatureSet₃三个重要特征子集后，借鉴集成学习中投票决策的思想，对三个子集取交集，得到评论特征集FeatureSet_new；此时FeatureSet_new相对原始特征集合来说规模变小，但保留了相对重要的特征，并未损失过多信息；一方面增强了特征的可解释性，另一方面降低了特征维度，加快了分类器的训练速度。

S6、将评论特征集输入XGBoost模型中进行训练，使用网格搜索法和贝叶斯法结合调参，获得参数最优下的识别结果；

XGBoost以决策树为基学习器，在梯度提升树的基础上将其目标函数泰勒展开成二阶，提高模型的精确度；并将目标函数优化任务转为求解二次函数的最小值，训练树模型时利用损失函数的二阶导数相关信息；在损失函数中加入正则项，有效提升模型的泛化能力；XGBoost模型的输出是概率值；若输出值大于0.5，则表示该评论为虚假评论，若输出值小于0.5，则表示该评论为真实评论，具体为：

设y_i为第i个目标的真实值，

为预测值，

迭代t次后，目标函数结果为：

为避免局部最优，采样网格搜索法结合贝叶斯法对XGBoost模型进行参数优化，获得参数最优下的虚假评论鉴别结果。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于特征融合及筛选的虚假评论检测方法相同的思想，本发明还提供了基于特征融合及筛选的虚假评论检测系统，该系统可用于执行上述基于特征融合及筛选的虚假评论检测方法。为了便于说明，基于特征融合及筛选的虚假评论检测系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

请参阅图2，在本申请的另一个实施例中，提供了一种基于特征融合及筛选的虚假评论检测系统，该系统至少包括以下几个模块：

文本特征获取模块用于获取文本评论，使用分词工具对文本评论进行操作后，捕捉前后词对信息，进行词向量训练得到评论文本特征；

行为特征获取模块用于获取文本评论对应的评论者信息，提取评论者及其行为信息确定评论者行为特征；

分数特征计算模块根据评论文本特征和评论者行为特征，应用多种异常检测方法提取虚假评论样本的异常信息，计算虚假得分作为虚假分数特征；

拼接模块用于将评论文本特征、评论者行为特征及虚假分数特征进行拼接，获得虚假评论特征；

特征筛选模块用于对虚假评论特征使用多种特征选择方法筛选出重要特征集并求交集获得评论特征集；

识别模块用于将评论特征集输入XGBoost模型中进行训练，使用网格搜索法和贝叶斯法结合调参，获得参数最优下的识别结果。

需要说明的是，本发明的基于特征融合及筛选的虚假评论检测系统与本发明的基于特征融合及筛选的虚假评论检测方法一一对应，在上述基于特征融合及筛选的虚假评论检测方法的实施例阐述的技术特征及其有益效果均适用于基于特征融合及筛选的虚假评论检测系统的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的基于特征融合及筛选的虚假评论检测系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于特征融合及筛选的虚假评论检测系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

请参阅图3，在一个实施例中，提供了一种计算机可读存储介质，存储有程序于存储器中，所述程序被处理器执行时，实现基于特征融合及筛选的虚假评论检测方法，具体为：

根据评论文本特征和评论者行为特征，应用多种异常检测方法提取虚假评论样本的异常信息，计算虚假得分作为虚假分数特征；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于特征融合及筛选的虚假评论检测方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于特征融合及筛选的虚假评论检测方法，其特征在于，所述评论文本特征获取步骤具体为：

使用分词工具对文本评论进行分词、过滤停用词及删除非法字符操作，得到评论文本序列w＝{w₁，w₂，…，w_T}，T表示评论文本序列的长度；

对评论文本序列使用Bigram算法捕捉前后词对信息，得到Bigram评论文本序列u＝{w₁，(w₁，w₂)，w₂，(w₂，w₃)，…，w_T}；

3.根据权利要求2所述基于特征融合及筛选的虚假评论检测方法，其特征在于，所述Skip-gram算法依据中心词生成前后词，具体为：

则对于长度为T的评论文本序列w，给定滑动窗口j，则任一中心词w^k生成前后词w^k+j的概率为：

其中，t表示滑动窗口的长度；

取对数获得最小化损失函数：

通过循环训练，最终得到分布式词向量。

4.根据权利要求1所述基于特征融合及筛选的虚假评论检测方法，其特征在于，所述评论者行为特征包括评论长度、所含单词平均长度、句子平均长度、评论所含数字数、单词数、句子数、评论所含名词、动词、形容词、副词个数、评论时间、评论情感极性、评分评论一致性、评论者极端评分比例、评论者评分偏差程度、评论者总评论数、评论者活跃程度；

所述评论时间，用于获取评论的时间戳信息；

所述评论情感极性，用于判断评论情感表达；

所述评分评论一致性，用于判断评论情感与评分的一致性；

所述评论者总评论数，用于获取评论者所有评分行为数；

5.根据权利要求1所述基于特征融合及筛选的虚假评论检测方法，其特征在于，所述虚假分数特征获得步骤具体为：

将所有样本虚假得分进行拼接，获得虚假分数特征。

6.根据权利要求5所述基于特征融合及筛选的虚假评论检测方法，其特征在于，所述6种异常检测方法包括IForest算法、PCA算法、LOF算法、KNN算法、HBOS算法和AutoEncoder算法；