CN110580341A

CN110580341A - 一种基于半监督学习模型的虚假评论检测方法及系统

Info

Publication number: CN110580341A
Application number: CN201910886076.1A
Authority: CN
Inventors: 田刚; 王琦博; 宋庆松; 贾洪健
Original assignee: Qingdao Yunzhi Maritime Information Technology Co Ltd; Shandong University of Science and Technology
Current assignee: Qingdao Yunzhi Maritime Information Technology Co Ltd; Shandong University of Science and Technology
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2019-12-17

Abstract

本发明公开了一种基于半监督学习模型的虚假评论检测方法及系统。所述虚假评论检测方法包括：获取原始数据；利用词转词向量Word2Vec模型以及NLTK工具对所述原始数据进行处理，确定内容词向量、词性向量以及位置向量；根据内容词向量、词性向量以及位置向量通过双向长短期记忆网络，构建虚假评论检测监督学习模型；确定最大似然训练目标函数、对抗损失函数、熵最小化函数以及虚拟对抗损失函数；根据上述四个函数构建基于多注意力的混合目标函数的半监督虚假评论检测模型；根据所述基于多注意力的混合目标函数的半监督虚假评论检测模型对虚假评论进行检测。采用本发明所提供的虚假评论检测方法及系统能够降低虚假评论的检测难度，提高检测准确度。

Description

一种基于半监督学习模型的虚假评论检测方法及系统

技术领域

本发明涉及服务计算机技术领域，特别是涉及一种基于半监督学习模型的虚假评论检测方法及系统。

背景技术

随着互联网业务的发展，为了可以让用户根据自己的意图和其他消费者的评价来决定购买意向，各大电子商务平台开发了各种用户反馈机制，其中产品评价系统是最普及一种；由于许多用户在电商平台上倾向于在做出购买决定之前阅读相关的产品评论，所以某些不法者在电商平台利用评价系统注入大量虚假评论来左右产品的销量以达到盈利的目的。

根据一些研究人员的统计，虚假评论占Yelp网站的14-20％，在Tripadvisor，Orbitz，Priceline和Expedia中有2-6％的假评论；在这种情况下，要有效识别虚假评论已成为一个中心问题，确保网上评论成为值得信赖的意见材料，提供发展健康有序的产品反馈环境。

为了有效识别这类评论，一些学者使用基于浅层、显性语义特征的方法，虽然取得了一定成果，但是检测效果不尽人意；在过去的几年里，大多数现有的虚假评论检测的工作都集中在构建基于句法和语法的监督分类器上，由于带标签的开源数据集数量较少，通过使用监督学习模型的方法进行虚假评论检测的难度较大，且检测准确度低。

发明内容

本发明的目的是提供一种基于半监督学习模型的虚假评论检测方法及系统，以解决传统的基于监督学习模型的虚假评论检测方法检测难度大，检测准确度低的问题。

为实现上述目的，本发明提供了如下方案：

一种基于半监督学习模型的虚假评论检测方法，包括：

获取原始数据；所述原始数据包括带标签数据以及无标签数据；

利用词转词向量Word2Vec模型以及自然语言处理工具包NLTK工具对所述原始数据进行处理，确定内容词向量、词性向量以及位置向量；

根据所述内容词向量、所述词性向量以及所述位置向量通过双向长短期记忆网络，构建虚假评论检测监督学习模型；

利用最大似然训练法以及对抗训练法对所述虚假评论检测监督学习模型进行监督学习训练，确定最大似然训练目标函数以及对抗损失函数；

利用熵最小化法以及虚拟对抗训练法对所述原始数据进行训练，确定熵最小化函数以及虚拟对抗损失函数；

根据所述最大似然训练目标函数、所述对抗损失函数、所述熵最小化函数以及所述虚拟对抗损失函数构建基于多注意力的混合目标函数的半监督虚假评论检测模型；

根据所述基于多注意力的混合目标函数的半监督虚假评论检测模型对虚假评论进行检测。

可选的，所述利用词转词向量Word2Vec模型以及自然语言处理工具包NLTK工具对所述原始数据进行处理，确定内容词向量、词性向量以及位置向量，具体包括：

利用Word2Vec模型将每条所述原始数据训练成内容词向量；

利用自然语言处理工具包NLTK工具对将每条所述原始数据进行词性标注后确定词性向量；

使用自然语言处理工具包NLTK工具对将每条所述原始数据进行分词后确定位置向量。

可选的，所述根据所述内容词向量、所述词性向量以及所述位置向量通过双向长短期记忆网络，构建虚假评论检测监督学习模型，具体包括：

利用所述Word2Vec模型将每条所述原始数据转化为词嵌入表示，作为注意力层的输入；

获取所述词嵌入表示中目标词的词向量作为注意力向量；

根据所述注意力向量以及所述词嵌入表示确定词向量注意力特征矩阵，作为双向长短期记忆网络的输入；

根据所述词向量注意力特征矩阵以及所述词嵌入表示确定双向长短期记忆网络的词向量输入矩阵；

将目标词的词性向量作为词性注意力特征矩阵，确定双向长短期记忆网络的词性输入矩阵，作为双向长短期记忆网络的输入；

根据所述位置向量确定所述双向长短期记忆网络的位置输入矩阵，作为双向长短期记忆网络的输入；

根据所述词向量注意力特征矩阵、所述词性注意力特征矩阵以及所述位置输入矩阵确定每个时间步长所对应的隐藏状态；

根据所述隐藏状态确定每个时间步长的连接向量，确定输入序列的特征表示；

根据所述特征表示送入线性层，确定对数；

对所述对数进行激活函数sigmoid归一化处理，构建虚假评论检测监督学习模型。

可选的，所述利用最大似然训练法以及对抗训练法对所述虚假评论检测监督学习模型进行监督学习训练，确定最大似然训练目标函数以及对抗损失函数，具体包括：

根据公式确定最大似然训练目标函数；其中，L_ML(θ)为最大似然训练目标函数，为Golden黄金数据集中原始数据的数量；K为标签的类别；k为标签的索引；ii为Golden黄金数据集中原始数据的索引，θ为虚假评论检测监督学习模型的参数；p为将第ii个示例分配给标签k的概率，x⁽ⁱⁱ⁾表示为Golden黄金数据集中原始数据的单词序列，y⁽ⁱⁱ⁾为Golden黄金数据集中原始数据相对应的标签；

根据公式确定对抗损失函数；L_AT(θ)为对抗损失函数；为对抗嵌入；为虚假评论检测监督学习模型的参数。

可选的，所述利用熵最小化法以及虚拟对抗训练法对所述原始数据进行训练，确定熵最小化函数以及虚拟对抗损失函数，具体包括：

根据公式

确定熵最小化函数；其中，m为亚马逊Amazon数据集和Golden黄金数据集的原始数据总量；

根据公式确定虚拟对抗损失函数；其中，D_KL为相对熵散度计算公式，x^(j)表示为亚马逊Amazon数据集和Golden黄金数据集的原始数据的单词序列，y^(j)为亚马逊Amazon数据集和Golden黄金数据集的原始数据相对应的标签，j表示为Amazon亚马逊数据集和Golden黄金数据集的原始数据中的索引，v^(j)表示为词嵌入中第j个词向量，表示为加入了生成了虚拟对抗扰动的第j个词向量。

一种基于半监督学习模型的虚假评论检测系统，包括：

原始数据获取模块，用于获取原始数据；所述原始数据包括带标签数据以及无标签数据；

处理模块，用于利用词转词向量Word2Vec模型以及自然语言处理工具包NLTK工具对所述原始数据进行处理，确定内容词向量、词性向量以及位置向量；

虚假评论检测监督学习模型构建模块，用于根据所述内容词向量、所述词性向量以及所述位置向量通过双向长短期记忆网络，构建虚假评论检测监督学习模型；

最大似然训练目标函数以及对抗损失函数确定模块，用于利用最大似然训练法以及对抗训练法对所述虚假评论检测监督学习模型进行监督学习训练，确定最大似然训练目标函数以及对抗损失函数；

熵最小化函数以及虚拟对抗损失函数确定模块，用于利用熵最小化法以及虚拟对抗训练法对所述原始数据进行训练，确定熵最小化函数以及虚拟对抗损失函数；

半监督虚假评论检测模型确定模块，用于根据所述最大似然训练目标函数、所述对抗损失函数、所述熵最小化函数以及所述虚拟对抗损失函数构建基于多注意力的混合目标函数的半监督虚假评论检测模型；

检测模块，用于根据所述基于多注意力的混合目标函数的半监督虚假评论检测模型对虚假评论进行检测。

可选的，所述处理模块具体包括：

内容词向量训练单元，用于利用Word2Vec模型将每条所述原始数据训练成内容词向量；

词性向量确定单元，用于利用自然语言处理工具包NLTK工具对将每条所述原始数据进行词性标注后确定词性向量；

位置向量确定单元，用于使用自然语言处理工具包NLTK工具对将每条所述原始数据进行分词后确定位置向量。

可选的，所述虚假评论检测监督学习模型构建模块具体包括：

词嵌入表示转化单元，用于利用所述Word2Vec模型将每条所述原始数据转化为词嵌入表示，作为注意力层的输入；

词向量获取单元，用于获取所述词嵌入表示中目标词的词向量作为注意力向量；

词向量注意力特征矩阵确定单元，用于根据所述注意力向量以及所述词嵌入表示确定词向量注意力特征矩阵，作为双向长短期记忆网络的输入；

双向长短期记忆网络的词向量输入矩阵确定单元，用于根据所述词向量注意力特征矩阵以及所述词嵌入表示确定双向长短期记忆网络的词向量输入矩阵；

双向长短期记忆网络的词性输入矩阵确定单元，用于将目标词的词性向量作为词性注意力特征矩阵，确定双向长短期记忆网络的词性输入矩阵，作为双向长短期记忆网络的输入；

位置输入矩阵确定单元，用于根据所述位置向量确定所述双向长短期记忆网络的位置输入矩阵，作为双向长短期记忆网络的输入；

隐藏状态确定单元，用于根据所述词向量注意力特征矩阵、所述词性注意力特征矩阵以及所述位置输入矩阵确定每个时间步长所对应的隐藏状态；

特征表示确定单元，用于根据所述隐藏状态确定每个时间步长的连接向量，确定输入序列的特征表示；

对数确定单元，用于根据所述特征表示送入线性层，确定对数；

虚假评论检测监督学习模型构建单元，用于对所述对数进行激活函数sigmoid归一化处理，构建虚假评论检测监督学习模型。

可选的，所述最大似然训练目标函数以及对抗损失函数确定模块具体包括：

最大似然训练目标函数确定单元，用于根据公式

确定最大似然训练目标函数；其中，L_ML(θ)为最大似然训练目标函数，为Golden黄金数据集中原始数据的数量；K为标签的类别；k为标签的索引；ii为Golden黄金数据集中原始数据的索引，θ为虚假评论检测监督学习模型的参数；p为将第ii个示例分配给标签k的概率，x⁽ⁱⁱ⁾表示为Golden黄金数据集中原始数据的单词序列，y⁽ⁱⁱ⁾为Golden黄金数据集中原始数据相对应的标签；

对抗损失函数确定单元，用于根据公式

确定对抗损失函数；L_AT(θ)为对抗损失函数；为对抗嵌入；为虚假评论检测监督学习模型的参数。

可选的，所述熵最小化函数以及虚拟对抗损失函数确定模块具体包括：

熵最小化函数确定单元，用于根据公式

虚拟对抗损失函数确定单元，用于根据公式确定虚拟对抗损失函数；其中，D_KL为相对熵散度计算公式，x^(j)表示为亚马逊Amazon数据集和Golden黄金数据集的原始数据的单词序列，y^(j)为亚马逊Amazon数据集和Golden黄金数据集的原始数据相对应的标签，j表示为Amazon亚马逊数据集和Golden黄金数据集的原始数据中的索引，v^(j)表示为词嵌入中第j个词向量，表示为加入了生成了虚拟对抗扰动的第j个词向量。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提出了一种基于半监督学习模型的虚假评论检测方法及系统，采用基于多注意力的长短期记忆网络并结合混合目标函数进行半监督学习的方法进行虚假评论检测，通过构建基于词性、语法、以及相对位置的监督分类器，并通过对具有无标签的原始数据进行熵最小化和虚拟对抗训练，一方面有效利用了无标签的数据集中的原始数据，另一方面有效提高了检测的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于半监督学习模型的虚假评论检测方法流程图；

图2为本发明所提供的多注意力的虚假评论检测模型结构示意图；

图3为本发明所提供的双向长短期记忆神经网络模型的结构示意图；

图4为本发明所提供的基于半监督学习模型的虚假评论检测系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于半监督学习模型的虚假评论检测方法及系统，能够降低虚假评论的检测难度，提高检测准确度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的基于半监督学习模型的虚假评论检测方法流程图，如图1所示，一种基于半监督学习模型的虚假评论检测方法，包括：

步骤101：获取原始数据；所述原始数据包括带标签数据以及无标签数据。

收集亚马逊Amazon数据集与黄金Golden数据集文档，将带有标签的Golden数据集标签分为2类；按照数据集中数据的分布将原始数据分为训练集与测试集。从Amazon数据集中抽取25000条原始数据用于作为模型的输入，按照4:1的比例将数据分为训练集与测试集。

将带有标签的数据集中的标签y分为K类，在本文中K为2。数值分别为：1分和0分。1分对应虚假评论，0分对应真实评论。

步骤102：利用词转词向量Word2Vec模型以及自然语言处理工具包NLTK工具对所述原始数据进行处理，确定内容词向量、词性向量以及位置向量。

步骤103：根据所述内容词向量、所述词性向量以及所述位置向量通过双向长短期记忆网络，构建虚假评论检测监督学习模型。

如图2所示，使用Word2Vec模型将训练集数据与测试集数据中的每条原始数据训练成内容词向量、使用自然语言处理工具包(Natural Language Toolkit，NLTK)工具对将训练集与测试集中的每条原始数据进行词性标注后生成词性向量、使用NLTK工具对将训练集与测试集中的每条原始数据进行分词后生成位置向量；将生成的词向量、词性向量、位置向量分别输入三种注意力层进行运算后分别放入三个双向长短期记忆网络中；将前向长短期记忆网络和后向长短期记忆网络的隐藏状态输出并进行连接；将三个长短期记忆网络连接后的向量进行连接送入池化层以获得输入序列的特征表示；将特征表示送入线性层以产生对数，使用激活函数sigmoid函数进行归一化。以此构造出虚假评论检测的监督学习模型，用于使用最大似然训练和对抗训练对模型进行监督学习训练。

使用Word2Vec词转词向量模型将训练集和测试集中的每条数据(x₁,x₂,c_i…,x_n)，转化为词嵌入表示(v₁,v₂,a_i…,v_n)，以此作为注意力层的输入，其中x_i为训练集和测试集中的每条数据中的词，i为索引，a_i表示为在位置i的目标词的词向量；

将原始数据中的被评价的词作为目标词，提取出词嵌入中的目标词的词向量a_i作为注意力向量，将注意力向量与词嵌入表示进行运算操作得到词向量注意力特征矩阵Ac，作为双向长短期记忆网络的输入。如下式所示：

A_i，i＝innerproduct(a_i·v_i) (1)

其中，i表示为词嵌入表示中的第i个，A_i,i表示为第i个词嵌入经过向量内积运算后生成的矩阵，表示进行运算操作得到词向量注意力特征矩阵。而后将计算得到的词向量注意力特征矩阵A^c与词嵌入做运算可得到双向长短期记忆网络的词向量输入矩阵如下式所示：

同时，使用NLTK工具对数据集中的每条原始数据进行词性标注，并将每一个词映射为一个多维的连续值向量tag_i，目标词的词性向量表示为tar，则对于长度为n的句子可表示为词性向量矩阵tag_1：n，如下式所示：

而后将目标词的词性向量tar作为词性注意力的特征矩阵A^tar，然后进行运算得到双向长短期记忆网络的词性输入矩阵作为双向长短期记忆网络的输入，如下式所示：

其中，β为权重系数，对目标词设置为1.2，其他词设置为1.0。

同时，使用NLTK工具对数据集中的数据进行分词用于得出每个词与目标词之间的位置取值集合l，将目标词位置设置为0，其他词位置设置为单条数据长度n，以目标词为中心，设定两个指针分别向左右扫描，记录指针和目标相对位置i的值l_i，若该位置为标点符号，则使用式(6)更新l_i的值，若为目标词，则更新l_i的值为1，并将位置取值i加入集合继续扫描，否则将l_i加入集合继续扫描。其中，min是最小值函数。

扫描完成后，利用矩阵Pos存储数据集中所有数据的位置取值，而后将Pos中存储的所有位置取值映射为多维向量Pos_i，然后进行运算得到双向长短期记忆网络的位置输入矩阵作为双向长短期记忆网络的输入。如下式所示：

如图3所示，利用三个前向长短期记忆网络和后向长短期记忆网络分别在前向和后向处理词向量输入矩阵、词性输入矩阵、位置输入矩阵，并在每个时间步长t处得到相应的隐藏状态，如下式所示：

分别将三个前向长短期记忆网络和后向长短期记忆网络的隐藏状态输出在每个时间步连接为向量h_t，后将三个h_t进行连接后送入池化层计算一段时间内的最大值，以获得输入序列的特征表示，具体如式(10)所示：

将特征表示送入线性层产生对数d，如式(11)所示：

d＝Wh+b (11)

其中，W为权重矩阵，b为偏移量

将对数使用激活函数sigmoid归一化，得出估计概率，如式(12)所示：

其中，(x,y)是训练样本，θ是模型的参数，k表示为K类标签中的索引，d_k表示为标签k的对数。

步骤104：利用最大似然训练法以及对抗训练法对所述虚假评论检测监督学习模型进行监督学习训练，确定最大似然训练目标函数以及对抗损失函数。

标记Golden黄金数据集的原始数据为其中，x⁽ⁱⁱ⁾表示为单词序列，y⁽ⁱⁱ⁾为相对应的标签。后计算所有训练样本的估计概率和真实标签之间的平均交叉熵损失对数据进行最大似然训练得到目标函数L_ML(θ)，如式(13)所示：

其中，为Golden黄金数据集中原始数据的数量；K为标签的类别；k为标签的索引；ii为Golden黄金数据集中原始数据的索引，θ为虚假评论检测监督学习模型的参数；p为将第ii个示例分配给标签k的概率；

对词嵌入v＝(v₁,v₂,…,v_n)进行对抗干扰；通过线性化输入词嵌入周围的监督交叉熵损失来估计这些扰动r_adv。后得到对应于v的对抗嵌入v^*，使用训练损失梯度g的L2范数。该范数是通过使用当前模型参数θ的反向传播计算得到的，具体如式(14)、(15)、(16)所示：

v^*＝v+r_adv (16)

其中，∈是控制对抗干扰大小的超参数，为虚假评论检测监督学习模型的参数。最后得到对抗损失函数L_AT(θ)，如式(17)所示：

对无标签的亚马逊Amazon数据集中的原始数据使用进行标记。使用无监督学习最小化估计的类概率的条件熵得到目标函数L_EM(θ)，如式(18)、(19)所示

其中，m_u为无标签的亚马逊Amazon数据集中的原始数据数量；概率p(y^(j)＝k|x^(j)；θ)表示通过软聚类将第j个示例软分配给标签k，m表示为亚马逊Amazon数据集和Golden黄金数据集的原始数据总量，j表示为亚马逊Amazon数据集和Golden黄金数据集的原始数据中的索引。

步骤105：利用熵最小化法以及虚拟对抗训练法对所述原始数据进行训练，确定熵最小化函数以及虚拟对抗损失函数。

对词嵌入进行虚拟对抗训练，利用距离的二阶泰勒展开，然后用幂次迭代法逼近虚拟对抗扰动；对于来自正态分布(d^(j)～N(0,1))的每个示例，对随机单位向量进行采样。后将计算为ξd^(j)的对抗性扰动被添加到词嵌入中，其中ξ是超参数，在这里取值为0.1

v'^(j)＝v^(j)+ξd^(j) (20)

后利用KL散度计算公式D_KL估计梯度g_KL，如式(21)所示

使用梯度的L2正则化生成虚拟对抗扰动(r_vadv)并将其添加到词嵌入中，如式(22)、(23)所示：

最后，从带标签的标记数据和未带标签的未标记数据计算得出虚拟对抗性损失函数L_VAT(θ),如式(24)所示

步骤106：根据所述最大似然训练目标函数、所述对抗损失函数、所述熵最小化函数以及所述虚拟对抗损失函数构建基于多注意力的混合目标函数的半监督虚假评论检测模型。

将最大似然训练目标函数L_ML(θ)，根据对抗损失函数L_AT(θ)，熵最小化目标函数L_EM(θ)和虚拟对抗性损失函数L_VAT(θ)的组合作为目标函数；对该整体的基于多注意力的混合目标函数的半监督虚假评论检测模型进行训练，目标函数如式(25)所示：

L_mixed(θ)＝h_MLL_ML(θ)+λ_ATL_AT(θ)+λ_EML_EM(θ)+λ_VATL_VAT(θ) (25)

其中，λ_ML、λ_AT、λ_EM、λ_VAT是超参数。

步骤107：根据所述基于多注意力的混合目标函数的半监督虚假评论检测模型对虚假评论进行检测。

本发明对亚马逊Amazon数据集和Golden黄金数据集中的原始数据进行熵最小化和虚拟对抗训练，通过这两种方法得到的结果作为训练期间的正则化程序。后将最大似然训练，熵最小化，对抗训练和虚拟对抗训练的组合作为目标函数。最后对该整体的基于多注意力的混合目标函数的半监督虚假评论检测模型进行训练，不断修改参数直至分类效果达到最优。最终可通过该模型实现对虚假评论的检测，可准确区分评论为真评论还是假评论。

图4为本发明所提供的基于半监督学习模型的虚假评论检测系统结构图，如图4所示，一种基于半监督学习模型的虚假评论检测系统，包括：

原始数据获取模块401，用于获取原始数据；所述原始数据包括带标签数据以及无标签数据；

处理模块402，用于利用词转词向量Word2Vec模型以及NLTK工具对所述原始数据进行处理，确定内容词向量、词性向量以及位置向量；

所述处理模块402具体包括：内容词向量训练单元，用于利用Word2Vec模型将每条所述原始数据训练成内容词向量；词性向量确定单元，用于利用NLTK工具对将每条所述原始数据进行词性标注后确定词性向量；位置向量确定单元，用于使用NLTK工具对将每条所述原始数据进行分词后确定位置向量。

虚假评论检测监督学习模型构建模块403，用于根据所述内容词向量、所述词性向量以及所述位置向量通过双向长短期记忆网络，构建虚假评论检测监督学习模型；

所述虚假评论检测监督学习模型构建模块403具体包括：词嵌入表示转化单元，用于利用所述Word2Vec模型将每条所述原始数据转化为词嵌入表示，作为注意力层的输入；词向量获取单元，用于获取所述词嵌入表示中目标词的词向量作为注意力向量；词向量注意力特征矩阵确定单元，用于根据所述注意力向量以及所述词嵌入表示确定词向量注意力特征矩阵，作为双向长短期记忆网络的输入；双向长短期记忆网络的词向量输入矩阵确定单元，用于根据所述词向量注意力特征矩阵以及所述词嵌入表示确定双向长短期记忆网络的词向量输入矩阵；双向长短期记忆网络的词性输入矩阵确定单元，用于将目标词的词性向量作为词性注意力特征矩阵，确定双向长短期记忆网络的词性输入矩阵，作为双向长短期记忆网络的输入；位置输入矩阵确定单元，用于根据所述位置向量确定所述双向长短期记忆网络的位置输入矩阵，作为双向长短期记忆网络的输入；隐藏状态确定单元，用于根据所述词向量注意力特征矩阵、所述词性注意力特征矩阵以及所述位置输入矩阵确定每个时间步长所对应的隐藏状态；特征表示确定单元，用于根据所述隐藏状态确定每个时间步长的连接向量，确定输入序列的特征表示；对数确定单元，用于根据所述特征表示送入线性层，确定对数；虚假评论检测监督学习模型构建单元，用于对所述对数进行激活函数sigmoid归一化处理，构建虚假评论检测监督学习模型。

最大似然训练目标函数以及对抗损失函数确定模块404，用于利用最大似然训练法以及对抗训练法对所述虚假评论检测监督学习模型进行监督学习训练，确定最大似然训练目标函数以及对抗损失函数；

所述最大似然训练目标函数以及对抗损失函数确定模块404具体包括：最大似然训练目标函数确定单元，用于根据公式

对抗损失函数确定单元，用于根据公式

熵最小化函数以及虚拟对抗损失函数确定模块405，用于利用熵最小化法以及虚拟对抗训练法对所述原始数据进行训练，确定熵最小化函数以及虚拟对抗损失函数；

所述熵最小化函数以及虚拟对抗损失函数确定模块405具体包括：熵最小化函数确定单元，用于根据公式

确定熵最小化函数；其中，m为亚马逊Amazon数据集和Golden黄金数据集的原始数据总量；虚拟对抗损失函数确定单元，用于根据公式确定虚拟对抗损失函数；其中，D_KL为相对熵散度计算公式，x^(j)表示为亚马逊Amazon数据集和Golden黄金数据集的原始数据的单词序列，y^(j)为亚马逊Amazon数据集和Golden黄金数据集的原始数据相对应的标签，j表示为Amazon亚马逊数据集和Golden黄金数据集的原始数据中的索引，v^(j)表示为词嵌入中第j个词向量，表示为加入了生成了虚拟对抗扰动的第j个词向量。

半监督虚假评论检测模型确定模块406，用于根据所述最大似然训练目标函数、所述对抗损失函数、所述熵最小化函数以及所述虚拟对抗损失函数构建基于多注意力的混合目标函数的半监督虚假评论检测模型；

检测模块407，用于根据所述基于多注意力的混合目标函数的半监督虚假评论检测模型对虚假评论进行检测。

下面为应用本发明的检测方法及系统的具体实施例：

使用Golden黄金数据集和亚马逊Amazon数据集来验证本方法。Golden黄金数据集包括：800条真实评论数据，800条虚假评论数据。并从亚马逊Amazon数据集中抽取25000条不带标签的评论数据作为实验数据。

收集亚马逊Amazon数据集与Golden黄金数据集文档，将带有标签的Golden黄金数据集中的标签y分为2类，数值分别为：1分和0分。其中，1分对应虚假评论，0分对应真实评论，按照数据集中数据的分布将数据分为训练集与测试集。将不带标签的亚马逊Amazon数据集按照4:1的比例将数据分为训练集与测试集；

使用Word2Vec词转词向量模型将训练集与测试集中的内容训练成内容词向量。后将词向量放入词向量注意力层运算得出词向量输入矩阵，将经过NLTK工具进行词性标注后的数据放入词性注意力层运算得出词性输入矩阵，同时将经过NLTK工具分词后的数据放入位置注意力层运算得出位置输入矩阵。将经过三个注意力层得到的注意力特征矩阵作为输入，输入到三个长短期记忆网络中，将前向长短期记忆网络和后向长短期记忆网络的隐藏状态输出并进行连接。后将三个连接后的向量再进行连接并送入池化层以获得输入序列的特征表示。后将特征表示送入线性层以产生对数。最后使用激活函数sigmoid函数进行归一化，以此构造出虚假评论检测的监督学习模型，用于使用最大似然训练和对抗训练对模型进行监督学习训练。

使用最大似然训练和对抗训练对虚假评论检测模型进行监督学习训练；此外，对亚马逊Amazon数据集和Golden黄金数据集中的原始数据进行熵最小化和虚拟对抗训练，通过这两种方法得到的结果将作为训练期间的正则化程序；后将最大似然训练，熵最小化，对抗训练和虚拟对抗训练的组合作为目标函数；对该整体的基于多注意力的混合目标函数的半监督虚假评论检测模型进行训练，不断修改参数直至分类效果达到最优，表1为本发明所提供的模型参数表，如表1所示。

表1

模型参数基本固定后，用测试集对模型进行评价。

本发明利用监督学习和无监督学习方法结合起来的多注意力的双向长短期记忆网络进行虚假评论检测。通过使用Word2Vec词转词向量模型训练的词向量和数据分别送入带有词向量注意力层、词性注意力层和位置注意力层的双向长短期记忆网络模型后使用无监督学习算法预训练模型的参数，以及使用监督学习进行最大似然训练，对抗训练，非监督学习进行熵最小化和虚拟对抗训练。将目标函数作为上述四种结果的结合，以提高对本发明所用到的两个数据集的分类准确性。

与更复杂的模型相比，通过使用交叉熵损失训练的简单模型能够获得更高的准确度。最后在亚马逊Amazon数据集与Golden黄金数据集上评估我们的模型，实验结果证明了其有效性，训练准确度达到87.2％。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于半监督学习模型的虚假评论检测方法，其特征在于，包括：

2.根据权利要求1所述的基于半监督学习模型的虚假评论检测方法，其特征在于，所述利用词转词向量Word2Vec模型以及自然语言处理工具包NLTK工具对所述原始数据进行处理，确定内容词向量、词性向量以及位置向量，具体包括：

利用Word2Vec模型将每条所述原始数据训练成内容词向量；

3.根据权利要求1所述的基于半监督学习模型的虚假评论检测方法，其特征在于，所述根据所述内容词向量、所述词性向量以及所述位置向量通过双向长短期记忆网络，构建虚假评论检测监督学习模型，具体包括：

获取所述词嵌入表示中目标词的词向量作为注意力向量；

根据所述特征表示送入线性层，确定对数；

4.根据权利要求1所述的基于半监督学习模型的虚假评论检测方法，其特征在于，所述利用最大似然训练法以及对抗训练法对所述虚假评论检测监督学习模型进行监督学习训练，确定最大似然训练目标函数以及对抗损失函数，具体包括：

根据公式确定对抗损失函数；L_AT(θ)为对抗损失函数；v^*(ii)为对抗嵌入；为虚假评论检测监督学习模型的参数。

5.根据权利要求4所述的基于半监督学习模型的虚假评论检测方法，其特征在于，所述利用熵最小化法以及虚拟对抗训练法对所述原始数据进行训练，确定熵最小化函数以及虚拟对抗损失函数，具体包括：

根据公式

根据公式确定虚拟对抗损失函数；其中，D_KL为相对熵散度计算公式，x^(j)表示为亚马逊Amazon数据集和Golden黄金数据集的原始数据的单词序列，y^(j)为亚马逊Amazon数据集和Golden黄金数据集的原始数据相对应的标签，j表示为Amazon亚马逊数据集和Golden黄金数据集的原始数据中的索引，v^(j)表示为词嵌入中第j个词向量，v^*(j)表示为加入了生成了虚拟对抗扰动的第j个词向量。

6.一种基于半监督学习模型的虚假评论检测系统，其特征在于，包括：

7.根据权利要求6所述的基于半监督学习模型的虚假评论检测系统，其特征在于，所述处理模块具体包括：

8.根据权利要求6所述的基于半监督学习模型的虚假评论检测系统，其特征在于，所述虚假评论检测监督学习模型构建模块具体包括：

9.根据权利要求6所述的基于半监督学习模型的虚假评论检测系统，其特征在于，所述最大似然训练目标函数以及对抗损失函数确定模块具体包括：

最大似然训练目标函数确定单元，用于根据公式

对抗损失函数确定单元，用于根据公式

确定对抗损失函数；L_AT(θ)为对抗损失函数；v^*(ii)为对抗嵌入；为虚假评论检测监督学习模型的参数。

10.根据权利要求9所述的基于半监督学习模型的虚假评论检测系统，其特征在于，所述熵最小化函数以及虚拟对抗损失函数确定模块具体包括：

熵最小化函数确定单元，用于根据公式

虚拟对抗损失函数确定单元，用于根据公式确定虚拟对抗损失函数；其中，D_KL为相对熵散度计算公式，x^(j)表示为亚马逊Amazon数据集和Golden黄金数据集的原始数据的单词序列，y^(j)为亚马逊Amazon数据集和Golden黄金数据集的原始数据相对应的标签，j表示为Amazon亚马逊数据集和Golden黄金数据集的原始数据中的索引，v^(j)表示为词嵌入中第j个词向量，v^*(j)表示为加入了生成了虚拟对抗扰动的第j个词向量。