CN110750645A

CN110750645A - 基于对抗训练的跨领域虚假评论识别方法

Info

Publication number: CN110750645A
Application number: CN201910976702.6A
Authority: CN
Inventors: 任亚峰; 姬东鸿
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-02-04
Anticipated expiration: 2039-10-15
Also published as: CN110750645B

Abstract

本发明涉及自然语言处理技术领域，具体涉及一种基于对抗训练的跨领域虚假评论识别方法，采用如下步骤：步骤一：对三个领域的数据集进行预处理；步骤二：预训练；步骤三：构建对抗训练模型；步骤四：模型训练；步骤五：模型测试；步骤六：对步骤四的判断结果进行评估、分析和概括，并利用反馈改善模型的性能；它采用先输入词向量上产生扰动，然后将其输入LSTM模型进行对抗训练，最后输出一个最终预测；结果表明，所提模型在三个领域的混合数据集的结果超出了之前的模型，且在跨领域的虚假评论任务上具有更好的泛化能力。

Description

基于对抗训练的跨领域虚假评论识别方法

【技术领域】

本发明涉及自然语言处理技术领域，具体涉及一种基于对抗训练的跨领域虚假评论识别方法。

【背景技术】

在web2.0时代，越来越多的用户会参考在线评论做出购买决策，正面的评论可以为商业组织和个人带来巨大的经济效益和声誉，负面的评论也能影响竞争对手的销售业绩，这些使得虚假评论大量滋生。

自Jindal和Liu(2008)提出虚假评论的概念以来，虚假评论识别研究已经持续了上十年，并且大量的研究方法被提出。这些研究方法主要有两大类：传统统计模型和神经网络模型。用于虚假评论识别的传统统计模型有支持向量机、朴素贝叶斯、逻辑回归等，传统统计模型往往会结合多种特征来进行文本分类，常见的文本特征有词袋特征，词性特征，LIWC特征等，用于虚假评论识别的神经网络模型有CNN/RNN/LSTM等。

对于虚假评论识别任务，数据集的样本量相对较少，收集带标签的数据集费时费力，因此跨领域的虚假评论识别的相关工作还有待进一步研究。现有的跨领域虚假评论识别研究中，相似领域的预测效果较好，但是差异性较大的领域上的预测效果性能不佳。

【发明内容】

本发明的目的在于针对现有技术的缺陷和不足，提供基于对抗训练的跨领域虚假评论识别方法。

本发明所述的基于对抗训练的跨领域虚假评论识别方法，采用如下步骤：

步骤一：对三个领域的数据集进行预处理，三个领域分别为hotel领域、restaurant领域和doctor领域；

步骤二：预训练，使用一个由无标签和有标签的样本训练出来的预训练递归语言模型对词向量和LSTM权值进行初始化；

步骤三：构建对抗训练模型；

步骤四：模型训练，将训练集的词向量构成的嵌入层输入到对抗训练模型，得到的数据先通过一个全连接层，接着再输入到由softmax函数构成的分类器，进行对抗训练并得到训练参数；

步骤五：模型测试，将测试集的词向量构成的嵌入层输入到训练后的模型中，得到的数据先通过一个全连接层，接着再输入到softmax函数构成的分类器，分类器输出文本类别；

步骤六：对步骤四的判断结果进行评估、分析和概括，并利用反馈改善模型的性能。

进一步地，步骤一中的对三个领域的数据集进行预处理，采用如下步骤：

步骤I，词频统计：收集三个领域的文本语料，进行词频统计产生一元bow特征；

步骤II，数据集划分：将三个领域的混合数据集划分为训练集、验证集和测试集；

步骤III，打标签：根据语料的类别数量，对语料的不同类别赋予one-hot形式的标签。

进一步地，步骤三中所述的对抗训练模型基于LSTM神经网络模型。

进一步地，步骤三所述的对抗训练模型中，{w^(t)|t＝1，K，T}表示T个单词序列的集合，对应的目标输出为y；为了将离散的词输入表示成一个连续向量，定义词向量矩阵V∈R^(K ^+1)×D，其中K表示词汇表中的单词数，每一行h对应第i个单词的词向量。注意，K+1个词向量表示序列结尾处的eos符号V_eos。在第t步时，输入为离散的单词w^(t)，对应的词向量为v^(t)。

进一步地，步骤三所述的对抗训练模型中，对词向量进行了扰动；扰动是有标准界限的，但是模型可以通过学习具有非常大范数的词向量来使扰动变得无关紧要；为了防止这种情况，当对上面定义的模型应用对抗性和虚拟对抗性训练时，我们将词向量v_k替换为标准化的词向量

其定义为：

其中：f_i为在所有训练样本中计算得出的第i个单词的频率。

进一步地，步骤三所述的对抗训练是一种新的分类器正则化方法，用于提高对小的、近似最坏情况扰动的鲁棒性；x表示输入，θ表示分类器的参数；训练分类器时，损失函数公式如下：

其中：r表示对输入的扰动，

是一个常数，表示分类器的参数；在训练过程中的每一步，确定了当前模型

的最坏情况下的扰动为r_adv，并且通过最小化公式来训练模型对这种扰动的鲁棒性；针对r的精确极小化求解，Goodfellow提出通过线性化

近似求解该值，通过线性逼近和公式中L₂的范数约束，对抗扰动公式如下：

利用神经网络中的反向传播，计算出上述扰动；虚拟对抗性训练是一种与对抗性训练密切相关的正则化方法；虚拟对抗性训练带来的额外损失如下：

其中：KL[p||q]表示分布p与q之间的KL散度，通过最小化式该公式，可以将分类器训练成平滑的，这可以看作是使分类器在对当前模型

最敏感的方向上抵抗扰动；

虚拟对抗损失公式只需要输入x，不需要实际的标签y，而在对抗损失则需要标签y，使得可以将虚拟对抗性训练应用于半监督学习；对于计算虚拟对抗损失，利用神经网络中的反向传播来计算近似方程的方法；

为了定义词向量中的对抗扰动，s表示归一化的词向量序列p(y|s；θ)表示在给定s情况下y条件概率模型；其中：θ表示模型的参数；然后将s上的对抗性扰动r_adv定义为：

为了使模型对公式中定义的对抗性扰动具有鲁棒性，用如下公式定义对抗损失：

其中：N为标记样本个数；对抗性训练是将负对数似然加随机梯度下降的L_adv最小化；

在文本分类模型的虚拟对抗性训练中，在每个训练步骤中，计算以下近似的虚拟对抗性扰动：

其中：d是一个TD维的小随机向量；相当于上述使用Miyato所提方法对公式的二阶泰勒展开和幂函数法的单次迭代；则虚拟对抗损失定义为：

其中：N′为已标记和未标记示例的数目。

进一步地：步骤四所述的模型训练，在输出目标y的softmax层和最后一个LSTM层之间，新增了一个隐藏层，维度为30，隐藏层的激活函数为ReLU；对于优化，使用Adam优化器，初始学习率设置为0.0005，指数衰减学习率设置为0.9998，batch_size设置为64；应用了梯度裁剪，并对除词向量之外的所有参数设置梯度裁剪阈值为1.0。

进一步地，步骤四所述的模型训练，使用验证集优化了两个标量超参数，一个是词向量的dropout率，另一个是对抗训练和虚拟对抗训练的规范约束∈。

进一步地，步骤六中的评估、分析和概括包括：对预测数据的准确率、召回率和F值进行评估；总结概括错误发生的主要类型及原因。

本发明具有以下的优点和有益效果：

1、以往的对抗训练多用于图像分类任务，本发明将对抗训练用于虚假评论识别领域，进行了跨领域的虚假评论识别研究；

2、基于提及的三个领域的数据集，以往的工作仅进行了酒店到餐馆和酒店到医生的跨领域研究，本发明全方面的进行了跨领域的实验，包括酒店到餐馆和医生、餐馆到酒店和医生，医生到酒店和餐馆三组实验；

3、本发明首先使用了大量无标签样本进行预训练，获取特征，然后训练模型，在单向LSTM模型的基础上，使用了对抗训练的方法。实验结果表明，本发明在三个领域的混合数据集的结果超出了之前的模型，且在跨领域的虚假评论任务上具有更好的泛化能力。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1是本发明中的所提模型的总体框架拓扑图；

图2是本发明中的LSTM的神经网络模型拓扑图；

图3是本发明中的对词向量加了扰动后的神经网络模型拓扑图。

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

如图1-图3所示，本具体实施方式所述的基于对抗训练的跨领域虚假评论识别方法，采用如下步骤：

步骤一：对三个领域的数据集进行预处理，该三个领域分别为hotel领域、restaurant领域和doctor领域；

步骤二：预训练，使用一个由无标签和有标签的样本训练出来的预训练递归语言模型(Bengio)对词向量和LSTM权值进行初始化；

步骤三：构建对抗训练模型；

其定义为：

其中：f_i为在所有训练样本中计算得出的第i个单词的频率。

其中：r表示对输入的扰动，

的最坏情况下的扰动为r_adv，并且通过最小化公式来训练模型对这种扰动的鲁棒性；然而，我们不能在一般情况下精确地计算这个值，因为对许多有趣的模型(如神经网络)来说，r的精确极小化是很困难的；Goodfellow等提出通过线性化

利用神经网络中的反向传播，可以很容易地计算出这种扰动；虚拟对抗性训练是一种与对抗性训练密切相关的正则化方法；虚拟对抗性训练带来的额外损失如下：

最敏感的方向上抵抗扰动；

虚拟对抗损失公式只需要输入x，不需要实际的标签y，而在对抗损失则需要标签y，这使得将虚拟对抗性训练应用于半监督学习成为可能；一般来说，我们无法精确地计算虚拟对抗损失，Miyato等提出利用反向传播有效地计算近似方程的方法。

为了定义词向量中的对抗扰动，s表示归一化的词向量序列

p(y|s；θ)表示在给定s情况下y条件概率模型，其中θ表示模型的参数；然后我们将s上的对抗性扰动r_adv定义为：

为了使模型对公式中定义的对抗性扰动具有鲁棒性，我们用如下公式定义对抗损失：

其中：N为标记样本个数；在实验中，对抗性训练是将负对数似然加随机梯度下降的L_adv最小化；

在我们的文本分类模型的虚拟对抗性训练中，在每个训练步骤中，我们计算了以下近似的虚拟对抗性扰动：

其中：d是一个TD维的小随机向量；这个近似相当于上述使用Miyato所提方法对公式的二阶泰勒展开和幂函数法的单次迭代；则虚拟对抗损失定义为：

其中：N′为已标记和未标记示例的数目。

进一步地：步骤四所述的模型训练，在输出目标y的softmax层和最后一个LSTM层之间，新增了一个隐藏层，维度为30，隐藏层的激活函数为ReLU；

对于优化，使用Adam优化器，初始学习率设置为0.0005，指数衰减学习率设置为0.9998，batch_size设置为64；应用了梯度裁剪，并对除词向量之外的所有参数设置梯度裁剪阈值为1.0。

进一步地，步骤四所述的模型训练，使用验证集优化了两个标量超参数，一个是词向量的dropout率，另一个是对抗训练和虚拟对抗训练的规范约束。

本发明总体框架图如图1所示；首先，对词向量进行扰动产生对抗样本，然后，在基线模型LSTM的基础上进行对抗训练，对抗样本参与训练产生对抗损失；最后，生成一个预测虚假评论的最终表示。为了验证所提模型的有效性，本发明进行了多组实验。

首先，在混合数据集上，实验地探讨了不同网络模型(SVM、LSTM和所提模型)在虚假评论识别任务上的性能；然后，在不同领域的数据集上，分别使用LSTM和所提模型进行了跨领域的虚假评论识别实验，用以对比分析对抗训练在跨领域虚假评论识别模型上的泛化能力。

LSTM的神经网络模型如图2所示，对词向量加了扰动后的神经网络模型如图3所示。

本发明所采用的语料包含酒店、餐厅和医生三个领域(hotel领域、restaurant领域和doctor领域)的真实和虚假评论。每个领域中，真实评论来源于顾客，虚假评论来源于Turkers和专业雇员。首先收集三个领域的文本语料，进行词频统计产生一元bow特征。为了比较各种模型的有效性，本发明使用了这三个领域的混合数据集进行了一组实验；混合数据集按照80∶10∶10的比例被随机分为训练集、测试集和验证集。

本发明使用一个由无标签和有标签的样本训练出来的预训练递归语言模型对词向量和LSTM权值进行初始化。本发明使用了一个有256个隐藏单元的单向单层LSTM。词向量维度D设置为256，并使用来自256个候选样本的抽样softmax损失用于训练。对于优化，使用Adam优化器来学习参数，训练过程中，batch_size设置为64，初始学习率设置为0.001，指数衰减学习率设置为0.9999，一共训练了10000步。对除词向量之外的所有参数设置梯度裁剪阈值为1.0，在词向量层设置0.5的dropout率。

预训练之后，使用虚拟对抗训练来训练分类器。在输出目标y的softmax层和最后一个LSTM层之间，新增了一个隐藏层，维度为30，隐藏层的激活函数为ReLU。对于优化，我们再次使用Adam优化器，初始学习率设置为0.0005，指数衰减学习率设置为0.9998，batch_size设置为64。再次应用了梯度裁剪，对除词向量之外的所有参数设置梯度裁剪阈值为1.0。

对于每个数据集，将原始的训练集划分为训练集和验证集，并利用所有方法对一些超参数进行了粗略的优化，如调整模型体系结构、批量大小、训练步骤等，并使用词向量dropout验证基本模型的性能。对于每种方法，我们都使用验证集优化了两个标量超参数，一个是词向量的dropout率，另一个是对抗训练和虚拟对抗训练的规范约束∈。注意，对于对抗性训练和虚拟对抗性训练，我们发现在应用词向量dropout后产生扰动使得模型的效果最好。

融合层输出的数据进一步经过全连接层，最后进入到分类器中。分类器选择softmax函数，softmax会对输入进行归一化处理。初始化时需要预先设定数据集类别数，这里所用语料类别数为2(真实或虚假)，softmax输出样本属于这2个类别的概率，以其中最大值对应的类别标签作为对测试样本类别的判别。将分类器输出的测试结果与标签对比可知此次测试结果是否正确，然后统计出测试准确率，作为评价通过训练过程获得的模型性能的评价指标。

构建其他对比模型，进行对比测试，混合数据集上的实验结果如表1所示∶

表1：混合数据集结果

Method	Accuracy(％)	Marco-F1(％)
			SVM	68.8	69.0
LSTM	75.7	74.2
			our model	84.3	83.9
Ren(2016)	84.1	83.9

表1中给出了不同模型在三个领域的混合数据集上的实验结果。传统的离散模型SVM，结合多种特征，仅给出了68.8％的准确率。对于神经网络模型，LSTM取得了75.7％的准确率，这说明神经网络模型较离散模型的有效性。基于LSTM模型，使用了对抗训练的结果要优于离散模型和LSTM模型，取得了84.3％的准确率。另外，我们还将我们的方法与Ren等的带注意机制的门控递归神经网络进行了比较，实验数据表明，我们的模型在混合数据集上的结果超过了他们所提的模型，即在Marco-F1值相近的情况下，我们取得了更高的准确率。

LSTM模型的跨领域数据集的实验结果如表2所示：

表2：LSTM模型的跨领域数据集结果

表2给出了LSTM模型分别基于每个领域的数据集上的实验结果。其中，用酒店领域数据训练出的模型，在预测餐馆领域时准确率达到了70.3％，而在预测医生领域时准确率只有50.3％。这是因为酒店领域数据和餐馆领域数据具有很多相似的属性，如对环境、位置或服务的描述，而医生领域的数据内容多涉及药物、医术或治疗效果等，因词向量差异较大导致预测结果较餐馆领域要低很多。同样地，餐馆领域模型在预测酒店和医生领域时也表现出了差异，即酒店领域的预测结果较医生领域要高。而医生领域数据训练出来的模型，在预测餐馆领域数据时效果基本接近，准确率仅相差0.2个百分点，原因是因酒店领域数据和餐馆领域数据的相似属性导致的测试集的相似性，故而预测结果较为接近。

所提模型的跨领域数据集的实验结果如表3所示：

表3：跨领域数据集结果

表3给出了我们的模型分别基于每个领域的数据集上的实验结果。

首先，同表2数据对比可以发现，本发明模型的全部实验结果，无论是准确率还是Macro-F1值，较基线模型LSTM都有不同程度的提升，说明了本发明模型在跨领域虚假评论识别任务上的有效性。

其次，通过观察发现，提升较为明显的是酒店或餐馆领域模型在预测医生领域的结果，酒店领域到医生领域预测准确率提升了约16个百分点，餐馆领域到医生领域也提升了将近11个百分点，说明我们的模型适应新数据的能力有所提升。

表4：Ren等跨领域数据集结果

如表4所示，跟Ren等的结果比较(Ren等仅进行了酒店领域到餐馆和医生领域的预测)，用酒店模型训练的分类器，可以看出，在餐馆领域的预测上，本发明的结果较Ren等的差，但是在医生领域，本发明的性能较Ren等的在准确率上提升了近9个百分点，Marco-F1值也有所提升，说明了本发明的模型对陌生数据的适应能力较强，能应对因领域不同而导致的词向量的差异。

也就是说，本发明的模型在跨领域虚假评论识别任务上泛化能力更强，它能弱化不同领域的差异性，使效果达到一种平衡。

另外，不仅仅是酒店领域上的实验，从本发明的另外两组实验结果也可以看出，使用某个领域数据训练出的分类器，在预测另外两个领域数据时效果差异较Ren等的明显减小。如，用酒店领域来预测餐馆和医生领域时，Ren等的准确率差异约为26个百分点，而本发明的模型准确率相差14个百分点；用餐馆领域来预测酒店和医生领域时，准确率相差3.5个百分点；用医生领域来预测酒店和餐馆领域时，准确率仅相差0.2个百分点。

由此看出，本发明的模型明显减小了不同领域预测结果的差异性，这更进一步说明了本发明模型的在虚假评论识别任务上的泛化能力较Ren等的强。

本发明基于三个领域(hotel、restaurant和doctor)的混合数据集，采用不同的机器学习模型对评论文本进行建模，验证所提模型的有效性；其次，分别基于每个领域的数据集，进行了跨领域的虚假识别研究，即用其中一个领域的数据训练模型，验证在其他两个领域上的分类性能。具体地，首先在输入词向量上产生扰动，然后将其输入LSTM模型进行对抗训练，最后输出一个最终预测。结果表明，所提模型在三个领域的混合数据集的结果超出了之前的模型，且在跨领域的虚假评论任务上具有更好的泛化能力。

以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

Claims

1.基于对抗训练的跨领域虚假评论识别方法，其特征在于：步骤一：对三个领域的数据集进行预处理，三个领域分别为hotel领域、restaurant领域和doctor领域；

步骤三：构建对抗训练模型；

2.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法，其特征在于：步骤一中的对三个领域的数据集进行预处理，采用如下步骤：

3.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法，其特征在于：步骤三中所述的对抗训练模型基于LSTM神经网络模型。

4.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法，其特征在于：步骤三所述的对抗训练模型中，{w^(t)|t＝1，K，T}表示T个单词序列的集合，对应的目标输出为y；为了将离散的词输入表示成一个连续向量，定义词向量矩阵V∈R^(K+1)×D，其中K表示词汇表中的单词数，每一行h对应第i个单词的词向量。注意，K+1个词向量表示序列结尾处的eos符号V_eos。在第t步时，输入为离散的单词w^(t)，对应的词向量为v^(t)。

5.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法，其特征在于：步骤三所述的对抗训练模型中，对词向量进行了扰动；扰动是有标准界限的，但是模型可以通过学习具有非常大范数的词向量来使扰动变得无关紧要；为了防止这种情况，当对上面定义的模型应用对抗性和虚拟对抗性训练时，我们将词向量v_k替换为标准化的词向量

其定义为：

其中：f_i为在所有训练样本中计算得出的第i个单词的频率。

6.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法，其特征在于：步骤三所述的对抗训练是一种新的分类器正则化方法，用于提高对小的、近似最坏情况扰动的鲁棒性；x表示输入，θ表示分类器的参数；训练分类器时，损失函数公式如下：

其中：r表示对输入的扰动，

其中：KL[p||q]表示分布p与q之间的KL散度，通过最小化式该公式，可以将分类器训练成平滑的，这可以看作是使分类器在对当前模型最敏感的方向上抵抗扰动；

为了定义词向量中的对抗扰动，s表示归一化的词向量序列

p(y|s；θ)表示在给定s情况下y条件概率模型；其中：θ表示模型的参数；然后将s上的对抗性扰动r_adv定义为：

其中：N′为已标记和未标记示例的数目。

7.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法，其特征在于：步骤四所述的模型训练，在输出目标y的softmax层和最后一个LSTM层之间，新增了一个隐藏层，维度为30，隐藏层的激活函数为ReLU；对于优化，使用Adam优化器，初始学习率设置为0.0005，指数衰减学习率设置为0.9998，batch_size设置为64；应用了梯度裁剪，并对除词向量之外的所有参数设置梯度裁剪阈值为1.0。

8.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法，其特征在于：步骤四所述的模型训练，使用验证集优化了两个标量超参数，一个是词向量的dropout率，另一个是对抗训练和虚拟对抗训练的规范约束∈。

9.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法，其特征在于：步骤六中的评估、分析和概括包括：对预测数据的准确率、召回率和F值进行评估；总结概括错误发生的主要类型及原因。