CN110750645A - 基于对抗训练的跨领域虚假评论识别方法 - Google Patents

基于对抗训练的跨领域虚假评论识别方法 Download PDF

Info

Publication number
CN110750645A
CN110750645A CN201910976702.6A CN201910976702A CN110750645A CN 110750645 A CN110750645 A CN 110750645A CN 201910976702 A CN201910976702 A CN 201910976702A CN 110750645 A CN110750645 A CN 110750645A
Authority
CN
China
Prior art keywords
training
model
word
countermeasure
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910976702.6A
Other languages
English (en)
Other versions
CN110750645B (zh
Inventor
任亚峰
姬东鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN201910976702.6A priority Critical patent/CN110750645B/zh
Publication of CN110750645A publication Critical patent/CN110750645A/zh
Application granted granted Critical
Publication of CN110750645B publication Critical patent/CN110750645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及自然语言处理技术领域,具体涉及一种基于对抗训练的跨领域虚假评论识别方法,采用如下步骤:步骤一:对三个领域的数据集进行预处理;步骤二:预训练;步骤三:构建对抗训练模型;步骤四:模型训练;步骤五:模型测试;步骤六:对步骤四的判断结果进行评估、分析和概括,并利用反馈改善模型的性能;它采用先输入词向量上产生扰动,然后将其输入LSTM模型进行对抗训练,最后输出一个最终预测;结果表明,所提模型在三个领域的混合数据集的结果超出了之前的模型,且在跨领域的虚假评论任务上具有更好的泛化能力。

Description

基于对抗训练的跨领域虚假评论识别方法
【技术领域】
本发明涉及自然语言处理技术领域,具体涉及一种基于对抗训练的跨领域虚假评论识别方法。
【背景技术】
在web2.0时代,越来越多的用户会参考在线评论做出购买决策,正面的评论可以为商业组织和个人带来巨大的经济效益和声誉,负面的评论也能影响竞争对手的销售业绩,这些使得虚假评论大量滋生。
自Jindal和Liu(2008)提出虚假评论的概念以来,虚假评论识别研究已经持续了上十年,并且大量的研究方法被提出。这些研究方法主要有两大类:传统统计模型和神经网络模型。用于虚假评论识别的传统统计模型有支持向量机、朴素贝叶斯、逻辑回归等,传统统计模型往往会结合多种特征来进行文本分类,常见的文本特征有词袋特征,词性特征,LIWC特征等,用于虚假评论识别的神经网络模型有CNN/RNN/LSTM等。
对于虚假评论识别任务,数据集的样本量相对较少,收集带标签的数据集费时费力,因此跨领域的虚假评论识别的相关工作还有待进一步研究。现有的跨领域虚假评论识别研究中,相似领域的预测效果较好,但是差异性较大的领域上的预测效果性能不佳。
【发明内容】
本发明的目的在于针对现有技术的缺陷和不足,提供基于对抗训练的跨领域虚假评论识别方法。
本发明所述的基于对抗训练的跨领域虚假评论识别方法,采用如下步骤:
步骤一:对三个领域的数据集进行预处理,三个领域分别为hotel领域、restaurant领域和doctor领域;
步骤二:预训练,使用一个由无标签和有标签的样本训练出来的预训练递归语言模型对词向量和LSTM权值进行初始化;
步骤三:构建对抗训练模型;
步骤四:模型训练,将训练集的词向量构成的嵌入层输入到对抗训练模型,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行对抗训练并得到训练参数;
步骤五:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别;
步骤六:对步骤四的判断结果进行评估、分析和概括,并利用反馈改善模型的性能。
进一步地,步骤一中的对三个领域的数据集进行预处理,采用如下步骤:
步骤I,词频统计:收集三个领域的文本语料,进行词频统计产生一元bow特征;
步骤II,数据集划分:将三个领域的混合数据集划分为训练集、验证集和测试集;
步骤III,打标签:根据语料的类别数量,对语料的不同类别赋予one-hot形式的标签。
进一步地,步骤三中所述的对抗训练模型基于LSTM神经网络模型。
进一步地,步骤三所述的对抗训练模型中,{w(t)|t=1,K,T}表示T个单词序列的集合,对应的目标输出为y;为了将离散的词输入表示成一个连续向量,定义词向量矩阵V∈R(K +1)×D,其中K表示词汇表中的单词数,每一行h对应第i个单词的词向量。注意,K+1个词向量表示序列结尾处的eos符号Veos。在第t步时,输入为离散的单词w(t),对应的词向量为v(t)
进一步地,步骤三所述的对抗训练模型中,对词向量进行了扰动;扰动是有标准界限的,但是模型可以通过学习具有非常大范数的词向量来使扰动变得无关紧要;为了防止这种情况,当对上面定义的模型应用对抗性和虚拟对抗性训练时,我们将词向量vk替换为标准化的词向量
Figure BSA0000192326180000031
其定义为:
Figure BSA0000192326180000032
其中:fi为在所有训练样本中计算得出的第i个单词的频率。
进一步地,步骤三所述的对抗训练是一种新的分类器正则化方法,用于提高对小的、近似最坏情况扰动的鲁棒性;x表示输入,θ表示分类器的参数;训练分类器时,损失函数公式如下:
Figure BSA0000192326180000033
其中:r表示对输入的扰动,
Figure BSA0000192326180000034
是一个常数,表示分类器的参数;在训练过程中的每一步,确定了当前模型
Figure BSA0000192326180000035
的最坏情况下的扰动为radv,并且通过最小化公式来训练模型对这种扰动的鲁棒性;针对r的精确极小化求解,Goodfellow提出通过线性化
Figure BSA0000192326180000036
近似求解该值,通过线性逼近和公式中L2的范数约束,对抗扰动公式如下:
Figure BSA0000192326180000037
利用神经网络中的反向传播,计算出上述扰动;虚拟对抗性训练是一种与对抗性训练密切相关的正则化方法;虚拟对抗性训练带来的额外损失如下:
Figure BSA0000192326180000041
Figure BSA0000192326180000042
其中:KL[p||q]表示分布p与q之间的KL散度,通过最小化式该公式,可以将分类器训练成平滑的,这可以看作是使分类器在对当前模型
Figure BSA0000192326180000043
最敏感的方向上抵抗扰动;
虚拟对抗损失公式只需要输入x,不需要实际的标签y,而在对抗损失则需要标签y,使得可以将虚拟对抗性训练应用于半监督学习;对于计算虚拟对抗损失,利用神经网络中的反向传播来计算近似方程的方法;
为了定义词向量中的对抗扰动,s表示归一化的词向量序列p(y|s;θ)表示在给定s情况下y条件概率模型;其中:θ表示模型的参数;然后将s上的对抗性扰动radv定义为:
Figure BSA0000192326180000045
为了使模型对公式中定义的对抗性扰动具有鲁棒性,用如下公式定义对抗损失:
Figure BSA0000192326180000046
其中:N为标记样本个数;对抗性训练是将负对数似然加随机梯度下降的Ladv最小化;
在文本分类模型的虚拟对抗性训练中,在每个训练步骤中,计算以下近似的虚拟对抗性扰动:
Figure BSA0000192326180000047
其中:d是一个TD维的小随机向量;相当于上述使用Miyato所提方法对公式的二阶泰勒展开和幂函数法的单次迭代;则虚拟对抗损失定义为:
Figure BSA0000192326180000051
其中:N′为已标记和未标记示例的数目。
进一步地:步骤四所述的模型训练,在输出目标y的softmax层和最后一个LSTM层之间,新增了一个隐藏层,维度为30,隐藏层的激活函数为ReLU;对于优化,使用Adam优化器,初始学习率设置为0.0005,指数衰减学习率设置为0.9998,batch_size设置为64;应用了梯度裁剪,并对除词向量之外的所有参数设置梯度裁剪阈值为1.0。
进一步地,步骤四所述的模型训练,使用验证集优化了两个标量超参数,一个是词向量的dropout率,另一个是对抗训练和虚拟对抗训练的规范约束∈。
进一步地,步骤六中的评估、分析和概括包括:对预测数据的准确率、召回率和F值进行评估;总结概括错误发生的主要类型及原因。
本发明具有以下的优点和有益效果:
1、以往的对抗训练多用于图像分类任务,本发明将对抗训练用于虚假评论识别领域,进行了跨领域的虚假评论识别研究;
2、基于提及的三个领域的数据集,以往的工作仅进行了酒店到餐馆和酒店到医生的跨领域研究,本发明全方面的进行了跨领域的实验,包括酒店到餐馆和医生、餐馆到酒店和医生,医生到酒店和餐馆三组实验;
3、本发明首先使用了大量无标签样本进行预训练,获取特征,然后训练模型,在单向LSTM模型的基础上,使用了对抗训练的方法。实验结果表明,本发明在三个领域的混合数据集的结果超出了之前的模型,且在跨领域的虚假评论任务上具有更好的泛化能力。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明中的所提模型的总体框架拓扑图;
图2是本发明中的LSTM的神经网络模型拓扑图;
图3是本发明中的对词向量加了扰动后的神经网络模型拓扑图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
如图1-图3所示,本具体实施方式所述的基于对抗训练的跨领域虚假评论识别方法,采用如下步骤:
步骤一:对三个领域的数据集进行预处理,该三个领域分别为hotel领域、restaurant领域和doctor领域;
步骤二:预训练,使用一个由无标签和有标签的样本训练出来的预训练递归语言模型(Bengio)对词向量和LSTM权值进行初始化;
步骤三:构建对抗训练模型;
步骤四:模型训练,将训练集的词向量构成的嵌入层输入到对抗训练模型,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行对抗训练并得到训练参数;
步骤五:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别;
步骤六:对步骤四的判断结果进行评估、分析和概括,并利用反馈改善模型的性能。
进一步地,步骤一中的对三个领域的数据集进行预处理,采用如下步骤:
步骤I,词频统计:收集三个领域的文本语料,进行词频统计产生一元bow特征;
步骤II,数据集划分:将三个领域的混合数据集划分为训练集、验证集和测试集;
步骤III,打标签:根据语料的类别数量,对语料的不同类别赋予one-hot形式的标签。
进一步地,步骤三中所述的对抗训练模型基于LSTM神经网络模型。
进一步地,步骤三所述的对抗训练模型中,{w(t)|t=1,K,T}表示T个单词序列的集合,对应的目标输出为y;为了将离散的词输入表示成一个连续向量,定义词向量矩阵V∈R(K +1)×D,其中K表示词汇表中的单词数,每一行h对应第i个单词的词向量。注意,K+1个词向量表示序列结尾处的eos符号Veos。在第t步时,输入为离散的单词w(t),对应的词向量为v(t)
进一步地,步骤三所述的对抗训练模型中,对词向量进行了扰动;扰动是有标准界限的,但是模型可以通过学习具有非常大范数的词向量来使扰动变得无关紧要;为了防止这种情况,当对上面定义的模型应用对抗性和虚拟对抗性训练时,我们将词向量vk替换为标准化的词向量
Figure BSA0000192326180000071
其定义为:
Figure BSA0000192326180000081
其中:fi为在所有训练样本中计算得出的第i个单词的频率。
进一步地,步骤三所述的对抗训练是一种新的分类器正则化方法,用于提高对小的、近似最坏情况扰动的鲁棒性;x表示输入,θ表示分类器的参数;训练分类器时,损失函数公式如下:
Figure BSA0000192326180000082
其中:r表示对输入的扰动,
Figure BSA0000192326180000083
是一个常数,表示分类器的参数;在训练过程中的每一步,确定了当前模型
Figure BSA0000192326180000084
的最坏情况下的扰动为radv,并且通过最小化公式来训练模型对这种扰动的鲁棒性;然而,我们不能在一般情况下精确地计算这个值,因为对许多有趣的模型(如神经网络)来说,r的精确极小化是很困难的;Goodfellow等提出通过线性化
Figure BSA0000192326180000085
近似求解该值,通过线性逼近和公式中L2的范数约束,对抗扰动公式如下:
利用神经网络中的反向传播,可以很容易地计算出这种扰动;虚拟对抗性训练是一种与对抗性训练密切相关的正则化方法;虚拟对抗性训练带来的额外损失如下:
Figure BSA0000192326180000087
Figure BSA0000192326180000088
其中:KL[p||q]表示分布p与q之间的KL散度,通过最小化式该公式,可以将分类器训练成平滑的,这可以看作是使分类器在对当前模型
Figure BSA0000192326180000089
最敏感的方向上抵抗扰动;
虚拟对抗损失公式只需要输入x,不需要实际的标签y,而在对抗损失则需要标签y,这使得将虚拟对抗性训练应用于半监督学习成为可能;一般来说,我们无法精确地计算虚拟对抗损失,Miyato等提出利用反向传播有效地计算近似方程的方法。
为了定义词向量中的对抗扰动,s表示归一化的词向量序列
Figure BSA0000192326180000091
p(y|s;θ)表示在给定s情况下y条件概率模型,其中θ表示模型的参数;然后我们将s上的对抗性扰动radv定义为:
为了使模型对公式中定义的对抗性扰动具有鲁棒性,我们用如下公式定义对抗损失:
Figure BSA0000192326180000093
其中:N为标记样本个数;在实验中,对抗性训练是将负对数似然加随机梯度下降的Ladv最小化;
在我们的文本分类模型的虚拟对抗性训练中,在每个训练步骤中,我们计算了以下近似的虚拟对抗性扰动:
Figure BSA0000192326180000094
其中:d是一个TD维的小随机向量;这个近似相当于上述使用Miyato所提方法对公式的二阶泰勒展开和幂函数法的单次迭代;则虚拟对抗损失定义为:
Figure BSA0000192326180000095
其中:N′为已标记和未标记示例的数目。
进一步地:步骤四所述的模型训练,在输出目标y的softmax层和最后一个LSTM层之间,新增了一个隐藏层,维度为30,隐藏层的激活函数为ReLU;
对于优化,使用Adam优化器,初始学习率设置为0.0005,指数衰减学习率设置为0.9998,batch_size设置为64;应用了梯度裁剪,并对除词向量之外的所有参数设置梯度裁剪阈值为1.0。
进一步地,步骤四所述的模型训练,使用验证集优化了两个标量超参数,一个是词向量的dropout率,另一个是对抗训练和虚拟对抗训练的规范约束。
进一步地,步骤六中的评估、分析和概括包括:对预测数据的准确率、召回率和F值进行评估;总结概括错误发生的主要类型及原因。
本发明总体框架图如图1所示;首先,对词向量进行扰动产生对抗样本,然后,在基线模型LSTM的基础上进行对抗训练,对抗样本参与训练产生对抗损失;最后,生成一个预测虚假评论的最终表示。为了验证所提模型的有效性,本发明进行了多组实验。
首先,在混合数据集上,实验地探讨了不同网络模型(SVM、LSTM和所提模型)在虚假评论识别任务上的性能;然后,在不同领域的数据集上,分别使用LSTM和所提模型进行了跨领域的虚假评论识别实验,用以对比分析对抗训练在跨领域虚假评论识别模型上的泛化能力。
LSTM的神经网络模型如图2所示,对词向量加了扰动后的神经网络模型如图3所示。
本发明所采用的语料包含酒店、餐厅和医生三个领域(hotel领域、restaurant领域和doctor领域)的真实和虚假评论。每个领域中,真实评论来源于顾客,虚假评论来源于Turkers和专业雇员。首先收集三个领域的文本语料,进行词频统计产生一元bow特征。为了比较各种模型的有效性,本发明使用了这三个领域的混合数据集进行了一组实验;混合数据集按照80∶10∶10的比例被随机分为训练集、测试集和验证集。
本发明使用一个由无标签和有标签的样本训练出来的预训练递归语言模型对词向量和LSTM权值进行初始化。本发明使用了一个有256个隐藏单元的单向单层LSTM。词向量维度D设置为256,并使用来自256个候选样本的抽样softmax损失用于训练。对于优化,使用Adam优化器来学习参数,训练过程中,batch_size设置为64,初始学习率设置为0.001,指数衰减学习率设置为0.9999,一共训练了10000步。对除词向量之外的所有参数设置梯度裁剪阈值为1.0,在词向量层设置0.5的dropout率。
预训练之后,使用虚拟对抗训练来训练分类器。在输出目标y的softmax层和最后一个LSTM层之间,新增了一个隐藏层,维度为30,隐藏层的激活函数为ReLU。对于优化,我们再次使用Adam优化器,初始学习率设置为0.0005,指数衰减学习率设置为0.9998,batch_size设置为64。再次应用了梯度裁剪,对除词向量之外的所有参数设置梯度裁剪阈值为1.0。
对于每个数据集,将原始的训练集划分为训练集和验证集,并利用所有方法对一些超参数进行了粗略的优化,如调整模型体系结构、批量大小、训练步骤等,并使用词向量dropout验证基本模型的性能。对于每种方法,我们都使用验证集优化了两个标量超参数,一个是词向量的dropout率,另一个是对抗训练和虚拟对抗训练的规范约束∈。注意,对于对抗性训练和虚拟对抗性训练,我们发现在应用词向量dropout后产生扰动使得模型的效果最好。
融合层输出的数据进一步经过全连接层,最后进入到分类器中。分类器选择softmax函数,softmax会对输入进行归一化处理。初始化时需要预先设定数据集类别数,这里所用语料类别数为2(真实或虚假),softmax输出样本属于这2个类别的概率,以其中最大值对应的类别标签作为对测试样本类别的判别。将分类器输出的测试结果与标签对比可知此次测试结果是否正确,然后统计出测试准确率,作为评价通过训练过程获得的模型性能的评价指标。
构建其他对比模型,进行对比测试,混合数据集上的实验结果如表1所示∶
表1:混合数据集结果
Method Accuracy(%) Marco-F1(%)
SVM 68.8 69.0
LSTM 75.7 74.2
our model 84.3 83.9
Ren(2016) 84.1 83.9
表1中给出了不同模型在三个领域的混合数据集上的实验结果。传统的离散模型SVM,结合多种特征,仅给出了68.8%的准确率。对于神经网络模型,LSTM取得了75.7%的准确率,这说明神经网络模型较离散模型的有效性。基于LSTM模型,使用了对抗训练的结果要优于离散模型和LSTM模型,取得了84.3%的准确率。另外,我们还将我们的方法与Ren等的带注意机制的门控递归神经网络进行了比较,实验数据表明,我们的模型在混合数据集上的结果超过了他们所提的模型,即在Marco-F1值相近的情况下,我们取得了更高的准确率。
LSTM模型的跨领域数据集的实验结果如表2所示:
表2:LSTM模型的跨领域数据集结果
表2给出了LSTM模型分别基于每个领域的数据集上的实验结果。其中,用酒店领域数据训练出的模型,在预测餐馆领域时准确率达到了70.3%,而在预测医生领域时准确率只有50.3%。这是因为酒店领域数据和餐馆领域数据具有很多相似的属性,如对环境、位置或服务的描述,而医生领域的数据内容多涉及药物、医术或治疗效果等,因词向量差异较大导致预测结果较餐馆领域要低很多。同样地,餐馆领域模型在预测酒店和医生领域时也表现出了差异,即酒店领域的预测结果较医生领域要高。而医生领域数据训练出来的模型,在预测餐馆领域数据时效果基本接近,准确率仅相差0.2个百分点,原因是因酒店领域数据和餐馆领域数据的相似属性导致的测试集的相似性,故而预测结果较为接近。
所提模型的跨领域数据集的实验结果如表3所示:
表3:跨领域数据集结果
Figure BSA0000192326180000131
表3给出了我们的模型分别基于每个领域的数据集上的实验结果。
首先,同表2数据对比可以发现,本发明模型的全部实验结果,无论是准确率还是Macro-F1值,较基线模型LSTM都有不同程度的提升,说明了本发明模型在跨领域虚假评论识别任务上的有效性。
其次,通过观察发现,提升较为明显的是酒店或餐馆领域模型在预测医生领域的结果,酒店领域到医生领域预测准确率提升了约16个百分点,餐馆领域到医生领域也提升了将近11个百分点,说明我们的模型适应新数据的能力有所提升。
表4:Ren等跨领域数据集结果
Figure BSA0000192326180000141
如表4所示,跟Ren等的结果比较(Ren等仅进行了酒店领域到餐馆和医生领域的预测),用酒店模型训练的分类器,可以看出,在餐馆领域的预测上,本发明的结果较Ren等的差,但是在医生领域,本发明的性能较Ren等的在准确率上提升了近9个百分点,Marco-F1值也有所提升,说明了本发明的模型对陌生数据的适应能力较强,能应对因领域不同而导致的词向量的差异。
也就是说,本发明的模型在跨领域虚假评论识别任务上泛化能力更强,它能弱化不同领域的差异性,使效果达到一种平衡。
另外,不仅仅是酒店领域上的实验,从本发明的另外两组实验结果也可以看出,使用某个领域数据训练出的分类器,在预测另外两个领域数据时效果差异较Ren等的明显减小。如,用酒店领域来预测餐馆和医生领域时,Ren等的准确率差异约为26个百分点,而本发明的模型准确率相差14个百分点;用餐馆领域来预测酒店和医生领域时,准确率相差3.5个百分点;用医生领域来预测酒店和餐馆领域时,准确率仅相差0.2个百分点。
由此看出,本发明的模型明显减小了不同领域预测结果的差异性,这更进一步说明了本发明模型的在虚假评论识别任务上的泛化能力较Ren等的强。
本发明基于三个领域(hotel、restaurant和doctor)的混合数据集,采用不同的机器学习模型对评论文本进行建模,验证所提模型的有效性;其次,分别基于每个领域的数据集,进行了跨领域的虚假识别研究,即用其中一个领域的数据训练模型,验证在其他两个领域上的分类性能。具体地,首先在输入词向量上产生扰动,然后将其输入LSTM模型进行对抗训练,最后输出一个最终预测。结果表明,所提模型在三个领域的混合数据集的结果超出了之前的模型,且在跨领域的虚假评论任务上具有更好的泛化能力。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (9)

1.基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤一:对三个领域的数据集进行预处理,三个领域分别为hotel领域、restaurant领域和doctor领域;
步骤二:预训练,使用一个由无标签和有标签的样本训练出来的预训练递归语言模型对词向量和LSTM权值进行初始化;
步骤三:构建对抗训练模型;
步骤四:模型训练,将训练集的词向量构成的嵌入层输入到对抗训练模型,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行对抗训练并得到训练参数;
步骤五:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别;
步骤六:对步骤四的判断结果进行评估、分析和概括,并利用反馈改善模型的性能。
2.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤一中的对三个领域的数据集进行预处理,采用如下步骤:
步骤I,词频统计:收集三个领域的文本语料,进行词频统计产生一元bow特征;
步骤II,数据集划分:将三个领域的混合数据集划分为训练集、验证集和测试集;
步骤III,打标签:根据语料的类别数量,对语料的不同类别赋予one-hot形式的标签。
3.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤三中所述的对抗训练模型基于LSTM神经网络模型。
4.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤三所述的对抗训练模型中,{w(t)|t=1,K,T}表示T个单词序列的集合,对应的目标输出为y;为了将离散的词输入表示成一个连续向量,定义词向量矩阵V∈R(K+1)×D,其中K表示词汇表中的单词数,每一行h对应第i个单词的词向量。注意,K+1个词向量表示序列结尾处的eos符号Veos。在第t步时,输入为离散的单词w(t),对应的词向量为v(t)
5.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤三所述的对抗训练模型中,对词向量进行了扰动;扰动是有标准界限的,但是模型可以通过学习具有非常大范数的词向量来使扰动变得无关紧要;为了防止这种情况,当对上面定义的模型应用对抗性和虚拟对抗性训练时,我们将词向量vk替换为标准化的词向量
Figure FSA0000192326170000021
其定义为:
Figure FSA0000192326170000022
其中:fi为在所有训练样本中计算得出的第i个单词的频率。
6.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤三所述的对抗训练是一种新的分类器正则化方法,用于提高对小的、近似最坏情况扰动的鲁棒性;x表示输入,θ表示分类器的参数;训练分类器时,损失函数公式如下:
Figure FSA0000192326170000023
其中:r表示对输入的扰动,
Figure FSA0000192326170000024
是一个常数,表示分类器的参数;在训练过程中的每一步,确定了当前模型
Figure FSA0000192326170000025
的最坏情况下的扰动为radv,并且通过最小化公式来训练模型对这种扰动的鲁棒性;针对r的精确极小化求解,Goodfellow提出通过线性化
Figure FSA0000192326170000031
近似求解该值,通过线性逼近和公式中L2的范数约束,对抗扰动公式如下:
Figure FSA0000192326170000032
利用神经网络中的反向传播,计算出上述扰动;虚拟对抗性训练是一种与对抗性训练密切相关的正则化方法;虚拟对抗性训练带来的额外损失如下:
Figure FSA0000192326170000033
Figure FSA0000192326170000034
其中:KL[p||q]表示分布p与q之间的KL散度,通过最小化式该公式,可以将分类器训练成平滑的,这可以看作是使分类器在对当前模型最敏感的方向上抵抗扰动;
虚拟对抗损失公式只需要输入x,不需要实际的标签y,而在对抗损失则需要标签y,使得可以将虚拟对抗性训练应用于半监督学习;对于计算虚拟对抗损失,利用神经网络中的反向传播来计算近似方程的方法;
为了定义词向量中的对抗扰动,s表示归一化的词向量序列
Figure FSA0000192326170000036
p(y|s;θ)表示在给定s情况下y条件概率模型;其中:θ表示模型的参数;然后将s上的对抗性扰动radv定义为:
Figure FSA0000192326170000037
为了使模型对公式中定义的对抗性扰动具有鲁棒性,用如下公式定义对抗损失:
Figure FSA0000192326170000038
其中:N为标记样本个数;对抗性训练是将负对数似然加随机梯度下降的Ladv最小化;
在文本分类模型的虚拟对抗性训练中,在每个训练步骤中,计算以下近似的虚拟对抗性扰动:
Figure FSA0000192326170000041
其中:d是一个TD维的小随机向量;相当于上述使用Miyato所提方法对公式的二阶泰勒展开和幂函数法的单次迭代;则虚拟对抗损失定义为:
其中:N′为已标记和未标记示例的数目。
7.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤四所述的模型训练,在输出目标y的softmax层和最后一个LSTM层之间,新增了一个隐藏层,维度为30,隐藏层的激活函数为ReLU;对于优化,使用Adam优化器,初始学习率设置为0.0005,指数衰减学习率设置为0.9998,batch_size设置为64;应用了梯度裁剪,并对除词向量之外的所有参数设置梯度裁剪阈值为1.0。
8.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤四所述的模型训练,使用验证集优化了两个标量超参数,一个是词向量的dropout率,另一个是对抗训练和虚拟对抗训练的规范约束∈。
9.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤六中的评估、分析和概括包括:对预测数据的准确率、召回率和F值进行评估;总结概括错误发生的主要类型及原因。
CN201910976702.6A 2019-10-15 2019-10-15 基于对抗训练的跨领域虚假评论识别方法 Active CN110750645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910976702.6A CN110750645B (zh) 2019-10-15 2019-10-15 基于对抗训练的跨领域虚假评论识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910976702.6A CN110750645B (zh) 2019-10-15 2019-10-15 基于对抗训练的跨领域虚假评论识别方法

Publications (2)

Publication Number Publication Date
CN110750645A true CN110750645A (zh) 2020-02-04
CN110750645B CN110750645B (zh) 2023-11-07

Family

ID=69278310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910976702.6A Active CN110750645B (zh) 2019-10-15 2019-10-15 基于对抗训练的跨领域虚假评论识别方法

Country Status (1)

Country Link
CN (1) CN110750645B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475649A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质
CN111681091A (zh) * 2020-08-12 2020-09-18 腾讯科技(深圳)有限公司 基于时间域信息的金融风险预测方法、装置及存储介质
CN111984762A (zh) * 2020-08-05 2020-11-24 中国科学院重庆绿色智能技术研究院 一种对抗攻击敏感的文本分类方法
CN112434471A (zh) * 2020-12-11 2021-03-02 恩亿科(北京)数据科技有限公司 提升模型泛化能力的方法、系统、电子设备及存储介质
CN112765319A (zh) * 2021-01-20 2021-05-07 中国电子信息产业集团有限公司第六研究所 一种文本的处理方法、装置、电子设备及存储介质
CN113128199A (zh) * 2021-05-11 2021-07-16 济南大学 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN113239926A (zh) * 2021-06-17 2021-08-10 北京邮电大学 基于对抗的多模态虚假信息检测模型
CN113269228A (zh) * 2021-04-20 2021-08-17 重庆邮电大学 一种图网络分类模型的训练方法、装置、系统及电子设备
CN117573814A (zh) * 2024-01-17 2024-02-20 中电科大数据研究院有限公司 一种舆论态势评估方法、装置、系统以及存储介质
CN117573814B (zh) * 2024-01-17 2024-05-10 中电科大数据研究院有限公司 一种舆论态势评估方法、装置、系统以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025284A (zh) * 2017-04-06 2017-08-08 中南大学 网络评论文本情感倾向的识别方法及卷积神经网络模型

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025284A (zh) * 2017-04-06 2017-08-08 中南大学 网络评论文本情感倾向的识别方法及卷积神经网络模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晓辉;于双元;王全新;徐保民;: "基于对抗训练的文本表示和分类算法" *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475649A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质
CN111475649B (zh) * 2020-04-02 2023-04-07 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质
CN111984762B (zh) * 2020-08-05 2022-12-13 中国科学院重庆绿色智能技术研究院 一种对抗攻击敏感的文本分类方法
CN111984762A (zh) * 2020-08-05 2020-11-24 中国科学院重庆绿色智能技术研究院 一种对抗攻击敏感的文本分类方法
CN111681091A (zh) * 2020-08-12 2020-09-18 腾讯科技(深圳)有限公司 基于时间域信息的金融风险预测方法、装置及存储介质
CN112434471A (zh) * 2020-12-11 2021-03-02 恩亿科(北京)数据科技有限公司 提升模型泛化能力的方法、系统、电子设备及存储介质
CN112765319A (zh) * 2021-01-20 2021-05-07 中国电子信息产业集团有限公司第六研究所 一种文本的处理方法、装置、电子设备及存储介质
CN112765319B (zh) * 2021-01-20 2021-09-03 中国电子信息产业集团有限公司第六研究所 一种文本的处理方法、装置、电子设备及存储介质
CN113269228A (zh) * 2021-04-20 2021-08-17 重庆邮电大学 一种图网络分类模型的训练方法、装置、系统及电子设备
CN113269228B (zh) * 2021-04-20 2022-06-10 重庆邮电大学 一种图网络分类模型的训练方法、装置、系统及电子设备
CN113128199B (zh) * 2021-05-11 2022-06-21 济南大学 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN113128199A (zh) * 2021-05-11 2021-07-16 济南大学 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN113239926B (zh) * 2021-06-17 2022-10-25 北京邮电大学 基于对抗的多模态虚假信息检测模型系统
CN113239926A (zh) * 2021-06-17 2021-08-10 北京邮电大学 基于对抗的多模态虚假信息检测模型
CN117573814A (zh) * 2024-01-17 2024-02-20 中电科大数据研究院有限公司 一种舆论态势评估方法、装置、系统以及存储介质
CN117573814B (zh) * 2024-01-17 2024-05-10 中电科大数据研究院有限公司 一种舆论态势评估方法、装置、系统以及存储介质

Also Published As

Publication number Publication date
CN110750645B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN110750645A (zh) 基于对抗训练的跨领域虚假评论识别方法
Onan Sentiment analysis on product reviews based on weighted word embeddings and deep neural networks
CN108363804B (zh) 基于用户聚类的局部模型加权融合Top-N电影推荐方法
Qu et al. Question answering over freebase via attentive RNN with similarity matrix based CNN
CN107861951A (zh) 智能客服中的会话主题识别方法
Gui et al. Embedding learning with events in heterogeneous information networks
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
Tang et al. Multi-label patent categorization with non-local attention-based graph convolutional network
Wang et al. Mulde: Multi-teacher knowledge distillation for low-dimensional knowledge graph embeddings
Mu et al. Keyphrase extraction with span-based feature representations
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
Li et al. Semi-supervised learning for text classification by layer partitioning
Yu et al. Using BiLSTM with attention mechanism to automatically detect self-admitted technical debt
Chen et al. Utilizing generative adversarial networks for recommendation based on ratings and reviews
Eshmawi et al. Design of Automated Opinion Mining Model Using Optimized Fuzzy Neural Network.
CN114117048A (zh) 一种文本分类的方法、装置、计算机设备及存储介质
Xu et al. Neural topic modeling with deep mutual information estimation
Patidar et al. Automatic conversational helpdesk solution using seq2seq and slot-filling models
CN115481313A (zh) 一种基于文本语义挖掘的新闻推荐方法
Durga et al. Deep-Sentiment: An Effective Deep Sentiment Analysis Using a Decision-Based Recurrent Neural Network (D-RNN)
Guohao et al. Competency analysis in human resources using text classification based on deep neural network
CN108694176A (zh) 文档情感分析的方法、装置、电子设备和可读存储介质
Yeo et al. Sentiment analysis on time-series data using weight priority method on deep learning
Cheng et al. Knowledge-aware method for confusing charge prediction
CN116049349A (zh) 基于多层次注意力和层次类别特征的小样本意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant