CN110532377A

CN110532377A - 一种基于对抗训练和对抗学习网络的半监督文本分类方法

Info

Publication number: CN110532377A
Application number: CN201910395284.1A
Authority: CN
Inventors: 吴骏; 闫梦奎; 郜永祯; 张洛一; 谢俊元
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-12-03
Anticipated expiration: 2039-05-13
Also published as: CN110532377B

Abstract

本发明公开了一种基于对抗训练和对抗学习网络的半监督文本分类方法，在初始化网络阶段，首先初始化预测网络，其次初始化评判网络；对抗学习训练阶段，通过预测网络和评判网络的对抗作用，利用policy gradient策略对预测网络进行不断的优化，直至达到最优的效果；模型预测阶段，使用已经训练好的预测网络对新样本的标签进行预测。该方法利用对抗训练可以有效提高模型的正则化能力，增强模型的鲁棒性，同时借鉴对抗学习可以直接利用未标记样本进行模型的训练，通过对抗学习网络中子网络间的对抗作用不断迭代，能有效提高网络的分类性能。

Description

一种基于对抗训练和对抗学习网络的半监督文本分类方法

技术领域

本发明涉及一种半监督学习和文本分类，具体涉及一种对抗学习、深度半监督学习和强化学习方法。

背景技术

21世纪以来，随着信息技术的快速发展，互联网已经对我们的日常生活产生重大而深刻的影响。在海量的互联网数据中，文本数据最为常见、数据量最大、内容最丰富，因此文本挖掘技术受到了研究者们的广泛关注。实现文本数据挖掘最为常见的手段就是文本分类。传统的文本分类方法通常是以有监督学习的方式进行，为了达到较好的学习效果，通常需要充足的有标记样本且数据噪声越少越好，但这些条件在实际应用中难以得到满足，这是因为获取有标注的文本通常需要大量的人力和时间，而且在样本数据激增时产生噪声的可能性也越大，因此只利用有标记样本训练得到的学习器的泛化性能往往是十分有限的。

半监督文本分类能够同时利用有标记样本和未标记样本训练学习器，通过不同的半监督学习方法同时利用有标记和无标记样本的信息能提高分类器的泛化性能。传统的半监督学习方法通常基于统计机器学习的思路，后来基于神经网络的半监督学习方法变得越来越流行，但它们大都是针对词嵌入做改进，使用不同的方法得到无监督语言模型，而后将得到的词嵌入输入到CNN或RNN中，并未考虑对网络本身做出改进，也没有使用更加强大的方法使模型的鲁棒性和正则化能力更强。

对抗学习方法以神经网络为基础,可以通过原始样本和对抗样本的相互作用、网络与网络之间的对抗不断迭代训练，进而显著提高文本分类器的性能。

发明内容

发明目的：为了解决半监督文本分类问题，本发明提供一种基于对抗训练和对抗学习网络的半监督文本分类方法，该方法基于对抗学习方法进行半监督文本分类，采用的对抗学习方法是基于对抗训练和对抗学习网络，使用基于双向LSTM和attention机制的网络作为预测网络，对输入的词嵌入进行对抗扰动，基于对抗训练损失和虚拟对抗训练损失等混合式代价函数训练，并通过评判网络对预测网络的奖励迭代更新，以有效提升模型的分类性能。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于对抗训练和对抗学习网络的半监督文本分类方法，包括如下步骤：

步骤1，初始化阶段：初始化预测网络和初始化评判网络；在初始化预测网络阶段，根据无监督预训练初始化模型的词嵌入层并进行对抗扰动和虚拟对抗扰动，采取混合式代价函数计算得到预测网络；初始化评判网络阶段，根据得到的预测网络对无标记样本集进行标签预测，并使用交叉熵最小化初始化评判网络；

步骤1中初始化阶段的方法如下：

S101、对输入文本使用序列自编码器进行无监督预训练，将得到的词嵌入保存；

S102、对词嵌入进行对抗扰动和虚拟对抗扰动，并将扰动后得到的序列输入至基于attention 机制和双向LSTM网络的预测网络中；

将包含T个词的序列表示为{x₁,x₂,…,x_t,…,x_T}，其对应的标记为y；词向量矩阵其，中K表示词汇表中的单词数，每一行V_k是关于第k个词的词向量，之所以是K+1行，是因为需要一个额外的词尾标记EOS；作为文本模型，使用基于BiLSTM和attention机制的神经网络模型，在时间步t时，输入是离散的词x_t,与之对应的词向量为e_t，将对抗扰动和虚拟对抗扰动加入到神经网络模型的Embedding层；

当对神经网络模型应用对抗和虚拟对抗训练时，首先要将词嵌入e_k标准化为

用x表示输入，用θ表示分类器的参数，当对抗训练应用于分类器时，对抗样本r_at的生成公式如下：

其中，

通过神经网络使用反向传播得到，其中，表示梯度，∈表示控制扰动的超参数，表示的 L₂范数，表示对x求导，p表示概率，y表示输出，x表示输入，θ表示模型的参数；

用[e₁,e₂,…,e_T]表示词向量序列s,条件概率为p(y|s；θ),在词向量序列s上的对抗扰动需要对进行一点改动，如下公式所示：

所以得到经过对抗扰动后的词向量序列s^*为 s^*＝s+r_at

相应的对抗损失定义为下式：

其中，L_at表示对抗损失，N_L是有标记样本的数量；

虚拟对抗训练引入额外的代价如下：

其中，KL[·]表示求KL散度，r_vat是虚拟对抗扰动，根据下式生成：

得到经过虚拟对抗扰动后的词向量序列s^*为 s^*＝s+r_vat

上式所对应的虚拟对抗损失L_vat定义如下：

其中，N表示有标记样本和无标记样本的总数量，即N＝N_L+N_U，N_U是无标记样本的数量；

S103、基于混合式代价函数训练预测网络，使用梯度下降法使得混合式代价最小化；

S104、根据得到的预测网络对无标记样本集进行标签预测，并使用交叉熵最小化初始化评判网络；

使用评判网络J_ω估计输入数据标签对是真实数据标签对的概率，在所提出框架中，通过使用一组真实标记实例{(x_i,y_i)∈D_L}作为正例和一组未标记实例及其对应的预测标记作为反例来训练J_ω，通过使评判模型的交叉熵最小化得到，评判模型的交叉熵最小化公式：

其中，N_L是有标记样本集，N_U是无标记样本集，P_θ表示预测网络，J_ω表示评判网络。

步骤2，对抗学习阶段：通过预测网络和评判网络的对抗作用，更新网络模型的参数，利用policy gradient策略对预测网络进行不断的优化，直至达到最优的效果；

步骤2中，对抗学习阶段模型建立如下：

基于强化学习来建模预测问题，强化学习将输入x视为状态state，将x相应的预测标记为动作action，预测器被视为策略网络，策略网络确定在模型给定参数θ及状态x的情况下选择动作的概率，策略网络的目标是生成合适的预测标记以最大化期望奖励R：

其中，Y是所有可行的动作空间，f(·)是选择作为动作的action-value函数，在半监督学习中，给定输入数据，action-value函数为预测标记和真实标记y之间的相似度，公式如下：

其中，D_U表示无标记样本集，D_L表示有标记样本集，

最大化式目标函数需要计算关于模型参数θ的梯度，如下：

上式可以变形写成：

使用如下数据来训练，训练数据由m个有标记样本和m个无标记样本组成，近似的梯度计算如下：

因此，预测模型的参数θ的更新公式为：

其中，η表示学习率，θ^t表示当前t时刻的参数，θ^t+1表示t+1时刻的参数值，以上是policy gradient的核心内容；

步骤3，模型预测阶段，使用已经训练好的预测网络对新样本的标签进行预测，得到新样本的标签。

优选的：步骤S102中词嵌入e_k标准化为公式为：

其中，

其中，E(v)表示向量v的期望，Var(v)表示向量v的方差，f_j表示第j个词的词频，e_j表示第j 个词的词嵌入。

优选的：步骤S103通过最小化混合式代价函数来得到模型的参数，混合式代价函数L_mcf如下：

L_mcf＝λ_cL_c+λ_atL_at+λ_vatL_vat

其中，L_c是只在有标记样本集上应用模型的代价函数，L_at是对抗损失，L_vat是虚拟对抗损失，λ_c、λ_at、λ_vat为超参数。

优选的：步骤3中使用已经训练好的预测网络对新样本进行预测，通过softmax函数得出最接近真实情况的标签。

本发明相比现有技术，具有以下有益效果：

本发明使用对抗学习的方法来解决半监督文本分类问题，通过使用对抗扰动对输入进行扰动生成对抗样本，使用虚拟对抗扰动生成虚拟对抗样本，进行使用对抗训练进行预测模型的训练和学习，其中预测模型基于attention机制和双向LSTM网络。同时我们利用评判网络与预测网络的对抗作用迭代更新网络的参数，使得模型能不断调整，优化自身，达到更好的分类性能。基于对抗训练的方法使用对抗训练损失和虚拟对抗训练损失，相当于一种正则化的方式，可以有效避免模型出现过拟合；对抗学习网络使得模型不断迭代优化，有效提升了模型的泛化性能。

附图说明

图1是本发明的整体流程图。

图2是基于对抗学习网络的架构图。

图3是基于对抗训练和对抗学习网络的算法流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于对抗训练和对抗学习网络的半监督文本分类方法，该方法主要包括三个阶段，分别是：预测网络和评判网络的初始化阶段、预测网络和评判网络的对抗学习阶段、模型预测阶段，如图1-3所示，具体包括如下步骤：

步骤1，初始化阶段：初始化预测网络和初始化评判网络。在初始化预测网络阶段，根据无监督预训练初始化模型的词嵌入层并进行对抗扰动和虚拟对抗扰动，采取混合式代价函数计算得到预测网络；初始化评判网络阶段，根据得到的预测网络对无标记样本集进行标签预测，并使用交叉熵最小化初始化评判网络。详细分为如下步骤：

S101、对输入文本使用序列自编码器进行无监督预训练，将得到的词嵌入保存。

S102、对词嵌入进行对抗扰动和虚拟对抗扰动，并将扰动后得到的序列输入至基于attention 机制和双向LSTM网络的预测网络中。

将包含T个词的序列表示为{x₁,x₂,…,x_T}，其对应的标记为y。为了将离散输入转换为连续的向量表示，定义词向量矩阵其中K表示词汇表中的单词数，每一行V_k是关于第k个词的词向量，之所以是K+1行，是因为需要一个额外的词尾标记EOS。作为文本文本模型，使用基于BiLSTM和attention机制的神经网络，在时间步t时，输入是离散的词x_t,与之对应的词向量为e_t，将对抗扰动和虚拟对抗扰动加入到模型的Embedding层。

当对上面定义的模型应用对抗和虚拟对抗训练时，首先要将词嵌入e_k标准化为公式为：

其中，

f_j表示第j个词的词频，通过整个训练样本集求得。

对抗训练用于增强对小的、近似最坏情况下扰动的鲁棒性。用x表示输入，用θ表示分类器的参数，当对抗训练应用于分类器时，对抗样本r_at的生成公式如下：

其中，

它可以通过神经网络使用反向传播得到。

因为要将对抗扰动应用在词向量上，我们用[e₁,e₂,…,e_T]表示词向量序列s,模型的条件概率为p(y|s；θ),其中θ是模型的参数，在词向量序列s上的对抗扰动需要对进行一点改动，如下公式所示：

所以可以得到经过对抗扰动后的词向量序列s^*为 s^*＝s+r_at

相应的对抗损失定义为下式：

其中N_L是有标记样本的数量。

虚拟对抗训练引入额外的代价如下：

其中r_vat是虚拟对抗扰动，根据下式生成：

可以得到经过虚拟对抗扰动后的词向量序列s^*为s^*＝s+r_va

上式所对应的虚拟对抗损失L_vat定义如下：

其中N表示有标记样本和无标记样本的总数量，即N＝N_L+N_U，N_U是无标记样本的数量。 S103、基于混合式代价函数训练预测网络，使用梯度下降法使得混合式代价最小化。

为了能够让模型在有标记样本和无标记样本上训练达到最好的效果，本文提出使用混合式代价函数(Loss of Mixed Cost Function,L_mcf)，通过最小化混合式代价函数来得到模型的参数，混合式代价函数L_mcf定义如下：

L_mcf＝λ_cL_c+λ_atL_at+λ_vatL_vat

其中L_c是只在有标记样本集上应用模型的代价函数，可以使用交叉熵，L_at是对抗损失，L_vat是虚拟对抗损失，λ_c、λ_at、λ_vat为超参数。

S104、根据得到的预测网络对无标记样本集进行标签预测，并使用交叉熵最小化初始化评判网络。

使用评判网络J_ω估计输入数据标签对是真实数据标签对的概率。在所提出框架中，通过使用一组真实标记实例{(x_i,y_i)∈D_L}作为正例和一组未标记实例及其对应的预测标记作为反例来训练J_ω。J_ω需要能尽可能清楚地区分正例和反例，因此通过使评判模型的交叉熵最小化得到，如下式所示：

步骤2，对抗学习阶段：通过预测网络和评判网络的对抗作用，更新网络模型的参数，利用policy gradient策略对预测网络进行不断的优化，直至达到最优的效果。

基于强化学习来建模预测问题，强化学习将输入x视为状态state，将x相应的预测标记为动作action。预测器可以被视为策略网络(Policy Network)，策略网络确定在模型给定参数θ及状态x的情况下选择动作的概率。策略模型的目标是生成合适的预测标记以最大化期望奖励R：

其中Y是所有可行的动作空间，f(·)是选择作为动作的action-value函数，在半监督学习中，给定输入数据，一个好的预测器需要能生成尽可能接近真实标记的预测标签，因此 action-value函数可以被定义为预测标记和真实标记y之间的相似度，公式如下：

在action-value函数中使用的主要优点是J_ω是动态更新的，因此它可以迭代进一步改善预测器P_θ。

最大化式目标函数需要计算关于模型参数θ的梯度，如下：

上式可以变形写成：

在实践中使用小批次的数据来训练，一个批次假设由m个有标记样本和m个无标记样本组成，近似的梯度计算如下：

因此，预测模型的参数θ的更新公式为：

其中η表示学习率，θ^t表示当前t时刻的参数，θ^t+1表示t+1时刻的参数值，以上是policy gradient的核心内容。

使用已经训练好的预测网络对新样本进行预测，通过softmax函数得出最接近真实情况的标签。

结合图2说明对抗学习网络互相对抗学习的过程：

对抗学习网络将self-training和对抗网络的思路相结合，在self-training框架下构建的模型不需要通过实例重构来近似数据分布，因此克服了基于GAN的半监督学习方法的局限性，另一方面，受对抗网络的启发，对抗学习网络中将评判网络J(judge network)引入self-training 以分辨某个数据实例的给定标记是否是真实的，从而降低有可能造成错误累积的风险，使得 self-training变得更加稳定，鲁棒性增强。

假设有标记样本集合D_L表示为D_L＝{(x₁,y₁),…,(x_L,y_L)|x_i∈X,y_i∈Y}，未标记样本集合 D_U表示为D_U＝{(x_L+1,…,x_L+U)|x_i∈X}。将半监督学习的预测网络P形式化为一个强化学习的agent，其中它的状态(state)是输入数据，动作(action)是预测标记。因此，学习问题的主要目标转换为要学习到一个好的策略(policy)，使得所生成的预测标记可以使总的奖励 (reward)期望最大化，可以通过policy gradient的策略学习预测网络P，评判网络J用于评估预测标记并提供评估反馈以指导预测网络P的学习。采用J的输出作为奖励的反馈可以迭代地改进预测网络P，因为奖励也是动态更新的。具体步骤如下：

S201、预测网络利用有标记数据集样本进行学习，学习之后对未标注数据集给出相应的预测。

S202、评判网络同时利用有标记数据集和无标记数据集，并通过交叉熵最小化初始化评判网络。

S203、评判网络根据给出的预测标记给予相应的奖励返回给预测网络。

S204、预测网络根据奖励值通过policy gradient方法不断调整、优化预测网络的参数。

S205、以上步骤迭代重复，直至达到最大迭代次数停止。

图3是基于对抗训练和对抗学习网络的算法流程图，具体步骤为：

S301、对抗学习之前，在有标记样本数据集上通过混合式代价函数预训练预测网络。

S302、根据预测网络对未标记样本给出预测标记。

S303、通过在有标记和无标记样本的预测标记实例上使用最小化交叉熵预训练评判网络。

S304、进入对抗学习的循环主体，在每轮循环中对m个无标记样本通过预测网络得到其预测标签，每迭代k步后，将会根据真实标记样本对和无标记样本及其预测标签对中更新评判网络。

S305、计算更新后的action-value函数，计算期望收益的梯度。

S306、通过policy gradient更新预测网络的参数。

S307、结束。

综上所述，本发明通过使用对抗学习的方法来解决半监督文本分类问题，通过使用对抗扰动对输入进行扰动生成对抗样本，使用虚拟对抗扰动生成虚拟对抗样本，进而使用对抗训练进行预测模型的训练和学习，其中预测模型基于attention机制和双向LSTM网络。同时我们利用评判网络与预测网络的对抗作用迭代更新网络的参数，使得模型能不断调整，优化自身，达到更好的分类性能。基于对抗训练的方法使用对抗训练损失和虚拟对抗训练损失，相当于一种正则化的方式，可以有效避免模型出现过拟合；对抗学习网络使得模型不断迭代优化，有效提升了模型的泛化性能。本方法利用对抗训练可以有效提高模型的正则化能力，增强模型的鲁棒性，同时借鉴对抗学习可以直接利用未标记样本进行模型的训练，通过对抗学习网络中子网络间的对抗作用不断迭代，能有效提高网络的分类性能。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于对抗训练和对抗学习网络的半监督文本分类方法，其特征在于，包括如下步骤：

步骤1中初始化阶段的方法如下：

S102、对词嵌入进行对抗扰动和虚拟对抗扰动，并将扰动后得到的序列输入至基于attention机制和双向LSTM网络的预测网络中；

将包含T个词的序列表示为{x₁，x₂，...，x_t，...，x_T}，其对应的标记为y；词向量矩阵其中K表示词汇表中的单词数，每一行V_k是关于第k个词的词向量，之所以是K+1行，是因为需要一个额外的词尾标记EOS；作为文本模型，使用基于BiLSTM和attention机制的神经网络模型，在时间步t时，输入是离散的词x_t，与之对应的词向量为e_t，将对抗扰动和虚拟对抗扰动加入到神经网络模型的Embedding层；

当对抗训练应用于分类器时，对抗样本r_at的生成公式如下：

其中，

表示梯度，通过神经网络使用反向传播得到，ε表示控制扰动强弱的超参数，表示梯度的L₂范数，表示对x求导，p表示概率，y表示输出，x表示输入，θ表示模型的参数；

用[e₁，e₂，...，e_r]表示词向量序列s，条件概率为p(y|s；θ)，在词向量序列s上的对抗扰动需要对进行一点改动，如下公式所示：

所以得到经过对抗扰动后的词向量序列s^*为

s^*＝S+r_at

相应的对抗损失定义为下式：

其中，L_at表示对抗损失，N_L是有标记样本的数量；

虚拟对抗训练引入额外的代价如下：

得到经过虚拟对抗扰动后的词向量序列s^*为

S^*＝S+r_vat

上式所对应的虚拟对抗损失L_vat定义如下：

使用评判网络J_ω估计输入数据标签对是真实数据标签对的概率，在所提出框架中，通过使用一组真实标记实例{(x_i，y_i)∈D_L}作为正例和一组未标记实例及其对应的预测标记作为反例来训练J_ω，通过使评判模型的交叉熵最小化得到，评判模型的交叉熵最小化公式：

其中，N_L是有标记样本集，N_U是无标记样本集，P_θ表示预测网络，J_ω表示评判网络；

步骤2中，对抗学习阶段模型建立如下：

其中，D_U表示无标记样本集，D_L表示有标记样本集；

最大化式目标函数需要计算关于模型参数θ的梯度，如下：

上式可以变形写成：

因此，预测模型的参数θ的更新公式为：

其中，η表示学习率，θ^t表示当前t时刻的参数，θ^t+1表示t+1时刻的参数值，以上是policygradient的核心内容；

2.根据权利要求1所述基于对抗训练和对抗学习网络的半监督文本分类方法，其特征在于：

步骤S102中词嵌入e_k标准化为公式为：

其中，

其中，E(v)表示向量v的期望，Var(v)表示向量v的方差，f_j表示第j个词的词频，e_j表示第j个词的词嵌入。

3.根据权利要求2所述基于对抗训练和对抗学习网络的半监督文本分类方法，其特征在于：

步骤S103通过最小化混合式代价函数来得到模型的参数，混合式代价函数L_mcf如下：

L_mcf＝λ_cL_c+λ_atL_at+λ_vatL_vat

4.根据权利要求3所述基于对抗训练和对抗学习网络的半监督文本分类方法，其特征在于：

步骤3中使用已经训练好的预测网络对新样本进行预测，通过softmax函数得出最接近真实情况的标签。