CN110532377A - 一种基于对抗训练和对抗学习网络的半监督文本分类方法 - Google Patents
一种基于对抗训练和对抗学习网络的半监督文本分类方法 Download PDFInfo
- Publication number
- CN110532377A CN110532377A CN201910395284.1A CN201910395284A CN110532377A CN 110532377 A CN110532377 A CN 110532377A CN 201910395284 A CN201910395284 A CN 201910395284A CN 110532377 A CN110532377 A CN 110532377A
- Authority
- CN
- China
- Prior art keywords
- network
- model
- confrontation
- prediction
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 62
- 230000009977 dual effect Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000008485 antagonism Effects 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 28
- 230000009471 action Effects 0.000 claims description 12
- 239000003550 marker Substances 0.000 claims description 12
- 238000003780 insertion Methods 0.000 claims description 8
- 230000037431 insertion Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于对抗训练和对抗学习网络的半监督文本分类方法,在初始化网络阶段,首先初始化预测网络,其次初始化评判网络;对抗学习训练阶段,通过预测网络和评判网络的对抗作用,利用policy gradient策略对预测网络进行不断的优化,直至达到最优的效果;模型预测阶段,使用已经训练好的预测网络对新样本的标签进行预测。该方法利用对抗训练可以有效提高模型的正则化能力,增强模型的鲁棒性,同时借鉴对抗学习可以直接利用未标记样本进行模型的训练,通过对抗学习网络中子网络间的对抗作用不断迭代,能有效提高网络的分类性能。
Description
技术领域
本发明涉及一种半监督学习和文本分类,具体涉及一种对抗学习、深度半监督学习和强化学习方法。
背景技术
21世纪以来,随着信息技术的快速发展,互联网已经对我们的日常生活产生重大而深刻的影响。在海量的互联网数据中,文本数据最为常见、数据量最大、内容最丰富,因此文本挖掘技术受到了研究者们的广泛关注。实现文本数据挖掘最为常见的手段就是文本分类。传统的文本分类方法通常是以有监督学习的方式进行,为了达到较好的学习效果,通常需要充足的有标记样本且数据噪声越少越好,但这些条件在实际应用中难以得到满足,这是因为获取有标注的文本通常需要大量的人力和时间,而且在样本数据激增时产生噪声的可能性也越大,因此只利用有标记样本训练得到的学习器的泛化性能往往是十分有限的。
半监督文本分类能够同时利用有标记样本和未标记样本训练学习器,通过不同的半监督学习方法同时利用有标记和无标记样本的信息能提高分类器的泛化性能。传统的半监督学习方法通常基于统计机器学习的思路,后来基于神经网络的半监督学习方法变得越来越流行,但它们大都是针对词嵌入做改进,使用不同的方法得到无监督语言模型,而后将得到的词嵌入输入到CNN或RNN中,并未考虑对网络本身做出改进,也没有使用更加强大的方法使模型的鲁棒性和正则化能力更强。
对抗学习方法以神经网络为基础,可以通过原始样本和对抗样本的相互作用、网络与网络之间的对抗不断迭代训练,进而显著提高文本分类器的性能。
发明内容
发明目的:为了解决半监督文本分类问题,本发明提供一种基于对抗训练和对抗学习网络的半监督文本分类方法,该方法基于对抗学习方法进行半监督文本分类,采用的对抗学习方法是基于对抗训练和对抗学习网络,使用基于双向LSTM和attention机制的网络作为预测网络,对输入的词嵌入进行对抗扰动,基于对抗训练损失和虚拟对抗训练损失等混合式代价函数训练,并通过评判网络对预测网络的奖励迭代更新,以有效提升模型的分类性能。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于对抗训练和对抗学习网络的半监督文本分类方法,包括如下步骤:
步骤1,初始化阶段:初始化预测网络和初始化评判网络;在初始化预测网络阶段,根据无监督预训练初始化模型的词嵌入层并进行对抗扰动和虚拟对抗扰动,采取混合式代价函数计算得到预测网络;初始化评判网络阶段,根据得到的预测网络对无标记样本集进行标签预测,并使用交叉熵最小化初始化评判网络;
步骤1中初始化阶段的方法如下:
S101、对输入文本使用序列自编码器进行无监督预训练,将得到的词嵌入保存;
S102、对词嵌入进行对抗扰动和虚拟对抗扰动,并将扰动后得到的序列输入至基于attention 机制和双向LSTM网络的预测网络中;
将包含T个词的序列表示为{x1,x2,…,xt,…,xT},其对应的标记为y;词向量矩阵其,中K表示词汇表中的单词数,每一行Vk是关于第k个词的词向量,之所以是K+1行,是因为需要一个额外的词尾标记EOS;作为文本模型,使用基于BiLSTM和attention机制的神经网络模型,在时间步t时,输入是离散的词xt,与之对应的词向量为et,将对抗扰动和虚拟对抗扰动加入到神经网络模型的Embedding层;
当对神经网络模型应用对抗和虚拟对抗训练时,首先要将词嵌入ek标准化为
用x表示输入,用θ表示分类器的参数,当对抗训练应用于分类器时,对抗样本rat的生成公式如下:
其中,
通过神经网络使用反向传播得到,其中,表示梯度,∈表示控制扰动的超参数,表示的 L2范数,表示对x求导,p表示概率,y表示输出,x表示输入,θ表示模型的参数;
用[e1,e2,…,eT]表示词向量序列s,条件概率为p(y|s;θ),在词向量序列s上的对抗扰动需要对进行一点改动,如下公式所示:
所以得到经过对抗扰动后的词向量序列s*为 s*=s+rat
相应的对抗损失定义为下式:
其中,Lat表示对抗损失,NL是有标记样本的数量;
虚拟对抗训练引入额外的代价如下:
其中,KL[·]表示求KL散度,rvat是虚拟对抗扰动,根据下式生成:
得到经过虚拟对抗扰动后的词向量序列s*为 s*=s+rvat
上式所对应的虚拟对抗损失Lvat定义如下:
其中,N表示有标记样本和无标记样本的总数量,即N=NL+NU,NU是无标记样本的数量;
S103、基于混合式代价函数训练预测网络,使用梯度下降法使得混合式代价最小化;
S104、根据得到的预测网络对无标记样本集进行标签预测,并使用交叉熵最小化初始化评判网络;
使用评判网络Jω估计输入数据标签对是真实数据标签对的概率,在所提出框架中,通过使用一组真实标记实例{(xi,yi)∈DL}作为正例和一组未标记实例及其对应的预测标记作为反例来训练Jω,通过使评判模型的交叉熵最小化得到,评判模型的交叉熵最小化公式:
其中,NL是有标记样本集,NU是无标记样本集,Pθ表示预测网络,Jω表示评判网络。
步骤2,对抗学习阶段:通过预测网络和评判网络的对抗作用,更新网络模型的参数,利用policy gradient策略对预测网络进行不断的优化,直至达到最优的效果;
步骤2中,对抗学习阶段模型建立如下:
基于强化学习来建模预测问题,强化学习将输入x视为状态state,将x相应的预测标记为动作action,预测器被视为策略网络,策略网络确定在模型给定参数θ及状态x的情况下选择动作的概率,策略网络的目标是生成合适的预测标记以最大化期望奖励R:
其中,Y是所有可行的动作空间,f(·)是选择作为动作的action-value函数,在半监督学习中,给定输入数据,action-value函数为预测标记和真实标记y之间的相似度,公式如下:
其中,DU表示无标记样本集,DL表示有标记样本集,
最大化式目标函数需要计算关于模型参数θ的梯度,如下:
上式可以变形写成:
使用如下数据来训练,训练数据由m个有标记样本和m个无标记样本组成,近似的梯度计算如下:
因此,预测模型的参数θ的更新公式为:
其中,η表示学习率,θt表示当前t时刻的参数,θt+1表示t+1时刻的参数值,以上是policy gradient的核心内容;
步骤3,模型预测阶段,使用已经训练好的预测网络对新样本的标签进行预测,得到新样本的标签。
优选的:步骤S102中词嵌入ek标准化为公式为:
其中,
其中,E(v)表示向量v的期望,Var(v)表示向量v的方差,fj表示第j个词的词频,ej表示第j 个词的词嵌入。
优选的:步骤S103通过最小化混合式代价函数来得到模型的参数,混合式代价函数Lmcf如下:
Lmcf=λcLc+λatLat+λvatLvat
其中,Lc是只在有标记样本集上应用模型的代价函数,Lat是对抗损失,Lvat是虚拟对抗损失,λc、λat、λvat为超参数。
优选的:步骤3中使用已经训练好的预测网络对新样本进行预测,通过softmax函数得出最接近真实情况的标签。
本发明相比现有技术,具有以下有益效果:
本发明使用对抗学习的方法来解决半监督文本分类问题,通过使用对抗扰动对输入进行扰动生成对抗样本,使用虚拟对抗扰动生成虚拟对抗样本,进行使用对抗训练进行预测模型的训练和学习,其中预测模型基于attention机制和双向LSTM网络。同时我们利用评判网络与预测网络的对抗作用迭代更新网络的参数,使得模型能不断调整,优化自身,达到更好的分类性能。基于对抗训练的方法使用对抗训练损失和虚拟对抗训练损失,相当于一种正则化的方式,可以有效避免模型出现过拟合;对抗学习网络使得模型不断迭代优化,有效提升了模型的泛化性能。
附图说明
图1是本发明的整体流程图。
图2是基于对抗学习网络的架构图。
图3是基于对抗训练和对抗学习网络的算法流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于对抗训练和对抗学习网络的半监督文本分类方法,该方法主要包括三个阶段,分别是:预测网络和评判网络的初始化阶段、预测网络和评判网络的对抗学习阶段、模型预测阶段,如图1-3所示,具体包括如下步骤:
步骤1,初始化阶段:初始化预测网络和初始化评判网络。在初始化预测网络阶段,根据无监督预训练初始化模型的词嵌入层并进行对抗扰动和虚拟对抗扰动,采取混合式代价函数计算得到预测网络;初始化评判网络阶段,根据得到的预测网络对无标记样本集进行标签预测,并使用交叉熵最小化初始化评判网络。详细分为如下步骤:
S101、对输入文本使用序列自编码器进行无监督预训练,将得到的词嵌入保存。
S102、对词嵌入进行对抗扰动和虚拟对抗扰动,并将扰动后得到的序列输入至基于attention 机制和双向LSTM网络的预测网络中。
将包含T个词的序列表示为{x1,x2,…,xT},其对应的标记为y。为了将离散输入转换为连续的向量表示,定义词向量矩阵其中K表示词汇表中的单词数,每一行Vk是关于第k个词的词向量,之所以是K+1行,是因为需要一个额外的词尾标记EOS。作为文本文本模型,使用基于BiLSTM和attention机制的神经网络,在时间步t时,输入是离散的词xt,与之对应的词向量为et,将对抗扰动和虚拟对抗扰动加入到模型的Embedding层。
当对上面定义的模型应用对抗和虚拟对抗训练时,首先要将词嵌入ek标准化为公式为:
其中,
fj表示第j个词的词频,通过整个训练样本集求得。
对抗训练用于增强对小的、近似最坏情况下扰动的鲁棒性。用x表示输入,用θ表示分类器的参数,当对抗训练应用于分类器时,对抗样本rat的生成公式如下:
其中,
它可以通过神经网络使用反向传播得到。
因为要将对抗扰动应用在词向量上,我们用[e1,e2,…,eT]表示词向量序列s,模型的条件概率为p(y|s;θ),其中θ是模型的参数,在词向量序列s上的对抗扰动需要对进行一点改动,如下公式所示:
所以可以得到经过对抗扰动后的词向量序列s*为 s*=s+rat
相应的对抗损失定义为下式:
其中NL是有标记样本的数量。
虚拟对抗训练引入额外的代价如下:
其中rvat是虚拟对抗扰动,根据下式生成:
可以得到经过虚拟对抗扰动后的词向量序列s*为s*=s+rva
上式所对应的虚拟对抗损失Lvat定义如下:
其中N表示有标记样本和无标记样本的总数量,即N=NL+NU,NU是无标记样本的数量。 S103、基于混合式代价函数训练预测网络,使用梯度下降法使得混合式代价最小化。
为了能够让模型在有标记样本和无标记样本上训练达到最好的效果,本文提出使用混合式代价函数(Loss of Mixed Cost Function,Lmcf),通过最小化混合式代价函数来得到模型的参数,混合式代价函数Lmcf定义如下:
Lmcf=λcLc+λatLat+λvatLvat
其中Lc是只在有标记样本集上应用模型的代价函数,可以使用交叉熵,Lat是对抗损失,Lvat是虚拟对抗损失,λc、λat、λvat为超参数。
S104、根据得到的预测网络对无标记样本集进行标签预测,并使用交叉熵最小化初始化评判网络。
使用评判网络Jω估计输入数据标签对是真实数据标签对的概率。在所提出框架中,通过使用一组真实标记实例{(xi,yi)∈DL}作为正例和一组未标记实例及其对应的预测标记作为反例来训练Jω。Jω需要能尽可能清楚地区分正例和反例,因此通过使评判模型的交叉熵最小化得到,如下式所示:
步骤2,对抗学习阶段:通过预测网络和评判网络的对抗作用,更新网络模型的参数,利用policy gradient策略对预测网络进行不断的优化,直至达到最优的效果。
基于强化学习来建模预测问题,强化学习将输入x视为状态state,将x相应的预测标记为动作action。预测器可以被视为策略网络(Policy Network),策略网络确定在模型给定参数θ及状态x的情况下选择动作的概率。策略模型的目标是生成合适的预测标记以最大化期望奖励R:
其中Y是所有可行的动作空间,f(·)是选择作为动作的action-value函数,在半监督学习中,给定输入数据,一个好的预测器需要能生成尽可能接近真实标记的预测标签,因此 action-value函数可以被定义为预测标记和真实标记y之间的相似度,公式如下:
在action-value函数中使用的主要优点是Jω是动态更新的,因此它可以迭代进一步改善预测器Pθ。
最大化式目标函数需要计算关于模型参数θ的梯度,如下:
上式可以变形写成:
在实践中使用小批次的数据来训练,一个批次假设由m个有标记样本和m个无标记样本组成,近似的梯度计算如下:
因此,预测模型的参数θ的更新公式为:
其中η表示学习率,θt表示当前t时刻的参数,θt+1表示t+1时刻的参数值,以上是policy gradient的核心内容。
步骤3,模型预测阶段,使用已经训练好的预测网络对新样本的标签进行预测,得到新样本的标签。
使用已经训练好的预测网络对新样本进行预测,通过softmax函数得出最接近真实情况的标签。
结合图2说明对抗学习网络互相对抗学习的过程:
对抗学习网络将self-training和对抗网络的思路相结合,在self-training框架下构建的模型不需要通过实例重构来近似数据分布,因此克服了基于GAN的半监督学习方法的局限性,另一方面,受对抗网络的启发,对抗学习网络中将评判网络J(judge network)引入self-training 以分辨某个数据实例的给定标记是否是真实的,从而降低有可能造成错误累积的风险,使得 self-training变得更加稳定,鲁棒性增强。
假设有标记样本集合DL表示为DL={(x1,y1),…,(xL,yL)|xi∈X,yi∈Y},未标记样本集合 DU表示为DU={(xL+1,…,xL+U)|xi∈X}。将半监督学习的预测网络P形式化为一个强化学习的agent,其中它的状态(state)是输入数据,动作(action)是预测标记。因此,学习问题的主要目标转换为要学习到一个好的策略(policy),使得所生成的预测标记可以使总的奖励 (reward)期望最大化,可以通过policy gradient的策略学习预测网络P,评判网络J用于评估预测标记并提供评估反馈以指导预测网络P的学习。采用J的输出作为奖励的反馈可以迭代地改进预测网络P,因为奖励也是动态更新的。具体步骤如下:
S201、预测网络利用有标记数据集样本进行学习,学习之后对未标注数据集给出相应的预测。
S202、评判网络同时利用有标记数据集和无标记数据集,并通过交叉熵最小化初始化评判网络。
S203、评判网络根据给出的预测标记给予相应的奖励返回给预测网络。
S204、预测网络根据奖励值通过policy gradient方法不断调整、优化预测网络的参数。
S205、以上步骤迭代重复,直至达到最大迭代次数停止。
图3是基于对抗训练和对抗学习网络的算法流程图,具体步骤为:
S301、对抗学习之前,在有标记样本数据集上通过混合式代价函数预训练预测网络。
S302、根据预测网络对未标记样本给出预测标记。
S303、通过在有标记和无标记样本的预测标记实例上使用最小化交叉熵预训练评判网络。
S304、进入对抗学习的循环主体,在每轮循环中对m个无标记样本通过预测网络得到其预测标签,每迭代k步后,将会根据真实标记样本对和无标记样本及其预测标签对中更新评判网络。
S305、计算更新后的action-value函数,计算期望收益的梯度。
S306、通过policy gradient更新预测网络的参数。
S307、结束。
综上所述,本发明通过使用对抗学习的方法来解决半监督文本分类问题,通过使用对抗扰动对输入进行扰动生成对抗样本,使用虚拟对抗扰动生成虚拟对抗样本,进而使用对抗训练进行预测模型的训练和学习,其中预测模型基于attention机制和双向LSTM网络。同时我们利用评判网络与预测网络的对抗作用迭代更新网络的参数,使得模型能不断调整,优化自身,达到更好的分类性能。基于对抗训练的方法使用对抗训练损失和虚拟对抗训练损失,相当于一种正则化的方式,可以有效避免模型出现过拟合;对抗学习网络使得模型不断迭代优化,有效提升了模型的泛化性能。本方法利用对抗训练可以有效提高模型的正则化能力,增强模型的鲁棒性,同时借鉴对抗学习可以直接利用未标记样本进行模型的训练,通过对抗学习网络中子网络间的对抗作用不断迭代,能有效提高网络的分类性能。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于对抗训练和对抗学习网络的半监督文本分类方法,其特征在于,包括如下步骤:
步骤1,初始化阶段:初始化预测网络和初始化评判网络;在初始化预测网络阶段,根据无监督预训练初始化模型的词嵌入层并进行对抗扰动和虚拟对抗扰动,采取混合式代价函数计算得到预测网络;初始化评判网络阶段,根据得到的预测网络对无标记样本集进行标签预测,并使用交叉熵最小化初始化评判网络;
步骤1中初始化阶段的方法如下:
S101、对输入文本使用序列自编码器进行无监督预训练,将得到的词嵌入保存;
S102、对词嵌入进行对抗扰动和虚拟对抗扰动,并将扰动后得到的序列输入至基于attention机制和双向LSTM网络的预测网络中;
将包含T个词的序列表示为{x1,x2,...,xt,...,xT},其对应的标记为y;词向量矩阵其中K表示词汇表中的单词数,每一行Vk是关于第k个词的词向量,之所以是K+1行,是因为需要一个额外的词尾标记EOS;作为文本模型,使用基于BiLSTM和attention机制的神经网络模型,在时间步t时,输入是离散的词xt,与之对应的词向量为et,将对抗扰动和虚拟对抗扰动加入到神经网络模型的Embedding层;
当对神经网络模型应用对抗和虚拟对抗训练时,首先要将词嵌入ek标准化为
当对抗训练应用于分类器时,对抗样本rat的生成公式如下:
其中,
表示梯度,通过神经网络使用反向传播得到,ε表示控制扰动强弱的超参数,表示梯度的L2范数,表示对x求导,p表示概率,y表示输出,x表示输入,θ表示模型的参数;
用[e1,e2,...,er]表示词向量序列s,条件概率为p(y|s;θ),在词向量序列s上的对抗扰动需要对进行一点改动,如下公式所示:
所以得到经过对抗扰动后的词向量序列s*为
s*=S+rat
相应的对抗损失定义为下式:
其中,Lat表示对抗损失,NL是有标记样本的数量;
虚拟对抗训练引入额外的代价如下:
其中,KL[·]表示求KL散度,rvat是虚拟对抗扰动,根据下式生成:
得到经过虚拟对抗扰动后的词向量序列s*为
S*=S+rvat
上式所对应的虚拟对抗损失Lvat定义如下:
其中,N表示有标记样本和无标记样本的总数量,即N=NL+NU,NU是无标记样本的数量;
S103、基于混合式代价函数训练预测网络,使用梯度下降法使得混合式代价最小化;
S104、根据得到的预测网络对无标记样本集进行标签预测,并使用交叉熵最小化初始化评判网络;
使用评判网络Jω估计输入数据标签对是真实数据标签对的概率,在所提出框架中,通过使用一组真实标记实例{(xi,yi)∈DL}作为正例和一组未标记实例及其对应的预测标记作为反例来训练Jω,通过使评判模型的交叉熵最小化得到,评判模型的交叉熵最小化公式:
其中,NL是有标记样本集,NU是无标记样本集,Pθ表示预测网络,Jω表示评判网络;
步骤2,对抗学习阶段:通过预测网络和评判网络的对抗作用,更新网络模型的参数,利用policy gradient策略对预测网络进行不断的优化,直至达到最优的效果;
步骤2中,对抗学习阶段模型建立如下:
基于强化学习来建模预测问题,强化学习将输入x视为状态state,将x相应的预测标记为动作action,预测器被视为策略网络,策略网络确定在模型给定参数θ及状态x的情况下选择动作的概率,策略网络的目标是生成合适的预测标记以最大化期望奖励R:
其中,Y是所有可行的动作空间,f(·)是选择作为动作的action-value函数,在半监督学习中,给定输入数据,action-value函数为预测标记和真实标记y之间的相似度,公式如下:
其中,DU表示无标记样本集,DL表示有标记样本集;
最大化式目标函数需要计算关于模型参数θ的梯度,如下:
上式可以变形写成:
使用如下数据来训练,训练数据由m个有标记样本和m个无标记样本组成,近似的梯度计算如下:
因此,预测模型的参数θ的更新公式为:
其中,η表示学习率,θt表示当前t时刻的参数,θt+1表示t+1时刻的参数值,以上是policygradient的核心内容;
步骤3,模型预测阶段,使用已经训练好的预测网络对新样本的标签进行预测,得到新样本的标签。
2.根据权利要求1所述基于对抗训练和对抗学习网络的半监督文本分类方法,其特征在于:
步骤S102中词嵌入ek标准化为公式为:
其中,
其中,E(v)表示向量v的期望,Var(v)表示向量v的方差,fj表示第j个词的词频,ej表示第j个词的词嵌入。
3.根据权利要求2所述基于对抗训练和对抗学习网络的半监督文本分类方法,其特征在于:
步骤S103通过最小化混合式代价函数来得到模型的参数,混合式代价函数Lmcf如下:
Lmcf=λcLc+λatLat+λvatLvat
其中,Lc是只在有标记样本集上应用模型的代价函数,Lat是对抗损失,Lvat是虚拟对抗损失,λc、λat、λvat为超参数。
4.根据权利要求3所述基于对抗训练和对抗学习网络的半监督文本分类方法,其特征在于:
步骤3中使用已经训练好的预测网络对新样本进行预测,通过softmax函数得出最接近真实情况的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395284.1A CN110532377B (zh) | 2019-05-13 | 2019-05-13 | 一种基于对抗训练和对抗学习网络的半监督文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395284.1A CN110532377B (zh) | 2019-05-13 | 2019-05-13 | 一种基于对抗训练和对抗学习网络的半监督文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532377A true CN110532377A (zh) | 2019-12-03 |
CN110532377B CN110532377B (zh) | 2021-09-14 |
Family
ID=68659813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910395284.1A Active CN110532377B (zh) | 2019-05-13 | 2019-05-13 | 一种基于对抗训练和对抗学习网络的半监督文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532377B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046183A (zh) * | 2019-12-11 | 2020-04-21 | 金蝶软件(中国)有限公司 | 用于文本分类的神经网络模型的构建方法和装置 |
CN111191453A (zh) * | 2019-12-25 | 2020-05-22 | 中国电子科技集团公司第十五研究所 | 一种基于对抗训练的命名实体识别方法 |
CN111209370A (zh) * | 2019-12-27 | 2020-05-29 | 同济大学 | 一种基于神经网络可解释性的文本分类方法 |
CN111522958A (zh) * | 2020-05-28 | 2020-08-11 | 泰康保险集团股份有限公司 | 文本分类方法和装置 |
CN111582371A (zh) * | 2020-05-07 | 2020-08-25 | 广州视源电子科技股份有限公司 | 一种图像分类网络的训练方法、装置、设备及存储介质 |
CN111737952A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种序列标注模型的训练方法及装置 |
CN111767402A (zh) * | 2020-07-03 | 2020-10-13 | 北京邮电大学 | 一种基于对抗学习的限定域事件检测方法 |
CN112016293A (zh) * | 2020-10-22 | 2020-12-01 | 浙江大学 | 一种基于多实例协同对抗训练的远程监督关系抽取方法 |
CN112115264A (zh) * | 2020-09-14 | 2020-12-22 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
CN112966112A (zh) * | 2021-03-25 | 2021-06-15 | 支付宝(杭州)信息技术有限公司 | 基于对抗学习的文本分类模型训练和文本分类方法及装置 |
WO2021139279A1 (zh) * | 2020-07-30 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于分类模型的数据处理方法、装置、电子设备及介质 |
CN113269228A (zh) * | 2021-04-20 | 2021-08-17 | 重庆邮电大学 | 一种图网络分类模型的训练方法、装置、系统及电子设备 |
CN113378563A (zh) * | 2021-02-05 | 2021-09-10 | 中国司法大数据研究院有限公司 | 一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置 |
CN113705678A (zh) * | 2021-08-28 | 2021-11-26 | 重庆理工大学 | 利用词屏蔽数据增强与对抗学习的特定目标情感分析方法 |
CN113723070A (zh) * | 2021-08-20 | 2021-11-30 | 上海浦东发展银行股份有限公司 | 文本相似度模型训练方法、文本相似度检测方法及装置 |
CN113762298A (zh) * | 2020-06-23 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 相似人群扩展方法和装置 |
CN113918700A (zh) * | 2021-10-15 | 2022-01-11 | 浙江百世技术有限公司 | 一种带噪的半监督意图识别模型训练方法 |
CN114330312A (zh) * | 2021-11-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 标题文本处理方法、装置、存储介质和程序 |
CN114780693A (zh) * | 2022-03-25 | 2022-07-22 | 昆明理工大学 | 一种基于对抗学习的深度迁移问句分类方法 |
WO2022217849A1 (en) * | 2021-04-15 | 2022-10-20 | Huawei Technologies Co.,Ltd. | Methods and systems for training neural network model for mixed domain and multi-domain tasks |
CN115687568A (zh) * | 2022-10-26 | 2023-02-03 | 广东东方思维科技有限公司 | 一种对可变情报板内容进行安全防护的方法 |
CN115797731A (zh) * | 2023-02-02 | 2023-03-14 | 国能大渡河大数据服务有限公司 | 目标检测模型训练方法、检测方法、终端设备及存储介质 |
US11809454B2 (en) | 2020-11-21 | 2023-11-07 | International Business Machines Corporation | Label-based document classification using artificial intelligence |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108923922A (zh) * | 2018-07-26 | 2018-11-30 | 北京工商大学 | 一种基于生成对抗网络的文本隐写方法 |
CN109543031A (zh) * | 2018-10-16 | 2019-03-29 | 华南理工大学 | 一种基于多任务对抗学习的文本分类方法 |
US20190114348A1 (en) * | 2017-10-13 | 2019-04-18 | Microsoft Technology Licensing, Llc | Using a Generative Adversarial Network for Query-Keyword Matching |
-
2019
- 2019-05-13 CN CN201910395284.1A patent/CN110532377B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190114348A1 (en) * | 2017-10-13 | 2019-04-18 | Microsoft Technology Licensing, Llc | Using a Generative Adversarial Network for Query-Keyword Matching |
CN108923922A (zh) * | 2018-07-26 | 2018-11-30 | 北京工商大学 | 一种基于生成对抗网络的文本隐写方法 |
CN109543031A (zh) * | 2018-10-16 | 2019-03-29 | 华南理工大学 | 一种基于多任务对抗学习的文本分类方法 |
Non-Patent Citations (4)
Title |
---|
LANTAO YU, WEINAN ZHANG, JUN WANG, YONG YU: "Sequence Generative Adversarial Nets with Policy Gradient", 《ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL》 * |
TAKERU MIYATO, ANDREW M DAI, IAN GOODFELLOW: "ADVERSARIAL TRAINING METHODS FOR SEMI-SUPERVISED TEXT CLASSIFICATION", 《INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS》 * |
YAN LI,JIEPING YE: "Learning Adversarial Networks for Semi-Supervised Text Classification via Policy Gradient", 《THE 24TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 * |
孙旭明: "基于半监督学习的文本分类关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046183A (zh) * | 2019-12-11 | 2020-04-21 | 金蝶软件(中国)有限公司 | 用于文本分类的神经网络模型的构建方法和装置 |
CN111191453A (zh) * | 2019-12-25 | 2020-05-22 | 中国电子科技集团公司第十五研究所 | 一种基于对抗训练的命名实体识别方法 |
CN111209370A (zh) * | 2019-12-27 | 2020-05-29 | 同济大学 | 一种基于神经网络可解释性的文本分类方法 |
CN111582371A (zh) * | 2020-05-07 | 2020-08-25 | 广州视源电子科技股份有限公司 | 一种图像分类网络的训练方法、装置、设备及存储介质 |
CN111582371B (zh) * | 2020-05-07 | 2024-02-02 | 广州视源电子科技股份有限公司 | 一种图像分类网络的训练方法、装置、设备及存储介质 |
CN111522958A (zh) * | 2020-05-28 | 2020-08-11 | 泰康保险集团股份有限公司 | 文本分类方法和装置 |
CN113762298A (zh) * | 2020-06-23 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 相似人群扩展方法和装置 |
CN111737952A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种序列标注模型的训练方法及装置 |
CN111767402A (zh) * | 2020-07-03 | 2020-10-13 | 北京邮电大学 | 一种基于对抗学习的限定域事件检测方法 |
CN111767402B (zh) * | 2020-07-03 | 2022-04-05 | 北京邮电大学 | 一种基于对抗学习的限定域事件检测方法 |
WO2021139279A1 (zh) * | 2020-07-30 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于分类模型的数据处理方法、装置、电子设备及介质 |
CN112115264A (zh) * | 2020-09-14 | 2020-12-22 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
CN112115264B (zh) * | 2020-09-14 | 2024-03-22 | 中科苏州智能计算技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
CN112016293A (zh) * | 2020-10-22 | 2020-12-01 | 浙江大学 | 一种基于多实例协同对抗训练的远程监督关系抽取方法 |
US11809454B2 (en) | 2020-11-21 | 2023-11-07 | International Business Machines Corporation | Label-based document classification using artificial intelligence |
CN113378563A (zh) * | 2021-02-05 | 2021-09-10 | 中国司法大数据研究院有限公司 | 一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置 |
CN112966112A (zh) * | 2021-03-25 | 2021-06-15 | 支付宝(杭州)信息技术有限公司 | 基于对抗学习的文本分类模型训练和文本分类方法及装置 |
WO2022217849A1 (en) * | 2021-04-15 | 2022-10-20 | Huawei Technologies Co.,Ltd. | Methods and systems for training neural network model for mixed domain and multi-domain tasks |
CN113269228A (zh) * | 2021-04-20 | 2021-08-17 | 重庆邮电大学 | 一种图网络分类模型的训练方法、装置、系统及电子设备 |
CN113269228B (zh) * | 2021-04-20 | 2022-06-10 | 重庆邮电大学 | 一种图网络分类模型的训练方法、装置、系统及电子设备 |
CN113723070A (zh) * | 2021-08-20 | 2021-11-30 | 上海浦东发展银行股份有限公司 | 文本相似度模型训练方法、文本相似度检测方法及装置 |
CN113723070B (zh) * | 2021-08-20 | 2024-01-23 | 上海浦东发展银行股份有限公司 | 文本相似度模型训练方法、文本相似度检测方法及装置 |
CN113705678A (zh) * | 2021-08-28 | 2021-11-26 | 重庆理工大学 | 利用词屏蔽数据增强与对抗学习的特定目标情感分析方法 |
CN113918700B (zh) * | 2021-10-15 | 2022-07-12 | 浙江百世技术有限公司 | 一种带噪的半监督意图识别模型训练方法 |
CN113918700A (zh) * | 2021-10-15 | 2022-01-11 | 浙江百世技术有限公司 | 一种带噪的半监督意图识别模型训练方法 |
CN114330312A (zh) * | 2021-11-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 标题文本处理方法、装置、存储介质和程序 |
CN114780693A (zh) * | 2022-03-25 | 2022-07-22 | 昆明理工大学 | 一种基于对抗学习的深度迁移问句分类方法 |
CN115687568A (zh) * | 2022-10-26 | 2023-02-03 | 广东东方思维科技有限公司 | 一种对可变情报板内容进行安全防护的方法 |
CN115797731A (zh) * | 2023-02-02 | 2023-03-14 | 国能大渡河大数据服务有限公司 | 目标检测模型训练方法、检测方法、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110532377B (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532377A (zh) | 一种基于对抗训练和对抗学习网络的半监督文本分类方法 | |
Yu et al. | Seqgan: Sequence generative adversarial nets with policy gradient | |
CN109460553B (zh) | 一种基于门限卷积神经网络的机器阅读理解方法 | |
CN108920468B (zh) | 一种基于强化学习的蒙汉双语种互译方法 | |
Song et al. | Training deep neural networks via direct loss minimization | |
CN111832501B (zh) | 一种面向卫星在轨应用的遥感影像文本智能描述方法 | |
CN108024158A (zh) | 利用视觉注意力机制的有监督视频摘要提取方法 | |
CN109785833A (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
CN110413785A (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN106126507A (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
CN109829541A (zh) | 基于学习自动机的深度神经网络增量式训练方法及系统 | |
CN108229582A (zh) | 一种面向医学领域的多任务命名实体识别对抗训练方法 | |
CN107145483A (zh) | 一种基于嵌入式表示的自适应中文分词方法 | |
CN109635124A (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN111858931A (zh) | 一种基于深度学习的文本生成方法 | |
CN108563624A (zh) | 一种基于深度学习的自然语言生成方法 | |
CN106897254A (zh) | 一种网络表示学习方法 | |
CN114398976A (zh) | 基于bert与门控类注意力增强网络的机器阅读理解方法 | |
CN117454965A (zh) | 基于随机Transformer模型的有模型深度强化学习方法 | |
CN116227560A (zh) | 基于DTW-former的时间序列预测模型及方法 | |
CN116842354A (zh) | 基于量子人工水母搜索机制的特征选择方法 | |
CN110297894A (zh) | 一种基于辅助网络的智能对话生成方法 | |
CN111582287B (zh) | 一种基于充足视觉信息与文本信息的图像描述方法 | |
Gangadhar et al. | Analysis of optimization algorithms for stability and convergence for natural language processing using deep learning algorithms | |
CN115564049B (zh) | 一种双向编码的知识图谱嵌入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |