CN111914552A - 一种数据增强模型的训练方法及装置 - Google Patents
一种数据增强模型的训练方法及装置 Download PDFInfo
- Publication number
- CN111914552A CN111914552A CN202010760950.XA CN202010760950A CN111914552A CN 111914552 A CN111914552 A CN 111914552A CN 202010760950 A CN202010760950 A CN 202010760950A CN 111914552 A CN111914552 A CN 111914552A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- corpus
- corpus data
- seq2seq
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000013145 classification model Methods 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims abstract description 32
- 239000000463 material Substances 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 40
- 238000003058 natural language processing Methods 0.000 claims description 31
- 238000005457 optimization Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 12
- 230000002708 enhancing effect Effects 0.000 abstract description 7
- 238000013519 translation Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013499 data model Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种数据增强模型的训练方法及装置,方法包括:将第一语料数据输入第一seq2seq模型得到第二语料数据,将第二语料数据输入第二seq2seq模型得到第三语料数据;将第一语料数据和第三语料数据分别输入文本分类模型进行识别得到分类结果;根据分类结果计算损失值,利用损失值优化三个模型的参数;循环迭代直至满足预设终止条件停止。由于文本分类模型和数据增强模型的训练是一个博弈过程,文本分类模型的训练目的是让生成的新语料不容易被文本分类模型区分,而数据增强模型的训练目的是能够精准的区分是原始语料还是生成的新语料,因此能够使数据增强模型生成效果更好的语料,对原始语料起到真正的增强和扩充目的。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种数据增强模型的训练方法及装置。
背景技术
数据增强(Data Augmentation)是一种通过让有限的数据产生更多的等价数据来扩展训练数据集的技术。它是克服训练数据不足的有效手段,目前在深度学习的各个领域中应用广泛。在自然语言处理领域中,由于自然语言本身是离散的抽象符号,微小的变化就可能会导致含义的巨大偏差,所以自然语言的数据增强算法值得我们深入研究。
目前,常用的自然语言的数据增强方式包括利用翻译工具回译、同义词替换或插入、随机删除词语、添加噪音词语、词语位置变换。但是这些数据增强方式的生成效果均一般,生成的文本与原始文本几乎都一样,相当于没有对原始文本做太多的增强和扩充工作,从而利用这些文本也无法训练得到精度高的自然语言处理任务模型。
发明内容
本发明的目的是针对上述现有技术的不足提出的一种增强数据模型的训练方法及装置,该目的是通过以下技术方案实现的。
本发明的第一方面提出了一种增强数据模型的训练方法,所述数据增强模型包括第一seq2seq模型和第二seq2seq模型,所述方法包括:
将第一语料数据输入第一seq2seq模型得到第二语料数据,将第二语料数据输入第二seq2seq模型得到第三语料数据;
将第一语料数据和第三语料数据分别输入文本分类模型;
通过所述文本分类模型进行识别,得到分类结果,所述分类结果用于表征第三语料数据是第一语料数据或由所述生成网络生成的语料数据;
根据所述分类结果计算损失值,并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数;
循环迭代上述步骤,直至满足预设终止条件时得到训练好的数据增强模型。
本发明的第二方面提出了一种增强数据模型的训练装置,所述数据增强模型包括第一seq2seq模型和第二seq2seq模型,所述装置包括:
生成模块,用于将第一语料数据输入第一seq2seq模型得到第二语料数据,将第二语料数据输入第二seq2seq模型得到第三语料数据;
判别模块,用于将第一语料数据和第三语料数据分别输入文本分类模型;通过所述文本分类模型进行识别,得到分类结果,所述分类结果用于表征第三语料数据是第一语料数据或由所述生成网络生成的语料数据;
参数优化模块,用于根据所述分类结果计算损失值,并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数;
终止判断模块,用于循环迭代上述生成模块、判别模块、参数优化模块的过程,直至满足预设终止条件时得到训练好的数据增强模型。
基于上述第一方面所述的数据增强模型的训练方法,具有如下有益效果:
通过将数据增强模型输出的新语料数据和输入数据增强模型的原始语料数据,再输入文本分类模型判断新语料数据是原始语料数据还是由数据增强模型生成的数据,得到分类结果,并根据分类结果进行损失计算,并将计算结果代入优化算法优化数据增强模型和文本分类模型的参数,由于文本分类模型和数据增强模型的训练过程是一个博弈过程,文本分类模型的训练目的是让生成的新语料数据不容易被文本分类模型区分,而数据增强模型的训练目的是能够精准的区分是原始语料数据还是生成的新语料数据,因此采用这种对抗方式能够根据文本分类模型的判别结果的好坏不断地更新数据增强模型生成的语料数据的效果,进而使得训练得到的数据增强模型生成效果更好的新语料数据,对原始语料数据起到真正的增强和扩充目的。
本发明的第三方面提出了一种自然语言处理任务模型的训练方法,所述方法包括:
获取中文语料集;
将所述中文语料集中的每一中文语料依次输入采用上述第一方面所述的训练方法训练得到的数据增强模型,重构新中文语料并输出;
将输出的新中文语料和所述中文语料集作为训练集训练所述自然语言处理任务模型。
本发明的第四方面提出了一种自然语言处理任务模型的训练装置,所述装置包括:
获取模块,用于获取中文语料集;
数据增强模块,用于将所述中文语料集中的每一中文语料依次输入采用上述第二方面所述的训练装置训练得到的数据增强模型,重构新中文语料并输出;
训练模块,用于将输出的新中文语料和所述中文语料集作为训练集训练所述自然语言处理任务模型。
基于上述第三方面所述的自然语言处理任务模型的训练方法,具有如下有益效果:
由于采用上述第一方面所描述的数据增强模型对用于训练自然语言处理任务模型的语料数据可以进行比较好的扩充,能够生成更多更好的样本,由此利用扩充后的训练集进行自然语言处理任务训练,可以给自然语言处理任务模型的精度带来很好的提升。
本发明的第五方面提出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的数据增强模型的训练方法的步骤或如上述第三方面所述的自然语言处理任务模型的训练方法的步骤。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明根据一示例性实施例示出的一种数据增强模型的训练方法的实施例流程图;
图2为本发明根据图1所示实施例示出的一种数据增强模型的训练结构示意图;
图3为本发明示出的门控循环网络的结构示意图;
图4为本发明示出的一种Seq2seq模型的结构示意图;
图5为本发明根据一示例性实施例示出的一种自然语言处理任务模型的训练方法的实施例流程图;
图6为本发明根据一示例性实施例示出的一种数据增强模型的训练装置的实施例流程图;
图7为本发明根据一示例性实施例示出的一种自然语言处理任务模型的训练装置的实施例流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
目前,常用的数据增强方式中,利用翻译工具回译的方式是最为有效的数据增强手段,即利用翻译工具将原始文本翻译为其他语种的文本,然后再利用翻译工具将其他语种的文本再翻译回与原始文本语种一样的新文本。
随着深度学习的发展,人们开始利用机器翻译网络模型来代替翻译工具进行翻译,如基于编码器-解码器机制的seq2seq模型。然而,用于进行数据增强的机器翻译模型均是采用常规的训练方式得到,由机器翻译模型翻译得到的新文本的信息都来自于原始文本,与原始文本几乎都一样,相当于没有对原始文本做太多的增强和扩充工作,无法判断新文本对原始文本是否有帮助作用,因此将这些原始文本和生成的新文本作为训练样本集应用到后续任务(如分类任务、关系抽取任务等)中,在准确率和召回率的提升效果上不佳。经实验测试,在精确率和召回率的提升上只有大约0.02左右。
为解决上述技术问题,本发明提出一种数据增强模型的训练方法,通过将数据增强模型输出的新语料数据和输入数据增强模型的原始语料数据,再输入文本分类模型判断新语料数据是原始语料数据还是由数据增强模型生成的数据,得到分类结果,并根据分类结果进行损失计算,并将计算结果代入优化算法优化数据增强模型和文本分类模型的参数,由于文本分类模型和数据增强模型的训练过程是一个博弈过程,文本分类模型的训练目的是让生成的新语料数据不容易被文本分类模型区分,而数据增强模型的训练目的是能够精准的区分是原始语料数据还是生成的新语料数据,因此采用这种对抗方式能够根据文本分类模型的判别结果的好坏不断地更新数据增强模型生成的语料数据的效果,进而使得训练得到的数据增强模型生成效果更好的新语料数据,对原始语料数据起到真正的增强和扩充目的。
下面以具体实施例对本发明提出的数据增强模型的训练方法进行详细阐述。
图1为本发明根据一示例性实施例示出的一种数据增强模型的训练方法的实施例流程图,该数据增强模型的训练方法可以应用在计算机设备上,在本实施例中,该数据增强模型包括第一seq2seq模型和第二seq2seq模型,以保证数据增强的精度。结合图2所示的训练结构示意图,该训练方法包括如下步骤:
步骤101:将第一语料数据输入第一seq2seq模型得到第二语料数据,将第二语料数据输入第二seq2seq模型得到第三语料数据。
其中,第一seq2seq模型和第二seq2seq模型可以为经过常规训练方式预训练得到的模型,即这两个模型可以进行一些基本的翻译操作。
值得注意的是,第一语料数据和第三语料数据均属于同一语种,第二语料数据属于另一种不同的语种。
例如,第一语料数据属于的中文语种,通过第一seq2seq模型进行转译后,得到的第二语料数据属于英文语种,再通过第二seq2seq模型进行转译之后,得到的第三语料数据属于中文语种,只是说第一语料数据经过两次转译之后,得到的第三语料数据虽然也属于中文语种,但是其包括的具体文字内容及文字排序,与第一语料数据都不同了。
在一些实施例中,第一seq2seq模型和第二seq2seq模型可以均包括编码器和解码器机制的模型,其工作原理为:编码器对输入的样本序列进行编码获得一组隐层特征向量,并将该隐层特征向量输入至解码器进行解码输出。
基于此,在步骤101中,针对将第一语料数据输入第一seq2seq模型得到第二语料数据的过程,可通过第一seq2seq模型中的编码器将第一语料数据编码为第一特征向量,并输出给第一seq2seq模型中的解码器,然后再通过第一seq2seq模型中的解码器将第一特征向量解码为第二语料数据。
基于同样的原理,针对将第二语料数据输入第二seq2seq模型得到第三语料数据的过程,可通过第二seq2seq模型中的编码器将第二语料数据编码为第二特征向量,并输出给第二seq2seq模型中的解码器,然后再通过第二seq2seq模型中的解码器将第二特征向量解码为第三语料数据。
在一些实施例中,编码器和解码器可以均采用门控循环网络(GRU,GatedRecurrent Unit),参见图3所示的GRU网络结构,GRU包括更新门rt和重置门zt,更新门用于控制前一时刻的隐层状态ht-1的信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的信息带入越大,重置门用于控制忽略前一时刻的信息的程度,重置门的值越小说明忽略的越多。
GRU中包括的更新门rt和重置门zt的计算公式如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[t-1,xt])
其中,Wz和Wr分别表示重置门和更新门的权重参数,xt表示当前时刻t的输入。
GRU中包括的tanh激活函数公式如下:
其中,W为激活函数的权重参数。
GRU的输出计算公式如下:
基于此,针对通过第一seq2seq模型中的编码器将第一语料数据编码为第一特征向量的过程,具体通过编码器中门控循环网络对第一语料数据包含的长度为n的字符序列生成长度为n的隐层状态序列,并选取隐层状态序列中的最后一个隐层状态作为第一特征向量输出。
针对通过第一seq2seq模型中的解码器将第一特征向量解码为第二语料数据的过程,具体通过解码器中门控循环网络对第一特征向量进行转换得到长度为m的隐层状态序列,并基于隐层状态序列输出长度为m的第二语料数据序列。
需要说明的是,对于第二seq2seq模型对输入的语料数据进行的转译原理与第一seq2seq模型的转译原理相同。
参见图4所示的seq2seq模型结构,以第一seq2seq模型的转译过程为例,针对编码器的编码原理:
作为第一语料数据的x1~xn序列依次输入编码器中的GRU1,输入x1时,GRU1基于初始状态h0和x1可得到隐层状态h1,输入x2时,GRU1基于隐层状态h1和x2可得到隐层状态h2,以此类推,直至输入xn时,GRU1可得到隐层状态hn,并输出该隐层状态hn,即第一特征向量,也即向量c,该向量c编码了所有输入序列x1~xn的信息;
针对解码器的解码原理:GRU2接收到向量c后,GRU2基于初始状态h0’和向量c可得到隐层状态h1’,并基于隐层状态h1’输出y1,GRU2再基于隐层状态h1’、向量c和前一个输出y1可得到隐层状态h2’,并基于隐层状态h2’输出y2,以此类推,直至输出m个序列时结束,获得作为第二语料数据的y1~ym。
本领域技术人员可以理解的是,上述图4所示的seq2seq模型结构仅为示例性说明,本申请还可采用其他结构的seq2seq模型进行转译处理。
步骤102:将第一语料数据和第三语料数据分别输入文本分类模型,并通过文本分类模型进行识别,得到分类结果。
其中,文本分类模型的分类结果包括两种,一种是分类结果为真,即表示第三语料数据是第一语料数据;另一种分类结果为假,即表示第三语料数据是由数据增强模型生成的语料数据。
在一些实施例中,文本分类模型可以为TextCNN网络,可通过TextCNN网络中的至少一个卷积层分别对第一语料数据和第三语料数据进行卷积运算,得到第一卷积特征和第二卷积特征,再通过TextCNN网络中的池化层分别对第一卷积特征和第二卷积特征进行池化处理,最后通过TextCNN网络中的全连接层对池化后的第一卷积特征和第二卷积特征进行二分类,得到分类结果。
具体地,TextCNN可以包括4层卷积层,第一层卷积层包括三个一维卷积核,各一维卷积核的长度分别为1、3、5,各一维卷积核均有128通道,共384通道,后续的三层卷积层,分别包括长度为3的一维卷积核,各一维卷积核分别有384个通道,最终将卷积输出进行池化与全连接层映射,得到最终的分类结果,即0或1的输出形式。
步骤103:根据分类结果计算损失值,并通过预设优化算法利用损失值优化第一seq2seq模型、第二seq2seq模型和文本分类模型的参数。
针对步骤102的过程,分类结果如果为真,则表示文本分类模型将输入的第三语料数据判别为第一语料数据,分类结果如果为假,则表示文本分类模型将输入的第三语料数据判别为是由数据增强模型生成的文本语料。
在优化两个seq模型和文本分类模型中的参数时,根据分类结果计算损失值的损失函数可以采用交叉熵,公式如下:
其中,p(x)表示当前样本x所属真实类别的概率,q(x)表示判别网络将当前样本x判断为真实类别的概率。
如果文本分类模型的分类准确度高(如远大于0.5),则说明数据增强模型的语料生成效果比较差,文本分类模型很容易就判断出是通过数据增强模型生成的语料数据还是原始语料数据了,如果文本分类模型的分类准确度比较低(如0.5左右),则说明数据增强模型的生成效果很好,文本分类模型已经很难区分出是通过数据增强模型生成的语料数据还是原始语料数据了。
因此,预设优化算法利用损失值优化第一seq2seq模型、第二seq2seq模型和文本分类模型的参数的目标是,让两个seq2seq模型生成的第三语料数据不容易被文本分类模型区分,让文本分类模型能够精准的区分第三语料数据是原始语料数据还是生成的语料数据。
示例性的,预设优化算法可以是Adam算法,也可以其他模型优化算法,本申请对此不进行具体限定。
步骤104:循环迭代上述步骤101至步骤103,直至满足预设终止条件时得到训练好的数据增强模型。
在一些实施例中,预设终止条件可以是训练迭代次数达到预设次数。例如,预设次数可以为50次。
在另一些实施例中,预设终止条件还可以是文本分类模型的分类准确度与预设阈值的差值位于预设范围内。例如,预设阈值可以为0.5。
本领域技术人员可以理解的是,还可以是上述两个终止条件中任一项满足,即停止训练。
基于上述步骤101至步骤104的整个训练过程,参见图2所示的整体训练结构,每次训练均是将已有的第一语料数据输入数据增强模型,经过数据增强模型中的第一seq2seq模型和第二seq2seq模型输出第三语料数据,再将第一语料数据和第三语料数据输入文本分类模型,由文本分类模型输出分类结果,根据分类结果计算损失值,进而根据损失值更新第一seq2seq模型和第二seq2seq模型的参数,以及文本分类模型的参数,不断的迭代循环上述过程并更新第一seq2seq模型、第二seq2seq模型和文本分类模型的的参数,直至满足预设终止条件时停止训练。
与一些常规数据增强方法相比,例如将“这道菜做得很好”这一语料通过一些简单方法,例如调换顺序,或者随机删去部分词语,得到“这菜做得”,这样的方式虽然也能得到更多样本,但是这样的样本存在更多噪音,会影响训练自然语言处理任务模型的精度。
而本申请将对抗学习中的生成器改为由两个seq2seq模型组成的数据增强模型,输出的是语料的转译结果而非随机生成对象,例如将“这道菜做得很好”输入采用上述步骤101至步骤104对抗训练得到的数据增强模型生成的新样本“这道菜做得很不错”效果比较好。
至此,完成上述图1所示的数据增强模型的训练流程,通过将数据增强模型输出的新语料数据和输入数据增强模型的原始语料数据,再输入文本分类模型判断新语料数据是原始语料数据还是由数据增强模型生成的数据,得到分类结果,并根据分类结果进行损失计算,并将计算结果代入优化算法优化数据增强模型和文本分类模型的参数,由于文本分类模型和数据增强模型的训练过程是一个博弈过程,文本分类模型的训练目的是让生成的新语料数据不容易被文本分类模型区分,而数据增强模型的训练目的是能够精准的区分是原始语料数据还是生成的新语料数据,因此采用这种对抗方式训练得到的数据增强模型,能够使数据增强模型生成效果更好的新语料数据,对原始语料数据起到真正的增强和扩充目的。
下面以使用上述图1所示的训练方法训练得到的数据增强模型重构中文语料为例:
图5为本发明根据一示例性实施例示出的一种自然语言处理任务模型的训练方法的实施例流程图,该自然语言处理任务模型的训练方法包括如下步骤:
步骤501:获取中文语料集。
步骤502:将中文语料集中的每一中文语料依次输入采用上述图1所示的训练方法训练得到的数据增强模型,重构新中文语料并输出。
步骤503:将输出的新中文语料和中文语料集作为训练集训练自然语言处理任务模型。
以自然语言处理任务模型为文本分类任务为例,需建立模型将文本分类为褒义、贬义、中性,假设语料集中有一样本为“这道菜做得很好”,标注的标签为“褒义”,如果直接基于语料集中这些类似样本建模,数据量会影响文本分类任务模型精度,现采用上述方法训练得到的数据增强模型,将“这道菜做得很好”进行转译,经过中译英,英译中,得到新样本“这道菜做得很不错”,通过这一过程获得更多同标注,文本存在差异的新样本,结合原始样本与增强样本训练文本分类任务模型,从而能够获得更好鲁棒性的模型。
至此,完成上述图5所示流程,由于采用上述图1所描述的数据增强模型对用于训练自然语言处理任务模型的语料数据进行更好的扩充增强,能够生成更多更好的样本,由此利用扩充后的训练集进行自然语言处理任务训练,可以给自然语言处理任务模型的精度带来很好的提升。
与前述数据增强模型的训练方法的实施例相对应,本发明还提供了数据增强模型的训练装置的实施例。
图6为本发明根据一示例性实施例示出的一种数据增强模型的训练装置的实施例流程图,数据增强模型包括第一seq2seq模型和第二seq2seq模型,该数据增强模型的训练装置包括:
生成模块610,用于将第一语料数据输入第一seq2seq模型得到第二语料数据,将第二语料数据输入第二seq2seq模型得到第三语料数据;
判别模块620,用于将第一语料数据和第三语料数据分别输入文本分类模型;通过文本分类模型进行识别,得到分类结果,分类结果用于表征第三语料数据是第一语料数据或由生成网络生成的语料数据;
参数优化模块630,用于根据分类结果计算损失值,并通过预设优化算法利用损失值优化第一seq2seq模型、第二seq2seq模型和文本分类模型的参数;
终止判断模块640,用于循环迭代上述生成模块、判别模块、参数优化模块的过程,直至满足预设终止条件时得到训练好的数据增强模型。
在一可选实现方式中,第一seq2seq模型和第二seq2seq模型均包括编码器和解码器;
生成模块610,具体用于在将第一语料数据输入第一seq2seq模型得到第二语料数据过程中,通过第一seq2seq模型中的编码器将第一语料数据编码为第一特征向量,并输出给第一seq2seq模型中的解码器;通过第一seq2seq模型中的解码器将第一特征向量解码为第二语料数据;
生成模块610,具体用于在将第二语料数据输入第二seq2seq模型得到第三语料数据过程中,通过第二seq2seq模型中的编码器将第二语料数据编码为第二特征向量,并输出给第二seq2seq模型中的解码器;通过第二seq2seq模型中的解码器将第二特征向量解码为第三语料数据。
在一可选实现方式中,解码器和编码器均包括门控循环网络;
生成模块610,具体用于在通过第一seq2seq模型中的编码器将第一语料数据编码为第一特征向量过程中,通过编码器中门控循环网络对第一语料数据包含的长度为n的字符序列生成长度为n的隐层状态序列,并选取隐层状态序列中的最后一个隐层状态作为第一特征向量输出;
生成模块610,具体用于在通过第一seq2seq模型中的解码器将第一特征向量解码为第二语料数据过程中,通过解码器中门控循环网络对第一特征向量进行转换得到长度为m的隐层状态序列,并基于隐层状态序列输出长度为m的第二语料数据序列。
在一可选实现方式中,文本分类模型为TextCNN网络,判别模块620,具体用于通过TextCNN网络中的至少一个卷积层分别对第一语料数据和第三语料数据进行卷积运算,得到第一卷积特征和第二卷积特征;通过TextCNN网络中的池化层分别对第一卷积特征和第二卷积特征进行池化处理;通过TextCNN网络中的全连接层对池化后的第一卷积特征和第二卷积特征进行二分类,得到分类结果。
与前述自然语言处理任务模型的训练方法的实施例相对应,本发明还提供了自然语言处理任务模型的训练装置的实施例。
图7为本发明根据一示例性实施例示出的一种自然语言处理任务模型的训练装置的实施例流程图,该装置包括:
获取模块710,用于获取中文语料集;
数据增强模块720,用于将中文语料集中的每一中文语料依次输入采用上述图6的训练装置训练得到的数据增强模型,重构新中文语料并输出;
训练模块730,用于将输出的新中文语料和中文语料集作为训练集训练自然语言处理任务模型。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行上述任意一种数据增强模型的训练方法的步骤或自然语言处理任务模型的训练方法的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种数据增强模型的训练方法,其特征在于,所述数据增强模型包括第一seq2seq模型和第二seq2seq模型,所述方法包括:
将第一语料数据输入第一seq2seq模型得到第二语料数据,将第二语料数据输入第二seq2seq模型得到第三语料数据;
将第一语料数据和第三语料数据分别输入文本分类模型,并通过所述文本分类模型进行识别,得到分类结果,所述分类结果用于表征第三语料数据是第一语料数据或由所述数据增强模型生成的语料数据;
根据所述分类结果计算损失值,并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数;
循环迭代上述步骤,直至满足预设终止条件时得到训练好的数据增强模型。
2.根据权利要求1所述的方法,其特征在于,所述第一seq2seq模型和第二seq2seq模型均包括编码器和解码器;
将第一语料数据输入第一seq2seq模型得到第二语料数据,包括:
通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量,并输出给所述第一seq2seq模型中的解码器;
通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据;
将所述第二语料数据输入第二seq2seq模型得到第三语料数据,包括:
通过所述第二seq2seq模型中的编码器将所述第二语料数据编码为第二特征向量,并输出给所述第二seq2seq模型中的解码器;
通过所述第二seq2seq模型中的解码器将所述第二特征向量解码为第三语料数据。
3.根据权利要求2所述的方法,其特征在于,所述解码器和所述编码器均包括门控循环网络;
通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量,包括:
通过所述编码器中门控循环网络对所述第一语料数据包含的长度为n的字符序列生成长度为n的隐层状态序列,并选取所述隐层状态序列中的最后一个隐层状态作为第一特征向量输出;
所述通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据,包括:
通过所述解码器中门控循环网络对所述第一特征向量进行转换得到长度为m的隐层状态序列,并基于所述隐层状态序列输出长度为m的第二语料数据序列。
4.根据权利要求1所述的方法,其特征在于,所述文本分类模型为TextCNN网络,所述通过所述文本分类模型进行识别,得到分类结果,包括:
通过所述TextCNN网络中的至少一个卷积层分别对所述第一语料数据和第三语料数据进行卷积运算,得到第一卷积特征和第二卷积特征;
通过所述TextCNN网络中的池化层分别对所述第一卷积特征和第二卷积特征进行池化处理;
通过所述TextCNN网络中的全连接层对池化后的第一卷积特征和第二卷积特征进行二分类,得到分类结果。
5.一种自然语言处理任务模型的训练方法,其特征在于,所述方法包括:
获取中文语料集;
将所述中文语料集中的每一中文语料依次输入采用上述权利要求1~4任一项所述的训练方法训练得到的数据增强模型,重构新中文语料并输出;
将输出的新中文语料和所述中文语料集作为训练集训练所述自然语言处理任务模型。
6.一种数据增强模型的训练装置,其特征在于,所述数据增强模型包括第一seq2seq模型和第二seq2seq模型,所述装置包括:
生成模块,用于将第一语料数据输入第一seq2seq模型得到第二语料数据,将第二语料数据输入第二seq2seq模型得到第三语料数据;
判别模块,用于将第一语料数据和第三语料数据分别输入文本分类模型;通过所述文本分类模型进行识别,得到分类结果,所述分类结果用于表征第三语料数据是第一语料数据或由所述生成网络生成的语料数据;
参数优化模块,用于根据所述分类结果计算损失值,并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数;
终止判断模块,用于循环迭代上述生成模块、判别模块、参数优化模块的过程,直至满足预设终止条件时得到训练好的数据增强模型。
7.根据权利要求6所述的装置,其特征在于,所述第一seq2seq模型和第二seq2seq模型均包括编码器和解码器;
所述生成模块,具体用于在将第一语料数据输入第一seq2seq模型得到第二语料数据过程中,通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量,并输出给所述第一seq2seq模型中的解码器;通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据;
所述生成模块,具体用于在将所述第二语料数据输入第二seq2seq模型得到第三语料数据过程中,通过所述第二seq2seq模型中的编码器将所述第二语料数据编码为第二特征向量,并输出给所述第二seq2seq模型中的解码器;通过所述第二seq2seq模型中的解码器将所述第二特征向量解码为第三语料数据。
8.根据权利要求7所述的装置,其特征在于,所述解码器和所述编码器均包括门控循环网络;
所述生成模块,具体用于在通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量过程中,通过所述编码器中门控循环网络对所述第一语料数据包含的长度为n的字符序列生成长度为n的隐层状态序列,并选取所述隐层状态序列中的最后一个隐层状态作为第一特征向量输出;
所述生成模块,具体用于在通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据过程中,通过所述解码器中门控循环网络对所述第一特征向量进行转换得到长度为m的隐层状态序列,并基于所述隐层状态序列输出长度为m的第二语料数据序列。
9.一种自然语言处理任务模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取中文语料集;
数据增强模块,用于将所述中文语料集中的每一中文语料依次输入采用上述权利要求6~8任一项所述的训练装置训练得到的数据增强模型,重构新中文语料并输出;
训练模块,用于将输出的新中文语料和所述中文语料集作为训练集训练所述自然语言处理任务模型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~4中任一项数据增强模型的训练方法的步骤或如权利要求5自然语言处理任务模型的训练方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010760950.XA CN111914552A (zh) | 2020-07-31 | 2020-07-31 | 一种数据增强模型的训练方法及装置 |
PCT/CN2020/118525 WO2021139250A1 (zh) | 2020-07-31 | 2020-09-28 | 一种数据增强模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010760950.XA CN111914552A (zh) | 2020-07-31 | 2020-07-31 | 一种数据增强模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111914552A true CN111914552A (zh) | 2020-11-10 |
Family
ID=73287995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010760950.XA Pending CN111914552A (zh) | 2020-07-31 | 2020-07-31 | 一种数据增强模型的训练方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111914552A (zh) |
WO (1) | WO2021139250A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328750A (zh) * | 2020-11-26 | 2021-02-05 | 上海天旦网络科技发展有限公司 | 训练文本判别模型的方法及系统 |
CN112685539A (zh) * | 2020-12-31 | 2021-04-20 | 成都网安科技发展有限公司 | 基于多任务融合的文本分类模型训练方法和装置 |
CN113111639A (zh) * | 2021-04-16 | 2021-07-13 | 南京奥拓电子科技有限公司 | 一种通顺模型训练方法及辅助语音识别方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118068B (zh) * | 2022-01-26 | 2022-04-29 | 北京淇瑀信息科技有限公司 | 训练文本数据的扩增方法、装置及电子设备 |
CN115688868B (zh) * | 2022-12-30 | 2023-10-20 | 荣耀终端有限公司 | 一种模型训练方法及计算设备 |
CN117708601B (zh) * | 2024-02-06 | 2024-04-26 | 智慧眼科技股份有限公司 | 一种相似度计算模型训练方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368475A (zh) * | 2017-07-18 | 2017-11-21 | 中译语通科技(北京)有限公司 | 一种基于生成对抗神经网络的机器翻译方法和系统 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
CN111144140A (zh) * | 2019-12-23 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 基于零次学习的中泰双语语料生成方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110085215B (zh) * | 2018-01-23 | 2021-06-08 | 中国科学院声学研究所 | 一种基于生成对抗网络的语言模型数据增强方法 |
US10152970B1 (en) * | 2018-02-08 | 2018-12-11 | Capital One Services, Llc | Adversarial learning and generation of dialogue responses |
CN110147535A (zh) * | 2019-04-18 | 2019-08-20 | 平安科技(深圳)有限公司 | 相似文本生成方法、装置、设备及存储介质 |
CN110069790B (zh) * | 2019-05-10 | 2022-12-06 | 东北大学 | 一种通过译文回译对照原文的机器翻译系统及方法 |
CN111310480B (zh) * | 2020-01-20 | 2021-12-28 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
-
2020
- 2020-07-31 CN CN202010760950.XA patent/CN111914552A/zh active Pending
- 2020-09-28 WO PCT/CN2020/118525 patent/WO2021139250A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368475A (zh) * | 2017-07-18 | 2017-11-21 | 中译语通科技(北京)有限公司 | 一种基于生成对抗神经网络的机器翻译方法和系统 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
CN111144140A (zh) * | 2019-12-23 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 基于零次学习的中泰双语语料生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
于江德 等: "统计语言模型内在机制及应用", vol. 2019, 30 November 2019, 科学技术文献出版社, pages: 284 - 285 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328750A (zh) * | 2020-11-26 | 2021-02-05 | 上海天旦网络科技发展有限公司 | 训练文本判别模型的方法及系统 |
CN112685539A (zh) * | 2020-12-31 | 2021-04-20 | 成都网安科技发展有限公司 | 基于多任务融合的文本分类模型训练方法和装置 |
CN112685539B (zh) * | 2020-12-31 | 2022-12-23 | 成都网安科技发展有限公司 | 基于多任务融合的文本分类模型训练方法和装置 |
CN113111639A (zh) * | 2021-04-16 | 2021-07-13 | 南京奥拓电子科技有限公司 | 一种通顺模型训练方法及辅助语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021139250A1 (zh) | 2021-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914552A (zh) | 一种数据增强模型的训练方法及装置 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN110503598B (zh) | 基于条件循环一致性生成对抗网络的字体风格迁移方法 | |
CN111859978A (zh) | 一种基于深度学习的情感文本生成方法 | |
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN111488807A (zh) | 基于图卷积网络的视频描述生成系统 | |
CN106126507A (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
CN111291534A (zh) | 面向中文长文本自动摘要的全局编码方法 | |
CN111460807A (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN110619124B (zh) | 一种结合注意力机制与双向lstm的命名实体识别方法及系统 | |
CN110442880B (zh) | 一种机器翻译译文的翻译方法、装置及存储介质 | |
CN114443827A (zh) | 基于预训练语言模型的局部信息感知对话方法及系统 | |
CN112183058B (zh) | 基于bert句子向量输入的诗词生成方法及装置 | |
CN113360610A (zh) | 基于Transformer模型的对话生成方法及系统 | |
CN111651993A (zh) | 融合局部-全局字符级关联特征的中文命名实体识别方法 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN115906815A (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN112417118B (zh) | 一种基于标记文本和神经网络的对话生成方法 | |
CN110955765A (zh) | 智能助理的语料构建方法、装置、计算机设备和存储介质 | |
CN116629211B (zh) | 基于人工智能的写作方法及系统 | |
CN117094365A (zh) | 图文生成模型的训练方法、装置、电子设备及介质 | |
CN110442706B (zh) | 一种文本摘要生成的方法、系统、设备及存储介质 | |
CN110866404B (zh) | 基于lstm神经网络的词向量生成方法及装置 | |
CN113420834A (zh) | 一种基于关系约束自注意力的图像描述自动生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |