CN114611472A - 一种低资源场景下的文本生成方法、装置及系统 - Google Patents
一种低资源场景下的文本生成方法、装置及系统 Download PDFInfo
- Publication number
- CN114611472A CN114611472A CN202210308980.6A CN202210308980A CN114611472A CN 114611472 A CN114611472 A CN 114611472A CN 202210308980 A CN202210308980 A CN 202210308980A CN 114611472 A CN114611472 A CN 114611472A
- Authority
- CN
- China
- Prior art keywords
- network
- training
- unsupervised
- adapter
- supervised
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种低资源场景下的文本生成方法、装置与系统,包括:步骤一,为有监督网络输入少量的有监督训练样本,同时为无监督网络输入大量的无监督训练样本,并对无监督文档复制两份,再分别对其嵌入向量进行dropout,得到两组嵌入向量;步骤二,为大型预训练文本生成网络并行集成适配器的小型神经网络,组成基于适配器微调的预训练学习组件;步骤三,对有监督网络与无监督网络采用基于适配器微调预训练学习组件,对无监督网络进行一致性学习,并结合有监督网络的有监督学习进行文本生成模型的训练与优化,并利用优化好的模型进行预测。本发明方案减少了对大量的人工标注数据的依赖,并使得模型训练过程训练开销也大幅降低。
Description
技术领域
本发明涉及人工智能领域,主要涉及一种低资源场景下的文本生成方法、装置及系统。
背景技术
随着互联网技术的发展,万维网上大量的文本信息飞速增长,在现有的信息爆炸的场景下,对于新闻等内容的阅读而言,亟需一种能够进行自动凝练并生成简单文本生成的方法,如自动生成标题,自动生成新闻的摘要或者自动生成新闻的时间线叙事文档。并且随着移动互联网设备的普及,移动设备端的屏幕也要求新闻的内容和展示以概要的形式呈现。自动文本生成方法是解决对海量新闻等大规模信息进行核心内容摘取与生成的唯一途径。
实现这一方法的传统模式是利用海量的人工标注数据训练文本生成模型,让训练好的模型去对新的新闻数据进行文本的自动生成。然而在现实的很多场景中,标注海量的目标文本数据需要大量的人力物力,耗时且低效。比如生成中文新闻标题的LCSTS数据的标注规模达到210多万条,中文新闻摘要THUCNews数据的标注规模达到83多万条。现有方法并未讨论在少标注样本低资源场景下如何训练一个文本生成模型。其次现有的预训练模型在文本生成任务上表现优异,但预训练模型由于本身海量的模型参数量,带来了较大的训练开销(比如GPU显存开销大,模型训练时间久)。如何降低模型训练的开销,在轻量级也是一个亟待解决的问题。本发明涉及一种低资源场景下的文本生成方法、装置及系统。适应于抽取式文本生成比如抽取关键词进行生成,还有生成式文本生成比如逐词生成目标文本需求。本发明利用了一致性半监督学习来解决少标注样本场景,可以将210万的LCSTS中文新闻标题生成数据集的标注样本数量降低到10%,并保证其10%的有标签数据与大量无标签数据下的模型性能持平到50%左右的有标签数据的文本生成性能,本发明还利用了适配器微调的预训练参数冻结方法,如冻结预训练BERT模型可以降低110M左右的参数不参与梯度反向计算,降低文本生成模型的训练开销。
发明内容
针对目前文本生成方法低资源场景需求,本发明进行深入研究与实践,实现对少标注场景下的文本自动生成,极大地减少了文本生成方法对海量的人工标注数据的依赖,并且保持较好的文本生成性能。
为达到上述目的,本发明采用了下列技术方案,
包括三个步骤:
步骤一,为有监督网络输入少量的有监督训练样本,对应输入文档的嵌入向量,同时为无监督网络输入大量的无监督训练样本,即为开放式语料中获取的大量的不包含人工标注源文档数据,并对无监督文档复制两份,再分别对其对应的嵌入向量行了进行dropout,得到两组嵌入向量;
步骤二,为大型预训练文本生成网络(Pre-trained model)并行集成适配器的小型神经模块(Adapter),组成适配器微调预训练学习组件。在有监督网络T,和两个一致性的无监督网络A和B中,采用同样的网络架构的适配器微调预训练学习组件。在适配器微调预训练学习组件中,外加的小型适配器神经模块参与模型训练,而原来的大型的预训练文本生成模块需要保持参数冻结。具体而言,
其中,在有监督网络T中进行有监督训练,训练过程的输入为有监督源文档-目标文本对(x*,y*),在无监督网络A和B中进行所述的无监督一致性学习,训练过程的输入为x,A和B输出为其预测标签,一致性学习则是使得他们的预测标签一致。
其中,在基于适配器微调的预训练学习组件中,该网络的输入为嵌入向量为:Hinput,输出为对于有监督网络T,Hinput为x*的嵌入向量,对于无监督网络A,Hinput为x对应dropout的嵌入向量,对于无监督网络B,Hinput为x复制后进行另外一次dropout的嵌入向量。Hinput将同时输入到大型的预训练文本生成网络与小型的适配器网络中,在训练过程中该组件保持大型预训练文本生成模型部分的参数冻结,即参数不参与反向传播的参数学习与更新过程,只有小型的Adapter网络的参数参与更新计算,从而达到降低模型训练开销的目的。
其中,在基于适配器微调的预训练学习组件中,采用的适配器小型神经网络(Adapter),其前向部分的更新参数为Win,通过一个非线性激活函数Relu函数对嵌入向量进行非线性优化,再输入适配器的后项部分,利用其更新参数Wout对适配器进行训练,适配器的输出表示向量为
步骤三,基于无监督网络的一致性学习,并结合有监督网络的有监督学习进行文本生成模型的训练与优化。
其中,无监督网络A和B,进行所述的无监督一致性学习,让两个所述无监督的预训练文本生成神经网络的预测目标一致,无监督损失函数为:
其中,SA和SB分别表示具体的无监督网络A与无监督网络B,是一对孪生网络,在抽取式文本生成中为BERT并行集成Adapter,在生成式文本生成中为BART并行集成Adapter,Xu为输入的无监督文本生成数据集,和表示经过增强数据增强后的输入值,在本发明中即为分别经过dropout后得到的两组不同的嵌入向量表示;
同时,联合优化有监督网络的有监督学习,进行有监督文本生成模型的训练,有监督损失函数为;
其中,T(x*)表示有监督网络,与所述SA和SB的孪生网络,在抽取式文本生成中为BERT并行集成Adapter;在生成式文本生成中为BART并行集成Adapter。Xl为输入的有人工标注的文本生成数据集,x*和y*分别表示源文档和其对应的人工标注生成目标文本:
最后,联合无监督网络的一致性学习与有监督网络的有监督学习,得到最终的损失函数lfinal,用于模型的训练与优化:
lfinal(θ,X)=λlunsup(θ,Xu)+lsup(θ,Xl),X=Xu+Xl
其中,λ为超参数,代表无监督一致性学习的训练部分在整个模型训练过程中的重要程度,θA为适配器的小型神经模块的参数,θB为大型预训练文本生成模型(BERT或者BART)的参数,θ为整个模型的参数,m为epoch数;可见,在梯度反向计算时,θB在每个epoch没有跟更新即不参与梯度反向计算。而θA会随着训练过程在每个epoch里更新学习参数;
最后利用优化好的模型进行文本生成预测。
一种低资源场景下的文本生成装置,包括:
源文档输入模块,用于输入少量的有标注源文档与文本生成的目标文本,以及输入大量的无标注的源文档;
低资源场景下的文本生成模块,应用所述一种低资源场景下的文本生成方法;
目标输出模块,将自动生成的目标文本通过接口程序输出。
一种低资源场景下的文本生成系统,所述系统包括至少一台服务器,以及与服务器连接的低资源场景下的文本生成装置,所述服务器执行生成目标文本过程时,通过所述装置执行上述的低资源场景下的文本生成方法。
本发明相对于现有技术的优点在于:
1、本发明提出一套针对低资源场景下的文本生成方法,利用一致性学习,来提升无标注标签数据下的无监督学习的神经网络的鲁棒性,进而提升少标注样本下的整体网络的文本生成预测性能。极大地减少了文本自动生成方法对海量的人工标注数据的依赖,如针对210万的LCSTS中文新闻标题生成数据集的标注样本数量降低到10%,并保证其10%的有标签数据与大量无标签数据下的模型性能持平到50%左右的有标签数据的文本生成性能。
2、本发明利用基于适配器的预训练方法,将基于大型的预训练的文本生成神经网络的参数冻结,而更新小型的适配器神经网络模块模块,缓解模型训练的开销。如采用BERT-base作为文本生成的模型基础框架需要110M参数量,这部分参数被冻结,不参与梯度反向计算时,可以很大程度降低模型计算效率。
附图说明
图1为本发明的整体流程图(模型框架图);
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出了一种低资源场景下的生成文本生成方法,针对目前文本生成方法少标注样本的场景需求,本发明进行深入研究与实践,实现对少标注样本场景下的源文本进行自动目标文本生成,极大地减少了文本生成方法对海量的人工标注数据的依赖。其次针对目前基于预训练的文本生成模型的训练开销大的问题,采用适配器预训练方法,降低训练开销。具体技术方案包括:
步骤一,为有监督网络输入少量的有监督训练样本,即对应的源文的嵌入向量与生成目标文本标签,同时为无监督网络输入大量的无监督训练样本,并对无监督文档复制两份,再分别对其对应的嵌入行了进行dropout,得到两组嵌入向量;
(1)从标注语料中摘取少量有人工标注的文本生成数据,即少量的源文档与对应的人工标注的目标文本;
(2)从开放式语料中获取大量无监督的源文档数据,即大量的不包含人工标注的源文档;
(3)复制同一无标签数据两份,再分别进行dropout得到两组嵌入向量表示;
步骤二,为大型预训练文本生成网络(Pre-trained model)并行集成适配器的小型神经模块(Adapter),组成适配器微调预训练学习组件。在有监督网络T,和两个一致性的无监督网络A和B中,采用同样的网络架构的适配器微调预训练学习组件。在适配器微调预训练学习组件中,外加的小型适配器神经模块参与模型训练,而原来的大型的预训练文本生成模块需要保持参数冻结。具体而言,
(1)输入为有监督源文档-目标文本对(x*,y*)到有监督网络,输入无监督文档x到无监督网络A和B中,A和B输出为其预测标签,一致性学习则是使得他们的预测标签一致。
(2)在基于适配器微调的预训练学习组件中,输入嵌入向量为:Hinput,输出表示向量为对于有监督网络T,Hinput为x*的嵌入向量,对于无监督网络A,Hinput为x对应dropout的嵌入向量,对于无监督网络B,Hinput为x复制后进行另外一次dropout的嵌入向量。Hinput将被同时输入到大型的预训练文本生成网络与小型的适配器网络中,在训练过程中该组件保持大型预训练文本生成模型部分的参数冻结,即参数不参与反向传播的参数学习与更新过程,只有小型的Adapter网络的参数参与更新计算,从而达到降低模型训练开销的目的。
首先,在基于适配器微调的预训练学习组件中,采用的适配器小型神经网络(Adapter),其前向部分的更新参数为Win,通过一个非线性激活函数Relu函数对嵌入向量进行非线性优化,再输入适配器的后项部分,利用其更新参数Wout对适配器进行训练,适配器的输出表示向量为公式:
步骤三,基于无监督网络的一致性学习,并结合有监督网络的有监督学习进行文本生成模型的训练与优化。
(1)对于无监督网络A和B,进行所述的无监督一致性学习,让两个所述无监督的预训练文本生成神经网络的预测目标一致,优化损失函数为:
其中,SA和SB分别表示具体的无监督网络A与无监督网络B,是一对孪生网络,在抽取式文本生成中为BERT并行集成Adapter,在生成式文本生成中为BART并行集成Adapter,Xu为输入的无监督文本生成数据集,和表示经过增强数据增强后的输入值,在本发明中即为分别经过dropout后得到的两组不同的嵌入向量表示;
(2)联合优化有监督网络的有监督学习,进行有监督文本生成模型的训练,优化损失函数为:
其中,T(x*)表示有监督网络,是所述无监督网络SA和SB的孪生网络,在抽取式文本生成中为BERT并行集成Adapter,在生成式文本生成中为BART并行集成Adapter,Xl为输入的有人工标注的源文档数据集,其中的x*和y*分别表示源文档和其对应的人工标注目标文档:
(3)联合无监督网络的一致性学习与有监督网络的有监督学习,得到最终的损失函数lfinal,用于模型的训练与优化:
公式:lfinal(θ,X)=λlunsup(θ,Xu)+lsup(θ,Xl),X=Xu+Xl
其中,λ为超参数,代表无监督一致性学习的训练部分在整个模型训练过程中的重要程度,θA为适配器的小型神经模块(Adapter)的参数,θB为大型预训练文本生成模块(BERT或者BART)的参数,θ为整个模型的参数,m为epoch数;可见,在梯度反向计算时,θB在每个epoch一直不参与更新过程即不参与梯度反向计算。而θA会随着训练过程在每个epoch里更新学习参数。
(4)最后利用优化好的模型进行文本生成预测。
Claims (5)
1.一种低资源场景下的生成文本生成方法,其特征在于,包括三个步骤:
步骤一,为有监督网络输入少量的有监督训练样本,并对应小规模输入训练样本文档的嵌入向量,同时为无监督网络输入大量的无监督训练样本,即为开放式语料中获取的大量的不包含人工标注的源文档数据,并对无监督文档复制两份,再分别对其对应的嵌入向量行了进行dropout,得到两组嵌入向量;
步骤二,为大型预训练文本生成网络并行集成一个适配器的小型神经模块,组成适配器微调预训练学习组件,在有监督网络T,和两个一致性的无监督网络A和B中,采用同样的网络架构的适配器微调预训练学习组件,在适配器微调预训练学习组件中,外加的小型适配器神经模块参与模型训练,而原来的大型的预训练文本生成模块需要保持参数冻结,具体而言,
其中,在所述有监督网络T中进行有监督训练,训练过程的输入为有监督源文档-目标文本对(x*,y*),在无监督网络A和无监督网络B中进行无监督一致性学习,训练过程的输入为x,所述无监督网络A和所述无监督网络B输出为其预测标签,一致性学习则是使得他们的预测标签一致;
其中,在基于适配器微调的预训练学习组件中,网络的输入为嵌入向量表示为:Hinput,输出表示向量为:对于所述有监督网络T,Hinput为x*的嵌入向量,对于所述无监督网络A,Hinput为x对应dropout的嵌入向量,对于所述无监督网络B,Hinput为x复制后进行另外一次dropout的嵌入向量,Hinput同时输入到大型的预训练文本生成网络与小型的适配器网络中,在训练过程中该组件保持大型预训练文本生成模型部分的参数冻结,即参数不参与反向传播的参数学习与更新过程,只有适配器小型神经网络的参数参与更新计算;
在基于适配器微调的预训练学习组件中,采用的适配器小型神经网络前向部分的更新参数为Win,通过非线性激活函数对嵌入向量进行非线性优化,再输入适配器的后项部分,利用其更新参数Wout对适配器进行训练,适配器的输出表示向量为
步骤三,基于无监督网络的一致性学习,并结合有监督网络的有监督学习进行文本生成模型的训练与优化,
对所述无监督网络A和所述无监督网络B进行所述无监督一致性学习,让两个所述无监督的预训练文本生成神经网络的预测目标一致,无监督学习的损失函数lunsup为:
其中,SA和SB分别表示具体的所述无监督网络A与所述无监督网络B,是一对孪生网络,在抽取式文本生成中无监督网络A和B为BERT并行集成Adapter,在生成式文本生成中为无监督网络A和B为BART并行集成Adapter,Xu为输入的无监督文本生成数据集,和表示经过增强数据增强后的输入值,在本发明中即为分别经过dropout后得到的两组不同的嵌入向量表示;
同时,联合优化有监督网络的有监督学习,进行有监督文本生成模型的训练,有监督学习的损失函数lsup为;
其中,T(x*)表示有监督网络,是所述无监督网络SA和SB的孪生网络,在抽取式文本生成中为BERT并行集成Adapter;在生成式文本生成中为BART并行集成Adapter,Xl为输入的有人工标注的文本生成数据集,x*和y*分别表示源文档数据和其对应的人工标注的目标文本数据:
最后,联合无监督网络的一致性学习与有监督网络的有监督学习,得到最终的损失函数lfinal,用于模型的训练与优化:
lfinal(θ,X)=λlunsup(θ,Xu)+lsup(θ,Xl),X=Xu+Xl
其中,λ为超参数,代表无监督一致性学习的训练部分在整个模型训练过程中的重要程度,θA为小型适配器神经模块的参数,θB为大型预训练文本生成模块(BERT或者BART)的参数,θ为整个模型的参数,m为epoch数;在梯度反向计算时,θB在每个epoch没有跟更新,即不参与梯度反向计算,而θA会随着训练过程在每个epoch里更新学习参数;
最后利用优化好的模型进行文本生成预测。
2.如权利要求1所述的一种低资源场景下的文本生成方法,其特征在于,对应抽取式文本生成模型而言,所述模型为大型BERT模型并行集成小型适配器网络;对于生成式文本生成而言,所述模型为大型BART模型并行集成小型适配器网络。
3.如权利要求1所述的一种低资源场景下的文本生成方法,其特征在于,基于无监督网络的一致性学习,并结合有监督网络的有监督学习进行文本生成模型的训练与优化。
4.一种低资源场景下的文本生成装置,包括:
源文档输入模块,用于输入少量的有标注训练源文档与目标文档,以及输入大量的无标注的训练源文档;
低资源场景下的文本生成模块,应用权利要求1或2中一种低资源场景下的文本生成方法;
目标文本输出模块,将自动生成的目标文本通过接口程序输出。
5.一种低资源场景下的文本生成系统,所述系统包括至少一台服务器,以及与服务器连接的如权利要求4所述一种低资源场景下的文本生成装置,所述服务器执行文本生成过程时,通过所述装置执行低资源场景下的文本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210308980.6A CN114611472A (zh) | 2022-03-28 | 2022-03-28 | 一种低资源场景下的文本生成方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210308980.6A CN114611472A (zh) | 2022-03-28 | 2022-03-28 | 一种低资源场景下的文本生成方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114611472A true CN114611472A (zh) | 2022-06-10 |
Family
ID=81867289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210308980.6A Pending CN114611472A (zh) | 2022-03-28 | 2022-03-28 | 一种低资源场景下的文本生成方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114611472A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579308A (zh) * | 2023-07-06 | 2023-08-11 | 之江实验室 | 一种演示文稿生成方法及装置 |
CN117574844A (zh) * | 2023-11-23 | 2024-02-20 | 华南理工大学 | 一种自监督学习的dtco工艺参数性能规格反馈方法 |
-
2022
- 2022-03-28 CN CN202210308980.6A patent/CN114611472A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579308A (zh) * | 2023-07-06 | 2023-08-11 | 之江实验室 | 一种演示文稿生成方法及装置 |
CN116579308B (zh) * | 2023-07-06 | 2023-10-10 | 之江实验室 | 一种演示文稿生成方法及装置 |
CN117574844A (zh) * | 2023-11-23 | 2024-02-20 | 华南理工大学 | 一种自监督学习的dtco工艺参数性能规格反馈方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN107391646B (zh) | 一种视频图像的语义信息提取方法及装置 | |
CN114611472A (zh) | 一种低资源场景下的文本生成方法、装置及系统 | |
CN110309839B (zh) | 一种图像描述的方法及装置 | |
Bodapati et al. | Comparison and analysis of RNN-LSTMs and CNNs for social reviews classification | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN110597997B (zh) | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 | |
CN113468877A (zh) | 语言模型的微调方法、装置、计算设备和存储介质 | |
CN110162766B (zh) | 词向量更新方法和装置 | |
WO2020182123A1 (zh) | 用于推送语句的方法和装置 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN112417092A (zh) | 基于深度学习的智能化文本自动生成系统及其实现方法 | |
CN113850012B (zh) | 数据处理模型生成方法、装置、介质及电子设备 | |
CN114444481A (zh) | 一种新闻评论的情感分析与生成方法 | |
CN114501064A (zh) | 一种视频生成方法、装置、设备、介质及产品 | |
CN117171573A (zh) | 多模态模型的训练方法、装置、设备和存储介质 | |
US20210326720A1 (en) | Automated Annotation Of Heterogeneous Content | |
CN115374252B (zh) | 一种基于原生Bert架构的文本分级方法及装置 | |
CN116956019A (zh) | 文本生成方法、装置、电子设备及计算机可读存储介质 | |
Wen et al. | Visual prompt tuning for few-shot text classification | |
CN115794357A (zh) | 一种自动搭建多任务网络的装置及方法 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN110727695B (zh) | 面向新型供电城轨列车数据运维的自然语言查询解析方法 | |
CN115080731A (zh) | 评语语段生成方法、装置、电子设备和存储介质 | |
CN112749553A (zh) | 视频文件的文本信息处理方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |