CN114611472A

CN114611472A - 一种低资源场景下的文本生成方法、装置及系统

Info

Publication number: CN114611472A
Application number: CN202210308980.6A
Authority: CN
Inventors: 李建欣; 毛乾任; 刘骏楠; 蒋为峰; 邓婷; 邰振赢
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-06-10

Abstract

本发明提出了一种低资源场景下的文本生成方法、装置与系统，包括：步骤一，为有监督网络输入少量的有监督训练样本，同时为无监督网络输入大量的无监督训练样本，并对无监督文档复制两份，再分别对其嵌入向量进行dropout，得到两组嵌入向量；步骤二，为大型预训练文本生成网络并行集成适配器的小型神经网络，组成基于适配器微调的预训练学习组件；步骤三，对有监督网络与无监督网络采用基于适配器微调预训练学习组件，对无监督网络进行一致性学习，并结合有监督网络的有监督学习进行文本生成模型的训练与优化，并利用优化好的模型进行预测。本发明方案减少了对大量的人工标注数据的依赖，并使得模型训练过程训练开销也大幅降低。

Description

一种低资源场景下的文本生成方法、装置及系统

技术领域

本发明涉及人工智能领域，主要涉及一种低资源场景下的文本生成方法、装置及系统。

背景技术

随着互联网技术的发展，万维网上大量的文本信息飞速增长，在现有的信息爆炸的场景下，对于新闻等内容的阅读而言，亟需一种能够进行自动凝练并生成简单文本生成的方法，如自动生成标题，自动生成新闻的摘要或者自动生成新闻的时间线叙事文档。并且随着移动互联网设备的普及，移动设备端的屏幕也要求新闻的内容和展示以概要的形式呈现。自动文本生成方法是解决对海量新闻等大规模信息进行核心内容摘取与生成的唯一途径。

实现这一方法的传统模式是利用海量的人工标注数据训练文本生成模型，让训练好的模型去对新的新闻数据进行文本的自动生成。然而在现实的很多场景中，标注海量的目标文本数据需要大量的人力物力，耗时且低效。比如生成中文新闻标题的LCSTS数据的标注规模达到210多万条，中文新闻摘要THUCNews数据的标注规模达到83多万条。现有方法并未讨论在少标注样本低资源场景下如何训练一个文本生成模型。其次现有的预训练模型在文本生成任务上表现优异，但预训练模型由于本身海量的模型参数量，带来了较大的训练开销(比如GPU显存开销大，模型训练时间久)。如何降低模型训练的开销，在轻量级也是一个亟待解决的问题。本发明涉及一种低资源场景下的文本生成方法、装置及系统。适应于抽取式文本生成比如抽取关键词进行生成，还有生成式文本生成比如逐词生成目标文本需求。本发明利用了一致性半监督学习来解决少标注样本场景，可以将210万的LCSTS中文新闻标题生成数据集的标注样本数量降低到10％，并保证其10％的有标签数据与大量无标签数据下的模型性能持平到50％左右的有标签数据的文本生成性能，本发明还利用了适配器微调的预训练参数冻结方法，如冻结预训练BERT模型可以降低110M左右的参数不参与梯度反向计算，降低文本生成模型的训练开销。

发明内容

针对目前文本生成方法低资源场景需求，本发明进行深入研究与实践，实现对少标注场景下的文本自动生成，极大地减少了文本生成方法对海量的人工标注数据的依赖，并且保持较好的文本生成性能。

为达到上述目的，本发明采用了下列技术方案，

包括三个步骤：

步骤一，为有监督网络输入少量的有监督训练样本，对应输入文档的嵌入向量，同时为无监督网络输入大量的无监督训练样本，即为开放式语料中获取的大量的不包含人工标注源文档数据，并对无监督文档复制两份，再分别对其对应的嵌入向量行了进行dropout，得到两组嵌入向量；

步骤二，为大型预训练文本生成网络(Pre-trained model)并行集成适配器的小型神经模块(Adapter)，组成适配器微调预训练学习组件。在有监督网络T，和两个一致性的无监督网络A和B中，采用同样的网络架构的适配器微调预训练学习组件。在适配器微调预训练学习组件中，外加的小型适配器神经模块参与模型训练，而原来的大型的预训练文本生成模块需要保持参数冻结。具体而言，

其中，在有监督网络T中进行有监督训练，训练过程的输入为有监督源文档-目标文本对(x^*，y^*)，在无监督网络A和B中进行所述的无监督一致性学习，训练过程的输入为x，A和B输出为其预测标签，一致性学习则是使得他们的预测标签一致。

其中，在基于适配器微调的预训练学习组件中，该网络的输入为嵌入向量为：H_input，输出为

对于有监督网络T，H_input为x^*的嵌入向量，对于无监督网络A，H_input为x对应dropout的嵌入向量，对于无监督网络B，H_input为x复制后进行另外一次dropout的嵌入向量。H_input将同时输入到大型的预训练文本生成网络与小型的适配器网络中，在训练过程中该组件保持大型预训练文本生成模型部分的参数冻结，即参数不参与反向传播的参数学习与更新过程，只有小型的Adapter网络的参数参与更新计算，从而达到降低模型训练开销的目的。

其中，在基于适配器微调的预训练学习组件中，采用的适配器小型神经网络(Adapter)，其前向部分的更新参数为W_in，通过一个非线性激活函数Relu函数对嵌入向量进行非线性优化，再输入适配器的后项部分，利用其更新参数W_out对适配器进行训练，适配器的输出表示向量为

其中，在基于适配器微调的预训练学习组件中，结合大型预训练文本生成模型的输出

与其线性相加后得到适配器微调预训练学习组件最后的输出表示向量

步骤三，基于无监督网络的一致性学习，并结合有监督网络的有监督学习进行文本生成模型的训练与优化。

其中，无监督网络A和B，进行所述的无监督一致性学习，让两个所述无监督的预训练文本生成神经网络的预测目标一致，无监督损失函数为：

其中，S_A和S_B分别表示具体的无监督网络A与无监督网络B，是一对孪生网络，在抽取式文本生成中为BERT并行集成Adapter，在生成式文本生成中为BART并行集成Adapter，X_u为输入的无监督文本生成数据集，

和

表示经过增强数据增强后的输入值，在本发明中即为分别经过dropout后得到的两组不同的嵌入向量表示；

同时，联合优化有监督网络的有监督学习，进行有监督文本生成模型的训练，有监督损失函数为；

其中，T(x^*)表示有监督网络，与所述S_A和S_B的孪生网络，在抽取式文本生成中为BERT并行集成Adapter；在生成式文本生成中为BART并行集成Adapter。X_l为输入的有人工标注的文本生成数据集，x^*和y^*分别表示源文档和其对应的人工标注生成目标文本：

最后，联合无监督网络的一致性学习与有监督网络的有监督学习，得到最终的损失函数l_final，用于模型的训练与优化：

l_final(θ，X)＝λl_unsup(θ，X_u)+l_sup(θ，X_l)，X＝X_u+X_l

其中，λ为超参数，代表无监督一致性学习的训练部分在整个模型训练过程中的重要程度，θ_A为适配器的小型神经模块的参数，θ_B为大型预训练文本生成模型(BERT或者BART)的参数，θ为整个模型的参数，m为epoch数；可见，在梯度反向计算时，θ_B在每个epoch没有跟更新

即不参与梯度反向计算。而θ_A会随着训练过程在每个epoch里更新学习参数；

最后利用优化好的模型进行文本生成预测。

一种低资源场景下的文本生成装置，包括：

源文档输入模块，用于输入少量的有标注源文档与文本生成的目标文本，以及输入大量的无标注的源文档；

低资源场景下的文本生成模块，应用所述一种低资源场景下的文本生成方法；

目标输出模块，将自动生成的目标文本通过接口程序输出。

一种低资源场景下的文本生成系统，所述系统包括至少一台服务器，以及与服务器连接的低资源场景下的文本生成装置，所述服务器执行生成目标文本过程时，通过所述装置执行上述的低资源场景下的文本生成方法。

本发明相对于现有技术的优点在于：

1、本发明提出一套针对低资源场景下的文本生成方法，利用一致性学习，来提升无标注标签数据下的无监督学习的神经网络的鲁棒性，进而提升少标注样本下的整体网络的文本生成预测性能。极大地减少了文本自动生成方法对海量的人工标注数据的依赖，如针对210万的LCSTS中文新闻标题生成数据集的标注样本数量降低到10％，并保证其10％的有标签数据与大量无标签数据下的模型性能持平到50％左右的有标签数据的文本生成性能。

2、本发明利用基于适配器的预训练方法，将基于大型的预训练的文本生成神经网络的参数冻结，而更新小型的适配器神经网络模块模块，缓解模型训练的开销。如采用BERT-base作为文本生成的模型基础框架需要110M参数量，这部分参数被冻结，不参与梯度反向计算时，可以很大程度降低模型计算效率。

附图说明

图1为本发明的整体流程图(模型框架图)；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出了一种低资源场景下的生成文本生成方法，针对目前文本生成方法少标注样本的场景需求，本发明进行深入研究与实践，实现对少标注样本场景下的源文本进行自动目标文本生成，极大地减少了文本生成方法对海量的人工标注数据的依赖。其次针对目前基于预训练的文本生成模型的训练开销大的问题，采用适配器预训练方法，降低训练开销。具体技术方案包括：

步骤一，为有监督网络输入少量的有监督训练样本，即对应的源文的嵌入向量与生成目标文本标签，同时为无监督网络输入大量的无监督训练样本，并对无监督文档复制两份，再分别对其对应的嵌入行了进行dropout，得到两组嵌入向量；

(1)从标注语料中摘取少量有人工标注的文本生成数据，即少量的源文档与对应的人工标注的目标文本；

(2)从开放式语料中获取大量无监督的源文档数据，即大量的不包含人工标注的源文档；

(3)复制同一无标签数据两份，再分别进行dropout得到两组嵌入向量表示；

(1)输入为有监督源文档-目标文本对(x^*，y^*)到有监督网络，输入无监督文档x到无监督网络A和B中，A和B输出为其预测标签，一致性学习则是使得他们的预测标签一致。

(2)在基于适配器微调的预训练学习组件中，输入嵌入向量为：H_input，输出表示向量为

对于有监督网络T，H_input为x^*的嵌入向量，对于无监督网络A，H_input为x对应dropout的嵌入向量，对于无监督网络B，H_input为x复制后进行另外一次dropout的嵌入向量。H_input将被同时输入到大型的预训练文本生成网络与小型的适配器网络中，在训练过程中该组件保持大型预训练文本生成模型部分的参数冻结，即参数不参与反向传播的参数学习与更新过程，只有小型的Adapter网络的参数参与更新计算，从而达到降低模型训练开销的目的。

首先，在基于适配器微调的预训练学习组件中，采用的适配器小型神经网络(Adapter)，其前向部分的更新参数为W_in，通过一个非线性激活函数Relu函数对嵌入向量进行非线性优化，再输入适配器的后项部分，利用其更新参数W_out对适配器进行训练，适配器的输出表示向量为

公式：

其次，在基于适配器微调的预训练学习组件中，结合大型预训练文本生成模型的输出表示向量

公式：

(1)对于无监督网络A和B，进行所述的无监督一致性学习，让两个所述无监督的预训练文本生成神经网络的预测目标一致，优化损失函数为：

公式：

和

(2)联合优化有监督网络的有监督学习，进行有监督文本生成模型的训练，优化损失函数为：

公式：

其中，T(x^*)表示有监督网络，是所述无监督网络S_A和S_B的孪生网络，在抽取式文本生成中为BERT并行集成Adapter，在生成式文本生成中为BART并行集成Adapter，X_l为输入的有人工标注的源文档数据集，其中的x^*和y^*分别表示源文档和其对应的人工标注目标文档：

(3)联合无监督网络的一致性学习与有监督网络的有监督学习，得到最终的损失函数l_final，用于模型的训练与优化：

公式：l_final(θ，X)＝λl_unsup(θ，X_u)+l_sup(θ，X_l)，X＝X_u+X_l

其中，λ为超参数，代表无监督一致性学习的训练部分在整个模型训练过程中的重要程度，θ_A为适配器的小型神经模块(Adapter)的参数，θ_B为大型预训练文本生成模块(BERT或者BART)的参数，θ为整个模型的参数，m为epoch数；可见，在梯度反向计算时，θ_B在每个epoch一直不参与更新过程即不参与梯度反向计算。而θ_A会随着训练过程在每个epoch里更新学习参数。

(4)最后利用优化好的模型进行文本生成预测。

Claims

1.一种低资源场景下的生成文本生成方法，其特征在于，包括三个步骤：

步骤一，为有监督网络输入少量的有监督训练样本，并对应小规模输入训练样本文档的嵌入向量，同时为无监督网络输入大量的无监督训练样本，即为开放式语料中获取的大量的不包含人工标注的源文档数据，并对无监督文档复制两份，再分别对其对应的嵌入向量行了进行dropout，得到两组嵌入向量；

步骤二，为大型预训练文本生成网络并行集成一个适配器的小型神经模块，组成适配器微调预训练学习组件，在有监督网络T，和两个一致性的无监督网络A和B中，采用同样的网络架构的适配器微调预训练学习组件，在适配器微调预训练学习组件中，外加的小型适配器神经模块参与模型训练，而原来的大型的预训练文本生成模块需要保持参数冻结，具体而言，

其中，在所述有监督网络T中进行有监督训练，训练过程的输入为有监督源文档-目标文本对(x^*,y^*)，在无监督网络A和无监督网络B中进行无监督一致性学习，训练过程的输入为x，所述无监督网络A和所述无监督网络B输出为其预测标签，一致性学习则是使得他们的预测标签一致；

其中，在基于适配器微调的预训练学习组件中，网络的输入为嵌入向量表示为:H_input，输出表示向量为:

对于所述有监督网络T，H_input为x^*的嵌入向量，对于所述无监督网络A，H_input为x对应dropout的嵌入向量，对于所述无监督网络B，H_input为x复制后进行另外一次dropout的嵌入向量，H_input同时输入到大型的预训练文本生成网络与小型的适配器网络中，在训练过程中该组件保持大型预训练文本生成模型部分的参数冻结，即参数不参与反向传播的参数学习与更新过程，只有适配器小型神经网络的参数参与更新计算；

在基于适配器微调的预训练学习组件中，采用的适配器小型神经网络前向部分的更新参数为W_in，通过非线性激活函数对嵌入向量进行非线性优化，再输入适配器的后项部分，利用其更新参数W_out对适配器进行训练，适配器的输出表示向量为

进而，结合大型预训练文本生成模型的输出表示向量

Model(H_input)，与其线性相加后得到适配器微调预训练学习组件的最后的输出表示向量

步骤三，基于无监督网络的一致性学习，并结合有监督网络的有监督学习进行文本生成模型的训练与优化，

对所述无监督网络A和所述无监督网络B进行所述无监督一致性学习，让两个所述无监督的预训练文本生成神经网络的预测目标一致，无监督学习的损失函数l_unsup为：

其中，S_A和S_B分别表示具体的所述无监督网络A与所述无监督网络B，是一对孪生网络，在抽取式文本生成中无监督网络A和B为BERT并行集成Adapter，在生成式文本生成中为无监督网络A和B为BART并行集成Adapter，X_u为输入的无监督文本生成数据集，

和

同时，联合优化有监督网络的有监督学习，进行有监督文本生成模型的训练，有监督学习的损失函数l_sup为；

其中，T(x^*)表示有监督网络，是所述无监督网络S_A和S_B的孪生网络，在抽取式文本生成中为BERT并行集成Adapter；在生成式文本生成中为BART并行集成Adapter，X_l为输入的有人工标注的文本生成数据集，x^*和y^*分别表示源文档数据和其对应的人工标注的目标文本数据：

l_final(θ,X)＝λl_unsup(θ,X_u)+l_sup(θ,X_l),X＝X_u+X_l

其中，λ为超参数，代表无监督一致性学习的训练部分在整个模型训练过程中的重要程度，θ_A为小型适配器神经模块的参数，θ_B为大型预训练文本生成模块(BERT或者BART)的参数，θ为整个模型的参数，m为epoch数；在梯度反向计算时，θ_B在每个epoch没有跟更新，

即不参与梯度反向计算，而θ_A会随着训练过程在每个epoch里更新学习参数；

最后利用优化好的模型进行文本生成预测。

2.如权利要求1所述的一种低资源场景下的文本生成方法，其特征在于，对应抽取式文本生成模型而言，所述模型为大型BERT模型并行集成小型适配器网络；对于生成式文本生成而言，所述模型为大型BART模型并行集成小型适配器网络。

3.如权利要求1所述的一种低资源场景下的文本生成方法，其特征在于，基于无监督网络的一致性学习，并结合有监督网络的有监督学习进行文本生成模型的训练与优化。

4.一种低资源场景下的文本生成装置，包括：

源文档输入模块，用于输入少量的有标注训练源文档与目标文档，以及输入大量的无标注的训练源文档；

低资源场景下的文本生成模块，应用权利要求1或2中一种低资源场景下的文本生成方法；

目标文本输出模块，将自动生成的目标文本通过接口程序输出。

5.一种低资源场景下的文本生成系统，所述系统包括至少一台服务器，以及与服务器连接的如权利要求4所述一种低资源场景下的文本生成装置，所述服务器执行文本生成过程时，通过所述装置执行低资源场景下的文本生成方法。