CN115600582B

CN115600582B - 一种基于预训练语言模型的可控文本生成方法

Info

Publication number: CN115600582B
Application number: CN202211609591.3A
Authority: CN
Inventors: 廖俊伟; 刘万隆; 程绍欢; 屈鸿
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-04-07
Anticipated expiration: 2042-12-15
Also published as: CN115600582A

Abstract

本发明提供了一种基于预训练语言模型的可控文本生成方法，分别训练主题、情感和写作风格判别器模型，利用贝叶斯公式的概率分解联合预训练语言模型的输出概率和判别器模型的输出概率，从而生成同时满足所需要的主题、情感和写作风格的文本。该方法相较于直接针对满足约束条件单独训练的模型而言，无需对预训练语言模型本身做任何改动，而是在模型推理阶段通过属性判别器来引导模型生成满足约束条件的内容，因此节省了训练大规模预训练语言模型的计算资源。另外，本发明的方法可以通过灵活的组合属性判别器来生成满足不同约束条件的文本，从而避免针对每种需求单独训练一个模型。

Description

一种基于预训练语言模型的可控文本生成方法

技术领域

本发明涉及自动文本生成技术，特别涉及基于预训练语言模型的可控文本生成技术。

背景技术

自然语言生成（又称文本生成）被认为是对自然语言理解的补充，是自然语言处理的一个重要分支。自然语言理解的任务是对输入的文本消除歧义，产生文本中所表达的思想的单一规范化表示；与此相反，文本生成主要侧重于将潜在的语义表示转化为具体的、符合逻辑的自然语言文本。换句话说，自然语言理解旨在开发一种能够阅读和理解人类语言的智能机器，而文本生成则使计算机能够像人类一样写作。作为先进的人工智能的体现，文本生成技术在诸如对话系统、写作辅助、数据增强和广告营销等应用领域中发挥着至关重要的作用。

对文本生成研究的一个重要和基本的问题是如何使生成的文本可控。在实际应用中，文本生成系统应该能够按照使用者的意愿可靠地生成满足某些控制属性的文本。一般来说，这些控制属性是针对具体任务的。例如，对于故事生成任务需要控制生成的故事的情节和结局；在对话生成的任务中，需要控制生成对话的情感、角色、语气等；对于基于文本生成的数据增强，有必要对生成数据进行控制以确保不同领域的数据分布平衡；在营销文案写作任务中，通过控制生成的广告营销文案围绕产品主题、表达用户情感以及采用特殊的写作风格，更容易吸引消费者注意力，建立品牌信任。

近年来，深度学习的发展催生了一系列基于深度学习模型的可控文本生成的研究，促进了该领域的迅速发展。早期的方法基于序列到序列的模型和文本风格特征表示，并取得了一定程度的进展。此后，基于深度生成模型的方法被引入可控文本生成——例如变分自编码器、生成对抗网络和基于能量的模型——使得对可控文本生成的研究进一步与概率模型等理论相结合。基于深度学习的方法以数据驱动的方式进行端到端的学习，模型能够学习到隐式的表示文本语义特征的低维稠密向量。这种表示方法有利于缓解数据稀少的问题以及避免由于依赖人工特征带来的偏差，在文本生成中显示出巨大的潜力。

然而，上述基于深度学习方法的成功在很大程度上依赖于大规模的训练数据集，这对基于监督学习和跨领域的文本生成任务构成了挑战。自从2018年以来，大规模预训练语言模型的应用已逐渐成为自然语言处理的一个新范式。通过在大型语料库上的无监督学习，基于Transformer架构的预训练语言模型能够从海量数据中学习大量的语义和句法知识，只需要对其在下游任务用少量数据进行微调就可以获得在特定任务上的优越性能。就文本生成而言，如GPT-3这类拥有上千亿参数的大规模预训练语言模型通过在海量的语料数据上的学习，极大程度上建模了自然语言的分布，能够生成人类难以分辨真伪的自然流畅的文本。此外，大规模预训练语言模型本身可以被看作是一个信息丰富的知识库，使得它可以在不需要外部领域知识的情况下生成具有特定约束的文本。尽管如此，基于神经网络的预训练语言模型本质上仍然是黑盒子，缺乏良好的可解释性和可控性。

发明内容

本发明要解决的技术问题是，提供一种基于预训练语言模型的可以控制主题、情感、写作风格的文本生成方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于预训练语言模型的可控文本生成方法，包括以下步骤：

训练步骤：

步骤1、收集符合当前文本应用场景的文本样本数据并生成训练样本；将训练样本输入预训练语言模型进行微调，生成符合当前文本应用场景的预训练语言模型；

步骤2、训练主题判别器模型、情感判别器模型和写作风格判别器模型；

主题判别器模型用于接收输入的句子前缀和关键词来计算主题关键词集合中的所有关键词在句子中出现的概率，输出句子是否满足围绕文本主题这一控制属性的对数几率；

情感判别器模型用于接收输入的句子前缀来计算句子的情感极性是正面的还是负面的概率，输出句子是否满足情感极性这一控制属性的对数几率；

写作风格判别器模型用于接收输入的句子前缀来计算句子满足期望的写作风格的概率，输出句子是否满足写作风格这一控制属性的对数几率；

文本生成步骤：

步骤3、训练完成的预训练语言模型接收输入的句子前缀，输出当前生成的候选词的预测概率；

步骤4、训练完成的主题判别器模型、情感判别器模型和写作风格判别器模型分别接收输入的句子前缀，分别输出其控制属性的对数几率并相加，相加的结果为生成的候选词满足当前文本应用场景的控制属性的对数几率；

步骤5、从控制属性的对数几率得到当前生成的候选词的属性概率，将预测概率与属性概率相乘得到最终生成的候选词的输出概率，选择输出概率最大的候选词作为句子的词输出，再判断句子是否达到最大长度，如否将当前生成的句子作为句子前缀，返回步骤3，如是，则输出生成的句子。

本发明通过给定三个相互独立定义的控制属性判别器，可以通过灵活地调整各属性判别器的指标以实现不同控制属性的组合。可根据需要满足的属性组合选择对应的属性判别器，通过将这些属性判别器模型输出的对数几率相加获得所需满足的属性组合的对数几率来引导预训练语言模型生成满足属性组合的句子。

预训练语言模型经过一次微调完成后，当文本生成需求发生变化时，可不再对预训练语言模型进行微调，而是根据具体文本需求对三个控制属性判别器进行微调，就可以对最终生成文本的进行控制。因此本发明的方法能应用于不能直接访问模型，仅以服务方式提供模型API调用的场合。比如目前具有强大文本生成能力的GPT-3模型没有开源，只提供了通过API调用的服务。使用本发明中的方法可以充分利用GPT-3强大的文本生成能力生成自然流畅同时满足约束条件的文本。

因为本发明中只要单词表不变，在不改变判别器模型的情况下，预训练语言模型可以替换成其他的模型，使得生成的最终文本效果可随预训练语言模型的性能提升而不断改进，例如使用更大的模型，更多的训练数据或者更长的训练时间。

本发明的有益效果是：提高基于预训练语言模型的文本生成模型的可解释性和可控性，更好地实现可控文本生成。

附图说明

图1实施例示意图；

图2预训练语言模型在判别器引导下生成满足约束句子的示意图。

具体实施方式

实施例以生成营销文案为例。

如图1所示，一种在模型推理阶段通过属性判别器来引导预训练语言模型生成满足控制属性的文本生成方法，包括以下步骤：

步骤1：收集符合当前文本应用场景的文本样本数据并生成训练样本；将训练样本输入预训练语言模型进行微调，生成符合当前文本应用场景的预训练语言模型。

使用爬虫等手段可以很容易的从社交媒体、新闻门户、垂直社区、视频故事文本、电商评论等来源获取大量营销文案数据。将清洗后的数据用于对大规模中文预训练语言模型进行微调，得到能够生成营销文案的预训练语言模型G。模型的训练使用自回归语言模型作为训练目标。基于预训练模型，只需少量数据的微调就能使模型在预训练阶段学习到的知识迁移到与营销相关的领域，微调后的模型能够生成自然流畅的营销文案。但是由于模型G是无条件的语言模型，生成的文本内容无法满足需要控制的属性。

步骤2：构造主题判别训练数据。

主题使用一组关键词集合

来定义。通过使最终生成的句子包括这些关键词，从而实现其围绕主题的目标。N为关键词总数，j为关键词序号，j∊N。

主题判别器的训练数据构造方式如下：

1.从步骤1得到的预训练语言模型采样生成长度为n的句子

；

表示从第1到n个词顺序连接的句子，n为句子中词的总数；

2.根据句子是否包含关键词

标注得到标签l；

3.取句子

的所有前缀分别与标签l配对得到n个训练样本

，i∊n；句子前缀为在句子不完全形成之前，已经生成的部分；i为词序号；

步骤3：使用主题判别训练数据训练主题判别器模型。

主题判别器

是一个二元分类器，采用了一个相对预训练语言模型G而言轻量的LSTM序列模型，其训练目标使用噪声对比估计。模型根据输入句子的前缀

和单词w,判别单词w是否出现在句子

中。对于定义主题关键词的集合中的所有词

，通过主题判别器模型得到每个词在输入句子前缀

时出现的概率分别为

。则满足是否围绕主题这一控制属性的对数几率为：

(1)

其中λ≤N是使用的关键词个数。考虑到使生成文本围绕主题不一定需要包括所有的关键词，因此可以从关键词集合中随机采样λ个关键词，使生成的句子包括这些关键词组成的子集即可。

步骤4：构造情感分析训练数据。

由于文本的情感极性与语义无关，情感判别器的训练数据不需要和最终生成文本是同一领域的数据，可以使用任何情感分析数据集作为训练数据。有大量开源中文情感分析数据集供选择，如中文微博情感分析数据集，京东购物评论数据集等。

情感判别器的训练数据构造方式如下：

1.从原始情感分析数据集中取出一个样例

，l是表示情感极性的标签；

2.取样例

中的句子

的所有前缀与标签l配对得到n个训练样本

，i∊n；

步骤5：使用情感分析数据训练情感判别器模型。

情感判别器模型

是一个二元分类器，使用一个轻量级的LSTM序列模型，外加一个线性层用于计算类别概率，训练目标使用交叉熵损失函数。模型根据输入的句子前缀

判断句子

的情感极性是正面的还是负面的。模型输出是否满足情感极性这一控制属性的对数几率为：

(2)

步骤6：构造写作风格训练数据。

需要收集具有特定风格的文本作为文本风格判别器的训练数据。由于写作风格判别器模型采用轻量级的LSTM模型，仅需少量数据即可完成模型训练。写作风格判别器的训练数据构造方式如下（以一种写作风格判别器为例）：

1.收集具有某种写作风格的文本作为正例，随机从其他文本抽取的句子作为负例，正负例数据比例为1:1。其中一个样例表示为

，l是表示文本是否具有该风格的标签；

2.取样例

中的句子

的所有前缀与标签l配对得到n个训练样本

，i∊n。

步骤7：使用写作风格训练数据训练写作风格判别器模型。

写作风格判别器模型

，k表示不同文本风格，例如淘宝风格、小红书风格等，是一个二元分类器，使用一个轻量级的LSTM序列模型，外加一个线性层用于计算类别概率，训练目标使用噪声对比估计。模型根据输入的句子前缀

判断句子

是否具有期望的写作风格。模型输出是否满足写作风格这一控制属性的对数几率为：

(3)

步骤8：组合不同的属性判别器，引导预训练语言模型生成满足约束要求的营销文案。

定义预训练语言模型G的概率模型为P(X)，其中

。G将

分解为：

(4)

P(X)是无条件概率模型，可控属性营销文案生成需要定义条件概率模型

,其中c表示控制条件。对应于式(4)中P(X)的分解表示，

的可分解为：

(5)

可以通过对预训练语言模型G进行微调来直接建模

，但是这样做需要改动模型G的参数，并且需要对每种期望的属性分别进行微调，无法灵活组合不同控制属性满足最终的约束条件。本发明提出另一种方案，该方案克服了上述缺点。具体来说，使用贝叶斯公式将式（5）右边的条件概率改写为：

(6)

式中右边第一项

是模型G在推理阶段的每步预测概率，第二项

是属性判别器模型D输出的概率值。式(6)表示条件控制生成的第i步可分解为模型G在第

步输出的概率与属性判别器D输出的句子前缀

是否满足控制属性c的概率的乘积。以使用情感判别器控制生成包含负面情绪的句子为例，

在解码过程的第4步的生成句子的示意图如图2所示。

图2说明了通过判别器模型引导预训练语言模型G生成负面情感句子的过程。模型G在解码过程的第4步输出无条件概率

，从图中可以看到G生成的词的候选集中含正面情感的词的概率较大，因此如果不做控制G将生成包含正面情感的句子。判别器D对G在x ₄生成的每个词都计算包含前缀

的句子

为负面情感的概率

。最后将G的每个词概率与D的对应词的概率相乘得到x ₄的各个词的概率

。从图中可以看到，此时负面情感词“不好”的概率变成最大，因此模型最终输出x ₄的值为“不好”，使生成的句子包含了负面情感。

式(6)中计算x _i的条件概率

时，每一步都需要对词表中所有词计算

，由于预训练语言模型的词表一般都很大，这会导致计算量过大。因此在解码过程的每一步，取

预测的最大100个概率值的词进行计算，这样能尽量减少计算量的同时不会对最终结果产生较大影响。

考虑数值计算的稳定性问题，对式(6)两边取对数，得到对数几率表达式：

(7)

将式(7)中右边第二项判别器的对数几率表示为式(1-3)中的不同属性判别器对数几率相加，就能实现同时对生成文本的主题、情感以及写作风格属性的组合控制：

(8)。

Claims

1.一种基于预训练语言模型的可控文本生成方法，其特征在于，包括以下步骤：

训练步骤：

文本生成步骤：

步骤3、预训练语言模型接收输入的句子前缀，输出当前生成的候选词的预测概率；

步骤5、从控制属性的对数几率得到当前生成的候选词的属性概率，将预测概率与属性概率相乘得到最终生成的候选词的输出概率，选择输出概率最大的候选词作为句子的词输出，再判断句子是否达到最大长度，如否将当前生成的句子作为句子前缀，返回步骤3，如是，则输出生成的句子；

主题判别器模型用于接收输入的句子前缀

，计算主题关键词集合中的所有关键词在句子前缀

中出现的概率为

输出句子是否满足围绕文本主题这一控制属性的对数几率：

其中λ是使用的关键词个数，λ≤N，i为词序号，i∊n，n为句子中词的总数，关键词集合

，N为关键词总数，j为关键词序号，j∊N；

情感判别器模型用于接收输入的句子前缀

，计算句子的情感极性s是正面的还是负面的概率

，输出句子是否满足情感极性这一控制属性的对数几率：

；

写作风格判别器模型用于接收输入的句子前缀

，计算句子满足期望的写作风格k的极性f的概率

，输出句子是否满足写作风格这一控制属性的对数几率：

。

2.如权利要求1所述方法，其特征在于，句子满足当前文本应用场景的控制属性c的对数几率：

。

3.如权利要求2所述方法，其特征在于，步骤3中训练完成的预训练语言模型接收输入生成的句子前缀

，预训练语言模型G输出当前生成的词x _i的预测概率

。

4.如权利要求3所述方法，其特征在于，步骤5具体为：从控制属性

的对数几率得到包含当前生成的词x _i的句子前缀

的属性概率

，将预测概率

与属性概率

相乘得到最终生成的词x _i的输出概率，选择概率最大的词作为生成句子的第i个词输出，再判断生成句子是否达到最大长度n，如否，则将更新词序号i= i+1，返回步骤3，如是，则输出句子

。