CN116090425A

CN116090425A - 一种基于词替换的文本生成方法、系统及存储介质

Info

Publication number: CN116090425A
Application number: CN202211505931.8A
Authority: CN
Inventors: 黄民烈; 温佳鑫
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-05-09

Abstract

本发明提供一种基于词替换的文本生成方法、系统及存储介质，包括：获取数据集中的原始样本，确定原始样本的因果特征；所述原始样本包括多个单词组成的文本和分类标签，将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构；基于重构的因果特征建立反事实样本生成模型，设置目标函数对所述反事实样本生成模型进行训练，通过所述反事实样本生成模型进行文本生成。本发明解决了现有反事实样本生成效率低、质量差的缺陷，以实现不依赖人力的情况下生成高质量、高多样性的反事实样本，提高自然语言理解模型的鲁棒性。

Description

一种基于词替换的文本生成方法、系统及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于词替换的文本生成方法、系统及存储介质。

背景技术

随着人工智能的快速发展，自然语言理解模型在同分布的测试集上达到了优异的性能，在GLUE，SuperGLUE等测试基准上的性能甚至超过了人类。然而，研究者们发现这些强大的自然语言理解模型具有捷径学习的现象，即模型会学习数据集中虚假的特征，从而导致了较差的泛化性。因此，捷径学习的现象阻碍了自然语言理解模型在现实场景中的应用。

现有的研究者们从不同的角度探索缓解捷径学习、提升鲁棒性的方法。其中，反事实样本由于其简单性和有效性在近期获得了研究者们的关注。具体而言，反事实样本要求修改原样本中的因果特征，从而改变样本标签。由于这一过程的复杂性，目前许多已有的工作仍然依赖人工改写的方式构造反事实样本，时间成本和金钱成本都很高。虽然近期出现了一些针对特定任务(如情感分类、问答)的自动反事实样本生成方法，但仍缺少对通用的自动反事实样本生成方法的探索。

发明内容

本发明提供一种基于词替换的文本生成方法、系统及存储介质，用以解决现有反事实样本生成效率低、质量差的缺陷，以实现不依赖人力的情况下生成高质量、高多样性的反事实样本，提高自然语言理解模型的鲁棒性。

本发明提供一种基于词替换的文本生成方法，包括：

获取数据集中的原始样本，确定原始样本的因果特征；

所述原始样本包括多个单词组成的文本和分类标签，将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构；

基于重构的因果特征建立反事实样本生成模型，设置目标函数对所述反事实样本生成模型进行训练，通过所述反事实样本生成模型进行文本生成。

根据本发明提供的一种基于词替换的文本生成方法，所述获取数据集中的原始样本，确定原始样本的因果特征，具体包括：

获取数据集中的原始样本(x,y),其中x＝(t₁,t₂,…,t_n)是由n个单词组成的文本，y是分类标签；

基于预设的自然语言理解模型，计算对于单词t_i的嵌入表示e_i的梯度；

计算所述梯度的L2范数并进行归一化处理，得到单词ti的重要性分数si，经过计算得到因果特征。

根据本发明提供的一种基于词替换的文本生成方法，所述计算所述梯度发L2范数并进行归一化处理，得到单词ti的重要性分数si，经过计算得到因果特征，具体包括：

所述重要性分数si的计算公式为：

s_i＝||g(t_i)||₂/Σ||g(t_j)||₂

将所述重要性分数在topπ％的单词视为因果特征z。

根据本发明提供的一种基于词替换的文本生成方法，将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构，具体包括：

获取原始样本(x,y)和样本的因果特征z；

将原始样本x中的因果特征z的位置通过占位符[MASK-i]进行替换，得到去因果特征文本x-z；

将所述去因果特征文本x-z和原始样本中的y输入至预设的填空式文本生成模型，通过自回归的方式生成目标序列，完成因果特征z的重构。

根据本发明提供的一种基于词替换的文本生成方法，所述基于重构的因果特征建立反事实样本生成模型，具体包括：

将所述反事实样本生成模型形式化为标签可控的填空式文本生成任务；

通过对因果特征的重构改变样本标签，建立标签可控的填空式文本生成任务，完成反事实样本生成模型的构建。

根据本发明提供的一种基于词替换的文本生成方法，所述设置目标函数对所述反事实样本生成模型进行训练，通过所述反事实样本生成模型进行文本生成，具体包括：

设定目标函数，引入非似然损失函数对所述反事实样本生成模型进行训练；

训练完成后，所述反事实样本生成模型在输入不同标签时，抑制生成相同因果特征，完成文本生成。

本发明还提供一种基于词替换的文本生成系统，所述系统包括：

因果特征确定模块，用于获取数据集中的原始样本，确定原始样本的因果特征；

重构模块，用于所述原始样本包括多个单词组成的文本和分类标签，将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构；

样本生成模块，用于基于重构的因果特征建立反事实样本生成模型，设置目标函数对所述反事实样本生成模型进行训练，通过所述反事实样本生成模型进行文本生成。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于词替换的文本生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于词替换的文本生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于词替换的文本生成方法。

本发明提供的一种基于词替换的文本生成方法、系统及存储介质，通过建立反事实样本生成模型在进行词替换时，修改原样本中的因果特征，改变标签样本，可以在不依赖任何人力的情况下生成高质量、高多样性的反事实样本，可以广泛的应用到包括自然语言推断，情感分类，问答等多种自然语言理解任务上，显著的提升自然语言理解模型的泛化性、鲁棒性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于词替换的文本生成方法的流程示意图之一；

图2是本发明提供的一种基于词替换的文本生成方法的流程示意图之二；

图3是本发明提供的一种基于词替换的文本生成方法的流程示意图之三；

图4是本发明提供的一种基于词替换的文本生成方法的流程示意图之四；

图5是本发明提供的一种基于词替换的文本生成方法的流程示意图之五；

图6是本发明提供的一种基于词替换的文本生成系统的模块连接示意图；

图7是本发明提供的电子设备的结构示意图。

附图标记：

110：因果特征确定模块；120：重构模块；130：样本生成模块；

710：处理器；720：通信接口；730：存储器；740：通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明的一种基于词替换的文本生成方法，包括：

S100、获取数据集中的原始样本，确定原始样本的因果特征；

S200、所述原始样本包括多个单词组成的文本和分类标签，将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构；

S300、基于重构的因果特征建立反事实样本生成模型，设置目标函数对所述反事实样本生成模型进行训练，通过所述反事实样本生成模型进行文本生成。

由于反事实样本能够缓解捷径学习、提升鲁棒性，反事实样本要求修改原样本中的因果特征，从而改变样本标签。由于这一过程的复杂性，目前许多已有的工作仍然依赖人工改写的方式构造反事实样本，时间成本和金钱成本都很高。虽然近期出现了一些针对特定任务(如情感分类、问答)的自动反事实样本生成方法，但仍缺少对通用的自动反事实样本生成方法的探索。本发明通过建立反事实样本生成模型在进行词替换时，修改原样本中的因果特征，改变标签样本，可以在不依赖任何人力的情况下生成高质量、高多样性的反事实样本，可以广泛的应用到包括自然语言推断，情感分类，问答等多种自然语言理解任务上，显著的提升自然语言理解模型的泛化性、鲁棒性。

获取数据集中的原始样本，确定原始样本的因果特征，具体包括：

S101、获取数据集中的原始样本(x,y),其中x＝(t1,t2,…,tn)是由n个单词组成的文本，y是分类标签；

S102、基于预设的自然语言理解模型，计算对于单词ti的嵌入表示ei的梯度；

S103、计算所述梯度的L2范数并进行归一化处理，得到单词ti的重要性分数si，经过计算得到因果特征。

其中计算自然语言理解模型对于单词t_i的嵌入表示e_i的梯度的公式为：

通过计算梯度的L2范数并将其归一化，得到单词ti的重要性分数si的公式为：

s_i＝||g(t_i)||₂/Σ||g(t_j)||₂

最后将重要性分数在topπ％的单词视为因果特征z。

通过计算因果特征有助于建立反事实样本生成模型，反事实样本通过修改原样本中的因果特征后，改变样本标签。先确定原样本标签对应的因果特征，有助于进行样本标签的改变。

将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构，具体包括：

S201、获取原始样本(x,y)和样本的因果特征z；

S202、将原始样本x中的因果特征z的位置通过占位符[MASK-i]进行替换，得到去因果特征文本x-z；

S203、将所述去因果特征文本x-z和原始样本中的y输入至预设的填空式文本生成模型，通过自回归的方式生成目标序列，完成因果特征z的重构。

本发明中由于没有监督数据，所以将反事实样本生成任务形式化为标签可控的填空式文本生成任务。通过构建标签可控的填空式文本生成模型有助于建立反事实样本生成模型。

所述基于重构的因果特征建立反事实样本生成模型，具体包括：

S301、将所述反事实样本生成模型形式化为标签可控的填空式文本生成任务；

S302、通过对因果特征的重构改变样本标签，建立标签可控的填空式文本生成任务，完成反事实样本生成模型的构建。

设置目标函数对所述反事实样本生成模型进行训练，通过所述反事实样本生成模型进行文本生成，具体包括：

S401、设定目标函数，引入非似然损失函数对所述反事实样本生成模型进行训练；

S402、训练完成后，所述反事实样本生成模型在输入不同标签时，抑制生成相同因果特征，完成文本生成。

本发明中标准的最大化似然损失函数的形式如下：

然而，仅使用最大化似然训练目标可能使得模型过分关注在文本输入x-z上，忽视了输入的标签y，从而导致标签可控性较差。

为了缓解这一问题，我们引入非似然损失函数，抑制模型在输入不同标签y’时仍然生成相同的z，其形式化表示如下：

最终损失函数为L_MLE和L_UL的线性加权和：

L＝L_MLE+α*L_UL

通过引入非似然损失函数对所述反事实样本生成模型进行训练，能够保证不同的输入标签不会生成相同的因果特征。

通过本发明提供的一种基于词替换的文本生成方法，即建立一个反事实样本生成模型，在进行词替换时，修改原样本中的因果特征，改变标签样本，最终可以在不依赖任何人力的情况下生成高质量、高多样性的反事实样本，可以广泛的应用到包括自然语言推断，情感分类，问答等多种自然语言理解任务上，显著的提升自然语言理解模型的泛化性、鲁棒性。

参考图6，本发明还公开了一种基于词替换的文本生成系统，所述系统包括：

因果特征确定模块110，用于获取数据集中的原始样本，确定原始样本的因果特征；

重构模块120，用于所述原始样本包括多个单词组成的文本和分类标签，将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构；

样本生成模块130，用于基于重构的因果特征建立反事实样本生成模型，设置目标函数对所述反事实样本生成模型进行训练，通过所述反事实样本生成模型进行文本生成。

其中，因果特征确定模块110获取数据集中的原始样本(x,y),其中x＝(t1,t2,…,tn)是由n个单词组成的文本，y是分类标签；

基于预设的自然语言理解模型，计算对于单词ti的嵌入表示ei的梯度；

重构模块120，获取原始样本(x,y)和样本的因果特征z；

样本生成模块130，将所述反事实样本生成模型形式化为标签可控的填空式文本生成任务；

通过本发明提供的一种基于词替换的文本生成系统，建立反事实样本生成模型在进行词替换时，修改原样本中的因果特征，改变标签样本，可以在不依赖任何人力的情况下生成高质量、高多样性的反事实样本，可以广泛的应用到包括自然语言推断，情感分类，问答等多种自然语言理解任务上，显著的提升自然语言理解模型的泛化性、鲁棒性。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行一种基于词替换的文本生成方法，该方法包括：获取数据集中的原始样本，确定原始样本的因果特征；

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的一种基于词替换的文本生成方法，该方法包括：获取数据集中的原始样本，确定原始样本的因果特征；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的一种基于词替换的文本生成方法，该方法包括：获取数据集中的原始样本，确定原始样本的因果特征；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于词替换的文本生成方法，其特征在于，包括：

获取数据集中的原始样本，确定原始样本的因果特征；

2.根据权利要求1所述的基于词替换的文本生成方法，其特征在于，所述获取数据集中的原始样本，确定原始样本的因果特征，具体包括：

3.根据权利要求2所述的基于词替换的文本生成方法，其特征在于，所述计算所述梯度的L2范数并进行归一化处理，得到单词ti的重要性分数si，经过计算得到因果特征，具体包括：

所述重要性分数si的计算公式为：

s_i＝||g(t_i)||₂/Σ||g(t_j)||₂

将所述重要性分数在topπ％的单词视为因果特征z。

4.根据权利要求1所述的基于词替换的文本生成方法，其特征在于，将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构，具体包括：

获取原始样本(x,y)和样本的因果特征z；

5.根据权利要求1所述的基于词替换的文本生成方法，其特征在于，所述基于重构的因果特征建立反事实样本生成模型，具体包括：

6.根据权利要求1所述的基于词替换的文本生成方法，其特征在于，所述设置目标函数对所述反事实样本生成模型进行训练，通过所述反事实样本生成模型进行文本生成，具体包括：

7.一种基于词替换的文本生成系统，其特征在于，所述系统包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于词替换的文本生成方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于词替换的文本生成方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于词替换的文本生成方法。