CN114997164A

CN114997164A - 文本生成方法及装置

Info

Publication number: CN114997164A
Application number: CN202210612784.8A
Authority: CN
Inventors: 陈刚
Original assignee: Beijing Shenyan Technology Co ltd
Current assignee: Beijing Shenyan Technology Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-02

Abstract

本发明提供一种文本生成方法及装置，所述方法包括：获取文本原句；将所述文本原句输入训练好的文本生成预训练模型，获取所述训练好的文本生成预训练模型基于所述文本原句和模式控制符输出的文本生成结果；其中，所述训练好的文本生成预训练模型是基于续写训练数据、改写训练数据、压缩训练数据、扩写训练数据以及所述模式控制符训练得到的。本发明通过续写训练数据、改写训练数据、压缩训练数据、扩写训练数据以及模式控制符，获取一个兼具续写、改写、压缩和扩写能力的文本生成预训练模型，实现较好的文本生成效果，具有良好的实用性。

Description

文本生成方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本生成方法及装置。

背景技术

文本生成可以根据输入和输出信息的关系分为四种类型，分别为续写(给定前文生成后文)、改写(保留原句的信息但换其他方式表达，对应改述、文本风格迁移等任务)、压缩(将原句变短，对应摘要生成等任务)、扩写(将原句变长，对应扩句等任务)。

理论上语言模型的预训练任务只适合于续写，但现在的大规模预训练模型也会将其他的文本生成类型转换为续写的方式，例如在改写模式中原句当作前文而改后的文本当作后文，压缩和扩写也类似。

由于语言模型的预训练任务和续写之外其他的文本生成类型并不匹配，为了实现较好的文本生成效果，大规模预训练模型往往需要在微调阶段使用大量的有标注数据。然而，有标注数据往往构造成本较高(例如摘要生成任务中需要人为大量的文章撰写摘要)，这限制了大规模预训练模型在某些生成任务中的表现。

发明内容

针对现有技术存在的问题，本发明提供一种文本生成方法及装置。

本发明提供一种文本生成方法，包括：

获取文本原句；

将所述文本原句输入训练好的文本生成预训练模型，获取所述训练好的文本生成预训练模型基于所述文本原句和模式控制符输出的文本生成结果；

其中，所述训练好的文本生成预训练模型是基于续写训练数据、改写训练数据、压缩训练数据、扩写训练数据以及所述模式控制符训练得到的。

可选地，所述将所述文本原句输入训练好的文本生成预训练模型之前，还包括：

分别在续写训练数据、改写训练数据、压缩训练数据和扩写训练数据前拼接对应的模式控制符；

将拼接对应模式控制符的续写训练数据、改写训练数据、压缩训练数据和扩写训练数据输入文本生成预训练模型，获取训练好的文本生成预训练模型。

可选地，所述分别在续写训练数据、改写训练数据、压缩训练数据和扩写训练数据前拼接对应的模式控制符之前，还包括：

基于回环翻译，获取改写训练数据。

利用依存句法分析，获取句子级压缩训练数据。

可选地，所分别在续写训练数据、改写训练数据、压缩训练数据和扩写训练数据前拼接对应的模式控制符之前，还包括：

对段落中的每个句子进行编码和聚类处理，获取所述段落中的关键句；

对所述关键句进行改写，获取段落级压缩训练数据。

可选地，所述模式控制符包括续写模式控制符、改写模式控制符、压缩模式控制符和扩写模式控制符；所述模式控制符用于指示训练数据类型以及指示文本生成任务类型。

本发明还提供一种文本生成装置，包括：

第一获取模块，用于获取文本原句；

第二获取模块，用于将所述文本原句输入训练好的文本生成预训练模型，获取所述训练好的文本生成预训练模型基于所述文本原句和模式控制符输出的文本生成结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述中的任一项所述文本生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述中的任一项所述文本生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述中的任一项所述文本生成方法。

本发明提供的文本生成方法及装置，通过续写训练数据、改写训练数据、压缩训练数据、扩写训练数据以及模式控制符，获取一个兼具续写、改写、压缩和扩写能力的文本生成预训练模型，实现较好的文本生成效果，具有良好的实用性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本生成方法的流程示意图；

图2是本发明提供的文本生成预训练模型的训练示意图；

图3是本发明提供的文本生成装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的文本生成方法的流程示意图，如图1所示，本发明提供一种文本生成方法，所述方法包括：

步骤101，获取文本原句。

具体地，文本原句为需要进行文本生成的句子或段落。获取文本原句的方式可以是摘要文章中的句子或段落，还可以是创作的句子或段落，对获取文本原句的方式不进行限定。

步骤102，将所述文本原句输入训练好的文本生成预训练模型，获取所述训练好的文本生成预训练模型基于所述文本原句和模式控制符输出的文本生成结果；

具体地，续写训练数据是无标注语料数据，续写训练数据用于训练文本生成预训练模型在续写模式的文本生成能力。

改写训练数据是意思相同但是文字不同的句对，可以通过对无标注语料数据进行改写的方式获取，改写训练数据用于训练文本生成预训练模型在改写模式的文本生成能力。

压缩训练数据是核心意思相同但是长度更短的文本对，可以通过对无标注语料数据进行压缩的方式获取，分为句子级压缩训练数据和段落级压缩训练数据，压缩训练数据用于训练文本生成预训练模型在压缩模式的文本生成能力。

扩写训练数据是核心意思相同但是长度更长的文本对，可以通过将压缩训练数据作为扩写前的文本数据和无标注语料数据作为扩写后的文本数据的方式获取，分为句子级扩写训练数据和段落级扩写训练数据，扩写训练数据用于训练文本生成预训练模型在扩写模式的文本生成能力。

将续写训练数据、改写训练数据、压缩训练数据、扩写训练数据以及模式控制符输入文本生成预训练模型，获取训练好的文本生成预训练模型，训练好的文本生成预训练模型兼具续写、改写、压缩和扩写能力。

模式控制符是与文本生成类型相对应的，用于在模型训练时区分不同的训练数据，以及在模型应用时指示模型需要执行的文本生成能力。

将文本原句输入训练好的文本生成预训练模型，训练好的文本生成预训练模型以与模式控制符相对应的能力对文本原句进行处理，获取相应的文本生成结果。

本发明实施例提供的文本生成方法，通过续写训练数据、改写训练数据、压缩训练数据、扩写训练数据以及模式控制符，获取一个兼具续写、改写、压缩和扩写能力的文本生成预训练模型，实现较好的文本生成效果，具有良好的实用性。

具体地，模式控制符包括续写模式控制符、改写模式控制符、压缩模式控制符和扩写模式控制符。

不同的模式控制符对应不同类型的训练数据。续写模式控制符与续写训练数据相对应，改写模式控制符与改写训练数据相对应，压缩模式控制符与压缩训练数据相对应，扩写模式控制符与扩写训练数据相对应。在训练文本生成预训练模型时，用不同的模式控制符指示不同类型的训练数据的，实现文本生成预训练模型对训练数据的区分。

不同的模式控制符对应不同文本生成任务类型。续写模式控制符与续写任务相对应，改写模式控制符与改写任务相对应，压缩模式控制符与压缩任务相对应，扩写模式控制符与扩写任务相对应。在应用训练好的文本生成预训练模型时，用不同的模式控制符指示不同文本生成任务类型，实现让模型获知需要执行的文本生成能力。

本发明实施例提供的文本生成方法，通过不同的模式控制符实现对训练数据的区分和文本生成任务类型的区分，有利于实现较好的文本生成效果。

具体地，图2是本发明提供的文本生成预训练模型的训练示意图，如图2示，将无标注语料数据作为续写训练数据，基于无标注语料数据分别生成改写训练数据、压缩训练数据和扩写训练数据。

将训练数据与相对应的模式控制符进行拼接，具体是：将续写模式控制符拼接在续写训练数据前，将改写模式控制符拼接在改写训练数据前，将压缩模式控制符拼接在压缩训练数据前，将扩写模式控制符拼接在扩写训练数据前。

在模式控制符拼接完成后，将拼接对应模式控制符的续写训练数据、改写训练数据、压缩训练数据和扩写训练数据一起输入文本生成预训练模型，对文本生成模型进行训练，获取训练好的文本生成预训练模型。以改写训练数据为例，文本生成预训练模型接收的字符序列可以表示为：

S＝{G,Src,Tgt}

其中，S表示改写模型下，文本生成预训练模型接收的字符序列，G表示改写模式控制符，Src表示改写训练数据中的原句，Tgt表示改写训练数据中经改写的句子。

其中，

式中，G表示改写模式控制符，

表示模式控制符的集合，X表示续写模式控制符，Y表示压缩模式控制符，K表示扩写模式控制符。

本发明实施例提供的文本生成方法，通过续写训练数据、改写训练数据、压缩训练数据、扩写训练数据以及对应的模式控制符，获取一个兼具续写、改写、压缩和扩写能力的文本生成预训练模型，通过模式控制符可以避免对数据进行标注，有利于实现较好的文本生成效果，也有利于提高模型的实用性。

基于回环翻译，获取改写训练数据。

具体地，回环翻译的具体操作是：先将第一文本翻译成另一种语言，获取第二文本，再利用相反的翻译将第二文本翻译回原来的语言，获取第三文本。

例如，第一文本是汉语，先将第一文本翻译成英语，获取第二文本，再将第二文本翻译成汉语，获取第三文本。

由于目前的机器翻译引擎已经具有较好的效果，因此通过回环翻译产生的第一文本和第三文本的意思基本一致，再通过计算第一文本和第三文本的形态学相似度，将相识度高于预设阈值的文本进行删除，从而获取了意思相同但是文字不同的句对数据，即获取了改写训练数据。

本发明实施例提供的文本生成方法，通过回环翻译产生改写训练数据，有利于后续的文本生成预训练模型的改写能力训练。

利用依存句法分析，获取句子级压缩训练数据。

具体地，利用依存句法分析，将原句中的关键成分提取出来，关键成分一般是句子中的主语、谓语和宾语，从而获取了核心意思相同但是长度更短的句子，即获取了句子级压缩训练数据。

例如，“我非常喜欢红富士苹果”这句话，通过句法分析后，会得到各个词语之间的修饰关系，“非常”修饰“喜欢”，“红富士”修饰“苹果”，将修饰部分去掉保留主干部分，得到“我喜欢苹果”的压缩句子。“我非常喜欢红富士苹果”与“我喜欢苹果”的核心意思是相同的，但是后面一句的长度短一些。

可以利用Stanza等依存句法分析器自动地为大量的句子产生压缩后的句子。

本发明实施例提供的文本生成方法，通过依存句法分析产生压缩训练数据，有利于后续的文本生成预训练模型的压缩能力训练。

对所述关键句进行改写，获取段落级压缩训练数据。

具体地，对一段文字的压缩，关键是识别出这段文字中的关键句，然后在维持原意不变的前提下对关键句进行改写，从而获取段落级压缩训练数据。

获取段落级压缩训练数据的具体过程是：

首先，使用Sentence Transformer(或类似)的句子编码器对一段文字中的每个句子进行编码，获取每个句子的句子向量。

然后，基于K-means聚类算法对所有的句子向量进行聚类，在每一类中选取最接近聚类中心点的句子向量对应的句子作为关键句。

最后，对每一个关键句采用回环翻译的方式产生对应的改写句，将各个关键句对应的改写句拼接起来，获取段落级压缩训练数据。

本发明实施例提供的文本生成方法，通过对段落中的每个句子进行编码和聚类产生关键句，对关键句进行改写获取段落级压缩训练数据，有利于后续的文本生成预训练模型的压缩能力训练。

下面对本发明提供的文本生成装置进行描述，下文描述的文本生成装置与上文描述的文本生成方法可相互对应参照。

图3是本发明提供的文本生成装置的结构示意图，如图3所示，本发明还提供一种文本生成装置，包括：第一获取模块301和第二获取模块302，其中：

第一获取模块301，用于获取文本原句；

第二获取模块302，用于将所述文本原句输入训练好的文本生成预训练模型，获取所述训练好的文本生成预训练模型基于所述文本原句和模式控制符输出的文本生成结果；

可选地，所述装置还包括拼接模块和第三获取模块，其中：

所述拼接模块用于分别在续写训练数据、改写训练数据、压缩训练数据和扩写训练数据前拼接对应的模式控制符；

所述第三获取模块用于将拼接对应模式控制符的续写训练数据、改写训练数据、压缩训练数据和扩写训练数据输入文本生成预训练模型，获取训练好的文本生成预训练模型。

可选地，所述装置还包括第四获取模块，所述第四获取模块用于基于回环翻译，获取改写训练数据。

可选地，所述装置还包括第五获取模块，所述第五获取模块用于利用依存句法分析，获取句子级压缩训练数据。

可选地，所述装置还包括第六获取模块和第七获取模块，其中：

所述第六获取模块用于对段落中的每个句子进行编码和聚类处理，获取所述段落中的关键句；

所述第七获取模块用于对所述关键句进行改写，获取段落级压缩训练数据。

具体来说，本申请实施例提供的文本生成装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行文本生成方法，该方法包括：第一获取模块，用于获取文本原句；第二获取模块，用于将所述文本原句输入训练好的文本生成预训练模型，获取所述训练好的文本生成预训练模型基于所述文本原句和模式控制符输出的文本生成结果；其中，所述训练好的文本生成预训练模型是基于续写训练数据、改写训练数据、压缩训练数据、扩写训练数据以及所述模式控制符训练得到的。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文本生成方法，该方法包括：第一获取模块，用于获取文本原句；第二获取模块，用于将所述文本原句输入训练好的文本生成预训练模型，获取所述训练好的文本生成预训练模型基于所述文本原句和模式控制符输出的的文本生成结果；其中，所述训练好的文本生成预训练模型是基于续写训练数据、改写训练数据、压缩训练数据、扩写训练数据以及所述模式控制符训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的文本生成方法，该方法包括：第一获取模块，用于获取文本原句；第二获取模块，用于将所述文本原句输入训练好的文本生成预训练模型，获取所述训练好的文本生成预训练模型基于所述文本原句和模式控制符输出的文本生成结果；其中，所述训练好的文本生成预训练模型是基于续写训练数据、改写训练数据、压缩训练数据、扩写训练数据以及所述模式控制符训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

本申请实施例中术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”所区别的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本生成方法，其特征在于，包括：

获取文本原句；

2.根据权利要求1所述的文本生成方法，其特征在于，所述将所述文本原句输入训练好的文本生成预训练模型之前，还包括：

3.根据权利要求2所述的文本生成方法，其特征在于，所述分别在续写训练数据、改写训练数据、压缩训练数据和扩写训练数据前拼接对应的模式控制符之前，还包括：

基于回环翻译，获取改写训练数据。

4.根据权利要求2所述的文本生成方法，其特征在于，所述分别在续写训练数据、改写训练数据、压缩训练数据和扩写训练数据前拼接对应的模式控制符之前，还包括：

利用依存句法分析，获取句子级压缩训练数据。

5.根据权利要求2所述的文本生成方法，其特征在于，所分别在续写训练数据、改写训练数据、压缩训练数据和扩写训练数据前拼接对应的模式控制符之前，还包括：

对所述关键句进行改写，获取段落级压缩训练数据。

6.根据权利要求1所述的文本生成方法，其特征在于，所述模式控制符包括续写模式控制符、改写模式控制符、压缩模式控制符和扩写模式控制符；所述模式控制符用于指示训练数据类型以及指示文本生成任务类型。

7.一种文本生成装置，其特征在于，包括：

第一获取模块，用于获取文本原句；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中的任一项所述文本生成方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中的任一项所述文本生成方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中的任一项所述文本生成方法。