CN114997395A

CN114997395A - 文本生成模型的训练方法、生成文本的方法以及各自装置

Info

Publication number: CN114997395A
Application number: CN202210429607.6A
Authority: CN
Inventors: 耿瑞莹; 李亮; 石翔; 黎槟华; 李永彬; 孙健
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-09-02

Abstract

本说明书实施例提供文本生成模型的训练方法、生成文本的方法以及各自装置，其中所述文本生成模型的训练方法包括：获得文本生成模型，以及具有文本相关性的多个任务各自的样本，其中，文本生成模型包括多个训练阶段，每个训练阶段对应不同训练目标，样本具有标注精度等级；针对每个训练阶段，根据多个任务各自的样本中，与该训练阶段的训练目标匹配的标注精度等级的样本，获得该训练阶段的样本集；针对多个训练阶段中的第一个训练阶段，利用该第一个训练阶段的样本集对所述文本生成模型进行训练，得到更新的文本生成模型；针对第一个训练阶段之后的任一训练阶段，利用该任一训练阶段的样本集继续训练文本生成模型，得到更新的文本生成模型。

Description

文本生成模型的训练方法、生成文本的方法以及各自装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及文本生成模型的训练方法、生成文本的方法以及各自装置。

背景技术

在自然语言处理中，一个重要的领域，就是数据到文本的自动生成。例如，从一些数据中自动生成短语、句子、段落、文章等都属于这个领域的应用。可以是由多到少的生成，也可以是由少到多的生成。在从数据到文本的生成中，通常按照数据源的不同分为不同的任务。例如，表格到文本的生成任务，SQL语句到文本的生成任务等各种文本生成任务。

目前，各个任务在数据源不同的情况下，针对不同任务分别建模，分别训练，耗费大量时间，导致模型训练效率低下。

发明内容

有鉴于此，本说明书实施例提供了文本生成模型的训练方法以及生成文本的方法。本说明书一个或者多个实施例同时涉及文本生成模型的训练装置以及生成文本的装置，计算设备，计算机可读存储介质以及计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文本生成模型的训练方法，包括：获得文本生成模型，以及具有文本相关性的多个任务各自的样本，其中，所述文本生成模型包括多个训练阶段，每个训练阶段对应不同训练目标，所述样本具有标注精度等级；针对每个训练阶段，根据所述多个任务各自的样本中，与该训练阶段的训练目标匹配的标注精度等级的样本，获得该训练阶段的样本集，其中，不同训练阶段的样本集不同；针对所述多个训练阶段中的第一个训练阶段，利用该第一个训练阶段的样本集对所述文本生成模型进行训练，得到更新的文本生成模型；针对所述第一个训练阶段之后的任一训练阶段，利用该任一训练阶段的样本集对所述任一训练阶段的上一训练阶段得到的文本生成模型进行训练，得到更新的文本生成模型。

根据本说明书实施例的第二方面，提供了一种文本生成模型的训练装置，包括：初始化模块，被配置为获得文本生成模型，以及具有文本相关性的多个任务各自的样本，其中，所述文本生成模型包括多个训练阶段，每个训练阶段对应不同训练目标，所述样本具有标注精度等级。样本确定模块，被配置为针对每个训练阶段，根据所述多个任务各自的样本中，与该训练阶段的训练目标匹配的标注精度等级的样本，获得该训练阶段的样本集，其中，不同训练阶段的样本集不同。第一更新模块，被配置为针对所述多个训练阶段中的第一个训练阶段，利用该第一个训练阶段的样本集对所述文本生成模型进行训练，得到更新的文本生成模型。第二更新模块，被配置为针对所述第一个训练阶段之后的任一训练阶段，利用该任一训练阶段的样本集对所述任一训练阶段的上一训练阶段得到的文本生成模型进行训练，得到更新的文本生成模型。

根据本说明书实施例的第三方面，提供了一种生成文本的方法，包括：获得一个或多个任务各自的结构化数据；将所述一个或多个任务各自的结构化数据进行解析，得到所述一个或多个任务各自的若干个节点和节点之间的关系；利用所述一个或多个任务各自的若干个节点和节点之间的关系转换得到所述一个或多个任务各自的图，并获得节点各自的向量表达；将所述一个或多个任务各自的图以及节点的向量表达输入应用如本说明书任意实施例所述的文本生成模型的训练方法训练得到的文本生成模型，得到所述文本生成模型输出的文本。

根据本说明书实施例的第四方面，提供了生成文本的装置，包括：数据获取模块，被配置为获得一个或多个任务各自的结构化数据。结构解析模块，被配置为将所述一个或多个任务各自的结构化数据进行解析，得到所述一个或多个任务各自的若干个节点和节点之间的关系。结构转换模块，被配置为利用所述一个或多个任务各自的若干个节点和节点之间的关系转换得到所述一个或多个任务各自的图，并获得节点各自的向量表达。文本输出模块，被配置为将所述一个或多个任务各自的图以及节点的向量表达输入应用如本说明书任意实施例所述的文本生成模型的训练方法训练得到的文本生成模型，得到所述文本生成模型输出的文本。

根据本说明书实施例的第五方面，提供了一种计算设备，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本生成模型的训练方法的步骤，或者，实现上述生成文本的方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述文本生成模型的训练方法的步骤，或者，实现上述生成文本的方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本生成模型的训练方法的步骤，或者，实现上述生成文本的方法的步骤。

本说明书一个实施例提供了文本生成模型的训练方法，该方法获得文本生成模型，以及具有文本相关性的多个任务各自的样本，其中，所述文本生成模型包括多个训练阶段，每个训练阶段对应不同训练目标，所述样本具有标注精度等级；针对每个训练阶段，根据所述多个任务各自的样本中，与该训练阶段的训练目标匹配的标注精度等级的样本，获得该训练阶段的样本集，其中，不同训练阶段的样本集不同；针对所述多个训练阶段中的第一个训练阶段，利用该第一个训练阶段的样本集对所述文本生成模型进行训练，得到更新的文本生成模型；针对所述第一个训练阶段之后的任一训练阶段，利用该任一训练阶段的样本集对所述任一训练阶段的上一训练阶段更新的文本生成模型进行训练，得到更新的文本生成模型。可见，该方法针对具有文本相关性的多个任务联合建模，一个模型应用于多个任务，对样本按照标注精度不同分级后进行分阶段训练，在每个训练阶段使用与训练目标匹配的精度等级的样本进行训练，经过多个阶段的训练，文本生成模型的精度逐步提升，而且由于多个任务具有文本相关性，模型在训练过程中多个任务的样本共同相互作用促进模型收敛，有效减少了训练时间，充分提高了模型训练效率，最终可以快速得到应用于多个任务的文本生成模型。

本说明书另一个实施例提供了生成文本的方法，由于该方法获得一个或多个任务各自的结构化数据，将所述一个或多个任务各自的结构化数据进行解析，得到所述一个或多个任务各自的若干个节点和节点之间的关系，利用所述一个或多个任务各自的若干个节点和节点之间的关系转换得到所述一个或多个任务各自的图，并获得节点各自的向量表达，从而将结构不同的输入数据转换为统一的图结构，进而能够将所述一个或多个任务各自的图以及节点的向量表达输入应用如本说明书任意实施例所述的文本生成模型的训练方法训练得到的文本生成模型，得到所述文本生成模型输出的文本，因此，一个文本生成模型可以用于对不同数据源的多个任务生成文本，提高了文本生成效率。

附图说明

图1是本说明书一个实施例提供的一种文本生成模型的训练方法的流程图；

图2是本说明书一个实施例提供的表格数据转换图的示意图；

图3是本说明书一个实施例提供的SQL数据转换图的示意图；

图4是本说明书另一个实施例提供的图结构的示意图；

图5是本说明书一个实施例提供的文本生成模型结构示意图；

图6是本说明书一个实施例提供的多任务样本在多训练阶段中样本数据占比示意图；

图7是本说明书一个实施例提供的一种文本生成模型的训练装置的结构示意图；

图8是本说明书一个实施例提供的一种生成文本的方法的流程图；

图9是本说明书一个实施例提供的一种生成文本的装置的结构示意图；

图10是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本说明书中，提供了文本生成模型的训练方法以及生成文本的方法，本说明书同时涉及文本生成模型的训练装置以及生成文本的装置，计算设备，以及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

为了使本说明书实施例提供的文本生成模型的训练方法更加易于理解，首先以结构数据到文本的生成为例，对所述文本生成模型的训练方法的应用场景做示例性说明。例如，结构数据到文本生成包括Table-to-Text，SQL-to-Text，ResponseNLG等任务。其中，Table-to-text旨在从给定的结构化表格数据中生成对应的文字描述，可以帮助人们快速获取结构化数据中的关键信息；SQL-to-Text任务从SQL语句中生成自然语言问题，可以作为语义解析任务的数据扩充；ResponseNLG是基于表格和SQL语句的回复生成任务，可以基于SQL和表格生成对应的回复。更具体地，例如，ResponseNLG任务可以是基于当前SQL查询和查询结果表格，生成自然语言的回复的任务。三个任务的数据源不同，且不同标注规范下的数据质量良莠不齐，导致文本生成模型的训练效率低下。根据本说明书实施例提供的方法，可以将数据结构不同但具有文本相关性的多个任务如Table-to-Text生成、SQL-to-Text、ResponseNLG三个任务联合做预训练，根据标注精度等级划分不同的训练阶段，最终应用于Table-to-Text任务，SQL-to-Text任务和ResponseNLG任务中，提高了模型的训练效率。

具体地，参见图1，图1示出了根据本说明书一个实施例提供的一种文本生成模型的训练方法的流程图，具体包括以下步骤。

步骤102：获得文本生成模型，以及具有文本相关性的多个任务各自的样本，其中，所述文本生成模型包括多个训练阶段，每个训练阶段对应不同训练目标，所述样本具有标注精度等级。

所述文本生成模型所采用的机器学习方法不限。例如，所述文本生成模型可以采用Transformer模型来构建。Transformer是一种基于encoder-decoder结构的基于自注意力机制的深度学习模型。具体地，Transformer可以包括多个Encoder的堆叠以及多个Decoder的堆叠。每一个Encoder可以有两个子层：多头自注意力层和全连接前馈神经网络层。子层的连接可以使用LayerNorm和残差连接，可以避免梯度消失和爆炸。每个Decoder可以有多个子层，如多头自注意力层和全连接前馈神经网络层。

所述多个任务具有文本相关性，可以理解为所述多个任务的输入数据的来源不同，但两个任务的输入数据之间具有文本相关性。在多个任务具有文本相关性的情况下，在联合构建文本生成模型之后，基于多阶段的训练过程，多个任务的样本能够共同相互作用促进模型收敛。

所述多个任务各自的样本可以通过任意方式获得。例如，所述样本的数据来源可以是人工收集的数据，网络抓取的数据，平台的处理数据等等。其中，每一个任务有若干个样本，每一个样本具有标注精度等级。其中，所述标注精度等级，用于表示样本的标注质量，例如，可以是无标注，粗标注，精标注等。例如，有的样本为网络抓取的数据，则该样本的标注精度等级可以是无标注。再例如，有的标注人员经验不足，则样本的标注精度等级可以是粗标注。又例如，有的标注人员经验丰富，则样本的标注精度等级可以是精标注。

所述多个训练阶段的数量以及训练目标具体可以根据实施场景需要设置，本说明书实施例提供的方法对此并不进行限制。可以理解的是，训练目标，可以是对任一个或多个任务提高模型精度的目标。根据实施场景需要，可以在不同的训练阶段，将对应的训练目标设置为对不同任务提高模型精度。

需要说明的是，所述多个任务可以包括两个或两个以上更多的任务。所述多个训练阶段，可以包括两个或两个以上更多的阶段。

步骤104：针对每个训练阶段，根据所述多个任务各自的样本中，与该训练阶段的训练目标匹配的标注精度等级的样本，获得该训练阶段的样本集，其中，不同训练阶段的样本集不同。

可以理解的是，在不同的训练目标下，对参与训练的样本可以按需选择，只要达到训练目标即可。因此，在按需选择样本时，可以将训练目标与任务的标注精度等级进行匹配，确定符合训练目标需要的样本来进行训练。

其中，不同训练阶段的样本集不同，是由于每个训练阶段的训练目标不同，在选择样本时，自然会发生变化。例如，第一个训练阶段的训练目标是多个任务的全量训练，此时，所有标注精度等级的样本均与该训练目标匹配，则可以将所有样本全部加入该第一个训练阶段的样本集。再例如，某一个训练阶段的训练目标是针对某一个任务提高精度，此时，该任务的标注精度等级高的样本与该训练目标匹配，则可以将该任务的标注精度等级高的样本，以及其他任务的不影响或可提高该任务训练精度的样本加入该训练阶段的样本集。

步骤106：针对所述多个训练阶段中的第一个训练阶段，利用该第一个训练阶段的样本集对所述文本生成模型进行训练，得到更新的文本生成模型。

所述文本生成模型的训练过程的具体实施方式不限，可以根据所采用的机器学习算法来设置。例如，以基于Transformer的文本生成模型为例，Transformer的训练是并行的，即一条样本的输入序列的所有节点的向量是同时训练的，这样就大大增加了计算效率。Transformer使用位置嵌入(Positional Encoding)来理解语言的顺序，使用自注意力机制和全连接层进行计算。Transformer模型主要分为两大部分，分别是Encoder和Decoder。Encoder负责把输入(语言序列)映射成隐藏层，然后Decoder解码器再把隐藏层映射为自然语言序列，从而可以输出文本。在输出文本后，可以调整文本生成模型的参数继续训练，直到达到训练停止条件(如迭代次数达到预设次数，或者，损失值达到预设阈值)时，可以得到更新的文本生成模型。

步骤108：针对所述第一个训练阶段之后的任一训练阶段，利用该任一训练阶段的样本集对所述任一训练阶段的上一训练阶段得到的文本生成模型进行训练，得到更新的文本生成模型。

所述多个训练阶段，是指逐阶段执行文本模型训练，后一个训练阶段使用的文本生成模型是其上一训练阶段训练得到的文本生成模型，从而使文本生成模型经过多阶段的训练，精度不断提升。并且，多个任务中每个任务可以至少对应设置在多个训练阶段至少一个训练阶段的训练目标中，从而针对多个任务，经过多个训练阶段之后，最后文本生成模型可以应用于多个任务来实现文本生成。

可见，该方法针对具有文本相关性的多个任务联合建模，一个模型应用于多个任务，对样本按照标注精度不同分等级后进行分阶段训练，在每个训练阶段使用与训练目标匹配的精度等级的样本进行训练，经过多个阶段的训练，文本生成模型的精度逐步提升，而且由于多个任务具有文本相关性，模型在训练过程中多个任务的样本共同相互作用促进模型收敛，有效减少了训练时间，充分提高了模型训练效率，最终可以快速得到应用于多个任务的文本生成模型。

例如，以所述多个任务包括第一任务以及第二任务为例，所述第一任务的样本包括第一标注精度等级的样本和第二标注精度等级的样本，所述第二任务的样本包括第一标注精度等级的样本和第二标注精度等级的样本，所述第一标注精度等级的标注精度大于第二标注精度等级的标注精度。相应地，所述针对每个训练阶段，根据所述多个任务各自的样本中，与该训练阶段的训练目标匹配的标注精度等级的样本，获得该训练阶段的样本集，可以包括：

针对第一个训练阶段，根据该训练阶段的训练目标为全量训练，利用所述第一任务的第一标注精度等级和第二标注精度等级的样本，以及所述第二任务的第一标注精度等级和第二标注精度等级的样本，得到该训练阶段的样本集；

针对第二个训练阶段，根据该训练阶段的训练目标为对第一任务提高精度的训练，利用所述第一任务的第一标注精度等级的样本以及所述第二任务的第一标注精度等级和第二标注精度等级的样本，得到该训练阶段的样本集；

针对第三个训练阶段，根据该训练阶段的训练目标为对第二任务提高精度的训练，利用所述第二任务的第一标注精度等级的样本，得到该训练阶段的样本集。

在上述实施例中，第一个训练阶段相当于是多个任务各种精度混合数据的预训练，训练后具有对多个任务均能生成文本的初步能力。第二个训练阶段相当于去除了第一任务的粗标注样本，使用第一任务的精标注样本以及第二任务的样本继续训练，第三个训练阶段相当于相当于去除了第一任务的精标注样本以及第二任务的粗标注样本，使用第一任务的精标注样本继续训练，训练后得到的文本生成模型具有对第一任务和第二任务精准输出文本的能力。

结合上述实施例，本说明书一个或多个实施例中，所述多个任务，还可以包括：与所述第一任务以及第二任务具有文本相关性的第三任务。相应地，所述第一个训练阶段的样本集中还包括第三任务的样本，所述第三任务的样本为第三标注精度等级的样本，所述第三标注精度等级的标注精度小于所述第二标注精度等级的标注精度。在该实施例中，只有第一个训练阶段使用第三任务的样本，从而既借助第三任务的样本提高了泛化性，又避免其低精度的标注在后续阶段对模型精度造成影响。

上述实施例中，模型在训练过程中的多个阶段同时针对第一任务和第二任务逐渐收敛，最终训练得到可以应用于第一任务和第二任务的文本生成模型，有效减少了训练时间，充分提高了模型训练效率。

本说明书实施例提供的方法的应用场景不限，下面结合多个任务分别为从不同结构的结构化数据生成文本的任务为例进行示意性说明。为了针对数据异构的多个任务统一联合建模，本说明书实施例提供的方法，首先需要将多个任务各自的结构化数据转为统一的图结构。因此，所示方法还可以包括：

获得所述多个任务各自的结构化数据；

将所述多个任务各自的结构化数据进行解析，得到所述多个任务各自的若干个节点和节点之间的关系；

利用所述多个任务各自的若干个节点和节点之间的关系转换得到所述多个任务各自的图，并获得节点各自的向量表达；

利用所述图与所述节点的向量表达，得到所述多个任务各自的样本。

例如，本说明书一个或多个实施例中，一个任务为从SQL数据生成文本的任务，另一个任务为从SQL数据与表格数据生成文本的任务，还有一个任务为从表格数据生成文本的任务。针对这三个任务，首先对输入的异构数据统一转换为图结构。具体地：

例如，针对表格数据，可以将表格的单元格视为节点，根据单元格之间的关系建立节点之间的边。例如，可以预先设置建立边的规则，如识别同一行的节点，将同行的节点视为有关系的节点来构建边；如识别同一列的节点，将同列的节点视为有关系的节点来构建边；识别同一表格的节点，将同表格的节点视为有关系的节点来构建边等等，最终转化成图结构。如图2所示的表格数据转换图的示意图所示，表格经过转换得到对应的图结构。

例如，针对SQL数据，可以按照语法约束规则来确定节点和节点之间的边。如图3所示SQL数据转换图的示意图所示，SQL数据经过转换得到对应的图结构。

例如，针对同时包含表格和SQL的数据，可以按照上面的示例，先把SQL数据和表格数据分别转换为图结构，再对二者的图结构中有关联的节点进行连接，形成完整的图结构。如图2，3所示的图结构，对有关联的节点进行连接后，得到如图4所示的图结构。如图2，3所示的图结构可以为树形的图结构。例如，图2，图3中的“ROOT”表示树形的图结构的根节点，中间节点或者叶子节点按照关联关系进行连接。

在结构化数据生成文本的应用场景下，所述文本生成模型可以为引入结构化适配器的语言模型。例如，可以将引入结构化适配器的预训练语言模型作为编码器(即，SA-GAT)。其中，所述结构化适配器用于对图的结构进行特征提取。结构化适配器，可以理解为包括图注意力网络的模块。

例如，所述引入结构化适配器的语言模型，可以包括：transformer编码模块(Transformer Encoder Block)以及transformer解码模块(Transformer DecoderBlock)，例如，如图5所示的文本生成模型结构示意图，所述结构化适配器位于所述transformer编码模块的前馈网络子层之后。如图5所示的文本生成模型结构示意图，所述结构化适配器(图5所示的L-NE)可以包括：Layer Normalization(层标准化)模块和GraphAttention Network(图注意力网络)。

其中，“SQL”，“…”，“low”，“risk”，“…”，“％”表示输入序列。

其中，Layer Normalization模块，用于计算神经网络各层的期望和标注差，对节点向量进行标准化，经过激活函数处理后，将处理后的节点向量输入到图注意力网络。

其中，图注意力网络，用于对输入的图进行相关特征提取，并将提取的相关特征加入到节点向量。

例如，所述图注意力网络的模型表达式如下：

h^r＝Concat(z¹，…,z^H)

其中，1≤h≤H，v，h用于表示节点；W，Q，K表示模型中使用的参数；且

N(v)表示图中节点v的直接邻居节点，

表示对h节点和v节点的相关性打分，n表示节点数量，h_n是v所有邻居节点；

表示对所有节点的相关性进行归一化处理；z^h表示通过相关性系数对节点向量进行加权求和，得到包含了当前节点所有邻居节点的信息；h^r表示对并行的H次计算结果链接在一起得到节点向量的表示。

例如，以所述多个任务包括第一任务、第二任务以及第三任务为例。所述第一任务为从SQL数据生成文本的任务(如可以称为SQL-to-Text任务或者SQL2Text)，所述第二任务为从SQL数据与表格数据生成文本的任务(如可以称为ResponseNLG任务)，所述第三任务为从表格数据生成文本的任务(如可以称为Table-to-Text任务或者Table2Text)。SQL-to-Text任务与ResponseNLG任务的文本相关性具体表现为两个任务都与SQL数据相关，ResponseNLG任务与Table-to-Text任务的文本相关性具体表现为两个任务都与表格数据相关。SQL-to-Text任务与Table-to-Text任务的文本相关性具体表现为两个任务的输入数据都与ResponseNLG任务的输入数据相关。由于三个任务的数据源不同，且不同标注规范下的数据质量良莠不齐，SQL-to-Text任务有粗和精两个标注精度等级的样本，ResponseNLG任务也有粗和精两个标注精度等级的样本，Table-to-Text任务的样本的标注精度等级为无标注。因此，根据本说明书实施例提供的方法对样本数据按照质量分为不同的标注精度等级后进行多训练阶段的训练。具体地：

首先，将SQL-to-Text任务的SQL数据进行转换，得到对应的图结构数据，将Table-to-Text任务的表格数据进行转换，得到对应的图结构数据，将ResponseNLG任务的SQL数据与表格数据进行转换，得到对应的图结构数据。利用图结构数据以及图结构中每个节点的节点向量，得到SQL-to-Text任务，Table-to-Text任务与ResponseNLG任务各自的样本。

接下来，如图6的多任务样本在多训练阶段中样本数据占比示意图所示的，文本生成模型分三个训练阶段进行训练：

第一训练阶段stag1，训练目标是SQL-to-Text任务，Table-to-Text任务与ResponseNLG任务的全量数据预训练。将三个任务的样本全量放入一个样本集，利用该样本集训练预训练文本生成模型。

第二训练阶段stag2，训练目标是SQL-to-Text任务和ResponseNLG任务的标注数据预训练。不使用Table-to-Text任务的样本，SQL-to-Text任务的粗标注的样本，使用SQL-to-Text任务的精标注的样本以及ResponseNLG任务的样本，继续预训练文本生成模型。该训练阶段训练后的文本生成模型具有对SQL数据精准输出文本的能力。

第三训练阶段stag3，训练目标是ResponseNLG任务的精标数据微调。不使用SQL-to-Text任务的精标注的样本以及ResponseNLG任务的粗标注的样本，使用ResponseNLG任务的精标注的样本，继续训练文本生成模型。该训练阶段训练后的文本生成模型具有对ResponseNLG数据精准输出文本的能力。

与上述方法实施例相对应，本说明书还提供了文本生成模型的训练装置实施例，图7示出了本说明书一个实施例提供的一种文本生成模型的训练装置的结构示意图。如图7所示，该装置包括：

初始化模块702，可以被配置为获得文本生成模型，以及具有文本相关性的多个任务各自的样本，其中，所述文本生成模型包括多个训练阶段，每个训练阶段对应不同训练目标，所述样本具有标注精度等级。

样本确定模块704，可以被配置为针对每个训练阶段，根据所述多个任务各自的样本中，与该训练阶段的训练目标匹配的标注精度等级的样本，获得该训练阶段的样本集，其中，不同训练阶段的样本集不同。

第一更新模块706，可以被配置为针对所述多个训练阶段中的第一个训练阶段，利用该第一个训练阶段的样本集对所述文本生成模型进行训练，得到更新的文本生成模型。

第二更新模块708，可以被配置为针对所述第一个训练阶段之后的任一训练阶段，利用该任一训练阶段的样本集对所述任一训练阶段的上一训练阶段得到的文本生成模型进行训练，得到更新的文本生成模型。

该装置针对具有文本相关性的多个任务联合建模，一个模型应用于多个任务，对样本按照标注精度不同分级后进行分阶段训练，在每个训练阶段使用与训练目标匹配的精度等级的样本进行训练，经过多个阶段的训练，文本生成模型的精度逐步提升，而且由于多个任务具有文本相关性，模型在训练过程中多个任务的样本共同相互作用促进模型收敛，有效减少了训练时间，充分提高了模型训练效率，最终可以快速得到应用于多个任务的文本生成模型。

本说明书一个或多个实施例中，所述多个任务分别为从不同结构的结构化数据生成文本的任务；所述文本生成模型为引入结构化适配器的语言模型，其中，所述结构化适配器用于对图的结构进行特征提取。相应地，所述装置还可以包括：

数据输入模块，被配置为获得所述多个任务各自的结构化数据；

数据解析模块，被配置为将所述多个任务各自的结构化数据进行解析，得到所述多个任务各自的若干个节点和节点之间的关系；

图转换模块，被配置为利用所述多个任务各自的若干个节点和节点之间的关系转换得到所述多个任务各自的图，并获得节点各自的向量表达；

样本生成模块，被配置为利用所述图与所述节点的向量表达，得到所述多个任务各自的样本。

本说明书一个或多个实施例中，所述引入结构化适配器的语言模型，包括：transformer编码模块以及transformer解码模块，其中，所述结构化适配器位于所述transformer编码模块的前馈网络子层之后。

本说明书一个或多个实施例中，所述多个任务包括第一任务以及第二任务。其中，所述第一任务的样本包括第一标注精度等级的样本和第二标注精度等级的样本，所述第二任务的样本包括第一标注精度等级的样本和第二标注精度等级的样本，所述第一标注精度等级的标注精度大于第二标注精度等级的标注精度。相应地，所述样本确定模块，可以包括：

一阶段样本确定模块，可以被配置为针对第一个训练阶段，根据该训练阶段的训练目标为全量训练，利用所述第一任务的第一标注精度等级和第二标注精度等级的样本，以及所述第二任务的第一标注精度等级和第二标注精度等级的样本，得到该训练阶段的样本集。

二阶段样本确定模块，可以被配置为针对第二个训练阶段，根据该训练阶段的训练目标为对第一任务提高精度的训练，利用所述第一任务的第一标注精度等级的样本以及所述第二任务的第一标注精度等级和第二标注精度等级的样本，得到该训练阶段的样本集。

第三阶段样本确定模块，可以被配置为针对第三个训练阶段，根据该训练阶段的训练目标为对第二任务提高精度的训练，利用所述第二任务的第一标注精度等级的样本，得到该训练阶段的样本集。

本说明书一个或多个实施例中，所述第一任务可以为从SQL数据生成文本的任务，所述第二任务为从SQL数据与表格数据生成文本的任务。

本说明书一个或多个实施例中，所述多个任务，还可以包括：与所述第一任务以及第二任务具有文本相关性的第三任务。所述第一个训练阶段的样本集中还包括第三任务的样本，所述第三任务的样本为第三标注精度等级的样本，所述第三标注精度等级的标注精度小于所述第二标注精度等级的标注精度。

例如，所述第三任务为从表格数据生成文本的任务。

上述为本实施例的一种文本生成模型的训练装置的示意性方案。需要说明的是，该文本生成模型的训练装置的技术方案与上述的文本生成模型的训练方法的技术方案属于同一构思，文本生成模型的训练装置的技术方案未详细描述的细节内容，均可以参见上述文本生成模型的训练方法的技术方案的描述。

参见图8，图8示出了根据本说明书一个实施例提供的一种生成文本的方法的流程图，具体包括以下步骤。

步骤802：获得一个或多个任务各自的结构化数据。

步骤804：将所述一个或多个任务各自的结构化数据进行解析，得到所述一个或多个任务各自的若干个节点和节点之间的关系。

步骤806：利用所述一个或多个任务各自的若干个节点和节点之间的关系转换得到所述一个或多个任务各自的图，并获得节点各自的向量表达。

步骤808：将所述一个或多个任务各自的图以及节点的向量表达输入应用如本说明书任意实施例所述的文本生成模型的训练方法训练得到的文本生成模型，得到所述文本生成模型输出的文本。

上述为本实施例的一种生成文本的方法的示意性方案。需要说明的是，该生成文本的方法的技术方案与上述的文本生成模型的训练方法的技术方案属于同一构思，该生成文本的方法的技术方案未详细描述的细节内容，均可以参见上述文本生成模型的训练方法的技术方案的描述。

与上述生成文本的方法实施例相对应，本说明书还提供了生成文本的装置实施例，图9示出了本说明书一个实施例提供的一种生成文本的装置的结构示意图。如图9所示，该装置包括：

数据获取模块902，可以被配置为获得一个或多个任务各自的结构化数据。

结构解析模块904，可以被配置为将所述一个或多个任务各自的结构化数据进行解析，得到所述一个或多个任务各自的若干个节点和节点之间的关系。

结构转换模块906，可以被配置为利用所述一个或多个任务各自的若干个节点和节点之间的关系转换得到所述一个或多个任务各自的图，并获得节点各自的向量表达。

文本输出模块908，可以被配置为将所述一个或多个任务各自的图以及节点的向量表达输入应用如本说明书任意实施例所述的文本生成模型的训练方法训练得到的文本生成模型，得到所述文本生成模型输出的文本。

上述为本实施例的一种生成文本的装置的示意性方案。需要说明的是，该生成文本的装置的技术方案与上述的生成文本的方法的技术方案属于同一构思，生成文本的装置的技术方案未详细描述的细节内容，均可以参见上述生成文本的方法的技术方案的描述。

图10示出了根据本说明书一个实施例提供的一种计算设备1000的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接，数据库1050用于保存数据。

计算设备1000还包括接入设备1040，接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图10所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1000可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。

其中，处理器1020用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本生成模型的训练方法的步骤，例如包括：

获得文本生成模型，以及具有文本相关性的多个任务各自的样本，其中，所述文本生成模型包括多个训练阶段，每个训练阶段对应不同训练目标，所述样本具有标注精度等级；

针对每个训练阶段，根据所述多个任务各自的样本中，与该训练阶段的训练目标匹配的标注精度等级的样本，获得该训练阶段的样本集，其中，不同训练阶段的样本集不同；

针对所述多个训练阶段中的第一个训练阶段，利用该第一个训练阶段的样本集对所述文本生成模型进行训练，得到更新的文本生成模型；

针对所述第一个训练阶段之后的任一训练阶段，利用该任一训练阶段的样本集对所述任一训练阶段的上一训练阶段得到的文本生成模型进行训练，得到更新的文本生成模型。

或者，处理器1020用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述生成文本的方法的步骤，例如包括：

获得一个或多个任务各自的结构化数据；

将所述一个或多个任务各自的结构化数据进行解析，得到所述一个或多个任务各自的若干个节点和节点之间的关系；

利用所述一个或多个任务各自的若干个节点和节点之间的关系转换得到所述一个或多个任务各自的图，并获得节点各自的向量表达；

将所述一个或多个任务各自的图以及节点的向量表达输入应用如上述文本生成模型的训练方法训练得到的文本生成模型，得到所述文本生成模型输出的文本。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本生成模型的训练方法的技术方案，或者，上述生成文本的方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本生成模型的训练方法的技术方案，或者，上述生成文本的方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本生成模型的训练方法的步骤，例如包括：

或者，该计算机可执行指令被处理器执行时实现上述生成文本的方法的步骤，例如包括：

获得一个或多个任务各自的结构化数据；

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本生成模型的训练方法的技术方案，或者，上述生成文本的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述的文本生成模型的训练方法的技术方案，或者，上述生成文本的方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本生成模型的训练方法的步骤。例如包括：

或者，当所述计算机程序在计算机中执行时，令计算机执行上述生成文本的方法的步骤。

例如包括：

获得一个或多个任务各自的结构化数据；

将所述一个或多个任务各自的图以及节点的向量表达输入应用如本说明书任意实施例所述的文本生成模型的训练方法训练得到的文本生成模型，得到所述文本生成模型输出的文本。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的文本生成模型的训练方法的技术方案，或者，上述的生成文本的方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述文本生成模型的训练方法的技术方案，或者，上述的生成文本的方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本生成模型的训练方法，包括：

2.根据权利要求1所述的方法，所述多个任务分别为从不同结构的结构化数据生成文本的任务；所述文本生成模型为引入结构化适配器的语言模型，其中，所述结构化适配器用于对图的结构进行特征提取；

所述方法还包括：

获得所述多个任务各自的结构化数据；

3.根据权利要求2所述的方法，所述引入结构化适配器的语言模型，包括：transformer编码模块以及transformer解码模块，其中，所述结构化适配器位于所述transformer编码模块的前馈网络子层之后。

4.根据权利要求1所述的方法，所述多个任务包括第一任务以及第二任务；

其中，所述第一任务的样本包括第一标注精度等级的样本和第二标注精度等级的样本，所述第二任务的样本包括第一标注精度等级的样本和第二标注精度等级的样本，所述第一标注精度等级的标注精度大于第二标注精度等级的标注精度；

所述针对每个训练阶段，根据所述多个任务各自的样本中，与该训练阶段的训练目标匹配的标注精度等级的样本，获得该训练阶段的样本集，包括：

5.根据权利要求4所述的方法，所述第一任务为从SQL数据生成文本的任务，所述第二任务为从SQL数据与表格数据生成文本的任务。

6.根据权利要求4或5所述的方法，所述多个任务，还包括：与所述第一任务以及第二任务具有文本相关性的第三任务；

所述第一个训练阶段的样本集中还包括第三任务的样本，所述第三任务的样本为第三标注精度等级的样本，所述第三标注精度等级的标注精度小于所述第二标注精度等级的标注精度。

7.根据权利要求6所述的方法，所述第三任务为从表格数据生成文本的任务。

8.一种生成文本的方法，包括：

获得一个或多个任务各自的结构化数据；

将所述一个或多个任务各自的图以及节点的向量表达输入应用如权利要求1所述的方法训练得到的文本生成模型，得到所述文本生成模型输出的文本。

9.一种生成文本的装置，包括：

数据获取模块，被配置为获得一个或多个任务各自的结构化数据；

结构解析模块，被配置为将所述一个或多个任务各自的结构化数据进行解析，得到所述一个或多个任务各自的若干个节点和节点之间的关系；

结构转换模块，被配置为利用所述一个或多个任务各自的若干个节点和节点之间的关系转换得到所述一个或多个任务各自的图，并获得节点各自的向量表达；

文本输出模块，被配置为将所述一个或多个任务各自的图以及节点的向量表达输入应用如权利要求1所述的方法训练得到的文本生成模型，得到所述文本生成模型输出的文本。

10.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述文本生成模型的训练方法的步骤，或者，实现权利要求8所述生成文本的方法的步骤。

11.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述文本生成模型的训练方法的步骤，或者，实现权利要求8所述生成文本的方法的步骤。