CN117313739A

CN117313739A - 一种语言模型的训练方法、装置、设备及存储介质

Info

Publication number: CN117313739A
Application number: CN202311149563.2A
Authority: CN
Inventors: 许卓尔; 崔世文; 李志峰; 孟昌华
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-12-29

Abstract

本申请公开了一种语言模型的训练方法、装置、设备及存储介质，通过确定预训练后的语言模型对应的待定模板，再对第一原始文本进行数据增强，得到增强文本，并将增强文本和待定模板进行组合后得到的第一组合结果输入语言模型中，得到增强文本的输出结果，最后再根据增强文本的输出结果和第一原始文本的标注之间的差距，来调整该语言模型对应的待定模板，以将调整完成的待定模板作为该语言模型匹配的目标模板。本申请通过对第一原始文本进行数据增强来确定增强文本，并通过增强文本对该语言模型对应的待定模板进行调整，使得该语言模型可通过调整完成的待定模板基于原始文本和增强文本都可准确执行自然语言处理任务，保证了语言模型的鲁棒性。

Description

一种语言模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种语言模型的训练方法、装置、设备及存储介质。

背景技术

自然语言处理(Natural Language Processing，NLP)，是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。例如，利用自然语言处理技术可以对各种语料数据(如语音数据、文本数据等)进行处理。

目前，通常需获取目标文本信息，该目标文本信息为需要进行自然语言处理的文本信息。然后，将文本信息输入预先训练好的语言模型中，得到该语言模型输出的自然语言处理任务的执行结果。

但是，现有技术在训练语言模型时，通常会忽略语言模型的鲁棒性，导致语言模型的鲁棒性较低。

基于此，本说明书提供一种语言模型的训练方法。

发明内容

本申请提供一种语言模型的训练方法、装置、设备及存储介质，以部分的解决现有技术存在的上述问题。

本申请采用下述技术方案：

本说明书提供一种语言模型的训练方法，所述方法包括：

获取预先基于通用文本集预训练得到的语言模型；

确定第一原始文本，并对所述第一原始文本进行数据增强，得到增强文本；

确定预训练后的所述语言模型对应的待定模板，并将所述待定模板和所述增强文本进行组合，得到第一组合结果，以及将所述第一组合结果输入预训练后的所述语言模型中，得到所述语言模型输出的所述增强文本的输出结果；

根据所述第一原始文本的标注和所述增强文本的输出结果之间的差距，确定损失，以所述损失最小化为优化目标，对所述待定模板进行调整，以将调整完成的所述待定模板作为所述语言模型对应的目标模板

本说明书提供一种语言模型的训练装置，所述装置包括：

获取模块，用于获取预先基于通用文本集预训练得到的语言模型；

确定模块，用于确定第一原始文本，并对所述第一原始文本进行数据增强，得到增强文本；

输出模块，用于确定预训练后的所述语言模型对应的待定模板，并将所述待定模板和所述增强文本进行组合，得到第一组合结果，以及将所述第一组合结果输入预训练后的所述语言模型中，得到所述语言模型输出的所述增强文本的输出结果；

调整模块，用于根据所述第一原始文本的标注和所述增强文本的输出结果之间的差距，确定损失，以所述损失最小化为优化目标，对所述待定模板进行调整，以将调整完成的所述待定模板作为所述语言模型对应的目标模板。

本申请提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语言模型的训练方法。

本申请提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述语言模型的训练方法。

本申请采用的上述至少一个技术方案能够达到以下有益效果：

通过确定预训练后的语言模型对应的待定模板，再对第一原始文本进行数据增强，得到增强文本，并将增强文本和待定模板进行组合后得到的第一组合结果输入语言模型中，得到增强文本的输出结果，最后再根据增强文本的输出结果和第一原始文本的标注之间的差距，来调整该语言模型对应的待定模板，以将调整完成的待定模板作为该语言模型匹配的目标模板。

本申请通过对第一原始文本进行数据增强来确定增强文本，并通过增强文本对该语言模型对应的待定模板进行调整，使得该语言模型可通过调整完成的待定模板基于原始文本和增强文本都可准确执行自然语言处理任务，保证了语言模型的鲁棒性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请中一种语言模型的训练方法的流程示意图；

图2为本申请中一种语言模型的训练方法的流程示意图；

图3为本申请提供的一种语言模型的训练装置的结构示意图；

图4为本申请提供的对应于图1的电子设备示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请中所有获取信号、信息或数据的动作都是在遵照所在地相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

在自然语言处理领域，随着技术的发展，人们越来越多地使用语言模型来对各种文本信息进行处理，以执行自然语言处理任务。而通常情况下，语言模型的训练一般包含三个阶段：预训练阶段、微调阶段和使用阶段。

而目前在对语言模型进行训练时，通常会采用通用文本集在预训练阶段对该语言模型进行预训练。并在微调阶段，根据语言模型对应的语言处理任务，确定微调阶段使用的有标注的文本信息，再使用有标注的文本信息对语言模型对应的待定模板进行调整，使得调整后的待定模板可用于和文本信息进行组合来完成自然语言处理任务。最后，则可将调整后的语言模型对应的待定模板作为该语言模型对应的目标模板，并基于预训练得到的语言模型和该语言模型对应的待定模板来执行对应的自然语言处理任务。

其中，该自然语言处理任务可为异常检测任务、分类任务、序列标注任务、句间关系判断任务和机器阅读理解任务等，具体的自然语言处理任务的任务类型可根据需要进行设置，本说明书对此不做限制。

但是，目前在对该语言模型的训练过程中，并未考虑到模型的鲁棒性，使得模型的鲁棒性较差。以该自然语言处理任务为异常检测任务为例，假设该语言模型可对A文本进行准确的异常检测，则对A文本进行同义词替换后得到的B文本，其对应的语义与A文本相近，但该语言模型无法对B文本进行准确的异常检测。

基于此，本说明书提供一种语言模型的训练方法，通过获取第一原始文本，并对该第一原始文本进行数据增强，得到增强文本，再将该第一原始文本的标注作为该增强文本的标注，通过带标注的增强文本对该语言模型对应的待定模板进行调整，以此来完成该语言模型的训练过程。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请提供的一种语言模型的训练方法的流程示意图。

S100：获取预先基于通用文本集训练得到的语言模型。

本申请实施例提供一种语言模型的训练方法，该语言模型的训练方法的执行阶段可由用于执行自然语言处理任务的服务器或用于进行模型训练的服务器等电子设备执行。为了便于描述，下面仅以用于进行模型训练的服务器为执行主体，对本申请提供的语言模型的训练方法进行详细说明。

在本申请实施例中，该语言模型的训练方法具体可采用提示学习的方式进行训练。即，获取预训练后的语言模型以及该语言模型对应的待定模板，再通过有标注的训练样本，对该语言模型的待定模板进行微调，以将调整后的待定模板作为该语言模型的目标模板。

因此，该服务器可确定预训练后的语言模型。

具体的，该服务器中可存储有多种自然语言处理任务分别对应的预训练后的语言模型。

然后，该服务器可接收微调请求，该微调请求中可携带有自然语言处理任务的任务类型。其中，该微调请求可为该服务器监测到满足微调条件时自动生成的，还可为其他电子设备向该服务器发送的，具体该微调请求如何确定可根据需要进行设置，本说明书对此不做限制。

最后，该服务器可对该微调请求进行解析，确定该微调请求中携带的任务类型，并根据该任务类型，从自身预先存储的各自然语言处理任务分别对应的预训练后的语言模型中，确定该任务类型对应的语言模型，作为需执行该语言模型的训练方法的语言模型。

当然，该服务器中还可仅预先存储有需执行该语言模型的训练方法的语言模型，则在接收到微调请求后，该服务器可根据该微调请求，从自身存储的数据中，确定该预先存储的语言模型。

其中，该语言模型通常可基于通用文本集训练得到。该通用文本集合集可为用户历史上执行的自然语言处理业务中输入的文本信息。

S102：确定第一原始文本，并对所述第一原始文本进行数据增强，得到增强文本。

在本申请提供的一个或多个实施例中，该语言模型的训练过程可包含三个阶段：样本确定阶段、样本处理阶段和微调阶段。因此，该服务器可首先确定用于对该语言模型对应的待定模板进行微调的训练样本。而如前所述的，该服务器可基于带标注的增强文本对语言模型进行训练。

基于此，该服务器可确定第一原始文本，并基于第一原始文本确定增强文本。

具体的，该服务器中可预先存储有用于对该语言模型的待定模板进行微调的文本信息。

然后，该服务器可从预先存储的用于对该语言模型的待定模板进行微调的文本信息中，确定第一原始文本。其中，该服务器可从用于对该语言模型的待定模板进行微调的各文本信息中，随机选择任一文本信息作为该第一原始文本，也可按照各文本信息的存储时间的顺序，从各文本信息中确定第一原始文本。具体如何确定该第一原始文本可根据需要进行设置，本说明书对此不做限制。

最后，该服务器可对该第一原始文本进行数据增强，得到数据增强后的第一原始文本，作为增强文本。

其中，该数据增强的方式可为同义词替换、随机删除、随机交换、随机插入、回译等方式中的至少一种。具体如何对文本数据进行数据增强可根据需要进行设置，本说明书对此不做限制。

需要说明的是，上述第一原始文本，为用户历史上执行自然语言处理业务时输入的文本信息。该第一原始文本的标注，为用户历史上基于第一原始文本执行自然语言处理业务时对应的业务执行结果。

具体的，首先，该服务器可从已执行的历史业务中，确定用户历史上执行的自然语言处理业务。该自然语言处理业务可为异常检测业务、资质审查业务、分类业务、序列标注业务、句间关系判断业务和机器阅读理解业务等，具体的自然语言处理业务的业务类型可根据需要进行设置，本说明书对此不做限制。

以用户历史上执行的自然语言处理业务为情感分类业务为例，该第一原始文本可为用户在执行该情感分类业务时输入的文本信息。如，今天天气不错。该第一原始文本的标注可为“今天天气不错”这一文本信息对应的情感分类结果，如，正向情感或负向情感，亦或者是该第一原始文本属于正向情感或负向情感的概率。

以用户历史上执行的自然语言处理业务为资质审查业务为例，该第一原始文本可为用户在执行该资质审查业务时输入的文本信息。如，用户的身份信息、用户的营业执照、用户的营业场所信息等。该第一原始文本的标注可为上述文本信息对应的资质审查结果，如，通过或不通过，和/或通过或不通过的原因。

因此，该服务器可根据用户历史上执行的自然语言处理任务时输入的文本信息，确定第一原始文本，以及根据用户历史上执行自然语言处理业务后得到的执行结果，确定训练样本的标注。该第一原始文本可包括用户执行业务时输入的文本信息，还可包含服务器监测到用户执行的指定操作时自动生成的文本信息。如，用户执行登录操作时使用了短信验证方式，则该服务器监测到上述操作时，可自动生成“用户通过短信验证方式登录账户”这一文本。

另外，该自然语言处理任务的执行结果的形式本说明书不做限制。以该自然语言处理任务为异常检测任务为例，其对应的执行结果可为存在异常、不存在异常等类型，也可为异常等级。具体该第一原始文本中包含的内容如何确定以及该第一原始文本的标注对应的具体形式可根据需要进行设置，本说明书对此不做限制。

S104：确定预训练后的所述语言模型对应的待定模板，并将所述待定模板和所述增强文本进行组合，得到第一组合结果，以及将所述第一组合结果输入预训练后的所述语言模型中，得到所述语言模型输出的所述增强文本的输出结果。

在本申请提供的一个或多个实施例中，该语言模型的训练方法在确定出训练样本后，可对该训练样本进行处理，后续才可基于训练样本的处理结果对该语言模型的待定模板进行调整。又因为本申请中的该语言模型为通过提示学习的方式训练得到的语言模型，因此，该服务器可确定该语言模型对应的待定模板，并将该待定模板和训练样本进行组合，得到该语言模型的输入数据。

具体的，语言模型在预训练过程中可训练得到其对应的模板。于是，该服务器可确定该语言模型在预训练过程中训练得到的模板，作为待调整的待定模板。其中，该待定模板可为字符，如，“这句话的情感是[mask]”，也可为特征，如，“010208I39[mask]”等。上述待定模板中的[mask]为该语言模型需要自行填充的内容。该待定模板的具体形式可根据需要进行设置，本说明书对此不做限制。

然后，该服务器可将待定模板和步骤S102中确定出的增强文本进行组合，得到第一组合结果。以该语言模型对应的自然语言处理任务为情感分类任务为例，假设该待定模板为“……的情感是……”，且增强文本为“今天天气真不错”，则得到的第一组合结果可为“‘今天天气真不错’的情感是……”。

最后，该服务器可将该第一组合结果作为输入，输入预训练后的该语言模型中。则该语言模型可对输入到自身的第一组合结果进行自然语言处理，则该服务器可得到该语言模型输出的该增强文本的输出结果。

其中，该输出结果为该语言模型基于该增强文本执行自然语言处理任务所得到的任务执行结果。

以该自然语言处理任务为异常检测任务为例，则该增强文本的执行结果可为该增强文本是否异常，和/或该增强文本对应的异常类型和异常原因。以该自然语言处理任务为情感分类任务为例，该增强文本的执行结果可为该增强文本对应的情感为正向还是负向。当然，该增强文本的输出结果对应的自然语言处理任务的任务类型可根据需要进行设置，本说明书对此不做限制。

需要说明的是，由于该语言模型需基于增强文本的输出结果与第一原始文本的标注对待定模板进行调整，因此，该增强文本的输出结果与第一原始文本的标注类似，均为该语言模型基于增强文本执行自然语言处理任务时对应的任务执行结果。基于前述对第一原始文本标注的描述，本申请在此不再赘述。

S106：根据所述第一原始文本的标注和所述增强文本的输出结果之间的差距，确定损失，以所述损失最小化为优化目标，对所述待定模板进行调整，以将调整完成的所述待定模板作为所述语言模型对应的目标模板。

在本说明书提供的一个或多个实施例中，在对训练样本进行处理后，该服务器可对该语言模型的待定模板进行调整。

具体的，该服务器可将该第一原始文本的标注，作为该增强文本的标注；

然后，该服务器可直接根据该第一原始文本的标注和该增强文本的输出结果之间的差距，确定损失。

最后，该服务器可以该损失最小化为优化目标，对该待定模板进行调整。

则在基于损失将该待定模板调整完成后，该服务器可将该待定模板作为该语言模型对应的目标模板。后续在接收到任务执行请求时，该服务器可响应于任务执行请求，确定该任务执行请求中携带的目标文本，并将该目标文本和该待定模板进行组合，将组合结果输入到语言模型中，得到该语言模型输出的该目标文本的输出结果，作为该任务执行请求的执行结果，并根据该任务执行请求将该执行结果返回。也就是说，该模型对应的目标模板可用于和目标文本进行组合来确定该语言模型的输入数据。

如图1所示的语言模型的训练方法，通过确定预训练后的语言模型对应的待定模板，再对第一原始文本进行数据增强，得到增强文本，并将增强文本和待定模板进行组合后得到的第一组合结果输入语言模型中，得到增强文本的输出结果，最后再根据增强文本的输出结果和第一原始文本的标注之间的差距，来调整该语言模型对应的待定模板，以将调整完成的待定模板作为该语言模型匹配的目标模板。本申请通过对第一原始文本进行数据增强来确定增强文本，并通过增强文本对该语言模型对应的待定模板进行调整，使得该语言模型可通过调整完成的待定模板基于原始文本和增强文本都可准确执行自然语言处理任务，保证了语言模型的鲁棒性。

进一步的，上述步骤S100中确定出的预训练后的语言模型，可采用下述方式预训练得到：

具体的，可首先确定若干无标注的文本信息以及若干掩膜。其中，各掩膜的位置、掩膜长度等都可根据需要进行设置。

然后，将各文本信息和各掩膜分别进行组合，确定用于对该语言模型进行预训练的指定样本。其中，针对每个指定样本，该指定样本为使用掩膜将部分文本信息进行遮盖后的文本信息，该指定样本的标注为原始的文本信息。

最后，可基于确定出的各指定样本及其标注对该语言模型进行训练。

需要说明的是，由于上述训练过程是对指定样本进行学习，学习到的内容为指定样本中包含的信息，而非针对于对应自然语言处理任务进行学习，后续还需执行微调过程，因此将上述过程称之为预训练过程，而非训练得到不准确的语言模型的过程。在预训练结束后，通常可认为该语言模型能够从文本信息中学习到语言信息，但学习到的语言信息较为驳杂，直接基于学习到的语言信息执行自然语言处理任务，可能会有执行结果的准确率较低的情况出现。因此，需要对模型进行微调。

更进一步的，基于上述训练方法训练得到的语言模型及其对应的目标模板，与微调阶段所对应的自然语言处理任务的训练样本较为匹配，也就是与第一原始文本，以及该第一原始文本的标注所对应的自然语言处理任务较为匹配。但这样反而忽略掉了语言模型对预训练阶段时使用的通用文本集的准确度，导致训练得到的目标模板与通用文本集中各文本信息进行组合得到的第二组合结果的准确度较低，进而导致训练得到的该语言模型无法基于通用文本集中各文本执行自然语言处理任务。基于此，该服务器还可从通用文本集中确定第二原始文本，并基于第二原始文本对该语言模型进行训练。

具体的，该服务器可确定该语言模型在预训练过程中使用的无标注的各指定样本，并将各指定样本添加到通用文本集中。

其次，该服务器可从该通用文本集中，确定第二原始文本。与第一原始文本类似，该服务器可从该通用文本集包含的各指定样本中，随机选择任一文本信息作为该第二原始文本，也可按照各第二原始文本的确定时间的顺序，从各指定样本中确定第二原始文本，还可按照该语言模型对各第二原始文本的输出结果的准确率，从各指定样本中确定第二原始文本。具体如何确定该第二原始文本可根据需要进行设置，本说明书对此不做限制。

然后，由于确定出的第二原始文本均为无标注数据，因此，该服务器可通过预训练后的语言模型，来确定该原始文本的标注。于是，该服务器可将该第二原始文本作为输入，输入到预训练后的语言模型中，得到该语言模型输出的该第二原始文本的第一输出结果，作为该第二原始文本的标注。

接着，该服务器可将该语言模型和该待定模板进行组合，得到第二组合结果。并将该第二组合结果作为输入，输入带该预训练后的语言模型中，得到该计模型输出的该第二原始文本的第二输出结果。

于是，在步骤S106中，该服务器可根据第一原始文本的标注和增强样本的输出结果之间的差距，确定第一差距。并根据该第二原始文本的第二输出结果及其标注之间的差距，确定第二差距。

最后，该服务器可根据该第一差距和该第二差距，确定损失，并以损失最小化为训练目标调整该待定模板。

需要说明的是，由于该语言模型需基于增强文本的输出结果与第一原始文本的标注之间的差距，以及第二原始文本的标注及其第二输出结果之间的差距，对该语言模型的待定模板进行调整。因此，该第二原始文本的标注以及该第二原始文本的第二输出结果，与上述第一原始文本的标注以及增强文本的输出结果类似，基于前述对第一原始文本的标注的描述，本申请在此不再赘述。

基于同样思路，本说明书同样提供一种语言模型的训练方法的流程示意图，如图2所示。

图2为本说明书提供的一种语言模型的训练方法的流程示意图。图中，该服务器可首先确定第一原始文本和第二原始文本。其次，该服务器可对第一原始文本进行数据增强，确定增强文本，并将该增强文本和该语言模型的待定模板进行组合，确定第一组合结果。同时，该服务器可将该第二原始文本和待定模板进行组合，确定第二组合结果。然后，该服务器可将该第一组合结果、第二原始文本和该第二组合结果分别作为输入，输入该语言模型中，得到该语言模型输出的该增强文本的输出结果、第二原始文本的第一输出结果以及该第二原始文本的第二输出结果。

之后，该服务器可根据该增强文本的输出结果以及该第一原始文本的标注，确定第一差距，以及将该第二原始文本的第一输出结果作为该第二原始文本的标注，根据该第二原始文本的输出结果及其标注之间的差距，确定第二差距。

最后，该服务器可根据确定出的第一差距以及第二差距，确定损失，并以损失最小化为优化目标对该语言模型的待定模板进行调整，以将调整完成的待定模板作为该语言模型对应的目标模板。

当然，上述将第二原始文本直接输入该语言模型，得到该语言模型输出的该第二原始文本的第一输出结果，作为该第二原始文本的标注的方式，仅为确定该第二原始文本的标注的示例说明。该服务器还可将该第二原始文本和该待定模板进行组合，得到第二组合结果作为输入，输入该语言模型中，得到该语言模型输出的该第二原始文本的第二输出结果，作为该第二原始文本的标注。于是，针对后续的每个迭代过程，该服务器可基于上一迭代过程调整得到的待定模板和该第二原始文本，确定第二组合结果，并通过该语言模型，得到该第二组合结果的第三输出结果，并基于该第三输出结果和该第二原始文本的标注之间的差距，确定第二差距。具体如何基于第一训练样本和第二训练样本对该语言模型进行训练，可根据需要进行设置，本说明书对此不做限制。

另外，在本说明书中，该服务器可直接确定第一差距和第二差距之和，作为损失。也可为每个差距分配待调整的权重，基于各差距及其权重确定损失。

具体的，该服务器可确定该第一差距对应的待调整的第一权重，并确定差距对应的待调整的第二权重。

于是，该服务器可对该第一差距及其权重，以及该第二差距及其权重进行加权求和，确定损失。

则该服务器在根据损失对该待定模板进行调整时，还可将上述第一权重和第二权重进行调整。也就是说，该服务器在训练过程中，可对待定模板、第一权重和第二权重进行调整。

以第一差距为L₁，第二差距为L₂为例，假设该第一权重为α、该第二权重为β，则该语言模型对应的损失可为L_z＝L₁+L₂，也可为L_z＝αL₁+βL₂。

进一步的，在基于各差距及其权重确定损失时，可能出现差距权重过高，导致在差距已经较小的情况下，确定出的损失仍然过高的现象。为了避免上述现象发生，该服务器可针对每个权重，为该权重设置惩罚项目，当该权重过高时，该权重的惩罚项也较高，进而避免上述现象的发生。

具体的，该服务器可对该第一差距及其权重，以及该第二差距及其权重进行加权求和，将得到的加权结果作为初始损失。

然后，该服务器可根据该第一权重和该第二权重，确定第三差距。其中，该第三差距和该第一权重正相关，该第三权重和该第二权重也正相关。以该第一权重为α、该第二权重为β为例，则该第三差距可为L₃＝α+β-0.2，也可为L₃＝lnα+lnβ。具体如何基于该第一权重和第二权重确定该第三差距可根据需要进行设置，本说明书对此不做限制。

最后，该服务器可确定该初始损失和该第三差距之差，作为该语言模型的损失。则后续可基于损失对该待调模板进行调整。

以第一差距为L₁，第二差距为L₂为例，假设该第一权重为α、该第二权重为β，则该语言模型对应的损失可为L_z＝αL₁+βL₂-L₃。

更进一步的，在步骤S102中，在基于模板和通用文本集对语言模型进行训练的情况下，该服务器可将调整得到的模板作为该语言模型的待定模板，但在仅基于通用文本集对语言模型进行训练的情况下，该服务器可直接确定待定模板。其中，该待定模板可为人工填充的矩阵，也可为人工初始化的矩阵，也还可为上一迭过程调整得到的待定模板。具体如何确定待定模板可根据需要进行设置，本说明书对此不做限制。

另外，该待定模板还可包括第一模板特征和第二模板特征。其中，该第一模板特征为该语言模型预训练过程中调整得到的，该第二模板特征为微调过程中需要调整的。

于是，该服务器在确定该语言模型对应的待定模板时，可确定该预训练完成的语言模型对应的第一模板特征，以及语言模型对应的目标映射矩阵。其中，该目标映射矩阵用于将模板参数映射为第二模板特征。

接着，该服务器可确定待定模板参数，并根据该目标映射矩阵和该待定模板参数，确定待定的第二模板特征。

最后，该服务器可根据确定出的第二模板特征和该第一模板特征，确定待定模板。

其中，上述第一模板特征还可为人工预先为该语言模型设置的提示文本，并将噶提示文本进行特征提取得到的提示特征。

当然，上述确定待定模板的步骤仅为示例说明，该服务器可直接确定第一模板特征和待调的第二模板特征，并根据确定出的第一模板特征和第二模板特征确定该待定模板。具体如何确定该待定模板可根据需要进行设置，本说明书对此不做限制。

进一步的，通常情况下，模型训练任务中确定损失并基于损失调整模型参数的步骤可由服务器执行，但在本申请中，该确定损失以及基于损失调整待定模板的参数可由客户端执行。

具体的，以模型训练系统执行本申请所述的语言模型的训练方法为例。该模型训练系统包含客户端和服务端。其中，该客户端中存储有待定模板，且该客户端用于根据待定模板确定语言模型的输入数据，以及根据损失对该待定模板进行调整。该服务端用于将模型的输入数据输入语言模型，并将语言模型输出的执行结果返回给客户端。

于是，该系统可通过客户端，确定待定模板，并将该待定模板和增强文本进行组合，确定第一组合结果，以及将第一组合结果发送给服务端。

则该系统可通过服务端，接收该客户端发送的第一组合结果，并将该第一组合结果输入语言模型中，得到该语言模型输出的增强文本的输出结果。

得到该增强文本的输出结果后，该系统可通过服务端，将该增强文本的输出结果返回给客户端。

则该客户端可根据接收到的输出结果以及该第一原始文本的标注，确定损失，以及以该损失最小化为优化目标，调整该待定模板。

更进一步的，本申请中的该语言模型还可对应于多种自然语言处理任务，该服务器中存储有各自然语言处理任务分别对应的模板。

于是，在确定用于与增强文本进行组合的待定模板时，该服务器可确定该第一原始文本的标注对应的样本任务，并根据该样本任务的任务标识，从预训练完成的该语言模型对应的各自然语言处理任务分别对应的各待定模板中，确定该样本任务对应的待定模板，作为该样本任务对应的指定模板。

然后，该服务器可将确定出的该指定模板和增强文本进行组合，得到第一组合结果，并将该第一组合结果输入预训练后的语言模型中，得到该语言模型输出的该增强文本的输出结果。

最后，该服务器可根据该增强文本的输出结果以及该第一原始文本的标注，确定损失，并以损失最小化为优化目标，对该指定模板进行调整。则在调整完成后，该服务器可将该调整完成的待定模板重新作为该样本任务对应的自然语言处理任务的待定模板，直至达到迭代终止条件为止。

其中，该迭代终止条件可为迭代到指定次数，确定出的损失小于预设的损失阈值等，该迭代终止条件的具体内容可根据需要进行设置，本说明书对此不做限制。

当然，除上述第一原始文本外，该服务器还可针对每个第二原始文本，根据该第二原始文本的第一输出结果对应的自然语言处理任务的类型，确定该第二原始文本对应的样本任务，以及确定该样本任务对应的指定模板，并执行上述过程对该指定模板进行调整。具体该服务器如何对该语言模型对应的待定模板进行调整可根据需要进行设置，本说明书对此不做限制。

基于相同思想，本说明书提供一种语言模型的训练装置的结构示意图，如图3所示。

图3为本申请提供的一种语言模型的训练装置的结构示意图，其中：

获取模块200，用于获取预先基于通用文本集预训练得到的语言模型。

确定模块202，用于确定第一原始文本，并对所述第一原始文本进行数据增强，得到增强文本。

输出模块204，用于确定预训练后的所述语言模型对应的待定模板，并将所述待定模板和所述增强文本进行组合，得到第一组合结果，以及将所述第一组合结果输入预训练后的所述语言模型中，得到所述语言模型输出的所述增强文本的输出结果.

调整模块206，用于根据所述第一原始文本的标注和所述增强文本的输出结果之间的差距，确定损失，以所述损失最小化为优化目标，对所述待定模板进行调整，以将调整完成的所述待定模板作为所述语言模型对应的目标模板。

可选地，确定模块202，用于从对所述语言模型进行预训练时使用的通用文本集中，确定第二原始文本，通过预训练后的所述语言模型，确定所述第二原始文本的第一输出结果，作为所述第二原始文本的标注，将所述第二原始文本和所述待定模板进行组合，得到第二组合结果，并通过预训练后的所述语言模型，确定所述第二原始文本的第二输出结果，调整模块206，用于根据所述第一原始文本的标注和所述增强样本的输出结果之间的差距，确定第一差距，根据所述第二原始文本的第二输出结果及其标注之间的差距，确定第二差距，根据所述第一差距和所述第二差距，确定损失。

可选地，调整模块206，用于确定所述第一差距对应的待调整的第一权重，以及所述第二差距对应的待调整的第二权重，根据所述第一差距和所述第一权重，以及所述第二差距和所述第二权重，确定损失。

可选地，调整模块206，用于对所述第一差距和所述第一权重，以及所述第二差距和所述第二权重进行加权求和，确定初始损失，根据所述第一权重和所述第二权重，确定第三差距，所述第三差距与所述第一权重正相关，所述第三差距和所述第二权重正相关，确定所述初始损失和所述第三权重之差，作为所述语言模型的损失。

可选地，所述待定模板包括第一模板特征和第二模板特征，所述第一模板特征在所述语言模型预训练过程中调整得到，输出模块204，用于确定预训练完成的所述语言模型对应的目标映射矩阵和第一模板特征，所述目标映射矩阵用于将模板参数映射为第二模板特征，确定待定模板参数，并根据所述目标映射矩阵和所述待定模板参数，确定待定的第二模板特征，根据所述第一模板特征和待定的所述第二模板特征，确定待定模板。

可选地，所述方法应用于模型训练系统，所述系统包括客户端和服务端，所述客户端中存储所述待定模板，所述服务端中预先部署有预训练后的所述语言模型，调整模块206，用于通过所述客户端，以所述损失最小化为优化目标，调整所述待定模板。

可选地，所述语言模型用于执行多种语言处理任务，每种语言处理任务对应于不同的待定模板，输出模块204，用于确定所述第一原始文本的标注对应的样本任务，并根据所述样本任务的任务标识，从预训练完成的所述语言模型对应的各自然语言处理任务分别对应的各待定模板中，确定所述样本任务对应的待定模板，作为指定模板，调整模块206，用于以所述损失最小化为优化目标，对所述指定模板进行调整，并将调整后的所述指定模板重新作为所述样本任务对应的自然语言处理任务的待定模板。

本申请还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1所示的语言模型的训练方法。

本申请还提供了图4所示的电子设备的示意结构图。如图4所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所示的语言模型的训练方法。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语言模型的训练方法，所述方法包括：

获取预先基于通用文本集预训练得到的语言模型；

根据所述第一原始文本的标注和所述增强文本的输出结果之间的差距，确定损失，以所述损失最小化为优化目标，对所述待定模板进行调整，以将调整完成的所述待定模板作为所述语言模型对应的目标模板。

2.如权利要求1所述的方法，所述方法还包括：

从对所述语言模型进行预训练时使用的通用文本集中，确定第二原始文本；

通过预训练后的所述语言模型，确定所述第二原始文本的第一输出结果，作为所述第二原始文本的标注；

将所述第二原始文本和所述待定模板进行组合，得到第二组合结果，并通过预训练后的所述语言模型，确定所述第二原始文本的第二输出结果；

根据所述第一原始文本的标注和所述增强文本的输出结果之间的差距，确定损失，具体包括：

根据所述第一原始文本的标注和所述增强样本的输出结果之间的差距，确定第一差距；

根据所述第二原始文本的第二输出结果及其标注之间的差距，确定第二差距；

根据所述第一差距和所述第二差距，确定损失。

3.如权利要求2所述的方法，根据所述第一差距和所述第二差距，确定损失，具体包括：

确定所述第一差距对应的待调整的第一权重，以及所述第二差距对应的待调整的第二权重；

根据所述第一差距和所述第一权重，以及所述第二差距和所述第二权重，确定损失。

4.如权利要求3所述的方法，根据所述第一差距和所述第一权重，以及所述第二差距和所述第二权重，确定损失，具体包括：

对所述第一差距和所述第一权重，以及所述第二差距和所述第二权重进行加权求和，确定初始损失；

根据所述第一权重和所述第二权重，确定第三差距，所述第三差距与所述第一权重正相关，所述第三差距和所述第二权重正相关；

确定所述初始损失和所述第三权重之差，作为所述语言模型的损失。

5.如权利要求1所述的方法，所述待定模板包括第一模板特征和第二模板特征，所述第一模板特征在所述语言模型预训练过程中调整得到；

确定预训练后的所述语言模型对应的待定模板，具体包括：

确定预训练完成的所述语言模型对应的目标映射矩阵和第一模板特征，所述目标映射矩阵用于将模板参数映射为第二模板特征；

确定待定模板参数，并根据所述目标映射矩阵和所述待定模板参数，确定待定的第二模板特征；

根据所述第一模板特征和待定的所述第二模板特征，确定待定模板。

6.如权利要求1所述的方法，所述方法应用于模型训练系统，所述系统包括客户端和服务端，所述客户端中存储所述待定模板，所述服务端中预先部署有预训练后的所述语言模型；

所述损失最小化为优化目标，对所述待定模板进行调整，具体包括：

通过所述客户端，以所述损失最小化为优化目标，调整所述待定模板。

7.如权利要求1所述的方法，所述语言模型用于执行多种语言处理任务，每种语言处理任务对应于不同的待定模板；

确定预训练后的所述语言模型对应的待定模板，具体包括：

确定所述第一原始文本的标注对应的样本任务，并根据所述样本任务的任务标识，从预训练完成的所述语言模型对应的各自然语言处理任务分别对应的各待定模板中，确定所述样本任务对应的待定模板，作为指定模板；

以所述损失最小化为优化目标，对所述待定模板进行调整，具体包括：

以所述损失最小化为优化目标，对所述指定模板进行调整，并将调整后的所述指定模板重新作为所述样本任务对应的自然语言处理任务的待定模板。

8.一种语言模型的训练装置，所述装置包括：

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1～7任一项所述的方法。