CN117252161A

CN117252161A - 一种特定领域的模型训练和文本生成方法

Info

Publication number: CN117252161A
Application number: CN202311238594.5A
Authority: CN
Inventors: 李茂林; 周旸; 黄一鸣
Original assignee: Xuzhi Technology Hangzhou Co ltd
Current assignee: Xuzhi Technology Hangzhou Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2023-12-19

Abstract

本发明公开了一种特定领域的模型训练和文本生成方法，属于模型训练和文本生成技术领域，包括以下步骤：101：获取特定领域相关的数据；102：根据所述特定领域相关的数据，通过预训练好的语言模型构造特定领域目标任务的训练数据；103：通过预训练好的语言模型对所述目标任务的训练数据进行二次修改，得到修改后的训练数据；104：根据修改后的训练数据与其他可获得的数据，训练语言模型，得到训练完成的语言模型。本发明可用于更灵活地对语言模型进行高度定制化的调整，训练能够更准确、更符合实际需求地完成特定领域目标任务的文本生成模型，以适应不同的特定领域场景，从而更好地利用特定领域相关知识来优化用户的写作体验。

Description

一种特定领域的模型训练和文本生成方法

技术领域

本发明涉及特定领域模型训练和文本生成技术领域，特别涉及一种特定领域的模型训练和文本生成方法。

背景技术

在写作应用场景中，文本生成语言模型可以利用机器学习和自然语言处理技术根据用户的特点、需求以及写作内容的上下文等信息，自动生成并提供写作建议，帮助用户撰写高质量的文章。特别是在用户撰写特定领域内的文章时，文本生成语言模型需要具备一定的特定领域知识，才能更好地指导用户进行写作，从而提高用户的写作效率和质量。因此，文本生成技术在特定领域的辅助写作中具有重要的作用。

虽然目前市面上已经出现了知识面覆盖很广的通用型语言模型，但在落地特定领域应用场景的过程中，仍然存在一些挑战。一方面，这类通用型语言模型的提供方大多只开放了对外接口，供不同组织和个人使用。如果所述语言模型的生成结果不满足特定领域的需求，使用者便不能及时、灵活地对模型的行为进行高度定制化的调整，以适应自己特定的场景。另一方面，在这些只对外开放接口的和市面上开源的通用型语言模型中，所具备的特定领域知识的来源、质量、体量以及时间跨度等是未知的，这同样使得这些模型在特定领域的表现变得非常不可控。

除了通用型语言模型，目前市面上也陆续发布了面向不同垂直领域的语言模型。然而，在实际应用中，这些模型仍存在一些挑战。首先，尽管已发布的垂直领域语言模型所涉及的领域与使用者的特定领域有一定重叠，但在某些特定任务的表现能力或风格方面不一定符合使用者的实际需求。其次，虽然这些已发布的垂直领域语言模型更专注于在其所涉及领域的表现，并且相较于通用型语言模型，确实在所涉及领域表现更佳，但与前文类似，这些模型的领域知识来源、质量、体量和时间跨度都是未知的。因此，在特定应用场景中，使用者仍然面临可控性弱的问题。此外，一个垂直领域下可能还存在更多的细分领域和任务，已发布的垂直领域模型在不同的细分领域和任务之间的表现也可能存在较大差异。

因此，要想让一个语言模型在特定领域中达到预期的效果，需要对其进行针对性的训练和调整。

发明内容

本发明的目的在于提供一种特定领域的模型训练和文本生成方法，训练能够更准确、更符合实际需求地完成特定领域目标任务的文本生成模型，以适应不同的特定领域场景，提高模型的可控性。更好地利用特定领域相关知识来优化用户的写作体验，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种特定领域的模型训练方法，包括以下步骤：

101：获取特定领域相关的数据；

102：根据所述特定领域相关的数据，通过预训练好的语言模型构造特定领域目标任务的训练数据；

103：通过预训练好的语言模型对所述目标任务的训练数据进行二次修改，得到修改后的训练数据；

104：根据修改后的训练数据与其他可获得的数据，训练语言模型，得到训练完成的语言模型。

进一步的，构造特定领域目标任务的训练数据包括将收集的特定领域相关的数据进行整合，得到第一数据集；

根据特定领域相关的目标任务收集指令模板，得到第一指令模板集；

从第一数据集提取数据，从第一指令模板集中提取指令模板，并将所述数据与指令模板进行组合，得到完整的语言模型指令；

将所述完整的语言模型指令输入至包含预训练好的语言模型的第一语言模型集中，得到第一语言模型集中每一个语言模型的输出，其中，第一语言模型集包含一个或多个预训练好的语言模型；

将所述完整的语言模型指令以及对应的所述语言模型的输出一同保存，作为特定领域目标任务的训练数据，得到第二数据集。

进一步的，所述第一指令模板集包含一条或多条特定领域相关的目标任务指令模板，所述特定领域相关的目标任务指令模板为向语言模型下达指令的指令描述文本，并且在所述指令描述文本中有一个或多个空白数据槽位，此处对所述特定领域相关的目标任务不设限制，可以根据实际需求进行设置；

完整的语言模型指令为所述目标任务指令模板的空白数据槽位被填充后的结果；

第二数据集包含多条特定领域目标任务的训练数据，其中，一条所述特定领域目标任务的训练数据由一条指令与此指令对应的一个语言模型的输出组成。

进一步的，得到修改后的训练数据包括根据特定领域相关的目标任务收集目的为评价数据质量的指令模板，得到第二指令模板集；

从第二数据集中提取数据，从第二指令模板集中提取指令模板，并将所述数据与指令模板进行组合，得到完整的语言模型指令；

将所述完整的语言模型指令输入至包含预训练好的语言模型的第二语言模型集中，得到第二语言模型集中的每一个语言模型的输出；

根据所述语言模型的输出构造第三数据集：

如果所述输出表示所述从第二数据集中提取的数据质量可接受，则保留此数据至第三数据集；如果所述输出表示所述从第二数据集中提取的数据质量需要提高，并且所述输出中包含改进后的数据，则仅保留改进后的数据至第三数据集；如果所述输出表示所述从第二数据集中提取的数据质量为其他情况，则直接丢弃此数据；

也可执行多次上述过程，对第三数据集进行多次修改。

进一步的，第二指令模板集包含一条或多条评价所述特定领域目标任务的训练数据的指令模板，所述指令模板为向语言模型下达指令的指令描述文本，并且在所述指令描述文本中有一个或多个空白数据槽位；

所述完整的语言模型指令为所述评价所述特定领域目标任务的训练数据的指令模板的空白数据槽位被填充后的结果；

第二语言模型集包含一个或多个预训练好的语言模型；

所述第三数据集包含多条特定领域目标任务的训练数据，第三数据集是在第二数据集的基础之上构建的。在第三数据集中，一条所述特定领域目标任务的训练数据分以下两种情况：由一条指令与此指令对应的一个来自于第一语言模型集中的语言模型的输出组成；由一条指令与改进后的数据组成，所述改进后的数据来自于一个第二语言模型集中的语言模型的输出。

进一步的，得到训练完成的语言模型包括：

获取其他可获得的数据，组成其他数据集，并与第三数据集进行合并，得到合并后的训练数据集；

从所述合并后的训练数据集中提取训练数据；

根据训练数据训练语言模型；

得到训练好的语言模型。

进一步的，其他数据集由其他可获得的数据组成，所述其他可获得的数据的来源以及数据的格式不做限定；

所述训练数据可以是由指令以及指令对应的响应文本组成，也可以是独立的文本段；

所述语言模型为基于Transformer的语言模型，或其他适用的模型；

通过所述特定领域的模型训练方法，可以根据实际需求训练一个或多个语言模型，可以针对不同的用户角色，准备不同的数据，使用所述训练方法得到不同的语言模型；也可以部分用户角色共享同一个语言模型。

一种特定领域的文本生成方法，包括以下步骤：

301：获取用户信息与写作文本；

302：根据所述用户信息与写作文本，通过所述训练完成的语言模型，得到特定领域目标任务的输出；

其中，用户信息至少包含以下一种：用户角色、用户标识、用户画像，写作文本至少包含以下一种：标题文本、正文文本、正文中的图片、正文中的投票信息、正文中引用的其他故事的信息。所述写作文本的来源为用户端的写作页面。

进一步的，训练完成的语言模型是特定领域的模型训练方法得到的；

所述根据所述用户信息与写作文本，通过所述训练完成的语言模型，得到特定领域目标任务的输出，包括：

根据用户信息与写作文本，从第三语言模型集中选择恰当的语言模型，组成选中的模型子集；

从第三指令模板集中提取特定领域相关的目标任务指令模板；

将所述用户信息与写作文本与所述指令模板进行组合，得到完整的语言模型指令；

将所述完整的语言模型指令输入至所述选中的模型子集中，得到所述选中的模型子集中的每一个语言模型的输出；

对所有所述语言模型的输出进行后处理，将后处理的结果存入输出集中；

第三语言模型集包含一个或多个通过上述特定领域的模型训练方法得到的训练好的语言模型；

第三指令模板集包含一条或多条特定领域相关的目标任务指令模板；所述特定领域相关的目标任务指令模板为向语言模型下达指令的指令描述文本，并且在所述指令描述文本中有一个或多个空白数据槽位；

完整的语言模型指令为所述特定领域相关的目标任务指令模板的空白数据槽位被填充后的结果；

后处理至少包含以下一种：移除不恰当的模型输出；去除重复度高的模型输出；对模型的输出进行质量评价；对模型的输出进行再编辑；对模型的输出重新排序。

与现有技术相比，本发明的有益效果是：本发明提出的一种特定领域的模型训练和文本生成方法，用于更灵活地对语言模型进行高度定制化的调整，训练能够更准确、更符合实际需求地完成特定领域目标任务的文本生成模型，以适应不同的特定领域场景，提高模型的可控性。此外，还能够将训练好的模型应用于具体场景中，从而更好地利用特定领域相关知识来优化用户的写作体验。

附图说明

图1为本发明的模型训练和文本生成方法的步骤流程图；

图2为本发明的数据集生成的流程图；

图3为本发明的改进数据的流程图；

图4为本发明的新的训练数据集训练初始语言模型，得到训练完成的语言模型的流程图；

图5为本发明的文本生成的步骤流程图；

图6为本发明的实施例三的模型训练的步骤流程图；

图7为本发明的语言模型根据指令生成文本的流程图；

图8为本发明的文本生成步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参阅图1，一种特定领域的模型训练和文本生成方法，包括以下步骤：

一种特定领域的模型训练方法，包括以下步骤：

获取特定领域相关的数据；

根据所述特定领域相关的数据，通过预训练好的语言模型构造特定领域目标任务的训练数据；

通过预训练好的语言模型对所述目标任务的训练数据进行二次修改，得到修改后的训练数据；

根据修改后的训练数据与其他可获得的数据，训练语言模型，得到训练完成的语言模型。

请参阅图2，构造特定领域目标任务的训练数据包括将收集的特定领域相关的数据进行整合，得到第一数据集；

所述第一指令模板集包含一条或多条特定领域相关的目标任务指令模板，所述特定领域相关的目标任务指令模板为向语言模型下达指令的指令描述文本，并且在所述指令描述文本中有一个或多个空白数据槽位，此处对所述特定领域相关的目标任务不设限制，可以根据实际需求进行设置；

请参阅图3，得到修改后的训练数据包括根据特定领域相关的目标任务收集目的为评价数据质量的指令模板，得到第二指令模板集；

根据所述语言模型的输出构造第三数据集：

也可执行多次上述过程，对第三数据集进行多次修改。

第二指令模板集包含一条或多条评价所述特定领域目标任务的训练数据的指令模板，所述指令模板为向语言模型下达指令的指令描述文本，并且在所述指令描述文本中有一个或多个空白数据槽位；

第二语言模型集包含一个或多个预训练好的语言模型；

请参阅图4，得到训练完成的语言模型包括：

从所述合并后的训练数据集中提取训练数据；

根据训练数据训练语言模型；

得到训练好的语言模型。

其他数据集由其他可获得的数据组成，所述其他可获得的数据的来源以及数据的格式不做限定；

请参阅图5，一种特定领域的文本生成方法，包括以下步骤：

获取用户信息与写作文本，根据所述用户信息与写作文本，通过所述训练完成的语言模型，得到特定领域目标任务的输出；

用户信息至少包含以下一种：用户角色、用户标识、用户画像，写作文本至少包含以下一种：标题文本、正文文本、正文中的图片、正文中的投票信息、正文中引用的其他故事的信息。所述写作文本的来源为用户端的写作页面。

训练完成的语言模型是特定领域的模型训练方法得到的；

实施例二：

本实施公布如何使用特定领域的模型训练方法。

步骤101：获取特定领域相关的数据；

在本实施例中，特定领域相关的数据主要为与所涉及领域密切相关的内容。

其中，示例性的，内容的形式可以主要以文本为主，图片、视频等其他形式为辅等。举例而言，如果特定领域为医疗健康，则内容可以为与医疗健康相关的文章等。

步骤102：根据所述特定领域相关的数据，通过预训练好的语言模型构造特定领域目标任务的训练数据；

在本实施例中，需要从特定领域相关的数据中提取一批或多批文本数据。此提取过程可以根据预训练好的语言模型、实际应用场景等因素进行控制。本实施例对具体提取方式不做限制。示例性的，可以根据所使用的语言模型可处理的最长文本长度决定提取的文本数据的长度；如果实际应用场景主要面向医护角色的用户，则可以主要提取与医护更紧密相关的数据等等。

从获取的特定领域相关的数据中提取文本数据的过程是执行一次或多次的。预训练好的语言模型将会根据每次被提取的文本数据构造训练数据。当训练数据的构造过程触发停止条件时，提取数据的重复动作也会停止。其中，示例性的，触发条件可以是已经收集了满足预设数量的训练数据。

其中，预训练好的语言模型的数量可以是一个或多个，此处对具体数量和包含哪些语言模型不做限定。示例性的，可以是语言模型提供商对外提供的开放接口，也可以是已经公开的开源模型。

为了通过预训练好的语言模型构造特定领域目标任务的训练数据，需要对语言模型下达指令，让其生成符合目标任务的训练数据。其中，指令是由提前预设好的指令模板与上述提取好的文本数据组合而成。

其中，指令模板为向语言模型下达指令的指令描述文本，并且在所述指令描述文本中有一个或多个空白数据槽位。为了得到完整的指令会将上述提取的文本数据填充至空白数据槽位中。示例性的，指令模板“请高度总结这段文本：{文本数据}”中，“{文本数据}”是一个空白数据槽位。当此槽位被提取的文本数据填充时，则形成了一条完整的指令。此指令可以用于让语言模型生成对文本数据进行高度总结的结果。

一个目标任务可以有一个或多个指令模板；一个指令模板集可以包含一个或多个目标任务的指令模板。同一条从特定领域相关数据中提取的文本数据与不同的指令模板进行组合，形成多条完整的指令。将所有指令分发至每一个语言模型中，得到输出结果。

步骤103：通过预训练好的语言模型对所述目标任务的训练数据进行再次修改，得到修改后的训练数据；

一些预训练好的语言模型具备检测并改善数据质量的能力，因此在这些语言模型的帮助下，可以对步骤102中生成的训练数据进行改进。

其中，在此步骤中的预训练好的语言模型的数量可以是一个或多个，此处对具体数量和包含哪些语言模型不做限定。示例性的，可以是语言模型提供商对外提供的开放接口，也可以是已经公开的开源模型，也可以是与步骤102中使用相同的语言模型。

为了通过预训练好的语言模型对步骤102生成的训练数据进行改进，需要对语言模型下达指令，让其检测步骤102生成的训练数据的质量。如果语言模型的输出表示数据质量可接受，则保留此数据；如果表示数据质量需要提高，并且输出中包含改进后的数据，则仅保留改进后的数据；如果表示数据质量为其他情况，则直接丢弃此数据。所有保留的数据组合成新的目标任务的训练数据集。

其中，与步骤102类似地，指令是由提前预设好的指令模板与从步骤102的输出结果中提取的数据组合而成。

示例性的，指令模板可以是“目标任务要求：{目标任务要求}。任务的输入：{文本数据1}。任务的输出：{文本数据2}。请根据目标任务要求和任务的输入对输出进行评价，评价的结果只有三种：‘可接受’、‘改进后可接受’、‘没有改进空间’。如果结果为‘改进后可接受’，请给出改进后的结果。”。其中，“{目标任务要求}”可以根据实际需求进行填充，“{文本数据1}”和“{文本数据2}”的填充内容取自步骤102生成的训练数据。

在此步骤中，所使用的指令模板可以有一个或多个，此处不做限制。

步骤104，根据修改后的训练数据与其他可获得的数据，训练语言模型，得到训练完成的语言模型；

在训练语言模型的数据中，除了使用步骤103生成的训练数据，还可以额外使用其他可获得的数据，将两者共同组成训练数据集。此处对其他可获得的数据来源、形式、内容要求不设限制。示例性的，其他可获得的数据可以是经过人工精心编写的训练数据、通用领域的训练数据、内容属于特定领域的文章、遵循指令型数据、非遵循指令型数据等。此处对不同数据的组成方式、对不同来源的数据组合搭配比例也不设限制。

在训练语言模型的过程中，从训练数据集中分批次提取训练数据。每一批的训练数据可以分为两部分，输入部分和参考答案部分。将输入部分输入至语言模型中，得到语言模型的输出。通过语言模型的输出和参考答案部分计算损失函数。根据损失函数的值更新语言模型的参数。其中对语言模型的选择不做限制，可以是自行设计的神经网络，基于transformer搭建的神经网络等各种适用于文本生成任务的模型。

当模型训练的过程触发停止条件时，不再从训练数据集中提取训练数据，并且终止更新模型参数。其中，停止条件可以根据实际情况设置，此处不做限制。示例性的，停止条件可以为模型参数更新的次数达到了预设阈值，参与模型训练的训练数据量达到了预设阈值等。

一种特定领域的文本生成的方法，包括以下步骤：

步骤301，获取用户信息与写作文本；

所述用户信息至少包含以下一种：用户角色、用户标识、用户画像。其中，此处对用户角色、标识、画像的具体内容不做限制，可以根据需求设置。示例性的，用户角色可以是医护角色、非医护角色等；用户标识可以是平台为用户分配的唯一数字编码；用户画像可以包含性别等信息。

步骤302，根据所述用户信息与写作文本，通过所述训练完成的语言模型，得到特定领域目标任务的输出；

为了通过训练完成的语言模型执行目标任务，需要对语言模型下达指令，让其根据指令生成需要的文本内容。其中，指令是由提前预设好的指令模板与上述步骤获取的所述用户信息与写作文本组合而成。此处对具体的目标任务不做限制，可以是根据用户信息与写作文本从医疗健康的角度提出续写意见、可以是分析写作文本中的关键句等目标任务。其中，所述训练完成的语言模型是基于前述实施例训练得到的训练完成的语言模型。此处对训练完成的语言模型数量不做限定，可以为一个或多个。

实施例三：

请参阅图6，提供的另一种特定领域的模型训练的步骤流程，本发明实施例对上述实施例中的训练方法进一步细化，具体如下：

步骤201：获取特定领域相关的数据集、用于生成目标任务训练数据的指令模板集、用于评价和改进数据质量的指令模板集；

特定领域相关的数据集中至少包含了与所涉及领域密切相关的内容，此数据集为第一数据集。示例性的，内容的形式可以主要以文本为主，图片、视频等其他形式为辅等。举例而言，如果特定领域为医疗健康，则内容可以为与医疗健康相关的文章等。

在后续的步骤中，语言模型需要遵从特定的指令产生对应的数据。指令是由两部分组成：指令模板与填充数据。其中，指令模板为向语言模型下达指令的指令描述文本，用于对语言模型生成的文本提出要求。在所述指令描述文本中有一个或多个空白数据槽位。示例性的，指令模板“请高度总结这段文本：{文本数据}”中，“{文本数据}”是一个空白数据槽位。空白数据槽位的内容由特定领域相关的数据集中的数据填充。当一条指令模板被数据填充时，则形成了一条完整的指令。

在本实施例的模型训练过程中，会使用到两种指令模板，每一种指令模板可以有一个或多个具体的模板，并形成集合，即：第一指令模板集，用于让语言模型生成目标任务训练数据的指令模板集；第二指令模板集，用于让语言模型评价和改进数据质量的指令模板集。

上述两种指令模板集的来源不做限制，可以是自行准备的、语言模型生成的、其他公开可获得的等。

步骤202：从上述数据集和用于生成数据的指令模板集中，分别提取数据与指令模板，将所述数据与模板相结合得到完整的指令；

从数据集中所提取的数据的内容、长度等特征不做限定，可以根据实际需求定制对提取的数据的要求。示例性的，如果所获得的指令模板内容为“请高度总结这一段文本：{文本数据}”，则提取的内容可以是一篇文章若干自然段中的某一段；如果所获得的指令模板内容为“请高度总结这一篇文章：{文本数据}”，则提取的内容可以是一整篇文章。

同时，需要从用于生成数据的指令模板集中提取指令模板。在此对提取的过程不做限定，可以根据实际需求定制对提取的指令模板的要求。

其中，在实际场景中，为了提高训练效率，在每次进行提取操作时，可以根据计算资源等因素的实际情况从数据集中同时提取一个或多个数据、从指令模板集中同时提取一个或多个模板，并将所有提取的数据与模板进行组合，组成多条完整的指令。为了使本说明书中的实施例更加容易理解，在后续的描述中会以每次只提取一条数据、一条指令模板、只组成一条完整的指令为例进行说明。

步骤203：获取用于生成目标任务训练数据的语言模型集；

预训练好的语言模型可以根据上述完整的指令生成对应的文本。所选择的预训练好的语言模型可以是一个或多个，并组成第一语言模型集。

语言模型集中的语言模型至少包含以下中的一种：由自己研发的语言模型、由语言模型提供商的对外接口、开源可用的语言模型。此处对语言模型集中包含的语言模型的类型、语言模型的架构等不做限制。

步骤204：向上述语言模型集中的每一个语言模型下达上述指令，得到输出结果

当语言模型为由语言模型提供商提供的对外接口时，按照对外接口的格式要求，将上述指令发送至对外接口，并等待回传结果。

当语言模型为由自己研发的或开源可用的语言模型时，需要将指令和已经生成的文本转化为向量表示形式，并输入至语言模型中。语言模型根据输入的内容输出结果。可选地，示例性地，如下图7所示，所述语言模型可以包括嵌入层、输入层、中间层、全连接层。所述嵌入层的输入为指令以及已经生成的文本，所述嵌入层的输出为所述输入层的输入，所述输入层的输出为所述中间层的输入，所述中间层的输出为所述全连接层的输入，所述全连接层的输出为新生成的文本。

所述步骤如下：

步骤A1：将指令和已经生成的文本输入至嵌入层中的多所述第一特征向量。其中，正在生成的文本在第一次执行此步骤时为空。嵌入层的输出为特征向量表示，具体的从文本输入映射到向量表示形式的方式此处不设限制。

步骤A2：输入层可以对嵌入层的输出特征向量进行进一步操作，得到第二特征向量。在本公开的实施例中，此操作可以为将Positional-Embedding与所述特征向量进行加法叠加，从而变成新的特征向量。可以理解，本公开的实例对输入层的操作不加以限制，即：除了Positional-Embedding，还可以使用其他类型的操作。

步骤A3：将所述第二特征向量输入至所述中间层中，得到第三特征向量。此处对中间层的层数、结构不设限制。示例性的，可以为多层自注意力机制层，自注意力机制层可以采用Multi-head Attention与前馈神经网络并存的结构等。

步骤A4：将所述第三特征向量输入至所述全连接层中，得到新生成的文本。

在此步骤将第三特征向量通过全连接层映射成固定维度的向量，维度的大小由语言模型对应的词表大小决定，即最后一层全连接层的输出必须与词表的大小相同，但中间的全连接层的输出向量维度不设限制。在本公开的实施例中，对全连接层的层数不加以限制，即可根据实际情况自由设置。当得到最后一层的全连接层输出向量后，通过Softmax函数对所述输出向量进行数值调整，使得调整后的向量中所有数值相加的和为1，即通过Softmax函数将输出向量转化为概率分布。在此概率分布中，每一个位置的数值代表了一个概率值，此概率值代表了语言模型预测正在生成中的写作建议的下一个字是所述位置对应文字的概率大小。概率越大，则语言模型输出的下一个字是所述位置对应的文字概率越大，反之越小。

步骤A5：根据步骤A4输出的概率分布以及特定的解码策略确定输出的下一个文字。其中解码策略可以采用贪婪搜索、Beam搜索、随机采样、Top-k采样、带有Temperature的采样、Top-p采样、在输出过程中设置输出词黑名单等不同策略。

步骤A6：重复执行步骤A1至A5，直至文本输出完成，得到最终结果。其中文本输出完成的判定条件不设限制，可以为输出文本的总长度达到了一定限制、输出了代表文本结束的特殊符号等。

在收到语言模型对外接口正常回传结果或语言模型的完整输出后，将结果进行一定的后处理后，得到后处理后的结果。其中，后处理的方式可以针对自身需求进行设置，此处不设限制，可以为去除乱码、将回传结果处理成另一种格式等。

步骤205，将指令与上述结果保存为目标任务的训练数据集；

将所有指令与指令对应的语言模型的输出结果保存为目标任务的训练数据集，即第二数据集。

示例性的，下图2为本申请示例性实施例提供的一种步骤201-步骤205的示意图；

步骤206：分别从上述生成的数据集和用于评价和改进数据质量的指令模板集中提取数据与指令模板，将所述数据与模板相结合得到完整的指令；

其中，上述生成的数据集为第二数据集，用于评价和改进数据质量的指令模板集为第二指令模板集。

从第二数据集中提取数据，同时，需要从第二指令模板集中提取指令模板。其中，在此对提取数据和指令模板的过程不做限定，可以根据实际需求设置。

将所述提取数据填充至所述指令模板的空白槽位中，得到完整的指令。

步骤207：获取用于评价和改进数据质量的语言模型集；

预训练好的语言模型可以根据上述完整的指令生成对应的文本。所选择的预训练好的语言模型可以是一个或多个，并组成第二语言模型集。

第二语言模型集可以与第一语言模型集相同或不同，可以根据实际情况设置。

步骤208：向上述语言模型集中的每一个语言模型下达上述指令，得到输出结果

与步骤204采取相同的做法，但使用的指令为步骤206生成的指令、语言模型集使用步骤207中的第二语言模型集。

步骤209：根据输出结果对生成的数据集进行改进，得到改进后的数据集语言模型的输出是对第二数据集中的数据的评价和改进的结果。

在收到语言模型对外接口正常回传结果或语言模型的完整输出结果后，将结果进行一定的后处理后，得到后处理后的结果。其中，后处理的方式至少包括如下三种情况：如果语言模型的输出结果表示指令中的数据质量可接受，则保留此数据；如果表示数据质量需要提高，并且输出中包含改进后的数据，则仅保留改进后的数据；如果表示数据质量为其他情况，则直接丢弃此数据。所有保留的数据组合成新的目标任务的训练数据集，即第三数据集。

示例性的，下图3为本申请示例性实施例提供的一种步骤206-步骤207的示意图。

步骤210：获取其他可用的训练数据集，并与改进的数据集进行合并，得到新的训练数据集；

在训练语言模型的数据中，除了使用步骤209中改进的训练数据，还可以额外使用其他可获得的数据，将两者共同组成训练数据集。此处对其他可获得的数据来源、形式、内容要求不设限制。示例性的，其他可获得的数据可以是经过人工精心编写的训练数据、通用领域的训练数据、内容属于特定领域的文章、遵循指令型数据、非遵循指令型数据等。此处对不同数据的组成方式、对不同来源的数据组合搭配比例也不设限制。

步骤211：根据新的训练数据集训练初始语言模型，得到训练完成的语言模型；

在训练语言模型的过程中，从训练数据集中分批次提取训练数据。每一批的训练数据可以分为两部分，输入部分和参考答案部分。将模型输入部分输入至语言模型中，得到语言模型的输出。通过语言模型的输出和参考答案部分计算损失函数。根据损失函数的值更新语言模型的参数。

其中对初始语言模型的选择不做限制，可以是自行设计的神经网络，基于transformer搭建的神经网络等各种适用于文本生成任务的模型。其中，示例性的，初始语言模型也可以是已经经过一定程度的训练之后得到的模型。

其中，此处对损失函数的计算方式、公式不做限制。示例性的，如果训练数据用于训练语言模型遵循指令的能力，则在计算损失函数的过程中，训练数据中的指令部分不参与损失函数的计算，只需计算模型的输出与期待的遵循指令的参考答案之间的损失函数值。如果训练数据用于训练语言模型的语言建模能力，则整个数据都参与损失函数的计算。示例性的，对于损失函数的选择可以为交叉熵或其他适用于训练语言模型的损失函数。

当模型训练的过程触发停止条件时，不再从训练数据集中提取训练数据，并且终止更新模型参数。其中，停止条件可以根据实际情况设置，此处不做限制。示例性的，停止条件可以为模型参数更新的次数达到了预设阈值，参与模型训练的训练数据量达到了预设阈值。

示例性的，下图4为本申请示例性实施例提供的一种步骤206-步骤207的示意图。

实施例四：

为本申请示例性实施例提供的一种特定领域的文本生成的步骤流程；

步骤301，获取用户信息与写作文本；

所述写作文本至少包含以下一种：标题文本、正文文本、正文中的图片、正文中的投票信息、正文中引用的其他故事的信息。所述写作文本的来源为用户端的写作页面。

根据所述用户信息与写作文本，通过所述训练完成的语言模型，得到特定领域目标任务的输出，具体如下：为了通过训练完成的语言模型执行目标任务，需要对语言模型下达指令，让其根据指令生成需要的文本内容。其中，指令是由提前预设好的指令模板与上述步骤获取的所述用户信息与写作文本组合而成。此处对具体的目标任务不做限制，可以是根据用户信息与写作文本从医疗健康的角度提出续写意见、可以是分析写作文本中的关键句等目标任务。其中，所述训练完成的语言模型是基于前述实施例训练得到的训练完成的语言模型。此处对训练完成的语言模型数量不做限定，可以为一个或多个。

实施例五：

请参阅图8，其为本申请示例性实施例提供的另一种特定领域的文本生成的步骤流程图。本发明实施例对上述实施例中的文本生成方法进一步细化，具体如下。

步骤401，获取用户信息与写作文本、用于完成目标任务的指令模板集

其中，用于完成目标任务的指令模板集为第三指令模板集，其中包含了一个或多个指令模板。

步骤402，从上述指令模板集中提取指令模板，将所述指令模板与用户信息、写作文本相结合，得到完整的指令；

从上述指令模板集中提取指令模板，将用户信息与写作文本信息填充至指令模板中对应的空白数据槽位上，形成一条完整的指令。

步骤403，获取训练好的语言模型集，并根据所述用户信息与写作文本从中选择可完成目标任务的语言模型子集；

其中，所述训练好的语言模型集为第三语言模型集，其中至少包含一个或多个由前述步骤得到的训练完成的语言模型。

根据所述用户信息与写作文本从中选择可完成目标任务的语言模型子集。此处对选择的过程不设限定，可以根据实际需求设置。示例性的，如果用户信息表明当前用户为“医护”角色的用户，则可以在语言模型集中选择针对“医护”角色训练完成的语言模型子集或选择可以完成和“医护”角色相关任务的语言模型子集。

步骤404，向上述语言模型子集中的每一个语言模型下达上述指令，得到输出结果；

将上述完整的语言模型指令输入至所述选中的语言模型子集中，得到所述选中的模型子集中的每一个语言模型的输出；

对所有所述语言模型的输出进行后处理，将后处理的结果作为最终输出存入输出集中。所述后处理至少包含以下一种：移除不恰当的模型输出；去除重复度高的模型输出；对模型的输出进行质量评价；对模型的输出进行再编辑；对模型的输出重新排序。本公开对后处理的具体方式和步骤不设限制。

示例性的，下图5为本申请示例性实施例提供的一种步骤401-步骤404的示意图。

本实施例，并不限定模型训练和文本生成方法的执行设备。可选地，模型训练方法可以借助云计算系统实现整体的模型训练方法，文本生成方法可以借助云计算系统实现整体的在线推理方法。例如，模型训练和文本生成方法可以应用于云服务器，以便借助于云上资源的优势运行各种神经网络模型；相对于应用于云端，模型训练和文本生成方法也可以应用于常规服务器、云服务器或服务器阵列等服务端设备。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种特定领域的模型训练方法，其特征在于，包括以下步骤：

101：获取特定领域相关的数据；

2.如权利要求1所述的一种特定领域的模型训练方法，其特征在于，构造特定领域目标任务的训练数据包括将收集的特定领域相关的数据进行整合，得到第一数据集；

3.如权利要求2所述的一种特定领域的模型训练方法，其特征在于，所述第一指令模板集包含一条或多条特定领域相关的目标任务指令模板，所述特定领域相关的目标任务指令模板为向语言模型下达指令的指令描述文本，并且在所述指令描述文本中有一个或多个空白数据槽位，此处对所述特定领域相关的目标任务不设限制，可以根据实际需求进行设置；

4.如权利要求1所述的一种特定领域的模型训练方法，其特征在于，得到修改后的训练数据包括根据特定领域相关的目标任务收集目的为评价数据质量的指令模板，得到第二指令模板集；

根据所述语言模型的输出构造第三数据集：

也可执行多次上述过程，对第三数据集进行多次修改。

5.如权利要求4所述的一种特定领域的模型训练方法，其特征在于，第二指令模板集包含一条或多条评价所述特定领域目标任务的训练数据的指令模板，所述指令模板为向语言模型下达指令的指令描述文本，并且在所述指令描述文本中有一个或多个空白数据槽位；

第二语言模型集包含一个或多个预训练好的语言模型；

6.如权利要求1所述的一种特定领域的模型训练方法，其特征在于，得到训练完成的语言模型包括：

从所述合并后的训练数据集中提取训练数据；

根据训练数据训练语言模型；

得到训练好的语言模型。

7.如权利要求6所述的一种特定领域的模型训练方法，其特征在于，其他数据集由其他可获得的数据组成，所述其他可获得的数据的来源以及数据的格式不做限定；

8.一种特定领域的文本生成方法，其特征在于，包括以下步骤：

301：获取用户信息与写作文本；

302：根据所述用户信息与写作文本，通过所述训练完成的语言模型，得到特定领域目标任务的输出。

9.如权利要求8所述的一种特定领域的文本生成方法，其特征在于，所述用户信息至少包含以下一种：用户角色、用户标识、用户画像，写作文本至少包含以下一种：标题文本、正文文本、正文中的图片、正文中的投票信息、正文中引用的其他故事的信息，所述写作文本的来源为用户端的写作页面。

10.如权利要求8所述的一种特定领域的文本生成方法，其特征在于，训练完成的语言模型是特定领域的模型训练方法得到的；