CN116910561A

CN116910561A - 数据集构建的方法和服务器

Info

Publication number: CN116910561A
Application number: CN202310954815.2A
Authority: CN
Inventors: 余海洋; 李永彬; 黄非
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-20

Abstract

本申请提供一种数据集构建的方法和服务器。本申请的方法，根据给定的任务需求信息构建指令集；基于指令集所包含的指令迭代进行如下处理：将指令输入预训练大模型，生成指令的答复信息，基于指令的答复信息进行数据标注构建包括指令及指令答复信息的有监督训练数据，使用所构建训练数据优化预训练大模型；直至所构建的训练数据的总数满足预设需求时，输出包含所构建训练数据的数据集，通过数据回流的方式利用已构建的训练数据优化预训练大模型，提升预训练大模型生成答复信息的质量，随着迭代次数的增加预训练大模型的生成质量提升，可降低对所生成答复信息的标注成本，提升标注效率，进而提升构建数据集的效率。

Description

数据集构建的方法和服务器

技术领域

本申请涉及计算机技术，尤其涉及一种数据集构建的方法和服务器。

背景技术

大模型是指具有大规模模型参数的深度学习模型，通常包含上亿、上百亿、甚至上千亿的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model)，通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练大模型。在预训时大模型已经学习到了大部分知识，具有较好的泛化能力，例如大型语言模型(Large LanguageModel，LLM)，也称为大语言模型。在应用于不同的下游任务时，需要使用包含输入指令和答复的有监督训练数据对预训练大模型进行微调，让模型能够执行对应下游人机交互任务。对预训练大模型进行微调需要高质量的有监督训练数据。

目前，通过人工标注的方式对指令的答复进行标注，来获取高质量的有监督训练数据，耗时长、效率低。

发明内容

本申请提供一种数据集构建的方法和服务器，用以解决高质量的有监督训练数据的构建耗时长、效率低的问题。

第一方面，本申请提供一种数据集构建方法，包括：

根据给定的任务需求信息，构建指令集；基于所述指令集所包含的指令，迭代进行如下处理：将所述指令输入预训练大模型，生成所述指令的答复信息，基于所述指令的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，使用所述训练数据优化所述预训练大模型；直至所构建的训练数据的总数满足需求时，输出包含所构建的训练数据的数据集。

第二方面，本申请提供一种文档问答数据集构建方法，包括：

根据文档问答任务的需求信息，构建文档问答的指令集；基于所述指令集所包含的问答指令，迭代进行如下处理：将所述问答指令输入预训练大模型，生成所述问答指令的答复信息，基于所述问答指令的答复信息进行数据标注，构建包括问答指令及问答指令的答复信息的训练数据，使用所述训练数据优化所述预训练大模型；直至所构建的训练数据的总数满足预设需求时，输出适用于文档问答任务的数据集，所述数据集包含所构建的训练数据。

第三方面，本申请提供一种数据集构建方法，应用于服务器，包括：

接收端侧设备发送的数据集请求，所述数据集请求包含给定的任务需求信息；根据所述给定的任务需求信息，构建指令集；基于所述指令集所包含的指令，迭代进行如下处理：将所述指令输入预训练大模型，生成所述指令的答复信息，基于所述指令的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，使用所述训练数据优化所述预训练大模型；直至所构建的训练数据的总数满足预设需求时，获得包含所构建的训练数据的数据集；向所述端侧设备发送所述数据集。

第四方面，本申请提供一种服务器，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面、第二方面、第三方面中任一方面所述的方法。

本申请提供的数据集构建的方法和服务器，根据给定的任务需求信息，构建指令集；基于指令集所包含的指令，迭代进行如下处理：将指令输入预训练大模型，生成指令的答复信息，基于指令的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，使用训练数据优化预训练大模型；直至所构建的训练数据的总数满足预设需求时，输出包含所构建训练数据的数据集。在构建训练数据时，使用预设大模型生成指令的答复信息，基于生成的答复信息进行数据标注，来构建包括指令及指令答复信息的有监督训练数据，并且利用已构建的有监督训练数据，通过数据回流的方式优化预训练大模型，提升预训练大模型生成答复信息的质量，随着迭代次数的增加预训练大模型的生成质量越来越好，可以提升所生成的答复信息的质量，从而降低对所生成答复信息的标注成本(包括标注时修改难度、标注时间成本)，提升标注效率，进而提升构建有监督数据集的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请所适用的一示例系统架构的示意图；

图2为本申请所适用的另一示例系统架构的示意图；

图3为本申请一示例性实施例提供的数据集构建方法流程图；

图4为本申请一示例性实施例提供的数据集构建方法的框架图；

图5为本申请另一示例性实施例提供的数据集构建方法流程图；

图6为本申请另一示例性实施例提供的数据集构建方法的框架图；

图7为本申请一示例性实施例提供的文档问答数据集构建方法流程图；

图8为本申请一示例性实施例提供的数据集构建方法的交互流程图；

图9为本申请一示例性实施例提供的一种服务器的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释：

人机回圈(Human-In-The-Loop)：也译作人机回环，是指在机器学习或人工智能系统中存在一个人类操作员的参与以进行监督和控制。该操作员可以对模型进行训练、调整和监测，确保系统准确、透明、公正和可信，并纠正任何错误或偏差。

有监督微调(Supervised Finetuning，简称SFT)：是指对预训练大模型进行微调训练。

奖励模型(Reward Model，简称RM)：是一个判别模型，用于判断两个回复/答复哪个质量更高。奖励模型输出两个回复/答复的质量信息，质量更高的回复/答复的质量信息(奖励分值)更大。

视觉问答任务：根据输入的图像和问题，从输入图像的视觉信息中确定问题的答案。

图像描述任务：生成输入图像的描述文本。

视觉蕴涵任务：预测输入图像和文本在语义上的相关性，即蕴涵、中性或矛盾。

指代表达与理解任务：根据输入文本定位输入图像中与输入文本对应的图像区域。

图像生成任务：基于输入的描述文本生成图像。

基于文本的情感分类任务：预测输入文本的情感分类信息。

文本摘要任务：生成输入文本的摘要信息。

多模态任务：是指输入输出数据涉及图像和文本等多种模态数据的下游任务，例如视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务等。

多模态预训练模型：是指输入输出数据涉及图像和文本等多种模态数据的预训练模型，经过微调训练后可以应用于多模态任务处理。

预训练语言模型：对大规模语言模型(Large Language Model，简称LLM)进行预训练后得到的预训练模型。

大模型是指具有大规模模型参数的深度学习模型，通常包含上亿、上百亿、甚至上千亿的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model)，通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练模型，这种模型能适应广泛的下游任务，模型具有较好的泛化能力，例如大规模语言模型(Large Language Model,LLM)、多模态预训练模型(multi-modal pre-training model)等。

大模型在实际应用时，仅需少量有监督训练数据对预训练模型进行微调即可应用于不同的任务中，大模型可以广泛应用于自然语言处理(Natural Language Processing，简称NLP)、计算机视觉等领域，具体可以应用于如视觉问答(Visual Question Answering，简称VQA)、图像描述(Image Caption，简称IC)、图像生成等计算机视觉领域任务，以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务，大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。

对预训练大模型进行微调需要高质量的有监督训练数据。在大模型(如LLM)时代，构建有监督数据是非常困难的。有的方案中，通过使用较成熟和稳定的大模型(如LLM)本身生成答复，来快速构建任务的输入指令和答复，得到有监督数据。但是所构建的有监督数据的质量受限于所使用的大模型(如LLM)本身的能力，达不到很好的效果，导致基于所构建的数据集训练得到新的大模型(如新的LLM)所能学习到的能力无法超过构建数据集所使用的大模型。目前，大多通过人工标注的方式获取高质量的有监督训练数据，耗时长、效率低。

本申请提供一种数据集构建方法，根据给定的任务需求信息，构建指令集；基于指令集所包含的指令，迭代进行如下处理：将指令输入预训练大模型，生成指令的答复信息，基于指令的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，使用构建的训练数据优化预训练大模型；直至所构建的训练数据的总数满足预设需求时，输出包含所构建的训练数据的数据集。在构建包括指令及指令答复信息的训练数据时，使用预训练大模型生成指令的答复信息，基于生成的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，并且利用已构建的训练数据，通过数据回流的方式优化预训练大模型，提升预训练大模型生成答复信息的质量，随着迭代次数的增加预训练大模型的生成质量越来越好，可以提升所生成的答复信息的质量，从而降低对所生成答复信息的标注成本(包括标注时修改难度、标注时间成本)，提升标注效率，进而提升构建数据集的效率。

其中，所构建的数据集包括指令(Prompt)和指令标注后的答复信息(Response)。对于用于生成指令的答复信息的模型，该数据集既包含输入指令，也包含指令的答复信息，是有监督数据集。指令的答复信息是经过标注后的高质量的答复信息，因此所构建的训练数据为高质量的有监督训练数据，所构建的数据集为高质量的监督数据集。所构建的数据集应用于除生成指令的答复信息之外的其他任务时，可能作为无监督数据集，可以应用于出监督训练之外的其他机器学习方案中。

图1为本申请所适用的一示例系统架构的示意图。如图1所示，该系统架构包括服务器和端侧设备。其中，服务器与端侧设备之间具有可通信的通信链路，能够实现服务器与端侧设备间的通信连接。

其中，服务器可以是部署在云端的服务器集群、或者本地具有计算能力的设备。服务器运行有预训练大模型。该预训练大模型可以是大型语言模型(LLM)、多模态预训练模型等，服务器可以向大模型用户(如各企业、应用/系统平台等)提供预训练大模型，大模型用户使用有监督数据集对预训练大模型进行微调训练，即可获得自己的专属大模型，基于专属大模型对外提供服务。

端侧设备是大模型用户所使用的电子设备，具体可以为具有网络通信功能、运算功能以及信息显示功能的硬件设备，其包括但不限于智能手机、平板电脑、台式电脑、服务器设备等。

基于图1所示的系统架构，用户通过端侧设备向服务器发送给定的任务需求信息。服务器根据给定的任务需求信息，构建指令集；基于指令集所包含的指令，迭代进行如下处理：将指令输入预训练大模型，生成指令的答复信息，基于指令的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，使用构建的训练数据优化预训练大模型；直至所构建的训练数据的总数满足需求时，输出包含所构建的训练数据的数据集。进一步地，服务器向端侧设备返回给定任务的数据集。

图2为本申请所适用的另一示例系统架构的示意图。如图2所示，该系统架构包括服务器和端侧设备。其中，服务器与端侧设备之间具有可通信的通信链路，能够实现服务器与端侧设备间的通信连接。

服务器可以与提供预设大模型的模型服务进行通信，以使用预设大模型生成输入指令(Prompt)的答复信息。其中，预设大模型可以是较为成熟、效果较稳定的大模型，具体可以是开源/商用的自然语言生成式(NLG)模型、大型语言模型(LLM)等，本申请对此不做具体限定。

基于图2所示的系统架构，用户通过端侧设备向服务器发送给定的任务需求信息。服务器根据端侧设备给定的任务需求信息，构建指令集；基于指令集所包含的指令，迭代进行如下处理：将指令分别输入预训练大模型和至少一个预设大模型(图2中以一个预设大模型为例进行示例性地说明)，生成指令的多个不同的答复信息，基于指令的多个不同的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，使用构建的训练数据优化预训练大模型；直至所构建的训练数据的总数满足预设需求时，向端侧设备发送包含所构建的训练数据的数据集。进一步地，服务器向端侧设备返回给定任务的数据集。

基于前述任一系统架构，在一示例使用场景中，企业用户通过端侧设备向服务器发送给定的任务需求信息，包括但不限于：给定任务信息、输入描述信息、指令格式信息。服务器根据端侧设备给定的任务需求信息，构建指令集；基于指令集所包含的指令，构建包括指令及指令答复信息的数据集，并向端侧设备发送所构建的数据集。进一步地，端侧设备使用服务器发送的数据集，对预训练大模型进行微调训练，得到适用于执行给定任务的专属大模型。端侧设备可以基于微调训练得到的专属大模型，对外提供实现给定任务的服务。示例性地，端侧设备接收咨询用户的输入信息，根据咨询用户的输入信息，生成专属大模型的输入指令，通过专属大模型生成输入指令的答复信息，输出输入指令的答复信息。

其中，给定任务信息用于描述给定任务的类型、功能等信息，例如，文档问答任务、智能客服任务等。输入描述信息用于描述给定任务的输入信息，例如输入文档的领域信息、输入问句的示例等。指令格式信息是指对预训练大模型进行微调时，输入预训练大模型的指令(Prompt)的格式信息，例如，文档问答任务中指令格式可以为“你是一个客服人员，我会给你一篇文档，请帮我回答问题，输入的文档和问题为<文档，问句>，回复为：”，其中<文档，问句>指代一组输入的文档和问句。这一指令指示大模型根据输入的<文档，问句>生成答复信息。

在另一示例使用场景中，相关技术人员可以通过服务器配置一个或者多个任务的任务需求信息，任务需求信息包括但不限于：给定任务信息、输入描述信息、指令格式信息。服务器根据任一任务需求信息，构建指令集；基于指令集所包含的指令，构建包括指令及指令答复信息的数据集。服务器存储各个任务的任务需求信息，及对应的数据集。

进一步地，服务器可以通过前端界面展示已构建的数据集、及数据集的相关信息(如适用于的任务信息、输入信息描述、指令格式信息等)。大模型用户可以根据需要选择并通过端侧设备向服务器请求获取其中一个或者多个数据集。服务器可以基于端侧设备的请求，向端侧设备提供一个或者多个数据集。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图3为本申请一示例性实施例提供的数据集构建方法流程图。本实施例的执行主体为前述系统架构中的服务器。如图3所示，该方法具体步骤如下：

步骤S31、根据给定的任务需求信息，构建指令集。

本实施例中，给定的任务需求信息是指所需构建的数据集所适用任务的相关信息，包括但不限于特定任务的类型、功能、所属领域等任务信息，任务的输入描述信息，指令格式信息。其中，任务的输入描述信息包括但不限于各项输入的相关描述，例如输入文档的领域信息、输入问句的示例等。指令格式信息对预训练大模型进行微调时，输入预训练大模型的指令(Prompt)的格式信息，具体可以是根据实际任务场景配置的指令(Prompt)格式/模板等。例如，文档问答任务中指令格式可以为“你是一个客服人员，我会给你一篇文档，请帮我回答问题，输入的文档和问题为<文档，问句>，回复为：”，其中<文档，问句>指代一组输入的文档和问句。这一指令指示大模型根据输入的<文档，问句>生成答复信息。

在一种示例使用场景中，给定的任务需求信息由用户通过端侧设备设置并向服务器发送，该步骤中，服务器接收端侧设备发送的给定的任务需求信息。另一示例使用场景中，给定的任务需求信息可以由相关技术人员在服务器端进行配置获得。

在获取到给定的任务需求信息之后，服务器根据给定的任务需求信息，自动构建指令集。具体地，服务器获取给定的任务需求信息，任务需求信息包括输入描述信息和指令格式信息；根据输入描述信息，使用预设的生成式大模型生成输入信息；进一步地，根据指令格式信息和所生成的输入信息，生成指令，并构建指令集。

示例性地，以文档问答任务场景为例，根据给定的文档问答任务的文档(存储有知识)的领域信息和/或内容描述，使用预设的生成式大模型，生成相对应的一个或多个文档。根据给定的文档问答任务的问句的示例，基于给定的文档，使用预设的生成式大模型，生成各个示例的相似问句，得到多组包含<文档，问句>的输入信息。进一步地，根据给定的指令(Prompt)格式信息，生成各组输入信息对应的指令，得到的多个指令构成指令集。其中，用于生成不同输入信息所使用的生成式大模型可以相同或者不同，生成各项输入信息的生成式大模型可以使用较为成熟、效果较好的自然语言生成式(NLG)模型、或者大型语言模型(LLM)实现，具体可以是开源/商用的任一生成式模型，此处不做具体限定。

另外，获取到给定的任务需求信息之后，服务器还可以基于给定的任务需求信息，搜集获取同类任务下的输入信息和指令格式信息，从而基于搜集的输入信息和指令格式信息，构建指令集。例如，从公开数据集中获取同类任务下的输入信息，基于经验获取指令格式信息。

进一步地，基于指令集所包含的指令，将指令集分成多组/批(Batch)，每一组/批包含多个指令。针对多组/批(Batch)指令，迭代进行如下步骤S32-S35的处理，每次迭代过程中基于一组/批(Batch)指令，使用预训练大模型生成答复信息，进行数据标注，并构建包括指令及指令答复信息的训练数据，并基于所构建的训练数据优化预训练大模型。不断地迭代前述过程，直至所构建的训练数据的总数满足预设需求时，得到包含所构建的训练数据的数据集，也即有监督数据集。其中，数据集包含有监督训练数据，包括指令(Prompt)和指令标注后的答复信息(Response)。

步骤S32、基于指令集所包含的指令，将指令输入预训练大模型，生成指令的答复信息。

本实施例中，预训练大模型可以运行在服务器上，也可以运行在其他设备上。对于预训练大模型运行在服务器上的情况，服务器直接将指令输入预训练大模型，通过预训练大模型生成指令的答复信息。

对于预训练大模型运行在其他设备上的情况，服务器通过预训练大模型对应的应用程序编程接口(Application Programming Interface，简称API)，将指令作为API的输入参数，调用预训练大模型，使得预训练大模型生成指令的答复信息，并将指令的答复信息返回至服务器。

步骤S33、基于指令的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据。

在获取到指令的答复信息之后，通过对指令的答复信息进行数据标注，获得指令的标注后的答复信息，构建包含指令及指令标注后的答复信息的训练数据。

在一可选实施例中，服务器提供用于对指令的答复信息进行标注的第一标注界面。该步骤中基于指令的答复信息进行数据标注，具体可以通过如下方式实现：

服务器通过第一标注界面显示指令和指令的答复信息。在第一标注界面中标注员可以进行指令和/或指令的答复信息的修改、提交等操作，也支持标注员进行放弃/丢弃某一指令及其答复信息的操作。响应于对第一标注界面内所显示的答复信息的修改操作，服务器同步更新被修改的指令的答复信息。

在对某一指令及指令的答复信息修改完成，得到高质量的指令及指令高质量的答复信息后，标注员可以在第一标注界面内提交指令的答复信息。响应于对标注界面内所显示的答复信息的提交操作，服务器将被提交的答复信息作为指令的标注后的答复信息。

在得到指令标注后的答复信息后，基于该指令和指令标注后的答复信息，构建一条包含该指令和指令标注后的答复信息的训练数据。

需要说明的是，第一标注界面内支持同时显示多组“指令，指令的答复信息”，作为待标注数据。标注员可以对其中任意一组或多组数据进行修改后，通过提交界面同时提交所显示的多组数据的标注结果。或者，标注员可以针对其中一组进行提交操作，仅提交对应的一组数据的标注结果。

进一步可选地，在实现根据指令和标注后的答复信息，构建包括指令及指令答复信息的训练数据时，对于指令标注后的答复信息，还可以经过至少一个验收人员的验收，在验收通过的情况下，基于验收通过的指令和标注后的答复信息构建训练数据，可以进一步提升所构建的数据集的质量。

具体地，服务器通过标注验收界面输出指令和指令的标注后的答复信息。验收人员可以通过标注验收界面对指令的标注后的答复信息进行验收，并通过标注验收界面提供的控件进行验收通过的操作。响应于对标注验收界面中指令的标注后的答复信息的验收通过操作，服务器根据验收通的指令的标注后的答复信息，构建包括指令及指令答复信息的训练数据。

需要说明的是，标注验收界面内支持同时显示多组“指令，指令标注后的答复信息”，作为标注结果。验收人员可以对其中任意一组或多组标注结果进行验收，通过提交标注验收界面实现对所显示的多组标注结果的验收通过操作。或者，验收人员可以针对其中一组标注结果进行验收通过操作，仅验收通过对应的一组标注结果。

可选地，对于指令标注后的答复信息，还可以经过至少一个验收人员的验收，对于验收未通过的标注结果，可以退回至标注员，并向标注员反馈验收不通过的理由(如语句不通顺、存在事实性错误等)，由标注员重新进行标注，以提升标注员的标注质量，从而提升所构建的数据集的质量。验收人员可以针对其中一组标注结果进行退回操作，将该组标注结果退回至原标注员处。响应于对标注验收界面中指令的标注后的答复信息的退回操作，服务器对指令的标注后的答复信息重新进行标注，具体标注过程与前次标注过程类似。进一步地，服务器根据指令和重新标注后的答复信息，构建包括指令及指令答复信息的训练数据。

可选地，对指令的标注后的答复信息重新标注时，服务器可以将该指令的标注后的答复信息重新分配给原标注员，并反馈验收退回的理由。服务器在新的标注界面中显示指令、指令的标注后的答复信息、以及验收退回的理由，使得标注员参考验收退回的理由对指令标注后的答复信息再次进行标注。

在一可选实施方式中，对指令的答复信息的标注，可以由标注系统完成。标注系统可以运行在服务器或者其他设备上。在对指令及指令的答复信息进行标注时，服务器基于标注系统对应的标注API，将指令及指令的答复信息作为输入参数，调用标注系统的标注功能，实现对指令的答复信息的数据标注。标注系统向服务器返回指令标注后的答复信息；或者，服务器向标注系统发送标注请求，该请求携带指令及指令的答复信息，并接收标注系统发送的指令标注后的答复信息。

进一步地，对指令的标注后的答复信息重新标注时，服务器基于标注系统对应的重新标注API，将指令、指令标注后的答复信息和验收退回理由作为输入参数，调用标注系统的重新标注功能，实现对指令标注后的答复信息的重新标注。标注系统向服务器返回重新标注后的答复信息；或者，服务器向标注系统发送重新标注请求，该重新请求携带指令、指令标注后的答复信息和验收退回理由，并接收标注系统发送的指令重新标注后的答复信息。另外，指令重新标注后的答复信息仍需经验收人员验收通过后，服务器根据指令和重新标注后的答复信息，构建包括指令及指令答复信息的训练数据。

步骤S34、使用构建的训练数据优化预训练大模型。

在每次迭代中，基于所构建的包括指令及指令答复信息的训练数据，对预训练大模型进行有监督训练，以优化预训练大模型，提升预训练大模型生成答复信息的质量。

有工作表明，无需大量训练数据，仅需要大约1000条高质量有监督训练数据就能让预训练大模型达到较成熟和稳定的大模型(如LLM)的水平。因此，经过若干次迭代之后，预训练大模型即可达到较稳定的效果，可以生成高质量的答复信息。随着迭代次数的增加，不断地提升预训练大模型生成答复信息的质量，从而可以降低对所生成的答复信息的标注成本(包括降低修改难度、缩短标注时间)，提升数据标注的效率。

步骤S35、所构建的训练数据的总数是否满足预设需求。

其中，预设需求用于限制本次所需构建的数据集包含训练数据的数量下限。示例性地，预设需求包含数据集所包含的训练数据的数量的最小阈值。若已构建的训练数据的总数大于或等于该最小阈值，则可以确定所构建的训练数据的总数满足预设需求。若已构建的训练数据的总数小于该最小阈值，则可以确定所构建的训练数据的总数不满足预设需求。

若所构建的训练数据的总数还不满足预设需求，循环执行步骤S32-S35，构建更多的训练数据，直至所构建的训练数据的总数满足预设需求时，执行步骤S36，基于已构建的训练数据构建数据集。该数据集包含已构建的训练数据。

步骤S36、若所构建的训练数据的总数满足预设需求，输出包含所构建的训练数据的数据集。

在所构建的训练数据的总数满足预设需求时，基于所构建的训练数据构建数据集，该数据集包含已构建的训练数据，也称为数据集。进一步地，服务器将数据集发送至端侧设备。

本实施例中，通过根据给定的任务需求信息，构建指令集；基于指令集所包含的指令，迭代进行如下处理：将指令输入预训练大模型，生成指令的答复信息，基于指令的答复信息进行数据标注，构建包括指令及指令答复信息的有监督训练数据，使用有监督训练数据优化预训练大模型，直至所构建的有监督训练数据的总数满足需求时，输出包含所构建的有监督训练数据的数据集，在每次迭代过程中，利用已构建的有监督训练数据，通过数据回流的方式优化预训练大模型，提升预训练大模型生成答复信息的质量，随着迭代次数的增加，预训练大模型的生成质量越来越好，可以不断提升所生成的答复信息的质量，从而降低对所生成答复信息的标注成本(包括标注时修改难度、标注时间成本)，提升标注效率，进而提升构建有监督数据集的效率。

图4为本申请一示例性实施例提供的数据集构建方法的框架图，如图4所示，首先构建指令集，将指令集分为多个指令组(Batch)，每个指令组包含多个指令(Prompt)。基于各指令组，迭代进行有监督训练数据的构建：将指令输入预训练大模型，通过预训练大模型生成指令的答复信息(Response)；对指令的答复信息进行标注，得到标注后的答复信息；对标注后的答复信息进行验收(修改/退回重标)，基于验收通过的标注后的答复信息，构建有监督训练数据，包括指令(Prompt)及指令验收通过的标注后的答复信息(Response’)；基于已构建的有监督训练数据优化预训练大模型，持续提升预训练大模型的生成质量，以降低所生成的答复信息的标注成本，从而提升构建数据集的效率。

在一可选实施例中，前述步骤S32中，可以将指令分别输入预训练大模型和至少一个预设大模型，生成指令的多个不同的答复信息；相应地，前述步骤S33中，基于指令的多个不同的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据。图5为本实施例提供的数据集构建方法流程图。如图5所示，该方法具体步骤如下：

步骤S51、根据给定的任务需求信息，构建指令集。

该步骤与前述步骤S31的具体实现方式一致，具体参见前述实施例中的相关内容，此处不再赘述。

进一步地，基于指令集所包含的指令，将指令集分成多组/批(Batch)，每一组/批包含多个指令。针对多组/批(Batch)指令，迭代进行如下步骤S52-S55的处理，每次迭代过程中基于一组/批(Batch)指令，使用预训练大模型和至少一个预设大模型，生成指令的多个不同的答复信息，基于多个答复信息进行数据标注构建有监督训练数据，并基于所构建的有监督训练数据优化预训练大模型，直至所构建的有监督训练数据的总数满足预设需求时，得到包含所构建的有监督训练数据的数据集，也即有监督数据集。其中，数据集中有监督训练数据包括指令(Prompt)和指令标注后的答复信息(Response)。

步骤S52、基于指令集所包含的指令，将指令分别输入预训练大模型和至少一个预设大模型，生成指令的多个不同的答复信息。

本实施例基于前述图2所示系统架构，服务器可以与提供预设大模型的模型服务进行通信，以使用预设大模型生成输入指令(Prompt)的答复信息。其中，预设大模型可以是较为成熟、效果较稳定的大模型，具体可以是开源/商用的自然语言生成式(NLG)模型、大型语言模型(LLM)等，本申请对此不做具体限定。

该步骤中，将指令分别输入预训练大模型和至少一个预设大模型，使用预训练大模型和至少一个预设大模型分别生成该指令的答复信息，得到同一指令的多个不同的答复信息。

其中，预训练大模型可以运行在服务器上，也可以运行在其他设备上。对于预训练大模型运行在服务器上的情况，服务器直接将指令输入预训练大模型，通过预训练大模型生成指令的答复信息。对于预训练大模型运行在其他设备上的情况，服务器通过预训练大模型对应的应用程序编程接口(第一API)，将指令作为第一API的输入参数，调用预训练大模型，使得预训练大模型生成指令的答复信息，并将指令的答复信息返回至服务器。

预设大模型通常运行在服务器之外的其他设备上。服务器通过预设大模型对应的应用程序编程接口(第二API)，将指令作为第二API的输入参数，调用预设大模型，使得预设大模型生成指令的答复信息，并将指令的答复信息返回至服务器。

步骤S53、基于指令的多个不同的答复信息进行数据标注，构建包括指令及指令答复信息的有监督训练数据。

在一可选实施方式中，对指令的多个不同的答复信息中至少一个高质量的答复信息进行数据标注，根据指令和标注后的答复信息，构建包括指令及指令答复信息的训练数据，对更高质量的答复信息进行标注，可以减少数据标注的修改难度和时间成本，从而提升数据标注的效率。

其中，对指令的多个不同的答复信息中更高质量的答复信息进行数据标注时，将至少一个高质量的答复信息作为待标注的答复信息，通过第一标注界面显示指令和待标注的答复信息；响应于对第一标注界面内所显示的待标注的答复信息的修改操作，更新对应的答复信息；响应于对第一标注界面内的答复信息的提交操作，将被提交的答复信息作为指令的标注后的答复信息。进一步地，根据指令和标注后的优质答复，构建训练数据。

这一实施方式中，通过第一标注界面对多个不同的答复信息中高质量的答复信息进行数据标注的过程，与前述步骤S33中对预训练大模型生成的答复信息进行数据标注的过程类似，具体参见前述步骤S33中的相关内容，此处不再赘述。

可选地，以利用预先训练的测评模型对同一指令的多个答复信息分别进行答复质量的测评，得到各个答复信息的测评值，作为答复信息的质量信息。基于质量信息可以确定其中更高质量的答复信息。答复信息的质量信息表示答复信息的质量，是通过对答复信息的质量进行测评得到的，如打分得到的测评分值。质量信息越大表示答复信息的质量越高，质量信息越小表示答复信息的质量越低。

其中，测评模型是预先训练好的文本质量测评模型，使用的训练数据包括输入样本，输入样本的答复信息，以及经人工标注的答复信息的测评值。其中，经人工标注的答复信息的测评值体现了人类对于该答复信息的偏好程度。测评值越高表示人类越偏好该答复信息，表示该答复信息的质量越高。测评值越低表示人类越不偏好该答复信息，表示该答复信息的质量越低。基于该训练数据训练得到的测评模型，能够较精准地对输入样本的答复信息的答复质量进行测评。

可选地，可以利用奖励模型预测指令的多个不同的答复信息的质量信息，根据指令的多个不同的答复信息的质量信息，选择其中质量信息较大的至少一个答复信息，作为高质量的答复信息。其中，基于奖励模型输出的答复信息的质量信息，质量信息越大表示答复信息的质量越高。

示例性地，根据指令的多个不同的答复信息的质量信息，选择其中质量信息最大一个答复信息，作为高质量的答复信息。或者，根据指令的多个不同的答复信息的质量信息，选择其中质量信息大于或等于质量信息阈值的答复信息，作为高质量的答复信息。其中，质量信息阈值可以根据实际应用场景和经验值进行设置，此处不做具体限定。或者，还可以根据指令的多个不同的答复信息的质量信息，对答复信息进行排序，选择质量信息较高的预设数量的答复信息，作为高质量的答复信息。其中，预设数量可以根据实际应用场景和经验值进行设置，此处不做具体限定。当然，还可以根据配置其他选择策略，根据指令的答复信息的质量信息，从多个不同的答复信息中选择至少一个高质量的答复信息，此处对于选择策略不做具体限定。

其中，奖励模型具体可以采用基于人类反馈的强化学习(RLHF)方法中训练奖励模型(RM)的方式获得。示例性地，奖励模型可以基于经过微调的人机交互模型(如经过微调的语言模型LM)、或者是基于根据带有人类偏好标注数据训练的人机交互模型(如语言模型LM)训练得到。所使用的训练数据可以从预定义公开数据集中采样生成，或者使用人机交互的应用/工具产生的数据样本。在构建训练数据时，可以使用一个人机交互模型或者多个不同微调版本的人机交互模型生成同一输入的多个答复文本。人工对同一输入的多个答复文本进行排序，根据排序结果计算各个答复文本的相对测评值(如埃洛等级分(Elorating))，作为答复文本的奖励值。由此可构建包含输入-答复文本-奖励值的训练数据，并基于该训练数据训练奖励模型。奖励模型能够针对输入的同一输入样本分别输出多个答复信息的奖励值，作为答复信息的质量信息。奖励值(质量信息)越高表示人类越偏好该答复信息，表示该答复信息的质量越高。

可选地，在根据指令的多个不同的答复信息的质量信息，选择其中质量信息较大的至少一个答复信息，作为高质量的答复信息之后，还可以通过答复选择界面显示指令的多个不同的答复信息，并突出显示高质量的答复信息。该答复选择界面用于向标注员展示选择的高质量的答复信息，使得标注员可以对所选择的高质量的答复信息进行审核确认或调整。进一步地，响应于对答复选择界面内高质量的答复信息的调整操作，服务器更新所选择的高质量的答复信息。

其中，调整操作可以是将某一突出显示的高质量的答复信息调整为非高质量的答复信息，调整后的非高质量的答复信息将不再突出显示。或者，调整操作可以是将一个未突出显示的非高质量的答复信息调整为高质量的答复信息，并突出显示调整后的高质量的答复信息。另外，对高质量的答复信息的突出显示方式可以根据实际需要进行配置和调整，例如，添加高质量的标记、高亮显示、不同颜色突出显示等等，本实施例此处不做具体限定。

进一步地，可以根据指令的多个不同的答复信息的质量信息，优化预训练大模型，可以进一步提升预训练大模型的生成质量。示例性地，根据奖励模型输出的指令的多个不同的答复信息的质量信息，以强化学习(Reinforcement Learning，简称RL)的方式训练预训练大模型，具体训练过程与现有技术中基于奖励模型的奖励值以强化学习的方式更新模型的过程类似，此处不再赘述。

进一步地，服务器还可以获取对指令的多个不同的答复信息的质量信息的标注结果；根据对指令的多个不同的答复信息的质量信息的标注结果，优化奖励模型，以提升奖励模型的准确性。

示例性地，服务器可以通过第二标注界面输出指令、指令的多个不同的答复信息、以及指令的多个不同的答复信息的质量信息，第二标注界面用于标注奖励模型预测的答复信息的质量信息是否准确。服务器接收通过第二标注界面提交的对指令的多个不同的答复信息的质量信息的标注结果。

其中，标注奖励模型预测的答复信息的质量信息是否准确时，标注员对奖励模型预测的答复信息的质量信息所体现的多个答复信息的质量高低的相对关系进行标注即可，而无需不关注单一质量信息的具体数值的大小。

例如，以使用预训练大模和一个预设大模型生成指令的两个答复信息为例，对于两个答复信息R1和R2，R1和R2的质量信息分别为score1和score2。在第二标注界面分别输出指令、指令的答复信息R1和R1的质量信息score1、指令的答复信息R2和R2的质量信息score2。标注员根据指令的答复信息R1和R2，主观上判断R1和R2中哪个质量更高，并与score1和score2的大小关系进行匹配，如果主观上判断R1质量更高且score1＞score2，或者，主观上判断R2质量更高且score1＜score2，这两种情况下确定奖励模型的输出结果准确，其他情况下均确定奖励模型的输出结果不准确。

在另一可选实施方式中，还可以通过第一标注界面同时显示指令和指令的多个不同的答复信息，由标注员从所显示的多个答复信息中选择一个或者多个高质量的答复信息进行标注，获得指令标注后的答复信息。

步骤S54、使用有监督训练数据优化预训练大模型。

在每次迭代中，基于所构建的有监督训练数据，对预训练大模型进行有监督训练，以优化预训练大模型，提升预训练大模型生成答复信息的质量。

步骤S55、所构建的有监督训练数据的总数是否满足预设需求。

其中，预设需求用于限制本次所需构建的数据集包含训练数据的数量下限。示例性地，预设需求包含数据集所包含的训练数据的数量的最小阈值。若已构建的有监督训练数据的总数大于或等于该最小阈值，则可以确定所构建的有监督训练数据的总数满足预设需求。若已构建的有监督训练数据的总数小于该最小阈值，则可以确定所构建的有监督训练数据的总数不满足预设需求。

若所构建的有监督训练数据的总数还不满足预设需求，循环执行步骤S52-S55，直至所构建的有监督训练数据的总数满足预设需求时，执行步骤S56，基于已构建的有监督训练数据构建有监督数据集。该有监督数据集包含已构建的有监督训练数据。

步骤S56、若所构建的有监督训练数据的总数满足预设需求，输出包含所构建的有监督训练数据的数据集。

在所构建的有监督训练数据的总数满足预设需求时，基于所构建的有监督训练数据构建数据集，该数据集包含已构建的有监督训练数据，也称为有监督数据集。进一步地，服务器将有监督数据集发送至端侧设备。

本实施例中，通过根据给定的任务需求信息，构建指令集；基于指令集所包含的指令，迭代进行如下处理：将指令分别输入预训练大模型和预设大模型，生成指令的多个不同的答复信息；基于指令的多个不同的答复信息进行数据标注，构建有监督训练数据，使用有监督训练数据优化预训练大模型，直至所构建的有监督训练数据的总数满足需求时，输出包含所构建的有监督训练数据的数据集，在每次迭代过程中，前几次迭代中，预设大模型生成的答复信息质量相对更高，通过对预设大模型和预训练大模型生成的多个不同的答复信息中更高质量的答复信息进行标注，可以降低标注成本，提升标注效率；并且，每次迭代中利用已构建的有监督训练数据，通过数据回流的方式优化预训练大模型，提升预训练大模型生成答复信息的质量，随着迭代次数的增加，预训练大模型的生成质量越来越好，可以不断提升所生成的答复信息的质量，在若干次迭代后预训练大模型的生成质量可以超越预设大模型，从而可以持续向标注员提供高质量的答复信息，降低对答复信息的标注成本(包括标注时修改难度、标注时间成本)，提升标注效率，进而提升构建有监督数据集的效率。本申请的方案同时兼顾了构建有监督数据集的效率和质量，利用数据回流大幅度减少了数据标注成本，利用较低成本能够产生高质量标注数据。

图6为本申请另一示例性实施例提供的数据集构建方法的框架图，图6中以使用一个预设大模型为例进行示例性地说明。如图6所示，首先构建指令集，将指令集分为多个指令组(Batch)，每个指令组包含多个指令(Prompt)。基于各指令组，迭代进行有监督训练数据的构建：将指令分别输入预训练大模型和预设大模型，通过预训练大模型和预设大模型分别生成指令的答复信息(Response)，得到同一指令的两个不同的答复信息Response1和Response2；利用奖励模型RM预测Response1和Response2的质量信息，并选择更高质量的答复信息Response1/Response2；对更高质量的答复信息进行标注得到标注后的答复信息；对标注后的答复信息进行验收(修改/退回重标)，基于验收通过的标注后的答复信息，构建有监督训练数据，包括指令(Prompt)及指令验收通过的标注后的答复信息(Response)；基于已构建的有监督训练数据优化预训练大模型，持续提升预训练大模型的生成质量，以降低所生成的答复信息的标注成本，从而提升构建数据集的效率。另外，如图6所示，通过对奖励模型RM预测结果的标注，可以优化奖励模型，持续提升奖励模型的预测精准度，从而提升向标注员提供的答复信息的质量。

示例性地，图7为本申请一示例性实施例提供的文档问答数据集构建方法流程图。本实施例以文档问答任务场景为例，对数据集构建方法的流程进行示例性地说明，如图7所示，该方法具体步骤如下：

步骤S71、根据文档问答任务的需求信息，构建文档问答的指令集。

本实施例中，文档问答任务的需求信息包含文档问答任务的相关信息，具体包括但不限于文档问答任务类型、功能、所属领域等任务信息，文档问答任务的输入描述信息，指令格式信息。其中，文档问答任务的输入描述信息包括但不限于各项输入的相关描述，例如输入文档的领域信息、输入问句的示例等。指令格式信息对预训练大模型进行微调时，输入预训练大模型的指令(Prompt)的格式信息，具体可以是文档问答任务场景配置的指令(Prompt)格式/模板等。例如，文档问答任务中指令格式可以为“你是一个客服人员，我会给你一篇文档，请帮我回答问题，输入的文档和问题为<文档，问句>，回复为：”，其中<文档，问句>指代一组输入的文档和问句。这一指令指示大模型根据输入的<文档，问句>生成答复信息。

在一种示例使用场景中，文档问答任务的需求信息由用户通过端侧设备设置并向服务器发送，该步骤中，服务器接收端侧设备发送的文档问答任务的需求信息。另一示例使用场景中，档问答任务的需求信息可以由相关技术人员在服务器端进行配置获得。

在获取到档问答任务的需求信息之后，服务器根据档问答任务的需求信息，自动构建档问答任务的指令集。具体地，获取文档问答任务的文档描述、问句示例，和指令格式信息；根据文档描述，使用预设的生成式大模型生成对应的文档，并根据问句示例，使用预设的生成式大模型生成对应的问句；根据所生成的文档、问句和指令格式信息，生成问答指令，并构建指令集。

示例性地，文档问答任务的文档描述可以包括文档(存储有知识)的领域信息和/或内容描述。根据文档问答任务的文档的领域信息和/或内容描述，使用预设的生成式大模型，生成相对应的一个或多个文档。根据文档问答任务的问句的示例，基于给定的文档，使用预设的生成式大模型，生成各个示例的相似问句，得到多组包含<文档，问句>的输入信息。进一步地，根据给定的指令(Prompt)格式信息，生成各组输入信息对应的指令，得到的多个指令构成指令集。其中，用于生成不同输入信息所使用的生成式大模型可以相同或者不同，生成各项输入信息的生成式大模型可以使用较为成熟、效果较好的自然语言生成式(NLG)模型、或者大型语言模型(LLM)实现，具体可以是开源/商用的任一生成式模型，此处不做具体限定。

另外，获取到文档问答任务的需求信息之后，服务器还可以基于文档问答任务的需求信息，搜集获取同类任务下的知识文档、基于文档的问句等输入信息和指令格式信息，从而基于搜集的输入信息和指令格式信息，构建文档问答任务的指令集。例如，从公开数据集中获取同类任务下的输入信息，基于经验获取指令格式信息。

进一步地，基于指令集所包含的问答指令，将指令集分成多组/批(Batch)，每一组/批包含多个问答指令。针对多组/批(Batch)问答指令，迭代进行如下步骤S72-S75的处理，每次迭代过程中基于一组/批(Batch)问答指令，使用预训练大模型生成答复信息，进行数据标注构建适用于文档问答任务的训练数据，并基于所构建的训练数据优化预训练大模型。不断地迭代前述过程，直至所构建的训练数据的总数满足预设需求时，适用于文档问答任务的有监督数据集，该数据集包含所构建的适用于文档问答任务的有监督训练数据。数据集中的有监督训练数据包括指令(Prompt)和指令标注后的答复信息(Response)。

步骤S72、基于指令集所包含的问答指令，将问答指令输入预训练大模型，生成问答指令的答复信息。

该步骤与前述步骤S32的具体实现方式一致，具体参见前述实施例的相关内容，此处不再赘述。

步骤S73、基于问答指令的答复信息进行数据标注，构建包括问答指令及问答指令的答复信息的的训练数据。

该步骤与前述步骤S33的具体实现方式一致，具体参见前述实施例的相关内容，此处不再赘述。

步骤S74、使用构建的训练数据优化预训练大模型。

该步骤与前述步骤S34的具体实现方式一致，具体参见前述实施例的相关内容，此处不再赘述。

步骤S75、所构建的训练数据的总数是否满足预设需求。

该步骤与前述步骤S35的具体实现方式一致，具体参见前述实施例的相关内容，此处不再赘述。

步骤S76、若所构建的训练数据的总数满足预设需求，输出适用于文档问答任务的数据集，数据集包含所构建的包括问答指令及问答指令的答复信息的训练数据。

在所构建的训练数据的总数满足预设需求时，基于所构建的训练数据构建数据集，该数据集包含已构建的适用于文档问答任务的训练数据。进一步地，服务器将数据集发送至端侧设备。

本实施例中，通过根据文档问答的任务需求信息，构建指令集；基于指令集所包含的问答指令，迭代进行如下处理：将问答指令输入预训练大模型，生成问答指令的答复信息，基于问答指令的答复信息进行数据标注，构建包括问答指令及问答指令的答复信息的有监督训练数据，使用有监督训练数据优化预训练大模型，直至所构建的有监督训练数据的总数满足需求时，输出适用于文档问答任务的数据集，数据集包含所构建的有监督训练数据，在每次迭代过程中，利用已构建的有监督训练数据，通过数据回流的方式优化预训练大模型，提升预训练大模型生成答复信息的质量，随着迭代次数的增加，预训练大模型的生成质量越来越好，可以不断提升所生成的答复信息的质量，从而降低对所生成答复信息的标注成本(包括标注时修改难度、标注时间成本)，提升标注效率，进而提升构建文档问答数据集的效率。

图8为本申请一示例性实施例提供的数据集构建方法的交互流程图。在一数据集构建方法实施例中，端侧设备和服务器实现数据集的构建的交互流程如下：

步骤S801、端侧设备向服务器发送数据集请求，数据集请求包含给定的任务需求信息。

步骤S802、服务器接收端侧设备发送的数据集请求，数据集请求包含给定的任务需求信息。

服务器从接收到的数据集请求中获取给定的任务需求信息。其中给定的任务需求信息所包含的信息参见前述实施例中的相关描述，此处不再赘述。

步骤S803、服务器根据给定的任务需求信息，构建指令集。

该步骤具体实现方式与前述步骤S31的实现方式一致，具体参见前述实施例的相关内容，此处不再赘述。

步骤S804、服务器基于指令集所包含的指令，迭代进行如下处理：将指令输入预训练大模型，生成指令的答复信息，基于指令的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，使用构建的训练数据优化预训练大模型；直至所构建的训练数据的总数满足预设需求时，获得包含所构建训练数据的数据集。

该步骤具体实现方式与前述步骤S32-S36的实现方式一致，具体参见前述实施例的相关内容，此处不再赘述。

步骤S805、服务器向端侧设备发送数据集。

步骤S806、端侧设备接收服务器发送的数据集。

步骤S807、端侧设备使用数据集，对预训练大模型进行微调训练，得到适用于执行给定任务的专属大模型。

步骤S808、端侧设备接收用户的输入信息。

步骤S809、端侧设备根据用户的输入信息，生成专属大模型的输入指令，通过专属大模型生成输入指令的答复信息，并输出输入指令的答复信息。

本实施例的具体实现方式和所能实现的技术效果参见前述实施例，此处不再赘述。

图9为本申请实施例提供的一种服务器的结构示意图。如图9所示，该服务器包括：存储器901和处理器902。存储器901，用于存储计算机执行指令，并可被配置为存储其它各种数据以支持在服务器上的操作。处理器902，与存储器901通信连接，用于执行存储器901存储的计算机执行指令，以实现上述任一方法实施例中服务器所提供的技术方案，其具体功能和所能实现的技术效果类似，此处不再赘述。

可选的，如图8所示，该服务器还包括：防火墙903、负载均衡器904、通信组件905、电源组件906等其它组件。图9中仅示意性给出部分组件，并不意味着服务器只包括图9所示组件。

本申请实施例还提供一种端侧设备，该端侧设备包括：存储器和处理器。存储器用于存储计算机执行指令，并可被配置为存储其它各种数据以支持在端侧设备上的操作。处理器与存储器通信连接，用于执行存储器存储的计算机执行指令，以实现上述任一方法实施例中端侧设备所提供的技术方案，其具体功能和所能实现的技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例中服务器所提供的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例中端侧设备所提供的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得服务器执行上述任一方法实施例中服务器所提供的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，端侧设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得端侧设备执行上述任一方法实施例中端侧设备所提供的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例提供一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中服务器的技术方案。可选的，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例中服务器所提供的技术方案。

本申请实施例提供一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中端侧设备的技术方案。可选的，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例中端侧设备所提供的技术方案。

上述存储器可以是对象存储(Object Storage Service，OSS)。上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如移动热点(WiFi)，第二代移动通信系统(2G)、第三代移动通信系统(3G)、第四代移动通信系统(4G)/长期演进(LTE)、第五代移动通信系统(5G)等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘存储器(CD-ROM)、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户属性信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上，除非另有明确具体的限定。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种数据集构建方法，其特征在于，包括：

根据给定的任务需求信息，构建指令集；

基于所述指令集所包含的指令，迭代进行如下处理：

将所述指令输入预训练大模型，生成所述指令的答复信息，基于所述指令的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，使用所述训练数据优化所述预训练大模型；

直至所构建的训练数据的总数满足需求时，输出包含所构建的训练数据的数据集。

2.根据权利要求1所述的方法，其特征在于，所述将所述指令输入预训练大模型，生成所述指令的答复信息，基于所述指令的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，包括：

将所述指令分别输入预训练大模型和至少一个预设大模型，生成所述指令的多个不同的答复信息；

基于所述指令的多个不同的答复信息进行数据标注，构建有监督训练数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述指令的多个不同的答复信息进行数据标注，构建包括指令及指令答复信息的训练数据，包括：

基于所述指令的多个不同的答复信息中至少一个高质量的答复信息进行数据标注；

根据所述指令和标注后的答复信息，构建包括指令及指令答复信息的训练数据。

4.根据权利要求3所述的方法，其特征在于，所述基于所述指令的多个不同的答复信息中至少一个高质量的答复信息进行数据标注之前，还包括：

利用奖励模型预测所述指令的多个不同的答复信息的质量信息；

根据所述指令的多个不同的答复信息的质量信息，选择至少一个答复信息作为高质量的答复信息。

5.根据权利要求4所述的方法，其特征在于，所述利用奖励模型预测所述指令的多个不同的答复信息的质量信息之后，还包括：

根据所述指令的多个不同的答复信息的质量信息，优化所述预训练大模型。

6.根据权利要求3所述的方法，其特征在于，所述根据所述指令的多个不同的答复信息的质量信息，选择至少一个答复信息作为高质量的答复信息之后，还包括：

通过答复选择界面显示所述指令的多个不同的答复信息，并突出显示所述高质量的答复信息；

响应于对所述答复选择界面内所述高质量的答复信息的调整操作，更新所选择的高质量的答复信息。

7.根据权利要求1-6中任一项所述的方法，其特征在于，基于所述指令的答复信息进行数据标注，构建训练数据，包括：

通过标注界面显示所述指令和所述指令的答复信息；

响应于对所述标注界面内所显示的答复信息的修改操作，更新所述指令的答复信息；

响应于对所述标注界面内所显示的答复信息的提交操作，将被提交的答复信息作为所述指令的标注后的答复信息；

根据所述指令和标注后的答复信息，构建训练数据。

8.根据权利要求7所述的方法，其特征在于，所述根据所述指令和标注后的答复信息，构建训练数据，包括：

通过标注验收界面输出所述指令和所述指令的标注后的答复信息；

响应于对所述标注验收界面中所述指令的标注后的答复信息的验收通过操作，根据验收通的所述指令的标注后的答复信息，构建训练数据。

9.根据权利要求8所述的方法，其特征在于，还包括：

响应于对所述标注验收界面中所述指令的标注后的答复信息的退回操作，对所述指令的标注后的答复信息重新进行标注；

根据所述指令和重新标注后的答复信息，构建训练数据。

10.根据权利要求1-6中任一项所述的方法，其特征在于，根据给定的任务需求信息，构建指令集，包括：

获取给定的任务需求信息，所述任务需求信息包括输入描述信息和指令格式信息；

根据所述输入描述信息，使用预设的生成式大模型生成输入信息；

根据所述指令格式信息和所生成的输入信息，生成指令，并构建指令集。

11.一种数据集构建方法，其特征在于，应用于服务器，包括：

接收端侧设备发送的数据集请求，所述数据集请求包含给定的任务需求信息；

根据所述给定的任务需求信息，构建指令集；

基于所述指令集所包含的指令，迭代进行如下处理：

直至所构建的训练数据的总数满足预设需求时，获得包含所构建的训练数据的数据集；

向所述端侧设备发送所述数据集。

12.一种文档问答数据集构建方法，其特征在于，包括：

根据文档问答任务的需求信息，构建文档问答的指令集；

基于所述指令集所包含的问答指令，迭代进行如下处理：

将所述问答指令输入预训练大模型，生成所述问答指令的答复信息，基于所述问答指令的答复信息进行数据标注，构建包括问答指令及问答指令的答复信息的训练数据，使用所述训练数据优化所述预训练大模型；

直至所构建的训练数据的总数满足预设需求时，输出适用于文档问答任务的数据集，所述数据集包含所构建的训练数据。

13.根据权利要求12所述的方法，其特征在于，所述根据文档问答任务的需求信息，构建文档问答的指令集，包括：

获取文档问答任务的文档描述、问句示例，和指令格式信息；

根据所述文档描述，使用预设的生成式大模型生成对应的文档，并根据所述问句示例，使用预设的生成式大模型生成对应的问句；

根据所生成的文档、问句和所述指令格式信息，生成问答指令，并构建指令集。

14.一种服务器，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-13中任一项所述的方法。