CN116663530A

CN116663530A - 数据生成方法、装置、电子设备及存储介质

Info

Publication number: CN116663530A
Application number: CN202310956207.5A
Authority: CN
Inventors: 郭宁; 王浩; 孙奇; 李昕
Original assignee: Beijing Gaodeyunxin Technology Co ltd
Current assignee: Beijing Gaodeyunxin Technology Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-08-29
Anticipated expiration: 2043-08-01
Also published as: CN116663530B

Abstract

本公开实施例公开了一种数据生成方法、装置、电子设备及存储介质，该方法包括：获取任务数据，所述任务数据包括已有数据和缺失数据类型；使用预先训练好的第一大规模语言模型，根据所述任务数据，生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取关键数据；使用预先训练好的第三大规模语言模型，根据所述关键数据和所述数据生成思维链生成所述缺失数据。该技术方案可以快速、高质量和准确地生成数据。

Description

数据生成方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理技术领域，具体涉及一种数据生成方法、装置、电子设备及存储介质。

背景技术

地图服务的相关产业在近几年得到了快速的发展，越来越多的用户依赖地图来寻找和评价周边的餐厅、景点、休闲娱乐等场所。用户在做出决策时，往往需要参考详细的兴趣点（Point Of Interest，POI）信息，如标签信息、用户评论和推荐理由等。然而，现有的地图数据中很多兴趣点的信息并不完整，标签不准确，且更新速度滞后，这些问题对用户体验造成了不小的影响，也不利于地图服务质量的提升。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种数据生成方法、装置、电子设备及存储介质。

第一方面，本公开实施例中提供了一种数据生成方法。

具体地，所述数据生成方法，包括：

获取任务数据，所述任务数据包括已有数据和缺失数据类型；

使用预先训练好的第一大规模语言模型，根据所述任务数据，生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；

使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取关键数据；

使用预先训练好的第三大规模语言模型，根据所述关键数据和所述数据生成思维链生成所述缺失数据。

第二方面，本公开实施例中提供了一种大规模语言模型的训练方法，包括：

获取第一训练数据集，所述第一训练数据集包括第一样本任务数据及其对应的数据生成思维链，所述第一样本任务数据包括第一样本已有数据和第一样本缺失数据类型；

使用所述第一训练数据集对初始的大规模语言模型进行预训练，得到预训练的大规模语言模型；

获取第二样本任务数据，所述第二样本任务数据包括第二样本已有数据和第二样本缺失数据类型；

使用所述预训练的大规模语言模型，根据所述第二样本任务数据生成样本数据生成思维链；

将所述第二样本任务数据和所述样本数据生成思维链输入至预先训练的奖励模型，得到所述奖励模型输出的奖励信号；

使用强化学习算法根据所述奖励信号对所述预训练的大规模语言模型进行微调，得到训练好的第一大规模语言模型。

第三方面，本公开实施例中提供了一种数据生成装置，包括：

获取模块，被配置为获取任务数据，所述任务数据包括已有数据和缺失数据类型；

思维链生成模块，被配置为使用预先训练好的第一大规模语言模型，根据所述任务数据生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；

提取模块，被配置为使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取关键数据；

缺失数据生成模块，被配置为使用预先训练好的第三大规模语言模型，根据所述关键数据和所述数据生成思维链生成所述缺失数据。

第四方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面中任一项所述的方法。

第五方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面中任一项所述的方法。

第六方面，本公开实施例中提供了一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现如第一方面中任一项所述的方法步骤。

根据本公开实施例提供的技术方案，在获取到包括已有数据和缺失数据类型的任务数据后，可以使用预先训练好的第一大规模语言模型，根据所述任务数据来生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；然后，使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取需要的关键数据；使用预先训练好的第三大规模语言模型，按照所述数据生成思维链提供的处理链路，根据所述关键数据生成所述缺失数据。如此，可以根据已有数据自动生成缺失的标签、短评和推荐理由等缺失数据，减少人工标注成本，提高数据的质量和完整性，从而为用户提供更好的互联网服务。而且本实施方式使用数据生成思维链来模拟数据生成技术人员在面对具体生成任务时的推理过程，利用数据生成思维链这一中间结果来指导第二大规模语言模型的数据提取和第三大规模语言模型的数据生成，可以快速、高质量和准确地生成缺失数据；通过数据生成思维链可以将数据提取和数据生成节点的信息进行整合和传递，实现对数据生成过程的高度抽象和模拟，相比于直接基于已有数据生成缺失数据，本实施方式具有更高的效率和更好的适应性，能够应对更加复杂和多样化的数据生成场景。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。以下是对附图的说明。

图1示出根据本公开的实施例的数据生成方法的流程图。

图2示出根据本公开的实施例的大规模语言模型的训练方法的流程图。

图3示出根据本公开的实施例的数据生成装置的结构框图。

图4示出根据本公开的实施例的大规模语言模型的训练装置的结构框图。

图5示出根据本公开的实施例的电子设备的结构框图。

图6示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

如上文所述，地图服务的相关产业在近几年得到了快速的发展，越来越多的用户依赖地图来寻找和评价周边的餐厅、景点、休闲娱乐等场所。用户在做出决策时，往往需要参考详细的兴趣点（Point Of Interest，POI）信息，比如说标签信息、用户评论和推荐理由等。然而，现有的地图数据中很多兴趣点的信息并不完整，标签不准确，且更新速度滞后，这些问题对用户体验造成了不小的影响，也不利于地图服务质量的提升。

本公开提供了一种数据生成方法，该方法可以使用大规模语言模型强大的自然语言处理能力，对已有数据进行抽象总结，自动生成缺失数据，如此，就可以根据已有数据自动生成兴趣点缺失的标签、短评和推荐理由等数据，减少人工标注成本，提高兴趣点数据的质量和完整性，从而为用户提供更好的地图服务。

图1示出根据本公开的实施例的数据生成方法的流程图。如图1所示，所述数据生成方法包括以下步骤S101-S104：

在步骤S101中，获取任务数据，所述任务数据包括已有数据和缺失数据类型；

在步骤S102中，使用预先训练好的第一大规模语言模型，根据所述任务数据，生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；

在步骤S103中，使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中获取关键数据；

在步骤S104中，使用预先训练好的第三大规模语言模型，根据所述关键数据和所述数据生成思维链生成所述缺失数据。

在一种可能的实施方式中，该数据生成方法适用于可执行数据生成的计算机、计算设备、服务器、服务器集群等设备。

在一种可能的实施方式中，该任务数据指的是缺失部分数据，需要进行数据生成任务的数据，该任务数据包括已有数据和缺失数据类型，该缺失数据类型用于指示待生成数据的类型，示例的，兴趣点的兴趣点数据可以如下表所示：

由上表可以看出，完整的美食类兴趣点数据如上表中的兴趣点1对应的兴趣点数据，上表中兴趣点2对应的兴趣点数据中缺失类目、特色菜和推荐理由这三种数据，兴趣点2对应的兴趣点数据有缺失，可以为任务数据，该任务数据中包括已有数据即名称：XXX烤羊腿、图片：地址链接2、简介：烤羊腿、烤羊排……、评分：4.7；以及缺失数据类型：类目、特色菜和推荐理由。

在一种可能的实施方式中，大规模语言模型（Large Language Model，LLM）具有强大的自然语言处理能力，可以理解和生成文本。该第一大规模语言模型、第二大规模语言模型和第三大规模语言模型都是预先训练好的，应用于该数据生成方法的相应步骤中的大规模语言模型。

在一种可能的实施方式中，思维链（Chain Of Thought，COT）可以用来提示大规模语言模型生成一系列短句，这些短句模仿一个人在解决推理任务时可能采用的推理过程。该数据生成思维链就是用于描述基于所述已有数据生成缺失数据的处理链路，该数据生成思维链可以模拟出数据生成技术人员在面对该缺失数据的生成任务时的推理过程，例如，该数据生成思维链可以如下所示：

1.基于商家简介及商家名称确定商家类目；

2.根据类目判断是否有景区门票、特色菜、推荐理由、电影票价等信息；

3.提炼出商家名称及商家简介中的特色菜相关信息；

4.提取图片及用户评论描述，结合用户评价继续补充特色菜；

5.结合类目、团购信息、用户评论等生成特定风格推荐理由。

在一种可能的实施方式中，该第一大规模语言模型的输入为任务数据，输出为数据生成思维链，可以将已有数据以及待生成的缺失数据的类型输入至该第一大规模语言模型中，该第一大规模语言模型可以自动推断已有数据与缺失数据之间的内部关联，并生成一系列短句来表述该数据生成思维链。比如说，该任务数据是上文表中所示的兴趣点2对应的兴趣点数据，此时，生成的数据生成思维链可以是：1.基于简介及名称确定商家类目；2.美食类目基于图片和用户评论判断特色菜；3. 结合类目、用户评论等生成特定风格推荐理由。

在一种可能的实施方式中，该数据生成方法本质上是基于已有数据进行抽象总结，从而填充缺失数据，通过生成的数据生成思维链来生成缺失数据可以确保生成数据的质量以及可解释性；而第二大规模语言模型可以按照该数据生成思维链对已有数据进行抽象总结和提取，生成第三大规模语言模型可以识别的自然语言，以便该第三大规模语言模型据此生成缺失数据。

在一种可能的实施方式中，该第二大规模语言模型的输入为该第一大规模语言模型生成的数据生成思维链和已有数据，该第二大规模语言模型的输出为关键数据，可以将生成的数据生成思维链和已有数据输入至该第二大规模语言模型中，该第二大规模语言模型可以根据该数据生成思维链从该已有数据中汇总出生成该缺失数据所需要的已有数据，并从这些汇总的已有数据中提取出关键数据，该关键数据是用于生成缺失数据的关键的文本数据。仍以上述兴趣点2对应的兴趣点数据为任务数据为例进行说明，该第二大规模语言模型可以基于数据生成思维链从已有数据中获取简介、名称、图片和用户评论，并从简介、名称、图片和用户评论中提取关键数据。

在一种可能的实施方式中，在获取到数据生成需要的数据生成思维链以及需要参照的关键数据后，可以基于数据生成Prompt（提示语）打造的第三大规模语言模型，进行缺失数据的生成，Prompt可以作为一种模板或者范式，能够帮助第三大规模语言模型“回忆”起预训练阶段学到的知识。该第三大规模语言模型的输入为该第一大规模语言模型生成的数据生成思维链和该第二大规模语言模型生成的关键数据，该第三大规模语言模型的输出的缺失数据。可以将生成的数据生成思维链和关键数据输入至该第三大规模语言模型中，该第三大规模语言模型可以按照该数据生成思维链描述的生成方案根据对应的关键数据生成缺失数据。仍以上述兴趣点2对应的兴趣点数据为任务数据为例进行说明，该第三大规模语言模型可以按照数据生成思维链描述的生成方案来生成缺失数据，根据简介和名称对应的关键数据生成该兴趣点2的类目为美食，美食类目基于图片和用户评论对应的关键数据判断特色菜为烤羊腿，根据类目和用户评论等生成美食风格推荐理由为烤羊腿麻辣鲜香，经济实惠。

这里需要说明的是，该第一大规模语言模型、第二大规模语言模型和第三大规模语言模型可以是相同的模型，只是每个模型的Prompt不同，该第一大规模语言模型的Prompt是思维链生成提示语，用于指导该第一大规模语言模型执行数据思维链生成任务，该第二大规模语言模型的Prompt是数据提取提示语，用于指导该第二大规模语言模型执行数据提取任务，该第三大规模语言模型的Prompt是数据生成提示语，用于指导该第二大规模语言模型执行数据生成任务。该第一大规模语言模型、第二大规模语言模型和第三大规模语言模型也可以是根据任务需求将同一个初始的大规模语言模型微调后得到的不相同的模型，这里的不相同可以是部分不相同，也可以是全部不相同。

本实施方式在获取到包括已有数据和缺失数据类型的任务数据后，可以使用预先训练好的第一大规模语言模型，根据所述任务数据来生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；然后，使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取需要的关键数据；使用预先训练好的第三大规模语言模型，按照所述数据生成思维链提供的处理链路，根据所述关键数据生成所述缺失数据。如此，可以根据已有数据自动生成缺失的标签、短评和推荐理由等缺失数据，减少人工标注成本，提高数据的质量和完整性，从而为用户提供更好的互联网服务。而且本实施方式使用数据生成思维链来模拟数据生成技术人员在面对具体生成任务时的推理过程，利用数据生成思维链这一中间结果来指导第二大规模语言模型的数据提取和第三大规模语言模型的数据生成，可以快速、高效和准确地生成缺失数据；通过数据生成思维链可以将数据提取和数据生成节点的信息进行整合和传递，实现对数据生成过程的高度抽象和模拟，相比于直接基于已有数据生成缺失数据，本实施方式具有更高的效率和更好的适应性，能够应对更加复杂和多样化的数据生成场景。

在一种可能的实施方式中，所述方法还包括以下步骤：

在该实施方式中，如上所示，数据生成思维链包含着数据间的依赖关系以及生成逻辑。通过输入多个输入与输出的例子组成prompt，现有的训练好的大规模语言模型可以很好的模拟从而生成对应的思维链路，但是该大规模语言模型可能还是会依赖于给出的prompt，导致一些数据生成任务上思维较弱，而prompt越复杂，也会导致成本增大，效率变低。故，为了解决该问题，本实施方式可以使用RLHF（Reinforcement Learning with HumanFeedback，基于人类反馈的强化学习）对现有的初始的大规模语言模型进行微调。

在该实施方式中，该第一大规模语言模型的训练过程主要包括以下三个步骤：

第一个步骤：预训练得到一个预训练的大规模语言模型。可以收集数据生成过程中的一些困难案例作为第一样本任务数据，所述第一样本任务数据包括第一样本已有数据和第一样本缺失数据类型，由数据生成资深技术人员编写了遇见这些困难案例时的解决方案链路作为第一样本任务数据对应的数据生成思维链，如此就可以获取由该第一样本任务数据及其对应的数据生成思维链构成的第一训练数据集，可以使用该第一训练数据集来对初始的大规模语言模型进行监督训练，得到预训练的大规模语言模型。比如说，可以将该第一样本任务数据输入至该初始的大规模语言模型中，得到该大规模语言模型输出的数据生成思维链，将输出的数据生成思维链与该第一训练数据集中的记载的数据生成思维链作比对，如果准确率未达到预定阈值，则更新该大规模语言模型中的模型参数，直至其输出的数据生成思维链的准确率达到预定阈值，则得到预训练的大规模语言模型。

第二个步骤：预先训练一个奖励模型。该奖励模型用于模拟资深技术人员给该预训练的大规模语言模型生成的数据生成思维链打分，可以由资深技术人员判断由第三样本任务数据生成的数据生成思维链的准确性，并进行打分，如此得到第二训练数据集（包括由第三样本任务数据生成的数据生成思维链及其打分结果），可以使用该第二训练数据集训练得到该奖励模型，该奖励模型可以是大规模语言模型，也可以是小模型如CNN（TextConvolutional Neural Networks，文本卷积神经网络）、BERT（Bidirectional EncoderRepresentation from Transformers，双向转换解码）类模型等。

第三个步骤：用强化学习的方式微调预训练的大规模语言模型。可以将该第二样本任务数据输入至该预训练的大规模语言模型，得到该预训练的大规模语言模型输出的样本数据生成思维链。然后将该第二样本任务数据和所述样本数据生成思维链输入至预先训练的奖励模型，该奖励模型可以模拟资深技术人员对该预训练的大规模语言模型生成的样本数据生成思维链进行打分，得到奖励模型输出的奖励信号。接着就可以使用强化学习算法根据所述奖励信号对所述预训练的大规模语言模型进行微调，得到训练好的第一大规模语言模型。

本实施方式中微调得到的第一大规模语言模型学习到了数据生成任务下的领域知识，提高第一大规模语言模型输出的数据生成思维链的准确性，而且强化了第一大规模语言模型的思维能力，使用简单的prompt即可生成对应的数据生成思维链，解决了prompt输入过长导致的成本与效率问题。

在一种可能的实施方式中，所述方法还包括：

获取第三样本任务数据，所述第三样本任务数据包括第三样本已有数据和第三样本缺失数据类型；

使用所述预训练的大规模语言模型，根据所述第三样本任务数据生成样本数据生成思维链；

获取所述第三样本任务数据对应的样本数据生成思维链的样本奖励信号；

根据所述第三样本任务数据对应的样本数据生成思维链，及其样本奖励信号，对初始的奖励模型进行训练，得到训练好的奖励模型。

在该实施方式中，使用所述预训练的大规模语言模型，根据所述第三样本任务数据生成样本数据生成思维链，并获取资深技术人员对该预训练的大规模语言模型生成的样本数据生成思维链进行打分得到样本奖励信号，这样就可以使用该第三样本任务数据对应的样本数据生成思维链，以及其对应的样本奖励信号作为训练数据来训练该奖励模型。比如说，可以将第三样本任务数据及其对应的样本数据生成思维链输入至初始的奖励模型中，得到奖励模型输出的奖励信号，比对输出的奖励信号与样本奖励信号，如果输出的奖励信号与样本奖励信号相比，准确度未达到预设阈值，则调整奖励模型的参数，直至奖励模型输出的奖励信号与样本奖励信号相比，准确度达到预设阈值为止，得到训练好的奖励模型。

本实施方式可以使用对预训练的大规模语言模型生成的样本数据生成思维链进行人工打分得到的样本奖励信号作为标签，训练奖励模型，如此训练得到的奖励模型可以对预训练的大规模语言模型生成的数据生成思维链进行更准确的评估。

在一种可能的实施方式中，所述使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取关键数据，包括：

使用预先训练好的第二大规模语言模型，根据所述数据生成思维链和所述已有数据，确定调用的工具，调用的工具包括以下至少一种：图片转文本工具、视频转文本工具、音频转文本工具和文本数据提取工具；

使用调用的工具从所述已有数据中提取关键数据。

在该实施方式中，已有数据中除了文本数据外，还有丰富的图片、语音、视频等多模态的数据，因此在进行数据提取时需要调用相应工具从这些多模态的已有数据中提取关键数据，这里调用的工具包括图片转文本工具、视频转文本工具、音频转文本工具和文本数据提取工具中的至少一种，其中，图片转文本工具用于将图片数据转换成描述图片的文本数据，视频转文本工具用于将视频转换成描述视频的文本数据，音频转文本工具用于将音频数据转换成描述音频的文本数据，文本数据提取工具用于从文本数据中提取中关键数据。

在该实施方式中，该第二大规模语言模型可以是现有的训练好的大规模语言模型，只要能够理解文本即可，该第二大规模语言模型可以解析该第一大规模语言模型生成的数据生成思维链，推断出生成缺失数据需要用到的已有数据，进而根据这些已有数据的数据模式推断从这些已有数据中提取关键数据用到的工具，然后就可以调用推断出的工具从相应的已有数据中提取关键数据。

示例的，仍以上述兴趣点2对应的兴趣点数据为任务数据为例进行说明，该第二大规模语言模型可以基于数据生成思维链推断出需要从简介、名称、图片和用户评论中提取关键数据。其中，简介、名称和用户评论对应的关键数据可以使用文本数据提取工具从对应的文本数据中进行提取，图片对应的关键数据可以使用图片转文本工具从图片中进行提取。这里需要说明的是，用户评论对应的文本数据可以通过评论地址链接获取。

在一种可能的实施方式中，所述方法还可以包括以下步骤：

获取针对所述缺失数据的用户反馈信号，所述用户反馈信号用于指示生成的缺失数据是否准确；

使用所述关键数据、所述缺失数据和所述用户反馈信号，对所述第三大规模语言模型进行迭代训练，得到更新的第三大规模语言模型。

在该实施方式中，可以将第三大规模语言模型与用户反馈系统相结合，打造实时反馈链路。在将生成的缺失数据填充上之后推送到线上，用户在查看这些填充上的缺失数据后，如果用户针对该缺失数据输入了用户反馈信号，则可以将用户反馈信号指示生成的缺失数据准确时，将该关键数据和缺失数据作为正样本，将用户反馈信号指示生成的缺失数据不准确时，将该关键数据和缺失数据作为负样本，使用该正样本和负样本对该第三大规模语言模型进行迭代训练，从而实现第三大规模语言模型的在线学习，有助于确保第三大规模语言模型生成数据的准确性和高质量，从而提高用户体验和决策效率。

在一种可能的实施方式中，上述数据生成方法中的步骤S101，即所述获取任务数据，可以实现为以下步骤：

响应于检测到兴趣点的兴趣点数据存在缺失，获取任务数据，所述任务数据包括已有的兴趣点数据和缺失的兴趣点数据类型；

响应于接收到兴趣点的部分兴趣点数据不准确的用户反馈信号，生成任务数据，所述任务数据包括所述兴趣点的不准确的所述部分兴趣点数据的数据类型和所述兴趣点的除所述部分兴趣点数据之外的兴趣点数据。

在该实施方式中，可以实时监测兴趣点的兴趣点数据是否缺失，如果缺失，则可以将该兴趣点对应的已有的兴趣点数据作为已有数据，将缺失的兴趣点数据类型作为缺失数据类型，如此获取到任务数据。示例的，如上文表中所示，兴趣点1对应的兴趣点数据中各类型的数据都是存在的，没有缺失，兴趣点2对应的兴趣点数据中类目、特色菜和推荐理由这三种数据是缺失的，故可以将已有的兴趣点数据即名称：XXX烤羊腿、图片：地址链接2、简介：烤羊腿、烤羊排……、评分：4.7，作为已有数据，将缺失的兴趣点数据类型即类目、特色菜和推荐理由作为缺失数据类型。

在该实施方式中，除了存在缺失的兴趣点数据外，如果兴趣点的兴趣点数据完整，但是用户反馈该兴趣点的部分兴趣点数据不准确时，可以将该兴趣点的不准确的部分兴趣点数据mask（掩盖）掉，将该不准确的部分兴趣点数据的数据类型作为缺失数据类型，将该兴趣点的除所述部分兴趣点数据之外剩余的另一部分兴趣点数据也即准确的兴趣点数据作为已有数据，如此生成任务数据。

图2示出根据本公开的实施例的大规模语言模型的训练方法的流程图。如图2所示，所述大规模语言模型的训练方法包括以下步骤S201-S206：

在步骤S201中，获取第一训练数据集，所述第一训练数据集包括第一样本任务数据及其对应的数据生成思维链，所述第一样本任务数据包括第一样本已有数据和第一样本缺失数据类型；

在步骤S202中，使用所述第一训练数据集对初始的大规模语言模型进行预训练，得到预训练的大规模语言模型；

在步骤S203中，获取第二样本任务数据，所述第二样本任务数据包括第二样本已有数据和第二样本缺失数据类型；

在步骤S204中，使用所述预训练的大规模语言模型，根据所述第二样本任务数据生成样本数据生成思维链；

在步骤S205中，将所述第二样本任务数据和所述样本数据生成思维链输入至预先训练的奖励模型，得到所述奖励模型输出的奖励信号；

在步骤S206中，使用强化学习算法根据所述奖励信号对所述预训练的大规模语言模型进行微调，得到训练好的第一大规模语言模型。

在一种可能的实施方式中，可以收集数据生成过程中的一些困难案例作为第一样本任务数据，所述第一样本任务数据包括第一样本已有数据和第一样本缺失数据类型，由数据生成资深技术人员编写了遇见这些困难案例时的解决方案链路作为第一样本任务数据对应的数据生成思维链，如此就可以获取由该第一样本任务数据及其对应的数据生成思维链构成的第一训练数据集。

在一种可能的实施方式中，可以使用该第一训练数据集来对初始的大规模语言模型进行监督训练，得到预训练的大规模语言模型。比如说，可以将该第一样本任务数据输入至该初始的大规模语言模型中，得到该大规模语言模型输出的数据生成思维链，将输出的数据生成思维链与该第一训练数据集中的记载的数据生成思维链作比对，如果准确率未达到预定阈值，则调整该大规模语言模型中的模型参数，直至其输出的数据生成思维链的准确率达到预定阈值，则得到预训练的大规模语言模型。

在一种可能的实施方式中，该奖励模型用于模拟资深技术人员给该预训练的大规模语言模型生成的数据生成思维链打分，可以由资深技术人员判断由第三样本任务数据生成的数据生成思维链的准确性，并进行打分，如此得到第二训练数据集（包括由第三样本任务数据生成的数据生成思维链及其打分结果），可以使用该第二训练数据集训练得到该奖励模型。

在一种可能的实施方式中，该奖励模型的训练过程可以包括：获取第三样本任务数据，所述第三样本任务数据包括第三样本已有数据和第三样本缺失数据类型；使用所述预训练的大规模语言模型，根据所述第三样本任务数据生成样本数据生成思维链；获取所述第三样本任务数据对应的样本数据生成思维链的样本奖励信号；根据所述第三样本任务数据对应的样本数据生成思维链，及其样本奖励信号，对初始的奖励模型进行训练，得到训练好的奖励模型。

在一种可能的实施方式中，可以将该第二样本任务数据输入至该预训练的大规模语言模型，得到该预训练的大规模语言模型输出的样本数据生成思维链。然后将该第二样本任务数据和所述样本数据生成思维链输入至预先训练的奖励模型，该奖励模型可以模拟资深技术人员对该预训练的大规模语言模型生成的样本数据生成思维链进行打分，得到奖励模型输出的奖励信号。接着就可以使用强化学习算法根据所述奖励信号对所述预训练的大规模语言模型进行微调，得到训练好的第一大规模语言模型。

图3示出根据本公开的实施例的数据生成装置的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示，所述数据生成装置包括：

获取模块301，被配置为获取任务数据，所述任务数据包括已有数据和缺失数据类型；

思维链生成模块302，被配置为使用预先训练好的第一大规模语言模型，根据所述任务数据，生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；

提取模块303，被配置为使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取关键数据；

缺失数据生成模块304，被配置为使用预先训练好的第三大规模语言模型，根据所述关键数据和所述数据生成思维链生成所述缺失数据。

在一种可能的实施方式中，所述装置还包括：

预训练模块，被配置为获取第一训练数据集，所述第一训练数据集包括第一样本任务数据及其对应的数据生成思维链，所述第一样本任务数据包括第一样本已有数据和第一样本缺失数据类型；使用所述第一训练数据集对初始的大规模语言模型进行预训练，得到预训练的大规模语言模型；

强化学习模块，被配置为获取第二样本任务数据，所述第二样本任务数据包括第二样本已有数据和第二样本缺失数据类型；使用所述预训练的大规模语言模型，根据所述第二样本任务数据生成样本数据生成思维链；将所述第二样本任务数据和所述样本数据生成思维链输入至预先训练的奖励模型，得到所述奖励模型输出的奖励信号；使用强化学习算法根据所述奖励信号对所述预训练的大规模语言模型进行微调，得到训练好的第一大规模语言模型。

在一种可能的实施方式中，所述装置还包括：

奖励模型训练模块，被配置为获取第三样本任务数据，所述第三样本任务数据包括第三样本已有数据和第三样本缺失数据类型；使用所述预训练的大规模语言模型，根据所述第三样本任务数据生成样本数据生成思维链；获取所述第三样本任务数据对应的样本数据生成思维链的样本奖励信号；根据所述第三样本任务数据对应的样本数据生成思维链，及其样本奖励信号，对初始的奖励模型进行训练，得到训练好的奖励模型。

在一种可能的实施方式中，所述提取模块被配置为：

使用预先训练好的第二大规模语言模型，根据所述数据生成思维链和所述已有数据，确定调用的工具，调用的工具包括以下至少一种：图片转文本工具、视频转文本工具、音频转文本工具和文本数据提取工具；使用调用的工具从所述已有数据中提取关键数据。

在一种可能的实施方式中，所述装置还包括：

反馈模块，被配置为获取针对所述缺失数据的用户反馈信号，所述用户反馈信号用于指示生成的缺失数据是否准确；

迭代训练模块，被配置为使用所述关键数据、所述缺失数据和所述用户反馈信号，对所述第三大规模语言模型进行迭代训练，得到更新的第三大规模语言模型。

在一种可能的实施方式中，所述获取模块被配置为：

响应于接收到兴趣点的部分兴趣点数据不准确的用户反馈信号，获取任务数据，所述任务数据包括所述兴趣点的不准确的所述部分兴趣点数据的数据类型和所述兴趣点的除所述部分兴趣点数据之外的兴趣点数据。

图4示出根据本公开的实施例的大规模语言模型的训练装置的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4所示，所述大规模语言模型的训练装置包括：

模型预训练模块401，被配置为获取第一训练数据集，使用所述第一训练数据集对初始的大规模语言模型进行预训练，得到预训练的大规模语言模型；所述第一训练数据集包括第一样本任务数据及其对应的数据生成思维链，所述第一样本任务数据包括第一样本已有数据和第一样本缺失数据类型；

模型微调模块402，被配置为获取第二样本任务数据，所述第二样本任务数据包括第二样本已有数据和第二样本缺失数据类型；使用所述预训练的大规模语言模型，根据所述第二样本任务数据生成样本数据生成思维链；将所述第二样本任务数据和所述样本数据生成思维链输入至预先训练的奖励模型，得到所述奖励模型输出的奖励信号；使用强化学习算法根据所述奖励信号对所述预训练的大规模语言模型进行微调，得到训练好的第一大规模语言模型。

本装置实施方式中提及的技术术语和技术特征相同或相似，对于本装置中涉及的技术术语和技术特征的解释和说明可参考上述方法实施方式的解释的说明，此处不再赘述。

本公开还公开了一种电子设备，图5示出根据本公开的实施例的电子设备的结构框图。

如图5所示，所述电子设备500包括存储器501和处理器502，其中，存储器501用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器502执行以实现根据本公开的实施例的方法。

如图6所示，计算机系统600包括处理单元601，其可以根据存储在只读存储器（ROM）602中的程序或者从存储部分608加载到随机访问存储器（RAM）603中的程序而执行上述实施例中的各种处理。在RAM 603中，还存储有计算机系统600操作所需的各种程序和数据。处理单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。其中，所述处理单元601可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括计算机指令，该计算机指令被处理器执行时实现上文所述的方法步骤。在这样的实施例中，该计算机程序产品可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据生成方法，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

3.根据权利要求2所述的方法，其中，所述方法还包括：

4.根据权利要求1所述的方法，其中，所述使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取关键数据，包括：

使用预先训练好的第二大规模语言模型，根据所述数据生成思维链和所述已有数据，确定调用的工具，所述调用的工具包括以下至少一种：图片转文本工具、视频转文本工具、音频转文本工具和文本数据提取工具；

使用所述调用的工具从所述已有数据中提取关键数据。

5.根据权利要求1所述的方法，其中，所述方法还包括：

6.根据权利要求1所述的方法，其中，所述获取任务数据，包括：

7.一种大规模语言模型的训练方法，包括：

8.一种数据生成装置，包括：

思维链生成模块，被配置为使用预先训练好的第一大规模语言模型，根据所述任务数据，生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；

9.一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理器执行以实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其中，该计算机指令被处理器执行时实现权利要求1-7任一项所述的方法。