CN116257613B

CN116257613B - 数据生产方法、装置、电子设备及存储介质

Info

Publication number: CN116257613B
Application number: CN202310118416.2A
Authority: CN
Inventors: 毛建国; 郝洋; 姜文斌; 崔骁鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2024-02-06
Anticipated expiration: 2043-02-10
Also published as: CN116257613A

Abstract

本公开涉及人工智能技术领域，尤其涉及自然语言处理、深度学习、知识问答等技术领域，具体涉及一种数据生产方法、装置、电子设备及存储介质。具体实现方案为：获取标注提示信息；获取多个待标注问答数据；使通过预训练的语言模型根据所述标注提示信息，分别对所述多个待标注问答数据进行标注，获得多个问答回复数据。采用本公开可以减少人力资源占用，同时，提高数据标注质量。

Description

数据生产方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理、深度学习、知识问答等技术领域，具体涉及一种数据生产方法、装置、电子设备及存储介质。

背景技术

问答任务是检验问答模型认知能力的经典代理任务，其要求问答模型可以自动回答问题。问答模型的训练需要应用到海量的标注数据，也即，需要对海量的待标注问答数据进行标注，获得标注数据——对应的问答回复数据。然而，目前的数据标注任务主要由人工完成，这一方面会耗费大量人力资源，另一方面，由于数据标注任务的难度差异、标注人员水平差异等原因，难以保证标注质量。

发明内容

本公开提供了一种数据生产方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种数据生产方法，包括：

获取标注提示信息；

获取多个待标注问答数据；

使通过预训练的语言模型根据标注提示信息，分别对多个待标注问答数据进行标注，获得多个问答回复数据。

根据本公开的第二方面，提供了一种数据生产装置，包括：

信息获取单元，用于获取标注提示信息；

数据获取单元，用于获取多个待标注问答数据；

标注单元，用于使通过预训练的语言模型根据标注提示信息，分别对多个待标注问答数据进行标注，获得多个问答回复数据。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；

与至少一个处理器通信连接的存储器；

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面所提供的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行第一方面所提供的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现第一方面所提供的方法。

采用本公开可以减少人力资源占用，同时，提高数据标注质量。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种数据生产方法的流程示意图；

图2为本公开实施例提供的一种数据生成方法的辅助性说明图；

图3为本公开实施例提供的一种数据生产方法的完整流程示意图；

图4为本公开实施例提供的一种数据生产方法的应用场景示意图；

图5为本公开实施例提供的一种数据生产装置的示意性结构框图；

图6为本公开实施例提供的一种电子设备的示意性结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供了一种数据生产方法，该数据生产方法可以应用于电子设备。以下，将结合图1所示流程示意图，对本公开实施例提供的一种数据生产方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其他顺序执行所示出或描述的步骤。

步骤S101，获取标注提示信息；

步骤S102，获取多个待标注问答数据；

步骤S103，使通过预训练的语言模型根据标注提示信息，分别对多个待标注问答数据进行标注，获得多个问答回复数据。

其中，标注提示信息可以包括最优提示句和目标样本组、且目标样本组中仅包括少量学习样本(例如，少于10个学习样本)，以便在获取到多个待标注问答数据之后，通过基于少样本学习(Few-Shot Learning)可实现的Prompt技术，引导语言模型根据标注提示信息中包括的最优提示句和目标样本组，分别对多个待标注问答数据进行标注，获得多个问答回复数据。其中，最优提示句用于提供标注思路，目标样本组中的每条学习样本包括问答数据样本和推理性回复样本，学习样本可以用于提供标注参考。

此外，可以理解的是，本公开实施例中，语言模型是经过预训练的，具备通用的语言知识、世界知识、各领域专业知识等，并以参数形式存储在模型内部。在一具体示例中，语言模型可以是Transformer架构的自回归生成模型。

采用本公开实施例提供的数据生产方法可以获取标注提示信息；获取多个待标注问答数据；使通过预训练的语言模型根据标注提示信息，分别对多个待标注问答数据进行标注，获得多个问答回复数据。本公开实施例中，由于语言模型是经过预训练的，具备通用的语言知识、世界知识、各领域专业知识等，因此，在获取到标注提示信息和多个待标注问答数据之后，可以使语言模型基于Prompt技术自动地模仿人类标注过程，根据标注提示信息提供的标注思路和标注参考，分别对多个待标注问答数据进行标注，获得多个问答回复数据。相对于现有技术中数据标注任务主要由人工完成的方案而言，不仅可以减少人力资源占用，还可以保证数据标注过程的一致性和可靠性，从而提高数据标注质量。

在一些可选的实施方式中，“获取标注提示信息”可以包括以下步骤：

从M个候选提示句中选取最优提示句，其中，M≥2、且为整数；

基于N个候选学习样本，获得具有预期引导效果的目标样本组，其中，N≥2、且为整数；

获得由最优提示句和目标样本组组成的标注提示信息。

其中，最优提示句可以是M个候选提示句中用于提供最优标注思路的候选提示句。在一具体示例中，可以依次对每个候选提示句进行提示效果评估，获得提示评估结果，再根据获取到的M个提示评估结果，从M个候选提示句中选取最优提示句。

此外，本公开实施例中，目标样本组中仅包括少量学习样本，例如，仅包括1个到10个学习样本。在一具体示例中，可以对每个候选学习样本进行引导效果评估，获得引导评估结果，再根据获取到的N个引导评估结果，从N个候选学习样本中选取最优学习样本、且在最优学习样本具有预期引导效果的情况下，获得由最优学习样本组成的目标样本组。其中，“对每个候选学习样本进行引导效果评估，获得引导评估结果”，可以包括：

分别从N个候选学习样本与最优提示句进行组合，获得N个第三提示信息；

使语言模型根据每个第三提示信息，分别对多个第三问答数据进行标注，获得多个第三回复数据，以及多个第三回复数据的第三准确率，并将第三准确率作为对应的引导评估结果。

在获取到N个引导评估结果之后，从获取到的N个引导评估结果中确定最高评估结果，再从N个第三提示信息中确定与最高评估结果对应的目标引导提示信息，并将目标引导提示信息中的候选学习样本作为最优学习样本。基于此，本公开实施例中，可以在最高评估结果大于或等于第一准确率阈值的情况下，确定最优学习样本具有预期引导效果。其中，第一准确率阈值可以是85％、90％、95％等数值，具体可以根据实际应用需求设定，本公开实施例对此不作具体限制。

通过“获取标注提示信息”包括的以上步骤，本公开实施例中，可以从M个候选提示句中选取最优提示句，同时，基于N个候选学习样本，获得具有预期引导效果的目标样本组，再获得由最优提示句和目标样本组组成的标注提示信息。因此，可以确保标注提示信息中最优提示句所提供的标注思路和目标样本组所提供的标注参考都具有可靠地提示效果，以进一步提高数据标注质量。

在一些可选的实施方式中，“从M个候选提示句中选取最优提示句”可以包括以下步骤：

分别将M个候选提示句与固定学习样本进行组合，获得M个第一提示信息；

使语言模型根据每个第一提示信息，分别对多个第一问答数据进行标注，获得多个第一回复数据，以及多个第一回复数据的第一准确率；

从获取到的M个第一准确率中确定最高准确率；

从M个第一提示信息中确定与最高准确率对应的目标提示信息；

将目标提示信息中的候选提示句作为最优提示句。

其中，M个候选提示句中的任两个候选提示句可以是用词、语序、句子结构等至少一种表达方式不同，但整体语义相同的两个提示句子，例如，需要同时包括推理过程指示和支撑材料位置。示例性的，存在两个用词不同的候选提示句，其中，一个候选提示句可以是“让我们一步一步思考，首先根据医疗证据可知，”，该候选提示句中“一步一步思考”为推理过程指示，“医疗证据”为支撑材料位置，另一个候选提示句可以是“让我们逐步思考，首先根据医疗证据可知，”，该候选提示句中“逐步思考”为推理过程指示，“医疗证据”为支撑材料位置。

以下，将以M＝2、且2个候选提示句分别为候选提示句A11和候选提示句A12为例，对“从M个候选提示句中选取最优提示句”包括的以上步骤进行说明。

首先，将候选提示句A11与固定学习样本进行组合，获得第一提示信息B11；将候选提示句A12与固定学习样本进行组合，获得第一提示信息B12。

此后，使语言模型根据第一提示信息B11，分别对多个第一问答数据进行标注，获得多个第一回复数据C11，以及多个第一回复数据C11的第一准确率D11；使语言模型根据第一提示信息B12，分别对多个第一问答数据进行标注，获得多个第一回复数据C12，以及多个第一回复数据C12的第一准确率D12。

最后，假设，获取到的2个第一准确率(第一准确率D11和第一准确率D12)中第一准确率D11大于第一准确率D12，则最高准确率为第一准确率D11，目标提示信息为第一提示信息B11，因此，可以将第一提示信息B11中的候选提示句A11作为最优提示句。

通过“从M个候选提示句中选取最优提示句”包括的以上步骤，本公开实施例中，可以基于语言模型，通过实际测试从M个候选提示句中选取最优提示句，这能够确保最优提示句是M个候选提示句中用于提供最优标注思路的候选提示句，从而进一步确保最优提示句所提供的标注思路具有可靠地提示效果，以更进一步地提高数据标注质量。

在一些可选的实施方式中，“基于N个候选学习样本，获得具有预期引导效果的目标样本组”可以包括以下步骤：

分别将N个候选学习样本与最优提示句进行组合，获得N个第二提示信息；

使语言模型根据每个第二提示信息，分别对多个第二问答数据进行标注，获得多个第二回复数据，以及多个第二回复数据的第二准确率；

根据获取到的N个第二准确率，对N个候选学习样本进行引导效果排序，获得排序结果；

根据排序结果，基于N个候选学习样本，获得目标样本组。

其中，N个候选学习样本中的任两个候选学习样本可以是涉及领域、组成结构、表达方式相同，但具体内容不同的两个学习样本。示例性的，存在两个涉及领域为医疗领域，组成结构包括医疗问题、医疗证据、候选项和推理性回复样本，同时，表达方式也相同，但具体内容不同的两个候选学习样本，其中，一个候选学习样本可以是：

医疗问题：

最大吸收峰在280nm波长附近的氨基酸残基是()。

医疗证据：

含共轭双键的氨基酸具有紫外吸收性质。根据氨基酸的吸收光谱，含有共轭双键的色氨酸、酪氨酸的最大吸收峰在280nm波长附近。由于大多数蛋白质含有酪氨酸和色氨酸残基，且含量相对恒定，所以测定蛋白质溶液280nm的光吸收值，是分析溶液中蛋白质含量的快速简便的方法。

候选项：

A.酪氨酸，B.赖氨酸，C.丙氨酸，D.谷氨酸，E.组氨酸

推理性回复样本：

含有共轭双键的色氨酸、酪氨酸的最大吸收峰在280nm波长附近。因此候选项中，只有选项A.酪氨酸符合题意，因此，正确答案是A。

另一个候选学习样本可以是：

医疗问题：

自身免疫性甲状腺炎的病理特点是()。

医疗证据：

急性甲状腺炎:【光镜】中性粒细胞浸润和组织坏死。可为非化脓性炎，亦可为化脓性炎，后者有时可进展为脓肿。肉芽肿性甲状腺炎:【光镜】可见明显的炎症和含有异物巨细胞的肉芽肿。其特征是肉芽肿围绕滤泡，多核巨细胞吞噬类胶质。没有干酪样坏死。还可见到片状分布的纤维化区域。自身免疫性甲状腺炎:【光镜】自身免疫性甲状腺炎的共同病变特征是腺体广泛的淋巴细胞浸润伴有生发中心形成，但随疾病不同而程度不同。Riedel甲状腺炎:【光镜】常见广泛玻璃样变的纤维组织完全取代受累部位的腺体。Graves病:【光镜】滤泡显著增生，伴有明显的乳头状内折，可能与乳头状癌混淆。内衬柱状上皮，核位于基底部，染色正常或深染，胞质透明，有时呈微小空泡状，可能含有脂肪或糖原。

候选项：

A.腺体广泛的淋巴细胞浸润伴有生发中心形成，B.中性粒细胞浸润和组织坏死，C.肉芽肿围绕滤泡，多核巨细胞吞噬类胶质，D.广泛玻璃样变的纤维组织完全取代受累部位的腺体，E.滤泡显著增生，伴有明显的乳头状内折

推理性回复样本：

自身免疫性甲状腺炎的共同病变特征是腺体广泛的淋巴细胞浸润伴有生发中心形成，但随疾病不同而程度不同。候选项中，只有选项A.腺体广泛的淋巴细胞浸润伴有生发中心形成符合题意，因此，正确答案是A。

以下，将以N＝3、且3个候选学习样本分别为候选学习样本A21、候选学习样本A22和候选学习样本A23为例，对“基于N个候选学习样本，获得具有预期引导效果的目标样本组”包括的以上步骤进行说明。

首先，将候选学习样本A21与最优提示句进行组合，获得第二提示信息B21；将候选学习样本A22与最优提示句进行组合，获得第二提示信息B22；将候选学习样本A23与最优提示句进行组合，获得第二提示信息B23。

此后，使语言模型根据第二提示信息B21，分别对多个第二问答数据进行标注，获得多个第二回复数据C21，以及多个第二回复数据C21的第二准确率D21；使语言模型根据第二提示信息B22，分别对多个第二问答数据进行标注，获得多个第二回复数据C22，以及多个第二回复数据C22的第二准确率D22；使语言模型根据第二提示信息B23，分别对多个第二问答数据进行标注，获得多个第二回复数据C23，以及多个第二回复数据C23的第二准确率D23。

最后，假设，获取到的3个第二准确率(第二准确率D21、第二准确率D22和第二准确率D23)的大小顺序为：第二准确率D21＞第二准确率D22＞第二准确率D23，则对3个候选学习样本进行引导效果排序，对应获得的排序结果同样为：候选学习样本A21＞候选学习样本A22＞候选学习样本A23，因此，可以根据这一排序结果，基于3个候选学习样本，获得目标样本组。

通过“基于N个候选学习样本，获得具有预期引导效果的目标样本组”包括的以上步骤，本公开实施例中，可以基于语言模型，通过实际测试基于N个候选学习样本，获得具有预期引导效果的目标样本组，从而进一步确保目标样本组所提供的标注参考具有可靠地提示效果，以更进一步地提高数据标注质量。

在一些可选的实施方式中，“根据排序结果，基于N个候选学习样本，获得目标样本组”可以包括以下步骤：

根据排序结果，基于N个候选学习样本，获得具有优选顺序的多个候选样本组；

按照优选顺序，依次对每个候选样本组进行引导效果评估，获得第一评估结果；

在每获得一个第一评估结果、且第一评估结果指示对应的候选样本组具有预期引导效果的情况下，将与第一评估结果指示对应的候选样本组作为目标样本组，并停止对下一候选样本组进行引导效果评估。

本公开实施例中，可以根据排序结果，将N个候选学习样本中引导效果排序为K的标记点学习样本与引导效果排序小于K的所有候选学习样本进行组合，获得优选顺序为K的候选样本组，其中，1≤K≤N、且为整数。以下，将N＝3、且3个候选学习样本分别为候选学习样本A21、候选学习样本A22和候选学习样本A23为例，该过程进行说明。

假设，3个候选学习样本进行引导效果排序，获得的排序结果为：候选学习样本A21＞候选学习样本A22＞候选学习样本A23，也即，候选学习样本A21的引导效果排序为1，候选学习样本A22的引导效果排序为2，候选学习样本A23的引导效果排序为3。

那么，首先，可以获得由候选学习样本A21组成的候选样本组E21。此后，将3个候选学习样本中引导效果排序为2的候选学习样本A22作为标记点学习样本，与引导效果排序小于2的候选学习样本A21进行组合，获得优选顺序为2的候选样本组E22。最后，将3个候选学习样本中引导效果排序为3的候选学习样本A23作为标记点学习样本，与引导效果排序小于3的候选学习样本A21和候选学习样本A22进行组合，获得优选顺序为3的候选样本组E23。

最终，获得3个候选样本组，这3个候选样本组分别为候选样本组E21、候选样本组E22和候选样本组E23，且优选顺序为：候选样本组E21＞候选样本组E22＞候选样本组E23。

在按照以上样本组获取策略，获得具有优选顺序的多个候选样本组之后，可以按照优选顺序，依次对每个候选样本组进行引导效果评估，获得第一评估结果。本公开实施例中，由于按照以上样本组获取策略，获得多个候选样本组之后，多个候选样本组的优选顺序是和样本数量呈负相关的，也即，候选样本组中候选学习样本的数量越少，则其优选顺序越靠前，那么，在后续按照优选顺序，依次对每个候选样本组进行引导效果评估，获得第一评估结果，再在每获得一个第一评估结果、且第一评估结果指示对应的候选样本组具有预期引导效果的情况下，将与第一评估结果指示对应的候选样本组作为目标样本组，并停止对下一候选样本组进行引导效果评估的过程中，就可以尽量使得目标样本组中具有少量候选样本组，以提高语言模型的工作效率。此外，本公开实施例中，“按照优选顺序，依次对每个候选样本组进行引导效果评估，获得第一评估结果”可以包括以下步骤：

按照优选顺序，依次从多个候选样本组中选取候选样本组，作为当前样本组；

将当前样本组与最优提示句进行组合，获得第四提示信息；

使语言模型根据第四提示信息，分别对多个第四问答数据进行标注，获得多个第四回复数据，以及多个第四回复数据的第四准确率；

将第四准确率作为第一评估结果。

在每获得一个第一评估结果、且第一评估结果指示对应的候选样本组具有预期引导效果的情况下，将与第一评估结果指示对应的候选样本组作为目标样本组，并停止对下一候选样本组进行引导效果评估。基于此，本公开实施例中，可以在第一评估结果大于或等于第二准确率阈值的情况下，确定第一评估结果指示对应的候选样本组具有预期引导效果。其中，第二准确率阈值可以是85％、90％、95％等数值，具体可以根据实际应用需求设定，本公开实施例对此不作具体限制。

通过“根据排序结果，基于N个候选学习样本，获得目标样本组”包括的以上步骤，本公开实施例中，一方面，由于是根据排序结果，基于N个候选学习样本，获得具有优选顺序的多个候选样本组，因此，会尽可能覆盖更多候选样本组，这能够确保目标样本组具有较大选取基数，从而确保目标样本组所提供的标注参考具有可靠地提示效果，以更进一步地提高数据标注质量。另一方面，由于在获得具有优选顺序的多个候选样本组之后，会按照优选顺序，依次对每个候选样本组进行引导效果评估，获得第一评估结果，在每获得一个第一评估结果、且第一评估结果指示对应的候选样本组具有预期引导效果的情况下，将与第一评估结果指示对应的候选样本组作为目标样本组，并停止对下一候选样本组进行引导效果评估，而无需对多个候选样本组全部进行引导效果评估，因此，可以降低目标样本组的搜索成本，节省电子设备的计算资源。

从N个候选学习样本选取待测学习样本；

对待测学习样本进行引导效果评估，获得第二评估结果；

在第二评估结果指示待测学习样本具有预期引导效果的情况下，获得由待测学习样本组成的目标样本组；

在第二评估结果指示待测学习样本无预期引导效果的情况下，从N个候选学习样本选取下一待测学习样本作为备用学习样本，直至基于备用学习样本，获得目标样本组。

本公开实施例中，可以从N个候选学习样本随机选取待测学习样本，再对待测学习样本进行引导效果评估，获得第二评估结果。其中，“对待测学习样本进行引导效果评估，获得第二评估结果”可以包括以下步骤：

将待测学习样本与最优提示句进行组合，获得第五提示信息；

使语言模型根据第五提示信息，分别对多个第五问答数据进行标注，获得多个第五回复数据，以及多个第五回复数据的第五准确率；

将第五准确率作为第二评估结果。

本公开实施例中，可以在第二评估结果大于或等于第三准确率阈值的情况下，确定第二评估结果指示待测学习样本具有预期引导效果。其中，第三准确率阈值可以是85％、90％、95％等数值，具体可以根据实际应用需求设定，本公开实施例对此不作具体限制。

通过“基于N个候选学习样本，获得具有预期引导效果的目标样本组”包括的以上步骤，本公开实施例中，可以从N个候选学习样本选取待测学习样本，再对待测学习样本进行引导效果评估，获得第二评估结果，以便在第二评估结果指示待测学习样本具有预期引导效果的情况下，获得由待测学习样本组成的目标样本组，在第二评估结果指示待测学习样本无预期引导效果的情况下，从N个候选学习样本选取下一待测学习样本作为备用学习样本，直至基于备用学习样本，获得目标样本组。该过程中，目标样本组的搜索流程简单，可以降低目标样本组的搜索成本，节省电子设备的计算资源，同时，提高目标样本组的搜索效率。

在一些可选的实施方式中，“基于备用学习样本，获得目标样本组”可以包括以下步骤：

对备用学习样本进行引导效果评估，获得第三评估结果；

在第三评估结果指示备用学习样本具有预期引导效果的情况下，获得由备用学习样本组成的目标样本组。

其中，“对备用学习样本进行引导效果评估，获得第三评估结果”可以包括以下步骤：

将备用学习样本与最优提示句进行组合，获得第六提示信息；

使语言模型根据第六提示信息，分别对多个第六问答数据进行标注，获得多个第六回复数据，以及多个第六回复数据的第六准确率；

将第六准确率作为第三评估结果。

本公开实施例中，可以在确定第三评估结果大于或等于第四准确率阈值的情况下，确定第三评估结果指示备用学习样本具有预期引导效果。其中，第四准确率阈值可以是85％、90％、95％等数值，具体可以根据实际应用需求设定，本公开实施例对此不作具体限制。

以下，将以N＝3、且3个候选学习样本分别为候选学习样本A31、候选学习样本A32和候选学习样本A33为例，结合“基于备用学习样本，获得目标样本组”包括的以上步骤，对“基于N个候选学习样本，获得具有预期引导效果的目标样本组”包括的前述步骤进行说明(以下示例中，第三准确率阈值和第四准确率阈值均为95％)。

首先，可以从3个候选学习样本中选取的待测学习样本为候选学习样本A31、且对候选学习样本A31进行引导效果评估，获得的第二评估结果为90％，可以确定待测学习样本A31无预期引导效果。

此后，可以从N个候选学习样本选取下一待测学习样本，例如，候选学习样本A32作为备用学习样本，若对候选学习样本A32进行引导效果评估，获得的第三评估结果大于或等于95％，则获得由候选学习样本A32组成的目标样本组，否者，需要继续从N个候选学习样本选取下一待测学习样本作为备用学习样本，并重复前述步骤，直至基于备用学习样本，获得目标样本组。

通过“基于备用学习样本，获得目标样本组”包括的以上步骤，本公开实施例中，可以仅通过对备用学习样本进行引导效果评估，获得第三评估结果，在第三评估结果指示备用学习样本具有预期引导效果的情况下，获得由备用学习样本组成的目标样本组，从而进一步简化目标样本组的搜索流程简单，降低目标样本组的搜索成本，节省电子设备的计算资源，同时，提高目标样本组的搜索效率。

将待测学习样本与备用学习样本进行组合，获得待测样本组；

对待测样本组进行引导效果评估，获得第四评估结果；

在第四评估结果指示待测样本组具有预期引导效果的情况下，将待测样本组作为目标样本组。

其中，“对待测样本组进行引导效果评估，获得第四评估结果”可以包括以下步骤：

将待测样本组与最优提示句进行组合，获得第七提示信息；

使语言模型根据第七提示信息，分别对多个第七问答数据进行标注，获得多个第七回复数据，以及多个第七回复数据的第七准确率；

将第七准确率作为第四评估结果。

本公开实施例中，可以在确定第四评估结果大于或等于第五准确率阈值的情况下，确定第四评估结果指示备用学习样本具有预期引导效果。其中，第五准确率阈值可以是85％、90％、95％等数值，具体可以根据实际应用需求设定，本公开实施例对此不作具体限制。

以下，将以N＝3、且3个候选学习样本分别为候选学习样本A41、候选学习样本A42和候选学习样本A43为例，结合“基于备用学习样本，获得目标样本组”包括的以上步骤，对“基于N个候选学习样本，获得具有预期引导效果的目标样本组”包括的前述步骤进行说明(以下示例中，第三准确率阈值和第四准确率阈值均为95％)。

首先，可以从3个候选学习样本中选取的待测学习样本为候选学习样本A41、且对候选学习样本A41进行引导效果评估，获得的第二评估结果为90％，可以确定待测学习样本A41无预期引导效果。

此后，可以从N个候选学习样本选取下一待测学习样本，例如，候选学习样本A42作为备用学习样本，将候选学习样本A41与候选学习样本A42进行组合，获得待测样本组Q41，若对待测样本组Q41进行引导效果评估，获得的第四评估结果大于或等于95％，则可以将待测样本组Q41目标样本组，否者，可以分以下两种情况继续处理：

(1)在第四评估结果小于90％的情况下，丢弃候选学习样本A42，重新从N个候选学习样本选取下一待测学习样本作为备用学习样本，并重复前述步骤，直至基于备用学习样本，获得目标样本组；

(2)在第四评估结果大于90％的情况下，可以丢弃候选学习样本A42，重新从N个候选学习样本选取下一待测学习样本作为备用学习样本，并重复前述步骤，直至基于备用学习样本，获得目标样本组，也可以从N个候选学习样本中继续选取下一待测学习样本，例如，候选学习样本A43作为备用学习样本，将候选学习样本A41、候选学习样本A42和候选学习样本A43这三者进行组合，获得待测样本组Q42，并重复前述步骤，直至基于备用学习样本，获得目标样本组。

通过“基于备用学习样本，获得目标样本组”包括的以上步骤，本公开实施例中，可以将待测学习样本与备用学习样本进行组合，获得待测样本组，再对待测样本组进行引导效果评估，获得第四评估结果，在第四评估结果指示待测样本组具有预期引导效果的情况下，将待测样本组作为目标样本组。该过程中，目标样本组的搜索流程同样简单，可以降低目标样本组的搜索成本，节省电子设备的计算资源，同时，提高目标样本组的搜索效率。

如前所述的，本公开实施例中，标注提示信息包括最优提示句和目标样本组。基于此，在一些可选的实施方式中，“使通过预训练的语言模型根据标注提示信息，分别对多个待标注问答数据进行标注，获得多个问答回复数据”可以包括以下步骤：

分别将多个待标注问答数据与最优提示句和目标样本组进行组合，获得多个模型输入数据；

依次将每个模型输入数据输入语言模型；

每输入一个模型输入数据，则获取语言模型以模型输入数据中的最优提示句作为标注思路，以模型输入数据中目标样本组所包括的问答数据样本和推理性回复样本作为标注参考，对模型输入数据中的待标注问答数据进行标注，获得的问答回复数据。

本公开实施例中，目标样本组仅包括少量学习样本，例如，仅包括1个到10个学习样本。每个学习样本包括问答数据样本和推理性回复样本、且以涉及领域为医疗领域为例，问答数据样本可以包括医疗问题、医疗证据和候选项。对应的，待标注问答数据同样可以包括医疗问题、医疗证据和候选项。

示例性的，将多个待标注问答数据中的待标注问答数据F与最优提示句G和目标样本组H(例如，包括学习样本H1和学习样本H2)进行组合，获得模型输入数据L如表1所示。

表1

/>

请结合图2，将模型输入数据L输入语言模型之后，可以获取语言模型以最优提示句G作为标注思路，以学习样本H1所包括的问答数据样本和推理性回复样本，以及学习样本H2所包括的问答数据样本和推理性回复样本作为标注参考，对待标注问答数据F进行标注，获得的问答回复数据F——膜IgD是B细胞发育分化成熟的标志。候选项中，只有选项C.IgD符合题意，因此，正确答案是C。

此后，可以按照以上处理方式，继续处理多个待标注问答数据中的下一待标注问答数据，直至获得多个问答回复数据。

通过“使通过预训练的语言模型根据标注提示信息，分别对多个待标注问答数据进行标注，获得多个问答回复数据”包括的以上步骤，本公开实施例中，可以在每输入一个模型输入数据之后，获取语言模型以模型输入数据中的最优提示句作为标注思路，以模型输入数据中目标样本组所包括的问答数据样本和推理性回复样本作为标注参考，对模型输入数据中的待标注问答数据进行标注，获得的问答回复数据、且问答回复数据也是具备推理性的，因此，本公开实施例提供的数据生产方法所生产的数据可以用于训练推理性问答模型，从而拓展了数据生产方法的应用范围。

以下，将结合图3，对本公开实施例提供的一种数据生产方法的完整流程进行说明。

首先，分别将M个候选提示句与固定学习样本进行组合，获得M个第一提示信息，再使语言模型根据每个第一提示信息，分别对多个第一问答数据进行标注，获得多个第一回复数据，以及多个第一回复数据的第一准确率，并从获取到的M个第一准确率中确定最高准确率，从M个第一提示信息中确定与最高准确率对应的目标提示信息，以便将目标提示信息中的候选提示句作为最优提示句。

此后，从N个候选学习样本选取待测学习样本，再对待测学习样本进行引导效果评估，获得第二评估结果，在第二评估结果指示待测学习样本具有预期引导效果的情况下，获得由待测学习样本组成的目标样本组，在第二评估结果指示待测学习样本无预期引导效果的情况下，从N个候选学习样本选取下一待测学习样本作为备用学习样本，直至基于备用学习样本，获得目标样本组。例如，对备用学习样本进行引导效果评估，获得第三评估结果，在第三评估结果指示备用学习样本具有预期引导效果的情况下，获得由备用学习样本组成的目标样本组。

在获得最优提示句和目标样本组之后，由最优提示句和目标样本组组成标注提示信息，再使通过预训练的语言模型根据标注提示信息，分别对多个待标注问答数据进行标注，获得多个问答回复数据。

请参阅图4，为本公开实施例提供的一种数据生产方法的应用场景示意图。

如前所述的，本公开实施例提供的数据生产方法应用于电子设备。其中，电子设备旨在表示各种形式的数字计算机，诸如，服务器、刀片式服务器、工作台、大型计算机、台式计算机、膝上型计算机，或其它适合的计算机。

本公开实施例中，电子设备可以用于执行数据生产方法：

获取标注提示信息；

获取多个待标注问答数据；

需要说明的是，本公开实施例中，在获得多个问答回复数据之后，可以基于多个待标注问答数据，以及每个待标注问答数据所对应的问答回复数据，训练问答模型。该训练过程可以基于电子设备实现，也可以基于第三方设备实现(如图4所示)，本公开实施例对此不作具体限制。

此外，还需要说明的是，本公开实施例中，图4所示的场景示意图仅为示意性而非限制性的，本领域技术人员可以基于图4示例进行各种显而易见的变化和/或替换，获得的技术方案仍属于本公开实施例的公开范围。

为了更好地实施以上数据生产方法，本公开实施例还提供一种数据生产装置500，该数据生产装置500体可以集成在电子设备中。以下，将结合图5所示结构示意图，对公开实施例提供的一种数据生产装置500进行说明。

该数据生产装置500，包括：

信息获取单元501，用于获取标注提示信息；

数据获取单元502，用于获取多个待标注问答数据；

标注单元503，用于使通过预训练的语言模型根据标注提示信息，分别对多个待标注问答数据进行标注，获得多个问答回复数据。

在一些可选的实施方式中，信息获取单元501用于：

获得由最优提示句和目标样本组组成的标注提示信息。

在一些可选的实施方式中，信息获取单元501用于：

从获取到的M个第一准确率中确定最高准确率；

将目标提示信息中的候选提示句作为最优提示句。

在一些可选的实施方式中，信息获取单元501用于：

根据排序结果，基于N个候选学习样本，获得目标样本组。

在一些可选的实施方式中，信息获取单元501用于：

从N个候选学习样本选取待测学习样本；

对待测学习样本进行引导效果评估，获得第二评估结果；

在一些可选的实施方式中，信息获取单元501用于：

对备用学习样本进行引导效果评估，获得第三评估结果；

在一些可选的实施方式中，信息获取单元501用于：

对待测样本组进行引导效果评估，获得第四评估结果；

在一些可选的实施方式中，标注提示信息包括最优提示句和目标样本组，标注单元503用于：

依次将每个模型输入数据输入语言模型；

每输入一个模型输入数据，则获取语言模型以模型输入数据中的最优提示句作为标注思路，以模型输入数据中目标样本组所包括的问答数据样本和推理性回复样本作为标注参考，对模型输入数据中待标注问答数据所包括的实际问答数据进行标注，获得的问答回复数据。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的数据生产方法实施例，在此不作赘述。

采用本公开实施例提供的数据生产装置可以获取标注提示信息；获取多个待标注问答数据；使通过预训练的语言模型根据标注提示信息，分别对多个待标注问答数据进行标注，获得多个问答回复数据。本公开实施例中，由于语言模型是经过预训练的，具备通用的语言知识、世界知识、各领域专业知识等，因此，在获取到标注提示信息和多个待标注问答数据之后，可以使语言模型基于Prompt技术自动地模仿人类标注过程，根据标注提示信息提供的标注思路和标注参考，分别对多个待标注问答数据进行标注，获得多个问答回复数据。相对于现有技术中数据标注任务主要由人工完成的方案而言，不仅可以减少人力资源占用，还可以保证数据标注过程的一致性和可靠性，从而提高数据标注质量。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、存储介质及计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。

如前所述的，本公开实施例中，电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(Read-Only Memory，ROM)602中的计算机程序或从存储单元608加载到随机访问存储器(RandomAccess Memory，RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(Input/Output，I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如，键盘、鼠标等；输出单元607，例如，各种类型的显示器、扬声器等；存储单元608，例如，磁盘、光盘等；以及通信单元609，例如，网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Process，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如，数据生产方法。例如，在一些可选的实施方式中数据生产方法可分别被实现为计算机软件程序，其被有形地包含于非瞬时计算机可读存储介质，例如，存储单元608。在一些可选的实施方式中，计算机程序的部分或全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM603并由计算单元601执行时，可以执行上文描述的数据生产方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据生产方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(ApplicationSpecific Standard Product，ASSP)、芯片上系统的系统(System On Chip，SOC)、复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或多个计算机程序中，该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，非瞬时计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。非瞬时计算机可读存储介质可以是机器可读信号介质或机器可读储存介质。非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或前述内容的任何合适组合。非瞬时计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)或快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光学储存设备、磁储存设备、或前述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)显示器或液晶显示器(Liquid Crystal Display，LCD)；以及键盘和指向装置(例如，鼠标或轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或包括中间件部件的计算系统(例如，应用服务器)、或包括前端部件的计算系统(例如，具有图形用户界面或网络浏览器的用户计算机，用户可以通过该图形用户界面或该网络浏览器来与此处描述的系统和技术的实施方式交互)、或包括这种后台部件、中间件部件、或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local AreaNetwork，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或是结合了区块链的服务器。

本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述数据生产方法。

本公开实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述数据生产方法。

采用本公开实施例提供的电子设备、存储介质及计算机程序产品可以获取标注提示信息；获取多个待标注问答数据；使通过预训练的语言模型根据标注提示信息，分别对多个待标注问答数据进行标注，获得多个问答回复数据。本公开实施例中，由于语言模型是经过预训练的，具备通用的语言知识、世界知识、各领域专业知识等，因此，在获取到标注提示信息和多个待标注问答数据之后，可以使语言模型基于Prompt技术自动地模仿人类标注过程，根据标注提示信息提供的标注思路和标注参考，分别对多个待标注问答数据进行标注，获得多个问答回复数据。相对于现有技术中数据标注任务主要由人工完成的方案而言，不仅可以减少人力资源占用，还可以保证数据标注过程的一致性和可靠性，从而提高数据标注质量。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。此外，本公开中，诸如“第一”、“第二”、“第三”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。再者，本公开中“多个”，可以理解为至少两个。

前述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据生产方法，包括：

获取标注提示信息；

获取多个待标注问答数据；

使通过预训练的语言模型根据所述标注提示信息，分别对所述多个待标注问答数据进行标注，获得多个问答回复数据；

其中，所述标注提示信息包括最优提示句和目标样本组，所述使通过预训练的语言模型根据所述标注提示信息，分别对所述多个待标注问答数据进行标注，获得多个问答回复数据，包括：

分别将所述多个待标注问答数据与所述最优提示句和所述目标样本组进行组合，获得多个模型输入数据；

依次将每个模型输入数据输入所述语言模型；

每输入一个模型输入数据，则获取所述语言模型以所述模型输入数据中的最优提示句作为标注思路，以所述模型输入数据中的目标样本组所包括的问答数据样本和推理性回复样本作为标注参考，对所述模型输入数据中的待标注问答数据进行标注，获得的问答回复数据。

2.根据权利要求1所述的方法，其中，所述获取标注提示信息，包括：

获得由所述最优提示句和所述目标样本组组成的所述标注提示信息。

3.根据权利要求2所述的方法，其中，所述从M个候选提示句中选取最优提示句，包括：

分别将所述M个候选提示句与固定学习样本进行组合，获得M个第一提示信息；

使所述语言模型根据每个第一提示信息，分别对多个第一问答数据进行标注，获得多个第一回复数据，以及所述多个第一回复数据的第一准确率；

从获取到的M个第一准确率中确定最高准确率；

从所述M个第一提示信息中确定与所述最高准确率对应的目标提示信息；

将所述目标提示信息中的候选提示句作为所述最优提示句。

4.根据权利要求2所述的方法，其中，所述基于N个候选学习样本，获得具有预期引导效果的目标样本组，包括：

分别将所述N个候选学习样本与所述最优提示句进行组合，获得N个第二提示信息；

使所述语言模型根据每个第二提示信息，分别对多个第二问答数据进行标注，获得多个第二回复数据，以及所述多个第二回复数据的第二准确率；

根据获取到的N个第二准确率，对所述N个候选学习样本进行引导效果排序，获得排序结果；

根据所述排序结果，基于N个候选学习样本，获得所述目标样本组。

5.根据权利要求4所述的方法，其中，所述根据所述排序结果，基于N个候选学习样本，获得所述目标样本组，包括：

根据所述排序结果，基于所述N个候选学习样本，获得具有优选顺序的多个候选样本组；

按照所述优选顺序，依次对每个候选样本组进行引导效果评估，获得第一评估结果；

在每获得一个第一评估结果、且所述第一评估结果指示对应的候选样本组具有预期引导效果的情况下，将与所述第一评估结果指示对应的候选样本组作为所述目标样本组，并停止对下一候选样本组进行引导效果评估。

6.根据权利要求2所述的方法，其中，所述基于N个候选学习样本，获得具有预期引导效果的目标样本组，包括：

从所述N个候选学习样本选取待测学习样本；

对所述待测学习样本进行引导效果评估，获得第二评估结果；

在所述第二评估结果指示所述待测学习样本具有预期引导效果的情况下，获得由所述待测学习样本组成的所述目标样本组；

在所述第二评估结果指示所述待测学习样本无预期引导效果的情况下，从所述N个候选学习样本选取下一待测学习样本作为备用学习样本，直至基于所述备用学习样本，获得所述目标样本组。

7.根据权利要求6所述的方法，其中，所述基于所述备用学习样本，获得所述目标样本组，包括：

对所述备用学习样本进行引导效果评估，获得第三评估结果；

在所述第三评估结果指示所述备用学习样本具有预期引导效果的情况下，获得由所述备用学习样本组成的所述目标样本组。

8.根据权利要求6所述的方法，其中，所述基于所述备用学习样本，获得所述目标样本组，包括：

将所述待测学习样本与所述备用学习样本进行组合，获得待测样本组；

对所述待测样本组进行引导效果评估，获得第四评估结果；

在所述第四评估结果指示所述待测样本组具有预期引导效果的情况下，将所述待测样本组作为所述目标样本组。

9.一种数据生产装置，包括：

信息获取单元，用于获取标注提示信息；

数据获取单元，用于获取多个待标注问答数据；

标注单元，用于使通过预训练的语言模型根据所述标注提示信息，分别对所述多个待标注问答数据进行标注，获得多个问答回复数据；

其中，所述标注提示信息包括最优提示句和目标样本组，所述标注单元用于：

依次将每个模型输入数据输入所述语言模型；

每输入一个模型输入数据，则获取所述语言模型以所述模型输入数据中的最优提示句作为标注思路，以所述模型输入数据中目标样本组所包括的问答数据样本和推理性回复样本作为标注参考，对所述模型输入数据中的待标注问答数据进行标注，获得的问答回复数据。

10.根据权利要求9所述的装置，其中，所述信息获取单元用于：

11.根据权利要求10所述的装置，其中，所述信息获取单元用于：

从获取到的M个第一准确率中确定最高准确率；

将所述目标提示信息中的候选提示句作为所述最优提示句。

12.根据权利要求10所述的装置，其中，所述信息获取单元用于：

13.根据权利要求12所述的装置，其中，所述信息获取单元用于：

14.根据权利要求10所述的装置，其中，所述信息获取单元用于：

从所述N个候选学习样本选取待测学习样本；

15.根据权利要求14所述的装置，其中，所述信息获取单元用于：

16.根据权利要求14所述的装置，其中，所述信息获取单元用于：

对所述待测样本组进行引导效果评估，获得第四评估结果；

17.一种电子设备，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1~8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1~8中任一项所述的方法。