CN112784911B

CN112784911B - 训练样本的生成方法、装置、电子设备和存储介质

Info

Publication number: CN112784911B
Application number: CN202110127235.7A
Authority: CN
Inventors: 秦华鹏; 赵岷; 程健一
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2024-01-19
Anticipated expiration: 2041-01-29
Also published as: CN112784911A

Abstract

本公开公开了一种训练样本的生成方法、装置、电子设备和存储介质，尤其涉及深度学习、知识图谱、自然语言处理等人工智能技术领域。其中，具体实现方案为：获取初始样本集，其中，所述初始样本集中包括多个样本及每个样本中各个分词对应的领域标签；将每个样本中各个分词，依次用对应的领域标签替换，以生成每个所述样本对应的模板；根据每个模板中包含的领域标签，将多个所述模板进行分类，以生成多个模板组；根据每个模板组中的每个模板对应的样本数量，确定每个所述模板组对应的样本数量；从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集。由此，尽量保证了抽取的训练样本中的样本类型的全面性和均衡，从而为提高模型的可靠性提供了条件。

Description

训练样本的生成方法、装置、电子设备和存储介质

技术领域

本公开涉及数据处理技术领域，具体涉及深度学习、知识图谱、自然语言处理等人工智能技术领域，尤其涉及一种训练样本的生成方法、装置、电子设备和存储介质。

背景技术

随着计算机技术的蓬勃发展，人工智能技术也得到了迅速发展，医药、金融、教育等各方面都离不开人工智能技术，自然语言处理技术及深度学习技术等也获得了越来越广泛的运用。模型训练作为深度学习、自然语言处理等领域中的重要一环，如何保证训练样本集的全面和均衡，显得至关重要。

发明内容

本公开提供了一种训练样本的生成方法、装置、电子设备和存储介质。

本公开一方面，提供了一种训练样本的生成方法，包括：

获取初始样本集，其中，所述初始样本集中包括多个样本及每个样本中各个分词对应的领域标签；

将每个样本中各个分词，依次用对应的领域标签替换，以生成每个所述样本对应的模板；

根据每个模板中包含的领域标签，将多个所述模板进行分类，以生成多个模板组；

根据每个模板组中的每个模板对应的样本数量，确定每个所述模板组对应的样本数量；

从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集。

本公开的另一方面，提供了一种训练样本的生成装置，包括：

获取模块，用于获取初始样本集，其中，所述初始样本集中包括多个样本及每个样本中各个分词对应的领域标签；

第一生成模块，用于将每个样本中各个分词，依次用对应的领域标签替换，以生成每个所述样本对应的模板；

第二生成模块，用于根据每个模板中包含的领域标签，将多个所述模板进行分类，以生成多个模板组；

确定模块，用于根据每个模板组中的每个模板对应的样本数量，确定每个所述模板组对应的样本数量；

第三生成模块，用于从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集。

本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的训练样本的生成方法。

本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机指令用于使所述计算机执行上述一方面实施例所述的训练样本的生成方法。

本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述一方面实施例所述的训练样本的生成方法。

本公开提供的训练样本的生成方法、装置、电子设备和存储介质，存在如下有益效果：

首先获取初始样本集，其中，初始样本集中包括多个样本及每个样本中各个分词对应的领域标签，之后可以将每个样本中各个分词，依次用对应的领域标签替换，以生成每个样本对应的模板，再根据每个模板中包含的领域标签，将多个模板进行分类，以生成多个模板组，之后根据每个模板组中的每个模板对应的样本数量，确定每个模板组对应的样本数量，再从每个模板组对应的样本中抽取训练样本，以生成训练样本集。由此，通过基于样本中每个分词对应的领域标签，将样本按照模板组进行划分，之后从每个模板组对应的样本中抽取训练样本，从而尽量保证了抽取的训练样本中的样本类型的全面性和均衡，从而为提高模型的可靠性提供了条件。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开一实施例提供的一种训练样本的生成方法的流程示意图；

图2为本公开另一实施例提供的一种训练样本的生成方法的流程示意图；

图3为本公开又一实施例提供的一种训练样本的生成方法的流程示意图；

图4为本公开一实施例提供的一种训练样本的生成装置的结构示意图；

图5为本公开另一实施例提供的一种训练样本的生成装置的结构示意图；

图6为用来实现本公开实施例的训练样本的生成方法或者黄斑中心凹的定位方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点和边组成。在知识图谱中，每个节点表示现实世界中存在的实体，每条边为实体与实体之间的关系。通俗地讲，知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络，知识图谱提供了从“关系”的角度去分析问题的能力。

深度学习是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。

自然语言处理是用计算机来处理、理解以及运用人类语言(如中文、英文等)，它是计算机科学与语言学的交叉学科，又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言，人类的思维也就无从谈起，所以自然语言处理体现了人工智能的最高任务与境界，也就是说，只有当计算机具备了处理自然语言的能力时，机器才算实现了真正的智能。

下面参考附图描述本公开实施例的训练样本的生成方法、装置、电子设备和存储介质。

本公开实施例的训练样本的生成方法，可由本公开实施例提供的训练样本的生成装置执行，该装置可配置于电子设备中。

图1为本公开实施例提供的一种训练样本的生成方法的流程示意图。

如图1所示，该训练样本的生成方法，可以包括以下步骤：

步骤101，获取初始样本集，其中，初始样本集中包括多个样本及每个样本中各个分词对应的领域标签。

其中，分词可以为对样本进行切词处理后生成的各个词，其可以为一个字，或者也可以为一个词组等，本公开对此不做限定。

另外，每个样本中各个分词对应的领域标签，可能为一个，或者也可能为多个，本公开对此不做限定。

举例来说，初始样本集中的一个样本可以为：“热梅茶是一道以梅子、开水等为主要原料制作的茶饮”，其中各个分词与领域标签的对应关系可以依次为：热梅茶-[饮食类_饮品]、是-[肯定词]、一道-[数量词]、以-[介词]、梅子-[饮食类]、开水-[饮食类_饮品]、等-[助词]、为-[肯定词]、主要原料-[物体类]、制作-[场景事件]、的-[助词]、茶饮-[饮食类_饮品]。

或者，获取到的一个样本中的分词为“山楂”，其对应的领域标签可以为[食物类_水果]、[药材类]。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中样本集样本中各个分词对应的领域标签等的限定。

步骤102，将每个样本中各个分词，依次用对应的领域标签替换，以生成每个样本对应的模板。

比如，以上述样本为“热梅茶是一道以梅子、开水等为主要原料制作的茶饮”为例，将各个分词依次用其对应的领域标签替换后，对应生成的模板可以为：[饮食类_饮品][肯定词][数量词][介词][饮食类][饮食类_饮品][助词][肯定词][物体类][场景事件][助词][饮食类_饮品]。

或者，也可以先去掉样本中的领域标签为[数量词]、[介词]、[助词]等类型的分词，之后再使用对应的领域标签依次替换样本中剩余的分词。则上述样本对应生成的模板可以为：[饮食类_饮品][肯定词][饮食类][饮食类_饮品][肯定词][物体类][场景事件][饮食类_饮品]。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中各个分词及其对应的领域标签、样本对应的模板等的限定。

步骤103，根据每个模板中包含的领域标签，将多个模板进行分类，以生成多个模板组。

其中，任一模板组中，可以有一个模板，或者也可以有多个模板，本公开对此不做限定。

另外，可以根据每个模板中领域标签的出现次数进行分类。

比如说，模板1中包含的领域标签可以依次为：[饮食类_饮品][肯定词][数量词][介词][饮食类][饮食类_饮品][助词][肯定词][物体类][场景事件][助词][饮食类_饮品]，出现次数较多的领域标签为[饮食类]，可以确定该模板1为饮食类。

或者，模板2中包含的领域标签可以依次为：[药物类][肯定词][数量词][介词][饮食类][药物类_药品][助词][肯定词][助词][药物类_药材]，出现次数较多的领域标签为[药物类]，从而可以确定该模板2为药物类。

或者，模板3中包含的领域标签可以依次为：[药物类][肯定词][数量词][药物类_药品][助词]，出现次数较多的领域标签为[药物类]，可以确定该模板3为药物类。

从而，可以得到饮食类模板组其包括模板1，药物类模板组其包括模板2和模板3。

或者，也可以根据每个模板中领域标签的主题进行分类。

比如说，模板2中包含的领域标签可以依次为：[药物类][肯定词][数量词][介词][饮食类][药物类_药品][助词][肯定词][助词][药物类_药材]，可以确定该模板2中领域标签的主题与药物有关，从而可以确定该模板2为药物类。进而可以确定药物类模板组，其可以包括模板2。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中各个模板及其包含的领域标签、以及模板组等的限定。

步骤104，根据每个模板组中的每个模板对应的样本数量，确定每个模板组对应的样本数量。

其中，每个模板组中的模板的数量，可能相同，或者，也可能不同，本公开对此不做限定。

可以理解的是，模板组对应的样本数量，可以为该模板组中的每个模板对应的样本数量之和。

比如说，当前模板组A中有模板1和模板2，模板1对应的样本数量为100，模板2对应的样本数量为50，则模板组A对应的样本数量可以为150。

需要说明的是，上述模板组A、模板1、模板2、100、50等只是示意性说明，不能作为对本公开实施例中模板组中的模板以及各模板、各模板组对应的样本数量等的限定。

步骤105，从每个模板组对应的样本中抽取训练样本，以生成训练样本集。

其中，抽取训练样本时可以有多种情况。

比如，可以从各个模板组中抽取相同数量的训练样本。

比如说，模板组A中有200个样本，模板组B中有300个样本，可以从模板组A、模板组B中各抽取100个样本作为训练样本，从而生成训练样本集。

或者，也可以根据各个模板组对应的样本数量按照一定的比例进行抽取。

比如，模板组A中有200个样本，模板组B中有300个样本，可以按照50％的比例进行抽取，则从模板组A、模板组B中分别抽取100个、150个样本作为训练样本，从而生成训练样本集。或者，也可以按照70％的比例进行抽取，则从模板组A、模板组B中分别抽取140个、210个样本作为训练样本等。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中抽取训练样本、数量、比例等的限定。

本公开实施例，首先获取初始样本集，其中，初始样本集中包括多个样本及每个样本中各个分词对应的领域标签，之后可以将每个样本中各个分词，依次用对应的领域标签替换，以生成每个样本对应的模板，再根据每个模板中包含的领域标签，将多个模板进行分类，以生成多个模板组，之后根据每个模板组中的每个模板对应的样本数量，确定每个模板组对应的样本数量，再从每个模板组对应的样本中抽取训练样本，以生成训练样本集。由此，通过基于样本中每个分词对应的领域标签，将样本按照模板组进行划分，之后从每个模板组对应的样本中抽取训练样本，从而尽量保证了抽取的训练样本中的样本类型的全面性和均衡，从而为提高模型的可靠性提供了条件。

上述实施例，通过用对应的领域标签替换样本中各个分词，生成每个样本对应的模板，再根据模板中包含的领域标签对模板进行分类，生成模板组，之后从模板组对应的样本中抽取训练样本，即可生成训练样本集。在一种可能的实现方式中，任一模板组对应的样本数量可能与其他模板组对应的样本数量间的差值较大，此时为了保证抽取样本的均衡性，可以对其进行扩充，下面结合图2对上述过程进行详细分析。

步骤201，获取初始样本集，其中，初始样本集中包括多个样本及每个样本中各个分词对应的领域标签。

步骤202，将每个样本中指定类型的分词，依次用对应的领域标签替换，以生成每个样本对应的模板。

其中，指定类型的分词，可以为助词、虚词、修饰词等类型的分词，本公开对此不做限定。

可以理解的是，依次用对应的领域标签替换每个样本中指定类型的分词，可以极大的保证对应生成的模板保留了原语句的语义信息。

比如说，样本中的各个分词及其对应的领域标签可以依次为：热梅茶-[饮食类_饮品]、是-[肯定词]、一道-[数量词]、以-[介词]、梅子-[饮食类]、开水-[饮食类_饮品]、等-[助词]、为-[肯定词]、主要原料-[物体类]、制作-[场景事件]、的-[助词]、茶饮-[饮食类_饮品]。

其中，指定类型的分词可以为[数量词]、[介词]、[助词]，则可以用对应的领域标签替换指定类型的分词，对应生成的模板可以为：热梅茶是[数量词][介词]梅子开水[助词]主要原料制作[助词]茶饮。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中，各个分词及其对应的领域标签、指定类型的分词、对应模板等的限定。

步骤203，根据每个模板中包含的各个领域标签的类型，确定每个模板对应的关键领域标签。

比如说，模板1中包含的各个领域标签可以依次为：[饮食类_饮品][肯定词][数量词][介词][饮食类][饮食类_饮品][助词][肯定词][助词][饮食类_饮品]，可以确定该模板1对应的关键领域标签可以为[饮食类]。

或者，模板2中包含的领域标签可以依次为：[药物类][肯定词][饮食类][药物类_药品][肯定词][助词][药物类_药材]，可以确定该模板2对应的关键领域标签可以为[药物类]。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中各个领域标签的类型、关键领域标签等的限定。

步骤204，确定对应关键领域标签相同的各个模板属于同一模板组。

比如说，关键领域标签为[饮食类]，模板1、模板2、模板3对应的关键领域标签分别为[药物类]、[饮食类]、[饮食类]，则可以确定模板2、模板3同属于[饮食类]模板组。

需要说明的是，上述模板1、模板2、模板3、[饮食类]、[药物类]等只是示意性说明，不能作为对本公开实施例中关键领域标签、同一模板组等的限定。

另外，在将模板进行分类时，还可以确定包含领域标签的类型相同的各个模板属于同一模板组。

比如说，模板1对应的领域标签可以为：[药物类]、[介词]、[助词]，模板2对应的领域标签可以为：[饮食类]、[助词]、[肯定词]，模板3对应的领域标签可以为：[助词]、[肯定词]、[饮食类]。模板2和模板3包含的领域标签的类型相同，则可以确定模板2、模板3属于同一模板组。

需要说明的是，上述模板1、模板2、模板3、[饮食类]、[药物类]等只是示意性说明，不能作为对本公开实施例中领域标签、同一模板组等的限定。

或者，也可以确定包含领域标签的类型相同、且各领域标签的顺序相同的各个模板属于同一模板组。

比如说，模板1对应的领域标签为：[药物类_药品]、[肯定词]、[数量词]、[药物类]，模板2对应的领域标签为：[药物类_药材]、[肯定词]、[数量词]、[药物类]，模板3对应的领域标签为：[饮食类_饮品]、[肯定词]、[数量词]、[饮食类]。模板1和模板2包含的领域标签的类型相同、且各领域标签的顺序相同，则可以确定模板1和模板2属于同一模板组。

需要说明的是，上述示例只是举例说明不能作为对本公开实施例中各领域标签、模板组等的限定。

本公开实施例中，可以根据每个模板中包含的领域标签的类型，将模板进行分类，可以使分类结果更加准确，生成的模板组更加合理。

步骤205，根据每个模板组中的每个模板对应的样本数量，确定每个模板组对应的样本数量。

步骤206，在任一模板组对应的样本数量与其他模板组对应的样本数量间的差值大于第一阈值的情况下，确定任一模板组对应的参考模板。

其中，第一阈值可以为提前设定的任意数值，比如20、50、100等，本公开对此不做限定。

另外，可以先确定任一模板组对应的主题，之后将任一模板组中任一模板中的与主题无关联的领域标签去除，以生成任一模板组对应的参考模板。

其中，每个模板组包含的领域标签可能相同，或者，也可能不同，本公开对此不做限定。

可以理解的是，不同领域标签其对应的主题可能不同。

比如说，当前任一模板组对应的主题为饮食类，当前任一模板组中任一模板对应的领域标签可以分别为：[饮食类_饮品][肯定词][饮食类][助词][肯定词][虚词][场景事件][饮食类_饮品]，可以将与主题无关的[肯定词]、[助词]、[虚词]、[场景事件]等领域标签去除，以生成任一模板组对应的参考模板。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中任一模板组对应的主题、领域标签、参考模板等的限定。

举例来说，任一模板组对应的样本数量可以为120，其他模板组对应的样本数量可以为500，预设的第一阈值可以为200，二者的差值大于第一阈值，为了保证模板组对应的样本数量的均衡，可以确定出任一模板组对应的参考模板。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中各模板组对应的样本数量、第一阈值、任一模板组的主题、参考模板等的限定。

步骤207，从参考模板中每个领域标签对应的关键词集中分别抽取关键词，以生成包含关键词的第一扩充样本。

步骤208，将第一扩充样本，加入任一模板组对应的样本中。

其中，确定关键词集的方式可以有多种。

比如，可以根据初始样本集中各个分词对应的领域标签，确定每个领域标签对应的关键词集。

举例来说，分词“雪碧”对应的领域标签可以为[饮食类_饮品],该领域标签对应的关键词集可以为“水”、“可乐”、“橙汁”、“牛奶”等，分词“辣椒”对应的领域标签为[食物类_蔬菜]，该领域标签对应的关键词集可以为“西红柿”、“鸡蛋”、“白菜”等。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中各个分词对应的领域标签、及各个领域标签对应的关键词集等的限定。

或者，关键词集也可以是对其他可获取的语料进行标注而生成的，本公开对此不做限定。

本公开实施例中，可以从参考模板中每个领域标签对应的关键词集中分别抽取关键词，以生成包含关键词的第一扩充样本。

比如说，参考模板为：[饮食类_饮品][肯定词][饮食类_饮品]，其中，[饮食类_饮品]对应的关键词集可以为“可乐”、“橙汁”、“饮料”等，[肯定词]对应的关键词集可以为“是”、“可以是”等。

之后，从参考模板中每个领域标签对应的关键词集中分别抽取关键词，生成的包含关键词的第一扩充样本，可以为“可乐是饮料”、“橙汁是饮料”、“饮料可以是可乐”、“饮料可以是橙汁”等。之后可以将生成的第一扩充样本，加入任一模板组对应的样本中。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中参考模板中的领域标签、及各个领域标签对应的关键词集、第一扩充样本等的限定。

步骤209，从每个模板组对应的样本中抽取训练样本，以生成训练样本集。

本公开实施例，在获取初始样本集之后，可以将每个样本中指定类型的分词，依次用对应的领域标签替换，以生成每个样本对应的模板，之后可以根据每个模板中各个领域标签的类型，确定出每个模板对应的关键领域标签，进而确定对应关键领域标签相同的各个模板属于同一模板组。还可以在任一模板组对应的样本数量与其他模板组对应的样本数量间的差值大于第一阈值的情况下，确定任一模板组对应的参考模板，之后根据参考模板对应生成第一扩充样本，并将其加入任一模板组对应的样本中，之后再从每个模板组中抽取训练样本，生成训练样本集。由此，通过对包含样本数量较少的模板组进行样本扩充，从而使得各个模板组对应的样本数量尽量均衡，尽量保证了抽取的训练样本中的样本类型的全面性和均衡，从而为提高模型的可靠性提供了条件。

在一种可能的实现方式中，在抽取训练样本时，还可以根据当前的训练任务，确定每个模板组对应的抽取规则，进而再抽取训练样本，下面结合图3对上述过程进行进一步说明。

步骤301，获取初始样本集，其中，初始样本集中包括多个样本及每个样本中各个分词对应的领域标签。

步骤302，将每个样本中各个分词，依次用对应的领域标签替换，以生成每个样本对应的模板。

步骤303，根据每个模板中包含的领域标签，将多个模板进行分类，以生成多个模板组。

步骤304，在任一模板组中任一领域标签的出现频率小于其余领域标签的出现频率的情况下，基于任一领域标签所在的模板及对应的关键词集中的各关键词，构建包含任一领域标签对应的关键词的第二扩充样本。

步骤305，将第二扩充样本，加入任一模板组对应的样本中。

比如说，任一模板组中任一领域标签为[饮品]，其出现频率小于其余领域标签的出现频率。可以先确定出在任一模板组中包含[饮品]的模板，比如可以为：[饮品]为饮料、饮料包括[饮品]等。之后，可以基于[饮品]对应的关键词集“牛奶、咖啡、橙汁、可乐、雪碧、苹果汁”等，依次用各关键词替换：[饮品]为饮料、饮料包括[饮品]二者中的[饮品]。替换结果即为第二扩充样本，其可以为：牛奶为饮料、咖啡为饮料、橙汁为饮料、可乐为饮料、雪碧为饮料、苹果汁为饮料、饮料包括牛奶、饮料包括咖啡、饮料包括橙汁、饮料包括可乐、饮料包括雪碧、饮料包括苹果汁。之后可以将生成的第二扩充样本，加入任一模板组对应的样本中，可使样本更加全面、均衡。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中任一领域标签及其所在的模板、任一领域标签对应的关键词、以及构建的第二扩充样本等的限定。

步骤306，根据每个模板组中的每个模板对应的样本数量，确定每个模板组对应的样本数量。

步骤307，确定当前的训练任务。

其中，训练任务可以有多种，比如可以为分类任务，或者，也可以为序列标注任务等，本公开对此不做限定。

步骤308，根据当前的训练任务，确定每个模板组对应的抽取规则。

步骤309，基于每个模板组对应的抽取规则，从每个模板组对应的样本中抽取训练样本，以生成训练样本集。

其中，对于不同的训练任务，每个模板组可能对应有不同的抽取规则。

比如说，当前的训练任务为序列标注任务，则可以在任一分词对应至少两个领域标签的情况下，确定至少两个领域标签分别对应的至少两个模板组，之后再确定至少两个模板组中，待抽取的包含任一分词的样本数量间的差值小于第二阈值。

其中，第二阈值，可以为设定好的任意数值，比如可以为10、25、60等，本公开对此不做限定。

举例来说，任一分词“山楂”对应的领域标签可以为[水果]、[药材]，[水果]对应的模板组可以为模板组A，[药材]对应的模板组可以为模板B。在模板组A中待抽取的包含“山楂”的样本数量为70，在模板组B中待抽取的包含“山楂”的样本数量为65，第二阈值为20，二者的差值小于第二阈值。之后，可以从模板组A对应的样本中抽取70个训练样本，在模板组B对应的样本中抽取65个训练样本，生成训练样本集。由此，对于对应于不同领域标签的任一分词，也可以保证抽取到的样本更加均衡，从而为提高模型的可靠性提供了条件。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中任一分词及其对应的领域标签、各个模板组中待抽取的样本数量及差值、第二阈值等的限定。

本公开实施例，首先获取初始样本集，之后可以将每个样本中各个分词，依次用对应的领域标签替换，以生成每个样本对应的模板，再根据每个模板中包含的领域标签，将多个模板进行分类，以生成多个模板组。在任一模板组中任一领域标签的出现频率小于其余领域标签的出现频率的情况下，构建包含任一领域标签对应的关键词的第二扩充样本，并将第二扩充样本，加入任一模板组对应的样本中，之后还可以根据当前的训练任务，确定出每个模板组对应的抽取规则，再对应抽取训练样本，生成训练样本集。由此，通过对出现频率较低的领域标签构造第二扩充样本以及根据不同的抽取规则抽取训练样本，从而尽量保证了抽取的训练样本中的样本类型的全面性和均衡，从而为提高模型的可靠性提供了条件。

为了实现上述实施例，本公开还提出一种训练样本的生成装置。图4为本公开实施例提供的一种训练样本的生成装置的结构示意图。

如图4所示，该训练样本的生成装置400，包括：获取模块410、第一生成模块420、第二生成模块430、确定模块440、第三生成模块450。

其中，获取模块410，用于获取初始样本集，其中，所述初始样本集中包括多个样本及每个样本中各个分词对应的领域标签。

第一生成模块420，用于将每个样本中各个分词，依次用对应的领域标签替换，以生成每个所述样本对应的模板。

第二生成模块430，用于根据每个模板中包含的领域标签，将多个所述模板进行分类，以生成多个模板组。

确定模块440，用于根据每个模板组中的每个模板对应的样本数量，确定每个所述模板组对应的样本数量。

第三生成模块450，用于从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集。

本公开实施例中的上述各模块的功能及具体实现原理，可参照上述各方法实施例，此处不再赘述。

本公开实施例的训练样本的生成装置，首先获取初始样本集，其中，初始样本集中包括多个样本及每个样本中各个分词对应的领域标签，之后可以将每个样本中各个分词，依次用对应的领域标签替换，以生成每个样本对应的模板，再根据每个模板中包含的领域标签，将多个模板进行分类，以生成多个模板组，之后根据每个模板组中的每个模板对应的样本数量，确定每个模板组对应的样本数量，再从每个模板组对应的样本中抽取训练样本，以生成训练样本集。由此，通过基于样本中每个分词对应的领域标签，将样本按照模板组进行划分，之后从每个模板组对应的样本中抽取训练样本，从而尽量保证了抽取的训练样本中的样本类型的全面性和均衡，从而为提高模型的可靠性提供了条件。

图5为本公开实施例提供的一种训练样本的生成装置的结构示意图。

如图5所示，该训练样本的生成装置500，包括：获取模块510、第一生成模块520、第二生成模块530、确定模块540、第三生成模块550、构建模块560、加入模块570。

其中，获取模块510，用于获取初始样本集，其中，所述初始样本集中包括多个样本及每个样本中各个分词对应的领域标签。

第一生成模块520，用于将每个样本中各个分词，依次用对应的领域标签替换，以生成每个所述样本对应的模板。

第二生成模块530，用于根据每个模板中包含的领域标签，将多个所述模板进行分类，以生成多个模板组。

确定模块540，用于根据每个模板组中的每个模板对应的样本数量，确定每个所述模板组对应的样本数量。

第三生成模块550，用于从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集。

在一种可能的实现方式中，第二生成模块530，具体用于确定包含领域标签的类型相同的各个模板属于同一模板组；或者，确定包含领域标签的类型相同、且各领域标签的顺序相同的各个模板属于同一模板组。

在一种可能的实现方式中，第二生成模块530，具体用于根据每个模板中包含的各个领域标签的类型，确定每个模板对应的关键领域标签；确定对应关键领域标签相同的各个模板属于同一模板组。

在一种可能的实现方式中，第一生成模块520，具体用于将每个样本中指定类型的分词，依次用对应的领域标签替换，以生成每个所述样本对应的模板。

在一种可能的实现方式中，确定模块540，还用于在任一模板组对应的样本数量与其他模板组对应的样本数量间的差值大于第一阈值的情况下，确定所述任一模板组对应的参考模板。

在一种可能的实现方式中，第一生成模块520，还用于从所述参考模板中每个领域标签对应的关键词集中分别抽取关键词，以生成包含所述关键词的第一扩充样本。

在一种可能的实现方式中，确定模块540，还用于将所述第一扩充样本，加入所述任一模板组对应的样本中。

在一种可能的实现方式中，确定模块540，还用于根据所述初始样本集中各个分词对应的领域标签，确定每个领域标签对应的关键词集。

在一种可能的实现方式中，确定模块540，具体用于确定所述任一模板组对应的主题；将所述任一模板组中任一模板中的与所述主题无关联的领域标签去除，以生成所述任一模板组对应的参考模板。

在一种可能的实现方式中，上述装置500，还包括：

构建模块560，用于在任一模板组中任一领域标签的出现频率小于其余领域标签的出现频率的情况下，基于所述任一领域标签所在的模板及对应的关键词集中的各关键词，构建包含所述任一领域标签对应的关键词的第二扩充样本；

加入模块570，用于将所述第二扩充样本，加入所述任一模板组对应的样本中。

在一种可能的实现方式中，第三生成模块550，包括：

第一确定单元5510，用于确定当前的训练任务；

第二确定单元5520，用于根据所述当前的训练任务，确定每个所述模板组对应的抽取规则；

生成单元5530，用于基于每个所述模板组对应的抽取规则，从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集。

在一种可能的实现方式中，第二确定单元5520，具体用于在任一分词对应至少两个领域标签的情况下，确定所述至少两个领域标签分别对应的至少两个模板组；确定所述至少两个模板组中，待抽取的包含所述任一分词的样本数量间的差值小于第二阈值。

可以理解的是，本公开实施例中的获取模块510、第一生成模块520、第二生成模块530、确定模块540、第三生成模块550可以分别与上述实施例中的获取模块410、第一生成模块420、第二生成模块430、确定模块440、第三生成模块450具有相同的结构和功能。

本公开实施例的训练样本的生成装置，在获取初始样本集之后，可以将每个样本中指定类型的分词，依次用对应的领域标签替换，以生成每个样本对应的模板，之后可以根据每个模板中各个领域标签的类型，确定出每个模板对应的关键领域标签，进而确定对应关键领域标签相同的各个模板属于同一模板组。还可以在任一模板组对应的样本数量与其他模板组对应的样本数量间的差值大于第一阈值的情况下，确定任一模板组对应的参考模板，之后根据参考模板对应生成第一扩充样本，并将其加入任一模板组对应的样本中，之后再从每个模板组中抽取训练样本，生成训练样本集。由此，通过对包含样本数量较少的模板组进行样本扩充，从而使得各个模板组对应的样本数量尽量均衡，尽量保证了抽取的训练样本中的样本类型的全面性和均衡，从而为提高模型的可靠性提供了条件。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如训练样本的生成方法。例如，在一些实施例中，训练样本的生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的训练样本的生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行训练样本的生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本公开的技术方案，首先获取初始样本集，其中，初始样本集中包括多个样本及每个样本中各个分词对应的领域标签，之后可以将每个样本中各个分词，依次用对应的领域标签替换，以生成每个样本对应的模板，再根据每个模板中包含的领域标签，将多个模板进行分类，以生成多个模板组，之后根据每个模板组中的每个模板对应的样本数量，确定每个模板组对应的样本数量，再从每个模板组对应的样本中抽取训练样本，以生成训练样本集。由此，通过基于样本中每个分词对应的领域标签，将样本按照模板组进行划分，之后从每个模板组对应的样本中抽取训练样本，从而尽量保证了抽取的训练样本中的样本类型的全面性和均衡，从而为提高模型的可靠性提供了条件。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种训练样本的生成方法，包括：

从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集；

在从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集之前，还包括：

在任一模板组中任一领域标签的出现频率小于其余领域标签的出现频率的情况下，基于所述任一领域标签所在的模板及对应的关键词集中的各关键词，构建包含所述任一领域标签对应的关键词的第二扩充样本；

将所述第二扩充样本，加入所述任一模板组对应的样本中;

在所述从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集之前，还包括：

在任一模板组对应的样本数量与其他模板组对应的样本数量间的差值大于第一阈值的情况下，确定所述任一模板组对应的参考模板；

从所述参考模板中每个领域标签对应的关键词集中分别抽取关键词，以生成包含所述关键词的第一扩充样本；

将所述第一扩充样本，加入所述任一模板组对应的样本中。

2.如权利要求1所述的方法，其中，所述根据每个模板中包含的领域标签，将多个所述模板进行分类，以生成多个模板组，包括：

确定包含领域标签的类型相同的各个模板属于同一模板组；

或者，

确定包含领域标签的类型相同、且各领域标签的顺序相同的各个模板属于同一模板组。

3.如权利要求1所述的方法，其中，所述根据每个模板中包含的领域标签，将多个所述模板进行分类，以生成多个模板组，包括：

根据每个模板中包含的各个领域标签的类型，确定每个模板对应的关键领域标签；

确定对应关键领域标签相同的各个模板属于同一模板组。

4.如权利要求1所述的方法，其中，所述将每个样本中各个分词，依次用对应的领域标签替换，以生成每个所述样本对应的模板，包括：

将每个样本中指定类型的分词，依次用对应的领域标签替换，以生成每个所述样本对应的模板。

5.如权利要求1所述的方法，其中，在所述从所述参考模板中每个领域标签关联的关键词集中分别抽取关键词之前，还包括：

根据所述初始样本集中各个分词对应的领域标签，确定每个领域标签对应的关键词集。

6.如权利要求1所述的方法，其中，所述确定所述任一模板组对应的参考模板，包括：

确定所述任一模板组对应的主题；

将所述任一模板组中任一模板中的与所述主题无关联的领域标签去除，以生成所述任一模板组对应的参考模板。

7.如权利要求1-4任一所述的方法，其中，所述从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集，包括：

确定当前的训练任务；

根据所述当前的训练任务，确定每个所述模板组对应的抽取规则；

基于每个所述模板组对应的抽取规则，从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集。

8.如权利要求7所述的方法，其中，所述当前的训练任务为序列标注任务，所述根据所述当前的训练任务，确定每个所述模板组对应的抽取规则，包括：

在任一分词对应至少两个领域标签的情况下，确定所述至少两个领域标签分别对应的至少两个模板组；

确定所述至少两个模板组中，待抽取的包含所述任一分词的样本数量间的差值小于第二阈值。

9.一种训练样本的生成装置，包括：

第三生成模块，用于从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集；

构建模块，用于在任一模板组中任一领域标签的出现频率小于其余领域标签的出现频率的情况下，基于所述任一领域标签所在的模板及对应的关键词集中的各关键词，构建包含所述任一领域标签对应的关键词的第二扩充样本；

加入模块，用于将所述第二扩充样本，加入所述任一模板组对应的样本中;

所述确定模块，还用于在任一模板组对应的样本数量与其他模板组对应的样本数量间的差值大于第一阈值的情况下，确定所述任一模板组对应的参考模板；

所述第一生成模块，还用于从所述参考模板中每个领域标签对应的关键词集中分别抽取关键词，以生成包含所述关键词的第一扩充样本；

所述确定模块，还用于将所述第一扩充样本，加入所述任一模板组对应的样本中。

10.如权利要求9所述的装置，其中，所述第二生成模块，具体用于：

确定包含领域标签的类型相同的各个模板属于同一模板组；

或者，

11.如权利要求9所述的装置，其中，所述第二生成模块，具体用于：

确定对应关键领域标签相同的各个模板属于同一模板组。

12.如权利要求9所述的装置，其中，所述第一生成模块，具体用于：

13.如权利要求9所述的装置，其中，

所述确定模块，还用于根据所述初始样本集中各个分词对应的领域标签，确定每个领域标签对应的关键词集。

14.如权利要求9所述的装置，其中，所述确定模块，具体用于：

确定所述任一模板组对应的主题；

15.如权利要求9-12任一所述的装置，其中，所述第三生成模块，包括：

第一确定单元，用于确定当前的训练任务；

第二确定单元，用于根据所述当前的训练任务，确定每个所述模板组对应的抽取规则；

生成单元，用于基于每个所述模板组对应的抽取规则，从每个所述模板组对应的样本中抽取训练样本，以生成训练样本集。

16.如权利要求15所述的装置，其中，所述第二确定单元，具体用于：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。