CN109242013B

CN109242013B - 一种数据标注方法、装置、电子设备及存储介质

Info

Publication number: CN109242013B
Application number: CN201810990917.9A
Authority: CN
Inventors: 叶锦宇; 刘玉明
Original assignee: Beijing Jiuhu Times Intelligent Technology Co ltd
Current assignee: Beijing Jiuhu Times Intelligent Technology Co ltd
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2021-06-08
Anticipated expiration: 2038-08-28
Also published as: CN109242013A

Abstract

本申请提供了一种数据标注方法，包括：根据N个第一数据集合中的样本数据以及每个所述第一数据集合中样本数据的人工标注，生成与每个所述第一数据集合对应的数据标注模型；基于N个所述数据标注模型对第二数据集合中样本数据进行预测的预测标注，以及所述第二数据集合中所述预测标注相同的比例小于或等于预设值的样本数据的人工标注，确定所述第二数据集合中样本数据的标注；利用所述第一数据集合与所述第二数据集合的样本数据和对应的标注，对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型。本申请实施例通过数据标注模型对数据标注，可节省人工成本。本申请实施例还提供的一种数据标注装置、电子设备及存储介质。

Description

一种数据标注方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其是涉及一种数据标注方法、装置、电子设备及存储介质。

背景技术

现今人工智能技术逐步发展，可以节省大量的人力成本。人工智能可以代替人工从事部分繁琐的事务，并且在医疗、电商、金融、教育等领域的取得了巨大的成功。影响人工智能产品的识别效果及交互效果的，除了人工智能算法之外，更重要的是用于模型训练的数据的数量和质量。

对于模型训练时使用的原始数据，传统的思路是，当原始数据积累到模型训练所需的数量时，由数据标注人员对原始数据进行筛选、标记。但是在用户和智能产品的交互过程中，每天会积累海量的原始数据，将几十万、甚至百万量级原始数据加工为训练数据，需要大量的标注人员，且标注工作繁琐且重复，人力成本过高，且标注结果受标注人员的主观因素影响。此外，一些大量数据对于模型准确率的提高作用很小，甚至成为噪声，对于模型最终的准确率起到反作用。

发明内容

有鉴于此，本申请的目的在于提供一种数据标注方法、装置、电子设备及存储介质，以提高数据标注的准确率，节省人工标注的人力成本。

第一方面，本申请实施例提供了一种数据标注方法，所述方法包括：

根据N个第一数据集合中的样本数据以及每个所述第一数据集合中样本数据的人工标注，生成与每个所述第一数据集合对应的数据标注模型；

基于N个所述数据标注模型对第二数据集合中样本数据进行预测的预测标注，以及所述第二数据集合中所述预测标注相同的比例小于或等于预设值的样本数据的人工标注，确定所述第二数据集合中样本数据的标注；

利用所述第一数据集合与所述第二数据集合的样本数据和对应的标注，对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型；其中，N为正整数。

上述技术方案中，所述基于N个所述数据标注模型对第二数据集合中样本数据进行预测的预测标注，以及所述第二数据集合中样本数据的人工标注，确定所述第二数据集合中样本数据的标注，包括：

分别利用N个所述数据标注模型对第二集合中的样本数据进行标注预测，得到每个样本数据的N个预测标注；

若所述样本数据的N个预测标注中预测标注相同的比例大于预设值，则将该样本数据确定为低价值数据，并将相同的预测标注确定为该样本数据的标注；

若所述样本数据的N个预测标注中预测标注相同的比例小于或等于预设值，则将该样本数据确定为高价值数据，并将该样本数据的人工标注确定为该样本数据的标注。

上述技术方案中，所述利用所述第一数据集合与所述第二数据集合的样本数据和对应的标注，对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型，包括：

基于所述第一数据集合与所述第二数据集合，构造第三数据集合；

将所述第三数据集合中的样本数据划分为M个子数据集；

利用所述M个子数据集中的样本数据及确定的样本数据的标注，分别对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型；其中，M为正整数。

上述技术方案中，所述基于所述第一数据集合与所述第二数据集合，构造第三数据集合，包括：

根据所述第二数据集合中样本数据的预测标注，对所述第二数据集合中样本数据中预测标注相同的比例小于或等于预设值的高价值数据进行复制；

将所述第一数据集合、所述第二数据集合中的样本数据，以及复制的高价值数据构造为所述第三数据集合。

上述技术方案中，根据以下步骤确定所述第一数据集合：

在原始样本数据中提取第一预设比例的样本数据，形成N个所述第一数据集合；

根据以下步骤确定所述第二数据集合：

在提取样本数据之后的剩余的原始样本数据中，提取第二预设比例的样本数据，形成所述第二数据集合。

上述技术方案中，所述得到用于数据标注的N个训练后的数据标注模型之后，还包括：

在剩余的原始样本数据中提取第三预设比例的样本数据，重新形成第二数据集合；

返回所述确定所述第二数据集合中样本数据的标注的步骤，直到不存在剩余的原始样本数据。

第二方面，本申请实施例提供了一种数据标注装置，所述装置包括：生成模块、确定模块和训练模块；其中，

所述生成模块，用于根据N个第一数据集合中的样本数据以及每个所述第一数据集合中样本数据的人工标注，生成与每个所述第一数据集合对应的数据标注模型；

所述确定模块，用于基于N个所述数据标注模型对第二数据集合中样本数据进行预测的预测标注，以及所述第二数据集合中所述预测标注相同的比例小于或等于预设值的样本数据的人工标注，确定所述第二数据集合中样本数据的标注；

所述训练模块，用于利用所述第一数据集合与所述第二数据集合的样本数据和对应的标注，对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型；其中，N为正整数。

上述技术方案中，所述确定模块，具体用于根据以下步骤确定所述第二数据集合中样本数据的标注：

第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本申请实施例提供的数据标注方法、装置及系统，利用N个第一数据集合中的样本数据及第一数据集合中样本数据的人工标注，可以得到与每个第一数据集合对应的数据标注模型，再利用得到的N个数据标注模型对第二数据结合中的样本数据进行标注，第二数据集合中每个样本数据可以得到N个预测标注，如果N个模型如果样本数据的预测标注中预测标注相同的比例小于或等于预设值，则将预测标注相同的比例小于或等于预设值的样本数据进行人工标注，从而可以确定第二数据集合中样本数据的标注，且减少人工标注的样本数据的数量，节省人力成本。确定第二数据集合中样本数据的标注之后，可以利用第一数据集合与第二数据集合的样本数据及样本数据对应的标注，对N个数据标注模型进行训练，进而可以以得性能得到提高的数据标注模型。这样，在进行数据标注时，可以利用通过上述方案得到性能优化后的N个数据标注模型，过滤大量的易标注的数据，筛选出不易标注的数据由人工进行标注，从而可以减少人工标注的数据量，与现有的人工标注方式相比，可以节省大量的人力成本，且可以客观地标注数据。此外，本方案提供的数据标注模型，可以不断地根据样本数据进行优化，从而可以更好地适应各种应用场景下的标注需求。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种数据标注方法的基本流程图；

图2示出了本申请实施例所提供的一种数据标注方法的具体流程图；

图3示出了本申请实施例所提供的一种数据标注方法的流程图；

图4示出了本申请实施例所提供的一种数据标注装置的虚拟模块示意图；

图5示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的数据标注方法，可以根据N个第一数据集合中的样本数据，以及每个第一数据集合中样本数据的人工标注，分别生成与每个第一数据集合对应的数据标注模型，得到N个数据标注模型。由于每个数据标注模型进行模型训练时，使用的样本数据不同，进而得到的N个数据标注模型也各不相同，从而可以利用N个数据标注模型的预测标注确定样本数据的标注。在得到N个数据标注模型之后，可以分别利用N个数据标注模型对第二数据集合中的样本数据进行标注预测，从而基于数据标注模型预测的预测标注，以及预测标注相同的比例小于或等于预设值的样本数据的人工标注，确定第二数据集合中样本数据的标注。这样，将预测标注相同的比例小于或等于预设值的样本数据由人工进行标注，而不是对全部的样本数据进行人工标注，可以节省大量人工成本。在确定第二数据集合中样本数据的标注之后，可以利用第一数据集合及第二数据集合中的样本数据和样本数据对应的标注，对得到的N个数据标注模型进行训练，得到性能优化的N个数据标注模型，从而可以进一步提升数据标注模型标注数据的准确率。

如果由专门的标注人员对数据进行人工标注，不仅会耗费大量的人力，标注结果还会受到标注人员的主观因素影响。如果利用预设筛选条件对数据进行筛选，预设筛选条件无法覆盖所有情况，难以适应分布不断变化的数据。因此，本申请实施提供的数据标注方案，不仅可以客观地对数据进行标注，还可以不断地进行性能优化，提高标注的准确率。

基于此，本申请实施例提供了一种数据标注方法、装置、电子设备或计算机存储介质应用于任何需要对数据标注或训练数据标注模型的场景，如应用于数据标注平台、数据标注设备等。本申请实施例并不对具体的应用场景作限制，任何使用本申请实施例提供的方法对数据进行标注的方案均在本申请保护范围内。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种数据标注方法进行详细介绍。

本申请实施例提供的数据标注方法的基本流程如图1所示，包括以下步骤：

S101，根据N个第一数据集合中的样本数据以及每个所述第一数据集合中样本数据的人工标注，生成与每个所述第一数据集合对应的数据标注模型。

在具体实施中，数据标注平台可以在原始样本数据中提取第一预设比例的样本数据，并将提取的样本数据划分为N个第一数据集合，进而可以利用N个第一数据集合中的样本数据及每个第一数据集合中样本数据的人工标注，进行模型训练，得到N个数据标注模型。

在提取第一预设比例的样本数据时，可以为非放回方式的提取，即，在提取第一预设比例的样本数据之后，原始样本数据中不再包括提取的第一预设比例的样本数据。在将提取的样本数据划分为N个第一数据集合时，可以将样本数据进行平均分，也可以进行随机划分。在利用N个第一数据集合进行模型训练时，每个第一数据集合的样本数据对应一个数据标注模型，即N个数据标注模型在训练时使用的样本数据对应于不同的第一数据集合。这样，由于每个数据标注模型对应的训练样本数据不同，得到的数据标注模型也不同，进而在可以利用N个数据标注模型分别对数据进行标注预测，准确性更高。其中的样本数据可以为图像数据、语音数据及视频数据等。

这里，数据标注平台可以在提取第一预设比例的样本数据之后，获取第一预设比例的样本数据的人工标注，并确定样本数据与人工标注的对应关系。在进行模型训练时，可以先构建N个基础模型，再利用第一数据集合中的样本数据及样本数据对应的人工标签，对N个基础模型进行模型训练，得到N个数据标注模型。具体如，可以将样本数据作为基础模型的输入，将与样本数据对应的人工标注作为基础模型的输出，从而可以由基础模型得到数据标注模型。

需要说明的是，在构建N个基础模型时，每个基础模型的结构可以相同，从而可以提高模型建立的效率。在一些实施方式中，每个基础模型的结构也可以不同，这样可以提高模型训练后的数据标注准确率。这里在构建基础模型时，可以选择现有的学习模型，如循环神经网络模型、递归神经网络模型或卷积网络模型，还可以建立新的网络模型，如设置神经元以及连接层的数量构建新的网络模型。

S102，基于N个所述数据标注模型对第二数据集合中样本数据进行预测的预测标注，以及所述第二数据集合中所述预测标注相同的比例小于或等于预设值的样本数据的人工标注，确定所述第二数据集合中样本数据的标注。

在具体实施中，数据标注平台可以先利用生成的N个数据标注模型对第二数据集合中的样本数据进行标注预测，得到预测标注。再根据样本数据的预测标注，获取预测标注相同的比例小于或等于预设值的样本数据的人工标注，确定第二数据集合中样本数据的标注。

这里，第二数据集合中的样本数据可以为由剩余的原始样本数据中提取的第二预设比例的样本数据。同样地，在提取第二预设比例的样本数据时，也可以为非放回方式的提取，即，在提取第二预设比例的样本数据之后，原始样本数据中不再包括提取的第二预设比例的样本数据。

具体如，可以分别利用N个数据标注模型对第二集合中的样本数据进行标注预测，得到每个样本数据的N个预测标注，并对每个样本数据的预测标注进行记录和统计。若样本数据的N个预测标注中预测标注相同的比例大于预设值，则可以将该样本数据确定为低价值数据，并将相同的预测标注确定为该样本数据的标注；若样本数据的N个预测标注中预测标注相同的比例小于或等于预设值，则将该样本数据确定为高价值数据，并可以将该样本数据的人工标注确定为该样本数据的标注。例如，某个样本数据共有10个预测标签，若该10个预测标签中存在7个相同的预测标签，则可以认为该样本数据为低价值数据，将相同的预测标注作为该样本数据的标签；若该样本数据的预测标签中存在5个相同的预测标签，则可以认为该样本数据为高价值数据，则可以将该样本数据交由标注人员进行人工标注，并将获取的该样本数据的人工标注作为该样本数据的标注。

S103，利用所述第一数据集合与所述第二数据集合的样本数据和对应的标注，对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型；其中，N为正整数。

在具体实施中，数据标注平台可以利用第一数据集合与第二数据集合的样本数据，构造第三数据集合，并将第三数据集合中的样本数据作为训练集，如将第三数据集合中的样本数据作为输入，将第三数据集合中的样本数据的标注作为输出，对S101中生成的数据标注模型进行训练，得到N个性能得到优化的数据标注模型。其中，第一数据集合中的样本数据对应的标签为S101中获取的人工标签，第二数据集合中的样本数据对应的标签为S102中确定的标签。

具体如，可以基于第一数据集合与第二数据集合，构造第三数据集合，并将第三数据集合中的样本数据划分为M个子数据集，利用划分的M个子数据集中的样本数据及确定的样本数据的标注，分别对N个数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型。例如，可以将第一数据集合中的样本数据与第二数据集合中的样本数据组成第三数据集合，并将第三数据集合中的样本数据划分为M个子数据集，利用M个子数据集中的样本数据对数据标注模型训练。在对数据标注模型训练时，若M小于N，则可以利用一个子数据集训练多个数据标注模型；若M大于N，则可以利用多个子数据集训练一个数据标注模型；若M等于N，则可以利用一个子数据集训练一个数据标注模型。在将第三数据集合中的样本数据划分为M个子数据集时，可以对第三数据集合中的样本数据随机进行划分，也可以对第三数据集合中的样本数据进行平均分。其中，M为正整数。

在一些实施方式中，在构造第三数据集合时，还可以根据第二数据集合中样本数据的预测标注，对第二数据集合中样本数据中预测标注相同的比例小于或等于预设值的高价值数据进行复制，进而将第一数据集合、第二数据集合中的样本数据，以及复制的高价值数据构造为第三数据集合。这样，可以增加高价值数据在第三数据集合的样本数据中的比例，从而在利用第三数据集合中的样本数据对数据标注模型进行训练时，可以提高数据标注模型对高价值数据预测标注的准确率，使更多的高价值数据转变为低价值数据，减少需要人工标注的数据量。

这里，在对高价值数据进行复制时，可以将高价值数据复制为多份，并根据高价值数据复制的份数确定高价值数据在第三数据集合的样本数据中的高价值数据比例，并为该高价值数据比例设置一个最大值或最佳值，如70％，从而可以使高价值数据不能进行无限复制，同时增加高价值数据在第三数据集合的样本数据中的比例。

在具体实施中，利用第三数据集合中的样本数据得到用于数据标注的N个训练后的数据标注模型之后，还可以在剩余的原始样本数据中提取第三预设比例的样本数据，重新形成第二数据集合，并返回确定所述第二数据集合中样本数据的标注的步骤，即步骤102，并重复上述步骤，直到不存在剩余的原始样本数据。这里，在剩余的原始样本数据中提取第三预设比例的样本数据时，可以为非放回方式的提取，即，在提取第三预设比例的样本数据之后，原始样本数据中不再包括提取的第三预设比例的样本数据。其中的第三预设比例可以与第二预设比例相同或不同。

通过上述数据标注方法，可以得到标注预测准确性较高的数据标注模型，在利用数据标注模型进行标注预测时，可以将数据分别输入至N个数据标注模型，根据N个数据标注模型输出的预测标注，若某个数据相同的预测标注的比例大于预设值，则可以认为该数据的预测标注准确，可以将预测标注相同的比例大于预设值的预测标注作为该数据的标注，若某个数据相同的预测标注的比例小于或等于预设值，则可以认为该数据的预测标注不准确，可以对该数据进行人工标注，并将该数据的人工标注作为该数据的标注。利用本申请实施提供的数据标注模型，可以过滤大部分的低价值数据，仅少量的高价值数据需要人工标注，进而可以节省大量的人工成本，同时，还可以通过调整训练集中高价值数据和低价值数据的比例，不断地对数据标注模型的性能进行优化，提高数据标注的准确率。

基于上述数据标注方法的说明，如图2所示，本申请实施例还提供了一种数据标注方法的具体流程，可以包括以下步骤：

S201，在原始样本数据中提取第一预设比例的样本数据，划分为N个第一数据集合，并获取提取第一预设比例的样本数据的人工标签。

这里，在提取第一预设比例的样本数据时，可以为非放回方式的提取，即，在提取第一预设比例的样本数据之后，原始样本数据中不再包括提取的第一预设比例的样本数据。在获取样本数据的人工标签时，可以仅为标注人员提供提取的第一预设比例的样本数据，从而可以节省标注人员的工作量。其中，N为正整数。

S202，利用N个第一数据集合中的样本数据及每个第一数据集合中样本数据的人工标注，对基础模型进行训练，得到N个数据标注模型。

在具体实施中，可以先构建N个基础模型，再利用第一数据集合中的样本数据及样本数据对应的人工标签，对N个基础模型进行模型训练，即可以将样本数据作为基础模型的输入，将与样本数据对应的人工标注作为基础模型的输出，得到N个数据标注模型。

S203，在剩余的原始样本数据中提取第二预设比例的样本数据，形成第二数据集合。

这里，在提取第二预设比例的样本数据时，可以为非放回方式的提取，即，在提取第二预设比例的样本数据之后，原始样本数据中不再包括提取的第二预设比例的样本数据。

S204，分别利用N个数据标注模型对第二数据集合中的样本数据进行标注预测，得到每个样本数据的N个预测标注。

在具体实施中，可以将第二数据集合中的每个样本数据分别输入N个数据标注模型中，得到每个样本数据的N个预测标注。

S205，判断每个样本数据的N个预测标注中相同的预测标注的比例是否大于预设值。

在具体实施中，可以对每个样本数据的预测标注进行记录，并统计每个样本数据的N个预测标注中相同的预测标注的数量，进而可以确定预测标注中相同的预测标注所占的比例，再将该比例与预设值进行比较，得到比较结果。

S206，若样本数据的N个预测标注中预测标注相同的比例小于或等于预设值，则将该样本数据确定为高价值数据，并可以将该样本数据的人工标注确定为该样本数据的标注。

例如，某个样本数据共有10个预测标签，若该样本数据的预测标签中存在5个相同的预测标签，预设值为6，则可以认为该样本数据为高价值数据，则可以将该样本数据交由标注人员进行人工标注，并将获取的该样本数据的人工标注作为该样本数据的标注。

S207，若样本数据的N个预测标注中预测标注相同的比例大于预设值，则可以将该样本数据确定为低价值数据，并将相同的预测标注确定为该样本数据的标注。

例如，某个样本数据共有10个预测标签，若该10个预测标签中存在7个相同的预测标签，预设值为6，则可以认为该样本数据为低价值数据，将相同的预测标注作为该样本数据的标签。

S208，根据第二数据集合中样本数据的预测标注，对第二数据集合中样本数据中预测标注相同的比例小于或等于预设值的高价值数据进行复制，将第一数据集合、第二数据集合中的样本数据，以及复制的高价值数据构造为第三数据集合。

在具体实施中，可以将高价值数据复制为多份，并根据高价值数据复制的份数确定高价值数据在第三数据集合的样本数据中的高价值数据比例，并为该高价值数据比例设置一个最大值或最佳值，从而可以使高价值数据不能进行无限复制的同时，增加高价值数据在第三数据集合的样本数据中的比例。

S209，将第三数据集合中的样本数据划分为M个子数据集，利用划分的M个子数据集中的样本数据及确定的样本数据的标注，分别对N个数据标注模型进行训练，得到N个训练后的数据标注模型。

在具体实施中，可以分别利用M个子数据集对N个数据标注模型进行训练，每个子数据集对应一个数据标注模型。具体地，可以某个子数据集的样本数据作为一个数据标注模型的输入，将该子数据集的样本数据的标注作为输出，进行数据标注模型的训练，从而可以得到性能得到优化的数据标注模型。这里，M为正整数。

S210，判断是否存在剩余的原始样本数据。

这里，在提取第一数据集合与第二数据集合的样本数据时，均可以为无放回提取，进而在对数据标注模型进行训练之后，可以判断是否存在剩余的原始样本数据。

S211，若存在剩余的原始样本数据，则在剩余的原始样本数据中提取第三预设比例的样本数据，重新形成第二数据结合，并返回S204的步骤。

在具体实施中，如果存在剩余的原始样本数据，则可以在剩余的原始样本数据中提取第三预设比例的样本数据，重新形成第二数据集合，并利用N个数据标注模型对第二数据集合中的样本数据进行标注预测，以确定每个样本数据的标注，再利用第一数据结合与第二数据集合的样本数据再次对数据标注模型进行训练，以得到性能优化的数据标注模型。

S212，若不存在剩余的原始样本数据，则完成数据标注模型的训练。

本申请实施例还提供了利用数据标注模型进行数据标注的过程，如图3所示，包括以下步骤：

S301，获取目标数据。

这里，目标数据可以为图像数据、语音数据及视频数据等需要进行标注的数据。

S302，将目标数据分别输入N个数据标注模型，得到N个预测标注。

在具体实施中，可以将目标数据依次输入N个数据标注模型，或者同时输入N个数据标注模型，得到目标数据的N个预测标注。这里，数据标注模型可以通过上述数据标注方法获得。

S303，判断N个预测标注中相同的预测标注的比例是否大于预设值。

在具体实施中，在具体实施中，可以对目标数据的预测标注进行记录，并统计目标数据的N个预测标注中相同的预测标注的数量，进而可以确定预测标注中相同的预测标注所占的比例，再将该比例与预设值进行比较，得到比较结果。

S304，若目标数据的N个预测标注中预测标注相同的比例大于预设值，则可以将相同的预测标注确定为该样本数据的标注。

在具体实施中，如果目标数据的N个预测标注中预测标注相同的比例大于预设值，则可以将该目标数据确定为低价值数据，可以认为数据标注模型的预测标注为准确的标注，进而可以将预测标注相同的比例大于预设值的预测标注作为目标数据的标注。

S305，若目标数据的N个预测标注中预测标注相同的比例小于或等于预设值，则可以将该样本数据的人工标注确定为该样本数据的标注。

在具体实施中，如果目标数据的N个预测标注中预测标注相同的比例小于或等于预设值，则可以将该目标数据确定为高价值数据，进而可以将目标数据进行人工标注，将该人工标注为目标数据的标注。

上述利用数据标注模型进行数据标注的方案，可以将过滤掉大量的低价值数据，仅将少部分的高价值数据交由标注人员进行人工标注，从而可以减少大量的人工成本，提高数据标注的效率。

基于相同的技术构思，本申请实施例还提供一种数据标注装置、电子设备、以及计算机存储介质等，具体可参见以下实施例。

本申请实施例所提供的数据标注装置40的虚拟模块如图4所示，包括：生成模块41、确定模块42和训练模块43。

所述生成模块41，用于根据N个第一数据集合中的样本数据以及每个所述第一数据集合中样本数据的人工标注，生成与每个所述第一数据集合对应的数据标注模型；

所述确定模块42，用于基于N个所述数据标注模型对第二数据集合中样本数据进行预测的预测标注，以及所述第二数据集合中所述预测标注相同的比例小于或等于预设值的样本数据的人工标注，确定所述第二数据集合中样本数据的标注；

所述训练模块43，用于利用所述第一数据集合与所述第二数据集合的样本数据和对应的标注，对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型；其中，N为正整数。

在具体实施中，所述确定模块42，具体用于根据以下步骤确定所述第二数据集合中样本数据的标注：

所述训练模块43，具体用于根据以下步骤得到用于数据标注的N个训练后的数据标注模型：

将所述第三数据集合中的样本数据划分为M个子数据集；

所述训练模块43，具体用于根据以下步骤构造第三数据集合：

所述训练模块43，具体用于根据以下步骤确定所述第一数据集合：

所述训练模块43，具体用于根据以下步骤确定所述第二数据集合：

所述训练模块43，还用于，

利用本申请实施提供的数据标注模型，可以过滤大部分的低价值数据，仅少量的高价值数据需要人工标注，进而可以节省大量的人工成本，同时，还可以通过调整训练集中高价值数据和低价值数据的比例，不断地对数据标注模型的性能进行优化，提高数据标注的准确率。

本申请实施例还提供的电子设备50的结构如图5所示，包括：处理器51、存储器52和总线53；

所述存储器存储52有所述处理器51可执行的机器可读指令，当电子设备运行时，所述处理器51与所述存储器52之间通过总线53通信，所述机器可读指令被所述处理器51执行时执行如下处理：

在具体实施中，上述处理器51执行的处理中，所述基于N个所述数据标注模型对第二数据集合中样本数据进行预测的预测标注，以及所述第二数据集合中样本数据的人工标注，确定所述第二数据集合中样本数据的标注，包括：

在具体实施中，上述处理器51执行的处理中，所述利用所述第一数据集合与所述第二数据集合的样本数据和对应的标注，对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型，包括：

将所述第三数据集合中的样本数据划分为M个子数据集；

在具体实施中，上述处理器51执行的处理中，所述基于所述第一数据集合与所述第二数据集合，构造第三数据集合，包括：

在具体实施中，上述处理器51执行的处理中，根据以下步骤确定所述第一数据集合：

根据以下步骤确定所述第二数据集合：

在具体实施中，上述处理器51执行的处理中，所述得到用于数据标注的N个训练后的数据标注模型之后，还包括：

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例提供的数据标注方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述数据标注的方法，从而解决目前由标注人员对数据进行人工标注的人工成本大的问题，进而为数据标注节省人工成本，提高数据标注效率。

本申请实施例所提供的数据标注的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据标注方法，其特征在于，所述方法包括：

利用所述第一数据集合与所述第二数据集合的样本数据和对应的标注，对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型；其中，N为正整数；

其中，所述基于N个所述数据标注模型对第二数据集合中样本数据进行预测的预测标注，以及所述第二数据集合中样本数据的人工标注，确定所述第二数据集合中样本数据的标注，包括：

若所述样本数据的N个预测标注中预测标注相同的比例小于或等于预设值，则将该样本数据确定为高价值数据，并将该样本数据的人工标注确定为该样本数据的标注；

所述利用所述第一数据集合与所述第二数据集合的样本数据和对应的标注，对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型，包括：

将所述第三数据集合中的样本数据划分为M个子数据集；

利用所述M个子数据集中的样本数据及确定的样本数据的标注，分别对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型；其中，M为正整数；

所述基于所述第一数据集合与所述第二数据集合，构造第三数据集合，包括：

根据所述第二数据集合中样本数据的预测标注，对所述第二数据集合中样本数据中预测标注相同的比例小于或等于预设值的高价值数据进行复制；其中，在对高价值数据进行复制时，可以将高价值数据复制为多份；

2.根据权利要求1所述的方法，其特征在于，根据以下步骤确定所述第一数据集合：

根据以下步骤确定所述第二数据集合：

3.根据权利要求2所述的方法，其特征在于，所述得到用于数据标注的N个训练后的数据标注模型之后，还包括：

4.一种数据标注装置，其特征在于，所述装置包括：生成模块、确定模块和训练模块；其中，

所述训练模块，用于利用所述第一数据集合与所述第二数据集合的样本数据和对应的标注，对N个所述数据标注模型进行训练，得到用于数据标注的N个训练后的数据标注模型；其中，N为正整数；

其中，所述确定模块，具体用于根据以下步骤确定所述第二数据集合中样本数据的标注：

所述训练模块，具体用于根据以下步骤得到用于数据标注的N个训练后的数据标注模型：

将所述第三数据集合中的样本数据划分为M个子数据集；

所述训练模块，具体用于根据以下步骤构造第三数据集合：

5.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的计算机程序，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述计算机程序时实现如权利要求1至3任一所述方法的步骤。

6.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至3任一所述方法的步骤。