CN109670554B

CN109670554B - 深度学习系统中数据集标注的管理方法和装置

Info

Publication number: CN109670554B
Application number: CN201811595957.XA
Authority: CN
Inventors: 李铭琨
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2021-04-02
Anticipated expiration: 2038-12-20
Also published as: CN109670554A

Abstract

本申请公开了一种深度学习系统中数据集标注的管理方法和装置。所述方法包括：在接收到用户标注数据集中数据的操作请求后，输出预先存储的数据集中已标注的数据，其中所述已标注的数据均有对应的基准标注结果，其中所述基准标注结果是经过验证正确性后得到的标注结果；获取所述用户对所述数据集中已标注的数据的标注结果；根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作。

Description

深度学习系统中数据集标注的管理方法和装置

技术领域

本申请涉及信息处理领域，尤指一种深度学习系统中数据集标注的管理方法和装置。

背景技术

深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示，以一幅画为例，观测值可以为每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务，例如，人脸识别或面部表情识别等。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

深度学习的数据来源是数据挖掘(Data mining)来得到的，数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。训练数据是指数据挖掘过程中用于训练数据挖掘模型的数据。训练数据选择一般有以下要求：数据样本尽可能大、数据多样化，数据样本质量较高。

在人工智能时代，深度学习作为一种强有力的技术已经开始改变我们生活的方方面面。在深度学习中，拥有数据量大，多样性高，样本质量高的数据集对于深度学习的训练和验证是十分必要的。但是获得高质量的数据集，需要花费大量的人力成本。

发明内容

为了解决上述技术问题，本申请提供了一种深度学习系统中数据集标注的管理方法和装置，能够降低数据集中数据的标注成本。

为了达到本申请目的，本申请提供了一种深度学习系统中数据集标注的管理方法，包括：

在接收到用户标注数据集中数据的操作请求后，输出预先存储的数据集中已标注的数据，其中所述已标注的数据均有对应的基准标注结果，其中所述基准标注结果是经过验证正确性后得到的标注结果；

获取所述用户对所述数据集中已标注的数据的标注结果；

根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作。

在一个示例性实施例中，所述根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作，包括：

根据所述数据的基准标注结果，判断所述用户对已标注的数据的标注结果的正确率信息；

将得到的正确率信息与预先设置的正确率阈值进行比较，得到比较结果；

如果比较结果为大于等于所述正确率阈值，则允许所述用户执行数据集的标注操作；否则，拒绝所述用户执行数据集的标注操作。

在一个示例性实施例中，所述根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作之后，所述方法还包括：

在确定允许对所述数据集进行标注操作之后，获取所述数据集中未标注的数据；

输出所述数据集中未标注的数据，请求所述用户进行标注操作；

在得到所述用户对所述未标注的数据的标注结果后，对所述未标注的数据的标注结果进行验证；

在验证通过后，保存所述用户对所述未标注的数据的标注结果。

在一个示例性实施例中，所述输出所述数据集中未标注的数据，包括：

输出所述数据集中已标注的数据和未标注的数据，其中所述未标注的数据占数据的量总和的比例小于等于m；

其中，m＝1-n；

其中，m表示未标注的数据的占全部数据的比例阈值，n表示已标注的数据的标注结果与基准标注结果的正确率阈值，m和n均为大于0的实数。

在一个示例性实施例中，所述输出所述数据集中未标注的数据，请求所述用户进行标注操作包括：

按照预先设置的输出顺序，将每条未标注的数据至少输出两次，请求所述用户进行标注操作；

所述对所述未标注的数据的标注结果进行验证，包括：

获取对同一条未标注的数据的至少两次的标注结果；

当所述至少两次的标注结果中同一标注结果的占比达到预先设置的阈值时，将占比达到所述阈值的标注结果作为所述未标注的数据的基准标注结果。

为了达到本申请目的，本申请提供了一种深度学习系统中数据集标注的管理装置，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

获取所述用户对所述数据集中已标注的数据的标注结果；

在一个示例性实施例中，所述处理器在实现根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作操作时，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

在一个示例性实施例中，所述处理器在实现根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作的操行之后，所述处理器调用所述存储器中的计算机程序以实现如下操作，还包括：

在一个示例性实施例中，所述处理器在实现输出所述数据集中未标注的数据的操作时，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

其中，m＝1-n；

在一个示例性实施例中，所述处理器在实现输出所述数据集中未标注的数据，请求所述用户进行标注操作的操作时，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

所述处理器在实现对所述未标注的数据的标注结果进行验证的操作时，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

获取对同一条未标注的数据的至少两次的标注结果；

本申请提供的实施例，在接收到用户标注数据集中数据的操作请求后，输出预先存储的数据集中已标注的数据，并获取所述用户对所述数据集中已标注的数据的标注结果，根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作，实现根据用户的标注结果和基准标注结果来判断用户标注行为是否合理行为的目的，从而控制是否允许用户进行数据集标注操作的目的，保证用户的标注行为的合理性，保证数据集标注行为的准确性，减少数据集标注行为的失误性发生的概率，保证数据集标注行为的有效性,达到降低数据集中数据的标注成本的目的。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请提供的深度学习系统中数据集标注的管理方法的流程图；

图2为本申请提供的深度学习系统中数据集标注的管理方法的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请提供的深度学习系统中数据集标注的管理方法的流程图。

图1所示方法包括：

步骤101、在接收到用户标注数据集中数据的操作请求后，输出预先存储的数据集中已标注的数据，其中所述已标注的数据均有对应的基准标注结果，其中所述基准标注结果是经过验证正确性后得到的标注结果；

在一个示例性实施例中，采用公开数据集或者人工标注一个新的数据集进行输出操作；

其中上述数据集中的数据的标注结果已经被验证正确性，以便后续对用户的标注结果进行验证；

步骤102、获取所述用户对所述数据集中已标注的数据的标注结果；

上述获取操作，可以是在用户对数据进行标注完成后，由用户主动发送后接收的，或者，可以向用户请求获取标注结果的方式获取的；

步骤103、根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作。

通过所述用户对已标注的数据的标注结果以及所述基准标注结果，验证用户的标注行为是否合理，其中不合理的行为可以为随机标注或错误标注的行为，从而控制是否允许所述用户执行数据集的标注操作；

在本示例性实施例中，根据用户的标注结果与基准标注结果，可以计算出用户的标注行为的正确率，通过将该正确率与正确率阈值的比较，如果比较结果为大于等于所述正确率阈值，表示该用户的标注行为合理，则允许所述用户执行数据集的标注操作；否则，表示该用户的标注行为合理，拒绝所述用户执行数据集的标注操作。

本申请提供的方法实施例，在接收到用户标注数据集中数据的操作请求后，输出预先存储的数据集中已标注的数据，并获取所述用户对所述数据集中已标注的数据的标注结果，根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作，实现根据用户的标注结果和基准标注结果来判断用户标注行为是否合理行为的目的，从而控制是否允许用户进行数据集标注操作的目的，保证用户的标注行为的合理性，保证数据集标注行为的准确性，减少数据集标注行为的失误性发生的概率，保证数据集标注行为的有效性,达到降低数据集中数据的标注成本的目的。

下面对本申请提供的方法作进行说明：

在一个示例性实施例中，输出预先存储的数据集中已标注的数据，包括：

获取用户请求执行标注操作的数据集；

获取所述数据集的已标注的数据，并输出；

所述根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作，包括：

根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户对所述数据集中的数据进行标注操作。

在本示例性实施例中，由于在验证用户的标注行为的合理性时使用的数据集为数据集A，在允许所述用户进行标注操作后，允许所述用户对该数据集A中未标注的数据进行标注。

如果检测到用户对其他数据集进行标注的请求时，则需利用用户请求的数据集中已标注的数据进行重新判断，即执行上文步骤101至103的步骤，在确定允许所述用户进行标注后，再输出用户请求的数据集中已标注的数据。

通过上述合理性判断流程，可以判断该用户对该数据集的数据具有所需的判别能力，因此，允许该数据集内的数据进行标注操作，可以提高数据集标准行为的准确性，保证标准行为的有效性。

在本示例性实施例中，通过上述流程，执行未标注的数据的标注操作，可以提高标注操作有效性。

其中，m＝1-n；

在本示例性实施例中，通过有效控制未标注的数据的比例，可以协助用户根据已标注的数据对未标注的数据的标注操作提供参考，提高数据的标注行为的有效性，提高标注行为的效率。

所述对所述未标注的数据的标注结果进行验证，包括：

获取对同一条未标注的数据的至少两次的标注结果；

在本示例性实施例中，当同一条未标注数据连续多次被标注为同一属性时，将这条数据从未标注数据集移动到新标注数据集中，提高数据标注行为的准确性，提高数据标注行为的有效性。

图2为本申请提供的深度学习系统中数据集标注的管理方法的示意图。如图2所示，本申请的系统包括：原始验证数据集、验证装置、未标注数据集和新标注数据集，其中：

验证装置部署在任意的登录系统中，通过用户标记验证码的方式对数据进行标注；

用户进行登录时可以采取预设的三个阶段的策略进行数据集的标注，包括：

第一阶段，验证装置中完全采用原始的人工标注的完全正确的数据集，用户登录时，会用此数据集中的数据的进行检验，只有用户标记正确才会通过验证；

第二阶段，在该装置正常运行一段时间后，依然采用原始验证数据集让用户进行登录验证，但是此时不做正确与否的验证，统计第二阶段的用户登录的验证的正确率，如果正确率在75％以上则进入第三阶段，否则返回第一阶段；

第三阶段，采用第一阶段的策略继续验证正确数据集，另外会将未标注的数据取出让用户进行标记，每条数据都会被重复使用多次，如果这数据被连续标注相同的结果，将条数据添加到新标注的数据集中，直到未标注数据集中的数据全部被标记完成。其中原始验证数据集与未标注的数据集在这一阶段的使用比例为3:1。

本申请提供的实施例，提供一种数据集标注的管理方法，来代替人工标注数据集的成本高的特点，能够大量的标注数据集，减少了在数据集标记上花费的成本，使得在制作深度学习数据集时减少了人工的成本，而且能够获得较高的效率，产生较高质量的数据集，提高了数据集标注操作的效率。

本申请提供一种深度学习系统中数据集标注的管理装置，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

获取所述用户对所述数据集中已标注的数据的标注结果；

其中，m＝1-n；

获取对同一条未标注的数据的至少两次的标注结果；

本申请提供的装置实施例，在接收到用户标注数据集中数据的操作请求后，输出预先存储的数据集中已标注的数据，并获取所述用户对所述数据集中已标注的数据的标注结果，根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作，实现根据用户的标注结果和基准标注结果来判断用户标注行为是否合理行为的目的，从而控制是否允许用户进行数据集标注操作的目的，保证用户的标注行为的合理性，保证数据集标注行为的准确性，减少数据集标注行为的失误性发生的概率，保证数据集标注行为的有效性,达到降低数据集中数据的标注成本的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种深度学习系统中数据集标注的管理方法，其特征在于，包括：

获取所述用户对所述数据集中已标注的数据的标注结果；

根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作；

在确定允许对所述数据集进行标注操作之后，输出所述数据集中已标注的数据和未标注的数据，其中所述未标注的数据占全部数据的比例小于等于m；

其中，m＝1-n；

其中，m表示未标注的数据占全部数据的比例阈值，n表示已标注的数据的标注结果与基准标注结果的正确率阈值，m和n均为大于0的实数。

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于：

所述输出所述数据集中未标注的数据，请求所述用户进行标注操作包括：

所述对所述未标注的数据的标注结果进行验证，包括：

获取对同一条未标注的数据的至少两次的标注结果；

5.一种深度学习系统中数据集标注的管理装置，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

获取所述用户对所述数据集中已标注的数据的标注结果；

其中，m＝1-n；

6.根据权利要求5所述的装置，其特征在于，所述处理器在实现根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作时，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

7.根据权利要求5或6所述的装置，其特征在于，所述处理器在实现根据所述用户对已标注的数据的标注结果以及所述基准标注结果，确定是否允许所述用户执行数据集的标注操作的操行之后，所述处理器调用所述存储器中的计算机程序以实现如下操作，还包括：

8.根据权利要求7所述的装置，其特征在于：

所述处理器在实现输出所述数据集中未标注的数据，请求所述用户进行标注操作的操作时，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

获取对同一条未标注的数据的至少两次的标注结果；