CN111814819A

CN111814819A - 用于机器学习的混合数据标记方法

Info

Publication number: CN111814819A
Application number: CN202010286314.8A
Authority: CN
Inventors: 蔡孟庭; 王冠; 杜浩
Original assignee: Black Sesame Intelligent Technology Chongqing Co Ltd
Current assignee: Black Sesame Intelligent Technology Chongqing Co Ltd
Priority date: 2019-04-11
Filing date: 2020-04-13
Publication date: 2020-10-23
Anticipated expiration: 2040-04-13
Also published as: CN111814819B; US20200327374A1; US10867215B2

Abstract

一种用于机器学习的混合数据标记方法，包括接收未标记的多个对象，未标记的对象形成未标记数据集；通过机器学习系统对未标记数据集进行预标记以输出待定标记数据池；通过机器学习系统将待定标记数据池分为高置信度集和低置信度集；将高置信度集分发到机器标记者，并将低置信度集分发到人工标记者；合并标记集以返回预检查标记数据池；确定待定标记数据池和预检查标记数据池之间的差别；如果确定的数据对象的差别大于预定义的误差阈值，则检查性标记数据对象；如果确定数据对象的差别是小于和等于预定义的误差阈值，则将数据对象存储到已检查池。

Description

用于机器学习的混合数据标记方法

技术领域

本申请涉及卷积神经网络，具体地涉及提高数据标记的效率。

背景技术

如同孩子通过父母指着一张图片并告诉他/她该图像叫什么而被教导来学习说话，神经网也需要被教导。对于孩子，图片是元素而图片下的单词是标记。在某个时刻，孩子能够以相同的方式识别出香蕉，无论是黄色还是绿色的。神经网能够在某个时刻识别出相同的香蕉，无论是黄色还是绿色的，并随后将接下来的香蕉图片标记为香蕉。在教学的初始阶段小心谨慎是必需的，使得孩子不会感到困惑，只展示香蕉而不是展示大猩猩手中的香蕉。同样，初始训练和严格控制训练箱以显示所有香蕉但仅显示香蕉，也会影响神经网的准确性。父母(人类)训练和自我标记(机器预标记)之间的这种平衡可能很复杂且需要严格管理。

类似地，标记是监督学习中数据预处理的第一阶段。数据的预处理可以由机器预标记者和/或人工标记者执行。由于错误和数据不准确会对数据集质量构成负面影响(其随后影响预测模型的准确性)的事实，人工标记者小心是需要的。数据标记的一种方法是标记和未标记数据的半监督学习。

人们在寻求一种方法来有效地管理用于神经网络的混合智能标记。

发明内容

一种示例的用于机器学习的混合数据标记方法，包括以下中的至少一个：接收未标记的多个数据对象，其中未标记的数据对象形成未标记数据集；通过机器学习系统对未标记数据集进行预标记以输出待定标记数据池；通过机器学习系统将待定标记数据池分为高置信度集和低置信度集；将高置信度集分配给机器标记者以返回机器标记集；将低置信度集分配给至少一个人工标记者以返回一个人工定义标记集；合并机器标记集和人工定义标记集以返回预检查标记数据池；确定待定标记数据池和预检查标记数据池之间的差别；如果多个数据对象中的至少一个的确定的差别大于预定义的误差阈值，则检查性标记多个数据对象中的至少一个；如果多个数据对象中的至少一个的确定的差别是小于预定义的误差阈值和等于预定义的误差阈值中的至少一者，则将多个数据对象中的至少一个存储到一个已检查池中。

根据本申请的一个方面，提供示例的用于机器学习的混合数据标记方法，包括：接收未标记的多个数据对象，其中所述未标记的数据对象形成未标记数据集；通过机器学习系统对所述未标记数据集进行预标记以输出待定标记数据池；通过机器学习系统将所述待定标记数据池分为高置信度集和低置信度集；将所述高置信度集分配给机器标记者以返回机器标记集；将所述低置信度集分配给至少一个人工标记者以返回人工定义标记集；合并所述机器标记集和所述人工定义标记集以返回预检查标记数据池；确定所述待定标记数据池和所述预检查标记数据池之间的差别；如果对所述多个数据对象中的至少一个所确定的差别大于预定义的误差阈值，则检查性标记所述多个数据对象中的所述至少一个；如果对所述多个数据对象中的至少一个所确定的差别是小于所述预定义的误差阈值和等于所述预定义的误差阈值中的至少一者，则将所述多个数据对象中的所述至少一个存储到已检查池。

根据该示例的用于机器学习的混合数据标记方法，可选地，进一步包括：将所述已检查池和检查性标记的所述多个数据对象中的至少一个合并到可接受标记结果池；以及将所述可接受标记结果池存储到所述待定标记数据池。

根据该示例的用于机器学习的混合数据标记方法，可选地，进一步包括向所述检查性标记的所述多个数据对象中的至少一个添加元数据注释。

根据该示例的用于机器学习的混合数据标记方法，可选地，进一步包括当所述确定的差别大于所述预定义的误差阈值时，将高置信度集的一部分重置到所述低置信度集。

根据该示例的用于机器学习的混合数据标记方法，可选地，进一步包括当所述确定的差别大于所述预定义的误差阈值时，向所述至少一个人工标记者提供反馈。

根据该示例的用于机器学习的混合数据标记方法，可选地，进一步包括将低置信度集中的由所述至少一个人工标记者错误标记的对象分配给所述至少一个人工标记者中的另一个。

根据该示例的用于机器学习的混合数据标记方法，可选地，进一步包括基于所述检查性标记训练所述机器标记者。

根据该示例的用于机器学习的混合数据标记方法，其中，可选地，所述低置信度集的分配是基于预先计算的质量、客户提供的数量、招标价格和可用的注册人工中的至少一个。

根据该示例的用于机器学习的混合数据标记方法，其中，可选地，确定所述差别是基于标记的交并比。

根据该示例的用于机器学习的混合数据标记方法，其中，可选地，确定所述差别是基于对边界框的匹配。

根据该示例的用于机器学习的混合数据标记方法，其中，可选地，确定所述差别是基于自由空间差别。

附图说明

在图中：

图1是根据本申请的一个实施例的第一示例系统；

图2是根据本申请的一个实施例的第二示例系统；

图3是根据本申请的一个实施例的混合智能数据标记的示例流程；以及

图4是根据本申请的一个实施例的混合智能数据标记的示例方法。

具体实施方式

描述下面列出的实施例仅是为了说明此装置和方法的应用，并不用于限制保护范围。对这种装置和方法等同形式的修改应归入权利要求的保护范围内。

在贯穿以下说明和权利要求中，某些术语被用来指代特定系统组件。如本领域技术人员可以理解的，不同的公司可以用不同的名称来指代组件和/或方法。本文无意在名称不同但功能相同的组件和/或方法之间进行区分。

在以下的说明和权利要求中，术语“包括”和“包含”以开放式方式使用，因此可以解释为表示“包括但不限于……”。此外，术语“耦合”旨在表示间接或直接连接。因此，如果第一设备耦合到第二设备，该连接可以是通过直接连接或通过经由其他设备和连接件形成的间接连接。

图1描绘了一个示例混合计算系统100，其可用于实施与过程300和400的一个或多个部分或步骤的操作相关联的神经网。在该示例中，与混合系统相关联的处理器包括现场可编程门阵列(FPGA)122、图形处理器单元(GPU)120和中央处理单元(CPU)118。

处理单元118、120和122具有提供神经网的能力。CPU是可以执行许多不同功能的通用处理器，它的通用性使其具有执行多种不同任务的能力，但是，它对多个数据流的处理是有限的，并且其关于神经网络的功能也非常有限。GPU是图形处理器，具有能够按顺序处理并行任务的许多小型处理核。FPGA是一种现场可编程设备，它具有重新配置的能力，并且可以以硬接线电路方式执行可被编程到CPU或GPU中的任何功能。由于FPGA的编程采用电路形式，因此其速度比CPU快许多倍且也明显比GPU快。

存在系统可以包含的其他类型的处理器，例如包括带有芯片上GPU元件的CPU的加速处理单元(APU)和专用于执行高速数字数据处理的数字信号处理器(DSP)。专用集成电路(ASIC)也可执行FPGA的硬连线功能，但是，设计和生产ASIC的前置时间大约为一年的几个季度，而不像FPGA编程中可获得的快速周转实现。

图形处理器单元120、中央处理单元118和现场可编程门阵列122彼此连接并且连接到存储器接口和控制器112。FPGA通过可编程逻辑电路到存储器的互连130而连接到存储器接口。使用该额外的设备是由于FPGA以非常大的带宽运行的这样一个事实以及为了将FPGA中用来执行存储器任务的电子线路最小化。存储器和接口控制器112被另外连接到持久性存储磁盘110、系统存储器114和只读存储器(ROM)116。

可以利用图2的系统以对FPGA进行编程和训练。GPU可以很好地作用于非结构化数据并且可以被用于进行训练，一旦数据已经被训练，就可以找到确定性推理模型，并且CPU可以利用由GPU确定的模型数据对FPGA进行编程。

存储器接口和控制器连接到中央互连124，中央互连另外连接到GPU120、CPU118和FPGA122。中央互连124另外连接到输入和输出接口128以及网络接口126。

图2描绘了第二示例混合计算系统200，可用于实现与过程600的一个或多个部分或步骤的操作相关联的神经网。在该示例中，与混合系统相关联的处理器包括现场可编程门阵列(FPGA)210和中央处理单元(CPU)220。

FPGA210电连接到FPGA控制器212，FPGA控制器212与直接存储器访问(DMA)218接口连接。DMA连接到输入缓冲器214和输出缓冲器216，输入缓冲器214和输出缓冲器216两者都耦合到FPGA，以分别对进出FPGA的数据进行缓冲。DMA218具有两个先进先出(FIFO)缓冲器，一个用于主CPU，另一个用于FPGA，DMA允许对适当的缓冲器读写数据。

主开关228位于DMA的CPU侧上，主开关228将数据和命令传送到DMA。DMA还连接到同步动态随机存储器(SDRAM)控制器224，SDRAM控制器224允许数据从CPU220传送到FPGA和从FPGA传送到CPU220，SDRAM控制器还连接到外部SDRAM226和CPU220。主开关228连接到外围设备接口230。闪存控制器222控制持久性存储器并且连接到CPU220。

近年来，机器学习系统及其应用已得到越来越多的使用。许多机器学习系统和应用都依赖于监督学习，这意味着必须标记训练数据。标记任务因算法而异，一些描述自然语言段落的含义，一些描述图像中的对象，或绘制边界框(boundingbox)等。诸如深度学习的一些有效的机器学习算法通常需要数百万个标记数据对象才能正常运行。因此，标记训练数据对于机器学习系统和应用通常很重要，并且对人类来说是一项劳动密集型工作。标记数据的质量可能是机器学习系统正常运行的决定性因素。

许多不同的数据标记平台是可用的，它们通常依赖于雇用人员来标记客户定义的数据，然后将结果出售给应用提供者。在这样的平台中，在数据选择、清洗、标记以及结果检查和交付的整个过程中，都需要利用人力。

有一些自动化可帮助人员通过基于Web的门户完成该工作，然而，缺乏有效利用人力并同时训练机器标记者(也可称为机器标记器)的后端智能。后端智能被定义为循环预训练的机器学习，使得该系统理解数据、将数据分配给多个工人和机器标记者、收集结果、自动检查结果以及并向工人提供反馈，同时利用标记数据来训练机器标记者并自我管理整个循环。

在本申请中，描述了管理数据收集和进行标记的后端智能系统。混合智能数据标记系统具有若干组件，该若干组件协同工作以解决利用预训练的机器学习模型理解原始的、未标记的数据并预先标记对象，在最小化用于数据管理和质量检查的人工参与的同时利用智能数据分配系统提取关于标记任务的人类知识，以及利用标记的数据对经过预训练的机器学习模型进行再训练以提高其理解和标记数据的准确性。

所公开的系统通过使系统执行自检和自校正来更有效地利用人工参与。

传统上，人工已参与在标记的所有阶段中。例如，当客户提供诸如图像到标记的数据集时，人工标记者将查看大多数图像以确定其质量。许多人工标记者会查看每张图像并以符号表示其标记，而其他人则检查其他人所写的每个标记并进行更正。该传统过程是以人类劳动为中心的、人工密集型的过程，并且容易出错。

在所公开的系统和方法中，该过程中的一个显著部分是由预训练的机器学习模型来执行。人工参与用来保持核心效率，因此与传统标记相比，标记过程执行更快且更高效。

该系统是可区分的，这意味着它具有自其错误中学习并调整人工参与的能力，从而保持针对不同标记任务的精确标记生成。

人类劳动主要影响三个组成部分：预标记数据检查、标记和结果检查。传统平台利用专人或众包自由职业者(crowdsourcefreelancers)执行在这些组成部分中的任务。如果未达到期望的质量，则最终结果就是增加人工检查并重新标记。

在所公开的系统和方法中，如果未达到期望的质量，增加来自人工检查员的劳动；系统将接收反馈并提高人工标记者相对于机器标记者的比例。该质量检查带来更高准确度的标记并改进预训练的模型。预训练模型的改进反过来将产生更高质量的标记。此外，当不需要人工标记来提高质量时，人工可以转向其他优先任务。更合理的使用人工可以提高系统的效率并降低客户成本。

图3描述了该系统的一组示例性的构建块。虽然该示例中描述了图像标记，但是该系统可以与诸如文本、声音、信号数据、物理数据、生物数据、财务数据、天气数据以及运输数据等各种源一起使用。

当进入的训练数据被路由到服务器时，系统以机器标记者对对象进行预标记(301)。该步骤由于通过机器标记者来标记高置信度的对象而减少了人工标记者的工作量。机器标记者可以由CPU、GPU、FPGA、ASIC等实现。

在进入的训练数据被预标记之后，其被发送(302)到待定标记图像池。待定标记图像池是由客户提供的未标记图像和预标记数据的在线存储。

待定数据分配系统303基于图像标记质量、客户提供的数量、投标价格、可用的注册人工等，对待人工标记的图像进行优先排序。数据分配系统可以由CPU、GPU、FPGA、ASIC等实现。

标记者组304包括由机器标记者和人工标记者使用的机器学习算法。图像分配系统可以将图像分配为一个或多个组。由机器标记者所使用的机器学习算法可以是以公共数据集进行预先训练并通过内部再训练所定制的深度神经网络。通过将训练数据馈送到不同的组内，可以评估机器标记者的性能。人工标记者验证、纠正和/或删除由在步骤301中提到机器标记者生成的标记，并添加他们自己的标记以生成最终结果。

差别计算模块305比较由不止一个组所标记的图像之间的标记差别。通常通过标记的交并比(IOU)来计算差别。在图像标记域中，边界框差别比自由空间(freespace)差别更容易量化。差别计算模块可以由CPU、GPU、FPGA等实现。

单元基于差别模块的结果做出(306)系统将数据路由至步骤307、308或309的判定。确定模块对路由做出判定，并且可以由CPU、GPU、FPGA、ASIC等实现。

如果差别模块的结果小于预定阈值K，则系统将结果直接保存(307)到数据库。差别模型检测到的微小差别表明存在在多个标记者之间发现的微小标记差别。

如果差别计算模块的结果大于预定阈值K，则系统通过人工检查员发送(308)结果。在图表中标记为BST检查员的专用检查员或标记为检查员C的自由职业检查员判定是否要保存标记还是要重新标记对象。

如果标记结果是可接受的，则将标记保存(309)以供客户查看和下载，以及用作图像分配系统中机器标记者的训练数据。标记会被合并到可接受的标记结果池中，并存储在待定标记数据池中。

如果标记结果不可接受，则系统收集反馈并将图像标注为错误标记的对象，并添加元数据注释(310)。图像分配系统下次分配该图像时，将基于先前的反馈对其进行分配。在一个示例中，分配系统将图像分配给具有更多经验的其他人工标记者，并且避免将图像发送给之前对图像作出无效标记的人工标记者。这是系统可区分属性之一的示例。

一种示例差别模块算法可以包括为一个结果中具有边界框的多个标记对象匹配边界框的步骤。这需要在其它标记结果中找到最接近的边界框。

算法通过确定两个结果的边界框的中心、在其它结果中来找到最接近的中心点来匹配边界框，并且如果两个边界框的面积相似，且中心点在特定距离内，则确定这两个边界框具有相接近的中心。

但是，如果对于边界框而言最接近的中心点不接近，则确定边界框和另一结果中的边界框不匹配。

边界框的差别可以由边界框的交并比(IOU)确定。如果两个边界框覆盖相似的百分比区域，则将边界框确定为相似。

可以通过以下等式找到一个示例差别确定：

s＝100(2Ω/(a+β)-Cμ)

s：所确定的两个结果的差别

Ω：标记为相似的边界框的数量

a：结果A中的边界框的数量

β：结果B中的边界框的数量

μ：在其他结果中没有对应匹配的边界框的数量。

C：惩罚常数

图4描述了用于机器学习的混合数据标记的示例方法，该方法包括：接收(410)未标记的多个数据对象，其中未标记的数据对象形成未标记数据集，以及通过机器学习系统对未标记数据集进行预标记(412)以输出待定标记数据池。该方法还通过机器学习系统将待定标记数据池分为(414)高置信度集和低置信度集，将高置信度集分配(416)给机器标记者以返回机器标记集，以及将低置信度集分配(418)给至少一个人工标记者以返回一个人工定义标记集。该方法还包括合并(420)机器标记集和人工定义标记集以返回预检查标记数据池，确定(422)待定标记数据池和预检查标记数据池之间的差别，如果所述多个数据对象中的至少一个的所确定的差别大于预定义的误差阈值，则对所述多个数据对象中的所述至少一个进行检查性标记(424)，如果多个数据对象中的至少一个的所确定的差别是小于预定义的误差阈值和等于预定义的误差阈值中的至少一者，则将所述多个数据对象中的所述至少一个存储(426)到已检查池。

本领域的技术人员将了解，本文中所描述的各种说明性的块、模块、元件、部件、方法和算法可被实现为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性，已经根据它们的功能性对各种说明性的块、模块、元件、部件、方法和算法在上文做了大概描述。将这样的功能性实现为硬件还是软件取决于施加于整个系统的特定应用和设计约束。技术人员可以针对每个特定应用以不同方式实现所描述的功能性。在不脱离本主题技术的范围的情况下，各种部件和块可以不同地布置(例如，以不同的顺序布置，或以不同的方式划分)。

应理解，所公开的过程中的步骤的特定顺序或层次是对示例方法的说明。基于设计偏好，可以理解的是，过程中的步骤的特定顺序或层级可以重新排列。一些步骤可以同时执行。所附方法权利要求以样本顺序呈现各个步骤的元素，并不意在限于所呈现的特定顺序或层级。

提供前面的描述是为了使得任何本领域的技术人员都能够实践本文中所描述的各种方面。前面的描述提供了本主题技术的各种示例，并且本主题技术不限于这些示例。对于本领域技术人员来说，对这些方面的各种修改是明显的，并且本文定义的一般原理可以应用于其他方面。因此，权利要求不旨在限于本文所示的方面，而是旨在使全部范围与权利要求的语言表述相一致，其中除非具体如此陈述，对单数要素的引用并非旨在意为“一个且仅一个”，而是表示“一个或多个”。除非另外特别说明，否则术语“一些”是指一个或多个。男性的代词(例如，他的)包括女性和中性(例如，她的和它的)，反之亦然。标题和副标题(如果有的话)仅用于方便而使用，并不限制本发明。谓语词“被配置为”，“可操作为”和“被编程为”并不意味着对主语的任何特定的有形或无形修改，而是旨在可互换地使用。例如，被配置以监视和控制操作或部件的处理器，还可以意为该处理器被编程以监视和控制该操作，或者处理器可被操作以监视和控制该操作。同样地，被配置以执行代码的处理器可以解释为被编程以执行代码或可操作以执行代码的处理器。

诸如“方面”的短语并非表明这样的方面对于本主题技术是必不可少的，或者这样的方面适用于本主题技术的所有配置。涉及一方面的公开可适用于所有配置，或者一个或多个配置。一个方面可以提供一个或多个示例。诸如“方面”的短语可以指代一个或多个方面，反之亦然。诸如“实施例”的短语并非表明这样的实施例对于本主题技术是必不可少的，或者这样的实施例适用于本主题技术的所有配置。涉及一个实施例的公开可以适用于所有实施例，或者一个或多个实施例。实施例可以提供一个或多个示例。诸如“实施例”的短语可以指代一个或多个实施例，反之亦然。诸如“配置”之类的短语并不表明这种配置对于本主题技术是必不可少的，或者这种配置适用于本主题技术的所有配置。涉及一种配置的公开可以适用于所有配置，或者一个或多个配置。一种配置可以提供一个或多个示例。诸如“配置”的短语可以指代一个或多个配置，反之亦然。

本文所使用“示例”一词来表示“用作示例或说明”。本文中描述为“示例”的任何方面或设计并不必定被解释为比其他方面或设计更优选的或更具优势。

本领域普通技术人员已知或以后将会知道的贯穿本申请所描述的各个方面的元件等同的所有结构和功能通过引用被明确地并入本文，并且旨在由权利要求所涵盖。此外，无论在权利要求中是否明确地叙述了这样的公开，本文所公开的内容都不旨在捐献给公众。此外，关于说明书或权利要求中所使用的术语“包括”、“具有”或类似术语的含义，这样的术语旨在被包括在术语“包含”的方式内，类似于当“包括”在权利要求中被用作连接词时，对“包括”的解释那样。

对“一实施例”、“一个实施例”、“一些实施例”、“各种实施例”或类似表述的引用指示特定元件或特征包括于本发明的至少一个实施例中。尽管短语可能出现在各个地方，但短语不一定指的是同一实施例。连同本申请，本领域技术人员将能够设计和结合适合于实现上述功能的各种机制中的任何一种。

应当理解，本申请仅教导了说明性实施例的一个示例，并且本领域技术人员在阅读本申请之后能够容易地设计出本发明的许多变型，本发明的范围由以下权利要求确定。

Claims

1.一种用于机器学习的混合数据标记方法，包括：

接收未标记的多个数据对象，其中所述未标记的数据对象形成未标记数据集；

通过机器学习系统对所述未标记数据集进行预标记以输出待定标记数据池；

通过机器学习系统将所述待定标记数据池分为高置信度集和低置信度集；

将所述高置信度集分配给机器标记者以返回机器标记集；

将所述低置信度集分配给至少一个人工标记者以返回人工定义标记集；

合并所述机器标记集和所述人工定义标记集以返回预检查标记数据池；

确定所述待定标记数据池和所述预检查标记数据池之间的差别；

如果对所述多个数据对象中的至少一个所确定的差别大于预定义的误差阈值，则检查性标记所述多个数据对象中的所述至少一个；

如果对所述多个数据对象中的至少一个所确定的差别是小于所述预定义的误差阈值和等于所述预定义的误差阈值中的至少一者，则将所述多个数据对象中的所述至少一个存储到已检查池。

2.如权利要求1所述的混合数据标记方法，进一步包括：

将所述已检查池和检查性标记的所述多个数据对象中的至少一个合并到可接受标记结果池中；以及

将所述可接受标记结果池存储到所述待定标记数据池。

3.如权利要求2所述的混合数据标记方法，进一步包括向所述检查性标记的所述多个数据对象中的至少一个添加元数据注释。

4.如权利要求3所述的混合数据标记方法，进一步包括当所确定的差别大于所述预定义的误差阈值时，将高置信度集的一部分重置到所述低置信度集。

5.如权利要求4所述的混合数据标记方法，进一步包括当所确定的差别大于所述预定义的误差阈值时，向所述至少一个人工标记者提供反馈。

6.如权利要求5所述的混合数据标记方法，进一步包括将低置信度集中的由所述至少一个人工标记者错误标记的对象分配给所述至少一个人工标记者中的另一个。

7.如权利要求1所述的混合数据标记方法，进一步包括基于所述检查性标记训练所述机器标记者。

8.如权利要求1所述的混合数据标记方法，其中，所述低置信度集的分配是基于预先计算的质量、客户提供的数量、招标价格和可用的注册人工中的至少一个。

9.如权利要求1所述的混合数据标记方法，其中，确定所述差别是基于标记的交并比。

10.如权利要求1所述的混合数据标记方法，其中，确定所述差别是基于对边界框的匹配。

11.如权利要求1所述的混合数据标记方法，其中，确定所述差别是基于自由空间差别。