CN111814819A - 用于机器学习的混合数据标记方法 - Google Patents
用于机器学习的混合数据标记方法 Download PDFInfo
- Publication number
- CN111814819A CN111814819A CN202010286314.8A CN202010286314A CN111814819A CN 111814819 A CN111814819 A CN 111814819A CN 202010286314 A CN202010286314 A CN 202010286314A CN 111814819 A CN111814819 A CN 111814819A
- Authority
- CN
- China
- Prior art keywords
- data
- pool
- difference
- hybrid
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 38
- 238000002372 labelling Methods 0.000 title claims abstract description 27
- 239000003550 marker Substances 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 14
- 238000007689 inspection Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 241000234295 Musa Species 0.000 description 7
- 239000000872 buffer Substances 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 235000021015 bananas Nutrition 0.000 description 4
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241000282575 Gorilla Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
一种用于机器学习的混合数据标记方法,包括接收未标记的多个对象,未标记的对象形成未标记数据集;通过机器学习系统对未标记数据集进行预标记以输出待定标记数据池;通过机器学习系统将待定标记数据池分为高置信度集和低置信度集;将高置信度集分发到机器标记者,并将低置信度集分发到人工标记者;合并标记集以返回预检查标记数据池;确定待定标记数据池和预检查标记数据池之间的差别;如果确定的数据对象的差别大于预定义的误差阈值,则检查性标记数据对象;如果确定数据对象的差别是小于和等于预定义的误差阈值,则将数据对象存储到已检查池。
Description
技术领域
本申请涉及卷积神经网络,具体地涉及提高数据标记的效率。
背景技术
如同孩子通过父母指着一张图片并告诉他/她该图像叫什么而被教导来学习说话,神经网也需要被教导。对于孩子,图片是元素而图片下的单词是标记。在某个时刻,孩子能够以相同的方式识别出香蕉,无论是黄色还是绿色的。神经网能够在某个时刻识别出相同的香蕉,无论是黄色还是绿色的,并随后将接下来的香蕉图片标记为香蕉。在教学的初始阶段小心谨慎是必需的,使得孩子不会感到困惑,只展示香蕉而不是展示大猩猩手中的香蕉。同样,初始训练和严格控制训练箱以显示所有香蕉但仅显示香蕉,也会影响神经网的准确性。父母(人类)训练和自我标记(机器预标记)之间的这种平衡可能很复杂且需要严格管理。
类似地,标记是监督学习中数据预处理的第一阶段。数据的预处理可以由机器预标记者和/或人工标记者执行。由于错误和数据不准确会对数据集质量构成负面影响(其随后影响预测模型的准确性)的事实,人工标记者小心是需要的。数据标记的一种方法是标记和未标记数据的半监督学习。
人们在寻求一种方法来有效地管理用于神经网络的混合智能标记。
发明内容
一种示例的用于机器学习的混合数据标记方法,包括以下中的至少一个:接收未标记的多个数据对象,其中未标记的数据对象形成未标记数据集;通过机器学习系统对未标记数据集进行预标记以输出待定标记数据池;通过机器学习系统将待定标记数据池分为高置信度集和低置信度集;将高置信度集分配给机器标记者以返回机器标记集;将低置信度集分配给至少一个人工标记者以返回一个人工定义标记集;合并机器标记集和人工定义标记集以返回预检查标记数据池;确定待定标记数据池和预检查标记数据池之间的差别;如果多个数据对象中的至少一个的确定的差别大于预定义的误差阈值,则检查性标记多个数据对象中的至少一个;如果多个数据对象中的至少一个的确定的差别是小于预定义的误差阈值和等于预定义的误差阈值中的至少一者,则将多个数据对象中的至少一个存储到一个已检查池中。
根据本申请的一个方面,提供示例的用于机器学习的混合数据标记方法,包括:接收未标记的多个数据对象,其中所述未标记的数据对象形成未标记数据集;通过机器学习系统对所述未标记数据集进行预标记以输出待定标记数据池;通过机器学习系统将所述待定标记数据池分为高置信度集和低置信度集;将所述高置信度集分配给机器标记者以返回机器标记集;将所述低置信度集分配给至少一个人工标记者以返回人工定义标记集;合并所述机器标记集和所述人工定义标记集以返回预检查标记数据池;确定所述待定标记数据池和所述预检查标记数据池之间的差别;如果对所述多个数据对象中的至少一个所确定的差别大于预定义的误差阈值,则检查性标记所述多个数据对象中的所述至少一个;如果对所述多个数据对象中的至少一个所确定的差别是小于所述预定义的误差阈值和等于所述预定义的误差阈值中的至少一者,则将所述多个数据对象中的所述至少一个存储到已检查池。
根据该示例的用于机器学习的混合数据标记方法,可选地,进一步包括:将所述已检查池和检查性标记的所述多个数据对象中的至少一个合并到可接受标记结果池;以及将所述可接受标记结果池存储到所述待定标记数据池。
根据该示例的用于机器学习的混合数据标记方法,可选地,进一步包括向所述检查性标记的所述多个数据对象中的至少一个添加元数据注释。
根据该示例的用于机器学习的混合数据标记方法,可选地,进一步包括当所述确定的差别大于所述预定义的误差阈值时,将高置信度集的一部分重置到所述低置信度集。
根据该示例的用于机器学习的混合数据标记方法,可选地,进一步包括当所述确定的差别大于所述预定义的误差阈值时,向所述至少一个人工标记者提供反馈。
根据该示例的用于机器学习的混合数据标记方法,可选地,进一步包括将低置信度集中的由所述至少一个人工标记者错误标记的对象分配给所述至少一个人工标记者中的另一个。
根据该示例的用于机器学习的混合数据标记方法,可选地,进一步包括基于所述检查性标记训练所述机器标记者。
根据该示例的用于机器学习的混合数据标记方法,其中,可选地,所述低置信度集的分配是基于预先计算的质量、客户提供的数量、招标价格和可用的注册人工中的至少一个。
根据该示例的用于机器学习的混合数据标记方法,其中,可选地,确定所述差别是基于标记的交并比。
根据该示例的用于机器学习的混合数据标记方法,其中,可选地,确定所述差别是基于对边界框的匹配。
根据该示例的用于机器学习的混合数据标记方法,其中,可选地,确定所述差别是基于自由空间差别。
附图说明
在图中:
图1是根据本申请的一个实施例的第一示例系统;
图2是根据本申请的一个实施例的第二示例系统;
图3是根据本申请的一个实施例的混合智能数据标记的示例流程;以及
图4是根据本申请的一个实施例的混合智能数据标记的示例方法。
具体实施方式
描述下面列出的实施例仅是为了说明此装置和方法的应用,并不用于限制保护范围。对这种装置和方法等同形式的修改应归入权利要求的保护范围内。
在贯穿以下说明和权利要求中,某些术语被用来指代特定系统组件。如本领域技术人员可以理解的,不同的公司可以用不同的名称来指代组件和/或方法。本文无意在名称不同但功能相同的组件和/或方法之间进行区分。
在以下的说明和权利要求中,术语“包括”和“包含”以开放式方式使用,因此可以解释为表示“包括但不限于……”。此外,术语“耦合”旨在表示间接或直接连接。因此,如果第一设备耦合到第二设备,该连接可以是通过直接连接或通过经由其他设备和连接件形成的间接连接。
图1描绘了一个示例混合计算系统100,其可用于实施与过程300和400的一个或多个部分或步骤的操作相关联的神经网。在该示例中,与混合系统相关联的处理器包括现场可编程门阵列(FPGA)122、图形处理器单元(GPU)120和中央处理单元(CPU)118。
处理单元118、120和122具有提供神经网的能力。CPU是可以执行许多不同功能的通用处理器,它的通用性使其具有执行多种不同任务的能力,但是,它对多个数据流的处理是有限的,并且其关于神经网络的功能也非常有限。GPU是图形处理器,具有能够按顺序处理并行任务的许多小型处理核。FPGA是一种现场可编程设备,它具有重新配置的能力,并且可以以硬接线电路方式执行可被编程到CPU或GPU中的任何功能。由于FPGA的编程采用电路形式,因此其速度比CPU快许多倍且也明显比GPU快。
存在系统可以包含的其他类型的处理器,例如包括带有芯片上GPU元件的CPU的加速处理单元(APU)和专用于执行高速数字数据处理的数字信号处理器(DSP)。专用集成电路(ASIC)也可执行FPGA的硬连线功能,但是,设计和生产ASIC的前置时间大约为一年的几个季度,而不像FPGA编程中可获得的快速周转实现。
图形处理器单元120、中央处理单元118和现场可编程门阵列122彼此连接并且连接到存储器接口和控制器112。FPGA通过可编程逻辑电路到存储器的互连130而连接到存储器接口。使用该额外的设备是由于FPGA以非常大的带宽运行的这样一个事实以及为了将FPGA中用来执行存储器任务的电子线路最小化。存储器和接口控制器112被另外连接到持久性存储磁盘110、系统存储器114和只读存储器(ROM)116。
可以利用图2的系统以对FPGA进行编程和训练。GPU可以很好地作用于非结构化数据并且可以被用于进行训练,一旦数据已经被训练,就可以找到确定性推理模型,并且CPU可以利用由GPU确定的模型数据对FPGA进行编程。
存储器接口和控制器连接到中央互连124,中央互连另外连接到GPU120、CPU118和FPGA122。中央互连124另外连接到输入和输出接口128以及网络接口126。
图2描绘了第二示例混合计算系统200,可用于实现与过程600的一个或多个部分或步骤的操作相关联的神经网。在该示例中,与混合系统相关联的处理器包括现场可编程门阵列(FPGA)210和中央处理单元(CPU)220。
FPGA210电连接到FPGA控制器212,FPGA控制器212与直接存储器访问(DMA)218接口连接。DMA连接到输入缓冲器214和输出缓冲器216,输入缓冲器214和输出缓冲器216两者都耦合到FPGA,以分别对进出FPGA的数据进行缓冲。DMA218具有两个先进先出(FIFO)缓冲器,一个用于主CPU,另一个用于FPGA,DMA允许对适当的缓冲器读写数据。
主开关228位于DMA的CPU侧上,主开关228将数据和命令传送到DMA。DMA还连接到同步动态随机存储器(SDRAM)控制器224,SDRAM控制器224允许数据从CPU220传送到FPGA和从FPGA传送到CPU220,SDRAM控制器还连接到外部SDRAM226和CPU220。主开关228连接到外围设备接口230。闪存控制器222控制持久性存储器并且连接到CPU220。
近年来,机器学习系统及其应用已得到越来越多的使用。许多机器学习系统和应用都依赖于监督学习,这意味着必须标记训练数据。标记任务因算法而异,一些描述自然语言段落的含义,一些描述图像中的对象,或绘制边界框(boundingbox)等。诸如深度学习的一些有效的机器学习算法通常需要数百万个标记数据对象才能正常运行。因此,标记训练数据对于机器学习系统和应用通常很重要,并且对人类来说是一项劳动密集型工作。标记数据的质量可能是机器学习系统正常运行的决定性因素。
许多不同的数据标记平台是可用的,它们通常依赖于雇用人员来标记客户定义的数据,然后将结果出售给应用提供者。在这样的平台中,在数据选择、清洗、标记以及结果检查和交付的整个过程中,都需要利用人力。
有一些自动化可帮助人员通过基于Web的门户完成该工作,然而,缺乏有效利用人力并同时训练机器标记者(也可称为机器标记器)的后端智能。后端智能被定义为循环预训练的机器学习,使得该系统理解数据、将数据分配给多个工人和机器标记者、收集结果、自动检查结果以及并向工人提供反馈,同时利用标记数据来训练机器标记者并自我管理整个循环。
在本申请中,描述了管理数据收集和进行标记的后端智能系统。混合智能数据标记系统具有若干组件,该若干组件协同工作以解决利用预训练的机器学习模型理解原始的、未标记的数据并预先标记对象,在最小化用于数据管理和质量检查的人工参与的同时利用智能数据分配系统提取关于标记任务的人类知识,以及利用标记的数据对经过预训练的机器学习模型进行再训练以提高其理解和标记数据的准确性。
所公开的系统通过使系统执行自检和自校正来更有效地利用人工参与。
传统上,人工已参与在标记的所有阶段中。例如,当客户提供诸如图像到标记的数据集时,人工标记者将查看大多数图像以确定其质量。许多人工标记者会查看每张图像并以符号表示其标记,而其他人则检查其他人所写的每个标记并进行更正。该传统过程是以人类劳动为中心的、人工密集型的过程,并且容易出错。
在所公开的系统和方法中,该过程中的一个显著部分是由预训练的机器学习模型来执行。人工参与用来保持核心效率,因此与传统标记相比,标记过程执行更快且更高效。
该系统是可区分的,这意味着它具有自其错误中学习并调整人工参与的能力,从而保持针对不同标记任务的精确标记生成。
人类劳动主要影响三个组成部分:预标记数据检查、标记和结果检查。传统平台利用专人或众包自由职业者(crowdsourcefreelancers)执行在这些组成部分中的任务。如果未达到期望的质量,则最终结果就是增加人工检查并重新标记。
在所公开的系统和方法中,如果未达到期望的质量,增加来自人工检查员的劳动;系统将接收反馈并提高人工标记者相对于机器标记者的比例。该质量检查带来更高准确度的标记并改进预训练的模型。预训练模型的改进反过来将产生更高质量的标记。此外,当不需要人工标记来提高质量时,人工可以转向其他优先任务。更合理的使用人工可以提高系统的效率并降低客户成本。
图3描述了该系统的一组示例性的构建块。虽然该示例中描述了图像标记,但是该系统可以与诸如文本、声音、信号数据、物理数据、生物数据、财务数据、天气数据以及运输数据等各种源一起使用。
当进入的训练数据被路由到服务器时,系统以机器标记者对对象进行预标记(301)。该步骤由于通过机器标记者来标记高置信度的对象而减少了人工标记者的工作量。机器标记者可以由CPU、GPU、FPGA、ASIC等实现。
在进入的训练数据被预标记之后,其被发送(302)到待定标记图像池。待定标记图像池是由客户提供的未标记图像和预标记数据的在线存储。
待定数据分配系统303基于图像标记质量、客户提供的数量、投标价格、可用的注册人工等,对待人工标记的图像进行优先排序。数据分配系统可以由CPU、GPU、FPGA、ASIC等实现。
标记者组304包括由机器标记者和人工标记者使用的机器学习算法。图像分配系统可以将图像分配为一个或多个组。由机器标记者所使用的机器学习算法可以是以公共数据集进行预先训练并通过内部再训练所定制的深度神经网络。通过将训练数据馈送到不同的组内,可以评估机器标记者的性能。人工标记者验证、纠正和/或删除由在步骤301中提到机器标记者生成的标记,并添加他们自己的标记以生成最终结果。
差别计算模块305比较由不止一个组所标记的图像之间的标记差别。通常通过标记的交并比(IOU)来计算差别。在图像标记域中,边界框差别比自由空间(freespace)差别更容易量化。差别计算模块可以由CPU、GPU、FPGA等实现。
单元基于差别模块的结果做出(306)系统将数据路由至步骤307、308或309的判定。确定模块对路由做出判定,并且可以由CPU、GPU、FPGA、ASIC等实现。
如果差别模块的结果小于预定阈值K,则系统将结果直接保存(307)到数据库。差别模型检测到的微小差别表明存在在多个标记者之间发现的微小标记差别。
如果差别计算模块的结果大于预定阈值K,则系统通过人工检查员发送(308)结果。在图表中标记为BST检查员的专用检查员或标记为检查员C的自由职业检查员判定是否要保存标记还是要重新标记对象。
如果标记结果是可接受的,则将标记保存(309)以供客户查看和下载,以及用作图像分配系统中机器标记者的训练数据。标记会被合并到可接受的标记结果池中,并存储在待定标记数据池中。
如果标记结果不可接受,则系统收集反馈并将图像标注为错误标记的对象,并添加元数据注释(310)。图像分配系统下次分配该图像时,将基于先前的反馈对其进行分配。在一个示例中,分配系统将图像分配给具有更多经验的其他人工标记者,并且避免将图像发送给之前对图像作出无效标记的人工标记者。这是系统可区分属性之一的示例。
一种示例差别模块算法可以包括为一个结果中具有边界框的多个标记对象匹配边界框的步骤。这需要在其它标记结果中找到最接近的边界框。
算法通过确定两个结果的边界框的中心、在其它结果中来找到最接近的中心点来匹配边界框,并且如果两个边界框的面积相似,且中心点在特定距离内,则确定这两个边界框具有相接近的中心。
但是,如果对于边界框而言最接近的中心点不接近,则确定边界框和另一结果中的边界框不匹配。
边界框的差别可以由边界框的交并比(IOU)确定。如果两个边界框覆盖相似的百分比区域,则将边界框确定为相似。
可以通过以下等式找到一个示例差别确定:
s=100(2Ω/(a+β)-Cμ)
s:所确定的两个结果的差别
Ω:标记为相似的边界框的数量
a:结果A中的边界框的数量
β:结果B中的边界框的数量
μ:在其他结果中没有对应匹配的边界框的数量。
C:惩罚常数
图4描述了用于机器学习的混合数据标记的示例方法,该方法包括:接收(410)未标记的多个数据对象,其中未标记的数据对象形成未标记数据集,以及通过机器学习系统对未标记数据集进行预标记(412)以输出待定标记数据池。该方法还通过机器学习系统将待定标记数据池分为(414)高置信度集和低置信度集,将高置信度集分配(416)给机器标记者以返回机器标记集,以及将低置信度集分配(418)给至少一个人工标记者以返回一个人工定义标记集。该方法还包括合并(420)机器标记集和人工定义标记集以返回预检查标记数据池,确定(422)待定标记数据池和预检查标记数据池之间的差别,如果所述多个数据对象中的至少一个的所确定的差别大于预定义的误差阈值,则对所述多个数据对象中的所述至少一个进行检查性标记(424),如果多个数据对象中的至少一个的所确定的差别是小于预定义的误差阈值和等于预定义的误差阈值中的至少一者,则将所述多个数据对象中的所述至少一个存储(426)到已检查池。
本领域的技术人员将了解,本文中所描述的各种说明性的块、模块、元件、部件、方法和算法可被实现为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性,已经根据它们的功能性对各种说明性的块、模块、元件、部件、方法和算法在上文做了大概描述。将这样的功能性实现为硬件还是软件取决于施加于整个系统的特定应用和设计约束。技术人员可以针对每个特定应用以不同方式实现所描述的功能性。在不脱离本主题技术的范围的情况下,各种部件和块可以不同地布置(例如,以不同的顺序布置,或以不同的方式划分)。
应理解,所公开的过程中的步骤的特定顺序或层次是对示例方法的说明。基于设计偏好,可以理解的是,过程中的步骤的特定顺序或层级可以重新排列。一些步骤可以同时执行。所附方法权利要求以样本顺序呈现各个步骤的元素,并不意在限于所呈现的特定顺序或层级。
提供前面的描述是为了使得任何本领域的技术人员都能够实践本文中所描述的各种方面。前面的描述提供了本主题技术的各种示例,并且本主题技术不限于这些示例。对于本领域技术人员来说,对这些方面的各种修改是明显的,并且本文定义的一般原理可以应用于其他方面。因此,权利要求不旨在限于本文所示的方面,而是旨在使全部范围与权利要求的语言表述相一致,其中除非具体如此陈述,对单数要素的引用并非旨在意为“一个且仅一个”,而是表示“一个或多个”。除非另外特别说明,否则术语“一些”是指一个或多个。男性的代词(例如,他的)包括女性和中性(例如,她的和它的),反之亦然。标题和副标题(如果有的话)仅用于方便而使用,并不限制本发明。谓语词“被配置为”,“可操作为”和“被编程为”并不意味着对主语的任何特定的有形或无形修改,而是旨在可互换地使用。例如,被配置以监视和控制操作或部件的处理器,还可以意为该处理器被编程以监视和控制该操作,或者处理器可被操作以监视和控制该操作。同样地,被配置以执行代码的处理器可以解释为被编程以执行代码或可操作以执行代码的处理器。
诸如“方面”的短语并非表明这样的方面对于本主题技术是必不可少的,或者这样的方面适用于本主题技术的所有配置。涉及一方面的公开可适用于所有配置,或者一个或多个配置。一个方面可以提供一个或多个示例。诸如“方面”的短语可以指代一个或多个方面,反之亦然。诸如“实施例”的短语并非表明这样的实施例对于本主题技术是必不可少的,或者这样的实施例适用于本主题技术的所有配置。涉及一个实施例的公开可以适用于所有实施例,或者一个或多个实施例。实施例可以提供一个或多个示例。诸如“实施例”的短语可以指代一个或多个实施例,反之亦然。诸如“配置”之类的短语并不表明这种配置对于本主题技术是必不可少的,或者这种配置适用于本主题技术的所有配置。涉及一种配置的公开可以适用于所有配置,或者一个或多个配置。一种配置可以提供一个或多个示例。诸如“配置”的短语可以指代一个或多个配置,反之亦然。
本文所使用“示例”一词来表示“用作示例或说明”。本文中描述为“示例”的任何方面或设计并不必定被解释为比其他方面或设计更优选的或更具优势。
本领域普通技术人员已知或以后将会知道的贯穿本申请所描述的各个方面的元件等同的所有结构和功能通过引用被明确地并入本文,并且旨在由权利要求所涵盖。此外,无论在权利要求中是否明确地叙述了这样的公开,本文所公开的内容都不旨在捐献给公众。此外,关于说明书或权利要求中所使用的术语“包括”、“具有”或类似术语的含义,这样的术语旨在被包括在术语“包含”的方式内,类似于当“包括”在权利要求中被用作连接词时,对“包括”的解释那样。
对“一实施例”、“一个实施例”、“一些实施例”、“各种实施例”或类似表述的引用指示特定元件或特征包括于本发明的至少一个实施例中。尽管短语可能出现在各个地方,但短语不一定指的是同一实施例。连同本申请,本领域技术人员将能够设计和结合适合于实现上述功能的各种机制中的任何一种。
应当理解,本申请仅教导了说明性实施例的一个示例,并且本领域技术人员在阅读本申请之后能够容易地设计出本发明的许多变型,本发明的范围由以下权利要求确定。
Claims (11)
1.一种用于机器学习的混合数据标记方法,包括:
接收未标记的多个数据对象,其中所述未标记的数据对象形成未标记数据集;
通过机器学习系统对所述未标记数据集进行预标记以输出待定标记数据池;
通过机器学习系统将所述待定标记数据池分为高置信度集和低置信度集;
将所述高置信度集分配给机器标记者以返回机器标记集;
将所述低置信度集分配给至少一个人工标记者以返回人工定义标记集;
合并所述机器标记集和所述人工定义标记集以返回预检查标记数据池;
确定所述待定标记数据池和所述预检查标记数据池之间的差别;
如果对所述多个数据对象中的至少一个所确定的差别大于预定义的误差阈值,则检查性标记所述多个数据对象中的所述至少一个;
如果对所述多个数据对象中的至少一个所确定的差别是小于所述预定义的误差阈值和等于所述预定义的误差阈值中的至少一者,则将所述多个数据对象中的所述至少一个存储到已检查池。
2.如权利要求1所述的混合数据标记方法,进一步包括:
将所述已检查池和检查性标记的所述多个数据对象中的至少一个合并到可接受标记结果池中;以及
将所述可接受标记结果池存储到所述待定标记数据池。
3.如权利要求2所述的混合数据标记方法,进一步包括向所述检查性标记的所述多个数据对象中的至少一个添加元数据注释。
4.如权利要求3所述的混合数据标记方法,进一步包括当所确定的差别大于所述预定义的误差阈值时,将高置信度集的一部分重置到所述低置信度集。
5.如权利要求4所述的混合数据标记方法,进一步包括当所确定的差别大于所述预定义的误差阈值时,向所述至少一个人工标记者提供反馈。
6.如权利要求5所述的混合数据标记方法,进一步包括将低置信度集中的由所述至少一个人工标记者错误标记的对象分配给所述至少一个人工标记者中的另一个。
7.如权利要求1所述的混合数据标记方法,进一步包括基于所述检查性标记训练所述机器标记者。
8.如权利要求1所述的混合数据标记方法,其中,所述低置信度集的分配是基于预先计算的质量、客户提供的数量、招标价格和可用的注册人工中的至少一个。
9.如权利要求1所述的混合数据标记方法,其中,确定所述差别是基于标记的交并比。
10.如权利要求1所述的混合数据标记方法,其中,确定所述差别是基于对边界框的匹配。
11.如权利要求1所述的混合数据标记方法,其中,确定所述差别是基于自由空间差别。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/381,843 | 2019-04-11 | ||
US16/381,843 US10867215B2 (en) | 2019-04-11 | 2019-04-11 | Mixed intelligence data labeling system for machine learning |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814819A true CN111814819A (zh) | 2020-10-23 |
CN111814819B CN111814819B (zh) | 2024-02-20 |
Family
ID=72748016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010286314.8A Active CN111814819B (zh) | 2019-04-11 | 2020-04-13 | 用于机器学习的混合数据标记方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10867215B2 (zh) |
CN (1) | CN111814819B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955889A (zh) * | 2016-05-11 | 2016-09-21 | 南京大学 | 一种图形界面自动化测试方法 |
CN107004141A (zh) * | 2017-03-03 | 2017-08-01 | 香港应用科技研究院有限公司 | 对大样本组的高效标注 |
CN107067025A (zh) * | 2017-02-15 | 2017-08-18 | 重庆邮电大学 | 一种基于主动学习的数据自动标注方法 |
CN107220668A (zh) * | 2017-05-27 | 2017-09-29 | 深圳市唯特视科技有限公司 | 一种基于特定数据集识别物体不同艺术表现的方法 |
CN108428478A (zh) * | 2018-02-27 | 2018-08-21 | 东北师范大学 | 基于异质医疗数据挖掘的甲状腺癌风险预测方法 |
CN108875963A (zh) * | 2018-06-28 | 2018-11-23 | 北京字节跳动网络技术有限公司 | 机器学习模型的优化方法、装置、终端设备和存储介质 |
CN109241997A (zh) * | 2018-08-03 | 2019-01-18 | 硕橙(厦门)科技有限公司 | 一种生成训练集的方法及装置 |
US20190034766A1 (en) * | 2016-04-21 | 2019-01-31 | Sas Institute Inc. | Machine learning predictive labeling system |
US20190050368A1 (en) * | 2016-04-21 | 2019-02-14 | Sas Institute Inc. | Machine learning predictive labeling system |
US20190102674A1 (en) * | 2017-09-29 | 2019-04-04 | Here Global B.V. | Method, apparatus, and system for selecting training observations for machine learning models |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4439403A3 (en) * | 2016-11-23 | 2024-10-30 | Primal Fusion Inc. | System and method for training machine learning classifier |
US10769500B2 (en) * | 2017-08-31 | 2020-09-08 | Mitsubishi Electric Research Laboratories, Inc. | Localization-aware active learning for object detection |
CN108875768A (zh) * | 2018-01-23 | 2018-11-23 | 北京迈格威科技有限公司 | 数据标注方法、装置和系统及存储介质 |
US20200202210A1 (en) * | 2018-12-24 | 2020-06-25 | Nokia Solutions And Networks Oy | Systems and methods for training a neural network |
US11093798B2 (en) * | 2018-12-28 | 2021-08-17 | Palo Alto Research Center Incorporated | Agile video query using ensembles of deep neural networks |
-
2019
- 2019-04-11 US US16/381,843 patent/US10867215B2/en active Active
-
2020
- 2020-04-13 CN CN202010286314.8A patent/CN111814819B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190034766A1 (en) * | 2016-04-21 | 2019-01-31 | Sas Institute Inc. | Machine learning predictive labeling system |
US20190050368A1 (en) * | 2016-04-21 | 2019-02-14 | Sas Institute Inc. | Machine learning predictive labeling system |
CN105955889A (zh) * | 2016-05-11 | 2016-09-21 | 南京大学 | 一种图形界面自动化测试方法 |
CN107067025A (zh) * | 2017-02-15 | 2017-08-18 | 重庆邮电大学 | 一种基于主动学习的数据自动标注方法 |
CN107004141A (zh) * | 2017-03-03 | 2017-08-01 | 香港应用科技研究院有限公司 | 对大样本组的高效标注 |
CN107220668A (zh) * | 2017-05-27 | 2017-09-29 | 深圳市唯特视科技有限公司 | 一种基于特定数据集识别物体不同艺术表现的方法 |
US20190102674A1 (en) * | 2017-09-29 | 2019-04-04 | Here Global B.V. | Method, apparatus, and system for selecting training observations for machine learning models |
CN108428478A (zh) * | 2018-02-27 | 2018-08-21 | 东北师范大学 | 基于异质医疗数据挖掘的甲状腺癌风险预测方法 |
CN108875963A (zh) * | 2018-06-28 | 2018-11-23 | 北京字节跳动网络技术有限公司 | 机器学习模型的优化方法、装置、终端设备和存储介质 |
CN109241997A (zh) * | 2018-08-03 | 2019-01-18 | 硕橙(厦门)科技有限公司 | 一种生成训练集的方法及装置 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
Non-Patent Citations (6)
Title |
---|
INOUE NAOTO 等: "Multi-label Fashion Image Classification with Minimal Human Supervision", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS (ICCVW)》, pages 2261 - 2267 * |
KIM HYUNJOO 等: "Hybrid active learning for non-stationary streaming data with asynchronous labeling", 《2015 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》, pages 287 - 292 * |
刘军煜 等: "一种利用关联规则挖掘的多标记分类算法", 《软件学报》, vol. 28, no. 11, pages 2865 - 2878 * |
徐美香: "基于半监督的多标签图像分类技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 10, pages 138 - 509 * |
王占东: "基于多示例多标签学习的图像分类标注", 《中国博士学位论文全文数据库 (信息科技辑)》, no. 09, pages 138 - 870 * |
葛梦颖 等: "基于协同半监督的深度学习图像分类算法", 《计算机仿真》, vol. 36, no. 02, pages 196 - 200 * |
Also Published As
Publication number | Publication date |
---|---|
CN111814819B (zh) | 2024-02-20 |
US20200327374A1 (en) | 2020-10-15 |
US10867215B2 (en) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110176054A (zh) | 用于训练神经网络模型的合成图像的生成 | |
CN113723288B (zh) | 基于多模态混合模型的业务数据处理方法及装置 | |
CN111191445B (zh) | 广告文本分类方法及装置 | |
US20200302316A1 (en) | Question answering system influenced by user behavior and text metadata generation | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN114781402A (zh) | 问诊意图识别方法、装置、电子设备及可读存储介质 | |
CN112650867A (zh) | 图片匹配方法、装置、电子设备以及存储介质 | |
US20230177810A1 (en) | Performing semantic segmentation training with image/text pairs | |
CN110377733A (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN112951233A (zh) | 语音问答方法、装置、电子设备及可读存储介质 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN114676705B (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN106708791A (zh) | 数据格式转换方法及装置 | |
CN117974152A (zh) | 客户投诉数据分析方法、装置、存储介质及电子设备 | |
CN111814819B (zh) | 用于机器学习的混合数据标记方法 | |
US20230317058A1 (en) | Spoken language processing method and apparatus, and storage medium | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 | |
CN116263784A (zh) | 面向图片文本的粗粒度情感分析方法及装置 | |
CN115346095A (zh) | 视觉问答方法、装置、设备及存储介质 | |
CN115544210A (zh) | 基于持续学习的事件抽取的模型训练、事件抽取的方法 | |
CN110851572A (zh) | 会话标注方法、装置、存储介质及电子设备 | |
CN113761416A (zh) | 一种请求处理方法、装置、服务器和存储介质 | |
CN113392215A (zh) | 生产问题分类模型的训练方法、生产问题分类方法及装置 | |
US20240144373A1 (en) | Financial investment predictions and recommendations using neural networks | |
US20240144372A1 (en) | Financial investment predictions and recommendations using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |