CN108898225A - 基于人机协同学习的数据标注方法 - Google Patents

基于人机协同学习的数据标注方法 Download PDF

Info

Publication number
CN108898225A
CN108898225A CN201810416774.0A CN201810416774A CN108898225A CN 108898225 A CN108898225 A CN 108898225A CN 201810416774 A CN201810416774 A CN 201810416774A CN 108898225 A CN108898225 A CN 108898225A
Authority
CN
China
Prior art keywords
data
mark
training
classifier
personnel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810416774.0A
Other languages
English (en)
Other versions
CN108898225B (zh
Inventor
冯翱
高正杰
吴锡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Chengdu University of Information Technology
Original Assignee
Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhi Rui Tong Tuo Technology Co Ltd, Chengdu University of Information Technology filed Critical Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Priority to CN201810416774.0A priority Critical patent/CN108898225B/zh
Publication of CN108898225A publication Critical patent/CN108898225A/zh
Application granted granted Critical
Publication of CN108898225B publication Critical patent/CN108898225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于人机协同学习的数据标注方法,其包括:1、由领域专家制定分类标准和标注规范,并给出样例作为金标数据;2、以金标数据作为聚类的中心点对数据进行聚类处理,选出银标数据来训练标注人员,利用金标数据对标注人员进行测试,测试通过即可进行下一步的标注;3、利用金标数据和银标数据作为训练集对未分类的数据进行分类,得到的置信度高的数据可直接采用,并将其加入训练数据集重新训练分类器;4、从待标注数据集中选取出最值得标注的数据,分发给标注人员进行标注,将得到的标注结果加入训练集重新训练分类器;迭代步骤3和4,直至分类器的精度达到预设的阈值。本发明能够有效降低人工标注的成本,同时保证标注的高质量。

Description

基于人机协同学习的数据标注方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于人机协同学习的数据标注方法。
背景技术
随着大数据时代的来临,人工智能和机器学习飞速发展,对于数据集的需求也越来越迫切,需要对海量数据进行快速的标注。其中,通过专家标注的数据称之为黄金标准数据,简称为金标数据。专家标注数据的优点在于标注质量非常高,缺点则在于标注效率较低,数据量太少,标注的成本太高。另一种通过众包标注方法标注的数据称为银标数据,它的优点在于成本相对较低,标注效率较高,缺点则是标注质量参差不齐。
机器学习作为人工智能的一个重要研究方向目前面临着的现实情况是:未知分类标签的数据众多,并且容易获得,而已知分类标签的数据数目稀少,难于获得。研究表明,对于训练样例的精确标记不但需要该领域中大量的标注者参与,并且标记样例花费的时间是其获取时间的10倍以上。一般采用的数据集标注方法有传统手工标注、机器学习标注以及众包标注。在这些方法中:
传统的手工标注方法:一般由领域专家负责,标注质量较高,但是需要耗费大量的人力物力财力,标注速度较慢。
机器学习标注方法:利用支持向量机、朴素贝叶斯等有监督的机器学习算法,标注速度快,但是需要大量的金标数据来训练分类器,否则质量得不到保障;
众包标注方法:标注成本低,速度快,但是由于众包平台本身开放自由的工作组织模式,平台中参与众包标注任务的标注者来源不同,标注者的工作目的及动机多样,标注者具备的技能参差不齐,部分标注者没有认真地完成工作,所提交的标签不准确,质量不高。
现有的与数据标注相关的技术方案包括:
1、以众包理论为基础,针对标注任务,制定各项任务的标注体系和标注规范,然后随机抽取样本让领域专家进行标注。然而,该方案对专家的依赖度太高,大量数据需要专家进行复核,工作量太大;并且标注的样本的是随机抽取的,在类型较多的情况下,很难做到均匀分布,对于样本数据较少的类型很难得到精度较高的分类。
2、利用领域专家标注的金标数据和标注规则对普通标注人员进行培训,让普通标注人员也能充当领域专家的角色,以此来减轻领域专家的工作量。该方案对金标数据的依赖度太高,需要大量的金标数据和相应的专家来训练标注人员,通过培养领域专家的方式来提高标注效率,但方案1的问题不能得到根本解决。
3、在多分类问题或垂直领域的多层分类问题上,普遍的标注方法是在标注的时候直接一次性就将所有标签标注完毕。多分类或多层分类问题对于标注数量的要求非常大,并且在解决多层分类问题的时候往往需要一次性就标注多个标签,而对于普通标注人员来说无疑是非常痛苦的,因为他们并不是领域专家,他们在经过简单培训后相对更擅长做的是二分类问题,即进行“是”和“否”的判断。因此,该方案存在对普通标注人员要求过高,并且标注效率不高的不足。
4、针对多分类问题,在采集数据的时候就有意识的采集不同类型的数据,分别进行标注。然而,在多数情况下,随着分类的层数加深和类别加多,导致很多类型无法取到足够的样本数据进行标注,在这种训练数据不足的情况下,很难得到一个高精度的分类器。
综上所述,如何以较少的人力投入来得到较高质量和数量的标注数据成为了目前亟待解决的问题。
发明内容
针对现有技术之不足,本发明提出了一种基于人机协同学习的数据标注方法,其包括以下步骤:
步骤1:由领域专家制定分类标准和标注规范,并针对每一个类别都给出样例作为金标数据;
步骤2:以所述金标数据作为聚类的中心点对数据进行聚类处理,选出与所述金标数据相似度不低于90%的数据作为银标数据来训练标注人员,然后利用所述金标数据对标注人员进行测试,测试通过即可进行下一步的标注,否则继续进行标注规则的学习;
步骤3:利用所述金标数据和银标数据作为训练集,对未分类的数据I进行分类,得到的置信度不低于90%的数据可以直接采用,并且将其加入训练数据集重新训练分类器,得到分类器的模型参数w;对于置信度低于90%的数据则放回待标注数据集中;
步骤4:利用主动学习理论,从待标注数据集中选取出最值得标注的数据C,分发给标注人员进行标注,其中,
C=ar gmax P(C|I,w)
然后将得到的标注结果加入训练集重新训练分类器;
步骤5:不断迭代步骤3和4,当分类器的精度达到预设的阈值后则开始进行下一分类器的训练。
根据一个优选实施方式,在步骤3中,从分类得到的置信度不低于90%的结果(第一新数据集)中抽取部分置信度高于95%的数据反向考核标注人员。
本发明具有以下有益效果:
本发明设计了一种人机协同学习进行数据标注的方法,可以非常有效地减少领域专家的参与度,在某些垂直领域甚至可以实现领域专家零参与。其次通过人机协同学习,相比传统的众包方式而言,大大地减少了需要标注的数量,并且标注的质量也得到了较高的保证。同时使分类算法的开发进度和标注进度之间合理高效的配合,大幅缩短开发周期,降低了人工标注的成本,减少了资源的浪费。
附图说明
图1示出了本发明的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明的基于人机协同学习的数据标注方法包括以下步骤:
步骤1:由领域专家制定分类标准和标注规范,并针对每一个类别都给出样例作为金标数据。
步骤2:以领域专家给出的样例(金标数据)作为聚类的中心点对数据进行聚类处理。选出相似度非常接近的数据作为银标数据来训练标注人员,然后利用金标数据对标注人员进行测试,测试通过即可进行下一步的标注,否则继续进行标注规则的学习。前述相似度非常接近的数据通常是指与金标数据相似度不低于80%的数据,该指标可以根据各个垂直领域的实际情况进行调整。
步骤3:利用前述金标数据和银标数据作为训练集,对未分类的数据I进行分类,得到的置信度高的数据可以直接采用,并且将其加入训练数据集重新训练分类器,得到分类器的模型参数w;对于置信度不高的数据则放回待标注数据集中。前述置信度高的数据通常是指置信度不低于90%的数据,置信度不高的数据通常是指置信度低于90%的数据,该指标可以根据各个垂直领域的具体情况进行调整。具体地,对未分类的数据I进行分类,得到的置信度高的数据的集合称作第一新数据集。
步骤4:利用主动学习理论,从待标注数据集中选取出最值得标注的数据C,分发给标注人员进行标注,其中,
C=ar gmax P(C|I,w)
然后将得到的标注结果加入训练集重新训练分类器。前述“标注结果”是指经过合格的(即,前述步骤中考核通过的)标注人员众包标注后得到的数据,其数据的集合构成了第二新数据集。同样地,还能够将第二新数据集加入训练数据集重新训练分类器。
步骤5:不断迭代步骤3和4,当分类器的精度达到一定阈值后则开始进行下一分类器的训练。这样,通过前述步骤得到的高精度的分类器就能够实现高效率、高精度的数据分类和标注。
优选地,在步骤3中,还从第一新数据集中抽取少量置信度非常高的数据反向考核标注人员。前述置信度非常高的数据通常是指置信度高于95%的数据。通过这种方式实现了低成本、高互动性地对于标注人员的考核,能够有效地保证标注质量。
对于标注人员来说,使用少量金标数据来启动训练自己的过程。根据指定的中心点,通过聚类等无监督学习方法来获取部分高置信度的数据,然后结合金标数据和标注规范来逐步训练标注人员。在标注过程中,将多层分类问题进行细化,根据自上而下的处理原则,再将每层的多分类变成多个二分类问题,以此来降低对标注人员专业领域知识的要求。同时利用分类器得到的高置信度的数据来反向考核标注人员,以此来保证标注质量。整个标注过程中配合一定的交互性和激励机制,如考核中标注的错误提醒及相关金标准样例的展示和未标注数据的预测标签提示,以及配合一定的闯关模式来提升标注的趣味性。
对于机器来说,采用主动学习算法模拟了人的学习过程,通过迭代抽样,寻找有利于提升分类效果的样本,进而减少分类训练集的大小,在有限的时间和资源的前提下,提高了分类算法的效率。迭代训练分类器的过程由学习引擎和采样引擎两个部分组成。学习引擎的工作过程是指分类器在标记样例集合上进行循环训练,当达到一定精度后输出。采样引擎的工作过程是在未标记样例集合上使用不同的采样算法选择样例,将其交由标注人员进行标记,并将标记后的样例加入已标记样例集,以供分类器进行循环训练。采样引擎的目的是在最少标记代价下获得能最大程度提高分类器的泛化性能的标记样例集。
综上所述,本发明在解决机器学习的多分类问题,尤其是垂直领域多层分类问题方面,针对传统的专家标注工作量大和众包标注质量不高或差异较大等特点,设计了一种人机协同学习进行数据标注的方法,可以非常有效地减少领域专家的参与度,在某些垂直领域甚至可以实现领域专家零参与。其次通过人机协同学习,相比传统的众包方式而言,大大地减少了需要标注的数量,并且标注的质量也得到了较高的保证。同时使分类算法的开发进度和标注进度之间合理高效的配合,大幅缩短开发周期,降低了人工标注的成本,减少了资源的浪费。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (2)

1.一种基于人机协同学习的数据标注方法,其特征在于,包括以下步骤:
步骤1:由领域专家制定分类标准和标注规范,并针对每一个类别都给出样例作为金标数据;
步骤2:以所述金标数据作为聚类的中心点对数据进行聚类处理,选出与所述金标数据相似度不低于90%的数据作为银标数据来训练标注人员,然后利用所述金标数据对标注人员进行测试,测试通过即可进行下一步的标注,否则继续进行标注规则的学习;
步骤3:利用所述金标数据和银标数据作为训练集,对未分类的数据I进行分类,得到的置信度不低于90%的数据可以直接采用,并且将其加入训练数据集重新训练分类器,得到分类器的模型参数w;对于置信度低于90%的数据则放回待标注数据集中;
步骤4:利用主动学习理论,从待标注数据集中选取出最值得标注的数据C,分发给标注人员进行标注,其中,
C=argmaxP(C|I,w)
然后将得到的标注结果加入训练集重新训练分类器;
步骤5:不断迭代步骤3和4,当分类器的精度达到预设的阈值后则开始进行下一分类器的训练。
2.如权利要求1所述的方法,其特征在于,在步骤3中,从分类得到的置信度不低于90%的数据中抽取部分置信度高于95%的数据以用于反向考核标注人员。
CN201810416774.0A 2018-05-04 2018-05-04 基于人机协同学习的数据标注方法 Active CN108898225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810416774.0A CN108898225B (zh) 2018-05-04 2018-05-04 基于人机协同学习的数据标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810416774.0A CN108898225B (zh) 2018-05-04 2018-05-04 基于人机协同学习的数据标注方法

Publications (2)

Publication Number Publication Date
CN108898225A true CN108898225A (zh) 2018-11-27
CN108898225B CN108898225B (zh) 2020-07-17

Family

ID=64343660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810416774.0A Active CN108898225B (zh) 2018-05-04 2018-05-04 基于人机协同学习的数据标注方法

Country Status (1)

Country Link
CN (1) CN108898225B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670554A (zh) * 2018-12-20 2019-04-23 郑州云海信息技术有限公司 深度学习系统中数据集标注的管理方法和装置
CN109903053A (zh) * 2019-03-01 2019-06-18 成都新希望金融信息有限公司 一种基于传感器数据进行行为识别的反欺诈方法
CN110647985A (zh) * 2019-08-02 2020-01-03 杭州电子科技大学 一种基于人工智能模型库的众包数据标注方法
CN110782876A (zh) * 2019-10-21 2020-02-11 华中科技大学 一种用于语音情感计算的无监督主动学习方法
CN110991486A (zh) * 2019-11-07 2020-04-10 北京邮电大学 多人协作图像标注质量控制的方法和装置
CN112833942A (zh) * 2020-12-28 2021-05-25 航天南洋(浙江)科技有限公司 一种系统健康状态监控设备及方法
CN113807528A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 一种模型优化方法、设备及存储介质
US11334723B2 (en) 2019-07-15 2022-05-17 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for processing untagged data, and storage medium
CN115964634A (zh) * 2022-12-10 2023-04-14 北京自动化控制设备研究所 一种数据标注优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法
US20170008168A1 (en) * 2015-07-10 2017-01-12 Board Of Trustees Of Michigan State University Navigational Control of Robotic Systems and Other Computer-Implemented Processes Using Developmental Network with Turing Machine Learning
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法
US20170008168A1 (en) * 2015-07-10 2017-01-12 Board Of Trustees Of Michigan State University Navigational Control of Robotic Systems and Other Computer-Implemented Processes Using Developmental Network with Turing Machine Learning
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670554A (zh) * 2018-12-20 2019-04-23 郑州云海信息技术有限公司 深度学习系统中数据集标注的管理方法和装置
CN109670554B (zh) * 2018-12-20 2021-04-02 郑州云海信息技术有限公司 深度学习系统中数据集标注的管理方法和装置
CN109903053A (zh) * 2019-03-01 2019-06-18 成都新希望金融信息有限公司 一种基于传感器数据进行行为识别的反欺诈方法
US11334723B2 (en) 2019-07-15 2022-05-17 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for processing untagged data, and storage medium
CN110647985A (zh) * 2019-08-02 2020-01-03 杭州电子科技大学 一种基于人工智能模型库的众包数据标注方法
CN110782876A (zh) * 2019-10-21 2020-02-11 华中科技大学 一种用于语音情感计算的无监督主动学习方法
CN110991486A (zh) * 2019-11-07 2020-04-10 北京邮电大学 多人协作图像标注质量控制的方法和装置
CN110991486B (zh) * 2019-11-07 2023-12-29 北京邮电大学 多人协作图像标注质量控制的方法和装置
CN113807528A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 一种模型优化方法、设备及存储介质
CN112833942A (zh) * 2020-12-28 2021-05-25 航天南洋(浙江)科技有限公司 一种系统健康状态监控设备及方法
CN115964634A (zh) * 2022-12-10 2023-04-14 北京自动化控制设备研究所 一种数据标注优化方法
CN115964634B (zh) * 2022-12-10 2024-04-02 北京自动化控制设备研究所 一种数据标注优化方法

Also Published As

Publication number Publication date
CN108898225B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN108898225A (zh) 基于人机协同学习的数据标注方法
CN107169049B (zh) 应用的标签信息生成方法及装置
CN104217225B (zh) 一种视觉目标检测与标注方法
CN107016405B (zh) 一种基于分级预测卷积神经网络的害虫图像分类方法
CN109255044A (zh) 一种基于YOLOv3深度学习网络的图像智能标注方法
CN106529605B (zh) 基于免疫理论的卷积神经网络模型的图像识别方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN105868184A (zh) 一种基于循环神经网络的中文人名识别方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN110135231A (zh) 动物面部识别方法、装置、计算机设备和存储介质
CN109002834A (zh) 基于多模态表征的细粒度图像分类方法
CN113688665B (zh) 一种基于半监督迭代学习的遥感影像目标检测方法及系统
CN105938565A (zh) 基于多层分类器和互联网图像辅助训练的彩色图像情感分类方法
CN107506434A (zh) 基于人工智能分类语音输入文本的方法和装置
CN107066548B (zh) 一种双维度分类提取网页链接的方法
CN105095475B (zh) 基于两级融合的不完整属性标记行人重识别方法与系统
CN110427484A (zh) 一种基于深度学习的中文自然语言处理方法
CN107273295A (zh) 一种基于文本混乱度的软件问题报告分类方法
CN111627088A (zh) 一种用于数学试卷图像识别的样本自动生成方法
CN101398846A (zh) 基于局部颜色空间特征的图像语义概念检测的方法
CN112613428B (zh) 基于平衡损失的Resnet-3D卷积牛视频目标检测方法
CN110263934A (zh) 一种人工智能数据标注方法和装置
CN107330448A (zh) 一种基于标记协方差和多标记分类的联合学习方法
CN109656808A (zh) 一种基于混合式主动学习策略的软件缺陷预测方法
CN109376868A (zh) 信息管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant