CN108898225A

CN108898225A - 基于人机协同学习的数据标注方法

Info

Publication number: CN108898225A
Application number: CN201810416774.0A
Authority: CN
Inventors: 冯翱; 高正杰; 吴锡
Original assignee: Chengdu Zhi Rui Tong Tuo Technology Co Ltd; Chengdu University of Information Technology
Current assignee: Chengdu Zhi Rui Tong Tuo Technology Co Ltd; Chengdu University of Information Technology
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-11-27
Anticipated expiration: 2038-05-04
Also published as: CN108898225B

Abstract

本发明涉及一种基于人机协同学习的数据标注方法，其包括：1、由领域专家制定分类标准和标注规范，并给出样例作为金标数据；2、以金标数据作为聚类的中心点对数据进行聚类处理，选出银标数据来训练标注人员，利用金标数据对标注人员进行测试，测试通过即可进行下一步的标注；3、利用金标数据和银标数据作为训练集对未分类的数据进行分类，得到的置信度高的数据可直接采用，并将其加入训练数据集重新训练分类器；4、从待标注数据集中选取出最值得标注的数据，分发给标注人员进行标注，将得到的标注结果加入训练集重新训练分类器；迭代步骤3和4，直至分类器的精度达到预设的阈值。本发明能够有效降低人工标注的成本，同时保证标注的高质量。

Description

基于人机协同学习的数据标注方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于人机协同学习的数据标注方法。

背景技术

随着大数据时代的来临，人工智能和机器学习飞速发展，对于数据集的需求也越来越迫切，需要对海量数据进行快速的标注。其中，通过专家标注的数据称之为黄金标准数据，简称为金标数据。专家标注数据的优点在于标注质量非常高，缺点则在于标注效率较低，数据量太少，标注的成本太高。另一种通过众包标注方法标注的数据称为银标数据，它的优点在于成本相对较低，标注效率较高，缺点则是标注质量参差不齐。

机器学习作为人工智能的一个重要研究方向目前面临着的现实情况是：未知分类标签的数据众多，并且容易获得，而已知分类标签的数据数目稀少，难于获得。研究表明，对于训练样例的精确标记不但需要该领域中大量的标注者参与，并且标记样例花费的时间是其获取时间的10倍以上。一般采用的数据集标注方法有传统手工标注、机器学习标注以及众包标注。在这些方法中：

传统的手工标注方法：一般由领域专家负责，标注质量较高，但是需要耗费大量的人力物力财力，标注速度较慢。

机器学习标注方法：利用支持向量机、朴素贝叶斯等有监督的机器学习算法，标注速度快，但是需要大量的金标数据来训练分类器，否则质量得不到保障；

众包标注方法：标注成本低，速度快，但是由于众包平台本身开放自由的工作组织模式，平台中参与众包标注任务的标注者来源不同，标注者的工作目的及动机多样，标注者具备的技能参差不齐，部分标注者没有认真地完成工作，所提交的标签不准确，质量不高。

现有的与数据标注相关的技术方案包括：

1、以众包理论为基础,针对标注任务,制定各项任务的标注体系和标注规范，然后随机抽取样本让领域专家进行标注。然而，该方案对专家的依赖度太高，大量数据需要专家进行复核，工作量太大；并且标注的样本的是随机抽取的，在类型较多的情况下，很难做到均匀分布，对于样本数据较少的类型很难得到精度较高的分类。

2、利用领域专家标注的金标数据和标注规则对普通标注人员进行培训，让普通标注人员也能充当领域专家的角色，以此来减轻领域专家的工作量。该方案对金标数据的依赖度太高，需要大量的金标数据和相应的专家来训练标注人员，通过培养领域专家的方式来提高标注效率，但方案1的问题不能得到根本解决。

3、在多分类问题或垂直领域的多层分类问题上，普遍的标注方法是在标注的时候直接一次性就将所有标签标注完毕。多分类或多层分类问题对于标注数量的要求非常大，并且在解决多层分类问题的时候往往需要一次性就标注多个标签，而对于普通标注人员来说无疑是非常痛苦的，因为他们并不是领域专家，他们在经过简单培训后相对更擅长做的是二分类问题，即进行“是”和“否”的判断。因此，该方案存在对普通标注人员要求过高，并且标注效率不高的不足。

4、针对多分类问题，在采集数据的时候就有意识的采集不同类型的数据，分别进行标注。然而，在多数情况下，随着分类的层数加深和类别加多，导致很多类型无法取到足够的样本数据进行标注，在这种训练数据不足的情况下，很难得到一个高精度的分类器。

综上所述，如何以较少的人力投入来得到较高质量和数量的标注数据成为了目前亟待解决的问题。

发明内容

针对现有技术之不足，本发明提出了一种基于人机协同学习的数据标注方法，其包括以下步骤：

步骤1：由领域专家制定分类标准和标注规范，并针对每一个类别都给出样例作为金标数据；

步骤2：以所述金标数据作为聚类的中心点对数据进行聚类处理，选出与所述金标数据相似度不低于90％的数据作为银标数据来训练标注人员，然后利用所述金标数据对标注人员进行测试，测试通过即可进行下一步的标注，否则继续进行标注规则的学习；

步骤3：利用所述金标数据和银标数据作为训练集，对未分类的数据I进行分类，得到的置信度不低于90％的数据可以直接采用，并且将其加入训练数据集重新训练分类器，得到分类器的模型参数w；对于置信度低于90％的数据则放回待标注数据集中；

步骤4：利用主动学习理论，从待标注数据集中选取出最值得标注的数据C，分发给标注人员进行标注，其中，

C＝ar gmax P(Ｃ|I,w)

然后将得到的标注结果加入训练集重新训练分类器；

步骤5：不断迭代步骤3和4，当分类器的精度达到预设的阈值后则开始进行下一分类器的训练。

根据一个优选实施方式，在步骤3中，从分类得到的置信度不低于90％的结果(第一新数据集)中抽取部分置信度高于95％的数据反向考核标注人员。

本发明具有以下有益效果：

本发明设计了一种人机协同学习进行数据标注的方法，可以非常有效地减少领域专家的参与度，在某些垂直领域甚至可以实现领域专家零参与。其次通过人机协同学习，相比传统的众包方式而言，大大地减少了需要标注的数量，并且标注的质量也得到了较高的保证。同时使分类算法的开发进度和标注进度之间合理高效的配合，大幅缩短开发周期，降低了人工标注的成本，减少了资源的浪费。

附图说明

图1示出了本发明的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明的基于人机协同学习的数据标注方法包括以下步骤：

步骤1：由领域专家制定分类标准和标注规范，并针对每一个类别都给出样例作为金标数据。

步骤2：以领域专家给出的样例(金标数据)作为聚类的中心点对数据进行聚类处理。选出相似度非常接近的数据作为银标数据来训练标注人员，然后利用金标数据对标注人员进行测试，测试通过即可进行下一步的标注，否则继续进行标注规则的学习。前述相似度非常接近的数据通常是指与金标数据相似度不低于80％的数据，该指标可以根据各个垂直领域的实际情况进行调整。

步骤3：利用前述金标数据和银标数据作为训练集，对未分类的数据I进行分类，得到的置信度高的数据可以直接采用，并且将其加入训练数据集重新训练分类器，得到分类器的模型参数w；对于置信度不高的数据则放回待标注数据集中。前述置信度高的数据通常是指置信度不低于90％的数据，置信度不高的数据通常是指置信度低于90％的数据，该指标可以根据各个垂直领域的具体情况进行调整。具体地，对未分类的数据I进行分类，得到的置信度高的数据的集合称作第一新数据集。

C＝ar gmax P(C|I,w)

然后将得到的标注结果加入训练集重新训练分类器。前述“标注结果”是指经过合格的(即，前述步骤中考核通过的)标注人员众包标注后得到的数据，其数据的集合构成了第二新数据集。同样地，还能够将第二新数据集加入训练数据集重新训练分类器。

步骤5：不断迭代步骤3和4，当分类器的精度达到一定阈值后则开始进行下一分类器的训练。这样，通过前述步骤得到的高精度的分类器就能够实现高效率、高精度的数据分类和标注。

优选地，在步骤3中，还从第一新数据集中抽取少量置信度非常高的数据反向考核标注人员。前述置信度非常高的数据通常是指置信度高于95％的数据。通过这种方式实现了低成本、高互动性地对于标注人员的考核，能够有效地保证标注质量。

对于标注人员来说，使用少量金标数据来启动训练自己的过程。根据指定的中心点，通过聚类等无监督学习方法来获取部分高置信度的数据，然后结合金标数据和标注规范来逐步训练标注人员。在标注过程中，将多层分类问题进行细化，根据自上而下的处理原则，再将每层的多分类变成多个二分类问题，以此来降低对标注人员专业领域知识的要求。同时利用分类器得到的高置信度的数据来反向考核标注人员，以此来保证标注质量。整个标注过程中配合一定的交互性和激励机制，如考核中标注的错误提醒及相关金标准样例的展示和未标注数据的预测标签提示，以及配合一定的闯关模式来提升标注的趣味性。

对于机器来说，采用主动学习算法模拟了人的学习过程，通过迭代抽样，寻找有利于提升分类效果的样本，进而减少分类训练集的大小，在有限的时间和资源的前提下，提高了分类算法的效率。迭代训练分类器的过程由学习引擎和采样引擎两个部分组成。学习引擎的工作过程是指分类器在标记样例集合上进行循环训练，当达到一定精度后输出。采样引擎的工作过程是在未标记样例集合上使用不同的采样算法选择样例，将其交由标注人员进行标记，并将标记后的样例加入已标记样例集，以供分类器进行循环训练。采样引擎的目的是在最少标记代价下获得能最大程度提高分类器的泛化性能的标记样例集。

综上所述，本发明在解决机器学习的多分类问题，尤其是垂直领域多层分类问题方面，针对传统的专家标注工作量大和众包标注质量不高或差异较大等特点，设计了一种人机协同学习进行数据标注的方法，可以非常有效地减少领域专家的参与度，在某些垂直领域甚至可以实现领域专家零参与。其次通过人机协同学习，相比传统的众包方式而言，大大地减少了需要标注的数量，并且标注的质量也得到了较高的保证。同时使分类算法的开发进度和标注进度之间合理高效的配合，大幅缩短开发周期，降低了人工标注的成本，减少了资源的浪费。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种基于人机协同学习的数据标注方法，其特征在于，包括以下步骤：

C＝argmaxP(Ｃ|I,w)

然后将得到的标注结果加入训练集重新训练分类器；

2.如权利要求1所述的方法，其特征在于，在步骤3中，从分类得到的置信度不低于90％的数据中抽取部分置信度高于95％的数据以用于反向考核标注人员。