CN110188197A

CN110188197A - 一种用于标注平台的主动学习方法及装置

Info

Publication number: CN110188197A
Application number: CN201910392864.5A
Authority: CN
Inventors: 窦志成; 曹丽蒙; 谢峰; 肖超峰
Original assignee: Beijing Wisdom Data Technology Co Ltd
Current assignee: Beijing Wisdom Data Technology Co Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-08-30
Anticipated expiration: 2039-05-13
Also published as: CN110188197B

Abstract

本申请公开一种用于标注平台的主动学习方法及装置，所述方法包括：利用已经标注数据训练文本模型；利用已经训练的文本模型预测未标注数据的标签，并计算每条未标注数据的不确定性；基于每条未标注数据的不确定性，确定未标注数据的标注顺序；按照未标注数据的标注顺序，将未标注数据及其标签推荐给用户。

Description

一种用于标注平台的主动学习方法及装置

技术领域

本申请涉标注技术，尤其涉及一种用于标注平台的主动学习方法及装置。

背景技术

文本分类和命名实体识别是自然语言中最基础的问题之一，对其他自然语言处理问题起到至关重要的作用。但文本分类和命名实体识别需要大量的已经标注好的数据，获得这些标注好的数据需要大量的时间，甚至有些数据需要具有一定专业知识的标注人员来进行标注。因此，如何在最小人力和时间投入情况下，快速高效地标注数据，获得高质量标注数据是现阶段文本标注面临的问题与挑战。

发明内容

为解决上述技术问题，本申请实施例提供了一种用于标注平台的主动学习方法及装置。

本申请实施例提供的用于标注平台的主动学习方法，包括：

利用已经标注数据训练文本模型；

利用已经训练的文本模型预测未标注数据的标签，并计算每条未标注数据的不确定性；

基于每条未标注数据的不确定性，确定未标注数据的标注顺序；

按照未标注数据的标注顺序，将未标注数据及其标签推荐给用户。

在一实施方式中，利用已经训练的文本模型预测未标注数据的标签之前，所述方法还包括：

提取未标注数据的关键词；

利用关键词向量化表示每一条未标注数据；

基于未标注数据的向量，计算未标注数据间的余弦相似度；

利用余弦相似度，对未标注数据进行AP聚类。

在一实施方式中，所述基于每条未标注数据的不确定性，确定未标注数据的标注顺序，包括：

基于每条未标注数据的不确定性，计算每个聚类簇的平均不确定性值，按照平均不确定性值从大到小排序；

顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户，如果推荐的数量小于用户请求的数量，则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户，以此类推。

在一实施方式中，按照未标注数据的标注顺序，将未标注数据及其标签推荐给用户，包括：

按照未标注数据的标注顺序，采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。

在一实施方式中，采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注，包括：

确定n个用户的顺序，n为正整数；

按照顺序从n个用户选取k个用户对第i条未标注数据进行标注，k为小于等于n且大于等于1的正整，i为正整数；

从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注，以此类推。

本申请实施例提供的用于标注平台的主动学习装置，包括：

训练单元，用于利用已经标注数据训练文本模型；

计算单元，用于利用已经训练的文本模型预测未标注数据的标签，并计算每条未标注数据的不确定性；

确定单元，用于基于每条未标注数据的不确定性，确定未标注数据的标注顺序；

推荐单元，用于按照未标注数据的标注顺序，将未标注数据及其标签推荐给用户。

在一实施方式中，所述装置还包括：

预处理单元，用于提取未标注数据的关键词；利用关键词向量化表示每一条未标注数据；基于未标注数据的向量，计算未标注数据间的余弦相似度；利用余弦相似度，对未标注数据进行AP聚类。

在一实施方式中，所述确定单元，用于基于每条未标注数据的不确定性，计算每个聚类簇的平均不确定性值，按照平均不确定性值从大到小排序；顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户，如果推荐的数量小于用户请求的数量，则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户，以此类推。

在一实施方式中，所述推荐单元，用于按照未标注数据的标注顺序，采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。

在一实施方式中，所述推荐单元，用于确定n个用户的顺序，n为正整数；按照顺序从n个用户选取k个用户对第i条未标注数据进行标注，k为小于等于n且大于等于1的正整，i为正整数；从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注，以此类推。

本申请实施例的技术方案，可以为标注用户推荐最有价值的未标注数据，快速高效的标注数据，获得高质量的标注数据。

附图说明

图1为本申请实施例提供的基于主动学习的标注方法的总体架构图；

图2为本申请实施例提供的用于标注平台的主动学习方法的流程示意图；

图3为本申请实施例提供的数据预处理示意图；

图4为本申请实施例提供的用于标注平台的主动学习装置的结构组成示意图。

具体实施方式

为便于理解本申请实施例的技术方案，以下对本申请实施例的相关技术进行说明。

●基于随机推荐算法标注：

随机推荐算法只需要读取数据并随机的分配给每个标注者，这种方法实现简单，分配灵活，标注量较大。

●基于机器学习算法标注：

基于机器学习标注开始阶段，利用随机推荐算法，为标注人员推荐数据，标注数据达到一定量后，利用已标注数据训练机器学习模型，分类可以用SVM、XGBoost、GBDT等，实体识别可以用最大熵或者CRF等。得到模型可以对未标注数据进行预测，标注人员只需要选择是否正确，对于预测错的选择正确的标签。当已标注数据增量达到阈值后，更新模型，重新预测未标注数据，整个标注过程循环进行，直到满足结束条件。

●基于主动学习算法标注：

基于主动学习算法的标注平台是一种更合理的方案，考虑了未标记数据的出现顺序。该方法对未标注数据进行条件查询，查询策略是主动学习算法的核心，主流的策略一般有两种。基于信息量的查询和基于代表性的查询。主动学习利用已标注数据进行模型的训练，利用训练好的模型和查询策略查询出对于标注最有价值的未标注数据，并利用模型对未标注数据进行预测，提供给标注人员参考，标注人员对预测进行判断抉择。循环进行模型的训练、更新、预测，直到满足结束条件或者标注完成。

上述三种标注方法分别存在如下问题：1)基于随机推荐算法标注实现简单，但是无法预测未标注数据的标签，需要纯手动标注，而且标注顺序固定，需要大量标注时间和标注数据。2)基于机器学习算法标注，可以预测未标注数据的标签，但是没有限制未标注数据的标注顺序，模型准确率提升较慢，需要标注数据的量比较大。3)基于主动学习算法标注，能预测未标注数据的标签，同时限制了标注顺序，但是单一的查询方式，不能使模型的增益最大化。基于信息量的查询考虑了不确定性对模型的增益，但是忽略了数据之间的相似性，相似数据对模型的增益较小。基于代表性的查询，考虑了语句之间的相似度，但是忽略了不确定性对未标注数据出现顺序的影响，从而影响模型增益的效果。而且，目前的主动学习算法解决标注问题比较单一，或是只解决文本分类标注问题，或是只解决命名实体识别标注问题。

为解决上述问题，提出了本申请实施例的以下技术方案，本申请实施例的技术方案旨在为标注用户推荐最有价值的未标注数据，快速高效的标注数据，获得高质量的标注数据。

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

图1为本申请实施例提供的基于主动学习的标注方法的总体架构图，如图1所示，基于主动学习的标注方法的总体架构图分为三部分：数据预处理模块、主动学习模块和用户标注模块。数据预处理模块利用tf_idf得到样本语料中的关键词，利用关键词对样本语料进行向量化表示，计算相似度，实现语义上的聚类。主动学习模块利用已标注数据完成模型的训练，利用模型对未标注数据进行预测，同时还提供了查询引擎和基于轮询的任务分配机制，完成为标注用户提供未标注数据和预测标签的任务。用户标注模块提供数据展示，标注用户进行数据标注，标注项目各项指标统计等功能。以下对数据预处理模块、主动学习模块和用户标注模块的功能进行详细说明。

(1)数据预处理模块

在进行数据标注之前需要对所有的数据进行语义相似度聚类，语义聚类可以使同一个类簇的语料数据在语义上和关键词上具有较大的相似度，不同类簇内的语料数据在语义上和关键词上差异性较大，提取不同的类簇语料数据可以为文本模型提供具有代表性的语料数据。

数据预处理阶段利用tf_idf对所有的语料数据提取关键词，利用关键词向量化表示每一条语料数据，然后计算语料数据间的余弦相似度，得到相似度矩阵，并利用AP(Affinity Propagation)进行聚类。

1.从数据库中加载所有的语料数据，对每条语料数据进行jieba分词，然后计算每个关键词的tf_idf值，因为tf_idf统计的是关键词对当前文本的重要性，本申请需要的是全局的关键词，本申请对于不同文本中出现的相同关键词进行叠加tf_idf值，然后根据叠加后的tf_idf值，从大到小排序关键词，默认取前10000个关键词作为全局的关键词，如果分词数没有达到10000，则选取全部分词作为全局关键词，tf_idf计算公式如公式(1)-公式(3)所示。

tf_idf_i,j＝tf_i,j×idf_i,j (3)

公式(1)是计算词频(term frequency，tf)阶段，表示某一个给定的词语在该文件中出现的频率。分子是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和。

公式(2)是计算逆向文件频率(inverse document frequency，idf)，表示是一个词语普遍重要性的度量。分子表示语料库中文本的个数，分母为包含词语的文件数目，加1是为了防止如果该词语不在语料库中，分母为0的情况。

公式(3)是tf_idf的计算，用tf和idf相乘计算。

2.对选取的关键词建立关键词和索引对应的词典，对每条语料创建一个关键词词典大小全为0的初始化数组，对语料数据进行jieba分词，判断分词是否在关键词索引字典当中，如果在，则找到索引位置把初始化数组该位置的0改为1，完成对每条语料的向量化。

3.利用余弦相似度得到相似度矩阵，余弦公式如公式(4)所示。

x_i和y_i分表示向量x和y的分向量。

4.利用得到的相似度矩阵进行AP聚类，记录每条数据所属类簇的索引和聚类中心索引。

(2)主动学习模块

主动学习模块是申请的核心模块，该模块实现了为标注用户推荐未标注数据的功能。利用用户已经标注的数据进行模型训练，利用已经训练的模型预测未标注数据的标签，并利用模型得到属于每个标签的概率，计算每条数据的不确定性，综合聚类结果，轮询查询未标记数据，得到推荐给标注用户数据的顺序。步骤如下：

1.训练文本模型。

判断用户已经标记的数据是否满足增量阈值判断条件，增量阈值判断如公式(5)所示，如果满足利用已标注数据进行模型的训练(文本分类用SVM，命名实体识别用CRF)，可以扩展深度学习的文本分类和命名实体算法。

n表示已经标注数据的个数，标注前期由于数据量较少，训练出的模型不够稳定，学习到的特征较少，需要频繁的更新模型，快速的学习到已标注数据的特征。后期模型比较稳定，同时数据量较大时，训练时间比较长，不需要频繁的更新模型。

2.利用模型预测未标注数据的标签。

文本分类预测分类标签，命名实体识别预测出实体并给出对应的实体标签。

3.计算每条语料数据的不确定性。

文本分类：利用分类模型计算属于每个分类标签的概率，利用信息熵计算该数据的不确定性，计算方法如公式(6)所示。

命名实体识别：利用实体识别模型得到每个分词属于实体标签的概率(实体识别用的标注方式为BIO+实体类别，比如B-PER表示人名实体的开始，I-PER表示人名实体开始后面的字，O表示Other其它)，如果该分词属于标签O的概率大于等于0.8，则该分词的不确定性值等于0，否则利用信息熵计算每个分词的不确定性值，最后累加该条语料的所有分词不确定性值作为该语料的不确定性值。每条语料的不确定值计算入公式(7)所示。

其中i表示第i个分词，如j＝O且概率大于等于0.8时，

4.查询未标注数据。

主动学习的核心是把对模型增益较大的语料尽早的推给标注用户并尽早的标注，得到增益信息，如何查询未标注信息决定了语料的出现顺序，是主动学习的关键步骤，本申请结合了流行的两种查询方式，同时考虑了代表性和不确定性对查询的影响。

首先计算每个聚类簇的平均不确定性值，按照值从大到小排序。

顺序选取每个聚类簇中不确定性值最大的语料，推荐给用户，如果推荐的数量小于用户请求的数量，则按顺序取第二大的，以此类推。

计算聚类簇的平均不确定性值，为了计算每个类簇对模型的增益信息，从每个类簇里取为了防止语义相似的语料同时出现对模型的冗余，这样做同时能保证推荐的语料同时具有较大的信息增益，又不会造成相似语义语料对模型的增益较小的问题。

5.轮询分配实现多人标注。

在标注任务中，如何衡量每个标注人员的标注质量是一个关键的问题，人工抽样校验是一种准确但比较耗时的方法，多人标注是一种可以自动监控标注人员标注质量的方法，本申请通过轮询的方式实现多人标注。

根据步骤4查询得到的语料顺序，对每一条语料进行多人标注。假设有n个标注人员，每条语句需要k个人标注，k小于等于n。首先规定n个人的标注顺序，按照标注顺序选取k个人对第一条语料进行标注，接下来，从第k+1个人开始循环找k个人对第二条语料进行标注，以此类推进行分配。

(3)用户标注模块

本申请为用户提供了分类标签的预测和实体的类别预测，方便了用户的操作，同时提供了结束判断条件。

文本分类时，本申请提供了预测的分类标签，同时也提供了候选标签，当模型预测错误时，可以很方便的修正分类标签。

命令实体识别时，为用户识别出具体的实体，并标明所属类型，可以增加实体删除实体和修改实体。

对每次模型的准确度进行记录，当模型训练集的量大于标注量阈值后，模型的准确度在多次更新后变动较小，提醒项目创建者可以提前结束标注。

图2为本申请实施例提供的用于标注平台的主动学习方法的流程示意图，如图2所示，所述用于标注平台的主动学习方法包括以下步骤：

步骤201：利用已经标注数据训练文本模型。

这里，训练文本模型可以参照前述主动学习模块中关于训练文本模型的描述进行理解，此处不再赘述。

步骤202：利用已经训练的文本模型预测未标注数据的标签，并计算每条未标注数据的不确定性。

这里，利用已经训练的文本模型预测未标注数据的标签之前，所述方法还包括如下数据预处理过程：1)提取未标注数据的关键词；2)利用关键词向量化表示每一条未标注数据；3)基于未标注数据的向量，计算未标注数据间的余弦相似度；4)利用余弦相似度，对未标注数据进行AP聚类。

这里，数据预处理过程可以参照前述数据预处理模块的描述进行理解，此处不再赘述。

在一例子中，假设本申请的语料数据(即未标注数据)如图3中的语料部分，包含了7条数据，前面是行号，后面为语料。相应的数据预处理过程包括：

tf_idf关键词提取：首先通过tf_idf对语料进行tf_idf关键词提取，其中图3中的tf_idf矩阵表示第i行的索引为j的关键词的tf_idf值，关键词索引对应分词词典。比如第一条记录，0表示语料中的第0行，25是索引，在分词词典中可以找到对应关键词科比，所以在第0行科比关键词的tf_idf值为0.335。得到每行关键词的tf_idf值后，累加每个关键词的tf_idf值，对累加后的关键词按tf_idf值排序，并提取排名靠前的关键词。图3中的tf_idf关键词为得到全局的关键词。

数据向量化：第一步中得到了关键词并按tf_idf值进行了排序，假设本申请截取了排名靠前25位的部分关键词。对每条语料进行分词，并用一个初始化全部为0的25维数组表示，如果该条语料中的分词在tf_idf关键词中，把该位置值修改为1。例如第0句：“科比登场,代表美国队将世界杯奖杯转交给姚明”，分词科比出现在关键词字典中，且位于第1位(范冰冰为第0位)，所以把第二位置为1，同时代表、世界杯、奖杯、交给、姚明也出现在关键词中，并把相应位置改为1，所以向量化为[0,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。

AP聚类：为每一条语料进行向量化后，计算两两之间的相似度，把相似度相近的语料聚在一起。如图3中语料[0,1][2,3][4,5,6]聚成三个类，每个类中语义相似，不同类之间语义差异较大。

经过上述数据预处理过程之后，就可以利用已经训练的文本模型预测未标注数据的标签，并计算每条未标注数据的不确定性。这里，预测未标注数据的标签以及不确定性可以参照前述主动学习模块中的相关描述进行理解，此处不再赘述。

步骤203：基于每条未标注数据的不确定性，确定未标注数据的标注顺序。

这里，基于每条未标注数据的不确定性，计算每个聚类簇的平均不确定性值，按照平均不确定性值从大到小排序；顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户，如果推荐的数量小于用户请求的数量，则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户，以此类推。

这里，确定未标注数据的标注顺序可以参照前述主动学习模块中的相关描述进行理解，此处不再赘述。

在一例子中，假设标注者已经标注了第0条和第4条(分类问题)，第0条属于体育，第4条属于娱乐，这个时候训练分类器，利用分类模型本申请计算未标注数据的不确定性和预测每条语料的分类标签，因为第0条和第1条语句相似，分类器很容易预测第1条的语料为体育，第4条和5、6相似，所以5、6为娱乐。但是分类器对3、4条语料不能确定其分类标签，主要他的关键词没有在训练模型中出现，所以3、4条数据将获得一个较大的不确定性值。

在得到聚类结果和不确定值后，计算每个聚类簇的平均不确定性值，并按大小排序。本申请按顺序从每个聚类簇中提取不确定值最大的语句，推荐给标注人员进行标注，比如本申请下一批推荐的第4条，进行标注后，重新训练分类模型，计算不确定性值和预测分类标签，推荐数据，直到达到结束条件或者数据标注完成。

步骤204：按照未标注数据的标注顺序，将未标注数据及其标签推荐给用户。

这里，按照未标注数据的标注顺序，采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。

具体地，确定n个用户的顺序，n为正整数；按照顺序从n个用户选取k个用户对第i条未标注数据进行标注，k为小于等于n且大于等于1的正整，i为正整数；从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注，以此类推。

图4为本申请实施例提供的用于标注平台的主动学习装置的结构组成示意图，如图4所示，所述用于标注平台的主动学习装置包括：

训练单元401，用于利用已经标注数据训练文本模型；

计算单元402，用于利用已经训练的文本模型预测未标注数据的标签，并计算每条未标注数据的不确定性；

确定单元403，用于基于每条未标注数据的不确定性，确定未标注数据的标注顺序；

推荐单元404，用于按照未标注数据的标注顺序，将未标注数据及其标签推荐给用户。

在一实施方式中，所述装置还包括：

预处理单元405，用于提取未标注数据的关键词；利用关键词向量化表示每一条未标注数据；基于未标注数据的向量，计算未标注数据间的余弦相似度；利用余弦相似度，对未标注数据进行AP聚类。

在一实施方式中，所述确定单元403，用于基于每条未标注数据的不确定性，计算每个聚类簇的平均不确定性值，按照平均不确定性值从大到小排序；顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户，如果推荐的数量小于用户请求的数量，则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户，以此类推。

在一实施方式中，所述推荐单元404，用于按照未标注数据的标注顺序，采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。

在一实施方式中，所述推荐单元404，用于确定n个用户的顺序，n为正整数；按照顺序从n个用户选取k个用户对第i条未标注数据进行标注，k为小于等于n且大于等于1的正整，i为正整数；从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注，以此类推。

本领域技术人员应当理解，图4所示的用于标注平台的主动学习装置中的各单元的实现功能可参照前述用于标注平台的主动学习装置方法以及原理架构图的相关描述而理解。图4所示的用于标注平台的主动学习装置中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种用于标注平台的主动学习方法，其特征在于，所述方法包括：

利用已经标注数据训练文本模型；

2.根据权利要求1所述的方法，其特征在于，利用已经训练的文本模型预测未标注数据的标签之前，所述方法还包括：

提取未标注数据的关键词；

利用关键词向量化表示每一条未标注数据；

基于未标注数据的向量，计算未标注数据间的余弦相似度；

利用余弦相似度，对未标注数据进行AP聚类。

3.根据权利要求1所述的方法，其特征在于，所述基于每条未标注数据的不确定性，确定未标注数据的标注顺序，包括：

4.根据权利要求1所述的方法，其特征在于，按照未标注数据的标注顺序，将未标注数据及其标签推荐给用户，包括：

5.根据权利要求4所述的方法，其特征在于，采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注，包括：

确定n个用户的顺序，n为正整数；

6.一种用于标注平台的主动学习装置，其特征在于，所述装置包括：

训练单元，用于利用已经标注数据训练文本模型；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述确定单元，用于基于每条未标注数据的不确定性，计算每个聚类簇的平均不确定性值，按照平均不确定性值从大到小排序；顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户，如果推荐的数量小于用户请求的数量，则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户，以此类推。

9.根据权利要求6所述的装置，其特征在于，所述推荐单元，用于按照未标注数据的标注顺序，采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。

10.根据权利要求9所述的装置，其特征在于，所述推荐单元，用于确定n个用户的顺序，n为正整数；按照顺序从n个用户选取k个用户对第i条未标注数据进行标注，k为小于等于n且大于等于1的正整，i为正整数；从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注，以此类推。