CN110188197B - 一种用于标注平台的主动学习方法及装置 - Google Patents

一种用于标注平台的主动学习方法及装置 Download PDF

Info

Publication number
CN110188197B
CN110188197B CN201910392864.5A CN201910392864A CN110188197B CN 110188197 B CN110188197 B CN 110188197B CN 201910392864 A CN201910392864 A CN 201910392864A CN 110188197 B CN110188197 B CN 110188197B
Authority
CN
China
Prior art keywords
data
unlabeled data
unlabeled
uncertainty
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910392864.5A
Other languages
English (en)
Other versions
CN110188197A (zh
Inventor
窦志成
曹丽蒙
谢峰
肖超峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yilanqunzhi Data Technology Co ltd
Original Assignee
Beijing Yilanqunzhi Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yilanqunzhi Data Technology Co ltd filed Critical Beijing Yilanqunzhi Data Technology Co ltd
Priority to CN201910392864.5A priority Critical patent/CN110188197B/zh
Publication of CN110188197A publication Critical patent/CN110188197A/zh
Application granted granted Critical
Publication of CN110188197B publication Critical patent/CN110188197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本申请公开一种用于标注平台的主动学习方法及装置,所述方法包括:利用已经标注数据训练文本模型;利用已经训练的文本模型预测未标注数据的标签,并计算每条未标注数据的不确定性;基于每条未标注数据的不确定性,确定未标注数据的标注顺序;按照未标注数据的标注顺序,将未标注数据及其标签推荐给用户。

Description

一种用于标注平台的主动学习方法及装置
技术领域
本申请涉标注技术,尤其涉及一种用于标注平台的主动学习方法及装置。
背景技术
文本分类和命名实体识别是自然语言中最基础的问题之一,对其他自然语言处理问题起到至关重要的作用。但文本分类和命名实体识别需要大量的已经标注好的数据,获得这些标注好的数据需要大量的时间,甚至有些数据需要具有一定专业知识的标注人员来进行标注。因此,如何在最小人力和时间投入情况下,快速高效地标注数据,获得高质量标注数据是现阶段文本标注面临的问题与挑战。
发明内容
为解决上述技术问题,本申请实施例提供了一种用于标注平台的主动学习方法及装置。
本申请实施例提供的用于标注平台的主动学习方法,包括:
利用已经标注数据训练文本模型;
利用已经训练的文本模型预测未标注数据的标签,并计算每条未标注数据的不确定性;
基于每条未标注数据的不确定性,确定未标注数据的标注顺序;
按照未标注数据的标注顺序,将未标注数据及其标签推荐给用户。
在一实施方式中,利用已经训练的文本模型预测未标注数据的标签之前,所述方法还包括:
提取未标注数据的关键词;
利用关键词向量化表示每一条未标注数据;
基于未标注数据的向量,计算未标注数据间的余弦相似度;
利用余弦相似度,对未标注数据进行AP聚类。
在一实施方式中,所述基于每条未标注数据的不确定性,确定未标注数据的标注顺序,包括:
基于每条未标注数据的不确定性,计算每个聚类簇的平均不确定性值,按照平均不确定性值从大到小排序;
顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户,如果推荐的数量小于用户请求的数量,则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户,以此类推。
在一实施方式中,按照未标注数据的标注顺序,将未标注数据及其标签推荐给用户,包括:
按照未标注数据的标注顺序,采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。
在一实施方式中,采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注,包括:
确定n个用户的顺序,n为正整数;
按照顺序从n个用户选取k个用户对第i条未标注数据进行标注,k为小于等于n且大于等于1的正整,i为正整数;
从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注,以此类推。
本申请实施例提供的用于标注平台的主动学习装置,包括:
训练单元,用于利用已经标注数据训练文本模型;
计算单元,用于利用已经训练的文本模型预测未标注数据的标签,并计算每条未标注数据的不确定性;
确定单元,用于基于每条未标注数据的不确定性,确定未标注数据的标注顺序;
推荐单元,用于按照未标注数据的标注顺序,将未标注数据及其标签推荐给用户。
在一实施方式中,所述装置还包括:
预处理单元,用于提取未标注数据的关键词;利用关键词向量化表示每一条未标注数据;基于未标注数据的向量,计算未标注数据间的余弦相似度;利用余弦相似度,对未标注数据进行AP聚类。
在一实施方式中,所述确定单元,用于基于每条未标注数据的不确定性,计算每个聚类簇的平均不确定性值,按照平均不确定性值从大到小排序;顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户,如果推荐的数量小于用户请求的数量,则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户,以此类推。
在一实施方式中,所述推荐单元,用于按照未标注数据的标注顺序,采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。
在一实施方式中,所述推荐单元,用于确定n个用户的顺序,n为正整数;按照顺序从n个用户选取k个用户对第i条未标注数据进行标注,k为小于等于n且大于等于1的正整,i为正整数;从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注,以此类推。
本申请实施例的技术方案,可以为标注用户推荐最有价值的未标注数据,快速高效的标注数据,获得高质量的标注数据。
附图说明
图1为本申请实施例提供的基于主动学习的标注方法的总体架构图;
图2为本申请实施例提供的用于标注平台的主动学习方法的流程示意图;
图3为本申请实施例提供的数据预处理示意图;
图4为本申请实施例提供的用于标注平台的主动学习装置的结构组成示意图。
具体实施方式
为便于理解本申请实施例的技术方案,以下对本申请实施例的相关技术进行说明。
·基于随机推荐算法标注:
随机推荐算法只需要读取数据并随机的分配给每个标注者,这种方法实现简单,分配灵活,标注量较大。
·基于机器学习算法标注:
基于机器学习标注开始阶段,利用随机推荐算法,为标注人员推荐数据,标注数据达到一定量后,利用已标注数据训练机器学习模型,分类可以用SVM、XGBoost、GBDT等,实体识别可以用最大熵或者CRF等。得到模型可以对未标注数据进行预测,标注人员只需要选择是否正确,对于预测错的选择正确的标签。当已标注数据增量达到阈值后,更新模型,重新预测未标注数据,整个标注过程循环进行,直到满足结束条件。
·基于主动学习算法标注:
基于主动学习算法的标注平台是一种更合理的方案,考虑了未标记数据的出现顺序。该方法对未标注数据进行条件查询,查询策略是主动学习算法的核心,主流的策略一般有两种。基于信息量的查询和基于代表性的查询。主动学习利用已标注数据进行模型的训练,利用训练好的模型和查询策略查询出对于标注最有价值的未标注数据,并利用模型对未标注数据进行预测,提供给标注人员参考,标注人员对预测进行判断抉择。循环进行模型的训练、更新、预测,直到满足结束条件或者标注完成。
上述三种标注方法分别存在如下问题:1)基于随机推荐算法标注实现简单,但是无法预测未标注数据的标签,需要纯手动标注,而且标注顺序固定,需要大量标注时间和标注数据。2)基于机器学习算法标注,可以预测未标注数据的标签,但是没有限制未标注数据的标注顺序,模型准确率提升较慢,需要标注数据的量比较大。3)基于主动学习算法标注,能预测未标注数据的标签,同时限制了标注顺序,但是单一的查询方式,不能使模型的增益最大化。基于信息量的查询考虑了不确定性对模型的增益,但是忽略了数据之间的相似性,相似数据对模型的增益较小。基于代表性的查询,考虑了语句之间的相似度,但是忽略了不确定性对未标注数据出现顺序的影响,从而影响模型增益的效果。而且,目前的主动学习算法解决标注问题比较单一,或是只解决文本分类标注问题,或是只解决命名实体识别标注问题。
为解决上述问题,提出了本申请实施例的以下技术方案,本申请实施例的技术方案旨在为标注用户推荐最有价值的未标注数据,快速高效的标注数据,获得高质量的标注数据。
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
图1为本申请实施例提供的基于主动学习的标注方法的总体架构图,如图1所示,基于主动学习的标注方法的总体架构图分为三部分:数据预处理模块、主动学习模块和用户标注模块。数据预处理模块利用tf_idf得到样本语料中的关键词,利用关键词对样本语料进行向量化表示,计算相似度,实现语义上的聚类。主动学习模块利用已标注数据完成模型的训练,利用模型对未标注数据进行预测,同时还提供了查询引擎和基于轮询的任务分配机制,完成为标注用户提供未标注数据和预测标签的任务。用户标注模块提供数据展示,标注用户进行数据标注,标注项目各项指标统计等功能。以下对数据预处理模块、主动学习模块和用户标注模块的功能进行详细说明。
(1)数据预处理模块
在进行数据标注之前需要对所有的数据进行语义相似度聚类,语义聚类可以使同一个类簇的语料数据在语义上和关键词上具有较大的相似度,不同类簇内的语料数据在语义上和关键词上差异性较大,提取不同的类簇语料数据可以为文本模型提供具有代表性的语料数据。
数据预处理阶段利用tf_idf对所有的语料数据提取关键词,利用关键词向量化表示每一条语料数据,然后计算语料数据间的余弦相似度,得到相似度矩阵,并利用AP(Affinity Propagation)进行聚类。
1.从数据库中加载所有的语料数据,对每条语料数据进行jieba分词,然后计算每个关键词的tf_idf值,因为tf_idf统计的是关键词对当前文本的重要性,本申请需要的是全局的关键词,本申请对于不同文本中出现的相同关键词进行叠加tf_idf值,然后根据叠加后的tf_idf值,从大到小排序关键词,默认取前10000个关键词作为全局的关键词,如果分词数没有达到10000,则选取全部分词作为全局关键词,tf_idf计算公式如公式(1)-公式(3)所示。
Figure GDA0003183946940000061
Figure GDA0003183946940000062
tf_idfi,j=tfi,j×idfi,j (3)
公式(1)是计算词频(term frequency,tf)阶段,表示某一个给定的词语在该文件中出现的频率。分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。
公式(2)是计算逆向文件频率(inverse document frequency,idf),表示是一个词语普遍重要性的度量。分子表示语料库中文本的个数,分母为包含词语的文件数目,加1是为了防止如果该词语不在语料库中,分母为0的情况。
公式(3)是tf_idf的计算,用tf和idf相乘计算。
2.对选取的关键词建立关键词和索引对应的词典,对每条语料创建一个关键词词典大小全为0的初始化数组,对语料数据进行jieba分词,判断分词是否在关键词索引字典当中,如果在,则找到索引位置把初始化数组该位置的0改为1,完成对每条语料的向量化。
3.利用余弦相似度得到相似度矩阵,余弦公式如公式(4)所示。
Figure GDA0003183946940000071
xi和yi分表示向量x和y的分向量。
4.利用得到的相似度矩阵进行AP聚类,记录每条数据所属类簇的索引和聚类中心索引。
(2)主动学习模块
主动学习模块是申请的核心模块,该模块实现了为标注用户推荐未标注数据的功能。利用用户已经标注的数据进行模型训练,利用已经训练的模型预测未标注数据的标签,并利用模型得到属于每个标签的概率,计算每条数据的不确定性,综合聚类结果,轮询查询未标记数据,得到推荐给标注用户数据的顺序。步骤如下:
1.训练文本模型。
判断用户已经标记的数据是否满足增量阈值判断条件,增量阈值判断如公式(5)所示,如果满足利用已标注数据进行模型的训练(文本分类用SVM,命名实体识别用CRF),可以扩展深度学习的文本分类和命名实体算法。
Figure GDA0003183946940000072
n表示已经标注数据的个数,标注前期由于数据量较少,训练出的模型不够稳定,学习到的特征较少,需要频繁的更新模型,快速的学习到已标注数据的特征。后期模型比较稳定,同时数据量较大时,训练时间比较长,不需要频繁的更新模型。
2.利用模型预测未标注数据的标签。
文本分类预测分类标签,命名实体识别预测出实体并给出对应的实体标签。
3.计算每条语料数据的不确定性。
文本分类:利用分类模型计算属于每个分类标签的概率,利用信息熵计算该数据的不确定性,计算方法如公式(6)所示。
Figure GDA0003183946940000081
命名实体识别:利用实体识别模型得到每个分词属于实体标签的概率(实体识别用的标注方式为BIO+实体类别,比如B-PER表示人名实体的开始,I-PER表示人名实体开始后面的字,O表示Other其它),如果该分词属于标签O的概率大于等于0.8,则该分词的不确定性值等于0,否则利用信息熵计算每个分词的不确定性值,最后累加该条语料的所有分词不确定性值作为该语料的不确定性值。每条语料的不确定值计算入公式(7)所示。
Figure GDA0003183946940000082
其中i表示第i个分词,如j=O且概率大于等于0.8时,
Figure GDA0003183946940000083
4.查询未标注数据。
主动学习的核心是把对模型增益较大的语料尽早的推给标注用户并尽早的标注,得到增益信息,如何查询未标注信息决定了语料的出现顺序,是主动学习的关键步骤,本申请结合了流行的两种查询方式,同时考虑了代表性和不确定性对查询的影响。
首先计算每个聚类簇的平均不确定性值,按照值从大到小排序。
顺序选取每个聚类簇中不确定性值最大的语料,推荐给用户,如果推荐的数量小于用户请求的数量,则按顺序取第二大的,以此类推。
计算聚类簇的平均不确定性值,为了计算每个类簇对模型的增益信息,从每个类簇里取为了防止语义相似的语料同时出现对模型的冗余,这样做同时能保证推荐的语料同时具有较大的信息增益,又不会造成相似语义语料对模型的增益较小的问题。
5.轮询分配实现多人标注。
在标注任务中,如何衡量每个标注人员的标注质量是一个关键的问题,人工抽样校验是一种准确但比较耗时的方法,多人标注是一种可以自动监控标注人员标注质量的方法,本申请通过轮询的方式实现多人标注。
根据步骤4查询得到的语料顺序,对每一条语料进行多人标注。假设有n个标注人员,每条语句需要k个人标注,k小于等于n。首先规定n个人的标注顺序,按照标注顺序选取k个人对第一条语料进行标注,接下来,从第k+1个人开始循环找k个人对第二条语料进行标注,以此类推进行分配。
(3)用户标注模块
本申请为用户提供了分类标签的预测和实体的类别预测,方便了用户的操作,同时提供了结束判断条件。
文本分类时,本申请提供了预测的分类标签,同时也提供了候选标签,当模型预测错误时,可以很方便的修正分类标签。
命令实体识别时,为用户识别出具体的实体,并标明所属类型,可以增加实体删除实体和修改实体。
对每次模型的准确度进行记录,当模型训练集的量大于标注量阈值后,模型的准确度在多次更新后变动较小,提醒项目创建者可以提前结束标注。
图2为本申请实施例提供的用于标注平台的主动学习方法的流程示意图,如图2所示,所述用于标注平台的主动学习方法包括以下步骤:
步骤201:利用已经标注数据训练文本模型。
这里,训练文本模型可以参照前述主动学习模块中关于训练文本模型的描述进行理解,此处不再赘述。
步骤202:利用已经训练的文本模型预测未标注数据的标签,并计算每条未标注数据的不确定性。
这里,利用已经训练的文本模型预测未标注数据的标签之前,所述方法还包括如下数据预处理过程:1)提取未标注数据的关键词;2)利用关键词向量化表示每一条未标注数据;3)基于未标注数据的向量,计算未标注数据间的余弦相似度;4)利用余弦相似度,对未标注数据进行AP聚类。
这里,数据预处理过程可以参照前述数据预处理模块的描述进行理解,此处不再赘述。
在一例子中,假设本申请的语料数据(即未标注数据)如图3中的语料部分,包含了7条数据,前面是行号,后面为语料。相应的数据预处理过程包括:
tf_idf关键词提取:首先通过tf_idf对语料进行tf_idf关键词提取,其中图3中的tf_idf矩阵表示第i行的索引为j的关键词的tf_idf值,关键词索引对应分词词典。比如第一条记录,0表示语料中的第0行,25是索引,在分词词典中可以找到对应关键词科X,所以在第0行科X关键词的tf_idf值为0.335。得到每行关键词的tf_idf值后,累加每个关键词的tf_idf值,对累加后的关键词按tf_idf值排序,并提取排名靠前的关键词。图3中的tf_idf关键词为得到全局的关键词。
数据向量化:第一步中得到了关键词并按tf_idf值进行了排序,假设本申请截取了排名靠前25位的部分关键词。对每条语料进行分词,并用一个初始化全部为0的25维数组表示,如果该条语料中的分词在tf_idf关键词中,把该位置值修改为1。例如第0句:“科X登场,代表X国队将世界杯奖杯转交给姚X”,分词科X出现在关键词字典中,且位于第1位(范XX为第0位),所以把第二位置为1,同时代表、世界杯、奖杯、交给、姚X也出现在关键词中,并把相应位置改为1,所以向量化为[0,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
AP聚类:为每一条语料进行向量化后,计算两两之间的相似度,把相似度相近的语料聚在一起。如图3中语料[0,1][2,3][4,5,6]聚成三个类,每个类中语义相似,不同类之间语义差异较大。
经过上述数据预处理过程之后,就可以利用已经训练的文本模型预测未标注数据的标签,并计算每条未标注数据的不确定性。这里,预测未标注数据的标签以及不确定性可以参照前述主动学习模块中的相关描述进行理解,此处不再赘述。
步骤203:基于每条未标注数据的不确定性,确定未标注数据的标注顺序。
这里,基于每条未标注数据的不确定性,计算每个聚类簇的平均不确定性值,按照平均不确定性值从大到小排序;顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户,如果推荐的数量小于用户请求的数量,则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户,以此类推。
这里,确定未标注数据的标注顺序可以参照前述主动学习模块中的相关描述进行理解,此处不再赘述。
在一例子中,假设标注者已经标注了第0条和第4条(分类问题),第0条属于体育,第4条属于娱乐,这个时候训练分类器,利用分类模型本申请计算未标注数据的不确定性和预测每条语料的分类标签,因为第0条和第1条语句相似,分类器很容易预测第1条的语料为体育,第4条和5、6相似,所以5、6为娱乐。但是分类器对3、4条语料不能确定其分类标签,主要他的关键词没有在训练模型中出现,所以3、4条数据将获得一个较大的不确定性值。
在得到聚类结果和不确定值后,计算每个聚类簇的平均不确定性值,并按大小排序。本申请按顺序从每个聚类簇中提取不确定值最大的语句,推荐给标注人员进行标注,比如本申请下一批推荐的第4条,进行标注后,重新训练分类模型,计算不确定性值和预测分类标签,推荐数据,直到达到结束条件或者数据标注完成。
步骤204:按照未标注数据的标注顺序,将未标注数据及其标签推荐给用户。
这里,按照未标注数据的标注顺序,采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。
具体地,确定n个用户的顺序,n为正整数;按照顺序从n个用户选取k个用户对第i条未标注数据进行标注,k为小于等于n且大于等于1的正整,i为正整数;从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注,以此类推。
图4为本申请实施例提供的用于标注平台的主动学习装置的结构组成示意图,如图4所示,所述用于标注平台的主动学习装置包括:
训练单元401,用于利用已经标注数据训练文本模型;
计算单元402,用于利用已经训练的文本模型预测未标注数据的标签,并计算每条未标注数据的不确定性;
确定单元403,用于基于每条未标注数据的不确定性,确定未标注数据的标注顺序;
推荐单元404,用于按照未标注数据的标注顺序,将未标注数据及其标签推荐给用户。
在一实施方式中,所述装置还包括:
预处理单元405,用于提取未标注数据的关键词;利用关键词向量化表示每一条未标注数据;基于未标注数据的向量,计算未标注数据间的余弦相似度;利用余弦相似度,对未标注数据进行AP聚类。
在一实施方式中,所述确定单元403,用于基于每条未标注数据的不确定性,计算每个聚类簇的平均不确定性值,按照平均不确定性值从大到小排序;顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户,如果推荐的数量小于用户请求的数量,则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户,以此类推。
在一实施方式中,所述推荐单元404,用于按照未标注数据的标注顺序,采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。
在一实施方式中,所述推荐单元404,用于确定n个用户的顺序,n为正整数;按照顺序从n个用户选取k个用户对第i条未标注数据进行标注,k为小于等于n且大于等于1的正整,i为正整数;从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注,以此类推。
本领域技术人员应当理解,图4所示的用于标注平台的主动学习装置中的各单元的实现功能可参照前述用于标注平台的主动学习装置方法以及原理架构图的相关描述而理解。图4所示的用于标注平台的主动学习装置中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (8)

1.一种用于标注平台的主动学习方法,其特征在于,所述方法包括:
从数据库中加载所有的语料数据,对每条语料数据进行jieba分词,对于不同文本中出现的相同关键词进行叠加tf_idf值,根据叠加后的tf_idf值,从大到小排序关键词,默认取前10000个关键词作为全局的关键词,如果分词数没有达到10000,则选取全部分词作为全局关键词;对选取的关键词建立关键词和索引对应的词典,对每条语料创建一个关键词词典大小全为0的初始化数组,对语料数据进行jieba分词,判断分词是否在关键词索引字典当中,如果在,则找到索引位置把初始化数组该位置的0改为1,完成对每条语料的向量化;利用余弦相似度得到相似度矩阵;利用得到的相似度矩阵进行AP聚类,记录每条数据所属类簇的索引和聚类中心索引;利用用户已经标注的数据进行模型训练,利用已经训练的模型预测未标注数据的标签,并利用模型得到属于每个标签的概率,计算每条数据的不确定性,综合聚类结果,轮询查询未标记数据,得到推荐给标注用户数据的顺序;利用已经标注数据训练文本模型;
利用已经训练的文本模型预测未标注数据的标签,并计算每条未标注数据的不确定性;
基于每条未标注数据的不确定性,确定未标注数据的标注顺序;
按照未标注数据的标注顺序,采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。
2.根据权利要求1所述的方法,其特征在于,利用已经训练的文本模型预测未标注数据的标签之前,所述方法还包括:
提取未标注数据的关键词;
利用关键词向量化表示每一条未标注数据;
基于未标注数据的向量,计算未标注数据间的余弦相似度;
利用余弦相似度,对未标注数据进行AP聚类。
3.根据权利要求1所述的方法,其特征在于,所述基于每条未标注数据的不确定性,确定未标注数据的标注顺序,包括:
基于每条未标注数据的不确定性,计算每个聚类簇的平均不确定性值,按照平均不确定性值从大到小排序;
顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户,如果推荐的数量小于用户请求的数量,则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户,以此类推。
4.根据权利要求1所述的方法,其特征在于,采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注,包括:
确定n个用户的顺序,n为正整数;
按照顺序从n个用户选取k个用户对第i条未标注数据进行标注,k为小于等于n且大于等于1的正整,i为正整数;
从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注,以此类推。
5.一种用于标注平台的主动学习装置,其特征在于,所述装置包括:
训练单元,用于从数据库中加载所有的语料数据,对每条语料数据进行jieba分词,对于不同文本中出现的相同关键词进行叠加tf_idf值,根据叠加后的tf_idf值,从大到小排序关键词,默认取前10000个关键词作为全局的关键词,如果分词数没有达到10000,则选取全部分词作为全局关键词;对选取的关键词建立关键词和索引对应的词典,对每条语料创建一个关键词词典大小全为0的初始化数组,对语料数据进行jieba分词,判断分词是否在关键词索引字典当中,如果在,则找到索引位置把初始化数组该位置的0改为1,完成对每条语料的向量化;利用余弦相似度得到相似度矩阵;利用得到的相似度矩阵进行AP聚类,记录每条数据所属类簇的索引和聚类中心索引;利用用户已经标注的数据进行模型训练,利用已经训练的模型预测未标注数据的标签,并利用模型得到属于每个标签的概率,计算每条数据的不确定性,综合聚类结果,轮询查询未标记数据,得到推荐给标注用户数据的顺序;利用已经标注数据训练文本模型;
计算单元,用于利用已经训练的文本模型预测未标注数据的标签,并计算每条未标注数据的不确定性;
确定单元,用于基于每条未标注数据的不确定性,确定未标注数据的标注顺序;
推荐单元,用于按照未标注数据的标注顺序,采用轮询方法将每一条未标注数据及其标签推荐给多个用户进行标注。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
预处理单元,用于提取未标注数据的关键词;利用关键词向量化表示每一条未标注数据;基于未标注数据的向量,计算未标注数据间的余弦相似度;利用余弦相似度,对未标注数据进行AP聚类。
7.根据权利要求5所述的装置,其特征在于,所述确定单元,用于基于每条未标注数据的不确定性,计算每个聚类簇的平均不确定性值,按照平均不确定性值从大到小排序;顺序选取每个聚类簇中不确定性值最大的未标注数据推荐给用户,如果推荐的数量小于用户请求的数量,则按顺序选取每个聚类簇中不确定性值第二大的未标注数据推荐给用户,以此类推。
8.根据权利要求5所述的装置,其特征在于,所述推荐单元,用于确定n个用户的顺序,n为正整数;按照顺序从n个用户选取k个用户对第i条未标注数据进行标注,k为小于等于n且大于等于1的正整,i为正整数;从第k+1个用户开始循环找k个用户对第i+1条未标注数据进行标注,以此类推。
CN201910392864.5A 2019-05-13 2019-05-13 一种用于标注平台的主动学习方法及装置 Active CN110188197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910392864.5A CN110188197B (zh) 2019-05-13 2019-05-13 一种用于标注平台的主动学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910392864.5A CN110188197B (zh) 2019-05-13 2019-05-13 一种用于标注平台的主动学习方法及装置

Publications (2)

Publication Number Publication Date
CN110188197A CN110188197A (zh) 2019-08-30
CN110188197B true CN110188197B (zh) 2021-09-28

Family

ID=67714462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910392864.5A Active CN110188197B (zh) 2019-05-13 2019-05-13 一种用于标注平台的主动学习方法及装置

Country Status (1)

Country Link
CN (1) CN110188197B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580290B (zh) * 2019-09-12 2022-12-13 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN110795072B (zh) * 2019-10-16 2021-10-29 北京航空航天大学 一种基于群体智能的群智竞赛平台框架系统及方法
CN112801296A (zh) * 2019-11-13 2021-05-14 阿里巴巴集团控股有限公司 数据处理方法、装置和系统
CN111144120A (zh) * 2019-12-27 2020-05-12 北京知道创宇信息技术股份有限公司 一种训练语句的获取方法、装置、存储介质及电子设备
CN111914061B (zh) * 2020-07-13 2021-04-16 上海乐言科技股份有限公司 文本分类主动学习的基于半径的不确定度采样方法和系统
CN112632284A (zh) * 2020-12-30 2021-04-09 上海明略人工智能(集团)有限公司 用于未标注文本数据集的信息抽取方法及系统
CN112650852A (zh) * 2021-01-06 2021-04-13 广东泰迪智能科技股份有限公司 一种基于命名实体和ap聚类的事件归并方法
CN113283501A (zh) * 2021-05-24 2021-08-20 平安国际融资租赁有限公司 基于深度学习的设备状态检测方法、装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN106021406A (zh) * 2016-05-12 2016-10-12 南京大学 一种数据驱动的迭代式图像在线标注方法
CN108304427A (zh) * 2017-04-28 2018-07-20 腾讯科技(深圳)有限公司 一种用户客群分类方法和装置
CN108537240A (zh) * 2017-03-01 2018-09-14 华东师范大学 基于领域本体的商品图像语义标注方法
CN108595460A (zh) * 2018-01-05 2018-09-28 中译语通科技股份有限公司 关键词自动抽取的多路评测方法及系统、计算机程序
CN109492776A (zh) * 2018-11-21 2019-03-19 哈尔滨工程大学 基于主动学习的微博流行度预测方法
CN109686423A (zh) * 2018-11-06 2019-04-26 众安信息技术服务有限公司 一种医疗影像标注方法及系统
CN109697289A (zh) * 2018-12-28 2019-04-30 北京工业大学 一种改进的用于命名实体识别的主动学习方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530282B (zh) * 2013-10-23 2016-07-13 北京紫冬锐意语音科技有限公司 语料标注方法及设备
US20170039469A1 (en) * 2015-08-04 2017-02-09 Qualcomm Incorporated Detection of unknown classes and initialization of classifiers for unknown classes
CN106557485B (zh) * 2015-09-25 2020-11-06 北京国双科技有限公司 一种选取文本分类训练集的方法及装置
CN105338093A (zh) * 2015-11-16 2016-02-17 中国建设银行股份有限公司 一种数据同步方法和系统
CN105354333B (zh) * 2015-12-07 2018-11-06 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN106156294B (zh) * 2016-06-29 2019-11-08 中电福富信息科技有限公司 一种快速查找关联数据的方法
US11138523B2 (en) * 2016-07-27 2021-10-05 International Business Machines Corporation Greedy active learning for reducing labeled data imbalances
US10325224B1 (en) * 2017-03-23 2019-06-18 Palantir Technologies Inc. Systems and methods for selecting machine learning training data
CN107066555B (zh) * 2017-03-26 2020-03-17 天津大学 面向专业领域的在线主题检测方法
CN109446300B (zh) * 2018-09-06 2021-04-20 厦门快商通信息技术有限公司 一种语料预处理方法、语料预标注方法及电子设备
CN109635838B (zh) * 2018-11-12 2023-07-11 平安科技(深圳)有限公司 人脸样本图片标注方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN106021406A (zh) * 2016-05-12 2016-10-12 南京大学 一种数据驱动的迭代式图像在线标注方法
CN108537240A (zh) * 2017-03-01 2018-09-14 华东师范大学 基于领域本体的商品图像语义标注方法
CN108304427A (zh) * 2017-04-28 2018-07-20 腾讯科技(深圳)有限公司 一种用户客群分类方法和装置
CN108595460A (zh) * 2018-01-05 2018-09-28 中译语通科技股份有限公司 关键词自动抽取的多路评测方法及系统、计算机程序
CN109686423A (zh) * 2018-11-06 2019-04-26 众安信息技术服务有限公司 一种医疗影像标注方法及系统
CN109492776A (zh) * 2018-11-21 2019-03-19 哈尔滨工程大学 基于主动学习的微博流行度预测方法
CN109697289A (zh) * 2018-12-28 2019-04-30 北京工业大学 一种改进的用于命名实体识别的主动学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于粗糙集的主动学习方法研究;周耀;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415(第 04 期);I140-176 *

Also Published As

Publication number Publication date
CN110188197A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110188197B (zh) 一种用于标注平台的主动学习方法及装置
CN110427563B (zh) 一种基于知识图谱的专业领域系统冷启动推荐方法
Alami et al. Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling
CN107729468B (zh) 基于深度学习的答案抽取方法及系统
CN110502621A (zh) 问答方法、问答装置、计算机设备及存储介质
Fan et al. Variational learning of a Dirichlet process of generalized Dirichlet distributions for simultaneous clustering and feature selection
CN104881458B (zh) 一种网页主题的标注方法和装置
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN113553429B (zh) 一种规范化标签体系构建及文本自动标注方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN105653562A (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN112052356A (zh) 多媒体分类方法、装置和计算机可读存储介质
CN103778206A (zh) 一种网络服务资源的提供方法
de Ves et al. A novel dynamic multi-model relevance feedback procedure for content-based image retrieval
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
Patel et al. Dynamic lexicon generation for natural scene images
CN106570196B (zh) 视频节目的搜索方法和装置
CN108519978A (zh) 一种基于主动学习的中文正式文本分词方法
Jiang et al. A CRD-WEL system for chemical-disease relations extraction
CN114493783A (zh) 一种基于双重检索机制的商品匹配方法
WO2006124077A2 (en) Cross descriptor learning system, method and program product therefor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant