CN107067025B - 一种基于主动学习的文本数据自动标注方法 - Google Patents

一种基于主动学习的文本数据自动标注方法 Download PDF

Info

Publication number
CN107067025B
CN107067025B CN201710081921.9A CN201710081921A CN107067025B CN 107067025 B CN107067025 B CN 107067025B CN 201710081921 A CN201710081921 A CN 201710081921A CN 107067025 B CN107067025 B CN 107067025B
Authority
CN
China
Prior art keywords
data
sample
text data
marked
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710081921.9A
Other languages
English (en)
Other versions
CN107067025A (zh
Inventor
王进
张登峰
卜亚楠
李颖
范磊
李智星
欧阳卫华
孙开伟
陈乔松
邓欣
胡峰
雷大江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710081921.9A priority Critical patent/CN107067025B/zh
Publication of CN107067025A publication Critical patent/CN107067025A/zh
Application granted granted Critical
Publication of CN107067025B publication Critical patent/CN107067025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes

Abstract

本发明请求保护一种基于主动学习的文本数据自动标注方法,属于主动学习领域,包括以下步骤:101对已标记和未标记数据进行处理;102利用多个不同分类器对未标记数据进行分类;103选出分歧熵低的数据;104对分歧熵低的数据进行人工标记;105对人工标记结果进行自检。本发明针对如何在减少人工标注数据的数量的同时,尽量保证人工标注数据的准确性问题,通过结合主动学习方法发明一个附带自检功能的数据自动标注系统,达到缩减工作量且提高人工标注数据准确性的目的。

Description

一种基于主动学习的文本数据自动标注方法
技术领域
本发明涉及主动学习领域,尤其涉及一种基于主动学习的数据自动标注方法。
背景技术
随着大数据时代的到来,互联网上出现了一种新型职业—数据标注员。数据标注员的工作是使用自动化的工具从互联网上抓取、收集数据,包括文本、图片、语音等等,然后对抓取的数据进行整理与标注。具体的工作流程:首先,标注人员经过培训,确定需要标注的样本数据以及标注规则;然后,根据事先安排好的规则对样本数据进行打标;最后,对标注完以后的结果进行合并。但是,这种打标过程存在以下问题:1、整个标注过程非常复杂,数据量特别多的时候,需要人工劳动力会特别大;2、在数据标注过程中,由于标注人员的精力有限或者标注人员的主观性等因素,导致无法保证标注数据的百分百准确性,即无法判断标注的质量。因此,大量数据的标注过程是一个非常耗时且难以保证准确率的任务。
在真实的应用中,实验数据容易获得,数据规模也是非常大的,由于数据需要处理成有标签样本,因而,需要大量的人员耗时耗力来处理。在大数据发展的今天,通过已标记样本来标记未标记的样本数据是非常常见的一种方法。由于人工标记样本是有限的,而且不能保证所有的人工标记的数据样本都是正确的。而且,在实际问题中,某些样本数据,如基因分析所用的基因组成数据,标记代价很高,所以通常来说,未标记样本数量会远远超过已标记样本的数据。因此,怎样减少人工标注数据的数量,并尽量保证人工标注数据的准确性的此类主动学习方法,成为了近年来的研究热点之一。
因此,本文针对在大数据背景下,基于传统主动学习方法,提出一种基于主动学习的数据自动标注系统,解决人工标注数据的可靠性问题,对于机器学习算法不能正确标注的数据样本进行人工标注,之后,对人工标注的结果利用一种自检机制,对人工标注结果进行反馈,以确保数据标注的正确性。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种缩减工作量且提高人工标注数据准确性的基于主动学习的文本数据自动标注方法。本发明的技术方案如下:
一种基于主动学习的文本数据自动标注方法,其包括以下步骤:101、对已标记文本数据和未标记文本数据进行处理:首先分别对已人工标记样本文本数据和未标记样本文本数据做聚类处理,保存聚类后所得的k个聚簇中心点 (C1,C2,C3,…,Ck)和每个聚簇内点到聚类中心的距离d,以及每个聚簇的聚类半径(r1,r2,…,rk);
102、利用多个不同的基分类器对未标记文本数据进行分类:根据步骤101 中经过聚类处理的部分已标记文本数据训练M个不同的分类器 (M1,M2,…,MM),并根据另外一部分文本数据使用线性回归模型对M个不同基分类器的分类结果做模型融合,得到每个基分类器的权重(i1,i2,…,iM),使用这 M个分类器结合各自权重对未标记文本数据进行分类
Figure GDA0002734741050000021
并根据标记结果,将已确定标记无误的样本加入已标记样本并不断定时重新训练当前各分类器模型,未标记文本数据确认类别后加入到已标记文本数据中,随着已标记文本数据量的增加,分类器模型应不断重新训练更新;
103、将步骤102未标记文本数据的最终分类结果P和每个基分类器的分类结果(p1,p2,…,pM)进行结合获取该样本的分类分歧和:将分歧定义为样本融合后的最终分类类别和基分类器分类类别是否相同,相同则分歧为0,不相同为1,最后,计算并选取出分歧和大于k/2的未标记文本数据,分歧和指前面所有的0 和1相加不同的分类器个数,并做标记处理;
104、对分歧大的文本数据进行人工标记;
105、对人工标记结果进行自检,如果自检结果与人工标记的存在差异,则重新将该样本放入队列提醒进行重新人工标记。
进一步的,所述步骤101对已标记数据聚类处理为:
采用聚类算法对已标记数据进行聚类,保存聚类后所得的X个聚簇中心点坐标,每个聚簇的平均半径D,以及当前每个聚簇的真实类别(Y1,Y2,Y3,…,YX)。
进一步的,所述步骤101对未标记数据聚类处理为:
采用聚类算法对未标记数据进行聚类,保存聚类后所得的Y个聚簇中心点 (C1,C2,C3,…,CY)和每个聚簇内点到聚类中心的距离d以及每个聚簇的聚类半径(r1,r2,…,rY),X和Y的值没有关系,根据数据进行选取,并且X表示已标记数据的聚类后的值,Y表示未标记数据的聚类后的值,X和Y的和应该等于总数k,在自检过程中方便查找可疑样本x周围的N个最近样本,查找过程:
1)计算x与Y个聚簇中心点的距离L,并减去相应聚簇的半径r,得到 l=(l1,l2,…,lY);
2)取L中值最小的3个簇,设(Q1,Q2,Q3)容器中存放需要的样本,对3个簇做如下操作:
i、对3个簇中的样本点按照距离簇中心点的距离从大到小排列;
ii、依次计算样本点与可疑样本x的距离,如果距离<Ln则替换掉Qn中的最小值,否则舍去,直到样本点用完或Qn已满;Ln表示第n个容器中的距离阈值,n取值1或2或3;
iii、取(Q1,Q2,Q3)中最小的N个值即为所查找的N个最近邻位置。
进一步的,所述聚类算法可以根据数据样本采用包括层次聚类、K-means 在内的聚类方法。
进一步的,所述步骤102中不同的基分类器包括决策树、神经网络、支持向量机、朴素贝叶斯和随机森林在内的分类器。
进一步的,所述步骤103选出分歧较大的数据:用已标记文本数据集训练 M个不同的分类器(M1,M2,…,MM),并用线性回归模型对这M个分类器进行模型融合,确定每个分类器的权重(i1,i2,…,iM),基于每一个未知样本的M个基分类器对该样本的分类结果(M1,M2,…,MM)以及分类置信度和每个基分类器的权重求出该样本的最终预测类别,预测类别
Figure GDA0002734741050000041
并根据最终预测类别P和M个基分类器分类结果(M1,M2,…,MM)进行对比求分歧操作,统计分歧和。
进一步的,所述步骤105自检过程包括以下步骤:
i、某人工标注样本g找到最近邻N个样本X={x1,x2,…,xN },如果g的近邻样本都已标注,则继续;如果近邻样本存在未标记数据,则跳过并重新选取人工标记数据;
ii、计算每一个人工标记数据与步骤101聚类好的已标记数据的簇类中心的距离和簇类半径的差值结果前m个最小值集合W={Rr1,Rr2,…,Rrm},保存这些簇的真实类别(Y1,Y2,Y3,…,Ym);根据公式(1)计算根据已标记样本确定的样本类别影响因子;
Figure GDA0002734741050000042
Figure GDA0002734741050000043
其中e表示标签值(Y1,Y2,Y3,…,Ym)中Yi=1的个数,i=1,2…m,t表示标签值(Y1,Y2,Y3,…,Ym)中Yi=0的个数;
iii、根据在未标记数据选取的近邻样本数据{x1,x2,…,xk},统计其已标记的标签值{p1,p2,…,pk},其中pi∈(1,0),并算取每一个样本数据离人工标记数据的距离{d1,d2,…,dk},根据公式(3) 和(4)分别计算未标记数据样本对该样本权重类别的影响因子;
Figure GDA0002734741050000044
Figure GDA0002734741050000051
其中f表示标签值{p1,p2,…,pk}中pi=1的个数,g表示标签值{p1,p2,…,pk} 中pi=0的个数;
iv、根据ii、iii步骤,根据公式(5)算取自检模块分析出的该样本类别y,如果i=0,N=g,如果i=1,N=f,即:
Figure GDA0002734741050000052
如果自检结果y与人工标记的存在差异,则重新将该样本放入队列提醒进行重新人工标记。
本发明的优点及有益效果如下:
本发明101对未标记样本进行聚类操作并保存相关聚类信息,方便查找某个未知样本周围最近的N个样本,缩短了寻找最近邻样本的时间开销。
102 103基于主动学习的思想,在数据标注过程中采用机器学习算法标注和人工标注互补的思路,通过预测类别和基分类器预测类别进行比较,通过分歧和找出分歧大的样本进行人工标注,大大缩减人工标注的成本和开销。同时基于主动学习的思想不断将已确定标签样本不断加入已标记样本集合中并不断重新训练基分类器,强化机器学习算法在人工标注过程中的增量学习过程,增加下阶段机器学习算法对未知样本类别自动预测和标注结果的可靠性。
105该方法考虑到人工标注可靠性问题:对人工标注的结果利用一种自检机制,对人工标注结果进行反馈,以确保数据标注的正确性,允许人工标记数据中的偶然错误。同时在自检过程结合已标记样本的分布情况和未标记样本的分布情况,兼顾了整个样本的分布情况进行标注结果的自检,增强自检的有效性和合理性。
附图说明
图1是本发明提供优选实施例提供一种基于主动学习的数据标注方法流程图;
图2表示人工标注结果自检系统举例说明;
图3为本发明实施例一提供一种人工标注的自检方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
实施例一
参考图1,图1为本实施例提供的一种基于主动学习的文本数据标注方法流程图 ,具体包括:
101对已标记的文本数据集flag和未标记的文本数据集imflag进行处理:对已标记的文本数据flag进行聚类处理,并标注每个类簇的中心点的值;
所述对已标记的文本数据集flag进行聚类处理是指对于已标记的文本数据集flag样本,根据每一个文本数据样本的标签值进行聚类,相近且类别相同的样本划分成一类,本实验聚类的类簇个数为k,类簇集合表示为{f1,f2,…,fk},并求出每一个类簇的簇中心点的值{a1,a2,…,ak}。
所述对未标记数据集imflag采用基于聚类的线性扫描查找,特殊的查找方式以减少计算距离的次数的非常现实的问题为目的
102利用多个不同的分类器对未标记文本数据集imflag进行分类。用已标记文本数据集flag样本分别训练M个不同的分类器,并用线性回归模型对这M个分类器进行模型融合,确定每个分类器的权重(i1,i2,…,iM),之后使用这M个分类器结合各自权重对未标记数据进行分类
Figure GDA0002734741050000061
统计每一个未标记的文本样本的分类结果和分类分歧。
所述多个不同的分类器对未标记数据进行分类是指采用M个分类器,本实验中选取的是决策树、神经网络、支持向量机(SVM)和朴素贝叶斯。
103选出分歧高的文本数据:根据102获得每一个分类器对未标记数据集 imflag的分类结果,然后把每一个未标记数据的分类结果进行融合,选取分歧大于阈值的数据并做标记处理。
所述将分歧定义为样本融合后的最终分类类别P和M个基分类器分类类别是否相同,相同分歧为0,不相同为1,
104对分歧熵低的数据进行人工标记:对标记数据进行人工标记。
所述对标记数据进行人工标记是指对103选出的信息熵低于阈值T1的样本数据进行人工的标注,人为的判断此样本数据的标签值。在大数据的背景下,这样可以减少人为标注的工作量。
对于已标记数据集flag分别建立决策树、神经网络、支持向量机(SVM)、朴素贝叶斯和随机森林分类模型,然后对每一个未标记文本数据进行分类,之后输出分类结果和置信度,根据每个分类器输出的置信度求平均。
比如未标记文本数据在5个分类器中输出的结果为{y1=1,y2=1,y3=1,y4=0, y5=0},其对应的置信度分别为{c1=0.7,c2=0.6,c3=0.8,c4=0.1,c5=0.2},经过线性回归模型后,确定的每个分类器的权重为{r1=0.2,r2=0.1,r3=0.1,r4=0.5,r5=0.1},则该样本的最终置信度C=0.2*0.7+0.1*0.6+0.1*0.8+0.5*0.1+0.1*0.2=0.35,为=0,此样本的分歧为1+1+1+0+0=3,且大于阈值T1(T1=5/2),因此把此未标记数据标记,后续进行人工标记,人为的判断该未标记文本数据的标签值。反之,如果算出的分歧较低,且小于阈值T1,则样本类别为最终置信度决定的类别P。
105对人工标记进行自检:设置一种自检机制对人工标记的数据进行判断,以防止人工标记出现较大的误差。如图2所示的一种人工标注的自检系统:
自检过程如下:
i某人工标注样本g基于权利要求1查找到的最近邻N个样本X={x1, x2,…,xn},如果g的近邻样本都已标注,则继续;如果近邻样本存在未标记数据,则跳过并重新选取人工标记数据。
ii计算每一个人工标记数据与101聚类好的已标记数据的簇类中心的距离和簇类半径的差值结果前m个最小值集合W={Rr1,Rr2,…,Rrm}保存这些簇的真实类别(Y1,Y2,Y3,…,Ym);根据公式(1)计算根据已标记样本确定的样本类别影响因子。
Figure GDA0002734741050000081
Figure GDA0002734741050000082
其中e表示标签值(Y1,Y2,Y3,…,Ym)中Yi=1的个数,t表示标签值(Y1,Y2,Y3,…,Ym)中Yi=0的个数。
iii根据在未标记数据选取的近邻样本数据{x1,x2,…,xk},统计其已标记的标签值{p1,p2,…,pk}其中pi∈(1,0),并算取每一个样本数据离人工标记数据的距离{d1,d2,…,dk},根据公式(3) 和(4)分别计算未标记数据样本对该样本权重类别的影响因子。
Figure GDA0002734741050000083
Figure GDA0002734741050000084
其中f表示标签值{p1,p2,…,pk}中pi=1的个数,g表示标签值{p1,p2,…,pk} 中pi=0的个数。
iv根据ii,iii步骤,根据公式(5)算取自检模块分析出的该样本类别y, (其中如果i=0,N=g,如果i=1,N=f)。
如果自检结果y与人工标记的存在差异,则重新将该样本放入队列提醒进行重新人工标记。
Figure GDA0002734741050000085
假设对人工标记的文本样本数据di进行自检,如图2所示的一种人工标注的自检系统:
假设左图为已标注数据聚类结果中,距离待自检样本最近的m=3个聚簇,待自检样本距A簇最短距离为平均值为3,距离B簇平均最短距离为1。
右图为未标记样本聚类结果中查找到的k=5个最近邻样本,样本周围5个样本的类别已经被标注为3个A,2个B。且平均距离A类为3,距离B类样本平均距离为4。
根据公式计算后,
ω′A=1/4
ω′B=3/4
ωA=4/7
ωB=3/7
A的类别概率为1/4*4/7*3=12/28
B的类别概率为3/4*3/7*2=18/28
自检系统认为该样本为B类,如果人工标注为A类则需要重新加入队列重新标注,否则则不需要。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于主动学习的文本数据自动标注方法,其特征在于,包括以下步骤:101、对已标记文本数据和未标记文本数据进行处理:首先分别对已人工标记样本文本数据和未标记样本文本数据做聚类处理,保存聚类后所得的k个聚簇中心点(C1,C2,C3,…,Ck)和每个聚簇内点到聚类中心的距离d,以及每个聚簇的聚类半径(r1,r2,…,rk);
102、利用多个不同的基分类器对未标记文本数据进行分类:根据步骤101中经过聚类处理的部分已标记文本数据训练M个不同的分类器(M1,M2,…,MM),并根据另外一部分文本数据使用线性回归模型对M个不同基分类器的分类结果做模型融合,得到每个基分类器的权重(i1,i2,…,iM),使用这M个分类器结合各自权重对未标记文本数据进行分类
Figure FDA0002734741040000011
并根据标记结果,将已确定标记无误的样本加入已标记样本并不断定时重新训练当前各分类器模型,未标记文本数据确认类别后加入到已标记文本数据中,随着已标记文本数据量的增加,分类器模型应不断重新训练更新;
103、将步骤102未标记文本数据的最终分类结果P和每个基分类器的分类结果(p1,p2,…,pM)进行结合获取该样本的分类分歧和:将分歧定义为样本融合后的最终分类类别和基分类器分类类别是否相同,相同则分歧为0,不相同为1,最后,计算并选取出分歧和大于k/2的未标记文本数据,分歧和指前面所有的0和1相加不同的分类器个数,并做标记处理;
104、对分歧大的文本数据进行人工标记;
105、对人工标记结果进行自检,如果自检结果与人工标记的存在差异,则重新将该样本放入队列提醒进行重新人工标记。
2.根据权利要求1所述的基于主动学习的文本数据自动标注方法,其特征在于,
所述步骤101对已标记数据聚类处理为:
采用聚类算法对已标记数据进行聚类,保存聚类后所得的X个聚簇中心点坐标,每个聚簇的平均半径D,以及当前每个聚簇的真实类别(Y1,Y2,Y3,...,YX)。
3.根据权利要求2所述的基于主动学习的文本数据自动标注方法,其特征在于,所述步骤101对未标记数据聚类处理为:
采用聚类算法对未标记数据进行聚类,保存聚类后所得的Y个聚簇中心点(C1,C2,C3,...,CY)和每个聚簇内点到聚类中心的距离d以及每个聚簇的聚类半径(r1,r2,...,rY),X和Y的值没有关系,根据数据进行选取,并且X表示已标记数据的聚类后的值,Y表示未标记数据的聚类后的值,X和Y的和应该等于总数k,在自检过程中方便查找可疑样本x周围的N个最近样本,查找过程:
1)计算x与Y个聚簇中心点的距离L,并减去相应聚簇的半径r,得到l=(l1,l2,...,lY);
2)取L中值最小的3个簇,设(Q1,Q2,Q3)容器中存放需要的样本,对3个簇做如下操作:
i、对3个簇中的样本点按照距离簇中心点的距离从大到小排列;
ii、依次计算样本点与可疑样本x的距离,如果距离<Ln则替换掉Qn中的最小值,否则舍去,直到样本点用完或Qn已满;Ln表示第n个容器中的距离阈值,n取值1或2或3;
iii、取(Q1,Q2,Q3)中最小的N个值即为所查找的N个最近邻位置。
4.根据权利要求3所述的基于主动学习的文本数据自动标注方法,其特征在于,所述聚类算法可以根据数据样本采用包括层次聚类、K-means在内的聚类方法。
5.根据权利要求1-4之一所述的基于主动学习的文本数据自动标注方法,其特征在于,所述步骤102中不同的基分类器包括决策树、神经网络、支持向量机、朴素贝叶斯和随机森林在内的分类器。
6.根据权利要求3所述的基于主动学习的文本数据自动标注方法,其特征在于,
所述步骤103选出分歧较大的数据:用已标记文本数据集训练M个不同的分类器(M1,M2,...,MM),并用线性回归模型对这M个分类器进行模型融合,确定每个分类器的权重(i1,i2,...,iM),基于每一个未知样本的M个基分类器对该样本的分类结果(M1,M2,...,MM)以及分类置信度和每个基分类器的权重求出该样本的最终预测类别,预测类别
Figure FDA0002734741040000031
并根据最终预测类别P和M个基分类器分类结果(M1,M2,...,MM)进行对比求分歧操作,统计分歧和。
7.根据权利要求3所述的基于主动学习的文本数据自动标注方法,其特征在于,所述步骤105自检过程包括以下步骤:
i、某人工标注样本g找到最近邻N个样本X={x1,x2,...,xN} ,如果g的近邻样本都已标注,则继续;如果近邻样本存在未标记数据,则跳过并重新选取人工标记数据;
ii、计算每一个人工标记数据与步骤101聚类好的已标记数据的簇类中心的距离和簇类半径的差值结果前m个最小值集合W={Rr1,Rr2,...,Rrm},保存这些簇的真实类别(Y1,Y2,Y3,...,Ym);根据公式(1)计算根据已标记样本确定的样本类别影响因子;
Figure FDA0002734741040000032
Figure FDA0002734741040000033
其中e表示标签值(Y1,Y2,Y3,...,Ym)中Yi=1的个数,i=1,2...m,t表示标签值(Y1,Y2,Y3,...,Ym)中Yi=0的个数;
iii、根据在未标记数据选取的近邻样本数据{x1,x2,...,xk},统计其已标记的标签值{p1,p2,...,pk},其中pi∈(1,0),并算取每一个样本数据离人工标记数据的距离{d1,d2,...,dk},根据公式(3)
和(4)分别计算未标记数据样本对该样本权重类别的影响因子;
Figure FDA0002734741040000041
Figure FDA0002734741040000042
其中f表示标签值{p1,p2,…,pk}中pi=1的个数,g表示标签值{p1,p2,…,pk}中pi=0的个数;
iv、根据ii、iii步骤,根据公式(5)算取自检模块分析出的该样本类别y,如果i=0,N=g,如果i=1,N=f,即:
Figure FDA0002734741040000043
如果自检结果y与人工标记的存在差异,则重新将该样本放入队列提醒进行重新人工标记。
CN201710081921.9A 2017-02-15 2017-02-15 一种基于主动学习的文本数据自动标注方法 Active CN107067025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710081921.9A CN107067025B (zh) 2017-02-15 2017-02-15 一种基于主动学习的文本数据自动标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710081921.9A CN107067025B (zh) 2017-02-15 2017-02-15 一种基于主动学习的文本数据自动标注方法

Publications (2)

Publication Number Publication Date
CN107067025A CN107067025A (zh) 2017-08-18
CN107067025B true CN107067025B (zh) 2020-12-22

Family

ID=59621434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710081921.9A Active CN107067025B (zh) 2017-02-15 2017-02-15 一种基于主动学习的文本数据自动标注方法

Country Status (1)

Country Link
CN (1) CN107067025B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509969B (zh) * 2017-09-06 2021-11-09 腾讯科技(深圳)有限公司 数据标注方法及终端
CN107679564A (zh) * 2017-09-20 2018-02-09 北京百度网讯科技有限公司 样本数据推荐方法及其装置
CN107657283A (zh) * 2017-10-10 2018-02-02 哈尔滨工业大学 基于多个视图的不完整数据分类方法及装置
CN107808661B (zh) * 2017-10-23 2020-12-11 中央民族大学 一种基于协作式批量主动学习的藏语语音语料标注方法及系统
CN108023876B (zh) * 2017-11-20 2021-07-30 西安电子科技大学 基于可持续性集成学习的入侵检测方法及入侵检测系统
CN108062394A (zh) * 2017-12-18 2018-05-22 北京中关村科金技术有限公司 一种数据集的标注方法及相关装置
CN108334943A (zh) * 2018-01-03 2018-07-27 浙江大学 基于主动学习神经网络模型的工业过程半监督软测量建模方法
CN108875769A (zh) * 2018-01-23 2018-11-23 北京迈格威科技有限公司 数据标注方法、装置和系统及存储介质
CN108898225B (zh) * 2018-05-04 2020-07-17 成都信息工程大学 基于人机协同学习的数据标注方法
CN108647731A (zh) * 2018-05-14 2018-10-12 宁波江丰生物信息技术有限公司 基于主动学习的宫颈癌识别模型训练方法
CN108805196B (zh) * 2018-06-05 2022-02-18 西安交通大学 用于图像识别的自动增量学习方法
CN108961243A (zh) * 2018-07-05 2018-12-07 广东工业大学 一种基于机器学习的篡改视频标注方法及装置
CN110750667A (zh) * 2018-07-05 2020-02-04 第四范式(北京)技术有限公司 辅助标注方法、装置、设备及存储介质
CN109086814B (zh) * 2018-07-23 2021-05-14 腾讯科技(深圳)有限公司 一种数据处理方法、装置及网络设备
CN109214298B (zh) * 2018-08-09 2021-06-08 盈盈(杭州)网络技术有限公司 一种基于深度卷积网络的亚洲女性颜值评分模型方法
CN110569856B (zh) * 2018-08-24 2020-07-21 阿里巴巴集团控股有限公司 样本标注方法及装置、损伤类别的识别方法及装置
CN109241907A (zh) * 2018-09-03 2019-01-18 北京旷视科技有限公司 标注方法、装置及电子设备
CN109446300B (zh) * 2018-09-06 2021-04-20 厦门快商通信息技术有限公司 一种语料预处理方法、语料预标注方法及电子设备
CN109376764B (zh) * 2018-09-13 2021-12-07 北京字节跳动网络技术有限公司 基于聚类的数据收集方法、装置和计算机可读存储介质
CN109543713B (zh) * 2018-10-16 2021-03-26 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109547466B (zh) * 2018-12-17 2021-11-02 北京车和家信息技术有限公司 基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质
TWI701565B (zh) * 2018-12-19 2020-08-11 財團法人工業技術研究院 資料標記系統及資料標記方法
CN109935078A (zh) * 2019-02-18 2019-06-25 深兰科技(上海)有限公司 一种自动进化型交通管控系统
CN109934354A (zh) * 2019-03-12 2019-06-25 北京信息科技大学 基于主动学习的异常数据检测方法
US10867215B2 (en) * 2019-04-11 2020-12-15 Black Sesame International Holding Limited Mixed intelligence data labeling system for machine learning
CN110263803A (zh) * 2019-04-22 2019-09-20 阿里巴巴集团控股有限公司 样本数据的处理方法、装置、服务器和存储介质
CN110245227B (zh) * 2019-04-25 2021-12-28 义语智能科技(广州)有限公司 文本分类的融合分类器的训练方法及设备
CN110766080B (zh) * 2019-10-24 2022-03-08 腾讯医疗健康(深圳)有限公司 一种标注样本确定方法、装置、设备及存储介质
CN111814851B (zh) * 2020-06-24 2021-07-06 重庆邮电大学 一种基于单类支持向量机的煤矿瓦斯数据标记方法
JP2023534850A (ja) * 2020-07-21 2023-08-14 華為技術有限公司 ラベル付け情報決定方法および装置
CN112363465B (zh) * 2020-10-21 2022-04-01 北京工业大数据创新中心有限公司 一种专家规则集训练方法、训练器和工业设备预警系统
CN112465020B (zh) * 2020-11-25 2023-04-07 创新奇智(合肥)科技有限公司 训练数据集的生成方法及装置、电子设备、存储介质
CN112487145B (zh) * 2020-12-01 2022-07-29 重庆邮电大学 一种o2o商铺食品安全监测方法
CN113590830B (zh) * 2021-08-24 2023-11-17 西南石油大学 一种基于不确定性与相似度量的主动学习分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514369A (zh) * 2013-09-18 2014-01-15 上海交通大学 一种基于主动学习的回归分析系统及方法
CN103942561A (zh) * 2014-03-20 2014-07-23 杭州禧颂科技有限公司 一种基于主动学习的图像标注方法
CN104156438A (zh) * 2014-08-12 2014-11-19 德州学院 一种基于置信度和聚类的未标记样本选择的方法
CN104657744A (zh) * 2015-01-29 2015-05-27 中国科学院信息工程研究所 一种基于非确定主动学习的多分类器训练方法及分类方法
CN106021410A (zh) * 2016-05-12 2016-10-12 中国科学院软件研究所 一种基于机器学习的源代码注释质量评估方法
CN106169095A (zh) * 2016-06-24 2016-11-30 广州图普网络科技有限公司 主动学习大数据标注方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514369A (zh) * 2013-09-18 2014-01-15 上海交通大学 一种基于主动学习的回归分析系统及方法
CN103942561A (zh) * 2014-03-20 2014-07-23 杭州禧颂科技有限公司 一种基于主动学习的图像标注方法
CN104156438A (zh) * 2014-08-12 2014-11-19 德州学院 一种基于置信度和聚类的未标记样本选择的方法
CN104657744A (zh) * 2015-01-29 2015-05-27 中国科学院信息工程研究所 一种基于非确定主动学习的多分类器训练方法及分类方法
CN106021410A (zh) * 2016-05-12 2016-10-12 中国科学院软件研究所 一种基于机器学习的源代码注释质量评估方法
CN106169095A (zh) * 2016-06-24 2016-11-30 广州图普网络科技有限公司 主动学习大数据标注方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Interactive patent classification based on multi-classifier fusion and active learning;Xiaoyu Zhang;《Neurocomputing》;20131018;第200-205页 *
结合主动学习和自动标注的评价对象抽取方法;朱珠 等;《山东大学学报(理学版)》;20150731;第50卷(第7期);第38-44页 *

Also Published As

Publication number Publication date
CN107067025A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107067025B (zh) 一种基于主动学习的文本数据自动标注方法
CN109934293B (zh) 图像识别方法、装置、介质及混淆感知卷积神经网络
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
US9754014B2 (en) Systems and methods for organizing data sets
US10013636B2 (en) Image object category recognition method and device
CN110163647B (zh) 一种数据处理方法及装置
CN108446741B (zh) 机器学习超参数重要性评估方法、系统及存储介质
CN109344815A (zh) 一种文档图像分类方法
CN105069470A (zh) 分类模型训练方法及装置
CN105809123A (zh) 人脸检测方法及装置
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
Hosenie et al. Comparing multiclass, binary, and hierarchical machine learning classification schemes for variable stars
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
CN107577702B (zh) 一种社交媒体中交通信息的辨别方法
CN105930792A (zh) 一种基于视频局部特征字典的人体动作分类方法
Fidler et al. A coarse-to-fine taxonomy of constellations for fast multi-class object detection
Moitra et al. Cluster-based data reduction for persistent homology
Hascoet et al. On zero-shot recognition of generic objects
JP2013054512A (ja) 識別情報付与プログラム及び識別情報付与装置
Ghanmi et al. Table detection in handwritten chemistry documents using conditional random fields
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
JP5633424B2 (ja) プログラム及び情報処理システム
CN108805163A (zh) 衣服图像自动标注方法
CN115269816A (zh) 基于信息处理方法的核心人员挖掘方法、装置和存储介质
Masui et al. Recurrent visual relationship recognition with triplet unit

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230508

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS