CN104657745A - 一种已标注样本的维护方法及双向学习交互式分类方法 - Google Patents

一种已标注样本的维护方法及双向学习交互式分类方法 Download PDF

Info

Publication number
CN104657745A
CN104657745A CN201510046891.9A CN201510046891A CN104657745A CN 104657745 A CN104657745 A CN 104657745A CN 201510046891 A CN201510046891 A CN 201510046891A CN 104657745 A CN104657745 A CN 104657745A
Authority
CN
China
Prior art keywords
sample
mark
represent
marked
anticipation error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510046891.9A
Other languages
English (en)
Other versions
CN104657745B (zh
Inventor
张晓宇
王树鹏
吴广君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201510046891.9A priority Critical patent/CN104657745B/zh
Publication of CN104657745A publication Critical patent/CN104657745A/zh
Application granted granted Critical
Publication of CN104657745B publication Critical patent/CN104657745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种已标注样本的维护方法及双向学习交互式分类方法。本方法一方面采用正向学习从未标注集中选取最有价值的样本,另一方面采用反向学习从已标注集中检测并处理导致模型性能退化潜在噪声,从而优化改善已标注集;本发明通过正向学习与反向学习的有机结合、借助人机交互机制,获得高效、优化的海量数据分类模型,对未标注样本进行分类。本发明通过正向学习与反向学习的有机结合,在高效利用标注信息的同时自动优化标注信息,实现高效化、智能化的交互式分类。

Description

一种已标注样本的维护方法及双向学习交互式分类方法
技术领域
本发明涉及一种基于双向主动学习的交互式分类方法,属于软件工程技术领域。
背景技术
数据分类一直是人们的研究热点,比如专利ZL 201010166225.6“一种基于在线学习的自适应级联分类器训练方法”,专利ZL 200910076428.3“一种跨领域的文本情感分类器的训练方法和分类方法”,专利ZL 200810094208.9“文档分类器生成方法和系统”。
在海量数据分类的实际应用中,专家提供的标注信息对于分类模型训练具有至关重要的指导作用。但是,单纯的人工标注费时费力,难以大规模开展,因此,通过人机交互方式,有效利用专家标注信息并将其与机器自动学习有机结合成为相关领域的关键问题。传统的机器学习采用的大都是“被动学习”的模式,机器只能被动地接受专家标注的样本进行模型训练,这些样本或者是预先准备的、或者是随机采集的,由于缺乏有针对性的样本选择,因此对于分类模型的改进效果有限。相比较而言,“主动学习”则是一种更为高效的机器学习方法,其主要思想是:由机器主动地、有针对性地选择最有信息的样本交给专家进行标注(向专家提出查询),从而在有限的样本标注量下获得尽可能大的分类性能提升。在样本标注代价高且数量有限、而未标注样本多且易于获得的应用情境下,主动学习的优势尤为明显。
主动学习的有效性源于对未标注样本的深入挖掘,通过度量每个未标注样本对于分类模型改进的贡献有针对性地选取最有价值的样本,从而保证了方法的高效性,比如参考授权专利:ZL 201210050383“基于主动学习和半监督学习的多类图像分类方法”;ZL 200810082814.9“用于使提升分类器适合于新样本的方法”。由此可见,选择性采样策略是主动学习的关键环节。
现有选择性采样策略大致包括以下几种类型:(1)基于不确定度:将其当前模型最不确定如何进行分类的样本提交给专家标注(参考文献:D.Lewis and J.Catlett,“Heterogeneousuncertainty sampling for supervised learning,”In Proc.ofthe International Conference on MachineLearning,1994,pp.148–156.);(2)基于组合决策:从不同模型出发,采用投票模式,将分歧最大的样本提交给专家标注(参考文献:S.Tong and D.Koller,“Support vector machine activelearning with applications to text classification,”In Proc.of the International Conference onMachine Learning.,2000,pp.999–1006.);(3)基于期望误差最小化:从决策理论出发,估计未标注样本被标注之后模型的期望误差,最终选择能够获得最小期望误差的样本提交给专家标注(参考文献:X.Zhu,J.Lafferty,and Z.Ghahramani,“Combining active learning andsemisupervised learning using Gaussian fields and harmonic functions,”In Proc.of the ICMLWorkshop on the Continuum from Labeled to Unlabeled Data,2003,pp.58–65.)。
如前文所述,主动学习的有效性源于对未标注样本的深入挖掘。但是,现有主动学习方法中鲜有针对已标注数据的分析,已标注信息被学习模型无条件地接受并用于模型更新。从数据流向的角度看,上述方法可以归结为“单向主动学习”:一旦某样本标注后,便从未标注集中去除并加入已标注集,从而形成了一条从未标注集指向已标注集的单向路径。
单向主动学习流程如图1所示,在单向主动学习中,样本被标注后便始终处于已标注集中,并对此后的模型更新产生持续影响,这在理想(即无噪声存在)的情况下是没有问题的,但在实际应用场景中噪声在所难免,这些噪声或者来源于标注过程的人为错误、或者来源于样本本身(即外点),各种噪声的存在会始终制约模型性能的有效提升。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种基于双向主动学习的交互式分类方法,实现针对未标注样本和已标注样本的双向挖掘,一方面采用正向学习从未标注集中选取最有价值的样本,另一方面采用反向学习从已标注集中检测并处理导致模型性能退化潜在噪声,通过正向学习与反向学习的有机结合、借助人机交互机制,获得高效、优化的海量数据分类模型。
从分类模型优化的角度出发,高效的主动学习既应包括“对新知识的获取”也应包括“对已有知识的检视”,两者都是机器学习的重要组成部分。传统的基于单向主动学习的分类方法只注重“对新知识的获取”,却忽略了“对已有知识的检视”,从而导致在实际应用中受各种来源的噪声困扰,严重影响了模型泛化性能的提升。
本发明的技术方案为:
一种已标注样本的样本维护方法,其步骤为:
1)选取一已标注样本集L和利用该样本集L进行训练的样本分类模型;
2)对于该已标注样本集L中的每一样本,计算在所述样本从已标注样本集L中去除或所述样本的标注信息发生变化的情况下,分类模型的期望误差;
3)根据步骤2)的计算结果,选取期望误差小于设定阈值的样本或期望误差最小的若干样本作为反向样本;
4)对所述反向样本进行二次标注或根据样本相似度选取所述反向样本的近邻样本进行标注后加入到该已标注样本集L中。
一种双向学习交互式分类方法,其步骤为:
1)基于所述已标注样本集L进行模型训练,得到一样本分类模型;
2)分别计算未标注集U中每个样本在标注后样本分类模型的期望误差,选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为正向样本;
3)对于该已标注样本集L中的每一样本x,将该样本x的标注设定为不同于已标注值yi*的其它值yi(i≠i*),然后利用修改后的样本集计算该样本分类模型的期望误差InfoBL(x);
4)根据步骤3)的计算结果,选取期望误差小于设定阈值的样本或期望误差最小的若干样本作为反向样本;
5)对步骤2)所选正向样本进行标注后加入到已标注样本集L中;对步骤4)所选反向样本进行二次标注或根据样本相似度选取所述反向样本的近邻样本进行标注后加入到该已标注样本集L中;然后利用更新后的已标注样本集L进行模型训练,更新所述样本分类模型;
6)循环迭代执行步骤2)~5)设定次数后,利用最终得到的样本分类模型对未标注样本进行分类。
进一步的,根据公式 In fo BL ( x ) = 1 Z Σ i ≠ i * P ( y i | x ; θ L \ ( x , y i * ) ) Σ x u ∈ U H ( y u | x u ; θ L | ( x , y i ) ) 计算所述期望误差InfoBL(x);其中,xu表示未标注样本(xu∈U),x表示已标注样本(x∈L);H(y|x;θL)表示在给定样本x和模型参数θL的条件下相应标注y的信息熵,θL表示对应于已标注集L的模型参数;L|(x,yi)表示已标注样本集L中样本x被标注为yi后的标注样本集合,yi表示样本x被标注为标注集合{1,2,...,K}中的第i个标注值;yu表示未标注样本xu的标注值;Z是归一化参数: Z = Σ i ≠ i * P ( y i | x ; θ L \ ( x , y i * ) ) = 1 - P ( y i * | x ; θ L \ ( x , y i * ) ) ; P(y|x;θL)为样本分类模型的后验概率,θL表示对应于已标注集L的模型参数;L\(x,yi*)表示从已标注样本集L中去除样本(x,yi*)后的已标注集,yi*为样本x的已标注值。
一种已标注样本的样本维护方法,其步骤为:
1)选取一已标注样本集L和利用该样本集L进行训练的样本分类模型;
2)对于该已标注样本集L中的每一样本,计算在所述样本从已标注样本集L中去除或所述样本的标注信息发生变化的情况下,分类模型的期望误差;
3)根据步骤2)的计算结果,选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为反向样本;
4)从该已标注样本集L中删除所选反向样本。
一种双向学习交互式分类方法,其步骤为:
1)基于所述已标注样本集L进行模型训练,得到一样本分类模型;
2)分别计算未标注集U中每个样本在标注后样本分类模型的期望误差,选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为正向样本;
3)对于该已标注样本集L中的每一样本x,从该已标注样本集L中去除该样本x,然后利用剩余样本计算该样本分类模型的期望误差InfoBL(x);
4)根据步骤3)的计算结果,选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为反向样本;
5)对步骤2)所选正向样本进行标注后加入到已标注样本集L中;从该已标注样本集L中删除步骤4)所选反向样本;然后利用更新后的已标注样本集L进行模型训练,更新所述样本分类模型;
6)循环迭代执行步骤2)~5)设定次数后,利用最终得到的样本分类模型对未标注样本进行分类。
进一步的,利用公式计算所述期望误差InfoBL(x);其中,xu表示未标注样本(xu∈U),x表示已标注样本(x∈L);H(y|x;θL)表示在给定样本x和模型参数θL的条件下相应标注y的信息熵,θL表示对应于已标注集L的模型参数;yu表示未标注样本xu的标注值;L\(x,yi)表示从已标注样本集L中去除样本(x,yi)后的已标注集,yi表示样本x被标注为标注集合{1,2,...,K}中的第i个标注值。
本发明提供的基于双向主动学习的交互式分类方法包括正向学习和反向学习两部分,分别对应于“获取新知识”和“检视已有知识”的学习过程。其中,正向学习从未标注集中选取最有价值的样本进行标注从而有效扩展已标注集,反向学习从已标注集中检测并处理影响模型泛化性能的潜在噪声从而优化改善已标注集。
双向主动学习流程如图2所示,该方法中的样本用特征向量x表示,标注用y={1,2,...,K}表示,未标注集和已标注集分别用U和L表示,分类模型用后验概率P(y|x;θL)表示,其中θL表示对应于已标注集L的模型参数。
一、正向学习
该方法中的正向学习用于挖掘未标注集,旨在从未标注集中选取最有信息的样本(称为“正向样本”)进行标注。
正向学习样本选取方法为:分别计算未标注集中每个样本在标注后模型的期望误差,选取最小化期望误差的样本作为正向样本,依据公式如下:
x FL * = arg min x ∈ U Info FL ( x ) = arg min x ∈ U Σ i P ( y i | x ; θ L ) Σ x u ∈ U - x H ( y u | x u ; θ L + ( x , y i ) ) .   公式(1)
其中,L+(x,yi)表示样本(x,yi)加入已标注集L之后的新已标注集;
H ( y | x ; θ ) = - Σ i P ( y i | x ; θ ) · log P ( y i | x ; θ ) .   公式(2)
H(y|x;θ)表示在给定样本x和模型参数θ的条件下,相应标注y的信息熵;yi表示第i类对应的标注。
若批量选取正向样本,则可以选取InfoFL值最小的N个样本作为正向样本,或选取InfoFL值小于设定阈值的若干个样本作为正向样本。
选取正向样本之后,算法将该样本以人机交互的形式主动提交给专家进行标注,标注完成后该样本从未标注集去除并加入已标注集。
正向学习流程如下所示:
二、反向学习
该方法中的反向学习用于挖掘已标注集,旨在从已标注集中检测并处理影响模型泛化性能的潜在噪声(称为“反向样本”)。
1、反向样本检测
反向学习噪声检测用于定位阻碍分类模型性能提升的噪声,噪声检测方式包括样本级检测和标注级检测两种。
样本级检测用于定位噪声样本本身,方法为:分别计算已标注集中每个样本从已标注集中去除后模型的期望误差,选取最小化期望误差的样本作为反向样本,依据公式如下:
x BL * = arg min x ∈ L Info BL ( x ) = arg min x ∈ L Σ i P ( y i | x ; θ L \ ( x , y i * ) ) Σ x u ∈ U H ( y u | x u ; θ L \ ( x , y i * ) ) = arg min x ∈ L Σ x u ∈ U H ( y u | x u ; θ L \ ( x , y i * ) ) Σ i P ( y i | x ; θ L \ ( x , y i * ) ) = arg min x ∈ L Σ x u ∈ U H ( y u | x u ; θ L \ ( x , y i * ) ) .   公式(3)
其中,L\(x,yi)表示从已标注集L中去除样本(x,yi)之后的新已标注集;xu、yu分别表示未标注样本及其标注;yi*表示专家赋予样本x的标注,也即样本x的已标注值。公式(3)的最后一个等式的依据是概率属性:
标注级检测用于定位噪声样本的特定标注,方法为:分别计算已标注集中每个样本在除现有标注外其它标注情况下模型的期望误差(即某个已标注样本x,如果不取其现在的标注值,而取其它值的条件下,模型的期望误差),选取最小化期望误差的样本作为反向样本,依据公式如下:
x BL * = arg min x ∈ L Info BL ( x ) = arg min x ∈ L 1 Z Σ i ≠ i * P ( y i | x ; θ L \ ( x , y i * ) ) Σ x u ∈ U H ( y u | x u ; θ L \ ( x , y i ) ) .   公式(4)
其中,L|(x,yi)表示已标注集L中样本x被标注为yi(而非yi*)之后的新已标注集;Z是归一化参数:
Z = Σ i ≠ i * P ( y i | x ; θ L \ ( x , y i * ) ) = 1 - P ( y i * | x ; θ L \ ( x , y i * ) ) .   公式(5)
若批量选取正向样本,则可以选取InfoBL值最小的N个样本作为反向样本,或选取InfoBL值小于设定阈值的若干个样本作为反向样本。
2、反向样本处理
反向学习噪声处理用于消减噪声对分类模型性能的负面影响,噪声处理方式包括Undo-撤销、Redo-重新标注和Redo-重新选取三种。
Undo-撤销用于处理公式(3)样本级噪声检测所获得的噪声样本,将所检测出的噪声样本从已标注集中去除以消除噪声影响。
Redo-重新标注用于处理公式(4)标注级噪声检测所获得的噪声样本,对噪声样本进行二次标注并将二次标注作为样本标注,以验证噪声样本的标注信息。
Redo-重新选取用于处理公式(4)标注级噪声检测所获得的噪声样本,根据样本特征向量之间的相似度选取噪声样本的近邻样本进行标注(而并不对噪声样本本身的标注进行处理),以验证噪声样本的标注信息。
反向学习流程如下所示:
与现有技术相比,本发明的积极效果为:
本发明所提供的基于双向主动学习的交互式分类方法,将正向学习与反向学习有机结合到交互式分类过程中,实现了分别针对未标注样本和已标注样本进行双向挖掘,一方面通过从未标注集中选取最有价值的样本实现标注样本的高效交互式获取,另一方面通过从已标注集中检测并处理导致模型性能退化潜在噪声实现已标注集的自动优化去噪,为专家智慧指导下的海量数据高效分类提供了一种智能化解决方案。
1、所提供的方法分别针对未标注样本和已标注样本进行双向挖掘,一方面通过正向学习从未标注集中选取最有价值的样本以实现已标注集的扩展,另一方面通过反向学习从已标注集中检测并处理导致模型性能退化潜在噪声以实现已标注集的改进,通过正向学习与反向学习的有机结合,在高效利用标注信息的同时自动优化标注信息,实现高效化、智能化的交互式分类;
2、所提供的反向学习噪声检测方法支持样本级和标注级的潜在噪声检测,分别从已标注样本本身和已标注样本的标注信息出发,度量潜在噪声对分类模型性能的影响,从而自动定位已标注集中的潜在噪声;
3、所提供的反向学习噪声处理方法支持撤销、重新标注、重新选取三种处理操作,从而对已标注集进行自动优化,以实现对模型负面影响的有效消减。
附图说明
图1为单向主动学习流程图;
图2为双向主动学习流程图;
图3为本发明提供的基于双向主动学习的交互式分类方法流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提供的基于双向主动学习的交互式分类方法如图3所示,通过循环迭代过程实现分类模型的逐步优化。
设每轮循环迭代需要通过人机交互由专家标注NL个样本,在每轮循环迭代内部执行以下流程:
方法执行结束后,设循环迭代次数为K,则通过人机交互由专家标注的样本总量为K×NL。本发明提供的基于双向主动学习的交互式分类方法能够在有限的样本标注量下获得最优化的分类效果。
以图像分类为例,图像样本用颜色直方图、小波纹理等组成的特征向量x表示;图像分为汽车、轮船、飞机、老虎、大象、马等10类,分别用数字1~10表示,则图像标注用y={1,2,…,10}表示;未标注图像构成未标注集U,已标注图像构成已标注集L表示;分类模型用后验概率P(y|x;θL)表示。
为了提升分类模型的性能,执行如下流程:
1)一方面通过正向学习,根据公式(1)从U中选取最有信息的未标注图像交给专家进行标注;
2)另一方面通过反向学习,对L中的已标注图像进行维护,分为反向样本检测和处理两步:
2.1)反向样本检测分为样本级检测和标注级检测两种方法:样本级检测对应于公式(3),标注级检测对应于公式(4)。假设图像A被标注为“老虎(对应于数字4)”,则根据公式(3)计算的InfoBL表示从已标注集L中去除(A,4)后模型的期望误差,根据公式(4)计算的InfoBL表示将图像A标注为除“老虎”之外的其它9个类别(如:汽车、轮船、飞机、大象、马等)后模型的期望误差。
2.2)反向样本处理包括Undo-撤销、Redo-重新标注和Redo-重新选取三种:Undo-撤销用于处理公式(3)样本级检测所获得的反向样本,将所检测出的图像(A,4)从已标注集L中去除;Redo-重新标注用于处理公式(4)标注级检测所获得的反向样本,对图像(A,4)进行二次标注并将二次标注作为样本标注,若图像A被二次标注为“大象”则该反向样本修改为(A,5),若图像A被二次标注仍为“老虎”则该反向样本仍为(A,4);Redo-重新选取用于处理公式(4)标注级检测所获得的反向样本,根据图像特征向量之间的相似度选取图像A的近邻样本B进行标注(而并不对图像A本身的标注进行处理),并将图像B加入已标注集L。
3)将新的已标注集L作为训练数据重新训练图像分类模型,进而获得改进的图像分类结果。

Claims (8)

1.一种已标注样本的样本维护方法,其步骤为:
1)选取一已标注样本集L和利用该样本集L进行训练的样本分类模型;
2)对于该已标注样本集L中的每一样本,计算在所述样本从已标注样本集L中去除或所述样本的标注信息发生变化的情况下,分类模型的期望误差;
3)根据步骤2)的计算结果,选取期望误差小于设定阈值的样本或期望误差最小的若干样本作为反向样本;
4)对所述反向样本进行二次标注或根据样本相似度选取所述反向样本的近邻样本进行标注后加入到该已标注样本集L中。
2.如权利要求1所述的方法,其特征在于,根据公式 Info BL ( x ) = 1 Z Σ i ≠ i * P ( y i | x ; θ L \ ( x , y i * ) ) Σ x u ∈ U H ( y u | x u ; θ L | ( x , y i ) ) 计算所述期望误差InfoBL(x);其中,xu表示未标注样本(xu∈U),x表示已标注样本(x∈L);H(y|x;θL)表示在给定样本x和模型参数θL的条件下相应标注y的信息熵,θL表示对应于已标注集L的模型参数;L|(x,yi)表示已标注样本集L中样本x被标注为yi后的标注样本集合,yi表示样本x被标注为标注集合{1,2,...,K}中的第i个标注值;yu表示未标注样本xu的标注值;Z是归一化参数: Z = Σ i ≠ i * P ( y i | x ; θ L \ ( x , y i * ) ) 1 - P ( y i * | x ; θ L \ ( x , y i * ) ) ; P(y|x;θL)为样本分类模型的后验概率,θL表示对应于已标注集L的模型参数;L\(x,yi*)表示从已标注样本集L中去除样本(x,yi*)后的已标注集,yi*为样本x的已标注值。
3.一种已标注样本的样本维护方法,其步骤为:
1)选取一已标注样本集L和利用该样本集L进行训练的样本分类模型;
2)对于该已标注样本集L中的每一样本,计算在所述样本从已标注样本集L中去除或所述样本的标注信息发生变化的情况下,分类模型的期望误差;
3)根据步骤2)的计算结果,选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为反向样本;
4)从该已标注样本集L中删除所选反向样本。
4.如权利要求3所述的方法,其特征在于,利用公式计算所述期望误差InfoBL(x);其中,xu表示未标注样本(xu∈U),x表示已标注样本(x∈L);H(y|x;θL)表示在给定样本x和模型参数θL的条件下相应标注y的信息熵,θL表示对应于已标注集L的模型参数;yu表示未标注样本xu的标注值;L\(x,yi)表示从已标注样本集L中去除样本(x,yi)后的已标注集,yi表示样本x被标注为标注集合{1,2,...,K}中的第i个标注值。
5.一种双向学习交互式分类方法,其步骤为:
1)基于所述已标注样本集L进行模型训练,得到一样本分类模型;
2)分别计算未标注集U中每个样本在标注后样本分类模型的期望误差,选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为正向样本;
3)对于该已标注样本集L中的每一样本x,从该已标注样本集L中去除该样本x,然后利用剩余样本计算该样本分类模型的期望误差InfoBL(x);
4)根据步骤3)的计算结果,选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为反向样本;
5)对步骤2)所选正向样本进行标注后加入到已标注样本集L中;从该已标注样本集L中删除步骤4)所选反向样本;然后利用更新后的已标注样本集L进行模型训练,更新所述样本分类模型;
6)循环迭代执行步骤2)~5)设定次数后,利用最终得到的样本分类模型对未标注样本进行分类。
6.如权利要求5所述的方法,其特征在于,利用公式计算所述期望误差InfoBL(x);其中,xu表示未标注样本(xu∈U),x表示已标注样本(x∈L);H(y|x;θL)表示在给定样本x和模型参数θL的条件下相应标注y的信息熵,θL表示对应于已标注集L的模型参数;yu表示未标注样本xu的标注值;L\(x,yi)表示从已标注样本集L中去除样本(x,yi)后的已标注集,yi表示样本x被标注为标注集合{1,2,...,K}中的第i个标注值。
7.一种双向学习交互式分类方法,其步骤为:
1)基于所述已标注样本集L进行模型训练,得到一样本分类模型;
2)分别计算未标注集U中每个样本在标注后样本分类模型的期望误差,选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为正向样本;
3)对于该已标注样本集L中的每一样本x,将该样本x的标注设定为不同于已标注值yi*的其它值yi(i≠i*),然后利用修改后的样本集计算该样本分类模型的期望误差InfoBL(x);
4)根据步骤3)的计算结果,选取期望误差小于设定阈值的样本或期望误差最小的若干样本作为反向样本;
5)对步骤2)所选正向样本进行标注后加入到已标注样本集L中;对步骤4)所选反向样本进行二次标注或根据样本相似度选取所述反向样本的近邻样本进行标注后加入到该已标注样本集L中;然后利用更新后的已标注样本集L进行模型训练,更新所述样本分类模型;
6)循环迭代执行步骤2)~5)设定次数后,利用最终得到的样本分类模型对未标注样本进行分类。
8.如权利要求7所述的方法,其特征在于,根据公式 Info BL ( x ) = 1 Z Σ i ≠ i * P ( y i | x ; θ L \ ( x , y i * ) ) Σ x u ∈ U H ( y u | x u ; θ L | ( x , y i ) ) 计算所述期望误差InfoBL(x);其中,xu表示未标注样本(xu∈U),x表示已标注样本(x∈L);H(y|x;θL)表示在给定样本x和模型参数θL的条件下相应标注y的信息熵,θL表示对应于已标注集L的模型参数;L|(x,yi)表示已标注样本集L中样本x被标注为yi后的标注样本集合,yi表示样本x被标注为标注集合{1,2,...,K}中的第i个标注值;yu表示未标注样本xu的标注值;Z是归一化参数: Z = Σ i ≠ i * P ( y i | x ; θ L \ ( x , y i * ) ) 1 - P ( y i * | x ; θ L \ ( x , y i * ) ) ; P(y|x;θL)为样本分类模型的后验概率,θL表示对应于已标注集L的模型参数;L\(x,yi*)表示从已标注样本集L中去除样本(x,yi*)后的已标注集,yi*为样本x的已标注值。
CN201510046891.9A 2015-01-29 2015-01-29 一种已标注样本的维护方法及双向学习交互式分类方法 Active CN104657745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510046891.9A CN104657745B (zh) 2015-01-29 2015-01-29 一种已标注样本的维护方法及双向学习交互式分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510046891.9A CN104657745B (zh) 2015-01-29 2015-01-29 一种已标注样本的维护方法及双向学习交互式分类方法

Publications (2)

Publication Number Publication Date
CN104657745A true CN104657745A (zh) 2015-05-27
CN104657745B CN104657745B (zh) 2017-12-15

Family

ID=53248844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510046891.9A Active CN104657745B (zh) 2015-01-29 2015-01-29 一种已标注样本的维护方法及双向学习交互式分类方法

Country Status (1)

Country Link
CN (1) CN104657745B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229944A (zh) * 2017-05-04 2017-10-03 青岛科技大学 基于认知信息粒子的半监督主动识别方法
CN108229692A (zh) * 2018-02-08 2018-06-29 重庆理工大学 一种基于双重对比学习的机器学习识别方法
CN108734296A (zh) * 2017-04-21 2018-11-02 北京京东尚科信息技术有限公司 优化监督学习的训练数据的方法、装置、电子设备和介质
CN110232184A (zh) * 2018-12-14 2019-09-13 太原理工大学 一种云制造模式下机械加工服务供需双向语义匹配方法
WO2022194049A1 (zh) * 2021-03-15 2022-09-22 华为技术有限公司 一种对象处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063642A (zh) * 2010-12-30 2011-05-18 上海电机学院 基于主动学习的模糊神经网络样本选择方法
CN103617429A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习分类方法和系统
CN104166706A (zh) * 2014-08-08 2014-11-26 苏州大学 基于代价敏感主动学习的多标签分类器构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063642A (zh) * 2010-12-30 2011-05-18 上海电机学院 基于主动学习的模糊神经网络样本选择方法
CN103617429A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习分类方法和系统
CN104166706A (zh) * 2014-08-08 2014-11-26 苏州大学 基于代价敏感主动学习的多标签分类器构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
VICTOR S. SHENG等: ""Get Another Label? Improving Data Quality and Data Mining Using Multiple, Noisy Labelers"", 《PROCEEDINGS OF THE 14TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
李塔: ""交叉样例选择研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
高文涛: ""划分分类模型中主动学习关键技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734296A (zh) * 2017-04-21 2018-11-02 北京京东尚科信息技术有限公司 优化监督学习的训练数据的方法、装置、电子设备和介质
CN107229944A (zh) * 2017-05-04 2017-10-03 青岛科技大学 基于认知信息粒子的半监督主动识别方法
CN107229944B (zh) * 2017-05-04 2021-05-07 青岛科技大学 基于认知信息粒子的半监督主动识别方法
CN108229692A (zh) * 2018-02-08 2018-06-29 重庆理工大学 一种基于双重对比学习的机器学习识别方法
CN108229692B (zh) * 2018-02-08 2020-04-07 重庆理工大学 一种基于双重对比学习的机器学习识别方法
CN110232184A (zh) * 2018-12-14 2019-09-13 太原理工大学 一种云制造模式下机械加工服务供需双向语义匹配方法
CN110232184B (zh) * 2018-12-14 2022-12-27 太原理工大学 一种云制造模式下机械加工服务供需双向语义匹配方法
WO2022194049A1 (zh) * 2021-03-15 2022-09-22 华为技术有限公司 一种对象处理方法及装置

Also Published As

Publication number Publication date
CN104657745B (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
CN112347268B (zh) 一种文本增强的知识图谱联合表示学习方法及装置
Tao et al. An object detection system based on YOLO in traffic scene
CN107316049A (zh) 一种基于半监督自训练的迁移学习分类方法
CN104598813B (zh) 一种基于集成学习和半监督svm的计算机入侵检测方法
CN104657745A (zh) 一种已标注样本的维护方法及双向学习交互式分类方法
CN110796186A (zh) 基于改进的YOLOv3网络的干湿垃圾识别分类方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN103984943A (zh) 一种基于贝叶斯概率框架的场景文本识别方法
CN104239907A (zh) 面向变化场景的远红外行人检测方法
CN111914555B (zh) 基于Transformer结构的自动化关系抽取系统
CN105930792A (zh) 一种基于视频局部特征字典的人体动作分类方法
CN102999615A (zh) 基于径向基函数神经网络的多样化图像标注和检索方法
CN102426585A (zh) 一种基于贝叶斯网络的网页自动分类方法
CN110879881A (zh) 基于特征组分层和半监督随机森林的鼠标轨迹识别方法
Du et al. Real-time detection of vehicle and traffic light for intelligent and connected vehicles based on YOLOv3 network
CN113742205B (zh) 一种基于人机协同的代码漏洞智能检测方法
Wang et al. Active learning with co-auxiliary learning and multi-level diversity for image classification
Pan et al. UAV anomaly detection using active learning and improved S3VM model
CN109656808A (zh) 一种基于混合式主动学习策略的软件缺陷预测方法
Li et al. Explaining a machine-learning lane change model with maximum entropy Shapley values
CN113434668B (zh) 一种基于模型融合的深度学习文本分类方法及系统
Zhou et al. A review of a text classification technique: K-Nearest Neighbor
CN112199287B (zh) 基于强化混合专家模型的跨项目软件缺陷预测方法
CN114357166A (zh) 一种基于深度学习的文本分类方法
WO2021128521A1 (zh) 一种产业自动分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant