CN103617429A - 一种主动学习分类方法和系统 - Google Patents

一种主动学习分类方法和系统 Download PDF

Info

Publication number
CN103617429A
CN103617429A CN201310688732.XA CN201310688732A CN103617429A CN 103617429 A CN103617429 A CN 103617429A CN 201310688732 A CN201310688732 A CN 201310688732A CN 103617429 A CN103617429 A CN 103617429A
Authority
CN
China
Prior art keywords
sample
cluster
sample set
mark
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310688732.XA
Other languages
English (en)
Inventor
赵朋朋
焦阳
辛洁
吴健
崔志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201310688732.XA priority Critical patent/CN103617429A/zh
Publication of CN103617429A publication Critical patent/CN103617429A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种主动学习分类方法和系统,该方法首先从原始的未标注样本集中筛选出不确定性较高的各个样本,得到最不确定样本集;之后,利用样本间的相似性将最不确定样本集分为h个不同的聚类,相似性较高的样本被划分在同一个聚类中,并筛选出每个聚类中最具代表性的样本,构成最具代表性样本集;后续对该最具代表性样本集进行信息标注,利用标注的样本训练分类器,最终实现利用训练的分析器对目标对象进行分类。可见,本发明通过聚类,将较为相似的、冗余性较高的样本划分在同一类中,以及基于聚类进行筛选避免了最终所选的待标注样本之间的冗余性,降低了标注时间和工作量,提高了分类效率。

Description

一种主动学习分类方法和系统
技术领域
本发明属于机器学习(Machine Learning)分类技术领域,尤其涉及一种主动学习分类方法和系统。
背景技术
信息分类是信息处理、模式识别领域中一个非常重要的问题,分类方法的研究已成为当前研究的热门。各分类方法实现分类的关键问题是基于已标注的样本训练具有较高分类准确率的分类器。
分类器的分类准确率很大程度上依赖于已经标注过的样本集。现实情况下,对样本进行标注、获得标注样本的代价较高(需由领域专家进行人工标注),因此,为了在尽可能小的标注代价下获取较高的分类准确率,需要从原始的未标注样本集中筛选样本,且需筛选出对训练的分类器而言信息含量较高的样本进行标注。基于该情况,本领域提供了一种主动学习分类方法,该方法实现分类的过程具体如下:针对原始的未标注样本集中的所有样本,计算、衡量每个样本的不确定性和代表性,从中筛选出二者结合值较大的样本作为信息含量较高的样本进行标注,进而基于标注的样本训练分类器,并多次迭代该过程使分类器的正确率逐步提高,直至获取符合要求的分类器,最后采用该分类器实现对目标对象进行分类。
上述方法仅考虑样本的不确定性和代表性,未考虑筛选出的样本之间的冗余性,从而导致筛选出的样本之间冗余性较高,而对冗余样本进行标注费时费力,且由于其包含的信息为冗余信息不会对分类器的训练带来帮助,因此上述方法存在筛选出的样本之间冗余性较高的缺点,增加了标注的时间和代价,费时费力,进而降低了分类效率。
发明内容
有鉴于此,本发明的目的在于提供一种主动学习分类方法和系统,以克服上述问题,实现从原始的未标注样本集中选择出信息含量较高且相互之间不存在冗余的样本,降低标注时间和工作量,进而提高分类效率。
为此,本发明公开如下技术方案:
一种主动学习分类方法,包括:
从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于1的自然数;
依据预设聚类算法,利用样本间的相似性对所述最不确定样本集中的各个样本进行分组,得到所述最不确定样本集的h个不同的聚类Ck,所述聚类Ck包括至少一个样本,所述聚类Ck包括的各个样本互为相似样本,其中,1≤k≤h,所述k为自然数,h为大于1的自然数;
从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk,所述代表性最高的样本Sk对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征样本的代表性最高的预设条件;各个代表性最高的样本构成最具代表性样本集;
对所述最具代表性样本集中的各个样本进行信息标注,得到各个标注样本;
利用所述各个标注样本训练分类器;
利用所述分类器对目标对象进行分类。
上述方法,优选的,所述从原始的未标注样本集中获取包括至少一个样本的最不确定样本集具体包括:
分析所述原始的未标注样本集中每个样本所属的最优类别和次优类别,并获取所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,所述最优类别和所述次优类别分别为所述X种对象类别中的一种;
基于所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,计算所述样本的BvSB值;
获取所述BvSB值小于第一预设阈值的各个样本,获取的所述各个样本构成最不确定样本集。
上述方法,优选的,所述预设聚类算法具体为kernel-kmeans聚类算法。
上述方法,优选的,所述从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk具体包括:
分析所述聚类Ck中每个样本xi相对于剩余未标注样本集
Figure BDA0000439106710000031
的代表性,并计算表征样本xi代表性程度的第二参数的参数值,所述剩余未标注样本集具体为所述聚类Ck中去掉所述样本xi之后的集合,其中,1≤i≤M,i为自然数,M为所述聚类Ck中所包含的样本的个数;
获取所述第二参数的参数值最大的样本,将获取的所述样本标记为聚类Ck中代表性最高的样本Sk
一种主动学习分类系统,包括第一采样模块、聚类模块、第二采样模块、标注模块、训练模块和分类模块,其中:
所述第一采样模块,用于从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于1的自然数;
所述聚类模块,用于依据预设聚类算法,利用样本间的相似性对所述最不确定样本集中的各个样本进行分组,得到所述最不确定样本集的h个不同的聚类Ck,所述聚类Ck包括至少一个样本,所述聚类Ck包括的各个样本互为相似样本,其中,1≤k≤h,所述k为自然数,h为大于1的自然数;
所述第二采样模块,用于从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk,所述代表性最高的样本Sk对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征样本的代表性最高的预设条件;各个代表性最高的样本构成最具代表性样本集;
所述标注模块,用于对所述最具代表性样本集中的各个样本进行信息标注,得到各个标注样本;
所述训练模块,用于利用所述各个标注样本训练分类器;
所述分类模块,用于利用所述分类器对目标对象进行分类。
上述系统,优选的,所述第一采样模块具体包括:
第一分析单元,用于分析所述原始的未标注样本集中每个样本所属的最优类别和次优类别,并获取所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,所述最优类别和所述次优类别分别为所述X种对象类别中的一种;
第一计算单元,用于基于所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,计算所述样本的BvSB值;
第一获取单元,用于获取所述BvSB值小于第一预设阈值的各个样本,获取的所述各个样本构成最不确定样本集。
上述系统,优选的,所述第二采样单元具体包括:
第二分析单元,用于分析所述聚类Ck中每个样本xi相对于剩余未标注样本集
Figure BDA0000439106710000041
的代表性,并计算表征样本xi代表性程度的第二参数的参数值,所述剩余未标注样本集
Figure BDA0000439106710000042
具体为所述聚类Ck中去掉所述样本xi之后的集合,其中,1≤i≤M,i为自然数,M为所述聚类Ck中所包含的样本的个数;
第二获取单元,用于获取所述第二参数的参数值最大的样本,将获取的所述样本标记为聚类Ck中代表性最高的样本Sk
本发明实施例提供的方法,首先考虑样本的不确定性,从原始的未标注样本集中筛选出不确定性较高的各个样本,得到最不确定样本集;之后,依据预设聚类算法,利用样本间的相似性将最不确定样本集分为h个不同的聚类,相似性较高的样本、冗余样本被划分在同一个聚类中,并筛选出每个聚类中最具代表性的样本,构成最具代表性样本集;后续对该最具代表性样本集中的各样本进行信息标注,利用标注的样本训练分类器,最终实现利用训练的分析器对目标对象进行分类。
由于本发明方法利用样本间的相似性对筛选出的不确定性较高的各个样本进行分组,将较为相似的、冗余性较高的样本划分在同一类(即聚类)中,并从同一聚类中筛选出代表性最高的样本作为该类中信息含量最高的样本进行标注,不同聚类中分别选出的代表性最高的样本之间不存在冗余,可见,本发明通过聚类,以及基于聚类进行筛选避免了最终所选的待标注样本之间存在冗余性,从而本发明可以选择出信息含量较高且相互之间不存在冗余的样本,降低了标注时间和工作量,进而提高了分类效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的主动学习分类方法的流程示意图;
图2是本发明实施例一提供的最不确定样本集的获取过程流程示意图;
图3是本发明实施例一提供的最具代表性样本集的获取过程流程示意图;
图4是本发明实施例二提供的主动学习分类系统的结构示意图;
图5是本发明实施例二提供的第一采样模块的结构示意图;
图6是本发明实施例二提供的第二采样模块的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开一种主动学习分类方法和系统,在对本发明的方法和系统进行详细说明之前,首先对本发明的核心思想进行介绍。本发明的核心思想可以概括为:(G,Q,S,L,U),其中,G是利用已标注样本得到的初始分类器(当前分类器),Q为查询、筛选策略,S为领域专家,L为训练样本集,U为样本池,也即原始的未标注样本集。利用查询、筛选策略Q从样本池U中选择一部分未标注样本,交由领域专家S进行标注,得到携带有标注信息的各标注样本;将该各标注样本加入训练样本集L中,并利用L对初始分类器G进行重新训练,得到分类精度更高的分类器,采样和训练重复迭代一定的次数,直到达到某些终止条件,后续可采用训练好的分类器进行分类。
实施例一
本发明实施例一公开一种主动学习分类方法,请参见图1,该方法包括:
S1:从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于1的自然数。
本实施例中,综合考虑样本的不确定性和代表性,将不确定性较高以及代表性较高的样本作为信息含量较高的样本,即对预设的X种对象类别最有价值的样本,在实际实施时,可具体将预设的X种对象类别实例化为包含了该X种对象类别的当前分类器。不确定性、代表性样本的筛选以对当前分类器的分类边界影响最大化为基准。
本发明具体采用基于BvSB(Best vs Second-Best,最优次优标号)准则的不确定性方法衡量样本的不确定性。
BvSB准则具体如下:
假设当前样本为x,y表示样本x所属的类别,Y表示样本x可能所属的类别集合,U表示原始的未标注样本集。则:
BvSB = arg min x ∈ U ( min y ∈ Y , y ≠ y Best ( p ( y Best | x ) - p ( y | x ) ) ) = arg min x ∈ U ( p ( y Best | x ) - p ( y Second - Best | x ) ) - - - ( 1 )
其中,p(yBest|x)表示样本x属于最优类别(最可能性类别)yBest的概率,p(ySecond-Best|x)表示样本x属于次优类别(次可能性类别)ySecond-Best的概率。
本发明利用以上公式(1)计算原始的未标注样本集中每个样本的BvSB值,并基于各样本的BvSB值从原始的未标注样本集中选择对当前分类器的分类边界影响较大(即信息含量较高)的各个不确定性较高的样本。样本的BvSB值越小,表明该图像样本相对于当前分类器的不确定性越高。
基于以上准则,如图2所示,步骤S1具体包括:
S101:分析所述原始的未标注样本集中每个样本所属的最优类别和次优类别,并获取所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,所述最优类别和所述次优类别分别为所述X种对象类别中的一种。
其中,使用当前分类器估计原始的未标注样本集中每一样本可能所属的最优类别yBest和次优类别ySecond-Best,并估计样本属于最优类别yBest的概率p(yBest|x)和属于次优类别ySecond-Best的概率p(ySecond-Best|x)。本实施例中,当前分类器具体采用一对多(One-versus-all)形式的SVM(Support Vector Machine,支持向量机)分类器。
S102:基于所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,计算所述样本的BvSB值。
利用步骤S101中得到的p(yBest|x)和p(ySecond-Best|x),通过以上公式(1)计算原始的未标注图像样本集中每个样本的BvSB值。
S103:获取所述BvSB值小于第一预设阈值的各个样本,获取的所述各个样本构成最不确定样本集。
具体地,预先设定一个作为各样本BvSB值的参考基准的阈值,该阈值的大小可依据实际采样时对样本的不确定性需求而定,将计算得出的每个样本的BvSB值与预先设定的该阈值进行比较,从原始的未标注样本集中筛选出BvSB值小于该阈值的各个样本,得到对于当前分类器不确定性较高、对分类器的分类边界影响较大的样本。
除此之外,还可以采取排序、筛选的方式获取不确定性较高的各个样本,具体地,将各个样本的BvSB值升序或降序排序,从排序所得的BvSB序列中BvSB值较小的一端依次获取所需数量的BvSB值,并依据获取的各BvSB值获取其相对应的各个样本,从而获得了不确定性较高的样本。需要说明的是,从排序序列中获取的BvSB值的数量,也即需要获取的不确定性较高的样本的数量,可预先依据实际采样需求进行设定。
S2:依据预设聚类算法,利用样本间的相似性对所述最不确定样本集中的各个样本进行分组,得到所述最不确定样本集的h个不同的聚类Ck,所述聚类Ck包括至少一个样本,所述聚类Ck包括的各个样本互为相似样本,其中,1≤k≤h,所述k为自然数,h为大于1的自然数。
由于在实际应用中,主动学习分类方法的采样过程多为批处理过程,每次采样所得的样本数较多,不可避免地,通过步骤S1从原始的未标注样本集中获取的最不确定样本集,一般来说同样含有较多数量的样本。此种情况下,需要考虑最不确定样本集各个样本间的冗余性,消除冗余。本实施例通过数据挖掘的聚类算法解决这个问题,具体地,依据kernel-kmeans聚类算法,参照样本间的相似性将最不确定样本集分割为h个不同的聚类Ck,每个聚类中的各个样本具有比较相近、相似的特征,互为相似样本。
其中,聚类前需依据实际分类需求预先规定类内相似样本需满足的相似度条件。本实施例根据当前分类器的实际分类需求,选择某种特征,并基于样本的特征分布获取样本间的特征距离,以特征距离来度量样本间的相似性,两个样本间的特征距离越近,则表明这两个样本的相似度越高。聚类后尽量使类内的差异较小,而类间的差异较大。
S3:从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk,所述代表性最高的样本Sk对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征样本的代表性最高的预设条件;各个代表性最高的样本构成最具代表性样本集。
经过步骤S2,最不确定样本集中特征较为相近的样本被划为同一类,不同类间的特征差异较大,从特征分布角度来讲,每一类的类内各样本具有较为接近的特征分布状况,实现了将互为冗余的各样本归在同一类中。在步骤S2的基础上,本步骤S3从每一类中选择最能够代表该类特征分布情况的样本,即代表性最高、信息含量最高的样本作为最终的待标注样本,而类中与该信息含量较高的样本比较接近的冗余样本均被过滤掉,从而本步骤消除了冗余,进而避免了由于对冗余样本进行标注而带来的各种问题。
除了考虑消除冗余,本步骤S3还基于如下考虑:步骤S1仅从不确定性角度筛选原始未标注样本集中各不确定性较高的样本,但不确定性仅仅体现了筛选出各样本对当前分类器分类边界的影响,没有考虑各不确定样本的信息含量,尤其是不确定样本有可能为信息含量极低的孤立点、异常点,从而会降低分类器的分类准确率。针对此种情况,本步骤S3通过从每类中选择信息含量较高的样本,排除了孤立点、异常点等信息含量较低的样本对分类器的分类准确率带来的不利影响。
如图3所示,步骤S3具体包括:
S301:分析所述聚类Ck中每个样本xi相对于剩余未标注样本集
Figure BDA00004391067100000910
的代表性,并计算表征样本xi代表性程度的第二参数的参数值,所述剩余未标注图像样本集
Figure BDA00004391067100000911
具体为所述聚类Ck中去掉所述样本xi之后的集合,其中,1≤i≤M,i为自然数,M为所述聚类Ck中所包含的样本的个数。
本实施例使用互信息准则来衡量样本的代表性。基于此,为计算聚类Ck中每个样本xi相对于剩余未标注样本集的代表性,申请人进行如下定义:
rep ( x i ) = I ( x i , U x i ) = H ( x i ) - H ( x i | U x i ) - - - ( 2 )
其中,式(2)中rep(xi)表示聚类Ck中样本xi相对于剩余未标注样本集
Figure BDA0000439106710000093
的代表性。其中,H(xi)、
Figure BDA0000439106710000094
分别表示xi
Figure BDA00004391067100000912
的熵。
Figure BDA0000439106710000096
表示xi间的互信息,其值越大,表明xi、和
Figure BDA0000439106710000098
的关联强度越大,则代表性rep(xi)越大。
接下来,使用高斯过程模型计算式(2)中的H(xi)和
Figure BDA0000439106710000099
高斯过程就是随机变量的联合概率分布,因此有限集变量的边缘分布是多元高斯分布。本实施例为每个样本分配随机变量χ(x),对称正定核函数矩阵K(·,·),以产生协方差矩阵:
σ i 2 = K ( x i , x i ) - - - ( 3 )
Σ U i U i = K ( x 1 , x 1 ) K ( x 1 , x 2 ) · · · K ( x 1 , x u ) K ( x 2 , x 1 ) K ( x 2 , x 2 ) · · · K ( x 2 , x u ) · · · · · · · · · · · · K ( x u , x 1 ) K ( x u , x 2 ) · · · K ( x u , x u ) - - - ( 4 )
其中,
Figure BDA0000439106710000103
表示样本xi的协方差矩阵,
Figure BDA0000439106710000104
是聚类Ck中所有样本的协方差矩阵,其中Ui=U-i,K(·,·)选为常用的高斯径向基函数
Figure BDA0000439106710000105
1≤i,j≤M。
于是可用以下两个式子近似估计多元高斯分布的熵:
H ( x i ) = 1 2 ln ( 2 πe Σ ii ) - - - ( 5 )
H ( x i | U x i ) = 1 2 ln ( 2 πe Σ i | U i ) - - - ( 6 )
其中,e表示自然对数,本实施例中,e取值2.718。
从而样本xi相对于未标注样本集
Figure BDA0000439106710000108
的代表性rep(xi)为:
rep ( x i ) = H ( x i ) - H ( x i | U x i ) = 1 2 ln ( Σ ii Σ i | U i ) - - - ( 7 )
S302:获取所述第二参数的参数值最大的样本,将获取的所述样本标记为聚类Ck中代表性最高的样本Sk
针对h个聚类C1,C2,...,Ch中的每个聚类,从该聚类中选取代表性rep(xi)的值最大的样本,作为该聚类中最具代表性的样本,即信息含量最大的样本,h个聚类C1,C2,...,Ch共选出h个代表性最高的样本,组成最具代表性样本集合,该集合中的样本作为待标注的样本。交由领域专家进行信息标注。
S4:对所述最具代表性样本集中的各个样本进行信息标注,得到各个标注样本。
步骤S1、S2、S3实现了从原始的未标注样本集中选择不确定性以及代表性较高的样本,本步骤S4对选择出的各样本进行信息标注,具体地,将选择出的各不确定性以及代表性较高的待标注样本交由领域专家进行信息标注,得到标注有类别信息的样本。
S5:利用所述各个标注样本训练分类器。
具体地,本步骤利用标注了类别信息的样本训练、更新当前的分类器。
需要说明的是,在实际应用中,可通过对上述采样、标注、训练的过程进行多次迭代直至训练出一个具有较高分类准确率的分类器为止。
S6:利用所述分类器对目标对象进行分类。
综上所述,本发明实施例提供的方法,首先考虑样本的不确定性,从原始的未标注样本集中筛选出不确定性较高的各个样本,得到最不确定样本集;之后,依据预设聚类算法,利用样本间的相似性将最不确定样本集分为h个不同的聚类,相似性较高的样本、冗余样本被划分在同一个聚类中,并筛选出每个聚类中最具代表性的样本,构成最具代表性样本集;后续对该最具代表性样本集中的各样本进行信息标注,利用标注的样本训练分类器,最终实现利用训练的分析器对目标对象进行分类。
由于本发明方法利用样本间的相似性对筛选出的不确定性较高的各个样本进行分组,将较为相似的、冗余性较高的样本划分在同一类(即聚类)中,并从同一聚类中筛选出代表性最高的样本作为该类中信息含量最高的样本进行标注,不同聚类中分别选出的代表性最高的样本之间不存在冗余,可见,本发明通过聚类,以及基于聚类进行筛选避免了最终所选的待标注样本之间存在冗余性,从而本发明可以选择出信息含量较高且相互之间不存在冗余的样本,降低了标注时间和工作量,进而提高了分类效率
实施例二
本发明实施例二公开了一种主动学习分类系统,其与实施例一公开的主动学习分类方法相对应,请参见图4,该系统包括第一采样模块100、聚类模块200、第二采样模块300、标注模块400、训练模块500和分类模块600。
第一采样模块100,用于从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于1的自然数。
其中,如图5所示,第一采样模块100具体包括第一分析单元110、第一计算单元120和第一获取单元130。
第一分析单元110,用于分析所述原始的未标注样本集中每个样本所属的最优类别和次优类别,并获取所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,所述最优类别和所述次优类别分别为所述X种对象类别中的一种。
第一计算单元120,用于基于所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,计算所述样本的BvSB值。
第一获取单元130,用于获取所述BvSB值小于第一预设阈值的各个样本,获取的所述各个样本构成最不确定样本集。
聚类模块200,用于依据预设聚类算法,利用样本间的相似性对所述最不确定样本集中的各个样本进行分组,得到所述最不确定样本集的h个不同的聚类Ck,所述聚类Ck包括至少一个样本,所述聚类Ck包括的各个样本互为相似样本,其中,1≤k≤h,所述k为自然数,h为大于1的自然数。
第二采样模块300,用于从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk,所述代表性最高的样本Sk对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征样本的代表性最高的预设条件;各个代表性最高的样本构成最具代表性样本集。
其中,第二采样模块300具体包括第二分析单元310和第二获取单元320。
第二分析单元310,用于分析所述聚类Ck中每个样本xi相对于剩余未标注样本集Uxi的代表性,并计算表征样本xi代表性程度的第二参数的参数值,所述剩余未标注图像样本集Uxi具体为所述聚类Ck中去掉所述样本xi之后的集合,其中,1≤i≤M,i为自然数,M为所述聚类Ck中所包含的样本的个数;
第二获取单元320,用于获取所述第二参数的参数值最大的样本,将获取的所述样本标记为聚类Ck中代表性最高的样本Sk
标注模块400,用于对所述最具代表性样本集中的各个样本进行信息标注,得到各个标注样本。
训练模块500,用于利用所述各个标注样本训练分类器。
分类模块600,用于利用所述分类器对目标对象进行分类。
对于本发明实施例二公开的主动学习分类系统而言,由于其与实施例一公开的主动学习分类方法相对应,所以描述的比较简单,相关相似之处请参见实施例一中主动学习分类方法部分的说明即可,此处不再详述。
综上所述,本发明首先基于不确定性角度从原始的未标注样本集中选择相对于当前分类器不确定性较高的各个样本,之后对不确定较高的各个样本进行聚类处理,并从聚类后的每类样本中选择代表性最高的样本作为待标注样本,后续对选择出的各待标注样本进行标注、基于标注样本训练分类器,最终实现利用训练的分类器对目标对象进行分类。可见本发明保证了所选样本具有较高的不确定性以及代表性,从而可以取得较高的分类精度,且本发明通过聚类排除了冗余,极大程度地降低了样本标注的时间耗费和标注代价,提高了标注效率。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上装置、系统时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各模块或单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种主动学习分类方法,其特征在于,包括:
从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于1的自然数;
依据预设聚类算法,利用样本间的相似性对所述最不确定样本集中的各个样本进行分组,得到所述最不确定样本集的h个不同的聚类Ck,所述聚类Ck包括至少一个样本,所述聚类Ck包括的各个样本互为相似样本,其中,1≤k≤h,所述k为自然数,h为大于1的自然数;
从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk,所述代表性最高的样本Sk对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征样本的代表性最高的预设条件;各个代表性最高的样本构成最具代表性样本集;
对所述最具代表性样本集中的各个样本进行信息标注,得到各个标注样本;
利用所述各个标注样本训练分类器;
利用所述分类器对目标对象进行分类。
2.根据权利要求1所述的主动学习分类方法,其特征在于,所述从原始的未标注样本集中获取包括至少一个样本的最不确定样本集具体包括:
分析所述原始的未标注样本集中每个样本所属的最优类别和次优类别,并获取所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,所述最优类别和所述次优类别分别为所述X种对象类别中的一种;
基于所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,计算所述样本的BvSB值;
获取所述BvSB值小于第一预设阈值的各个样本,获取的所述各个样本构成最不确定样本集。
3.根据权利要求2所述的主动学习分类方法,其特征在于,所述预设聚类算法具体为kernel-kmeans聚类算法。
4.根据权利要求3所述的主动学习分类方法,其特征在于,所述从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk具体包括:
分析所述聚类Ck中每个样本xi相对于剩余未标注样本集的代表性,并计算表征样本xi代表性程度的第二参数的参数值,所述剩余未标注样本集
Figure FDA0000439106700000022
具体为所述聚类Ck中去掉所述样本xi之后的集合,其中,1≤i≤M,i为自然数,M为所述聚类Ck中所包含的样本的个数;
获取所述第二参数的参数值最大的样本,将获取的所述样本标记为聚类Ck中代表性最高的样本Sk
5.一种主动学习分类系统,其特征在于,包括第一采样模块、聚类模块、第二采样模块、标注模块、训练模块和分类模块,其中:
所述第一采样模块,用于从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于1的自然数;
所述聚类模块,用于依据预设聚类算法,利用样本间的相似性对所述最不确定样本集中的各个样本进行分组,得到所述最不确定样本集的h个不同的聚类Ck,所述聚类Ck包括至少一个样本,所述聚类Ck包括的各个样本互为相似样本,其中,1≤k≤h,所述k为自然数,h为大于1的自然数;
所述第二采样模块,用于从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk,所述代表性最高的样本Sk对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征样本的代表性最高的预设条件;各个代表性最高的样本构成最具代表性样本集;
所述标注模块,用于对所述最具代表性样本集中的各个样本进行信息标注,得到各个标注样本;
所述训练模块,用于利用所述各个标注样本训练分类器;
所述分类模块,用于利用所述分类器对目标对象进行分类。
6.根据权利要求5所述的主动学习分类系统,其特征在于,所述第一采样模块具体包括:
第一分析单元,用于分析所述原始的未标注样本集中每个样本所属的最优类别和次优类别,并获取所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,所述最优类别和所述次优类别分别为所述X种对象类别中的一种;
第一计算单元,用于基于所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,计算所述样本的BvSB值;
第一获取单元,用于获取所述BvSB值小于第一预设阈值的各个样本,获取的所述各个样本构成最不确定样本集。
7.根据权利要求6所述的主动学习分类系统,其特征在于,所述第二采样单元具体包括:
第二分析单元,用于分析所述聚类Ck中每个样本xi相对于剩余未标注样本集
Figure FDA0000439106700000031
的代表性,并计算表征样本xi代表性程度的第二参数的参数值,所述剩余未标注样本集
Figure FDA0000439106700000032
具体为所述聚类Ck中去掉所述样本xi之后的集合,其中,1≤i≤M,i为自然数,M为所述聚类Ck中所包含的样本的个数;
第二获取单元,用于获取所述第二参数的参数值最大的样本,将获取的所述样本标记为聚类Ck中代表性最高的样本Sk
CN201310688732.XA 2013-12-16 2013-12-16 一种主动学习分类方法和系统 Pending CN103617429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310688732.XA CN103617429A (zh) 2013-12-16 2013-12-16 一种主动学习分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310688732.XA CN103617429A (zh) 2013-12-16 2013-12-16 一种主动学习分类方法和系统

Publications (1)

Publication Number Publication Date
CN103617429A true CN103617429A (zh) 2014-03-05

Family

ID=50168132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310688732.XA Pending CN103617429A (zh) 2013-12-16 2013-12-16 一种主动学习分类方法和系统

Country Status (1)

Country Link
CN (1) CN103617429A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942561A (zh) * 2014-03-20 2014-07-23 杭州禧颂科技有限公司 一种基于主动学习的图像标注方法
CN104657745A (zh) * 2015-01-29 2015-05-27 中国科学院信息工程研究所 一种已标注样本的维护方法及双向学习交互式分类方法
CN106021406A (zh) * 2016-05-12 2016-10-12 南京大学 一种数据驱动的迭代式图像在线标注方法
CN106127232A (zh) * 2016-06-16 2016-11-16 北京市商汤科技开发有限公司 卷积神经网络训练方法和系统、对象分类方法和分类器
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
CN106339420A (zh) * 2016-08-15 2017-01-18 北京集奥聚合科技有限公司 一种基于消费能力的垂直领域属性挖掘方法
CN106934413A (zh) * 2015-12-31 2017-07-07 阿里巴巴集团控股有限公司 模型训练方法、装置及系统以及样本集优化方法、装置
CN107194430A (zh) * 2017-05-27 2017-09-22 北京三快在线科技有限公司 一种样本筛选方法及装置,电子设备
CN108090068A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN108304427A (zh) * 2017-04-28 2018-07-20 腾讯科技(深圳)有限公司 一种用户客群分类方法和装置
CN108665158A (zh) * 2018-05-08 2018-10-16 阿里巴巴集团控股有限公司 一种训练风控模型的方法、装置及设备
CN108710894A (zh) * 2018-04-17 2018-10-26 中国科学院软件研究所 一种基于聚类代表点的主动学习标注方法和装置
CN108830222A (zh) * 2018-06-19 2018-11-16 山东大学 一种基于信息性和代表性主动学习的微表情识别方法
CN109145937A (zh) * 2018-06-25 2019-01-04 北京达佳互联信息技术有限公司 一种模型训练的方法及装置
CN109492026A (zh) * 2018-11-02 2019-03-19 国家计算机网络与信息安全管理中心 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN109492776A (zh) * 2018-11-21 2019-03-19 哈尔滨工程大学 基于主动学习的微博流行度预测方法
CN109800776A (zh) * 2017-11-17 2019-05-24 中兴通讯股份有限公司 素材标注方法、装置、终端和计算机可读存储介质
CN109977994A (zh) * 2019-02-02 2019-07-05 浙江工业大学 一种基于多示例主动学习的代表性图像选取方法
CN111096735A (zh) * 2018-10-26 2020-05-05 深圳市理邦精密仪器股份有限公司 可迭代更新的心电图分析系统
CN111259961A (zh) * 2020-01-17 2020-06-09 南京大学 一种基于主动学习的面向对象分类方法
CN111582327A (zh) * 2020-04-22 2020-08-25 郑州轻工业大学 面向智能终端的动作识别训练样本自动标注方法
CN111582404A (zh) * 2020-05-25 2020-08-25 腾讯科技(深圳)有限公司 内容分类方法、装置及可读存储介质
CN112329427A (zh) * 2020-11-26 2021-02-05 北京百度网讯科技有限公司 短信样本的获取方法和装置
CN112699908A (zh) * 2019-10-23 2021-04-23 武汉斗鱼鱼乐网络科技有限公司 标注图片的方法、电子终端、计算机可读存储介质及设备
CN112784818A (zh) * 2021-03-03 2021-05-11 电子科技大学 基于分组式主动学习在光学遥感图像上的识别方法
WO2022205158A1 (zh) * 2021-03-31 2022-10-06 深圳市大疆创新科技有限公司 图像样本的处理方法和装置以及数据处理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090252404A1 (en) * 2008-04-02 2009-10-08 Xerox Corporation Model uncertainty visualization for active learning
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102176701A (zh) * 2011-02-18 2011-09-07 哈尔滨工业大学 一种基于主动学习的网络数据异常检测方法
CN102508909A (zh) * 2011-11-11 2012-06-20 苏州大学 一种基于多智能算法及图像融合技术的图像检索方法
CN103336842A (zh) * 2013-07-17 2013-10-02 山东师范大学 一种基于聚类和投票机制的主动学习初始样本选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090252404A1 (en) * 2008-04-02 2009-10-08 Xerox Corporation Model uncertainty visualization for active learning
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102176701A (zh) * 2011-02-18 2011-09-07 哈尔滨工业大学 一种基于主动学习的网络数据异常检测方法
CN102508909A (zh) * 2011-11-11 2012-06-20 苏州大学 一种基于多智能算法及图像融合技术的图像检索方法
CN103336842A (zh) * 2013-07-17 2013-10-02 山东师范大学 一种基于聚类和投票机制的主动学习初始样本选择方法

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942561B (zh) * 2014-03-20 2017-03-29 杭州禧颂科技有限公司 一种基于主动学习的图像标注方法
CN103942561A (zh) * 2014-03-20 2014-07-23 杭州禧颂科技有限公司 一种基于主动学习的图像标注方法
CN104657745A (zh) * 2015-01-29 2015-05-27 中国科学院信息工程研究所 一种已标注样本的维护方法及双向学习交互式分类方法
CN104657745B (zh) * 2015-01-29 2017-12-15 中国科学院信息工程研究所 一种已标注样本的维护方法及双向学习交互式分类方法
CN106934413A (zh) * 2015-12-31 2017-07-07 阿里巴巴集团控股有限公司 模型训练方法、装置及系统以及样本集优化方法、装置
CN106934413B (zh) * 2015-12-31 2020-10-13 阿里巴巴集团控股有限公司 模型训练方法、装置及系统以及样本集优化方法、装置
CN106021406B (zh) * 2016-05-12 2019-06-25 南京大学 一种数据驱动的迭代式图像在线标注方法
CN106021406A (zh) * 2016-05-12 2016-10-12 南京大学 一种数据驱动的迭代式图像在线标注方法
CN106127232A (zh) * 2016-06-16 2016-11-16 北京市商汤科技开发有限公司 卷积神经网络训练方法和系统、对象分类方法和分类器
CN106127232B (zh) * 2016-06-16 2020-01-14 北京市商汤科技开发有限公司 卷积神经网络训练方法和系统、对象分类方法和分类器
CN106339420A (zh) * 2016-08-15 2017-01-18 北京集奥聚合科技有限公司 一种基于消费能力的垂直领域属性挖掘方法
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
CN108090068A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN108090068B (zh) * 2016-11-21 2021-05-25 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN108304427A (zh) * 2017-04-28 2018-07-20 腾讯科技(深圳)有限公司 一种用户客群分类方法和装置
WO2018196798A1 (zh) * 2017-04-28 2018-11-01 腾讯科技(深圳)有限公司 用户客群分类方法和装置
CN108304427B (zh) * 2017-04-28 2020-03-17 腾讯科技(深圳)有限公司 一种用户客群分类方法和装置
CN107194430B (zh) * 2017-05-27 2021-07-23 北京三快在线科技有限公司 一种样本筛选方法及装置,电子设备
CN107194430A (zh) * 2017-05-27 2017-09-22 北京三快在线科技有限公司 一种样本筛选方法及装置,电子设备
CN109800776A (zh) * 2017-11-17 2019-05-24 中兴通讯股份有限公司 素材标注方法、装置、终端和计算机可读存储介质
CN108710894B (zh) * 2018-04-17 2022-06-28 中国科学院软件研究所 一种基于聚类代表点的主动学习标注方法和装置
CN108710894A (zh) * 2018-04-17 2018-10-26 中国科学院软件研究所 一种基于聚类代表点的主动学习标注方法和装置
CN108665158A (zh) * 2018-05-08 2018-10-16 阿里巴巴集团控股有限公司 一种训练风控模型的方法、装置及设备
CN108830222A (zh) * 2018-06-19 2018-11-16 山东大学 一种基于信息性和代表性主动学习的微表情识别方法
CN109145937A (zh) * 2018-06-25 2019-01-04 北京达佳互联信息技术有限公司 一种模型训练的方法及装置
CN111096735A (zh) * 2018-10-26 2020-05-05 深圳市理邦精密仪器股份有限公司 可迭代更新的心电图分析系统
CN109492026A (zh) * 2018-11-02 2019-03-19 国家计算机网络与信息安全管理中心 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN109492026B (zh) * 2018-11-02 2021-11-09 国家计算机网络与信息安全管理中心 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN109492776A (zh) * 2018-11-21 2019-03-19 哈尔滨工程大学 基于主动学习的微博流行度预测方法
CN109492776B (zh) * 2018-11-21 2022-05-17 哈尔滨工程大学 基于主动学习的微博流行度预测方法
CN109977994B (zh) * 2019-02-02 2021-04-09 浙江工业大学 一种基于多示例主动学习的代表性图像选取方法
CN109977994A (zh) * 2019-02-02 2019-07-05 浙江工业大学 一种基于多示例主动学习的代表性图像选取方法
CN112699908A (zh) * 2019-10-23 2021-04-23 武汉斗鱼鱼乐网络科技有限公司 标注图片的方法、电子终端、计算机可读存储介质及设备
CN112699908B (zh) * 2019-10-23 2022-08-05 武汉斗鱼鱼乐网络科技有限公司 标注图片的方法、电子终端、计算机可读存储介质及设备
CN111259961A (zh) * 2020-01-17 2020-06-09 南京大学 一种基于主动学习的面向对象分类方法
CN111582327A (zh) * 2020-04-22 2020-08-25 郑州轻工业大学 面向智能终端的动作识别训练样本自动标注方法
CN111582404A (zh) * 2020-05-25 2020-08-25 腾讯科技(深圳)有限公司 内容分类方法、装置及可读存储介质
CN111582404B (zh) * 2020-05-25 2024-03-26 腾讯科技(深圳)有限公司 内容分类方法、装置及可读存储介质
CN112329427A (zh) * 2020-11-26 2021-02-05 北京百度网讯科技有限公司 短信样本的获取方法和装置
CN112329427B (zh) * 2020-11-26 2023-08-08 北京百度网讯科技有限公司 短信样本的获取方法和装置
CN112784818A (zh) * 2021-03-03 2021-05-11 电子科技大学 基于分组式主动学习在光学遥感图像上的识别方法
CN112784818B (zh) * 2021-03-03 2023-03-14 电子科技大学 基于分组式主动学习在光学遥感图像上的识别方法
WO2022205158A1 (zh) * 2021-03-31 2022-10-06 深圳市大疆创新科技有限公司 图像样本的处理方法和装置以及数据处理方法和装置

Similar Documents

Publication Publication Date Title
CN103617429A (zh) 一种主动学习分类方法和系统
CN103617435A (zh) 一种主动学习图像分类方法和系统
CN101944174B (zh) 车牌字符的识别方法
CN103745234B (zh) 一种带钢表面缺陷的特征提取与分类方法
CN102147866B (zh) 基于训练自适应增强和支持矢量机的目标识别方法
CN108090456A (zh) 一种车道线识别方法及装置
CN102156871B (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN102156885B (zh) 基于级联式码本生成的图像分类方法
CN102982349A (zh) 一种图像识别方法及装置
CN102324046A (zh) 结合主动学习的四分类器协同训练方法
CN101980202A (zh) 不平衡数据的半监督分类方法
CN103020122A (zh) 一种基于半监督聚类的迁移学习方法
CN102722713A (zh) 一种基于李群结构数据的手写体数字识别方法及系统
Momeni et al. Clustering stock market companies via k-means algorithm
CN104794496A (zh) 一种改进mRMR算法的遥感特征优选算法
CN107679550A (zh) 一种数据集分类可用性的评估方法
CN103679160A (zh) 一种人脸识别方法和装置
CN101295362A (zh) 结合支持向量机以及近邻法的模式分类方法
CN103426004A (zh) 基于纠错输出编码的车型识别方法
CN101964061B (zh) 一种基于二类核函数支持向量机的车型识别方法
CN104462229A (zh) 一种事件分类方法及装置
CN102411592B (zh) 一种文本分类方法和装置
CN109933619A (zh) 一种半监督分类预测方法
CN102708384A (zh) 一种基于随机蕨的自举弱学习方法及其分类器
CN104615789A (zh) 一种数据分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140305

RJ01 Rejection of invention patent application after publication