CN103617435B - 一种主动学习图像分类方法和系统 - Google Patents

一种主动学习图像分类方法和系统 Download PDF

Info

Publication number
CN103617435B
CN103617435B CN201310688907.7A CN201310688907A CN103617435B CN 103617435 B CN103617435 B CN 103617435B CN 201310688907 A CN201310688907 A CN 201310688907A CN 103617435 B CN103617435 B CN 103617435B
Authority
CN
China
Prior art keywords
image
image pattern
sample
classification
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310688907.7A
Other languages
English (en)
Other versions
CN103617435A (zh
Inventor
赵朋朋
李承超
吴健
鲜学丰
崔志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201310688907.7A priority Critical patent/CN103617435B/zh
Publication of CN103617435A publication Critical patent/CN103617435A/zh
Application granted granted Critical
Publication of CN103617435B publication Critical patent/CN103617435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种主动学习图像分类方法和系统,该方法针对原始的未标注图像样本集,首先仅考虑各样本的不确定性,从原始未标注图像样本集中获取不确定性较高的各图像样本,构成最不确定图像样本集;之后,衡量最不确定图像样本集中各样本的代表性,从中获取代表性较高的各样本,组成最具代表性图像样本集;后续对选取的不确定性和代表性较高的样本进行标注、分类器训练,以及利用训练的分类器对目标图像进行分类。可见,本发明采用分层次衡量的方式,首先基于不确定性缩减、筛选样本,之后对不确定性较高的缩减了样本规模的最不确定图像样本集进行代表性衡量,在保证了样本的不确定性和代表性的同时,降低了采样处理时间和工作量,提高了处理效率。

Description

一种主动学习图像分类方法和系统
技术领域
本发明属于模式识别与机器学习中的图像分类技术领域,尤其涉及一种主动学习图像分类方法和系统。
背景技术
图像分类是根据图像信息中所反映的不同特征将不同类别的目标区分开来的一种图像处理方法,其是图像处理领域中非常重要的研究课题。图像分类的关键问题是基于已标注类别的图片训练具有较高分类准确率的分类器模型。
由于图片标注的代价较高(需由领域专家进行人工标注),本领域提供了基于主动学习的图像分类方法以减少领域专家人工标注的工作量。该方法选择尽可能少的但信息含量较高的样本进行类别标注,并基于标注样本训练分类器,迭代上述过程获得较高准确率的分类器。但上述方法在采集图像样本时,综合考虑样本的不确定性和代表性,选择二者结合值较大的图像样本作为信息含量较高的样本,由于其同时考虑样本的不确定性和代表性,针对原始的未标注样本集中的所有样本,需要计算、衡量每个样本的不确定性以及代表性,从而导致采样工作量较大,费时费力,尤其当未标注样本集较大时,该缺点更为凸显。
发明内容
有鉴于此,本发明的目的在于提供一种主动学习图像分类方法和系统。以克服上述问题,在保证所选样本的不确定性和代表性较高的同时,降低采样处理时间和工作量。
为此,本发明公开如下技术方案:
一种主动学习图像分类方法,包括:
对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集,所述最不确定图像样本集中的每个图像样本对应一个表征其相对于预设的Z种图像类别的不确定性程度的第一参数,所述第一参数的参数值满足表征图像样本的不确定性较高的预设条件,其中,所述Z为大于1的自然数;
对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集,所述最具代表性图像样本集中的每个图像样本对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征图像样本的代表性较高的预设条件;并将所述最具代表性图像样本集中的各图像样本作为待标注图像样本;
对所述待标注图像样本进行类别标注,得到标注的图像样本;
利用所述标注的图像样本训练图像分类器;
利用所述图像分类器对目标图像进行分类。
上述方法,优选的,所述对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集具体包括:
分析所述原始的未标注图像样本集中的每个图像样本所属的最优图像类别和次优图像类别,并获取所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,所述最优图像类别和所述次优图像类别分别为所述Z种图像类别中的一种;
基于所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,计算所述图像样本的BvSB值;
获取所述BvSB值小于第一预设阈值的各图像样本,获取的所述各图像样本构成最不确定图像样本集。
上述方法,优选的,所述对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集具体包括:
分析所述最不确定图像样本集U中每个图像样本xi相对于剩余未标注图像样本集的代表性,并计算表征代表性程度的第二参数的参数值,所述剩余未标注图像样本集具体为所述最不确定图像样本集U中去掉所述图像样本xi之后的集合,其中,1≤i≤M,i为自然数,M为所述最不确定图像样本集U中所包含的图像样本的个数;
获取所述第二参数的参数值大于第二预设阈值的各个图像样本,获取的所述各个图像样本构成最具代表性图像样本集。
上述方法,优选的,对所述待标注图像样本进行类别标注,得到标注的图像样本之前还包括:
对所述最具代表性图像样本集进行分析、处理,得到最具信息含量图像样本,所述最具信息含量图像样本对应一个表征其信息含量的第三参数,所述第三参数的参数值满足表征图像样本的信息含量最高的预设条件;并将所述最具信息含量图像样本替换所述最具代表性图像样本集中的各图像样本作为待标注图像样本。
上述方法,优选的,所述对所述最具代表性图像样本集进行分析、处理,得到最具信息含量图像样本具体包括:
对于所述最具代表性图像样本集中的每个图像样本dk,利用所述图像样本dk更新图像分类器,得到新分类器,并使用所述新分类器对所述最具代表性图像样本集中除所述图像样本dk之外的其他各图像样本进行图像分类,其中,1≤k≤N,k为自然数,N为所述最具代表性图像样本集中包括的图像样本的个数;
计算所述新分类器对所述其他各图像样本进行图像分类时的期望错误率,并将所述期望错误率与所述图像样本dk相对应;
获取值最小的期望错误率,并依据所述值最小的期望错误率获取对应的图像样本,将所述对应的图像样本标记为最具信息含量图像样本。
一种主动学习图像分类系统,包括第一采样模块、第二采样模块、标注模块、训练模块和分类模块,其中:
所述第一采样模块,用于对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集,所述最不确定图像样本集中的每个图像样本对应一个表征其相对于预设的Z种图像类别的不确定性程度的第一参数,所述第一参数的参数值满足表征图像样本的不确定性较高的预设条件,其中,所述Z为大于1的自然数;
所述第二采样模块,用于对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集,所述最具代表性图像样本集中的每个图像样本对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征图像样本的代表性较高的预设条件;并将所述最具代表性图像样本集中的各图像样本作为待标注图像样本;
所述标注模块,用于对所述待标注图像样本进行类别标注,得到标注的图像样本;
所述训练模块,用于利用所述标注的图像样本训练图像分类器;
所述分类模块,用于利用所述图像分类器对目标图像进行分类。
上述系统,优选的,所述第一采样模块包括:
第一分析单元,用于分析所述原始的未标注图像样本集中的每个图像样本所属的最优图像类别和次优图像类别,并获取所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,所述最优图像类别和所述次优图像类别分别为所述Z种图像类别中的一种;
第一计算单元,用于基于所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,计算所述图像样本的BvSB值;
第一获取单元,用于获取所述BvSB值小于第一预设阈值的各图像样本,获取的所述各图像样本构成最不确定图像样本集。
上述系统,优选的,所述第二采样模块包括:
第二分析单元,用于分析所述最不确定图像样本集U中每个图像样本xi相对于剩余未标注图像样本集的代表性,并计算表征代表性程度的第二参数的参数值,所述剩余未标注图像样本集具体为所述最不确定图像样本集U中去掉所述图像样本xi之后的集合,其中,1≤i≤M,i为自然数,M为所述最不确定图像样本集U中所包含的图像样本的个数;
第二获取单元,用于获取所述第二参数的参数值大于第二预设阈值的各个图像样本,获取的所述各个图像样本构成最具代表性图像样本集。
上述系统,优选的,还包括:
所述第三采样模块,用于对所述最具代表性图像样本集进行分析、处理,得到最具信息含量图像样本,所述最具信息含量图像样本对应一个表征其信息含量的第三参数,所述第三参数的参数值满足表征图像样本的信息含量最高的预设条件;并将所述最具信息含量图像样本替换所述最具代表性图像样本集中的各图像样本作为待标注图像样本。
上述系统,优选的,所述第三采样模块包括:
处理单元,用于对于所述最具代表性图像样本集中的每个图像样本dk,利用所述图像样本dk更新图像分类器,得到新分类器,并使用所述新分类器对所述最具代表性图像样本集中除所述图像样本dk之外的其他各图像样本进行图像分类,其中,1≤k≤N,k为自然数,N为所述最具代表性图像样本集中包括的图像样本的个数;
第三计算单元,用于计算所述新分类器对所述其他各图像样本进行图像分类时的期望错误率,并将所述期望错误率与所述图像样本dk相对应;
第三获取单元,用于获取值最小的期望错误率,并依据所述值最小的期望错误率获取对应的图像样本,将所述对应的图像样本标记为最具信息含量图像样本。
本发明实施例提供的方法中,针对原始的未标注图像样本集,首先仅考虑各样本的不确定性,从所述原始的未标注图像样本集中获取不确定性较高的各图像样本,构成最不确定图像样本集;之后,针对最不确定图像样本集中的各样本,衡量各个样本的代表性,从中获取代表性较高的各个样本,组成最具代表性图像样本集;后续对选取的不确定性和代表性较高的样本进行标注、分类器训练,以及利用训练的分类器对目标图像进行分类。
可见,本发明规避了现有对原始的未标注样本集中所有样本同时衡量不确定性和代表性的弊端,采用分层次衡量的方式,首先衡量不确定性缩减、筛选样本,之后对不确定性较高的缩减了样本规模的最不确定图像样本集进行代表性衡量,从而本发明在保证了样本的不确定性和代表性较高的同时,降低了采样处理时间和工作量,提高了处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的主动学习图像分类方法的一种流程图;
图2是本发明实施例一提供的最不确定图像样本集的获取过程流程图;
图3是本发明实施例一提供的最具代表性图像样本集的获取过程流程图;
图4是本发明实施例二提供的主动学习图像分类方法的另一种流程图;
图5是本发明实施例二提供的最具信息含量图像样本的获取过程流程图;
图6是本发明实施例三提供的主动学习图像分类系统的一种结构示意图;
图7是本发明实施例三提供的主动学习图像分类系统的另一种结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例公开一种主动学习图像分类方法,请参见图1,该方法包括如下步骤:
S1:对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集,所述最不确定图像样本集中的每个图像样本对应一个表征其相对于预设的Z种图像类别的不确定性程度的第一参数,所述第一参数的参数值满足表征图像样本的不确定性较高的预设条件,其中,所述Z为大于1的自然数。
本实施例中,综合考虑图像样本的不确定性和代表性,将不确定性较高以及代表性较高的图像样本作为信息含量较高的图像样本,即对预设的Z种图像类别最有价值的样本,在实际实施时,可具体将预设的Z种图像类别实例化为包含了该Z种图像类别的分类器模型。
在传统图像分类问题中,计算图像样本的信息含量一般采用基于熵的计量方式,但是熵有时候不能完全代表样本的不确定性,例如,某些具有较小熵的样本的分类不确定性反而比某些熵稍大的样本高。从而挑选出的样本可能并不具有较高的不确定性,信息含量较低,进而不能更好的提高分类器的分类性能。
为解决上述问题,本发明采用基于BvSB(Best vs Second-Best,最优次优标号)准则的不确定性方法衡量图像样本的不确定性,实现从原始的未标注图像样本集合中选取对当前分类器模型最有价值的样本,构成最不确定样本集。
BvSB准则具体如下:
假设当前图像样本为x,y表示图像样本x所属的图像类别,Y表示图像样本x可能所属的图像类别集合,U表示原始的未标注图像样本集合。则:
BvSB = arg min x ∈ U ( min y ∈ Y , y ≠ y Best ( p ( y Best | x ) - p ( y | x ) ) ) = arg min x ∈ U ( p ( y Best | x ) - p ( y Second - Best | x ) )
其中,p(yBest|x)表示图像样本x属于最可能性类别(最优图像类别)yBest的概率,p(ySecond-Best|x)表示图像样本x属于次可能性类别(次优图像类别)ySecond-Best的概率。
从分类器模型的分类边界改变这个角度来说,该BvSB准则是一个有效的度量,因利用该公式可以选择对分类器的分类边界影响较大,即信息含量较高的图像样本。基于此,本发明计算原始的未标注图像样本集合中每个图像样本的BvSB值,并用BvSB值衡量图像样本的不确定性,BvSB值越小,则表明图像样本相对于当前分类器模型的不确定性越高。
基于以上的BvSB准则,如图2所示,上述步骤S1具体包括:
S101:分析所述原始的未标注图像样本集中的每个图像样本所属的最优图像类别和次优图像类别,并获取所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,所述最优图像类别和所述次优图像类别分别为所述X种图像类别中的一种。
本实施例中,使用当前分类器模型对原始的未标注图像样本集中每个图像样本最可能所属的图像类别(即最优图像类别)yBest和次可能的图像类别(即次优图像类别)ySecond-Best进行估计,并估计该图像样本属于类别yBest的概率p(yBest|x)以及属于类别ySecond-Best的概率p(ySecond-Best|x)。
S102:基于所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,计算所述图像样本的BvSB值。
利用步骤S101中得到的p(yBest|x)和p(ySecond-Best|x),通过以上公式(1)计算原始的未标注图像样本集中每个图像样本的BvSB值。
S103:获取所述BvSB值小于第一预设阈值的各图像样本,获取的所述各图像样本构成最不确定图像样本集。
具体地,预先设定一个作为各BvSB值的参考基准的阈值,该阈值的大小可依据实际采样时对图像样本的不确定性需求而定,将计算得出的每个图像样本的BvSB值与预先设定的该阈值进行比较,从原始的未标注图像样本集中筛选出BvSB值小于该阈值的各图像样本,从而得到对于当前分类器模型不确定性较高、对分类器模型的分类边界影响较大的图像样本。
除此之外,还可以采取排序、筛选的方式获取不确定性较高的各图像样本,具体地,将各个图像样本的BvSB值升序或降序排序,从排序所得的BvSB序列中BvSB值较小的一端依次获取所需数量的BvSB值,并依据获取的各BvSB值获取其相对应的各个图像样本,从而获得了不确定性较高的各图像样本。需要说明的是,从排序序列中获取的BvSB值的数量,也即需要获取的不确定性较高的图像样本的数量,可预先依据实际采样需求进行设定。
S2:对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集,所述最具代表性图像样本集中的每个图像样本对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征图像样本的代表性较高的预设条件;并将所述最具代表性图像样本集中的各图像样本作为待标注图像样本。
以上步骤S1实现了从不确定性的角度筛选原始未标注图像样本集中各图像样本的目的,但不确定性仅仅体现了筛选出的各不确定图像样本对当前分类器模型的影响,没有考虑各不确定图像样本在未标注图像样本集中的分布信息,例如该不确定图像样本有可能为孤立点、噪声点,从而其信息含量较低,会降低分类器模型的分类准确率。基于该原因,本步骤S2考虑图像样本的分布信息,继续从筛选出的最不确定图像样本集中筛选代表性较高的图像样本,以消除孤立点或噪声点,区别于现有方法对原始的未标注图像样本集中每个图像样本,同时衡量其不确定性和代表性,本发明衡量规模缩减后的最不确定图像样本集中样本的代表性,从中选出对于分类器模型较不确定的、对于最不确定图像样本集又具有较高代表性的样本。
如图3所示,步骤S2包括:
S201:分析所述最不确定图像样本集U中每个图像样本xi相对于剩余未标注图像样本集的代表性,并计算表征代表性程度的第二参数的参数值,所述剩余未标注图像样本集具体为所述最不确定图像样本集U中去掉所述图像样本xi之后的集合,其中,1≤i≤M,i为自然数,M为所述最不确定图像样本集U中所包含的图像样本的个数。
由信息论的知识可知,互信息准则可衡量两组不同随机变量X、Y间的相互关系。互信息准则具体可通过如下公式(2)描述:
I(X,Y)=H(X)-H(X|Y) (2)
其中,H(X)、H(X|Y)分别表示两组变量X、Y的熵。I(X,Y)表示随机变量X、Y间的互信息,其值越大,则表明X和Y的关联强度越大。
本实施例利用以上互信息准则来衡量当前图像样本xi在最不确定图像样本集中的代表性R(xi)。具体地,R(xi)表示当前图像样本xi相对于最不确定图像样本集U中剩余未标注图像样本集的代表性,其中,为最不确定图像样本集U中去掉xi之后的集合。针对上述R(xi),本实施例做出如下定义:
R ( x i ) = I ( x i ) = H ( x i ) - H ( x i | X U i ) - - - ( 3 )
之后,使用高斯模型计算公式(3)中的H(xi)和为使用高斯分布,本实施例为每个图像样本分配随机变量一个λ(x),使其服从高斯分布且相互独立。并定义核函数矩阵G(.,.),用于产生协方差矩阵:
s i 2 = G ( x i , x i ) - - - ( 3 )
其中,表示样本xi的协方差矩阵,是最不确定图像样本集U中所有图像样本的协方差矩阵,Ui={1,2,…,u},G(.,.)选为常用的高斯径向基函数G(xi,xj)=exp(-λ(xi-xj)2),其中,u表示最不确定图像样本集中图像样本的个数,u=M,1≤j≤M。
根据条件协方差的知识,可知当前图像样本xi相对于剩余未标注图像样本集的条件协方差为:
Σ i | U i = Σ ii - Σ i U i Σ U i U i - 1 Σ U i i - - - ( 6 )
其中,∑ii2 可由公式(5)计算得到。
接下来,用如下公式近似多元高斯分布的熵:
H ( x i ) = 1 2 ln ( 2 Πe Σ ii ) - - - ( 7 )
H ( x i | X U i ) = 1 2 ln ( 2 Πe Σ i | U i ) - - - ( 8 )
其中,e表示自然对数,本实施例中,e取值2.718。
从而当前图像样本xi相对于剩余未标注图像样本集的代表性R(xi)为:
R ( x i ) = H ( x i ) - H ( x i | X U i ) = 1 2 ln ( Σ ii Σ i | U i ) - - - ( 9 )
图像样本xi的R(xi)值越则xi在最不确定图像样本集中的代表性越高,表明其相对于剩余未标注图像样本集的信息含量越大。
S202:获取所述第二参数的参数值大于第二预设阈值的各个图像样本,获取的所述各个图像样本构成最具代表性图像样本集。
具体地,预先设定一个作为各R(xi)值的参考基准的阈值,该阈值的大小可依据从最不确定图像样本集中进行采样的采样需求而定,将最不确定图像样本集中每个图像样本的R(xi)值与该阈值进行比较,并从最不确定图像样本集中筛选出R(xi)值不小于该阈值的各图像样本,得到最具代表x图像样本集。
当然,最具代表性图像样本集的获取也可以采用排序筛选的方式,将最不确定图像样本集中每个图像样本的R(xi)值升序或降序排列,从排序所得的R(xi)值序列的R(xi)值较大的一端依次获取所需数量的R(xi)值,并根据获取的各R(xi)值获取相其对应的各图像样本,即代表性较高的各图像样本。
该步骤S2实现了从最不确定样本集中获取代表性较高的各图像样本的目的,从而本发明中对图像样本的代表性的衡量仅限于最不确定图像集中的各图像样本,不需对原始的未标注图像样本集中所有样本进行代表性衡量。降低了采样工作量,进而降低了采样处理所需的时间。
S3:对所述待标注图像样本进行类别标注,得到标注的图像样本。
具体地,本实施例中,将经过步骤S1及S2筛选出的不确定较高、代表性较高的高信息含量的待标注图像样本交由本领域技术专家,由技术专家对待标注图像样本的类别进行人工标注,得到标注有图像类别的图像样本。
S4:利用所述标注的图像样本训练图像分类器。
具体地,利用标注了类别信息的图像样本训练、更新当前的分类器模型。
需要说明的是,在实际应用中,可对上述采样、标注、训练的过程进行多次迭代直至训练出一个具有较高分类准确率的分类器模型。本实施例即是以当前分类器模型为例,从原始的未标注图像样本集中筛选出相对于该分类器模型不确定性较高的最不确定图像样本集,并从最不确定图像样本集中筛选代表性较高的各图像样本,将筛选出的不确定性及代表性较高的图像样本进行类别标注,并利用标注的图像样本更新、训练当前分类器模型,迭代上述过程,直至训练出达到预设分类准确率的分类器模型为止。
S5:利用所述图像分类器对目标图像进行分类。
综上所述,本发明实施例提供的方法中,针对原始的未标注图像样本集,首先仅考虑各样本的不确定性,从所述原始未标注图像样本集中获取不确定性较高的各图像样本,构成最不确定图像样本集;之后,针对最不确定图像样本集中的各样本,衡量各个样本的代表性,从中获取代表性较高的各个样本,组成最具代表性图像样本集;后续对选取的不确定性和代表性较高的样本进行标注、分类器训练,以及利用训练的分类器对目标图像进行分类。
可见,本发明规避了现有对原始的未标注样本集中所有样本同时衡量不确定性和代表性的弊端,采用分层次衡量的方式,首先衡量不确定性缩减、筛选样本,之后对不确定性较高的缩减了样本规模的最不确定图像样本集进行代表性衡量,从而本发明在保证了样本的不确定性和代表性的同时,降低了采样处理时间和工作量,提高了处理效率。
实施例二
以上实施例一中筛选出的各个待标注图像样本(即代表性图像样本集中的各图像样本)既具有较高的不确定性又有较高的代表性,本实施例二在基于待标注样本具有上述两个优势后,继续对待标注样本进行优化,使用期望错误率缩减策略从待标注样本中挑选最具信息含量的样本。
期望错误率缩减策略的核心思想为:对于所有待选图像样本中的每个图像样本,将该图像样本添加至已标注图像样本集(即训练出当前图像分类器的已标注图像样本集)中,并利用添加后的标注图像样本集更新当前图像分类器,得到新分类器;之后,使用新分类器分类待选图像样本中剩余的其他待选图像样本,同时基于分类情况,计算新分类器对剩余的其他待选图像样本进行分类时的期望错误率。选择能使分类器的期望错误率最小的图像样本,旨在减小分类器的泛化错误率。
为此,请参见图4,本发明实施例二公开主动学习图像分类方法的另一种流程,其除了包括实施例一中公开的步骤S1、S2、S3、S4、S5之外,在步骤S2和S3之间还包括如下步骤S6:
S6:对所述最具代表性图像样本集进行分析、处理,得到最具信息含量图像样本,所述最具信息含量图像样本对应一个表征其信息含量的第三参数,所述第三参数的参数值满足表征图像样本的信息含量最高的预设条件;并将所述最具信息含量图像样本替换所述最具代表性图像样本集中的各图像样本作为待标注图像样本。
如图5所示,该步骤S6具体包括:
S601:对于所述最具代表性图像样本集中的每个图像样本dk,利用所述图像样本dk更新图像分类器,得到新分类器,并使用所述新分类器对所述最具代表性图像样本集中除所述图像样本dk之外的其他各图像样本进行图像分类,其中,1≤k≤N,k为自然数,N为所述最具代表性图像样本集中包括的图像样本的个数。
该步骤具体基于当前图像分类器模型估计代表性图像样本集中每个图像样本可能所属的图像类别,并将图像样本所属的最优图像类别作为该图像样本的类别,之后,将携带有类别信息的该图像样本添加至当前分类器模型对应的已标注图像样本集,并利用添加后的已标注图像样本集更新当前分类器模型,得到新的分类器模型。
S602:计算所述新分类器对所述其他各图像样本进行图像分类时的期望错误率,并将所述期望错误率与所述图像样本dk相对应。
具体地,利用如下公式(10)计算期望错误率:
U predict = Σ u = 1 U ( 1 - P C L + x , y i ( y $ | x u ) ) - - - ( 10 )
其中,C表示当前分类器模型,表示将类别为yi的图像样本x添加到已标注图像样本集L后更新得到的分类器模型,表示未标注图像样本xu的最优图像类别,Label表示图像样本的所有类别集合。
S603:获取值最小的期望错误率,并依据所述值最小的期望错误率获取对应的图像样本,将所述对应的图像样本标记为最具信息含量图像样本。
具体地,本步骤采用如下公式(11)获取最具有信息含量的图像样本x*
x * = arg min x ∈ MRSS Σ i ∈ Label P C ( y i | x ) U predict - - - ( 11 )
其中,MRSS表示最具代表性样本集。
本步骤基于减小分类器模型的泛化错误率这一目的,实现了选择期望错误率最小的图像样本,并将期望错误率最小的图像样本作为最具信息含量的样本交由人工专家标注。
实施例三
本发明实施例三公开了一种主动学习图像分类系统,该系统与实施例一及实施例二的主动学习图像分类方法相对应。
首先,对应于实施例一中主动学习图像分类方法的流程,本实施例二公开了主动学习图像分类系统的一种结构,请参见图6,该系统包括第一采样模块100、第二采样模块200、标注模块300、训练模块400和分类模块500。
第一采样模块100,用于对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集,所述最不确定图像样本集中的每个图像样本对应一个表征其相对于预设的Z种图像类别的不确定性程度的第一参数,所述第一参数的参数值满足表征图像样本的不确定性较高的预设条件,其中,所述Z为大于1的自然数。
其中,第一采样模块100具体包括第一分析单元、第一计算单元和第一获取单元。
第一分析单元,用于分析所述原始的未标注图像样本集中的每个图像样本所属的最优图像类别和次优图像类别,并获取所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,所述最优图像类别和所述次优图像类别分别为所述Z种图像类别中的一种;
第一计算单元,用于基于所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,计算所述图像样本的BvSB值;
第一获取单元,用于获取所述BvSB值小于第一预设阈值的各图像样本,获取的所述各图像样本构成最不确定图像样本集。
第二采样模块200,用于对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集,所述最具代表性图像样本集中的每个图像样本对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征图像样本的代表性较高的预设条件;并将所述最具代表性图像样本集中的各图像样本作为待标注图像样本。
具体地,第二采样模块200包括第二分析单元和第二获取单元。
第二分析单元,用于分析所述最不确定图像样本集U中每个图像样本xi相对于剩余未标注图像样本集的代表性,并计算表征代表性程度的第二参数的参数值,所述剩余未标注图像样本集具体为所述最不确定图像样本集U中去掉所述图像样本xi之后的集合,其中,1≤i≤M,i为自然数,M为所述最不确定图像样本集U中所包含的图像样本的个数;
第二获取单元,用于获取所述第二参数的参数值大于第二预设阈值的各个图像样本,获取的所述各个图像样本构成最具代表性图像样本集。
标注模块300,用于对所述待标注图像样本进行类别标注,得到标注的图像样本。
训练模块400,用于利用所述标注的图像样本训练图像分类器。
分类模块500,用于利用所述图像分类器对目标图像进行分类。
相应于实施例二中主动学习图像分类方法的流程,本实施例三公开了主动学习图像分类系统的另一种结构,请参见图7,其除了包括以上的第一采样模块100、第二采样模块200、标注模块300、训练模块400和分类模块500之外,还包括第三采样模块600。
第三采样模块600,用于对所述最具代表性图像样本集进行分析、处理,得到最具信息含量图像样本,所述最具信息含量图像样本对应一个表征其信息含量的第三参数,所述第三参数的参数值满足表征图像样本的信息含量最高的预设条件;并将所述最具信息含量图像样本替换所述最具代表性图像样本集中的各图像样本作为待标注图像样本。
其中,该第三采样模块600具体包括处理单元、第三计算单元和第三获取单元。
处理单元,用于对于所述最具代表性图像样本集中的每个图像样本dk,利用所述图像样本dk更新图像分类器,得到新分类器,并使用所述新分类器对所述最具代表性图像样本集中除所述图像样本dk之外的其他各图像样本进行图像分类,其中,1≤k≤N,k为自然数,N为所述最具代表性图像样本集中包括的图像样本的个数;
第三计算单元,用于计算所述新分类器对所述其他各图像样本进行图像分类时的期望错误率,并将所述期望错误率与所述图像样本dk相对应;
第三获取单元,用于获取值最小的期望错误率,并依据所述值最小的期望错误率获取对应的图像样本,将所述对应的图像样本标记为最具信息含量图像样本。
对于本发明实施例三公开的主动学习图像分类系统而言,由于其与以上实施例一及实施例二公开的主动学习图像分类方法相对应,所以描述的比较简单,相关相似之处请参见实施例一及实施例二中主动学习图像分类方法部分的说明即可,此处不再详述。
综上所述,本发明通过从原始的未标注图像样本集中选出最不确定图像集,再从最不确定图像集中选出最具有代表性的图像集合,最后通过期望错误率缩减策略从最具有代表性的图像集合中选出最具有信息含量的图像,将其交由人工专家标注,并利用标注的最具信息含量的图像样本更新分类器,迭代上述过程,直至得到符合要求的图像分类器。进而可利用该图像分类器对目标图像进行分类。
可见,本发明在保证了图像样本具有较高的不确定和代表性的同时,克服了现有对原始的未标注样本集中所有样本同时衡量不确定性和代表性的弊端,降低了采样处理时间和工作量,提高了处理效率;同时,由于本发明使用期望错误率缩减策略对代表性图像样本集中的样本进行择优筛选,进一步缩减了采集的样本的规模,实现从中选择出对当前分类器最有利的最具信息含量的图像样本,从而,与现有方法相比,本发明还具有能够降低人工标注代价以及提高分类准确率的优势。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上装置、系统时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各模块或单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种主动学习图像分类方法,其特征在于,包括:
对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集,所述最不确定图像样本集中的每个图像样本对应一个表征其相对于预设的Z种图像类别的不确定性程度的第一参数,所述第一参数的参数值满足表征图像样本的不确定性较高的预设条件,其中,所述Z为大于1的自然数;
对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集,所述最具代表性图像样本集中的每个图像样本对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征图像样本的代表性较高的预设条件;
对所述最具代表性图像样本集进行分析、处理,得到最具信息含量图像样本,所述最具信息含量图像样本对应一个表征其信息含量的第三参数,所述第三参数的参数值满足表征图像样本的信息含量最高的预设条件;并将所述最具信息含量图像样本作为待标注图像样本;
对所述待标注图像样本进行类别标注,得到标注的图像样本;
利用所述标注的图像样本训练图像分类器;
利用所述图像分类器对目标图像进行分类。
2.根据权利要求1所述的主动学习图像分类方法,其特征在于,所述对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集具体包括:
分析所述原始的未标注图像样本集中的每个图像样本所属的最优图像类别和次优图像类别,并获取所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,所述最优图像类别和所述次优图像类别分别为所述Z种图像类别中的一种;
基于所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,计算所述图像样本的最优次优标号BvSB值;
获取所述BvSB值小于第一预设阈值的各图像样本,获取的所述各图像样本构成最不确定图像样本集。
3.根据权利要求2所述的主动学习图像分类方法,其特征在于,所述对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集具体包括:
分析最不确定图像样本集U中每个图像样本xi相对于剩余未标注图像样本集的代表性,并计算表征代表性程度的第二参数的参数值,所述剩余未标注图像样本集具体为最不确定图像样本集U中去掉所述图像样本xi之后的集合,其中,1≤i≤M,i为自然数,M为最不确定图像样本集U中所包含的图像样本的个数;
获取所述第二参数的参数值大于第二预设阈值的各个图像样本,获取的所述各个图像样本构成最具代表性图像样本集。
4.根据权利要求1-3任意一项所述的主动学习图像分类方法,其特征在于,所述对所述最具代表性图像样本集进行分析、处理,得到最具信息含量图像样本具体包括:
对于所述最具代表性图像样本集中的每个图像样本dk,利用所述图像样本dk更新图像分类器,得到新分类器,并使用所述新分类器对所述最具代表性图像样本集中除所述图像样本dk之外的其他各图像样本进行图像分类,其中,1≤k≤N,k为自然数,N为所述最具代表性图像样本集中包括的图像样本的个数;
计算所述新分类器对所述其他各图像样本进行图像分类时的期望错误率,并将所述期望错误率与所述图像样本dk相对应;
获取值最小的期望错误率,并依据所述值最小的期望错误率获取对应的图像样本,将所述对应的图像样本标记为最具信息含量图像样本。
5.一种主动学习图像分类系统,其特征在于,包括第一采样模块、第二采样模块、第三采样模块、标注模块、训练模块和分类模块,其中:
所述第一采样模块,用于对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集,所述最不确定图像样本集中的每个图像样本对应一个表征其相对于预设的Z种图像类别的不确定性程度的第一参数,所述第一参数的参数值满足表征图像样本的不确定性较高的预设条件,其中,所述Z为大于1的自然数;
所述第二采样模块,用于对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集,所述最具代表性图像样本集中的每个图像样本对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征图像样本的代表性较高的预设条件;
所述第三采样模块,用于对所述最具代表性图像样本集进行分析、处理,得到最具信息含量图像样本,所述最具信息含量图像样本对应一个表征其信息含量的第三参数,所述第三参数的参数值满足表征图像样本的信息含量最高的预设条件;并将所述最具信息含量图像样本作为待标注图像样本;
所述标注模块,用于对所述待标注图像样本进行类别标注,得到标注的图像样本;
所述训练模块,用于利用所述标注的图像样本训练图像分类器;
所述分类模块,用于利用所述图像分类器对目标图像进行分类。
6.根据权利要求5所述的主动学习图像分类系统,其特征在于,所述第一采样模块包括:
第一分析单元,用于分析所述原始的未标注图像样本集中的每个图像样本所属的最优图像类别和次优图像类别,并获取所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,所述最优图像类别和所述次优图像类别分别为所述Z种图像类别中的一种;
第一计算单元,用于基于所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,计算所述图像样本的最优次优标号BvSB值;
第一获取单元,用于获取所述BvSB值小于第一预设阈值的各图像样本,获取的所述各图像样本构成最不确定图像样本集。
7.根据权利要求6所述的主动学习图像分类系统,其特征在于,所述第二采样模块包括:
第二分析单元,用于分析最不确定图像样本集U中每个图像样本xi相对于剩余未标注图像样本集的代表性,并计算表征代表性程度的第二参数的参数值,所述剩余未标注图像样本集具体为最不确定图像样本集U中去掉所述图像样本xi之后的集合,其中,1≤i≤M,i为自然数,M为最不确定图像样本集U中所包含的图像样本的个数;
第二获取单元,用于获取所述第二参数的参数值大于第二预设阈值的各个图像样本,获取的所述各个图像样本构成最具代表性图像样本集。
8.根据权利要求5-7任意一项所述的主动学习图像分类系统,其特征在于,所述第三采样模块包括:
处理单元,用于对于所述最具代表性图像样本集中的每个图像样本dk,利用所述图像样本dk更新图像分类器,得到新分类器,并使用所述新分类器对所述最具代表性图像样本集中除所述图像样本dk之外的其他各图像样本进行图像分类,其中,1≤k≤N,k为自然数,N为所述最具代表性图像样本集中包括的图像样本的个数;
第三计算单元,用于计算所述新分类器对所述其他各图像样本进行图像分类时的期望错误率,并将所述期望错误率与所述图像样本dk相对应;
第三获取单元,用于获取值最小的期望错误率,并依据所述值最小的期望错误率获取对应的图像样本,将所述对应的图像样本标记为最具信息含量图像样本。
CN201310688907.7A 2013-12-16 2013-12-16 一种主动学习图像分类方法和系统 Active CN103617435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310688907.7A CN103617435B (zh) 2013-12-16 2013-12-16 一种主动学习图像分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310688907.7A CN103617435B (zh) 2013-12-16 2013-12-16 一种主动学习图像分类方法和系统

Publications (2)

Publication Number Publication Date
CN103617435A CN103617435A (zh) 2014-03-05
CN103617435B true CN103617435B (zh) 2017-01-25

Family

ID=50168138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310688907.7A Active CN103617435B (zh) 2013-12-16 2013-12-16 一种主动学习图像分类方法和系统

Country Status (1)

Country Link
CN (1) CN103617435B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184326A (zh) * 2015-09-30 2015-12-23 广东工业大学 基于图数据的主动学习多标签社交网络数据分析方法
CN105447523A (zh) * 2015-11-26 2016-03-30 国网北京市电力公司 图片源相机型号的检测方法和装置
CN105701509B (zh) * 2016-01-13 2019-03-12 清华大学 一种基于跨类别迁移主动学习的图像分类方法
CN107832780B (zh) * 2017-10-17 2020-04-10 北京木业邦科技有限公司 基于人工智能木板分选低置信度样本处理方法及系统
CN109645993A (zh) * 2018-11-13 2019-04-19 天津大学 一种提高跨个体脑-机接口识别性能的主动学习法
EP3660741B1 (en) * 2018-11-29 2022-05-04 Koninklijke Philips N.V. Feature identification in medical imaging
CN109727635A (zh) * 2018-12-06 2019-05-07 桂林电子科技大学 一种不确定图代表实例的抽取方法
CN109871807B (zh) * 2019-02-21 2023-02-10 百度在线网络技术(北京)有限公司 人脸图像处理方法和装置
TWI772627B (zh) 2019-03-19 2022-08-01 財團法人工業技術研究院 人物重識別方法、人物重識別系統及影像篩選方法
CN111414942B (zh) * 2020-03-06 2022-05-03 重庆邮电大学 一种基于主动学习和卷积神经网络的遥感图像分类方法
CN112488162A (zh) * 2020-11-17 2021-03-12 中南民族大学 一种基于主动学习的垃圾分类方法
CN112508893B (zh) * 2020-11-27 2024-04-26 中国铁路南宁局集团有限公司 基于机器视觉的铁路双轨间微小异物检测方法及系统
CN112614570B (zh) * 2020-12-16 2022-11-25 上海壁仞智能科技有限公司 样本集标注、病理图像分类、分类模型构建方法及装置
CN112784818B (zh) * 2021-03-03 2023-03-14 电子科技大学 基于分组式主动学习在光学遥感图像上的识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102176701A (zh) * 2011-02-18 2011-09-07 哈尔滨工业大学 一种基于主动学习的网络数据异常检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102176701A (zh) * 2011-02-18 2011-09-07 哈尔滨工业大学 一种基于主动学习的网络数据异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Integrating Multiple Information of Active Learning for Image Classification;Haihui Xu 等,;《Granular Computing(GrC)》;20131215;全文 *
基于主动学习和半监督学习的多类图像分类;陈荣 等,;《自动化学报》;20110813;第37卷(第8期);参见第1.2-1.2节、第2.1-2.2节、第3节及图4 *

Also Published As

Publication number Publication date
CN103617435A (zh) 2014-03-05

Similar Documents

Publication Publication Date Title
CN103617435B (zh) 一种主动学习图像分类方法和系统
Stehman et al. Key issues in rigorous accuracy assessment of land cover products
US11205129B2 (en) GBDT model feature interpretation method and apparatus
CN108520357B (zh) 一种线损异常原因的判别方法、装置及服务器
Saerens et al. Adjusting the outputs of a classifier to new a priori probabilities: a simple procedure
CN107766418A (zh) 一种基于融合模型的信用评估方法、电子设备和存储介质
CN107067025A (zh) 一种基于主动学习的数据自动标注方法
CN111178675A (zh) 基于LR-Bagging算法的电费回收风险预测方法、系统、存储介质及计算机设备
CN103617429A (zh) 一种主动学习分类方法和系统
CN110084165A (zh) 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法
CN110517130A (zh) 一种智能记账方法及其系统
CN108345904A (zh) 一种基于随机敏感度采样的不平衡数据的集成学习算法
CN103714261A (zh) 二阶段混合模型的智能辅助医疗决策支持方法
CN108460521A (zh) 审计对象的推荐方法和系统
CN116644184B (zh) 基于数据聚类的人力资源信息管理系统
CN107545038A (zh) 一种文本分类方法与设备
CN108052625A (zh) 一种实体精细分类方法
CN107798615A (zh) 保单续期收费难度预测方法和装置
CN107145778A (zh) 一种入侵检测方法及装置
CN108710672A (zh) 一种基于增量贝叶斯算法的主题爬虫方法
CN107230350A (zh) 一种基于卡口与手机流量话单数据的城市交通量获取方法
CN106202388A (zh) 一种用户等级自动划分方法及系统
CN108459997A (zh) 基于深度学习和神经网络的高偏态数据价值概率预测方法
CN109166012A (zh) 针对行程预定类用户的分类及信息推送的方法和装置
CN104732246B (zh) 一种半监督协同训练高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant