CN105956631A - 一种面向电子图库的在线渐进式图像分类方法 - Google Patents
一种面向电子图库的在线渐进式图像分类方法 Download PDFInfo
- Publication number
- CN105956631A CN105956631A CN201610332789.XA CN201610332789A CN105956631A CN 105956631 A CN105956631 A CN 105956631A CN 201610332789 A CN201610332789 A CN 201610332789A CN 105956631 A CN105956631 A CN 105956631A
- Authority
- CN
- China
- Prior art keywords
- image
- classification
- grader
- loaded
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000000750 progressive effect Effects 0.000 title claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 23
- 238000009825 accumulation Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 18
- 238000003064 k means clustering Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向电子图库的在线渐进式图像分类方法,包括以下步骤:提取输入图像的特征描述子,并将图像保存到缓冲池;从缓冲池中载入图像,自动对输入图像进行分类;由用户对错误的结果进行修正,基于用户交互内容,在线训练或更新分类器。对输入图像,先在整张图像上计算其视觉特征;然后提取输入图像的局部子图像,在子图像上提取对象语义,构造输入图像的语义特征;最后构造图像特征描述子。从缓冲池中载入图像后,先对图像进行自动分类,若分类器已初始化,则使用分类器进行分类,否则使用K均值聚类算法进行分类。由用户对分类结果进行确认及修改,最后利用用户确认后的已分类图像来构造累积样本,对分类器进行在线训练或更新。
Description
技术领域
本发明涉及一种数字图像的分类方法,属于图像分类技术领域,具体地说是一种面向电子图库的在线渐进式图像分类方法。
背景技术
随着数码相机、智能手机等便携式照相设备的普及,人们可以随时随地的对事物或场景进行拍照,使得每个人拥有的数字相片的数量急剧增长。随着个人电子图库规模的不断增涨,人们愈发强烈的需要一个高效的图像分类管理系统。如何帮助人们对这些不断增多的图像进行有效的分类管理,以便快速地、准确地找到所需的图像,已成为一个重要的问题。
关于图像分类,当前比较流行的一种做法是使用机器学习算法,利用一批已预先分类标注的图像作为训练数据,离线有监督地训练分类器后,对新输入的图像进行自动分类。这些方法更侧重于建立对图像的特征描述,已有大量的学者对此问题展开了研究。例如,中国专利“图像分类方法及图像分类装置”,专利号:ZL200910135930.7;中国专利“基于视觉词典的图像分类方法”,专利号:ZL201110175101.9;中国专利“一种图像分类方法”,公开号:CN201510168725.6。然而,这些研究只关注于在预定义的分类标准下,如何建立更有效的图像特征表示,以提高对自动图像分类的准确度,并没有考虑实际分类过程中用户的其他常见需求。实际上,由于不同用户的图像集的内容和主题千差万别,不同用户分类图像的关注点和分类标准也会有所差异。例如,有的人的图库以风景为主,他可能想要按拍摄地点对风景进行分类;而有的人的图库以物体为主,他可能会偏向于按物体的种类对图像进行分类。很明显,使用这些在预定义分类标准下离线学习的方法,难以直接解决该问题。
考虑到图像分类中的不同用户之间各异的分类需求与偏好,有学者关注于交互式分类方法:在分类图像的过程中加入用户交互,以指导分类标准的确立;同时辅以主动学习等策略,加速分类器的收敛,以降低用户交互负担。例如,文献1:Ye Z,Liu P,Tang X,etal.May the torcher light our way:A negative-accelerated active learningframe-work for image classification[C]//Image Processing(ICIP),2015IEEEInternational Con-ference on.IEEE,2015:1658-1662.提出了一种包含主动采样策略的交互式图像分类方法,引入了样本选择度量,将采样和分类过程整合为一个整体,在提高分类性能的同时,降低了用户交互负担。文献2:Lu Z,Ip H H S.Combining context,consistency,and diversity cues for interactive image categorization[J].Multimedia,IEEE Transactions on,2010,12(3):194-203.提出了一个结合了半监督学习和主动学习的交互式图像分类框架,使用户能够高效地分类已有图像集。尽管这些方法很好的解决了不同用户分类关注点和分类标准不同的问题,但他们只是对一个成分相对固定的,内容不会有太大变化的图像集的分类,对固定的某一个用户,其分类标准在初始确定后也不会改变。然而,实际用户的图像集是逐渐增大的,并且新增的图像与原有图像差异可能很大;随着新图像的加入,用户想要划分的分类体系也可能是逐渐变化的。例如,用户可能会想要将新的图像分到一个新的类别中。即在实际的应用中,待分类图像集会动态增加,分类标准会动态变化。
简而言之,现有技术主要存在三个缺陷:第一,离线学习方法只有一个不可更改的预定义的分类标准,难以满足不同用户的分类需求与偏好;第二,仅关注于对已有图像集按某一个固定不变的标准进行的分类,难以处理动态增加的图像集;第三,没有考虑对分类器的更新,难以处理动态变化的分类标准。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种图像分类方法,用于缓和、减轻或消除上述缺点。
为了解决上述技术问题,本发明公开了一种面向电子图库的在线渐进式图像分类方法,包括以下步骤:
步骤1,图像预处理:向计算机中输入图像,对每一张输入图像,提取图像的全局和局部特征,构造图像特征描述子。随后将所有输入的图像保存到缓冲池,以便载入分类;
步骤2,载入及自动分类:从缓冲池中载入图像,利用分类器对图像进行自动分类。
其中,步骤1中包括以下步骤:
步骤1-1,向计算机中输入图像,对每一张输入图像X,提取其全局视觉特征向量g(X),用于描述图像的全局颜色、纹理、形状等视觉属性;
步骤1-2,生成局部子图像:利用对象区域推荐算法,计算得到每一张输入图像X的J个局部子图像x1,...,xJ,xJ表示第J个局部子图像;
步骤1-3,提取局部语义特征:对每一张输入图像X的每个局部子图像xj,1≤j≤J,使用基于简单物体分类的算法,提取其语义特征向量h(xj)=[h1,j,...,hd,j],其中,d为语义特征向量维度。然后基于所有局部子图像的语义特征向量,通过最大池化(max pooling)运算,构造每一张输入图像X的局部语义特征向量s(X),描述图像X的语义属性;
步骤1-4,构造图像特征描述子并缓存:利用步骤1-1中得到的全局视觉特征向量g(X)与步骤1-3中得到的局部语义特征向量s(X),构造输入图像X的特征描述子f(X)。将输入图像X连同其特征描述子f(X)作为一个整体,保存到缓冲池,以备后续对其载入分类。
步骤1-3中所提取的局部子图像的语义特征为基于简单物体分类器的特征。
步骤1-3中每一张输入图像X的局部语义特征向量s(X)为利用最大池化方法计算得到,计算公式如下:
s(X)=[max(h1,1,...,h1,J),...,max(hd,1,...,hd,J)],
其中,d为语义特征向量维度,hi,j表示第j个子图像xj的语义特征向量的第i维,1≤i≤d。
步骤1-4中所述的特征描述子f(X)的构造方法为串联全局视觉特征向量g(X)和局部语义特征向量s(X),即:
f(X)=[g(X),s(X)]。
步骤2中的分类器为在线SVM分类器。
步骤2中包括以下步骤:
步骤2-1,从缓冲池中随机选择M张图像X1,...,XM并载入,作为此轮分类过程中的待分类图像。M为载入图像的数量,一般取M=20。
步骤2-2,自动分类。对载入的图像进行初始的自动分类,得到每张图像的分类置信度。若分类器已初始化,则利用分类器进行自动分类,即将图像依次输入分类器,分类器输出图像分到每个类别的置信度{Co(Xm,n)|1≤m≤M,1≤n≤N},其中,Xm表示第m张载入图像,N表示当前已存在类别的总数,Co(Xm,n)表示将图像Xm分到第n类的置信度;若分类器尚未初始化,则使用K均值聚类算法,将载入的图像聚为K类,得到K个聚类中心{Ck|k∈[1,K]},Ck表示第k个聚类中心,根据聚类中心计算载入的每张图像分到每个类别的置信度,K为初始类别数,可由用户设定;
步骤2-3,利用步骤2-2中得到的分类置信度,计算载入的每张图像分类到各个类别的概率,并取概率最大的类别作为该图像的初始分类类别。
步骤2-2中若分类器尚未初始化,使用K均值聚类算法后,根据如下公式计算每张载入的图像分到各个类别中的置信度Co(Xm,k):
Co(Xm,k)=exp(-dis(f(Xm),Ck)),
其中,f(Xm)表示图像Xm的特征描述子,Ck表示第k个聚类中心,Co(Xm,k)表示图像Xm分为第k个类别的置信度,1≤m≤M,1≤k≤K,dis(f(Xm),Ck)函数表示返回图像Xm的特征描述子f(Xm)和第k个聚类中心Ck之间的欧氏距离,exp是以自然常数e为底的指数函数。
步骤2-3中,通过如下公式计算载入的每张图像分类到各个类别的概率:
其中,P(Xm,t)表示图像Xm分到第t类的概率,1≤t≤N,Co(Xm,t)、Co(Xm,n)分别表示图像Xm分为第t个类别的置信度和第n个类别的置信度。
本发明还包括步骤3,由用户对自动分类结果进行修正或确认,基于用户交互内容,在线训练或更新分类器,具体包括如下步骤:
步骤3-1,用户对不符合其要求的分类结果进行修正。初始分类结果记作其中,表示图像Xm的初始预测类别。对分类正确的图像,不进行任何操作;对分类错误的图像,将其类别修改为正确的;对分类错误但暂时无法确定其准确类别的图像,删除其类别,即令其类别保持其未分类状态。交互后的图像分类结果记作L={l1,l2,...,lM},其中,lm表示图像Xm正确的类别,其中N'≥0为交互过程中增加的新类别个数;
步骤3-2,交互结果处理。根据步骤3-1中得到的交互后的图像分类结果L,取出步骤2从缓冲池中载入的全部图像,并分为已分类图像和未分类图像分别进行对应的处理。将未分类图像转存到缓冲池,待下一轮分类过程中与其他未分类图像一同载入;将已分类图像存储到用户的已分类图库中;
步骤3-3,累积样本集构造。利用步骤3-2中的已分类图像L1构造累积样本集。首先,选中所有初始类别与最终类别不相同的图像,加入累积样本集;然后,对初始类别与最终类别相同的图像,若其在步骤2-3中计算出的最大概率小于阈值σ,则选中该图像,加入累积样本集,σ一般可取max(0.5,2/N);最后,将初始类别与最终类别不相同的图像复制一份,再次加入累积样本集。即所构造的累积样本集为
步骤3-4,将步骤3-3中构造的累积样本集作为训练样本,在线训练或更新分类器。
有益效果:本发明具有以下优点:首先,本发明可以边使用边训练,渐进地对分类器进行累积训练和更新,并且随着图像分类过程的进行,本发明可以得到越来越准确的初始分类结果。其次,本发明可以得到满足不同用户需求的多样化的分类结果,图像分类类别体系完全由用户自主确定,并且用户可以自由的增加新的类别。最后,本发明可以减少用户在对图像集进行分类过程中所需要的交互次数,降低用户交互负担。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的处理流程示意图。
图2a是对输入图像提取其全局视觉特征示意图。
图2b为提取的四个局部子图像示意图。
图2c为图像的局部语义特征描述示意图。
图2d是图像特征描述子示意图。
具体实施方式:
如图1所示,本发明公开的是一种面向电子图库的在线渐进式图像分类方法,具体包括以下步骤:
步骤一,预处理:向计算机中输入图像,对每一张输入图像,提取图像的全局和局部特征,构造图像特征描述子。随后将所有输入的图像保存到缓冲池,以便载入分类;
步骤二,载入及自动分类:从缓冲池中载入图像,利用分类器对载入图像进行自动分类。
下面具体介绍各个步骤的主要流程:
1.预处理
输入一批图像后,首先进行预处理过程,提取每一张输入图像的特征描述子,以分类器能处理的向量形式来表示每张图像。本申请所提取的图像描述包括全局视觉特征和局部语义特征。全局视觉特征直接在输入图像上进行提取;局部语义特征需先得到图像的局部子图像,再在局部子图像上进行提取;最后基于全局视觉特征和局部语义特征构造图像特征描述子,并将提取特征描述子后的图像存入缓冲池。预处理过程可在用户采集到图像后离线地自动执行。具体过程如下:
步骤1-1,提取全局视觉特征。对每一张输入图像X,提取其全局视觉特征向量g(X),用于描述图像的全局颜色、纹理、形状等视觉属性。所提取的全局视觉特征为文献3:Bergamo A.,Torresani L.,Fitzgibbon A.W.,Picodes:Learning a compact code fornovel-category recognition,Advances in Neural Information Processing Systems,2011:2088-2096.中所述的PiCoDes特征,特征向量维度为2048。
步骤1-2,生成局部子图像。利用对象区域推荐算法,得到输入图像X的J个局部子图像x1,...,xJ,xJ表示第J个局部子图像。局部子图像为原图像的一部分,每个局部子图像中只包含原图多个物体中的一个。所使用的对象区域推荐算法为文献4:Cheng M.M.,ZhangZ.,Lin W.Y.,et al.BING:Binarized normed gradients for objectness estima-tionat 300fps,Proceedings of the IEEE Conference on Computer Vision and PatternRecog-nition.2014:3286-3293.中所述的BING算法,对输入图像X,使用该算法生成一定量的推荐区域,取前J=15个区域,划分出来作为X的子图像。
步骤1-3,提取局部语义特征。对图像X的每个局部子图像xj,1≤j≤J,使用基于简单物体分类的算法,提取其语义特征向量h(xj)=[h1,j,...,hd,j],其中,d为语义特征向量维度。所使用的语义特征提取方法为文献5:Torresani L,Szummer M,FitzgibbonA.Efficient object category recognition using Classemes,Computer Vision–ECCV2010.Springer Berlin Heidelberg,2010:776-789.中所述的Classemes特征,特征向量维度d=2659。然后基于所有局部子图像的语义特征向量,使用最大池化(max pooling)运算,得到图像X的局部语义特征向量s(X),描述图像X的语义属性,即s(X)=[max(h1,1,...,h1,J),...,max(hd,1,...,hd,J)],其中,hi,j表示第j个子图像xj的语义特征向量的第i维,1≤i≤d;
步骤1-4,构造图像特征描述子并缓存。将步骤1-1中得到的全局视觉特征向量g(X)与步骤1-3中得到的局部语义特征向量s(X)串联起来,得到输入图像X的特征描述子为f(X)=[g(X),s(X)],f(X)向量的维度为2048+2659=4707。将输入图像X连同其特征描述子f(X)作为一个整体,存入缓冲池,以备后续对其载入分类。
2.载入及自动分类
缓冲池中保存有已提取特征描述子的未分类图像。从缓冲池中选择未分类图像并载入,并利用分类器对载入的图像进行自动分类。包括以下步骤:
步骤2-1,从缓冲池中随机选择M张图像X1,...,XM并载入,作为此轮分类过程中的待分类图像。M为载入图像的数量,M过大将加重用户在每一轮分类过程中的记忆及交互负担,M过小会导致分类效率低下。一般情况下取M=20。
步骤2-2,自动分类。对载入的图像进行初始的自动分类,得到每张图像的分类置信度。若分类器已初始化,则利用分类器进行自动分类,即将图像依次输入分类器,分类器输出图像分到每个类别的置信度{Co(Xm,n)|1≤m≤M,1≤n≤N},其中,Xm表示第m张载入图像,N表示当前已存在类别的总数,Co(Xm,n)表示将图像Xm分到第n类的置信度。
若分类器尚未初始化,则使用K均值聚类算法,将全部载入图像聚为K类,得到K个聚类中心{Ck|k∈[1,K]},K为初始类别数,可由用户设定。根据聚类中心计算每张图像分到每个类别的置信度,计算公式如下:
Co(Xm,k)=exp(-dis(f(Xm),Ck)),
其中,f(Xm)表示图像Xm的特征描述子,Ck表示第k个聚类中心,Co(Xm,k)表示图像Xm分为第k个类别的置信度,1≤m≤M,1≤k≤K,dis(f(Xm),Ck)函数表示返回图像Xm的特征描述子f(Xm)和第k个聚类中心Ck之间的欧氏距离,exp是以自然常数e为底的指数函数。
步骤2-3,利用步骤2-2中得到的分类置信度,计算每张图像分类到各个类别的概率,并取概率最大的类别作为该图像的初始分类类别。
基于分类置信度,各图像分类到各个类别的概率的计算公式如下:
其中,P(Xm,t)表示图像Xm分到第t类的概率,1≤t≤N,Co(Xm,t)、Co(Xm,n)分别表示图像Xm分为第t个类别的置信度和第n个类别的置信度。
本发明还包括步骤3,用户通过交互接口对自动分类结果进行修正或确认,用户修正确认后的结果为这批图像的分类结果。并且利用已分类的图像对分类器进行在线训练或更新。具体包括如下步骤:
步骤3-1,用户对不符合其要求的分类结果进行修正。全部载入图像的初始分类结果记作其中,表示图像Xm的初始预测类别。对分类正确的图像,不进行任何操作;对分类错误的图像,将其类别修改为正确的;对分类错误但暂时无法确定其准确类别的图像,删除其类别,即令其类别保持其未分类状态。交互后的图像分类结果记作L={l1,l2,...,lM},其中,lm表示交互修改后Xm正确的类别,其中N'≥0为交互过程中增加的新类别个数。
步骤3-2,交互结果处理。根据步骤3-1中得到的交互后的图像分类结果L,取出步骤2从缓冲池中载入的全部图像,并分为已分类图像和未分类图像分别进行对应的处理。将未分类图像转存到缓冲池,待下一轮分类过程中与其他未分类图像一同载入;将已分类图像存储到用户的已分类图库中。
步骤3-3,累积样本集构造。利用步骤3-2中的已分类图像L1构造累积样本集,用于训练或更新分类器。首先,选中当前分类器无法正确分类的所有图像,即初始类别与最终类别不相同的图像,加入累积样本集;然后,选中当前分类器分类置信度不高的图像,即对初始类别与最终类别相同的图像,若其在步骤23中计算出的最大概率小于阈值σ,则选中该图像,加入累积样本集,σ一般可取max(0.5,2/N);最后,为了加强用户交互修正对分类器的影响,选中经用户调整过类别的图像,即初始类别与最终类别不同的图像,再次加入累积样本集。即所构造的累积样本集为
步骤3-4,分类器的在线训练或更新。将步骤3-4中构造的累积样本集作为训练样本,在线训练或更新分类器。若分类器未初始化,则在线训练得到初始的分类器;若分类器已初始化,则对其进行在线更新。
实施例
本实施例中,整个界面分为三个区域:载入区、类别区、缓冲区。类别区中显示所有的已存在的图像类别,每个已存在类别用一个矩形盒子表示,盒子中显示有属于该类的图像实例,每个盒子有不同的颜色,指示不同的类别。载入区主要在对输入图像执行步骤2-3的初始分类后,将图像按类别分组显示出来,每个图像组有不同的背景色,指示其中图像的初始类别,并且该颜色与类别区中各类别盒子的颜色相对应。缓冲区用于暂存此轮分类中用户暂时无法确定准确类别的图像,其中的图像会转存到缓冲池中,待下一轮分类过程中与其他未分类图像一同载入。本实施例中使用文献6:Bordes A,Bottou L,Gallinari P,etal.Solving multiclass support vector machines with LaRank,Proceedings of the24th international conference on Machine learning.ACM,2007:89-96.中的LaRank算法作为在线SVM分类器。由于本发明的特殊性,本实施例中的附图,需要使用灰度效果显示。
具体实施过程如下:
步骤1中,对输入图像进行预处理,提取输入图像的特征描述子。这里以对一张输入图像的处理过程为例来说明整个预处理过程。如图2a,对一张输入图像,首先提取其全局视觉特征,得到一个2048维的特征向量,其每一维描述的是图像所具有的一种视觉属性;然后提取该图像的对象区域,将得到的区域划分出来作为单独的局部子图像,为了便于说明问题,这里仅提取了四个对象区域作为局部子图像,如图2b为提取出的四个局部子图像;接着对图2b中的每个局部子图像分别提取基于简单物体分类器的语义特征,得到四个2659维的特征向量,使用最大池化运算,得到一个2659维特征向量,作为图像的局部语义特征描述,如图2c所示。最后,如图2d,将所得的2048维全局视觉特征向量和2659维语义特征向量串联起来,得到4707维的图像特征描述子。
步骤2中,利用分类器对输入图像进行自动分类,并由用户对自动分类结果进行修正或确认,基于用户交互内容,在线训练或更新分类器。首先,系统对所有输入图像进行自动分类。若分类器已初始化,则由分类器对所有的图像进行自动分类,得到每张图像分到每个类别的置信度;若分类器尚未初始化,则使用K均值聚类算法,得到K个聚类中心,计算每张图像分到每个类别的置信度,K由用户根据输入图像的实际类别数进行指定。根据分类置信度,计算每张图像分类到各个类别的概率,并取概率最大的类别作为该图像的初始分类类别。
步骤3中,由用户判断初始分类结果是否正确,并对错误的分类结果做出调整。对分类错误的图像,用户将其拖拽到类别区中的某一个类别盒子中,表示将其修改为对应的类别;拖拽到类别区中的空白处表示新建一个类别,系统将新建一个类别盒子,并将该图像修改为该新类别;拖拽到缓冲区表示删除其类别标签,保持该图像的未分类状态。交互操作结束后,除了缓冲区之外的图像均分类正确,系统将正确分类的图像存入对应的类别盒子中,并利用正确分类的图像构造累积样本集,用于在线的训练或更新分类器。缓冲区中的未分类图像将转存到缓冲池中,待下一轮分类过程中与其他未分类图像一同载入。
步骤2和步骤3可以在缓冲池中有足够图像的情况下,由用户主动决定是否开始执行。
本发明提供了一种面向电子图库的在线渐进式图像分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种面向电子图库的在线渐进式图像分类方法,其特征在于,包括以下步骤:
步骤1,图像预处理:向计算机中输入图像,对每一张输入图像,提取该图像的全局视觉特征和局部语义特征,构造图像特征描述子,将所有输入的图像保存到缓冲池;
步骤2,载入及自动分类:从缓冲池中载入图像,利用分类器对图像进行自动分类。
2.根据权利要求1所述的方法,其特征在于,步骤1包括以下步骤:
步骤1-1,向计算机中输入图像,对每一张输入图像X,提取其全局视觉特征向量g(X);
步骤1-2,生成局部子图像:利用对象区域推荐算法,计算得到每一张输入图像X的J个局部子图像x1,...,xJ,xJ表示第J个局部子图像;
步骤1-3,提取局部语义特征:对每一张输入图像X的每个局部子图像xj,1≤j≤J,提取其语义特征向量,基于所有局部子图像的语义特征向量,构造每一张输入图像X的局部语义特征向量s(X),描述图像X的语义属性;
步骤1-4,构造图像特征描述子并缓存:利用步骤1-1中得到的全局视觉特征向量g(X)与步骤1-3中得到的局部语义特征向量s(X),构造输入图像X的特征描述子f(X),将输入图像X连同其特征描述子f(X)作为一个整体,保存到缓冲池。
3.根据权利要求2所述的方法,其特征在于,步骤1-3中所提取的局部子图像的语义特征为基于简单物体分类器的特征。
4.根据权利要求3所述的方法,其特征在于,步骤1-3中每一张输入图像X的局部语义特征向量s(X)为使用最大池化方法计算得到,计算公式如下:
s(X)=[max(h1,1,...,h1,J),...,max(hd,1,...,hd,J)],
其中,d为语义特征向量维度,hi,j表示第j个子图像xj的语义特征向量的第i维,1≤i≤d。
5.根据权利要求4所述的方法,其特征在于,步骤1-4中所述的图像X的特征描述子f(X)的构造方法为串联其全局视觉特征向量g(X)和局部语义特征向量s(X),即:
f(X)=[g(X),s(X)]。
6.根据权利要求5所述的方法,其特征在于,步骤2中的分类器为在线SVM分类器。
7.根据权利要求6所述的方法,其特征在于,步骤2包括以下步骤:
步骤2-1,从缓冲池中随机选择M张图像X1,...,XM并载入,作为此轮分类过程中的待分类图像;
步骤2-2,对载入的图像进行初始的自动分类,得到每张图像分到每个类别的置信度,若分类器已初始化,则利用分类器进行自动分类,即将图像依次输入分类器,由分类器输出每张图像分到每个类别的置信度;若分类器尚未初始化,则使用K均值聚类算法,将载入的图像聚为K类,得到K个聚类中心{Ck|k∈[1,K]},Ck表示第k个聚类中心,根据聚类中心计算载入的每张图像分到每个类别的置信度,K为初始类别数;
步骤2-3,利用步骤2-2中得到的分类置信度,计算载入的每张图像分类到各个类别的概率,并取概率最大的类别作为该图像的初始分类类别。
8.根据权利要求7所述的方法,其特征在于,步骤2-2中若分类器尚未初始化,使用K均值聚类算法后,根据如下公式计算每张载入的图像分到各个类别中的置信度Co(Xm,k):
Co(Xm,k)=exp(-dis(f(Xm),Ck)),
其中,f(Xm)表示图像Xm的特征描述子,Ck表示第k个聚类中心,Co(Xm,k)表示图像Xm分为第k个类别的置信度,1≤m≤M,1≤k≤K,dis(f(Xm),Ck)函数表示返回图像Xm的特征描述子f(Xm)和第k个聚类中心Ck之间的欧氏距离,exp是以自然常数e为底的指数函数。
9.根据权利要求8所述的方法,其特征在于,步骤2-3中,通过如下公式计算载入的每张图像分类到各个类别的概率:
其中,P(Xm,t)表示图像Xm分到第t类的概率,1≤t≤N,Co(Xm,t)、Co(Xm,n)分别表示图像Xm分为第t个类别的置信度和第n个类别的置信度。
10.根据权利要求9所述的方法,其特征在于,包括步骤3,由用户对自动分类结果进行修正或确认,基于用户交互内容,在线训练或更新分类器,具体包括如下步骤:
步骤3-1,用户对不符合其要求的分类结果进行修正;对分类正确的图像,不进行任何操作;对分类错误的图像,将其修改到正确的类别中;对分类错误但暂时无法确定其准确类别的图像,去掉其类别标签,保持其未分类状态;
步骤3-2,根据步骤3-1中得到的交互后的图像分类结果,取出步骤2从缓冲池中载入的全部图像,并分为已分类图像和未分类图像,将未分类图像转存到缓冲池,待下一轮分类过程中与其他未分类图像一同载入;将已分类图像存储到用户的已分类图库中;
步骤3-3,利用步骤3-2中的已分类图像构造累积样本集:选中所有初始类别与最终类别不相同的图像,加入累积样本集,对初始类别与最终类别相同的图像,若其在步骤2-3中计算出的最大概率小于阈值σ,则选中该图像,加入累积样本集,将初始类别与最终类别不相同的图像复制一份,再次加入累积样本集;
步骤3-4,将步骤3-3中构造的累积样本集作为训练样本,在线训练或更新分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610332789.XA CN105956631A (zh) | 2016-05-19 | 2016-05-19 | 一种面向电子图库的在线渐进式图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610332789.XA CN105956631A (zh) | 2016-05-19 | 2016-05-19 | 一种面向电子图库的在线渐进式图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105956631A true CN105956631A (zh) | 2016-09-21 |
Family
ID=56911973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610332789.XA Pending CN105956631A (zh) | 2016-05-19 | 2016-05-19 | 一种面向电子图库的在线渐进式图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105956631A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451189A (zh) * | 2017-06-20 | 2017-12-08 | 中山大学 | 一种基于哈希编码的无监督图像检索方法 |
CN108304847A (zh) * | 2017-11-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 图像分类方法及装置、个性化推荐方法及装置 |
CN108537244A (zh) * | 2017-12-04 | 2018-09-14 | 中南大学 | 一种面向实时系统的渐进式深度学习方法 |
CN109934194A (zh) * | 2019-03-20 | 2019-06-25 | 深圳市网心科技有限公司 | 图片分类方法、边缘设备、系统及存储介质 |
CN110472656A (zh) * | 2019-07-03 | 2019-11-19 | 平安科技(深圳)有限公司 | 车辆图像分类方法、装置、计算机设备及存储介质 |
CN112560992A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 优化图片分类模型的方法、装置、电子设备及存储介质 |
CN112868032A (zh) * | 2018-10-15 | 2021-05-28 | 华为技术有限公司 | 提升ai识别学习能力 |
CN113837286A (zh) * | 2021-09-26 | 2021-12-24 | 展讯通信(天津)有限公司 | 一种图像分类方法及相关设备 |
US11366815B2 (en) | 2018-01-31 | 2022-06-21 | Interdigital Ce Patent Holdings | Method and selection of a recommendation algorithm and corresponding apparatus |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258214A (zh) * | 2013-04-26 | 2013-08-21 | 南京信息工程大学 | 基于图像块主动学习的遥感图像分类方法 |
CN103778146A (zh) * | 2012-10-23 | 2014-05-07 | 富士通株式会社 | 图像聚类装置以及方法 |
CN104142922A (zh) * | 2013-05-06 | 2014-11-12 | 苏州普达新信息技术有限公司 | 一种移动图像在线搜索与挖掘的分类方法 |
-
2016
- 2016-05-19 CN CN201610332789.XA patent/CN105956631A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778146A (zh) * | 2012-10-23 | 2014-05-07 | 富士通株式会社 | 图像聚类装置以及方法 |
CN103258214A (zh) * | 2013-04-26 | 2013-08-21 | 南京信息工程大学 | 基于图像块主动学习的遥感图像分类方法 |
CN104142922A (zh) * | 2013-05-06 | 2014-11-12 | 苏州普达新信息技术有限公司 | 一种移动图像在线搜索与挖掘的分类方法 |
Non-Patent Citations (6)
Title |
---|
KONDA REDDY MOPURI 等: "Object Level Deep Feature Pooling for Compact Image Representation", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW)》 * |
查宇飞 等: "《视频目标跟踪方法》", 31 July 2015 * |
王冲 等: "《现代信息检索技术基本原理教程》", 30 November 2013, 西安电子科技大学出版社 * |
谭琨: "《高光谱遥感影像半监督分类研究》", 31 January 2014, 中国矿业大学出版社 * |
贾宇: "基于语义的图像分类和检索研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黄惠芬 等: "《数字图像司法取证技术》", 30 April 2015, 山东大学出版社 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451189A (zh) * | 2017-06-20 | 2017-12-08 | 中山大学 | 一种基于哈希编码的无监督图像检索方法 |
CN108304847A (zh) * | 2017-11-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 图像分类方法及装置、个性化推荐方法及装置 |
WO2019105106A1 (zh) * | 2017-11-30 | 2019-06-06 | 腾讯科技(深圳)有限公司 | 图像分类方法及个性化推荐方法、计算机设备及存储介质 |
US11238315B2 (en) | 2017-11-30 | 2022-02-01 | Tencent Technology (Shenzhen) Company Limited | Image classification method, personalized recommendation method, computer device and storage medium |
CN108304847B (zh) * | 2017-11-30 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 图像分类方法及装置、个性化推荐方法及装置 |
CN108537244A (zh) * | 2017-12-04 | 2018-09-14 | 中南大学 | 一种面向实时系统的渐进式深度学习方法 |
US11366815B2 (en) | 2018-01-31 | 2022-06-21 | Interdigital Ce Patent Holdings | Method and selection of a recommendation algorithm and corresponding apparatus |
CN112868032A (zh) * | 2018-10-15 | 2021-05-28 | 华为技术有限公司 | 提升ai识别学习能力 |
US11983917B2 (en) | 2018-10-15 | 2024-05-14 | Huawei Technologies Co., Ltd. | Boosting AI identification learning |
CN109934194A (zh) * | 2019-03-20 | 2019-06-25 | 深圳市网心科技有限公司 | 图片分类方法、边缘设备、系统及存储介质 |
WO2021000489A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 车辆图像分类方法、装置、计算机设备及存储介质 |
CN110472656A (zh) * | 2019-07-03 | 2019-11-19 | 平安科技(深圳)有限公司 | 车辆图像分类方法、装置、计算机设备及存储介质 |
CN110472656B (zh) * | 2019-07-03 | 2023-09-05 | 平安科技(深圳)有限公司 | 车辆图像分类方法、装置、计算机设备及存储介质 |
CN112560992A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 优化图片分类模型的方法、装置、电子设备及存储介质 |
CN112560992B (zh) * | 2020-12-25 | 2023-09-01 | 北京百度网讯科技有限公司 | 优化图片分类模型的方法、装置、电子设备及存储介质 |
CN113837286A (zh) * | 2021-09-26 | 2021-12-24 | 展讯通信(天津)有限公司 | 一种图像分类方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105956631A (zh) | 一种面向电子图库的在线渐进式图像分类方法 | |
Zhang et al. | Importance weighted adversarial nets for partial domain adaptation | |
CN107358262B (zh) | 一种高分辨率图像的分类方法及分类装置 | |
CN109241817B (zh) | 一种无人机拍摄的农作物图像识别方法 | |
Chen et al. | DISC: Deep image saliency computing via progressive representation learning | |
US20200356818A1 (en) | Logo detection | |
CN103927387B (zh) | 图像检索系统及其相关方法和装置 | |
Tieu et al. | Boosting image retrieval | |
Liu et al. | Pose-guided R-CNN for jersey number recognition in sports | |
CN106021406B (zh) | 一种数据驱动的迭代式图像在线标注方法 | |
US10679041B2 (en) | Hybrid deep learning method for recognizing facial expressions | |
CN108491856B (zh) | 一种基于多尺度特征卷积神经网络的图像场景分类方法 | |
CN109657715B (zh) | 一种语义分割方法、装置、设备及介质 | |
CN111046858B (zh) | 一种基于图像的动物物种细分类方法、系统及介质 | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
CN113688894A (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
CN111108508A (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
Du et al. | Boundary-sensitive network for portrait segmentation | |
Lee et al. | Property-specific aesthetic assessment with unsupervised aesthetic property discovery | |
CN109978058A (zh) | 确定图像分类的方法、装置、终端及存储介质 | |
CN112883827B (zh) | 图像中指定目标的识别方法、装置、电子设备和存储介质 | |
CN116758379A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN115601791B (zh) | 基于Multiformer及离群样本重分配的无监督行人重识别方法 | |
CN113128308A (zh) | 一种港口场景下的行人检测方法、装置、设备及介质 | |
CN113192108B (zh) | 一种针对视觉跟踪模型的人在回路训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160921 |