CN103246895B - 基于深度信息的图像分类方法 - Google Patents
基于深度信息的图像分类方法 Download PDFInfo
- Publication number
- CN103246895B CN103246895B CN201310178645.XA CN201310178645A CN103246895B CN 103246895 B CN103246895 B CN 103246895B CN 201310178645 A CN201310178645 A CN 201310178645A CN 103246895 B CN103246895 B CN 103246895B
- Authority
- CN
- China
- Prior art keywords
- image
- depth
- local feature
- extracted
- depth information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012706 support-vector machine Methods 0.000 claims abstract description 15
- 230000000007 visual effect Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本公开提供了一种基于深度信息的图像分类方法,包括:使用已知深度信息的第一训练图像集训练马尔可夫随机场MRF;使用所述MRF从未知深度信息的第二训练图像集提取深度信息;从所述第二训练图像集提取局部特征;基于所提取的深度信息和所提取的局部特征来训练支持向量机分类器;以及使用经训练的支持向量机分类器来对待分类图像集中的图像进行分类,其中所述第二训练图像集和所述待分类图像集属于同一场景集。现有的图像分类方法只考虑图像空间,也即二维空间的信息,本公开考虑了深度信息,将原来在二维空间中难以区分的特征在深度维度上予以分开,从而提高了图像分类的准确性。
Description
技术领域
本公开一般地涉及模式识别,具体地涉及基于特征包(bag-of-features,BoF)模型的图像分类。
背景技术
目前,传统分类算法缺乏有效地表达图像三维空间信息的能力。这也是计算机视觉系统与人眼视觉系统相比在识别精度上仍存在着巨大差距的重要原因之一。常用的图像空间建模方法往往不能有效地利用空间信息特别是深度信息。例如,金字塔空间匹配算法仅仅是对少量二维空间区域表达的简单串联,虽然有一定的鲁棒性,但是反映空间信息的效率和区分图像特征的能力比较弱。有些图像特征在二维空间往往难以彼此区分。用传统的基于二维图像空间的分类算法是无法有效处理这些图像特征的,从而无法实现准确的图像分类。尤其对于场景数据库,这样的方法往往只能达到很低的分类精度。
因此,鉴于以往的方法很难实现对包括深度在内的三维空间的准确建模,从而无法对图像进行准确分类。
发明内容
为了解决现有技术存在的问题,本公开的目的之一是提供一种基于深度信息的图像分类方法,包括:使用已知深度信息的第一训练图像集训练马尔可夫随机场(MarkovRandomField,MRF);使用所述MRF从未知深度信息的第二训练图像集提取深度信息;从所述第二训练图像集提取局部特征;基于所提取的深度信息和所提取的局部特征来训练支持向量机分类器;以及使用经训练的支持向量机分类器来对待分类图像集中的图像进行分类,其中所述第二训练图像集和所述待分类图像集属于同一场景集。
可选地,根据本公开的方法还包括:基于所提取的深度信息和所提取的局部特征来生成第二训练图像集中的图像的表达;以及使用所述图像的表达来训练支持向量机分类器。
可选地,使用经训练的支持向量机分类器来对待分类图像集中的图像进行分类包括:使用所述MRF从所述待分类图像集提取深度信息;从所述待分类图像集提取局部特征;基于从所述待分类图像集提取的深度信息和局部特征生成所述待分类图像集中的图像的表达;以及将所述待分类图像集中的图像的表达输入所述支持向量机分类器。
可选地,生成图像的表达包括:基于所提取的深度和所提取的局部特征生成深度模型和多个深度平面;基于所提取的局部特征生成视觉词典;基于所提取的局部特征和视觉词典生成特征编码;基于所述多个深度平面、深度模型和特征编码对局部特征进行聚集以得到每个空间区域内的响应;以及将所有空间区域内的响应串联到一起作为该图像的表达。
可选地,生成多个深度平面包括:对深度信息应用聚类算法,得到多个聚类中心P=[p1,p2,…,pL],其中L表示聚类中心的数量,pi是第i个聚类中心的深度值;以及生成深度模型包括:将所提取的局部特征与相应的深度值相结合。
可选地,基于所述多个深度平面、深度模型和特征编码对局部特征进行聚集以得到每个空间区域内的响应包括:在二维平面上将图像等分成多个矩形区域,并结合深度平面,将三维空间划分成多个空间区域;对与每个局部特征最接近的两个深度平面,根据与所述局部特征之间的距离给对两个深度平面分配权重,从而对每个空间区域内的局部特征分别进行聚集。
可选地,生成特征编码包括:基于视觉词典,使用局部线性编码来对所提取的局部特征进行编码
可选地,对每个空间区域内的局部特征分别进行聚集包括使用以下中的任一个进行聚集:最大聚集、最小聚集、求和聚集、和加权求和聚集。
根据本公开的方法,可以描述相同特征在空间中的不同分布。通过以空间区域为基元使得特征空间位置的描述更加鲁棒,可以挖据更多的空间信息,实现准确的图像分类。
附图说明
图1示意性示出了传统的图像分类方法。
图2示意性示出了根据本公开实施例的基于深度信息的图像分类方法的流程图。
图3示意性示出了根据本公开实施例的基于深度信息的图像分类方法的过程。
图4示意性示出了随着视觉词典大小变化,利用深度信息和不利用深度信息在每个类别上的分类精度差异。
具体实施方式
以下结合附图详细说明本公开技术方案中所涉及的各个细节问题。应当指出的是,所描述的实施例仅旨在便于理解,对本公开不起任何限定作用。
图1示意性地示出了传统的图像分类方法100。如图1所示,图像分类方法100包括:在步骤102,提取训练图像的局部特征。在步骤104,使用提取的局部特征来训练视觉词典。在步骤106,使用视觉词典来表达训练图像。在步骤108,使用在步骤106得到的图像表达来训练分类器。在步骤110,使用经训练的分类器来对待分类图像进行分类。传统的图像分类方法不使用图像的深度信息,难以准确地区分在二维上相似却处于不同深度平面上的特征,因此无法实现准确的图像分类。
本公开提供了一种基于图像的深度信息的图像分类方法。根据本发明的图像分类方法,首先用有监督的方式训练一个马尔可夫随机场(MRF),所述MRF可以用于提取图像深度。利用此MRF来提取无深度标注的图像的深度信息,再将该图像的局部特征和相应的深度信息融合在一起,增强了对图像的空间信息表达。以下参考本公开的示例性实施例详细说明本公开的方法。应当注意,以下描述仅用于说明本公开的原理,而不应被理解为以任何方式限定本公开。在不脱离本公开的精神和范围的前提下,可以以更多、更少或不同的步骤实现本公开的方法。
图2示意性地示出了根据本公开实施例的图像分类方法200的流程图。如图2所示,该方法200包括:在步骤202,使用已知深度信息的第一训练图像集训练马尔可夫随机场MRF;在步骤204,使用所述MRF从未知深度信息的第二训练图像集提取深度信息;在步骤206,从所述第二训练图像集提取局部特征;在步骤208,基于所提取的深度信息和所提取的局部特征来训练向量机分类器;以及在步骤210,使用经训练的向量机分类器来对待分类图像集中的图像进行分类,其中所述第二训练图像集和所述待分类图像集属于同一场景集。训练过程和测试过程。
图3示意性示出了根据本公开实施例的基于深度信息的图像分类方法的过程。该过程可以分为训练过程和分类过程两部分。首先描述训练过程。首先,利用已知深度的训练图像集(本文中也称为第一训练图像集)301训练一个马尔可夫随机场MRF302。通过此MRF302提取未知深度的图像训练集(以下称为第二训练图像集)303的深度信息。第二训练图像集可以是从待分类场景集中选择的,待分类场景集包括多个(例如N个)图像,这些图像可以分类为多个(例如M个)场景类别,N与M是相同或不同的整数。可以从N个图像中随机选择N1个图像用作第二训练图像集。对深度信息304应用聚类算法(如K均值聚类算法),得到若干聚类中心P=[p1,p2,…,pL],其中L表示聚类中心的数量,pi是一个实数,表示一个深度值。以每个聚类中心作为一个深度平面的深度值,得到包括多个深度平面。
其次,从第二训练图像集303提取图像的局部特征305。将局部特征与其相应的深度信息相结合得到深度模型306。对提取的局部特征305应用聚类算法(如K均值聚类算法),训练得到视觉词典307D=[d1,d2,…,dK],其中K表示视觉词典的大小(聚类中心个数),di为一个列向量,表示一个视觉单词(聚类中心)。
然后,用局部线性编码方式对提取的局部特征305进行编码,得到特征编码308。对一个具体的特征fi,其对应的编码的计算方式为其中Δi=[fi-c1,fi-c2,…,fi-cM],1∈RM×1为一个列向量,{ci}为距特征fi最近的M个单词,β为正则化系数。令αi为归一化后的结果,则αi满足1Tαi=1。特征的最终表达vi中距fi最近的M个单词上的响应分别对应αi的值,其余单词上的响应为零。此处只列出了局部线性编码的情形,其它的编码方式只要把编码算法替换即可,此处不再赘述。
在获得特征编码308之后,基于特征编码308得到视觉词典响应309。具体地,沿长宽两个方向将图像分成若干个规则的矩形区域(例如2×2个矩形区域,用Ri表示,i=0,1,2,3),结合前面得到的L个深度平面(用pi表示),这样就将图像在三维空间划分成了2×2×L个空间区域。将每个局部特征在深度方向上进行投影:局部特征fi对距其最近的两个深度平面的投影方式为:
wt,j+1=1-wt,j(1)
vt,j=wt,j·vt
vt,j+1=wt,j+1·vt
而在其它平面的投影值vt,k=0,其中k≠j,j+1。公式中pt代表局部特征ft的深度值,pj和pj+1分别是距离局部特征ft最近的两个深度平面的深度值,wt,j,wt,j+1分别为该局部特征投影在pj和pj+1平面的权重,vt,j,vt,j+1分别为该局部特征投影在pj和pj+1平面的响应值。这样,该局部特征的响应就被分配在这2×2×L个空间区域中。对每个区域中局部特征的响应分别进行最大聚集,得到4L个视觉单词的响应b1,1,b1,2,…b4,L,其中bt,r=max(vi,r),fi∈Rt∩Pr,即vi,r为属于矩形区域Rt的特征fi在深度平面Pr上的响应,max表示对向量在每个通道上取最大的操作。然后,在整个图像上统计视觉单词的L个响应b:,1,b:,2,…b:,L,其中b:,r为局部特征在深度平面Pr上所有区域内的最大聚集结果。将所有空间区域的5L个响应串联在一起,得到最终的图像表达。以上描述是在采用最大聚集和最小聚集的前提下给出,通过将最大最小值函数替换为相应的聚集函数可以很方便的得到其它聚集方法(如求和聚集、加权求和聚集等)组合的情形,此处不再赘述。
在得到第二训练图像集的所有图像的表达之后,利用图像表达训练支持向量机(SVM)分类器311。
接下来描述分类过程。如上所述,待分类图像和第二训练图像集均属于待分类场景集。以与如上所述类似的方式得到待分类图像的表达,然后输入经训练的SVM分类器311得到其类别。
以下以一个具体场景图像集为例说明根据本公开实施例的方法。该图像集包含15620张图像,分别展示了67种不同的场景。根据本公开实施例的方法能够根据图像的内容,给出图像所展示场景的类别标签。
具体步骤如下:
步骤S0,从每类场景中随机挑选出100张图像,其中80张形成训练图像集,其余20张图片组成测试集。
步骤S1,利用一系列已经标记好深度的图像集训练一个马尔可夫随机场;通过此MRF从步骤S0中选出的6700张图像中提取每个像素的深度信息,再从这个庞大的深度信息数据中随机提取300万像素的深度,利用K均值聚类算法将这些深度划分成7类,如[4.8,9.6,15.7,24.0,36.0,53.5,80.0],每类中心代表一个深度平面。
步骤S3,从所有图像中以密集采样的方式提取SIFT局部特征。
步骤S4,从训练集中随机抽取出100万个局部特征,利用K均值算法学习得到一个包含1024个视觉单词的视觉词典。
步骤S4,提取图像的局部特征,用局部线性编码的方式对所提取的特征进行编码。
步骤S5,将图像在三维空间上分成2×2×7的空间区域,每个特征在深度平面上的权重按公式(1)计算;对每个区域内的特征分别进行最大聚集,作为该区域的表达;然后再在整个图像上按公式(1)统计视觉单词的响应。
步骤S6,将每个空间区域的聚集结果串联在一起,作为图像的表达。
步骤S7,将训练图像的表达送入支持向量机训练分类器。
步骤S8,将测试图像的表达送入S7中得到的分类器进行分类,精度达到41.0%(当前其它算法最高精度为43.1%),当视觉词典的规模达到4096时本公开的精度可以达到46.5%。
图4示意性示出了随着视觉词典大小变化,利用深度信息和不利用深度信息在每个类别上的分类精度差异。可以看出,利用深度信息的分类精度在统计上明显优于不利用深度信息的分类精度。
以上所述,仅为本公开的具体实施方式之一,本公开的保护范围并不局限于此。任何熟悉该技术的人在本公开所揭露的技术范围内,可理解想到的变换或者替换,都应涵盖在本公开的范围之内。因此,本公开的保护范围应以权利要求书的保护范围为准。
Claims (6)
1.一种基于深度信息的图像分类方法,包括:
使用已知深度信息的第一训练图像集训练马尔可夫随机场MRF;
使用所述MRF从未知深度信息的第二训练图像集提取深度信息;
从所述第二训练图像集提取局部特征;
基于所提取的深度信息和所提取的局部特征来训练支持向量机分类器;以及
使用经训练的支持向量机分类器来对待分类图像集中的图像进行分类,包括:
使用所述MRF从所述待分类图像集提取深度信息;
从所述待分类图像集提取局部特征;
基于从所述待分类图像集提取的深度信息和局部特征生成所述待分类图像集中的图像的表达;以及
将所述待分类图像集中的图像的表达输入所述支持向量机分类器,
其中:
所述第二训练图像集和所述待分类图像集属于同一场景集;以及
生成图像的表达包括:
基于所提取的深度和所提取的局部特征生成深度模型和多个深度平面;
基于所提取的局部特征生成视觉词典;
基于所提取的局部特征和视觉词典生成特征编码;
基于所述多个深度平面、深度模型和特征编码对局部特征进行聚集以得到每个空间区域内的响应;以及
将所有空间区域内的响应串联到一起作为该图像的表达。
2.根据权利要求1所述的方法,还包括:
基于所提取的深度信息和所提取的局部特征来生成第二训练图像集中的图像的表达;以及
使用所述图像的表达来训练支持向量机分类器。
3.根据权利要求1所述的方法,其中:
生成多个深度平面包括:对深度信息应用聚类算法,得到多个聚类中心P=[p1,p2,…,pL],其中L表示聚类中心的数量,pi是第i个聚类中心的深度值;以及
生成深度模型包括:将所提取的局部特征与相应的深度值相结合。
4.根据权利要求1所述的方法,其中,基于所述多个深度平面、深度模型和特征编码对局部特征进行聚集以得到每个空间区域内的响应包括:
在二维平面上将图像等分成多个矩形区域,并结合深度平面,将三维空间划分成多个空间区域;
对与每个局部特征最接近的两个深度平面,根据与所述局部特征之间的距离给对两个深度平面分配权重,从而对每个空间区域内的局部特征分别进行聚集。
5.根据权利要求1所述的方法,其中生成特征编码包括:
基于视觉词典,使用局部线性编码来对所提取的局部特征进行编码。
6.根据权利要求4所述的方法,其中对每个空间区域内的局部特征分别进行聚集包括使用以下中的任一个进行聚集:最大聚集、最小聚集、求和聚集、和加权求和聚集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310178645.XA CN103246895B (zh) | 2013-05-15 | 2013-05-15 | 基于深度信息的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310178645.XA CN103246895B (zh) | 2013-05-15 | 2013-05-15 | 基于深度信息的图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103246895A CN103246895A (zh) | 2013-08-14 |
CN103246895B true CN103246895B (zh) | 2016-03-09 |
Family
ID=48926408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310178645.XA Active CN103246895B (zh) | 2013-05-15 | 2013-05-15 | 基于深度信息的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103246895B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488785B (zh) * | 2015-11-23 | 2019-01-15 | 华南理工大学 | 一种基于视觉词典的深度图生成方法 |
CN105550706A (zh) * | 2015-12-13 | 2016-05-04 | 大巨龙立体科技有限公司 | 一种2d图像与3d图像的识别方法 |
CN106503750B (zh) * | 2016-11-02 | 2019-07-23 | 广州大学 | 一种融合差分子空间与正交子空间的图像集分类方法 |
CN108416795B (zh) * | 2018-03-04 | 2022-03-18 | 南京理工大学 | 基于排序池化融合空间特征的视频动作识别方法 |
CN108520535B (zh) * | 2018-03-26 | 2022-02-15 | 天津大学 | 基于深度恢复信息的物体分类方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4686595B2 (ja) * | 2005-03-17 | 2011-05-25 | 本田技研工業株式会社 | クリティカルポイント解析に基づくポーズ推定 |
US8023747B2 (en) * | 2007-02-09 | 2011-09-20 | New Jersey Institute Of Technology | Method and apparatus for a natural image model based approach to image/splicing/tampering detection |
CN102147852B (zh) * | 2010-02-04 | 2016-01-27 | 三星电子株式会社 | 检测头发区域的方法 |
CN103080979B (zh) * | 2010-09-03 | 2015-12-09 | 王晓刚 | 从照片合成肖像素描的系统和方法 |
CN102567703B (zh) * | 2010-12-10 | 2014-04-09 | 上海上大海润信息系统有限公司 | 一种基于分类特征的手部动作识别信息处理方法 |
CN102789568B (zh) * | 2012-07-13 | 2015-03-25 | 浙江捷尚视觉科技股份有限公司 | 一种基于深度信息的手势识别方法 |
-
2013
- 2013-05-15 CN CN201310178645.XA patent/CN103246895B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN103246895A (zh) | 2013-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543695B (zh) | 基于多尺度深度学习的泛密度人群计数方法 | |
CN109753885B (zh) | 一种目标检测方法、装置以及行人检测方法、系统 | |
DeGol et al. | Geometry-informed material recognition | |
CN105956560B (zh) | 一种基于池化多尺度深度卷积特征的车型识别方法 | |
CN103246895B (zh) | 基于深度信息的图像分类方法 | |
CN108230337A (zh) | 一种基于移动端的语义slam系统实现的方法 | |
CN103514456A (zh) | 基于压缩感知多核学习的图像分类方法及其装置 | |
CN104167013B (zh) | 一种用于突出显示体数据中目标区域的体绘制方法 | |
CN110210534B (zh) | 基于多包融合的高分遥感图像场景多标签分类方法 | |
Nguyen et al. | Food image classification using local appearance and global structural information | |
Nedović et al. | Stages as models of scene geometry | |
CN104134234A (zh) | 一种全自动的基于单幅图像的三维场景构建方法 | |
CN103824272A (zh) | 基于k近邻重识别的人脸超分辨率重建方法 | |
CN105574545B (zh) | 街道环境图像多视角语义切割方法及装置 | |
CN106126585A (zh) | 基于质量分级与感知哈希特征组合的无人机图像检索方法 | |
CN102034267A (zh) | 基于关注度的目标物三维重建方法 | |
CN106570874A (zh) | 一种结合图像局部约束与对象全局约束的图像标记方法 | |
CN102831427A (zh) | 一种融合视觉显著性和灰度共生矩的纹理特征提取方法 | |
CN108734200A (zh) | 基于bing特征的人体目标视觉检测方法和装置 | |
CN103886585A (zh) | 一种基于排序学习的视频跟踪方法 | |
CN104598898B (zh) | 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法 | |
CN106778714A (zh) | 基于非线性特征和模型合并的lda人脸识别方法 | |
CN106650811A (zh) | 一种基于近邻协同增强的高光谱混合像元分类方法 | |
KR102119136B1 (ko) | 지능형 이미지 분류 방법 | |
CN108805022A (zh) | 一种基于多尺度centrist特征的遥感场景分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |