CN103246895B

CN103246895B - 基于深度信息的图像分类方法

Info

Publication number: CN103246895B
Application number: CN201310178645.XA
Authority: CN
Inventors: 谭铁牛; 王亮; 黄永祯; 周振
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-05-15
Filing date: 2013-05-15
Publication date: 2016-03-09
Anticipated expiration: 2033-05-15
Also published as: CN103246895A

Abstract

本公开提供了一种基于深度信息的图像分类方法，包括：使用已知深度信息的第一训练图像集训练马尔可夫随机场MRF；使用所述MRF从未知深度信息的第二训练图像集提取深度信息；从所述第二训练图像集提取局部特征；基于所提取的深度信息和所提取的局部特征来训练支持向量机分类器；以及使用经训练的支持向量机分类器来对待分类图像集中的图像进行分类，其中所述第二训练图像集和所述待分类图像集属于同一场景集。现有的图像分类方法只考虑图像空间，也即二维空间的信息，本公开考虑了深度信息，将原来在二维空间中难以区分的特征在深度维度上予以分开，从而提高了图像分类的准确性。

Description

基于深度信息的图像分类方法

技术领域

本公开一般地涉及模式识别，具体地涉及基于特征包(bag-of-features，BoF)模型的图像分类。

背景技术

目前，传统分类算法缺乏有效地表达图像三维空间信息的能力。这也是计算机视觉系统与人眼视觉系统相比在识别精度上仍存在着巨大差距的重要原因之一。常用的图像空间建模方法往往不能有效地利用空间信息特别是深度信息。例如，金字塔空间匹配算法仅仅是对少量二维空间区域表达的简单串联，虽然有一定的鲁棒性，但是反映空间信息的效率和区分图像特征的能力比较弱。有些图像特征在二维空间往往难以彼此区分。用传统的基于二维图像空间的分类算法是无法有效处理这些图像特征的，从而无法实现准确的图像分类。尤其对于场景数据库，这样的方法往往只能达到很低的分类精度。

因此，鉴于以往的方法很难实现对包括深度在内的三维空间的准确建模，从而无法对图像进行准确分类。

发明内容

为了解决现有技术存在的问题，本公开的目的之一是提供一种基于深度信息的图像分类方法，包括：使用已知深度信息的第一训练图像集训练马尔可夫随机场(MarkovRandomField，MRF)；使用所述MRF从未知深度信息的第二训练图像集提取深度信息；从所述第二训练图像集提取局部特征；基于所提取的深度信息和所提取的局部特征来训练支持向量机分类器；以及使用经训练的支持向量机分类器来对待分类图像集中的图像进行分类，其中所述第二训练图像集和所述待分类图像集属于同一场景集。

可选地，根据本公开的方法还包括：基于所提取的深度信息和所提取的局部特征来生成第二训练图像集中的图像的表达；以及使用所述图像的表达来训练支持向量机分类器。

可选地，使用经训练的支持向量机分类器来对待分类图像集中的图像进行分类包括：使用所述MRF从所述待分类图像集提取深度信息；从所述待分类图像集提取局部特征；基于从所述待分类图像集提取的深度信息和局部特征生成所述待分类图像集中的图像的表达；以及将所述待分类图像集中的图像的表达输入所述支持向量机分类器。

可选地，生成图像的表达包括：基于所提取的深度和所提取的局部特征生成深度模型和多个深度平面；基于所提取的局部特征生成视觉词典；基于所提取的局部特征和视觉词典生成特征编码；基于所述多个深度平面、深度模型和特征编码对局部特征进行聚集以得到每个空间区域内的响应；以及将所有空间区域内的响应串联到一起作为该图像的表达。

可选地，生成多个深度平面包括：对深度信息应用聚类算法，得到多个聚类中心P＝[p₁，p₂，…，p_L]，其中L表示聚类中心的数量，p_i是第i个聚类中心的深度值；以及生成深度模型包括：将所提取的局部特征与相应的深度值相结合。

可选地，基于所述多个深度平面、深度模型和特征编码对局部特征进行聚集以得到每个空间区域内的响应包括：在二维平面上将图像等分成多个矩形区域，并结合深度平面，将三维空间划分成多个空间区域；对与每个局部特征最接近的两个深度平面，根据与所述局部特征之间的距离给对两个深度平面分配权重，从而对每个空间区域内的局部特征分别进行聚集。

可选地，生成特征编码包括：基于视觉词典，使用局部线性编码来对所提取的局部特征进行编码

可选地，对每个空间区域内的局部特征分别进行聚集包括使用以下中的任一个进行聚集：最大聚集、最小聚集、求和聚集、和加权求和聚集。

根据本公开的方法，可以描述相同特征在空间中的不同分布。通过以空间区域为基元使得特征空间位置的描述更加鲁棒，可以挖据更多的空间信息，实现准确的图像分类。

附图说明

图1示意性示出了传统的图像分类方法。

图2示意性示出了根据本公开实施例的基于深度信息的图像分类方法的流程图。

图3示意性示出了根据本公开实施例的基于深度信息的图像分类方法的过程。

图4示意性示出了随着视觉词典大小变化，利用深度信息和不利用深度信息在每个类别上的分类精度差异。

具体实施方式

以下结合附图详细说明本公开技术方案中所涉及的各个细节问题。应当指出的是，所描述的实施例仅旨在便于理解，对本公开不起任何限定作用。

图1示意性地示出了传统的图像分类方法100。如图1所示，图像分类方法100包括：在步骤102，提取训练图像的局部特征。在步骤104，使用提取的局部特征来训练视觉词典。在步骤106，使用视觉词典来表达训练图像。在步骤108，使用在步骤106得到的图像表达来训练分类器。在步骤110，使用经训练的分类器来对待分类图像进行分类。传统的图像分类方法不使用图像的深度信息，难以准确地区分在二维上相似却处于不同深度平面上的特征，因此无法实现准确的图像分类。

本公开提供了一种基于图像的深度信息的图像分类方法。根据本发明的图像分类方法，首先用有监督的方式训练一个马尔可夫随机场(MRF)，所述MRF可以用于提取图像深度。利用此MRF来提取无深度标注的图像的深度信息，再将该图像的局部特征和相应的深度信息融合在一起，增强了对图像的空间信息表达。以下参考本公开的示例性实施例详细说明本公开的方法。应当注意，以下描述仅用于说明本公开的原理，而不应被理解为以任何方式限定本公开。在不脱离本公开的精神和范围的前提下，可以以更多、更少或不同的步骤实现本公开的方法。

图2示意性地示出了根据本公开实施例的图像分类方法200的流程图。如图2所示，该方法200包括：在步骤202，使用已知深度信息的第一训练图像集训练马尔可夫随机场MRF；在步骤204，使用所述MRF从未知深度信息的第二训练图像集提取深度信息；在步骤206，从所述第二训练图像集提取局部特征；在步骤208，基于所提取的深度信息和所提取的局部特征来训练向量机分类器；以及在步骤210，使用经训练的向量机分类器来对待分类图像集中的图像进行分类，其中所述第二训练图像集和所述待分类图像集属于同一场景集。训练过程和测试过程。

图3示意性示出了根据本公开实施例的基于深度信息的图像分类方法的过程。该过程可以分为训练过程和分类过程两部分。首先描述训练过程。首先，利用已知深度的训练图像集(本文中也称为第一训练图像集)301训练一个马尔可夫随机场MRF302。通过此MRF302提取未知深度的图像训练集(以下称为第二训练图像集)303的深度信息。第二训练图像集可以是从待分类场景集中选择的，待分类场景集包括多个(例如N个)图像，这些图像可以分类为多个(例如M个)场景类别，N与M是相同或不同的整数。可以从N个图像中随机选择N1个图像用作第二训练图像集。对深度信息304应用聚类算法(如K均值聚类算法)，得到若干聚类中心P＝[p₁，p₂，…，p_L]，其中L表示聚类中心的数量，p_i是一个实数，表示一个深度值。以每个聚类中心作为一个深度平面的深度值，得到包括多个深度平面。

其次，从第二训练图像集303提取图像的局部特征305。将局部特征与其相应的深度信息相结合得到深度模型306。对提取的局部特征305应用聚类算法(如K均值聚类算法)，训练得到视觉词典307D＝[d₁，d₂，…，d_K]，其中K表示视觉词典的大小(聚类中心个数)，d_i为一个列向量，表示一个视觉单词(聚类中心)。

然后，用局部线性编码方式对提取的局部特征305进行编码，得到特征编码308。对一个具体的特征f_i，其对应的编码的计算方式为其中Δ_i＝[f_i-c₁，f_i-c₂，…，f_i-c_M]，1∈R^M×1为一个列向量，{c_i}为距特征f_i最近的M个单词，β为正则化系数。令α_i为归一化后的结果，则α_i满足1^Tα_i＝1。特征的最终表达v_i中距f_i最近的M个单词上的响应分别对应α_i的值，其余单词上的响应为零。此处只列出了局部线性编码的情形，其它的编码方式只要把编码算法替换即可，此处不再赘述。

在获得特征编码308之后，基于特征编码308得到视觉词典响应309。具体地，沿长宽两个方向将图像分成若干个规则的矩形区域(例如2×2个矩形区域，用R_i表示，i＝0，1，2，3)，结合前面得到的L个深度平面(用p_i表示)，这样就将图像在三维空间划分成了2×2×L个空间区域。将每个局部特征在深度方向上进行投影：局部特征f_i对距其最近的两个深度平面的投影方式为：

w_{t, j} = \frac{| p_{t} - p_{j} |}{| p_{t} - p_{j} | + | p_{t} - p_{j + 1} |}

w_t，j+1＝1-w_t，j(1)

v_t，j＝w_t，j·v_t

v_t，j+1＝w_t，j+1·v_t

而在其它平面的投影值v_t，k＝0，其中k≠j，j+1。公式中p_t代表局部特征f_t的深度值，p_j和p_j+1分别是距离局部特征f_t最近的两个深度平面的深度值，w_t，j，w_t，j+1分别为该局部特征投影在p_j和p_j+1平面的权重，v_t，j，v_t，j+1分别为该局部特征投影在p_j和p_j+1平面的响应值。这样，该局部特征的响应就被分配在这2×2×L个空间区域中。对每个区域中局部特征的响应分别进行最大聚集，得到4L个视觉单词的响应b_1，1，b_1，2，…b_4，L，其中b_t，r＝max(v_i，r)，f_i∈R_t∩P_r，即v_i，r为属于矩形区域R_t的特征f_i在深度平面P_r上的响应，max表示对向量在每个通道上取最大的操作。然后，在整个图像上统计视觉单词的L个响应b_：，1，b_：，2，…b_：，L，其中b_：，r为局部特征在深度平面P_r上所有区域内的最大聚集结果。将所有空间区域的5L个响应串联在一起，得到最终的图像表达。以上描述是在采用最大聚集和最小聚集的前提下给出，通过将最大最小值函数替换为相应的聚集函数可以很方便的得到其它聚集方法(如求和聚集、加权求和聚集等)组合的情形，此处不再赘述。

在得到第二训练图像集的所有图像的表达之后，利用图像表达训练支持向量机(SVM)分类器311。

接下来描述分类过程。如上所述，待分类图像和第二训练图像集均属于待分类场景集。以与如上所述类似的方式得到待分类图像的表达，然后输入经训练的SVM分类器311得到其类别。

以下以一个具体场景图像集为例说明根据本公开实施例的方法。该图像集包含15620张图像，分别展示了67种不同的场景。根据本公开实施例的方法能够根据图像的内容，给出图像所展示场景的类别标签。

具体步骤如下：

步骤S0，从每类场景中随机挑选出100张图像，其中80张形成训练图像集，其余20张图片组成测试集。

步骤S1，利用一系列已经标记好深度的图像集训练一个马尔可夫随机场；通过此MRF从步骤S0中选出的6700张图像中提取每个像素的深度信息，再从这个庞大的深度信息数据中随机提取300万像素的深度，利用K均值聚类算法将这些深度划分成7类，如[4.8，9.6，15.7，24.0，36.0，53.5，80.0]，每类中心代表一个深度平面。

步骤S3，从所有图像中以密集采样的方式提取SIFT局部特征。

步骤S4，从训练集中随机抽取出100万个局部特征，利用K均值算法学习得到一个包含1024个视觉单词的视觉词典。

步骤S4，提取图像的局部特征，用局部线性编码的方式对所提取的特征进行编码。

步骤S5，将图像在三维空间上分成2×2×7的空间区域，每个特征在深度平面上的权重按公式(1)计算；对每个区域内的特征分别进行最大聚集，作为该区域的表达；然后再在整个图像上按公式(1)统计视觉单词的响应。

步骤S6，将每个空间区域的聚集结果串联在一起，作为图像的表达。

步骤S7，将训练图像的表达送入支持向量机训练分类器。

步骤S8，将测试图像的表达送入S7中得到的分类器进行分类，精度达到41.0％(当前其它算法最高精度为43.1％)，当视觉词典的规模达到4096时本公开的精度可以达到46.5％。

图4示意性示出了随着视觉词典大小变化，利用深度信息和不利用深度信息在每个类别上的分类精度差异。可以看出，利用深度信息的分类精度在统计上明显优于不利用深度信息的分类精度。

以上所述，仅为本公开的具体实施方式之一，本公开的保护范围并不局限于此。任何熟悉该技术的人在本公开所揭露的技术范围内，可理解想到的变换或者替换，都应涵盖在本公开的范围之内。因此，本公开的保护范围应以权利要求书的保护范围为准。

Claims

1.一种基于深度信息的图像分类方法，包括：

使用已知深度信息的第一训练图像集训练马尔可夫随机场MRF；

使用所述MRF从未知深度信息的第二训练图像集提取深度信息；

从所述第二训练图像集提取局部特征；

基于所提取的深度信息和所提取的局部特征来训练支持向量机分类器；以及

使用经训练的支持向量机分类器来对待分类图像集中的图像进行分类，包括：

使用所述MRF从所述待分类图像集提取深度信息；

从所述待分类图像集提取局部特征；

基于从所述待分类图像集提取的深度信息和局部特征生成所述待分类图像集中的图像的表达；以及

将所述待分类图像集中的图像的表达输入所述支持向量机分类器，

其中：

所述第二训练图像集和所述待分类图像集属于同一场景集；以及

生成图像的表达包括：

基于所提取的深度和所提取的局部特征生成深度模型和多个深度平面；

基于所提取的局部特征生成视觉词典；

基于所提取的局部特征和视觉词典生成特征编码；

基于所述多个深度平面、深度模型和特征编码对局部特征进行聚集以得到每个空间区域内的响应；以及

将所有空间区域内的响应串联到一起作为该图像的表达。

2.根据权利要求1所述的方法，还包括：

基于所提取的深度信息和所提取的局部特征来生成第二训练图像集中的图像的表达；以及

使用所述图像的表达来训练支持向量机分类器。

3.根据权利要求1所述的方法，其中：

生成多个深度平面包括：对深度信息应用聚类算法，得到多个聚类中心P＝[p₁，p₂，…，p_L]，其中L表示聚类中心的数量，p_i是第i个聚类中心的深度值；以及

生成深度模型包括：将所提取的局部特征与相应的深度值相结合。

4.根据权利要求1所述的方法，其中，基于所述多个深度平面、深度模型和特征编码对局部特征进行聚集以得到每个空间区域内的响应包括：

在二维平面上将图像等分成多个矩形区域，并结合深度平面，将三维空间划分成多个空间区域；

对与每个局部特征最接近的两个深度平面，根据与所述局部特征之间的距离给对两个深度平面分配权重，从而对每个空间区域内的局部特征分别进行聚集。

5.根据权利要求1所述的方法，其中生成特征编码包括：

基于视觉词典，使用局部线性编码来对所提取的局部特征进行编码。

6.根据权利要求4所述的方法，其中对每个空间区域内的局部特征分别进行聚集包括使用以下中的任一个进行聚集：最大聚集、最小聚集、求和聚集、和加权求和聚集。