CN101814147B

CN101814147B - 一种实现场景图像的分类方法

Info

Publication number: CN101814147B
Application number: CN2010101444745A
Authority: CN
Inventors: 王春恒; 程刚; 肖柏华; 李心洁
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-04-12
Filing date: 2010-04-12
Publication date: 2012-04-25
Anticipated expiration: 2030-04-12
Also published as: CN101814147A

Abstract

本发明是一种实现场景图像的分类方法，该方法采用两级分类器对场景图像进行分类，第一级分类器利用全局结构信息特征得到候选类别，并通过分类结果判定相似类别对，第二级分类器则利用局部纹理信息特征区分相似类别，采用分类器的级联综合利用场景图像的全局结构信息特征和局部纹理信息特征，使得该方法做到不同场景类别鲁棒分类，相似场景类别有效区分。

Description

一种实现场景图像的分类方法

技术领域

本发明属于模式识别与信息处理技术领域，涉及数字图像的自动处理技术，尤其涉及一种场景图像的分类方法。

背景技术

随着数码相机、摄像头、超高速扫描仪等各种图像获取设备的广泛应用以及互联网的迅猛发展，数码图像的数量呈指数级增长，据不完全统计仅2004年就产生了超过180亿的数码图像，而Google Image Search已经索引的图片更是数以亿计，因此如何将图像进行有效的分类变得越来越重要。一个人通常可以识别10,000多个类别的视觉对象，而且识别过程很快，毫不费力，对视角、光亮、遮挡和背景混淆也有很好的鲁棒性，并且识别一种新的类别仅需要很少的监督和少量样本即可。因此，如何使计算机达到人类同等水平的类别识别能力具有重要意义，这也成为计算机视觉领域的一个重要和热点问题之一。场景图像分类的主要目标就是根据图像中包含的场景将图像分为不同的类别，例如卧室、起居室、商店、海岸等。良好的视觉对象分类效果具有广泛的应用前景，可以广泛应用于图像检索、视频分析、辅助驾驶、视频监控等等领域。

针对场景图像的分类问题，国内外的学者都提出了很多算法，根据提取场景图像特征的不同，大致可以分为两类：一种是基于图像的结构信息，另一种是基于图像的纹理信息。基于图像的结构信息的分类方法通常是从图像的全局特征出发，通过抽取图像的边缘和轮廓信息或统计图像的梯度或方向直方图来表示一幅图像。这种特征具有一定的适应性和鲁棒性，能够克服同类场景图像内的细微变化。而基于图像的纹理信息的分类方法一般是从图像的局部特征开始，通过图像检测算子获得图像的稳定兴趣点，针对兴趣点附近的纹理信息进行描述后再通过一定的特征映射来表示一幅图像。这种方法具有较强的区分能力，能够捕捉到场景图像的细微变化，近年来也被广泛采用。当不同类别的场景图像具有比较明显的区分度时，仅仅采用结构信息就可以达到令人满意的效果，但是当不同类别的场景图像具有相近或相似的结构信息时，受限于全局性特征，第一种方法就会出现很多分类错误，比如卧室类场景和起居室类场景的分类。而第二种方法虽然能够通过局部纹理区分相近或相似的图像，但是较强的区分能力降低了分类方法的适应性和鲁棒性，往往导致原本属于同一类别的场景图像也会判定为不同的类别。

在场景图像分类问题中，除了选取良好的特征之外，如何选择合理的分类方法也是提高场景图片分类性能的一个重要方面，常用的分类器有最近邻分类器，神经网络以及支持向量机等。最近邻分类器计算速度快，结合良好的数据结构和算法优化可以满足对性能要求比较高的分类计算，而神经网络和支持向量机等分类器适合于图像特征维数比较高，分布比较复杂的分类计算，在增加一部分计算复杂度的情况下提高分类的准确率。现有的场景图像分类方法往往采用单一的分类器，并且根据对场景图像的经验观察只选取单级分类器来完成最后的分类，这种方法并不能有效利用图像的各种特征信息，忽视了分类器的融合和级联所能利用的不同特征的互补性优势，使得场景图像的分类尚未达到令人满意的效果。

发明内容

本发明旨在提供一种实用的场景图像分类方法，针对场景图像的特点，通过设计合理的多级分类机制，融合场景图像的整体结构信息和局部纹理信息，使其达到优势互补，从而提高场景图像的分类准确率。本发明适用于复杂的场景图像分类，不仅能够通过结构信息区分类别相差比较大的场景图像，也可以通过局部纹理信息分类相近或相似的场景类别，具有一定的通用性和实用性。

为达成上述目的，本发明提供一种场景图像的全局结构信息特征的提取方法，该提取方法的具体步骤如下：

步骤S1：使用场景图像读取模块读取场景图像，并使用灰度图像判断模块判断该场景图像是否为彩色图像，若为彩色图像则使用灰度图像转换模块将彩色图像进行转换，得到灰度图像，若为灰度图像则执行步骤S2；

步骤S2：使用图像等级划分模块对灰度图像按照三个级别进行划分，得到第一级划分、第二级划分和第三级划分对应的图像块；经过三级划分后，得到31个图像块；

步骤S3：使用局部二元模式特征计算模块对图像块中每个像素的结构信息特征进行计算，得到一个8维局部二元模式特征；

步骤S4：使用局部二元模式特征量化模块对8维局部二元模式特征进行量化，得到1维局部二元模式量化特征，并使用直方图计算模块计算1维局部二元模式量化特征的直方图，得到255维直方图特征H_ps；使用主成分分析计算模块对255维直方图特征H_ps进行主成份分析，得到40维直方图特征H_p；再使用直方图计算模块计算8维局部二元模式特征的直方图，得到8维直方图特征H_b；最后使用直方图特征融合模块将8维直方图特征H_b和40维直方图特征H_p融合，得到一个图像块对应的48维结构信息特征H_f＝(H_b，H_p)；

步骤S5：使用计数模块判断所有31个图像块的48维结构信息特征H_f是否全部计算完毕，若没有重复步骤S3至S4，若全部计算完毕，执行步骤S7；

步骤S6：使用结构信息特征融合模块对所有31个图像块的48维结构信息特征H_f进行融合，得到一幅图像的全局结构信息特征H_g＝(H_f1，...，H_f31)；

步骤S7：使用分类器训练模块对全局结构信息特征训练，得到第一级分类器；

步骤S8：用第一级分类器对场景图像进行分类，得到以概率形式表示的分类结果R₁＝(R₁₁，R₁₂，...，R_1n)，其中R_1i(i∈[1，n])按照从大到小排列，n为场景图像的类别个数；

步骤S9：使用相似类别对计算模块统计分类结果R₁中前两个候选的可能情况，即统计(R₁₁，R₁₂)的可能组合，得到N个相似类别对，N∈[1，n(n-1)/2]，为了降低后续的计算复杂度，N一般可设为n/5；

步骤S10：使用局部纹理特征计算模块针对N个相似类别对进行计算，得到场景图像的局部纹理信息特征；

步骤S11：使用分类器训练模块对局部纹理信息特征训练，得到N个第二级分类器；

步骤S12：用第二级分类器对场景图像进行分类，得到N个以概率形式表示的分类结果C_i＝(C_i1，C_i2)，i∈[1，N]，其中C_i1，C_i2按照从大到小排列；

步骤S13：使用分类结果融合模块将步骤S8得到的结果R₁与步骤S12得到的结果融合，得到场景图像的最终分类结果。

本发明的融合全局结构信息和局部纹理信息实现场景分类的方法，既有效利用了结构信息分类快速的优点，又利用了纹理信息鉴别能力强的优势，提高了场景图像的分类准确率。并且由于采用了自己设计的全局结构信息特征，运算速度快、抗噪声和鲁棒性好。

附图说明

图1是本发明实施例的系统结构示意图；

图2是本发明实现方案流程图；

图3是本发明对场景图像的三级划分示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1示出本发明的系统结构示意图，实现本发明的系统结构所需的基本的硬件条件为：一台主频为2.4GHz，内存为1G的计算机；所需软件条件为：编程环境(Visual C++ 6.0)，本发明的系统结构在计算机中实现，包括：场景图像读取模块1、灰度图像判断模块2、灰度图像转换模块3、图像等级划分模块4、局部二元模式特征计算模块5、局部二元模式特征量化模块6、直方图计算模块7、主成分分析计算模块8、直方图特征融合模块9、计数模块10、结构信息特征融合模块11、分类器训练模块12、第一级分类器13、相似类别对计算模块14、局部纹理特征计算模块15、第二级分类器16和分类结果融合模块17；

场景图像读取模块1读取场景图像；灰度图像判断模块2与场景图像读取模块1连接，灰度图像判断模块2接收场景图像，并判断并输出该场景图像的彩色图像或灰度图像；灰度图像转换模块3与灰度图像判断模块2连接，灰度图像转换模块3接收彩色图像，并将彩色图像转换成灰度图像；图像等级划分模块4分别与灰度图像判断模块2和灰度图像转换模块3连接，图像等级划分模块4对灰度图像按照三个级别进行划分，得到第一级划分、第二级划分和第三级划分为对应31个的图像块；局部二元模式特征计算模块5与图像等级划分模块4连接，局部二元模式特征计算模块5对图像块中每个像素的结构信息特征进行计算，得到一个8维局部二元模式特征；局部二元模式特征量化模块6与局部二元模式特征计算模块5连接，局部二元模式特征量化模块6对8维局部二元模式特征进行量化，得到1维局部二元模式量化特征；直方图计算模块7与局部二元模式特征量化模块6连接，直方图计算模块7计算1维局部二元模式量化特征的直方图，得到255维直方图特征H_ps；主成分分析计算模块8与直方图计算模块7连接，主成分分析计算模块8对255维直方图特征H_ps进行主成份分析，得到40维直方图特征H_p；再使用直方图计算模块7计算8维局部二元模式特征的直方图，得到8维直方图特征H_b；直方图特征融合模块9与主成分分析计算模块8连接，直方图特征融合模块9将8维直方图特征H_b和40维直方图特征H_p融合，得到一个图像块对应的48维结构信息特征H_f＝(H_b，H_p)；计数模块10与直方图特征融合模块9连接，计数模块10计算31个图像块的48维结构信息特征H_f，当H_f＜31，则输出未计算完毕的图像块到局部二元模式特征计算模块5，H_f＝31时，则输出31个图像块的48维结构信息特征H_f；结构信息特征融合模块11与计数模块10连接，结构信息特征融合模块11对31个图像块的48维结构信息特征H_f进行融合，得到一幅图像的全局结构信息特征H_g＝(H_f1，...，H_f31)；分类器训练模块12与结构信息特征融合模块11连接，分类器训练模块12对全局结构信息特征训练，得到第一级分类器13；第一级分类器13与分类器训练模块12连接，第一级分类器13对场景图像进行分类，得到以概率形式表示的分类结果R₁；相似类别对计算模块14与第一级分类器13连接，相似类别对计算模块14统计分类结果R₁中前两个候选的可能情况，即统计(R₁₁，R₁₂)的可能组合，得到N个相似类别对；局部纹理特征计算模块15与相似类别对计算模块14连接，局部纹理特征计算模块15对N个相似类别对进行计算，得到场景图像的局部纹理信息特征；分类器训练模块12与局部纹理特征计算模块15连接，分类器训练模块12对场景图像的局部纹理信息特征训练，得到N个第二级分类器；第二级分类器16与分类器训练模块12连接，第二级分类器16对场景图像进行分类，得到N个以概率形式表示的分类结果C_i＝(C_i1，C_i2)，i∈[1，N]，其中C_i1，C_i2按照从大到小排列；分类结果融合模块17与第二级分类器16连接，分类结果融合模块17将第一级分类器13得到的结果R1与第二级分类器16得到结果C_i的融合，得到场景图像的最终分类结果。

分类器训练模块12的具体步骤如下：

结构信息特征融合模块11输出的全局结构特征和局部纹理特征计算模块15输出的局部纹理特征作为输入的学习样本x，对于场景图像只有两类问题而言，支持向量机(SVM)给出的鉴别函数方程为：

f (x) = Σ_{i = 1}^{N} y_{i} α_{i} k (x, x_{i}) + b

其中，N是学习样本的数目，y_i是学习样本x_i的类别(+1代表正样本，-1代表负样本)，b是一个常量，k(x，x_i)是一个核函数，其定义如下：

k(x，x_i)＝Φ(x)·Φ(x_i)

其中，Φ(x)和Φ(x_i)是个能把x变换到高维空间的函数。上述公式可以看作是权值矢量w的线性方程：

w = Σ_{i = 1}^{N} y_{i} α_{i} \cdot Φ (x_{i})

参数α_i，i＝1，2，...，N，由学习样本通过解决如下优化问题决定：

\min J (w) = \frac{1}{2} {| | w | |}^{2}

s.t.y_if(x_i)≥1-ξ_i，ξ_i≥0，i＝1，2，...，N

ξ_i是一个松弛变量。这是一个二次规划为题，可以通过转化为它的对偶问题求解：

\max W (α) = Σ_{i = 1}^{N} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{N} α_{i} α_{j} y_{i} y_{j} k (x_{i}, x_{j})

s . t . Σ_{i = 1}^{N} α_{i} y_{i} = 0

0≤α_i≤C，i＝1，2，...，N

公式中C被称为惩罚引子，它为某个指定的常数，它能起到控制对错分样本惩罚程度的作用，实现在错分样本的比例与算法复杂度之间的这种。

上述二次规划问题可以通过优化算法来求解，最后得到一些α_i不为0的学习样本，这些样本被称为支持向量(Support Vectors，SVs)。对于多类的问题，可以采用一对多的方法，将多类问题转化为两类问题，每一类的鉴别方程由其本身和剩下的其它类别构成超类训练获得。求得公式输出最大值对应的那个类别。

局部纹理特征计算模块15的具体步骤：

设X为相似类别对计算模块14输出的相似类别图片中像素集合，即

普通的矢量量化需要满足公式：

\min_{V} Σ_{m = 1}^{M} \min_{k = 1 . . . K} {| | x_{m} - v_{k} | |}_{2}^{2}

其中，V＝[v₁，...，v_K]^T代表相似类别对计算模块14输出的相似类别图片形成的码本(或称词典)中的视觉单词集合，一般通过对X聚类得到，这种量化实质上是用与特征x_m距离最近的视觉单词v_k′来表示x_m，但是这种量化容易造成较大的量化误差，本发明的方法为了减少量化误差，可采用所有像素的线性组合来表示x_m，同时，为了防止过拟合，线性组合的系数需要做一定的约束，如公式所示：

\min_{U, V} Σ_{m = 1}^{M} {| | x_{m} - u_{m} V | |}_{2}^{2} + λ {| | u_{m} | |}_{0}

||v_k||≤1，

其中U＝[u₁，...，u_M]^T为线性组合系数集合，||u_m||₀表示u_m的0范数，即u_m中非零元素的个数，通常情况下，码本V应当是过完备的，即K＞D。解上述优化方程，将u_m作为局部纹理特征。

如图2示出本发明是提供一种场景图像的全局结构信息特征的提取方法，该提取方法的具体步骤如下：

步骤S1：使用场景图像读取模块1读取场景图像，并使用灰度图像判断模块2判断该场景图像是否为彩色图像，若为彩色图像则使用灰度图像转换模块3将彩色图像进行转换，得到灰度图像，若为灰度图像则跳到步骤S2；

步骤S2：使用图像等级划分模块4对灰度图像按照三个级别进行划分，得到第一级划分、第二级划分和第三级划分对应的图像块；经过三级划分后，得到31个图像块；

步骤S3：使用局部二元模式特征计算模块5对图像块中每个像素的结构信息特征进行计算，得到一个8维局部二元模式特征；

步骤S4：使用局部二元模式特征量化模块6对8维局部二元模式特征进行量化，得到1维局部二元模式量化特征，并使用直方图计算模块7计算1维局部二元模式量化特征的直方图，得到255维直方图特征H_ps；使用主成分分析计算模块8对255维直方图特征H_ps进行主成份分析，得到40维直方图特征H_p；再使用直方图计算模块7计算8维局部二元模式特征的直方图，得到8维直方图特征H_b；最后使用直方图特征融合模块9将8维直方图特征H_b和40维直方图特征H_p融合，得到一个图像块对应的48维结构信息特征H_f＝(H_b，H_p)；

步骤S5：使用计数模块10判断所有31个图像块的48维结构信息特征H_f是否全部计算完毕，若没有重复步骤S3至S4，若全部计算完毕，跳到步骤S7；

步骤S6：使用结构信息特征融合模块11对所有31个图像块的48维结构信息特征H_f进行融合，得到一幅图像的全局结构信息特征H_g＝(H_f1，...，H_f31)；

步骤S7：使用分类器训练模块12对全局结构信息特征训练，得到第一级分类器13；

步骤S8：用第一级分类器13对场景图像进行分类，得到以概率形式表示的分类结果R₁＝(R₁₁，R₁₂，...，R_1n)，其中R_1i(i∈[1，n])按照从大到小排列，n为场景图像的类别个数；

步骤S9：使用相似类别对计算模块14统计分类结果R₁中前两个候选的可能情况，即统计(R₁₁，R₁₂)的可能组合，得到N个相似类别对，N∈[1，n(n-1)/2]，为了降低后续的计算复杂度，N一般可设为n/5；

步骤S10：使用局部纹理特征计算模块15针对N个相似类别对进行计算，得到场景图像的局部纹理信息特征；

步骤S11：使用分类器训练模块12对局部纹理信息特征训练，得到N个第二级分类器16；

步骤S12：用第二级分类器16对场景图像进行分类，得到N个以概率形式表示的分类结果C_i＝(C_i1，C_i2)，i∈[1，N]，其中C_i1，C_i2按照从大到小排列；

步骤S13：使用分类结果融合模块17将步骤S8得到的结果R₁与步骤S12得到的结果融合，得到场景图像的最终分类结果。

其中，图像等级划分模块4进行第一级划分对应的图像块的具体步骤如下：

步骤S211：首先对于灰度图像按照长宽比进行4×4的均匀划分，得到16个图像块，如图3中第一级划分的实线所示；

步骤S212：将灰度图像的四周各剪切掉1/8后，再对灰度图像按照长宽比进行3×3的均匀划分，得到9个图像块，此时第一级划分共得到25个图像块，如图3中第一级划分的虚线所示。

其中，图像等级划分模块4进行第二级划分对应的图像块的具体步骤如下：

步骤S221：首先将灰度图像按照原始的长宽比缩小一倍，然后对于缩小后的图像按照长宽比进行2×2的均匀划分，得到4个图像块，如图3中第二级划分的实线所示；

步骤S222：将灰度图像四周各剪切掉1/4后，得到1个图像块，此时第二级划分共得到5个图像块，如图3中第二级划分的虚线所示。

其中，图像等级划分模块4进行第三级划分对应的图像块的具体步骤如下：将灰度图像按照原始长宽比缩小一倍，得到1个图像块，如图3中第三级划分的实线所示。

其中，局部二元模式特征计算模块5获得8维局部二元模式特征的具体步骤如下：

步骤S31：首先定义图像块中像素P₀的8邻域像素为P_i，其中i＝1～8；

步骤S32：比较像素P₀的灰度强度与8邻域像素P_i的灰度强度，若P₀＞P_i，则记为0，若P₀＜P_i，则记为1，对每个像素，共得到8维局部二元模式特征：F_b＝(f_b1，f_b2，f_b3，f_b4，f_b5，f_b6，f_b7，f_b8)，f_bi＝0或1，i＝1～8。

其中，相似类别对计算模块14进行相似类别对的确定具体步骤如下：

步骤S91：统计(R₁₁，R₁₂)共同出现的个数C(R₁₁，R₁₂)；

步骤S92：计算R₁₁和R₁₂的分类准确率P(R₁₁)和P(R₁₂)；

步骤S93：计算相似度S＝C(R₁₁，R₁₂)/(P(R₁₁)·P(R₁₂))；

步骤S94：统计相似度S最大的前N个类别对(R₁₁，R₁₂)作为相似类别对。

其中，分类结果融合模块17第一级分类器13得到的结果R1与第二级分类器16得到结果C_i的融合步骤具体如下：

步骤S131：求分类结果第一级分类结果R₁＝(R₁₁，R₁₂，...，R_1n)中的R₁₁和第二级分类结果C_i＝(C_i1，C_i2)，i∈[1，N]中的C_i1的最大值Tmax；

步骤S132：判断Tmax是否大于θ，其中θ为根据场景图像设定的经验值，若Tmax大于θ，则最终的场景图像的分类结果取R₁，若Tmax小于等于θ，则最终的场景图像的分类结果取R₁和C_i(i∈[1，N])的加权平均值。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种实现场景图像的分类方法，其特征在于：该方法的实现具体步骤如下：

步骤S5：使用计数模块判断所有31个图像块的48维结构信息特征H_f是否全部计算完毕，若没有重复步骤S3至步骤S4，若全部计算完毕，执行步骤S6；

步骤S8：用第一级分类器对场景图像进行分类，得到以概率形式表示的分类结果R₁＝(R₁₁，R₁₂，...，R_1n)，其中R_1i，i∈[1，n]按照从大到小排列， n为场景图像的类别个数；

步骤S9：使用相似类别对计算模块统计分类结果R₁中前两个候选的可能情况，即统计(R₁₁，R₁₂)的可能组合，得到N个相似类别对，N∈[1，n(n-1)/2]；

步骤S13：使用分类结果融合模块将分类结果R₁与第二级分类器的分类结果C_i融合，得到场景图像的最终分类结果；

所述第一级划分对应的图像块的具体步骤如下：

步骤S211：首先对于灰度图像按照长宽比进行4×4的均匀划分，得到16个图像块；

步骤S212：将灰度图像的四周各剪切掉1/8后，再对灰度图像按照长宽比进行3×3的均匀划分，得到9个图像块，此时第一级划分共得到25个图像块；

所述第二级划分对应的图像块的具体步骤如下：

步骤S221：首先将灰度图像按照原始的长宽比缩小一倍，然后对于缩小后的图像按照长宽比进行2×2的均匀划分，得到4个图像块；

步骤S222：将灰度图像四周各剪切掉1/4后，得到1个图像块，此时第二级划分共得到5个图像块；

所述第三级划分对应的图像块的具体步骤如下：将灰度图像按照原始长宽比缩小一倍，得到1个图像块。

2.根据权利要求1所述的实现场景图像的分类方法，其特征在于：所述获得图像块中每个像素的结构信息特征的具体步骤如下：

3.根据权利要求1所述的实现场景图像的分类方法，其特征在于：所述相似类别对的确定具体步骤如下：

步骤S92：计算R₁₁和R₁₂的分类准确率P(R₁₁)和P(R₁₂)；

步骤S93：计算相似度S＝C(R₁₁，R₁₂)/(P(R₁₁)·P(R₁₂))；

4.根据权利要求1所述的实现场景图像的分类方法，其特征在于：所述两级分类器的分类结果的融合具体步骤如下：

步骤S131：求分类结果第一级分类结果R₁＝(R₁₁，R₁₂，...，R_1n)中的R₁₁和第二级分类结果中的C_i＝(C_i1，C_i2)，i∈[1，N]中的C_i1的最大值Tmax；

步骤S132：判断Tmax是否大于θ，其中θ为根据场景图像设定的经验值，若Tmax大于θ，则最终的场景图像的分类结果取R₁，若Tmax小于等于θ，则最终的场景图像的分类结果取R₁和C_i，i∈[1，N]的加权平均值。