CN104598920A

CN104598920A - 基于Gist特征与极限学习机的场景分类方法

Info

Publication number: CN104598920A
Application number: CN201410840024.8A
Authority: CN
Inventors: 高颖慧; 王鲁平; 李飚; 王平; 梁楹; 张路平; 赵明; 范明喆
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2015-05-06
Anticipated expiration: 2034-12-30
Also published as: CN104598920B

Abstract

一种基于Gist特征与极限学习机的场景分类方法，先提取图像的Gist特征，采用Gabor小波对场景图像进行卷积操作，然后提取Gist向量作为场景图像的特征描述，将此特征描述用于场景分类当中。本发明利用Gist特征对图像产生一个综合的认知、综合描述了自然度，开放度，粗略度，展开度和崎岖度五种自然属性，相比较传统的场景分类方法可以避免根据各种实际情况设置不同的参数和门限。解决了传统分类中在变化情况较多条件下必须不断调整分类门限的技术难题，运算速度快且具有很好的泛化能力，扩展性很好，随着分类情况复杂度提高、规模的扩大表现出来的优越性越好。

Description

基于Gist特征与极限学习机的场景分类方法

技术领域

本发明涉及场景图像特征提取方法以及极限学习机分类方法。具体的说，就是利用提取图像的Gist全局特征，然后利用经过样本训练的极限学习机对图像分类的方法。

背景技术

场景分类是计算机视觉图片分类的重要分支。场景描述与理解的概念，在2006年的MIT场景理解研讨会上得到了进一步明确，同时会议上还指出，场景分类是一个新的有前途的研究方向，其主要应用在四个主要方面：图像/视频检索，计算机视觉任务，移动机器人以及图像增强。

基于视觉的场景分类方法大致可以划分为3类：基于对象的场景分类、基于区域的对象分类以及基于上下文的场景分类。基于视觉的场景分类方法大部分都是以对象为单位的，典型的基于对象的场景分类方法有分割、特征重组和对象识别等步骤。这种方法的弊端是底层的错误会随着处理的深入而被放大。另一种比较常见的场景分类方法则是基于区域的。该类方法的关键在于如何将图片可靠的分割成区域，并且要求每个区域都有其本身的特征。此类方法面对分割时并不那么灵活，这在非约束的环境下尤为突出，因此，很少有完全基于区域的场景分类方法。基于上下文的场景分类是另一种主流的场景分类方法，这种方法的特点在于忽略了传统的场景分类处理步骤，将输入图片作为一个特征，并提取可以概括图像统计或语义的低维特征。该类方法的目的即为提高场景分类的鲁棒性。因为自然图片中很容易掺杂一些随机噪声，这类噪声会对局部处理造成灾难性的影响，而对于全局图像却可以通过平均数来降低这种影响。基于上下文的方法，通过识别全局对象，而非场景中的小对象集合或者准确的区域边界，因此不需要处理小的孤立区域的噪声和低级图片的变化，其解决了分割和目标识别分类方法遇到的问题。

Gist特征是一种生物启发特征，该特征模拟人的视觉提取图像中粗略但简明扼要的上下文信息。场景Gist(GG)特征是通过多尺度多方向的Gabor滤波器组对场景图像滤波后得到的轮廓信息。

极限学习机是对单隐层前馈神经网络研究中提出的一种新的单隐含层前馈神经网络。该神经网络对于输入层与隐含层间的连接权值及隐含层神经元的偏置没有任何要求，且在训练过程中这两种参数无需调整，只需要设置隐含层神经元的个数，便可以获得唯一的最优解。

发明内容

本发明所要解决的问题是面向场景分类应用需要，设计一种高性能、高可扩展的自主场景分类方法，为计算机视觉的进一步研究和应用提供基础。

本发明中的场景分类算法包括场景特征提取和根据特征学习分类两个过程。具体的设计方案如下：

A图像Gist特征提取

Gist特征是一种全局特征，包括了自然度，开放度，粗略度，展开度和崎岖度五种自然属性。可以用来对图像产生一个综合的认知，避免了设置各种参数和门限。而且图像的Gist特征是基于Gabor小波提取的，研究发现Gabor小波可以很好的模拟人的视觉神经细胞，在提取图像信息时能发挥重要的作用。本发明采用Gabor小波对场景图像进行卷积操作，然后提取Gist向量作为场景图像的特征描述，将此特征描述用于接下来的场景分类当中，具体过程为：

一幅大小为r×c的灰度图像f(x,y)用m尺度n方向的Gabor滤波器组进行滤波，即分别同n_c个通道的滤波器进行卷积，其中n_c＝m×n，再级联卷积的结果，即为图像Gist(IG)特征，将一副大小为r×c的灰度图像f(x,y)划分成n_p×n_p的规则网格，各网格块按行依次记作P_i，其中i＝1,...,n_g；每个网格块大小为r'×c'，分别用n_c个通道的滤波器对图像进行卷积滤波，则每个网格块各通道滤波后，级联的结果称为块Gist(PG)特征，对G^P(G^P表示每个网格块的Gist(PG)特征)块各通道滤波结果取均值后按行组合的结果称为全局Gist(GG)特征，即(G^G是全局Gist(GG)特征)

G^{G} = {\overset{&OverBar;}{G_{1}^{P}}, \overset{&OverBar;}{G_{2}^{P}}, . . ., \overset{&OverBar;}{G_{n_{g}}^{P}}} - - - (1)

式中，

\overset{&OverBar;}{G_{i}^{P}} = \frac{1}{r^{'} {\times c}^{'}} \underset{(x, y) {&Element; P}_{i}}{Σ} G_{i}^{P} (x, y),

G^G的维数为n_c×n_g。

B极限学习机(ELM)对Gist特征进行学习完成图像分类

极限学习机是一种新型的神经网络学习算法，极限学习机具有以下的一些优点。一是极限学习机的参数设置简单。二是极限学习机的计算复杂度很低，运算速度很快。三是极限学习机不会像BP网络那样容易陷入局部最优。四是它采用了神经网络的框架因而可以很容易的处理多分类问题。本发明利用极限学习机的以上优点对样本场景的进行学习，最终生成可以对场景正确的分类的网络。

设P(P的含义就是样本的数目)个不同的训练样本为(x_i,t_i)，其中x_i＝[x_i1,x_i2,…,x_in]^T∈Rⁿ且t_i＝[t_i1,t_i2,…,t_im]^T∈R^m，i＝1,2,…,N，学习网络建模为：

Σ_{j = 1}^{M} β_{j} g_{j} (x_{i}) = Σ_{j = 1}^{M} β_{j} g (w_{j} \cdot x_{i} + b_{j}) = o_{i}, i = 1,2, . . ., N - - - (2)

其中，M是隐藏节点的个数，g(·)为激励函数，选用hardlim或hardlims,w_j＝[w_j1,w_j2,…,w_jn]^T∈Rⁿ是输入节点与第j个隐藏节点的连接权重，b_j∈R是第j个隐藏节点的偏置，β_j＝[β_j1,β_j2,…,β_jm]^T∈R^m是输出节点与第j个隐藏节点的连接权重，w_j·xⁱ表示w_j和x_i的内积。

输入连接权重和隐层节点偏置(w,b)可随机选择，通过学习找到特定的β_j,j＝1,2,…,M使得分类总误差最小：

min||ε||²，s.t.ε_i＝t_i-o_i，i＝1,2,…,N (3)其中，ε_i＝[ε_i1,ε_i2,…,ε_in]^T是第i个样本输出值与真实值间的差值。(3)式中，o_i是输出值，是Gist特征输入后网络输出的值，t_i是真实值，是类别的值，比如属于自然类，就等于自然类的t_i。

假设合理训练的隐层前馈神经网络SLFN能够无误差地逼近N个训练样本，式(3)改写为：

Hβ＝T或||Hβ-T||＝0 (4)

其中，

H = {[\begin{matrix} g (w_{1} \cdot x_{1} + b_{1}) & . . . & g (w_{M} \cdot x_{1} + b_{M}) \\ g (w_{1} \cdot x_{2} + b_{1}) & . . . & g (w_{M} \cdot x_{2} + b_{M}) \\ . & . \\ . & . . . & . \\ . & . \\ g (w_{1} \cdot x_{N} + b_{1}) & . . . & g (w_{M} \cdot x_{N} + b_{M}) \end{matrix}]}_{N \times M} - - - (5)

β = {[\begin{matrix} β_{1}^{T} \\ . \\ . \\ . \\ β_{M}^{T} \end{matrix}]}_{M \times m}, T = {[\begin{matrix} t_{1}^{T} \\ . \\ . \\ . \\ t_{N}^{T} \end{matrix}]}_{N \times m}

H称为神经网络的隐层输出矩阵，H的第i行对应于所有隐藏节点对第i个训练输入x_i的输出向量，而H中的第j列是第j个隐层节点对应于输入样本x^k，k＝1,2,…,N的输出向量。

求解如下线性方程组的广义最小二乘获得

| | H \hat{β} - T | | = \min_{β} | | Hβ - T | | - - - (6)

上述线性方程组的广义最小二乘解为

\hat{β} = \arg \min_{β} | | Hβ - T | | = H^{+} T - - - (7)

其中H⁺＝(H^TH)^-1H^T为隐层输出矩阵H的Moore-Penrose广义逆。

得到了后，测试网络就形成了，然后输入测试图片的Gist特征，进行测试分类，代入Hβ＝O,求o(输出值)，与类别的标签(在具体步骤中给各类设置了标签)对比进行归类，确定所属类别。

采用本发明可以达到以下效果：

1、利用Gist特征对图像产生一个综合的认知、综合描述了自然度，开放度，粗略度，展开度和崎岖度五种自然属性，相比较传统的场景分类方法可以避免根据各种实际情况设置不同的参数和门限。

2、本发明利用极限学习机(ELM)对Gist特征学习完成场景分类的方法能够综合所有样本的情况进行分类，解决了传统分类中在变化情况较多条件下必须不断调整分类门限的技术难题。

3、与传统的基于迭代的隐层前馈神经网络SLFN相比，极限学习机ELM只需要设定隐藏节点的数目，运算速度快且具有很好的泛化能力。

4、本发明的扩展性很好，随着分类情况复杂度提高、规模的扩大表现出来的优越性越好。

附图说明

图1为两类分类单张测试图片分类效果示意图；其中a、b为自然场景，c为人造场景，d为自然场景；

图2为多类分类单张测试图片分类效果示意图；其中a为森林，b为高速公路，c为高楼，d为山脉；

图3为图像Gist特征提取示意图；其中a为原图像，b为把图像分成小块，并进行Gabor滤波，c为场景的全局Gist特征；

图4为实现ELM分类场景流程图。

具体实施方式

为本发明测试采用的是MIT的OT图像库，该图像场景库共分为八类场景：海滩360张，森林328张，山脉374张，户外410张，高速公路260张，城区308张，街道292张，高楼356张，共计2688张。

图1为本发明两类分类过程单张测试图片分类显示结果，图1中包含自然场景与人造场景，图片抬头的文字表述为划归的场景，其中4幅图片中前3幅划分正确，右下角一幅划分错误。两类分类过程是指将八类场景图像合并为自然场景与人造场景两类，其中自然场景包括：海滩、森林、山脉和户外；人造场景包括：高速公路、城区、街道和高楼。

两类分类算法实现步骤：

1、根据Gist特征提取方法，提取八类场景中每一类场景样本的Gist特征，对于前四类样本(海滩、森林、山脉、户外)统一标定标签为0，后四类样本(高速公路、城区、街道、高楼)统一标定标签为1；

2、从每一小类别分别随机选择100幅作为训练样本库，这样自然类和人造类就各有400幅图像作为训练样本，将每一类余下的部分作为测试样本，组建测试样本库，这样测试样本库就有1888幅测试样本；

3、将2中得到的训练样本库作为训练数据，经过ELM学习得到ELM分类模型，其中设置隐藏神经节点数为5000，激励函数选择hardlim；

4、将3中得到的ELM模型作为分类器模型，使用2中的测试样本库进行分类测试，得到分类结果及各种参数，具体结果可见表1；

5、将分类中标签的数字结果转化为图像场景的语义文字表述，输出结果。

所得到的测试结果如表1所示，测试结果中各类样本测试分类正确划分及错误划分情况如表2所示，其中的数据为每一小类别划分进入自然场景和人造场景的数据，正确率为正确划分如该小类所属大类的正确率。正确率对比可以表示如下：以两类分类为例

方法	正确率
		本方法	93％
空域包络	78％
		视觉词包	85％

图3为本发明多类分类过程单张测试图片分类显示结果。图3中每类测试划归为相应类别，上两幅划归正确，下两幅划分错误。多类分类即将八类各自划归为一类进行训练和测试，统计测试正确率。场景的特征提取及分类过程与两类分类基本类似，所不同的是：在ELM进行分类和测试的时候，不再仅仅只标记两类0和1了，而是将8类各自分开进行标记，用阿拉伯数字1～8分别代表海滩、森林、山脉、户外、高速公路、城区、街道和高楼。

多类分类算法实现步骤：

1、根据Gist提取方法提取各类场景图像的Gist特征，用1～8分别标定海滩、森林、山脉、户外、高速公路、城区、街道和高楼；

2、从每一类别中选取100幅作为训练样本组建训练库，余下的组建测试样本库；

3、使用训练样本进行ELM训练，得到ELM分类器模型，其中隐藏神经节点数为5000，激励函数选择hardlim；

4、使用测试样本库进行分类测试，得到测试结果及参数；

所得到的测试结果如表3所示，测试结果中各类样本分类正确率及错分类别情况如表4所示，为每一类划分正确率及其错误划分至其他类别中的数量，表格中的百分比为该类图片正确划分至该类别的正确率。

图4为图像Gist特征提取示意图，一幅大小为r×c的灰度图像f(x,y)用m尺度n方向的Gabor滤波器组进行滤波，即分别同n_c个通道的滤波器进行卷积，其中n_c＝m×n，再级联卷积的结果，即为图像Gist(IG)特征，将一副大小为r×c的灰度图像f(x,y)划分成n_p×n_p的规则网格，各网格块按行依次记作P_i，其中i＝1,...,n_g。网格块大小为r'×c'，分别用n_c个通道的滤波器对图像进行卷积滤波，则每个网格块各通道滤波后，级联的结果称为块Gist(PG)特征，对G^P各通道滤波结果取均值后按行组合的结果称为全局Gist(GG)特征，即

G^{G} = {\overset{&OverBar;}{G_{1}^{P}}, \overset{&OverBar;}{G_{2}^{P}}, . . ., \overset{&OverBar;}{G_{n_{g}}^{P}}} - - - (1)

式中，

\overset{&OverBar;}{G_{i}^{P}} = \frac{1}{r^{'} {\times c}^{'}} \underset{(x, y) {&Element; P}_{i}}{Σ} G_{i}^{P} (x, y),

G^G的维数为n_c×n_g。本发明将场景图像划分为4×4的规则网格，用4个尺度8个方向共32个Gabor滤波器处理每一小块图像，再将经过处理过后的每一小块图像所得到的块图像Gist(IG)特征进行级联就可以得到全局Gist(GG)特征，这样就可以得到一个32×16大小的特征向量组，此一维特征向量组即为所需要求取的全局Gist(GG)特征向量。将整个图像的所有图像块的Gist向量级联得到的整幅场景图像的Gist特征是共计512维的特征向量组。

设本发明中100个不同的训练样本为(x_i,t_i)，其中x_i＝[x_i1,x_i2,…,x_in]^T∈Rⁿ且t_i＝[t_i1,t_i2,…,t_im]^T∈R^m，i＝1,2,…,N，学习网络建模为：

Σ_{j = 1}^{M} β_{j} g_{j} (x_{i}) = Σ_{j = 1}^{M} β_{j} g (w_{j} \cdot x_{i} + b_{j}) = o_{i}, i = 1,2, . . ., N - - - (2)

其中，M是隐藏节点的个数，g(·)为激励函数，w_j＝[w_j1,w_j2,…,w_jn]^T∈Rⁿ是输入节点与第j个隐藏节点的连接权重，b_j∈R是第j个隐藏节点的偏置， β_j＝[β_j1,β_j2,…,β_jm]^T∈R^m是输出节点与第j个隐藏节点的连接权重，w_j·x_i表示w_j和xⁱ的内积。

min||ε||²，s.t.ε_i＝t_i-o_i，i＝1,2,…,N (3)其中，ε_i＝[ε_i1,ε_i2,…,ε_in]^T是第i个样本输出值与真实值间的差值。

Hβ＝T或||Hβ-T||＝0 (4)

其中，

H = {[\begin{matrix} g (w_{1} \cdot x_{1} + b_{1}) & . . . & g (w_{M} \cdot x_{1} + b_{M}) \\ g (w_{1} \cdot x_{2} + b_{1}) & . . . & g (w_{M} \cdot x_{2} + b_{M}) \\ . & . \\ . & . . . & . \\ . & . \\ g (w_{1} \cdot x_{N} + b_{1}) & . . . & g (w_{M} \cdot x_{N} + b_{M}) \end{matrix}]}_{N \times M} - - - (5)

β = {[\begin{matrix} β_{1}^{T} \\ . \\ . \\ . \\ β_{M}^{T} \end{matrix}]}_{M \times m}, T = {[\begin{matrix} t_{1}^{T} \\ . \\ . \\ . \\ t_{N}^{T} \end{matrix}]}_{N \times m}

求解如下线性方程组的广义最小二乘获得

| | H \hat{β} - T | | = \min_{β} | | Hβ - T | | - - - (6)

上述线性方程组的广义最小二乘解为

\hat{β} = \arg \min_{β} | | Hβ - T | | = H^{+} T - - - (7)

其中H⁺＝(H^TH)^-1H^T为隐层输出矩阵H的Moore-Penrose广义逆。

表1两类分类测试正确率

表2各类样本两类划分情况

	自然场景	人造场景	正确率
				海滩(260)	242	18	93％
森林(228)	220	8	96％
				山脉(274)	260	14	94％
户外(310)	292	18	94％
				高速(160)	36	124	77％
城区(208)	5	203	97％
				街道(192)	9	183	95％
高楼(256)	11	245	95％

表3多类分类测试正确率

训练样本数	训练正确率	训练时间	测试样本数	测试正确率	测试时间
						800	1	11.5129	1888	75.58％	3.042

表4各类样本多类分类划分情况

Claims

1.基于Gist特征与极限学习机的场景分类方法，其特征在于包括

以下步骤：A图像Gist特征提取：

采用Gabor小波对场景图像进行卷积操作，然后提取Gist向量作为场景图像的特征描述，将此特征描述用于接下来的场景分类当中，具体过程为：

一幅大小为r×c的灰度图像f(x,y)用m尺度n方向的Gabor滤波器组进行滤波，即分别同n_c个通道的滤波器进行卷积，其中n_c＝m×n，再级联卷积的结果，即为图像Gist特征，将一副大小为r×c的灰度图像f(x,y)划分成n_p×n_p的规则网格，各网格块按行依次记作P_i，其中i＝1,...,n_g；每个网格块大小为r'×c'，分别用n_c个通道的滤波器对图像进行卷积滤波，则每个网格块各通道滤波后，级联的结果称为块Gist特征，用G^P表示每个网格块的Gist特征，对G^P块各通道滤波结果取均值后按行组合的结果为全局Gist特征，用G^G表示全局Gist特征：

G^{G} = {\overset{&OverBar;}{G_{1}^{P}}, \overset{&OverBar;}{G_{2}^{P}}, \cdot \cdot \cdot, \overset{&OverBar;}{G_{n_{g}}^{P}}} - - - (1)

式中，

\overset{&OverBar;}{G_{i}^{P}} = \frac{1}{r^{'} \times c^{'}} \underset{(x, y) &Element; P_{i}}{Σ} G_{i}^{P} (x, y),

G^G的维数为n_c×n_g。

B极限学习机对Gist特征进行学习完成图像分类：

设P个不同的训练样本为(x_i,t_i)，其中x_i＝[x_i1,x_i2,...,x_in]^T∈Rⁿ且t_i＝[t_i1,t_i2,...,t_im]^T∈R^m，i＝1,2,...,N，学习网络建模为：

Σ_{j = 1}^{M} β_{j} g_{j} (x_{i}) = Σ_{j = 1}^{M} β_{j} g (w_{j} \cdot x_{i} + b_{j}) = o_{i}, i = 1,2, . . ., N - - - (2)

其中，M是隐藏节点的个数，g(·)为激励函数，选用hardlim或hardlims,w_j＝[w_j1,w_j2,...,w_jn]^T∈Rⁿ是输入节点与第j个隐藏节点的连接权重，b_j∈R是第j个隐藏节点的偏置，β_j＝[β_j1,β_j2,...,β_jm]^T∈R^m是输出节点与第j个隐藏节点的连接权重，w_j·x_i表示w_j和x_i的内积；

输入连接权重和隐层节点偏置(w,b)可随机选择，通过学习找到特定的β_j,j＝1,2,...,M使得分类总误差最小：

min||ε||²，s.t.ε_i＝t_i-o_i，i＝1,2,...,N (3)其中，ε_i＝[ε_i1,ε_i2,...,ε_in]^T是第i个样本输出值与真实值间的差值；(3)式中，o_i是输出值，是Gist特征输入后网络输出的值，t_i是真实值，是类别的值；

Hβ＝T或||Hβ-T||＝0 (4)

其中，

H = {[\begin{matrix} g (w_{1} \cdot x_{1} + b_{1}) & . . . & g (w_{M} \cdot x_{1} + b_{M}) \\ g (w_{1} \cdot x_{2} + b_{1}) & . . . & g (w_{M} \cdot x_{2} + b_{M}) \\ . & . \\ . & . . . & . \\ . & . \\ g (w_{1} \cdot x_{N} + b_{1}) & . . . & g (w_{M} \cdot x_{N} + b_{N}) \end{matrix}]}_{N \times M} - - - (5)

β = {[\begin{matrix} β_{1}^{t} \\ . \\ . \\ . \\ β_{M}^{T} \end{matrix}]}_{M \times m}, T = {[\begin{matrix} t_{1}^{T} \\ . \\ . \\ . \\ t_{N}^{T} \end{matrix}]}_{N \times m}

H称为神经网络的隐层输出矩阵，H的第i行对应于所有隐藏节点对第i个训练输入x_i的输出向量，而H中的第j列是第j个隐层节点对应于输入样本x_k，k＝1,2,...,N的输出向量；

求解如下线性方程组的广义最小二乘获得

| | H \hat{β} - T | | = \min_{β} | | Hβ - T | | - - - (6)

上述线性方程组的广义最小二乘解为

\hat{β} = \arg \min_{β} | | Hβ - T | | = H^{+} T - - - (7)

其中H⁺＝(H^TH)^-1H^T为隐层输出矩阵H的Moore-Penrose广义逆；

得到了后，测试网络就形成了，然后输入测试图片的Gist特征，进行测试分类，代入Hβ＝O,求输出值o，与各类设置的类别的标签对比进行归类，确定所属类别。