CN106778768A

CN106778768A - 基于多特征融合的图像场景分类方法

Info

Publication number: CN106778768A
Application number: CN201611036315.7A
Authority: CN
Inventors: 李志欣; 李艳红; 张灿龙
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2017-05-31

Abstract

本发明公开基于多特征融合的图像场景分类方法，首先提取出图像的GIST特征、SIFT特征和PHOG特征；然后对图像的SIFT特征进行局部约束线性编码，并将SIFT特征稀疏编码经池化处理后得到样本图像的SIFT特征稀疏向量；接着将样本图像的GIST特征、SIFT特征稀疏向量和PHOG特征进行级联后形成样本图像的最终特征表示，并将样本图像的最终特征表示输入线性分类器训练；之后对于待分类的图像也使用上述方法提取图像表示后输入已经训练好的线性SVM分类器完成分类。本发明能够在提高分类精度的同时，又增强了系统的鲁棒性。

Description

基于多特征融合的图像场景分类方法

技术领域

本发明涉及计算机图像处理技术领域，具体涉及一种基于多特征融合的图像场景分类方法。

背景技术

图像理解(image understanding，IU)就是对图像的语义理解。它是以图像为对象，知识为核心，研究图像中有什么目标、目标之间的相互关系、图像是什么场景以及如何应用场景的一门学科。其中，图像场景分类是图像理解的一个分支。所谓图像场景分类，就是自动判别一个语义类别集中的一幅图像属于哪个场景类(如海滩、森林和街道)。图像场景分类技术一直以来备受人们的研究关注。已经在很多方面得到应用。虽然人们在提取特征方面取得很大的进步，但是由于光照、角度、尺度以及空间位置的影响，图像场景分类仍然是一项具有挑战的任务。

根据图像描述方式的不同，当前图像场景分类大体可分为基于全局特征和基于局部特征的分类。然而，由于图像中包含的各种物体信息非常丰富，但彼此之间的空间分布错综复杂，基于全局特征或者基于局部特征的描述方法都会造成不可避免的错分、误分等现象。

发明内容

本发明所要解决的技术问题是现有图像场景分类方法存在错分、误分的问题，提供一种基于多特征融合的图像场景分类方法，其能够在提升分类精度的同时，保证分类效率。

为解决上述问题，本发明是通过以下技术方案实现的：

基于多特征融合的图像场景分类方法，包括如下步骤：

步骤1)样本图像的训练阶段；

1.1)同时提取样本图像的GIST特征、SIFT特征和PHOG特征；

1.2)对样本图像的SIFT特征进行局部约束线性编码，得到样本图像的SIFT特征稀疏编码；

1.3)样本图像的SIFT特征稀疏编码经池化处理后得到样本图像的SIFT特征稀疏向量；

1.4)将样本图像的GIST特征、SIFT特征稀疏向量和PHOG特征进行级联后形成样本图像的最终特征表示，并将样本图像的最终特征表示输入线性分类器训练；

步骤2)待分类图像的分类阶段；

2.1)同时提取待分类图像的GIST特征、SIFT特征和PHOG特征；

2.2)对待分类图像的SIFT特征进行局部约束线性编码，得到待分类图像的SIFT特征稀疏编码；

2.3)待分类图像的SIFT特征稀疏编码经池化处理后得到待分类图像的SIFT特征稀疏向量；

2.4)将待分类图像的GIST特征、SIFT特征稀疏向量和PHOG特征进行级联后形成待分类图像的最终特征表示，将待分类图像的最终特征表示输入步骤1.4)训练好的线性分类器进行判别，确定该幅待分类图像属于哪一类。

上述步骤1.3)和步骤2.3)中，所述池化处理是基于基于空间金字塔匹配框架的池化处理。

上述步骤1.1)和步骤2.1)中，GIST特征提取的过程为：首先将图像和不同方向与不同尺度的Gabor滤波器组进行滤波，然后把滤波后的图像划分成网格，在每一个网格内部取平均值，最后按行组合把所有的网格均值级联起来。

上述步骤1.1)和步骤2.1)中，SIFT特征提取的过程包括：构建尺度空间，极值点检测，特征点定位，计算特征点方向，以及生成SIFT特征描述符这5个步骤。

上述步骤1.1)和步骤2.1)中，PHOG特征提取的过程为：首先得到图像的部分或全部轮廓；然后计算轮廓点处的梯度模和梯度方向，并再将梯度方向转换成以度为单位后分成K个区间，在各区间上累加梯度模的值作为该区间的权值，得到梯度方向直方图；接着将一幅图像逐级分割细化；最后计算每一级各块所含边缘点对应的梯度方向直方图，将所有这些梯度方向直方图连接起来；上述K为正整数。

与现有技术相比，本发明具有如下特点：

(1)利用GIST特征对图像产生一个综合的认知，综合描述了自然度、开放度、粗略度、展开度和崎岖度五种自然属性，相比较传统的场景分类方法可以避免了根据各种实际情况设置各种参数和门限。

(2)在特征学习过程中融合了GIST、SIFT跟PHOG特征的各自的优点，能够起到特征之间的优势互补，因而能够在一种特征不能详细描述图像的情况下，取得更好的分类精度。

(3)对于输入图像视觉特征的学习采用稀疏编码，对于图像的特征之间空间关系采用SPM框架进行池化，能够对高维向量起到有效的降维作用。

(4)LLC的编码速度快，效率高，为线性分类提供了基础。分类时使用线性分类器能大大缩短训练时间。在提高分类精度的同时，又增强了系统的鲁棒性。

附图说明

图1为基于多特征融合的图像场景分类方法的原理框图。

具体实施方式

针对图像当中的不同对象，各种特征的优势各不相同，彼此之间存在互补现象，多特征融合能够解决单特征描述的不足。本发明提出一种基于多特征融合的图像场景分类方法，首先，提取出图像的GIST特征、SIFT特征和PHOG特征。由于GIST特征属于稀疏网格划分，所以一个网格中可能包含不同的场景特征，里面的具体细节目标可能会被忽略。SIFT特征是图像场景分类中被广泛使用的一种局部特征，实现对特征点的精确定位。PHOG特征是一种空间形状描述，它表征一副图像的局部形状以及其形状的空间关系。三者组合起来描述图像场景能够提供更丰富的信息，特征之间能够达到优势互补。然后，对SIFT特征进行局部约束线性编码(Locality-constrained linear coding，LLC)，LLC在基于稀疏编码的空间金字塔匹配(spatial pyramid matching using sparse coding，ScSPM)的基础上引入了局部约束的概念，认为图像特征不仅要满足稀疏性，同时还要兼顾局部性，进一步提高了计算效率和准确性；紧接着，进行向量的最大池化。最后，采用线性SVM分类器对空间金字塔特征集进行分类。

具体来说，基于多特征融合的图像场景分类方法，如图1所示，包括以下步骤：

步骤1)样本图像的训练阶段。

1.1)同时提取样本图像的GIST特征、SIFT特征和PHOG特征。

1.2)对样本图像的SIFT特征进行局部约束线性编码，得到样本图像的SIFT特征稀疏编码。

1.3)样本图像的SIFT特征稀疏编码经池化处理后得到样本图像的SIFT特征稀疏向量。所述池化处理是基于空间金字塔匹配框架的池化处理。

1.4)将样本图像的GIST特征、SIFT特征稀疏向量和PHOG特征进行级联后形成样本图像的最终特征表示，并将样本图像的最终特征表示输入线性分类器训练。

步骤2)待分类图像的分类阶段。

2.1)同时提取待分类图像的GIST特征、SIFT特征和PHOG特征待。

2.2)对待分类图像的SIFT特征进行局部约束线性编码，得到待分类图像的SIFT特征稀疏编码待。

2.3)待分类图像的SIFT特征稀疏编码经池化处理后得到待分类图像的SIFT特征稀疏向量待。所述池化处理是基于基于空间金字塔匹配框架的池化处理。

稀疏表示是近几年来图像处理和计算机视觉领域的研究热点之一，它是一种无监督学习方法，用来寻找一组“超完备”基向量来更高效地表示样本数据。在图像处理领域中，图像的稀疏表示是在SPM框架内，将图像各个区域内池化后的向量A级联起来，从而表示一幅图像的过程。

本发明中采用LLC对底层特征进行编码，LLC编码侧重于局部约束，而不是稀疏性，局部性可以带来稀疏性，但稀疏性未必满足局部性。从这方面而言，局部性约束比稀疏性约束更为重要。LLC的编码满足下式的约束：

式(1)可以按照加号的前后分成两部分：加号前的项最小化是为了减少量化误差，学习字典B并确认投影系数；加号后的项则是做出假设约束。其中，X＝[x₁,x₂,…,x_N]∈R^D×N，是一个包含N个D维局部特征的矩阵,x_i为待编码的向量。B＝[b₁，b₂，...,b_M]∈R^D×M,是一个包含M个视觉词汇的词典。LLC编码把所有X映射到B定义的编码空间，u_i为经过LLC得到的编码。λ为正则项平衡加号前后两项,并确保u_i的稀疏性。||d_i·u_i||是向量元素d_i和u_i维度的相乘，体现了编码的局部性。d_i为不同编码的权重，用于权衡编码中每个元素u_i和词典B中相应列的关系。d_i可用下式计算：

其中，dist(x_i,B)＝[dist(a_i,b₁)，…,dist(a_i,b_M)]^T,dist(a_i,b_j)是局部特征a_i到视觉词汇b_j的欧氏距离。每个元素代表向量x_i与词典B中每列向量的欧氏距离。σ为可调整的参数，用于控制d_i的大小，即控制局部衰减性速度。

由于加入局部性的约束，LLC编码相对于稀疏编码而言更为平滑。ScSPM稀疏编码时，为满足编码的稀疏性，相似的像素块经过编码后得到的结果有可能差异较大，因此导致丢失其大部分相似性信息。LLC编码能保证相似的像素块得到相近的编码，从而保证重建出的像素块的相似性，保证局部平滑。

ScSPM稀疏编码时需要采取优化算法进行迭代，带来较高的计算量，而LLC算法有解析解，能够降低运算消耗，加快运算速度。在实验部分，则采用最大池化跟L2正则化。

max-pooling：max-pooling为池化方式的一种。在本发明中,我们利用基于LLC编码的SIFT得到图像稀疏向量表示,并结合线性SVM分类器进行分类。U是描述符集X利用公式(1)稀疏编码之后的结果。假设码本B是提前训练好的。我们定义池化函数：

Z＝F(U) (3)

其中，U＝[u₁,u₂,…,u_M]^T,z＝[z₁,z₂,…,z_M]，z_j＝max{|u_1j|,|u_2j|,…,|u_Mj|}，M为图像特征描述子的个数,z_j是z的第j个元素，u_ij是矩阵U的第i行第j列的元素。每个u_i就是一个特征描述子的稀疏编码。最大池化技术是根据人脑视觉皮层V1区中生物学方面来建立的，自然图像经过稀疏编码后得到的基函数类似V1区简单细胞感受野的反应特性,综合了图像空间局部性、空间方向性、信息选择性的特点,因此比直方图统计的平均池化具有更好的鲁棒性。

如图1所示，图像场景分类方法的算法，包含以下步骤：

步骤1：在D类图像中，每类随机选取C幅图像作为训练图像。

步骤2：生成GIST特征

将一幅大小为r×c的灰度图像f(x,y)划分为n_p×n_p的规则网格，则网格块数为n_g＝n_p×n_p。各网格块按行依次记作p_i，其中i＝1,…,n_g；每个网格块大小为r’×c’，r’,＝r/n_p，c’＝c/n_p。分别用n_c个通道的滤波器对图像进行卷积滤波，其中n_c＝m×n，m为滤波器尺度数，n滤波器方向数，则每个网格块各通道滤波后，级联结果称为块GIST(PG)特征，对G^p(G^p表示每个网格块的GIST(PG)特征)各通道滤波结果取均值后按行组合的结果称为全局GIST(GG)特征，即(G^G是全局GIST(GG)特征)

其中，G^G的维数是n_c×n_g。

本发明将图像划分为4×4的规则网格，用4个尺度8个方向共32个Gabor滤波器处理每一小块图像，再将经过处理过后的每一小块图像所得到的块图像GIST(PG)特征进行级联就可以得到全局GIST(GG)特征，这样就可以得到一个32×16大小的特征向量组，此一维特征向量组即为所需要求取的全局GIST(GG)特征向量。将整个图像的所有图像块的GIST向量级联得到整幅场景图像的GIST特征共计512维的特征向量组，用A1表示。

步骤3：生成SIFT特征

传统的SIFT特征提取主要包括五个步骤：构建尺度空间，极值点检测，特征点定位，计算特征点方向，生成SIFT特征描述符。

(1)构建尺度空间。图像尺度空间是由一个变尺度的高斯卷积核G(x，y，σ)和图像I(x，y)卷积生成，定义为：

L(x,y,σ)＝G(x,y,σ)*I(x,y) (5)

其中，G(x,y,σ)是尺度可变高斯函数：

其中，(x，y)是空间坐标，是尺度坐标。σ表示尺度因子，大尺度对应图像的概貌特征，小尺度对应图像的细节特征。大的σ值对应粗糙尺度(低分辨率)，反之，对应精细尺度(高分辨率)。为了有效的在尺度空间检测到稳定的关键点，提出了高斯差分(DOG)尺度空间。利用不同尺度的高斯差分核与图像卷积生成。

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,σ))*I(x,y) (7)

(2)极值点检测。建立尺度空间后，为了寻找尺度空间的极值点，每一个采样点要和它所有的相邻点比较，看其是否比它的图像域和尺度域的相邻点大或者小。DOG图像中的像素点需要与同一尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较，以确保在尺度空间和二维图像空间都检测到极值点。

(3)精确定位极值点。利用泰勒展开式对尺度空间函数D(x,y,σ)展开，实现对特征点的精确定位：计算D(x)的导数并令其为零，得到特征点的偏移量其与原图像中的x相加即为特征点的位置。

(4)计算特征点方向。上一步中确定了每幅图中的特征点，为每个特征点计算一个方向，依照这个方向做进一步的计算，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性。

(5)生成SIFT特征描述符。以特征点为中心计算4×4小块上8个方向的梯度方向直方图，将采样点与特征点的相对方向通过高斯滤波后归入8个方向的直方图，计算每个梯度方向的累加值，形成一个种子点。一个特征点由4×4共16个种子点组成，使得每个特征点都能成生4×4×8＝128个数据，进而形成128维的SIFT特征描述符。

步骤4：生成PHOG特征

PHOG是一种空间形状描述，它表征一副图像的局部形状以及其形状的空间关系。PHOG的形状描述是用直方图来表示的。得到图像的部分或全部轮廓后，计算轮廓点处的梯度模和梯度方向，再将梯度方向转换成以度为单位，范围为[0，180°]或[0，360°]。并分成K个区间，在各区间上累加梯度模的值作为该区间的权值，得到梯度方向直方图。本文梯度方向范围取为[0，360°]，取K＝40，即1个区间9度。为了表示图像的形状布局，将一幅图像逐级分割细化。分割一般是按横纵坐标均分两段，前一级分割的每块在下一级中就被分成4块。计算每一级各块所含边缘点对应的梯度方向直方图，将所有这些梯度方向直方图连接起来就得到最终的PHOG形状描述特征，用A3表示。

步骤5：采用LLC技术对SIFT特征进行稀疏表示。

对SIFT特征进行稀疏编码生成SIFT稀疏表示需要以下操作：

1)构建视觉词汇库

从所有图像集中随机选取若干图像,并提取SIFT特征,形成SIFT特征向量集L＝[l₁,l₂,…l_i,…,l_N]。其中l_i∈R¹²⁸,N为SIFT特征向量的个数。L＝[l₁,l₂,…l_i,…,l_N]即对应式(1)中的训练向量集X＝[x₁,x₂,…,x_N]。利用迭代算法求解SIFT特征向量集L＝[l₁,l₂,…l_i,…,l_N]的视觉词汇库Q∈R^128×K,K表示视觉词汇库的大小，Q对应(1)中的过完备字典B。

2)LLC稀疏编码

本发明采用目前使用最有效的图像特征，图像块特征采用密集的SIFT描述子，提取的规则网格大小为16×16，间隔为8。对每幅图像的SIFT特征描述子L＝[l₁,l₂,…l_i,…,l_N]利用字典B进行LLC编码，这样就得到每幅图像的编码矩阵H＝[h₁,h₂,…,h_s]^T。其中h_i是每个特征描述子的编码，s是描述子的个数。

3)采用SPM框架进行池化

采用SPM框架进行池化。将图像分成3层，第0层将整幅图像作为一个区域，对应编码矩阵H，对H的每一列应用最大池化技术，得到向量y0。然后，第1层将整幅图像均匀划分为4个区域。按从左往右、从上到下对应的编码矩阵分别为H00、H01、H10、H11，同样对每个编码矩阵按列运用最大池化技术，得到向量y1，y2，y3，y4。同样地，第2层将整幅图像均匀划分为16个区域，池化后得到y5，y6，…，y20。

4)级联

将y0，y1,…，y20加权后级联起来，得到图像SIFT特征表示向量A2。按第0层权值为1/4，第1层权值为1/4，第2层权值为1/2。

步骤6：将A1，A2、A3级联起来得到最终训练图像表示A。

步骤7：将所有的训练图像输入线性SVM分类器进行训练。

之后，对于待分类的图像也使用上述方法提取图像表示后输入已经训练好的线性SVM分类器完成分类。

基于采用单一特征对所有类别进行分类时，容易出现某一类场景图像显著特征丢失的情况，本发明将GIST特征、SIFT特征稀疏向量和PHOG特征三者组合起来共同描述图像场景，融合的特征能够提供更丰富的信息，特征之间能达到优势互补。分类时使用线性分类器能大大缩短训练时间。在提高分类精度的同时，又增强了系统的鲁棒性。

Claims

1.基于多特征融合的图像场景分类方法，其特征是，包括如下步骤：

步骤1)样本图像的训练阶段；

1.1)同时提取样本图像的GIST特征、SIFT特征和PHOG特征；

步骤2)待分类图像的分类阶段；

2.1)同时提取待分类图像的GIST特征、SIFT特征和PHOG特征；

2.根据权利要求1所述的一种基于多特征融合的图像场景分类方法，其特征是，步骤1.3)和步骤2.3)中，所述池化处理是基于基于空间金字塔匹配框架的池化处理。

3.根据权利要求1所述的一种基于多特征融合的图像场景分类方法，其特征是，步骤1.1)和步骤2.1)中，GIST特征提取的过程为：首先将图像和不同方向与不同尺度的Gabor滤波器组进行滤波，然后把滤波后的图像划分成网格，在每一个网格内部取平均值，最后按行组合把所有的网格均值级联起来。

4.根据权利要求1所述的一种基于多特征融合的图像场景分类方法，其特征是，步骤1.1)和步骤2.1)中，SIFT特征提取的过程包括：构建尺度空间，极值点检测，特征点定位，计算特征点方向，以及生成SIFT特征描述符这5个步骤。

5.根据权利要求1所述的一种基于多特征融合的图像场景分类方法，其特征是，步骤1.1)和步骤2.1)中，PHOG特征提取的过程为：首先得到图像的部分或全部轮廓；然后计算轮廓点处的梯度模和梯度方向，并再将梯度方向转换成以度为单位后分成K个区间，在各区间上累加梯度模的值作为该区间的权值，得到梯度方向直方图；接着将一幅图像逐级分割细化；最后计算每一级各块所含边缘点对应的梯度方向直方图，将所有这些梯度方向直方图连接起来；上述K为正整数。