CN106056159B

CN106056159B - 基于Fisher Vector的图像精细分类方法

Info

Publication number: CN106056159B
Application number: CN201610390209.2A
Authority: CN
Inventors: 田小林; 焦李成; 薛鹏龙; 张小华; 马文萍; 朱虎明; 缑水平
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-06-03
Filing date: 2016-06-03
Publication date: 2019-03-26
Anticipated expiration: 2036-06-03
Also published as: CN106056159A

Abstract

本发明提出一种基于Fisher Vector的图像精细分类方法，用以解决现有图像精细分类方法中存在分类准确率低的技术问题，包括如下步骤：读取图像库数据，得到包含各个类别的训练图像集和测试图像集；提取训练图像集和测试图像集中每幅图像的RGB特征；求取关于训练图像集RGB特征描述的混合高斯参数；求取匹配图像块集的Fisher Vector特征矢量；求取训练图像集的最终特征描述和测试图像集的最终特征描述；利用SVM对训练图像集的最终特征描述进行训练，得到分类模型；利用分类模型对测试图像集的最终特征描述进行分类。本发明具有分类准确率较高的优点，可应用于互联网通信、交通和公共安全领域。

Description

基于Fisher Vector的图像精细分类方法

技术领域

本发明属于图像处理技术领域，涉及一种图像精细分类方法，具体涉及一种基于Fisher Vector的图像精细分类方法，可应用于互联网通信、交通和公共安全领域中的图像搜索、目标跟踪、指纹识别与人脸识别等。

背景技术

随着计算机与互联网技术的快速发展,我们已经进入了一个以图像构建的世界。然而爆炸式增长的图像数据却使人们进入了“信息发达、知识匮乏”的怪圈,在海量的图像信息与自己所需的数据之间经常出现检索困难的尴尬局面。图像分类技术正是解决这一问题的有效途径。

图像分类，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。但在对同属性不同类别，相似度较低的子类图像进行分类时，传统图像分类的准确率很难做出进一步的提高。图像精细分类是图像分类的一个分支，主要对于相似度区别较低的子类图像集进行精细分类。目前精细分类方法主要有：基于SIFT特征的金字塔编码分类方法；基于多核学习的分类方法；基于人类视觉识别技术的分类方法；基于无标签无注释的词带分类方法，其步骤包括：首先提取图像的RGB、LBP和SIFT等底层特征，并利用数理统计、概率分布等建立模型对提取的图像底层特征进行拟合，获取相应的模型参数；其次利用模型参数将图像的底层特征转化为带有语义信息的高层图像特征，并结合高层图像特征的相似性，利用基于词带的编码技术、或基于金塔字的编码技术或基于视觉词典的编码技术等，对图像进行特征描述；最后选择SVM支撑向量机、或贝叶斯分类学习、或神经网络等分类器，对编码的图像集对进行学习训练。但由于子类图像集中所包含的背景信息复杂，前景信息空间分布不均，相同类别的图像语义也有所差异，造成在构建模型进行图像高层特征描述时，因为不同类别图像的差异性区分不明显，相同类别图像的相似性表现不显著，导致图像分类准确率较低。例如，中国专利申请，授权公告号为CN 102208038 B，名称为“基于视觉词典的图像分类方法”的发明专利，公开了一种基于视觉词典的图像分类方法，该方法包括以下步骤：S1：抽取训练图像数据集的联合局部特征；S2：通过基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化，从而选择聚类中心个数，以形成视觉词典；S3：根据所述视觉词典生成图像的特征表示，以建立图像分类器；S4：根据所述图像分类器分类所述训练图像数据集中的图像。本发明能够获得最具区分度的视觉词典，从而使分类方法对图像数据集的样本空间分布具有自适应性，可以抵抗各种仿射变换和光照变化，对于局部异常、噪声干扰、以及复杂背景具有更好的鲁棒性，而且具有很强的通用性，可以用于各种类型的图像分类，因而具有较高的实用价值。但对同属性不同类别的图像构建视觉词典时，不同类别图像的差异性区分不明显，相同类别图像的相似性表现不显著，影响分类准确率的提高。

发明内容

本发明的目的在于克服上述现有技术从在的缺陷，提出了一种基于FisherVector的图像精细分类方法，用以解决现有图像精细分类方法中存在分类准确率低的技术问题。

本发明的技术思路是：首先由混合高斯模型模拟图像颜色概率密度分布，其次通过提取匹配图像块并拟合混合高斯分布，得到匹配图像块的Fisher Vector特征向量，接着按照匹配图像块与图像随机匹配得到的响应图集，按照空间金字塔编码得到图像的最终特征描述，然后，通过向量机SVM对训练图像集的最终特征描述进行训练，得出多分类模型，最后用分类模型对训练图像集的最终特征描述进行分类。

根据上述技术思路，实现本发明目的采用的技术方案，包括如下步骤：

(1)依照图像库自带文本文档中的图像采样编号，读取图像库中各种类中对应的训练图像和测试图像，得到了包含所有种类的训练图像集和测试图像集；

(2)从得到的训练图像集和测试图像集中提取每幅图像的RGB特征，得到训练图像集的RGB特征描述和测试图像集的RGB特征描述，按如下步骤实现；

(2a)利用简单的线性迭代聚类SLIC超像素分割方法，对得到的训练图像集和测试图像集中的图像进行分割，每幅得到多个带有标签的超像素块；

(2b)提取得到的多个超像素块的RGB特征，得到每幅训练图像的RGB特征描述和测试图像的RGB特征描述；

(2c)将得到训练图像RGB特征描述和测试图像的RGB特征描述进行汇总，得到训练图像集的RGB特征描述或测试图像集的RGB特征描述；

(3)利用训练图像集的RGB特征描述，求取训练图像集的RGB特征描述的混合高斯参数；

(4)求取匹配图像块集的Fisher Vector特征矢量，按如下步骤实现：

(4a)依次沿着得到训练图像集中每幅图像的XY坐标，随机提取相同数目的匹配图像块；

(4b)将提取的匹配图像块和其所对应的训练图像，进行含有超像素块的标签比对，获得每个图像块的RGB特征描述；

(4c)利用得到的混合高斯参数，分别列出每个匹配图像块的RGB特征描述的似然函数，求取每个似然函数的梯度向量，并对求取的每个似然函数的梯度向量均进行归一化，得到每个匹配图像块的Fisher Vector特征矢量；

(4d)对得到的所有匹配图像块的Fisher Vector特征矢量进行汇总，得到匹配图像块集的Fisher Vector特征矢量；

(5)求取训练图像集的最终特征描述和测试图像集的最终特征描述，按如下步骤可实现：

(5a)将得到的匹配图像块集的Fisher Vector特征矢量分别与训练图像集和测试图像集中的每幅图像进行遍历匹配，得到每幅图像的匹配响应图集；

(5b)统计得到的匹配响应图集中每个响应图相似度最大的三个值，作为该响应图的第一层编码；

(5c)沿得到的匹配响应图集中每个响应图的两条几何中心线，将其分割成四个区域，并将每个区域中相似度最大的值，作为该响应图的第二层编码；

(5d)依次对得到第一层编码和第二层编码进行组合，得到每个响应图的金字塔编码；

(5e)对得到的所有响应图的金字塔编码进行汇总，得到响应图集的金字塔编码，并将响应图集的金字塔编码作为该幅图像的最终特征描述；

(5f)按照每幅图像取自于训练图像集或测试图像集，对每幅图像的特征描述进行汇总得到训练图像集的最终特征描述和测试图像集的最终特征描述；

(6)利用SVM支撑向量机，对得到的训练图像集的最终特征描述进行训练，得到分类模型；

(7)利用得到的分类模型，对得到的测试图像集的最终特征描述进行分类。

本发明与现有技术相比，具有以下优点：

第一，本发明由于在计算图像相似度时，采用了求取混合高斯参数，获取匹配图像块的Fisher Vector特征向量的步骤，在匹配图像块尺寸大小不一、空间信息分布不均等情况下，保证了输入特征向量维度始的统一化，提高相似性计算中的信息完整性，与现有技术中的相似性计算输入特征向量维度不统一，造成信息丢失相比，有效地提高了精细分类的准确率。

第二，本发明由于在提取图像底层RGB特征时,采用了简单的线性迭代聚类SLIC分割方法，提取并汇总多个超像素块的RGB特征的方法，保证了图像具有空间结构的颜色特征，并提高了底层特征的鲁棒性，与现有技术中的提取单种底层特征导致信息不完全，提取多种底层特征导致信息重复累计相比，进一步提高了精细分类的准确率。

第三，本发明由于在获取图像的最终特征描述时，采用了对匹配图像块集与每幅图像进行遍历，将遍历得到响应图进行相似行计算，对相似性计算得到的响应图集进行金字塔编码的步骤，保证了在整个图像高层语义描述时无人为干预，并提高了不同类别图像的差异性和同类别图像的相似性，与现有技术相比，提高了子类图像的相似度。

附图说明

图1为本发明的实现流程框图；

图2为本发明与不同现有技术的平均分类准确率对比图。

具体实施措施

下面结合附图和实施例，对本发明作进一步描述。

参照图1，对本发明包括如下步骤：

步骤1，依据仿真实验中使用的鸟类图象数据库自带的图像采样编号，读取图像数据库中13种鸟类所对应的训练图像和测试图像，得到了包含13种鸟类的训练图像集和测试图像集；

步骤2，从得到的训练图像集和测试图像集中提取每幅图像的RGB特征，得到训练图像集的RGB特征描述和测试图像集的RGB特征描述，按如下步骤实现：

2a)利用简单的线性迭代聚类SLIC超像素分割方法，对得到的训练图像集和测试图像集中的图像进行分割，每幅得到150个带有标签的超像素块,实现步骤如下：

(2a1)设定训练图像集和测试图像集中每幅图像预分割超像素块的个数K，并计算每幅图像中种子点之间的近似距离S，计算公式如下：

其中，N为图像像素点个数，N/K为每个超像素块的大小；

(2a2)根据得到的每幅图像种子点的近似距离，提取该幅图像的预分割种子点，并为每个种子分配一个标签L_O＝{L₁,L₂,...,L_K}，其中下标O＝(1,2,...,K)，表示预分割的种子点；

(2a2)计算每幅图像的像素点与其最近的预分割种子点之间，在Lab颜色空间下的欧氏距离d_lab和XY坐标空间下的欧氏距离d_xy，计算公式如下：

其中，l、a、b分别用于代表Lab颜色空间下的黑色到白色、红色到绿色、黄色到蓝色的取值范围，x和y代表XY坐标空间下的平面直角坐标，下标n和o分别代表着该幅图像的像素点和预分割的种子点；

(2a3)利用得到的欧氏距离d_lab和d_xy，计算像素点与其周围预分割种子点的相似度D_o，计算公式如下：

其中，e为种子点的距离，m为衡量颜色值与空间信息在相似度衡量中的比重平衡参数；

(2a4)选择与像素点相似度最高的种子点，给其标上与那个种子点一样的标签，得到带有标签的多个超像素块；

2b)提取得到的多个超像素块的RGB特征，得到每幅训练图像的RGB特征描述和测试图像的RGB特征描述，实现步骤如下：

(2b1)统计得到的每个超像素块在红、绿、蓝三个通道信息中，每个通道的信息总和，分别记为

(2b2)计算得到的的平均值计算公式如下：

其中，l_r，l_g，l_b分别为每个像素块中单通道所包含的像素点总数。

(2b3)对每幅图像中所有的超像素块，其在RGB颜色空间下，红、绿、蓝通道的平均值进行统计汇总，得到每幅图像的RGB特征描述，并记为其中S为一个K×3的矩阵，K为每幅图像超像素块的个数；

2c)将得到训练图像RGB特征描述和测试图像的RGB特征描述进行汇总，得到训练图像集的RGB特征描述或测试图像集的RGB特征描述；

步骤3，利用训练图像集的RGB特征描述，求取训练图像集的RGB特征描述的混合高斯参数，实现步骤如下：

(3a)这里训练图像集的RGB特征描述记作S_A，为其建立混合高斯分布，公式如下：

其中α_j表示单高斯在混合高斯概率分布中的权值,表示第j个高斯模型，j＝(1,2,...,M)，M表示混合高斯数目，1≤i≤N；

(3b)根据训练图像集的RGB特征描述S_A的混合高斯分布，求出关于S_A的似然函数L(S_A|θ)，公式如下：

其中x为输入样本特征，μ_j为单个高斯的均值矩阵，ε_j为单个高斯的方差矩阵，α_j为单高斯在混合高斯概率分布中的权值，θ为对应的参数μ_j，ε_j，α_j；

(3c)使用EM算法，求出训练图像集的RGB特征描述S_A的均值方差关于高斯核数目的相应权重值公式如下：

E步(求期望)，求取1≤i≤N,1≤j≤M

M步(最大化步骤)，

更新权值：

更新均值：

更新方差：

其中j＝(1,2,...,M)，M为混合高斯的高斯数目，而μ_j、ε_j为3×M的矩阵，α_j为1×M的矩阵，μ_j、ε_j和α_j作为所求的混合高斯参数θ；

步骤4，求取匹配图像块集的Fisher Vector特征矢量，按如下步骤实现：

4a)依次沿着得到训练图像集中每幅图像的XY坐标，按照5种不同的尺寸每隔10个像素随机提取6个匹配图像块的方法，获得30个匹配图像块；

4b)将提取的匹配图像块和其所对应的训练图像，进行含有超像素块的标签比对，获得每个图像块的RGB特征描述；

4c)利用得到的混合高斯参数，分别列出每个匹配图像块的RGB特征描述的似然函数，求取每个似然函数的梯度向量，并对求取的每个似然函数的梯度向量均进行归一化，得到每个匹配图像块的Fisher Vector特征矢量，实现步骤如下：

(4c1)将单个匹配图像块的RGB特征描述记为X,由步骤(3b)求得混合高斯参数θ，去拟合X的分布，求取其似然函数L(X|θ)，公式如下：

GMM参数θ＝{μ_j,ε_j,α_j|j＝1,2,...,M}，M为混合高斯数目，X＝{x_j|i＝1,2,...,T}为输入匹配图像块的T个超像素块的RGB特征，

其中，V表示为匹配图像块RGB特征的原始维度，p_j表示每个高斯参数的概率分布；

(4c2)求取似然函数L(X|θ)的梯度向量公式如下：

具体是对参数θ求偏导，

其中，表示V中的一个维度，另由贝叶斯公式知，特征x_i由第j个高斯分布生成的概率是

(4c3)引入fisher matrix，对梯度向量进行归一化处理，得到匹配图像块的Fisher Vector特征矢量，公式如下：

于是最终归一化之后，单个匹配图像块的Fisher Vector特征矢量就是：

4d)对得到的所有匹配图像块的Fisher Vector特征矢量进行汇总，得到匹配图像块集的Fisher Vector特征矢量；

步骤5，求取训练图像集的最终特征描述和测试图像集的最终特征描述，按如下步骤可实现：

5a)将得到的匹配图像块集的Fisher Vector特征矢量分别与训练图像集和测试图像集中的每幅图像进行遍历匹配，得到每幅图像的匹配响应图集，实现步骤如下：

(5a1)对匹配图像块集中的每个匹配图像块沿图像XY坐标进行遍历，利用得到的混合高斯参数，分别列出该幅图像每个遍历区域的RGB特征描述的似然函数，求取每个似然函数的梯度向量，并对求取的每个似然函数的梯度向量进行归一化，得到每个遍历区域的Fisher Vector特征矢量；

(5a2)对匹配图像块和其在该幅图像上的所有遍历区域的Fisher Vector特征矢量，依次进行Power和L2归一化，其中Power归一化的表达式为，从而降低后期分类时的过拟合现象，得到匹配图像块和其在该幅图像上所有遍历区域的Fisher Vector特征矢量，其中Power归一化的表达式为：

f(z)＝sign(z)|z|^α

其中，α是归一化参数，且0≤α≤1，其参数值会随着高斯数目而改变；

L2归一化则采用如下内核进行计算：

(5a3)采用点积的相似性计算方法，对归一化后得到的匹配图像块和其在该幅图像上所有遍历区域的Fisher Vector特征矢量进行计算，得到匹配图像块与其在该幅图像上所有遍历区域的相似度值，组合所有遍历区域的相似度值，得到每个匹配图像块在该幅图像的匹配响应图；

(5a4)汇总所有匹配图像块在该幅图像上的匹配响应图，得到每幅图像的匹配响应图集。

5b)统计得到的匹配响应图集中每个响应图相似度最大的三个值，作为该响应图的第一层编码；

5c)沿得到的匹配响应图集中每个响应图的两条几何中心线，将其分割成四个区域，并将每个区域中相似度最大的值，作为该响应图的第二层编码；

5d)依次对得到第一层编码和第二层编码进行组合，得到每个响应图的金字塔编码；

5e)对得到的所有响应图的金字塔编码进行汇总，得到响应图集的金字塔编码，并将响应图集的金字塔编码作为该幅图像的最终特征描述；

5f)按照每幅图像取自于训练图像集或测试图像集，对每幅图像的特征描述进行汇总得到训练图像集的最终特征描述和测试图像集的最终特征描述；

步骤6，利用SVM支撑向量机，对得到的训练图像集的最终特征描述进行训练，得到分类模型；

步骤7，利用得到的分类模型，对得到的测试图像集的最终特征描述进行分类。

以下结合仿真实验，对本发明的技术效果作进一步描述：

1、仿真条件和内容：

本发明采用MATLAB，MATLAB版本为R2010a，Windows7，32位系统，硬件环境为CPUAMD A6-3400M APU with Radeon HD Graphics.1.4GHz，内存4G，对本发明与不同现有技术的平均分类准确率进行对比仿真实验，其结果如图2所示。

实验中我们选用Caltech-UCSD Birds dataset(CUB-200)数据库，这个数据库在图像精细分类中应用十分广泛。CUB-200数据库包含200张鸟类的图像，每一个类别中，有15张训练图像，以及10～25张测试图像。但是由于外部环境的影响，如果计算机程序运行这么多的图片，需要耗时耗力，不利于实验结果的及时获取，所以我们用了图像库中的一部分进行比对来验证分类性能，我们从绿鹃到啄木鸟只考虑13类鸟的家族。

MATLAB仿真中，我们尝试了多种方法对分类性能的影响，CUB-200数据库有一个粗分割，可以直接把目标框起来，在训练样本中我们也按照这样的分割方法，先把目标给取出来作为新的训练图像样本集，然后再在选取好的目标图像中获取匹配图像块。在获取匹配图像块时，如果随机选择尺寸，则在以后与图像匹配过程中会产生重复无用的程序步骤，滞后程序的运行时间，所以在选取匹配图像块时，我们只考虑5中尺寸的匹配图像块，WH＝[2020；50 50；100 100；50 80；8050]，WH为匹配图像块的宽高尺寸，这样每幅图像只用考虑5种尺寸下的遍历区域即可。

2、仿真结果分析：

参照图2，横坐标代表精细分类的方法类别，纵坐标代表不同精细分类方法的平均准确率，其中基于SIFT特征的金字塔编码分类方法的平均准确率是37.12％，基于多核学习的分类方法的平均分类准确率是37.02％，基于人类视觉识别技术的分类方法的平均分类准确率是40.25％，基于无标签无注释的词带分类方法的平均准确率是39.76％，本发明的平均准确率是40.30％，从图中可以看出，本发明的平均分类准确率比现有的其他精细分类方法中最高的平均分类准确率相比，提高了0.05％。

以上是本发明的一个实例，并不构成对本发明的任何限制，仿真实验表明，本发明能实现提高精细分类的准确率。

Claims

1.一种基于Fisher Vector的图像精细分类方法，包括以下步骤：

2.根据权利要求1所述的基于Fisher Vector的图像精细分类的方法，其特征在于，步骤(3)中所述的混合高斯参数，采用混合高斯分布公式求取：

其中S_A为训练图像集的RGB特征描述，α_j表示单高斯在混合高斯概率分布中的权值,表示第j个高斯模型，j＝(1,2,...,M)，M表示混合高斯数目，1≤i≤N。

3.根据权利要求1所述的基于Fisher Vector的图像精细分类的方法，其特征在于，步骤(5a)中所述将得到的匹配图像块集的Fisher Vector特征矢量分别与训练图像集和测试图像集中的每幅图像进行匹配，按如下步骤实现：

(5a2)对匹配图像块和其在该幅图像上的所有遍历区域的Fisher Vector特征矢量，依次进行Power和L2归一化，得到匹配图像块和其在该幅图像上所有遍历区域的FisherVector特征矢量，其中Power归一化的表达式为：

f(z)＝sign(z)|z|^α

其中，α为归一化参数，且0≤α≤1

L2归一化采用如下内核进行计算：