CN107341505A

CN107341505A - 一种基于图像显著性与Object Bank的场景分类方法

Info

Publication number: CN107341505A
Application number: CN201710422205.2A
Authority: CN
Inventors: 王志成; 卫刚; 陈梦婷
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-06-07
Filing date: 2017-06-07
Publication date: 2017-11-10
Anticipated expiration: 2037-06-07
Also published as: CN107341505B

Abstract

本发明涉及一种基于图像显著性与Object Bank的场景分类方法，该方法包括如下步骤：(1)针对每一种场景分别选取训练样本，对训练样本中的图像采用基于图像显著性与Object Bank的方法提取样本图像高层特征；(2)对样本图像高层特征通过主判别分析方法进行降维得到样本图像降维特征向量并输入至分类器；(3)对测试图像采用基于图像显著性与Object Bank的方法提取测试图像高层特征；(4)对测试图像高层特征通过主判别分析方法进行降维得到测试图像降维特征向量；(5)将测试图像降维特征向量输入至分类器，分类器对测试图像进行分类得到测试图像所对应的场景。与现有技术相比，本发明具有分类准确率高的优点。

Description

一种基于图像显著性与Object Bank的场景分类方法

技术领域

本发明涉及一种场景分类方法，尤其是涉及一种基于图像显著性与Object Bank的场景分类方法。

背景技术

在基于场景内容的图像和视频检索领域中，场景分类具有十分重要的应用价值。尤其是随着图像内容的复杂化，基于图像场景语义的场景分类问题慢慢发展为计算机视觉领域中的主流研究方向，与信号处理、人工智能、模式识别和认知科学等多学科交叉技术密切相关。利用对场景图像信息的理解来进行图像数据库的分类管理和组织，通过图像搜索引擎查询到符合用户认知需求的图像。由于视频可以分割成图像帧，所以基于视频关键帧的场景分类可以有效的对视频信息进行查询，并对视频数据进行管理与分类。在机器人研究领域，很难让机器人和人类一样高效地对场景进行辨别。要是可以达到与人类相似的辨别能力，那么可以很高程度上有效的提高机器人的工作效率以及任务完成的质量。而场景分类正是实现这一功能的关键技术点。场景分类有助于机器人快速的对其所处环境进行分析与辨别，实时的预判其在所处环境中的位置及方向。另外，在例如物体检测等相关的检测识别领域中，场景分类还可以提供丰富的场景语义信息来引导识检测别任务。

由于底层特征的局限性，近年来越来越多的学者致力于高层特征的研究，也提出了多种有效的高层特征。高层特征是基于底层特征的基础上去提取出更高级更加能反应出图像的语义信息的特征。相较于简单的提取图像原始信息的底层特征，高层信息更具有表现力，充分考虑到了场景的上下文信息。

2012年，F Sadeghi，MF TappenSadeghi在European Conference on ComputerVision会议上发表题为Latent pyramidal regions for recognizing scenes的文章，提出了一种简单有效的高层特征LPR(Latent Pyramidal Regions)。在该方法中，通过LSVM(Lagrangian Support Vector Machine)训练得到目标检测子，然后和SPM空间模型通过级联计算从而得到LPR特征。将LPR特征应用于场景分类中有两个明显的优点。在场景多变的情况下，LPR特征剔除了整体空间结构上的限制，而在描述图像区域时加入了局部空间结构特性。另外一个优点便是该方法将场景分类中的分类器和检测图像区域的检测子完全分离，使得分类器可以进一步的优化权重参数从而达到更佳的分类效果。然而LPR特征也有其缺陷，由于需要提前训练出检测子的模型，使得该方法在不同的数据集之间的通用性变差。

2013年，M Juneja，A Vedaldi，CV Jawahar，A Zisserman在IEEE Conference onComputer Vision and Pattern Recognition(CVPR)会议上发表了题为Blocks ThatShout:Distinctive Parts for Scene Classification的文章，提出了一种基于高层语义的BOP(Bag of parts)特征。该方法的核心思想认为一幅场景图像是由一系列一般的目标以及抽象的目标组成的，只需检测到并表述这些具有显著分辨力的区域，就能通过这些区域的内在语义判断出其场景类别。对于基于高层特征的场景分类来说，目标检测子的效果对场景分类的精度有着很大的影响。因此如果能有效的检测到场景中的目标，那么就能在理解场景语义的基础上对场景进行分类。BOP特征不但考虑了场景中比较常见的目标，例如床、椅子等，还充分考虑到场景中的抽象目标，例如棱角、边框等，包含了更加充分的场景语义，是场景分类中一种比较理想的方法

2014年，LJ Li，H Su，Y Lim，L Fei-Fei在International Journal of ComputerVision第107卷第1期上发表题为Object Bank:An Object-Level Image Representationfor High-Level Visual Recognition的文章，提出了一种高层语义的特征向量——Object Bank(OB)。在该方法中，图像是由一系列的目标物体组成的，通过识别图像中的目标物体进而去判断场景所属于的类别。这种场景分类思路与人类判别场景的过程比较相似，在理解场景深层语义的基础上去判别场景，因而在大部分的自然场景和室内场景中都有着较好的分类效果。但是包含了丰富的场景语义信息的高维特征OB增加了该方法的计算复杂度，降低了分类的性能，这也正是该方法的局限性之一。通过该方法所提取的OB特征包含了图像中的语义信息，因此可以通过OB特征来确定该图像所包含的目标，进一步去根据目标来识别场景。由于OB特征需要根据场景中所包含的目标从而对场景进行分类，因此在越复杂场景中其分类效果越好。反之，由于OB特征的高维特点使得其在相对简单的场景中的分类性能下降，因此分类优势就不那么明显了。

对于一些计算机视觉任务，例如目标识别、场景识别等，可以借助视觉显著性来实现对场景信息的理解，并利用计算机从复杂的信息中模拟人的视觉机制，获取人类感兴趣的区域。为了从图像中分析出感兴趣的区域，很多学者都投入到视觉注意的研究领域中。目前涌现了越来越多的显著性分析算法，大致上可以分为以下三类：

基于生物视觉原理的显著性分析算法。其中具有代表性算法的是L Itti，C Koch，E Niebur于1998年在IEEE Transactions on Pattern Analysis and MachineIntelligence第20卷第11期发表的题为A model of saliency-based visual attentionfor rapid scene analysis的文章(以下简称Itti算法)，该方法是一种模仿生物视觉注意机制的选择性注意算法，算法简单且计算速度比较快，适用于处理分析自然图像。但是由于Itti算法为了提高计算速度，减少了与生物模型的相似度。

基于纯数学计算的显著性分析算法。比较有代表性的是X Hou，L Zhang于2007年在CVPR会议上发表的题为Saliency Detection:A Spectral Residual Approach 的文章，提出一种全分辨率的AC算法和基于空间频域分析的SR(Spectral Residual)算法。这两种算法都是基于纯数学计算的算法，完全不基于任何生物视觉原理。

基于信息理论的显著性分析算法。比较有代表性的是B J Platt，THofmann于2006年在Advances in Neural Information Processing Systems第19卷发表题为Graph-Based Visual Saliency的文章，提出了一种将图论应用于显著性分析中的算法——GBVS(Graph-Based Visual Saliency)。GBVS算法与Itti算法在计算显著性过程上比较相似，都利用了视觉原理，但是在处理显著值时利用纯数学计算。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于图像显著性与Object Bank的场景分类方法。

本发明的目的可以通过以下技术方案来实现：

一种基于图像显著性与Object Bank的场景分类方法，该方法包括如下步骤：

(1)针对每一种场景分别选取训练样本，对训练样本中的图像采用基于图像显著性与Object Bank的方法提取样本图像高层特征；

(2)对训练样本中的图像的样本图像高层特征通过主判别分析方法进行降维得到样本图像降维特征向量并输入至分类器；

(3)对测试图像采用基于图像显著性与Object Bank的方法提取测试图像高层特征；

(4)对测试图像的测试图像高层特征通过主判别分析方法进行降维得到测试图像降维特征向量；

(5)将测试图像降维特征向量输入至所述的分类器，分类器对测试图像进行分类得到测试图像所对应的场景。

步骤(1)和(3)中基于图像显著性与Object Bank的方法进行样本图像高层特征或测试图像高层特征提取具体方法为：

(a1)通过基于图论的显著性分析算法获取待高层特征提取图像I的GBVS显著图A；

(a2)通过基于谱残差的显著性分析算法获取待高层特征提取图像I的SR显著图S；

(a3)将GBVS显著图A和SR显著图S叠加至待高层特征提取图像I中得到具有显著性的图像I′；

(a4)对具有显著性的图像I′采用Object Bank方法进行特征提取得到待高层特征提取图像I的高层特征。

步骤(a3)中具体为：

对待高层特征提取图像I中的所有像素点像素值进行更新得到具有显著性的图像I′，对于任意像素点(i，j)的像素值I(i,j)采用下述公式更新得到该像素点进行显著性叠加后对应的像素值I′(i,j)：

I′(i,j)＝I(i,j)+αA(i,j)+βS(i,j)，

其中，A(i,j)为像素点(i，j)在GBVS显著图A中对应的GBVS显著值，S(i,j)为像素点(i，j)在SR显著图S中对应的SR显著值，α和β为权重参数。

权重参数α和β通过下述方式得到：

(a31)将GBVS显著图A和SR显著图S进行归一化，将各显著图中的显著值规范化到[0,1]之间；

(a32)分别计算GBVS显著图A和SR显著图S中所有像素点的显著值和为sum(A)和sum(S)；

(a33)通过下式计算权重参数α和β：

步骤(a4)具体为：

(a41)对具有显著性的图像I′利用177个目标滤波器在6个不同尺度上进行基于Object Bank方法的目标检测，得到带有显著信息的初始响应图；

(a42)对带有显著性的初始响应图构建一个3层的空间金字塔，并将第l层分割成2^l-1*2^l-1个区域，在每个区域中通过最大池化方法提取最大的特征值作为该区域的特征值，l＝1,2,3；

(a43)通过空间金字塔模型的映射后提取得到待高层特征提取图像I的高层特征。

步骤(2)和(4)中主判别分析方法进行降维得到样本图像降维特征向量或测试图像降维特征向量的具体方法为：

(b1)计算高层特征的类间离散度矩阵S_B和类内离散度矩阵S_W；

(b2)求取S_W ^-1S_B的所有特征值λ_1i，i＝1,2……n，n为特征值总个数；

(b3)求取第i个特征值λ_1i所对应的特征向量的类间类内比权重α_i：

(b4)计算高层特征的主成分矩阵P^T；

(b5)计算主成分矩阵P^T的所有特征值λ_2i，i＝1,2……n，n为特征值总个数；

(b6)求取第i个特征值λ_2i所对应的特征向量的主成分权重β_i：

(b7)求取主判别分析权重w_i：

w_i＝εα_i+(1-ε)β_i，

ε为设定的常参数，0≤ε≤1；

(b8)对w_i由大到小进行排序，选取前k个w_i对应的特征向量为降维特征向量。

所述的分类器为SVM分类器。

与现有技术相比，本发明具有如下优点：基于目标识别的场景分类方法-ObjectBank(OB)方法，利用大量预先训练好的目标滤波器对图像进行目标识别，从而通过识别场景中目标的类别来判断场景类别，该方法在大多数主流数据集上都有着较好的分类效果，但OB方法中存在目标滤波器准确率较低的缺点，本发明在深入研究显著性特征提取的基础上，本发明首先采用了GBVS算法从局部角度去关注图像中显著的目标，着重于局部信息，然后通过SR算法从背景角度其关注背景的相似性从而剔除背景，凸显显著目标，通过结合GBVS和SR来全面的提取图像的显著性特性，凸显图像中的显著目标，减弱不重要的背景，提高目标检测的准确率，从局部与背景的角度来提取图像中的显著性特征，并将显著性特征应用于OB方法中，使得图像中的主目标物体显著突出，更加容易被相应的目标滤波器检测到，提高目标滤波器的准确率，从而提高分类准确率。

附图说明

图1为本发明基于图像显著性与Object Bank的场景分类方法的流程框图；

图2为显著性特征提取示例图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种基于图像显著性与Object Bank的场景分类方法，该方法包括如下步骤：

(5)将测试图像降维特征向量输入至分类器，分类器对测试图像进行分类得到测试图像所对应的场景，其中分类器为SVM分类器，具体采用台湾大学林智仁等开发的LIBSVM分类器，SVM类型设置为C-SVC，核函数设置为线性核函数。

具体地，首先将待高层特征提取图像I分解成4层高斯金字塔，并提取出每个尺度下颜色、亮度、方向等特征信息。在获得初始特征信息后，在每层高斯金字塔分解图像中构造马尔科夫矩阵。通过幂法求得马尔科夫矩阵最大特征值对应的特征向量得到图的平衡分布。得到图的平衡分布后，线性插值到原始输入图像I中并在各个通道中进行特征叠加，得到GBVS显著图A。然后对待高层特征提取图像I进行二维傅里叶变换，得到幅度谱和相位谱。利用幅度谱的对数以及均值滤波器得到log谱和平均log谱，通过log谱和平均log谱之差得到谱残差，根据谱残差以及相位谱的逆傅里叶变换以及高斯平滑滤波器得到SR显著图S；

步骤(a3)中具体为：

I′(i,j)＝I(i,j)+αA(i,j)+βS(i,j)，

其中，A(i,j)为像素点(i，j)在GBVS显著图A中对应的GBVS显著值，S(i,j)为像素点(i，j)在SR显著图S中对应的SR显著值，α和β为权重参数，α和β由GBVS显著图A以及SR显著图S的热度情况来决定。当GBVS显著图A的热度较高，也就是说GBVS显著图A显著值比较大时，α的取值会偏大，这是由于GBVS显著图显著值比较大的图像的背景比较简单，目标比较单一集中，显著目标与背景之间的对比关系比明显。而GBVS能够比较好的提取出背景简单、目标单一的图像中的目标。当SR显著图值比较大时，β的取值也会偏大。因为SR显著图值比较大的图像往往都是背景比较复杂、目标物体比较分散、数量比较繁多的图像。

具体地，权重参数α和β通过下述方式得到：

(a33)通过下式计算权重参数α和β：

步骤(a4)具体为：

(a43)通过空间金字塔模型的映射后提取得到待高层特征提取图像I的高层特征，后提取出的高层特征为具有177*2*6*(1+4+16)＝44604维的高层特征。

(b1)计算高层特征的类间离散度矩阵S_B和类内离散度矩阵S_W；

(b4)计算高层特征的主成分矩阵P^T；

(b7)求取主判别分析权重w_i：

w_i＝εα_i+(1-ε)β_i，

ε为设定的常参数，0≤ε≤1，当ε为0时，主判别分析权重相当于主成分权重α_i，此时得到的低维特征是高维特征的主成分，不具有任何分类性能。当ε为1时，主判别分析权重相当于类间类内距离比权重β_i，此时得到的低维特征是高维特征中类间类内距离比最大化的特征，具有最佳的分类性能。通过调整参数ε可以将有效的权衡主成分和类间类内距离最大化的作用，在降维过程中不但能够得到一个有效表示某类样本中共同特性的投影方向，而且还能够有效利用样本内部的分类信息，使得该投影方向能够够保证不同类之间区分度最大同类之间聚合最紧密的投影方向。

本实施例采用的是三个比较常用的数据集UIUC-Sports、Scene-15、MIT Indoor，并给出了相应的设置。UIUC-Sports数据集包括8类不同的运动场景，1578幅图像。在每次实验中，分别从8个不同类别中随机选取70张图像作为训练图像，再从剩余的图像中随机选取60张图像作为测试图像。Scene-15数据集包括15种自然场景，4485幅图像。在每次实验中，分别从15个不同类别中随机选取100张图像作为训练图像，其余的图像作为训练图像。MITIndoor数据集包括了67种不同的室内场景图像，共15620张图像。在每次实验中，分别从67个不同类别中随机选取80张图像作为训练图像，再从剩余的图像中随机选取20张图像作为测试图像。

图2是显著性特征提取示例图，图2中第一列为原图，第二列为GBVS显著图，第三列为SR显著性，第四列为将GBVS显著图和SR显著图叠加至原图后得到的具有显著性的图像，从图中可以看出，基于GBVS和SR相结合改进的显著性特征提取效果明显好于GBVS和SR的提取效果。对于背景与显著性目标物体区分度比较高的场景，GBVS的显著性提取效果比较好，例如图中的滑雪场景；而对于背景比较复杂、目标物体聚集的场景，GBVS的提取效果则不是很好，例如图中的树林和水果店等场景。而SR则不同于GBVS，对于具有复杂、多个显著目标物体的场景，SR则是能够很好的提取出场景中显著目标的轮廓以及整体结构，如树林、水果店、山等场景。对比提取效果，显然GBVS会突显出场景中某一块的显著性区域，而SR则是侧重于目标个体，剔除冗余的背景。因此将GBVS和SR进行有效的结合，便可以提取出场景中显著性区域中的显著性目标。

基于GBVS+SR提取的显著性特征的OB方法的准确率比原始的OB方法的准确率要高，在三个数据集上都有较好的分类准确率。在UIUC-Sports和Scence-15数据集中，GBVS+OB方法的准确率高于SR+OB方法，而在MIT Indoor数据集中，GBVS+OB方法的准确率则低于SR+OB方法。这是由于对于背景单一、目标明显场景，GBVS的显著性提取效果比较好，对于背景相对比较复杂、目标繁多聚集的室内场景，GBVS的提取效果则不如SR。显而易见，将GBVS与SR相结合后提取出的显著性特征融合到OB特征中提高了其分类效果，在分类准确率上提高了4％～6％。基于显著性改进的OB方法综合了GBVS和SR的优点，从背景与局部两个方面考虑显著性特征，更好的提取出了显著性特征，提高了目标滤波器的准确率。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于图像显著性与Object Bank的场景分类方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的一种基于图像显著性与Object Bank的场景分类方法，其特征在于，步骤(1)和(3)中基于图像显著性与Object Bank的方法进行样本图像高层特征或测试图像高层特征提取具体方法为：

3.根据权利要求2所述的一种基于图像显著性与Object Bank的场景分类方法，其特征在于，步骤(a3)中具体为：

I′(i,j)＝I(i,j)+αA(i,j)+βS(i,j)，

4.根据权利要求3所述的一种基于图像显著性与Object Bank的场景分类方法，其特征在于，权重参数α和β通过下述方式得到：

(a33)通过下式计算权重参数α和β：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>&alpha;</mi> <mo>=</mo> <mfrac> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>&beta;</mi> <mo>=</mo> <mfrac> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> <mo>.</mo> </mrow> 1

5.根据权利要求2所述的一种基于图像显著性与Object Bank的场景分类方法，其特征在于，步骤(a4)具体为：

(a41)对具有显著性的图像I′利用177个目标滤波器在6个不同尺度上进行基于ObjectBank方法的目标检测，得到带有显著信息的初始响应图；

6.根据权利要求1所述的一种基于图像显著性与Object Bank的场景分类方法，其特征在于，步骤(2)和(4)中主判别分析方法进行降维得到样本图像降维特征向量或测试图像降维特征向量的具体方法为：

(b1)计算高层特征的类间离散度矩阵S_B和类内离散度矩阵S_W；

<mrow> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>&lambda;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>&lambda;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>

(b4)计算高层特征的主成分矩阵P^T；

<mrow> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>&lambda;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>&lambda;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>

(b7)求取主判别分析权重w_i：

w_i＝εα_i+(1-ε)β_i，

ε为设定的常参数，0≤ε≤1；

7.根据权利要求1所述的一种基于图像显著性与Object Bank的场景分类方法，其特征在于，所述的分类器为SVM分类器。