CN102999763B

CN102999763B - 基于尺度选择的自顶向下的视觉显著性提取方法

Info

Publication number: CN102999763B
Application number: CN201210425652.0A
Authority: CN
Inventors: 张瑞; 仇媛媛; 朱俊; 付赛男; 邹维嘉; 朱玉琨
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2012-10-30
Filing date: 2012-10-30
Publication date: 2016-02-10
Anticipated expiration: 2032-10-30
Also published as: CN102999763A

Abstract

本发明公开了一种基于尺度选择的自顶向下的视觉显著性提取方法，包括两个阶段，训练阶段学习得到非线性模型，并找到多尺度合并中的最佳的尺度，用于显著值的计算。显著值计算阶段根据训练阶段得到的最佳尺度和非线性模型来提取显著图。本发明提出的方法充分考虑人的意图，而且利用多尺度的上下文关系，能有效地提取出与人的意图相关的视觉显著的区域，并可以应用于物体检测等领域。

Description

基于尺度选择的自顶向下的视觉显著性提取方法

技术领域

本发明涉及的是一种视觉显著性的计算方法，特别涉及一种基于尺度选择的自顶向下的视觉显著性提取方法，属于视觉显著性领域。

背景技术

视觉注意是帮助人类视觉系统准确有效的识别场景的一种重要机制。获取图像中的显著区域是计算机视觉领域的一个重要的研究课题。它可以帮助图像处理系统在后续处理步骤中合理的分配计算资源。视觉显著区域提取被广泛的应用于很多计算机视觉应用当中，如感兴趣物体分割、物体识别、自适应图像压缩、内容敏感的图像缩放、图像检索等。

关于视觉显著性的检测分为两类：快速的、与任务无关的、数据驱动的自底向上的显著性检测和较慢的、与任务相关的、目标驱动的自顶向下的显著性检测。现有的视觉显著性检测方法大都是属于前一类的，通过计算各种形式的图像内容和场景的对比度来获得视觉显著性。本发明所涉及的是后一类。运用机器学习的方法学习模型来提取目标相关的显著区域，该方法可以应用于物体检测、物体识别等领域。自顶向下的视觉显著性检测方法主要有基于特征融合的方法和基于信息最大化原则的方法。

基于特征融合的方法主要是通过调整不同特征通道的权重值来获得自顶向下的显著性。Frintrop等人于2005年PatternRecognition中提出了VOCUS系统：“Goal-directedsearchwithatop-downmodulatedcomputationalattentionsystem”(Frintrop,S.,Backer,G.,Rome,E.:Goal-directedsearchwithatop-downmodulatedcomputationalattentionsystem.In:PatterRecognition,Proceedings.LNCS,vol.3663,pp.117-124(2005))。在自顶向下模块里，学习阶段通过样本图片学习得到不同特征通道的权重值。在预测阶段，将不同特征加权得到最终的显著值。基于信息最大化原则的方法主要是通过判别式的方法突出来自目标的特征。GaoDashan等人于2009年IEEETransactionsonPatternAnalysisandMachineIntelligence中提出了“DiscriminantSaliency,theDetectionofSuspiciousCoincidences,andApplicationstoVisualRecognition”(Gao,D.,Han,S.,Vasconcelos,N.:DiscriminantSaliency，theDetectionofSuspiciousCoincidences,andApplicationstoVisualRecognition.IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.31,pp.989-1005(2009))，将自顶向下的显著性检测定义为一个二分类的问题。本方法同样将自顶向下的显著性检测定义为一个二分类的问题。

传统的基于局部特征的物体检测方法需要大量的扫窗，其扫窗的数量可能达到采窗数量的几倍甚至几十倍。如何有效地提取与目标相关的显著区域，并将之运用于物体检测，正是本发明要解决的问题。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于尺度选择的自顶向下的视觉显著性提取方法，该方法基于编码的图像分类框架进行视觉显著性提取，并且考虑了多尺度的上下文信息，避免了大量重复性的扫描，从而减小了时间复杂度。

为实现上述目的，本发明采用了以下技术方案：现有的大部分方法都是自底向上的，只与图像本身有关，而与人的意图无关。本发明提出的方法充分考虑人的意图，而且利用多尺度的上下文关系，能有效地提取出与人的意图相关的视觉显著的区域，并可以应用于物体检测等领域。本方法包括两个阶段，每阶段四步。训练阶段学习得到非线性模型，并找到多尺度合并中的最佳的尺度，用于显著值的计算。显著值计算阶段根据训练阶段得到的最佳尺度和非线性模型来提取显著图。

具体的，一种基于尺度选择的自顶向下的视觉显著性提取方法，包括两个阶段，每阶段四个步骤，即：

第一阶段：训练阶段

S1:对每幅图像进行稠密采窗，对每个窗提取特征描述符，特征描述符不限定于哪种特征，可以是颜色特征描述符，也可以是形状特征描述符。

S2:根据训练集图像得到的特征描述符构建视觉词典，然后用某一种编码方法将训练集图像的特征描述符映射为编码向量。

S3:将每一个窗作为中心窗，将之与周边的窗的编码向量做多尺度的合并，每个窗都生成新的特征向量。由于做了多尺度的融合，所以每个窗会对应多个特征向量。多尺度向量融合的方法如下：

定义在尺度n的周边窗Λ_n为

Λ_n＝Ω₁∪Ω₂…∪Ω_n，其中，

Ω_{n} = {c_{i}^{(n)} | i = 1,2, . . ., 8 n}

为尺度n上的边缘窗集合，

c_{i}^{(n)} = (c_{i, 1}^{(n)}, c_{i, 2}^{(n)}, . . ., c_{i, k}^{(n)})

代表在尺度n上的第i个边缘窗上的K维编码向量；

融合后的特征向量

f^{(n)} = (f_{1}^{(n)}, f_{2}^{(n)}, . . ., f_{K}^{(n)})

的计算公式为：

f_{k}^{(n)} = \max_{j} c_{j, k},

s.t.c_j∈Λ_n，

其中：f_k ⁽ⁿ⁾表示f⁽ⁿ⁾的第k个分量，c_j代表周边窗上的第j个编码向量，c_j，k代表c_j的第k个分量。

S4:将不同尺度的特征向量和真实标注分别输入到支撑向量机训练，得到不同尺度的非线性模型，用于预测显著值。将预测得到的结果和真实标注用KLD做评价，取KLD值最小的尺度作为最佳尺度。KLD（Kullback-Leibler散度）的计算公式如下：

其中，s_x代表在位置x处的显著值，g_x代表在位置x处真实标注的值，即

x属于目标物体，g_x为1，1{gx＝1}＝1，1{gx＝0}＝0；

x不属于目标物体，gx为0，1{gx＝0}＝1，1{gx＝1}＝0；

N代表真实标注图像里的像素数目；

KLD的值越小，代表预测出的显著图越接近于真实标注。

第二阶段：显著值计算阶段

S1：和训练阶段的S1相同，对每幅图像进行稠密采窗，并提取相同的特征描述符。

S2：根据已有的词典，用与训练阶段S2相同的编码方法将每幅图像每个窗内提取的特征描述符映射为编码向量。

S3：根据训练阶段S4得到的最佳尺度，将中心窗和周边窗在最佳尺度上合并，生成新的特征向量。

S4：用训练阶段得到的非线性模型对最佳尺度上的特征向量做预测得到最终的显著值。显著值计算公式如下：

s_{x} = p ({t \arg et | f}_{x}) &Proportional; e^{< σ_{optimal}, f_{x}^{optimal} >}

其中，σ_optimal代表最佳尺度下的非线性模型参数，代表位置x处的最优尺度下的特征向量，s_x代表位置x处的显著值。

与现有技术相比，本发明具有如下的有益效果：

本发明所提出的方法在步骤S3利用了多尺度的上下文信息，减小了噪声干扰，使得测试结果明显优于没有融合上下文信息的方法。此外，将本方法提取出的与目标物体相关的显著图用于物体检测，在能够有效得检测到目标物体的同时，降低了时间复杂度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明流程图；

图2为训练集里的一幅图像原图和对应的真实标注；

图3为多尺度的上下文合并中的周边窗的定义；

图4为一幅图像在不同尺度下的显著图示例；

图5为运用本发明提出的方法检测车辆的结果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

以下结合附图和方法的内容提供本发明的实施例。

本实施例中选择的特征描述符是尺度不变特征转换（SIFT）描述符，对光照、尺度、旋转不敏感；编码方法是局部限制的线性编码。所采用的训练集数据包括目标物体车辆的图像原图和标注好目标物体位置的真实标注。其示例如图2所示。

如图1所示，本发明的一个实施例流程如下，分为训练阶段和显著值计算阶段。这两个阶段

A.训练阶段：

（1）首先对训练集里的每幅图像进行稠密采窗，每隔三个像素采一个窗，窗的大小为16x16。然后对每个窗内的图像区域提取尺度不变特征转换（SIFT）描述符。SIFT描述符为128维。

（2）根据训练集提取得到的SIFT描述符，用K-Means聚类算法构建视觉词典。假设词典的单词数为K，则用局部限制的线性编码将每个窗的SIFT描述符映射到K维的编码向量C＝(C₁，C₂，…，c_K)。

（3）对训练集内的每幅图像上的每个窗进行多尺度的上下文合并计算得到特征向量。多尺度的上下文合并方法见图3。尺度为0时，特征向量即为每个窗的编码向量本身。尺度为1时，特征向量为每个窗和外部八邻域的窗的编码向量合并的结果。尺度为2时，特征向量为每个窗和外部二十四邻域的窗的编码向量合并的结果。这里的合并采用的是最大化合并方法，公式如下：

f_{k}^{(n)} = \max_{j} c_{j, k},

s.t.c_j∈Ω₀∪Ω₁∪…∪Ω_n，

&ForAll; k = 1,2, . . ., K

其中，

f^{(n)} = (f_{1}^{(n)}, f_{2}^{(n)}, . . ., f_{K}^{(n)})

为尺度n上的特征向量，为尺度n上的边缘窗上的编码向量的集合。

（4）由于在步骤（3）中对编码向量进行了多尺度的局部的合并，得到了多个尺度的特征向量。在训练集内，将真实标注和不同尺度的特征向量输入到支撑向量机（SVM）学习得到不同尺度的预测模型σ。用σ₀，σ₁，…，σ_n分别预测不同尺度的窗的特征向量，得到相对于原图缩小的显著值预测图。用线性插值的方法将显著值预测图放大到和原图一样大小，得到最终的显著图。对训练集里所有的图像都计算得到一幅显著图。图4为一幅图像在不同尺度下的显著图示例。在训练集水平，用KLD衡量显著图与真实标注的相似度，选取KLD值最小的尺度作为最优尺度。实施例中选择了9个尺度，0~8。

B.显著值计算阶段

（1）和训练阶段（1）相同，对每幅测试图像每隔三个像素采窗，窗的大小为16x16，然后再提取尺度不变特征转换描述符。

（2）根据训练阶段中计算得到的视觉词典，用局部限制的非线性编码方法将SIFT特征描述符映射成为K维的码向量。

（3）对码向量进行多尺度的局部合并得到特征向量f⁽⁰⁾，f⁽¹⁾，...，f⁽⁸⁾.

（4）用非线性模型σ_optimal对每个特征向量预测显著值，显著值在0到1之间。显著值计算公式如下：

s_{x} = p ({t \arg et | f}_{x}) &Proportional; e^{< σ_{optimal}, f_{x}^{optimal} >}

C.目标物体检测

本发明提出的和目标物体有关的视觉显著性检测方法能有效的检测目标物体区域，故可以将之应用在物体检测领域。本实施例中将得到的显著图进行简单的阈值化，得到二值图，即可确定目标物体区域，如图5所示。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于尺度选择的自顶向下的视觉显著性提取方法，其特征在于，包括以下两个阶段，每个阶段四个步骤：

第一阶段：训练阶段

S1:对每幅图像进行稠密采窗，对每个窗提取特征描述符；

S2:根据训练集图像得到的特征描述符构建视觉词典，然后用某一种编码方法将训练集图像的特征描述符映射为编码向量；

S3:将每一个窗作为中心窗，将之与周边的窗的编码向量做多尺度的合并，每个窗都生成新的特征向量，由于做了多尺度的融合，所以每个窗会对应多个特征向量；

S4:将不同尺度的特征向量和真实标注分别输入到支撑向量机训练，得到不同尺度的非线性模型，用于预测显著值，将预测得到的结果和真实标注用KLD做评价，取KLD值最小的尺度作为最佳尺度；

第二阶段：显著值计算阶段

S1：和训练阶段的S1相同，对每幅图像进行稠密采窗，并提取相同的特征描述符；

S2：根据已有的词典，用与训练阶段S2相同的编码方法将每幅图像每个窗内提取的特征描述符映射为编码向量；

S3：根据训练阶段S4得到的最佳尺度，将中心窗和周边窗在最佳尺度上合并，生成新的特征向量；

S4：用训练阶段得到的非线性模型对最佳尺度上的特征向量做预测得到最终的显著值。

2.根据权利要求1所述的基于尺度选择的自顶向下的视觉显著性提取方法，其特征在于，所述训练阶段中步骤S4中的KLD作为选择最佳尺度的方法，其计算公式如下：

x属于目标物体，g_x为1，

1_{{g_{x} = 1}} = 1, 1_{{g_{x} = 0}} = 0;

x不属于目标物体，g_x为0，

1_{{g_{x} = 0}} = 1, 1_{{g_{x} = 1}} = 0;

N代表真实标注图像里的像素数目；

KLD的值越小，代表预测出的显著图越接近于真实标注。

3.根据权利要求1-2之一所述的基于尺度选择的自顶向下的视觉显著性提取方法，其特征在于，所述特征描述符是颜色特征描述符，或是形状特征描述符。