CN102999763A - 基于尺度选择的自顶向下的视觉显著性提取方法 - Google Patents

基于尺度选择的自顶向下的视觉显著性提取方法 Download PDF

Info

Publication number
CN102999763A
CN102999763A CN2012104256520A CN201210425652A CN102999763A CN 102999763 A CN102999763 A CN 102999763A CN 2012104256520 A CN2012104256520 A CN 2012104256520A CN 201210425652 A CN201210425652 A CN 201210425652A CN 102999763 A CN102999763 A CN 102999763A
Authority
CN
China
Prior art keywords
window
scale
vector
training stage
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104256520A
Other languages
English (en)
Other versions
CN102999763B (zh
Inventor
张瑞
仇媛媛
朱俊
付赛男
邹维嘉
朱玉琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201210425652.0A priority Critical patent/CN102999763B/zh
Publication of CN102999763A publication Critical patent/CN102999763A/zh
Application granted granted Critical
Publication of CN102999763B publication Critical patent/CN102999763B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于尺度选择的自顶向下的视觉显著性提取方法,包括两个阶段,训练阶段学习得到非线性模型,并找到多尺度合并中的最佳的尺度,用于显著值的计算。显著值计算阶段根据训练阶段得到的最佳尺度和非线性模型来提取显著图。本发明提出的方法充分考虑人的意图,而且利用多尺度的上下文关系,能有效地提取出与人的意图相关的视觉显著的区域,并可以应用于物体检测等领域。

Description

基于尺度选择的自顶向下的视觉显著性提取方法
技术领域
本发明涉及的是一种视觉显著性的计算方法,特别涉及一种基于尺度选择的自顶向下的视觉显著性提取方法,属于视觉显著性领域。
背景技术
视觉注意是帮助人类视觉系统准确有效的识别场景的一种重要机制。获取图像中的显著区域是计算机视觉领域的一个重要的研究课题。它可以帮助图像处理系统在后续处理步骤中合理的分配计算资源。视觉显著区域提取被广泛的应用于很多计算机视觉应用当中,如感兴趣物体分割、物体识别、自适应图像压缩、内容敏感的图像缩放、图像检索等。
关于视觉显著性的检测分为两类:快速的、与任务无关的、数据驱动的自底向上的显著性检测和较慢的、与任务相关的、目标驱动的自顶向下的显著性检测。现有的视觉显著性检测方法大都是属于前一类的,通过计算各种形式的图像内容和场景的对比度来获得视觉显著性。本发明所涉及的是后一类。运用机器学习的方法学习模型来提取目标相关的显著区域,该方法可以应用于物体检测、物体识别等领域。自顶向下的视觉显著性检测方法主要有基于特征融合的方法和基于信息最大化原则的方法。
基于特征融合的方法主要是通过调整不同特征通道的权重值来获得自顶向下的显著性。Frintrop等人于2005年Pattern Recognition中提出了VOCUS系统:“Goal-directed search with a top-down modulated computational attention system”(Frintrop,S.,Backer,G.,Rome,E.:Goal-directed search with a top-down modulatedcomputational attention system.In:Patter Recognition,Proceedings.LNCS,vol.3663,pp.117-124(2005))。在自顶向下模块里,学习阶段通过样本图片学习得到不同特征通道的权重值。在预测阶段,将不同特征加权得到最终的显著值。基于信息最大化原则的方法主要是通过判别式的方法突出来自目标的特征。Gao Dashan等人于2009年IEEE Transactions on Pattern Analysis and Machine Intelligence中提出了“Discriminant Saliency,the Detection of Suspicious Coincidences,and Applicationsto Visual Recognition”(Gao,D.,Han,S.,Vasconcelos,N.:Discriminant Saliency,theDetection of Suspicious Coincidences,and Applications to Visual Recognition.IEEE Transactionson Pattern Analysis and Machine Intelligence,vol.31,pp.989-1005(2009)),将自顶向下的显著性检测定义为一个二分类的问题。本方法同样将自顶向下的显著性检测定义为一个二分类的问题。
传统的基于局部特征的物体检测方法需要大量的扫窗,其扫窗的数量可能达到采窗数量的几倍甚至几十倍。如何有效地提取与目标相关的显著区域,并将之运用于物体检测,正是本发明要解决的问题。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于尺度选择的自顶向下的视觉显著性提取方法,该方法基于编码的图像分类框架进行视觉显著性提取,并且考虑了多尺度的上下文信息,避免了大量重复性的扫描,从而减小了时间复杂度。
为实现上述目的,本发明采用了以下技术方案:现有的大部分方法都是自底向上的,只与图像本身有关,而与人的意图无关。本发明提出的方法充分考虑人的意图,而且利用多尺度的上下文关系,能有效地提取出与人的意图相关的视觉显著的区域,并可以应用于物体检测等领域。本方法包括两个阶段,每阶段四步。训练阶段学习得到非线性模型,并找到多尺度合并中的最佳的尺度,用于显著值的计算。显著值计算阶段根据训练阶段得到的最佳尺度和非线性模型来提取显著图。
具体的,一种基于尺度选择的自顶向下的视觉显著性提取方法,包括两个阶段,每阶段四个步骤,即:
第一阶段:训练阶段
S1:对每幅图像进行稠密采窗,对每个窗提取特征描述符,特征描述符不限定于哪种特征,可以是颜色特征描述符,也可以是形状特征描述符。
S2:根据训练集图像得到的特征描述符构建视觉词典,然后用某一种编码方法将训练集图像的特征描述符映射为编码向量。
S3:将每一个窗作为中心窗,将之与周边的窗的编码向量做多尺度的合并,每个窗都生成新的特征向量。由于做了多尺度的融合,所以每个窗会对应多个特征向量。多尺度向量融合的方法如下:
定义在尺度n的周边窗Λn
Λn=Ω1∪Ω2…∪Ωn,其中, Ω n = { c i ( n ) | i = 1,2 , . . . , 8 n } 为尺度n上的边缘窗集合, c i ( n ) = ( c i , 1 ( n ) , c i , 2 ( n ) , . . . , c i , k ( n ) ) 代表在尺度n上的第i个边缘窗上的K维编码向量;
融合后的特征向量 f ( n ) = ( f 1 ( n ) , f 2 ( n ) , . . . , f K ( n ) ) 的计算公式为:
f k ( n ) = max j c j , k , s.t.cj∈Λn
其中:fk (n)表示f(n)的第k个分量,cj代表周边窗上的第j个编码向量,cj,k代表cj的第k个分量。
S4:将不同尺度的特征向量和真实标注分别输入到支撑向量机训练,得到不同尺度的非线性模型,用于预测显著值。将预测得到的结果和真实标注用KLD做评价,取KLD值最小的尺度作为最佳尺度。KLD(Kullback-Leibler散度)的计算公式如下:
Figure BDA00002332458100036
其中,sx代表在位置x处的显著值,gx代表在位置x处真实标注的值,即
x属于目标物体,gx为1,1{gx=1}=1,1{gx=0}=0;
x不属于目标物体,gx为0,1{gx=0}=1,1{gx=1}=0;
N代表真实标注图像里的像素数目;
KLD的值越小,代表预测出的显著图越接近于真实标注。
第二阶段:显著值计算阶段
S1:和训练阶段的S1相同,对每幅图像进行稠密采窗,并提取相同的特征描述符。
S2:根据已有的词典,用与训练阶段S2相同的编码方法将每幅图像每个窗内提取的特征描述符映射为编码向量。
S3:根据训练阶段S4得到的最佳尺度,将中心窗和周边窗在最佳尺度上合并,生成新的特征向量。
S4:用训练阶段得到的非线性模型对最佳尺度上的特征向量做预测得到最终的显著值。显著值计算公式如下:
s x = p ( t arg et | f x ) &Proportional; e < &sigma; optimal , f x optimal >
其中,σoptimal代表最佳尺度下的非线性模型参数,
Figure BDA00002332458100042
代表位置x处的最优尺度下的特征向量,sx代表位置x处的显著值。
与现有技术相比,本发明具有如下的有益效果:
本发明所提出的方法在步骤S3利用了多尺度的上下文信息,减小了噪声干扰,使得测试结果明显优于没有融合上下文信息的方法。此外,将本方法提取出的与目标物体相关的显著图用于物体检测,在能够有效得检测到目标物体的同时,降低了时间复杂度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明流程图;
图2为训练集里的一幅图像原图和对应的真实标注;
图3为多尺度的上下文合并中的周边窗的定义;
图4为一幅图像在不同尺度下的显著图示例;
图5为运用本发明提出的方法检测车辆的结果。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
以下结合附图和方法的内容提供本发明的实施例。
本实施例中选择的特征描述符是尺度不变特征转换(SIFT)描述符,对光照、尺度、旋转不敏感;编码方法是局部限制的线性编码。所采用的训练集数据包括目标物体车辆的图像原图和标注好目标物体位置的真实标注。其示例如图2所示。
如图1所示,本发明的一个实施例流程如下,分为训练阶段和显著值计算阶段。这两个阶段
A.训练阶段:
(1)首先对训练集里的每幅图像进行稠密采窗,每隔三个像素采一个窗,窗的大小为16x16。然后对每个窗内的图像区域提取尺度不变特征转换(SIFT)描述符。SIFT描述符为128维。
(2)根据训练集提取得到的SIFT描述符,用K-Means聚类算法构建视觉词典。假设词典的单词数为K,则用局部限制的线性编码将每个窗的SIFT描述符映射到K维的编码向量C=(C1,C2,…,cK)。
(3)对训练集内的每幅图像上的每个窗进行多尺度的上下文合并计算得到特征向量。多尺度的上下文合并方法见图3。尺度为0时,特征向量即为每个窗的编码向量本身。尺度为1时,特征向量为每个窗和外部八邻域的窗的编码向量合并的结果。尺度为2时,特征向量为每个窗和外部二十四邻域的窗的编码向量合并的结果。这里的合并采用的是最大化合并方法,公式如下:
f k ( n ) = max j c j , k ,
s.t.cj∈Ω0∪Ω1∪…∪Ωn &ForAll; k = 1,2 , . . . , K
其中, f ( n ) = ( f 1 ( n ) , f 2 ( n ) , . . . , f K ( n ) ) 为尺度n上的特征向量,
Figure BDA00002332458100054
Figure BDA00002332458100055
为尺度n上的边缘窗上的编码向量的集合。
(4)由于在步骤(3)中对编码向量进行了多尺度的局部的合并,得到了多个尺度的特征向量。在训练集内,将真实标注和不同尺度的特征向量输入到支撑向量机(SVM)学习得到不同尺度的预测模型σ。用σ0,σ1,…,σn分别预测不同尺度的窗的特征向量,得到相对于原图缩小的显著值预测图。用线性插值的方法将显著值预测图放大到和原图一样大小,得到最终的显著图。对训练集里所有的图像都计算得到一幅显著图。图4为一幅图像在不同尺度下的显著图示例。在训练集水平,用KLD衡量显著图与真实标注的相似度,选取KLD值最小的尺度作为最优尺度。实施例中选择了9个尺度,0~8。
B.显著值计算阶段
(1)和训练阶段(1)相同,对每幅测试图像每隔三个像素采窗,窗的大小为16x16,然后再提取尺度不变特征转换描述符。
(2)根据训练阶段中计算得到的视觉词典,用局部限制的非线性编码方法将SIFT特征描述符映射成为K维的码向量。
(3)对码向量进行多尺度的局部合并得到特征向量f(0),f(1),...,f(8).
(4)用非线性模型σoptimal对每个特征向量预测显著值,显著值在0到1之间。显著值计算公式如下:
s x = p ( t arg et | f x ) &Proportional; e < &sigma; optimal , f x optimal >
C.目标物体检测
本发明提出的和目标物体有关的视觉显著性检测方法能有效的检测目标物体区域,故可以将之应用在物体检测领域。本实施例中将得到的显著图进行简单的阈值化,得到二值图,即可确定目标物体区域,如图5所示。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (4)

1.一种基于尺度选择的自顶向下的视觉显著性提取方法,其特征在于,包括以下两个阶段,每个阶段四个步骤:
第一阶段:训练阶段
S1:对每幅图像进行稠密采窗,对每个窗提取特征描述符;
S2:根据训练集图像得到的特征描述符构建视觉词典,然后用某一种编码方法将训练集图像的特征描述符映射为编码向量;
S3:将每一个窗作为中心窗,将之与周边的窗的编码向量做多尺度的合并,每个窗都生成新的特征向量,由于做了多尺度的融合,所以每个窗会对应多个特征向量;
S4:将不同尺度的特征向量和真实标注分别输入到支撑向量机训练,得到不同尺度的非线性模型,用于预测显著值,将预测得到的结果和真实标注用KLD做评价,取KLD值最小的尺度作为最佳尺度;
第二阶段:显著值计算阶段
S1:和训练阶段的S1相同,对每幅图像进行稠密采窗,并提取相同的特征描述符;
S2:根据已有的词典,用与训练阶段S2相同的编码方法将每幅图像每个窗内提取的特征描述符映射为编码向量;
S3:根据训练阶段S4得到的最佳尺度,将中心窗和周边窗在最佳尺度上合并,生成新的特征向量;
S4:用训练阶段得到的非线性模型对最佳尺度上的特征向量做预测得到最终的显著值。
2.根据权利要求1所述的基于尺度选择的自顶向下的视觉显著性提取方法,其特征在于,所述训练阶段中步骤S3中的多尺度向量融合的方法如下:
定义在尺度n的周边窗为:Λn=Ω1∪Ω2…∪Ωn
Figure FDA00002332458000011
Figure FDA00002332458000012
为尺度n上的边缘窗集合, c i ( n ) = ( c i , 1 ( n ) , c i , 2 ( n ) , . . . , c i , k ( n ) ) 代表在尺度n上的第i个边缘窗上的K维编码向量;融合后的特征向量为 f k ( n ) = max j c j , k , s.t.cj∈Λn
其中:
Figure FDA00002332458000022
表示f(n)的第k个分量,cj代表周边窗上的第j个编码向量,cj,k代表cj的第k个分量。
3.根据权利要求1所述的基于尺度选择的自顶向下的视觉显著性提取方法,其特征在于,所述训练阶段中步骤S4中的KLD作为选择最佳尺度的方法,其计算公式如下:
Figure FDA00002332458000023
其中,sx代表在位置x处的显著值,gx代表在位置x处真实标注的值,即
x属于目标物体,gx为1, 1 { g x = 1 } = 1 , 1 { g x = 0 } = 0 ;
x不属于目标物体,gx为0, 1 { g x = 0 } = 1 , 1 { g x = 1 } = 0 ;
N代表真实标注图像里的像素数目;
KLD的值越小,代表预测出的显著图越接近于真实标注。
4.根据权利要求1-3之一所述的基于尺度选择的自顶向下的视觉显著性提取方法,其特征在于,所述特征描述符是颜色特征描述符,或是形状特征描述符。
CN201210425652.0A 2012-10-30 2012-10-30 基于尺度选择的自顶向下的视觉显著性提取方法 Expired - Fee Related CN102999763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210425652.0A CN102999763B (zh) 2012-10-30 2012-10-30 基于尺度选择的自顶向下的视觉显著性提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210425652.0A CN102999763B (zh) 2012-10-30 2012-10-30 基于尺度选择的自顶向下的视觉显著性提取方法

Publications (2)

Publication Number Publication Date
CN102999763A true CN102999763A (zh) 2013-03-27
CN102999763B CN102999763B (zh) 2016-02-10

Family

ID=47928312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210425652.0A Expired - Fee Related CN102999763B (zh) 2012-10-30 2012-10-30 基于尺度选择的自顶向下的视觉显著性提取方法

Country Status (1)

Country Link
CN (1) CN102999763B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198489A (zh) * 2013-04-27 2013-07-10 哈尔滨工业大学 基于显著性密度与边缘响应的显著物体自动检测方法
CN109117876A (zh) * 2018-07-26 2019-01-01 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法
CN110689083A (zh) * 2019-09-30 2020-01-14 苏州大学 一种上下文金字塔融合网络及图像分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUANGYU ZHU 等: "《Multi-scale Structural Saliency for Signature Detection》", 《2007 IEEE》 *
袁爱龙,陈怀新,吴云峰: "《基于尺度显著性算法的车型识别方法》", 《微型机与应用》 *
黄志勇 等: "《一种随机的视觉显著性检测算法》", 《中国科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198489A (zh) * 2013-04-27 2013-07-10 哈尔滨工业大学 基于显著性密度与边缘响应的显著物体自动检测方法
CN103198489B (zh) * 2013-04-27 2016-04-27 哈尔滨工业大学 基于显著性密度与边缘响应的显著物体自动检测方法
CN109117876A (zh) * 2018-07-26 2019-01-01 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法
CN109117876B (zh) * 2018-07-26 2022-11-04 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法
CN110689083A (zh) * 2019-09-30 2020-01-14 苏州大学 一种上下文金字塔融合网络及图像分割方法
CN110689083B (zh) * 2019-09-30 2022-04-12 苏州大学 一种上下文金字塔融合网络及图像分割方法

Also Published As

Publication number Publication date
CN102999763B (zh) 2016-02-10

Similar Documents

Publication Publication Date Title
Zhang et al. Integrating bottom-up classification and top-down feedback for improving urban land-cover and functional-zone mapping
Pan et al. A robust system to detect and localize texts in natural scene images
Liu et al. Coupled network for robust pedestrian detection with gated multi-layer feature extraction and deformable occlusion handling
Chang et al. A Bayesian approach for object classification based on clusters of SIFT local features
Zhou et al. Robust visual tracking via efficient manifold ranking with low-dimensional compressive features
Kobayashi et al. Three-way auto-correlation approach to motion recognition
Zhao et al. A robust hybrid method for text detection in natural scenes by learning-based partial differential equations
Ensafi et al. Accurate HEp-2 cell classification based on sparse coding of superpixels
Gonçalves et al. Dynamic texture analysis and segmentation using deterministic partially self-avoiding walks
Han et al. Robust object tracking based on local region sparse appearance model
Cheng et al. Object tracking via collaborative multi-task learning and appearance model updating
Zhong et al. Effective and efficient pixel-level detection for diverse video copy-move forgery types
Ajmal et al. Recognizing human activities from video using weakly supervised contextual features
Halidou et al. Fast pedestrian detection based on region of interest and multi-block local binary pattern descriptors
Kuang et al. MutualCascade method for pedestrian detection
Balali et al. Video-based highway asset recognition and 3D localization
Yang et al. Visual saliency detection with center shift
CN102999763B (zh) 基于尺度选择的自顶向下的视觉显著性提取方法
Jia et al. AADH-YOLOv5: improved YOLOv5 based on adaptive activate decoupled head for garbage detection
He et al. A double-region learning algorithm for counting the number of pedestrians in subway surveillance videos
Zhong et al. Structured partial least squares for simultaneous object tracking and segmentation
Rakowski et al. Hand shape recognition using very deep convolutional neural networks
CN109902690A (zh) 图像识别技术
Zhang et al. Shared contents alignment across multiple granularities for robust SAR-optical image matching
Koncar et al. Gabor wavelet similarity maps for optimising hierarchical road sign classifiers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160210

Termination date: 20181030

CF01 Termination of patent right due to non-payment of annual fee