CN102339393A - 一种目标搜索方法 - Google Patents
一种目标搜索方法 Download PDFInfo
- Publication number
- CN102339393A CN102339393A CN2011102712327A CN201110271232A CN102339393A CN 102339393 A CN102339393 A CN 102339393A CN 2011102712327 A CN2011102712327 A CN 2011102712327A CN 201110271232 A CN201110271232 A CN 201110271232A CN 102339393 A CN102339393 A CN 102339393A
- Authority
- CN
- China
- Prior art keywords
- image
- global characteristics
- target
- matrix
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,公开了一种目标搜索方法。具体包括:小波变换、高斯滤波、主分量提取、确定分布函数、提取全局特征向量、获取目标分布图像、特征提取和特征叠加步骤。本发明的方法通过高斯滤波获取图像的全局信息,通过训练图像全局特征与目标位置得到的分布函数模拟图像中的目标对人眼注意的自顶向下的调制,提取强度,颜色,方向等特征模拟自底向上的调制,更准确的模拟了人眼搜索过程,同时在获取图像全局信息的过程中考虑了人眼的多尺度特性,更适合人眼视觉习惯,提高了结果的准确性。
Description
技术领域
本发明属于计算机视觉技术领域,特别涉及一种目标搜索方法。
背景技术
科学技术的不断发展使得各类信息量急剧增长,如何使计算机有效地处理多媒体信息,从中获取需要的信息是亟待解决的问题。而人眼能够对进入视网膜的海量信息很快做出反应,因此希望能够模拟人类的视觉处理机制从大量、冗余的复杂场景数字图像数据中快速、准确地获取我们寻找的目标区域,提高数字图像处理的效率和准确性。1998年Itti和Koch等人提出了一种自底向上的选择性注意模型——Itti模型,具体可参见文献:L.Itti,C.Koch.E.Niebur.Amodel of saliency-based visual attention for rapid scene analysis.Pattern Analysis and MachineIntelligence,IEEE Transactions on,1998,20(11):1254-1259.这种方法充分利用了滤波器的思想并且模拟了视觉生理机制中的感受野的中央外周机制机返回抑制机制,形成了一个拟生理结构的计算模型。从整体来说,它基本完成了对初期视觉注意机制的建模,对于研究生理意义上的视觉选择性注意机制有重要的意义。但是用该模型仅利用了图像本身的信息,忽略了搜索任务对人眼的调制,因此对目标显著区域的检测准确性低。在文献:Antonio Torralba,AudeOliva,Monica S.Castelhano.Contextual Guidance of Eye Movement and Attention in Real-WorldScenes:The Role ofGlobal Features in Object Search.Psychological Review,2006,Vol.113,No.4,766-786,提出了一种采用高斯滤波获取图像全局信息的计算方法,通过学习获取图像全局信息与目标坐标的分布函数,同时采用指数分布函数模拟图像局部信息的分布,结合两个分布函数之积获取人眼的注视位置。但是该模型计算全局信息的过程中忽略了人眼在获取图像全局信息中的多尺度特性,不符合人眼在图像中的目标搜索过程,没有准确地同局部信息结合。
发明内容
本发明的目的是为了解决现有的注意模型对复杂场景中目标搜索时存在的缺陷,提出了一种目标搜索方法。
本发明的技术方案是:一种目标搜索方法,包括对训练图像进行训练的步骤和对目标图像进行搜索的步骤,其中,对训练图像进行训练的步骤具体包括如下分步骤:
S1.小波变换:对训练图像进行小波变换,分别获得每个训练图像的高频成分矩阵和低频成分矩阵;
S2.高斯滤波:分别对每个训练图像高频成分矩阵和低频成分矩阵进行高斯滤波得到每个训练图像的高频全局特征和低频全局特征;
S3.主分量提取:采用PCA算法分别提取训练图像的高频全局特征和低频全局特征的主分量;
S4.确定分布函数:从训练图像中选取若干个图像,利用步骤S3得到的高频全局特征和低频全局特征的主分量与若干个图像的目标坐标,通过EM算法学习得到混合高斯函数的参数,确定分布函数。
对目标图像进行搜索的步骤具体包括如下分步骤:
S5.提取全局特征向量:对目标图像进行小波变换,分别获得目标图像的高频成分矩阵和低频成分矩阵;对获得的高频成分矩阵和低频成分矩阵进行高斯滤波得到目标图像的高频全局特征和低频全局特征;将得到的高频全局特征和低频全局特征分别映射到步骤S3得到的高频全局特征和低频全局特征的主分量,获得高频全局特征向量和低频全局特征向量;
S6.获取目标分布图像:分别将步骤S5得到的高频全局特征向量和目标图像的坐标矩阵以及步骤S5得到的低频全局特征向量和目标图像的坐标矩阵输入到步骤S4得到的分布函数,确定高频分布矩阵和低频分布矩阵,将高频分布矩阵和低频分布矩阵进行叠加得到分布矩阵,将分布矩阵与目标图相乘得到目标分布图像;
S7.特征提取:从步骤S6得到的目标分布图像提取两个颜色特征金字塔,强度特征金字塔以及四个方向特征金字塔;
S8.特征叠加:对步骤S7得到的7个特征金字塔分别进行中央-周边操作和规范化,得到7个子特征金字塔,分别对颜色,强度,方向的特征金字塔进行叠加,得到3个特征图,对得到的3个特征图进行规范化,然后对规范化后的3个特征图进行叠加,得到一幅显著图。
本发明的有益效果:本发明基于人类大脑视觉信息处理机制,模拟人眼搜索过程提出了一种目标搜索方法。本发明的方法通过小波变换模拟人眼在全局特征提取中的多尺度特性,再采用高斯滤波获取高频和低频全局特征,利用图像全局特征与目标位置的分布函数得到目标分布图像,再从中提取强度特征金字塔、颜色特征金字塔以及方向特征金字塔,整合成为一幅显著图。本发明的方法通过高斯滤波获取图像的全局信息,通过训练图像全局特征与目标位置得到的分布函数模拟图像中的目标对人眼注意的自顶向下的调制,提取强度,颜色,方向等特征模拟自底向上的调制,更准确的模拟了人眼搜索过程,同时在获取图像全局信息的过程中考虑了人眼的多尺度特性,更合人眼视觉习惯,提高了结果的准确性。
附图说明
图1是本发明目标搜索方法的流程示意图。
图2是本发明的方法对一幅自然图像进行目标搜索的显著图与经典模型检测作比较的结果图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
本发明模拟人眼搜索过程,先计算场景的全局信息引导注意转移到目标可能存在区域,再由目标可能存在区域的局部的细节信息搜索目标。下面以一幅自然场景的目标搜索进行具体说明。
如图2a所示,首先从图片库中选出一幅自然图像作为目标图像,图像大小为600×800。具体搜索方法的流程如图1所示,具体过程如下:
其中训练图像的数目为2000幅,训练图像的大小为1280×1400且所有训练图像中目标的位置坐标已标定。
S1.小波变换:对训练图像进行小波变换,获得高频成分矩阵和低频成分矩阵;
这里的小波变换指的是先对训练图像进行小波分解,然后再分别对高频系数和低频系数分别重构,进而获得高频成分矩阵和低频成分矩阵,在本实施例中即将彩色训练图像进行尺度调整和灰度处理后,通过复数小波进行一层小波分解,获得六个方向(30°,60°,90°,120°,150°,180°)的高频系数和以两个低频系数。重构这六个方向的高频系数,然后将所有的高频成分线性叠加起来后量化编码得到一个高频成分矩阵;将低频系数重构并线性叠加然后量化编码可以得到低频成分矩阵;
S2.高斯滤波:分别对每个训练图像的高频成分矩阵和低频成分矩阵进行高斯滤波得到每个训练图像的高频全局特征和低频全局特征;
这里的高斯滤波具体为进行四个尺度六个方向的高斯滤波,即是分别将高频和低频成分矩阵同六个方向的高斯金字塔卷积,六个方向具体为(30°,60°,90°,120°,150°,180°)。这里的金字塔为4层,其中第0层是训练图像,1到3层分别是用离散高斯滤波器对训练图像进行滤波和采样形成的,大小为训练图像的1/2到1/16。对高频和低频高斯金字塔分别进行采样,每个方向的每一层采样后为1×16的向量,最终得到两个1×384的向量,分别对应训练图像的高频和低频的全局特征。
S3.主分量提取:采用PCA算法分别提取训练图像的高频全局特征和低频全局特征的主分量;
将所有训练图像的高频和低频的全局特征分别组合为两个全局特征矩阵,矩阵大小为2000×384。用PCA算法对两个矩阵分别进行主成份分析,提取前100个主分量,得到高频全局特征和低频全局特征的主分量,大小为100×384。
这里,PCA算法具体可参考文献:Hancock PJB,Baddeley R J,Smith L S.The principalcomponents of natural images.Network:Computation in Neural Systems,1992,3:61-71。
S4.确定分布函数:从训练图像中选取500幅图像,利用步骤S3得到的高频全局特征和低频全局特征的主分量与若干个图像的目标坐标,通过EM算法学习得到混合高斯函数的参数,确定分布函数;
这里,EM算法具体可参考文献:Arthur Dempster,Nan Laird,and Donald Rubin.Maximumlikelihood from incomplete data via the EM algorithm.Journal of the Royal Statistical Society,Series B,39(1):1-38,1977。
这里的分布函数是图像的全局特征与目标位置坐标的联合概率分布函数,即式(1)的P(X,G|O=1),用混合高斯函数模拟,如式(1)所示,其中O=1代表图像中目标存在,X代表目标坐标,G代表图像全局信息,P(X,G|O=1)代表在目标存在的情况下,目标的坐标和图像全局信息的联合分布函数,表示高斯函数,μn和Λn分别表示坐标高斯函数的均值向量和协方差矩阵,ζn和γn分别代表全局信息高斯函数的均值向量和协方差矩阵,πn表示权重且N=4。
采用EM算法,用目标位置坐标和步骤S3获得的主分量估计μn,Λn,ζn,γn和πn。
S5.提取全局特征向量:对目标图像进行小波变换,分别获得目标图像的高频成分矩阵和低频成分矩阵;对获得的高频成分矩阵和低频成分矩阵进行高斯滤波得到目标图像的高频全局特征和低频全局特征;将得到的高频全局特征和低频全局特征分别映射到步骤S2得到的高频全局特征和低频全局特征的主分量,获得高频全局特征向量和低频全局特征向量;
这里的高斯滤波具体为进行四个尺度六个方向的高斯滤波,即是分别将高频和低频成分矩阵同六个方向的高斯金字塔卷积,六个方向具体为(30°,60°,90°,120°,150°,180°)。这里的金字塔为4层,其中第0层是目标图像,1到3层分别是用离散高斯滤波器对目标图像进行滤波和采样形成的,大小为目标图像的1/2到1/16。对高频和低频高斯金字塔分别进行采样,每个方向的每一层采样后为1×16的向量,最终得到两个1×384的向量,分别对应目标图像的高频和低频的全局特征。
S6.获取目标分布图像:分别将步骤S5得到的高频全局特征向量和目标图像的坐标矩阵以及步骤S5得到的低频全局特征向量和目标图像的坐标矩阵输入到步骤S4得到的分布函数,确定高频分布矩阵和低频分布矩阵,将高频分布矩阵和低频分布矩阵进行叠加得到分布矩阵,将分布矩阵与目标图相乘得到目标分布图像;
这里的坐标点矩阵大小为74×99,通过对600×800的坐标位置矩阵采样得到,采样率为8.
S7.特征提取:从步骤S5得到的目标分布图像提取两个颜色特征金字塔,强度特征金字塔以及四个方向特征金字塔;
其中,强度特征是由红、绿、蓝三种颜色分量的平均值得到;方向特征是其使用四个方向(0°,45°,90°,135°)的Gabor滤波器直接对强度特征进行滤波,即可得到四个方向(0°,45°,90°,135°)上的方向特征映射图;颜色特征分别计算对应于红-绿/绿-红色对的特征图MRG和对应于蓝-黄/黄-蓝色对的特征图MBY,以像素点(200200)为例,对应的红、绿、蓝颜色值为0.5529、0.8078、0.1569,那么这个点的MRG就是红、绿颜色矩阵值相减再除以红、绿、蓝三个值中最大的值,即0.3155,如果红、绿、蓝三个值中最大的值小于0.1,则MBY和MRG都归零,进而可以得到两个颜色特征金字塔、四个方向特征金字塔和一个强度特征金字塔。
S8.特征叠加:对得到的7个特征金字塔分别进行中央-周边操作和规范化,得到7个子特征金字塔,分别对颜色,强度,方向的特征金字塔进行叠加,得到3个特征图,对得到的3个特征图进行规范化,然后对规范化后的3个特征图进行叠加,得到一幅目标显著图。
中央-周边操作和规范化可参考文献:L.Itti,C.Koch,E.Niebur,A model of saliency-basedvisual attention for rapid scene analysis,Pattern Analysis and Machine Intelligence,IEEETransactions on,1998,Vol.20(11),1254-1259。具体过程如下:
中央-周边操作是在两个金字塔层之间进行,将高层金字塔图像利用插值放大到低层图像的尺寸,再对两图像进行点对点的减法操作。由视觉尺度问题知道,金字塔的不同层对应了视觉中的不同尺度,金字塔的低层称为主尺度,与该主尺度相差的层数称为尺度差,令主尺度c∈{1,2,3},周边尺度s=c+δ,δ=2,δ即为尺度差,通过计算不同尺度和尺度差的高斯差图像,来提取图像的信息。中央-周边操作高斯金字塔后可以得到3个子特征金字塔,即为21个不同尺度的子特征映射图。
由于对单幅独立图像进行显著区域提取,没有先验知识,通过规范化算子N(·)来增强显著峰较少的特征图,同时削弱存在大量显著峰的特征图,在特征映射图中,存在最显著区域(显著性最大)和其它一些较感兴趣(显著性局部极大)。根据皮层中的侧抑制机制,当这一最显著值与局部显著值差值较小时,则认为特征图中的显著区域显著性并不独特,相反,若差值较大,则认为显著性大的区域的确有很高的显著性。因此需要将映射图规范化,首先计算特征映射图的全局最大值M,将映射图归一化到[0,M]的区间内,然后计算映射图中除M之外的所有局部最大值的平均值用乘以特征图。
对3个子特征金字塔分别进行叠加,得到3个特征图,对得到的3个特征图进行规范化,然后对规范化后的3个特征图进行叠加,得到一幅显著图,具体为:21个不同尺度的子特征映射图具体分为两类颜色特征映射图、一类强度特征映射图、四类方向特征映射图,每类特征包含3个子特征映射图,一共21个子特征映射图。将每类特征里面的3个子特征映射图进行点对点相加后规格化处理,得到一个特征映射图;如果某种特征不止一类特征映射图,例如颜色特征有两类特征映射图,则这两类特征映射图再相加,得到颜色特征映射图。
图2为采用本发明方法对自然图像进行目标搜索,将结果与人类眼动数据构成的显著图和单一计算局部信息经典的Itti模型和单一用全局信息的自顶向下模型对比的图组。其中:2a.输入自然图像,2b.人眼显著图,2c.通过全局信息获取的目标分布图像,2d.Itti模型检测所得显著图像,2e.本方法检测得到的显著图。从图中可以看出,基于全局信息的自顶向下模型能将检测出目标可能存在的区域的纵坐标,并不能分辨出水平方向的不同区域。Itti模型包含了很多非人眼注视区域,本发明的方法计算得到的显著图与人类显著图更接近,证明了该方法在显著检测中的可行性。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (1)
1.一种目标搜索方法,包括对训练图像进行训练的步骤和对目标图像进行搜索的步骤,其中,对训练图像进行训练的步骤具体包括如下分步骤:
S1.小波变换:对训练图像进行小波变换,分别获得每个训练图像的高频成分矩阵和低频成分矩阵;
S2.高斯滤波:分别对每个训练图像高频成分矩阵和低频成分矩阵进行高斯滤波得到每个训练图像的高频全局特征和低频全局特征;
S3.主分量提取:采用PCA算法分别提取训练图像的高频全局特征和低频全局特征的主分量;
S4.确定分布函数:从训练图像中选取若干个图像,利用步骤S3得到的高频全局特征和低频全局特征的主分量与若干个图像的目标坐标,通过EM算法学习得到混合高斯函数的参数,确定分布函数。
对目标图像进行搜索的步骤具体包括如下分步骤:
S5.提取全局特征向量:对目标图像进行小波变换,分别获得目标图像的高频成分矩阵和低频成分矩阵;对获得的高频成分矩阵和低频成分矩阵进行高斯滤波得到目标图像的高频全局特征和低频全局特征;将得到的高频全局特征和低频全局特征分别映射到步骤S3得到的高频全局特征和低频全局特征的主分量,获得高频全局特征向量和低频全局特征向量;
S6.获取目标分布图像:分别将步骤S5得到的高频全局特征向量和目标图像的坐标矩阵以及步骤S5得到的低频全局特征向量和目标图像的坐标矩阵输入到步骤S4得到的分布函数,确定高频分布矩阵和低频分布矩阵,将高频分布矩阵和低频分布矩阵进行叠加得到分布矩阵,将分布矩阵与目标图相乘得到目标分布图像;
S7.特征提取:从步骤S6得到的目标分布图像提取两个颜色特征金字塔,强度特征金字塔以及四个方向特征金字塔;
S8.特征叠加:对步骤S7得到的7个特征金字塔分别进行中央-周边操作和规范化,得到7个子特征金字塔,分别对颜色,强度,方向的特征金字塔进行叠加,得到3个特征图,对得到的3个特征图进行规范化,然后对规范化后的3个特征图进行叠加,得到一幅显著图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102712327A CN102339393B (zh) | 2011-09-14 | 2011-09-14 | 一种目标搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102712327A CN102339393B (zh) | 2011-09-14 | 2011-09-14 | 一种目标搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102339393A true CN102339393A (zh) | 2012-02-01 |
CN102339393B CN102339393B (zh) | 2012-11-07 |
Family
ID=45515115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102712327A Active CN102339393B (zh) | 2011-09-14 | 2011-09-14 | 一种目标搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102339393B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122715A (zh) * | 2017-03-29 | 2017-09-01 | 哈尔滨工程大学 | 一种基于频‑时显著性结合的运动目标检测方法 |
CN108573221A (zh) * | 2018-03-28 | 2018-09-25 | 重庆邮电大学 | 一种基于视觉的机器人目标零件显著性检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561867A (zh) * | 2009-05-19 | 2009-10-21 | 华中科技大学 | 一种基于高斯形状特征的人体检测方法 |
-
2011
- 2011-09-14 CN CN2011102712327A patent/CN102339393B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561867A (zh) * | 2009-05-19 | 2009-10-21 | 华中科技大学 | 一种基于高斯形状特征的人体检测方法 |
Non-Patent Citations (3)
Title |
---|
LAURENT LTTI EL AT.: "《A Model of Saliency-Based Visual Attention for Rapid Scene Analysis》", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
XIN-JING WANG EL AT.: "《Grouping Web Image Search Result》", 《ACM DIGITAL LIBRARY》 * |
杜磬瑜等: "《一种新的小波域高斯-马尔可夫随机场混合金字塔模型》", 《中国生物医学工程进展-2007中国生物医学工程联合学术年会论文集(上册)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122715A (zh) * | 2017-03-29 | 2017-09-01 | 哈尔滨工程大学 | 一种基于频‑时显著性结合的运动目标检测方法 |
CN108573221A (zh) * | 2018-03-28 | 2018-09-25 | 重庆邮电大学 | 一种基于视觉的机器人目标零件显著性检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102339393B (zh) | 2012-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shoieb et al. | Computer-aided model for skin diagnosis using deep learning | |
CN104978580B (zh) | 一种用于无人机巡检输电线路的绝缘子识别方法 | |
CN102184557B (zh) | 一种复杂场景的显著区域检测方法 | |
CN107909059A (zh) | 一种面向复杂城市场景中协同仿生视觉的交通标志牌检测与识别方法 | |
CN103020965B (zh) | 一种基于显著性检测的前景分割方法 | |
CN102096824B (zh) | 基于选择性视觉注意机制的多光谱图像舰船检测方法 | |
CN104392463A (zh) | 一种基于联合稀疏多尺度融合的图像显著区域检测方法 | |
CN106682569A (zh) | 一种基于卷积神经网络的快速交通标识牌识别方法 | |
CN107977661B (zh) | 基于fcn与低秩稀疏分解的感兴趣区域检测方法 | |
CN104484658A (zh) | 一种基于多通道卷积神经网络的人脸性别识别方法及装置 | |
CN104517122A (zh) | 一种基于优化卷积架构的图像目标识别方法 | |
CN104915676A (zh) | 基于深层特征学习和分水岭的sar图像分类 | |
CN107967474A (zh) | 一种基于卷积神经网络的海面目标显著性检测方法 | |
CN110503613A (zh) | 基于级联空洞卷积神经网络的面向单幅图像去雨方法 | |
He et al. | Automatic recognition of traffic signs based on visual inspection | |
CN105023253A (zh) | 基于视觉底层特征的图像增强方法 | |
CN103679718A (zh) | 一种基于显著性的快速场景分析方法 | |
CN103295241A (zh) | 一种基于Gabor小波的频域显著性目标检测方法 | |
CN107992807A (zh) | 一种基于cnn模型的人脸识别方法及装置 | |
CN106909883A (zh) | 一种基于ros的模块化手部区域检测方法和装置 | |
CN106909884A (zh) | 一种基于分层结构和可变形部分模型的手部区域检测方法和装置 | |
Wei et al. | Image feature extraction and object recognition based on vision neural mechanism | |
CN110033006B (zh) | 基于颜色特征非线性降维的车辆检测跟踪方法 | |
CN106446833A (zh) | 一种用于复杂场景图像识别的多通道仿生视觉方法 | |
CN102222231B (zh) | 一种基于背侧通路引导的视觉注意信息计算装置及其处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |