CN102339393A

CN102339393A - 一种目标搜索方法

Info

Publication number: CN102339393A
Application number: CN2011102712327A
Authority: CN
Inventors: 李永杰; 何琦; 李朝义
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2011-09-14
Filing date: 2011-09-14
Publication date: 2012-02-01
Anticipated expiration: 2031-09-14
Also published as: CN102339393B

Abstract

本发明属于计算机视觉技术领域，公开了一种目标搜索方法。具体包括：小波变换、高斯滤波、主分量提取、确定分布函数、提取全局特征向量、获取目标分布图像、特征提取和特征叠加步骤。本发明的方法通过高斯滤波获取图像的全局信息，通过训练图像全局特征与目标位置得到的分布函数模拟图像中的目标对人眼注意的自顶向下的调制，提取强度，颜色，方向等特征模拟自底向上的调制，更准确的模拟了人眼搜索过程，同时在获取图像全局信息的过程中考虑了人眼的多尺度特性，更适合人眼视觉习惯，提高了结果的准确性。

Description

一种目标搜索方法

技术领域

本发明属于计算机视觉技术领域，特别涉及一种目标搜索方法。

背景技术

科学技术的不断发展使得各类信息量急剧增长，如何使计算机有效地处理多媒体信息，从中获取需要的信息是亟待解决的问题。而人眼能够对进入视网膜的海量信息很快做出反应，因此希望能够模拟人类的视觉处理机制从大量、冗余的复杂场景数字图像数据中快速、准确地获取我们寻找的目标区域，提高数字图像处理的效率和准确性。1998年Itti和Koch等人提出了一种自底向上的选择性注意模型——Itti模型，具体可参见文献：L.Itti，C.Koch.E.Niebur.Amodel of saliency-based visual attention for rapid scene analysis.Pattern Analysis and MachineIntelligence，IEEE Transactions on，1998，20(11)：1254-1259.这种方法充分利用了滤波器的思想并且模拟了视觉生理机制中的感受野的中央外周机制机返回抑制机制，形成了一个拟生理结构的计算模型。从整体来说，它基本完成了对初期视觉注意机制的建模，对于研究生理意义上的视觉选择性注意机制有重要的意义。但是用该模型仅利用了图像本身的信息，忽略了搜索任务对人眼的调制，因此对目标显著区域的检测准确性低。在文献：Antonio Torralba，AudeOliva，Monica S.Castelhano.Contextual Guidance of Eye Movement and Attention in Real-WorldScenes：The Role ofGlobal Features in Object Search.Psychological Review，2006，Vol.113，No.4，766-786，提出了一种采用高斯滤波获取图像全局信息的计算方法，通过学习获取图像全局信息与目标坐标的分布函数，同时采用指数分布函数模拟图像局部信息的分布，结合两个分布函数之积获取人眼的注视位置。但是该模型计算全局信息的过程中忽略了人眼在获取图像全局信息中的多尺度特性，不符合人眼在图像中的目标搜索过程，没有准确地同局部信息结合。

发明内容

本发明的目的是为了解决现有的注意模型对复杂场景中目标搜索时存在的缺陷，提出了一种目标搜索方法。

本发明的技术方案是：一种目标搜索方法，包括对训练图像进行训练的步骤和对目标图像进行搜索的步骤，其中，对训练图像进行训练的步骤具体包括如下分步骤：

S1.小波变换：对训练图像进行小波变换，分别获得每个训练图像的高频成分矩阵和低频成分矩阵；

S2.高斯滤波：分别对每个训练图像高频成分矩阵和低频成分矩阵进行高斯滤波得到每个训练图像的高频全局特征和低频全局特征；

S3.主分量提取：采用PCA算法分别提取训练图像的高频全局特征和低频全局特征的主分量；

S4.确定分布函数：从训练图像中选取若干个图像，利用步骤S3得到的高频全局特征和低频全局特征的主分量与若干个图像的目标坐标，通过EM算法学习得到混合高斯函数的参数，确定分布函数。

对目标图像进行搜索的步骤具体包括如下分步骤：

S5.提取全局特征向量：对目标图像进行小波变换，分别获得目标图像的高频成分矩阵和低频成分矩阵；对获得的高频成分矩阵和低频成分矩阵进行高斯滤波得到目标图像的高频全局特征和低频全局特征；将得到的高频全局特征和低频全局特征分别映射到步骤S3得到的高频全局特征和低频全局特征的主分量，获得高频全局特征向量和低频全局特征向量；

S6.获取目标分布图像：分别将步骤S5得到的高频全局特征向量和目标图像的坐标矩阵以及步骤S5得到的低频全局特征向量和目标图像的坐标矩阵输入到步骤S4得到的分布函数，确定高频分布矩阵和低频分布矩阵，将高频分布矩阵和低频分布矩阵进行叠加得到分布矩阵，将分布矩阵与目标图相乘得到目标分布图像；

S7.特征提取：从步骤S6得到的目标分布图像提取两个颜色特征金字塔，强度特征金字塔以及四个方向特征金字塔；

S8.特征叠加：对步骤S7得到的7个特征金字塔分别进行中央-周边操作和规范化，得到7个子特征金字塔，分别对颜色，强度，方向的特征金字塔进行叠加，得到3个特征图，对得到的3个特征图进行规范化，然后对规范化后的3个特征图进行叠加，得到一幅显著图。

本发明的有益效果：本发明基于人类大脑视觉信息处理机制，模拟人眼搜索过程提出了一种目标搜索方法。本发明的方法通过小波变换模拟人眼在全局特征提取中的多尺度特性，再采用高斯滤波获取高频和低频全局特征，利用图像全局特征与目标位置的分布函数得到目标分布图像，再从中提取强度特征金字塔、颜色特征金字塔以及方向特征金字塔，整合成为一幅显著图。本发明的方法通过高斯滤波获取图像的全局信息，通过训练图像全局特征与目标位置得到的分布函数模拟图像中的目标对人眼注意的自顶向下的调制，提取强度，颜色，方向等特征模拟自底向上的调制，更准确的模拟了人眼搜索过程，同时在获取图像全局信息的过程中考虑了人眼的多尺度特性，更合人眼视觉习惯，提高了结果的准确性。

附图说明

图1是本发明目标搜索方法的流程示意图。

图2是本发明的方法对一幅自然图像进行目标搜索的显著图与经典模型检测作比较的结果图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

本发明模拟人眼搜索过程，先计算场景的全局信息引导注意转移到目标可能存在区域，再由目标可能存在区域的局部的细节信息搜索目标。下面以一幅自然场景的目标搜索进行具体说明。

如图2a所示，首先从图片库中选出一幅自然图像作为目标图像，图像大小为600×800。具体搜索方法的流程如图1所示，具体过程如下：

其中训练图像的数目为2000幅，训练图像的大小为1280×1400且所有训练图像中目标的位置坐标已标定。

S1.小波变换：对训练图像进行小波变换，获得高频成分矩阵和低频成分矩阵；

这里的小波变换指的是先对训练图像进行小波分解，然后再分别对高频系数和低频系数分别重构，进而获得高频成分矩阵和低频成分矩阵，在本实施例中即将彩色训练图像进行尺度调整和灰度处理后，通过复数小波进行一层小波分解，获得六个方向(30°，60°，90°，120°，150°，180°)的高频系数和以两个低频系数。重构这六个方向的高频系数，然后将所有的高频成分线性叠加起来后量化编码得到一个高频成分矩阵；将低频系数重构并线性叠加然后量化编码可以得到低频成分矩阵；

S2.高斯滤波：分别对每个训练图像的高频成分矩阵和低频成分矩阵进行高斯滤波得到每个训练图像的高频全局特征和低频全局特征；

这里的高斯滤波具体为进行四个尺度六个方向的高斯滤波，即是分别将高频和低频成分矩阵同六个方向的高斯金字塔卷积，六个方向具体为(30°，60°，90°，120°，150°，180°)。这里的金字塔为4层，其中第0层是训练图像，1到3层分别是用离散高斯滤波器对训练图像进行滤波和采样形成的，大小为训练图像的1/2到1/16。对高频和低频高斯金字塔分别进行采样，每个方向的每一层采样后为1×16的向量，最终得到两个1×384的向量，分别对应训练图像的高频和低频的全局特征。

将所有训练图像的高频和低频的全局特征分别组合为两个全局特征矩阵，矩阵大小为2000×384。用PCA算法对两个矩阵分别进行主成份分析，提取前100个主分量，得到高频全局特征和低频全局特征的主分量，大小为100×384。

这里，PCA算法具体可参考文献：Hancock PJB，Baddeley R J，Smith L S.The principalcomponents of natural images.Network：Computation in Neural Systems，1992，3：61-71。

S4.确定分布函数：从训练图像中选取500幅图像，利用步骤S3得到的高频全局特征和低频全局特征的主分量与若干个图像的目标坐标，通过EM算法学习得到混合高斯函数的参数，确定分布函数；

这里，EM算法具体可参考文献：Arthur Dempster，Nan Laird，and Donald Rubin.Maximumlikelihood from incomplete data via the EM algorithm.Journal of the Royal Statistical Society，Series B，39(1)：1-38，1977。

这里的分布函数是图像的全局特征与目标位置坐标的联合概率分布函数，即式(1)的P(X，G|O＝1)，用混合高斯函数模拟，如式(1)所示，其中O＝1代表图像中目标存在，X代表目标坐标，G代表图像全局信息，P(X，G|O＝1)代表在目标存在的情况下，目标的坐标和图像全局信息的联合分布函数，

表示高斯函数，μ_n和Λ_n分别表示坐标高斯函数的均值向量和协方差矩阵，ζ_n和γ_n分别代表全局信息高斯函数的均值向量和协方差矩阵，π_n表示权重且

N＝4。

式(1)

采用EM算法，用目标位置坐标和步骤S3获得的主分量估计μ_n，Λ_n，ζ_n，γ_n和π_n。

S5.提取全局特征向量：对目标图像进行小波变换，分别获得目标图像的高频成分矩阵和低频成分矩阵；对获得的高频成分矩阵和低频成分矩阵进行高斯滤波得到目标图像的高频全局特征和低频全局特征；将得到的高频全局特征和低频全局特征分别映射到步骤S2得到的高频全局特征和低频全局特征的主分量，获得高频全局特征向量和低频全局特征向量；

这里的高斯滤波具体为进行四个尺度六个方向的高斯滤波，即是分别将高频和低频成分矩阵同六个方向的高斯金字塔卷积，六个方向具体为(30°，60°，90°，120°，150°，180°)。这里的金字塔为4层，其中第0层是目标图像，1到3层分别是用离散高斯滤波器对目标图像进行滤波和采样形成的，大小为目标图像的1/2到1/16。对高频和低频高斯金字塔分别进行采样，每个方向的每一层采样后为1×16的向量，最终得到两个1×384的向量，分别对应目标图像的高频和低频的全局特征。

这里的坐标点矩阵大小为74×99，通过对600×800的坐标位置矩阵采样得到，采样率为8.

S7.特征提取：从步骤S5得到的目标分布图像提取两个颜色特征金字塔，强度特征金字塔以及四个方向特征金字塔；

其中，强度特征是由红、绿、蓝三种颜色分量的平均值得到；方向特征是其使用四个方向(0°，45°，90°，135°)的Gabor滤波器直接对强度特征进行滤波，即可得到四个方向(0°，45°，90°，135°)上的方向特征映射图；颜色特征分别计算对应于红-绿/绿-红色对的特征图M_RG和对应于蓝-黄/黄-蓝色对的特征图M_BY，以像素点(200200)为例，对应的红、绿、蓝颜色值为0.5529、0.8078、0.1569，那么这个点的M_RG就是红、绿颜色矩阵值相减再除以红、绿、蓝三个值中最大的值，即0.3155，如果红、绿、蓝三个值中最大的值小于0.1，则M_BY和M_RG都归零，进而可以得到两个颜色特征金字塔、四个方向特征金字塔和一个强度特征金字塔。

S8.特征叠加：对得到的7个特征金字塔分别进行中央-周边操作和规范化，得到7个子特征金字塔，分别对颜色，强度，方向的特征金字塔进行叠加，得到3个特征图，对得到的3个特征图进行规范化，然后对规范化后的3个特征图进行叠加，得到一幅目标显著图。

中央-周边操作和规范化可参考文献：L.Itti，C.Koch，E.Niebur，A model of saliency-basedvisual attention for rapid scene analysis，Pattern Analysis and Machine Intelligence，IEEETransactions on，1998，Vol.20(11)，1254-1259。具体过程如下：

中央-周边操作是在两个金字塔层之间进行，将高层金字塔图像利用插值放大到低层图像的尺寸，再对两图像进行点对点的减法操作。由视觉尺度问题知道，金字塔的不同层对应了视觉中的不同尺度，金字塔的低层称为主尺度，与该主尺度相差的层数称为尺度差，令主尺度c∈{1，2，3}，周边尺度s＝c+δ，δ＝2，δ即为尺度差，通过计算不同尺度和尺度差的高斯差图像，来提取图像的信息。中央-周边操作高斯金字塔后可以得到3个子特征金字塔，即为21个不同尺度的子特征映射图。

由于对单幅独立图像进行显著区域提取，没有先验知识，通过规范化算子N(·)来增强显著峰较少的特征图，同时削弱存在大量显著峰的特征图，在特征映射图中，存在最显著区域(显著性最大)和其它一些较感兴趣(显著性局部极大)。根据皮层中的侧抑制机制，当这一最显著值与局部显著值差值较小时，则认为特征图中的显著区域显著性并不独特，相反，若差值较大，则认为显著性大的区域的确有很高的显著性。因此需要将映射图规范化，首先计算特征映射图的全局最大值M，将映射图归一化到[0，M]的区间内，然后计算映射图中除M之外的所有局部最大值的平均值

用

乘以特征图。

对3个子特征金字塔分别进行叠加，得到3个特征图，对得到的3个特征图进行规范化，然后对规范化后的3个特征图进行叠加，得到一幅显著图，具体为：21个不同尺度的子特征映射图具体分为两类颜色特征映射图、一类强度特征映射图、四类方向特征映射图，每类特征包含3个子特征映射图，一共21个子特征映射图。将每类特征里面的3个子特征映射图进行点对点相加后规格化处理，得到一个特征映射图；如果某种特征不止一类特征映射图，例如颜色特征有两类特征映射图，则这两类特征映射图再相加，得到颜色特征映射图。

图2为采用本发明方法对自然图像进行目标搜索，将结果与人类眼动数据构成的显著图和单一计算局部信息经典的Itti模型和单一用全局信息的自顶向下模型对比的图组。其中：2a.输入自然图像，2b.人眼显著图，2c.通过全局信息获取的目标分布图像，2d.Itti模型检测所得显著图像，2e.本方法检测得到的显著图。从图中可以看出，基于全局信息的自顶向下模型能将检测出目标可能存在的区域的纵坐标，并不能分辨出水平方向的不同区域。Itti模型包含了很多非人眼注视区域，本发明的方法计算得到的显著图与人类显著图更接近，证明了该方法在显著检测中的可行性。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种目标搜索方法，包括对训练图像进行训练的步骤和对目标图像进行搜索的步骤，其中，对训练图像进行训练的步骤具体包括如下分步骤：

对目标图像进行搜索的步骤具体包括如下分步骤：