CN101271525B

CN101271525B - 一种快速的图像序列特征显著图获取方法

Info

Publication number: CN101271525B
Application number: CN2008100358622A
Authority: CN
Inventors: 马奇; 过晨雷; 张立明
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2008-04-10
Filing date: 2008-04-10
Publication date: 2011-05-04
Anticipated expiration: 2028-04-10
Also published as: CN101271525A

Abstract

本发明属于机器视觉和图像处理技术领域，具体为一种快速的图像序列特征显著图获取方法。本发明把输入图像序列的时间信息和空间信息综合在四元数特征图像中，将图像的颜色、形状和运动信息结合起来用于后续显著目标抽取，同时该算法利用四元数特征图像频率域的相位信息作为原图像序列显著图获取的依据，能快速准确的得到图像中人眼感兴趣的注意力选择区域，从中可以进一步提取出图像中的显著物体。实验表明本发明在自然视频流场景中有着较高的运算效率和很好的显著目标抽取结果。同时，方法本身复杂度较低，易于硬件实现，在机器人视觉，目标跟踪以及图像分割，视频压缩、编码、传输等领域内有很好的应用前景。

Description

一种快速的图像序列特征显著图获取方法

技术领域

本发明属于机器视觉和图像处理技术领域，具体涉及一种基于频率域相位分析的图像序列显著图获取方法。

技术背景

随着互联网和IT相关技术的不断发展，人类社会进入信息时代，人们每天通过各种手段(网络、电视、广播等等)获得大量的信息。据统计，其中80％来源于图像媒体，15％来源于语音。可见视觉信息是人类接收信息的主要手段，即图像与视频成了信息交流中最为重要的载体，也是蕴含信息量最大的媒体。其理所当然的成为当今通信和计算机系统中一种重要的处理对象，如何从大量的视频图像信息中获得有用信息，是数据挖掘中的关键。其次图像与视频信息携带了巨大的信息量，其传播与存储对网络通信的速度与容量提出了更高的要求。其爆炸性增长让已经非常紧张的网络带宽与存储资源变得日益不堪重负。为了减少图像与视频在传输和存储中的资源消耗，尽管各种压缩算法不断被提出，也起到了一定的效果，但其越来越趋向于设计的极限而显得力不从心。同时对于图像中的目标检测、识别和跟踪也是目前计算机视觉中十分重要的方面，它在军事、航天和智能机器人等方面有广泛的应用价值，如何快速搜索到有用的目标进行跟踪和识别，也是人们关心的问题。

在这一背景下，人们更倾向于从另一个角度去解决以上问题——对人的视觉机能的研究和模拟。人对于视觉信息具有很强的去冗余的能力：首先人眼视网膜中央凹的结构，使得人眼对视觉中央区域的分辨率较高，而周围的分辨率逐渐降低；其次人脑只对视觉场景中有新颖信息的感兴趣的部分分配较多的注意力^[13][14][15]，因而观察也较为仔细，而对其余位置并不“关注”，这种资源优化配置的机制为人眼和人脑节省了大量资源，同时对于运动的目标和与场景中那些与它周边明显不同的区域眼睛也会特别关注，这是人的视觉能很快地搜索到目标的原因。受此启发，把以上称之为注意力选择的机制^[1][2][3]，将这种机制应用于图像、视频的有用信息的挖掘、目标检测、识别中，可节省其搜索时间，应用于图像和视频的编解码压缩中，可在人眼能够感受到的视觉质量下降最少的情况下，大大减少图像、视频的容量大小，对缓解其传输、存储的压力将有很好的效果。

要应用以上注意力选择机制就必须抽取图像中人眼感兴趣的区域，通常自然视频场景中的显著特征区域如强烈的颜色对比、形状对比、运动变化和新颖物体的出现都将导致强烈的视觉刺激信号，引起注意力的选择。因此，对显著区域的提取技术成为解决以上问题的关键，同时也是后续目标识别与监测的前提技术。对此，相关的研究持续了数十年，提出各种不同的模型^[5][6][7]。但是，时至今日，它依然是机器视觉和图像视频处理领域中极具挑战性的问题。

基于静态图像的方法在过去的研究中取得了长足的进步，其中包括Itti等人提出的一种自下而上(bottom-up)的处理模型，并以此开发出了一套C++视觉工具集——NVT(Neuromorphic Vision Toolkit)^[4]，以下简称为NVT算法。此种方法从一定意义模拟了生物对于复杂场景的视觉处理，具有较好的显著特征抽取结果和抗噪声的能力，但也存在着计算成本高，速度慢并且显著特征抽取结果依赖于参数的选择等不足。最近Hou等人提出了一种基于傅立叶变换的残差对自然场景分析方法SR(Spectral Residual)^[8]，这种算法有计算成本低，运算速度快，结果不依赖于参数选取的优点，但是其抗噪声能力差，并仅局限于抽取视频图像灰度特征而不考虑颜色信息，对彩色图像显著特征抽取效果差。同时以上几种方法都只是针对于静态图像，对于带有重要运动信息的图像序列无法做出准确的显著特征抽取。当前对于动态场景的显著特征抽取方法还是一个空白。

在^[12]中提出的彩色图像的超复数傅立叶变换的基础之上，本发明提出了一种基于频率域相位显著特征抽取的图像序列显著图获取方法^[9]，简称为PQFT(Phase spectrum ofQuaternion Fourier Transform)算法。该方法把相位信息作为模拟人眼注意力选择的依据，以此来快速、准确获取原图像显著区域，此外该方法把图像序列的时间信息和空间信息统一到四元数表示的图像中，把对图像颜色、形状和运动的信息通道的运算处理统一到对一个四元数表示的图像的运算处理，提高了运算效率与计算效果。可同时对于静态图像和动态图像的序列进行处理，最终使得显著特征抽取效果强于只支持静态彩色图像的NVT算法和只考虑静态灰度图像特征的SR算法，而运算成本和运算时间同SR相当，比NVT小很多，因而可使这项技术用于实时的处理。

下面介绍与本发明相关的一些概念：

1.NVT算法简介

依特(Itti)、柯希(Koch)在1998年提出基于显著性特征的注意力选择模型^[4]，并在2001年度自然(Nature)上对该模型理论作了进一步的完善^[17]。这个注意力选择模型是基于这样的假设：原始图像输入到模型后，通过多个通道的处理，考虑不同的尺度的分析和滤波的计算后获得一个两维的显著特征映射图，这个映射图中幅度最强的区域部分，就为注意力选择的焦点，其次强的区域为第二选择，以此类推得到数个显著特征区域，它可以为注意力的分配提供很好的策略。它的基本模型如图1所示：输入的静态图像先通过一个线性滤波器滤去图像中的噪声，然后并行的分为三个通道获取图像的颜色、亮度、和方位的信息，然后并行地送到金字塔状的高斯低通滤波器W_lpf中(Overcomplete steerablepyramids)^[16]，对输入图像进行逐层低通滤波处理和降采样，(具体见后面的介绍)，产生一系列不同尺度的红、蓝、绿、黄四种颜色，亮度，以及四个方位(0度，45度，90度，135度)所对应的两维特征图(9个尺度)，呈金字塔状输出。然后分别对各个特征通道所对应的不同尺度特征图之间的“中心点-环绕区域”差异性的进行计算(center-surrounddifferences)和归一化，颜色通道获得红绿特征、蓝黄特征各6幅特征映射图(共12幅)，亮度通道6幅特征映射图，方位信息四个方向各6幅映射图(共24幅)，然后通过个尺度特征图的合并以及归一化，获得颜色、亮度和方向三个输入通道各自对应的综合特征图。它的金字塔颜色和亮度信息是这样获得的：

假定视觉信息输入为静止的彩色图像，通过二维金字塔形高斯滤波器对输入图像进行逐层低通处理和降采样，得到9个不同尺度的图像，呈金字塔输出^[18]，实现从1∶1(第0层)到1∶256(第8层)的尺度。设r，g和b分别代表输入图像的红色、绿色和蓝色通道，亮度信息I通过下式获得：

I＝(r+g+b)/3 (1)

四个颜色通道红、绿、蓝、黄(R，G，B，Y)输入分别通过以下式子获取：

R＝r-(g+b)/2

G＝g-(r+b)/2

B＝b-(r+g)/2

Y＝(r+g)/2-|r-g|/2-b (2)

以上颜色通道输出若有负值均设为0。

假设W_lpf为金字塔形高斯低通滤波器。通过这滤波器对I，R，G，B和Y五个通道进行处理，详见文献[16，17]，设原始的五个通道的图像为I₀，R₀，G₀，B₀，Y₀，把它们通过低通滤波器滤波后，再用长、宽两点取一点的方法取得减小尺度的低一个分辨率的图像，然后再不断地滤波和减小尺度，取得9个不同尺度的亮度信息I和四个颜色通道的金字塔图像：I_σ，R_σ，G_σ，B_σ，Y_σ，其中σ＝{0，1，2，...8}。

方位信息是用滤波器来实现的，用不同尺度的嘉柏(Gabor)方向滤波W_bpf(σ；θ)对输入图像进行处理得到输出为：

O_σ(θ)＝W_bpf(σ；θ)·I (3)

这里σ∈{0，1，2，...8}代表相应的分辨率(尺度)的图像层，θ∈{0°，45°，90°，135°}对应4个不同角度方向。而方向检测的嘉柏(Gabor)滤波器W_bpf是通过文献[16]提出的带有一组具有方向性的正弦波的拉普拉斯金字塔滤波器的调制得到。

“中心点-环绕区域”的差异是求不同尺度图像层(分辨率高和分辨率相对较低的两层图像)之间的差值。设c对应经滤波器后产生的不同尺度的图像层，选取落在图像c∈{2，3，4}的像素点作为中心点，而环绕区域是对应的在s＝c+δ的图像层，这里δ∈{3，4}。两层之间的差值计算是通过把相对低分辨率的图像层s拉伸放大到和高分辨率图像层c同样大小然后进行逐点相减的运算，这样可以通过计算，生成一系列特征映射图，实现对不同尺度的图像层特征的抽取。在亮度信息通道总共6幅特征映射图I(c，s)，其中c∈{2，3，4}，s＝c+δ，δ∈{3，4}；颜色通道中把红色为中心点绿色为环绕区域，为12幅(对应红绿特征、蓝黄特征各6幅)而方位通道有24幅特征映射图。

把三个通道的特征图通过线性相加获得最终的两维的综合特征映射图(Saliency map)。如同输入图像的“地理”特征映射，该特征映射图输出越强的区域，对应于输入图像中越显著越容易吸引注意力的区域。同时，已经分配注意力的显著区域将会对它在特征映射图的输出进行抑制，这样注意力不会一直集中在最显著的区域，而会按照显著性依次关注个对应区域。所有的特征都纯粹地通过自下而上的方式形成显著性的映射，最后在整幅输入图像中形成对应的“地理”特征映射图，从而得到输入图像的显著图。整个流程见图1。

该模型模仿生物视觉的自下而上的预处理过程，实现对视觉区域中最为显著的区域的计算，在现有的计算机实现的注意力选择模型中得到广泛的应用。但由于该模型算法复杂，计算成本高，运算时间长。同时其运算结果严重依赖于参数的选取(各种滤波器参数，不同尺度综合参数，线性迭加参数等)并且只针对静态图像。

2.SR算法简介

SR方法是2007年赫(Hou)提出的一种得到图像的显著图的方法^[8]。他们认为，从信息论对编码的要求来看，单幅图像的信息H(图像)可以看作由两部分组成，即

H(图像)＝H(新颖部分)+H(先验知识) (5)

其中H(先验知识)为先验信息部分而H(新颖部分)新颖信息部分，而新颖信息的部分可能就是输入图像的显著图。同时SR发现，对输入图像I(x，y)进行二维傅立叶变换后，得到频率域的振幅谱和相位谱为：

A(f)＝‖F(I(x，y))‖，P(f)＝arctg[imag(F(I(x，y)))/real(F(I(x，y)))] (6)

式(6)中的F为二维傅立叶变换，A(f)和P(f)分别为图像的振幅谱和相位谱。其频率域的幅值A(f)的对数形式为：L(f)＝log(A(f))经过一个低通滤波器h_n(f)可以得到的B(f)，

如式(7)示：

B(f)＝h_n(f)*L(f)，

赫(Hou)他们检测很多图像的B(f)，发现几乎所有图像的B(f)都是类似的，这样就可以把B(f)看作是图像的先验信息部分，而把L(f)看作是单幅图像总的信息，于是就可以把R(f)＝L(f)-B(f)来表示图像中残留信息的部分，称为残留谱(spectral residual)。而残留谱正好表达了原图像中的新颖信息具有显著性。

因此把残留谱R(f)的指数作为频率域的幅值，保留原来的相位谱，经过傅立叶逆变换就可以恢复出原图像显著图来。该方法的具体步骤为下：

1.用式(6)得到图像的振幅谱A(f)和相位谱P(f)

2.让L(f)＝log(A(f))，利用式(7)得到图像的先验信息B(f)

3.得到残留谱R(f)＝L(f)-B(f)，新的振幅谱A(f)′＝exp(R(f))

4.原图像显著图I_s(x，y)＝g(x，y)*‖F^-1[A(f)′exp(j2πP(f))]‖ (8)

(8)式中g(x，y)为滤波器，F^-1为傅立叶逆变换。

该方法得到的特征显著图的质量可以与NVT得到的显著图相比，而且该算法计算速度快，运算效率高，结果不依赖于参数的设定，可以实时；但是该算法抗噪声能力差，只利用了图像灰度特征，却忽略了图像颜色等方面的信息，其效果不如NVT算法。同样本算法也是只针对静态的灰度图像，不能处理彩色和动态图像。

3.四元数简单介绍^[10][11][12]：

四元数(Quatemion)是1843年数学家汉密尔顿(Hamilton)创造的，由四个数为一组来表示一个三维或四为一体的数。数字从有理数到实数再到复数，数字的扩充就到头了，复数是平面上一个点，如何再继续扩充成空间中一个点，Hamilton从三元数推广到四元数来表示带有旋转的空间坐标上的点，他用两个复数的组合得到超复数表示的四元数，后期的数学家对四元数的运算给出了很多法则。同时近年来由于在信息领域中往往碰到由多个因素决定的问题，四元数在信息领域尤其在图像领域中的应用开始发展起来，2007年在IEEE图像处理期刊杂志上E11等人^[10][11]提出用四元数的傅立叶变换来解彩色图象的处理问题给本专利的发明有了很大启发，下面给出与本专利有关的四元数基本概念和运算。

1.四元数基本概念：

定义：一个四元数可以用如下超复数的形式表示：q＝a+bi+cj+dk，其中a，b，c，d是实数，i，j，k是复数运算子。a为四元数的数量部分，也称纯量部分；bi+cj+dk为向量部分。它们]满足以下法则：ijk＝i²＝j²＝k²＝-1以及jk＝i，kj＝-i，ki＝j，ik＝-j，ij＝k，ji＝-k所以四元数相乘不满足乘法交换律。一个四元数的模和补可以表示为：

| | q | | = \sqrt{a^{2} + b^{2} + c^{2} + d^{2}}, \overset{&OverBar;}{q} = a - bi - ch - dk .

模等于1的四元数被称为单位四元数，对于a为零的单位四元数称为单位纯四元数。

2.四元数的极数形式：

任何的四元数都可以表示为极数形式：q＝‖q‖e^uφ，其中‖q‖为四元数的模即幅值。根据欧拉公式，e^uφ＝cosφ+μsinφ，其中μ为单位纯四元数，称为四元数的本征轴(eigenaxis)，如q＝a+bi+cj+dk，则

μ = (bi + cj + dk) / \sqrt{b^{2} + c^{2} + d^{2}} .

φ是四元数的本征相角(eigenangle)cosφ＝a/‖q‖；

\sin φ = \sqrt{b^{2} + c^{2} + d^{2}} / | | q | |,

φ∈[0，π]。

3.四元数的凯萊-狄克森(Cayley-Dickson)形式与偶对(symplectic)形式

任意四元数q＝a+bi+cj+dk，可以重写为凯萊-狄克森形式：q＝A+Bj，其中A＝a+bi，B＝c+di，即q＝(a+bi)+(c+di)j。按照以上思想可以把q重写为偶对形式：q＝A′+B′μ₂，A′＝a′+b′μ₁，B′＝c′+d′μ₁，其中μ₁，μ₂为两个单位纯四元数，且μ₁⊥μ₂，μ₁μ₂＝μ₃则有：q＝(a′+b′μ₁)+(c′+d′μ₁)μ₂＝a′+b′μ₁+c′μ₂+d′μ₃。 (9)

4.四元数图像傅立叶变换：

如果一幅图像f的每个像素的值用四元数来表示，其离散傅立叶变换为：

F [u, v] = \frac{1}{\sqrt{MN}} Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} e^{- μ 2 π ((mv / M) + (nu / N))} f (n, m) - - - (10)

其中μ为单位纯四元数，μ²＝-1，f(n，m)表示原始四元数图像第n行m列的四元数值。M表示图像的宽度，N表示图像的高度。F[u，v]表示频率域第u行v列的取值。四元数图像的傅立叶逆变换为：

f [m, n] = \frac{1}{\sqrt{MN}} Σ_{u = 0}^{M - 1} Σ_{v = 0}^{N - 1} e^{μ 2 π ((nu / M) + (mv / N))} F (u, v) - - - (11)

四元数图像快速傅立叶变换算法^[12]：

1)给定四元数图像f(n，m)，重写为四元数偶对形式

f(n，m)＝f₁(n，m)+f₂(n，m)μ₂ (12)

其中f₁(n，m)＝r_1，1(n，m)+r_1，2(n，m)μ₁，f₂(n，m)＝r_2，1(n，m)+r_2，2(n，m)μ₁ (13)

2)建立等效复数图像，这一步只是简单的把(13)中的μ₁改写为i

f′₁(n，m)＝r_1，1(n，m)+r_1，2(n，m)i，f′₂(n，m)＝r_2，1(n，m)+r_2，2(n，m)i (14)

对f′₁(n，m)和f′₂(n，m)进行二维复数傅立叶变换得到

F′₁[v，u]＝R′_1，1[v，u]+R′_1，2[v，u]i，F′₂[v，u]＝R′_2，1[v，u]+R′_2，2[v，u]i (15)

3)将(15)中的i改写为μ₁得到

F₁[v，u]＝R′_1，1[v，u]+R′_1，2[v，u]μ₁，F₂[v，u]＝R′_2，1[v，u]+R′_2，2[v，u]μ₁ (16)

最后利用式(9)得到完整频率域四元数形式为：

F[v，u]＝F₁[v，u]+F₂[v，u]μ₂ (17)

四元数图像快速傅立叶逆变换同上类似，只是把第2步中的二维复数傅立叶变换改为二维复数傅立叶逆变换。

参考文献

1.R.Fergus，P.Perona，and A.Zisserman.Object class recognition by unsupervisedscale-invariant learning.Proc.CVPR，2，2003.

2.Treisman and G.Gelade.A Feature-Integration Theory ofAttention.Cognitive Psychology，12(1)：97-136，1980.

3.J.Wolfe.Guided Search 2.0：A Revised Model of Guided Search.Psychonomic Bulletin&Review，1(2)：202-238，1994.

4.L.Itti，C.Koch，E.Niebur，et al.A Model of Saliency-Based Visual Attention for RapidScene Analysis.IEEE Transactions.on PAMI，20(11)：1254-1259，1998.

5.R.Rensink.Seeing，sensing，and scrutinizing.Vision Research，40(10-12)：1469-87，2000.

6.D.Sr and C.Koch，Modeling attention to salient proto-objects.Neural Networks.19，1395-1407，2006

7.D.Walther，L.Itti，M.Riesenhuber，T.Poggio，and C.Koch.Attentional Selection for ObjectRecognition-a Gentle Way.Lecture Notes in Computer Science，2525(1)：472-479，2002.

8.X.Hou and L.Zhang，Saliency Detection：A Spectral Residual Approach，Proc.CVPR，2007.

9.K.Castleman，Digital Image Processing.Prentice-Hall，New York，1996，

10.T.Ell and S.Sangwin，Hypercomplex Fourier Transforms of Color Images，IEEETransactions on Image Processing，16(1)：22-35，2007

11.T.A.Ell，Hypercomplex Spectral Transforms，Ph.D.dissertation，Univ.Minnesota，Minneapolis，1992.

12.S.J.Sangwine，Fourier transforms of colour images using quatemion，or hypercomplex，numbers，Electron.Lett，vol.32，no.21，pp.1979-1980，Oct.1996.

13.S.Engel，X.Zhang，and B.Wandell，Colour Tuning in Human Visual Cortex Measured WithFunctional Magnetic Resonance Imaging，Nature，vol.388，no.6，637，pp.68-71，July 1997.

14.M.I.Posner and Y.Cohen，Components of Visual Orienting，H.Bouma and D.G.Bouwhuis，eds.，Attention and Performance，vol.10，pp.531-556.Hilldale，N.J.：Erlbaum，1984.

15.J.Wolfe.Guided Search 2.0：A Revised Model of Guided Search.Psychonomic Bulletin&Review，1(2)：202-238，1994.

16.H.Greenspan，S.Belongie，R.Goodman，P.Perona，S.Rakshit，and C.H.Anderson，“Overcomplete Steerable Pyramid Filters and Rotation Invariance，”Proc.IEEE ComputerVision and Pattern Recognition，pp.222-228，Seattle，Wash.，June 1994.

17.L.Itti and C.Koch，“Computational modeling of visual attention，”Nature Neurosci.Rev.，vol.21，pp.314-329，2001.

18.H.Greenspan，S.Belongie，R.Goodman，P.Perona，S.Rakshit，and C.H.Anderson，“Overcomplete Steerable Pyramid Filters and Rotation Invariance，”Proc.IEEE ComputerVision and Pattern Recognition，pp.222-228，Seattle，Wash.，June 1994.

发明内容

本发明的目的在于提出一种提取图像序列特征显著图的方法，用于提取场景中人眼感兴趣的目标区域，进而提取显著物体。虽然已有的NVT算法和SR算法都在一定程度上做到了这一点，但两者都存在一定的局限性，有各自的不足与缺陷。本发明正是针对以上不足，提出了一种新的利用四元数运算，基于图像相位信息来获取图像显著图的方法。

从静态图像的特征显著图的获取方法来分析，我们指出了SR方法的不合理性，并作了改进。

对NVT而言，由于算法过于复杂，计算硬件成本高，运算时间长，并不适合对连续的视频图像序列进行在线的处理。而SR中基于图像频率域处理的算法，由于有快速傅立叶变换算法的存在，因而计算速度很快。但是仔细分析SR算法(上一节SR介绍中的步骤)，在它的富理叶对数谱的残留谱计算(步骤3)并不是很有道理，因为傅立叶变换的幅度谱只反映了图像中每个频率成分的比例，它不存在位置信息，但是图像的特征显著图往往反映了图像边缘的位置信息，而相反，相位谱是反映边缘位置信息的^[9]。用一维的傅立叶变换作为考察相位谱的例子如图2示。

图2中左图表示原始的信号，右图为只通过相位谱的反傅立叶变换(保持幅度谱为非另常数)恢复的信号。可以看出通过相位恢复的信号，在原信号变化剧烈的位置(如方波的跳变上下缘)有较大的输出，而对原信号平稳部分或者是有周期性变化规律的位置，输出很小(信号的起始和结束不考虑)。对于图像而言，图像中非周期性的纹理、边缘变化剧烈的部分是相位信号恢复图像输出较大的对应所在，同时这些部分往往是蕴藏信息量比较大的位置，携有大量的新颖信息，因而也是人脑感兴趣。所以可以简单的以相位信息恢复的图像看作是表征人眼注意力选择区域的特征显著图。

因此，我们认为之所以SR算法能得到比较好的结果是因为它保留了原图像的相位谱(SR介绍中的步骤4)。我们把SR介绍中的步骤改为如下：

(1)用式(6)得到图像的振幅谱A(f)和相位谱P(f)；

(2)将所有频率上的振幅谱设为1。即

A (f) = 1, &ForAll; f;

(3)原图像显著图I_s(n，m)＝g(n，m)*‖F^-1[exp(j2πP(f))]‖； (18)

在(18)式中g(n，m)为低通滤波器，

g (n, m) = \frac{1}{5^{2}} (\begin{matrix} 1 & 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 & 1 \end{matrix}),

F^-1表示傅立叶逆变换。

很明显，在这里我们只考虑相位谱P(f)，把图像的振幅谱定为1，g(n，m)滤波器是将突出的边缘部分平滑为一个特征显著区域，以便人们注意不是一个点，而是一个区域来得到感兴趣的目标。上面这个方法我们称为PFT。与SR方法相比，本发明减少了求对数谱、对数谱的滤波、计算对数残留谱和恢复对数残留谱为残留谱的步骤。

利用上面的PFT方法对三幅静态图像进行处理，并与SR进行对照，结果如图3所示。其中左图是原图像，上两幅为风景图，下一幅是三个长颈鹿，中间和右图分别是本发明的方法和SR方法得到的特征显著图结果，亮的部分是该注意的地方，两者几乎相同。为了定量的分析，我们对分辨率为64×64，128×128，256×256和512×512的四组图像的特征显著图进行了对比，用式(18)表示PFT和SR的特征显著图误差

{MSE}_{i} = \frac{1}{NM} Σ_{n = 1}^{N} Σ_{m = 1}^{M} {(I_{s (PFT)} (n, m) - I_{s (SR)} (n, m))}^{2} - - - (19)

这里N，M为特征显著图的长和宽，m，n为图像的编号。比较二者MSE的结果如图4和表1所示：

表1基于相位的方法同SR算法显著图MSE比较

从图4和表1看，我们提出的PFT和SR二者的MSE差别非常小，两种方法得到的显著图是很接近的，可见真正用于获取图像特征显著信息的是图像频率域相位信息，而不是SR算法中提出的所谓残留谱，SR算法之所以成功是因为其计算残留谱的步骤在一定程度上模拟了幅度归一化的步骤，保留了相位信息。

对于彩色图像，我们将图像的每个像素上的色彩、亮度和运动信息作为一个四元数，对视频图像序列进行四元数的傅立叶变换，同样利用四元数的傅立叶变换的相位谱得到视频图像序列的特征显著图。

令t时刻的输入视频帧为Image(t)，t＝1…N，其中N为总的帧数。每帧包含有红、绿、蓝三个通道的信息，记为：r(t)，g(t)，b(t)。如同NVT对彩色图像处理的方法(式(1)和(2))得到：亮度为：

I(t)＝(r(t)+g(t)+b(t))/3

四种广义调制的红、绿、蓝、黄颜色通道分别为：

R (t) = r (t) - \frac{(g (t) + b (t))}{2}

G (t) = g (t) - \frac{(r (t) + b (t))}{2}

B (t) = b (t) - \frac{(r (t) + g (t))}{2}

Y (t) = \frac{(r (t) + g (t))}{2} - \frac{| r (t) + g (t) |}{2} - b (t)

则红绿double-opponent和蓝黄double-opponent通道分别为：

RG(t)＝|R(t)-G(t)| (20)

BY(t)＝|B(t)-Y(t)|

记I(t-τ)为时刻t的前第τ帧图像，则运动残差图像为：

M(t)＝I(t)-I(t-τ)， (21)

其中τ为时延，在本发明中τ一般取为2-4。

将以上得到的I(t)、RG(t)、BY(t)、M(t)组成四元数图像：

q(t)＝I(t)+RG(t)·u₁+BY(t)·u₂+M(t)·u₃， (22)

q(t)表示四元数图像，q(t，n，m)为此图像中n行m列的四元数。

利用四元数图像快速傅立叶变换算法(式(12)～(17))对q(t，n，m)进行四元数的傅立叶变换处理。步骤为：

把q(t，n，m)写成偶对symplectic形式：

q(t，n，m)＝q₁(t，n，m)+q₂(t，n，m)μ₂

其中q₁(t，n，m)＝r_1，1(t，n，m)+r_1，2(t，n，m)μ₁，q₂(t，n，m)＝r_2，1(t，n，m)+r_2，2(t，n，m)μ₁

建立等效复数图像，把μ₁改写为i

q′₁(t，n，m)＝r_1，1(t，n，m)+r_1，2(t，n，mn)i，q′₂(t，n，m)＝r_2，1(t，n，m)+r_2，2(t，n，m)i

对q′₁(t，n，m)和q′₂(t，n，m)进行二维复数傅立叶变换得到：

Q′₁[t，v，u]＝R′_1，1[t，v，u]+R′_1，2[t，v，u]i，Q′₂[t，v，u]＝R′_2，1[t，v，u]+R′_2，2[t，v，u]i

将上式中的i改写为μ₁得到：

Q₁[t，v，u]＝R′_1，1[t，v，u]+R′_1，2[t，v，u]μ₁，Q₂[t，v，u]＝R′_2，1[t，v，u]+R′_2，2[t，v，u]μ₁

最后得到完整频率域四元数形式为：

Q[t，v，u]＝Q₁[t，v，u]+Q₂[t，v，u]μ₂

则频率域的四元数图像可以用Q(t)表示，其极数形式表示为：Q(t)＝‖Q(t)‖e^μφ。

设定振幅谱为固定值，一般取‖Q(t)‖＝1，(23)

，则此时Q(t)＝e^μφ仅仅包含相角信息。

同四元数图像傅立叶变换类似计算Q(t)的四元数傅立叶逆变换，得到逆变换结果记为：

rq(t)＝a(t)+b(t)·i+c(t)·j+d(t)·k (24)

此时，原图像显著图即为rq(t)的模经过低通滤波后的结果为：

sM(t，n，m)＝g(n，m)*rq(t)‖ (25)

其中g(n，m)定义同式(18)。

十分明显，四元数的PFT方法的步骤为：

(1)将图像序列用公式(1)，(2)，(20)～(22)写为四元数形式

(2)用四元数图像的FFT(式(12)～(17))得到频率域的四元数图像，它的极坐标形式：Q(t)＝‖Q(t)‖e^μφ；

(3)将所有频率上的振幅谱设为1，即‖Q(f)‖＝1；

(4)由四元数图像傅立叶逆变换得到四元数图像rq(t)(24式)；

(5)由式(25)得到：sM(t，n，m)＝g(n，m)*‖rq(t)‖，即原图像显著图。

我们把用四元数FFT用于获取图像特征显著图的方法称为PQFT方法，该方法原理简单，计算开销小，计算速度快，同时具有很好的显著特征抽取效果。运用此种算法可以避免NVT算法计算量上的局限。同时NVT算法和SR算法都是针对静态图像的，对视频，只是简单的把其中的每帧图像单独处理。这样就忽略了视频场景中人眼注意力选择的一个重要因素——运动，人眼对于运动的物体时非常敏感的。本发明把图像序列中相隔τ帧的图像之差记为残差图像，看作图像中物体运动信息，通过加入此通道可以很好的把握图像序列的运动变化，把运动加入到注意力选择中以避免NVT算法和SR算法不支持动态图像的局限。此外原有的SR算法只利用了图像的强度信号，即灰度信息而忽略了图像的颜色信息，对于颜色特征显著的图像，其效果不佳，稳定性差。可见颜色信号是分析图像显著图所需要的。而Itti的NVT的算法虽然用到了颜色、形状、方位等信息，但需要对每个信息通道进行分别处理，并且每个通道都要计算大量高斯金字塔，计算量大，同时这还带来一个通道融合的问题。因此NVT算法虽然很好的模仿了生物机理，但其信息处理的效率很差的。并且，由于算法运算步骤繁多，每一步又牵涉一定的参数选取工作。所以整个算法最后严重依赖于参数的选择。

本发明通过构建四元数特征图像来完成图像空间信息和时间信息的综合。将图像的颜色、形状和运动结合起来用于后续分析。具体而言，通过对图像特征的分析，提取得到图像的特征通道，分别为图像的光强(灰度)信号，广义红绿对比信号，广义蓝黄对比信号和运动变化信号，把以上每个信号看作是四元数的一个元，组合成四元数的形式，称之为四元数特征图像。由于有计算四元数FFT算法的存在，后续的频率域相位计算都在四元数特征图像上进行，这样就把图像所有的特征统一到同一个载体上。大大提高算法的运算效率与显著特征抽取效果。

本发明的优点：

本发明图像序列特征显著图获取时通过对简单、有效的相位信息的还原来提取得到原图像特征显著特性。这样算法复杂度低，易于实现。其次本发明综合利用图像序列的颜色、形状的空间信息和运动、变化的时间信息。使得本算法准确度高，显著特征抽取效果好。同时本算法把对图像颜色、形状和运动的信息每个通道的运算处理统一到对四元数特征图像的运算处理，而四元数的傅立叶变换是有快速算法的，这样就在提高算法的效果的同时加快了算法的运算速度。

同SR算法相比，本发明可以应用于彩色图像的显著特征抽取，并大大提高了抗噪声能力。同NVT算法相比，本发明运算成本低，运算时间大大减少；算法稳定性好，计算结果不依赖于参数的选取；其效果也有所提高。同时本发明通过加入运动信息的分析，增加了对动态图像序列的支持，可以很好的找到其中人眼注意力选择优先级较高的运动物体。这是原有算法所不具备的。在动态视频图像显著性的抽取中，本发明的效果要明显优于NVT和SR算法。

附图说明

图1为NVT算法模型示意图。

图2为一维信号相位信息功能说明图，(a)、(c)、(e)为原始波形，(b)、(d)、(f)为对应的相位谱恢复波形。

图3为基于相位的方法同SR算法显著图比较示意图，(a)、(d)、(g)为原始图像，(b)、(e)、(h)为通过PFT方法得到的显著图(c)、(f)、(i)为通过SR方法得到的显著图。

图4为基于相位的方法(PFT)同SR算法显著图MSE比较。

图5为本发明算法流程图。

图6为三种方法对于静态图像的显著目标抽取比较结果，其中，(a)行为三种方法对自然图像一得到显著图的比较，(b)行为三种方法对自然图像一选取目标的比较，(c)行为三种方法对自然图像二得到显著图的比较，(d)行为三种方法对自然图像二选取目标的比较。

图7为静态图像每一步正确检测到的目标数的示意图。

图8为三种方法对于动态图像的显著目标抽取比较结果，其中，(a)行为三种方法对第354视频帧图像得到显著图的比较，(b)行为三种方法对第354视频帧图像选取目标的比较，(c)行为三种方法对第369视频帧图像得到显著图的比较，(d)行为三种方法对第369视频帧图像选取目标的比较，(e)行为三种方法对第417视频帧图像得到显著图的比较，(f)行为三种方法对第417视频帧图像选取目标的比较。

图9为动态图像每一步正确检测目标数示意图。

图10为三种方法对白噪声测试的示意图，其中，(a)、(b)(c)为噪声密度分别为0.1、0.4、0.7的图像，(d)行为三种方法对噪声密度为0.1的图像得到显著图的比较，(e)行为三种方法对噪声密度为0.1的图像选取目标的比较，(f)行为三种方法对噪声密度为0.4的图像得到显著图的比较，(g)行为三种方法对噪声密度为0.4的图像选取目标的比较，(h)行为三种方法对噪声密度为0.7的图像得到显著图的比较，(i)行为三种方法对噪声密度为0.7的图像选取目标的比较。

具体实验方式

本发明方法的具体实施分为3个阶段：1)图像序列特征获取2)四元数特征图像傅立叶变换处理3)显著图的目标提取。

图5显示了算法流程图。给定需要处理的图像序列，利用式(20)提取图像颜色通道信息，以及式(21)分析图像序列运动信息，并由式(22)把得到的颜色、运动信息组成四元数特征图像。完成图像序列特征的获取。然后由上文介绍的四元数傅立叶变换方法对得到的四元数特征图像进行傅立叶变换，根据式(23)设定频率域振幅谱，保留相位信息。再对此四元数图像傅立叶逆变换以及低通滤波后，完成四元数特征图像傅立叶变换处理，得到原始图像的显著图。

此时设在显著图中前n个最大输出为Q_i ^max，i∈[1..n]，则第n个目标物体坐在的区域记为：Rgn_i＝{(n，m)|α·O_max≤O_i(n，m)≤O_max}，其中(n，m)表示图像上的位置，α是区域选取阈值，本发明中α一般取0.75。Q_i ^max作为第i个显著物体所在区域。

为了比较本发明与NVT以及SR算法的效果，设计两组对比试验。其中将本发明(PQFT)和SR的显著图分辨率设定为64×64，而NVT的分辩率由程序自行决定。NVT算法的参数选取默认值。所有的测试在Linux环境下的Matlab2007a平台进行。测试电脑为带有1G内存的P43G主机。NVT算法为C程序实现，而SR和本发明为Matlab实现。

测试一：静态图像显著特征图抽取比较结果

测试静态图像时，不考虑图像物体运动信息，因此在运用本发明组成四元数特征图像步骤中，去掉运动信息的部分，把四元数特征图像表示为：

q(t)＝0+I(t)·u₁+RG(t)·u₂+BY(t)·u₃

选取100张自然图像为测试集，分别将三种算法应用于这些图像的特征显著图以及显著物体的抽取，图6列出了测试集中2幅典型图像作为结果说明，其中每一列表示用相同的算法得到的结果，三列分别表示我们的PQFT方法和SR，NVT三种不同算法结果，“单行”表示每种算法的显著图结果。“双行”为每种算法最后划定的特征物体区域。对于每张图，每种算法都根据特征显著图选取前5个具有显著特性的目标物体，表2和图7指出了三种方法每一步正确检测到的目标数，可见本发明在总目标的检测率以及检测目标反应速度上都是三种算法中最好的，表3指出三种算法所用的时间对比。本发明在兼顾颜色信息的前提下与SR算法时间相当，比C语言实现的NVT快很多。

表2静态图像每一步正确检测到的目标数

表3三种算法应用于静态图像的运算时间对比

测试二：动态图像序列显著目标抽取结果

本测试使用640×480分辨率的15f/s的1000多帧动态图像序列。图8显示了三种算法在视频序列中6帧图像的显著目标抽取结果。可见本发明由于加入了运动信息，可以很好的选取其中运动的行人的位置，这是其他两种方法无法做到的。表4和图9表示了三种算法对于动态图像每一步正确检测的目标数，其中本发明每帧平均可以正确选取2.52个目标物体，是三种方法中最好的。表5给出三种算法所用的时间对比，结果同测试一类似。

表4动态图像每一步正确检测到的目标数

表5三种算法应用于动态图像的运算时间对比

测试三：抗白噪声测试

本测试是用三种算法对不同程度白噪声污染的自然图像的显著图抽取效果。这里使用文献^[4]中的测试图像。图像中作为显著物体的两人站立在白色的雪山前。使用5×5的白色噪声色块对原始图像进行污染，σ表示白色噪声色块的密度，σ等于0.1、0.4、0.7的噪声图像如图10(a)、(b)、(c)所示。PQFT、SR、NVT三种算法抽取图像显著图的运算结果如图10右三列所示。可见SR算法对噪声非常敏感，在有噪声的情况下抽取效果非常不理想，而NVT算法在低噪声情况下，可以正确找到图像显著区域，但需要较多迭代次数，并且随着白噪声的增加抽取结果显著下降，σ＞0.4以后也无法正确得到图像显著区域。而本发明提出的PQFT算法对所有的σ几乎都能得到正确的抽取结果，即使在σ＝0.7时也可以1步找到显著区域——人站立的位置。本测试说明本发明抗白噪声能力突出，远在SR以及NVT算法之上。

Claims

1.一种快速的图像序列特征显著图获取方法，其特征在于具体步骤如下：

(1)用下式(6)得到图像的振幅谱A(f)和相位谱P(f)：

式(6)中的F为二维傅立叶变换，I(x，y)为输入图像；

(2)将所有频率上的振幅谱设为1，即

(3)原图像显著图I_s(n，m)＝g(n，m)*‖F^-1[exp(j2πP(f))]‖ (18)

在(18)式中g(n，m)为低通滤波器，F^-1表示傅立叶逆变换。

2.一种快速的图像序列特征显著图获取方法，对于彩色图像，其特征在于具体步骤如下：

(1)令t时刻的输入视频帧为Image(t)，t＝1…N，其中N为总的帧数，每帧包含有红、绿、蓝三个通道的信息，记为：r(t)，g(t)，b(t)；根据NVT对彩色图像处理的方法得到亮度I(t)为：

I(t)＝(r(t)+g(t)+b(t))/3

四种广义调制的红、绿、蓝、黄颜色通道分别为：

则红绿double-opponent和蓝黄double-opponent通道分别为：

RG(t)＝|R(t)-G(t)| (20)

BY(t)＝|B(t)-Y(t)|

记I(t-τ)为时刻t的前第τ帧图像，则运动残差图像为：

M(t)＝I(t)-I(t-τ)， (21)

其中τ为时延，τ取2-4；

将以上得到的I(t)、RG(t)、BY(t)、M(t)组成四元数图像：

q(t)＝I(t)+RG(t)·u₁+BY(t)·u₂+M(t)·u₃， (22)

q(t)表示四元数图像，q(t，n，m)为此图像中n行m列的四元数；

(2)利用四元数图像快速傅立叶变换算法进行四元数的傅立叶变换处理，步骤为：

把q(t，n，m)写成偶对形式：

q(t，n，m)＝q₁(t，n，m)+q₂(t，n，m)μ₂

其中q₁(t，n，m)＝r_1,1(t，n，m)+r_1,2(t，n，m)μ₁，q₂(t，n，m)＝r_2,1(t，n，m)+r_2,2(t，n，m)μ₁建立等效复数图像，把μ₁改写为i

q′₁(t，n，m)＝r_1,1(t，n，m)+r_1,2(t，n，m)i，q′₂(t，n，m)＝r_2,1(t，n，m)+r_2,2(t，n，m)i对q′₁(t，n，m)和q′₂(t，n，m)进行二维复数傅立叶变换得到：

Q′₁[t，v，u]＝R′_1,1[t，v，u]+R′_1,2[t，v，u]i，Q′₂[t，v，u]＝R′_2,1[t，v，u]+R′_2,2[t，v，u]i将上式中的i改写为μ₁得到：

Q₁[t，v，u]R′_1,1[t，v，u]+R′_1,2[t，v，u]μ₁，Q₂[t，v，u]＝R′_2,1[t，v，u]+R′_2,2[t，v，u]μ₁最后得到完整频率域四元数形式为：

Q[t，v，u]＝Q₁[t，v，u]+Q₂[t，v，u]μ₂；

则频率域的四元数图像用Q(t)表示，其极数形式表示为：Q(t)＝||Q(t)||e^μφ；

(3)设定振幅谱为固定值，取||Q(t)||＝1；(23)

(4)计算Q(t)的四元数傅立叶逆变换，得到逆变换结果记为：

rq(t)＝a′(t)+b′(t)·i+c′(t)·j+d′(t)·k；(24)

(5)原图像显著图即为rq(t)的模经过低通滤波后的结果：

sM(t，n，m)＝g(n，m)*||rq(t)||， (25)

式中g(n，m)为低通滤波器，