CN103400129A

CN103400129A - 一种基于频域显著性的目标跟踪方法

Info

Publication number: CN103400129A
Application number: CN2013103077496A
Authority: CN
Inventors: 徐智勇; 金炫; 魏宇星; 张建林
Original assignee: Institute of Optics and Electronics of CAS
Current assignee: Institute of Optics and Electronics of CAS
Priority date: 2013-07-22
Filing date: 2013-07-22
Publication date: 2013-11-20

Abstract

本发明是一种基于频域显著性的目标跟踪方法，包括S1-S4建立方向特征、颜色特征、灰度特征和运动特征图；S5-S6建立并对静态和运动多项式傅立叶变换；S7对幅度谱高斯低通滤波、反傅立叶变换得到静态显著图和运动显著图；S8将对应尺度的静态显著图和运动显著图相乘，得到显著性多尺度检测结果显著图；S9计算显著图的直方图的一维熵函数，提取最小信息熵对应的时域显著图作t时刻最优显著图；S10用t-1和t-2帧显著图的平均权值与t时刻最优显著图的乘积作视觉显著图；S11计算相邻帧视觉显著图的中心位置的差值，判定跟踪是否失败，并记录失败显著图；S12将当前帧视觉显著图与失败显著图对比，判断是否目标回到视野中。

Description

一种基于频域显著性的目标跟踪方法

技术领域

本发明涉及一种利用Gabor小波和傅立叶变换方法对显著性目标进行检测并且利用视觉信息对显著性目标进行跟踪，没有利用任何目标图像的先验知识，不需要目标模板，是一项利用视觉心理学模型对显著性目标进行精确跟踪的技术，用于计算机视觉和目标检测跟踪定位。

背景技术

视觉注意力模型是一种用计算机来模拟人类视觉注意力系统的模型，在一幅图像中提取人眼所能观察到的引人注意的焦点，相对于计算机而言，就是该图像的显著性区域。视觉心理学研究表明，在分析复杂的输入景象时，人类视觉系统采取了一种串行的计算策略，即利用选择性注意机制，根据图像的局部特征，选择景象的特定区域，并通过快速的眼动扫描，将该区域移到具有高分辨率的视网膜中央凹区，实现对该区域的注意，以便对其进行更精细的观察与分析。可见，选择性注意机制是人类从外界输入的大量信息中选择特定感兴趣区域的一个关键技术。

目前，显著性目标检测算法主要分为时域处理和频域处理两种思路，但是两种思路都是源于ITTI在1998年提出的一个计算模型，此模型由视觉心理学得出，对影响人眼观察图像的因素分成了三个可量化的计算量——颜色、灰度和方向。随着研究不断深入，基于时域显著性目标检测方法有经典显著性方法(STB)、神经视觉方法(NVT)等。考虑到原先计算多尺度过程过于繁琐，有人提出在频域来处理显著性模型检测算法，有频谱残留方法(SR)、相位谱傅立叶变换法(PFT)以及四元组傅立叶变换法(QFT)等。

在跟踪系统中，主要有区分模型和生成模型等。以往常用的跟踪方法有：帧差分法、背景建模方法、光流法等。但是它们在面对复杂背景和多种类型目标时，往往会因为光照、姿态和形状的变化，使得目标特征发生剧烈变化，从而导致跟踪失败。当出现部分遮挡和快速移动时，目标的部分特征信息丢失，使得特征失匹配，从而导致跟踪失败或者跟踪偏移。因此跟踪-学习-检测提出一种把跟踪器、检测器和学习机融合成一体的思想来解决在线实时跟踪问题。它能够很好地解决以往跟踪方法存在的问题，但是它对于特征选择、姿态变化有着明显的不足。

自从ITTI于1998年将视觉心理学模型应用于计算机视觉领域的目标检测后，该方法得到了广泛的应用。但是在跟踪方面应用显著性模型一直存在问题，由于显著性检测过程中不使用图像的先验知识，如何在跟踪中区别物体与背景，区别跟踪物体与非跟踪物体成为了显著性在跟踪方面应用的最大难题。

发明内容

为了解决现有技术的问题，本发明目的是更好地应用显著性检测的优势，将显著性检测算法应用于目标的自动跟踪中，为此，本发明提出一种利用Gabor小波和傅立叶变换方法对显著性目标进行检测并且利用视觉信息对显著性目标进行跟踪，达到较高的跟踪精度和较快的处理速度。

为实现这样的目的，本发明提供一种基于Gabor小波的频域显著性目标检测方法，具体步骤如下：

步骤S1：将t时刻视频帧图像中的单帧彩色图像转换成灰度图像，利用二维Gabor小波滤波器对灰度图像进行滤波，建立方向特征图；

步骤S2：根据人眼对于不同颜色的敏感度，对t时刻视频帧图像建立颜色特征图；

步骤S3：对t时刻视频帧图像进行检测，将灰度图像作为灰度特征图；

步骤S4：根据t-3时刻视频帧图像中运动物体特征，提取视频中相隔3帧的视频帧，计算灰度特征图，然后用t时刻的灰度特征图减去t-3时刻的灰度特征显著图，得到显著性目标的运动特征图；

步骤S5：利用颜色特征图、方向特征图、灰度特征图建立静态多项式，利用t时刻灰度特征图、t-3时刻的灰度特征图和运动特征图建立运动多项式；所述多项式矩阵是把多个特征矩阵分配到不同的维度上，用于避免他们之间的加减以及乘除运算；其中颜色特征图包括RG颜色特征图和BY颜色特征图；

步骤S6：对步骤S5得到的静态多项式矩阵和运动多项式矩阵进行傅立叶变换，提取出幅度谱，再利用幅度谱提取显著性目标；

步骤S7：利用背景目标在多项式傅立叶变换后的频域内表现的脉冲信号的形式，使用低通滤波器对脉冲信号进行抑制，从而排除背景目标，则检测出显著性目标；对步骤S6中提取出的幅度谱进行八个尺度的高斯低通滤波，再利用多项式反傅立叶变换得到八个尺度的静态显著图S_s和运动显著图S_m，所述静态显著图S_s有八个不同尺度的时域矩阵；所述动态显著图S_m有八个不同尺度的时域矩阵；

步骤S8：将对应八个尺度的静态显著图S_s和运动显著图S_m对应尺度的时域矩阵相乘，得到乘积为待跟踪目标的显著性多尺度检测结果显著图S；

步骤S9：由于步骤S8得到的多尺度检测结果显著图S拥有八个不同尺度的时域矩阵，分别对每个尺度对应的时域多尺度检测结果显著图矩阵计算直方图，对每个直方图进行计算得到不同尺度关于结果显著图像素值的一维熵函数；对比不同尺度的熵函数最小的值为所要得到的最佳尺度检测结果，提取最小信息熵对应的时域显著图作为t时刻最优显著图；

步骤S10：设人眼对于视频中物体的显著性有着视觉暂留现象，计算t-1时刻和t-2时刻图像帧的显著图，用上两帧显著图的平均权值与t时刻最优显著图的乘积作为视觉暂留机制计算模型的输出结果视觉显著图，记为S_opt-final(t)；

步骤S11：利用视频中的运动物体具有时间连续性，即其在相邻帧中的位置变化很小的特性，计算每一帧步骤S10输出的视觉显著图S_opt-final(t)的中心位置；如果相邻帧视觉显著图的中心的差值大于预先设定的阈值，则判定为目标被遮挡或者离开视野，同时也保留失败检测后的一帧视觉显著图，称为失败显著图S_failure；

步骤S12：当重新检测到图像中有视觉显著图的权值较大的区域时，将当前帧得到的视觉显著图与步骤S11得到的失败显著图S_failure进行对比，当差别小于等于预先设定的阈值时，判定为目标依然处于被遮挡状态；当差别大于预先设定的阈值时，判定为遮挡结束或者目标重新回到视野中，之后返回下一帧的步骤S1继续计算显著性目标并且对显著性目标进行跟踪。

本发明的有益效果：本发明开阔性地将显著性目标检测技术应用于目标跟踪中来，克服了之前提出的由于显著性检测过程中不使用图像的先验知识，不能在跟踪中区别物体与背景，不能区别跟踪物体与非跟踪物体的难题。并且对比与传统跟踪算法时，达到了更高的跟踪精度，更稳定的跟踪效果。由于只需要目标具有显著性就能够进行跟踪，因此能够解决姿态、形状改变带来的跟踪失败，并且能够解决跟踪完全遮挡问题。在运行速度方面，由于跟踪过程不需要检测器的参与，不需要目标模板建立与匹配过程，不需要机器学习过程，因此运行速度得到了较大地提升。本发明利用数学模型对单帧图像建立人眼显著性区域检测显著性目标，利用人眼视觉暂留现象建立视觉反馈机制。

本发明利用Gabor小波和傅立叶变换方法对显著性目标进行检测并且利用视觉信息对显著性目标进行跟踪。由于只需要目标具有显著性就能够进行跟踪，因此能够解决姿态、形状改变带来的跟踪失败，并且能够解决跟踪完全遮挡问题。在运行速度方面，由于跟踪过程不需要检测器的参与，不需要目标模板建立与匹配过程，不需要机器学习过程，因此运行速度得到了较大地提升。相对于以往的技术，本发明克服了由于显著性检测过程中不使用图像的先验知识，不能在跟踪中区别物体与背景，不能区别跟踪物体与非跟踪物体的缺陷。达到了更快的处理速度，更高的跟踪精度，更稳定的跟踪效果。

附图说明

图1为本发明算法整体流程图。

图2为摩托车骑手数据集的第90帧到第99帧的原视频图像。

图3为采用本本发明算法对摩托车骑手数据集的第90帧到第99帧进行显著性跟踪的效果图。

图4为本发明算法的显著性检测与跟踪-检测-学习(TLD)算法对于摩托车骑手数据集的第90帧图像跟踪效果对比。

图5为熊猫数据集的第200帧到第209帧的原视频图像。

图6为采用本本发明未采用运动显著和视觉暂留机制算法时对熊猫数据集的第200帧到第209帧进行显著性跟踪的效果图。

图7为采用本本发明加入运动显著和视觉暂留机制算法时对熊猫数据集的第200帧到第209帧进行显著性跟踪的效果图。

图8为本发明方法不同过程对熊猫数据集第200帧的效果以及与跟踪-检测-学习方法效果对比图。

具体实施方式

下面结合附图对本发明的实施例作详细说明。本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于以下的实施例。

本实施例基于显著性目标跟踪的实现，输入图像为序列视频帧。

如图1所示对算法整体流程图，本实例提供了一种利用Gabor小波和傅立叶变换方法对显著性目标进行检测并且利用视觉信息对显著性目标进行跟踪，包括如下步骤：

步骤S1：将t时刻视频帧图像中的单帧彩色图像转换成灰度图像，利用二维Gabor小波滤波器对灰度图像进行滤波，建立方向特征图；利用Gabor小波对方向特征图的建立。图像是一个矩阵数据，这里用二维的Gabor滤波器，经过滤波后的特征图能够准确的反应图像方向信息，具有模拟人眼观察和提取目标特征的特性。由于自然图像是彩色图像，先将其转化为灰度图像：

I = \frac{1}{3} (r + g + b) - - - (1 - 1)

式(1-1)中I表示输入图像的灰度图像，r表示输入图像的红色像素通道，g表示输入图像的绿色像素通道，b表示输入图像的蓝色像素通道。

本发明中用到的二维Gabor滤波器大小为11×11像素方块，其描述如下：

G (x, y) = \exp (- \frac{(X^{2} + γ^{2} Y^{2})}{2 σ^{2}}) \cos (\frac{2 π}{λ} X) - - - (1 - 2)

X＝xcosθ-ysinθ (1-3)

Y＝xsinθ+ycosθ (1-4)

式(1-2)中G表示二维的Gabor矩阵，x代表像素的行坐标，y代表像素的列坐标，并且x，y∈{-5，…，5}。X和Y是加入角度参数θ后的坐标变换，分别由式(1-3)和式(1-4)给出。另外还有三个常数，比例因子γ在本发明中取值为0.3，有效宽度σ在本发明中取值为4.5，波长λ在本发明中取值为5.6。

利用式(1-2)对灰度图像进行滤波处理，在本发明中将二维Gabor滤波器大小设为11×11像素方块，选取4个不同方向的角度θ＝{0°，45°，90°，135°}对图像矩阵数据进行滤波，然后结合四个角度的滤波结果，对不同方向滤波结果得到的四个矩阵在每个对应像素位置取最大值，得到方向特征图。如图2为摩托车骑手数据集的第90帧到第99帧的原视频图像和图3为采用本本发明算法对摩托车骑手数据集的第90帧到第99帧进行显著性跟踪的效果图。图2和图3为我们对四个角度进行滤波后，取四个方向矩阵的每个对应位置的最大值得到方向特征图O。

步骤S2：颜色特征图的建立。根据人眼对于不同颜色的敏感度，对t时刻视频帧图像建立颜色特征图，建立颜色特征图的步骤包括：先对原来的红、绿、蓝通道进行修正，然后计算得到黄色通道的像素值；此时的红、绿、蓝、黄为颜色特征图的四个颜色基矩阵；再通过计算红、绿通道的差和蓝、黄通道的差，能够得到两个颜色特征图，RG颜色特征图和BY颜色特征图。建立一个修正的颜色矩阵，具体描述如下：

R = r - \frac{(g + b)}{2} - - - (2 - 1)

G = g - \frac{(r + b)}{2} - - - (2 - 2)

B = b - \frac{(r + g)}{2} - - - (2 - 3)

Y = \frac{(r + g)}{2} - \frac{| r - g |}{2} - b - - - (2 - 4)

式(2-1)到式(2-4)中，r、g、b与式(1-1)中的意义相同，而修正后的红、绿、蓝、黄R、G、B、Y则是颜色特征图的四个颜色基矩阵，因此我们能够得到两个颜色特征图，通过：

RG＝R-G (2-5)

BY＝B-Y (2-6)

式(2-5)和(2-6)中的R、G、B、Y由式(2-1)到(2-4)得到，RG颜色特征图和BY颜色特征图就是本发明中的两个颜色特征图。

步骤S3：对t时刻视频帧图像进行检测，将灰度图像作为灰度特征图。由于主要检测方式是在频域进行，本发明中的灰度特征图直接利用式(1-1)得到的灰度图像I。

步骤S4：根据t-3时刻视频帧图像中运动物体特征，提取视频中相隔3帧的视频帧，计算灰度特征图，然后用t时刻的灰度特征图减去t-3时刻的灰度特征显著图，得到显著性目标的运动特征图。本发明中利用步骤S3得到的灰度特征图来进行运动特征图的建立。其描述如下：

Motion(t)＝|I(t)-I(t-τ)| (4-1)

式(4-1)中的Motion(t)表示t时刻的运动特征图，I(t)表示t时刻视频帧的灰度特征图，I(t-τ)表示t-τ时刻的灰度特征图，在本发明中τ取值为3。t为当前时刻，即表示处于视频中的第几帧，τ为运动帧变化量，表示运动量是变化τ帧后的结果。

步骤S5：根据特征图合成多项式矩阵。利用颜色特征图、方向特征图、灰度特征图建立静态多项式，利用t时刻灰度特征图、t-3时刻的灰度特征图和运动特征图建立运动多项式；所述多项式矩阵是把多个特征矩阵分配到不同的维度上，用于避免他们之间的加减以及乘除运算；其中颜色特征图包括RG颜色特征图和BY颜色特征图；因为各个特征对于显著性目标的表示的贡献不一，所以不能简单的相加进行处理，因此对于上面提取出来的四个特征图进行建立静态多项式是用四维的多项式矩阵向量表示，其数学描述如下：

Q = aRG + bBY \overset{&RightArrow;}{x} + cI \overset{&RightArrow;}{y} + dO \overset{&RightArrow;}{z} - - - (5 - 1)

式(5-1)中Q为建立的静态多项式矩阵，RG、BY代表两个颜色特征图为式(2-5)和(2-6)的计算结果，I代表灰度特征图，O代表方向特征图。其中a、b、c、d代表多项式的常数系数，在本发明中我们取a＝b＝c＝d＝0.25。

则是多项式的基向量，也是方向向量。

步骤S5所述的运动多项式矩阵，其描述如下：

Q_{m} = αI (t) \overset{&RightArrow;}{x} + βI (t - τ) \overset{&RightArrow;}{y} + γMotion \overset{&RightArrow;}{z} - - - (5 - 2)

式(8-1)中，Q_m为运动多项式矩阵，Motion由式(4-1)得到，

则是多项式的基向量，也是方向向量。其中{α，β，γ}为三个常数系数，t为当前时刻，即表示处于视频中的第几帧，τ为运动帧变化量，表示运动量是变化τ帧后的结果。在本发明中其取值为α＝β＝0.1，γ＝0.8。

步骤S6：多项式傅立叶变换。对步骤S5得到的静态多项式矩阵和运动多项式矩阵进行傅立叶变换，提取出幅度谱，再利用幅度谱提取显著性目标；由于频域对于处理重复出现的背景物体具有良好的归类性质，将特征图组成的多项式矩阵进行傅立叶变换，然后提取出幅度谱用于对显著性目标进行提取。多项式傅立叶变换表达如下：

f(n，m)＝a+bi+cj+dk (6-1)

假设我们的多项式如式(6-1)所示，f(n，m)为多项式矩阵的时域函数，在本发明中即是指代静态多项式矩阵和运动多项式矩阵；n、m分别代表离散的行坐标和列坐标，i、j、k代表着多项式的基向量。因此，这种多项式傅立叶变换表示为：

F_{H} [u, v] = \frac{1}{\sqrt{MN}} Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} e^{- μ 2 π ((\frac{mv}{M}) + (\frac{nu}{N}))} f (n, m) - - - (6 - 2)

式(6-2)中F_H[u，v]为f的频域函数，即是静态多项式和动态多项式的频域函数；u、v代表频域的二维坐标，n、m分别代表时域矩阵中的行坐标和列坐标，F_H代表傅立叶变换后的频域多项式矩阵，f为多项式矩阵包括静态多项式矩阵Q和运动多项式矩阵Q_m，由式(6-1)得到，代表时域多项式矩阵，M、N分别代表矩阵的长度和宽度，μ代表虚部单位，即μ²＝-1。

步骤S7：利用背景目标在多项式傅立叶变换后的频域内表现的脉冲信号的形式，使用低通滤波器对脉冲信号进行抑制，从而排除背景目标，则检测出显著性目标；对步骤S6中提取出的幅度谱进行八个尺度的高斯低通滤波，再利用多项式反傅立叶变换得到八个尺度的静态显著图S_s和运动显著图S_m，所述静态显著图S_s有八个不同尺度的时域矩阵；所述动态显著图S_m有八个不同尺度的时域矩阵；幅度谱滤波。由于背景目标一般具有周期重复出现的特性，例如天空，草地，道路等。时域中无限周期信号对应频域的冲击响应，而时域有限周期信号，对应着频域的脉冲信号。因此背景目标在多项式傅立叶变换后的频域内表现为脉冲信号的形式，这样利用简单的低通滤波器就能够完成对脉冲信号的抑制，从而完成对背景目标的排除，最终完成对显著性目标检测的目的。

步骤S7所述对幅度谱进行八个尺度的的高斯低通滤波器滤波，这里给出本发明中用到的高斯低通滤波器形式：

H (u, v) = e^{- \frac{D^{2} (u, v)}{2 σ^{2}}} - - - (7 - 1)

式(7-1)中H(u，v)为高斯低通滤波器矩阵，D代表距离傅立叶变换原点的距离，本发明中使用欧氏距离。σ表示高斯曲线的扩展程度。为了考虑尺度不变性，σ取八个不同的值来进行不同尺度的滤波。本发明中我们取σ∈{2^-1，2⁰，2¹，2²，2³，2⁴，2⁵，2⁶}。

我们令多项式矩阵Q经过多项式傅立叶变换之后得到的频域多项式矩阵为Q_H，那么其幅度谱表示为：

A＝|Q_H| (7-2)

式(7-2)中A代表频域多项式矩阵的幅度谱。对幅度进行八个尺度的高斯滤波：

A_H＝A×H (7-3)

式(7-3)中A_H代表滤波后的一组幅度谱。再利用多项式反傅立叶变换得到时域多项式矩阵，反变换表示如下：

f (n, m) = \frac{1}{\sqrt{MN}} Σ_{v = 0}^{M - 1} Σ_{u = 0}^{N - 1} e^{μ 2 π ((\frac{mv}{M}) + (\frac{nu}{N}))} F_{H} [u, v] - - - (7 - 4)

式(7-4)中的各个参数的含义与式(6-2)相同。

这样静态多项式矩阵Q和运动多项式矩阵Q_m经过步骤S6和步骤S7后，得到多个尺度的静态显著图和运动显著图。

步骤S8：将对应八个尺度的静态显著图S_s和运动显著图S_m对应尺度的时域矩阵相乘，得到乘积为待跟踪目标的显著性多尺度检测结果显著图S；静态显著图与运动显著图的集成。

将显著图和运动显著图相乘，得到多尺度检测显著图S，描述如下：

S＝S_s·*S_m (8-1)

式(8-2)中，S_s为静态显著图，S_m为运动显著图，运算符号.*的含义为S_s和S_m矩阵中对应尺度和对应尺度矩阵中对应位置的元素相乘。

步骤S9：由于步骤S8得到的多尺度检测结果显著图S拥有八个不同尺度的时域矩阵，分别对每个尺度对应的时域多尺度检测结果显著图矩阵计算直方图，对每个直方图进行计算得到不同尺度关于结果显著图像素值的一维熵函数；对比不同尺度的熵函数最小的值为所要得到的最佳尺度检测结果，提取最小信息熵对应的时域显著图作为t时刻最优显著图；多尺度分析。由于需要选取出最合适的尺度作为最优尺度显著图，我们认为最好的检测结果应该具有更丰富的视觉信息，因此将熵函数扩展到二维，利用二维熵函数来对多尺度显著图进行选择，选取熵函数值最小的作为最优尺度显著图S_opt。

计算二维熵函数，分别对每个尺度对应的时域多尺度检测结果显著图矩阵计算直方图，对每个直方图进行计算得到不同尺度关于结果显著图像素值的一维熵函数；对比不同尺度的熵函数最小的值为所要得到的最佳尺度检测结果，提取最小信息熵对应的时域显著图作为t时刻最优显著图。

步骤S10：视觉暂留机制计算模型。设人眼对于视频中物体的显著性有着视觉暂留现象，计算t-1时刻和t-2时刻图像帧的显著图，用上两帧显著图的平均权值与t时刻最优显著图的乘积作为视觉暂留机制计算模型的输出结果视觉显著图，记为S_opt-final(t)。具体分析考虑人眼视觉暂留现象判别时间为0.1秒，以每秒20帧计算，我们可以得出初步假设，视觉暂留现象模型可以量化为3帧图像之间的相关性描述如下：

S_{opt - final} (t) = S_{opt} (t) \cdot * \frac{(S_{opt - final} (t - 1) + S_{opt - final} (t - 2))}{2} - - - (10 - 1)

式(10-1)中S_opt(t)为t时刻步骤S9得到的最优尺度显著图S_opt-final(t)为t时刻加入视觉暂留模型后计算得到的视觉显著图，S_opt-final(t-1)和S_opt-final(t-2)分别代表前1帧和前2帧的视觉显著图，运算符号.*的含义同(8-2)式。

步骤S11：显著性目标跟踪失败检测机制。利用视频中的运动物体具有时间连续性，即其在相邻帧中的位置变化很小的特性，计算每一帧步骤S10输出的视觉显著图S_opt-final(t)的中心位置；如果相邻帧视觉显著图的中心的差值大于预先设定的阈值，则判定为目标被遮挡或者离开视野，同时也保留失败检测后的一帧视觉显著图，称为失败显著图S_failure；一般来说视频中的物体运动具有时间连续性，因此显著性目标在几帧内的空间位移应该不大的，这点直接反应在每帧图像的视觉显著图的权值上面。假如图像邻近帧的视觉显著图的权值发生了较大的改变，我们判定为目标被遮挡或者离开视野，同时也保留失败后一帧的失败显著图S_failure。

这里我们定义了一个函数Location(X)表示取矩阵X内的各个像素做灰度直方图，取出像素值最大的95％的像素，对取出的像素的空间位置坐标求平均得到灰度值大于95％的像素集合的中心坐标，X是矩阵的指代。

因此，失败检测机制中，需要计算t时刻步骤S10输出的视觉显著图S_opt-final(t)的中心位置和t-1时刻步骤S10输出的视觉显著图S_opt-final(t-1)的中心位置，利用二者中心位置的差值与预先设定的阈值做比较，如果差值大于预先设定的阈值，则判定目标被遮挡或者离开视野；如果差值小于预先设定的阈值，则判定跟踪正确，继续进行下一帧的计算。两帧中心位置的差值dis计算过程描述如下：

dis＝|Location(S_opt-final(t))-Location(S_opt-final(t-1))|₂ (11-1)

式中参数含义与(10-1)中相同。式中定义了一个函数Location(X)表示取矩阵X内的各个像素做灰度直方图，取出像素值最大的95％的像素，对取出的像素的空间位置坐标求平均得到灰度值大于95％的像素集合的中心坐标，X是矩阵的指代。在本发明中，当两帧中心位置的差值dis大于15时，我们判断目标被遮挡，跟踪失败；当两帧中心位置的差值dis小于15时，则判断目标未被遮挡。

S_failure＝S_opt-final(t) (11-2)

式(11-2)S_failure记录失败后第一帧的显著图，用于后续重新检测。

步骤S12：失败后重新检测机制。当我们重新检测到图像中有视觉显著图的权值较大的区域时，将当前帧得到的视觉显著图与步骤S11得到的失败显著图S_failure进行对比，当差别小于等于预先设定的阈值时，判定为目标依然处于被遮挡状态；当差别大于预先设定的阈值时，判定为遮挡结束或者目标重新回到视野中，之后返回下一帧的步骤S1继续计算显著性目标并且对显著性目标进行跟踪。

|Location(S_opt-final(t))-Location(S_failure)|₂＝dis_failure (12-1)

当差别dis_failure大于预先设定的阈值时(本发明中该阈值为20)，判定为遮挡结束或者目标重新回到视野中；当dis_failure小于预先设定的阈值时，则判定为目标还处于遮挡状态。之后返回步骤S1继续计算显著性目标并且对显著性目标进行跟踪，否则继续在下一帧执行步骤S12直到判定目标重新回到视野为止。

图2为摩托车骑手标准视频库中的10帧图像，图5示出熊猫数据集的第200帧到第209帧的原视频图像，为熊猫标准视频库中的10帧图像用于对比。图3为本发明算法应用于图2中的处理结果，可以看到我们想要跟踪的摩托车骑手被很好地显著出来了。图4为跟踪-检测-学习算法对第90帧的跟踪效果与本发明算法的显著性跟踪算法对比，可以看出两者在良好跟踪状态下跟踪效果差别不大。

图6示出采用本本发明未采用运动显著和视觉暂留机制算法时对熊猫数据集的第200帧到第209帧进行显著性跟踪的效果图。图7示出采用本本发明加入运动显著和视觉暂留机制算法时对熊猫数据集的第200帧到第209帧进行显著性跟踪的效果图。如图7对比图6所示，我们发现加入运动显著检测和视觉暂留机制后，背景的部分显著性物体被完全消除，达到了显著性目标跟踪的稳定效果。

图8示出本发明方法不同过程对熊猫数据集第200帧的效果以及与跟踪-检测-学习方法效果对比图。图8左上图为熊猫视频数据的第200帧图像，图8左下为跟踪-检测-学习算法的跟踪结果，可以看到当跟踪像熊猫这种特征不是很突出的跟踪目标时，其跟踪框已经有明显的漂移。右上静态显著性检测方法则能够准确的显著出该目标，但是由于部分背景显著性较高，倒是显著图的噪声较大。右下为本发明算法显著结果，由于加入了运动显著图和视觉暂留机制，背景噪声被很好抑制，达到了稳定有效地跟踪效果。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内。

Claims

1.一种基于频域显著性目标检测方法，包括步骤如下：

步骤S10：设人眼对于视频中物体的显著性有着视觉暂留现象，计算t-1时刻和t-2时刻图像帧的显著图，用上两帧显著图的平均权值与t时刻最优显著图的乘积作为视觉暂留机制计算模型的输出结果视觉显著图，记为S_opt-fimal(t)；

2.如权利要求1所述的频域显著性目标检测方法，其特征在于：将二维Gabor滤波器大小设为11×11像素方块，取四个角度θ＝{0°，45°，90°，135°}对图像矩阵数据进行滤波，然后结合四个角度的滤波结果，对不同方向滤波结果得到的四个矩阵在每个对应像素位置取最大值，得到方向特征图。

3.如权利要求1所述的频域显著性目标检测方法，其特征在于：建立颜色特征图的步骤包括：先对原来的红、绿、蓝通道进行修正，然后计算得到黄色通道的像素值；此时的红、绿、蓝、黄为颜色特征图的四个颜色基矩阵；再通过计算红、绿通道的差和蓝、黄通道的差，能够得到两个颜色特征图，RG颜色特征图和BY颜色特征图。

4.如权利要求1所述的频域显著性目标检测方法，其特征在于：所述的静态多项式是用四维的多项式矩阵向量表示，其数学描述如下：

Q = aRG + bBY \overset{&RightArrow;}{x} + cI \overset{&RightArrow;}{y} + dO \overset{&RightArrow;}{z}

式中Q为建立的静态多项式矩阵，RG、BY代表两个颜色特征图，I代表灰度特征图，O代表方向特征图，其中a、b、c、d代表多项式的常数系数，

则是多项式的基向量，也是方向向量。

5.如权利要求1所述的频域显著性目标检测方法，其特征在于：所述的运动多项式矩阵描述如下：

Q_{m} = αI (t) \overset{&RightArrow;}{x} + βI (t - τ) \overset{&RightArrow;}{y} + γMotion \overset{&RightArrow;}{z}

式中，Q_m为运动多项式矩阵，I是灰度特征图，Motion为运动特征图，

则是多项式的基向量，也是方向向量，其中{α，β，γ}为三个常数系数，t为当前时刻，即表示处于视频中的第几帧，τ为运动帧变化量，表示运动量是变化τ帧后的结果。

6.如权利要求1所述的频域显著性目标检测方法，其特征在于：所述的多项式矩阵傅立叶变换，其描述如下：

F_{H} [u, v] = \frac{1}{\sqrt{MN}} Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} e^{- μ 2 π ((\frac{mv}{M}) + (\frac{nu}{N}))} f (n, m)

式中F_H[u，v]为f的频域函数，即是静态多项式和动态多项式的频域函数；u、v代表频域的二维坐标；m、n代表时域的二维坐标；F_H代表傅立叶变换后的频域多项式矩阵；f为多项式矩阵包括静态多项式矩阵Q和运动多项式矩阵Q_m，代表时域多项式矩阵；M、N分别代表矩阵的长度和宽度；μ代表虚部单位，即μ²＝-1。

7.如权利要求6所述的频域显著性目标检测方法，其特征在于：所述对幅度谱进行八个尺度的高斯低通滤波包括：

H (u, v) = e^{- \frac{D^{2} (u, v)}{2 σ^{2}}}

式中H(u，v)为频域二维高斯低通滤波器，D代表距离傅立叶变换原点的欧氏距离，σ∈{2^-1，2⁰，2¹，2²，2³，2⁴，2⁵，2⁶}表示高斯曲线的扩展程度，对八个不同的尺度因子进行滤波。

8.如权利要求1所述的频域显著性目标检测方法，其特征在于：所述多尺度检测结果显著图S的计算过程描述如下：

S＝S_s·*S_m

式中，运算符号.*的含义为静态显著图S_s和运动显著图S_m矩阵中对应尺度和对应尺度矩阵中对应位置的元素相乘。

9.如权利要求1所述的频域显著性目标检测方法，其特征在于：所述人眼视觉暂留现象判别时间为0.1秒，以每秒20帧计算，得出视觉暂留现象模型以量化为3帧图像之间的相关性描述如下：

S_{opt - final} (t) = S_{opt} (t) \cdot * \frac{(S_{opt - final} (t - 1) + S_{opt - final} (t - 2))}{2}

式中S_opt(t)为t时刻步骤S9得到的最优尺度显著图，S_opt-final(t)为t时刻加入视觉暂留模型后计算得到的视觉显著图，S_opt-final(t-1)和S_opt-final(t-2)分别代表前1帧和前2帧的视觉显著图。

10.如权利要求1所述的频域显著性目标检测方法，其特征在于：在所述失败检测中，需要计算t时刻输出的视觉显著图S_opt-final(t)的中心位置和t-1时刻输出的视觉显著图S_opt-final(t-1)的中心位置，利用二者中心位置的差值与预先设定的阈值做比较，如果差值大于预先设定的阈值，则判定目标被遮挡或者离开视野；如果差值小于预先设定的阈值，则判定跟踪正确，继续进行下一帧的计算；两帧中心位置的差值dis计算过程描述如下：

dis＝|Location(S_opt-final(t))-Location(S_opt-final(t-1))|₂，

在式中，定义了一个函数Location(X)表示取矩阵X内的各个像素做灰度直方图，取出像素值最大的95％的像素，对取出的像素的空间位置坐标求平均得到灰度值大于95％的像素集合的中心坐标，X是矩阵的指代。