CN104616323A

CN104616323A - 一种基于慢特征分析的时空显著性检测方法

Info

Publication number: CN104616323A
Application number: CN201510090872.6A
Authority: CN
Inventors: 刘纯平; 吴扬; 郭芸; 季怡; 龚声蓉
Original assignee: Suzhou University
Current assignee: Zhonglei Electronic (suzhou) Co Ltd
Priority date: 2015-02-28
Filing date: 2015-02-28
Publication date: 2015-05-13
Anticipated expiration: 2035-02-28
Also published as: CN104616323B

Abstract

本发明公开了一种基于慢特征分析的时空显著性检测方法，具体步骤包括：训练立方体的收集、非监督的慢特征学习、显著性计算和目标检测，本发明通过慢特征分析能够直接以非监督的方式从输入数据中学习出周围环境变化的高层运动表示。

Description

一种基于慢特征分析的时空显著性检测方法

技术领域

本发明涉及一种视频处理技术，具体涉及一种基于慢特征分析的时空显著性检测方法。

背景技术

在人类视觉系统（Human Visual System, HVS）中，人眼和大脑协同工作无需训练就可轻松地聚焦于图像或视频感兴趣的目标。显著性检测就是通过模拟人眼的这种视觉注意机制来快速检测出图像或视频中的感兴趣目标，而时空显著性检测是融合了视频中运动特征的显著性检测。

时空显著性检测常常被使用为一种视频的预处理技术，可以为进一步技术研究提供支持，例如视频质量评估、视频压缩、目标跟踪和识别等。如在视频压缩领域，通过显著性检测提取感兴趣的区域，模糊视频中那些不感兴趣的区域，从而达到对视频内容的分层压缩。

尽管显著目标检测的方法不同，但基本过程大致可以分为两类。第一种，这类方法通过融合运动特征来直接从视频图像中提取出显著目标。第二种，这类方法首先分别生成包含空间信息的空间显著图和利用了运动特征的时间显著图，最终通过融合空间显著图和时间显著图来生成最终的包含了感兴趣目标的显著图。

大多数传统的方法都是利用背景建模来检测感兴趣目标。Elgammal等人通过核密度估计（Kernel Density Estimation, KDE）分别对前景和背景建模来处理监督视频。Monnet等人提出了一种在线的自动回归模型来捕获和预测动态场景的行为，例如摇曳的树木。Zivkovic则提出了一种高效的自适应算法，使用高斯混合概率密度用于背景去除。然而，这些方法通常假定场景背景处于轻微的变化或者处在静态摄像机的环境下，可见对于动态场景的效果并不好。后来，为了去除相机运动导致的背景变化，Bugeau和Marat分别在模型中利用了运动补偿来排除变化的背景，估计出前景目标。然而，他们的方法过分依赖相机运动估计，而这本身就是一个具有挑战性的问题。

近年来，对于视频的显著性研究已经越来越受到关注。一些时空显著性模型已经被提出用于显著目标检测。给定一个简单的假设就是视觉系统的重要目标之一就是寻找潜在的目标，Zhang等人建立了一个贝叶斯概率框架，来计算获得显著目标。Guo等人提出了一个新颖的图像的四元表示，并且开发出一个多分辨率的时空显著性检测模型来计算时空显著图。Seo等人通过局部回归核度量一个立方体与其周围的相似性来生成显著图。然而，以上提到的模型都不对动态场景鲁棒。为了克服场景的复杂性，Mahadevan和Vasconcelos提出了一个基于中央周边的显著性监测算法，受到运动感知的生物学机制的启发。这个显著性检测对于复杂的动态场景鲁棒。然而，它却需要很高的计算成本。后来，Zhou和Shi提出了使用生物启发的特征的显著性模型来处理动态场景。他们的自底向上的显著性模型需要相对低的计算成本，并且获得了可竞争的性能。然而，他们的方法对于一些特定场景产生了不好的效果，如充满烟雾的环境。

就视频显著性而言，主要存在两个问题：

1、动态场景的复杂性。在现实生活中存在大量的自然场景，在这类自然场景中感兴趣目标和复杂的背景都有不同程度的运动。通常，我们将这样的自然场景称为动态场景。毋庸置疑，生物视觉在处理动态场景上已经进化的非常高效。然而，能够处理具有复杂变化背景的显著目标检测模型并不多。因此，如何设计出一个鲁棒的时空显著性模型仍然是一项具有挑战性的任务。

2、另一个值得关注的问题就是运动特征的描述。一些显著性模型利用帧差法来提取最简单的运动特征，例如Guo等人提出的多分辨率的时空检测模型。其他的一些研究者通过光流估计来描述运动特征，例如Zhou等人提取的空时显著性模型。除此之外，Mahadevan等人利用了线性动态系统对时空激励分布建模，这是一种描述动态纹理的自动回归模型。然而，这些描述运动特征的方法不是过于简单不足以包含丰富的运动信息，就是过于复杂需要大量的计算成本。因此，如何利用非监督的方法来对运动特征进行描述成为一个有趣的问题。

发明内容

本发明的发明目的是提供一种基于慢特征分析的时空显著性检测方法，通过慢特征分析，能够直接以非监督的方式从输入数据中学习出周围环境变化的高层运动表示。

为达到上述发明目的，本发明采用的技术方案是：一种基于慢特征分析的时空显著性检测方法，包括如下步骤：

步骤一：从被归一化处理过的视频序列中随机采样提取大量的时空立方体；

步骤二：对于每一个步骤一中所提取的单个时空立方体，输入信号使用一个二次函数扩展到一个非线性的空间，训练得到慢特征函数；

步骤三：给定一个视频块，采用两层慢特征函数提取给定视频块的时间显著图，再通过布尔图生成给定视频块空间显著图，最终，时间显著图和空间显著图通过自适应的融合策略生成最终的时空显著图；

步骤四：采用返回抑制的方法从显著图中搜索出前K个注意焦点，进行目标检测，其中K是目标候选区域的数目。

上述技术方案中，所述步骤一具体包括：

（1）采用canny边缘检测算法对给定视频块的第一帧进行边缘检测，再随机从边缘上采样生成固定数目的初始点；

（2）以步骤（1）中生成的初始点为中心，提取大小为的立方体，并对每个提取的立方体进行重构。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

本发明通过慢特征分析，可以从周围的环境变化中学习出一种鲁棒的内在描述，这种内在描述可以独立于环境本身，且利用两层的慢特征函数来提取高层的运动描述用于时间显著性，能够检测更加复杂的动态场景。

附图说明

图1是实施例一中本发明的方法框架图。

图2是实施例一中立方体的重构过程示意图。

图3是实施例一中两层慢特征学习示意图。

图4是实施例一中显著目标检测的样例。

图5是实施例二中基于一层和两层慢特征变化的显著图的对比图。

图6是实施例二中复杂场景下的显著性检测示意图。

图7是实施例二中不同算法的显著图对比。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：参见图1所示，一种基于慢特征分析的时空显著性检测方法，包括如下步骤：

步骤一：提取训练立方体，从被归一化处理过的视频序列中随机采样提取大量的时空立方体，该过程分为如下两个步骤：

（2）以步骤（1）中生成的初始点为中心，提取大小为的立方体，并对每个提取的立方体进行重构，如图2所示；

步骤二：非监督的慢特征学习，对于每一个步骤一中所提取的单个时空立方体，输入信号使用一个二次函数扩展到一个非线性的空间，训练得到慢特征函数；

步骤三：计算显著性，给定一个d帧的视频块，中间帧选择作为当前帧，用于对应最后的显著图，根据步骤一，当前帧中的每个位置表示为，对应于大小为的立方体，经过重构后，每个立方体表示为一个时间长度为的向量序列，表示为，其中每个时间点的向量通过连接个连续的帧来产生，然后，使用步骤二中学习到的慢特征函数，每个序列以一种级联的方法变换到一个新的时间序列，其中K表示慢特征函数的数目，然后，位置l上第j个高层缓慢性通过公式（2）计算

（2）

其中是当前帧的位置，是第j个缓慢性且表示两层的缓慢特征变换，根据公式（2），K维的缓慢特征向量计算来表示位置上的局部时空信息，最终，时间显著图使用公式（3）通过K维的特征向量的均值来度量

（3）

其中，g是一个2维的高斯滤波器（），

然后，空间显著图使用Zhang等人提出的一种布尔图的方法来生成，最终，时间显著图和空间显著图通过自适应的融合策略生成最终的时空显著图，如图3所示；

步骤四：目标检测，给定当前帧的显著图，第i次搜索从开始且，从中找出最大的像素值，用表示，该像素值对应的位置为，第i个目标候选区域按照如下形式计算：

（4）

（5）

其中是影响检测区域大小的用户自定义的阈值，通过抑制为0，第个显著图将返回，第个候选区域也能够从被抑制的新的显著图中计算得到，根据公式（4）和（5），当被满足时，整个搜索过程将终止，其中为用户定义的可接受率且表示显著图的期望值，图4右边图像显示了搜索结果的例子。

实施例二：本实施例采用动态视频序列JPEGS，其中包含了18个复杂的动态场景视频序列，包括birds、boats、bottle、chopper、cyclists、flock、freeway、hockey、jump、land、ocean、peds、rain、skiing、surf、surfers、traffic、zodiac。在这个18个视频序列中，有静态相机下的监控视频、变化复杂的动态背景（如水、烟雾、雨和雪）和相机的运动等。实验硬件环境：Window 7，Core i7处理器，主频为3.4G，内存为8G。代码运行环境是：Matlab 2013a。

1、两层的慢特征变化

为了验证两层慢特征变化的性能优于单个慢特征核，基于两层的变化和基于一层的变换进行了对比，参见图5所示，使用两层的慢特征变换提取的高层特征对于动态场景更加具有鲁棒性，而且变化的背景能够得到了很好的抑制。由此可见，基于两层慢特征变换的特征提取要优于一层的特征提取。

2、定性分析

所有的视频序列被转换为灰度级，且显著性在所有的像素位置计算。在显著性计算之前，序列被变换到一个小的尺度。这个操作可以改善方法的性能和降低计算成本。本实施例的算法与四元傅里叶方法（PQFT）进行的对比，参见图6所示。

为了获得更加直观的性能，提出的算法与一些之前的方法进行了对比，结果参见图7所示. 本实施例的方法能够区分在不同时间尺度上变化的区域，且使得快速变化的目标候选区域自动凸显出来。从图7中可以看出，提出的算法轻微的优于DiscSal算法。而PQFT方法和Monnet方法显示了次要的性能。GMM和KDE方法几乎没有任何效果，产生了最坏的结果。

3、定量评估

为了确保一个定量的分析，每个视频序列的50帧用于显著图的计算。本实施例使用相等错误率（Equal Error Rate, EER）来度量提出算法在不同视频序列上的性能。EER是错误接受率（False Acceptance Rate）与错误抵制率（False Rejection Rate）相等时的错误率。对于每个视频序列，50幅视频显著图计算获得并且所有的显著图通过大量的阈值二值化来计算对应的FAR和FRR。

表1显示了各种算法对于每个视频序列的相等错误率，包括DiscSal、Zhou、PQFT、Monnet、KDE和GMM。结果显示了提出的算法超过了其他所有的算法，获得了7.3%的EER。尽管DisSal与本实施例方法具有相似的性能，然而它的计算成本却是本实施例方法的8倍。除此之外，两个显著性模型（Zhou和PQFT）并不对动态场景鲁棒，与DisSal和本实施例方法相比获得了次要的性能。那些传统的背景建模的方法（Monnet、KDE和GMM）获得了相对低的效果。

根据表1，本实施例方法在一些特征的场景中比DisSal具有更低的EER，例如“flock”和“hockey”，其中前景目标覆盖了图像的大部分区域。本实施例方法对于处理这些情况有困难。另外，由于存在充满雾的环境（“freeway”和“traffic”），提出的方法不能捕获精确的运动表示用于时间显著性。尽管如此，本实施例方法仍然在上述的场景中优于除了DisSal以外的算法。

表1 不同算法的EER

Claims

1.一种基于慢特征分析的时空显著性检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于慢特征分析的时空显著性检测方法，其特征在于：所述步骤一具体包括：