CN101329767A

CN101329767A - 基于学习的视频中显著物体序列自动检测方法

Info

Publication number: CN101329767A
Application number: CNA2008101503248A
Authority: CN
Inventors: 刘铁; 袁泽剑; 郑南宁; 盛兴东; 崔超; 张耿; 董毅
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2008-07-11
Filing date: 2008-07-11
Publication date: 2008-12-24
Anticipated expiration: 2028-07-11
Also published as: CN101329767B

Abstract

本发明公开了一种基于学习的视频中显著物体序列自动检测方法，该方法首先计算静态显著性特征，计算动态显著性特征，并与静态显著性特征自适应组合起来构成显著性特征约束。计算每帧图像中的空间连续性。计算相邻帧图像中显著物体的时间连续性。这里计算所有可能的显著物体之间的相似度。利用前一次计算获得显著物体序列计算全局主题模型，并计算相应的能量贡献。利用动态规划算法进行全局最优求解，从而获得全局最优的显著物体序列。当未满足收敛条件继续迭代求解。否则，输出矩形框序列作为最优的显著物体序列。本发明能有效解决静态与动态显著性特征的选取与多种约束条件的优化集成，以及目标序列检测的高效计算。

Description

基于学习的视频中显著物体序列自动检测方法

技术领域

本发明属于视觉注意分析与视频中显著物体序列自动检测，特别涉及单个显著物体序列的自动检测方法。

背景技术

随着互联网和数字摄像技术的发展，互联网上可以获得视频的越来越多，使得视频检索、视频整理和总结变得非常重要。视频中的内容分析一直是视频检索与总结中的重要部分。传统的视频注意力分析通过对时空序列中像素点赋予不同的权重来标识视频中不同部分的重要程度，并能够识别可能的视觉集中点，但是没有“物体”这个概念因而无法检测出物体。现实中物体的概念指我们经常见到的如人脸、汽车、行人、桌子、猫、狗等等，而显著物体指的是在图像中最明显的物体或者叫做一眼就能够看到的物体。大量视频中存在单一显著物体序列，其中显著物体非常小并且具有很多的干扰，这对于基于图像的显著物体检测非常具有挑战性。

早先有关这方面的工作包括视频注意力分析，其中静态和动态显著性线索被证明对于视频中的显著视觉注意力点的检测很有用。静态线索来自单帧图像中的视觉注意力，即图像不同区域给出不同的权重来表明其重要性。Itti.等(IEEE Transaction on PAMI，1998，pp.1254-259)在1998年提出的显著性模型通过计算像素点在不同尺度下光强、颜色和方向等特征的中间与周围之间的差异性来计算每个像素点的重要性，即显著性图。通过赢者通吃或者其它线性、非线性集成算法，可以识别出一些视觉注意力集中点。这是目前常用的视觉注意力计算方法。动态线索主要来自于视频中感兴趣目标的运动信息，有很多方法用来捕获动态线索。利用帧差直接计算前后两帧的差别来捕获动态信息，其仅仅局限于固定相机而对移动背景无能为力(Zhan，Image andGraphics，2007，pp 519-523)。在(Bur.，ICVS，2007)中，大的运动被认为导致显著的注意力，即运动场幅度越大，显著性越强。但在实际的视频数据中也存在背景具有更大的运动。文献(Vision Research，2006，pp4333-4345)利用运动对比度在作为动态显著性线索，但局部的对比度将导致物体内部运动一致的区域不能够被显示出来。

在(IEEE ICCV’05，pp 1754-1761)中，基于运动场的层次分割被用来提取物体的各个部分并跟踪。如果具有不同运动场的场景和物体能够正确的分割，就可以认为某个在视频中一直存在且具有连续运动场的物体是目标物体，该方法主要受运动层分割的限制。静态图像中的主题模型被扩展到运动视频中，这样可以集成时域中的运动模型。其主要集中在发现低分辨率图像的小目标，而对纹理丰富的前景目标有困难(David，IEEE CVPR’07)。整个物体假设有一个单一的常数速度模型，并且物体的表面视觉单词(visual words)被认为在整个视频中是恒定的。所有依赖于主题模型(topic model)的方法都受到物体旋转和表面变化的影响。

视频注意力分析的方法专注于直接从图像的表面或者运动场等特征中计，尽管可以识别出一些注意力集中点，其无法解决“物体”这个整体概念，另外，没有集成全局的信息往往带来计算的错误。视频中的自动物体发现类的方法最大的问题在于：静态与动态显著性特征选择与有效集成，以及求解算法的效率与收敛问题。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种基于学习的视频中显著物体序列自动检测方法，该方法能够可靠的检测显著物体序列，在基于区域和基于边缘的评测指标上都有显著提高。

本发明采用基于学习的方法能有效解决静态与动态显著性特征的选取与多种约束条件的优化集成，以及目标序列检测的高效计算。

本发明的技术方案是这样实现的：

本发明的技术方案通过如下迭代优化的算法来实现显著物体序列的自动检测的，具体步骤如下：

1)计算静态显著性特征：局部、区域和全局显著性特征计算来自每一帧图像的静态线索；

2)计算动态显著性特征，并与静态显著性特征自适应组合起来构成显著性特征约束；

计算动态显著性特征方法如下：

采用对每个像素点在多尺度上利用Simoncelli滤波器来计算运动场M，对运动场进行加权，加权权值计算如下：W(x，M)＝exp(-ε_c||V(x，M)||²)，其中ε_c＝0.2，V(x，M)是来自像素点x周围5×5的窗口内运动场的标准方差；

对于加权的运动场，扩展(Tie，IEEE CVPR’07)中的局部、区域全局性显著性特征到加权运动场中来计算运动场显著性特征：

加权多尺度对比度：

f_{M_{c}} (x, M) = Σ_{l = 1}^{L} Σ_{x^{'} &Element; N (x)} W_{x}^{l} W_{x^{'}}^{l} {| | M^{l} (x) - M^{l} (x^{'}) | |}^{2},

加权中间-周围直方图：

f_{M_{h}} (x, M) &Proportional; Σ_{{x^{'} | x &Element; R_{M}^{*} (x^{'})}} w_{{xx}^{'}} W_{x^{'}} χ^{2} (R_{M}^{*} (x^{'}), R_{M_{s}}^{*} (x^{'})),

加权运动场空间分布

f_{M_{s}} (x, M) &Proportional; Σ_{m} W_{x} p (m | M_{x}) (1 - V (m)),

其中W_x为运动场的权重，M是运动场向量，N(x)代表x周围一定区域内的像素集，L是总的层数，l代表当前层数，M^l是金字塔中第l层的二维运动场，W_x ^l是像素点x的权重，R_m ^*是以x′为中心且包括x的矩形框内的统计直方图，

是对应的周围矩形框内的统计直方图，w_xx′是空间的距离上的权重，W_x′表明了像素点x′的权重，χ²表示直方图间的距离，V(m)为每个高斯元的空间分布方差，m代表高斯元序号。使用同样的参数可以获得最终组合的加权运动场显著性特征：

F_{M} (x) = Σ_{k} λ_{k} f_{M_{k}} (x, M)

运动显著性在时间维度上的自适应平滑，采用前后两帧运动显著特征的自适应组合方式：

F_{Mt} (x) = \frac{S_{t}}{S_{t} + S_{t - 1}} F_{Mt} (x) + \frac{S_{t - 1}}{S_{t} + S_{t - 1}} F_{Mt - 1} (x),

这里S_t定义为权重，计算如下：

S_{t} = \frac{1 - \exp (- β_{s} D_{F_{M}})}{1 + \exp (- β_{s} D_{F_{M}})},

其中β_s＝0.1，定义了

两个5×5的窗口区域里显著性的最大差，定义如下：

D_{F_{M}} = \max_{x} Σ_{x^{'} &Element; N (x)} | | F_{M_{t}} (x^{'}) | | - \min_{x} Σ_{x^{'} &Element; N (x)} | | F_{M_{t}} (x^{'}) | |,

其中N(x)表明5×5的窗口邻域；

将自适应平滑后的动态显著性和静态显著性自适应组合起来构成最终的显著性约束：F_t(x)＝F_St(x)+S_t×F_Mt(x)，其中S_t为平滑的运动场显著性上重新计算的运动显著的权重，从定义中可以看到S_t∈[0，1]；

3)计算每帧图像中的空间连续性，具体方法如下：

显著物体被表示为一个矩形框，空间连续性被定义为刻画矩形框边界与真实的图像边缘之间的吻合程度，即

S_{C_{t}} (A_{t}, I_{t}) = λ_{S} Σ_{x, x^{'}} δ (a_{x^{'}} &NotEqual; a_{x}) D_{E_{t}} (x, I_{t}),

这里

D_{E_{t}} (x, I_{t}) &Element; [0,1]

表示像素点x到图像边缘的归一化距离，

λ_{s} = \frac{0.1 \times W \times H}{| L_{t} |},

其中|L_t|为矩形框上像素点的个数，W和H为图像的宽度和高度，Sobel算子用来计算图像的边界并自适应的选择门限值进行二值化可以获得图像的边缘信息；

4)计算相邻帧图像中显著物体的时间连续性，时间连续性数学定义如下：

T_{C_{t}} (A_{t, t + 1}, I_{t, t + 1}) = β_{1} S (A_{t}, A_{t + 1}) + β_{2} χ^{2} (A_{t}, A_{t + 1}),

其中

S (A_{t}, A_{t + 1}) = Σ_{{a_{x_{t}}, a_{x_{t} + 1},}} | | a_{x_{t}} a_{x_{t + 1}}, | |

定义了相邻两帧图像中显著物体的形状相似度，而χ²(A_t，A_t+1)定义了相邻两帧图像中显著物体的表面模式之间的相似度，这里为颜色直方图的χ²距离，

β_{1} = \frac{0.5 \times W \times H}{W + H}, β_{2} = 0.01

为权值以保持与其它能量项的平衡；

5)利用前一次计算获得显著物体序列计算全局主题模型，并计算相应的能量贡献，从第二次迭代开始；

利用前次检测结果在整个序列里比较保守的收集显著物体和背景的样本策略，然后利用这些样本构造出显著物体的颜色直方图H_F(b)和背景的颜色直方图H_B(b)，这里b表示直方图的位阶，然后对每帧图像的每一个像素点计算一个似然，全局主题模型在能量函数中的贡献计算如下：

G_{t} (A_{t}) = Σ_{x &Element; A_{t}} \frac{H_{B} (b_{x})}{H_{F} (b_{x}) + H_{B} (b_{x})} + Σ_{x &NotElement; A_{t}} \frac{H_{F} (b_{x})}{H_{F} (b_{x}) + H_{B} (b_{x})},

其中b_x为像素点x的颜色直方图值；

6)利用动态规划算法进行全局最优求解，从而获得全局最优的显著物体序列；

视频中显著物体序列检测的数学建模如下：视频可以表示为图像序列I_1…T，其中T为总帧数，显著物体序列A_1…T∈{0，1}为二值模板图序列，标明每个像素点是否为显著物体，计算给定观测数据I_1…T的情况下A_1…T的条件分布，即

P (A_{1 \cdot \cdot \cdot T} | I_{1 \cdot \cdot \cdot T}) = \frac{1}{Z} \exp (- \underset{t}{Σ} E_{t} (A_{t} | I_{1 \cdot \cdot \cdot T}, A_{t^{'} &NotEqual; t})),

其中t∈[1，T]是时间刻度，Z是归一化函数，显著物体序列A_1…T通过最小化能量函数进行求解：

A_{1 \cdot \cdot \cdot T}^{*} = \arg \min_{A_{1 \cdot \cdot \cdot T}} \underset{t}{Σ} E_{t} (A_{t} | I_{1 \cdot \cdot \cdot T}, A_{t^{'} &NotEqual; t}) - - - (1)

能量函数E_t(A_t|I_1…T，A_t′≠t)可以定义为这些线索的线性组合：

F_t为显著性约束，

为空间连续性，

为时间连续性，G_t为全局主题模型；

动态规划算法设计如下：A_t是状态变量(中心和尺度)，U_t是相邻两帧之间矩形框变化的可能策略，那么最优值函数可以写作：

S_{t + 1} (A_{t + 1}) = \arg \min_{U_{t}} S_{t} (A_{t}) + E_{t} (A_{t}) - - - (3)

其中A_t＝T(A_t+1，U_t)从状态转移函数计算而来，E(A_t)为(2)式定义的能量函数，目标函数的初始值为S₀＝0，前向算法可以用来进行最优值计算，获得全局最优的矩形框序列A_1…T，在第一次进行能量最小化计算的时候，用到静态和动态显著性、时间与空间连续性，即：

7)当未满足收敛条件，输出序列不再变化或者达到一定的迭代次数时跳转步骤5)继续迭代求解，否则，输出矩形框序列作为最优的显著物体序列。

本发明的技术效果：

(1)本发明提出新的基于条件随机场(CRF)的模型来建模视频中的显著物体序列检测问题。这个模型集成了静态和动态显著性、时间与空间连续性以及全局主题模型。多种线索的集成保证了能够很好的检测到显著物体序列。

(2)设计了动态规划算法作为能量最小化算法来求解全局最优的显著物体序列。其中，利用矩形框序列来标识显著物体序列，使得动态规划可以在个人电脑上直接求解一个全局最优的矩形框序列，而这个矩形框序列正好包围住视频中的每帧图像中的显著物体。

(3)局部、区域和全局的显著性特征被扩展到运动场上。每个像素点被指定一个权重用来描述运动场计算中可能出现的错误。运动显著性和静态显著性动态自适应的组合起来构成了最终的显著性图。

(4)时间和空间连续性以及全局主题模型被很好的定义并和显著性特征组合起来。其中，全局主题模型采用迭代方式建立起来。

附图说明

图1是方法工作所针对的视频序列示例图，

图2是方法的框架结构示意图。

图3是所提算法的流程框图。

图4是视频中显著物体检测的示例图。

图4(a)是使用来自于图4(b)中的显著性和图4(c)中的空间连续性在单帧图像上求解的结果。

图4(b)是组合静态和动态线索的显著性图。

图4(c)是空域连续性：到最近边缘的距离。

图4(d)是考虑到时域连续性的全局最优解。

图4(e)是从图4(d)中计算出的全局主题模型所产生的似然。

图4(f)本发明所提算法的最终输出结果。

图5是空域连续性。从左到右：原始图像，梯度图，到最近边缘的距离图。

图6是时域连续性的作用示意图。

图6(a)是只考虑显著性约束和空间连续性约束的求解结果。

图6(b)是加入时域连续性的最优求解结果。

图7是运动场显著性。

图7(a)是原始图像。

图7(b)是运动场(为了更好的显示效果放大2倍)。

图7(c)是权重图。

图7(d)是加权多尺度运动对比度。

图7(e)是加权中间-周围直方图。

图7(f)是加权运动场空间分布。

图7(g)是组合的运行场显著性。

图8是静态显著性和运动场显著性的组合。从左到右是滑雪板序列的第1-5帧图像。

图8(a)是连续输入图像。

图8(b)是运动场。

图8(c)是每帧图像上计算的运动场显著性。

图8(d)是自适应平滑的运动场显著性。

图8(e)是静态显著性。

图8(f)是静态显著性和运动场显著性自适应组合的结果。

图9是运动场显著性计算的流程框图。

图10是实验中的视频序列样本。每一帧都来自于一个视频序列，其上的矩形框是自动检测的显著物体。

图11是图1中所示视频序列中的显著物体自动检测结果。

下面结合附图对本发明的内容作进一步详细说明。

具体实施方式

(1)视频中显著物体序列检测的条件随机场模型

视频中显著物体序列检测的数学建模如下：假设视频可以表示为图像序列I_1…T，其中T为总帧数。显著物体序列A_1…T∈{0，1}为二值模板图序列，标明每个像素点是否为显著物体。显著物体序列检测的问题可以之间建模为给定观测数据I_1…T的情况下A_1…T的条件分布，即

P (A_{1 \cdot \cdot \cdot T} | I_{1 \cdot \cdot \cdot T}) = \frac{1}{Z} \exp (- \underset{t}{Σ} E_{t} (A_{t} | I_{1 \cdot \cdot \cdot T}, A_{t^{'} &NotEqual; t})),

其中t∈[1，T]是时间刻度，Z是归一化函数。显著物体序列A_1…T可以通过最小化能量函数进行求解：

A_{1 \cdot \cdot \cdot T}^{*} = \arg \min_{A_{1 \cdot \cdot \cdot T}} \underset{t}{Σ} E_{t} (A_{t} | I_{1 \cdot \cdot \cdot T}, A_{t^{'} &NotEqual; t}) - - - (1)

能量函数定义了不同线索对显著物体序列检测的约束。本发明提出的线索及局部约束包括：显著性约束F_t，空间连续性

时间连续性

和全局主题模型G_t。假设这些线索对能量函数的贡献是相互独立的，那么能量函数E_t(A_t|I_1…T，A_t′≠t)可以定义为这些线索的线性组合：

能量函数中的约束条件对求解显著物体序列至关重要，这些约束刻画了显著性物体序列所具有的特征。为了简化模型的求解问题，假设A_1…T{0，1}具有矩形形状特征，因此A_t可以用四个参数进行表示，从而可以设计能量最小化算法对时空序列进行有效的求解。

(2)显著性约束：单帧图像的静态显著性和运动场的动态显著性

显著性约束是最为重要的线索，包含静态和动态显著性约束。显著性约束在能量函数中的代价计算如下：

\overset{&OverBar;}{F_{t}} (A_{t}, I_{t}) = Σ_{x : a_{x} = 0} F_{t} (x) + Σ_{x : a_{x} = 1} (1 - F_{t} (x)) - - - (3)

这里显著性特征F_t(x)标明每一个像素点x的重要程度。显著性特征F_t(x)由静态和动态显著性特征组成。静态显著性特征直接采用(Tie，IEEE CVPR’07)中局部、区域和全局显著性在颜色向量上的计算结果。同时这里将这组显著性特征扩展到运动场中，同时对运动场进行加权来标明运动场计算的可靠性。运动场的加权多尺度对比度，加权中间-周围直方图，加权运动场的空间分布等显著性特征线性组合起来构成动态显著性特征。对运动场显著性特征在时间域上进行自适应的平滑，然后和单帧图像中计算的静态线索进行自适应组合成为最终的显著性特征。

(3)空间连续性：矩形框与图像边缘的吻合度

空间连续性刻画了在同一帧图像里面的相邻位置像素点分别取显著物体和背景时所付出的代价。在这里显著物体被表示为一个矩形框，因此空间连续性被定义为刻画矩形框边界与真实的图像边缘之间的吻合程度，即

S_{C_{t}} (A_{t}, I_{t}) = λ_{S} Σ_{x, x^{'}} δ (a_{x^{'}} &NotEqual; a_{x}) D_{E_{t}} (x, I_{t}) - - - (4)

这里

表示像素点x到图像边缘的距离。Sobel算子用来计算图像的边界并自适应的选择门限值进行二值化可以获得图像的边缘信息。

(4)时间连续性：矩形框序列光滑性约束

时间连续性定义了相邻两帧图像中的显著物体在形状和表面特征上的相似度，其基于如下假设：同一显著物体在相邻两帧图像中的变化甚小。数学定义如下：

T_{C_{t}} (A_{t, t + 1}, I_{t, t + 1}) = β_{1} S (A_{t}, A_{t + 1}) + β_{2} χ^{2} (A_{t}, A_{t + 1}) - - - (5)

其中S(A_t，A_t+1)定义了相邻两帧图像中显著物体的形状相似度，而χ²(A_t，A_t+1)定义了相邻两帧图像中显著物体的表面模型之间的相似度，这里为颜色直方图的χ²距离。

(5)全局主题模型：所有帧的表面特征模型约束

全局主题模型定义了整个显著物体序列所共有的特征。由于事先并不知道显著物体序列的任何信息，因此全局主题模型采用一种迭代方式建立起来：开始仅仅依靠其它几项线索起作用进行全局求解，从第二次迭代开始每次利用前面的结果计算全局主题模型然后参与计算。这里提出了利用前次检测结果在整个序列里比较保守的收集显著物体和背景的样本策略，然后利用这些样本构造出显著物体的颜色直方图H_F(b)和背景的颜色直方图H_B(b)，这里b表示直方图的位阶。有了这两个直方图模型以后，可以对每帧图像的每一个像素点计算一个似然，最后全局主题模型在能量函数中的贡献计算如下：

G_{t} (A_{t}) = Σ_{x &Element; A_{t}} \frac{H_{B} (b_{x})}{H_{F} (b_{x}) + H_{B} (b_{x})} + Σ_{x &NotElement; A_{t}} \frac{H_{F} (b_{x})}{H_{F} (b_{x}) + H_{B} (b_{x})} - - - (6)

其中b_x为像素点x的颜色直方图值。

(6)能量最小化算法：基于动态规划的推理

接着介绍能量最小化算法。前面提到基于像素点的这样一个三维随机场求解是非常具有挑战性的。假设图像的宽度和高度为：W＝320，H＝240，对于一个T＝200帧的图像序列，求解空间2^W×H×T将导致在个人计算机上不可能完成的计算量。尽管一些技术，比如图像分割(VideoCut，Siggraph’05)或者由粗到细(coarse-to-fine)技术，可以帮助减轻计算量，其离可以接受的计算量仍然很遥远。如果假设显著物体具有矩形形状，那么A_t可以由四个参数进行表示(中心，尺度)，这样求解空间迅速下降到(W²×H²)^T。这样动态规划算法可以设计来进行全空间搜索，从而获得全局最优的矩形框序列。另外，由于相邻帧图像的矩形框的变化相对来说比较小，这意味着由粗到细的算法能够被使用，从而求解空间可以进一步下降。

动态规划算法设计如下：假设A_t是状态变量(中心和尺度)，U_t是相邻两帧之间矩形框变化的可能策略，那么最优值函数可以写作：

S_{t + 1} (A_{t + 1}) = \arg \min_{U_{t}} S_{t} (A_{t}) + E_{t} (A_{t}) - - - (7)

其中A_t＝T(A_t+1，U_t)从状态转移函数计算而来，E(A_t)即为前面定义的能量函数。目标函数的初始值为S₀＝0，前向算法可以用来进行最优值计算，从而获得全局最优的矩形框序列A_1…T。

参照图1所示，本发明主要解决视频序列中的显著物体序列的检测。对显著物体的旋转、变形和背景的移动和关照变化等没有限制。

参照图2所示，视频中显著物体序列检测的问题被建模为一个条件随机场模型，通过能量最小化算法来求解最优显著物体序列。具体来说，静态显著性和动态显著性、时间和空间连续性、以及全局主题模型等多种线索被集成在条件随机场模型下，设计了动态规划算法来进行推理求解，从而获得全局最优的矩形框序列。其中，动态显著性来自于运动场的局部、区域和全局的加权显著性特征。

参照图3所示，整个建模求解的算法流程如下：

1)计算静态显著性特征。这里直接采用(Tie，IEEE CVPR’07)提出的局部、区域和全局显著性特征计算来自每一帧图像的静态线索。

2)计算动态显著性特征，并与静态显著性特征自适应组合起来构成显著性特征约束。

3)计算每帧图像中的空间连续性。空间连续性描述了相邻像素被分别指定为物体和背景时所需要的代价。

4)计算相邻帧图像中显著物体的时间连续性。这里计算所有可能的显著物体之间的相似度。

5)利用前一次计算获得显著物体序列计算全局主题模型，并计算相应的能量贡献(从第二次迭代开始)。

6)利用动态规划算法进行全局最优求解，从而获得全局最优的显著物体序列。

7)当未满足收敛条件(输出序列不再变化或者达到一定的迭代次数)时跳转步骤5继续迭代求解。否则，输出矩形框序列作为最优的显著物体序列。

在第一次进行能量最小化计算的时候，用到静态和动态显著性、时间与空间连续性，即通常，这个能量定义能够获得一个比较宽松的显著物体序列。然后，通过比较保守的选择显著物体和背景的样本，来构建显著物体和背景的表面特征模型，从而获得全局主题模型的约束。从第二次迭代开始，能量函数包含了所有能量。

参照图4所示，从左到右是杂耍视频序列里的第1，21，88，107，132，146帧。

构建了一种“基准”方法，即使用条件随机场来建模视频中显著物体序列检测：

P (A_{1 \cdot \cdot \cdot T} | I_{1 \cdot \cdot \cdot T}) = \frac{1}{Z} \exp (- \underset{t}{Σ} E_{t} (A_{t} | I_{t})),

但是指在能量函数里包含了来自显著性约束(静态和动态)以及空间连续性约束，即：

可以看到，在此能量函数中没有包含空间连续性和全局主题模型等来自于时间序列上的约束。

其中组合了静态和动态线索的显著性图如图4(b)所示，空间连续性如图4(c)所示。而来只使用4(b)中的显著性和图4(c)中的空间连续性的来自自于上面的“基准”模型的求解如图4(a)所示。可以看到，在各帧之间求解的矩形框序列会有一个较大的变化。在图4(d)中考虑了时域连续性的全局最优求解结果中，结果变的更加平滑，但是仍然比较宽松。

图4(e)是从图4(f)中计算出的全局主题模型所产生的似然。全局主题模型定义了整个显著物体序列所共有的特征。利用前次检测结果在整个序列里比较保守的收集显著物体和背景的样本策略，然后利用这些样本构造出显著物体的颜色直方图H_F(b)和背景的颜色直方图H_B(b)，这里b表示直方图的位阶。有了这两个直方图模型以后，可以对每帧图像的每一个像素点计算一个似然，最后全局主题模型在能量函数中的贡献计算如下：

G_{t} (A_{t}) = Σ_{x &Element; A_{t}} \frac{H_{B} (b_{x})}{H_{F} (b_{x}) + H_{B} (b_{x})} + Σ_{x &NotElement; A_{t}} \frac{H_{F} (b_{x})}{H_{F} (b_{x}) + H_{B} (b_{x})} - - - (5)

其中b_x为像素点x的颜色直方图值。加上如图4(e)的全局主题模型约束，图4(f)中的结果更加的准确。

参照图5所示，为了直接求解矩形框，二元代价函数从梯度代价转化到边缘距离代价。空间连续性刻画了在同一帧图像里面的相邻位置像素点分别取显著物体和背景时所付出的代价。在这里显著物体被表示为一个矩形框，因此空间连续性被定义为刻画矩形框边界与真实的图像边缘之间的吻合程度，即

S_{C_{t}} (A_{t}, I_{t}) = λ_{S} Σ_{x, x^{'}} δ (a_{x^{'}} &NotEqual; a_{x}) D_{E_{t}} (x, I_{t}) - - - (6)

这里

D_{E_{t}} (x, I_{t}) &Element; [0,1]

表示像素点x到图像边缘的归一化距离，

λ_{s} = \frac{0.1 \times W \times H}{| L_{t} |},

其中|L_t|为矩形框上像素点的个数，W和H为图像的宽度和高度。Sobel算子用来计算图像的边界并自适应的选择门限值进行二值化可以获得图像的边缘信息。

参照图6所示，图6(a)为上述“基准”模型在图像序列上的结果，图6(b)中连续时间连续性的加入使得结果更加的平滑。连续时间连续性定义了相邻两帧图像中的显著物体在形状和表面特征上的相似度，其基于如下假设：同一显著物体在相邻两帧图像中的变化甚小，其数学定义如下：

T_{C_{t}} (A_{t, t + 1}, I_{t, t + 1}) = β_{1} S (A_{t}, A_{t + 1}) + β_{2} χ^{2} (A_{t}, A_{t + 1}) - - - (7)

其中

S (A_{t}, A_{t + 1}) = Σ_{{a_{x_{t}}, a_{x_{t} + 1},}} | | a_{x_{t}} - a_{x_{t + 1}}, | |

定义了相邻两帧图像中显著物体的形状相似度，而χ²(A_t，A_t+1)定义了相邻两帧图像中显著物体的表面模型之间的相似度，这里为颜色直方图的χ²距离。

β_{1} = \frac{0.5 \times W \times H}{W + H},

β₂＝0.01为权值以保持与其它能量项的平衡。

参照图7所示，展示了加权的运动场显著性。从左到右是图像序列的第1，21，88，107，132，146帧图像。对于那些有显著运动的图像(第88，146帧)，本文所提的显著性特征能够捕获物体的内部区域。对那些没有显著运动的图像(第1帧)，运动显著性存在错误。这里采用对每个像素点在多尺度上利用Simoncelli滤波器(H.Farid，IEEE Trans.On Image Processing，13：496-508，2004)来计算运动场M。此处运动场表示为二维向量场，如图7(b)所示。为了避免运动场计算中可能的错误带来运动场显著性计算的错误，我们对运动场进行加权。假设在小范围内一致性更高的运动场具有更高的可靠性，加权权值计算如下：

W(x，M)＝exp(-ε_c||V(x，M)||²) (8)

其中ε_c＝0.2，V(x，M)是来自像素点x周围5×5的窗口内运动场的标准方差。可以看到，运动场越是杂乱的区域被赋予了越小的权重，如图图7(c)所示。

加权多尺度对比度：

f_{M_{c}} (x, M) = Σ_{l = 1}^{L} Σ_{x^{'} &Element; N (x)} W_{x}^{l} W_{x^{'}}^{l} {| | M^{l} (x) - M^{l} (x^{'}) | |}^{2} - - - (9)

加权中间-周围直方图：

f_{M_{h}} (x, M) &Proportional; Σ_{{x^{'} | x &Element; R_{M}^{*} (x^{'})}} w_{{xx}^{'}} W_{x^{'}} χ^{2} (R_{M}^{*} (x^{'}), R_{M_{s}}^{*} (x^{'})) - - - (10)

加权运动场空间分布：

f_{M_{s}} (x, M) &Proportional; Σ_{m} W_{x} p (m | M_{x}) (1 - V (m)) - - - (11)

其中W_x为运动场的权重，其它值的定义参见(Tie，IEEE CVPR’07)。使用同样的参数可以获得最终组合的加权运动场显著性特征：

F_{M} (x) = Σ_{k} λ_{k} f_{M_{k}} (x, M) . - - - (12)

参照图8所示，静态显著性和动态显著性自适应的组合起来构成最终的显著性约束。首先，由于动态显著性会有不连续出现，比较典型的来自于拍摄者手的抖动，或者运动场计算的错误。在时间域上对运动场显著性进行平滑非常重要。最简单的方法是直接在相邻两帧的运动场显著性之间进行平均，然而这将抹杀运动场显著性的作用。这里定义了加权组合方式：

F_{Mt} (x) = \frac{S_{t}}{S_{t} + S_{t - 1}} F_{Mt} (x) + \frac{S_{t - 1}}{S_{t} + S_{t - 1}} F_{Mt - 1} (x), - - - (13)

这里S_t定义为权重，其给予具有强显著性的帧更大的权重，计算如下：

S_{t} = \frac{1 - \exp (- β_{s} D_{F_{M}})}{1 + \exp (- β_{s} D_{F_{M}})},

其中β_s＝0.1，定义了

两个5×5的窗口区域里显著性的最大差，定义如下：

D_{F_{M}} = \max_{x} Σ_{x^{'} &Element; N (x)} | | F_{M_{t}} (x^{'}) | | - \min_{x} Σ_{x^{'} &Element; N (x)} | | F_{M_{t}} (x^{'}) | |,

其中N(x)表明5×5的窗口邻域。自适应平滑的运动场显著性如图8(d)所示。

然后将动态显著性和静态显著性自适应组合起来构成最终的显著性约束：

F_t(x)＝F_St(x)+S_t×F_Mt(x) (14)

其中S_t为平滑的运动场显著性上重新计算的显著性强度，从定义中可以看到S_t∈[0，1]。对于图8(e)中的静态显著性，自适应组合结果如图8(f)所示。

参照图9所示，运动场显著性的计算及其自适应组合流程如下：

1)采用Simoncelli滤波器(H.Farid，IEEE Trans.On Image Processing，13：496-508，2004)计算出运动场；

2)根据运动场的一致性，利用方程(8)式计算来对每个像素的运动场可靠性加权；

3)针对加权运动场，分别利用(9)、(10)、(11)式来计算加权多尺度对比度、加权中间-周围直方图和加权运动场空间分布，并利用(Tie，IEEECVPR’07)中学到的参数进行加权组合；

4)利用(13)式，对计算出来的动态显著性在时间序列上进行平滑；

5)利用(14)式，将平滑过的动态显著性与静态显著性进行自适应的组合，获得最终的显著性特征。

参照图10所示，收集了大量的实验视频序列样本。每一帧都来自于一个视频序列，其上的矩形框是自动检测的显著物体。如(Tie，IEEE CVPR’07)中定义了基于区域的测度：精度(Pre.)、召回(Rec.)和F测度(F-measure)，以及基于边缘的测度：边缘替代错误(BDE)。对于前述的基准方法，组合不同的静态显著性和动态显著性方法定义如下“基准”方法：

a)分别定义在颜色和加权运动场上的静态和动态显著性特征，即本发明所用的显著性特征；

b)Itti.等(IEEE Trans.on PAMI，1998，pp.1254-259)的显著性模型作为静态显著性，而(Carmi，Vision Research 46(26)：4333-4345，2006)中的运动场多尺度对比度作为动态显著性。

c)Itti.等(IEEE Trans.on PAMI，1998，pp.1254-259)的显著性模型，而(IEEECVPR’05 pp631-637)中提出的视频“意外”(surprising)作为动态显著性。实验现实，本发明所用的基准方法(a)相比较基准方法(b)和(c)，平均性能在F测度上提高了28％和31％，在边缘替代错误上减低了31％和43％。在加入时间连续性约束后，平均性能在F测度上提高了4％，在边缘替代错误上减低了8％。进一步加入全局主题模型以后，F测度再次提高37％，而边缘替代错误降低了50％。可以看到本发明所提的方法在性能上明显超过了当前的视频注意力检测算法。

参照图11所示，本发明提出的方法在图1中所示视频序列中的显著物体自动检测结果。可以看到，本发明所提的算法能够捕获住视频中的显著物体。

Claims

1、基于学习的视频中显著物体序列自动检测方法，其特征在于，包括以下步骤：

计算动态显著性特征方法如下：

采用对每个像素点在多尺度上利用Simoncelli滤波器来计算运动场M，对运动场进行加权，加权权值计算如下：W(x，M)＝exp(-ε_c‖V(x，M)‖²)，其中ε_c＝0.2，V(x，M)是来自像素点x周围5×5的窗口内运动场的标准方差；

加权多尺度对比度：

f_{M_{c}} (x, M) = Σ_{l = 1}^{L} Σ_{x^{'} &Element; N (x)} W_{x}^{l} W_{x^{'}}^{l} {| | M^{l} (x) - M^{l} (x^{'}) | |}^{2},

加权中间-周围直方图：

f_{M_{h}} (x, M) &Proportional; Σ_{{x^{'} | x &Element; R_{M}^{*} (x^{'})}} w_{{xx}^{'}} W_{x^{'}} χ^{2} (R_{M}^{*} (x^{'}), R_{M_{s}}^{*} (x^{'})),

加权运动场空间分布

f_{M_{s}} (x, M) &Proportional; Σ_{m} W_{x} p (m | M_{x}) (1 - V (m)),

F_{M} (x) = Σ_{k} λ_{k} f_{M_{k}} (x, M)

F_{Mt} (x) = \frac{S_{t}}{S_{t} + S_{t - 1}} F_{Mt} (x) + \frac{S_{t - 1}}{S_{t} + S_{t - 1}} F_{Mt - 1} (x),

这里S_t定义为权重，计算如下：

S_{t} = \frac{1 - \exp (- β_{s} D_{F_{M}})}{1 + \exp (- β_{s} D_{F_{M}})},

其中β_s＝0.1，定义了

两个5×5的窗口区域里显著性的最大差，定义如下：

D_{F_{M}} {= \max}_{x} Σ_{x^{'} &Element; N (x)} | | F_{M_{t}} (x^{'}) | | - mi n_{x} Σ_{x^{'} &Element; N (x)} | | F_{M_{t}} (x^{'}) | |,

其中N(x)表明5×5的窗口邻域；

将自适应平滑后的动态显著性和静态显著性自适应组合起来构成最终的显著性约束：

F_{t} (x) = F_{St} + \overset{&OverBar;}{S_{t}} \times F_{Mt} (x),

其中S_t为平滑的运动场显著性上重新计算的运动显著的权重，从定义中可以看到S_t∈[0，1]；

3)计算每帧图像中的空间连续性，具体方法如下：

S_{C_{t}} (A_{t}, I_{t}) = λ_{S} Σ_{x, x^{'}} δ (a_{x^{'}} &NotEqual; a_{x}) D_{E_{t}} (x, I_{t}),

这里

D_{E_{t}} (x, I_{t}) &Element; [0,1]

表示像素点x到图像边缘的归一化距离，

λ_{s} = \frac{0.1 \times W \times H}{| L_{t} |},

T_{C_{t}} (A_{t, t + 1}, I_{t, t + 1}) = β_{1} S (A_{t}, A_{t + 1}) + β_{2} χ^{2} (A_{t}, A_{t + 1}),

其中

S (A_{t}, A_{t + 1}) {= Σ}_{{a_{x_{t}}, a_{x_{t} + 1},}} | | a_{x_{t}} - a_{x_{t + 1}}, | |

β_{1} = \frac{0.5 \times W \times H}{W + H},

β₂＝0.01为权值以保持与其它能量项的平衡；

G_{t} (A_{t}) = Σ_{x &Element; A_{t}} \frac{H_{B} (b_{x})}{H_{F} (b_{x}) + H_{B} (b_{x})} + Σ_{x &NotElement; A_{t}} \frac{H_{F} (b_{x})}{H_{F} (b_{x}) + H_{B} (b_{x})},

其中b_x为像素点x的颜色直方图值；

P (A_{1 . . . T} | I_{1 . . . T}) = \frac{1}{Z} \exp (- \underset{t}{Σ} E_{t} (A_{t} | I_{1 . . . T}, A_{t^{'} &NotEqual; t})),

A_{1 . . . T}^{*} = \arg \min_{A_{1 . . . T}} \underset{t}{Σ} E_{t} (A_{t} | I_{1 . . . T}, A_{t^{'} &NotEqual; t}) - - - (1)

F_t为显著性约束，为空间连续性，

为时间连续性，G_t为全局主题模型；

S_{t + 1} (A_{t + 1}) = \arg \min_{U_{t}} S_{t} (A_{t}) + E_{t} (A_{t}) - - - (3)