CN107749066A

CN107749066A - 一种基于区域的多尺度时空视觉显著性检测方法

Info

Publication number: CN107749066A
Application number: CN201711106408.7A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-03-02

Abstract

本发明中提出的一种基于区域的多尺度时空视觉显著性检测方法，其主要内容包括：多尺度视频分割和空间显著性实体构建，其过程为，先执行时间超像素模型，将视频分割成各种尺度级别的时空区域，接着提取在每个尺度级别的运动信息及每个帧的特征并构建特征映射，将特征映射相结合，为每个尺度级别的区域生成空间显著实体，然后对每个区域单独使用自适应时间窗口平滑显著性值，纳入时间一致性形成时空显著实体跨框架，最后通过融合多尺度时空显著实体为每个帧生成时空显著图。本发明克服了使用固定数量的参考帧的限制，同时引入自适应时间窗口的新型度量，可以在视频中保持每个实体的连续帧之间的时间一致性，减少帧之间目标的波动。

Description

一种基于区域的多尺度时空视觉显著性检测方法

技术领域

本发明涉及视觉显著性检测领域，尤其是涉及了一种基于区域的多尺度时空视觉显著性检测方法。

背景技术

在互联网通信技术与多媒体处理技术飞速发展的今天，数字图像与食品已逐渐成为信息的主要载体。面对海量的图像与视频，与数据增长相匹配的图像处理技术已成为迫切需要。在图像的预处理阶段，通过视觉显著性检测可以减少甚至避免人工参与，自动或自适应地实现如图像分割、场景分类、目标识别等任务。视觉显著性机制保证了人眼对视觉信息处理的高效性。目前对视觉显著性检测的研究已经成为近几年机器视觉领域的热门方向，其研究成果已经广泛应用于图像压缩、图像检索、图像编辑、场景分类目标识别等多个领域，具体应用包括濒危动物或目标动植物活动或生长的实时监测，对公共交通、道路实况的检测，甚至是目标人物的行为动作的检测。现有的技术中，有时会难以将目标与背景区分开，当目标移动时，背景运动也随着目标的速度和方向变化而变化，从而导致帧之间的目标出现波动。

本发明提出了一种基于区域的多尺度时空视觉显著性检测方法，先执行时间超像素模型，将视频分割成各种尺度级别的时空区域，接着提取在每个尺度级别的运动信息及每个帧的特征并构建特征映射，将特征映射相结合，为每个尺度级别的区域生成空间显著实体，然后对每个区域单独使用自适应时间窗口平滑显著性值，纳入时间一致性形成时空显著实体跨框架，最后通过融合多尺度时空显著实体为每个帧生成时空显著图。本发明克服了使用固定数量的参考帧的限制，同时引入自适应时间窗口的新型度量，可以在视频中保持每个实体的连续帧之间的时间一致性，减少帧之间目标的波动。

发明内容

针对难以将目标与背景区分开的问题，本发明的目的在于提供一种基于区域的多尺度时空视觉显著性检测方法，先执行时间超像素模型，将视频分割成各种尺度级别的时空区域，接着提取在每个尺度级别的运动信息及每个帧的特征并构建特征映射，将特征映射相结合，为每个尺度级别的区域生成空间显著实体，然后对每个区域单独使用自适应时间窗口平滑显著性值，纳入时间一致性形成时空显著实体跨框架，最后通过融合多尺度时空显著实体为每个帧生成时空显著图。

为解决上述问题，本发明提供一种基于区域的多尺度时空视觉显著性检测方法，其主要内容包括：

(一)多尺度视频分割；

(二)空间显著性实体构建。

其中，所述的多尺度时空视觉显著性检测方法，通过将静态特征与动态特征相结合来检测视频中的突出区域，其中从区域检测到特征；该方法首先执行时间超像素模型，将视频分割成各种尺度级别的时空区域；提取在每个尺度级别的运动信息及每个帧的特征；从这些特征中构建特征映射，包括两个低级特征映射，呈现区域之间的对比；中层特征映射呈现区域内的属性；将这两种特征映射相结合，为每个尺度级别的区域生成空间显著实体；通过对每个区域单独使用自适应时间窗口(ATW)来平滑显著性值，将时间一致性纳入空间显著实体，形成时空显著实体跨框架；最后，通过融合其多尺度时空显著实体，为每个帧生成时空显著图。

其中，所述的多尺度视频分割，多尺度分割能够分析来自多个结构级别的显著性线索，处理复杂的突出结构；它可以将一个视频分成三个级别；每个分割级别具有不同数量的超像素，被定义为非重叠区域；采用时间超像素的方法分割视频，它是基于多帧的超像素分割；时间超像素法利用与运动模型组合的空间强度高斯混合模型(GMM)，作为下一帧的先验；运动信息是用来在帧中传播超像素，减少一个单帧并生成超像素；分割之后可以获得多尺度时间超像素；通过每一个尺度处理跨框架之间的连接，从而预测运动的超像素在帧的位置。

其中，所述的空间显著性实体构建，空间显著性实体构建包括低级特征映射、中级特征映射、特征映射组合和结合时间一致性。

进一步地，所述的低级特征映射，为了估计视频中区域的吸引力，通常使用对比度来评估每个帧中元素的灵敏度；对比度通常基于低级别的特征，包括静态信息，如颜色、强度、纹理，以及动态信息，如运动的大小或方向；

其中，γ,λ,σ,和θ的参数如下：γ＝0.05称为空间长宽比，其指定Gabor函数的支持的椭圆度的常数；λ＝8表示Gabor滤波器内核的余弦因子的波长和Gabor函数的优选波长；σ是Gabor函数的高斯因子的标准偏差，其中σ/λ确定空间频率带宽；固定σ＝0.56λ对应于带宽，对应于的bω＝1；表示确定Gabor函数对称滤波器的相位偏移；使用两个滤波器组的正交对，包括奇数滤波器和一个偶数滤波器角度参数θ指定Gabor函数的平行带的法线方向；用作为八个方向，其中k∈{0,1,…,7}，然后量化为16位二进制；

由于人类视觉系统对运动物体比对静止物体更敏感，所以在相同分割级别的区域之间动态特征也进行了比较；像素式光流用于分析连续帧之间的运动；区域运动特征可通过计算该区域中的流量信息的分布来获得。

进一步地，所述的区域之间动态特征，区域的动态分布r_j,l在两个描述符中编码：是流量大小的归一化分布，是流向的归一化直方图；将和统一为16位和9位二进制；

在具有不同权重因子的分割模型中，每个区域的低级特征映射被认为是在相同比例级别的其他邻近区域的特征距离的总和：

其中，是两个直方图的卡方距离；lf∈{lf_col,lf_lig,lf_fori,lf_mag,lf_fori}表示具有相应权重的五个特征之一，ω_lf∈{0.4,0.1,0.1,0.2,0.2}；|r_j,l|代表与区域r_j,l的对比权重，这是其大小和帧大小的比例；像素较多的区域比像素数量较少的区域贡献更高的对比权重因子；

其中，D(r_i,l,r_j,l)是区域中心的欧几里得距离，参数σ_sp-dst＝0.2控制邻近区域的大小；最终，标准范围为[0,1]。

进一步地，所述的中级特征映射，除了区域之间的对比之外，还根据中级特征计算每个区域的属性；中级特征基于中心偏差、客观性、背景先验和移动度量；人眼跟踪研究表明，观看视频时，人的注意力倾向于自然场景的中心；因此，屏幕中心附近的像素在许多情况下可能会比较重要；中心偏差定义为：

其中，|r_i,l|代表在区域r_i,l中的像素以及为从每个像素p_j至图像中心点p_jσ_cen＝0.3是参数；目标检测器特征定义如下：

其中，o_j是区域r_j,l中的像素目标图；目标映射提供了目标位置的有意义的分布，展示了在像素处包含目标的概率。

进一步地，所述的目标，目标提示在贝叶斯框架中结合：

其中，A＝{MS,CC,ED,SS}代表目标提示，p^(j)(·)是p^(j)的概率；p(obj)和p(bg)是优先提示，p(cue|c)为独立提示可能性和c∈{obj,bg}从训练数据中估计；这个构成了重叠区域的客观评分；

为了计算每个区域的背景概率，通过连接所有相邻区域并将其权重楔形分配为空间中其平均颜色之间的欧氏距离，将每个分割图像构建为无向加权图；区域的背景特征写为：

其中，BndCon²(r_i,j)是区域r_i,j的边界连通性；设参数σ_bgr＝1；区域r_i,j的边界连通性用沿其边界到其展开面积平方根的长度之比来进行计算：

其中，为区域r_j,l的长度，并以其计算为与其相同尺度上的边界上的测地距离与边界上的区域的总和；SpanArea(r_j,l)是跨度面积是从它到同一尺度的帧的所有区域的测地距离之和计算出来的；任意两个区域之间的测地距离被定义为图中最短路径上的累积边权重：

此外，为了编码目标的运动，捕捉任何速度突然变化的区域运动；一个区域运动的计算是从光学流计算其平均运动幅度值：

其中，m_j是区域r_j,l内所有像素的运动幅度；该区域里的中层特征映射，计算不同权重因子，其属性值的总和：

其中，mf∈{mf_cen,mf_obj,mf_bgr,mf_mov}表示四个特征之一，具有相应的权重因子ω_mf∈{0.15,0.05,0.4,0.4}；最后归一化至[0,1]的范围。

进一步地，所述的特征映射组合，将低级特征映射和中级特征映射相结合，通过加权乘法积分分别获得所有分割级别的初始空间显著性实体：

其中，参数α控制控制低级特征映射和中级特征映射之间的此消彼长；为了将低级特征映射和中级特征映射平等的加权，设α＝0.5；最后，空间显著实体线性归一化到固定范围[0,1]，以保证值为1的区域是显著性的最大值。

进一步地，所述的在时域中自适应地使用滑动窗口，时间窗口(ATW)用于通过利用该区域中的运动信息来捕获每帧的每个区域的速度变化；使用高斯组合权重将当前帧的每个尺度级的空间显著实体与相邻帧的空间显著实体组合，其中，较近的帧具有较大的权重：

其中，Ψ是归一化因子，在帧t与相应的权重中，测量区域r_i,l的空间显着性实体；D(t,t′)表示两帧之间的时间差，参数控制前一帧的区域大小；控制参与帧的数量，表示为：

其中，M＝10和λ＝2都是参数；是每个区域的运动分布的系数变化测量；和是在帧t中区域运动分布的标准偏差；为了计算区域运动分布，首先使用像素方向的光流来计算帧中每个像素的运动幅度，然后利用每个区域的运动幅度分布。

附图说明

图1是本发明一种基于区域的多尺度时空视觉显著性检测方法的系统框架图。

图2是本发明一种基于区域的多尺度时空视觉显著性检测方法的流程示意图。

图3是本发明一种基于区域的多尺度时空视觉显著性检测方法的特征映射组合。

图4是本发明一种基于区域的多尺度时空视觉显著性检测方法的结合时间一致性。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于区域的多尺度时空视觉显著性检测方法的系统框架图。主要包括多尺度视频分割和空间显著性实体构建。

多尺度时空视觉显著性检测方法通过将静态特征与动态特征相结合来检测视频中的突出区域，其中从区域检测到特征；该方法首先执行时间超像素模型，将视频分割成各种尺度级别的时空区域；提取在每个尺度级别的运动信息及每个帧的特征；从这些特征中构建特征映射，包括两个低级特征映射，呈现区域之间的对比；中层特征映射呈现区域内的属性；将这两种特征映射相结合，为每个尺度级别的区域生成空间显著实体；通过对每个区域单独使用自适应时间窗口(ATW)来平滑显著性值，将时间一致性纳入空间显著实体，形成时空显著实体跨框架；最后，通过融合其多尺度时空显著实体，为每个帧生成时空显著图。

多尺度分割能够分析来自多个结构级别的显著性线索，处理复杂的突出结构；它可以将一个视频分成三个级别；每个分割级别具有不同数量的超像素，被定义为非重叠区域；采用时间超像素的方法分割视频，它是基于多帧的超像素分割；时间超像素法利用与运动模型组合的空间强度高斯混合模型(GMM)，作为下一帧的先验；运动信息是用来在帧中传播超像素，减少一个单帧并生成超像素；分割之后可以获得多尺度时间超像素；通过每一个尺度处理跨框架之间的连接，从而预测运动的超像素在帧的位置。

空间显著性实体构建包括低级特征映射、中级特征映射、特征映射组合和结合时间一致性。

低级特征映射，为了估计视频中区域的吸引力，通常使用对比度来评估每个帧中元素的灵敏度；对比度通常基于低级别的特征，包括静态信息，如颜色、强度、纹理，以及动态信息，如运动的大小或方向；

区域的动态分布r_j,l在两个描述符中编码：是流量大小的归一化分布，是流向的归一化直方图；将和统一为16位和9位二进制；

中级特征映射，除了区域之间的对比之外，还根据中级特征计算每个区域的属性；中级特征基于中心偏差、客观性、背景先验和移动度量；人眼跟踪研究表明，观看视频时，人的注意力倾向于自然场景的中心；因此，屏幕中心附近的像素在许多情况下可能会比较重要；中心偏差定义为：

目标提示在贝叶斯框架中结合：

图2是本发明一种基于区域的多尺度时空视觉显著性检测方法的流程示意图。先执行时间超像素模型，将视频分割成各种尺度级别的时空区域，接着提取在每个尺度级别的运动信息及每个帧的特征并构建特征映射，将特征映射相结合，为每个尺度级别的区域生成空间显著实体，然后对每个区域单独使用自适应时间窗口平滑显著性值，纳入时间一致性形成时空显著实体跨框架，最后通过融合多尺度时空显著实体为每个帧生成时空显著图。

图3是本发明一种基于区域的多尺度时空视觉显著性检测方法的特征映射组合。将低级特征映射和中级特征映射相结合，通过加权乘法积分分别获得所有分割级别的初始空间显著性实体：

图4是本发明一种基于区域的多尺度时空视觉显著性检测方法的结合时间一致性。在时域中自适应地使用滑动窗口，时间窗口(ATW)用于通过利用该区域中的运动信息来捕获每帧的每个区域的速度变化；使用高斯组合权重将当前帧的每个尺度级的空间显著实体与相邻帧的空间显著实体组合，其中，较近的帧具有较大的权重：

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于区域的多尺度时空视觉显著性检测方法，其特征在于，主要包括多尺度视频分割(一)；空间显著性实体构建(二)。

2.基于权利要求书1所述的多尺度时空视觉显著性检测方法，其特征在于，通过将静态特征与动态特征相结合来检测视频中的突出区域，其中从区域检测到特征；该方法首先执行时间超像素模型，将视频分割成各种尺度级别的时空区域；提取在每个尺度级别的运动信息及每个帧的特征；从这些特征中构建特征映射，包括两个低级特征映射，呈现区域之间的对比；中层特征映射呈现区域内的属性；将这两种特征映射相结合，为每个尺度级别的区域生成空间显著实体；通过对每个区域单独使用自适应时间窗口(ATW)来平滑显著性值，将时间一致性纳入空间显著实体，形成时空显著实体跨框架；最后，通过融合其多尺度时空显著实体，为每个帧生成时空显著图。

3.基于权利要求书1所述的多尺度视频分割(一)，其特征在于，多尺度分割能够分析来自多个结构级别的显著性线索，处理复杂的突出结构；它可以将一个视频分成三个级别；每个分割级别具有不同数量的超像素，被定义为非重叠区域；采用时间超像素的方法分割视频，它是基于多帧的超像素分割；时间超像素法利用与运动模型组合的空间强度高斯混合模型(GMM)，作为下一帧的先验；运动信息是用来在帧中传播超像素，减少一个单帧并生成超像素；分割之后可以获得多尺度时间超像素；通过每一个尺度处理跨框架之间的连接，从而预测运动的超像素在帧的位置。

4.基于权利要求书1所述的空间显著性实体构建(二)，其特征在于，空间显著性实体构建包括低级特征映射、中级特征映射、特征映射组合和结合时间一致性。

5.基于权利要求书4所述的低级特征映射，其特征在于，为了估计视频中区域的吸引力，通常使用对比度来评估每个帧中元素的灵敏度；对比度通常基于低级别的特征，包括静态信息，如颜色、强度、纹理，以及动态信息，如运动的大小或方向；

6.基于权利要求书5所述的区域之间动态特征，其特征在于，区域的动态分布r_j,l在两个描述符中编码：是流量大小的归一化分布，是流向的归一化直方图；将和统一为16位和9位二进制；

<mrow> <msub> <mi>S</mi> <mrow> <msub> <mi>lf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mi>f</mi> </mrow> </munder> <msub> <mi>&omega;</mi> <mrow> <mi>l</mi> <mi>f</mi> </mrow> </msub> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </munder> <mo>|</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>|</mo> <mi>&omega;</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mtable> <mtr> <mtd> <mrow> <mi>l</mi> <mi>f</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>X</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mtd> </mtr> </mtable> <mo>-</mo> <mtable> <mtr> <mtd> <mrow> <mi>l</mi> <mi>f</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>X</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mtd> </mtr> </mtable> <mo>|</mo> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>&omega;</mi> <mo>(</mo> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>=</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>D</mi> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <msubsup> <mi>&sigma;</mi> <mrow> <mi>s</mi> <mi>p</mi> <mo>-</mo> <mi>d</mi> <mi>s</mi> <mi>t</mi> </mrow> <mn>2</mn> </msubsup> </mfrac> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

7.基于权利要求书4所述的中级特征映射，其特征在于，除了区域之间的对比之外，还根据中级特征计算每个区域的属性；中级特征基于中心偏差、客观性、背景先验和移动度量；人眼跟踪研究表明，观看视频时，人的注意力倾向于自然场景的中心；因此，屏幕中心附近的像素在许多情况下可能会比较重要；中心偏差定义为：

<mrow> <msup> <msub> <mi>X</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mrow> <msub> <mi>mf</mi> <mrow> <mi>c</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> </mrow> </msup> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow> </munder> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>D</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>,</mo> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <msubsup> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>e</mi> <mi>n</mi> </mrow> <mn>2</mn> </msubsup> </mfrac> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中，|r_i，l|代表在区域r_i，l中的像素以及为从每个像素p_j至图像中心点p_jσ_cen＝0.3是参数；目标检测器特征定义如下：

<mrow> <msubsup> <mi>X</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> <mrow> <msub> <mi>fob</mi> <mi>j</mi> </msub> </mrow> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow> </munder> <msub> <mi>o</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

8.基于权利要求书7所述的目标，其特征在于，目标提示在贝叶斯框架中结合：

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>o</mi> <mi>j</mi> </msub> <mo>=</mo> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> <mo>|</mo> <mi>A</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>|</mo> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> <mo>)</mo> </mrow> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> <mo>)</mo> </mrow> <msub> <mi>&Pi;</mi> <mrow> <mi>c</mi> <mi>u</mi> <mi>e</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </msub> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mrow> <mi>c</mi> <mi>u</mi> <mi>e</mi> <mo>|</mo> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>c</mi> <mo>&Element;</mo> <mrow> <mo>{</mo> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> <mo>,</mo> <mi>b</mi> <mi>g</mi> <mi>r</mi> </mrow> <mo>}</mo> </mrow> </mrow> </msub> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <msub> <mi>&Pi;</mi> <mrow> <mi>c</mi> <mi>u</mi> <mi>e</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </msub> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mrow> <mi>c</mi> <mi>u</mi> <mi>e</mi> <mo>|</mo> <mi>c</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msup> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mrow> <msub> <mi>mf</mi> <mrow> <mi>b</mi> <mi>g</mi> <mi>r</mi> </mrow> </msub> </mrow> </msup> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <msup> <mi>BndCon</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <msubsup> <mi>&sigma;</mi> <mrow> <mi>b</mi> <mi>g</mi> <mi>r</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>d</mi> <mrow> <mi>g</mi> <mi>e</mi> <mi>o</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>min</mi> <mrow> <msub> <mi>r</mi> <mrow> <mn>1</mn> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mn>2</mn> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>r</mi> <mi>n</mi> </msub> <mo>=</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>,</mo> </mrow> </msub> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>&omega;</mi> <mrow> <mi>e</mi> <mi>d</mi> <mi>g</mi> <mi>e</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>,</mo> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>X</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> <msub> <mi>f</mi> <mrow> <mi>m</mi> <mi>o</mi> <mi>v</mi> </mrow> </msub> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow> </munder> <msub> <mi>m</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>S</mi> <mrow> <msub> <mi>mf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mi>f</mi> </mrow> </munder> <msub> <mi>&omega;</mi> <mrow> <mi>m</mi> <mi>f</mi> </mrow> </msub> <msubsup> <mi>X</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> <mrow> <mi>m</mi> <mi>f</mi> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

9.基于权利要求书4所述的特征映射组合，其特征在于，将低级特征映射和中级特征映射相结合，通过加权乘法积分分别获得所有分割级别的初始空间显著性实体：

<mrow> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>S</mi> <mrow> <msub> <mi>lf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow> <mi>&alpha;</mi> </msubsup> <msubsup> <mi>S</mi> <mrow> <msub> <mi>mf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

10.基于权利要求书4所述的结合时间一致性，其特征在于，在时域中自适应地使用滑动窗口，时间窗口(ATW)用于通过利用该区域中的运动信息来捕获每帧的每个区域的速度变化；使用高斯组合权重将当前帧的每个尺度级的空间显著实体与相邻帧的空间显著实体组合，其中，较近的帧具有较大的权重：

<mrow> <msubsup> <mover> <mi>S</mi> <mo>~</mo> </mover> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mi>&Psi;</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mi>t</mi> <mo>-</mo> <msubsup> <mi>&Phi;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> <mi>t</mi> </msubsup> </mrow> <mi>t</mi> </munderover> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>D</mi> <msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msup> <msubsup> <mi>&Phi;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> <mi>t</mi> </msubsup> <mn>2</mn> </msup> <msubsup> <mi>&sigma;</mi> <mrow> <mi>t</mi> <mi>p</mi> <mo>-</mo> <mi>d</mi> <mi>s</mi> <mi>t</mi> </mrow> <mn>2</mn> </msubsup> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> <mrow> <mi>t</mi> <mo>&prime;</mo> </mrow> </msubsup> </mrow> </mfrac> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>&Phi;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <msup> <mi>Me</mi> <mrow> <mo>-</mo> <msubsup> <mi>&mu;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> <mfrac> <mi>&lambda;</mi> <msubsup> <mi>&beta;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>l</mi> </mrow> <mi>t</mi> </msubsup> </mfrac> </mrow> <mi>t</mi> </msubsup> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>