CN1945628A

CN1945628A - 一种基于时空显著单元的视频内容表示方法

Info

Publication number: CN1945628A
Application number: CNA2006101139093A
Authority: CN
Inventors: 须德; 郎丛妍; 杨旭
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2006-10-20
Filing date: 2006-10-20
Publication date: 2007-04-11

Abstract

本发明公开了一种基于时空显著单元的视频内容表示方法，是以生物视觉的注意力机制为基础，通过模糊信息粒化方法将原特征空间映射到模糊信息粒特征空间，可以更有效地实现视觉信息的显著性分析，提取符合视觉感知特点的显著区域作为子单元的时域一致性分析主体；在此基础上，根据显著区域和背景区域对内容描述的不同影响程度，进行子单元的合并，从而得到具有时空内容一致性的时空显著单元。实验结果验证了本发明提取的时空显著单元作为视频内容表示模式的有效性和语义表征性。

Description

一种基于时空显著单元的视频内容表示方法

技术领域

本发明涉及一种基于时空显著单元的视频内容表示方法，属于视频内容分析和检索技术领域。

背景技术

用户对视频信息的描述和理解主要是在语义层次进行的，如何表示视频内容，使其尽可能与人对视频内容的理解一致，是视频内容表示关键所在，也是其难点所在。从时间轴上看，视频包含的视觉信息是由一系列连续的图像帧构成的图像序列，视频时域分割的任务是把这个集合分成时域相邻的子片段集合。目前，对于视频时域分割的主要工作是基于摄像机操作或视频编辑中的语法内容的不连续性，这就是视频结构化的主要研究内容。镜头是视频序列的物理单元，所以大部分的视频时域分割的研究旨在检测镜头边界，将连续视频序列分割为镜头。但是，镜头级的时域分割还不能满足基于内容的访问，其原因在于：第一，镜头是视频序列的物理单元，其时域边界通常不符合人感知过程的分割，不能作为一个基本的语义单元；第二，镜头只是原序列的时域分割单元，没有对空域信息进行分析。它是一系列时域相邻帧的集合，基于帧的全局描述不能很好的表征视频的语义内容。因此，从内容表示的有效性来讲，镜头级的分割还不能满足基于内容的访问，需要对其进一步提取具有语义表征性的内容模式。

镜头语义内容表示的核心技术就是对图像帧序列进行时空域分割，提取出具有一定内容表征能力的内容单元。镜头内时域分割的一种方法是基于全局视觉特征的帧差，通过计算连续帧之间的内容差异，检测出内容变化点将镜头分割为一系列子镜头。由于划分子镜头是基于图像帧的全局特征描述，两个内容不同的图像帧可能具有相似的全局特征，因此，这类方法确定的子镜头语义表征能力差，通常作为镜头的一个粗分割。运动信息是视频分析的一个重要视觉线索，Zhu等人[Zhu X Q，ElmagarmidA K et al.IEEE Trans.on Multimedia.Aug.2005.7(4)：648-666.]利用运动矢量将镜头内的摄像机运动进行分类，用摄像机运动确定内容变化边界，从而将镜头根据摄像机运动类别分解成若干子镜头。显然，仅用全局运动模式来提取的子镜头仅仅表达了运动信息的变化，没有反映出视觉内容的变化，不能很好地反映人的视觉感知特点。语义对象是实现内容表示的一个理想的解决方法。然而，自然场景中的对象提取和跟踪仍然面临着许多困难，如对象的遮挡和形变、背景干扰以及运动估计等，所以还不能全自动实现视频对象提取。鉴于目前的技术现状以及人类视觉系统对运动信息的敏感性，研究较多的是运动对象的提取[Zhong D，Chang S F.In Proc.of Int.Conf.on Image Processing(ICIP’01)，Oct.2001，2：57-60.]。运动对象是相对于静止背景具有运动一致性的物体，通过增加运动信息作为约束条件，减少了提取对象过程的人机交互操作。然而，从内容表示模式的需求分析，基于运动信息的视频分割作为内容表示有以下几点不足：

(1)视频序列中用户关注的主要内容部分不一定具有相似运动模式；

(2)具有相似的运动区域不一定具有高的内容表征性；

(3)用运动对象来表示视频序列的内容在特定的应用中是一种有效的内容表示模式，如体育视频中的运动轨迹分析等。但这种表示方式缺乏通用性，对运动信息区分性不大的视频序列不能有效地实现内容表示。

发明内容

本发明针对现有的视频序列内容表示方法存在的缺陷，提出一种基于时空显著单元的视频内容表示方法。本发明中提取的显著区域是在浏览过程中得到视觉注意程度高的区域，因此，显著区域可作为主体的一种内容模式，其连续性分析就是体现了主体连续性分析过程。基于这种考虑，本发明中的内容表示方法是在显著区域提取的基础上，通过对显著区域视觉特征的连续性分析，得到满足连续性条件的时空显著单元。由于连续性分析的对象是显著区域，因此，从视觉感知的角度，保持连续性显著区域的集合是具有感知特点的基本语义单元。

本发明的目的是通过如下技术方案实现的。其包括如下步骤：

(1)首先将视频序列按照长度L(L＝5帧)的时间窗进行时域分割，时间窗内的视频帧集合构成一个子单元，原视频序列分割为子单元序列；

(2)对子单元首帧根据颜色信息进行同质区域分割；以分割后的同质区域为单位，提取视频帧的可计算特征集合；并将可计算特征空间映射到模糊信息粒特征空间；

(3)通过考察显著区域和非显著区域两类特征分布，将区域分类为显著区域和非显著区域；

(4)在子单元包含的帧序列中，通过对子单元首帧提取的显著区域进行区域跟踪，得到该单元后续帧的显著区域；从而将子单元的每个图像帧分割为显著区域和非显著区域(背景区域)；

(5)分别提取子单元显著区域和非显著区域两部分的内容描述子。通过考察子单元的内容连续性，将具有相似内容的子单元进行合并，从而合并后的子单元所包含的显著区域集合形成了具有时空特征一致性的显著区域集合，即时空显著单元。提取的时空显著单元为高层视频应用提供了一种有效的视频内容表示模式。

在上述方法的步骤(2)中，提取视频帧的可计算特征集合是对每个子单元的首帧以分割后的同质区域为单位，提取亮度对比度、纹理、位置、形状和运动特征，构成5维特征向量。考虑到显著程度的主观性和模糊性，我们提出一种模糊粒化算法将原特征空间映射到粒化特征空间，作为显著区域分类器的输入。

在上述方法的步骤(3)中采用朴素贝叶斯分类器实现对显著区域的分类。分类目的是对每帧的区域根据其显著度分配显著值，提取显著度高的区域。在

上述方法的步骤(4)中，首先根据当前帧显著区域的位置，确定后续帧显著区域的搜索范围，在图像帧的搜索范围内，根据像素点和前一帧显著区域的相似度确定该帧显著区域。针对显著区域在后续跟踪过程中可能出现多匹配情况，通过(K-S)检验确定多个匹配区域是否进行合并。

在上述方法的步骤(5)中，分别对子单元的显著区域和背景区域两部分提取内容描述子，显著区域部分采用颜色、纹理和运动信息作为内容描述子，背景区域部分采用主颜色作为内容描述子，子单元的采用Kullback-Leibler(KL)距离。

本发明的效果在于：采用本发明所述的基于时空显著单元的内容表示方法，可以更好地符合人的视觉感知特点，且对于视频类型没有约束，所以具有很好的通用性，为高层视频内容分析应用提供一个有效的内容表示模式。本发明以生物视觉的注意力机制为基础，通过模糊信息粒化方法将原特征空间映射到模糊信息粒特征空间，可以更为有效地实现视觉信息的显著性分析，从而提取符合视觉感知特点的显著区域作为子单元的时域一致性分析主体；在此基础上，根据显著区域和背景区域对内容描述的不同影响程度，进行子单元的合并，得到具有时空内容一致性的时空显著单元。实验结果验证了本发明提取的时空显著单元用以作为视频内容表示模式的有效性和语义表征性。

附图说明

图1是本发明基于时空显著单元的内容表示方法的流程示意图；

图2是本发明所述方法步骤(3)中子单元首帧显著区域提取结果示意图；

图3是本发明所述方法步骤(4)中一个子单元的显著区域集合提取结果示意图；

图4(a)是基于全局直方图表示方法的匹配结果，(b)是本发明所述方法的匹配结果。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步描述。如图1所示，基于时空显著单元的视频内容表示方法，其包括以下步骤：

1.预处理——同质区域分割

首先将视频帧进行颜色同质区域分割，以分割后的同质区域为单位分析显著度。采用均值漂移聚类方法实现颜色同质区域的划分，颜色特征为LUV空间的三个分量值。由于同质区域的划分是显著区域提取的第一步，所以为了避免日后丢失显著区域，运用均值漂移聚类时，选取的参数偏于过分割，在下一步显著度分析中，属于同一个显著区域的同质区域可以进行合并处理，这样就能消除过分割的影响。

2.特征提取以及模糊粒化

对分割后的同质区域提取亮度对比度、纹理、位置、形状和运动特征，构成5维特征向量；考虑到显著程度的主观性和模糊性，我们提出一种模糊粒化算法将原特征空间映射到粒化特征空间，作为显著性分析的输入。虽然粒化过程相对于提取的原始特征维数有所增加，但减少了特征间的依赖关系，从而采用朴素贝叶斯分类器可以实现显著区域的提取。为了使粒化后的特征能更好地反映问题的本质，应使粒化过程结合应用相关的分类性能因素。由此我们提出的一种类相关特征粒化算法结合分类目标和数据分布两方面确定隶属函数，从而不仅能反映数据分布特性，而且可以从分类目标角度对不同的特征分别建立使分类达到最优的隶属函数，从而进一步简化分类计算、提高分类器性能。具体粒化算法步骤如下：

输入：n维初始特征：F＝{f₁，f₂，…，f₃}；

输出：模糊粒化特征

G = {g_{11}, . . ., g_{1 m_{1}}; . . .; g_{n 1}, . . ., g_{{nm}_{n}}},

m_i表示第i维特征粒化后对应的模糊集合个数；

步骤：

(1)估计每个特征分布的局部最大值(采用均值漂移聚类算法，其带宽参数选择为特征分布的方差)，局部最大点为初始隶属函数中心点；初始隶属函数个数为局部最大点个数；

(2)对每个隶属函数，其参数在相邻两个中心点的值范围内采用穷尽式搜索，使性能指标Q最大所对应的隶属函数确定为初始隶属函数；性能指标Q按如下公式计算：

Q = E (\tilde{A}) / Sp (\tilde{A})

E (A) = \underset{x &Element; X}{Σ} | A (x) |^{2}, Sp (\tilde{A}) = Card (supp (\tilde{A}))

(3)计算任意两个隶属函数的贴近度N_L：

N_{L} (A_{1}, A_{2}) = e^{- {(\frac{m_{2} - m_{1}}{σ_{2} - σ_{1}})}^{2}};

(4)计算粒化特征集合对应的判别熵W(p_A，p_B)：

W(p_A，p_B)＝D(p_A，p_B)+D(p_B，p_A)

D (P_{A}, P_{B}) = \underset{x &Element; &Kgr;}{Σ} p_{A} \log (\frac{p_{A}}{P_{B}})

其中，p_A＝p(C_SR|G_i) p_B＝p(C_BR|G_i)。判别熵的计算需要确定三个密度P(C_SR)，P(G_i|C_SR)，P(G_i|C_BR)，对给定的训练集，假设P(C_SR)＝P(C_BR)，类条件密度可以从训练集中估计得到，对训练样本的每个特征计算m_i个直方条的模糊直方图，每个直方条的取值通过对属于同一类中样本的隶属度求和计算：

His {(G_{i})}_{j} = \underset{x &Element; C_{k}}{Σ} μ_{ij} (x) j = 1, . . ., m_{i}

其中，μ_ij(x)表示模糊集合g_ij中特征点x的隶属度，类条件密度通过归一化后的直方图得到。

(5)当隶属函数个数≤G_min(确定最小模糊粒数G_min＝3)时转(7)；

(6)对最大贴近度的两个隶属函数进行以下合并操作：

μ_{\tilde{A} \cup \tilde{B}} (x) = \max [μ_{\tilde{A}} (x), μ_{\tilde{B}} (x)]

(7)取迭代过程中判别熵W值最大的那一步所对应的隶属函数集合作为特征{g_i1，...，g_imi}的最终粒化结果。

3.特征粒化算法将原始特征空间映射为粒化特征空间，粒化后的特征空间有效地简化了模糊特征和类别之间的关系，所以我们采用简单的分类器实现对显著区域的分类。分类目的是对每帧的区域根据其显著度分配显著值，提取显著度高的区域。区域原始特征F＝(f₁，f₂，f₃，f₄，f₅)(n＝5)经模糊粒化后对应的模糊特征表示为

G = {g_{11}, . . ., g_{{1 m}_{1}}; . . .; g_{n 1}, . . ., g_{{nm}_{n}}} .

为了预测区域的类别我们需要计算后验概率Pr(C_k|f₁，...，f_n)k＝{SR，BR)。假设特征具有独立性，由于粒化算法针对每个特征分别进行，所以粒化后不改变其独立性，根据贝叶斯理论后验概率可以计算为：

\Pr (C_{k} | G) = \frac{\Pr (C_{k}) Π_{i = 1}^{n} p (G_{i} | C_{k})}{p (G)}

类条件密度P(G_i|C_k)采用文献[102]提出的模糊集样本空间学习算法，该算法将每个模糊集合转化成概率分布表示，统计样本的类条件密度。得到类条件密度之后，根据最大后验概率(MAP)确定区域的类标号，满足P(C_SR|G_i)＞P(C_BR|G_i)的区域R_i属于显著区域。经过分类确定出显著区域后，如果一个区域其所有相邻区域均为显著区域，则合并该区域和相邻区域作为一个显著区域。

4.假设在一个时窗内各帧内容相似，对时窗的第一帧提取显著区域，窗内后续各帧的显著区域通过区域跟踪得到。但是初始时窗的长度L不能太大，否则会平滑显著区域引起的变化，一般情况下L取3至10。时窗内的首帧通过以上显著区域提取算法提取显著区域。后续帧的显著区域根据以下步骤得到。

首先确定相邻帧的一个区域搜索范围。设帧f_t中一个显著区域的外接矩形的对角线坐标为{(x_a ^t，y_a ^t)，(x_b ^t，y_b ^t)}，帧f_t+1中对应帧f_t的区域匹配搜索矩形区域

的对角线坐标为{(x_a ^t+1，y_a ^t+1)，(x_b ^t+1，y_b ^t+1)}：

{x_{a}}^{t + 1} = {x_{a}}^{t} - dx; {y_{a}}^{t + 1} = {y_{a}}^{t} - dy

{x_{b}}^{t + 1} = {x_{b}}^{t} + dx; {y_{b}}^{t + 1} = {y_{b}}^{t} + dy

实验中，dx＝dx＝8可以得到较好实验结果。在确定相应的搜索区域后，对

中每个像素根据其颜色信息的相似性来确定是否属于显著区域。像素点的颜色信息采用LUV空间的三个颜色分量。设

p &Element; {\tilde{R}}^{t + 1},

则点p和帧f_t的显著区域的距离定义为：

D (p, {SR}^{t}) = \min_{R &SubsetEqual; {SR}^{t}} D (p, R)

其中，D(p，R)表示点p和SR^t中同质区域R，RSR^t的相似度量，R的颜色特征为该同质区域的颜色均值，则点p和区域R的相似度D(p，R)通过欧氏距离计算。通过计算帧f_t+1的搜索区域范围内每个像素点到帧f_t的显著区域的相似度，则相似度大于经验阈值D_TR(实验中取D_TR＝0.83)属于帧f_t+1的显著区域。

时窗内的第一帧中的每个显著区域在该窗内后续各帧中进行区域相似度匹配后，将每帧中相邻的同质区域合并为一个显著区域。根据比较时域相邻帧的显著区域的相似性来计算显著性能量值，如下式：

E (SR) = Σ_{j = 2}^{L} D ({SR}^{t_{i}}, {SR}^{t_{j}})

式中D(SR^ti，SR^tj)是帧f_ti和帧f_tj中两个显著区域特征向量的欧氏距离，实验中，相似性度量基于显著区域的颜色信息，颜色特征采用与人类颜色视觉感知比较接近的HSV颜色模型，建立64-维颜色直方图，由于V(亮度)分量受光照影响比较大，在计算直方图时只使用H(色度，取值范围[0，360])、S(饱和度，取值范围[0，1])分量，对H、S分别量化为16个值和4个值，得到HS特征直方图，共16×4＝64个直方条(bin)。满足

E_{R_{i}} > T_{e}

的显著区域构成该时窗的窗内显著单元(通过实验分析，在L＝5的时窗长度下，能量值小于0.5的显著区域通常在后续帧的匹配区域数少于3个，即时窗中超过半数的帧没有该区域的相似区域，所以实验取T_e＝0.5)。

E_{R_{i}} \leq T_{e}

的显著区域不满足一致性条件，认为是由光照等因素造成的噪声，所以不属于窗内显著单元。如图2所示是三个子单元首帧的显著区域提取结果，如图3所示是其中一个子单元中首帧和后续帧的显著区域提取结果。

5.按照上述方法，得到基于时间窗的子单元，子单元中对一些噪声区域进行过滤。但子单元的时域边界是在相邻帧具有相似内容的假设下按照固定帧数的时窗划分，因此子单元的时域边界不具有内容变化的表征能力。需要进一步合并具有相似内容的子单元。子单元中图像帧的内容基本相似，时空特征变化相对较小。根据前面介绍的集合间的相似性测度方法，可以通过子单元内所有帧的显著区域和背景区域各自平均信息作为子单元的特征描述，即X_U＝{ X_SR， X_BR}。

除上述用于区域跟踪的颜色特征外，对显著区域部分提取运动和纹理信息作为显著区域内容的描述子。通过计算4个尺度、4个方向的Gabor滤波系数，建立16-维纹理直方图，来描述显著区域的纹理特征。运动强度直方图通过显著区域包含的像素点的运动矢量强度，统计8-维的运动强度直方图。

对显著区域提取了多种特征后，需要对不同种特征进行融合。采用特征加权方法，将各异质特征融合为一个特征向量。对显著区域的三个特征{X^c，X^m，X^o}进行加权融合：

X_SR＝{W_c X^c，W_m X^m，W_o X^o}

其中W_c，W_m，W_o计算为：

W_{c} = \frac{γ_{c}}{\hat{γ}}, W_{m} = \frac{γ_{m}}{\hat{γ}}, W_{0} = \frac{γ_{o}}{\hat{γ}}

其中

\hat{γ} = γ_{c} + γ_{m} + γ_{o},

γ_{i} = \frac{1}{{σ_{i}}^{2}},

i＝{c，m，o}，σ_i ²分别是为三个归一化后特征{ X^c， X^m， X^o}的标准差，即

{σ_{i}}^{2} = \frac{1}{N} Σ_{q = 1}^{N} {({x^{i}}_{q} - m_{i})}^{2} .

对每个子单元首帧背景部分提取64-维HSV颜色直方图(H：16，S：4)，对归一化后的颜色直方图中取直方条取值大于H_DC(H_DC＝0.2)作为该帧的主色直方图，h_i为主色对应的直方条，N_DC为主色直方条总数。然后，计算每个主颜色在子单元SubSU_u中的持续时间T_i(相似主颜色的帧数)并统计子单元的主色直方图H_u，保留持续时间T_i大于时间阈值T_C(T_C＝0.2*T_u，T_u表示子单元总帧数)的主色h_i，则子单元背景区域的主色直方图的每个直方条按照主色h_i的相对持续时间加权得到：

X_{BR} = {H_{u} (h_{i}) \times \frac{T_{i}}{T_{u}}, i = 1, L, N_{DC}}

6.分别对子单元的显著区域和背景区域建立相应的特征描述后，根据子单元的相似度进行合并，将时间相近、内容相似的子单元组合在一起。设子单元U_i和U_j，其特征向量分别表示为X_i，X_j。子单元U_i和U_j的相似度根据以下度量公式计算：

D_{p} (U_{i}, U_{j}) = P (U_{i}) D_{KL} (p_{i} | | p^{'}) + P (U_{j}) D_{KL} (p_{j} | | p^{'})

D_{KL} (p_{i} | | p^{'}) = w_{s} D_{KL} ({p^{s}}_{i} | | p^{s^{'}}) + w_{c} D_{KL} ({p^{b}}_{i} | | p^{b^{'}})

= w_{s} Σ_{k = 1}^{d_{s}} {p^{s}}_{i} (k) \log (\frac{{p^{s}}_{i} (k)}{{p^{s^{'}}}_{i} (k)}) + w_{c} Σ_{k = 1}^{d_{b}} {p^{b}}_{i} (k) \log (\frac{{p^{b}}_{i} (k)}{{p^{b^{'}}}_{i} (k)})

其中，p^s _i和p^b _i分别表示子单元U_i的显著区域和背景区域两部分特征的密度分布，p′表示合并子单元U_i，U_j后的密度分布，D_KL(p_i‖p′)表示两个子单元合并后的单元类和未合并前两个单元的差异度量。根据具体的应用，可以通过调节两个权值w_s，w_c作为平衡显著区域和背景区域对视频信息内容表征的影响程度。

提取的时空显著单元旨在提供一个有效的内容表示模式，所以为了验证内容表征能力，采用本发明所述的基于时空显著单元的内容表示方法和基于全局特征表示两种算法进行视频镜头匹配。基于全局特征的方法是采用64-维HSV颜色直方图作为镜头Shot_i的代表帧集合SF_i中的特征向量。比较算法中，基于时空显著单元的方法权值设为{w_s＝0.7，w_c＝0.3}，实验中均采用KL散度作为相似性测度。如图4所示给出了比较结果。从附图4匹配结果可以看出，采用全局特征描述，对于第三个和第五个匹配结果的匹配误差较大，这是由于在整个背景中由于受光照的影响，使查询镜头和第五个匹配镜头的全局特征分布相似性大于第三个，但不符合人的视觉相似性。从语义内容的层次上，第三个镜头的相似性要高于第五个，基于时空显著单元的序列匹配结果能很好地体现语义相似性，得到的结果更符合视觉感知的相似性。

本发明的其他变化和修改对本领域技术人员是显而易见的，本发明并不局限于所述的具体实施方式。因此，与本发明所公开内容的真正实质和基本原则范围内的任何/所有修改、变化或等效变换，都属于本发明的权利要求保护范围。

Claims

1.一种基于时空显著单元的视频内容表示方法，其特征在于：它包括以下步骤：

(2)对子单元首帧根据颜色信息进行同质区域分割，以分割后的同质区域为单位，提取视频帧的可计算特征集合；并将可计算特征空间映射到模糊信息粒特征空间；

(4)在子单元包含的帧序列中，通过对子单元首帧提取的显著区域进行区域跟踪，得到该单元后续帧的显著区域，从而将子单元的每个图像帧分割为显著区域和非显著区域(背景区域)；

(5)分别提取子单元显著区域和非显著区域两部分的内容描述子，通过考察子单元的内容连续性，将具有相似内容的子单元进行合并，从而合并后的子单元所包含的显著区域集合形成了具有时空特征一致性的显著区域集合，即时空显著单元，提取的时空显著单元为高层视频应用提供了一种有效的视频内容表示模式。

2.根据权利要求1所述的基于时空显著单元的视频内容表示方法，其特征在于：步骤(2)中，提取视频帧的可计算特征集合是对每个子单元的首帧，以分割后的同质区域为单位，提取如下五个原始特征：

区域亮度对比度；

区域纹理密度指数；

区域空间平衡性指数；

区域形状指数；

区域运动一致性指数。

3.根据权利要求1所述的基于时空显著单元的视频内容表示方法，其特征在于：步骤(2)中，模糊信息粒特征空间的模糊信息粒采用模糊集合的形式。

4.根据权利要求1所述的基于时空显著单元的视频内容表示方法，其特征在于：步骤(3)中，显著区域分类采用朴素贝叶斯分类方法。

5.根据权利要求1所述的基于时空显著单元的视频内容表示方法，其特征在于：步骤(4)中，区域跟踪方法如下：

(1)根据当前帧显著区域的位置，确定后续帧显著区域的搜索范围；

(2)在图像帧的搜索范围内，根据像素点和前一帧显著区域的相似度确定该帧显著区域；

(3)针对显著区域在后续跟踪过程中可能出现多匹配情况，我们通过kolmogorov-Smirnow(K-S)检验确定多个匹配区域是否进行合并。

6.根据权利要求1所述的基于时空显著单元的视频内容表示方法，其特征在于：步骤(5)中，时空显著单元提取包括子单元特征提取和子单元相似度匹配两个步骤：

(1)分别对子单元的显著区域和背景区域两部分提取内容描述子，显著区域部分采用颜色、纹理和运动信息作为内容描述子，而背景区域部分采用主颜色作为内容描述子；

(2)子单元的相似度根据Kullback-Leibler(KL)距离作为相似性测度：

D_p(U_i，U_j)＝P(U_i)DKL(p_i‖p′)+P(U_j)D_KL(p_j‖p′)

D_{KL} (p_{i} | | p^{'}) = w_{s} D_{KL} ({p^{s}}_{i} | | {p^{s}}^{'}) + w_{c} D_{KL} ({p^{b}}_{i} | | {p^{b}}^{'})

= w_{s} Σ_{k = 1}^{d_{s}} {p^{s}}_{i} (k) \log (\frac{{p^{s}}_{i} (k)}{{p^{s^{'}}}_{i} (k)}) + w_{c} Σ_{k = 1}^{d_{b}} {p^{b}}_{i} (k) \log 1 (\frac{{p^{b}}_{i} (k)}{{p^{b}}^{'}_{i} (k)})

其中，D_p(U_i，U_j)表示两个子单元U_i，U_j的KL距离，用它来判断两个子单元的相似度；p^s _i和p^b _i分别表示子单元U_i的显著区域和背景区域两部分特征的密度分布，p′表示合并子单元U_i，U_j后的密度分布，D_KL(p_i‖p′)表示两个子单元合并后的单元类和未合并前两个单元的相似性度量；根据具体的应用，可以通过调节两个权值w_s，w_c作为平衡显著区域和背景区域对视频信息内容表征的影响程度。