CN101271465A

CN101271465A - 一种基于信息瓶颈理论的镜头聚类方法

Info

Publication number: CN101271465A
Application number: CNA2007101793068A
Authority: CN
Inventors: 薛玲; 李超; 李欢; 熊璋; 钟林
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2007-12-12
Filing date: 2007-12-12
Publication date: 2008-09-24

Abstract

本发明涉及一种基于信息瓶颈理论的镜头聚类方法，将信息瓶颈理论用于镜头聚类，每个待分类的镜头初始化为一类，并以合并过程中的共有信息损失作为类别距离的度量，实施类别合并，直至所有镜头合为一类，将共有信息损失拐点对应的类别数目作为镜头聚类最终的类别数目，同时为了解决层次聚类中出现的局部最优解问题，结合序列聚类方法对分类结果进行调整。本发明可以不用事先估计类别个数，将信息瓶颈理论应用于聚类过程，提高了聚类结果的查准率和查全率；同时避免了局部最优解问题。

Description

一种基于信息瓶颈理论的镜头聚类方法

技术领域

本发明属于视频内容分析与检索领域，具体涉及一种对镜头进行聚类的方法。

背景技术

随着网络与多媒体技术的发展，数字视频越来越广泛地存在于人们的生活空间中。但由于视频数据量很大，在存储量及网络带宽有限的情况下，如何对视频数据进行有效的组织和管理成为多媒体应用发展面临的主要问题之一。因此，视频结构及内容分析的相关研究受到了广泛的关注。相关的工作包括镜头边界检测、关键帧提取、镜头聚类、场景分析及事件检测等。其中镜头边界检测是视频内容分析的首要步骤，其主要功能是依据视频底层特征的连续性，将视频分解为其基本单元-镜头。关键帧提取则是针对用户对大量视频浏览、定位的需求产生的一种技术，其主要负责从镜头中抽取有代表意义的帧，供用户检索时浏览。镜头聚类的主要目的是将相似的视频镜头组成一类，从而抽象出视频的整体结构。场景分析是在镜头聚类的基础上，结合领域知识与经验模型对视频进行语义层次上的场景划分。事件检测则主要负责对视频中的事件进行检测。可以看出，镜头边界检测与关键帧提取主要是针对低级特征进行的视频结构分析。而场景分析与事件检测的研究重点在于视频语义特征的提取。镜头聚类作为两者的桥梁，其分类结果的好坏对于后续的视频语义分析有着直接的影响。

近年来，关于镜头聚类方法的研究有很多。不同的视频特征被先后应用到镜头聚类中，如颜色直方图、边缘直方图、运动特征、时间片特征(temporal slice)等等。除此之外，不同的聚类算法如层次聚类、K均值聚类及其变种等都被应用到镜头聚类中。然而，上述镜头聚类算法采用的类别距离度量多需要提供经验参数，很难提供一种通用、普遍的解决方法。除此之外，以K-均值聚类为基础的算法需要事先估计类别的个数以及各类别的中心；但是，镜头聚类是一种不确定类别个数的聚类。在镜头聚类之前准确地估计出类别的个数及各类别的中心存在一定的困难。而以层次聚类为基础的算法采用凝聚方式进行聚类，该方法易受到噪声数据的影响，并容易陷入局部最优值。针对上述问题，本发明提出了一种通用的镜头聚类算法，该算法以信息瓶颈理论为基础，采用自底向上的层次聚类算法(agglomerative clustering algorithm)进行镜头聚类。该算法将每个待分类的镜头初始化为一类，并以合并过程中的共有信息损失作为类别距离的度量，实施类别合并，直至所有镜头合为一类。共有信息损失在合并过程中逐渐增大，直至拐点出现；拐点之后，共有信息损失显著增长。将共有信息损失拐点对应的类别数目作为镜头聚类最终的类别数目，然而，自底向上的层次聚类容易陷入局部最优解。

发明内容

本发明要解决的技术问题：克服现有技术的不足，提供一种基于信息瓶颈理论的镜头聚类方法镜头聚类方法，该方法可以不用事先估计类别个数，将信息瓶颈理论应用于聚类过程，提高了聚类结果的查准率和查全率；同时避免了局部最优解问题。

本发明的目的是这样实现的：一种基于信息瓶颈理论的镜头聚类方法，包括以下步骤：

(1)对待分类的镜头的关键帧提取其特征向量；

(2)将每个待分类镜头初始化为一类，根据提取的特征向量，计算每类的初始概率密度分布；

(3)从当前层次的所有类别中选取两类进行合并使得共有信息损失最少；

(4)直到所有的镜头被合并为一类，根据共有损失的变化曲线，找到其拐点，并将拐点对应的类别个数K作为聚类类别的最终数目；

(5)使用序列聚类算法SIB对层次聚类算法AIB产生的分类结果进行调整。

所述对待分类的镜头的关键帧提取其特征向量中所述特征向量包括颜色自相关图、颜色矩及镜头时间片图像的Gabor纹理特征。

所述计算每类的初始概率密度分布步骤中，初始概率密度分布为m维向量，m为特征向量维数，每一维的值为该类中该维特征向量值与所有类别该维特征向量之和的比值。

所述从当前层次的所有类别中选取两类进行合并使得共有信息损失最少步骤中，两类合并后特征向量的概率分布为：

p = \frac{| c_{1} |}{| c_{1} \cup c_{2} |} p_{1} + \frac{| c_{2} |}{| c_{1} \cup c_{2} |} p_{2}

其中两类c₁和c₂的概率分布分别为p₁和p₂。

所述从当前层次的所有类别中选取两类进行合并使得共有信息损失最少步骤中，共有信息损失的计算公式如下。

d (c_{1}, c_{2}) = \underset{i = 1,2}{Σ} \frac{| c_{i} |}{n} Σ_{j = 1}^{m} p_{ij} \log \frac{p_{ij}}{p_{j}}

拐点的选择方法如下：首先采用幂函数对共有损失变化曲线进行曲线拟合，然后根据幂函数的导数计算曲线上各点的斜率。若某点对应的斜率超过了一定的阈值则将该点作为拐点，并将该点对应的类别数目作为最终的聚类类别数目。

所述使用SIB算法对AIB算法产生的分类结果进行调整步骤中，从AIB算法的分类结果开始，每次从任一类别中取出一个样本x构成一个新的类别{x}，根据共有信息损失最小原则，将{x}合并到一个新的类别中，使得合并过程中的共有信息损失最小，从而得到一个新的样本空间分布T_new，更新类别的质心并重复上述步骤。如果合并步骤超过了阈值T_L或者共有信息量改变在最后一次合并的改变小于阈值T_C则停止。

本发明现有技术相比的优点在于：

(1)现有的镜头聚类方法中采用的类别距离度量多需要提供经验参数，很难提供一种通用、普遍的解决方法，但镜头聚类是一种不确定类别个数的聚类，在聚类前准确的估计出类别个数及各类别中心存在一定困难。本发明将信息瓶颈理论用于镜头聚类，每个待分类的镜头初始化为一类，并以合并过程中的共有信息损失作为类别距离的度量，实施类别合并，直至所有镜头合为一类，将共有信息损失拐点对应的类别数目作为镜头聚类最终的类别数目。同时为了解决层次聚类中出现的局部最优解问题，结合序列聚类方法对分类结果进行调整，既避免了对类别的个数的估计，也解决了层次聚类中的最优解求解问题。

(2)本发明与传统的镜头聚类方法相比，该方法可以不用事先估计类别个数，将信息瓶颈理论应用于聚类过程，提高了聚类结果的查准率和查全率。同时结合序列聚类对分类结果进行调整，避免了局部最优解问题。

附图说明

图1为本发明基于信息瓶颈理论聚类的流程示意图；

图2为本发明实验中聚类过程共有损失变化曲线图。

具体实施方式

如图1所示，本发明具体包括以下步骤：

1.特征向量提取

选择镜头中间位置的视频帧作为关键帧，对其中的特征向量进行提取。本发明中提取关键帧的颜色自相关图、颜色矩特征及镜头时间片图像的Gabor纹理特征。其中，时间片图像的Gabor纹理特征反应的是镜头的运动特征。

(1)颜色自相关图

颜色特征是最容易引起人类感知的一种底层特征，颜色分布反映了某类物体的出现、外观与空间关系。而且，与其它底层特征相比，颜色特征提取效率更高，也更容易操作和处理。与颜色直方图相比，颜色自相关图反映了颜色在图像中的空间分布关系。经实验证明，它在图像分析及检索领域应用的性能比颜色直方图更为优越，因此，本文选取颜色自相关图作为镜头聚类的特征之一，其具体计算方法如下。首先将图像中的象素点颜色值量化为m个级别，分别为c₁，c₂，…c_m。定义距离参数为k∈{d}，d≤d_max；其中，d为像素间距离，d_max为像素间最大距离。则颜色相关图可以视为一个以(i，j，k)为索引的表，表中对应位置存储颜色值为c_i的像素点周围距离为k的像素点内存在颜色值为c_j的像素点的概率。而颜色自相关图是对颜色相关图的简化，它只考虑颜色对(i，i，k)的情况，即只存储颜色值为c_i的像素点周围距离为k的像素点内存在相同颜色像素点的概率。本文基于与人类视觉最为接近的HSV(Hue Saturation Value)颜色空间，将颜色量化为12(H)*2(S)*2(V)共48级，并分别取k值为1、3、5、7，从而构成192维的特征向量。

(2)颜色矩

图像中任何的颜色分布均可以用它的矩来表示。此外，由于颜色分布信息主要集中在低阶矩中，因此仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。与颜色直方图相比，该方法的另一个好处在于无需对特征进行向量化。颜色的三个低次矩在数学上表达如下。

μ_{i} = \frac{1}{N} Σ_{j = 1}^{N} p_{ij}

σ_{i} = {(\frac{1}{N} Σ_{j = 1}^{N} {(p_{ij} - μ_{i})}^{2})}^{\frac{1}{2}}

s_{i} = {(\frac{1}{N} Σ_{j = 1}^{N} {(p_{ij} - μ_{i})}^{3})}^{\frac{1}{3}}

其中，P_ij为图像中第j个像素的第i个颜色分量。因此，图像的颜色矩一共只需要9个分量(图像HSV空间的3个颜色分量，每个分量上3个低阶矩)。

(3)镜头时间片图像的Gabor纹理特征

时间片图像(temporal slices)的纹理特征也是常用的运动特征。时间片图像是通过将三维的视频序列(x，y，t)降到二维空间得到的。其基本思路是针对原始的视频图像中的X与Y方向进行高斯窗加权平均，生成图象在X与Y方向上的直线段表示，然后将一段时间内的视频帧的直线段表示组合起来形成时间片图像。定义S^X(t)和S^Y(t)分别代表视频帧f(x，y，t)在X和Y方向上的直线段表示，S^X(y，t)和S^Y(x，t)分别表示X和Y方向上的直线段上的象素点，H和W分别代表图像的高和宽；则视频帧图像在X与Y方向上的直线段表示可以通过如下公式计算获得。将上述视频帧的直线段表示组合起来就形成了时间片图像

S^{X} = \underset{t}{\cup} S^{X} (t) .

S^{X} (y, t) = Σ_{x = 0}^{W - 1} α (x, t) \cdot F (x, y, t)

S^{X} (x, t) = Σ_{y = 0}^{H - 1} α (y, t) \cdot F (x, y, t)

α (x, t) = \frac{1}{\sqrt{2 πσ (t)}} \exp {- {[x - \frac{W}{2}]}^{2} / 2 σ^{2} (t)}

α (y, t) = \frac{1}{\sqrt{2 πσ (t)}} \exp {- {[y - \frac{H}{2}]}^{2} / 2 σ^{2} (t)}

Gabor变换属于加窗傅立叶变换，Gabor函数可以在频域不同尺度、不同方向上提取相关的特征。另外Gabor函数与人眼的生物作用相仿，所以经常用作纹理识别上，并取得了较好的效果。二维Gabor函数表示如下。

g_{uv} (x, y) = \frac{k^{2}}{σ^{2}} \exp (- \frac{k^{2} (x^{2} + y^{2})}{2 σ^{2}}) \cdot [\exp (ik \cdot (\begin{matrix} x \\ y \end{matrix})) - \exp (- \frac{σ^{2}}{2})]

其中，

k_{v} = 2^{\frac{v + 2}{2} π},

v的取值决定了Gabor滤波的波长，u的取值表示Gabor核函数的方向，K表示总的方向数。参数σ/k决定了高斯窗口的大小，这里取

σ = \sqrt{2} π .

程序中取4个频率(v＝0，1，...，3)，6个方向(即K＝6，u＝0，1，...，5)，共24个Gabor核函数。然后，对变换结果求均值和方差作为提取的特征，共48维特征向量。

将上述三类特征首尾相接，构成代表镜头的特征向量共249维。

2.计算初始概率密度分布

设待分类镜头集合为S＝{s₁，s₂，…，s_n}，其中n为待分类镜头个数。从待分类镜头中提取的特征向量记为{f₁，f₂，…，f_m}，其中m为特征向量的维数(m＝249)。

将每个待分类镜头初始化为一类，记为c_i(i＝1，2，…，n)。计算c_i特征向量的初始概率密度分布，记为p_i＝{p_i1，p_i2，…p_im}，

p_{ij} = \frac{f_{ij}}{Σ_{i = 1}^{n} f_{ij}} - - - (1)

其中j＝1，2，…m，f_ij表示第i类镜头的第j维的特征向量，

表示所有类别的第j维特征向量之和，p_ij表示c_i类中第j维特征向量的概率密度分布。

3.聚类合并

下面介绍共有信息损失计算的推导过程：

(1)信息瓶颈理论

信息瓶颈理论是由Tishby等人首先提出的。其基本思想来源于香农的率失真理论。率失真理论的核心是率失真函数，即给定信源X、信宿

、失真函数以及信源及信宿变量的出现概率p(x)与

，则用R位信宿代表信源X的最小失真可以用下述率失真函数计算。

R (D) &equiv; \min_{{p (\hat{x} | x) | \overset{&OverBar;}{d} (x, \hat{x}) \leq D}} I (X, \hat{X}), - - - (2)

其中，

代表了x与

的平均失真，其计算公式如下。

\overset{&OverBar;}{d} (x, \hat{x}) = Σ_{x, \hat{x}} p (x) p (\hat{x} | x) d (x, \hat{x}) - - - (3)

而代表了x与

之间的公共信息，其计算公式如下。

I (x, \hat{x}) = \underset{x, \hat{x}}{Σ} p (x) p (\hat{x} | x) \log \frac{p (\hat{x} | x)}{p (\hat{x})} - - - (4)

信息理论对率失真理论做了进一步的延伸，其基本思想是给定待分类的样本空间X，特征空间Y，在

分类的情况下，其失真函数定义如下(其中，X、

与Y相互独立)。

R (D) &equiv; \min_{{p (\hat{x} | x) | \overset{&OverBar;}{d} (x, \hat{x}) \leq D}} I (X, Y) - I (\hat{X}, Y) - - - (5)

即在样本中寻找一种分类方式，使得在对应分类情况下，样本与特征之间的共有信息损失最少。

(2)基于瓶颈理论的聚类

根据层次聚类的原则，从当前层次的所有类别中选取两类c₁和c₂进行合并使共有信息损失最少。设c₁和c₂的特征向量概率密度分布分别为p₁和p₂，其中p₁＝{[p₁₁，p₁₂，…，p_1m}，p₂＝{p₂₁，p₂₂，…，p_2m}，两类合并后的特征向量概率密度分布设为p＝{p₁，p₂，…，p_m}，

p = \frac{| c_{1} |}{| c_{1} \cup c_{2} |} p_{1} + \frac{| c_{2} |}{| c_{1} \cup c_{2} |} p_{2} - - - (6)

根据信息瓶颈理论，合并前后样本与特征之间的共有信息损失为：

d (c_{1}, c_{2}) = I (C_{b}, Y) - I (C_{a}, Y)

= \underset{y, i = 1,2}{Σ} p (c_{i}, y) \log \frac{p (c_{i}, y)}{p (c_{i}) p (y)} - \underset{y}{Σ} p (c_{1} \cup c_{2}) \log \frac{p (c_{1} \cup c_{2}, y)}{p (c_{1} \cup c_{2}) p (y)} - - - (7)

= \underset{y, i = 1,2}{Σ} p (c_{i}) p (y | c_{i}) \log \frac{p (y | c_{i})}{p (y | c_{1} \cup c_{2})}

根据公式(1)、(5)和(7)，推导出合并c₁和c₂造成的共有信息损失如下：

d (c_{1}, c_{2}) = \underset{i = 1,2}{Σ} \frac{| c_{i} |}{n} Σ_{j = 1}^{m} p_{ij} \log \frac{p_{ij}}{p_{j}} - - - (8)

4.确定聚类个数

继续步骤3直到所有的镜头被合并为一类，根据共有损失的变化曲线，找到其拐点(如图2所示)，并将拐点对应的类别个数K作为聚类类别的最终数目。拐点的计算方法如下：首先采用幂函数对共有损失变化曲线进行曲线拟合，然后根据幂函数的导数计算曲线上各点的斜率。若某点对应的斜率超过了一定的阈值则将该点作为拐点，并将该点对应的类别数目作为最终的聚类类别数目。

5.对聚类结果进行调整

使用SIB算法对AIB算法产生的分类结果进行调整步骤中，从AIB算法的分类结果开始，每次从任一类别中取出一个样本x构成一个新的类别{x}，根据共有信息损失最小原则，将{x}合并到一个新的类别中，使得合并过程中的共有信息损失最小，从而得到一个新的样本空间分布T_new，更新类别的质心并重复上述步骤。如果合并步骤超过了阈值T_L或者共有信息量改变在最后一次合并的改变小于阈值T_C则停止。

Claims

1、一种基于信息瓶颈理论的镜头聚类方法，其特征在于包括以下步骤：

(1)对待分类的镜头的关键帧提取其特征向量；

(2)将每个待分类镜头初始化为一类，根据提取的特征向，计算每类的初始概率密度分布；

2、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法，其特征在于：所述步骤(1)中的特征向量包括：颜色自相关图、颜色矩、及镜头时间片图像的Gabor纹理特征。

3、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法，其特征在于：所述步骤(2)中初始概率密度分布为m维向量，m为特征向量维数，每一维的概率分布值为该类中该维特征向量值与所有类别该维特征向量之和的比值。

4、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法，其特征在于：所述步骤(3)中从当前层次的所有类别中选取两类进行合并使得共有信息损失最少步骤中，两类合并后特征向量的概率分布为：

p = \frac{| c_{1} |}{| c_{1} \cup c_{2} |} p_{1} + \frac{| c_{2} |}{| c_{1} \cup c_{2} |} p_{2}

其中两类c₁和c₂的概率分布分别为p₁和p₂。

5、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法，其特征在于：所述步骤(3)中从当前层次的所有类别中选取两类进行合并使得共有信息损失最少步骤中，共有信息损失的计算公式为：

d (c_{1}, c_{2}) = \underset{i = 1,2}{Σ} \frac{| c_{i} |}{n} Σ_{j = 1}^{m} p_{ij} \log \frac{p_{ij}}{p_{j}} .

6、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法，其特征在于：所述步骤(4)的实现步骤如下：首先采用幂函数对共有损失变化曲线进行曲线拟合，然后根据幂函数的导数计算曲线上各点的斜率，若某点对应的斜率超过了一定的阈值则将该点作为拐点，并将该点对应的类别数目作为最终的聚类类别数目。

7、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法，其特征在于：所述步骤(5)中使用序列算法SI对层次算法AIB产生的分类结果进行调整步骤的方法为：从层次算法的分类结果开始，每次从任一类别中取出一个样本x构成一个新的类别{x}，根据共有信息损失最小原则，将{x}合并到一个新的类别中，使得合并过程中的共有信息损失最小，从而得到一个新的样本空间分布T_new，更新类别的质心并重复上述步骤。如果合并步骤超过了阈值T_L或者共有信息量改变在最后一次合并的改变小于阈值T_C则停止。