CN101271465A - 一种基于信息瓶颈理论的镜头聚类方法 - Google Patents
一种基于信息瓶颈理论的镜头聚类方法 Download PDFInfo
- Publication number
- CN101271465A CN101271465A CNA2007101793068A CN200710179306A CN101271465A CN 101271465 A CN101271465 A CN 101271465A CN A2007101793068 A CNA2007101793068 A CN A2007101793068A CN 200710179306 A CN200710179306 A CN 200710179306A CN 101271465 A CN101271465 A CN 101271465A
- Authority
- CN
- China
- Prior art keywords
- lens
- classification
- clustering method
- information
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于信息瓶颈理论的镜头聚类方法,将信息瓶颈理论用于镜头聚类,每个待分类的镜头初始化为一类,并以合并过程中的共有信息损失作为类别距离的度量,实施类别合并,直至所有镜头合为一类,将共有信息损失拐点对应的类别数目作为镜头聚类最终的类别数目,同时为了解决层次聚类中出现的局部最优解问题,结合序列聚类方法对分类结果进行调整。本发明可以不用事先估计类别个数,将信息瓶颈理论应用于聚类过程,提高了聚类结果的查准率和查全率;同时避免了局部最优解问题。
Description
技术领域
本发明属于视频内容分析与检索领域,具体涉及一种对镜头进行聚类的方法。
背景技术
随着网络与多媒体技术的发展,数字视频越来越广泛地存在于人们的生活空间中。但由于视频数据量很大,在存储量及网络带宽有限的情况下,如何对视频数据进行有效的组织和管理成为多媒体应用发展面临的主要问题之一。因此,视频结构及内容分析的相关研究受到了广泛的关注。相关的工作包括镜头边界检测、关键帧提取、镜头聚类、场景分析及事件检测等。其中镜头边界检测是视频内容分析的首要步骤,其主要功能是依据视频底层特征的连续性,将视频分解为其基本单元-镜头。关键帧提取则是针对用户对大量视频浏览、定位的需求产生的一种技术,其主要负责从镜头中抽取有代表意义的帧,供用户检索时浏览。镜头聚类的主要目的是将相似的视频镜头组成一类,从而抽象出视频的整体结构。场景分析是在镜头聚类的基础上,结合领域知识与经验模型对视频进行语义层次上的场景划分。事件检测则主要负责对视频中的事件进行检测。可以看出,镜头边界检测与关键帧提取主要是针对低级特征进行的视频结构分析。而场景分析与事件检测的研究重点在于视频语义特征的提取。镜头聚类作为两者的桥梁,其分类结果的好坏对于后续的视频语义分析有着直接的影响。
近年来,关于镜头聚类方法的研究有很多。不同的视频特征被先后应用到镜头聚类中,如颜色直方图、边缘直方图、运动特征、时间片特征(temporal slice)等等。除此之外,不同的聚类算法如层次聚类、K均值聚类及其变种等都被应用到镜头聚类中。然而,上述镜头聚类算法采用的类别距离度量多需要提供经验参数,很难提供一种通用、普遍的解决方法。除此之外,以K-均值聚类为基础的算法需要事先估计类别的个数以及各类别的中心;但是,镜头聚类是一种不确定类别个数的聚类。在镜头聚类之前准确地估计出类别的个数及各类别的中心存在一定的困难。而以层次聚类为基础的算法采用凝聚方式进行聚类,该方法易受到噪声数据的影响,并容易陷入局部最优值。针对上述问题,本发明提出了一种通用的镜头聚类算法,该算法以信息瓶颈理论为基础,采用自底向上的层次聚类算法(agglomerative clustering algorithm)进行镜头聚类。该算法将每个待分类的镜头初始化为一类,并以合并过程中的共有信息损失作为类别距离的度量,实施类别合并,直至所有镜头合为一类。共有信息损失在合并过程中逐渐增大,直至拐点出现;拐点之后,共有信息损失显著增长。将共有信息损失拐点对应的类别数目作为镜头聚类最终的类别数目,然而,自底向上的层次聚类容易陷入局部最优解。
发明内容
本发明要解决的技术问题:克服现有技术的不足,提供一种基于信息瓶颈理论的镜头聚类方法镜头聚类方法,该方法可以不用事先估计类别个数,将信息瓶颈理论应用于聚类过程,提高了聚类结果的查准率和查全率;同时避免了局部最优解问题。
本发明的目的是这样实现的:一种基于信息瓶颈理论的镜头聚类方法,包括以下步骤:
(1)对待分类的镜头的关键帧提取其特征向量;
(2)将每个待分类镜头初始化为一类,根据提取的特征向量,计算每类的初始概率密度分布;
(3)从当前层次的所有类别中选取两类进行合并使得共有信息损失最少;
(4)直到所有的镜头被合并为一类,根据共有损失的变化曲线,找到其拐点,并将拐点对应的类别个数K作为聚类类别的最终数目;
(5)使用序列聚类算法SIB对层次聚类算法AIB产生的分类结果进行调整。
所述对待分类的镜头的关键帧提取其特征向量中所述特征向量包括颜色自相关图、颜色矩及镜头时间片图像的Gabor纹理特征。
所述计算每类的初始概率密度分布步骤中,初始概率密度分布为m维向量,m为特征向量维数,每一维的值为该类中该维特征向量值与所有类别该维特征向量之和的比值。
所述从当前层次的所有类别中选取两类进行合并使得共有信息损失最少步骤中,两类合并后特征向量的概率分布为:
其中两类c1和c2的概率分布分别为p1和p2。
所述从当前层次的所有类别中选取两类进行合并使得共有信息损失最少步骤中,共有信息损失的计算公式如下。
拐点的选择方法如下:首先采用幂函数对共有损失变化曲线进行曲线拟合,然后根据幂函数的导数计算曲线上各点的斜率。若某点对应的斜率超过了一定的阈值则将该点作为拐点,并将该点对应的类别数目作为最终的聚类类别数目。
所述使用SIB算法对AIB算法产生的分类结果进行调整步骤中,从AIB算法的分类结果开始,每次从任一类别中取出一个样本x构成一个新的类别{x},根据共有信息损失最小原则,将{x}合并到一个新的类别中,使得合并过程中的共有信息损失最小,从而得到一个新的样本空间分布Tnew,更新类别的质心并重复上述步骤。如果合并步骤超过了阈值TL或者共有信息量改变在最后一次合并的改变小于阈值TC则停止。
本发明现有技术相比的优点在于:
(1)现有的镜头聚类方法中采用的类别距离度量多需要提供经验参数,很难提供一种通用、普遍的解决方法,但镜头聚类是一种不确定类别个数的聚类,在聚类前准确的估计出类别个数及各类别中心存在一定困难。本发明将信息瓶颈理论用于镜头聚类,每个待分类的镜头初始化为一类,并以合并过程中的共有信息损失作为类别距离的度量,实施类别合并,直至所有镜头合为一类,将共有信息损失拐点对应的类别数目作为镜头聚类最终的类别数目。同时为了解决层次聚类中出现的局部最优解问题,结合序列聚类方法对分类结果进行调整,既避免了对类别的个数的估计,也解决了层次聚类中的最优解求解问题。
(2)本发明与传统的镜头聚类方法相比,该方法可以不用事先估计类别个数,将信息瓶颈理论应用于聚类过程,提高了聚类结果的查准率和查全率。同时结合序列聚类对分类结果进行调整,避免了局部最优解问题。
附图说明
图1为本发明基于信息瓶颈理论聚类的流程示意图;
图2为本发明实验中聚类过程共有损失变化曲线图。
具体实施方式
如图1所示,本发明具体包括以下步骤:
1.特征向量提取
选择镜头中间位置的视频帧作为关键帧,对其中的特征向量进行提取。本发明中提取关键帧的颜色自相关图、颜色矩特征及镜头时间片图像的Gabor纹理特征。其中,时间片图像的Gabor纹理特征反应的是镜头的运动特征。
(1)颜色自相关图
颜色特征是最容易引起人类感知的一种底层特征,颜色分布反映了某类物体的出现、外观与空间关系。而且,与其它底层特征相比,颜色特征提取效率更高,也更容易操作和处理。与颜色直方图相比,颜色自相关图反映了颜色在图像中的空间分布关系。经实验证明,它在图像分析及检索领域应用的性能比颜色直方图更为优越,因此,本文选取颜色自相关图作为镜头聚类的特征之一,其具体计算方法如下。首先将图像中的象素点颜色值量化为m个级别,分别为c1,c2,…cm。定义距离参数为k∈{d},d≤dmax;其中,d为像素间距离,dmax为像素间最大距离。则颜色相关图可以视为一个以(i,j,k)为索引的表,表中对应位置存储颜色值为ci的像素点周围距离为k的像素点内存在颜色值为cj的像素点的概率。而颜色自相关图是对颜色相关图的简化,它只考虑颜色对(i,i,k)的情况,即只存储颜色值为ci的像素点周围距离为k的像素点内存在相同颜色像素点的概率。本文基于与人类视觉最为接近的HSV(Hue Saturation Value)颜色空间,将颜色量化为12(H)*2(S)*2(V)共48级,并分别取k值为1、3、5、7,从而构成192维的特征向量。
(2)颜色矩
图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。颜色的三个低次矩在数学上表达如下。
其中,Pij为图像中第j个像素的第i个颜色分量。因此,图像的颜色矩一共只需要9个分量(图像HSV空间的3个颜色分量,每个分量上3个低阶矩)。
(3)镜头时间片图像的Gabor纹理特征
时间片图像(temporal slices)的纹理特征也是常用的运动特征。时间片图像是通过将三维的视频序列(x,y,t)降到二维空间得到的。其基本思路是针对原始的视频图像中的X与Y方向进行高斯窗加权平均,生成图象在X与Y方向上的直线段表示,然后将一段时间内的视频帧的直线段表示组合起来形成时间片图像。定义SX(t)和SY(t)分别代表视频帧f(x,y,t)在X和Y方向上的直线段表示,SX(y,t)和SY(x,t)分别表示X和Y方向上的直线段上的象素点,H和W分别代表图像的高和宽;则视频帧图像在X与Y方向上的直线段表示可以通过如下公式计算获得。将上述视频帧的直线段表示组合起来就形成了时间片图像
Gabor变换属于加窗傅立叶变换,Gabor函数可以在频域不同尺度、不同方向上提取相关的特征。另外Gabor函数与人眼的生物作用相仿,所以经常用作纹理识别上,并取得了较好的效果。二维Gabor函数表示如下。
其中,
v的取值决定了Gabor滤波的波长,u的取值表示Gabor核函数的方向,K表示总的方向数。参数σ/k决定了高斯窗口的大小,这里取 程序中取4个频率(v=0,1,...,3),6个方向(即K=6,u=0,1,...,5),共24个Gabor核函数。然后,对变换结果求均值和方差作为提取的特征,共48维特征向量。
将上述三类特征首尾相接,构成代表镜头的特征向量共249维。
2.计算初始概率密度分布
设待分类镜头集合为S={s1,s2,…,sn},其中n为待分类镜头个数。从待分类镜头中提取的特征向量记为{f1,f2,…,fm},其中m为特征向量的维数(m=249)。
将每个待分类镜头初始化为一类,记为ci(i=1,2,…,n)。计算ci特征向量的初始概率密度分布,记为pi={pi1,pi2,…pim},
3.聚类合并
下面介绍共有信息损失计算的推导过程:
(1)信息瓶颈理论
信息瓶颈理论是由Tishby等人首先提出的。其基本思想来源于香农的率失真理论。率失真理论的核心是率失真函数,即给定信源X、信宿、失真函数以及信源及信宿变量的出现概率p(x)与,则用R位信宿代表信源X的最小失真可以用下述率失真函数计算。
即在样本中寻找一种分类方式,使得在对应分类情况下,样本与特征之间的共有信息损失最少。
(2)基于瓶颈理论的聚类
根据层次聚类的原则,从当前层次的所有类别中选取两类c1和c2进行合并使共有信息损失最少。设c1和c2的特征向量概率密度分布分别为p1和p2,其中p1={[p11,p12,…,p1m},p2={p21,p22,…,p2m},两类合并后的特征向量概率密度分布设为p={p1,p2,…,pm},
根据信息瓶颈理论,合并前后样本与特征之间的共有信息损失为:
根据公式(1)、(5)和(7),推导出合并c1和c2造成的共有信息损失如下:
4.确定聚类个数
继续步骤3直到所有的镜头被合并为一类,根据共有损失的变化曲线,找到其拐点(如图2所示),并将拐点对应的类别个数K作为聚类类别的最终数目。拐点的计算方法如下:首先采用幂函数对共有损失变化曲线进行曲线拟合,然后根据幂函数的导数计算曲线上各点的斜率。若某点对应的斜率超过了一定的阈值则将该点作为拐点,并将该点对应的类别数目作为最终的聚类类别数目。
5.对聚类结果进行调整
使用SIB算法对AIB算法产生的分类结果进行调整步骤中,从AIB算法的分类结果开始,每次从任一类别中取出一个样本x构成一个新的类别{x},根据共有信息损失最小原则,将{x}合并到一个新的类别中,使得合并过程中的共有信息损失最小,从而得到一个新的样本空间分布Tnew,更新类别的质心并重复上述步骤。如果合并步骤超过了阈值TL或者共有信息量改变在最后一次合并的改变小于阈值TC则停止。
Claims (7)
1、一种基于信息瓶颈理论的镜头聚类方法,其特征在于包括以下步骤:
(1)对待分类的镜头的关键帧提取其特征向量;
(2)将每个待分类镜头初始化为一类,根据提取的特征向,计算每类的初始概率密度分布;
(3)从当前层次的所有类别中选取两类进行合并使得共有信息损失最少;
(4)直到所有的镜头被合并为一类,根据共有损失的变化曲线,找到其拐点,并将拐点对应的类别个数K作为聚类类别的最终数目;
(5)使用序列聚类算法SIB对层次聚类算法AIB产生的分类结果进行调整。
2、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法,其特征在于:所述步骤(1)中的特征向量包括:颜色自相关图、颜色矩、及镜头时间片图像的Gabor纹理特征。
3、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法,其特征在于:所述步骤(2)中初始概率密度分布为m维向量,m为特征向量维数,每一维的概率分布值为该类中该维特征向量值与所有类别该维特征向量之和的比值。
4、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法,其特征在于:所述步骤(3)中从当前层次的所有类别中选取两类进行合并使得共有信息损失最少步骤中,两类合并后特征向量的概率分布为:
其中两类c1和c2的概率分布分别为p1和p2。
5、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法,其特征在于:所述步骤(3)中从当前层次的所有类别中选取两类进行合并使得共有信息损失最少步骤中,共有信息损失的计算公式为:
6、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法,其特征在于:所述步骤(4)的实现步骤如下:首先采用幂函数对共有损失变化曲线进行曲线拟合,然后根据幂函数的导数计算曲线上各点的斜率,若某点对应的斜率超过了一定的阈值则将该点作为拐点,并将该点对应的类别数目作为最终的聚类类别数目。
7、根据权利要求1所述的基于信息瓶颈理论的镜头聚类方法,其特征在于:所述步骤(5)中使用序列算法SI对层次算法AIB产生的分类结果进行调整步骤的方法为:从层次算法的分类结果开始,每次从任一类别中取出一个样本x构成一个新的类别{x},根据共有信息损失最小原则,将{x}合并到一个新的类别中,使得合并过程中的共有信息损失最小,从而得到一个新的样本空间分布Tnew,更新类别的质心并重复上述步骤。如果合并步骤超过了阈值TL或者共有信息量改变在最后一次合并的改变小于阈值TC则停止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101793068A CN101271465A (zh) | 2007-12-12 | 2007-12-12 | 一种基于信息瓶颈理论的镜头聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101793068A CN101271465A (zh) | 2007-12-12 | 2007-12-12 | 一种基于信息瓶颈理论的镜头聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101271465A true CN101271465A (zh) | 2008-09-24 |
Family
ID=40005439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101793068A Pending CN101271465A (zh) | 2007-12-12 | 2007-12-12 | 一种基于信息瓶颈理论的镜头聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101271465A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314613A (zh) * | 2011-07-06 | 2012-01-11 | 北京航空航天大学 | 一种基于信息理论与支持向量机的镜头边界检测算法 |
CN104572680A (zh) * | 2013-10-16 | 2015-04-29 | 深圳市牧笛科技有限公司 | 基于颜色矩的衣服检索方法 |
CN105721955A (zh) * | 2016-01-20 | 2016-06-29 | 天津大学 | 一种视频关键帧选取方法 |
CN105740360A (zh) * | 2016-01-26 | 2016-07-06 | 上海师范大学 | 艺术品图像中古典母题的识别与检索方法 |
CN107256017A (zh) * | 2017-04-28 | 2017-10-17 | 中国农业大学 | 路线规划方法及系统 |
CN109740013A (zh) * | 2018-12-29 | 2019-05-10 | 深圳英飞拓科技股份有限公司 | 图像数据处理方法及图像检索方法 |
CN111428590A (zh) * | 2020-03-11 | 2020-07-17 | 新华智云科技有限公司 | 一种视频聚类切分方法和系统 |
CN114691911A (zh) * | 2022-03-22 | 2022-07-01 | 电子科技大学 | 一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法 |
-
2007
- 2007-12-12 CN CNA2007101793068A patent/CN101271465A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314613A (zh) * | 2011-07-06 | 2012-01-11 | 北京航空航天大学 | 一种基于信息理论与支持向量机的镜头边界检测算法 |
CN102314613B (zh) * | 2011-07-06 | 2013-06-19 | 北京航空航天大学 | 一种基于信息理论与支持向量机的镜头边界检测算法 |
CN104572680A (zh) * | 2013-10-16 | 2015-04-29 | 深圳市牧笛科技有限公司 | 基于颜色矩的衣服检索方法 |
CN105721955B (zh) * | 2016-01-20 | 2018-09-11 | 天津大学 | 一种视频关键帧选取方法 |
CN105721955A (zh) * | 2016-01-20 | 2016-06-29 | 天津大学 | 一种视频关键帧选取方法 |
CN105740360A (zh) * | 2016-01-26 | 2016-07-06 | 上海师范大学 | 艺术品图像中古典母题的识别与检索方法 |
CN105740360B (zh) * | 2016-01-26 | 2020-12-01 | 上海师范大学 | 艺术品图像中古典母题的识别与检索方法 |
CN107256017A (zh) * | 2017-04-28 | 2017-10-17 | 中国农业大学 | 路线规划方法及系统 |
CN107256017B (zh) * | 2017-04-28 | 2020-08-04 | 中国农业大学 | 路线规划方法及系统 |
CN109740013A (zh) * | 2018-12-29 | 2019-05-10 | 深圳英飞拓科技股份有限公司 | 图像数据处理方法及图像检索方法 |
CN111428590A (zh) * | 2020-03-11 | 2020-07-17 | 新华智云科技有限公司 | 一种视频聚类切分方法和系统 |
CN111428590B (zh) * | 2020-03-11 | 2023-05-09 | 新华智云科技有限公司 | 一种视频聚类切分方法和系统 |
CN114691911A (zh) * | 2022-03-22 | 2022-07-01 | 电子科技大学 | 一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法 |
CN114691911B (zh) * | 2022-03-22 | 2023-04-07 | 电子科技大学 | 一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108665481B (zh) | 多层深度特征融合的自适应抗遮挡红外目标跟踪方法 | |
CN101271465A (zh) | 一种基于信息瓶颈理论的镜头聚类方法 | |
CN104050471B (zh) | 一种自然场景文字检测方法及系统 | |
EP3084682B1 (en) | System and method for identifying faces in unconstrained media | |
Cheng et al. | Robust face recognition based on illumination invariant in nonsubsampled contourlet transform domain | |
Herdiyeni et al. | Combination of morphological, local binary pattern variance and color moments features for indonesian medicinal plants identification | |
CN103927531A (zh) | 一种基于局部二值和粒子群优化bp神经网络的人脸识别方法 | |
CN104778457A (zh) | 基于多示例学习的视频人脸识别算法 | |
CN101493935B (zh) | 基于剪切波隐马尔可夫模型的合成孔径雷达图像分割方法 | |
CN102629321B (zh) | 基于证据理论的人脸表情识别方法 | |
CN102722734B (zh) | 一种基于曲波域双边二维主成分分析的图像目标识别方法 | |
CN113537316B (zh) | 一种基于4d毫米波雷达点云的车辆检测方法 | |
CN106570183A (zh) | 一种彩色图像检索和分类方法 | |
CN1975762A (zh) | 一种皮肤检测方法 | |
Feng et al. | Face liveness detection using shearlet-based feature descriptors | |
CN104361339A (zh) | 掌形图形提取及识别方法 | |
Deshpande et al. | Super resolution and recognition of unconstrained ear image | |
Ju et al. | A novel fully convolutional network based on marker-controlled watershed segmentation algorithm for industrial soot robot target segmentation | |
CN102509308A (zh) | 基于混合动态纹理空时显著性检测的运动分割方法 | |
Lu et al. | Finger vein recognition based on finger crease location | |
Karamizadeh et al. | Race classification using gaussian-based weight K-nn algorithm for face recognition. | |
CN111191549A (zh) | 一种两级人脸防伪检测方法 | |
He | Artificial intelligence English learning and recognition system based on EMD algorithm of vector geometric model | |
Liu et al. | Salient object detection fusing global and local information based on nonsubsampled contourlet transform | |
CN108805183A (zh) | 一种融合局部聚合描述符和局部线性编码的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080924 |