CN103310451A

CN103310451A - 基于渐进二分和自适应阈值的视频镜头边界检测方法

Info

Publication number: CN103310451A
Application number: CN2013102378759A
Authority: CN
Inventors: 张鹏洲; 霍奕; 王艳峰; 温宇俊; 龚隽鹏; 张弛
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2013-06-17
Filing date: 2013-06-17
Publication date: 2013-09-18
Anticipated expiration: 2033-06-17
Also published as: CN103310451B

Abstract

本发明属于多媒体检索领域，公开了一种基于渐进二分和自适应阈值的视频镜头边界检测方法，包括：步骤一，根据不同视频类型自适应地调整检测单元长度；步骤二，将待检测视频分成长度相等的一组子视频，依次建立帧间差直方图，并由此确定这一子视频的镜头检测阈值；步骤三，对每一个子视频使用步骤二得到的检测阈值进行基于渐进二分策略的视频镜头边界检测。本发明所述的渐进二分策略，能够以对数级地降低计算量；通过在视频渐变镜头变化区间范围内进行二分法检测，解决了视频镜头边界检测中渐变镜头检测难的问题。自适应阈值方法对切变和渐变检测的阈值进行了进一步区分，能够根据视频类型自适应地调整检测单元长度。

Description

基于渐进二分和自适应阈值的视频镜头边界检测方法

技术领域

本发明属于多媒体检索领域，涉及一种基于渐进二分和自适应阈值的视频镜头边界检测方法。

背景技术

目前的视频镜头边界检测算法普遍采用线性计算方法，顺序地计算帧间差异并研究变化值。因线性计算需要比较给定视频每相邻两帧的差异，耗时长，因而不适用大规模的视频库。

为解决这个问题，Kien A.Hua于2000年在ACM Multimedia2000上发表的论文“DetectingVideo Shot Boundaries up to16Times Faster”中，提出了利用镜头内帧间上下文的相似性忽略一些不必要的比较计算，从而降低时间复杂度的两种非线性算法。第一种是规则跳略，即每隔d帧进行一次比较计算。假设d=2，它比较第1帧和第3帧，第3帧和第5帧，依此类推。如果发现有第i帧和第i+2帧在不同的镜头，则比较第i帧和第i+1帧。如果第i帧和第i+1帧位于不同镜头，则镜头分界在第i帧和第i+1帧之间；否则就在第i+1帧和第i+2帧之间。一旦新的镜头被识别，同样的过程从新镜头的第一帧开始重复。这个方案很简单，但已经可以将比较计算次数减到一半左右。第二种算法是自适应跳略算法，它动态确定d的值。在每一次重复计算中，如果这一次比较计算结果表明比上一次更相似，则增大d值；否则减小d值。如果本次比较表明这两帧位于不同的镜头，则后退计算寻找镜头边界。一旦找到准确镜头边界，再用同样方法继续前向计算。

最直观的渐变镜头检测方法是根据渐变镜头产生式进行检测，其缺点是只能检测出已经定义好的渐变类型的镜头，但在实际中无法预测出所有渐变镜头的类型。

一种典型的渐变镜头检测方法是张宏江于1993年在《Multimedia Systems》期刊上发表的论文“Automatic partitioning of full-motion video”中提出的双阈值法，这种方法基于Gaussian分布确定阈值，其中T_b=μ+ασ的参数α是固定参数，当用于不同类型的视频时，由于参数α固定，因此这种方法确定的阈值不具有很好的适应力。

另一类常见的渐变镜头检测方法是机器学习法，它为待检测视频建立SVM（SupportVector Machines，支持向量机）模型、HMM（Hidden Markov Model，隐马尔可夫模型）模型、KNN（K-Nearest Neighbor algorithm，K最邻近结点算法）模型、贝叶斯模型等，机器学习法需要训练视频集对这些机器学习模型进行参数训练，然后再用于新视频的镜头检测。机器学习法对新视频进行镜头检测的结果与训练视频集有关，如果训练集选取不当，会影响最终的检测结果。

还有一类渐变镜头检测方法是建立数学模型法。B样条插值曲线拟合法从视频帧序列提取帧间方差特征，并映射到曲线上，用B样条曲线对它的拟合度检测叠化镜头边界。袁进辉于2005年在《Proceedings of the13th annual ACM international conference on Multimedia》会议上发表的论文“A Unified Shot Boundary Detection Framework Based on Graph Partition Model”中，提出了基于图分割模型的统一的镜头边界检测框架。图分割模型将每一帧看作一个节点，每两个节点间用边连接，这样可以创建一个加权的图，从而把镜头边界检测问题表示为图分割问题。将视频镜头边界看作是多分辨率的边现象，它将视频序列的表示转化到多维特征空间中点轨迹的表示，然后用视频信号轨迹的导数来检测镜头边界。数学建模法需要将视频序列结构转换为数学模型，然后再对新的模型进行检测，而数学建模过程本身就有很高的计算复杂度。

最典型的进行视频镜头边界检测的阈值确定方法是根据特征进行检测。常用的视觉特征有颜色特征、轮廓特征和运动特征。首先要提取每帧视频的特征，并计算相邻帧间的特征差值，并与阈值进行比较，大于阈值的位置即为镜头边界。

经典的阈值算法是张宏江提出的根据视频帧特征差的Gaussian分布求取的检测阈值，假设差值的均值和方差分别为m和δ，则阈值为T=m+sδ，其中s取3-5。这种方法的不足之处是参数s为固定参数，不能根据视频类型进行自动地调整。

其他确定视频镜头边界的方法是机器学习法，但是检测结果是与训练集相关的。

Jie Zheng于2004年在《International Symposium on Intelligent Multimedia,Video and SpeechProcessing》会议上发表的“An Efficient Algorithm for Video Shot Boundary Detection”上提出了根据各帧差异值的帧数确定镜头边界的方法。这种方法为各个帧间差异值对应的帧数目进行统计，建立起[0,MAX]的直方图(MAX为帧差异最大值)，定义分离度为[0,MAX]上连续0的数目。帧间差直方图中的第一个趋零点即为视频镜头检测的阈值。

这种方法相比张宏江的阈值确定方法和机器学习法可以根据每个视频自身的特征生成检测阈值而且不需要训练集。但在Jie Zheng的方法中，没有对切变和渐变检测的阈值进行区分，而且检测单元长度也是固定长度的，不能根据不同视频类型自适应地调整检测单元长度。

发明内容

针对视频镜头边界检测方法中存在的上述问题，本发明提出了一种基于渐进二分策略和自适应阈值进行视频镜头边界检测的方法，降低了计算复杂度，能够检测出各种类型的渐变镜头，可以根据不同视频类型自适应地调整检测单元长度。

渐进二分策略主要解决视频镜头检测时计算量大和对渐变类型镜头检测的问题，它在视频序列范围内渐进地使用二分法进行视频镜头检测。当一个新的镜头边界被检测到时，以这个位置为新的起点，向前推进一个渐变检测区间范围，然后在这一新的范围内继续使用二分法进行镜头边界检测，直到到达视频终点。

自适应阈值法是对JieZheng提出的对各个帧差差异值上的帧数统计，然后根据分离度确定阈值的方法，从切变和渐变检测阈值的区分、采样区间长度的确定两方面进行扩展。

镜头内的帧间差值集中在x轴靠近原点的区域，渐变位置的帧间差值集中在中间区域，而切变位置的帧间差值位于x轴右边。如图2所示，[1,a]为镜头内的帧间差值，[b,c]为渐变位置的帧间差值，而[d,101]为切变位置的帧间差值（Matlab数组下标从1开始，为计算方便，将阈值0～1调整到0.01～1.01，因此将阈值乘以100后，阈值范围为[1,101]）。因此，由此段视频的帧间差直方图可以判定渐变镜头检测的阈值为T=a，切变镜头检测的阈值为T=c。

所有视频都采用统一长度的采样区间求取帧间差直方图，不能很好地反映出帧间差值的阈值分布特征。实验表明，当视频段中有num=1～8个镜头边界位置时，该视频段对应的帧间差直方图能最好地反映出阈值分布特征，在本方法中取num=4个镜头。但在实际检测时，不能预知一个待检测视频中的镜头总数，可采用泊松分布模拟一段视频中单位长度视频段内镜头出现的次数，其概率分布函数为：

P (x = k) = \frac{λ^{k}}{k!} e^{- λ} - - - (1)

式中，k表示单位长度视频段中镜头出现次数，λ表示这个视频在单位长度视频段中镜头出现的平均次数。

本发明采用最大似然估计法由给定的n个样本视频段求一整段视频的泊松分布参数λ的估计。根据帕累托定律，即采样视频帧总量为待检测视频帧数的20%，n的取值为：

n = \frac{20 % \times N}{A} - - - (2)

式中，N为待检测视频帧的总数，A为每个采样视频段的帧数。

λ的对数似然函数为：

\log Π_{i = 1}^{n} f (k_{i} | λ) = Σ_{i = 1}^{n} \log (\frac{λ^{k_{i}}}{k_{i}!} e^{- λ}) = - nλ + (Σ_{i = 1}^{n} k_{i}) \log (λ) - Σ_{i = 1}^{n} \log (k_{i}!)

式中，k_i为第i个视频段单位视频长度镜头出现的次数。

上式对λ求导并令导数为0得：

- n + (Σ_{i = 1}^{n} k_{i}) \frac{1}{λ} = 0

解方程得到对λ最大似然估计

{\hat{λ}}_{MLE} = \frac{1}{n} Σ_{i = 1}^{n} k_{i} - - - (3)

将对λ的最大似然估计应用到本环境下，从待检测视频序列中抽取n个样本，然后由上式求出

即为单元采样区间上的镜头数，也可称为该视频的镜头出现速度。则出现num（num=1～8）个镜头的视频帧长度L为：

L = \frac{A}{{\hat{λ}}_{MLE}} \times num - - - (4)

综上所述，本发明的技术方案为：首先确定检测子视频区间长度，然后对每个子视频，求它的帧间差直方图，并确定这一个子视频的检测阈值，最后运用渐进二分策略检测镜头。

一种基于渐进二分和自适应阈值的视频镜头边界检测方法，其特征在于包括以下步骤：

步骤一，根据不同视频类型自适应地调整检测单元长度：使用极大似然法估计视频镜头出现速度，然后求出平均出现num（num=1～8）个镜头的视频帧数，并将视频分为长度均为该视频帧数的一组子视频。方法如下：

（1）采用最大似然估计法，由给定的n个样本视频段求出一整段视频的泊松分布参数λ的估计即视频镜头出现速度。n和

分别由式（2）和式（3）求解。

（2）由（4）式求子视频的长度。

步骤二，将待检测视频分成长度均为L的一组子视频，然后依次对每一个子视频建立帧间差直方图，如图3所示，通过统计找出其最长的两个零区间[a,b]和[c,d]，a<b<c<d，并由此确定这一子视频的镜头检测阈值为T=c。

步骤三，对每一个子视频使用步骤二得到的检测阈值c进行基于渐进二分策略的视频镜头边界检测，方法如下：

（1）对起始帧和左帧作比较计算，若差异值大于阈值，表明左帧位置为镜头分界点，令新的起始帧为左帧，重复（1），进入下一轮计算；否则，转下一步。

（2）对起始帧和右帧作比较计算，如果差异值小于阈值，表明镜头分界点在右帧右侧，令右帧为起始帧，转（1），进入下一轮计算；否则，转下一步。

（3）差异值大于阈值，表明镜头分界点在右帧左侧，取左帧和右帧之和的一半为中间帧。

（4）比较起始帧和中间帧，如果差异值大于阈值，镜头点在中间帧左侧，令中间帧为右帧，若此时右帧与左帧相邻，则右帧为镜头分界点，令新的起始帧为右帧，转（1），进入下一轮计算；若不相邻，则再取中间帧，重复（4）；如果差异值小于阈值，转下一步。

（5）差异值小于阈值，表明镜头点在中间帧右侧，令中间帧为左帧，若此时左帧与右帧相邻，则右帧为镜头分界点，令新的起始帧为右帧，转（1），进入下一轮计算；若不相邻则再取中间帧，转（4）。

在上述检测过程中,如果起始帧超出镜头范围，检测结束。

与现有技术相比本发明的有益效果是：

（1）本发明所述的渐进二分策略，利用了连续视频帧的逐渐变化性，渐进地使用二分法快速定位到镜头边界位置，能够以对数级地降低计算量，相比线性计算和其他非线性算法在时间复杂度上有很大改进。

（2）本发明所述的渐进二分策略，通过在视频渐变镜头变化区间范围内进行二分法检测，能够快速定位到渐变镜头位置，而不必考虑渐变镜头的类型，解决了视频镜头边界检测中渐变镜头检测难的问题。

（3）自适应阈值方法对切变和渐变检测的阈值进行了进一步区分，采用最大似然估计法计算平均出现num（1～8）个镜头的视频帧数，并以此为子视频长度将视频划分为一组子视频，从而能够根据视频类型自适应地调整检测单元长度。

附图说明

图1基于渐进二分和自适应阈值的视频镜头边界检测方法流程图；

图2渐进二分法执行过程示意图；

图3帧间差直方图与其阈值分布特征示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。

本实施例从TRECVID2001-2005提供的视频集中随机选取20段视频进行实验，共包含306321帧、2140个镜头。测试机型是Intel Core i3-2100CPU，内存2G，操作系统是Windows7，使用Matlab进行编程。

渐变镜头的范围为3～30帧，如图2所示，第一次检测的起始帧为1，左帧=起始帧+3，右帧=起始帧+30。这样设置左帧和右帧，是为了与渐变区间范围一致，从而可以用切变阈值检测到渐变镜头。

图1为本发明所述方法的流程图，包括以下步骤：

步骤一，根据不同视频类型自适应地调整检测单元长度：使用极大似然法估计视频镜头出现速度，然后求出平均出现num（本实施例取num=4）个镜头的视频帧数，并将视频分为长度均为该视频帧数的一组子视频。方法如下：

（1）采用最大似然估计法，由给定的n个样本视频段求出一整段视频的泊松分布参数λ的估计

求解公式如公式（2）和（3）。本实施例中，A=300，N=306321。

（2）由公式（4）求子视频的长度L。

步骤二，将待检测视频分成长度均为L的一组子视频，然后依次对每一个子视频建立帧间差直方图，如图3所示，通过统计找出其最长的两个零区间[a,b]和[c,d]，并由此确定这一子视频的镜头检测阈值为T=c。

步骤三，对每一个子视频使用步骤二得到的检测阈值c进行基于渐进二分策略的视频镜头边界检测。检测过程中,如果起始帧超出镜头范围，检测结束。

采用查全率、查准率和F-measure（查全率和查准率的加权调和值）三项指标，从切变检测和渐变检测两方面分别对本发明所述方法检测的准确率进行评价。采用不同方法进行切变镜头和渐变镜头检测的查全率、查准率和F-measure分别如表1、和表2所示。表中，InformationTheory-Based为基于信息论的方法，Dwt-based&SVM为基于离散小波变换和支持向量机的方法，SVM-based with novel feature为基于支持向量机并使用新特征的方法，Temporal PatternClassification为基于时空样式分析的方法，Average Frame Similarity为平均帧相似度法，Colorcoherence为颜色相关性法。

由表1可知，在切变检测方面，本发明所述方法的查全率、查准率和F-measure均明显高于其它几种方法，具有最好的检测准确率；同时，由表2可知，在渐变检测方面，本方法与同类方法相比仍然具有最好的检测准确率。

表1本发明所述方法和其它同类方法进行切变镜头检测的准确率

	查全率	查准率	F-measure
				Information Theory-Based	97.0%	95.0%	96.0%
Dwt-based&SVM	92.4%	95.4%	93.9%
				SVM-based with novel feature	94.5%	91.6%	93.0%
Temporal Pattern Classification	92.7%	93.0%	92.8%
				本发明所述方法	98.6%	98.8%	98.7%

表2本发明所述方法和其它同类方法进行渐变镜头检测的准确率

	查全率	查准率	F-measure
				Dwt-based&SVM	82.1%	87.2%	85.1%
Temporal Pattern Classification	75.4%	83.5%	79.3%
				Average Frame Similarity	83.5%	75.0%	79.0%
Color coherence	88.0%	73.0%	79.8%
				本发明所述方法	88.7%	87.6%	88.1%

申请号为CN201010228739.X名称为“一种全自动2D转3D技术中的实时镜头检测方法和装置”的发明专利与本发明相比，该专利只是对切变和淡入淡出类型的渐变镜头检测效果比较好，而本发明所述方法是将淡入淡出类型的渐变镜头归入切变镜头，且切变检测的查全率和查准率达到了98.6%，优于申请号为CN201010228739.X的专利。

通过统计视频镜头检测过程中的比较次数，对不同方法进行视频镜头检测的时间复杂度进行评价。表3是采取4种不同方法进行视频镜头检测的比较次数。由表3可知，对于含有306321帧的视频，本发明所述方法只进行了121811次比较计算，只占视频帧总数306321的1/3，与其它3种算法相比计算复杂度是最低的。

表3不同方法进行视频镜头检测的比较次数（单位：次）

H.J.Zhang	规则跳略	自适应跳略	本发明所述方法
				612642	167593	480985	121811

Claims

1.一种基于渐进二分和自适应阈值的视频镜头边界检测方法，其特征在于自适应地调整检测单元长度，并采用渐进二分策略进行视频镜头边界检测，包括以下步骤：

步骤一，根据不同视频类型自适应地调整检测单元长度，方法如下：

即视频镜头出现速度；n和

分别由式（1）和式（2）求解：

n = \frac{20 % \times N}{A} - - - (1)

{\hat{λ}}_{MLE} = \frac{1}{n} Σ_{i = 1}^{n} k_{i} - - - (2)

式中，N为待检测视频帧的总数，A为每个采样视频段的帧数；k_i为第i个视频段单位视频长度镜头出现的次数；

（2）由下式求子视频的长度L：

L = \frac{A}{{\hat{λ}}_{MLE}} \times num - - - (3)

式中，num为由实验发现的视频段对应的帧间差直方图能最好地反映阈值分布特征时视频段中包含镜头边界的个数，1≤num≤8；

步骤二，将待检测视频分成长度均为L的一组子视频，然后依次对每一个子视频建立帧间差直方图，通过统计找出其最长的两个零区间[a,b]和[c,d]，a<b<c<d，并由此确定这一子视频的镜头检测阈值为T=c；

（1）对起始帧和左帧作比较计算，若差异值大于阈值，表明左帧位置为镜头分界点，令新的起始帧为左帧，重复（1），进入下一轮计算；否则，转下一步；

（2）对起始帧和右帧作比较计算，如果差异值小于阈值，表明镜头分界点在右帧右侧，令右帧为起始帧，转（1），进入下一轮计算；否则，转下一步；

（3）差异值大于阈值，表明镜头分界点在右帧左侧，取左帧和右帧之和的一半为中间帧；

（4）比较起始帧和中间帧，如果差异值大于阈值，镜头点在中间帧左侧，令中间帧为右帧，若此时右帧与左帧相邻，则右帧为镜头分界点，令新的起始帧为右帧，转（1），进入下一轮计算；若不相邻，则再取中间帧，重复（4）；如果差异值小于阈值，转下一步；

（5）差异值小于阈值，表明镜头点在中间帧右侧，令中间帧为左帧，若此时左帧与右帧相邻，则右帧为镜头分界点，令新的起始帧为右帧，转（1），进入下一轮计算；若不相邻则再取中间帧，转（4）；

在上述检测过程中,如果起始帧超出镜头范围，检测结束。