CN104318207A

CN104318207A - 一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法

Info

Publication number: CN104318207A
Application number: CN201410525162.7A
Authority: CN
Inventors: 檀结庆; 白天
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2014-10-08
Filing date: 2014-10-08
Publication date: 2015-01-28
Anticipated expiration: 2034-10-08
Also published as: CN104318207B

Abstract

本发明涉及一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，与现有技术相比解决了无法有效完成切变与渐变镜头检测的缺陷。本发明包括以下步骤：提取基于视觉中心的快速鲁棒特征，输入视频序列，定位视觉中心区域，提取SURF特征；检测切变镜头，进行变长切变检测，得到所有的切变镜头；检测渐变镜头，基于SVM学习和SURF特征的渐变镜头检测。本发明能够有效地判断出切变镜头和渐变镜头，提高了整个视频镜头分割的准确率和召回率，在光照剧烈变化和摄像机高速运动的情况下仍然能够保持准确地对视频镜头进行分割。

Description

一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法

技术领域

本发明涉及镜头检测技术领域，具体来说是一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法。

背景技术

近年来结构化视频数据分析技术大量运用到数字视频分析与处理中，在结构化视频数据分析中视频被划分为关键帧、镜头、场景、故事单元。在整个结构化视频分析中镜头是整个分析的基础,因此镜头边界检测是整个视频分析的第一步。

“镜头”是指摄像机连续拍摄得到的一组帧序列，在一个镜头内连续的两帧间具有很大的相似性。目前视频边界检测的研究方法基本可以分为如下几类：基于像素差值的方法、基于统计量的方法、基于灰度或直方图的方法、基于聚类的方法、基于特征的方法以及在压缩域对视频镜头检测的方法等等，其中直方图方法是采用的较多的一种方法。除此之外基于机器学习的一些方法也大量运用到镜头检测当中，Alan F.Smeaton和Paul Over对近年来的镜头边界检测方法进行了总结和比较，最终得出结论:“尽管在镜头边界检测方面已经提出了各种各样的方法，并都取得了不错的效果，但由于视频内容的多元性和不确定性，因此视频边界检测依然是一个比较大的难题，有待于继续进行研究”。

镜头检测方法的好坏一般取决于以下几个因素：1、特征提取，视频中有大量特征，如何选取关键特征来表示镜头是整个方法成败的关键。特征的提取不仅仅要考虑是否能够描述镜头，还要考虑特征的鲁棒性。例如光照的突然变化、摄像机的大范围运动等。2、切变与渐变：切变指的是镜头的突然变化，常常在两帧间完成。渐变的特点是一个镜头缓慢变化到另一镜头，往往在几十帧中完成，常见的渐变有溶解、擦除、淡入淡出等。相较于切变而言，渐变的检测更加困难，目前大部分的研究主要集中在渐变检测方面。

如何开发出一种有效地切变镜头、渐变镜头的检测方法已经成为急需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中无法有效完成切变与渐变镜头检测的缺陷，提供一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，包括以下步骤：

提取基于视觉中心的快速鲁棒特征，输入视频序列，定位视觉中心区域，提取SURF特征；

检测切变镜头，进行变长切变检测，得到所有的切变镜头；

检测渐变镜头，基于SVM学习和SURF特征的渐变镜头检测。

所述的提取基于视觉中心的快速鲁棒特征包括以下步骤：

输入视频序列，以一定的步长抽取两帧，定位每帧的视觉中心区域；

在每一帧的视觉中心区域提取SURF特征。

所述的检测切变镜头包括以下步骤：

比较提取的两帧的SURF特征相似度，其计算公式如下：

Sim (f_{i}, f_{i + 1}) = α \cdot \frac{M}{Min (N_{1}, N_{2})} + β \cdot (1 - \frac{| N_{1} - N_{2} |}{Max (N_{1}, N_{2})}),

其中，M为两帧图像匹配的SURF特征数，N1为前一帧图像提取出的SURF特征数，N2为另一帧图像提取出的SURF特征数，α和β为常数，代表两帧图像的特征匹配率和特征点数变化对整个相似度比较的贡献大小；

利用Sim(f_i，f_i+1)判断是否存在一个切变边界，其公式如下：

其中，fi为第i帧，T_cut为切变的阈值，Sim(fi,fi+1)为两帧的SURF特征相似度，Cut(fi,fi+1)为切变边界，

当Cut(fi,fi+1)为1时表示相邻两帧为一个切变过渡，存在一个切变边界。

所述的检测渐变镜头包括以下步骤：

利用SVM对渐变方式和摄像机运动方式的SURF特征进行提取，进行训练，得到训练模型；

构造二级分类器，其中第一级分类器用于区分摄像机运动和渐变过渡，第二级分类器用于排除摄像机高速不规则运动造成的误检；

确定渐变边界，针对切变检测输出的每段视频的集合F，通过渐变检测方法得到渐变边界。

所述的利用Sim(f_i，f_i+1)判断是否存在一个切变边界包括以下步骤：

输入第i帧、步长s和最后一帧的帧号end；

判断帧序列是否处理完，若i>end，则当前帧序列处理完毕，否则继续下一步处理；

若s＝1且Cut(f_i,f_i+s)＝1，则将检测到的相邻两帧f_i和f_i+s放入切变过渡集合C中，令i＝i+s,s＝s+2,继续判断帧序列是否处理完；

若s不等于1或Cut(f_i,f_i+s)不等于1，则进行下一步处理；

若Cut(f_i,f_i+s)＝0，则令i＝i+s,s＝s+2,继续判断帧序列是否处理完；

若Cut(f_i,f_i+s)不等于0，则令s＝s/2,继续判断帧序列是否处理完。

所述的第一级分类器提取特征向量的公式如下：

V₁＝{(v_i，j)|v_i，j＝mratio(f_i，f_j)，其中

i＝3·k，j＝3·k+3·N，k＝0，1，2，3，4，n＝1…5-k}

其中V₁代表15维特征向量，v_i，j表示i、j两帧的SURF特征匹配率；

针对特征向量进行规范化处理，特征分量的值分为0至4共5类，

v_i，j＝k，如果mratio(f_i，f_j)∈(k·d，k·d+d]，k＝0，…4

d＝[Max(v_i，j)-Min(v_i，j)]/5。

所述的第二级分类器提取特征向量的公式如下：

V₂＝{(v_i，j)|v_i，j＝vratio(f_i，f_j)}，

vratio (f_{i}, f_{j}) = \frac{dist (f_{i}, f_{j})}{M},

dist (f_{i}, f_{j}) = Σ_{1}^{M} [| X_{i} - X_{j} | + | Y_{i} - Y_{j} |],

其中M为i、j两帧匹配点数，X、Y表示匹配点的坐标；

对得到的所有dist(f_i，f_j)进行排序，取排序后较小的那一半的匹配距离。

所述的渐变检测方法包括以下步骤：

设F为切变检测输出的每段视频的集合、i＝0、f_first,f_end分别为F中的第一帧和最后一帧；

若Sim(f_first,f_end)<0.65，则进行下一步处理；

若Sim(f_first,f_end)大于或等于0.65，表示F中不存在渐变过渡；

判断F中帧检测是否结束，

若i大于或等于end，表示F中帧检测结束；

若i<end，则进行下一步处理；

将用于抽取滑动窗口的帧f_i到帧f_i+15的特征向量赋给第一级分类器向量V₁和第一级分类器向量V₂，对V₁和V₂利用二级分类器进行分类；

若分类结果为在F中存在渐变过渡且不是误检测，则将检测结果帧f_i到帧f_i+15保存到集合C中，令i＝i+3，判断F中帧检测是否结束；

若分类结果为在F中不存在渐变过渡，令i＝i+3，判断F中帧检测是否结束。

有益效果

本发明的一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，与现有技术相比能够有效地判断出切变镜头和渐变镜头，提高了整个视频镜头分割的准确率和召回率，在光照剧烈变化和摄像机高速运动的情况下仍然能够保持准确地对视频镜头进行分割。本发明提取视频的SURF特征作为镜头切变检测的特征，并在此基础上提出了一种变步长切变检测方法。对于渐变的检测，以学习摄像机运动特征和渐变过渡特征为思路，利用SVM进行学习得到两级分类器，利用其进行渐变检测。本发明在切变和渐变检测方面都有很好表现。

附图说明

图1为本发明的方法流程图；

图2为使用九宫法提取的视觉中心区域。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

本发明从工程应用的角度提出一种基于快速鲁棒特征和支持向量机的切变和渐变检测方法，在检测切变时设计了一种变步长的特征提取和匹配方法。在检测渐变时，利用支持向量机来学习摄像机运动造成的视频内容变化和渐变效果造成的视频内容变化不同。如图1所示，本发明所述的一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，包括以下步骤：

第一步，提取基于视觉中心的快速鲁棒特征，输入视频序列，定位视觉中心区域，提取SURF特征。其具体步骤如下：

(1)输入视频序列，以一定的步长抽取两帧，定位每帧的视觉中心区域。视觉中心为在每幅图像中最容易为目光所注意的地方，考虑到镜头要表现的内容处于视觉中心，因此提出以视觉中心区域为基础，提取SURF特征。定位每帧的视觉中心区域可以使用现有技术的内容，也可以使用九宫法来进行定位。

(2)在每一帧的视觉中心区域提取SURF特征。如图2所示，使用直线和横线相交的5个点作为整个构图的中心，从图2方框区域利用现有技术的方法来提取SURF特征(即A、B、C、D四点位置为所处小矩形的中心)。这样既可以减少特征点的提取和匹配，又能很好减少背景字幕等对匹配的干扰。

第二步，检测切变镜头，进行变长切变检测，得到所有的切变镜头。其具体步骤如下：

(1)比较提取的两帧的SURF特征相似度。由于切变指的是相邻的两帧分别属于不同的镜头，这个时候两帧的特征点匹配率将会急剧下降，同时不同镜头的帧的特征点数量也有很大差异，因此比较提取的两帧的SURF特征相似度可以很好的判断出切变镜头。其计算公式如下：

Sim (f_{i}, f_{i + 1}) = α \cdot \frac{M}{Min (N_{1}, N_{2})} + β \cdot (1 - \frac{| N_{1} - N_{2} |}{Max (N_{1}, N_{2})}),

其中，M为两帧图像匹配的SURF特征数，N1为前一帧图像提取出的SURF特征数，N2为另一帧图像提取出的SURF特征数，α和β为常数，代表两帧图像的特征匹配率和特征点数变化对整个相似度比较的贡献大小。经过实验总结得出，α可以为0.8，β可以为0.2。

(2)利用Sim(f_i，f_i+1)判断是否存在一个切变边界，其公式如下：

其中，fi为第i帧，T_cut为切变的阈值，经过实验总结得出T_cut可以为0.265，Sim(fi,fi+1)为两帧的SURF特征相似度，Cut(fi,fi+1)为切变边界，

逐帧两两匹配检测需要花费大量时间，而SURF自身具有尺度不变等特性,当镜头变化不是很剧烈时,同一类镜头的SURF特征匹配率变化不大，我们可以以一定的步长进行匹配。因此为了更好、更快速地检测出切变镜头，提出利用步长切变检测方法来判断Cut(fi,fi+1)，即利用Sim(f_i，f_i+1)判断是否存在一个切变边界。其具体步骤如下：

(1)输入第i帧、步长s和最后一帧的帧号end。

(2)判断帧序列是否处理完，若i>end，则当前帧序列处理完毕，否则继续下一步处理。

(3)若s＝1且Cut(f_i,f_i+s)＝1，则将检测到的相邻两帧f_i和f_i+s放入切变过渡集合C中，令i＝i+s,s＝s+2,增加步长，继续判断帧序列是否处理完；

若s不等于1或Cut(f_i,f_i+s)不等于1，则进行下一步处理。

(4)若Cut(f_i,f_i+s)＝0，则令i＝i+s,s＝s+2,增加步长，继续判断帧序列是否处理完；

若Cut(f_i,f_i+s)不等于0，则令s＝s/2,减少步长，继续判断帧序列是否处理完。

从以上方法可以看出，当每次Cut(f_i,f_i+s)匹配成功后，步长增加2，直到最后一帧停止。当Cut(f_i,f_i+s)匹配不成功时步长减半，这是为了能够快速向切变的位置靠拢。通过实验我们确定的初始步长为8，整个方法最好情况时间复杂度为O_(n/s)，最坏情况为O(n log₂ s)。

第三步，检测渐变镜头，在切变检测的基础上进行渐变检测，基于SVM学习和SURF特征的渐变镜头检测。其具体步骤如下：

(1)利用SVM对渐变方式和摄像机运动方式的SURF特征进行提取，进行训练，得到训练模型。SVM为现有技术中广泛使用的支持向量机，使用现有技术中的方法利用SVM提取渐变方式和摄像机运动方式的SURF特征，并训练出模型。

(2)构造二级分类器，其中第一级分类器用于区分大部分的摄像机运动和渐变过渡，由于第一级分类器并不能区分摄像机高速不规则运动造成的误检，因此设计第二级分类器，第二级分类器用于排除摄像机高速不规则运动造成的误检。

首先设置一个滑动窗口，在此我们选择16帧长度的滑动窗口，按以下公式提取特征向量供第一级分类器学习和分类：

V₁＝{(v_i，j)|v_i，j＝mratio(f_i，f_j)，其中

i＝3·k，j＝3·k+3·N，k＝0，1，2，3，4，n＝1…5-k}

其中V₁代表15维特征向量，它反映了窗口内的特征匹配率的变化情况，v_i，j表示i、j两帧的SURF特征匹配率。

抽取完特征向量后再对其进行规范化处理，特征分量的值分为0至4共5类，

v_i，j＝k，如果mratio(f_i，f_j)∈(k·d，k·d+d]，k=0，…4

d＝[Max(v_i，j)-Min(v_i，j)]/5。

第二类分类器主要是学习镜头的运动速率变化，其特征向量V₂的提取公式如下：

V₂＝{(v_i，j)|v_i，j＝vratio(f_i，f_j)}，

vratio (f_{i}, f_{j}) = \frac{dist (f_{i}, f_{j})}{M},

dist (f_{i}, f_{j}) = Σ_{1}^{M} [| X_{i} - X_{j} | + | Y_{i} - Y_{j} |],

其中M为i、j两帧匹配点数，X、Y表示匹配点的坐标。

考虑到误匹配现象，我们对得到的所有dist(f_i，f_j)进行排序，仅取排序后较小的那一半的匹配距离。

(3)确定渐变边界，针对切变检测输出的每段视频的集合F，通过渐变检测方法得到渐变边界。为了更好、更方便的获得渐变边界，在此提出借助训练得到的模型的渐变检测方法。

渐变检测方法包括以下步骤：

A、设F为切变检测输出的每段视频的集合、i＝0、f_first,f_end分别为F中的第一帧和最后一帧。

B、通过实验分析可知当Sim(f_first,f_end)<0.65时，则在f_first和f_end间可能存在渐变。因此若Sim(f_first,f_end)<0.65，则表示可能存在渐变，进行下一步处理；

若Sim(f_first,f_end)大于或等于0.65，表示F中不存在渐变过渡。

C、判断F中帧检测是否结束，

若i大于或等于end，表示F中帧检测结束，整个方法结束；

若i<end，则进行下一步处理。

D、将用于抽取滑动窗口的帧f_i到帧f_i+15的特征向量赋给第一级分类器向量V₁和第一级分类器向量V₂，对V₁和V₂利用二级分类器进行分类。

E、若分类结果为在F中存在渐变过渡且不是误检测，则将检测结果帧f_i到帧f_i+15保存到集合C中，确定为渐变镜头。再令i＝i+3，再次判断F中帧检测是否结束。若分类结果为在F中不存在渐变过渡，同样令i＝i+3，判断F中帧检测是否结束。通过渐变检测方法，可以有效降低了检测算法的计算时间。

为了验证本发明检测方法的有效性，我们做了大量的实验，将本发明应用到TRECVID2001视频数据库中，对分割效果进行定性与定量分析。同时用不同的检测方法对同一视频序列进行计算，进行定性分析来判定各种方法的优劣程度。

用本发明的检测方法与非专利文献1(非专利文献1：“Efficient ShotBoundary Detection Based on Scale Invariant Features”.Proceedings of 5thInternational Conference on Image and Graphics.2009:952-957)、非专利文献2(非专利文献2：“Shot boundary detection at trecvid 2007”,[2011-04-12].http://wwwnlpir.nist.gov/projects/tvpubs/tv.pubs.org.htm)、非专利文献3(非专利文献3：Supervised classification for video shot segmentation，InternationalConference on Multimedia and Exp.2003：689-692)提出检测方法分别运用于TRECVID2001视频数据库中，用不同的检测方法分割同一视频序列，进行定量分析来判定跟踪方法的优劣程度。定量评估方法采用国际上通用的查全率(recall)、查准率(precision)、以及F分数。结果显示本发明的方法在切变和渐变方面都有较好的表现。如表1所示，本发明的检测方法和非专利文献1、2提出的检测方法查全率和查准率的实验结果。

表1查全率和查准率的实验结果

如表2所示，本发明的检测方法和非专利文献1、2提出的检测方法F指标比较结果。

表2F指标比较结果

由上可见，在切变方面性能略逊于非专利文献1的方法，但运算时间却有很大提高(运算时间平均提高了5倍)。在渐变检测方面本方法也较其它两种方法有较大提升，可见利用SURF和SVM学习摄像机运动方式和渐变过渡不同的方法是切实有效的。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，其特征在于,包括以下步骤：

11)提取基于视觉中心的快速鲁棒特征，输入视频序列，定位视觉中心区域，提取SURF特征；

12)检测切变镜头，进行变长切变检测，得到所有的切变镜头；

13)检测渐变镜头，基于SVM学习和SURF特征的渐变镜头检测。

2.根据权利要求1所述的一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，其特征在于，所述的提取基于视觉中心的快速鲁棒特征包括以下步骤：

21)输入视频序列，以一定的步长抽取两帧，定位每帧的视觉中心区域；

22)在每一帧的视觉中心区域提取SURF特征。

3.根据权利要求1所述的一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，其特征在于，所述的检测切变镜头包括以下步骤：

31)比较提取的两帧的SURF特征相似度，其计算公式如下：

Sim (f_{i}, f_{i + 1}) = α \cdot \frac{M}{Min (N_{1}, N_{2})} + β \cdot (1 - \frac{| N_{1} - N_{2} |}{Max (N_{1}, N_{2})}),

32)利用Sim(f_i，f_i+1)判断是否存在一个切变边界，其公式如下：

4.根据权利要求1所述的一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，其特征在于，所述的检测渐变镜头包括以下步骤：

41)利用SVM对渐变方式和摄像机运动方式的SURF特征进行提取，进行训练，得到训练模型；

42)构造二级分类器，其中第一级分类器用于区分摄像机运动和渐变过渡，第二级分类器用于排除摄像机高速不规则运动造成的误检；

43)确定渐变边界，针对切变检测输出的每段视频的集合F，通过渐变检测方法得到渐变边界。

5.根据权利要求3所述的一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，其特征在于，所述的利用Sim(f_i，f_i+1)判断是否存在一个切变边界包括以下步骤：

51)输入第i帧、步长s和最后一帧的帧号end；

52)判断帧序列是否处理完，若i>end，则当前帧序列处理完毕，否则继续下一步处理；

53)若s＝1且Cut(f_i,f_i+s)＝₁，则将检测到的相邻两帧f_i和f_i+1放入切变过渡集合C中，令i＝i+s,s＝s+2,继续判断帧序列是否处理完；

若s不等于1或Cut(f_i,f_i+s)不等于1，则进行下一步处理；

54)若Cut(f_i,f_i+s)＝0，则令i＝i+s,s＝s+2,继续判断帧序列是否处理完；

6.根据权利要求4所述的一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，其特征在于，所述的第一级分类器提取特征向量的公式如下：

V₁＝{(v_i，j)|v_i，j＝mratio(f_i，f_j)，其中

i＝3·k，j＝3·k+3·N，k＝0，1，2，3，4，n＝1…5-k}

v_i，j＝k，如果mratio(f_i，f_j)∈(k·d，k·d+d]，k＝0，…4

d＝[Max(v_i，j)-Min(v_i，j)]/5。

7.根据权利要求4所述的一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，其特征在于，所述的第二级分类器提取特征向量的公式如下：

V₂＝{(v_i，j)]v_i，j＝vratio(f_i，f_j)}，

vratio (f_{i}, f_{j}) = \frac{dist (f_{i}, f_{j})}{M},

dist (f_{i}, f_{j}) = Σ_{1}^{M} [| X_{i} - X_{j} | + | Y_{i} - Y_{j} |],

其中M为i、j两帧匹配点数，X、Y表示匹配点的坐标；

8.根据权利要求4所述的一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法，其特征在于，所述的渐变检测方法包括以下步骤：

81)设F为切变检测输出的每段视频的集合、i＝0、f_first,f_end分别为F中的第一帧和最后一帧；

82)若Sim(f_first,f_end)<0.65，则进行下一步处理；

若Sim(f_first,f_end)大于或等于0.65，表示F中不存在渐变过渡；

83)判断F中帧检测是否结束，

若i大于或等于end，表示F中帧检测结束；

若i<end，则进行下一步处理；

84)将用于抽取滑动窗口的帧f_i到帧f_i+15的特征向量赋给第一级分类器向量V₁和第一级分类器向量V₂，对V₁和V₂利用二级分类器进行分类；

85)若分类结果为在F中存在渐变过渡且不是误检测，则将检测结果帧f_i到帧f_i+15保存到集合C中，令i＝i+3，判断F中帧检测是否结束；