CN108764060A

CN108764060A - 基于滑动窗口的视频镜头边缘检测方法

Info

Publication number: CN108764060A
Application number: CN201810424830.5A
Authority: CN
Inventors: 刘若歆; 张鹏洲; 王璇
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2018-11-06

Abstract

基于滑动窗口的视频镜头边缘检测方法涉数据分析、图像处理、多媒体检索领域，针对视频图像特征进行分析，通过滑动窗口的思想，找到镜头切变的位置。本发明可以应用在基于内容的视频检索。本发明通过提取图像的颜色直方图特征，计算出一个视频中相邻帧的相似度。同一个镜头内图像帧的相似度较大，镜头之间帧的相似度较小，如果发现相邻帧的相似度过小，我们可以认为出现了镜头的切变。但是由于颜色直方图本身的局限性以及噪声等的影响，同一个镜头内相邻帧会出现相似度过小或则镜头相接的地方出现相似度过大这种反规律现象。为了克服这些问题，本发明将滑动窗口的思想应用到算法中,增强镜头切变点的规律性，避免特征值局限性和噪声影响等，增强了算法的鲁棒性和准确率。

Description

基于滑动窗口的视频镜头边缘检测方法

技术领域

本发明涉数据分析、图像处理、多媒体检索领域，针对视频图像特征进行分析，通过滑动窗口的思想，找到镜头切变的位置。本发明可以应用在基于内容的视频检索。

背景技术

在基于内容的视频检索中，镜头是视频结构的基本单位，因此，视频检索的首要工作就是从视频流中找到镜头变换的边界，从而对视频流进行切分以得到独立的镜头。镜头识别也称镜头切分，是视频数据进行结构化的第一步，其效果的优劣直接影响到视频特征的提取、更高层结构的描述以及视频的浏览和检索，因此，镜头分割在基于内容的视频检索中有非常重要的地位。

目前，镜头边界检测常见的检测方法如下：

(1)直接利用帧间灰度差值或颜色差值的镜头分割方法

该方法计算两帧图像间的灰度或颜色差值，并判断该差值是否大于一定的门限值，如果大于，就认为检测到一个镜头切换。该方法原理简单，也是以后很多算法的基础，但是这种方法对噪声敏感，当发生目标或相机运动时容易出错。

(2)基于边缘检测的镜头分割方法

通过检测前后帧图像边缘的匹配程度，其实也就是利用图像的轮廓特征进行比较，通过数学的方法可以对这个轮廓进行量化。

(3)基于直方图的镜头分割方法

直方图描述了一幅图像的颜色分布情况，通过直方图间的相似度可以判断图像间的相似情况，并以此来判断是否有场景切换。但直方图不能反映像素的位置信息和图像的整体内容，因此两幅完全不同的图像可能有相同的直方图信息。

(4)基于MPEG视频的镜头分割方法

基于MPEG的镜头分割方法很多，大多数均是利用DCT系数的相关性、方差、预测的统计特性以及DC帧差等各种数据的组合来判断是否有镜头切换。

(5)基于块的镜头分割方法

这种方法是针对非压缩视频的。与前面提到的对相邻帧图像上每点像素进行比较的方法不同，基于块的方法利用了图像的局部特征来限制噪声和相机运动造成的影响，它将每帧图像分为n×n个小块，然后将相邻帧的对应块进行比较。

(6)基于双值门限比较法的镜头分割方法

上面提到的方法对于检测场景变化中镜头的突变是行之有效的，但对于诸如分解、淡入、淡出这类缓变的镜头，这些方法显然不合适。此时可以通过双值门限比较法来检测镜头的变化。该方法设置两个门限值T_b和T_s，当帧差大于T_b时存在镜头突变。当帧差大于T_s而小于T_b时，存在镜头缓变，当相邻帧帧差超过T_s时，该段连续帧的首帧称为镜头缓变的起始帧。计算两种帧差：一种是相邻帧帧差F_dl，另一种是相隔L帧的帧差F_dL，从缓变起始帧开始逐渐增加L，显然相隔帧的帧差随L的增加而增加，因为相隔帧帧差是一个累计帧差，当相隔帧的帧差累计超过T_b而相邻帧帧差F_dl低于Ts时，这一帧便为镜头缓变的终止帧。

(7)基于聚类/模糊聚类的镜头分割方法

该方法不但可用于检测镜头突变也可用于检测镜头缓变。基于模糊聚类的镜头分割方法将一段视频进行模糊聚类，得到各帧属于明显变化和非明显变化的两类场景的隶属度。如果某帧属于明显变化的隶属度大于它属于非明显变化的隶属度，则该帧属于明显变化类，并用1表示，反之用0表示，这样便把视频表示成二进制序列。视频中镜头的突变和渐变具有一定模式，因此可对二进制序列进行模式判别，以此来检测镜头的突变与缓变。

(8)统计判决的镜头分割方法

该方法利用运动补偿特征、自适应门限值技术、视频序列的时序镜头突变模式和镜头长度分布信息建立一个统计判决模型，该方法推导出的判断可使镜头监测错误率降到最低，但计算复杂度很高。

从以上几种方法的综述及分析中可以看到，镜头分割算法主要都是利用镜头在切换时，视频数据会发生一系列的变化，如颜色差异突然增大、新旧边缘的远离、对象形状的改变和运动的不连续性等。但是，现有的算法存在一些问题：1、门限选取困难。有的视频变化缓慢，应选取较小的门限；反之则应选取较大的门限。对于两种不同的镜头边界要分别找出相应的门限选取方法。需要不断试验，尽量达到均衡，并综合利用人的知识进行人机交互式学习选取合适的门限。2、现有算法抗干扰性较差，如遇到闪光灯噪声，均易误判为镜头的切变。

本发明与现有技术相比，有明显的优势。通过引入滑动窗口的思想，增强了镜头切变的规律性，同时过滤掉闪光灯噪声的污染，提高了镜头检测的准确率和效率。

发明内容

本发明通过提取图像的颜色直方图特征，计算出一个视频中相邻帧的相似度。同一个镜头内图像帧的相似度较大，镜头之间帧的相似度较小，如果发现相邻帧的相似度过小，我们可以认为出现了镜头的切变。但是由于颜色直方图本身的局限性以及噪声等的影响，同一个镜头内相邻帧会出现相似度过小或则镜头相接的地方出现相似度过大这种反规律现象。为了克服这些问题，本发明将滑动窗口的思想应用到算法中,增强镜头切变点的规律性，避免特征值局限性和噪声影响等，增强了算法的鲁棒性和准确率。

本发明的目的是提出一种基于滑动窗口的镜头边缘检测方法，提高镜头检测的精准度，为高效的镜头检测奠定基础。

本发明一种基于滑动窗口的镜头边缘检测方法实现的具体步骤阐述如下：

(1)选取特征值。

RGB空间的颜色直方图作为镜头边界检测的主要特征时，可以很好的保留其统计信息。但由于全局直方图丢失了颜色的位置信息，所以本发明用分块直方图的方法进行改进，以得到适当的图像位置信息。颜色空间分为N个区间，然后计算落入每一个小区间的像素点的数目。假设，颜色空间分为N个区间，g_i是第g帧中落入第i个颜色区间的像素的数目，若设两个视频帧分别为G，S，则这两个视频帧的相似度可以表示为如下：

(2)利用滑动窗口，计算窗口内相似度之和。本发明利用滑动窗口的思想，处理镜头边缘检测的问题。传统的检测方法是比较相邻帧之间的相似度，首先设定一个经验阈值，当相似度小于这个经验阈值时，就认为出现了一个新的镜头。但是，当遇到镜头的渐变或者是闪光灯情况干扰时，容易出现错检。本发明的滑动窗口根据经验设定一个窗口大小4(说明：该取值为经验值，经过1000次的实验，发现窗口大小设为4能取得较好的效果)，然后计算整个窗口内的相似度之和。当所有的帧都进入了滑动窗口后，整个计算结束。此时，将之前的相似度数据进行数学处理，在波谷的位置就是新的镜头。

附图说明

图1为视频结构图；

图2为基于滑动窗口的镜头边界检测算法示意图；

图3视频帧序列；

图4相似度曲线图

图5受到闪光干扰的视频帧

图6滑动窗口操作实例图

图7相似度队列曲线图

具体实施方式

本发明基于滑动窗口的镜头边界检测算法在Visual Studio 2008平台上进行实现，编程语言采用的是c#。本实施例从百度视频集中随机选取1000段视频进行实验，共包含7504050帧、2025个镜头。测试机型是Intel Core i5-3230CPU，内存4G，操作系统是Windows7。

滑动窗口在程序里是以队列的形式存在。基于滑动窗口的镜头边界检测算法流程如下：

1、滑动窗口初始化：为避免镜头边界检测过程中出现噪声等污染，提高镜头检测的准确率，提出了滑动窗口概念。滑动窗口的长度用T_w表示。根据实验经验，将T_w的值置为4。当T_w设为4时，实验效果最好。

2、相似度队列初始化：初始化两个队列，视频帧队列L₁，相似度队列L₂；随着滑动窗口的滑动，通过相似度队列L₂，记录下滑动过程L₁中相似度的变化。

3、镜头聚类过程

①假设当前滑窗的起始镜头帧为f₁，在Tw范围内求出所有帧f₂,…f_Tw与f₁相似度之和，我们用D₁表示L₁队列起始帧是f₁时的相似度之和，用D₂表示L₁队列起始帧是f₂时的相似度之和，依次类推。其中f₁与f₁相似度(用D_1-1表示)、f₁与f₂相似度(用D_1-2表示)、f₁与f₃相似度(用D_1-3表示)、f₁与f₄相似度(用D_1-4表示)，依次类推。当第1帧f₁作为频帧队列L₁队头时，与之对应的相似度队列L₂的相似度用D₁表示，计算公式如式(2)所示：

D₁＝D_1-1+D_1-2+D_1-3+D_1-4+…+D_1-Tw (2)

②滑动窗口在频帧队列L₁进行滑动，新进入滑动窗口的帧为f_Tw+1，f₁出队列，与之对应的L₂中的队头D_1-1出队列。按照镜头相似性计算公式如式(3)计算f_Tw+1和f₂的相似度。其中D_(Tw+1)-2表示刚滑入队列的第Tw+1帧与队头第2帧的相似度。当前相似度按照以下公式进行计算：

D₂＝D₁-D_1-1+D_(Tw+1)-2 (3)

③当最后一帧进入滑动窗口后，停止窗口的滑动。将随着滑动窗口移动，所有的相似度队列的值D₁、D₂等分析成曲线图。曲线图中波谷的数量即是整个视频中镜头的数量。

具体算法通过下面这个例子进行说明：

首先，我们抽取一个视频的帧图片，如附图3所示。然后提取每张图片的颜色特征，这里我们采用的分块颜色直方图特征。计算得到相邻帧之间的相似度如附图4所示。

采用传统的方法，选取一个经验阈值。假设这个经验阈值为0.63，所有低于0.63的地方就是镜头切变。但是，由于在拍摄视频的过程中往往会有很多干扰，如闪光，运动等噪声，如附图5所示。这种情况下，一个镜头中也会出现相似度极低的现象，所以仅仅依靠相邻帧的相似度低作为判断条件就很不充分。

假设把这些一个镜头内的这些低相似度称为抖动，我们下面通过基于滑动窗口的方法来过滤掉这些抖动，同时增强镜头切边处的规律性。

如附图6所示，定义两个队列:帧队列L₁相似度队列L₂，我们依次让帧图像进帧队列，第一次进队列的是第一帧图像，相似度队列B把1-1的相似度入队列。

第二帧进队列后，相似度队列计算队尾和对头的相似度，同时把这个相似度推入相似度队列B并计算相似度队列中所有相似度的和。如附图6所示，队列的长度为四，所以当第五帧图像入队列的时候队头要出队列，计算完相似度以后，相似度队列先把队头出队列然后再让新的相似度进入队列。从图中可以看出当第19帧入队后，相似度队列的整个相似度开始下降，下降持续到下一个镜头的帧完全进入队列。通过绘制相似度曲线，可以捕捉到镜头切变的点。实验结果分析表明，该算法对于不同类型的视频内容有较好的适应和分析能力，能够比较全面的概括视频内容。附图7是经过滑动窗口处理过后的相似度情况。现在对图7进行简单的分析。图7刚开始的地方，相似度急剧上升表示滑动窗口刚滑入一个镜头，当完全滑入镜头以后，相似度趋于一个平稳的状态。接着相似度开始急剧下降，表示滑动窗口开始进入到另外一个镜头，等到完全进入到第二镜头以后，相似度开始回升直到趋于一个平稳的状态。所以，通过滑动窗口处理过后，镜头切变点具有了更强的规律性，提高了镜头检测的准确率和效率。

本发明的方法充分利用了滑动窗口算法，将镜头切变的特征进行了放大，从而减少了切变检测的误差。该方法与传统的直接比较相邻帧之间的相似度，明显的提高了镜头切变的检测。实验数据证明，在给定1000个短视频文件中，7504050帧、2025个镜头应用本方法能够正确发现1842个镜头切边，发现准确率达91％，因此，在大规模的数据应用背景下也具有较高的发现准确率。

采用查全率、查准率两项指标，从切变检测和渐变检测两方面分别对本发明所述方法检测的准确率进行评价。本算法选取的实验素材是中央电视台的几个节目，包括广告，球赛，电视剧三大类。检测结果如表1所示。本文提出的基于滑动窗口的算法具有较高的查全率，漏检情况减少很多，总的来说选取算法对于不同类型的视频内容有较好的适应和分析能力，能够比较全面的概括视频内容，效果令人满意。

表1：本发明所述算法检测效果分析

	帧数	镜头数	误检数	漏检数	查全率	准确率
							广告	3334	36	1	3	0.91	0.96
球赛	6056	31	2	2	0.9	0.9
							电视剧	3250	20	1	3	0.85	0.94

表2：本发明所述算法检测效果与其他算法对比情况

	查全率	查准率
			Dwt-based&SVM	82.1％	87.2％
Temporal Pattern Classification	75.4％	83.5％
			Average Frame Similarity	83.5％	75.0％
Color coherence	88.0％	73.0％
			本发明所述算法	89.7％	91％

Claims

1.基于滑动窗口的镜头边缘检测方法，以灰度或者彩色文档图像作为输入，用分块直方图的方法提取图像的颜色特征，其特征在于，具体处理步骤如下：

(1)选用直方图作为图片的特征，颜色空间分为N个区间，然后计算落入每一个小区间的像素点的数目；假设，颜色空间分为N个区间，g_i是第g帧中落入第i个颜色区间的像素的数目，若设两个视频帧分别为G，S，则这两个视频帧的相似度表示为如下：

(2)滑动窗口初始化：滑动窗口的长度设置为T_w，T_w取值为4(3)相似度队列初始化：初始化两个队列，视频帧队列L₁，相似度队列L₂；随着滑动窗口的滑动，通过相似度队列L₂，记录下滑动过程L₁中相似度的变化；

(4)镜头聚类过程

①假设当前滑窗的起始镜头帧为f₁，在Tw范围内求出所有帧f₂,…f_Tw与f₁相似度之和，我们用D₁表示L₁队列起始帧是f₁时的相似度之和，用D₂表示L₁队列起始帧是f₂时的相似度之和，依次类推；

其中f₁与f₁相似度用D_1-1表示、f₁与f₂相似度用D_1-2表示f₁与f₃相似度用D_1-3表示、f₁与f₄相似度用D_1-4表示，依次类推；当第1帧f₁作为频帧队列L₁队头时，与之对应的相似度队列L₂的相似度用D₁表示，计算公式如式(2)所示：

D₁＝D_1-1+D_1-2+D_1-3+D_1-4+…+D_1-Tw (2)

②滑动窗口在频帧队列L₁进行滑动，新进入滑动窗口的帧为f_Tw+1，f₁出队列，与之对应的L₂中的队头D_1-1出队列；按照镜头相似性计算公式如式(3)计算队列相似度；其中D_(Tw+1)-2表示刚滑入队列的第Tw+1帧与队头第2帧的相似度；因此，当前相似度按照以下公式进行计算：

D₂＝D₁-D_1-1+D_(Tw+1)-2 (3)

③当最后一帧进入滑动窗口后，停止窗口的滑动；将随着滑动窗口移动，所有的相似度队列的值D₁、D₂等分析形成曲线图；曲线图中波谷的数量即是整个视频中镜头的数量。