CN107424163A

CN107424163A - 一种基于TextTiling的镜头边界检测方法

Info

Publication number: CN107424163A
Application number: CN201710434123.XA
Authority: CN
Inventors: 贾西平; 谢彬彬; 陈荣军; 柏柯嘉; 廖秀秀; 欧阳佳; 刘少鹏; 张倩
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2017-12-01

Abstract

本发明公开一种基于TextTiling的镜头边界检测方法，本方法采用主成分分析法提取视频帧的特征，采取以滑动窗口为单位，将每个窗口内的帧投影到各自窗口构成的特征子空间，再计算相邻帧间距离及潜在边界的深度值以识别视频镜头边界，本发明借助TextTiling方法通过引入深度值对镜头切变出现的可能性进行了进一步评估，提高了镜头边界识别的精度；同时借助PCA提取视频帧的特征避免了帧间颜色直方图的局部颜色差异造成的波动，表达帧更精确。

Description

一种基于TextTiling的镜头边界检测方法

技术领域

本发明涉及视频镜头边界检测领域，更具体地，涉及一种基于TextTiling的镜头边界检测方法。

背景技术

视频镜头边界检测是基于内容的视频检索中的首要工作，也是关键技术之一。近年来，国内外相关领域的众多学者做了大量富有成效的工作，典型的算法有如下几种：

(1)基于边缘的算法

基于边缘的算法的基本思想是镜头发生变化，镜头内物体的边缘也相应改变，因此可以根据边缘的变化来检测镜头边界。Zabih等人提出了基于边缘的场景分割算法，该算法利用Canny算法提取帧的边缘特征来计算相邻帧的边缘变化，通过合适的阈值来判断边缘的变化是否引起镜头的变化。同时利用全局运动计算来判断是镜头运动还是物体移动。

该算法对于边缘变化清晰、简单的视频帧，该算法能达到较好的效果。但是，当帧的边缘复杂时，则容易造成误检，并且计算量较大。

(2)基于颜色直方图的算法

颜色直方图是对图像中的像素颜色分布的量化表示。其中Zhang等人提出的双阈值比较算法(Twin-comparison Algorithm)是典型的基于直方图的算法，该算法利用颜色直方图提取视频帧的特征，采用较大阈值检测连续帧间差中的突变镜头，采用较小阈值以及一系列帧间的累积差值检测渐变镜头，应用运动分析来过滤包含全局或者大范围运动的帧以避免镜头误检。

基于直方图的算法只考虑颜色的变化，较容易实现，且效果较为稳定，但是没有考虑镜头运动等因素，容易造成镜头的误检。

(3)自适应阈值选择的算法

现有的一种自动阈值的镜头检测算法，该算法在双阈值比较法的基础上使用一趟视频扫描，通过比较连续帧之间的帧差来检测突变镜头，通过比较一系列帧之间的累积差值来检测渐变。同时根据滑动窗口中的帧间颜色直方图差值是否满足分布差异来动态计算阈值，如公式(1)所示。

mmax-mmin＞(Factor*mean) (1)

其中，mean表示窗口内帧间颜色直方图差值的平均值，Factor为常数系数，mmax和mmin分别表示以窗口内帧间颜色直方图差值的最大值和最小值的中值为分界点，将窗口内帧间颜色直方图差值划分为较小值和较高值两个集合的对应平均值。

然而，该算法在滑动窗口中的相邻帧间差同时出现多个较大的值时，会提高窗口内的相邻帧间差的平均值，从而不满足帧间颜色直方图分布差异，较容易造成镜头边界的漏检。

(4)其他算法

秦剑鹏等人提出用颜色直方图变化率HCR(Histogram Change Ratio)来反映镜头内部图像帧序列的颜色变化，并在此基础上来对镜头进行分割。巢娟等人提出基于自适应双重检测模型的视频镜头分割算法,结合滑动窗口自适应二分查找算法进行镜头边界初检,复检过程利用SIFT算法对初检得到的镜头边界进行匹配确认。方勇等人则提出了结合相邻帧差与邻域窗帧差的镜头边界系数模型，认为镜头边界处的邻域窗帧差之间的相对比例关系是确定的，从而利用该特点来检测镜头。还有研究人员提出基于互信息量的镜头边界检测算法，采用基于HSV空间不均匀分块直方图求取的帧间互信息量作为视频帧间差异度量，结合相应的阈值策略与时域窗策略，实现对镜头边界的检测。

Sahouria等人利用主成分分析(PCA)来降低视频帧中提取特征的维度，但该算法不能检测具体的视频边界，而是用于发现高维的视频场景。胡双演等人提出了基于SVD的镜头边界检测算法，经过SVD变换得到视频帧的特征值矩阵,然后将特征值矩阵投影到低维的向量空间,通过分析向量间的夹角来判断镜头的变化。朱庆生等人提出了用增量主成分分析(IPCA)对视频进行实时分析和在线镜头分割，通过每检测到b个镜头边界时，就重新开始初始化特征空间矩阵，避免IPCA允许样本逐步输入而造成需要存储空间逐步增大的问题。然后通过比较残余向量的模是否大于给定的阈值来检测镜头边界。

发明内容

本发明为克服上述现有技术所述的至少一种不足，提供一种基于TextTiling的镜头边界检测方法。本方法采用主成分分析法提取视频帧的特征，采取以滑动窗口为单位，将每个窗口内的帧投影到各自窗口构成的特征子空间，再计算相邻帧间距离及潜在边界的深度值以识别视频镜头边界。

为解决上述技术问题，本发明的技术方案如下：

一种基于TextTiling的镜头边界检测方法，包括以下步骤：

S1、特征提取：设视频表示为F＝{f₁,f₂,...,f_i,...,f_n}。其中,f_i表示F的第i帧,n为F中帧的总数，即视频长度；

设定一个长度为m的滑动窗口，每次滑动m帧，对落入每个窗口中的帧用主成分分析法PCA提取特征；

S2、基于TextTiling确定视频边界：

已知视频共有n帧，将窗口w_j中最大的相邻帧间距离记为Md_j：

Md_j＝max(D_i) (2)

其中1≤i≤m-1，1≤j≤[n/m]+1，Md_j取值大小一定程度上反映了w_j中出现镜头切变的可能性，Md_j越大w_j中出现镜头切变的可能性越大；

两个相邻窗口w_j和w_j+1之间的深度值定义为：

Depth_j＝|Md_j+1-Md_j| (3)

其中1≤j≤[n/m]-1，Depth_j描述了w_j和w_j+1之间最大帧间距的变化幅度；

取深度阈值：

其中，为所有深度值Depth的平均值，σ为所有深度值Depth的标准差，α为常数系数。

对于切变镜头边界b与其相邻的左右2个窗口对应有2个相关的深度值Depth_b-1＝|Md_b-Md_b-1|与Depth_b＝|Md_b+1-Md_b|，当Depth_b-1和Depth_b均满足所设定的阈值要求，则再比较当前的Md_b与Md_b+1之间的大小，距离大者且尚未被检测为边界的帧则为切变边界。

只有当Depth_b-1和Depth_b同时满足阈值，才有可能是切变边界。仅有一个满足所设定的阈值要求时不认为是切变边界。

如果都不满足则认为不存在切变边界

与现有技术相比，本发明技术方案的有益效果是：(1)借助TextTiling方法通过引入深度值对镜头切变出现的可能性进行了进一步评估，提高了镜头边界识别的精度；(2)借助PCA提取视频帧的特征避免了帧间颜色直方图的局部颜色差异造成的波动，表达帧更精确。

附图说明

图1为视频中的相邻帧间距离及窗口滑动示意图；

图2为与图1对应的潜在切变边界的深度值示意图；

图3为阈值常数系数α取不同值时的检测性能示意图；

图4为不同方法平均检测性能对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

本发明针对镜头边界检测精确度的问题，提出一种基于TextTiling的镜头边界检测方法，该方法采用主成分分析法提取视频帧的特征，采取以滑动窗口为单位，将每个窗口内的帧投影到各自窗口构成的特征子空间，再计算相邻帧间距离及潜在边界的深度值以识别视频镜头边界。

一、基于主成分分析提取视频帧的特征

设视频表示为：F＝{f₁,f₂,...,f_i,...,f_n}。其中,f_i表示F的第i帧,n为F中帧的总数，即视频长度。

设定一个长度为m的滑动窗口(包含m帧图像),每次滑动m帧，对落入每个窗口中的帧用PCA方法提取特征，具体过程如下：

(1)计算窗口的平均帧，即计算窗口内全部帧的对应像素的平均值：

其中,f_i是第i帧，i＝1,…,m。

(2)计算协方差矩阵S

(3)计算S的特征值L＝[l₁,l₁,…,l_n]及其对应的特征向量V＝[v₁,v₂,…,v_n]。其中特征值L从大到小排列。

(4)构造子空间变换矩阵

取与前k个最大特征值[l₁,l₁,…,l_k]对应的特征向量V′＝[v₁,v₂,…,v_k]，k的取值根据需要选择。

(5)将窗口内每一帧f_i投影到低维特征空间

其中,A_i是f_i投影到特征空间后的投影帧，f_i是第i帧，i＝1,…,m。

(6)计算投影到特征空间后的相邻帧间(f_i与f_i+1)距离

二、基于TextTiling确定视频边界

设视频共有n帧，将窗口w_j中最大的相邻帧间距离记为Md_j：

Md_j＝max(D_i) (1-5)

两个相邻窗口w_j和w_j+1之间的深度值定义为：

Depth_j＝|Md_j+1-Md_j| (1-6)

其中1≤j≤[n/m]-1，Depth_j描述了w_j和w_j+1之间最大帧间距的变化幅度在一定程度上是对w_j或w_j+1中出现镜头切变的一种确认。

取深度阈值:

对于切变镜头边界b与其相邻的左右2个窗口对应有2个相关的深度值Depth_b-1＝|Md_b-Md_b-1|与Depth_b＝|Md_b+1-Md_b|，通常有可能Depth_b-1与Depth_b均满足阈值要求。因此在满足阈值的条件下，需要再比较当前的Md_b与Md_b+1之间的大小，距离大者且尚未被检测为边界的帧则为切变边界。

本文算法的伪代码如下：

Algorithm Boundary_Identification

输入:视频F，深度值Depth,每个窗口的最大帧间距离Md，常数系数α。

输出:镜头第一帧的集合Boundary_set。

实验与结果分析

实验设计

(1)实验环境：本实验是在Intel Core2Duo E7400 2.8GHz处理器，OpenCv1.0开源计算机视觉库，Windows XP系统下进行的。

(2)视频数据：按照风景、科技纪录片、报告、演讲等类型，选取TRECVID提供的TREC-2001标准视频测试数据集中的7个视频，如表1所示，共274666帧、1209个切变镜头。

表1

(3)实验方法：为了验证本算法的有效性，与现有的算法进行了比较，同时将2种算法中提取帧的特征的方式与确定边界的算法进行了组合比较。

(4)参数设置：已知一个窗口中应最多包含一个镜头切换，否则窗口宽度太大,容易漏掉其余的镜头切换，结合实验经验，取m＝15，即每个窗口读取15帧。

根据公式(1-7)计算深度阈值T，其中常数系数α选取方法如下：利用测试数据集，分别计算α取不同值时的平均查准率P_a、平均查全率R_a及调和平均数F_a，取F_a达到最大值时的α。

(5)评价方法：用C_r表示正确检测到的镜头数，C_d表示漏检的镜头数，C_i表示误检的镜头数，用R和P分别表示镜头检测的查全率和查准率，F表示R和P的调和平均数，则

结果与分析

(1)参数选取

根据图3，当阈值常数系数α取1.1时，实验中的调和平均数F_a达到最大值，故文中的常数系数α取1.1。

(2)镜头边界检测

实验结果如表2所示，其中Alg1表示现有算法的采用颜色直方图提取特征的自动阈值算法，Alg2表示PCA提取特征与现有算法的自动阈值算法组合，Alg3表示颜色直方图提取特征与TextTiling方法组合，Alg4表示本文提出的算法(PCA提取特征与TextTiling方法组合)，T表示计算时间，单位为秒。

表2镜头边界检测实验结果

表2镜头边界检测实验结果(续)

计算表2中每种方法的平均查全率R_m、平均查准率P_m及其对应的调和平均数F_m，结果如表3和图4。

表3不同方法平均检测性能对比

从实验结果可以看出，本文的算法Alg4要优于现有的算法Alg1，即漏检的镜头更少，精确度更高。根据Alg4结果，用PCA提取的特征代替Alg1的颜色直方图特征，其检测精确度比Alg1的算法有所提升。由此说明了通过PCA提取视频帧的特征能更好地反映帧的内容，再结合TextTiling方法避免相邻帧差的局部波动造成的误检，因而提高了检测的精确度。然而，根据Alg3结果，用颜色直方图提取特征与TextTiling方法组合，其检测优势并不突出，这说明TextTiling方法并非与任意的特征提取方法搭配均能取得较好的效果。

进一步分析，现有的方法当出现一个窗口内相邻帧间差出现多个较大值时，会提高窗口内的平均相邻帧间差，造成不能满足文献“原野,宋擒豹,沈钧毅,等.一个自动阈值选择的镜头检测算法[J].小型微型计算机系统,2004,25(7):1337-1340.”中的窗口内帧间差异值的分布，从而造成镜头漏检。而本文采用PCA提取视频帧的特征能更好地反映帧的内容，避免了镜头漏检；并且，在确定镜头边界时引入深度值，对镜头切变出现的可能进行了进一步评估，进而提高了镜头边界识别的精度。

本发明提出一种利用PCA和TextTiling来识别视频镜头边界的方法，克服了将所有帧投影到一个特征子空间造成的特征空间矩阵存储庞大的问题，利用投影到特征子空间后的结果计算相邻帧间距离，再根据深度值确定视频镜头边界。通过对来自TREC-2001视频测试数据集中的部分视频数据进行分析，实验结果表明，用本章算法检测镜头边界，平均查全率和平均查准率分别达到89％和96.5％。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于TextTiling的镜头边界检测方法，其特征在于，包括以下步骤：

S1、特征提取：设视频表示为F＝{f₁,f₂,...,f_i,...,f_n}；其中,f_i表示F的第i帧,n为F中帧的总数，即视频长度；

S2、基于TextTiling确定视频边界：

Md_j＝max(D_i) (2)

两个相邻窗口w_j和w_j+1之间的深度值定义为：

Depth_j＝|Md_j+1-Md_j| (3)

取深度阈值：

<mrow> <mi>T</mi> <mo>=</mo> <mover> <mrow> <mi>D</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mi>h</mi> </mrow> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mi>&alpha;</mi> <mi>&sigma;</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中，为所有深度值Depth的平均值，σ为所有深度值Depth的标准差，α为常数系数；

2.根据权利要求1所述的方法，其特征在于，步骤S1中对落入每个窗口中的帧用主成分分析法PCA提取特征的具体过程如下：

S11、计算窗口的平均帧，即计算窗口内全部帧的对应像素的平均值：

<mrow> <mover> <mi>f</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

S12、计算协方差矩阵S

<mrow> <mi>S</mi> <mo>=</mo> <mi>E</mi> <mo>&lsqb;</mo> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <mover> <mi>f</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <mover> <mi>f</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

S13、计算协方差矩阵S的特征值L＝[l₁,l₁,…,l_n]及其对应的特征向量V＝[v₁,v₂,…,v_n]；其中特征值L从大到小排列；

S14、构造子空间变换矩阵

取与前k个最大特征值[l₁,l₁,…,l_k]对应的特征向量V′＝[v₁,v₂,…,v_k]，k的取值根据需要选择；

S15、将窗口内每一帧f_i投影到低维特征空间：

<mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>=</mo> <msup> <mi>V</mi> <mrow> <mo>&prime;</mo> <mi>T</mi> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <mover> <mi>f</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>m</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中,A_i是f_i投影到特征空间后的投影帧，

S16、计算投影到特征空间后的相邻帧间f_i与f_i+1距离：

<mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>=</mo> <msqrt> <msup> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>A</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msqrt> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>m</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow> 1