CN112188309B

CN112188309B - 基于累计差异度和奇异值分解的镜头边界检测方法和装置

Info

Publication number: CN112188309B
Application number: CN202011033198.5A
Authority: CN
Inventors: 庞龙; 王陈涛; 蒋学锟; 金立标
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2022-05-13
Anticipated expiration: 2040-09-27
Also published as: CN112188309A

Abstract

本发明实施例提供了一种镜头边缘检测方法和装置，该方法包括：获取目标视频，将目标视频划分为多个视频段落；将多个视频段落分组,确认各视频段落的首、尾帧差，基于其均值确认每组的自适应阈值；根据自适应阈值,在各组中确认至少一个或多个候选视频段落；对于每个候选过渡段落，提取该候选过渡段落包含的多个图像帧的HSV特征，生成该候选过渡段落的特征矩阵；对特征矩阵进行奇异值分解，获取该候选过渡段落的降维矩阵；利用降维矩阵获取该候选过渡段落中每连续两帧的差异度，据以确定该候选过渡段落的最大差异度，以及累积差异度，若最大差异度大于累积差异度，该候选过渡段落包含突变过渡镜头边界，由最大差异度确定突变过渡镜头边界位置。

Description

基于累计差异度和奇异值分解的镜头边界检测方法和装置

技术领域

本发明涉及视频检测领域，尤其涉及一种基于累计差异度和奇异值分解的镜头边界检测方法和装置。

背景技术

随着计算机技术和多媒体技术的快速发展，使得网络中的数字视频呈现爆炸式增长。镜头是视频的基本单位，被定义为由单个摄像机连续拍摄的帧序列，镜头边界检测是更高维度任务(例如视频语义分析、视频场景分割和视频检索)的前置任务，所以能够有效地进行镜头边界检测至关重要。一段视频是通过多个镜头的按序连接，镜头的连接方式可分为突变过渡(CT)和渐变过渡(GT)。突变过渡，顾名思义，就是将两个镜头首尾相接，连接处不做任何处理，通过突变过渡的前后两个镜头会在光照、纹理、运动、色调等方面呈现出较大差异，相对于渐变过渡来说更容易区分。除了突变过渡外，其余的镜头过渡方式都叫做渐变过渡，继续细分下去，又可以分为淡入淡出(Fade in/Fade out)，溶解(Dissolve)，在同一帧中同时存在前后两个镜头的视觉特征，叠化。渐变过渡的镜头过渡非常缓慢，通常会持续20帧左右，相邻两帧之间的差异并不显著，也正是因为渐变过渡的过渡缓慢和类型多样，造成了GT检测比CT检测要困难得多。

奇异值分解(Singular value decomposition,SVD)的早期研究大多都是聚焦于CT检测，基于像素差异镜头边界检测是最简单的方法，只需要逐像素比较连续帧的像素强度差异，当超出某个阈值则标记为检测到过渡。但基于像素的方法的弊端也是显著的，当画面局部存在物体运动，或者摄像机的运动，会引起较大的像素差异导致错检。为了克服像素特征对于局部的运动的敏感性，许多研究人员便提出采用一种基于块的帧间对比方法，核心思想在于将每一帧划分成多个块，将每个块与下一帧对应块进行比较，若块间存在明显区别则标注该块发生变化，当变化块的数量超出给定阈值时，则定义为存在镜头边界。这种帧间对比方法中针对渐变过渡中的擦除变化提出一种将每一帧图像分块映射到缩小图像，计算相邻帧的统计特征和结构特征来检测过渡区域，利用霍夫变换分析擦拭模式。在处理彩色视频片段时，研究人员使用颜色直方图，即统计在一定颜色范围内的像素数的数量，常用的用RGB、HSV、CMYK等，而其中HSV是最常用。颜色空间特征可作为全局特征，也可作为局部特征使用。使用局部特征主要是为了克服不同帧会出现相似全局直方图的情况，有一种使用局部色彩特征(local color features,LCF)的镜头边界检测方法，对比基于兴趣点周围的局部图像的颜色特征空间的差异来找到镜头边界。基于像素和直方图的方法也有很大的局限性，当画面中出现突然的亮度变化时，算法的正确率会大大降低。SIFT，SURF和MSER是局部特征描述符，核心思想是比较相邻连续帧的局部特征匹配情况，若匹配的特征点的数量小于设定的阈值，则说明存在镜头边界。SIFT描述符具有图像平移、旋转和缩放不变形，对于轻微的视角变换和突然的亮度变化具有鲁棒性，有的方法从视频边界帧中提取SIFT特征，来识别突变过渡和渐变过渡。有的研究人员提出了一种基于熵和SURF特征的场景检测框架，SURF特征用于检测突变过渡，而帧熵分析用于检测渐变过渡。而对于GT检测的研究，虽然到现在为止学者们提出了很多检测方法和技术，但是仍然没有一种适用于所有类型边界的鲁棒算法。

因此，需要一种新的镜头边缘检测方法。

发明内容

本发明的实施例提供了一种基于累计差异度和奇异值分解的镜头边界检测方法和装置，通过引入候选片段选择机制，可以避免大部分非镜头边界的检测；通过提取每一帧的HSV，并将片段中所有帧的HSV组成特征空间，对该特征空间进行奇异值分解(SVD)降低特征维度，减小后期计算开销；通过计算候选片段内帧间的最大差异以及段内的累计差异，可以判断该候选片段中是否含有边界以及边界类型，帧间最大差异处的位置可直接反映CT中边界的位置，而对GT中的边界检测则采用倒三角模式匹配方法。

本发明为解决上述技术问题采用的技术方案为，第一方面提供一种镜头边缘检测方法，所述方法包括：

获取目标视频；所述目标视频包括M个图像帧；

将所述目标视频划分为多个视频段落，每个所述视频段落包含所述M个图像帧中若干个连续图像帧；

将所述多个视频段落分组,根据每组包括的各视频段落的首、尾帧的图像数据，确认各视频段落的首、尾帧差，基于所述各视频段落的首、尾帧差的均值,确认每组的自适应阈值；根据所述每组的自适应阈值、各视频段落的首、尾帧差,在各组中确认至少一个或多个候选视频段落；

对于每个候选过渡段落，提取该候选过渡段落包含的多个图像帧的HSV特征，生成该候选过渡段落的特征矩阵；对所述特征矩阵进行奇异值分解，获取该候选过渡段落的降维矩阵；

利用所述降维矩阵，获取该候选过渡段落中每连续两帧的差异度，取所述每连续两帧的差异度中的最大值作为该候选过渡段落的最大差异度，通过累加所述每连续两帧的差异度并减去所述最大差异度，获取该候选过渡段落的累积差异度，比较所述累积差异度与所述最大差异度，若所述最大差异度大于所述累积差异度，则确认该候选过渡段落包含突变过渡的镜头边界，并根据所述最大差异度确定所述突变过渡的镜头边界的位置。

优选地，所述方法还包括，若所述最大差异度不大于所述累积差异度，则利用所述降维矩阵，计算出该候选过渡段落中每一帧分别与首、尾帧的差异度的差值，若所述差值的分布匹配倒三角匹配模型，则确认该候选过渡段落包含渐变过渡的镜头边界。

优选地，将所述多个视频段落分组,确定每组包括的各视频段落的首、尾帧差，根据所述各视频段落的首、尾帧的帧差的均值,确认每组的自适应阈值；根据所述每组的自适应阈值、每组包括的各视频段落的首、尾帧差,确认至少一个或多个候选视频段落，包括：

将所述多个视频段落分为若干视频小组，每个视频小组包含所述多个视频段落中的预定数量的视频段落，将所述若干视频小组再分为若干视频大组，每个视频大组包含所述若干视频小组中的预定数量的视频小组；根据所述视频大组、视频小组包含的各个视频段落的首尾帧差，获得视频大组、各视频小组的平均首尾帧差；

至少根据视频大组、各视频小组的平均首尾帧差，确定各视频小组的自适应阈值；至少根据所述自适应阈值、所述多个视频段落的首尾帧差，在所述多个视频段落中，确认至少一个或多个候选视频段落。

具体地，至少根据视频大组、各视频小组的平均首尾帧差，确定各视频小组的自适应阈值的数学表示为：

其中μ_G表示大组中各个段落的首尾帧差的平均值，μ_L、σ_L分别表示小组中各个段落的首尾帧差的平均值、局部标准差，T_L为小组自适应阈值，a为经验参数。

优选地，所述图像帧的HSV特征为1728维，所述候选过渡段落的特征矩阵为1728×N维，N为该候选过渡段落饱含帧数。

优选地，所述确认每个候选过渡段落中每连续两帧的差异度，包括，通过根据所述降维矩阵计算每个候选过渡段落中每连续两帧的余弦相似度，确认每个候选过渡段落中每连续两帧的差异度。

第二方面，提供一种镜头边缘检测方法装置，所述装置包括，

目标视频获取单元，配置为获取目标视频；所述目标视频包括M个图像帧；

视频段落划分单元，配置为将所述目标视频划分为多个视频段落，每个所述视频段落包含所述M个图像帧中若干个连续图像帧；

候选视频段落确认单元，配置为将所述多个视频段落分组,根据每组包括的各视频段落的首、尾帧的图像数据，确认各视频段落的首、尾帧差，基于所述各视频段落的首、尾帧差的均值,确认每组的自适应阈值；根据所述每组的自适应阈值、各视频段落的首、尾帧差,在各组中确认至少一个或多个候选视频段落；

特征提取和处理单元，配置为对于每个候选过渡段落，提取该候选过渡段落包含的多个图像帧的HSV特征，生成该候选过渡段落的特征矩阵；对所述特征矩阵进行奇异值分解，获取该候选过渡段落的降维矩阵；

突变过渡镜头确认单元，配置为利用所述降维矩阵，获取该候选过渡段落中每连续两帧的差异度，取所述每连续两帧的差异度中的最大值作为该候选过渡段落的最大差异度，通过累加所述每连续两帧的差异度并减去所述最大差异度，获取该候选过渡段落的累积差异度，比较所述累积差异度与所述最大差异度，若所述最大差异度大于所述累积差异度，则确认该候选过渡段落包含突变过渡的镜头边界，并根据所述最大差异度确定所述突变过渡的镜头边界的位置。利用上述实施例提供的方法和装置，对于不同类型的视频进行镜头边界检测，具有优异的准确性和适用性。

优选地，所述装置还包括，渐变过渡镜头确认单元，配置为若所述最大差异度不大于所述累积差异度，则利用所述降维矩阵，计算出该候选过渡段落中每一帧分别与首、尾帧的差异度的差值，若所述差值的分布匹配倒三角匹配模型，则确认该候选过渡段落包含渐变过渡的镜头边界。

第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面所述的方法

第四方面，提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面所述的方法。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例提供的一种镜头边界检测方法的流程图；

图2示出本发明一个实施例提供的闪光场景的相似度示意图；

图3示出本发明一个实施例提供的多突变镜头示意图；

图4示出本发明一个实施例提供的渐变镜头示意图

图5示出本发明一个实施例提供的一种镜头边界检测装置的结构图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

镜头是视频的基本单位，视频镜头边界检测是进行视频语义分析、视频检索的前置任务。在本说明书中，发明人提出了一种新的有效的视频镜头边界检测来检测突变镜头和渐变镜头。通过引入候选片段选择的机制，可以避免大部分非镜头边界的检测。通过提取每一帧的HSV(Hue,Saturation,Value颜色模型)特征，并将片段中所有帧的HSV特征组成特征空间，对该特征空间进行奇异值分解(SVD)降低特征维度，减小后期计算开销。在镜头边缘检测阶段，提出了一种基于累计差异度的检测方案。通过计算候选片段内帧间的最大差异以及段内的累计差异，可以判断该候选片段中是否含有边界以及边界类型。帧间最大差异处的位置可直接反映CT中边界的位置，而GT中的边界我们采用一种倒三角模式匹配方法(Inverted Triangle Pattern Matching Method)，发明人在TRECVID 2007数据集以及100个电影视频片段上进行测试，测试结果显示本发明方案对于不同类型的视频具有优异的准确性和适用性。

图1为本发明一个实施例提供的一种基于累计差异度和奇异值分解的镜头边界检测方法的流程图，如图1所示,该方法的过程至少包括如下步骤：

步骤11,获取目标视频,该目标视频包括M个图像帧。

该步骤中获取目标视频，也就是待检测的视频。视频从视觉上呈现的是连续的画面，而从技术上来讲，一个视频是很多图像帧构成。

步骤12,将目标视频划分为多个视频段落，每个视频段落包含所述M个图像帧中若干个连续图像帧。

根据一种实施方式，将视频片段按照每21帧为单位划分成段，分别计算每一段落中首尾两帧的帧差，计算公式如下所示

其中d_n表示第n个分段的段落差异，f_n(x,y,z)表示第n帧在(x,y,z)处的像素强度,x、y、z为像素坐标。在这里，选择21帧作为段落长度考虑到GT的过渡长度主要是20帧左右，因为后续步骤还会进行候选段落的拆分和合并，这使得段落可以准确地包含镜头边界。选择像素强度作为帧特征，则是考虑到像素差异是一个最为简单的特征，能够尽可能多地将可能存在镜头边界的片段纳入候选，同时基于像素的方法计算也较为简单。

步骤13,将多个视频段落分组,根据每组包括的各视频段落的首、尾帧的图像数据，确认各视频段落的首、尾帧差，基于各视频段落的首、尾帧差的均值,确认每组的自适应阈值；根据每组的自适应阈值、各视频段落的首、尾帧差,在各组中确认至少一个或多个候选视频段落。

根据一种实施方式，可以将所述多个视频段落分为若干视频小组，每个视频小组包含所述多个视频段落中的预定数量的视频段落，将所述若干视频小组再分为若干视频大组，每个视频大组包含所述若干视频小组中的预定数量的视频小组；根据所述视频大组、视频小组包含的各个视频段落的首尾帧差，获得视频大组、各视频小组的平均首尾帧差；

在一个实施例中，至少根据视频大组、各视频小组的平均首尾帧差，确定各视频小组的自适应阈值，可以数学方式表示为：

根据一种具体的实施方式，可以首先将每10个段落定义为一个小组，将5个组设置为1个大组。每个大组相当于全局信息，而每一小组相当于局部信息，通过整合全局和局部的d_n，便可以为每一小组计算自适应阈值，计算公式如公式(6)所示：

其中μ_G表示大组中50个段落的d_n的全局平均值，μ_L、σ_L分别表示小组中10个段落的d_n的局部平均值、局部标准差，T_L反映的是小组中帧差的阈值，当d_n超过该阈值，则判定为检测到镜头边界，否则舍弃。参数a是一个经验参数，与T_L呈现正相关，为了确保能够将所有镜头边界都纳入候选片段中，选择一个尽可能小的a会有帮助。

然后，将计算得到的每一组的自适应阈值T_L与d_n进行比较，若d_n≥T_L，则认为该段落中存在较大帧差变化，含有镜头边界，否则则认为该段落中不包含镜头边界，应该舍弃。除此之外，全局范围大会导致局部的细微变化被忽视，所以还应该考虑相邻段落之间的差异，

d_n>3d_n±1 (7)

d_n>0.8μ_G (8)

如果同时可以满足上述两个条件，则该段落也判定为存在镜头边界。

进一步，在一个例子中，还可以对于每一段通常上述步骤的21帧片段，可执行第一次两等分细分，计算中间帧分别和首尾帧的差异，如下所示：

接下来，需要对下列条件进行判断，完成细分

这说明该片段在前11帧画面变化比后11帧更为明显，且差异度接近于首尾帧差异度，因此只取该片段的前11帧作为新候选片段，在不同的例子中，其中的第一个比较参数也可以取值于[1.4,1.5]区间，第一个比较参数也可以取值于[0.6,0.7]区间。

这说明该片段在后11帧画面变化比前11帧更为明显，且差异度接近于首尾帧差异度，因此只取该片段的后11帧作为新候选片段，在不同的例子中，其中的第一个比较参数也可以取值于[1.4,1.5]区间，第一个比较参数也可以取值于[0.6,0.7]区间。

这说明该片段前后画面变化并不明显，并不存在镜头边界，所以应该将该片段从候选片段列表中删除。在不同的例子中，其中的第一、第二个比较参数也可以取值于[0.25,0.3]区间。

Else，对于其他情况则表明片段中存在变化但变化并不明显，应当认为有存在GT的可能，此时应保留该候选片段。

在另一个例子中，还可以在候选片段列表中存在11帧和21帧两种长度的片段中，对所有长度为11帧的片段进行进一步二等分，方法与上一个例子一致。经过第2次的二等分细分，便得到了长度为6帧的最小片段单位作为CT候选片段，而将剩下的长度为11帧和21帧的候选片段进行相邻片段合并，生成不小于11帧的候选GT片段，然后对候选CT片段和候选GT片段进行分别检测。

步骤14,对于每个候选过渡段落，提取该候选过渡段落包含的多个图像帧的HSV特征，生成该候选过渡段落的特征矩阵；对特征矩阵进行奇异值分解，获取该候选过渡段落的降维矩阵。

HSV是最常用的颜色空间特征，在本发明实施例中我们采用标准化的色相饱和度值(hue-saturation-value,HSV)作为全局特征使用。对于一个24位的彩色图像来说，通常已知的是它的RGB空间，首先需要将RGB空间转成HSV空间，色调H用角度度量，取值范围为[0,360]，饱和度S可看作是光谱色与白色混合的比例，取值范围通常是[0,1]，明度V表示颜色的明亮程度，取值范围是[0,1]。因此，在一个例子中，可将图像写成一个例如1728维的列向量

奇异值分解(Singular value decomposition,SVD)可以通过对数据的处理，可以使用小得多的数据集来表示原始数据集，达到提取主成分，降低特征空间维数的作用。SVD可将一个矩阵Data_M×N可以分解成3个矩阵U_M×M、Σ_M×N、

其中U和V^T都是单式矩阵(Unitary matrix)，Σ是一个对角阵，其元素为原数据Data奇异值从大到小的排列。具体的分解公式如下所示：

其中U＝[u₁,…,u_M]的列向量是矩阵Data·Data^T的特征向量，称为左特征向量，V＝[v₁,…,v_N]的列向量是矩阵Data^T·Data的特征向量，称为右特征向量。Σ＝diag(Σ₁,…,Σ_r)中奇异值的大小决定了U、V^T中对应的特征向量所占权重，奇异值越大，则Data中相应的特征向量重要性就越大。通常，k(k＜＜M)个较大的奇异值就可以保证不丢失原矩阵大部分信息，于是，原始矩阵便可以近似的分解为如下形式：

由上面可知，可将一个视频片段中N帧的HSV特征按照行方向排序，就构成A＝[α₁,…,α_N]，其中每一列就是一帧的HSV特征。然后，对矩阵A进行SVD可以得到

其中v_·i为V的行向量，左特征矩阵包含着空间域的信息，而右特征矩阵可以看做是在时间域上的特征(即帧间的特征)，令

用β_i代替α_i便实现了从M维的高维空间降维到k维的低维空间。因此，比较β_i之间的向量距离，便可以得出两帧之间的相似度。

在一个实施例中，图像帧的HSV特征可以为1728维，候选过渡段落的特征矩阵为1728×N维，N为该候选过渡段落饱含帧数。

步骤15,利用降维矩阵，获取该候选过渡段落中每连续两帧的差异度，取每连续两帧的差异度中的最大值作为该候选过渡段落的最大差异度，通过累加每连续两帧的差异度并减去最大差异度，获取该候选过渡段落的累积差异度，比较所述累积差异度与所述最大差异度，若最大差异度大于累积差异度，则确认该候选过渡段落包含突变过渡的镜头边界，并根据最大差异度确定突变过渡的镜头边界的位置。

通常，余弦距离(Cosine distance)和欧几里得距离(Euclidean distance)都可以用来描述两个向量的相似程度。考虑到，欧几里得距离的归一化操作会增加更多的计算成本，而余弦距离没有归一化的步骤，且余弦距离的取值在[0,1]，对于后续分析更方便，在一个实施例中，可以采用余弦距离来描述两个向量之间的相似度，连续帧f_i和f_i+1的相似度就可以用下式表示：

显然，当连续帧非常相似时，(β_i+1,β_i)近似等于两个向量的模的乘积，

更接近1；而当连续帧相似性很差，则β_i+1和β_i会偏向于正交，(β_i+1,β_i)会接近0。

因此，在一个实施例中，可以根据所述降维矩阵计算每个候选过渡段落中每连续两帧的余弦相似度，根据所述余弦相似度确认每个候选过渡段落中每连续两帧的差异度。

根据一种实施方式，通过步骤13对候选片段的筛选，以及CT和GT候选段的划分，得到了6帧的CT候选段和更多帧的GT候选段，对两种候选段可采用不同的检测方案。由于候选CT片段筛选条件严苛，导致CT候选段中通常不含有GT过渡片段，而候选GT片段筛选条件相对宽松，且片段跨度较长，其中常常会包含一些变换细微的CT。虽然现有的一种技术方案中考虑到上述两种情况并提出了方案，但在实际中并不可靠，不能完全适用于给定的任意片段。本发明实施例提出的方案是一种基于累计差异的方案，且对GT检测流程进行了优化，使之能够以一个较高的性能识别出候选GT片段中的CT，下面将分别介绍两种检测方案。

CT检测，该过程是对6帧候选CT片段的进一步操作，具体确定在哪一帧发生了切变。首先，需要提取每帧画面的1728维(其中，H值划分为18级，S值划分为12级，V值划分为8级，H、S、V值的级数相乘获得1728维)的HSV特征

其中N表示片段帧数，

表示每一帧的HSV特征。接着对X应用SVD将其维度缩小到k维，于是得到了一个低维特征空间

后续关于连续帧间的相似度都是基于这个低维特征展开的。在这里，利用余弦相似度来计算连续帧之间的相似度，即

[4]中提出用首尾帧的余弦相似度来作为判定的首要条件，作者认为只有在首尾帧相似度小于某个经验阈值的情况下，才应该判定为存在镜头边界。但在实际中，发明人发现该经验阈值的选取并不具有可归纳的经验性，而更多的是依赖于数据集的选取，对于前后镜头差异明显的片段具有较好的性能，而对于镜头的细微变化并不敏感。在本说明书中，发明人提出的一种基于累计差异度的方案，可以极大提升检测性能，具体思路如下。计算候选片段中每一连续帧的相似度，可得

若连续帧从属于同一个镜头，则它们的相似性会很强，得到余弦相似度

更接近1；若连续帧恰好是位于镜头边界，从属于两个镜头，则它们之间的余弦相似度

取决于两个镜头的相似程度，这也导致了前述的现有方案不具有普适性。我们认为即使两个镜头相似程度很大，也绝对不会比同一镜头内的连续帧的相似度更大，于是我们便可以得到最大差异度和累计差异度

和

如果满足下面两个条件，则说明候选CT段中存在镜头边界，且

中最小值

的位置表明了镜头边界的位置。

△_CT>△_∑ (11)

其中p∈[0,1]，为可选取值。

如果条件不满足，则说明该候选CT片段的累计差异度很大，且其中不存在画面变化特别显著的两个连续帧，符合GT的特征，这时候我们应该考虑对该片段进行重组后再进行GT检测。若该候选CT片段相邻存在候选GT片段，则将该片段与相邻的片段合并组成新的片段；若该候选CT片段是一个孤立的片段，分别在其段前段后添加5帧，组成一个16帧的新候选片段。新生成的候选片段需要进行GT检测，检测是否含有GT。

GT检测的主要思路是，首先在GT候选段落中查找CT段落，如果查不到再根据倒三角匹配模式查找GT段落。

具体的，GT检测的难度相较于CT检测要大得多，现有技术中有一种倒三角的模式匹配方法，这种方法认为随着镜头变化，处于渐变镜头中的帧，和候选片段首帧相似性会越来越小，和尾帧相似性会越来越大，两个相似性差值的绝对值呈现出一个先减小后增加的倒三角形状，发明人认为该方法具有一定的可行性，但是其检测流程并不具有普适性，所以发明人对GT检测流程进行了创新，使之具有更广的适用范围。与CT检测的初始流程一致，首先，需要提取每帧画面的1728维的HSV特征

这里的N＝11，21…。接着对X应用SVD将其维度精炼到k维

这里的k应取比CT检测中的大，更高维度的精炼特征会有更多的细节信息，从而对画面中微小的变化更敏感。然后，计算候选片段中每一连续帧的相似度，得到

便完成了检测的前置任务。因为候选片段的筛选机制会导致候选GT片段中有很大可能性会包含有CT片段，所以在进行GT检测前，需要对候选片段中是否含有CT片段进行判断。计算最大差异度和累计差异度

和

进行下面两个条件的判断：

△_GT>△_∑ (13)

其中，q为GT候选段中最大差异度的阈值范围。与前面CT判断条件不同的是，上述条件只要满足其中之一，就可以认为该片段中存在CT。原因在于，候选GT片段可能是由多个连续的小片段合并而成，而且片段长度要比候选CT片段长得多，所以在待检测的GT片段中有可能会存在2个及以上的镜头边界。当存在多个镜头边界时，条件1就不容易满足，而条件2则更加宽松。当通过上述条件时，找出

中所有小于q的值

(q值的选取会在下一节说明)，就能够进一步确定CT的数量及具体位置n₁,n₂,…。一般来说，一个镜头的长度是以秒为数量级，若n₁,n₂,…中出现位置连续的编号，显然不符合常理，而出现这种情况的原因极有可能是在视频中发生了闪光，闪光会使画面亮度突然增大，而表现在数据上就是HSV颜色空间的突变，会导致连续帧相似度

的减小，如图2所示。

所以当检测出的具体位置存在连续编号时，应该同时舍弃这两个编号，保留独立的那个数据，而正确情况应该表现为如图3所示。

根据另一种实施方式，若所述最大差异度不大于所述累积差异度，则利用所述降维矩阵，计算出该候选过渡段落中每一帧分别与首、尾帧的差异度的差值，若所述差值的分布匹配倒三角匹配模型，则确认该候选过渡段落包含渐变过渡的镜头边界。

在一个具体的例子中，如果公式(13)、(14)条件不满足，就对候选片段进行GT检测，确定GT的确切位置和持续时间。首先，计算片段中第t帧的距离度量d(t)，计算公式如下所示

d(t)＝|cos(β₁,β_t)-cos(β_t,β_N)|,t＝1,2,…,N (16)

容易知道，当t取1或N的时候，d(t)可以取到最大值，而理想情况下最小值则会在t的中间值取到。如果当前检测的片段是较为理想的渐变过渡片段，则d(t)的曲线将会呈现出如图所示的倒三角形状，如图4所示。

下面通过本说明书一个实施例提供的实验结果，进一步阐述本发明方法的效果。

在一个实施例中，发明人在4个TRECVID2007数据集(如表1所示)以及100个双镜头电影片段上，对本发明实施例提供的边界检测方法进行测试，如表1所示。

表1

为了评估该实施例提供的边界检测方法，我们将所提方案与现有的技术方案进行比较，并使用查全率(Recall)、查准率(Precision)、F1评分标准作为评价指标，这三种指标分别定义为

其中N_C表示找对的镜头边界，N_M表示未找到的镜头边界，N_F表示找错的镜头边界。通常情况下，召回率和查准率是一对矛盾的变量，一个指标的优化往往会导致另一个指标的性能下降。所以引入F1指标可以同时考虑到召回率和查准率。

该实施例的方案中提到了3个参数。公式(6)中的参数a直接影响到T_L。a的增加会产生一个严格的阈值T_L，从而会导致更多的片段被漏选得到一个低召回率。一个较为宽松的阈值T_L，则会选入更多无边界阈值，导致查准率的增加。通过实验我们发现，a在[0.6,0.7]是比较合适的。

p代表相邻帧间能允许的最小相似度的阈值。如果两帧之间阈值小于这个值，则判断两帧从属于不同的镜头。p增大会使得该方案对于帧间变化更加敏感，可以检测出一些细微变化的镜头，但同时也会造成错检概率的提升。q并不直接影响到整个算法的性能，只需要满足p<q<1即可。最终在实验中，我们令p＝0.990,q＝0.996。

为了证明我们方案的性能改进，分别在TRECVID 2007和100个电影片段上对实施例方案和现有方案进行测试，比较了召回率、准确度和F1，结果如TABLE2所示，

由于两种方法都采用了严格的候选段落选择机制，大大降低了误检测的概率，可以看出准确率很好，召回率欠佳。如前所述，该现有方案存在适用性的问题，检测的性能取决于数据集的选择。BG_2408和BG_35050的性能较好是因为这两个视频中没有复杂的场景和快速的运动。在比较复杂的检测环境下，比如电影场景会对镜头边界做艺术化处理，其性能明显下降，尤其是召回率。通过实验，我们发现召回率低的原因是一些存在CT的片段被误认为存在GT，GT检测器无法有效地检测出该片段中的CT。在实施例的方案中，对GT检测器进行了优化，使其能够准确地检测出包含在GT候选段中的CT。可见，本发明实施例的方案大大提高了召回率，并且对不同类型的视频也有很好的适用性。

图5示出本发明一个实施例提供的一种镜头边界检测装置的结构图。如图5所示，该装置500包括：

目标视频获取单元51，配置为获取目标视频；所述目标视频包括M个图像帧；

视频段落划分单元52，配置为将所述目标视频划分为多个视频段落，每个所述视频段落包含所述M个图像帧中若干个连续图像帧；

候选视频段落确认单元53，配置为将所述多个视频段落分组,根据每组包括的各视频段落的首、尾帧的图像数据，确认各视频段落的首、尾帧差，基于所述各视频段落的首、尾帧差的均值,确认每组的自适应阈值；根据所述每组的自适应阈值、各视频段落的首、尾帧差,在各组中确认至少一个或多个候选视频段落；

特征提取和处理单元54，配置为对于每个候选过渡段落，提取该候选过渡段落包含的多个图像帧的HSV特征，生成该候选过渡段落的特征矩阵；对所述特征矩阵进行奇异值分解，获取该候选过渡段落的降维矩阵；

突变过渡镜头确认单元55，配置为利用所述降维矩阵，获取该候选过渡段落中每连续两帧的差异度，取所述每连续两帧的差异度中的最大值作为该候选过渡段落的最大差异度，通过累加所述每连续两帧的差异度并减去所述最大差异度，获取该候选过渡段落的累积差异度，比较所述累积差异度与所述最大差异度，若所述最大差异度大于所述累积差异度，则确认该候选过渡段落包含突变过渡的镜头边界，并根据所述最大差异度确定所述突变过渡的镜头边界的位置。

在一个实施例中，该装置500还可以包括，渐变过渡镜头确认单元56，配置为若所述最大差异度不大于所述累积差异度，则利用所述降维矩阵，计算出该候选过渡段落中每一帧分别与首、尾帧的差异度的差值，若所述差值的分布匹配倒三角匹配模型，则确认该候选过渡段落包含渐变过渡的镜头边界。

本说明书另一方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项方法。

本说明书又一方面提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项方法。

从以上实施例可以看出，采用本发明实施例提供的基于累计差异度和奇异值分解的镜头边界检测方法和装置，通过候选段的选择，可以消除大量的非边界帧，从而使得检测更具有针对性；利用奇异值分解降低特征空间的维数，可以节约计算资源；基于累计误差进行镜头边界检测，相对于现有技术中检测的不普遍适用性和不合理性，大大提高了检测性能，尤其是CT检测。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种镜头边界检测方法，所述方法包括：

获取目标视频；所述目标视频包括M个图像帧；

将所述多个视频段落分组,根据每组包括的各视频段落的首、尾帧的图像数据，确认各视频段落的首、尾帧差，基于所述各视频段落的首、尾帧差的均值,确认每组的自适应阈值；根据所述每组的自适应阈值、各视频段落的首、尾帧差,在各组中确认至少一个或多个候选视频段落作为候选过渡段落；

2.根据权利要求1所述的方法，还包括，若所述最大差异度不大于所述累积差异度，则利用所述降维矩阵，计算出该候选过渡段落中每一帧分别与首、尾帧的差异度的差值，若所述差值的分布匹配倒三角匹配模型，则确认该候选过渡段落包含渐变过渡的镜头边界。

3.根据权利要求1所述的方法，其中，将所述多个视频段落分组,确定每组包括的各视频段落的首、尾帧差，根据所述各视频段落的首、尾帧的帧差的均值,确认每组的自适应阈值；根据所述每组的自适应阈值、每组包括的各视频段落的首、尾帧差,确认至少一个或多个候选视频段落，包括：

4.根据权利要求3所述的方法，其中，至少根据视频大组、各视频小组的平均首尾帧差，确定各视频小组的自适应阈值的数学表示为：

5.根据权利要求1所述的方法，其中，所述图像帧的HSV特征为1728维，所述候选过渡段落的特征矩阵为1728×N维，N为该候选过渡段落饱含帧数。

6.根据权利要求1所述的方法，其中，所述利用所述降维矩阵，获取该候选过渡段落中每连续两帧的差异度，包括，根据所述降维矩阵计算每个候选过渡段落中每连续两帧的余弦相似度，根据所述余弦相似度确认每个候选过渡段落中每连续两帧的差异度。

7.一种镜头边缘检测方法装置，所述装置包括：

候选视频段落确认单元，配置为将所述多个视频段落分组,根据每组包括的各视频段落的首、尾帧的图像数据，确认各视频段落的首、尾帧差，基于所述各视频段落的首、尾帧差的均值,确认每组的自适应阈值；根据所述每组的自适应阈值、各视频段落的首、尾帧差,在各组中确认至少一个或多个候选视频段落作为候选过渡段落；

突变过渡镜头确认单元，配置为利用所述降维矩阵，获取该候选过渡段落中每连续两帧的差异度，取所述每连续两帧的差异度中的最大值作为该候选过渡段落的最大差异度，通过累加所述每连续两帧的差异度并减去所述最大差异度，获取该候选过渡段落的累积差异度，比较所述累积差异度与所述最大差异度，若所述最大差异度大于所述累积差异度，则确认该候选过渡段落包含突变过渡的镜头边界，并根据所述最大差异度确定所述突变过渡的镜头边界的位置。

8.根据权利要求7所述的装置，还包括，渐变过渡镜头确认单元，配置为若所述最大差异度不大于所述累积差异度，则利用所述降维矩阵，计算出该候选过渡段落中每一帧分别与首、尾帧的差异度的差值，若所述差值的分布匹配倒三角匹配模型，则确认该候选过渡段落包含渐变过渡的镜头边界。

9.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-6中任一项的所述的方法。

10.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-6中任一项所述的方法。