CN104952073A

CN104952073A - 基于深度学习的镜头边缘检测方法

Info

Publication number: CN104952073A
Application number: CN201510332345.1A
Authority: CN
Inventors: 宋利; 童文荆; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-06-15
Filing date: 2015-06-15
Publication date: 2015-09-30
Anticipated expiration: 2035-06-15
Also published as: CN104952073B

Abstract

本发明公开一种基于深度学习的镜头边缘检测方法，首先将视频分段，计算各段的帧内亮度距离的局部阈值，选出镜头边缘候选段，剔除不含镜头边缘的视频段；将镜头边缘候选段两次进行二分处理，根据新分出的两小段的段内亮度距离的关系来选出镜头边缘候选段，剔除不含镜头边缘的视频段；对长度为6帧的镜头边缘候选段，选取该段的关键帧，输入卷积神经网络得到关键帧的标签，进一步确定该段内是否有突变镜头边缘以及其位置；而对于没有突变镜头边缘的镜头边缘候选段，选取该段的关键帧，输入卷积神经网络得到关键帧的标签，根据标签来确定该候选段是否是渐变镜头边缘；将相邻的渐变镜头边缘融合成为一个渐变镜头边缘。

Description

基于深度学习的镜头边缘检测方法

技术领域

本发明涉及的是一种可用于视频管理与分析中的镜头边缘检测技术，具体是一种基于深度学习的镜头边缘检测方法。

背景技术

视频镜头边缘检测是指检测视频镜头边缘的位置。镜头被定义为用单一摄像机在未被干扰的情况下拍摄的一段视频帧序列。镜头边缘分为两种类型：突变镜头边缘，突变镜头边缘是由上个镜头的最后一帧和下个镜头的第一帧所组成，另一种是渐变镜头边缘，渐变镜头边缘一般不止有两帧。

视频镜头边缘检测可以帮助分析视频的内容与结构，可以作为其他视频处理任务的预处理步骤，如视频标注，视频检索和视频压缩等，可以提高这些处理任务的精度与速度。因此，视频镜头边缘检测具有重要意义。

现有的大部分镜头边缘检测注重于突变镜头边缘检测。突变镜头边缘检测主要利用相邻镜头之间帧序列会发生剧烈变化这一特征。因此，这些检测方法会根据帧序列之间的图像信号层的特征的变化：像素的亮度值差，灰度直方图差，边缘轮廓变化等。与突变镜头边缘检测相比，渐变镜头边缘检测更加的困难。Y.Li,Z.Lu,andX.Niu等人2009年在IET Image Process发表的“Fast video shot boundary detectionframework employing pre-processing techniques”一文中提出了一种基于像素亮度的镜头边缘候选段检测的预处理以及对帧间亮度距离的三角形模式匹配的渐变镜头检测方法。Z.Lu and Y.Shi等人2013年在IEEE Trans.Image Processing发表的“Fastvideo shot boundary detection based on SVD and pattern matching”则使用基于像素亮度的镜头边缘候选段检测的预处理以及对候选段的直方图的SVD(奇异值分解)所得新特征来进行渐变检测。

这些方法多是基于图像的信号特征，忽视帧的内容信息。但是，考虑到镜头的定义，使用帧的内容信息辅助视频镜头边缘检测更直接也能取得更好的效果。近年来，卷积神经网络被证明能够很好的去理解图片的内容信息。作为一种深度学习模型，卷积神经网络具有多层，底层能够学习到图片信号层的信息，例如边缘和角等，高层则能学习到边缘的组合和图片中物体的类别等。因此，采用卷积神经网络来学习视频帧的内容信息，根据这些内容信息可以帮助提升视频镜头边缘检测的精度。

发明内容

本发明针对现有技术存在的上述不足，提供一种基于深度学习的视频镜头边缘检测方法，它能够准确的检测突变镜头边缘和渐变镜头边缘。

为实现上述目的，本发明首先将视频分段，对每个视频段计算其帧内亮度距离的局部阈值，根据该阈值选出镜头边缘候选段，剔除不含镜头边缘的视频段。然后，本发明将镜头边缘候选段两次进行二分处理，根据新分出的两小段的段内亮度距离的关系来进一步选出镜头边缘候选段，剔除不含镜头边缘的视频段。然后，本发明对长度为6帧的镜头边缘候选段，选取该段的关键帧，输入训练好的卷积神经网络得到关键帧的标签，根据标签以及段内相邻帧的亮度距离确定该段内是否有突变镜头边缘，以及突变镜头边缘的位置。而对于没有突变镜头边缘的镜头边缘候选段，选取该段的关键帧，输入第七步中的卷积神经网络得到关键帧的标签，根据标签来确定该候选段是否是渐变镜头边缘。最后将相邻的渐变镜头边缘融合成为一个渐变镜头边缘。

具体的，一种基于深度学习的视频镜头边缘检测方法，包括如下步骤：

第一步，把视频帧分段，段与段之间不重合，每段21帧；

第二步，计算各个段的段内亮度距离；

第三步，根据第二步计算得到的各段的段内亮度距离计算局部阈值；

第四部，根据各个段的段内亮度距离和局部阈值的关系确定该视频段是否为镜头边缘候选段(段内可能包括镜头边界)；

第五步，将镜头边缘候选段均分成两小段，并根据这两小段的段内亮度距离的关系去确定这两小段内是否可能存在镜头边缘；

第六步，对于第五步之后得到的长度为11帧的镜头边缘候选段继续均分成两小段，并根据这两小段的段内亮度距离的关系去确定这两小段内是否可能存在镜头边缘；

第七步，用ImageNet的数据库训练一个8层的卷积神经网络，输入一个视频帧可以得到该帧在ImageNet的1000类上的概率分布，选取概率前五的类别来作为该视频帧的标签；

第八步，对于第六步之后得到的长度为6帧的镜头边缘候选段，选取该段的关键帧，输入第七步中的卷积神经网络得到关键帧的标签，根据标签以及段内相邻帧的亮度距离确定该段内是否有突变镜头边缘，以及突变镜头边缘的位置；

第九步，对于第八步之后没有突变镜头边缘的镜头边缘候选段，选取该段的关键帧，输入第七步中的卷积神经网络得到关键帧的标签，根据标签来确定该候选段是否是渐变镜头边缘；

第十步，对于第九步之后得到的渐变镜头边缘，将相邻的融合起来。

优选地，所述第三步计算段内亮度距离的局部阈值中，先计算该段周围100段的亮度距离均值μ_G，再计算该段周围10段的亮度距离的均值μ_L与亮度距离标准差σ_L，然后计算该段的亮度距离局部阈值T_L：

T_{L} = μ_{L} + 0.7 (1 + \ln (\frac{μ_{G}}{μ_{L}})) σ_{L} .

优选地，所述第七步，用1000类的ImageNet的图片训练一个8层的卷积神经网络：其中5层为卷积层，3层为全连接层，其中第一个卷积层与第二个卷积层后面连接一个最大池化层，这两个最大池化层后面会连接一个局部响应正则化层，第五个卷积层后面连接一个最大池化层，此最大池化层后面不再连接局部响应正则化层；将视频的一帧输入卷积神经网络，输出是该帧在ImageNet的1000类上的一个概率分布，这里取概率值最大的5类作为图片的标签，用该标签来帮助后续的镜头边缘检测。

优选地，所述第八步利用镜头边缘候选段内最大帧间亮度距离和第二大帧间亮度距离的比值以及最大帧间亮度距离的帧附近几帧的标签的关系来确定该候选段内是否存在突变镜头边缘以及突变镜头边缘的位置。

所述第九步利用镜头边缘候选段的两端的附近几帧的关系来确定该候选段是否为渐变镜头边缘。

所述第十步将相邻的渐变镜头边缘融合成为一个渐变镜头边缘。

与现有技术相比，本发明具有以下有益效果：

本发明通过深度学习获取到的视频帧的内容信息来辅助进行镜头边缘检测，这是更加直接并且更符合镜头边缘检测的定义的。实验结果证明，本发明在突变镜头边缘和是渐变镜头边缘的检测上，准确率都要高于现有技术。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明基于深度学习的镜头边缘检测方法的总体流程图。

图2为本发明中使用的卷积神经网络的具体结构示意图。

图3为本发明中用于帮助进行镜头边缘检测的视频帧的标签。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本实施例提供一种基于深度学习的镜头边缘检测方法，具体实施细节如下，以下实施例没有详细说明的部分参照发明内容进行：

首先将视频分段，段与段之间不重合，每段21帧。

接下来计算各个段的段内亮度距离，定义第n段的段内亮度距离为：

d^{20} (n) = \underset{x}{Σ} \underset{y}{Σ} | F (x, y; 20 n) - F (x, y; 20 (n + 1)) | - - - (1)

其中F(x,y；k)表示第k帧在像素坐标(x,y)处的亮度值。之所以采用亮度距离是因为它容易计算而且对于帧间的变化很敏感(帧间变化大，则亮度距离大)。

然后计算亮度距离的局部阈值。先计算该段周围100段的亮度距离均值μ_unit，再计算该段周围10段的亮度距离的均值μ_L与亮度距离标准差σ_L，然后计算该段的亮度距离局部阈值：

T_{L} = μ_{L} + 0.7 (1 + \ln (\frac{μ_{unit}}{μ_{L}})) σ_{L} - - - (2)

找出段内距离大的视频段，将其当作镜头边缘候选段。通过比较各个段的段内亮度距离与相应的局部阈值，如果高于局部阈值，则该段是镜头边缘候选段。除此以外，如果段内亮度距离低于这个局部阈值，但是比相邻候选段的段内亮度距离都要高很多，也被认为是镜头边缘候选段。用公式描述如下：

[d²⁰(n)＞3d²⁰(n-1)∪d²⁰(n)＞3d²⁰(n+1)]∩d²⁰(n)＞0.8μ_unit(3)

然后对每个镜头边缘候选段进行二分处理。将这些候选段均分成两小段，并根据这两小段的段内亮度距离的关系去确定这两小段内是否可能存在镜头边缘。分别定义这两小段的段内亮度距离为：

d_{F}^{20} (n) = \underset{x}{Σ} \underset{y}{Σ} | F (x, y; 20 n) - F (x, y; 20 n + 10) | - - - (4)

d_{B}^{20} (n) = \underset{x}{Σ} \underset{y}{Σ} | F (x, y; 20 n + 10) - F (x, y; 20 (n + 1)) | - - - (5)

根据和之间的关系将候选段分为四种类型，对应关系见表1。

表1

在类型1中，前面小段的亮度距离比后面小段的亮度距离高很多，并且跟总的亮度距离相比也比较高，前面的小段是镜头边缘候选段，剔除后面的小段；类似地，在类型2中，后面小段的亮度距离比前面小段的亮度距离高很多，并且跟总的亮度距离相比也比较高，后面的小段是镜头边缘候选段，剔除前面的小段；在类型3中，两个小段跟总的亮度距离相比太低了，因此都被剔除；其余的情况下，该段整体仍作为镜头边缘候选段，不作处理。

类似，对于前面处理后得到的长度为11帧的镜头边缘候选段再做一次二分处理。经过这两次二分处理后，有长度为6,11和21帧这三种镜头边缘候选段。

用1000类的ImageNet的图片训练一个8层的卷积神经网络：其中具体的结构如图2所示。在这8层中，5层为卷积层，3层为全连接层，其中第一个卷积层与第二个卷积层后面连接一个最大池化层，这两个最大池化层后面会连接一个局部响应正则化层，第五个卷积层后面连接一个最大池化层，此最大池化层后面不再连接局部响应正则化层。

将视频的一帧输入卷积神经网络，输出是该帧在ImageNet的1000类上的一个概率分布，这里选取概率值最大的的5类作为图片的标签，用该标签来帮助后续的镜头边缘检测，如图3所示。

对于长度为6的镜头边缘候选段进行突变镜头检测。假设d(t,t+1)表示第t帧到第t+1帧的亮度距离：

d (t, t + 1) = \underset{x}{Σ} \underset{y}{Σ} | F (x, y; t) - F (x, y; t + 1) | - - - (6)

其中F(x,y；k)表示第k帧在像素坐标(x,y)处的亮度值。那么对于第n个镜头边缘候选段，假设它从第s帧开始，到第e帧结束，那么如果t_m满足下式，则认为t_m就是一个突变镜头边缘：

t_{m} = \underset{s \leq t \leq e}{\arg \max} d (t, t + 1) - - - (7)

\frac{d (t_{m}, t_{m} + 1)}{d (t_{sm}, t_{sm} + 1) + c} &GreaterEqual; 3 - - - (8)

|T(t_m-3)∩T(t_m-1)∩T(t_m+2)∩T(t_m+4)|≤1 (9)

其中d(t_m,t_m+1)是第一大的亮度距离，d(t_sm,t_sm+1)是第二大的亮度距离，c是一个小常量来避免出现除0错误，在实验中取c为0.1。

未检测到突变镜头边缘的镜头边缘候选段，假设该片段从第s帧开始，到第e帧结束。如果满足下式，假设T(i)是第i帧的标签，表示空集，则认为是渐变镜头边缘：

最后将相邻的渐变镜头边缘融合成为一个渐变镜头边缘。

为了体现本发明的进步性，本发明方法与Y.Li,Z.Lu,andX.Niu等人论文以及Z.Lu andY.Shi等人论文的方法进行了比较。目前大部分镜头边缘检测方法都是使用准确率，召回率以及F₁值来判断边缘检测的准确度的。他们的公式定义如下

recall = \frac{N_{c}}{N_{c} + N_{m}} - - - (11)

precision = \frac{N_{c}}{N_{c} + N_{f}} - - - (12)

F_{1} = \frac{2 \times recall \times precision}{recall + precision} - - - (13)

其中N_c是正确检测到的镜头边缘数目，N_m是漏检的镜头边缘数目，N_f是错检的镜头边缘数目而F₁是一个描述准确度的综合指数。F₁的范围在0～1，而它的值越接近1则说明方法的准确度越高。

表2中是用于比较的视频素材，这些素材来源于TRECVID 2001，是用来做镜头边缘检测的常用实验素材。表3则比较了三种方法的突变镜头边缘检测结果，表4则比较了三种方法的渐变镜头边缘检测结果。由表3以及表4可以看出本发明的方法的突变镜头边缘检测和渐变镜头边缘检测的平均F₁值分别为0.924和0.867，比其他两种方法的准确度更高。

表2

视频素材	帧数	镜头边缘数目	突变镜头边缘数目	渐变镜头边缘数目
					anni001	914	8	0	8
anni005	11358	65	38	27
					anni007	1590	11	5	6
anni008	2775	14	2	12
					anni009	12304	103	38	65
BOR10_001	1815	11	0	11
					BOR10_002	1795	10	0	10
总计	32551	222	83	139

表3

表4

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于深度学习的镜头边缘检测方法，其特征在于所述方法包括如下步骤：

第一步，把视频帧分段，段与段之间不重合，每段21帧；

第二步，计算各个段的段内亮度距离；

第四部，根据各个段的段内亮度距离和局部阈值的关系确定该视频段是否为镜头边缘候选段，段内可能包括镜头边界；

第六步，把第五步之后得到的长度为11帧的镜头边缘候选段继续均分成两小段，并根据这两小段的段内亮度距离的关系去确定这两小段内是否可能存在镜头边缘；

第七步，用ImageNet的数据库训练一个8层的卷积神经网络，输入一个视频帧得到该图片帧在ImageNet的1000类上的概率分布，选取概率前五的类别来作为该视频帧的标签；

2.根据权利要求1所述的基于深度学习的镜头边缘检测方法，其特征在于，所述第三步计算段内亮度距离的局部阈值中，先计算该段周围100段的亮度距离均值μ_G，再计算该段周围10段的亮度距离的均值μ_L与亮度距离标准差σ_L，然后计算该段的亮度距离局部阈值T_L：

T_{L} = μ_{L} + 0.7 (1 + \ln (\frac{μ_{G}}{μ_{L}})) σ_{L} .

3.根据权利要求1所述的基于深度学习的镜头边缘检测方法，其特征在于，所述第七步：用1000类的ImageNet的图片训练一个8层的卷积神经网络：其中5层为卷积层，3层为全连接层，其中第一个卷积层与第二个卷积层后面连接一个最大池化层，这两个最大池化层后面会连接一个局部响应正则化层，第五个卷积层后面连接一个最大池化层，此最大池化层后面不再连接局部响应正则化层；

将视频的一帧输入卷积神经网络，输出是该帧在ImageNet的1000类上的一个概率分布，这里取概率值最大的5类作为图片的标签，用该标签来帮助后续的镜头边缘检测。

4.根据权利要求1所述的基于深度学习的镜头边缘检测方法，其特征在于所述第八步中：对于第六步之后长度为6的镜头边缘候选段进行突变镜头检测；

假设d(t,t+1)表示第t帧到第t+1帧的亮度距离：

d (t, t + 1) = \underset{x}{Σ} \underset{y}{Σ} | F (x, y; t) - F (x, y; t + 1) |

其中F(x,y；k)表示第k帧在像素坐标(x,y)处的亮度值，那么对于第n个镜头边缘候选段，假设它从第s帧开始，到第e帧结束，那么如果t_m满足下式，则认为t_m就是一个突变镜头边缘：

t_{m} = \begin{matrix} \underset{s \leq t \leq e}{\arg \max} & d (t, t + 1) \end{matrix}

\frac{d (t_{m}, t_{m} + 1)}{d (t_{sm}, t_{sm} + 1) + c} &GreaterEqual; 3

|T(t_m-3)∩T(t_m-1)∩T(t_m+2)∩T(t_m+4)|≤1

其中d(t_m,t_m+1)是第一大的亮度距离，d(t_sm,t_sm+1)是第二大的亮度距离，c是一个小常量来避免出现除0错误。

5.根据权利要求1-4任一项所述的基于深度学习的镜头边缘检测方法，其特征在于，所述的第九步中：对于第八步中未检测到突变镜头边缘的镜头边缘候选段，假设该片段从第s帧开始，到第e帧结束；如果满足下式，假设T(i)是第i帧的标签，表示空集，则认为该片段包含渐变镜头边缘：

T(s-5)∩T(s-3)∩T(s-1)

6.根据权利要求1-4任一项所述的基于深度学习的镜头边缘检测方法，其特征在于，所述的第十步中：将相邻的渐变镜头边缘融合成为一个渐变镜头边缘。