CN106327513A

CN106327513A - 基于卷积神经网络的镜头边界检测方法

Info

Publication number: CN106327513A
Application number: CN201610670319.4A
Authority: CN
Inventors: 宋利; 许经纬; 解蓉
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2016-08-15
Filing date: 2016-08-15
Publication date: 2017-01-11
Anticipated expiration: 2036-08-15
Also published as: CN106327513B

Abstract

本发明公开一种基于卷积神经网络的镜头边界检测方法，所述方法将视频分段，计算各段局部阈值，排除段内亮度距离低于阈值的段，对高于阈值的段进行两次二分处理，根据候选段和二分处理得到的小段的段内亮度距离的关系排除不含镜头边界的段，并对衡量结果进行分类得到突变边界候选段和渐变边界候选段；用卷积神经网络提取段内每帧的特征并利用特征间的余弦距离衡量帧间相似度；对突变边界候选段，根据连续两帧的帧间相似度和候选段首末帧的帧间相似度的关系确定该段是否存在突变边界及位置；对渐变边界候选段，计算绝对距离差并绘制曲线，进而确定该段是否为渐变边界并将相邻的渐变边界融合。本发明能准确的检测突变镜头边界和渐变镜头边界。

Description

基于卷积神经网络的镜头边界检测方法

技术领域

本发明涉及的是一种可用于视频分析与检索中的镜头边界检测技术，具体是一种基于卷积神经网络的镜头边界检测方法。

背景技术

视频镜头边界检测是指检测视频镜头边界的位置。镜头被定义为用单一摄像机在未被干扰的情况下拍摄的一段视频帧序列。镜头边界分为两种类型：一种是突变镜头边界，突变镜头边界存在于连续两帧间，由上个镜头的最后一帧和下个镜头的第一帧所组成；另一种是渐变镜头边界，渐变镜头边界一般不止有两帧，它通常由一些帧间相关的帧组成，从上个镜头到下个镜头会存在较温和的过渡段。

视频镜头边界检测可以帮助分析视频的内容与结构，可以作为其他视频处理任务的预处理步骤，如视频标注和视频检索等，同时可以提高这些处理任务的精度与速度。因此，视频镜头边界检测具有重要意义。

现有的大部分镜头边界检测注重于突变镜头边界检测。突变镜头边界检测主要利用相邻镜头之间帧序列会发生剧烈变化这一特征。因此，这些检测方法会根据帧序列之间的图像信号层的特征的变化：像素的亮度值差，边界纹理特征变化，灰度直方图差等。与突变镜头边界检测相比，渐变镜头边界检测难度更大。Y.Li,Z.Lu,and X.Niu等人2009年在IET Image Process发表的“Fast video shot boundary detection frameworkemploying pre-processing techniques”一文中提出了一种基于像素亮度距离的镜头边界候选段检测的预处理和对帧间亮度距离的三角形模式匹配的渐变边界检测方法，在当时大幅度缩短了视频边界检测的时间，但它有两个缺点：一是准确率不高，二是还不能满足实时处理的要求。Z.Lu andY.Shi等人2013年在IEEE Trans.Image Processing发表的“Fastvideo shot boundary detection based on SVD andpattern matching”一文中使用了类似的预处理方法，同时它利用了综合颜色分布、纹理特征等表达能力较强的的新特征并通过SVD(奇异值分解)对特征进行降维处理，最后提出了一种基于倒三角模式匹配的渐变边界检测方法，实现了实时处理和较高的精度，但当处理背景相似的渐变边界时，它的精度较低。Tong等人2015年在IEEE International Symposium on Broadband MultimediaSystems and Broadcasting发表的“CNN-based shot boundary detection and videoannotation”一文中考虑帧的内容信息，通过内容信息帮助检测镜头边界，但当处理背景相似的渐变边界时，由于训练数据库的有限性，提取得到的内容信息几乎一致，这时检测效果会比较差。

这些方法考虑了帧的最低级特征，即信号特征，也考虑了最高级特征，即帧的语义信息。近年来，卷积神经网络被证明能够很好地理解图片的内容信息。作为一种深度学习模型，卷积神经网络具有多层，底层能够学习到图片信号层的信息，例如边界和角等，中层则能学习到底层边界的组合和抽象信息，最高层则学习到图片中物体的类别。因此，中层特征信息表达能力较底层更强，信息内容也更丰富。通过卷积神经网络学习视频帧的中层特征信息，高效的中层特征可以帮助提升视频镜头边界检测的精度。

发明内容

本发明针对现有技术存在的上述不足，提供一种基于卷积神经网络的视频镜头边界检测方法，它能够准确的检测突变镜头边界和渐变镜头边界。

为实现上述目的，本发明首先将视频分段，对每段计算其帧内亮度距离的局部阈值，根据该阈值选出镜头边界候选段，剔除不含镜头边界的视频段。然后，本发明将镜头边界候选段两次进行二分处理，根据候选段和二分处理得到的小段的段内亮度距离的关系进一步选出镜头边界候选段，并对衡量的结果进行分类得到突变边界候选段和渐变边界候选段。本发明使用卷积神经网络提取段内每帧的中层特征并利用特征间的余弦距离衡量帧间相似度。然后，对突变边界候选段，根据连续两帧的帧间相似度和候选段首末帧的帧间相似度的关系来确定该段是否存在突变边界及突变边界的位置；对渐变边界候选段，计算段内每帧和段前、后帧的帧间相似度之差的绝对值并绘制曲线，通过模式匹配的方法分析曲线的特性进而确定该段是否为渐变边界并将相邻的渐变边界融合。

具体的，一种基于深度学习的视频镜头边界检测方法，包括如下步骤：

第一步，将视频分成两段以上，段与段之间不重合，根据各段的段内亮度距离和局部阈值的关系确定该段是否为视频镜头边界候选段，即可能包含镜头边界的段；

第二步，将镜头边界候选段均分成两小段，并根据候选段和两小段的段内亮度距离的关系去确定这两小段内是否可能存在镜头边界；

第三步，把第二步结果中的镜头边界候选段继续均分成两小段，并根据候选段和两小段的段内亮度距离的关系确定这两小段内是否可能存在突变边界，进而候选段被分为突变边界候选段和渐变边界候选段；

第四步，训练卷积神经网络，使用卷积神经网络提取段内每帧的特征并利用特征间的余弦距离衡量帧间相似度；

第五步，对于第三步得到的突变边界候选段进行突变边界检测：将段内每帧输入第四步中的卷积神经网络得到对应特征向量，根据连续两帧的帧间相似度和和候选段首末帧的帧间相似度的关系来确定段内是否有突变边界或者该段可能是渐变边界的一部分；

第六步，对于第五步中被检测为可能是渐变边界的一部分的段，在段前后各加一定数量帧使其成为渐变边界候选段；

第七步，对第三步和第六步得到的渐变边界候选段进行渐变边界检测：将段内每帧和段前后各一帧输入第四步中的卷积神经网络得到对应特征向量，计算绝对距离差(段内每帧分别和段前、段后一帧的帧间相似度之差的绝对值)并绘制曲线，通过模式匹配的方法分析曲线的特性，进而确定该段是否为渐变边界或者该段可能包含突变边界；

第八步，对第七步中得到的可能包含突变边界的段进行突变边界检测，对得到的渐变镜头边界相邻的部分进行边界融合。

优选地，所述第四步：用图片训练一个8层的卷积神经网络：其中5层为卷积层，3层为全连接层，其中第一个卷积层与第二个卷积层后面连接一个最大池化层，这两个最大池化层后面会连接一个局部响应正则化层，第五个卷积层后面连接一个最大池化层，此最大池化层后面不再连接局部响应正则化层；将视频的一帧输入卷积神经网络，抽取倒数第三层(fc-6层)的输出向量作为对应帧的特征；同时通过计算特征向量间的余弦距离来衡量帧间相似度：

ψ (f_{i}, f_{j}) = c o s (β_{i}, β_{j}) = \frac{(β_{i}, β_{j})}{| | β_{i} | | \cdot | | β_{j} | |}

其中ψ(f_i,f_j)表示帧f_i和f_j的帧间相似度；β_i和β_j表示帧f_i和f_j的特征向量。

优选地，所述第五步中：对第三步得到的突变边界候选段进行突变镜头检测，突变边界检测流程如下：

对一个N帧的突变边界候选段，通过卷积神经网络抽取段内每帧特征向量为：{β_i}，i＝0,...,N-1；ψ(t)＝ψ(f_t,f_t+1)表示段内连续两帧f_t和f_t+1的帧间相似度，其中t＝0,...,N-2；D₁＝ψ(f₀,f_N-1)表示段首尾帧的帧间相似度；

若D₁＜0.9满足,且：

(1)min(ψ(t))＜kD₁+(1-k)和max(ψ(t))-min(ψ(t))＞T_c同时满足，则第t帧为突变边界；

(2)min(ψ(t))＜kD₁+(1-k)和max(ψ(t))-min(ψ(t))＞T_c不同时满足，则该段可能是渐变边界的一部分；

其中k是0到1之间的实数，T_c衡量帧间相似度是否符合突变边界，N是该候选段的长度。

所述第九步中对于第八步中被检测为可能是渐变边界的一部分的段，在段前后各加10帧使其成为渐变边界候选段。

优选地，所述的第七步中：对第三步和第六步得到的渐变边界候选段进行渐变边界检测，渐变边界检测流程如下：

对一个N帧的渐变边界候选段，通过卷积神经网络抽取段内每帧和段前后各一帧的特征向量为：{β_i}，i＝s,0,...,N-1,e；N是该候选段的长度；s代表该段段首前一帧，e代表该段段末后一帧；

定义绝对距离差：diff(t)＝|ψ(f_s,f_t)-ψ(f_t,f_e)|，其中t＝0,...,N-1，f_s和f_e分别表示段前一帧和段后一帧；

若max(diff(t))-min(diff(t))＞T_p满足，且：

(1)N_d/N＜T_r和(t^*-(N+1)/2)/N＜T_b同时满足，则该段为渐变边界；

(2)N_d/N＜T_r满足而(t^*-(N+1)/2)/N＜T_b不满足，则需要对该段中心进行调整，在保证段长度不变的前提下移动(t^*-(N+1)/2)帧，对调整之后的段重新进行渐变边界检测，这里对每个渐变边界候选段只能调整一次；

(3)N_d/N＜T_r不满足，则该段可能包含突变边界；

其中：T_p衡量该段是否符合渐变边界的绝对距离差；N_d为段内diff(t)值小于0.1的帧的数目，T_r为渐变边界中限制N_d的阈值；t^*为diff(t)取最小值对应的帧，T_b为限制t^*偏离度的阈值。

与现有技术相比，本发明具有以下有益效果：

本发明通过卷积神经网络提取得到的视频帧的中层特征信息进行镜头边界检测，并基于此特征设计了高效的镜头边界检测框架。实验结果证明，本发明在突变镜头边界和是渐变镜头边界的检测上，准确率都要高于现有技术。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明基于卷积神经网络的镜头边界检测方法的总体流程图；

图2为本发明使用的实验数据集中的一个包含突变边界的候选段；

图3为本发明基于图2突变边界候选段得到的连续两帧的帧间相似度(余弦距离)曲线；

图4为本发明使用的实验数据集中的一个包含渐变边界段的diff(t)曲线。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本实施例提供一种基于卷积神经网络的镜头边界检测方法，具体实施细节如下，以下实施例没有详细说明的部分参照发明内容进行，图1中注：Y代表条件成立；N代表条件不成立。

首先将视频分段，段与段之间不重合，每段21帧。当然，也可以根据实际情况分成其他数目的段。

接下来计算各个段的段内亮度距离，定义第n段的段内亮度距离为：

d^{20} (n) = \underset{x}{Σ} \underset{y}{Σ} | F (x, y; 20 n) - F (x, y; 20 (n + 1)) | - - - (1)

其中F(x,y；k)表示第k帧中像素位置(x,y)处的亮度值。

然后计算每段对应的局部阈值：先计算所有小段的段内亮度距离均值μ_G，再计算该段周围10段的亮度距离均值μ_L与亮度距离标准差σ_L，然后计算该段对应的局部阈值

T_{n}^{L} = μ_{L} + 0.7 (1 + l n (\frac{μ_{G}}{μ_{L}})) σ_{L} - - - (2)

通过比较各个段的段内亮度距离与相应的局部阈值，如果高于局部阈值，则该段是镜头边界候选段。除此以外，如果段内亮度距离低于局部阈值，但是比相邻候选段的段内亮度距离都要高很多，也被认为是镜头边界候选段。用公式描述如下：

[d²⁰(n)＞3d²⁰(n-1)∪d²⁰(n)＞3d²⁰(n+1)]∩d²⁰(n)＞0.8μ_G (3)

接着对每个镜头边界候选段进行二分处理：将这些候选段均分成两小段，并根据这两小段的段内亮度距离的关系去确定这两小段内是否可能存在镜头边界。定义这两小段的段内亮度距离如下：

d_{F}^{20} (n) = \underset{x}{Σ} \underset{y}{Σ} | F (x, y; 20 n) - F (x, y; 20 n + 10) | - - - (4)

d_{B}^{20} (n) = \underset{x}{Σ} \underset{y}{Σ} | F (x, y; 20 n + 10) - F (x, y; 20 (n + 1)) | - - - (5)

根据和之间的关系将候选段分为四种类型，对应关系见表1。

表1

在类型1中，前面小段的亮度距离比后面小段的亮度距离高很多，并且跟二分前小段的段内亮度距离相比也比较高，前面的小段是镜头边界候选段，剔除后面的小段；类似地，在类型2中，后面的小段是镜头边界候选段；在类型3中，两个小段跟二分前小段的段内亮度距离相比太低了，因此都被剔除；其余的情况下，该段整体仍作为镜头边界候选段，不作处理。

类似，对于前面处理后得到的长度为11帧的镜头边界候选段再做一次二分处理。经过这两次二分处理后，有长度为6,11和21帧这三种镜头边界候选段。

用1000类的ImageNet数据库中的图片训练一个8层的卷积神经网络：其中5层为卷积层，3层为全连接层，其中第一个卷积层与第二个卷积层后面连接一个最大池化层，这两个最大池化层后面会连接一个局部响应正则化层，第五个卷积层后面连接一个最大池化层，此最大池化层后面不再连接局部响应正则化层；将视频的一帧输入卷积神经网络，抽取倒数第三层(fc-6层)的输出向量作为对应帧的特征，特征向量为4096维；同时通过计算特征向量间的余弦距离来衡量帧间相似度：

ψ (f_{i}, f_{j}) = c o s (β_{i}, β_{j}) = \frac{(β_{i}, β_{j})}{| | β_{i} | | \cdot | | β_{j} | |} - - - (6)

对长度为6帧的突变边界候选段进行突变边界检测，检测流程如下：

对一个N帧的突变边界候选段，通过卷积神经网络抽取段内每帧特征向量为：{β_i}(i＝0,...,N-1)；ψ(t)＝ψ(f_t,f_t+1)表示段内连续两帧f_t和f_t+1的帧间相似度，其中t＝0,...,N-2；D₁＝ψ(f₀,f_N-1)表示段首尾帧的帧间相似度。

D₁＜0.9 (7)

min(ψ(t))＜kD₁+(1-k) (8)

max(ψ(t))-min(ψ(t))＞T_c (9)

其中k是0到1之间的实数，这里k＝0.55；T_c衡量帧间相似度是否符合突变边界，这里T_c＝0.6。

若(7)满足,且：若(8)和(9)同时满足，则第t帧为突变边界；若(8)和(9)不同时满足，则该段可能是渐变边界的一部分，在段前后各加10帧使其成为渐变边界候选段。其余情形表示该段不含镜头边界，丢弃该段。

图2是本发明实验选用的数据集中的一个突变边界候选段，图3是利用本发明突变边界检测方法的检测结果，帧6520和帧6521的相似度较其他显著降低，因而成功被检测为突变边界。

紧接着对长度大于6帧的渐变边界候选段进行渐变边界检测，检测流程如下：对一个N帧的渐变边界候选段，通过卷积神经网络抽取段内每帧和段前后各一帧的特征向量为：{β_i}(i＝s,0,...,N-1,e)；

定义绝对距离差diff(t)＝|ψ(f_s,f_t)-ψ(f_t,f_e)|，其中t＝0,...,N-1，f_s和f_e分别表示段前一帧和段后一帧。

max(diff(t))-min(diff(t))＞T_p (10)

N_d/N＜T_r (11)

(t^*-(N+1)/2)/N＜T_b (12)

其中：T_p衡量该段是否符合渐变边界的绝对距离差，这里T_p＝0.25；N_d为段内diff(t)值小于0.1的帧(段内和前后镜头均不相似的帧)的数目，T_r为渐变边界中限制N_d的阈值，这里T_r＝0.25；t^*为diff(t)取最小值对应的帧，T_b为限制t^*偏离度的阈值，这里T_b＝0.2。

若公式(10)满足，且：若公式(11)和公式(12)均满足，则该段为渐变边界；若公式(11)满足而公式(12)不满足，则需要对该段中心进行调整，在保证段长度不变的前提下移动(t^*-(N+1)/2)帧，对调整之后的段重新进行渐变边界检测，注意这里对每个渐变边界候选段只能调整一次；若公式(11)不满足，则该段可能包含突变边界，对其进行突变边界检测。其余情形表示该段不包含镜头边界，丢弃该段。

最后将相邻的渐变镜头边界融合成为一个渐变镜头边界。

图4是本发明提出的渐变边界检测方法对实验数据集中一个渐变边界候选段的处理结果图，公式(10)、(11)和(12)均满足，故该段成功被检测为渐变边界。

为了体现本发明的进步性，本发明方法与Z.Lu等人论文和Tong等人论文的方法进行了比较。目前大部分镜头边界检测方法都是使用准确率，召回率以及F₁值来判断边界检测的准确度的。他们的公式定义如下

r e c a l l = \frac{N_{c}}{N_{c} + N_{m}} - - - (13)

p r e c i s i o n = \frac{N_{c}}{N_{c} + N_{f}} - - - (14)

F_{1} = \frac{2 \times r e c a l l \times p r e c i s i o n}{r e c a l l + p r e c i s i o n} - - - (15)

其中N_c是正确检测到的镜头边界数目，N_m是漏检的镜头边界数目，N_f是错检的镜头边界数目。F₁是一个描述精度的综合指数，它的值越大代表方法性能越好。

表2中的视频来源于TRECVID 2001，是用来做镜头边界检测的常用实验素材。表3和表4分别比较了三种方法的突变和渐变镜头边界检测结果。由表3以及表4可以看出本发明的方法的突变镜头边界检测和渐变镜头边界检测的平均F₁值分别为0.988和0.969，较其他两种方法精度更高。

表2

视频素材	帧数	镜头边界数目	突变镜头边界数目	渐变镜头边界数目
					anni001	914	8	0	8
anni005	11358	65	38	27
					anni007	1590	11	5	6
anni008	2775	14	2	12
					anni009	12304	103	38	65
BOR10_001	1815	11	0	11
					BOR10_002	1795	10	0	10
总计	32551	222	83	139

表3

表4

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于卷积神经网络的镜头边界检测方法，其特征在于所述方法包括如下步骤：

第二步，将镜头边界候选段均分成两小段，并根据候选段和两小段的段内亮度距离的关系确定这两小段内是否可能存在镜头边界；

第七步，对第三步和第六步得到的渐变边界候选段进行渐变边界检测：将段内每帧和段前后各一帧输入第四步中的卷积神经网络得到对应特征向量，计算绝对距离差并绘制曲线，通过模式匹配的方法分析曲线的特性，进而确定该段是否为渐变边界或者该段可能包含突变边界；

2.根据权利要求1所述的基于卷积神经网络的镜头边界检测方法，其特征在于，所述第四步：用图片训练一个8层的卷积神经网络：其中5层为卷积层，3层为全连接层，其中第一个卷积层与第二个卷积层后面连接一个最大池化层，这两个最大池化层后面会连接一个局部响应正则化层，第五个卷积层后面连接一个最大池化层，此最大池化层后面不再连接局部响应正则化层；将视频的一帧输入卷积神经网络，抽取倒数第三层的输出向量作为对应帧的特征，同时通过计算特征向量间的余弦距离来衡量帧间相似度：

ψ (f_{i}, f_{j}) = c o s (β_{i}, β_{j}) = \frac{(β_{i}, β_{j})}{| | β_{i} | | \cdot | | β_{j} | |}

3.根据权利要求1所述的基于卷积神经网络的镜头边界检测方法，其特征在于所述第五步中：对第三步得到的突变边界候选段进行突变镜头检测，突变边界检测流程如下：

若D₁＜0.9满足,且：

4.根据权利要求3所述的基于卷积神经网络的镜头边界检测方法，其特征在于，k＝0.55。

5.根据权利要求3所述的基于卷积神经网络的镜头边界检测方法，其特征在于，T_c＝0.6。

6.根据权利要求1-5任一项所述的基于卷积神经网络的镜头边界检测方法，其特征在于，所述的第六步中：对于第五步中被检测为可能是渐变边界一部分的段，在段前后各加10帧使其成为渐变边界候选段。

7.根据权利要求1-5任一项所述的基于卷积神经网络的镜头边界检测方法，其特征在于，所述的第七步中：对第三步和第六步得到的渐变边界候选段进行渐变边界检测，渐变边界检测流程如下：

若max(diff(t))-min(diff(t))＞T_p满足，且：

(3)N_d/N＜T_r不满足，则该段可能包含突变边界；

8.根据权利要求7所述的基于卷积神经网络的镜头边界检测方法，其特征在于，T_p＝0.25。

9.根据权利要求7所述的基于卷积神经网络的镜头边界检测方法，其特征在于，T_r＝0.25。

10.根据权利要求7所述的基于卷积神经网络的镜头边界检测方法，其特征在于，T_b＝0.2。