CN106327513A - 基于卷积神经网络的镜头边界检测方法 - Google Patents

基于卷积神经网络的镜头边界检测方法 Download PDF

Info

Publication number
CN106327513A
CN106327513A CN201610670319.4A CN201610670319A CN106327513A CN 106327513 A CN106327513 A CN 106327513A CN 201610670319 A CN201610670319 A CN 201610670319A CN 106327513 A CN106327513 A CN 106327513A
Authority
CN
China
Prior art keywords
section
boundary
frame
gradual change
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610670319.4A
Other languages
English (en)
Other versions
CN106327513B (zh
Inventor
宋利
许经纬
解蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610670319.4A priority Critical patent/CN106327513B/zh
Publication of CN106327513A publication Critical patent/CN106327513A/zh
Application granted granted Critical
Publication of CN106327513B publication Critical patent/CN106327513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种基于卷积神经网络的镜头边界检测方法,所述方法将视频分段,计算各段局部阈值,排除段内亮度距离低于阈值的段,对高于阈值的段进行两次二分处理,根据候选段和二分处理得到的小段的段内亮度距离的关系排除不含镜头边界的段,并对衡量结果进行分类得到突变边界候选段和渐变边界候选段;用卷积神经网络提取段内每帧的特征并利用特征间的余弦距离衡量帧间相似度;对突变边界候选段,根据连续两帧的帧间相似度和候选段首末帧的帧间相似度的关系确定该段是否存在突变边界及位置;对渐变边界候选段,计算绝对距离差并绘制曲线,进而确定该段是否为渐变边界并将相邻的渐变边界融合。本发明能准确的检测突变镜头边界和渐变镜头边界。

Description

基于卷积神经网络的镜头边界检测方法
技术领域
本发明涉及的是一种可用于视频分析与检索中的镜头边界检测技术,具体是一种基于卷积神经网络的镜头边界检测方法。
背景技术
视频镜头边界检测是指检测视频镜头边界的位置。镜头被定义为用单一摄像机在未被干扰的情况下拍摄的一段视频帧序列。镜头边界分为两种类型:一种是突变镜头边界,突变镜头边界存在于连续两帧间,由上个镜头的最后一帧和下个镜头的第一帧所组成;另一种是渐变镜头边界,渐变镜头边界一般不止有两帧,它通常由一些帧间相关的帧组成,从上个镜头到下个镜头会存在较温和的过渡段。
视频镜头边界检测可以帮助分析视频的内容与结构,可以作为其他视频处理任务的预处理步骤,如视频标注和视频检索等,同时可以提高这些处理任务的精度与速度。因此,视频镜头边界检测具有重要意义。
现有的大部分镜头边界检测注重于突变镜头边界检测。突变镜头边界检测主要利用相邻镜头之间帧序列会发生剧烈变化这一特征。因此,这些检测方法会根据帧序列之间的图像信号层的特征的变化:像素的亮度值差,边界纹理特征变化,灰度直方图差等。与突变镜头边界检测相比,渐变镜头边界检测难度更大。Y.Li,Z.Lu,and X.Niu等人2009年在IET Image Process发表的“Fast video shot boundary detection frameworkemploying pre-processing techniques”一文中提出了一种基于像素亮度距离的镜头边界候选段检测的预处理和对帧间亮度距离的三角形模式匹配的渐变边界检测方法,在当时大幅度缩短了视频边界检测的时间,但它有两个缺点:一是准确率不高,二是还不能满足实时处理的要求。Z.Lu andY.Shi等人2013年在IEEE Trans.Image Processing发表的“Fastvideo shot boundary detection based on SVD andpattern matching”一文中使用了类似的预处理方法,同时它利用了综合颜色分布、纹理特征等表达能力较强的的新特征并通过SVD(奇异值分解)对特征进行降维处理,最后提出了一种基于倒三角模式匹配的渐变边界检测方法,实现了实时处理和较高的精度,但当处理背景相似的渐变边界时,它的精度较低。Tong等人2015年在IEEE International Symposium on Broadband MultimediaSystems and Broadcasting发表的“CNN-based shot boundary detection and videoannotation”一文中考虑帧的内容信息,通过内容信息帮助检测镜头边界,但当处理背景相似的渐变边界时,由于训练数据库的有限性,提取得到的内容信息几乎一致,这时检测效果会比较差。
这些方法考虑了帧的最低级特征,即信号特征,也考虑了最高级特征,即帧的语义信息。近年来,卷积神经网络被证明能够很好地理解图片的内容信息。作为一种深度学习模型,卷积神经网络具有多层,底层能够学习到图片信号层的信息,例如边界和角等,中层则能学习到底层边界的组合和抽象信息,最高层则学习到图片中物体的类别。因此,中层特征信息表达能力较底层更强,信息内容也更丰富。通过卷积神经网络学习视频帧的中层特征信息,高效的中层特征可以帮助提升视频镜头边界检测的精度。
发明内容
本发明针对现有技术存在的上述不足,提供一种基于卷积神经网络的视频镜头边界检测方法,它能够准确的检测突变镜头边界和渐变镜头边界。
为实现上述目的,本发明首先将视频分段,对每段计算其帧内亮度距离的局部阈值,根据该阈值选出镜头边界候选段,剔除不含镜头边界的视频段。然后,本发明将镜头边界候选段两次进行二分处理,根据候选段和二分处理得到的小段的段内亮度距离的关系进一步选出镜头边界候选段,并对衡量的结果进行分类得到突变边界候选段和渐变边界候选段。本发明使用卷积神经网络提取段内每帧的中层特征并利用特征间的余弦距离衡量帧间相似度。然后,对突变边界候选段,根据连续两帧的帧间相似度和候选段首末帧的帧间相似度的关系来确定该段是否存在突变边界及突变边界的位置;对渐变边界候选段,计算段内每帧和段前、后帧的帧间相似度之差的绝对值并绘制曲线,通过模式匹配的方法分析曲线的特性进而确定该段是否为渐变边界并将相邻的渐变边界融合。
具体的,一种基于深度学习的视频镜头边界检测方法,包括如下步骤:
第一步,将视频分成两段以上,段与段之间不重合,根据各段的段内亮度距离和局部阈值的关系确定该段是否为视频镜头边界候选段,即可能包含镜头边界的段;
第二步,将镜头边界候选段均分成两小段,并根据候选段和两小段的段内亮度距离的关系去确定这两小段内是否可能存在镜头边界;
第三步,把第二步结果中的镜头边界候选段继续均分成两小段,并根据候选段和两小段的段内亮度距离的关系确定这两小段内是否可能存在突变边界,进而候选段被分为突变边界候选段和渐变边界候选段;
第四步,训练卷积神经网络,使用卷积神经网络提取段内每帧的特征并利用特征间的余弦距离衡量帧间相似度;
第五步,对于第三步得到的突变边界候选段进行突变边界检测:将段内每帧输入第四步中的卷积神经网络得到对应特征向量,根据连续两帧的帧间相似度和和候选段首末帧的帧间相似度的关系来确定段内是否有突变边界或者该段可能是渐变边界的一部分;
第六步,对于第五步中被检测为可能是渐变边界的一部分的段,在段前后各加一定数量帧使其成为渐变边界候选段;
第七步,对第三步和第六步得到的渐变边界候选段进行渐变边界检测:将段内每帧和段前后各一帧输入第四步中的卷积神经网络得到对应特征向量,计算绝对距离差(段内每帧分别和段前、段后一帧的帧间相似度之差的绝对值)并绘制曲线,通过模式匹配的方法分析曲线的特性,进而确定该段是否为渐变边界或者该段可能包含突变边界;
第八步,对第七步中得到的可能包含突变边界的段进行突变边界检测,对得到的渐变镜头边界相邻的部分进行边界融合。
优选地,所述第四步:用图片训练一个8层的卷积神经网络:其中5层为卷积层,3层为全连接层,其中第一个卷积层与第二个卷积层后面连接一个最大池化层,这两个最大池化层后面会连接一个局部响应正则化层,第五个卷积层后面连接一个最大池化层,此最大池化层后面不再连接局部响应正则化层;将视频的一帧输入卷积神经网络,抽取倒数第三层(fc-6层)的输出向量作为对应帧的特征;同时通过计算特征向量间的余弦距离来衡量帧间相似度:
ψ ( f i , f j ) = c o s ( β i , β j ) = ( β i , β j ) | | β i | | · | | β j | |
其中ψ(fi,fj)表示帧fi和fj的帧间相似度;βi和βj表示帧fi和fj的特征向量。
优选地,所述第五步中:对第三步得到的突变边界候选段进行突变镜头检测,突变边界检测流程如下:
对一个N帧的突变边界候选段,通过卷积神经网络抽取段内每帧特征向量为:{βi},i=0,...,N-1;ψ(t)=ψ(ft,ft+1)表示段内连续两帧ft和ft+1的帧间相似度,其中t=0,...,N-2;D1=ψ(f0,fN-1)表示段首尾帧的帧间相似度;
若D1<0.9满足,且:
(1)min(ψ(t))<kD1+(1-k)和max(ψ(t))-min(ψ(t))>Tc同时满足,则第t帧为突变边界;
(2)min(ψ(t))<kD1+(1-k)和max(ψ(t))-min(ψ(t))>Tc不同时满足,则该段可能是渐变边界的一部分;
其中k是0到1之间的实数,Tc衡量帧间相似度是否符合突变边界,N是该候选段的长度。
所述第九步中对于第八步中被检测为可能是渐变边界的一部分的段,在段前后各加10帧使其成为渐变边界候选段。
优选地,所述的第七步中:对第三步和第六步得到的渐变边界候选段进行渐变边界检测,渐变边界检测流程如下:
对一个N帧的渐变边界候选段,通过卷积神经网络抽取段内每帧和段前后各一帧的特征向量为:{βi},i=s,0,...,N-1,e;N是该候选段的长度;s代表该段段首前一帧,e代表该段段末后一帧;
定义绝对距离差:diff(t)=|ψ(fs,ft)-ψ(ft,fe)|,其中t=0,...,N-1,fs和fe分别表示段前一帧和段后一帧;
若max(diff(t))-min(diff(t))>Tp满足,且:
(1)Nd/N<Tr和(t*-(N+1)/2)/N<Tb同时满足,则该段为渐变边界;
(2)Nd/N<Tr满足而(t*-(N+1)/2)/N<Tb不满足,则需要对该段中心进行调整,在保证段长度不变的前提下移动(t*-(N+1)/2)帧,对调整之后的段重新进行渐变边界检测,这里对每个渐变边界候选段只能调整一次;
(3)Nd/N<Tr不满足,则该段可能包含突变边界;
其中:Tp衡量该段是否符合渐变边界的绝对距离差;Nd为段内diff(t)值小于0.1的帧的数目,Tr为渐变边界中限制Nd的阈值;t*为diff(t)取最小值对应的帧,Tb为限制t*偏离度的阈值。
与现有技术相比,本发明具有以下有益效果:
本发明通过卷积神经网络提取得到的视频帧的中层特征信息进行镜头边界检测,并基于此特征设计了高效的镜头边界检测框架。实验结果证明,本发明在突变镜头边界和是渐变镜头边界的检测上,准确率都要高于现有技术。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明基于卷积神经网络的镜头边界检测方法的总体流程图;
图2为本发明使用的实验数据集中的一个包含突变边界的候选段;
图3为本发明基于图2突变边界候选段得到的连续两帧的帧间相似度(余弦距离)曲线;
图4为本发明使用的实验数据集中的一个包含渐变边界段的diff(t)曲线。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本实施例提供一种基于卷积神经网络的镜头边界检测方法,具体实施细节如下,以下实施例没有详细说明的部分参照发明内容进行,图1中注:Y代表条件成立;N代表条件不成立。
首先将视频分段,段与段之间不重合,每段21帧。当然,也可以根据实际情况分成其他数目的段。
接下来计算各个段的段内亮度距离,定义第n段的段内亮度距离为:
d 20 ( n ) = Σ x Σ y | F ( x , y ; 20 n ) - F ( x , y ; 20 ( n + 1 ) ) | - - - ( 1 )
其中F(x,y;k)表示第k帧中像素位置(x,y)处的亮度值。
然后计算每段对应的局部阈值:先计算所有小段的段内亮度距离均值μG,再计算该段周围10段的亮度距离均值μL与亮度距离标准差σL,然后计算该段对应的局部阈值
T n L = μ L + 0.7 ( 1 + l n ( μ G μ L ) ) σ L - - - ( 2 )
通过比较各个段的段内亮度距离与相应的局部阈值,如果高于局部阈值,则该段是镜头边界候选段。除此以外,如果段内亮度距离低于局部阈值,但是比相邻候选段的段内亮度距离都要高很多,也被认为是镜头边界候选段。用公式描述如下:
[d20(n)>3d20(n-1)∪d20(n)>3d20(n+1)]∩d20(n)>0.8μG (3)
接着对每个镜头边界候选段进行二分处理:将这些候选段均分成两小段,并根据这两小段的段内亮度距离的关系去确定这两小段内是否可能存在镜头边界。定义这两小段的段内亮度距离如下:
d F 20 ( n ) = Σ x Σ y | F ( x , y ; 20 n ) - F ( x , y ; 20 n + 10 ) | - - - ( 4 )
d B 20 ( n ) = Σ x Σ y | F ( x , y ; 20 n + 10 ) - F ( x , y ; 20 ( n + 1 ) ) | - - - ( 5 )
根据之间的关系将候选段分为四种类型,对应关系见表1。
表1
在类型1中,前面小段的亮度距离比后面小段的亮度距离高很多,并且跟二分前小段的段内亮度距离相比也比较高,前面的小段是镜头边界候选段,剔除后面的小段;类似地,在类型2中,后面的小段是镜头边界候选段;在类型3中,两个小段跟二分前小段的段内亮度距离相比太低了,因此都被剔除;其余的情况下,该段整体仍作为镜头边界候选段,不作处理。
类似,对于前面处理后得到的长度为11帧的镜头边界候选段再做一次二分处理。经过这两次二分处理后,有长度为6,11和21帧这三种镜头边界候选段。
用1000类的ImageNet数据库中的图片训练一个8层的卷积神经网络:其中5层为卷积层,3层为全连接层,其中第一个卷积层与第二个卷积层后面连接一个最大池化层,这两个最大池化层后面会连接一个局部响应正则化层,第五个卷积层后面连接一个最大池化层,此最大池化层后面不再连接局部响应正则化层;将视频的一帧输入卷积神经网络,抽取倒数第三层(fc-6层)的输出向量作为对应帧的特征,特征向量为4096维;同时通过计算特征向量间的余弦距离来衡量帧间相似度:
ψ ( f i , f j ) = c o s ( β i , β j ) = ( β i , β j ) | | β i | | · | | β j | | - - - ( 6 )
其中ψ(fi,fj)表示帧fi和fj的帧间相似度;βi和βj表示帧fi和fj的特征向量。
对长度为6帧的突变边界候选段进行突变边界检测,检测流程如下:
对一个N帧的突变边界候选段,通过卷积神经网络抽取段内每帧特征向量为:{βi}(i=0,...,N-1);ψ(t)=ψ(ft,ft+1)表示段内连续两帧ft和ft+1的帧间相似度,其中t=0,...,N-2;D1=ψ(f0,fN-1)表示段首尾帧的帧间相似度。
D1<0.9 (7)
min(ψ(t))<kD1+(1-k) (8)
max(ψ(t))-min(ψ(t))>Tc (9)
其中k是0到1之间的实数,这里k=0.55;Tc衡量帧间相似度是否符合突变边界,这里Tc=0.6。
若(7)满足,且:若(8)和(9)同时满足,则第t帧为突变边界;若(8)和(9)不同时满足,则该段可能是渐变边界的一部分,在段前后各加10帧使其成为渐变边界候选段。其余情形表示该段不含镜头边界,丢弃该段。
图2是本发明实验选用的数据集中的一个突变边界候选段,图3是利用本发明突变边界检测方法的检测结果,帧6520和帧6521的相似度较其他显著降低,因而成功被检测为突变边界。
紧接着对长度大于6帧的渐变边界候选段进行渐变边界检测,检测流程如下:对一个N帧的渐变边界候选段,通过卷积神经网络抽取段内每帧和段前后各一帧的特征向量为:{βi}(i=s,0,...,N-1,e);
定义绝对距离差diff(t)=|ψ(fs,ft)-ψ(ft,fe)|,其中t=0,...,N-1,fs和fe分别表示段前一帧和段后一帧。
max(diff(t))-min(diff(t))>Tp (10)
Nd/N<Tr (11)
(t*-(N+1)/2)/N<Tb (12)
其中:Tp衡量该段是否符合渐变边界的绝对距离差,这里Tp=0.25;Nd为段内diff(t)值小于0.1的帧(段内和前后镜头均不相似的帧)的数目,Tr为渐变边界中限制Nd的阈值,这里Tr=0.25;t*为diff(t)取最小值对应的帧,Tb为限制t*偏离度的阈值,这里Tb=0.2。
若公式(10)满足,且:若公式(11)和公式(12)均满足,则该段为渐变边界;若公式(11)满足而公式(12)不满足,则需要对该段中心进行调整,在保证段长度不变的前提下移动(t*-(N+1)/2)帧,对调整之后的段重新进行渐变边界检测,注意这里对每个渐变边界候选段只能调整一次;若公式(11)不满足,则该段可能包含突变边界,对其进行突变边界检测。其余情形表示该段不包含镜头边界,丢弃该段。
最后将相邻的渐变镜头边界融合成为一个渐变镜头边界。
图4是本发明提出的渐变边界检测方法对实验数据集中一个渐变边界候选段的处理结果图,公式(10)、(11)和(12)均满足,故该段成功被检测为渐变边界。
为了体现本发明的进步性,本发明方法与Z.Lu等人论文和Tong等人论文的方法进行了比较。目前大部分镜头边界检测方法都是使用准确率,召回率以及F1值来判断边界检测的准确度的。他们的公式定义如下
r e c a l l = N c N c + N m - - - ( 13 )
p r e c i s i o n = N c N c + N f - - - ( 14 )
F 1 = 2 × r e c a l l × p r e c i s i o n r e c a l l + p r e c i s i o n - - - ( 15 )
其中Nc是正确检测到的镜头边界数目,Nm是漏检的镜头边界数目,Nf是错检的镜头边界数目。F1是一个描述精度的综合指数,它的值越大代表方法性能越好。
表2中的视频来源于TRECVID 2001,是用来做镜头边界检测的常用实验素材。表3和表4分别比较了三种方法的突变和渐变镜头边界检测结果。由表3以及表4可以看出本发明的方法的突变镜头边界检测和渐变镜头边界检测的平均F1值分别为0.988和0.969,较其他两种方法精度更高。
表2
视频素材 帧数 镜头边界数目 突变镜头边界数目 渐变镜头边界数目
anni001 914 8 0 8
anni005 11358 65 38 27
anni007 1590 11 5 6
anni008 2775 14 2 12
anni009 12304 103 38 65
BOR10_001 1815 11 0 11
BOR10_002 1795 10 0 10
总计 32551 222 83 139
表3
表4
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种基于卷积神经网络的镜头边界检测方法,其特征在于所述方法包括如下步骤:
第一步,将视频分成两段以上,段与段之间不重合,根据各段的段内亮度距离和局部阈值的关系确定该段是否为视频镜头边界候选段,即可能包含镜头边界的段;
第二步,将镜头边界候选段均分成两小段,并根据候选段和两小段的段内亮度距离的关系确定这两小段内是否可能存在镜头边界;
第三步,把第二步结果中的镜头边界候选段继续均分成两小段,并根据候选段和两小段的段内亮度距离的关系确定这两小段内是否可能存在突变边界,进而候选段被分为突变边界候选段和渐变边界候选段;
第四步,训练卷积神经网络,使用卷积神经网络提取段内每帧的特征并利用特征间的余弦距离衡量帧间相似度;
第五步,对于第三步得到的突变边界候选段进行突变边界检测:将段内每帧输入第四步中的卷积神经网络得到对应特征向量,根据连续两帧的帧间相似度和和候选段首末帧的帧间相似度的关系来确定段内是否有突变边界或者该段可能是渐变边界的一部分;
第六步,对于第五步中被检测为可能是渐变边界的一部分的段,在段前后各加一定数量帧使其成为渐变边界候选段;
第七步,对第三步和第六步得到的渐变边界候选段进行渐变边界检测:将段内每帧和段前后各一帧输入第四步中的卷积神经网络得到对应特征向量,计算绝对距离差并绘制曲线,通过模式匹配的方法分析曲线的特性,进而确定该段是否为渐变边界或者该段可能包含突变边界;
第八步,对第七步中得到的可能包含突变边界的段进行突变边界检测,对得到的渐变镜头边界相邻的部分进行边界融合。
2.根据权利要求1所述的基于卷积神经网络的镜头边界检测方法,其特征在于,所述第四步:用图片训练一个8层的卷积神经网络:其中5层为卷积层,3层为全连接层,其中第一个卷积层与第二个卷积层后面连接一个最大池化层,这两个最大池化层后面会连接一个局部响应正则化层,第五个卷积层后面连接一个最大池化层,此最大池化层后面不再连接局部响应正则化层;将视频的一帧输入卷积神经网络,抽取倒数第三层的输出向量作为对应帧的特征,同时通过计算特征向量间的余弦距离来衡量帧间相似度:
ψ ( f i , f j ) = c o s ( β i , β j ) = ( β i , β j ) | | β i | | · | | β j | |
其中ψ(fi,fj)表示帧fi和fj的帧间相似度;βi和βj表示帧fi和fj的特征向量。
3.根据权利要求1所述的基于卷积神经网络的镜头边界检测方法,其特征在于所述第五步中:对第三步得到的突变边界候选段进行突变镜头检测,突变边界检测流程如下:
对一个N帧的突变边界候选段,通过卷积神经网络抽取段内每帧特征向量为:{βi},i=0,...,N-1;ψ(t)=ψ(ft,ft+1)表示段内连续两帧ft和ft+1的帧间相似度,其中t=0,...,N-2;D1=ψ(f0,fN-1)表示段首尾帧的帧间相似度;
若D1<0.9满足,且:
(1)min(ψ(t))<kD1+(1-k)和max(ψ(t))-min(ψ(t))>Tc同时满足,则第t帧为突变边界;
(2)min(ψ(t))<kD1+(1-k)和max(ψ(t))-min(ψ(t))>Tc不同时满足,则该段可能是渐变边界的一部分;
其中k是0到1之间的实数,Tc衡量帧间相似度是否符合突变边界,N是该候选段的长度。
4.根据权利要求3所述的基于卷积神经网络的镜头边界检测方法,其特征在于,k=0.55。
5.根据权利要求3所述的基于卷积神经网络的镜头边界检测方法,其特征在于,Tc=0.6。
6.根据权利要求1-5任一项所述的基于卷积神经网络的镜头边界检测方法,其特征在于,所述的第六步中:对于第五步中被检测为可能是渐变边界一部分的段,在段前后各加10帧使其成为渐变边界候选段。
7.根据权利要求1-5任一项所述的基于卷积神经网络的镜头边界检测方法,其特征在于,所述的第七步中:对第三步和第六步得到的渐变边界候选段进行渐变边界检测,渐变边界检测流程如下:
对一个N帧的渐变边界候选段,通过卷积神经网络抽取段内每帧和段前后各一帧的特征向量为:{βi},i=s,0,...,N-1,e;N是该候选段的长度;s代表该段段首前一帧,e代表该段段末后一帧;
定义绝对距离差:diff(t)=|ψ(fs,ft)-ψ(ft,fe)|,其中t=0,...,N-1,fs和fe分别表示段前一帧和段后一帧;
若max(diff(t))-min(diff(t))>Tp满足,且:
(1)Nd/N<Tr和(t*-(N+1)/2)/N<Tb同时满足,则该段为渐变边界;
(2)Nd/N<Tr满足而(t*-(N+1)/2)/N<Tb不满足,则需要对该段中心进行调整,在保证段长度不变的前提下移动(t*-(N+1)/2)帧,对调整之后的段重新进行渐变边界检测,这里对每个渐变边界候选段只能调整一次;
(3)Nd/N<Tr不满足,则该段可能包含突变边界;
其中:Tp衡量该段是否符合渐变边界的绝对距离差;Nd为段内diff(t)值小于0.1的帧的数目,Tr为渐变边界中限制Nd的阈值;t*为diff(t)取最小值对应的帧,Tb为限制t*偏离度的阈值。
8.根据权利要求7所述的基于卷积神经网络的镜头边界检测方法,其特征在于,Tp=0.25。
9.根据权利要求7所述的基于卷积神经网络的镜头边界检测方法,其特征在于,Tr=0.25。
10.根据权利要求7所述的基于卷积神经网络的镜头边界检测方法,其特征在于,Tb=0.2。
CN201610670319.4A 2016-08-15 2016-08-15 基于卷积神经网络的镜头边界检测方法 Active CN106327513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610670319.4A CN106327513B (zh) 2016-08-15 2016-08-15 基于卷积神经网络的镜头边界检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610670319.4A CN106327513B (zh) 2016-08-15 2016-08-15 基于卷积神经网络的镜头边界检测方法

Publications (2)

Publication Number Publication Date
CN106327513A true CN106327513A (zh) 2017-01-11
CN106327513B CN106327513B (zh) 2020-11-17

Family

ID=57740531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610670319.4A Active CN106327513B (zh) 2016-08-15 2016-08-15 基于卷积神经网络的镜头边界检测方法

Country Status (1)

Country Link
CN (1) CN106327513B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110460840A (zh) * 2019-09-23 2019-11-15 上海工程技术大学 基于三维密集网络的镜头边界检测方法
CN110830734A (zh) * 2019-10-30 2020-02-21 新华智云科技有限公司 一种突变和渐变镜头切换识别方法
CN111444819A (zh) * 2020-03-24 2020-07-24 北京百度网讯科技有限公司 切割帧确定方法、网络训练方法、装置、设备及存储介质
CN113033582A (zh) * 2019-12-09 2021-06-25 杭州海康威视数字技术股份有限公司 模型训练方法、特征提取方法及装置
CN114187545A (zh) * 2021-12-01 2022-03-15 北京奇艺世纪科技有限公司 渐变镜头的识别方法和装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314613A (zh) * 2011-07-06 2012-01-11 北京航空航天大学 一种基于信息理论与支持向量机的镜头边界检测算法
CN102324037A (zh) * 2011-09-06 2012-01-18 天津工业大学 一种基于支持向量机和遗传算法的镜头边界检测方法
CN102522045A (zh) * 2011-12-21 2012-06-27 中国科学院计算技术研究所 一种基于社会信息的网络视频在线地理定位系统
CN102685398A (zh) * 2011-09-06 2012-09-19 天脉聚源(北京)传媒科技有限公司 一种新闻视频场景生成方法
CN102800095A (zh) * 2012-07-17 2012-11-28 南京特雷多信息科技有限公司 一种镜头边界检测方法
CN102982553A (zh) * 2012-12-21 2013-03-20 天津工业大学 一种镜头边界检测方法
CN104952073A (zh) * 2015-06-15 2015-09-30 上海交通大学 基于深度学习的镜头边缘检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314613A (zh) * 2011-07-06 2012-01-11 北京航空航天大学 一种基于信息理论与支持向量机的镜头边界检测算法
CN102324037A (zh) * 2011-09-06 2012-01-18 天津工业大学 一种基于支持向量机和遗传算法的镜头边界检测方法
CN102685398A (zh) * 2011-09-06 2012-09-19 天脉聚源(北京)传媒科技有限公司 一种新闻视频场景生成方法
CN102522045A (zh) * 2011-12-21 2012-06-27 中国科学院计算技术研究所 一种基于社会信息的网络视频在线地理定位系统
CN102800095A (zh) * 2012-07-17 2012-11-28 南京特雷多信息科技有限公司 一种镜头边界检测方法
CN102982553A (zh) * 2012-12-21 2013-03-20 天津工业大学 一种镜头边界检测方法
CN104952073A (zh) * 2015-06-15 2015-09-30 上海交通大学 基于深度学习的镜头边缘检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI Y N: "Fast video shot boundary detection framework employing pre-processing techniques", 《IET IMAGE PROCESSING》 *
WENJING TONG: "CNN-Based Shot Boundary Detection and Video Annotation", 《IEEE INTERNATIONAL SYMPOSIUM ON BROADBAND MULTIMEDIA SYSTEMS AND BROADCASTING》 *
ZHE-MING LU AND YONG SHI: "Fast Video Shot Boundary Detection Based on SVD and Pattern Matching", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110460840A (zh) * 2019-09-23 2019-11-15 上海工程技术大学 基于三维密集网络的镜头边界检测方法
CN110460840B (zh) * 2019-09-23 2020-06-26 上海工程技术大学 基于三维密集网络的镜头边界检测方法
CN110830734A (zh) * 2019-10-30 2020-02-21 新华智云科技有限公司 一种突变和渐变镜头切换识别方法
CN110830734B (zh) * 2019-10-30 2022-03-18 新华智云科技有限公司 一种突变和渐变镜头切换识别方法及系统
CN113033582A (zh) * 2019-12-09 2021-06-25 杭州海康威视数字技术股份有限公司 模型训练方法、特征提取方法及装置
CN113033582B (zh) * 2019-12-09 2023-09-26 杭州海康威视数字技术股份有限公司 模型训练方法、特征提取方法及装置
CN111444819A (zh) * 2020-03-24 2020-07-24 北京百度网讯科技有限公司 切割帧确定方法、网络训练方法、装置、设备及存储介质
CN111444819B (zh) * 2020-03-24 2024-01-23 北京百度网讯科技有限公司 切割帧确定方法、网络训练方法、装置、设备及存储介质
CN114187545A (zh) * 2021-12-01 2022-03-15 北京奇艺世纪科技有限公司 渐变镜头的识别方法和装置、电子设备和存储介质
CN114187545B (zh) * 2021-12-01 2024-09-27 北京奇艺世纪科技有限公司 渐变镜头的识别方法和装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN106327513B (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN105913456B (zh) 基于区域分割的视频显著性检测方法
CN106327513A (zh) 基于卷积神经网络的镜头边界检测方法
CN108492272A (zh) 基于注意力模型及多任务神经网络的心血管易损斑块识别方法及系统
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN109002807A (zh) 一种基于ssd神经网络的驾驶场景车辆检测方法
CN113989662B (zh) 一种基于自监督机制的遥感图像细粒度目标识别方法
CN103714181B (zh) 一种层级化的特定人物检索方法
CN109784283A (zh) 基于场景识别任务下的遥感图像目标提取方法
CN105787481B (zh) 一种基于目标性潜在区域分析的目标检测方法及其应用
CN108537157B (zh) 一种基于人工智能分类实现的视频场景判断方法与装置
CN107103326A (zh) 基于超像素聚类的协同显著性检测方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN103080979B (zh) 从照片合成肖像素描的系统和方法
CN101833664A (zh) 基于稀疏表达的视频图像文字检测方法
CN112308156B (zh) 一种基于对抗学习的两阶段图像变化检测方法
CN104517095A (zh) 一种基于深度图像的人头分割方法
CN110728214B (zh) 一种基于尺度匹配的弱小人物目标检测方法
CN106529441A (zh) 基于模糊边界分片的深度动作图人体行为识别方法
Yao et al. Deep audio-visual fusion neural network for saliency estimation
Yao et al. Double cross-modality progressively guided network for RGB-D salient object detection
CN117351277A (zh) 一种基于压缩免重建模型的目标识别方法
CN111539362A (zh) 一种无人机图像目标检测装置及方法
CN114373144B (zh) 一种用于高速视频中圆形标识点的自动识别方法
Zhang et al. Content-based superpixel segmentation and matching using its region feature descriptors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant