CN111079527A - 一种基于3d残差网络的镜头边界检测方法 - Google Patents

一种基于3d残差网络的镜头边界检测方法 Download PDF

Info

Publication number
CN111079527A
CN111079527A CN201911080955.1A CN201911080955A CN111079527A CN 111079527 A CN111079527 A CN 111079527A CN 201911080955 A CN201911080955 A CN 201911080955A CN 111079527 A CN111079527 A CN 111079527A
Authority
CN
China
Prior art keywords
segments
video
group
frames
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911080955.1A
Other languages
English (en)
Other versions
CN111079527B (zh
Inventor
肖利民
赵启迪
王赵凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201911080955.1A priority Critical patent/CN111079527B/zh
Publication of CN111079527A publication Critical patent/CN111079527A/zh
Application granted granted Critical
Publication of CN111079527B publication Critical patent/CN111079527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于3D残差网络的镜头边界检测方法,将镜头边界检测问题看作视频分类问题和切换点的查找问题。首先,基于目前所公开的DeepSBD数据集,使用3D卷积残差网络训练得到可用于视频分类的模型;使用该模型对需要检测镜头边界的视频进行预测,其中输入是视频中连续16帧为一组的视频,并且相邻组之间由8帧的重叠,从而得到每一组的预测类别。在预测结果的基础上通过计算第一帧与最后一帧的颜色直方图的卡方距离,使用卡阈值的方式减少误报,而后将含有相同标签且相邻或重叠片段进行合并;此外,为了得到硬切换的准确位置,计算该组内相邻帧的颜色直方图的差值以得到最大差值来确定硬切换的位置。

Description

一种基于3D残差网络的镜头边界检测方法
技术领域:
本发明公开了一种基于3D残差网络的镜头边界检测方法,涉及视频分析相关的挑战,属于计算机技术领域。
背景技术:
镜头边界检测算法,也叫做时域视频分割,是多种视频分析任务(如视频检索任务、视频摘要任务等)中非常重要的初始步骤。在目前的相关研究文献中,视频镜头被认为是由一个摄像机所拍摄的未经打断的一系列连续的帧的集合,因此镜头边界检测的目的是将经过用户或专业人士编辑过的视频分割成以镜头为基本单元的集合,由于其是后续各种任务的预处理,因此镜头边界检测的准确度对视频后处理的效果影响很大。
通常,在镜头中有多种转换效果,在大体上可分为硬切换和软切换。硬切换存在于两个连续的帧之间,前一帧属于前一个镜头,而后一帧属于后一个镜头;与此相反,软切换存在于连续的多个帧之间,帧的时长通常大于2帧,软切换可进一步细分为溶解、渐入、渐出、擦拭等等,相比于擦拭等效果,溶解、渐入和渐出是当前较流行的切换形式。
目前,关于镜头边界检测方法的文献中,主要分为两大类检测方法,基于简单的低维度特征的检测方法和基于复杂的高维度特征的检测方法。
基于低维度特征的检测方法主要有基于像素特征的检测方法、基于直方图特征的检测方法、基于边缘特征的检测方法、基于运动的检测方法。Kikukawa等人提出了一种基于像素特征的检测方法,该方法通过对两个连续帧的相同位置的像素点的强度进行计算并与事先设定好的阈值相比较以得到超过阈值的帧索引值,即为边界点。Nagasaka等人提出了一种基于直方图特征的检测方法,该方法通过计算连续的帧的灰色直方图的差异分数,并同时与低阈值和高阈值进行比较来得到所需要的镜头边界,相比于之前的像素特征的检测方法,它能够对局部运动和一些小的全局运动有一定的容忍度。基于边缘特征的检测方法同样基于阈值,大多通过检测当前帧的边缘位置与前一帧的边缘位置的差异度以确定镜头边界。该方法通常包含三个阶段:边缘检测、边缘改变比例、运动补偿。Deplp E等人提出了一种基于运动的检测方法,该方法通过块匹配连续的帧块来计算运动向量,以区分转换和摄像机操作,则可以从压缩的视频序列中提取出运动向量,该方法通过BMA将当前帧中的一个块与下一个帧中的所有其他块匹配,并将结果结合,以区分镜头边界和镜头内激烈的运动,从而提高镜头边界检测的准确度。Baraldi等人在近年来提出了一种基于直方图特征的卡方距离的检测方法,通过帧之间的直方图的卡方距离的差值,依照动态阈值的计算公式得到动态阈值,从而得到镜头边界。
基于高维度特征的检测方法主要基于深度学习。Hassanien提出了一种基于时空卷积的神经网络检测方法。该方法将镜头边界检测问题,看作是一种视频分类问题,将视频分割为重叠了8帧的16帧的视频序列,从而对每一段视频序列进行分类预测,类别为3类:硬切换、软切换、无切换片段。将预先分割好的视频片段输入时空卷积神经网络,并得到相应的特征,之后对特征进行SVM分类,并将分类后的结果进行合并,从而得到最终的镜头边界检测结果,但该方法并没有预测到精准镜头边界值,而是得到了镜头边界的大概范围。Gygli等人提出了一种基于全卷积神经网络的镜头边界检测方法,该方法将视频镜头边界检测问题看作二分类问题,目标是预测输入的一段视频中的中心两帧是否属于同一个镜头,从而对视频所有的帧进行预测,找到镜头边界点。ShitaoTang等人提出了基于深度结构模型的快速视频镜头转换定位算法,该方法基于SqueezeNet完成候选片段查找的工作,再分别使用Imageconcat模型检测应切换和3D卷积检测软切换的位置及长度。
当前的镜头边界检测算法存在的问题主要为:
基于低维度特征的检测方法虽然实现简单、计算开销小,但它往往会造成很多误报,这是由于镜头的快速移动,或镜头中物体的快速移动和变化导致被误认为是镜头切换,此外,特征的选取也往往会造成结果的差异,比如选取简单的像素特征和直方图特征是无法抵抗光照的变化的,但边缘特征则对光照变化的容忍度较高;而基于高维度特征的检测方法实现起来要较复杂,同时开销也相对于低维度特征的检测方法要大很多,但这些方法的准确率已经明显上升,同时能够在一定程度上容忍镜头的快速移动与镜头中内容的较大变化,但计算代价相当昂贵。
发明内容:
本发明的主要目的是提供一种基于3D残差网络的镜头边界检测方法,针对目前基于低维度特征的方法的准确度低以及高维度特征的方法的计算代价昂贵的问题,它实现了高维度特征与低维度特征相结合的镜头边界检测方法,能够通过高维度特征(3D残差网络)做视频分类,预测出所有可能含有切换点的视频判断,同时依据低维度特征确定具体的切换位置,以得到最终结果。
本发明适用于镜头无剧烈晃动和较快速移动的视频场景,比如广播视频。本方法所使用的模型基于Hassanien所提出的DeepSBD数据集进行训练,同时将该问题转换为视频分类问题,分别是硬切换、软切换以及正常片段。而后,使用3D残差网络进行训练(具体结构为3DPre-ResNet18),训练6个epoch之后停止训练。而后需要对预测视频进行分组,为了得到更准确的结果,我们定义每组为16帧,并且相邻的组有8帧的重叠。在得到每一组视频序列的类别之后,我们对含有相同类别的视频分组做合并。同时,由于硬切换发生在两帧之间,而我们合并后的片段只能为16帧或8帧,为了得到更准确的位置,我们对候选为含有硬切换的片段中的相邻帧计算直方图的卡方距离以及对应位置像素点的差值,得到他们的线性组合之后的分数,选取分数的最大值的两帧作为硬切换。软切换的索引值由于本身是个范围,求得其准确位置并无较大的意义,因此为了简化计算量,合并后直接得到软切换的结果,不做多余的计算。
本发明的技术方案是:
一种基于3D残差网络的镜头边界检测方法,其特征在于,镜头边界检测问题可看作视频分类问题和切换点的查找问题;首先,基于目前所公开的DeepSBD数据集,使用3D卷积残差网络(3D Pre-ResNet-18)训练得到可用于视频分类的模型,其中共有3类,正常片段、硬切换以及软切换;而后使用该模型对需要检测镜头边界的视频进行预测,其中输入是视频中连续16帧为一组的视频,并且相邻组之间由8帧的重叠,从而得到每一组的预测类别;在预测结果的基础上通过计算第一帧与最后一帧的颜色直方图的卡方距离,使用卡阈值的方式减少误报,而后将含有相同标签且相邻或重叠片段进行合并;为了得到硬切换的准确位置,计算该组内相邻帧的颜色直方图的差值以得到最大差值来确定硬切换的位置。
所述方法包括以下步骤,具体如下:
1)制作用于测试模型效果的数据集;
2)训练3D残差网络模型,并在测试集上进行测试,得到测试结果;
3)对需要检测镜头边界的视频进行分组,得到分组后的每一段视频序列的开始索引和结束索引;
4)对每一组视频进行视频的类别预测,得到每一组视频的类别,该类别分别为硬切换、软切换以及正常片段;
5)对预测类别后的视频片段,不对正常片段做任何处理,同时将预测类别为软切换的相邻或重叠的片段进行合并,将预测类别为硬切换的重叠的片段取交集。
其中,步骤1)包括以下步骤:
步骤(1.1)选取TRECVID2003-2007全部的镜头边界检测测试集,由于2005年的数据集已包含在训练集中,所以剔除掉这部分;
步骤(1.2)由于软切换的数目较少,所以选取全部的软切换,并随机选择硬切换和正常片段,使得三种类别的数据集的比例大概在1:1:1左右,达到平衡。
步骤2)包括以下步骤:
步骤(2.1)构建我们需要训练的模型,并将原始的BatchNormalization的归一化方式更改为Normalization;
步骤(2.3)更改原始的ResNet中的各部件的位置,顺序变为GroupNormalization,ReLU,3D卷积。
其中,步骤3)包括以下步骤:
步骤(3.1)得到视频所有的帧的个数,将每组的帧的个数定义为16,并且相邻两组之间有8帧的重叠;
步骤(3.2)依据步骤(3.1)中约定的方法,得到每一组的视频序列的开始的帧的索引和结束的帧的索引,并存入list数据结构等待操作;
步骤(3.3)将每一组的开始帧的索引加1,同时与视频地址相连接,并标注标签为0,存入文件等待测试;
步骤(3.4)为了得到预测的类别,需要预先设定输出的特征文件的地址,将临时文件夹地址同list数据结构中的每一项数据的开始索引相连接,存入测试文件,其中每一行是输出的特征文件,该特征文件包含了预测的三项类别的概率。
其中,步骤5)包括以下步骤:
步骤(5.1)对于被预测为正常片段的视频片段不做任何操作;
步骤(5.2)对于预测为硬切换类别或软切换类别的视频片段,将预测概率小于70%的片段剔除,同时计算符合我们要求的片段的第一帧和最后一帧直方图的距离的卡方距离,仅选择该距离值大于2的片段作为候选的含有镜头边界检测的片段;
步骤(5.3)对于预测为硬切换类别且重叠的片段[a,b]和片段[c,d],其中中括号中的第一项为片段的开始帧的索引,第二项为片段的结束帧的索引,我们对这类片段进行合并,合并为[c,b];合并结束后,将该结果加入到现有的结果集合里进行下一步的操作;
步骤(5.4)对于预测为应切换类别且相邻或重叠的片段[a,b]和片段[c,d],我们对这类片段进行合并,合并为[a,d];合并结束后,将该结果加入到现有的结果集合里进行下一步的操作;
步骤(5.5)对于预测为应切换类别且相邻或重叠的片段[a,b]和片段[c,d],我们对这类片段进行合并,合并为[a,d];合并结束后,将该结果加入到现有的结果集合里进行下一步的操作。
本发明的优点包括:
本发明所提出的一种基于3D残差网络的镜头边界检测方法,与现有技术相比,其主要优点是:
本专利所提出的基于3D残差网络的镜头边界检测方法,相比于原始的C3D-v1.0网络缩减了大量的参数,在很大程度上减少了计算负担,除此之外,相比于原始的3D ResNet-18,该结构通过应用Group Normalization大大减缓了由于Batch不够而造成的准确度低,同时加速了训练和测试;相比于仅使用低维度特征的方法,准确度大大上升,并且对移动的镜头和镜头内的大变化有一定的容忍度。此外,本方法结合了高维度特征和低维度特征,能够更好的利用时序信息和空间信息,多方面增加检测镜头边界的鲁棒性。
附图说明:
图1为一种基于3D残差网络的镜头边界检测方法实施流程图。
图2为制作数据集的流程图。
图3为对视频进行预测的流程图。
图4为预测类别后的后处理流程图
图5为模型的结构图。
具体实施方式:
以下结合附图对本发明作进一步详细的说明。
一种基于3D残差网络的镜头边界检测方法,其特征在于,镜头边界检测问题可看作视频分类问题和切换点的查找问题;首先,基于目前所公开的DeepSBD数据集,使用3D卷积残差网络(3D Pre-ResNet-18)训练得到可用于视频分类的模型,其中共有3类,正常片段、硬切换以及软切换;而后使用该模型对需要检测镜头边界的视频进行预测,其中输入是视频中连续16帧为一组的视频,并且相邻组之间由8帧的重叠,从而得到每一组的预测类别;在预测结果的基础上通过计算第一帧与最后一帧的颜色直方图的卡方距离,使用卡阈值的方式减少误报,而后将含有相同标签且相邻或重叠片段进行合并;为了得到硬切换的准确位置,计算该组内相邻帧的颜色直方图的差值以得到最大差值来确定硬切换的位置。
如图1所示,是本发明的实施流程图,所述方法包括以下步骤:
1)制作用于测试模型效果的数据集;
2)训练3D残差网络模型,并在测试集上进行测试,得到测试结果;
3)对需要检测镜头边界的视频进行分组,将需要检测镜头边界的视频中的连续的帧序列进行分割,16帧为一组,其中连续的组之间有8帧重叠。得到分组后的每一段视频序列的开始索引和结束索引;
4)我们将需要分好的每一组都输入到3D残差网络(3D Pre-ResNet-18)中,对每一组视频进行视频的类别预测,得到每一组视频的类别,该类别分别为硬切换、软切换以及正常片段;
5)对预测类别后的视频片段,不对正常片段做任何处理。而被预测为含有硬切换或软切换的视频片段,计算每一组内的第一帧与最后一帧的直方图的卡方距离,并移除小于2的片段。同时将预测类别为软切换的相邻或重叠的片段进行合并,将预测类别为硬切换的重叠的片段取交集。
制作数据集的流程图如图2所示。具体包含以下步骤:
1)选取TRECVID2003-2007全部的镜头边界检测测试集,由于2005年的数据集已包含在训练集中,所以剔除掉这部分;
2)由于软切换的数目较少,所以选取全部的软切换,并随机选择硬切换和正常片段,使得三种类别的数据集的比例大概在1:1:1左右,达到平衡。
具体对视频进行预测的流程如图3所示,具体包含以下步骤:
1)得到视频所有的帧的个数,将每组的帧的个数定义为16,并且相邻两组之间有8帧的重叠;
2)得到每一组的视频序列的开始的帧的索引和结束的帧的索引,并存入list数据结构等待操作;
3)将每一组的开始帧的索引加1,同时与视频地址相连接,并标注标签为0,存入文件等待测试。
4)为了得到每一组的得到预测的类别,需要预先设定输出的特征文件的地址,将临时文件夹地址同list数据结构中的每一项数据的开始索引相连接,存入测试文件,其中每一行是输出的特征文件,该特征文件包含了预测的三项类别的概率。
预测类别后的后处理流程如图4所示,具体包含以下步骤:
1)对于被预测为正常片段的视频片段不做任何操作;
2)对于预测为硬切换类别或软切换类别的视频片段,将预测概率小于70%的片段剔除,同时计算符合我们要求的片段的第一帧和最后一帧直方图的距离的卡方距离,仅选择该距离值大于2的片段作为候选的含有镜头边界检测的片段;
3)对于预测为硬切换类别且重叠的片段[a,b]和片段[c,d],其中中括号中的第一项为片段的开始帧的索引,第二项为片段的结束帧的索引,我们对这类片段进行合并,合并为[c,b]。合并结束后,将该结果加入到现有的结果集合里进行下一步的操作。
4)对于预测为应切换类别且相邻或重叠的片段[a,b]和片段[c,d],我们对这类片段进行合并,合并为[a,d]。合并结束后,将该结果加入到现有的结果集合里进行下一步的操作。
5)对于预测为应切换类别且相邻或重叠的片段[a,b]和片段[c,d],我们对这类片段进行合并,合并为[a,d]。合并结束后,将该结果加入到现有的结果集合里进行下一步的操作。
3D残差网络的具体结构如图5所示,相比于原始的3D ResNet-18的结构做了较大的改动。网络有两个线路,第一条直接输出,作为恒等连接,第二部分需要经过两个相同的子模块,该子模块的第一个组件Group Normalization,对原始输入完成归一化操作,减少协方差变化,第二个组件ReLU,是一个非线性激活整流层,用于将小于0的值被置为0,而后经过3D卷积层,同时学习时序信息和空间信息,经过这样两个模块与一开始恒等输出相加,作为下一层的输出。具体包含以下步骤:
1)构建我们需要训练的模型,并将原始的Batch Normalization的归一化方式更改为Normalization;
2)更改原始的ResNet中的各部件的位置,顺序变为Group Normalization,ReLU,3D卷积。
片段确认机制:对每一个被网络结构预测为含有切换的片段,都需要经过片段确认机制来确保其确实含有切换。首先,所有被预测为硬切换或软切换的片段,其预测概率都应大于70%,这样确保我们的模型对该结果是有足够信心的。其次,针对每一步所预测到的片段,为了减少误报,分别计算每一组的第一帧和最后一帧的颜色直方图的卡方距离,具体公式见
Figure BDA0002263934160000071
3D残差网络的整体结构见下表。
Figure BDA0002263934160000072
Figure BDA0002263934160000081
最后所应说明的是:本发明还可有其它多种应用场景,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的保护范围。

Claims (6)

1.一种基于3D残差网络的镜头边界检测方法,其特征在于,将镜头边界检测问题看作视频分类问题和切换点的查找问题;首先,基于目前所公开的DeepSBD数据集,使用3D卷积残差网络训练得到可用于视频分类的模型,包括3类,正常片段、硬切换以及软切换;而后使用该模型对需要检测镜头边界的视频进行预测,其中输入是视频中连续16帧为一组的视频,并且相邻组之间有8帧的重叠,从而得到每一组的预测类别;在预测结果的基础上通过计算第一帧与最后一帧的颜色直方图的卡方距离,使用卡阈值的方式减少误报,而后将含有相同标签且相邻或重叠片段进行合并;为了得到硬切换的准确位置,计算该组内相邻帧的颜色直方图的差值以得到最大差值来确定硬切换的位置。
2.根据权利要求1所述的方法,其特征在于,包括以下步骤:
1)制作用于测试模型效果的数据集;
2)训练3D残差网络模型,并在测试集上进行测试,得到测试结果;
3)对需要检测镜头边界的视频进行分组,得到分组后的每一段视频序列的开始索引和结束索引;
4)对每一组视频进行视频的类别预测,得到每一组视频的类别,该类别分别为硬切换、软切换以及正常片段;
5)对预测类别后的视频片段,不对正常片段做任何处理,同时将预测类别为软切换的相邻或重叠的片段进行合并,将预测类别为硬切换的重叠的片段取交集。
3.根据权利要求2所述的方法,其特征在于,所述步骤1)包括以下步骤:
步骤(1.1)选取TRECVID2003-2007全部的镜头边界检测测试集,由于2005年的数据集已包含在训练集中,所以剔除掉这部分;
步骤(1.2)由于软切换的数目较少,所以选取全部的软切换,并随机选择硬切换和正常片段,使得三种类别的数据集的比例大概在1:1:1左右,达到平衡。
4.根据权利要求3所述的方法,其特征在于,所述步骤2)包括以下步骤:
步骤(2.1)构建需要训练的模型,并将原始的BatchNormalization的归一化方式更改为Normalization;
步骤(2.3)更改原始的ResNet中的各部件的位置,顺序变为Group Normalization,ReLU,3D卷积。
5.根据权利要求4所述的方法,其特征在于,所述步骤3)包括以下步骤:
步骤(3.1)得到视频所有的帧的个数,将每组的帧的个数定义为16,并且相邻两组之间有8帧的重叠;
步骤(3.2)依据步骤(3.1)中约定的方法,得到每一组的视频序列的开始的帧的索引和结束的帧的索引,并存入list数据结构等待操作;
步骤(3.3)将每一组的开始帧的索引加1,同时与视频地址相连接,并标注标签为0,存入文件等待测试;
步骤(3.4)为了得到预测的类别,需要预先设定输出的特征文件的地址,将临时文件夹地址同list数据结构中的每一项数据的开始索引相连接,存入测试文件,其中每一行是输出的特征文件,该特征文件包含了预测的三项类别的概率。
6.根据权利要求5所述的方法,其特征在于,所述步骤5)包括以下步骤:
步骤(5.1)对于被预测为正常片段的视频片段不做任何操作;
步骤(5.2)对于预测为硬切换类别或软切换类别的视频片段,将预测概率小于70%的片段剔除,同时计算符合我们要求的片段的第一帧和最后一帧直方图的距离的卡方距离,仅选择该距离值大于2的片段作为候选的含有镜头边界检测的片段;
步骤(5.3)对于预测为硬切换类别且重叠的片段[a,b]和片段[c,d],其中中括号中的第一项为片段的开始帧的索引,第二项为片段的结束帧的索引,我们对这类片段进行合并,合并为[c,b];合并结束后,将该结果加入到现有的结果集合里进行下一步的操作;
步骤(5.4)对于预测为应切换类别且相邻或重叠的片段[a,b]和片段[c,d],我们对这类片段进行合并,合并为[a,d];合并结束后,将该结果加入到现有的结果集合里进行下一步的操作;
步骤(5.5)对于预测为应切换类别且相邻或重叠的片段[a,b]和片段[c,d],我们对这类片段进行合并,合并为[a,d];合并结束后,将该结果加入到现有的结果集合里进行下一步的操作。
CN201911080955.1A 2019-11-07 2019-11-07 一种基于3d残差网络的镜头边界检测方法 Active CN111079527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911080955.1A CN111079527B (zh) 2019-11-07 2019-11-07 一种基于3d残差网络的镜头边界检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911080955.1A CN111079527B (zh) 2019-11-07 2019-11-07 一种基于3d残差网络的镜头边界检测方法

Publications (2)

Publication Number Publication Date
CN111079527A true CN111079527A (zh) 2020-04-28
CN111079527B CN111079527B (zh) 2023-06-06

Family

ID=70310781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911080955.1A Active CN111079527B (zh) 2019-11-07 2019-11-07 一种基于3d残差网络的镜头边界检测方法

Country Status (1)

Country Link
CN (1) CN111079527B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860185A (zh) * 2020-06-23 2020-10-30 北京无限创意信息技术有限公司 一种镜头边界检测方法及系统
CN113420736A (zh) * 2021-08-23 2021-09-21 成都飞机工业(集团)有限责任公司 一种基于视频拆分的3d打印缺陷确定方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1754382A (zh) * 2003-02-21 2006-03-29 皇家飞利浦电子股份有限公司 镜头切变检测
US20140147096A1 (en) * 2012-11-27 2014-05-29 Mirriad Limited System and method of producing certain video data
US9438936B1 (en) * 2015-04-03 2016-09-06 Mirriad Limited Producing video data
CN107424163A (zh) * 2017-06-09 2017-12-01 广东技术师范学院 一种基于TextTiling的镜头边界检测方法
CN108632640A (zh) * 2017-03-24 2018-10-09 米利雅得广告公开股份有限公司 预测未来插入区域元数据
CN109614842A (zh) * 2017-08-31 2019-04-12 米利雅得广告公开股份有限公司 用于识别候选视频插入对象类型的机器学习

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1754382A (zh) * 2003-02-21 2006-03-29 皇家飞利浦电子股份有限公司 镜头切变检测
US20140147096A1 (en) * 2012-11-27 2014-05-29 Mirriad Limited System and method of producing certain video data
US9438936B1 (en) * 2015-04-03 2016-09-06 Mirriad Limited Producing video data
CN108632640A (zh) * 2017-03-24 2018-10-09 米利雅得广告公开股份有限公司 预测未来插入区域元数据
CN107424163A (zh) * 2017-06-09 2017-12-01 广东技术师范学院 一种基于TextTiling的镜头边界检测方法
CN109614842A (zh) * 2017-08-31 2019-04-12 米利雅得广告公开股份有限公司 用于识别候选视频插入对象类型的机器学习

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIMIN XIAO 等: "Parallelizing Dynamic Time Warping Algorithm Using Prefix Computations on GPU", 《2013 IEEE INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS & 2013 IEEE INTERNATIONAL CONFERENCE ON EMBEDDED AND UBIQUITOUS COMPUTING》 *
李晓光 等: "压缩域视频内容分析与摘要提取技术", 《测控技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860185A (zh) * 2020-06-23 2020-10-30 北京无限创意信息技术有限公司 一种镜头边界检测方法及系统
CN113420736A (zh) * 2021-08-23 2021-09-21 成都飞机工业(集团)有限责任公司 一种基于视频拆分的3d打印缺陷确定方法

Also Published As

Publication number Publication date
CN111079527B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN110147702B (zh) 一种实时视频的目标检测与识别方法和系统
CN102609686B (zh) 一种行人检测方法
CN108171196B (zh) 一种人脸检测方法及装置
Amel et al. Video shot boundary detection using motion activity descriptor
CN113139620A (zh) 基于目标关联学习的端到端多目标检测与跟踪联合方法
EP2715278B1 (en) 3d scanner using structured lighting
CN111079527B (zh) 一种基于3d残差网络的镜头边界检测方法
Liang et al. A video shot boundary detection approach based on CNN feature
CN113822368B (zh) 一种基于无锚的增量式目标检测方法
Bastani et al. OTIF: efficient tracker pre-processing over large video datasets
Song et al. Target detection via HSV color model and edge gradient information in infrared and visible image sequences under complicated background
Chen et al. Correlation filter tracking via distractor-aware learning and multi-anchor detection
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN111241987A (zh) 基于代价敏感的三支决策的多目标模型视觉追踪方法
Wang et al. SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object Tracking
Ji et al. News videos anchor person detection by shot clustering
EP3043316A1 (en) Method and apparatus for generating superpixels for multi-view images
CN110516640B (zh) 一种基于特征金字塔联合表示的车辆再辨识方法
Yi et al. Single online visual object tracking with enhanced tracking and detection learning
CN116230075A (zh) 一种基于混合网络模型的蛋白质结构域边界预测方法
CN115082854A (zh) 一种面向安防监控视频的行人搜索方法
Vaquero et al. SiamMT: Real-time arbitrary multi-object tracking
Liu Inverted Non-maximum Suppression for more Accurate and Neater Face Detection
Gloudemans et al. Localization-based tracking
KR100311952B1 (ko) 유효범위 조건 탬플리트 매칭을 이용한 얼굴 영역 추출방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant