CN111079527A

CN111079527A - 一种基于3d残差网络的镜头边界检测方法

Info

Publication number: CN111079527A
Application number: CN201911080955.1A
Authority: CN
Inventors: 肖利民; 赵启迪; 王赵凯
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-04-28
Anticipated expiration: 2039-11-07
Also published as: CN111079527B

Abstract

本发明提出一种基于3D残差网络的镜头边界检测方法,将镜头边界检测问题看作视频分类问题和切换点的查找问题。首先，基于目前所公开的DeepSBD数据集，使用3D卷积残差网络训练得到可用于视频分类的模型；使用该模型对需要检测镜头边界的视频进行预测，其中输入是视频中连续16帧为一组的视频，并且相邻组之间由8帧的重叠，从而得到每一组的预测类别。在预测结果的基础上通过计算第一帧与最后一帧的颜色直方图的卡方距离，使用卡阈值的方式减少误报，而后将含有相同标签且相邻或重叠片段进行合并；此外，为了得到硬切换的准确位置，计算该组内相邻帧的颜色直方图的差值以得到最大差值来确定硬切换的位置。

Description

一种基于3D残差网络的镜头边界检测方法

技术领域：

本发明公开了一种基于3D残差网络的镜头边界检测方法，涉及视频分析相关的挑战，属于计算机技术领域。

背景技术：

镜头边界检测算法，也叫做时域视频分割，是多种视频分析任务(如视频检索任务、视频摘要任务等)中非常重要的初始步骤。在目前的相关研究文献中，视频镜头被认为是由一个摄像机所拍摄的未经打断的一系列连续的帧的集合，因此镜头边界检测的目的是将经过用户或专业人士编辑过的视频分割成以镜头为基本单元的集合，由于其是后续各种任务的预处理，因此镜头边界检测的准确度对视频后处理的效果影响很大。

通常，在镜头中有多种转换效果，在大体上可分为硬切换和软切换。硬切换存在于两个连续的帧之间，前一帧属于前一个镜头，而后一帧属于后一个镜头；与此相反，软切换存在于连续的多个帧之间，帧的时长通常大于2帧，软切换可进一步细分为溶解、渐入、渐出、擦拭等等，相比于擦拭等效果，溶解、渐入和渐出是当前较流行的切换形式。

目前，关于镜头边界检测方法的文献中，主要分为两大类检测方法，基于简单的低维度特征的检测方法和基于复杂的高维度特征的检测方法。

基于低维度特征的检测方法主要有基于像素特征的检测方法、基于直方图特征的检测方法、基于边缘特征的检测方法、基于运动的检测方法。Kikukawa等人提出了一种基于像素特征的检测方法，该方法通过对两个连续帧的相同位置的像素点的强度进行计算并与事先设定好的阈值相比较以得到超过阈值的帧索引值，即为边界点。Nagasaka等人提出了一种基于直方图特征的检测方法，该方法通过计算连续的帧的灰色直方图的差异分数，并同时与低阈值和高阈值进行比较来得到所需要的镜头边界，相比于之前的像素特征的检测方法，它能够对局部运动和一些小的全局运动有一定的容忍度。基于边缘特征的检测方法同样基于阈值，大多通过检测当前帧的边缘位置与前一帧的边缘位置的差异度以确定镜头边界。该方法通常包含三个阶段：边缘检测、边缘改变比例、运动补偿。Deplp E等人提出了一种基于运动的检测方法，该方法通过块匹配连续的帧块来计算运动向量，以区分转换和摄像机操作，则可以从压缩的视频序列中提取出运动向量，该方法通过BMA将当前帧中的一个块与下一个帧中的所有其他块匹配，并将结果结合，以区分镜头边界和镜头内激烈的运动，从而提高镜头边界检测的准确度。Baraldi等人在近年来提出了一种基于直方图特征的卡方距离的检测方法，通过帧之间的直方图的卡方距离的差值，依照动态阈值的计算公式得到动态阈值，从而得到镜头边界。

基于高维度特征的检测方法主要基于深度学习。Hassanien提出了一种基于时空卷积的神经网络检测方法。该方法将镜头边界检测问题，看作是一种视频分类问题，将视频分割为重叠了8帧的16帧的视频序列，从而对每一段视频序列进行分类预测，类别为3类：硬切换、软切换、无切换片段。将预先分割好的视频片段输入时空卷积神经网络，并得到相应的特征，之后对特征进行SVM分类，并将分类后的结果进行合并，从而得到最终的镜头边界检测结果，但该方法并没有预测到精准镜头边界值，而是得到了镜头边界的大概范围。Gygli等人提出了一种基于全卷积神经网络的镜头边界检测方法，该方法将视频镜头边界检测问题看作二分类问题，目标是预测输入的一段视频中的中心两帧是否属于同一个镜头，从而对视频所有的帧进行预测，找到镜头边界点。ShitaoTang等人提出了基于深度结构模型的快速视频镜头转换定位算法，该方法基于SqueezeNet完成候选片段查找的工作，再分别使用Imageconcat模型检测应切换和3D卷积检测软切换的位置及长度。

当前的镜头边界检测算法存在的问题主要为：

基于低维度特征的检测方法虽然实现简单、计算开销小，但它往往会造成很多误报，这是由于镜头的快速移动，或镜头中物体的快速移动和变化导致被误认为是镜头切换，此外，特征的选取也往往会造成结果的差异，比如选取简单的像素特征和直方图特征是无法抵抗光照的变化的，但边缘特征则对光照变化的容忍度较高；而基于高维度特征的检测方法实现起来要较复杂，同时开销也相对于低维度特征的检测方法要大很多，但这些方法的准确率已经明显上升，同时能够在一定程度上容忍镜头的快速移动与镜头中内容的较大变化，但计算代价相当昂贵。

发明内容：

本发明的主要目的是提供一种基于3D残差网络的镜头边界检测方法，针对目前基于低维度特征的方法的准确度低以及高维度特征的方法的计算代价昂贵的问题，它实现了高维度特征与低维度特征相结合的镜头边界检测方法，能够通过高维度特征(3D残差网络)做视频分类，预测出所有可能含有切换点的视频判断，同时依据低维度特征确定具体的切换位置，以得到最终结果。

本发明适用于镜头无剧烈晃动和较快速移动的视频场景，比如广播视频。本方法所使用的模型基于Hassanien所提出的DeepSBD数据集进行训练，同时将该问题转换为视频分类问题，分别是硬切换、软切换以及正常片段。而后，使用3D残差网络进行训练(具体结构为3DPre-ResNet18),训练6个epoch之后停止训练。而后需要对预测视频进行分组，为了得到更准确的结果，我们定义每组为16帧，并且相邻的组有8帧的重叠。在得到每一组视频序列的类别之后，我们对含有相同类别的视频分组做合并。同时，由于硬切换发生在两帧之间，而我们合并后的片段只能为16帧或8帧，为了得到更准确的位置，我们对候选为含有硬切换的片段中的相邻帧计算直方图的卡方距离以及对应位置像素点的差值，得到他们的线性组合之后的分数，选取分数的最大值的两帧作为硬切换。软切换的索引值由于本身是个范围，求得其准确位置并无较大的意义，因此为了简化计算量，合并后直接得到软切换的结果，不做多余的计算。

本发明的技术方案是：

一种基于3D残差网络的镜头边界检测方法，其特征在于，镜头边界检测问题可看作视频分类问题和切换点的查找问题；首先，基于目前所公开的DeepSBD数据集，使用3D卷积残差网络(3D Pre-ResNet-18)训练得到可用于视频分类的模型，其中共有3类，正常片段、硬切换以及软切换；而后使用该模型对需要检测镜头边界的视频进行预测，其中输入是视频中连续16帧为一组的视频，并且相邻组之间由8帧的重叠，从而得到每一组的预测类别；在预测结果的基础上通过计算第一帧与最后一帧的颜色直方图的卡方距离，使用卡阈值的方式减少误报，而后将含有相同标签且相邻或重叠片段进行合并；为了得到硬切换的准确位置，计算该组内相邻帧的颜色直方图的差值以得到最大差值来确定硬切换的位置。

所述方法包括以下步骤，具体如下：

1)制作用于测试模型效果的数据集；

2)训练3D残差网络模型，并在测试集上进行测试，得到测试结果；

3)对需要检测镜头边界的视频进行分组，得到分组后的每一段视频序列的开始索引和结束索引；

4)对每一组视频进行视频的类别预测，得到每一组视频的类别，该类别分别为硬切换、软切换以及正常片段；

5)对预测类别后的视频片段，不对正常片段做任何处理，同时将预测类别为软切换的相邻或重叠的片段进行合并，将预测类别为硬切换的重叠的片段取交集。

其中，步骤1)包括以下步骤：

步骤(1.1)选取TRECVID2003-2007全部的镜头边界检测测试集，由于2005年的数据集已包含在训练集中，所以剔除掉这部分；

步骤(1.2)由于软切换的数目较少，所以选取全部的软切换，并随机选择硬切换和正常片段，使得三种类别的数据集的比例大概在1:1:1左右，达到平衡。

步骤2)包括以下步骤：

步骤(2.1)构建我们需要训练的模型，并将原始的BatchNormalization的归一化方式更改为Normalization；

步骤(2.3)更改原始的ResNet中的各部件的位置，顺序变为GroupNormalization,ReLU，3D卷积。

其中，步骤3)包括以下步骤：

步骤(3.1)得到视频所有的帧的个数，将每组的帧的个数定义为16，并且相邻两组之间有8帧的重叠；

步骤(3.2)依据步骤(3.1)中约定的方法，得到每一组的视频序列的开始的帧的索引和结束的帧的索引，并存入list数据结构等待操作；

步骤(3.3)将每一组的开始帧的索引加1，同时与视频地址相连接，并标注标签为0，存入文件等待测试；

步骤(3.4)为了得到预测的类别，需要预先设定输出的特征文件的地址，将临时文件夹地址同list数据结构中的每一项数据的开始索引相连接，存入测试文件，其中每一行是输出的特征文件，该特征文件包含了预测的三项类别的概率。

其中，步骤5)包括以下步骤：

步骤(5.1)对于被预测为正常片段的视频片段不做任何操作；

步骤(5.2)对于预测为硬切换类别或软切换类别的视频片段，将预测概率小于70％的片段剔除，同时计算符合我们要求的片段的第一帧和最后一帧直方图的距离的卡方距离，仅选择该距离值大于2的片段作为候选的含有镜头边界检测的片段；

步骤(5.3)对于预测为硬切换类别且重叠的片段[a,b]和片段[c,d]，其中中括号中的第一项为片段的开始帧的索引，第二项为片段的结束帧的索引，我们对这类片段进行合并，合并为[c,b]；合并结束后，将该结果加入到现有的结果集合里进行下一步的操作；

步骤(5.4)对于预测为应切换类别且相邻或重叠的片段[a,b]和片段[c,d]，我们对这类片段进行合并，合并为[a,d]；合并结束后，将该结果加入到现有的结果集合里进行下一步的操作；

步骤(5.5)对于预测为应切换类别且相邻或重叠的片段[a,b]和片段[c,d]，我们对这类片段进行合并，合并为[a,d]；合并结束后，将该结果加入到现有的结果集合里进行下一步的操作。

本发明的优点包括：

本发明所提出的一种基于3D残差网络的镜头边界检测方法，与现有技术相比，其主要优点是：

本专利所提出的基于3D残差网络的镜头边界检测方法，相比于原始的C3D-v1.0网络缩减了大量的参数，在很大程度上减少了计算负担，除此之外，相比于原始的3D ResNet-18，该结构通过应用Group Normalization大大减缓了由于Batch不够而造成的准确度低，同时加速了训练和测试；相比于仅使用低维度特征的方法，准确度大大上升，并且对移动的镜头和镜头内的大变化有一定的容忍度。此外，本方法结合了高维度特征和低维度特征，能够更好的利用时序信息和空间信息，多方面增加检测镜头边界的鲁棒性。

附图说明：

图1为一种基于3D残差网络的镜头边界检测方法实施流程图。

图2为制作数据集的流程图。

图3为对视频进行预测的流程图。

图4为预测类别后的后处理流程图

图5为模型的结构图。

具体实施方式：

以下结合附图对本发明作进一步详细的说明。

如图1所示，是本发明的实施流程图，所述方法包括以下步骤：

1)制作用于测试模型效果的数据集；

3)对需要检测镜头边界的视频进行分组，将需要检测镜头边界的视频中的连续的帧序列进行分割，16帧为一组，其中连续的组之间有8帧重叠。得到分组后的每一段视频序列的开始索引和结束索引；

4)我们将需要分好的每一组都输入到3D残差网络(3D Pre-ResNet-18)中，对每一组视频进行视频的类别预测，得到每一组视频的类别，该类别分别为硬切换、软切换以及正常片段；

5)对预测类别后的视频片段，不对正常片段做任何处理。而被预测为含有硬切换或软切换的视频片段，计算每一组内的第一帧与最后一帧的直方图的卡方距离，并移除小于2的片段。同时将预测类别为软切换的相邻或重叠的片段进行合并，将预测类别为硬切换的重叠的片段取交集。

制作数据集的流程图如图2所示。具体包含以下步骤：

1)选取TRECVID2003-2007全部的镜头边界检测测试集，由于2005年的数据集已包含在训练集中，所以剔除掉这部分；

2)由于软切换的数目较少，所以选取全部的软切换，并随机选择硬切换和正常片段，使得三种类别的数据集的比例大概在1:1:1左右，达到平衡。

具体对视频进行预测的流程如图3所示，具体包含以下步骤：

1)得到视频所有的帧的个数，将每组的帧的个数定义为16，并且相邻两组之间有8帧的重叠；

2)得到每一组的视频序列的开始的帧的索引和结束的帧的索引，并存入list数据结构等待操作；

3)将每一组的开始帧的索引加1，同时与视频地址相连接，并标注标签为0，存入文件等待测试。

4)为了得到每一组的得到预测的类别，需要预先设定输出的特征文件的地址，将临时文件夹地址同list数据结构中的每一项数据的开始索引相连接，存入测试文件，其中每一行是输出的特征文件，该特征文件包含了预测的三项类别的概率。

预测类别后的后处理流程如图4所示，具体包含以下步骤：

1)对于被预测为正常片段的视频片段不做任何操作；

2)对于预测为硬切换类别或软切换类别的视频片段，将预测概率小于70％的片段剔除，同时计算符合我们要求的片段的第一帧和最后一帧直方图的距离的卡方距离，仅选择该距离值大于2的片段作为候选的含有镜头边界检测的片段；

3)对于预测为硬切换类别且重叠的片段[a,b]和片段[c,d]，其中中括号中的第一项为片段的开始帧的索引，第二项为片段的结束帧的索引，我们对这类片段进行合并，合并为[c,b]。合并结束后，将该结果加入到现有的结果集合里进行下一步的操作。

4)对于预测为应切换类别且相邻或重叠的片段[a,b]和片段[c,d]，我们对这类片段进行合并，合并为[a,d]。合并结束后，将该结果加入到现有的结果集合里进行下一步的操作。

5)对于预测为应切换类别且相邻或重叠的片段[a,b]和片段[c,d]，我们对这类片段进行合并，合并为[a,d]。合并结束后，将该结果加入到现有的结果集合里进行下一步的操作。

3D残差网络的具体结构如图5所示，相比于原始的3D ResNet-18的结构做了较大的改动。网络有两个线路，第一条直接输出，作为恒等连接，第二部分需要经过两个相同的子模块，该子模块的第一个组件Group Normalization，对原始输入完成归一化操作，减少协方差变化，第二个组件ReLU，是一个非线性激活整流层，用于将小于0的值被置为0，而后经过3D卷积层，同时学习时序信息和空间信息，经过这样两个模块与一开始恒等输出相加，作为下一层的输出。具体包含以下步骤：

1)构建我们需要训练的模型，并将原始的Batch Normalization的归一化方式更改为Normalization；

2)更改原始的ResNet中的各部件的位置，顺序变为Group Normalization,ReLU，3D卷积。

片段确认机制：对每一个被网络结构预测为含有切换的片段，都需要经过片段确认机制来确保其确实含有切换。首先，所有被预测为硬切换或软切换的片段，其预测概率都应大于70％，这样确保我们的模型对该结果是有足够信心的。其次，针对每一步所预测到的片段，为了减少误报，分别计算每一组的第一帧和最后一帧的颜色直方图的卡方距离，具体公式见

3D残差网络的整体结构见下表。

最后所应说明的是：本发明还可有其它多种应用场景，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的保护范围。

Claims

1.一种基于3D残差网络的镜头边界检测方法，其特征在于，将镜头边界检测问题看作视频分类问题和切换点的查找问题；首先，基于目前所公开的DeepSBD数据集，使用3D卷积残差网络训练得到可用于视频分类的模型，包括3类，正常片段、硬切换以及软切换；而后使用该模型对需要检测镜头边界的视频进行预测，其中输入是视频中连续16帧为一组的视频，并且相邻组之间有8帧的重叠，从而得到每一组的预测类别；在预测结果的基础上通过计算第一帧与最后一帧的颜色直方图的卡方距离，使用卡阈值的方式减少误报，而后将含有相同标签且相邻或重叠片段进行合并；为了得到硬切换的准确位置，计算该组内相邻帧的颜色直方图的差值以得到最大差值来确定硬切换的位置。

2.根据权利要求1所述的方法，其特征在于，包括以下步骤：

1)制作用于测试模型效果的数据集；

3.根据权利要求2所述的方法，其特征在于，所述步骤1)包括以下步骤：

4.根据权利要求3所述的方法，其特征在于，所述步骤2)包括以下步骤：

步骤(2.1)构建需要训练的模型，并将原始的BatchNormalization的归一化方式更改为Normalization；

步骤(2.3)更改原始的ResNet中的各部件的位置，顺序变为Group Normalization,ReLU，3D卷积。

5.根据权利要求4所述的方法，其特征在于，所述步骤3)包括以下步骤：

6.根据权利要求5所述的方法，其特征在于，所述步骤5)包括以下步骤：

步骤(5.1)对于被预测为正常片段的视频片段不做任何操作；