CN110830734B

CN110830734B - 一种突变和渐变镜头切换识别方法及系统

Info

Publication number: CN110830734B
Application number: CN201911044888.8A
Authority: CN
Inventors: 王灿进; 陈雷雷; 顾炼; 柳又村; 褚煜辰
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2022-03-18
Anticipated expiration: 2039-10-30
Also published as: CN110830734A

Abstract

本发明涉及镜头切换识别技术领域，具体地说，涉及一种突变和渐变镜头切换识别方法及系统。其方法步骤如下：准备训练数据，获取神经网络分类模型，将镜头切换识别问题转换为连续视频帧的分类问题；利用训练好的神经网络分类模型，识别出候选镜头切换序列；获取搜索区间；特征重定位，得到准确切换位置。该种突变和渐变镜头切换识别方法，利用神经网络，通过大量数据训练模型识别渐变和突变镜头切换，初步定位镜头切换搜索区间，同时在神经网络初步定位之后，利用图像特征定位镜头切换的准确位置。

Description

一种突变和渐变镜头切换识别方法及系统

技术领域

本发明涉及镜头切换识别技术领域，具体地说，涉及一种突变和渐变镜头切换识别方法及系统。

背景技术

申请号为CN201610687298.7的“一种识别镜头切换的方法及装置”中等间隔提取出待检测视频的关键帧，然后将关键帧分为若干子区域，通过计算不同关键帧子区域的颜色或亮度直方图的加权距离来判断是否存在镜头切换，其缺陷在于：(1)无法准确定位切换的位置；(2)只通过关键帧抽样检测，在镜头晃动剧烈情况下容易误识别；(3)无法区分是渐变还是突变镜头切换。而申请号为CN201410831291.9的“基于帧差聚类的视频镜头切换检测方法及其装置”计算连续三帧中每两帧图像的灰度值差生成三维向量，通过聚类器将三维向量映射成空间坐标系中的点，设置半径参数生成包含球，点在球内为有镜头切换，其缺陷在于：(1)使用连续三帧的特征，特征采样长度短，对于过渡时间较长的渐变镜头无法识别；(2)无法区分是渐变还是突变镜头切换；(3)在镜头晃动剧烈情况下容易误识别。

发明内容

本发明的目的在于提供一种突变和渐变镜头切换识别方法及系统，对上述现有技术中存在的问题作出改进，识别并准确定位视频中的渐变镜头和突变镜头切换，克服在镜头晃动、虚焦等不利条件下的误识别问题。

为实现上述目的，本发明提供一种突变和渐变镜头切换识别方法，其方法步骤如下：

S1、准备训练数据，获取神经网络分类模型，将镜头切换识别问题转换为连续视频帧的分类问题；

S2、利用S1中训练好的神经网络分类模型，识别出候选镜头切换序列；

S3、获取搜索区间；

S4、特征重定位，得到准确切换位置。

作为优选，S1中，准备训练数据包括如下步骤：

步骤一：正样本，正样本为以镜头切换位置为中心同时向前向后总共采样N帧连续图像，镜头切换类型尽可能包含突变以及渐变中的淡入淡出、棋盘格、缩放、划变、锯齿等不同种类的镜头切换；

步骤二：负样本，负样本为在不存在镜头切换的位置随机采样N帧连续图像序列。

作为优选，采用视频分类网络对连续帧训练模型进行视频分类，这里的视频分类网络可以是3DCNN或者双流网络其中之一。

作为优选，S2中，识别出候选镜头切换序列步骤如下：

①、对视频流进行解码，得到总长度为L的视频序列；

②、使用长度为N、步长为S的滑动窗口遍历所述总长度为L的视频序列，每次取出由N幅图像组成的片段C；

③、输入到训练好的神经网络分类模型进行分类，获取类别。

作为优选，获取搜索区间包括以下步骤：

对于某个片段C，如果输出类别是突变镜头切换，则定义搜索区间为Search_Clip＝C；如果输出类别是渐变镜头切换，继续向后搜索直到第一个非渐变镜头切换的片段CE，则定义搜索区间Search_Clip为C-CE之间的片段。

作为优选，特征重定位步骤如下：

①、得到搜索区间Search_Clip；

②、对Search_Clip中的所有图像提取特征，计算帧间的特征变化，变化量最大的位置为镜头切换的准确位置。

作为优选，图像提取特征方法可以包括以下一种或者多种：

①、频域特征，对图像做DCT变换，然后累加DCT低频区域的差值作为特征；

②、空间域特征，利用训练数据集提取sift特征进行聚类构造词典Dict；

③、训练神经网络提取图片特征；

本发明还提出一种突变和渐变镜头切换识别系统，用于执行上述任意一项所述的突变和渐变镜头切换识别方法，包括以下模块：

模块一：图像序列提取模块，图像序列提取模块用于从视频源获取连续的图像片段；

模块二：候选序列识别模块，候选序列识别模块使用训练好的神经网络分类模型，对图像序列提取模块得到的图像片段进行分类，区分是连续镜头、渐变镜头或者突变镜头；

模块三：搜索区间获取模块，搜索区间获取模块对从候选序列识别模块中得到的渐变镜头和突变镜头计算搜索区间，对突变镜头搜索区间为本片段，对渐变镜头则向后搜索直到第一个非渐变镜头位置；

模块四：特征重定位模块，特征重定位模块包括特征提取子模块和距离度量子模块，特征提取子模块对搜索区间中的图像提取频域、空间域等特征，距离度量子模块对特征提取子模块得到的特征选用合适的度量函数计算距离，得到镜头切换的准确位置。

与现有技术相比，本发明的有益效果：

1、该突变和渐变镜头切换识别方法中，通过神经网络的输入为N帧的连续视频，能判断是否为镜头切换并且输出类别为渐变切换或者突变切换其中之一。

2、该突变和渐变镜头切换识别方法中，通过对搜索区间中的每个图像提取特征并计算特征的距离，能准确定位镜头切换的位置。

附图说明

图1为本发明的整体方法流程图；

图2为本发明的识别出候选镜头切换序列步骤图；

图3为本发明的整体结构模块图；

图4为本发明的特征重定位模块图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图4所示，本发明提供一种技术方案：

本发明提供一种突变和渐变镜头切换识别方法，其方法步骤如下：

S3、获取搜索区间；

S4、特征重定位，得到准确切换位置。

S1中，准备训练数据包括如下步骤：

步骤二：负样本，负样本为在不存在镜头切换的位置随机采样N帧连续图像序列，为了扩充数据集和增强泛化能力，可以在正样本采样位置随机前后移动若干帧作为扩充正样本，而负样本采样位置包括常规拍摄镜头、摄像机剧烈运动、虚焦等各种场景，可有效减小困难场景的误报。

具体的，神经网络的一个实施例可采用采用3DCNN中的C3D分类网络，C3D分类网络包括卷积层、最大池化层、全连接层和SoftMax层；

进一步的，S2中，识别出候选镜头切换序列步骤如下：

①、对视频流进行解码，得到总长度为L的视频序列；

再进一步的，获取搜索区间包括以下步骤：

值得说明的是，特征重定位中，镜头切换的准确位置必然是Search_Clip中视觉信息变化最大的位置。对Search_C1ip中的所有图像提取特征，计算帧间的特征变化，变化量最大的位置为镜头切换的准确位置。

图像提取特征包括以下方法中的一种或者多种：

方法一：频域特征，对图像做DCT变换，然后累加DCT低频区域的差值作为特征，能够抑制高频细节变化等原因(例如虚焦、散粒噪声等)带来的像素值突变的误检，相应的距离度量方法为Euclidean距离。

方法二：空间域特征，利用训练数据集提取SIFT特征进行聚类构造词典Dict，对于每张图像，提取SIFT特征，然后计算在Dict的特征直方图作为特征，相应的距离度量方法为直方图距离度量方法如Manhattan距离、Euclidean距离、Hausdorff距离。

其中，Manhattan距离为曼哈顿距离，两个n维向量a(x11，x12，…，xln)与b(x21，x22，…，x2n)间的曼哈顿距离公式为：

其中，Hausdorff距离定义为：给定两个有限集合A＝{a₁，a₂，...，a_p}和B＝{b₁，b₂，...，b_p}，则A，B之间的Hausdorff距离定义为：

H(A，B)＝max(h(A，B)，h(B，A))

其中

式中，||·||表示点集，A，B之间的距离范数，函数h(A，B)和h(B，A)分别称为前向和后向Hausdorff距离，如果h(A，B)＝d，则表示A中所有点到B中点的距离不超过d，也就是说A中点都在B中点的距离为d的范围之内

方法三：训练神经网络提取图片特征，相应的距离度量方法采用余弦距离，余弦距离定义如下：两个n维样本点a(x₁₁，x₁₂，…，x_1n)和b(x₂₁，x₂₂，…，x_2n)的夹角余弦公式为：

执行上述任意一项所述的突变和渐变镜头切换识别方法的系统，包括以下模块：

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种突变和渐变镜头切换识别方法，其方法步骤如下：

S2、利用S1中训练好的神经网络分类模型，识别出候选镜头切换序列，包括以下步骤：

①、对视频流进行解码，得到总长度为L的视频序列；

③、将所得片段C输入到训练好的神经网络分类模型进行分类，获取所得片段C的类别；

S3、获取搜索区间，包括以下步骤：

对于某个片段C，如果输出类别是突变镜头切换，则定义搜索区间为Search_Clip＝C；如果输出类别是渐变镜头切换，继续向后搜索直到第一个非渐变镜头切换的片段CE，则定义搜索区间Search_Clip为C-CE之间的片段；

S4、特征重定位，得到准确切换位置。

2.根据权利要求1所述的突变和渐变镜头切换识别方法，其特征在于：S1中，准备训练数据包括如下步骤：

步骤一：正样本，正样本为以镜头切换位置为中心同时向前向后总共采样N帧连续图像，镜头切换类型包含突变以及渐变中的淡入淡出、棋盘格、缩放、划变和锯齿的镜头切换；

3.根据权利要求2所述的突变和渐变镜头切换识别方法，其特征在于：采用视频分类网络对连续帧训练模型进行分类，这里的视频分类网络是3DCNN或者双流网络。

4.根据权利要求1至3任一所述的突变和渐变镜头切换识别方法，其特征在于：特征重定位步骤如下：

①、得到搜索区间Search_Clip；

5.根据权利要求4所述的突变和渐变镜头切换识别方法，其特征在于：图像提取特征方法包括以下一种或者多种：

③、训练神经网络提取图片特征。

6.一种突变和渐变镜头切换识别系统，用于执行权利要求1至5任意一项所述的突变和渐变镜头切换识别方法，其特征在于：包括以下模块：

模块四：特征重定位模块，特征重定位模块包括特征提取子模块和距离度量子模块，特征提取子模块对搜索区间中的图像提取频域特征和/或空间域特征，距离度量子模块对特征提取子模块得到的特征选用合适的度量函数计算距离，得到镜头切换的准确位置。