CN114862704B

CN114862704B - 影像色彩修复的镜头自动划分方法

Info

Publication number: CN114862704B
Application number: CN202210436280.5A
Authority: CN
Inventors: 余润德; 张仙伟; 宋建锋; 韩露; 谢琨; 徐浩; 张文英
Original assignee: Shaanxi Xiying Digital Media Technology Co ltd; Xidian University; Xian Shiyou University
Current assignee: Shaanxi Xiying Digital Media Technology Co ltd; Xidian University; Xian Shiyou University
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2023-03-24
Anticipated expiration: 2042-04-25
Also published as: CN114862704A

Abstract

影像色彩修复的镜头自动划分方法，获取包含多种类别的目标检测训练数据，训练VGG19网络作为特征提取器，将黑白影视文件逐帧切割，得到每一帧的图像，并将帧图像大小对齐，将帧图像输入训练好的特征提取器中，提取得到帧图像的多层特征图作为其深度特征，计算每相邻两帧图像的深度特征之间的语义相似度；根据计算得到的语义相似度，基于阈值自适应算法确定分割该黑白影视文件所需要的阈值，将语义相似度中低于该阈值的帧作为镜头的分割点，完成镜头分割。本发明能够根据不同影像利用阈值自适应动态调整阈值，为影像色彩修复等应用场景提供关键技术支持，同时也可用于非黑白影视的镜头划分应用场景。

Description

影像色彩修复的镜头自动划分方法

技术领域

本发明属于人工智能技术领域，涉及影像色彩修复，特别涉及一种影像色彩修复的镜头自动划分方法。

背景技术

一般而言，影像资料往往由多个逻辑上的故事单元组成，每个单元的内容不尽相同。如果对影像资料进行分析处理时，直接对整个视频进行处理，会很难准确地处理黑白影像所包含的所有内容。因此，有必要对影像资料进行语义上的分割。

近年来国内外研究者对视频场景分割进行了大量研究。在2011年，Temporalvideo segmentation to scenes using high-level audiovisual features一文中，作者通过引入镜头转换图的方法进行视频场景分割，其中每个节点都代表一个镜头，并根据它们之间的相似度对节点之间的边进行加权，最后，利用归一化切割将镜头转化图分解为子图，检测场景边界。但该没有充分考虑镜头间的语义相关关系，因此生成的子图难以形成语义层面的场景，导致分割结果不够准确。

在2019年的Keyframes and shot boundaries:the attributes of scenesegmentation and classification一文中，作者采用镜头相似度图法解决场景分割问题，并添加滑动窗口来控制场景检测过程，通过镜头相似度计算，动态调整滑动窗口的长度，避免了场景分割过多或过少的问题。该方法能有效地提高检测精度，但存在检测效率较低等问题。

在2020年，Movie scene segmentation using object detection and settheory一文中，作者通过一种基于三折叠框架的智能卷积神经网络研究场景分割，第一次折叠将输入的影片分割成镜头，第二次折叠检测分割镜头中的目标，第三次折叠基于目标进行镜头匹配，检测场景边界，但该方法依赖于场景中对象的匹配，适用于对象明确的电影类视频场景分割。

发明内容

为解决现在基于深度学习的影像色彩修复技术在算法模型原理上大多实际场景中所需的镜头自动划分问题，本发明的目的在于提供一种影像色彩修复的镜头自动划分方法，利用下文信息对上文信息的依赖，不断提取特征，实现预测时的镜头自动划分。

为了实现上述目的，本发明采用的技术方案是：

影像色彩修复的镜头自动划分方法，其特征在于，包括如下步骤：

步骤1，获取包含多种类别的目标检测训练数据，以VGG19网络作为特征提取器，利用所述目标检测训练数据对其进行训练，将VGG19网络的每一层输出的特征图作为提取到的图像特征；

步骤2，将黑白影视文件逐帧切割，得到每一帧的图像，并将帧图像大小对齐；

步骤3，将所述帧图像输入训练好的特征提取器中，提取得到帧图像的多层特征图作为其深度特征，计算每相邻两帧图像的深度特征之间的语义相似度；

步骤4，根据计算得到的语义相似度，基于阈值自适应算法确定分割该黑白影视文件所需要的阈值，将语义相似度中低于该阈值的帧作为镜头的分割点，完成镜头分割。

在一个实施例中，所述步骤1，从ImageNet中获取包含多种类别的目标检测训练数据，对目标检测训练数据进行数据增强以扩充数据集，所述数据增强包括随机翻转、平移以及遮挡。

在一个实施例中，所述步骤2，利用OPENCV模块进行视频逐帧切割，所得帧图像大小对齐到216*384。

在一个实施例中，所述步骤3，采用梯度下降法进行训练，方法如下：

(1)、采用Adam优化器，采用交叉熵损失函数监督训练；

(2)、在一次迭代中输入X张图片，经过VGG19网络正向传播后根据损失函数计算损失值，并反向传播计算梯度；

(3)、按照等间隔方法调整学习率，初始值为0.001，间隔设置为100，调整倍数设置为0.1，衰减到0.000001为止；

(4)、按照上述(1)、(2)、(3)中的参数设置训练网络，直至损失值停止下降后结束训练，保存网络参数，训练完成。

在一个实施例中，所述步骤3，将提取得到的每张帧图像的多层特征图连接，作为该帧图像的深度特征，将所述深度特征输入残差块得到该帧图像的特征向量。

在一个实施例中，所述步骤3，每相邻两帧图像的深度特征之间的语义相似度

通过如下公式计算：

其中，F_x(i)表示在帧图像x对应的特征向量中i位置的值，

表示帧图像x对应的特征向量的平均值，F_y(j)表示帧图像y对应的特征向量中j位置的值，/>

表示图像像y对应的特征向量的平均值。

在一个实施例中，所述步骤4完成镜头分割的方法如下：

(1)、将语义相似度的序列等比例缩放到0～255之间，作为输入数据序列；建立一个长度为5的滤波队列，将输入数据序列的前5个数据先后放入滤波队列中；

(2)、从输入数据序列的第6个数据开始，计算当前滤波队列中所有数据的均值，若当前数据的值与均值之差小于20，则当前数据对应的黑白影视文件中的帧不是镜头分割点，若当前数据的值与均值之差大于等于20，则当前数据对应的影视文件中的帧为镜头分割点；

(3)、处理完输入数据序列中的一个数据后，若该数据不为镜头分割点，则将其放入滤波队列队尾，弹出滤波队列队首的值，否则滤波队列置为空；

(4)、按照(2)～(3)循环处理输入数据序列，得到所有镜头分割点。

与现有技术相比，本发明的有益效果是：

本发明的基于深度学习的镜头自动划分方法，能够根据不同影像利用阈值自适应动态调整阈值，为影像色彩修复等应用场景提供关键技术支持，同时也可用于非黑白影视的镜头划分应用场景。

附图说明

图1为本发明的整体步骤示意图。

图2为本发明的特征提取器的网络结构示意图。

图3为本发明的残差块的网络结构示意图。

图4为基于本发明的《雪海银山》中的镜头划分代表图片。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

针对上述方法存在的难以兼顾效率和质量的问题，本发明提出了影像色彩修复的镜头自动划分方法，利用卷积神经网络提取特征的优势直接提取帧图像的特征，采用VGG19网络和残差块，对黑白影视文件进行逐帧特征提取，输出帧图像的特征向量，达到了高效处理帧图像底层特征的效果。同时，对相邻帧的特征进行相似度比较，将帧图像特征与语义特征结合，构建相似度模型并训练，在执行预测时，将得到的前一帧特征张量作为输入，与当前帧进行相似度比较得到相邻两帧的相似度；最后通过这些相似度进行动态判定是否发生了镜头切换，采用阈值自适应算法进行相似度的动态判定，最终在每个切换处进行切割，输出为切割完成的各个镜头。在模型落地部署后调用API接口或模块时，结合深度学习的镜头自动划分方法，实现影像色彩修复的镜头自动划分。

具体地，如图1所示，本实施例给出影像色彩修复的镜头自动划分方法，包含以下步骤：

步骤1，使用黑白影视文件作为输入进行逐帧切割，得到每一帧的图像，并将帧图像大小对齐。

本发明中，黑白影视文件指以只有黑白两种颜色的感光胶片拍摄的影片对应的视频文件，例如电影《雪海银山》对应的雪海银山.mp4文件。

具体地，本步骤中，可利用OPENCV等视频切割模块将黑白影视文件切割为每一帧要计算相似度的帧图像，将每张帧图像做图像特征提取，逐帧处理；对于每一帧的图像，将图像大小对齐到216*384。

步骤2，获取包含多种类别的目标检测训练数据。

本步骤中，包含多种类别的目标检测训练数据可以从ImageNet中获取，并可对数据进行随机翻转、平移、遮挡等数据增强操作，以扩充数据集。

包含多种类别的目标检测训练数据也可以自行搭建，即采用步骤1的处理方式，获取大量的大小对齐的帧图像。其中，需要将图像的RGB色彩空间转换到Lab色彩空间。

本步骤的相关术语定义如下：

目标：进行检测的物体，比如图像中属于人类别的某某某。

随机裁剪：从图像中随机裁剪一个正方形区域感兴趣区，判断感兴趣区与各个目标框的交并比，若交并比过小则重新裁剪。

随机放大：随机产生一个新的正方形感兴趣区，将原始图像放入感兴趣去区中，使用图像均值填充填充超出原图的区域。

随机翻转：从数据集中选择训练训练图像，沿图像中心按照横轴方向与纵轴方向翻转图像，得到新的图像扩增数据集。

高斯噪声：随机选择数据集中若干样本，对每个样本生成方差为δ/10的高斯噪声(其中δ为该样本像素值的方差)，将噪声图像与原图相加，得到新的图像用于扩增数据集。

容易理解，本步骤可以与步骤1替换次序。

步骤3，训练特征提取器。

本发明选用VGG19网络作为特征提取器，利用目标检测训练数据对其进行训练，采用梯度下降法对其进行训练，VGG19网络的每一层(例如relu2_2、relu3_2、relu4_2、relu5_2)输出一个特征图，每个特征图为一个张量。将VGG19网络的每一层输出的特征图均作为提取到的图像特征。

示例地，本步骤采用梯度下降法训练，其实现方法如下：

(1)、采用Adam优化器，采用交叉熵损失函数来监督训练。

(2)、在一次迭代中输入X张图片，经过VGG19网络正向传播后根据损失函数计算损失值，并反向传播计算梯度。

(3)、按照等间隔方法调整学习率，初始值为，0.00001，间隔设置为100，调整倍数设置为0.1，直至衰减至0.000001。

步骤4，将需要预测的帧图像输入到训练好的特征提取器中，提取得到的多层特征图作为该帧图像的深度特征，计算每相邻两帧图像的深度特征之间的语义相似度。

具体地，参考图3，本步骤是将提取得到的每张帧图像的多层特征图连接，作为该帧图像的深度特征，并进一步将深度特征输入残差块，得到该帧图像的特征向量。

本步骤中术语定义：

深度特征：经过特征提取器输出的各层特征图的总称。

语义相似度：两个帧图像在不同的上下文中可以互相替换使用而不改变语义结构的程度。

本实施例使用从图像分类预训练的VGG19网络中提取的深层特征来构建两张帧图像之间的语义对应关系。具体地，使用图2中多个卷积层和池化层组成的VGG19网络提取两张帧图像的多层特征图，将两张帧图像各自对应的多层特征图分别连接起来形成两个新特征，即深度特征，将深度特征输入到残差块中，以更好的利用来自不同层的特征，并将输出重新整形成两个特征向量。

每相邻两帧图像的深度特征之间的语义相似度

通过如下公式计算：

其中，F_x(i)表示在帧图像x对应的特征向量中i位置的值，

表示图像像y对应的特征向量的平均值。

步骤5，根据计算得到的语义相似度，基于阈值自适应算法确定分割该黑白影视文件所需要的合适阈值，将语义相似度中低于该阈值的帧作为镜头的分割点，完成镜头分割，即，以此分割点作为两个镜头间的临界点，即此分割点的下一帧为下一个镜头。

本步骤的具体流程可执行如下：

(2)、从输入数据序列的第6个数据开始，计算当前滤波队列中所有数据的均值，若当前数据的值与均值之差小于20，则当前数据对应的黑白影视文件中的帧不是镜头分割点，若当前数据的值与均值之差大于等于20，则当前数据对应的影视文件中的帧为镜头分割点。

图4表示通过本发明方法对《雪海银山》的片段进行划分，第六张帧图像为得到的分割点。可以看出，虽然两个镜头中的人物位置很相似，只通过语义相似度可能区分不开，但是通过本方法的特征提取器和相似度阈值自适应两种算法得到一个良好的结果，将两个镜头划分出来。图4中图像根据特征提取器的特征向量计算得到的语义相似度依次为62.3，63.1，62.5，64.5，62.5，41.2。当计算到图4中第六张图像的滤波序列为[62.3，63.1，62.5，64.5，62.5]，此时滤波序列的均值为62.98，则第六张图像的语义相似度与均值的差值为21.78，大于20，则当前帧图像标记为镜头分割点，将滤波队列置为空。继续处理下一张帧图像，直至处理完所有帧图像。

Claims

1.影像色彩修复的镜头自动划分方法，其特征在于，包括如下步骤：

步骤3，将所述帧图像输入训练好的特征提取器中，提取得到帧图像的多层特征图，将提取得到的每张帧图像的多层特征图连接，作为该帧图像的深度特征，将所述深度特征输入残差块得到该帧图像的特征向量，计算每相邻两帧图像的深度特征之间的语义相似度

计算公式如下：

其中，F_x(i)表示在帧图像x对应的特征向量中i位置的值，

表示帧图像x对应的特征向量的平均值，F_y(j)表示帧图像y对应的特征向量中j位置的值，

表示图像y对应的特征向量的平均值；

步骤4，根据计算得到的语义相似度，基于阈值自适应算法确定分割该黑白影视文件所需要的阈值，将语义相似度中低于该阈值的帧作为镜头的分割点，完成镜头分割，方法如下：

2.根据权利要求1所述影像色彩修复的镜头自动划分方法，其特征在于，所述步骤1，从ImageNet中获取包含多种类别的目标检测训练数据，对目标检测训练数据进行数据增强以扩充数据集，所述数据增强包括随机翻转、平移以及遮挡。

3.根据权利要求1所述影像色彩修复的镜头自动划分方法，其特征在于，所述步骤2，利用OPENCV模块进行视频逐帧切割，所得帧图像大小对齐到216*384。

4.根据权利要求1所述影像色彩修复的镜头自动划分方法，其特征在于，所述步骤3，采用梯度下降法进行训练，方法如下：

(1)、采用Adam优化器，采用交叉熵损失函数监督训练；