CN113591761B

CN113591761B - 一种视频镜头语言识别方法

Info

Publication number: CN113591761B
Application number: CN202110908072.6A
Authority: CN
Inventors: 刘盾; 沈余银; 宋升�
Original assignee: Chengdu Chinamcloud Technology Co ltd
Current assignee: Chengdu Chinamcloud Technology Co ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2023-06-06
Anticipated expiration: 2041-08-09
Also published as: CN113591761A

Abstract

本发明涉及一种视频镜头语言识别方法，涉及视频拍摄镜头识别技术领域，所述识别方法包括：S1、准备模型训练和测试数据：逐帧计算视频序列的光流场得到相邻两帧的光流场序列，对每一帧光流场数据进行设置得到模型训练和测试的输入图像，并对输入图像进行标签标记；S2、构建深度学习神经网络模型，并根据训练数据及其对应的标签训练该模型，通过训练好的模型预测输入的测试数据，得到输入的测试数据的拍摄动作类型。本发明的优点在于：使用了高效的光流算法和深度学习技术，使得视频镜头的实时分析，识别得到8种拍摄动作进而帮助影视相关从业人员和学生更好更快的理解和掌握视频创作技术，充分利用视频拍摄技巧来表达创作意图。

Description

一种视频镜头语言识别方法

技术领域

本发明涉及视频拍摄识别技术领域，尤其涉及一种视频镜头语言识别方法。

背景技术

影视镜头语言是一种艺术语言，它直接诉诸观众的视听感官，并且以直观的、具体的和鲜明的形象传达含义，具有强烈的艺术感染力；由摄像机的运动和不同镜头的剪辑所产生的蒙太奇不仅形成了银幕形象的构成法则，并且给观众带来了不同的全新感受。

视频拍摄过程的拍摄动作主要包括推、拉、升、降、左右摇动、跟随和静止镜头等，对这些拍摄动作进行分析可以帮助影视相关从业人员和学生更好更快的理解和掌握视频创作技术，充分利用视频拍摄技巧来表达创作意图，但是，目前并没有关于对这些拍摄动作进行分析的技术方案。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种视频镜头语言识别方法，能够对拍摄过程中对拍摄动作进行分析识别，进而帮助影视相关从业人员和学生更好更快的理解和掌握视频创作技术，充分利用视频拍摄技巧来表达创作意图。

本发明的目的通过以下技术方案来实现：一种视频镜头语言识别方法，所述识别方法包括：

S1、准备模型训练和测试数据：逐帧计算视频序列的光流场得到相邻两帧的光流场序列，对每一帧光流场数据进行设置得到模型训练和测试的输入图像，并对输入图像进行标签标记；

S2、构建深度学习神经网络模型，并根据训练数据及其对应的标签训练该模型，通过训练好的模型预测输入的测试数据，得到输入的测试数据的拍摄动作类型。

所述对每一帧光流场数据进行设置包括：

A1、将每一帧光流场数据的幅值和角度数据都映射到0到255范围之间；

A2、与每一帧光流场数据对应，生成一帧高宽与输入视频高宽一样的RGB图像数据，并将A1中的光流场的幅值作为R分量的数据，将A1中的角度值作为G分量的数据，将B 分量数据全部设置为255；

A3、以上述图像的中心为圆心坐标，以高宽中较小的值的一半为半径画圆，将该图像圆内的像素的G分量全部设置为1；

A4、将上述图像缩小为阈值大小，作为模型训练和测试的输入图像。

所述对输入图像进行标签标记包括：

将拍摄动作类型为推镜头的图像标记为1、拉镜头的图像标记为2、升镜头的图像标记为 3、降镜头的图像标记为4、左摇镜头的图像标记为5、右摇镜头的图像标记为6、跟随镜头的图像标记为7、静止镜头的图像标记为8；

将标记结果写入文本文件，文件行数对于用于训练的图像个数，每一行记录本行对应的训练图像的路径以及该训练图像所属的镜头类型。

所述构建深度学习神经网络模型包括：

输入层为卷积层Conv2D，包含32个卷积核，卷积核大小为3*3*3，输入大小为64*64*3，输出大小为64*64*32；

在输入层后面跟一个激活层，激活函数为relu函数；

接着是2*2的最大池化层，再接一个丢弃层，丢弃概率为0.25，再接一个卷积层，包含 64个卷积核，卷积核大小为3*3*32.输出大小为32*32*64；

再接一个激活层，激活函数为relu函数；再接一层2*2的最大池化层；再接一个丢弃层，丢弃概率为0.25；再接一层flatten层，将输出展平为1*16384；再接入一个全连接层，输出为1*64；再接一个激活层，激活函数为relu函数；再接一个丢弃层，丢弃概率为0.25；再接入一个全连接层，输出为1*8；再接入一个激活层，激活函数为softmax，输出为1*8。

所述通过训练好的模型预测输入的测试数据，得到输入的测试数据的拍摄动作类型包括：

输入测试数据到模型中，模型最后一个激活层softmax输出8个浮点数；

判断8个浮点数中最大值对应的标签数是多少，根据标签数确定测试数据的镜头类型。

本发明具有以下优点：一种视频镜头语言识别方法，使用了高效的光流算法和深度学习技术，使得视频镜头的实时分析，识别得到8种拍摄动作进而帮助影视相关从业人员和学生更好更快的理解和掌握视频创作技术，充分利用视频拍摄技巧来表达创作意图。

具体实施方式

本发明涉及一种视频镜头语言识别方法，利用视频中光流场，以及深度学习技术，识别电影和电视制作中的各种镜头语言，如：推镜头，拉镜头，镜头上下移动，镜头左右移动，静止镜头、镜头跟随；所述识别方法包括：

进一步地，使用Dense Inverse Search算法来计算视频序列的光流场。

进一步地，对每一帧光流场数据进行设置包括：

A3、设置一个遮罩区域：以上述图像的中心为圆心坐标，以高宽中较小的值的一半为半径画圆，将该图像圆内的像素的G分量全部设置为1；

进一步地，设置该遮罩区域是为了避免镜头中心区域像素对推、拉、升、降、左右摇动这些动作识别的影响。因为一般情况下，画面中心的物体大多都是近处物体，摄像机做上述运动时带来的变化较小。设置中心区域的遮罩是为了避免这些较近物体对摄像机动作判断带来的影响。但遮罩只是在G分量做了设置，在R分量还是保持了所有像素信息，这是为了仍然保持一部分中心区域的信息，在做镜头跟随和静止镜头识别时得到更加准确的结果。

A4、将上述图像缩小为64×64大小的图像，作为模型训练和测试的输入图像。

所述对输入图像进行标签标记包括：

所述构建深度学习神经网络模型包括：

在输入层后面跟一个激活层，激活函数为relu函数；

进一步地，模型训练的停止条件为满足以下两中情况之一即可：相邻5次训练迭代的误差小于预设精度；或者总得训练迭代次数等于40次。

模型训练好后，使用训练好的模型预测输入的测试数据，模型可以输出输入的测试数据属于推、拉、升、降、左摇，右摇、跟随、静止这8种分类中的某一种。

进一步地，通过训练好的模型预测输入的测试数据，得到输入的测试数据的拍摄动作类型包括：

判断8个浮点数中最大值对应的标签数是多少，根据标签数确定测试数据的镜头类型。比如输出的8个值中，如果第二个值最大，则输入的数据为拉这种分类。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种视频镜头语言识别方法，其特征在于：所述识别方法包括：

S2、构建深度学习神经网络模型，并根据训练数据及其对应的标签训练该模型，通过训练好的模型预测输入的测试数据，得到输入的测试数据的拍摄动作类型；

所述对每一帧光流场数据进行设置包括：

A2、与每一帧光流场数据对应，生成一帧高宽与输入视频高宽一样的RGB图像数据，并将A1中的光流场的幅值作为R分量的数据，将A1中的角度值作为G分量的数据，将B分量数据全部设置为255；

A4、将上述图像缩小为阈值大小，作为模型训练和测试的输入图像，阈值为64×64大小的图像。

2.根据权利要求1所述的一种视频镜头语言识别方法，其特征在于：所述对输入图像进行标签标记包括：

将拍摄动作类型为推镜头的图像标记为1、拉镜头的图像标记为2、升镜头的图像标记为3、降镜头的图像标记为4、左摇镜头的图像标记为5、右摇镜头的图像标记为6、跟随镜头的图像标记为7、静止镜头的图像标记为8；

将标记结果写入文本文件，文件行数对应于用于训练的图像个数，每一行记录本行对应的训练图像的路径以及该训练图像所属的镜头类型。

3.根据权利要求1所述的一种视频镜头语言识别方法，其特征在于：所述构建深度学习神经网络模型包括：

在输入层后面跟一个激活层，激活函数为relu函数；

接着是2*2的最大池化层，再接一个丢弃层，丢弃概率为0.25，再接一个卷积层，包含64个卷积核，卷积核大小为3*3*32.输出大小为32*32*64；

4.根据权利要求3所述的一种视频镜头语言识别方法，其特征在于：所述通过训练好的模型预测输入的测试数据，得到输入的测试数据的拍摄动作类型包括：

判断8个浮点数中最大值对应的标签数是什么，根据标签数确定测试数据的镜头类型。