CN113177445B

CN113177445B - 一种视频运镜的识别方法及系统

Info

Publication number: CN113177445B
Application number: CN202110413792.5A
Authority: CN
Inventors: 刘辉
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Fusion Media Technology Development Beijing Co ltd; Xinhua Zhiyun Technology Co ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-07-12
Anticipated expiration: 2041-04-16
Also published as: CN113177445A

Abstract

本发明提供一种视频运镜的识别方法及系统，方法包括：获取训练数据集，训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别；对训练数据集的每个视频流进行运镜转换，以将每个视频流的第一运镜类别转换为第二运镜类别；获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列；将每个视频流的第一图像输入序列输入到第一神经网络、第二神经网络和第三神经网络中，得到预测运镜类别；将同一视频流对应的预测运镜类别与第一运镜类别或第二运镜类别进行比对，以得到比对结果，根据比对结果采用预设算法更新第二神经网络和第三神经网络的参数；获取待识别视频流的识别运镜类别。有益效果：提高运镜类别的识别精确度。

Description

一种视频运镜的识别方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种视频运镜的识别方法及系统。

背景技术

视频剪辑在视频制作中具有重要的作用，在视频剪辑过程中，使用不同的运镜类别可以呈现不同的效果，传递出不同的情感。

然而目前通常采用人工的方式识别运镜类别，即通过人工观看视频，来对视频的运镜类别进行识别，不仅需要消耗大量人力成本和时间成本，而且采用需要识别人员具有专业的摄影知识，人工标记成本高；

目前也可以常采用编撰规则的方式进行识别，即将根据预先设置的运镜类别的特征规则来识别视频的运镜类别，然而上述现有技术中的特征规则需要人员输入，并且每条特征规则的适用范围小，每条特征规则的识别准确率较低，多条特征规则之间容易出现冲突，从而导致视频中的每个片段符合多特征规则，进而导致特征规则的更新成本高。

发明内容

针对现有技术中存在的上述问题，现提供一种视频运镜的识别方法及系统，实现了对视频的运镜类别进行识别。

具体技术方案如下：

一种视频运镜的识别方法，其中，方法包括：

获取训练数据集，训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别；

对训练数据集的每个视频流进行运镜转换，以将每个视频流的第一运镜类别转换为第二运镜类别；

其中，第一运镜类别与第二运镜类别不同；

获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列；

将每个视频流的第一图像输入序列输入到第一神经网络、第二神经网络和第三神经网络中，得到预测运镜类别；

将同一视频流对应的预测运镜类别与第一运镜类别或第二运镜类别进行比对，以得到比对结果，根据比对结果采用预设算法更新第二神经网络和第三神经网络的参数；

获取待识别视频流的第二图像输入序列，并依次输入到第一神经网络，以及进行参数调整后的第二神经网络和第三神经网络中，获得识别运镜类别。

优选的，视频运镜的识别方法，其中，对训练数据集的每个视频流进行运镜转换，以将每个视频流的第一运镜类别转换为第二运镜类别，具体包括以下步骤：

获取训练数据集的每个视频流对应的第一运镜类别；

根据视频流对应的第一运镜类别对视频流进行运镜转换，以转换得到与第一运镜类别不同的第二运镜类别。

优选的，视频运镜的识别方法，其中，将每个视频流的第一图像输入序列输入到第一神经网络、第二神经网络和第三神经网络中，得到预测运镜类别，具体包括以下步骤：

将每个视频流的第一图像输入序列输入到第一神经网络中，以得到对应的第一视觉特征向量序列；

将第一视觉特征向量序列依照顺序依次输入到第二神经网络中，得到对应的第一时序编码信息；

将第一时序编码信息输入到第三神经网络中，得到预测运镜类别。

优选的，视频运镜的识别方法，其中，第一运镜类别与第二运镜类别相反。

优选的，视频运镜的识别方法，其中，获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列，具体包括以下步骤：

获取运镜转换前的训练数据集的每个视频流；

获取运镜转换后的训练数据集的每个视频流；

对获取得到的每个视频流进行取帧处理，以得到每个视频流的图像输入序列。

优选的，视频运镜的识别方法，其中，对获取得到的每个视频流进行取帧处理，以得到每个视频流的图像输入序列，具体包括：按照预设时间周期获取视频流的预设数量的视频帧，根据获取到视频帧的时间顺序生成图像输入序列。

优选的，视频运镜的识别方法，其中，获取待识别视频流的第二图像输入序列，并依次输入到第一神经网络，以及进行参数调整后的第二神经网络和第三神经网络中，获得识别运镜类别，具体包括：

获取待识别视频流的第二图像输入序列；

将待识别视频流的第二图像输入序列输入到第一神经网络中，以得到对应的第二视觉特征向量序列；

将第二视觉特征向量序列依照顺序依次输入到参数调整后的第二神经网络中，得到对应的第二时序编码信息；

将第二时序编码信息输入到参数调整后的第三神经网络中，得到识别运镜类别。

优选的，视频运镜的识别方法，其中，第一神经网络为Resnet神经网络，第二神经网络为循环神经网络，第三神经网络为全连接神经网络。

优选的，视频运镜的识别方法，其中，预设算法为梯度下降算法。

还提供一种视频运镜的识别系统，其中，包括：训练模块和识别模块；

训练模块包括：

数据集获取单元，用于获取训练数据集，训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别；

运镜转换单元，用于对训练数据集的每个视频流进行运镜转换，以将每个视频流的第一运镜类别转换为第二运镜类别；

其中，第一运镜类别与第二运镜类别不同；

序列获取单元，用于获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列；

预测单元，用于将每个视频流的第一图像输入序列依次输入到第一神经网络、第二神经网络和第三神经网络中，得到预测运镜类别；

参数调整单元，用于将同一视频流对应的预测运镜类别与第一运镜类别或第二运镜类别进行比对，以得到比对结果，根据比对结果采用预设算法更新第二神经网络和第三神经网络的参数；

识别模块，用于获取待识别视频流的第二图像输入序列，并依次输入到第一神经网络，以及进行参数调整后的第二神经网络和第三神经网络中，获得识别运镜类别。

上述技术方案具有如下优点或有益效果：

通过对视频流进行运镜转换，来使得转换前后的不同训练数据集中的同一视频流的视频内容一致，但是运镜类别存在不同，从而增强运镜类别，并且模糊视频流中出现的物体，进而提高运镜类别识别的精确度。

附图说明

参考所附附图，以更加充分的描述本发明的实施例。然而，所附附图仅用于说明和阐述，并不构成对本发明范围的限制。

图1为本发明视频运镜的识别方法的实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明包括一种视频运镜的识别方法，如图1所示，方法包括：

步骤S1，获取训练数据集，训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别；

步骤S2，对训练数据集的每个视频流进行运镜转换，以将每个视频流的第一运镜类别转换为第二运镜类别；

其中，第一运镜类别与第二运镜类别不同；

步骤S3，获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列；

步骤S4，将每个视频流的第一图像输入序列依次输入到第一神经网络、第二神经网络和第三神经网络中，得到预测运镜类别；

步骤S5，将同一视频流对应的预测运镜类别与第一运镜类别或第二运镜类别进行比对，以得到比对结果，根据比对结果采用预设算法更新第二神经网络和第三神经网络的参数；

步骤S6，获取待识别视频流的第二图像输入序列，并依次输入到第一神经网络，以及进行参数调整后的第二神经网络和第三神经网络中，获得识别运镜类别。

在上述实施例中，通过对视频流进行运镜转换，来使得转换前后的不同训练数据集中的同一视频流的视频内容一致，但是运镜类别存在不同，从而增强运镜类别，并且模糊视频流中出现的物体，进而提高运镜类别识别的精确度。

在上述实施例中，步骤S1到步骤S5是采用训练数据集对第二神经网络和第三神经网络的训练过程，如图1中实线箭头流程所示；

步骤S6是采用第一神经网络，以及进行参数调整后的第二神经网络和第三神经网络对待识别视频流的运镜类别的识别多次，如图1中虚线箭头流程所示。

在上述实施例中，可以对每个视频流进行一次或多次运镜转换。

进一步地，在上述实施例中，步骤S2具体包括以下步骤：

步骤S21，获取训练数据集的每个视频流对应的第一运镜类别；

步骤S22，根据视频流对应的第一运镜类别对视频流进行运镜转换，以转换得到与第一运镜类别不同的第二运镜类别。

在上述实施例中，通过对视频流进行运镜转换，使得第二运镜类别与第一运镜类别不同，从而转换前后的不同训练数据集中的同一视频流的视频内容一致但是运镜类别存在不同，进而增强运镜类别，并且模糊视频流中出现的物体。

进一步地，在上述实施例中，第一运镜类别和第二运镜类别均包括：推运镜类别、拉运镜类别、移运镜类别、跟运镜类别、甩运镜类别、升降运镜类别和静态运镜类别等运镜类别。

需要说明的是，推运镜类别的具体应用可以为：被摄体不动，由拍摄机器作向前的运动拍摄，取景范围由大变小，向前推进镜头可以让画面迅速拉近，吸引观众的注意力聚焦在一点。

拉运镜类别的具体应用可以为：被摄体不动，由拍摄机器作向后的拉摄运动，取景范围由小变大，也可分为慢拉、快拉、猛拉。在画面上的效果是倒退，能起到交代环境背景的效果。

摇运镜类别的具体应用可以为：摄影、摄像机位置不动，机身依托于三脚架上的底盘作上下、左右、旋转等运动，使观众如同站在原地环顾、打量周围的人或事物。

移运镜类别又称移动拍摄，具体应用可以为：将摄影、摄像机安放在运载工具上，沿水平面在移动中拍摄对象。

跟运镜类别指的是跟踪拍摄，其中，跟拍的手法灵活多样，使观众的眼睛始终盯牢在被跟摄人体、物体上。

甩运镜类别指的是甩镜头，也即扫摇镜头，具体应用可以为：从一个被摄体甩向另一个被摄体，表现急剧的变化，作为场景变换的手段时不露剪辑的痕迹。

最后升运镜类别指的是拍摄镜头上升，降运镜类别指的是镜头下降。

进一步地，在上述实施例中，采用视频处理工具对视频流进行运镜转换。

优选的，视频处理工具可以为ffmpeg工具，也可以选用其他视频处理工具。

进一步地，作为优选的实施方式，第一运镜类别可以与第二运镜类别正好相反。

在上述优选的实施方式中，通过运镜转换，使得第一运镜类别可以与第二运镜类别正好相反，更进一步地对视频流的运镜类别进行增强处理，更方便后续的运镜识别。

在上述优选的实施方式中，推运镜类别的相反运镜类别可以为拉运镜类别；

在上述优选的实施方式中，静态运镜类别的相反运镜类别可以为推运镜类别、拉运镜类别、移运镜类别、跟运镜类别、甩运镜类别、升降运镜类别等动态运镜类别。

举例说明，推运镜类别为：被摄体不动，由拍摄机器作向前的运动拍摄；

而拉运镜类别为：被摄体不动，由拍摄机器作向后的拉摄运动；

当视频流对应的第一运镜类别为推运镜类别时，可以使用ffmpeg工具对视频流进行倒放从而实现对视频流进行运镜转换，以得到拉运镜类别的视频流。

举例说明，当视频流对应的第一运镜类别为静态运镜类别时，可以使用ffmpeg工具对视频流处理，从而将静态运镜类别转换为动态运镜类别中的至少一种。

进一步地，在上述实施例中，步骤S3具体包括以下步骤：

步骤S31，获取运镜转换前的训练数据集的每个视频流；和

获取运镜转换后的训练数据集的每个视频流；

需要说明的是，运镜转换后的训练数据集可以为一个或多个；

步骤S32，对获取得到的每个视频流进行取帧处理，以得到每个视频流的图像输入序列；

需要说明的是，每个视频流对应一个图像输入序列；

步骤S32具体包括：按照预设时间周期获取视频流的预设数量的视频帧，根据获取到视频帧的时间顺序生成图像输入序列；

作为优选的实施方式，预设时间周期和预设数量均由用户自定义。

例如，可以将预设时间周期定义为1秒，将预设数量定义为2帧；

对每个视频流取帧，具体为：平均每秒获取视频流的两帧视频帧，生成每个视频的图像输入序列；相当于对每个视频流每秒截两张视频帧（相当于对每个视频流每秒截两张图），每个视频流就得到了2*n秒数量的视频帧，该2*n秒数量的视频帧就是图像输入序列；

进一步地，在上述实施例中，步骤S4具体包括：

步骤S41，将每个视频流的第一图像输入序列输入到第一神经网络中，以得到对应的第一视觉特征向量序列；

步骤S42，将第一视觉特征向量序列依照顺序依次输入到第二神经网络中，得到对应的第一时序编码信息；

步骤S43，将第一时序编码信息输入到第三神经网络中，得到预测运镜类别。

进一步地，在上述实施例中，第一神经网络可以为Resnet神经网络（残差神经网络）。

作为优选的实施方式，将每个视频流的第一图像输入序列输入到Resnet神经网络中，使得第一图像输入序列的每张图像都获取得到对应的一个2048维度的视觉特征向量，将视频流的每张图像对应的视觉特征向量设置为第一视觉特征向量序列。

在上述实施例中，第二神经网络为循环神经网络，第三神经网络为全连接神经网络。

在上述实施例中，将第一视觉特征向量序列依照顺序依次输入到循环神经网络中，得到整个视频流对应的第一时序编码信息；将第一时序编码信息输入到全连接神经网络中，得到预测运镜类别；

进一步地，在上述实施例中，预设算法为梯度下降算法。

在上述实施例中，步骤S6具体包括：

步骤S61，获取待识别视频流的第二图像输入序列；

步骤S62，将待识别视频流的第二图像输入序列输入到第一神经网络中，以得到对应的第二视觉特征向量序列；

步骤S63，将第二视觉特征向量序列依照顺序依次输入到参数调整后的第二神经网络中，得到对应的第二时序编码信息；

步骤S64，将第二时序编码信息输入到参数调整后的第三神经网络中，得到识别运镜类别。

需要说明的是，获取待识别视频流的第二图像输入序列的具体实施方式可以和获取第一图像输入序列的具体实施方式一致。

还包括一种视频运镜的识别系统，包括：训练模块和识别模块；

训练模块包括：

其中，第一运镜类别与第二运镜类别不同；

识别模块，用于获取待识别视频流的第二图像输入序列，并依次输入到第一神经网络，以及进行参数调整后的第二神经网络和第三神经网络，获得识别运镜类别。

需要说明的是，本实施例中的视频运镜的识别系统的各实施例和视频运镜的识别方法的各实施例基本一致，在此不做赘述。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种视频运镜的识别方法，其特征在于，所述方法包括：

获取训练数据集，所述训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别；

对所述训练数据集的每个视频流进行运镜转换，以将每个视频流的第一运镜类别转换为第二运镜类别；

其中，所述第一运镜类别与所述第二运镜类别不同；

获取运镜转换前、后的所述训练数据集的每个视频流的第一图像输入序列；

将同一视频流对应的所述预测运镜类别与所述第一运镜类别或第二运镜类别进行比对，以得到比对结果，根据所述比对结果采用预设算法更新所述第二神经网络和所述第三神经网络的参数；

获取待识别视频流的第二图像输入序列，并依次输入到所述第一神经网络，以及进行参数调整后的所述第二神经网络和所述第三神经网络中，获得识别运镜类别；

所述第一神经网络为Resnet神经网络，所述第二神经网络为循环神经网络，所述第三神经网络为全连接神经网络；

所述获取待识别视频流的第二图像输入序列，并依次输入到所述第一神经网络，以及进行参数调整后的所述第二神经网络和所述第三神经网络中，获得识别运镜类别，具体包括：

获取所述待识别视频流的所述第二图像输入序列；

将所述待识别视频流的所述第二图像输入序列输入到所述第一神经网络中，以得到对应的第二视觉特征向量序列；

将所述第二视觉特征向量序列依照顺序依次输入到参数调整后的所述第二神经网络中，得到对应的第二时序编码信息；

将所述第二时序编码信息输入到参数调整后的所述第三神经网络中，得到所述识别运镜类别。

2.如权利要求1所述的视频运镜的识别方法，其特征在于，所述对所述训练数据集的每个视频流进行运镜转换，以将每个视频流的第一运镜类别转换为第二运镜类别，具体包括以下步骤：

获取所述训练数据集的每个视频流对应的所述第一运镜类别；

根据视频流对应的所述第一运镜类别对视频流进行运镜转换，以转换得到与所述第一运镜类别不同的所述第二运镜类别。

3.如权利要求1所述的视频运镜的识别方法，其特征在于，所述将每个视频流的第一图像输入序列输入到第一神经网络、第二神经网络和第三神经网络中，得到预测运镜类别，具体包括以下步骤：

将每个视频流的第一图像输入序列输入到所述第一神经网络中，以得到对应的第一视觉特征向量序列；

将所述第一视觉特征向量序列依照顺序依次输入到所述第二神经网络中，得到对应的第一时序编码信息；

将所述第一时序编码信息输入到所述第三神经网络中，得到预测运镜类别。

4.如权利要求1所述的视频运镜的识别方法，其特征在于，所述第一运镜类别与所述第二运镜类别相反。

5.如权利要求1所述的视频运镜的识别方法，其特征在于，所述获取运镜转换前、后的所述训练数据集的每个视频流的第一图像输入序列，具体包括以下步骤：

获取运镜转换前的所述训练数据集的每个视频流；

获取运镜转换后的所述训练数据集的每个视频流；

6.如权利要求5所述的视频运镜的识别方法，其特征在于，所述对获取得到的每个视频流进行取帧处理，以得到每个视频流的图像输入序列，具体包括：按照预设时间周期获取视频流的预设数量的视频帧，根据获取到视频帧的时间顺序生成所述图像输入序列。

7.如权利要求1所述的视频运镜的识别方法，其特征在于，所述预设算法为梯度下降算法。

8.一种视频运镜的识别系统，其特征在于，包括：训练模块和识别模块；

所述训练模块包括：

数据集获取单元，用于获取训练数据集，所述训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别；

运镜转换单元，用于对所述训练数据集的每个视频流进行运镜转换，以将每个视频流的第一运镜类别转换为第二运镜类别；

其中，所述第一运镜类别与所述第二运镜类别不同；

序列获取单元，用于获取运镜转换前、后的所述训练数据集的每个视频流的第一图像输入序列；

预测单元，用于将每个视频流的第一图像输入序列依次输入到第一神经网络、第二神经网络和第三神经网络中，得到预测运镜类别；其中，所述第一神经网络为Resnet神经网络，所述第二神经网络为循环神经网络，所述第三神经网络为全连接神经网络；

参数调整单元，用于将同一视频流对应的预测运镜类别与所述第一运镜类别或第二运镜类别进行比对，以得到比对结果，根据所述比对结果采用预设算法更新所述第二神经网络和所述第三神经网络的参数；

所述识别模块，用于获取待识别视频流的第二图像输入序列，并依次输入到所述第一神经网络，以及进行参数调整后的所述第二神经网络和所述第三神经网络中，获得识别运镜类别，具体包括：

获取所述待识别视频流的所述第二图像输入序列；将所述待识别视频流的所述第二图像输入序列输入到所述第一神经网络中，以得到对应的第二视觉特征向量序列；将所述第二视觉特征向量序列依照顺序依次输入到参数调整后的所述第二神经网络中，得到对应的第二时序编码信息；将所述第二时序编码信息输入到参数调整后的所述第三神经网络中，得到所述识别运镜类别。