CN110414321B

CN110414321B - 自动识别晃动视频的方法和系统

Info

Publication number: CN110414321B
Application number: CN201910512278.XA
Authority: CN
Inventors: 左斌华; 李鑫; 刘霄; 孙昊; 文石磊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2022-02-01
Anticipated expiration: 2039-06-13
Also published as: CN110414321A

Abstract

本发明公开了一种自动识别晃动视频的方法和系统，其中，所述方法包括：接收输入视频；以及利用分类模型对所述输入视频进行分类；其中，所述分类模型是通过将Flownet‑Simple模型作为基础网络结构进行训练所得。该方法克服现有技术中的视频抖动检测方法只能通过局部相邻帧之间的位移来判断视频是否抖动，在部分场景(如镜头切换，视频特效等)会容易判断失误，并且缺少对视频整体的分析，造成检测准确度低下的问题。

Description

自动识别晃动视频的方法和系统

技术领域

本发明涉及视频处理技术领域，具体地，涉及一种自动识别晃动视频的方法和系统。

背景技术

随着互联网内容生态的蓬勃发展，以视频为载体的各类信息也越来越多，比如百度Feed图文信息、全名小视频等资源。小视频的检索结果的低质问题也逐渐暴露出来，因此对视频进行低质识别，作为对线上数据打压或排序降权的依据，是十分重要的方向。其中镜头剧烈晃动的小视频对用户十分不友好，属于低质视频范畴，因此需要特征对此维度进行刻画，从而满足线上需求。

视频发生抖动时的最显著特征就是帧与帧之间会发生整体的位移，因此目前大多数检测方法都是围绕着如何检测帧之间的位移进行的，如特征点匹配法、光流法、块匹配法及灰度投影法等。但是这些方法只能通过局部相邻帧之间的位移来判断视频是否抖动，在部分场景(如镜头切换，视频特效等)会容易判断失误，并且缺少对视频整体的分析，造成检测准确度低下的问题。

因此，提供一种在使用过程中采用卷积神经网络去学习视频中连续帧之间的关系，从而对视频的抖动程度进行自动的识别与判断，从而有效地提高检测准确度的自动识别晃动视频的方法和系统是本发明亟需解决的问题。

发明内容

针对上述技术问题，本发明的目的是克服现有技术中的视频抖动检测方法只能通过局部相邻帧之间的位移来判断视频是否抖动，在部分场景(如镜头切换，视频特效等)会容易判断失误，并且缺少对视频整体的分析，造成检测准确度低下的问题，从而提供一种在使用过程中采用卷积神经网络去学习视频中连续帧之间的关系，从而对视频的抖动程度进行自动的识别与判断，从而有效地提高检测准确度的自动识别晃动视频的方法和系统。

为了实现上述目的，本发明提供了一种自动识别晃动视频的方法，所述方法包括：

接收输入视频；以及

利用分类模型对所述输入视频进行分类；其中，所述分类模型是通过将Flownet-Simple模型作为基础网络结构进行训练所得。

优选地，所述分类模型的生成步骤为：

收集训练所需的视频数据，将所述视频数据分成以下中的至少两者：抖动、过渡以及不抖动，以获得测试视频数据；

对所述测试视频数据进行预处理，以获得预处理后的视频数据；所述预处理包括：依次进行的视频抽帧处理以及视频帧图像裁剪处理；

利用Flownet-Simple模型作为基础网络结构，再利用所述预处理后的视频数据对该模型进行训练，以获得分类模型。

优选地，对所述Flownet-Simple模型进行训练的步骤包括：

利用所述预处理后的视频数据和其对应的抖动程度作为网络学习的标签，

根据输入至所述Flownet-Simple模型中的每一张图片和该图片所对应的标签，计算已有神经网络参数的梯度，并利用梯度下降法对所述神经网络参数进行更新，直到神经网络收敛。

优选地，所述视频抽帧处理为均匀抽帧处理。

优选地，在完成对所述输入视频的分类后，所述自动识别晃动视频的方法还包括：过滤抖动视频。

优选地，在所述预处理过程中，通过多种图像裁剪方式进行所述视频帧图像裁剪处理，以获取多种所述预处理后的视频数据。

为了实现上述目的，本发明提供了一种自动识别晃动视频的系统，所述系统包括：

接收模块，被配置于接收输入视频；

分类模块，被配置于利用分类模型对所述输入视频进行分类；其中，

所述分类模型是通过将Flownet-Simple模型作为基础网络结构进行训练所得。

优选地，所述分类模型的生成步骤为：

优选地，对所述Flownet-Simple模型进行训练的步骤包括：利用所述预处理后的视频数据和其对应的抖动程度作为网络学习的标签，根据输入至所述Flownet-Simple模型中的每一张图片和该图片所对应的标签，计算已有神经网络参数的梯度，并利用梯度下降法对所述神经网络参数进行更新，直到神经网络收敛。

优选地，所述视频抽帧处理为均匀抽帧处理。

优选地，所述系统还包括：过滤模块，被配置于过滤抖动视频。

本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的自动识别晃动视频的方法的步骤。

本发明还提供一种电子设备，其特征在于，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述的自动识别晃动视频的方法的步骤。

根据上述技术方案，本发明提供的自动识别晃动视频的方法在使用过程中利用所述分类模型对所述输入视频进行分类，且所述分类模型是通过将Flownet-Simple模型作为基础网络结构进行训练所得，克服现有技术中的视频抖动检测方法只能通过局部相邻帧之间的位移来判断视频是否抖动，在部分场景(如镜头切换，视频特效等)会容易判断失误，并且缺少对视频整体的分析，造成检测准确度低下的问题。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明的一种优选的实施方式中提供的自动识别晃动视频的方法的流程框图；

图2是本发明的一种优选的实施方式中提供的分类模型生成的流程框图；

图3是本发明的一种优选的实施方式中提供的分类模型利用Flownet-Simple模型进行训练的流程框图；

图4是本发明的一种优选的实施方式中提供的自动识别晃动视频的系统的结构示意图；

图5是本发明实施例提供的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种自动识别晃动视频的方法的流程图，如图1所示，所述自动识别晃动视频的方法包括以下步骤：

在步骤S11中，接收输入视频；以及

在步骤S12中，利用分类模型对所述输入视频进行分类；其中，

在上述方案中，所述步骤S11中接收的输入视频为待分类的视频，例如用户上传是网站的小视频，网站需要对该小视频的质量进行检测和筛选，则首先需要接收该小视频；

所述步骤S12则是利用分类模型对该小视频进行分类，例如分类成：抖动视频，为了提高分类的准确度，防止视频本身的如镜头切换，视频特效等因素的影响，本发明利用所述Flownet-Simple模型作为基础网络结构进行训练得到所述分类模型，该分类模型可以克服上述因素的影响，有效地提高分类的准确度。

图2是根据一示例性实施例示出的一种分类模型生成的流程框图，所述分类模型的生成步骤为：

在步骤S21中，收集训练所需的视频数据，将所述视频数据分成以下中的至少两者：抖动、过渡以及不抖动，以获得测试视频数据；

在步骤S22中，对所述测试视频数据进行预处理，以获得预处理后的视频数据；所述预处理包括：依次进行的视频抽帧处理以及视频帧图像裁剪处理；

在步骤S23中，利用Flownet-Simple模型作为基础网络结构，再利用所述预处理后的视频数据对该模型进行训练，以获得分类模型。

在上述方案中，为所述分类模型训练的一个有效地实施例：在步骤S21中，需要收集一些训练所需的视频数据，然后进行分类，当然分类后可以在每个视频上标注分类的结果，从而方便对该视频的分类进行获取；在步骤S22中，需要对视频数据进行一些基本处理，比如视频抽帧，将其处理成一帧一帧的图像，然后为了方便利用该图像进行模型训练，需要将其裁剪成统一的大小；在步骤S23中，将Flownet-Simple模型作为基础网络结构，然后利用统一裁剪后的图像数据对该模型进行训练以获得分类模型。

上述方案为数据处理过程，将数据处理成训练所需的数据，有利于模型训练，而且训练的效果也更佳。

图3是根据一示例性实施例示出的一种分类模型利用Flownet-Simple模型进行训练的流程框图，对所述Flownet-Simple模型进行训练的步骤包括：

在步骤S31中，利用所述预处理后的视频数据和其对应的抖动程度作为网络学习的标签，

在步骤S32中，根据输入至所述Flownet-Simple模型中的每一张图片和该图片所对应的标签，计算已有神经网络参数的梯度，并利用梯度下降法对所述神经网络参数进行更新，直到神经网络收敛。

在本发明的一种优选的实施方式中，所述视频抽帧处理为均匀抽帧处理，所述均匀抽帧处理指的是抽帧的频率一定，例如：以每秒5帧对视频进行取帧，这样可以更全面的获取到视频数据的特征。

举个例子：在对所述Flownet-Simple模型进行训练之前找到6000个小视频作为数据集，然后根据抖动程度分为抖动、过渡和不抖动三类(可选的分为抖动和不抖动两类)，并且对每个视频数据进行标注(标注为抖动或者过渡或者不抖动)，再从标注后的数据集中选取350个作为测试集；

在对测试集数据进行预处理，例如：然后以每秒5帧对视频进行取帧，接着随机抽取连续的15帧为每一组(抽取多组)，并将每帧图像缩小到最小边为256，最后对每帧图像统一剪裁成边长224的正方形。

利用所述Flownet-Simple模型(光流神经网络，直接将输入的一对图片叠加在一起，让它们通过一系列只有卷积层的网络，我们称之为Flownet-Simple)作为基础网络结构，训练时，对输入的每一组视频帧(15张图片)和其对应的抖动程度(之前进行了标注)作为网络学习的标签，对输入的每一张图片和对应的标签，计算对已有神经网络参数的梯度，并利用神经网络训练所常用的梯度下降法，进行参数更新，直到网络收敛，从而获得所述分类模型。

视频发生抖动时的最显著特征就是帧与帧之间会发生整体的位移，因此目前大多数检测方法都是围绕着如何检测帧之间的位移进行的，如特征点匹配法、光流法、块匹配法及灰度投影法等。只能通过局部相邻帧之间的位移来判断视频是否抖动，在部分场景(如镜头切换，视频特效等)会容易判断失误，并且缺少对视频整体的分析。

而本发明中利用的所述分类模型克服现有技术中的视频抖动检测方法只能通过局部相邻帧之间的位移来判断视频是否抖动，在部分场景(如镜头切换，视频特效等)会容易判断失误，并且缺少对视频整体的分析，造成检测准确度低下的问题。

如图1所示，在本发明的一种优选的实施方式中，所述方法还包括：步骤S13，在完成对所述输入视频的分类后，所述自动识别晃动视频的方法还包括：过滤抖动视频。

在上述方案中，所述分类模型可以对输入其中的视频数据进行分类，例如分成抖动或者过渡或者不抖动；然后根据所述分类模型的输出结果对视频数据进行筛选，从而将抖动视频和过渡视频过滤掉，只留下不抖动视频。这样就需要过多的人工干预，直接过滤掉不合格的视频，输入不抖动视频，也有效地提高了工作效率。

在本发明的一种优选的实施方式中，在所述预处理过程中，通过多种图像裁剪方式进行所述视频帧图像裁剪处理，以获取多种所述预处理后的视频数据。

在上述方案中，为了是的训练后的所述分类模型的分类准确度更高，在收集的训练所需的视频数据不变的情况下，可以通过不同的裁剪方式来获得不同的所述预处理后的视频数据，这样就丰富了训练所需的视频数据，有助于提高分类准确度。当然对于抽取的同一组的视频帧，裁剪的方式保持是统一的，不同组的视频帧。

举例而言，抽取了15帧的视频数据组A，通过第一种裁剪的方式获得视频数据组A1；还可以通过第二种裁剪的方式对其进行处理获得视频数据组A2；还可以通过第三种裁剪的方式对其进行处理获得视频数据组A3；等等，但是同一组的视频数据组A1是通过同一种裁剪的方式进行处理的。

图4是根据一示例性实施例示出的一种自动识别晃动视频的系统的结构示意图，所述系统包括：

接收模块，被配置于接收输入视频；

在上述方案中，输入视频为待分类的视频，例如用户上传是网站的小视频，网站需要对该小视频的质量进行检测和筛选，则首先需要接收该小视频；

在上述方案中，利用分类模型对该小视频进行分类，例如分类成：抖动视频，为了提高分类的准确度，防止视频本身的如镜头切换，视频特效等因素的影响，本发明利用所述Flownet-Simple模型作为基础网络结构进行训练得到所述分类模型，该分类模型可以克服上述因素的影响，有效地提高分类的准确度。

在本发明的一种优选的实施方式中，所述分类模型的生成步骤为：

在上述方案中，为所述分类模型训练的一个有效地实施例：需要收集一些训练所需的视频数据，然后进行分类，当然分类后可以在每个视频上标注分类的结果，从而方便对该视频的分类进行获取；然后需要对视频数据进行一些基本处理，比如视频抽帧，将其处理成一帧一帧的图像，然后为了方便利用该图像进行模型训练，需要将其裁剪成统一的大小；再将Flownet-Simple模型作为基础网络结构，然后利用统一裁剪后的图像数据对该模型进行训练以获得分类模型。

在本发明的一种优选的实施方式中，对所述Flownet-Simple模型进行训练的步骤包括：

在对测试集数据进行预处理，例如：然后以每秒5帧对视频进行取帧，接着随机抽取连续的15帧为每一组(抽取多组)，并将每帧图像缩小到最小边为256，最后对每帧图像统一剪裁成边长224的正方形；

利用所述Flownet-Simple模型(光流神经网络，直接将输入的一对图片叠加在一起，让它们通过一系列只有卷积层的网络，我们称之为Flownet-Simple)作为基础网络结构，训练时，对输入的每一组视频帧(15张图片)和其对应的抖动程度(之前进行了标注)作为网络学习的标签，对输入的每一张图片和对应的标签，计算对已有神经网络参数的梯度，并利用神经网络训练所常用的梯度下降法，进行参数更新，直到其网络收敛，从而获得所述分类模型。

而本发明系统中利用的所述分类模型克服现有技术中的视频抖动检测系统只能通过局部相邻帧之间的位移来判断视频是否抖动，在部分场景(如镜头切换，视频特效等)会容易判断失误，并且缺少对视频整体的分析，造成检测准确度低下的问题。

在本发明的一种优选的实施方式中，所述系统还包括：过滤模块，被配置于过滤抖动视频和过渡视频。

在上述方案中，所述分类模型可以对输入其中的视频数据进行分类，例如分成抖动或者过渡或者不抖动；然后所述过滤模块根据所述分类模型的输出结果对视频数据进行筛选，从而将抖动视频和过渡视频过滤掉，只留下不抖动视频。这样就需要过多的人工干预，直接过滤掉不合格的视频，输入不抖动视频，也有效地提高了工作效率。

如图5所示，本发明还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述自动识别晃动视频方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有指令，该指令用于使得机器执行本申请上述任一项权利要求1-6所述的自动识别晃动视频的方法。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种自动识别晃动视频的方法，其特征在于，所述方法包括：

接收输入视频；以及

利用分类模型对所述输入视频进行分类；其中，所述分类模型是通过将Flownet-Simple模型作为基础网络结构进行训练所得；

其中，所述分类模型的生成步骤为：

2.根据权利要求1所述的自动识别晃动视频的方法，其特征在于，对所述Flownet-Simple模型进行训练的步骤包括：

3.根据权利要求1所述的自动识别晃动视频的方法，其特征在于，所述视频抽帧处理为均匀抽帧处理。

4.根据权利要求1所述的自动识别晃动视频的方法，其特征在于，在完成对所述输入视频的分类后，所述自动识别晃动视频的方法还包括：过滤抖动视频和过渡视频。

5.根据权利要求1所述的自动识别晃动视频的方法，其特征在于，在所述预处理过程中，通过多种图像裁剪方式进行所述视频帧图像裁剪处理，以获取多种所述预处理后的视频数据。

6.一种自动识别晃动视频的系统，其特征在于，所述系统包括：

接收模块，被配置于接收输入视频；

所述分类模型是通过将Flownet-Simple模型作为基础网络结构进行训练所得；

其中，所述分类模型的生成步骤为：

7.根据权利要求6所述的自动识别晃动视频的系统，其特征在于，对所述Flownet-Simple模型进行训练的步骤包括：

8.根据权利要求6所述的自动识别晃动视频的系统，其特征在于，所述视频抽帧处理为均匀抽帧处理。

9.根据权利要求6所述的自动识别晃动视频的系统，其特征在于，所述系统还包括：过滤模块，被配置于过滤抖动视频和过渡视频。

10.根据权利要求6所述的自动识别晃动视频的系统，其特征在于，在所述预处理过程中，通过多种图像裁剪方式进行所述视频帧图像裁剪处理，以获取多种所述预处理后的视频数据。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的自动识别晃动视频的方法的步骤。

12.一种电子设备，其特征在于，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的自动识别晃动视频的方法的步骤。