CN110457525A

CN110457525A - 一种短视频分类方法

Info

Publication number: CN110457525A
Application number: CN201910737582.4A
Authority: CN
Inventors: 孙伟芳
Original assignee: CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Current assignee: CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-11-15
Anticipated expiration: 2039-08-12
Also published as: CN110457525B

Abstract

本发明是一种短视频分类方法，该方法包括以下步骤：一、视频切变帧提取：提取视频不同场景画面的帧，先寻找切变镜头帧以及渐变镜头帧，然后抽取镜头帧时间位置的往后N秒的场景帧；二、图片物体识别：使用现有架构中的现有的物体识别的模型，使用以卷积神经网络为核心基础的算法进行训练保存模型预测图片；三、基于物体识别的视频分类算法：由步骤一、二两部分的结果输入，并根据输入结果进行视频分类的启发式算法。本发明的优点：用于特色短视频分类，计算复杂性和时间较小，占用资源少，可满足不同用户对于短视频类别分类需求，解决了视频数据集搜集、保存、处理过程中的问题。

Description

一种短视频分类方法

技术领域

本发明涉及的是一种短视频分类方法，属于电子信息技术领域。

背景技术

随着计算机硬件、软件技术的不断升级，各类数码摄像设备层出不穷，通信技术屡次突破性发展，视频信息的数量和传播速度更是飞速增长。当数据海量增长时，为了更有效的进行视频信息的管理、浏览和搜索，需要一种方法，能够快速有效地对视频进行分类。

现有技术中存在的短视频分类的方法有很多，自动分类方法是其中之一。自动分类方法主要是对每个视频提取一系列和视频或者文本标题相关的特征，然后通过机器学习算法训练出分类器，在特征和视频类型之间建立对应关系。

自动分类方法主要可通过两个角度对视频进行分类：视频内容识别和视频标题文本。针对视频内容识别的分类方法往往由于视频的图像信息太多而复杂度过高，特征提取也很不容易，导致分类算法正确率不高，且大部分只能处于实验室阶段，无法形成产品推向市场。针对视频标题文本的文本分类虽然在复杂度和正确率上面能有很大程度的改善，但是标题文本跟视频的匹配程度是更大的问题，大部分视频的标题并不能很好的概括视频全部的内容，且简短的标题文本很多时候会造成歧义等等，这些都会导致分类错误。

随着深度学习技术的发展，越来越多的学者将深度学习使用到视频分类领域，正确率有了很大提升，但除了以上两点问题不能解决之外，还有深度学习的数据集问题，深度学习是一门数据驱动的技术，需要大量的标好标签的视频数据。这类标好类目标签的视频资源极少，只有在学术界可能会存在1、2个，但其中视频的类目标签往往不是我们所需要的或是过时的。

发明内容

本发明提出的是一种短视频分类方法，其目的旨在克服现有技术存在的上述不足，提供一种灵活性更强、复杂度不高、数据集鲁棒性强且正确率高的短视频分类方法。

本发明的技术解决方案：一种短视频分类方法，该方法包括以下步骤：

一、视频切变帧提取：提取视频不同场景画面的帧，先寻找切变镜头帧以及渐变镜头帧，然后抽取镜头帧时间位置的往后N秒的场景帧；

二、图片物体识别：使用现有架构中的现有的物体识别的模型，使用以卷积神经网络为核心基础的算法进行训练保存模型预测图片；

三、基于物体识别的视频分类算法：由步骤一、二两部分的结果输入，并根据输入结果进行视频分类的启发式算法。

优选的，所述的步骤一中寻找切变镜头帧以及渐变镜头帧使用像素帧差法或者直方图帧差法，N＝4～6。

优选的，所述的步骤二中的现有架构pytorch、caffe或tensorflow，算法为RegionCNN、Faster R-CNN、YOLO或SSD。

优选的，所述的步骤二中的训练保存模型预测图片，训练过程包括两阶段共四步：

①第一阶段：前向传播阶段

1、从样本集中取一个样本，输入网络，

2、计算相应的实际输出，

在此阶段信息从输入层经过逐级的变换，传送到输出层，这个过程也是网络在完成训练之后正常执行时执行的过程，

②第二阶段：后向传播阶段

3、计算实际输出与相应的理想输出的差，

4、按照极小化误差的方法调整权值矩阵。

优选的，所述的步骤三基于物体识别的视频分类算法，包括：

1)将步骤一提取出切变镜头帧以及渐变镜头帧的时间位置抽取的场景帧组成一个切变镜头集f，

2)根据步骤二中训练出来的模型预测1)中的切变镜头集f，得到各自的物体识别结果，

3)将切变镜头集f帧的各自的物体识别结果按匹配率百分比排序，百分比大于训练中设定值的结果输入，

4)设每个种类的视频的标签为1、2、3、4……，每一帧计数所有物体中属于第一类的物体数n1，属于第二类的物体数n2，属于第三类的物体数n3，以此类推，最后输出物体计数最大的那一视频类标签l，代表这一帧表达的视频种类，

5)输出f帧中表达同一类标签最多的帧数记为f1且f1>f/2的那一类代表该视频的类标签。

优选的，所述的百分比大于50％的结果输入。

优选的，所述的f1<f/2,且前三个不同标签的帧数f1、f2、f3差值相近时，则该视频为vlog类视频，vlog类视频是指包含多种视频类型物体的短视频。

优选的，所述的短视频的时长为t秒时，舍去前面一部分的导入和后面部分的字幕信息，取中间t0秒视频段进行分析。

本发明的优点：1)此方法用于特色短视频分类，相比较其它视频分类方法计算复杂性和时间较小，占用资源少；

2)此方法可调整图片识别出的物体组合与视频标签之间的关系，可满足不同用户对于短视频类别分类需求；

3)此方法训练和实施的过程中，不需要直接输入带有标签的大量视频数据集，不需要提取视频特征等过程，只需要训练图片物体识别模型，解决了视频数据集搜集、保存、处理过程中的问题。

附图说明

图1是本发明短视频分类方法的流程图。

具体实施方式

下面结合实施例和具体实施方式对本发明作进一步详细的说明。

实施例

如图1所示，一种短视频分类方法，该方法包括以下步骤：

一、视频切变帧提取：提取视频不同场景画面的帧，利用像素帧差法或者直方图帧差法寻找切变镜头帧以及渐变镜头帧，注意要抽取镜头帧时间位置的往后N(5s)秒左右的场景帧，确保取到每个场景下的有意义的画面帧。

视频的镜头边界主要分为两种：一种是切变镜头，指的是前一个镜头直接切入下一个镜头，镜头之间变化明显，也比较容易检测。另一种是渐变镜头，指的是前一个镜头通过几帧甚至几十帧缓慢过渡到下一个镜头，镜头之间变化缓慢，检测比较困难。这一领域有很多方法被提出，并取得了显著效果。像素帧差法，它采用前后相邻两帧的对应像素的色度并比较其差值来查找镜头边界。直方图帧差法，它采用度量临近帧之间直方图的差异来查找镜头的边界。

二、图片物体识别：使用现有架构pytorch、caffe、tensorflow等架构中的现有的物体识别的模型，进行训练保存模型预测图片。

图片物体识别指通过软件识别图片中的人物、物体和场景，深度学习在物体检测问题取得了非常好的成果，按照算法改进递进关系主要算法有Region CNN、Faster R-CNN、YOLO、SSD，这些算法的核心基础是卷积神经网络。

卷积神经网络是一种带有卷积结构的深度神经网络，卷积结构可以减少深层网络占用的内存量，其三个关键的操作，其一是局部感受野，其二是权值共享，其三是pooling层，有效的减少了网络的参数个数，缓解了模型的过拟合问题。卷积神经网络结构包括：卷积层，降采样层，全链接层。每一层有多个特征图，每个特征图通过一种卷积滤波器提取输入的一种特征，每个特征图有多个神经元。

训练过程包括四步：

①第一阶段：前向传播阶段

1、从样本集中取一个样本，输入网络，

2、计算相应的实际输出；在此阶段信息从输入层经过逐级的变换，传送到输出层，这个过程也是网络在完成训练之后正常执行时执行的过程，

②第二阶段：后向传播阶段

3、计算实际输出与相应的理想输出的差，

4、按照极小化误差的方法调整权值矩阵。

三、基于物体识别的视频分类算法：是本发明提出的核心方法，由上述两部分的结果输入，并根据输入结果进行视频分类的启发式算法。

本发明提出的方法可以根据图片中识别的物体组合来判断提取出某些特色视频。短视频类别有很多种，比如搞笑、美食、美妆、旅游、萌宠、亲子、体育、汽车等等。特色视频是指有某些视频内容具备特色物体组合的视频，举例如下：

美食类：人、汉堡、筷子、刀、叉、瓶子、杯子、碗、酒杯、勺子、香蕉、三明治、西兰花、热狗、甜甜圈、苹果、橘子、胡萝卜、蛋糕、披萨、餐桌等等。

体育类：人、飞盘、滑雪板、棒球手套、冲浪板、雪橇、各类体育球类、棒球棒、滑板、网球拍等等。

出差出行类：人或多人、雨伞、领带、背包、手提包、手提箱、自行车、摩托车、火车、小汽车、飞机、火车、船、交通信号灯、停止标识牌、长椅、消防栓、收费站等等。

美妆类：女人、唇膏、美妆蛋、镜子、各类化妆品、卷发棒、直板夹、吹风机、束发带、化妆刷等等。

Vlog类：包含多种视频类型物体的短视频。

除了以上列举的视频类之外，还有其它如萌宠、亲子等特色视频。

可设每个种类的视频标签为1,2,3,4……

基于物体识别的视频分类算法，包括：

1)通过第一步视频切变帧提取，提取出切变镜头帧以及渐变镜头帧的时间位置，抽取时间位置往后N(5s)秒的场景帧，组成一个切变镜头集f，

2)根据第二部图片物体识别中卷积神经网络(如SSD)训练出来的模型，预测1)中的切变镜头集f，得到各自的物体识别结果，

3)切变镜头集(f帧)的各自的物体识别结果，按匹配率百分比排序，百分比大于50％(可在训练中调整)的结果输入，

4)每一帧计数所有物体中属于美食类的物体数n1，属于运动类的物体数n2，属于旅游出行类的物体数n3，以此类推，最后输出物体计数最大的那一视频类标签l，代表这一帧表达的视频类，

5)输出f帧中表达同一类标签最多的帧数记为f1且f1>f/2的那一类代表该视频的类标签。如果f1<f/2,且前三个不同标签的帧数f1,f2,f3差值相差不多，则该视频可能为vlog类视频。

其中，为了使得整体方法的复杂度更低，产品化更容易，假设短视频的时长为t秒，舍去前面一部分的导入和后面部分的字幕信息，取中间t0秒视频段分析并不会影响整体短视频的类型判断。t和t0可以根据所需要分类的视频类型经验确定，5min短视频可取3min。

以上所述各部件均为现有技术，本领域技术人员可使用任意可实现其对应功能的型号和现有设计。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种短视频分类方法，其特征是该方法包括以下步骤：

2.如权利要求1所述的一种短视频分类方法，其特征是所述的步骤一中寻找切变镜头帧以及渐变镜头帧使用像素帧差法或者直方图帧差法，N＝4～6。

3.如权利要求1所述的一种短视频分类方法，其特征是所述的步骤二中的现有架构pytorch、caffe或tensorflow，算法为Region CNN、Faster R-CNN、YOLO或SSD。

4.如权利要求3所述的一种短视频分类方法，其特征是所述的步骤二中的训练保存模型预测图片，训练过程包括两阶段共四步：

①第一阶段：前向传播阶段

1、从样本集中取一个样本，输入网络，

2、计算相应的实际输出，

②第二阶段：后向传播阶段

3、计算实际输出与相应的理想输出的差，

4、按照极小化误差的方法调整权值矩阵。

5.如权利要求1所述的一种短视频分类方法，其特征是所述的步骤三基于物体识别的视频分类算法，包括：

6.如权利要求5所述的一种短视频分类方法，其特征是所述的百分比大于50％的结果输入。

7.如权利要求5所述的一种短视频分类方法，其特征是所述的f1<f/2,且前三个不同标签的帧数f1、f2、f3差值相近时，则该视频为vlog类视频，vlog类视频是指包含多种视频类型物体的短视频。

8.如权利要求1-7任一项所述的一种短视频分类方法，其特征是所述的短视频的时长为t秒时，舍去前面一部分的导入和后面部分的字幕信息，取中间t0秒视频段进行分析。