CN107180074A

CN107180074A - 一种视频分类方法及装置

Info

Publication number: CN107180074A
Application number: CN201710211426.5A
Authority: CN
Inventors: 刘楠
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2017-09-19

Abstract

本发明实施例提供了一种视频分类方法及装置，所述方法包括：获取视频文件；提取所述视频文件中各个镜头的关键帧，得到多个视频帧；针对每个视频帧，确定该视频帧的类别；统计所有视频帧的类别和每个视频帧的时长；根据统计结果，将所述视频文件进行分类。通过本发明实施例提供的视频分类方法及装置，可以实现及时对网站上的视频进行分类，提高用户体验，节约了人力。

Description

一种视频分类方法及装置

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频分类方法及装置。

背景技术

随着互联网技术的飞速发展，尤其是移动互联网技术的发展，视频网站应运而生。区别于传统的电视媒体，基于流量的网络媒体更具有互动性。用户不再受时间和地域的限制，可以选择在任意时间、任意地点，观看视频网站上的节目内容。当越来越多的用户倾向于在视频网站上观看视频时，用户对于视频网站上视频内容的质量要求也越来越高。

视频网站上的视频种类繁多，内容丰富，除了具有传统电视媒体上播放的视频节目以外，还引进了来自于不同国家的视频内容，甚至包括网络用户自行上传的原创内容。这些视频内容质量参差不齐，为了保证视频内容的高质量，并且满足不同用户的需求，需要对视频网站上的视频内容进行分类和分级，为用户的观看提供便利。

现有技术中，对于视频内容的分类和分级，需要人工甄别和审核，去除敏感或者非法的内容，并对这些视频及时进行线下处理，常见的视频类别可以分为：普通视频、动漫视频、广告视频等。但视频网站上的视频量巨大，如果全部需要人工甄别和审核，不仅需要耗费极大的人力，还会导致不能及时对网站上实时播出的视频内容进行分类的问题。

发明内容

本发明实施例的目的在于提供一种视频分类方法及装置，以实现及时对网站上的视频进行分类，提高用户体验，节约了人力的目的。具体技术方案如下：

本发明实施例提供了一种视频分类方法，所述方法包括：

获取视频文件；

提取所述视频文件中各个镜头的关键帧，得到多个视频帧；

针对每个视频帧，确定该视频帧的类别；

统计所有视频帧的类别和每个视频帧的时长，得到统计结果；

根据统计结果，将所述视频文件进行分类。

可选的，所述提取所述视频文件中各个镜头的关键帧，得到多个视频帧，包括：

将所述视频文件通过镜头分割提取关键帧，得到多个视频帧。

将所述视频文件中各个镜头按照预设间隔提取关键帧，得到多个视频帧。

可选的，所述针对每个视频帧，确定该视频帧的类别，包括：

将每个视频帧输入到预先训练的分类器中，得到该视频帧的类别；其中，预先训练的分类器是通过收集多个视频帧和对应的类别信息，采用误差反向传播神经网络算法，得到的分类网络模型。

可选的，所述统计所有视频帧的类别和每个视频帧的时长，包括：

统计属于相同类别的视频帧的数量和每个视频帧的开始时间、结束时间。

可选的，所述根据统计结果，将所述视频文件进行分类，包括：

比较不同类别的视频帧的数量值，得到比较结果；

根据比较结果，将所述视频文件进行分类。

可选的，所述根据比较结果，将所述视频文件进行分类,包括：

若第一类别的视频帧的数量值大于第二类别的视频帧的数量值，则所述视频文件属于第一类别，统计所述第一类别每个视频帧的时长，标注在所述视频文件中，完成所述视频文件的分类；

若第一类别的视频帧的数量值小于第二类别的视频帧的数量值,则所述视频文件属于第二类别，统计所述第二类别每个视频帧的时长，标注在所述视频文件中，完成所述视频文件的分类。本发明实施例提供了一种视频分类装置，所述装置包括：

获取模块，用于获取视频文件；

提取模块，用于提取所述视频文件中各个镜头的关键帧，得到多个视频帧；

第一分类模块，用于针对每个视频帧，确定该视频帧的类别；

统计模块，用于统计所有视频帧的类别和每个视频帧的时长，得到统计结果；

第二分类模块，用于根据统计结果，将所述视频文件进行分类。

可选的，所述提取模块，具体用于将所述视频文件通过镜头分割提取关键帧，得到多个视频帧。

可选的，所述提取模块，具体用于将所述视频文件中各个镜头按照预设间隔提取关键帧，得到多个视频帧。

可选的，所述第一分类模块，具体用于将每个视频帧输入到预先训练的分类器中，得到该视频帧的类别；其中，预先训练的分类器是通过收集多个视频帧和对应的类别信息，采用误差反向传播神经网络算法，得到的分类网络模型。

可选的，所述统计模块，具体用于统计属于相同类别的视频帧的数量和每个视频帧的开始时间、结束时间。

可选的，所述第二分类模块，包括：

比较子模块，具体用于比较不同类别的视频帧的数量值，得到比较结果；

分类子模块，具体用于根据比较结果，将所述视频文件进行分类。

可选的，所述分类子模块，具体用于若第一类别的视频帧的数量值大于第二类别的视频帧的数量值，则所述视频文件属于第一类别，统计所述第一类别每个视频帧的时长，标注在所述视频文件中，完成所述视频文件的分类；

若第一类别的视频帧的数量值小于第二类别的视频帧的数量值,则所述视频文件属于第二类别，统计所述第二类别每个视频帧的时长，标注在所述视频文件中，完成所述视频文件的分类。

本发明实施例提供的视频分类方法及装置，提取视频文件中各个镜头的关键帧，得到多个视频帧，并针对每个视频帧，确定该视频帧的类别，统计所有视频帧的类别和每个视频帧的时长；根据统计结果，将视频文件进行分类。实现视频文件的分类，可以实现及时对网站上的视频进行分类，提高了用户体验，节约了人力。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例视频分类方法的流程图；

图2为本发明实施例在实际应用场景中的流程图；

图3为本发明实施例视频分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高用户体验，节约人力，实现及时对网站上的视频进行分类，本发明实施例提供了一种视频分类方法及装置，以下分别进行详细说明。

图1为本发明实施例视频分类方法的流程图，包括如下步骤：

步骤101，获取视频文件。

本发明实施例提供的方法可以应用于电子设备。具体地，该电子设备可以为台式计算机、智能移动终端、便携式计算机等。

电子设备获取视频文件的方式有多种，例如，可以通过合作模式直接在交互式网络平台上获取视频文件；利用爬虫工具遍历交互式网络平台上的内容，获取视频文件；利用硬件解析工具导出数字电视机顶盒中的视频文件。在本步骤中，电子设备获取的视频文件包括不同电视台、多个频道的视频文件，还可以包括用户原创的视频内容，这些视频内容五花八门，可能中间包含有敏感或者非法内容，所以需要对电子设备获取到的视频文件进行分类，方便用户进行观看。

步骤102，提取视频文件中各个镜头的关键帧，得到多个视频帧。

将步骤101中获取得到的视频文件进行处理，提取视频文件的关键帧。一个视频文件是有无数个镜头组成的，一个镜头由多帧图像组成，各帧图像之间会有相当多的重复信息，所以通常选取能够描述镜头主要内容的帧，作为关键帧，来简洁的表达一个镜头，所以提取关键帧的目的是选取具有代表性的关键帧代表一个镜头，减小后期视频处理的计算量。

可选的，一种提取视频文件中各个镜头的关键帧的方法为，将视频文件通过镜头分割提取关键帧，得到多个视频帧。镜头分割的目的是将视频文件进行镜头检测，镜头检测的目的是将视频文件中相似的视频帧进行聚类、合并处理为一个镜头，将视频文件分割成以镜头为单位的片段，得到多个视频帧。通过镜头分割的方法，将视频文件中相似的视频帧进行聚类、合并处理，选出代表这个片段的镜头，并提取各镜头的关键帧，可以达到减小整体计算量的目的。

将得到的多个视频帧可以进行如下的进一步处理：第一步，绘制图像三原色光模式(color model，RGB)值图。通过现有的计算机程序软件，例如Java等，将输入的视频帧中的图像进行RGB值转换。例如，可以用计算机软件Raster获取视频帧每一像素点的RGB值，由此计算每一个输入的视频帧的RGB值。并且，可以利用这些RGB值，采用绘图软件OpenCV或者Matlab绘制出每个视频帧的颜色直方图；第二步，计算欧式距离。计算时域相邻帧的颜色直方图之间的欧式距离，即直方图上点与点之间的直线距离；如果欧式距离值大于预先设定的第一阈值Th1，则认为镜头发生了切变，记录当前帧的第一开始位置e1和第一结束位置s1之间的所有视频帧为一个镜头；计算当前帧与当前帧之前的n帧之间的直方图的欧式距离，如果大于预先设定的第二阈值Th2，则认为在此处发生了镜头渐变，记录当前帧的第二开始位置e2和第二结束位置s2之间的所有视频帧为一个镜头。如果上述条件都不满足，则确定当前帧处于一个镜头内部，继续检测镜头分割点，重复上述第一步和第二步，直到完成所有视频帧的镜头检测和关键帧提取。

可以根据预先设定的帧数m，电子设备在镜头中抽取预先设定的帧数m对应的帧作为代表帧，计算抽取视频帧的间隔gap＝(e-s)/(m+1)，e代表当前帧的开始位置，s代表当前帧的结束位置，从当前帧开始以gap为间隔抽取视频帧，作为关键帧。

可选的，另一种提取视频文件中各个镜头的关键帧的方法为，将视频文件中各个镜头按照预设间隔提取关键帧，得到多个视频帧。以预设时间间隔T为间隔，每隔T秒在各个镜头中抽取一帧关键帧，记录每个抽取的关键帧在视频文件中的位置，以及同上一个镜头的抽取间隔。以预设时间间隔T提取关键帧的方法相对于镜头分割的方法提取关键帧，可以节约计算时间，提高效率，但是等时间间隔的方法有可能提取的镜头不能精确的代表某个片段，因为每个片段的时间不一样，所以按照等时间间隔提取可能会提取到相同片段内的镜头。

步骤103，针对每个视频帧，确定该视频帧的类别。

电子设备在对视频文件进行处理之后，得到多个视频帧。为了将这些视频帧进行分类，需要确定这些视频的类别。

作为本发明实施例的一种实施方式，电子设备确定视频帧的类别一种具体的方法为，将每个视频帧输入到预先训练的分类器中，得到该视频帧的类别；其中，预先训练的分类器是通过收集多个视频帧和对应的类别信息，采用误差反向传播神经网络算法，得到的分类网络模型。将视频帧进行分类的具体过程跟选择的分类器有关，常见的分类器有决策树分类器、选择树分类器等，通过将数据按照不同的标准或者分类属性进行分类，我们选取深度学习分类器GoogLeNet将上述视频帧进行分类。其中，预先训练的分类器是通过预先收集大量的视频帧，其中包括各个类别的，以我们通常视频分的类别为例，预先收集大量视频帧中，可能包括正常视频帧、情色视频帧、动漫视频帧、情色动漫视频帧，这些视频帧都有对应的类别信息，将这些视频帧和类别信息一起输入到caffe开源的深度学习框架进行模型训练。具体的训练过程为通过误差反向传播神经网络算法将视频帧分类。每个视频帧样本作用于网络时，权重及阈值得到一次更新，重复若干次，直到误差函数到达全局最小值，将误差函数到达全局最小值与对应的视频帧类别信息对应起来，结束训练。通过重复上述过程，可以得到用于分类的网络模型。

将步骤102中得到的多个视频帧，输入到训练好的模型中，按照同样的模型结构以及训练好的参数，依次进行卷积、修正线性单元等操作，得到每个类别的置信度概率，直到完成分类。例如，正常视频帧类别，情色视频帧类别、正常动漫视频帧类别、情色动漫视频帧类别的置信度概率输出分别为P1、P2、P3、P4，选取P1、P2、P3、P4中最大值对应的类别，为视频帧所对应的类别。假如输入的某个未知的视频帧的四个类别的置信度概率输出P1、P2、P3、P4中P3的数值最低，则该视频帧为正常动漫视频帧。

步骤104，统计所有视频帧的类别和每个视频帧的时长，得到统计结果。

本步骤中，将步骤103中得到的各个视频帧的类别信息进行统计，统计所有视频帧的类别和每个视频帧的时长，统计的目的是为了将每个视频帧的时长和类别信息标注在视频文件中。

作为本发明实施例的一种实施方式，电子设备统计所有视频帧的类别和每个视频帧的时长的一种具体方法为，统计属于相同类别的视频帧的数量和每个视频帧的开始时间、结束时间。统计所有从步骤102中得到视频帧的类别，统计的方法可以为统计相同类别下的视频帧的数量，根据步骤102例子中得到的四个类别，分别统计每个类别的视频帧的数量，可以确定每个类别视频帧的分布；统计每个视频帧的开始时间、结束时间，进而可以得到每个视频帧的时长。

对于一个视频文件来说，对于各个视频帧的处理是按照时间序列处理的，并且在处理每一个视频帧的时候，会记录上一个视频帧处理的过程，在统计视频帧的时长时，具体方法还包括：如果某个类别视频帧之前出现的是另一个类别的视频帧，例如，在正常视频帧之前出现的是情色视频帧或者情色动漫视频帧，则记录这个情色视频帧或者情色动漫视频帧的开始位置，如果在这个情色视频帧或者情色动漫视频帧之前出现的也是相同类别的视频帧，则将该视频帧的时长累计；如果出现正常视频帧，结束之前对情色或者情色动漫视频帧的统计，开始统计正常视频帧的时长，直到出现另一类别的视频帧；如果两个情色视频帧段落之间有短暂的正常视频帧，假如时长小于预设时间长度Th，预设时间长度可以按照用户的需求任意设定，则将这两段情色视频帧段落合并为一个段落，记录第一个段落的位置，视频段落长度为这两个情色视频帧段落之和加上中间的正常视频帧段落的长度。统计每个类别视频帧的时长，将每个类别视频段落的数量和总长度记录下来，得到统计结果。

步骤105，根据统计结果，将视频文件进行分类。

将统计得到的每个类别视频段落的数量和总长度的统计结果，根据这些统计结果对视频文件进行进一步处理。根据统计得到的每个类别视频的段落和每个段落的时长，可以将视频文件标记为带有分段类别的视频文件，用户可以一目了然的看出视频文件中包含有哪些类别的视频段落以及相应的段落时长。

作为本发明实施例的一种实施方式，根据统计结果，将视频文件进行分类的一种具体方法为，比较不同类别的视频帧的数量值，得到比较结果。将每个类别的视频帧的数量值进行比较，比较方法为若第一类别的视频帧的数量值大于第二类别的视频帧的数量值，则视频文件属于第一类别，统计第一类别每个视频帧的时长，标注在视频文件中，完成视频文件的分类；若第一类别的视频帧的数量值小于第二类别的视频帧的数量值,则视频文件属于第二类别，统计第二类别每个视频帧的时长，标注在视频文件中，完成视频文件的分类。举例说明说下：

对于各个类别的视频帧，可以通过统计各个类别视频帧的数量进行第一步比较，假如第一类别的视频帧的数量为N1，第二类别的视频帧的数量为N2，如果N1>N2，则认为该视频属于第一类别，否则属于第一类别。第一类别可以为普通视频，其中包括正常视频帧和情色视频帧，第一类别可以为动漫视频，其中包括正常动漫视频帧和情色动漫视频帧。通过以上的方法可以将视频分为两大类。

对于已经分成两大类的视频文件，还可以具体按照级别分为适合不同人群观看的视频，假设1至12岁的未成年人适合观看的视频等级为一级，12岁至18岁的未成年人适合观看的视频等级为二级，18岁以上的成年人适合观看的视频等级为三级。根据统计结果中的每个类别视频段落的数量和总长度，如果视频中不含有情色视频帧和情色动漫视频帧，即该类别视频段落的数量为0，则认为该视频属于一级视频；如果包含情色视频帧和情色动漫视频帧的数量小于一个预设阈值，该预设阈值可以根据用户的需求任意设定，则认为该视频属于二级视频；都不满足上述两个条件的为三级视频。本发明实施例提供的视频分类方法，通过提取视频文件中各个镜头的关键帧，得到多个视频帧，并将每个视频帧，输入到已经训练好的分类器中，进行模型重训，确定该视频帧的类别，统计所有视频帧的类别和每个视频帧的时长；根据统计结果，每个视频帧的类别和时长都标注在视频文件中，将视频文件进行分类。本发明实施例提供的方法，可以实现对视频文件的精确分类，并且实时对网站上的视频文件进行分类，方便用户进行观看，提高了用户体验，同时全程由电子设备完成分类，节约了人力。

作为本发明实施例的一种具体实施方式，在实际应用场景中，本发明实施例提供的视频文件分类方法应用如图2所示，包括：

步骤201，获取视频文件。

在实际应用中，获取到的视频文件可能来自于不同的视频播放平台或者原创内容，这些视频文件根据自身来源和不同的画质，例如高清、超清、流畅画质等，会被电子设备分为不同的信道，对从不同的信道获取的视频文件进行分类处理，这里以获取到的一个视频文件为例，进行说明，多个视频文件的分类方法相同。

步骤202，提取视频文件中各个镜头的关键帧，得到多个视频帧。

一个视频文件是由多个镜头组成的，将视频文件中的每个镜头进行关键帧提取，找出可以代表这个镜头的关键帧，得到多个镜头的视频帧。

步骤203，将多个视频帧进行分类。

将步骤202中得到的多个视频帧，输入到训练好的模型中，按照同样的模型结构以及训练好的参数，依次进行卷积、修正线性单元等操作，得到每个类别的置信度概率，直到完成分类。训练模型和步骤103中内容相同。

步骤204，统计所有视频帧的类别和每个视频帧的时长，得到统计结果。

将步骤203中得到的各个视频帧的类别信息进行统计，统计所有视频帧的类别和每个视频帧的时长，统计的目的是为了将每个视频帧的时长和类别信息标注在视频文件中。

步骤205，根据统计结果，完成视频文件的分类。

统计每个类别视频段落的数量和总长度并根据这些统计结果对视频文件进行进一步处理。根据统计得到的每个类别视频的段落和每个段落的时长，可以将视频文件标记为带有分段类别的视频文件，用户可以一目了然的看出视频文件中包含有哪些类别的视频段落以及相应的段落时长。

本发明还提供了一种视频分类装置，装置的结构示意图如图3所示，包括：获取模块301，用于获取视频文件。

提取模块302，用于提取视频文件中各个镜头的关键帧，得到多个视频帧。

第一分类模块303，用于针对每个视频帧，确定该视频帧的类别。

统计模块304，用于统计所有视频帧的类别和每个视频帧的时长，得到统计结果。

第二分类模块305，用于根据统计结果，将视频文件进行分类。

可选的，提取模块302，具体用于将视频文件通过镜头分割提取关键帧，得到多个视频帧。

可选的，提取模块302，具体用于将视频文件中各个镜头按照预设间隔提取关键帧，得到多个视频帧。

可选的，第一分类模块303，具体用于将每个视频帧输入到预先训练的分类器中，得到该视频帧的类别；其中，预先训练的分类器是通过收集多个视频帧和对应的类别信息，采用误差反向传播神经网络算法，得到的分类网络模型。

可选的，统计模块304，具体用于统计属于相同类别的视频帧的数量和每个视频帧的开始时间、结束时间。

可选的，第二分类模块305，包括：

比较子模块，具体用于比较不同类别的视频帧的数量值，得到比较结果。

分类子模块，具体用于根据比较结果，将视频文件进行分类。

可选的，分类子模块，具体用于若第一类别的视频帧的数量值大于第二类别的视频帧的数量值，则视频文件属于第一类别，统计第一类别每个视频帧的时长，标注在视频文件中，完成视频文件的分类；

若第一类别的视频帧的数量值小于第二类别的视频帧的数量值,则视频文件属于第二类别，统计第二类别每个视频帧的时长，标注在视频文件中，完成视频文件的分类。

需要说明的是，本发明实施例的装置是应用上述视频分类方法的装置，则上述视频分类方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

获取视频文件；

提取所述视频文件中各个镜头的关键帧，得到多个视频帧；

针对每个视频帧，确定该视频帧的类别；

根据统计结果，将所述视频文件进行分类。

2.根据权利要求1所述的方法，其特征在于，所述提取所述视频文件中各个镜头的关键帧，得到多个视频帧，包括：

3.根据权利要求1所述的方法，其特征在于，所述提取所述视频文件中各个镜头的关键帧，得到多个视频帧，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述针对每个视频帧，确定该视频帧的类别，包括：

5.根据权利要求1所述的方法，其特征在于，所述统计所有视频帧的类别和每个视频帧的时长，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据统计结果，将所述视频文件进行分类，包括：

比较不同类别的视频帧的数量值，得到比较结果；

根据比较结果，将所述视频文件进行分类。

7.根据权利要求6所述的方法，其特征在于，所述根据比较结果，将所述视频文件进行分类,包括：

8.一种视频分类装置，其特征在于，所述装置包括：

获取模块，用于获取视频文件；

9.根据权利要求8所述的装置，其特征在于，所述提取模块，具体用于将所述视频文件通过镜头分割提取关键帧，得到多个视频帧。

10.根据权利要求8所述的装置，其特征在于，所述提取模块，具体用于将所述视频文件中各个镜头按照预设间隔提取关键帧，得到多个视频帧。

11.根据权利要求8至10任一项所述的装置，其特征在于，所述第一分类模块，具体用于将每个视频帧输入到预先训练的分类器中，得到该视频帧的类别；其中，预先训练的分类器是通过收集多个视频帧和对应的类别信息，采用误差反向传播神经网络算法，得到的分类网络模型。

12.根据权利要求8所述的装置，其特征在于，所述统计模块，具体用于统计属于相同类别的视频帧的数量和每个视频帧的开始时间、结束时间。

13.根据权利要求12所述的装置，其特征在于，所述第二分类模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述分类子模块，具体用于若第一类别的视频帧的数量值大于第二类别的视频帧的数量值，则所述视频文件属于第一类别，统计所述第一类别每个视频帧的时长，标注在所述视频文件中，完成所述视频文件的分类；