CN112560552B

CN112560552B - 视频分类的方法和装置

Info

Publication number: CN112560552B
Application number: CN201910912230.8A
Authority: CN
Inventors: 赵刚; 王坤铭; 龙长春
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2025-03-14
Anticipated expiration: 2039-09-25
Also published as: CN112560552A

Abstract

本申请提供了一种视频分类的方法和装置，该方法包括：从视频源接收视频；从所述视频中获取M个视频帧P₁，P₂，…，P_M以及M个相邻帧Q₁，Q₂，…，Q_M，其中，所述相邻帧Q₁为所述视频帧P₁的相邻视频帧，所述相邻帧Q₂为所述视频帧P₂的相邻视频帧，...，所述相邻帧Q_M为所述视频帧P_M的相邻视频帧；确定M个视频距离D₁，D₂，…，D_M，其中，视频距离D₁是视频帧P₁和相邻帧Q₁之间的汉明距离，视频距离D₂是视频帧P₂和相邻帧Q₂之间的汉明距离，...，视频距离D_M是视频帧P_M和相邻帧Q_M之间的汉明距离；将M个视频距离D₁，D₂，…，D_M分别与阈值进行比较，从而获得比较结果{H₁，H₂，...，H_M}；根据所述比较结果{H₁，H₂，...，H_M}确定所述视频所属的分类结果；根据所述分类结果对所述视频进行压缩，并发送至内容分发系统。

Description

视频分类的方法和装置

技术领域

本申请涉及计算机多媒体领域，尤其涉及视频分类的方法和装置。

背景技术

当前，实现视频直播和点播一般是由上传者上传视频源或者直播源至直/点播平台之后，再通过各大运营商的内容分发网络(Content Delivery Network,CDN)分发给需要观看这些视频源或者直播源的观看人群，而这其中使用CDN进行数据分发的运营商费用则是直/点播平台的主要支出，视频源或者直播源的文件大小以及视频流码率越大，直/点播平台的运营成本越高。因此，直/点播平台一般会通过视频分类算法，将视频源或者直播源分类为低动态视频和高动态视频，并对不同种类的视频进行不同码率的压缩，从而在不影响用户观看体验的情况下，尽可能的压缩视频文件的大小和视频流的码率，降低直/点播平台的运营成本。

视频分类算法在近年来发展迅速，例如使用支持向量机(Support VectorMachine,SVM)为基础的内容分类算法已经在多个场景应用。然而，AI视频分类算法中需要消耗大量的计算资源进行神经网络模型的训练以及预测，占用直/点播平台大量的系统资源，导致视频直播或点播的卡顿，降低用户的观看体验。

发明内容

本申请提供了一种视频分类的方法、装置以及相关设备，用于解决直/点播平台进行视频分类时需要消耗大量计算资源导致视频直播或点播卡顿、平台运营成本高等问题。

第一方面，提供了一种视频分类的方法，所述方法包括：

从视频源接收视频；

从所述视频中获取M个视频帧P₁,P₂,…,P_M以及M个相邻帧Q₁,Q₂,…,Q_M，其中，所述M的值为正整数，所述相邻帧Q₁为所述视频帧P₁的相邻视频帧，所述相邻帧Q₂为所述视频帧P₂的相邻视频帧，…，所述相邻帧Q_M为所述视频帧P_M的相邻视频帧；

确定M个视频距离D₁,D₂,…,D_M，其中，视频距离D₁是视频帧P₁和相邻帧Q₁之间的汉明距离，视频距离D₂是视频帧P₂和相邻帧Q₂之间的汉明距离，…，视频距离D_M是视频帧P_M和相邻帧Q_M之间的汉明距离；

将M个视频距离D₁,D₂,…,D_M分别与阈值进行比较，从而获得比较结果{H₁,H2,...,H_M}；

根据所述比较结果{H₁,H₂,...,H_M}确定所述视频所属的分类结果；

根据所述分类结果对所述视频进行压缩，并发送至内容分发系统。

在一实施方式中，根据所述比较结果{H₁,H₂,...,H_M}确定所述视频所属的分类结果，包括：对所述比较结果{H₁,H₂,...,H_M}进行统计，从而得到比较结果{H₁,H₂,...,H_M}中视频距离小于阈值的第一数量n₁，以及，比较结果{H₁,H2,...,H_M}中视频距离不小于所述阈值的第二数量n₂；根据第一数量n₁以及第二数量n₂确定所述视频所属的分类结果。

在一实施方式中，所述根据第一数量n₁以及第二数量n₂确定所述视频所属的分类结果，包括：在所述n₁与所述M之间的比例a₁不小于第一比例的情况下，将所述视频分类为低动态视频；在所述n₂与所述M之间的比例a₂不小于第二比例的情况下，将所述视频分类为高动态视频；在所述n₁与所述M之间的比例a₁小于所述第一比例，且所述n₂与所述M之间的比例a₂小于所述第二比例的情况下，将所述视频分类为混合视频，其中，所述混合视频的画面变化程度高于所述低动态视频，低于所述高动态视频。

在一实施方式中，所述阈值是根据两幅不相似的帧画面的视频距离大小而确定的值。

在一实施方式中，所述第一比例是根据低动态视频样本中，小于所述阈值的视频距离数量占总帧数M的比例确定的；所述第二比例是根据高动态视频样本中，不小于所述阈值的视频距离数量占总帧数的比例确定的。

在一实施方式中，所述相邻帧Q₁与所述视频帧P₁之间的时间间隔为t，所述相邻帧Q₂与所述视频帧P₂的时间间隔为t，…，所述相邻帧Q_M与所述视频帧P_M的时间间隔为t，其中，所述时间间隔t是根据所述视频的总时长确定的。

实施第一方面描述的方法，只需要占用直/点播平台服务器的少量系统资源，即可完成视频分类，并对不同种类的视频进行不同码率的压缩，从而在不影响用户观看体验的情况下，尽可能地压缩信号源视频文件的大小和视频流的码率，降低直/点播平台的运营成本。

第二方面，提供了一种视频分类的装置，所述装置包括：

接收单元，所述接收单元用于从视频源接收视频；

获取单元，所述获取单元用于从所述视频中获取M个视频帧P₁,P₂,…,P_M以及M个相邻帧Q₁,Q₂,…,Q_M，其中，所述M的值为正整数，所述相邻帧Q₁为所述视频帧P₁的相邻视频帧，所述相邻帧Q₂为所述视频帧P₂的相邻视频帧，…，所述相邻帧Q_M为所述视频帧P_M的相邻视频帧；

确定单元，所述确定单元用于确定M个视频距离D₁,D₂,…,D_M，其中，视频距离D₁是视频帧P₁和相邻帧Q₁之间的汉明距离，视频距离D₂是视频帧P₂和相邻帧Q₂之间的汉明距离，…，视频距离D_M是视频帧P_M和相邻帧Q_M之间的汉明距离；

比较单元，所述比较单元用于将M个视频距离D₁,D₂,…,D_M分别与阈值进行比较，从而获得比较结果{H₁,H2_,...,H_M}；

分类单元，所述分类单元用于根据所述比较结果{H₁,H₂,...,H_M}确定所述视频所属的分类结果；

压缩单元，所述压缩单元用于根据所述分类结果对所述视频进行压缩，并发送至内容分发系统。

在一实施方式中，所述分类单元用于：对所述比较结果{H₁,H₂,...,H_M}进行统计，从而得到比较结果{H₁,2,...,_M}中视频距离小于阈值的第一数量n₁，以及，比较结果{H₁,H₂,...,H_M}中视频距离不小于所述阈值的第二数量n₂；根据第一数量n₁以及第二数量n₂确定所述视频所属的分类结果。

在一实施方式中，所述分类单元用于：在所述n₁与所述M之间的比例a₁不小于第一比例的情况下，将所述视频分类为低动态视频；在所述n₂与所述M之间的比例a₂不小于第二比例的情况下，将所述视频分类为所述高动态视频；在所述n₁与所述M之间的比例a₁小于所述第一比例，且所述n₂与所述M之间的比例a₂小于所述第二比例的情况下，将所述视频分类为混合视频，其中，所述混合视频的画面变化程度高于所述低动态视频，低于所述高动态视频。

在一实施方式中，所述第一比例是根据低动态视频样本中，小于所述阈值的视频距离数量与M之间的比值确定的；所述第二比例是根据高动态视频样本中，不小于所述阈值的视频距离数量与M之间的比值确定的。

第三方面，提供了一种计算机程序产品，当所述计算机程序产品被计算设备读取并执行时，如第一方面描述的方法将被执行。

第四方面，提供了一种计算机非瞬态存储介质，包括指令，当所述指令在计算设备上运行时，使得所述计算设备执行如第一方面描述的方法将被执行。

第五方面，提供了一种电子设备，包括处理器和存储器，所述处理器执行所述存储器中的代码执行如第一方面描述的方法将被执行。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是一种视频直播以及点播的系统架构示意图；

图2是本申请提供的一种视频分类的方法流程示意图；

图3是本申请提供的一种视频分类方法流程示意图；

图4是本申请提供的一种应用场景下的视频分类方法的流程示意图；

图5是本申请提供的一种视频分类方法的验证流程示意图；

图6是本申请提供的一种视频分类装置的结构示意图；

图7是本申请提供的一种电子设备的结构示意图。

具体实施方式

本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

为了便于理解本申请实施例，首先对本申请涉及的部分术语进行解释说明。

伯努利试验(Bernoulli Experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验，其特点是该随机试验只有两种可能结果：发生或者不发生。假设该项试验独立重复地进行了n次，那么就称这一系列重复独立的随机试验为n重伯努利试验，或称为伯努利概型。

简单来说，同样条件下的任何一次重复试验，各结果发生的可能性都不受其他次实验结果发生情况的影响，那么就可以是伯努利试验。举例来说，伯努利试验可以是从一副纸牌中拿出一张牌，它或者是黑色或者是红色；还可以是接生一个婴儿，或者是男孩或者是女孩；还可以是24小时的一天遇到流星或者遇不到流星等等。其中，在一次伯努利试验中，事件A发生的概率为p(0<p<1)，不发生的概率为(1-p)，则在n重伯努利试验中，如果用X代表事件A发生的次数，则X的概率分布为二项分布(Binomial Distribution)，记为X～(n,p)，X的概率质量函数可以如公式(1)以及公式(2)所示：

也就是说，对于n重伯努利试验，在获知事件A发生的概率为p的情况下，根据公式(1)即可计算获得事件A发生k次的概率。根据公式(2)可以计算获得事件A至少发生k次的概率。

其次，对本申请涉及的，视频直播以及点播的系统架构进行简要说明。

如图1所示，所述视频直播以及点播的系统架构包括信号源110、直播平台服务器120、点播平台服务器130、CDN 140、播放器150以及观看者160。其中，图1以北京、上海、广州、深圳四个城市的多个观众，同时观看信号源110的应用场景为例进行了说明，具体实现中，所述视频直播以及点播的系统架构可以包括更多的信号源110、更多的直播平台服务器120、更多的点播平台服务器140、更多的播放器150以及更多的观看者160，本申请不作具体限定。

信号源110可以是上传者发布的视频源或者直播源，其中，视频源可以是自媒体上传的自媒体视频、主播上传的直播录制视频、用户生成内容(User Generated Content,UGC)以及版权方上传的版权视频等等；直播源可以是主播、教师、体育赛事主办方等直播内容提供方发布的直播源。应理解，上述举例仅用于说明，本申请不作具体限定。

直播平台服务器120以及点播平台服务器130可以对所述信号源110进行视频转码(Video Transcoding)处理，获得CDN 140可识别的媒体流。具体实现中，直播平台服务器120以及点播平台服务器130还可以对所述信号源110先进行内容整理、版权加密、视频鉴黄等审核处理后，再将审核后的信号源110进行视频转码处理。其中，视频转码可以简单理解为将多种不同格式的信号源，通过编码方式转换为CDN网络通用协议所支持的媒体流格式，比如实时消息传输协议(Real Time Messaging Protocol,RTMP)、动态码率自适应技术(HTTP Live Streaming,HLS)、流媒体协议(HTTP-Flash Video,HTTP-FLV)等CDN常用的流媒体传输协议，从而提高数据传输可利用的传输通道，而不局限于指定的接口通道，可以大大提高工作效率。

CDN 140可以将直播平台服务器120以及点播平台服务器130发送的流媒体分片文件发送至相应的播放器150。其中，CDN是一种网络服务模式，通常由网络运营商提供，CDN网络中的高速缓存服务器(Cache)可以缓存很多直播平台服务器120以及点播平台服务器130发送的媒体流，在观看者请求某一内容时，CDN网络可以挑选出可以最快发送给该观看者的缓存，就像一个靠近用户的网站服务器一样响应本地用户的访问请求，从而极大程度上保证了端到端的服务质量。

播放器150可以对接收到的流媒体分片文件进行处理后，将信号源110重新展现给观看者160，最终实现如图1所示的，北京、上海、广州深圳等城市的观众同时通过手机应用程序(Application,App)、电脑视频软件、直播网页等等播放器150，观看同一信号源110的视频内容的目的。具体实现中，播放器150可以包括如图1所示的App、电脑视频软件、直播网页等等，还可以包括PC客户端、电视客户端等等，本申请不作具体限定。

可以理解的是，由于CDN 140通常由网络运营商提供，因此，对于直播平台服务器120以及点播平台服务器140来说，CDN的网络分发费用将成为直播平台以及点播平台的主要成本之一。而CDN的是通过流量或者带宽计费的，也就是说，信号源110的文件大小以及视频码率(数据传输时单位时间传送的数据位数)越大，平台支出越大。因此，直播平台服务器120以及点播平台服务器130在对所述信号源110进行视频转码处理的过程中，一般会通过视频分类算法，根据信号源110的视频内容将信号源110进行分类，并对不同视频进行不同码率的压缩，从而在不影响用户观看体验的情况下，尽可能的压缩信号源110的视频文件的大小和视频流的码率，从而减少接下来CDN传输的流量费用，降低直/点播平台的运营成本。

视频分类算法在近年来发展迅速，且多为基于人工智能(ArtificialIntelligence,AI)的视频分类算法，例如使用支持向量机为基础的内容分类算法已经在多个场景应用。然而，AI视频分类算法中需要消耗大量的计算资源进行神经网络模型的训练以及预测，占用直/点播平台大量的系统资源，导致视频直播或点播的卡顿，降低用户的观看体验。

为了解决上述视频分类算法导致视频直播或点播卡顿、用户观看体验差的问题，本申请提出了一种视频分类的方法，只需要占用直/点播平台服务器的少量系统资源，即可完成视频分类，并对不同种类的视频进行不同码率的压缩，从而在不影响用户观看体验的情况下，尽可能的压缩信号源视频文件的大小和视频流的码率，降低直/点播平台的运营成本。

图2是本申请提供的一种视频分类的方法。由图2可知，本申请提供的视频分类的方法具体流程可以如下：

S201：从视频源接收视频A，其中，所述视频源可以为图1中的信号源，所述视频可以是需要被直/点播平台压缩处理后发送至CDN 140进行分发的视频A。

S202：从视频A中获取M个视频帧P₁,P₂,…,P_M以及M个相邻帧Q₁,Q₂,…,Q_M。

其中，所述M的值为正整数，所述相邻帧Q₁为所述视频帧P₁的相邻视频帧，所述相邻帧Q₂为所述视频帧P₂的相邻视频帧，…，所述相邻帧Q_M为所述视频帧P_M的相邻视频帧。

S203：确定M个视频距离D₁,D₂,…,D_M。

其中，视频距离D₁是视频帧P₁和相邻帧Q₁之间的汉明距离，视频距离D₂是视频帧P₂和相邻帧Q₂之间的汉明距离，…，视频距离D_M是视频帧P_M和相邻帧Q_M之间的汉明距离。

S204：将M个视频距离D₁,D₂,…,D_M分别与阈值进行比较，从而获得比较结果{H₁,H₂,...,H_M}。

S205：根据所述比较结果{H₁,H₂,...,H_M}确定所述视频A所属的分类结果。

S206：根据所述分类结果对所述视频进行压缩，并发送至内容分发系统。其中，该内容分发系统可以是图1中的CDN 140，也就是说，将视频分类后，对不同种类的视频进行不同码率的压缩，再将压缩后的视频发送至CDN 140，其中，低动态视频压缩后的码率小于所述高动态视频或者混合视频压缩后的码率，混合视频压缩后的码率介于低动态视频和高动态视频之间。从而在不影响用户观看体验的情况下，尽可能的压缩信号源视频文件的大小和视频流的码率，进而降低直/点播平台的运营成本。

在本申请实施例中，视频所属的分类结果可以是根据所述视频中的M个视频帧以及相邻帧之间的帧间相似度确定的。可以理解的，一个幻灯片视频在同一秒内的有很多帧画面是相同的，而一个动画视频在同一秒内的很多帧画面是不同的。也就是说，一个低动态视频(比如幻灯片视频)的帧间相似度远远低于高动态视频(比如动画视频)的帧间相似度，因此，通过计算视频M个视频帧以及相邻帧之间的帧间相似度，可以将视频区分为多个类别。

具体实现中，所述视频A的分类结果的类别个数可以根据视频内容特征进行确定。比如，以教育类视频为例，教育类视频可以分为低动态视频、高动态视频以及混合视频，其中，低动态视频可以为幻灯片内容的视频，该类视频画面几乎全部为幻灯片，老师只是以画外音的方式进行授课，该类视频在同一秒内有很多帧画面是相同的，帧间相似度很高；高动态视频可以为授课内容的视频，该类视频画面几乎全部为教师在黑板前授课，因此该类视频在同一秒内的帧画面是不同的，帧间相似度很低；混合视频中的视频画面一部分是幻灯片视频，一部分是授课视频，因此该类视频的帧间相似度位于低动态视频和高动态视频之间。应理解，其他种类视频比如游戏视频、广告视频等等，均有各自的特征，具体实现中也可以根据视频内容特征确定分类的类别数量，本申请对此不作具体限定。但是，为了使本申请更好的被理解，下文将统一以视频A为教育类视频为例对本申请提供的视频分类方法进行解释说明，也就是说，将以视频A被分为低动态视频、高动态视频以及混合视频为例进行解释说明。

需要说明的，视频A的帧间相似度可以是通过计算所述视频A的M个视频帧P₁,P₂,…,P_M以及M个相邻帧Q₁,Q₂,…,Q_M之间的汉明距离获得的。而汉明距离可以是将每个视频帧及其相邻帧转化为差异值哈希(Different Hash，dHash)值后，对比每个视频帧及其相邻帧的dHash值是否一致获得的。

具体实现中，计算所述视频A的帧间相似度的步骤可以如下：

首先，将M个视频帧以及M个相邻帧进行尺寸处理，比如，将视频帧及其相邻帧的图像尺寸缩小为3×3，使得图片的细节得到隐藏，只保留结构、明暗等基本特征，便于后续dHash值的计算。

其次，对缩小后的M个视频帧及其M个相邻帧进行简化色彩的处理，获得M个灰度视频帧及其M个灰度相邻帧，也就是说，将每个视频帧及其相邻帧的图像转为灰度图像，使得计算量大大减少，进而提高计算帧间相似度的速度。

接着，计算每个灰度图像的差异值，获得M个视频帧的M个差异值，以及M个相邻帧的M个差异值。具体地，可以通过比较每个灰度图像中，每个像素的颜色强度与前一个像素的颜色强度之间的大小，如果前一个像素的颜色强度大于第二个像素，那么差异值设置为“1”，如果前一个像素的颜色强度不大于第二个像素，那么差异值设置为“0”，从而获得M个视频帧的M个差异值，以及M个相邻帧的M个差异值。

第四，将每个视频帧及其相邻帧的差异值中的每一个值看作一个bit，每8个bit组为一个16进制值，将16进制值连接起来转换为字符串，从而获得每个视频帧及其相邻帧的dHash值。

最后，比较每个视频帧及其相邻帧的dHash值的每一位字符，将两个dHash值对应位置的不同字符的个数记为该视频帧及其相邻帧之间的汉明距离D。比如，视频帧P₁的dHash值为11001101，其相邻帧Q₁的dHash值为11000011，此时视频帧P₁与相邻帧Q₁的dHash值中，只有第五位、第六位以及第七位不同，因此视频帧P₁及其相邻帧Q₁之间的汉明距离D＝3。应理解，上述举例仅用于说明，并不能构成具体限定，视频帧及其相邻帧的图像尺寸还可以缩小为其他尺寸，比如8×8，dHash值还可以是64位，本申请不对此进行具体限定。

其中，所述M个视频帧可以是随机抽取的，而每个视频帧与其相邻帧之间的时间间隔t是根据所述视频A的总时长确定的。也就是说，所述相邻帧Q₁与所述视频帧P₁之间的时间间隔为t，所述相邻帧Q₂与所述视频帧P₂的时间间隔为t，…，所述相邻帧Q_M与所述视频帧P_M的时间间隔为t，其中，所述时间间隔t是根据所述视频的总时长确定的。具体实现中，所述时间间隔t是相对于所述视频A总时长而言较小的值，可以是总时长的几十或几百分之一。举例来说，某教育视频A的总时长为1800秒，那么时间间隔t可以是2秒，抽取20个视频帧以及20个相邻帧的具体过程可以如下：首先随机在视频A的时间线上抽取20个时间点t_i，其中，i＝1,2,…,20，那么20个视频帧可以是在时间点t_i处抽取的1帧图像，20个相邻帧可以是在时间点t_i+t处抽取的1帧图像，或者在时间点t_i-t处抽取的1帧图像。应理解，上述举例仅用于说明，并不能构成具体限定。

可以理解的，视频A的帧间相似度还可以是通过其他计算帧间相似度的计算方法获得的，比如：峰值信噪比(Peak Signal to Noise Ratio,PSNR)、直方图计算、结构相似度(Structural Similarity,SSIM)、均值Hash算法等等，本申请并不对此进行具体限定。但是，由于本申请提供的视频分类算法应用于直/点播平台，具体应用于直/点播平台接收到信号源发送的视频文件之后，将视频发送给CDN网络之前的应用场景中，因此，本申请提供的视频分类算法需要消耗非常低的计算资源，以便减少对直播、点播平台的运行影响。而计算视频帧和相邻帧之间的汉明距离，相比于其他帧间相似度的计算方法，具有计算资源消耗低、速度更快、精确度更高的优点。

在本申请实施例中，根据视频A的帧间相似度对视频A进行分类，需要确定每一类视频的帧间相似度的数值范围，视频A的帧间相似度属于低动态视频的帧间相似度的数值范围，视频A就可以划分为低动态视频，同理，视频A的帧间相似度属于高动态视频或者混合视频的帧间相似度的数值范围，那么视频A就可以分为高动态视频或者混合视频。其中，为了避免偶然现象，体现出结果的广泛性，计算视频A的帧间相似度是通过抽取M个视频帧以及M个相邻帧后，计算其汉明距离获得的，视频A的帧间相似度是一个包含M个汉明距离的数列D₁,D₂,…,D_M。因此，实际处理过程中，根据视频A的帧间相似度对视频A进行分类时，如果视频A的M个汉明距离中如果大部分都处于低动态视频范围内，那么视频A就可以属于低动态视频。同理，如果视频A的M个汉明距离中大部分都处于高动态视频或者混合视频的帧间相似度的数值范围，那么视频A就可以分为高动态视频或者混合视频。

因此，根据所述比较结果{H₁,H₂,...,H_M}确定所述视频A所属的分类结果，包括：对所述比较结果{H₁,H₂,...,H_M}进行统计，从而得到比较结果{H₁,H₂,...,H_M}中视频距离小于阈值的第一数量n₁，以及，比较结果{H₁,H₂,...,H_M}中视频距离不小于所述阈值的第二数量n₂；根据第一数量n₁以及第二数量确定所述视频所属的分类结果。所述根据第一数量n₁以及第二数量n₂确定所述视频所属的分类结果，包括：在所述n₁与所述M之间的比例a₁不小于第一比例的情况下，将所述视频分类为低动态视频；在所述n₂与所述M之间的比例a₂不小于第二比例的情况下，将所述视频分类为高动态视频；在所述n₁与所述M之间的比例a₁小于所述第一比例，且所述n₂与所述M之间的比例a₂小于所述第二比例的情况下，将所述视频分类为混合视频。

具体实现中，根据所述比较结果{H₁,H₂,...,H_M}确定所述视频A所属的分类结果的过程可以如图3所示，在计算获得M个视频距离D₁,D₂,…,D_M后，首先根据阈值D₀，确定小于阈值的汉明距离数量n₁，以及，不小于所述阈值的第二数量n₂，然后计算n₁与所述M之间的比例a₁，以及，n₂与所述M之间的比例a₂，如果a₁不小于所述第一比例，视频A分类为低动态视频，如果a₂不小于所述第一比例，视频A可以分类为高动态视频，如果a₁小于所述第一比例，或者a₂小于所述第一比例，那么视频A可以分类为混合视频。

举例来说，如图4所示，假设阈值D₀＝5，第一比例k₁＝0.8，第二比例k₂＝0.8，假设视频A有20个帧，本申请的视频分类方法的具体流程可以如下：

步骤1：视频A随机抽取了5个视频帧P₁,P₂,…,P₅以及5个相邻帧Q₁,Q₂,…,Q₅，其中，每个视频帧与其相邻帧之间的时间间隔为t＝2s。

步骤2：计算每个视频帧及其相邻帧之间的汉明距离D，得到5个汉明距离D₁,D₂,…,D₅。具体实现中，如图3所示，可以先计算每个视频帧和相邻帧的指纹编码，根据视频帧P1的指纹编码为1000111，相邻帧Q1的指纹编码为1110111，获得视频帧P1与其相邻帧Q1之间的汉明距离D₁＝2，同理，可以获得其他视频帧以及相邻帧之间的汉明距离D₂～D₅。其中，指纹编码的获取过程具体可参考前述内容，这里不再进行赘述。

步骤3：将5个汉明距离分别与阈值D₀进行比较，小于阈值D₀＝5的汉明距离数量n₁＝4，不小于阈值D₀＝5的汉明距离数量n₂＝1，从而根据n₁/M＝4/5＝0.8，不小于第一比例k₁＝0.8，可以将所述视频A判定为低动态视频，从而根据所述分类结果对所述视频进行压缩，并发送至CDN 140。其中，低动态视频压缩后的码率小于所述高动态视频或者混合视频压缩后的码率，混合视频压缩后的码率介于低动态视频和高动态视频之间。

可以理解的，如果小于阈值D₀的视频数量n₁为1个，不小于所述阈值D₀的视频数量n₂为4个，n₂与所述M之间的比例a₂＝4/5＝0.8不小于第二比例k₂＝0.8，因此视频A此时可以分类为高动态视频；如果小于阈值D₀的视频数量n₁为2个，不小于所述阈值D₀的视频数量n₂为3个，n₁与所述M之间的比例a₁＝2/5＝0.4小于第二比例k₂＝0.8，n₂与所述M之间的比例a₂＝3/5＝0.6小于第二比例k₂＝0.8，视频A此时可以分类为混合视频。

在本申请实施例中，所述阈值D₀可以是经验值。具体地，所述阈值D₀是根据两幅不相似的帧画面的视频距离大小而确定的值。通过计算多张相似帧画面以及不相似帧画面的汉明距离可知，一般来讲，两张相似帧画面的汉明距离D不超过5，两张不相似或者完全不同的帧画面的汉明距离超过5，因此所述阈值D₀可以是5。应理解，上述举例仅用于说明，并不能构成具体限定。

在本申请实施例中，所述第一比例k₁以及第二比例k₂可以是经验值。其中，所述第一比例是根据低动态视频样本中，小于所述阈值的视频距离数量与M之间的比值j₁确定的；所述第二比例是根据高动态视频样本中，不小于所述阈值的视频距离数量与M之间的比值j₂确定的。也就是说，通过计算低动态视频样本中M个视频帧以及M个相邻帧之间的视频距离，统计其中小于所述阈值(比如D₀＝5)的视频距离数量与M之间的比值j₁，可以确定所述第一比例k₁的值；通过计算多个高动态视频样本中M个视频帧以及M个相邻帧之间的视频距离，统计其中不小于所述阈值(比如D₀＝5)的视频距离数量与M之间的比值j₂，可以确定所述第二比例k₂的值。举例来说，假如低动态视频样本X₁中的10个视频帧以及10个相邻帧之间的10个视频距离为{1,3,2,2,1,5,8,2,1,3}，其中，小于所述阈值D₀＝5的视频距离数量与M之间的比值j₁＝8/10＝0.8，基于此，可以确定第一比例k₁的值为0.8。同理，假如高动态视频样本Y₁中的10个视频帧以及10个相邻帧之间的10个视频距离为{5,8,9,6,5,4,7,3,9,6}，其中，不小于所述阈值D₀＝5的视频距离数量与M之间的比值j₂＝8/10＝0.8，基于此，可以确定第二比例k₂的值为0.8。可以理解的，为了一定程度上消除数据集的偶然性，还可以将第一比例k₁的值确定为0.15、0.25等等，并且，为了避免单个样本的偶然性，可以计算多个低动态视频样本X₁,X₂,…,X_x中的每个低动态视频样本的比值j_1x，通过计算平均数的方法确定所述第一比例k₁，本申请不作具体限定。

可以理解的，实施上述视频分类的方法，只需要占用直/点播平台服务器的少量系统资源，即可完成视频分类，并对不同种类的视频进行不同码率的压缩，从而在不影响用户观看体验的情况下，尽可能的压缩信号源视频文件的大小和视频流的码率，降低直/点播平台的运营成本。

为了证明本申请提供的视频分类方法分类结果的准确度，下面将结合图5，对本申请提供的视频分类方法进行验证说明。其中，阈值D₀＝5，第一比例k₁＝0.8，第二比例k₂＝0.8，那么验证本申请提供的分类方法的具体步骤可以如下：

1.获取样本集。所述样本集包含包括53个带有低动态视频标签的低动态视频，21个带有高动态视频标签的高动态视频以及26个带有混合视频标签的混合视频。

2.对所述样本集中的每个视频抽取N个视频帧以及N个相邻帧。具体地，可以通过ffmpeg程序对53个低动态视频、21个高动态视频以及26个混合视频进行抽帧。其中，为了避免随机抽取带来的特殊性，这里的抽帧指的是从视频开始到结束，每隔2s抽取一帧，相邻的两帧图像为一组视频帧和相邻帧。

3.计算所述样本集中的每个视频的N个视频帧以及N个相邻帧之间的视频距离。具体实现中，可以执行前述内容中的步骤S202获得第一个视频的N个汉明距离D₁₁,D₁₂,...,D_1n，第二个视频的N个汉明距离计算汉明距离D₂₁,D₂₂,...,D_2n等等，其中，汉明距离计算的具体方法可以参考前述实施例，这里不再对此进行赘述。

4.将53个低动态视频中的每一个低动态视频的汉明距离，与阈值D₀＝5进行比较，获得第x个低动态视频的汉明距离中小于阈值5的汉明距离数量与N之间的比值c_x，其中，x＝1,2,…,53，并且，c_x的最小值为0.84，平均值为0.94。

5.将21个高动态视频中的每一个高动态视频的汉明距离，与阈值D₀＝5进行比较，获得第y个高动态视频的汉明距离中小于阈值5的汉明距离数量与N之间的比值d_y，其中，y＝1,2,…,21，并且，d_y的最小值为0.87，平均值为0.93。

6.将计算低动态视频或高动态视频的汉明距离记为一次伯努利试验，其中，低动态视频的汉明距离小于5或者高动态视频的汉明距离不小于5记为伯努利试验中的事件A发生，那么事件A发生的概率可以是p＝(0.94+0.93)/2≈0.9，并且事件A服从二项分布B～(n,p)。

7.使用步骤S201-S205对样本集中的100个视频进行分类，其中，阈值D₀＝5，第一比例k₁＝0.8，第二比例k₂＝0.8，并且对每个视频进行10次预测并记录每一次预测的准确度，计算其平均值。实测结果显示53个低动态视频的实测准确度为97.4％，21个高动态视频的实测准确度为93.3％。

应理解，由于步骤2-步骤6中均未使用混合视频进行计算，只有步骤7对混合视频进行计算，因此图5中并未绘制出26个混合视频标签，但是实际应用中，步骤7中获得的实测准确度，是针对全部样本进行了10次预测后而获得的准确度。

8.根据二项分布的概率公式，即前述内容中的公式(2)，计算出所述事件A重复10次的概率值，获得使用所述阈值D₀＝5，第一比例k₁＝0.8，第二比例k₂＝0.8对所述视频样本集进行正确分类的理论准确度：

其中，理论准确度0.93与步骤7中的实测结果基本吻合。因此，本申请提供的视频分类方法具有很高的准确率。

可以理解的，由于抽取的帧的数量及计算的汉明距离只相比整个视频来说很小(仅占几十或几百分之一)，因此使用二项分布概率计算的方法，可以一定程度消除数据集的偶然性，使得计算结果更加贴近实际结果，误差大大减少。并且，还可以根据对带有分类标签的样本集进行分类后的理论准确度以及实测准确度，对所述第一比例k₁以及第二比例k₂进行确认和调整。具体地，可以在所述实测准确度或者理论准确度低于第一预期值的情况下，对所述阈值进行调整，或者，实测准确度与理论准确度的差值大于第二预期值的情况下，对所述阈值进行调整。

结合上文图1-图5所示的相关实施例，下面阐述本申请实施例涉及的相关装置。请参见图6，图6是本申请提供的一种视频分类装置600的结构示意图。所述装置600包括接收单元610、获取单元620、确定单元630、比较单元640、分类单元650以及压缩单元660，其中，

所述接收单元610用于从视频源接收视频；

所述获取单元620用于从所述视频中获取M个视频帧P₁,P₂,…,P_M以及M个相邻帧Q₁,Q₂,…,Q_M，其中，所述M的值为正整数，所述相邻帧Q₁为所述视频帧P₁的相邻视频帧，所述相邻帧Q₂为所述视频帧P₂的相邻视频帧，…，所述相邻帧Q_M为所述视频帧P_M的相邻视频帧；

所述确定单元630用于确定M个视频距离D₁,D₂,…,D_M，其中，视频距离D₁是视频帧P₁和相邻帧Q₁之间的汉明距离，视频距离D₂是视频帧P₂和相邻帧Q₂之间的汉明距离，…，视频距离D_M是视频帧P_M和相邻帧Q_M之间的汉明距离；

所述比较单元640用于将M个视频距离D₁,D₂,…,D_M分别与第一阈值进行比较，从而获得比较结果{H₁,H₂,...,H_M}；

所述分类单元650用于根据所述比较结果{H₁,H₂,...,H_M}确定所述视频所属的分类结果；

所述压缩单元660用于根据所述分类结果对所述视频进行压缩，并发送至内容分发系统。

可选地，所述分类单元650用于：对所述比较结果{H₁,H₂,...,H_M}进行统计，从而得到比较结果{H₁,H₂,...,H_M}中视频距离小于阈值的第一数量n₁，以及，比较结果{H₁,H₂,...,H_M}中视频距离不小于所述阈值的第二数量n₂；根据第一数量n₁以及第二数量确定所述视频所属的分类结果。

可选地，所述分类单元650用于：在所述n₁与所述M之间的比例a₁不小于第一比例的情况下，将所述视频分类为低动态视频；在所述n₂与所述M之间的比例a₂不小于第二比例的情况下，将所述视频分类为所述高动态视频；在所述n₁与所述M之间的比例a₁小于所述第一比例，且所述n₂与所述M之间的比例a₂小于所述第二比例的情况下，将所述视频分类为混合视频，其中，所述混合视频的画面变化程度高于所述低动态视频，低于所述高动态视频。

可选地，所述阈值是根据两幅不相似的帧画面的视频距离大小而确定的值。

可选地，所述第一比例是根据低动态视频样本中，小于所述阈值的视频距离数量与M之间的比值确定的；所述第二比例是根据高动态视频样本中，不小于所述阈值的视频距离数量与M之间的比值确定的。

可选地，所述相邻帧Q₁与所述视频帧P₁之间的时间间隔为t，所述相邻帧Q₂与所述视频帧P₂的时间间隔为t，…，所述相邻帧Q_M与所述视频帧P_M的时间间隔为t，其中，所述时间间隔t是根据所述视频的总时长确定的。

在实际应用中，本申请实施例的装置600可以通过专用集成电路(Application-Specific Integrated Circuit,ASIC)实现，或可编程逻辑器件(Programmable LogicDevice,PLD)实现，上述PLD可以是复杂程序逻辑器件(Complex Programmable LogicalDevice,CPLD)，现场可编程门阵列(Field-Programmable Gate Array,FPGA)，通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。也可以通过软件实现，当由软件实现时，装置600以及装置中的各个模块的功能也都可以是软件模块。

上述视频分类装置只需要占用直/点播平台服务器的少量系统资源，即可完成视频分类，并对不同种类的视频进行不同码率的压缩，从而在不影响用户观看体验的情况下，尽可能的压缩信号源视频文件的大小和视频流的码率，降低直/点播平台的运营成本。

请参见图7，图7是本申请实施例提供的一种电子设备700的结构示意图。其中，所述电子设备700可以是前述内容中的视频分类装置600或者直/点播平台，如图7所示，电子设备700包括一个或多个处理器703、通信接口702和存储器701。处理器703、通信接口702和存储器701可通过总线方式连接，也可通过无线传输等其他手段实现通信。本申请实施例以通过总线704连接为例，其中，总线704可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。所述总线704可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器701可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory,RAM)；存储器701也可以包括非易失性存储器(Non-VolatileMemory,NVM)，例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory,FM)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)。存储器701还可以包括上述种类的存储器的组合。其中，存储器701可以存储有程序代码以及程序数据。比如存储有用于计算视频距离的程序代码、确定分类结果的程序代码、压缩分类后的视频的程序代码等等，还存储有阈值、第一比例以及第二比例等等。

通信接口702可以为有线接口(例如以太网接口)，可以为内部接口(例如高速串行计算机扩展总线(Peripheral Component Interconnect express,PCIe)总线接口)、有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与与其他设备或模块进行通信。例如，通信接口702用于支持所述电子设备700与内容分发网络之间的通信，和/或用于执行本文所描述的技术的其它步骤，这里不再进行赘述。

处理器703包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括中央处理器(Central Processing Unit,CPU)、微处理器、微控制器、主处理器、控制器以及ASIC等等。处理器703用于执行各种类型的数字存储指令，例如存储在存储器701中的软件或者固件程序，它能使计算设备提供较宽的多种服务。

具体地，所述处理器703可以包括分类模块以及压缩模块，其中分类模块可以通过调用存储器701中的程序代码实现视频分类的功能，可以包括图6中的接收单元610、获取单元620、确定单元630、比价单元640以及分类单元650所描述的功能，例如抽取M个视频帧以及M个相邻帧，计算该M个视频帧以及M个相邻帧的M个视频距离等等，还可以用于执行图2-图5实施例描述的其他步骤，这里不再进行赘述；压缩模块可以包括图6中的压缩单元660所描述的功能，例如根据分类结果对所述视频进行压缩，将压缩后的视频发送至CDN等等，还可以用于执行图2-图5实施例描述的其他步骤，这里不再进行赘述。并且，关于这里提及的各个功能模块或单元具体可参见前述图2-图5所述实施例中的相关阐述，这里不再赘述。

需要说明的，图7仅仅是本申请实施例的一种可能的实现方式，实际应用中，所述电子设备还可以包括更多或更少的部件，这里不作限制。关于本申请实施例中未示出或未描述的内容，可参见前述图2-图5所述实施例中的相关阐述，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在处理器上运行时，图2-图5所示的方法流程得以实现。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在处理器上运行时，图2-图5所示的方法流程得以实现。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(Digital Video Disc,DVD))、或者半导体介质。半导体介质可以是SSD。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频分类的方法，其特征在于，所述方法包括：

从视频源接收视频；

将M个视频距离D₁,D₂,…,D_M分别与阈值进行比较，从而获得比较结果{H₁,H₂,...,H_M}；

根据所述比较结果{H₁,H₂,...,H_M}确定所述视频所属的分类结果，所述分类结果包括低动态视频、高动态视频以及混合视频，所述混合视频的画面变化程度高于所述低动态视频，低于所述高动态视频；

2.根据权利要求1所述的方法，其特征在于，根据所述比较结果{H₁,H₂,...,H_M}确定所述视频所属的分类结果，包括：

对所述比较结果{H₁,H₂,...,H_M}进行统计，从而得到所述比较结果{H₁,H₂,...,H_M}中视频距离小于所述阈值的第一数量n₁，以及，所述比较结果{H₁,H₂,...,H_M}中视频距离不小于所述阈值的第二数量n₂；

根据第一数量n₁以及第二数量n₂确定所述视频所属的分类结果。

3.根据权利要求2所述的方法，其特征在于，所述根据第一数量n₁以及第二数量n₂确定所述视频所属的分类结果，包括：

在所述n₁与所述M之间的比例a₁不小于第一比例的情况下，将所述视频分类为低动态视频；

在所述n₂与所述M之间的比例a₂不小于第二比例的情况下，将所述视频分类为高动态视频；

在所述n₁与所述M之间的比例a₁小于所述第一比例，且所述n₂与所述M之间的比例a₂小于所述第二比例的情况下，将所述视频分类为混合视频，其中，所述混合视频的画面变化程度高于所述低动态视频，低于所述高动态视频。

4.根据权利要求3所述的方法，其特征在于，所述阈值是根据两幅不相似的帧画面的视频距离大小而确定的值。

5.根据权利要求4所述的方法，其特征在于，

所述第一比例是根据低动态视频样本中，小于所述阈值的视频距离数量占总帧数M的比例确定的；

所述第二比例是根据高动态视频样本中，不小于所述阈值的视频距离数量占总帧数的比例确定的。

6.根据权利要求1至5任一权利要求所述的方法，其特征在于，所述相邻帧Q₁与所述视频帧P₁之间的时间间隔为t，所述相邻帧Q₂与所述视频帧P₂的时间间隔为t，…，所述相邻帧Q_M与所述视频帧P_M的时间间隔为t，其中，所述时间间隔t是根据所述视频的总时长确定的。

7.一种视频分类的装置，其特征在于，所述装置包括：

接收单元，所述接收单元用于从视频源接收视频；

比较单元，所述比较单元用于将M个视频距离D₁,D₂,…,D_M分别与阈值进行比较，从而获得比较结果{H₁,H₂,...,H_M}；

分类单元，所述分类单元用于根据所述比较结果{H₁,H₂,...,H_M}确定所述视频所属的分类结果，所述分类结果包括低动态视频、高动态视频以及混合视频，所述混合视频的画面变化程度高于所述低动态视频，低于所述高动态视频；

8.根据权利要求7所述的装置，其特征在于，所述分类单元用于：

9.根据权利要求8所述的装置，其特征在于，所述分类单元用于：

10.根据权利要求9所述的装置，其特征在于，所述阈值是根据两幅不相似的帧画面的视频距离大小而确定的值。

11.根据权利要求10所述的装置，其特征在于，

所述第一比例是根据低动态视频样本中，小于所述阈值的视频距离数量与M之间的比值确定的；

所述第二比例是根据高动态视频样本中，不小于所述阈值的视频距离数量与M之间的比值确定的。

12.根据权利要求7至11任一权利要求所述的装置，其特征在于，所述相邻帧Q₁与所述视频帧P₁之间的时间间隔为t，所述相邻帧Q₂与所述视频帧P₂的时间间隔为t，…，所述相邻帧Q_M与所述视频帧P_M的时间间隔为t，其中，所述时间间隔t是根据所述视频的总时长确定的。

13.一种计算机程序产品，其特征在于，当所述计算机程序产品被计算设备读取并执行时，如权利要求1至6任一权利要求所述的方法将被执行。

14.一种计算机非瞬态存储介质，其特征在于，包括指令，当所述指令在计算设备上运行时，使得所述计算设备执行如权利要求1至6任一权利要求所述的方法。

15.一种电子设备，其特征在于，包括处理器和存储器，所述处理器执行所述存储器中的代码执行如权利要求1至6任一权利要求所述的方法。