CN110147700B

CN110147700B - 视频分类方法、装置、存储介质以及设备

Info

Publication number: CN110147700B
Application number: CN201810478237.9A
Authority: CN
Inventors: 刘�东
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Advanced Technology University of Science and Technology of China
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Advanced Technology University of Science and Technology of China
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2023-06-27
Anticipated expiration: 2038-05-18
Also published as: CN110147700A

Abstract

本发明公开了一种视频分类方法、装置、存储介质以及设备，属于多媒体技术领域。所述方法包括：获取训练样本，所述训练样本中包括多段视频和所述多段视频的类别；基于所述多段视频和所述多段视频的类别进行模型训练，得到目标深度网络，所述目标深度网络能够使得同一视频的相邻两帧图像的类别预测结果之间的差异最小；获取待分类视频的至少一帧图像，将所述至少一帧图像输入到所述目标深度网络，根据所述目标深度网络对所述至少一帧图像的类别预测结果，确定所述待分类视频所属的类别。本发明训练得到的深度网络能够使得待分类视频的相邻两帧图像的类别预测结果之间的差异最小，所以在基于该种深度网络进行视频分类时，分类准确率更高。

Description

视频分类方法、装置、存储介质以及设备

技术领域

本发明涉及多媒体技术领域，特别涉及一种视频分类方法、装置、存储介质以及设备。

背景技术

视频分类又称为视频标注(video annotation)，是一种对给定的一段视频进行类别分析并对其进行至少一个类别标记的技术。举例来说，假设预先设置了猫、狗、桌子、椅子等类别，若给定的一段视频中出现了一张桌子和几只猫，则相应为这段视频标记猫和桌子这两个类别。

相关技术在进行视频分类时基于深度网络实现。具体地，由于视频是由多帧图像按照时间顺序组合而成的，所以在进行视频分类时，深度网络可以帧为单位对给定的一段视频进行类别分析。比如，深度网络可对该视频中包含的部分图像或全部图像逐帧进行类别分析，之后，再将得到的各个类别预测结果进行融合，进而得到给定的一段视频所属的类别。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

由于在视频分类时深度网络仅是一帧图像一帧图像地进行类别分析，再无其他参考依据，方式较为单一，所以深度网络对待分类视频的分类结果并不够准确，造成该种视频分类方式的分类准确率较低。

发明内容

本发明实施例提供了一种视频分类方法、装置、存储介质以及设备，解决了相关技术存在的对视频的分类准确率低的问题。所述技术方案如下：

一方面，提供了一种视频分类方法，所述方法包括：

获取训练样本，所述训练样本中包括多段视频和所述多段视频的类别；

基于所述多段视频和所述多段视频的类别进行模型训练，得到目标深度网络，所述目标深度网络能够使得同一视频的相邻两帧图像的类别预测结果之间的差异最小；

获取待分类视频的至少一帧图像，将所述至少一帧图像输入到所述目标深度网络，根据所述目标深度网络对所述至少一帧图像的类别预测结果，确定所述待分类视频所属的类别。

在另一个实施例中，所述将所述多段视频中的每一段视频均切分成至少一个视频片段，包括：

对于所述多段视频中的每一段视频，按照预设尺寸对所述视频中的每一帧图像进行缩放处理；

将经过缩放处理后的每一段视频均切分成至少一个视频片段。

另一方面，提供了一种视频分类装置，所述装置包括：

获取模块，用于获取训练样本，所述训练样本中包括多段视频和所述多段视频的类别；

训练模块，用于基于所述多段视频和所述多段视频的类别进行模型训练，得到目标深度网络，所述目标深度网络能够使得同一视频的相邻两帧图像的类别预测结果之间的差异最小；

所述获取模块，还用于获取待分类视频的至少一帧图像；

输入模块，用于将所述至少一帧图像输入到所述目标深度网络；

确定模块，用于根据所述目标深度网络对所述至少一帧图像的类别预测结果，确定所述待分类视频所属的类别。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的视频分类方法。

另一方面，提供了一种用于视频分类的设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的视频分类方法。

本发明实施例提供的技术方案带来的有益效果是：

在进行视频分类时，本发明实施例考虑到了视频中帧与帧之间的相关性，即训练得到的深度网络能够使得待分类视频的相邻两帧图像的类别预测结果之间的差异最小，所以在基于该种深度网络进行视频分类时，得到的分类结果的准确度更高，换一种表达方式，由于本发明实施例在进行视频分类时考虑了视频帧与帧之间的相关性约束，所以分类准确率更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频分类方法所涉及的实施环境的结构示意图；

图2是本发明实施例提供的一种视频分类方法的流程图；

图3是本发明实施例提供的一种视频分类方法的流程图；

图4是本发明实施例提供的一种视频分类方法的流程图；

图5是本发明实施例提供的一种视频分类方法的流程图；

图6是本发明实施例提供的一种视频分类装置的结构示意图；

图7是本发明实施例提供的一种用于视频分类的设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施方式进行详细描述之前，先对本发明实施例可能涉及到的一些名词进行解释说明。

视频分类：又称为视频标注，是一种对给定的一段视频进行类别分析并对其进行至少一个类别标记的技术。

视频的类别：依据视频内容的不同而不同，采用视频分类技术能够快速地确定给定的一段视频所属的类别。

其中，本发明实施例可以根据视频中出现的物体来对视频进行类别划分。举例来讲，自然界中的人、动物、植物、各类物体均可作为视频的类别。

此外，本发明实施例还可以根据视频的具体内容将视频划分为更为抽象的一些类别。比如，可将视频划分为财经、体育、综艺、纪录片、影视剧集等类别，本发明实施例对视频类别的表现形式不进行具体限定。

需要说明的是，关于视频的类别本发明实施例支持人工预先进行设置，比如，将预先人工规划好的诸多类别组合成为一个类别集合。

深度网络：基于深度学习思想，时下深度网络作为一种性能优良的分类器在视频分类领域中得到了广泛应用。其中，深度网络包括但不限于深度神经网络，比如卷积神经网络，本发明实施例对此不进行具体限定。在训练好深度网络后，将待分类视频输入到深度网络中，深度网络便会完成对这一视频的分类。

下面对本发明实施例提供的视频分类方法所涉及的实施环境进行介绍。

参见图1，其示出了本发明实施例提供的一种视频分类方法所涉及的实施环境的结构示意图。其中，该实施环境中可包括用于进行模型训练的模型训练设备110和基于训练好的模型来对视频进行分类的分类设备。

如图1所示，在模型训练阶段，模型训练设备110通过训练样本和待训练的初始深度网络，训练用于进行视频分类的目标深度网络。而在分类阶段，分类设备120通过训练好的目标深度网络实现对输入的待分类视频的分类。

其中，上述模型训练设备110和分类设备120可以是终端或服务器等计算机设备，且二者既可以是同一个设备，也可以是不同的设备，本发明实施例对此不进行具体限定。

在本发明实施例中，在训练完目标深度网络后，对于给定的待分类视频，本发明实施例采用该视频中包括的部分图像或全部图像来进行类别预测。比如，将上述部分图像或全部图像逐一输入到目标深度网络中进行类别预测；最终，将得到的各个图像的类别预测结果进行融合，进而基于融合结果得到待分类视频所属的类别。

需要说明的第一点是，上述提及的类别预测结果中给出了任意一帧图像属于各个类别的概率。假设视频的类别集合中一共包括C个类别，那么该帧图像属于这C个类别中各个类别的概率之和为1。

需要说明的第二点是，上述目标深度网络具体为帧级网络，即目标深度网络是支持对单张图像进行分类的深度网络，所以在输入上述部分图像或全部图像至目标深度网络时还需一帧图像一帧图像的逐一输入。而本发明实施例之所以采用帧级网络，是因为帧级网络的网络结构较为简单，计算复杂度较低。

相应地，在设计初始深度网络时，该初始深度网络便是一个帧级网络，且该初始深度网络的最后一层的节点个数为C，这样在对该初始深度网络训练完毕得到目标深度网络后，目标深度网络在进行视频分类时，最后一层的第j个节点的输出，便对应于输入图像属于第j个类别的概率。其中，1≤j≤C。

需要说明的第三点是，对于一段视频来讲，相邻两帧图像之间内容通常相关，为此，本发明实施例在深度网络的训练过程中考虑到了视频的帧与帧之间具有相关性的特点，提出了一种帧间最小变差准则，使得训练出的深度网络更加适合于视频分类场景，提高了分类准确率。

换一种表达方式，本发明实施例通过提出帧间最小变差准则，使得训练出的目标深度网络不但更适合于视频分类，提高了分类准确率，而且同时还保留了帧级网络原有的计算复杂度低的优点。

简单来说，帧间最小变差准则的要求即是：使得目标深度网络对同一视频中相邻两帧图像之间的类别预测结果的差异尽可能小，即，目标深度网络的各个网络参数能够使得同一视频的相邻两帧图像的类别预测结果之间的差异最小，关于这点更为详尽地解释说明还请参见后文描述。

另外，本方案在产品侧的应用方式主要为后台识别，将待分类视频传递给训练好的目标深度网络即可实现对视频进行分类，该方案具有响应快、分类准确度高等特点，可广泛用于视频分类领域中。

图2是本发明实施例提供的一种视频分类方法的流程图。

该视频分类方法的执行主体为计算机设备，比如上述图1所示的模型训练设备和识别设备。参见图2，本发明实施例提供的方法流程包括：

模型训练过程

201、获取训练样本，该训练样本中包括多段视频和多段视频的类别。

在本发明实施例中，对于模型的训练同样也是基于样本学习方法。即，针对模型的训练依赖于一个人工标记好类别的视频数据集，该视频数据集中的所有视频均由人工标记了正确的类别。其中，该视频数据集在本发明实施例中又称之为训练样本，本发明实施例基于人工标记好类别的训练样本，训练出一个新的分类器用于视频分类。

在具体实施时，可人工预先收集一系列视频，并人工预先确定一个视频的类别集合。之后，选取一部分观众来观看这些视频，进而由这些观众从确定的类别集合中选择合适的类别对这些视频进行标记，通过上述步骤即完成了训练样本的获取。

训练样本中包括的多段视频在本文中也称之为已分类视频，假设训练样本中包含的已分类视频的总数为N段，那么任意一段已分类视频可被标记为V_i，其中，i＝1,2,…,N。假设预先确定的类别集合中总共包括C个类别，那么任意一个类别可被标记为T_j，其中，j＝1,2,…,C。

202、获取初始深度网络，并对于每一段已分类视频，按照预设尺寸对该段已分类视频中的每一帧图像均进行缩放处理。

在本发明实施例中，可将任意一个能够对单张图像进行分类的深度网络作为该初始深度网络，或者，本发明实施例也支持新设计一个能够对单张图像进行分类的深度网络作为该初始深度网络，本发明实施例对此不进行具体限定。

另外，如前文所述，该初始深度网络的最后一层的结点个数还需等于C，这样在进行视频分类时，目标深度网络的最后一层的第j个结点的输出，便对应于输入图像属于第j个类别的概率。

此外，无论该初始深度网络采取哪一种网络结构，其对输入的单张图像的尺寸均是有要求的，假设该初始深度网络要求输入图像的尺寸为宽度W和高度H，那么在进行模型训练时，输入到该初始深度网络中的图像的尺寸均须为W*H，且在进行视频分类时，输入到目标深度网络中的图像的尺寸也均须为W*H。

由于深度网络对输入图像的尺寸有要求，所以在模型训练阶段，本发明实施例可能还需要对各段已分类视频中的每一帧图像均进行缩放处理。其中，缩放处理既包括放大处理也包括缩小处理。具体地，当任意一帧图像的大小大于W*H时，便进行缩小处理；当任意一帧图像的大小小于W*H时，则进行放大处理。

203、将经过缩放处理后的每一段已分类视频均切分成至少一个视频片段，并根据每一段已分类视频的类别，确定切分的各个视频片段的实际分类结果。

本步骤实现了将经过缩放处理后的各个已分类视频切分成“批”。其中，在对各段视频进行切分时，还需依据下述规则：

切分出来的任意一个视频片段中均是来自于同一视频顺序连续的多帧图像，即任意一个视频片段包括同一视频中顺序连续的多帧图像。且，不同视频包含的图像不能放在同一个视频片段中。而每个视频片段中包括的帧数目既可以相同，也可以不同。

在本发明实施例中，在对经过缩放处理后的每一段已分类视频进行切分后，可采用下述方式来对切分出来的多个视频片段进行标记：

将任意一个视频片段标记为B_k，其中，k＝1,2,…,M，M为将N个经过缩放处理后的视频进行切分后得到的视频片段的总数。

而B_k中包含的帧数目可标记为L_k，假设B_k中包含的图像全部来自已分类视频V_i，且已分类视频V_i在训练样本中被标记为了类别T_j，则本发明实施例将这一情形设定为记号c_kj＝1，否则设定c_kj＝0。

其中，c_kj指代第k个视频片段属于第j个类别(即类别T_j)的实际概率。即，对于一个视频片段来说，其是由哪一个已分类视频切分出来的，该视频片段的实际分类结果便与哪一个已分类视频的类别相同。

204、基于切分得到的各个视频片段和各个视频片段的实际分类结果，对初始深度网络进行训练，直至训练样本的损失函数满足预设条件，得到目标深度网络。

其中，上述预设条件通常为损失函数达到最小值，本步骤利用切分好的各个视频片段来对初始深度网络进行训练，即本发明实施例通过调整初始深度网络中的模型参数，来最小化下面的损失函数：

其中，L指代损失函数，k指代M个视频片段中的第k个视频片段，j指代C个类别中的第j个类别，p_kj指代第k个视频片段属于第j个类别的预测概率；

为常数，L_k指代第k个视频片段中包含的帧数目，n指代第k个视频片段中的第n帧图像，p_k，n+1，j指代对第k个视频片段的第n+1帧图像进行类别分析并预测第n+1帧图像属于第j个类别的概率，p_k，n，j指代对第k个视频片段的第n帧图像进行类别分析并预测第n帧图像属于第j个类别的概率。

由上述公式可知，上述损失函数中定义了任意一个视频片段的实际分类结果与类别预测结果之间的差异，以及，同一视频(也可称之为同一视频片段)的相邻两帧图像的类别预测结果之间的差异。

换一种表达方式，上述损失函数中定义了c_kj与p_kj之间的差异，以及，第k个视频片段中相邻的任意两帧图像的类别预测结果之间的差异。

在另一个实施例中，p_k,n,j和p_k,n+1,j的大小与初始深度网络中模型参数的取值直接相关，因此调整初始深度网络中模型参数的取值可以改变p_k,n,j和p_k,n+1,j的大小，进而可改变整个损失函数的值，所以本发明实施例通过调整初始深度网络中模型参数的取值，来最小化上述损失函数。

在另一个实施例中，p_kj是对第k个视频片段中全部图像的类别预测结果进行融合的结果，其中，融合函数可以有不同的形式，比如融合函数既可以为：

也可以为：

本发明实施例对融合函数的形式不进行具体限定。其中，针对第一个融合函数来讲，采取求取每一帧图像的预测概率的平均值的融合方式，针对第二个融合函数来讲，采取寻找第k个视频片段中具有最大预测概率的帧的融合方式。

在另一个实施例中，f(c_kj,p_kj)是一个函数，用来定义c_kj与p_kj之间的差异，比如可以定义为下述公式，本发明实施例对此不进行具体限定。

f(c_kj,p_kj)＝-c_kj log p_kj-(1-c_kj)log(1-p_kj)

需要说明的第一点是，上述损失函数中包括两项，尤其是针对后面一项来说，其反映的是深度网络对每个视频片段中前后两帧图像(也即是一段视频中前后两帧图像)的预测概率之间的变差。本发明实施例之所以在损失函数中加入这一项，是考虑到视频中前后两帧图像之间的相关性，要求深度网络对前后帧的预测概率之间的差异尽可能小，这即是前文提及到的帧间最小变差准则。其中，损失函数的最小化可以采用各种优化算法，例如随机梯度下降法或Adam算法等，本发明实施例对此不进行具体限定。

需要说明的第二点是，通过以上步骤201至步骤204便完成了对深度网络的训练。而在深度网络训练结束后，便可基于训练好的目标深度网络来对待分类视频进行分类，关于分类过程的描述具体请参见下述步骤205至步骤208。

视频分类过程

205、获取待分类视频中的至少一帧图像，并按照预设尺寸对至少一帧图像进行缩放处理。

其中，待分类视频可为任意视频格式，本发明实施例对此不进行具体限定。而上述至少一帧图像既可以为待分类视频中的部分图像，也可以为待分类视频中的全部图像帧。

此外，由于训练出的目标深度网络对输入图像的尺寸有大小限制，所以还需对至少一帧图像进行缩放处理。其中，预设尺寸具体如前文所述，大小为W*H。

206、将经过缩放处理后的至少一帧图像逐一输入到目标深度网络中。

在本发明实施例中，由于目标深度网络具体为对为单张图像进行分类的深度网络，所以经过缩放处理后的至少一帧图像还需一帧图像一帧图像地逐一输入到目标深度网络中。

207、获取目标深度网络输出的对经过缩放处理后的至少一帧图像中每一帧图像的类别预测结果。

每当向目标深度网络输入一帧图像，目标深度网络便会输出该帧相应的类别预测结果。假设至少一帧图像的数量为1000，则最终目标深度网络会输出针对这1000帧图像的1000个类别预测结果。

其中，类别预测结果中给出了每一帧图像属于每一个类别的概率。在本发明实施例中，可用符号q_ij表示第i帧图像输入至目标深度网络后，得到的其属于类别T_j的概率。

208、对经过缩放处理后的至少一帧图像中每一帧图像的类别预测结果进行融合，得到待分类视频所属的类别。

在本发明实施例中，可采取下述两种方式来对得到的全部类别预测结果进行融合。

第一种方式、平均值方式

针对该种方式，对每个类别T_j，求取q_ij的平均值。换一种表达方式，对于每一个类别T_j，该种方式获取至少一帧图像中每一帧图像属于类别T_j的概率；之后，对每一帧图像属于类别T_j的概率求取平均值，如此融合后的结果q_j便作为待分类视频属于类别T_j的概率。

举例来说，假设共有5帧图像，这5帧图像属于类别T_j的概率分别为0.1、0.2、0.1、0.2以及0.4，那么针对类别T_j来说，得到的融合结果q_j即为0.2。

第二种方式、最大值方式

针对该种方式，对每个类别T_j，求取q_ij的最大值。换一种表达方式，对于每一个类别T_j，获取至少一帧图像中每一帧图像属于类别T_j的概率；之后，在每一帧图像属于类别T_j的概率中获取概率最大值，如此融合后的结果q_j便作为待分类视频属于类别T_j的概率。

继续以上述例子为例，则针对该种方式，得到的融合结果q_j即为0.4。

此外，在得到待分类视频属于每个类别T_j的概率q_j后，本发明实施例可按照下述方式来确定待分类视频所属的类别：

设定一个目标阈值γ，若q_j≥γ，则给待分类视频标记类别T_j，若q_j<γ，则不标记。

其中，目标阈值的大小可为0.8或0.9等，本发明实施例对此不进行具体限定。需要说明的是，可对一个待分类视频标记多个类别，本发明实施例对此同样不进行具体限定。

在另一个实施例中，参见图3，本发明实施例提供的视频分类方法可总结梳理为下述步骤。

步骤一、获取一个人工标记好类别的训练样本，该训练样本中包括多段已分类视频。

步骤二、获取一个初始深度网络。

步骤三、基于步骤一的训练样本对步骤二的初始深度网络进行训练，直至训练样本的损失函数最小化。

其中，参见图4，步骤三又可进一步地细分为下述三个步骤：

步骤3.1、将训练样本中所有视频的每一帧图像均放大或缩小到W*H。

步骤3.2、将经过缩放处理后的视频切分成多个视频片段。

步骤3.3、利用切分好的多个视频片段对初始深度网络进行训练，即通过调整初始深度网络中的参数，来最小化多个视频片段的损失函数。

步骤四、利用训练好的目标深度网络对待分类视频进行分类。

其中，参见图5，步骤四又可进一步地细分为下述三个步骤：

步骤4.1、将待分类视频中的每一帧图像均放大或缩小到W*H。

步骤4.2、将缩放后的待分类视频的部分图像或全部图像逐一输入到目标深度网络的，得到输入的每一帧图像属于每一个类别的概率。

步骤4.3、对输入的每一帧图像属于每一个类别的概率进行融合。

步骤4.4、基于融合结果确定待分类视频所属的类别。

本发明实施例提供的方法，在进行深度网络训练的过程中，引入了训练样本的损失函数这一概念，由于该损失函数中定义了同一视频的相邻两帧图像的类别预测结果之间的差异，所以本发明实施例还额外考虑到了视频中帧与帧之间的相关性，因此在基于训练得到的该种深度网络进行视频分类时，得到的分类结果的准确度更高，换一种表达方式，由于本发明实施例在进行视频分类时考虑了视频帧与帧之间的相关性约束，所以分类准确率更高。

图6是本发明实施例提供的一种视频分类装置的结构示意图。参见图6，该装置包括：

获取模块601，用于获取训练样本，所述训练样本中包括多段视频和所述多段视频的类别；

训练模块602，用于基于所述多段视频和所述多段视频的类别进行模型训练，得到目标深度网络，所述目标深度网络能够使得同一视频的相邻两帧图像的类别预测结果之间的差异最小；

获取模块601，还用于获取待分类视频的至少一帧图像；

输入模块603，用于将所述至少一帧图像输入到所述目标深度网络；

确定模块604，用于根据所述目标深度网络对所述至少一帧图像的类别预测结果，确定所述待分类视频所属的类别。

本发明实施例提供的装置，在进行视频分类时，本发明实施例考虑到了视频中帧与帧之间的相关性，即训练得到的深度网络能够使得待分类视频的相邻两帧图像的类别预测结果之间的差异最小，所以在基于该种深度网络进行视频分类时，得到的分类结果的准确度更高，换一种表达方式，由于本发明实施例在进行视频分类时考虑了视频帧与帧之间的相关性约束，所以分类准确率更高。

在另一个实施例中，训练模块602，还用于将所述多段视频中的每一段视频均切分成至少一个视频片段，一个所述视频片段中包括的多帧图像均来自于同一视频；根据所述多段视频的类别，确定切分得到的各个视频片段的实际分类结果；基于所述各个视频片段和所述实际分类结果进行模型训练。

在另一个实施例中，训练模块602，还用于基于所述各个视频片段和所述实际分类结果，对初始深度网络进行训练，直至所述训练样本的损失函数满足预设条件，得到所述目标深度网络。

在另一个实施例中，损失函数给出了任意一个视频片段的实际分类结果与类别预测结果之间的差异，以及，任意一个视频片段中相邻两帧图像的类别预测结果之间的差异。

在另一个实施例中，确定模块604，用于对于每一个类别，根据所述至少一帧图像的类别预测结果，获取所述至少一帧图像中每一帧图像属于所述类别的概率；对所述每一帧图像属于所述类别的概率求取平均值；若所述平均值大于目标阈值，则将所述待分类视频标记为所述类别。

在另一个实施例中，确定模块604，用于对于每一个类别，根据所述至少一帧图像的类别预测结果，获取所述至少一帧图像中每一帧图像属于所述类别的概率；在所述每一帧图像属于所述类别的概率中获取概率最大值；若所述概率最大值大于目标阈值，则将所述待分类视频标记为所述类别。

在另一个实施例中，输入模块603，用于按照预设尺寸对所述至少一帧图像进行缩放处理；将经过缩放处理后的至少一帧图像逐一输入到所述目标深度网络中。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的视频分类装置在进行视频分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频分类装置与视频分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种用于视频分类的设备的结构示意图，该设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的视频分类方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中的视频分类方法或资源领取方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述多段视频和所述多段视频的类别进行模型训练，包括：

将所述多段视频中的每一段视频均切分成至少一个视频片段，一个所述视频片段中包括的多帧图像均来自于同一视频；

根据所述多段视频的类别，确定切分得到的各个视频片段的实际分类结果；

基于所述各个视频片段和所述实际分类结果进行模型训练。

3.根据权利要求2所述的方法，其特征在于，所述基于所述各个视频片段和所述实际分类结果进行模型训练，包括：

基于所述各个视频片段和所述实际分类结果，对初始深度网络进行训练，直至所述训练样本的损失函数满足预设条件。

4.根据权利要求3所述的方法，其特征在于，所述损失函数给出了任意一个视频片段的实际分类结果与类别预测结果之间的差异，以及，任意一个视频片段中相邻两帧图像的类别预测结果之间的差异。

5.根据权利要求4所述的方法，其特征在于，所述损失函数的计算公式为：

其中，L指代所述损失函数，M指代切分出来的视频片段的数目，C指代视频的类别的数目，k指代M个视频片段中的第k个视频片段，j指代C个类别中的第j个类别，c_kj指代第k个视频片段属于第j个类别的实际概率，p_kj指代第k个视频片段属于第j个类别的预测概率，1≤k≤M，1≤j≤C；

为常数，L_k指代第k个视频片段中包含的帧数目，n指代第k个视频片段中的第n帧图像，p_k，n+1，j指代对第k个视频片段的第n+1帧图像进行类别分析并预测所述第n+1帧图像属于第j个类别的概率，p_k，n，j指代对第k个视频片段的第n帧进行类别分析并预测所述第n帧图像属于第j个类别的概率。

6.根据权利要求5所述的方法，其特征在于，所述f(c_kj,p_kj)的计算公式为：

f(c_kj,p_kj)＝-c_kj log p_kj-(1-c_kj)log(1-p_kj)。

7.根据权利要求1至6中任一权利要求所述的方法，其特征在于，所述根据所述目标深度网络对所述至少一帧图像的类别预测结果，确定所述待分类视频所属的类别，包括：

对于每一个类别，根据所述至少一帧图像的类别预测结果，获取所述至少一帧图像中每一帧图像属于所述类别的概率；

对所述每一帧图像属于所述类别的概率求取平均值；

若所述平均值大于目标阈值，则将所述待分类视频标记为所述类别。

8.根据权利要求1至6中任一权利要求所述的方法，其特征在于，所述根据所述目标深度网络对所述至少一帧图像的类别预测结果，确定所述待分类视频所属的类别，包括：

在所述每一帧图像属于所述类别的概率中获取概率最大值；

若所述概率最大值大于目标阈值，则将所述待分类视频标记为所述类别。

9.根据权利要求1至6中任一权利要求所述的方法，其特征在于，所述将所述至少一帧图像输入到所述目标深度网络，包括：

按照预设尺寸对所述至少一帧图像进行缩放处理；

将经过缩放处理后的至少一帧图像逐一输入到所述目标深度网络中。

10.一种视频分类装置，其特征在于，所述装置包括：

所述获取模块，还用于获取待分类视频的至少一帧图像；

11.根据权利要求10所述的装置，其特征在于，所述训练模块，还用于将所述多段视频中的每一段视频均切分成至少一个视频片段，一个所述视频片段中包括的多帧图像均来自于同一视频；根据所述多段视频的类别，确定切分得到的各个视频片段的实际分类结果；基于所述各个视频片段和所述实际分类结果进行模型训练。

12.根据权利要求11所述的装置，其特征在于，所述训练模块，还用于基于所述各个视频片段和所述实际分类结果，对初始深度网络进行训练，直至所述训练样本的损失函数满足预设条件。

13.根据权利要求12所述的装置，其特征在于，所述损失函数给出了任意一个视频片段的实际分类结果与类别预测结果之间的差异，以及，任意一个视频片段中相邻两帧图像的类别预测结果之间的差异。

14.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至9中任一个权利要求所述的视频分类方法。

15.一种用于视频分类的设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至9中任一个权利要求所述的视频分类方法。