CN110766096A

CN110766096A - 视频分类方法、装置及电子设备

Info

Publication number: CN110766096A
Application number: CN201911059325.6A
Authority: CN
Inventors: 李果; 陈熊; 汪贤; 樊鸿飞; 蔡媛
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-07
Anticipated expiration: 2039-10-31
Also published as: WO2021082743A1; CN110766096B

Abstract

本发明提供了一种视频分类方法、装置及电子设备，该方法包括：获取待分类视频；根据待分类视频中的多个目标图像帧，确定待分类视频对应的目标图像集，其中，目标图像集中包括多个目标图像帧；将目标图像集输入至目标分类模型，并获得目标分类模型输出的目标图像集对应的目标视频场景，其中，目标分类模型用于获取目标图像集中每个目标图像帧对应的图像特征，并根据每个目标图像帧对应的图像特征确定目标视频场景；根据目标图像集对应的目标视频场景，确定待分类视频的分类结果，其中，分类结果用于指示待分类视频的视频场景。本发明可以有效提高视频分类结果的准确度。

Description

视频分类方法、装置及电子设备

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种视频分类方法、装置及电子设备。

背景技术

近年来，随着各类视频APP(Application，应用程序)的发展，互联网中的视频数量也迅速增长，且内容丰富多样，通过对视频进行分类不仅便于用户查找所需视频，还有助于提取视频中所传达的信息。目前对视频进行分类时，需要对视频中抽取的图像帧所属的类别进行确认，再计算抽取的图像帧的分类结果的平均值，以得到最终的视频分类结果。发明人经研究发现，通过求取图像帧分类结果的平均值以确定视频分类结果的方法，准确度并不高。

发明内容

有鉴于此，本发明的目的在于提供一种视频分类方法、装置及电子设备，可以有效提高视频分类结果的准确度。

第一方面，本发明实施例提供了一种视频分类方法，包括：获取待分类视频；根据所述待分类视频中的多个目标图像帧，确定所述待分类视频对应的目标图像集，其中，所述目标图像集中包括所述多个目标图像帧；将所述目标图像集输入至目标分类模型，并获得所述目标分类模型输出的所述目标图像集对应的目标视频场景，其中，所述目标分类模型用于获取所述目标图像集中每个目标图像帧对应的图像特征，并根据所述每个目标图像帧对应的图像特征确定所述目标视频场景；根据所述目标图像集对应的所述目标视频场景，确定所述待分类视频的分类结果，其中，所述分类结果用于指示所述待分类视频的视频场景。

在一种实施方式中，所述图像特征包括浅层特征、深层特征、空间特征和时序特征中的一种或多种；所述目标分类模型包括特征融合网络，以及与所述特征融合网络连接的特征提取网络；其中，所述将所述目标图像集输入至目标分类模型，并获得所述目标分类模型输出的所述目标图像集对应的目标视频场景的步骤，包括：将所述目标图像集输入至目标分类模型的特征融合网络，通过所述特征提取网络提取所述目标图像集中每个目标图像帧的浅层特征；将所述浅层特征输入至所述目标分类模型的特征融合网络，通过所述特征融合网络基于所述浅层特征提取所述目标图像集中每个目标图像帧的深层特征、空间特征和时序特征，并基于所述深层特征、所述空间特征和所述时序特征输出所述目标图像集对应的目标视频场景；所述深层特征的特征层次高于所述浅层特征的特征层次。

在一种实施方式中，在所述将所述目标图像集输入至目标分类模型的特征融合网络，通过所述特征提取网络提取所述目标图像集中每个目标图像帧的浅层特征的步骤之前，所述方法还包括：获取预训练模型，将所述预训练模型的网络参数设置为所述特征提取网络的初始参数；通过反向传播对设置初始参数后的特征提取网络的指定层进行训练，并将训练后的特征提取网络作为所述目标分类模型中的特征提取网络。

在一种实施方式中，所述特征提取网络包括依次连接的多个特征提取子网络；所述将所述目标图像集输入至目标分类模型的特征融合网络，通过所述特征提取网络提取所述目标图像集中每个目标图像帧的浅层特征的步骤，包括：将所述目标图像集输入至目标分类模型的特征融合网络中第一个特征提取子网络，通过所述第一个特征提取子网络对所述目标图像集中每个目标图像帧进行特征提取；按照所述特征提取子网络的连接顺序，将所述第一个特征提取子网络提取的特征输入至下一特征提取子网络，通过所述下一特征提取子网络对所述第一个特征提取子网络提取的特征进行特征提取，直至得到所述目标图像集中每个目标图像帧的浅层特征。

在一种实施方式中，所述通过所述特征融合网络基于所述浅层特征提取所述目标图像集中每个目标图像帧的深层特征、空间特征和时序特征，并基于所述深层特征、所述空间特征和所述时序特征输出所述目标图像集对应的目标视频场景的步骤，包括：所述特征融合网络根据所述深层特征，确定所述目标图像集对应的第一概率集，其中，所述第一概率集中包括多个第一概率，每个所述第一概率用于指示所述目标图像集属于一种视频场景的概率；所述特征融合网络根据所述空间特征，确定所述目标图像集对应的第二概率集，其中，所述第二概率集中包括多个第二概率，每个所述第二概率用于指示所述目标图像集属于一种视频场景的概率；所述特征融合网络根据所述时序特征，确定所述目标图像集对应的第三概率集，其中，所述第三概率集中包括多个第三概率，每个所述第三概率用于指示所述目标图像集属于一种视频场景的概率；对同一所述视频场景对应的所述第一概率、所述第二概率和所述第三概率进行加权计算，得到各个所述视频场景对应的加权概率；将最大加权概率对应的视频场景，确定为所述目标图像集对应的目标视频场景。

在一种实施方式中，所述特征融合网络包括池化层、第二卷积层和第三卷积层；所述池化层、所述第二卷积层和所述第三卷积层的输入均与所述特征提取网络的输出相连；所述第二卷积层为2D卷积层；所述第三卷积层为3D卷积层；其中，所述特征融合网络根据所述深层特征，确定所述目标图像集对应的第一概率集的步骤，包括：所述特征融合网络中的所述池化层根据所述深层特征，确定所述目标图像集对应的所述第一概率集；所述特征融合网络根据所述空间特征，确定所述目标图像集对应的第二概率集的步骤，包括：所述特征融合网络中的所述第二卷积层根据所述空间特征，确定所述目标图像对应的第二概率集；所述特征融合网络根据所述时序特征，确定所述目标图像集对应的第三概率集的步骤，包括：所述特征融合网络中的所述第三卷积层根据所述时序特征，确定所述目标图像对应的第三概率集。

在一种实施方式中，在将所述目标图像集输入至目标分类模型的步骤之前，所述方法还包括：获取图像训练集，并将所述图像训练集输入至初始分类模型；根据所述初始分类模型针对所述图像训练集输出的分类结果，计算所述初始分类模型的损失函数；利用反向传播算法计算所述损失函数相对于所述初始分类模型的参数的导数；利用梯度下降算法和所述导数更新所述初始分类模型的参数，得到目标分类模型。

第二方面，本发明实施例还提供一种视频分类装置，包括：视频获取模块，用于获取待分类视频；图像集确定模块，用于根据所述待分类视频中的多个目标图像帧，确定所述待分类视频对应的目标图像集，其中，所述目标图像集中包括所述多个目标图像帧；输入模块，用于将所述目标图像集输入至目标分类模型，并获得所述目标分类模型输出的所述目标图像集对应的目标视频场景，其中，所述目标分类模型用于获取所述目标图像集中每个目标图像帧对应的图像特征，并根据所述每个目标图像帧对应的图像特征确定所述目标视频场景；分类确定模块，用于根据所述目标图像集对应的目标视频场景，确定所述待分类视频的分类结果，其中，所述分类结果用于指示所述待分类视频的视频场景。

第三方面，本发明实施例还提供一种电子设备，包括处理器和存储器；所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面提供的任一项所述的方法。

第四方面，本发明实施例还提供一种计算机存储介质，用于储存为第一方面提供的任一项所述方法所用的计算机软件指令。

本发明实施例带来了以下有益效果：

本发明实施例提供的视频分类方法、装置及电子设备，首先获取待分类视频，根据待分类视频中的多个目标图像帧(包括多个目标图像帧)，确定待分类视频对应的目标图像集，通过将目标图像集输入至目标分类模型，获得目标分类模型输出的目标图像集对应的目标视频场景，其中，目标分类模型用于获取目标图像集中每个目标图像帧对应的图像特征，并根据每个目标图像帧对应的图像特征确定目标视频场景，最终根据目标图像集对应的目标视频场景，确定用于指示待分类视频的视频场景的分类结果。相比于传统的视频分类方法，本发明实施例通过目标分类模型提取每个图像帧对应的图像特征确定了目标图像集的目标视频场景，并在此基础上进一步确定了待分类视频的视频场景的分类结果，可有效提升视频分类效率和准确率。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频分类方法的流程示意图；

图2为本发明实施例提供的一种目标分类模型的结构示意图；

图3为本发明实施例提供的另一种目标分类模型的结构示意图；

图4为本发明实施例提供的一种视频分类装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到通过求取图像帧分类结果的平均值，并根据平均值得到的视频分类结果存在准确度较低的问题，基于此，本发明实施提供的一种视频分类、装置及电子设备，可以有效提高视频分类结果的准确度。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种视频分类方法进行详细介绍，参见图1所示的一种视频分类方法的流程示意图，该方法可以包括以下步骤：

步骤S102，获取待分类视频。

待分类视频可以理解为视频场景未知的视频，其中，视频场景可以包括视频应用场景和视频空间场景等多种类别，例如体育、综艺、游戏、影视或动漫等视频应用场景，室内、森林或马路等视频空间场景。在一些实施方式中，待分类视频可以为用户录制的视频，也可以为从各类视频APP或视频网站中下载的视频。

步骤S104，根据待分类视频中的多个目标图像帧，确定待分类视频对应的目标图像集。

其中，目标图像集中包括多个目标图像帧，在一种实施方式中，可以将待分类视频中的每个图像帧均作为目标图像帧，得到包含有视频所有图像帧的目标图像集，也可以从待分类视频中按照预设间隔抽取多张目标图像帧，并将抽取的目标图像帧确定为目标图像集中包括的目标图像帧。

步骤S106，将目标图像集输入至目标分类模型，并获得目标分类模型输出的目标图像集对应的目标视频场景。

其中，目标分类模型用于获取目标图像集中每个目标图像帧对应的图像特征，并根据每个目标图像帧对应的图像特征确定目标视频场景，目标分类模型是预先训练得到的，在一种实施方式中，获取图像训练集，其中，图像训练集中的每张图像均携带有分类标签，将该图像训练集输入至初始分类模型，以使初始分类模型学习图像集中每张图像与分类标签之间的映射关系，从而得到用于视频分类的目标分类模型。在另一种实施方式中，分别获取图像训练集、图像验证集和图像测试集，且图像训练集、图像验证集和图像测试集中的每张图像均携带有分类标签，首先利用图像训练集训练初始分类模型，得到多个候选分类模型，再将图像验证集输入至各候选分类模型，以从各候选分类模型中选取分类效果较佳的一个候选分类模型，最后将图像测试集输入至选取的候选分类模型中，若选取的候选分类模型针对图像测试集的分类准确率高于预设阈值，则将选取的候选分类模型作为目标分类模型。

步骤S108，根据目标图像集对应的目标视频场景，确定待分类视频的分类结果。

其中，分类结果用于指示待分类视频的视频场景，在实际应用中，可以将目标图像集对应的目标视频场景确定为待分类视频的视频场景，进而可以得到待分类视频的分类结果，例如，假设目标图像集对应的视频分类场景为场景A，则待分类视频的分类结果将指示待分类视频的视频场景为场景A。

本发明实施例提供的上述视频分类方法，首先获取待分类视频，根据待分类视频中的多个目标图像帧(包括多个目标图像帧)，确定待分类视频对应的目标图像集，通过将目标图像集输入至目标分类模型，获得目标分类模型输出的目标图像集对应的目标视频场景，其中，目标分类模型用于获取目标图像集中每个目标图像帧对应的图像特征，并根据每个目标图像帧对应的图像特征确定目标视频场景，最终根据目标图像集对应的目标视频场景，确定用于指示待分类视频的视频场景的分类结果。相比于传统的视频分类方法，本发明实施例通过目标分类模型提取每个图像帧对应的图像特征确定了目标图像集的目标视频场景，并在此基础上进一步确定了待分类视频的视频场景的分类结果，可有效提升视频分类效率和准确率。

为便于对上述实施例提供的视频方法进行理解，本发明实施例还提供了一种目标分类模型，其中，目标分类模型包括特征融合网络，以及与特征融合网络连接的特征提取网络，参见图2所示的一种目标分类模型的结构示意图，图2示意出目标分类模型包括依次连接的特征提取网络和特征融合网络。

在实际应用中，目标分类模型可以提取目标图像集中每个目标图像帧对应的图像特征，图像特征又可以包括浅层特征、深层特征、空间特征和时序特征中的一种或多种。其中，浅层特征可以理解为目标图像集的基础特征，诸如边缘或轮廓等；深层特征可以理解为目标图像集的抽象特征，深层特征的特征层次高于浅层特征的特征层次，例如，若目标图像帧中包含有人脸，则抽象特征可以为整个脸型；空间特征也即空间关系特征，可以用于表征图像帧中多个目标之间的相互的位置空间或相对方向关系等，例如多个目标之间的关系包括连接关系、交叠关系或包含关系中的一种或多种；时序特征可以理解为目标图像帧的时序数据的特征。

在图2的基础上，上述特征提取网络的输入为待分类视频对应的目标图像集，特征提取网络的输出为目标图像集对应的浅层特征；特征融合网络的输入为上述目标图像集对应的浅层特征，特征融合网络的输出为目标图像集对应的目标视频场景。基于上述目标分类模型的网络结构，上述步骤S106可以参照如下步骤(一)至(二)执行：

(一)将目标图像集输入至目标分类模型的特征融合网络，通过特征提取网络提取目标图像集中每个目标图像帧的浅层特征；

其中，目标图像集的浅层特征可以为目标图像集中每个目标图像帧对应的特征图。例如，目标图像集中包含有N张尺寸为224*224的目标图像帧，此时特征提取网络的输入为N张尺寸为224*224的图像，对目标图像集中的每个目标图像帧进行特征提取后，输出N张尺寸为7*7的特征图，该N张尺寸为7*7的特征图即为前述浅层特征。

在一种实施方式中，特征提取网络包括ResNet(Residual Networks,残差网络)或VGGNet(Visual Geometry Group Network，视觉几何组网络)，考虑到传统的卷积神经网络(CNN，Convolutional Neural Networks)在信息传递时存在特征信息丢失的问题，本发明实施例采用ResNet网络或VGG网络，其中，Resnet网络和VGG网络不仅更为适合进行图像处理，而且Resnet网络通过直接将输入传输至输出，可以有效保护特征信息的完整性，在一定程度上有助于缓解现有技术中损失各帧图像之间特征信息的问题。

另外，本发明实施例提供的特征提取网络是基于迁移学习算法和fine tune算法训练得到的，其中，fine tune算法可以理解为将特征提取网络中的部分层的网络权值进行冻结，并通过反向传播算法修改目标层的网络权值。在实际应用中，在执行将目标图像集输入至目标分类模型的特征融合网络，通过特征提取网络提取目标图像集中每个目标图像帧的浅层特征的步骤之前，首先获取预训练模型，将预训练模型的网络参数设置为特征提取网络的初始参数，其中，预训练模型可以采用ImageNet数据集训练得到；然后通过反向传播对设置初始参数后的特征提取网络的指定层进行训练，并将训练后的特征提取网络作为目标分类模型中的特征提取网络，本发明实施例利用迁移学习算法和finetune算法有助于提高特征提取网络预训练的训练效率，并减少ImageNet数据集中所需的数据量，还可以加强特征提取网络的泛化性。

在另一种实施方式中，特征提取网络包括依次连接的多个特征提取子网络，且各特征提取子网络均包括依次连接的第一卷积层、归一化层、激活函数层和残差连接层。其中，第一卷积层用于对特征提取子网络的输入进行卷积处理，归一化层用于对特征提取子网络的输入进行批归一化处理，激活函数层用于对特征提取子网络的输入进行激活函数处理，残差连接层用于对特征提取子网络的输入进行残差连接处理。

在此基础上，本发明实施例提供了一种将目标图像集输入至目标分类模型的特征融合网络，通过特征提取网络提取目标图像集中每个目标图像帧的浅层特征的具体实现方式，参见如下步骤(1)至(2)：(1)将目标图像集输入至目标分类模型的特征融合网络中第一个特征提取子网络，通过第一个特征提取子网络对目标图像集中每个目标图像帧进行特征提取，其中，第一个特征提取子网络的输入为目标图像集中的每个目标图像帧，输出为每个目标图像帧的第一层特征；(2)按照特征提取子网络的连接顺序，将第一个特征提取子网络提取的特征输入至下一特征提取子网络，通过下一特征提取子网络对第一个特征提取子网络提取的特征进行特征提取，直至得到目标图像集中每个目标图像帧的浅层特征，对于除第一个特征提取子网络外剩余的每个特征提取子网络，该特征提取子网络的输入为该特征提取子网络的前一特征提取子网络输出的特征，通过对输入的特征再次进行特征提取，并将提取得到的特征输入至该特征提取子网络的下一特征提取子网络。例如，特征提取网络包括依次连接的5个特征提取子网络，也即特征提取子网络分为5个阶段，每个阶段依次输出不同尺寸的特征图，以得到图像集中每张图像对应的浅层特征。

(二)将浅层特征输入至目标分类模型的特征融合网络，通过特征融合网络基于浅层特征提取目标图像集中每个目标图像帧的深层特征、空间特征和时序特征，并基于深层特征、空间特征和时序特征输出目标图像集对应的目标视频场景。为便于理解，本发明实施例还提供了另一种目标分类模型，参见图3所示的另一种目标分类模型的结构示意图，图3示意出了特征融合网络包括池化层、第二卷积层和第三卷积层；池化层、第二卷积层和第三卷积层的输入均与特征提取网络的输出相连。

基于如上所述的目标分类模型的网络结构，上述步骤(2)可以参照如下步骤1至步骤5执行：

步骤1，特征融合网络根据深层特征，确定目标图像集对应的第一概率集。其中，第一概率集中包括多个第一概率，每个第一概率用于指示目标图像集属于一种视频场景的概率，在实际应用中，可以通过特征融合网络中的池化层根据深层特征，确定目标图像集对应的第一概率集。深层特征也可以理解为目标图像集中各图像帧的重点特征。例如，第一概率集包括用于指示目标图像集属于综艺的概率为70％、用于指示目标图像集属于体育的概率为50％、用于指示目标图像集属于动漫的概率为20％和用于指示目标图像集属于游戏的概率为20％等。

步骤2，特征融合网络根据空间特征，确定目标图像集对应的第二概率集，其中，第二概率集中包括多个第二概率，每个第二概率用于指示目标图像集属于一种视频场景的概率，在实际应用中，特征融合网络中的第二卷积层根据空间特征，确定目标图像对应的第二概率集。通过第二卷积层在浅层特征的基础上提取目标图像集中每个目标图像帧的空间特征，并基于空间特征输出第二概率集。其中，空间特征是在上述浅层特征的基础上进一步提取得到的2维特征，第二卷积层为2D卷积层。

步骤3，特征融合网络根据时序特征，确定目标图像集对应的第三概率集，其中，第三概率集中包括多个第三概率，每个第三概率用于指示目标图像集属于一种视频场景的概率，在一种具体的实施方式中，特征融合网络中的第三卷积层根据时序特征，确定目标图像对应的第三概率集。通过第三卷积层在浅层特征的基础上提取图像集的时序特征，并基于时序特征输出第三概率集。其中，时序特征是在上述浅层特征的基础上进一步提取得到的3维特征，第三卷积层为3D卷积层。

步骤4，对同一视频场景对应的第一概率、第二概率和第三概率进行加权计算，得到各个视频场景对应的加权概率。通过对上述池化层、第二卷积层和第三卷积层的输出进行加权平均，可以得到更为准确的待分类视频所有可能类别的概率。例如，对于综艺场景对应的第一概率、第二概率和第三概率进行加权计算，得到综艺场景的加权概率为75％，对于游戏场景对应的第一概率、第二概率和第三概率进行加权计算，得到游戏场景的加权概率为20％，通过对每个视频场景对应的第一概率、第二概率和第三概率进行加权计算，既可以得到每个视频场景对应的加权概率。

步骤5，将最大加权概率对应的视频场景，确定为目标图像集对应的目标视频场景。假设综艺场景的加权概率最大，则目标图像集对应的目标视频场景即为综艺场景。相较于现有的视频分类方式忽略了不同帧图像之间的关联性，本发明通过特征融合网络中的池化层、第二卷积层和第三卷积层可以充分提取图像集中不同级别不同尺寸的特征信息(也即，上述深度特征、空间特征和时间特征)，还可以利用特征融合网络融合图像集中各帧图像之间的特征信息，进而有效提高视频分类结果的准确度。

在执行将目标图像集输入至目标分类模型的步骤之前，本发明实施例还提供了一种训练如图3所示的目标分类模型的训练过程，该过程可以参照如下步骤a至步骤d执行：

步骤a，获取图像训练集，并将图像训练集输入至初始分类模型。在实际应用中，还可以获取图像测试集和图像验证集。其中，图像训练集用于训练初始分类模型，通过调节训练参数可以得到多个不同参数的多个候选分类模型，训练参数可以包括训练速率；图像验证集用于从多个候选分类模型中选取一个分类效果较佳的候选分类模型；图像测试集用于测试选取的候选分类模型的分类能力。本发明实施例提供了一种获取图像训练集、图像验证集和图像测试集的方法，包括如下步骤：(1)获取携带有分类标签的原始视频，考虑到目前尚无用于视频分类的公开数据集(也即，前述原始视频)，所以可从互联网上按类别获取大量相关视频，为了保证目标分类网络的泛化性，获取的视频类别应尽量广泛，例如游戏类别的数据集，可分别获取数十种不同游戏的相关视频；(2)按照预设比例将原始视频划分为第一视频集、第二视频集和第三视频集；(3)将第一视频集中的原始视频切割为第一预设时长的第一视频，并抽取第一视频中的多张帧图像，得到图像训练集；(4)将第二视频集中的原始视频切割为第二预设时长的第二视频，并抽取第二视频中的多张帧图像，得到图像验证集；(5)将第三视频集中的原始视频切割为第三预设时长的第三视频，并抽取第三视频中的多张帧图像，得到图像测试集。其中，上述第一预设时长、第二预设时长和第三预设时长可以为5至15秒，以将第一视频集、第二视频集和第三视频集中的原始视频切分为不同时长的短视频，并分别对得到的短视频进行等间隔抽取多张帧图像，即可得到上述图像训练集、图像验证集和图像测试集。另外，先将原始视频划分为第一视频集、第二视频集和第三视频集，再对视频集内的原始视频进行切割，可以保证图像训练集、图像验证集和图像测试集内的图像来源于不同原始视频，进而可以得到分类效果更佳的目标分类模型。

步骤b，根据初始分类模型针对图像训练集输出的分类结果，计算初始分类模型的损失函数。因为图像训练集中的每张图像均携带有分类标签，可以使初始分类模型学习图像与分类标签之间的映射关系，通过调节训练参数得到多个不同权重的候选分类模型。具体实施时，首先根据初始分类模型针对图像训练集输出的分类结果，计算初始分类模型的损失函数，其中，损失函数L使用交叉熵loss。

步骤c，利用反向传播算法计算损失函数相对于初始分类模型的参数的导数

步骤d，利用梯度下降(Adam)算法和导数更新初始分类模型的参数，得到目标分类模型。具体实施时，根据上述导数计算下降速率α，并利用下降速率α更新初始分类模型的权重参数，当得到的下降速率α不同时，将得到多个候选分类模型，其中根据上述导数计算下降速率α的公式如下所示：为进一步确定目标分类模型，可以将图像验证集输入至各候选分类模型，并基于各候选分类模型针对图像验证集输出的分类结果，从多个候选分类模型中选取一个候选分类模型，再将图像测试集输入至选取的候选分类模型，并基于选取的候选分类模型针对图像测试集输出的分类结果，计算选取的候选分类模型的分类准确率，如果分类准确率高于预设阈值，将选取的候选分类模型确定为训练得到的目标分类模型。

考虑到不用的训练参数会对初始分类模型的训练产生影响，会得到多个不同参数的候选分类模型；另外，即使采用相同的训练参数对初始分类模型进行训练，在后续收敛时模型也会存在小幅度的波动，得到多个不同参数的候选分类模型，因此需要图像验证集从多个候选分类模型中选取出一个分类效果较佳的分类模型。例如，从多个候选分类模型中选取一个候选分类模型后，利用图像测试集对选取的候选分类模型进行测试，其中，图像测试集中的图像来源于4中类型的视频，包括游戏类别、秀场类别、综艺类别和体育类别，且每类视频的个数为40个。测试结果如下表1所示，分类结果的平均精度已达到90％以上。

表1

类别	游戏类别	秀场类别	综艺类别	体育类别
					精度	97.5％	80％	90％	97.5％

在上述实施例的基础上，本发明实施例提供了一种目标分类模型的具体应用实例，例如，利用该目标分类模型实现视频编码，在一种具体的实施方式中，获取分段视频流，将该分段视频流输入至预设的第一线程和第二线程中，其中，第一线程中部署有上述目标分类模型，通过第一线程中的目标分类模型确定分段视频流对应的视频场景，进而通过第二线程在分段视频流对应的视频场景的基础上对分段视频流进行编码。当视频帧图像为多张时，特征融合层对多张视频帧图像的特征参数进行融合，得到多张视频帧图像的融合特征，对融合特征进行分类，得到多张视频帧图像整体对应的视频场景，并将多张视频帧图像整体对应的视频场景确定为第一分段视频流的第一视频场景。当视频帧图像为多张且多张视频帧图像对应的视频场景不相同时，由于视频场景通常表示为概率值，比如某一张视频帧图像对应的视频场景为动漫的概率为80％，游戏的概率为20％。因此，可以将概率值最高的视频场景确定为第一分段视频流的第一视频场景；或者，还可以先针对多张视频帧图像计算每一种视频场景的概率总和，然后将概率总和最大的视频场景确定为第一分段视频流的第一视频场景。通过利用本发明实施例提供的目标分类模型对分段视频流进行分类，可以得到更为准确的分类结果，进而可以使编码后的分段视频流更好地当前的视频场景。

综上所述，本发明实施例利用特征融合网络中的池化层、2D卷积层和3D卷积层可以更为全面的提取图像集中特征信息，相较于现有的视频分类方法忽略了不同帧图像之间的关联性，本发明采用特征融合网络能够较好地提取并融合图像集中不同帧图像之间的特征信息，可以有效提高视频分类结果的准确度。

对于上述实施例提供的视频分类方法，本发明实施例还提供了一种视频分类装置，参见图4所示的一种视频分类装置的结构示意图，该装置可以包括以下部分：

视频获取模块402，用于获取待分类视频。

图像集确定模块404，用于根据待分类视频中的多个目标图像帧，确定待分类视频对应的目标图像集，其中，目标图像集中包括多个目标图像帧。

输入模块406，用于将目标图像集输入至目标分类模型，并获得目标分类模型输出的目标图像集对应的目标视频场景，其中，目标分类模型用于获取目标图像集中每个目标图像帧对应的图像特征，并根据每个目标图像帧对应的图像特征确定目标视频场景。

分类确定模块408，用于根据目标图像集对应的目标视频场景，确定待分类视频的分类结果，其中，分类结果用于指示待分类视频的视频场景。

本发明实施例提供的视频分类装置，相比于传统的视频分类方法，本发明实施例通过目标分类模型提取每个图像帧对应的图像特征确定了目标图像集的目标视频场景，并在此基础上进一步确定了待分类视频的视频场景的分类结果，可有效提升视频分类效率和准确率。

在一种实施方式中，图像特征包括浅层特征、深层特征、空间特征和时序特征中的一种或多种；目标分类模型包括特征融合网络，以及与特征融合网络连接的特征提取网络；上述输入模块406还用于：将目标图像集输入至目标分类模型的特征融合网络，通过特征提取网络提取目标图像集中每个目标图像帧的浅层特征；将浅层特征输入至目标分类模型的特征融合网络，通过特征融合网络基于浅层特征提取目标图像集中每个目标图像帧的深层特征、空间特征和时序特征，并基于深层特征、空间特征和时序特征输出目标图像集对应的目标视频场景；深层特征的特征层次高于浅层特征的特征层次。

在一种实施方式中，上述视频分类装置还包括第一训练模块，用于：获取预训练模型，将预训练模型的网络参数设置为特征提取网络的初始参数；通过反向传播对设置初始参数后的特征提取网络的指定层进行训练，并将训练后的特征提取网络作为目标分类模型中的特征提取网络。

在一种实施方式中，特征提取网络包括依次连接的多个特征提取子网络；上述输入模块406还用于：将目标图像集输入至目标分类模型的特征融合网络中第一个特征提取子网络，通过第一个特征提取子网络对目标图像集中每个目标图像帧进行特征提取；按照特征提取子网络的连接顺序，将第一个特征提取子网络提取的特征输入至下一特征提取子网络，通过下一特征提取子网络对第一个特征提取子网络提取的特征进行特征提取，直至得到目标图像集中每个目标图像帧的浅层特征。

在一种实施方式中，上述输入模块406还用于：特征融合网络根据深层特征，确定目标图像集对应的第一概率集，其中，第一概率集中包括多个第一概率，每个第一概率用于指示目标图像集属于一种视频场景的概率；特征融合网络根据空间特征，确定目标图像集对应的第二概率集，其中，第二概率集中包括多个第二概率，每个第二概率用于指示目标图像集属于一种视频场景的概率；特征融合网络根据时序特征，确定目标图像集对应的第三概率集，其中，第三概率集中包括多个第三概率，每个第三概率用于指示目标图像集属于一种视频场景的概率；对同一视频场景对应的第一概率、第二概率和第三概率进行加权计算，得到各个视频场景对应的加权概率；将最大加权概率对应的视频场景，确定为目标图像集对应的目标视频场景。

在一种实施方式中，特征融合网络包括池化层、第二卷积层和第三卷积层；池化层、第二卷积层和第三卷积层的输入均与特征提取网络的输出相连；第二卷积层为2D卷积层；第三卷积层为3D卷积层；上述输入模块406还用于：特征融合网络中的池化层根据深层特征，确定目标图像集对应的第一概率集；特征融合网络根据空间特征，确定目标图像集对应的第二概率集的步骤，包括：特征融合网络中的第二卷积层根据空间特征，确定目标图像对应的第二概率集；特征融合网络根据时序特征，确定目标图像集对应的第三概率集的步骤，包括：特征融合网络中的第三卷积层根据时序特征，确定目标图像对应的第三概率集。

在一种实施方式中，上述视频分类装置还包括第二训练模块，用于：获取图像训练集，并将图像训练集输入至初始分类模型；根据初始分类模型针对图像训练集输出的分类结果，计算初始分类模型的损失函数；利用反向传播算法计算损失函数相对于初始分类模型的参数的导数；利用梯度下降算法和导数更新初始分类模型的参数，得到目标分类模型。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

该设备为一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图5为本发明实施例提供的一种电子设备的结构示意图，该电子设备100包括：处理器50，存储器51，总线52和通信接口53，所述处理器50、通信接口53和存储器51通过总线52连接；处理器50用于执行存储器51中存储的可执行模块，例如计算机程序。

其中，存储器51可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线52可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器51用于存储程序，所述处理器50在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器50中，或者由处理器50实现。

处理器50可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51，处理器50读取存储器51中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频分类方法，其特征在于，包括：

获取待分类视频；

根据所述待分类视频中的多个目标图像帧，确定所述待分类视频对应的目标图像集，其中，所述目标图像集中包括所述多个目标图像帧；

将所述目标图像集输入至目标分类模型，并获得所述目标分类模型输出的所述目标图像集对应的目标视频场景，其中，所述目标分类模型用于获取所述目标图像集中每个目标图像帧对应的图像特征，并根据所述每个目标图像帧对应的图像特征确定所述目标视频场景；

根据所述目标图像集对应的所述目标视频场景，确定所述待分类视频的分类结果，其中，所述分类结果用于指示所述待分类视频的视频场景。

2.根据权利要求1所述的方法，其特征在于，所述图像特征包括浅层特征、深层特征、空间特征和时序特征中的一种或多种；所述目标分类模型包括特征融合网络，以及与所述特征融合网络连接的特征提取网络；其中，

所述将所述目标图像集输入至目标分类模型，并获得所述目标分类模型输出的所述目标图像集对应的目标视频场景的步骤，包括：

将所述目标图像集输入至目标分类模型的特征融合网络，通过所述特征提取网络提取所述目标图像集中每个目标图像帧的浅层特征；

将所述浅层特征输入至所述目标分类模型的特征融合网络，通过所述特征融合网络基于所述浅层特征提取所述目标图像集中每个目标图像帧的深层特征、空间特征和时序特征，并基于所述深层特征、所述空间特征和所述时序特征输出所述目标图像集对应的目标视频场景；所述深层特征的特征层次高于所述浅层特征的特征层次。

3.根据权利要求2所述的方法，其特征在于，在所述将所述目标图像集输入至目标分类模型的特征融合网络，通过所述特征提取网络提取所述目标图像集中每个目标图像帧的浅层特征的步骤之前，所述方法还包括：

获取预训练模型，将所述预训练模型的网络参数设置为所述特征提取网络的初始参数；

通过反向传播对设置初始参数后的特征提取网络的指定层进行训练，并将训练后的特征提取网络作为所述目标分类模型中的特征提取网络。

4.根据权利要求2所述的方法，其特征在于，所述特征提取网络包括依次连接的多个特征提取子网络；

所述将所述目标图像集输入至目标分类模型的特征融合网络，通过所述特征提取网络提取所述目标图像集中每个目标图像帧的浅层特征的步骤，包括：

将所述目标图像集输入至目标分类模型的特征融合网络中第一个特征提取子网络，通过所述第一个特征提取子网络对所述目标图像集中每个目标图像帧进行特征提取；

按照所述特征提取子网络的连接顺序，将所述第一个特征提取子网络提取的特征输入至下一特征提取子网络，通过所述下一特征提取子网络对所述第一个特征提取子网络提取的特征进行特征提取，直至得到所述目标图像集中每个目标图像帧的浅层特征。

5.根据权利要求2所述的方法，其特征在于，所述通过所述特征融合网络基于所述浅层特征提取所述目标图像集中每个目标图像帧的深层特征、空间特征和时序特征，并基于所述深层特征、所述空间特征和所述时序特征输出所述目标图像集对应的目标视频场景的步骤，包括：

所述特征融合网络根据所述深层特征，确定所述目标图像集对应的第一概率集，其中，所述第一概率集中包括多个第一概率，每个所述第一概率用于指示所述目标图像集属于一种视频场景的概率；

所述特征融合网络根据所述空间特征，确定所述目标图像集对应的第二概率集，其中，所述第二概率集中包括多个第二概率，每个所述第二概率用于指示所述目标图像集属于一种视频场景的概率；

所述特征融合网络根据所述时序特征，确定所述目标图像集对应的第三概率集，其中，所述第三概率集中包括多个第三概率，每个所述第三概率用于指示所述目标图像集属于一种视频场景的概率；

对同一所述视频场景对应的所述第一概率、所述第二概率和所述第三概率进行加权计算，得到各个所述视频场景对应的加权概率；

将最大加权概率对应的视频场景，确定为所述目标图像集对应的目标视频场景。

6.根据权利要求5所述的方法，其特征在于，所述特征融合网络包括池化层、第二卷积层和第三卷积层；所述池化层、所述第二卷积层和所述第三卷积层的输入均与所述特征提取网络的输出相连；所述第二卷积层为2D卷积层；所述第三卷积层为3D卷积层；其中，

所述特征融合网络根据所述深层特征，确定所述目标图像集对应的第一概率集的步骤，包括：所述特征融合网络中的所述池化层根据所述深层特征，确定所述目标图像集对应的所述第一概率集；

所述特征融合网络根据所述空间特征，确定所述目标图像集对应的第二概率集的步骤，包括：所述特征融合网络中的所述第二卷积层根据所述空间特征，确定所述目标图像对应的第二概率集；

所述特征融合网络根据所述时序特征，确定所述目标图像集对应的第三概率集的步骤，包括：所述特征融合网络中的所述第三卷积层根据所述时序特征，确定所述目标图像对应的第三概率集。

7.根据权利要求1所述的方法，其特征在于，在将所述目标图像集输入至目标分类模型的步骤之前，所述方法还包括：

获取图像训练集，并将所述图像训练集输入至初始分类模型；

根据所述初始分类模型针对所述图像训练集输出的分类结果，计算所述初始分类模型的损失函数；

利用反向传播算法计算所述损失函数相对于所述初始分类模型的参数的导数；

利用梯度下降算法和所述导数更新所述初始分类模型的参数，得到目标分类模型。

8.一种视频分类装置，其特征在于，包括：

视频获取模块，用于获取待分类视频；

图像集确定模块，用于根据所述待分类视频中的多个目标图像帧，确定所述待分类视频对应的目标图像集，其中，所述目标图像集中包括所述多个目标图像帧；

输入模块，用于将所述目标图像集输入至目标分类模型，并获得所述目标分类模型输出的所述目标图像集对应的目标视频场景，其中，所述目标分类模型用于获取所述目标图像集中每个目标图像帧对应的图像特征，并根据所述每个目标图像帧对应的图像特征确定所述目标视频场景；

分类确定模块，用于根据所述目标图像集对应的目标视频场景，确定所述待分类视频的分类结果，其中，所述分类结果用于指示所述待分类视频的视频场景。

9.一种电子设备，其特征在于，包括处理器和存储器；

所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至7任一项所述的方法。

10.一种计算机存储介质，其特征在于，用于储存为权利要求1至7任一项所述方法所用的计算机软件指令。