CN110119757B

CN110119757B - 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质

Info

Publication number: CN110119757B
Application number: CN201910245154.XA
Authority: CN
Inventors: 刘洁; 王涛; 蔡东阳; 刘倩
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2021-05-25
Anticipated expiration: 2039-03-28
Also published as: CN110119757A

Abstract

本申请实施例公开了模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质。该视频类别检测方法的实施例包括：抽取目标视频的关键帧，生成关键帧序列；将该关键帧序列输入至特征提取模型，得到与该关键帧序列对应的特征信息序列；将该特征信息序列输入至视频类别检测模型，得到该目标视频的类别检测结果。该实施方式提高了视频类别检测的效率。

Description

模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质

技术领域

本申请实施例涉及计算机技术领域，具体涉及模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质。

背景技术

随着计算机技术的发展，视频类应用应运而生。用户可以利用视频类应用上传、发布视频。为保证视频质量以及便于向其他用户进行视频推送，通常需要确定用户上传的视频的所涉及的内容的类别。

相关的方式，通常是利用三维卷积神经网络提取视频特征，进而基于该视频特征对视频进行分类。然而，由于三维卷积神经网络占用的存储空间较大，数据计算量较多，因而，利用这种方式进行视频类别检测的效率较低。

发明内容

本申请实施例提出了模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质，以解决现有技术中在对视频进行类别检测时，由于三维卷积神经网络占用存储的空间较大、数据计算量较多，导致视频类别检测的效率较低的技术问题。

第一方面，本申请实施例提供了一种模型训练方法，包括：获取样本集，其中，样本集中的样本包括样本视频和样本视频的类别标注；对样本集中的各样本视频进行关键帧抽取，生成与各样本视频分别对应的样本关键帧序列；将所生成的样本关键帧序列输入至轻量化的卷积神经网络，将轻量化的卷积神经网络所输出的信息输入至时间关系网络，将目标类别标注作为时间关系网络的输出，利用机器学习方法，对轻量化的卷积神经网络和时间关系网络进行训练，其中，目标类别标注为输入至轻量化的卷积神经网络中的样本关键帧序列所对应的类别标注；将训练后的轻量化的卷积神经网络确定为特征提取模型，将训练后的时间关系网络确定为视频类别检测模型。

第二方面，本申请实施例提供了一种视频类别检测方法，该方法包括：抽取目标视频的关键帧，生成关键帧序列；将关键帧序列输入至如上述第一方面中的实施例所描述的方法训练的特征提取模型，得到与关键帧序列对应的特征信息序列；将特征信息序列输入至如上述第一方面中的实施例所描述的方法训练的视频类别检测模型，得到目标视频的类别检测结果。

在一些实施例中，在生成关键帧序列之前，该方法还包括：对所抽取的关键帧进行预处理，其中，预处理包括以下至少一项：尺寸裁剪、翻转、亮度增强、噪声处理和像素值归一化。

在一些实施例中，抽取目标视频的关键帧，包括：对目标视频进行解封装，生成目标视频流数据；对目标视频流数据进行多线程解码；从解码后所得到的帧中提取关键帧。

在一些实施例中，抽取目标视频的关键帧，包括：对目标视频进行解封装，生成目标视频流数据；利用指定的软件开发工具包初始化硬件解码器；利用硬件解码器对目标视频流数据进行解码；从解码后所得到的帧中提取关键帧。

在一些实施例中，在得到目标视频的类别检测结果之后，该方法还包括：将类别检测结果所指示的类别确定为目标类别，将目标视频存储至目标类别对应的视频库中；和/或，对目标视频的类别进行标注，将标注后的目标视频存储至样本集；和/或，将类别检测结果所指示的类别确定为目标类别，确定与目标类别相匹配的目标用户，向目标用户推送目标视频。

第三方面，本申请实施例提供了一种模型训练装置，包括：获取单元，被配置成获取样本集，其中，样本集中的样本包括样本视频和样本视频的类别标注；抽取单元，被配置成对样本集中的各样本视频进行关键帧抽取，生成与各样本视频分别对应的样本关键帧序列；训练单元，被配置成将所生成的样本关键帧序列输入至轻量化的卷积神经网络，将轻量化的卷积神经网络所输出的信息输入至时间关系网络，将目标类别标注作为时间关系网络的输出，利用机器学习方法，对轻量化的卷积神经网络和时间关系网络进行训练，其中，目标类别标注为输入至轻量化的卷积神经网络中的样本关键帧序列所对应的类别标注；确定单元，被配置成将训练后的轻量化的卷积神经网络确定为特征提取模型，将训练后的时间关系网络确定为视频类别检测模型。

第四方面，本申请实施例提供了一种视频类别检测装置，该装置包括：抽帧单元，被配置成抽取目标视频的关键帧，生成关键帧序列；特征提取单元，被配置成将关键帧序列输入至如上述第一方面中的实施例所描述的方法训练的特征提取模型，得到与关键帧序列对应的特征信息序列；类别检测单元，被配置成将特征信息序列输入至如上述第一方面中的实施例所描述的方法训练的视频类别检测模型，得到目标视频的类别检测结果。

在一些实施例中，该装置还包括：预处理单元，被配置成对所抽取的关键帧进行预处理，其中，预处理包括以下至少一项：尺寸裁剪、翻转、亮度增强、噪声处理和像素值归一化。

在一些实施例中，抽帧单元，包括：第一解封装模块，被配置成对目标视频进行解封装，生成目标视频流数据；第一解码模块，被配置成对目标视频流数据进行多线程解码；第一提取模块，被配置成从解码后所得到的帧中提取关键帧。

在一些实施例中，抽帧单元，包括：第二解封装模块，被配置成对目标视频进行解封装，生成目标视频流数据；初始化模块，被配置成利用指定的软件开发工具包初始化硬件解码器；第二解码模块，被配置成利用硬件解码器对目标视频流数据进行解码；第二提取模块，被配置成从解码后所得到的帧中提取关键帧。

在一些实施例中，该装置还包括：第一存储单元，被配置成将类别检测结果所指示的类别确定为目标类别，将目标视频存储至目标类别对应的视频库中；和/或，第二存储单元，被配置成对目标视频的类别进行标注，将标注后的目标视频存储至样本集；和/或，推送单元，被配置成将类别检测结果所指示的类别确定为目标类别，确定与目标类别相匹配的目标用户，向目标用户推送目标视频。

第五方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述第一方面和第二方面中任一实施例的方法。

第六方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面和第二方面中任一实施例的方法。

本申请实施例提供的模型训练方法、视频类别检测方法、装置和电子设备，首先通过抽取目标视频的关键帧，从而得到目标视频的关键帧序列。而后，将关键帧序列输入至预先训练的特征提取模型，得到与关键帧序列对应的特征信息序列。最后，将特征信息序列输入至预先训练的视频类别检测模型，得到目标视频的类别检测结果。由于特征提取模型是通过对轻量级的卷积神经网络训练得到，且轻量级的模型占用存储空间较小、数据计算量较少，因此，可以提高视频类别检测的效率。此外，由于训练视频类别检测模型时使用了时间关系网络，且该网络能够捕捉视频帧之间的时间关系变化，因此，在提高了视频类别检测的效率的同时，能够保证视频分类的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的模型训练方法的一个实施例的流程图；

图2是根据本申请的模型训练方法的一个轻量化的卷积神经网络的结构示意图；

图3是根据本申请的模型训练方法的一个时间关系网络的计算过程示意图；

图4是根据本申请的视频类别检测方法的一个实施例的流程图；

图5是根据本申请的视频类别检测方法的又一个实施例的流程图；

图6是根据本申请的视频模型训练装置的一个实施例的结构示意图；

图7是根据本申请的视频类别检测装置的一个实施例的结构示意图；

图8是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了根据本申请的模型训练方法的一个实施例的流程100。该模型训练方法，包括以下步骤：

步骤101，获取样本集。

在本实施例中，模型训练方法的执行主体(例如服务器等电子设备)可以获取样本集。其中，所述样本集中的样本可以包括样本视频和所述样本视频的类别标注。此处，样本集中的样本视频可以从互联网中采集，也可以从终端设备发送。上述类别标注可以用于指示样本视频的类别。每一个样本视频具有一个类别标注。

步骤102，对样本集中的各样本视频进行关键帧抽取，生成与各样本视频分别对应的样本关键帧序列。

在本实施例中，所述执行主体可以利用各种抽帧方法或工具(例如开源的视频处理工具FFmpeg)对所述样本集中的各样本视频进行关键帧抽取，生成与各样本视频分别对应的样本关键帧序列。

步骤103，将所生成的样本关键帧序列输入至轻量化的卷积神经网络，将轻量化的卷积神经网络所输出的信息输入至时间关系网络，将目标类别标注作为时间关系网络的输出，利用机器学习方法，对轻量化的卷积神经网络和时间关系网络进行训练。

在本实施例中，所述执行主体可以将所生成的样本关键帧序列输入至轻量化的卷积神经网络，将所述轻量化的卷积神经网络所输出的信息输入至时间关系网络，将目标类别标注作为所述时间关系网络(Temporal Relation Network，TRN)的输出，利用机器学习方法，对所述轻量化的卷积神经网络和所述时间关系网络进行训练。其中，所述目标类别标注为输入至所述轻量化的卷积神经网络中的样本关键帧序列所对应的类别标注。在训练过程中，可以逐一地将样本关键帧序列进行输入。每输入一个关键帧序列，可以基于时间关系网络的输出和该关键帧序列对应的类别标注，对各网络进行一次参数更新。

实践中，卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于图像处理有出色表现，因而，可以利用卷积神经网络进行关键帧的特征的提取。此处，轻量化的卷积神经网络可以是占用存储空间较小且参数较少的卷积神经网络网络结构。通过轻量化的卷积神经网络进行特征提取，可以提升特征提取效率。

在本实施例中，上述轻量化的卷积神经网络可以采用现有的MobileNet V2网络结构。上述MobileNet V2网络结构是对MobileNet V1网络结构的改进。MobileNet V1网络结构的主要工作，是使用深度级可分离卷积(depthwise sparable convolutions)替代以往的标准卷积(standard convolutions)来解决卷积网络的计算效率和参数量的问题。这里，基于深度级可分离卷积，可以将标准卷积分解成一个深度卷积和一个点卷积(1×1卷积核)。通过深度卷积可以将每个卷积核应用到每一个通道，通过点卷积可以组合通道卷积的输出。上述MobileNet V2网络结构将MobileNet V1网络结构的深度级可分离卷积之前，设置了另一个用于提升通道数的卷积层。由此，可以获得更多特征。由于MobileNet V2网络结构占用的存储空间较小，因此，由MobileNet V2网络结构训练得到的特征提取模型，不仅可以部署在服务端，也可以部署在移动端。利用该网络结构，可以提升特征提取效率。

请参见图2，图2为一个轻量化的卷积神经网络的结构示意图，该轻量级的卷积神经网络采用MobileNet V2网络结构。具体地，如图2所示，网络结构包含三个卷积层，分别为采用1×1的卷积核的点卷积层(可称为第一卷积层，可以用“Pointwise convolution 1×1”表示，)、采用3×3的卷积核的深度卷积层(可称为第二卷积层，可以用“Depthwiseconvolution 3×3”表示)、采用1×1的卷积核的点卷积层(可称为第三卷积层，也可以用“Pointwise convolution 1×1”表示)。当数据输入至第一卷积层进行卷积计算后，可以使用ReLU6(即限制最大输出值为6的ReLU(Rectified Linear Unit，修正线性单元))作为激活函数，对第一卷积层所输出的数据进行非线性处理。而后，将非线性处理后的数据继续输入至第二卷积层进行卷积计算。在卷积计算后，也可以使用ReLU6作为激活函数，对第二卷积层输出的数据进行非线性处理。之后，可以将上述再次进行非线性处理后的数据输入至第三卷积层进行卷积计算。最后，第三卷积层进行卷积计算后进行数据输出，不再进行非线性处理。由于不再使用激活函数进行非线性处理，因而第三卷积层的输出为线性的(Linear)。

需要说明的是，上述轻量化的卷积神经网络除采用MobileNet V2网络结构外，还可以采用现有的其他结构。例如，可以采用MobileNet V1等其他网络结构。

实践中，时间关系网络可以用于学习和推理视频帧之间的时间关系。其目标是探索视频在多个时间尺度上的时间关系。在时间关系网络中，对于一个给定的视频V，该视频V中的两个帧的时间关系T₂(V)可以表示为：

其中，f_i、f_j分别表示是视频V的第i帧和第j帧的特征信息。i和j均为正整数。g_θ为表征上述第i帧和第j帧之间的关系的函数，h_φ为用于融合多组帧的关系并得到最终分类的结果的函数。g_θ和h_φ可以用多层感知机(Multi-Layer Perceptron，MLP)实现。例如，g_θ可以由一个全连接层构成。h_φ可以由两全连接层构成。g_θ和h_φ中的参数可以通过机器学习方法确定。

同理，该视频V中的三个帧的时间关系T₃(V)可以表示为：

其中，f_k表示是视频V的第k帧和第j帧的特征信息。k为正整数。g'_θ为表征上述第i帧、第j帧、第k帧之间的关系的函数，h'_φ为用于融合多组帧的关系并得到最终分类的结果的函数。g'_θ和h'_φ也可以用多层感知机(Multi-Layer Perceptron，MLP)实现。例如，g'_θ可以由一个全连接层构成。h'_φ可以由两全连接层构成。g'_θ和h'_φ中的参数也可以通过机器学习方法确定。

同理，该视频V中的四个帧的时间关系可以用T₄(V)表示。以此类推。该视频V中的N个帧的时间关系可以用T_N(V)表示。其中，N为正整数。将多个尺度的时间关系进行融合，可得到多尺度时间关系，即视频的类别检测结果。此处，多尺度时间关系(例如N个尺度的时间关系)MT_N(V)可以表示为：

MT_N(V)＝T₂(V)+T₃(V)…+T_N(V)

在本实施例中，可以使用多尺度的时间关系网络(例如8个尺度的时间关系网络，即N＝8)，进行视频类别检测模型的训练。此处，可以利用有监督学习的方式，对时间关系网络进行训练，得到视频类别检测模型。实践中，可以同时进行上述特征提取模型和上述视频类别检测模型的训练。

实践中，在将样本关键帧序列输入至上述轻量化的卷积神经网络后，所述轻量化的卷积神经网络所可以输出各帧的特征。将各帧的特征输入到时间关系网络进行处理后，即可预测出该样本中的样本视频的类别。继续参见图3，图3示出了时间关系网络的计算过程示意图。如图3所示，时间关系网络可以首先基于各帧的特征，计算出两个帧的时间关系、三个帧的时间关系、四个帧的时间关系、以此类推。直至计算出N个帧的时间关系。而后，可以将所确定的各时间关系进行嘉禾，得到多尺度时间关系。最后，可以将所述多尺度时间关系输入至分类器进行分类，从而预测出样本视频的类别。其中，所述分类器可以是所述时间关系网络所使用的用于进行分类的函数(例如softmax函数)。

步骤104，将训练后的轻量化的卷积神经网络确定为特征提取模型，将训练后的时间关系网络确定为视频类别检测模型。

在本实施例中，所述执行主体可以将训练后的上述轻量化的卷积神经网络确定为特征提取模型，将训练后的上述时间关系网络确定为视频类别检测模型。实践中，可以通过多种方式确定是否训练完成。作为示例，当时间关系网络输出的类别的准确率达到预设的阈值(例如95％)时，可以确定训练完成。作为又一示例，若时间关系网络的损失值收敛时，可以确定训练完成。此处，当确定训练完成，即可将训练后的上述轻量化的卷积神经网络确定为特征提取模型，将训练后的上述时间关系网络确定为视频类别检测模型。

请参考图4，其示出了根据本申请的视频类别检测方法的一个实施例的流程400。该视频类别检测方法，包括以下步骤：

步骤401，抽取目标视频的关键帧，生成关键帧序列；

在本实施例中，视频类别检测方法的执行主体(例如服务器等电子设备)可以抽取目标视频的关键帧，将所抽取的关键帧依次汇总为关键帧序列。其中，目标视频可以是待进行类别检测的视频。目标视频可以是预先存储在上述执行主体中的，也可以由其他电子设备(例如终端设备)发送给上述执行主体的。

实践中，视频可以用帧(Frame)来描述。这里，帧是组成视频的最小视觉单位。每一帧是一幅静态的图像。将时间上连续的帧序列合成到一起便形成视频。这里，目标视频的格式可以是任一常用的视频格式，例如avi、mp4、mkv、flv、rm、rmvb等视频格式。

此处，视频的类别可以根据视频的内容或者视频中的对象划分为多种。作为示例，可以划分为人物、动物、风景、建筑等。作为又一示例，可以划分为海边、沙漠、山峰、草原等等。需要说明的是，视频的类别不限于上述划分方式，也可以预先根据视频所表现的内容按照其他形式进行划分，此处不作限定。

需要说明的是，上述执行主体可以利用各种抽帧方法或工具(例如开源的视频处理工具FFmpeg)对目标视频的关键帧进行抽取。其中，关键帧又称I帧或者帧内编码帧。关键帧是一种自带全部信息的独立帧。关键帧无需参考其他图像便可独立进行解码。

以往的方式，在进行视频识别时，通常采用均匀间隔抽帧的方式对视频进行处理。进而基于对所抽取的各帧的识别结果，确定视频类别。然而，这种方式所抽取的帧不一定是关键帧，导致视频类别检测的准确性较低。这里，仅对关键帧进行抽取，有助于提高视频类别检测的准确性；同时，由于关键帧的带有帧的全部信息，不需要依赖其他帧的信息进行处理，因而此处抽取关键帧，能够提高抽帧的效率。

在本实施例的一些可选的实现方式中，上述执行主体可以基于软解码的方式进行关键帧抽取。具体可以按照如下步骤执行：

第一步，对上述目标视频进行解封装(demux)，生成目标视频流数据。实践中，视频通常封装有多种数据(例如视频流数据、音频流数据、字幕等)以及文件头信息。因此，在抽帧前，通常需要对视频解封装，提取出视频流数据。此处，可以利用现有的解封装方法或者视频处理工具(例如开源的视频处理工具FFmpeg)中的解封装功能，对目标视频进行解封装，得到目标视频流数据。

第二步，对上述目标视频流数据进行多线程解码(decode)。其中，解码是对目标视频流数据解压缩的过程。多线程解码是利用多个线程进行解码的过程。此处，可以使用上述视频处理工具中的多线程解码器对上述目标视频流数据进行多线程解码。实践中，视频处理工具FFmpeg的多线程分为帧间多线程(即Frame级多线程)和帧内多线程(Slice级多线程)两种。Slice级多线程可以理解为，在解码过程中，解码器会将某帧数据分成多个线程同步进行解码。Frame级多线程可以理解为，在解码过程中对多帧数据进行并行解码。

在实际应用中，在不同的平台下，可以使用不同的多线程。利用，在windows平台上，可以使用win32多线程。在linux平台上，可以使用基于POSIX(Portable OperatingSystem Interface of UNIX，可移植操作系统接口)标准的pthread多线程。

第三步，从解码后所得到的帧中提取关键帧。此处，在对目标视频流数据解码后，可以得到原始视频数据。原始视频数据中包括大量的视频帧。这些视频帧的关键帧通常带有标识，上述执行主体可以依据关键帧的标识，提取出关键帧。

需要说明的是，该实现方式中的具体执行方法，可以部署在一个动态链接库中。上述执行主体可以读取该动态链接库，进行关键帧的提取。

此外，还需要指出的是，在提取关键帧后，还可以对关键帧执行其他操作。例如缩放、格式转换等。实践中，可以将关键帧转换为目标格式(例如RGB格式)。

在本实施例的一些可选的实现方式中，上述执行主体可以基于硬解码的方式进行关键帧抽取。具体可以按照如下步骤执行：

第一步，对上述目标视频进行解封装，生成目标视频流数据。

第二步，利用指定的软件开发工具包(例如Nvidia Video Codec SDK)初始化硬件解码器(例如NvCodec)。此处，硬件解码器可以构建于图形处理器(Graphics ProcessingUnit，GPU)中。通过上述软件开发工具包，可以对所支持的解码加速选项进行设置等。

第三步，利用上述硬件解码器对上述目标视频流数据进行解码。

第四步，从解码后所得到的帧中提取关键帧。

需要说明的是，由于利用硬件解码器解码后的帧的格式，通常为NV12格式，因此，在提取关键帧后，还可以将关键帧转换为其他格式(例如RGB格式)。此外，对目标视频解封装的操作、以及从解码后所得到的帧中提取关键帧的操作，此处不再赘述。

在本实施例的一些可选的实现方式中，在提取关键帧之后、生成关键帧序列之前，上述执行主体还可以对所抽取的关键帧进行预处理。其中，上述预处理可以包括以下至少一项：尺寸裁剪、翻转、亮度增强、噪声处理和像素值归一化。此处，以尺寸裁剪为例，由于重要的画面内容通常呈现在视频各帧的中心区域，因此，上述执行主体可以对各关键帧进行尺寸裁剪。具体地，可以采用中心裁剪的方式，按照预设的尺寸裁剪各关键帧的中心区域。由此，可以有助于提高对视频帧进行特征提取的准确性。通过对关键帧进行预处理，可以给后续特征提取操作提供更好的数据。

步骤402，将关键帧序列输入至特征提取模型，得到与关键帧序列对应的特征信息序列。

在本实施例中，上述执行主体可以将上述关键帧序列输入至预先训练的特征提取模型，得到与上述关键帧序列对应的特征信息序列。其中，上述特征提取模型可以通过对轻量化的卷积神经网络训练得到。具体可以采用如上述图1实施例所描述的模型训练方法所训练生成的。具体训练过程可以参见图1实施例的相关描述，此处不再赘述。

此处，特征提取模型能够提取图像的特征，得到特征信息。其中，特征信息可以是用于对图像的特征进行表征的信息。图像的特征可以是与图像相关的各种基本要素(例如亮度、颜色、图像中的对象的轮廓等)。

由于关键帧序列包含多个关键帧，因此，上述特征提取模型能够从各关键帧中提取特征信息，从而汇总为特征信息序列。上述特征信息序列中的特征信息与关键帧序列中的关键帧一一对应。这里，特征信息可以用特征矩阵、特征向量等形式表示。

步骤403，将特征信息序列输入至视频类别检测模型，得到目标视频的类别检测结果。

在本实施例中，上述执行主体可以将上述特征信息序列输入至预先训练的视频类别检测模型，得到目标视频的类别检测结果。其中，上述视频类别检测模型可以通过对时间关系网络进行训练得到。具体可以是采用如上述图1实施例所描述的模型训练方法所训练生成的。具体训练过程可以参见图1实施例的相关描述，此处不再赘述。

在本实施例的一些可选的实现方式中，在得到上述目标视频的类别检测结果之后，上述执行主体还可以将上述类别检测结果所指示的类别确定为目标类别，将上述目标视频存储至上述目标类别对应的视频库中。

在本实施例的一些可选的实现方式中，在得到上述目标视频的类别检测结果之后，上述执行主体还可以对上述目标视频的类别进行标注，将标注后的上述目标视频存储至样本集。从而，可以实现对视频的自动标注。

在本实施例的一些可选的实现方式中，在得到上述目标视频的类别检测结果之后，上述执行主体还可以将上述类别检测结果所指示的类别确定为目标类别，确定与上述目标类别相匹配的目标用户，向上述目标用户推送上述目标视频。此处，不同类别可以对应有不同用户。类别与用户的对应关系可以预先设定。由此，可以实现富于针对性的信息推送。

本申请的上述实施例提供的方法，首先通过抽取目标视频的关键帧，从而得到目标视频的关键帧序列。而后，将上述关键帧序列输入至预先训练的特征提取模型，得到与上述关键帧序列对应的特征信息序列。最后，将上述特征信息序列输入至预先训练的视频类别检测模型，得到上述目标视频的类别检测结果。由于上述特征提取模型是通过对轻量级的卷积神经网络训练得到，且轻量级的模型占用存储空间较小、数据计算量较少，因此，可以提高视频类别检测的效率。此外，由于训练视频类别检测模型时使用了时间关系网络，且该网络能够捕捉视频帧之间的时间关系变化，因此，提高了视频类别检测的效率的同时，保证了视频分类的准确性。

进一步参考图5，其示出了视频类别检测方法的又一个实施例的流程500。该视频类别检测方法的流程500，包括以下步骤：

步骤501，对目标视频进行解封装，生成目标视频流数据。

在本实施例中，视频类别检测方法的执行主体(例如服务器等电子设备)可以对上述目标视频进行解封装(demux)，生成目标视频流数据。

实践中，视频通常封装有多种数据(例如视频流数据、音频流数据、字幕等)以及文件头信息。因此，在抽帧前，通常需要对视频解封装，提取出视频流数据。

此处，可以利用现有的解封装方法或者视频处理工具(例如开源的视频处理工具FFmpeg)中的解封装功能，对目标视频进行解封装，得到目标视频流数据。

步骤502，对目标视频流数据进行多线程解码。

在本实施例中，上述执行主体可以对上述目标视频流数据进行多线程解码(decode)。其中，解码是对目标视频流数据解压缩的过程。多线程解码是利用多个线程进行解码的过程。

实践中，视频处理工具FFmpeg的多线程分为帧间多线程(即Frame级多线程)和帧内多线程(Slice级多线程)两种。Slice级多线程可以理解为，在解码过程中，解码器会将某帧数据分成多个线程同步进行解码。Frame级多线程可以理解为，在解码过程中对多帧数据进行并行解码。

步骤503，从解码后所得到的帧中提取关键帧。

在本实施例中，上述执行主体可以从解码后所得到的帧中提取关键帧。此处，在对目标视频流数据解码后，可以得到原始视频数据。原始视频数据中包括大量的视频帧。这些视频帧的关键帧通常带有标识，上述执行主体可以依据关键帧的标识，提取出关键帧。

以往的方式，在进行视频识别时，通常采用均匀间隔抽帧的方式对视频进行处理。进而基于对所抽取的各帧的识别结果，确定视频类别。然而，这种方式所抽取的帧不一定是关键帧，导致视频类别检测的准确性较低。同时，这种抽帧方式通常耗时较大，导致视频处理速度较慢。这里，通过多线程解码的方式抽取关键帧，不仅有助于提高视频类别检测的准确性，还能够提高视频处理速度。

步骤504，对所抽取的关键帧进行预处理。

在本实施例中，在提取关键帧之后、上述执行主体可以生成关键帧序列之前，上述执行主体还可以对所抽取的关键帧进行预处理。其中，上述预处理可以包括以下至少一项：尺寸裁剪、翻转、亮度增强、噪声处理和像素值归一化。作为示例，由于重要的画面内容通常呈现在视频各帧的中心区域，因此，上述执行主体可以对各关键帧进行尺寸裁剪。具体地，可以采用中心裁剪的方式，按照预设的尺寸裁剪各关键帧的中心区域。由此，可以有助于提高对视频帧进行特征提取的准确性。

步骤505，将关键帧序列输入至特征提取模型，得到与关键帧序列对应的特征信息序列。

在本实施例中，上述执行主体可以将上述关键帧序列输入至预先训练的特征提取模型，得到与上述关键帧序列对应的特征信息序列。其中，上述特征提取模型可以通过对轻量化的卷积神经网络训练得到。此处，上述轻量化的卷积神经网络可以采用现有的MobileNet V2网络结构。具体可以是采用如上述图1实施例所描述的模型训练方法所训练生成的。具体训练过程可以参见图1实施例的相关描述，此处不再赘述。

步骤506，将特征信息序列输入至视频类别检测模型，得到目标视频的类别检测结果。

在本实施例中，上述执行主体可以将上述特征信息序列输入至预先训练的视频类别检测模型，得到目标视频的类别检测结果。其中，上述视频类别检测模型可以通过对时间关系网络(Temporal Relation Network，TRN)进行训练得到。此处，可以使用多尺度的时间关系网络(例如8个尺度的时间关系网络，即N＝8)，进行视频类别检测模型的训练。需要说明的是，上述视频类别检测模型可以是采用如上述图1实施例所描述的模型训练方法所训练生成的。具体训练过程可以参见图1实施例的相关描述，此处不再赘述。

步骤507，将类别检测结果所指示的类别确定为目标类别，确定与目标类别相匹配的目标用户，向目标用户推送目标视频。

在本实施例中，将上述类别检测结果所指示的类别确定为目标类别，确定与上述目标类别相匹配的目标用户，向上述目标用户推送上述目标视频。此处，不同类别可以对应有不同用户。类别与用户的对应关系可以预先设定。由此，可以实现富于针对性的信息推送。

从图5中可以看出，与图4对应的实施例相比，本实施例中的视频类别检测方法的流程500涉及了利用多线程解码的方式抽取关键帧的步骤。由此，本实施例描述的方案可以提高抽帧效率，从而，提高了视频处理速度。

继续参见图6，作为对上述图1所示方法的实现，本申请提供了一种模型训练装置的一个实施例。该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例所述的模型训练装置600包括：获取单元601，被配置成获取样本集，其中，所述样本集中的样本包括样本视频和所述样本视频的类别标注；抽取单元602，被配置成对所述样本集中的各样本视频进行关键帧抽取，生成与各样本视频分别对应的样本关键帧序列；训练单元603，被配置成将所生成的样本关键帧序列输入至轻量化的卷积神经网络，将所述轻量化的卷积神经网络所输出的信息输入至时间关系网络，将目标类别标注作为所述时间关系网络的输出，利用机器学习方法，对所述轻量化的卷积神经网络和所述时间关系网络进行训练，其中，所述目标类别标注为输入至所述轻量化的卷积神经网络中的样本关键帧序列所对应的类别标注；确定单元604，被配置成将训练后的所述轻量化的卷积神经网络确定为特征提取模型，将训练后的所述时间关系网络确定为视频类别检测模型。

可以理解的是，该装置600中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置600及其中包含的单元，在此不再赘述。

进一步参考图7，作为对图4所示方法的实现，本申请提供了一种视频类别检测装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例所述的视频类别检测装置700包括：抽帧单元701，被配置成抽取目标视频的关键帧，生成关键帧序列；特征提取单元702，被配置成将上述关键帧序列输入至预先训练的特征提取模型，得到与上述关键帧序列对应的特征信息序列，其中，上述特征提取模型通过对轻量化的卷积神经网络训练得到；类别检测单元703，被配置成将上述特征信息序列输入至预先训练的视频类别检测模型，得到上述目标视频的类别检测结果，其中，上述视频类别检测模型通过对时间关系网络训练得到。

在本实施例的一些可选的实现方式中，该装置还可以包括预处理单元(图中未示出)。其中，上述预处理单元可以被配置成对所抽取的关键帧进行预处理，其中，上述预处理包括以下至少一项：尺寸裁剪、翻转、亮度增强、噪声处理和像素值归一化。

在本实施例的一些可选的实现方式中，上述抽帧单元701可以包括第一解封装模块、第一解码模块和第一提取模块(图中未示出)。其中，上述第一解封装模块可以被配置成对上述目标视频进行解封装，生成目标视频流数据。上述第一解码模块可以被配置成对上述目标视频流数据进行多线程解码。上述第一提取模块可以被配置成从解码后所得到的帧中提取关键帧。

在本实施例的一些可选的实现方式中，上述抽帧单元701可以包括第二解封装模块、初始化模块、第二解码模块和第二提取模块(图中未示出)。其中，上述第二解封装模块可以被配置成对上述目标视频进行解封装，生成目标视频流数据。上述初始化模块可以被配置成利用指定的软件开发工具包初始化硬件解码器。上述第二解码模块可以被配置成利用上述硬件解码器对上述目标视频流数据进行解码。上述第二提取模块可以被配置成从解码后所得到的帧中提取关键帧。

在本实施例的一些可选的实现方式中，该装置还可以包括：第一存储单元(图中未示出)，被配置成将上述类别检测结果所指示的类别确定为目标类别，将上述目标视频存储至上述目标类别对应的视频库中；或者第二存储单元(图中未示出)，被配置成对上述目标视频的类别进行标注，将标注后的上述目标视频存储至样本集；或者推送单元(图中未示出)，被配置成将上述类别检测结果所指示的类别确定为目标类别，确定与上述目标类别相匹配的目标用户，向上述目标用户推送上述目标视频。

本申请的上述实施例提供的装置，首先通过抽帧单元701抽取目标视频的关键帧，从而得到目标视频的关键帧序列。而后，特征提取单元702将上述关键帧序列输入至预先训练的特征提取模型，得到与上述关键帧序列对应的特征信息序列。最后，类别检测单元703将上述特征信息序列输入至预先训练的视频类别检测模型，得到上述目标视频的类别检测结果。由于上述特征提取模型是通过对轻量级的卷积神经网络训练得到，且轻量级的模型占用存储空间较小、数据计算量较少，因此，可以提高视频类别检测的效率。此外，由于训练视频类别检测模型时使用了时间关系网络，且该网络能够捕捉视频帧之间的时间关系变化，因此，提高了视频类别检测的效率的同时，保证了视频分类的准确性。

下面参考图8，其示出了适于用来实现本申请实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括抽帧单元、特征提取单元和类别检测单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：抽取目标视频的关键帧，生成关键帧序列；将该关键帧序列输入至预先训练的特征提取模型，得到与该关键帧序列对应的特征信息序列；将该特征信息序列输入至预先训练的视频类别检测模型，得到该目标视频的类别检测结果。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种模型训练方法，其特征在于，包括：

获取样本集，其中，所述样本集中的样本包括样本视频和所述样本视频的类别标注；

对所述样本集中的各样本视频进行关键帧抽取，生成与各样本视频分别对应的样本关键帧序列；

逐一地将所生成的样本关键帧序列输入至轻量化的卷积神经网络，将所述轻量化的卷积神经网络所输出的信息输入至时间关系网络，将预测的目标类别标注作为所述时间关系网络的输出，利用机器学习方法，对所述轻量化的卷积神经网络和所述时间关系网络进行训练，其中，所述目标类别标注为输入至所述轻量化的卷积神经网络中的样本关键帧序列所对应的类别标注；在训练过程中，每输入一个样本关键帧序列，基于所述时间关系网络的输出和所述样本关键帧序列所对应的类别标注，对所述轻量化的卷积神经网络和所述时间关系网络进行一次参数更新；

将训练后的所述轻量化的卷积神经网络确定为特征提取模型，将训练后的所述时间关系网络确定为视频类别检测模型；

其中，所述时间关系网络将根据各关键帧的特征确定的多尺度时间关系输入至分类器进行分类，从而预测出所述样本视频的类别。

2.一种视频类别检测方法，其特征在于，包括：

抽取目标视频的关键帧，生成关键帧序列；

将所述关键帧序列输入至如权利要求1所述的方法训练的特征提取模型，得到与所述关键帧序列对应的特征信息序列；

将所述特征信息序列输入至采用如权利要求1所述的方法训练的视频类别检测模型，得到所述目标视频的类别检测结果。

3.根据权利要求2所述的视频类别检测方法，其特征在于，在所述生成关键帧序列之前，所述方法还包括：

对所抽取的关键帧进行预处理，其中，所述预处理包括以下至少一项：尺寸裁剪、翻转、亮度增强、噪声处理和像素值归一化。

4.根据权利要求2所述的视频类别检测方法，其特征在于，所述抽取目标视频的关键帧，包括：

对所述目标视频进行解封装，生成目标视频流数据；

对所述目标视频流数据进行多线程解码；

从解码后所得到的帧中提取关键帧。

5.根据权利要求2所述的视频类别检测方法，其特征在于，所述抽取目标视频的关键帧，包括：

对所述目标视频进行解封装，生成目标视频流数据；

利用指定的软件开发工具包初始化硬件解码器；

利用所述硬件解码器对所述目标视频流数据进行解码；

从解码后所得到的帧中提取关键帧。

6.根据权利要求2所述的视频类别检测方法，其特征在于，在所述得到所述目标视频的类别检测结果之后，所述方法还包括：

将所述类别检测结果所指示的类别确定为目标类别，将所述目标视频存储至所述目标类别对应的视频库中；和/或，

对所述目标视频的类别进行标注，将标注后的所述目标视频存储至样本集；和/或，

将所述类别检测结果所指示的类别确定为目标类别，确定与所述目标类别相匹配的目标用户，向所述目标用户推送所述目标视频。

7.一种模型训练装置，其特征在于，包括：

获取单元，被配置成获取样本集，其中，所述样本集中的样本包括样本视频和所述样本视频的类别标注；

抽取单元，被配置成对所述样本集中的各样本视频进行关键帧抽取，生成与各样本视频分别对应的样本关键帧序列；

训练单元，被配置成逐一地将所生成的样本关键帧序列输入至轻量化的卷积神经网络，将所述轻量化的卷积神经网络所输出的信息输入至时间关系网络，将预测的目标类别标注作为所述时间关系网络的输出，利用机器学习方法，对所述轻量化的卷积神经网络和所述时间关系网络进行训练，其中，所述目标类别标注为输入至所述轻量化的卷积神经网络中的样本关键帧序列所对应的类别标注；在训练过程中，每输入一个样本关键帧序列，基于所述时间关系网络的输出和所述样本关键帧序列所对应的类别标注，对所述轻量化的卷积神经网络和所述时间关系网络进行一次参数更新；

确定单元，被配置成将训练后的所述轻量化的卷积神经网络确定为特征提取模型，将训练后的所述时间关系网络确定为视频类别检测模型；

8.一种视频类别检测装置，其特征在于，包括：

抽帧单元，被配置成抽取目标视频的关键帧，生成关键帧序列；

特征提取单元，被配置成将所述关键帧序列输入至采用如权利要求1所述的方法训练的特征提取模型，得到与所述关键帧序列对应的特征信息序列；

类别检测单元，被配置成将所述特征信息序列输入至如权利要求1所述的方法训练的视频类别检测模型，得到所述目标视频的类别检测结果。

9.根据权利要求8所述的视频类别检测装置，其特征在于，所述装置还包括：

预处理单元，被配置成对所抽取的关键帧进行预处理，其中，所述预处理包括以下至少一项：尺寸裁剪、翻转、亮度增强、噪声处理和像素值归一化。

10.根据权利要求8所述的视频类别检测装置，其特征在于，所述抽帧单元，包括：

第一解封装模块，被配置成对所述目标视频进行解封装，生成目标视频流数据；

第一解码模块，被配置成对所述目标视频流数据进行多线程解码；

第一提取模块，被配置成从解码后所得到的帧中提取关键帧。

11.根据权利要求8所述的视频类别检测装置，其特征在于，所述抽帧单元，包括：

第二解封装模块，被配置成对所述目标视频进行解封装，生成目标视频流数据；

初始化模块，被配置成利用指定的软件开发工具包初始化硬件解码器；

第二解码模块，被配置成利用所述硬件解码器对所述目标视频流数据进行解码；

第二提取模块，被配置成从解码后所得到的帧中提取关键帧。

12.根据权利要求8所述的视频类别检测装置，其特征在于，所述装置还包括：

第一存储单元，被配置成将所述类别检测结果所指示的类别确定为目标类别，将所述目标视频存储至所述目标类别对应的视频库中；和/或，

第二存储单元，被配置成对所述目标视频的类别进行标注，将标注后的所述目标视频存储至样本集；和/或，

推送单元，被配置成将所述类别检测结果所指示的类别确定为目标类别，确定与所述目标类别相匹配的目标用户，向所述目标用户推送所述目标视频。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。