CN109359636A

CN109359636A - 视频分类方法、装置及服务器

Info

Publication number: CN109359636A
Application number: CN201811535837.0A
Authority: CN
Inventors: 屈冰欣; 郑茂
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-02-19
Anticipated expiration: 2038-12-14
Also published as: WO2020119350A1; CN111428088B; US20210192220A1; CN111428088A; CN109359636B

Abstract

本申请公开了一种视频分类方法、装置及服务器。该方法包括：获取目标视频；通过第一分类模型对目标视频中的图像帧进行分类，得到图像分类结果，第一分类模型用于基于图像帧的图像特征进行分类；通过第二分类模型对目标视频中的音频进行分类，得到音频分类结果，第二分类模型用于基于音频的音频特征进行分类；通过第三分类模型对目标视频对应的文本描述信息进行分类，得到文本分类结果，第三分类模型用于基于文本描述信息的文本特征进行分类；根据图像分类结果、音频分类结果和文本分类结果，确定目标视频的目标分类结果。本申请中，综合图像特征、音频特征以及文本特征进行分类，充分考虑视频不同维度的特征，提高了视频分类的准确性。

Description

视频分类方法、装置及服务器

技术领域

本申请实施例涉及视频分类领域，特别涉及一种视频分类方法、装置及服务器。

背景技术

推荐功能是视频类应用程序中常见的功能，用于向用户推荐其感兴趣的视频，而推荐功能的优劣与视频分类的准确性密切相关。

相关技术中，采用基于图像识别的方式对视频进行分类。在一种基于图像识别的视频分类方法中，通过抽取视频中的图像帧，并提取图像帧的图像特征，从而按照图像帧的时序，将图像特征输入长短期记忆(Long Short-Term Memory，LSTM)网络，进而根据LSTM网络的输出确定视频分类。

然而，基于图像特征进行视频分类时，由于特征维度单一，导致视频分类效果不佳。

发明内容

本申请实施例提供了一种视频分类方法、装置及服务器，可以解决基于图像特征进行视频分类时，由于特征维度单一，导致视频分类效果不佳。所述技术方案如下：

一方面，提供了一种视频分类方法，所述方法包括：

获取目标视频；

通过第一分类模型对所述目标视频中的图像帧进行分类，得到图像分类结果，所述第一分类模型用于基于所述图像帧的图像特征进行分类；

通过第二分类模型对所述目标视频中的音频进行分类，得到音频分类结果，所述第二分类模型用于基于所述音频的音频特征进行分类；

通过第三分类模型对所述目标视频对应的文本描述信息进行分类，得到文本分类结果，所述第三分类模型用于基于所述文本描述信息的文本特征进行分类；

根据所述图像分类结果、所述音频分类结果和所述文本分类结果，确定所述目标视频的目标分类结果。

另一方面，提供了一种视频分类装置，其特征在于，所述装置包括：

视频获取模块，用于获取目标视频；

第一分类模块，用于通过第一分类模型对所述目标视频中的图像帧进行分类，得到图像分类结果，所述第一分类模型用于基于所述图像帧的图像特征进行分类；

第二分类模块，用于通过第二分类模型对所述目标视频中的音频进行分类，得到音频分类结果，所述第二分类模型用于基于所述音频的音频特征进行分类；

第三分类模块，用于通过第三分类模型对所述目标视频对应的文本描述信息进行分类，得到文本分类结果，所述第三分类模型用于基于所述文本描述信息的文本特征进行分类；

目标分类模块，用于根据所述图像分类结果、所述音频分类结果和所述文本分类结果，确定所述目标视频的目标分类结果。

另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的视频分类装置。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的视频分类方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

获取到待分类的目标视频后，分别通过第一分类模型对图像帧进行分类得到图像分类结果，通过第二分类模型对音频进行分类得到音频分类结果，通过第三分类模型对文本描述信息进行分类得到文本分类结果，从而根据图像分类结果、音频分类结果和文本分类结果，确定出目标视频的目标分类结果；相较于相关技术中仅基于视频的图像特征进行视频分类，本申请实施例中综合视频的图像特征、音频特征以及文本特征进行分类，充分考虑视频不同维度的特征，进而提高了视频分类的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的实施环境的示意图；

图2是服务器进行视频推荐的流程示意图；

图3示出了本申请一个实施例提供的视频分类方法的流程图；

图4是视频分类过程的原理示意图；

图5是基于图像帧进行视频分类过程的流程图；

图6是初始残差网络及其Stem层的结构示意图；

图7是一个示意性实施例提供的目标检测网络的结构示意图；

图8是基于音频进行视频分类过程的流程图；

图9是基于文本描述信息进行视频分类过程的流程图；

图10是通过Bi-LSTM和注意力机制进行视频分类过程的实施示意图；

图11示出了本申请一个实施例提供的视频分类装置的框图；

图12示出了本申请一个实施例提供的服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面对本申请实施例中设计的名词进行说明。

卷积层：由卷积核的权值和偏置项构成。在一个卷积层中，上一层的输出(又称特征映射图)被一个卷积核进行卷积，并通过一个激活函数得到输出的特征映射图。其中，特征图可以表示为：

其中，表示连接第l层的i单元和l+1层的j单元的权值参数，是连接第l层偏置单元和第l+1层的j单元对应的参数，FM_l是第l层的特征映射图集合，表示第l层的第i个特征映射图。

池化(pooling)层：用于进行降采样操作，常用的池化方式包括最大池化、求和池化和平均池化。

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)：用于表示语音信号的能量在不同频率范围的分布情况。计算MFCC时通常需要对音频进行预加重、分帧、加窗、快速傅里叶变换(Fast Fourier Transformation，FFT)、梅尔滤波器组以及离散余弦变换(Discrete Cosine Transform，DCT)处理。

长短期记忆网络(Long-Short Term Memory，LSTM)：一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟非常长的重要事件。双向长短期记忆网络(Bi Long-Short Term Memory，Bi-LSTM)则是在LSTM的基础上实现双向记忆的网络(LSTM仅正向记忆，而Bi-LSTM可以实现正向和反向记忆)。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境中包括终端120和服务器140。

终端120是具有视频播放功能的电子设备，该电子设备可以是智能手机、平板电脑或个人计算机等等。图1中以终端120是智能手机为例进行说明。

本申请实施例中，终端120的视频播放功能可以由第三方应用程序实现，该第三方应用程序可以是视频播放应用程序、浏览器应用程序、新闻阅读类应用程序、短视频应用程序等等，本申请实施例对此不做限定。

除了具备视频播放功能外，可选的，终端120还具有视频上传功能，借助视频上传功能，终端120可以将录制的视频，或者，将本地存储的视频上传至服务器140。并且，服务器140可以将接收到的视频分享推送给其他终端，供其他终端进行播放。

终端120与服务器140之间通过有线或无线网络相连。

服务器140是一台服务器、若干台服务器构成的服务器集群或云计算中心。本申请实施例中，服务器140可以是终端120中第三方应用程序的后台服务器，用于向终端120推荐其使用者感兴趣的视频。

本申请实施例中的服务器140具有视频分类功能，通过视频分类功能，服务器140按照预定的分类类别，将视频(可以是服务器从网路中抓取的视频，也可以是终端120上传的视频)划分至其中至少一个类别中，后续即基于各个视频对应的类别进行视频推荐。

可选的，服务器140还具有生成用户画像的功能。其中，该用户画像根据用户的历史视频观看记录生成，用于描述用户的视频观看喜好。后续进行视频推荐时，服务器140根据视频对应的类别以及用户画像进行视频推荐。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

本申请各个实施例提供的视频分类方法即由图1中的服务器140执行。

本申请实施例提供的视频分类方法可用于视频推荐场景或用户画像构建场景等需要应用到视频类别的场景，下面对不同应用场景下的视频分类方法进行说明。

视频推荐场景

视频推荐场景下，如图2所示，对于待分类的原始视频20(服务器本地存储或由终端上传)，服务器首先从图像维度、音频维度和文本维度，采用图像分类模型211对原始视频20的图像帧进行图像特征提取和分类，得到图像分类结果212；采用音频分类模型221对原始视频20的音频进行音频特征提取和分类，得到音频分类结果222；采用文本分类模型231对原始视频20的文本描述信息进行文本特征提取和分类，得到文本分类结果232。进一步的，服务器对图像分类结果212、音频分类结果222以及文本分类结果232进行融合，得到原始视频20的目标分类结果24，进而根据该目标分类结果24所指示各个类别对应的概率，确定原始视频20的目标类别25，并将原始视频20与目标类别25进行关联存储。

在进行视频推荐时，服务器的推荐系统26获取当前用户的用户画像27(可以根据用户历史观看记录生成)，从而根据将与用户画像27所指示用户感兴趣视频类别相匹配的视频推荐给用户。

用户画像构建场景

在视频推荐领域，用户画像用于描述用户的视频观看喜好，其准确度与视频分类的准确度密切相关。为了提高用户画像的准确性，以提高后续视频推荐的准确性，服务器首先从图像维度、音频维度和文本维度，对原始视频进行多维度分类，然后根据不同维度下原始视频的分类结果，综合确定出原始视频的目标类别。

构建用户画像时，服务器获取用户对推荐视频的操作行为(比如观看、忽略等等)，从而根据操作行为确定用户对推荐视频对应视频类别的喜好程度，进而在视频类别对应喜好程度的基础上，构建出用户画像，供后续进行视频推荐时使用。

当然，除了上述应用场景外，本申请实施例提供的视频分类方法还可以用于视频整理场景(基于视频类别对同类视频进行整合)、视频搜索场景(基于搜索关键字对相应视频类别的视频进行反馈)等其他应用到视频类别的场景，本申请实施例并不对具体应用场景进行限定。

相关技术中，服务器仅基于视频的图像特征进行视频分类时，对画面相似但音频差异较大的视频的分类效果不佳。比如，在短视频应用程序中，对于自拍视频和配有搞笑配音的自拍视频，基于视频图像特征进行分类，由于两者的图像特征相似，因此两者都会被分类为“自拍”。但是实际情况下，配有搞笑配音的自拍视频应该被分类为“搞笑”。

而本申请实施例中，服务器在图像特征的基础上，加入音频特征和文本特征进行视频分类，能够弥补单纯基于图像特征进行视频分类的局限性，从而提高了视频分类的准确性，在对图像相似但音频或文本差异较大的视频进行分类时尤为明显。下面采用示意性的实施例进行说明

请参考图3，其示出了本申请一个实施例提供的视频分类方法的流程图。本实施例以该方法应用于图1中的服务器140来举例说明，该方法可以包括以下几个步骤：

步骤301，获取目标视频。

其中，该目标视频为服务器从网络中拉取的视频，或者，由终端上传的视频，本申请实施例并不对目标视频的来源进行限定。

在一个示意性的应用场景下，服务器为短视频应用程序的后台服务器，该目标视频即为用户使用短视频应用程序录制的视频。

对于获取到的目标视频，服务器通过下述步骤302至304对其进行图像特征提取分类、音频特征提取分类以及文本特征提取分类。其中，步骤302至304之间并不存在严格的先后顺序，本申请实施例以步骤302至304同时执行为例进行说明。

步骤302，通过第一分类模型对目标视频中的图像帧进行分类，得到图像分类结果，第一分类模型用于基于图像帧的图像特征进行分类。

在一种可能的实施方式中，第一分类模型中包括用于提取图像特征的深度学习网络以及基于图像特征进行分类的分类器。相应的，服务器从目标视频中提取图像帧后，将图像帧输入第一分类模型中，由第一分类模型中的深度学习网络提取图像帧的图像特征，并进一步通过分类器对图像特征进行分类，从而得到图像分类结果。

其中，图像分类结果中包含各种预设分类类别及其对应的概率，该预设分类类别为预先划分出的视频的分类类别。比如，预设分类类别包括如下至少一种：自拍、搞笑、动画、游戏、配音、篮球、足球、综艺、电影。

可选的，第一分类模型基于标注有样本类别的样本图像帧训练得到。

步骤303，通过第二分类模型对目标视频中的音频进行分类，得到音频分类结果，第二分类模型用于基于音频的音频特征进行分类。

在一种可能的实施方式中，第二分类模型中包括用于提取音频特征的神经网络(比如LSTM)以及基于音频特征进行分类的分类器。相应的，服务器提取出目标视频的音频后，将音频输入第二分类模型，由第二分类模型中的神经网络提取音频的音频特征，并进一步通过分类器对音频特征进行分类，从而得到音频分类结果。

其中，音频分类结果中包含各种预设分类类别及其对应的概率，且预设分类类别为预先划分出的视频的分类类别。

可选的，第二分类模型基于标注有样本类别的样本音频训练得到。

步骤304，通过第三分类模型对目标视频对应的文本描述信息进行分类，得到文本分类结果，第三分类模型用于基于文本描述信息的文本特征进行分类。

在一种可能的实施方式中，第三分类模型中包括用于提取文本特征的神经网络(比如LSTM)以及基于文本特征进行分类的分类器。相应的，服务器提取出目标视频的文本描述信息后，将文本描述信息输入第三分类模型，由第三分类模型中的神经网络提取文本描述信息的文本特征，并进一步通过分类器对文本特征进行分类，从而得到文本分类结果。

其中，文本分类结果中包含各种预设分类类别及其对应的概率，且预设分类类别为预先划分出的视频的分类类别。

可选的，该文本描述信息包括目标视频的视频标题、视频内容描述信息、视频背景音乐信息和视频发布者信息中的至少一种

可选的，第二分类模型基于标注有样本类别的样本文本训练得到。

步骤305，根据图像分类结果、音频分类结果和文本分类结果，确定目标视频的目标分类结果。

服务器得到基于不同维度的分类结果后，进一步对图像分类结果、音频分类结果和文本分类结果进行融合，最终确定出目标视频的目标分类结果。

在一种可能的实施方式中，服务器将融合后的分类结果输入预先训练的分类器，从而得到分类器输出的目标分类结果。

可选的，由于视频的预设分类类别通常包含多种，且不同的分类类别之间互斥，因此，各个分类模型以及对融合后分类结果进行分类时采用的分类器可以为softmax分类模型。可选的，softmax分类模型的假设函数如下：

其中，exp()是以自然常数e为底的指数，θ为模型训练参数，T表示转置。

相应的，对softmax分类模型进行优化时，采用的化代价函数如下：

其中，x⁽ⁱ⁾为输入参数，y⁽ⁱ⁾为输出参数，m为训练集中训练样本的数量。

对softmax分类模型进行优化的过程，即为最小化代价函数的过程，本申请实施例在此不再赘述。

可选的，目标分类结果中包含至少两个预设分类类别对应的概率，服务器将概率最高的n个预设分类类别确定为目标视频的目标类别，n为大于等于1的整数。

在一个示意性的例子中，对于自拍视频A和配有搞笑配音的自拍视频B，基于视频图像特征进行分类时，由于两者的图像特征相似，因此图像分类结果中“自拍”对应概率较高；而基于视频音频特征进行分类时，由于自拍视频A与自拍视频B的音频差异较大，且自拍视频B的音频具备搞笑音频的特征，因此，因此自拍视频A对应音频分类结果中“自拍”对应概率较高，而自拍视频B对应音频分类结果中“搞笑”对应概率较高；基于视频文本特征进行分类时，由于自拍视频A与自拍视频B的文本描述信息差异较大，且自拍视频B的文本描述信息具备搞笑文本描述的特征，因此，因此自拍视频A对应文本分类结果中“自拍”对应概率较高，而自拍视频B对应文本分类结果中“搞笑”对应概率较高。最终，服务器融合自拍视频A的分类结果，确定自拍视频A的目标类别为“自拍”，融合自拍视频B的分类结果，确定自拍视频B的目标类别为“搞笑”。

由此可见，在图像特征的基础上，融合音频特征和文本特征对视频进行分类，能够利用视频不同模态(图像模态、音频模态和文本模态)之间的互补性提高视频分类的准确率。

综上所述，本申请实施例中，获取到待分类的目标视频后，分别通过第一分类模型对图像帧进行分类得到图像分类结果，通过第二分类模型对音频进行分类得到音频分类结果，通过第三分类模型对文本描述信息进行分类得到文本分类结果，从而根据图像分类结果、音频分类结果和文本分类结果，确定出目标视频的目标分类结果；相较于相关技术中仅基于视频的图像特征进行视频分类，本申请实施例中综合视频的图像特征、音频特征以及文本特征进行分类，充分考虑视频不同维度的特征，进而提高了视频分类的准确性。

在一种可能的实施方式中，根据不同维度的分类结果确定目标视频的目标分类结果时可以包括如下步骤。

一、对图像分类结果、音频分类结果和文本分类结果中各个分类类别对应的概率进行拼接，生成分类特征向量。

可选的，服务器根据预定顺序，对图像分类结果、音频分类结果和文本分类结果中各个分类类别对应的概率进行拼接，从而得到分类特征向量，其中，该预定顺序为图像分类结果、音频分类结果和文本分类结果的先后顺序。

在一个示意性的例子中，视频的预设分类类别为自拍、游戏、体育、美妆、搞笑，且图像分类结果为[自拍(0.95)，游戏(0.01)，体育(0.01)，美妆(0.02)，搞笑(0.01)]，音频分类结果为[自拍(0.05)，游戏(0.01)，体育(0.01)，美妆(0.03)，搞笑(0.90)]，文本分类结果为[自拍(0.1)，游戏(0.01)，体育(0.01)，美妆(0.03)，搞笑(0.85)]，服务器生成的分类特征向量即为(0.95，0.01，0.01，0.02，0.01，0.05，0.01，0.01，0.03，0.90，0.1，0.01，0.01，0.03，0.85)。

二、将分类特征向量输入目标分类器，得到目标分类结果，目标分类器基于softmax分类模型构建。

可选的，服务器预先构建原始softmax分类模型，并根据标注有视频类别的样本分类特征向量对原始softmax分类模型进行训练，得到目标分类器。在视频分类时，服务器即将生成的分类特征向量输入目标分类器，从而获取目标分类器输出的目标分类结果。

在一种可能的实施方式中，如图4所示，对图像帧进行图像特征提取及分类前，服务器首先从目标视频中提取RGB图像帧411以及RGB差异图像帧412，并分别将RGB图像帧411和RGB差异图像帧412输入残差网络(ResNet)413进行特征提取，从而将从RGB图像帧411中提取到的图像特征输入RGB分类器414A中得到第一图像分类结果414B，将RGB差异图像帧412中提取到的图像特征输入RGB差异分类器415A中得到第二图像分类结果415B。如图5所示，上述步骤302可以包括如下步骤。

步骤302A，将目标视频中提取到的原始图像帧确定为RGB图像帧。

由于后续进行图像特征提取需要耗费大量计算资源，且视频中相邻图像帧之间的差异较小，因此为了降低计算量，在一种可能的实施方式中，服务器按照预定采样间隔，从目标图像中提取原始图像帧，并将提取到的原始视频帧确定为RGB图像帧。比如，该预定采样间隔为1s，即服务器每隔1s提取一帧原始图像帧。

在其他可能的实施方式中，服务器也可以根据目标视频的视频长度，动态确定采样间隔，其中，该采样间隔与视频长度呈正相关关系，即视频越长，采样间隔越长。本申请并不对提取原始图像帧的具体方式进行限定。

步骤302B，通过第一分类模型中的残差网络和RGB分类器对RGB图像帧进行分类，得到第一图像分类结果，RGB分类器用于基于静态图像特征进行分类。

可选的，本申请实施例中，第一分类模型包含预先训练的残差网络以及RGB分类器，服务器提取到RGB图像帧后，即通过残差网络提取RGB图像的(静态)图像特征，并进一步通过RGB分类器对(静态)图像特征进行分类，得到指示静态图像所属类别的第一图像分类结果，该第一图像分类结果中的分类类别与预设分类类别相同。

其中，残差网络可以采用初始残差网络(Inception-ResNet等其他深度卷积神经网络，且RGB分类器可以采用softmax分类模型，本申请实施例对此不做限定。

在一个示意性的例子中，残差网络(Inception-ResNet-v2)的结构如图6所示。该残差网络包括输入层60、Stem层61、第一残差层62、第一降维层63、第二残差层64、第二降维层65、第三残差层66、池化层67、丢弃(dropout)层68和分类层69。

输入层60用于输入的图像帧，对于RGB图像帧而言，该服务器将RGB图像帧中R、G、B三个通道的像素值组成一维数组后输入输入层60。如图6中，输入层60接收到的数据为299(RGB图像帧的宽度)×299(RGB图像帧的宽度)×3(通道数)。

Stem层61用于对数据进行预处理，其中包含多次卷积和两次池化，卷积时采用了7×1+1×7的优化卷积形式，且池化时采用“卷积+池化”的并行结构，以此防止瓶颈问题。

第一残差层62中包含5个残差块(用于进行卷积处理)，第二残差层64中包含10个残差块，第三残差层66中包含5个残差块。

第一降维层63用于对第一残差层62的输出进行降维，第二降维层65用于对第二残差层64的输出进行降维，以减少计算量。

池化层67用于对第三残差层66的输出进行下采样处理，此处的池化层67采用平均池化。

丢弃(dropout)层68用于根据keep参数将部分输入数据设置为0，从而达到防治过拟合的效果。比如，当keep参数为0.8时，输入数据中20％的数据在丢弃层68被设置为0。

步骤302C，根据目标视频中相邻两帧原始图像帧生成RGB差异图像帧。

上述步骤中，由于RGB图像帧仅能够反映出视频画面的静态图像特征，因此，为了提高图像分类的效果，服务器进一步基于视频画面的动态图像特征进行分类。

其中，RGB差异图像帧由相邻两帧原始图像帧进行差运算(RGB像素值相减)生成，用于表示两帧原始图像帧之间的差异性，其可以表示为：

rgbdiff_t＝rgb_t+1-rgb_t

其中，rgbdiff_t为RGB差异图像帧，rgb_t+1为t+1时刻的原始图像帧，rgb_t为t时刻的原始图像帧，且t时刻和t+1时刻为采样时刻。

以图像帧中的一个像素点为例，t时刻该像素点的像素值rgb_t为(100,100,100)，而t+1时刻该像素点的像素值rgb_t+1为(150,160,170)，则计算得到的rgbdiff_t为(50,60,70)。

由于RGB差异图像帧能够反映出两帧原始图像帧之间的差异性，因此，对RGB差异图像进行图像特征提取，能够得到目标视频的动态图像特征。

步骤302D，通过第一分类模型中的残差网络和RGB差异分类器对RGB差异图像帧进行分类，得到第二图像分类结果，RGB差异分类器用于基于动态图像特征进行分类。

可选的，本申请实施例中，第一分类模型包含预先训练的残差网络以及RGB差异分类器，服务器生成RGB差异图像帧后，即通过残差网络提取RGB差异图像的(动态)图像特征，并进一步通过RGB差异分类器对(动态)图像特征进行分类，得到指示动态图像所属类别的第二图像分类结果，该第二图像分类结果中的分类类别与预设分类类别相同。

其中，对RGB图像帧和RGB差异图像帧进行图像特征提取时可以采用同一残差网络，也可以采用不同残差网络，本申请对此不做限定。

本实施例中，服务器基于RGB图像帧和RGB差异图像帧进行分类，综合考虑到静态图像特征和动态图像特征，进而提高了后续图像维度分类的全面性。

上述实施例中，对RGB图像帧或RGB差异图像帧进行特征提取时，得到的都是图像整体的特征(即关注图像整体)，相应的，后续使用分类器仅能够基于整体图像特征进行分类。为了进一步提高图像分类结果的准确性，本申请实施例中，服务器进行图像特征提取时，不仅关注图像整体，还关注图像中的特定目标，并基于图像中特征目标的检测结果进行分类。

如图4所示，服务器从目标视频中提取RGB图像帧411后，进一步将RGB图像帧411输入目标检测网络416进行细粒度特征提取，并将提取到的细粒度图像特征输入细粒度分类器417A中得到第三图像分类结果417B。如图5所示，上述步骤302A之后还可以包括如下步骤。

步骤302E，通过第一分类模型中的目标检测网络和细粒度分类器对RGB图像进行分类，得到第三图像分类结果，目标检测网络用于提取RGB图像中目标物体的细粒度图像特征，细粒度分类器用于基于细粒度图像特征进行分类。

本申请实施例中，第一分类模型中还包括目标检测网络和细粒度分类器，其中，目标检测网络可以是区域卷积神经网络(Regions with CNN，RCNN)(包括RCNN、Fast RCNN以及Faster RCNN)、YOLO(You Only Look Once)网络、单镜多核检测(Single Shot multiBoxDetector，SSD)网络，本实施例并不对目标检测网络的具体类型进行限定。

在一种可能的试试方式中，利用目标检测网络进行目标检测时，目标检测网络能够检测出RGB图像帧中目标物体的类别、目标框位置、置信度等目标信息，从而根据目标信息确定RGB图像帧的细粒度特征。可选的，细粒度特征包括：

1、目标物体是否出现在RGB图像帧中：0表示目标物体未出现在RGB图像帧中，1表示目标物体出现在RGB图像帧中。

2、目标物体面积占比：目标物体对应目标框占RGB图像帧的最大比例。

3、目标物体相对位移：目标物体对应目标框的中心点在相邻两帧RGB图像中的位移。

在一个示意性的例子中，如图7所示，当目标检测网络采用Faster-RCNN时，RGB图像帧71首先在卷积层72经过卷积处理，输出用于表示图像特征的特征图73。特征图73输入区域预测网络74(用于预测目标物体在图像中的区域)后，由区域预测网络74输出预测图75。进一步的，对融合后的预测图75和特征图73进行兴趣区域池化(Region of Interestpooling，RoI pooling)处理，并确定RGN图像帧71的细粒度特征，进而通过细粒度分类器76对细粒度特征进行分类，得到第三图像分类结果。

本实施例中，服务器在提起图像整体特征的同时，通过目标检测网络对RGB图像帧进行细粒度图像特征提取，并融合提取到的细粒度图像特征进行分类，进一步提高了图像分类结果的准确性和全面性。

在一种可能的实施方式中，如图4所示，对目标视频的音频进行音频特征提取及分类时，服务器首先提取音频的MFCC特征421，然后通过VGGish网络422对MFCC特征421进行特征提取，得到VGGish特征423。进一步的，服务器分别使用通用分类器425A和特定分类器426B对VGGish特征423进行分类，最终得到第一音频分类结果425A和第二音频分类结果425B。如图8所示，上述步骤303可以包括如下步骤。

步骤303A，提取音频的MFCC。

在一种可能的实施方式中，服务器从目标视频中分离出音频，然后按照预定采样频率对音频进行采样，从而对采样结果进行预加重、分帧、加窗、FFT、梅尔滤波器组以及DCT处理，得到音频的MFCC。

步骤303B，通过第二分类模型中的VGGish网络对MFCC进行特征提取，得到VGGish特征。

可选的，本申请实施例中的第二分类模型中包括用于进行特征提取的VGGish网络以及用于进行分类的双层分类器。对于提取到的MFCC，服务器将MFCC输入VGGish网络，从而得到VGGish网络输出的VGGish特征。

其中，VGGish网络可以采用已有的网络结构，本申请实施例并不对VGGish网络的具体结构进行限定。

示意性的，当目标视频的音频为60s，且采样频率为128Hz时，经过VGGish网络可以提取到128×60维的特征。

步骤303C，通过第二分类模型中的通用分类器对VGGish特征进行分类，得到第一音频分类结果。

步骤303D，通过第二分类模型中的至少一个特定分类器对VGGish特征进行分类，得到至少一条第二音频分类结果。

本申请实施例中，第二分类模型中包括通用分类器和至少一个特定分类器，其中，通用分类器的分类类别数量与视频的预设分类类别数量相同，特定分类器用于基于特定类别进行分类，特定类别属于视频的预设分类类别，且不同特定分类器对应的不同特定类别。

示意性的，当视频的预设分类类别包括5个类别(分别为自拍、游戏、体育、美妆、搞笑)时，该通用分类器的分类类别也为上述5个类别，而特定分类器则基于5个类别中的某一特定类别进行分类。比如，特定分类器用于基于“搞笑”这一类别进行分类，即将视频分类为搞笑和非搞笑。

可选的，特定类别为音频模态上存在明显区别的类别。

在一种可能的实施方式中，由于相较于非搞笑视频，搞笑视频的音频中通常包含笑声(即搞笑视频与非搞笑视频在音频模态上的区别在于是否包含笑声)，因此，服务器预先训练用于分类搞笑和非搞笑的特定分类器，从而在利用通用分类器进行分类的同时，利用该特定分类器对视频是否搞笑进行分类。

需要说明的是，服务器可以在第二分类模型中设置多个特定分类器，从而进一步提高音频分类结果的准确性，本实施例仅以设置一个特定分类器为例进行示意性说明，当并不对此构成限定。

本实施例中，在通用分类器的基础上，通过增加用于对特定类别进行区分的特定分类器，丰富了音频分类时的维度，进而提高了音频分类结果的准确性和全面性。

在一种可能的实施方式中，如图4所示，对目标视频的文本描述信息进行文本特征提取及分类时，服务器首先获取目标视频的文本描述信息431，然后通过预处理模块432对文本描述信息431进行预处理。进一步的，通过Bi-LSTM 433并结合注意力机制434(self-attention)对于预处理后的文本描述信息431进行文本特征提取，进而通过文本分类器对文本特征进行分类，最终得到文本分类结果435。如图9所示，上述步骤304可以包括如下步骤。

步骤304A，获取目标视频对应的文本描述信息，文本描述信息包括视频标题、视频内容描述信息、视频背景音乐信息和视频发布者信息中的至少一种。

在一种可能的实施方式中，目标视频的视频数据与文本描述信息关联存储，服务器获取目标视频的同时，即从数据库中获取目标视频关联存储的文本描述信息，该文本描述信息中包括视频标题、视频内容描述信息、视频背景音乐信息和视频发布者信息中的至少一种。

示意性的，服务器获取到的文本描述信息中包含视频标题“挑战吃100个包子”、视频内容描述信息“大胃王主播今天超越自我，挑战速吃100个包子”、视频背景音乐“歌曲A”以及视频发布者信息“大胃王阿伟”。

步骤304B，对文本描述信息进行预处理，预处理方式包括去噪声、分词、实体词回捞和去停用词中的至少一种。

为了提高后续分类的准确性，服务器需要先对文本描述信息进行预处理，其中，对文本描述信息进行预处理可以包括如下方式：

1、去噪声：去除文本描述信息中干扰分类的噪声信息。比如，对于文本描述信息中的视频背景音乐信息，若该视频背景音乐信息不包含在背景音乐库中时，视频背景音乐信息中通常会加入“用户上传”字段，而这类字段会对后续分类造成干扰，因此需要对此类字段进行去除。

2、分词：将文本描述信息中的长句切分为细粒度的词，并在切分后对词的出现频率进行统计建模。

3、实体词回捞：基于预设的实体词列表，提取文本描述信息中的实体词，从而分词阶段将实体词误分为多个词。

4、去停用词：去除文本描述信息中无意义的语气词(比如“啊”，“哇”“呀”)、代词(比如“你”“我”“他”)、助词(比如“的”、“了”)、标点符号(比如“，”、“。”)以及数字。

步骤304C，通过第三分类模型中的Bi-LSTM和文本分类器对经过预处理的文本描述信息进行分类，得到文本分类结果。

在一种可能的实施方式中，将预处理的文本描述信息输入第三分类模型之前，服务器将预处理的文本描述信息(由词构成)转化为词向量，进而将词向量输入第三分类模型。其中，将词转化为词向量时可以采用为word2vec等成熟的词向量模型，本实施例对此不做限定。

示意性的，如图10所示，服务器将预处理后的视频标题1001、视频背景音乐信息1002以及视频内容描述信息1003输入Bi-LSTM 1004中。由Bi-LSTM1004进行文本特征提取后，通过文本分类器1005输出文本分类结果1006。

为了进一步提高文本分类结果的准确性，本步骤可以包括如下步骤。

一、将经过预处理的文本描述信息输入Bi-LSTM。

二、通过注意力机制对Bi-LSTM的输出结果进行权重修正。

得到Bi-LSTM的输出结果后，服务器并非直接通过文本分类器对其进行分类，而是通过注意力机制，对输出结果中的权重进行修正，并在完成权重修正后，将修正后输出结果输入文本分类器。

其中，对权重修正的方式包括：提高关注结果的权重和减低非关注结果的权重。

示意性的，如图10所示，Bi-LSTM 1004的输出结果在输入文本分类器1005前，注意力机制1007对输出结果进行权重修正。

三、通过文本分类器对修正后的Bi-LSTM的输出结果进行分类，得到文本分类结果。

通过引入注意力机制对Bi-LSTM的输出结果进行修正，进一步提高了输出结果的准确性，进而提高最终得到的文本分类结果的准确性。

在短视频领域，用户可以使用短视频应用程序拍摄并上传短视频，并由服务器对短视频进行分类，进而根据短视频的类别对用户进行视频推荐。然而，在实际分类过程中发现，用户上传的短视频中，存在部分视频画面相似，但是音频差异极大的短视频(比如不用用户拍摄的配音短视频)，而单纯基于图像特征对此类短视频进行分类时，服务器无法区分画面相似但音频差异较大的短视频，导致视频分类效果不佳。

而将上述实施例提供的视频分类方法应用于短视频分类时，用户使用短视频应用程序拍摄并上传短视频后，服务器提取短视频中的图像帧，并基于图像帧的图像特征对短视频进行分类；同时，服务器提取短视频的音频，并基于音频的音频特征对短视频进行分类；此外，服务器获取用户上传短视频时添加的文本描述信息(比如短视频的标题、背景音乐名称和短视频内容描述)，并基于文本描述信息的文本特征对短视频进行分类。

进一步的，服务器对图像维度、音频维度和文本维度下得到的视频分类结果进行融合，最终确定短视频的目标类别。后续向用户推荐短视频时，服务器即根据当前用户的用户画像，将视频类别与用户画像相匹配的短视频推荐给用户，提高推荐视频与用户喜好之间的契合度。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图11，其示出了本申请一个实施例提供的视频分类装置的框图。该装置可以是图1所示实施环境中的服务器140，也可以设置在服务器140上。该装置可以包括：

视频获取模块1110，用于获取目标视频；

第一分类模块1120，用于通过第一分类模型对所述目标视频中的图像帧进行分类，得到图像分类结果，所述第一分类模型用于基于所述图像帧的图像特征进行分类；

第二分类模块1130，用于通过第二分类模型对所述目标视频中的音频进行分类，得到音频分类结果，所述第二分类模型用于基于所述音频的音频特征进行分类；

第三分类模块1140，用于通过第三分类模型对所述目标视频对应的文本描述信息进行分类，得到文本分类结果，所述第三分类模型用于基于所述文本描述信息的文本特征进行分类；

目标分类模块1150，用于根据所述图像分类结果、所述音频分类结果和所述文本分类结果，确定所述目标视频的目标分类结果。

可选的，所述第一分类模块1120，包括：

确定单元，用于将所述目标视频中提取到的原始图像帧确定为红绿蓝RGB图像帧；

第一图像分类单元，用于通过所述第一分类模型中的残差网络和RGB分类器对所述RGB图像帧进行分类，得到第一图像分类结果，所述RGB分类器用于基于静态图像特征进行分类；

生成单元，用于根据所述目标视频中相邻两帧原始图像帧生成所述RGB差异图像帧；

第二图像分类单元，用于通过所述第一分类模型中的残差网络和RGB差异分类器对所述RGB差异图像帧进行分类，得到第二图像分类结果，所述RGB差异分类器用于基于动态图像特征进行分类。

可选的，所述第一分类模块1120，还包括：

第三图像分类单元，用于通过所述第一分类模型中的目标检测网络和细粒度分类器对所述RGB图像进行分类，得到第三图像分类结果，所述目标检测网络用于提取所述RGB图像中目标物体的细粒度图像特征，所述细粒度分类器用于基于所述细粒度图像特征进行分类。

可选的，所述第二分类模块1130，包括：

第一提取单元，用于提取所述音频的梅尔频率倒谱系数MFCC；

第二提取单元，用于通过所述第二分类模型中的VGGish网络对所述MFCC进行特征提取，得到VGGish特征；

第一音频分类单元，用于通过所述第二分类模型中的通用分类器对所述VGGish特征进行分类，得到第一音频分类结果；

第二音频分类单元，用于通过所述第二分类模型中的至少一个特定分类器对所述VGGish特征进行分类，得到至少一条第二音频分类结果；

其中，所述通用分类器的分类类别数量与视频的预设分类类别数量相同，所述特定分类器用于基于特定类别进行分类，所述特定类别属于视频的预设分类类别，且不同特定分类器对应的不同特定类别。

可选的，所述第三分类模块1140，包括：

信息获取单元，用于获取所述目标视频对应的所述文本描述信息，所述文本描述信息包括视频标题、视频内容描述信息和视频背景音乐信息中的至少一种；

预处理单元，用于对所述文本描述信息进行预处理，预处理方式包括去噪声、分词、实体词回捞和去停用词中的至少一种；

文本分类单元，用于通过所述第三分类模型中的双向长短期记忆网络Bi-LSTM和文本分类器对经过预处理的所述文本描述信息进行分类，得到所述文本分类结果。

可选的，所述文本分类单元，用于：

将经过预处理的所述文本描述信息输入所述Bi-LSTM；

通过注意力机制对所述Bi-LSTM的输出结果进行权重修正；

通过所述文本分类器对修正后的所述Bi-LSTM的输出结果进行分类，得到所述文本分类结果。

可选的，所述目标分类模块1150，包括：

拼接单元，用于对所述图像分类结果、所述音频分类结果和所述文本分类结果中各个分类类别对应的概率进行拼接，生成分类特征向量；

目标分类单元，用于将所述分类特征向量输入目标分类器，得到所述目标分类结果，所述目标分类器基于softmax分类模型构建。

请参考图12，其示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例提供的视频分类方法。具体来讲：

所述服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

根据本发明的各种实施例，所述服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统。

本申请实施例还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现上述各个实施例提供的视频分类方法。

本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个实施例所述的视频分类方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的无线局域网的参数配置方法中全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

获取目标视频；

2.根据权利要求1所述的方法，其特征在于，所述通过第一分类模型对所述目标视频中的图像帧进行分类，得到图像分类结果，包括：

将所述目标视频中提取到的原始图像帧确定为红绿蓝RGB图像帧；

通过所述第一分类模型中的残差网络和RGB分类器对所述RGB图像帧进行分类，得到第一图像分类结果，所述RGB分类器用于基于静态图像特征进行分类；

根据所述目标视频中相邻两帧原始图像帧生成所述RGB差异图像帧；

通过所述第一分类模型中的残差网络和RGB差异分类器对所述RGB差异图像帧进行分类，得到第二图像分类结果，所述RGB差异分类器用于基于动态图像特征进行分类。

3.根据权利要求2所述的方法，其特征在于，所述将从所述目标视频中提取到的原始图像帧确定为RGB图像帧之后，所述方法还包括：

通过所述第一分类模型中的目标检测网络和细粒度分类器对所述RGB图像进行分类，得到第三图像分类结果，所述目标检测网络用于提取所述RGB图像中目标物体的细粒度图像特征，所述细粒度分类器用于基于所述细粒度图像特征进行分类。

4.根据权利要求1所述的方法，其特征在于，所述通过第二分类模型对所述目标视频中的音频进行分类，得到音频分类结果，包括：

提取所述音频的梅尔频率倒谱系数MFCC；

通过所述第二分类模型中的VGGish网络对所述MFCC进行特征提取，得到VGGish特征；

通过所述第二分类模型中的通用分类器对所述VGGish特征进行分类，得到第一音频分类结果；

通过所述第二分类模型中的至少一个特定分类器对所述VGGish特征进行分类，得到至少一条第二音频分类结果；

5.根据权利要求1所述的方法，其特征在于，所述通过第三分类模型对所述目标视频对应的文本描述信息进行分类，得到文本分类结果，包括：

获取所述目标视频对应的所述文本描述信息，所述文本描述信息包括视频标题、视频内容描述信息、视频背景音乐信息和视频发布者信息中的至少一种；

对所述文本描述信息进行预处理，预处理方式包括去噪声、分词、实体词回捞和去停用词中的至少一种；

通过所述第三分类模型中的双向长短期记忆网络Bi-LSTM和文本分类器对经过预处理的所述文本描述信息进行分类，得到所述文本分类结果。

6.根据权利要求5所述的方法，其特征在于，所述通过所述第三分类模型中的Bi-LSTM和文本分类器对经过预处理的所述文本描述信息进行分类，得到所述文本分类结果，包括：

将经过预处理的所述文本描述信息输入所述Bi-LSTM；

通过注意力机制对所述Bi-LSTM的输出结果进行权重修正；

7.根据权利要求1至6任一所述的方法，其特征在于，所述根据所述图像分类结果、所述音频分类结果和所述文本分类结果，确定所述目标视频的目标分类结果，包括：

对所述图像分类结果、所述音频分类结果和所述文本分类结果中各个分类类别对应的概率进行拼接，生成分类特征向量；

将所述分类特征向量输入目标分类器，得到所述目标分类结果，所述目标分类器基于softmax分类模型构建。

8.一种视频分类装置，其特征在于，所述装置包括：

视频获取模块，用于获取目标视频；

9.根据权利要求8所述的装置，其特征在于，所述第一分类模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述第一分类模块，还包括：

11.根据权利要求8所述的装置，其特征在于，所述第二分类模块，包括：

第一提取单元，用于提取所述音频的梅尔频率倒谱系数MFCC；

12.根据权利要求8所述的装置，其特征在于，所述第三分类模块，包括：

13.根据权利要求12所述的装置，其特征在于，所述文本分类单元，用于：

将经过预处理的所述文本描述信息输入所述Bi-LSTM；

通过注意力机制对所述Bi-LSTM的输出结果进行权重修正；

14.根据权利要求8至13任一所述的装置，其特征在于，所述目标分类模块，包括：

15.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至7任一所述的视频分类方法。