CN111209970B

CN111209970B - 视频分类方法、装置、存储介质及服务器

Info

Publication number: CN111209970B
Application number: CN202010019628.1A
Authority: CN
Inventors: 高洪涛
Original assignee: Oppo Chongqing Intelligent Technology Co Ltd
Current assignee: Oppo Chongqing Intelligent Technology Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2023-04-25
Anticipated expiration: 2040-01-08
Also published as: CN111209970A

Abstract

本申请公开了一种视频分类方法、装置、存储介质及电子设备，其中视频分类方法包括：获取待分类视频；提取所述待分类视频的目标文本特征、目标图像特征以及目标音频特征；获取所述目标文本特征对应的第一权重、所述目标图像特征对应的第二权重以及所述目标音频特征对应的第三权重；根据所述第一权重、所述第二权重和所述第三权重，将所述目标文本特征、所述目标图像特征和所述目标音频特征进行融合处理，得到所述待分类视频的融合特征；根据所述融合特征和分类网络，确定所述待分类视频的视频类别。本实施例提供的视频分类方案，可以丰富待分类视频的分类依据，从而提高视频分类的准确度。

Description

视频分类方法、装置、存储介质及服务器

技术领域

本申请属于信息技术领域，尤其涉及一种视频分类方法、装置、存储介质及服务器。

背景技术

随着移动互联网的快速发展和智能手机的快速普及，视频形式的视觉内容数据与日俱增，随之衍生出视频分类。其中，视频分类是指电子设备按照一定的分类体系或标准对视频进行自动分类。视频分类可作为电子设备向用户推荐视频的依据。例如，对于电子设备的推荐业务，需要电子设备对大量推荐视频进行视频分类以获取大量推荐视频的视频类别，根据大量推荐视频的视频类别筛选出用户感兴趣的推荐视频。

目前，电子设备从待分类视频中提取图像，根据提取的图像内容进行分类。但是，该种视频分类方式存在准确度低的问题。

发明内容

本申请实施例提供一种视频分类方法、装置、存储介质及电子设备，可以提高视频分类的准确度。

第一方面，本申请实施例提供一种视频分类方法，包括：

获取待分类视频；

提取所述待分类视频的目标文本特征、目标图像特征以及目标音频特征；

获取所述目标文本特征对应的第一权重、所述目标图像特征对应的第二权重以及所述目标音频特征对应的第三权重；

根据所述第一权重、所述第二权重和所述第三权重，将所述目标文本特征、所述目标图像特征和所述目标音频特征进行融合处理，得到所述待分类视频的融合特征；

根据所述融合特征和分类网络，确定所述待分类视频的视频类别。

第二方面，本申请实施例提供一种视频分类装置，包括：

第一获取模块，用于获取待分类视频；

提取模块，用于提取所述待分类视频的目标文本特征、目标图像特征以及目标音频特征；

第二获取模块，用于获取所述目标文本特征对应的第一权重、所述目标图像特征对应的第二权重以及所述目标音频特征对应的第三权重；

融合处理模块，用于根据所述第一权重、所述第二权重和所述第三权重，将所述目标文本特征、所述目标图像特征和所述目标音频特征进行融合处理，得到所述待分类视频的融合特征；

确定模块，用于根据所述融合特征和分类网络，确定所述待分类视频的视频类别。

第三方面，本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的视频分类方法。

第四方面，本申请实施例提供的电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行如本申请任一实施例提供的视频分类方法。

本申请实施例提供的视频分类方案，根据目标文本特征、目标图像特征以及目标音频特征的融合特征和预设分类网络，确定待分类视频的视频类别。即待分类视频的分类依据包括待分类视频的目标文本特征、目标图像特征以及目标音频特征，可以丰富待分类视频的分类依据，从而提高视频分类的准确度。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其有益效果显而易见。

图1是本申请实施例提供的视频分类方法的第一流程示意图。

图2是本申请实施例提供的视频分类方法的第二流程示意图。

图3是本申请实施例提供的视频分类方法的场景示意图。

图4是本申请实施例提供的特征融合网络的结构示意图。

图5是本申请实施例提供的视频分类方法的卷积运算示意图。

图6是本申请实施例提供的视频分类模型的结构示意图。

图7是本申请实施例提供的视频分类装置的结构示意图。

图8是本申请实施例提供的电子设备的第一结构示意图。

图9是本申请实施例提供的电子设备的第二结构示意图。

具体实施方式

以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文不同模块、引擎及服务可看做为在该运算系统上的实施对象。

本申请实施例提供一种视频分类方法，该视频分类方法的执行主体可以是本申请实施例提供的视频分类装置，或者集成了该视频分类装置的电子设备。其中，电子设备可以是智能手机、平板电脑、掌上电脑(PDA，Personal Digital Assistant)、服务器等。

以下进行具体分析说明。

请参阅图1，图1为本申请实施例提供的视频分类方法的第一流程示意图，该视频分类方法可以包括以下步骤：

101、获取待分类视频。

本申请实施例中，当接收到视频分类请求时，电子设备根据视频分类请求获取待分类视频。其中，待分类视频可以包括一个视频或多个视频。待分类视频中至少存在一个包含文本数据的视频，以及至少存在一个包含音频数据的视频。可以理解的是，任意一个待分类视频中都包含有视频帧数据。

此外，对于视频分类请求的触发方式，本申请实施例不作具体限定。例如，用户可以通过预设的方式来触发视频分类请求，如通过双击在显示屏上播放的视频来触发视频分类请求，即双击的视频作为待分类视频。或者，通过点击显示屏上的拍摄控件触发视频拍摄指令和视频分类请求，即电子设备自动对每个拍摄所得的视频进行视频分类。或者，在选择待分类视频后，通过组合键或在显示屏上显示的悬浮控件触发视频分类请求等。

102、提取待分类视频的目标文本特征、目标图像特征以及目标音频特征。

本申请实施例中，在获取待分类视频之后，电子设备获取待分类视频的目标文本特征、目标图像特征以及目标音频特征。其中，目标文本特征用于表示待分类视频中的文本数据。目标图像特征用于表示待分类视频中的视频帧数据。目标音频特征用于表示待分类视频中的音频数据。

对于目标文本特征、目标图像特征和目标音频特征的获取方式，本申请实施例不作具体限定。需要说明的是，目标文本特征、目标图像特征和目标音频特征的尺寸相同，例如，目标文本特征、目标图像特征和目标音频特征都用尺寸为128行1列的矩阵表示。

103、获取目标文本特征对应的第一权重、目标图像特征对应的第二权重以及目标音频特征对应的第三权重。

其中，第一权重、第二权重和第三权重可以是在电子设备中预先设定的固定数值，如第一权重设定为30％、第二权重设定为40％、第三权重设定为30％等。用户可以对第一权重、第二权重和第三权重进行修改。

第一权重、第二权重和第三权重也可以是电子设备按照一定规则即时获取的数值，如电子设备按照待分类视频中的文本数据、视频帧数据、音频数据的空间占用比例，即时获取第一权重、第二权重和第三权重等。

需要说明的是，第一权重、第二权重和第三权重中的任意两个权重之间可以相同或者不同。对于第一权重、第二权重和第三权重的具体表现形式和大小，本申请实施例不作具体限定。

104、根据第一权重、第二权重和第三权重，将目标文本特征、目标图像特征和目标音频特征进行融合处理，得到待分类视频的融合特征。

本申请实施例中，在获取第一权重、第二权重和第三权重之后，电子设备将第一权重与目标文本特征进行加权处理，将第二权重与目标图像特征进行加权处理，将第三权重与目标音频特征进行加权处理，然后将进行加权处理后的目标文本特征、目标图像特征和目标音频特征进行融合处理，得到待分类视频的融合特征。

其中，对于融合处理的具体实施手段，本申请实施例不作具体限定。例如，通过将目标文本特征、目标图像特征和目标音频特征进行拼接，实现目标文本特征、目标图像特征和目标音频特征的融合处理。又如，通过将目标文本特征、目标图像特征和目标音频特征进行相加，实现目标文本特征、目标图像特征和目标音频特征的融合处理等。

需要说明的是，通过第一权重、第二权重和第三权重的设置，可以合理调整融合特征中目标文本特征、目标图像特征和目标音频特征的融合比例，使得到的融合特征更加精准，进而提高视频分类的准确度。

105、根据融合特征和分类网络，确定待分类视频的视频类别。

本申请实施例中，在得到待分类视频的融合特征之后，电子设备可以根据融合特征和分类网络，确定待分类视频的视频类别。其中，分类网络用于对待分类视频进行分类。视频类别主要以词语或短句的形式呈现，用于表示待分类视频的所属类别。

由上可知，本申请实施例提供的视频分类方法，本申请根据目标文本特征、目标图像特征以及目标音频特征的融合特征确定待分类视频的视频类别，由于待分类视频的分类依据包括待分类视频的目标文本特征、目标图像特征以及目标音频特征，待分类视频的分类依据更加全面，并且融合特征有效地结合了目标文本特征、目标图像特征以及目标音频特征，所以根据融合特征确定的待分类视频的视频类别更加准确。

请参阅图2，图2为本申请实施例提供的视频分类方法的第二流程示意图，该视频分类方法可以包括以下步骤：

201、获取待分类视频。

202、从待分类视频中提取文本数据，根据第一特征提取网络从文本数据提取目标文本特征。

本申请实施例中，在获取待分类视频之后，电子设备从待分类视频中提取文本数据，通过第一特征提取网络计算代表该文本数据的内容含义的特征向量，以得到目标文本特征。

其中，文本数据是指与该待分类视频相关的文字，如该待分类视频的内容标题、作者名称、字幕等。对于文本数据的提取方式，本申请实施例不作具体限定。

其中，第一特征提取网络用于文本特征提取。例如，第一特征提取网络可以为使用预设的样本文本数据训练预先搭建的卷积神经网络(Convolutional Neural Networks,CNN)得到的网络。例如，第一特征提取网络可以为使用预设的样本文本数据训练预先搭建的词袋(Bag Of Words,BOW)网络得到的网络等。或者，第一特征提取网络还可以是其他能够从文本中提取表征文本内容的特征提取网络，本申请实施例不作具体限定。

在一些实施例中，根据第一特征提取网络从文本数据提取目标文本特征，电子设备可以执行如下：

根据第一特征提取网络从文本数据提取待处理文本特征；

按照目标尺寸，对待处理文本特征进行尺寸调整；

将尺寸调整后的待处理文本特征作为待分类视频的目标文本特征。

其中，请参阅图3，图3为本申请实施例提供的视频分类方法的场景示意图。电子设备将文本数据输入至第一特征提取网络中，在第一特征提取网络中计算代表该文本数据的文本内容的特征，得到待处理文本特征，并对待处理文本特征进行尺寸调整，以使第一特征提取网络输出尺寸调整后的待处理文本特征。

其中，目标尺寸是电子设备根据一定规则进行设置。例如，目标尺寸包括目标行数和目标列数，电子设备根据特征融合网络中的权重参数矩阵进行设置。目标行数由特征融合网络中的权重参数矩阵的行数决定，目标行数等于权重参数矩阵的行数。以及目标列数由特征融合网络中的权重参数矩阵的列数决定，目标列数等于权重参数矩阵的列数。

需要说明的是，尺寸调整用于使待处理文本特征的尺寸符合目标尺寸，如使待处理文本特征的尺寸为256行1列。

根据第一特征提取网络从文本数据提取待处理文本特征；

按照目标尺寸，对待处理文本特征进行尺寸调整；

对尺寸调整后的待处理文本特征进行归一化处理；

将归一化处理后的待处理文本特征作为待分类视频的目标文本特征。

其中，电子设备将文本数据输入至第一特征提取网络中，在第一特征提取网络中计算代表该文本数据的文本内容的特征，得到待处理文本特征，并对待处理文本特征进行尺寸调整，以使第一特征提取网络输出尺寸调整后的待处理文本特征。然后电子设备以第一特征提取网络输出数据为特征融合网络的输入数据，在特征融合网络中的输入层将尺寸调整后的待处理文本特征输入至特征融合网络中，在特征融合网络中的归一化层基于1*1大小的卷积核，对尺寸调整后的待处理文本特征进行归一化处理。

需要说明的是，如图4所示，图4为本申请实施例提供的特征融合网络的结构示意图。特征融合网络包括输入层和归一化层，特征融合网络可以用于对不同来源的特征进行归一化处理。归一化处理用于使待处理文本特征的数据取值范围符合规范，如使待处理文本特征的数据取值范围符合数值0至数值1的区间。归一化处理可以消除待处理文本特征、待处理图像特征和待处理音频特征之间的特征来源差异。

203、从待分类视频中提取视频帧数据，根据第二特征提取网络从文本数据提取目标图像特征。

本申请实施例中，在获取待分类视频之后，电子设备将待分类视频分解成视频帧数据。通过第二特征提取网络计算代表该视频帧数据的图像内容的特征，以得到目标图像特征。

其中，视频帧数据是指构成待分类视频的全部或部分图像。第二特征提取网络用于图像特征提取。例如，第二特征提取网络可以通过预先搭建的3D卷积神经网络(3DConvolutional Neural Networks,3D CNN)使用预设的样本图像数据训练得到。又例如，第二特征提取网络可以通过预先搭建的长短期记忆(Long Short-Term Memory，LSTM)网络使用预设的样本图像数据训练得到。或者，第二特征提取网络还可以是其他能够从图像中提取表征图像内容的特征提取网络，本申请实施例不作具体限定。

需要说明的是，在根据第二特征提取网络从视频帧数据提取目标图像特征时，电子设备的具体执行过程可参考根据第一特征提取网络从文本数据提取目标文本特征的具体执行过程。

204、从待分类视频中提取音频数据，根据第三特征提取网络从音频数据提取目标音频特征。

本申请实施例中，在获取待分类视频之后，电子设备从待分类视频中提取音频内容，将待分类视频中的音频内容转化成频谱图，作为音频数据。通过第三特征提取网络计算代表该音频数据的音频内容的特征，以得到目标音频特征。

其中，音频数据是指待分类视频中包括的全部或部分音频。第三特征提取网络用于音频特征提取。例如，第三特征提取网络可以为使用预设的样本音频数据训练预先搭建的卷积神经网络得到的网络。例如，第三特征提取网络可以为使用预设的样本音频数据训练预先搭建的长短期记忆网络得到的网络等。或者，第三特征提取网络还可以是其他能够从音频中提取表征音频内容的特征提取网络，本申请实施例不作具体限定。

需要说明的是，在根据第三特征提取网络从音频数据提取目标音频特征时，电子设备的具体执行过程可参考根据第一特征提取网络从文本数据提取目标文本特征的具体执行过程。

此外，本申请实施例中，对于根据第一特征提取网络从文本数据提取目标文本特征、根据第二特征提取网络从文本数据提取目标图像特征、以及根据第三特征提取网络从音频数据提取目标音频特征，电子设备采用的是同一种执行方式。

可以理解的是，具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。例如，在一些实施例中，电子设备可以同时提取目标文本特征、提取目标图像特征以及提取目标音频特征。

205、根据特征融合网络，计算目标文本特征对应的第一权重、目标图像特征对应的第二权重以及目标音频特征对应的第三权重。

本申请实施例中，特征融合网络包括注意力层。在获取目标文本特征、目标图像特征和目标音频特征之后，电子设备在注意力层计算目标文本特征对应的第一权重、目标图像特征对应的第二权重以及目标音频特征对应的第三权重。

其中，特征融合网络主要用于对多种不同类型的特征进行融合处理。对于特征融合网络的具体网路类型，本申请实施例不作具体限定。

在一些实施例中，特征融合网络为训练后的卷积神经网络，卷积神经网络包括权重参数矩阵，根据特征融合网络，计算目标文本特征对应的第一权重，电子设备可以执行如下：

基于权重参数矩阵和目标文本特征进行卷积运算，以得到目标文本特征对应的第一权重。

根据特征融合网络，计算目标图像特征对应的第二权重，电子设备可以执行如下：

基于权重参数矩阵和目标图像特征进行卷积运算，以得到目标图像特征对应的第一权重。

根据特征融合网络，计算目标音频特征对应的第二权重，电子设备可以执行如下：

基于权重参数矩阵和目标音频特征进行卷积运算，以得到目标音频特征对应的第一权重。

其中，训练后的卷积神经网络还包括注意力层，注意力层中包括权重参数矩阵，注意力层用于计算各类型特征对应的权重。电子设备在训练后的卷积神经网络的注意力层中基于权重参数矩阵和目标文本特征进行卷积运算，以得到目标文本特征对应的第一权重、基于权重参数矩阵和目标图像特征进行卷积运算，以得到目标图像特征对应的第一权重、以及基于权重参数矩阵和目标音频特征进行卷积运算，以得到目标音频特征对应的第一权重。

其中，卷积运算是用于计算一个实数值标量的运算。例如，如图5所示，图5为本申请实施例提供的视频分类方法的卷积运算示意图。假设目标音频特征通过矩阵表示。电子设备在特征融合网络中将目标音频特征中的A_ji与权重参数矩阵中的B_ji进行卷积，得到C_ij，直至权重参数矩阵中每个元素都已经卷积。其中，i是1至s中的正整数，j是1至k中的正整数。然后，电子设备将所有C_ij的总和作为目标音频特征对应的第一权重。

需要说明的是，该方案中的第一权重的值根据目标文本特征而动态变化，第二权重的值根据目标图像特征而动态变化，第三权重的值根据目标音频特征而动态变化，可以合理调整融合特征中目标文本特征、目标图像特征和目标音频特征的融合比例，有效地将目标文本特征、目标图像特征和目标音频特征结合起来，使得到的融合特征更加精准，进而提高视频分类的准确度。

可以理解的是，在获取第一权重时依据的权重参数矩阵、在获取第二权重时依据的权重参数矩阵和在获取第三权重时依据的权重参数矩阵是同一个权重参数矩阵。

此外，具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。例如，在一些实施例中，获取第一权重、第二权重和第三权重可以同时进行。

206、基于第一权重、第二权重和第三权重，对目标文本特征、目标图像特征和目标音频特征进行加权求和，将加权求和的结果作为待分类视频的融合特征。

本申请实施例中，在获取第一权重、第二权重和第三权重之后，电子设备可以根据第一权重、第二权重和第三权重，在特征融合网络中的融合层，对目标文本特征、目标图像特征和目标音频特征进行加权求和，将加权求和的结果作为待分类视频的融合特征。其中，特征融合网络还包括融合层，融合层用于将各类型的特征进行融合处理。

例如，电子设备在融合层将第一权重与与目标文本特征进行加权处理，将第二权重与目标图像特征进行加权处理，将第三权重与目标音频特征进行加权处理，然后将进行加权处理后的目标文本特征、目标图像特征和目标音频特征进行加法处理，将加法处理后的结果作为待分类视频的融合特征。

207、根据融合特征和分类网络，计算待分类视频在每个预设视频类别上的概率值。

本申请实施例中，在将加权求和的结果作为待分类视频的融合特征之后，电子设备将融合特征输入至分类网络中，在分类网络中根据融合特征计算待分类视频在每个预设视频类别上的概率值。其中，待分类视频在预设视频类别上的概率值是指待分类视频为该预设视频类别的发生概率。可以理解的是，每次计算所得的概率值大于等于0且小于等于1。

此外，该方案中的分类网络用于对待分类视频进行分类。分类网络中包括多个预设视频类别，预设视频类别主要以词语或短句的形式呈现。

208、将概率值最大的预设视频类别确定为待分类视频的视频类别。

本申请实施例中，在计算待分类视频在每个预设视频类别上的概率值之后，电子设备将概率值最大的预设视频类别确定为待分类视频的视频类别，在预设分类网络输出的概率值最大的预设视频类别。

需要说明的是，如图6所示，图6为本申请实施例提供的视频分类模型的结构示意图。视频分类模型包括第一特征提取网络、第二特征提取网络、第三特征提取网络、特征融合网络以及分类网络。第一特征提取网络、第二特征提取网络和第三特征提取网络的输出作为特征融合网络的输入。特征融合网络的输出作为预设分类网络的输入。

在一些实施例中，视频分类模型的具体训练方法如下：电子设备获取多个样本文本，其中，每个样本文本携带有文本标签，文本标签表示从该样本文本中需要提取出的字和词。然后，基于预设的第一损失函数使用多个样本文本对预先搭建的文本提取网络进行训练，直至第一损失函数收敛，以得到更新模型参数的第一特征提取网络。电子设备获取多个样本图像，其中，每个样本图像携带有图像标签，图像标签表示从该样本图像中需要提取出的物体。基于预设的第二损失函数使用多个样本图像对预先搭建的图像提取网络进行训练，以得到更新模型参数的第二特征提取网络。以及电子设备获取多个样本音频，每个样本音频携带有音频标签，音频标签表示从该样本音频中需要提取出的部分音频，如提取出XXX发声者的音频等。基于预设的第三损失函数使用多个样本音频对预先搭建的音频提取网络进行训练，以得到更新模型参数的第三特征提取网络。

之后，电子设备获取多个第一训练视频，每个第一训练视频对应设置有第一视频标签，第一视频标签表示该第一训练视频属于哪个视频类别。对于每个第一训练视频，提取第一样本文本数据、第一样本视频帧数据和第一样本音频数据，根据更新模型参数的第一特征提取网络从第一样本文本数据中提取第一样本文本特征，根据更新模型参数的第二特征提取网络从第一训练视频帧数据中提取第一样本图像特征，根据更新模型参数的第三特征提取网络从第一样本音频数据中提取第一样本音频特征，得到第一训练集，其中，第一训练集包括第一样本文本特征、第一样本图像特征以及第一样本音频特征。基于预设的第四损失函数使用第一训练集对预设的特征融合网络和预设分类网络进行训练，直至第四损失函数收敛，以得到更新模型参数的特征融合网络和分类网络。

需要说明的是，该种视频分类模型的训练方式，首先分别对预先搭建的文本提取网络、图像提取网络和音频提取网络进行训练，以得到第一特征提取网络、第二特征提取网络和第三特征提取网络。然后基于第一特征提取网络、第二特征提取网络和第三特征提取网络，对预设的特征融合网络和预设分类网络进行训练，训练后的视频分类模型有利于提高视频分类的准确度。

在一些实施例中，视频分类模型的具体训练方法还可以如下：电子设备获取多个第二训练视频，每个第二训练视频对应设置有第二视频标签，第二视频标签表示该第二训练视频属于哪个视频类别。从多个第二训练视频中提取第二样本文本数据、第二训练视频帧数据和第二样本音频数据，构成第二训练集，基于预设的第五损失函数使用第二训练集对预先搭建的视频分类模型进行训练，直至第五损失函数收敛，以得到更新模型参数的第一特征提取网络、第二特征提取网络、第三特征提取网络、特征融合网络以及分类网络。其中，预先搭建的视频分类网络包括预先搭建的文本提取网络、预先搭建的图像提取网络、预先搭建的音频提取网络、预设的特征融合网络以及预设分类网络。

需要说明的是，视频分类模型在进行训练时，统一对预先搭建的文本提取网络、预先搭建的图像提取网络、预先搭建的音频提取网络、预设的特征融合网络以及预设分类网络进行训练，是一个端到端的训练过程。该种统一迭代训练的方法，训练后的视频分类模型有利于提高视频分类的准确度。

请参阅图7，图7为本申请实施例提供的视频分类装置的结构示意图。该视频分类装置300包括：第一获取模块301、提取模块302、第二获取模块303、融合处理模块304、确定模块305。

第一获取模块301，用于获取待分类视频；

提取模块302，用于提取所述待分类视频的目标文本特征、目标图像特征以及目标音频特征；

第二获取模块303，用于获取所述目标文本特征对应的第一权重、所述目标图像特征对应的第二权重以及所述目标音频特征对应的第三权重；

融合处理模块304，用于根据所述第一权重、所述第二权重和所述第三权重，将所述目标文本特征、所述目标图像特征和所述目标音频特征进行融合处理，得到所述待分类视频的融合特征；

确定模块305，用于根据所述融合特征和分类网络，确定所述待分类视频的视频类别。

在一些实施例中，提取所述待分类视频的目标文本特征、目标图像特征以及目标音频特征时，提取模块302还可以用于：

从所述待分类视频中提取文本数据，根据第一特征提取网络从所述文本数据提取目标文本特征；

从所述待分类视频中提取视频帧数据，根据第二特征提取网络从所述视频帧数据提取目标图像特征；

从所述待分类视频中提取音频数据，根据第三特征提取网络从所述音频数据提取目标音频特征。

在一些实施例中，根据第一特征提取网络从所述文本数据提取目标文本特征时，提取模块302还可以用于：

根据第一特征提取网络从所述文本数据提取待处理文本特征；

按照目标尺寸，对所述待处理文本特征进行尺寸调整；

将尺寸调整后的待处理文本特征作为所述待分类视频的目标文本特征。

按照目标尺寸，对所述待处理文本特征进行尺寸调整；

对尺寸调整后的待处理文本特征进行归一化处理；

将归一化处理后的待处理文本特征作为所述待分类视频的目标文本特征。

在一些实施例中，获取所述目标文本特征对应的第一权重、所述目标图像特征对应的第二权重以及所述目标音频特征对应的第三权重时，第二获取模块303还可以用于：

根据特征融合网络，计算所述目标文本特征对应的第一权重、所述目标图像特征对应的第二权重以及所述目标音频特征对应的第三权重。

在一些实施例中，特征融合网络为训练后的卷积神经网络，所述卷积神经网络包括权重参数矩阵，根据特征融合网络，计算所述目标文本特征对应的第一权重时，第二获取模块303还可以用于：

基于所述权重参数矩阵和所述目标文本特征进行卷积运算，以得到所述目标文本特征对应的第一权重。

在一些实施例中，根据所述第一权重、所述第二权重和所述第三权重，将所述目标文本特征、所述目标图像特征和所述目标音频特征进行融合处理，得到所述待分类视频的融合特征时，融合处理模块304还可以用于：

基于所述第一权重、所述第二权重和所述第三权重，对所述目标文本特征、所述目标图像特征和所述目标音频特征进行加权求和，将所述加权求和的结果作为所述待分类视频的融合特征。

在一些实施例中，根据所述融合特征和分类网络，确定所述待分类视频的视频类别时，确定模块305还可以用于：

根据所述融合特征和分类网络，计算所述待分类视频在每个预设视频类别上的概率值；

将概率值最大的预设视频类别确定为所述待分类视频的视频类别。

应当说明的是，本申请实施例提供的视频分类装置与上文实施例中的视频分类方法属于同一构思，在视频分类装置上可以运行视频分类方法实施例中提供的任一方法，其具体实现过程详见视频分类方法实施例，此处不再赘述。

由上可知，本申请实施例提供的视频分类装置300，第一获取模块301获取待分类视频，然后提取模块302提取待分类视频的目标文本特征、目标图像特征以及目标音频特征，第二获取模块303获取目标文本特征对应的第一权重、目标图像特征对应的第二权重以及目标音频特征对应的第三权重，接着融合处理模块304根据第一权重、第二权重和第三权重，将目标文本特征、目标图像特征和目标音频特征进行融合处理，得到待分类视频的融合特征，最后确定模块305根据融合特征和分类网络，确定待分类视频的视频类别。可以使待分类视频的分类依据更加全面，从而提高视频分类的准确度。

本申请实施例还提供一种电子设备，请参照图8，图8为本申请实施例提供的电子设备的第一结构示意图。电子设备400包括处理器401和存储器402。其中，处理器401与存储器402电性连接。

处理器401是电子设备400的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器402内的计算机程序，以及调用存储在存储器402内的数据，执行电子设备400的各种功能并处理数据。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。

此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

在本申请实施例中，电子设备400中的处理器401会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器402中，并由处理器401运行存储在存储器402中的计算机程序，从而实现各种功能，如下：

获取待分类视频；

请参照图9，图9为本申请实施例提供的电子设备的第二结构示意图，与图8所示电子设备的区别在于，电子设备400还包括：摄像组件403、射频电路404、音频电路405、输入单元406、以及电源407。其中，存储器402、摄像组件403、射频电路404、音频电路405、输入单元406、以及电源407分别与处理器401电性连接。

摄像组件403可以包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义图像信号处理(Image Signal Processing)管线的各种处理单元。图像处理电路至少可以包括：多个摄像头、图像信号处理器(Image Signal Processor，ISP处理器)、控制逻辑器、图像存储器以及显示器等。其中每个摄像头至少可以包括一个或多个透镜和图像传感器。图像传感器可包括色彩滤镜阵列(如Bayer滤镜)。图像传感器可获取用图像传感器的每个成像像素捕捉的光强度和波长信息，并提供可由图像信号处理器处理的一组原始图像数据。

射频电路404可以用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路405可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。

输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。其中，输入单元406可以包括指纹识别模组。

电源407可以用于给电子设备400的各个部件供电。在一些实施例中，电源407可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

获取待分类视频；

在一些实施例中，提取所述待分类视频的目标文本特征、目标图像特征以及目标音频特征时，处理器401可以执行：

在一些实施例中，根据第一特征提取网络从所述文本数据提取目标文本特征时，处理器401可以执行：

按照目标尺寸，对所述待处理文本特征进行尺寸调整；

对尺寸调整后的待处理文本特征进行归一化处理；

在一些实施例中，获取所述目标文本特征对应的第一权重、所述目标图像特征对应的第二权重以及所述目标音频特征对应的第三权重时，处理器401可以执行：

在一些实施例中，所述特征融合网络为训练后的卷积神经网络，所述卷积神经网络包括权重参数矩阵，根据特征融合网络，计算所述目标文本特征对应的第一权重时，处理器401可以执行：

在一些实施例中，根据所述第一权重、所述第二权重和所述第三权重，将所述目标文本特征、所述目标图像特征和所述目标音频特征进行融合处理，得到所述待分类视频的融合特征时，处理器401可以执行：

在一些实施例中，根据所述融合特征和分类网络，确定所述待分类视频的视频类别时，处理器401可以执行：

由上可知，本申请实施例提供的电子设备，根据目标文本特征、目标图像特征以及目标音频特征的融合特征和预设分类网络，确定待分类视频的视频类别。即待分类视频的分类依据包括待分类视频的目标文本特征、目标图像特征以及目标音频特征，可以使待分类视频的分类依据更加全面，从而提高视频分类的准确度。

本申请实施例还提供一种存储介质，该存储介质存储有计算机程序，当该计算机程序在计算机上运行时，使得该计算机执行上述任一实施例中的视频分类方法，比如：获取待分类视频；提取所述待分类视频的目标文本特征、目标图像特征以及目标音频特征；获取所述目标文本特征对应的第一权重、所述目标图像特征对应的第二权重以及所述目标音频特征对应的第三权重；根据所述第一权重、所述第二权重和所述第三权重，将所述目标文本特征、所述目标图像特征和所述目标音频特征进行融合处理，得到所述待分类视频的融合特征；根据所述融合特征和分类网络，确定所述待分类视频的视频类别。

在本申请实施例中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM)、或者随机存取记忆体(Random Access Memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对本申请实施例的视频分类方法而言，本领域普通测试人员可以理解实现本申请实施例的视频分类方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如视频分类方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

对本申请实施例的视频分类装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，该存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种视频分类方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频分类方法，其特征在于，包括：

获取待分类视频；

提取所述待分类视频的目标文本特征、目标图像特征以及目标音频特征，其中，所述目标文本特征、目标图像特征以及目标音频特征的尺寸均为目标尺寸，所述目标尺寸根据特征融合网络中的权重参数矩阵进行设置，所述特征融合网络为训练后的卷积神经网络，所述卷积神经网络包括权重参数矩阵；

基于所述权重参数矩阵和所述目标文本特征进行卷积运算，以得到所述目标文本特征对应的第一权重；

基于所述权重参数矩阵和所述目标图像特征进行卷积运算，以得到所述目标图像特征对应的第二权重；

基于所述权重参数矩阵和所述目标音频特征进行卷积运算，以得到所述目标音频特征对应的第三权重；

2.根据权利要求1所述的视频分类方法，其特征在于，所述提取所述待分类视频的目标文本特征、目标图像特征以及目标音频特征，包括：

3.根据权利要求2所述的视频分类方法，其特征在于，所述根据第一特征提取网络从所述文本数据提取目标文本特征，包括：

按照目标尺寸，对所述待处理文本特征进行尺寸调整；

4.根据权利要求2所述的视频分类方法，其特征在于，所述根据第一特征提取网络从所述文本数据提取目标文本特征，包括：

按照目标尺寸，对所述待处理文本特征进行尺寸调整；

对尺寸调整后的待处理文本特征进行归一化处理；

5.根据权利要求1至4任一项所述的视频分类方法，其特征在于，所述根据所述第一权重、所述第二权重和所述第三权重，将所述目标文本特征、所述目标图像特征和所述目标音频特征进行融合处理，得到所述待分类视频的融合特征，包括：

6.根据权利要求1至4任一项所述的视频分类方法，其特征在于，所述根据所述融合特征和分类网络，确定所述待分类视频的视频类别，包括：

7.一种视频分类装置，其特征在于，包括：

第一获取模块，用于获取待分类视频；

提取模块，用于提取所述待分类视频的目标文本特征、目标图像特征以及目标音频特征，其中，所述目标文本特征、目标图像特征以及目标音频特征的尺寸均为目标尺寸，所述目标尺寸根据特征融合网络中的权重参数矩阵进行设置，所述特征融合网络为训练后的卷积神经网络，所述卷积神经网络包括权重参数矩阵；

第二获取模块，用于基于所述权重参数矩阵和所述目标文本特征进行卷积运算，以得到所述目标文本特征对应的第一权重；基于所述权重参数矩阵和所述目标图像特征进行卷积运算，以得到所述目标图像特征对应的第二权重；基于所述权重参数矩阵和所述目标音频特征进行卷积运算，以得到所述目标音频特征对应的第三权重；

8.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至6任一项所述的视频分类方法。

9.一种电子设备，包括处理器、存储器，所述存储器有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至6任一项所述的视频分类方法。