CN109710800A

CN109710800A - 模型生成方法、视频分类方法、装置、终端及存储介质

Info

Publication number: CN109710800A
Application number: CN201811326723.5A
Authority: CN
Inventors: 梁大为
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-05-03
Anticipated expiration: 2038-11-08
Also published as: CN109710800B

Abstract

本发明实施例提供了一种模型生成方法、视频分类方法、装置、终端及计算机可读存储介质，所述视频分类方法包括：获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类，得到多个分类标签的概率预测向量；对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序；选取排名靠前的至少一个元素编号对应的标签，以作为所述待分类视频文件的分类标签。本发明实施例中，基于学习好的视频分类模型可以综合利用音频、图像和文本特征来识别待分类视频，扩大视频识别的标签的范围，从而提高了视频分类的准确性和整体性能。

Description

模型生成方法、视频分类方法、装置、终端及存储介质

技术领域

本发明涉及视频分类技术领域，特别是涉及一种模型生成方法、视频分类方法、装置、终端及计算机可读存储介质。

背景技术

随着视频文件的大量增加，人们需要观看视频文件前都会按照视频文件的类别进行初步筛选，然后从对应类别的视频文件中去选择感兴趣的视频文件观看，这样就需要对视频文件进行有效的分类，以使视频文件在合适的类别中呈现。

现有的视频文件分类时，需要先设置视频文件的类别标签，然后，根据该类别标签，将其分到对应的视频类别中，但是，目前视频文件的类别标签设置可能不准确或不全面，比如，目前对视频文件的类别标签都要满足视觉可识别，也就是使人们仅通过观察视频内容就能识别出标签来，而对于视觉不可识别且有用的标签却没有设置，从而导致视频文件分类不准确。

发明内容

本发明实施例所要解决的技术问题是提供一种模型生成方法和视频分类方法，以解决现有技术中由于视频文件的类别标签设置可能不准确或不全面，导致视频文件分类不准确的技术问题。

相应的，本发明实施例还提供了一种模型生成装置、视频分类装置、终端及计算机可读存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明是通过如下技术方案实现的：

第一方面提供一种模型生成方法，包括：

获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征；

将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合，得到融合后的向量；

对所述融合后的向量进行瓶颈门控和混合专家层处理，得到多个分类标签的概率预测向量；

将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算，得到多个分类标签分类损失的计算结果；

根据所述计算结果，利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到视频分类模型。

第二方面提供一种视频分类方法，包括：

获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；

将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类，得到多个分类标签的概率预测向量；

对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序；

选取排名靠前的至少一个元素编号对应的标签，以作为所述待分类视频文件的分类标签。

第三方面提供一种模型生成装置，包括：

获取模块，用于获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征；

融合模块，用于将所述每个所述待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合，得到融合后的向量；

处理模块，用于对所述融合后的向量进行瓶颈门控和混合专家层处理，得到多个分类标签的概率预测向量；

计算模块，用于将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算，得到多个分类标签分类损失的计算结果；

迭代学习模块，用于根据所述计算结果，利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到视频分类模型。

第四方面提供一种视频分类装置，包括：

第一获取模块，用于获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；

分类模块，用于将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类，得到多个分类标签的概率预测向量；

排序模块，用于对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序；

选取模块，用于选取排名靠前的至少一个元素编号对应的标签，以作为所述待分类视频文件的分类标签。

第五方面提供一种终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的模型生成方法的步骤，或者如上述的视频分类方法的步骤。

第六方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的模型生成方法中的步骤，或者如上述的视频分类方法的步骤。

与现有技术相比，本发明实施例包括以下优点：

本发明实施例中，对确定的多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征融合成一个向量，再后，对该融合后的向量进行瓶颈门控以及混合专家层处理，得到多个分类标签的概率预测向量；以及将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算，得到多个分类标签分类损失的计算结果，最后，根据所述计算结果，利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到视频分类模型。也就是说，本发明实施例中，采用上述过程对视频分类模型的参数进行学习，基于学习好的视频分类模型可以综合利用音频、图像和文本特征来识别待分类视频，扩大视频识别的标签的范围，从而提高了视频分类的准确性和整体性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1是本发明实施例提供的一种模型生成方法的流程图；

图2是本发明实施例中提供的一种向量通过第一瓶颈门控处理的示意图；

图3是本发明实施例提供的一种视频分类方法的流程图；

图4是本发明实施例提供的一种视频分类方法的另一流程图

图5是本发明实施例提供的一种应用实例的示意图；

图6是本发明实施例提供的一种模型生成装置的结构示意图；

图7是本发明实施例提供的第一瓶颈门控处理模块的结构示意图；

图8是本发明实施例提供的一种混合专家层处理模块的结构示意图

图9是本发明实施例提供的一种视频分类装置的结构示意图；

图10是本发明实施例提供的一种视频分类装置的另一结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

请参阅图1，为本发明实施例提供的一种模型生成方法的流程图，具体可以包括如下步骤：

步骤101：获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征；

其中，具体的获取过程包括：

1)对多个待分类视频文件中的每个待分类视频文件分别进行采样，得到每个待分类视频文件的多个音频片段和多张图像；

该步骤中，对每个待分类视频文件的音频和图像的采用过程类似，其不同之处，在于输入的神经网络不同，图像输入的是二维或三维的卷积神经网络；而音频输入的是音频卷积神经网络。

其中，对图像的采样以每间隔1秒采样一张图像，累计采样300张图像为例，然后，对每一张图像提取inception v3的最后一个隐层的输出作为该图像的图像原始特征；其中，采取的每个待分类视频中的图像是通过二维或三维的卷积神经网络(CNN，Convolutional Neural Networks)来执行的，二维是针对单张图像的，三维是针对一定长度的图像序列的。

而卷积神经网络的输入通常具有固定的大小，比如224×224，那么对于输入卷积神经网络的一张图像，可以将其保持纵横比并将最小边长缩放到 256，然后，随机截取该图像的224×224的图像块作为卷积神经网络的输入，并进行前馈操作(其前馈操作主要包括若干个卷积层和池化层，卷积层用来提取图像的特征，池化层用来降低图像的分辨率)，然后，取出最后一个隐藏层，也就是分类器层紧邻的前一层作为输出。

同理，对音频的采样也是以间隔1秒进行采样一个音频片段，累计采样了300个音频片段为例，然后，将每个音频片段输入音频CNN，同样取最后一个隐层的输出作为多个音频片段的音频原始特征。对于输入音频CNN 的一个音频，可以将其进行短时傅里叶变换转换成频谱图，然后对于该频谱图保持纵横比并将最小边长缩放到256，然后，随机截取该频谱图的224× 224的频谱图块作为音频CNN的输入，并进行前馈操作(其中，前馈操作主要包括若干个卷积层和池化层，卷积层用来提取频谱图的特征，池化层用来降低频谱图的分辨率)，然后，取出最后一个隐藏层，也就是分类器层紧邻的前一层作为输出。

2)提取所述多个音频片段中每个音频片段的音频原始特征，并将多个音频原始特征聚合成一个音频聚合特征；

其中，该步骤中，提取每个音频片段的音频原始特征的过程，对于本领域技术人员来说已是熟知技术，在此不再赘述。

其一种聚合的方式：可以采用基于注意力的聚合方法(也可以称为注意力池化操作)将多个音频原始特征聚合成一个音频聚合特征。其中，

注意力池化的输入是向量(比如图像向量或者音频向量等)的序列，也就是矩阵，输出是向量。首先，先初始化由注意力向量构成的注意力矩阵，其中，注意力向量指的是和输入列矩阵的列向量维度一样的向量(注意力向量的个数是个可选的超参数，一般设置为64，128或256；而随机初始化和神经网络的其他参数的初始化方法和目的是一样的，随机初始化是给每一个参数一个随机的绝对值小于1的值，然后通过随机梯度下降算法来对这些参数进行动态更新。即神经网络训练的目的)，大小为KxD，然后将该矩阵乘以输入矩阵DxN得到一个输出矩阵KxN；然后，对该输出矩阵进行层归一化操作，其目的是为了加速训练的收敛，最后，逐行地进行软最大化(softmax) 操作，其中，softmax操作，比如：softmax(x1,x2,x3)＝(e^x1/(e^x1+e^x2+e^x3),e^x2/(e^x1+ e^x2+e^x3),e^x3/(e^x1+e^x2+e^x3))，并对softmax的输出进行应用dropout，dropout 操作的目的是抵抗神经网络过拟合的风险，比如，以0.5概率将输入的值置成0，也就是说有一半的元素值进行了修改变成了0，再后，进行矩阵乘法操作得到输出矩阵K×D。其中，K×D矩阵逐行进行L2范数归一化操作，所谓逐行就是把每行看成一个向量，进行该向量的L2范数归一化，然后再进行层归一化，目的也是为了加速训练收敛，最后将矩阵拉伸成向量，完成整个操作。拉伸操作简单实现可以将每行看成一个向量，然后逐行地将向量首尾相连得到。

需要说明的是，之所以将该操作称为注意力池化操作，是因为不同的注意力向量对原始输入矩阵中的向量会得到不同的权重，类似于人的注意力机制，而池化操作是对原始输入矩阵中的向量进行加权平均操作，因此而得其名。

进一步，步骤2)中，在多个音频原始特征聚合前，还可以先对提取的每个音频原始特征进行主成分分析降维、白化以及量化处理，得到处理后每个音频原始特征；然后，对处理后的每个音频原始特征进行反量化处理，得到反量化后的每个音频原始特征；最后，将反量化后的所有音频原始特征聚合成一个固定长度的音频聚合特征。

其具体的聚合方式也可以采用基于注意力的聚合方法(即注意力池化操作)将多个音频原始特征聚合成一个音频聚合特征，其具体的过程详见上述，在此不再赘述。

3)提取多张图像中的每张图像的图像原始特征，并将多张图像的图像原始特征聚合成一个图像聚合特征；

进一步，步骤3)中，在多个图像原始特征聚合前，对提取的每个图像原始特征进行主成分分析降维、白化以及量化处理，得到量化后每个图像原始特征；对量化后的每个图像原始特征进行反量化处理，得到反量化后的每个图像原始特征；最后，将反量化后的所有图像原始特征聚合成一个固定长度的图像聚合特征。

该步骤中，提取每张图像的图像原始特征的过程对于本领域技术人员来说已是熟知技术，在此不再赘述，而将多张图像的图像原始特征聚合成一个图像聚合特征也可以采用基于注意力的聚合方法(也可以称为注意力池化操作)将多个图像原始特征聚合成一个图像聚合特征，其具体的过程详见上述，在此不再赘述。

4)从每个待分类视频文件的文本描述中提取文本特征。

该步骤中，可以采用TextCNN的方法来提取每个待分类视频文件的文本特征，并将最后一个隐层作为文本特征，由于文本特征本身已经是一个固定长度的向量了，因此，不再需要对它进行聚合操作。

具体的提取过程包括：首先对文本标题进行分词操作，然后对每个词进行词向量嵌入操作，词向量嵌入操作将每个词转换成一个定长的向量表示，然后将词向量序列输入文本卷积神经网络进行前馈处理(其中，前馈操作主要包括若干个卷积层和池化层，卷积层用来提取特征，池化层用来进行降采样)，并取出最后一个隐藏层作为文本的特征表示。

需要说明的是，本发明实施例中，提取文本特征的方式，除了提取标题之外，还可以通过其他方式提取文本特征，比如，视频展现页面的文本描述、视频展现页面的关键词、视频图像画面中通过OCR技术提取的文本、以及通过自动语音识别技术提取的文本等。当然，也可以是这些特征的任意组合，然后，采用和标题相同或相近的方式输入到本发明实施例后的归一化处理和拼接中。

步骤102：将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合，得到融合后的向量；

其一种融合方法包括：

21)将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理，得到对应的音频向量、图像向量和文本向量；

该步骤中，将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行L2范数归一化处理，得到归一化处理后的音频向量、图像向量和文本向量，

其中，L2范数归一化，就是向量中每个元素除以向量的L2范数。也就是说，对音频聚合特征、图像聚合特征和文本特征中的每一个特征进行L2 范数归一化处理，比如，对于向量x＝(x1，x2，x3)，L2范数归一化如下：先计算x的模长为l＝sqrt(x1*x1+x2*x2+x3*x3)，其中sqrt表示开根号，*表示乘法，那么L2范数归一化为新的向量x’＝(x1/l，x2/l，x3/l)。

对每个特征进行L2范数归一化处理的优点就是将每一个模态的输入特征等权重对待，然后，由网络自动学习每一种模态特征的重要性，归一化处理的另一个优点就是可以加快网络的收敛速度和收敛效果。

22)将得到的所述音频向量、图像向量和文本向量进行拼接，得到拼接后的第一向量；

该步骤中，将经过归一化处理后的所述音频向量、图像向量和文本向量逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量；其中，所述音频向量、图像向量和文本向量之间任意首尾相连拼接，且，对每个待分类视频保持同样的首尾相连拼接顺序。也就是说，对所有的待分类视频按照同样的拼接顺序进行拼接。

23)将所述拼接后的第一向量输入第一全连接层进行降维处理，得到降维处理后的第二向量。其中，将该维度可以设置为1024，但并不限于此，也可以根据需要适应性修改，本实施例不做限制。

步骤103：对所述融合后的向量进行瓶颈门控和混合专家层处理，得到多个分类标签的概率预测向量；

该步骤具体的处理过程包括：

31)将降维处理后所述第二向量进行第一瓶颈门控处理，得到第三向量；

该步骤中，对所述降维处理后的第二向量进行第一瓶颈门控处理，得到第三向量的过程，如图2所示，图2为本发明实施例中提供的一种向量通过第一瓶颈门控处理的示意图，如图所示：先将所述降维处理后的第二向量(以向量21表示)输入第二全连接层进行降维处理，并将处理后的向量进行第一层归一化和整流线性处理，得到处理后的向量(以向量22表示)；再后，将处理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度相关性处理，并将处理结果依次通过第二层归一化处理和双弯曲函数 sigmoid激活函数，得到激活后的向量(以向量23表示)；最后，将激活后的所述向量逐点乘以所述第一全连接层降维处理后的第二向量(即通过逐单元相乘)，并将得到的第三向量作为经过第一瓶颈门控处理后的向量(即向量24)。需要说明是，编号21至24只适用于图2中的举例说明。

其中，该步骤中，对降维处理后的第二向量进行第二和第三全连接层的降维处理，主要是考虑了不同特征向量维度之间的相关性，使得学习的特征向量更有益于分类。

32)将所述第三向量向量通过混合专家层进行处理，得到多个分类标签的第一概率预测向量；

该步骤中，将所述第三向量通过混合专家层进行处理，得到多个分类标签的第一概率预测向量的过程包括：

先将经过所述第一瓶颈门控处理后的所述第三向量分别输入到第一组全连接层和第二组全连接层，得到对应的第四向量和第五向量，其中，所述第一组全连接层称为专家层，其中，所述专家层包括多个专家，每个专家是一个全连接层，其单元个数等于分类标签的总数；所述第二组全连接层称为门控层，其中，所述门控层包括多个门控，所述多个门控与所述多个专家的数量一样，每个门控是一个全连接层，其单元个数等于分类标签的总数；然后，对所述第一组全连接层输出的第四向量采用双弯曲(sigmoid)函数进行激活，得到激活后的专家层的向量；以及对所述第二组全连接层输出的第五向量采用软最大化(softmax)函数进行激活，得到激活后的门控层的向量；最后，将激活后的所述门控层的向量逐点乘以激活后的所述专家层的向量，得到多个专家向量；并对所述多个专家向量进行向量求和，得到多个分类标签的第一概率预测向量，所述多个分类标签的第一概率预测向量作为所述混合专家层的输出。

33)将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理，得到多个分类标签的第二概率预测向量；

该步骤中，先将所述混合专家层输出的多个分类标签的第一概率预测向量输入第四全连接层进行降维处理，得到降维处理后的多个分类标签的概率预测向量；再将所述降维处理后的多个分类标签的概率预测向量进行层归一化和整流线性处理，得到处理后的多个分类标签的概率预测向量；然后，将处理后的多个分类标签的概率预测向量输入到维度和所述混合专家层输出的多个分类标签的概率预测向量相同的第五全连接层进行处理，并对处理后得到的多个分类标签的概率预测向量进行层归一化处理和sigmoid激活，得到激活后的多个分类标签的概率预测向量；最后，将激活后的所述多个分类标签的概率预测向量逐点乘以所述混合专家层输出得到的多个分类标签的概率预测向量，并将乘积得到的多个分类标签的第二概率预测向量作为经过第二瓶颈门控处理后输出的多个分类标签的概率预测向量。

该步骤中，由于考虑到不同分类标签之间的相关性，所以，需要对混合专家层输出的多个分类标签的概率预测向量进行第二瓶颈门控处理，其目的，就是提升视频分类的性能。

步骤104：将所述多个分类标签的新的概率预测向量及真值标签向量输入到损失函数进行计算，得到多个分类标签分类损失的计算结果；

该步骤中，通过损失函数来计算多标签分类损失的计算结果，其中，该计算结果为二值交叉熵。

步骤105：根据所述计算结果，利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到视频分类模型。

该步骤中，根据计算结果，针对不同的待分类视频文件就可以采用梯度反向传播方法(比如adam方法等)对视频分类模型的参数进行反复迭代学习，学习指的是学习视频分类模型的各种参数，其具体的学习过程对于本领域技术人员来说已是熟知技术，在此不再赘述。

本发明实施例中，对获取的多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征融合成一个向量，再后，对该融合后一个向量进行瓶颈门控处理以及混合专家层处理，得到多个分类标签的概率预测向量；以及将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算，得到多个分类标签分类损失的计算结果，最后，根据计算结果利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到视频分类模型。也就是说，本发明实施例中，利用音频聚合特征、图像聚合特征和文本特征的融合后的向量，采用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到训练好的视频分类模型，可以使得训练好的视频分类模型可以通过音频聚合特征、图像聚合特征和文本特征来识别待分类视频，扩大视频识别的标签的范围，从而提高了视频分类的准确性和整体性能。

还请参阅图3，为本发明实施例提供的一种视频分类方法的流程图，所述方法可以包括：

步骤301：获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；

该步骤中具体包括：先对待分类视频文件进行采样，得到多个音频片段和多张图像；提取所述多个音频片中每个音频片段的音频原始特征，并将多个音频原始特征聚合成一个音频聚合特征；提取多张图像中的每张图像的图像原始特征，并将多张图像的图像原始特征聚合成一个图像聚合特征；从所述待分类视频文件的文本描述中提取文本特征。

其具体的实现过程详见上述实施例中对应步骤的实现过程，在此不再赘述。

步骤302：将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类，得到多个分类标签的概率预测向量；

该步骤中，先将所述音频聚合特征、图像聚合特征和文本特征分别进行归一化处理，得到对应的音频向量、图像向量和文本向量；然后，将得到的音频向量、图像向量和文本向量进行拼接，得到拼接后的第一向量；再后，将所述拼接后的第一向量输入第一全连接层进行降维处理，得到降维处理后的第二向量；对所述降维处理后的第二向量进行第一瓶颈门控处理，得到第三向量；并将所述第三向量通过混合专家层进行处理，得到多个分类标签的第一概率预测向量；最后，将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理，得到多个分类标签的第二概率预测向量。

步骤303：对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序；

该步骤中，可以采用常用的排序算法进行排序，比如quicksort快速排序算法等进行排序。

步骤304：选取排名靠前的至少一个元素编号对应的标签，以作为所述待分类视频文件的分类标签。

该步骤中，在每个元素按照从高到低(或者从大到小)的顺序进行排序后，排名靠前的至少一个元素编号可以是排名靠前的5个，或者前20个，或者前30个等，具体的可以需要来设置，本实施例不做限制。每个元素都对应着一个特定标签的编号，根据该编号可以得到对应的标签。

本发明实施例中，在获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征后，将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成(或者训练好)的视频分类模型进行分类，得到多个分类标签的概率预测向量，然后先对多个分类标签的概率预测向量中的每个元素按照从高到低(或者从大到小)进行排序，选取排名靠前的至少一个元素编号对应的标签，将选取的标签作为所述待分类视频文件的分类标签，也就是说，本发明实施例中，利用训练好的视频分类模型通过音频聚合特征、图像聚合特征和文本特征来识别待分类视频，扩大视频识别的标签的范围，从而提高了视频分类的准确性和整体性能。

还请参阅图4，为本发明实施例提供的一种视频分类方法的另一流程图，所述方法与上述实施例的不同之处，在于，对排在前面的N个元素的值进行判断，并取大于置信度阈值的元素编号对应的标签，并将该标签作为所述待分类视频文件的分类标签。具体包括：

步骤401：获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；

步骤402：将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类，得到多个分类标签的概率预测向量；

步骤403：对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序；

步骤404：判断排名靠前的至少一个元素的值是否大于置信度阈值；如果大于，执行步骤405；否则，执行步骤406；

步骤405：将选取大于置信度阈值的排名靠前的至少一个元素编号对应的标签，以作为所述待分类视频文件的分类标签；

步骤406：输出空字符串，即不输出任何标签。也就是说，该待分类的视频的内容不在标签涵盖的范围内。

本发明实施例中，先对多个分类标签的概率预测向量中的每个元素按照从高到低(或者从大到小)进行排序，判断排名靠前的至少一个元素的值是否大于置信度阈值，并选取大于置信度阈值且排名靠前的至少一个元素编号对应的标签，然后选取的标签作为所述待分类视频文件的分类标签。也就是说，对排名靠前的至少一个元素的值进行置信度阈值判断，从而提高了视频分类的准确性。

为了便于理解，还请参阅图5，为本发明实施例提供的一种应用实例的示意图，本发明实施例中，以鱼儿游动的视频为例，同时还提供鱼儿游动的音频和鱼儿游动的标题描述，下面我分别描述视频分类模型的学习过程和视频的分类测试过程。

1、视频分类模型的学习(或训练)过程：

首先，对该鱼儿游动的视频进行采样，得到多张图像，即对鱼儿游动的视频中的图像序列提取二维或三维的卷积神经网络(CNN，Convolutional Neural Networks)特征，二维是针对单张图像的，三维是针对一定长度的图像序列的，提取每张图像的图像原始特征，进一步，还可以对图像原始特征进行主成分分析降维、白化和量化处理，然后，将图像原始特征进行反量化和特征聚合，最后，对聚合后的每一个图像聚合特征进行L2范数归一化操作，得到图像向量；

同理，对该鱼儿游动的音频进行采样，得到多个音频片段，然后，将每个音频片段输入音频CNN网络，提取每个音频片段的音频原始特征，进一步，还可以对音频原始特征进行主成分分析降维、白化和量化处理，然后，将音频原始特征进行反量化和特征聚合，最后，对聚合后的每一个音频聚合特征进行L2范数归一化操作，得到音频向量；

同理，从鱼儿游动的标题描述(即一群色彩斑斓的鱼在水里自由自在的游动)中提取文本特征，将文本特征输入到文本卷积神经网络，由于文本特征本身已经是一个固定长度的向量了，因此，不再需要对它进行聚合操作。将每一个文本特征向量进行L2范数归一化操作，得到文本向量。

其次，将得到的音频向量、图像向量和文本向量逐个首尾相连拼接在一起，得到一个维度是三个向量维度之和的向量；

其首尾相连的拼接方式可以是音频向量—图像向量—文本向量；还可以是图像向量—文本向量—音频向量，还可以图像向量—音频向量—文本向量等，需要说明的，在学习过程中，后续的学习视频样本也需要按照与本次相同的首尾拼接顺序来执行。

再后，将该拼接后的向量输入一个全连接层进行降维处理，一般将这个维度设置为1024，并将降维后的向量输入第一瓶颈门控进行处理，需要说明的，本发明实施例中，第一瓶颈门控可以中包括两个全连接层、两个层归一化以及一个整流线性处理和一个sigmoid激活函数。

再后，将经过第一瓶颈门控处理后的新的向量输送到混合专家层(也可以称为混合专家分类器)，得到多个分类标签的概率预测向量，以及将多个分类标签的概率预测向量经过第二瓶颈门控进行处理，得到多个分类标签的新的概率预测向量；其中，需要说明的是，本实施例中的第二瓶颈门控与第一瓶颈门控的结构相同，功能也类似。

最后，根据所述多个分类标签的新的概率预测向量及真值标签向量输入到损失函数进行计算，得到多个分类标签分类损失的计算结果，根据所述计算结果，利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到学习好的视频分类模型。

基于上述过程，可以采用小批量视频样本作为输入对该视频分类模型进行反复训练学习，得到学习好的视频分类模型。

2、利用学习好的视频分类模型对视频进行分类，即视频分类的测试过程：

在本发明实施例中，对待测试的视频，先获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；将所述音频聚合特征、图像聚合特征和文本特征输入到学习好的视频分类模型进行分类，得到多个分类标签的概率预测向量；对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序；选取排名靠前的至少一个元素编号对应的标签，并将选取的标签作为所述待分类视频文件的分类标签。进一步，还可以判断排名靠前的至少一个元素的值是否大于置信度阈值；如果大于，则将所述大于所述置信度阈值的排名靠前的至少一个元素编号对应的标签作为所述待分类视频文件的分类标签。

也就是说，本发明实施例中，对待测视频的分类过程，需要先按照视频分类模型的学习过程进行相应的处理，之后，对于得到的多个分类标签的概率预测向量中每个元素按照从高到低进行排序；选取大于置信度阈值的排名靠前的至少一个元素编号对应的标签，将选取的标签作为所述待分类视频文件的分类标签。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

请参阅图6，为本发明实施例提供的一种模型生成装置的结构示意图，具体可以包括如下模块：获取模块61，融合模块62，处理模块63，计算模块64和迭代学习模块65，其中，

获取模块61，用于获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征；

融合模块62，用于将所述每个所述待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合，得到融合后的向量；

处理模块63，用于对所述融合后的向量进行瓶颈门控和混合专家层处理，得到多个分类标签的概率预测向量；

计算模块64，用于将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算，得到多个分类标签分类损失的计算结果；

迭代学习模块65，用于根据所述计算结果，利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到视频分类模型。

可选的，所述融合模块包括：归一化处理模块，拼接模块和降维处理模块(图中未示)，其中，

归一化处理模块，用于将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理，得到对应的音频向量、图像向量和文本向量；

拼接模块，用于将得到的所述音频向量、图像向量和文本向量进行拼接，得到拼接后的第一向量；

第一降维处理模块，用于将所述拼接后的第一向量输入第一全连接层进行降维处理，得到降维处理后的第二向量。

可选的，所述处理模块包括：第一瓶颈门控处理模块，混合专家层处理模块和第二瓶颈门控处理模块(图中未示)，其中，

第一瓶颈门控处理模块，用于对所述降维处理后的第二向量进行第一瓶颈门控处理，得到第三向量；

混合专家层处理模块，用于将所述第三向量通过混合专家层进行处理，得到多个分类标签的第一概率预测向量；

第二瓶颈门控处理模块，用于将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理，得到多个分类标签的第二概率预测向量。

可选的，所述获取模块包括：采样模块，第一提取模块，第一聚合模块，第二提取模块和第三提取模块(图中未示)，其中，

采样模块，用于对多个待分类视频文件中的每个待分类视频文件分别进行采样，得到每个待分类视频文件的多个音频片段和多张图像；

第一提取模块，用于提取所述多个音频片段中每个音频片段的音频原始特征；

第一聚合模块，用于将多个音频原始特征聚合成一个音频聚合特征；

第二提取模块，用于提取多张图像中的每张图像的图像原始特征；

第二聚合模块，用于将多个图像原始特征聚合成一个图像聚合特征；

第三提取模块，用于从每个待分类视频文件的文本描述中提取文本特征。

可选的，所述装置还可以包括：第一量化处理模块和第一反量化处理模块、第二量化处理模块和第二反量化模块，(图中未示)，其中，

第一量化处理模块，用于在多个音频原始特征聚合前，对提取的每个音频原始特征进行主成分分析降维、白化以及量化处理，得到量化后每个音频原始特征；

第一反量化模块，用于对量化后的每个音频原始特征进行反量化处理，得到反量化后的每个音频原始特征；

第二量化处理模块，用于在多个图像原始特征聚合前，对提取的每个图像原始特征进行主成分分析降维、白化以及量化处理，得到量化后每个图像原始特征；

第二反量化模块，用于对量化后的每个图像原始特征进行反量化处理，得到反量化后的每个图像原始特征；

所述第一聚合模块，还用于将反量化后的所有音频原始特征聚合成一个固定长度的音频聚合特征；

所述第二聚合模块，还用于将反量化后的所有图像原始特征聚合成一个固定长度的图像聚合特征。

可选的，所述归一化处理模块，具体用于将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行L2范数归一化处理，得到归一化处理后的音频向量、图像向量和文本向量。

可选的，所述拼接模块，具体用于将所述音频向量、图像向量和文本向量逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量；其中，所述音频向量、图像向量和文本向量之间任意首尾相连拼接，且，对每个待分类视频保持同样的首尾相连拼接顺序。

可选的，所述第一瓶颈门控处理模块包括：第二降维处理模块71，第一整流线性处理模块72，第一维度相关性处理模块73，第一激活模块74和第一逐点乘积模块75，其结构示意图如图7所示，其中，

第二降维处理模块71，用于将所述第一降维处理模块输出的第二向量输入第二全连接层进行降维处理，得到降维处理后的向量；

第一整流线性处理模块72，用于将所述第二降维处理模块71输出的向量进行层归一化和整流线性处理，得到处理后的向量；

第一维度相关性处理模块73，用于将所述第一整流线性处理模块72处理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度相关性处理，得到相同维度处理后的向量；

第一激活模块74，用于将所述第一维度相关性处理模块73处理后的向量进行层归一化和双弯曲函数sigmoid激活，得到激活后的向量；

第一逐点乘积模块75，用于将激活后的所述向量逐点乘以所述第一降维处理模块处理后的第二向量，并将得到的第三向量作为经过第一瓶颈门控处理后的向量。

可选的，所述混合专家层处理模块包括：第一组全连接层模块81，第二激活模块82，第二组全连接层模块83，第三激活模块84，第二逐点乘积模块85和求和模块86，其结构示意图如图8所示，其中，

第一组全连接层模块81，用于对接收所述第一逐点乘积模块输出的所述第三向量进行第一组全连接层处理，得到第四向量；其中，第一组全连接层模块称为专家层，所述专家层包括多个专家，每个专家是一个全连接层，其单元个数等于分类标签的总数；

第二激活模块82，用于将所述第一组全连接层模块81输出的第四向量采用双弯曲sigmoid函数进行激活，得到激活后专家层的向量；

第二组全连接层模块83，用于对接收所述第一逐点乘积模块75输出的所述第三向量进行第二组全连接层处理，得到第五向量；其中，第二组全连接层模块称为门控层，其中，所述门控层包括多个门控，所述多个门控与所述多个专家的数量一样，每个门控是一个全连接层，其单元个数等于分类标签的总数；

第三激活模块84，用于将所述第二组全连接层模块83输出的第五向量采用软最大化softmax函数进行激活，得到激活后的门控层的向量；

第二逐点乘积模块85，用于将所述第三激活模块84激活后的所述门控层的向量逐点乘以激活的所述专家层后的向量，得到多个专家向量；

求和模块86，用于对所述第二逐点乘积模块得到的多个专家向量进行向量求和，得到多个分类标签的第一概率预测向量，所述多个分类标签的第一概率预测向量作为所述混合专家层的输出。

可选的，所述第二瓶颈门控处理模块包括：第三降维处理模块，第二整流线性处理模块，第二维度相关性处理模块，第四激活模块和第三逐点乘积模块(图中未示)，其中，

第三降维处理模块，用于将所述求和模块得到的多个分类标签的第一概率预测向量输入第四全连接层进行降维处理，得到降维处理后的多个分类标签的概率预测向量；

第二整流线性处理模块，用于将所述第三降维处理模块降维处理后的多个分类标签的概率预测向量进行层归一化和整流线性处理，得到处理后的多个分类标签的概率预测向量；

第二维度相关性处理模块，用于将所述第二整流线性处理模块处理后的多个分类标签的概率预测向量输入到维度和所述混合专家层输出的多个分类标签的概率预测向量相同的第五全连接层进行处理，得到处理后的多个分类标签的概率预测向量；

第四激活模块，用于将所述第二维度相关性处理模块处理后的多个分类标签的概率预测向量进行层归一化和sigmoid激活，得到激活后的多个分类标签的概率预测向量；

第三逐点乘积模块，用于将所述第四激活模块激活后的所述多个分类标签的概率预测向量逐点乘以所述求和模块得到的多个分类标签的概率预测向量，并将乘积得到的多个分类标签的第二概率预测向量作为经过第二瓶颈门控处理后输出的多个分类标签的新的概率预测向量。

还请参阅图9，为本发明实施例提供的一种视频分类装置的结构示意图，所述装置包括：获取模块91，分类模块92，排序模块93和选取模块94，其中，

获取模块91，用于获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；

分类模块92，用于将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类，得到多个分类标签的概率预测向量；

排序模块93，用于对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序；

选取模块94，用于选取排名靠前的至少一个元素编号对应的标签，以作为所述待分类视频文件的分类标签。

可选的，所述装置还可以包括：判断模块10，其结构示意图如图10所示，其中，

判断模块10，用于在所述选取模块选取排名靠前的至少一个元素编号对应的标签之前，判断所述排名靠前的至少一个元素的值是否大于置信度阈值；

所述选取模块94，还用于在所述判断模块10判断所述排名靠前的至少一个元素的值大于置信度阈值时，将所述大于所述置信度阈值的排名靠前的至少一个元素编号对应的标签作为所述待分类视频文件的分类标签。

进一步，所述装置还可以包括输出模块(图中未示)，输出模块，用于在所述判断模块10判断所述排名靠前的至少一个元素的值不大于置信度阈值(即任何一个元素的值都不大于置信度阈值)时，输出空字符串，即不输出任何标签。也就是说，该待分类的视频的内容不在标签涵盖的范围内。

可选的，所述获取模块包括：采样模块，第一提取模块，第一聚合模块，第二提取模块，第二聚合模块和第三提取模块(图中未示)，其中，

采样模块，用于对待分类视频文件进行采样，得到多个音频片段和多张图像；

第一提取模块，用于提取所述多个音频片中每个音频片段的音频原始特征；

第一聚合模块，用于将所述多个音频原始特征聚合成一个音频聚合特征；

第二聚合模块，用于将多个原始特征聚合成一个图像聚合特征；

第三提取模块，用于从所述待分类视频文件的文本描述中提取文本特征。

可选的，所述分类模块包括：归一化处理模块，拼接模块，降维处理模块(即上述实施例中的第一降维处理模块)，第一瓶颈门控处理模块，混合专家层处理模块和第二瓶颈门控处理模块(图中未示)，其中，

归一化处理模块，用于将所述音频聚合特征、图像聚合特征和文本特征分别进行归一化处理，得到对应的音频向量、图像向量和文本向量；

拼接模块，用于将所述归一化处理模块得到的音频向量、图像向量和文本向量进行拼接，得到拼接后的第一向量；

降维处理模块，用于将所述第一向量输入第一全连接层进行降维处理，得到降维处理后的第二向量；

第一瓶颈门控处理模块，用于对所述第二向量进行第一瓶颈门控处理，得到第三向量；

混合专家层处理模块，用于将所述第三向量通过混合专家层，得到多个分类标签的第一概率预测向量；

其中，第一瓶颈门控处理模块包括：第二降维处理模块，第一整流线性处理模块，第一维度相关性处理模块，第一激活模块和第一逐点乘积模块；

混合专家层处理模块包括：第一组全连接层模块，第二激活模块，第二组全连接层模块，第三激活模块，第二逐点乘积模块和求和模块；

第二瓶颈门控处理模块包括：第三降维处理模块，第二整流线性处理模块，第二维度相关性处理模块，第四激活模块和第三逐点乘积模块。

其中，第一瓶颈门控处理模块、混合专家层处理模块和第二瓶颈门控处理模块中包括各个模块的功能和作用详见上述，在此不再赘述。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例中，采用上述过程对视频分类模型的参数进行学习，基于学习好的视频分类模型可以综合利用音频、图像和文本特征来识别待分类视频，扩大视频识别的标签的范围，从而提高了视频分类的准确性和整体性能。

可选的，本发明实施例还提供一种终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的模型生成方法的实施例的各个过程，或者如上所述的视频分类方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述

可选的，本发明实施例还提供一种计算机可读存储介质，其特征在于所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的模型生成方法中的各个过程，或者如上述的视频分类方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称 ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所述权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种模型生成方法、视频分类方法、装置、终端及计算机可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种模型生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合，得到融合后的向量包括：

将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理，得到对应的音频向量、图像向量和文本向量；

将得到的所述音频向量、图像向量和文本向量进行拼接，得到拼接后的第一向量；

将所述拼接后的第一向量输入第一全连接层进行降维处理，得到降维处理后的第二向量。

3.根据权利要求2所述的方法，其特征在于，所述对所述融合后的向量进行瓶颈门控和混合专家层处理，得到多个分类标签的概率预测向量，包括：

对所述降维处理后的第二向量进行第一瓶颈门控处理，得到第三向量；

将所述第三向量通过混合专家层进行处理，得到多个分类标签的第一概率预测向量；

将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理，得到多个分类标签的第二概率预测向量。

4.根据权利要求1所述的方法，其特征在于，所述获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征，包括：

对多个待分类视频文件中的每个待分类视频文件分别进行采样，得到每个待分类视频文件的多个音频片段和多张图像；

提取所述多个音频片中每个音频片段的音频原始特征，并将多个音频原始特征聚合成一个音频聚合特征；

提取多张图像中的每张图像的图像原始特征，并将多个图像原始特征聚合成一个图像聚合特征；

从每个待分类视频文件的文本描述中提取文本特征。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：在多个音频原始特征聚合前，对提取的每个音频原始特征进行主成分分析降维、白化以及量化处理，得到量化后每个音频原始特征；对量化后的每个音频原始特征进行反量化处理，得到反量化后的每个音频原始特征；在多个图像原始特征聚合前，对提取的每个图像原始特征进行主成分分析降维、白化以及量化处理，得到量化后每个图像原始特征；对量化后的每个图像原始特征进行反量化处理，得到反量化后的每个图像原始特征；

所述将多个音频原始特征聚合成一个音频聚合特征，具体包括：将反量化后的所有音频原始特征聚合成一个固定长度的音频聚合特征；

所述将多个图像原始特征聚合成一个图像聚合特征，具体包括：将反量化后的所有图像原始特征聚合成一个固定长度的图像聚合特征。

6.根据权利要求2所述的方法，其特征在于，所述将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理，得到对应的音频向量、图像向量和文本向量，包括：

将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行L2范数归一化处理，得到归一化处理后的音频向量、图像向量和文本向量。

7.根据权利要求2所述的方法，其特征在于，所述将得到的所述音频向量、图像向量和文本向量进行拼接，得到拼接后的第一向量，包括：

将所述音频向量、图像向量和文本向量逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量；其中，所述音频向量、图像向量和文本向量之间任意首尾相连拼接，且，对每个待分类视频保持同样的首尾相连拼接顺序。

8.根据权利要求3所述的方法，其特征在于，所述对所述降维处理后的第二向量进行第一瓶颈门控处理，得到第三向量，包括：

将所述降维处理后的第二向量输入第二全连接层进行降维处理，并将降维处理后的向量进行层归一化和整流线性处理，得到处理后的向量；

将处理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度相关性处理，并将处理结果进行层归一化和双弯曲函数sigmoid激活，得到激活后的向量；

将激活后的所述向量逐点乘以所述第一全连接层降维处理后的第二向量，并将得到的第三向量作为经过第一瓶颈门控处理后输出的向量。

9.根据权利要求3所述的方法，其特征在于，将所述第三向量通过混合专家层，得到多个分类标签的第一概率预测向量，包括：

将所述第三向量分别输入到第一组全连接层和第二组全连接层，得到对应的第四向量和第五向量，其中，所述第一组全连接层称为专家层，所述第二组全连接层称为门控层；

对所述第一组全连接层输出的第四向量采用双弯曲sigmoid函数进行激活，得到激活后的专家层的向量；

对所述第二组全连接层输出的第五向量采用软最大化softmax函数进行激活，得到激活后的门控层的向量；

将激活后的所述门控层的向量逐点乘以激活后的专家层的向量，得到多个专家向量；

对所述多个专家向量求和，得到多个分类标签的第一概率预测向量，所述多个分类标签的第一概率预测向量作为所述混合专家层的输出。

10.根据权利要求3所述的方法，其特征在于，所述将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理，得到多个分类标签的第二概率预测向量，包括：

将所述多个分类标签的第一概率预测向量输入第四全连接层进行降维处理，得到降维处理后的多个分类标签的概率预测向量；

将所述降维处理后的多个分类标签的概率预测向量进行层归一化和整流线性处理，得到处理后的多个分类标签的概率预测向量；

将处理后的多个分类标签的概率预测向量输入到维度和所述混合专家层输出的多个分类标签的概率预测向量相同的第五全连接层进行处理，并对输出进行层归一化和sigmoid激活，得到激活后的多个分类标签的概率预测向量；

将激活后的所述多个分类标签的概率预测向量逐点乘以所述混合专家层输出得到的多个分类标签的概率预测向量，并将得到的多个分类标签的第二概率预测向量作为经过第二瓶颈门控处理后输出的多个分类标签的概率预测向量。

11.一种视频分类方法，其特征在于，包括：

12.根据权利要求11所述的方法，其特征在于，在选取排名靠前的至少一个元素编号对应的标签之前，所述方法还包括：

判断排名靠前的至少一个元素的值是否大于置信度阈值；

如果大于，则执行选取排名靠前的至少一个元素编号对应的标签，以作为所述待分类视频文件的分类标签的步骤。

13.根据权利要求11或12所述的方法，其特征在于，所述获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；包括：

对待分类视频文件进行采样，得到多个音频片段和多张图像；

提取多张图像中的每张图像的图像原始特征，并将多张图像的图像原始特征聚合成一个图像聚合特征；

从所述待分类视频文件的文本描述中提取文本特征。

14.根据权利要求11或12所述的方法，其特征在于，所述将所述音频聚合特征、图像聚合特征和文本特征输入到视频分类模型进行分类，得到多个分类标签的概率预测向量包括：

将所述音频聚合特征、图像聚合特征和文本特征分别进行归一化处理，得到对应的音频向量、图像向量和文本向量；

将所述拼接后的第一向量输入第一全连接层进行降维处理，得到降维处理后的第二向量；

15.一种模型生成装置，其特征在于，包括：

16.根据权利要求15所述的装置，其特征在于，所述融合模块包括：

17.根据权利要求16所述的装置，其特征在于，所述处理模块包括：

18.根据权利要求15所述的装置，其特征在于，所述获取模块包括：

19.根据权利要求18所述的装置，其特征在于，还包括：

20.根据权利要求16所述的装置，其特征在于，

所述归一化处理模块，具体用于将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行L2范数归一化处理，得到归一化处理后的音频向量、图像向量和文本向量。

21.根据权利要求16所述的装置，其特征在于，

所述拼接模块，具体用于将所述音频向量、图像向量和文本向量逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量；其中，所述音频向量、图像向量和文本向量之间任意首尾相连拼接，且，对每个待分类视频保持同样的首尾相连拼接顺序。

22.根据权利要求17所述的装置，其特征在于，所述第一瓶颈门控处理模块包括：

第二降维处理模块，用于将所述降维处理后的第二的向量输入第二全连接层进行降维处理，得到降维处理后的向量；

第一整流线性处理模块，用于将所述第二降维处理模块输出的向量进行层归一化和整流线性处理，得到处理后的向量；

第一维度相关性处理模块，用于将所述第一整流线性处理模块处理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度相关性处理，得到相同维度处理后的向量；

第一激活模块，用于将所述第一维度相关性处理模块处理后的向量进行层归一化和双弯曲函数sigmoid激活，得到激活后的向量；

第一逐点乘积模块，用于将激活后的所述向量逐点乘以所述第一降维处理模块处理后的第二向量，并将得到的第三向量作为经过第一瓶颈门控处理后输出的向量。

23.根据权利要求17所述的装置，其特征在于，所述混合专家层处理模块包括：

第一组全连接层模块，用于对接收所述第一逐点乘积模块输出的所述第三向量进行第一组全连接层处理，得到第四向量；其中，第一组全连接层模块称为专家层；

第二激活模块，用于将所述第一组全连接层模块输出的第四向量采用双弯曲sigmoid函数进行激活，得到激活后的专家层的向量；

第二组全连接层模块，用于对接收所述第一逐点乘积模块输出的所述第三向量进行第二组全连接层处理，得到第五向量；其中，第二组全连接层模块称为门控层；

第三激活模块，用于将所述第二组全连接层模块输出的第五向量采用软最大化softmax函数进行激活，得到激活后的门控层的向量；

第二逐点乘积模块，用于将所述第三激活模块激活后的所述门控层的向量逐点乘以激活后的所述专家层的向量，得到多个专家向量；

求和模块，用于对所述第二逐点乘积模块得到的多个专家向量进行向量求和，得到多个分类标签的第一概率预测向量，所述多个分类标签的第一概率预测向量作为所述混合专家层的输出。

24.根据权利要求17所述的装置，其特征在于，所述第二瓶颈门控处理模块包括：

25.一种视频分类装置，其特征在于，包括：

获取模块，用于获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；

26.根据权利要求25所述的装置，其特征在于，还包括：

判断模块，用于在所述选取模块选取排名靠前的至少一个元素编号对应的标签之前，判断所述排名靠前的至少一个元素的值是否大于置信度阈值；

所述选取模块，还用于在所述判断模块判断所述排名靠前的至少一个元素的值大于置信度阈值时，选取大于置信度阈值的排名靠前的至少一个元素编号对应的标签作为所述待分类视频文件的分类标签。

27.根据权利要求25或26所述的装置，其特征在于，所述获取模块包括：

第二聚合模块，用于将多张图像的图像原始特征聚合成一个图像聚合特征；

28.根据权利要求25或26所述的装置，其特征在于，所述分类模块包括：

拼接模块，用于将所述归一化处理模块得到的所述音频向量、图像向量和文本向量进行拼接，得到拼接后的第一向量；

29.一种终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至10中任一项所述的模型生成方法的步骤，或者如权利要求11至14中任一项所述的视频分类方法的步骤。

30.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的模型生成方法中的步骤，或者如权利要求11至14中任一项所述的视频分类方法的步骤。