CN111737521A

CN111737521A - 一种视频分类方法和装置

Info

Publication number: CN111737521A
Application number: CN202010770567.2A
Authority: CN
Inventors: 耿焕; 邓积杰; 林星; 白兴安; 徐扬
Original assignee: Beijing Weiboyi Technology Co ltd
Current assignee: Beijing Weiboyi Technology Co ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-10-02
Anticipated expiration: 2040-08-04
Also published as: CN111737521B

Abstract

本发明公开了一种视频分类方法和装置，涉及数据处理领域。为解决现有技术提供的分类方法的效率较低的问题而发明。本发明实施例提供的技术方案包括：获取待分类视频对应的多模态特征向量；将所述多模态特征向量输入预先训练的多层级多标签分类模型，得到所述待分类视频的层次分类；所述多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程。该方案可以应用在短视频分类领域。

Description

一种视频分类方法和装置

技术领域

本发明涉及数据处理领域，特别是涉及一种视频分类方法和装置。

背景技术

近年来，短视频领域发展迅速，各个短视频平台每天都会产生大量的短视频数据，但要有效使用这些数据，必须要对短视频分类、打标签。为了改善传统人工标注方法中存在的时效和堆积的问题，自动化分类成为各大内容领域机构都非常关注的关键技术。

现有技术中，一般采用局部方法，将层次多标签分类问题根据类别标签的层次结构转化为对多个单一标签的预测问题，通过对预测输出空间的每个分类建立模型，然后组合各个模型以获得整体预测的模型，进而根据整体预测的模型实现自动化分类。

然而，由于采用局部方法时，需要对预测输出空间的每个分类建立模型，当标签层次结构比较庞大时，通过该方法分类的效率较低。

发明内容

有鉴于此，本发明的主要目的在于解决现有的分类方法效率较低的问题。

一方面，本发明实施例提供一种视频分类方法，包括：获取待分类视频对应的多模态特征向量；将所述多模态特征向量输入预先训练的多层级多标签分类模型，得到所述待分类视频的层次分类；所述多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程。

另一方面，本发明实施例提供一种视频分类装置，包括：

向量获取单元，用于获取待分类视频对应的多模态特征向量；

分类单元，与所述向量获取单元和预先训练的多层级多标签分类模型相连，用于将所述多模态特征向量输入预先训练的多层级多标签分类模型，得到所述待分类视频的层次分类；

所述预先训练的多层级多标签分类模型，包括：

通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的全局概率获取模块；

通过特征反馈的方式获取各层局部分类概率的局部概率获取模块；

通过叠加卷积神经网络的方式获取层次分类概率的分类概率获取模块。

综上所述，本发明提供的视频分类方法和装置，通过预先训练的多层级多标签分类模型对待分类视频对应的多模态特征向量进行处理，即可得到待分类视频的层次分类。本发明实施例提供的技术方案，由于直接通过多层级多标签分类模型进行处理，解决了现有技术中由于采用局部方法时，需要对预测输出空间的每个分类建立模型，当标签层次结构比较庞大时，通过该方法分类的效率较低的问题。另外，由于多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程，能够进一步提高分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的视频分类方法的流程图；

图2为本发明实施例2提供的视频分类装置的结构示意图；

图3为本发明实施例2提供的视频分类装置装置中全局概率获取模块的结构示意图；

图4为本发明实施例2提供的视频分类装置中局部概率获取模块的结构示意图；

图5为本发明实施例2提供的视频分类装置中分类概率获取模块的结构示意图。

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明提供一种视频分类方法，包括：

步骤101，获取待分类视频对应的多模态特征向量。

在本实施例中，通过步骤101获取多模态特征向量的过程，包括：获取待分类视频的图像特征；获取待分类视频的文本特征；将图像特征和文本特征进行融合，得到待分类视频对应的多模态特征向量。

其中，获取待分类视频的图像特征的方式，既可以为特征抽取，也可以为微调FineTune与特征抽取结合的方式，还可以采用I3D/P3D/TSN网络等分类模型的方式，在此不再一一赘述。

获取待分类视频的文本特征的方式，可以为Bag Of Words（BOW）/CNN/RNN/Attention等建模方式，也可以为CNN+Attention建模方式，在此不再一一赘述。

将图像特征和文本特征进行融合，可以采用Concatenate、CentralNet、LMF等算法，在此不作限制。

步骤102，将多模态特征向量输入预先训练的多层级多标签分类模型，得到待分类视频的层次分类。

在本实施例中，步骤102中多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程。该多层级多标签分类模型的具体层级结构，与层级标签的层数有关，在此不再一一赘述。

其中，通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程包括：根据多模态特征向量和多层级多标签分类模型预设的第1层全局全连接层参数，获取第1层的全局隐层表达；对于第2层以上的任意一层，根据多模态特征向量、多层级多标签分类模型预设的该层全局全连接层参数以及该层之前所有层的全局隐层表达，获取该层的全局隐层表达；根据多模态特征向量、多层级多标签分类模型所有层的全局隐层表达和预设的全局输出全连接层参数，获取全局分类概率。

根据多模态特征向量和多层级多标签分类模型预设的第1层全局全连接层参数，获取第1层的全局隐层表达，包括：根据多模态特征向量和多层级多标签分类模型预设的第 1层全局全连接层参数，获取第1层的全局全连接特征；根据第1层的全局全连接特征获取第 1层的全局隐层表达。根据第1层的全局全连接特征获取第1层的全局隐层表达的具体过程可以为通过非线性激活函数对该第1层的全局全连接特征进行处理，得到第1层的全局隐层表达。具体的，以多模态特征向量为X，预设的第1层全局全连接参数为

，G表示全局全连接层；第1层的全局隐层表达为为例。第1层的全局隐层表达，其中为非线性激活函数。

以预设的第h层全局全连接参数为

，G表示全局全连接层（下同，本实施例提供的技术方案中，下角标仅作为区分使用，无具体含义），h为大于或等于2的正整数，最大值为分类体系的层数；第h层的全局隐层表达为

为例。对于第2层以上的任意第h层，根据多模态特征向量、多层级多标签分类模型预设的该层全局全连接层参数以及该层之前所有层的全局隐层表达，获取该层的全局隐层表达，包括：将多模态特征向量与多层级多标签分类模型第1层到第h-1层的全局隐层表达由低层到高层依次拼接，获取第h层的全局融合特征，此时该融合特征为

,

为拼接；根据第h层的全局融合特征和多层级多标签分类模型预设的第h层全局全连接层参数，获取第h层的全局隐层表达。此时，获取隐层表达的具体方式可以为首先根据第h层的全局融合特征和多层级多标签分类模型预设的第h层全局全连接层参数，获取第h层的全局全连接特征，此时该全局全连接特征为

；然后根据第h层的全局全连接特征获取第h层的全局隐层表达，此时该全局隐层表达可以通过非线性激活函数对第h层的全局全连接特征进行处理得到，具体的

。

根据多模态特征向量、多层级多标签分类模型所有层的全局隐层表达和预设的全局输出全连接层参数，获取全局分类概率，包括：将多模态特征向量与多层级多标签分类模型由低层到高层所有层的全局隐层表达依次拼接，获取模型全局融合特征；根据模型全局融合特征和预设的全局输出全连接层参数，获取全局分类概率。其中，获取全局分类概率的过程，可以为首先根据模型全局融合特征和预设的全局输出全连接层参数，获取模型全局全连接特征；然后根据模型全局全连接特征获取全局分类概率。以层级标签的层数为n、

为例，该模型全局融合特征为

；此时，模型全局全连接特征为

，其中

为全局输出全连接层参数；获取全局分类概率的方式可以为采用Sigmoid激活函数

对模型全局全连接特征进行处理，此时，全局分类概率

。

在本实施例中，对于任意一层，通过特征反馈的方式获取各层局部分类概率的过程，包括：根据多层级多标签分类模型该层的全局隐层表达、该层之后各层的全局隐层表达和预设的该层转换全连接层参数，获取该层的局部隐层表达；根据该层的局部隐层表达和预设的该层局部全连接层参数，获取该层的局部分类概率。其中，获取局部隐层表达的过程包括：将该层的全局隐层表达与该层之后各层的全局隐层表达由低层到高层依次拼接，获取该层的局部融合特征；根据该层的局部融合特征和预设的该层转换全连接层参数，获取该层的局部隐层表达。该获取局部隐层表达的过程可以进一步细分为首先根据该层的局部融合特征和预设的该层转换全连接层参数，获取该层的局部转换全连接特征；然后根据该层的局部转换全连接特征获取该层的局部隐层表达。

以第h层，第h层的局部隐层表达为

，第h层的转换全连接参数为

为例。通过上述过程获取的第h层的局部融合特征为

；获取的第h层的局部转换全连接特征为

；根据局部转换全连接特征获取局部隐层表达的方式可以具体为通过非线性激活函数对局部转换全连接特征进行处理，此时，获取的第h层的局部隐层表达为

。

根据该层的局部隐层表达和预设的该层局部全连接层参数，获取该层的局部分类概率的过程，可以为首先根据该层的局部隐层表达和预设的该层局部全连接层参数，获取该层的局部全连接特征；然后根据该层的局部全连接特征获取该层的局部分类概率。以上述参数为例，局部分类概率

，

为第h层局部全连接层参数。

在本实施例中，通过叠加卷积神经网络的方式获取层次分类概率的过程包括：根据多模态特征向量和预设的特征全连接层获取特征向量权重表达；由低层到高层，将各层局部分类概率依次拼接，得到局部概率表达；根据特征向量权重表达、局部概率表达、全局分类概率和预设卷积层参数，获取层次分类概率。其中，获取层次分类概率的具体方式可以为首先将特征向量权重表达、局部概率表达、全局分类概率在维度方向上拼接，得到拼接概率；然后将拼接概率输入预设卷积层参数，得到层次分类概率。

综上，本发明提供的视频分类方法，通过预先训练的多层级多标签分类模型对待分类视频对应的多模态特征向量进行处理，即可得到待分类视频的层次分类。本发明实施例提供的技术方案，由于直接通过多层级多标签分类模型进行处理，解决了现有技术中由于采用局部方法时，需要对预测输出空间的每个分类建立模型，当标签层次结构比较庞大时，通过该方法分类的效率较低的问题。另外，由于多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程，能够进一步提高分类的准确率。

实施例2

如图2所示，本发明实施例提供一种视频分类装置，包括：

向量获取单元201，用于获取待分类视频对应的多模态特征向量；

分类单元202，与向量获取单元和预先训练的多层级多标签分类模型相连，用于将多模态特征向量输入预先训练的多层级多标签分类模型，得到待分类视频的层次分类；

预先训练的多层级多标签分类模型203，包括：

在本实施例中，通过向量获取单元201和分类单元202实现视频分类的过程，与本发明实施例1提供的相似，在此不再一一赘述。

进一步的，如图3所示，本实施例提供的视频分类装置中，全局概率获取模块，包括：第1层全局表达获取子模块20311、第2层全局表达获取子模块20312···第n层全局表达获取子模块20313和全局概率获取子模块20314；n为预设的层级标签的层数，为大于或等于2的正整数；

第1层全局表达获取子模块，与向量获取单元相连，用于根据多模态特征向量和预设的第1层全局全连接层参数，获取第1层的全局隐层表达；

第2层全局表达获取子模块···第n层全局表达获取子模块中任意第h层全局表达获取子模块，分别与向量获取单元、第1层全局表达获取子模块至第h-1层全局表达子模块相连，用于根据多模态特征向量、预设的第h层全局全连接层参数以及第h层之前所有层的全局隐层表达，获取第h层的全局隐层表达；

，h为正整数；

全局概率获取子模块，分别与向量获取单元、第1层全局表达获取子模块至第n层全局表达获取子模块相连，用于根据多模态特征向量、所有层的全局隐层表达和预设的全局输出全连接层参数，获取全局分类概率。

其中，第h层全局表达获取子模块，包括：

第h层特征获取结构，用于将多模态特征向量与第1层到第h-1层的全局隐层表达由低层到高层依次拼接，获取第h层的全局融合特征；

第h层表达获取结构，与第h层特征获取结构相连，用于根据第h层的全局融合特征和预设的第h层全局全连接层参数，获取第h层的全局隐层表达。

全局概率获取子模块，包括：

全局特征获取结构，用于将多模态特征向量与由低层到高层所有层的全局隐层表达依次拼接，获取模型全局融合特征；

全局概率获取结构，与全局特征获取结构相连，用于根据模型全局融合特征和预设的全局输出全连接层参数，获取全局分类概率。

在本实施例中，通过上述子模块及各个结构获取全局分类概率的过程，与本发明实施例1提供的过程相似，在此不再一一赘述。

进一步的，如图4所示，本实施例提供的视频分类装置中局部概率获取模块，包括：第1层局部表达获取子模块···第n层局部表达获取子模块；第1层局部概率获取子模块···第n层局部概率获取子模块；n为预设的层级标签的层数，为大于或等于2的正整数；

对于第1层局部表达获取子模块···第n层局部表达获取子模块中任意第m层局部表达获取子模块20321，分别与第m层全局表达获取子模块至第n层全局表达子获取模块相连，用于根据第m层全局隐层表达至第n层全局隐层表达和预设的该层转换全连接层参数，获取第m层的局部隐层表达；

，m为正整数；

第1层局部概率获取子模块···第n层局部概率获取子模块中任意第m层局部概率获取子模块20322，与第m层局部表达获取子模块相连，用于根据第m层的局部隐层表达和预设的该层局部全连接层参数，获取第m层的局部分类概率。

在本实施例中，图4以第m层局部表达获取子模块20321和第m层局部概率获取子模块20322为例进行说明，对于其他层的连接关系，与第m层类似，在此不再一一赘述。

此时，第m层局部表达获取子模块，包括：

第m层特征获取结构，用于将第m层全局隐层表达至第n层全局隐层表达由低层到高层依次拼接，获取第m层的局部融合特征；

第m层表达获取结构，与第m层特征获取结构相连，用于根据第m层的局部融合特征和预设的该层转换全连接层参数，获取第m层的局部隐层表达。

在本实施例中，通过上述子模块和结构获取局部分类概率的过程，与本发明实施例1提供的相似，在此不再一一赘述。

进一步的，如图5所示，本实施例提供的视频分类装置中分类概率获取模块，包括：

权重表达子模块20331，与向量获取单元相连，用于根据多模态特征向量和预设的特征全连接层获取特征向量权重表达；

概率表达子模块20332，与局部概率获取模块相连，用于由低层到高层，将各层局部分类概率依次拼接，得到局部概率表达；

概率获取子模块20333，分别与权重表达子模块、概率表达子模块和全局概率获取模块相连，用于根据特征向量权重表达、局部概率表达、全局分类概率和预设卷积层参数，获取层次分类概率。

在本实施例中，通过上述子模块获取层次分类概率的过程，与本发明实施例1提供的相似，在此不再一一赘述。

综上，本发明提供的视频分类装置，通过预先训练的多层级多标签分类模型对待分类视频对应的多模态特征向量进行处理，即可得到待分类视频的层次分类。本发明实施例提供的技术方案，由于直接通过多层级多标签分类模型进行处理，解决了现有技术中由于采用局部方法时，需要对预测输出空间的每个分类建立模型，当标签层次结构比较庞大时，通过该方法分类的效率较低的问题。另外，由于多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程，能够进一步提高分类的准确率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频分类方法，其特征在于，包括：

获取待分类视频对应的多模态特征向量；

将所述多模态特征向量输入预先训练的多层级多标签分类模型，得到所述待分类视频的层次分类；所述多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程。

2.根据权利要求1所述的视频分类方法，其特征在于，所述通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程包括：

根据所述多模态特征向量和所述多层级多标签分类模型预设的第1层全局全连接层参数，获取第1层的全局隐层表达；

对于第2层以上的任意一层，根据所述多模态特征向量、所述多层级多标签分类模型预设的该层全局全连接层参数以及该层之前所有层的全局隐层表达，获取该层的全局隐层表达；

根据所述多模态特征向量、所述多层级多标签分类模型所有层的全局隐层表达和预设的全局输出全连接层参数，获取所述全局分类概率。

3.根据权利要求2所述的视频分类方法，其特征在于，对于第2层以上的任意第h层，根据所述多模态特征向量、所述多层级多标签分类模型预设的该层全局全连接层参数以及该层之前所有层的全局隐层表达，获取该层的全局隐层表达，包括：

将所述多模态特征向量与所述多层级多标签分类模型第1层到第h-1层的全局隐层表达由低层到高层依次拼接，获取第h层的全局融合特征；所述h为大于或等于2的正整数，所述h的最大值为预设的层级标签的层数；

根据所述第h层的全局融合特征和所述多层级多标签分类模型预设的第h层全局全连接层参数，获取第h层的全局隐层表达。

4.根据权利要求2所述的视频分类方法，其特征在于，所述根据所述多模态特征向量、所述多层级多标签分类模型所有层的全局隐层表达和预设的全局输出全连接层参数，获取所述全局分类概率，包括：

将所述多模态特征向量与所述多层级多标签分类模型由低层到高层所有层的全局隐层表达依次拼接，获取模型全局融合特征；

根据所述模型全局融合特征和预设的全局输出全连接层参数，获取所述全局分类概率。

5.根据权利要求1所述的视频分类方法，其特征在于，对于任意一层，所述通过特征反馈的方式获取各层局部分类概率的过程，包括：

根据所述多层级多标签分类模型该层的全局隐层表达、该层之后各层的全局隐层表达和预设的该层转换全连接层参数，获取该层的局部隐层表达；

根据该层的局部隐层表达和预设的该层局部全连接层参数，获取该层的局部分类概率。

6.根据权利要求5所述的视频分类方法，其特征在于，所述根据所述多层级多标签分类模型该层的全局隐层表达、该层之后各层的全局隐层表达和预设的该层转换全连接层参数，获取该层的局部隐层表达，包括：

将所述多层级多标签分类模型该层的全局隐层表达与该层之后各层的全局隐层表达由低层到高层依次拼接，获取该层的局部融合特征；

根据该层的局部融合特征和预设的该层转换全连接层参数，获取该层的局部隐层表达。

7.根据权利要求1所述的视频分类方法，其特征在于，通过叠加卷积神经网络的方式获取层次分类概率的过程包括：

根据所述多模态特征向量和预设的特征全连接层获取特征向量权重表达；

由低层到高层，将各层局部分类概率依次拼接，得到局部概率表达；

根据所述特征向量权重表达、局部概率表达、全局分类概率和预设卷积层参数，获取层次分类概率。

8.根据权利要求1所述的视频分类方法，其特征在于，所述获取待分类视频对应的多模态特征向量，包括：

获取所述待分类视频的图像特征；

获取所述待分类视频的文本特征；

将所述图像特征和文本特征进行融合，得到所述待分类视频对应的多模态特征向量。

9.一种视频分类装置，其特征在于，包括：

所述预先训练的多层级多标签分类模型，包括：

10.根据权利要求9所述的视频分类装置，其特征在于，所述全局概率获取模块，包括：第1层全局表达获取子模块、第2层全局表达获取子模块···第n层全局表达获取子模块和全局概率获取子模块；所述n为预设的层级标签的层数，为大于或等于2的正整数；

所述第1层全局表达获取子模块，与所述向量获取单元相连，用于根据所述多模态特征向量和预设的第1层全局全连接层参数，获取第1层的全局隐层表达；

所述第2层全局表达获取子模块···第n层全局表达获取子模块中任意第h层全局表达获取子模块，分别与所述向量获取单元、第1层全局表达获取子模块至第h-1层全局表达子模块相连，用于根据所述多模态特征向量、预设的第h层全局全连接层参数以及第h层之前所有层的全局隐层表达，获取第h层的全局隐层表达；所述

，所述h为正整数；

所述全局概率获取子模块，分别与所述向量获取单元、第1层全局表达获取子模块至第n层全局表达获取子模块相连，用于根据所述多模态特征向量、所有层的全局隐层表达和预设的全局输出全连接层参数，获取所述全局分类概率。

11.根据权利要求10所述的视频分类装置，其特征在于，所述第h层全局表达获取子模块，包括：

第h层特征获取结构，用于将所述多模态特征向量与第1层到第h-1层的全局隐层表达由低层到高层依次拼接，获取第h层的全局融合特征；

第h层表达获取结构，与所述第h层特征获取结构相连，用于根据所述第h层的全局融合特征和预设的第h层全局全连接层参数，获取第h层的全局隐层表达。

12.根据权利要求10所述的视频分类装置，其特征在于，所述全局概率获取子模块，包括：

全局特征获取结构，用于将所述多模态特征向量与由低层到高层所有层的全局隐层表达依次拼接，获取模型全局融合特征；

全局概率获取结构，与所述全局特征获取结构相连，用于根据所述模型全局融合特征和预设的全局输出全连接层参数，获取所述全局分类概率。

13.根据权利要求9所述的视频分类装置，其特征在于，所述局部概率获取模块，包括：第1层局部表达获取子模块···第n层局部表达获取子模块；第1层局部概率获取子模块···第n层局部概率获取子模块；所述n为预设的层级标签的层数，为大于或等于2的正整数；

对于第1层局部表达获取子模块···第n层局部表达获取子模块中任意第m层局部表达获取子模块，分别与第m层全局表达获取子模块至第n层全局表达获取子模块相连，用于根据第m层全局隐层表达至第n层全局隐层表达和预设的该层转换全连接层参数，获取第m层的局部隐层表达；所述

，所述m为正整数；

第1层局部概率获取子模块···第n层局部概率获取子模块中任意第m层局部概率获取子模块，与所述第m层局部表达获取子模块相连，用于根据第m层的局部隐层表达和预设的该层局部全连接层参数，获取第m层的局部分类概率。

14.根据权利要求13所述的视频分类装置，其特征在于，所述第m层局部表达获取子模块，包括：

第m层表达获取结构，与所述第m层特征获取结构相连，用于根据第m层的局部融合特征和预设的该层转换全连接层参数，获取第m层的局部隐层表达。

15.根据权利要求9所述的视频分类装置，其特征在于，所述分类概率获取模块，包括：

权重表达子模块，与所述向量获取单元相连，用于根据所述多模态特征向量和预设的特征全连接层获取特征向量权重表达；

概率表达子模块，与所述局部概率获取模块相连，用于由低层到高层，将各层局部分类概率依次拼接，得到局部概率表达；

概率获取子模块，分别与所述权重表达子模块、概率表达子模块和全局概率获取模块相连，用于根据所述特征向量权重表达、局部概率表达、全局分类概率和预设卷积层参数，获取层次分类概率。