CN112749300A

CN112749300A - 用于视频分类的方法、装置、设备、存储介质和程序产品

Info

Publication number: CN112749300A
Application number: CN202110089147.2A
Authority: CN
Inventors: 赵青青; 聂卫国; 陈敏杰; 贠挺; 李远杭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-04
Anticipated expiration: 2041-01-22
Also published as: CN112749300B

Abstract

本公开公开了用于视频分类的方法、装置、设备、存储介质和程序产品，涉及计算机技术领域，尤其涉及深度学习领域。具体实现方案为：从待分类的视频中包括的多模态数据获取多项单模态数据；从多项单模态数据获取具有相同维度的多个单模态特征表示；对多个单模态特征表示逐对进行特征交叉融合，以生成针对多模态数据的融合特征表示；以及基于融合特征表示和分类模型，确定视频的第一分类结果。由此，能够有效地将各个模态的特征进行融合，充分地利用各模态之间的互补性，从而达到整体提升视频分类性能的效果。

Description

用于视频分类的方法、装置、设备、存储介质和程序产品

技术领域

本公开涉及计算机技术领域，尤其涉及深度学习技术。

背景技术

近年来，深度学习方法使得视频分类性能得到大幅提升。其中，采用多模态特征来联合表征视频已经成为主流算法框架，且此种框架已经成功落地应用。然而在实际应用中，由于不同模态的特征是通过单独训练该模态信息来进行提取的，所以不同模态的特征表示、分布及深层次语义信息差异很大，如何有效地对多模态特征进行融合，极大地影响了视频分类的性能及模型的迭代。

发明内容

本公开提供了一种用于视频分类的方法、装置、设备、存储介质和程序产品。

根据本公开的第一方面，提供了一种用于视频分类的方法，包括：从待分类的视频中包括的多模态数据获取多项单模态数据；从所述多项单模态数据获取具有相同维度的多个单模态特征表示；对所述多个单模态特征表示逐对进行特征交叉融合，以生成针对多模态数据的融合特征表示；以及基于所述融合特征表示和分类模型，确定所述视频的第一分类结果。

根据本公开的第二方面，提供了一种用于视频分类的装置，包括：数据获取模块，用于从待分类的视频中包括的多模态数据获取与多种模态相关联的多项单模态数据；特征获取模块，用于从所述多项单模态数据获取具有相同维度的多个单模态特征表示；特征交叉融合模块，用于对所述多个单模态特征表示逐对进行特征交叉融合，以生成针对多模态数据的融合特征表示；以及第一视频分类模块，用于基于所述融合特征表示和分类模型，确定所述视频的第一分类结果。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面所述的方法。

由此，能够有效地将各个模态的特征进行融合，充分地利用各模态之间的互补性，从而达到整体提升视频分类性能的效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的信息处理环境100的示意图；

图2是根据本公开实施例的用于视频分类的方法200的示意图；

图3是根据本公开实施例的用于基于音频特征表示和第一分类结果进行决策融合的方法300的示意图；

图4是根据本公开实施例的用于在特征标签库中获取音频特征表示的查询标签的方法400的示意图；

图5是根据本公开实施例的用于视频分类的方法500的整体流程图；

图6是根据本公开实施例的用于视频分类的装置600的示意图；以及

图7是用来实现本公开实施例的用于视频分类的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

针对多模态融合的传统方案主要有以下三种：(1)早期融合：先通过单模态模型提取各自的特征，然后对各模态特征进行拼接、相加等融合操作，再输入模型，获得分类结果；(2)晚期融合：通过单模型获取各自的分类结果，再对分类结果进行最大值、平均值、集成学习等规则进行融合；(3)混合融合：结合了早期单模态融合和晚期决策融合。

上述多模态融合方式的关键在于特征融合和决策融合的处理方式。对于特征融合方法而言，目前常用的方式主要有拼接、相加、相乘等，这些方法虽然简单且容易实现，但不能充分利用各个模态数据之间的互补性。对于决策融合方法而言，直接采用最大值、平均值等方法不能针对性地解决对特定形式样本的分类性能得到明显提升。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于视频分类的方案。在该方案中，计算设备从待分类的视频中包括的多模态数据获取多项单模态数据并从多项单模态数据获取具有相同维度的多个单模态特征表示。随后，计算设备对多个单模态特征表示逐对进行特征交叉融合，以生成针对多模态数据的融合特征表示。接着，计算设备基于融合特征表示和分类模型，确定视频的第一分类结果。以此方式，能够有效地将各个模态的特征进行融合，充分地利用各模态之间的互补性，从而达到整体提升视频分类性能的效果。

在下文中，将结合附图更详细地描述本方案的具体示例。

图1示出了根据本公开的实施例的信息处理环境100的示例的示意图。信息处理环境100可以包括计算设备110、待分类的视频120和视频120的第一分类结果130。

计算设备110例如包括但不限于服务器计算机、多处理器系统、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。在一些实施例中，计算设备110可以具有一个或多个处理单元，包括诸如图像处理单元GPU、现场可编程门阵列FPGA和专用集成电路ASIC等的专用处理单元以及诸如中央处理单元CPU的通用处理单元。

待分类的视频120中可以包括多模态数据，例如涉及文本、音频和视频帧。可以从视频120中包括的多模态数据获取多项单模态数据，例如标题文本、音频和视频帧序列。

计算设备110用于从待分类的视频120中包括的多模态数据获取多项单模态数据；从多项单模态数据获取具有相同维度的多个单模态特征表示；对多个单模态特征表示逐对进行特征交叉融合，以生成针对多模态数据的融合特征表示；以及基于融合特征表示和分类模型，确定视频120的第一分类结果130。

图2示出了根据本公开的实施例的用于视频分类的方法200的流程图。例如，方法200可以由如图1所示的计算设备110来执行。应当理解的是，方法200还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在框202处，计算设备110从待分类的视频120中包括的多模态数据获取多项单模态数据。多项单模态数据例如包括但不限于标题文本、音频、视频帧序列等。

在框204处，计算设备110从多项单模态数据获取具有相同维度的多个单模态特征表示。多个单模态特征表示可以包括但不限于文本特征表示、音频特征表示、视频帧特征表示。例如可以采用语言模型从标题文本获取文本特征表示，采用视频分类模型从视频帧序列获取视频帧特征表示，采用音频模型从音频数据获取音频特征表示。此外，还可以从标题文本获取标题关键词，并采用语言模型从标题关键词获取另一文本特征表示。

在一些实施例中，计算设备110可以从多项单模态数据获取多个初始单模态特征表示。随后，计算设备110可以对多个初始单模态特征表示进行维度处理，以生成具有相同维度的多个单模态特征表示。维度处理例如采用嵌入(embedding)操作。例如按照如下公式1)进行维度处理。

V_x＝σ(wV′_x+b) 1)

其中，w表示权重，b表示偏置，σ表示激活函数，V′_x表示初始单模态特征表示，V_x表示经过维度处理的单模态特征表示。

在框206处，计算设备110对多个单模态特征表示逐对进行特征交叉融合，以生成针对多模态数据的融合特征表示。

在一些实施例中，计算设备110可以对于多个单模态特征表示中的每对单模态特征表示中的元素进行对应位置相乘，以生成多个特征交叉表示。随后，计算设备110可以将多个特征交叉表示相加，以生成针对多模态数据的融合特征表示。例如按照如下公式2)进行特征交叉融合。

其中V_i和V_j分别表示第i个单模态特征表示和第j个单模态特征表示，n表示单模态特征表示的数量，⊙表示对应元素相乘。对应元素相乘或者说元素对应位置相乘将两个特征表示中位于相同位置的元素进行相乘。

应当理解，以上特征交叉融合方式仅仅是举例说明，也可以采用其他合适的方式实现特征交叉融合，例如将多个特征交叉表示进行加权，以生成针对多模态数据的融合特征表示。

在框208处，计算设备110基于融合特征表示和分类模型，确定视频120的第一分类结果130。

具体来说，计算设备110可以将融合特征表示输入分类模型中的多个隐层，得到输出表示。例如可以按照如下公式3)进行隐层处理得到输出表示。

h₁＝σ₁(w₁F(V_x)+b₁)

……

h_l＝σ_l(w_lh_l-1+b_l) 3)

其中，w_l表示第l隐层的权重，b_l表示第l隐层的偏置，σ_l表示第l隐层的激活函数，h_l表示第l隐层的输出表示，l为大于1的整数。

随后计算设备110将输出表示输入分类模型中的全连接层(也可以称为预测层)，得到第一分类结果130。

此外，在实际应用中，由于存在某些特定形式的视频滤镜或者模板，这使得同一视频模板往往包含大量不同主题的视频内容。同时，这些模板会与某些类别的视频数据形式有一定程度的相似，从而导致该视频类别的分类性能下降。

为了解决上述问题，在一些实施例中，计算设备110可以基于多个单模态特征表示中的音频特征表示和第一分类结果进行决策融合，以确定视频120的最终分类结果。

图3示出了根据本公开的实施例的用于基于音频特征表示和第一分类结果进行决策融合的方法300的流程图。例如，方法300可以由如图1所示的计算设备110来执行。应当理解的是，方法300还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在框302处，计算设备110获取具有音频模板的视频集合和与视频集合相关联的音频模板标签集合。视频集合和音频模板标签集合可以以统一集合呈现，例如S＝{x_i，l_i}，其中x_i表示具有音频模板的第i个视频，l_i表示第i个视频所关联的音频模板标签。音频模板可以为一个或多个。音频模板例如包括但不限于音乐模板，例如街舞音乐模板、民族音乐模板、流行音乐模板、古典音乐模板等，对应的音频模板标签例如为街舞音乐、民族音乐、流行音乐、古典音乐等。应当理解，音乐模板只是音频模板的一个示例，也可以采用其他合适的音频模板。

在框304处，计算设备110从视频集合获取音频特征表示集合。例如可以采用音频模型从视频集合获取音频特征表示集合。

在框306处，计算设备110将音频特征表示集合与音频模板标签集合进行关联，以生成特征标签库。

在框308处，计算设备110在特征标签库中获取音频特征表示的查询标签。例如，在特征标签库中获取与音频特征表示相匹配的音频模板标签作为音频特征表示的查询标签。下文结合图4详细描述用于在特征标签库中获取音频特征表示的查询标签的方法。

在框310处计算设备110确定音频特征表示的查询标签是否为空。

如果在框310处计算设备110确定音频特征表示的查询标签为空，则在框312处确定视频120的最终分类结果为第一分类结果。

如果在框310处计算设备110确定音频特征表示的查询标签非空，则在框314处基于音频特征表示的查询标签、第一分类结果和决策融合规则，确定视频120的最终分类结果。决策融合规则可以采用任何合适的规则基于第一分类结果和查询标签从分类模型的分类标签集合中选择分类标签作为视频120的最终分类结果。例如，如果第一分类结果为“自拍”，查询标签为“无风格”，则最终分类结果为“自拍”；如果第一分类结果为“自拍”，查询标签为“哈哈笑声音颤”，则最终分类结果为“搞笑”；如果第一分类结果为“跳舞”，查询标签为“图片生成类型模板音频”，则最终分类结果为“随手拍”。

由此，通过针对具有音频模板的视频建立特征标签库，并基于待分类视频的音频特征表示在特征标签库中的查询标签和第一分类结果进行决策融合，提高了针对具有特定音频模板的视频的分类结果的准确性。

图4示出了根据本公开的实施例的用于在特征标签库中获取音频特征表示的查询标签的方法400的流程图。例如，方法400可以由如图1所示的计算设备110来执行。应当理解的是，方法400还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在框402处，计算设备110从特征标签库中确定与音频特征表示距离从小到大排前N位的N个音频特征表示和与N个音频特征表示相关联的N个音频模板标签。例如，可以将音频特征表示与特征标签库中的所有音频特征表示之间的距离，并按照距离从小到大排列取前N个音频特征表示。N为正整数，例如包括但不限于6、8、10等。

在框404处，计算设备110确定N个音频模板标签是否均相同。例如，可以确定N个音频模板标签中不同音频模板标签的数量是否为1。

如果在框404处计算设备110确定N个音频模板标签均相同，则在框406处确定排第N位的音频特征表示所关联的距离是否小于预定距离。

如果在框406处计算设备110确定排第N位的音频特征表示所关联的距离小于预定距离，则在框408处确定音频特征表示的查询标签为与N个音频特征表示相关联的音频模板标签。排第N位的音频特征表示所关联的距离也就是上述距离中从小到大排第N位的距离。应当理解，先执行框404再执行框406仅是示例，也可以先执行框406再执行框404，或者框404和框406可以并行。

如果在框404处计算设备110确定N个音频模板标签不同或者在框406处确定排第N位的音频特征表示所关联的距离大于或等于预定距离，则在框410处确定音频特征表示的查询标签为空。

由此，能够在特征标签库中较为准确地确定音频特征表示的查询特征，便于更准确确定音频特征表示所关联视频的分类结果。

下面结合图5描述根据本公开实施例的用于视频分类的方法的整体流程图。如图5所示，计算设备110从待分类的视频501获取标题文本502、视频帧序列503和音频504。计算设备110可以从标题文本502获取标题关键词505。随后，计算设备110可以将标题关键词505和标题文本502输入语言模型506，以生成第一文本特征表示509和第二文本特征表示510，将视频帧序列503输入视频分类模型507，以生成视频帧特征表示511，以及将音频输入音频模型508，以生成音频特征表示512。接着，计算设备110可以将第一文本特征表示508、第二文本特征表示509、视频帧特征表示510和音频特征表示511进行特征交叉融合，以生成融合特征表示，并将融合特征表示输入分类模型513，以生成视频501的第一分类结果。此外，计算设备110还可以基于特征标签库对音频特征表示511进行特征匹配514，以生成音频特征表示的查询标签。最后，计算设备110基于第一分类结果和查询标签进行决策融合515，生成视频501的最终分类结果。

图6示出了根据本公开的实施例的用于视频分类的装置600的示意框图。如图6所示，装置600包括数据获取模块610，用于从待分类的视频中包括的多模态数据获取多项单模态数据；特征获取模块620，用于从多项单模态数据获取具有相同维度的多个单模态特征表示；特征交叉融合模块630，用于对多个单模态特征表示逐对进行特征交叉融合，以生成针对多模态数据的融合特征表示；以及第一视频分类模块640，用于基于融合特征表示和分类模型，确定视频120的第一分类结果。

在一些实施例中，特征交叉融合模块630包括特征交叉子模块，用于对于多个单模态特征表示中的每对单模态特征表示中的元素进行对应位置相乘，以生成多个特征交叉表示；以及特征融合子模块，用于将多个特征交叉表示相加，以生成针对多模态数据的融合特征表示。

在一些实施例中，特征获取模块620包括初始特征获取子模块，用于从多项单模态数据获取多个初始单模态特征表示；以及特征维度处理子模块，用于对多个初始单模态特征表示进行维度处理，以生成具有相同维度的多个单模态特征表示。

在一些实施例中，多个单模态特征表示包括音频特征表示，以及装置600还可以包括：视频和标签获取模块，用于获取具有音频模板的视频集合和与视频集合相关联的音频模板标签集合；音频特征获取模块，用于从视频集合获取音频特征表示集合；特征标签库生成模块，用于将音频特征表示集合与音频模板标签集合进行关联，以生成特征标签库；标签查询模块，用于在特征标签库中获取音频特征表示的查询标签；第二视频分类模块，用于如果确定音频特征表示的查询标签为空，则确定视频的最终分类结果为第一分类结果；以及第二视频分类模块还用于，如果确定音频特征表示的查询标签非空，则基于音频特征表示的查询标签、第一分类结果和决策融合规则，确定视频120的最终分类结果。

在一些实施例中，标签查询模块包括：音频特征表示和标签确定子模块，用于从特征标签库中确定与音频特征表示距离从小到大排前N位的N个音频特征表示和与N个音频特征表示相关联的N个音频模板标签；以及查询标签确定子模块，用于如果确定N个音频模板标签均相同且排第N位的音频特征表示所关联的距离小于预定距离，则确定音频特征表示的查询标签为与N个音频特征表示相关联的音频模板标签；查询标签确定子模块，还用于如果确定排第N位的音频特征表示所关联的距离大于或等于预定距离或者所述N个音频模板标签不同，则确定音频特征表示的查询标签为空。

在一些实施例中，音频模板包括音乐模板。

在一些实施例中，多项单模态数据包括标题文本、音频和视频帧序列。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法200-500。例如，在一些实施例中，方法200-500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的方法200-500的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200-500。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于视频分类的方法，包括：

从待分类的视频中包括的多模态数据获取多项单模态数据；

从所述多项单模态数据获取具有相同维度的多个单模态特征表示；

对所述多个单模态特征表示逐对进行特征交叉融合，以生成针对所述多模态数据的融合特征表示；以及

基于所述融合特征表示和分类模型，确定所述视频的第一分类结果。

2.根据权利要求1所述的方法，其中，对所述多个单模态特征表示逐对进行特征交叉融合包括：

对于所述多个单模态特征表示中的每对单模态特征表示中的元素进行对应位置相乘，以生成多个特征交叉表示；以及

将所述多个特征交叉表示相加，以生成针对所述多模态数据的所述融合特征表示。

3.根据权利要求1所述的方法，其中从所述多项单模态数据获取具有相同维度的所述多个单模态特征表示包括：

从所述多项单模态数据获取多个初始单模态特征表示；以及

对所述多个初始单模态特征表示进行维度处理，以生成具有相同维度的所述多个单模态特征表示。

4.根据权利要求1所述的方法，其中所述多个单模态特征表示包括音频特征表示，以及所述方法还包括：

获取具有音频模板的视频集合和与所述视频集合相关联的音频模板标签集合；

从所述视频集合获取音频特征表示集合；

将所述音频特征表示集合与所述音频模板标签集合进行关联，以生成特征标签库；

在所述特征标签库中获取所述音频特征表示的查询标签；

如果确定所述音频特征表示的查询标签为空，则确定所述视频的最终分类结果为所述第一分类结果；以及

如果确定所述音频特征表示的查询标签非空，则基于所述音频特征表示的查询标签、所述第一分类结果和决策融合规则，确定所述视频的最终分类结果。

5.根据权利要求4所述的方法，其中在所述特征标签库中获取所述音频特征表示的查询标签包括：

从所述特征标签库中确定与所述音频特征表示距离从小到大排前N位的N个音频特征表示和与所述N个音频特征表示相关联的N个音频模板标签；

如果确定所述N个音频模板标签均相同且排第N位的音频特征表示所关联的距离小于预定距离，则确定所述音频特征表示的查询标签为与所述N个音频特征表示相关联的音频模板标签；以及

如果确定所述排第N位的音频特征表示所关联的距离大于或等于所述预定距离或者所述N个音频模板标签不同，则确定所述音频特征表示的查询标签为空。

6.根据权利要求4所述的方法，其中所述音频模板包括音乐模板。

7.根据权利要求1所述的方法，其中所述多项单模态数据包括标题文本、音频和视频帧序列。

8.一种用于视频分类的装置，包括：

数据获取模块，用于从待分类的视频中包括的多模态数据获取多项单模态数据；

特征获取模块，用于从所述多项单模态数据获取具有相同维度的多个单模态特征表示；

特征交叉融合模块，用于对所述多个单模态特征表示逐对进行特征交叉融合，以生成针对所述多模态数据的融合特征表示；以及

第一视频分类模块，用于基于所述融合特征表示和分类模型，确定所述视频的第一分类结果。

9.根据权利要求8所述的装置，其中，所述特征交叉融合模块包括：

特征交叉子模块，用于对于所述多个单模态特征表示中的每对单模态特征表示中的元素进行对应位置相乘，以生成多个特征交叉表示；以及

特征融合子模块，用于将所述多个特征交叉表示相加，以生成针对所述多模态数据的所述融合特征表示。

10.根据权利要求8所述的装置，其中特征获取模块包括：

初始特征获取子模块，用于从所述多项单模态数据获取多个初始单模态特征表示；以及

特征维度处理子模块，用于对所述多个初始单模态特征表示进行维度处理，以生成具有相同维度的多个单模态特征表示。

11.根据权利要求8所述的装置，其中所述多个单模态特征表示包括音频特征表示，以及所述装置还包括：

视频和标签获取模块，用于获取具有音频模板的视频集合和与所述视频集合相关联的音频模板标签集合；

音频特征获取模块，用于从所述视频集合获取音频特征表示集合；

特征标签库生成模块，用于将所述音频特征表示集合与所述音频模板标签集合进行关联，以生成特征标签库；

标签查询模块，用于在所述特征标签库中获取所述音频特征表示的查询标签；

第二视频分类模块，用于如果确定所述音频特征表示的查询标签为空，则确定所述视频的最终分类结果为所述第一分类结果；以及

所述第二视频分类模块还用于，如果确定所述音频特征表示的查询标签非空，则基于所述音频特征表示的查询标签、所述第一分类结果和决策融合规则，确定所述视频的最终分类结果。

12.根据权利要求11所述的装置，其中所述标签查询模块包括：

音频特征表示和标签确定子模块，用于从所述特征标签库中确定与所述音频特征表示距离从小到大排前N位的N个音频特征表示和与所述N个音频特征表示相关联的N个音频模板标签；以及

查询标签确定子模块，用于如果确定所述N个音频模板标签均相同且排第N位的音频特征表示所关联的距离小于预定距离，则确定所述音频特征表示的查询标签为与所述N个音频特征表示相关联的音频模板标签；

所述查询标签确定子模块，还用于如果确定所述排第N位的音频特征表示所关联的距离大于或等于所述预定距离或者所述N个音频模板标签不同，则确定所述音频特征表示的查询标签为空。

13.根据权利要求11所述的装置，其中所述音频模板包括音乐模板。

14.根据权利要求8所述的装置，其中所述多项单模态数据包括标题文本、音频和视频帧序列。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。