CN114385839A

CN114385839A - 多媒体分类方法、装置、设备及存储介质

Info

Publication number: CN114385839A
Application number: CN202210035591.0A
Authority: CN
Inventors: 刘烨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-22

Abstract

本发明公开一种多媒体分类方法、装置、设备及存储介质，该方法包括对多媒体文件进行处理，以得到多媒体文件的至少两种模态信息；对多媒体文件的至少两种模态信息分别进行特征提取，以得到至少两种模态特征，其中，在至少两种模态信息中的任一模态信息进行特征提取的第i个阶段，该任一模态信息的第i个阶段的模态特征是根据该任一模态信息的第i‑1个阶段的模态特征以及至少两种模态信息中除该任一模态信息之外的其他模态信息的第i‑1个阶段的模态特征得到的；将至少两种模态特征进行融合处理，以得到多媒体文件的语义特征；根据多媒体文件的语义特征对多媒体文件进行分类处理。采用该手段，避免了在深层语义阶段特征无法对齐的问题。

Description

多媒体分类方法、装置、设备及存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种多媒体分类方法、装置、设备及存储介质。

背景技术

多媒体文件，例如视频是多种信息的传递媒介，例如一段视频中会同时包含文字信息、视觉信息和听觉信息，故多模态学习已逐渐发展为视频内容分析与理解的主要手段。

多模态信息融合是多模态技术中非常重要的一环。多模态信息的融合就是将多模态信息，如文本、声音和图像信息如何融合一起，最后能够更好的表征多媒体文件例如视频的语义信息。

目前主流的模态信息融合方法主要是基于深度学习的方法，首先提取各个模态的语义信息，其次进行融合。然而这些多模态信息融合都是基于late fusion 的策略,信息融合过于滞后，导致信息无法充分的协同或者抑制，因此融合效果很差。

发明内容

本发明实施例提供了一种多媒体分类方法、装置、设备及存储介质，可以避免了在深层语义阶段特征无法对齐的问题。

第一方面，本发明实施例提供了一种多媒体分类方法，包括：

对多媒体文件进行处理，以得到所述多媒体文件的至少两种模态信息；

对所述多媒体文件的至少两种模态信息分别进行特征提取，以得到至少两种模态特征，其中，在所述至少两种模态信息中的任一模态信息进行特征提取的第i个阶段，该任一模态信息的第i个阶段的模态特征是根据该任一模态信息的第i-1个阶段的模态特征以及所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征得到的，所述第i个阶段为所述任一模态信息进行特征提取的任一阶段，所述i为不小于2的整数；

将所述至少两种模态特征进行融合处理，以得到所述多媒体文件的语义特征；

根据所述多媒体文件的语义特征对所述多媒体文件进行分类处理。

作为一种实现方式，将所述任一模态信息的第i-1个阶段的模态特征与所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征进行融合处理，以得到所述任一模态信息的第i个阶段的第一模态特征；

根据所述任一模态信息的第i个阶段的第一模态特征得到所述任一模态信息的第i个阶段的模态特征。

具体地，所述对所述多媒体文件的至少两种模态信息分别进行特征提取，以得到至少两种模态特征，包括：

将所述多媒体文件的至少两种模态信息分别输入到至少两个模型中进行处理，以得到至少两种模态特征，其中，对于所述至少两个模型中的任一模型，该模型的第i层的输入为将该模型的第i-1层的输出结果与所述至少两个模型中除该模型之外的其他模型的第i-1层的输出结果进行融合处理得到的，所述至少两种模态信息与所述至少两个模型一一对应。

作为一种具体实现方式，所述至少两种模态信息包括第一模态信息和第二模态信息，所述第一模态信息对应的模型的第i层的输入为将该模型的第i-1层输出结果作为查询，将所述第二模态信息对应的模型的第i-1层输出结果作为键和值进行处理得到的。

其中，所述至少两个模型为同构模型。

第二方面，本发明实施例提供了一种多媒体分类的装置，包括：

处理模块，用于对多媒体文件进行处理，以得到所述多媒体文件的至少两种模态信息；

提取模块，用于对所述多媒体文件的至少两种模态信息分别进行特征提取，以得到至少两种模态特征，其中，在所述至少两种模态信息中的任一模态信息进行特征提取的第i个阶段，该任一模态信息的第i个阶段的模态特征是根据该任一模态信息的第i-1个阶段的模态特征以及所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征得到的，所述第i个阶段为所述任一模态信息进行特征提取的任一阶段，所述i为不小于2的整数；

融合模块，用于将所述至少两种模态特征进行融合处理，以得到所述多媒体文件的语义特征；

分类模块，用于根据所述多媒体文件的语义特征对所述多媒体文件进行分类处理。

可选的，所述提取模块，用于将所述任一模态信息的第i-1个阶段的模态特征与所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征进行融合处理，以得到所述任一模态信息的第i个阶段的第一模态特征；

其中，所述提取模块，还用于将所述多媒体文件的至少两种模态信息分别输入到至少两个模型中进行处理，以得到至少两种模态特征，其中，对于所述至少两个模型中的任一模型，该模型的第i层的输入为将该模型的第i-1层的输出结果与所述至少两个模型中除该模型之外的其他模型的第i-1层的输出结果进行融合处理得到的，所述至少两种模态信息与所述至少两个模型一一对应。

第三方面，本发明实施例提供了一种多媒体分类的设备，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如第一方面任一项所述的多媒体分类的方法。

第四方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，以执行如第一方面任一项所述的多媒体分类的方法。

本发明实施例，基于对多媒体文件的至少两种模态信息分别进行特征提取，得到至少两种模态特征，其中在特征提取阶段，任一模态信息的第i个阶段的模态特征是根据该任一模态信息的第i-1个阶段的模态特征以及所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征得到的；然后，通过将至少两种模态特征进行融合处理，以此得到多媒体文件的语义特征，以进行后续任务处理。采用该手段，单个模态特征提取的各个阶段均基于该多媒体文件的各模态信息进行提取得到，能够最大程度的进行模态信息的对齐，避免了在深层语义阶段特征无法对齐的问题；且基于多模态信息融合，可同时促进单个模态特征提取的性能，表征能力更强。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种多媒体分类方法的场景示意图；

图1b是本发明实施例提供的一种待分类多媒体文件示意图；

图1c是本发明实施例提供的一种多媒体分类方法的示意图；

图2是本发明实施例提供的一种多媒体分类方法的流程示意图；

图3是本发明实施例提供的另一种多媒体分类方法的流程示意图；

图4是本发明实施例提供的一种模型处理示意图；

图5是本发明实施例提供的一种多媒体分类装置的结构示意图；

图6是本发明实施例提供的另一种多媒体分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

应当理解，本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本发明所描述的实施例可以与其它实施例相结合。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

请参见图1a，图1a是本发明实施例提供的一种多媒体分类的方法的场景应用示意图。如图1a所示，多媒体分类服务器10d接收电子设备提供的多媒体文件，进而实现多媒体分类。该电子设备可以包括：电脑10a、笔记本电脑10b、...、手机10c、电视机等等。当然，多媒体分类服务器10d还可以是通过其他途径获取到待分类多媒体文件等。举例说明，多媒体分类服务器10d接收到笔记本电脑10b发送的多媒体文件，该多媒体文件为如图1b所示的球赛视频。该视频包括羽毛球比赛画面、专家点评画面以及篮球比赛画面。

如图1c所示，为本申请实施例提供的多媒体分类方法示意图。其中，对图 1b所示视频进行处理，得到纯图像信息、纯语音信息以及纯文本信息。然后，将得到的纯图像信息、纯语音信息以及纯文本信息分别进行特征提取，其中在特征提取阶段，图像特征的提取不仅与图像信息有关，还与其他语音信息以及文本信息也有关；相应地，语音信息在特征提取阶段，语音特征的提取不仅与语音信息有关，还与其他图像信息以及文本信息也有关；以此类推，可得到各模态特征。然后将其进行融合处理，进而进行视频分类处理。采用该手段，单个模态特征提取的各个阶段均基于该视频的各模态信息进行提取得到，能够最大程度的进行模态信息的对齐，避免了在深层语义阶段特征无法对齐的问题；且基于多模态信息融合，可同时促进单个模态特征提取的性能，表征能力更强。

本方案对不同模态信息进行交叉融合，从而多模态信息更容易对齐和协同，提升了多模态信息的融合性能。该方法可以应用在视频等多媒体理解的各种应用当中，如视频分类、视频生成、视频摘要、视频总结、图片分类、图片生成等，具有广泛的应用价值。

请参见图2，图2是本发明实施例提供的一种多媒体分类的方法的流程示意图；图2中，该方法包括步骤201-204，具体如下：

201、对多媒体文件进行处理，以得到所述多媒体文件的至少两种模态信息；

多媒体文件中的多模态信息可包括文本、语音、图像信息等。

例如，对多媒体文件进行格式转换，可以将多媒体文件中的语音信息提取出来；将多媒体文件输入到预设软件中，可以获取到多媒体文件中的文本信息、图像信息等。

也就是说，通过对多媒体文件进行处理，可以获取到多媒体文件中的纯文字信息、纯语音信息、纯图像信息等。

202、对所述多媒体文件的至少两种模态信息分别进行特征提取，以得到至少两种模态特征，其中，在所述至少两种模态信息中的任一模态信息进行特征提取的第i个阶段，该任一模态信息的第i个阶段的模态特征是根据该任一模态信息的第i-1个阶段的模态特征以及所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征得到的，所述第i个阶段为所述任一模态信息进行特征提取的任一阶段，所述i为不小于2的整数；

也就是说，在对每个模态信息进行特征提取时包括多个提取阶段。

任一模态信息的第i个阶段的模态特征是根据该任一模态信息的第i-1个阶段的模态特征以及所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征得到的。即，每个模态信息进行特征提取的阶段中，均是通过该多模态信息进行特征提取的。

作为一种实现方式，通过将任一模态信息的第i-1个阶段的模态特征与所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征进行融合处理，以得到所述任一模态信息的第i个阶段的第一模态特征；

例如，在该融合过程中，若是在提取文本信息特征的阶段，则在融合时文本信息特征所占的比重较多，其他模态特征所占的比重低于文本信息特征。相应地，若是在提取语音信息特征的阶段，则在融合时语音信息特征所占的比重较多，其他模态特征所占的比重低于语音信息特征等。

上述仅为一种示例，其还可以是其他方式，本方案对此不做具体限定。

203、将所述至少两种模态特征进行融合处理，以得到所述多媒体文件的语义特征；

基于上述得到的每种模态特征，通过将其做最后的融合处理，进而得到多媒体文件的语义特征。其中，该融合处理可以是简单的向量叠加等，本方案对此不做具体限定。

204、根据所述多媒体文件的语义特征对所述多媒体文件进行分类处理。

基于该多媒体文件的语义特征对该多媒体文件提供标签类别，以便对该多媒体文件自动进行归档分类等。

本申请实施例仅以多媒体文件分类为例进行说明。需要说明的是，本申请实施例还可以基于不同的任务进行不同的处理。例如，若当前任务为对该多媒体文件确定摘要，则基于该多媒体文件的语义特征，为多媒体文件进行总结，可自动为多媒体文件打标题，方便检索和推荐等；本方案还可以应用到多媒体文件拆分，提供独立主题单元的多媒体文件片段，为多媒体文件生产和多媒体文件编目提供素材，例如需要某人的采访视频，通过场景切分能力，能够获取对应的场景片段等。本方案对此不做具体限定。

本申请实施例，基于对多媒体文件的至少两种模态信息分别进行特征提取，得到至少两种模态特征，其中在特征提取阶段，任一模态信息的第i个阶段的模态特征是根据该任一模态信息的第i-1个阶段的模态特征以及所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征得到的；然后，通过将至少两种模态特征进行融合处理，以此得到多媒体文件的语义特征，以进行后续任务处理。采用该手段，单个模态特征提取的各个阶段均基于该多媒体文件的各模态信息进行提取得到，能够最大程度的进行模态信息的对齐，避免了在深层语义阶段特征无法对齐的问题；且基于多模态信息融合，可同时促进单个模态特征提取的性能，表征能力更强。

该申请实施例以多媒体文件为视频为例进行说明。请参见图3，图3是本发明实施例提供的一种多媒体分类的方法的流程示意图；图3中以视频分类为例，该方法包括步骤301-304，具体如下：

301、对视频进行处理，以得到所述视频的至少两种模态信息；

视频中的多模态信息可包括文本、语音、图像信息等。

例如，对视频进行格式转换，可以将视频中的语音信息提取出来；将视频输入到预设软件中，可以获取到视频中的文本信息、图像信息等。

也就是说，通过对视频进行处理，可以获取到视频中的纯文字信息、纯语音信息、纯图像信息等。

302、将所述视频的至少两种模态信息分别输入到至少两个模型中进行处理，以得到至少两种模态特征，其中，对于所述至少两个模型中的任一模型，该模型的第i层的输入为将该模型的第i-1层的输出结果与所述至少两个模型中除该模型之外的其他模型的第i-1层的输出结果进行融合处理得到的，所述至少两种模态信息与所述至少两个模型一一对应，i为不小于2的整数；

也就是说，将每种模态信息分别输入至对应的模型中。对于任一模型来说，该模型的第一层的输入为步骤301中所得到的任一种模态信息。该模型的第二层的输入为该模型的第一层的输出结果与其他各模型的第一层的输出结果进行融合后得到的向量。相应地，该模型的第三层的输入为该模型的第二层的输出结果与其他各模型的第二层的输出结果进行融合后得到的向量。以此类推，可得到该模型的每一层的输入，进而得到该模型的每一层的输出结果。采用该手段，进而得到每个模型的输出结果，也即上述至少两种模态特征。

具体地，该至少两个模型的框架是同构的。该模型可以是Transformer结构。Transformer模型中采用了encoder-decoder架构。对于encoder，其可包含两层，一个self-attention层和一个前馈神经网络，self-attention能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。decoder也包含encoder提到的两层网络，但是在这两层中间还有一层attention层，帮助当前节点获取到当前需要关注的重点内容。

首先，模型需要对输入的数据进行一个embedding操作，embedding结束之后，输入到encoder层，self-attention处理完数据后把数据送到前馈神经网络，前馈神经网络的计算可以并行，得到的输出结果会输入到下一个encoder。 self-attention计算出三个新的向量，这三个向量分别称为Query、Key、Value，这三个向量是用embedding向量与一个矩阵相乘得到的结果，这个矩阵是随机初始化的，其值在BP的过程中会一直进行更新。

通过计算self-attention的分数值，并把得到的结果基于softmax进行计算处理，得到的结果即是每个词对于当前位置的词的相关性大小。

其中，decoder部分和encoder部分相似，在此不再赘述。

对于图4所示神经网络中第i+1层的输入，是通过将该神经网络的第i层的输出与其他神经网络的第i层的输出进行融合得到的。例如视频中展示的文本信息为“我是一名学生”，则图中所示位置1即代表“我”，位置2即代表“是”，位置3即代表“一名”，位置4即代表“学生”。H即代表与各个位置对应的特征向量。例如，H_V表征视觉特征向量，H_A表征声音特征向量等。对于当前提取视觉特征的网络，其对应的第i+1层的输入是该网络第i层的输出Q_V以及提取声音特征的网络的第i层的输出K_A、V_A；同样地，对于当前提取声音特征的网络，其对应的该层的输入是该网络上一层的输出Q_A以及提取视觉特征的网络的上一层的输出K_V、V_V。该实施例仅以两个模态的信息为例进行说明，当存在多个模态的信息进行融合时，则还包括其他网络的上一层的输出K、V。

也就是说，将该模态信息对应的特征提取的输出结果作为Query，将其他模态信息对应的特征提取的输出结果作为Key和Value，以此进行处理作为该模态信息对应的特征提取的输入，进而重复执行，直到执行到该模态信息对应的特征提取的最后一层。

采用该手段，通过在单个模态特征提取各个阶段均进行交叉融合，能够最大程度的进行模态信息的对齐，避免了在深层语义阶段特征无法对齐的问题；且基于多模态信息融合，可同时促进单个模态特征提取的性能，表征能力更强。

303、将所述至少两种模态特征进行融合处理，以得到所述视频的语义特征；

基于上述得到的每种模态特征，通过将其做最后的融合处理，进而得到视频的语义特征。其中，该融合处理可以是简单的向量叠加等，本方案对此不做具体限定。

例如，采用late fusion的策略进行多模态信息融合。late fusion指的是在预测分数上进行融合。具体地，通过训练多个模型，每个模型都会有一个预测评分，通过对所有模型的结果进行fusion，得到最后的预测结果。常见的late fusion 方法有取分数的平均值average、最大值maximum、加权平均weighted average，另外还有采用LogisticsRegression的方法进行late fusion。当然，还可以采用其他手段，本方案对此不做具体限定。

304、根据所述视频的语义特征对所述视频进行分类处理。

基于该视频的语义特征对该视频提供标签类别，以便对该视频自动进行归档分类等。

本申请实施例仅以视频分类为例进行说明。需要说明的是，本申请实施例还可以基于不同的任务进行不同的处理。例如，若当前任务为对该视频确定摘要，则基于该视频的语义特征，为视频进行总结，可自动为视频打标题，方便检索和推荐等；本方案还可以应用到视频拆分，提供独立主题单元的视频片段，为视频生产和视频编目提供素材，例如需要某人的采访视频，通过场景切分能力，能够获取对应的场景片段等。本方案对此不做具体限定。

具体地，若当前任务为对该视频进行分类，则将该融合后的视频语义向量输入至全连接层，进行视频分类处理，确定标签类别，可自动对视频进行归档。若当前任务为对该视频确定摘要，则将该融合后的视频语义向量输入至decoder 模块，为视频进行总结，可自动为视频打标题，方便检索和推荐等。当然，还可以应用到视频拆分，提供独立主题单元的视频片段，为视频生产和视频编目提供素材，例如需要某人的采访视频，通过场景切分能力，能够获取对应的场景片段等。

本申请实施例，基于对视频的至少两种模态信息分别进行特征提取，得到至少两种模态特征，其中在特征提取阶段，任一模态信息的第i个阶段的模态特征是根据该任一模态信息的第i-1个阶段的模态特征以及所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征进行融合处理得到的；然后，通过将至少两种模态特征进行融合处理，以此得到视频的语义特征，以进行后续任务处理。采用该手段，通过在单个模态特征提取各个阶段均进行交叉融合，能够最大程度的进行模态信息的对齐，避免了在深层语义阶段特征无法对齐的问题；且基于多模态信息融合，可同时促进单个模态特征提取的性能，表征能力更强。

基于上述多媒体分类的方法实施例的描述，本发明实施例还公开了一种多媒体分类的装置，参考图5，图5是本发明实施例提供的一种多媒体分类的装置的结构示意图，所述多媒体分类的装置包括处理模块501、提取模块502、融合模块503和分类模块504，其中：

处理模块501，用于对多媒体文件进行处理，以得到所述多媒体文件的至少两种模态信息；

提取模块502，用于对所述多媒体文件的至少两种模态信息分别进行特征提取，以得到至少两种模态特征，其中，在所述至少两种模态信息中的任一模态信息进行特征提取的第i个阶段，该任一模态信息的第i个阶段的模态特征是根据该任一模态信息的第i-1个阶段的模态特征以及所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征得到的，所述第i 个阶段为所述任一模态信息进行特征提取的任一阶段，所述i为不小于2的整数；

融合模块503，用于将所述至少两种模态特征进行融合处理，以得到所述多媒体文件的语义特征；

分类模块504，用于根据所述多媒体文件的语义特征对所述多媒体文件进行分类处理。

可选的，所述提取模块502，用于将所述任一模态信息的第i-1个阶段的模态特征与所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第 i-1个阶段的模态特征进行融合处理，以得到所述任一模态信息的第i个阶段的第一模态特征；

其中，所述提取模块502，还用于：将所述多媒体文件的至少两种模态信息分别输入到至少两个模型中进行处理，以得到至少两种模态特征，其中，对于所述至少两个模型中的任一模型，该模型的第i层的输入为将该模型的第i-1层的输出结果与所述至少两个模型中除该模型之外的其他模型的第i-1层的输出结果进行融合处理得到的，所述至少两种模态信息与所述至少两个模型一一对应。

其中，所述至少两个模型为同构模型。

值得指出的是，其中，多媒体分类的装置的具体功能实现方式可以参见上述多媒体分类的方法的描述，这里不再进行赘述。多媒体分类的装置中的各个单元或模块可以分别或全部合并为一个或若干个另外的单元或模块来构成，或者其中的某个(些)单元或模块还可以再拆分为功能上更小的多个单元或模块来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元或模块是基于逻辑功能划分的，在实际应用中，一个单元(或模块) 的功能也可以由多个单元(或模块)来实现，或者多个单元(或模块)的功能由一个单元(或模块)实现。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种多媒体分类的装置。

请参见图6，是本发明实施例提供的一种多媒体分类的装置的结构示意图。如图6所示的装置600(该装置600具体可以是一种计算机设备)包括存储器 601、处理器602、通信接口603以及总线604。其中，存储器601、处理器602、通信接口603通过总线604实现彼此之间的通信连接。

存储器601可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。

存储器601可以存储程序，当存储器601中存储的程序被处理器602执行时，处理器602和通信接口603用于执行本申请实施例的多媒体分类的方法的各个步骤。

处理器602可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的多媒体分类的装置中的单元所需执行的功能，或者执行本申请方法实施例的多媒体分类的方法。

处理器602还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的多媒体分类的方法的各个步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602还可以是通用处理器、数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器601，处理器602读取存储器601中的信息，结合其硬件完成本申请实施例的多媒体分类的装置中包括的单元所需执行的功能，或者执行本申请方法实施例的多媒体分类的方法。

通信接口603使用例如但不限于收发器一类的收发装置，来实现装置600 与其他设备或通信网络之间的通信。例如，可以通过通信接口603获取数据。

总线604可包括在装置600各个部件(例如，存储器601、处理器602、通信接口603)之间传送信息的通路。

应注意，尽管图6所示的装置600仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置600还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置600还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置600也可仅仅包括实现本申请实施例所必须的器件，而不必包括图6中所示的全部器件。

本申请实施例还提供了一种芯片系统，所述芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路，以及一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行所述的多媒体分类的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应步骤过程的具体描述，在此不再赘述。

应理解，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；其中A，B可以是单数或者复数。并且，在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个) 或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示： a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。同时，在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念，便于理解。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)) 或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-only memory，ROM)，或随机存取存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多媒体分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，包括：

将所述任一模态信息的第i-1个阶段的模态特征与所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征进行融合处理，以得到所述任一模态信息的第i个阶段的第一模态特征；

3.根据权利要求1或2所述的方法，其特征在于，所述对所述多媒体文件的至少两种模态信息分别进行特征提取，以得到至少两种模态特征，包括：

将所述多媒体文件的至少两种模态信息分别输入到对应个数的至少两个模型中进行处理，以得到至少两种模态特征，其中，对于所述至少两个模型中的任一模型，该模型的第i层的输入为将该模型的第i-1层的输出结果与所述至少两个模型中除该模型之外的其他模型的第i-1层的输出结果进行融合处理得到的，所述至少两种模态信息与所述至少两个模型一一对应。

4.根据权利要求3所述的方法，其特征在于，所述至少两种模态信息包括第一模态信息和第二模态信息，所述第一模态信息对应的模型的第i层的输入为该模型的第i-1层输出结果以及所述第二模态信息对应的模型的第i-1层输出结果。

5.根据权利要求3或4所述的方法，其特征在于，所述对应个数的至少两个模型为同构模型。

6.一种多媒体分类的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述提取模块，用于将所述任一模态信息的第i-1个阶段的模态特征与所述至少两种模态信息中除该任一模态信息之外的其他模态信息的第i-1个阶段的模态特征进行融合处理，以得到所述任一模态信息的第i个阶段的第一模态特征；

8.根据权利要求6或7所述的装置，其特征在于，所述提取模块，还用于将所述多媒体文件的至少两种模态信息分别输入到对应个数的至少两个模型中进行处理，以得到至少两种模态特征，其中，对于所述至少两个模型中的任一模型，该模型的第i层的输入为将该模型的第i-1层的输出结果与所述至少两个模型中除该模型之外的其他模型的第i-1层的输出结果进行融合处理得到的，所述至少两种模态信息与所述至少两个模型一一对应。

9.一种多媒体分类的设备，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-5任一项所述的多媒体分类的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-5任一项所述的多媒体分类的方法。