CN113033647A

CN113033647A - 多模态特征融合方法、装置、计算设备以及介质

Info

Publication number: CN113033647A
Application number: CN202110291490.5A
Authority: CN
Inventors: 石佳影; 许盛辉; 潘照明
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-25

Abstract

本公开实施例提供了一种多模态特征融合方法、装置、计算设备以及介质，涉及机器学习技术领域。该方法包括：提取多媒体资源的多个模态中各个模态的特征；将各个模态的特征在模态维度进行组合，生成多通道特征，其中，多通道特征的每个通道与一个模态对应；对多通道特征进行卷积处理，生成多通道特征对应的融合特征。根据本公开实施例的技术方案，能够实现不同模态特征之间的信息互补，有效融合不同模态的特征。

Description

多模态特征融合方法、装置、计算设备以及介质

技术领域

本公开的实施方式涉及机器学习技术领域，更具体地，本公开的实施方式涉及多模态特征融合方法、多模态特征融合装置、计算设备以及介质。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着互联网技术的发展，网络上涌现的多媒体资源也越来越多。对于多媒体资源，例如，由图像、音频等多种模态数据组成的视频，如何提取多媒体资源的特征成为了关注的重点。

在相关的技术方案中，提取多媒体资源的各个模态的特征，将各个模态的特征在某一个维度上直接进行数值拼接。举例而言，设多媒体资源的两个模态的特征包括：一维特征a和一维特征b，其中，a＝[1,2,3]，b＝[7,6,5,4]，将特征a和特征b在当前单一维度上进行特征拼接，得到一维特征c＝[1,2,3,7,6,5,4]。

发明内容

但是，上述技术方案中，由于是在单一维度上进行拼接操作，没有考虑各个模态的特征之间的相互关系，无法实现各个模态之间的信息互补。

为此，非常需要一种改进的多模态特征融合方法，以使能够实现不同模态特征之间的信息互补，对不同模态的特征进行有效融合。

在本上下文中，本公开的实施方式期望提供一种多模态特征融合方法、多模态特征融合装置、计算设备以及介质。

在本公开实施例的第一方面中，提供了一种多模态特征融合方法，包括：提取多媒体资源的多个模态中各个模态的特征；将各个模态的特征在模态维度进行组合，生成多通道特征，其中，所述多通道特征的每个通道与一个所述模态对应；对所述多通道特征进行卷积处理，生成所述多通道特征对应的融合特征。

根据本公开的第一方面，在一些示例实施例中，所述多通道特征为L×D×N维的特征向量，所述N为所述多个模态的模态数量，所述对所述多通道特征进行卷积处理，包括：通过C1个第一卷积核对所述多通道特征在维度D的方向上进行卷积处理，生成第一融合特征，所述第一卷积核的大小根据所述维度D的数值确定，所述第一融合特征的维度为L×D×C1。

根据本公开的第一方面，在一些示例实施例中，所述对所述多通道特征进行卷积处理，还包括：通过C2个第二卷积核对所述第一融合特征在维度D的方向上进行卷积处理，生成第二融合特征，所述第二融合特征的维度为L×D×C2，所述第二卷积核的大小小于所述第一卷积核的大小。

根据本公开的第一方面，在一些示例实施例中，所述方法还包括：在提取各个模态的特征之后，基于预定分组对各个模态的特征进行特征聚合；基于特征聚合的结果生成具有相同维度的各个模态的特征向量。

根据本公开的第一方面，在一些示例实施例中，所述基于预定分组对各个模态的特征进行特征聚合，包括：采用Nextvlad模型，基于预定分组对各个模态的不同维度的特征进行特征聚合。

根据本公开的第一方面，在一些示例实施例中，所述方法还包括：对所述融合特征在所述模态维度进行拉伸处理，生成对应的第三融合特征。

根据本公开的第一方面，在一些示例实施例中，所述多媒体资源包括视频的图像帧数据、音频数据以及文本数据，所述提取多媒体资源的多个模态的特征，包括：从所述图像帧数据中提取所述视频对应的图像特征；从所述音频数据中提取所述视频对应的音频特征；以及从所述文本数据中提取所述视频对应的文本特征。

根据本公开的第一方面，在一些示例实施例中，所述多个模态包括图像模态、音频模态、文本模态中的至少两种模态。

在本公开实施例的第二方面中，提供了一种多模态特征融合装置，包括：特征提取模块，用于提取多媒体资源的多个模态中各个模态的特征；模态组合模块，用于将各个模态的特征在模态维度进行组合，生成多通道特征，其中，所述多通道特征的每个通道与一个所述模态对应；卷积处理模块，用于对所述多通道特征进行卷积处理，生成所述多通道特征对应的融合特征。

根据本公开的第二方面，在一些示例实施例中，所述多通道特征为L×D×N维的特征向量，所述N为所述多个模态的模态数量，所述卷积处理模块还用于：通过C1个第一卷积核对所述多通道特征在维度D的方向上进行卷积处理，生成第一融合特征，所述第一卷积核的大小根据所述维度D的数值确定，所述第一融合特征的维度为L×D×C1。

根据本公开的第二方面，在一些示例实施例中，所述卷积处理模块还用于：通过C2个第二卷积核对所述第一融合特征在维度D的方向上进行卷积处理，生成第二融合特征，所述第二融合特征的维度为L×D×C2，所述第二卷积核的大小小于所述第一卷积核的大小。

根据本公开的第二方面，在一些示例实施例中，所述装置还包括：特征聚合模块，用于在提取各个模态的特征之后，基于预定分组对各个模态的特征进行特征聚合；特征生成模块，用于基于特征聚合的结果生成具有相同维度的各个模态的特征向量。

根据本公开的第二方面，在一些示例实施例中，所述特征聚合模块还用于：采用Nextvlad模型，基于预定分组对各个模态的不同维度的特征进行特征聚合。

根据本公开的第二方面，在一些示例实施例中，所述装置还包括：拉伸处理模块，用于对所述融合特征在所述模态维度进行拉伸处理，生成对应的第三融合特征。

根据本公开的第二方面，在一些示例实施例中，所述多媒体资源包括视频的图像帧数据、音频数据以及标题数据，所述特征提取模块还用于：从所述图像帧数据中提取所述视频对应的图像特征；从所述音频数据中提取所述视频对应的音频特征；以及从所述标题数据中提取所述视频对应的标题特征。

根据本公开的第二方面，在一些示例实施例中，所述多个模态包括图像、音频、文字中的至少两种模态。

在本公开实施例的第三方面中，提供了一种计算设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如上述第一方面中任一项所述的方法。

在本公开实施例的第四方面中，提供了一种介质，其上存储有程序，该程序被处理器执行时实现如上述第一方面中任一项所述的方法。

根据本公开实施例的技术方案，一方面，采用卷积处理的方式对不同模态特征组合成的多通道特征进行通道间的融合处理，能够实现不同模态特征之间的信息互补，使不同模态的特征实现有效融合；另一方面，由于融合结果不依赖于特征向量的本身的特征值大小，从而降低了单一特征值较大的影响；再一方面，由于挖掘了各个模态特征之间的内在联系，提高了融合特征的表达能力，从而能够利用融合特征实现更准确的多媒体内容检测。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示出了根据本公开实施例的多模态特征融合方法的应用场景的示意图；

图2示意性地示出了根据本公开的一些实施例的多模态特征融合方法的流程图；

图3示意性地示出了根据本公开的另一些实施例的多模态特征融合方法的流程图；

图4示意性地示出了根据本公开的一些实施例的多模态特征融合方法的流程示意图；

图5示意性地示出了根据本公开的一些实施例的计算机可读存储介质的示意图；

图6示意性地示出了根据本公开的一些实施例的多模态特征融合装置的结构示意图；

图7示意性示出了根据本公开的一些实施例的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施例来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种多模态特征融合方法、装置、计算设备和介质。

在本文中，需要理解的是，所涉及的术语：

模态：表示信息的来源或者形式。每一种信息的来源或者形式，都可以称为一种模态，例如，多媒体资源的信息有语音、图像、文字等多个模态。

特征：指数据或信息经过计算机模型处理后的高维度数值表示，也可称作特征向量。视频特征指视频数据经过计算机模型处理后的高维度数值表示，也可称作视频向量。由于特征是模型对视频的数值化输出，所以不同的模型对视频的偏好作用和输出特征也是不同的，例如，视觉模型用于提取视频的视觉信息，那么输出的就是视频的视觉特征；音频模型用于提取视频的声音信息，输出的则为音频特征；文本模型用于提取视频文字或标题信息内容，输出的是文本特征等。

多模态特征：多媒体资源的各个模态的特征表示共同组成了多媒体资源的数值表示，可以将多媒体资源的多个模态的特征称为多媒体资源的多模态特征。设多媒体资源为视频，则多模态特征包括音频模态特征、图像模态特征、文本模态特征，各个模态的特征表示共同组成了视频的数值表征，将视频的多个模态的特征表示称为视频多模态特征。

多模态特征融合：综合多媒体资源的各个模态的特征，实现各个模态特征之间的信息互补。

卷积处理：利用多个卷积核来聚合多媒体资源的各个模态的特征。设多媒体资源具有n个模态的特征，通过m个卷积核来聚合多媒体资源的n个模态的特征。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

本发明人发现，为了解决如何融合各个模态的特征的问题，在相关技术方案中，提取多媒体资源的各个模态的特征，将各个模态的特征采用按位融合的方式进行融合，例如采用按位加(element-wise sum)或按位平均(element-wise average)或按位乘(element-wise product)的方式进行融合。以按位加的方式为例，设多媒体资源的多个模态的特征包括：一维特征a和一维特征b，其中，a＝[1,2,3]，和b＝[3,6,5]，将特征a和特征b按位加得到特征c，特征c＝[4,8,8]。在上述技术方案中，一方面，由于对不同模态之间的特征值通过数学计算的方法进行融合，如果某个模态的特征对应的特征值较大，那么就会掩盖其他模态特征的作用；另一方面，不同模态之间采用数学计算的方式进行融合，也没有充分考虑各个模态的特征之间的相互关系，无法实现各个模态之间的信息互补。

基于上述内容，本公开实施例的基本思想在于：对多媒体资源的不同模态的特征在模态维度方向进行组合或叠加，对组合或叠加后的多通道特征进行卷积处理生成融合特征。根据本公开实施例的技术方案，一方面，采用卷积处理的方式对不同模态特征组合成的多通道特征进行通道间的融合处理，能够实现不同模态特征之间的信息互补，使不同模态的特征实现有效融合；另一方面，由于融合结果不依赖于特征向量的本身的特征值大小，从而降低了单一特征值较大的影响；再一方面，由于挖掘了各个模态特征之间的内在联系，提高了融合特征的表达能力，从而能够利用融合特征实现更准确的多媒体内容检测。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图1示意性地示出了根据本公开实施例的多模态特征融合方法的应用场景的框图。

参照图1所示，该应用场景可以包括：至少一个客户端110以及服务器120，其中，客户端110安装有多媒体应用程序。客户端110与服务器120之间通过网络130进行通信。以多媒体为视频为例，客户端110上用户上传的视频会通过网络130发送至服务器120，服务器120可以应用本公开实施例的多模态特征融合方法对接收到的视频数据进行特征提取和特征融合，得到视频的多个模态的融合特征，融合特征可以用于下一步处理例如视频分类处理或视频推荐处理等处理。

需要说明的是，客户端110可以为手机、平板电脑、台式计算机、便携笔记本式计算机或车载式终端等。服务器120可以为包含独立主机的物理服务器，或者为主机集群承载的虚拟服务器，或者为云服务器。网络130可以为有线网络或无线网络，例如，网络130可以为PSTN(Public Switched Telephone Network，公共交换电话网络)或因特网。

需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施例在此方面不受任何限制。相反，本公开的实施例可以应用于适用的任何场景。

示例性方法

下面结合上述的应用场景，参考图2来描述根据本公开示例性实施例的多模态特征融合方法。该多模态特征融合方法可以应用于图1的服务器120。

参照图2所示，在步骤S210中，提取多媒体资源的多个模态中各个模态的特征。

在示例实施例中，以多媒体资源是视频为例，获取视频数据，视频数据可以包括图像帧数据、音频数据以及文本数据，文本数据可以包括字幕数据、标题数据以及弹幕数据中的一种或多种。视频的模态包括：图像模态、音频模态、文本模态。

进一步地，从视频数据中提取视频的各个模态的特征。举例而言，可以采用预先训练的不同模态形式的特征提取模型从视频数据中提取视频的各个模态的特征，例如，采用图像特征提取模型如inceptionv3模型从图像帧数据中提取视频的图像特征；采用音频特征提取模型如vggish模型从音频数据中提取视频的音频特征；采用文本特征提取模型如word2vec模型从文本数据中提取视频的文本特征。

需要说明的是，虽然以多媒体资源是视频为例进行说明，但是多媒体资源也可以是其他适当的内容例如音频资源或动画资源等，这同样在本公开的保护范围内。

在步骤S220中，将各个模态的特征在模态维度进行组合，生成多通道特征，其中，多通道特征的每个通道与一个模态对应。

在示例实施例中，将获取到的各个模态的特征在模态维度进行组合或叠加，生成多通道特征。以多媒体资源是视频为例，设获取到的视频的图像特征、音频特征以及文本特征均为L×D维的特征向量，则将图像特征、音频特征以及文本特征组合成L×D×3维的多通道特征，每个通道特征为一个模态特征，其中，3代表模态维度或通道维度。由于视频有图像、音频以及文本三个模态，则模态或通道的数量为3，其中，多通道特征的每个通道与一个模态对应，即图像通道特征对应图像模态特征、音频通道特征对应音频模态特征、文本通道特征对应文本模态特征。

需要说明的是，虽然以模态维度或通道数是3为例进行说明，但是本公开的实施例不限于此，例如模态维度还可以为其他适当的数量例如2或4等，这同样在本公开的保护范围内。

在步骤S230中，对多通道特征进行卷积处理，生成多通道特征对应的融合特征。

卷积处理可以利用多个卷积核来聚合不同通道的特征，例如可以利用多个卷积核聚合图像、音频以及文本三个通道的特征，卷积核为根据机器学习模型训练得到的卷积核，以视频分类场景为例，采用视频分类模型，视频分类模型包括卷积网络，卷积网络包括多个卷积核，可以通过带标签的训练样本对视频分类模型进行训练，得到各个卷积核的参数。

在示例实施例中，采用预定数量的卷积核对多媒体资源对应的多通道特征进行卷积处理，生成对应的多媒体资源的融合特征，卷积核的大小可以根据各个模态的向量长度进行调整。

举例而言，设在视频分类场景下，视频的多通道特征包括图像通道特征、音频通道特征、文本通道特征，其中，图像通道特征、音频通道特征或文本通道特征均为一维特征，特征的长度为256，设多通道特征为1×256×3，卷积核的数量为128个，卷积核的大小为64，则得到的融合特征为1×256×128维特征。

根据图2的示例实施例中的技术方案，一方面，采用卷积处理的方式对不同模态特征组合成的多通道特征进行通道间的融合处理，能够实现不同模态特征之间的信息互补，使不同模态的特征实现有效融合；另一方面，由于融合结果不依赖于特征向量的本身的特征值大小，从而降低了单一特征值较大的影响；再一方面，由于挖掘了各个模态特征之间的内在联系，提高了融合特征的表达能力，从而能够利用融合特征实现更准确的多媒体内容检测。

此外，为了便于对各个模态的特征进行组合以及减少后续数据处理量，在对将各个模态的特征在模态维度进行组合之前，可以对各个模态的特征进行特征聚合处理。

在示例实施例中，在提取各个模态的特征之后，基于预定分组对各个模态的特征进行特征聚合；基于特征聚合的结果生成具有相同维度的各个模态的特征向量。举例而言，可以采用nextvlad模型对各个模态的特征进行特征聚合，即采用nextvald模型将各个模态的特征划分为预定数量个分组，对各个分组的特征进行特征聚合或聚类，基于聚合结果生成具有相同维度的模态特征，例如相同维度的图像模态特征、音频模态特征以及文本模态特征。

图3示意性地示出了根据本公开的另一些实施例的多模态特征融合方法的流程图。该多模态特征融合方法可以应用于图1的服务器120。

参照图3所示，在步骤S310中，对各个模态的特征进行特征聚合，生成相同维度的特征向量。

在示例实施例中，采用不同的特征提取模型提取对应的模态特征，对提取的各个模态的特征进行特征聚合。举例而言，采用图像特征提取模型如inceptionv3模型从图像帧数据中提取视频的图像特征；采用音频特征提取模型如vggish模型从音频数据中提取视频的音频特征；采用文本特征提取模型如word2vec模型从文本数据中提取视频的文本特征。

进一步地，可以采用nextvlad模型对各个模态的特征进行特征聚合，即采用nextvald模型将各个模态的特征划分为预定数量个分组，对各个分组的特征进行特征聚合或聚类，基于聚合结果生成具有相同维度的模态特征，例如相同维度的图像模态特征、音频模态特征以及文本模态特征。例如，可以将图像模态特征、音频模态特征以及文本模态特征处理为一维向量，且向量具有相同的长度D，此时，图像模态特征、音频模态特征以及文本模态特征的大小可以表示为1×D。

在步骤S320中，将各个模态的特征在模态维度进行组合，生成多通道特征，其中，多通道特征的每个通道与一个模态对应。

图像模态特征、音频模态特征以及文本模态特征分别代表了视频在不同维度的信息，各个模态的特征对理解视频内容都是比较重要的。多模态特征融合的关键就是要综合各个模态的内容信息，使各个模态特征之间的信息互相补充。卷积运算的一个主要特点就是可以利用多个卷积核去聚合不同通道之间的特征以及各个通道的局部特征，从而获得更为深入的深层特征，并在一定程度上考虑到特征的相邻数值和不同通道特征之间的关系。借用卷积运算的思想，考虑综合不同模态特征之间的相互关系，将模态引申到卷积运算的“通道”，也就是把各个模态的特征在模态维度或通道维度叠加，模态的个数可以是0至N个。

因此，在示例实施例中，对不同模态的特征在模态维度或通道维度方向叠加，假设有N个模态，每个模态的特征大小为1×D，叠加后的多通道特征可以表示为1×D×N。以视频为例，视频有图像、音频、文本三个模态，叠加后的多通道特征为1×D×3。图4a示出了视频的1×D×3维的多通道特征，参照图4a所示，多通道特征包括3个1×D维的特征即方块，其中，竖线填充的方块为图像通道特征；网格线填充的方块为音频通道特征；点填充的方块为文本通道特征。

在步骤S330中，通过C1个第一卷积核对L×D×N维的多通道特征在维度D的方向上进行卷积处理，生成第一融合特征，第一卷积核的大小根据维度D的数值确定。

在示例实施例中，用C1个大小为L×K的卷积核在L×D×N的向量在沿着D的方向做卷积操作，其中，步长设为1，填充padding方式为相同same，卷积处理后的第一融合特征为L×D×C1维的特征，即第一融合特征的通道数与第一卷积核的数量相同。

以视频为例，多通道特征为1×D×3维在叠加好的多通道特征上进行卷积计算，输入为1×D×3的特征图。设卷积核个数为C1个，卷积核大小为1×K，设定步长设为1，填充padding方式为same。一次卷积操作后输出的第一融合特征的特征向量为1×D×C1维特征。

需要说明的是，卷积核大小K可以根据单一模态的向量长度进行调整，卷积核的数量C1可以根据机器学习的任务进行设定，例如根据视频分类或多标签任务的分类数量或标签数量进行设定。该卷积操作的目的是在较大的感受野上融合各个模态的特征，也就是说，步骤S330中的卷积核的大小可以设置的比较大。在视频分类或多标签处理中，设图像模态特征、音频模态特征以及文本模态特征在聚合之后的特征长度均为256，第一层卷积核K取值为64，卷积核个数为128，则输出第一融合特征为1×256×128维特征。图4b示出了采用1×64大小的卷积核对多通道特征进行卷积处理的示意图。

在步骤S340中，通过C2个第二卷积核对第一融合特征在维度D的方向上进行卷积处理，生成第二融合特征，第二融合特征的维度为L×D×C2，第二卷积核的大小小于第一卷积核的大小。

在示例实施例中，用C2个尺寸比第一卷积核更小的卷积核对第一融合特征进行卷积操作，能够从细粒度的层面对多通道特征再次融合，处理后的特征向量为L×D×C2维特征。

通过对第一融合特征进行更为细粒度的局部关系提取，能够使多个模态的局部范围的特征实现有效的融合，达到各个模态的信息互补的作用。以视频为例，因为在同一时刻或间隔较短的时间内，视频、音频或字幕往往有着更为密切的联系，采用较小的卷积核，可以使同一时刻或间隔较短的时间内的视频、音频或字幕实现更有效的融合，达到各个模态的信息互补的作用。在视频分类或多标签处理中，第二卷积核的大小K可以取值为4，卷积核个数为64。因此，输出的第二融合特征为1×256×64维特征。图4c示出了采用1×4大小的卷积核对第一融合特征进行卷积处理的示意图。

由于卷积处理的卷积核的参数是可以通过机器学习模型来学习的，所以根据本公开实施例的技术方案，能够从模型学习的角度提取不同模态的具有代表性的特征内容，基于这些特征内容进行特征融合，实现更好的信息表达。

在步骤S350中，对第二融合特征在模态维度或通道维度进行拉伸处理，生成对应的第三融合特征。

在示例实施例中，将两次卷积操作后的第二融合特征在模态维度或通道维度上拉伸，生成对应的第三融合特征即L×(D×C2)维特征。

在本示例实施例中，考虑到特征融合不改变原始向量形式，可以把融合后的特征更改为与输入的各个模态特征具有相同维度的特征，即在通道维度方向对第三融合特征进行特征拉伸。以视频分类或多标签任务为例，视频的第二融合特征即1×256×64维特征被拉伸为1×16384维特征，与原始的图像、音频或文本特征保持相同维度。图4d示出了对第二融合特征进行拉伸处理后的特征。

根据图3的示例实施例中的技术方案，一方面，采用卷积处理的方式对不同模态的特征进行融合，有效地提取了各个模态特征中的关键成分，并将其进行融合，实现了各个模态的信息互相补充的作用。由于卷积运算是一种非线性的计算方式，能够极大程度地拟合视频的多模态特征。并且由于视频的不同模态之间，以及相邻时间的各个模态特征具有相关性和局部性，比如一段视频内容，在短时间内的视频图像内容和音频内容会有一定的对应关系，因此，卷积处理能实现局部范围的特征的有效融合，达到信息互补的作用。

另一方面，将不同的模态特征处理为同一长度，不限制特征的具体数值大小的同时，融合结果不依赖于向量本身的数值。由于卷积结果是多个卷积核的共同作用，不同卷积核对多模态叠加特征即多通道特征的提取效果不同，融合的结果是多方面特征的综合结果，大大减弱了单一特征数值的影响。

再一方面，由于能够根据处理任务例如视频多标签任务或视频推荐任务的具体问题来具体设定和学习卷积参数，能够很灵活地控制模型的参数量，避免模型过于复杂。

示例性介质

在介绍了本公开示例性实施例的方法之后，接下来，对本公开示例性实施例的介质进行说明。

在一些可能的实施例中，本公开的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的多模态特征融合方法中的步骤。

在一些可能的实施例中，所述设备的处理器执行所述程序代码时用于实现如下步骤：步骤S210，提取多媒体资源的多个模态中各个模态的特征；步骤S220，将各个模态的特征在模态维度进行组合，生成多通道特征，其中，多通道特征的每个通道与一个模态对应；步骤S230，对多通道特征进行卷积处理，生成多通道特征对应的融合特征。

参考图5所示，描述了根据本公开的实施例的用于实现上述多模态特征融合方法的程序产品500，其可以采用便携式紧凑盘只读存储器并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器、只读存储器、可擦式可编程只读存储器、光纤、便携式紧凑盘只读存储器、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、射频信号等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网或广域网—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性装置

在介绍了本公开示例性实施例的介质之后，接下来，参考图6对本公开示例性实施例的多模态特征融合装置进行说明。

图6示意性地示出了根据本公开的一些实施例的多模态特征融合装置的结构图。

参照图6所示，多模态特征融合装置600包括：特征提取模块610，用于提取多媒体资源的多个模态中各个模态的特征；模态组合模块620，用于将各个模态的特征在模态维度进行组合，生成多通道特征，其中，所述多通道特征的每个通道与一个所述模态对应；卷积处理模块630，用于对所述多通道特征进行卷积处理，生成所述多通道特征对应的融合特征。

根据图6的示例实施例的技术方案，一方面，采用卷积处理的方式对不同模态特征组合成的多通道特征进行通道间的融合处理，能够实现不同模态特征之间的信息互补，使不同模态的特征实现有效融合；另一方面，由于融合结果不依赖于特征向量的本身的特征值大小，从而降低了单一特征值较大的影响；再一方面，由于挖掘了各个模态特征之间的内在联系，提高了融合特征的表达能力，从而能够利用融合特征实现更准确的多媒体内容检测。

在一些示例实施例中，所述多通道特征为L×D×N维的特征向量，所述N为所述多个模态的模态数量，所述卷积处理模块630还用于：通过C1个第一卷积核对所述多通道特征在维度D的方向上进行卷积处理，生成第一融合特征，所述第一卷积核的大小根据所述维度D的数值确定，所述第一融合特征的维度为L×D×C1。

在一些示例实施例中，所述卷积处理模块630还用于：通过C2个第二卷积核对所述第一融合特征在维度D的方向上进行卷积处理，生成第二融合特征，所述第二融合特征的维度为L×D×C2，所述第二卷积核的大小小于所述第一卷积核的大小。

在一些示例实施例中，所述装置600还包括：特征聚合模块，用于在提取各个模态的特征之后，基于预定分组对各个模态的特征进行特征聚合；特征生成模块，用于基于特征聚合的结果生成具有相同维度的各个模态的特征向量。

在一些示例实施例中，所述特征聚合模块还用于：采用Nextvlad模型，基于预定分组对各个模态的不同维度的特征进行特征聚合。

在一些示例实施例中，所述装置600还包括：拉伸处理模块，用于对所述融合特征在所述模态维度进行拉伸处理，生成对应的第三融合特征。

在一些示例实施例中，所述多媒体资源包括视频的图像帧数据、音频数据以及标题数据，所述特征提取模块610还用于：从所述图像帧数据中提取所述视频对应的图像特征；从所述音频数据中提取所述视频对应的音频特征；以及从所述标题数据中提取所述视频对应的标题特征。

在一些示例实施例中，所述多个模态包括图像、音频、文字中的至少两种模态。

由于图6的示例实施例的多模态特征融合装置的各个功能模块与上述多模态特征融合方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的多模态特征融合方法的实施例。

示例性计算设备

在介绍了本公开示例性实施例的方法、介质和装置之后，接下来，介绍根据本公开的另一示例性实施例的计算设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施例中，根据本公开实施例的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的多模态特征融合方法中的步骤。例如，所述处理器可以执行如图2中所示的步骤：步骤S210，提取多媒体资源的多个模态中各个模态的特征；步骤S220，将各个模态的特征在模态维度进行组合，生成多通道特征，其中，多通道特征的每个通道与一个模态对应；步骤S230，对多通道特征进行卷积处理，生成多通道特征对应的融合特征。又如，所述处理器也可以执行如图3中所示的步骤。

下面参照图7来描述根据本公开的示例实施例的电子设备700。图7所示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

总线730包括数据总线、地址总线和控制总线。

存储单元720可以包括易失性存储器形式的可读介质，例如RAM(Random AccessMemory，随机存取存储器)721和/或高速缓存存储器722，还可以进一步包括ROM(Read-OnlyMemory，只读存储器)723。

存储单元720还可以包括具有一组(至少一个)程序模块724的程序/实用工具725，这样的程序模块724包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备700也可以与一个或多个外部设备740(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网，广域网和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID(Redundant Arrays of IndependentDisks，独立冗余磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了多模态特征融合装置的若干单元或子单元，但是这种划分仅仅是示例性的，并非是强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之，上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种多模态特征融合方法，其特征在于，包括：

提取多媒体资源的多个模态中各个模态的特征；

将各个模态的特征在模态维度进行组合，生成多通道特征，其中，所述多通道特征的每个通道与一个所述模态对应；

对所述多通道特征进行卷积处理，生成所述多通道特征对应的融合特征。

2.根据权利要求1所述的方法，其特征在于，所述多通道特征为L×D×N维的特征向量，所述N为所述多个模态的模态数量，所述对所述多通道特征进行卷积处理，包括：

通过C1个第一卷积核对所述多通道特征在维度D的方向上进行卷积处理，生成第一融合特征，所述第一卷积核的大小根据所述维度D的数值确定，所述第一融合特征的维度为L×D×C1。

3.根据权利要求2所述的方法，其特征在于，所述对所述多通道特征进行卷积处理，还包括：

通过C2个第二卷积核对所述第一融合特征在维度D的方向上进行卷积处理，生成第二融合特征，所述第二融合特征的维度为L×D×C2，所述第二卷积核的大小小于所述第一卷积核的大小。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在提取各个模态的特征之后，基于预定分组对各个模态的特征进行特征聚合；

基于特征聚合的结果生成具有相同维度的各个模态的特征向量。

5.根据权利要求4所述的方法，其特征在于，所述基于预定分组对各个模态的特征进行特征聚合，包括：

采用Nextvlad模型，基于预定分组对各个模态的不同维度的特征进行特征聚合。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

对所述融合特征在所述模态维度进行拉伸处理，生成对应的第三融合特征。

7.根据权利要求1所述的方法，其特征在于，所述多媒体资源包括视频的图像帧数据、音频数据以及文本数据，所述提取多媒体资源的多个模态的特征，包括：

从所述图像帧数据中提取所述视频对应的图像特征；

从所述音频数据中提取所述视频对应的音频特征；以及

从所述文本数据中提取所述视频对应的文本特征。

8.一种多模态特征融合装置，其特征在于，包括：

特征提取模块，用于提取多媒体资源的多个模态中各个模态的特征；

模态组合模块，用于将各个模态的特征在模态维度进行组合，生成多通道特征，其中，所述多通道特征的每个通道与一个所述模态对应；

卷积处理模块，用于对所述多通道特征进行卷积处理，生成所述多通道特征对应的融合特征。

9.一种计算设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如权利要求1至7中任一项所述的方法。

10.一种介质，其上存储有程序，所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。