CN116127403B

CN116127403B - 基于跨模态特征再校准的信息融合方法、设备和存储介质

Info

Publication number: CN116127403B
Application number: CN202211318472.2A
Authority: CN
Inventors: 何良雨; 崔健; 刘彤
Original assignee: Fengrui Lingchuang Zhuhai Technology Co ltd
Current assignee: Fengrui Lingchuang Zhuhai Technology Co ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2024-02-06
Anticipated expiration: 2042-10-26
Also published as: CN116127403A

Abstract

本申请涉及人工智能技术领域，提供了一种基于跨模态特征再校准的信息融合方法、装置、设备和介质，用于有效地提取更准确的特征表达。方法部分包括：获取目标对象的多模态特征G_x和多模态特征F_x；对所述多模态特征G_x和多模态特征F_x进行融合，得到多模态融合特征I_x；基于所述多模态特征G_x，对所述多模态融合特征I_x进行空间维度的跨模态再校准，得到空间关联度特征矩阵基于所述多模态特征F_x，对所述多模态融合特征I_x进行通道维度的跨模态再校准，得到通道关联度特征矩阵对空间关联度特征矩阵通道关联度特征矩阵和所述多模态融合特征I_x进行多模态再校准特征融合，得到多模态再校准融合特征O_x。

Description

基于跨模态特征再校准的信息融合方法、设备和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于跨模态特征再校准的信息融合方法、计算机设备和计算机存储介质。

背景技术

目前，基于深度学习的计算机视觉任务已经得到非常广泛的应用。而计算机视觉任务的核心是特征提取，现有特征提取方法大都仅提取单一特征进行处理，但面对一些特殊视觉任务，通常还会面对种类繁多，纹理相较背景并不突出的目标，特征难以捕捉，示例性的，这些特殊视觉任务包括半导体等微、纳米级别图像分析任务，这些任务需要获得非常高细粒度的特征信息，单一特征信息很难将其有效分析。因此，多模态信息融合方法为解决单一特征信息难以有效分析的问题，通过不同模态信息之间的数据关联，实现相互间的信息转换与信息互补，有助于网络提取更准确的特征表达，从而减少单模态视觉任务的不确定性。

然而，发明人研究发现，现有的多模态信息融合方法大多将来自不同的模态的特征向量通过简单地操作来实现整合，比如拼接和加权求和。这样的简单操作使得参数之间几乎没有联系，多模态特征并未得到有效利用，导致还是无法有效地提取更准确的特征表达。

发明内容

本申请涉及涉及人工智能技术领域，提供一种基于跨模态特征再校准的信息融合方法、装置、设备和介质，用于有效地提取更准确的特征表达。

第一方面，提供了一种基于跨模态特征再校准的信息融合方法，包括：

获取目标对象的多模态特征G_x和多模态特征F_x；

对所述多模态特征G_x和多模态特征F_x进行融合，得到多模态融合特征I_x；

基于所述多模态特征G_x，对所述多模态融合特征I_x进行空间维度的跨模态再校准，得到所述多模态特征G_x与所述多模态融合特征I_x之间的空间关联度特征矩阵

基于所述多模态特征F_x，对所述多模态融合特征I_x进行通道维度的跨模态再校准，得到所述多模态特征F_x与所述多模态融合特征I_x之间的通道关联度特征矩阵

对空间关联度特征矩阵通道关联度特征矩阵/>和所述多模态融合特征I_x进行多模态再校准特征融合，得到多模态再校准融合特征O_x。

进一步地，所述对所述多模态特征G_x和多模态特征F_x进行融合，得到多模态融合特征I_x，包括：

将所述多模态特征G_x和多模态特征F_x分别转换为相同尺度参数的特征图C×H×W，再将相同尺度参数的所述多模态特征G_x和多模态特征F_x进行拼接操作，得到多模态融合特征I_x。

进一步地，所述基于所述多模态特征G_x，对所述多模态融合特征I_x进行空间维度的跨模态再校准，得到所述多模态特征G_x与所述多模态融合特征I_x之间的空间关联度特征矩阵包括：

压缩尺度为C×H×W的所述多模态特征G_x的通道维度，得到尺度为的第一多模态压缩特征，n表示压缩参数；

对所述第一多模态压缩特征进行转换处理，得到尺度为的转换特征矩阵

将所述转换特征矩阵经Swish激活函数激活处理后，得到激活特征矩阵E_x；

压缩所述多模态融合特征I_x的通道维度，得到尺度为的第一多模态压缩融合特征；

对所述第一多模态压缩融合特征在H×W维度进行全局池化操作，得到尺度为的池化特征向量；

对所述池化特征向量进行转换，得到尺度为的转换特征向量/>

将所述激活特征矩阵E_x与所述转换特征向量相乘，得到尺度为l×HW的相乘结果L_x

对相乘结果L_x进行转换，得到尺度为l×H×W的空间关联度特征矩阵

进一步地，所述基于所述多模态特征F_x，对所述多模态融合特征I_x进行通道维度的跨模态再校准，得到所述多模态特征F_x与所述多模态融合特征I_x之间的通道关联度特征矩阵包括：

压缩尺度为C×H×W的所述多模态特征F_x的通道维度，得到尺度为的第二多模态压缩特征，n表示压缩参数；

对所述第二多模态压缩特征进行转换，得到尺度为的转换特征矩阵/>

将所述转换特征矩阵经Swish激活函数激活处理后，得到激活特征矩阵H_x；

压缩所述多模态融合特征I_x的通道维度，得到尺度为l×H×W的第二多模态压缩融合特征；

对所述第二多模态压缩融合特征进行转换，得到尺度为HW×l的转换特征向量

将所述激活特征矩阵H_x与所述转换特征向量相乘，得到尺度为/>的相乘结果P_x；

对相乘结果P_x进行通道数提升，得到尺度为C×l×l的通道关联度特征矩阵

进一步地，所述n为2，所述l为1。

进一步地，所述对空间关联度特征矩阵通道关联度特征矩阵/>和所述多模态融合特征I_x进行多模态再校准特征融合，得到多模态再校准融合特征O_x，包括：

对所述空间关联度特征矩阵进行sigmoid激活，转换为权重值/>

对所述通道关联度特征矩阵进行sigmoid激活，转换为权重值/>

按照所述空间关联度特征矩阵和所述通道关联度特征矩阵/>的尺度参数，压缩所述多模态融合特征I_x的通道维度，得到特征图/>

按照如下方式实现多模态再校准特征融合：

第二方面，提供了一种基于跨模态特征再校准的信息融合方法，所述方法包括：

获取第一多模态数据和第二多模态数据；

将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播，以提取不同下采样倍数对应的多组多模态特征，每组多模态特征包括不同下采样倍数下对应的多模态特征G_x和多模态特征F_x；

对每组多模态特征进行再校准融合，得到每组多模态特征对应的多模态再校准融合特征，其中，第一组再校准融合所采用的多模态融合特征为基于第一组多模态特征的两个多模态特征融合得到，其他组再校准融合所采用的多模态融合特征为所述其他组再校准融合两个多模态特征融合得到的多模态融合特征，与所述其他组再校准融合的上一组再校准融合输出的多模态再校准融合特征进行融合得到；

将所述多组多模态特征中最后一组再校准融合得到的多模态再校准融合特征，作为最终的跨模态融合特征。

进一步地，所述将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播，以提取不同下采样倍数对应的多组多模态特征，包括：

将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播，以在前向传播过程提取经过4次2倍下采样，得到对应的多组多模态特征。

第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述前述任一项所述的信息融合方法的步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如前述任一项所述的信息融合方法的步骤。

上述提供的其中一些方案中，通过多模态特征G_x与多模态特征F_x两者融合的后的多模态融合特征I_x，再构建空间和通道维度这两条处理分支，获取更深层次的特征关联与表达，通过建立不同模态信息之间的数据关联，实现相互间的信息转换与信息互补，有助于网络提取更准确的特征表达，从而减少单模态视觉任务的不确定性，使得多模态特征得到有效利用，有效地提取更准确的特征表达，有利于提高计算机视觉任务的准确性，有效性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中基于跨模态特征再校准的信息融合方法的一流程示意图；

图2是本申请一实施例中基于跨模态特征再校准的信息融合方法的一流程示意图；

图3是本申请一实施例中基于跨模态特征再校准的信息融合方法的另一流程示意图；

图4是本申请一实施例中计算机设备的一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中，为了解决传统方案中，多模态特征融合方案中大多将来自不同的模态的特征向量通过简单地操作来实现整合，比如拼接和加权求和，导致参数之间几乎没有联系，多模态特征并未得到有效利用的技术问题，可以理解的是，基于深度学习的计算机视觉任务已经得到非常广泛的应用。而计算机视觉任务的核心是特征提取，现有特征提取方法大都仅提取单一特征进行处理或者简单的多模态融合拼接。面对种类繁多，纹理相较背景并不突出的目标，特征难以捕捉的情况，上述传统方式已不适用。本申请实施例提出了一种基于跨模态特征再校准的特征融合方案，包括方法、装置、计算机设备和存储介质等内容，可有效地提取到更为准确的特征表达。

需要说明的是，本申请实施例提出的基于跨模态特征再校准的特征融合方案，可适用于各种各样的计算机视觉任务中，包括但不局限于目标检测、语义分割等各类视觉任务，具体可应用于包括但不局限于半导体等微、纳米级别等图像分析任务，具体本申请实施例不做限定。比如，如若应用于目标检测任务中，则可基于本申请实施例提供的基于跨模态特征再校准的信息融合方法最终得到的融合特征进行目标检测处理，得到目标检测结果；如若应用于语义分割检测任务中，则可基于本申请实施例提供的基于跨模态特征再校准的信息融合方法最终得到的融合特征进行语义分割处理，得到语义分割结果。

下面对上述各个方面进行详细、完整的描述。

A、一种基于跨模态特征再校准的信息融合方法

在一实施例中，如图1所示，提供了一种基于跨模态特征再校准的信息融合方法，该方法包括如下步骤：

S10：获取目标对象的多模态特征G_x和多模态特征F_x。

S20：对多模态特征G_x和多模态特征F_x进行融合，得到多模态融合特征I_x。

目标对象指的是被识别对象，比如可以是被识别半导体对象等需要进行目标检测、语义分割等计算机视觉任务的待识别对象。该实施例中，会先获取目标对象的多模态特征G_x和多模态特征F_x，其中，多模态特征G_x和多模态特征F_x特分别是指的是目标对象的两种不同的模态特征。

在得到多模态特征G_x和多模态特征F_x之后，先对多模态特征G_x和多模态特征F_x进行融合，得到多模态融合特征I_x。

S30：基于多模态特征G_x，对多模态融合特征I_x进行空间维度的跨模态再校准，得到多模态特征G_x与多模态融合特征I_x之间的空间关联度特征矩阵

S40：基于多模态特征F_x，对多模态融合特征I_x进行通道维度的跨模态再校准，得到多模态特征F_x与多模态融合特征I_x之间的通道关联度特征矩阵

S50：对空间关联度特征矩阵通道关联度特征矩阵/>和多模态融合特征I_x进行多模态再校准特征融合，得到多模态再校准融合特征O_x。

在得到多模态融合特征I_x后，再利用多模态特征G_x与多模态融合特征I_x组成空间跨模态再校准分支，对多模态融合特征I_x进行空间维度的跨模态再校准，得到多模态特征G_x与多模态融合特征I_x之间的空间关联度特征矩阵空间关联度特征矩阵/>表征了多模态特征G_x与多模态融合特征I_x之间空间维度的关联度；然后利用多模态特征F_x与多模态融合特征I_x组成通道跨模态再校准分支，对多模态融合特征I_x进行通道维度的跨模态再校准，得到多模态特征G_x与多模态融合特征I_x之间的通道关联度特征矩阵/>通道关联度特征矩阵/>表征了多模态特征G_x与多模态融合特征I_x之间通道维度的关联度，最后将空间和通道两个分支再校准后的特征进行融合，实现多模态特征的高效融合。

与传统的方案相比，本申请实施例通过多模态特征G_x与多模态特征F_x两者融合的后的多模态融合特征I_x，再构建空间和通道维度这两条处理分支，获取更深层次的特征关联与表达，再通过建立不同模态信息之间的数据关联，实现相互间的信息转换与信息互补，有助于网络提取更准确的特征表达，从而减少单模态视觉任务的不确定性，使得多模态特征得到有效利用，有效地提取更准确的特征表达，有利于提高计算机视觉任务的准确性，有效性。

作为一个示例，在一实施例中，步骤S10中，也即对多模态特征G_x和多模态特征F_x进行融合，得到多模态融合特征I_x，包括：将多模态特征G_x和多模态特征F_x分别转换为相同尺度参数的特征图C×H×W，再将相同尺度参数的多模态特征G_x和多模态特征F_x进行拼接操作，得到多模态融合特征I_x。其中，C表示通道数、H表示高度、W表示宽度。

该实施例中，为了便于运算和计算，提出了一种具体将多模态特征G_x和多模态特征F_x进行融合得到多模态融合特征I_x的方案，提高了方案的可实施性，具体而言，会将多模态特征G_x和多模态特征F_x分别转换为相同尺度参数的特征图C×H×W，或者再提取多模态特征时就按照相同的尺度参数进行提取，从而得到相同尺度参数的特征图C×H×W，也即多模态特征G_x和多模态特征F_x的尺度大小均为C×H×W，拼接后的多模态融合特征I_x的尺度大小变更为2C×H×W。需要说明的是，在其他示例中，也可以是其他融合操作，本申请实施例不做限定，比如其他维度的拼接等，可依据方案自适应变更。

需要说明的是，在上述实施例中，提出了在空间维度和通道维度的跨模态再校准的实施步骤，本申请实施例，提供了这两个分支具体的处理方式，下面分别描述。

在一实施例中，步骤S30中，也即基于多模态特征G_x，对多模态融合特征I_x进行空间维度的跨模态再校准，得到多模态特征G_x与多模态融合特征I_x之间的空间关联度特征矩阵包括如下步骤：

S31：压缩尺度为C×H×W的多模态特征G_x的通道维度，得到尺度为的第一多模态压缩特征，n表示压缩参数。

S32：对第一多模态压缩特征进行转换处理，得到尺度为的转换特征矩阵

S33：将转换特征矩阵经Swish激活函数激活处理后，得到激活特征矩阵E_x。

S34：压缩多模态融合特征I_x的通道维度，得到尺度为的第一多模态压缩融合特征。

S35：对第一多模态压缩融合特征在H×W维度进行全局池化操作，得到尺度为的池化特征向量。

S36：对池化特征向量进行转换，得到尺度为的转换特征向量/>

S37：将激活特征矩阵E_x与转换特征向量相乘，得到尺度为l×HW的相乘结果L_x。

S38：对相乘结果L_x进行转换，得到尺度为l×H×W的空间关联度特征矩阵

该实施例以及后续实施例中，为了便于说明，均以多模态特征G_x和多模态特征F_x尺度大小为C×H×W为例进行说明，其中：

步骤S31-S33为空间跨模态再校准分支中对多模态特征G_x的再处理过程，可先用卷积网络压缩尺度为C×H×W的多模态特征G_x的通道维度，得到尺度为的第一多模态压缩特征，n表示压缩参数，在得到尺度大小为/>的第一多模态压缩特征后，对该第一多模态压缩特征进行转换处理，得到尺度为/>的转换特征矩阵/>得到转换特征矩阵/>后，将转换特征矩阵/>经Swish激活函数激活处理后，得到激活特征矩阵E_x。

如图2所示，图2为空间与通道维度两个分支的处理过程，图2中示例性的，以n＝2为例进行说明，可利用1×1的卷积，改变输入的多模态特征G_x的通道数维度，将输入的多模态特征G_x的特征通道维度压缩一部分，变为可以理解的是，在该实施例中，利用卷积压缩多模态特征G_x减少通道数，即可以实现特征的融合，可提高特征图中的语义信息，也可以显著降低计算量，提升计算效率。上述压缩参数还可以是其他数值，具体不做限定，比如4等，具体不做限定，可依据实际方案需求而定。得到尺度大小为/>的第一多模态压缩特征后，可通过投影函数/>转换得到尺度为/>的转换特征矩阵/>再Swish激活函数激活处理后，得到激活特征矩阵E_x，作为一个示例，具体而言，激活函数计算过程如下所示：/>

需要说明的是，利用Swish激活函数进行计算，由于Swish激活函数的导数恒大于0，在输入为0的附近值时，具有输出具有一定的平滑度，有利于训练过程中的优化和泛化。

步骤S34-S36中，为该空间跨模态再校准分支中对多模态融合特征I_x的处理过程，先压缩多模态融合特征I_x的通道维度，得到尺度为的第一多模态压缩融合特征，再对第一多模态压缩融合特征在H×W维度进行全局池化操作，得到尺度为/>的池化特征向量，对池化特征向量进行转换，得到尺度为/>的转换特征向量/>示例性的，全局池化操作可以指的是全局平均池化操作，或者其他最大值池化操作，具体不做限定。

如图2所示，以l＝1为例，将多模态融合特征I_x利用1×1的卷积进行特征通道维度压缩，得到的特征图，将得到的特征/>图在H×W维度进行全局平局池化操作，得到尺度为/>的池化特征向量，以获得各个特征层的全局特征信息，再经过投影函数/>转换为大小为/>的转换特征向量/>

步骤S37-S38中，为对多模态特征G_x和多模态融合特征I_x进行跨模态建模的过程，在得到激活特征矩阵E_x和转换特征向量后，将激活特征矩阵E_x与转换特征向量/>相乘，得到尺度为l×HW的相乘结果L_x，也即/>再对该相乘结果L_x进行转换，得到尺度为l×H×W的空间关联度特征矩阵/>

其中，L_x为转换特征向量与激活特征矩阵E_x的关联度矩阵，大小为l×HW，即多模态特征G_x与多模态融合特征I_x之间的关联度矩阵。通过该关联度矩阵L_x，可以对多模态特征G_x与多模态融合特征I_x之间的空间维度的关联程度进行建模，得到不同模态特征间各个像素点之间的关联程度，不同类别目标间的关联程度较小，同一类别间的关联程度较大，得到之间的信息关系。

如图2所示，将多模态融合特征I_x利用1×1的卷积进行特征通道维度压缩，得到的特征图，将得到的特征/>图在H×W维度进行全局平局池化操作，得到的池化特征向量，以获得各个特征层的全局特征信息，经过投影函数转换为尺度大小为/>的转换特征向量/>最后将转换特征向量与激活特征矩阵E_x相乘，得到两者之间的关联度特征矩阵，尺度大小为1×HW。

该实施例，提供了一种具体的空间维度的跨模态再校准的过程实施方式，提高了方案的可实施性。需要说明的是，在其他实施例中，除了采用上述步骤S31-S38所示的方式得到空间关联度特征矩阵还可以有其他变形实施例，比如，可以不压缩多模态特征G_x的通道维度，而直接进行后续处理，也是可行的方案，具体不做限定。

在一实施例中，步骤S40中，也即基于多模态特征F_x，对多模态融合特征I_x进行通道维度的跨模态再校准，得到多模态特征F_x与多模态融合特征I_x之间的通道关联度特征矩阵包括如下步骤：

S41：压缩尺度为C×H×W的多模态特征F_x的通道维度，得到尺度为的第二多模态压缩特征，n表示压缩参数。

S42：对第二多模态压缩特征进行转换，得到尺度为的转换特征矩阵/>

S43：将转换特征矩阵经Swish激活函数激活处理后，得到激活特征矩阵H_x。

S44：压缩多模态融合特征I_x的通道维度，得到尺度为l×H×W的第二多模态压缩融合特征。

S45：对第二多模态压缩融合特征进行转换，得到尺度为HW×l的转换特征向量

S46：将激活特征矩阵H_x与转换特征向量相乘，得到尺度为/>的相乘结果P_x。

S47：对相乘结果P_x进行通道数提升，得到尺度为C×l×l的通道关联度特征矩阵

步骤S41-S43为通道维度跨模态再校准分支中，对多模态特征F_x的处理过程，可先用卷积网络压缩尺度为C×H×W的多模态特征F_x的通道维度，得到尺度为的第二多模态压缩特征，n表示压缩参数，压缩参数与压缩多模态特征G_x时的压缩参数相同，在得到尺度大小为/>的第二多模态压缩特征后，再对该第二多模态压缩特征进行转换处理，得到尺度为/>的转换特征矩阵/>得到转换特征矩阵/>后，将转换特征矩阵经Swish激活函数激活处理后，得到激活特征矩阵H_x。

如图2所示，图2为空间与通道维度两个分支的处理过程以及融合过程，图2中示例性的，以n＝2为例进行说明，可利用1×1的卷积，改变输入的多模态特征F_x的通道数维度，将输入的F_x的特征通道维度压缩一部分，变为可以理解的是，在该实施例中，利用卷积压缩多模态特征F_x减少通道数，即可以实现特征的融合，提高特征图中的语义信息，也可以显著降低计算量，提升计算效率。上述压缩参数还可以是数值，具体不做限定，比如4等，具体不做限定，可依据实际方案需求而定。得到大小为/>的第二多模态压缩特征，可通过投影函数/>转换得到尺度为/>的转换特征矩阵/>再通过如下Swish激活函数激活处理后，得到激活特征矩阵H_x：

需要说明的是，利用Swish激活函数进行计算，由于Swish激活函数的导数恒大于0，在输入为0的附近值时，具有输出具有一定的平滑度，同样有利于训练过程中的优化和泛化。

步骤S44-S47中，为该通道跨模态再校准分支中对多模态融合特征I_x的处理过程，与空间跨模态再校准分支存在较大差异，在该过程中，先压缩多模态融合特征I_x的通道维度，得到尺度为l×H×W的第二多模态压缩融合特征，再对该第二多模态压缩融合特征进行转换，得到尺度为HW×l的转换特征向量将激活特征矩阵H_x与转换特征向量/>相乘，得到尺度为/>的相乘结果P_x，计算公式为：/>对相乘结果P_x进行通道数提升，得到尺度为C×l×l的通道关联度特征矩阵/>

如图2所示，以l＝1为例，将多模态融合特征I_x利用1×1的卷积进行特征通道维度压缩，得到1×H×W的特征图作为第二多模态压缩融合特征，将得到的特征1×H×W，经过投影函数B'(·)＝I^1×H×W→I^HW×1，转换为大小为HW×1的转换特征向量将激活特征矩阵H_x与转换特征向量/>相乘，得到特征向量/>与特征矩阵H_x的P_x，再将P_x经过1×1卷积进行通道数提升，转换为大小为C×1×1的通道关联度特征矩阵/>

该实施例，提供了一种具体的通道维度的跨模态再校准的过程实施方式，提高了方案的可实施性。需要说明的是，在其他实施例中，除了采用上述步骤S41-S47所示的方式得到通道关联度特征矩阵还可以有其他变形实施例，比如，可以不压缩多模态特征F_x的通道维度，而直接进行后续处理，也是可行的方案，具体不做限定。

作为一个示例，在一实施例中，步骤S50中，也即对空间关联度特征矩阵通道关联度特征矩阵/>和多模态融合特征I_x进行多模态再校准特征融合，得到多模态再校准融合特征O_x，包括如下步骤：

S51：对空间关联度特征矩阵进行sigmoid激活，转换为权重值/>

S52：对通道关联度特征矩阵进行sigmoid激活，转换为权重值/>

S53：按照空间关联度特征矩阵和通道关联度特征矩阵/>的尺度参数，压缩多模态融合特征I_x的通道维度，得到特征图/>

S54：按照如下方式实现多模态再校准特征融合：

该实施例中，在得到空间关联度特征矩阵和通道关联度特征矩阵/>之后，基于空间关联度特征矩阵/>和通道关联度特征矩阵/>对多模态融合特征I_x实现空间与通道维度的跨模态特征融合，先是对空间关联度特征矩阵/>进行sigmoid激活，转换为权重值具体而言，得到的空间关联度特征矩阵/>进行sigmoid激活转换为权重值/>计算公式为：

该实施例中，利用sigmoid函数，可以将多模态特征G_x与多模态融合特征I_x之间的关联度矩阵转换为权重值，并对权重值进行激活，使得关联程度较大的像素点间的关联程度变得更大，关联程度较小的像素点间关联程度变得更小，进而可以利用各个像素点之间的关联程度不同，进一步增加不同类别间的特征差异，减少同一类别间的特征差异性。

同理，将得到的相似度矩阵进行sigmoid激活转换为权重值/>计算公式为：

最后，将多模态融合特征I_x利用1×1的卷积进行特征通道维度压缩，得到尺度大小为C×H×W的特征图最后按照如下方式实现多模态再校准特征融合：实现多模态再校准特征融合。

该实施例中，提出了最终两条分支的跨模态融合处理具体过程，通过利用转换为权重值的方式再进行融合，可对权重值进行激活，使得关联程度较大的像素点间的关联程度变得更大，关联程度较小的像素点间关联程度变得更小，进而可以利用各个像素点之间的关联程度不同，进一步增加不同类别间的特征差异，减少同一类别间的特征差异性。

需要说明的是，再其他实施例中，也可以无需转换为权重值，按照空间关联度特征矩阵和通道关联度特征矩阵/>的尺度参数，压缩多模态融合特征I_x的通道维度，得到特征图/>并可直接对特征图/>空间关联度特征矩阵/>和通道关联度特征矩阵/>进行拼接，以实现多模态再校准特征融合，具体本申请实施例不做限定。

在一实施例中，结合上述实施例，还提供了一种基于跨模态特征再校准的信息融合方法，其特征在于，方法包括如下步骤：

S101：获取第一多模态数据和第二多模态数据；

S102：将第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播，以提取不同下采样倍数对应的多组多模态特征，每组多模态特征包括不同下采样倍数下对应的多模态特征G_x和多模态特征F_x；

S103：对每组多模态特征进行再校准融合，得到每组多模态特征对应的多模态再校准融合特征，其中，第一组再校准融合所采用的多模态融合特征为基于第一组多模态特征的两个多模态特征融合得到，其他组再校准融合所采用的多模态融合特征为其他组再校准融合两个多模态特征融合得到的多模态融合特征，与其他组再校准融合的上一组再校准融合输出的多模态再校准融合特征进行融合得到。

S104：将多组多模态特征中最后一组再校准融合得到的多模态再校准融合特征，作为最终的跨模态融合特征。

该实施例中，利用了前述实施例得到的多模态再校准融合特征O_x的方式，进一步提出了一种新的信息融合方法，具体而言，将每组多模态特征下得到的多模态再校准融合特征O_x，作为前向传播中的下一组的输入进行融合再校准融合，进一步建立不同模态信息之间的数据关联，更能够实现相互间的信息转换与信息互补，有助于网络提取更准确的特征表达，从而减少单模态视觉任务的不确定性，提高特征表达能力。

在一实施例，上述步骤S101中，也即将第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播，以提取不同下采样倍数对应的多组多模态特征，包括：将第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播，以在前向传播过程提取经过4次2倍下采样，得到对应的多组多模态特征。也即是多组多模态特征共包括4组。

需要说明的是，前向传播过程中，除了进行4次2倍下采样外，还可以是其他的次数和/或倍数，依据实际应用场景可配置，比如6次、4倍等等，具体本申请实施例不做限定。

为便于理解该实施例，以4组为例，图3为本申请实施例提跨模态特征融合网络的网络结构处理过程示意图，请参阅图3所示，第一多模态数据和第二多模态数据分别通过一条卷积神经网络分支进行前向传播，实现特征提取，在前向传播过程中经过4次2倍下采样，实现特征压缩和通道数的扩充。每个下采样层，都在两个分支间加入跨模态特征再校准模块(该跨模态特征再校准模块也即是实现前述实施例中跨模态再校准的过程)进行特征融合。第一多模态数据和第二多模态数据在第一次下采样后分别得到G₁、F₁两个特征图，将G₁和F₁作为第一个跨模态特征再校准模块的两个输入，进行跨模态特征融合，得到的第一个多模态再校准融合特征O₁输出。第一多模态数据和第二多模态数据在第二次下采样后分别得到G₂、F₂两个特征图，将G₂和F₂作为第二个跨模态特征再校准模块的两个输入，并将第一个跨模态特征再校准模块的输出O₁与第二个跨模态特征再校准模块得到的融合特征I_x进行拼接操作后，得到的特征作为第二个跨模态特征再校准模块的I_x值，然后进行跨模态特征融合，得到的第一个多模态再校准融合特征O₂。与此类推，第二个跨模态特征再校准模块的输出O₂以及第三个跨模态特征再校准模块的输出O₃，采用同样的方式向后传输，最终得到的第四个多模态再校准融合特征输出O₄即为网络最终输出的跨模态融合特征，该特征可用于后续的目标检测及语义分割等各类视觉任务。

需要说明的是，关于该实施例中各个跨模态特征再校准模块的处理内容，可对应参阅前述实施例的描述，其中，第一个多模态再校准融合特征的处理过程可参阅前述实施例的描述，后续多模态再校准融合特征的处理过程，其多模态融合特征I_x，是会融合前一个多模态再校准融合特征输出，其他处理过程相同，为减少冗余，这里不重复说明，所实现的更多内容和解释，可对应参阅前述所实现的内容，这里不重复描述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

B、一种基于跨模态特征再校准的信息融合装置

在一实施例中，提供了一种基于跨模态特征再校准的信息融合装置，包括：

获取模块101，用于获取目标对象的多模态特征G_x和多模态特征F_x；

多模态融合模块102，用于对所述多模态特征G_x和多模态特征F_x进行融合，得到多模态融合特征I_x；

空间再校准模块103，用于基于所述多模态特征G_x，对所述多模态融合特征I_x进行空间维度的跨模态再校准，得到所述多模态特征G_x与所述多模态融合特征I_x之间的空间关联度特征矩阵

通道再校准模块104，用于基于所述多模态特征F_x，对所述多模态融合特征I_x进行通道维度的跨模态再校准，得到所述多模态特征F_x与所述多模态融合特征I_x之间的通道关联度特征矩阵

跨模态融合模块105，用于对空间关联度特征矩阵通道关联度特征矩阵/>和所述多模态融合特征I_x进行多模态再校准特征融合，得到多模态再校准融合特征O_x。

在一实施例中，多模态融合模块102具体用于：

在一实施例中，空间再校准模块103具体用于：

在一实施例中，通道再校准模块104具体用于：

在一实施例中，所述n为2，所述l为1。

在一实施例中，跨模态融合模块105具体用于：

对所述空间关联度特征矩阵进行sigmoid激活，转换为权重值/>

对所述通道关联度特征矩阵进行sigmoid激活，转换为权重值/>

按照如下方式实现多模态再校准特征融合：

在一实施例中，提供了一种跨模态信息融合装置，包括：

获取模块201，用于获取第一多模态数据和第二多模态数据；

提取模块202，用于将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播，以提取不同下采样倍数对应的多组多模态特征，每组多模态特征包括不同下采样倍数下对应的多模态特征G_x和多模态特征F_x；

再校准模块203，使用基于跨模态特征再校准的信息融合装置对每组多模态特征进行跨模态再校准融合，得到每组多模态特征对应的多模态再校准融合特征，其中，第一组再校准融合所采用的多模态融合特征为基于第一组多模态特征的两个多模态特征融合得到，其他组再校准融合所采用的多模态融合特征为所述其他组再校准融合两个多模态特征融合得到的多模态融合特征，与所述其他组再校准融合的上一组再校准融合输出的多模态再校准融合特征进行融合得到；

特征融合模块204，将所述多组多模态特征中最后一组再校准融合得到的多模态再校准融合特征，作为最终的跨模态融合特征。

在一实施例中，提取模块202，具体用于将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播，以在前向传播过程提取经过4次2倍下采样，得到对应的多组多模态特征。

需要说明的是，基于跨模态特征再校准的信息融合装置或者跨模态信息融合装置的更多内容，可对应参阅前述方法实施例中的对应描述，这里不重复说明。

C、计算机设备、计算机存储介质和计算机程序产品

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于跨模态特征再校准的信息融合方法所涉及的数据。该计算机程序被处理器执行时以实现前述实施例提供的一种基于跨模态特征再校准的信息融合方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一实施例中，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述如前述任一项所述的信息融合方法的步骤。

在一个实施例中，提供了一个或多个存储有计算机程序的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机程序，计算机程序被一个或多个处理器执行时实现前述实施例提供的一种基于跨模态特征再校准的信息融合方法。

关于计算机设备和计算机存储介质所实现的功能内容或步骤，可对应参阅前述实施例的描述，这里不重复描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于跨模态特征再校准的信息融合方法，其特征在于，包括：

获取目标对象的多模态特征G_x和多模态特征F_x；将所述目标对象的第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播，以提取不同下采样倍数对应的多组多模态特征，每组多模态特征包括不同下采样倍数下对应的多模态特征G_x和多模态特征F_x；

对空间关联度特征矩阵通道关联度特征矩阵/>和所述多模态融合特征I_x进行多模态再校准特征融合，得到多模态再校准融合特征O_x；

所述基于所述多模态特征G_x，对所述多模态融合特征I_x进行空间维度的跨模态再校准，得到所述多模态特征G_x与所述多模态融合特征I_x之间的空间关联度特征矩阵包括：

对所述第一多模态压缩特征进行转换处理，得到尺度为的转换特征矩阵/>

将所述激活特征矩阵E_x与所述转换特征向量相乘，得到尺度为l×HW的相乘结果L_x；

C表示通道数、H表示高度、W表示宽度。

2.如权利要求1所述的方法，其特征在于，所述对所述多模态特征G_x和多模态特征F_x进行融合，得到多模态融合特征I_x，包括：

将所述多模态特征G_x和多模态特征F_x分别转换为相同尺度参数的特征图C×H×W，再将相同尺度参数的所述多模态特征G_x和多模态特征F_x进行拼接操作，得到多模态融合特征I_x；

C表示通道数、H表示高度、W表示宽度。

3.如权利要求1所述的方法，其特征在于，所述基于所述多模态特征F_x，对所述多模态融合特征I_x进行通道维度的跨模态再校准，得到所述多模态特征F_x与所述多模态融合特征I_x之间的通道关联度特征矩阵包括：

C、H和W分别表示所述多模态特征F_x的通道数、高度和宽度。

4.如权利要求3所述的方法，其特征在于，所述n为2，所述l为1。

5.如权利要求1-4任一项所述的方法，其特征在于，所述对空间关联度特征矩阵通道关联度特征矩阵/>和所述多模态融合特征I_x进行多模态再校准特征融合，得到多模态再校准融合特征O_x，包括：

对所述空间关联度特征矩阵进行sigmoid激活，转换为权重值/>

对所述通道关联度特征矩阵进行sigmoid激活，转换为权重值/>

按照如下方式实现多模态再校准特征融合：

6.一种基于跨模态特征再校准的信息融合方法，其特征在于，所述方法包括：

获取第一多模态数据和第二多模态数据；

使用如权利要求1-5任一项所述的方法对每组多模态特征进行再校准融合，得到每组多模态特征对应的多模态再校准融合特征，其中，第一组再校准融合所采用的多模态融合特征为基于第一组多模态特征的两个多模态特征融合得到，其他组再校准融合中所采用的多模态融合特征为所述其他组再校准融合的两个多模态特征融合得到的多模态融合特征，与所述其他组再校准融合中的上一组再校准融合输出的多模态再校准融合特征进行融合得到；

7.如权利要求6所述的方法，其特征在于，所述将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播，以提取不同下采样倍数对应的多组多模态特征，包括：

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的信息融合方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的信息融合方法的步骤。