CN116363037B

CN116363037B - 一种多模态图像融合方法、装置及设备

Info

Publication number: CN116363037B
Application number: CN202310638962.9A
Authority: CN
Inventors: 王辉; 姜朱丰; 华姝雅; 李欣怡; 范自柱; 杨辉
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-08-11
Anticipated expiration: 2043-06-01
Also published as: CN116363037A

Abstract

本发明提供一种多模态图像融合方法、装置及设备，方法包括：获取同一目标对象的不同模态的至少两张图像数据，并采用预设特征提取网络对每张图像数据进行特征信息提取，得到对应的特征图像；将不同模态的特征图像进行堆叠，得到堆叠后特征图像，并对堆叠后特征图像进行通道注意力处理，输出具有通道注意力的特征图；依序对具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图。本发明通过将不同模态的特征图堆叠后依次进行通道注意力、局部自注意力以及全局注意力处理，在保证注重全局和局部信息的情况下，将计算复杂度降低到线性，具有速度快，精度高的特点。

Description

一种多模态图像融合方法、装置及设备

技术领域

本发明涉及目标检测技术领域，特别涉及一种多模态图像融合方法、装置及设备。

背景技术

为了使人工智能充分利用现实中的有效信息来检测目标，提升目标检测模型的性能，有必要研究多模态的人工智能算法，让机器实现多模态融合。目前多模态融合的方式主要有表征、翻译、对齐、融合等。

在融合领域，已经有利用Transformer模型实现多模态融合的技术，但是其主要是将特征图直接输入到Transformer网络中，进行整个图像上的注意力，这需要很大的计算量，并且过多的参数会导致过拟合。在模型部署时，特别是应用Transformer模型在多模态目标检测任务中，会降低FPS，影响检测速度，同时也提高了对计算设备的性能要求。

发明内容

基于此，本发明的目的是提供一种多模态图像融合方法、装置及设备，以解决现有技术当中的至少一个技术问题。

根据本发明实施例的一种多模态图像融合方法，所述方法包括：

获取同一目标对象的不同模态的至少两张图像数据，并采用预设特征提取网络对每张所述图像数据进行特征信息提取，得到对应的特征图像；

将不同模态的特征图像进行堆叠，得到堆叠后特征图像，并对所述堆叠后特征图像进行通道注意力处理，输出具有通道注意力的特征图；

依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图。

另外，根据本发明上述实施例的一种多模态图像融合方法，还可以具有如下附加的技术特征：

进一步地，将不同模态的特征图像进行堆叠，得到堆叠后特征图像，并对所述堆叠后特征图像进行通道注意力处理，输出具有通道注意力的特征图的步骤包括：

将不同模态的特征图像进行通道堆叠，得到所述堆叠后特征图像；

按预设卷积处理规则对所述堆叠后特征图像进行卷积处理，并将卷积处理后的特征图输入到预设的通道注意力模块中进行通道注意力处理；

将通道注意力处理后的特征图与所述卷积处理后的特征图以残差的形式相加后输出，得到所述具有通道注意力的特征图。

进一步地，所述具有通道注意力的特征图表示为：

式中，x表示为所述卷积处理后的特征图，DWConv表示带有正则化和GeLU激活的3×3深度卷积，Norm表示批量正则化，SE表示对所述卷积处理后的特征图进行通道注意力。

进一步地，依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图的步骤包括：

将所述具有通道注意力的特征图按预设局部分割规则进行分割，以分割成若干局部特征图；

将每个所述局部特征图输入到多头自注意力编码解码器当中处理，输出第一编码解码后的特征图；

将所述第一编码解码后的特征图与所述具有通道注意力的特征图以残差的形式相加，输出具有局部注意力的特征图；

将所述具有局部注意力的特征图按预设全局分割规则进行分割，以分割成若干全局特征图；

将每个所述全局特征图输入到多头自注意力编码解码器当中处理，输出第二编码解码后的特征图；

将所述第二编码解码后的特征图与所述具有局部注意力的特征图以残差的形式相加，输出所述多模态图像融合后的目标特征图。

进一步地，所述将所述具有通道注意力的特征图按预设局部分割规则进行分割，以分割成若干局部特征图的步骤包括：

将所述具有通道注意力的特征图按预设分割大小等分成K×K个局部特征图，其中所述预设分割大小为，W和H代表所述具有通道注意力的特征图的宽高参数;

此外，将所述具有局部注意力的特征图按预设全局分割规则进行分割，以分割成若干全局特征图的步骤包括：

利用大小为L×L的网格参数对所述具有局部注意力的特征图进行网格变换，得到网格变换后的特征图；

从所述网格变换后的特征图当中截取以距离为L等距稀疏地分散在全局上的个网格单元，得到若干全局特征图。

进一步地，在依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图的步骤之后，还包括：

采用预设特征提取网络提取所述多模态图像融合后的目标特征图的特征信息，得到三种不同分辨率的特征图；

将所述三种不同分辨率的特征图输入到初始的目标识别模型当中进行识别，得到待检测目标的信息；

根据所述待检测目标的信息计算模型损失，并进行反向传播，以对所述目标识别模型进行训练。

进一步地，所述模型损失的计算公式为：

L=λ _reg L _reg +λ _cl L _cl +λ _obj L _obj

其中，λ _reg、λ _cl和λ _obj分别为权重系数，L _reg为位置损失，L _cl为类别损失，L _obj为置信度损失；

其中，位置损失的计算公式为：

其中，类别损失的计算公式为：

其中，置信度损失的计算公式为：

式中，B为实际的边界矩形框位置，为预测的边界矩形框位置，t _i表示目标的实际类别，p _i表示目标的预测类别，/>表示含有目标的置信度，/>表示不含目标的置信度，obj=false表示计算所有负样本的置信度损失，λ _noobj是参数，用于平衡正负样本的数目差异，表示计算所有正样本的位置损失，/>表示计算所有正样本的类别损失，/>表示计算所有正样本的置信度损失。

进一步地，在所述位置损失的计算公式当中，CIoU的计算公式为：

式中，ρ ²表示中心点的欧氏距离，C表示能够包含预测框和真实框的最小矩形区域的对角线距离，w和h分别表示真实框的宽度和高度，和/>分别表示预测框的宽度和高度，v表示两种框的宽高比相似度，α为v的影响因子。

根据本发明实施例的一种多模态图像融合装置，所述装置包括：

信息提取模块，用于获取同一目标对象的不同模态的至少两张图像数据，并采用预设特征提取网络对每张所述图像数据进行特征信息提取，得到对应的特征图像；

通道注意力模块，用于将不同模态的特征图像进行堆叠，得到堆叠后特征图像，并对所述堆叠后特征图像进行通道注意力处理，输出具有通道注意力的特征图；

多模态融合模块，用于依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的多模态图像融合方法。

本发明还提出一种多模态图像融合设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的多模态图像融合方法。

本发明的有益效果为：通过将不同模态的特征图堆叠后依次进行通道注意力、局部自注意力以及全局注意力处理，在保证注重全局和局部信息的情况下，将计算复杂度降低到线性，既能实现多模态融合的功能，还能在较小的计算量下实现注意力机制，具有速度快，精度高的特点。在减少模型的参数同时，也避免Transformer模型的过拟合问题，提高了泛化能力。

附图说明

图1为本发明第一实施例中的多模态图像融合方法的流程图；

图2为本发明实施例提供的多模态图像融合用的神经网络结构图；

图3为本发明实施例提供的局部注意力和全局注意力示意图；

图4为本发明第三实施例中的多模态图像融合装置的结构框图。

以下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，所示为本发明实施例一中的多模态图像融合方法，所述多模态图像融合方法可通过软件和/或硬件来实现，所述方法包括步骤S01-步骤S03。

步骤S01，获取同一目标对象的不同模态的至少两张图像数据，并采用预设特征提取网络对每张所述图像数据进行特征信息提取，得到对应的特征图像。

在具体实施时，所述不同模态的至少两张图像数据至少包括RGB相机拍摄的图像数据以及红外相机拍摄的图像数据，其中RGB相机拍摄的图像数据属于RGB模态，红外相机拍摄的图像数据属于T模态。预设特征提取网络例如可以为Darknet-53网络。其中，不同模态的图像数据的大小应当保持一致。

步骤S02，将不同模态的特征图像进行堆叠，得到堆叠后特征图像，并对所述堆叠后特征图像进行通道注意力处理，输出具有通道注意力的特征图。

具体地，可以将RGB模态和T模态的特征图像进行像素和通道维度的直接堆叠，假设RGB模态的特征图像表示为（H,W,C _RGB）, T模态的特征图像表示为（H,W,C _T），则堆叠后的特征图像可以表示为（H,W,C _RGB + C _T）。然后再对堆叠后的特征图像先进行通道注意力处理，输出具有通道注意力的特征图。

步骤S03，依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图。

在具体实施时，可以先按照局部分割规则对具有通道注意力的特征图进行局部分割，分割成若干局部特征图，然后通过多头自注意力编码解码器对局部特征图进行注意力，输出具有局部注意力的特征图，然后再按全局分割规则对具有局部注意力的特征图进行分割，以分割成若干全局特征图，然后通过多头自注意力编码解码器对全局特征图进行注意力，输出多模态图像融合后的目标特征图。

综上，本发明上述实施例当中的多模态图像融合方法，通过将不同模态的特征图堆叠后依次进行通道注意力、局部自注意力以及全局注意力处理，在保证注重全局和局部信息的情况下，将计算复杂度降低到线性，既能实现多模态融合的功能，还能在较小的计算量下实现注意力机制，具有速度快，精度高的特点。在减少模型的参数同时，也避免Transformer模型的过拟合问题，提高了泛化能力。

实施例二

本发明实施例二也提出一种多模态图像融合方法，具体用于对RGB模态和T模态的图像融合，所述多模态图像融合方法可通过软件和/或硬件来实现，本实施例当中的多模态图像融合方法具体采用图2示出的神经网络结构图来实现，所述方法包括步骤S11-步骤S16。

步骤S11，获取同一目标对象的RGB模态和T模态的图像数据，并采用预设特征提取网络对每张所述图像数据进行特征信息提取，得到对应的特征图像。

在本实施例当中，具体采用Darknet-53网络来分别对RGB模态和T模态的图像数据进行特征提取，分别得到RGB模态和T模态的特征图像。

步骤S12，将RGB模态和T模态的特征图像进行堆叠，得到堆叠后特征图像，并对所述堆叠后特征图像进行通道注意力处理，输出具有通道注意力的特征图。

其中，RGB模态的特征图像表示为（H,W,C _RGB）, T模态的特征图像表示为（H,W,C _T），则堆叠后的特征图像可以表示为（H,W,C _RGB + C _T）。本实施例具体采用SE模块（Squeeze-and-Excitation，通道注意力模块）来进行通道注意力。

具体地，在本实施例一些可选实施方式当中，步骤S12具体可以包括：

将RGB模态和T模态的特征图像进行通道堆叠，得到所述堆叠后特征图像；

按预设卷积处理规则对所述堆叠后特征图像进行卷积处理，并将卷积处理后的特征图输入到预设的通道注意力模块（SE模块）中进行通道注意力处理；

具体地，预设卷积处理规则为先进行一次卷积核大小为1×1的卷积，再进行3×3的深度卷积，其目的是扩展通道样本数量，提高丰富的通道注意力的样本，提高通道注意力的效果。同时，本实施例还采用残差的形式将通道注意力前后图像相加作为最终的输出，其目的是将通道注意力特征叠加到原图上，也即在原图基础上进行通道注意力的特征叠加，这样即便通道注意力出现误差或者异常，也能够大大降低其对后续处理流程的正常进行以及效果的影响。

在一些可选实施例当中，所述具有通道注意力的特征图表示为：

步骤S13，依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图。

具体地，步骤S13具体可以包括：

其中，所述将所述具有通道注意力的特征图按预设局部分割规则进行分割，以分割成若干局部特征图的步骤包括：

请查阅图3，本实施例具体是先对特征图做局部分割，假定输入的特征图大小为（H,W,C)，将通道这一轴上的特征图分割成大小为，数目为K²的多个窗口。其中K为参数，决定分割窗口的大小。将每个K×K的窗口所有元素传入多头自注意力编码解码器，实现两种模态局部的信息交互，在此多头自注意力编码解码器中，编码和解码后的特征图与对应输入的特征图以残差的形式相加传入下一层网络。之后对特征图做全局变换分割，假定输入的特征图形状为（H,W,C)，利用大小为L×L的网格变换输入的特征图，网格化为大小是的特征图，其中L为参数，决定提取全局元素的多少，对于每一个网格化后的L×L的网格，相当于在原特征图上提取每个特征图中以距离L为等距的稀疏地分散在全局上的个元素，将其传入多头自注意力编码解码器，实现两种模态全局的信息交互，同样，在此多头自注意力编码解码器中，编码和解码后的特征图与对应输入的特征图以残差的形式相加传入下一层网络。

在本实施例一些较佳实施情况当中，数K和L的默认值优选为7。

步骤S14，采用预设特征提取网络提取所述多模态图像融合后的目标特征图的特征信息，得到三种不同分辨率的特征图。

在具体实施时，本步骤具体将特征图采用FPN+PAN两个网络模型的形式，实现共享不同分辨率下的高级、低级语义信息，得到共享语义信息后的三种分辨率的特征图。需要说明的是，FPN层采用逐层上采样后与原特征图相加的形式，自顶向下传递语义信息，得到一个自上向下的特征图金字塔。PAN层采用自FPN得到的最大分辨率特征图逐层下采样并与对应FPN后的特征图相加，得到一个自下向上的特征图金字塔。不同分辨率特有的高、低级语义信息通过上采样和下采样，实现语义信息共享。

步骤S15，将所述三种不同分辨率的特征图输入到初始的目标识别模型当中进行识别，得到待检测目标的信息。

具体地，目标识别模型具体可以是YOLOv5网络，具体可以将得到的特征图传入YOLOv5网络的检测头，得到待检测目标的信息，其中该待检测目标即为步骤S11当中的目标对象。

步骤S16，根据所述待检测目标的信息计算模型损失，并进行反向传播，以对所述目标识别模型进行训练。

具体地，所述模型损失的计算公式为：

L=λ _reg L _reg +λ _cl L _cl +λ _obj L _obj

其中，位置损失的计算公式为：

其中，类别损失的计算公式为：

其中，置信度损失的计算公式为：

式中，B为实际的边界矩形框位置，为预测的边界矩形框位置，t _i表示目标的实际类别，p _i表示目标的预测类别，/>表示含有目标的置信度，/>表示不含目标的置信度，obj=false表示计算所有负样本的置信度损失，λ _noobj是参数，用于平衡正负样本的数目差异，表示计算所有正样本的位置损失，/>表示计算所有正样本的类别损失，/>表示计算所有正样本的置信度损失，CIoU为Complete-IoU损失函数。

其中，在所述位置损失的计算公式当中，CIoU的计算公式为：

式中，ρ ²表示中心点的欧氏距离，C表示能够包含预测框和真实框的最小矩形区域的对角线距离，w和h分别表示真实框的宽度和高度，和/>分别表示预测框的宽度和高度，v表示两种框的宽高比相似度，当两种框的宽高比相等时，v取1，相差无限大时，v取0，α为v的影响因子，α越大，v对损失函数的影响越大，宽高比的影响越大。其中，/>表示预测的边界矩形框位置和实际的边界矩形框位置的交并比，并满足以下条件式：

表示预测的边界矩形框位置和实际的边界矩形框位置的重合区域，/>表示预测的边界矩形框位置和实际的边界矩形框位置的合并区域。

具体地，位置损失用于衡量预测框与实际框的距离，评估预测位置的准确度。位置损失越小，预测框的位置越准确。类别损失用于衡量预测类别与实际类别的距离，评估预测类别的准确度。类别损失越小，预测的类别越准确。置信度损失用于衡量预测正、负样本的准确度。一般正样本为1，即存在目标；负样本为0，即不存在目标。置信度损失越小，预测准确的正负样本的概论越大。在本实施例一些优先实施情况当中，λ _noobj、λ _reg、λ _cl和λ _obj默认值分别优选是4、1、0.25、0.3。

此外，具体可以用Adam算法训练网络,同时测试网络，直至测试的准确率收敛。其中Adam算法的默认学习率lr为：0.001。批量大小（batch size）默认为64。总训练迭代次数（epochs）默认为：300。

实施例三

本发明另一方面还提供一种多模态图像融合装置，请查阅图4，所示为本发明第三实施例中的多模态图像融合装置，所述多模态图像融合装置包括：

信息提取模块11，用于获取同一目标对象的不同模态的至少两张图像数据，并采用预设特征提取网络对每张所述图像数据进行特征信息提取，得到对应的特征图像；

通道注意力模块12，用于将不同模态的特征图像进行堆叠，得到堆叠后特征图像，并对所述堆叠后特征图像进行通道注意力处理，输出具有通道注意力的特征图；

多模态融合模块13，用于依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图。

进一步地，在本发明一些可选实施例当中，所述通道注意力模块12包括：

通道堆叠单元，用于将不同模态的特征图像进行通道堆叠，得到所述堆叠后特征图像；

通道注意力单元，用于按预设卷积处理规则对所述堆叠后特征图像进行卷积处理，并将卷积处理后的特征图输入到预设的通道注意力模块中进行通道注意力处理；

残差输出单元，用于将通道注意力处理后的特征图与所述卷积处理后的特征图以残差的形式相加后输出，得到所述具有通道注意力的特征图。

进一步地，在本发明一些可选实施例当中，所述具有通道注意力的特征图表示为：

进一步地，在本发明一些可选实施例当中，所述多模态融合模块13还用于将所述具有通道注意力的特征图按预设局部分割规则进行分割，以分割成若干局部特征图；将每个所述局部特征图输入到多头自注意力编码解码器当中处理，输出第一编码解码后的特征图；将所述第一编码解码后的特征图与所述具有通道注意力的特征图以残差的形式相加，输出具有局部注意力的特征图；将所述具有局部注意力的特征图按预设全局分割规则进行分割，以分割成若干全局特征图；将每个所述全局特征图输入到多头自注意力编码解码器当中处理，输出第二编码解码后的特征图；将所述第二编码解码后的特征图与所述具有局部注意力的特征图以残差的形式相加，输出所述多模态图像融合后的目标特征图。

进一步地，在本发明一些可选实施例当中，所述多模态融合模块13还用于将所述具有通道注意力的特征图按预设分割大小等分成K×K个局部特征图，其中所述预设分割大小为，W和H代表所述具有通道注意力的特征图的宽高参数; 并利用大小为L×L的网格参数对所述具有局部注意力的特征图进行网格变换，得到网格变换后的特征图；从所述网格变换后的特征图当中截取以距离为L等距稀疏地分散在全局上的/>个网格单元，得到若干全局特征图。

进一步地，在本发明一些可选实施例当中，所述多模态图像融合装置还包括：

模型训练模块，用于采用预设特征提取网络提取所述多模态图像融合后的目标特征图的特征信息，得到三种不同分辨率的特征图；将所述三种不同分辨率的特征图输入到初始的目标识别模型当中进行识别，得到待检测目标的信息；根据所述待检测目标的信息计算模型损失，并进行反向传播，以对所述目标识别模型进行训练。

进一步地，在本发明一些可选实施例当中，所述模型损失的计算公式为：

L=λ _reg L _reg +λ _cl L _cl +λ _obj L _obj

其中，位置损失的计算公式为：

其中，类别损失的计算公式为：

其中，置信度损失的计算公式为：

进一步地，在本发明一些可选实施例当中，在所述位置损失的计算公式当中，CIoU的计算公式为：

上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的多模态图像融合方法。

本发明还提出一种多模态图像融合设备，包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的多模态图像融合方法。

其中，多模态图像融合设备具体可以是电脑、服务器、摄像装置等等。处理器在一些实施例中可以是中央处理器（Central Processing Unit, CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器中存储的程序代码或处理数据，例如执行访问限制程序等。

其中，存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器在一些实施例中可以是多模态图像融合设备的内部存储单元，例如该多模态图像融合设备的硬盘。存储器在另一些实施例中也可以是多模态图像融合设备的外部存储装置，例如多模态图像融合设备上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器还可以既包括多模态图像融合设备的内部存储单元也包括外部存储装置。存储器不仅可以用于存储安装于多模态图像融合设备的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种多模态图像融合方法，其特征在于，所述方法包括：

依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图；

其中，依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图的步骤包括：

将所述第二编码解码后的特征图与所述具有局部注意力的特征图以残差的形式相加，输出所述多模态图像融合后的目标特征图；

其中，将不同模态的特征图像进行堆叠，得到堆叠后特征图像，并对所述堆叠后特征图像进行通道注意力处理，输出具有通道注意力的特征图的步骤包括：

2.根据权利要求1所述的多模态图像融合方法，其特征在于，所述具有通道注意力的特征图表示为：

3.根据权利要求1所述的多模态图像融合方法，其特征在于，所述将所述具有通道注意力的特征图按预设局部分割规则进行分割，以分割成若干局部特征图的步骤包括：

将所述具有通道注意力的特征图按预设分割大小等分成K×K个局部特征图，其中所述预设分割大小为，W和H代表所述具有通道注意力的特征图的宽高参数。

4.根据权利要求3所述的多模态图像融合方法，其特征在于，将所述具有局部注意力的特征图按预设全局分割规则进行分割，以分割成若干全局特征图的步骤包括：

5.根据权利要求1所述的多模态图像融合方法，其特征在于，在依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图的步骤之后，还包括：

6.根据权利要求5所述的多模态图像融合方法，其特征在于，所述模型损失的计算公式为：

L=λ _reg L _reg +λ _cl L _cl +λ _obj L _obj

其中，位置损失的计算公式为：

其中，类别损失的计算公式为：

其中，置信度损失的计算公式为：

7.根据权利要求6所述的多模态图像融合方法，其特征在于，在所述位置损失的计算公式当中，CIoU的计算公式为：

式中，ρ ²表示中心点的欧氏距离，C表示能够包含预测框和真实框的最小矩形区域的对角线距离，w和h分别表示真实框的宽度和高度，和/>分别表示预测框的宽度和高度，v表示两种框的宽高比相似度，α为v的影响因子，/>表示预测的边界矩形框位置和实际的边界矩形框位置的交并比。

8.一种多模态图像融合装置，其特征在于，所述装置包括：

多模态融合模块，用于依序对所述具有通道注意力的特征图进行局部多头自注意力处理和全局多头自注意力处理，得到多模态图像融合后的目标特征图；

其中，所述通道注意力模块包括：

残差输出单元，用于将通道注意力处理后的特征图与所述卷积处理后的特征图以残差的形式相加后输出，得到所述具有通道注意力的特征图；

其中，所述多模态融合模块还用于将所述具有通道注意力的特征图按预设局部分割规则进行分割，以分割成若干局部特征图；将每个所述局部特征图输入到多头自注意力编码解码器当中处理，输出第一编码解码后的特征图；将所述第一编码解码后的特征图与所述具有通道注意力的特征图以残差的形式相加，输出具有局部注意力的特征图；将所述具有局部注意力的特征图按预设全局分割规则进行分割，以分割成若干全局特征图；将每个所述全局特征图输入到多头自注意力编码解码器当中处理，输出第二编码解码后的特征图；将所述第二编码解码后的特征图与所述具有局部注意力的特征图以残差的形式相加，输出所述多模态图像融合后的目标特征图。

9.一种多模态图像融合设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1－7任一所述的多模态图像融合方法。