CN112862727A

CN112862727A - 一种跨模态图像转换方法及装置

Info

Publication number: CN112862727A
Application number: CN202110282925.XA
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Biren Intelligent Technology Co Ltd
Current assignee: Shanghai Bi Ren Technology Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-05-28
Anticipated expiration: 2041-03-16
Also published as: CN112862727B

Abstract

本发明提供一种跨模态图像转换方法及装置。其中，该方法包括：确定源模态图像对应的源模态矩阵向量；将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像；其中，所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。采用本发明公开的跨模态图像转换方法，能够利用注意力模型对整体信息的学习能力，来实现不同模态间图像的变换，提高了跨模态图像转换的效率和稳定性，同传统方法相比，具有更好的适应性和通用性。

Description

一种跨模态图像转换方法及装置

技术领域

本发明涉及计算机图像处理技术领域，具体涉及一种跨模态图像转换方法和装置。另外，还涉及一种电子设备及非暂态计算机可读存储介质。

背景技术

近年来，计算机图像处理技术得到了快速的发展，而在计算机图像研究领域中，图像转换技术是一项重要的研究内容。图像转换旨在研究数据域之间的关系，并解决如何将一个模态的图像转换成另一个模态的图像。跨模态图像转换技术在多个领域有着重要的应用，例如汽车驾驶应用的红外与可见光图像的信息融合，医疗应用中CT(ComputedTomography)图像与MRI(Magnetic Resonance Imaging)图像的融合对照等等，从而实现多模态信息融合。同一场景中不同模态的图像可从不同手段获得有用信息，互为补充，比如红外和可见光图像。变换后的图像可用于与目标模态图像的对比、配准或其它分析。然而，不同模态图像成像介质不同，内容差别很大，不利于跨模态信息的联合分析。

现有技术中，为方便在相同条件下比较，往往需要将不同模态图像映射到同一模态对齐，再比较不同模态的信息。传统方法是基于特定模态下的成像物理模型来反演其在另一模态的数值，其具体又包括两类：通过源模态反演物体信息，再根据物体信息在目标模特二次成像；通过成像模型构建二模态间的直接映射。常规的做法是基于物理模型的跨模态转换方法，然而此种方法高度依赖具体模态成像的模型准确度和成像因素的条件变化，很难获得好的变换效果，也不具有通用性。因此如何设计一种通用、高效的跨模态图像转换方案成为本领域研究的重要课题。

发明内容

为此，本发明提供一种跨模态图像转换方法及装置，以解决现有技术中存在的跨模态图像转换方案，局限性较高，不具有通用性，跨模态图像转换效率较差的问题。

本发明提供一种跨模态图像转换方法，包括：

确定源模态图像对应的源模态矩阵向量；

将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像；

其中，所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。

进一步的，所述确定源模态图像对应的源模态矩阵向量，具体包括：

将所述源模态图像进行切分，获得若干个源模态小块；

将所述源模态小块分别变换为对应的一维向量，基于所述一维向量构成所述源模态图像对应的源模态矩阵向量。

进一步的，所述全局注意力模型为基于注意力机制的变换器模型；

所述将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像，具体包括：

将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理，获得相应的编码矩阵向量；

将所述编码矩阵向量输出到所述变换器模型中的解码器部分，获得相应的解码矩阵向量；

将所述解码矩阵向量输入至目标嵌入层反投影为目标模态小块，并拼接所述目标模态小块，得到相应的目标模态图像。

进一步的，所述编码器部分包含多个顺次连接的编码层；

所述将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理，获得相应的编码矩阵向量，具体包括：

将所述编码后的源模态矩阵向量输入至第1个编码层，得到第1个编码层输出的编码向量；

将第i个编码层输出的编码向量作为第i+1个编码层的输入向量进行迭代处理，并将最后一个编码层输出的编码向量作为所述编码矩阵向量；其中，i为大于1的整数。

进一步的，所述解码器部分包含多个顺次连接的解码层；

将所述编码矩阵向量输出到所述变换器模型中的解码器部分，获得相应的解码矩阵向量，具体包括：

将所述编码矩阵向量输入至第1个解码层，得到第1个解码层输出的解码向量；

将第j个解码层输出的解码向量作为第j+1个解码层的输入向量进行迭代处理，并将最后一个解码层输出的解码向量作为解码矩阵向量；其中，j为大于1的整数。

进一步的，所述的跨模态图像转换方法，还包括：对所述源模态矩阵向量进行嵌入编码和位置编码处理，得到所述编码处理后的源模态矩阵向量。

进一步的，所述的跨模态图像转换方法，还包括：

将所述全局注意力模型作为预训练模型，并基于第二源模态图像的类型对所述预训练模型中的目标层进行训练，经过参数微调得到相应的第二全局注意力模型；

将所述第二源模态图像输入至所述第二全局注意力模型中进行处理，得到对应的第二目标模态图像；其中，所述源模态图像和所述第二源模态图像对应的模态不同。

相应的，本发明实施例还提供一种跨模态图像转换装置，包括：

源模态图像处理单元，用于确定源模态图像对应的源模态矩阵向量；

源模态图像转换单元，用于将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像；

进一步的，所述源模态图像处理单元，具体用于：

将所述源模态图像进行切分，获得若干个源模态小块；

所述源模态图像转换单元，具体用于：

进一步的，所述编码器部分包含多个顺次连接的编码层；

所述源模态图像转换单元，具体用于：

进一步的，所述解码器部分包含多个顺次连接的解码层；

所述源模态图像转换单元，具体用于：

进一步的，所述的跨模态图像转换装置，还包括：嵌入及位置编码处理单元，用于对所述源模态矩阵向量进行嵌入编码和位置编码处理，得到所述编码处理后的源模态矩阵向量。

进一步的，所述的跨模态图像转换装置，还包括：

模型微调处理单元，用于将所述全局注意力模型作为预训练模型，并基于第二源模态图像的类型对所述预训练模型中的目标层进行训练，经过参数微调得到相应的第二全局注意力模型；

所述源模态图像转换单元，用于将所述第二源模态图像输入至所述第二全局注意力模型中进行处理，得到对应的第二目标模态图像；其中，所述源模态图像和所述第二源模态图像对应的模态不同。

相应的，本发明还提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任意一项所述的跨模态图像转换方法的步骤。

相应的，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述的跨模态图像转换方法的步骤。

采用本发明所述的跨模态图像转换方法，能够利用注意力模型对整体信息的学习能力实现跨模态图像转换，提高了跨模态图像转换的效率和稳定性，同传统方法相比，具有更好的适应性和通用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1为本发明实施例提供的变换器模型对应的流程示意图；

图2为本发明实施例提供的一种跨模态图像转换方法的流程示意图；

图3为本发明实施例提供的一种跨模态图像转换装置的结构示意图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

下面基于本发明所述的跨模态图像转换方法，对其实施例进行详细描述。如图1所示，其为本发明实施例提供的跨模态图像转换方法的流程示意图，具体实现过程包括以下步骤：

步骤101：确定源模态图像对应的源模态矩阵向量。

具体的，首先将源模态图像进行切分，获得若干个源模态小块；将所述源模态小块分别变换为对应的一维向量，基于所述一维向量构成所述源模态图像对应的源模态矩阵向量。比如，可将源模态图像切分为N个源模态小块，每个源模态小块分别变换为一维向量。

步骤102：将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像。其中，所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练，以最小化输出原始源模态图像与实际目标模态图像的误差为训练目标进行训练得到的。

具体的，所述全局注意力模型可以是指基于注意力机制的变换器模型(transformer模型)。如图2所示，该Transformer模型本质上是一个编码器(Encoder)-解码器(Decoder)的结构，编码器由6个编码层依次连接组成，解码器是6个解码层依次连接组成。与所有的生成模型相同的是，编码器接收原始输入的数据，并输出编码向量至解码器，解码器生成解码向量并得到最终的输出数据。编码器可用于将多帧投影数据转化为编码向量。解码器可用于将编码向量生成解码向量，并将解码向量转换为多帧影像数据。

本步骤中，将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像，具体实现过程包括：预先对源模态矩阵向量包含的一维向量进行嵌入编码(embedding编码)和位置编码(poistion编码)处理，得到编码处理后的源模态矩阵向量；源模态图像和目标模态图像各自对应一组预先训练好的embedding矩阵和位置权重；然后，将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理，获得相应的编码矩阵向量；将编码矩阵向量输出到变换器模型中的解码器部分，获得相应的解码矩阵向量；并将解码器部分输出的解码矩阵向量输入至目标嵌入层反投影为目标模态小块，拼接该目标模态小块，从而得到源模态图像对应的目标模态图像。

需要说明的是，由于编码器部分包含多个顺次连接的编码层。在本步骤中，将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理，获得相应的编码矩阵向量，具体实现过程包括：将编码后的源模态矩阵向量输入至第1个编码层，得到第1个编码层输出的编码向量；将第i个编码层输出的编码向量作为第i+1个编码层的输入向量进行迭代处理，并将最后一个编码层输出的编码向量作为所述编码矩阵向量；其中，i为大于1的整数。

相应的，所述解码器部分包含多个顺次连接的解码层。本步骤中，将所述编码矩阵向量输出到所述变换器模型中的解码器部分，获得相应的解码矩阵向量，具体实现过程包括：将所述编码矩阵向量输入至第1个解码层，得到第1个解码层输出的解码向量；将第j个解码层输出的解码向量作为第j+1个解码层的输入向量进行迭代处理，并将最后一个解码层输出的解码向量作为解码矩阵向量；其中，j为大于1的整数。

在本发明实施例中，上述变换器模型的训练过程包括：准备多对(pair)相同场景已经对齐的源模态和目标模态图像；将源模态图像和目标模态图像切分为数量相同的N个小块；每个小块分别变换为1维向量，两幅图像构成两个2维矩阵；将一组源模态图像和目标模态图像组成的二维矩阵作为一个训练样本；从而利用多组图像对构成训练样本集合。初始化模型参数，以最小化输出源模态图像与目标模态图像的误差为目标，训练变换器模型，获得满足预设条件的变换器模型。其中，初始化模型参数包括嵌入编码模型、位置编码模型以及注意力模型的参数；初始模型参数可以为完全随机的数值，也可选取其它应用预训练模型的参数，在此不做具体限定。

进一步的，在具体实施过程中，可将训练好的模型可作为预训练模型，用于其它模态间变换的迁移。具体的，将训练好的全局注意力模型作为预训练模型，并基于第二源模态图像的类型对所述预训练模型中的目标层进行训练，经过参数微调得到相应的第二全局注意力模型；将所述第二源模态图像输入至所述第二全局注意力模型中进行处理，得到对应的第二目标模态图像。其中，所述源模态图像和所述第二源模态图像对应的模态不同。

另外，需要说明的是，在本发明实施例中，所述的全局注意力模型包括但不限于是指基于注意力机制的变换器模型，其也可以是指其他类型的注意力模型，在此不做具体限定。

采用本发明实施例所述的跨模态图像转换方法，能够基于变换器模型的编解码机制，利用注意力模型对整体信息的学习能力，方便不同模态图像的对比、融合。该方法不依赖于具体的成像模型，只要获取适量的源目标图像训练后，即可适用于任意模态图像的变换，同传统方法相比，提高了跨模态图像转换的效率和稳定性，具有更好的适应性和通用性。

与上述提供的一种跨模态图像转换方法相对应，本发明还提供一种跨模态图像转换装置。由于该装置的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的跨模态图像转换装置的实施例仅是示意性的。请参考图3所示，其为本发明实施例提供的一种跨模态图像转换装置的结构示意图。

本发明所述的一种跨模态图像转换装置具体包括如下部分：

源模态图像处理单元301，用于确定源模态图像对应的源模态矩阵向量。

源模态图像转换单元302，用于将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像；其中，所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。

采用本发明实施例所述的跨模态图像转换装置，能够基于变换器模型的编解码机制，利用注意力模型对整体信息的学习能力，方便不同模态图像的对比、融合。该方法不依赖于具体的成像模型，只要获取适量的源目标图像训练后，即可适用于任意模态图像的变换，同传统方法相比，提高了跨模态图像转换的效率和稳定性，具有更好的适应性和通用性。

与上述提供的跨模态图像转换方法相对应，本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的电子设备仅是示意性的。如图4所示，其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括：处理器(processor)401、存储器(memory)402和通信总线403，其中，处理器401，存储器402通过通信总线403完成相互间的通信。处理器401可以调用存储器402中的逻辑指令，以执行跨模态图像转换方法，该方法包括：确定源模态图像对应的源模态矩阵向量；将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像；其中，所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。

此外，上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的跨模态图像转换方法，该方法包括：确定源模态图像对应的源模态矩阵向量；将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像；其中，所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的跨模态图像转换方法，该方法包括：确定源模态图像对应的源模态矩阵向量；将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像；其中，所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种跨模态图像转换方法，其特征在于，包括：

确定源模态图像对应的源模态矩阵向量；

将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像；其中，所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。

2.根据权利要求1所述的跨模态图像转换方法，其特征在于，所述确定源模态图像对应的源模态矩阵向量，具体包括：

将所述源模态图像进行切分，获得若干个源模态小块；

3.根据权利要求1所述的跨模态图像转换方法，其特征在于，所述全局注意力模型为基于注意力机制的变换器模型；

4.根据权利要求3所述的跨模态图像转换方法，其特征在于，所述编码器部分包含多个顺次连接的编码层；

5.根据权利要求3所述的跨模态图像转换方法，其特征在于，所述解码器部分包含多个顺次连接的解码层；

6.根据权利要求1所述的跨模态图像转换方法，其特征在于，还包括：对所述源模态矩阵向量进行嵌入编码和位置编码处理，得到所述编码处理后的源模态矩阵向量。

7.根据权利要求1所述的跨模态图像转换方法，其特征在于，还包括：

8.一种跨模态图像转换装置，其特征在于，包括：

源模态图像转换单元，用于将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理，得到相应的目标模态图像；其中，所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任意一项所述的跨模态图像转换方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7任意一项所述的跨模态图像转换方法的步骤。