CN112862727A - 一种跨模态图像转换方法及装置 - Google Patents
一种跨模态图像转换方法及装置 Download PDFInfo
- Publication number
- CN112862727A CN112862727A CN202110282925.XA CN202110282925A CN112862727A CN 112862727 A CN112862727 A CN 112862727A CN 202110282925 A CN202110282925 A CN 202110282925A CN 112862727 A CN112862727 A CN 112862727A
- Authority
- CN
- China
- Prior art keywords
- source
- modal
- image
- vector
- matrix vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 136
- 239000011159 matrix material Substances 0.000 claims abstract description 98
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003384 imaging method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种跨模态图像转换方法及装置。其中,该方法包括:确定源模态图像对应的源模态矩阵向量;将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像;其中,所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。采用本发明公开的跨模态图像转换方法,能够利用注意力模型对整体信息的学习能力,来实现不同模态间图像的变换,提高了跨模态图像转换的效率和稳定性,同传统方法相比,具有更好的适应性和通用性。
Description
技术领域
本发明涉及计算机图像处理技术领域,具体涉及一种跨模态图像转换方法和装置。另外,还涉及一种电子设备及非暂态计算机可读存储介质。
背景技术
近年来,计算机图像处理技术得到了快速的发展,而在计算机图像研究领域中,图像转换技术是一项重要的研究内容。图像转换旨在研究数据域之间的关系,并解决如何将一个模态的图像转换成另一个模态的图像。跨模态图像转换技术在多个领域有着重要的应用,例如汽车驾驶应用的红外与可见光图像的信息融合,医疗应用中CT(ComputedTomography)图像与MRI(Magnetic Resonance Imaging)图像的融合对照等等,从而实现多模态信息融合。同一场景中不同模态的图像可从不同手段获得有用信息,互为补充,比如红外和可见光图像。变换后的图像可用于与目标模态图像的对比、配准或其它分析。然而,不同模态图像成像介质不同,内容差别很大,不利于跨模态信息的联合分析。
现有技术中,为方便在相同条件下比较,往往需要将不同模态图像映射到同一模态对齐,再比较不同模态的信息。传统方法是基于特定模态下的成像物理模型来反演其在另一模态的数值,其具体又包括两类:通过源模态反演物体信息,再根据物体信息在目标模特二次成像;通过成像模型构建二模态间的直接映射。常规的做法是基于物理模型的跨模态转换方法,然而此种方法高度依赖具体模态成像的模型准确度和成像因素的条件变化,很难获得好的变换效果,也不具有通用性。因此如何设计一种通用、高效的跨模态图像转换方案成为本领域研究的重要课题。
发明内容
为此,本发明提供一种跨模态图像转换方法及装置,以解决现有技术中存在的跨模态图像转换方案,局限性较高,不具有通用性,跨模态图像转换效率较差的问题。
本发明提供一种跨模态图像转换方法,包括:
确定源模态图像对应的源模态矩阵向量;
将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像;
其中,所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。
进一步的,所述确定源模态图像对应的源模态矩阵向量,具体包括:
将所述源模态图像进行切分,获得若干个源模态小块;
将所述源模态小块分别变换为对应的一维向量,基于所述一维向量构成所述源模态图像对应的源模态矩阵向量。
进一步的,所述全局注意力模型为基于注意力机制的变换器模型;
所述将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像,具体包括:
将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理,获得相应的编码矩阵向量;
将所述编码矩阵向量输出到所述变换器模型中的解码器部分,获得相应的解码矩阵向量;
将所述解码矩阵向量输入至目标嵌入层反投影为目标模态小块,并拼接所述目标模态小块,得到相应的目标模态图像。
进一步的,所述编码器部分包含多个顺次连接的编码层;
所述将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理,获得相应的编码矩阵向量,具体包括:
将所述编码后的源模态矩阵向量输入至第1个编码层,得到第1个编码层输出的编码向量;
将第i个编码层输出的编码向量作为第i+1个编码层的输入向量进行迭代处理,并将最后一个编码层输出的编码向量作为所述编码矩阵向量;其中,i为大于1的整数。
进一步的,所述解码器部分包含多个顺次连接的解码层;
将所述编码矩阵向量输出到所述变换器模型中的解码器部分,获得相应的解码矩阵向量,具体包括:
将所述编码矩阵向量输入至第1个解码层,得到第1个解码层输出的解码向量;
将第j个解码层输出的解码向量作为第j+1个解码层的输入向量进行迭代处理,并将最后一个解码层输出的解码向量作为解码矩阵向量;其中,j为大于1的整数。
进一步的,所述的跨模态图像转换方法,还包括:对所述源模态矩阵向量进行嵌入编码和位置编码处理,得到所述编码处理后的源模态矩阵向量。
进一步的,所述的跨模态图像转换方法,还包括:
将所述全局注意力模型作为预训练模型,并基于第二源模态图像的类型对所述预训练模型中的目标层进行训练,经过参数微调得到相应的第二全局注意力模型;
将所述第二源模态图像输入至所述第二全局注意力模型中进行处理,得到对应的第二目标模态图像;其中,所述源模态图像和所述第二源模态图像对应的模态不同。
相应的,本发明实施例还提供一种跨模态图像转换装置,包括:
源模态图像处理单元,用于确定源模态图像对应的源模态矩阵向量;
源模态图像转换单元,用于将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像;
其中,所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。
进一步的,所述源模态图像处理单元,具体用于:
将所述源模态图像进行切分,获得若干个源模态小块;
将所述源模态小块分别变换为对应的一维向量,基于所述一维向量构成所述源模态图像对应的源模态矩阵向量。
进一步的,所述全局注意力模型为基于注意力机制的变换器模型;
所述源模态图像转换单元,具体用于:
将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理,获得相应的编码矩阵向量;
将所述编码矩阵向量输出到所述变换器模型中的解码器部分,获得相应的解码矩阵向量;
将所述解码矩阵向量输入至目标嵌入层反投影为目标模态小块,并拼接所述目标模态小块,得到相应的目标模态图像。
进一步的,所述编码器部分包含多个顺次连接的编码层;
所述源模态图像转换单元,具体用于:
将所述编码后的源模态矩阵向量输入至第1个编码层,得到第1个编码层输出的编码向量;
将第i个编码层输出的编码向量作为第i+1个编码层的输入向量进行迭代处理,并将最后一个编码层输出的编码向量作为所述编码矩阵向量;其中,i为大于1的整数。
进一步的,所述解码器部分包含多个顺次连接的解码层;
所述源模态图像转换单元,具体用于:
将所述编码矩阵向量输入至第1个解码层,得到第1个解码层输出的解码向量;
将第j个解码层输出的解码向量作为第j+1个解码层的输入向量进行迭代处理,并将最后一个解码层输出的解码向量作为解码矩阵向量;其中,j为大于1的整数。
进一步的,所述的跨模态图像转换装置,还包括:嵌入及位置编码处理单元,用于对所述源模态矩阵向量进行嵌入编码和位置编码处理,得到所述编码处理后的源模态矩阵向量。
进一步的,所述的跨模态图像转换装置,还包括:
模型微调处理单元,用于将所述全局注意力模型作为预训练模型,并基于第二源模态图像的类型对所述预训练模型中的目标层进行训练,经过参数微调得到相应的第二全局注意力模型;
所述源模态图像转换单元,用于将所述第二源模态图像输入至所述第二全局注意力模型中进行处理,得到对应的第二目标模态图像;其中,所述源模态图像和所述第二源模态图像对应的模态不同。
相应的,本发明还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的跨模态图像转换方法的步骤。
相应的,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的跨模态图像转换方法的步骤。
采用本发明所述的跨模态图像转换方法,能够利用注意力模型对整体信息的学习能力实现跨模态图像转换,提高了跨模态图像转换的效率和稳定性,同传统方法相比,具有更好的适应性和通用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1为本发明实施例提供的变换器模型对应的流程示意图;
图2为本发明实施例提供的一种跨模态图像转换方法的流程示意图;
图3为本发明实施例提供的一种跨模态图像转换装置的结构示意图;
图4为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
下面基于本发明所述的跨模态图像转换方法,对其实施例进行详细描述。如图1所示,其为本发明实施例提供的跨模态图像转换方法的流程示意图,具体实现过程包括以下步骤:
步骤101:确定源模态图像对应的源模态矩阵向量。
具体的,首先将源模态图像进行切分,获得若干个源模态小块;将所述源模态小块分别变换为对应的一维向量,基于所述一维向量构成所述源模态图像对应的源模态矩阵向量。比如,可将源模态图像切分为N个源模态小块,每个源模态小块分别变换为一维向量。
步骤102:将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像。其中,所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练,以最小化输出原始源模态图像与实际目标模态图像的误差为训练目标进行训练得到的。
具体的,所述全局注意力模型可以是指基于注意力机制的变换器模型(transformer模型)。如图2所示,该Transformer模型本质上是一个编码器(Encoder)-解码器(Decoder)的结构,编码器由6个编码层依次连接组成,解码器是6个解码层依次连接组成。与所有的生成模型相同的是,编码器接收原始输入的数据,并输出编码向量至解码器,解码器生成解码向量并得到最终的输出数据。编码器可用于将多帧投影数据转化为编码向量。解码器可用于将编码向量生成解码向量,并将解码向量转换为多帧影像数据。
本步骤中,将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像,具体实现过程包括:预先对源模态矩阵向量包含的一维向量进行嵌入编码(embedding编码)和位置编码(poistion编码)处理,得到编码处理后的源模态矩阵向量;源模态图像和目标模态图像各自对应一组预先训练好的embedding矩阵和位置权重;然后,将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理,获得相应的编码矩阵向量;将编码矩阵向量输出到变换器模型中的解码器部分,获得相应的解码矩阵向量;并将解码器部分输出的解码矩阵向量输入至目标嵌入层反投影为目标模态小块,拼接该目标模态小块,从而得到源模态图像对应的目标模态图像。
需要说明的是,由于编码器部分包含多个顺次连接的编码层。在本步骤中,将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理,获得相应的编码矩阵向量,具体实现过程包括:将编码后的源模态矩阵向量输入至第1个编码层,得到第1个编码层输出的编码向量;将第i个编码层输出的编码向量作为第i+1个编码层的输入向量进行迭代处理,并将最后一个编码层输出的编码向量作为所述编码矩阵向量;其中,i为大于1的整数。
相应的,所述解码器部分包含多个顺次连接的解码层。本步骤中,将所述编码矩阵向量输出到所述变换器模型中的解码器部分,获得相应的解码矩阵向量,具体实现过程包括:将所述编码矩阵向量输入至第1个解码层,得到第1个解码层输出的解码向量;将第j个解码层输出的解码向量作为第j+1个解码层的输入向量进行迭代处理,并将最后一个解码层输出的解码向量作为解码矩阵向量;其中,j为大于1的整数。
在本发明实施例中,上述变换器模型的训练过程包括:准备多对(pair)相同场景已经对齐的源模态和目标模态图像;将源模态图像和目标模态图像切分为数量相同的N个小块;每个小块分别变换为1维向量,两幅图像构成两个2维矩阵;将一组源模态图像和目标模态图像组成的二维矩阵作为一个训练样本;从而利用多组图像对构成训练样本集合。初始化模型参数,以最小化输出源模态图像与目标模态图像的误差为目标,训练变换器模型,获得满足预设条件的变换器模型。其中,初始化模型参数包括嵌入编码模型、位置编码模型以及注意力模型的参数;初始模型参数可以为完全随机的数值,也可选取其它应用预训练模型的参数,在此不做具体限定。
进一步的,在具体实施过程中,可将训练好的模型可作为预训练模型,用于其它模态间变换的迁移。具体的,将训练好的全局注意力模型作为预训练模型,并基于第二源模态图像的类型对所述预训练模型中的目标层进行训练,经过参数微调得到相应的第二全局注意力模型;将所述第二源模态图像输入至所述第二全局注意力模型中进行处理,得到对应的第二目标模态图像。其中,所述源模态图像和所述第二源模态图像对应的模态不同。
另外,需要说明的是,在本发明实施例中,所述的全局注意力模型包括但不限于是指基于注意力机制的变换器模型,其也可以是指其他类型的注意力模型,在此不做具体限定。
采用本发明实施例所述的跨模态图像转换方法,能够基于变换器模型的编解码机制,利用注意力模型对整体信息的学习能力,方便不同模态图像的对比、融合。该方法不依赖于具体的成像模型,只要获取适量的源目标图像训练后,即可适用于任意模态图像的变换,同传统方法相比,提高了跨模态图像转换的效率和稳定性,具有更好的适应性和通用性。
与上述提供的一种跨模态图像转换方法相对应,本发明还提供一种跨模态图像转换装置。由于该装置的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的跨模态图像转换装置的实施例仅是示意性的。请参考图3所示,其为本发明实施例提供的一种跨模态图像转换装置的结构示意图。
本发明所述的一种跨模态图像转换装置具体包括如下部分:
源模态图像处理单元301,用于确定源模态图像对应的源模态矩阵向量。
源模态图像转换单元302,用于将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像;其中,所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。
采用本发明实施例所述的跨模态图像转换装置,能够基于变换器模型的编解码机制,利用注意力模型对整体信息的学习能力,方便不同模态图像的对比、融合。该方法不依赖于具体的成像模型,只要获取适量的源目标图像训练后,即可适用于任意模态图像的变换,同传统方法相比,提高了跨模态图像转换的效率和稳定性,具有更好的适应性和通用性。
与上述提供的跨模态图像转换方法相对应,本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的电子设备仅是示意性的。如图4所示,其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括:处理器(processor)401、存储器(memory)402和通信总线403,其中,处理器401,存储器402通过通信总线403完成相互间的通信。处理器401可以调用存储器402中的逻辑指令,以执行跨模态图像转换方法,该方法包括:确定源模态图像对应的源模态矩阵向量;将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像;其中,所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。
此外,上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的跨模态图像转换方法,该方法包括:确定源模态图像对应的源模态矩阵向量;将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像;其中,所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的跨模态图像转换方法,该方法包括:确定源模态图像对应的源模态矩阵向量;将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像;其中,所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种跨模态图像转换方法,其特征在于,包括:
确定源模态图像对应的源模态矩阵向量;
将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像;其中,所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。
2.根据权利要求1所述的跨模态图像转换方法,其特征在于,所述确定源模态图像对应的源模态矩阵向量,具体包括:
将所述源模态图像进行切分,获得若干个源模态小块;
将所述源模态小块分别变换为对应的一维向量,基于所述一维向量构成所述源模态图像对应的源模态矩阵向量。
3.根据权利要求1所述的跨模态图像转换方法,其特征在于,所述全局注意力模型为基于注意力机制的变换器模型;
所述将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像,具体包括:
将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理,获得相应的编码矩阵向量;
将所述编码矩阵向量输出到所述变换器模型中的解码器部分,获得相应的解码矩阵向量;
将所述解码矩阵向量输入至目标嵌入层反投影为目标模态小块,并拼接所述目标模态小块,得到相应的目标模态图像。
4.根据权利要求3所述的跨模态图像转换方法,其特征在于,所述编码器部分包含多个顺次连接的编码层;
所述将编码后的源模态矩阵向量输入至变换器模型中的编码器部分进行处理,获得相应的编码矩阵向量,具体包括:
将所述编码后的源模态矩阵向量输入至第1个编码层,得到第1个编码层输出的编码向量;
将第i个编码层输出的编码向量作为第i+1个编码层的输入向量进行迭代处理,并将最后一个编码层输出的编码向量作为所述编码矩阵向量;其中,i为大于1的整数。
5.根据权利要求3所述的跨模态图像转换方法,其特征在于,所述解码器部分包含多个顺次连接的解码层;
将所述编码矩阵向量输出到所述变换器模型中的解码器部分,获得相应的解码矩阵向量,具体包括:
将所述编码矩阵向量输入至第1个解码层,得到第1个解码层输出的解码向量;
将第j个解码层输出的解码向量作为第j+1个解码层的输入向量进行迭代处理,并将最后一个解码层输出的解码向量作为解码矩阵向量;其中,j为大于1的整数。
6.根据权利要求1所述的跨模态图像转换方法,其特征在于,还包括:对所述源模态矩阵向量进行嵌入编码和位置编码处理,得到所述编码处理后的源模态矩阵向量。
7.根据权利要求1所述的跨模态图像转换方法,其特征在于,还包括:
将所述全局注意力模型作为预训练模型,并基于第二源模态图像的类型对所述预训练模型中的目标层进行训练,经过参数微调得到相应的第二全局注意力模型;
将所述第二源模态图像输入至所述第二全局注意力模型中进行处理,得到对应的第二目标模态图像;其中,所述源模态图像和所述第二源模态图像对应的模态不同。
8.一种跨模态图像转换装置,其特征在于,包括:
源模态图像处理单元,用于确定源模态图像对应的源模态矩阵向量;
源模态图像转换单元,用于将编码处理后的源模态矩阵向量输入至全局注意力模型中进行处理,得到相应的目标模态图像;其中,所述全局注意力模型是以预设的原始源模态图像和实际目标模态图像的二维矩阵为训练样本进行训练得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任意一项所述的跨模态图像转换方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任意一项所述的跨模态图像转换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282925.XA CN112862727B (zh) | 2021-03-16 | 2021-03-16 | 一种跨模态图像转换方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282925.XA CN112862727B (zh) | 2021-03-16 | 2021-03-16 | 一种跨模态图像转换方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112862727A true CN112862727A (zh) | 2021-05-28 |
CN112862727B CN112862727B (zh) | 2023-06-23 |
Family
ID=75994781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110282925.XA Active CN112862727B (zh) | 2021-03-16 | 2021-03-16 | 一种跨模态图像转换方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112862727B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114638745A (zh) * | 2022-03-16 | 2022-06-17 | 江南大学 | 一种基于多借鉴信息的医学影像智能转换方法 |
WO2023045482A1 (zh) * | 2021-09-27 | 2023-03-30 | 深圳技术大学 | 基于长距离注意力模型重建的多层磁共振成像方法及装置 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109285200A (zh) * | 2018-08-23 | 2019-01-29 | 上海连叶智能科技有限公司 | 一种基于人工智能的多模态医学影像的转换方法 |
CN109460794A (zh) * | 2018-11-19 | 2019-03-12 | 广东工业大学 | 一种数据特征提取方法、系统及电子设备和存储介质 |
US20190197366A1 (en) * | 2016-09-05 | 2019-06-27 | Kheiron Medical Technologies Ltd | Multi-modal medical image processing |
CN110269600A (zh) * | 2019-08-06 | 2019-09-24 | 合肥工业大学 | 基于多元经验模态分解与联合盲源分离的非接触式视频心率检测方法 |
US20190332900A1 (en) * | 2018-04-30 | 2019-10-31 | Elekta Ab | Modality-agnostic method for medical image representation |
CN110472688A (zh) * | 2019-08-16 | 2019-11-19 | 北京金山数字娱乐科技有限公司 | 图像描述的方法及装置、图像描述模型的训练方法及装置 |
US20190370616A1 (en) * | 2018-05-30 | 2019-12-05 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
WO2019231624A2 (en) * | 2018-05-30 | 2019-12-05 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
CN110675316A (zh) * | 2019-08-29 | 2020-01-10 | 中山大学 | 基于条件生成对抗网络的多域图像转换方法、系统及介质 |
CN111144410A (zh) * | 2019-12-26 | 2020-05-12 | 齐鲁工业大学 | 一种跨模态的图像语义提取方法、系统、设备及介质 |
CN111223057A (zh) * | 2019-12-16 | 2020-06-02 | 杭州电子科技大学 | 基于生成对抗网络的增量式聚焦的图像到图像转换方法 |
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及系统 |
US20200302214A1 (en) * | 2019-03-20 | 2020-09-24 | NavInfo Europe B.V. | Real-Time Scene Understanding System |
CN112102251A (zh) * | 2020-08-20 | 2020-12-18 | 上海壁仞智能科技有限公司 | 一种分割影像的方法及装置、电子设备和存储介质 |
CN112418034A (zh) * | 2020-11-12 | 2021-02-26 | 元梦人文智能国际有限公司 | 多模态情感识别方法、装置、电子设备和存储介质 |
-
2021
- 2021-03-16 CN CN202110282925.XA patent/CN112862727B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190197366A1 (en) * | 2016-09-05 | 2019-06-27 | Kheiron Medical Technologies Ltd | Multi-modal medical image processing |
US20190332900A1 (en) * | 2018-04-30 | 2019-10-31 | Elekta Ab | Modality-agnostic method for medical image representation |
US20190370616A1 (en) * | 2018-05-30 | 2019-12-05 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
WO2019231624A2 (en) * | 2018-05-30 | 2019-12-05 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
CN109285200A (zh) * | 2018-08-23 | 2019-01-29 | 上海连叶智能科技有限公司 | 一种基于人工智能的多模态医学影像的转换方法 |
CN109460794A (zh) * | 2018-11-19 | 2019-03-12 | 广东工业大学 | 一种数据特征提取方法、系统及电子设备和存储介质 |
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
US20200302214A1 (en) * | 2019-03-20 | 2020-09-24 | NavInfo Europe B.V. | Real-Time Scene Understanding System |
CN110269600A (zh) * | 2019-08-06 | 2019-09-24 | 合肥工业大学 | 基于多元经验模态分解与联合盲源分离的非接触式视频心率检测方法 |
CN110472688A (zh) * | 2019-08-16 | 2019-11-19 | 北京金山数字娱乐科技有限公司 | 图像描述的方法及装置、图像描述模型的训练方法及装置 |
CN110675316A (zh) * | 2019-08-29 | 2020-01-10 | 中山大学 | 基于条件生成对抗网络的多域图像转换方法、系统及介质 |
CN111223057A (zh) * | 2019-12-16 | 2020-06-02 | 杭州电子科技大学 | 基于生成对抗网络的增量式聚焦的图像到图像转换方法 |
CN111144410A (zh) * | 2019-12-26 | 2020-05-12 | 齐鲁工业大学 | 一种跨模态的图像语义提取方法、系统、设备及介质 |
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及系统 |
CN112102251A (zh) * | 2020-08-20 | 2020-12-18 | 上海壁仞智能科技有限公司 | 一种分割影像的方法及装置、电子设备和存储介质 |
CN112418034A (zh) * | 2020-11-12 | 2021-02-26 | 元梦人文智能国际有限公司 | 多模态情感识别方法、装置、电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
哈楼: "数字图像处理-图像变换编码", 《HTTPS://WWW.DOCIN.COM/P-2095460615.HTML》 * |
邓一姣等: "面向跨模态检索的协同注意力网络模型", 《计算机科学》 * |
邹纪云等: "基于辅助模态监督训练的情绪识别神经网络", 《河北科技大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023045482A1 (zh) * | 2021-09-27 | 2023-03-30 | 深圳技术大学 | 基于长距离注意力模型重建的多层磁共振成像方法及装置 |
CN114638745A (zh) * | 2022-03-16 | 2022-06-17 | 江南大学 | 一种基于多借鉴信息的医学影像智能转换方法 |
CN114638745B (zh) * | 2022-03-16 | 2023-08-18 | 江南大学 | 一种基于多借鉴信息的医学影像智能转换方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112862727B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113658051B (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN110544275B (zh) | 生成配准的带病灶分割标签的多模态mri的方法、系统及介质 | |
CN110728203B (zh) | 基于深度学习的手语翻译视频生成方法及系统 | |
CN112862727B (zh) | 一种跨模态图像转换方法及装置 | |
WO2022242131A1 (zh) | 图像分割方法、装置、设备及存储介质 | |
JP2019075108A (ja) | 情報処理方法及び装置、並びに情報検出方法及び装置 | |
CN110211079B (zh) | 医学图像的融合方法及装置 | |
EP3555850A1 (en) | System and method for image segmentation using a joint deep learning model | |
CN113052882B (zh) | 图像配准方法及相关装置、电子设备、存储介质 | |
WO2022151586A1 (zh) | 一种对抗配准方法、装置、计算机设备及存储介质 | |
Tahir et al. | Voxel-based 3D object reconstruction from single 2D image using variational autoencoders | |
CN113096001A (zh) | 图像处理方法、电子设备及可读存储介质 | |
CN114694074A (zh) | 一种使用图像生成视频的方法、装置以及存储介质 | |
CN116962657B (zh) | 彩色视频生成方法、装置、电子设备及存储介质 | |
CN112102251A (zh) | 一种分割影像的方法及装置、电子设备和存储介质 | |
WO2023071806A1 (zh) | 先验空间的生成方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品 | |
Zhao et al. | Dynamic multi-attention dehazing network with adaptive feature fusion | |
CN113689435B (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN116016953A (zh) | 一种基于深度熵编码的动态点云属性压缩方法 | |
CN113554719B (zh) | 一种图像编码方法、解码方法、存储介质及终端设备 | |
CN115205487A (zh) | 单目相机人脸重建方法及装置 | |
Kok et al. | Fractal image interpolation: a tutorial and new result | |
CN115115900A (zh) | 图像重建模型的训练方法、装置、设备、介质及程序产品 | |
Jin et al. | Double-constraint inpainting model of a single-depth image | |
Rashidizad et al. | Efficient point cloud lossless data compression method based on an embedded Gray code structured light pattern sequence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai Patentee after: Shanghai Bi Ren Technology Co.,Ltd. Country or region after: China Address before: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai Patentee before: Shanghai Bilin Intelligent Technology Co.,Ltd. Country or region before: China |