CN114842312A

CN114842312A - 面向不配对跨模态图像分割模型的生成及分割方法、装置

Info

Publication number: CN114842312A
Application number: CN202210502789.5A
Authority: CN
Inventors: 张瑞茂; 杨杰; 万翔
Original assignee: Shenzhen Research Institute of Big Data SRIBD
Current assignee: Shenzhen Research Institute of Big Data SRIBD
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-08-02
Anticipated expiration: 2042-05-09
Also published as: CN114842312B

Abstract

本发明公开了一种面向不配对跨模态图像分割模型的生成以及分割方法、装置，包括：获取至少两种不同模态的未配对医学图像，并分别输入至对应的图像嵌入模块中，以获取不同模态的嵌入特征图；将不同模态的嵌入特征图输入至预设训练模型中，以获取不同模态在多个尺度上的特征图；根据不同模态的原始模态感知查询以及特征图，通过外部注意力模块，确定不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图；将不同模态的特征图在多个尺度上进行全局对齐，以确定对齐损失；根据对齐损失，对预设训练模型进行迭代训练，直至对齐损失符合预设优化条件时，生成实际分割模型。减轻数据差异，使得模型具有更强的泛化性。

Description

面向不配对跨模态图像分割模型的生成及分割方法、装置

技术领域

本发明涉及图像分割技术领域，尤其涉及一种面向不配对跨模态图像分割模型的生成以及分割方法、装置、计算机设备及存储介质。

背景技术

近年来，整合多模态数据提高医学图像分析水平受到广泛关注，但是由于不同模态的医学图像数据之间的差异，导致不同模态的医学图像数据之间存在一定的域偏移，如何解决不同模态医学图像数据之间的域偏移，逐渐成为当前亟待解决的问题。

目前，可以通过联合多模态表征学习来减轻多模态医学图像数据的域偏移。具体通过在训练阶段直接对齐来自不同模态的特定类别表示或者空间位置的特征表示。然而，这种联合多模态表示学习需要具有空间对齐性质的多模态医学图像，例如多序列MRI(T1、T1c、T2、FLAIR)。因此其在处理空间错位的未配对多模态医学图像是不可行的。而最近提出的四种双流CNN模型，通过对各个模态分配特定的特征提取器，以缓解未配对CT和MRI图像之间的域偏移问题。但是，该方法极大地影响了模型的参数效率，并限制了模型在处理更多模态数据的泛化能力。

由此可知，目前在对多模态医学图像进行分析预测时，存在精度不够，且模型的泛化能力差的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种面向不配对跨模态图像分割模型的生成以及分割方法、装置、计算机设备及存储介质，以解决现有技术中在对多模态医学图像进行分析预测时，精度不够，且模型的泛化能力差的问题。

第一方面，本申请提供了一种面向不配对跨模态图像分割模型的生成方法，包括：

获取至少两种不同模态的未配对医学图像，并分别输入至对应的图像嵌入模块中，以获取不同模态的嵌入特征图；

将所述不同模态的嵌入特征图输入至预设训练模型中，以获取不同模态在多个尺度上的特征图；

根据不同模态的原始模态感知查询以及所述不同模态在多个尺度上的特征图，通过外部注意力模块，确定不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图；

根据所述不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，将所述不同模态的特征图在多个尺度上进行全局对齐，以确定对齐损失；

根据所述对齐损失，对所述预设训练模型进行迭代训练，直至所述对齐损失符合预设优化条件时，生成实际分割模型。

在一实施例中，所述根据所述不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，将所述不同模态的特征图在多个尺度上进行全局对齐，以确定对齐损失，包括：

根据所述不同模态在不同尺度上的模态感知查询，计算所述不同模态的未配对医学图像之间的一致性，以确定第一损失；

根据所述不同模态在不同尺度上的感知语义相关图，计算不同模态的特征图在多个尺度上的语义相关性，以确定第二损失；

根据所述第一损失以及第二损失，确定所述对齐损失。

在一实施例中，根据不同模态的原始模态感知查询以及所述不同模态在多个尺度上的特征图，通过外部注意力模块，确定不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，包括：

将所述不同模态的原始模态感知查询以及不同模态在第一尺度上的特征图输入至第一外部注意力模块中，以获取不同模态在第一尺度上的模态感知查询以及感知语义相关图；

将所述不同模态在第一尺度上的模态感知查询以及不同模态在第二尺度上的特征图输入至第二外部注意力模块中，以获取不同模态在第二尺度上的模态感知查询以及感知语义相关图；

将所述不同模态在第二尺度上的模态感知查询以及不同模态在第三尺度上的特征图输入至第三外部注意力模块中，以获取不同模态在第三尺度上的模态感知查询以及感知语义相关性。

在一实施例中，所述将所述不同模态的嵌入特征图输入至预设训练模型中，以获取不同模态在多尺度上的特征图，包括：

将所述不同模态的嵌入特征图输入至所述预设训练模型的编码器中，在不同尺度上逐级对所述嵌入特征图进行下采样操作，以获取多个尺度上的第一特征图；

将所述第一特征图输入至所述预设训练模型的解码器中，在不同尺度上逐级对所述第一特征图进行上采样操作，以获取多个尺度上的第二特征图；

将所述多个尺度上的第一特征图以及所述多个尺度上的第二特征图中，分辨率一致的特征图，进行逐元素相加，以获取所述不同模态在多尺度上的特征图。

在一实施例中，所述所编码器包括n个阶段，所述逐级对所述嵌入特征图进行下采样操作，包括:

在所述编码器的第1阶段中，将所述嵌入特征图的维度转换为预设嵌入特征维度；

在所述编码器的2至n个阶段中，逐级对所述嵌入特征图进行下采样操作，以逐级增加所述预设嵌入特征维度。

在一实施例中，所述解码器包括n个阶段，所述将所述第一特征图输入至所述预设训练模型的解码器中，在多个尺度上逐级对所述第一特征图进行上采样操作，包括：

在所述解码器的1至n-1个阶段中，逐级对所述第一特征图进行上采样操作，以将所述第一特征图的维度恢复至所述预设嵌入特征维度。

第二方面，提供了一种面向不配对跨模态图像分割方法，包括：

将所述不同模态的嵌入特征图输入至如权利要求1-6任意一项所述的实际分割模型中；

通过所述实际分割模型对所述嵌入特征图，进行逐像素分割，以生成分割结果。

在一实施例中，所述通过所述实际分割模型对所述嵌入特征图，进行逐元素分割，以生成分割结果，包括：

通过所述实际分割模型的编码器逐级对所述嵌入特征图进行上采样操作，以生成第一特征图；

通过所述实际分割模型的解码器逐级对所述第一特征图的进行下采样操作，以生成第二特征图；

通过所述解码器的分割层对所述第二特征图，进行逐元素分割，以生成所述分割结果。

在一实施例中，所述通过所述实际分割模型对所述嵌入特征图，进行逐像素分割，以生成分割结果之前，包括：

根据模态感知通道乘法以及所述不同模态的模态感知查询，对所述实际分割模型的解码器各个阶段生成的不同模态的特征图，分别进行特定激活的校准。

第三方面，提供了一种面向不配对跨模态图像分割模型的生成装置，包括：

第一嵌入特征图获取单元，用于获取至少两种不同模态的未配对医学图像，并分别输入至对应的图像嵌入模块中，以获取不同模态的嵌入特征图；

特征图获取单元，用于将所述不同模态的嵌入特征图输入至预设训练模型中，以获取不同模态在多个尺度上的特征图；

确定单元，用于根据不同模态的原始模态感知查询以及所述不同模态在多个尺度上的特征图，通过外部注意力模块，确定不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图；

对齐损失确定单元，用于根据所述不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，将所述不同模态的特征图在多个尺度上进行全局对齐，以确定对齐损失；

实际分割模型生成单元，用于根据所述对齐损失，对所述预设训练模型进行迭代训练，直至所述对齐损失符合预设优化条件时，生成实际分割模型。

第四方面，提供了一种面向不配对跨模态图像分割装置，包括：

第二嵌入特征图获取单元，用于获取至少两种不同模态的未配对医学图像，并分别输入至对应的图像嵌入模块中，以获取不同模态的嵌入特征图；

输入单元，用于将所述不同模态的嵌入特征图输入至如权利要求1-6任意一项所述的实际分割模型中；

分割单元，用于通过所述实际分割模型对所述嵌入特征图，进行逐像素分割，以生成分割结果。

第五方面，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述项所述面向不配对跨模态图像分割模型的生成方法的步骤。

第六方面，提供了一个或多个可读存储介质，所述可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如上述所述面向不配对跨模态图像分割模型的生成方法的步骤。

上述面向不配对跨模态图像分割模型的生成以及分割方法、装置、计算机设备及存储介质，其生成方法，包括：获取至少两种不同模态的未配对医学图像样本，并分别输入至对应的图像嵌入模块中，以获取不同模态的嵌入特征图；将所述不同模态的嵌入特征图输入至预设训练模型中，以获取不同模态在多个尺度上的特征图；根据不同模态的原始模态感知查询以及所述不同模态在多个尺度上的特征图，通过外部注意力模块，确定不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图；根据所述不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，计算对应损失，以作为优化目标；根据所述优化目标，对所述预设训练模型进行迭代训练，直至所述优化目标达到预设优化条件，生成实际分割模型。本申请中，通过外部注意力模块计算不同模态在多个尺度上的特征图之间的相关性，并对不同模态在多个尺度上的特征图进行全局对齐，以挖掘不同模态数据间的一致性，减轻不同模态之间的数据差异，使得模型具有更强的泛化性，且，优化后的模型更加鲁棒。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中面向不配对医学图像分割模型生成方法的一应用环境示意图；

图2是本发明一实施例中面向不配对医学图像分割模型生成方法的一流程示意图；

图3是本发明一实施例中外部注意力模块的一处理流程示意图；

图4是本发明一实施例中面向不配对医学图像分割方法的一流程示意图；

图5是本发明一实施例中Transformer模块的一处理流程示意图；

图6是本发明一实施例中面向不配对医学图像分割模型生成装置的一结构示意图；

图7是本发明一实施例中面向不配对医学图像分割装置的一结构示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的一种面向不配对跨模态图像分割模型的生成及分割方法，可应用在如图1的应用环境中，以电子计算机断层扫描(CT)医学图像以及核磁共振(MagneticResonance Imaging，MRI)医学图像作为待分割图像，以Transforme模型作为分割模型，其中，该Transforme模型包括编码器和解码器两部分组成，该编码器中可包括4个阶段，该编码器也可包括4个阶段，在对分割模型进行训练时，将两种模态的医学图像分别通过对应的图像嵌入模块进行处理后，输入至编码器的第一阶段中进行处理，并通过编码器的剩余三个阶段中下采样模块逐级进行维度增加和特征图减少，然后发送至解码器中，当模型处于训练阶段时，在解码器的第一个阶段中，引入原始模态感知查询，通过外部注意力模块对原始模态感知查询以及解码器第一个阶段生成的特征图，采用一致性正则进行计算，以在第一尺度上对不同模态的特征图进行对齐，并获取第一阶段更新后的模态感知查询，将该第一阶段更新后的模态感知查询以及第二阶段生成的特征图通过外部注意力模块进行计算，以在第二尺度上对不同模态的特征图进行对齐，并获取第二阶段更新后的模态感知查询，将该第二阶段更新后的模态感知查询以及第三阶段生成的特征图通过外部注意力模块进行计算，以确定第三阶段更新后的模态感知查询。

当模型处于测试阶段时，则无需通过外部注意力模块进行一致性计算。

在本申请中，该外部注意力模块可包括多个，分别用于计算不同尺度上的不同模态的模态感知查询以及实例感知语义相关图，以便挖掘出不同模态数据间的一致性，减轻不同模态之间的数据差异，使得模型具有更强的泛化性，且，且优化后的模型更加鲁棒。

其中，该模态感知查询为可学习的查询，用于学习模态数据的全局类别表示，该实例感知语义相关图则用于呈现某个模态中特定实例内的类别关系。

其中，不同模态的原始模态感知查询均可为分割网络中的网络参数，为全网的类别特征表示。

在本申请实施例中，该解码器的第四阶段中，通过输出层对图形进行逐像素分割，以获取分割结果。

实施例一、

如图2所示，提供一种面向不配对跨模态图像分割模型的生成方法，包括如下步骤：

在步骤S110中，获取至少两种不同模态的未配对医学图像，并分别输入至对应的图像嵌入模块中，以获取不同模态的嵌入特征图；

在本申请实施例中，该不同模态的未配对医学图像可包括但不限于MRI医学图像、CT医学图像。该不同模态的未配对医学图像可从训练集中任意选取的。

在本申请实施例中，该图像嵌入模块可由两个连续的1×1卷积层构成，通过该两个连续的卷积层进行处理后，形成嵌入特征图，该嵌入特征图可保持分辨率和维度不变。

在本申请实施例中，在获取到嵌入特征图之后，将不同模态的嵌入特征图划分为预设大小的非重叠特征图，比如P×P大小，从而可将嵌入特征图的维度进行重新分配，比如原始特征图的维度为

重新分配后的特征图的维度为

在步骤S120中，将所述不同模态的嵌入特征图输入至预设训练模型中，以获取不同模态在多个尺度上的特征图；

在本申请实施例中，该预设训练模型可为Transformer模型，即，基于Transformer的分割网络，该分割网络可包括编码器和解码器。

在本申请实施例中，该编码器可包括多个阶段，该解码器也可包括多个阶段，在编码器和解码器的每一个阶段均包括一个Transformer模块，以编码器和解码器均包括4个阶段为例进行说明，则编码器和解码器中Transformer模块的基本数量为

和

在本申请一实施例中，将所述不同模态的嵌入特征图输入至预设训练模型中，以获取不同模态在多个尺度上的特征图，包括：

在本申请实施例中，该编码器中包括多个下采样模块，该解码器中包括多个上采样模块，通过该下采样模块逐级对输入的嵌入特征图进行下采样操作，并将输入的嵌入特征图的数量减少为原来的四分之一，该解码器中包括多个上采样模块，通过该上采样模块可以逐级将编码器处理过的特征图恢复至更高的分辨率，并通过跳跃连接，将解码器各个阶段生成的第二特征图与编码器各个阶段生成的第一特征图进行一一对应融合，以生成不同模态在多个尺度上的特征图。

在本申请一实施例中，所述编码器包括n个阶段，所述逐级对所述嵌入特征图进行下采样操作，包括:

在所述编码器的2至n阶段中，逐级对所述嵌入特征图进行下采样操作，以逐级增加所述预设嵌入特征维度。

具体的，该n阶段为4个阶段为例进行说明，在编码器的第一阶段中，通过嵌入模块将嵌入特征图的维度转换为

以形成第一阶段特征图，其中，C是嵌入特征维度，在第二阶段中，通过下采样模块将第一阶段特征图的维度增加一倍，从而生成第二阶段的特征图

第三阶段中，通过下采样模块将第二阶段的特征图的维度增加一倍，从而生产第三阶段的特征图

在第四阶段中，通过下采样模块将第三阶段特征图的维度增加一倍，从而形成第四阶段特征图

同时，在第二阶段、第三阶段以及第四阶段，均通过各自阶段的下采样模块将输入的嵌入特征图的数量逐渐减少至原来的四分之一个。

在本申请一实施例中，所述解码器包括n个阶段，所述将所述第一特征图输入至所述预设训练模型的解码器中，在多个尺度上逐级对所述第一特征图进行上采样操作，包括：

在所述解码器的1至n-1阶段中，逐级对所述第一特征图进行上采样操作，以将所述第一特征图的维度恢复至所述预设嵌入特征维度。

具体的，以该n个阶段为4个阶段为例进行说明，在解码器的第一阶段中，通过上采样模块对编码器的第四阶段生成的特征图

的维度进行降维，从而生成第一阶段特征图

在第二阶段中，通过上采样模块对第一阶段特征图进行降维，从而生成第二阶段特征图

在第三阶段中，通过上采样模块对第二阶段特征图进行降维，从而生成第三阶段特征图

然后将不同阶段的特征图与编码器不同阶段的特征图进行跳跃连接，以进行特征融合。

其中，解码器的第n阶段中的预测层用于对不同模态的医学图像的第三阶段特征图进行分割预测。

在步骤S130中，根据不同模态的原始模态感知查询以及所述不同模态在多个尺度上的特征图，通过外部注意力模块，确定不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图；

在本申请实施例中，模态感知查询是可学习查询，用于学习每个模态数据的全局类别表示，该感知语义相关图则用于呈现某个模态中特定实例内的类别关系。

在本申请一实施例中，所述根据不同模态的原始模态感知查询以及所述不同模态在多个尺度上的特征图，通过外部注意力模块，确定不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，包括：

具体的，如图1所示，将不同模态的模态感知查询表示为Q∈R^Z×4C，其中Z代表了模态内的类别数量。此处Q可以对应于图1中CT图像的六边形或MRI图像的六边形。Q和来自解码器中第一阶段输出的特征图同时输入到第一外部注意力模块，从而执行多头注意力机制，以生成第一阶段的Q₁∈R^Z×2C和E₁∈R^Z×Z。并为了递归处理多尺度特征图，在解码器的第(λ+1)阶段时，将Q_λ，以及来自解码器中第(λ+1)阶段输出的特征图输入到第(λ+1)的外部注意力模块中，以获得Q_λ+1和E_λ+1，其中Q_λ是来自第λ阶段的模态感知查询，E_λ是来自第λ阶段的感知语义相关图。在图一中，

λ∈{1,2}和E_λ∈R^E×E，λ∈{1,2,3}。通过上述方式，可在多个尺度上生成不同模态的模态感知查询以及感知语义相关图。

在本申请实施例中，该不同模态的原始模态感知查询为分割网络中的网络参数。

参见图3，在本申请实施例中，该外部注意力模块可包括多个，可用于计算不同模态在多个尺度上的模态感知查询以及感知语义相关图，以解码器的第一阶段的输入特征图为例对所提出的外部注意力模块进行说明：

假设输入的特征图为

是解码器中第一阶段的输出结果，对F进行线性投影，以计算外部注意操作的键和值，外部注意操作的查询由Q∈R^Z×4C来计算，具体如下述公式所示：

q＝QW_Q,k＝FW_K,v＝FW_V,

其中W_Q,W_K,W_V∈R^4C×4C′是线性投影的参数矩阵。EA是单头外部注意力操作。d_k是q和k的特征维度。softmax(·)表示沿着空间维度的Softmax函数，即

表示在单头外部注意机制下，从第一阶段的输入的特征图中所提取出的语义感知注意力图。

进一步，多头外部注意力机制(MEA)是级联N个独立EA操作并进行投影输出：

MEA(Q,F)＝Contact(EA₁(Q,F),...,EA_N(Q,F))W_o

其中Contact(·)是级联操作。W_O∈R^4C×4C′是可学习的参数矩阵,

因此，Q可以通过多头外部注意力机制进行更新：

其中

MLP(·)是多层感知器的缩写。为了提取来自下一个尺度的高分辨率模态感知查询，进一步采用1×1卷积操作将上述

的维度降低到Z×2C从而获得更新的模态感知查询。通过多头注意力机制从第一尺度的输入特征图中所提取得到的语义感知特征图，可以表示为

其中Z是类别数目。如图3的上半部分所示，利用模态感知查询Q和A₁来计算第一阶段的特征图的实例感知类别相关关系E₁。首先，将Q从Z×4C投影到Z×N，并且分离出每个类别的表示Q_z∈R^N，以及对应的类别特征图

其中j∈(1,...,Z)。由于将Q_z视为特定的类别表示，因此可以通过

来计算

作为类别z和j在特征维度的相关性:

其中Conv是卷积运算，Q_z是卷积核的权重。同理，可以得到特定类别z到所有类别之间的相关性，表示为

其次，在S_1:z维度进行softmax操作，即当给定类别z作为锚点时，获得其与每个类别的相对相似度。然后，利用S_1:z对语义感知特征图A₁进行加权，从而在每个类别特征图A₁处收集与类别z相关的特征，如下所示：

B_1:z＝A₁⊙Broadcast(S_1:z)

其中

表示z和j类的相似性。⊙是逐元素乘法，Broadcast为广播操作，用于将S_1:z的维度扩展到

然后，计算

的最后三个维度的平均值并得到相关向量

通过考虑所有Z类别，最终得到感知语义相关图E₁∈R^Z×Z，用于表示第一阶段的不同模态医学图像之间的关联性。

在步骤S140中，根据所述不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，将所述不同模态的特征图在多个尺度上进行全局对齐，以确定对齐损失；

在本申请实施例中，通过不同模态在多个尺度上的模态感知查询，分别通过一致性正则化L_mcr计算不同模态的模态感知查询之间的距离，以在两个模态中对不同尺度的特征图进行全局对齐，从而在模态间传输结构化信息以增强各自的特征图，由于模态感知查询与每个模态的相应实例交互，因此隐性的影响了每个样本进行像素级别的特征学习。

在本申请实施例中，根据不同模态在多个尺度上的感知语义相关图，通过L_icr计算不同模态在不同尺度上的语义相关性，以在实例级别对齐来自不同模态的任意实例对的类别关系，并且通过产生更多的实例对来驱动语义相关关系的对齐，使优化后的模型更加鲁棒。

在本申请一实施例中，所述根据所述不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，将所述不同模态的特征图在多个尺度上进行全局对齐，以确定对齐损失，包括：

根据所述第一损失以及第二损失，确定所述对齐损失。

具体的，根据所述不同模态在不同尺度上的模态感知查询，计算所述不同模态的未配对医学图像之间的一致性，可通过如下公式进行获取：

其中，

和

分别为模态M₁和模态M₂的模态感知查询。

具体的，根据所述不同模态在不同尺度上的感知语义相关图，计算不同模态的特征图在多个尺度上的语义相关性，可通过如下公式进行获取：

其中，

和

分别为模态M₁和模态M₂在特征尺度为λ上的某一类别与第z类别的相关性向量，D_KL(·||·)是相对熵，σ(·)表示沿着类别维度的softmax函数，T是作为温度超参数来控制相关概率分布的软度。

在本申请一实施例中，通过上述公式获取的L_mcr以及L_icr即可为第一损失以及第二损失，根据该第一损失和第二损失可获取联合损失，以作为对齐损失。

在步骤S150中，根据所述对齐损失，对所述预设训练模型进行迭代训练，直至所述对齐损失符合预设优化条件时，生成实际分割模型。

在本申请实施例中，在通过上述L_mcr以及L_icr获取对齐损失之后，根据该对齐损失对预设训练模型进行迭代训练，直至对齐损失符合预设优化条件，比如，该L_mcr以及L_icr的值趋近于0，此时训练好的实际分割模型可以很好的挖掘出不同模态数据间的一致性，以减轻不同模态之间的数据差异，使得模型具有更强的泛化性。

上述面向不配对跨模态图像分割模型的生成以及分割方法，包括：获取至少两种不同模态的未配对医学图像样本，并分别输入至对应的图像嵌入模块中，以获取不同模态的嵌入特征图；将所述不同模态的嵌入特征图输入至预设训练模型中，以获取不同模态在多个尺度上的特征图；根据不同模态的原始模态感知查询以及所述不同模态在多个尺度上的特征图，通过外部注意力模块，确定不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图；根据所述不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，计算对应损失，以作为优化目标；根据所述优化目标，对所述预设训练模型进行迭代训练，直至所述优化目标达到预设优化条件，生成实际分割模型。本申请中，通过外部注意力模块计算不同模态在多个尺度上的特征图之间的相关性，并对不同模态在多个尺度上的特征图进行全局对齐，以挖掘不同模态数据间的一致性，减轻不同模态之间的数据差异，使得模型具有更强的泛化性且，且，优化后的模型更加鲁棒。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例二、

参见图4、在一实施例中，本申请还提供了一种面向不配对面向不配对跨模态图像分割方法，包括如下流程：

在步骤S210中，获取至少两种不同模态的未配对医学图像，并分别输入至对应的图像嵌入模块中，以获取不同模态的嵌入特征图；

在本申请实施例中，该不同模态的未配对医学图像可包括但不限于MRI医学图像、CT医学图像。该不同模态的未配对医学图像可为临床患者的待分割的实际医学图像。

重新分配后的特征图的维度为

在步骤S220中，将所述不同模态的嵌入特征图输入至实施例一中所述的实际分割模型中；

在本申请实施例中，该实际分割模型为通过实施例一所述方法进行训练后，生成的优化后的基于Transformer的分割网络，该分割网络可包括编码器和解码器，具体生成方法可参考上述实施例一的内容，在此不在赘述。

在本申请实施例中，在获取到不同模态的嵌入特征图后，可分别输入至实际分割模型中进行分割处理。

在步骤S230中，通过所述实际分割模型对所述嵌入特征图，进行逐像素分割，以生成分割结果。

在本申请实施例中，该实际分割模型中可包括编码器和解码器，且该编码器和解码器均可包括多个阶段，且在编码器和解码器的每一个阶段中均包括一个Transformer模块，以编码器和解码器均包括4个阶段为例进行说明，则编码器和解码器中Transformer模块的基本数量为

和

在本申请实施例中，该编码器中可包括多个下采样模块，该解码器中可包括多个上采样模块，通过该下采样模块逐级对输入的嵌入特征图进行下采样操作，并将输入的嵌入特征图的数量减少为原来的四分之一，该解码器中包括多个上采样模块，通过该上采样模块可以逐级将编码器处理过的特征图恢复至更高的分辨率，并通过跳跃连接，将解码器各个阶段生成的第二特征图与编码器各个阶段生成的第一特征图进行一一对应融合，以生成不同模态在多个尺度上的特征图。

在本申请实施例中，所述通过所述实际分割模型对所述嵌入特征图，进行逐元素分割，以生成分割结果，包括：

以编码器包括4个阶段为例进行说明，在编码器的第一阶段中，通过嵌入模块将嵌入特征图的维度转换为

以解码器包括4个阶段为例进行说明，在解码器的第一阶段中，通过上采样模块对编码器的第四阶段生成的特征图

的维度进行降维，从而生成第一阶段特征图

并通过第四阶段的预测层对第三阶段特征图进行逐元素分割，以生成不同模态的医学图像的分割结果。

在本申请一实施例中，在解码器获取不同阶段的特征图之后，可以将不同阶段的特征图与编码器不同阶段生成的特征图进行跳跃连接，实现特征融合。

在本申请一实施例中，所述通过所述实际分割模型对所述嵌入特征图，进行逐像素分割，以生成分割结果之前，包括：

具体的，在实际分割模型的编码器以及解码器的各个阶段均设置有Transformer模块，参见图5，该Transformer模块包括归一化、多头注意力机制、模态感知通道乘法以及前馈层，具体的处理过程可为：输入特征图先通过归一化进行处理后，基于多头注意力机制进行处理，并将模态感知查询以及多头注意力机制处理过的特征图通过模态感知通道乘法进行处理，然后在通过归一化、前馈层以及模态感知通道乘法处理后输出处理后的特征图。

本申请实施例中，通过在传统的Transformer模块里的每个残差操作的输出上引入模态感知通道乘法，可以在特征维度上校准特定于模态的激活，以便帮助实际分割模型进一步缩小不同模态之间的表征差异，提高模型的泛化性。

具体的，各个模态特定的模态感知查询Q∈R^Z×4C，可以通过线性投影来聚合其语义信息来生成特定模态的通道权重Ω∈R^4C，然后将Ω投影到相应的特征维度(例如，特定尺度从4C到D)，并采用Diag(·)操作生成对角矩阵来实现模态特定激活的校准：

Ω＝w₁Q,Ψ₁＝diag(ΩW₂),Ψ₂＝diag(ΩW₃)

其中w₁∈R^Z,W₂∈R^4C×D,W₃∈R^4C×D,MSA(·)和FFN(·)分别表示多头注意力层和前馈层。Norm(·)表示LayerNorm操作，

是通道乘法。X_l和X_l+1表示第(l+1)个Transformer模块的输入和输出。

本申请中，通过生成的实际分割模型对不同模态的医学图像进行分割，可以有效挖掘不同模态数据间的一致性，并且进一步，引入了模态感知通道乘法可以进一步缩小不同模态之间的数据差异，使得模型具有更强的泛化性。

实施例三、

在一实施例中，提供一种面向不配对面向不配对跨模态图像分割模型生成装置，该面向不配对面向不配对跨模态图像分割模型生成装置与上述实施例中面向不配对面向不配对跨模态图像分割模型生成方法一一对应。如图6所示，该面向不配对面向不配对跨模态图像分割模型生成装置包括第一嵌入特征图获取单元101、特征图获取单元102、确定单元103、优化目标确定单元104以及实际分割模型生成单元105。各功能模块详细说明如下：

第一嵌入特征图获取单元101，用于获取至少两种不同模态的未配对医学图像样本，并分别输入至对应的图像嵌入模块中，以获取不同模态的嵌入特征图；

特征图获取单元102，用于将所述不同模态的嵌入特征图输入至预设训练模型中，以获取不同模态在多个尺度上的特征图；

确定单元103，用于根据不同模态的原始模态感知查询以及所述不同模态在多个尺度上的特征图，通过外部注意力模块，确定不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图；

对齐损失确定单元104，用于根据所述不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，将所述不同模态的特征图在多个尺度上进行全局对齐，以确定对齐损失；

实际分割模型生成单元105，用于根据所述对齐损失，对所述预设训练模型进行迭代训练，直至所述对齐损失符合预设优化条件时，生成实际分割模型。

在本申请一实施例中，对齐损失确定单元104，还用于：

根据所述第一损失以及第二损失，确定所述对齐损失。

在本申请一实施例中，确定单元103，还用于：

在本申请一实施例中，特征图获取单元102，还用于：

在本申请一实施例中，所述所编码器包括n个阶段，特征图获取单元102，还用于：

在本申请一实施例中，所述解码器包括n个阶段，特征图获取单元102，还用于：

关于面向不配对跨模态图像分割模型生成装置的具体限定可以参见上文中对于面向不配对跨模态图像分割模型生成方法的限定，在此不再赘述。上述面向不配对跨模态图像分割模型生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

实施例四、

在一实施例中，提供一种面向不配对面向不配对跨模态图像分割装置，该面向不配对面向不配对跨模态图像分割装置与上述实施例中面向不配对面向不配对跨模态图像分割方法一一对应。如图7所示，该面向不配对面向不配对跨模态图像分割装置包括：第二嵌入特征图获取单元201、输入单元202以及分割单元203。各功能模块详细说明如下：

第二嵌入特征图获取单元201，用于获取至少两种不同模态的未配对医学图像，并分别输入至对应的图像嵌入模块中，以获取不同模态的嵌入特征图；

输入单元202，用于将所述不同模态的嵌入特征图输入至如权利要求1-6任意一项所述的实际分割模型中；

分割单元203，用于通过所述实际分割模型对所述嵌入特征图，进行逐像素分割，以生成分割结果。

在本申请一实施例中，分割单元203，还用于：

在本申请一实施例中，本申请还包括，校准模块，用于：

关于面向不配对跨模态图像分割装置的具体限定可以参见上文中对于面向不配对跨模态图像分割方法的限定，在此不再赘述。上述面向不配对跨模态图像分割模型生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端设备，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质。该可读存储介质存储有计算机可读指令。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种面向不配对跨模态图像分割模型生成方法以及分割方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现如上述面向不配对跨模态图像分割模型生成方法以及分割方法的步骤。

一种可读存储介质，可读存储介质存储有计算机可读指令，计算机可读指令被处理器执行时实现如上述面向不配对跨模态图像分割模型生成方法以及分割方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种面向不配对跨模态图像分割模型的生成方法，其特征在于，所述方法，包括：

2.如权利要求1所述面向不配对跨模态图像分割模型的生成方法，其特征在于，所述根据所述不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，将所述不同模态的特征图在多个尺度上进行全局对齐，以确定对齐损失，包括：

根据所述第一损失以及第二损失，确定所述对齐损失。

3.如权利要求1所述面向不配对跨模态图像分割模型的生成方法，其特征在于，所述根据不同模态的原始模态感知查询以及所述不同模态在多个尺度上的特征图，通过外部注意力模块，确定不同模态在多个尺度上的模态感知查询，以及不同模态在多个尺度上的感知语义相关图，包括：

4.如权利要求1所述的面向不配对跨模态图像分割模型的生成方法，其特征在于，所述将所述不同模态的嵌入特征图输入至预设训练模型中，以获取不同模态在多尺度上的特征图，包括：

5.如权利要求4所述的面向不配对跨模态图像分割模型的生成方法，其特征在于，所述所编码器包括n个阶段，所述逐级对所述嵌入特征图进行下采样操作，包括:

6.如权利要求5所述的面向不配对跨模态图像分割模型的生成方法，其特征在于，所述解码器包括n个阶段，所述将所述第一特征图输入至所述预设训练模型的解码器中，在多个尺度上逐级对所述第一特征图进行上采样操作，包括：

7.一种面向不配对跨模态图像分割方法，其特征在于，所述方法，包括：

8.如权利要求7所述的面向不配对跨模态图像分割方法，其特征在于，所述通过所述实际分割模型对所述嵌入特征图，进行逐元素分割，以生成分割结果，包括：

9.如权利要求7所述的面向不配对跨模态图像分割方法，其特征在于，所述通过所述实际分割模型对所述嵌入特征图，进行逐像素分割，以生成分割结果之前，包括：

10.一种面向不配对跨模态图像分割模型的生成装置，其特征在于，所述装置，包括：

11.一种面向不配对跨模态图像分割装置，其特征在于，所述装置，包括：

12.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至7任意一项所述面向不配对跨模态图像分割模型的生成方法的步骤。

13.一个或多个可读存储介质，所述可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至7所述面向不配对跨模态图像分割模型的生成方法的步骤。