CN116580133A

CN116580133A - 图像合成方法、装置、电子设备和存储介质

Info

Publication number: CN116580133A
Application number: CN202310864295.6A
Authority: CN
Inventors: 罗家佳; 何达; 张晨鑫; 李晓伟; 左健为; 孙秀丽; 王建六
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-08-11
Anticipated expiration: 2043-07-14
Also published as: CN116580133B

Abstract

本发明涉及图像处理技术领域，提供一种图像合成方法、装置、电子设备和存储介质，其中方法包括：获取预设图像，预设图像由器官分布区域和背景区域构成；基于器官分布区域中各器官的分布位置，将背景区域与各器官的几何图样结合构建初始图像；将初始图像输入合成模型，得到合成模型输出的合成图像；合成模型是基于样本图像、样本初始图像进行有监督训练得到，样本初始图像是基于样本图像的样本器官分布区域中各器官的分布位置，将样本图像的样本背景区域与样本图像中各器官的分割图样结合构建的。该方法、装置、电子设备和存储介质，实现了可控的图像合成，且构建初始图像的几何图样可以作为合成图像的分割标注，而无需再另外付出成本进行标注。

Description

图像合成方法、装置、电子设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像合成方法、装置、电子设备和存储介质。

背景技术

磁共振（Magnetic Resonance，MR）图像具有无辐射、多参数、软组织对比好等优点，已经广泛应用于临床。针对磁共振图像的图像分割技术，多是通过训练好的神经网络模型实现。神经网络模型的分割效果，很大程度上取决于训练数据集的规模和质量。

然而，在生物医学领域，训练数据集的收集本身存在困难，且针对训练数据集的标注通常需要有专业经验的医师执行，数据来源的稀缺以及标注成本的高昂，都限制着训练数据集的规模和质量。

发明内容

本发明提供一种图像合成方法、装置、电子设备和存储介质，用以解决现有技术中磁共振图像的获取成本和标注成本高的缺陷。

本发明提供一种图像合成方法，包括：

获取预设图像，所述预设图像由器官分布区域和背景区域构成；

基于所述器官分布区域中各器官的分布位置，将所述背景区域与所述各器官的几何图样结合以构建初始图像；所述几何图样是对样本图像进行器官分割得到的；

将所述初始图像输入至合成模型中，得到所述合成模型输出的合成图像；

所述合成模型是基于所述样本图像、样本初始图像进行有监督训练得到，所述样本初始图像是基于所述样本图像的样本器官分布区域中各器官的分布位置，将所述样本图像的样本背景区域与所述样本图像中各器官的分割图样结合构建的。

根据本发明提供的一种图像合成方法，所述合成模型包括第一合成器和第二合成器；

所述将所述初始图像输入至合成模型中，得到所述合成模型输出的合成图像，包括：

将所述初始图像输入至所述第一合成器，得到所述第一合成器输出的中间图像；

将所述中间图像输入至所述第二合成器，得到所述第二合成器输出的合成图像；

所述第一合成器基于所述样本图像以及所述样本初始图像有监督训练得到，所述第二合成器基于所述样本图像，以及所述第一合成器基于所述样本初始图像输出的样本中间图像有监督训练得到。

根据本发明提供的一种图像合成方法，所述将所述中间图像输入至所述第二合成器，得到所述第二合成器输出的合成图像，包括：

将所述中间图像，以及所述预设图像的器官分布区域掩膜输入至所述第二合成器，由所述第二合成器基于所述器官分布区域掩膜对所述中间图像中的器官分布区域和背景区域分别进行自注意力计算，并基于自注意力计算结果进行图像合成，得到所述第二合成器输出的合成图像。

根据本发明提供的一种图像合成方法，所述第一合成器的训练步骤包括：

获取初始合成器；

将所述样本初始图像输入至所述初始合成器，得到所述初始合成器输出的预测中间图像；

基于所述预测中间图像和所述样本图像，确定第一合成损失、第一生成对抗损失以及第一感知损失中的至少一项；

基于所述预测中间图像，以及所述样本图像中各器官的分割图样，确定第一分割损失；

基于所述第一合成损失、所述第一生成对抗损失、第一感知损失和第一分割损失中的至少一种，对所述初始合成器进行参数迭代，得到所述第一合成器。

根据本发明提供的一种图像合成方法，所述基于所述预测中间图像，以及所述样本图像中各器官的分割图样，确定第一分割损失，包括：

将所述预测中间图像输入至图像分割模型，得到所述图像分割模型输出的所述预测中间图像中各器官的预测图样；

基于所述预测中间图像中各器官的预测图样，以及所述样本图像中各器官的分割图样，确定所述第一分割损失。

根据本发明提供的一种图像合成方法，所述第二合成器的训练步骤包括：

获取中间合成器；

将所述样本中间图像输入至所述中间合成器，得到所述中间合成器输出的预测合成图像；

基于所述预测合成图像和所述样本图像，确定第二合成损失、第二生成对抗损失以及第二感知损失中的至少一项；

基于所述预测合成图像和所述样本图像中各器官的分割图样，确定第二分割损失；

基于所述第二合成损失，以及所述第二生成对抗损失、第二感知损失和第二分割损失中的至少一种，对所述中间合成器进行参数迭代，得到所述第二合成器。

根据本发明提供的一种图像合成方法，所述基于所述器官分布区域中各器官的分布位置，将所述背景区域与所述各器官的几何图样结合以构建初始图像，包括：

从所述各器官的几何图样库中，随机选取所述各器官的几何图样；

将所述各器官的几何图样按照所述器官分布区域中各器官的分布位置，设置在所述背景区域上，并对所述各器官的几何图样进行参数调整，得到所述初始图像；

所述参数调整包括位置、尺寸、形状中的至少一种参数的调整。

本发明还提供一种图像合成装置，包括：

获取单元，用于获取预设图像，所述预设图像由器官分布区域和背景区域构成；

构建单元，用于基于所述器官分布区域中各器官的分布位置，将所述背景区域与所述各器官的几何图样结合以构建初始图像；所述几何图样是对样本图像进行器官分割得到的；

合成单元，用于将所述初始图像输入至合成模型中，得到所述合成模型输出的合成图像；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像合成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像合成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述图像合成方法。

本发明提供的图像合成方法、装置、电子设备和存储介质，通过各器官的几何图样构建初始图像，用于控制合成图像中器官分布区域内的器官特征，实现了可控的图像合成，且用于构建初始图像的几何图样可以作为合成图像的分割标注，而无需再另外付出成本进行标注，为医学教育、下游智能模型训练等应用提供了更大的应用价值。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像合成方法的流程示意图之一；

图2是本发明提供的分区域自注意力感知层的运行流程示意图；

图3是本发明提供的图像合成方法的流程示意图之二；

图4是本发明提供的图像合成装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对磁共振图像的图像分割技术，多是通过训练好的神经网络模型实现。神经网络模型的训练数据集的规模和质量，直接影响了神经网络模型的图像分割效果。

考虑到训练数据集的收集和标注难度，相关技术中提出通过图像合成的方式构建训练数据集。例如，在相关技术中，存在基于盆底CT（Computed Tomography，电子计算机断层扫描）图像进行盆底磁共振图像合成的方案。但是该方案所提到的合成，本质是医学图像的模态转换，目的是减少单一患者的医学影像检查量或规避跨模态配准难题，盆底磁共振图像合成的前提是需要采集到合适的盆底CT图像。因此，若想要合成海量的磁共振图像，仍然需要采集海量的CT图像，这并不能满足临床教学或算法研发中对海量磁共振数据的需求。另外，该方案合成出的磁共振图像，并不能自带对下游任务有帮助的分类或分割标注，如果将合成的磁共振图像用于训练数据集的构建，依然需要进行人工标注，带来高昂的标准成本。

基于上述情况，本发明提供一种图像合成方法。图1是本发明提供的图像合成方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取预设图像，所述预设图像由器官分布区域和背景区域构成。

此处，预设图像即预先获取的可用于进行图像合成的素材图像。例如在需要针对盆底磁共振图像进行图像合成时，此处的预设图像可以是预先收集的可作为合成素材的盆底磁共振图像。

可以理解的是，预设图像可以划分为两个区域，即器官分布区域和背景区域，其中器官分布区域即预设图像中包含了各个器官的感兴趣区域（Region of Interest，RoI），背景区域即预设图像中除上述器官分布区域之外的区域。例如，将盆底磁共振图像作为预设图像时，盆底磁共振图像中可以包含子宫、阴道前壁、阴道后壁、膀胱、直肠、提肛肌等器官，器官分布区域即由子宫、阴道前壁、阴道后壁、膀胱、直肠、提肛肌等器官构成的感兴趣区域。

此处，预设图像中的器官分布区域和背景区域，可以是预先划分好的，例如可以通过对预设图像进行感兴趣区域检测，以实现器官分布区域和背景区域的划分。

步骤120，基于所述器官分布区域中各器官的分布位置，将所述背景区域与所述各器官的几何图样结合以构建初始图像；所述几何图样是对样本图像进行器官分割得到的。

具体地，可以预先收集各器官的几何图样，以构建各器官的几何图样库。进一步地，针对于每类器官，均可以预先收集与该类器官对应的大量几何图样。例如，可以收集并构建子宫的几何图样库，收集并构建阴道前壁的几何图样库等。

此处，几何图样的收集，可以是通过对样本图像进行器官分割得到的。样本图像即与预设图像同类别的图像，例如样本图像和预设图像均可以是预先收集到的盆底磁共振图像。针对样本图像，可以通过对样本图像进行器官分割，以获取各器官的几何图样。此处，几何图样的获取，可以通过手工标注样本图像以获取其中包含器官的分割掩膜实现，即几何图样可以是对应器官的分割掩膜，能够反映对应器官的形状和尺寸等信息。

在得到预设图像后，可以从预先构建的各器官的几何图样库中，抽取用于构建初始图像的各器官的几何图样。并且，将各器官的几何图样与预设图像中的背景区域叠加，以构建初始图像。此处的初始图像，即后续用于图像合成的复合的输入信息。

可以理解的是，为了实现丰富多样的图像合成，在初始图像的构建上，各器官的几何图样的应用，能够描述合成目标中器官的尺寸、形状等特点，并且，在将各器官的几何图样与预设图像的背景区域进行叠加时，还可以参考预设图像的器官分布区域中各器官的分布位置，由此使得叠加在背景区域上的几何图样的位置，能够描述合成目标中器官的位置特点。

由此得到的初始图像，包含了能够描述合成目标中器官的尺寸、形状、位置的几何图样的信息，而这些信息在图像合成过程中，能够引导图像合成的实现，并且控制合成结果。并且，由此得到的初始图像，其中包含的几何图样以及背景区域，组合成为了非真实存在的输入信息。

步骤130，将所述初始图像输入至合成模型中，得到所述合成模型输出的合成图像；

具体地，在完成初始图像的构建之后，即可将初始图像输入到合成模型中，由合成模型基于初始图像进行图像合成，从而得到最终的合成结果，即，得到合成图像。

此处，合成模型是预先训练好的深度学习人工神经网络，深度学习人工神经网络所具备的强大的非线性拟合能力，能够将包含几何图样的初始图像映射为逼真的磁共振图像，从而实现由几何图样控制合成磁共振图像的目的。

此处的合成模型可以是单一模型，即合成模型可以是一个包括编码器、残差块、解码器三部分模块的模型，其中编码器用于提取输入的初始图像在不同层次上的图像特征，残差块可有效提高网络深度增强网络拟合性能上限，解码器将编码器及残差块提取的多尺度的图像特征转化并仿真为磁共振图像风格的输出，即得到合成图像。

或者，此处的合成模型也可以是两阶段的模型，即合成模型可以包括串联的两个合成器，第一个合成器以初始图像为输入进行图像合成并输出中间图像，第二个合成器以中间图像为输入进行图像合成并输出合成图像。

在步骤130之前，还需要完成针对合成模型的模型训练，以使合成模型能够具备将包含几何图样的初始图像映射为逼真的磁共振图像的能力。针对合成模型的训练，可以通过有监督学习实现。

此处针对合成模型的有监督学习，可以是以样本图像及其对应的样本初始图像作为训练样本集实现的。此处的样本初始图像即有监督学习的样本，样本图像即有监督学习的标签。为了降低训练样本集的获取成本，可以先行收集真实的磁共振图像作为样本图像，对样本图像进行器官分割，以获取样本图像中各器官的分割图样，再将样本图像的样本背景区域与该样本图像中各器官的分割图样进行叠加，即可得到作为训练样本的样本初始图像。

或者，针对合成模型的训练，还可以引入判别器进行生成对抗网络学习，判别器的引入用于判别输入图像为真实图像或者虚拟的合成图像，从而提高图像合成的逼真程度。

本发明实施例提供的方法，通过各器官的几何图样构建初始图像，用于控制合成图像中器官分布区域内的器官特征，实现了可控的图像合成，且用于构建初始图像的几何图样可以作为合成图像的分割标注，而无需再另外付出成本进行标注，为医学教育、下游智能模型训练等应用提供了更大的应用价值。

并且，本发明实施例提供的方法，应用了携带各器官的分割图样的样本图像构建样本初始图像，进行合成模型训练，使得合成模型训练所需的全监督数据集能够较为容易地完成构建，并且，保证了合成模型所处的合成图像中器官分布的合理性，尤其适用于盆底器官这一类需要遵循合理布局限制的磁共振图像合成。

再者，本发明实施例提供的方法，应用各器官的几何图样构建初始图像，并在此过程中遵循了器官分布区域中各器官的分布位置，能够有效解决合成图像时器官分布、特征不合理、不逼真的问题。

基于上述任一实施例，所述合成模型包括第一合成器和第二合成器；

相应地，步骤130包括：

具体地，合成模型可以是两级式的结构，包括串联的两个合成器，即第一合成器和第二合成器，此处第一合成器的输出为第二合成器的输入。

基于合成模型进行图像合成的过程中，具体可以划分为基于第一合成器进行初步合成的过程，以及基于第二合成器进行精调合成的过程。

其中，初步合成的过程，即，将步骤120构建的初始图像输入至第一合成器中，由第一合成器基于初始图像进行图像合成，并输出初步合成的图像，此处记为中间图像；

精调合成的过程，即，将第一合成器输出的中间图像输入至第二合成器，由第二合成器基于中间图像进行图像合成，并输出精调合成的图像，此处记为合成图像。

进一步地，在精调合成的过程中，为了提高图像中的细节质量，并且改善器官分布区域和背景区域之间的不一致问题，除了输入中间图像，还可以输入预设图像的器官分布区域掩膜，由此使得第二合成器在进行图像合成时，能够区分中间图像中的器官分布区域和背景区域，从而实现细节质量更加、区域融合更自然的图像合成，并输出合成图像。可以理解的是，此处预设图像的器官分布区域掩膜，用于表征预设图像中器官分布区域的区域位置。

在两级式结构的合成模型中，第一合成器和第二合成器可以是分别训练得到的，具体可以将样本初始图像作为样本，将样本图像作为标签，有监督训练第一合成器。在第一合成器训练完成之后，将样本初始图像输入第一合成器，从而得到第一合成器合成的样本中间图像。随后，再将样本中间图像作为样本，将样本图像作为标签，有监督训练第二合成器，由此得到训练完成的第二合成器。

或者，第一合成器和第二合成器可以分别基于生成对抗网络学习方式训练得到，判别器的引入用于判别输入图像为真实图像或者虚拟的合成图像，从而提高图像合成的逼真程度。

本发明实施例提供的方法，以两级式结构的合成模型进行图像合成，其中第一合成器实现初步合成，第二合成器实现精调合成，由此得到的合成图像逼真度高、器官轮廓清晰，能够弥补医学影像研究领域在图像合成技术上的不足。

基于上述任一实施例，第一合成器可以包括编码器、残差块和解码器，其中编码器、残差块和解码器按数据流先后顺序依次连接。

相应地，步骤130中，将所述初始图像输入至所述第一合成器，得到所述第一合成器输出的中间图像，可以包括：

将初始图像输入至第一合成器的编码器中，由编码器对初始图像进行特征编码，得到初始图像的编码特征；接着，将初始图像的编码特征输入至第一合成器的残差块中，由残差块对编码特征作进一步的特征提取，得到初始图像的残差特征；最后将初始图像的残差特征输入至第一合成器的解码器中，由解码器对残差特征进行特征解码，以获取中间图像并输出。

基于上述任一实施例，考虑到合成图像中的器官分布区域与背景区域之间可能存在色差、细节纹理不一致、边缘伪影等缺陷，步骤130中，所述将所述中间图像输入至所述第二合成器，得到所述第二合成器输出的合成图像，包括：

具体地，在第二合成器中，可以应用输入的器官分布区域掩膜，区分输入的中间图像中的器官分布区域和背景区域，从而可以应用分区域自注意力机制，显式地区分器官分布区域与背景区域，从而更好地把握特征之间的相互关系、提高生成图像质量，尤其解决器官分布区域与背景区域之间纹理不一致的问题。

进一步地，第二合成器可以包括编码器、残差块、分区域自注意力感知层和解码器，其中编码器、残差块、分区域自注意力感知层和解码器按数据流先后顺序依次连接。分区域自注意力感知层用于基于器官分布区域掩膜对所述中间图像中的器官分布区域和背景区域分别进行自注意力计算。

相应地，步骤130中，将所述中间图像，以及所述预设图像的器官分布区域掩膜输入至所述第二合成器，得到所述第二合成器输出的合成图像，包括：

将中间图像输入至第二合成器的编码器中，由编码器对中间图像进行特征编码，得到中间图像的编码特征；接着，将中间图像的编码特征输入至第二合成器的残差块中，由残差块对编码特征作进一步的特征提取，得到中间图像的残差特征；将中间图像的残差特征输入至第二合成器的解码器中，由解码器对残差特征进行特征解码，得到解码特征；再将编码特征和解码特征，以及预设图像的器官分布区域掩膜输入到第二合成器的分区域自注意力感知层，由分区域自注意力感知层在器官分布区域掩膜的引导下将注意力矩阵划分为分别对应器官分布区域和背景区域的两个部分，并将两个部分的注意力矩阵分别与编码特征和解码特征进行交互，从而得到针对编码特征和解码特征的融合权重，并基于融合权重对此两者进行融合以得到输出特征；再将输出特征输入到第二合成器的解码器中，由解码器针对输出特征进行解码以输出合成图像。

图2是本发明提供的分区域自注意力感知层的运行流程示意图，图2中的表示矩阵相乘，表示逐元素相乘，表示逐元素相加。图2中，分区域自注意力感知层可以基于解码特征生成注意力机制所需的Query向量、Key向量和Value向量，其中Query向量、Key向量用于生成注意力矩阵，随后，注意力矩阵可以在器官分布区域掩膜和/或背景区域掩膜的引导下，划分为分别对应器官分布区域和背景区域的两个部分。随后，两部分注意力矩阵分别与来自解码器的解码特征和来自编码器的编码特征进行交互，并且两部分注意力矩阵在卷积之后基于softmax函数生成两条支路的权重。最终，两条支路的权重分别与交互后的编码特征、解码特征进行加权融合，得到输出特征。

本发明实施例提供的方法，在第二合成器中应用分区域自注意力机制，优化合成图像质量，通过显式地将器官分布区域与背景区域分开进行注意力计算，强化了不同区域特征的平衡，有助于提升区域间图像生成的一致性，使得生成的合成图像整体更加逼真、伪影更少。

基于上述任一实施例，图3是本发明提供的图像合成方法的流程示意图之二，如图3所示，该方法包括：

将包含各器官的几何图样的初始图像输入到第一合成器中，顺次经过第一合成器中的编码器、残差块和解码器，进行初步合成，得到第一合成器输出的中间图像；

将中间图像和预设图像的器官分布区域掩膜输入到第二合成器中，顺次经过第二合成器中的编码器、残差块、解码器，进行精调合成，得到第二合成器输出的合成图像。此处，第二合成器的解码器中间设置有分区域自注意力感知层，此处的分区域自注意力感知层用于执行上述的分区域自注意力机制以优化合成图像质量。

基于上述任一实施例，所述第一合成器的训练步骤包括：

获取初始合成器；

具体地，初始合成器即经过参数初始化的神经网络，例如初始合成器可以是卷积神经网络。

在收集到样本图像，并基于样本图像构建包含了各器官的分割图样的样本初始图像之后，即可将样本初始图像输入至初始合成器，由初始合成器基于样本初始图像进行图像合成，以获取预测中间图像。可以理解的是，此处的样本初始图像与后续应用时作为输入的初始图像具备相同的形式。

在得到预测中间图像之后，可以将预测中间图像与作为标签的样本图像进行比对，从而确定第一合成损失、第一生成对抗损失以及第一感知损失中的至少一项。

其中，第一合成损失用于表征预测中间图像与作为标签的样本图像之间的差距，预测中间图像与样本图像之间的差距越大，则第一合成损失越大，预测中间图像与样本图像之间的差距越小，则第一合成损失越小，此处的第一合成损失，可以进一步表示为L1损失。

第一生成对抗损失的确定，还需要结合判别器实现，即，将初始合成器视为生成器，结合判别器进行生成对抗训练。具体可以将真实的样本图像与初始合成器输出的预测中间图像输入至判别器中，由判别器判断输入的图像为真实图像还是合成的虚拟图像。由此，可以结合判别器输出的真伪判别结果，以及输入图像实际上是真实的样本图像还是合成的预测中间图像，计算第一生成对抗损失。此处的第一生成对抗损失用于表征预测中间图像的逼真程度，即，预测中间图像越逼真，则第一生成对抗损失越小。

第一感知损失用于表征预测中间图像与作为标签的样本图像在特征表示层面上的差距，即，预测中间图像与作为标签的样本图像在特征表示层面上的差距越大，则第一感知损失越大，预测中间图像与作为标签的样本图像在特征表示层面上的差距越小，则第一感知损失越小。此处，在得到预测中间图像之后，可以基于预训练的特征提取模型，分别提取预测中间图像和样本图像的图像特征，从而基于图像特征之间的差距确定第一感知损失。此处预训练的特征提取模型，可以是VGG（Visual Geometry Group）模型，特征提取模型可以是基于图像分类任务预训练得到的。

除此以外，还可以结合预先训练好的图像分割模型，计算第一分割损失。此处的图像分割模型，可以是预训练的U-Net分割模型。进一步地，在得到预测中间图像之后，可以将预测中间图像输入至图像分割模型以分割预测中间图像中的各器官，进而得到预测中间图像中各器官的预测图样。而由于在构建样本初始图像时已经应用了样本图像中各器官的分割图样，即样本图像中各器官的分割图样是已知的，由此可以直接将样本图像中各器官的分割图样作为标签，通过比对预测中间图像中各器官的预测图样与样本图像中各器官的分割图样之间的差距，确定第一分割损失。即，此处的第一分割损失反映的是预测中间图像中的各器官的图样与样本图像中的各器官的图样之间的差距，且差距越大、第一分割损失越大，差距越小、第一分割损失越小。

在计算得到上述各类损失之后，可以基于第一合成损失、第一生成对抗损失、第一感知损失和第一分割损失中的至少一种，确定初始合成器的总损失，进而基于总损失对初始合成器进行参数迭代，由此得到第一合成器。此处，可以是将上述任意一种作为总损失，也可以将上述各种损失中的至少两种进行加权求和之后得到总损失，本发明实施例对此不作具体限定。

本发明实施例提供的方法，将分割损失引入了合成器训练，使得合成所得的图像从分割模型的视角来看更加逼真，能够更加适应器官分割等下游医学人工智能模型的研发，产生更大的使用价值。

基于上述任一实施例，在第一合成器的训练步骤中，所述基于所述预测中间图像和所述样本图像中各器官的分割图样，确定第一分割损失，包括：

具体地，在第一合成器的训练步骤，第一分割损失的获取，依赖于初始合成器基于样本初始图像输出的预测中间图像，与预先训练好的图像分割模型的结合。

即，在得到预测中间图像之后，需要将预测中间图像输入至预先训练好的图像分割模型中，由图像分割模型分割预测中间图像中包含的各器官，从而得到并输出预测中间图像中各器官的预测图样。可以理解的是，此处的预测图样，即针对预测中间图像进行器官分割所得的各器官的分割掩膜图样。

在得到预测中间图像中各器官的预测图样，可以将预测图样与作为标签的样本图像中各器官的分割图样进行比对，从而确定第一分割损失。此处，预测中间图像中的各器官的图样与样本图像中的各器官的图样之间的差距越大、第一分割损失越大，差距越小、第一分割损失越小。

基于上述任一实施例，所述第二合成器的训练步骤包括：

获取中间合成器；

具体地，中间合成器即经过参数初始化的神经网络，例如中间合成器可以是卷积神经网络。可以理解的是，由于第二合成器相较于第一合成器增设有分区域自注意力感知层，用于训练第二合成器的中间合成器，其网络结构与用于训练第一合成器的初始合成器的网络结构是不同的。

在第一合成器训练完成之后，可以将样本初始图像输入到第一合成器中，由第一合成器基于样本初始图像进行图像合成，并将第一合成器输出的图像记为样本中间图像。此处的样本中间图像，即第二合成器的训练样本，而用于构建样本初始图像的样本图像，即第二合成器的训练标签。

在收集到样本中间图像之后，即可将样本中间图像输入至中间合成器，由中间合成器基于样本中间图像进行图像合成，以获取预测合成图像。

在得到预测合成图像之后，可以将预测合成图像与作为标签的样本图像进行比对，从而确定第二合成损失、第二生成对抗损失以及第二感知损失中的至少一项。

其中，第二合成损失用于表征预测合成图像与作为标签的样本图像之间的差距，预测合成图像与样本图像之间的差距越大，则第二合成损失越大，预测合成图像与样本图像之间的差距越小，则第二合成损失越小，此处的第二合成损失，可以进一步表示为L1损失。

第二生成对抗损失的确定，还需要结合判别器实现，即，将中间合成器视为生成器，结合判别器进行生成对抗训练。具体可以将真实的样本图像与中间合成器输出的预测合成图像输入至判别器中，由判别器判断输入的图像为真实图像还是合成的虚拟图像。由此，可以结合判别器输出的真伪判别结果，以及输入图像实际上是真实的样本图像还是合成的预测合成图像，计算第二生成对抗损失。此处的第二生成对抗损失用于表征预测合成图像的逼真程度，即，预测合成图像越逼真，则第二生成对抗损失越小。

第二感知损失用于表征预测合成图像与作为标签的样本图像在特征表示层面上的差距，即，预测合成图像与作为标签的样本图像在特征表示层面上的差距越大，则第二感知损失越大，预测合成图像与作为标签的样本图像在特征表示层面上的差距越小，则第二感知损失越小。此处，在得到预测合成图像之后，可以基于预训练的特征提取模型，分别提取预测合成图像和样本图像的图像特征，从而基于图像特征之间的差距确定第二感知损失。此处预训练的特征提取模型，可以是VGG（Visual Geometry Group）模型，特征提取模型可以是基于图像分类任务预训练得到的。

除此以外，还可以结合预先训练好的图像分割模型，计算第二分割损失。此处的图像分割模型，可以是预训练的U-Net分割模型。进一步地，在得到预测合成图像之后，可以将预测合成图像输入至图像分割模型以分割预测合成图像中的各器官，进而得到预测合成图像中各器官的预测图样。而由于在构建样本初始图像时已经应用了样本图像中各器官的分割图样，即样本图像中各器官的分割图样是已知的，由此可以直接将样本图像中各器官的分割图样作为标签，通过比对预测合成图像中各器官的预测图样与样本图像中各器官的分割图样之间的差距，确定第二分割损失。即，此处的第二分割损失反映的是预测合成图像中的各器官的图样与样本图像中的各器官的图样之间的差距，且差距越大、第二分割损失越大，差距越小、第二分割损失越小。

在计算得到上述各类损失之后，可以基于第二合成损失、第二生成对抗损失、第二感知损失和第二分割损失中的至少一种，确定中间合成器的总损失，进而基于总损失对中间合成器进行参数迭代，由此得到第二合成器。此处，可以是将上述任意一种作为总损失，也可以将上述各种损失中的至少两种进行加权求和之后得到总损失，本发明实施例对此不作具体限定。

基于上述任一实施例，在第二合成器的训练步骤中，所述基于所述预测合成图像和所述样本图像中各器官的分割图样，确定第二分割损失，包括：

将所述预测合成图像输入至图像分割模型，得到所述图像分割模型输出的所述预测合成图像中各器官的预测图样；

基于所述预测合成图像中各器官的预测图样，以及所述样本图像中各器官的分割图样，确定所述第二分割损失。

具体地，在第二合成器的训练步骤，第二分割损失的获取，依赖于中间合成器基于样本中间图像输出的预测合成图像，与预先训练好的图像分割模型的结合。

即，在得到预测合成图像之后，需要将预测合成图像输入至预先训练好的图像分割模型中，由图像分割模型分割预测合成图像中包含的各器官，从而得到并输出预测合成图像中各器官的预测图样。可以理解的是，此处的预测图样，即针对预测合成图像进行器官分割所得的各器官的分割掩膜图样。

在得到预测合成图像中各器官的预测图样，可以将预测图样与作为标签的样本图像中各器官的分割图样进行比对，从而确定第二分割损失。此处，预测合成图像中的各器官的图样与样本图像中的各器官的图样之间的差距越大、第二分割损失越大，差距越小、第二分割损失越小。

基于上述任一实施例，步骤120包括：

具体地，可以针对需要合成的图像中所包含的各个器官，以器官为单位，分别建立各个器官的几何图样库。例如，一个器官的几何图样库中，可以包括从各样本图像中分割得到的该器官的分割掩膜图样作为几何图样。

在构建初始图像时，可以从各器官的几何图样库中，随机选取各器官的几何图样。

随后，可以将各器官的几何图样按照预设图像的器官分布区域中各器官的分布位置，设置在预设图像的背景区域上。可以理解的是，按照预设图像的器官分布区域中各器官的分布位置，对各器官的几何图样进行摆放，能够保证各器官分布合理。

此外，在摆放各器官的几何图样时，还可以对各器官的几何图样的位置、尺寸、形状中的至少一种参数进行微调，从而在保证各器官分布合理的前提下，使得合成图像更加丰富灵活。

由此构成的初始图像，通过合成模型，能够生成逼真、器官特点可控的合成图像。合成图像中关键器官的位置、尺寸、形状等特征将受输入的几何图样控制。

例如，针对于矢状位盆底磁共振图像的合成，可以分别设置子宫、阴道前壁、阴道后壁、膀胱、直肠、提肛肌共6个器官的真实的几何图样库。通过在几何图样库中进行随机抽选组合，并对抽选得到的各个器官的几何图样进行尺寸、位置和形状的合理微调，结合背景区域构成复合的初始图像，即可实现几何图样控制下的盆底磁共振图像合成。

基于上述任一实施例，用于实现盆底磁共振图像合成的第一合成器和第二合成器，可以基于如下步骤训练得到：

数据准备方面，本发明实施例研发过程采集了108例患者真实的矢状位盆底磁共振图像，其中97例被随机划分为训练集，剩余11例被划分为验证集。通过提取这些磁共振扫描的原始数据，可以得到4090张二维图像用于训练，另有467张二维图像用于测试。所有的这些真实图像均可作为样本图像应用，且均有对应的器官的分割掩膜人工标注，器官包括子宫、阴道前壁、阴道后壁、膀胱、直肠、提肛肌。基于训练集的分割标注，共可以得到2995个膀胱几何图样、1537个子宫几何图样、1179个阴道前壁几何图样、1189个阴道后壁几何图样、744个直肠几何图样以及3200个提肛肌几何图样，构成了六种器官各自真实的几何图样库。

实验设备方面，本发明实施例研究过程使用了配置为Intel Xeon Silver 4216中央处理器（CPU）、Nvidia Titan RTX 显卡、256 GB内存的深度学习服务器，其操作系统为Ubuntu 20.04.1 LTS系统。本发明验证所使用的深度学习软件框架为PyTorch，使用的编程语言为Python。

第一合成器和第二合成器的训练过程中，本发明实施例采用样本图像及其自身真实的器官几何图样，构建样本初始图像作为输入，先训练卷积神经网络形式的第一合成器，训练方式为有监督训练，监督真值是与复合输入的样本初始图像对应的不叠加几何图样的原始的样本图像。训练所采用的损失函数包括生成对抗损失，L1损失，感知损失，以及分割损失。其中感知损失与分割损失需要用到预训练的VGG模型以及U-Net分割模型。

第一合成器训练结束后，再基于第一合成器针对样本初始图像的输出，即样本中间图像来训练第二合成器，即精调合成神经网络。训练方式为有监督训练，监督真值是不叠加几何图样的原始的样本图像。训练所采用的损失函数包括生成对抗损失，L1损失，感知损失，以及分割损失。其中感知损失与分割损失需要用到预训练的VGG模型以及U-Net分割模型。

基于上述任一实施例，盆底磁共振图像的合成，可以基于如下步骤实现：

基于上述实施例中提到的由训练集构成的真实器官的几何图样库及二维的样本图像，随机挑选代码可以随机组合出原本不存在的复合输入，包含异源的背景区域及各个器官的几何图样。这样的随机组合再通过代码对各个几何图样的位置、尺寸、形状进行微调，既可用于训练好的合成模型的输入。

本发明实施例应用的验证可以采用上述的硬件及软件环境，通过随机组合可以轻易组合出若干虚构的输入（例如，十万张输入图像），由此可以获得十万张合成的二维盆底磁共振图像，且所有合成图像的器官分布区域可由几何图样控制。

基于上述任一实施例，图4是本发明提供的图像合成装置的结构示意图，如图4所示，该装置包括：

获取单元410，用于获取预设图像，所述预设图像由器官分布区域和背景区域构成；

构建单元420，用于基于所述器官分布区域中各器官的分布位置，将所述背景区域与所述各器官的几何图样结合以构建初始图像；所述几何图样是对样本图像进行器官分割得到的；

合成单元430，用于将所述初始图像输入至合成模型中，得到所述合成模型输出的合成图像；

所述合成单元包括：

第一合成子单元，用于将所述初始图像输入至所述第一合成器，得到所述第一合成器输出的中间图像；

第二合成子单元，用于将所述中间图像输入至所述第二合成器，得到所述第二合成器输出的合成图像；

基于上述任一实施例，第二合成子单元用于：

基于上述任一实施例，该装置还包括第一训练单元，用于：

获取初始合成器；

基于上述任一实施例，第一训练单元具体用于：

基于上述任一实施例，该装置还包括第二训练单元用于：

获取中间合成器；

基于上述任一实施例，构建单元用于：

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器（processor）510、通信接口（Communications Interface）520、存储器（memory）530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行图像合成方法，该方法包括：

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的图像合成方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的图像合成方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像合成方法，其特征在于，包括：

2.根据权利要求1所述的图像合成方法，其特征在于，所述合成模型包括第一合成器和第二合成器；

3.根据权利要求2所述的图像合成方法，其特征在于，所述将所述中间图像输入至所述第二合成器，得到所述第二合成器输出的合成图像，包括：

4.根据权利要求2所述的图像合成方法，其特征在于，所述第一合成器的训练步骤包括：

获取初始合成器；

5.根据权利要求4所述的图像合成方法，其特征在于，所述基于所述预测中间图像，以及所述样本图像中各器官的分割图样，确定第一分割损失，包括：

6.根据权利要求2所述的图像合成方法，其特征在于，所述第二合成器的训练步骤包括：

获取中间合成器；

7.根据权利要求1至6中任一项所述的图像合成方法，其特征在于，所述基于所述器官分布区域中各器官的分布位置，将所述背景区域与所述各器官的几何图样结合以构建初始图像，包括：

8.一种图像合成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图像合成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像合成方法。