CN114373532A

CN114373532A - 基于目标感知生成对抗网络的多模态医学图像翻译方法

Info

Publication number: CN114373532A
Application number: CN202111679850.5A
Authority: CN
Inventors: 陈俊晓; 韦佳
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-19
Anticipated expiration: 2041-12-31

Abstract

本发明公开了基于目标感知生成对抗网络的多模态医学图像翻译方法。所述方法具体如下：给定来自源模态的整体图像及其对应的目标区域标签，通过二值化操作获得一个只包含目标区域的目标区域图像；构建基于目标感知的生成对抗网络框架；使用后向传播算法和自适应矩估计优化算法训练生成对抗网络框架；给定任意目标模态，采用训练完成的生成器，将来自源模态的任何输入整体图像转换为目标模态对应的翻译后的整体图像，并翻译来自源模态的目标区域图像到相应的目标模态对应的翻译后的局部区域图像。本发明的生成器同时学习整体翻译和局部翻译两条映射路径，再配合提出的交叉一致性损失函数来进一步优化，最终生成整体和局部均高质量的多模态医学图像。

Description

基于目标感知生成对抗网络的多模态医学图像翻译方法

技术领域

本发明涉及计算机视觉与生成对抗学习技术领域，涉及图像重构领域，具体涉及基于目标感知生成对抗网络的多模态医学图像翻译方法。

背景技术

不同医学成像方式/协议之间的图像翻译是一个活跃的研究领域，放射肿瘤学和放射学对其有极大的临床兴趣。图像翻译的目的在于缓解实际临床下无法直接采集到成对模态数据的问题，减少花费额外的时间/劳动力/费用，避免电离辐射暴露或避免引入不同模态之间的图像配准带来的不确定性，从而通过绕过或替换某些成像程序来促进特定的临床工作流程。图像翻译的好处已引起人们对许多潜在临床应用的关注，并且在进一步的医学图像分析中，其对于后续的临床诊断辅助治疗也带来很大帮助。

最近的研究中，Zhang等人于CVPR 2018会议上提出一个通用跨模态医学图像翻译方法，即《Translating and segmenting multimodal medical volumes with cycle-andshape-consistency generative adversarial network》，主要解决跨模态翻译中常见组织结构几何变形问题，并验证了合成的医学图像数据可以用于数据增强，来帮助提升有限训练样本下算法的分割效果。

然而基于生成对抗学习的图像翻译方法应用在医学图像领域仍有以下问题亟待解决：1、目前大部分研究只针对跨模态翻译或基于成对的多模态样本下的多模态翻译，前者在扩展到多模态翻译应用上有明显的局限性，后者则未能反映实际的临床条件；2、目前大部分研究也主要考虑到全图的翻译效果而忽视了局部目标区域(器官、病灶等等)的表现，导致其局部呈现模糊、扭曲、甚至添加了不合理的解剖特征。

发明内容

在分析以上问题的基础上，围绕多模态医学图像翻译问题进行研究，本次发明旨在探索利用非成对的训练样本和目标区域标签的先验信息，研究基于目标感知的生成对抗网络，改善图像翻译在局部目标区域出现的内容失真问题的可行性，完成多模态医学图像翻译任务。

本发明的目的至少通过如下技术方案之一实现。

基于目标感知生成对抗网络的多模态医学图像翻译方法，包括以下步骤：

S1、给定来自源模态s的整体图像x_s及其对应的目标区域标签y，通过二值化操作y·x_s获得一个只包含目标区域的目标区域图像r_s；

S2、构建基于目标感知的生成对抗网络框架，生成对抗网络框架包括一个生成器G、第一判别器D_x和第二判别器D_r；

S3、分别构建生成器G、第一判别器D_x和第二判别器D_r的损失函数；

S4、使用后向传播算法和自适应矩估计(adaptive moment estimation，ADAM)优化算法训练生成对抗网络框架，得到训练完成的生成器G；

S5、给定任意目标模态t，采用训练完成的生成器G，将来自源模态s的任何输入整体图像x_s转换为目标模态t对应的翻译后的整体图像x_t，并翻译来自源模态s的目标区域图像r_s到相应的目标模态t对应的翻译后的局部区域图像r_t，用公式表示为G(x_s,r_s,t)→(x_t,r_t)。

进一步地，步骤S2中，生成器G用于生成翻译模态后的整体图像和局部图像，同时把生成的整体图像和局部图像还原回原始输入图像，第一判别器D_x和第二判别器D_r分别用于判别输入的整体图像和局部图像分别属于什么模态以及是否像真实图像。

进一步地，生成器G为双输入输出流生成器，包括一个特征共享层和两对编码器/解码器；

给定目标模态t，生成器G中，一个输入输出流中，结合特征共享层，一对编码器/解码器将输入的来自源模态s的整体图像x_s转换为目标模态t对应的翻译后的整体图像x_t；另一个输入输出流中，结合特征共享层，另一对编码器/解码器将输入的目标区域图像r_s转换为目标模态t对应的翻译后的局部区域图像r_t。

特征共享层旨在潜在地使生成器G能够在整体图像翻译中关注于目标区域；有一点需要说明的是，目标区域标签y在测试阶段假设不可获得，因此测试阶段不会使用到局部图像翻译流即转换得到局部区域图像r_t的输入输出流。

进一步地，第一判别器D_x和第二判别器D_r的主干网络使用PatchGAN思想的架构，其中，第一判别器D_x以翻译后的整体图像x_t为输入，输出翻译后的整体图像x_t的模态分类结果和真实性结果；第二判别器D_r以翻译后的局部区域图像r_t为输入，输出翻译后的局部区域图像r_t的模态分类结果和真实性结果。

进一步地，步骤S3中采用对抗损失函数和域分类损失函数作为生成器G、第一判别器D_x和第二判别器D_r的公共损失函数，采用循环一致性损失函数和交叉一致性损失函数作为生成器G的额外损失函数，对抗损失函数用于约束第一判别器D_x和第二判别器D_r判别输入的图像是否真实的误差，域分类损失函数用于约束第一判别器D_x和第二判别器D_r对输入的图像进行模态分类的误差，循环一致性损失函数用于约束模态翻译图像重构的误差，交叉一致性损失函数用于约束整体图像翻译的目标区域是否接近目标图像生成的误差。

进一步地，对抗损失函数形式如下所示：

L_{adv_x}＝E[logD_{src_x}(x_s)]+E[log(1-D_{src_x}(x_t))]

L_{adv_r}＝E[logD_{scr_r}(r_s)]+E[log(1-D_{scr_r}(r_t))]

其中，L_{adv_x}表示整体图像x_s和翻译后的整体图像x_t的对抗损失；L_{adv_r}表示目标区域图像r_s和翻译后的局部区域图像r_t的对抗损失；E代表所求值的期望，D_{src_x}(x_s)和D_{src_x}(x_t)分别表示整体图像x_s和翻译后的整体图像x_t的真实性的概率分布；D_{scr_r}(r_s)和D_{scr_r}(r_t)分别表示目标区域图像r_s和翻译后的局部区域图像r_t的真实性的概率分布。

进一步地，域分类损失函数形式如下：

L_{cls_x}＝E[-logD_{cls_x}(c|x)]

L_{cls_r}＝E[-logD_{cls_r}(c|r)]

其中，L_{cls_x}和L_{cls_r}分别对应图像x和区域图像r的域分类损失函数，其中，图像x＝[x_s,x_t]，区域图像r＝[r_s,r_t]；E代表所求值的期望，D_{cls_x}(c|x)和D_{cls_r}(c|r)分别代表判别器D_x和D_r计算输入的图像x和区域图像r为c模态的概率。

进一步地，循环一致性损失函数L_rec如下所示：

L_rec＝E[||x_s-x′_s||₁]+E[||r_s-r′_s||₁]

其中，E代表所求值的期望，x′_s和r′_s来自G(x_t,r_t,s)，分别表示源模态s对应的重构整体图像和重构目标区域图像，即给定成对的翻译后的整体图像x_t和翻译后的局部区域图像r_t，以及原模态类别标签s，生成器G试图去重构来自源模态s的整体图像x_s和目标区域图像r_s。

进一步地，交叉一致性损失函数L_cross如下所示：

L_cross＝E[||x_t·y-r_t||₁]

其中，翻译后的整体图像x_t和翻译后的局部区域图像r_t均为生成器G生成的图像，y为整体图像x_s对应的目标标签。

进一步地，步骤S4中，将对抗损失函数、域分类损失函数、循环一致性损失函数和交叉一致性损失函数相加并赋予权重系数从而得到整体损失函数，并使用后向传播算法和ADAM优化算法去最小化整体损失函数从而训练生成对抗网络框架，整体目标函数形式如下：

L_Dx＝-L_{adv_x}+λ_clsL_{cls_x}

L_Dr＝-L_{adv_r}+λ_clsL_{cls_r}

L_G＝L_{adv_x}+L_{adv_r}+λ_clsL_{cls_x}+λ_clsL_{cls_r}+λ_recL_rec+λ_cL_cross

其中，L_G、

和

分别代表生成器G、判断器D_x和判断器D_r的最终目标函数；λ_cls代表域分类损失函数的权重系数、λ_rec代表循环一致性损失函数的权重系数、λ_c代表交叉一致性损失函数的权重系数。

相比与现有技术，本发明的优点在于：

本发明的框架是灵活的，并且由于具有统一的模型结构，因此可以在两种及其以上的多模态场景上使用。

本发明训练时无需成对多模态医学图像数据，更能贴合实际的使用场景。

本发明通过独特的双输入输出流生成器结构和交叉一致性损失函数设计，改善了整体图像翻译易出现的内容失真问题，最终在全图和局部上达到较好的翻译效果。

附图说明

图1是本发明的基于目标感知生成对抗网络的多模态医学图像翻译方法的具体流程图。

图2是本发明的基于目标感知生成对抗网络的多模态医学图像翻译方法的生成器G的具体模型结构图。

具体实施方式

结合附图及实施例，进一步对基于目标感知生成对抗网络的多模态医学图像翻译方法进行描述，旨在清楚说明其特征和优势。

实施例1：

本实施例的应用对象为多模态医学图像，常见的多模态有CT(ComputedTomography，计算机断层扫描)和MRI(Magnetic Resonance Imaging，磁共振成像)，MRI模态内根据不同成像方式和成像时间可再细分为T1、T2等等。

训练生成对抗网络框架时，只需要非成对的多模态医学图像及其对应的目标区域标签(如器官分割标签)。测试时，通过训练好的生成器G，给定某一模态的医学图像和一个模态类别标签，即可得到属于该模态类别的医学图像。

基于目标感知生成对抗网络的多模态医学图像翻译方法，如图1所示，包括以下步骤：

生成器G用于生成翻译模态后的整体图像和局部图像，同时把生成的整体图像和局部图像还原回原始输入图像，第一判别器D_x和第二判别器D_r分别用于判别输入的整体图像和局部图像分别属于什么模态以及是否像真实图像。

如图2所示，生成器G为双输入输出流生成器，包括一个特征共享层和两对编码器/解码器；

本实施例中，在代码实现上，生成器G的模型结构主要由卷积模块，平均池化模块和上采样模块组成。卷积模块的卷积核大小为3×3，填充(padding)值为1。平均池化模块用以对图像进行下采样，其大小为2×2。上采样模块正好对应池化模块的逆操作，保证输入图像的大小和最终输出的一致。生成器G有两组输入数据，第一组数据为整体图像，第二组数据为整体图像对应的目标区域图像。在生成器G的最后，生成器G分成两个分支，一个分支输出整体图像的翻译结果，另一个输出目标区域图像的翻译结果。

第一判别器D_x和第二判别器D_r的主干网络使用PatchGAN思想的架构，其中，第一判别器D_x以翻译后的整体图像x_t为输入，输出翻译后的整体图像x_t的模态分类结果和真实性结果；第二判别器D_r以翻译后的局部区域图像r_t为输入，输出翻译后的局部区域图像r_t的模态分类结果和真实性结果。

采用对抗损失函数和域分类损失函数作为生成器G、第一判别器D_x和第二判别器D_r的公共损失函数，采用循环一致性损失函数和交叉一致性损失函数作为生成器G的额外损失函数，对抗损失函数用于约束第一判别器D_x和第二判别器D_r判别输入的图像是否真实的误差，域分类损失函数用于约束第一判别器D_x和第二判别器D_r对输入的图像进行模态分类的误差，循环一致性损失函数用于约束模态翻译图像重构的误差，交叉一致性损失函数用于约束整体图像翻译的目标区域是否接近目标图像生成的误差。

对抗损失函数形式如下所示：

L_{adv_x}＝E[logD_{src_x}(x_s)]+E[log(1-D_{src_x}(x_t))]

L_{adv_r}＝E[logD_{scr_r}(r_s)]+E[log(1-D_{scr_r}(r_t))]

域分类损失函数形式如下：

L_{cls_x}＝E[-logD_{cls_x}(c|x)]

L_{cls_r}＝E[-logD_{cls_r}(c|r)]

循环一致性损失函数L_rec如下所示：

L_rec＝E[||x_s-x′_s||1]+E[||r_s-r′_s||1]

其中，E代表所求值的期望，x_s′和r_s′来自G(x_t,r_t,s)，分别表示源模态s对应的重构整体图像和重构目标区域图像，即给定成对的翻译后的整体图像x_t和翻译后的局部区域图像r_t，以及原模态类别标签s，生成器G试图去重构来自源模态s的整体图像x_s和目标区域图像r_s。

交叉一致性损失函数L_cross如下所示：

L_cross＝E[||x_t·y-r_t||1]

将对抗损失函数、域分类损失函数、循环一致性损失函数和交叉一致性损失函数相加并赋予权重系数从而得到整体损失函数，并使用后向传播算法和ADAM优化算法去最小化整体损失函数从而训练生成对抗网络框架，整体目标函数形式如下：

其中，L_G、

和

在使用训练好的生成器G时，将待翻译的图像输入至训练好的生成器G中得到模态翻译结果图。本发明在Combined Healthy Abdominal Organ Segmentation(CHAOS)Challenge中使用CT、T1加权和T2加权的腹部数据集的多模态翻译效果如下表所示，其中的权重参数分别为λ_cls＝1、λ_rec＝1和λ_c＝50：

其中评价指标中的S-score为分割准确性(Segmentation score)。

实施例2：

为了验证本发明生成器G双输入输出流结构设计的有效性，本实施例中，只保留整体图像翻译流，即包含一个特征共享层和一对编解码器。最终，与实施例1相比，不同之处在于生成对抗网络框架的整体目标函数，如下：

L_G＝L_{adv_x}+λ_clsL_{cls_x}+λ_recL_rec

其中，L_G、

分别代表生成器G、判断器D_x的最终目标函数。λ_cls、λ_rec为平衡域损失不同目标函数之间重要性的权重系数，具体地，λ_cls代表域分类损失函数的权重、λ_rec代表循环一致性损失函数的权重。

重新训练，在使用训练好的生成器G时，将待翻译的图像输入至训练好的生成器G中得到模态翻译结果图。本发明在Combined Healthy Abdominal Organ Segmentation(CHAOS)Challenge中使用CT、T1加权和T2加权的腹部数据集的多模态翻译效果如下表所示，其中的权重参数分别为λ_cls＝1、λ_rec＝1：

其中评价指标中的S-score为分割准确性(Segmentation score)。

这结果与实施例1的结果相比，均值出现显著下跌，说明本发明生成器G双输入输出流的结构设计是有效的。

实施例3：

为了验证本发明提出的交叉一致性目标函数的有效性，在实施例3中对权重参数上进行相应设置。最终，与实施例1相比，不同之处仅在于交叉一致性损失函数的权重设为零，即λ_c＝0：

重新训练，在使用训练好的生成器G时，将待翻译的图像输入至训练好的生成器G中得到模态翻译结果图。本发明在Combined Healthy Abdominal Organ Segmentation(CHAOS)Challenge中使用CT、T1加权和T2加权的腹部数据集的多模态翻译效果如下表所示：

其中评价指标中的S-score为分割准确性(Segmentation score)。

实施例1的结果与其相比，均值从51.03％上升到64.18％，说明本发明提出的交叉一致性损失函数是有效的且起到关键作用的。

以上所述，仅为本发明的具体实施方式之一，本发明的保护范围并不局限于此。任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或者替换，都应涵盖在本发明的范围之内。因此，本发明的保护范围应以权利要求书的保护范围为准。

Claims

1.基于目标感知生成对抗网络的多模态医学图像翻译方法，其特征在于，包括以下步骤：

S4、使用后向传播算法和自适应矩估计优化算法训练生成对抗网络框架，得到训练完成的生成器G；

2.根据权利要求1所述的基于目标感知生成对抗网络的多模态医学图像翻译方法，其特征在于：步骤S2中，生成器G用于生成翻译模态后的整体图像和局部图像，同时把生成的整体图像和局部图像还原回原始输入图像，第一判别器D_x和第二判别器D_r分别用于判别输入的整体图像和局部图像分别属于什么模态以及是否像真实图像。

3.根据权利要求2所述的基于目标感知生成对抗网络的多模态医学图像翻译方法，其特征在于：生成器G为双输入输出流生成器，包括一个特征共享层和两对编码器/解码器；

4.根据权利要求2所述的基于目标感知生成对抗网络的多模态医学图像翻译方法，其特征在于：第一判别器D_x和第二判别器D_r的主干网络使用PatchGAN思想的架构，其中，第一判别器D_x以翻译后的整体图像x_t为输入，输出翻译后的整体图像x_t的模态分类结果和真实性结果；第二判别器D_r以翻译后的局部区域图像r_t为输入，输出翻译后的局部区域图像r_t的模态分类结果和真实性结果。

5.根据权利要求1所述的基于目标感知生成对抗网络的多模态医学图像翻译方法，其特征在于：步骤S3中采用对抗损失函数和域分类损失函数作为生成器G、第一判别器D_x和第二判别器D_r的公共损失函数，采用循环一致性损失函数和交叉一致性损失函数作为生成器G的额外损失函数，对抗损失函数用于约束第一判别器D_x和第二判别器D_r判别输入的图像是否真实的误差，域分类损失函数用于约束第一判别器D_x和第二判别器D_r对输入的图像进行模态分类的误差，循环一致性损失函数用于约束模态翻译图像重构的误差，交叉一致性损失函数用于约束整体图像翻译的目标区域是否接近目标图像生成的误差。

6.根据权利要求5所述的基于目标感知生成对抗网络的多模态医学图像翻译方法，其特征在于：对抗损失函数形式如下所示：

L_{adv_x}＝E[log D_{src_x}(x_s)]+E[log(1-D_{src_x}(x_t))]

L_{adv_r}＝E[log D_{scr_r}(r_s)]+E[log(1-D_{scr_r}(r_t))]

其中，L_{adv_x}表示整体图像x_s和翻译后的整体图像x_t的对抗损失；L_{adv_r}表示目标区域图像r_s和翻译后的局部区域图像r_t的对抗损失；E代表所求值的期望；D_{src_x}(x_s)和D_{src_x}(x_t)分别表示整体图像x_s和翻译后的整体图像x_t的真实性的概率分布；D_{scr_r}(r_s)和D_{scr_r}(r_t)分别表示目标区域图像r_s和翻译后的局部区域图像r_t的真实性的概率分布。

7.根据权利要求5所述的基于目标感知生成对抗网络的多模态医学图像翻译方法，其特征在于：域分类损失函数形式如下：

L_{cls_x}＝E[-log D_{cls_x}(c|x)]

L_{cls_r}＝E[-log D_{cls_r}(c|r)]

其中，L_{cls_x}和L_{cls_r}分别对应图像x和区域图像r的域分类损失函数，其中，图像x＝[x_s,x_t]，区域图像r＝[r_s,r_t]；E代表所求值的期望；D_{cls_x}(c|x)和D_{cls_r}(c|r)分别代表判别器D_x和D_r计算输入的图像x和区域图像r为c模态的概率。

8.根据权利要求5所述的基于目标感知生成对抗网络的多模态医学图像翻译方法，其特征在于：循环一致性损失函数L_rec如下所示：

L_rec＝E[||x_s-x′_s||₁]+E[||r_s-r_s′||₁]

其中，E代表所求值的期望，x′_s和r_s′来自G(x_t,r_t,s)，分别表示源模态s对应的重构整体图像和重构目标区域图像，即给定成对的翻译后的整体图像x_t和翻译后的局部区域图像r_t，以及原模态类别标签s，生成器G试图去重构来自源模态s的整体图像x_s和目标区域图像r_s。

9.根据权利要求5所述的基于目标感知生成对抗网络的多模态医学图像翻译方法，其特征在于：交叉一致性损失函数L_cross如下所示：

L_cross＝E[||x_t·y-r_t||₁]

10.根据权利要求1～9任一项所述的基于目标感知生成对抗网络的多模态医学图像翻译方法，其特征在于：步骤S4中，将对抗损失函数、域分类损失函数、循环一致性损失函数和交叉一致性损失函数相加并赋予权重系数从而得到整体损失函数，并使用后向传播算法和ADAM优化算法去最小化整体损失函数从而训练生成对抗网络框架，整体目标函数形式如下：

其中，L_G、

和