CN116596910A

CN116596910A - 一种基于知识蒸馏和对抗攻击的多模态医学图像转换方法和系统

Info

Publication number: CN116596910A
Application number: CN202310640041.6A
Authority: CN
Inventors: 赵俭辉; 冯赛凤; 袁志勇
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-15

Abstract

本发明公开了一种基于知识蒸馏和对抗攻击的多模态医学图像转换方法和系统，包括：准备图像数据集；构建转换网络模型，包括对抗攻击模块、生成器网络、知识蒸馏模块；将原模态图像输入对抗攻击模块得到对抗样本，将对抗样本和原模态图像一起作为生成器的输入，生成器输出中间转换结果；在预训练阶段，知识蒸馏模块即是教师网络，对整体网络架构进行预训练，得到预训练的教师模型；在正式训练阶段，知识蒸馏模块即是学生网络，预训练的教师模型通过知识蒸馏向学生网络传递知识，对整体网络架构进行正式训练，得到学生模型；将待转换的原模态图像输入到生成器得到中间转换结果，将中间转换结果输入学生模型，输出目标模态图像。

Description

一种基于知识蒸馏和对抗攻击的多模态医学图像转换方法和系统

技术领域

本发明属于医学图像处理领域，涉及一种基于深度学习的多模态医学图像转换方法和系统。特别涉及一种基于知识蒸馏和对抗攻击技术，构建转换网络实现高转换精度、强抗造鲁棒性的多模态医学图像转换方法。

背景技术

在临床医学中，单一模态的图像不能提供足够的信息来满足复杂诊断的需求。多模态医学图像可以从多种角度提供诊断部位的详细信息，医生可以将不同模态的信息相互结合综合进行分析。多模态医学图像转换将一种模态的图像转换到另一种模态，在该任务的发展和帮助下，病人无需进行多次耗时的图像扫描，它有助于减轻图像采集的成本和压力，也能为医生提供多种模态的图像以供疾病治疗的参考。

近年来，各种深度学习中的端到端方法被用于解决图像转换问题。其中，基于生成对抗网络GAN[文献1]的相关方法在该问题上取得了显著的成效。MUNIT[文献2]将图像的内容和风格解耦，通过交换风格信息完成转换并保留内容信息，它能够实现多模态图像转换并提升脑肿瘤的检测精度[文献3]。UNIT[文献4]使用共享的潜在空间学习两种模态间的共同表示，它被用于实现T1到T2模态的MRI图像转换[文献5]。NiceGAN[文献6]采用一种新颖的正则化方法对特征通道独立地进行标准化处理，被用于实现脑部MRI到CT图像的转换[文献7]。

但这些方法还存在着不足之处，它们将通用的GAN应用到医学图像领域，虽然实现了模态转换的目的，但得到的结果对医学领域来说还是略显粗糙。因为医学图像诊断是一个需要高精度结果的领域，图像必须具有正确的人体组织轮廓和边界。因此，为多模态医学图像转换设计适合的模型成为一个有意义的研究方向。来自不同设备，或者不同参数设置的同一医疗设备产生的图像，通常会被不同程度和类型的噪声污染[文献8]。考虑到这一点，医学图像转换可以重新表述为噪声自适应任务，本发明也从中获得了启发。

基于噪声的方法取得了良好的进展，最近有研究[文献9]使用GAN计算噪声转移矩阵，并区分医学图像中的人工标注与真实标注，将人工标注视为有噪声的训练数据，经过去噪和增强的输入图像提升了下游任务的性能。受启发于该研究，本发明将原域图像和目标域图像的差异看做是某种噪声分布，在生成器后添加附加网络辅助训练，通过两者的损失计算以自适应模态间的转换规则。与本发明的工作类似的有Kong[文献10]和Chen[文献11]等人的工作，前者在生成器后添加一个Unet[文献12]网络来提升生成的医学图像的质量，后者引入像素损失取代对抗损失提升了医学图像的转换和配准精度。但这些研究仍然存在着改进空间，它们虽然专注于医学图像领域，但却没有在实际测试阶段，充分运用网络学到的模态对应关系。

参考文献

[文献1]:GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al.Generativeadversarial networks[J].Communications of the ACM,2020,63(11):139–144.

[文献2]:HUANG X,LIU M-Y,BELONGIE S,et al.Multimodal unsupervisedimage-to-image translation[A].Proceedings of the European conference oncomputer vision(ECCV)[C],2018:172–189.

[文献3]:HAN C,RUNDO L,ARAKI R,et al.Combining noise-to-image andimage-to-image GANs:Brain MR image augmentation for tumor detection[J].IeeeAccess,2019,7:156966–156977.

[文献4]:LIU M-Y,BREUEL T,KAUTZ J.Unsupervised image-to-imagetranslation networks[A].Proceedings of the 31st International Conference onNeural Information Processing Systems[C],2017:700–708.

[文献5]:WELANDER P,KARLSSON S,EKLUND A.Generative adversarialnetworks for image-to-image translation on multi-contrast mr images-acomparison of cyclegan and unit[J].arXiv preprint arXiv:1806.07777,2018.

[文献6]:CHEN R,HUANG W,HUANG B,et al.Reusing discriminators forencoding:Towards unsupervised image-to-image translation[A].Proceedings ofthe IEEE/CVF conference on computer vision and pattern recognition[C],2020:8168–8177.

[文献7]:WANG J,WU Q,POURPANAH F.DC-cycleGAN:Bidirectional CT-to-MRSynthesis from Unpaired Data[J].arXiv preprint arXiv:2211.01293,2022.

[文献8]:ZAITSEV M,MACLAREN J,HERBST M.Motion artifacts in MRI:Acomplex problem with many partial solutions[J].Journal of Magnetic ResonanceImaging,2015,42(4):887–901.

[文献9]:ZHANG L,TANNO R,XU M-C,et al.Disentangling human error fromground truth in segmentation of medical images[J].Advances in NeuralInformation Processing Systems,2020,33:15750–15762.

[文献10]:KONG L,LIAN C,HUANG D,et al.Breaking the dilemma of medicalimage-to-image translation[J].Advances in Neural Information ProcessingSystems,2021,34:1964–1978.

[文献11]:CHEN Z,WEI J,LI R.Unsupervised Multi-Modal Medical ImageRegistration via Discriminator-Free Image-to-Image Translation[A].[C],2022.

[文献12]:RONNEBERGER O,FISCHER P,BROX T.U-net:Convolutional networksfor biomedical image segmentation[A].Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015:18th International Conference,Munich,Germany,October 5-9,2015,Proceedings,Part III 18[C],2015:234–241.

发明内容

为了解决上述提到的技术问题，本发明提出一种基于知识蒸馏和对抗攻击的多模态医学图像转换方法。重点是引入知识蒸馏中的教师——学生模块，将前文提到的附加网络视为预训练教师模型，该预训练模型用于指导学生模型的训练过程。在实际应用和测试阶段，学生模型连接到生成器之后来进一步提升转换图像的质量，这将比使用单一的生成器得到更精确的结果，此方法大大地提升了多模态医学图像转换的精确度和鲁棒性。

为达此目的，本发明采取的技术方案是：一种基于知识蒸馏和对抗攻击的多模态医学图像转换方法，具体实现包括以下步骤：

步骤1，构建包括原模态和目标模态的医学图像数据集；

步骤2，构建基于深度神经网络的转换网络模型，该转换网络模型包括对抗攻击模块、生成器网络、知识蒸馏模块；

步骤3，将原模态图像输入对抗攻击模块得到对抗样本，将对抗样本和原模态图像一起作为生成器网络的输入集合，生成器网络输出中间转换结果；

步骤4，在预训练阶段，知识蒸馏模块即是教师网络，其输入由步骤3的中间转换结果和目标模态图像两部分组成，并输出教师形变场，将此教师形变场和中间转换结果一起输入空间形变网络，通过形变计算输出转换得到的目标模态图像，预训练阶段结束后，获得预训练好的教师网络；

步骤5，在正式训练阶段，知识蒸馏模块即是学生网络，其输入仅包含步骤3的中间转换结果，同时教师网络通过知识蒸馏向学生网络传递知识，学生网络输出学生形变场，将此学生形变场和中间转换结果一起输入空间形变网络，通过形变计算输出转换得到的目标模态图像，正式训练阶段结束后，获得训练好的学生网络；

步骤6，将待转换的原模态图像输入到生成器网络得到中间转换结果，将中间转换结果输入学生网络，输出转换后的图像，即为所求的目标模态图像。

进一步的，步骤3的具体实现包括以下子步骤：

步骤3.1，在对抗攻击模块中构造一个黑盒攻击者A，攻击者的输入为原模态图像I，输出为对抗样本I_adv；

I_adv＝I+A(I,z)，

其中z表示高斯噪声，生成对抗样本I_adv的目的是干扰生成器网络G；

步骤3.2，定义生成器网络为G，将原模态图像I和对抗样本I_adv一起作为G的输入，并将生成器G输出的中间转换结果统称为G(I)。

进一步的，步骤4的具体实现包括以下子步骤：

步骤4.1，在预训练阶段中，知识蒸馏模块就是教师网络，定义教师网络为R_t，R_t由一个Unet网络和一个空间形变网络STN构成；

步骤4.2，将中间转换结果G(I)和目标模态图像Y作为R_t中Unet的输入，Unet网络会计算出教师形变场φ，I表示输入的原模态图像，G为生成器网络；

步骤4.3，将教师形变场φ和中间转换结果G(I)作为R_t中STN的输入，通过形变计算得到目标模态的图像；

步骤4.4，在训练集中进行转换网络模型迭代的训练，训练结束后，得到训练好的教师网络。

进一步的，步骤4.4中训练转换网络模型时采用的总的损失函数如下：

用符号°来表示STN网络进行的形变计算，R_t被连接到生成器网络G之后来改进生成图片的质量，这里存在一个教师细化损失的计算：

上式中的E_I,Y表示基于I和Y的数学期望计算；为了保证R_t的鲁棒性，引入一个教师的对抗损失鼓励攻击者基于当前的训练实时反馈生成对输入I更有意义的扰动，教师对抗损失表示为：

上式中的表示基于I_adv和Y的数学期望计算，ε为松弛因子，为常数；

有了教师细化损失和教师的对抗损失/>在预训练教师网络时便存在着如下优化目标函数，式中还考虑了其他的一些损失项和对应的权重系数λ、μ、θ、δ、δ：

其中保证了训练时对抗样本能够和干净的输入共用目标图像Y，它是由干净输入和被干扰输入计算出的L1范数损失：

在教师网络的预训练过程中，鉴别器D对生成器网络G得到的生成结果进行判断，生成器G和鉴别器D的对抗过程会产生对抗损失项的计算：

其中，E_Y和E_I分别表示基于Y的数学期望计算和基于I的数学期望计算；是为了避免/>过度扭曲变形而设置的平滑损失项，它限制R_t模型产生非平滑的变形，也就是鼓励相邻的像素之间具有相似的变形而不至于突兀，在形式上，设置一个用于平滑变形的正则化项来寻找R_t一阶梯度的最小值，因此平滑损失项被定义为：

以最小化教师网络R_t的总损失函数为目标，使用训练集中的数据迭代优化，达到训练终止条件后，保存此时的教师模型作为训练好的预训练教师网络，然后执行步骤5。

进一步的，步骤5的具体实现包括以下子步骤：

步骤5.1，在正式训练阶段中，知识蒸馏模块就是学生网络，定义学生网络为R_s，R_s同样由一个Unet网络和一个空间形变网络STN构成；

步骤5.2，预训练好的教师网络不断通过知识蒸馏的方式，向学生网络传递知识，引导学生网络的输出向教师网络的输出靠近；

步骤5.3，将中间转换结果G(i)作为R_s中Unet的输入，Unet网络计算出学生形变场φ，i表示输入的原模态图像，G为生成器网络；

步骤5.4，将学生形变场φ和中间转换结果G(i)作为R_s中STN的输入，通过形变计算得到目标模态的图像；

步骤5.5，在训练集中进行转换网络模型迭代的训练，训练结束后，得到训练好的学生网络。

进一步的，步骤5.5中训练转换网络模型时采用的总的损失函数如下；

在学生网络的知识蒸馏过程中，损失函数一共由四部分组成，分别是学生细化损失教师-学生软损失/>注意力损失/>和学生对抗损失/>学生模块训练时的整体损失函数和权重系数如下：

其中，α、β、μ为权重系数，和/>允许学生网络模拟教师网络的输出，/>保证了教师和学生网络中注意力特征图尽量接近，因为学生需要关注和教师一样的图像转换的关键信息，学生对抗损失/>设计理念与教师对抗损失/>相同；

学生细化损失评估了学生网络R_s的预测输出与真实标签Y之间的差距：

上式中的E_I,Y表示基于I和Y的数学期望计算，符号表示STN网络进行的形变计算；

学生对抗损失与教师对抗损失/>的设计理念相同，在学生模型的训练中仍然引入攻击者来提高模型的鲁棒性，存在着学生对抗损失如下：

ε为松弛因子，为常数，I_adv为对抗样本；

教师-学生软损失是基于软目标计算的，因为教师的软目标比硬目标具备更多的信息，温度因子temp被用来控制软目标的重要性，该损失评估了教师与学生输出之间的差距：

其中KL表示教师网络和学生网络的输出软目标之间的KL散度损失，softmax表示归一化指数函数；

注意力损失保证了教师和学生网络中注意力特征图尽量接近，注意力损失函数表示如下：

公式中的τ表示想要传递注意力的那些特征图的索引集合，j表示第j个传递的特征图；F表示映射函数，它将输入的三维特征图转换为二维注意力图，和/>分别表示教师网络和学生网络的特征图；

以最小化教师网络R_s的总损失函数为目标，使用训练集中的数据迭代优化，达到训练终止条件后，保存此时的学生网络，然后执行步骤6。

进一步的，映射函数F的具体计算公式如下：

其中U_i∈R_H×W是特征图的第i个通道，C是通道的总数，|·|表示矩阵的绝对值计算，上式表示通过聚合不同通道的特征得到一个注意力图。

本发明还提供一种基于知识蒸馏和对抗攻击的多模态医学图像转换系统，包括以下模块：

数据集构建模块，用于构建包括原模态和目标模态的医学图像数据集；

转换网络模型构建模块，用于构建基于深度神经网络的转换网络模型，该转换网络模型包括对抗攻击模块、生成器网络、知识蒸馏模块；

对抗样本生成模块，用于将原模态图像输入对抗攻击模块得到对抗样本，将对抗样本和原模态图像一起作为生成器网络的输入集合，生成器网络输出中间转换结果；

预训练模块，在预训练阶段，知识蒸馏模块即是教师网络，其输入由中间转换结果和目标模态图像两部分组成，并输出教师形变场，将此教师形变场和中间转换结果一起输入空间形变网络，通过形变计算输出转换得到的目标模态图像，预训练阶段结束后，获得预训练好的教师网络；

正式训练模块，在正式训练阶段，知识蒸馏模块即是学生网络，其输入仅包含中间转换结果，同时教师网络通过知识蒸馏向学生网络传递知识，学生网络输出学生形变场，将此学生形变场和中间转换结果一起输入空间形变网络，通过形变计算输出转换得到的目标模态图像，正式训练阶段结束后，获得训练好的学生网络；

预测模块，用于将待转换的原模态图像输入到生成器网络得到中间转换结果，将中间转换结果输入学生网络，输出转换后的图像，即为所求的目标模态图像。

进一步的，预训练模块的具体实现包括以下子步骤：

进一步的，正式训练模块的具体实现包括以下子步骤：

与现有的多模态医学图像转换方法相比，本发明主要具有以下创新点和优势：

(1)本发明提出基于知识蒸馏和对抗攻击的鲁棒性多模态医学图像转换方法，包括对抗攻击者，生成器和知识蒸馏模块三个部分，且理论上可以适用于任何生成器。

(2)知识蒸馏模块基于知识蒸馏的思想，由结构相似但具有不同输入的教师和学生网络构成，在实际测试和应用阶段能够提升图像转换的精准度。

(3)基于对抗攻击的黑盒攻击者利用转换网络的实时反馈，向训练数据中添加有意义的干扰来提升模型的鲁棒性。

附图说明

图1是本发明实施例中医学图像转换任务的概述介绍图；

图2是本发明实施例中转换网络模型的总体结构图；

图3是本发明实施例中知识蒸馏教师网络预训练流程图；

图4是本发明实施例中知识蒸馏学生网络正式训练流程图；

图5是本发明实施例中的测试阶段流程图；

图6是本发明实施例流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施示例对本发明作进一步的详细描述。应当理解，此处描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明基于知识蒸馏和对抗攻击的鲁棒性医学图像转换方法，目的是减轻图像采集的成本和负担，给医生诊断提供更好的医疗决策参考，从提升转换精度的角度出发，提出了知识蒸馏模块，从提升模型鲁棒性的角度考虑，引入了对抗攻击者辅助训练。

请见图1，本发明所述图像转换任务的概述介绍，其中知识蒸馏模块R的提出是本发明的重点。图中包含G和R两个网络，G是实现跨模态转换的生成器网络。R是对生成器得到的初步转换结果进一步细化并改进的知识蒸馏模块，在预训练阶段是教师网络，在正式训练和测试阶段时是学生网络。对于一般的基于生成对抗网络的转换方法，主要借助于生成器网络G得到最终的转换结果。这些方法使用训练好的生成器进行转换，但是得到的结果对医学图像而言还是略显粗糙。因为医学图像有区别于自然图像的特点，转换后仍然要保证图像的解剖特征和医学信息，而不仅仅是外观上的转变。仅仅使用生成器网络G得到的初步结果通常和目标模态的图像存在着较大的误差，这能够从图1中的误差图反映出来。误差图像由生成图像和目标图像计算得到，颜色越亮代表两者之间的误差越大，在图像转换任务中自然是希望这个误差越小越好，这代表生成结果与目标图像越接近。可以从图1中误差图看出，经过细化改进后的结果应当优于改进前的初步转换结果。

如图6所示，本发明提供了一种基于知识蒸馏和对抗攻击的鲁棒性医学图像转换方法，包括以下步骤：

步骤1：构建包括原模态和目标模态的医学图像数据集；

图1左侧的输入部分，展示了现有技术中原模态和目标模态的医学图像展示图，模态A为原模态图像，模态B为目标模态图像。

步骤2：构建基于深度神经网络的转换网络模型，该方法的整体架构中包含三个部分，分别是对抗攻击模块、生成器网络、知识蒸馏模块；

请见图2，本发明所述转换网络的总体结构图。网络主要由三部分组成，分别为左侧的对抗攻击模块，中间的生成器，右侧的知识蒸馏模块。其中知识蒸馏模块包括预训练阶段的教师网络和正式训练阶段的学生网络。给定一个输入I，攻击者A添加干扰并生成对抗样本I_adu。原始干净输入I和被干扰的样本I_adv一起输入到生成器并分别得到G(I)。在知识蒸馏模块的预训练阶段，教师网络接收G(I)和目标模态的图像Y作为输入，通过网络计算噪声分布得到形变场，然后将形变场和G(I)一同输入空间形变网络STN进而细化改进G(I)以得到更好的结果。在知识蒸馏模块的正式训练阶段，教师网络通过知识蒸馏将知识传递给学生网络。在测试阶段，学生网络只接收G(I)并改进这个结果。

所述对抗攻击模块，为黑盒攻击者网络，目的是对输入图像产生一定干扰，进而生成对抗样本。对抗样本与原模态图像一起作为后续模型的训练数据，攻击者与转换模型相互对抗的过程可以提升转换模型的鲁棒性。

所述生成器网络，即生成对抗网络中的生成器，其输入是待转换图像，输出为中间转换结果。理论上该生成器网络可被替换为任何已存在的生成器模型。

所述知识蒸馏模块，实现上基于知识蒸馏。包括教师网络和学生网络两部分，分别在预训练阶段和正式训练阶段改进中间转换结果的图像质量，目的是获得更好的最终转换图像。

步骤3：将所述原模态图像输入对抗攻击模块得到对抗样本，将对抗样本和原模态图像一起作为生成器的输入集合生成器输出中间转换结果。步骤3的具体实现包括以下子步骤：

步骤3.1：在对抗攻击模块中构造一个黑盒攻击者A，攻击者的输入为原模态图像I，输出为对抗样本I_adv；

黑盒攻击者A用来生成对抗样本I_adv，对抗样本的目的是反映转换网络的弱点，而转换网络需要根据训练过程中的损失函数的实时反馈来提升自身鲁棒性，这样才能抗衡对抗样本对模型训练的干扰。对每一个输入I添加对抗干扰便可以得到I_adv，基于这个目的，本发明使用一个条件生成器作为攻击者A来生成对抗样本I_adv：

I_adv＝I+A(I,z)，

其中z表示高斯噪声，生成对抗样本I_adv的目的是干扰生成器G，训练过程中转换模型(目标模型)的反馈使攻击者A能够自主学习和调整自身的攻击力，这种攻击者和转换网络相互对抗的机制能够提升转换模型的鲁棒性。

步骤3.2：定义生成器网络为G，将原模态图像I和对抗样本I_adv一起作为G的输入，并将生成器G输出的中间转换结果统称为G(I)。

步骤4：请见图3，为本申请的教师网络预训练流程。在预训练阶段，所述知识蒸馏模块即是教师网络，其输入由步骤3的中间转换结果和目标模态图像两部分组成，并输出教师形变场。将此教师形变场和中间转换结果一起输入空间形变网络，通过形变计算输出转换得到的目标模态图像。预训练阶段结束后，获得预训练好的教师网络。步骤4的具体实现包括以下子步骤：

步骤4.1：在预训练阶段中，知识蒸馏模块就是教师网络，定义教师网络为R_t。R_t由一个Unet网络和一个空间形变网络STN构成；

教师网络R_t改进来自生成器G的生成图片G(I)，R_t的主要作用是学习影像之间的变换对应关系，一个Unet网络和一个空间形变网络STN构成。本质上是学习G(I)到目标模态图像Y的转换关系，通过调整中间结果G(I)更加接近目标图像Y来提升生成图像的质量。这里应用的变换是一种非线性稠密形变配准，它能够学习两个图像之间的非均匀映射关系，所述的非均匀映射关系表示为形变场φ；

步骤4.2：将中间转换结果G(I)和目标模态图像Y作为R_t中Unet的输入，Unet网络会计算出教师形变场φ；

在本发明的图像到图像转换任务中，定义(I,Y)分别为输入模态的图像和目标模态的图像，则空间。但是实际上，绝对真实的标签Y是未知的，这是因为图像采集时也难免存在着误差和伪影，因此能够使用的是有噪声的标签/>本发明将Y和/>之间的差异看做噪声分布且满足/>这可以被简化为两个模态图像之间的偏移误差。这里形变场的表示且满足/>因为二维图像的偏移涉及到横纵两个坐标轴的数据，因此φ的通道数等于2。R_t接受G(I)和Y作为两个输入，计算出形变场φ＝R_t(G(I),Y)，φ计算了如何将G(I)变形映射到Y。本发明中φ是Unet计算的一个二维矩阵，描述了图像G(I)中每个像素的形变方式，下一步会与G(I)一起作为STN网络的输入；

步骤4.3：将教师形变场φ和中间转换结果G(I)作为R_t中STN的输入，通过形变计算得到目标模态的图像；

接下来使用STN网络根据形变场φ对生成器的结果G(I)进行重新采样以得到最终的结果。用符号°来表示STN网络进行的形变计算，R_t被连接到生成器G之后来改进生成图片的质量，这里存在一个教师细化损失的计算：

上式中的E_I,Y表示基于I和Y的数学期望计算。为了保证R_t的鲁棒性，结合前面介绍的对抗攻击，这里还需引入一个教师的对抗损失鼓励攻击者基于当前的训练实时反馈生成对输入I更有意义的扰动。教师对抗损失可以表示为：

上式中的表示基于I_adv和Y的数学期望计算。当生成器G能够学习对抗样本的特征并正确处理干扰时，攻击者A必须生成更有难度的对抗样本。这种博弈游戏不仅降低了生成器过拟合的风险，也提高了整体转换模型的鲁棒性。松弛因子ε＝0.1的引入限制损失值在一个可控的范围内变化，也避免了过度攻击。

步骤4.4：在训练集中进行转换网络模型迭代的训练，训练结束后，得到训练好的教师网络。

有了教师细化损失和教师的对抗损失/>在预训练教师网络时便存在着如下优化目标函数，式中还考虑了其他的一些损失项和对应的权重：

其中保证了训练时对抗样本能够和干净的输入共用目标图像γ，它是由干净输入和被干扰输入计算出的L1范数损失：

在教师网络的预训练过程中，鉴别器D对生成器G得到的生成结果进行判断，生成器G和鉴别器D的对抗过程会产生对抗损失项的计算：

其中，E_Y和E_I分别表示基于Y的数学期望计算和基于I的数学期望计算；

是为了避免/>过度扭曲变形而设置的平滑损失项，它限制R_t模型产生非平滑的变形，也就是鼓励相邻的像素之间具有相似的变形而不至于突兀。在形式上，设置一个用于平滑变形的正则化项来寻找R_t一阶梯度的最小值，因此平滑损失项被定义为：

以最小化教师网络R_t的总损失函数为目标，使用训练集中的数据迭代优化。达到训练终止条件后，保存此时的教师模型作为训练好的预训练教师网络，然后执行步骤5。

步骤5：请见图4，为本申请的学生网络正式训练流程。在正式训练阶段，所述知识蒸馏模块即是学生网络，其输入仅包含步骤3的中间转换结果，同时教师网络通过知识蒸馏向学生网络传递知识，学生网络输出学生形变场。将此学生形变场和中间转换结果一起输入空间形变网络，通过形变计算输出转换得到的目标模态图像。正式训练阶段结束后，获得训练好的学生网络。步骤5的具体实现包括以下子步骤：

步骤5.1：在正式训练阶段中，知识蒸馏模块就是学生网络，定义学生网络为R_s。R_s同样由一个Unet网络和一个空间形变网络STN构成；

在实际的测试或应用阶段，目标图像Y是未知的，因此不能作为学生网络输入。由于预训练时的教师网络只是在训练阶段可用的理想转换网络，为了使教师的知识能够在测试阶段得到充分的利用，本发明引入了知识蒸馏策略。希望蒸馏出学生网络，它不需要目标模态Y作为输入也能在测试阶段对G(I)进行改进和细化。具体来说，采用注意力特征图作为知识传递的载体，在学生网络的正式训练阶段可以通过蒸馏学习到教师的知识。教师网络和学生网络具有相似的结构，都由一个Unet网络和一个STN网络组成。教师和学生的区别在于两者的输入不同，学生输入中仅有生成器的结果G(I)而不包含目标图像Y。因此在测试阶段，学生网络可以连接到生成器之后以进一步提高转换图像的质量。表1展示了本例中教师网络和学生网络中Unet的具体结构。教师网络R_t和学生网络R_s都基于配准网络实现，本研究中的配准网络由Unet和STN组成。R_t和R_s的Unet部分具有相似的结构，只是输入的通道数不同，这是因为R_t的输入相比于R_s多了目标图像Y，如表1所示，除了输入的通道数不同，网络其余部分的设置相同。Down1到Down4是下采样层，每一个下采样层包括两个连续的卷积层和一个最大池化层。Up1到Up4是上采样层，每一个上采样层包括一个反卷积层，一个跳跃连接(表1中的merge操作)和两个卷积层。Bridge是下采样和上采样之间的连接层，它由两个连续的卷积层构成。Output输出层由一个卷积操作完成。

表1

步骤5.2：预训练好的教师网络不断通过知识蒸馏的方式，向学生网络传递知识，引导学生网络的输出向教师网络的输出靠近；

为了专注于图像的关键区域并提升知识传递的效率，本研究采用注意力特征图作为教师和学生之间知识传递的载体。在学生网络的知识蒸馏过程中，损失函数一共由四部分组成。分别是学生细化损失教师-学生软损失/>注意力损失/>和学生对抗损失学生模块训练时的整体损失函数和权重系数如下：

和/>允许学生网络模拟教师网络的输出。/>保证了教师和学生网络中注意力特征图尽量接近，因为学生需要关注和教师一样的图像转换的关键信息。学生对抗损失/>设计理念与教师对抗损失/>相同。

步骤5.3：将中间转换结果G(I)作为R_s中Unet的输入，Unet网络会计算出学生形变场φ；

R_s只接受G(I)作为输入，计算出形变场φ＝R_s(G(I))，φ计算了如何将G(I)变形映射到Y。

步骤5.4：将学生形变场φ和中间转换结果G(I)作为R_s中STN的输入，通过形变计算得到目标模态的图像；

学生对抗损失与教师对抗损失/>的设计理念相同，在学生模型的训练中仍然引入攻击者来提高模型的鲁棒性。存在着学生对抗损失如下：

步骤5.5：在训练集中进行转换网络模型迭代的训练，训练结束后，得到训练好的学生网络。

教师-学生软损失是基于软目标计算的，因为教师的软目标比硬目标具备更多的信息。温度因子temp被用来控制软目标的重要性，该损失评估了教师与学生输出之间的差距：

其中KL表示教师网络和学生网络的输出软目标之间的KL散度损失，softmax表示归一化指数函数。

注意力损失保证了教师和学生网络中注意力特征图尽量接近。基于神经网络的隐藏神经元的激活层可以表示输入图像特定区域重要性的假设，设置注意力损失来强制学生模仿教师网络的注意力图，来达到将教师网络学到的语义信息传递给学生网络的目的。本发明选择Unet中每一次下采样和上采样操作后的特征图，然后聚合不同通道的特征得到一个空间注意力特征图。该操作可以表示为映射函数F:R_C×H×W→R_H×W，它将输入的三维特征图转换为二维注意力图。本发明采用的空间注意力计算公式如下：

其中U_i∈R_H×W是特征图的第i个通道，C是通道的总数，|·|表示矩阵的绝对值计算。通过这种方式可以将不同通道的特征图压缩到一个注意力图。将教师网络和学生网络的特征图分别表示和/>则注意力损失函数表示如下：

公式中的τ表示想要传递注意力的那些特征图的索引集合，j表示第j个传递的特征图。

以最小化教师网络R_s的总损失函数为目标，使用训练集中的数据迭代优化。达到训练终止条件后，保存此时的学生网络，然后执行步骤6。

步骤6：请见图5，为本申请测试阶段的流程。将待转换的原模态图像输入到生成器得到中间转换结果，将所述中间转换结果输入学生网络，输出转换后的图像，即为所求的目标模态图像。步骤6的具体实现包括以下子步骤：

步骤6.1：将待转换的原模态图像输入到生成器，得到中间转换结果G(I)；

步骤6.2：将中间转换结果G(I)输入到学生网络R_s，输出转换后的图像，即为所求的目标模态图像。

至此介绍了本发明总体网络架构中的对抗攻击模块、知识蒸馏模块中的教师网络和学生网络，以及完整实施示例和步骤。本发明采用的是离线知识蒸馏的训练方式，因此完整的训练流程分为两个阶段，第一阶段是教师网络的预训练过程(此时无学生网络)，教师的输入包含生成器输出的中间结果G(I)和目标图像Y。第二阶段是学生网络的正式训练过程，学生的输入仅为G(I)，同时教师向学生传递基于注意力图的知识以提升学生网络的转换精度。在完成两个阶段的训练后，测试阶段先使用生成器获得转换的中间结果G(I)，然后将它作为学生网络的输入，经过学生网络的改进得到最终的输出结果。值的说明的是，对抗攻击模块在教师网络和学生网络的训练中都发挥着提升模型鲁棒性的作用。

本发明的知识蒸馏与目前大多数已有蒸馏架构的设计不同，它们通常会将教师和学生的网络设计为复杂度不同的网络。而本发明中的教师网络和学生网络具有类似的结构，但是输入不同。这样做的目的是让教师模型训练时充分利用来自目标图像的先验知识，在学生训练不再提供目标图像的情况下仍然能够借助知识蒸馏学习到教师的知识。因此在测试或应用阶段，学生模型可以进一步提升生成器得到的中间结果的图像质量，以获得更好的最终转换结果。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

各模块的具体实现方式和各步骤相应，本发明不予撰述。

需要强调的是，以上所述的实施例仅用于说明本发明的技术方案，并不对其进行限制。虽然本发明详细介绍了可行的实施方式，但是在所属领域的技术人员的理解中，仍然可以对本发明的具体实施方式进行修改或等同替换某些技术特征，而不会偏离本发明技术方案的精神。这些修改或等同替换的实施方式均应包含在本发明请求保护的技术方案范围内。

Claims

1.一种基于知识蒸馏和对抗攻击的多模态医学图像转换方法，其特征在于，包括以下步骤：

步骤1，构建包括原模态和目标模态的医学图像数据集；

2.如权利要求1所述的一种基于知识蒸馏和对抗攻击的鲁棒性医学图像转换方法，其特征在于：步骤3的具体实现包括以下子步骤：

I_adv＝I+A(I,z)，

其中z表示高斯噪声，生成对抗样本I_ddv的目的是干扰生成器网络G；

3.如权利要求1所述的一种基于知识蒸馏和对抗攻击的鲁棒性医学图像转换方法，其特征在于：步骤4的具体实现包括以下子步骤：

4.如权利要求3所述的一种基于知识蒸馏和对抗攻击的鲁棒性医学图像转换方法，其特征在于：步骤4.4中训练转换网络模型时采用的总的损失函数如下：

上式中的E_I,表示基于I和Y的数学期望计算；为了保证R_t的鲁棒性，引入一个教师的对抗损失鼓励攻击者基于当前的训练实时反馈生成对输入I更有意义的扰动，教师对抗损失表示为：

5.如权利要求1所述的一种基于知识蒸馏和对抗攻击的鲁棒性医学图像转换方法，其特征在于：步骤5的具体实现包括以下子步骤：

6.如权利要求5所述的一种基于知识蒸馏和对抗攻击的鲁棒性医学图像转换方法，其特征在于：步骤5.5中训练转换网络模型时采用的总的损失函数如下；

上式中的E_I,表示基于I和Y的数学期望计算，符号表示STN网络进行的形变计算；

ε为松弛因子，为常数，I_adv为对抗样本；

7.如权利要求6所述的一种基于知识蒸馏和对抗攻击的鲁棒性医学图像转换方法，其特征在于：映射函数F的具体计算公式如下：

8.一种基于知识蒸馏和对抗攻击的多模态医学图像转换系统，其特征在于，包括以下模块：

9.如权利要求8所述的一种基于知识蒸馏和对抗攻击的多模态医学图像转换系统，其特征在于：预训练模块的具体实现包括以下子步骤：

10.如权利要求8所述的一种基于知识蒸馏和对抗攻击的多模态医学图像转换系统，其特征在于：正式训练模块的具体实现包括以下子步骤：