CN116385329B

CN116385329B - 基于特征融合的多层知识蒸馏医学影像生成方法和装置

Info

Publication number: CN116385329B
Application number: CN202310661464.6A
Authority: CN
Inventors: 李劲松; 张楚杰; 王伟彬; 胡季宏; 陈延伟; 童若锋; 林兰芬
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-08-29
Anticipated expiration: 2043-06-06
Also published as: CN116385329A

Abstract

本发明公开了一种基于特征融合的多层知识蒸馏医学影像生成方法和装置，该方法首先获取MR图像和CT图像并进行预处理，以构建数据集；然后基于特征感知融合构建对抗生成模型，基于多层知识蒸馏使用数据集训练对抗生成模型；再获取训练好的对抗生成模型中训练好的生成器，使用数据集通过评估指标对训练好的生成器的性能进行评估，并根据评估结果进一步调整生成器的参数，以获取最优生成器；最后将源域图像输入最优生成器中以获取生成的目标域图像。本发明能在有限数据的情况下，通过新的数据提取方式可以最大程度上扩充数据库，同时提升图像的生成效果；本发明可以在保留CNN对于局部纹理等信息抓取的优势下，提升对于全局相关性的信息捕获。

Description

基于特征融合的多层知识蒸馏医学影像生成方法和装置

技术领域

本发明涉及计算机技术和医学影像跨模态生成的交叉技术领域，尤其涉及一种基于特征融合的多层知识蒸馏医学影像生成方法和装置。

背景技术

医学成像是一种强大的诊断和研究工具，可创建解剖结构的视觉表示，已广泛用于疾病诊断和手术计划。在目前的临床实践中，最常用的是计算机断层扫描（CT）和磁共振成像（MR）。由于CT和多种MR成像模式提供了互补信息，因此这些不同模式的有效整合可以帮助医生做出更明智的决定。另一方面，小孩和老人因为放射性的原因不能拍摄CT图像，临床实践中，开发多模态图像生成以辅助临床诊断和治疗的需求日益增长。

目前主流的基于对抗生成网络，通常采用CNN（Convolutional Neural Network，卷积神经网络）作为编码器（Encoder），使用CNN在下采样的过程中会导致很多有价值的信息的缺失，忽略了整体和部分之间的相关性。另一方面，在实际的MR和CT图像中，往往会有很多局部不匹配的区域。医学影像往往受限于数据问题，在医学图像生成的实际应用中，通常都会聚焦于感兴趣的区域（ROI），选取数据会受限于局部区域的大小，以肿瘤为例，我们通常选取肿瘤较大的切片。这些情况进一步限制了数据集的大小。针对以上问题，设计了一种新的数据选取方式并提出一种包含多层知识蒸馏的半监督的对抗生成网络，并结合CNN和Transformer重新设计特征提取器，目的是提升编码器对全局信息的捕获并扩充数据集，进一步提升多模态生成的结果。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于特征融合的多层知识蒸馏医学影像生成方法和装置。

本发明的目的是通过以下技术方案来实现的：本发明实施例第一方面提供了一种基于特征融合的多层知识蒸馏医学影像生成方法，包括以下步骤：

（1）获取磁共振图像和计算机断层扫描图像以及对应的图像中肿瘤区域的掩码；

（2）对磁共振图像和计算机断层扫描图像进行预处理，根据预处理后的磁共振图像和计算机断层扫描图像构建数据集，并将数据集划分为训练集、验证集和测试集；

（3）基于特征感知融合构建对抗生成模型，并基于多层知识蒸馏使用训练集训练对抗生成模型，以获取训练好的对抗生成模型；

（4）获取训练好的对抗生成模型中训练好的生成器，使用验证集通过评估指标对训练好的生成器的性能进行评估，并根据评估结果调整生成器的参数，以获取最优生成器；

（5）将源域图像或测试集中的源域图像输入最优生成器中以获取生成的目标域图像。

进一步地，所述预处理包括以下步骤：

（2.1）重采样：对磁共振图像和计算机断层扫描图像进行重采样；

（2.2）调整窗宽窗位：对磁共振图像和计算机断层扫描图像调整窗宽窗位，以获取去噪后的磁共振图像和计算机断层扫描图像；

（2.3）归一化：对磁共振图像和计算机断层扫描图像的像素值进行归一化；

（2.4）选取数据：分别采用相同切片方法和不同切片方法选取磁共振图像和计算机断层扫描图像作为一组数据。

进一步地，所述步骤（3）包括以下子步骤：

（3.1）基于特征感知融合构建对抗生成模型，所述对抗生成模型包括生成器和判别器；

（3.2）基于多层知识蒸馏训练对抗生成模型，使用两个相同的对抗生成模型进行训练，将一个对抗生成模型作为教师模型，另一个对抗生成模型作为学生模型，使用训练集训练教师模型和学生模型，并分别根据教师模型的损失和学生模型的损失更新教师模型的参数以及学生模型的参数，以获取训练好的教师模型和学生模型，根据训练好的学生模型获取训练好的对抗生成模型。

进一步地，所述生成器包括基于CNN的编码器、基于Transformer的编码器和解码器，其中，所述基于CNN的编码器包括卷积模块和下采样层，所述卷积模块包括内核大小为3的卷积层、激活函数和归一化层；所述基于Transformer的编码器包括Transformer层，所述Transformer层包括多头自注意、多层感知机和层归一化；所述解码器包括双线性上采样模块，所述双线性上采样模块包括双线性上采样层和卷积模块。

进一步地，所述判别器包括基于CNN的编码器、基于Transformer的编码器和全连接层，所述基于CNN的编码器和生成器中的基于CNN的编码器的结构一致，所述基于Transformer的编码器和生成器中的基于Transformer的编码器的结构一致。

进一步地，所述步骤（3.2）具体为：设置迭代的次数和学习率，使用优化器训练教师模型和学生模型，设置每次训练所选取的样本数；第一阶段训练时，将相同切片的训练集中的源域图像和真实的目标域图像输入到教师模型中进行迭代训练，并根据教师模型的损失更新教师模型的参数，记录最后一次迭代获取的教师模型的参数并将其作为第二阶段训练时教师模型的初始化参数；第二阶段训练时，将相同切片的训练集中的源域图像和真实的目标域图像输入到参数更新后的教师模型中进行迭代训练，将不同切片的训练集中的源域图像和真实的目标域图像输入到学生模型中进行迭代训练，并分别根据教师模型的损失和学生模型的损失更新教师模型的参数以及学生模型的参数，以获取训练好的教师模型和学生模型；其中训练好的学生模型为训练好的对抗生成模型。

进一步地，所述教师模型的损失包括生成器和判别器的对抗损失以及生成图像和真实图像之间的像素损失；所述学生模型的损失包括三层知识蒸馏损失以及生成器和判别器的对抗损失，所述三层知识蒸馏损失包括图像级蒸馏损失、浅层特征级蒸馏损失和深层特征级蒸馏损失。

进一步地，所述评估指标包括基于学习的图像感知相似度和Frechet Inception距离。

本发明实施例第二方面提供了一种基于特征融合的多层知识蒸馏医学影像生成装置，包括一个或多个处理器，用于实现上述的基于特征融合的多层知识蒸馏医学影像生成方法。

本发明实施例第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的基于特征融合的多层知识蒸馏医学影像生成方法。

本发明的有益效果是，本发明通过一种全新的多重特征编码器和多层知识蒸馏的对抗生成网络，在有限数据的情况下，通过提出的新的数据提取方式可以最大程度上扩充数据库并提升生成效果；本发明通过设计的全新的编码器可以在保留CNN对于局部纹理等信息抓取的优势下，提升对于全局相关性的捕获。

附图说明

图1是本发明实施例中的基于特征融合的多层知识蒸馏医学影像生成方法的流程框图；

图2是本发明实施例提供的判别器网络结构示意图；

图3是本发明实施例提供的生成器网络结构示意图；

图4是本发明实施例中的生成器网络中的残差transformer模块的网络结构示意图；

图5是本发明实施例中的MR和CT图像预处理流程；

图6是本发明实施例中的由MR生成CT的对抗生成网络的示意图；

图7是本发明实施例中的残差transformer模块中的transformer层的网络结构示意图；

图8是本发明的基于特征融合的多层知识蒸馏医学影像生成装置的一种结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

参见图1，本发明的基于特征融合的多层知识蒸馏医学影像生成方法，具体包括以下步骤：

（1）获取磁共振（MR）图像和计算机断层扫描（CT）图像以及对应的图像中肿瘤区域的掩码（mask）。

本实施例中，采用的是医院的私人数据，数据包含305个病人的磁共振（MR）图像、计算机断层扫描（CT）图像以及对应的图像中肿瘤区域的掩码（mask）。其中，CT图像包含：动脉期（ART），门脉期（PV），平扫期（NC），延迟期（DL）；MR图像包含：动脉期（ART），延迟期（DL），扩散加权成像（DWI），平扫期（NC），门脉期（PV），T2加权成像（T2）。MR图像和CT图像的数据格式为nii，掩码（mask）的数据格式为nrrd。

（2）对磁共振（MR）图像和计算机断层扫描（CT）图像进行预处理，根据预处理后的MR图像和CT图像构建数据集，并将数据集划分为训练集、验证集和测试集。

本实施例中，可以根据实际需要将数据集按照一定的比例划分为训练集、验证集和测试集，例如7:1:2等；也可以随机抽取数据构建训练集、验证集和测试集。

其中，如图5所示，预处理的具体流程包括如下步骤：

（2.1）重采样：对CT图像和MR图像进行重采样。

本实施例中，由于原始的CT图像和MR图像有不同的层厚，因此，需要对CT图像和MR图像进行重采样，可以采用双线性插值法将MR图像和CT图像重采样到相同层厚，如重采样到1。应当理解的是，双线性插值法是一种广泛应用于数字图像和视频处理等方面的方法，其核心思想是在两个方向分别进行一次线性插值；当然，也可以采用其他方法对MR图像和CT图像进行重采样，例如nilearn库中的一个叫resample_image的方法。

（2.2）调整窗宽窗位：对CT图像和MR图像调整窗宽窗位，以获取去噪后的CT图像和MR图像。

本实施例中，对于CT图像，可以根据医生的先验知识，设置窗宽为(-110,190)，其对应的窗位为(40,300)，通常选择一个数值进行设置即可；可以使用截断方法获取去噪后的CT图像，如numpy库中np.clip算法。对于MR 图像，由于MR图像无法选取固定的值调整窗宽窗位，因此可以使用图像去噪方法获得去噪后的MR图像，如dipy库中的estimate_sigma算法和nlmeans算法。

（2.3）归一化：对CT 图像和MR图像的像素值进行归一化。

具体地，对于CT 图像，直接使用线性归一化将其像素值归一化到[-1,1]。对于MR图像，先使用z-score对像素值进行初步的归一化，再使用线性归一化对其像素值进行归一化，例如可以归一化到[-1,1]，方便后续计算。应当理解的是，z-score标准化是数据处理的一种常用方法，通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较；当然，也可以采用其他归一化方法对像素值进行归一化，例如零均值归一化等。

（2.4）选取数据：分别采用相同切片方法和不同切片方法选取MR图像和CT图像作为一组数据。

通常条件下，选取相同切片（slice）的MR图像和CT图像作为一组数据，将这种方式选取的数据称为“相同切片”。在此基础上，提出一种新的选取数据的方式，选取不同切片的MR图像和CT图像作为一组数据，称为“不同切片”。为了避免选取的数据在整体结构上差异过大，在选取不同切片的图像时，应不超过三个切片。例如，选取了MR图像的第26个切片，那么在CT图像的选择上应在第23-29个切片之间（不包括第26个切片本身）。

应当理解的是，采用相同切片方法选取MR图像和CT图像作为一组数据，据此构建相同切片的数据集，并按照7:1:2的比例将相同切片的数据集划分为相同切片的训练集、验证集和测试集；采用不同切片方法选取MR图像和CT图像作为一组数据，据此构建不同切片的数据集，并按照7:1:2的比例将不同切片的数据集划分为不同切片的训练集、验证集和测试集；综上所述，数据集包括相同切片和不同切片两种，据此进一步划分的训练集、验证集和测试集也包括相同切片和不同切片两种。

（3）基于特征感知融合构建对抗生成模型，并基于多层知识蒸馏使用训练集训练对抗生成模型，以获取训练好的对抗生成模型。

（3.1）基于特征感知融合构建对抗生成模型，其中，对抗生成模型包括生成器和判别器。

参见图3，生成器包括三个模块，第一个模块是基于CNN（Convolutional NeuralNetworks，卷积神经网络）的编码器，用于提取图像的浅层特征，基于CNN的编码器包括四个卷积模块和下采样层，可以将输入的原始图像首先扩展到3个通道。其中每个卷积模块包括两个内核大小（kernel size）为3的卷积层、一个激活函数和一个归一化层（BatchNormalization）。第二个模块是基于Transformer的编码器，用于提取图像的深层特征，其结构如图4所示，基于Transformer的编码器是一个包含了四个Transformer层（Transformer layer）的残差Transformer模块，每个Transformer层的结构如图7所示，包括一个多头自注意(multi-head self-attention)，一个多层感知机（MultilayerPerceptron，MLP）和两个层归一化(Layer normalization)，其中，多头自注意(multi-headself-attention)用以捕获输入特征图之间的整体特征相关性，属于领域内公开知识。多层感知机用来泛化和特征增强，属于领域内公开知识。层归一化（Layer normalization）对多头自注意(multi-head self-attention)之前和之后的特征信息进行归一化，以避免优化问题。第三个模块是用于生成图像的解码器，解码器包括四个双线性上采样模块，每个上采样模块包括一个双线性上采样层和两个卷积模块，其中每个卷积模块包括一个内核大小（kernel size）为3的卷积层、一个激活函数和一个归一化层（Batch Normalization）。

进一步地，激活函数包括ReLU激活函数和Leaky ReLU激活函数。优选地，激活函数为Leaky ReLU激活函数。应当理解的是，Leaky ReLU激活函数在输入为负值时，给予输入值一个很小的斜率，在解决了负输入情况下的零梯度问题的基础上，也能够很好的缓解死亡神经元的问题。

具体地，将源域图像（即MR图像或CT图像）输入生成器中，首先经过基于CNN的编码器，通过其中的四个卷积模块和下采样层提取图像的浅层特征，即可输出得到源域图像对应的浅层特征图；浅层特征图再输入到基于Transformer的编码器，基于Transformer的编码器可以提取图像的深层特征，如此即可输出得到深层特征图；深层特征图进入解码器中，可以获得生成的目标域图像。

本实施例中，判别器的网络结构如图2所示，判别器包括一个基于CNN的编码器、一个基于Transformer的编码器和全连接层。其中，判别器中前面的编码部分和生成器中的保持一致，即基于CNN的编码器和基于Transformer的编码器与生成器中的基于CNN的编码器和基于Transformer的编码器的结构一致，最后接一个全连接层。

具体地，将生成器生成的目标域图像输入到判别器中，由于基于CNN的编码器和基于Transformer的编码器与生成器中的一致，因此，生成图像首先经过基于CNN的编码器，可以得到生成图像对应的浅层特征图，然后浅层特征图进入基于Transformer的编码器，可以得到深层特征图，最后深层特征图经过全连接层，可以得到第一预测结果；将真实的目标域图像输入判别器中，首先经过基于CNN的编码器，可以得到真实图像对应的浅层特征图，然后真实图像的浅层特征图进入基于Transformer的编码器，可以得到真实图像的深层特征图，最后该深层特征图经过全连接层，可以得到第二预测结果；根据第一预测结果和第二预测结果可以判断出生成器所生成的目标域图像的好坏，即生成图像与真实图像的相似程度。

应当理解的是，第一预测结果和第二预测结果可以是一个值也可以是一个N*N的图像（map），对比生成图像和真实图像的这个结果，比如计算一下mse，该mse可以作为判别器的损失函数，mse越小说明生成图像越像真实图像，即二者的相似程度越大。

应当理解的是，知识蒸馏是获取高效小规模网络的一种新兴方法，其主要思想是将学习能力强的复杂教师模型中的“知识”迁移到简单的学生模型中。因此，使用两个相同的对抗生成模型进行训练，一个对抗生成模型用作教师模型，另一个对抗生成模型用作学生模型，训练完成的学生模型即为所需的训练好的对抗生成模型。

示例性地，如图6所示，整个网络包含相同结构的教师模型和学生模型，以教师模型为例，该教师模型是一个完整的对抗生成模型，包括了生成器和判别器。

本实施例中，在训练对抗生成模型时，需要设置迭代的次数和学习率，使用优化器训练对抗生成模型，设置每次训练所选取的样本数（batch size），例如可以将batch size设为1。第一阶段训练时，将相同切片（same slice）的训练集中的源域图像和真实的目标域图像输入到教师模型中进行迭代训练，并根据教师模型的损失更新教师模型的参数，记录最后一次迭代获取的教师模型的参数并将其作为第二阶段训练时教师模型的初始化参数，可以有效防止过拟合；第二阶段训练时，将相同切片的训练集中的源域图像和真实的目标域图像输入到参数更新后的教师模型中进行迭代训练，将不同切片（different slice）的训练集中的源域图像和真实的目标域图像输入到学生模型中进行迭代训练，并分别根据教师模型的损失和学生模型的损失更新教师模型的参数以及学生模型的参数，以获取训练好的教师模型和学生模型；其中训练好的学生模型即为需要的训练好的对抗生成模型。

进一步地，优化器包括自适应矩估计（Adam）优化器、AdaGrad优化器和RMSProp优化器等。应当理解的是，可以根据实际的要求选择合适的优化器对跨模态配准网络模型进行训练，Adam优化器利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，其优点主要在于经过偏置校正后，每一次迭代学习率都会有个确定的范围，使得参数比较稳定；AdaGrad优化器可以独立调整模型参数的学习率，可以对稀疏参数进行大幅更新和对频繁参数进行小幅更新，适合处理稀疏数据；RMSProp优化器针对梯度平方和累计越来越大的问题，采用指数加权的移动平均代替梯度平方和。

需要说明的是，第一阶段训练的目的是为了对教师模型进行预训练，采用相同切片的训练集对教师模型进行训练，因为相同切片的训练集中的MR图像和CT图像是配对数据，所以能够让教师模型有一个很好的正向起步；不同切片的训练集中的MR图像和CT图像是非配对数据，可能会有一个负向的起步。应当理解的是，越配对的数据，在训练对抗生成模型时的效果越好。

优选地，第一阶段训练时，对于教师模型，将迭代的次数设置为5，生成器和判别器的学习率分别设置为0.0006和0.0003；第二阶段训练时，将迭代的次数设置为100，对于教师模型，其中生成器和判别器的学习率会被衰减到原始数字的五分之一，对于学生模型，其中生成器和判别器的学习率分别设为0.0006和0.0003，即使用与第一阶段教师模型训练相同的学习率。

应当理解的是，当根据MR图像生成CT图像时，将训练集中的MR图像作为源域图像输入到教师模型和学生模型中进行训练，通过其中的生成器可以得到生成的目标域图像，训练集中的CT图像即为真实的目标域图像，将生成图像和真实图像输入到判别器中进一步训练，最后获得训练好的教师模型和学生模型，其中训练好的学生模型中的生成器即为本发明所需，通过该生成器可以由源域图像得到对应的生成的目标域图像；类似地，当根据CT图像生成MR图像时，将训练集中的CT图像作为源域图像，将训练集中的MR图像作为真实的目标域图像。

本实施例中，教师模型的损失包括生成器和判别器的对抗损失以及生成图像和真实图像之间的像素损失；学生模型的损失包括三层知识蒸馏损失以及生成器和判别器的对抗损失，其中，三层知识蒸馏损失包括图像级蒸馏损失、浅层特征级蒸馏损失和深层特征级蒸馏损失。

进一步地，生成图像和真实图像之间的像素损失表示为：

其中，表示生成图像和真实图像之间的像素损失，/>表示真实的目标域图像，/>表示生成的目标域图像，/>表示源域图像。

进一步地，生成器和判别器的对抗损失的表达式分别为：

其中，表示生成器的对抗损失，/>表示判别器的对抗损失，/>表示判别器，表示源域图像，/>表示真实的目标域图像。

进一步地，教师模型的损失函数为：

其中，表示教师模型的损失函数，/>、/>、/>表示各个损失的权重。应当理解的是，可以根据实际需要设置各个损失的权重/>、/>、/>。

进一步地，图像级蒸馏损失的表达式为：

其中，表示图像级蒸馏损失，/>表示教师模型中的生成器，/>表示学生模型中的生成器，/>表示源域图像。

进一步地，浅层特征级蒸馏损失的表达式为：

其中，表示浅层特征级蒸馏损失，/>表示教师模型中的基于CNN的编码器的第k层得到的特征图，/>表示学生模型中的基于CNN的编码器的第k层得到的特征图。

进一步地，深层特征级蒸馏损失的表达式为：

其中，表示深层特征级蒸馏损失，/>表示教师模型中通过Transformer的编码器输出得到的特征图，/>表示学生模型中通过Transformer的编码器输出得到的特征图。

综上所述，学生模型的损失可表示为：

其中，表示学生模型的损失，/>、/>、/>、/>、/>表示各个损失的权重。应当理解的是，可以根据实际需要设置各个损失的权重/>、/>、/>、/>、/>。

（4）获取训练好的对抗生成模型中训练好的生成器，使用验证集通过评估指标对训练好的生成器的性能进行评估，并根据评估结果进一步调整生成器的参数，以获取最优生成器。

本实施例中，在步骤（3）得到训练好的对抗生成模型之后，就不再需要判别器了，仅需要其中的生成器用于生成医学影像。因此，首先获取训练好的生成器，再使用验证集对训练好的生成器的性能进行评估，将验证集中的源域图像输入训练好的生成器中，可以得到生成的目标域图像。通过评估指标比较生成的目标域图像和真实的目标域图像，可以得到评估结果，其中真实的目标域图像为验证集中与源域图像对应的另一个图像。评估结果包括生成器的收敛情况，判断生成器是否发生过拟合情况，若有过拟合情况，还需要根据验证集进一步调整生成器的参数，以获取最优生成器。

本实施例中，评估指标包括基于学习的图像感知相似度（LPIPS）和FrechetInception距离（FID），通过这两个评估指标对训练好的生成器的性能进行评估。基于学习的图像感知相似度越小表示生成器的性能越好，Frechet Inception距离越小表示生成器的性能越好。

应当理解的是，LPIPS是一种常用的图像相似度度量标准，该度量标准学习生成图像到真实图像的反向映射强制生成器学习从假图像中重构真实图像的反向映射，并优先处理它们之间的感知相似度，LPIPS更符合人类的感知情况。LPIPS的值越小表示两张图像越相似，反之，则差异越大。

FID的计算需要使用两个预训练好的Inception模型，一个用于真实图像，一个用于生成图像，通过比较这两个图像在特征空间中给出的均值和协方差矩阵，得出两个图像之间的距离，即FID可以计算出真实图像和生成图像的特征向量之间的距离，根据该评估指标来衡量两组图像的相似度，相似度越大，说明生成的图像质量越高。FID的值越小，表示真实图像和生成图像的相似度越大。

示例性地，本实施例中采用了包含60个病人的样本数据，由MR图像生成CT图像，使用上述的两个评估指标，其结果如表1所示。

表1：模型评估结果

	LPIPS	FID
			Med GAN	0.2533	35.1623
Our method	0.2291	29.6137

由表1可知，现有的Med GAN和本发明所构建的对抗生成模型进行对比，本发明所构建的对抗生成模型的性能更加优良。

应当理解的是，也可以选择其他评估指标对训练好的生成器的性能进行评估，例如图像的峰值信噪比（PSNR，Peak Signal to Noise Ratio），PSNR值越大，代表失真越少，说明生成的目标域图像质量越好，也表示训练好的生成器的性能越好。再比如，结构相似性（SSIM，Structural Similarity Index Measurement ），SSIM是一种衡量两幅图像相似度的指标，可以评估生成的目标域图像的质量，SSIM值越大，表示两幅图像越相似，说明生成的目标域图像越接近真实的目标域图像，表示生成器的性能越好。

综上所述，本发明使用的对抗生成模型包含了利用CNN和Transformer结合的编码器以及知识蒸馏，增强了编码器对于全局信息的捕获，在进一步提升数据量的同时提高了生成图像的质量。

具体地，将源域图像或测试集中的源域图像输入最优生成器中，可以得到生成的目标域图像。

本发明通过一种全新的多重特征编码器和多层知识蒸馏的对抗生成网络，在有限数据的情况下，通过提出的新的数据提取方式可以最大程度上扩充数据库并提升生成效果；本发明通过设计的全新的编码器可以在保留CNN对于局部纹理等信息抓取的优势下，提升对于全局相关性的捕获。

与前述基于特征融合的多层知识蒸馏医学影像生成方法的实施例相对应，本发明还提供了基于特征融合的多层知识蒸馏医学影像生成装置的实施例。

参见图8，本发明实施例提供的一种基于特征融合的多层知识蒸馏医学影像生成装置，包括一个或多个处理器，用于实现上述实施例中的基于特征融合的多层知识蒸馏医学影像生成方法。

本发明基于特征融合的多层知识蒸馏医学影像生成装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图8所示，为本发明基于特征融合的多层知识蒸馏医学影像生成装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于特征融合的多层知识蒸馏医学影像生成方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于特征融合的多层知识蒸馏医学影像生成方法，其特征在于，包括以下步骤：

(1)获取磁共振图像和计算机断层扫描图像以及对应的图像中肿瘤区域的掩码；

(2)对磁共振图像和计算机断层扫描图像进行预处理，根据预处理后的磁共振图像和计算机断层扫描图像构建数据集，并将数据集划分为训练集、验证集和测试集；

(3)基于特征感知融合构建对抗生成模型，并基于多层知识蒸馏使用训练集训练对抗生成模型，以获取训练好的对抗生成模型；

所述步骤(3)包括以下子步骤：

(3.1)基于特征感知融合构建对抗生成模型，所述对抗生成模型包括生成器和判别器；

所述生成器包括基于CNN的编码器、基于Transformer的编码器和解码器，其中，所述基于CNN的编码器包括卷积模块和下采样层，所述卷积模块包括内核大小为3的卷积层、激活函数和归一化层；所述基于Transformer的编码器包括Transformer层，所述Transformer层包括多头自注意、多层感知机和层归一化；所述解码器包括双线性上采样模块，所述双线性上采样模块包括双线性上采样层和卷积模块；

所述判别器包括基于CNN的编码器、基于Transformer的编码器和全连接层，所述基于CNN的编码器和生成器中的基于CNN的编码器的结构一致，所述基于Transformer的编码器和生成器中的基于Transformer的编码器的结构一致；

(3.2)基于多层知识蒸馏训练对抗生成模型，使用两个相同的对抗生成模型进行训练，将一个对抗生成模型作为教师模型，另一个对抗生成模型作为学生模型，使用训练集训练教师模型和学生模型，并分别根据教师模型的损失和学生模型的损失更新教师模型的参数以及学生模型的参数，以获取训练好的教师模型和学生模型，根据训练好的学生模型获取训练好的对抗生成模型；

所述步骤(3.2)具体为：设置迭代的次数和学习率，使用优化器训练教师模型和学生模型，设置每次训练所选取的样本数；第一阶段训练时，将相同切片的训练集中的源域图像和真实的目标域图像输入到教师模型中进行迭代训练，并根据教师模型的损失更新教师模型的参数，记录最后一次迭代获取的教师模型的参数并将其作为第二阶段训练时教师模型的初始化参数；第二阶段训练时，将相同切片的训练集中的源域图像和真实的目标域图像输入到参数更新后的教师模型中进行迭代训练，将不同切片的训练集中的源域图像和真实的目标域图像输入到学生模型中进行迭代训练，并分别根据教师模型的损失和学生模型的损失更新教师模型的参数以及学生模型的参数，以获取训练好的教师模型和学生模型；其中训练好的学生模型为训练好的对抗生成模型；

(4)获取训练好的对抗生成模型中训练好的生成器，使用验证集通过评估指标对训练好的生成器的性能进行评估，并根据评估结果进一步调整生成器的参数，以获取最优生成器；

(5)将源域图像或测试集中的源域图像输入最优生成器中以获取生成的目标域图像。

2.根据权利要求1所述的基于特征融合的多层知识蒸馏医学影像生成方法，其特征在于，所述预处理包括以下步骤：

(2.1)重采样：对磁共振图像和计算机断层扫描图像进行重采样；

(2.2)调整窗宽窗位：对磁共振图像和计算机断层扫描图像调整窗宽窗位，以获取去噪后的磁共振图像和计算机断层扫描图像；

(2.3)归一化：对磁共振图像和计算机断层扫描图像的像素值进行归一化；

(2.4)选取数据：分别采用相同切片方法和不同切片方法选取磁共振图像和计算机断层扫描图像作为一组数据。

3.根据权利要求1所述的基于特征融合的多层知识蒸馏医学影像生成方法，其特征在于，所述教师模型的损失包括生成器和判别器的对抗损失以及生成图像和真实图像之间的像素损失；所述学生模型的损失包括三层知识蒸馏损失以及生成器和判别器的对抗损失，所述三层知识蒸馏损失包括图像级蒸馏损失、浅层特征级蒸馏损失和深层特征级蒸馏损失。

4.根据权利要求1所述的基于特征融合的多层知识蒸馏医学影像生成方法，其特征在于，所述评估指标包括基于学习的图像感知相似度和Frechet Inception距离。

5.一种基于特征融合的多层知识蒸馏医学影像生成装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-4中任一项所述的基于特征融合的多层知识蒸馏医学影像生成方法。

6.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，用于实现权利要求1-4中任一项所述的基于特征融合的多层知识蒸馏医学影像生成方法。