CN115880554A

CN115880554A - 基于知识蒸馏与可解释的多模态医学图像融合模型及方法

Info

Publication number: CN115880554A
Application number: CN202211321366.XA
Authority: CN
Inventors: 王丽芳; 米嘉; 刘阳; 张炯; 刘势杰; 杜纪肖
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-03-31

Abstract

本申请属于医学图像融合技术领域，公开了一种基于知识蒸馏与可解释的多模态医学图像融合模型及方法。基于知识蒸馏与可解释的多模态医学图像融合模型，包括一个生成器G和两个鉴别器Dc和Dm，生成器负责生成融合图像，鉴别器用来判别真实图像和融合图像，该模型解决了因可用于融合的成对图像数据集有限，导致多模态医学图像的融合图像清晰度下降的问题。从实验结果可知，本发明模型在主观视觉观察和客观指标评价方面都有较好的表现，将其应用于多模态医学图像融合，可以辅助医生对病灶部位做出准确地诊断与治疗。

Description

基于知识蒸馏与可解释的多模态医学图像融合模型及方法

技术领域

本申请属于医学图像融合技术领域，具体为一种基于知识蒸馏与可解释的多模态医学图像融合模型及方法。

背景技术

随着医学成像技术的不断发展，出现了如磁共振(MR)、计算机断层扫描(CT)、正电子发射断层扫描(PET)和X射线等不同模态的成像方式。不同模态的图像中含有大量能反映病灶情况的深层特征，而仅用单一模态的医学图像表征这些特征存在局限性。对此，临床上选择将多个模态医学图像中的关键信息进行融合，这样可以在保留原始图像特征的同时，弥补单模态医学图像的缺陷。然而先从单模态图像提取深层特征，再融合，容易丢失融合图像信息完整性，因此，利用当前模态和其他模态特征之间的关系来提取融合所需的深层特征，是多模态医学图像融合一种新思路。但是，要准确提取到各模态图像中的深层特征往往需要层次较深的网络，这意味着需要庞大的训练数据集。医学图像涉及患者隐私，从医院获取训练数据集较为困难，而公开的医学图像数据集，针对特定疾病提供的成对图像又十分有限。所以，用有限的数据集训练出具有深层特征的融合图像，对难以收集足够数据集的医学领域非常关键。

目前，图像融合模型通常基于传统方法、卷积网络(Convolutional NeuralNetwork,CNN)和生成对抗网络(generative adversarial network,GAN)。但是基于传统方法得到的融合图像存在光谱失真和空间失真，不利于医生观察患处的情况；仅用CNN提取医学图像特征，容易产生提取到的特征尺度比较单一、网络深度增加时存在梯度爆炸等问题，从而降低融合图像质量；GAN特别广泛应用于图像融合领域，但GAN仅用一个鉴别器区分两幅源图像，会产生因鉴别器关注度分配不均，而丢失部分图像深层特征的问题，且未解决网络层次较深的图像融合模型需要大型数据集训练模型的问题。

针对上述问题，目前解决小规模数据集训练模型困难的方法有模型微调、迁移学习、数据增强。模型微调是先用大型数据集预训练模型，再用少量目标数据对模型参数进行微调，但模型仅能用于源大型数据集数据与目标数据分布性一致的情况。迁移学习也需预训练，不同的是它用已经学习到的知识迁移到一个新的任务。知识蒸馏作为特殊的迁移学习，利用复杂教师网络的知识指导训练简单的学生网络，使学生网络在精简结构的同时，具有和教师网络相近的能力，但传统知识蒸馏利用教师和学生网络softmax层输入的差作为损失函数来优化网络，丢失了空间和语义信息，不适用于图像融合。而一些新式知识蒸馏的方法，仅对蒸馏方法进行改进，很少对构建学生网络的方式加以创新，而蒸馏方法提升蒸馏效率的同时，也提高了对数据规模的需求。数据增强指的是扩充数据或特征增强的数据处理方式，主要增强方法包括通过标注数据提升数据自身携带的信息、通过合成额外数据来扩充数据集、通过注意力模块增强现有数据的特征，但不正确的注意力关注可能会错误拟合数据。

近年来，随着图像融合技术不断发展，多模态医学图像模型仅停留在修改网络结构或参数，很难满足实际需要，只有根据需求针对性的解决具体问题，才是未来医学图像融合模型的发展方向。

发明内容

针对上述问题本发明提供了一种基于知识蒸馏与可解释的多模态医学图像融合模型及方法。

为了达到上述目的，本发明采用了下列技术方案：

本发明提供了一种基于知识蒸馏与可解释的多模态医学图像融合模型，所述模型包括一个生成器G和两个鉴别器Dc和Dm，生成器负责生成融合图像，鉴别器用来判别真实图像和融合图像；其中，生成器包括特征提取和特征融合两部分，特征提取部分用的是经知识蒸馏去除冗余通道后得到的学生网络，特征融合部分由一个Concat层和五个卷积层组成；鉴别器包括鉴别模块和可解释模块，鉴别模块用于鉴别真实图像和融合图像；可解释模块用于生成鉴别器的鉴别模块鉴别为“Real”的图像的解释图像。

进一步，所述学生网络包括：4个编码器，滤波器数量分别为56、112、224、448；模块x，既是编码器又是解码器，建为X，通道数为896；4个解码器，输入通道均设置为280。

进一步，所述特征融合部分的卷积层使用3×3的滤波器来压缩通道数，各层滤波器数量分别为128、64、32、16、1，还通过批量归一化层来缓解梯度爆炸，激活函数LeakyReLU自适应地学习参数，提高精度，加快训练速度。

进一步，所述鉴别器的鉴别模块包括五个卷积层和一个全连接层，每个卷积层有3×3滤波器，滤波器数量分别为64、128、128、256、256，第一层卷积步长设置为1，其余各层步长设置为2，全连接层dropout设置为0.4。

本发明还提供了一种基于上述模型的多模态医学图像融合方法，所述方法包括以下步骤：

步骤1，在特征融合部分，各融合路径分别用加入跨模态注意力块的U-Net3+作为教师模型进行知识蒸馏，得到用于提取图像特征的学生模型，然后用学生模型代替教师模型提取需要融合图像的深层特征；

步骤2，特征融合部分融合提取到的深层特征，经过通道降维和卷积操作后，生成融合图像；

步骤3，鉴别器加入可解释模块，生成鉴别器的鉴别模块鉴别为“Real”的图像的解释图像，根据解释图像覆盖关键特征的准确率，让鉴别器在鉴别性能最优的时候提前停止训练，无需训练完全部数据，在训练过程中，模型的生成器、鉴别器共同优化，训练好的生成器，可生成清晰的融合图像。

进一步，所述步骤1中通过知识蒸馏获得学生模型并应用于所述模型特征提取部分的详细步骤如下：

(1)构建学生网络结构

教师网络包括四个编码器ENC₁、ENC₂、ENC₃和ENC₄和四个解码器DEC₁、DEC₂、DEC₃和DEC₄；编码器ENC₁、ENC₂、ENC₃和ENC₄的滤波器数量分别为64、128、256和512；解码器DEC₁、DEC₂、DEC₃和DEC₄有320个滤波器，即用64个大小为3×3的滤波器将上层编码器和下层解码器的五个输入特征图的通道分别压缩或扩充到64个，然后将五个输入特征图的64个通道叠加成320个通道；每层的编码器都有大量的通道，但有些通道的贡献很小，这相当于无效的冗余通道；通过设置阈值γ，我们对通过跨模态注意力块输出的注意力特征图进行二值化处理，以获得特定数量的冗余通道，假设跨模态注意块输出T个通道的注意特征图，而t'个通道的激活值不全是0，在确保每个解码器的输入等于编码器的输出后，尽可能多地去除激活值为0的通道，得到二进制的注意力特征图，并将其数量设为t，其中t≥t'；

根据上述设置学生网络四个编码器enc₁、enc₂、enc₃和enc₄的滤波器数量分别为56、112、224、448；模块x，既是编码器又是解码器，建为X，通道数为896；将每个解码器dec₁、dec₂、dec₃和dec₄的输入通道设置为280，以确保学生网络编码器的输出通道数与解码器的输入通道数相匹配，至此，代替教师网络完成提取特征任务的学生网络构建完毕；

(2)知识迁移

知识迁移分为编码器学习和解码器学习，以学生网络的enc₂和dec₃的学习为例，其他编码器、解码器的学习过程与其类似；在编码器学习时，图像I先被分别输入到第一层的ENC₁和enc₁，再经过位于各层的编码器和解码器进行训练，位于各层的ENC_N的输出特征为

各层的enc_N输出的特征为/>

为使ENC_N输出的特征/>

更接近enc_N输出的特征/>

将二者的差值作为编码器损失函数来优化enc_N，编码器损失函数/>

如式(1)所示；在解码器学习时，解码器损失函数/>

旨在使dec_N输出特征/>

更接近enc_N输入特征/>

使dec₁输出的特征提取结果图I_rec更接近I，/>

如式(2)所示

式(2)中

代表每层dec_N的输出，式(2)第三项损失是感知损失，它通过反向传播更新图像，促进特征提取，需要注意的是，当N＝1时不计算第一项损失，当N＝5时第一项损失为0；式(3)中/>

表示每一层中的enc_N的输出特征，/>

表示enc_N的各层特征图输出在输入解码器之前得到的叠加特征图，D(·)和U(·)分别表示上采样和下采样操作。C[·]表示叠加所有通道的操作。

从N＝1到N＝4训练教师-学生网络的四对编码器，再从N＝4到N＝1训练四对解码器，当N＝5时，训练既是编码器又是解码器的X，由于编码器学习旨在最小化

解码器学习旨在最小化/>

综上，在训练成对的enc_N和dec_N时，需要解决的问题如式(4)所示：

进一步，所述步骤2的具体过程为：特征提取部分得到尺寸为128×128×280的特征图依次经过Concat层拼接，再经过五个卷积层进行通道降维，最终压缩成尺寸为128×128×1，深层细节丰富且充分表征两模态关键特征的融合图像。

进一步，所述步骤3中鉴别器加入可解释模块，动态监测鉴别器性能，使其在最优性能时停止训练的具体过程为：

(1)将真实图像和生成器G得到的融合图像G(z)输入用于图像分类的鉴别模块，D(G(z))、D(real)分别表示鉴别模块对G(z)和真实图像的分类结果，以脑部图像为例，Real表示被分类为脑部CT的图像，Fake表示被分类为非脑部CT图像；可解释模块对分类为Real的一半的图像进行可视化解释，利用鉴别结果更新鉴别器损失L_D和生成器损失L_G，如式(5)-(6)所示：

(2)动态阈值调整

为动态控制鉴别器的训练，根据可解释模块输出的对分类为Real的前一半的图像的可解释图像，动态调整剩余后一半图像的训练；解释效果的评价分为主观评价方式和客观评价；

主观评价方法是通过观测可解释图像中，关键特征被激活区域覆盖的占比，来判断鉴别器性能是否达到最佳；

客观评价是以一种用可解释阈值ε_D(0<ε_D<1)作为标准，衡量前一半图像被训练完成之后，鉴别器的性能是否达标；ε_D的初值的计算方式如下：

其中，

被类比为可解释阈值，P_data(x)表示真实图像的概率分布，P_g(x)表示生成器生成融合图像的概率分布；当/>

趋近于1，说明生成器生成的融合图像被鉴别为真的过少，生成器性能不佳；当/>

趋近于0，说明真实图像被鉴别为真的太少，鉴别器鉴别能力不足；因此，当P_data(x)无限趋近于P_g(x)时，鉴别器阈值达到最优/>

根据主观评价方法得到解释图像，逐步调整客观评方法ε_D；关键特征被激活区域覆盖的占比过小时，说明鉴别器对关键特征的鉴别力不够，需要降低阈值，反之，则需要升高阈值；将真实图像和G(z)的鉴别损失取平均值作为损失变量T_D，当T_D＞ε_D时，表示损失过大，鉴别器正确率低，需要继续利用L_D训练鉴别器；当T_D≤ε_D时，表示鉴别器鉴别损失已收敛到安全范围内，可以跳过鉴别器的训练；值得注意的是，无论是否训练鉴别器，都需要利用L_G训练生成器。

进一步，所述步骤3中模型的生成器、鉴别器共同优化的具体过程为：首先固定生成器G训练鉴别器Dc、Dm，之后再固定鉴别器Dc、Dm训练生成器G，接着循环训练，来提高生成器G生成融合图像的能力，以及鉴别器Dc、Dm鉴别出生成图像与真实图像差别的能力，直至生成器G生成的图像足以通过鉴别器Dc、Dm的鉴别，生成器G训练完成后，将测试集数据输入训练好的生成器G中，得到最终融合结果。

与现有技术相比本发明具有以下优点：

本发明提出了一种基于知识蒸馏与可解释的多模态医学图像融合模型(KDE-GAN)，解决了因可用于融合的成对图像数据集有限，导致多模态医学图像的融合图像清晰度下降的问题。从实验结果可知，本发明模型KDE-GAN在主观视觉观察和客观指标评价方面都有较好的表现，将KDE-GAN应用于多模态医学图像融合，可以辅助医生对病灶部位做出准确地诊断与治疗。另外本发明模型KDE-GAN有以下特点：1)利用知识蒸馏得到结构精简的S-U-Net3+，仅用较小的数据集，就能提取到图像深层特征，而且还保证良好的特征提取效果；2)利用可解释模块，提升鉴别器鉴别图像的准确性，以达到将有限数据集利用率最大化的目的。

附图说明

图1为本申请实施例中模型KDE-GAN网络结构图。

图2为构建SC-U-Net3+网络结构的过程。

图3为在预训练TC-U-Net3+的过程中，来自跨模态注意力块的特征图被二值化处理的过程图。

图4为SC-U-Net3+的enc₂和dec₃的学习过程。

图5为特征融合部分的网络结构。

图6为鉴别器Dc的训练过程。

图7为用于图像分类的鉴别模块的结构。

图8为本申请模型的详细网络结构图。

图9为用不同方法融合肉瘤的CT和MR-T1图像第17切片的融合结果。

图10为用不同方法融合脑弓形虫病的CT和MR-T2图片的第13切片的融合结果。

图11为用不同方法融合脑膜瘤的CT和MR-PD图像的第17切片的融合结果。图12为用不同方法融合转移性支气管肿瘤的CT和MR-Gad图像的第10切片的融合结果。

图9-12中(a)NestFuse.(b)IFCNN(c)DenseFuse(d)DTCWT(e)SGF(f)FPRSGF(g)PCLE(h)FusionGAN(i)DDcGAN(j)UC-DDGAN。(k)-(t)是从(a)-(j)中提取的放大的区域。

具体实施方式

下面结合本发明实施例和附图，对本发明实施例中的技术方案进行具体、详细的说明。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干变型和改进，这些也应视为属于本发明的保护范围。

KDE-GAN利用一个生成器G和两个鉴别器(Dc、Dm)完成图像融合，网络结构如图1所示。生成器负责生成融合图像，鉴别器用来判别真实图像和融合图像。生成器包括特征提取和特征融合两部分。以CT和MR的融合作为例子，在特征提取部分，CT和MR路径分别用加入跨模态注意力块的U-Net3+作为教师模型(CT路径：TC-U-Net3+、MR路径：TM-U-Net3+)进行知识蒸馏，得到用于提取CT和MR特征的学生模型(CT路径：SC-U-Net3+、MR路径：SM-U-Net3+)。再用SC-U-Net3+、SM-U-Net3+代替TC-U-Net3+、TM-U-Net3+提取CT与MR图像的深层特征。特征融合部分融合提取到的深层特征，经过通道降维和卷积操作后，生成融合图像。鉴别器加入可解释模块LIME，通过生成鉴别器的鉴别模块鉴别为“Real”的图像的解释图像，根据解释图像覆盖关键特征的准确率，让鉴别器在鉴别性能最优的时候提前停止训练，无需训练完全部数据。在训练过程中，KDE-GAN的生成器鉴别器共同优化，训练好的生成器，可生成清晰的融合图像。

生成器的特征提取部分

本发明以获得学生模型SC-U-Net3+的过程为例(见图2)，介绍通过知识蒸馏获得学生模型并应用于KDE-GAN特征提取部分的详细步骤，它可以大致分为两个阶段：构建SC-U-Net3+的网络结构和知识转移。需要注意的是，SC-U-Net3+的训练由TC-U-Net3+指导，而SM-U-Net3+的训练由TM-U-Net3+指导，两者是同步进行。因此，每一层的跨模态注意块都会计算出两个模型的特征分布，并将其传递给下一层。

1)构建SC-U-Net3+

首先，TC-U-Net3+的四个编码器被命名为ENC₁、ENC₂、ENC₃和ENC₄，四个解码器分别为DEC₁、DEC₂、DEC₃和DEC₄。此外，SC-U-Net3+的四个编码器被命名为enc₁、enc₂、enc₃和enc₄，四个解码器分别为dec₁、dec₂、dec₃和dec₄。ENC₁、ENC₂、ENC₃和ENC₄的滤波器数量，分别为64、128、256和512。DEC₁、DEC₂、DEC₃和DEC₄有320个滤波器，即用64个大小为3×3的滤波器将上层编码器和下层解码器的五个输入特征图的通道分别压缩或扩充到64个，然后将五个输入特征图的64个通道叠加成320个通道。

每层的TC-U-Net3+编码器都有大量的通道，但有些通道的贡献很小，这相当于无效的冗余通道。通过设置阈值γ，我们对通过跨模态注意力块输出的注意力特征图进行二值化处理，以获得特定数量的冗余通道(见图3)。假设跨模态注意块输出T个通道的注意特征图，而t'个通道的激活值不全是0。在确保每个解码器的输入等于编码器的输出后，尽可能多地去除激活值为0的通道，得到二进制的注意力特征图，并将其数量设为t(t≥t')。

根据上述方法进行实验得出的结论是：SC-U-Net3+的编码器enc₁、enc₂、enc₃和enc₄在去除冗余通道后的滤波器数量为56、112、224、448(模块x，既是编码器又是解码器，建为X，通道数为896)。本实验将每个解码器的输入通道设置为280，以确保SC-U-Net3+的编码器的输出通道数与解码器的输入通道数相匹配。此外，SC-U-Net3+的的跨模态注意力块无需二值化。至此，代替TC-U-Net3+完成提取CT特征任务的SC-U-Net3+构建完毕，可以对其进行测试。表1显示SC-U-Net3+提取尺寸为256×256×1的CT图像时的参数，SM-U-Net3+提取MR图像时的参数与之类似。

表1 SC-U-Net3+中每个编码器和解码器的参数

/>

(2)知识迁移

知识迁移分为编码器学习和解码器学习，以SC-U-Net3+的enc₂和dec₃的学习为例(见图4)，其他编码器、解码器的学习过程与其类似；在编码器学习时，图像I先被分别输入到第一层的ENC₁和enc₁，再经过位于各层的编码器和解码器进行训练，位于各层的ENC_N的输出特征为

各层的enc_N输出的特征为/>

为使ENC_N输出的特征/>

更接近enc_N输出的特征

如式(1)所示；在解码器学习时，解码器损失函数/>

旨在使dec_N输出特征/>

更接近enc_N输入特征/>

使dec₁输出的特征提取结果图I_rec更接近I，/>

如式(2)所示

式(2)中

表示每一层中的enc_N的输出特征，/>

从N＝1到N＝4训练S-U-Net3+四对编码器，再从N＝4到N＝1训练S-U-Net3+四对解码器，当N＝5时，训练既是编码器又是解码器的X，由于编码器学习旨在最小化

解码器学习旨在最小化/>

生成器特征融合部分

特征融合部分由一个Concat层和五个卷积层组成。这些卷积层使用3×3的滤波器来压缩通道数，各层滤波器数量分别为128、64、32、16、1，还通过批量归一化层(BN)来缓解梯度爆炸，激活函数LeakyReLU自适应地学习参数，提高精度，加快训练速度。特征提取部分得到尺寸为128×128×280的CT、MR特征图依次经过Concat层拼接，再经过五个卷积层进行通道降维，最终压缩成尺寸为128×128×1，深层细节丰富且充分表征两模态关键特征的融合图像(Fused image)。

鉴别器

KDE-GAN的鉴别器可以利用LIME生成对图像真假分类的可解释图像，再根据解释图像，监测鉴别器的性能的动态变化。在鉴别器性能达到最优时，停止训练鉴别器，减少因过度训练导致的过拟合(见图6)。

1)可解释部分

真实图像(Real images)和生成器G得到的融合图像G(z)输入用于图像分类的鉴别模块。D(G(z))、D(real)分别表示鉴别模块对G(z)和real images的分类结果，以脑部图像为例，Real表示被分类为脑部CT的图像，Fake表示被分类为非脑部CT图像。该鉴别模块共有5个有3×3滤波器的卷积层，滤波器数量分别为64、128、128、256、256，第一层卷积步长设置为1，其余各层步长设置为2，全连接层dropout设置为0.4(见图7)。输入的图像经过五个卷积层及全连接层的归一化最后得到分类的结果。LIME对分类为Real的一半的图像进行可视化解释。利用鉴别结果更新鉴别器损失L_D和生成器损失L_G，如式(5)-(6)所示：

2)动态阈值调整

主观评价方法是通过观测可解释图像中，关键特征被激活区域覆盖的占比，来判断鉴别器性能是否达到最佳；如脑肿瘤图像，必须确保图中脑部细节区域被覆盖。背景等无效区域被覆盖的图像属于无效图像。

其中，

模型的整体训练旨在利用训练集数据，分别对G和有LIME的Dc、Dm进行训练。首先固定G训练Dc、Dm，之后再固定Dc、Dm训练G，接着循环训练，来提高G生成融合图像的能力，以及Dc、Dm鉴别出生成图像与真实图像差别的能力，直至G生成的图像足以通过Dc、Dm的鉴别，G训练完成。将测试集数据输入训练好的G中，得到最终融合结果。在测试阶段，使用经过训练的生成器来生成融合图像，KDE-GAN的整体训练算法如算法1(Algorithm 1)所示，其中Iteration是指要学习的epoch的总数。利用损失变量T_D动态训练鉴别器的过程如算法2(Algorithm 2)。

/>

为验证本申请上述模型KDE-GAN的融合性能，本发明方法在四对测试图像上进行了实验，并选取了九种方法作为对比实验，包括基于神经网络的NestFuse、IFCNN、DenseFuse；基于滤波器的DTCWT、SGF、FPRSGF；基于GAN的FusionGAN、DDcGAN、UC-DDGAN。本发明从定性和定量两方面分析KDE-GAN的进步之处。测试图像包括：肉瘤的CT和MR-T1图像的第17切片、脑弓形虫病的CT和MR-T2图片的第13切片、脑膜瘤的CT和MR-PD图像的第17切片、转移性支气管肿瘤的CT和MR-Gad图像的第10切片。所有测试图像的大小均为256×256像素，灰度等级为256级。主观视觉效果如图9-12所示，客观评价指标值如表2所示。

表2客观评价指标值

/>

*加粗数据为最优值

图9到图12显示：NestFuse方法得到的融合结果(见图9-12(a))边缘模糊，不利于医生观察病灶轮廓；IFCNN方法得到的融合结果(见图9-12(b))亮度过低，损失掉大量细节信息；DenseFuse方法得到的融合结果(见图9-12(c))没有很好地保留边缘信息；DTCWT方法得到的融合结果(见图9-12(d))亮度过高，造成骨骼的细节信息失真；SGF方法得到的融合结果(见图9-12(e))对比度较低，容易造成边缘块效应；FPRSGF方法得到的融合结果(见图9-12(f))剃度对比度较差，容易造成纹理结构的部分模糊，损失掉大量细节信息；FusionGAN方法得到的融合结果(见图9-12(g))深层细节表征不够，观察不到其内部细节；DDcGAN方法得到的融合结果(见图9-12(h))边缘不够平滑；UC-DDGAN方法得到的融合结果(见图9-12(i))内部组织边界存在模糊现象，KDE-GAN得到的疾病融合结果(见图9-12(j))骨骼细节清晰、软组织颜色层次分明。综上，本申请基于知识蒸馏与可解释的多模态医学图像融合模型KDE-GAN的融合效果优于其他九种用于对比的融合方法，将其应用于多模态医学图像融合，可以辅助医生对病灶部位做出准确地诊断与治疗。

Claims

1.一种基于知识蒸馏与可解释的多模态医学图像融合模型，其特征在于：所述模型包括一个生成器G和两个鉴别器Dc和Dm，生成器负责生成融合图像，鉴别器用来判别真实图像和融合图像；其中，生成器包括特征提取和特征融合两部分，特征提取部分用的是经知识蒸馏去除冗余通道后得到的学生网络，特征融合部分由一个Concat层和五个卷积层组成；鉴别器包括鉴别模块和可解释模块，鉴别模块用于鉴别真实图像和融合图像；可解释模块用于生成鉴别器的鉴别模块鉴别为“Real”的图像的解释图像。

2.根据权利要求1所述的一种基于知识蒸馏与可解释的多模态医学图像融合模型，其特征在于：所述学生网络包括4个编码器，滤波器数量分别为56、112、224、448；模块x，既是编码器又是解码器，建为X，通道数为896；4个解码器的输入通道均设置为280。

3.根据权利要求1所述的一种基于知识蒸馏与可解释的多模态医学图像融合模型，其特征在于：所述特征融合部分的卷积层使用3×3的滤波器来压缩通道数，各层滤波器数量分别为128、64、32、16、1，还通过批量归一化层来缓解梯度爆炸，激活函数LeakyReLU自适应地学习参数，提高精度，加快训练速度。

4.根据权利要求1所述的一种基于知识蒸馏与可解释的多模态医学图像融合模型，其特征在于：所述鉴别器的鉴别模块包括五个卷积层和全连接层，每个卷积层有3×3滤波器，滤波器数量分别为64、128、128、256、256，第一层卷积步长设置为1，其余各层步长设置为2，全连接层dropout设置为0.4。

5.一种基于权利要求1-4任一项所述模型的多模态医学图像融合方法，其特征在于，所述方法包括以下步骤：

6.根据权利要求5所述的多模态医学图像融合方法，其特征在于，所述步骤1中通过知识蒸馏获得学生模型并应用于所述模型特征提取部分的详细步骤如下：

(1)构建学生网络结构

(2)知识迁移

各层的enc_N输出的特征为/>

为使ENC_N输出的特征/>

更接近enc_N输出的特征/>

如式(1)所示；在解码器学习时，解码器损失函数/>

旨在使dec_N输出特征/>

更接近enc_N输入特征/>

使dec₁输出的特征提取结果图I_rec更接近I，/>

如式(2)所示

式(2)中

表示每一层中的enc_N的输出特征，/>

表示enc_N的各层特征图输出在输入解码器之前得到的叠加特征图，D(·)和U(·)分别表示上采样和下采样操作，C[·]表示叠加所有通道的操作；

解码器学习旨在最小化/>

7.根据权利要求5所述的多模态医学图像融合方法，其特征在于，所述步骤2的具体过程为：特征提取部分得到尺寸为128×128×280的特征图依次经过Concat层拼接，再经过五个卷积层进行通道降维，最终压缩成尺寸为128×128×1，深层细节丰富且充分表征两模态关键特征的融合图像。

8.根据权利要求5所述的多模态医学图像融合方法，其特征在于：所述步骤3中鉴别器加入可解释模块，动态监测鉴别器性能，使其在最优性能时停止训练的具体过程为：

(2)动态阈值调整

客观评价是以一种用可解释阈值ε_D，0<ε_D<1作为标准，衡量前一半图像被训练完成之后，鉴别器的性能是否达标；ε_D的初值的计算方式如下：

其中，

9.根据权利要求5所述的多模态医学图像融合方法，其特征在于：所述步骤3中模型的生成器、鉴别器共同优化的具体过程为：首先固定生成器G训练鉴别器Dc、Dm，之后再固定鉴别器Dc、Dm训练生成器G，接着循环训练，来提高生成器G生成融合图像的能力，以及鉴别器Dc、Dm鉴别出生成图像与真实图像差别的能力，直至生成器G生成的图像足以通过鉴别器Dc、Dm的鉴别，生成器G训练完成后，将测试集数据输入训练好的生成器G中，得到最终融合结果。