CN113421243B

CN113421243B - 一种基于知识蒸馏网络检测眼底图像类型的方法及装置

Info

Publication number: CN113421243B
Application number: CN202110700727.0A
Authority: CN
Inventors: 谢海; 雷柏英; 张国明; 汪天富; 陈懿; 田汝银
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2023-06-02
Anticipated expiration: 2041-06-23
Also published as: CN113421243A

Abstract

本发明公开了一种基于知识蒸馏网络检测眼底图像类型的方法及装置，方法包括步骤：在教师网络和学生网络之间设置若干个教师辅助网络，得到基础网络架构；在所述基础网络架构中的每一个网络的最后特征输出层中增设稠密传输模块，在所述基础网络构架中的任意两个相邻网络之间设置对抗学习网络的判别器，构建知识蒸馏网络模型模型；将已标记眼底图像输入到所述知识蒸馏网络模型中进行训练，得到训练后知识蒸馏网络模型；将待测眼底图像输入到所述训练后知识蒸馏网络模型，输出待测眼底图像的类型。本发明方法能够有效地避免蒸馏过程中的特征信息损失，使得学生网络能以较小的尺寸实现对眼底图像类型较高的预测精度。

Description

一种基于知识蒸馏网络检测眼底图像类型的方法及装置

技术领域

本发明涉及深度学习算法应用领域，特别涉及一种基于知识蒸馏网络检测眼底图像类型的方法及装置。

背景技术

早产儿视网膜病变(ROP)是低出生体重儿常见的视网膜疾病，也是儿童失明的主要原因。AP-ROP是一种特殊的ROP，其特征是视网膜血管发育中的血管增生性疾病，如果干预不及时，可能会导致不可逆转的视觉损害。因此，AP-ROP也被视为最严重的ROP类型之一，对其进行准确、客观、高效的鉴别已成为学术界、医疗界共同关注的课题。

准确的鉴别有助于临床医生做出相应的科学判断，选择合适的诊断和治疗方法。特别地，AP-ROP的发病率相对较低，许多眼科医生在区分常规ROP和AP-ROP方面经验不足。常规ROP、AP-ROP和正常眼底图像的示意图如图1所示。可以观察到，常规ROP与AP-ROP在外观和特征上极为相似，这是眼科医师准确、快速鉴别的一大障碍。因此，计算机辅助诊断对于帮助临床医生对常规ROP和AP-ROP进行客观评估显得尤为重要。

因卷积神经网络能够利用其强大的特征提取能力表征图像所具的显著特征，已被广泛应用于医学图像处理。然而，由于卷积神经网络一般具有较多的网络参数，使得网络模型的复杂度较高，对于嵌入式设备的算法移植造成很大的挑战，导致对ROP和AP-ROP的图像识别效率较低。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的不足，提供一种基于知识蒸馏网络检测眼底图像类型的方法及装置，旨在解决现有深度学习方法对眼底图像的类别识别准确率较低的问题。

为了解决上述技术问题，本发明所采用的技术方案如下：

一种基于知识蒸馏网络检测眼底图像类型的方法，其中，包括步骤：

在教师网络和学生网络之间设置若干个教师辅助网络，得到基础网络架构；

在所述基础网络架构中的每一个网络的最后特征输出层中增设稠密传输模块，在所述基础网络构架中的任意两个相邻网络之间设置对抗学习网络的判别器，构建知识蒸馏网络模型模型；

将已标记眼底图像输入到所述知识蒸馏网络模型中进行训练，得到训练后知识蒸馏网络模型，所述已标记眼底图像包括正常眼底图像、ROP眼底图像以及AP-ROP眼底图像；

将待测眼底图像输入到所述训练后知识蒸馏网络模型，输出待测眼底图像的类型。

所述基于知识蒸馏网络检测眼底图像类型的方法，其中，所述教师网络为ResNet-34网络、ResNet-50网络或ResNet-101中的一种，所述学生网络为具有6个残差层的网络结构，所述教师辅助网络为具有18、14、10、8个残差层的网络结构中的一种或多种。

所述基于知识蒸馏网络检测眼底图像类型的方法，其中，所述稠密传输模块用于将教师网络和学生网络的最后输出以KL散度作为损失函数，约束学生网络的输出并蒸馏教师网络学习到的特征。

所述基于知识蒸馏网络检测眼底图像类型的方法，其中，定义教师网络和学生网络的最后输出为T_o和S_o，则利用KL散度计算KD损失可表达为：

其中，

是一个超参数，控制教师网络和学生网络的软信号输出。

所述基于知识蒸馏网络检测眼底图像类型的方法，其中，所述稠密传输模块还用于对基础网络架构中每个网络的最后特征输出层进行稠密传输处理，并以L₁和L₂范数约束每个网络的特征输出。

所述基于知识蒸馏网络检测眼底图像类型的方法，其中，定义教师网络和学生网络的最后特征输出层的特征分别为f_up和f_low，则其最后特征输出层的损失函数为：

L₁＝|f_up-f_low|¹，L₂＝||f_up-f_low||²；定义教师辅助网络的蒸馏损失为

i为教师辅助网络的数量索引。

所述基于知识蒸馏网络检测眼底图像类型的方法，其中，所述对抗学习网络的判别器由两个卷积核大小为1的卷积层、一个自适应平均池化层、全连接层及一个Sigmoid层组成。

所述基于知识蒸馏网络检测眼底图像类型的方法，其中，所述判别器用于对基础网络构架中的任意两个相邻网络的输出特征进行特征空间对齐

一种存储介质，其中，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现本发明基于知识蒸馏网络检测眼底图像类型的方法中的步骤。

一种基于知识蒸馏网络检测眼底图像类型的装置，其中，包括处理器，适于实现各指令；以及存储介质，适于存储多条指令，所述指令适于由处理器加载并执行本发明所述基于知识蒸馏网络检测眼底图像类型的方法中的步骤。

有益效果：本发明提出了基于知识蒸馏网络检测眼底图像类型的方法，在教师网络与学生网络间加入若干个教师辅助网络，利用稠密连接的原理，对网络的最后输出以及每个网络的最后特征输出层进行稠密蒸馏，最大可能地降低蒸馏过程中的特征信息损失；此外，为使得两个相邻网络的特征能够尽可能保持一致性，达到蒸馏信息损失最小化，本方法利用对抗学习网络对两个相邻网络的输出特征进行特征空间对齐。本发明方法能够有效地避免蒸馏过程中的特征信息损失，使得学生网络能以较小的尺寸实现对眼底图像类型较高的预测精度。本发明为利用彩色眼底图像筛查常规ROP和AP-ROP的计算机辅助诊断系统的设计提供了新思路，也可为轻量级的便携式和嵌入式设备开发提供技术支持。

附图说明

图1为常规ROP、AP-ROP和正常眼底图像的展示图。

图2为本发明一种基于知识蒸馏网络检测眼底图像类型的方法较佳实施例的流程图。

图3为本发明一种基于知识蒸馏网络检测眼底图像类型的方法框架图。

图4为本发明对抗学习网络的判别器结构组成图。

图5为三种蒸馏策略下的分类对比结果图。

图6为本发明一种基于知识蒸馏网络检测眼底图像类型的装置原理框图。

具体实施方式

本发明提供一种基于知识蒸馏网络检测眼底图像类型的方法及装置，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

选择知识蒸馏(knowledge distillation，KD)算法可将大尺寸网络(教师网络)学习到的知识高效地蒸馏到一个小网络(学生网络)，使得小网络能够以很少的网络参数模仿大网络的特征学习结果，实现较高的预测精度。然而，并不是所有的KD模型都能取得令人满意的效果，当教师网络与学生网络的尺寸相差较大时，学生的网络的模仿能力就会降低，即在知识蒸馏过程中，会因损失了大量的特征信息而使得预测的精度大打折扣。

基于此，本发明提供了基于知识蒸馏网络检测眼底图像类型的方法，如图2所示，其包括步骤：

S10、在教师网络和学生网络之间设置若干个教师辅助网络，得到基础网络架构；

S20、在所述基础网络架构中的每一个网络的最后特征输出层中增设稠密传输模块，在所述基础网络构架中的任意两个相邻网络之间设置对抗学习网络的判别器，构建知识蒸馏网络模型模型；

S30、将已标记眼底图像输入到所述知识蒸馏网络模型中进行训练，得到训练后知识蒸馏网络模型，所述已标记眼底图像包括正常眼底图像、ROP眼底图像以及AP-ROP眼底图像；

S40、将待测眼底图像输入到所述训练后知识蒸馏网络模型，输出待测眼底图像的类型。

具体来讲，如图3所示，为缩小教师网络和学生网络之间的尺寸差距，本实施例在大尺寸的教师网络与小尺寸的学生网络间加入若干个具有中间尺寸的教师辅助网络；在所述基础网络架构中的每一个网络的最后特征输出层中增设稠密传输模块，利用稠密连接的原理，对网络的最后输出以及每个网络的最后特征输出层进行稠密蒸馏，最大可能地降低蒸馏过程中的特征信息损失；此外，为使得两个相邻网络的特征能够尽可能保持一致性，达到蒸馏信息损失最小化，本实施例在所述基础网络构架中的任意两个相邻网络之间设置有对抗学习网络的判别器，利用对抗学习网络对两个相邻网络的输出特征进行特征空间对齐。本发明方法能够有效地避免蒸馏过程中的特征信息损失，使得学生网络能以较小的尺寸实现对眼底图像类型较高的预测精度。本发明为利用彩色眼底图像筛查常规ROP和AP-ROP的计算机辅助诊断系统的设计提供了新思路，也可为轻量级的便携式和嵌入式设备开发提供技术支持。本实施例中，所述教师辅助网络具有的残差层数量大于学生网络具有的残差层数量且小于教师网络具有的残差层数量。

在一些实施方式中，所述教师网络为具有较大尺寸的ResNet-34网络、ResNet-50网络或ResNet-101中的一种，这些教师网络可提取眼底图像的深层次高水平特征；所述学生网络为具有6个残差层的网络结构，但不限于此，小尺寸的学生网络用于模仿教师网络的特征提取能力。所述教师辅助网络为具有18、14、10、8个残差层的网络结构中的一种或多种，但不限于此，所述教师辅助网络用于蒸馏教师网络学习到的特征，以缩小教师网络和学生网络之间的尺寸间隙。

在一些实施方式中，为避免严重的信息损失，所述稠密传输模块用于将教师网络和学生网络的最后输出以KL散度作为损失函数，约束学生网络的输出并蒸馏教师网络学习到的特征。此外，所述稠密传输模块还可用于对基础网络架构中每个网络的最后特征输出层进行稠密传输处理，并以L₁和L₂范数约束每个网络的特征输出。

具体来讲，定义教师网络和学生网络的最后输出为T_o和S_o，则利用KL散度计算KD损失可表达为：

其中，

是一个超参数，控制教师网络和学生网络的软信号输出。定义真实的标签为y_tr，利用交叉熵损失监督小网络的生成特征信息，可表达为：

通过一个平衡参数λ联合公式(1)和(2)可得到蒸馏损失函数为：L＝(1-λ)L_CE+λL_KD， (3)。

此外，定义定义教师网络和学生网络的最后特征输出层的特征分别为f_up和f_low，则其最后特征输出层的损失函数为：

i为教师辅助网络的数量索引。整合L₁和L₂范数损失之后，得到的多级稠密传输KD模型的损失可定义为：

在一些实施方式中，基于多级稠密传输的KD模型可以通过以下算法实现：

输入：ROP眼底图像数据x，真实标签y_tr,预训练的教师网络T,预训练的教师辅助网络TA_j，j＝1，2，...,教师辅助网络数目n,学生网络S,最大训练次数epoch_max；

输出：蒸馏得到的学生网络模型S，定义两个空列表:L_feas和L_logits；

如果n≥1则

end

在一些实施方式中，所述对抗学习网络的判别器由两个卷积核大小为1的卷积层、一个自适应平均池化层、全连接层及一个Sigmoid层组成。其结构图如图4所示，图4中F_Teac和F_stud分别代表两个相邻网络的最后特征输出层输出的特征。定义第j级的判别器为D_j，两个相邻的网络分别被定义为Net_j和Net_j+1，其中，Net_j代表尺寸较大的网络，Net_j+1代表尺寸较小的网络(被训练的网络)。因此，对抗损失能够被表达为：

本实施例中，所述判别器用于对基础网络构架中的任意两个相邻网络的输出特征进行特征空间对齐。

在一些具体的实施方式中，采用ResNet-34网络作为教师网络，采用已标记眼底图像作为训练数据并进行训练，得到训练好的ResNet-34网络；根据残差结构的数据，选择具有18、14、10、8个残差层的网络结构作为教师辅助网络，选择具有6个残差层的网络结构作为学生网络。本实施例主要关注ROP检测的两个任务，即任务1：ROP眼底图像与正常眼底图像分类；任务2：ROP眼底图像、AP-ROP眼底图像及正常眼底图像分类。不同蒸馏策略下的对比实验结果如图5所示。图5中(a)表示任务1的实验结果，图5中(b)表示任务2的实验结果。图5中，Acc、Pre、Rec及F1分别代表预测准确率、预测精度、召回率及F1值。“WithoutTAmodels”代表直接蒸馏结果(没有使用教师辅助网络)，“TAmodels”代表直接加入教师辅助网络的结果(未使用多级稠密传输蒸馏技术)，“proposed”表示使用本方法得到的结果(加入对抗学习及多级稠密传输蒸馏模块)。其中，在精确率(precision，Pre)、召回率(recall，Rec)，F1-score作为模型性能的评价指标，其计算方法如下：

上式中TP(true positive)、TN(true negative)、FP(false positive)和FN(false negative)分别为真阳性、真阴性、假阳性和假阴性的样本个数。

从图5可以看出，教师与学生网络之间的尺寸间隔减弱了学生网络对教师网络的模仿能力，而具有中间网络尺寸的教师辅助网络能够弥补教师与学生网络之间的尺寸间隔。特别地，本方法基于对抗学习及多级稠密传输蒸馏技术能够最大程度减少蒸馏过程中的特征信息损失，进一步提高学生网络的预测性能，从而提升网络对于眼底图像的分类精准度。

在另一些具体的实施方式中，为验证不同的损失函数对实验结果的增益及影响，本实施例也对使用的每个损失函数做了消融实验研究，对比实验结果如表1所示。可以看出，本方法所选用的损失函数对预测性能的提升均有一定的促进作用，每个损失函数的加入都能给任务1和任务2的预测结果带来一定程度的增益。

表1为针对任务1和任务2，不同蒸馏策略下的各个损失函数消融实验结果表。

表1中，“-”表示未使用教师辅助网络下的直接蒸馏结果；“＝”代表在教师辅助网络下径直的蒸馏结果；“→”代表多级稠密传输的蒸馏结果。“√”代表该损失在训练过程中被使用。

在一些实施方式中，还提供一种存储介质，其中，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现本发明基于知识蒸馏网络检测眼底图像类型的方法中的步骤。

在一些实施方式中，还提供一种基于知识蒸馏网络检测眼底图像类型的装置，如图6所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

包括处理器，适于实现各指令；以及存储介质，适于存储多条指令，所述指令适于由处理器加载并执行本发明所述自动检测眼底图像类型的方法中的步骤。

其中，包括处理器，适于实现各指令；以及存储介质，适于存储多条指令，所述指令适于由处理器加载并执行本发明所述基于知识蒸馏网络检测眼底图像类型的方法中的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识蒸馏网络检测眼底图像类型的方法，其特征在于，包括步骤：

在教师网络和学生网络之间设置若干个教师辅助网络，得到基础网络架构，定义教师网络和学生网络的最后输出为

和

，则利用KL散度计算KD损失可表达为：

，其中，

是一个超参数，控制教师网络和学生网络的软信号输出，所述教师辅助网络具有的残差层数量大于学生网络具有的残差层数量且小于教师网络具有的残差层数量，避免蒸馏过程中的特征信息损失，使得学生网络以小尺寸实现对眼底图像类型的高精度预测；

在所述基础网络架构中的每一个网络的最后特征输出层中增设稠密传输模块，降低蒸馏过程中的特征信息损失，在所述基础网络构架中的任意两个相邻网络之间设置对抗学习网络的判别器，构建知识蒸馏网络模型，使得两个相邻网络的特征保持一致，所述稠密传输模块还用于对基础网络架构中每个网络的最后特征输出层进行稠密传输处理，并以