CN113421243B - 一种基于知识蒸馏网络检测眼底图像类型的方法及装置 - Google Patents
一种基于知识蒸馏网络检测眼底图像类型的方法及装置 Download PDFInfo
- Publication number
- CN113421243B CN113421243B CN202110700727.0A CN202110700727A CN113421243B CN 113421243 B CN113421243 B CN 113421243B CN 202110700727 A CN202110700727 A CN 202110700727A CN 113421243 B CN113421243 B CN 113421243B
- Authority
- CN
- China
- Prior art keywords
- network
- teacher
- fundus image
- distillation
- student
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 40
- 238000004821 distillation Methods 0.000 claims abstract description 35
- 230000005540 biological transmission Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 3
- 206010038933 Retinopathy of prematurity Diseases 0.000 description 32
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004195 computer-aided diagnosis Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 208000017442 Retinal disease Diseases 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 208000018773 low birth weight Diseases 0.000 description 1
- 231100000533 low birth weight Toxicity 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002062 proliferating effect Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002792 vascular Effects 0.000 description 1
- 230000006459 vascular development Effects 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Eye Examination Apparatus (AREA)
Abstract
本发明公开了一种基于知识蒸馏网络检测眼底图像类型的方法及装置,方法包括步骤:在教师网络和学生网络之间设置若干个教师辅助网络,得到基础网络架构;在所述基础网络架构中的每一个网络的最后特征输出层中增设稠密传输模块,在所述基础网络构架中的任意两个相邻网络之间设置对抗学习网络的判别器,构建知识蒸馏网络模型模型;将已标记眼底图像输入到所述知识蒸馏网络模型中进行训练,得到训练后知识蒸馏网络模型;将待测眼底图像输入到所述训练后知识蒸馏网络模型,输出待测眼底图像的类型。本发明方法能够有效地避免蒸馏过程中的特征信息损失,使得学生网络能以较小的尺寸实现对眼底图像类型较高的预测精度。
Description
技术领域
本发明涉及深度学习算法应用领域,特别涉及一种基于知识蒸馏网络检测眼底图像类型的方法及装置。
背景技术
早产儿视网膜病变(ROP)是低出生体重儿常见的视网膜疾病,也是儿童失明的主要原因。AP-ROP是一种特殊的ROP,其特征是视网膜血管发育中的血管增生性疾病,如果干预不及时,可能会导致不可逆转的视觉损害。因此,AP-ROP也被视为最严重的ROP类型之一,对其进行准确、客观、高效的鉴别已成为学术界、医疗界共同关注的课题。
准确的鉴别有助于临床医生做出相应的科学判断,选择合适的诊断和治疗方法。特别地,AP-ROP的发病率相对较低,许多眼科医生在区分常规ROP和AP-ROP方面经验不足。常规ROP、AP-ROP和正常眼底图像的示意图如图1所示。可以观察到,常规ROP与AP-ROP在外观和特征上极为相似,这是眼科医师准确、快速鉴别的一大障碍。因此,计算机辅助诊断对于帮助临床医生对常规ROP和AP-ROP进行客观评估显得尤为重要。
因卷积神经网络能够利用其强大的特征提取能力表征图像所具的显著特征,已被广泛应用于医学图像处理。然而,由于卷积神经网络一般具有较多的网络参数,使得网络模型的复杂度较高,对于嵌入式设备的算法移植造成很大的挑战,导致对ROP和AP-ROP的图像识别效率较低。
因此,现有技术还有待于改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种基于知识蒸馏网络检测眼底图像类型的方法及装置,旨在解决现有深度学习方法对眼底图像的类别识别准确率较低的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种基于知识蒸馏网络检测眼底图像类型的方法,其中,包括步骤:
在教师网络和学生网络之间设置若干个教师辅助网络,得到基础网络架构;
在所述基础网络架构中的每一个网络的最后特征输出层中增设稠密传输模块,在所述基础网络构架中的任意两个相邻网络之间设置对抗学习网络的判别器,构建知识蒸馏网络模型模型;
将已标记眼底图像输入到所述知识蒸馏网络模型中进行训练,得到训练后知识蒸馏网络模型,所述已标记眼底图像包括正常眼底图像、ROP眼底图像以及AP-ROP眼底图像;
将待测眼底图像输入到所述训练后知识蒸馏网络模型,输出待测眼底图像的类型。
所述基于知识蒸馏网络检测眼底图像类型的方法,其中,所述教师网络为ResNet-34网络、ResNet-50网络或ResNet-101中的一种,所述学生网络为具有6个残差层的网络结构,所述教师辅助网络为具有18、14、10、8个残差层的网络结构中的一种或多种。
所述基于知识蒸馏网络检测眼底图像类型的方法,其中,所述稠密传输模块用于将教师网络和学生网络的最后输出以KL散度作为损失函数,约束学生网络的输出并蒸馏教师网络学习到的特征。
所述基于知识蒸馏网络检测眼底图像类型的方法,其中,所述稠密传输模块还用于对基础网络架构中每个网络的最后特征输出层进行稠密传输处理,并以L1和L2范数约束每个网络的特征输出。
所述基于知识蒸馏网络检测眼底图像类型的方法,其中,定义教师网络和学生网络的最后特征输出层的特征分别为fup和flow,则其最后特征输出层的损失函数为:
所述基于知识蒸馏网络检测眼底图像类型的方法,其中,所述对抗学习网络的判别器由两个卷积核大小为1的卷积层、一个自适应平均池化层、全连接层及一个Sigmoid层组成。
所述基于知识蒸馏网络检测眼底图像类型的方法,其中,所述判别器用于对基础网络构架中的任意两个相邻网络的输出特征进行特征空间对齐
一种存储介质,其中,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明基于知识蒸馏网络检测眼底图像类型的方法中的步骤。
一种基于知识蒸馏网络检测眼底图像类型的装置,其中,包括处理器,适于实现各指令;以及存储介质,适于存储多条指令,所述指令适于由处理器加载并执行本发明所述基于知识蒸馏网络检测眼底图像类型的方法中的步骤。
有益效果:本发明提出了基于知识蒸馏网络检测眼底图像类型的方法,在教师网络与学生网络间加入若干个教师辅助网络,利用稠密连接的原理,对网络的最后输出以及每个网络的最后特征输出层进行稠密蒸馏,最大可能地降低蒸馏过程中的特征信息损失;此外,为使得两个相邻网络的特征能够尽可能保持一致性,达到蒸馏信息损失最小化,本方法利用对抗学习网络对两个相邻网络的输出特征进行特征空间对齐。本发明方法能够有效地避免蒸馏过程中的特征信息损失,使得学生网络能以较小的尺寸实现对眼底图像类型较高的预测精度。本发明为利用彩色眼底图像筛查常规ROP和AP-ROP的计算机辅助诊断系统的设计提供了新思路,也可为轻量级的便携式和嵌入式设备开发提供技术支持。
附图说明
图1为常规ROP、AP-ROP和正常眼底图像的展示图。
图2为本发明一种基于知识蒸馏网络检测眼底图像类型的方法较佳实施例的流程图。
图3为本发明一种基于知识蒸馏网络检测眼底图像类型的方法框架图。
图4为本发明对抗学习网络的判别器结构组成图。
图5为三种蒸馏策略下的分类对比结果图。
图6为本发明一种基于知识蒸馏网络检测眼底图像类型的装置原理框图。
具体实施方式
本发明提供一种基于知识蒸馏网络检测眼底图像类型的方法及装置,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面结合附图,通过对实施例的描述,对发明内容作进一步说明。
选择知识蒸馏(knowledge distillation,KD)算法可将大尺寸网络(教师网络)学习到的知识高效地蒸馏到一个小网络(学生网络),使得小网络能够以很少的网络参数模仿大网络的特征学习结果,实现较高的预测精度。然而,并不是所有的KD模型都能取得令人满意的效果,当教师网络与学生网络的尺寸相差较大时,学生的网络的模仿能力就会降低,即在知识蒸馏过程中,会因损失了大量的特征信息而使得预测的精度大打折扣。
基于此,本发明提供了基于知识蒸馏网络检测眼底图像类型的方法,如图2所示,其包括步骤:
S10、在教师网络和学生网络之间设置若干个教师辅助网络,得到基础网络架构;
S20、在所述基础网络架构中的每一个网络的最后特征输出层中增设稠密传输模块,在所述基础网络构架中的任意两个相邻网络之间设置对抗学习网络的判别器,构建知识蒸馏网络模型模型;
S30、将已标记眼底图像输入到所述知识蒸馏网络模型中进行训练,得到训练后知识蒸馏网络模型,所述已标记眼底图像包括正常眼底图像、ROP眼底图像以及AP-ROP眼底图像;
S40、将待测眼底图像输入到所述训练后知识蒸馏网络模型,输出待测眼底图像的类型。
具体来讲,如图3所示,为缩小教师网络和学生网络之间的尺寸差距,本实施例在大尺寸的教师网络与小尺寸的学生网络间加入若干个具有中间尺寸的教师辅助网络;在所述基础网络架构中的每一个网络的最后特征输出层中增设稠密传输模块,利用稠密连接的原理,对网络的最后输出以及每个网络的最后特征输出层进行稠密蒸馏,最大可能地降低蒸馏过程中的特征信息损失;此外,为使得两个相邻网络的特征能够尽可能保持一致性,达到蒸馏信息损失最小化,本实施例在所述基础网络构架中的任意两个相邻网络之间设置有对抗学习网络的判别器,利用对抗学习网络对两个相邻网络的输出特征进行特征空间对齐。本发明方法能够有效地避免蒸馏过程中的特征信息损失,使得学生网络能以较小的尺寸实现对眼底图像类型较高的预测精度。本发明为利用彩色眼底图像筛查常规ROP和AP-ROP的计算机辅助诊断系统的设计提供了新思路,也可为轻量级的便携式和嵌入式设备开发提供技术支持。本实施例中,所述教师辅助网络具有的残差层数量大于学生网络具有的残差层数量且小于教师网络具有的残差层数量。
在一些实施方式中,所述教师网络为具有较大尺寸的ResNet-34网络、ResNet-50网络或ResNet-101中的一种,这些教师网络可提取眼底图像的深层次高水平特征;所述学生网络为具有6个残差层的网络结构,但不限于此,小尺寸的学生网络用于模仿教师网络的特征提取能力。所述教师辅助网络为具有18、14、10、8个残差层的网络结构中的一种或多种,但不限于此,所述教师辅助网络用于蒸馏教师网络学习到的特征,以缩小教师网络和学生网络之间的尺寸间隙。
在一些实施方式中,为避免严重的信息损失,所述稠密传输模块用于将教师网络和学生网络的最后输出以KL散度作为损失函数,约束学生网络的输出并蒸馏教师网络学习到的特征。此外,所述稠密传输模块还可用于对基础网络架构中每个网络的最后特征输出层进行稠密传输处理,并以L1和L2范数约束每个网络的特征输出。
具体来讲,定义教师网络和学生网络的最后输出为To和So,则利用KL散度计算KD损失可表达为:其中,是一个超参数,控制教师网络和学生网络的软信号输出。定义真实的标签为ytr,利用交叉熵损失监督小网络的生成特征信息,可表达为:通过一个平衡参数λ联合公式(1)和(2)可得到蒸馏损失函数为:L=(1-λ)LCE+λLKD, (3)。
此外,定义定义教师网络和学生网络的最后特征输出层的特征分别为fup和flow,则其最后特征输出层的损失函数为:
在一些实施方式中,基于多级稠密传输的KD模型可以通过以下算法实现:
输入:ROP眼底图像数据x,真实标签ytr,预训练的教师网络T,预训练的教师辅助网络TAj,j=1,2,...,教师辅助网络数目n,学生网络S,最大训练次数epoch_max;
输出:蒸馏得到的学生网络模型S,定义两个空列表:Lfeas和Llogits;
如果n≥1则
end
在一些实施方式中,所述对抗学习网络的判别器由两个卷积核大小为1的卷积层、一个自适应平均池化层、全连接层及一个Sigmoid层组成。其结构图如图4所示,图4中FTeac和Fstud分别代表两个相邻网络的最后特征输出层输出的特征。定义第j级的判别器为Dj,两个相邻的网络分别被定义为Netj和Netj+1,其中,Netj代表尺寸较大的网络,Netj+1代表尺寸较小的网络(被训练的网络)。因此,对抗损失能够被表达为: 本实施例中,所述判别器用于对基础网络构架中的任意两个相邻网络的输出特征进行特征空间对齐。
在一些具体的实施方式中,采用ResNet-34网络作为教师网络,采用已标记眼底图像作为训练数据并进行训练,得到训练好的ResNet-34网络;根据残差结构的数据,选择具有18、14、10、8个残差层的网络结构作为教师辅助网络,选择具有6个残差层的网络结构作为学生网络。本实施例主要关注ROP检测的两个任务,即任务1:ROP眼底图像与正常眼底图像分类;任务2:ROP眼底图像、AP-ROP眼底图像及正常眼底图像分类。不同蒸馏策略下的对比实验结果如图5所示。图5中(a)表示任务1的实验结果,图5中(b)表示任务2的实验结果。图5中,Acc、Pre、Rec及F1分别代表预测准确率、预测精度、召回率及F1值。“WithoutTAmodels”代表直接蒸馏结果(没有使用教师辅助网络),“TAmodels”代表直接加入教师辅助网络的结果(未使用多级稠密传输蒸馏技术),“proposed”表示使用本方法得到的结果(加入对抗学习及多级稠密传输蒸馏模块)。其中,在精确率(precision,Pre)、召回率(recall,Rec),F1-score作为模型性能的评价指标,其计算方法如下:
上式中TP(true positive)、TN(true negative)、FP(false positive)和FN(false negative)分别为真阳性、真阴性、假阳性和假阴性的样本个数。
从图5可以看出,教师与学生网络之间的尺寸间隔减弱了学生网络对教师网络的模仿能力,而具有中间网络尺寸的教师辅助网络能够弥补教师与学生网络之间的尺寸间隔。特别地,本方法基于对抗学习及多级稠密传输蒸馏技术能够最大程度减少蒸馏过程中的特征信息损失,进一步提高学生网络的预测性能,从而提升网络对于眼底图像的分类精准度。
在另一些具体的实施方式中,为验证不同的损失函数对实验结果的增益及影响,本实施例也对使用的每个损失函数做了消融实验研究,对比实验结果如表1所示。可以看出,本方法所选用的损失函数对预测性能的提升均有一定的促进作用,每个损失函数的加入都能给任务1和任务2的预测结果带来一定程度的增益。
表1为针对任务1和任务2,不同蒸馏策略下的各个损失函数消融实验结果表。
表1中,“-”表示未使用教师辅助网络下的直接蒸馏结果;“=”代表在教师辅助网络下径直的蒸馏结果;“→”代表多级稠密传输的蒸馏结果。“√”代表该损失在训练过程中被使用。
在一些实施方式中,还提供一种存储介质,其中,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明基于知识蒸馏网络检测眼底图像类型的方法中的步骤。
在一些实施方式中,还提供一种基于知识蒸馏网络检测眼底图像类型的装置,如图6所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
包括处理器,适于实现各指令;以及存储介质,适于存储多条指令,所述指令适于由处理器加载并执行本发明所述自动检测眼底图像类型的方法中的步骤。
其中,包括处理器,适于实现各指令;以及存储介质,适于存储多条指令,所述指令适于由处理器加载并执行本发明所述基于知识蒸馏网络检测眼底图像类型的方法中的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (3)
1.一种基于知识蒸馏网络检测眼底图像类型的方法,其特征在于,包括步骤:
在教师网络和学生网络之间设置若干个教师辅助网络,得到基础网络架构,定义教师网络和学生网络的最后输出为和,则利用KL散度计算KD损失可表达为:,其中,是一个超参数,控制教师网络和学生网络的软信号输出,所述教师辅助网络具有的残差层数量大于学生网络具有的残差层数量且小于教师网络具有的残差层数量,避免蒸馏过程中的特征信息损失,使得学生网络以小尺寸实现对眼底图像类型的高精度预测;
在所述基础网络架构中的每一个网络的最后特征输出层中增设稠密传输模块,降低蒸馏过程中的特征信息损失,在所述基础网络构架中的任意两个相邻网络之间设置对抗学习网络的判别器,构建知识蒸馏网络模型,使得两个相邻网络的特征保持一致,所述稠密传输模块还用于对基础网络架构中每个网络的最后特征输出层进行稠密传输处理,并以和范数约束每个网络的特征输出,定义教师网络和学生网络的最后特征输出层的特征分别为和,则其最后特征输出层的损失函数为:
,;定义教师辅助网络的蒸馏损失为,为教师辅助网络的数量索引;整合和范数损失之后,得到的多级稠密传输KD模型的损失可定义为:;所述对抗学习网络的判别器由两个卷积核大小为1的卷积层、一个自适应平均池化层、全连接层及一个Sigmoid层组成,所述判别器用于对基础网络构架中的任意两个相邻网络的输出特征进行特征空间对齐;
将已标记眼底图像输入到所述知识蒸馏网络模型中进行训练,得到训练后知识蒸馏网络模型,所述已标记眼底图像包括正常眼底图像、ROP眼底图像以及AP-ROP眼底图像;
将待测眼底图像输入到所述训练后知识蒸馏网络模型,输出待测眼底图像的类型;
所述教师网络为ResNet-34网络、ResNet-50网络或ResNet-101中的一种,所述学生网络为具有6个残差层的网络结构,所述教师辅助网络为具有18、14、10、8个残差层的网络结构中的一种或多种;
所述稠密传输模块用于将教师网络和学生网络的最后输出以KL散度作为损失函数,约束学生网络的输出并蒸馏教师网络学习到的特征。
2.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1所述基于知识蒸馏网络检测眼底图像类型的方法中的步骤。
3.一种基于知识蒸馏网络检测眼底图像类型的装置,其特征在于,包括处理器,适于实现各指令;以及存储介质,适于存储多条指令,所述指令适于由处理器加载并执行权利要求1所述基于知识蒸馏网络检测眼底图像类型的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110700727.0A CN113421243B (zh) | 2021-06-23 | 2021-06-23 | 一种基于知识蒸馏网络检测眼底图像类型的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110700727.0A CN113421243B (zh) | 2021-06-23 | 2021-06-23 | 一种基于知识蒸馏网络检测眼底图像类型的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113421243A CN113421243A (zh) | 2021-09-21 |
CN113421243B true CN113421243B (zh) | 2023-06-02 |
Family
ID=77716423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110700727.0A Active CN113421243B (zh) | 2021-06-23 | 2021-06-23 | 一种基于知识蒸馏网络检测眼底图像类型的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421243B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881927B (zh) * | 2022-03-31 | 2024-04-16 | 华南师范大学 | 早产儿视网膜病变的检测方法及装置、设备 |
CN116311102B (zh) * | 2023-03-30 | 2023-12-15 | 哈尔滨市科佳通用机电股份有限公司 | 基于改进的知识蒸馏的铁路货车故障检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465111A (zh) * | 2020-11-17 | 2021-03-09 | 大连理工大学 | 一种基于知识蒸馏和对抗训练的三维体素图像分割方法 |
CN112545452A (zh) * | 2020-12-07 | 2021-03-26 | 南京医科大学眼科医院 | 高度近视眼底病变风险预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291836B (zh) * | 2020-03-31 | 2023-09-08 | 中国科学院计算技术研究所 | 一种生成学生网络模型的方法 |
CN112784964A (zh) * | 2021-01-27 | 2021-05-11 | 西安电子科技大学 | 基于桥接知识蒸馏卷积神经网络的图像分类方法 |
-
2021
- 2021-06-23 CN CN202110700727.0A patent/CN113421243B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465111A (zh) * | 2020-11-17 | 2021-03-09 | 大连理工大学 | 一种基于知识蒸馏和对抗训练的三维体素图像分割方法 |
CN112545452A (zh) * | 2020-12-07 | 2021-03-26 | 南京医科大学眼科医院 | 高度近视眼底病变风险预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113421243A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ghosh et al. | Automatic detection and classification of diabetic retinopathy stages using CNN | |
AU2017230184B2 (en) | Structure learning in convolutional neural networks | |
KR102707468B1 (ko) | 신경망, 신경망 학습 방법 및 이미지 신호 처리 튜닝 시스템 | |
EP4212100A1 (en) | Electroencephalogram signal classification method and apparatus, and device, storage medium and program product | |
CN113421243B (zh) | 一种基于知识蒸馏网络检测眼底图像类型的方法及装置 | |
WO2019232960A1 (zh) | 自动骨龄预测方法、系统、计算机设备和存储介质 | |
CN109008952A (zh) | 基于深度学习的监护方法及相关产品 | |
CN113240655B (zh) | 一种自动检测眼底图像类型的方法、存储介质及装置 | |
CN110032631B (zh) | 一种信息反馈方法、装置和存储介质 | |
CN109117817A (zh) | 人脸识别的方法及装置 | |
CN111160239A (zh) | 专注度评估方法和装置 | |
Zhang et al. | A human-in-the-loop deep learning paradigm for synergic visual evaluation in children | |
CN112052874A (zh) | 一种基于生成对抗网络的生理数据分类方法及系统 | |
Sharma et al. | Harnessing the Strength of ResNet50 to Improve the Ocular Disease Recognition | |
CN117610608B (zh) | 基于多阶段特征融合的知识蒸馏方法、设备及介质 | |
Lu et al. | Image recognition algorithm based on improved AlexNet and shared parameter transfer learning | |
CN112801283A (zh) | 一种神经网络模型、动作识别方法、装置及存储介质 | |
Meshram et al. | MCBM: Implementation Of Multiclass And Transfer Learning Algorithm Based On Deep Learning Model For Early Detection Of Diabetic Retinopathy | |
Harshini et al. | Machine Learning Approach for Various Eye Diseases using Modified Voting Classifier Model | |
Meshram et al. | Development And Analysis Of Deep Learning Model Based On Multiclass Classification Of Retinal Image For Early Detection Of Diabetic Retinopathy | |
Wankhade et al. | Multi-Class Retinopathy classification in Fundus Image using Deep Learning Approaches. | |
Khemakhem et al. | A Novel Deep Multi-Task Learning to Sensing Student Engagement in E-Learning Environments | |
Avhad et al. | Iridology based human health conditions predictions with computer vision and deep learning | |
Saichua et al. | Comparative study between ensemble and fusion convolutional neural networks for diabetic retinopathy classification | |
Hu et al. | CNN LEGO: Disassembling and assembling convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |