CN109858429B - 一种基于卷积神经网络的眼底图像病变程度识别与可视化系统 - Google Patents

一种基于卷积神经网络的眼底图像病变程度识别与可视化系统 Download PDF

Info

Publication number
CN109858429B
CN109858429B CN201910078790.8A CN201910078790A CN109858429B CN 109858429 B CN109858429 B CN 109858429B CN 201910078790 A CN201910078790 A CN 201910078790A CN 109858429 B CN109858429 B CN 109858429B
Authority
CN
China
Prior art keywords
image
neural network
training
stage
fundus image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910078790.8A
Other languages
English (en)
Other versions
CN109858429A (zh
Inventor
潘俊君
雍智凡
张景昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201910078790.8A priority Critical patent/CN109858429B/zh
Publication of CN109858429A publication Critical patent/CN109858429A/zh
Application granted granted Critical
Publication of CN109858429B publication Critical patent/CN109858429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

本发明提供一种基于卷积神经网络的眼底图像病变程度识别与可视化系统,其特征在于,包括:训练阶段的数据类别间指数形式采样模块、训练阶段的同一类别内样本间均匀采样模块、训练阶段的图像预处理模块、测试阶段的图像预处理模块和测试阶段的眼底图像预测模块。本发明提出的采样方法不仅实现简单而且采样速度快很多。本发明提出的神经网络结构不仅在检测结果好于现有神经网络结构而且可以在只使用图像级别的标签下可以对具有判别性的区域进行可视化。

Description

一种基于卷积神经网络的眼底图像病变程度识别与可视化 系统
技术领域
本发明涉及一种基于卷积神经网络的眼底图像病变程度识别与可视化系统,属于机器学习、图像处理、计算机视觉技术。
背景技术
随着图像处理、计算机视觉、深度学习等技术不断发展,眼底图像也得到了广泛研究。数据预处理、类别失衡机制、类别内样本均匀采样方法和神经网络结构的设计等四个方面是卷积神经网络的眼底图像病变程度检测方法的关键。数据过拟合策略可以提高卷积神经网络模型的泛化性。类别失衡机制使得模型保持对数量较少类别的关注,而不只学习数据量较多类别的特征。类别内样本均匀采样方法保证了同一类别内不同样本间可以等概率地用于模型训练。设计适合于眼底图像病变程度检测的神经网络结构可以提高模型的泛化性和实验结果。
前人已经在眼底图像中进行了深入的研究,但目前主要的方法可以分为三类:第一类,眼底图像相关区域检测和识别(如视盘、中央凹、微动脉瘤等)。但不能对眼底图像做出病变程度评估;第二类,基于传统机器学习的眼底图像病变程度检测。这类方法只适用于数据质量高的小规模数据集;第三类,基于卷积神经网络的眼底图像病变程度检测。这类方法可适用于大规模数据集,但不能对眼底图像中具有判别性的区域进行定位。
基于卷积神经网络模型训练过程中的数据集中严重的类别失衡问题、类别内样本的均匀采样、图像预处理和设计适用于眼底图像病变程度分类和关键区域定位的神经网络结构。针对这些问题,本发明提出一种基于卷积神经网络的眼底图像病变程度识别与可视化系统。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供一种基于卷积神经网络的眼底图像病变程度识别与可视化系统,适用于大规模数据集且能进行端到端的训练,可以缓解目前眼底图像数据集中类失衡问题,提高类内均匀采样速度,可以直接对眼底图像的病变程度进行评估,还可以对眼底图像中具有判别性的区域进行定位。
本发明采用的技术方案为:一种基于卷积神经网络的眼底图像病变程度识别与可视化系统,包括:训练阶段的数据类别间指数形式采样模块、训练阶段的同一类别内样本间均匀采样模块、训练阶段的图像预处理模块、测试阶段的图像预处理模块和测试阶段的眼底图像预测模块;
训练阶段的数据类别间指数形式采样模块:在神经网络训练过程中,将分成多个阶段,每个阶段不同类别拥有不同的采样数量,达到对数量少的类别进行过采样和对数量较多的类别进行降采样,并使用一个指数形式的公式拟合这些过程,以便缓解数据集中的类失衡问题。根据神经网络训练所处的训练阶段和指数形式表达式计算出每个类别在此阶段采样的数量,用于同一类别内样本间均匀采样模块的输入;
训练阶段的同一类别内样本间均匀采样模块:根据训练阶段的数据类别间指数形式采样模块得到的每个类别采样的数量,使用标签列表代替图像列表,实现对同一类别不同图像间的均匀采样,并将采样的图像作为图像预处理的输入;
训练阶段的图像预处理模块:根据训练阶段的同一类别内样本间均匀采样模块的结果,使用高斯差分思想,对采样的眼底图像进行对比度增强处理,得到具有差异性的眼底图像。接着使用数据增广技术丰富眼底图像训练集和使用图像归一化处理加速模型收敛。最后将预处理得到的眼底图像用于基于卷积神经网络的眼底图像病变程度识别和可视化模块中神经网络结构的训练;
训练阶段的基于卷积神经网络的眼底图像病变程度识别和可视化模块:基于残差神经网络结构,添加额外分支并压缩通道信息,使得卷积神经网络结构适合于眼底图像病变程度识别和可视化,根据训练阶段的图像预处理模块的结果用于神经网络结构模型的优化,并将经过若干训练后得到神经网络结构复制到预测阶段的眼底图像预测模块的网络结构;
测试阶段的图像预处理模块:输入单张眼底图像,经过对比度归增强和归一化处理,并将结果作为测试阶段的眼底图像预测的输入;
测试阶段的眼底图像预测模块:将测试阶段的图像预处理模块的结果输入到训练阶段的基于卷积神经网络的眼底图像病变程度识别和可视化模块的已训练好的神经网络结构,直接得到该眼底图像的病变程度结果和相应关键区域可视化。
所述训练阶段的数据类别间指数形式采样模块中,针对现有眼底图像数据集中严重的类失衡问题,设计一种指数形式的采样方法来增加对数量少的类别的眼底图像的采样数量和减少对数量较多的类别的眼底图像的采样数量,主要分成五步:
第一步将整个神经网络模型训练过程分成多个阶段,在不同阶段,不同的类别的图像拥有不同的采样数量;
第二步在训练的初始阶段,不同类别之间使用共同的采样数量,并称为base_size,其计算方式如公式(1),其中total_size为数据总量,kinds_of_class为图像的类别数;
Figure GDA0002640401900000021
第三步在不同阶段,不同类别的采样数量的计算按公式(2),其中sizeij为类别j在训练阶段i的采样数量,τj是类别j对应的增长因子,且对应计算方式如公式(3),其中size_initial为该类在原始数据集中的数量,k为总共采样的阶段数;
sizeij=base_size(1+τj)i-1 (2)
Figure GDA0002640401900000031
第四步,当模型训练进入到最后一个阶段时,对所有类别的采样数量大小都恢复到原始数据集中的数据分布;
第五步,根据当前神经网络训练所处的阶段和公式(2),计算得到每个类别在此阶段采样的数量。
所述训练阶段的同一类别内样本间均匀采样模块,放弃使用对图像列表进行采样,而先对标签列表进行采样,接着对图像标签列表采样,最后达到对同一类别内不同图像的均匀采样,具体实现过程如下:
第一步,根据图像的标签进行排序,并将标签相同的图像放在同一集合下,得到对应的子图像列表;
第二步,在神经网络训练采样过程中,计算每个类别在训练过程中需要的数量,根据这些类别的数量对每个类别生成一个标签列表,并将这些类别标签列表进行连接和随机化;
第三步,在采样的时候,只需要对该标签进行采样;
第四步,利用标签统计每个类别被采样的数量,并根据每个类别采样的数量到对应类别的子图像列表中进行图像采样。
所述训练阶段的图像预处理模块,图像对比度增强、数据增广和图像归一化方法主要如下:
第一步,图像对比度增强:基于高斯差分思想,首先将眼底图像进行高斯模糊,再使用原始图像Is减去经高斯模糊的图像I,得到归一化的眼底图像Ie,计算过程如公式(4),其中x,y图像中的坐标,λ,β,ρ,
Figure GDA0002640401900000032
是常数,λ=4,β=4,ρ=6.4,
Figure GDA0002640401900000033
Figure GDA0002640401900000034
第二步,数据增广:将增强的眼底图像进行图像随机翻转、随机旋转和随机裁剪。
第三步,归一化操作:从原始数据集中随机选择10000张对比度增强后的眼底图像,统计它们在RGB三个颜色通道的像素均值μ和方差σ,并对每一张采样的眼底图像的像素值减去μ后,再除以σ。上述过程如公式(5)、(6)、(7),其中μk是图像在通道k上的均值,H是图像的高度,W是图像的宽度,Ie(x,y,k)是经过对比度增强的图像在坐标为(x,y)、通道为k的像素值,σk是图像在通道k上的标准差,Inorm(x,y,k)为对应的归一化结果。
Figure GDA0002640401900000041
Figure GDA0002640401900000042
Figure GDA0002640401900000043
所述训练阶段的基于卷积神经网络的眼底图像病变程度识别和可视化模块,基于ResNet卷积神经网络结构,设计一个用于眼底图像病变程度分类和关键病灶区域定位的神经网络结构,具体实现过程如下:
第一步,通道信息压缩:将特征图的通道信息进行压缩,获得一个只有一个通道的空间特征图,计算如公式(8),其中
Figure GDA0002640401900000044
为原始特征图,而
Figure GDA0002640401900000045
为压缩的结果;
Figure GDA0002640401900000046
第二步,空间重要性的学习:学习一个打分函数(score function)α(U;θ),其中θ是参数,RSM是打分函数α(U;θ)的输出,而RSM将用于重新加权输入特征图Y;为了保证RSM间区域相互的独立性,RSM使用2层1×1的卷积网络结构来表达打分函数α;特别地,RSM必须能够区分具有不同重要性的区域,并且该重要性数值上为非负数,为了实现这一目标,在2层卷积后,使用sigmoid函数φ进行约束,如公式(9);
RSM=φ(α(U;θ)) (9)
第三步,特征图重加权:为了强调眼底图像中重要的区域而抑制不重要的区域,使用学习到的区域重要性来重新调整输入的特征图Y,如公式(10):
Figure GDA0002640401900000047
最后通过将原始输入X和
Figure GDA0002640401900000048
相结合,得到最终结果,如公式(11):
Figure GDA0002640401900000049
所述测试阶段的图像预处理模块,主要包括对比度增强和归一化处理。
第一步,对比度增强:对原始眼底图像使用权利要求4中第一步相同的处理。
第二步,归一化操作:将第一步中增强的眼底图像Ie的像素值减去数据集像素均值μ后,再除以数据集标准差σ,μ和σ的值为权利要求4中的μ和σ值一样,归一化结果计算方式和权利要求4中公式(7)相同。
所述测试阶段的眼底图像预测模块,主要将权利要求5中已训练好的神经网络结构模型进行复制和恢复,输入经过预处理的眼底图像,模型可以直接得到该眼底图像的病变程度和关键区域的可视化。
本发明的原理在于:
(1)提出指数形式的采样机制,来实现提高对数量较少类别样本的训练数量和减少对数量较多类别样本的训练数量。这可以保持模型对数量较少列表样本的关注程度。
(2)为了实现同一类别内不同样本间的均匀采样,使用标签列表代替图像列表,提高样本采样的速度。
(3)使用对比度增强技术可以增强眼底图像内的差异性。使用数据增广方式提高样本的多样性,避免使得神经网络模型依赖于某些样本。使用图像归一化技术可以加速神经网络模型训练的收敛。
(4)卷积神经网络可以适用于大规模数据集。通过压缩神经网络的通道信息,学习空间重要性,提高模型泛化性和实现对关键区域的定位。
(5)在模型预测阶段,需要使用训练阶段相同的图像预处理。
(6)在模型预测阶段,使用训练阶段的训练好的模型可以用于未知眼底图像的病变预测和相关关键区域定位。
本发明与现有技术相比的优点在于:
(1)传统方法通常按照数据集原始数据分布采样,模型在训练的时候往往只学习数量较多类别的特征,而使用指数形式的采样机制可以使得神经网络保持对数量较少类别的关注。此外指数形式的采样机制可以渐进地学习不同类别眼底图像的特征。
(2)目前均匀采样方法都是使用图像列表进行采样,当采样数量不是按照原始数据集分布时,采样过程不仅复杂而且采样速度慢。本发明提出的采样方法不仅实现简单而且采样速度快很多。
(3)传统机器学习方法一般只能适应于小规模数据而且对图像数据质量要求高,检测结果也不好。而现有的神经网络方法可以适用于大规模数据集,但都不能进行可视化。本发明提出的神经网络结构不仅在检测结果好于现有神经网络结构而且可以在只使用图像级别的标签下可以对具有判别性的区域进行可视化。
附图说明
图1为本发明眼底图像病变过程;
图2为本发明基于卷积神经网络的眼底图像病变程度识别与可视化方法过程;
图3为神经网络训练过程中的训练集和测试集准确率曲线图;
图4为生成图像子列表;
图5为label-image list sampling基本过程;
图6为本发明眼底图像对比度增强处理;
图7为眼底图像翻转结果;
图8为眼底图像旋转结果;
图9为眼底图像裁剪结果;
图10为卷积神经网络的一般转换过程;
图11为残差网络模块;
图12为RSM网络结构;
图13为ResNet模块(左)和ResNet-RSM模块(右);
图14为不同病变程度的眼底图像及其对应的RSM。
具体实施方式
本发明使用的是kaggle眼底图像数据集,图1显示了眼底图像不同病变程度:NODR(NO diabetic retinopathy)、Mild NPDR(nonproliferative diabetic retinopathy)、Moderate NPDR、Severe NPDR、PDR。图2给出了基于卷积神经网络的眼底图像病变程度检测的过程,主要分成训练和测试阶段,共6个模块,下面结合其他附图及具体实施方式进一步说明本发明。
本发明提供一种基于卷积神经网络的眼底图像病变程度识别与可视化系统,一种基于卷积神经网络的眼底图像病变程度识别与可视化系统,主要包括2个阶段:神经网络训练阶段和测试阶段,共6个模块:
(1)训练阶段的数据类别间指数形式采样模块:数据集中存在严重的类失衡问题。本发明提出一种指数形式的采样技术来提高数量较少类别的训练数量和减少数量较多类别的训练数量,使得神经网络模型保持对少量较少类别的关注。
(2)训练阶段的同一类别内样本间均匀采样模块:在模块(1)中,模型不是按照原始数据集分布进行采样。模块(2)生成一个标签列表,对标签列表进行随机化采样,最后统计每个类别被采样的数量并到对应的类别图像集中采样相同数量的图像。
(3)训练阶段的图像预处理模块:对原始输入眼底图像使用对比度归一化技术来增强图像内的区分度,以便加速神经网络训练。此外,使用水平翻转、竖直翻转、旋转、裁剪等数据增广技术处理和对比度归一化的眼底图像,来增强训练样本的丰富性、降低训练模型对特定样本的依赖和提高模型的泛化性,最后,使用图像归一化处理,加速模型收敛。
(4)训练阶段的基于卷积神经网络的眼底图像病变程度识别和可视化模块:基于ResNet残差网络,压缩空间信息,使用一种空间注意力机制。该注意力机制可以学习空间的重要性,并将此注意力机制重新加权特征图。在神经网络训练的时候,将模块(3)的结果用于该神经网络结构的训练。
(5)测试阶段的图像预处理模块:在测试阶段,将需要预测的眼底图像进行对比度增强和归一化处理,并用于已训练好的模型的输入。
(6)测试阶段的眼底图像预测模块:复制和恢复在模块(4)中已训练好的神经网络模型,将模块(5)中已经预处理的眼底图像作为输入,可直接得到该眼底图像的病变程度和可视化结果。
各个模块介绍如下:
一种基于卷积神经网络的眼底图像病变程度识别与可视化系统
1、训练阶段的数据类别间指数形式采样模块
Kaggle数据集中总共有35126张眼底图像,本发明使用其中的5000张作为测试集,剩下的作为训练集。表1展示了原始数据集中的数据分布,有着严重的类失衡问题。为了缓解数据集中类失衡问题,该发明提出了一种简单而又有效的采样机制,来实现对数据集中数量较多的类别进行降采样和数量较少的类别进行过采样。
在实验过程中,本发明将整个神经网络模型训练过程分成多个阶段。在不同阶段,不同的类别的图像拥有不同的采样数量。在训练的初始阶段,不同类别之间使用共同的采样数量,并称为base_size。当模型训练进入到最后一个阶段时,实验对所有类别的采样数量大小都恢复到原始数据集中的数据分布。在不同阶段,不同类别的采样数量的计算方式如公式(1)。
表1 眼底图像数据集数据分布
Figure GDA0002640401900000071
sizeij=base_size(1+τj)i-1 (1)
其中sizeij为类别j在训练阶段i的采样数量,τj是类别j对应的增长因子。对于base_size的值,本发明使用原始数据集中数据总数量除以数据集中不同病变程度的种类,计算方法如公式(2)。
Figure GDA0002640401900000072
其中total_size为数据总量,kinds_of_class为图像的类别数。τ的计算方式如公式(3)。
Figure GDA0002640401900000073
其中size_initial为该类在原始数据集中的数量,k为总共采样的阶段数。
在训练的每个迭代,需要根据所处的训练阶段,根据公式(1)计算出不同类别的眼底图像需要采样的数量。图3展示了训练过程中的训练集和测试集准确率曲线图横坐标是训练迭代次数,纵坐标是准确率;其中深色曲线为测试集的准确率曲线,浅色则为训练集的准确率曲线。
2、训练阶段的同一类别内样本间均匀采样模块
本发明提出一种类内均匀采样机制,使用标签列表代替图像列表,使得整个采样过程更加简单算法执行速度更快,并称为从标签列表到图像列表的采样(label-imagelist sampling)。
label-image list sampling根据图像的标签(label)进行排序(sorting),并将标签一致的图像放在同一集合下,得到子图像列表(sub-class image list),如图4。接着,算法计算每个类别在训练过程中需要的数量,根据这些类别的数量对每个类别生成一个标签列表(label list),并将这些类别标签列表进行连接和随机化(shuffling)。在采样的时候,label-image list sampling只需要对该标签进行采样(random selecting)。最后,算法利用标签统计每个类别被采样的数量(counting),并根据每个类别采样的数量到对应类别的子图像列表(sub-class image list)中进行图像采样(random selecting)。模型训练过程中,使用选择的图像作为输入。图5展示了label-image list sampling的基本过程,图5假设在当前阶段,图像类别为0的能够被采样的数量为3、类别1为2和类别2的数量为4,并且batch_szie大小为4。
在下面的实验中,假设所有的类别拥有的数量相同。因此在实验中涉及的参数有每个类别拥有的数量N,拥有的类别数size_classes,模型训练过程中的采样数量batch_size和采样的次数。实验表明,本发明提出的算法很明显更优于现有label shuffling采样。
表2展示了目前流行的采样方法label shuffling sampling和本发明提出的label-image list sampling在运行上的速度对比。实验中,N=10000,size_classes=5,batch_size=64。
表2 label shuffling采样和label-image list sampling采样时间(单位:秒)
Figure GDA0002640401900000081
3、训练阶段的图像预处理模块
为了提高模型泛化性和收敛速度,本发明先后使用如下3个相关技术。
(1)对比度增强处理
为了提高模型泛化性和收敛速度,使用对比度归一化技术来增强原始眼底Is(x,y)图像区域间的差异性,以降低图像中不同光照和颜色平均值的负面影响。在高斯差分方法中,同一尺度的图像用不同平滑系数进行模糊,接着相减得到具有突出细节的差分图,这一差分图可以用于关键点检测。因此,使用这一思想,来突出眼底图像的差异性。首先,使用尺度为ρ的高斯滤波器对Is(x,y)去除高斯噪声,获得平滑图像I(x,y;ρ)。接着,使用原图像Is(x,y)减去经过平滑的图像I(x,y;ρ)来获得对比度增强的图像Ie(x,y)。计算过程如公式(4)。
Figure GDA0002640401900000091
在本发明中,设定λ=4,β=4。同时,为了使得增强后图像像素值在0~255间,对差值图像的加上额外的值
Figure GDA0002640401900000092
Figure GDA0002640401900000093
图6展示了对原始图像使用对比度增强技术后的效果,左图是原始图像,右图是归一化的结果。
(2)数据增广
为了提高样本的多样性和丰富性,对图像使用一系列的随机变化(仿射变换)。仿射变换是一种将原始图像中的二维坐标(x,y)映射到一个新的位置坐标(p,q),数学表达方式如公式(5)。
Figure GDA0002640401900000094
对应的矩阵表达方式如公式(6)。
Figure GDA0002640401900000095
图像翻转:对眼底图像分别以50%的概率进行水平翻转或是竖直翻转,水平翻转的仿射变换矩阵如公式(7)。
Figure GDA0002640401900000096
竖直方向翻转对应的仿射变换矩阵为公式(8)。
Figure GDA0002640401900000097
图7显示了图像翻转的结果,最左边是原图,中间是水平翻转的结果,最右边是竖直翻转的结果。
图像旋转:在眼底图像中,病灶点可能出现在任何区域。因此,对眼底图像进行360度的等概率旋转。图像旋转是以目标图像的中心位置进行一个θ角度的旋转,对应的仿射变换矩阵如公式(9)。
Figure GDA0002640401900000101
旋转结果如图8,最左边是原图,右边2张是旋转的结果。
图像裁剪:图像输入大小是256×256,原始图像尺寸大约在2000×2000。为了减少图像处理时间,先将原始数据集中所有的图像下采样到300×300,接着对图像进行随机裁剪,最后将图像的尺寸变换到256×256。假设原图像为Is∈N300×300×3,,裁剪后保留区域的左上角坐标为(a,b),右下角坐标为(c,d)。裁剪后的图像为Icrop,对应的裁剪方法如公式(10)。
Icrop=Is[a:c,b:d,:] (10)
裁剪结果如图9,最左边是原图,右边两张是裁剪的结果。
(3)图像归一化
为了加速模型在训练过程中收敛速度,本发明从原始数据集中随机选择10000张使用对比度增强后的眼底图像,统计它们在RGB三个颜色通道的像素均值μ和方差σ,并对每一张采样的眼底图像的像素值减去μ后,再除以σ。上述过程如公式(11)、(12)、(13),其中μk是图像在通道k上的均值,H是图像的高度,W是图像的宽度,Ie(x,y,k)是经过对比度增强的图像在坐标为(x,y)、通道为k的像素值,σk是图像在通道k上的标准差,Inorm(x,y,k)为对应的归一化结果。
Figure GDA0002640401900000102
Figure GDA0002640401900000103
Figure GDA0002640401900000104
4、训练阶段的基于卷积神经网络的眼底图像病变程度识别和可视化模块
本发明使用ResNet(residual networ)作为基础网络。ResNet的核心思想就是残差学习。令x是一个神经网络层的输入,F(X)为神经网络层的输出。如果神经网络通过这些网络层学习到一个非线性的表达F(X)。那么可以进行类似的假设:这些神经网络层可以学习一个非线性的残差H(X),如公式(14)。
H(X)=F(X)-X (14)
因此,使用神经网络学习非线性的残差,原先网络层的非线性输出可表达为公式(15)。
F(X)=H(X)+X (15)
图10展示了卷积神经网络结构学习一个对输入的转换F:X→Y,Y=F(X)。ResNet网络结构中将整个神经网络结构分成不同的模块,并在每个模块内使用残差学习的方法。图11描述了输入特征图X,使用卷积操作学习残差,最后将残差和原始输入叠加的过程。
此外,本发明提出了一种区域得分图(Regions Scoring Map,RSM),用于定位眼底图像中具有判别性的区域。神经网络结构也会根据RSM,来判别眼底图像的病变程度。图12展示了RSM的基本网络结构,主要由通道压缩、RSM的学习和特征图重加权等3个过程组成。
CNN浅层网络提取的更多是空间特征,更深层次的网络提取的特征具有更高的判别性。随着层次结构变深,特征更具有一致性和判别性。为了降低模型的过拟合问题,本发明主要使用ResNet18作为基础网络,原始网络结构会将输入图像尺寸下采样32倍,并返回大小尺寸为8×8的特征图。为了增加RSM的尺寸大小,本发明将RSM与ResNet结构中conv3_x模块的输出结合起来,得到大小为16×16的RSM,整个网络称为ResNet-RSM。
图13展示了RSM和ResNet相结合。为了保证区域的相互独立性,不改变RSM的接受野(receptive filed)大小。首先,RSM压缩输入特征图的通道信息,得到其空间的描述,记做
Figure GDA0002640401900000111
若ResNet的conv3_x的输出为
Figure GDA0002640401900000112
U可以通过压缩Y的3个通道,其中Ui,j可表达为公式(16)。
Figure GDA0002640401900000113
RSM的目标是学习一个打分函数(score function)α(U;θ),其中θ是参数。RSM是打分函数α(U;θ)的输出,而RSM将用于重新加权输入特征图Y。为了保证RSM间区域相互的独立性,RSM使用2层1×1的卷积网络结构来表达打分函数α。特别地,RSM必须能够区分具有不同重要性的区域,并且该重要性数值上为非负数。为了实现这一目标,在2层卷积后,本文使用sigmoid函数进行约束,如公式(17)。
RSM=φ(α(U;θ)) (17)
其中φ为sigmoid函数。为了强调眼底图像中重要的区域而抑制不重要的区域,使用学习到的区域重要性来重新调整输入的特征图Y。其表达如公式(18)。
Figure GDA0002640401900000114
最后通过将原始输入X和
Figure GDA0002640401900000115
相结合,得到最终结果,如公式(19)。
Figure GDA0002640401900000116
RSM可以直接应用于标准卷积之外的变换.本文使用ResNet18作为基本结构,具体网络结构可见表3。
实验使用交叉熵作为损失函数并且固定batch-size为64来训练该模型。为了降低模型的过拟合问题,实验除了使用对比度归一化技术、图像增广技术和指数形式的采样机制外,还需要对模型中所有可训练的参数(不包括BN中的可训练参数)使用l2正则化作为额外损失并且权重衰减值(weight decay)为0.00005,如公式(20),其中v是神经网络模型中的变量。
lossextra=0.00005∑v∈trainable_variablesv2(20)
在训练之前,所有的图像尺寸需要重新调整到为256×256。在训练阶段,按照3步训练策略,首先训练基本卷积网络模型ResNet18。在这个阶段,实验使用10-3初始学习率训练模型200个周期(epoch),接着使用学习率10-4继续训练100个周期,10-5训练100个周期和10-6训练50个周期。对于采样机制,整个训练过程分为6个阶段,相邻的两个阶段间隔为4×104次迭代。在训练完基本模型后,冻结基本模型并添加RSM,使用值为10-4的学习率训练50个周期。最后,联合训练RSM和ResNet18,并且学习率为10-5
表3 ResNet18-RSM网络结构及其基本结构ResNet18
Figure GDA0002640401900000121
5、测试阶段的图像预处理模块
在眼底图像预测阶段,需要对被预测的眼底图像使用和模型训练时使用的类似图像预处理技术。在预测阶段,不需要使用图像增广技术。在对眼底图像使用归一化技术时,图像像素均值μ、标准差σ的值为训练时统计的值。
6、测试阶段的眼底图像预测模块
将模块4中保存的训练好的神经网络结构模型进行复制和模型恢复,将模块5中预处理的眼底图像输入到恢复的神经网络模型中,可以直接得到眼底图像的病变预测结果和定位相关具有判别性的区域的可视化结果。
表4和表5展示了该发明在kaggle数据集上的测试结果,其中表4展示了本发明的准确率;表5展示了RSM可以提高实验的精确度。图14则展示了本发明可以捕捉一些眼底图像中一些病灶点。在图14中,上面的图像是原始的眼底图像,而底部的图像是对应的RSM。在RSM中,颜色越亮,其相应区域就越具有辨别力。在图14中的(a)和图14中的(b)中,原始眼底图像是如此相似以至于人们难以区分它们的严重程度,并且它们的相应RSM仅聚焦于视盘附近的小区域。但是图14中的(c),图14中的(d)和图14中的(e)中的RSM具有较大的亮区。对于中度DR,它主要有少量的硬性渗出物和出血。在图14中的(c)中,RSM仅关注一个或两个象限,突出区域被可数的硬性渗出物和出血所覆盖。随着疾病进展到严重阶段,一般会出现软性渗出物,并且硬性渗出物和出血的数量会增加。此外,疾病区域通常会覆盖四个象限。在图14中的(d)中,RSM学会发现硬性渗出物,出血和软性渗出物的区域。当DR进入最后一个阶段(增殖性DR,PDR)时,不仅比上一个病变阶段更严重,而且眼底图像中会增殖新的异常血管。在图14中的(e)中,实验发现RSM捕获了血管的变化。
表4 测试集的准确率评估
Figure GDA0002640401900000131
表5 测试集的精确度评估
Figure GDA0002640401900000132
本发明未详细阐述的技术内容属于本领域技术人员的公知技术。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (8)

1.一种基于卷积神经网络的眼底图像病变程度识别与可视化系统,其特征在于,包括:训练阶段的数据类别间指数形式采样模块、训练阶段的同一类别内样本间均匀采样模块、训练阶段的图像预处理模块、测试阶段的图像预处理模块和测试阶段的眼底图像预测模块;
训练阶段的数据类别间指数形式采样模块:在神经网络训练过程中,将分成多个阶段,每个阶段不同类别拥有不同的采样数量,使用图像总数量除以总类别数得到平均数量,并对低于平均数量的类别进行过采样和对数量高于平均数量的类别进行降采样,并采用指数形式的采样方法通过指数形式的公式拟合,以便缓解数据集中的类失衡问题;根据神经网络训练所处的训练阶段和指数形式表达式计算出每个类别在此阶段采样的数量,用于同一类别内样本间均匀采样模块的输入;
训练阶段的同一类别内样本间均匀采样模块:根据训练阶段的数据类别间指数形式采样模块得到的每个类别采样的数量,使用标签列表代替图像列表,实现对同一类别不同图像间的均匀采样,并将采样的图像作为图像预处理的输入;
训练阶段的图像预处理模块:根据训练阶段的同一类别内样本间均匀采样模块的结果,使用高斯差分思想,对采样的眼底图像进行对比度增强处理,得到具有差异性的眼底图像,然后再使用数据增广技术丰富眼底图像训练集和使用图像归一化处理加速模型收敛;最后将预处理得到的眼底图像用于基于卷积神经网络的眼底图像病变程度识别和可视化模块中神经网络结构的训练;
训练阶段的基于卷积神经网络的眼底图像病变程度识别和可视化模块:基于残差神经网络结构,添加额外分支并压缩通道信息,使得卷积神经网络结构适合于眼底图像病变程度识别和可视化,根据训练阶段的图像预处理模块的结果用于神经网络结构模型的优化,并将经过若干训练后得到神经网络结构复制到预测阶段的眼底图像预测模块的网络结构;
测试阶段的图像预处理模块:输入单张眼底图像,经过对比度归增强和归一化处理,并将结果作为测试阶段的眼底图像预测的输入;
测试阶段的眼底图像预测模块:将测试阶段的图像预处理模块的结果输入到训练阶段的基于卷积神经网络的眼底图像病变程度识别和可视化模块的已训练好的神经网络结构,直接得到眼底图像的病变程度结果和相应关键区域可视化。
2.根据权利要求1所述的基于卷积神经网络的眼底图像病变程度识别与可视化系统,其特征在于:所述训练阶段的数据类别间指数形式采样模块中,指数形式的采样方法步骤如下:
第一步将整个神经网络模型训练过程分成多个阶段,在不同阶段,不同的类别的图像拥有不同的采样数量;
第二步在训练的初始阶段,不同类别之间使用共同的采样数量,并称为base_size,其计算方式如公式(1),其中total_size为数据总量,kinds_of_class为图像的类别数;
Figure FDA0002720614620000021
第三步在不同阶段,不同类别的采样数量的计算按公式(2),其中sizeij为类别j在训练阶段i的采样数量,τj是类别j对应的增长因子,且对应计算方式如公式(3),其中size_initial为该类在原始数据集中的数量,k为总共采样的阶段数;
sizeij=base_size(1+τj)i-1 (2)
Figure FDA0002720614620000022
第四步,当模型训练进入到最后一个阶段时,对所有类别的采样数量大小都恢复到原始数据集中的数据分布;
第五步,根据当前神经网络训练所处的阶段和公式(2),计算得到每个类别在此阶段采样的数量。
3.根据权利要求1所述的基于卷积神经网络的眼底图像病变程度识别与可视化系统,其特征在于:所述训练阶段的同一类别内样本间均匀采样模块中,具体实现过程如下:
第一步,根据图像的标签进行排序,并将标签相同的图像放在同一集合下,得到对应的子图像列表;
第二步,在神经网络训练采样过程中,计算每个类别在训练过程中需要的数量,根据这些类别的数量对每个类别生成一个标签列表,并将这些类别标签列表进行连接和随机化;
第三步,在采样的时候,只需要对该标签进行采样;
第四步,利用标签统计每个类别被采样的数量,并根据每个类别采样的数量到对应类别的子图像列表中进行图像采样。
4.根据权利要求1所述的基于卷积神经网络的眼底图像病变程度识别与可视化系统,其特征在于:所述训练阶段的图像预处理模块,实现如下:
第一步,图像对比度增强:基于高斯差分思想,首先将眼底图像进行高斯模糊,再使用原始图像Is减去经高斯模糊的图像I,得到归一化的眼底图像Ie,计算过程如公式(4),其中x,y图像中的坐标,λ,β,ρ,
Figure FDA0002720614620000023
为常数;
Figure FDA0002720614620000024
第二步,数据增广:将增强的眼底图像进行图像随机翻转、随机旋转和随机裁剪;
第三步,归一化操作:从原始数据集中随机选择10000张对比度增强后的眼底图像,统计它们在RGB三个颜色通道的像素均值μ和方差σ,并对每一张采样的眼底图像的像素值减去μ后,再除以σ,上述过程如公式(5)、(6)、(7),其中μk是图像在通道k上的均值,H是图像的高度,W是图像的宽度,Ie(x,y,k)是经过对比度增强的图像在坐标为(x,y)、通道为k的像素值,σk是图像在通道k上的标准差,Inorm(x,y,k)为对应的归一化结果,
Figure FDA0002720614620000031
Figure FDA0002720614620000032
Figure FDA0002720614620000033
5.根据权利要求1所述的基于卷积神经网络的眼底图像病变程度识别与可视化系统,其特征在于:所述训练阶段的基于卷积神经网络的眼底图像病变程度识别和可视化模块中,基于残差神经网络结构为基于ResNet卷积神经网络结构,设计一个用于眼底图像病变程度分类和关键病灶区域定位的神经网络结构,具体实现过程如下:
第一步,通道信息压缩:将特征图的通道信息进行压缩,获得一个只有一个通道的空间特征图,计算如公式(8),其中
Figure FDA0002720614620000034
为原始特征图,而
Figure FDA0002720614620000035
为压缩的结果;
Figure FDA0002720614620000036
第二步,空间重要性的学习:学习一个打分函数(score function)α(U;θ),其中θ是参数,RSM是打分函数α(U;θ)的输出,而RSM将用于重新加权输入特征图Y;为了保证RSM间区域相互的独立性,RSM使用2层1×1的卷积网络结构来表达打分函数α;RSM必须能够区分具有不同重要性的区域,并且该重要性数值上为非负数,为了实现这一目标,在2层卷积后,使用sigmoid函数φ进行约束,如公式(9);
RSM=φ(α(U;θ)) (9)
第三步,特征图重加权:为了强调眼底图像中重要的区域而抑制不重要的区域,使用学习到的区域重要性来重新调整输入的特征图Y,如公式(10):
Figure FDA0002720614620000037
第四步,最后通过将原始输入特征图X和调整后的特征图
Figure FDA0002720614620000038
相结合,得到最终的特征图
Figure FDA0002720614620000039
如公式(11),得到最终结果;
Figure FDA00027206146200000310
6.根据权利要求1所述的基于卷积神经网络的眼底图像病变程度识别与可视化系统,其特征在于:所述测试阶段的图像预处理模块实现如下:
第一步,图像对比度增强:将眼底图像进行高斯模糊,接着使用原始图像Is减去经高斯模糊的图像I,得到归一化的眼底图像Ie,计算过程如公式(1),其中x,y图像中的坐标,λ,β,ρ,
Figure FDA0002720614620000041
为常数;
Figure FDA0002720614620000042
第二步,归一化操作:将第一步中增强的眼底图像Ie的像素值减去数据集像素均值μ后,再除以数据集标准差σ,μ和σ的值为数据集中图像的均值和方差,归一化结果Inorm计算方式
Figure FDA0002720614620000043
7.根据权利要求4或6所述的基于卷积神经网络的眼底图像病变程度识别与可视化系统,其特征在于:所述λ=4,β=4,ρ=6.4,
Figure FDA0002720614620000044
8.根据权利要求1所述的基于卷积神经网络的眼底图像病变程度识别与可视化系统,其特征在于:所述测试阶段的眼底图像预测模块,将已训练好的神经网络结构模型进行参数复制和恢复,输入预处理的眼底图像,经过模型直接得到该眼底图像的病变程度和关键区域的可视化。
CN201910078790.8A 2019-01-28 2019-01-28 一种基于卷积神经网络的眼底图像病变程度识别与可视化系统 Active CN109858429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910078790.8A CN109858429B (zh) 2019-01-28 2019-01-28 一种基于卷积神经网络的眼底图像病变程度识别与可视化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910078790.8A CN109858429B (zh) 2019-01-28 2019-01-28 一种基于卷积神经网络的眼底图像病变程度识别与可视化系统

Publications (2)

Publication Number Publication Date
CN109858429A CN109858429A (zh) 2019-06-07
CN109858429B true CN109858429B (zh) 2021-01-19

Family

ID=66896463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910078790.8A Active CN109858429B (zh) 2019-01-28 2019-01-28 一种基于卷积神经网络的眼底图像病变程度识别与可视化系统

Country Status (1)

Country Link
CN (1) CN109858429B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598582A (zh) * 2019-08-26 2019-12-20 深圳大学 一种眼图像处理模型构建方法和装置
CN110781933B (zh) * 2019-10-14 2022-08-05 杭州电子科技大学 一种用于理解图卷积神经网络的可视分析方法
CN110969191B (zh) * 2019-11-07 2022-10-25 吉林大学 基于相似性保持度量学习方法的青光眼患病概率预测方法
CN111402246A (zh) * 2020-03-20 2020-07-10 北京工业大学 一种基于联合网络的眼底图像分类方法
CN111583224B (zh) * 2020-05-08 2023-05-09 厦门大学 一种基于包围盒与区域选择裁剪的医学图像增广方法
CN111920375B (zh) * 2020-09-30 2021-01-15 平安科技(深圳)有限公司 一种抗血管内皮生长因子vegf疗效预测装置及方法
CN112435242A (zh) * 2020-11-25 2021-03-02 江西中科九峰智慧医疗科技有限公司 肺部图像处理方法、装置、电子设备和存储介质
CN112966759B (zh) * 2021-03-15 2022-05-10 中国科学院长春光学精密机械与物理研究所 一种基于深度学习的眼底图像识别分类方法
CN113449774A (zh) * 2021-06-02 2021-09-28 北京鹰瞳科技发展股份有限公司 眼底图像质量控制方法、装置、电子设备及存储介质
CN114255875B (zh) * 2022-02-28 2022-06-21 北京鹰瞳科技发展股份有限公司 用于评估肾病风险的方法、装置、系统和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018045363A1 (en) * 2016-09-02 2018-03-08 Gargeya Rishab Screening method for automated detection of vision-degenerative diseases from color fundus images
CN108021916A (zh) * 2017-12-31 2018-05-11 南京航空航天大学 基于注意力机制的深度学习糖尿病视网膜病变分类方法
CN108095683A (zh) * 2016-11-11 2018-06-01 北京羽医甘蓝信息技术有限公司 基于深度学习的处理眼底图像的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8837862B2 (en) * 2013-01-14 2014-09-16 Altek Corporation Image stitching method and camera system
US10660576B2 (en) * 2017-01-30 2020-05-26 Cognizant Technology Solutions India Pvt. Ltd. System and method for detecting retinopathy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018045363A1 (en) * 2016-09-02 2018-03-08 Gargeya Rishab Screening method for automated detection of vision-degenerative diseases from color fundus images
CN108095683A (zh) * 2016-11-11 2018-06-01 北京羽医甘蓝信息技术有限公司 基于深度学习的处理眼底图像的方法和装置
CN108021916A (zh) * 2017-12-31 2018-05-11 南京航空航天大学 基于注意力机制的深度学习糖尿病视网膜病变分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Diverse lesion detection from retinal images by subspace learning over normal samples;Benzhi Chen et.al;《Neurocomputing》;20180731;第297卷(第5期);59-70 *
基于彩色视网膜图像的眼底病相关目标检测方法研究;戴百生;《中国博士学位论文全文数据库 医药卫生科技辑》;20180115;全文 *
糖尿病视网膜病变检测;曹路阳;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20180915;全文 *

Also Published As

Publication number Publication date
CN109858429A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109858429B (zh) 一种基于卷积神经网络的眼底图像病变程度识别与可视化系统
Wu et al. Image copy-move forgery detection via an end-to-end deep neural network
Zhang et al. Slim-ResCNN: A deep residual convolutional neural network for fingerprint liveness detection
Joshi et al. Latent fingerprint enhancement using generative adversarial networks
CN110543846A (zh) 一种基于生成对抗网络的多姿态人脸图像正面化方法
Yin et al. Dynamic difference learning with spatio-temporal correlation for deepfake video detection
Gragnaniello et al. Biometric spoofing detection by a domain-aware convolutional neural network
Junjun et al. Diabetic retinopathy detection based on deep convolutional neural networks for localization of discriminative regions
Chen et al. Exploring the use of iriscodes for presentation attack detection
CN115829942A (zh) 基于非负性约束稀疏自编码器的电子电路缺陷检测方法
Kiruthika et al. Image quality assessment based fake face detection
CN110728238A (zh) 一种融合型神经网络的人员再检测方法
CN116894943B (zh) 一种双约束的伪装目标检测方法及系统
Xu et al. MDTL-NET: Computer-generated image detection based on multi-scale deep texture learning
Bharathi et al. Optimization of image processing techniques using neural networks: a review
Chen et al. SuperCon: Supervised contrastive learning for imbalanced skin lesion classification
Kumar et al. Detection of Copy-Move Forgery Using Euclidean Distance and Texture Features.
Hmood et al. An ensemble of character features and fine-tuned convolutional neural network for spurious coin detection
Zaidan et al. A novel hybrid module of skin detector using grouping histogram technique for Bayesian method and segment adjacent-nested technique for neural network
CN114913607A (zh) 一种基于多特征融合的指静脉仿冒检测方法
Sharifi Score-level-based face anti-spoofing system using handcrafted and deep learned characteristics
Knoche et al. Susceptibility to image resolution in face recognition and trainings strategies
Ramirez et al. Face detection using combinations of classifiers
Wyzykowski et al. A Universal Latent Fingerprint Enhancer Using Transformers
Zou et al. Deep learning-based pavement cracks detection via wireless visible light camera-based network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant