CN111476283A

CN111476283A - 基于迁移学习的青光眼眼底图像识别方法

Info

Publication number: CN111476283A
Application number: CN202010243234.4A
Authority: CN
Inventors: 汪毅; 徐志京
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-31

Abstract

本发明披露一种基于迁移学习的青光眼眼底图像识别方法，包括以下步骤：1、获取青光眼数据集,并对青光眼眼底图像进行预处理；2、构建卷积神经网络R‑VGGNet；3、将预处理后的训练数据集加载到R‑VGGNet卷积神经网络模型中进行模型的迭代训练和特征提取；4、将提取到的特征输入softmax分类器，完成对青光眼的分类识别，得到最终的识别模型；5、载入测试数据集到最终的识别模型中，输出对应的分类准确率。本发明引入迁移学习思想，利用VGG16网络在ImageNet数据集上的训练所获得的权重参数，冻结前13层并释放后3层的权重，利用青光眼数据集训练全连接层和Softmax分类器，微调后进行特征提取和分类；满足深度学习要求，有效提高了青光眼眼底图像的识别率。

Description

基于迁移学习的青光眼眼底图像识别方法

技术领域

本发明涉及眼睛疾病图像识别，具体为一种基于迁移学习的青光眼眼底图像识别方法。

背景技术

青光眼是一种慢性、渐进性视觉损伤的眼科疾病，其主要病理特征为视网膜神经节细胞(Retinal Ganglion Cells，RGC)的凋亡和轴突的丧失，从而导致视力逐渐下降甚至失明，严重威胁患者的健康。由于该病具有较高的隐蔽性，患病初期不易被发现，导致患者得不到及时的治疗。数字眼底图像(DFI)是目前检测青光眼的主要工具之一，因而可以利用眼底图像对青光眼进行前期检测，以免病情的进一步恶化。但眼底图像结构性复杂，采用人工识别方法耗时费力且很难得到客观准确的医疗诊断，近年来，随着深度学习的发展，可应用到图像识别领域，因此很多学者尝试采用人工智能技术对眼底图像进行患者筛查。

2017年丁蓬莉等人提出基于紧凑的神经网络CompactNet对视网膜图像进行识别分类,但由于实验样本有限，网络在训练的过程中并没有充分提取到相关特征，因此分类准确率并不高。T.Balasubramanian等人利用方向梯度直方图(HOG)进行提取特征，并结合支持向量机(SVM)实现对青光眼的分类，但该方法预处理步骤过于繁琐，并且识别准确率并不高。U Raghavendra等人提出一种利用深度学习技术准确检测青光眼的新型计算机辅助诊断(CAD)系统，设计一个18层的卷积神经网络，经过有效训练提取特征之后进行测试分类，虽然识别率较高，但训练样本达到了几千张，在缺乏大量青光眼眼底图像的前提下，其实用价值并不高。

发明内容

为了解决现有技术的缺陷，本发明采用迁移学习策略，解决小样本学习能力不足，分类精度低的问题，提高小样本下青光眼患者的识别率。

一般来说，训练一个神经网络需要大量的样本，而目前在医学领域却缺乏大型公开已标记的数据集。在没有足够多训练样本的情况下，如果网络足够深，可能网络在训练过程中会不收敛或者训练出来的模型泛化能力差。而如果采用浅层的神经网络，网络在训练的过程中又不能够充分提取到相关特征，从而导致分类精度不高等问题。为了解决上述问题，本发明借助迁移学习思想，将VGG16网络在ImageNet数据集上预训练得到的模型迁移到青光眼眼底图像识别任务中，迁移学习相对于传统的神经网络主要的优势在于不需要大量的训练样本。

采用改进后的卷积神经网络R-VGGNet完成识别模型的训练与特征提取，减少网络训练参数，提高识别率。

现有的VGG结构采用三层连接的全连接层，这三层全连接层占了训练参数的绝大部分，对于本发明来说，识别任务仅仅只有两类，即识别健康人和青光眼患者的眼底图像，三层的全连接层相对冗余，因此，对VGG16全连接层进行了重新设计，即R-VGGNet，提出用2个全连接层替换原有的3个全连接层，其中设置第1个全连接层输出神经元个数为1024个，第2个全连接层输出神经元个数为2个，这样得到的网络相对于之前的网络，训练参数大大减少，提升了网络的训练速度，训练时间也得到缩短。

将提取ROI后的子图像作为识别模型的输入，降低了CNN网络训练和分类的信息处理量，加快识别速度。

眼底图像是诊断青光眼的重要依据，研究表明：青光眼患者具有三大特征，其中一大特征为：青光眼患者的视杯面积与视盘面积之比一般大于0.6，即杯盘比(CDR>0.6)。同时，为了缩短网络处理时间，可以将更小的初始图像作为网络的输入。基于上述两点原因，本发明将ROI(Region Of Interest)区域作为深度卷积神经网络的输入。

本发明的技术方案如下：

一种基于迁移学习的青光眼眼底图像识别方法，包括以下步骤：

S1、获取青光眼数据集,并对青光眼眼底图像进行预处理，以达到训练模型要求。

S2、构建卷积神经网络R-VGGNet；

S3、将预处理后的训练数据集加载到R-VGGNet卷积神经网络模型中进行模型的迭代训练和特征提取；

S4、将提取到的特征输入softmax分类器，完成对青光眼的分类识别，得到最终的识别模型。

S5、载入测试数据集到最终的识别模型中，输出对应的分类准确率。

所述S1中对青光眼眼底图像进行预处理包括如下步骤：

S101、删除污染严重，无使用价值的图像。由于获取的数据集中存在极少数无任何纹理信息的眼底图像，无使用价值，所以需要将其剔除；

S102、对数据集进行标注，分为健康人的眼底图像和青光眼患者的眼底图像；

S103、对获取的眼底图像进行裁剪，去除多余的图像背景。为了减小多余背景对实验产生的干扰，需要去除图像黑框部分。

S104、去除图像的噪声。由于图像采集时光照因素的影响，对于一些曝光不足的图像进行直方图均匀化，改善由光线引起的噪声问题。

S105、提取ROI。采用python的pillow库中crop操作，设定固定的裁剪区域(视盘和视杯部分)，将所有图像的尺寸都裁剪为224x224，作为卷积神经网络的输入。

S106、为了进一步扩充数据集，采用数据增强手段。在原数据集的基础上采取平移(水平、竖直两个方向)、旋转(30°、60°、90°、180°)、比例缩放、翻转等方法，实现对样本的扩充。这些变换的目标是生成更多样本以创建更大的数据集，防止过度拟合。同时，本研究所采用的数据集还存在正负样本分布不均衡的情况，所以，需要对负样本进行适当扩充，从而解决样本不均衡问题。

S107、构建训练数据集和验证数据集。将数据集按照样本比例为9:1分成训练集与测试集两部分。

所述S2构建卷积神经网络R-VGGNet包括如下步骤：

S201、卷积神经网络R-VGGNet是基于VGG16卷积神经网络改进而来的，对其中起到分类器作用的全连接层进行了重新设计，用2个全连接层替换原有的3个全连接层。

设计一个完整的卷积神经网络，其最后部分往往会连接若干全连接层，这是因为全连接层能够将网络提取到的特征映射到样本的标记空间中，因此，全连接层在整个卷积神经网络中实际上起到了“分类器”的作用。该分类器设置了两个全连接层Fc1和Fc2，由于实验样本有限，为了避免过拟合现象的发生，在全连接层之后加入Dropout层，并且设置Dropout率为0.5。同时在每个全连接层之后引入线性修正单元(Relu)，用来解决梯度弥散问题。

S202、设置第1个全连接层输出神经元个数为1024个，第2个全连接层输出神经元个数为2个。将VGG16原有模型中第1个全连接层输出神经元个数为4096设置成1024，同时将包含1000个节点的Softmax层用一个包含2个节点的Softmax层代替。

所述S3将预处理后的训练数据集加载到R-VGGNet卷积神经网络模型中进行模型的迭代训练和特征提取，包括如下步骤：

S301、识别网络模型R-VGGNet以VGG16网络模型作为基本网络结构。VGG16网络由3×3的卷积核和2×2的最大池化层构成，共13个卷积层和3个全连接层。相比较8层的AlexNet网络，VGG16网络最大的特点是通过3×3滤波器的组合与堆叠，提取出输入领域内更多非常细小的特征。在每组卷积层之后都连接一层最大池化层，并且每个卷积层之后紧跟(Rectified LinearUnit)Relu激活函数，其抑制特性使得神经元具有稀疏激活性，有效解决了梯度弥散问题，同时加速网络收敛。对于任意第i(0＜i＜16)层：

Zⁱ＝Wⁱv^i-1+bⁱ (1)

vⁱ＝f(zⁱ) (2)

其中，

为激励向量，

为激活向量，

为权值，

为偏置，N_i∈R为第i层的神经元个数。f(·)为激活函数Relu，其数学表达式为：

Relu(z)＝max(0,z) (3)

S302、对网络模型的优化本质上就是使损失函数尽可能的小。本发明优化算法采用随机梯度下降法(Stochastic Gradient Descent,SGD)和Momentum相结合，设定动量参数为默认值0.9，迭代次数为100次，Batch_size设定为32，初始学习率设定为0.001。学习率采用指数衰减法的更新策略。指数衰减法更新学习率的表达式为：

式中lr为衰减后的学习率，lr₀为初始学习率，dr为衰减系数，gs为当前的迭代次数，ds为衰减步长(即每迭代指定次数更新一次学习率)，

表示向下取整。在训练过程中代价函数采用交叉熵损失函数，Softmax计算损失。为了避免过拟合现象，在损失函数中附加L2正则化项，最终的损失函数表达式为：

式中θ为权重，x为批次训练样本，λ为正则化项系数，p为期望的类别概率，q为模型预测的类别概率。在训练过程中,当损失函数的loss值趋于稳定时将学习率再次调小,直至达到最小值时获得最优识别模型，最终设定学习率为0.0005。

本发明与现有技术相比具有的优点或积极效果

1、利用迁移学习实现小样本青光眼眼底图像的识别。

本发明针对小样本学习能力不足、分类精度低的问题，引入迁移学习思想，利用VGG16网络在ImageNet数据集上的训练所获得的权重参数，冻结前13层并释放后3层的权重，利用青光眼数据集训练全连接层和Softmax分类器，微调后进行特征提取和分类。满足深度学习要求，有效提高了青光眼眼底图像的识别率。

2、利用改进的卷积神经网络R-VGGNet实现特征提取和分类。

在保证不影响识别率的前提下，本研究在VGG16的基础上进行了改进，对VGG16全连接层进行了重新设计，用2个全连接层替换原有的3个全连接层，这样得到的网络相对于之前的网络，训练参数大大减少，提升了网络的训练速度，训练时间也得到缩短。

3、提取ROI(视盘和视杯部分)。

针对青光眼患者的视杯面积与视盘面积之比一般大于0.6，即杯盘比大于0.6(CDR>0.6)这一特征，为了使网络能够充分提取到相关特征，减少眼底图像其他区域对识别率的干扰，本研究提取出眼底图像中视盘和视杯部分作为卷积神经网络R-VGGNet的输入，不仅提高了识别率，还加快了网络的识别速度。

附图说明

图1为本发明基于迁移学习的青光眼眼底图像识别方法的流程图。

图2为为本发明基于迁移学习的青光眼眼底图像识别方法的分类器结构图。

图3为本发明基于迁移学习的青光眼眼底图像识别方法的R-VGGNet卷积神经网络架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本本发明基于迁移学习的青光眼眼底图像识别方法的青光眼患者识别系统如图1所示。该识别系统由三个部分组成：数据集预处理模块、基于迁移学习策略的模型训练与特征提取部分、自动识别分类部分。在对青光眼眼底图像进行识别分类时，需要对原数据集进行一系列的预处理操作，然后将预处理后的图像输入到网络模型中进行迁移训练与特征提取，最后将提取到的特征输入Softmax分类器进行分类，实现青光眼的识别。

S2、构建卷积神经网络R-VGGNet；

所述S1中对青光眼眼底图像进行预处理包括如下步骤：

所述S2构建卷积神经网络R-VGGNet包括如下步骤：

S202、设置第1个全连接层输出神经元个数为1024个，第2个全连接层输出神经元个数为2个。将VGG16原有模型中第1个全连接层输出神经元个数为4096设置成1024，同时将包含1000个节点的Softmax层用一个包含2个节点的Softmax层代替，分类器结构图如图2所示。

S301、识别网络模型R-VGGNet以VGG16网络模型作为基本网络结构，其网络架构图如图3所示。VGG16网络由3×3的卷积核和2×2的最大池化层构成，共13个卷积层和3个全连接层。相比较8层的AlexNet网络，VGG16网络最大的特点是通过3×3滤波器的组合与堆叠，提取出输入领域内更多非常细小的特征。在每组卷积层之后都连接一层最大池化层，并且每个卷积层之后紧跟(Rectified LinearUnit)Relu激活函数，其抑制特性使得神经元具有稀疏激活性，有效解决了梯度弥散问题，同时加速网络收敛。对于任意第i(0＜i＜16)层：

Zⁱ＝Wⁱv^i-1+bⁱ (1)

vⁱ＝f(zⁱ) (2)

其中，

为激励向量，

为激活向量，

为权值，

Relu(z)＝max(0,z) (3)

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于迁移学习的青光眼眼底图像识别方法，其特征在于，包括如下步骤：

步骤S1、获取青光眼数据集,并对青光眼眼底图像进行预处理，以达到训练模型要求；

步骤S2、构建卷积神经网络R-VGGNet；

步骤S3、将预处理后的训练数据集加载到R-VGGNet卷积神经网络模型中进行模型的迭代训练和特征提取；

步骤S4、将提取到的特征输入softmax分类器，完成对青光眼的分类识别，得到最终的识别模型；

步骤S5、载入测试数据集到最终的识别模型中，输出对应的分类准确率。

所述步骤S1中对青光眼眼底图像进行预处理包括如下步骤：

步骤S101、删除污染严重以及无使用价值的图像；

步骤S102、对数据集进行标注，分为健康人的眼底图像和青光眼患者的眼底图像；

步骤S103、对获取的眼底图像进行裁剪，去除多余的图像背景；

步骤S104、对于一些曝光不足的图像进行直方图均匀化，去除图像的噪声；

步骤S105、提取ROI：采用python的pillow库中crop操作，设定固定的裁剪区域，即视盘和视杯部分，将所有图像的尺寸都裁剪为224x224，作为卷积神经网络的输入；

步骤S106、采用数据增强手段：在原数据集的基础上采取水平、竖直两个方向平移、旋转、比例缩放、以及翻转，实现对样本的扩充；其中旋转的度数分别为：30°、60°、90°、180°；

步骤S107、构建训练数据集和验证数据集：将数据集按照样本比例为9:1分成训练集与测试集两部分；

所述步骤S2构建卷积神经网络R-VGGNet包括如下步骤：

步骤S201、分类器设置两个全连接层Fc1和Fc2，同时在全连接层之后加入Dropout层，并且设置Dropout率为0.5；同时在每个全连接层之后引入线性修正单元，用来解决梯度弥散问题；

步骤S202、设置第1个全连接层输出神经元个数为1024个，第2个全连接层输出神经元个数为2个；将VGG16原有模型中第1个全连接层输出神经元个数为4096设置成1024，同时将包含1000个节点的Softmax层用一个包含2个节点的Softmax层代替；

所述步骤S3将预处理后的训练数据集加载到R-VGGNet卷积神经网络模型中进行模型的迭代训练和特征提取，包括如下步骤：

步骤S301、识别网络模型R-VGGNet以VGG16网络模型作为基本网络结构；VGG16网络由3×3的卷积核和2×2的最大池化层构成，共13个卷积层和3个全连接层；在每组卷积层之后都连接一层最大池化层，并且每个卷积层之后紧跟Relu激活函数，其抑制特性使得神经元具有稀疏激活性，有效解决了梯度弥散问题，同时加速网络收敛；对于任意第i层，0＜i＜16：

Zⁱ＝Wⁱv^i-1+bⁱ (1)；

vⁱ＝f(zⁱ) (2)；

其中，