CN111144296B

CN111144296B - 基于改进cnn模型的视网膜眼底图片分类方法

Info

Publication number: CN111144296B
Application number: CN201911366850.2A
Authority: CN
Inventors: 荣辉桂; 奚子为; 蒋洪波; 王敏; 火生旭
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-04-18
Anticipated expiration: 2039-12-26
Also published as: CN111144296A

Abstract

本发明公开了一种基于改进CNN模型的视网膜眼底图片分类方法，包括对已获取的训练图片进行分类和标记；对训练图片进行图像预处理；建立改进CNN模型；采用步训练图片对改进CNN模型进行训练得到图片分类器；采用图片分类器对待检测的视网膜眼底图片进行分类并得到最终的分类结果。本发明提出了一种性能优良的基于多任务的改进CNN模型和分类方法，效率更高，占用资源更少，可靠性高且准确性好。

Description

基于改进CNN模型的视网膜眼底图片分类方法

技术领域

本发明属于图像处理领域，具体涉及一种基于改进CNN模型的视网膜眼底图片分类方法。

背景技术

随着经济技术的发展和人们生活水平的提高，人们也越来越关注自身的健康。

视网膜眼底图片能够在一定程度上反映人们的健康状态。因此，对于被检测人的彩色眼底图片进行分析和分类，就成为了视网膜病变(比如糖尿病性视网膜病变)的辅助检测手段。

目前，已有大量的关于糖尿病性视网膜病变的彩色眼底图片的分类研究。但是，当前的分类技术，一般都是采用较小的单一数据集对分类器进行训练和分类；但是，单一数据集并不具有代表性，而且分类器采用的也是较为原始的分类器，因此使得图片的分类精度较差，限制了分类方法的应用。

发明内容

本发明的目的在于提供一种可靠性高、准确性好且效率较高的基于改进CNN模型的视网膜眼底图片分类方法。

本发明提供的这种基于改进CNN模型的视网膜眼底图片分类方法，包括如下步骤：

S1.对已获取的训练图片进行分类和标记；

S2.对步骤S1得到的训练图片进行图像预处理；

S3.建立改进CNN模型；

S4.采用步骤S2得到的训练图片对步骤S3建立的改进CNN模型进行训练，从而得到图片分类器；

S5.采用步骤S4得到的图片分类器对待检测的视网膜眼底图片进行分类，从而得到最终的分类结果。

步骤S1所述的对已获取的训练图片进行分类和标记，具体为将训练图片分为异常和正常两类，用disease表示，disease＝1表示异常，disease＝0表示正常；然后将异常的图片再次标记异常程度，用level表示，level的取值为0、1、2、3和4，依次用于表示异常的最轻～异常的最重。

步骤S2所述的对步骤S1得到的训练图片进行图像预处理，具体为采用如下步骤进行预处理：

A.根据每张图片的像素值，获取眼球半径；

B.根据步骤A获取的眼球半径，裁剪出包含眼球的最小正方形图片；

C.将步骤B得到的最小正方形图片缩放到设定的Num*Num大小；

D.对步骤C得到的图片进行图像增强，从而得到最终的训练图片。

步骤D所述的图像增强，具体为采用高斯模糊进行图像增强。

步骤S3所述的建立改进CNN模型，具体为采用如下步骤建立模型：

a.采用VGG 16网络作为基础CNN模型；

b.在步骤a得到的基础CNN模型中，去除最后一个最大池化层后的所有层，并加入全局池化层(global average pooling)作为共享层的底层；

c.在步骤b得到的共享层后，连接两个任务：disease和level；其中disease为异常或正常的预测任务，且为辅助任务；level为异常轻重程度的预测任务，且为主任务；

d.在步骤c中的disease任务中，首先为一个全连接层，然后再连接sigmoid分类器；sigmoid分类器输出的最终结果为0或1，并对应表示正常或异常；

e.在步骤c中的level任务中，首先为第一全连接层，然后再连接第二全连接层，最后再连接sigmoid分类器；sigmoid分类器输出的最终结果为1～4，并对应表示异常的最轻～异常的最重；

f.构建总任务损失值函数，从而构建得到最终的改进CNN模型。

步骤d所述的全连接层，具体为拥有2048个神经元的全连接层。

步骤e所述的第一全连接层和第二全连接层，具体均为拥有2048个神经元的全连接层。

步骤f所述的总任务损失函数，具体为采用如下算式作为总任务损失函数f_loss：

f_loss＝αT_level+βT_disease

式中T_disease为disease任务的损失值，β为disease任务的损失值的损失权重，T_level为level任务的损失值，α为level任务的损失值的损失权重，且α+β＝1。

所述的disease任务的损失值的损失权重和level任务的损失值的损失权重，具体为采用如下步骤计算：

(1)初始化disease任务的损失值的损失权重β＝0.5，level任务的损失值的损失权重α＝0.5；

(2)若仍然满足迭代规则，则采用如下规则计算下一轮迭代时的损失权重α和β：

若lr_schedule(epoch)与lr_schedule(epoch+1)的比值等于设定值，则损失权重α增加一个设定值，同时损失权重β减少一个设定值；

否则，损失权重α和β均保持不变；

其中，lr_schedule(epoch)为当前训练轮数epoch的回调函数值；

(3)采用步骤(2)得到的新的损失权重α和β作为下一轮的损失权重。

本发明提供的这种基于改进CNN模型的视网膜眼底图片分类方法，提出了一种性能优良的基于多任务的改进CNN模型，该方法从输入眼底图片开始，给定disease标签和level标签，disease任务为辅助任务，level为主任务，在训练过程中动态调整任务权重并优化参数，最后以多分类预测结束；同时，本发明提出的任务模型，由于去除了原有网络的4096个神经元的全连接层和dropout层，因此效率更高，且占用资源更少；因此，本发明的可靠性高、准确性好且效率较高。

附图说明

图1为本发明方法的方法流程示意图。

图2为本发明方法的抽象表示示意图。

图3为本发明方法的CNN模型与原始CNN模型之间的比较示意图。

图4为本发明方法与现有方法之间在训练过程level任务的损失值变化对比示意图。

图5为本发明方法与现有方法在具体数据集上的ROC曲线对比示意图。

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种基于改进CNN模型的视网膜眼底图片分类方法，包括如下步骤：

S1.对已获取的训练图片进行分类和标记；具体为将训练图片分为异常和正常两类，用disease表示，disease＝1表示异常，disease＝0表示正常；然后将异常的图片再次标记异常程度，用level表示，level的取值为0、1、2、3和4，依次用于表示异常的最轻～异常的最重；

S2.对步骤S1得到的训练图片进行图像预处理；具体为采用如下步骤进行预处理：

A.根据每张图片的像素值，获取眼球半径；

C.将步骤B得到的最小正方形图片缩放到设定的Num*Num大小(比如512*512)；

D.对步骤C得到的图片进行图像增强(比如采用高斯模糊进行增强)，从而得到最终的训练图片；

S3.建立改进CNN模型；

如图2所示，为本发明的改进CNN模型的示意图；将图片输入到改进CNN模型中，在特征学习和特征抽取之后，这些特征被传送到分类器中，模型输出是否异常和异常的程度的分类结果。在CNN模型经过前向传递后，共享层的最后一层(Globalaveragepooling)生成的视觉特征将分别喂入两个softmax分类器。两个任务将共享共享层学习到的底层视觉特征，这些视觉特征包括了两个视觉任务所需要的信息。CNN模型通过反向传播来优化各自的参数，同时也优化共享的视觉特征。通过整个网络对disease标签和level标签的迭代学习与参数优化，损失函数逐渐收敛，可以得到泛化能力较好的改进CNN模型；

改进CNN模型以VGG 16网络基础。VGG 16网络由13个3×3的卷积层组成，之后连接三个全连接层，最后以softmax分类器结束；此外，vgg16在卷积层中加入了relu操作，在全连接层之间加入了dropout操作来防止过拟合；然而，全连接层的参数占据了网络总容量的绝大部分，在训练时对设备的要求较高、且训练时间过长，为了达到“快而且准”的目标，对于改进CNN模型，本发明去除了最后一个最大池化层后的所有层，首先加入globalaveragepooling作为共享层的底层，将disease预测作为辅助任务，将level分类作为主任务，为了对disease和level进行快速预测，在disease任务中首先加入了一个全连接层，之后与sigmoid分类器想连接，在level任务中首先加入了两个全连接层，与vgg16相比降低了参数的数量，对于较高的分辨率的图片仍然可以在本发明的模型上进行训练。

给定两组标签，目标是学习两个多类非线性分类器。在训练过程中，每次喂入N张眼底图片，每张图片有两个标签disease和level，对于第i张照片，disease是集合{0,1}中的值，表明是否异常的分类结果，定义为Di，level是集合{0,1,2,3,4}中的值，0到4对应异常的五个程度分类，定义为Li。因为两个任务的损失层都会形成一个特征向量，所以整个模型可以看做两个任务的训练池。通过这种分解方式，两个任务可以共享相似的视觉特征，从而学习更多的图像深层特征，同时，将disease任务作为辅助任务，不仅可以促进主任务level的学习，而且可以增强其泛化能力，故在全连接层后不再采用vgg16的操作添加dropout操作，而是由全连接层直接和分类器连接，实验证明该网络模型采用辅助任务比dropout效果更好。如图2所示，定义globalaveragepooling层为G，disease任务中的全连接层为fc_d1，它拥有2048个神经元，softmax分类器为Sd，在level任务中的第一个全连接层为fc_l1，第二个全连接层为fc_l2，两个全连接层均拥有2048个神经元，最后一个多类softmax分类器为Sl；现在构成了W_{G，fc_d1}，W_{fc_d1，Sd}，W_{G，fc_l1}，W_{fc_l1，fc_l2}，W_{fc_l2，Sl}，共5个矩阵，他们分别有(G，fc_d1)，(fc_d1，Sd)，(G，fc_l1)，(fc_l1，fc_l2)，(fc_l2，Sl)连接产生。改进CNN模型的目标则是通过学习使得上述5个矩阵得到适当的参数，这些参数通过两个softmax层优化参数堆叠而成。通过G层两个任务可以共享学习到的眼底图像特征，并且两个任务在训练阶段可以共同优化共享层。

在训练过程中，每次喂入N张图片，定义I表示这N张照片，则当第i次喂入图片时，N张图片和它们的标签可以组成一个集合，即：D＝{I_i，D_i，L_i}_i＝1 ^N，据此，改进CNN模型学习到的特征可以定义为如下:xi＝f(I_i，k，b，lr)；此公式代表了从输入图片到全连接层的非线性映射过程，k为过滤器，b为偏质量，lr为模型训练时的学习率，基于学习率优化level任务损失值和disease任务损失值的比例。设level任务损失值的系数为α，disease任务损失值的系数为β，则改进CNN模型的总输出可以定义为：f_loss＝αT_level+βT_disease；其中α+β＝1；

α和β分别控制这两个任务的重要性，当两者其中一个为0时则整个模型训练相当于单模型学习，故损失值驱动着模型从共享层学习特征并且优化两个任务参数。这多任务学习中，多个任务的损失权重一直是没有完美方案，大多数情况下现有技术均采用等同对待或者凭感觉设置的方法，也有尝试遍历搜索的方法，但是这些方法要么效果不好要么耗时，因此本发明采用了基于学习率的权重自动分配方法，在初始训练的时候同等对待两个任务的损失，即：α＝0.5，β＝0.5，随着训练轮数的增加，降低学习率的同时削弱辅助任务的比重，整个过程通过回调函数实现；

具体实施时，采用如下步骤建立模型：

a.采用VGG 16网络作为基础CNN模型；

d.在步骤c中的disease任务中，首先为一个全连接层(拥有2048个神经元的全连接层)，然后再连接sigmoid分类器；sigmoid分类器输出的最终结果为0或1，并对应表示正常或异常；

e.在步骤c中的level任务中，首先为第一全连接层(拥有2048个神经元的全连接层)，然后再连接第二全连接层(拥有2048个神经元的全连接层)，最后再连接sigmoid分类器；sigmoid分类器输出的最终结果为1～4，并对应表示异常的最轻～异常的最重；

f.构建总任务损失值函数，从而构建得到最终的改进CNN模型；具体为采用如下算式作为总任务损失函数f_loss：

f_loss＝αT_level+βT_disease

式中T_disease为disease任务的损失值，β为disease任务的损失值的损失权重，T_level为level任务的损失值，α为level任务的损失值的损失权重，且α+β＝1；

在具体实施时，采用如下步骤进行动态计算：

若lr_schedule(epoch)与lr_schedule(epoch+1)的比值等于设定值(比如10)，则损失权重α增加一个设定值(比如0.1)，同时损失权重β减少一个设定值(与α增加的值对应，也为0.1)；

否则，损失权重α和β均保持不变；

其中，lr_schedule(epoch)为当前训练轮数epoch的回调函数值；

(3)采用步骤(2)得到的新的损失权重α和β作为下一轮的损失权重；

在具体实验时，使用的数据集采用五折交叉验证的方法进行试验。在实验中，本发明提出的改进CNN模型运行在一个台式机上，i7 7700k，32GB RAM和1080Ti微星显卡，显卡可以大大提供模型训练的速度。在实验环境上采用了当前深度学习主流使用的ubuntu16.04桌面式系统，另外鉴于不同的深度学习框架可能在求导机制等方面略有不同，为了方便对比，仅采用Tensorflow1.12版本完成全部的训练、测试、模型性能对比等部分。

Tensorflow是一个较为流行的深度学习框架，较好的支持了图像卷积等操作，采用了随机梯度下降法对网络进行训练，鉴于显卡的显存有限，每个批次喂入4张图片。为了快速获取实验结果，采用了迁移学习的方式，预加载了G层之前的所有权重，故初始学习率设置较小的值为1e-4，由于采用了SGD，同时设置动量为0.9，在第5、7个轮次学习率分别缩小10倍、10倍，模型总共经过了8轮训练，第7轮以后认为仅仅是用来微调。在每个轮次结束后对任务损失权重进行动态调整，由此基于vgg16训练了一个多任务模型，本发明的理念是提取了最后一个最大池化层以及之前层的视觉特征，两个任务借助于共享层不断优化参数，这种多任务的CNN模型和之前的VGG16模型相比读取数据集和训练的过程有明显不同，因为之前的VGG16仅仅是单任务模型，支持一种任务分类。改进CNN模型关键修改是两个任务共享G层，输入和输出都要对应两个任务的标签。图3展示了传统vgg16和本发明的改进CNN模型的区别。

图3(a)为原始的vgg16模型，图3(b)为本发明的改进CNN模型；图中主要展示的是共享层之后的部分；图3(a)中，fc6和fc7是两个全连接层，drop6和drop7为drop操作，prediction为最后的softmax分类器；图3(b)在G层之后连接两个任务，fc_level1、fc_level2和fc_disease是全连接层，level_output和disease_output为两个任务的softmax分类器。

为了评价本发明提出的改进CNN模型和分类方法对眼底图片视觉特征学习效果，以下对此作了一系列的消融实验，采用标准的五折交叉验证的方法进行试验。评价主要有如下三个方面：(1)同原始vgg16模型做性能对比，(2)评估其他方法与改进CNN模型的性能对比，(3)模型运行时性能测试。

同原始vgg16模型做性能对比：

分析了改进CNN模型和原始vgg16模型对糖尿病人眼底图片的学习效果；为了尽快获取试验结果，对vgg16采用了预加载权重之后微调的方法，图4展示了两种不同网络在训练和验证时针对dr分类的损失值。结果表明，与原始的vgg16网络相比，拥有辅助任务的快速诊断模型收敛速度更快，训练集和验证集上的损失值都更小，表明改进CNN模型提高了vgg16的训练效率。通过交叉验证研究发现，改进后的网络比原始VGG16拥有更好的眼底图片学习能力和泛化性能，说明辅助任务相对于单任务模型可以进一步促进眼底图片视觉信息的传播以提高网络的识别分类能力。

其他方法与本发明提出的改进CNN模型和分类方法的性能对比：

采用的评价指标有Recall、Specificity、F1 score和AUC，由于RishabGargeya和Varun Gulshan分别采用残差网络和inceptionv3在dr分类上取得了较好效果，所以在此与resnet50以及inception两种算法的实验结果做对比，另外，除了数据集之外，同时将训练好的模型在国际公开的数据集Messidor-2上测试效果进行，Messidor-2数据集是一个公开的DR检查数据集，从http://latim.univ-brest.fr/indexfce0.html获取该数据集。通过实验对比，Fast-diagnosis CNN、Resnet-50和Inceptionv3的性能指标结果如表1所示；图5展示了根据三种模型预测结果绘制的ROC曲线：图5(a)为交叉验证得到三种模型的ROC曲线；图5(b)为验证Messidor-2得到的ROC曲线；图5说明Fast-diagnosis CNN(本发明模型和方法)、Resnet-50和Inceptionv3对dr分类的效果，从两个数据集的性能测试结果可以看出Fast-diagnosis CNN在各项指标都有优于其他两种模型的结果，从三种模型的效果来看，Fast-diagnosis CNN是最佳选择。

表1不同方法的实验效果对比示意表

(a)交叉验证后实验效果对比

(b)Messidor-2数据集实验效果对比

模型运行时性能测试：

在具体应用时，可能有数据隐私的要求，希望数据保留到本地，为了让Fast-diagnosis CNN(本发明模型和方法)有更大范围的受众，需要评估Fast-diagnosis CNN模型作为DR辅助软件的实际性能。在如下设备上测试了性能，配备i5-7300HQ(2.5Ghz)cpu和1050Ti显卡的电脑。分别在调用显卡和仅调用cpu的环境下分别进行试验，实时运行时性能为每张眼底图片的评估时间约为0.2秒和1.7秒，表明在具体应用情况下具有广泛推广的可能性。

本发明专利得到国家自然科学基金(61672221)的支持。

Claims

1.一种基于改进CNN模型的视网膜眼底图片分类方法，包括如下步骤：

S2.对步骤S1得到的训练图片进行图像预处理；

S3.建立改进CNN模型；具体为采用如下步骤建立模型：

a.采用VGG 16网络作为基础CNN模型；

b.在步骤a得到的基础CNN模型中，去除最后一个最大池化层后的所有层，并加入全局池化层作为共享层的底层；

f_loss＝αT_level+βT_disease

具体实施时，所述的disease任务的损失值的损失权重和level任务的损失值的损失权重，具体为采用如下步骤计算：

否则，损失权重α和β均保持不变；

其中，lr_schedule(epoch)为当前训练轮数epoch的回调函数值；

2.根据权利要求1所述的基于改进CNN模型的视网膜眼底图片分类方法，其特征在于步骤S2所述的对步骤S1得到的训练图片进行图像预处理，具体为采用如下步骤进行预处理：

A.根据每张图片的像素值，获取眼球半径；

C.将步骤B得到的最小正方形图片缩放到设定的Num*Num大小；

3.根据权利要求2所述的基于改进CNN模型的视网膜眼底图片分类方法，其特征在于步骤D所述的图像增强，具体为采用高斯模糊进行图像增强。

4.根据权利要求3所述的基于改进CNN模型的视网膜眼底图片分类方法，其特征在于步骤d所述的全连接层，具体为拥有2048个神经元的全连接层。

5.根据权利要求4所述的基于改进CNN模型的视网膜眼底图片分类方法，其特征在于步骤e所述的第一全连接层和第二全连接层，具体均为拥有2048个神经元的全连接层。