CN108734102A

CN108734102A - 一种基于深度学习的左右眼识别算法

Info

Publication number: CN108734102A
Application number: CN201810356819.XA
Authority: CN
Inventors: 唐晓颖; 钟志权; 袁进
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute; Research Institute of Zhongshan University Shunde District Foshan; Zhongshan Ophthalmic Center
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute; Research Institute of Zhongshan University Shunde District Foshan; Zhongshan Ophthalmic Center
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2018-11-02

Abstract

本发明公开了一种基于深度学习的左右眼识别算法，图像预处理和数据扩充，Alexnet与Resnet对左右眼识别效果的比较分析，基于Alexnet网络的优化，分类器Softmax回归与支持向量机SVM的比较。通过卷积神经网络对图像特征的自动提取功能，实现对左右眼的判断，识别速率快、准确率高，克服了人工判断费时费力的弊端，以及不用使用光学仪器，成本低，容易普及。

Description

一种基于深度学习的左右眼识别算法

技术领域

本发明涉及图像识别领域，特别是一种基于深度学习的左右眼识别算法。

背景技术

随着社会的发展，人们生活水平的提高，人们对疾病治疗的准确性要求越来越高，尤其是对眼部的确认。在临床医学中分辨眼科图像所示的是左眼还是右眼具有重要的意义和实用价值。现有的左右眼识别装置一种是基于光学仪器的左右眼识别装置，但这种方式受限于光学仪器元件，成本高，安装复杂，不易普及，应用范围比较局限。另一种直接利用眼科图像中视盘的颜色和形状特性来对视盘进行定位，进而根据视盘所在位置进行左右眼的识别。但这种方案易受到视盘形变、图像本身的亮度、对比度及其他病变区域的影响，速度和准确率较低。

发明内容

为解决现有技术的问题，本发明的目的在于提供一种基于深度学习的左右眼识别算法，提高分类识别的速度和准确率，并且成本低，容易普及，应用范围广。

本发明为解决其问题所采用的技术方案是：

一种基于深度学习的左右眼识别算法，包括以下步骤：

S1：图像预处理和数据扩充，

S11：图像的裁剪：获取的眼科图像往往四周带有许多黑色的无效区域，为了消除黑色无效区域对图像识别的干扰并减少数据量，需要对图像中的有效区域进行提取，由于有效区域与黑色无效区域具有明显的边界，且黑色所对应的像素值为0，所以不需要人工标记有效区域的四个边缘点A、B、C、D，可以直接通过算法来自动提取，获取的眼科彩图的各个通道的像素值大小范围通常均为[0，255]，设置像素值阈值为20，通过逐行或逐列遍历图像通道的像素，获取的第一个与最后一个像素值大于阈值的点即为对应的边缘点，具体的算法流程如下：

A1：逐行遍历图中像素，获取的第一个像素值大于20的像素的纵坐标，即为A的纵坐标y1；

A2：逐行遍历图中像素，获取的最后一个像素值大于20的像素的纵坐标，即为C的纵坐标y2；

A3：逐列遍历图中像素，获取的第一个像素值大于20的像素的横坐标，即为B的横坐标x1；

A4：逐列遍历图中像素，获取的最后一个像素值大于20的像素的横坐标，即为D的横坐标x2；

有了A、B、C、D四个点的坐标x1，x2，y1，y2，可以直接得到裁剪后的有效图像；

S12：对图片进行亮度和对比度的随机调整来扩充数据，

调整图像的亮度和对比度来扩充训练数据集的数据量，使用下面这个公式来改变图像的亮度和对比度来扩充训练数据集，

g(x)＝a*f(x)+b

其中：f(x)表示原图像像素，

g(x)表示输出图像像素，

参数a被称为增益，常常被用来控制图像的对比度，我们设置a的取值范围为[0.5，1.5]，每次对图像操作时从中随机取值，

参数b被称为偏置，常常被用来控制图像的亮度，我们设置b的取值范围为[－50，50]，每次对图像操作时从中随机取值，

S13：对图片进行标准化，

使用反向传播算法学习参数，同时，对图像进行标准化处理，

其公式如下：

其中：x为图片的RGB三通道像素值，

mean为三通道像素各自的均值，

σ为三通道像素各自的标准差，

N为三通道各自的像素个数；

S2：以Alexnet与Resnet经典网络模型为基础进行网络的设计并训练神经网络，

经典的Alexnet网络包含五个卷积处理操作以及某些卷积处理操作后连接的最大池化层和三个全连接层，而所选取的Resnet网络有50层，num＿blocks参数设置为[3，4，6，3]。在这两种网络结构的基础上进行修改，设计合适的左右眼识别模型，

具体步骤如下：

B1、训练数据集为8243张眼底彩照，包括左眼眼底照4166张、右眼眼底照4077张；

B2、对输入的每一张图片都进行缩放，resize成512＊512的大小；

B3、设置学习率为0.001，每个batch的大小为32，正则化系数为0.001；

B4、训练过程采用GPU的训练方式；

B5、使用优化函数进行权值参数的优化；

B6、激活函数；

B7、使用5重交叉验证来判断何时终止训练；

S3：分类器Softmax回归与支持向量机SVM的比较，确定分类器。

优选地，所述本方案使用的深度学习框架是一个神经网络开源库TensorFlow，它使用数据流图的形式进行网络张量的计算，TensorFlow完全开源，任何人都可以使用，应用范围广。

优选地，所述GPU型号是QuadroK2200，QuadroK2200专业图形GPU，使图像更精确。

优选地，所述步骤B5中使用的优化函数为AdamOptimization，优化效果更好。

优选地，所述步骤B6中使用Relu激活函数，使用Relu激活函数计算速度快。

本发明的有益效果是：

本方案提出一种基于深度学习的左右眼识别算法，通过卷积神经网络对图像特征的自动提取功能，实现对左右眼的判断，识别速率快、准确率高，克服了人工判断费时费力的弊端，以及不用使用光学仪器，成本低，容易普及。

附图说明

图1是本发明方案的设计流程图；

图2是本发明图像剪裁的示意图；

图3是本发明六层网络模型在训练时相应的Loss和Accuracy的变化曲线。

具体实施方式：

下面结合附图和实例对本发明作进一步说明。

如图1所示一种基于深度学习的左右眼识别算法，包括以下步骤：，

S1：图像预处理和数据扩充，

S11：图像的裁剪：如图2所示，获取的眼科图像往往四周带

有许多黑色的无效区域，为了消除黑色无效区域对图像识别的干

扰并减少数据量，需要对图像中的有效区域进行提取，由于有效

区域与黑色无效区域具有明显的边界，且黑色所对应的像素值为0，所以不需要人工标记有效区域的四个边缘点A、B、C、D，可

以直接通过算法来自动提取，获取的眼科彩图的各个通道的像素

值大小范围通常均为[0，255]，设置像素值阈值为20，通过逐行

或逐列遍历图像通道的像素，获取的第一个与最后一个像素值大

于阈值的点即为对应的边缘点，具体的算法流程如下：

有了A、B、C、D四个点的坐标x1，x2，y1，y2，我们可以直接得到裁剪后的有效图像；

S12：对图片进行亮度和对比度的随机调整来扩充数据，

g(x)＝a*f(x)+b

其中：f(x)表示原图像像素，

g(x)表示输出图像像素，

S13：对图片进行标准化，

其公式如下：

其中：x为图片的RGB三通道像素值，

mean为三通道像素各自的均值，

σ为三通道像素各自的标准差，

N为三通道各自的像素个数；

具体步骤如下：

B4、训练过程采用GPU的训练方式；

B5、使用优化函数进行权值参数的优化；

B6、激活函数；

B7、使用5重交叉验证来判断何时终止训练；

本方案使用的深度学习框架是TensorFlow，这是一个神经网络开源库，它使用数据流图的形式进行网络张量的计算。TensorFlow还支持GPU的运算，本文使用的GPU型号是QuadroK2200。训练完成后，将获取到的两个学习模型对测试图片进行测试，所得到的测试结果如表1和表2所示。

表1以Alexnet为基础的学习模型的识别率

表2以Resnet为基础的学习模型的识别率

从上述结果可以看出，对于左右眼识别，以Alexnet为基础的学习模型比以Resnet为基础的学习模型的识别效果要好，所以本方案决定选用卷积神经网络Alexnet，并在其基础上进行进一步的修改和完善。

基于Alexnet网络的优化：

左右眼识别作为一个简单的二分类任务，图像上具有明显的判别特征。本方案在经典卷积神经网络Alexnet的基础上，设计一个用于左右眼识别的轻量化的卷积神经网络(CNN)模型。考虑到数据规模，本文从基础的4层网络模型起步，包括两层卷积池化层和两层全连接层。在此基础上逐渐增加网络的深度至8层，探究不同网络深度下左右眼识别效果的差异。表3为不同网络深度下左右眼的识别率。

模型	卷积层数	全连接层数	左眼识别率	右眼识别率
					Alex-4	2	2	91.97％	92.32％
Alex-5	3	2	94.68％	94.66％
					Alex-6	4	2	99.13％	99.48％
Alex-7	5	2	99.16％	99.39％
					Alex-8	5	3	99.09％	99.42％

表3不同网络深度的模型的左右眼识别率的比较

根据上述结果，我们可以看到，从基础的四层网络模型起步，逐渐增加网络的深度(如增加卷积层的数目)有利于提高左右眼的识别率。当网络深度增加到六层时，左右眼识别率已经达到99％以上，在此基础上继续增加卷积层或全连接层则对左右眼的识别率几乎没有影响。

与经典的八层卷积神经网络Alexnet相比，六层Alexnet网络的左右眼识别率基本没有差别。但是，六层网络减少了一层卷积层和一层全连接层，精简了网络结构，大大减少了参数量和计算量。而且，在同等的硬件条件和同样的测试情况下，六层网络结构的耗时大大降低，训练时每轮batch的迭代时间约为1.09s，测试一张图片耗时约为0.04s。而八层网络训练时每轮batch的迭代时间则约为20.60s，测试一张图片的耗时约为0.30s。因此，在速度上，六层结构的训练速度是经典的八层结构的训练速度的约20倍，测试速度则约为7.5倍。

因此从实用和效率两方面综合考虑，本方案最终确定为六层的深度网络模型，包括四层的卷积池化层和两层全连接层。具体的网络参数如表4所示。

表4六层网络模型的网络参数设置

在训练的过程中，每个batch的大小为32，每经过一个batch的训练就对权值系数进行优化，并计算相应的损失函数loss和相应的准确率accuracy。Loss与accuracy的变化曲线如图3所示。可以看出，在经过约1000轮的迭代后，loss与accuracy的变化幅度已经很小，系统基本趋于稳定。

S3：分类器Softmax回归与支持向量机SVM的比较，确定分类器：

CNN具有优异的特征表达能力，在很多图像识别任务中可以直接采用CNN网络作为一种特征提取器，这时分类器则不限于CNN中的softmax。本实验对softmax和SVM分类器进行了比较。

对于本文中左右眼识别的二分类问题，通过最后一层全连接层后，每一张图片都转变成了尺寸为2＊1的logit，我们在logit输入到Softmax之前将之导入到SVM模块，计算得到线性分离器的函数模型为：

y＝0.9293x-1.1123

用此SVM分离器模型对临床图片数据和公共图片数据进行分类测试，得到的测试结果如表5所示：

表5以支持向量机(SVM)为分类器的学习模型的识别率

将表4与表5进行对比可以发现，以SVM为分类器的学习模型的识别率与以Softmax回归为分类器的学习模型的识别率基本没有差别，所以选择分类器为Softmax回归还是SVM对左右眼的识别率基本没有影响。但是，通过Softmax分类器，可以得到图片属于每个类别的概率。所以，本方案最终确定以Softmax为分类器。

所述本方案使用的深度学习框架是一个神经网络开源库TensorFlow，它使用数据流图的形式进行网络张量的计算，TensorFlow完全开源，任何人都可以使用，应用范围广。

所述GPU型号是QuadroK2200，QuadroK2200专业图形GPU，使图像更精确。

所述步骤B5中使用的优化函数为AdamOptimization，优化效果更好。

所述步骤B6中使用Relu激活函数，使用Relu激活函数计算速度快。

当然，上述实施方式并不是对本发明的唯一限定，其他等同技术方案也应当在本发明创造的保护范围之内。

Claims

1.一种基于深度学习的左右眼识别算法，其特征在于，包括以下步骤：

S1：图像预处理和数据扩充，

S12：对图片进行亮度和对比度的随机调整来扩充数据，

g(x)＝a*f(x)+b

其中：f(x)表示原图像像素，

g(x)表示输出图像像素，

参数b被称为偏置，常常被用来控制图像的亮度，我们设置b的取值范围为[-50，50]，每次对图像操作时从中随机取值，

S13：对图片进行标准化，

使用反向传播算法学习参数，同时，对图像进行标准化处理，其公式如下：

其中：x为图片的RGB三通道像素值，

mean为三通道像素各自的均值，

σ为三通道像素各自的标准差，

N为三通道各自的像素个数；

经典的Alexnet网络包含五个卷积处理操作以及某些卷积处理操作后连接的最大池化层和三个全连接层，而所选取的Resnet网络有50层，num_blocks参数设置为[3，4，6，3]。在这两种网络结构的基础上进行修改，设计合适的左右眼识别模型，

具体步骤如下：

B2、对输入的每一张图片都进行缩放，resize成512*512的大小；

B4、训练过程采用GPU的训练方式；

B5、使用优化函数进行权值参数的优化；

B6、激活函数；

B7、使用5重交叉验证来判断何时终止训练；

S3：分类器Softmax回归与支持向量机SVM的比较，确定分类器。

2.根据权利要求1所述的一种基于深度学习的左右眼识别算法，其特征在于：所述本方案使用的深度学习框架是一个神经网络开源库TensorFlow。

3.根据权利要求1所述的一种基于深度学习的左右眼识别算法，其特征在于：所述GPU型号是Quadro K2200。

4.根据权利要求1所述的一种基于深度学习的左右眼识别算法，其特征在于：所述步骤B5中使用的优化函数为AdamOptimization。

5.根据权利要求1所述的一种基于深度学习的左右眼识别算法，其特征在于：所述步骤B6中使用Relu激活函数。