CN112102283B

CN112102283B - 一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法

Info

Publication number: CN112102283B
Application number: CN202010960954.2A
Authority: CN
Inventors: 李阳; 张越
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2022-12-16
Anticipated expiration: 2040-09-14
Also published as: CN112102283A

Abstract

本发明提供了一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法。本发明采用国际公开的视网膜眼底血管数据集DRIVE进行有效性验证：首先将其划分为训练集和测试集，将图片尺寸调整为512×512像素；然后将训练集经过四个随机预处理环节，以达到数据增强的效果；再设计深度多尺度注意力卷积神经网络的模型结构，将处理好的训练集输入到模型中进行训练；最后将测试集输入到训练好的网络中，进行模型性能的测试。本发明的主要创新点在于设计了双重注意力模块，使整个模型更加关注于细小血管的分割；设计了多尺度特征融合模块，使整个模型对所分割图像的全局特征提取能力更强。模型在DRIVE数据集上的分割准确率为96.87％，灵敏度为79.45％，特异性为98.57，优于经典U‑Net及现有最先进分割方法。

Description

一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法

技术领域

本发明提供了一种基于深度多尺度注意力卷积神经网络的视网膜血管分割方法。它为计算机技术在视网膜血管分割领域上的应用提供了一种新的方法，属于计算机技术领域和模式识别领域。

背景技术

在医学领域，视网膜眼底图像分析是医师筛查眼底疾病(如：老年黄斑变性、青光眼、糖尿病视网膜病变)以及部分心血管疾病(如：高血压)的一种重要手段。这些疾病随着病人年龄的增长，症状会愈发明显，眼部疾病发作严重时甚至会导致失明，若不及时治疗，可能会导致死亡。因此，快速并准确的智能化的视网膜眼底图像分析方法是眼科医学领域急需的核心技术之一。然而，临床上常常对视网膜眼底图像中的血管进行人工标注，时间成本高，而且不同医师在同一张眼底图像上的标注结果各异。相比之下，基于人工智能技术的视网膜眼底血管自动分割方法具有耗时短、精度高、鲁棒性强等优点。

目前大多数解决上述问题的方法一般是基于图像处理、优化、深度学习或者是上述方法组合。(李瑞瑞,彭晓婷,肖革新,沈莹,杜一华,赵欣媛,刘坤尧.基于血管连通性的视网膜血管分割技术研究[J].中国数字医学,2020,15(07):125-129.)在深度学习技术广泛应用之前，眼底血管的自动分割常用无监督方法来实现，大都基于一些传统的数字图像处理方法，如：阈值分割法、边缘检测法、区域生长法等。此外，基于模型的方法，如：蛇线模型、参数变形模型、几何变形模型。上述方法虽然理论成熟、易于实现，然而对图像全局特征把握能力不足，无法很好地处理图片噪声以及光照不均匀等问题，导致分割效果并不十分理想。

近些年来，随着人工智能的不断发展，深度学习技术引起相关科研人员注意。其中，卷积神经网络(convolution neural network，CNN)在图像识别、语义分割、视频检测等诸多领域有着广泛的应用。近年来，针对医学图像分割任务，研究人员提出一种全新的卷积神经网络架构。该网络由一个编码器和一个解码器拼接而成，输入图片由编码端输入，分割结果由解码端输出，整个结构呈端到端的U型结构，故称为U-Net。U-Net在各类医学图像分割任务(如：肿瘤分割、器官分割、血管分割等)上展现出的性能与其他算法相比都有着明显的提升。然而，U- Net有一个致命的缺点：由于网络层数过深，网络输入在经过上、下采样时会丢失部分特征，这种情况在深度网络底层尤为严重。将导致分割结果丢失原输入图像的部分细节，并且视觉效果较差。

为了解决深度卷积神经网络在模型底层特征丢失严重的问题，本发明提出了一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法。经过数据获取、数据增强、模型训练、模型测试这四个环节，完成视网膜眼底血管有效分割任务。在国际公开的视网膜眼底血管数据集DRIVE上进行了有效性验证，模型分割准确率为96.87％，灵敏度为79.45％，特异性为98.57％，优于现有经典U- Net及现有最优方法。

发明内容

为了解决现有图像分割技术存在的问题，本发明提供了一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法。采用国际公开的视网膜眼底血管分割数据集DRIVE，对所提出方法进行有效性验证，训练数据集中20张图片用于网络模型的训练，测试数据集20张图片用于网络模型的测试。在输入预处理的步骤中，对训练图像进行随机的数据增强，以达到扩充数据集的作用，再将处理好的训练数据放入模型训练。在测试阶段，将测试集图像输入网络得到输出，实现视网膜眼底血管分割任务，并进行分割结果比对。

为实现上述目的，本发明包括如下步骤：

步骤1：获得国际公开的彩色视网膜眼底血管分割数据集；

步骤2：选取数据集中用于训练的图片，考虑到训练过程中内存占用问题，将训练图像尺寸调整成为512×512像素，设计随机数据增强环节，建立训练数据集；

步骤3：选取数据集中用于测试的图片，同样地，将其尺寸调整成为512× 512像素，建立测试数据集；

步骤4：使用Pytorch深度学习框架，建立深度多尺度注意力卷积神经网络；

步骤5：将步骤2中所建立的训练数据集输入到步骤4中所建立的深度多尺度注意力卷积神经网络中，进行视网膜眼底血管分割模型的训练。等待训练完成之后，保存模型参数；

步骤6：加载步骤5中所保存的模型参数，获得训练好的视网膜眼底血管分割模型，将步骤3中建立的测试集输入到模型中，获得视网膜眼底血管分割结果。

其中，在步骤2中，训练图像以及训练图像的分割标签按被照相同的标准调整为512×512像素尺寸。因为原本数据集仅有20张眼底图像用于训练，对于深度卷积网络来说训练数据过少。因此，本发明设计四个随机数据增强环节来扩充原本数据集。包括随机HSV增强环节、随机水平镜像环节、随机垂直镜像环节、随机旋转环节。经过四个随机数据增强环节，将原本数据集增大到任意规模，从而满足深度学习模型大量训练数据的要求。

在步骤4中，本发明沿用了U-Net架构，在原有网络的编码器与解码器跳跃连接的通路上引入了全局及局部注意力机制，该双重注意力机制使得网络更加关注所需要关注的部分，尤其是细小血管，而不是血管外的背景。在解码器的每一层，本发明引入了多尺度特征融合模块，该模块从解码器的四层分别通过相应大小的卷积操作输出四张特征图，将四张特征图叠加后通过1×1的卷积核得到最终的分割概率图。该模块考虑了网络层级间深度差异所带来的特征差异，将不同层级的特征相融合，最大程度上保留了原始图像的特征。

本发明所提供的基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法的主要优点包括：

1.本发明采用四个数据增强环节来扩充数据集，保证了训练数据的多样性，防止在网络训练中过拟合现象的发生；

2.本发明所提出的深度多尺度注意力卷积神经网络架构中的全局、局部注意力机制，使得整个网络更加关注于细小血管的提取，有效地解决了小血管分割精度不高的问题。与此同时，对血管外的背景分割也更加准确，分割概率图清晰、血管连续；

3.本发明所提出的多尺度特征融合模块考虑了网络层级深度差异所带来的层级特征差异，将不同深度层级所输出的特征图叠加后进行卷积，最终得到分割概率图。这种方法极大程度上地保留了图像的原始特征，一定程度上避免了深度卷积神经网络在上下采样时所发生的特征丢失问题，使得最终分割结果更加精确、有效。

附图说明

图1为本发明的流程图。

图2为深度多尺度注意力卷积神经网络结构示意图。

图3为所提出方法的视网膜眼底血管分割结果。

具体实施方式

根据本发明的一个实施例，提出了基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法。在U-Net架构的编码器与解码器的连接通路上引入双重注意力机制，在解码器各层的输出端引入多尺度特征融合模块，最终得到视网膜眼底血管分割结果。

下面结合附图，对本发明所提出的一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法的具体实施方式进行详细说明：

步骤1：获取国际公开的彩色视网膜眼底血管数据集DRIVE；

步骤2：选取数据集中用于训练的图片，将其尺寸调整为512×512像素，设计随机数据增强环节，建立训练数据集；

步骤2.1：选取公开DRIVE数据集中Training文件夹内images文件夹中的彩色视网膜眼底血管图像，用于制作训练数据集。同时取出1_manual1文件中与训练数据相对应的分割结果金标准。为了训练的简便性，训练图像及其金标准的尺寸被调整为512×512像素。具体做法采用Python中自带的图像处理函数库cv2 中的resize函数，该函数有两个参数，具体数值是调整后图像的尺寸，设为512， 512；

步骤2.2：调整训练数据及其分割结果金标准的尺寸后，本发明设计了四个随机数据增强模块，以达到扩充原本数据集的作用：

(a)随机HSV增强模块。HSV是一种区别于RGB的另一种表达色彩空间的方式。它包含色相(Hue)、饱和度(Saturation)、明度(Value)三个参数。色相将颜色用0-360表示，即颜色名称，如红色、蓝色等。饱和度即色彩的纯度，饱和度越低，色彩越暗淡，其参数范围为0-255。明度即颜色的明亮程度，数值越高越接近于白色，越低越接近于黑色，其参数范围为0-255。通过cv2函数库中自带的cvtColor函数，将输入图片从RGB空间转化为HSV空间。设置进行随机HSV增强概率阈值为0.5，每次进入该模块时会生成一个随机数，当它大于等于 0.5时则进行随机HSV增强，小于0.5时则不进行增强。当所产生的随机数大于 0.5时，模块会在三个参数(色相、饱和度、明度)的参数范围中分别随机产生三个数值，与输入图片对应的HSV参数相加，实现数据增强。最后利用cvtColor 函数将处理好的输入转化为RGB空间进行表示。

(b)随机水平镜像翻转模块。同样设置增强概率阈值为0.5，当生成的随机数大于等于0.5时对输入图片进行水平镜像翻转。

(c)随机垂直镜像翻转模块。该模块与上一个模块差别在于将水平镜像翻转操作变为垂直镜像翻转操作。

(d)随机旋转模块。当所生成的随机数大于等于0.5时，对图像进行旋转90°后输出。

步骤3：选取公开DRIVE数据集中test文件夹内images文件夹中的彩色视网膜眼底血管图像，用于制作测试数据集。同时取出1_manual1文件夹中与测试数据相对应的分割结果金标准。利用步骤2中所提的方法将尺寸调整为512× 512像素；

步骤4：使用Pytorch深度学习框架，建立深度多尺度注意力卷积神经网络。本发明所提出的深度多尺度注意力卷积神经网络是基于U-Net架构，总体结构由一个编码器、一个解码器构成。全局与局部注意力机制被安插在编码器与解码器跳跃连接的通路上，多尺度特征融合模块的每条通路与网络解码器的对应通路相级联。各模块结构如下：

(a)编码器：编码器包括五层结构，每一层的结构分别如下：

第一层：输入层，输入在步骤2处理好的视网膜眼底血管彩色图像。包含两个卷积层和一个池化层，它们是级联连接。在每个卷积层后都进行了批量归一化操作，并且与Relu激活函数相连接。整层结构是基于残差连接。参数设置为：卷积核大小为3×3，步长为1，卷积核的数量为64。池化层采用最大值池化操作，其卷积核大小为2×2，步长为2。

第二层：隐藏层，结构与上一层完全相同。参数设置为：卷积核大小为3× 3，步长为1，卷积核的数量为128。池化层采用最大值池化操作，其卷积核大小为2×2，步长为2。

第三层：隐藏层，结构与上一层完全相同。参数设置为：卷积核大小为3× 3，步长为1，卷积核的数量为256。池化层采用最大值池化操作，其卷积核大小为2×2，步长为2。

第四层：隐藏层，结构与上一层完全相同。参数设置为：卷积核大小为3× 3，步长为1，卷积核的数量为512。池化层采用最大值池化操作，其卷积核大小为2×2，步长为2。

第五层：隐藏层，结构与上一层差别是缺少池化层。参数设置为：卷积核大小为3×3，步长为1，卷积核的数量为1024。

(b)解码器：解码器包括五层结构，每一层的结构分别如下：

第一层：隐藏层，输入为编码器第五层所产生的输出。其结构为一个上采样层、两个卷积层。输入经过上采样操作后，通过一个卷积层，再进行批量归一化以及通过Relu激活函数，与双注意力机制所产生的输出拼接，最后经过一个卷积层产生输出。参数设置为：上采样操作的感受野设置为2；第一个卷积层的卷积核大小为3×3，数量为512个，步长为1；第二个卷积层的卷积核大小为3× 3，数量为512个，步长为1。

第二层：隐藏层，结构与上层完全相同。参数设置为：上采样操作的感受野设置为2；第一个卷积层的卷积核大小为3×3，数量为256个，步长为1；第二个卷积层的卷积核大小为3×3，数量为256个，步长为1。

第三层：隐藏层，结构与上层完全相同。参数设置为：上采样操作的感受野设置为2；第一个卷积层的卷积核大小为3×3，数量为128个，步长为1；第二个卷积层的卷积核大小为3×3，数量为128个，步长为1。

第四层：隐藏层，结构与上层完全相同。参数设置为：上采样操作的感受野设置为2；第一个卷积层的卷积核大小为3×3，数量为64个，步长为1；第二个卷积层的卷积核大小为3×3，数量为64个，步长为1。

第五层：输出层，包含两个卷积层。第一个卷积层的输入为编码器第四层的输出，第二个卷积层的输入为多尺度特征融合模块的输出，最后与Sigmoid函数相连，得到最终输出。参数设置为：第一个卷积层的卷积核大小为3×3，数量为 1个，步长为1；第二个卷积层的卷积核大小为1×1，数量为1个，步长为1。

本发明设计了一种双重注意力模块，每一个双重注意力模块中包含一个全局注意力模块和一个局部注意力模块，它们是并行连接的。整个模块的输出是两个子注意力模块各自的输出相叠加。下面分别说明全局注意力模块和局部注意力模块的结构。

(c)全局注意力模块

此模块有两个输入，一个是编码器部分第n层的输出，另一个是解码器第5- n层的输入，为了简便将其称为输入1、输入2，其中n＝1，2，3，4。输入1、输入2首先分别经过一次卷积操作和批量归一化，然后将得到的结果叠加后输入 Relu激活函数，再进行一次卷积操作，该卷积操作的作用是得到特征关注度矩阵。该矩阵经过批量归一化和Sigmoid激活函数之后，其值都被调整为0-1区间，与输入1进行矩阵按元素相乘的操作，得到最后输出。其中各卷积操作的参数设置与上输入的尺寸相关。公式如下：

其中

代表编码器第n层的输出，即全局注意力模块的输入1，

代表解码器第5-n层的输出，即全局注意力模块的输入2，

代表第n个全局注意力模块的输出，函数Conv()代表卷积操作，Relu()代表Relu激活函数，Sigmoid()代表Sigmoid激活函数，“*”这里代表矩阵按元素相乘。

(d)局部注意力模块

此模块的输入为编码器部分第n层的输出，其中n＝1，2，3，4。该模块存在四条并行的卷积通路，结构分别如下(四条通路中所有卷积层的卷积核的数量都为输入数据的通道数)：

通路1：一个卷积层，卷积核大小为3×3。

通路2，两个卷积层相级联，第一个卷积层为扩张率为3的空洞卷积，卷积核大小为3×3；第二个卷积层的卷积核大小为1×1。

通路3，三个卷积层相级联，第一个卷积层的卷积核大小为3×3；第二个卷积层的卷积核为扩张率为3的空洞卷积，卷积核大小为3×3；第三个卷积层的卷积核大小为1×1。

通路4，四个卷积层相级联，第一个卷积层的卷积核大小为3×3；第二个卷积层的卷积核为扩张率为3的空洞卷积，卷积核大小为3×3；第三个卷积层的卷积核为扩张率为5的空洞卷积，卷积核大小为3×3；第四个卷积层的卷积核大小为1×1。

输入数据分别经过四条卷积通路，得到四个输出与本身相叠加后输入到Relu 激活函数，再进行卷积操作和批量归一化，最后经过Sigmoid激活函数得到特征关注矩阵，与模块输入按元素相乘后得到模块输出。其中卷积操作的卷积核大小为1×1，数量为1。该模块用公式表示如下：

x_channel1＝Conv(x_n) (2)

x_channel2＝Conv(Conv_rate3(x_n)) (3)

x_channel3＝Conv(Conv_rate3(Conv(x_n))) (4)

x_channel4＝Conv(Conv_rate5(Conv_rate3(Conv(x_n)))) (5)

其中x_n表示编码器部分第n层的输出，即第n个局部注意力模块的输入，x_channeln为第n条通路的输出(n＝1，2，3，4)，Conv()为卷积操作，Conv_rate3()代表扩张率为3的空洞卷积，Conv_rate5()代表扩张率为5的空洞卷积，Relu()代表 Relu激活函数，Sigmoid()代表Sigmoid激活函数，

代表第n个局部注意力模块的输出。

(e)多尺度特征融合模块

为了最大程度保留深度卷积神经网络各层的特征，避免在上采样时出现特征丢失的情况，本发明设计了一种多尺度特征融合模块，其结构如下：

首先从网络解码器的第一，二，三层分别引出三条卷积通路。第一条通路的输入为网络解码器第一层的输出，整个通路包含三个上采样层和三个卷积层。输入先经过上采样操作后通过卷积层，再经过批量归一化和Relu激活函数。该操作连续重复三次后得到网络输出。其中三个上采样层的感受野为2，三个卷积核的大小为3×3，数量分别为256、128、1个，步长都为1。

通路二的输入为网络解码器第二层的输出，整个通路包含两个上采样层和两个卷积层。输入先经过上采样操作后通过卷积层，再经过批量归一化和Relu激活函数。该操作连续重复两次后得到网络输出。其中两个上采样层的感受野为2，三个卷积核的大小为3×3，数量分别为128、1个，步长都为1。

通路三的输入为网络解码器第三层的输出，整个通路包含一个上采样层和一个卷积层。输入先经过上采样操作后通过卷积层，再经过批量归一化和Relu激活函数。其中上采样层的感受野为2，卷积层卷积核的大小为3×3，数量为1个，步长为1。

在三条通路都构建完后，将三条通路的输出与整个解码器的输出相叠加，再经过一个1×1的卷积核，得到整个模块的输出。整个模块公式如下：

output₁＝Relu(Up_Conv(Relu(Up_Conv(Relu(Up_Conv(k₁)))))) (7)

output₂＝Relu(Up_Conv(Relu(Up_Conv(k₂)))) (8)

output₃＝Relu(Up_Conv(k₃)) (9)

output＝Conv(output₁+output₂+output₃+decoder_output) (10)

其中output_n代表多尺度特征融合模块第n层的输出(n＝1，2，3)，decoder_output为整个解码器模块的输出，output代表多尺度特征融合模块的输出，k_n为编码器第n层的输出(n＝1，2，3)，Up_Conv()代表上采样和卷积操作，Conv()代表卷积操作，Relu()代表Relu激活函数。

步骤5：将步骤2中所选取的训练数据集输入到步骤4中所建立的深度多尺度注意力卷积神经网络中，进行视网膜眼底血管分割模型的训练。其中设置训练数据Batchsize为5，设置网络学习率为0.0005，采用Adam优化器进行网络参数优化，损失函数采用交叉熵损失函数，经过550次迭代训练后保存模型参数；

步骤6：加载步骤5中所保存的模型参数，得到训练好的视网膜眼底血管分割模型，将步骤3中选取的测试集输入到模型中，得到视网膜眼底血管分割结果；

基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割模型在测试集上的性能指标如表1所示，其中加粗数据表示该列中的最佳结果。

表1深度多尺度注意力卷积神经网络在测试集上的性能指标

由表1可知，本发明所提出的基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法在国际公开数据集DRIVE上的准确率为96.87％，灵敏度为 79.45％，特异性为98.57％。多张测试图片的分割结果准确率达到了97％以上，说明本发明所提出的方法分割准确率高。同时有多张测试图片的分割结果灵敏度达到了80％以上，说明本发明所提出方法对细小血管的分割能力强。

另外，为了说明本发明所提出方法的优势，对比近年来最新的视网膜眼底血管分割模型在相同测试集上的性能指标如表2所示，其中加粗数据表示该列中的最佳结果。

表2几种最新的视网膜眼底血管分割模型在测试集上的平均性能指标

由表2可知，本发明所提出的基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法，在准确率和特异性上都优于现有最先进方法。并且该模型所得到的分割结果在视觉观感上较佳，对临床眼底疾病诊断具有一定的指导意义，在临床疾病辅助诊断等领域具有重要的临床应用价值。

以上对本发明所提供的基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法进行了详细的说明，但显然本发明的范围并不局限于此。在不脱离所附权利要求书所限定的保护范围的情况下，对上述实例的各种改变都在本发明的范围之内。

Claims

1.基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法，其特征在于包括：

步骤1：获得国际公开的彩色视网膜眼底血管分割数据集；

步骤2：选取训练数据集中用于训练的图片，将其调整成为512×512像素尺寸，设计随机数据增强环节，建立训练数据集；

步骤3：选取测试数据集中用于测试的图片，将其调整成为512×512像素尺寸，建立测试数据集；

步骤4：使用Pytorch深度学习框架建立深度多尺度注意力卷积神经网络；

步骤5：将步骤2中所建立的训练数据集输入到步骤4中所建立的深度多尺度注意力卷积神经网络中，进行视网膜眼底血管分割模型的训练；设置训练数据Batchsize为5，设置网络学习率为0.0005，采用Adam优化器进行网络参数优化，损失函数采用交叉熵损失函数，经过550次迭代训练后保存模型参数；

步骤6：加载步骤5中所保存的模型参数，得到训练好的视网膜眼底血管分割模型，将步骤3中建立的测试集输入到模型中，获得视网膜眼底血管分割结果，

其中：

所述步骤2中，由于原有数据集样本数过少，设置四个随机数据增强环节来扩充原本数据集，包括随机HSV增强环节、随机水平镜像环节、随机垂直镜像环节、随机旋转环节，经过随机数据增强环节，将原本数据集增大到任意规模，从而满足深度学习模型大量训练数据的要求，

在所述步骤4中：

沿用U-Net架构，包括一个编码器、一个解码器，

全局注意力模块与局部注意力模块被安插在编码器与解码器跳跃连接的通路上，

全局注意力模块与局部注意力模块并行连接，

每对全局注意力模块与局部注意力模块的整体的输出是该全局注意力模块与局部注意力模块各自的输出的叠加，

全局注意力模块有两个输入，一个是编码器部分第n层的输出，另一个是解码器第5-n层的输入，其中n＝1，2，3，4，

局部注意力模块的输入为编码器部分第n层的输出，其中n＝1，2，3，4，该局部注意力模块有四条并行的卷积通路，

多尺度特征融合模块从网络解码器的第一，二，三层分别引出三条卷积通路，其中：第一条通路的输入为网络解码器第一层的输出，整个通路包含三个上采样层和三个卷积层；第二条通路的输入为网络解码器第二层的输出，整个通路包含两个上采样层和两个卷积层；第三条通路的输入为网络解码器第三层的输出，整个通路包含一个上采样层和一个卷积层；在三条卷积通路都构建完后，将三条卷积通路的输出与整个解码器的输出相叠加，再经过一个1×1的卷积核，得到整个多尺度特征融合模块的输出。

2.如权利要求1所述的基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法，其特征在于：

训练图像以及训练图像的分割标签按被按照相同的标准调整为512×512像素尺寸。