CN116503422A

CN116503422A - 一种基于注意力机制与多尺度特征融合的视杯视盘分割方法

Info

Publication number: CN116503422A
Application number: CN202310432609.5A
Authority: CN
Inventors: 王进科; 杨志鹏; 王振友
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-28

Abstract

本发明公开了一种基于空间通道注意力机制与多尺度特征融合的眼底图像视杯视盘分割方法，本方法涉及深度学习和医学图像处理领域，包括：定位网络和分割网络。整体流程图如图1所示。所述定位网络首先对数据集中的原始眼底图像进行视盘定位裁剪；对裁剪图进行预处理和数据增强；分割网络使用基于编码解码结构构建多尺度密集网络模型将数据增强后的眼底图像数据导入眼底图像分割模型中进行训练，获取训练完成的权重，进一步对眼底图像进行分割，最终获取到分割结果。本发明针对眼底图像视杯视盘分割提出的新的递归神经网络结构，解决了由于眼底影像的复杂性，导致视杯与视盘的分割容易受其他部位如血管等因素的干扰，从而使分割的视杯视盘边缘模糊的问题，提升了分割精度。相比于现存算法，具有一定的先进性。

Description

一种基于注意力机制与多尺度特征融合的视杯视盘分割方法

技术领域

本发明涉及深度学习和医学图像处理领域，具体涉及一种基于空间通道注意力机制与多尺度特征融合的视杯视盘分割方法。

背景技术

青光眼是一类以进行性视神经损害为特征的致盲性眼病，目前已成为全球不可逆失明的首要原因。到2040年青光眼患者数量预计将超过1亿，早期青光眼通常没有明显的症状，具有隐匿性，早期的青光眼筛查至关重要。

杯盘比是诊断青光眼的主要衡量指标，眼科医生进行诊断过程非常耗时耗力且相对主观。因此设计一种视杯视盘自动分割方法对于辅助医生提高诊断速度和效果具有重要意义。

当前，眼底图像中视杯视盘的分割技术，主要有基于人工特性的视觉识别技术和基于自动特性的深度学习。基于人工特征的技术，包括基于颜色、纹理、对比度阈值、边缘检测，分割模型以及区域分割等技术。由于眼底图像的复杂性，导致视杯与视盘的分割容易受正常生理结构如血管等因素的干扰，从而影响分割的准确性。传统的眼底图像提取技术采用人工提取，在对比度较低或受病灶影响的情况下，图像的分割效果会下降。所以，进行眼底图像视杯视盘自动分割非常关键。

发明内容

针对现有的视杯视盘分割精准度与灵敏度问题，以及许多模型对噪声的鲁棒性不够强，使得视杯视盘分割结果容易受到眼底图像中噪声因素干扰。尤其是视杯视盘边缘分割质量不够好，分割出的视盘边界容易出现过分割和欠分割问题，本次发明设计了相应的解决策略和方法，提出了基于改进YOLOv7的视盘定位网络和改进的U-Net模型：Fusion-ECA-U-Net(FE-U-Net)用于视盘分割。改进YOLOv7用于视盘定位，为了提高模型的准确性，在YOLOv7中的Backbone部分添加了MC模块。此模块首先将具有不同空洞率的卷积并联，得到了不同感受野的图像信息，在Neck部分添加通道注意力机制，根据通道对任务的贡献为每个通道赋予权值。对于经典U-Net模型灵敏度低、鲁棒性不够好等问题做出改进方案，通过引入空间和通道注意力机制与多尺度特征融合的模块，提升视杯视盘的分割能力，提高分割灵敏度与鲁棒性。

本发明的技术方案：基于空间通道注意力机制与多尺度特征融合的视杯视盘分割方法，流程图如图1包括如下步骤：

S1、对公开的眼底图像进行视盘定位并裁剪出感兴趣区域(ROI)；

S2、对裁剪后的视盘区域图像进行预处理；

S3、对预处理之后的图像进行数据增强；

S4、搭建空间和通道注意力机制与多尺度特征融合的分割网络FE-U-Net，并将处理后的数据集传入搭建的网络进行训练，保存训练权重，得到训练好的模型。

S5、将测试集数据传入定位网络裁剪出视盘区后输入步骤3得到的模型中，进行测试，获得分割结果并和人工标注视杯视盘金标准进行对比，得到对比数据以及分割结果。

进一步概括S1包括以下2个步骤：

第一步为改进YOLOv7在YOLOv7中的Backbone部分添加了MC模块，此模块首先将具有不同空洞率的卷积并联，得到了不同感受野的图像信息，在Neck部分添加通道注意力机制，根据通道对任务的贡献为每个通道赋予权值。YOLOv7是一个典型的一阶段目标检测网络，由Backbone、Neck和Head三个组件模块组成。在模型的Backbone部分增加一个MC模块，MC模块如图2所示。该模块用于缩小输出映射，使输出映射变为：[32，32，3×(4+1+1)]、[16，16，3×(4+1+1)]、[8，8，3×(4+1+1)]。此模块在缩小模型输出映射的同时，增强了模型提取特征的能力。使最后的得到的特征映射可以同时保留深、浅层次的特征信息。

进一步概括S2包括以下3个步骤：

第一步是：图像灰度化，对原始图像进行图像灰度化，将三通道图像(彩色图)转化为单通道图像(灰度图)，绿色通道图片中视杯视盘与图像背景的对比度更大，噪声更少，所以使用绿色通道的数据作为输入数据。

第二步是：在得到灰度化后的图像，接着我们采用限制对比度自适应直方图均衡化(CLAHE)的方法对得到的灰度图进行对比度增强，增加视盘和背景的区分度，该方法还可以抑制部分的背景噪声，凸显视盘结构。

最后：利用非线性Gamma变换来调整输入眼底图像的光照强度，并对强度值进行非线性运算，使得输入和输出图像的强度值构成指数关系：主要目的是增强图像中较暗的部分，同时保证较亮的部分也不受影响，它可以进一步增大图像的对比度，减少噪声因素的干扰，提高网络分割能力和模型泛化能力。

处理过程中图像变化如图3所示，我们对比(b)，(c)可以发现，相比于(c)的绿通道加权灰度化后的结果，CLAHE方法的结果(d)可以有效的提升灰度图中视盘和背景像素的对比度，而对比(d)，(e)可发现，在CLAHE结果(d)的基础上使用非线性Gamma变换之后，可以看到视盘区域变得更清晰了，这就说明(e)在(d)的基础上又进一步增大了视盘和背景的对比度差异。图3结果证明了我们通过该预处理流程，可以有效地解决光照不均匀的问题，增大眼底图像视盘和非视盘像素的对比度。我们预处理之后的图片，将有助于后续的深度学习模型在特征提取时能够学到更有表达能力和鲁棒性的特征，提升模型对视盘区和非视盘区像素的区分能力。

进一步地，所述S3包括：

对原始图像进行数据增强，包括：缩放，旋转，水平翻转和垂直翻转，以及B样条弹性形变。为了降低过拟合的影响防止一些局部视盘边缘区域的像素出现偏差，本文对所用数据集进行了随机裁剪工作，在裁剪的时候，为了方便深度网络模型的特征提取，统一设定裁剪大小是512×512dpi。

进一步地，所述S4包括：

在所提出的FE-U-Net模型的训练阶段，我们首先对眼底图像进行预处理和数据增强、将图像裁剪成相同的512×512大小，然后将处理好的眼底图像送入我们的FE-U-Net模型进行全监督训练。

进一步地，所述步骤3包括：

网络模型训练，选择眼底图像公开的两个数据集Refuge和Drishti-GS1将预处理与增强后的数据集，导入到模型中进行训练，采用5折交叉验证进行训练集划分提高网络泛化性，训练结果和金标准进行比较，保存训练的最佳权重。再将训练完成的模型进行测试集训练，最终得到稳定的视杯视盘分割图。

实验参数：

在视网膜眼底血管分割实验中，我们的硬件环境为：NVIDIA GeForce RTX2080Ti显卡，显存11G；操作系统：Ubuntu18.04；Pytorch深度学习框架。采用Adam优化器用于更新参数。其中，初始化学习率(learning rate，lr)设置为1e-4，betas参数设置为(0.9，0.999)，批处理大小(batch_size)设置为16，总共训练轮数(epoch)设置为400。在训练过程中，我们采用学习率线性衰减策略，在第t个epoch时的学习率可表示为：

附图说明

图1为分割流程图；

图2为MC模块图；

图3为视盘定位裁剪与预处理结果图；

图4为FE-U-Net网络结构图；

图5为特征融合模块结构图；

图6为BottleNeck模块结构图；

图7为分割结果对比图

图8为泛化分割结果对比图

具体实施方式

以下为结合本发明实施例中附图，对本发明实施技术方案进行清楚、完整描述，所描述为本发明的一部分而不是全部的实施例，基于发明中的实施例，本领域普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护范围。

本发明的方法整体流程图如图1所示，整个流程分为训练和测试两个阶段。

一、训练阶段

如图1所示

训练阶段将图像先进行视盘定位裁剪进行预处理，再进行数据增强，将扩增后数据导入FE-U-Net中进行模型训练，得到训练结果，保存权重。具体如下：

(1)、视盘定位

将眼底图像数据集输入到基于改进YOLOV7的视盘定位网络，获取感兴趣区域也就是视盘所在的区域(ROI)之后裁剪出ROI。

(2)、数据预处理

图像灰度化，对原始图像进行图像灰度化，将三通道图像(彩色图)转化为单通道图像(灰度图)，绿通道图片中视杯视盘与图像背景的对比度更大，噪声更少，所以使用绿色通道的数据作为输入数据。在得到灰度化后的图像，接着我们采用限制对比度自适应直方图均衡化(CLAHE)的方法对得到的灰度图进行对比度增强，增加视盘和背景的区分度，利用非线性Gamma变换来调整输入眼底图像的光照强度，并对强度值进行非线性运算，使得输入和输出图像的强度值构成指数关系：主要目的是增强图像中较暗的部分，同时保证较亮的部分也不受影响，它可以进一步增大图像的对比度，减少噪声因素的干扰，提高网络分割能力和模型泛化能力。

(3)、数据增强

我们采用随机裁剪而不是Resize的方法来调整眼底图像的大小。在裁剪的时候，为了方便深度网络模型的特征提取，我们统一设定裁剪大小是512×512dpi。

(4)、网络构建

基于传统的U-Net网络进行改进的Fusion-ECA-U-Net(FE-U-Net)是一个端到端的多标签深度神经网络，网络整体结构如图4所示。在编码过程中加入多尺度特征融合模块，多尺度特征融合模块结构如图5所示，将多尺度特征融合模块添加到网络的第一层和第二层中进行特征融合，减少特征提取过程中的信息丢失并且将低分辨率特征与高分辨率特征融合，提取更多尺度感受野下的特征保留大量细节信息。首先，通过反卷积将低分辨率特征映射恢复到高分辨率大小，然后添加到高分辨率特征映射中，如公式：

所示。然后，将集成的特征映射输入BottleNeck模块中，以提高特征提取的能力，避免梯度消失，BottleNeck模块结构如图6所示。

解码器包含具有通道和空间注意力机制的ECA模块。ECA模块将SE中使用全连接层FC学习通道注意信息，改为1*1卷积学习通道注意信息。使用1*1卷积捕获不同通道之间的信息，避免在学习通道注意力信息时，通道维度减缩。使用一种不降维的局部跨通道交互策略，有效避免了降维对于通道注意力学习效果的影响。对输入特征图进行空间特征压缩；实现在空间维度，使用全局平均池化GAP，得到1*1*C的特征图对压缩后的特征图，进行通道特征学习，通过1*1卷积，学习不同通道之间的重要性，最后与通道注意力结合，将通道注意力的特征图1*1*C、原始输入特征图H*W*C，进行逐通道乘，最终输出具有通道注意力的特征图。从而在一个迭代中，能够求出算法的解，以保持U-Net的端对端特性。同时，得到更细致的视杯视盘分割边界。在此基础上，通过跳跃式连接，可以在同一尺度上进行不同层次的语义信息的融合，从而使编码器能够更好地提取出更多的有用特征。浅层次特征能使图像的原始结构信息得到最大程度的保存，而更深层次的信息则含有更多的抽象结构，二者的结合有助于在最终的卷积信道中得到有效地还原物体的空间维度和结构细节，从而改善分割的准确度。

网络测试：

在测试集上进行测试，我们的FE-U-Net在多个指标上都超越了许多近几年的其它深度学习方法，在4个指标：AUC、Dice、MIoU和Accuracy上分别达到95.99％，92.24，92.11％和93.27％，在4个评价指标中，都优于其他模型。提出的FE-U-Net在测试数据集上的AUC相比U-Net提升约3.2％，相比M-Net提升约3.14％，相比CENet提升约2.65％，，相比Res-Net提升约2.52％，相比Seg-Net提升约0.76％。Dice相比U-Net提升约0.092％，相比M-Net提升约1.03％，相比CENet提升约1.01％，，相比Res-Net提升约0.083％，相比Seg-Net提升约0.033％。MIoU相比U-Net提升约1.84％，相比M-Net提升约1.65％，相比CENet提升约0.045％，，相比Res-Net提升约0.031％，相比Seg-Net提升约0.006％。Accuracy相比U-Net提升约13.41％，相比M-Net提升约10.89％，相比CENet提升约7.63％，，相比Res-Net提升约7.8％，相比Seg-Net提升约3.34％。

表1在Refuge和Drishti-GS1数据集上各模块对比实验

分割结果如图7所示网络输出的分割结果形状更接近于专家标注的图像形状，且噪声点更少；从细节来看，FE-U-Net网络输出的分割结果显示边缘不规则形状更少，且更加平滑。

从实验结果的对比可以看到，我们的FE-U-Net在两个常见的眼底图像数据集Refuge和Drishti-GS1上超越了很多近年来的经典方法和模型的性能，在多个指标上具备较强的竞争力。与其它一些经典的视杯视盘分割方法相比，它不仅可以很好的提升Acc、AUC和Dice、MIoU等评价指标，而且还可以很好地提升视杯视盘分割的可视化质量，特别是提升一些边界模糊的视杯视盘的分割质量和效果。我们的FE-U-Net分割出的视杯视盘相对于其它一些方法更加的清晰，视杯视盘轮廓边界也更加的清晰和完整。我们的模型对一些较为模糊的轮廓和有背景噪声干扰的视杯视盘边界区域等也更加的敏感，能够成功地分割出一些其它模型难以分割出的视杯视盘微小轮廓等。

为了验证FE-U-Net架构的泛化性，本文在RIM-ONE-v3数据集上做了与上部分相同的实验。RIM-ONE-v3数据集有159张图片每张图片都由两位专家标注，相比于Refuge和Drishti-GS1数据集图像对比度更低。图8为网络泛化测试结果对比图可视化。我们的FE-U-Net对于模糊边界更加敏感，更能够保留更多的视杯视盘边缘轮廓细节信息，且分割出的视杯视盘更加清晰，分割的边界不连续现象相对其它一些方法要更少，同时，分割出的视杯视盘形态结构和专家标注的label也更接近。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于注意力机制与多尺度特征融合的视杯视盘分割方法，其特征在于，包括：

S11：将眼底图像数据集输入基于改进YOLOv7的定位网络进行视盘定位并裁剪出视盘所在区域。

S12：对裁剪后图片进行预处理，包括灰度变换、直方图均值化；

S13：预处理后的图像进行数据增强，由于公开数据集数量比较少，所以需要对数据集进行变换以增强图像，扩展数据集；

S14：提出了一种新的网络框架：Fusion-ECA-U-Net(FE-U-Net)。由编码和解码结构组成的U形网络结构。在编码过程中丢失了许多信息特征。为解决此问题提出特征融合模块，在编码过程的第一层和第二层中加入多尺度特征融合模块。将低分辨率特征与高分辨率特征融合，提取更多尺度感受野下的特征保留大量细节信息。它包含一个上采样操作和一个残差结构。解码器模块中添加空间通道注意力模块ECA，将SE中使用全连接层FC学习通道注意信息，改为1*1卷积学习通道注意信息。使用1*1卷积捕获不同通道之间的信息，避免在学习通道注意力信息时，通道维度减缩。使用一种不降维的局部跨通道交互策略，有效避免了降维对于通道注意力学习效果的影响。从而在一个迭代中，能够求出算法的解，以保持U-Net的端对端特性。同时，得到更细致的视杯视盘分割边界。在此基础上，通过跳跃式连接，可以在同一尺度上进行不同层次的语义信息的融合，从而使编码器能够更好地提取出更多的有用特征。浅层次特征能使图像的原始结构信息得到最大程度的保存，而更深层次的信息则含有更多的抽象结构，二者的结合有助于在最终的卷积信道中得到有效地还原物体的空间维度和结构细节，从而改善分割的准确度。

S15：将待分割测试视杯视盘分割图传输分割模型中进行分割，获得视杯视盘分割结果。

2.根据权利要求1所述的基于多尺度特征融合与空间通道注意力机制的视杯视盘分割方法，其特征在于，所述S11包括：

S21：首先对原始图像进行图像灰度化，将三通道图像(彩色图)转化为单通道图像(灰度图)，绿通道图片中视杯视盘与图像背景的对比度更大，噪声更少，所以使用绿色通道的数据作为输入数据。

S22：其次得到灰度化后的图像，我们采用限制对比度自适应直方图均衡化(CLAHE)的方法对得到的灰度图进行对比度增强，增加视杯视盘和背景血管的区分度，该方法还可以抑制部分的背景噪声，增强局部对比度凸显视杯视盘结构；

S23：利用非线性Gamma变换来调整输入眼底图像的光照强度，并对强度值进行非线性运算，使得输入和输出图像的强度值构成指数关系：主要目的是增强图像中较暗的部分，同时保证较亮的部分也不受影响，它可以进一步增大图像的对比度，提高网络分割能力和模型泛化能力。此外，Gamma变换还可以减少噪声因素的干扰。

3.根据权利要求1所述的基于空间通道注意力机制与多尺度特征融合视杯视盘分割方法，其特征在于，所述S12包括：

S31：对原始图像进行数据增强，采用了多种刚性变换和弹性变换，包括：缩放，旋转，水平翻转和垂直翻转、以及B样条弹性形变。为了降低过拟合的影响防止一些局部视盘边缘区域的像素出现偏差，本文对所用数据集进行了随机裁剪工作，在裁剪的时候，为了方便深度网络模型的特征提取，统一设定裁剪大小是512×512dpi。

4.根据权利要求1所述的基于多尺度特征融合与空间通道注意力机制的视杯视盘分割方法，其特征在于，所述S13包括：

S41：网络搭建

基于传统的U-Net网络进行改进的Fusion-ECA-U-Net(FE-U-Net)是一个端到端的多标签深度神经网络。在编码过程中加入多尺度特征融合模块，将多尺度特征融合模块添加到网络的第一层和第二层中进行特征融合，减少特征提取过程中的信息丢失并且将低分辨率特征与高分辨率特征融合，提取更多尺度感受野下的特征保留大量细节信息。首先，通过反卷积将低分辨率特征映射恢复到高分辨率大小，然后添加到高分辨率特征映射中，如公式(4.1)所示。

然后，将集成的特征映射输入BottleNeck模块中，以提高特征提取的能力，避免梯度消失。解码器包含具有通道和空间注意力机制的ECA模块。ECA模块将SE中使用全连接层FC学习通道注意信息，改为1*1卷积学习通道注意信息。使用1*1卷积捕获不同通道之间的信息，避免在学习通道注意力信息时，通道维度减缩。使用一种不降维的局部跨通道交互策略，有效避免了降维对于通道注意力学习效果的影响。对输入特征图进行空间特征压缩；实现在空间维度，使用全局平均池化GAP，得到1*1*C的特征图对压缩后的特征图，进行通道特征学习，通过1*1卷积，学习不同通道之间的重要性，最后与通道注意力结合，将通道注意力的特征图1*1*C、原始输入特征图H*W*C，进行逐通道乘，最终输出具有通道注意力的特征图。从而在一个迭代中，能够求出算法的解，以保持U-Net的端对端特性。同时，得到更细致的视杯视盘分割边界。在此基础上，通过跳跃式连接，可以在同一尺度上进行不同层次的语义信息的融合，从而使编码器能够更好地提取出更多的有用特征。浅层次特征能使图像的原始结构信息得到最大程度的保存，而更深层次的信息则含有更多的抽象结构，二者的结合有助于在最终的卷积信道中得到有效地还原物体的空间维度和结构细节，从而改善分割的准确度。

S42：网络模型数据训练

根据S41搭建的网络，选取预处理与数据增强后的数据集在分割网络上进行训练，利用网络分割结果与标注结果之间的损失对比网络学习进行指导，获得最佳的视杯视盘分割图。