CN115082388A

CN115082388A - 一种基于注意力机制的糖尿病视网膜病变图像检测方法

Info

Publication number: CN115082388A
Application number: CN202210642625.2A
Authority: CN
Inventors: 王微; 刘根
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-09-20

Abstract

一种基于注意力机制的糖尿病视网膜病变图像检测方法，属于图像检测领域。注意力机制在糖尿病视网膜病变图像检测过程中的应用及研究的不足的问题。一种基于注意力机制的糖尿病视网膜病变图像检测方法，眼底图像预处理的步骤；包括数据筛选、数据扩增和数据增强；视网膜血管分割的步骤；包括构建注意力机制模型和训练所构建的模型；在U‑Net网络中加入空间注意力机制；使用结构化的Dropout卷积块代替U‑Net的原始卷积块；眼底图像病变分级的步骤；采用EfficientNet作为Backbone，将网络宽度和网络深度以及图像像素大小进行复合融合，然后得到优化的网络，进行DR病变状况评估。本发明在视网膜血管分割和DR识别中达到准确分割血管和识别视网膜病变等级的效果。

Description

一种基于注意力机制的糖尿病视网膜病变图像检测方法

技术领域

本发明涉及图像识别检测方法，特别涉及一种基于注意力机制的糖尿病视网膜病变图像检测方法。

背景技术

糖尿病视网膜病变(DR)患者的眼底图像应用于早期的诊断和治疗过程中，是完全依靠人工识别微小的视网膜特征如微动脉瘤、出血和渗出物，如果医生长时间进行此重复性操作，即使训练有素，也会出现失误。在很多偏远地区，医疗条件远远跟不上，没有相关设备获取眼底图像，也没有诊断这方面疾病的医生。这就造成了很多患者无法得知自己的病情以及进行相关的治疗。

另外，眼底图像上的硬性渗出物与眼底图像中的血管反光、视神经纤维、视神经盘等正常生理结构有着相似的视觉信息，且单一病变中又有着较大的类内差异性。同时，由于拍摄环境、设备仪器、拍摄者的年龄性别种族等差异，拍摄到的眼底图像常常会具有不同颜色、不同对比度、不同亮度等特点，这些都极大地加深了计算机图像处理的难度。因此研究准确率高的病变检测方法是一项具有挑战的工作。在过去的十年里，机器学习，特别是深度学习已经证明了其可靠的图像分类能力，利用卷积神经网络(CNN)自动提取图片的特征，从而达到自动识别的效果，将此技术应用在糖尿病患者眼底图像检测识别中，不仅可以判断是否有病变，而且随着计算机算力的迅速提高和数据集的不断完善，还可以根据病情的发展进行分级，对提高医生的工作效率和准确率具有重要的现实意义。因此，本发明将注意力机制引入到糖尿病视网膜病变图像检测的技术当中，使CNN更加关注主要特征，抑制不重要的特征，对DR诊断将有一定的辅助。

发明内容

本发明的目的是为了解决关于注意力机制在糖尿病视网膜病变图像检测过程中的应用及研究的不足的问题，而提出一种基于注意力机制的糖尿病视网膜病变图像检测方法。

一种基于注意力机制的糖尿病视网膜病变图像检测方法，所述方法包括如下步骤：

A、眼底图像预处理的步骤；包括数据筛选、数据扩增和数据增强；

B、视网膜血管分割的步骤；包括构建注意力机制模型和训练所构建的模型；

首先，在U-Net网络中加入空间注意力机制，之后，沿着空间维度推断注意力图，并将注意力图与输入特征图相乘以进行自适应特征细化；之后，使用结构化的Dropout卷积块代替U-Net的原始卷积块；

C、眼底图像病变分级的步骤；采用EfficientNet作为Backbone，将网络宽度和网络深度以及图像像素大小进行复合融合，然后得到优化的网络，进行DR病变状况评估；

采用在EfficientNet中加入注意机制，之后，提取通道注意特征图，采用全局平均池化和Sigmoid作为激活函数，之后，通道注意力特征输出作为空间注意模块的特征输入；对于空间注意力，通过学习不同空间的权重去提取特征；对于通道注意力，通过学习通道注意权重，再对不同的DR等级特征进行分类。

优选地，所述的数据扩增和数据增强的操作，具体为：

第一、选用U-Net网络并进行改进，利用U-Net网络结构图形左块提取特征；对于特征提取这个U-Net网络中采用的是多个卷积层叠加、之间使用激活函数和多个池化层相加的方法，对图像特征进行提取，并且在网络模型中加入了非线性变换；本发明使用的激活函数为ReLU，；

对于右半边的网络结构，利用其在上采样的过程中特征的分辨率逐渐被放大，最后在端口输出时拥有和原输入图像相同的尺寸，并且每一次上采样中，都会通过跳跃结构将低层特征信息与高级特征信息在裁剪之后进行相互相拼接，参与拼接的两幅特征图像具有相同的分辨率；

第二、设置空间注意力模块；

对于卷积神经网络，CNN每一层都会输出一个C x H x W的特征图，C就是通道，同时也代表卷积核的数量，亦为特征的数量，H和W就是原始图片经过压缩后的图的高度和宽度，而空间注意力就是对于所有的通道，在二维平面上，对H x W尺寸的特征图学习到一个权重矩阵，对应每个像素都会学习到一个权重；所述的权重代表的就是某个空间位置信息的重要程度，将该空间注意力矩阵附加在原来的特征图上，增大有用的特征，弱化无用特征。

第三、设置PPM金字塔；

采用4种不同金字塔尺度，金字塔池化模块的层数和每层的size可修改，每层的size 分别是1×1,2×2,3×3,6×6；首先，对特征图分别池化到目标size，然后对池化后的结果进行 1×1卷积将channel减少到原来的1/N,这里N就为4；之后，对上一步的每一个特征图利用双线性插值上采样得到原特征图相同的size，之后，将原特征图和上采样得到的特征图按 channel维进行concatenate；得到的channel是原特征图的channel的两倍，最后再用1×1 卷积将channel缩小到原来的channel，最终的特征图和原来的特征图size和channel是一样。

优选地，所述的建注意力机制模型和训练所构建的模型的过程是将WideResnet和Resnet网络的复合，具体为：

将网络宽度和网络深度以及图像像素大小进行一个复合融合，然后得到优化的网络；将EfficientNet用于糖尿病视网膜病变的特征提取网络，计算公式为：

式中，N表示分类网络，

代表卷积操作，X表示输入张量，F表示基础网络层，i表示卷积层数，Li表示网络的深度；该网络通过调整3个维度进行优化，利用最优的3个维度的缩放参数，在满足模型参数和计算量达到最大化时，使模型的准确率有所提高；模型的最大精度记作Accuracy(N(d,w,r))，具体公式如式(3)：

其中，d、w和r分别表示网络深度、宽度和分辨率的倍率；变量α、β、γ的关系为：

α²×β²×γ²≈2，α≥1，β≥1，γ≥1 (4)

通过式(2)-(4)，利用EfficientNet网络进行图像的特征提取，将眼底图像的特征进行多维度融合。

本发明的有益效果为：

本发明所主张的技术内容还针对具体的技术问题进行设计的：

(1)首先，针对数据的不平衡问题进行技术改进：

由于正常眼底图像占大多数、远远超过异常眼底图像，导致极大影响训练效果，所以，首先进行了数据增强，使数据分布更加合理。

(2)同时，由于拍摄环境、设备仪器、拍摄者的年龄性别种族等差异，拍摄到的眼底图像常常会具有不同颜色、不同对比度、不同亮度等特点，所以对图像进行预处理，使得图像更加便于观察和处理。

(3)DR眼底图像检测主要是对视网膜上的硬性渗出物(Hard exudates)进行识别，该硬性渗出在眼底图像中表现为亮黄色的小点(Faint exudates)或团块(Exudatesgroups)，本发明主要对该硬性渗出物进行识别，根据渗出物的面积判断病变等级。

综上，本发明所达到如下的技术效果：

(1)能够在眼底图像背景的低对比度、背景的干扰以及阴影的影响下对原始图像进行处理，简化图像层数，使图像更加易于特征提取，

(2)将不同的注意力机制模型分别应用于视网膜血管分割和DR识别中达到准确分割血管和识别视网膜病变等级的效果。

(3)通过对其算法进行改进及其优化，使其在视网膜分割和DR图像识别度和速度上有进一步提升。

附图说明

图1为本发明方法原理流程图；

图2为本发明涉及的经典U-Net网络结构图；

图3为本发明涉及的空间注意力模块结构图；

图4为本发明涉及的PPM金字塔结构图。

具体实施方式

具体实施方式一：

本实施方式的一种基于注意力机制的糖尿病视网膜病变图像检测方法，如图1所示，所述方法包括如下步骤：

A、眼底图像预处理的步骤；包括数据筛选、数据扩增和数据增强；本发明是对眼底图像进行检测，由于网上公开的数据集在尺寸、对比度、明亮程度参差不齐，难以满足优化网络参数所需要的要求，在训练过程中所形成的算法模型鲁棒性不强，导致检测精度不高的情况发生。为了提高算法模型的鲁棒性、减少过拟合、提升检测精度，将应用多种数据增广方法通过几何变换对眼底图像进行扩充，常用的数据增广方法有：旋转、翻转、平移、尺度变化、随机裁剪、添加噪声等。本发明对数据集进行随机镜像、垂直方向图像随机旋转等处理实行图像增强。数据集增强在一定程度上弥补了数据集样本不足的问题，减少网络的过拟合现象，可得到泛化能力更强的网络，更好地适应应用场景；

首先，在U-Net网络中加入空间注意力机制，这样的轻量级网络不需要数千个带注释的训练样本，并且可以以数据增强的方式更有效地使用可用的带注释的样本。之后，沿着空间维度推断注意力图，并将注意力图与输入特征图相乘以进行自适应特征细化；之后，使用结构化的Dropout卷积块代替U-Net的原始卷积块来防止网络过度拟合；

后期经模型评估和鲁棒性研究，证明本申请设计的模型的效果是有所提升的；

由于注意机制有助于捕捉细粒度的信息，该特点在大多数计算机视觉任务中得到了广泛的应用，包括图像分类，目标定位和语义分等。为了进一步提高DR分级效果，本发明首次采用在EfficientNet中加入注意机制从眼底图像进行DR特征筛选。我们提出了一个融合空间注意力和通道注意力的注意力模块，探索每个DR更具辨别力的区域特征，并平等对待每个类别；为了捕捉更详细的病变信息，之后，提取通道注意特征图，采用全局平均池化和Sigmoid作为激活函数，之后，通道注意力特征输出作为空间注意模块的特征输入；对于空间注意力，通过学习不同空间的权重去提取特征，这样能够增强有用特征和抑制不重要的特征；对于通道注意力，通过学习通道注意权重，再对不同的DR等级特征进行分类，以达到提高准确度的效果；

后期经模型评估研究，证明本申请设计的模型的分级效果是有所提升的。

具体实施方式二：

与具体实施方式一不同的是，本实施方式的一种基于注意力机制的糖尿病视网膜病变图像检测方法，所述的数据扩增和数据增强的操作，具体为：

第一、选用U-Net网络并进行改进，其结构如下图中2所示。由图2中我可看到，整个U-Net网络结构被虚线分为了左右两块。利用U-Net网络结构图形左块为网络模型的编码结构，这块起到了提取特征的作用；对于特征提取这个U-Net网络中采用的是多个卷积层叠加、之间使用激活函数和多个池化层相加的方法，对图像特征进行提取，并且在网络模型中加入了非线性变换；本发明使用的激活函数为ReLU，在与Logistic函数以及 Tanh函数进行比较的情况下，它简单高效，几乎不会产生梯度消失的问题。在一定程度上可以防止网络的过度拟合；

对于右半边的网络结构，称之为解码部分或上采样，利用其在上采样的过程中特征的分辨率逐渐被放大，最后在端口输出时拥有和原输入图像相同的尺寸，并且每一次上采样中，都会通过跳跃结构将低层特征信息与高级特征信息在裁剪之后进行相互相拼接，参与拼接的两幅特征图像具有相同的分辨率；U-Net全卷积神经网络模型是端到端的，对输入图像进行分割后直接通过Softmax层得出分割概率图，医生可以通过这个输出结果直接对病人的病症进行判断，并且提出相应的治疗方案；

第二、设置空间注意力模块；结构图如图3所示；

对于卷积神经网络，CNN每一层都会输出一个C x H x W的特征图，C就是通道，同时也代表卷积核的数量，亦为特征的数量，H和W就是原始图片经过压缩后的图的高度和宽度，而空间注意力就是对于所有的通道，在二维平面上，对H x W尺寸的特征图学习到一个权重矩阵，对应每个像素都会学习到一个权重；所述的权重代表的就是某个空间位置信息的重要程度，将该空间注意力矩阵附加在原来的特征图上，增大有用的特征，弱化无用特征，从而起到特征筛选和增强的效果。

第三、设置PPM金字塔；结构图如图4所示；

金字塔池化模型(PPM-Pyramid pooling module)是以一种特殊的池化模型。通过由多到少的池化，可以有效增大感受野，增大全局信息的利用效率。采用4种不同金字塔尺度，金字塔池化模块的层数和每层的size可修改，每层的size分别是1×1,2×2,3×3,6×6；首先，对特征图分别池化到目标size，然后对池化后的结果进行1×1卷积将channel减少到原来的 1/N,这里N就为4；之后，对上一步的每一个特征图利用双线性插值上采样得到原特征图相同的size，之后，将原特征图和上采样得到的特征图按channel维进行concatenate；得到的channel是原特征图的channel的两倍，最后再用1×1卷积将channel缩小到原来的channel，最终的特征图和原来的特征图size和channel是一样。

具体实施方式三：

与具体实施方式二不同的是，本实施方式的一种基于注意力机制的糖尿病视网膜病变图像检测方法，所述的建注意力机制模型和训练所构建的模型的过程是将WideResnet和 Resnet网络的复合，具体为：

将网络宽度和网络深度以及图像像素大小进行一个复合融合，然后得到优化的网络；卷积神经网络目前的发展一般都是固定资源进行发展，如果计算能力足够，网络还会继续加深。通过研究模型缩放，并平衡网络的深度、宽度和分辨率，这样可以带来更好的性能。基于这一观察结果，使用简单而高效的复合系数来均匀地标度深度/宽度/分辨率的所有维度。并证明了在MobileNets和ResNet方面的有效性。为了更进一步，通过神经结构搜索来设计一个新的基线网络，并将其扩展以获得一系列被称为EfficientNets的模型，这些模型比以往的ConvNets获得了更好的准确性和效率。EfficientNet成功地将网络宽度、深度及提高图像的分辨率通过缩放系数对分类模型进行3个维度的缩放，自适应地优化网络结构。这样在训练过程中，大幅减少了训练参数，降低了计算复杂度。下图说明了Efficient缩放方法与传统方法的区别，本发明将EfficientNet用于糖尿病视网膜病变的特征提取网络，计算公式为：

式中，N表示分类网络，

代表卷积操作，X表示输入张量，F表示基础网络层，i表示卷积层数，Li表示网络的深度；该网络通过调整3个维度(高度H，宽度W，通道数C) 进行优化，利用最优的3个维度的缩放参数，在满足模型参数和计算量达到最大化时，使模型的准确率有所提高；模型的最大精度记作Accuracy(N(d,w,r))，具体公式如式(3)：

其中，d、w和r分别表示网络深度、宽度和分辨率的倍率；这个算式表现为在给定计算内存和效率的约束下，如何优化参数d、w和r来实现最好的模型准确率；变量α、β、γ的关系为：

α²×β²×γ²≈2，α≥1，β≥1，γ≥1 (4)

为了得到能满足式(3)的3个维度参数，使用复合参数甲对网络的深度、宽度以及分辨率进行优化。通过式(2)-(4)，利用EfficientNet网络进行图像的特征提取，将眼底图像的特征进行多维度融合；

直观地说，复合缩放方法是有意义的，因为如果输入图像更大，那么网络需要更多的层来增加接收域，需要更多的通道来捕获更大图像上的更细粒度的模式；事实上，之前的理论和实证结果都表明网络宽度和深度之间存在一定的关系，但据目前现有技术所知，本申请是第一个对网络宽度、深度和分辨率三个维度之间的关系进行实证量化的内容。

设置混合注意力模块：

在CV领域应用更广的还有它们之间的结合，即空间与通道结合的混合域注意力机制。思想也是很简单，通道和空间对网络都有提升作用，那么它们间的有效结合必定会给网络带来更大的促进作用。根据DL任务的不同，它们结合方式也存在区别

本发明方法构建原理：

在医学图像分割领域，U-Net是一个常见的知名骨干网。基本上，U-Net由典型的下采样编码器和上采样组成解码器结构和它们之间的“跳过连接”。它通过结合本地和全局上下文信息编码和解码过程。由于U-Net优秀的性能，使其对视网膜血管分割的性能非常好。我们在U-Net特征提取的最后一层加入PPM，通过由多到少的池化，可以有效的增加感受野。最后，将注意力机制与跳跃连接方式相结合,聚焦目标特征,以解决权重分散问题。通过引入了空间注意力模块，可以增强重要特征和抑制不重要特征，同时也对U-Net模型进行轻量化修改，增加运算速度。

EfficientNet可以将网络宽度、深度及提高图像的分辨率通过缩放系数对分类模型进行 3个维度的缩放，自适应地优化网络结构。这样在训练过程中，大幅减少了训练参数，降低了计算复杂度。对于卷积神经网络，CNN每一层都会输出一个C x H x W的特征图，C就是通道，同时也代表卷积核的数量，亦为特征的数量，H和W就是原始图片经过压缩后的图的高度和宽度，而空间注意力就是对于所有的通道，在二维平面上，对H x W尺寸的特征图学习到一个权重矩阵，对应每个像素都会学习到一个权重。而这些权重代表的就是某个空间位置信息的重要程度，将该空间注意力矩阵附加在原来的特征图上，增大有用的特征，弱化无用特征，从而起到特征筛选和增强的效果。不同于空间注意力，通道域注意力类似于给每个通道上的特征图都施加一个权重，来代表该通道与关键信息的相关度的话，这个权重越大，则表示相关度越高。在神经网络中，越高的维度特征图尺寸越小，通道数越多，通道就代表了整个图像的特征信息。如此多的通道信息，对于神经网络来说，要甄别筛选有用的通道信息是很难的，这时如果用一个通道注意力告诉该网络哪些是重要的，往往能起到很好的效果，在CV领域应用更广的还有它们之间的结合，即空间与通道结合的混合域注意力机制。通道注意力和空间注意力对网络都有提升作用，那么它们的有效结合必定会给网络带来更大的促进作用。

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

1.一种基于注意力机制的糖尿病视网膜病变图像检测方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的一种基于注意力机制的糖尿病视网膜病变图像检测方法，其特征在于：所述的数据扩增和数据增强的操作，具体为：

第二、设置空间注意力模块；

对于卷积神经网络，CNN每一层都会输出一个C x H x W的特征图，C就是通道，同时也代表卷积核的数量，亦为特征的数量，H和W就是原始图片经过压缩后的图的高度和宽度，而空间注意力就是对于所有的通道，在二维平面上，对H x W尺寸的特征图学习到一个权重矩阵，对应每个像素都会学习到一个权重；所述的权重代表的就是某个空间位置信息的重要程度，将该空间注意力矩阵附加在原来的特征图上，增大有用的特征，弱化无用特征；

第三、设置PPM金字塔；

采用4种不同金字塔尺度，金字塔池化模块的层数和每层的size可修改，每层的size分别是1×1,2×2,3×3,6×6；首先，对特征图分别池化到目标size，然后对池化后的结果进行1×1卷积将channel减少到原来的1/N,这里N就为4；之后，对上一步的每一个特征图利用双线性插值上采样得到原特征图相同的size，之后，将原特征图和上采样得到的特征图按channel维进行concatenate；得到的channel是原特征图的channel的两倍，最后再用1×1卷积将channel缩小到原来的channel，最终的特征图和原来的特征图的size和channel是一样。

3.根据权利要求2所述的一种基于注意力机制的糖尿病视网膜病变图像检测方法，其特征在于：所述的建注意力机制模型和训练所构建的模型的过程是将WideResnet和Resnet网络的复合，具体为：

式中，N表示分类网络，

α²×p²×γ²≈2，α≥1，β≥1，γ≥1 (4)