CN114266757A

CN114266757A - 一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法

Info

Publication number: CN114266757A
Application number: CN202111606103.9A
Authority: CN
Inventors: 王丹; 刘思禹; 赵青; 赵文兵
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-12-25
Filing date: 2021-12-25
Publication date: 2022-04-01

Abstract

一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法属于计算机软件领域，针对目前无法提取不同尺度病灶特征且难以关注重要病灶导致分级任务准确率低下的弊端。首先，使用具有不同卷积核大小的过滤器从眼底图像中提取特征，并给不同尺度的特征赋予不同的权重，使得深度学习网络可以学习并选择不同尺度的特征，以提高网络对于不同类型和尺寸病灶的识别能力。同时，融合不同尺度的特征，并使用融合了空间和通道信息的注意力机制对融合后的特征进行权重分配，以加强对高价值特征的选择，从而抑制其他无用特征，以此来提高分级准确率。本发明可以有效地提高对糖尿病性视网膜病变的分级准确率。

Description

一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法

技术领域

本发明属于计算机软件领域，尤其涉及一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法。

背景技术

糖尿病性视网膜病变是一类常见的疾病，它包括微动脉瘤、出血、软性和硬性渗出，根据病灶的数量、大小等特征，可将糖尿病性视网膜病变分为五个等级，包括0级-无病变、1级-轻度病变、2级-中度病变、3级-重度病变和4级-增值性病变。对糖尿病性视网膜病变的自动化分级一直是深度学习领域的热点研究课题。然而，目前已有的方法有以下不足：第一，无法提取不同尺度的病灶信息；第二，无法给予重要病灶区域更多的关注。这使得目前基于深度学习的糖尿病性视网膜病变分级方法准确率不高且鲁棒性不强。

发明内容

有鉴于此，本发明的目的是提出一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法。该方法不仅可以从多尺度提取病灶信息，同时还能够关注重要病灶，从而提高分级准确性和鲁棒性。

为达到以上发明目的，经过研究讨论和反复实践，本方法最终确定包括以下步骤：

步骤1.构建训练集，并对其中的图像进行预处理；

步骤2.构建卷积模块ISK-Block：使用Pytorch框架编写基于多尺度融合注意力机制的卷积层模块，其中使用了不同大小的卷积核对图片进行多尺度特征提取并融合成新的特征图，然后通过改进的融合注意力机制提取不同尺度特征图对应的融合空间和通道注意力的注意力权值矩阵。最后通过多尺度选择框架计算不同尺度特征所占权重，结合注意力权值矩阵按权重将多尺度特征图进行融合，获取最终的融合特征图。

步骤3.构建网络：将不同数量的ISK-Block模块串联起来，并拼接上全连接层，映射到5个类别，形成完整的网络结构。经实验，可选的数量包括18，50，101。

步骤4.训练模型：将步骤1中处理好的数据输入步骤3中构建的网络进行训练。

步骤5.将训练好的模型对测试集进行判别，得到糖尿病性视网膜病变分类结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面对实施例描述中所使用的附图加以简单地介绍。

图1基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法流程图

图2基于多尺度融合注意力机制的卷积模块ISK-Block的结构图

具体实施方式

本发明针对糖尿病性视网膜病变分级方法中无法提取多尺度特征、无法关注重要病灶导致准确率不高的问题，将多尺度特征提取和改进的融合注意力机制相结合，提出了一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法。

本发明中的重点为改进的卷积神经网络模块ISK-Block。该模块首先采用不同大小的卷积核对同一个特征图进行卷积操作，不同的卷积核大小意味着不同大小的感受野，即不同的尺度，将提取的不同尺度的特征图进行融合。然后对融合后的新特征图使用改进的融合注意力机制进行注意力计算，改进的融合注意力机制能够同时聚合通道和空间上的注意力，计算出重要特征的通道和空间位置，给予不同的权重，并用该权重重新为不同尺度的特征图进行加权。最后对加权后的不同尺度的特征图进行Softmax操作，给予不同尺的特征图不同的权重，并根据该权重将不同尺度的特征图融合成为新的特征图。

ISK-Block能够便捷的组成新的网络，具体来说，可以使用18、50或101个ISK-Block进行串联，拼接上全连接层将网络输出映射到多个类别，构成不同深度的完整网络结构。

图1可以描述本发明的几个步骤，具体说明如下。

步骤一：为了更好的训练网络，提高网络性能和效率，需要先对输入的眼底图片进行预处理。首先将图片中的黑色背景去除，防止其对网络的学习过程造成影响。然后将所有图片随机裁剪成224像素*224像素大小。最后，为了提高网络的计算效率，还需要将图片转成单通道灰度图像。

步骤二：使用Pytorch框架构建ISK-Block。图2为ISK-Block的网络结构。

(1)设表示通道数为C、长为H、宽为W的特征图的张量

为任意一层网络的输出，记为

首先对

进行多尺度特征提取，分别采用3*3和5*5卷积核对

进行卷积操作，即从两个不同尺度进行特征提取。记两个尺度分别为尺度a，尺度b，提取的特征图分别记为U^a、U^b。将U^a、U^b通过矩阵相加融合成为新的特征图U，此时U中包含了多尺度上的特征信息。计算方式如下：

U＝U^a+U^b

(2)然后对U做融合特征提取，首先对U在不同的通道维度，沿特征图的高H方向和宽W方向分别进行融合特征提取。公式如下：

其中

分别为表示在通道c的特征图的h高度和w宽度上的融合特征的张量。ap是平均池化操作，F_ap表示平均池化所对应的映射。

分别表示融合特征图U在通道c上的h高度和w宽度上的所有像素值组成的向量。U_c(i,j)表示融合特征图U在通道c上位置为(i,j)的像素的值。S_H为表示所有通道上H方向的融合信息的张量，大小为C*H，S_W为表示所有通道上W方向上的融合信息的张量，其张量大小为C*W。

(3)为方便后续计算，将S_H和S_W进行拼接后得到融合位置信息和通道信息的融合特征张量S，公式如下：

S＝[S_H,S_W],S∈R^C,N,N＝H+W

其中[,]表示拼接操作，S为一个C*N的张量，N为H和W的和。

(4)接下来，对S进行注意力计算。具体来说，先使用一个全连接层fc将S从C*N维度降维到d*N维度，记降维后的张量为Z，其中Z∈R^d,N，d是一个可变参数，用来控制Z的维度，d＝max(C/16,32)，max表示取最大数操作。降维过程可用如下公式表示：

其中，

表示全连接层fc所对应的映射关系，

表示全连接层fc的参数矩阵，

表示批标准化操作(Batch Normalize)，δ表示非线性操作ReLu。

将S从C*N维度降维到d*N维度，这样可以在不损失太多精度的情况下提高计算效率。

(5)融合位置信息和通道信息的注意力主要是通过Z来指导的。具体来说，对于从a尺度中提取的特征图U^a，首先使用1*1卷积核组成的卷积层将Z重新升维成C*N维的张量，并通过Sigmod激活函数激活，得到注意力权值矩阵ψ^a,其公式如下：

其中ψ^a∈R^C,N，

表示U^a对应的1*1卷积层对应的映射关系，W^a表示1*1卷积层的参数矩阵，W^a∈R^d,N,C,N，σ表示Sigmoid激活函数。

为了后续分别对H高度和W宽度上的权值分别计算，需将ψ^a分割为两部分

和

分别代表特征图U^a在不同通道上H方向的权值矩阵和W方向上的权值矩阵，其中

它描述了特征图U^a在不同通道上H方向或W方向上的特征的重要性。

对于b尺度上的特征图，其注意力权值矩阵ψ^b计算公式如下:

与特征图U^a相同，

表示U^b对应的1*1卷积层对应的映射关系，特征图U^b在不同通道上H方向的权值矩阵和W方向上的权值矩阵分别为

由ψ^b∈R^C,N分割而成。

(6)最后为了对不同尺度上的特征给予不同的权重，使用Softmax来计算不同尺度上的特征所占比重，得到最终的权值矩阵。尺度a和尺度b在通道c上h高度和w高度对应的权重分别为

和

计算方式如下：

其中exp表示以自然常数e为底的指数函数，

表示张量

第c行第h列的值，

表示张量

第c行第w列的值，

表示张量

第c行第h列的值，

表示张量

第c行第w列的值。

用

分别表示尺度a在通道c上所有高度和宽度上对应的

组成的最终权值向量，用

分别表示尺度b在通道c上所有高度和宽度上对应的

组成的最终权值向量，其中

它们描述了不同尺度的特征图在c通道上不同方向上的特征的重要性。

(7)最后，使用最终得到的权值矩阵，对不同尺度的特征图进行加权并融合成为输出特征图V。具体来说，对于V的c通道，其计算方法如下：

其中

表示特征图U^a、U^b在c通道上任一像素点的值，

表示权值向量

的第i个元素的值，

表示权值向量

的第j个元素的值。

步骤三，使用不同数量的ISK-Block拼接成完整网络结构，经试验，有效的数量有18、50、101，最后使用全连接层将最终输出的特征图映射到糖尿病性视网膜病变的五个等级上。

步骤四，使用交叉熵函数作为损失函数，使用收敛速度快的Adam作为优化器，学习率为1*10-3，批次大小为64，对网络中的各参数进行随机赋值。通过早停法优化网络，当网络在验证集上的损失趋于平缓时，停止训练，保存网络参数。具体来说，当训练在50次迭代中，网络在验证集上的损失上下浮动不超过5％时，视为趋于平缓。

步骤五，使用训练出的模型对测试集图片进行预测。

综上所述，本发明提出的糖尿病性视网膜病变分级方法，能够提高视网膜病变区域不同尺度病灶的提取能力，并关注重要病灶，从而提升网络分级的准确性。

下表是本发明提出的分级方法在公开数据集Kaggle Eyepacs和Messidor-1上的全局准确率，其准确率超过了前人提出方法的准确率。

尽管已经出示和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和改变，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法，其特征在于，包含如下步骤：

S1、获取数据集，下载公开的Kaggle EyePacs数据集，其中包含了不同程度糖尿病性视网膜病变的眼底图像；

S2、构建训练集，将数据集按照8：2的比例分割为训练集和验证集；

S3、对图像进行预处理操作，首先将眼底图片中的黑色背景去除，然后将所有图片随机裁剪成224像素*224像素大小，最后将所有图片转成单通道灰度图像；

S4、针对糖尿病性视网膜病变的多级分类任务，建立一种基于改进的多尺度融合注意力模块ISK-Block；

S5、使用不同数量的ISK-Block构建完整的深度卷积神经网络，并拼接上全连接层，将网络输出的特征图映射到糖尿病性视网膜病变的五个等级；

S6、使用构建的深度卷积神经网络在训练集上训练网络模型，训练时按照设定的学习率调整所述深度卷积神经网络的参数，从而得到针对糖尿病性视网膜多级分类任务的网络模型。

2.根据权利要求1所述的一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法，其特征在于，步骤S1中获取的眼底图像数据集，按照病患糖尿病性视网膜病变的严重程度，划分为0级-无病变、1级-轻度病变、2级-中度病变、3级-重度病变、4-级增值性病变五个等级。

3.根据权利要求1所述的一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法，其特征在于，步骤S2中，在按照8：2比例对数据集进行分割之前，需要对数据集中的图像进行翻转、旋转操作。

4.根据权利要求1所述的一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法，其特征在于，步骤S4所述ISK-Block模块首先对输入的通道数为C、高度为H、宽度为W的特征图进行多尺度特征提取，分别使用3*3和5*5的卷积核分别对特征图进行卷积操作，然后将卷积后获得的不同尺度的特征图进行矩阵相加，获得融合后的特征图；然后对融合后的特征图高度方向和宽度方向上的特征使用平均池化操作进行融合提取，并将提取后的特征张量拼接成融合了通道和空间特征的融合特征张量；接着对融合特征张量使用两个卷积层进行注意力计算，获得不同尺度所对应的注意力权值矩阵，并分别拆分成不同通道的高H方向和宽W方向上所对应的注意力权值矩阵；最后将两个不同尺度所对应的注意力权值矩阵按元素进行Softmax操作，获取不同尺度上的特征对应的权重矩阵，并使用该权重矩阵对不同尺度特征进行加权，并融合成为最终的输出特征图。

5.根据权利要求4所述的一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法，其特征在于，ISK-Block模块中对不同尺度提取的特征图进行融合，其特征在于，对于尺度a提取的特征图U^a和尺度b提取的特征图U^b，融合的特征图U的计算方式如下：

U＝U^a+U^b。

6.根据权利要求4所述的一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法，其特征在于，ISK-Block模块中对融合特征向量使用两个卷积层进行注意力计算，其特征在于，对于融合特征向量S，首先使用一个包含全连接层、批标准化操作、非线性ReLu操作的完整卷积层，将S从C*(H+W)维度降维到d*(H+W)维度的Z，其中d是一个可变参数，用来控制Z的维度，d＝max(C/16，32)，max表示取最大数操作；其公式表示为：

其中，Z∈R^d，H+W，

表示全连接层所对应的映射关系，

表示全连接层的参数矩阵，

表示批标准化操作(Batch Normalize)，δ表示非线性操作ReLu；

然后对于不同尺度，分别使用一个由1*1卷积核组成的卷积层对Z从d*(H+W)维度升维到C*(H+W)维度，并通过Sigmoid激活函数激活，获得该尺度对应的注意力权值矩阵ψ，其计算公式如下：

ψ＝σ(F(Z))＝σ(WZ)

其中ψ∈R^C，H+W，F表示该尺度对应的1*1卷积核组成的卷积层所对应的映射，W表示卷积层对应的参数，W∈R^{d，H+W，C，H+W}，σ表示Sigmoid激活函数；

最后将ψ分割成H方向上和W方向上所对应的注意力权值矩阵ψ_H∈R^C，H，ψ_W∈R^C，W。

7.根据权利要求4所述的一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法，其特征在于，ISK-Block模块中对两个不同尺度所对应的注意力权值矩阵按元素进行Softmax操作，其特征在于，对于a尺度所对应的H方向上和W方向上的注意力矩阵

和b尺度所对应的H方向上和W方向的注意力矩阵

分别将

与

按元素做Softmax操作，

与

按元素做Softmax操作，得到不同尺度在H方向上和W方向上所对应的最终的权重向量；尺度a和尺度b在通道c上h高度和w高度对应的权重分别为

和

计算方式如下：

其中exp表示以自然常数e为底的指数函数，

表示张量

第c行第h列的值，

表示张量

第c行第w列的值，

表示张量

第c行第h列的值，

表示张量

第c行第w列的值；

用

分别表示尺度a在通道c上所有高度和宽度上对应的

组成的最终权值向量，用

分别表示尺度b在通道c上所有高度和宽度上对应的

组成的最终权值向量，其中

8.根据权利要求4所述的一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法，其特征在于，ISK-Block模块中使用权重矩阵对不同尺度特征进行加权，并融合成为最终的输出特征图，其特征在于，对于最终特征图V的c通道，其计算方式如下：

其中

表示特征图U^a、U^b在c通道上任一像素点的值，

表示权值向量

的第i个数的值，

表示权值向量

的第j个元素的值。

9.根据权利要求1所述的一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法，其特征在于，步骤S5中构建完整的深度卷积神经网络，其可用ISK-Block的数量，随网络深度增加，可选数量为18、50、101；该深度卷积神经网络使用交叉熵作为损失函数，使用Adam作为优化器。

10.根据权利要求1所述的一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法，其特征在于，步骤S6中训练深度卷积神经网络时，网络中的参数设为随机数，学习率为1*10-3，批次大小为64，通过早停法优化网络，当网络在验证集上的损失趋于平缓时，停止训练，保存网络参数；当训练在50次以上迭代，网络在验证集上的损失上下浮动不超过5％时，视为趋于平缓。