CN115908241A

CN115908241A - 一种基于UNet和Transformer相融合的视网膜血管分割方法

Info

Publication number: CN115908241A
Application number: CN202211126578.2A
Authority: CN
Inventors: 邹洋; 胡鑫; 吴甲明
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2023-04-04

Abstract

本发明属于计算机视觉的医学图像分割领域，具体涉及一种基于UNet和Transformer相融合的视网膜血管分割方法，具有这样的特征，包括以下步骤：步骤1，将待训练图像进行预处理获得预处理图像；步骤2，将预处理图像输入到基于UNet和Transformer相融合的视网膜血管分割模型中得到权重文件，该模型包括编码器、解码器以及融合注意力机制，所述编码器包括多流级联的卷积层、多个池化层和多个残差模块，每一个卷积层都使用残差模块，池化层设在两个卷积层单元之间；所述解码器包括级联的多个改进的基于扩展卷积的残差模块、多个上采样模块以及反卷积层，上采样模块设在两个相邻的改进的基于扩展卷积的残差单元之间；所述融合注意力机制将编码器中池化层的输出以及相邻流池化层的输出分别作为低层特征输入和高层特征输入，在第三层的融合注意力机制的高层特征输入是对应编码器池化层经过Transformer模块形成的特征图；步骤3，加载权重文件，将测试的眼底图像输入到模型中得出视网膜血管分割结果。此外，本发明的视网膜血管分割模型对细小血管较敏感，提高了分割的精度。

Description

一种基于UNet和Transformer相融合的视网膜血管分割方法

技术领域

本发明属于计算机视觉的医学图像分割领域，具体涉及一种基于UNet和Transformer相融合的视网膜血管分割方法。

背景技术

随着我国的快速发展，人民生活水平不断提高，人们使用电子设备的时间较长，长时间使用电子设备易导致眼睛衰弱，所以眼科医学的发展越来越受到大众们更多的关注。在人类的所有器官中，眼睛是接收信息最多的器官。眼睛的健康状况对人们的日常生活有很大影响，由于年龄增长和日常生活中使用眼睛的坏习惯容易导致眼部病变。通过对拍摄的眼底图像中存在患病区域进行详细的筛选，然后眼科医生根据自己的经验做出诊断，然后对患者的病情进行评估并给出相应的治疗措施。医生对眼底图像进行手动分割视网膜血管不仅费时费力，而且还不能保证分割的准确性，因此，使用计算机视网膜血管自动分割技术自动分析眼底图像，以及精确分割视网膜血管，对疾病的分析和诊断具有重要意义。

现有的视网膜血管分割和疾病分析方法共分为四个主要的类别：(1)基于数字图像处理的分割方法，这种方法通常需要设计者拥有丰富的血管分割知识，设计者根据自己的专业知识，设计一个模板，这个模板主要是利用血管的相关形态来提取视网膜血管特征，例如纹理、颜色、对比度等，能够直接将提取的特征作为分割结果；(2)基于监督学习的方法，这类方法利用需要标注的视网膜血管图像数据，需要利用研究人员针对视网膜血管特征设计特定模板来提取特征，然后选用机器学习模型对提取到的特征进行分类。机器学习模型比起传统方法有一些优势，比如研究者不需要拥有丰富的血管知识，而且设计模型的泛化性能更好，在不同的血管分割数据集上都有不错的效果；(3)基于深度神经网络的分割方法，深度学习的分割方法不像前两种方法需要人工设计模板算子提取特征，神经网络能够自动学习提取视网膜血管特征并且对其进行分类，因此这类方法相比前两种方法相对简单，模型的泛化能力好。深度学习方法是需要大量标注数据，利用深度神经网络模型，可以直接建立进行端到端的分类，输入眼球血管图像，输出分割后的结果图。(4)在视网膜眼底图像的分割基础上，研究学者们基于深度神经网络模型，对视网膜血管的形态特征进行定量定性分析眼底图像中特征、纹理、颜色、数值、形态等因素之间的关联，并对血栓病情进行预测，医生根据预测结果进行紧急和非紧急处理，使得医疗资源得到充分利用，从而辅助全身性系统疾病的临床诊断、评估和追踪管理

发明内容

本发明主要解决的技术问题在于，针对卷积神经网络特征提取结构通过层层叠加而不能直接提取全局特征导致细小血管不连续问题，以及Transformer结构过分关注所有阶段的全局上下文建模，从而导致低分辨率特征缺乏详细的定位信息，而这种信息不能通过直接上采样到全分辨率来恢复等问题，提供一种基于UNet和Transformer相融合的视网膜血管分割方法。

本发明提供基于UNet和Transformer相融合的视网膜血管分割方法，具有这样的特征，包括以下步骤：步骤1，将待训练图像进行预处理获得预处理图像，该预处理方法包括数据处理以及数据增强，所述数据处理包括将彩色眼底图像进行直方图均衡化均匀分布像素级灰度级，提高对比度；图像平滑用来使图像亮度平缓渐变，减小突变梯度，改善图像质量；灰度转换按一定变换关系改变每一个像素灰度值，使图像显示更加清晰；匀光处理消除图像中光照不均带来的影响；所述数据增强包括对数据集中随机截取适量的切片，为了增加图像的数量，让样本充满多样性，减小过拟合，采用了旋转、平移以及弹性变换等技术，使数据集的数据扩充；步骤2，将预处理图像输入到基于UNet和Transformer相融合的视网膜血管分割模型中得到权重文件，该模型包括编码器、解码器以及融合注意力机制，所述编码器包括多流级联的卷积层、多个池化层和多个残差模块，每一个卷积层都使用残差模块，池化层设在两个卷积层单元之间；所述解码器包括级联的多个改进的基于扩展卷积的残差模块、多个上采样模块以及反卷积层，上采样模块设在两个相邻的改进的基于扩展卷积的残差单元之间；所述融合注意力机制将编码器中池化层的输出以及相邻流池化层的输出分别作为低层特征输入和高层特征输入，在第三层的融合注意力机制的高层特征输入是对应编码器池化层经过Transformer模块形成的特征图；步骤3，加载权重文件，将测试的眼底图像输入到模型中得出视网膜血管分割结果。

本发明提供的基于UNet和Transformer相融合的视网膜血管分割方法中，还可以具有这样的特征：其中卷积神经网络用于提供特征金字塔，Transformer网络用于提取细节信息，UNet网络用于级联各项异性。

本发明提供的基于UNet和Transformer相融合的视网膜血管分割方法中，还可以具有这样的特征：其中卷积层，用于对输入基于UNet和Transformer相融合的视网膜血管分割模型的图像的每一个特征进行局部感知；

池化层，用于对卷积层处理后得到的特征进行降维处理，以及对数据和参数的数据量进行压缩；池化层可以减小过拟合，同时提高模型的容错性；

改进的基于扩展卷积的残差模块，用于丰富高层特征中包含的语音信息，同时低层次的细节特征补偿到较高层次的语义特征中，优化分割结果；

反卷积层，用于增大改进的基于扩展卷积的卷积模块的输出矩阵维度。

进一步的，多流级联的多层卷积类操作中的每流每层输出分别与同流后续层直接连接，卷积层单元的任意一层采用残差模块替换标准的UNet编码块，残差模块可以有效地防止训练阶段的梯度消失，多流级联下的卷积类操作的输出表示为：

H(x)＝{h^l(x,K,θ)|h^l(x,K,θ_k)＝r(h^l(x,k-1,θ_k-1)),l＝1,2,…,L}

其中，H(x)表示不同编码路径中一系列网络操作的集合；h^l(x,K,θ)表示第l层编码流，K表示连续特征块，θ表示可学习权重；r表示每个特征块上的残差操作，包括池化层；

表示在原始输入图像x上的标准归一化函数；L表示路径流总数，在实验中设置为4。

进一步的，改进的基于扩展卷积的残差模块的输出表示为：

y_i＝f_BN+ReLU(f_C3(x_i+DRF(x_i))；

其中，y_i表示第i层改进的基于扩展卷积的残差模块的输出；f_BN+ReLU(■)表示依次进行批归一化操作和ReLU激活函数操作；f_C3(■)表示3×3的卷积操作；x_i表示为第i层改进的基于扩展卷积的残差模块的输入；DRF(■)表示改进的基于扩展卷积的残差模块结构。

进一步的，改进的基于扩展卷积的残差模块结构DRF(■)表示为：

DRF(x_i)＝f_BN+ReLU(f_C(f_BN+ReLU(f_C(x_i))×f_BN+ReLU(f_C3(x_i))×IRCB(x_i)))；

其中，f_C表示1×1的卷积操作；IRCB(■)表示扩展卷积模块结构。

进一步的，扩展卷积模块结构IRCB(■)表示为：

IRCB(x_i)＝f_BN+ReLU(f_C(x_i))+f_BN+ReLU(f_C3+r3(f_BN+ReLU(f_C(x_i))))；

其中，f_C3+r3(■)表示扩展率为3的空洞卷积。

进一步的，融合注意力机制的输出表示为：

Fⁱ＝uⁱ+uⁱ⊙αⁱ；

其中，Fⁱ表示在第i层融合注意力机制的输出，用残差的方式将注意力特征αⁱ和原来特征uⁱ统一在一起。

uⁱ＝C([eⁱ,S(F^i-1)])；

其中，uⁱ表示第i层融合注意力机制中的原来特征；C(■)表示一个卷积内核；S(■)表示一个上采样操作；[]表示对应的Concat操作；eⁱ和F^i-1分别表示来自第i层编码器和前一个融合模块的结果；

sⁱ＝P_avg(f_ReLU(f_BN(uⁱ)))；

其中，sⁱ表示第i层融合注意力机制中的中间特征；P_avg(■)表示全局平均池化操作；f_ReLU(■)表示ReLU激活函数操作；f_BN(■)表示批归一化操作；

αⁱ＝σ(f_C(f_ReLU(f_C(sⁱ))))；

其中，αⁱ表示第i层融合注意力机制中的注意力特征；σ(■)表示Sigmoid激活函数操作；f_C(■)表示1×1的卷积操作；

进一步的，Transformer模块得到的是来源于多流级联的多层卷积神经网络下采样之后的特征图结果，对特征图进行固定大小的切片处理，嵌入位置向量，如下所示：

其中，P表示切片的尺寸；N表示切片的数量；

其中，z₀表示为嵌入位置向量的结果；

表示第一个特征图切片结果；E_pos表示位置向量。

Transformer模块由L层多头注意力机制和多层感知器模块组成，多头注意力机制有两种不同划分处理方式，包括WMSA模块和SWMSA模块，其中WMSA模块是基于规则窗口的自注意模块，例如，前一个模块的结果是8×8特征图，从左上角的像素开始均匀划分成4个窗口大小为4×4的窗口，然后进行注意力处理；其中SWMSA模块是基于跨窗口的自注意模块，例如前一个模块的结果是8×8特征图，从左上角的像素开始先进行小于窗口大小划分操作，然后在进行窗口大小划分操作，当分别取2，取4时，划分成4个窗口大小为2×2的窗口、2个窗口大小为2×4的窗口、2个窗口大小为4×2的窗口以及1个窗口大小为4×4的窗口，然后对特征图进行移位，然后进行注意力处理，然后在设置自注意力后再次移位恢复以便后面紧跟WMSA模块，这样引入了相邻窗口之间的连接关系，提高了建模能力。因此WMSA模块和SWMSA模块交替使用，所述Transformer模块连续两层的输出为如下形式：

其中，

和z^l分别表示第l层的WMSA模块和MLP模块的特征输出；

和z^l+1分别表示第l+1层的SWMSA模块和MLP模块的特征输出；SWMSA模块表示对特征图进行移位，在设置自注意力后再次移位恢复；LN(■)代表LayerNorm层归一化操作。

与现有其他模型对比，本发明针对卷积神经网络特征提取结构通过层层叠加而不能直接提取全局特征导致细小血管不连续问题，以及Transformer结构过分关注所有阶段的全局上下文建模，从而导致低分辨率特征缺乏详细的定位信息，而这种信息不能通过直接上采样到全分辨率来恢复等问题，提供一种基于UNet和Transformer相融合的视网膜血管分割模型具有对细小血管敏感，分割精度良好的优点，其中：多流级联的卷积层构建的模块可以在每个路径上学习低级结构特征和高级语义特征，将这些不同的特征作为一个丰富的信息源，传递给融合模块，控制了低层次结构特征和高级语义特征之间的层间依赖性；级联的多个改进的基于扩展卷积的残差模块保存更多有用的空间信息，每个卷积层之后都是批处理归一化和ReLU激活，以缓解过拟合；融合注意力机制中的Transformer模块提高全局上下文建模信息，弥补了UNet网络对边缘信息和全局信息提取不足的缺点。

附图说明

图1为本发明构建的基于UNet和Transformer相融合的视网膜血管分割方法的流程图；

图2为本发明构建的基于UNet和Transformer相融合的视网膜血管分割模型整体结构图；

图3为本发明中的改进的基于扩展卷积的残差模块结构示意图；

图4为本发明中的融合注意力机制结构示意图；

图5为本发明中的两个连续的WMSA模块和SWMSA模块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供基于UNet和Transformer相融合的视网膜血管分割方法，具有这样的特征，如图1所示包括以下步骤：步骤1，将待训练图像进行预处理获得预处理图像，该预处理方法包括数据处理以及数据增强，所述数据处理包括将彩色眼底图像进行直方图均衡化均匀分布像素级灰度级，提高对比度；图像平滑用来使图像亮度平缓渐变，减小突变梯度，改善图像质量；灰度转换按一定变换关系改变每一个像素灰度值，使图像显示更加清晰；匀光处理消除图像中光照不均带来的影响；所述数据增强包括对数据集中随机截取适量的切片，为了增加图像的数量，让样本充满多样性，减小过拟合，采用了旋转、平移以及弹性变换等技术，使数据集的数据扩充；步骤2，将预处理图像输入到基于UNet和Transformer相融合的视网膜血管分割模型中得到权重文件，该模型包括编码器、解码器以及融合注意力机制，所述编码器包括多流级联的卷积层、多个池化层和多个残差模块，每一个卷积层都使用残差模块，池化层设在两个卷积层单元之间；所述解码器包括级联的多个改进的基于扩展卷积的残差模块、多个上采样模块以及反卷积层，上采样模块设在两个相邻的改进的基于扩展卷积的残差单元之间；所述融合注意力机制将编码器中池化层的输出以及相邻流池化层的输出分别作为低层特征输入和高层特征输入，在第三层的融合注意力机制的高层特征输入是对应编码器池化层经过Transformer模块形成的特征图；步骤3，加载权重文件，将测试的眼底图像输入到模型中得出视网膜血管分割结果。

针对卷积神经网络特征提取结构通过层层叠加而不能直接提取全局特征导致细小血管不连续问题，以及Transformer结构过分关注所有阶段的全局上下文建模，从而导致低分辨率特征缺乏详细的定位信息，而这种信息不能通过直接上采样到全分辨率来恢复等问题，本发明在现有的UNet分割网络上进行改进，构建了一种基于UNet和Transformer相融合的视网膜血管分割模型。在经典的编码器-解码器的分割方法中，编码器结构和解码器结构对称分布，同一层级的编码器与解码器之间跳跃连接。本发明在此基础上引入残差网络和Transformer结构，如图2所示，首先对输入的数据使用卷积操作提取特征，编码器使用多流级联的卷积层操作，且每一个卷积层都使用残差模块，池化层设在两个卷积层单元之间；解码器包括级联的多个改进的基于扩展卷积的残差模块，如图3所示，相比传统的基于初始块的方法，提取图像的深层特征可以保存更多有用的空间信息，其中每个卷积层之后使用批处理归一化和ReLU激活操作，缓解过拟合；如图4所示，将编码器相邻两个流的信息嵌入到融合注意力机制中，让构建的网络模型自动为不同的特征赋予不同的权重，使模型关注血管信息的特征而抑制其他无关的特征，提高模型的分割精度；如图5所示，对编码器中的多流级联的多层卷积神经网络下采样之后的特征图进行固定大小的切片处理，嵌入位置向量，使用Transformer网络结构操作，更好的融合全局上下文信息，排除冗余信息。

本发明提出的多流级联的多层卷积模块用于U型网络中的编码器阶段。多流级联的多层卷积模块中通过级联操作使得同一流中每一层直接连接下一层，卷积层单元的任意一层采用残差模块替换标准的UNet编码块，残差模块可以有效地防止训练阶段的梯度消失，多流编码器的输出表示为：

H(x)＝{h^l(x,K,θ)|h^l(x,K,θ_k)＝r(h^l(x,k-1,θ_k-1)),l＝1,2,…,L}

本发明提出的改进的基于扩展卷积的残差模块用于U型网络中的解码器阶段，残差思想的引入一方面简化了网络训练，缓解由于加深网络层数造成的梯度消失问题，另一方面在残差网络中使用跳跃连接，容易得到更多的语义信息，同时低层次的细节特征补偿到较高层次的语义特征中，优化分割结果。如图3所示，将融合注意力机制模块的输出以及编码器上采样层的输出分别作为低层特征输入和高层特征输入，进行Concat连接操作，在进入三个级联分支，其中两条平行的增强包含一个1×1和3×3的卷积层，在第三个分支中使用扩展卷积，然后连接三条并行路径的输出，再采用1×1的卷积，然后使用残差的方式将级联特征和原来特征统一在一起，最后采用3×3的卷积层来减小特征维数。改进的基于扩展卷积的残差模块的输出表示为：

y_i＝f_BN+ReLU(f_C3(x_i+DRF(x_i))；

进一步的，扩展卷积模块结构IRCB(■)表示为：

IRCB(x_i)＝f_BN+ReLU(f_C(x_i))+f_BN+ReLU(f_C3+r3(f_BN+ReLU(f_C(x_i))))；

其中，f_C3+r3(■)表示扩展率为3的空洞卷积。

本发明提出的融合注意力机制模块用于U型网络中的跳跃连接阶段，将编码器中池化层的输出以及相邻流池化层的输出分别作为低层特征输入和高层特征输入，在第三层的融合注意力机制的高层特征输入是对应编码器池化层经过Transformer模块形成的特征图。如图4所示，在第一层卷积操作之后使用BN和ReLU函数，再采用全局平均池化操作来聚合空间信息，再下一层卷积操作后使用BN函数，再下一层卷积操作之后使用Sigmoid函数，从而实现眼底图像中血管信息的上下文聚焦，排除冗余信息，再使用残差的方式将注意特征和原来特征统一在一起，自适应地引导分割。进一步的，融合注意力机制的输出表示为：

Fⁱ＝uⁱ+uⁱ⊙αⁱ；

uⁱ＝C([eⁱ,S(F^i-1)])；

sⁱ＝P_avg(f_ReLU(f_BN(uⁱ)))；

αⁱ＝σ(f_C(f_ReLU(f_C(sⁱ))))；

其中，P表示切片的尺寸；N表示切片的数量；

其中，z₀表示为嵌入位置向量的结果；

表示第一个特征图切片结果；E_pos表示位置向量。

其中，

和z^l分别表示第l层的WMSA模块和MLP模块的特征输出；

本发明的实施例提供的基于UNet和Transformer的相融合的视网膜血管分割方法，采用了有别于传统的医学图像分割策略，将Transformer与传统卷积神经网络UNet相结合，让UNet框架提供了一条提取低级视觉线索的途径，弥补了Transformer本身不能很好处理细小血管的问题；同时Transformer的应用又弥补了UNet网络对边缘信息和全局信息提取不足的缺点。此外，若使用纯Transformer模块作为编码器，由于Transformer模块将输入视为序列，并且过分关注所有阶段的全局上下文建模信息，导致低分辨率特征缺乏详细的位置信息，因此使用级联的多流的卷积神经网络作为特征提取器，为Transformer模块和融合注意力机制模块输入生成特征图。另一方面，卷积神经网络架构(例如UNet)提供了一条提取低级视觉线索的途径，可以很好地弥补这种细小的空间位置信息。最后，根据本实施例的基于UNet和Transformer相融合的视网膜血管分割方法，使用卷积神经网络用于提供特征金字塔，Transformer网络用于提取细节信息，UNet网络用于级联各项异性，以实现精确定位，从而更密集地结合低层特征，实现更好的分割精度。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于UNet和Transformer相融合的视网膜血管分割方法，其特征在于，构建基于UNet和Transformer相融合的视网膜血管分割模型，该模型包括编码器、解码器以及融合注意力机制，所述编码器包括多流级联的卷积层、多个池化层和多个残差模块，每一个卷积层都使用残差模块，池化层设在两个卷积层单元之间；所述解码器包括级联的多个改进的基于扩展卷积的残差模块、多个上采样模块以及反卷积层，上采样模块设在两个相邻的改进的基于扩展卷积的残差单元之间；所述融合注意力机制将编码器中池化层的输出以及相邻流池化层的输出分别作为低层特征输入和高层特征输入，在第三层的融合注意力机制的高层特征输入是对应编码器池化层经过Transformer模块形成的特征图。

2.根据权利要求1所述的一种基于UNet和Transformer相融合的视网膜血管分割方法，其特征在于，基于UNet和Transformer相融合的视网膜血管分割模型中多流级联的多层卷积类操作，且每流每层输出分别与同流后续层直接连接，卷积层单元的任意一层采用残差模块替换标准的UNet编码块，残差模块可以有效地防止训练阶段的梯度消失，多流编码器的输出表示为：

H(x)＝{h^l(x，K，θ)|h^l(x，K，θ_k)＝r(h^l(x，k-1，θ_k-1))，l＝1，2，…，L}

其中，H(x)表示不同编码路径中一系列网络操作的集合；h^l(x，K，θ)表示第l层编码流，K表示连续特征块，θ表示可学习权重；r表示每个特征块上的残差操作，包括池化层；