CN113902757A

CN113902757A - 基于自注意力机制和卷积神经网络混合模型的血管分割方法

Info

Publication number: CN113902757A
Application number: CN202111177309.4A
Authority: CN
Inventors: 任尚杰; 沈雄日; 董峰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-01-07
Anticipated expiration: 2041-10-09
Also published as: CN113902757B

Abstract

本发明涉及一种基于自注意力机制和卷积神经网络混合模型的血管分割方法，包括下列步骤：对血管图像进行数据预处理并构建训练集和测试集；构建卷积神经网络和自注意力机制混合模型；混合模型主要包括编码器和解码器两个部分，编码器首先采用卷积神经网络提取血管图像特征，然后使用自注意力机制进行特征关联，混合模型的解码器则采用U‑net解码方式；模型训练，将预处理后的血管图像分别输入混合模型中，学习速率设置为随着网络训练的迭代周期增加而逐渐减少；误差函数使用二类交叉熵损失，计算最后的分割结果和标签类别损失，将其作为网络的损失经方向传播到网络各层，更新网络参数；误差优化器采用了ADAM优化器。

Description

基于自注意力机制和卷积神经网络混合模型的血管分割方法

技术领域

本发明涉及一种图像分割方法，具体是将深度学习中的U-net网络与自注意力机制，残差网络，通道注意力和空间注意力机制相结合进行改进的一种图像分割方法。该方法可以用在视网膜血管图像的分割中。

背景技术

血管分割是医学图像分割中的经典问题。最早的传统方法有基于匹配滤波的方法，基于多尺度的方法，基于区域生长的方法，基于活动轮廓模型的方法，以及基于模式识别方法。而基于模式识别的方法又可以大致分为基于卷积神经网络的方法，以及基于聚类或随机森林，支持向量机等机器学习的方法。

经典的匹配滤波方法使用二维高斯核与血管图像进行卷积，当血管与高斯函数具有相同标准偏差时，血管的响应相对于背景会更强。然后结合阈值分割和形态学方法将响应强的部分进行提取，得到了血管图像。Poli等人使用了一组由适当平移的高斯核的线性组合而成的多方向线性滤波来增强和检测血管，滤波器对不同的方向和宽度敏感。该方法的主要特点是卷积模板经过精心设计而产生最大效能，不同方向和尺度的结果经过综合和验证来防止增强非血管结构。血管分割通过启发式阈值方法得到。

多尺度方法使用多尺度标准差的滤波器对血管图像进行滤波，得到了不同尺度下的血管特征，然后将血管进行融合得到了清晰的血管图像，最后对图像进行二值分割得到了血管结构。Frangi等人了提出使用多尺度hessian滤波器对血管进行增强的方法，血管部分的hessian矩阵特征值和背景部分的hessian矩阵特征值存在着明显的差异，该方法构建了一个映射关系，将这种差异进一步放大，使得滤波后血管部分的响应较强，而背景部分响应较弱。然后再融合不同尺度下的响应，得到了最后的血管增强图像。

区域增长方法通过反复的增加像素到一个区域来分割图像。两种重要的分割标准是灰度的相似性和空间的邻近性。这种方法假设相邻的像素具有相似的灰度值。其主要的缺点是它通常需要用户给定种子点。另外，由于图像灰度的变化和噪声影响，区域增长会导致孔洞和过度分割，因此通常需要后处理。Obrien等人给出了基于时间、空间和结构性约束的自动影像血管提取方法算法。方法以低通滤波预处理开始，从用户给定初始点开始，算法用一个区域增长过程提取近似血管结构。然后，利用气球试验提取中线。最后，没有检测到的血管部分通过空间扩张算法定位，在这个阶段像素分为血管和非血管部分，通过基于图论的接受和拒绝试验来检查检测到的子区域的空间、时间连续性信息。

模式识别的方法主要分为基于支持向量机，基于聚类或者随机森林，条件随机场，基于支持向量机三类。Wang等人使用CNN作为特征提取器进行提取视网膜血管的特征，将pixel-wise特征输入随机森林进行分类，文章中使用了三个特征提取器。然后使用了三个随机森林模型进行分类，最后集成不同层级的特征进行集成学习。Fu等人将卷积神经网络和条件随机场进行结合，将血管分割任务认为是边缘检测问题，使用条件随机场对卷积神经网路中每层生成的血管图进行了血管像素点概率预测，生成了血管概率图，得到了最终的分割结果。Bin Sheng先使用简单的线性聚类方法，根据视网膜像素点的空间距离，颜色距离和纹理距离对视网膜图像上的点进行分类，生成超像素图像。在超像素图像中计算超像素点的特征来决定该点是否为血管像素点，然后基于超像素点生成树状结构，增强血管的连通性。

自注意力机制在自然语言任务处理中获得了巨大的成功。近年来，研究人员逐渐将自注意力机制应用于计算机视觉任务。目前研究表明，在图像和视频的分类，检索，语义分割，人体姿态检测，目标检测等十分热门的计算机视觉任务中，自注意力机制表现出了不亚于卷积神经网络的性能。而在一些更依赖全局信息的视频和序列计算机视觉任务中，由于自注意力机制没有受到视野域的限制，自注意力机制的表现要优于卷积神经网络

此前的传统方法容易识别出来错误的非血管点，而基于模式识别的方法又容易受到提取特征和视野域的限制。因此，在本项发明中，引入了自注意力机制来更充分利用血管图像的全局信息，同时为了更充分的提取血管图像的高级特征，使用了连续残差结构，通道注意力，空间注意力作为特征提取工具。

参考文献

[1]Poli R.and Valli.G.An algorithm for real-time vessel enhancementand detection.Comp.Methods and Prog.in Biomed.,1997,52(1):1–22.

[2]Frangi,A.et al.“Muliscale Vessel Enhancement Filtering.”MICCAI(1998).

[3]OBrien J.F.and Ezquerra N.F.Automated segmentation of coronaryvessels in angiographic image sequences utilizing temporal,spatial structuralconstraints.In SPIE Conf.Visualization in Biomed.Computing,1994.

[4]Wang,Shuangling et al.“Hierarchical retinal blood vesselsegmentation based on feature and ensemble learning.”Neurocomputing 149(2015):708-717.

[5]Fu,Huazhu et al.“Retinal vessel segmentation via deep learningnetwork and fully-connected conditional random fields.”2016IEEE 13thInternational Symposium on Biomedical Imaging(ISBI)(2016):698-701.

[6]Sheng,Bin et al.“Retinal Vessel Segmentation Using MinimumSpanning Superpixel Tree Detector.”IEEE Transactions on Cybernetics 49(2019):2707-2719

[7]Raffel,Colin et al.“Exploring the Limits of Transfer Learning witha Unified Text-to-Text Transformer.”ArXiv abs/1910.10683(2020):n.pag

[8]Messina,Nicola et al.“Fine-grained Visual Textual Alignment forCross-Modal Retrieval using Transformer Encoders.”ArXiv abs/2008.05231(2020):n.pag.

[9]Dosovitskiy,A.et al.“An Image is Worth 16x16 Words:Transformersfor Image Recognition at Scale.”ArXiv abs/2010.11929(2020):n.pag.

[10]Chen,Jieneng et al.“TransUNet:Transformers Make Strong Encodersfor Medical Image Segmentation.”ArXiv abs/2102.04306(2021):n.pag

发明内容

本发明针对目前血管分割技术存在的不足之处，将自注意力机制，连续残差结构，通道注意力，空间注意力机制应用于U-net的编码器结构中，提出了一个卷积神经网络和自注意力机制混合模型。混合模型采用了编码器-解码器的结构，编码器采用了卷积神经网络和自注意力机制混合编码的方式，解码器则采用了常规的U-net解码器结构。卷积神经网络和自注意力机制混合编码方式首先使用基于连续残差结构，通道注意力，空间注意力机制的卷积神经网络充分提取血管图像的低级特征，然后使用自注意力机制关联由卷积神经网络提取出来的高级特征，帮助混合模型识别血管，提高血管识别成功率。技术方案如下：

一种基于自注意力机制和卷积神经网络混合模型的血管分割方法，包括下列步骤：

(1)对血管图像进行数据预处理并构建训练集和测试集；

(2)构建卷积神经网络和自注意力机制混合模型；混合模型主要包括编码器和解码器两个部分，编码器首先采用卷积神经网络提取血管图像特征，然后使用自注意力机制进行特征关联，混合模型的解码器则采用U-net解码方式，方法如下：

1)使用7×7的卷积层将输入图像映射到64通道的特征空间，得到第一卷积神经网络的输入I₀；

2)第一卷积神经网络提取血管图像的特征的过程包括：使用三个串行的残差注意力结构提取高级特征，每个残差注意力结构由四个3×3卷积层，一个1×1卷积层，空间通道注意力层和通道注意力层组成，每个3×3卷积层的输出连接到后面的卷积层作为输入，然后由1×1卷积层汇集所有3×3卷积层的输出，形成连续残差结构；通道注意力层包括两个1×1的卷积层，一个最大池化层，一个平均池化层；空间注意力层包括一个平均池化层，一个最大池化层，一个1×1卷积层；对于残差注意力结构的输入，经过四个3×3卷积层的特征提取后，分别使用空间通道注意力层和通道注意力层进行“挤压-激励”操作：通道注意力层的两个池化层分别以两种不同的统计方式统计特征空间在空间维度上的信息，两个1×1卷积层进一步提取池化方式的统计信息，然后通过点加操作融合两种统计方式的信息，第一个1×1卷积层完成的是挤压操作，将通道压缩为输入的通道数的四分之一，而后第二个1×1卷积层将通道增加回原通道数完成激励操作；空间注意力层与通道注意力层相同，分别以两种池化方式统计特征空间的通道有效信息，然后通过1×1卷积层对两者方式进行融合；为了保留特征空间的浅层信息，还需要通过局部跳跃结构，将经残差注意力结构提取的高级特征以及输入的浅层特征进行连接，将I₀经三个串行残差注意力结构的提取特征后，形成第一卷积神经网络的输出I₁；

3)将I₁作为第二卷积神经网络的输入，第二卷积神经网络同样采用串行的三个残差注意力结构提取高级特征，残差注意力结构与第一卷积神经网络相同，但是输入为I₁，经过三个残差注意力结构的提取后，第二卷积神经网络的输出特征空间I₂，其空间分辨率为特征空间I₁的二分之一；

4)将I₂作为第三卷积神经网络的输入，第三卷积神经网络同样使用串行的三个残差注意力结构提取高级特征；残差注意力结构与第一卷积神经网络相同，但是输入为I₂；经过三个残差注意力结构的提取后，第三步卷积神经网络的输出为特征空间I₃，其特征空间为I₂的二分之一；

5)对I₃特征进行位置编码和块嵌入操作以构成自注意力模块的嵌入向量，之后，将I₃特征输入到自注意力模块；自注意力模块采用12层transformer的结构，每层transformer首先使用标准层和多头注意力层对嵌入向量进行全局特征关联，得到全局特征关联注意力图；然后使用标准层和多层感知层对全局特征关联图进行标准化，得到最终的transformer层的二维全局注意力图；经过12层transformer之后，自注意力结构的最终输出为二维的全局注意力图I_m；

6)将二维全局注意力图I_m和第三卷积神经网络的输出I₃送入特征融合结构，特征融合结构使用3×3卷积层将二维的全局注意力图I_m重塑形状成三维特征空间，然后使用连接操作将该三维特征空间和I₃进行连接，得到最终的编码特征，然后将其送入解码器；

7)解码器同样分为三步，每一步都使用两个3×3卷积层，两个Relu层；解码器的第一步使用3×3卷积层和线性插值层将最终的编码特征分辨率提升为原来的两倍，得到了特征空间D₁；将D₁送入解码器的第二步，同样使用3×3卷积层和线性插值层将D₁的特征分辨率提升为两倍，得到了特征空间D₂；将D₂送入解码器的第三步，再一次使用卷3×3积层和线性插值层将D₂的特征分辨率进行提升为输入的两倍，得到了D₃；最后经一个线性插值层，将特征空间D₃的分辨率提升到与输入血管图像相同，此时的特征空间为D₄；

8)将D₄送入3×3卷积层，将其通道压缩到两个，然后使用softmax层得到最终的分割结果；

(3)模型训练，将预处理后的血管图像分别输入混合模型中，学习速率设置为10^-2，并且学习速率设置为随着网络训练的迭代周期增加而逐渐减少；误差函数使用二类交叉熵损失，计算最后的分割结果和标签类别损失，将其作为网络的损失经方向传播到网络各层，更新网络参数；误差优化器采用了ADAM优化器。

附图说明

图1为本发明中混合模型的示意图；

图2为本发明中血管分割结果图；

具体实施方式

结合附图和实施例对本发明的基于自注意力机制和卷积神经网络混合模型的血管分割方法加以说明。

本发明的基于卷积神经网络和自注意力机制混合模型的血管分割方法，实施例中针对血管分割的特殊应用形式，以血管图像作为混合模型的输入，分割的血管图像二值图作为混合模型的输出。

图1是本发明中对皮肤微血管的预处理与训练集数据建立流程图，其主要步骤如下：

第一步，构建数据集并进行数据预处理

1)使用python工具读入血管图像，血管图像分辨率由输入的血管图像数据集决定，在本项发明中用到的数据集为DRIVE(分辨率585×560)，STARE(700×605)，CHASEDB1(分辨率999×965)，HRF(分辨率3504×2336)。对血管图像进行标准化，自适应直方图均衡化等图像增强操作。

2)为了增加训练数据，分别将经1)处理后的血管图像旋转0度，90度，180度，270度，沿横轴翻转，沿竖轴翻转，沿对角线翻转。

3)依据数据集的大小，选取前百分之八十图像作为训练集，其余的为测试集。

第二步，使用pytorch进混合模型的训练，混合模型主要包括编码器和解码器两个部分，编码器采用了卷积神经网络提取特征，自注意力机制进行特征关联的方式，解码器则采用了U-net常规的解码方式。，下面进行详细介绍。

1)首先使用7×7的卷积层映射到64通道的特征空间，此时特征空间I₀为H/2×W/2×64，H×W为图像的分辨率。

2)在卷积神经网络提取图像高级特征，首先使用残差注意力模块提取1)之后的特征空间的高级特征。残差注意力机构由四个互相连接的3×3卷积层，一个1×1卷积层，空间和通道注意力层组成。连续残差结构中共包括四层3×3卷积，卷积核的个数为64，每个3×3卷积层的输出特征空间仍为H/2×W/2×64。然后将所有3×3的卷积层连接一起，此时的特征空间为H/2×W/2×64×4，然后使用1×1的卷积进行跨通道信息整合。使用1×1卷积层能够起到压缩通道，融合多通道信息，减小内存占用的作用。此时的特征空间大小恢复到H×W×64，然后使用通道注意力层，空间注意力层提取特征空间的有效信息。通道注意力层包括两个1×1的卷积层，一个最大池化层，一个平均池化层。两个池化层分别以两种不同的统计方式统计特征空间在空间维度上的信息，两个1×1卷积层进一步提取该池化方式的统计信息，然后通过点加操作融合两种统计方式的信息。第一个1×1卷积层完成的是挤压操作，将通道压缩为输入的通道数的四分之一，而后第二个1×1卷积层将通道增加回原通道数完成激励操作。空间注意力层包括一个平均池化层，一个最大池化层，一个1×1卷积层。与通道注意力层相同，分别以两种池化方式统计特征空间的通道有效信息，然后通过1×1卷积层对两者方式进行融合。为了保留特征空间的浅层信息，还需要通过局部跳跃结构，将经残差注意力结构提取的高级特征以及输入的浅层特征进行连接。模块的具体结构如混合模型中RA模块所示。

3)在卷积神经网络提取特征的每一步都包括了三个残差注意力模块，三个模块的结构成分相同，并且串行连接，即输入的特征空间经上一个残差注意力模块提取特征后，将其输出作为下一个残差注意力结构的输入。经过三个残差注意力结构提取特征后，最后使用1×1的卷积层将分辨率下降为H/4×W/4，但是通道数上升为256，将第一步的输出特征空间I₁为H/4×W/4×256。

4)卷积神经网络提取图像特征的第二步，第三步与第一步的过程相似，都采用了相同的三个残差注意力结构提取输入特征的空间的高级特征，最后都将特征空间的通道数增增加，分辨率降低。第二步将特征空间分辨率下降为H/8×W/8，而通道数上升为512，即第二步的输出特征空间I₂为H/8×W/8×512。第三步将特征空间分辨率下降为H/16×W/16，而通道数上升为1024,此时的输出特征空间I₃为H/16×W/16×1024。

5)经过卷积神经网络提取血管图像的三个步骤后，得到了血管图图像的H/16×W/16×1024特征空间。此时特征空间上的每个1×1×1024特征向量都代表了原始血管H×W×3的血管图像某一块区域的特征，为了更充分挖掘不同图像块之间的血管连通性，需要对H/16×W/16×1024特征空间上的所有1×1×1024进行特征关联。为了进行特征关联，混合模型采用了自注意力机制。自注意力机制能够生成1×1×1024特征向量全局注意力图，该注意力图代表了该1×1×1024特征向量与整个特征空间上的所有1×1×1024特征向量关联度。而关联度强的两个1×1×1024特征向量代表着可能存在着跨区域的血管。显然这样的全局关联对于血管分割是有好处的，混合模型对于血管连通性的学习要优于其他纯卷积神经网络。

6)而自注意力机制的过程主要是对I₃进行块嵌入，位置编码，以及送入transformer进行学习。块嵌入是利用1×1的卷积将1×1×1024的特征向量缩减到1×1×768，构成transformer层的嵌入向量，而位置编码则是给嵌入向量添加位置信息。将嵌入向量与位置信息相加后，送入transformer层进行注意力图的生成。Transformer共包括12层，每层包括两个层标准层，多头注意力头层(注意力头为16个)，一个感知层。经过12层transformer进行特征关联之后，生成最后的768×961的二维全局注意力图I_m。

7)为了充分利用血管的浅层信息，在解码器解码特征之前，需要使用特征融合结构对卷积神经网络提取的特征I₃和二维全局注意力图I_m进行融合。融合的方式为将卷积神经网络提取特征的第三步输出的特征空间与自注意力机制的注意力图进行连接。因此需要先使用3×3卷积层将768×961的2D注意力图重塑为H/16×W/16×1024，然后与卷积神经网络第三步的H/16×W/16×1024特征空间进行连接，然后送入解码器

8)解码器的第一步使用两个3×3卷积层，一个线性插值，两个Relu池化层上采样层将分辨率上升为H/8×W/8，特征空间压缩会512通道，此时的特征空间D₁为H/8×W/8×512。然后将此特征空间送入解码器的第二步，在进行卷积之前，解码器的H/8×W/8×512输入特征空间与卷积神经网络第二步的H/8×W/8×512输出特征空间进行连接，然后送入两个3×3卷积层，一个线性上采样层，将分辨率上升为H/4×W/4，通道缩减为256，此时的特征空间D₂大小为H/4×W/4×256。然后将此特征空间送入解码器的第三步，在进行卷积之前，解码器的H/4×W/4×256输入特征空间与卷积神经网络第二步的H/8×W/8×256输出特征空间进行连接，然后送入两个3×3卷积层，一个线性上采样层，将分辨率上升为H/2×W/2，通道缩减为128，此时的特征空间大小D₃为H/2×W/2×128。最后使用3×3卷积层和线性上采样层，将特征空间缩减到H×W×2，然后使用softmax层进行标签的预测，得到标签预测结果。

第三步，模型训练

计算模型的预测标签结果与真实标签的二类交叉熵损失，将其通过反向传播，更新中间各层的参数。并且使用ADAM优化器，将均方根误差优化至最小。初始学习率设为0.001，训练样本分批进行处理，每批数目为128，L2范数项正则化参数为0.005，每次训练共计迭代100次。软件平台采用tensorflow，在一块Titan XP GPU(12GB显存)上完成一次训练耗时大约5个小时。Epoch设置为100.

第四步，模型性能测试

输入血管图像，输出标签预测结果。

本发明不局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都在本发明保护的范围。

Claims

1.一种基于自注意力机制和卷积神经网络混合模型的血管分割方法，包括下列步骤：

(1)对血管图像进行数据预处理并构建训练集和测试集；

3)将I₁作为第二卷积神经网络的输入，第二卷积神经网络同样采用串行的三个残差注意力结构提取高级特征，残差注意力结构与第一卷积神经网络相同，但是输入为I₁，经过三个残差注意力结构的提取后，第二卷积神经网络的输出特征空间I_2，其空间分辨率为特征空间I₁的二分之一；