CN115272369A

CN115272369A - 动态聚合变换器网络及视网膜血管分割方法

Info

Publication number: CN115272369A
Application number: CN202210906947.3A
Authority: CN
Inventors: 朱伟芳; 谭晓; 陈新建; 孟庆权; 聂宝清
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01
Anticipated expiration: 2042-07-29
Also published as: CN115272369B

Abstract

本发明涉及一种动态聚合变换器网络及视网膜血管分割方法，动态聚合变换器网络包括动态聚合变换器编码器模块、组卷积嵌入模块和轻量级卷积解码器模块，原始图像初始化后输入动态聚合变换器编码器模块，使用动态聚合法和多头动态聚合注意力得到语义标记，组卷积嵌入模块根据语义标记得到多尺度特征图；轻量级卷积解码器模块对多尺度特征图进行特征分辨率的恢复得到分割结果；视网膜血管分割方法为将光学相干断层扫描血管造影图像输入训练完成的动态聚合变换器网络中，得到视网膜血管分割结果。本发明可以减少视觉变换器的计算量、解决卷积神经网络局部感觉野受限的问题、减少网络参数量、有效提升血管分割性能。

Description

动态聚合变换器网络及视网膜血管分割方法

技术领域

本发明涉及医学图像处理技术领域，尤其是指一种动态聚合变换器网络及视网膜血管分割方法。

背景技术

医学图像的语义分割是医学图像分析的一个重要步骤，是辅助临床诊断的必要前提。现有的方法主要包括基于阈值的分割方法、基于区域的分割方法和基于边缘检测的分割方法等传统方法，以及基于卷积神经网络的深度学习分割方法。近年来，随着变换器(Transformer)在自然语言处理中的发展，很多工作开始尝试将变换器引入各类计算机视觉任务中。视觉变换器(Vision Transformer，ViT)的提出使得计算机视觉任务开启了以视觉变换器为基础的全新深度学习时代，分割变换器(SEgementaition TRansformer，SETR)的提出使得视觉变换器成为语义分割任务中的一种新方法。相较于基于卷积神经网络的深度学习方法，基于视觉变换器的深度学习语义分割方法可以在提取图像特征的同时，高效地对图像中远距离像素进行隐性建模，在不需要复杂结构设计的情况下，可以有效获得图像的全局感受野。这种独特的性质使得视觉变换器在包括语义分割在内的计算机视觉领域展现出了较高的潜力。

全卷积网络(fully convolutional network,FCN)在自然图像分割上具有出色的特征提取能力，因此被广泛应用于医学图像领域。深度学习图像分割网络(U-Net)由于采用了编解码器结构以及跳跃连接，大大提升了卷积神经网络在医学图像领域的分割性能。可变形U-Net(Deformable U-Net，DU-Net)将可变形卷积引入U-Net，提高了U-Net的特征提取能力。通道和空间注意力网络(Channel and Spatial Attention Network，CSNet)在U-Net结构中提出了空间注意力和通道注意力，使其能够在空间维度和通维度上有效的选择特征。分割变换器首次将视觉变换器引入语义分割任务，证明了视觉变换器在语义分割任务中的可行性。变换器U-Net(Transformer U-Net，TransUNet)首次将视觉变换器引入医学图像分割任务,并在多个数据集中获得了优异的分割性。

但是，现有的网络模型在医学图像分割、特别是在对分辨率有高需求的血管分割任务时，仍存在一些问题：

(1)U-Net的简单编解码结构虽然有效，但是提取上下文和全局信息的能力仍然不够充分。

(2)DU-Net、CSNet等卷积网络虽然通过利用可变形卷积或添加通道空间注意力等方法对其进行改进，但仍然无法弥补卷积网络感受野有限的局限性。

(3)SETR虽然在自然图像分割任务中获得了较好的效果，但由于其庞大的计算量，无法应用于对分辨率有高需求的血管分割任务中。

(4)TransUNet在多个医学图像任务中获得了较好的效果，但由于其通过加大下采样倍数的方式减少视觉变换器的计算量，会导致血管分割任务中细血管的丢失，因此无法应用于血管分割任务。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种动态聚合变换器网络及视网膜血管分割方法，可以减少视觉变换器的计算量、解决卷积神经网络局部感觉野受限的问题、减少网络参数量、有效提升血管分割性能。

为解决上述技术问题，本发明提供了一种动态聚合变换器网络，所述动态聚合变换器网络包括动态聚合变换器编码器模块、组卷积嵌入模块和轻量级卷积解码器模块，

原始图像初始化后输入所述动态聚合变换器编码器模块，所述动态聚合变换器编码器模块和所述组卷积嵌入模块使用动态聚合法和多头动态聚合注意力得到多尺度特征图；

所述轻量级卷积解码器模块对所述多尺度特征图进行特征分辨率的恢复得到解码特征图，根据解码特征图得到分割结果。

作为优选的，所述动态聚合变换器编码器模块包括至少一个动态聚合变换器编码器，所述组卷积嵌入模块包括至少一个组卷积特征嵌入块；

初始化后的原始图像交替经过所述动态聚合变换器编码器和组卷积特征嵌入块得到所述多尺度特征图。

作为优选的，所述动态聚合变换器编码器包括动态聚合变换器支路和辅助卷积支路，

所述动态聚合变换器支路使用动态聚合法将所述动态聚合变换器编码器的输入特征转化为聚合特征，使用多头动态聚合注意力从所述聚合特征中提取特征得到所述动态聚合变换器支路的输出；

所述辅助卷积支路辅助所述动态聚合变换器编码器收敛，根据所述动态聚合变换器支路的输出和所述辅助卷积支路的输出得到所述动态聚合变换器编码器的输出。

作为优选的，所述动态聚合法，具体为：

步骤1：使用嵌入特征初始化单元初始化乘上可学习矩阵后的输入特征Ts得到初始聚合特征Ts_ag；

步骤2：计算Ts_ag和Ts间的余弦距离Distance(Ts_ag，Ts)＝cos(Ts_ag，Ts^T)；

步骤3：将所述余弦距离Distance(Ts_ag，Ts)送入softmax层，计算得到离散概率图Distance(Ts_ag，Ts)′＝softma x(cos(Ts_ag，Ts^T))；

步骤4：更新聚合特征Ts_ag＝Distance(Ts_ag，Ts)′Ts^T，()^T表示向量或矩阵的转置；

步骤5：重复步骤2-步骤5T次，得到最终的聚合特征Ts_ag。

作为优选的，所述动态聚合变换器支路使用动态聚合法将所述动态聚合变换器编码器的输入特征转化为聚合特征，使用多头动态聚合注意力从所述聚合特征中提取特征得到所述动态聚合变换器支路的输出，具体为：

S1：将动态聚合变换器编码器的输入特征Fs乘上三个不同的可学习矩阵分别得到查询向量Q′、键向量K′和值向量V′；

S2：使用所述动态聚合法将所述Q′转换为聚合特征Q，使用所述动态聚合法将所述K′转换为聚合特征K，今低秩空间的值向量V＝V′；

S3：计算多头动态聚合注意力MDTAA(Q，K，V)：

MDTAA(Q，K，V)＝Concat(head_i，...，head_n)W^O，

其中，Concat()表示按通道方向的拼接操作，W^O表示可学习向量；head_i表示第i个单头动态聚合注意力，

softmax()表示softmax函数，DA()表示进行所述动态聚合法操作，d_k是低秩空间的键向量K的通道维度；

S4：将所述多头动态聚合注意力MDTAA(Q，K，V)依次输入线性变换层与层归一化层得到所述动态聚合变换器支路的输出X_trans。

作为优选的，所述辅助卷积支路包括两个组卷积归一化激活层，每个组卷积归一化激活层包括卷积核为3×3的分组卷积、批归一化层和ReLU激活函数，所述动态聚合变换器编码器的输入特征输入所述辅助卷积支路得到辅助卷积支路的输出X_conv。

作为优选的，所述根据所述动态聚合变换器支路的输出和所述辅助卷积支路的输出得到所述动态聚合变换器编码器的输出，具体为：

动态聚合变换器编码器的输出X_encoder为：

X_encoder＝α·Reshape(X_conv)+X_trans，

其中，α为可学习权重，Reshape()表示特征重组。

作为优选的，所述组卷积嵌入块包括嵌入重组层和分组卷积层，所述动态聚合变换器编码器的输出经过所述嵌入重组层进行特征重组后输入所述分组卷积层，得到所述组卷积嵌入块的输出。

作为优选的，所述轻量级卷积解码器模块包括至少一个轻量级卷积解码器块和一个上采样单元，所述轻量级卷积解码器块包括1个轻量级卷积解码器，所述轻量级卷积解码器包括卷积核大小为3×3的卷积层、批归一化层和ReLU激活函数；

将输入所述轻量级卷积解码器模块的多尺度特征图表示为

其中C_in表示输入特征通道维度，H表示特征高度，W表示特征宽度；

所述多尺度特征图依次F_i经过各个所述轻量级卷积解码器块和上采样单元得到所述解码特征图

其中C_out表示输出特征通道维数，σ表示上采样倍数。

本发明还提供了一种视网膜血管分割方法，包括以下步骤：

构建动态聚合变换器网络，

训练所述动态聚合变换器网络得到训练完成的动态聚合变换器网络，

将光学相干断层扫描血管造影图像输入所述训练完成的动态聚合变换器网络中进行分割，得到视网膜血管分割结果。

本发明的上述技术方案相比现有技术具有以下优点：

(1)使用动态聚合变换器编码器模块提高了提取上下文和全局信息的能力，通过动态聚合法减少了视觉变换器的计算量；

(2)使用多头动态聚合注意力提取特征，解决了卷积神经网络局部感觉野受限的问题；

(3)使用轻量级卷积解码器模块代替传统的对称变换器解码器，减少了网络参数量，在参数量与分割精度之间达到了最佳的均衡，可以有效提升血管分割性能。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明中动态聚合变换器网络的整体结构示意图；

图2是本发明中动态聚合变换器支路的结构示意图；

图3是本发明中辅助卷积支路的示意图；

图4是本发明实施例中原始OCTA图像、金标准(GT)、本发明、U-Net和CS-Net视网膜血管分割结果的对比图；

图5是本发明实施例中U-Net3+、CENet、TransUNet、SwinUNet和UTNet视网膜血管分割结果的对比图；

图6是本发明实施例中五种不同解码器结构的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图1所示，本发明公开了一种动态聚合变换器网络，如图1所示，所述动态聚合变换器网络(Dynamic Aggregation Tr ansformer Network，DA-TransNet)包括动态聚合变换器编码器模块、组卷积嵌入(Group Convolution Embedding，GCE)模块和轻量级卷积解码器模块，动态聚合变换器网络是一种编码-解码结构，编码通道主要由动态聚合变换器编码器和组卷积嵌入模块构成，解码通道主要由轻量级卷积解码器模块构成。

原始图像初始化后输入所述动态聚合变换器编码器模块，本实施例中原始图像的初始化操作为对原始图像进行通道扩展。所述动态聚合变换器编码器模块和所述组卷积嵌入模块使用动态聚合法和多头动态聚合注意力得到多尺度特征图。所述轻量级卷积解码器模块对所述多尺度特征图进行特征分辨率的恢复得到解码特征图，根据解码特征图得到分割结果。本实施例中为将所述解码特征图输入一个由卷积核为1×1的卷积组成的卷积输出层进行通道压缩，从而得到分割结果。

动态聚合变换器编码器模块包括至少一个动态聚合变换器编码器，所述组卷积嵌入模块包括至少一个组卷积特征嵌入块；初始化后的原始图像交替经过所述动态聚合变换器编码器和组卷积特征嵌入块得到所述多尺度特征图。

动态聚合变换器编码器包括动态聚合变换器支路和辅助卷积支路，所述动态聚合变换器支路使用动态聚合法将所述动态聚合变换器编码器的输入特征转化为聚合特征，使用多头动态聚合注意力从所述聚合特征中提取特征得到所述动态聚合变换器支路的输出。

如图2的结构所示，动态聚合变换器支路可以在获取全局感受野的同时有效地进行特征提取，本发明中的动态聚合变换器在传统视觉变换器结构中补充了动态聚合法。在动态聚合变换器支路中，特征经过动态聚合法获得聚合标记，然后经过多头分解与点积注意力，随后多头重组输出标记。所述辅助卷积支路辅助所述动态聚合变换器编码器收敛，根据所述动态聚合变换器支路的输出和所述辅助卷积支路的输出得到所述动态聚合变换器编码器的输出。

动态聚合法，具体为：

步骤1：使用嵌入特征初始化单元初始化乘上可学习矩阵后的输入特征Ts得到初始聚合特征Ts_ag；本实施例中嵌入特征初始化单元为全局平均池化层。

步骤2：计算Ts_ag和Ts间的余弦距离Distance(Ts_ag，Ts)＝cos(Ts_ag，Ts^T)；由于采用了全局平均池化，得到的Ts_agb损失了部分原始信息，为了使Ts_agb在减少维度的同时尽可能的保留原始信息，需要拉近Ts_agb与Ts的度量距离Distance。因此本发明选择余弦距离cos(Ts_ag，Ts^T)作为优化条件，余弦距离越小，则Ts_agb保留了越多的原始信息。

步骤3：将所述余弦距离Distance(Ts_ag，Ts)送入softmax层，计算得到离散概率图Distance(Ts_ag，Ts)′＝softmax(cos(Ts_ag，Ts^T))；聚合特征Ts_agb的不同位置对整个网络有不同的贡献，为了使距离归一化从而让整个网络能够动态地获取重要信息，计算离散概率图Distance(Ts_ag，Ts)′，这个概率图可以反映聚合特征Ts_ag每个位置与原始特征Ts每个位置的相关性。

步骤4：将聚合特征映射到一组低秩子空间，更新聚合特征Ts_ag＝Distance(Ts_ag，Ts)′·Ts^T，()^T表示向量或矩阵的转置；

步骤5：重复步骤2-步骤5T次，得到最终的聚合特征Ts_ag；

将动态聚合变换器编码器的输入特征表示为

其中

表示D×N维的欧几里得空间，D表示输入特征的维度，N表示输入特征的长度；由于输入特征的长度N较大，导致了特征表示空间的冗余，从而引起了视觉变换器中庞大的计算量，需要根据Fs得到一个低秩特征表示空间中的聚合特征

其中k表示聚合特征的长度，该特征能够在大幅度减小长度N的情况下，较好的保持原有空间的特征信息。

不同的特征被送入动态聚合法得到聚合特征，经过动态聚合法，视觉变换器的计算复杂度从O(N²)下降至O(NkT)，本实施例中k设置为128，T设置为3，kT通常远小于原始长度N。因此视觉变换器的计算复杂度可简化为O(N)，可有效降低其参数量、提升其计算速度。

动态聚合变换器支路使用动态聚合法将所述动态聚合变换器编码器的输入特征转化为聚合特征，使用多头动态聚合注意力从所述聚合特征中提取特征得到所述动态聚合变换器支路的输出，具体为：

S1：将动态聚合变换器编码器的输入特征F乘上三个不同的可学习矩阵分别得到三组不同的输入特征：查询向量Q′、键向量K′和值向量V′；

S2：将所述Q′作为所述动态聚合法的输入特征，使用所述动态聚合法将所述Q′转换为聚合特征(即低秩空间的查询向量)Q；将所述K′作为所述动态聚合法的输入特征，使用所述动态聚合法将所述K′转换为聚合特征(即低秩空间的键向量)K，今低秩空间的值向量V＝V′；

将所述Q′作为所述动态聚合法的输入特征，使用所述动态聚合法将所述Q′转换为聚合特征(即低秩空间的查询向量)Q，具体为：

步骤Q1：使用嵌入特征初始化单元初始化Q′得到初始Q；

步骤Q2：计算Q′和Q间的余弦距离Distance(Q，Q′)＝cos(Q，Q′^T)；

步骤Q3：将所述余弦距离Distance(Q，Q′)送入softmax层，计算得到Distance(Q，Q′)′＝softma x(cos(Q，Q′^T))；

步骤Q4：更新Q＝Distance(Q，Q′)′Q′^T，()^T表示向量或矩阵的转置；

步骤Q5：重复步骤Q2-步骤Q5T次，得到最终的Q。

，将所述K′作为所述动态聚合法的输入特征，使用所述动态聚合法将所述K′转换为聚合特征(即低秩空间的键向量)K具体为：

步骤K1：使用嵌入特征初始化单元初始化K′得到初始K；

步骤K2：计算K′和K间的余弦距离Distance(K，K′)＝coa(K，K′^T)；

步骤K3：将所述余弦距离Distance(K，K′)送入softmax层，计算得到Distance(K，K′)′＝softmax(cos(K，K′^T))；

步骤K4：更新K＝Distance(K，K′)′K′^T，()^T表示向量或矩阵的转置；

步骤K5：重复步骤K2-步骤K5T次，得到最终的K。

S3：为了捕获不同位置间的复杂关系，使用多头动态聚合注意力MDTAA(Muti-headDynamic Token Aggregation Attention)，与单头动态聚合注意力DTAA(Dynamic TokenAggregation Attention)不同，多头动态聚合注意力旨在学习不同子空间的序列关系，进行并行运算。计算多头动态聚合注意力MDTAA(Q，K，V)：

MDTAA(Q，K，V)＝Concat(head_i，...，head_n)W^O，其中，Concat()表示按通道方向的拼接操作，W^O表示可学习向量；head_i表示第i个单头动态聚合注意力，

其中，softmax()表示softmax函数，DA()表示进行所述动态聚合法操作，DTAA()表示进行单头动态聚合注意力操作，dk是低秩空间的键向量K的通道维度，

是供了一个归一化权重、使网络训练更加稳定；

S4：将所述多头动态聚合注意力MDTAA(Q，K，V)依次输入线性变换层(Linear)与层归一化层(LN)得到所述动态聚合变换器支路的输出为X_trans＝LN(Linear(MDTAA(Q，K，V)))，其中Linear()表示线性变换操作，LN()表示层归一化操作。

由于视觉变换器中缺少归纳偏置，视觉变换器在训练过程中往往会出现收敛缓慢、训练时间较长的问题，这将降低视觉变换器在不同设备(例如光学相干断层扫描血管造影)图像中的迁移性能，为此本发明在动态聚合变换器的基础上设计了一个辅助卷积支路(Auxiliary Convolution Branch，ACB)。如图3所示，所述辅助卷积支路包括两个组卷积归一化激活层(Group Convolution Batch-normalization ReLU，GCBR)，每个组卷积归一化激活层包括一个卷积核为3×3的分组卷积、一个批归一化层和一个ReLU激活函数，所述动态聚合变换器编码器的输入特征Fs输入所述辅助卷积支路得到辅助卷积支路的输出X_conv。辅助卷积支路的主要目的在于补充视觉变换器中缺乏的归纳偏置，可以加快视觉变换器收敛速度，从而大大加快整体网络的收敛速度，减少网络的训练时间。辅助卷积支路和动态聚合变换器支路相辅相成，组成了动态聚合变换器编码器。

动态聚合变换器编码器的输出X_encoder为：

X_encoder＝α·Reshape(X_conv)+X_trans，

其中，α为可学习权重，Reshape()表示特征重组，X_conv表示辅助卷积支路的输出，X_trans表示动态聚合变换器支路的输出。本实施例中α初始化为0.1，设置α可以让动态聚合变换器网络能够动态地选择辅助卷积支路提供的归纳偏置。

所述组卷积嵌入块包括嵌入重组层和分组卷积层，本实施例中分组卷积层为步长为2、卷积核大小为3×3分组卷积。所述动态聚合变换器编码器的输出X_encoder经过所述嵌入重组层进行特征重组后输入所述分组卷积层，得到所述组卷积嵌入块的输出X_gce为：

X_gce＝Reshape(GConv_3x3(Reshape(X_encoder)))，其中，Reshape()表示特征重组，GConv_3x3()表示3×3分组卷积操作。将动态聚合变换器编码器模块得到的语义标记进行重组，并经过卷积嵌入模块获取多尺度特征图。与传统池化下采样相比，卷积嵌入模块不仅能够弥补经过动态聚合变换器编码器的语义标记中位置信息的丢失，同时能够防止池化下采样过程中细节信息的丢失，对边界模糊的细小血管的分割具有重大意义。

本实施例中动态聚合变换器编码器模块包括3个动态聚合变换器编码器，组卷积嵌入模块包括2个组卷积特征嵌入块。将初始化后的原始图像的语义标记嵌入特征作为第一个动态聚合变换器编码器的输入特征，经过第一个动态聚合变换器编码器得到第一个动态聚合变换器编码器的输出X_encoder1、X_encoder1进入第一个组卷积特征嵌入块得到第一个组卷积特征嵌入块的输出X_gce1、X_gc 1进入第二个动态聚合变换器编码器得到第二个动态聚合变换器编码器的输出X_encoder2、X_encoder2进入第二个组卷积特征嵌入块得到第二个组卷积特征嵌入块的输出X_gce2、X_gc 2进入第三个动态聚合变换器编码器得到第三个动态聚合变换器编码器的输出X_encoder3，最终得到具有丰富全局信息的多尺度特征图X_encoder3。

轻量级卷积解码器模块包括至少一个轻量级卷积解码器块和一个上采样单元，本实施例中轻量级卷积解码器模块包括2个轻量级卷积解码器块和一个上采样单元。传统的解码器在U型结构的网络中的主要作用是解码特征图的分辨率，通常采用与编码器结构相对称的结构。由于视觉变换器参数量与计算量较大，使用与其对称的解码器结构会给网络带来巨大的负担，为此本发明对解码器结构进行了深入研究，在保持网络性能不下降的情况下，设计了一种尽可能减少解码器参数量的轻量级卷积解码器块的结构。本实施例中轻量级卷积解码器块包括1个轻量级卷积解码器(Light Convolution Decoder，LCD)，所述轻量级卷积解码器包括卷积核大小为3×3的卷积层、批归一化层和ReLU激活函数；本实施例中的轻量级卷积解码器包括1个轻量级卷积解码器，此数量的轻量级卷积解码器是通过大量实验得出的，可以在参数量极小的情况下获得与对称变换器解码器相当的结果。

将输入所述轻量级卷积解码器模块的多尺度特征图表示为

其中C_in表示输入特征通道维度，H表示特征高度，W表示特征宽度；所述多尺度特征图依次F_i经过各个所述轻量级卷积解码器块和上采样单元得到所述解码特征图

其中C_out表示输出特征通道维数，σ表示上采样倍数。

本发明还公开了一种视网膜血管分割方法，包括以下步骤：

构建动态聚合变换器网络；

训练所述动态聚合变换器网络得到训练完成的动态聚合变换器网络，使用交叉熵函数作为训练的损失函数，训练所述动态聚合变换器网络直到所述损失函数收敛，停止训练得到所述训练完成的动态聚合变换器网络。交叉熵函数是卷积神经网络中使用最广泛的损失函数之一，可以在像素间直接评估标签和预测图之间的距离，交叉熵函数

为：

其中，g_i∈[0，1]表示每一个像素的标签，本实施例中即指血管的标签；p_i∈[0，1]表示预测的结果，本实施例中即指血管分割的结果，N表示像素的总个数；

将光学相干断层扫描血管造影(Optical Coherence Tomography Angiography，OCTA)图像输入所述训练完成的动态聚合变换器网络中进行分割，得到视网膜血管分割结果。

本发明使用动态聚合变换器编码器模块提高了提取上下文和全局信息的能力，通过动态聚合法减少了视觉变换器的计算量；使用多头动态聚合注意力提取特征，解决了卷积神经网络局部感觉野受限的问题；使用轻量级卷积解码器模块代替传统的对称变换器解码器，减少了网络参数量，在参数量与分割精度之间达到了最佳的均衡，可以有效提升血管分割性能。

动态聚合变换器网络可以克服现有卷积网络中感受野不足、特征提取能力不足的问题，首次将视觉变换器首次应用于视网膜血管分割任务，可以在高效获取远距离像素间隐性关系的同时对复杂结构目标的特征进行充分提取，通过动态聚合法、轻量级卷积解码器模块以及辅助卷积支路模块解决视觉变换器计算量庞大、参数量巨大以及收敛缓慢的问题。

同时，视网膜血管分割方法将DA-TransNet应用于具有挑战性的医学图像分割——光学相干断层扫描血管造影图像中的视网膜血管的分割。实现了视网膜OCTA图像中远距离像素间相关性表征的高效建模，解决了卷积神经网络局部感觉野受限的问题。同时，通过网络结构的合理设计，提升了网络的计算性能，解决了视觉变换器计算量庞大、参数量大与收敛缓慢三个重要问题。可以有效提升血管分割性能，在具有挑战性的OCTA图像数据集上取得了良好的视网膜血管分割性能，在参数量与分割精度之间达到了最佳的均衡，具有一定的通用性能，为后续病变的定量分析奠定基础。

许多研究证明，视网膜血管分割不仅是区分人体新城代谢、身体系统疾病和血液疾病严重程度的关键步骤，而且在评估疾病进展和治疗效果方面也发挥着重要作用。光学相干断层扫描血管成像OCTA技术可以无创、清晰地显影视网膜血管。因此，基于光学相干断层扫描血管成像OCTA图像的视网膜血管自动分割具有重要的临床意义。

为了进一步说明本发明的有益效果，本实施例中在四个数据集上进行实验。数据集1来自英国爱丁堡大学亚瑟学院提供的OCTA-RSS，总共包含来自11个患者的55张分辨率为91×91的血管成像；数据集2来自中国科学院宁波工业技术研究院慈溪生物医学工程研究所提供的ROSE，总共包含来自112只眼睛的112张分辨率为304×304的血管成像；数据集3来自南京理工大学计算机科学与工程学院提供的OCTA-6M，总共包含来自300只眼睛的300张分辨率为400×400的血管成像；数据集4来自南京理工大学计算机科学与工程学院提供的OCTA-3M，总共包含来自200只眼睛的200张分辨率为304×304的血管成像。

为了增加训练数据的多样性以及防止模型过拟合，采用随机左右和上下翻转、随机旋转进行在线数据扩增。为了客观评估本发明方法的性能，采用了Jaccard系数(JaccardCoefficient，JAC)、DICE系数(DICE)、平衡准确度(Balanced Accuracy，BACC)、精确度(Precision，PRE)和召回率(Recall，REC)5个评价指标。

将本发明中的使用动态聚合变换器网络进行视网膜血管分割的方法(DA-TransNet)与使用U-Net(详见论文“U-Net：Convolutional networks for biomedicalimage segmentation”)、CS-Net(详见论文“CS-Net：Deep learning segmentation ofcurvilinear structures in medical imaging”)、U-Net3+(详见论文“U-Net3+：A full-scale connected unet for medical image segmentation”)、CENet(详见论文“CENet：Context encoder network for 2d medical image segmentation”)、TransUNet(详见论文“TransUNet：Transformers make strong encoders for medical imagesegmentation”)、SwinUNet(详见论文“Swi nUNet：UNet-like pure tr ansformer formedical image segmentation”)和UTNet(详见论文“UTNet：a hybrid transformerarchitecture for medical image segmentation”)网络进行视网膜血管分割的七种方法进行比较，结果如表1-表5所示。

表1数据集1上使用本发明方法和七种方法的分割结果比较表

表2数据集2上使用本发明方法和七种方法的分割结果比较表

表3数据集3上使用本发明方法和七种方法的分割结果比较表

表4数据集4上使用本发明方法和七种方法的分割结果比较表

表5使用本发明方法和七种方法的网络的参数量和计算量FLOPs的对比表

在如表1所示的数据集1的实验结果中，本发明提出的DA-TransNet的Jaccard系数、DICE系数、平衡准确度、精确度和召回率均高于其他七种方法，本发明方法的性能最好。在如表2所示的数据集2的实验结果中，本发明的Jaccard系数、DICE系数和精确度是最好的，并且平衡准确度与召回率与表现最好的UTNet性能接近。在如表3所示的数据集3的实验结果中，本发明提出的DA-TransNet的Jaccard系数、DICE系数、平衡准确度、精确度和召回率均高于其他七种方法，本发明方法的性能最好。在如表4所示的数据集4的实验结果中，本发明的Jaccard系数、DICE系数和精确度是最好的，并且平衡准确度与召回率与表现最好的UTNet性能接近。同时，如表5所示的计算量与参数量，本发明方法是UTNet的12％和80％。综合表1-表5，可以看出本发明在性能指标与计算量上达到了良好的均衡。

图4-图5展示了不同网络分割的可视化结果对比，从左到右分别表示原始OCTA图像，金标准(Ground Truth，GT)，以及本发明提出的DA-TransNet和其他医学图像分割网络U-Net、CS-Net、U-Net3+、CENet、TransUNet、SwinUNet和UTNet的分割结果；图4和图5的第一行为在数据1上的结果，第二行为在数据2上的结果，第三行为为在数据3上的结果，第四行为为在数据4上的结果。从图4和图5方框框注的局部细节可以看出，以U-Net为代表的卷积神经网络可以较好的分割粗血管，但是难以正确分割边界模糊的细血管，导致了较多的假阳现象，以UTNet为代表的视觉变换器网络相较于卷积神经网络，可以分割出部分细血管，但细血管的连通性较差，导致了较多的假阴现象，本发明提出的DA-TransNet对细血管的形状和大小差异适应性能较好，较好地抑制了假阳和假阴现象，对于不同形态的视网膜血管均得到了最佳的分割效果，表明本发明提出的DA-TransNet在0CTA图像中视网膜血管的分割任务中具有较大的潜力。

同时，本实施例中还设置了(a)关于辅助卷积支路的消融实验来证明辅助卷积支路的有益效果，以及设置了(b)关于解码器结构的消融实验来证明轻量级卷积解码器的有益效果。

(a)关于辅助卷积支路的消融实验

辅助卷积支路的设计目的是为了加快网络的收敛速度，本发明设计了相关的4个消融实验来证明辅助卷积支路的有效性，包括：(1)无辅助卷积支路+100轮训练；(2)无辅助卷积支路+300轮训练；(3)辅助卷积支路+100轮训练；(4)辅助卷积支路+300轮训练。其中，训练100轮的策略用于模拟网络在有限长训练时间内的性能；训练300轮的策略用于模拟网络在充足训练时间下的性能。消融实验的结果如附表6所示。

表6关于辅助卷积支路的消融实验结果表

表注：“√”表示选择“本发明中的辅助卷积支路”，“训练100轮”或“训练300轮”的条件下进行训练。

从表6可以看出，在四个数据集中，本发明提出的DA-TransNet在不配备辅助卷积支路以及有限训练时间下(无辅助卷积支路+100轮训练)，其分割性能下降显著，主要原因是视觉变换器缺乏归纳偏置、收敛缓慢，在有限的训练时间内，网络难以收敛到全局最优。但是，当DA-TransNet在不配备辅助卷积支路的情况下，如训练时间充足(无辅助卷积支路+300轮训练)，可以发现，该网络的分割性能指标与DA-TransNet接近，这本发明设计的动态聚合变换器对于分割性能起到了决定作用，而辅助卷积支路起到了一个辅助网络快速收敛的作用。同时，根据实验还可以得到辅助卷积支路的加入可以使得DA-TransNet的收敛时间降低至未加辅助卷积支路前的1/2，表明辅助卷积支路能够在一定程度上缓解动态聚合变换器中缺乏归纳偏置的问题，从而加快了网络的收敛速度。

(b)关于解码器结构的消融实验

在设计网络解码器时，本发明选择采用轻量级卷积解码器作为默认解码器，为了验证该结构的合理性和有效性，本发明进行了详细的解码器结构消融实验。如附图6所示，本发明对比了五种不同解码器结构：(i)轻量级卷积解码器(LCD)(本发明中使用的结构)，(ii)由两个LCD组成的解码器(该解码器与U-Net的解码器一致)，(iii)由三个LCD组成的解码器，(iv)对比实验卷积网络中分割性能最优的U-Net3+采用的密集连接解码器，(v)与SwinUNet中类似的对称变换器解码器。图6中(a)表示轻量级卷积解码器(LCD)，(b)表示由两个LCD组成的解码器，(c)表示由三个LCD组成，(d)表示密集连接解码器，(e)表示对称变换器解码器。每个解码器都采用跳跃连接来完成语义融合，实验结果如表7和表8所示。

表7在4个数据集上使用五种不同解码器结构的分割结果比较表

表8使用五种不同解码器结构的参数量和计算量FLOPs的实验结果表

从表7可以看出，在四个数据集中，采用上述5种解码器的分割性能差异不大，本发明的结构性能相对最好；但从表8可以看出，(ii)-(v)的解码器设计会大大增加网络的参数量和计算量，表明选择采用轻量级卷积解码器作为本发明DA-TransNet的解码器是合理的，即满足了在尽可能减少参数量与运算时间情况下保持网络分割性能的设计要求。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种动态聚合变换器网络，其特征在于：

所述动态聚合变换器网络包括动态聚合变换器编码器模块、组卷积嵌入模块和轻量级卷积解码器模块，

2.根据权利要求1所述的动态聚合变换器网络，其特征在于：所述动态聚合变换器编码器模块包括至少一个动态聚合变换器编码器，所述组卷积嵌入模块包括至少一个组卷积特征嵌入块；

3.根据权利要求2所述的动态聚合变换器网络，其特征在于：所述动态聚合变换器编码器包括动态聚合变换器支路和辅助卷积支路，

4.根据权利要求3所述的动态聚合变换器网络，其特征在于：所述动态聚合法，具体为：

步骤5：重复步骤2-步骤5T次，得到最终的聚合特征Ts_ag。

5.根据权利要求3所述的动态聚合变换器网络，其特征在于：所述动态聚合变换器支路使用动态聚合法将所述动态聚合变换器编码器的输入特征转化为聚合特征，使用多头动态聚合注意力从所述聚合特征中提取特征得到所述动态聚合变换器支路的输出，具体为：

S3：计算多头动态聚合注意力MDTAA(Q，K，V)：

MDTAA(Q，K，V)＝Concat(head_i，...，head_n)W^O，

softmax()表示softmax函数，DA()表示进行所述动态聚合法操作，dk是低秩空间的键向量K的通道维度；

6.根据权利要求5所述的动态聚合变换器网络，其特征在于：所述辅助卷积支路包括两个组卷积归一化激活层，每个组卷积归一化激活层包括卷积核为3×3的分组卷积、批归一化层和ReLU激活函数，所述动态聚合变换器编码器的输入特征输入所述辅助卷积支路得到辅助卷积支路的输出X_conv。

7.根据权利要求6所述的动态聚合变换器网络，其特征在于：所述根据所述动态聚合变换器支路的输出和所述辅助卷积支路的输出得到所述动态聚合变换器编码器的输出，具体为：

动态聚合变换器编码器的输出X_encoder为：

X_encoder＝α·Reshape(X_conv)+X_trans，

其中，α为可学习权重，Reshape()表示特征重组。

8.根据权利要求2所述的动态聚合变换器网络，其特征在于：所述组卷积嵌入块包括嵌入重组层和分组卷积层，所述动态聚合变换器编码器的输出经过所述嵌入重组层进行特征重组后输入所述分组卷积层，得到所述组卷积嵌入块的输出。

9.根据权利要求1-8任一项所述的动态聚合变换器网络，其特征在于：所述轻量级卷积解码器模块包括至少一个轻量级卷积解码器块和一个上采样单元，所述轻量级卷积解码器块包括1个轻量级卷积解码器，所述轻量级卷积解码器包括卷积核大小为3×3的卷积层、批归一化层和ReLU激活函数；

将输入所述轻量级卷积解码器模块的多尺度特征图表示为

其中C_out表示输出特征通道维数，σ表示上采样倍数。

10.一种视网膜血管分割方法，其特征在于，包括以下步骤：

构建如权利要求1-9任一项所述的动态聚合变换器网络，