CN114612479B

CN114612479B - 基于全局与局部特征重建网络的医学图像分割方法和装置

Info

Publication number: CN114612479B
Application number: CN202210121683.0A
Authority: CN
Inventors: 朱伟芳; 宋佳欢; 陈新建
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2023-03-24
Anticipated expiration: 2042-02-09
Also published as: CN114612479A; US20230274531A1; WO2023151141A1

Abstract

本发明涉及一种基于全局与局部特征重建网络的医学图像分割方法、设备、装置及计算机存储介质，本发明提供的基于全局和局部特征重建网络，其中的全局特征重建GFR模块通过全局描述子将语义信息从高层级特征引入到低层级特征，消除各层级特征之间的语义间隔，并采用跨级全局描述子重建特征图，使得网络获得全局感受野，实现长距离特征依赖建模；局部特征重建LFR模块实现基于低阶段特征图引导的特征动态上采样，通过动态地重建局部特征，将低阶段特征图中的空间细节信息传递到高阶段特征图中，从而实现特征的空间信息恢复，克服现有技术中U型编解码器网络中的全局特征提取与长距离特征依赖建模能力不足、特征图空间信息的恢复不足等问题，提升了图像分割精度。

Description

基于全局与局部特征重建网络的医学图像分割方法和装置

技术领域

本发明涉及医学图像分割技术领域，尤其是指一种基于全局与局部特征重建网络的医学图像分割方法、设备、装置及计算机存储介质。

背景技术

现有的技术中，在医学图像分割任务中，全局特征提取与长距离特征依赖建模以及特征图空间信息的恢复对于以U-Net为代表的编解码结构网络至关重要。虽然在许多医学图像分割任务中，以U-Net为代表的编解码结构网络获得了良好的分割效果，但是仍存在以下不足：

(1)U-Net仅在不同层级进行特征融合，其全局上下文提取能力不足。虽然对特征图的下采样操作使得卷积网络拥有更大的感受野，在深层可以获得特征间的长距离依赖，但是随着网络深度的加深，网络的实际感受野远远小于其理论感受野。最近,在这方面的改进工作主要包括：多尺度特征融合技术和注意力机制。DeepLabV3+中采用的空洞空间卷积池化金字塔(AtrousSpatialPyramidPooling,ASPP)借助多个并行的空洞卷积提取多尺度特征，最后按通道维度拼接特征图并使用1×1卷积恢复到原来的通道维度大小。类似的，PSPNet则是使用金字塔池化模块(PyramidPoolingModule，PPM)来获取多尺度特征。但是由于采用了卷积参数共享，这些方式都不能动态地处理不同位置的特征，缺少处理不同位置的特征需要不同上下文依赖的空间意识性。注意力机制则采用动态方式对长距离特征进行建模，具有代表性的研究如基于空间注意力机制的非局部(Non-local)模块和基于通道注意力机制的压缩与激励(SqueezeandExcitation，SE)模块。Non-local模块建立了空间中每个像素之间的联系使得网络能够生成强大的像素级特征表示，但Non-local模块需要计算每对像素之间的相似度，因此其计算复杂度很高。SE模块提取全局空间特征，并以相同的权重将全局特征分布到特征图的各个位置，对不同通道特征进行增强或抑制，SE模块对所有像素一视同仁，对于语义分割这种像素级分割任务不够鲁棒。

(2)简单的跳跃连接不加区别地联合了不同层级的局部信息，忽略了语义信息。一方面，低层级特征包含了太多噪声从而无法提供足够的高分辨率语义指导，另一方面，直接拼接特征会存在特征图之间语义信息不对齐问题。为了高效地融合特征并抑制低层级特征图中无关噪声的影响，AttentionU-Net、AG-Net和ACNet等方法采用门控机制抑制或突出不同的语义信息，使得特征融合更加灵活。但是，这些方法都没有解决高层级特征与低层级特征之间的语义不对齐问题。

(3)解码器阶段的特征上采样通常采用仅依赖于像素间距离的最近邻插值或者双线性插值，特征的空间信息恢复不足。基于转置卷积的上采样在整个特征图上采用同一个卷积核，忽略了不同位置特征的语义信息。SFNet提出了一种基于语义流的上采样方式，实现特征融合之前的语义对齐，并借助深监督机制在自然图像分割任务中获得出色的表现。基于空间信息包含于通道假设的亚像素卷积(sub-pixelconvolution)技术广泛应用于图像语义分割。比如，数据依赖上采样(Data-dependentUp-sampling，DUpsampling)采用线性变化近似标签的结构化信息，与转置卷积类似，DUpsampling在整个特征图上采用了相同的参数；内容感知特征重组(Content-AwareReAssemblyofFeatures，CARAFE)方法将邻域特征重组实现上采样，但是其无法整合低层级特征的丰富空间信息。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中U型编解码器网络中的全局特征提取与长距离特征依赖建模能力不足、特征图空间信息的恢复不足问题。

为解决上述技术问题，本发明提供了一种基于全局与局部特征重建网络的医学图像分割方法，包括：

将待检测图片输入预先训练好的全局与局部特征重建网络中，所述全局与局部特征重建网络包括特征编码模块、全局特征重建GFR模块、基于局部特征重建LFR模块的特征解码模块，所述全局特征重建GFR模块嵌入所述特征编码模块和所述特征解码模块的跳跃连接中；

利用所述特征编码模块对所述待检测图片进行特征提取，得到多个层级的特征图；

利用全局特征重建GFR模块为每层特征图生成全局描述子；

利用全局特征重建GFR模块结合所述每层特征图与高层特征图的全局描述子生成每层特征图的跨级全局描述子；

利用全局特征重建GFR模块预测每层特征图中所有像素的重建权重，与所述跨级全局描述子相乘实现特征重建，并与所述每层特征图相加得到每层的全局重建特征图；

利用所述特征解码模块中的局部特征重建LFR模块将相邻高一阶段局部重建特征图与相邻低一层级全局重建特征图进行融合上采样，得到当前阶段高分辨率语义特征图；

将第一阶段高分辨率语义特征图进行上采样得到目标分割预测图像。

优选地，所述全局与局部特征重建网络训练过程采用的损失函数为整体损失函数

其中，l为层级数，L_seg为基于交叉熵损失和Dice损失的联合分割损失函数，

为基于交叉熵损失和Dice损失的联合深监督损失函数，λ是分割损失L_seg和深监督损失

之间的权衡系数。

优选地，所述特征编码模块采用基于ImageNet预训练的ResNet34作为主干网络，并去除了最后的全局池化和全连接层。

优选地，所述利用全局特征重建GFR模块为每层特征图生成全局描述子包括：

将特征图按其空间维度拉平，得到

作为所述全局特征重建GFR模块的输入；

将X_l输入两个1*1的卷积层分别生成注意力图

和嵌入特征

根据所述注意力图和所述嵌入特征生成所述特征图的全局描述子：

其中，l表示所述特征图所在的层级数，d_in表示所述特征图的通道数，H和W分别表示所述特征图的高度和宽度，ρ(·)表示按所述空间维度执行softmax归一化操作，使得权重和为1，d_h和d_k分别表示所述全局描述子的维度和个数,每层特征图的全局描述子维度均设置为所有层级特征中最小的通道数,每一个所述全局描述子

由B_l空间中的所有特征加权求和得到。

优选地，所述利用全局特征重建GFR模块结合所述每层特征图与高层特征图的全局描述子生成每层特征图的跨级全局描述子包括：

利用

生成第l层级的跨级全局描述子Z_l；

其中，Z_l+1，...，Z_l+m表示由第l+1,…,l+m层级的所述特征图生成的所述全局描述子，concat表示对所述全局描述子的拼接操作。

优选地，所述利用全局特征重建GFR模块预测每层特征图中所有像素的重建权重，与所述跨级全局描述子相乘实现特征重建，并与所述每层特征图相加得到每层的全局重建特征图包括：

将所述特征图X_l通过一个1*1卷积层得到所述重建权重

其中m表示第l层特征图对应的所述高层级特征图产生并连接到所述第l层特征图的全局描述子数量；

按通道方向采用softmax函数对所述重建权重进行归一化得到重建特征

将所述重建特征

通过1*1卷积层恢复通道数量并与所述特征图X_l相加，得到所述全局重建特征图。

优选地，所述利用所述特征解码模块中的局部特征重建LFR模块将相邻高一阶段局部重建特征图与相邻低一层级全局重建特征图进行融合上采样，得到当前阶段高分辨率语义特征图包括：

所述特征解码模块包括多个阶段的局部特征重建LFR模块，其输入记为Y和Z，其中第4阶段LFR模块的输入Y为所述第4层级全局特征重建GFR模块的输出、输入Z为所示第3层级全局特征重建GFR模块的输出，第1阶段LFR模块的输入Y为第2阶段LFR模块的输出、输入Z为编码器第0层级的特征图，第3和第2阶段LFR模块的输入Y和Z分别为相邻高一阶段LFR模块的输出和相邻低一层级GFR模块的输出；

所述局部特征重建LFR模块的两个输入特征图Y和Z分别通过两个1*1卷积层降低通道数量；

将Y进行双线性上采样使得所述两个输入特征图达到相同的空间分辨率，并将其按元素相加融合后经过一个3×3卷积层得到局部重建核

预测值

其中，k为局部特征重建的邻域尺寸，H和W为特征图的高度和宽度，θ(·)和ψ(·)分别表示参数为W_θ和W_ψ的1×1卷积，Up(·)表示双线性插值上采样，conv_f(·)表示3×3卷积，softmax函数用于归一化预测的重建核；

将Y通过3×3卷积层降低通道数，并采用双线性插值上采样Up(·)将其上采样至与Z具有相同的分辨率，得到

利用所述局部重建核预测值对每个位置[i，j]的k×k邻域进行线性组合以实现局部特征重建：

其中，

[i+n，j+m]为邻域特征；

对重建后的局部特征图Y'与输入Z按通道维度拼接，并经过两个3×3卷积层融合得到当前阶段LFR模块的输出Y_out；

将Y_out和相邻低一层级全局重建特征图或者编码器第0层级特征图作为下个阶段LFR模块的两个输入得到当前阶段高分辨率语义特征图。

本发明还提供了一种基于全局与局部特征重建网络的医学图像分割装置，包括：

输入模块，用于将待检测图片输入预先训练好的全局与局部特征重建网络中，所述全局与局部特征重建网络包括特征编码模块、全局特征重建GFR模块、基于局部特征重建LFR模块的特征解码模块，所述全局特征重建GFR模块嵌入所述特征编码模块和所述特征解码模块的跳跃连接中；

特征编码模块，用于利用所述特征编码模块对所述待检测图片进行特征提取，得到多个层级的特征图；

全局描述子生成模块，用于利用全局特征重建GFR模块为每层特征图生成全局描述子；

跨级描述子生成模块，用于利用全局特征重建GFR模块结合所述每层特征图与高层特征图的全局描述子生成每层特征图的跨级全局描述子；

全局特征重建模块，用于利用全局特征重建GFR模块预测每层特征图中所有像素的重建权重，与所述跨级全局描述子相乘实现特征重建，并与所述每层特征图相加得到每层的全局重建特征图；

特征解码模块，用于利用所述特征解码模块中的局部特征重建模块将相邻高一阶段局部重建特征图与相邻低一层级全局重建特征图进行融合上采样，得到当前阶段高分辨率语义特征图，将第一阶段高分辨率语义特征图进行上采样得到目标分割预测图像。

本发明还提供了一种基于全局与局部特征重建网络的医学图像分割设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述一种基于全局与局部特征重建网络的医学图像分割方法步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于全局与局部特征重建网络的医学图像分割方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于全局与局部特征重建网络的医学图像分割方法，设计了一种基于全局和局部特征重建的U型编解码结构分割网络，其中的全局特征重建GFR模块通过全局描述子将语义信息从高层级特征引入到低层级特征，消除各层级特征之间的语义间隔，并采用跨级全局描述子重建特征图，使得网络获得全局感受野，实现长距离特征依赖建模，克服简单跳跃连接存在的全局上下文特征获取能力不足缺点，以全局角度解决特征融合中存在的语义信息不平衡问题；局部特征重建LFR模块实现基于低阶段特征图引导的特征动态上采样，通过动态地重建局部特征，将低阶段特征图中的空间细节信息传递到高阶段特征图中，从而实现特征的空间信息恢复，克服编码器中高阶段特征的空间信息恢复能力不足的缺点，以局部角度解决特征融合中存在的空间信息不平衡问题，提升了图像分割精度。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是本发明基于全局与局部特征重建网络的医学图像分割方法的实现流程图；

图2是本发明所设计的全局和局部特征重建网络GLFRNet的整体结构；

图3是本发明所设计的全局特征重建GFR模块；

图4是本发明设计的局部特征重建LFR模块；

图5是本发明GLFRNet与其他优秀网络的结肠息肉分割结果比较；

图6是跳跃连接中插入GFR模块前、后的特征图可视化比较；

图7是本发明GLFRNet与其他优秀网络的脉络膜分割结果比较；

图8是本发明GLFRNet与其他优秀网络的视网膜多类积液分割结果比较；

图9是本发明GLFRNet与其他优秀网络的多器官分割结果比较；

图10是本发明实施例提供的一种基于全局与局部特征重建网络的医学图像分割装置的结构框图。

具体实施方式

本发明的核心是提供一种基于全局与局部特征重建网络的学图像分割方法、装置、设备及计算机存储介质，解决了全局特征提取与长距离特征依赖建模能力不足、特征图空间信息的恢复不足等问题，提升了医学图像的分割精度。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1和图2，图1为本发明基于全局与局部特征重建网络的医学图像分割方法的实现流程图，图2是本发明所设计的全局和局部特征重建网络GLFRNet的整体结构；具体操作步骤如下：

S101:将待检测图片输入预先训练好的全局与局部特征重建网络中；

所述全局与局部特征重建网络GLFRNet包括特征编码模块、全局特征重建GFR模块、基于局部特征重建LFR模块的特征解码模块，所述全局特征重建GFR模块嵌入所述特征编码模块和所述特征解码模块的跳跃连接中.

所述特征编码模块采用基于ImageNet预训练的ResNet34作为主干网络，并去除了最后的全局池化和全连接层,ResNet34采用的残差机制可以加快网络的收敛速度并且避免梯度消失问题。

本实施例中，ResNet34包括5个阶段，第一个阶段包括步长为2的一个7×7卷积、批归一化和Relu激活函数，后4个阶段分别包含3、4、6、3个残差模块，每个阶段下采样一次、通道数增大一倍，ResNet34共下采样5次，输出通道数分别为64、64、128、256、512，按分辨率由高到低标记为0-4层级，共5级特征图。

所述全局与局部特征重建网络训练过程采用的损失函数为整体损失函数

之间的权衡系数，取值为0.2。

L_seg＝L_CE+αL_Dice

其中，α表示交叉熵损失L_CE与Dice损失L_Dice的权衡系数，取值为0.5；

其中，特征图的像素总和为N，i＝1,2,3,...,N表示第i个像素，C表示分割目标的类别数。y_i，c表示第i个像素在第c(c＝1,2,…C)个类别处的标签，通常每个像素只有属于C中的某一个类别。p_i，c∈[0，1]表示模型对像素i属于类别c的预测概率，本发明采用softmax函数对网络最后的输出进行处理，使得对所有类别的预测概率和为1；

Dice损失函数分别计算每个类别目标和金标准的重合度，然后求类别平均，其计算方法如：

其中，ε为一个平滑因子，防止分子或分母为零，取值为1e-6；

在GFR模块中对注意力图A_l采用了深监督机制，深监督损失函数

同样采用基于交叉熵损失和Dice损失的联合损失函数，其定义如下：

其中，β表示交叉熵损失L_CE与Dice损失L_Dice的权衡系数，取值为0.5。

S102:利用所述特征编码模块对所述待检测图片进行特征提取，得到多个层级的特征图；

S103:利用全局特征重建GFR模块为每层特征图生成全局描述子；

S104:利用全局特征重建GFR模块结合所述每层特征图与高层特征图的全局描述子生成每层特征图的跨级全局描述子；

全局特征重建GFR模块通过全局描述子将语义信息从高层级特征引入到低层级特征，消除各层级特征之间的语义间隔，并采用跨级全局描述子重建特征图，使得网络获得全局感受野，实现长距离特征依赖建模。

S105:利用全局特征重建GFR模块预测每层特征图中所有像素的重建权重，与所述跨级全局描述子相乘实现特征重建，并与所述每层特征图相加得到每层的全局重建特征图；

S106:利用所述局部特征重建LFR模块将相邻高一阶段局部重建特征图与相邻低一层级全局重建特征图进行融合上采样，得到当前阶段高分辨率语义特征图，将第一阶段高分辨率语义特征图进行上采样得到目标分割预测图像。

局部特征重建LFR模块实现基于低阶段特征图引导的特征动态上采样，通过动态地重建局部特征，将空间细节信息传递到高阶段特征图中，从而实现特征的空间信息恢复。

利用所述特征解码模块，用于利用所述4个阶段的局部特征重建模块通过动态重建局部特征，将低阶段特征图中的空间细节信息传递到高阶段特征图，得到高分辨率语义特征图，并将所述第一阶段局部重建特征模块输出的高分辨率语义特征图进行一次双线性上采样得到目标分割预测图像。

本发明所述的基于全局与局部特征重建网络的医学图像分割方法，设计了一种基于全局和局部特征重建的U型编解码结构分割网络，其中的全局特征重建GFR模块，克服简单跳跃连接存在的全局上下文特征获取能力不足缺点，以全局角度解决特征融合中存在的语义信息不平衡问题；局部特征重建LFR模块，克服编码器中高阶段特征的空间信息恢复能力不足的缺点，以局部角度解决特征融合中存在的空间信息不平衡问题。

基于上述实施例，请参考图3，本实施例对步骤S103进行进一步说明，具体如下：

S131:将特征图按其空间维度拉平，得到

作为所述全局特征重建GFR模块的输入；

S132:将X_l输入两个1*1的卷积层分别生成注意力图

和嵌入特征

S133:根据所述注意力图和所述嵌入特征生成所述特征图的全局描述子：

其中，l表示所述特征图所在的层级数，d_in表示所述特征图的通道数，H和W分别表示所述特征图的高度和宽度，ρ(·)表示按所述空间维度执行softmax归一化操作，使得权重和为1，d_h和d_k分别表示所述全局描述子的维度和个数,由于不同层级特征图的通道数不相同，为了减少计算量和权重的维度，每层特征图的全局描述子维度均设置为所有层级特征中最小的通道数，本实施例为64，每一个所述全局描述子

由B_l空间中的所有特征加权求和得到，因此可以让网络自主学习和选择所需类别的全局特征，这是本发明与SE模块(Squeeze-and-ExcitationNetworks)采用基于所有像素取平均的全局池化而导致所得全局特征无类别鉴别性的重要区别。

为了增强全局描述子对类别特征的选择性，本发明对注意力图A_l采用了深监督机制。将注意力图A_l按通道划分为n个组，其中n表示分割类别数。然后，A_l中的每一组按通道平均，得到深监督的预测。第s个全局描述子

取决于

中的第s个通道的注意力图。A_l中的不同分组属于不同类别的注意力图，同一分组内的注意力图属于同一类别，但可以关注到同一类别中的不同特征。每个类别含有d_k/n个全局描述子，在极端情况d_k＝n时，全局描述子即为每个类别的类别中心。每个类别采用多个全局描述子来表示能够使得在类内差异较大的情况下有全面的类别特征表示。

基于以上实施例，本实施例对步骤S104进一步说明，具体如下：

利用

生成第l层级的跨级全局描述子Z'_l；

对于第l层级的特征，如果由该层级特征生成的全局描述子Z_l被用于特征重建，可使得本层级空间每个位置的特征之间通过全局描述子Z_l建立关联，由于低层级特征可以通过跨级全局描述子以特征重建的方式获得高层级特征图中语义信息的指导，因此重建后的低层级特征图将同时获得语义信息和空间细节信息，即GFR模块通过采用少数几个全局描述子实现了语义信息从高层级特征图向低层级特征图的传递。

基于以上实施例，本实施例对步骤S105进一步说明，具体如下：

这一步的主要工作是采用跨级全局描述子Z′_l重建每个位置的特征。

S151:将所述特征图X_l通过一个1*1卷积层得到所述重建权重

S152:按通道方向采用softmax函数对所述重建权重进行归一化得到重建特征

从而增强全局描述子的选择能力；

表示重建后的特征，

中每个位置的特征值均由跨级全局描述子重新组合而来，因此也起到了抑制无关噪声的作用。类别一致的特征倾向于选择由相同类别的全局描述子来重建，从而减少类内差异性，而类别不一致的特征倾向于选择由不同类别的全局描述子来重建，以增大类间差异性。

S153:将所述重建特征

请参考图4，基于以上实施例，本实施例对步骤S106进一步说明，具体操作如下：

S161:所述特征解码模块包括4个阶段的局部特征重建模块，其输入记为Y和Z，其中第4阶段LFR模块的输入Y为所述第4层级全局特征重建GFR模块的输出、输入Z为所示第3层级全局特征重建GFR模块的输出，第1阶段LFR模块的输入Y为第2阶段LFR模块的输出、输入Z为编码器第0层级的特征图，第3和第2阶段LFR模块的输入Y和Z分别为相邻高一阶段LFR模块的输出和相邻低一层级GFR模块的输出；

S162:所述局部特征重建LFR模块的两个输入特征图Y和Z分别通过两个1*1卷积层降低通道数量；

S163:将Y进行双线性上采样使得所述两个输入特征图达到相同的空间分辨率，并将其按元素相加融合后经过一个3×3卷积层得到局部重建核

预测值

S164:将Y通过33卷积层降低通道数，并采用双线性插值上采样Up(·)将其上采样至与Z具有相同的分辨率，得到

S165:利用所述局部重建核预测值对每个位置[i，j]的k×k邻域进行线性组合以实现局部特征重建：

其中，

[i+n，j+m]为邻域特征；

为了在重建过程中保留相对位置信息、获得具有丰富语义信息的上采样特征图，对每个位置[i，j]的k×k邻域进行线性组合以实现局部特征重建，由于重建核的预测过程中融合了Y的语义信息和Z的空间信息，局部特征重建采用的特征动态上采样机制比双线性插值或转置卷积等上采样方式更加灵活，使得邻域中相关的特征值得到更多的关注。类别和特征的不一致性经常发生在分割目标的边缘，即存在[i，j]处的特征与其邻域特征[i+n，j+m]具有不同的特征值、但类别标签相同的情况。LFR模块可以解决这种不一致性，进而提高目标边缘的识别精度。例如，当

的预测权重接近1而其他位置的权重接近0时，位置[i+n，j+m]将得到[i，j]的所有注意；

根据

重建特征

即可使二者的特征值接近一致。

S166:对重建后的局部特征图Y'与输入Z按通道维度拼接，并经过两个3×3卷积层融合得到当前阶段LFR模块的输出Y_out；

S167:将Y_out和相邻低一层级全局重建特征图或者编码器第0层级特征图作为下个阶段LFR模块的两个输入；

S168:将第一阶段LFR模块输出的高分辨率语义特征图通过一次双线性上采样得到最终的目标分割预测图像。

基于以上实施例，本实施例为了验证本发明方法的有效性和通用性，采用结肠镜图像中结肠息肉分割、眼底彩图像中脉络膜萎缩分割、视网膜光学相干断层扫描OCT图像中视网膜积液分割、腹部CT图像中多器官分割等多种医学图像分割任务对本方法进行了验证，具体如下：

实验一：结肠镜图像中息肉的分割

结肠癌的发病率和死亡率都很高，对人类健康构成严重威胁。结肠息肉被认为是结肠癌的早期症状之一。因此，结肠镜图像中结肠息肉的自动分割非常重要，可以辅助临床医生准确定位息肉区域，便于进行进一步分析。由于结肠息肉的形状差异很大，且息肉的颜色与其他背景组织很相似，因此，结肠息肉的分割极具挑战性。

Kvasir-SEG是一个包含1000张伴有结肠息肉的大规模、具有挑战性的结肠镜图像数据集。将1000张图像随机分成训练集(525张)、验证集(175张)和测试集(300张)。由于图像的分辨率从332×487到1920×1072不等，为简单起见，将图像统一下采样至512×448，并保持平均高宽比。采用在线随机对比度变换、亮度变换、左右翻转和上下翻转进行数据扩增。采用Dice系数(Dice)、交并比(IntersectionoverUnion，IoU)和准确度(Accuracy，Acc)作为分割评价指标。

(a)在对比实验中，将本发明方法与其他优秀的基于卷积神经网络CNN的分割网络进行了比较，包括U-Net、注意力U-Net(AttentionU-Net)、U-Net++、CE-Net、PSPNet、CPFNet、GCN、SFNet、DeepLabV3+、PraNet和EMANet。为了验证本发明所提出的全局特征重建GFR模块和局部特征重建LFR模块的有效性，做了相应的消融实验。为了便于描述，下面将采用预训练ResNet34作为编码器的U-Net称为基准网络(Baseline)，附表1列举了相关的对比实验和消融实验的结果：

附表1结肠镜图像中结肠息肉分割的对比实验和消融实验结果(p-value表示对本发明GLFRNet与其他方法的平均Dice系数进行威尔科克森符号秩检验得到的统计差异度，p-value值小于0.05表示两者间存在显著性差异)

如附表1所示，在对比实验中，本发明提出的GLFRNet取得了最佳分割性能。与基准网络相比，本发明提出的GLFRNet的分割性能获得了全面的提升，Dice系数、IoU和Acc分别从87.54％、81.16％和95.94％提升至91.06％、85.33％和97.05％。基于膨胀卷积结构的网络如DeepLabV3+、EMANet等的性能与基于编解码结构的网络如PraNet、SFNet等的相似。但是，由于膨胀卷积使得特征图保持在高分辨率，增加了存储和计算开销。PraNet用于实现实时的结肠息肉分割，但是其性能在3个指标上均比本发明GLFRNet方法差很多。HarDNet-MSEG网络采用HarDNet作为骨干网络、基于多尺度卷积的级联部分解码器和基于膨胀卷积的感受野块(ReceptiveFieldBlock，RFB)作为跳跃连接，其整体的编解码结构与本发明GLFRNet网络类似，但其在Kvasir-SEG数据集上的分割性能低于本发明GLFRNet网络。可能的原因是：(i)在HarDNet-MSEG的解码器中，采用基于元素级乘法的密集特征融合技术对所有层级的特征一视同仁，而本发明提出的局部特征重建LFR模块充分考虑了特征图之间的关联，从而可以在特征重建过程中保留相对位置信息，进而获取具有丰富语义信息的上采样特征；(ii)本发明提出的全局特征重建GFR模块中采用的自注意力机制比HarDNet-MSEG网络中感受野块RFB中采用的卷积和膨胀卷积更灵活。为了结合CNN和注意力机制的优势，TransFuse-S和TransFuse-L网络采用转换器TransFormer和CNN作为双编码器，在解码阶段以一种与卷积块注意力模块(Convolutional Block Attention Module，CBAM)类似的方式进行特征融合。虽然TransFuse-S和TransFuse-L网络在Kvasir-SEG数据集上性能良好，但其网络结构尤其是TransFuse-L，需要大量的计算开销，如附表1中所示，两者的计算开销GFLOPs指标分别为40.26和128.81，而本发明提出的GLFRNet的GFLOPs指标为32.54，表明GLFRNet有效融合了CNN和注意力机制，并在性能和效率之间获得了最佳平衡。

为了评估本发明的性能提升是否具有统计显著性，在对比实验和消融实验中对本发明GLFRNet与其他方法的Dice系数指标进行了威尔科克森符号秩检验(Wilcoxonsigned-rank test)。从附表1可以看出，在所有的对比实验和消融实验中，p值均小于0.05，表明本发明方法的性能相比于其他方法均取得了显著改进。图5展示了不同网络的分割结果，可以发现本发明GLFRNet的分割结果中假阳和假阴均较少，表明GLFRNet具有较好的全局和局部上下文特征融合能力，可以较好地减少目标的误检和漏检。

(b)在于GFR模块的消融实验中，从附表1可见，将不带深监督的GFR模块加入基准网络(基准网络+GFR_w/o_DS)，可以使得网络在Dice系数、IoU和Acc三个指标上均有提升。采用深监督后，即将GFR模块加入到基准网络(基准网络+GFR)，可以通过全局描述子实现特征选择，实现进一步性能提升，并完全超越了其他优秀网络的分割性能。为了验证全局描述子连接的有效性，将所有来自高层级特征图的全局描述子连接删除，得到的网络记作基准网络+GFR_w/o_Conn，实验结果表明，其性能在三项指标上均低于基准网络+GFR模块(基准网络+GFR)，证明了本发明采用的全局描述子间连接方式的必要性。从附表1可以看出，全局描述子所需的计算开销可以忽略不计，说明其具有高效的语义引导功能。此外，还做了有关基准网络中GFR模块嵌入个数的消融实验，包括嵌入1个、2个、3个和本发明采用的每层级嵌入1个GFR(共4个GFR)模块。结果表明，本发明采用的每层级嵌入1个GFR更适用于全局感受野的获取以及降低不同层级特征间的语义鸿沟。

图6以展示了采用U-Net原始的简单跳跃连接和采用本发明的GFR模块作为跳跃连接的可视化输出特征图，特征图在通道方向上进行了平均，并进行了0-255归一化处理。从图6可见，本发明的GFR模块能提升对分割目标的响应、抑制对无关背景噪声的响应，表明GFR模块可以缩小各层级特征的语义信息差距。

(c)在LFR模块的消融实验中，由附表1可见，在基准网络中嵌入LFR模块(基准网络+LFR)，也能全面提升分割性能，这受益于LFR模块恢复高阶段特征图空间信息的能力。GFLOPs指标表明采用LFR模块取代基准网络原始的解码器模块更高效，这得益于LFR采取了通道压缩技术。为了验证低阶段特征图对构造高阶段特征图的上采样过程具有指导作用，删除LFR模块低阶段特征图的引导(基准网络+LFR_/w/o_LG)，即低阶段特征图不参与局部重建核的预测，实验结果表明分割性能比采用完整LFR模块下降，表明低阶段特征图的引导在空间信息重建中非常必要。关于LFR模块数量的消融实验结果也列在附表1中，实验结果表明本发明采用的每一阶段采用一个LFR模块对于空间信息的重建和相邻阶段特征对齐是最合适的。

(d)计算复杂度并分析，常见的基于自注意力机制的非局部non-local模块，由于需要计算所有像素间的相似度，其计算复杂度为O(N²)，其中，N＝H×W表示特征图的大小。本发明提出的全局特征重建GFR模块是一种对自注意力机制的改进，GFR模块采用全局描述子实现特征在空间通道上的压缩，进而降低计算复杂度至O(d_kN)，其中，d_k为全局描述子的个数，且d_k＜＜N。因此，GFR模块的计算复杂度远低于非局部non-local模块，且可以方便地插入编解码网络。本发明提出的局部特征重建LFR模块仅采用了像素周围k×k邻域的像素实现重建，因此其计算复杂度为O(k²N)，其中，k＜＜N。在本发明具体实施例中，k取值为5，d_k设置为分割类别数的8倍。

实验二：眼底彩照图像中脉络膜萎缩的分割

病理性近视及其并发症是常见的造成视力损伤、甚至导致失眠的重要因素。脉络膜萎缩是病理性近视的早期病理性改变，因此，眼底彩照图像中脉络膜萎缩的分割对于病理性近视的防治具有重要意义。但是，由于在不同阶段病理性近视中，脉络膜萎缩的形状和尺寸差异很大，且边界模糊，因此，眼底彩照图像中脉络膜萎缩的分割具有很大的挑战性。

采用来自上海市第一人民医院眼科中心的600张病理性近视眼底彩照图像对本发明提出的GLFRNet进行性能评估，每张图像的尺寸为2032×1934，随机分成训练集320张、验证集80张和测试集200张。为减少计算开销，本发明将原始图像下采样至512×512。采用了随机对比度变换、亮度变换、左右翻转与上下翻转、-60到60度旋转等方法实现在线数据扩增。采用Dice系数、交并比IoU、敏感性(Sensitivity，Sen)和准确率Acc作为客观评价指标。

附表2展示了关于脉络膜分割的对比实验和消融实验结果。由附表2可见，本发明GLFRNet的Dice、IoU、敏感性Sen和正确率Acc分别达到87.61％、79.28％、86.12％和98.50％，相比于基准网络，GLFRNet在Dice、IoU和Sen这三个关键指标均有显著提升。相比于其他优秀的分割网络，GLFRNet的Dice指标提升均具有显著性差异(威尔科克森符号秩检验，p<0.05)。消融实验的结果也证明了本发明提出的GFR模块和LFR模块的有效性。图7展示了不同方法的脉络膜分割结果。由图7可见，虽然不同阶段病理性近视中的脉络膜萎缩的形状和尺寸差异很大，但本发明提出的GLFRNet利用GFR模块和LFR模块可以分别从全局和局部两个方面处理大目标和小目标，因而取得了良好的分割性能。

附表2眼底彩照图像中脉络膜萎缩分割的对比实验和消融实验结果(p-value表示对本发明GLFRNet与其他方法的平均Dice系数进行威尔科克森符号秩检验得到的统计差异度，p-value值小于0.05表示两者间存在显著性差异)

实验三：视网膜OCT图像中多类积液的分割

视网膜积液是指由于血-视网膜屏障遭受破坏而导致的渗漏液体在视网膜细胞间形成积聚的现象，主要包括视网膜内积液、视网膜下积液和色素上皮层脱离3种类型。视网膜积液是糖尿病视网膜病变、年龄相关性黄斑变性等多种眼底疾病在黄斑区的临床病理性表现。由于存在形状多变、边界模糊等问题，视网膜多类积液的联合分割具有很大挑战性。

采用MICCAI2017RETOUCH挑战赛提供的70个三维OCT数据(一共6936张二维B扫描图像)来评估本发明GLFRNet在视网膜多类积液联合分割任务中的性能。由于数据量较少，对比实验和消融实验均采用三折交叉验证策略，即将70个三维OCT数据随机分成23、23和24三折，每次采用其中的两折数据进行模型训练，采用剩余的一折数据进行测试。对每张二维B扫描图像进行尺寸调整，并根据像素灰度分布特性裁剪出256×512的感兴趣区域作为GLFRNet的输入。在测试阶段，对每个三维OCT数据中的每一张二维B扫描图像分别进行分割，分割结果按原来顺序重新组合成三维结果，以三维整体的方式计算评价指标，包括Dice系数、交并比IoU、敏感性Sen和准确率Acc。

附表3展示了视网膜多类积液分割任务的对比实验和消融实验结果。由附表3可见，本发明GLFRNet网络与其他10种优秀的分割网络进行了比较，本发明GLFRNet的Dice指标的提升相比于这些网络均存在显著性差异(威尔科克森符号秩检验，p<0.05)。由于在OCT图像中积液目标较小，EMANet和PSPNet等无跳跃连接的网络分割性能较差。由于在跳跃连接中采用了特征密集连接，UNet++取得了较好的性能。在敏感性Sens指标上，DeepLabV3+取得了与本发明GLFRNet相当的性能，但是DeepLabV3+的IoU和Dice指标明显低于本发明GLFRNet，表明DeepLabV3+存在过分割问题。消融实验的结果表明，得益于GFR模块和LFR模块，本发明方法在三种视网膜积液分割中，性能均获得了稳定的提升，证明了这两种模块的有效性。图9展示了不同方法的视网膜多类积液分割结果，由图9可见，本发明GLFRNet对三类视网膜积液分割的准确度均有明显提升。

附表3视网膜OCT图像中视网膜多类积液分割的对比实验和消融实验结果(1-10行为对比实验结果，11-13行为消融实验结果；p-value表示对本发明GLFRNet与其他方法的平均Dice系数进行威尔科克森符号秩检验得到的统计差异度，p-value值小于0.05表示两者间存在显著性差异)

实验四：腹部CT图像中多器官的分割

腹部CT图像中器官的分割是相关脏器和疾病定量分析的基础。近年来，在多器官分割中，基于深度学习方法的性能相比于传统基于统计形状模型或者多图集模型等方法得到了很大提升。但是，由于器官的形变较大、边界模糊，因此腹部CT图像种多器官联合分割仍具有很大挑战性。

采用来自MICCAI2015多图集腹部脏器标签挑战赛的30个腹部CT扫描(一共3779张轴向扫描切片图像)来评估本发明GLFRNet的多器官联合分割性能，主要包含8种腹部器官：脾、右肾、左肾、胆囊、肝脏、胃、主动脉和胰腺。由于数据量较少，采用了三折交叉验证策略进行性能评估。为了利用三维空间的上下文信息，将每一张轴向切片图像及其前后两张相邻图像联合成为一个三通道图像，作为“2.5D”数据作为网络的输入，即网络的输入为一个包含三个切片的图像组，输出的预测结果对应于中间的切片图像。采用随机对比度增强和随机亮度增强进行在线数据扩增。采用Dice系数和Hausdorff距离作为客观评价指标。

附表4展示了多器官分割任务的对比实验和消融实验结果。得益于基于语义流的特征图语义对齐，SFNet在多器官分割任务中获得了较好的分割性能。本发明GLFRNet在对比实验中取得了最优性能。随着GFR模块和LFR模块的嵌入，除右肾的Dice指标略低于SFNet外，本发明方法对其他7种器官的分割Dice指标均高于其他优秀分割方法，且平均Dice指标的提升具有显著性差异(威尔科克森符号秩检验，p<0.05)，平均Hausdorff距离也显著小于其他分割方法。图8展示了不同方法的多器官分割结果，由图8可见，本发明GLFRNet对于小器官如胆囊和大器官如胃的分割都更精确。

附表4腹部CT图像中多器官分割的对比实验和消融实验结果(1-9行为对比实验结果，10-12行为消融实验结果；p-value表示对本发明GLFRNet与其他方法的平均Dice系数进行威尔科克森符号秩检验得到的统计差异度，p-value值小于0.05表示两者间存在显著性差异)

至此，一种新颖的适用于医学图像分割的深度学习网络GLFRNet已经实现并进行验证。基于本发明提出的全局特征重建GFR模块和局部特征重建LFR模块，GLFRNet网络较好地克服了U型编解码网络对于全局上下文特征提取不充分、空间信息重建困难等不足。本发明GLFRNet分割网络在4种不同类型成像方式、不同类型损伤目标的分割任务中进行了综合验证实验，包括结肠镜图像中结肠息肉的分割、眼底彩照图像中脉络膜萎缩的分割、视网膜OCT图像中视网膜多类积液的分割以及腹部CT图像中多器官的分割，分割性能良好，表明本发明方法在医学图像分割方面具有较好的通用性。

请参考图10，图10为本发明实施例提供的一种基于全局与局部特征重建网络的医学图像分割装置的结构框图；具体装置可以包括：

输入模块100，用于将待检测图片输入预先训练好的全局与局部特征重建网络中，所述全局与局部特征重建网络包括特征编码模块、全局特征重建GFR模块、基于局部特征重建LFR模块的特征解码模块，所述全局特征重建GFR模块嵌入所述特征编码模块和所述特征解码模块的跳跃连接中；

特征编码模块200，用于利用所述特征编码模块对所述待检测图片进行多次下采样，得到多个层级的特征图；

全局描述子生成模块300，用于利用全局特征重建GFR模块为每层特征图生成全局描述子；

跨级描述子生成模块400，用于利用全局特征重建GFR模块结合所述每层特征图与高层特征图的全局描述子生成每层特征图的跨级全局描述子；

全局特征重建模块500，用于利用全局特征重建GFR模块预测每层特征图中所有像素的重建权重，与所述跨级全局描述子相乘实现特征重建，并与所述每层特征图相加得到每层的全局重建特征图；

特征解码模块600，用于利用所述特征解码模块中的局部特征重建模块将相邻高一阶段局部重建特征图与相邻低一层级全局重建特征图进行融合上采样，得到当前阶段高分辨率语义特征图，将第一阶段高分辨率语义特征图进行上采样得到目标分割预测图像。

本实施例的基于全局与局部特征重建网络的医学图像分割装置用于实现前述的基于全局与局部特征重建网络的医学图像分割方法，因此基于全局与局部特征重建网络的医学图像分割装置中的具体实施方式可见前文基于全局与局部特征重建网络的医学图像分割方法的实施例部分，例如，输入模块100，特征编码模块200，全局描述子生成模块300，跨级描述子生成模块400，全局特征重建模块500，特征解码模块600用于实现上述基于全局与局部特征重建网络的医学图像分割方法中步骤S101，S102，S103，S104、S105和S106，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种基于全局与局部特征重建网络的医学图像分割的设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种基于全局与局部特征重建网络的医学图像分割的方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于全局与局部特征重建网络的医学图像分割方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于全局与局部特征重建网络的医学图像分割方法，其特征在于，包括：

利用全局特征重建GFR模块为每层特征图生成全局描述子；

利用所述特征解码模块中的局部特征重建LFR模块将相邻高一阶段高分辨率语义特征图与相邻低一层级全局重建特征图进行融合上采样，得到当前阶段高分辨率语义特征图：

所述特征解码模块包括多个阶段的局部特征重建LFR模块，其输入记为Y和Z，其中第4阶段LFR模块的输入Y为第4层级全局特征重建GFR模块的输出、输入Z为所示第3层级全局特征重建GFR模块的输出，第1阶段LFR模块的输入Y为第2阶段LFR模块的输出、输入Z为编码器第0层级的特征图，第3和第2阶段LFR模块的输入Y和Z分别为相邻高一阶段LFR模块的输出和相邻低一层级GFR模块的输出；

将所述局部特征重建LFR模块的两个输入特征图Y和Z分别通过两个1*1卷积层降低通道数量；

将Y进行双线性上采样使得所述两个输入特征图达到相同的空间分辨率，并将其按元素相加融合后经过一个3×3卷积层得到局部重建核的预测值；

将Y通过3×3卷积层降低通道数，并采用双线性插值上采样将其上采样至与Z具有相同的分辨率，并利用所述局部重建核预测值对每个元素位置的k×k邻域进行线性组合以实现局部特征重建：

对重建后的局部特征图与输入Z按通道维度拼接，并经过两个3×3卷积层融合得到当前阶段LFR模块的输出；

将第1阶段LFR模块输出的高分辨率语义特征图进行上采样得到目标分割预测图像。

2.根据权利要求1所述的基于全局与局部特征重建网络的医学图像分割方法，其特征在于，所述全局与局部特征重建网络训练过程采用的损失函数为整体损失函数

之间的权衡系数。

3.根据权利要求1所述的基于全局与局部特征重建网络的医学图像分割方法，其特征在于，所述特征编码模块采用基于ImageNet预训练的ResNet34作为主干网络，并去除了最后的全局池化和全连接层。

4.根据权利要求1所述的基于全局与局部特征重建网络的医学图像分割方法，其特征在于，所述利用全局特征重建GFR模块为每层特征图生成全局描述子包括：

将特征图按其空间维度拉平，得到

作为所述全局特征重建GFR模块的输入；

将X_l输入两个1*1的卷积层分别生成注意力图

和嵌入特征

其中，l表示所述特征图所在的层级数，d_in表示所述特征图的通道数，H和W分别表示所述特征图的高度和宽度，ρ(·)表示按所述空间维度执行softmax归一化操作，使得权重和为1，d_h和d_k分别表示所述全局描述子的维度和个数，每层特征图的全局描述子维度均设置为所有层级特征中最小的通道数，每一个所述全局描述子