CN114898110A

CN114898110A - 一种基于全分辨率表示网络的医学图像分割方法

Info

Publication number: CN114898110A
Application number: CN202210440914.4A
Authority: CN
Inventors: 朱敏; 高承睿; 程俊龙; 杨勇; 明章强
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-08-12
Anticipated expiration: 2042-04-25
Also published as: CN114898110B

Abstract

本发明公开了一种基于全分辨率表示网络的医学图像分割方法，在整个图像分割过程中保持全分辨率表示。首先，本发明将原始分辨率图像按照不同阶段划分为不同尺寸的图像块，利用现代卷积神经网络中高效灵活的元件（例如：空洞卷积和残差连接）提取从大尺寸到小尺寸图像块的局部特征；然后，设计了一种用于显式建模图像块之间长期依赖关系的多层感知器模块，以弥补卷积运算造成的固有感应偏差；最后，本发明进行了多次多尺度融合，使得每个阶段接收来自并行路径的表示信息，从而产生丰富的全分辨率表示。本发明为基于全分辨率表示的研究提供一种改进思路，能够解决真实场景下皮肤癌、细胞核和肺部医学图像分割的问题。

Description

一种基于全分辨率表示网络的医学图像分割方法

技术领域

本发明涉及图像处理领域的医学图像分割技术，特别涉及一种基于全分辨率表示网络的医学图像分割方法。

背景技术

医学图像分割在计算机辅助诊断中起着关键作用，其目的是提取图像中感兴趣的区域，如组织，器官，病理学和生物结构等。目前流行的分割任务包括细胞分割、皮肤损伤分割、肺分割和心脏分割等。在通常的实践中，分割由领域专家手动执行，这种人工操作既费时又费力。随着医学成像技术的发展，医学图像的样本量和多样性快速增加，且感兴趣区域的形状和尺寸多变，手动分割已经不能满足实际需求。因此，开发自动、准确和鲁棒的医学图像分割方法具有重要意义。

最近，基于深度学习的方法在图像分类、目标检测和语义分割等领域取得了令人满意的结果。就语义分割任务而言，最先进的方法依赖于完全卷积网络的编码器-解码器体系结构。例如U型网络(U-Net)利用编码器网络学习高级语义表示，解码器从高级表示中恢复丢失的空间信息。同时，跳跃连接用于重复使用高分辨率的特征映射和进行多尺度特征融合。此后，人们提出了各种改进方法来解决各种分割问题。DeepLab系列通过空洞卷积和池化操作来扩大感受野并聚合多尺度信息。一些工作引入内置的深度可变的U-Net集合并重新设计跳跃连接实现更灵活的特征融合。通过增强编码器和解码器的特征表示能力以及利用自注意力机制产生更具分辨性的特征表示，对输入特征的远程依赖性进行建模是提高模型分割性能的方法。尽管这些方法已被证明有利于图像分割，但是下采样会丢失纹理信息，使用不同大小的空洞卷积不利于特征的一致性。此外，基于Transformer的方法通常在大规模数据集的训练下才能很好地工作，而医学数据集中可用于训练的图像数量往往相对较少。

综上所述，减少特征信息的丢失，融合多尺度特征以及在较小数据集上表现出良好的性能是医学图像分割亟待解决的关键问题。

发明内容

针对上述问题，本发明的目的在于实现基于全分辨率表示网络的医学图像分割方法，学习图像的全分辨率表示，建立不同图像块之间的长期依赖关系，实现不同分支的多尺度信息融合。技术方案如下：

一种基于全分辨率表示网络的医学图像分割方法，包括以下步骤：

步骤1)挑选公开的医学图像分割数据集，并对数据集中的训练集进行预处理；

步骤2)构建图像块卷积模块对图像块的局部特征进行挖掘；

步骤3)构建特征重建模块实现对图像块的多尺度融合，完成全分辨率表示网络两个分支的相互转换；

步骤4)构建多层感知器模块建模图像块之间的长期依赖关系；

步骤5)设计由图像块卷积模块、特征重建模块、多层感知器模块三个部分组成图像分割框架，实现医学图像的分割。

进一步的，所述步骤1)中，所述步骤1)中数据集分别为：kaggle 2018 datascience bowl，Retinal lmages vessel Tree Extraction和GLAnd Segmentation；对数据集中的训练集进行预处理为：将所有图像调整为216×216像素大小的图像块。

更进一步的，所述步骤2)构建图像块卷积模块对图像块的局部特征进行挖掘具体过程如下：

步骤2.1)将图像块卷积模块的输入特征映射表示为：

M_in∈R^N,C,H,W

其中，N为批量大小，C表示通道数量，H和W分别为图像的高度和宽度；

步骤2.2)将M_in划分为一系列大小为(H/2ⁱ,W/2ⁱ)和(H/3^i-1,W/3^i-1)的图像块，i表示该模块的阶段数，i≥0；所述图像块的数量随阶段数增加而逐渐增多，且分辨率为上一阶段的1/2或1/3；划分成图像块的操作通过以下三步完成：

①将M_in∈R^N×C×H×W重建为(N,C,2ⁱ,H/2ⁱ,2ⁱ,W/2ⁱ)大小；

②重新将轴的顺序排列为(N,2ⁱ,2ⁱ,C,H/2ⁱ,W/2ⁱ)大小；

③最后将(N,C,2ⁱ,H/2ⁱ,2ⁱ,W/2ⁱ)重建为

步骤2.3)将每个图像块按照通道的维度排列，并用一组具有残差连接的共享卷积作用于M_p，输出结果M_conv，用以下公式表示：

其中，

n表示图像块数量，[……]表示沿通道方向拼接，C为卷积的输出通道数，K为卷积核大小，D是扩张率，随循环次数增大为原来的两倍，P为要填充的像素数；M_p表示对输入特征图的重建结果，

表示对第n个图像块输入特征图的重建结果；

步骤2.4)使用层归一化对M_conv进行规范化得到局部特征图像块

更进一步的，所述步骤3)中特征重建模块的处理过程如下：

步骤3.1)将图像块卷积模块的输出的局部特征图像块作为特征重建模块的输入，取两个局部特征图像块

和

步骤3.2)将局部特征图像块

和

的张量互相转换得到

和

步骤3.3)分别将上述得到的四个张量两两进行逐元素相加，即

和

得到多尺度融合图像块

和

更进一步的，所述步骤4)中多层感知器模块包括两个多层感知器层和非线性层，第一个多层感知器层作用于经空间维度平均池化后的图像块，用于学习不同图像块投影维度之间的联系，第二个多层感知器层作用于通道维度平均池化后的图像块，用于学习图像块之间的长程依赖关系；处理过程如下：

步骤4.1)利用空间维度全局平均池化聚合输入张量

的空间信息，空间池化后的张量为

步骤4.2)将张量M_sap经过Trans 1变换输入到第一个多层感知器层中：

M_Trans1＝Permute(Up(M_sap))

其中，Up(M_sap)表示将M_sap中的图像块按照原始图像的像素分布进行上采样，即

然后重塑张量后得到形状为

的M_Trans1；

步骤4.3)利用Trans 1的逆向操作将非线性层之后的特征图还原并与输入特征图跳跃连接；

步骤4.4)利用通道维度的全局平均池化聚合输入张量的通道信息，即

步骤4.5)将M_cap通过Trans 2变换为

的张量，其每一行均包含一个图像块的所有信息；

步骤4.6)使用跳跃连接将非线性层的输出与输入结果做哈达玛乘积得到多层感知器模块的输出特征。

更进一步的，所述步骤5)具体包括：

步骤5.1)所述图像分割框架中的全分辨率表示网络包括两个并行子网络，其中包括四个阶段：

第0阶段利用核为7×7的卷积和一个图像块卷积模块提取输入图像的特征；从第1阶段开始到第3阶段，使用图像块卷积模块、特征重建模块和多层感知器模块以进行并行路径的多尺度特征融合以及产生丰富的全分辨率表示；还完成跳跃连接和层归一化；

步骤5.2)定义四个阶段定义：

用S_i和S′_i表示两个不同分支子网络的第i阶段，M_in为输入特征，则第0、1阶段的结果为：

S₀＝PatchConv(BN(Conv_7×7(M_in)))

S′₁＝PatchConv(BN(Conv_7×7(S₀)))

S₁＝MLP(PatchConv(S₀)+FRB(S′₁))

式中，PatchConv表示图像块卷积模块处理；BN表示批量归一化处理；Conv_7×7表示核为7×7的卷积操作；MLP表示多层感知器模块处理；FRB表示特征重建模块处理；

从第2阶段开始，连续的网络模块计算如下：

S_i＝MLP(PatchConv(S_i-1)+PatchConv(FRB(S′_i-1)))

S′_i＝MLP(PatchConv(FRB(S_i-1))+PatchConv(S′_i-1))

上式中i∈[2,…,I]，I表示可扩展最大阶段数。

采用上述技术方案带来的有益效果：

1)本发明设计一种基于全分辨率表示网络的医学图像分割方法。该网络在整个过程中始终保持全分辨率表示，从而避免了图像分割过程中下采样丢失图像细节信息的问题。

2)本发明不同于传统的浅层和深层特征融合的方法，通过在相同深度(阶段)执行多尺度融合以提高不同阶段的全分辨率表示，使得在每个阶段都具有相同通道数的情况下仍然保持了较好的分割性能。

3)本发明提出由两个并行子网络构成的框架，不同于有跳跃连接的对称编码器-解码器体系结构，避免因为反复的下采样和上采样操作丢失图像的细节信息。通过在不同尺度的双分支编码器中集成图像块卷积模块和特征重建模块来提取丰富的局部特征，从而捕获重要的全局上下文信息。

4)本发明使用图像块卷积模块、特征重建模块和多层感知器模块以进行并行路径的多尺度特征融合以及产生丰富的全分辨率表示。通过图像块卷积模块中以挖掘图像块的局部特征，用于反复多尺度融合特征重建模块以及多层感知器模块以建模图像块之间的长期依赖关系；在特征重建模块和多层感知器模块处理过程中，始终学习的是图像的全分辨率表示，进一步细化局部特征，符合人类对图像的视觉感知。

附图说明：

图1为本发明的图像块卷积模块。

图2为本发明的特征重建模块。

图3为本发明的多层感知器模块。

图4为本发明的基于全分辨率表示网络的医学图像分割方法的流程图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案做进一步详细说明。

本发明设计了一种基于全分辨率表示网络的医学图像分割方法。首先，将原始分辨率图像按照不同阶段划分为不同尺寸的图像块，利用现代卷积神经网络中高效灵活的元件(例如空洞卷积和残差连接)提取从大尺寸到小尺寸图像块的局部特征；其次，设计了一种用于显式建模图像块之间长期依赖关系的多层感知器模块，以弥补卷积运算造成的固有感应偏差；此外，进行多次多尺度融合，使得每个阶段接收来自并行路径的表示信息，从而产生丰富的全分辨率表示。

本发明在不同的医学图像分割任务上评估了所提出的方法，在多个数据集上与最新的深度学习分割方法(包括基于CNN和基于Transformer的架构)相比取得了具有竞争力的性能。本发明为基于全分辨率表示的研究提供一种改进思路。

步骤1：挑选公开的医学图像分割数据集，并对数据集进行预处理。

对训练集进行预处理的具体实施如下：

本发明在三个公开的生物医学图像分割数据集上进行分割训练任务，对于所有数据集均采用5折交叉验证方法进行训练。其中数据集分别为：kaggle 2018 data sciencebowl(Nuclei)，Retinal lmages vessel Tree Extraction(RITE)和GLAnd Segmentation(GLAS)。

Nuclei数据集由博思艾伦基金会(Booz Allen Foundation)提供，包含670张细胞核特征图，并为每张图像提供一个标签。训练过程中将不同分辨率的图像和相应的标签调整为216×216。

RITE数据集可以对视网膜眼底图像上的动脉和静脉的分割或分类进行比较研究，该数据集是基于公共可用的DRIVE数据库建立的，包含40组图像，分辨率统一为565×584，对于每组，有一张眼底照片、一个血管参考标准和一个动脉/静脉(A/V)参考标准。考虑到该数据集的分割目标比较离散，直接将大分辨率图像大小调整为较小分辨率(216×216或224×224)的图像可能会影响原始图像的质量，先将原始图像大小调整为432×432的分辨率，然后按照四个角进行裁剪得到四张分辨率为216×216的图像。一方面尽可能保留了原始图像的质量，另一方面将数据扩充为原来的四倍，即数据总量为160张图像。

GLAS数据集包含苏木精和伊红(Hematoxylin and Eosin)染色玻片的显微图像，以及专家病理学家提供的相应标注。它共包含165幅图像，最小分辨率为433×574，最大分辨率为775×522。与第一个数据集相同，在训练和测试过程中将图像的分辨率统一调整为216×216。

步骤2：采用图像块卷积模块对图像块的局部特征进行挖掘，每个图像块按照通道的维度排列，参考图1为本发明的图像块卷积模块。

1)该模块的输入特征映射表示为：

M_in∈R^N,C,H,W

其中，N为批量大小，C表示通道数量，H和W分别为高度和宽度。

2)将M_in划分为一系列大小为(H/2ⁱ,W/2ⁱ)和(H/3^i-1,W/3^i-1)的图像块，i表示该模块阶段数(i≥0)。这些图像块的数量逐渐增多，且分辨率为上一阶段的1/2或1/3。

3)划分成图像块的操作不会在内存中移动数据且不进行训练，可以通过以下三步完成(以下均以第一个分支举例)：

①将M_in∈R^N×C×H×W重建为(N,C,2ⁱ,H/2ⁱ,2ⁱ,W/2ⁱ)大小；

②重新将轴的顺序排列为(N,2ⁱ,2ⁱ,C,H/2ⁱ,W/2ⁱ)大小；

③最后将(N,C,2ⁱ,H/2ⁱ,2ⁱ,W/2ⁱ)重建为

4)将每个图像块按照通道的维度排列，并用一组具有残差连接的共享卷积作用于M_p，输出结果M_conv，用以下公式表示：

其中，

表示对第n个图像块输入特征图的重建结果。

5)使用层归一化对M_conv进行规范化得到局部特征图像块

不使用传统的批量标准化是因为它会破坏图像的整体信息，导致分割精度降低。上述操作可以理解为在空间维度上的分组卷积，本专利将卷积的注意力聚焦于每个图像块，这有助于挖掘图像块的局部信息，同时不会引起计算量的增加。

步骤3：采用特征重建模块实现对图像块的多尺度融合，完成网络两个分支的相互转换。随着网络深度变深，每个图像块的分辨率也逐渐变小，局部特征被进一步细化，这符合人类对图像的视觉感知，因为人们总是先关注较大的区域，然后将注意力转向较小且感兴趣的区域。此外，由于两个分支图像块的尺寸不同，本专利在相同深度融合了不同尺度的信息，与浅层和深层特征融合的方式相比可以获得尺度互补信息，参考图2为本发明的特征重建模块。

1)将建图像块卷积模块的输出的局部特征图像块作为特征重建模块的输入，取两个局部特征图像块

和

2)为了方便特征融合，将局部特征图像块

和

张量互相转换得到

和

3)分别对上述得到的四个张量两两进行逐元素相加，即

和

得到多尺度融合图像块

和

步骤4：多层感知器模块主要由两个多层感知器层和非线性层组成，第一个多层感知器层作用于经空间维度平均池化后的图像块，用于学习不同图像块投影维度之间的联系，第二个多层感知器层作用于经通道维度平均池化后的图像块，用于学习图像块之间的长程关系，参考图3为本发明的多层感知器模块。

1)利用空间维度全局平均池化聚合输入张量，利用空间维度全局平均池化聚合输入张量

的空间信息，空间池化(SAP)后的张量为

2)将M_sap经过以下变换(“Trans 1”)输入到多层感知器层MLP1中：

M_Trans1＝Permute(Up(M_sap))

其中，Up与传统的插值算法不同，本专利将M_sap中的图像块按照原始图像的像素分布进行上采样，即

然后重塑张量得到形状为

的M_Trans1。以上变换是无代价的，且多层感知器层的输入和输出保持一致。与直接在原始图像或原始输入特征上进行线性映射相比，所需要的计算量从HWC²减少到P²C²。

3)利用“Trans 1”的逆向操作将非线性层(ReLU)之后的特征图还原并与输入特征图跳跃连接。

4)利用通道维度的全局平均池化(CAP)聚合输入张量的通道信息，即

5)将M_cap(即“Trans 2”操作)变换为

的张量，它的每一行都包含了一个图像块的所有信息。

6)使用跳跃连接将ReLU层的结果与输入结果做哈达玛乘积得到多层感知器模块的输出特征。

步骤5：设计由图像块卷积模块、特征重建模块、多层感知器模块三个部分组成图像分割框架，参考图4为本发明的基于全分辨率表示网络的医学图像分割方法的流程图。

1)该框架由三种模块组成：

采用图像块卷积模块挖掘图像块的局部特征，用于反复多尺度融合的特征重建模块以及多层感知器模块以建模图像块之间的长期依赖关系。本专利不同于有跳跃连接的对称编码器-解码器体系结构，因为反复的下采样和上采样操作会丢失图像的细节信息。通过在不同尺度的双分支编码器中集成图像块卷积模块和多层感知器模块，不仅可以提取丰富的局部特征，而且还可以捕获重要的全局上下文信息。此外，本专利在基础网络大型模型2RNet-B的基础上还设计了微型2RNet-T，小型2RNet-S和巨大2RNet-L，这些实例的复杂性越来越高，性能也逐步提升。

2)模型架构及超参数设置：

本发明在NVIDIA Tesla V100 GPU(32g)上通过训练实现了基于PyTorch的方法。使用Adam优化器，学习速率固定为1e^-4。批量大小设置为16(F2RNet-L设置为8)，在网络的末端采用交叉损失函数。当验证损失稳定且30个epoch内无显著变化时，采用提前停止机制停止训练。通过应用随机旋转(±25°)，随机水平和垂直移位(15％)以及随机翻转(水平和垂直)来扩充训练数据集。

3)该框架由两个并行子网络构成的四个阶段(阶段0～阶段3)组成：

第0阶段利用核为7×7的卷积和图像块卷积模块提取输入图像的特征。从第1阶段到第3阶段，本专利使用图像块卷积模块、特征重建模块和多层感知器模块以进行并行路径的多尺度特征融合以及产生丰富的全分辨率表示。此外还使用其他标准体系结构组件：跳跃连接和层归一化。

4)四个阶段定义：

用S_i和S′_i表示两个不同分支的第i阶段，M_in为输入特征，那么第0、1阶段的结果为：

S₀＝PatchConv(BN(Conv_7×7(M_in)))

S′₁＝PatchConv(BN(Conv_7×7(S₀)))

S₁＝MLP(PatchConv(S₀)+FRB(S′₁))

从第2阶段开始，连续的网络模块计算如下：

S_i＝MLP(PatchConv(S_i-1)+PatchConv(FRB(S′_i-1)))

S′_i＝MLP(PatchConv(FRB(S_i-1))+PatchConv(S′_i-1))

上式中i∈[2,…,I]，I表示可扩展最大阶段数，在本发明中I为3。特征重建模块是为了对齐相同深度不同形状的张量，该模块不产生计算代价。此外，从第0阶段开始允许这些阶段进行多次循环以增加网络的深度，当深度增加时，图像块卷积模块的空洞率是上一次循环的两倍。最后，模型的输出由两个分支共同决定，这两个分支通过哈达玛乘积来汇总特征信息，在预测层前本专利使用一个标准卷积整合两个分支特征。

5)基础模型F2RNet-B及变体：

F2RNet-B使其模型参数设置与基于ResNet的主干网络相似。还设计了F2RNet-T、F2RNet-S和F2RNet-L，这些实例的复杂性越来越高，性能也逐步提升。这些型号变体的架构参数包括：

F2RNet-T:C＝32, L＝1,1,1,1

F2RNet-S:C＝32,L＝1,2,2,2

F2RNet-B:C＝64,L＝1,1,2,2

F2RNet-L:C＝96, L＝1,1,1,2

其中，C是第0阶段中特征通道数量，在整个网络中C保持不变。L表示不同阶段的循环次数。

6)模型F2RNet具体实施如下：

首先将空间维度上的分组卷积作用于具有金字塔结构的图像块上，以学习图像的局部特征；然后利用基于多层感知架构的多层感知器模块用于增强不同图像块之间的长期依赖关系；最后通过在相同深度进行多尺度特征交互和融合进而产生丰富的全分辨率表示。

Claims

1.一种基于全分辨率表示网络的医学图像分割方法，其特征在于，包括如下步骤：

步骤2)构建图像块卷积模块对图像块的局部特征进行挖掘；

2.根据权利要求1所述的基于全分辨率表示网络的医学图像分割方法，其特征在于，所述步骤1)中，数据集分别为：kaggle 2018data science bowl，Retinal lmages vesselTree Extraction和GLAnd Segmentation；对数据集中的训练集进行预处理为：将所有图像调整为216×216像素大小的图像块。

3.根据权利要求1所述的基于全分辨率表示网络的医学图像分割方法，其特征在于，所述步骤2)构建图像块卷积模块对图像块的局部特征进行挖掘具体过程如下：

步骤2.1)将图像块卷积模块的输入特征映射表示为：

M_in∈R^N,C,H,W

其中，M_in表示预处理后的图像块，N为批量大小，C表示通道数量，H和W分别为图像的高度和宽度；

①将M_in∈R^N×C×H×W重建为(N,C,2ⁱ,H/2ⁱ,2ⁱ,W/2ⁱ)大小；

②重新将轴的顺序排列为(N,2ⁱ,2ⁱ,C,H/2ⁱ,W/2ⁱ)大小；

③最后将(N,C,2ⁱ,H/2ⁱ,2ⁱ,W/2ⁱ)重建为

其中，

n表示图像块数量，[……]表示沿通道方向拼接，C为卷积的输出通道数，K为卷积核大小，D是扩张率，随循环次数增大为原来的两倍，P为要填充的像素数，M_p表示对输入特征图的重建结果，

表示对第n个图像块输入特征图的重建结果；

步骤2.4)使用层归一化对M_conv进行规范化得到局部特征图像块

4.根据权利要求3所述的基于全分辨率表示网络的医学图像分割方法，其特征在于，所述步骤3)中，特征重建模块的处理过程如下：

和

步骤3.2)将局部特征图像块

和

的张量互相转换得到

和

步骤3.3)分别将上述得到的四个张量两两进行逐元素相加，即

和

得到多尺度融合图像块

和

5.根据权利要求1所述的基于全分辨率表示网络的医学图像分割方法，其特征在于，所述步骤4)中，多层感知器模块包括两个多层感知器层和非线性层，第一个多层感知器层作用于经空间维度平均池化后的图像块，用于学习不同图像块投影维度之间的联系，第二个多层感知器层作用于通道维度平均池化后的图像块，用于学习图像块之间的长程关系；处理过程如下：

步骤4.1)利用空间维度全局平均池化聚合输入张量