CN114638842B - 一种基于mlp的医学图像分割方法 - Google Patents
一种基于mlp的医学图像分割方法 Download PDFInfo
- Publication number
- CN114638842B CN114638842B CN202210251253.0A CN202210251253A CN114638842B CN 114638842 B CN114638842 B CN 114638842B CN 202210251253 A CN202210251253 A CN 202210251253A CN 114638842 B CN114638842 B CN 114638842B
- Authority
- CN
- China
- Prior art keywords
- local
- global
- tgmlp
- feature
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000003709 image segmentation Methods 0.000 title claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000008447 perception Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 22
- 238000005192 partition Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000012856 packing Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000037062 Polyps Diseases 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30024—Cell structures in vitro; Tissue sections in vitro
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于MLP的医学图像分割方法,其特征在于,包括如下步骤:1)编码;2)解码;3)局部分支结构和全局分支结构。这种方法不仅在保持原始空间维度特征结构下,具有敏感的位置感知能力和极少的计算开销,并且有效增加模型提取局部特征和全局上下文信息的能力,增大模型对小尺度物体的特征感知,也能有效地解决由于医学分割数据样本数量相对较少,医学图像中patch的位置嵌入的依赖关系不能很好地学习的问题,从而实现高性能和高效率的医学分割。
Description
技术领域
本发明涉及图像处理和机器视觉技术,具体是一种基于MLP的医学图像分割方法。
背景技术
医学图像分割是医学图像处理的关键步骤,在计算机辅助智能诊断中发挥着重要作用。医学图像分割研究涉及许多临床应用中常见任务,如COVID-19筛查、息肉分割、肠镜检查等。
早期的医学图像分割技术主要是通过基于阈值或边界的分割方法。随后深度学习技术不断发展,深度神经卷积网络CNN(Convolutional neural networks,简称CNN)便开始被应用于图像去噪,医学分割等。Ronneberger等人提出的U-Net和Xiao等人提出的Res-UNet,它们通过下采样提取特征信息,利用上采样和跳跃连接获得不同尺度的特征信息。然而,CNN虽然对医学分割技术做出了有效贡献,却很难进一步突破,因为卷积网络存在提取特征时具有固有归纳偏差、每个卷积还能聚焦于整个图片的子区域,从而注重局部特征而丢失了全局上下文特征、缺少能建模长期依赖关系的能力,虽然通过卷积的不断堆叠和下采样操作可以增大模型的感受野,使卷积能够提取到局部特征之间的相互作用特征,但是该方式会使模型更加复杂且容易过拟合。
目前一些研究对特征之间的长期依赖关系进行了建模,如注意力机制和Transformer。Chen等人提出的TransUNet利用Transformer将CNN提取的特征图编码,并利用提取的全局上下文信息进行远程依赖关系建模;Zhang等人提出基于ViT的TransFuse结合了Transformer和CNN,在不损失low-level细节的定位能力的情况下提高全局上下文建模效率。上述模型的成功虽然表明了Transformer在医学分割的巨大潜力,但是基于Transformer的医学分割有以下问题:(1)Transformer通过增强模型的全局特征提取能力,并没有增加局部先验;(2)Transformer由于缺少局部先验归纳数据之间的偏差,需要大量的训练数据,使模型收敛;(3)部分医学图像具有固定的位置先验,Transformer中的Multi-Head Attention并没有对所有位置之间的参数进行共享,位置信息的利用受到限制。
最近Tolstikhin等人提出基于MLP的MLP-Mixer模型,利用全连接,沿着通道轴和空间轴扁平特征图,进行特征图的编码,使特征图可以产生全局上下文信息建模,虽然MLP-Mixer与卷积神经网络和Transformer相比,在全局上下文信息建模都更有效,但是MLP-Mixer存在以下问题:(1)MLP-Mixer沿着空间维度进行线性投影编码空间信息,不仅导致二维特征所携带的位置信息丢失,而且沿着空间维度编码具有二次方增长的计算量;(2)MLP-Mixer由于全连接代替卷积,不仅特征图的小尺度物体的空间信息存在丢失,而且缺少局部先验特征;(3)MLP-Mixer良好的性能也很大程度上得益于大规模数据的训练,如果没有大规模数据集的训练MLP-Mixer的表现仍然落后于CNN和Transformer。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于MLP的医学图像分割方法。这种方法不仅在保持原始空间维度特征结构下,具有敏感的位置感知能力和极少的计算开销,并且有效增加模型提取局部特征和全局上下文信息的能力,增大模型对小尺度物体的特征感知,也能有效地解决由于医学分割数据样本数量相对较少,医学图像中patch的位置嵌入的依赖关系不能很好地学习的问题,从而实现高性能和高效率的医学分割。
实现本发明目的的技术方案是:
一种基于MLP的医学图像分割方法,包括如下步骤:
1)编码:特征图的编码采用基于MLP的医学图像分割模型TGMLP UNet(TripleGate MultiLayer Perceptron UNet,简称TGMLP UNet),在TGMLP Unet编码器中,首先TGMLP分别沿着高度轴、宽度轴和通道轴编码特征图,然后TGMLP加入全局感知和局部先验模块,这样不仅对特征图的全局上下文信息建模、建立全局之间的外部依赖关系,而且能够使模型对特征图的局部信息更好地提取,最后,TGMLP加入门控机制控制输出的信息量,最大程度地保留特征信息,并且TGMLP的输出的编码特征将被连接一个1×1的卷积层,经过卷积后的特征会连接残差映射,并采用add函数将卷积后的特征和输入进TGMLP的特征相加,获得最终的编码后的特征图;
2)解码:解码器是由3×3卷积层、反卷积、跳跃连接构成,在解码器中卷积的作用是将特征图的通道数减少,反卷积的作用是使特征尺寸依次变大,使用跳跃连接将解码部分中反卷积结果与编码部分的输出进行对应的连接与合并,逐渐恢复特征信息;
3)局部分支结构和全局分支结构:TGMLP Unet采用TGMLP作为基本构建块,并使用了一种局部-全局训练策略进行训练,TGMLP UNet的两个分支结构分别为局部分支结构和全局分支结构,全局分支用来学习长距离特征的关系,局部分支用来弥补patch像素之间失去的局部细节特征,首先,两个分支结构之前医学影像分割图像会经过3个7×7卷积层进行特征的初步提取,每个卷积层都有归一化和Relu激活函数,其次将局部分支输出的所有patch块特征进行堆叠,然后采用add函数将全局分支和局部分支的提取的特征图进行相加,最后采用1×1的卷积层对特征图进行像素级别分类,其中,在TGMLP Unet的全局分支设有2个编码器和2个解码器,局部分支中有5个编码器和5个解码器,需要注意的是,不管是全局分支还是局部分支,都是将多个编码器和解码器分别串联起来。
所述分割模型TGMLP Unet设有三个部分,其中:
第一个部分为TMLP(Triple MLP,简称TMLP)模块,TMLP模块由三个独立分支组成,每个分支沿着特定的维度即高度、宽度、通道维度进行编码,不仅保持输入特征图的原始空间维度特征结构、保留位置信息并产生具有方向特定位置信息,而且使沿着空间维度编码的二次方增长的计算量减少为线性增长的计算量,因此,在对于给定具有高度H、宽度W和通道Cin的输入特征映射带有高度轴、宽度轴、通道轴的的i层TGMLP输出Si表示为:
Si-1=Chnnel MLP(LN(Si-2))+Si-2 (1),
第二个部分为全局感知GP(Global Perceptron,简称GP)模块和局部先验LP(Local Priors,简称LP)模块,TMLP中采用全连接作为特征抽取器,能实现了对医学图像的细粒度分割,然而在分割的时候全连接从一个分区提取分割图像特征,易忽视小尺度的物体,如细胞,并且容易造成医学图像分割物体结构内部局部细节丢失,为了解决这些问题,TMLP加入了全局感知模块和局部先验模块,全局感知模块将特征图进行分区,并传入多个全连接层里面,使特征图的不同分区之间共享参数,减少医学分割小尺度特征信息丢失,更有效地进行全局上下文建模,而局部先验模块构造平行于全连接的CNN和BN(BatchNormalization,简称BN),采用CNN和BN提取局部特征,使模型避免了特征拆分所导致的局部相关性丢失,
全局感知模块分区方式如下:首先,将输入大小为的特征图分成h个区域,特征图将重置为大小为/>并重新进行轴的排序,特征图大小变为如公式(4)所示:
其中RS表示改变张量的形状规格,而不改变数据在内存顺序的函数,Permute表示特征图对轴重新排序,然后,采用全局平均池化操作获取大小为的矩阵,并将矩阵输入进BN和一个两层的MLP,获得大小为/>的权重矩阵,如公式(5)所示:
Vout=MLP(BN(GAP(xout))) (5),
其中GAP表示全局平均池化,W表示卷积核,MLP表示为了实现同一通道的不同分区之间的相关性,首先将权重矩阵重置为大小/>然后采用pytorch中的expend函数将权重矩阵大小变为最后,采用add函数将权重矩阵添加到每个分区上,得到大小为的特征图Mout,如公式(6)所示;
全局感知模块实现了每个像素和不同的分区关联,弥补特征提取过程中小尺度物体丢失的问题,
在局部先验中,首先将全局感知的输出张量的形状改变为(N,H,W,C),然后构建4个并行的卷积层,每个卷积层后面跟着一个BN层,并将形状改变后的张量输入进4个并行的卷积,4个并行的卷积层解决了特征提取过程中局部结构信息丢失问题,4个卷积核的大小分别为1、3、5、7,卷积的padding用于保证分辨率即P=0,1,2,3,最后,将所有卷积分支的输出和TMLP的输出采用add函数加在一起,作为最后的输出,局部先验的计算方式如公式(7)、公式(8)所示:
Vout=RS(Mout,(N,W,H,C)) (7),
其中F表示4个卷积层的卷积核,它们分别为1、3、5、7,P为卷积层用来填充的像素数量,它们分别为0、1、2、3、4,Si为公式(3)的值;
第三个部分为门控注意力机制,TMLP和局部先验和全局感知模块能使TGMLP以良好的计算效率计算全局上下文特征信息,并且能够在输入特征映射内编码远程交互,然而在大规模医学数据集上进行评估,TGMLP更容易学习到位置偏差,对于小规模医学图像数据集进行实验,位置偏差很难学习,因此编码远程交互位置信息并不完全准确,在学习的位置差不够准确的情况下,将TMLP添加到TGMLP并不能完全发挥出TMLP的性能,因此提出了一种带门控的TMLP,它可以控制位置偏差对局部位置感知能力影响,通过对TMLP的修改,应用到高度轴的TMLP,可以用公式(8)表示,宽度轴和通道轴同公式(8):
其中在TMLP的公式(1)、公式(2)、公式(3)中增加门控机制,它们分别为GC,GH,GW∈R,它们为可学习的参数,共同创建门控机制,通常如果准确地学习位置编码信息,门控将分配比例较大的位置权重给TMLP的各个轴。
本技术方案具有以下优点:
1)新的空间信息编码方式的结构可以沿高度、宽度和通道轴进行空间特征信息编码,不仅在保持原始空间维度特征结构下,具有敏感的位置感知能力,而且该结构具有极少的计算开销;
2)引入了可提取互补特征的局部先验模块和全局感知模块,该模块能有效增加模型提取局部特征和全局上下文信息的能力,增大模型对小尺度物体的特征感知;
3)提出了一种了适用于较小数据集的门控位置敏感机制,该机制能够有效地解决由于医学分割数据样本数量相对较少,医学图像中patch的位置嵌入的依赖关系不能很好地学习的问题。
该方法不仅在保持原始空间维度特征结构下,具有敏感的位置感知能力和极少的计算开销,并且有效增加模型提取局部特征和全局上下文信息的能力,增大模型对小尺度物体的特征感知,也能有效地解决由于医学分割数据样本数量相对较少,医学图像中patch的位置嵌入的依赖关系不能很好地学习的问题,从而实现了高性能和高效率的医学分割。
附图说明
图1为实施例中的采用局部-全局训练策略的TGMLP Unet的主要架构图;
图2为实施例中的TGMLP的架构示意图;
图3为实施例中的TGMLP Unet中Decoder采用3×3卷积层、反卷积、跳跃连接架构示意图;
图4为实施例中的TGMLP的结构图。
具体实施方式
下面结合附图和实施例对本发明的内容做进一步的阐述,但不是对本发明的限定。
实施例:
一种基于MLP的医学图像分割方法,包括如下步骤:
1)编码:特征图的编码采用基于MLP的医学图像分割模型TGMLP UNet,在TGMLPUnet编码器中,首先TGMLP分别沿着高度轴、宽度轴和通道轴编码特征图,然后TGMLP加入全局感知和局部先验模块,这样不仅对特征图的全局上下文信息建模、建立全局之间的外部依赖关系,而且能够使模型对特征图的局部信息更好地提取,最后,TGMLP加入门控机制控制输出的信息量,最大程度地保留特征信息,并且TGMLP的输出的编码特征将被连接一个1×1的卷积层,经过卷积后的特征会连接残差映射,并采用add函数将卷积后的特征和输入进TGMLP的特征相加,获得最终的编码后的特征图,如图2所示,图2显示对编码器的TGMLP和卷积,值得注意的是在图2中省略了Layer Norm和残差连接;
2)解码:如图3所示,解码器是由3×3卷积层、反卷积、跳跃连接构成,在解码器中卷积的作用是将特征图的通道数减少,反卷积的作用是使特征尺寸依次变大,使用跳跃连接将解码部分中反卷积结果与编码部分的输出进行对应的连接与合并,逐渐恢复特征信息;
3)局部分支结构和全局分支结构:TGMLP Unet采用TGMLP作为基本构建块,并使用了一种局部-全局训练策略进行训练,TGMLP UNet的两个分支结构分别为局部分支结构和全局分支结构,全局分支用来学习长距离特征的关系,局部分支用来弥补patch像素之间失去的局部细节特征,首先,两个分支结构之前医学影像分割图像会经过3个7×7卷积层进行特征的初步提取,每个卷积层都有归一化和Relu激活函数,其次将局部分支输出的所有patch块特征进行堆叠,然后采用add函数将全局分支和局部分支的提取的特征图进行相加,最后采用1×1的卷积层对特征图进行像素级别分类,其中,在TGMLP Unet的全局分支设有2个编码器和2个解码器,局部分支中有5个编码器和5个解码器,需要注意的是,不管是全局分支还是局部分支,都是将多个编码器和解码器分别串联起来,TGMLP UNet的整体架构如图1所示。
所述分割模型TGMLP Unet设有三个部分,其中:
第一个部分为TMLP模块,TMLP模块由三个独立分支组成,每个分支沿着特定的维度即高度、宽度、通道维度进行编码,不仅保持输入特征图的原始空间维度特征结构、保留位置信息并产生具有方向特定位置信息,而且使沿着空间维度编码的二次方增长的计算量减少为线性增长的计算量,因此,在对于给定具有高度H、宽度W和通道Cin的输入特征映射带有高度轴、宽度轴、通道轴的的i层TGMLP输出Si表示为:
Si-1=Chnnel MLP(LN(Si-2))+Si-2 (1),
第二个部分为全局感知GP模块和局部先验LP模块,TMLP中采用全连接作为特征抽取器,能实现了对医学图像的细粒度分割,然而在分割的时候全连接从一个分区提取分割图像特征,易忽视小尺度的物体,如细胞,并且容易造成医学图像分割物体结构内部局部细节丢失,为了解决这些问题,TMLP加入了全局感知模块和局部先验模块,全局感知模块将特征图进行分区,并传入多个全连接层里面,使特征图的不同分区之间共享参数,减少医学分割小尺度特征信息丢失,更有效地进行全局上下文建模,而局部先验模块构造平行于全连接的CNN和BN,采用CNN和BN提取局部特征,使模型避免了特征拆分所导致的局部相关性丢失,TMLP结构,如图4所示,其中N,C,H,W分别表示特征图的批次大小,通道数,高度和宽度,p表示需要填充的像素,h表示对特征图的分割区域大小,在Global Perceptron会将分区的相关性添加到每个分区上,Local Priors通过多个并行卷积捕获特征图的局部先验特征,
全局感知模块分区方式如下:首先,将输入大小为的特征图分成h个区域,特征图将重置为大小为/>并重新进行轴的排序,特征图大小变为如公式(4)所示:
其中RS表示改变张量的形状规格,而不改变数据在内存顺序的函数,Permute表示特征图对轴重新排序,然后,采用全局平均池化操作获取大小为的矩阵,并将矩阵输入进BN和一个两层的MLP,获得大小为/>的权重矩阵,如公式(5)所示:
Vout=MLP(BN(GAP(xout))) (5),
其中GAP表示全局平均池化,W表示卷积核,MLP表示为了实现同一通道的不同分区之间的相关性,首先将权重矩阵重置为大小/>然后采用pytorch中的expend函数将权重矩阵大小变为最后,采用add函数将权重矩阵添加到每个分区上,得到大小为的特征图Mout,如公式(6)所示;
全局感知模块实现了每个像素和不同的分区关联,弥补特征提取过程中小尺度物体丢失的问题,
在局部先验中,首先将全局感知的输出张量的形状改变为(N,H,W,C),然后构建4个并行的卷积层,每个卷积层后面跟着一个BN层,并将形状改变后的张量输入进4个并行的卷积,4个并行的卷积层解决了特征提取过程中局部结构信息丢失问题,4个卷积核的大小分别为1、3、5、7,卷积的padding用于保证分辨率即P=0,1,2,3,最后,将所有卷积分支的输出和TMLP的输出采用add函数加在一起,作为最后的输出,局部先验的计算方式如公式(7)、公式(8)所示:
Vout=RS(Mout,(N,W,H,C)) (7),
其中F表示4个卷积层的卷积核,它们分别为1、3、5、7,P为卷积层用来填充的像素数量,它们分别为0、1、2、3、4,Si为公式(3)的值;
第三个部分为门控注意力机制,TMLP和局部先验和全局感知模块能使TGMLP以良好的计算效率计算全局上下文特征信息,并且能够在输入特征映射内编码远程交互,然而在大规模医学数据集上进行评估,TGMLP更容易学习到位置偏差,对于小规模医学图像数据集进行实验,位置偏差很难学习,因此编码远程交互位置信息并不完全准确,在学习的位置差不够准确的情况下,将TMLP添加到TGMLP并不能完全发挥出TMLP的性能,因此提出了一种带门控的TMLP,它可以控制位置偏差对局部位置感知能力影响,通过对TMLP的修改,应用到高度轴的TMLP,可以用公式(8)表示,宽度轴和通道轴同公式(8):
其中在TMLP的公式(1)、公式(2)、公式(3)中增加门控机制,它们分别为GC,GH,GW∈R,它们为可学习的参数,共同创建门控机制,通常如果准确地学习位置编码信息,门控将分配比例较大的位置权重给TMLP的各个轴。
Claims (2)
1.一种基于MLP的医学图像分割方法,其特征在于,包括如下步骤:
1)编码:特征图的编码采用基于MLP的医学图像分割模型TGMLP Unet,在TGMLP Unet编码器中,首先TGMLP分别沿着高度轴、宽度轴和通道轴编码特征图,然后TGMLP加入全局感知和局部先验模块,TGMLP加入门控机制控制输出的信息量保留特征信息,TGMLP的输出的编码特征连接一个1×1的卷积层,经过卷积后的特征连接残差映射,并采用add函数将卷积后的特征和输入进TGMLP的特征相加,获得最终的编码后的特征图;
2)解码:解码器是由3×3卷积层、反卷积、跳跃连接构成,采用跳跃连接将解码部分中反卷积结果与编码部分的输出进行对应的连接与合并;
3)局部分支结构和全局分支结构:TGMLP UNet的两个分支结构分别为局部分支结构和全局分支结构,全局分支用来学习长距离特征的关系,局部分支用来弥补patch像素之间失去的局部细节特征,首先,两个分支结构之前医学影像分割图像经过3个7×7卷积层进行特征的初步提取,每个卷积层都有归一化和Relu激活函数,其次将局部分支输出的所有patch块特征进行堆叠,然后采用add函数将全局分支和局部分支的提取的特征图进行相加,最后采用1×1的卷积层对特征图进行像素级别分类,其中,在TGMLP Unet的全局分支设有2个编码器和2个解码器,局部分支中有5个编码器和5个解码器,不管是全局分支还是局部分支,都是将多个编码器和解码器分别串联起来。
2.根据权利要求1所述的基于MLP的医学图像分割方法,其特征在于,所述分割模型TGMLP Unet设有三个部分,其中:
第一个部分为Triple MLP模块,TMLP模块由三个独立分支组成,每个分支沿着特定的维度即高度、宽度、通道维度进行编码,在对于给定具有高度H、宽度W和通道Cin的输入特征映射带有高度轴、宽度轴、通道轴的的i层TGMLP输出Si表示为:
Si-1=Chnnel MLP(LN(Si-2))+Si-2 (1),
第二个部分为全局感知GP模块和局部先验LP模块,全局感知模块将特征图进行分区,并传入多个全连接层里面,使特征图的不同分区之间共享参数,而局部先验模块构造平行于全连接的CNN和BN,采用CNN和BN提取局部特征,
全局感知模块分区方式如下:首先,将输入大小为的特征图分成h个区域,特征图将重置为大小为/>并重新进行轴的排序,特征图大小变为/>如公式(4)所示:
其中RS表示改变张量的形状规格,而不改变数据在内存顺序的函数,Permute表示特征图对轴重新排序,然后,采用全局平均池化操作获取大小为的矩阵,并将矩阵输入进BN和一个两层的MLP,获得大小为/>的权重矩阵,如公式(5)所示:
Vout=MLP(BN(GAP(xout))) (5),
其中GAP表示全局平均池化,W表示卷积核,MLP表示首先将权重矩阵重置为大小/>然后采用pytorch中的expend函数将权重矩阵大小变为/>最后,采用add函数将权重矩阵添加到每个分区上,得到大小为的特征图Mout,如公式(6)所示;
在局部先验中,首先将全局感知的输出张量的形状改变为(N,H,W,C),然后构建4个并行的卷积层,每个卷积层后面跟着一个BN层,并将形状改变后的张量输入进4个并行的卷积,4个卷积核的大小分别为1、3、5、7,卷积的padding用于保证分辨率即P=0,1,2,3,最后,将所有卷积分支的输出和TMLP的输出采用add函数加在一起,作为最后的输出,局部先验的计算方式如公式(7)、公式(8)所示:
Vout=RS(Mout,(N,W,H,C)) (7),
其中F表示4个卷积层的卷积核,它们分别为1、3、5、7,P为卷积层用来填充的像素数量,它们分别为0、1、2、3、4,Si为公式(3)的值;
第三个部分为门控注意力机制,对TMLP的修改,应用到高度轴的TMLP,用公式(8)表示,宽度轴和通道轴同公式(8):
其中在TMLP的公式(1)、公式(2)、公式(3)中增加门控机制,它们分别为GC,GH,GW∈R,它们为可学习的参数,共同创建门控机制,如果准确地学习位置编码信息,门控将分配比例大的位置权重给TMLP的各个轴。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210251253.0A CN114638842B (zh) | 2022-03-15 | 2022-03-15 | 一种基于mlp的医学图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210251253.0A CN114638842B (zh) | 2022-03-15 | 2022-03-15 | 一种基于mlp的医学图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114638842A CN114638842A (zh) | 2022-06-17 |
CN114638842B true CN114638842B (zh) | 2024-03-22 |
Family
ID=81947200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210251253.0A Active CN114638842B (zh) | 2022-03-15 | 2022-03-15 | 一种基于mlp的医学图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114638842B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147606B (zh) * | 2022-08-01 | 2024-05-14 | 深圳技术大学 | 医学图像的分割方法、装置、计算机设备和存储介质 |
CN117392463A (zh) * | 2023-12-07 | 2024-01-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 图像分类方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021232609A1 (zh) * | 2020-05-20 | 2021-11-25 | 山东大学 | Rgb-d图像的语义分割方法、系统、介质及电子设备 |
CN113888466A (zh) * | 2021-09-03 | 2022-01-04 | 武汉科技大学 | 一种基于ct图像的肺结节图像检测方法及系统 |
CN114049314A (zh) * | 2021-10-28 | 2022-02-15 | 杭州电子科技大学 | 一种基于特征重排和门控轴向注意力的医学图像分割方法 |
CN114066902A (zh) * | 2021-11-22 | 2022-02-18 | 安徽大学 | 一种基于卷积和transformer融合的医学图像分割方法、系统、装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11270447B2 (en) * | 2020-02-10 | 2022-03-08 | Hong Kong Applied Science And Technology Institute Company Limited | Method for image segmentation using CNN |
-
2022
- 2022-03-15 CN CN202210251253.0A patent/CN114638842B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021232609A1 (zh) * | 2020-05-20 | 2021-11-25 | 山东大学 | Rgb-d图像的语义分割方法、系统、介质及电子设备 |
CN113888466A (zh) * | 2021-09-03 | 2022-01-04 | 武汉科技大学 | 一种基于ct图像的肺结节图像检测方法及系统 |
CN114049314A (zh) * | 2021-10-28 | 2022-02-15 | 杭州电子科技大学 | 一种基于特征重排和门控轴向注意力的医学图像分割方法 |
CN114066902A (zh) * | 2021-11-22 | 2022-02-18 | 安徽大学 | 一种基于卷积和transformer融合的医学图像分割方法、系统、装置 |
Non-Patent Citations (2)
Title |
---|
结合改进的U-Net和Morphsnakes的肝脏分割;刘哲;张晓林;宋余庆;朱彦;袁德琪;;中国图象图形学报;20180816(08);全文 * |
编码―解码结构的语义分割;韩慧慧;李帷韬;王建平;焦点;孙百顺;;中国图象图形学报;20200216(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114638842A (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN115601549B (zh) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 | |
CN114638842B (zh) | 一种基于mlp的医学图像分割方法 | |
CN109377530A (zh) | 一种基于深度神经网络的双目深度估计方法 | |
CN110782490A (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
CN115082293B (zh) | 一种基于Swin Transformer和CNN双分支耦合的图像配准方法 | |
CN113657388A (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
CN110349087B (zh) | 基于适应性卷积的rgb-d图像高质量网格生成方法 | |
CN113362242B (zh) | 基于多特征融合网络的图像修复方法 | |
CN115187638B (zh) | 一种基于光流遮罩的无监督单目深度估计方法 | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN112767283A (zh) | 一种基于多图像块划分的非均匀图像去雾方法 | |
CN116258757A (zh) | 一种基于多尺度交叉注意力的单目图像深度估计方法 | |
CN114092824A (zh) | 结合密集注意力和并行上采样的遥感图像道路分割方法 | |
CN112785502A (zh) | 一种基于纹理迁移的混合相机的光场图像超分辨率方法 | |
CN117173024A (zh) | 一种基于整体注意力的矿井图像超分辨率重建系统及方法 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
Ke et al. | Mdanet: Multi-modal deep aggregation network for depth completion | |
CN117237623B (zh) | 一种无人机遥感图像语义分割方法及系统 | |
Liu et al. | Playing to Vision Foundation Model's Strengths in Stereo Matching | |
CN116051752A (zh) | 基于多尺度特征融合空洞卷积ResNet的双目立体匹配算法 | |
CN116402717A (zh) | 基于自注意力机制与联合空洞卷积的goci图像修复去噪方法 | |
CN115170921A (zh) | 一种基于双边网格学习和边缘损失的双目立体匹配方法 | |
Zhang et al. | Pooling Pyramid Vision Transformer for Unsupervised Monocular Depth Estimation | |
CN113239771A (zh) | 一种姿态估计方法、系统及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |