CN116051945A - 一种基于CNN-Transformer并行融合方法 - Google Patents

一种基于CNN-Transformer并行融合方法 Download PDF

Info

Publication number
CN116051945A
CN116051945A CN202310041351.6A CN202310041351A CN116051945A CN 116051945 A CN116051945 A CN 116051945A CN 202310041351 A CN202310041351 A CN 202310041351A CN 116051945 A CN116051945 A CN 116051945A
Authority
CN
China
Prior art keywords
cnn
encoder
feature
branch
parallel fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310041351.6A
Other languages
English (en)
Inventor
袁宝华
陈佳璐
李宁
肖德豪
汤瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN202310041351.6A priority Critical patent/CN116051945A/zh
Publication of CN116051945A publication Critical patent/CN116051945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,尤其涉及一种基于CNN‑Transformer并行融合方法,包括:通过PCTNet网络的编码器提取待分割的医学图像特征,PaFusion‑encoder由两个分支组成;CNN分支感受野逐渐增大,特征编码从局部到全局;Transformer分支,采用全局自注意力与CNN分支中同等分辨率大小的特征图组成的并行融合模块,最大限度地保留了局部特征和全局特征。本发明通过充分挖掘CNN和Transformer各自的优点,提出基于医学图像分割的CNN和Transformer并行融合网络,进而整合图像中粗粒度和细粒度信息。

Description

一种基于CNN-Transformer并行融合方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于CNN-Transformer并行融合方法。
背景技术
医学图像分割的目的是使图像中解剖或病理结构的变化更加清晰,在各种计算机辅助诊断任务中发挥着关键作用;例如:病变轮廓,手术计划和三维重建等。医学图像分割有助于检测和定位图像中病变的边界,从而有助于快速识别肿瘤和癌变区域的潜在存在,这将有可能帮助临床医生节省诊断时间,提高发现肿瘤的可能性。
传统上,医学图像分割算法通常被构建为对称的自顶向下编码器-解码器结构,U-Net已经成为不同的变体中的选择基准,并取得了巨大的成功。U-Net由卷积组成,而卷积的优点是具有局部连接、权值共享两种特性的卷积算子,从而使得模型具有等变性。虽然这些特性有助于开发高效和通用的医学成像解决方案,但它们仍然需要额外的改进,以便真正帮助临床医生进行早期疾病诊断。
目前已经提出了各种在CNN中添加全局上下文的改进方法,比较有影响的方法有引入注意机制以及扩展卷积核以增加核的感受域。然而,卷积层中感受野的局部性仍然将它们的学习能力限制在相对较小的区域,阻止了网络利用来自输入图像的长距离语义依赖性,无法充分探索对象级信息,尤其是对于在器官的纹理、形状和大小方面通常产生较弱的性能,表现出较大的患者间差异。
ViT在自然图像的成功激起了医学界的极大兴趣,研究者们探讨了在医学图像分割背景下Transformer的潜力,减轻CNN固有的感受野偏差,使其适用于医学成像应用。然而,基于Transformer的模型的性能在很大程度上取决于预训练,它们的实验也验证了这一观点,同样预训练也会帮助医学图像分割。但基于Transformer的模型的预训练过程带来了两个问题;首先,预训练过程通常会在时间或计算消耗方面产生高计算复杂性;其次,对于医学图像,用于预训练的完整且公认的大型数据集很少(相比之下,ImageNet可用于自然场景图像),因为医学图像并不总是可用的,需要专业人士花费大量时间进行注释。并且自然图像和医学图像之间的领域鸿沟使得医学图像分割模型很难直接使用现有的大型自然图像数据集,此外在不同类型的医学图像也存在一些开放的挑战,例如,由于CT和MRI图像之间存在较大的区域差距,在CT数据集上预先训练的Swin UNETR在直接应用于其他医学成像模式(如MRI)时表现不佳。
充分挖掘CNN和Transformer各自的优点,有效地整合图像中粗粒度和细粒度信息的深度学习模型能够达到更好的分割精度,成为研究者们热衷的研究方向。例如,TransUNet在由CNN组成的编码器和解码器之间引入了Transformer;UCTransNet通过Transformer桥接从编码器到解码器的所有阶段,而不只是相邻阶段,捕获了多尺度的全局依赖性;MT-Unet交织Transformer和CNN块到一个混合模型,其中卷积可以编码精确的空间信息和自我注意可以捕获全局上下文。这些架构从宏观上实现了Transformer和CNN的串行组合;然而,在串行组合中,若只是采用堆叠的方式融合粗粒度和细粒度特征,会导致这两类网络的融合效果降低,不能充分发挥其互补的潜力。
发明内容
针对现有算法的不足,本发明通过充分挖掘CNN和Transformer各自的优点,提出基于医学图像分割的CNN和Transformer并行融合网络(简称为PCTNet),进而整合图像中粗粒度和细粒度信息。
本发明所采用的技术方案是:一种基于CNN-Transformer并行融合方法,包括以下步骤:
步骤一、通过PCTNet网络的编码器提取待分割的医学图像特征;
进一步的,PCTNet网络的编码器由CNN-encoder和PaFusion-encoder组成,将待分割医学图像输入CNN-encoder和PaFusion-encoder;PaFusion-encoder由两个分支组成;CNN分支感受野逐渐增大,特征编码从局部到全局;Transformer分支,则通过全局自注意力和CNN分支中同等分辨率大小的特征图组成的并行融合模块,最大限度地保留了局部特征和全局特征。
进一步的,CNN-encoder包含一个Stem块和两个Local layer层;给定高度为H、宽度为W的输入图像,由CNN-encoder FCNN(·)生成的特征图表示为:
Figure BDA0004050750770000031
其中,L表示特征层数,Θ表示CNN-encoder的参数,C表示通道的数量,Fl CNN为CNN-encoder生成第l层特征图函数。
进一步的,Stem块由两个3×3卷积组成,每个卷积块后面是BN模块和GELU激活函数,用于提取初始局部特征。
进一步的,Local layer层由三层卷积块和一层SE模块组成,两个Local layer层中SEConv block的个数分别是2和6。
进一步的,PaFusion-encoder由Parallel fusion Layer和Patch Embedding组成,Patch Embedding通过卷积将输入图像均匀划分为
Figure BDA0004050750770000032
块;Parallel fusionLayer包括CNN分支和Transform分支,给定高度为H、宽度为W的输入图像,由PaFusion-encoder的FPaFusiom(·)生成的特征图表示为:
Figure BDA0004050750770000041
其中,L表示特征层数,Θ表示CNN-encoder的参数,C表示通道数量,
Figure BDA0004050750770000042
为PaFusion-encoder生成第l层特征图函数;
Parallel fusion Layer存在两个输入Ft、Fc,Ft是Transformer分支上的输入,Fc是与Ft相同分辨率的CNN分支上的输入。
进一步的,并行融合模块对图像提取图像特征的过程包括:
(1)、Fc′是与Ft分辨率和通道数一致CNN分支上提取特征后形成的特征图,Fc′的公式为:
Fc'=gelu(Normal(Conv(Fc))),
(2)、Ft和Fc′相加得到特征图F与Ft一同作为输入进行卷积映射,Ft通过3×3的卷积映射生成Vt,F通过3×3的卷积映射生成Qf、Kf
F=F'c+Ft
Qf/Kf=Flatten(Conv2d(F),s),
Vt=Flatten(Conv2d(Ft),s),
(3)、将得到的Qf、Kf、Vt进行多头自注意力,表示为:
MHSA(Qf,Kf,Vt),
MHSA中每个头部的自我注意力计算如下:
Figure BDA0004050750770000043
其中,Q、K、V∈RL×d为query、key和value矩阵,经过卷积投影得到,d为query/key维,B∈RL×L为相对位置偏差;
(4)、将经过多头自注意力的特征图进行一次CMLP,CMLP由两层1×1卷积层组成,经过CMLP后得到的输出Ft′作为下一个融合模块中Transformer分支的输入,并与CNN分支上同等分辨率大小的特征图进行融合;
(5)、当Transformer分支融合到CNN分支时,采用Spatial Attention得到特征的空间注意力权重图,计算如下:
Figure BDA0004050750770000051
其中,σ表示sigmoid函数,
Figure BDA0004050750770000052
Figure BDA0004050750770000053
分别表示average-pooling特征和max-pooling特征;
(6)、将注意力图乘以CNN分支上的特征图,与Transformer分支上特征图Ft′进行拼接,并使用1×1卷积进一步融合特征,最后的输出作为下一个融合模块中CNN分支的输入;
(7)、Parallel fusion Layer的最后一层并行融合模块,CNN分支上的输出会与Transformer分支上的输出进行Element-wise addition后再经过Upsample作为编码层的输入。
步骤二、对步骤一生成图像特征输入解码器中进行还原并输出分割特征图;
本发明的有益效果:
1、高分辨率特征提取细粒度的局部信息,并进行深度卷积;考虑到低分辨率特征本身包含更多的全局信息,特征预测能够融合长距离的全局信息,自我注意机制更容易捕获深层信息。
2、低分辨率特征通过并行融合模块的操作将CNN和Transformer并行融合处理,从而利用自注意机制的强大远程依赖能力产生精确的医学图像分割;考虑到两种网络特征的互补性,CNN和Transformer的并行融合模块连续地从Transformer分支获取的全局上下文提供给特性映射,以增强CNN分支机构的全局感知能力;
3、CNN分支的局部特征被逐步反馈到Transformer中,以丰富Transformer分支的局部细节,构成了交互融合特征;最终能实现局部-全局特征互补,提升分割网络的编码能力;
4、相较于串行的组合,采用CNN与Transformer并行的操作使得模型能够连续地同时对局部和全局特征进行建模;此外因为在进行CNN和Transformer的融合的同时获取局部和全局特征,所以并行组合的信息交互会更加紧密、特征融合的更加彻底;在保持底层特性的细节和建模长期依赖性方面达到了平衡,能够结合卷积运算和自注意力机制两者的优点来增强表示学习;
5、本发明的PCTNet与U-Net、TransUNet、UCTransNet、MT-UNet和Swin Unet进行对比,PCTNet的平均Dice相似系数指标和平均豪斯多夫距离指标明显优于现有算法。
附图说明
图1是本发明的基于CNN-Transformer并行融合方法原理框图;
图2是本发明的并行融合模块图;
图3是本发明方法与U-Net、TransUNet、UCTransNet、MT-UNet和Swin UNet可视化的比较效果图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,一种基于CNN-Transformer并行融合方法,包括以下步骤:
将医学图像分割数据集(例如Synapse多器官分割数据集)剪裁为224×224大小的图片,并划分为训练和验证以及测试三部分;
步骤一、搭建PCTNet网络,编码部分提取医学图像特征,解码部分对图像进行还原并输出最终分割特征图;
搭建PCTNet网络具体方案:
(1)本发明采用U型分层的编码器和解码器架构,编码器主要是由CNN-encoder和PaFusion-encoder(Parallel Fusion,PaFusion)组成,编码器通过跳过连接与解码器连接;PaFusion-encoder由两个分支组成,以不同的方式处理信息:1)CNN分支,接收野逐渐增大,特征编码从局部到全局;2)Transformer分支,进行全局自注意力和CNN分支中同等分辨率大小的特征图组成的并行融合模块,最大限度地保留了局部特征和全局特征。
从两个分支提取的具有相同分辨率的特征被输入到并行融合模块中,在并行融合模块中依次进行CNN分支到Transformer分支和Transformer分支到CNN分支的特征融合,构成了相互融合特征,最终能实现两者特征互补;并行分支方法有三个优点:首先,CNN分支逐步提取低层次的高分辨率特征以获得精细的空间信息,不仅能帮助Transformer获取丰富的特征而且有利于其加速收敛。其次,在不构建非常深的网络的情况下Transformer分支可以捕获全局信息,同时保持对低级上下文的敏感性;最后,并行融合模块可以在特征提取期间同时利用CNN和Transformer的不同特性,从全局和局部特征不断聚合层次化表示(Hierarchical Representation),充分发挥两者的优越性。
(2)CNN-encoder采用特征金字塔结构,特征图的分辨率随着网络深度的增加而降低,感受野逐渐增大,通道数也逐渐增加,特征编码从局部到全局;CNN-encoder包含一个Stem块和2个Local layer;给定高度为H、宽度为W的输入图像x,由CNN-encoder的FCNN(·)生成的特征图表示为:
Figure BDA0004050750770000081
其中,L表示特征层数,Θ表示CNN-encoder的参数,C表示通道的数量,Fl CNN为CNN-encoder生成第l层特征图函数。
如图1所示,Stem块由两个3×3卷积组成,其步长分别为1和2,每个卷积块后面是Batch-Normalization(BN)和GELU激活函数,用于提取初始局部特征(例如,边缘和纹理信息);Local layer由三层卷积块和一层Squeeze-and-Excitation Networks中提出的Squeeze-and-Excitation(SE)模块组成的SEConv block堆叠组成,2个Local layer中SEConv block的个数分别是2和6;高效轻量级的SE模块可以无缝集成到CNN架构中,能帮助PCTNet网络增强局部细节,抑制无关区域,通过建模通道之间的关系来矫正通道特征,提升神经网络的表征能力。
(3)在CNN-encoder中,通过卷积运算以层级方式收集局部特征,并将局部线索保留为特征图;而PaFusion-encoder通过级联的自注意力模块以一种并行方式融合CNN的特征表示,最大限度地保留了局部特征和全局特征。PaFusion-encoder由Parallel fusionLayer和Patch Embedding组成,Parallel fusion Layer由6层并行融合模块叠加组成;Parallel fusion Layer存在两条分支,分别是CNN分支和Transform分支,它们对信息的处理方式不同;CNN分支通过卷积运算在有限的感受野下获取丰富的局部特征;Transformer分支则通过Attention机制在进行全局自注意力。
给定高度为H、宽度为W的输入图像x经过Patch Embedding的输出作为Transformer分支上输入;Patch Embedding是将输入图像x均匀划分为
Figure BDA0004050750770000082
块,以保持其与卷积层的局部连续性;其中S(卷积步长)设置为16;将得到的Transformer分支特征图Ft同CNN-encoder输出的特征图Fl CNN(x;Θ)一起输入到并行融合模块,在计算复杂度有限的情况下学习远程依赖和局部上下文;由PaFusion-encoder FPaFusiom(·)生成的特征图表示为:
Figure BDA0004050750770000091
其中,L表示特征层数,Θ表示CNN-encoder的参数,C表示通道数量,Fl PaFusion为PaFusion-encoder生成第l层特征图函数。
Transformer分支中通过Patch Embedding将图像块投影到向量中,会导致局部细节丢失;而在CNN中,卷积核在重叠的特征图上滑动,这提供了保留精细局部特征的可能性;因此,CNN分支能够连续地为Transformer分支提供局部特征细节。
(4)局部特征和全局特征是一个图像完全不同的两种表征;前者专注于细粒度细节,有利于微小物体检测和像素级定位,而后者旨在建模远程部件之间的对象级关系;为了有效地结合CNN和Transformer的编码特征,提出了一种并行融合模块,能以交互方式将卷积的局部特征与基于Transformer的全局特征融合。
并行融合模块存在两个输入Ft和Fc,Ft是Transformer分支上的输入,Fc是与Ft相同分辨率的CNN分支上的输入,Fc′是与Ft分辨率和通道数一致CNN分支上提取特征后形成的特征图;Fc′的公式为:
Fc'=gelu(Normal(Conv(Fc))),
Transformer是在全局的token之间聚合信息,然而CNN仅在卷积核有限的局部视野中进行聚合信息,这就导致Transformer与CNN之间存在一定的特征语义差异;因此,通过叠加CNN与Transformer的特征图,自适应融合具有二者共同信息的自注意力权重,从而达到计算local和global token之间的相互关系。
Ft和Fc′相加得到特征图F与Ft一同作为输入进行卷积映射;Ft通过3×3的卷积映射生成Vt,F通过3×3的卷积映射生成Qf、Kf
F=F'c+Ft
Qf/Kf=Flatten(Conv2d(F),s),
Vt=Flatten(Conv2d(Ft),s),
将得到的Qf、Kf、Vt进行多头自注意力,可以表示为:
MHSA(Qf,Kf,Vt),
Multi-Head Self-Attention(MHSA)中每个头部的自我注意力计算如下:
Figure BDA0004050750770000101
其中,Q、K、V∈RL×d为query、key和value矩阵,经过卷积投影得到,d为query/key维,B∈RL×L为相对位置偏差;先参数化一个更小的偏差矩阵
Figure BDA0004050750770000102
B的值取自
Figure BDA0004050750770000103
之后进行一次CMLP(Convolution Multi-layer Perceptron),CMLP由两层1×1卷积层组成;如图2所示,经过CMLP后得到的输出Ft′会作为下一个融合模块中Transformer分支的输入,同时与CNN分支上同等分辨率大小的特征图进行融合。
考虑到CNN和Transformer具有不同的感受野,因此CNN和Transformer提取的特征存在不对称性;同时,这些特征所反映的信息在空间上有很大的差距;当Transformer分支融合到CNN分支时,对其采用Spatial Attention得到特征的空间注意力权重图,计算如下:
Figure BDA0004050750770000104
其中,σ表示sigmoid函数,
Figure BDA0004050750770000105
Figure BDA0004050750770000106
分别表示average-pooling特征和max-pooling特征。
将该注意力图乘以CNN分支上的特征图,以实现空间信息特征增强;Transformer分支上特征图Ft′进行拼接,并使用1×1卷积进一步融合特征;最后的输出作为下一个融合模块中CNN分支的输入;Parallel fusion Layer的最后一层并行融合模块,CNN分支上的输出会与Transformer分支上的输出进行Element-wise addition后再经过Upsample作为编码层的输入。
步骤二、对步骤一生成图像特征输入解码器中进行还原并输出分割特征图;
PCTNet中与编码器相应的解码器以纯卷积模块构建,它由4个上采样步骤组成,解码隐藏特征,输出最终的分割掩码;解码器为现有技术的解码器,具体参照文献:J.Chen,Y.Lu,Q.Yu,X.Luo,E.Adeli,Y.Wang,L.Lu,A.L.Yuille,Y.Zhou,Transunet:Transformersmake strong encoders for medical image segmentation,arXiv preprint arXiv:2102.04306.或O.Ronneberger,P.Fischer,T.Brox,U-net:Convolutional networks forbiomedical image segmentation,in:N.Navab,J.Hornegger,W.M.Wells,A.F.Frangi(Eds.),International Conference on Medical Image Computing and Computer-Assisted Intervention(MICCAI),Springer International Publishing,Cham,2015,pp.234–241。
在解码器的入口,首先对转换后的特征映射应用双线性插值,将其分辨率提高2倍;然后,将调整过大小的特征映射与前一层的特征映射拼接起来,并将它们输入到连续的3×3卷积层;这个过程对所有其他后续层重复,直到特征图恢复原始输入分辨率的一半,对其最终输出应用双线性插值提高分辨率2倍,最后送入一个1×1的卷积层,生成像素级语义预测。
编码器和解码器通过跳接和拼接运算融合编码器的语义信息,以获得更多的上下文信息;CNN-encoder的三层输出依次跳转连接到解码器的三层中恢复局部空间信息来增强更精细的细节;PaFusion-encoder为CNN和Transformer的并行融合层,输出到解码层的是融合二者特征后的特征输出。
使用PCTNet网络对医学图像分割数据集进行检测,判断医学图像像素区域,输出医学图像分割结果,实验结果如下:
使用相同的图片尺寸和预处理在Synapse多器官分割数据集上进行实验,并将本发明的PCTNet与U-Net、TransUNet、UCTransNet、MT-UNet和Swin UNet各种基于Transformer或者CNN的主要方法进行比较,结果如表1所示。
表1:不同方法在Synapse数据集上的分割性能(平均Dice相似系数(DSC),单位为%;平均豪斯多夫距离(HD),单位mm)。
Method DSC(%)↑ HD(mm)↓
U-Net 76.85 39.70
TransUnet 77.48 31.69
UCTransNet 78.23 26.75
MT-UNet 78.59 26.59
SwinUnet 79.13 21.55
PCTNet 81.59 14.47
同时为了直观地展示PCTNet模型的性能,将Synapse数据集上PCTNet模型的一些定性结果与U-Net、TransUNet、UCTransNet、MT-UNet和Swin UNet进行了可视化的比较;如图3所示,使用方框突出显示区域;其中PCTNet的性能优于其他方法;具体来看:PCTNet能够在平均HD和DSC上分别超过SwinUNet超过7.08mm和2.46%。对于一些难以分割的特定器官,PCTNet具有更好的捕捉远程依赖性的能力,如图3第一行中,对比其他模型PCTNet可以更好地分割出形状又长又窄的胰腺。在大器官的识别上,PCTNet在识别和勾画胃轮廓方面具有更好的准确性,如第二行所示,PCTNet分割的结果与真实标签基本一致。在小器官的识别上,PCTNet存在一定的优势,如第三行所示,在胆囊的识别上,个别模型会出现不能完全识别的情况。PCTNet能够在器官交界处更加精准的识别,如第四行所示,在肝脏和胃的交界处,而其他三个模型会出现一些错误,表明PCTNet的方法是有效的。可视化直观地展示了PCTNet的高分割精度,尤其是在一些难以分割的切片上。优异的性能归功于PCTNet中的并行融合模块,该模块在关注大器官的同时也能够兼顾局部的小器官,显示出PCTNet在学习高级语义特征和底层细节方面的强大表征能力,在医学图像分割中是至关重要的。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (7)

1.一种基于CNN-Transformer并行融合方法,其特征在于,包括以下步骤:
步骤一、通过PCTNet网络的编码器提取待分割的医学图像特征;
步骤二、对编码器生成图像特征输入解码器中进行还原并输出分割特征图。
2.根据权利要求1所述的基于CNN-Transformer并行融合方法,其特征在于:PCTNet网络的编码器由CNN-encoder和PaFusion-encoder组成,将待分割医学图像输入CNN-encoder和PaFusion-encoder;PaFusion-encoder由两个分支组成;CNN分支感受野逐渐增大,特征编码从局部到全局;Transformer分支,则通过全局自注意力和CNN分支中同等分辨率大小的特征图组成的并行融合模块,最大限度地保留了局部特征和全局特征。
3.根据权利要求2所述的基于CNN-Transformer并行融合方法,其特征在于,CNN-encoder包含一个Stem块和两个Local layer层;给定高度为H、宽度为W的输入图像,由CNN-encoder FCNN(·)生成的特征图表示为:
Figure FDA0004050750760000011
其中,L表示特征层数,Θ表示CNN-encoder的参数,C表示通道的数量,Fl CNN为CNN-encoder生成第l层特征图函数。
4.根据权利要求3所述的基于CNN-Transformer并行融合方法,其特征在于:Stem块由两个3×3卷积组成,每个卷积块后面是BN模块和GELU激活函数,用于提取初始局部特征。
5.根据权利要求3所述的基于CNN-Transformer并行融合方法,其特征在于:Locallayer层由三层卷积块和一层SE模块组成,两个Local layer层中SEConv block的个数分别是2和6。
6.根据权利要求2所述的基于CNN-Transformer并行融合方法,其特征在于:PaFusion-encoder由Parallel fusion Layer和Patch Embedding组成,Patch Embedding通过卷积将输入图像均匀划分为
Figure FDA0004050750760000021
块;Parallel fusion Layer包括CNN分支和Transform分支,给定高度为H、宽度为W的输入图像,由PaFusion-encoder的FPaFusiom(·)生成的特征图表示为:
Figure FDA0004050750760000022
其中,L表示特征层数,Θ表示CNN-encoder的参数,C表示通道数量,Fl PaFusion为PaFusion-encoder生成第l层特征图函数;
Parallel fusion Layer存在两个输入Ft、Fc,Ft是Transformer分支上的输入,Fc是与Ft相同分辨率的CNN分支上的输入。
7.根据权利要求2所述的基于CNN-Transformer并行融合方法,其特征在于,并行融合模块对图像提取图像特征的过程包括:
(1)、Fc′是与Ft分辨率和通道数一致CNN分支上提取特征后形成的特征图,Fc′的公式为:
Fc'=gelu(Normal(Conv(Fc))),
(2)、Ft和Fc′相加得到特征图F与Ft一同作为输入进行卷积映射,Ft通过3×3的卷积映射生成Vt,F通过3×3的卷积映射生成Qf、Kf
F=F′c+Ft
Qf/Kf=Flatten(Conv2d(F),s),
Vt=Flatten(Conv2d(Ft),s),
(3)、将得到的Qf、Kf、Vt进行多头自注意力,表示为:
MHSA(Qf,Kf,Vt),
MHSA中每个头部的自我注意力计算如下:
Figure FDA0004050750760000031
其中,Q、K、V∈RL×d为query、key和value矩阵,经过卷积投影得到,d为query/key维,B∈RL×L为相对位置偏差;
(4)、将经过多头自注意力的特征图进行一次CMLP,CMLP由两层1×1卷积层组成,经过CMLP后得到的输出Ft′作为下一个融合模块中Transformer分支的输入,并与CNN分支上同等分辨率大小的特征图进行融合;
(5)、当Transformer分支融合到CNN分支时,采用Spatial Attention得到特征的空间注意力权重图,计算如下:
Figure FDA0004050750760000032
其中,σ表示sigmoid函数,
Figure FDA0004050750760000033
Figure FDA0004050750760000034
分别表示average-pooling特征和max-pooling特征;
(6)、将注意力图乘以CNN分支上的特征图,与Transformer分支上特征图Ft′进行拼接,并使用1×1卷积进一步融合特征,最后的输出作为下一个融合模块中CNN分支的输入;
(7)、Parallel fusion Layer的最后一层并行融合模块,CNN分支上的输出会与Transformer分支上的输出进行Element-wise addition后再经过Upsample作为编码层的输入。
CN202310041351.6A 2023-01-13 2023-01-13 一种基于CNN-Transformer并行融合方法 Pending CN116051945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310041351.6A CN116051945A (zh) 2023-01-13 2023-01-13 一种基于CNN-Transformer并行融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310041351.6A CN116051945A (zh) 2023-01-13 2023-01-13 一种基于CNN-Transformer并行融合方法

Publications (1)

Publication Number Publication Date
CN116051945A true CN116051945A (zh) 2023-05-02

Family

ID=86121553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310041351.6A Pending CN116051945A (zh) 2023-01-13 2023-01-13 一种基于CNN-Transformer并行融合方法

Country Status (1)

Country Link
CN (1) CN116051945A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665063A (zh) * 2023-07-27 2023-08-29 南京信息工程大学 基于自注意力和深度卷积并行的高光谱重建方法
CN116681958A (zh) * 2023-08-04 2023-09-01 首都医科大学附属北京妇产医院 基于机器学习的胎儿肺脏超声影像成熟度预测方法
CN116739992A (zh) * 2023-05-17 2023-09-12 福州大学 一种甲状腺被膜侵犯智能辅助判读方法
CN117036613A (zh) * 2023-08-18 2023-11-10 武汉大学 一种基于多重感受野交融网络的偏振三维重建方法和系统
CN117237740A (zh) * 2023-11-07 2023-12-15 山东军地信息技术集团有限公司 一种基于CNN和Transformer的SAR图像分类方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739992A (zh) * 2023-05-17 2023-09-12 福州大学 一种甲状腺被膜侵犯智能辅助判读方法
CN116739992B (zh) * 2023-05-17 2023-12-22 福州大学 一种甲状腺被膜侵犯智能辅助判读方法
CN116665063A (zh) * 2023-07-27 2023-08-29 南京信息工程大学 基于自注意力和深度卷积并行的高光谱重建方法
CN116665063B (zh) * 2023-07-27 2023-11-03 南京信息工程大学 基于自注意力和深度卷积并行的高光谱重建方法
CN116681958A (zh) * 2023-08-04 2023-09-01 首都医科大学附属北京妇产医院 基于机器学习的胎儿肺脏超声影像成熟度预测方法
CN116681958B (zh) * 2023-08-04 2023-10-20 首都医科大学附属北京妇产医院 基于机器学习的胎儿肺脏超声影像成熟度预测方法
CN117036613A (zh) * 2023-08-18 2023-11-10 武汉大学 一种基于多重感受野交融网络的偏振三维重建方法和系统
CN117036613B (zh) * 2023-08-18 2024-04-02 武汉大学 一种基于多重感受野交融网络的偏振三维重建方法和系统
CN117237740A (zh) * 2023-11-07 2023-12-15 山东军地信息技术集团有限公司 一种基于CNN和Transformer的SAR图像分类方法
CN117237740B (zh) * 2023-11-07 2024-03-01 山东军地信息技术集团有限公司 一种基于CNN和Transformer的SAR图像分类方法

Similar Documents

Publication Publication Date Title
Huang et al. Missformer: An effective transformer for 2d medical image segmentation
CN116051945A (zh) 一种基于CNN-Transformer并行融合方法
Yu et al. Morphological feature visualization of Alzheimer’s disease via multidirectional perception GAN
Li et al. Transforming medical imaging with Transformers? A comparative review of key properties, current progresses, and future perspectives
Pan et al. Spatially-constrained fisher representation for brain disease identification with incomplete multi-modal neuroimages
Sun et al. Anatomical attention guided deep networks for ROI segmentation of brain MR images
Chen et al. Hippocampus segmentation through multi-view ensemble ConvNets
CN113034505B (zh) 一种基于边缘感知网络的腺体细胞图像分割方法及装置
Karimzadeh et al. Attention-based deep learning segmentation: Application to brain tumor delineation
Huang et al. Attentive symmetric autoencoder for brain MRI segmentation
Ramasamy et al. Multi-modal semantic segmentation model using encoder based Link-Net architecture for BraTS 2020 challenge
Amyar et al. Multi-task multi-scale learning for outcome prediction in 3D PET images
Yang et al. A neural ordinary differential equation model for visualizing deep neural network behaviors in multi‐parametric MRI‐based glioma segmentation
Hu et al. An efficient R-transformer network with dual encoders for brain glioma segmentation in MR images
Zheng et al. Multi-strategy mutual learning network for deformable medical image registration
Li et al. MCRformer: Morphological constraint reticular transformer for 3D medical image segmentation
Jin et al. A hybrid deep learning method for early and late mild cognitive impairment diagnosis with incomplete multimodal data
Hong et al. Dual encoder network with transformer-CNN for multi-organ segmentation
Yu et al. An end-to-end medical image fusion network based on Swin-transformer
Qin et al. Dynamically aggregating MLPs and CNNs for skin lesion segmentation with geometry regularization
Chen et al. Rethinking visual reconstruction: Experience-based content completion guided by visual cues
CN113744284B (zh) 脑肿瘤图像区域分割方法、装置、神经网络及电子设备
Hu Multi-texture GAN: exploring the multi-scale texture translation for brain MR images
Geng et al. TC-Fuse: A Transformers Fusing CNNs Network for Medical Image Segmentation
Magadza et al. Efficient nnU-Net for Brain Tumor Segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination