CN114912575B - 基于连接Swin Transformer通路的医学图像分割模型及方法 - Google Patents

基于连接Swin Transformer通路的医学图像分割模型及方法 Download PDF

Info

Publication number
CN114912575B
CN114912575B CN202210356824.7A CN202210356824A CN114912575B CN 114912575 B CN114912575 B CN 114912575B CN 202210356824 A CN202210356824 A CN 202210356824A CN 114912575 B CN114912575 B CN 114912575B
Authority
CN
China
Prior art keywords
layer
swin
transducer
msa
medical image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210356824.7A
Other languages
English (en)
Other versions
CN114912575A (zh
Inventor
辛景民
徐霁琛
蔡卓桐
武佳懿
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202210356824.7A priority Critical patent/CN114912575B/zh
Publication of CN114912575A publication Critical patent/CN114912575A/zh
Application granted granted Critical
Publication of CN114912575B publication Critical patent/CN114912575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于连接Swin Transformer通路的医学图像分割模型及方法,属于神经网络领域。发明提出的基于连接Swin Transformer通路的医学图像分割模型及方法,利用基于高效密集连接Swin Transformer通路,提高图像的分割结果。本发明的DSTUNet,是一个包含DSTB模块的UNet网络,以密集连接的Swin Transformer块作为有效通路来改善医学图像分割的多尺度长距离依赖性。其次,通过Swin Transformer层之间的密集连接,DSTUNet可以更好地利用特征信息,加强信息流的传递,以减少信息衰退。

Description

基于连接Swin Transformer通路的医学图像分割模型及方法
技术领域
本发明属于神经网络领域,尤其是基于连接Swin Transformer通路的医学图像分割模型及方法。
背景技术
U型网络的成功应用,使得自动医学分割方法表现出优越的性能。带有跳过连接的U型网络遵循并拓宽了全卷积网络(FCN)的边界。带有跳过连接的U型网络是由一系列卷积、池化和上采样组成的对称编码器、解码器构建的。更重要的是,能够通过跳过连接进行特征融合,以补偿下采样过程中的信息损失。尽管在许多分割任务中表现出色,U型结构网络仍受信息衰退的限制。特别是,U型网络很难有效地建立明确的长距离特征依赖关系,也很难捕捉到全局性的背景信息。
现有的改进一般从两方面进行,如TransUnet和SwinUnet,将Transformer与医学图像分割相结合,利用多头自我关注机制来提高性能。然而,TransUnet只能通过在最底层加入ViT来增强单一规模上的长距离依赖性。SwinUnet利用Swin Transformer作为编码器和解码器,但在信息衰退方面缺乏有效的跳转连接。此外,上述两种方法主要关注的是自动编码器的结构,而忽略了编码器和解码器之间的通路。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供基于连接Swin Transformer通路的医学图像分割模型及方法。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于连接Swin Transformer通路的医学图像分割模型,包括编码器和解码器结构的分割网络框架,编码器和解码器对应层的通路上均设有DSTB模块;
所述DSTB模块包括若干个Swin Transformer模块,Swin Transformer模块之间均连接有融合模块和卷积层;
所述Swin Transformer模块包括交替设置的窗口多头自注意力层W-MSA和偏移的窗口多头自注意力层SW-MSA,窗口多头自注意力层W-MSA和偏移的窗口多头自注意力层之后分别连接有多层感知器MLP,窗口多头自注意力层W-MSA及偏移的窗口多头自注意力层与多层感知器MLP之间通过GELU函数连接;窗口多头自注意力层W-MSA及偏移的窗口多头自注意力层W-MSA之前均设有标准化层,通过标准化层之前的特征和通过窗口多头自注意力层W-MSA或偏移的窗口多头自注意力层W-MSA的特征通过残差相连接;多层感知器MLP之前设有标准化层,通过标准化层之前的特征与通过多层感知器MLP之后的特征通过残差连接;
当编码器的第i层特征进入到对应层的DSTB模块中时,依次通过每个SwinTransformer结构,得到每个Swin Transformer的输出特征;对第t个transformer,输出特征记为/>,输入为对/>进行融合后的特征;
第i层特征和所有的Swin Transformer的输出进行特征融合,融合后与第i层特征/>进行残差连接,得到第i层特征在DSTB模块中的最终输出/>
进一步的,DSTB模块中,输入特征前向运算的表达式如下:
其中,X输入特征,W-MSA为窗口多头自注意力层,SW-MSA为有位移的窗口多头自注意力层,LN为标准化层,MLP为多层感知器。
进一步的:
DSTB模块中的第t个Swin Transformer的输出为:
其中,为Swin Transfomer,/>为特征融合操作。
进一步的:DSTB模块的最终输出为:
进一步的,所述编码器采用ResNet34作为主干结构,保留每层输出的特征图像。
进一步的,所述解码器采用U-net网络,使用卷积进行上采样。
一种本发明所述的基于连接Swin Transformer通路的医学图像分割模型的分割方法,包括以下步骤:
(1)输入待分割的医学图像,编码器得到每一层特征,每一层特征分别进入到对应的DSTB模块内;
(2)每层DSTB模块均进行输出特征;
(3)将每层DSTB模块输出特征和对应的解码器上采样的结果进行融合,从而得到最终输出的分割结果。
进一步的,步骤(2)中的具体流程为:
当编码器的第i层特征进入到DSTB模块中时,第t个Swin Transformer的输出/>为;
其中,为Swin Transfomer,/>为特征融合操作;
第i层特征和所有的Swin Transformer的输出进行特征融合,融合后与第i层特征/>进行残差连接,得到第i层特征在DSTB模块中的最终输出/>,/>为:
进一步的,还包括步骤(4):利用损失函数进行训练,约束模型在所选数据集上取得机制目前最优的分割结果。
与现有技术相比,本发明具有以下有益效果:
发明提出的基于连接Swin Transformer通路的医学图像分割模型及方法,利用基于高效密集连接Swin Transformer通路,提高图像的分割结果。本发明的DSTUNet,是一个包含DSTB模块的UNet网络,以密集连接的Swin Transformer块作为有效通路来改善医学图像分割的多尺度长距离依赖性。其次,通过Swin Transformer层之间的密集连接,DSTUNet可以更好地利用特征信息,加强信息流的传递,以减少信息衰退。
附图说明
图1为本发明的网络架构图,其中包括Swin Transformer的网络架构图和本发明的医学图像分割模型的网络架构图;
图2为本发明的网络在Synapse multi-organ CT数据集上的一张图像上与其他方法的分割结果对比,其中,图2(a)为各个器官分割的真实标签,图2(b)为Unet分割的结果,图2(c)为TransUnet的分割结果,图2(d)为SwinUnet的分割结果,图2(e)为本发明的DSTUnet的分割结果。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,具体包括Swin Transformer的网络架构图和为本发明的医学图像分割模型的网络架构图,基于连接Swin Transformer通路的医学图像分割模型。原始图像输入到DSTUnet网络中,通过编码器获得分层特征,将这些特征输入对应层的DSTB模块中,得到每层DSTB模块的输出,将每层DSTB模块的输出与解码器中对应层的输出特征融合,作为解码器下一层的输入,直到获得最终的分割结果。
基于连接Swin Transformer通路的医学图像分割方法,包括以下步骤:
步骤1:设计一个基于编码器和解码器的分割网络框架。编码器的部分采用ResNet34作为主干结构,保留每层输出的特征图像,解码器的部分参考经典的U-net网络,使用卷积进行上采样。
步骤2:引入包含Swin Transformer的模块,在此处记作DSTB模块(Dense SwinTransformer Block)。参见图1的Swin Transformer的网络架构图,一个DSTB模块由4组Swin Transformer模块组成。一组Swin Transfomer模块包含一个基于窗口的多头自注意力模块和其后的一个2层多层感知器(MLP)组成,它们之间用GELU 函数进行非线性激活。若Swin Tranforrmer结构处在奇数位置,则其中的多头自注意力模块为普通的窗口多头自注意力模块(W-MSA);反之,如果其处在偶数位置,则其中的多头自注意力模块为带位移的窗口多头自注意力模块(SW-MSA)。在多头自注意力模块和多层感知器之前还分别有一个标准化层(LN)。通过标准化层之前的特征和通过某个模块后的特征通过残差连接,表达式如下:
其中,X输入特征,W-MSA为窗口多头自注意力层,SW-MSA为有位移的窗口多头自注意力层,LN为标准化层,MLP为多层感知器。
步骤3:将步骤1中的存下的每一层特征通过DSTB模块,得到每一层通过DSTB模块后的输出。具体地,对由编码器得到的第i层特征,在经过DSTB模块中第t个SwinTransformer后的输出如下:
其中,为Swin Transfomer,/>为特征融合操作。参见图1的医学图像分割模型的网络架构图,特征融合操作是将需要融合的特征进行拼接后,使用一个3x3的卷积调整维度。在得到了每一个Swin Transformer的输出之后,将初始特征和每一个SwinTransformer的输出进行特征融合,并与初始特征进行残差连接,从而得到这一层特征通过整个DSTB模块的输出。其表达式如下:
步骤4:将每层DSTB模块输出的特征和对应的解码器上采样的结果进行融合,从而得到最终输出的分割结果。
步骤5:利用损失函数进行训练,约束模型在所选数据集上取得机制目前最优的分割结果。
实施例
在两个公开数据集上验证了本发明的有效性。使用戴斯相似性系数(Dice-similarity Coefficient,简写为DSC)豪斯多夫距离(Hausdorff Distance,简写为HD)。DSC值越高,HD越低说明分割效果越好。参见表1,在Synapse multi-organ segmentation数据集上,DSTUnet与已有方法对比,整体的DSC值最高,HD值最低。针对具体器官而言,DSTUnet在多数器官上也有最好的分割表现。参见表2,DSTUnet在Automated cardiacdiagnosis challenge数据集上也有最高的DSC值。除此之外,我们还验证了部分超参数对算法表现的影响,并选取了最合适的超参数,参见表3,4。
参见图2,图2(a)为各个器官分割的真实标签,图2(b)为Unet分割的结果,图2(c)为TransUnet的分割结果,图2(d)为SwinUnet的分割结果,图2(e)为本发明的DSTUnet的分割结果,由此可以发现,本发明的DSTUnet方法具有最好的分割效果。
表1本发明方法提出的算法与其他方法在Synapse multi-organ segmentation
数据集上的对比实验
表2本发明方法提出的算法与其他方法在Automated cardiac diagnosischallenge
数据集上的对比实验
表3 是否进行稠密连接对实验结果的影响
表4 ST模块数对实验结果的影响
由此可以看出,提出的网络与其他现有的方法相比,表现出了更好的生成结果,其中DSC达到82.44,HD达到17.83。
上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (9)

1.一种基于连接Swin Transformer通路的医学图像分割模型,其特征在于,包括编码器和解码器构成的分割网络框架,编码器和解码器对应层的通路上均设有DSTB模块;
所述DSTB模块包括若干个Swin Transformer模块,Swin Transformer模块之间均连接有融合模块和卷积层;
所述Swin Transformer模块包括交替设置的窗口多头自注意力层W-MSA和偏移的窗口多头自注意力层SW-MSA,窗口多头自注意力层W-MSA和偏移的窗口多头自注意力层SW-MSA之后分别连接有多层感知器MLP,窗口多头自注意力层W-MSA及偏移的窗口多头自注意力层SW-MSA与多层感知器MLP之间通过GELU函数连接;窗口多头自注意力层W-MSA及偏移的窗口多头自注意力层W-MSA之前均设有标准化层,通过标准化层之前的特征和通过窗口多头自注意力层W-MSA或偏移的窗口多头自注意力层W-MSA的特征通过残差相连接;多层感知器MLP之前设有标准化层,通过标准化层之前的特征与通过多层感知器MLP之后的特征通过残差连接;
当编码器的第i层特征Fi进入到对应层的DSTB模块中时,依次通过每个SwinTransformer模块,得到每个Swin Transformer模块的输出特征;对第t个transformer,输出特征记为输入为对/>进行融合后的特征;
第i层特征Fi和所有的Swin Transformer模块的输出进行特征融合,融合后与第i层特征Fi进行残差连接,得到第i层特征在DSTB模块中的最终输出
2.根据权利要求1所述的基于连接Swin Transformer通路的医学图像分割模型,其特征在于,DSTB模块中,输入特征前向运算的表达式如下:
X=W-MSA(LN(X))+X或X=SW-MSA(LN(X))
X=MLP(LN(X))+X
其中,X输入特征,W-MSA为窗口多头自注意力层,SW-MSA为有位移的窗口多头自注意力层,LN为标准化层,MLP为多层感知器。
3.根据权利要求1所述的基于连接Swin Transformer通路的医学图像分割模型,其特征在于:
DSTB模块中的第t个Swin Transformer的输出为:
其中,PST为Swin Transfomer,PFF为特征融合操作。
4.根据权利要求3所述的基于连接Swin Transformer通路的医学图像分割模型,其特征在于:DSTB模块的最终输出为:
5.根据权利要求1所述的基于连接Swin Transformer通路的医学图像分割模型,其特征在于,所述编码器采用ResNet34作为主干结构,保留每层输出的特征图像。
6.根据权利要求1所述的基于连接Swin Transformer通路的医学图像分割模型,其特征在于,所述解码器采用U-net网络,使用卷积进行上采样。
7.一种根据权利要求1-6任一项所述的基于连接Swin Transformer通路的医学图像分割模型的分割方法,其特征在于,包括以下步骤:
(1)输入待分割的医学图像,编码器得到每一层特征,每一层特征分别进入到对应的DSTB模块内;
(2)每层DSTB模块均进行输出特征;
(3)将每层DSTB模块输出特征和对应的解码器上采样的结果进行融合,从而得到最终输出的分割结果。
8.根据权利要求6所述的基于连接Swin Transformer通路的医学图像分割模型的分割方法,其特征在于,步骤(2)中的具体流程为:
当编码器的第i层特征Fi进入到DSTB模块中时,第t个Swin Transformer的输出为;
其中,PST为Swin Transfomer,PFF为特征融合操作;
第i层特征Fi和所有的Swin Transformer的输出进行特征融合,融合后与第i层特征Fi进行残差连接,得到第i层特征在DSTB模块中的最终输出为:
9.根据权利要求6所述的基于连接Swin Transformer通路的医学图像分割模型的分割方法,其特征在于,还包括步骤(4):利用损失函数进行训练,约束模型在所选数据集上取得机制目前最优的分割结果。
CN202210356824.7A 2022-04-06 2022-04-06 基于连接Swin Transformer通路的医学图像分割模型及方法 Active CN114912575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210356824.7A CN114912575B (zh) 2022-04-06 2022-04-06 基于连接Swin Transformer通路的医学图像分割模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210356824.7A CN114912575B (zh) 2022-04-06 2022-04-06 基于连接Swin Transformer通路的医学图像分割模型及方法

Publications (2)

Publication Number Publication Date
CN114912575A CN114912575A (zh) 2022-08-16
CN114912575B true CN114912575B (zh) 2024-04-09

Family

ID=82763100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210356824.7A Active CN114912575B (zh) 2022-04-06 2022-04-06 基于连接Swin Transformer通路的医学图像分割模型及方法

Country Status (1)

Country Link
CN (1) CN114912575B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115330898B (zh) * 2022-08-24 2023-06-06 晋城市大锐金马工程设计咨询有限公司 一种基于改进Swin Transformer的杂志广告嵌入方法
CN115578406B (zh) * 2022-12-13 2023-04-07 四川大学 基于上下文融合机制的cbct颌骨区域分割方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021104056A1 (zh) * 2019-11-27 2021-06-03 中国科学院深圳先进技术研究院 一种肿瘤自动分割系统、方法及电子设备
WO2021179205A1 (zh) * 2020-03-11 2021-09-16 深圳先进技术研究院 医学图像分割方法、医学图像分割装置及终端设备
CN113674253A (zh) * 2021-08-25 2021-11-19 浙江财经大学 基于U-Transformer的直肠癌CT影像自动分割方法
CN114066902A (zh) * 2021-11-22 2022-02-18 安徽大学 一种基于卷积和transformer融合的医学图像分割方法、系统、装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021104056A1 (zh) * 2019-11-27 2021-06-03 中国科学院深圳先进技术研究院 一种肿瘤自动分割系统、方法及电子设备
WO2021179205A1 (zh) * 2020-03-11 2021-09-16 深圳先进技术研究院 医学图像分割方法、医学图像分割装置及终端设备
CN113674253A (zh) * 2021-08-25 2021-11-19 浙江财经大学 基于U-Transformer的直肠癌CT影像自动分割方法
CN114066902A (zh) * 2021-11-22 2022-02-18 安徽大学 一种基于卷积和transformer融合的医学图像分割方法、系统、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于密集注意力网络的视网膜血管图像分割;梅旭璋;江红;孙军;;计算机工程;20200315(第03期);全文 *
深层聚合残差密集网络的超声图像左心室分割;吴宣言;缑新科;朱子重;魏域林;王凯;;中国图象图形学报;20200916(第09期);全文 *

Also Published As

Publication number Publication date
CN114912575A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN114912575B (zh) 基于连接Swin Transformer通路的医学图像分割模型及方法
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN110728682B (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN111480169B (zh) 用于模式识别的方法、系统和装置
JP2019067403A (ja) イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
CN110533623B (zh) 一种基于监督学习的全卷积神经网络多聚焦图像融合方法
CN113012172A (zh) 一种基于AS-UNet的医学图像分割方法及系统
CN109766918B (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN111259983A (zh) 基于深度学习的图像语义分割方法及存储介质
CN110363068B (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
CN117058160B (zh) 基于自适应特征融合网络的三维医学图像分割方法及系统
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN112381733B (zh) 面向图像恢复的多尺度神经网络结构搜索方法及网络应用
CN114821488B (zh) 基于多模态网络的人群计数方法、系统及计算机设备
Wang et al. TF-SOD: a novel transformer framework for salient object detection
CN114511798B (zh) 基于transformer的驾驶员分心检测方法及装置
Yi et al. Elanet: effective lightweight attention-guided network for real-time semantic segmentation
CN114519718A (zh) 一种腹部多器官ct图像分割方法及系统
CN112418127B (zh) 一种用于视频行人重识别的视频序列编码与解码方法
US20240062347A1 (en) Multi-scale fusion defogging method based on stacked hourglass network
CN116612416A (zh) 一种指代视频目标分割方法、装置、设备及可读存储介质
CN116468979A (zh) 一种双向特征融合网络、回归预测网络、训练方法及装置
CN116152263A (zh) 一种基于cm-mlp网络的医学图像分割方法
CN115205527A (zh) 一种基于域适应和超分辨率的遥感图像双向语义分割方法
CN114022719A (zh) 一种多特征融合的显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant