CN115984296B - 一种应用多注意力机制的医学图像分割方法及系统 - Google Patents

一种应用多注意力机制的医学图像分割方法及系统 Download PDF

Info

Publication number
CN115984296B
CN115984296B CN202310274038.7A CN202310274038A CN115984296B CN 115984296 B CN115984296 B CN 115984296B CN 202310274038 A CN202310274038 A CN 202310274038A CN 115984296 B CN115984296 B CN 115984296B
Authority
CN
China
Prior art keywords
module
feature
modality
cross
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310274038.7A
Other languages
English (en)
Other versions
CN115984296A (zh
Inventor
李腊全
叶鑫
文婷
刘畅
熊平
苏强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yiqi Technology Co.,Ltd.
Chongqing University of Post and Telecommunications
Original Assignee
Yiqi Technology Chengdu Co ltd
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yiqi Technology Chengdu Co ltd, Chongqing University of Post and Telecommunications filed Critical Yiqi Technology Chengdu Co ltd
Priority to CN202310274038.7A priority Critical patent/CN115984296B/zh
Publication of CN115984296A publication Critical patent/CN115984296A/zh
Application granted granted Critical
Publication of CN115984296B publication Critical patent/CN115984296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种应用多注意力机制的医学图像分割方法,包括以下步骤:S1、构建网络结构,所述网络结构包括编码器模块、解码器模块,所述编码器模块包括两个独立的编码器,在两个编码器之间设置有CMFL;S2、将两种互补模态的医学图像分别输入至两个编码器中,由CMFL获取两种模态之间的跨模态图像特征位置响应权重信息,进行跨模态之间的图像特征互补,获得两种跨模态图像互补特征;S3、将两种跨模态图像互补特征进行特征融合再通过解码器模块解码即可。还公开了一种医学图像分割系统。本发明在两个独立编码器中引入注意力机制,建立了不同模态图像特征的联系,提升了图像分割能力。

Description

一种应用多注意力机制的医学图像分割方法及系统
技术领域
本发明涉及医学影像处理技术领域,具体涉及一种应用多注意力机制的医学图像分割方法及系统。
背景技术
图像分割在许多医学图像分析中起着至关重要的作用。它可以去除源图像中不相关的器官和组织,并标记感兴趣的区域,例如特定器官、病变和肿瘤区域。同时,分割后的图像可以为医生提供例如肿瘤或病变的位置、大小和形状,以及器官的解剖和代谢状态等关键信息。在最近的工作中,多模态医学图像分割得到了广泛的研究。例如,使用 MRI 进行脑肿瘤分割和前列腺分割、使用 PET 和 CT 进行肝脏分割和头颈部肿瘤分割、使用 CT 和MR 图像进行腹部多器官分割 (CHAOS) 等。
现有的多模态医学图像分割工作得到很迅猛的发展,有单注意力多模态的图像分割、也有双注意力机制的图像分割。但是它们大多数实际上都只基于一个模态图像做分割,使得图像分割能力还有上升的空间。
发明内容
为解决上述问题,本发明目的在于提供一种应用多注意力机制的医学图像分割方法,该医学图像分割方法选择在两个独立编码器中引入注意力机制,通过对不同模态图像之间跨模态图像特征互补信息的提取,建立了不同模态图像特征的联系,提升了图像分割能力,分割得到的图像更接近真实图像。还公开了一种应用多注意力机制的医学图像分割系统。
本发明通过下述技术方案实现:
一种应用多注意力机制的医学图像分割方法,包括以下步骤
S1、构建网络结构,所述网络结构包括编码器模块、解码器模块,所述编码器模块包括两个独立的编码器,在两个编码器之间设置有跨模态互补特征学习注意力模块CMFL;
S2、将两种互补模态的医学图像分别输入至两个编码器中,由跨模态互补特征学习注意力模块CMFL获取两种模态之间的跨模态图像特征位置响应权重信息,进行跨模态之间的图像特征互补,获得两种跨模态图像互补特征;
S3、将两种跨模态图像互补特征进行特征融合再通过解码器模块解码即可。
跨模态互补特征学习注意力模块CMFL通过计算一个模态的当前位置对另一个模态全局位置的响应权重来获得两种模态互补的重要信息,实现每个编码器提取的单个模态的深度图像特征与另一个模态的深度图像特征相补充。
跨模态互补特征学习注意力模块CMFL可以用以下公式表示:
Figure SMS_1
(1)/>
Figure SMS_2
(2)
Figure SMS_3
(3)
Figure SMS_4
(4)
Figure SMS_5
(5)
Figure SMS_6
(6)
其中 N 是所有样本的集合,用于标准化的函数
Figure SMS_10
,公式(1)的/>
Figure SMS_18
和公式(2)中的/>
Figure SMS_24
分别为第一种模态和第二种模态的标准化函数,即将/>
Figure SMS_12
/>
Figure SMS_16
分别代 公式(5)可得/>
Figure SMS_11
和/>
Figure SMS_15
,/>
Figure SMS_23
/>
Figure SMS_29
分别是第一种模态的输入特征图和第二种模态的输入特征图,/>
Figure SMS_9
代表当前位置响应,/>
Figure SMS_17
代表全局响应,/>
Figure SMS_21
是计算得到的与第一模态输入特征大小相同的跨模态特征的输出, />
Figure SMS_27
是计算得到的与第二模态输入特征大小相同的跨模态特征的输出,/>
Figure SMS_22
函数是计算一种模态下当前位置响应 />
Figure SMS_28
和全局响应 />
Figure SMS_31
之间的相似度,/>
Figure SMS_37
为在第一种模态下使用第一种模态的局部响应来计算与第二种模态的全局响应的相似度,/>
Figure SMS_43
函数为在第二种模态下使用第二种模态的局部响应来计算与第一种模态的全局响应的相似度;/>
Figure SMS_44
函数计算一种模态下输入特征图在 />
Figure SMS_7
位置的特性表示,/>
Figure SMS_13
是指第一种模态下输入特征图/>
Figure SMS_19
在 />
Figure SMS_25
位置的特性表示,/>
Figure SMS_35
是指第二种模态下输入特征图/>
Figure SMS_41
在/>
Figure SMS_30
位置的特性表示,
Figure SMS_36
和/>
Figure SMS_33
,/>
Figure SMS_39
是一个可学习的权重矩阵,在实现上可通过1×1的卷积进行学习,x i 代表的是当前关注位置的信息,x j 代表的是全局信息,通过两者的相乘将信息变为可学习的,/>
Figure SMS_34
和/>
Figure SMS_40
的物理意义分别为模态学习的全局特征和局部特征。/>
Figure SMS_20
和/>
Figure SMS_26
分别代表第一种模态学习的全局特征和第二种模态学习的全局特征,/>
Figure SMS_8
和 />
Figure SMS_14
分别代表第一种模态学习的局部特征和第二种模态学习的局部特征, />
Figure SMS_32
代表第一种模态的输入特征的当前关注位置信息,/>
Figure SMS_38
代表第一种模态的输入特征的全局信息,/>
Figure SMS_42
代表第二种模态的输入特征的当前关注位置信息,/>
Figure SMS_45
代表第二种模态的输入特征的全局信息。
进一步的,S3特征融合过程中,还包括多尺度双重注意力模块即MSDA模块,所述MSDA模块包括位置注意力模块即PAM模块和通道注意力模块即CAM模块,具体过程:将两种跨模态互补特征图像经不同大小卷积核提取多尺度特征后,在通道维度拼接获得拼接特征图像,然后采用并行方式用PAM模块和CAM分别捕获位置特征依赖关系和通道特征依赖关系,最后将PAM和CAM两个模块的输出进行融合。提取和融合多模态医学图像中的互补信息仍然是一项具有挑战性的任务。本发明的这条实施方式是将CMFL和MSDA模块结合在一起,基于编码器-解码器和跳跃连接架构的多重注意力深度融合网络,用于多模态图像分割,不同于现有的多模态医学图像分割工作只对某个位置进行多模态特征融合,本发明在编码器和跳过连接部分进行两次多模态特征融合,在两个独立编码器之间引入注意力机制对不同模态图像特征进行跨模态互补,且在解码前引入双重注意力机制,更加充分提取和利用跨模态的互补信息,更精确的提取和融合多模态图像中最相关的特征,使得图像分割能力进一步得到提升。在此实施方式所反应的是本发明中CMFL和MSDA模块在提升图像分割能力上的协同作用。
S3中的解码过程使用的解码器为残差解码器,残差解码器从最深的 MSDA 模块的输出开始,在使用转置卷积进行上采样之前进行两次卷积,之后的每一次上采样都采用同样的方式,将上采样后的图像特征与对应层级的MSDA模块得到的图像特征经跳跃连接进行拼接,拼接后利用残差块融合高低层图像特征,获得分割的最终特征图像。
以ResNet50作为编码器的特征提取骨架。
如前所述的医学图像分割方法的图像分割系统,包括网络架构,所述网络架构包括编码器模块、解码器模块、融合模块,所述编码器模块包括两个独立的编码器,在两个编码器之间设置有跨模态互补特征学习注意力模块CMFL;两个独立的编码器用于接收互补的两个模态图像,通过CMFL模块获取跨模态之间的图像特征位置响应权重信息,进行跨模态之间的图像特征互补,获得两种跨模态图像互补特征;融合模块用于将两种跨模态图像互补特征融合后输送至解码器模块解码。
融合模块包括多尺度双重注意力模块即MSDA模块,所述MSDA模块包括位置注意力模块即PAM模块和通道注意力模块即CAM模块;所述MSDA模块用于将两种跨模态互补特征图像经不同大小卷积核提取多尺度特征后,在通道维度拼接获得拼接特征图像,然后采用并行方式用PAM模块和CAM分别捕获位置特征依赖关系和通道特征依赖关系,最后将PAM和CAM两个模块的输出进行融合。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明中两个编码器不是完全独立的,而是通过CMFL注意力模块连接起来的,通过该模块,每个编码器提取的单个模态的深度图像特征可以与另一个模态的特征相补充,本发明这种双路径编码器不仅保留了它们自己模态的特定特征,而且还从跨模态中学习互补特征,提升了图像整体分割能力。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为实施例的网络架构图。
图2为CMFL模块架构图,C、H 和 W 分别表示输入特征图的通道数、高度和宽度;
图3为MSDA 模块架构图;
图4为残差解码器的实现细节图:
图5为前列腺数据集的定性比较结果图:
图6为:BraTS 数据集的定性比较结果。其中图5和图6中的(a) - (e) 分别表示对比例2、对比例1、对比例3、本发明和真实标签获得的结果。
图7所示是PAM(左)和CAM(右)的实现细节图。
实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
构建网络架构:我们网络基于具有跳跃连接的编码器-解码器架构,包括双编码器-融合模块-解码模块。
本发明所提出网络的架构也可以如图 1 所示,整个网络架构可以分为三个部分:左边的由 CMFL 注意力模块引导的双编码器,中间的由MSDA模块组成的多模态特征融合结构,右边的残差解码器。
为了让编码器有足够的深度来学习医学图像中更深层次的语义信息并获得更好的分割结果,我们使用ResNet50作为编码器的特征提取骨架。此外,我们使用两个编码器并将两种模态的医学图像作为每个编码器的输入,它可以学习每个模态特有的语义特征。同时,两个编码器也不是完全独立的,它们是通过CMFL注意力模块连接起来的。通过该模块,每个编码器提取的单个模态的深度图像特征可以与另一个模态的特征相补充。这种双路径编码器不仅保留了它们自己模态的特定特征,而且还从跨模态中学习互补特征。然后,来自双编码器不同层的富含跨模态互补信息的特征图被发送到MSDA模块进行特征融合。MSDA模块的作用是从双编码器中保留有效特征,去除冗余特征,以获得最有利于提高分割效果的信息。最后,融合后的多模态信息通过残差解码器恢复到原始特征尺度。其中,残差解码器可以最大限度地保留高层语义信息,提高最终的分割效果。下面,我们将详细描述CMFL 模块、MSDA 模块和残差解码器。
跨模态互特征学习(CMFL)注意模块:利用多模态图像之间的互补信息可以显着提高分割精度。通常的做法是只使用单独的编码器从不同的模态中提取各自的语义特征,然后将它们发送到融合模块进行多模态特征融合。然而,由于每个单独的编码器只包含与自己的模态相对应的特定特征,这种融合方法不能很好地利用不同模态之间的互补信息。因此,为了让模型在特征提取阶段获得更多的互补信息,我们提出了一个跨模态互特征学习注意模块,称为CMFL模块。该模型在编码阶段具有更大的感受野,使得当前模态对应的编码器可以注意到另一个模态编码的特征信息。因此,CMFL 模块通过计算当前模态的当前位置对另一个模态的任何位置的响应权重来获得两种模态互补的重要信息。CMFL 模块可以用以下公式表示。
Figure SMS_46
(1)
Figure SMS_47
(2)
Figure SMS_48
(3)
Figure SMS_49
(4)
Figure SMS_50
(5)
Figure SMS_51
(6)
其中 N 是所有样本的集合,用于标准化的函数
Figure SMS_69
,公式(1)的/>
Figure SMS_75
和公式(2)中的/>
Figure SMS_81
分别为第一种模态和第二种模态的标准化函数,即将/>
Figure SMS_53
/>
Figure SMS_63
分别代 公式(5)可得/>
Figure SMS_68
和/>
Figure SMS_74
,/>
Figure SMS_78
/>
Figure SMS_84
分别是第一种模态的输入特征图和第二种模态的输入特征图,/>
Figure SMS_67
代表当前位置响应,/>
Figure SMS_73
代表全局响应,/>
Figure SMS_79
是计算得到的与第一模态输入特征大小相同的跨模态特征的输出, />
Figure SMS_85
是计算得到的与第二模态输入特征大小相同的跨模态特征的输出,/>
Figure SMS_80
函数是计算一种模态下当前位置响应 />
Figure SMS_86
和全局响应 />
Figure SMS_77
之间的相似度,/>
Figure SMS_83
为在第一种模态下使用第一种模态的局部响应来计算与第二种模态的全局响应的相似度,/>
Figure SMS_87
函数为在第二种模态下使用第二种模态的局部响应来计算与第一种模态的全局响应的相似度;/>
Figure SMS_89
函数计算一种模态下输入特征图在 />
Figure SMS_52
位置的特性表示,/>
Figure SMS_58
是指第一种模态下输入特征图/>
Figure SMS_65
在 />
Figure SMS_71
位置的特性表示,/>
Figure SMS_66
是指第二种模态下输入特征图/>
Figure SMS_72
在/>
Figure SMS_57
位置的特性表示,
Figure SMS_61
和/>
Figure SMS_55
,/>
Figure SMS_62
是一个可学习的权重矩阵,在实现上就是通过1×1的卷积进行学习,x i 代表的是当前关注位置的信息,x j 代表的是全局信息,通过两者的相乘将信息变为可学习的,/>
Figure SMS_56
和/>
Figure SMS_60
的的物理意义分别为模态学习的全局特征和局部特征。/>
Figure SMS_64
和/>
Figure SMS_70
分别代表第一种模态学习的全局特征和第二种模态学习的全局特征,/>
Figure SMS_54
和 />
Figure SMS_59
分别代表第一种模态学习的局部特征和第二种模态学习的局部特征,/>
Figure SMS_76
代表第一种模态的输入特征的当前关注位置信息,/>
Figure SMS_82
代表第一种模态的输入特征的全局信息,/>
Figure SMS_88
代表第二种模态的输入特征的当前关注位置信息,/>
Figure SMS_90
代表第二种模态的输入特征的全局信息。
图 2 是 CMFL 模块的架构图。如图所示,单个模态的每个位置是通过对另一个模态的所有位置的特征进行加权来获得的。 将T1、T2模态的输入特征图x 1 x 2 分别输入到两个编码器中,通过CMFL 模块计算得到与特征大小相同的跨模态特征输出y 1 、y 2 。首先,将T1、T2两个模态图分别送到两个编码器中,先通过一个1×1的卷积操作提升通道数为64,从而让特征图可以送到Pytorch官方实现的带有预训练模型的ResNet网络架构中,该架构的每层的残差块构成为3、4、6、3,其中每层之间通过池化操作将特征图大小减半。在两个编码器分支的特征图在该层都经过残差块的计算后,将两个特征图送到CMFL模块进行跨模态特征的提取。CMFL模块将两个形状为C×H×W的特征图经过6个1×1卷积,将通道缩减为原来一半。然后将H,W两个维度展平,得到最终形状为C/2×(H×W)的张量。对于模态2编码分支的计算,首先,对θ1对应的张量进行转置,得到形状为(H×W) ×C/2。然后与
Figure SMS_91
代表的张量进行矩阵乘法,得到一个形状为(H×W) × (H×W)的矩阵,这个矩阵计算的是模态1与模态2的相似度。然后经过softmax进行归一化,然后将该得到的矩阵与g2经过展平和转置的结果进行矩阵相乘,然后重新调整形状为C/2×H×W。然后对这个tensor再使用一个1×1卷积核,将通道扩展为原来的C,最后将模态2的原始特征图与得到的特征图进行相加。类似的,对于模态1编码分支的计算是对称的。通过CMFL的计算,两个编码器分支都获得了来自于另一分支的另一模态的互补信息。
这样,编码器不仅关注自身模态的信息,还综合考虑了跨模态的互补信息。 同时,随着编码器深度的加深,提取的互补信息会越来越丰富,从而提高最终的分割性能。
多尺度双注意模块(MSDA):该模块的任务是进一步融合和保留编码器学习到的丰富特征。从以前的工作中,我们知道在医学图像分割任务中,多尺度特征对于提高分割性能很重要。注意机制具有建模长距离依赖关系的天赋,并且可以专注于最有利于分割的两种模态之间的互补信息。因此,我们使用 MSDA 模块来进一步融合多模态特征。MSDA 模块的实现细节如图 3 所示。
在实现中,我们首先用不同大小的卷积核从跨模态特征输出y 1 、y 2 提取多尺度特征y 1 、y 2 ,其次在通道维度将多尺度特征y 1 、y 2 拼接在一起,实现不同尺度特征的融合,获得拼接图Y,再采用并行方式用PAM模块和CAM模块分别捕获拼接图Y的位置特征依赖关系和通道特征依赖关系,最后将PAM和CAM两个模块的特征输出YPAM和YCAM进行融合,获得分割图像。在每个卷积核之后,都会跟上RELU函数,引入更多的非线性,提高模型的泛化能力。具体为:首先在U型结构的每一层,将来自两个编码器的经过CMFL模块计算得到跨模态特征的特征图在通道维度拼接起来,然后将拼接后的特征图并行的送到1×1,1×1、3×3、3×3,1×1、5×5和平均池化、1×1组成的多尺度特征提取器中,在这个过程中保持特征图大小不变,之后将每个并行分支的特征图在通道维度拼接起来;再之后,将拼接后的特征图送到并行的PAM和CAM分支中去,如图7所示是PAM(左)和CAM(右)的实现细节。经过多尺度特征提取器的特征图,大小为2C×H×W。首先将其经过一个1×1的卷积操作得到大小为C×H×W的新特征图(绿、蓝、橙,图上绿用字母g、蓝用字母b、橙用字母o表示,以下同理),然后将绿、蓝、橙都重新改变形状为C×(H×W),其中,绿改变形状后再转置,最终绿的大小为(H×W) ×C,之后将绿与蓝相乘,获得的结果再经过softmax操作,得到大小为(H×W) ×(H×W)的特征图,该特征图上的每个点xij可理解为j位置像素对i位置像素的权重。同时,将橙与其置相乘,得到C×(H×W)大小的结果图,再调整形状回C×H×W大小并与原始特征图相加,获得最终的融合了位置信息的特征图结果。类似的,对于CAM,蓝、绿相乘后得到的特征图(C×C)上的每一个点xij可以理解为对每个通道权重的计算,从而获得通道维度的信息。最后经过PAM和CAM计算后的特征图在通道维度拼接经过1×1的卷积操作调整大小后经过跳跃连接送到对应层的解码器进行解码。
由于之前的1×1、3×3、5×5等小型卷积核只能提取边界和局部特征,因此不具备对整个特征图的长距离依赖性进行建模的能力。因此,在 MSDA 中引入了 PAM 来对更广泛和更丰富的位置信息进行建模。另一方面,传统的 CAM在通道级别对不同实例(不同类)的特征依赖关系进行建模。对于多模态分割任务,来自多尺度块的通道维度包含来自编码器的多模态特征,CAM可以更好地对这些特征的依赖关系进行建模,从而获得更好的融合结果。
残差解码器:解码器的目的是恢复特征尺度,提取深度信息,得到最终的语义分割图。传统的线性插值、转置卷积等解码方法往往会导致高层语义信息的丢失,从而影响最终的分割效果。为了让解码器在恢复特征尺度的同时最大限度地保留高级语义信息,我们设计了一个残差解码器。残差解码器的实现细节如图 4 所示。解码器从最深的 MSDA 模块的输出开始,在使用转置卷积进行上采样之前进行两次卷积。之后的每一次上采样都采用同样的方式,将上采样后的特征与MSDA部分对应层级的特征进行拼接。如图1所示,解码过程中对应层级的跳跃连接一共有四层,将上采样后的图像特征与每一层级的MSDA模块得到的图像特征经跳跃连接进行拼接,拼接后利用残差块融合高低层特征,同时最大限度保留原始信息,提高最终分割结果。
数据集与预处理:为了将最近方法的分割性能与我们提出的方法进行比较,我们使用标准评估指标,包括平均Dice系数 (DSC)、Jaccard 相似系数 (JC)、灵敏度 (SE) 和特异性 (SP)。这四个指标的取值范围为[0, 1],取值越大,分割结果越好。
我们使用多模态脑肿瘤分割挑战 BraTS 2019数据集和医学图像分割十项全能(MSD) 中的 Task05_Prostate数据集进行对比实验和消融实验。BraTS2019训练数据集包括 259个高级胶质瘤(HGG) 和 76个低级胶质瘤(LGG),由临床医生和放射科医生手动注释,每个病例包含四种模态(T1、T2、flair、T1ce)。MR图像大小均为 (240, 240, 155)。我们只从 BraTS 中随机选择 60个案例作为我们的训练数据集,以避免耗时的问题。同时,我们只选择T1、T2模态进行实验。这是因为两种模态 T1 和 T2 是互补的(T1 提供解剖信息,T2提供病变代谢信息)。此外,我们的分割目标是脑肿瘤的水肿区域,而不是对胶质瘤进行分级,并且没有必要同时使用所有四种模态。另外,Task05_Prostate 训练数据集包含 48 个具有 T2 加权和表观扩散系数 (ADC) 模态的前列腺 MRI。
我们将所有病例的 3D或4D MRI 根据横截面划分为多个切片并转换为 png 格式,同时所有切片的统一大小为 [128, 128]。同时,我们按照 8:1:1的比例划分了训练集、验证集和测试集。我们主要使用不同角度的旋转,水平和垂直镜像,并添加随机椒盐噪声和高斯噪声进行数据增强。除测试集外,数据增强使用相同的操作。
训练细节:实验中,模型训练的软硬件条件如下:Ubuntu20.04 LTS、AMD® Ryzen9 9500x 12核处理器ⅹ24、NVIDIA GeForce RTX 3090和Pytorch1.7.1。训练过程中的最大迭代次数为 300 个 epoch,其中在每个 epoch 之后进行模型验证。 我们将批次大小设置为 16。我们使用Adam 优化器来更新网络权重,初始学习率为
Figure SMS_92
,并根据以下公式逐渐减小它。
Figure SMS_93
(7)
其中 step_size 表示学习率更新的步长,每step_size epoch 更新一次(在我们的实验中为 2)。
Figure SMS_94
表示学习率衰减率,在每个step_size epochs(在我们的实验中为0.1)之后,学习率变为/>
Figure SMS_95
。在 last_epoch epochs 之后,学习率恢复到初始学习率。
在这两个数据集中,医学图像中每个扫描切片中对象的比例往往较小。训练期间的大量背景区域可能会使模型陷入局部最优。因此,我们将交叉熵损失和Dice损失结合起来作为总损失函数。这个损失函数主要是用来解决前背景不平衡的问题。 我们的整体损失函数描述如下。
Figure SMS_96
(8)
其中 L bce L dice 分别代表二元交叉熵损失和Dice损失。
交叉熵损失函数是图像分割任务最常用的。它通过以下等式计算:
Figure SMS_97
(9)
如公式 (9) 所示。其中 N 是所有示例的集合。 y 代表 ground truth 的分布,而
Figure SMS_98
是训练好的模型的预测标记分布。二进制交叉熵(BCE)函数可以测量 y 和 />
Figure SMS_99
之间的相似性。
Dice损失是图像分割中常用的损失函数,这是预测样本和实际样本之间重叠量的量度。该度量的范围从0到1,其中Dice分数为1表示完整的重叠。其公式如下:
Figure SMS_100
(10)
其中 ε 是一个很小非零常数, XY 分别表示真实和预测结果。
实验结果:为了验证所提出方法的有效性,我们选择了几种公开可用的多模态医学图像分割方法进行对比实验。
对比例1为:T. Zhou, et al., Canu, "A multi-modality fusion networkbased on attention mechanism for brain tumor segmentation"。
对比例2为:Y. Zhang, et al., "Modality-aware mutual learning formulti-modal medical image segmentation"。
对比例3为:R. Wang, et al., "Pairwise semantic segmentation viaconjugate fully convolutional network"。
表 1 显示了 Prostate 和 BraTS 测试数据集的对比实验的定量结果。我们使用四个评估指标 DSC、JC、SE 和 SP 在两个数据集上对测试方法进行定量评估。表格每列中的粗体数字代表相应评估指标的最佳结果。从对Prostate数据集的实验定量结果可以看出,我们的方法可以达到 0.946 的最高平均 DSC 分数,比不是基于注意力机制的方法---对比例2高出约 8%。此外,比基于单一注意力机制的方法----对比例3和对比例1高出 2%和 4%。对于度量指标SE,我们的平均分数比对比例2和对比例3 都高约 3%,但与对比例1相比,我们的分数略差(约0.5%)。我们的方法在 JC 和 SP 下也取得了更好的效果。
表 1. 我们对Prostate数据集(左)和 BraTS 数据集(右)的比较实验的定量结果
Figure SMS_101
从 BraTS 数据集的实验定量结果可以看出,我们的方法可以达到 0.898 的平均DSC 分数,比不是基于注意力机制的方法----对比例2高出约4%,比基于单一注意力机制的方法----对比例3和对比例1分别高出4%和5%。同样,对于 SE 指标,我们的平均得分分别比对比例2和对比例3 的得分分别高出约5%和7%。然而,与对比例1 相比,我们的分数略差(0.8%)。我们的方法在 JC 和 SP 下也取得了更好的效果。从以上分析可以发现,对比方法的性能对于不同的多模态数据集并不稳定,但我们的方法仍然适用并取得了令人满意的结果。
图5和图6显示了对比实验的可视化结果。我们将每种方法的分割掩码和真实标签叠加在高分辨率 T2 模态图像上,以直观地比较模型的分割性能。所有分割结果和groundtruth都用绿色掩码标记。可以观察到,对于前列腺数据集(图6),主要困难在于目标体积小,因此容易出现过分割(图6中的(a)和图6中的(b))和欠分割(图6中的(c))。可视化结果表明,我们提出的方法优于所有比较方法。对于 BraTS 数据集(图6),主要困难在于对象的形状不同和对象的大小变化大,因此模型难以准确地分割对象的边界。如图6所示,虽然对比法可以粗略的分割出目标的形状,但边界的分割效果并不理想,在边界处容易误分割(例如矩形框标注的位置)图 6中的框。相比之下,我们的方法可以在两个数据集上获得更接近真实标签的结果。
消融实验结果:为了验证不同组件对分割性能的贡献,我们在不同的设置下进行了消融实验。表 2 显示了我们在Prostate数据集和 BraTS 数据集下的消融实验结果。在本实验中,Dual-ResUNet 使用由 ResUNet50 组成的独立编码器对两种模态的图像进行独立的特征提取。并且在skip connection中,通过通道拼接两种模态的特征图,然后通过1×1卷积对通道进行压缩。 我们将此 Dual-ResUNet 结果作为基线。表 2 中的结果显示了我们提出的 CMFL 和 MSDA 模块的优势。
表2. Prostate数据集(左)和 BraTS 数据集(右)的消融实验结果
Figure SMS_102
CMFL 的贡献:为了研究 CMFL 模块在我们的方法中的重要性,我们在Baseline基础上使用 CMFL 模块进行基于多模态特征提取,同时保持 Baseline 其他部分的网络结构不变。如表2第二行所示,加入CMFL模块后,模型在Prostate数据集和BraTS数据集上的整体分割能力分别达到了91.9%和87.5%。
MSDA的贡献:为了研究MSDA模块在我们方法中的重要性,我们在Baseline基础上将MSDA模块添加到skip connection中用于多模态特征融合,同时保持Baseline其他部分的网络结构不变。如表2第三行所示,加入MSDA模块后,模型在Prostate数据集和BraTS数据集上的整体分割能力分别达到了91.2%和87.0%。
CMFL和MSDA 共同贡献:为了研究这两个模块的联合作用在我们的方法中的重要性,我们将 CMFL 模块和 MSDA 模块都添加到 Baseline中。模型和我们提出的方法之间只差一个残差连接。如表2第四行所示,同时添加两个模块后,模型在Prostate数据集和BraTS数据集上的整体分割能力分别达到了94.3%和88.3%。
从上述实验结构可以看出,CMFL 和 MSDA在本发明中起到了明显的协同作用,它们共同对于本发明的图像特征分割模型的整体分割能力有着明显的协同提升效应。
残差解码器的贡献:从表 2 的第四行和第五行,我们可以看到残差解码器在我们模型中的重要性。尽管在Prostate数据集上,我们方法的分割性能在去除残差解码器后仅下降了0.3%,但残差解码器仍然对 BraTS 数据集的分割精度贡献了1.5%。这是因为 BraTS数据集中分割目标的形状差异很大,分割难度大,有利于残差解码器利用维护高级语义信息的优势。对于前列腺数据集,分割目标的形状相对固定,分割难度较小,残差解码器的作用较小。然而,总的来说,残差解码器的加入有助于提高分割精度。
本发明中,未详细描述的均是现有技术。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种应用多注意力机制的医学图像分割系统,其特征在于,包括网络架构,所述网络架构包括编码器模块、解码器模块、融合模块,所述编码器模块包括两个独立的编码器,在两个编码器之间设置有跨模态互补特征学习注意力模块CMFL;两个独立的编码器用于接收互补的两个模态图像,通过CMFL模块获取跨模态之间的图像特征位置响应权重信息,进行跨模态之间的图像特征互补,获得两种跨模态图像互补特征;融合模块用于将两种跨模态图像互补特征融合后输送至解码器模块解码,融合模块包括尺度双重注意力模块即MSDA模块,所述MSDA模块包括位置注意力模块即PAM模块和通道注意力模块即CAM模块;所述MSDA模块用于将两种跨模态互补特征图像经不同大小卷积核提取多尺度特征后,在通道维度拼接获得拼接特征图像,然后采用并行方式用PAM模块和CAM模块分别捕获位置特征依赖关系和通道特征依赖关系,最后将PAM和CAM两个模块的输出进行融合。
2.基于权利要求1所述的医学图像分割系统的医学图像分割方法,其特征在于,包括以下步骤:S1、构建网络结构,所述网络结构包括编码器模块、解码器模块,所述编码器模块包括两个独立的编码器,在两个编码器之间设置有跨模态互补特征学习注意力模块CMFL;S2、将两种互补模态的医学图像分别输入至两个编码器中,由跨模态互补特征学习注意力模块CMFL获取两种模态之间的跨模态图像特征位置响应权重信息,进行跨模态之间的图像特征互补,获得两种跨模态图像互补特征;
S3、将两种跨模态图像互补特征进行特征融合再通过解码器模块解码即可。
3.根据权利要求2所述的医学图像分割方法,其特征在于,跨模态互补特征学习注意力模块CMFL通过计算一个模态的当前位置对另一个模态全局位置的响应权重来获得两种模态互补的重要信息,实现每个编码器提取的单个模态的深度图像特征与另一个模态的深度图像特征相补充。
4.根据权利要求3所述的医学图像分割方法,其特征在于,跨模态互补特征学习注意力模块CMFL可以用以下公式表示:
Figure QLYQS_1
(1)
Figure QLYQS_2
(2)
Figure QLYQS_3
(3)
Figure QLYQS_4
(4)
Figure QLYQS_5
(5)
Figure QLYQS_6
(6)/>
其中 N 是所有样本的集合,用于标准化的函数
Figure QLYQS_11
,公式(1)和公式(2)中的
Figure QLYQS_27
和/>
Figure QLYQS_43
分别为第一种模态和第二种模态的标准化函数,即将/>
Figure QLYQS_18
/>
Figure QLYQS_35
分别 代入公式(5)可得/>
Figure QLYQS_12
和/>
Figure QLYQS_30
,/>
Figure QLYQS_24
/>
Figure QLYQS_36
分别是第一种模态的输入特征图和第二种模态的输入特征图,代表当前位置响应,/>
Figure QLYQS_8
代表全局响应,/>
Figure QLYQS_31
是计算得到的与第一模态输入特征大小相同的跨模态特征的输出, />
Figure QLYQS_13
是计算得到的与第二模态输入特征大小相同的跨模态特征的输出,/>
Figure QLYQS_44
函数是计算一种模态下当前位置相应 />
Figure QLYQS_19
和全局相应
Figure QLYQS_37
之间的相似度,/>
Figure QLYQS_20
为在第一种模态下使用第一种模态的局部响应来计算与第二种模态的全局响应的相似度,/>
Figure QLYQS_46
函数为在第二种模态下使用第二种模态的局部响应来计算与第一种模态的全局响应的相似度;/>
Figure QLYQS_26
函数计算一种模态下输入特征图在 />
Figure QLYQS_41
位置的特性表示,/>
Figure QLYQS_7
是指第一种模态下输入特征图/>
Figure QLYQS_29
在 />
Figure QLYQS_21
位置的特性表示,/>
Figure QLYQS_42
是指第二种模态下输入特征图/>
Figure QLYQS_14
在/>
Figure QLYQS_34
位置的特性表示,
Figure QLYQS_9
和/>
Figure QLYQS_28
,/>
Figure QLYQS_15
均为可学习的权重矩阵,/>
Figure QLYQS_39
代表的是当前关注位置的信息,/>
Figure QLYQS_10
代表的是全局信息,通过两者的相乘将信息变为可学习的,/>
Figure QLYQS_32
和/>
Figure QLYQS_17
的物理意义分别为模态学习的全局特征和局部特征,/>
Figure QLYQS_33
和/>
Figure QLYQS_25
分别代表第一种模态学习的全局特征和第二种模态学习的全局特征,/>
Figure QLYQS_45
Figure QLYQS_23
分别代表第一种模态学习的局部特征和第二种模态学习的局部特征,/>
Figure QLYQS_38
代表第一种模态的输入特征当前关注位置信息,/>
Figure QLYQS_22
代表第一种模态的输入特征的全局信息,/>
Figure QLYQS_40
代表第二种模态的输入特征当前关注位置信息,/>
Figure QLYQS_16
代表第二种模态的输入特征的全局信息。
5.根据权利要求2所述的医学图像分割方法,其特征在于,S3特征融合过程中,还包括多尺度双重注意力模块即MSDA模块,所述MSDA模块包括位置注意力模块即PAM模块和通道注意力模块即CAM模块,具体过程:将两种跨模态互补特征图像经不同大小卷积核提取多尺度特征后,在通道维度拼接获得拼接特征图像,然后采用并行方式用PAM模块和CAM模块分别捕获位置特征依赖关系和通道特征依赖关系,最后将PAM和CAM两个模块的输出进行融合。
6.根据权利要求5所述的医学图像分割方法,其特征在于,S3中的解码过程使用的解码器为残差解码器,残差解码器从最深的 MSDA 模块的输出开始,在使用转置卷积进行上采样之前进行两次卷积,之后的每一次上采样都采用同样的方式,将上采样后的图像特征与对应层级的MSDA模块得到的图像特征经跳跃连接进行拼接,拼接后利用残差块融合高低层图像特征,获得分割的最终特征图像。
7.根据权利要求2所述的医学图像分割方法,其特征在于,以ResNet50作为编码器的特征提取骨架。
CN202310274038.7A 2023-03-21 2023-03-21 一种应用多注意力机制的医学图像分割方法及系统 Active CN115984296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310274038.7A CN115984296B (zh) 2023-03-21 2023-03-21 一种应用多注意力机制的医学图像分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310274038.7A CN115984296B (zh) 2023-03-21 2023-03-21 一种应用多注意力机制的医学图像分割方法及系统

Publications (2)

Publication Number Publication Date
CN115984296A CN115984296A (zh) 2023-04-18
CN115984296B true CN115984296B (zh) 2023-06-13

Family

ID=85961121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310274038.7A Active CN115984296B (zh) 2023-03-21 2023-03-21 一种应用多注意力机制的医学图像分割方法及系统

Country Status (1)

Country Link
CN (1) CN115984296B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152441B (zh) * 2023-10-19 2024-05-07 中国科学院空间应用工程与技术中心 一种基于跨尺度解码的生物图像实例分割方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
KR102332088B1 (ko) * 2021-01-13 2021-12-01 가천대학교 산학협력단 세부 업샘플링 인코더-디코더 네트워크를 이용한 대장 내시경 이미지에서의 폴립 바운더리 인식을 통한 폴립 세그먼테이션 장치 및 그 방법
CN113887459A (zh) * 2021-10-12 2022-01-04 中国矿业大学(北京) 一种基于改进Unet++的露天矿区采场变化区域检测方法
CN114419056A (zh) * 2022-01-24 2022-04-29 重庆邮电大学 一种逐步精细的医学图像分割系统
CN114677403A (zh) * 2021-11-17 2022-06-28 东南大学 基于深度学习注意力机制的肝脏肿瘤图像分割方法
CN114708431A (zh) * 2022-03-29 2022-07-05 上海大学 基于多维特征融合的图注意力的材料图像分割方法
CN115482241A (zh) * 2022-10-21 2022-12-16 上海师范大学 一种跨模态双分支互补融合的图像分割方法及装置
CN115512110A (zh) * 2022-09-23 2022-12-23 南京邮电大学 一种涉及跨模态注意力机制的医学图像肿瘤分割方法
CN115512103A (zh) * 2022-09-01 2022-12-23 中国海洋大学 多尺度融合遥感图像语义分割方法及系统
CN115641345A (zh) * 2022-10-18 2023-01-24 武汉大学中南医院 一种基于深度学习的多发性骨髓瘤细胞形态精细分割方法
CN115810191A (zh) * 2022-12-29 2023-03-17 河海大学 基于多注意力融合和高精度分割网络的病理细胞分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7033013B2 (ja) * 2018-06-15 2022-03-09 キヤノン株式会社 画像符号化装置、画像復号装置、及び、それらの制御方法、並びに、プログラム

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
KR102332088B1 (ko) * 2021-01-13 2021-12-01 가천대학교 산학협력단 세부 업샘플링 인코더-디코더 네트워크를 이용한 대장 내시경 이미지에서의 폴립 바운더리 인식을 통한 폴립 세그먼테이션 장치 및 그 방법
CN113887459A (zh) * 2021-10-12 2022-01-04 中国矿业大学(北京) 一种基于改进Unet++的露天矿区采场变化区域检测方法
CN114677403A (zh) * 2021-11-17 2022-06-28 东南大学 基于深度学习注意力机制的肝脏肿瘤图像分割方法
CN114419056A (zh) * 2022-01-24 2022-04-29 重庆邮电大学 一种逐步精细的医学图像分割系统
CN114708431A (zh) * 2022-03-29 2022-07-05 上海大学 基于多维特征融合的图注意力的材料图像分割方法
CN115512103A (zh) * 2022-09-01 2022-12-23 中国海洋大学 多尺度融合遥感图像语义分割方法及系统
CN115512110A (zh) * 2022-09-23 2022-12-23 南京邮电大学 一种涉及跨模态注意力机制的医学图像肿瘤分割方法
CN115641345A (zh) * 2022-10-18 2023-01-24 武汉大学中南医院 一种基于深度学习的多发性骨髓瘤细胞形态精细分割方法
CN115482241A (zh) * 2022-10-21 2022-12-16 上海师范大学 一种跨模态双分支互补融合的图像分割方法及装置
CN115810191A (zh) * 2022-12-29 2023-03-17 河海大学 基于多注意力融合和高精度分割网络的病理细胞分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向核磁共振图像的脑肿瘤分割算法研究;左瑾 等;《中国优秀硕士学位论文全文数据库医药卫生科技辑》;E070-363 *

Also Published As

Publication number Publication date
CN115984296A (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110288609B (zh) 一种注意力机制引导的多模态全心脏图像分割方法
CN109214989B (zh) 基于多方向特征预测先验的单幅图像超分辨率重建方法
CN111325750B (zh) 一种基于多尺度融合u型链神经网络的医学图像分割方法
CN112767417B (zh) 一种基于级联U-Net网络的多模态图像分割方法
CN112017192B (zh) 基于改进U-Net网络的腺体细胞图像分割方法及系统
CN110648331B (zh) 用于医学图像分割的检测方法、医学图像分割方法及装置
CN115984296B (zh) 一种应用多注意力机制的医学图像分割方法及系统
CN112488976A (zh) 一种基于darts网络的多模态医学图像融合方法
CN112348830B (zh) 基于改进3D U-Net的多器官分割方法
CN112288749A (zh) 一种基于深度迭代融合深度学习模型的颅骨图像分割方法
CN114331849B (zh) 一种跨模态核磁共振超分网络及图像超分辨率方法
Lin et al. Batformer: Towards boundary-aware lightweight transformer for efficient medical image segmentation
Lu et al. DCACNet: Dual context aggregation and attention-guided cross deconvolution network for medical image segmentation
CN117218453B (zh) 一种不完备多模态医学影像学习方法
CN113628220A (zh) 基于改进的U-Net网络对MRI脑肿瘤图像的分割方法及系统
CN114529794B (zh) 一种红外与可见光图像融合方法、系统及介质
CN116258685A (zh) 全局和局部特征同时提取与融合的多器官分割方法及装置
Yuan et al. FM-Unet: Biomedical image segmentation based on feedback mechanism Unet
Mani Deep learning models for semantic multi-modal medical image segmentation
CN114529562A (zh) 一种基于辅助学习任务与重分割约束的医学图像分割方法
Chen et al. Pact-Net: Parallel CNNs and Transformers for medical image segmentation
Li et al. Enhanced transformer encoder and hybrid cascaded upsampler for medical image segmentation
Franco-Barranco et al. Current Progress and Challenges in Large-Scale 3D Mitochondria Instance Segmentation
Li et al. Uncertainty quantification in medical image segmentation
Zheng et al. Dual-attention deep fusion network for multi-modal medical image segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 644004, 9th Floor, Building 36, Changjiang Industrial Park, Songjia Town, Sanjiang New District, Yibin City, Sichuan Province

Patentee after: Sichuan Yiqi Technology Co.,Ltd.

Patentee after: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Address before: 610000 room 1, 19th floor, building 10, No. 399, west section of Fucheng Avenue, hi tech Zone, Chengdu, Sichuan

Patentee before: Yiqi Technology (Chengdu) Co.,Ltd.

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

CP03 Change of name, title or address