CN115908811A - 一种基于Transformer和卷积注意力机制的CT图像分割方法 - Google Patents
一种基于Transformer和卷积注意力机制的CT图像分割方法 Download PDFInfo
- Publication number
- CN115908811A CN115908811A CN202211526001.0A CN202211526001A CN115908811A CN 115908811 A CN115908811 A CN 115908811A CN 202211526001 A CN202211526001 A CN 202211526001A CN 115908811 A CN115908811 A CN 115908811A
- Authority
- CN
- China
- Prior art keywords
- attention
- information
- image
- encoder
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000003709 image segmentation Methods 0.000 title claims abstract description 28
- 230000007246 mechanism Effects 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 6
- 230000005540 biological transmission Effects 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012795 verification Methods 0.000 claims abstract description 4
- 230000002708 enhancing effect Effects 0.000 claims abstract 3
- 238000001914 filtration Methods 0.000 claims abstract 2
- 238000011176 pooling Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000002347 injection Methods 0.000 claims description 3
- 239000007924 injection Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims 3
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 35
- 238000002591 computed tomography Methods 0.000 description 34
- 238000012546 transfer Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010191 image analysis Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003187 abdominal effect Effects 0.000 description 2
- 210000004100 adrenal gland Anatomy 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 210000003734 kidney Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 210000001631 vena cava inferior Anatomy 0.000 description 2
- 206010060954 Abdominal Hernia Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 210000000709 aorta Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003238 esophagus Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000000232 gallbladder Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 210000003240 portal vein Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 210000000955 splenic vein Anatomy 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于Transformer和卷积注意力机制的CT图像分割方法,包括以下步骤:S1,数据预处理模块:获取CT图像数据,按照体素值截断的方法过滤不相关区域,对过滤后的CT图像数据进行标准化处理,然后划分训练集、验证集和测试集;S2,CNN编码器模块:利用多层卷积操作,对CT图像进行初步编码,使用卷积注意力模块来实现注意力机制,对语义分割主要区域加入关注,获取CT图像的局部特征信息;S3,Transformer编码器模块:连接CNN编码器的后两层特征信息,传入到Transformer编码器进行处理,获取CT图像的全局特征信息,CT图像全局特征信息结果与从CNN编码器传入的后两层特征信息残差相加,增强CNN编码器后两层特征信息传递操作过程中损失的信息;S4,解码器模块:将Transformer编码器的输出信息还原至CNN编码器最后两层特征图大小,最后一层特征图经反卷积操作后与上一层输出的还原结果相加,再使用反卷积操作将相加结果还原到CNN编码器前两层特征图大小,并对应作跳跃连接,最后还原出带标签的CT图像。
Description
技术领域
本发明涉及医学图像分析技术领域,特别涉及一种基于Transformer和卷积注意力机制的CT图像分割方法。
背景技术
对于临床诊断,医学图像分割有着十分重要的意义,其也是医学图像定量分析的关键步骤。电子计算机断层扫描(Computed Tomography,CT)和磁共振(MagneticResonance,MR)成像是目前诊断、治疗和临床研究中使用最广泛的放射成像技术,因此,CT和MR的分割方法也是如今医学图像分割研究领域中的主流方向。在传统的分割方法中,存在着一些难以避免的问题,如对医学领域先验知识的过多依赖,人为的错误评估等,针对该类问题,提出利用计算机深度学习技术对医学图像精确分割的方法。
随着计算机的广泛应用和人工智能技术的发展,深度学习的卷积神经网络(CNN)方法在图像分析领域取得了突出成绩。图像分割是医学图像分析中存在的长期挑战。医学图像相比于普通图像,具有灰度范围大、边界不清晰等特点,U-Net正是在这种背景下提出的通用网络结构,下采样与上采样相结合,底层信息与高层信息相结合,提高了分割效果。自U-Net引入以来,CNN已经成为解决该类问题的主要方法。但是由于卷积操作的局部性,CNN一直存在着感受野受限和无法获取全局特征关系等问题。很多人致力于扩大卷积核,特征金字塔等方法来获取全局特征信息,从而提高其全局建模能力。虽然这些方法在一定程度上改善了全局关系建模,但是仍然不可避免的受限于CNN卷积核的感受野。
目前医学图像分割的方法大部分还是以基于CNN的网络结构为主,也有很多的研究是将自然语言处理中较为成熟的Transformer模型迁移学习到图像领域当中。该方法主要分为两大类,一类是用Transformer的self-attention机制来取代CNN,使用纯Transformer结构来提取图像特征,其中一个典型的结构Vision Transformer(ViT),该结构在图像识别任务上优于基于CNN的ResNet;另一类方法是将Transformer中的self-attention机制与常见的CNN架构结合,TransUNet是成功将CNN与Transformer结合的方法之一,先使用CNN提取图像的局部特征,然后将所提取的最后一层特征传入到Transformer中进行全局特征关系建模,最后使用反卷积方法对带有局部特征和全局特征的特征图上采样,还原成目标结果。这些方法在医学图像处理任务中取得了不错的效果,成为医学图像分割中新的研究和应用方向。
发明内容
本发明要解决的技术问题是提供一种基于Transformer和卷积注意力机制的CT图像分割方法,可实现自动将CT图像中的目标区域标记出来,从而方便用于诊断、治疗和临床研究。为了解决上述问题,其技术方案如下:
本发明的一种基于Transformer和卷积注意力机制的CT图像分割方法,所述方法包括以下步骤:
S1,数据预处理模块:获取CT图像数据,按照体素值截断的方法过滤不相关区域,对过滤后的CT图像数据进行标准化处理,然后划分训练集、验证集和测试集;
S2,CNN编码器模块:利用多层卷积操作,对CT图像进行初步编码,使用卷积注意力模块来实现注意力机制,对语义分割主要区域加入关注,获取CT图像的局部特征信息;其中,“卷积注意力模块”的英文缩写为CBAM;CNN编码器模块即卷积神经网络编码器模块。
S3,Transformer编码器模块:连接CNN编码器的后两层特征信息,传入到Transformer编码器进行处理,获取CT图像的全局特征信息,CT图像全局特征信息结果与从CNN编码器传入的后两层特征信息残差相加,增强CNN编码器后两层特征信息传递操作过程中损失的信息;
S4,解码器模块:将Transformer编码器的输出信息还原至CNN编码器最后两层特征图大小,最后一层特征图经反卷积操作后与上一层输出的还原结果相加,再使用反卷积操作将相加结果还原到CNN编码器前两层特征图大小,并对应作跳跃连接,最后还原出带标签的CT图像。其中,解码器模块的输入数据是Transformer编码器的输出结果,首先根据输出序列的大小重新还原为特征图,经过转置卷积操作逐步将特征图上采样到输入分辨率大小(D*H*W)。此外,编码器和解码器之间添加了跳跃连接,以保留更多图片的底层细节特征信息,实现更好的分割。
进一步地,步骤S2所述的CNN编码器模块还包括:
S21,使用一个Conv_IN_ReLU块对CT图像进行初步处理,包括一个7×7卷积核的卷积层、归一化层和激活层,得到包含丰富局部信息的中间特征图;
S22,使用卷积注意力模块,沿着通道和空间两个维度推断注意力映射,强调重要的特征,减小不必要特征的影响,从而关注任务所要分割的关键部位,增强CNN编码器的性能;
S23,将融合了卷积注意力的中间特征图传入到ResConvBlock中,经过多个残差卷积块的处理,获得分辨率更低的特征图;
S24,按照S22和S23的方法,在经过两次的卷积注意力模块和ResConvBlock处理,得到分辨率更低的高层次特征图,所述高层次特征图包含了CT图像的全局信息。
进一步地,在S22步骤中,卷积注意力模块将注意力的注入分为两个过程,沿着空间轴的通道注意力模块和沿着通道轴的空间注意力模块,卷积注意力模块输入的中间特征图F∈RC*H*W,卷积注意力模块推导出1维的通道注意力映射Mc∈RC*1*1和2维空间注意力映射Ms∈R1*H*W,具体过程如下:
S221,空间轴的通道注意力模块通过平均池化和最大池化操作沿着空间轴聚合中间特征图的信息,生成两个不同的通道特征信息和分别表示跨空间的平均池化特征和最大池化特征;然后这两个通道特征信息分别转发到一个共享前向网络;最后将共享前向网络应用于每个池化特征后的结果,使用逐元素求和操作并输出特征向量,计算方式为:
S222,将步骤S221中所求得的通道注意力映射与输入数据逐元素相乘,通过步骤S221,通道注意力得到向下传播,其过程概括为:
S223,通道轴的空间注意力模块首先通过平均池化和最大池化操作沿着通道轴聚合包含了通道注意力中间特征图的信息,生成两个2维映射:和分别表示跨通道的平均池化特征和最大池化特征;然后将这些信息连接起来并通过一个标准7×7卷积核的卷积层进行卷积操作,产生2维空间注意力特征图;最后通过sigmoid函数进行标准化得到最终注意力映射,计算方式为:
S224,将步骤S223得到的注意力映射,与步骤S222中求得的F'进行逐元素相乘,通过此操作来添加空间注意力,此步骤所得结果包含了通道注意力和空间注意力,对输入中间特征图的重要特征达到了强调的目的,且减小了不必要特征的影响,整个过程可以概括为:
进一步地,步骤S3所述的Transformer编码器模块还包括:
S31,将CNN编码器的最后两层特征信息展开后进行拼接,并加入位置编码,作为Transformer的输入;
S32,将输入信息传递到可变形注意力Transformer层(Deformable TransformerLayer)中对全局信息进行建模,Transformer编码器中包含了6层可变形注意力Transformer层;其中,可变形注意力Transformer层与标准的Transformer Layer不同,在这里引入了可变形注意力Transformer层机制。在标准的Transformer中,self-attention会关注特征图中的所有位置,而在图像分割任务中,不必关注所有位置的点,否则会致使收敛速度慢,计算复杂度高;而deformable self-attention,在特征图中选取采样点(Reference Point),只对该点周围8个偏移位置进行关注,而不是将注意力分散在全局,这在图像分割任务中可以大大提高模型性能。
S33,经过6层可变形注意力Transformer层后的结果,与Transformer编码器的传入信息残差相加,增强在可变形注意力Transformer层中处理和传递过程中损失或丢失的局部特征信息,得到与输入同样维度的结果,此结果包含了输入图像的局部特征信息和全局特征信息。
本发明提供的CT图像分割方法的有益效果是:
一、本发明提供的CT图像分割方法,将Transformer应用于3D医学影像分割任务,提高了相对于传统CNN架构方法的精度。
二、使用了deformable self-attention机制,在图像分割任务中,将注意力分布在采样点周围的部分区域而不是全局,提高了模型训练的效率。
三、单纯的CNN架构或者Transformer架构在医学图像分割任务中都体现出了一些不足,本发明将两种单纯的架构结合,来改善各自的不足之处,并使用CBAM和CNN编码器与Transformer编码器之间的残差连接,使发明方法的效率更高,实现了更好的分割。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于Transformer和卷积注意力机制的CT图像分割方法的结构示意图;
图2是本发明的基于Transformer和卷积注意力机制的CT图像分割方法的CNN编码器模块中,所引入CBAM的Channel Attention Model获得通道注意力的流程示意图;
图3是本发明的基于Transformer和卷积注意力机制的CT图像分割方法的CNN编码器模块中,所引入CBAM的Spatial Attention Model获得空间注意力的流程示意图;
图4是本发明的基于Transformer和卷积注意力机制的CT图像分割方法的一种实施方式的数据标注示例图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式作进一步的说明。
在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
请参考图1至图3,本实施例的一种基于Transformer和卷积注意力机制的CT图像分割方法,该方法包括以下步骤:
S1,数据预处理模块:获取CT图像数据,按照体素值截断的方法过滤不相关区域,对过滤后的CT图像数据进行标准化处理,然后划分训练集、验证集和测试集;
S2,CNN编码器模块:利用多层卷积操作,对CT图像进行初步编码,使用卷积注意力模块来实现注意力机制,对语义分割主要区域加入关注,获取CT图像的局部特征信息;
S3,Transformer编码器模块:连接CNN编码器的后两层特征信息,传入到Transformer编码器进行处理,获取CT图像的全局特征信息,CT图像全局特征信息结果与从CNN编码器传入的后两层特征信息残差相加,增强CNN编码器后两层特征信息传递操作过程中损失的信息;
S4,解码器模块:将Transformer编码器的输出信息还原至CNN编码器最后两层特征图大小,最后一层特征图经反卷积操作后与上一层输出的还原结果相加,再使用反卷积操作将相加结果还原到CNN编码器前两层特征图大小,并对应作跳跃连接,最后还原出带标签的CT图像。其中,解码器模块的输入数据是Transformer编码器的输出结果,首先根据输出序列的大小重新还原为特征图,经过转置卷积操作逐步将特征图上采样到输入分辨率大小(D*H*W)。此外,编码器和解码器之间添加了跳跃连接,以保留更多图片的底层细节特征信息,实现更好的分割。
优选地,步骤S2所述的CNN编码器模块还包括:
S21,使用一个Conv_IN_ReLU块对CT图像进行初步处理,包括一个7×7卷积核的卷积层、归一化层和激活层,得到包含丰富局部信息的中间特征图;
S22,使用卷积注意力模块,沿着通道和空间两个维度推断注意力映射,强调重要的特征,减小不必要特征的影响,从而关注任务所要分割的关键部位,增强CNN编码器的性能;
S23,将融合了卷积注意力的中间特征图传入到ResConvBlock中,经过多个残差卷积块的处理,获得分辨率更低的特征图;
S24,按照S22和S23的方法,在经过两次的卷积注意力模块和ResConvBlock处理,得到分辨率更低的高层次特征图,所述高层次特征图包含了CT图像的全局信息。
优选地,在S22步骤中,卷积注意力模块将注意力的注入分为两个过程,沿着空间轴的通道注意力模块和沿着通道轴的空间注意力模块,卷积注意力模块输入的中间特征图F∈RC*H*W,卷积注意力模块推导出1维的通道注意力映射Mc∈RC*1*1和2维空间注意力映射Ms∈R1*H*W,具体过程如下:
S221,空间轴的通道注意力模块通过平均池化和最大池化操作沿着空间轴聚合中间特征图的信息,生成两个不同的通道特征信息和分别表示跨空间的平均池化特征和最大池化特征;然后这两个通道特征信息分别转发到一个共享前向网络;最后将共享前向网络应用于每个池化特征后的结果,使用逐元素求和操作并输出特征向量,计算方式为:
S222,将步骤S221中所求得的通道注意力映射与输入数据逐元素相乘,通过步骤S221,通道注意力得到向下传播,其过程概括为:
S223,通道轴的空间注意力模块首先通过平均池化和最大池化操作沿着通道轴聚合包含了通道注意力中间特征图的信息,生成两个2维映射:和分别表示跨通道的平均池化特征和最大池化特征;然后将这些信息连接起来并通过一个标准7×7卷积核的卷积层进行卷积操作,产生2维空间注意力特征图;最后通过sigmoid函数进行标准化得到最终注意力映射,计算方式为:
S224,将步骤S223得到的注意力映射,与步骤S222中求得的F'进行逐元素相乘,通过此操作来添加空间注意力,此步骤所得结果包含了通道注意力和空间注意力,对输入中间特征图的重要特征达到了强调的目的,且减小了不必要特征的影响,整个过程可以概括为:
优选地,步骤S3所述的Transformer编码器模块还包括:
S31,将CNN编码器的最后两层特征信息展开后进行拼接,并加入位置编码,作为Transformer的输入;
S32,将输入信息传递到可变形注意力Transformer层(Deformable TransformerLayer)中对全局信息进行建模,Transformer编码器中包含了6层可变形注意力Transformer层;其中,可变形注意力Transformer层与标准的Transformer Layer不同,在这里引入了deformable self-attention机制。在标准的Transformer中,self-attention会关注特征图中的所有位置,而在图像分割任务中,不必关注所有位置的点,否则会致使收敛速度慢,计算复杂度高;而deformable self-attention,在特征图中选取采样点(Reference Point),只对该点周围8个偏移位置进行关注,而不是将注意力分散在全局,这在图像分割任务中可以大大提高模型性能;
S33,经过6层可变形注意力Transformer层后的结果,与Transformer编码器的传入信息残差相加,增强在可变形注意力Transformer层中处理和传递过程中损失或丢失的局部特征信息,得到与输入同样维度的结果,此结果包含了输入图像的局部特征信息和全局特征信息。
如图4所示,在步骤S1中,获取了BTCV(Beyond The Cranial Vault)腹部器官分割数据集。该数据包含30例腹部CT扫描数据,来源于一项结直肠癌化疗实验和一项反复性腹疝研究。数据图像的体积范围为512×512×85-512×512×198,视野范围约为280×280×280mm3-500×500×650mm3,平面分辨率为0.54×0.54mm2-0.98×0.98mm2,切片厚度为2.5mm-5.0mm。数据集的图像中包括13个器官:脾脏(Sp)、右肾(R_Ki)、左肾(L_Ki)、胆囊(Gb)、食道(Es)、肝(Li)、胃(St)、主动脉(Ao)、下腔静脉(IVC)、门静脉和脾静脉(PSV)、胰腺(Pa)、右肾上腺(R_AG)和左肾上腺(L_AG),数据经标注后由放射科医生验证,数据标注示例如图4所示。将BTCV数据集归一化处理后,随机划分15个为训练集,6个为验证集,9个为测试集,验证集用于选择模型的超参数。
使用Dice损失与交叉熵损失之和作为本方法的损失函数,公式如下所示,其中,X表示真实数据,Y表示预测结果,|X|表示X的元素个数,|Y|表示Y的元素个数,|X∩Y|表示X和Y之间的交集。
loss=Dice_loss+CrossEntropy_loss
本发明的CT图像分割方法成功应用于BTCV数据并实现分割,表1为CT图像分割方法与其他方法的Dice结果比较。
表1实验对比结果
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。
以上结合附图对本发明的实施方式作出详细说明,但本发明不局限于所描述的实施方式。对本领域的技术人员而言,在不脱离本发明的原理和精神的情况下对这些实施例进行的多种变化、修改、替换和变型均仍落入在本发明的保护范围之内。
Claims (4)
1.一种基于Transformer和卷积注意力机制的CT图像分割方法,其特征在于,所述方法包括以下步骤:
S1,数据预处理模块:获取CT图像数据,按照体素值截断的方法过滤不相关区域,对过滤后的CT图像数据进行标准化处理,然后划分训练集、验证集和测试集;
S2,CNN编码器模块:利用多层卷积操作,对CT图像进行初步编码,使用卷积注意力模块来实现注意力机制,对语义分割主要区域加入关注,获取CT图像的局部特征信息;
S3,Transformer编码器模块:连接CNN编码器的后两层特征信息,传入到Transformer编码器进行处理,获取CT图像的全局特征信息,CT图像全局特征信息结果与从CNN编码器传入的后两层特征信息残差相加,增强CNN编码器后两层特征信息传递操作过程中损失的信息;
S4,解码器模块:将Transformer编码器的输出信息还原至CNN编码器最后两层特征图大小,最后一层特征图经反卷积操作后与上一层输出的还原结果相加,再使用反卷积操作将相加结果还原到CNN编码器前两层特征图大小,并对应作跳跃连接,最后还原出带标签的CT图像。
2.根据权利要求1所述的CT图像分割方法,其特征在于,步骤S2所述的CNN编码器模块还包括:
S21,使用一个Conv_IN_ReLU块对CT图像进行初步处理,包括一个7×7卷积核的卷积层、归一化层和激活层,得到包含丰富局部信息的中间特征图;
S22,使用卷积注意力模块,沿着通道和空间两个维度推断注意力映射,强调重要的特征,减小不必要特征的影响,从而关注任务所要分割的关键部位,增强CNN编码器的性能;
S23,将融合了卷积注意力的中间特征图传入到ResConvBlock中,经过多个残差卷积块的处理,获得分辨率更低的特征图;
S24,按照S22和S23的方法,在经过两次的卷积注意力模块和ResConvBlock处理,得到分辨率更低的高层次特征图,所述高层次特征图包含了CT图像的全局信息。
3.根据权利要求2所述的CT图像分割方法,其特征在于,在S22步骤中,卷积注意力模块将注意力的注入分为两个过程,沿着空间轴的通道注意力模块和沿着通道轴的空间注意力模块,卷积注意力模块输入的中间特征图F∈RC*H*W,卷积注意力模块推导出1维的通道注意力映射Mc∈RC*1*1和2维空间注意力映射Ms∈R1*H*W,具体过程如下:
S221,空间轴的通道注意力模块通过平均池化和最大池化操作沿着空间轴聚合中间特征图的信息,生成两个不同的通道特征信息和分别表示跨空间的平均池化特征和最大池化特征;然后这两个通道特征信息分别转发到一个共享前向网络;最后将共享前向网络应用于每个池化特征后的结果,使用逐元素求和操作并输出特征向量,计算方式为:
S222,将步骤S221中所求得的通道注意力映射与输入数据逐元素相乘,通过步骤S221,通道注意力得到向下传播,其过程概括为:
S223,通道轴的空间注意力模块首先通过平均池化和最大池化操作沿着通道轴聚合包含了通道注意力中间特征图的信息,生成两个2维映射:和分别表示跨通道的平均池化特征和最大池化特征;然后将这些信息连接起来并通过一个标准7×7卷积核的卷积层进行卷积操作,产生2维空间注意力特征图;最后通过sigmoid函数进行标准化得到最终注意力映射,计算方式为:
S224,将步骤S223得到的注意力映射,与步骤S222中求得的F'进行逐元素相乘,通过此操作来添加空间注意力,此步骤所得结果包含了通道注意力和空间注意力,对输入中间特征图的重要特征达到了强调的目的,且减小了不必要特征的影响,整个过程可以概括为:
4.根据权利要求3所述的CT图像分割方法,其特征在于,步骤S3所述的Transformer编码器模块还包括:
S31,将CNN编码器的最后两层特征信息展开后进行拼接,并加入位置编码,作为Transformer的输入;
S32,将输入信息传递到可变形注意力Transformer层中对全局信息进行建模,Transformer编码器中包含了6层可变形注意力Transformer层;
S33,经过6层可变形注意力Transformer层后的结果,与Transformer编码器的传入信息残差相加,增强在可变形注意力Transformer层中处理和传递过程中损失或丢失的局部特征信息,得到与输入同样维度的结果,此结果包含了输入图像的局部特征信息和全局特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211526001.0A CN115908811A (zh) | 2022-12-01 | 2022-12-01 | 一种基于Transformer和卷积注意力机制的CT图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211526001.0A CN115908811A (zh) | 2022-12-01 | 2022-12-01 | 一种基于Transformer和卷积注意力机制的CT图像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115908811A true CN115908811A (zh) | 2023-04-04 |
Family
ID=86483659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211526001.0A Pending CN115908811A (zh) | 2022-12-01 | 2022-12-01 | 一种基于Transformer和卷积注意力机制的CT图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115908811A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118279907A (zh) * | 2024-06-03 | 2024-07-02 | 菏泽学院 | 一种基于Transformer与CNN的中草药图像识别系统 |
CN118396975A (zh) * | 2024-05-23 | 2024-07-26 | 南方医科大学珠江医院 | 一种基于深度学习的肾脏数据分析方法、装置、设备、介质和计算机程序产品 |
CN119068202A (zh) * | 2024-11-05 | 2024-12-03 | 江西求是高等研究院 | 图像分割方法、系统、可读存储介质及计算机 |
-
2022
- 2022-12-01 CN CN202211526001.0A patent/CN115908811A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118396975A (zh) * | 2024-05-23 | 2024-07-26 | 南方医科大学珠江医院 | 一种基于深度学习的肾脏数据分析方法、装置、设备、介质和计算机程序产品 |
CN118279907A (zh) * | 2024-06-03 | 2024-07-02 | 菏泽学院 | 一种基于Transformer与CNN的中草药图像识别系统 |
CN119068202A (zh) * | 2024-11-05 | 2024-12-03 | 江西求是高等研究院 | 图像分割方法、系统、可读存储介质及计算机 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Deep learning of the sectional appearances of 3D CT images for anatomical structure segmentation based on an FCN voting method | |
CN111681252B (zh) | 一种基于多路径注意力融合的医学图像自动分割方法 | |
CN115908811A (zh) | 一种基于Transformer和卷积注意力机制的CT图像分割方法 | |
Wang et al. | Multiscale transunet++: dense hybrid u-net with transformer for medical image segmentation | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
CN115082293A (zh) | 一种基于Swin Transformer和CNN双分支耦合的图像配准方法 | |
CN114972746B (zh) | 一种基于多分辨率重叠注意力机制的医学影像分割方法 | |
CN113066025A (zh) | 一种基于增量学习与特征、注意力传递的图像去雾方法 | |
Hong et al. | Dual encoder network with transformer-CNN for multi-organ segmentation | |
Pham et al. | Toward deep-learning-based methods in image forgery detection: A survey | |
CN118229695A (zh) | 一种基于PCCTrans的医学图像分割方法 | |
CN116310343A (zh) | 一种基于特征解耦的多模态脑肿瘤mri分割方法 | |
CN117764960A (zh) | 基于多级特征交互融合的ct图像气胸病灶区域识别方法 | |
CN117994517A (zh) | 一种能准确进行医学图像分割的方法 | |
CN117853730A (zh) | 基于卷积核注意力机制的u型全卷积医学图像分割网络 | |
CN118918126A (zh) | 基于混合注意力分支分割肾动态显像图像中肾脏区域的方法和系统 | |
CN117151162A (zh) | 基于自监督与专家门控的跨解剖区域器官增量分割方法 | |
Ruan et al. | An efficient tongue segmentation model based on u-net framework | |
CN116452515A (zh) | 基于通用与私有特征联合域表示的类增量多器官分割方法 | |
Jiang et al. | Multi-scale fusion for RGB-D indoor semantic segmentation | |
Zhang et al. | MSAA-Net: a multi-scale attention-aware U-Net is used to segment the liver | |
Li et al. | CPFTransformer: transformer fusion context pyramid medical image segmentation network | |
CN114820636A (zh) | 一种三维医学图像分割模型及其训练方法和应用 | |
CN119762775A (zh) | 一种基于SMTK-UNet模型的非线性医学图像分割方法 | |
CN118314121A (zh) | 结合曲线结构提示符和深度神经网络的医学图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |