CN116485815A - 基于双尺度编码器网络的医学图像分割方法、设备和介质 - Google Patents
基于双尺度编码器网络的医学图像分割方法、设备和介质 Download PDFInfo
- Publication number
- CN116485815A CN116485815A CN202310485440.XA CN202310485440A CN116485815A CN 116485815 A CN116485815 A CN 116485815A CN 202310485440 A CN202310485440 A CN 202310485440A CN 116485815 A CN116485815 A CN 116485815A
- Authority
- CN
- China
- Prior art keywords
- layer
- scale
- output
- segmentation
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000003709 image segmentation Methods 0.000 title claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000007493 shaping process Methods 0.000 claims description 2
- 101150064138 MAP1 gene Proteins 0.000 claims 1
- 101150077939 mapA gene Proteins 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 5
- 239000013589 supplement Substances 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双尺度编码器网络的医学图像分割方法、设备和介质,方法针对待分割的医学图像,使用训练好的双尺度编码器网络DSE‑Net对图像的目标进行分割;DSE‑Net由粗分割和细分割部分组成;粗分割部分使用双尺度编码器对医学图像逐层编码,并使用解码器对编码输出的特征图逐层上采样直至恢复到输入图像大小,并输出预测的粗分割图;其中编码器包括两种尺度的编码块;细分割部分使用基于Transformer的细化模块对粗分割图进行细化,得到细化的医学图像分割图。本发明使用双尺度编码器网络,能够捕获不同的视野信息,获取更丰富的上下文信息,对损失的信息进行相互补充,实现对医学图像更精确、更完整的分割。
Description
技术领域
本发明属于医学图像处理技术领域,涉及一种基于双尺度编码器网络的医学图像分割方法、设备和介质。
背景技术
医学图像分割是一个重要而又具有挑战性的研究课题,图像分割为医学图像定量分析提供重要的科学依据。研究一种精准的医学图像分割网络框架不仅提高诊断效率,同时提高诊断的准确率。U-Net在医学图像分割任务上取得了巨大的成功,很多基于U型网络改进的模型也在不断提升医学图像分割的性能。在U型网络中,编码器将捕获到的图像上下文信息提供给解码器,以便增强解码器所损失的信息,解码器逐层上采样恢复到输入图像的分辨率大小。但由于U型分割框架中卷积层的局限性,无法捕获长距离依赖关系。近年来,一种新颖的结构Transformer在计算机视觉中成取得了广泛应用,Transformer作为编码能够捕捉图像中长范围依赖关系,视觉Transformer(ViT)在图像分割中展现出色的性能。同时在分割框架编码阶段,单尺度的卷积层会忽略一些纹理粗糙或者细密纹理的信息。
发明内容
本文所解决的问题是针对现有技术的不足,提出一种基于双尺度编码器网络的医学图像分割方法、设备和介质,能够实现更精确、更完整的医学图像分割性能。
为实现上述技术目的,本发明采用如下技术方案:
一种基于双尺度编码器网络的医学图像分割方法,针对待分割的医学图像,使用训练好的双尺度编码器网络DSE-Net对图像的目标进行分割;
其中DSE-Net由粗分割和细分割部分组成;
粗分割部分使用双尺度编码器对原始输入的医学图像进行逐层编码,并使用解码器对编码输出的特征图逐层上采样直至恢复到输入图像大小,并输出预测的粗分割图;其中,双尺度编码器包括两种尺度的编码块;
细分割部分使用基于Transformer的细化模块对预测的粗分割图进行细化,得到细化的医学图像分割图。
进一步地,粗分割部分采用多层编码器和解码器构成的U型网络结构;在第一层编码器之前包括初始卷积块,用于对原始输入的医学图像进行初始卷积;初始卷积块之后的各层编码器之间,使用池化操作对输入特征图逐级下采样;各层解码器之间采用双线性插值逐级上采样。
进一步地,每层编码器中每种尺度的编码块,均由4个基础残差块和2层4头注意力的Transformer级联组成,输出是由基础残差块的输出和Transformer的输出计算残差所得。
进一步地,在最后一层编码器与解码器之间的桥接层中,将最后一层编码器得到的双尺度特征图通过级联、卷积、BN层和ReLU层操作进行融合,随后输入到由若干卷积块搭建的桥接层中,并将桥接层的输出特征图与最后一层跳跃连接的输出特征图进行级联,用于最后一层解码器的输入特征图。
进一步地,在同层编码器和解码器之间的跳跃连接中,设置通道注意融合模块以对编码器输出的双尺度特征图进行通道融合;所述通道注意融合模块:一方面将编码器输出的双尺度的特征图Fsi和Fli级联,然后进行conv层、BN层和ReLU层运算得到特征图Ffi;另一方面,将两种尺度的特征图Fsi和Fli融入到通道注意力模块以捕获通道之间的依赖关系,得到特征图最终将特征图Ffi和/>经过残差计算得到通道注意融合模块的输出特征图其中下标i指代编码器和解码器所在层的层次。
进一步地,将两种尺度的特征图Fsi和Fli融入到通道注意力模块以捕获通道之间的依赖关系,具体为:
将小尺度特征图Fsi和大尺度特征图Fli整形为一系列平坦二维patch,然后将2个尺度特征图的tokens拼接后作为key和value,即 和/>分别表示小尺度和大尺度特征图的tokens,contact表示/>和/>的拼接操作,/>通过将向量/>和/>拼接得到;其中的patch为序列块,tokens为查询,key和value分别为键和值;
将相应的权值矩阵融入Transformer中用于计算注意力值,并计算得到输出Oi:
Oi=MCAi+MLP(Qi+MCAi)
式中,和/>表示第i层小尺度和大尺度的查询矩阵,Ki和Vi分别表示第i层的键、值矩阵,/>和/>分别表示第i层小尺度特征图的查询权重矩阵、大尺度特征图的查询权重矩阵、键的权重矩阵和值的权重矩阵,CAi表示第i层的通道融合的注意力值,MCAi表示对第i层的N个注意头进行平均值化,MLP表示多层感知机,d是二维序列块的数量,Mi为相似度矩阵,/>表示第i层的2个尺度特征图的quries;
将输出重塑形成/>并将/>和第i层解码器特征图Di∈RCi×Hi×Wi作为通道交叉注意的输入,将Oi和Di执行全局平均池得到/>和输出的特征图由使用以下公式生成,即通道注意力掩码σ(·)与特征图Oi相乘,得到通道注意力模块的输出/>
其中,σ(·)表示每个通道的相关性,α1,α2分别是两个线性层的权值。
进一步地,所述基于Transformer的细化模块,首先将预测得到的粗分割图S1进行初始卷积改变其的通道得到S2;然后将第一层编码器输出的双尺度特征图进行级联、conv和ReLU操作得到特征图F1∈R64×H×W,再将初始卷积的输出S2和F1进行级联,并使用卷积层、归一化层和ReLU层得到特征图输出C;再将输出特征图C送入具有4层多头注意的Transformer中进行学习,并将Transformer输出的mask与粗分割图S1进行残差计算得到最终的细化分割图。
进一步地,训练双尺度编码器网络DSE-Net的损失函数设为所有侧边损失输出的总和:
其中,Loss是总损失,lk是第k边输出的损失,lk(k=1,…,M)分别代表总共M-1个解码器输出和细分割部分输出的损失,其中表示第k边输出的骰子损失和二分类交叉熵损失。
一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一项所述的基于双尺度编码器网络的医学图像分割方法方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的基于双尺度编码器网络的医学图像分割方法方法。
有益效果
本发明使用训练好的DSE-Net对医学图像进行分割,其中DSE-Net使用基于pytorch深度学习框架搭建而成,由粗分割和细分割组成,前者生成粗分割图,后者生成细分割图,骨架网络采用U型结构,每层编码器使用两种尺度的编码块且每个编码块使用基础残差块和Transformer对特征进行提取。其次,为了更好的增强解码器上采样所损失的特征,使用通道注意融合机制对编码器双尺度特征进行深度融合。再次,使用各层解码器和细分割部分的输出损失总和构建损失函数对DSE-Net进行训练。本发明使用不同尺度的卷积层能够捕获不同的视野信息,多尺度的卷积核联合编码能够获取更丰富的上下文信息,不仅能够对所损失的信息进行相互补充,而且更加有利于提高医学图像分割性能,能够对医学图像产生更加精确、完整的分割区域。
附图说明
图1双尺度编码器网络DSE-Net的结构图。
图2用于融合双尺度特征图的通道注意融合结构图。
图3DSE-Net与其他先进模型在MoNuSeg数据集上分割对比图。
图4DSE-Net与其他先进模型在GlaS数据集上分割对比图。
图5DSE-Net与其他先进模型在KvasirCapsule-SEG数据集上分割对比图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本实施例提供一种基于双尺度编码器网络的医学图像分割方法,针对待分割的医学图像,使用训练好的双尺度编码器网络DSE-Net进行图像的目标分割。其中的DSE-Net由粗分割和细分割部分组成,其网络结构和训练方法如下详细阐述。
1、选取数据集
首先选取公开的医学图像数据集MoNuSeg、GlaS和KvasirCapsule-SEG,并将这些数据集划分为训练集和测试集。同时为了防止模型出现过拟合的情况,需要对数据集进行数据增强,包括随机放大、旋转和翻转等操作。
2、搭建双尺度编码器网络DSE-Net模型(如图1所示)
双尺度编码器网络DSE-Net由粗分割和细分割两部分组成,粗分割部分采用多层双尺度编码器和解码器构成的U型网络结构,每层的双尺度编码器包括两种尺度的编码块。
(1)编码器阶段
设输入双尺度编码器网络DSE-Net的医学图像为空间分辨率为H×W、通道数为C的图像x∈RC×H×W。
首先搭建一个对输入图像x∈RC×H×W进行初始卷积的卷积块,具体使用3×3卷积层、BN层和ReLU层对输入图像进行初始卷积。
然后搭建4层编码器。在每层编码器的每个编码块中,使用4层基础的残差块和2层4个注意头的Transformer用于对输入特征图进行特征提取,输出是由基础残差块的输出和Transformer的输出计算残差所得。
每层两个编码块的卷积尺度分别为3×3和5×5,获得细密纹理和纹理粗糙的特征图,以便进行信息互补。小尺度(3×3)的4层编码块输出尺寸分别为:H×W,H/2×W/2,H/4×W/4,H/8×W/8,大尺度(5×5)的4层编码块输出尺寸与小尺度的输出相同。
在每两层编码器之间,使用池化操作对输入特征图逐级下采样。
(2)跳跃连接
在同层编码器与解码器之间的跳跃连接中设置通道注意融合模块,以对编码器输出的双尺度特征图进行通道融合,有效地利用来自同层编码器双尺度特征图来增强解码器上采样所损失的信息。具体搭建的是4层多头注意的Transformer。
假设同层编码器的小尺度特征和大尺度特征/>i=(1,2,3,4),i表示第i层。
首先将Fsi和Fli进行级联,然后进行conv层,BN层和ReLU层运算得到以便后面用于计算通道注意力的残差输出。
其次将Fsi和Fli,i=(1,2,3,4)特征图整形为一系列尺寸分别为p,p/2,p/4,p/8的平坦二维patch(序列块)。将2个尺度特征图的tokens(查询)(和/>i=(1,2,3,4))拼接后作为key(键)和value(值),即/>
其中d是Patch数量。通过生成相似度矩阵Mi,并且与Vi进行加权得到注意力值。
其中表示第i层的2个尺度特征图的quries,/>表示第i层双尺度特征图的token。
Oi=MCAi+MLP(Qi+MCAi)
其中N是注意头的数量。通过应用简单的MLP和残差算子来获得输出。
将输出重塑形成/>并将/>和第i层解码器特征图/>作为通道交叉注意的输入,将Oi和Di执行全局平均池得到/>和/>输出的特征图由使用以下公式生成,即通道注意力掩码σ(·)与特征图Oi相乘,得到通道注意力模块的输出/>
其中,σ(·)表示每个通道的相关性,α1,α2是相应的权值。
最后将Ffi与经过残差计算得到得到通道注意融合模块的输出特征/>
(3)桥接层
在桥接层中,搭建3个普通的卷积块。首先将第4层编码器得到的双尺度特征图通过级联、卷积、BN层和ReLU层操作进行融合,得到尺度为(512×H/8×W/8)的特征图,随后将得到的特征图输入到由若干卷积块搭建的桥接层中。然后将经过桥接层的输出特征图与第4层跳跃连接的特征图进行级联,用于第4层解码器上采样恢复分辨率的大小。
(4)解码器阶段,首先将跳跃连接的输出特征图Oi∈RC×H×W和同层解码器的特征图进行级联得到R2C×H×W,随后使用conv、BN、ReLU操作恢复通道维度得到RC×H×W的特征图。
每两层解码器之间使用双线性插值进行上采样,直到恢复到输入图像的分辨率大小。
(5)基于Transformer的细化模块
如图1所示,将粗分割部分输出的特征S1∈R1×H×W经过conv层、BN层、ReLU层得到S2∈R64×H×W,其次将第一层双尺度特征经过级联、conv层、BN层、ReLU层得到的特征图F1∈R64 ×H×W与S2∈R64×H×W级联,并使用卷积、归一化和ReLU得到C∈R64×H×W。将C送入4层4注意头的Transformer细化模块进行学习,并将输出的mask与预测的mask进行残差计算得到最终的mask。
3、构建损失函数,将损失函数设为所有侧边损失输出的总和,如附图1所示。
其中,lk是第k边输出的损失,M表示输出的总数。如图DSE-Net结构图1所示,分割框架由5个输出(即M=5)进行深入监督,包括来自解码器预测的4个输出和来自细化模块的一个输出。
4、训练DSE-Net模型
将前述获得的数据集,按照批次大小将数据输入到模型中进行训练。实验使用基于pytorch深度学习框架。初始学习率设置为le-3,epoch设置为2000,同时为了防止模型过拟合,采用提前结束训练策略。使用Dice和IoU作为三个数据集的评估指标。其中MoNuSeg和KvasirCapsule-SEG数据集的batch size设置为6,GlaS的数据集batch size设置为4。在验证集上保存Dice最好的模型。
5、测试验证
将MoNuSeg、GlaS和KvasirCapsule-SEG数据集上保存最好的模型泛化到测试集上进行测试。在MoNuSeg数据集上得到的Dice和IoU为:81.171%和68.410%。在GlaS数据集上得到的Dice和IoU为:91.334%和84.853%。在KvasirCapsule-SEG数据集上得到的Dice和IpU为:96.421%和93.132。图3为DSE-Net在MoNuSeg数据集上和其他模型的可视化对比图。在红框中是本发明DSE-Net模型比其他方法表现更加优越的区域。图4为DSE-Net在GlaS数据集上和其他模型的可视化对比图。使用红框框出其他模型与本发明DSE-Net模型相比表现不佳的区域。可见,本发明DSE-Net模型分割的结果更加接近真实的分割图。图5为DSE-Net在KvasirCapsule-SEG数据集上和其他模型的可视化对比图。本发明DSE-Net模型分割出来的边界更加的贴近实际的分割图,可见本发明DSE-Net模型具有更加优越的泛化能力和生成能力。
综上,本发明将DSE-Net模型用于医学图像分割的性能具有更加优越的竞争力。在MoNuSeg、GlaS和KvasirCapsule-SEG数据集上的实验结果表明,DSE-Net能够对图像产生更加精确、完整的分割区域。
Claims (10)
1.一种基于双尺度编码器网络的医学图像分割方法,其特征在于,针对待分割的医学图像,使用训练好的双尺度编码器网络DSE-Net对图像的目标进行分割;
其中DSE-Net由粗分割和细分割部分组成;
粗分割部分使用双尺度编码器对原始输入的医学图像进行逐层编码,并使用解码器对编码输出的特征图逐层上采样直至恢复到输入的图像大小,并输出预测的粗分割图;其中,双尺度编码器包括两种尺度的编码块;
细分割部分使用基于Transformer的细化模块对预测的粗分割图进行细化,得到细化的医学图像分割图。
2.根据权利要求1所述的医学图像分割方法,其特征在于,粗分割部分采用多层编码器和解码器构成的U型网络结构;在第一层编码器之前包括初始卷积块,用于对原始输入的医学图像进行初始卷积;初始卷积块之后的各层编码器之间,使用池化操作对输入特征图逐级下采样;各层解码器之间采用双线性插值逐级上采样。
3.根据权利要求1所述的医学图像分割方法,其特征在于,每层编码器中每种尺度的编码块,均由4个基础残差块和2层4头注意力的Transformer级联组成,输出是由基础残差块的输出和Transformer的输出计算残差所得。
4.根据权利要求1所述的医学图像分割方法,其特征在于,在最后一层编码器与解码器之间的桥接层中,将最后一层编码器得到的双尺度特征图通过级联、卷积、BN层和ReLU层操作进行融合,随后输入到由若干卷积块搭建的桥接层中,并将桥接层的输出特征图与最后一层跳跃连接的输出特征图进行级联,用于最后一层解码器的输入特征图。
5.根据权利要求1所述的医学图像分割方法,其特征在于,在同层编码器和解码器之间的跳跃连接中,设置通道注意融合模块以对编码器输出的双尺度特征图进行通道融合;所述通道注意融合模块:一方面将编码器输出的双尺度的特征图Fsi和Fli级联,然后进行conv层、BN层和ReLU层运算得到特征图Ffi;另一方面,将两种尺度的特征图Fsi和Fli融入到通道注意力模块以捕获通道之间的依赖关系,得到特征图最终将特征图Ffi和/>经过残差计算得到通道注意融合模块的输出特征图/>其中下标i指代编码器和解码器所在层的层次。
6.根据权利要求5所述的医学图像分割方法,其特征在于,将两种尺度的特征图Fsi和Fli融入到通道注意力模块以捕获通道之间的依赖关系,具体为:
将小尺度特征图Fsi和大尺度特征图Fli整形为一系列平坦二维patch,然后将2个尺度特征图的tokens拼接后作为key和value,即 和/>分别表示小尺度和大尺度特征图的tokens,contact表示/>和/>的拼接操作,/>通过将向量/>和/>拼接得到;其中的patch为序列块,tokens为查询,key和value分别为键和值;
将相应的权值矩阵融入Transformer中用于计算注意力值,并计算得到输出Oi:
Oi=MCAi+MLP(Qi+MCAi)
式中,和/>表示第i层小尺度和大尺度的查询矩阵,Ki和Vi分别表示第i层的键、值矩阵,/>和/>分别表示第i层小尺度特征图的查询权重矩阵、大尺度特征图的查询权重矩阵、键的权重矩阵和值的权重矩阵,CAi表示第i层的通道融合的注意力值,MCAi表示对第i层的N个注意头进行平均值化,MLP表示多层感知机,d是二维序列块的数量,Mi为相似度矩阵,/>表示第i层的2个尺度特征图的quries;
将输出重塑形成/>并将/>和第i层解码器特征图作为通道交叉注意的输入,将Oi和Di执行全局平均池得到/>和输出的特征图由使用以下公式生成,即通道注意力掩码σ(·)与特征图Oi相乘,得到通道注意力模块的输出/>
其中,σ(·)表示每个通道的相关性,α1,α2分别是两个线性层的权值。
7.根据权利要求1所述的医学图像分割方法,其特征在于,所述基于Transformer的细化模块,首先将预测得到的粗分割图S1进行初始卷积改变其的通道得到S2;然后将第一层编码器输出的双尺度特征图进行级联、conv和ReLU操作得到特征图F1∈R64×H×W,再将初始卷积的输出S2和F1进行级联,并使用卷积层、归一化层和ReLU层得到特征图C;再将输出特征图C送入具有4层多头注意的Transformer中进行学习,并将Transformer输出的mask与粗分割图S1进行残差计算得到最终的细化分割图。
8.根据权利要求1所述的医学图像分割方法,其特征在于,训练双尺度编码器网络DSE-Net的损失函数设为所有侧边损失输出的总和:
其中,Loss是总损失,是第k边输出的损失,/>分别代表总共M-1个解码器输出和细分割部分输出的损失,其中/>表示第k边输出的骰子损失和二分类交叉熵损失。
9.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485440.XA CN116485815A (zh) | 2023-05-04 | 2023-05-04 | 基于双尺度编码器网络的医学图像分割方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485440.XA CN116485815A (zh) | 2023-05-04 | 2023-05-04 | 基于双尺度编码器网络的医学图像分割方法、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116485815A true CN116485815A (zh) | 2023-07-25 |
Family
ID=87215453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310485440.XA Pending CN116485815A (zh) | 2023-05-04 | 2023-05-04 | 基于双尺度编码器网络的医学图像分割方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116485815A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115444A (zh) * | 2023-09-08 | 2023-11-24 | 北京卓视智通科技有限责任公司 | 一种多任务图像分割方法、系统、计算机设备和存储介质 |
CN117746045A (zh) * | 2024-02-08 | 2024-03-22 | 江西师范大学 | 一种Transformer和卷积融合的医学图像分割方法及系统 |
-
2023
- 2023-05-04 CN CN202310485440.XA patent/CN116485815A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115444A (zh) * | 2023-09-08 | 2023-11-24 | 北京卓视智通科技有限责任公司 | 一种多任务图像分割方法、系统、计算机设备和存储介质 |
CN117115444B (zh) * | 2023-09-08 | 2024-04-16 | 北京卓视智通科技有限责任公司 | 一种多任务图像分割方法、系统、计算机设备和存储介质 |
CN117746045A (zh) * | 2024-02-08 | 2024-03-22 | 江西师范大学 | 一种Transformer和卷积融合的医学图像分割方法及系统 |
CN117746045B (zh) * | 2024-02-08 | 2024-05-28 | 江西师范大学 | 一种Transformer和卷积融合的医学图像分割方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Monocular depth estimation using laplacian pyramid-based depth residuals | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN116485815A (zh) | 基于双尺度编码器网络的医学图像分割方法、设备和介质 | |
CN111209921A (zh) | 基于改进的YOLOv3网络的车牌检测模型及构建方法 | |
CN112819833B (zh) | 一种大场景点云语义分割方法 | |
Zhang et al. | Progressive hard-mining network for monocular depth estimation | |
Wang et al. | RSCNet: A residual self-calibrated network for hyperspectral image change detection | |
CN115222998B (zh) | 一种图像分类方法 | |
CN113807361A (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
CN116823850A (zh) | 基于U-Net和Transformer融合改进的心脏MRI分割方法及系统 | |
CN115908805A (zh) | 基于卷积增强交叉自注意力变形器的u型图像分割网络 | |
Shi et al. | Lightweight context-aware network using partial-channel transformation for real-time semantic segmentation | |
CN115100480A (zh) | 基于向量量化变分自编码器的医学影像分类模型及方法 | |
CN113627487B (zh) | 一种基于深层注意力机制的超分辨率重建方法 | |
Li et al. | Maskformer with improved encoder-decoder module for semantic segmentation of fine-resolution remote sensing images | |
CN115984714B (zh) | 一种基于双分支网络模型的云检测方法 | |
CN117635563A (zh) | 一种基于模态交叉注意力的多模态mri脑肿瘤图像分割方法 | |
CN117315241A (zh) | 一种基于transformer结构的场景图像语义分割方法 | |
CN116188836A (zh) | 基于空间与通道特征提取的遥感图像分类方法和装置 | |
CN113255675A (zh) | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 | |
Lee et al. | Lightweight monocular depth estimation via token-sharing transformer | |
CN116823914B (zh) | 基于全对焦图像合成的无监督焦点堆栈深度估计方法 | |
CN114005043B (zh) | 基于域转换和伪标签的小样本城市遥感影像信息提取方法 | |
Li et al. | LCDNet: Lightweight Change Detection Network with Dual Attention Guidance and Multiscale Feature Fusion for Remote Sensing Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |