CN115861616A - 面向医学图像序列的语义分割系统 - Google Patents

面向医学图像序列的语义分割系统 Download PDF

Info

Publication number
CN115861616A
CN115861616A CN202211584167.8A CN202211584167A CN115861616A CN 115861616 A CN115861616 A CN 115861616A CN 202211584167 A CN202211584167 A CN 202211584167A CN 115861616 A CN115861616 A CN 115861616A
Authority
CN
China
Prior art keywords
frame
image
segmentation
layer
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211584167.8A
Other languages
English (en)
Inventor
张玥杰
袁润恬
刘靖正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202211584167.8A priority Critical patent/CN115861616A/zh
Publication of CN115861616A publication Critical patent/CN115861616A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于医学图像处理技术领域,具体为面向医学图像序列的语义分割系统。本发明的语义分割系统包括一个跨帧注意力模块和边界感知Transformer;采用先定位再细化的模式,即首先通过跨帧注意力模块,挖掘输入图像的连续帧之间的时序关系,建模帧间的相关性,并进行图像的粗糙分割,通过关注目标区域来定位;然后采用边界感知Transformer对目标物体进一步细化,来提升分割精度;通过学习沿边界提取的图像块之间的依赖关系,经过处理,将这些图像块将重新组合,获得最终分割掩码。本发明在心脏分割磁共振图像数据集和息肉分割内窥镜数据集上都取得优越的分割性能,还可广泛扩展到其它模态的医学图像,如CT扫描图像、超声图像等。

Description

面向医学图像序列的语义分割系统
技术领域
本发明属于图像处理技术领域,具体涉及面向医学图像序列的语义分割系统。
背景技术
自动检测和分割医学图像中的关键区域,可有效帮助医生提高诊断的精度和效率。在临床实践中,许多模态的医学图像都是以视频形式进行采集。如结肠镜检查就是结直肠癌诊断所需的关键技术,每次检查会生成一段视频。虽然已有一些方法用于处理静态图像中的自动息肉分割,但很少有工作注意到连续帧之间的时序关系。一段视频中的帧通常来自于一个独立的病人,并包含相同的目标对象(如息肉),因此它们的前景和背景都具有高度的相似性。这种特征也存在于磁共振图像和超声图像中。
在过去十年中,卷积神经网络在医学图像分割方面取得很大突破。现代语义分割架构通常是基于编码器-解码器的网络。基于深度编码器-解码器的卷积神经网络的成功在很大程度上得益于其跳跃连接,但由于卷积的局部性特征,卷积神经网络需要较大的感受野来关注整幅图像,导致网络结构较深、网络参数较多。视觉Transformer被引入到图像分割任务中,来捕获全局信息并学习远程依赖关系。然而,由于医学图像边界模糊、对比度低,无论是基于卷积神经网络还是基于Transformer的医学图像分割方法,都常常存在前景与背景之间的边界不精确的问题,分割性能受限。
由于多种模态的医学图像具有序列的性质,因此医学图像序列的分割与视频目标分割工作也十分相关。根据测试阶段设置的不同,视频目标分割可分为半监督视目标分割和无监督视频目标分割。半监督视频目标分割在第一帧给出目标的分割掩码,而无监督视频目标分割需要在没有任何先验知识的情况下提取分割目标的掩码。对于半监督视频目标分割,有工作使用卷积层来编码帧的特征,也有工作采用基于Transformer的架构来捕获时间关系和空间关系。对于无监督视频目标分割,许多工作关注到视频帧之间内在相关性的重要性,并采用注意力机制来挖掘这些信息。本发明针对医学图像分割任务中视频帧之间的关系进行建模,充分利用医学图像中的时间序列信息。
基于上述分析,本发明采用跨帧注意力模块来挖掘视频帧之间的相关性,并针对边界模糊问题对Transformer进行改进,进一步提高分割性能。
发明内容
本发明所解决的问题是医学图像序列分割问题,现有工作主要存在两方面不足:(1)大部分工作都是关注静态图像分割,忽略磁共振、内窥镜、超声检查等技术采集到的图像具有序列关系、以及连续帧之间的相似外观和跨帧的相关性;(2)不管是基于卷积神经网络还是基于Transformer的医学图像分割方法,分割性能都受限于医学图像的低对比度和模糊边界,没有很好地挖掘帧内图像块之间的依赖关系。为解决上述问题,本发明提供一种面向医学图像序列的语义分割系统。
本发明提供的面向医学图像序列的语义分割系统,包括一个用于建模帧间关系的跨帧注意力模块和一个用于学习帧内依赖关系的边界感知Transformer;本发明采用先定位再细化模式(与以往使用Transformer编码器作为特征提取器的工作不同),即首先通过跨帧注意力模块,挖掘输入图像的连续帧之间的时序关系,建模帧间的相关性,并进行图像的粗糙分割,通过关注目标区域来定位;然后采用边界感知Transformer对目标物体进一步细化,通过学习沿边界提取的图像块之间的依赖关系,经过处理后,将这些图像块将重新组合,获得最终分割掩码。
本发明中,所述通过跨帧注意力模块,挖掘输入图像的连续帧之间的时序关系,建模帧间的相关性,并进行图像的粗糙分割,通过关注目标区域来定位,具体包括:
在一段医学图像序列中,连续帧中的目标通常具有相似的前景和背景。对于输入的T帧连续图像(例如T通常为3-6,实施例中取为3),采用基于卷积神经网络的骨干网络为每一帧提取特征;所述骨干网络使用Res2Net的前四层作为特征提取器,每层都输出每帧图像的特征图,记为
Figure BDA0003991789550000021
其中,Cl、Hl和Wl分别为第l层输出特征图的维度、高度和宽度;所述跨帧注意力模块使用第三层输出的特征图为每一帧生成键向量和值向量,然后依次将每一帧作为查询帧,其它帧作为提供键向量和值向量的参考帧;跨帧注意力模块利用连续帧之间的时序信息,实现连续帧之间的交互并建模帧间关系,实现图像的粗糙分割,定位目标物体;
本发明中,所述采用边界感知Transformer对目标物体进一步细化,通过学习沿边界提取的图像块之间的依赖关系,经过处理后,将这些图像块将重新组合,获得最终分割掩码,具体包括:
边界感知Transformer沿粗糙分割图像中的边界提取图像掩码块,然后将这些边界掩码块与相应的原始图像块进行拼接,输入Transformer进行细化;最后,图像掩码块被重新组合,并输入至解码器来产生分割预测图。
根据定位和细化两个不同阶段,损失函数包含两部分:
Figure BDA0003991789550000022
其中,
Figure BDA0003991789550000031
和/>
Figure BDA0003991789550000032
分别表示定位阶段和细化阶段的损失函数;λ是用于平衡两个阶段损失项的超参数。
两个阶段的损失函数都使用加权二值交叉熵损失和加权交并比损失的组合。与标准的二值交叉熵损失和交并比损失相比,加权二值交叉熵损失
Figure BDA0003991789550000033
和加权交并比损失/>
Figure BDA0003991789550000034
更关注比较难分割的像素,而不是对所有像素分配相同的权重。对于定位阶段的损失,用M1表示跨帧注意力模块输出的分割掩码,Y表示图像的真值标签。通过计算M1和真值Y之间的差异,获得定位阶段的损失/>
Figure BDA0003991789550000035
Figure BDA0003991789550000036
计算最终的预测分割掩码M2和真值Y之间的差异,获得细化阶段的损失
Figure BDA0003991789550000037
Figure BDA0003991789550000038
本发明中,所述跨帧注意力模块,对于输入的T帧连续图像,跨帧注意力模块使用两个独立的卷积层来学习每帧的特征嵌入;将每个卷积层附加到特征提取器的第三层,分别为每帧图像生成键向量
Figure BDA0003991789550000039
和值向量/>
Figure BDA00039917895500000310
Ck和Cv分别表示键向量和值向量的特征维度。对于第t帧,键向量和值向量可表示为:
Figure BDA00039917895500000311
Figure BDA00039917895500000312
其中,ψ(·)和φ(·)表示两个并行的3×3卷积层。
将查询帧的键向量和值向量视为查询帧的特征嵌入,其它帧提供用于参考的键向量和值向量。跨帧注意力模块通过计算查询帧和参考帧的键向量之间的相似性,突出显示目标对象的位置。键向量用于编码鲁棒的高级视觉语义信息,值向量存储用于生成目标对象掩码预测的细节信息。查询帧的键向量Kq和参考帧的键向量Kr在每个位置上的相似度可表示为:
Sq,i=softmax(Kq,i⊙[Kr]j), (6)
其中,⊙表示矩阵乘法;[·]表示按通道拼接操作;i和j分别表示查询帧和参考帧上的位置索引。以图像序列第一帧T1为例,当T1作为查询帧时,其它T-1帧都作为参考帧提供键向量和值向量,此时第一帧T1与参考帧的相似度为
Figure BDA00039917895500000313
得到相似度Sq后,可根据与值向量的加权和来计算查询帧与参考帧交互后的特征图:
Figure BDA00039917895500000314
其中,D为归一化因子,Vq和Vr分别表示查询帧和参考帧的值向量。通过帧间注意力操作,跨帧注意力模块可获得位置敏感的特征,帮助定位目标对象。参考帧的键向量和值向量在公式(6)和公式(7)中都先进行通道上的拼接,为定位查询帧中的目标对象提供信息。
交互完成后,本系统采用通道注意力操作Attc(·)和空间注意力操作Atts(·)进一步挖掘这些特征图包含的信息,记为
Figure BDA0003991789550000041
Figure BDA0003991789550000042
其中,Attc(·)表示通道注意力操作,定义为:
Attc(x)=σ(w1(Pavg(x))+w2(Pmax(x)))⊙x, (9)
其中,x是输入向量;Pavg(·)和Pmax(·)分别表示全局平均池化和全局最大池化;w1(·)和w2(·)共享参数,由一个1×1卷积层和一个ReLU激活层再加一个1×1卷积层组成;σ(·)是sigmoid函数。
其中,空间注意力操作Atts(·)定义为:
Figure BDA0003991789550000043
其中,Qavg(·)和Qmax(·)分别表示通道维度上的平均值和最大值;
Figure BDA0003991789550000044
表示一个填充为3的7×7的卷积层。
Figure BDA0003991789550000045
与特征提取网络第二层和第四层输出的特征图进行融合,得到预测分割掩码;
Figure BDA0003991789550000046
先与第二层的特征图进行融合,得到/>
Figure BDA0003991789550000047
Figure BDA0003991789550000048
/>
其中,conv(·)表示卷积操作;
Figure BDA00039917895500000412
表示上采样操作;
Figure BDA0003991789550000049
再与第四层的特征图进行融合,得到定位阶段的预测分割掩码/>
Figure BDA00039917895500000410
Figure BDA00039917895500000411
本发明通过融合底层和高层特征,能够同时获得语义信息和目标对象的外观细节。
本发明中,所述边界感知Transformer,用于进一步提升边界处的分割精度。区分前景与背景之间的边界是医学图像分割任务长期面临的一个挑战,已有一些工作利用各种细化方法来预测更精确的目标对象边界。近来视觉Transformer在捕获全局上下文方面表现出强大性能,因此本系统设计一个边界感知Transformer来提升边界预测精度。跨帧注意力模块已提供包含目标对象位置信息的分割图(粗糙分割),这些分割图将通过一个共享的Transformer编码器进行细化。
给定一个由跨帧注意力模块生成的粗糙掩码,由于几何约束和外观特征,目标对象内部的分割结果通常是鲁棒的,因此细化阶段将主要关注目标对象的边界。本系统使用一个卷积层来检测被分割对象的大致边界,然后沿着边界提取正方形图像掩码块,这些方块的中心落在边界像素上。在提取过程中,同时给这些方块赋予中心边界像素的置信度作为评分。这些方块仍然包含大量的重叠和冗余,因此将根据置信度评分由高到低的顺序,选择评分最高的K个方块进行后续处理。所选方块的数量可进行调整,以更好地平衡速度和精度。同时,原始图像中相应位置的图像块也被提取出来,与K个掩码块进行拼接后一起输入一个Transformer编码器。这个Transformer编码器需要学习如何分类边界附近的像素。这些拼接后的图像块首先经过线性映射层变成一个向量,以这个向量作为边界感知Transformer的输入;边界感知Transformer包括n个Transformer层(n可为2-6,实施例中n取为4)。每个Transformer层包括多头自注意力和多层感知器,用lt表示Transformer的每一层,第lt层的输出如下所示:
Figure BDA0003991789550000051
Figure BDA0003991789550000052
其中,MSA(·)和MLP(·)分别表示多头注意力和多层感知器;LN(·)表示层归一化操作;
Figure BDA0003991789550000053
和/>
Figure BDA0003991789550000054
分别表示上一层和当前层的输出。边界感知Transformer只接受目标边界处的图像块而不是全图划分得到的图像块,能够更加关注学习边界块之间的依赖关系。
最后,这些图像块根据提取位置重新组合,得到跟原图尺寸相同的预测分割图。图像块之间的重叠区域会平等考虑每个图像块的贡献,因此将计算平均值来获得重叠区域的分割结果。这些重新组合成的分割图与特征提取网络输出的多层次特征图再进行融合和解码,获得最终的分割掩码。
本发明的优点包括:
首先,提出用于分割医学图像序列的模型,采用先定位再细化的方式来分割目标;
其次,设计跨帧注意力模块来建模帧间的相关性,并引入边界感知Transformer来学习帧内边界块之间的依赖关系;
最后,本发明在两个医学图像序列分割任务上进行实验。结果表明,在心脏分割和息肉分割两个不同任务的多个数据集上,本发明都展示出优越的性能。同时,本发明也具有良好的泛化能力,表现优于其它医学图像分割方法。
附图说明
图1是本发明中的模型框架图。
图2是本发明中的跨帧注意力模块图示。
图3是本发明中的边界感知Transformer图示。
图4是本系统和其它医学图像分割模型在心脏分割数据集上的结果对比。
图5是本系统和其它医学图像分割模型在息肉分割数据集上的结果对比。
具体实施方式
下面结合附图和实例对本发明作进一步说明。
如图1所示,本发明采用先定位再细化架构,采用跨帧注意力模块来挖掘连续帧之间的时序关系,建模帧间的相关性,然后使用边界感知Transformer学习帧内边界图像块的依赖关系。本发明的工作流程如下。
(一)所述先定位再细化架构。输入T帧连续图像,T在本实验中设置为3。首先,使用骨干网络Res2Net进行特征提取,输出每一帧四个不同尺度的特征图
Figure BDA0003991789550000061
其中Cl、Hl和Wl分别为第l层输出特征图的维度、高度和宽度。跨帧注意力模块使用第三层输出的特征图为每一帧生成键向量和值向量,然后依次将每一帧作为查询帧,其它帧作为提供键向量和值向量的参考帧。通过利用连续帧之间的时序信息,跨帧注意力模块实现连续帧之间的交互并建模帧间关系。定位目标物体后,边界感知Transformer沿粗糙分割图中的边界提取图像掩码块,然后将这些边界掩码块与相应的原始图像块进行拼接,输入Transformer进行细化。最后,图像掩码块被重新组合并输入至解码器来产生分割预测图。
根据定位和细化两个不同阶段,架构的损失函数包含两部分:
Figure BDA0003991789550000062
其中,
Figure BDA0003991789550000063
和/>
Figure BDA0003991789550000064
分别表示定位阶段和细化阶段的损失函数;λ是用于平衡两个阶段损失项的超参数,本实验中λ设置为1。两个阶段的损失函数都使用加权二值交叉熵损失和加权交并比损失的组合。对于定位阶段的损失,用M1表示跨帧注意力模块输出的分割掩码,Y表示图像的真值标签。通过计算M1和真值Y之间的差异,可获得定位阶段的损失/>
Figure BDA0003991789550000065
Figure BDA0003991789550000066
对于细化阶段的损失,用M2表示最终的预测分割掩码,通过计算M2和真值Y之间的差异,可获得细化阶段的损失
Figure BDA0003991789550000067
Figure BDA0003991789550000068
(二)所述跨帧注意力模块的计算流程如图2所示。对于输入的T帧连续图像,跨帧注意力模块使用两个并行的3×3卷积层来学习每帧的特征嵌入。每个卷积层附加到特征提取器的第三层,分别为每帧图像生成键向量
Figure BDA0003991789550000071
和值向量/>
Figure BDA0003991789550000072
Ck和Cv分别表示键向量和值向量的特征维度,实验中设置为128和512。
跨帧注意力模块通过计算查询帧和参考帧的键向量之间的相似性,突出显示目标对象的位置。查询帧的键向量Kq和参考帧的键向量Kr在每个位置上的相似度可表示为:
Sq,i=softmax(Kq,i⊙[Kr]j), (4)
其中,⊙表示矩阵乘法;[·]表示按通道拼接操作;i和j分别表示查询帧和参考帧上的位置索引。得到相似度后,可根据与值向量的加权和来计算查询帧与参考帧交互后的特征图:
Figure BDA0003991789550000073
其中,D为归一化因子,本实验中设置为256。交互完成后,本系统采用通道注意力和空间注意力进一步挖掘这些特征图包含的信息,得到
Figure BDA0003991789550000074
Figure BDA0003991789550000075
其中,Attc(·)表示通道注意力操作,定义为:
Attc(x)=σ(w1(Pavg(x))+w2(Pmax(x)))⊙x, (7)
其中,x是输入向量;Pavg(·)和Pmax(·)分别表示全局平均池化和全局最大池化;w1(·)和w2(·)共享参数,由一个1×1卷积层和一个ReLU激活层再加一个1×1卷积层组成。空间注意力操作Atts(·)定义为:
Figure BDA0003991789550000076
其中,Qavg(·)和Qmax(·)分别表示通道维度上的平均值和最大值;
Figure BDA0003991789550000077
表示一个填充为3的7×7的卷积层。
经通道注意力和空间注意力操作后,将
Figure BDA0003991789550000078
与特征提取网络第二层和第四层输出的特征图进行融合。/>
Figure BDA0003991789550000079
先与第二层的特征图进行融合:
Figure BDA00039917895500000710
其中,conv(·)表示卷积操作;
Figure BDA00039917895500000711
表示上采样操作。/>
Figure BDA00039917895500000712
再与第四层的特征图进行融合,得到定位阶段的预测分割掩码:
Figure BDA00039917895500000713
(三)所述边界感知Transformer的计算流程如图3所示。边界感知Transformer用于进一步提升边界处的分割精度。跨帧注意力模块已提供包含目标对象位置信息的分割图,这些分割图将通过一个共享的Transformer编码器进行细化。
给定一个由跨帧注意力模块生成的粗糙掩码,本系统使用一个卷积层来检测被分割对象的大致边界,然后沿着边界提取正方形图像掩码块,这些方块的中心落在边界像素上。在提取过程中,同时给这些方块赋予中心边界像素的置信度作为评分。这些方块仍然包含大量的重叠和冗余,因此将根据置信度评分由高到低的顺序,选择评分最高的K个方块进行后续处理,在本实验中,K设置为500。所选方块的数量可进行调整,以更好地平衡速度和精度。选择后的方块将进行裁剪处理,避免坐标超出图像长宽的最大值。同时,原始图像中相应位置的图像块也被提取出来,与K个掩码块进行拼接后一起输入一个Transformer编码器。这些拼接后的图像块首先经过线性映射层变成一个向量,给定这个向量作为输入,边界感知Transformer将应用n个Transformer层进行处理,本实验中n设置为4。每个Transformer层包括多头自注意力和多层感知器,用lt表示Transformer的每一层,第lt层的输出如下所示:
Figure BDA0003991789550000081
Figure BDA0003991789550000082
其中,MSA(·)和MLP(·)分别表示多头注意力和多层感知器;LN(·)表示层归一化操作;
Figure BDA0003991789550000083
和/>
Figure BDA0003991789550000084
分别表示上一层和当前层的输出。最后,这些图像块会根据提取位置重新组合,得到跟原图尺寸相同的预测分割图。图像块之间的重叠区域会平等考虑每个图像块的贡献,因此将计算平均值来获得重叠区域的分割结果。这些重新组合成的分割图与特征提取网络输出的多层次特征图再进行融合和解码,获得最终的分割掩码。
在训练阶段,系统进行100轮次的训练,batch size为4。梯度下降采用Adam优化器,学习率为0.0001。Transformer编码器的边界图像块尺寸为16×16,注意力头数量为4。输入帧的尺寸调整为352×352,同时使用随机数据增强,包括平移,旋转和翻转。在测试阶段,只将图像大小调整为352×352进行评估,没有任何后处理操作。
本系统在心脏分割和息肉分割两个任务上进行实验。心脏分割使用RVSC2012磁共振图像数据集,图像分辨率为216×256。RVSC2012包含48个病例,这些病例平均分成训练集、测试集1和测试集2。本系统在训练集上进行训练,在两个测试集上分别进行测试和评估。息肉分割使用3个结肠镜数据集,即CVC-300、CVC-612和ETIS,图像分辨率分别为574×500,384×288以及1225×966。实验中,设置CVC-300和CVC-612 60%的数据作为训练集,其余作为测试集,ETIS全部序列作为测试集。
在心脏分割数据集RVSC2012的测试集1和测试集2上,本系统分别达到83.0%、86.2%的Dice分数和4.187、4.026的豪斯多夫距离。在测试集2上,Dice分数超过之前最先进的工作1.7%,展示出优越的分割性能。在息肉分割的两个测试集CVC-612-T和CVC-612-V上,mDice分数都达到80%以上,超越之前最先进的息肉分割方法。在全部用于测试的ETIS数据集上,由于其在训练时不可见,各类方法在ETIS上的指标都较低。本系统通过挖掘帧间和帧内的相关性,在ETIS上的指标均优于其它方法。图4和图5展示本系统与其它方法的对比结果,第一列是输入的三幅连续图像,第二列是图像的标注,第三列是本系统的预测效果。本系统通过帧间交互和帧内细化,取得较好的分割结果。
综上所述,本发明提出一种新的医学图像序列分割系统。采用跨帧注意力模块和边界感知Transformer来建模帧间和帧内的相关性,在心脏分割磁共振图像数据集和息肉分割内窥镜图像数据集上进行分割。

Claims (3)

1.一种面向医学图像序列的语义分割系统,其特征在于,包括一个用于建模帧间关系的跨帧注意力模块和一个用于学习帧内依赖关系的边界感知Transformer;采用先定位再细化模式,即首先通过跨帧注意力模块,挖掘输入图像的连续帧之间的时序关系,建模帧间的相关性,并进行图像的粗糙分割,通过关注目标区域来定位;然后采用边界感知Transformer对目标物体进一步细化,通过学习沿边界提取的图像块之间的依赖关系,经过处理后,将这些图像块将重新组合,获得最终分割掩码;
所述通过跨帧注意力模块,挖掘输入图像的连续帧之间的时序关系,建模帧间的相关性,并进行图像的粗糙分割,通过关注目标区域来定位,具体包括:
对于输入的T帧连续图像,采用基于卷积神经网络的骨干网络为每一帧提取特征;所述骨干网络使用Res2Net的前四层作为特征提取器,每层都输出每帧图像的特征图,记为
Figure FDA0003991789540000011
其中,Cl、Hl和Wl分别为第l层输出特征图的维度、高度和宽度;所述跨帧注意力模块使用第三层输出的特征图为每一帧生成键向量和值向量,然后依次将每一帧作为查询帧,其它帧作为提供键向量和值向量的参考帧;跨帧注意力模块利用连续帧之间的时序信息,进行连续帧之间的交互并建模帧间关系,实现图像的粗糙分割,定位目标物体;
所述采用边界感知Transformer对目标物体进一步细化,通过学习沿边界提取的图像块之间的依赖关系,经过处理后,将这些图像块将重新组合,获得最终分割掩码,具体包括:
边界感知Transformer沿粗糙分割图像中的边界提取图像掩码块,然后将这些边界掩码块与相应的原始图像块进行拼接,输入Transformer进行细化;最后,图像掩码块被重新组合,并输入至解码器来产生分割预测图;
根据定位和细化两个不同阶段,损失函数包含两部分:
Figure FDA0003991789540000012
其中,
Figure FDA0003991789540000013
和/>
Figure FDA0003991789540000014
分别表示定位阶段和细化阶段的损失函数;λ是用于平衡两个阶段损失项的超参数;
对于定位阶段的损失,用M1表示跨帧注意力模块输出的分割掩码,Y表示图像的真值标签;通过计算M1和真值Y之间的差异,获得定位阶段的损失
Figure FDA0003991789540000015
Figure FDA0003991789540000016
计算最终的预测分割掩码M2和真值Y之间的差异,获得细化阶段的损失
Figure FDA0003991789540000018
Figure FDA0003991789540000017
2.根据权利要求1所述的面向医学图像序列的语义分割系统,其特征在于,所述跨帧注意力模块,对于输入的T帧连续图像,跨帧注意力模块使用两个独立的卷积层来学习每帧的特征嵌入;将每个卷积层附加到特征提取器的第三层,分别为每帧图像生成键向量
Figure FDA00039917895400000210
Figure FDA0003991789540000026
和值向量/>
Figure FDA0003991789540000027
Ck和Cv分别表示键向量和值向量的特征维度;对于第t帧,键向量和值向量可表示为:
Figure FDA0003991789540000021
Figure FDA0003991789540000022
/>
其中,ψ(·)和φ(·)表示两个并行的3×3卷积层;
将查询帧的键向量和值向量视为查询帧的特征嵌入,其它帧提供用于参考的键向量和值向量;跨帧注意力模块通过计算查询帧和参考帧的键向量之间的相似性,突出显示目标对象的位置;键向量用于编码鲁棒的高级视觉语义信息,值向量存储用于生成目标对象掩码预测的细节信息;查询帧的键向量Kq和参考帧的键向量Kr在每个位置上的相似度表示为:
Sq,i=softmax(Kq,i⊙[Kr]j), (6)
其中,⊙表示矩阵乘法;[·]表示按通道拼接操作;i和j分别表示查询帧和参考帧上的位置索引;得到相似度Sq后,根据与值向量的加权和来计算查询帧与参考帧交互后的特征图:
Figure FDA0003991789540000023
其中,D为归一化因子,Vq和Vr分别表示查询帧和参考帧的值向量;通过帧间注意力操作,跨帧注意力模块获得位置敏感的特征,帮助定位目标对象;参考帧的键向量和值向量在公式(6)和公式(7)中先进行通道上的拼接,为定位查询帧中的目标对象提供信息;
交互完成后,采用通道注意力操作Attc(·)和空间注意力操作Atts(·),进一步挖掘这些特征图包含的信息,记为
Figure FDA0003991789540000029
Figure FDA0003991789540000024
所述通道注意力操作Attc(·),定义为:
Attc(x)=σ(w1(Pavg(x))+w2(Pmax(x)))⊙x, (9)
其中,x是输入向量;Pavg(·)和Pmax(·)分别表示全局平均池化和全局最大池化;w1(·)和w2(·)共享参数,由一个1×1卷积层和一个ReLU激活层再加一个1×1卷积层组成;σ(·)是sigmoid函数;
所述空间注意力操作Atts(·),定义为:
Figure FDA0003991789540000025
其中,Qavg(·)和Qmax(·)分别表示通道维度上的平均值和最大值;
Figure FDA0003991789540000028
表示一个填充为3的7×7的卷积层;
Figure FDA0003991789540000031
与特征提取网络第二层和第四层输出的特征图进行融合,得到预测分割掩码;
Figure FDA0003991789540000032
先与第二层的特征图进行融合,得到/>
Figure FDA0003991789540000033
Figure FDA0003991789540000034
其中,conv(·)表示卷积操作;
Figure FDA00039917895400000312
表示上采样操作;
Figure FDA0003991789540000035
再与第四层的特征图进行融合,得到定位阶段的预测分割掩码/>
Figure FDA0003991789540000036
Figure FDA0003991789540000037
通过融合底层和高层特征,同时获得语义信息和目标对象的外观细节。
3.根据权利要求2所述的面向医学图像序列的语义分割系统,其特征在于,所述边界感知Transformer,用于进一步提升边界处的分割精度,具体包括:
给定一个由跨帧注意力模块生成的粗糙掩码,使用一个卷积层来检测被分割对象的大致边界,然后沿着边界提取正方形图像掩码块,这些方块的中心落在边界像素上;在提取过程中,同时给这些方块赋予中心边界像素的置信度作为评分;这些方块仍然包含大量的重叠和冗余,因此,根据置信度评分由高到低的顺序,选择评分最高的K个方块进行后续处理;
同时,提取原始图像中相应位置的图像块,与K个掩码块进行拼接后一起输入一个Transformer编码器;这些拼接后的图像块首先经过线性映射层变成一个向量,以这个向量作为边界感知Transformer的输入;边界感知Transformer包括n个Transformer层;每个Transformer层包括多头自注意力和多层感知器,用lt表示Transformer的每一层,第lt层的输出如下所示:
Figure FDA0003991789540000038
Figure FDA0003991789540000039
其中,MSA(·)和MLP(·)分别表示多头注意力和多层感知器;LN(·)表示层归一化操作;
Figure FDA00039917895400000310
和/>
Figure FDA00039917895400000311
分别表示上一层和当前层的输出;
最后,这些图像块根据提取位置重新组合,得到跟原图尺寸相同的预测分割图;图像块之间的重叠区域平等考虑每个图像块的贡献,因此计算平均值来获得重叠区域的分割结果;这些重新组合成的分割图与特征提取网络输出的多层次特征图再进行融合和解码,获得最终的分割掩码。
CN202211584167.8A 2022-12-09 2022-12-09 面向医学图像序列的语义分割系统 Pending CN115861616A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211584167.8A CN115861616A (zh) 2022-12-09 2022-12-09 面向医学图像序列的语义分割系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211584167.8A CN115861616A (zh) 2022-12-09 2022-12-09 面向医学图像序列的语义分割系统

Publications (1)

Publication Number Publication Date
CN115861616A true CN115861616A (zh) 2023-03-28

Family

ID=85671841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211584167.8A Pending CN115861616A (zh) 2022-12-09 2022-12-09 面向医学图像序列的语义分割系统

Country Status (1)

Country Link
CN (1) CN115861616A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630633A (zh) * 2023-07-26 2023-08-22 上海蜜度信息技术有限公司 语义分割自动标注方法、系统、存储介质及电子设备
CN116701681A (zh) * 2023-07-10 2023-09-05 天津大学 一种用于语义分割的多查询网络
CN116778481A (zh) * 2023-08-17 2023-09-19 武汉互创联合科技有限公司 一种基于关键点检测的卵裂球图像识别方法及系统
CN117453944A (zh) * 2023-12-25 2024-01-26 厦门大学 一种多层级显著区域分解的无监督实例检索方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701681A (zh) * 2023-07-10 2023-09-05 天津大学 一种用于语义分割的多查询网络
CN116701681B (zh) * 2023-07-10 2024-04-12 天津大学 一种用于语义分割的多查询网络
CN116630633A (zh) * 2023-07-26 2023-08-22 上海蜜度信息技术有限公司 语义分割自动标注方法、系统、存储介质及电子设备
CN116630633B (zh) * 2023-07-26 2023-11-07 上海蜜度信息技术有限公司 语义分割自动标注方法、系统、存储介质及电子设备
CN116778481A (zh) * 2023-08-17 2023-09-19 武汉互创联合科技有限公司 一种基于关键点检测的卵裂球图像识别方法及系统
CN116778481B (zh) * 2023-08-17 2023-10-31 武汉互创联合科技有限公司 一种基于关键点检测的卵裂球图像识别方法及系统
CN117453944A (zh) * 2023-12-25 2024-01-26 厦门大学 一种多层级显著区域分解的无监督实例检索方法及系统
CN117453944B (zh) * 2023-12-25 2024-04-09 厦门大学 一种多层级显著区域分解的无监督实例检索方法及系统

Similar Documents

Publication Publication Date Title
Seichter et al. Efficient rgb-d semantic segmentation for indoor scene analysis
CN115861616A (zh) 面向医学图像序列的语义分割系统
Zhang et al. Brain tumor segmentation of multi-modality MR images via triple intersecting U-Nets
CN110475505A (zh) 利用全卷积网络的自动分割
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN113205524B (zh) 基于U-Net的血管图像分割方法、装置和设备
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
Yan et al. Cine MRI analysis by deep learning of optical flow: Adding the temporal dimension
Wang et al. Context-aware spatio-recurrent curvilinear structure segmentation
CN112085717A (zh) 一种用于腹腔镜手术的视频预测方法及其系统
Ma et al. LCAUnet: A skin lesion segmentation network with enhanced edge and body fusion
Wu et al. Continuous Refinement-based Digital Pathology Image Assistance Scheme in Medical Decision-Making Systems
CN116823850A (zh) 基于U-Net和Transformer融合改进的心脏MRI分割方法及系统
CN116434343A (zh) 基于高低频双支路的视频动作识别方法
CN115965785A (zh) 图像分割方法、装置、设备、程序产品及介质
CN115760797A (zh) 一种基于混合注意力网络对胰腺图像进行分类的方法
CN115861490A (zh) 一种基于注意力机制的图像动画构建方法和系统
Zhang et al. ETUNet: Exploring efficient transformer enhanced UNet for 3D brain tumor segmentation
Yuan et al. Medseq: Semantic segmentation for medical image sequences
CN115552464A (zh) 通过预测有符号距离图进行形状感知器官分割
Quan et al. 3d reconstruction of medical images with transformer
Kas et al. Multi streams with dynamic balancing-based Conditional Generative Adversarial Network for paired image generation
Yang et al. HCA-former: Hybrid Convolution Attention Transformer for 3D Medical Image Segmentation
Zhao et al. VCMix-Net: A hybrid network for medical image segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination