CN116012374A - 一种三维pet-ct头颈部肿瘤分割系统及方法 - Google Patents
一种三维pet-ct头颈部肿瘤分割系统及方法 Download PDFInfo
- Publication number
- CN116012374A CN116012374A CN202310250049.1A CN202310250049A CN116012374A CN 116012374 A CN116012374 A CN 116012374A CN 202310250049 A CN202310250049 A CN 202310250049A CN 116012374 A CN116012374 A CN 116012374A
- Authority
- CN
- China
- Prior art keywords
- image
- pet
- module
- features
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000011218 segmentation Effects 0.000 title claims abstract description 68
- 208000014829 head and neck neoplasm Diseases 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000003709 image segmentation Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 239000000047 product Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 239000012467 final product Substances 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims 1
- 238000002591 computed tomography Methods 0.000 description 52
- 230000000052 comparative effect Effects 0.000 description 30
- 206010028980 Neoplasm Diseases 0.000 description 21
- 238000012549 training Methods 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 9
- 230000000295 complement effect Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000012733 comparative method Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000001627 detrimental effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 201000010536 head and neck cancer Diseases 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 206010019695 Hepatic neoplasm Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000013485 heteroscedasticity test Methods 0.000 description 1
- 210000003026 hypopharynx Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000002610 neuroimaging Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000003300 oropharynx Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 210000003079 salivary gland Anatomy 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种三维PET‑CT头颈部肿瘤分割系统及方法,该方法包括构建图像分割模型:S1、构建包括具有第一编码器和第二编码器的双编路径‑解码器的网络架构;S2、将PET图像和CT图像经两编码路径独立编码后分别获得PET图像特征和CT图像特征,再将PET图像特征和CT图像特征分别输入至基于多头自注意力计算模块的Transformer模块中经计算分别产生PET全局特征和CT全局特征;S3、将PET全局特征和CT全局特征通过基于潜空间的多头自注意力计算模块处理后获得以PET图像特征融合至CT图像特征的融合PET‑CT图像特征,将融合PET‑CT图像特征反馈融合至CT图像编码分支。本发明提高了分割系统的效率和分割准确度。
Description
技术领域
本发明涉及医学影像处理领域,具体涉及一种三维PET-CT头颈部肿瘤分割系统及方法。
背景技术
头颈部癌是一组包括口腔、口咽、下咽、喉、唾液腺等部位的癌症。它是世界上最常见的癌症类型,占全世界所有癌症的5%。头颈部肿瘤分割在协助头颈部癌症的诊断和治疗计划中起着重要作用。准确的头颈部肿瘤分割可以有效地帮助医生对肿瘤进行定位,确定其大小,直观地看到肿瘤与周围组织的粘连关系,并制定相应的治疗方案。然而,目前可用于临床实践的分割结果通常是由经验丰富的医生手工制作的。但是,手动绘制不仅费时费力,而且还受到医生的主观影响。因此,一种自动和准确的三维头颈部肿瘤的分割方法将具有很大的价值。
在医学影像技术中,计算机断层扫描(CT)图像被广泛用于计算机辅助诊断和治疗计划,因为CT图像具有较高的分辨率和较低的信噪比,可以有效地提供人体组织和器官结构信息。然而,由于CT只能反映结构信息,而肿瘤与邻近组织呈现等密度影关系,仅凭CT图像很难对头颈部肿瘤进行分割。正电子发射计算机断层扫描(PET)是一种高度敏感的分子水平功能成像技术,它通过向人体注射某种代谢物(通常是葡萄糖),观察该物质在代谢中的累积情况,以达到诊断的目的。癌细胞通常具有高度的代谢,所以PET可以有效观察到肿瘤,以此来协助诊断和治疗。
随着计算机技术的快速发展,基于深度学习的多模态医学图像分割方法已被证明更为有效。越来越多的研究人员开始关注卷积神经网络(CNN)在PET-CT图像分割中的应用。Zhao等人提出了一个基于三维全卷积网络(FCNs)的多分支PET-CT分割模型。Kumar等人将空间转换应用于特征融合过程,并量化了不同模态特征图的重要性。然而,由于卷积层只能关注局部信息,不能捕捉长距离的空间依赖,基于CNN和FCN的方法更关注图像的局部特征,而忽略了图像的全局表示。因此,在头颈部肿瘤分割任务中,由于缺乏全局信息和长距离特征表示,卷积神经网络往往不能达到预期的分割结果。
Transformer是在自然语言处理(NLP)任务中设计的,用于对序列到序列任务中的长距离依赖关系进行建模。这种架构完全基于自我注意力机制,使模型能够在建模全局上下文信息方面表现出强大的能力。有许多工作将Transformer引入医学图像分割任务中,并取得了令人满意的结果。例如,Chen等人将Transformer和CNNs结合起来,设计了用于医学图像分割的TransUNet,利用Transformer将CNNs特征图编码为上下文序列,提取全局和远距离的上下文信息。Hatamizadeh等人提出的UNETR完全使用Transformer作为编码器来学习输入的三维图像的顺序表示,并有效地捕捉全局多尺度信息,以实现三维医学图像分割。
目前基于Transformer的多模态医学分割还存在一些挑战。
发明内容
为解决上述问题,本发明目的在于提供一种三维PET-CT头颈部肿瘤分割方法,该三维多模态头颈部肿瘤图像分割方法提出了一种边学习边融合的特征交互策略,使得模型既学习CT图像的解剖特征,又学习PET图像的功能特征,同时也考虑了不同模态的各自特征,实现了对两种模态互补特征的高效利用,完成了精准的肿瘤图像分割。还提出了一种三维PET-CT头颈部肿瘤分割系统。
本发明通过下述技术方案实现:
一种三维PET-CT头颈部肿瘤分割系统,包括编码部、融合部和解码部;所述编码部包括具有第一编码器的第一编码路径模块、具有第二编码器的第二编码路径模块,第一编码路径模块用于将PET图像编码后提取PET初始图像特征,再通过基于多头注意力计算模块的Transformer模块学习得到PET全局特征;
第二编码路径模块用于将CT图像编码后提取CT初始图像特征,再通过基于多头注意力计算模块的Transformer模块学习得到CT全局特征;
融合部包括潜空间-多头注意力模块,PET全局特征输入潜空间,经前馈神经网络学习,产生两个潜变量:键向量key和值向量value,同时,将CT全局特征中的查询特征query输入到潜空间,潜空间再将
key、
value、
query输入到多头自注意力计算模块中计算得到融合PET-CT图像特征,将融合PET-CT图像特征 反馈融合至第二编码路径模块中编码分支;
解码部包括解码模块,用于接收并解码融合PET-CT图像特征 。
潜空间是指:两个编码分支之间(CT编码分支与PET编码分支)用于特征交互学习的潜在特征空间。它的作用是学习两个模态之间的潜在互补特征。
反馈融合是指:将潜空间-多头注意力模块所学习的融合PET-CT图像特征反馈到CT编码特征(具体反馈策略是将相同尺度的特征反馈到同一层次,因为随着编码不断下采样,会产生不同尺度的特征)这里的反馈是在特征处于相同尺度的前提下进行的。
前馈神经网络学习的具体过程是:将PET编码分支所学习的全局特征提取出两个潜在特征变量。
解码模块为Transformer特征解码模块,解码部还包括上采样模块、输出预测图像的扩展模块,上采样模块接收融合PET-CT图像特征并将其输送至Transformer特征解码模块进行解码,再重复两次上采样和解码过程后,将解码后的图像输送至输出预测图像的扩展模块进行图像扩展。
第一编码路径模块和第二编码路径模块均包含下采样模块,PET全局特征和CT全局特征均可通过下采样模块进行多次下采样过程处理。
下采样模块包括3D可变形卷积和3D下采样,用于将输入特征进行可变形卷积后缩小处理。
还包括残差连接模块,残差连接模块用于将PET图像的初始特征图经过潜空间-多头注意力模块计算后连接到CT图像的全局特征上。残差连接是学习两个模态潜在特征后反馈到CT编码分支,这是基于对头颈部肿瘤数据集的PET与CT图像的特点而设计的,目的是学习PET的功能特征,并结合CT图像的结构特征,以促进整体分割效果。
第一编码器和第二编码器均为三维图像嵌入编码块。
一种三维多模态头颈部肿瘤的图像分割方法,构建图像分割模型:S1构建包括具有第一编码器和第二编码器的双编路径-解码器的网络架构;
S2、将PET图像和CT图像经两编码路径独立编码后分别获得PET图像特征和CT图像特征,再将PET图像特征和CT图像特征分别输入至基于多头自注意力计算模块的Transformer模块中经计算分别产生PET全局特征和CT全局特征;
S3将PET全局特征和CT全局特征通过基于潜空间的多头自注意力计算模块处理后获得将以PET图像特征融合至CT图像特征的融合PET-CT图像特征 ,将融合PET-CT图像特征反馈融合至CT图像编码分支,获得融合PET-CT图像特征 的方法具体为:将PET全局特征输入到潜空间模块,经前馈网络学习产生两个潜变量:键向量key和值向量value,同时,将CT全局特征中的查询特征query输入到潜空间模块,将
key、
value、
query输入到多头自注意力计算模块中计算得到;S4 解码即得。
多头自注意力计算模块是基于L2范数点积和点积结果缩放的模式,多头自注意力计算模块的计算方法包括:
假设Transformer模块在第
l层的输入是
X t l ,
X t l 为CT初始特征值或者PET初始特征值,q、k和v向量按式(2)计算:
(2)
q、k和v向量分别为查询特征query,键向量key和值向量value,、和分别为q、k和v向量对应的权重矩阵,将多头自注意力的计算分为水平方向和垂直方向两个部分,通过两个并行窗口的输出来对两部分计算结果进行交互,水平方向和垂直方向两部分的计算如公式(3)、(4):
(3)
(4)
其中和分别代表垂直和水平方向上的自注意,和分别是垂直方向和水平方向上的位置编码,qv、kv和vv分别是垂直方向上的查询特征query,键向量key和值向量value,qh、kh和vh分别是水平方向上的查询特征query,键向量key和值向量value,
softmax为归一化函数,
scaled为对注意力进行可学习缩放,
Attention为注意力计算,即:计算q和k向量的点积基于L2范数,如式(1)所示,
(1);
其中,为输入向量维度,防止进入
softmax函数的梯度消失区域,对水平方向和垂直方向两部分计算结果进行交互如公式
;其中,
concate是拼接函数,即对两个注意力进行通道拼接;最后对
X t l 进行非线性映射
MLP即得输出Y,它的计算如式(5)所示,其中,
mlp代表非线性映射,
LayerNorm为层归一化函数,
drop代表随机对前向传播的激活值置0,防止过拟合:
(5)。
本发明涉及的多头注意力计算模块的计算方法分为水平方向和垂直方向两个部分,通过两个并行窗口的输出来对两部分计算结果进行交互,有助于在不损失分割精度的情况下最小化计算复杂度,如此简化了整个分割过程的计算复杂度,并避免了分割精度的损失。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明利用基于多头注意力计算模块的Transformer模块首先得到两种模态的注意力特征,再将两种模态的注意力特征(全局特征)经过潜空间-多头注意力机制将两种模态的潜空间特征进行互补,且将PET模态潜空间特征输入模型指导CT注意力特征的学习,强化了CT图像特征学习,并实现了两种模态边学习各自模态特征边学习融合特征的创新过程,尽可能地减少了特征损失,提高了分割的准确率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为:提出的L2范数缩放多头注意力计算模块的Transformer模块(LNT)分割网络的架构图。(a)是网络的编码部分,分为两个独立的编码器,上方用于PET图像编码,下方用于CT图像编码。(b)是基于潜空间的多尺度特征交互模块。(c)是分割工作流程的解码部分。(d)是图示的解释部分。
图2为嵌入的结构图。
图3 为基于L2范数缩放多头注意力计算模块的Transformer模块结构。
图4为使用多头机制将自注意力的计算划分为正交方向的两个窗口。
图5为三维可变形下采样的结构。
图6:图像处理前后对比。a和b分别代表处理前后的图像。
图7:来自HECKTOR数据集的两个病例(病例1和2)的对比实验的可视化。每个病例的第一行是CT图像,第二行是对应的PET图像。从(a)到(g)分别是对比例1,对比例2、对比例3、对比例4、对比例5、本发明提出的模型和金标准在同一切片上的可视化结果。
图8:不同方法对边界切片的详细分割结果。第一行是CT图像,第二行是对应的PET图像。(a)到(d)代表四个不同的病例。图像里标出的多条曲线中,位置最里面的曲线是本发明的分割线。
图9:四个指标的小提琴图。从(a)到(f)表示对比例1,对比例2、对比例3、对比例4、对比例5和本发明。
图 10:在训练阶段使用我们提出的方法进行的五次比较实验的dice分数、训练损失和验证损失与epoch的关系。从(a)到(f)是对比例1,对比例2、对比例3、对比例4、对比例5和本发明的方法的训练曲线。
实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1(a)所示,编码部分包括三维图像嵌入编码块(Embedding)、用于不同模态的基于L2范数缩放多头注意力计算模块的Transformer模块(LNT)、3D可变形下采样模块(DDS)和跨模态残差连接(CMR)。
(1)三维图像嵌入编码块(Embedding):在我们的分割工作流程中,嵌入层作为网络编码模块的第一部分,它的主要作用是将输入图像分成块(patch)。为了有效的分割肿瘤,我们需要在提出的方法中嵌入三维图像数据。如图2所示,输入是3D图像(H,W和S是三维输入大小)。
为了更好地对输入进行嵌入编码,我们在这一过程中采用了连续的3D卷积,这使得模型能对图像进行更详细的像素级编码,更有利于精确的分割任务。此外,我们将3D图像转换为高维特征张量,其中表示总共嵌入的图像块的数量,
C代表序列长度。此外,在卷积之后,还应用非线性映射GELU和归一化LayerNorm来增加模型的非线性表征能力。
(2)基于L2范数缩放的多头自注意力计算模块的Transformer模块(LNT):多头自注意力机制(MSA)是Transformer的核心,如图3(a)所示,它主要计算
q和
k向量的点积。在医学图像的研究中,图像的灰度因采集方法和设备不同而具有差异。当CT图像值较大而PET图像值较小时(如表1所示),使用点积计算相似度会导致某些像素值异常大,不利于模型的收敛。为了缓解这个问题,我们基于L2范数设计了一种新的多头自我注意机制,如图3(b)所示。
在图3(b)中,我们提出的多头机制将自注意力机制将输入X分别通过三个权重矩阵、和映射为三个向量q、k和v,并通过与v向量相乘,然后进行了可学习的缩放,最后得到输出Y。这一过程进一步约束了异常结果的产生,从而获得更稳定的结果。q和k向量基于L2范数的点积,如式(1)所示:
(1)
在视觉Transformer中,往往存在巨大的计算问题,因为在计算MSA模块时,计算复杂度会与输入序列长度的平方成正比。在现有的工作中,在局部窗口上计算自注意力主要用于解决这个问题,它将全局自注意力的计算分布到局部的小窗口上,这种做法带来的问题是Transformer降低了对远距离特征的建模能力,转而只关注局部,这无疑会造成性能损失。所以,在LNT中,我们通过多头机制将自注意力的计算分成两个平行的部分,如图6所示。在这个过程中,自注意力的计算分为水平方向和垂直方向两个部分,而通过两个并行窗口的输出来对两部分计算结果进行交互,这样就有助于在不损失分割精度的情况下最小化计算复杂度。在LNT中,我们通过多头机制将自注意力的计算分成两个平行的部分,如图4所示。在这个过程中,自注意力的计算分为水平方向和垂直方向两个部分,而通过两个并行窗口的输出来对两部分计算结果进行交互,这样就有助于在不损失分割精度的情况下最小化计算复杂度。
假设Transformer模块在第
l层的输入是
X t l ,
X t l 为CT初始特征值或者PET初始特征值, q、k和v向量按式(2)计算:
(2)
q、k和v向量分别为查询特征query,键向量key和值向量value,、和分别为q、k和v向量对应的权重矩阵,将多头自注意力的计算分为水平方向和垂直方向两个部分,通过两个并行窗口的输出来对两部分计算结果进行交互,水平方向和垂直方向两部分的计算如公式(3)、(4):
(3)
(4)
其中和分别代表垂直和水平方向上的自注意,和分别是垂直方向和水平方向上的位置编码,qv、kv和vv分别是垂直方向上的查询特征query,键向量key和值向量value,qh、kh和vh分别是水平方向上的查询特征query,键向量key和值向量value,
softmax为归一化函数,
scaled为对注意力进行可学习缩放,
Attention为注意力计算,即:计算q和k向量的点积基于L2范数,如式(1)所示,
(1);
其中,为输入向量维度,防止进入
softmax函数的梯度消失区域,对水平方向和垂直方向两部分计算结果进行交互如公式
;其中,
concate是拼接函数,即对两个注意力进行通道拼接;最后对
X t l 进行非线性映射
MLP即得输出Y,它的计算如式(5)所示,其中,
mlp代表非线性映射,
LayerNorm为层归一化函数,
drop代表随机对前向传播的激活值置0,防止过拟合:
(5)。
(3)三维可变形下采样模块(DDS):Transformer的优势在于它专注于全局特征关系的表征。然而,通过综合观察,保留局部关系的感知对于肿瘤分割任务仍然具有重要意义。我们设计了一个基于3D可变形卷积的下采样模块,它保留了模型对局部特征的感知,允许我们的模型全面识别全局和局部变化,从而更好地表达图像细节特征。
众所周知,3D卷积的感受野是固定的,尽管通过池化操作可以间接增加感受野,但这也失去了一些重要的特征,不利于精确的分割模型。在提出的DDS模块中,可变形卷积核的形状不是固定的几何形状,而是可以根据特征图自动改变,从而即使随着模型深度的加深,在逐渐缩小的特征图尺度下也能有效地感知特征。
如图5所示,我们提出的DDS模块包括3D可变形卷积和3D下采样。LNT模块在编码部分提取不同阶段的特征图,然后由DDS缩小。在大小为的输入特征中,浅色立方体表示普通卷积的采样网格,深色立方体表示可变形卷积。偏移量向量由3×3×3卷积生成的所有偏移量组成。通过这样的方式,也可以降低模型的计算复杂度,并将重要特征的损失降到最低。
(4)跨模态残差连接(CMR):为了更好地执行来自不同模态的特征的交互,我们在编码阶段设计了一个CMR模块。如图1(a)所示,我们将PET图像的初始特征图经过潜空间计算后连接到CT图像的特征上(不同的连接方式取决于希望更多关注的模态),这使得模型可以学习特征之间的互补关系,从而在编码阶段就能关注到模态的特征交互,而不仅仅依赖于特征融合模块。
潜空间模块:通常,多模态医学图像分割模型会在特征编码完成后,对学习到的多模态特征进行融合,然后将融合后的特征进行解码以输出分割结果。但这种方式存在着特征损失的问题,即不同模态特征在编码阶段的不断下采样过程中产生了特征损失,这会降低模型的分割能力。同时,在头颈部肿瘤的分割中,由于CT图像的等密度影特点,编码后融合会损失大量的CT图像特征,造成模型对CT图像学习不充分,而过多依赖于PET的模糊区域,这是不利于精准的肿瘤分割任务的。为了解决这一问题,我们提出了一个潜空间来实现特征交互,它是一种边学习边融合的特征交互策略,同时也考虑了不同模态的各自特征,以实现高效利用互补特征,从而完成精准的肿瘤分割。
如图1(b)所示,我们构造的潜空间接收两个模态的输入,上方输入虚线代表输入的是PET图像特征,下方输入虚线代表输入CT图像特征。首先,PET图像经过Transformer的学习后会产生全局特征,这个全局特征会输入到潜空间中。然后,在潜空间中,经过前馈网络的学习,会产生两个潜变量:key(键向量)和value(值向量)。同时,CT图像经过Transformer的学习后也会产生全局特征,但我们将其中的原始query(查询)特征输入到潜空间中,然后将key、value、query输入到多头自注意力计算模块中。最后,将潜空间产生的特征反馈融合到CT图像的编码分支,这样做是由于PET图像中的肿瘤与周围组织有较明显区别,将这一特征输入到CT图像中去指导模型对CT图像的学习,使得模型既学习CT图像的解剖特征,又学习PET图像的功能特征,从而实现对着两种模态互补特征的高效利用。
潜空间接收的是编码阶段产生的多尺度特征,即使得模型边学习各自模态特征,又学习融合特征,尽可能地减少了特征损失,从而提高分割的准确率。
解码分支:为了简化网络的整体架构,解码分支的设计类似于编码分支,如图1(c)所示。随着解码分支的逐渐上采样,低尺度特征逐渐被还原,同时通过跳跃连接与上采样特征融合,使得模型能更加充分感知高级和低级特征。最终扩展模块的输出将作为与输入具有相同尺度的分割结果。
此外,我们的模型输出不同尺度的特征图用于深度监督。具体来说,在解码阶段,除了最终输出之外,还额外获得了两个不同尺度(或超过两个,可根据实际实验过程进行调整)的特征图,如图1(c)所示。对于所有输出,我们计算了交叉熵损失()和软骰子损失(),并将这两个损失的总和用作我们分割方法损失函数,如式(6)所示。值得注意的是,我们采用软骰子损失函数的对数形式,这是因为取对数并没有改变数据的性质和相关性,而是压缩了变量的尺度,使数据更加稳定,同时削弱了模型的异方差性。综上所述,在本文中,最终的训练损失函数是三个尺度上所有损失的总和,如式(7)所示。
(6)
(7)
其中
s、
h和
w是体素坐标。在式(6)中,和是交叉熵损失和对数软骰子损失的权重,它们是超参数(在我们的实验中它们都是1.0)。因为的值在0到1之间,所以前面加了一个负号,对数后面的值是负数,所以和之间有一个负号。在式(7)中,
K代表不同的尺度。是的权重,它是超参数(在我们的实验中,为0.5,为0.25,为0.125)。
实验和结果:为了比较我们模型与现有模型的优缺点,我们在HECKTOR数据集上进行了实验。
1.1数据集:我们使用的完整数据集是在Aicrowd上发布的MICCAI 2021中的HECKTOR Challenge。该数据集包括325名患者的18F-FDG PET和CT扫描(其中包含注释的有224例)。头颈部肿瘤的手动分割(即金标准)是从临床专家那里获得,并且满足神经影像信息学技术倡议(NIFTI)格式。原始图像信息如表一所示。
表1.原始图像信息.
1.2数据预处理:为了避免分割网络训练和测试的影响,我们对所有数据进行了配准、裁剪和增强处理。
(1)配准:在多模态医学图像分割过程中,虽然没有规定不同模态图像的信息要一致,但大多数研究中都对不同模态进行了一致的处理。如表1所示,PET图像形状为91×128×128,不同于CT和GT(金标准)的91×512×512。因此,考虑到CT和GT的一致性,我们将PET图像调整为91×512×512。在实验过程中,我们将原始数据的仿射变换和可变形变换结合起来,使用互信息作为优化度量和弹性正则化。
表2. 图像裁剪信息.
((2)裁剪:为了避免网络输入不一致数据对分割性能的影响,所有图像都被裁剪成与官方边界框数据相同的大小。裁剪后的数据间距、形状和强度范围如表2所示。可以看出,轴向、冠状和矢状间距被重新采样到1mm。三次样条插值用于PET和CT图像的重采样,最近邻插值用于GT。裁剪前后的对比如图6所示。
(3)增强:为了更好地泛化模型,我们对所有图像进行了增强操作。我们采用的是旋转、缩放、伽马增强、镜像、高斯噪声和模糊、亮度和对比度调整以及低分辨率模拟等操作。
1.3实现细节:我们进行的所有实验均基于Python 3.6、PyTorch 1.8.1和Ubuntu16.04,使用单个24GB的NVIDIA 3090 GPU。
(1)学习率和优化器:初始学习率
init_lr设置为0.01,在训练过程中逐渐衰减,衰减策略如式(8)所示。优化器使用SGD,动量权重衰减设置为0.99和3e-5。训练
epoch数为600,每个
epoch的迭代次数为250。
(8)
(2)网络设置:我们将
batch_size设置为2,
embedding_dim为96,
heads分别设置为6、12、24和12。编码部分的LNT块数分别设置为1、4、7、2,而解码部分均为2。编码阶段的下采样率为2(三个维度相同),而解码阶段的上采样设置可以很容易地从下采样中推断出来。
1.4实验:在本节中,为了验证我们方法的有效性,我们分别将我们的方法与一些基于CNN的方法和基于Transformer的方法进行了比较。其中,
对比例1 “Modality-Aware Mutual Learning for Multi-modal Medical ImageSegmentation” Zhang等人使用一种新颖的相互学习(ML)策略进行多模式肝肿瘤分割。它以可学习的方式自适应地聚合来自不同模态的特征,并通过模态感知(MA)模块相互指导提取不同模态的高级表示之间的特征和共性。
对比例2 “Tumor co-segmentation in PET/CT using multi-modality fullyconvolutional neural network”,Zhao等人使用两个V-net网络分别提取PET和CT的图像特征,然后将提取的不同模态的特征相加,通过4层卷积得到肺癌的分割结果。
对比例3 “Swin-Unet: Unet-like Pure Transformer for Medical ImageSegmentation”
对比例4 “UNETR: Transformers for 3D Medical Image Segmentation”
对比例5 nnFormer: Interleaved Transformer for VolumetricSegmentation”
此外,对于早期的基于Transformer的单模态方法,我们通过构建两个编码器在PET-CT数据集上完成了多模态实验。为了公平比较,我们将相同的数据预处理步骤以及相同的数据分区应用于所有方法。其中,我们随机分组了224个带注释的案例(70%作为训练集,10%作为验证集,20%作为测试集)。同时,我们使用医学图像分割任务中常用的评估指标对分割结果进行定量评估,包括:骰子相似系数(DSC)、杰卡德相似系数(Jaccard)、相对体积差
(RVD)和95%豪斯多夫距离(HD95)。
表3.实验结果
表3显示了我们提出的方法和对比方法的定量比较结果。从表中呈现的实验结果可以看出,与对比方法相比,我们的方法在DSC、Jaccard和RVD上取得了最好的结果。其中,对比例1和对比例2提出的多模态分割方法平均DSC得分分别为0.7714和0.7996,比我们的方法低约3个和5个百分点。具有两个编码器的对比例4、具有两个编码器的对比例5和具有两个编码器的对比例3可以分别获得0.8062、0.8226和0.7625的平均DSC分数。它们也比我们提出的方法小。我们的方法(13.15)在HD95评估指标上也明显优于其他方法,仅次于nnFormer(11.12)。
为了直观地观察结果,图7给出了在HECKTOR数据集上我们的方法和对比方法的两个病例的可视化结果。其中,病例1是一种难以分割的病例,因为在PET图像中可以看到,在图像中上方存在一个水平对称的亮区,这通常表明在该区域存在肿瘤。但这个水平对称区域很容易误导模型将左侧部分也识别为肿瘤(观察金标准(g)可知道)。但是,结合CT图像信息我们就可以纠正这种识别错误。从图7中的病例1也可以看出,有三种方法存在错误分割。同时,虽然MAML方法(病例1,图7(a))没有错误分割,但它表现出明显的过度分割。在这一病例中,只有对比例5和我们提出的方法更接近金标准。
对于图7中的病例2,它是一个相对容易分割的目标,因为它具有较大的体积和相对规则的形状。如叠加分割结果所示,除我们的方法外,所有对比方法都或多或少存在过度分割,甚至错误分割。这些结果表明,我们所提出的分割工作流程可以生成更正确的肿瘤区域。
我们还用区域轮廓标记了分割结果,如图8所示。不同颜色的线代表不同测试方法的结果。图像里标出的多条曲线中,位置最里面的曲线是本发明的分割线。通常,边界切片上肿瘤区域表现得更模糊。可以看出,对于边界切片,分割结果并不是特别理想。基本上,所有方法都存在过度分割,甚至对比例2和对比例4方法在两种情况下都有明显的错误分割。但与其他方法相比,我们的方法可以使分割结果更接近真实情况。这进一步证明了我们提出的分割方法的优越性。
对于医学图像分割,分割方法在处理不同情况下的稳定性是一个重要的问题。小提琴图是箱线图和核密度图的混合体,它显示了数据中的峰值。在本文中,它用于可视化分割结果的分布。图9显示了四个指标在不同方法的测试数据集上的小提琴图。在小提琴图中,图表中间的黑色粗条代表四分位距,从它延伸出来的黑色细线代表数据范围,最大值和最小值在两端,白点为中位数,线外的点代表异常数据,它们是较差的分割结果。
从图中DSC、Jaccard、RVD和HD95四个指标的小提琴图可以看出,我们的方法在前三个指标上均领先,并且我们的方法在所有四个指标下都表现出更集中的数据分布。虽然我们的方法在度量HD95下的平均得分不如nnFormer,但我们的数据分布更集中,即我们的方法的稳定性在所有测试方法中更高。
最后,我们在图10中展示了我们的方法和比较方法的训练曲线。从这些图中,我们可以看到,对于基于CNN的方法(图10(a)和(b)),可以更快地收敛,但是整体分割效果相比基于Transformer的方法来说不是很好。同时,基于CNN的方法的验证损失明显大于训练损失(发生过拟合)。这是因为卷积操作缺乏对长距离依赖的建模能力,在学习多模态图像特征时容易忽略跨模态互补信息或学习过多的冗余特征。对于基于Transformer的方法(从图10(c)到(e)),它表现出更好的分割性能,但训练曲线波动很大,稳定性不如基于CNN的方法。这是因为现有的Transformer架构不能很好地处理多模态图像,尤其是多模态特征的融合。使用现有的MSA对多模态医学图像进行特征提取时,某种模态的某些像素支配了学习到的特征图,降低了MSA对全局像素的关注,导致训练不稳定。
值得注意的是,图10(f)是我们提出的网络的训练曲线。可以看出,我们的方法比基于CNNs的方法具有更好的分割性能,并且我们的方法也比基于Transformer的方法具有更强的稳定性。这表明我们提出的方法可以更好地学习多种模态之间的互补信息并取得令人满意的结果。同时,我们改进的基于L2范数的缩放Transformer模块可以使训练过程更加稳定,更好地应用于多模态图像的特征提取过程。
本发明中,未详细描述的均是现有技术。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种三维PET-CT头颈部肿瘤分割系统,其特征在于,包括编码部、融合部和解码部;
所述编码部包括具有第一编码器的第一编码路径模块、具有第二编码器的第二编码路径模块,第一编码路径模块通过第一编码器将PET图像编码后提取PET初始图像特征,再通过基于多头注意力计算模块的Transformer模块学习得到PET全局特征;
第二编码路径模块通过第二编码器将CT图像编码后提取CT初始图像特征,再通过基于多头注意力计算模块的Transformer模块学习得到CT全局特征;
融合部包括潜空间-多头注意力模块,PET全局特征输入潜空间,经前馈神经网络学习,产生两个潜变量:键向量key和值向量value,同时,将CT全局特征中的查询特征query输入到潜空间,潜空间再将key、value、query输入到多头自注意力计算模块中计算得到融合PET-CT图像特征,将融合PET-CT图像特征 反馈融合至第二编码路径模块中编码分支;
解码部包括解码模块,用于接收并解码融合PET-CT图像特征。
2.根据权利要求1所述的分割系统,其特征在于,解码模块为Transformer特征解码模块,解码部还包括上采样模块、输出预测图像的扩展模块,上采样模块接收融合PET-CT图像特征 并将其输送至Transformer特征解码模块进行解码,再重复两次上采样和解码过程后,将解码后的图像输送至输出预测图像的扩展模块进行图像扩展。
3.根据权利要求1所述的分割系统,其特征在于,所述多头自注意力计算模块是基
于L2范数点积和点积结果缩放的模式,其计算方法包括:
假设Transformer模块在第l层的输入是X t l ,X t l 为CT初始特征值或者PET初始特征值,q、k和v向量按式(2)计算:
(2)
q、k和v向量分别为查询特征query,键向量key和值向量value,、和分别为q、k和v向量对应的权重矩阵,将多头自注意力的计算分为水平方向和垂直方向两个部分,通过两个并行窗口的输出来对两部分计算结果进行交互,水平方向和垂直方向两部分的计算如公式(3)、(4):
(3)
(4)
其中和分别代表垂直和水平方向上的自注意,和分别是垂直方向和水平方向上的位置编码,qv、kv和vv分别是垂直方向上的查询特征query,键向量key和值向量value,qh、kh和vh分别是水平方向上的查询特征query,键向量key和值向量value,softmax为归一化函数,scaled为对注意力进行可学习缩放,Attention为注意力计算,即:计算q和k向量的点积基于L2范数,如式(1)所示,
(1);
其中,为输入向量维度,防止进入softmax函数的梯度消失区域,对水平方向和垂直方向两部分计算结果进行交互如公式
;其中,concate是拼接函数,即对两个注意力进行通道拼接;最后对X t l 进行非线性映射MLP即得输出Y,它的计算如式(5)所示,其中,mlp代表非线性映射,LayerNorm为层归一化函数,drop代表随机对前向传播的激活值置0,防止过拟合:
(5)。
4.根据权利要求1述的分割系统,其特征在于,第一编码路径模块和第二编码路径模块均包含下采样模块,PET全局特征和CT全局特征均可通过下采样模块进行多次下采样过程处理。
5.根据权利要求1述的分割系统,其特征在于,下采样模块包括3D可变形卷积和3D下采样,用于将输入特征进行可变形卷积后缩小处理。
6.根据权利要求1所述的分割系统,其特征在于,还包括残差连接模块,残差连接模块用于将PET图像的初始特征图经过潜空间-多头注意力模块计算后连接到CT图像的全局特征上。
7.根据权利要求1所述的分割系统,其特征在于,第一编码器和第二编码器均为三维图像嵌入编码块。
8.基于权利要求1-7任一项所述的三维PET-CT头颈部肿瘤分割系统的三维PET-CT头颈部肿瘤分割方法,其特征在于,构建图像分割模型:S1、构建包括具有第一编码器和第二编码器的双编路径-解码器的网络架构;
S2、将PET图像和CT图像经两编码路径独立编码后分别获得PET图像特征和CT图像特征,再将PET图像特征和CT图像特征分别输入至基于多头自注意力计算模块的Transformer模块中经计算分别产生PET全局特征和CT全局特征;
S3、将PET全局特征和CT全局特征通过基于潜空间-多头自注意力计算模块处理后获得以PET图像特征融合至CT图像特征的融合PET-CT图像特征 ,将融合PET-CT图像特征 反馈融合至CT图像编码分支,获得融合PET-CT图像特征 的方法具体为:将PET全局特征输入到潜空间模块,经前馈神经网络学习产生两个潜变量:键向量key和值向量value,同时,将CT全局特征中的查询特征query输入到潜空间,将key、value、query输入到多头自注意力计算模块中计算得到;S4 解码即得。
9.根据权利要求8所述的分割方法,其特征在于,反馈融合是指将潜空间-多头自注意力计算模块所学习的融合PET-CT图像特征反馈到同尺度的CT编码特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310250049.1A CN116012374A (zh) | 2023-03-15 | 2023-03-15 | 一种三维pet-ct头颈部肿瘤分割系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310250049.1A CN116012374A (zh) | 2023-03-15 | 2023-03-15 | 一种三维pet-ct头颈部肿瘤分割系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116012374A true CN116012374A (zh) | 2023-04-25 |
Family
ID=86033825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310250049.1A Pending CN116012374A (zh) | 2023-03-15 | 2023-03-15 | 一种三维pet-ct头颈部肿瘤分割系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116012374A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159232A (zh) * | 2021-05-21 | 2021-07-23 | 西南大学 | 一种三维目标分类、分割方法 |
CN113869324A (zh) * | 2021-08-19 | 2021-12-31 | 北京大学 | 一种基于多模态融合的视频常识性知识推理实现方法 |
CN114782471A (zh) * | 2022-04-12 | 2022-07-22 | 首都医科大学附属北京天坛医院 | 一种用于甲状腺结节的超声二维图像的分割方法 |
CN115018809A (zh) * | 2022-06-28 | 2022-09-06 | 华中科技大学 | Ct图像的靶区分割识别方法及系统 |
CN115311219A (zh) * | 2022-07-26 | 2022-11-08 | 深圳睿心智能医疗科技有限公司 | 图像处理方法、装置、终端设备以及存储介质 |
CN115578384A (zh) * | 2022-11-30 | 2023-01-06 | 长春工业大学 | 基于全局和局部特征融合的UNet脑肿瘤图像分割算法 |
-
2023
- 2023-03-15 CN CN202310250049.1A patent/CN116012374A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159232A (zh) * | 2021-05-21 | 2021-07-23 | 西南大学 | 一种三维目标分类、分割方法 |
CN113869324A (zh) * | 2021-08-19 | 2021-12-31 | 北京大学 | 一种基于多模态融合的视频常识性知识推理实现方法 |
CN114782471A (zh) * | 2022-04-12 | 2022-07-22 | 首都医科大学附属北京天坛医院 | 一种用于甲状腺结节的超声二维图像的分割方法 |
CN115018809A (zh) * | 2022-06-28 | 2022-09-06 | 华中科技大学 | Ct图像的靶区分割识别方法及系统 |
CN115311219A (zh) * | 2022-07-26 | 2022-11-08 | 深圳睿心智能医疗科技有限公司 | 图像处理方法、装置、终端设备以及存储介质 |
CN115578384A (zh) * | 2022-11-30 | 2023-01-06 | 长春工业大学 | 基于全局和局部特征融合的UNet脑肿瘤图像分割算法 |
Non-Patent Citations (6)
Title |
---|
CHRISTOPHER SCARFONE 等: "Prospective feasibility trial of radiotherapy target definition for head and neck cancer using 3-dimensional PET and CT imaging", 《JOURNAL OF NUCLEAR MEDICINE OFFICIAL PUBLICATION SOCIETY OF NUCLEAR MEDICINE》, pages 543 - 552 * |
SHENHAI ZHENG 等: "L2-Norm Scaled Transformer for 3D Head and Neck Primary Tumors Segmentation in PET-CT", 《2022 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND CYBERNETICS (SMC)》, pages 1186 - 1191 * |
叶博: "基于深度学习的PET/CT肿瘤分割算法研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, pages 076 - 15 * |
李腊全: "基于变分法的PET/CT肿瘤分割算法研究", 《中国博士论文全文数据库 医药卫生科技辑》, pages 060 - 24 * |
石磊 等: "视觉Transformer在医学图像分析中的应用研究综述", 《计算机工程与应用》, pages 41 - 55 * |
陈辛元: "放疗磁共振模拟定位技术研究", 《中国博士论文全文数据库 医药卫生科技辑》, pages 060 - 13 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pei et al. | Disentangle domain features for cross-modality cardiac image segmentation | |
CN114494296A (zh) | 一种基于Unet和Transformer相融合的脑部胶质瘤分割方法与系统 | |
CN110648331B (zh) | 用于医学图像分割的检测方法、医学图像分割方法及装置 | |
CN112132878B (zh) | 基于卷积神经网络的端到端大脑核磁共振图像配准方法 | |
CN112634265B (zh) | 基于dnn的胰腺全自动分割模型的构建、分割方法及系统 | |
Deng et al. | Combining residual attention mechanisms and generative adversarial networks for hippocampus segmentation | |
CN113112559A (zh) | 一种超声图像的分割方法、装置、终端设备和存储介质 | |
CN116664588A (zh) | 基于掩码建模的3d医学图像分割模型建立方法及其应用 | |
Lin et al. | Batformer: Towards boundary-aware lightweight transformer for efficient medical image segmentation | |
CN115082381A (zh) | 一种基于u型网络的多目标分割方法及装置 | |
CN115908800A (zh) | 医学图像分割方法 | |
CN112488971A (zh) | 基于空间注意力机制和深度卷积生成对抗网络的医学图像融合方法 | |
CN115661165A (zh) | 基于增强注意力的编解码网络胶质瘤融合分割系统及方法 | |
Yin et al. | CoT-UNet++: A medical image segmentation method based on contextual Transformer and dense connection | |
Wen et al. | Short‐term and long‐term memory self‐attention network for segmentation of tumours in 3D medical images | |
WO2024087858A1 (zh) | 图像处理模型的训练方法、装置、电子设备、计算机程序产品及计算机存储介质 | |
CN112419322A (zh) | 一种基于3d多尺度多池化特征融合网络的颞骨外半规管分割方法 | |
CN116757982A (zh) | 一种基于多尺度编解码器的多模态医学图像融合方法 | |
CN116958094A (zh) | 一种动态增强磁共振影像特征生成病理图像特征的方法 | |
Xie et al. | MRSCFusion: Joint Residual Swin Transformer and Multiscale CNN for Unsupervised Multimodal Medical Image Fusion | |
CN116645380A (zh) | 基于两阶段渐进式信息融合的食管癌ct图像肿瘤区自动分割方法 | |
CN116152235A (zh) | 一种肺癌ct到pet的医学图像跨模态合成方法 | |
CN116309754A (zh) | 一种基于局部-全局信息协作的大脑医学图像配准方法及系统 | |
CN116258732A (zh) | 一种基于pet/ct图像跨模态特征融合的食管癌肿瘤靶区分割方法 | |
CN115880312A (zh) | 一种三维图像自动分割方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |