CN116012374A

CN116012374A - 一种三维pet-ct头颈部肿瘤分割系统及方法

Info

Publication number: CN116012374A
Application number: CN202310250049.1A
Authority: CN
Inventors: 李腊全; 谭嘉欣; 姜燕; 刘畅; 熊平; 苏强
Original assignee: Yiqi Technology Chengdu Co ltd; Chongqing University of Post and Telecommunications
Current assignee: Yiqi Technology Chengdu Co ltd; Chongqing University of Post and Telecommunications
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-04-25

Abstract

本发明公开了一种三维PET‑CT头颈部肿瘤分割系统及方法，该方法包括构建图像分割模型：S1、构建包括具有第一编码器和第二编码器的双编路径‑解码器的网络架构；S2、将PET图像和CT图像经两编码路径独立编码后分别获得PET图像特征和CT图像特征，再将PET图像特征和CT图像特征分别输入至基于多头自注意力计算模块的Transformer模块中经计算分别产生PET全局特征和CT全局特征；S3、将PET全局特征和CT全局特征通过基于潜空间的多头自注意力计算模块处理后获得以PET图像特征融合至CT图像特征的融合PET‑CT图像特征，将融合PET‑CT图像特征反馈融合至CT图像编码分支。本发明提高了分割系统的效率和分割准确度。

Description

一种三维PET-CT头颈部肿瘤分割系统及方法

技术领域

本发明涉及医学影像处理领域，具体涉及一种三维PET-CT头颈部肿瘤分割系统及方法。

背景技术

头颈部癌是一组包括口腔、口咽、下咽、喉、唾液腺等部位的癌症。它是世界上最常见的癌症类型，占全世界所有癌症的5%。头颈部肿瘤分割在协助头颈部癌症的诊断和治疗计划中起着重要作用。准确的头颈部肿瘤分割可以有效地帮助医生对肿瘤进行定位，确定其大小，直观地看到肿瘤与周围组织的粘连关系，并制定相应的治疗方案。然而，目前可用于临床实践的分割结果通常是由经验丰富的医生手工制作的。但是，手动绘制不仅费时费力，而且还受到医生的主观影响。因此，一种自动和准确的三维头颈部肿瘤的分割方法将具有很大的价值。

在医学影像技术中，计算机断层扫描（CT）图像被广泛用于计算机辅助诊断和治疗计划，因为CT图像具有较高的分辨率和较低的信噪比，可以有效地提供人体组织和器官结构信息。然而，由于CT只能反映结构信息，而肿瘤与邻近组织呈现等密度影关系，仅凭CT图像很难对头颈部肿瘤进行分割。正电子发射计算机断层扫描（PET）是一种高度敏感的分子水平功能成像技术，它通过向人体注射某种代谢物（通常是葡萄糖），观察该物质在代谢中的累积情况，以达到诊断的目的。癌细胞通常具有高度的代谢，所以PET可以有效观察到肿瘤，以此来协助诊断和治疗。

随着计算机技术的快速发展，基于深度学习的多模态医学图像分割方法已被证明更为有效。越来越多的研究人员开始关注卷积神经网络（CNN）在PET-CT图像分割中的应用。Zhao等人提出了一个基于三维全卷积网络（FCNs）的多分支PET-CT分割模型。Kumar等人将空间转换应用于特征融合过程，并量化了不同模态特征图的重要性。然而，由于卷积层只能关注局部信息，不能捕捉长距离的空间依赖，基于CNN和FCN的方法更关注图像的局部特征，而忽略了图像的全局表示。因此，在头颈部肿瘤分割任务中，由于缺乏全局信息和长距离特征表示，卷积神经网络往往不能达到预期的分割结果。

Transformer是在自然语言处理（NLP）任务中设计的，用于对序列到序列任务中的长距离依赖关系进行建模。这种架构完全基于自我注意力机制，使模型能够在建模全局上下文信息方面表现出强大的能力。有许多工作将Transformer引入医学图像分割任务中，并取得了令人满意的结果。例如，Chen等人将Transformer和CNNs结合起来，设计了用于医学图像分割的TransUNet，利用Transformer将CNNs特征图编码为上下文序列，提取全局和远距离的上下文信息。Hatamizadeh等人提出的UNETR完全使用Transformer作为编码器来学习输入的三维图像的顺序表示，并有效地捕捉全局多尺度信息，以实现三维医学图像分割。

目前基于Transformer的多模态医学分割还存在一些挑战。

发明内容

为解决上述问题，本发明目的在于提供一种三维PET-CT头颈部肿瘤分割方法，该三维多模态头颈部肿瘤图像分割方法提出了一种边学习边融合的特征交互策略，使得模型既学习CT图像的解剖特征，又学习PET图像的功能特征，同时也考虑了不同模态的各自特征，实现了对两种模态互补特征的高效利用，完成了精准的肿瘤图像分割。还提出了一种三维PET-CT头颈部肿瘤分割系统。

本发明通过下述技术方案实现：

一种三维PET-CT头颈部肿瘤分割系统，包括编码部、融合部和解码部；所述编码部包括具有第一编码器的第一编码路径模块、具有第二编码器的第二编码路径模块，第一编码路径模块用于将PET图像编码后提取PET初始图像特征，再通过基于多头注意力计算模块的Transformer模块学习得到PET全局特征；

第二编码路径模块用于将CT图像编码后提取CT初始图像特征，再通过基于多头注意力计算模块的Transformer模块学习得到CT全局特征；

融合部包括潜空间-多头注意力模块，PET全局特征输入潜空间，经前馈神经网络学习，产生两个潜变量：键向量key和值向量value，同时，将CT全局特征中的查询特征query输入到潜空间，潜空间再将 key、 value、 query输入到多头自注意力计算模块中计算得到融合PET-CT图像特征，将融合PET-CT图像特征反馈融合至第二编码路径模块中编码分支；

解码部包括解码模块，用于接收并解码融合PET-CT图像特征。

潜空间是指：两个编码分支之间（CT编码分支与PET编码分支）用于特征交互学习的潜在特征空间。它的作用是学习两个模态之间的潜在互补特征。

反馈融合是指：将潜空间-多头注意力模块所学习的融合PET-CT图像特征反馈到CT编码特征（具体反馈策略是将相同尺度的特征反馈到同一层次，因为随着编码不断下采样，会产生不同尺度的特征）这里的反馈是在特征处于相同尺度的前提下进行的。

前馈神经网络学习的具体过程是：将PET编码分支所学习的全局特征提取出两个潜在特征变量。

解码模块为Transformer特征解码模块，解码部还包括上采样模块、输出预测图像的扩展模块，上采样模块接收融合PET-CT图像特征并将其输送至Transformer特征解码模块进行解码，再重复两次上采样和解码过程后，将解码后的图像输送至输出预测图像的扩展模块进行图像扩展。

第一编码路径模块和第二编码路径模块均包含下采样模块，PET全局特征和CT全局特征均可通过下采样模块进行多次下采样过程处理。

下采样模块包括3D可变形卷积和3D下采样，用于将输入特征进行可变形卷积后缩小处理。

还包括残差连接模块，残差连接模块用于将PET图像的初始特征图经过潜空间-多头注意力模块计算后连接到CT图像的全局特征上。残差连接是学习两个模态潜在特征后反馈到CT编码分支，这是基于对头颈部肿瘤数据集的PET与CT图像的特点而设计的，目的是学习PET的功能特征，并结合CT图像的结构特征，以促进整体分割效果。

第一编码器和第二编码器均为三维图像嵌入编码块。

一种三维多模态头颈部肿瘤的图像分割方法，构建图像分割模型：S1构建包括具有第一编码器和第二编码器的双编路径-解码器的网络架构；

S2、将PET图像和CT图像经两编码路径独立编码后分别获得PET图像特征和CT图像特征，再将PET图像特征和CT图像特征分别输入至基于多头自注意力计算模块的Transformer模块中经计算分别产生PET全局特征和CT全局特征；

S3将PET全局特征和CT全局特征通过基于潜空间的多头自注意力计算模块处理后获得将以PET图像特征融合至CT图像特征的融合PET-CT图像特征，将融合PET-CT图像特征反馈融合至CT图像编码分支，获得融合PET-CT图像特征的方法具体为：将PET全局特征输入到潜空间模块，经前馈网络学习产生两个潜变量：键向量key和值向量value，同时，将CT全局特征中的查询特征query输入到潜空间模块，将 key、 value、 query输入到多头自注意力计算模块中计算得到；S4 解码即得。

多头自注意力计算模块是基于L2范数点积和点积结果缩放的模式，多头自注意力计算模块的计算方法包括：

假设Transformer模块在第 l层的输入是 X _t ^l， X _t ^l为CT初始特征值或者PET初始特征值，q、k和v向量按式（2）计算：

（2）

q、k和v向量分别为查询特征query，键向量key和值向量value，、和分别为q、k和v向量对应的权重矩阵，将多头自注意力的计算分为水平方向和垂直方向两个部分，通过两个并行窗口的输出来对两部分计算结果进行交互，水平方向和垂直方向两部分的计算如公式（3）、（4）：

（3）

（4）

其中和分别代表垂直和水平方向上的自注意，和分别是垂直方向和水平方向上的位置编码，q_v、k_v和v_v分别是垂直方向上的查询特征query，键向量key和值向量value，q_h、k_h和v_h分别是水平方向上的查询特征query，键向量key和值向量value， softmax为归一化函数， scaled为对注意力进行可学习缩放， Attention为注意力计算，即：计算q和k向量的点积基于L2范数，如式（1）所示，

（1）；

其中，为输入向量维度，防止进入 softmax函数的梯度消失区域，对水平方向和垂直方向两部分计算结果进行交互如公式

；其中， concate是拼接函数，即对两个注意力进行通道拼接；最后对 X _t ^l进行非线性映射 MLP即得输出Y，它的计算如式（5）所示，其中， mlp代表非线性映射， LayerNorm为层归一化函数， drop代表随机对前向传播的激活值置0，防止过拟合：

（5）。

本发明涉及的多头注意力计算模块的计算方法分为水平方向和垂直方向两个部分，通过两个并行窗口的输出来对两部分计算结果进行交互，有助于在不损失分割精度的情况下最小化计算复杂度，如此简化了整个分割过程的计算复杂度，并避免了分割精度的损失。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明利用基于多头注意力计算模块的Transformer模块首先得到两种模态的注意力特征，再将两种模态的注意力特征（全局特征）经过潜空间-多头注意力机制将两种模态的潜空间特征进行互补，且将PET模态潜空间特征输入模型指导CT注意力特征的学习，强化了CT图像特征学习，并实现了两种模态边学习各自模态特征边学习融合特征的创新过程，尽可能地减少了特征损失，提高了分割的准确率。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为：提出的L2范数缩放多头注意力计算模块的Transformer模块（LNT）分割网络的架构图。（a）是网络的编码部分，分为两个独立的编码器，上方用于PET图像编码，下方用于CT图像编码。（b）是基于潜空间的多尺度特征交互模块。（c）是分割工作流程的解码部分。（d）是图示的解释部分。

图2为嵌入的结构图。

图3 为基于L2范数缩放多头注意力计算模块的Transformer模块结构。

图4为使用多头机制将自注意力的计算划分为正交方向的两个窗口。

图5为三维可变形下采样的结构。

图6：图像处理前后对比。a和b分别代表处理前后的图像。

图7：来自HECKTOR数据集的两个病例（病例1和2）的对比实验的可视化。每个病例的第一行是CT图像，第二行是对应的PET图像。从（a）到（g）分别是对比例1，对比例2、对比例3、对比例4、对比例5、本发明提出的模型和金标准在同一切片上的可视化结果。

图8：不同方法对边界切片的详细分割结果。第一行是CT图像，第二行是对应的PET图像。（a）到（d）代表四个不同的病例。图像里标出的多条曲线中，位置最里面的曲线是本发明的分割线。

图9：四个指标的小提琴图。从（a）到（f）表示对比例1，对比例2、对比例3、对比例4、对比例5和本发明。

图 10：在训练阶段使用我们提出的方法进行的五次比较实验的dice分数、训练损失和验证损失与epoch的关系。从（a）到（f）是对比例1，对比例2、对比例3、对比例4、对比例5和本发明的方法的训练曲线。

实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

如图1(a)所示，编码部分包括三维图像嵌入编码块（Embedding）、用于不同模态的基于L2范数缩放多头注意力计算模块的Transformer模块（LNT）、3D可变形下采样模块（DDS）和跨模态残差连接（CMR）。

（1）三维图像嵌入编码块（Embedding）：在我们的分割工作流程中，嵌入层作为网络编码模块的第一部分，它的主要作用是将输入图像分成块（patch）。为了有效的分割肿瘤，我们需要在提出的方法中嵌入三维图像数据。如图2所示，输入是3D图像（H，W和S是三维输入大小）。

为了更好地对输入进行嵌入编码，我们在这一过程中采用了连续的3D卷积，这使得模型能对图像进行更详细的像素级编码，更有利于精确的分割任务。此外，我们将3D图像转换为高维特征张量，其中表示总共嵌入的图像块的数量， C代表序列长度。此外，在卷积之后，还应用非线性映射GELU和归一化LayerNorm来增加模型的非线性表征能力。

（2）基于L2范数缩放的多头自注意力计算模块的Transformer模块（LNT）：多头自注意力机制（MSA）是Transformer的核心，如图3（a）所示，它主要计算 q和 k向量的点积。在医学图像的研究中，图像的灰度因采集方法和设备不同而具有差异。当CT图像值较大而PET图像值较小时（如表1所示），使用点积计算相似度会导致某些像素值异常大，不利于模型的收敛。为了缓解这个问题，我们基于L2范数设计了一种新的多头自我注意机制，如图3(b)所示。

在图3（b）中，我们提出的多头机制将自注意力机制将输入X分别通过三个权重矩阵、和映射为三个向量q、k和v，并通过与v向量相乘，然后进行了可学习的缩放，最后得到输出Y。这一过程进一步约束了异常结果的产生，从而获得更稳定的结果。q和k向量基于L2范数的点积，如式（1）所示：

（1）

在视觉Transformer中，往往存在巨大的计算问题，因为在计算MSA模块时，计算复杂度会与输入序列长度的平方成正比。在现有的工作中，在局部窗口上计算自注意力主要用于解决这个问题，它将全局自注意力的计算分布到局部的小窗口上，这种做法带来的问题是Transformer降低了对远距离特征的建模能力，转而只关注局部，这无疑会造成性能损失。所以，在LNT中，我们通过多头机制将自注意力的计算分成两个平行的部分，如图6所示。在这个过程中，自注意力的计算分为水平方向和垂直方向两个部分，而通过两个并行窗口的输出来对两部分计算结果进行交互，这样就有助于在不损失分割精度的情况下最小化计算复杂度。在LNT中，我们通过多头机制将自注意力的计算分成两个平行的部分，如图4所示。在这个过程中，自注意力的计算分为水平方向和垂直方向两个部分，而通过两个并行窗口的输出来对两部分计算结果进行交互，这样就有助于在不损失分割精度的情况下最小化计算复杂度。

假设Transformer模块在第 l层的输入是 X _t ^l， X _t ^l为CT初始特征值或者PET初始特征值， q、k和v向量按式（2）计算：

（2）

（3）

（4）

（1）；

（5）。

（3）三维可变形下采样模块（DDS）：Transformer的优势在于它专注于全局特征关系的表征。然而，通过综合观察，保留局部关系的感知对于肿瘤分割任务仍然具有重要意义。我们设计了一个基于3D可变形卷积的下采样模块，它保留了模型对局部特征的感知，允许我们的模型全面识别全局和局部变化，从而更好地表达图像细节特征。

众所周知，3D卷积的感受野是固定的，尽管通过池化操作可以间接增加感受野，但这也失去了一些重要的特征，不利于精确的分割模型。在提出的DDS模块中，可变形卷积核的形状不是固定的几何形状，而是可以根据特征图自动改变，从而即使随着模型深度的加深，在逐渐缩小的特征图尺度下也能有效地感知特征。

如图5所示，我们提出的DDS模块包括3D可变形卷积和3D下采样。LNT模块在编码部分提取不同阶段的特征图，然后由DDS缩小。在大小为的输入特征中，浅色立方体表示普通卷积的采样网格，深色立方体表示可变形卷积。偏移量向量由3×3×3卷积生成的所有偏移量组成。通过这样的方式，也可以降低模型的计算复杂度，并将重要特征的损失降到最低。

（4）跨模态残差连接（CMR）：为了更好地执行来自不同模态的特征的交互，我们在编码阶段设计了一个CMR模块。如图1（a）所示，我们将PET图像的初始特征图经过潜空间计算后连接到CT图像的特征上（不同的连接方式取决于希望更多关注的模态），这使得模型可以学习特征之间的互补关系，从而在编码阶段就能关注到模态的特征交互，而不仅仅依赖于特征融合模块。

潜空间模块：通常，多模态医学图像分割模型会在特征编码完成后，对学习到的多模态特征进行融合，然后将融合后的特征进行解码以输出分割结果。但这种方式存在着特征损失的问题，即不同模态特征在编码阶段的不断下采样过程中产生了特征损失，这会降低模型的分割能力。同时，在头颈部肿瘤的分割中，由于CT图像的等密度影特点，编码后融合会损失大量的CT图像特征，造成模型对CT图像学习不充分，而过多依赖于PET的模糊区域，这是不利于精准的肿瘤分割任务的。为了解决这一问题，我们提出了一个潜空间来实现特征交互，它是一种边学习边融合的特征交互策略，同时也考虑了不同模态的各自特征，以实现高效利用互补特征，从而完成精准的肿瘤分割。

如图1（b）所示，我们构造的潜空间接收两个模态的输入，上方输入虚线代表输入的是PET图像特征，下方输入虚线代表输入CT图像特征。首先，PET图像经过Transformer的学习后会产生全局特征，这个全局特征会输入到潜空间中。然后，在潜空间中，经过前馈网络的学习，会产生两个潜变量：key（键向量）和value（值向量）。同时，CT图像经过Transformer的学习后也会产生全局特征，但我们将其中的原始query（查询）特征输入到潜空间中，然后将key、value、query输入到多头自注意力计算模块中。最后，将潜空间产生的特征反馈融合到CT图像的编码分支，这样做是由于PET图像中的肿瘤与周围组织有较明显区别，将这一特征输入到CT图像中去指导模型对CT图像的学习，使得模型既学习CT图像的解剖特征，又学习PET图像的功能特征，从而实现对着两种模态互补特征的高效利用。

潜空间接收的是编码阶段产生的多尺度特征，即使得模型边学习各自模态特征，又学习融合特征，尽可能地减少了特征损失，从而提高分割的准确率。

解码分支：为了简化网络的整体架构，解码分支的设计类似于编码分支，如图1（c）所示。随着解码分支的逐渐上采样，低尺度特征逐渐被还原，同时通过跳跃连接与上采样特征融合，使得模型能更加充分感知高级和低级特征。最终扩展模块的输出将作为与输入具有相同尺度的分割结果。

此外，我们的模型输出不同尺度的特征图用于深度监督。具体来说，在解码阶段，除了最终输出之外，还额外获得了两个不同尺度（或超过两个，可根据实际实验过程进行调整）的特征图，如图1（c）所示。对于所有输出，我们计算了交叉熵损失（）和软骰子损失（），并将这两个损失的总和用作我们分割方法损失函数，如式（6）所示。值得注意的是，我们采用软骰子损失函数的对数形式，这是因为取对数并没有改变数据的性质和相关性，而是压缩了变量的尺度，使数据更加稳定，同时削弱了模型的异方差性。综上所述，在本文中，最终的训练损失函数是三个尺度上所有损失的总和，如式（7）所示。

（6）

（7）

其中 s、 h和 w是体素坐标。在式（6）中，和是交叉熵损失和对数软骰子损失的权重，它们是超参数（在我们的实验中它们都是1.0）。因为的值在0到1之间，所以前面加了一个负号，对数后面的值是负数，所以和之间有一个负号。在式(7)中， K代表不同的尺度。是的权重，它是超参数（在我们的实验中，为0.5，为0.25，为0.125）。

实验和结果：为了比较我们模型与现有模型的优缺点，我们在HECKTOR数据集上进行了实验。

1.1数据集：我们使用的完整数据集是在Aicrowd上发布的MICCAI 2021中的HECKTOR Challenge。该数据集包括325名患者的18F-FDG PET和CT扫描（其中包含注释的有224例）。头颈部肿瘤的手动分割（即金标准）是从临床专家那里获得，并且满足神经影像信息学技术倡议（NIFTI）格式。原始图像信息如表一所示。

表1.原始图像信息.

1.2数据预处理：为了避免分割网络训练和测试的影响，我们对所有数据进行了配准、裁剪和增强处理。

（1）配准：在多模态医学图像分割过程中，虽然没有规定不同模态图像的信息要一致，但大多数研究中都对不同模态进行了一致的处理。如表1所示，PET图像形状为91×128×128，不同于CT和GT（金标准）的91×512×512。因此，考虑到CT和GT的一致性，我们将PET图像调整为91×512×512。在实验过程中，我们将原始数据的仿射变换和可变形变换结合起来，使用互信息作为优化度量和弹性正则化。

表2. 图像裁剪信息.

（（2）裁剪：为了避免网络输入不一致数据对分割性能的影响，所有图像都被裁剪成与官方边界框数据相同的大小。裁剪后的数据间距、形状和强度范围如表2所示。可以看出，轴向、冠状和矢状间距被重新采样到1mm。三次样条插值用于PET和CT图像的重采样，最近邻插值用于GT。裁剪前后的对比如图6所示。

（3）增强：为了更好地泛化模型，我们对所有图像进行了增强操作。我们采用的是旋转、缩放、伽马增强、镜像、高斯噪声和模糊、亮度和对比度调整以及低分辨率模拟等操作。

1.3实现细节：我们进行的所有实验均基于Python 3.6、PyTorch 1.8.1和Ubuntu16.04，使用单个24GB的NVIDIA 3090 GPU。

（1）学习率和优化器：初始学习率 init_lr设置为0.01，在训练过程中逐渐衰减，衰减策略如式（8）所示。优化器使用SGD，动量权重衰减设置为0.99和3e-5。训练 epoch数为600，每个 epoch的迭代次数为250。

（8）

（2）网络设置：我们将 batch_size设置为2， embedding_dim为96， heads分别设置为6、12、24和12。编码部分的LNT块数分别设置为1、4、7、2，而解码部分均为2。编码阶段的下采样率为2（三个维度相同），而解码阶段的上采样设置可以很容易地从下采样中推断出来。

1.4实验：在本节中，为了验证我们方法的有效性，我们分别将我们的方法与一些基于CNN的方法和基于Transformer的方法进行了比较。其中，

对比例1 “Modality-Aware Mutual Learning for Multi-modal Medical ImageSegmentation” Zhang等人使用一种新颖的相互学习（ML）策略进行多模式肝肿瘤分割。它以可学习的方式自适应地聚合来自不同模态的特征，并通过模态感知（MA）模块相互指导提取不同模态的高级表示之间的特征和共性。

对比例2 “Tumor co-segmentation in PET/CT using multi-modality fullyconvolutional neural network”，Zhao等人使用两个V-net网络分别提取PET和CT的图像特征，然后将提取的不同模态的特征相加，通过4层卷积得到肺癌的分割结果。

对比例3 “Swin-Unet: Unet-like Pure Transformer for Medical ImageSegmentation”

对比例4 “UNETR: Transformers for 3D Medical Image Segmentation”

对比例5 nnFormer: Interleaved Transformer for VolumetricSegmentation”

此外，对于早期的基于Transformer的单模态方法，我们通过构建两个编码器在PET-CT数据集上完成了多模态实验。为了公平比较，我们将相同的数据预处理步骤以及相同的数据分区应用于所有方法。其中，我们随机分组了224个带注释的案例（70%作为训练集，10%作为验证集，20%作为测试集）。同时，我们使用医学图像分割任务中常用的评估指标对分割结果进行定量评估，包括：骰子相似系数（DSC）、杰卡德相似系数（Jaccard）、相对体积差

（RVD）和95%豪斯多夫距离（HD95）。

表3.实验结果

表3显示了我们提出的方法和对比方法的定量比较结果。从表中呈现的实验结果可以看出，与对比方法相比，我们的方法在DSC、Jaccard和RVD上取得了最好的结果。其中，对比例1和对比例2提出的多模态分割方法平均DSC得分分别为0.7714和0.7996，比我们的方法低约3个和5个百分点。具有两个编码器的对比例4、具有两个编码器的对比例5和具有两个编码器的对比例3可以分别获得0.8062、0.8226和0.7625的平均DSC分数。它们也比我们提出的方法小。我们的方法（13.15）在HD95评估指标上也明显优于其他方法，仅次于nnFormer（11.12）。

为了直观地观察结果，图7给出了在HECKTOR数据集上我们的方法和对比方法的两个病例的可视化结果。其中，病例1是一种难以分割的病例，因为在PET图像中可以看到，在图像中上方存在一个水平对称的亮区，这通常表明在该区域存在肿瘤。但这个水平对称区域很容易误导模型将左侧部分也识别为肿瘤（观察金标准（g）可知道）。但是，结合CT图像信息我们就可以纠正这种识别错误。从图7中的病例1也可以看出，有三种方法存在错误分割。同时，虽然MAML方法（病例1，图7（a））没有错误分割，但它表现出明显的过度分割。在这一病例中，只有对比例5和我们提出的方法更接近金标准。

对于图7中的病例2，它是一个相对容易分割的目标，因为它具有较大的体积和相对规则的形状。如叠加分割结果所示，除我们的方法外，所有对比方法都或多或少存在过度分割，甚至错误分割。这些结果表明，我们所提出的分割工作流程可以生成更正确的肿瘤区域。

我们还用区域轮廓标记了分割结果，如图8所示。不同颜色的线代表不同测试方法的结果。图像里标出的多条曲线中，位置最里面的曲线是本发明的分割线。通常，边界切片上肿瘤区域表现得更模糊。可以看出，对于边界切片，分割结果并不是特别理想。基本上，所有方法都存在过度分割，甚至对比例2和对比例4方法在两种情况下都有明显的错误分割。但与其他方法相比，我们的方法可以使分割结果更接近真实情况。这进一步证明了我们提出的分割方法的优越性。

对于医学图像分割，分割方法在处理不同情况下的稳定性是一个重要的问题。小提琴图是箱线图和核密度图的混合体，它显示了数据中的峰值。在本文中，它用于可视化分割结果的分布。图9显示了四个指标在不同方法的测试数据集上的小提琴图。在小提琴图中，图表中间的黑色粗条代表四分位距，从它延伸出来的黑色细线代表数据范围，最大值和最小值在两端，白点为中位数，线外的点代表异常数据，它们是较差的分割结果。

从图中DSC、Jaccard、RVD和HD95四个指标的小提琴图可以看出，我们的方法在前三个指标上均领先，并且我们的方法在所有四个指标下都表现出更集中的数据分布。虽然我们的方法在度量HD95下的平均得分不如nnFormer，但我们的数据分布更集中，即我们的方法的稳定性在所有测试方法中更高。

最后，我们在图10中展示了我们的方法和比较方法的训练曲线。从这些图中，我们可以看到，对于基于CNN的方法（图10（a）和（b）），可以更快地收敛，但是整体分割效果相比基于Transformer的方法来说不是很好。同时，基于CNN的方法的验证损失明显大于训练损失（发生过拟合）。这是因为卷积操作缺乏对长距离依赖的建模能力，在学习多模态图像特征时容易忽略跨模态互补信息或学习过多的冗余特征。对于基于Transformer的方法（从图10（c）到（e）），它表现出更好的分割性能，但训练曲线波动很大，稳定性不如基于CNN的方法。这是因为现有的Transformer架构不能很好地处理多模态图像，尤其是多模态特征的融合。使用现有的MSA对多模态医学图像进行特征提取时，某种模态的某些像素支配了学习到的特征图，降低了MSA对全局像素的关注，导致训练不稳定。

值得注意的是，图10（f）是我们提出的网络的训练曲线。可以看出，我们的方法比基于CNNs的方法具有更好的分割性能，并且我们的方法也比基于Transformer的方法具有更强的稳定性。这表明我们提出的方法可以更好地学习多种模态之间的互补信息并取得令人满意的结果。同时，我们改进的基于L2范数的缩放Transformer模块可以使训练过程更加稳定，更好地应用于多模态图像的特征提取过程。

本发明中，未详细描述的均是现有技术。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种三维PET-CT头颈部肿瘤分割系统，其特征在于，包括编码部、融合部和解码部；

所述编码部包括具有第一编码器的第一编码路径模块、具有第二编码器的第二编码路径模块，第一编码路径模块通过第一编码器将PET图像编码后提取PET初始图像特征，再通过基于多头注意力计算模块的Transformer模块学习得到PET全局特征；

第二编码路径模块通过第二编码器将CT图像编码后提取CT初始图像特征，再通过基于多头注意力计算模块的Transformer模块学习得到CT全局特征；

融合部包括潜空间-多头注意力模块，PET全局特征输入潜空间，经前馈神经网络学习，产生两个潜变量：键向量key和值向量value，同时，将CT全局特征中的查询特征query输入到潜空间，潜空间再将key、value、query输入到多头自注意力计算模块中计算得到融合PET-CT图像特征，将融合PET-CT图像特征反馈融合至第二编码路径模块中编码分支；

解码部包括解码模块，用于接收并解码融合PET-CT图像特征。

2.根据权利要求1所述的分割系统，其特征在于，解码模块为Transformer特征解码模块，解码部还包括上采样模块、输出预测图像的扩展模块，上采样模块接收融合PET-CT图像特征并将其输送至Transformer特征解码模块进行解码，再重复两次上采样和解码过程后，将解码后的图像输送至输出预测图像的扩展模块进行图像扩展。

3.根据权利要求1所述的分割系统，其特征在于，所述多头自注意力计算模块是基

于L2范数点积和点积结果缩放的模式，其计算方法包括：

假设Transformer模块在第l层的输入是X _t ^l，X _t ^l为CT初始特征值或者PET初始特征值，q、k和v向量按式（2）计算：

（2）

（3）

（4）

其中和分别代表垂直和水平方向上的自注意，和分别是垂直方向和水平方向上的位置编码，q_v、k_v和v_v分别是垂直方向上的查询特征query，键向量key和值向量value，q_h、k_h和v_h分别是水平方向上的查询特征query，键向量key和值向量value，softmax为归一化函数，scaled为对注意力进行可学习缩放，Attention为注意力计算，即：计算q和k向量的点积基于L2范数，如式（1）所示，

（1）；

其中，为输入向量维度，防止进入softmax函数的梯度消失区域，对水平方向和垂直方向两部分计算结果进行交互如公式

；其中，concate是拼接函数，即对两个注意力进行通道拼接；最后对X _t ^l进行非线性映射MLP即得输出Y，它的计算如式（5）所示，其中，mlp代表非线性映射，LayerNorm为层归一化函数，drop代表随机对前向传播的激活值置0，防止过拟合：

（5）。

4.根据权利要求1述的分割系统，其特征在于，第一编码路径模块和第二编码路径模块均包含下采样模块，PET全局特征和CT全局特征均可通过下采样模块进行多次下采样过程处理。

5.根据权利要求1述的分割系统，其特征在于，下采样模块包括3D可变形卷积和3D下采样，用于将输入特征进行可变形卷积后缩小处理。

6.根据权利要求1所述的分割系统，其特征在于，还包括残差连接模块，残差连接模块用于将PET图像的初始特征图经过潜空间-多头注意力模块计算后连接到CT图像的全局特征上。

7.根据权利要求1所述的分割系统，其特征在于，第一编码器和第二编码器均为三维图像嵌入编码块。

8.基于权利要求1-7任一项所述的三维PET-CT头颈部肿瘤分割系统的三维PET-CT头颈部肿瘤分割方法，其特征在于，构建图像分割模型：S1、构建包括具有第一编码器和第二编码器的双编路径-解码器的网络架构；

S3、将PET全局特征和CT全局特征通过基于潜空间-多头自注意力计算模块处理后获得以PET图像特征融合至CT图像特征的融合PET-CT图像特征，将融合PET-CT图像特征反馈融合至CT图像编码分支，获得融合PET-CT图像特征的方法具体为：将PET全局特征输入到潜空间模块，经前馈神经网络学习产生两个潜变量：键向量key和值向量value，同时，将CT全局特征中的查询特征query输入到潜空间，将key、value、query输入到多头自注意力计算模块中计算得到；S4 解码即得。

9.根据权利要求8所述的分割方法，其特征在于，反馈融合是指将潜空间-多头自注意力计算模块所学习的融合PET-CT图像特征反馈到同尺度的CT编码特征。