CN116758100A

CN116758100A - 一种3d医学图像分割系统及方法

Info

Publication number: CN116758100A
Application number: CN202311037480.4A
Authority: CN
Inventors: 梁大柱; 许娟; 高剑伟; 张佳乐; 王瑞国; 聂瑞; 王晓勇; 刘燕波; 史文钊
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-09-15

Abstract

本发明涉及医学图像处理技术领域，具体为一种3D医学图像分割系统及方法，本方法包括构建Prompt‑nnUnet模型，模型包括Prompt编码器和nnUnet模型框架，nnUnet模型框架包括nnUnet编码器和nnUnet解码器，Prompt编码器产生的向量与nnUnet解码器的输出的特征图进行CrossAttention，再进行卷积操作，输出分割结果，对模型进行训练，采用nnUnet模型框架得出目标区域，基于目标区域体对角上的两个点作为Prompt点信息输入模型中，得出最终分割结果；通过本发明构建的模型具备了Prompt能力以及nnunet本身的实例分类能力，分割效果更佳。

Description

一种3D医学图像分割系统及方法

技术领域

本发明涉及医学图像处理技术领域，具体为一种3D医学图像分割系统及方法。

背景技术

传统的3D医疗检测方法通常使用基于卷积神经网络（CNN）的架构，如U-Net、V-Net、3D-UNet等。这些方法需要针对每个特定任务进行训练，并且需要大量的标注数据。与之相比，SAM具有更强的泛化能力和更少的数据需求，因为它可以利用自然语言提示来指导分割过程，并且可以重用在自然图像上预训练的参数。

SAM是一种基于自然语言提示的通用目标分割模型，它使用了Transformer架构来捕捉图像中的空间信息。SAM在自然图像上表现出了令人印象深刻的结果，但是在医疗图像上的性能却受到了限制，尤其是在处理涉及小尺寸、不规则形状和低对比度的肿瘤分割任务时。且SAM是为2D自然图像设计的，因此不能有效地提取3D医疗数据中的空间信息。这导致了SAM在处理体积数据时的性能下降和不稳定。SAM对自然语言提示的质量和数量非常敏感，因此需要用户提供合适的输入来指导分割过程。这增加了用户的负担和交互成本，也限制了SAM的自动化能力。SAM在医疗图像上的泛化能力受到了训练数据分布的影响。由于医疗图像与自然图像存在很大的领域差异，不同的医疗图像模态、维度、对比度、目标大小等因素也会影响SAM的分割效果。

发明内容

（一）发明目的

鉴于上述问题，为了得出更好的3D医学图像分割方法，本公开提供了以下技术方案。

（二）技术方案

第一方面，本发明提供了一种基于Prompt-nnUnet的3D医学图像分割系统，包括模型构建模块、模型训练模块和分割模块；

所述模型构建模块，用于构建Prompt-nnUnet模型，所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架；所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器；所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention；进行卷积操作，输出分割结果；

所述模型训练模块，用于对所述Prompt-nnUnet模型进行训练；

所述分割模块，用于采用Prompt-nnUnet模型中nnUnet模型框架得出目标区域，基于所述目标区域体对角上的两个点作为Prompt点信息输入所述Prompt-nnUnet模型中，得出最终分割结果。

作为一种可实施方式，所述Prompt编码器采用pytorch框架构建可学习的（positional_encoding_gaussian_matrix）矩阵，将三维坐标点与所述矩阵作矩阵乘法，将三维坐标点转化为256纬度的向量。

作为一种可实施方式，所述Prompt编码器的输入为positive点、negative点、框左上角点和框右下角点和/或未输入框时的点。

作为一种可实施方式，所述nnUnet编码器通过卷积和下采样提升特征图通道数和降低特征图大小；所述nnUnet解码器通过跳跃连接和反卷积融合所述nnUnet编码器的特征图，当特征图通道数目反卷积达到256时，与所述Prompt编码器产生的向量进行跨注意结合。

作为一种可实施方式，所述跨注意结合采用如下点积注意力公式：

其中，Q是nnUnet解码器通道数为256时对应的特征图中每个点经过Prompt编码器后产生的256维度的向量加上原特征图所构成的向量，shape为(256, d/4, h/8, w/8)；K、V为Prompt编码器中输入的Prompt点信息，shape为(n, 256)，n是prompt点的个数；T为K的转置；d_k为K的维度；其中d代表深度，h代表横截面长，w代表横截面宽。

作为一种可实施方式，所述对所述Prompt-nnUnet模型进行训练包括：

采用所述nnUnet模型框架训练出nnUnet基准模型，冻结所述nnUnet基准模型中nnUnet编码层的参数，初始化其他网络参数，形成处理后的Prompt-nnUnet模型，选取框或者点的提示，标识目标区域，输入至处理后的Prompt-nnUnet模型，然后计算处理后的Prompt-nnUnet模型的输出与人工标注的目标区域mask的差异，根据差异，筛选预测错误的数据以及未预测出结果的数据作为negative点和positive点输入所述Prompt编码器对所述处理后的Prompt-nnUnet模型进行迭代训练。

第二方面，本发明提供一种基于Prompt-nnUnet的3D医学图像分割方法，包括：

构建Prompt-nnUnet模型，所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架；所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器；所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention；进行卷积操作，输出分割结果；

对所述Prompt-nnUnet模型进行训练；

采用Prompt-nnUnet模型中nnUnet模型框架得出目标区域，基于所述目标区域体对角上的两个点作为Prompt点信息输入所述Prompt-nnUnet模型中，得出最终分割结果。

第三方面，本发明提供一种用于分割3D医学图像的3DSAM模型，包括所述的Prompt-nnUnet模型。

第四方面，本发明提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述方法的步骤。

第五方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述方法的步骤。

（三）有益效果

本公开实施例与现有技术相比存在的有益效果是：本发明实现将SAM中Promt思想融入优良的nnUnet框架，形成Prompt-nnUnet模型，支持3D医学数据的Prompt，最终模型具备了Prompt能力以及原先nnunet本身的实例分类能力，较如U-Net、V-Net、3D-UNet等形成的3D医学影像分割模型，本发明模型效果更佳。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例一种基于Prompt-nnUnet的3D医学图像分割系统示意图。

图2是本发明实施例一种基于Prompt-nnUnet的3D医学图像分割方法流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面参考图1详细描述本发明公开的一种基于Prompt-nnUnet的3D医学图像分割系统，包括模型构建模块10、模型训练模块20和分割模块30；

所述模型构建模块10，用于构建Prompt-nnUnet模型，所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架；所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器；所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention；进行卷积操作，输出分割结果。

CrossAttention 是一种注意力机制的实现方案，通过注意力机制， Q向量可以学习到K向量中提示的信息权重，利用该权重进一步得出V中的信息，综上，注意力类似我们视觉上看物体，总是集中在某一重点区域，CrossAttention也一样，可以集中在向量的某一特定区域提取信息。

其中，所述Prompt编码器采用pytorch框架构建可学习的（positional_encoding_gaussian_matrix）矩阵，其维度为(3, 256)，通过将三维坐标点与所述矩阵作矩阵乘法，将三维坐标点转化为256纬度的向量。该矩阵具备将三维坐标点(x, y, z)映射到空间中的能力。

其中，设计可学习的向量positive_point_embedding, negative_point_embedding,left_up_box_point_embedding, right_down_box_point_embedding, not_a_point_embedding, 用于学习输入Prompt编码器的输入为positive点、negative点、框左上角点和框右下角点和/或未输入框时的点。本模型支持框以及点的提示，框代表目标区域的3维外接框，点支持positive以及negative类型的点，分别代表目标区域以及非目标区域。

其中，所述nnUnet编码器通过卷积和下采样提升特征图通道数和降低特征图大小；所述nnUnet解码器通过跳跃连接和反卷积融合所述nnUnet编码器的特征图，当特征图通道数目反卷积达到256时，与所述Prompt编码器产生的向量进行CrossAttention。

比如通道数目在Encoder中从1->32->64->128->256->320，特征图从(d，h，w)->(d，h/2，w/2)->(d/2，h/4，w/4)->(d/4，h/8，w/8)->(d/8，h/16，w/16)->(d/8， h/32，w/32)，其中d代表深度，h、w代表横截面长和宽；在Decoder阶段，通道数以及特征图大小和Encoder阶段呈相反趋势，故当通道数目反卷积到256时，此时刚好和我们PromptEncoder产生的Prompt向量进行CrossAttention, 使得模型学习到我们的关注目标区间，Unet利用注意力学到我们的关注区间后，便可接着进行后续的卷机操作，得到最后的实例分割结果。

其中，所述跨注意结合采用如下点积注意力公式：

针对Q，比如说现在特征图大小是(10, 28, 28)，这个特征图上每个点都可以给个坐标，就是(3，10，28，28), 3代表的就是(x，y，z), 把每个点经过PromptEncocer后，就得到(256，10，28，28) 就是将位置编码从3维度转换为256维度，之后再加上特征图本身（256，10，28，28）。K和V是 Prompt点，最开始比如是 (n，3) n 代表 n个点，3代表这n个点的(x，y，z)坐标，经过Prompt后，变成(n，256)向量。

所述模型训练模块20，用于对所述Prompt-nnUnet模型进行训练。

具体可以为：

采用所述nnUnet模型框架训练出nnUnet基准模型，冻结所述nnUnet基准模型中nnUnet编码层的参数，使用He初始化，初始化其他网络参数，形成处理后的Prompt-nnUnet模型，选取框或者点的提示，标识目标区域，输入至处理后的Prompt-nnUnet模型，然后计算处理后的Prompt-nnUnet模型的输出与Ground Truth/人工标注的目标区域的差异，根据差异，筛选预测错误的数据FP以及未预测出结果的数据FN作为negative点和positive点输入所述Prompt编码器对所述处理后的Prompt-nnUnet模型进行迭代训练。以此模拟人机交互模式，提升模型的拟合能力，经过该训练方式，最后使得模型具备了Prompt能力。

所述分割模块30，用于采用Prompt-nnUnet模型中nnUnet模型框架得出目标区域，基于所述目标区域体对角上的两个点作为Prompt点信息输入所述Prompt-nnUnet模型中，得出最终分割结果。这样模型会既利用到nnUnet本身的能力，又利用Prompt自增强了一次自己的能力，得到更好的结果。

在子宫内膜癌上进行实验对比，控制样本一样，使用传统的Vne、nnUnet、EnhanceUnet得到了最高95% dice指标，且只使用nnUnet时，最高到94% dice，使用本发明Prompt-nnUnet模型，得到了最终97%的dice指标，充分证明了本发明Prompt-nnUnet模型的能力。

基于上述模型，设计一种如图2所示的基于Prompt-nnUnet的3D医学图像分割方法，包括：

S10、构建Prompt-nnUnet模型，所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架；所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器；所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention；再进行卷积操作，输出分割结果。

其中，所述Prompt编码器采用pytorch框架构建可学习的（positional_encoding_gaussian_matrix）矩阵，其维度为(3，256)，通过将三维坐标点与所述矩阵作矩阵乘法，将三维坐标点转化为256纬度的向量。该矩阵具备将三维坐标点(x，y，z)映射到空间中的能力。

比如通道数目在Encoder中从1->32->64->128->256->320，特征图从(d，h，w)->(d，h/2，w/2)->(d/2，h/4，w/4)->(d/4，h/8，w/8)->(d/8，h/16，w/16)->(d/8， h/32，w/32)，其中d代表深度，h，w代表横截面长和宽；在Decoder阶段，通道数以及特征图大小和Encoder阶段呈相反趋势，故当通道数目反卷积到256时，此时刚好和我们PromptEncoder产生的Prompt向量进行CrossAttention, 使得模型学习到我们的关注目标区间，Unet利用注意力学到我们的关注区间后，便可接着进行后续的卷机操作，得到最后的实例分割结果。

其中，所述跨注意结合采用如下点积注意力公式：

S20、对所述Prompt-nnUnet模型进行训练。

采用所述nnUnet模型框架训练出nnUnet基准模型，冻结所述nnUnet基准模型中nnUnet编码层的参数，使用He初始化，初始化其他网络参数，形成处理后的Prompt-nnUnet模型，选取框或者点的提示，标识目标区域，输入至处理后的Prompt-nnUnet模型，然后计算处理后的Prompt-nnUnet模型的输出与Ground Truth/人工标注的目标区域的差异，根据差异，将筛选预测错误的数据FP以及未预测出结果的数据FN作为negative点和positive点输入所述Prompt编码器对所述处理后的Prompt-nnUnet模型进行迭代训练。以此模拟人机交互模式，提升模型的拟合能力，经过该训练方式，最后使得模型具备了Prompt能力。

S30、采用Prompt-nnUnet模型中nnUnet模型框架得出目标区域，基于所述目标区域体对角上的两个点作为Prompt点信息输入所述Prompt-nnUnet模型中，得出最终分割结果。

基于上述构建完成的Prompt-nnUnet模型，以及SAM模型框架，可以设计一种用于分割3D医学图像的3DSAM模型。

基于本发明的Prompt-nnUnet模型训练构建的3DSAM模型支持直接使用3D医学数据进行推理，人工给出点、框提示后，使用交互方式便可实现自动分割，较2DSAM有更快的推理速度以及准确性。

本发明提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述方法的步骤。

电子设备可以包括处理装置（例如中央处理器、图形处理器等），其可以根据存储在只读存储器（ROM）中的程序或者从存储装置加载到随机访问存储器（RAM）中的程序而执行各种适当的动作和处理。在RAM 中，还存储有电子设备操作所需的各种程序和数据。处理装置、ROM 以及RAM通过总线彼此相连。输入/输出（I/O）接口也连接至总线。

通常，以下装置可以连接至I/O接口：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置；包括例如磁带、硬盘等的存储装置；以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。

本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述方法的步骤。

需要说明的是，本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于Prompt-nnUnet的3D医学图像分割系统，其特征在于，包括模型构建模块、模型训练模块和分割模块；

所述模型构建模块，用于构建Prompt-nnUnet模型，所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架；所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器；所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention；再进行卷积操作，输出分割结果；

所述模型训练模块，用于对所述Prompt-nnUnet模型进行训练；

2.根据权利要求1所述的基于Prompt-nnUnet的3D医学图像分割系统，其特征在于，所述Prompt编码器采用pytorch框架构建可学习的矩阵，将三维坐标点与所述矩阵作矩阵乘法，将三维坐标点转化为256维度的向量。

3.根据权利要求2所述的基于Prompt-nnUnet的3D医学图像分割系统，其特征在于，所述Prompt编码器的输入为positive点、negative点、框左上角点和框右下角点和/或未输入框时的点。

4.根据权利要求1所述的基于Prompt-nnUnet的3D医学图像分割系统，其特征在于，所述nnUnet编码器通过卷积和下采样提升特征图通道数和降低特征图大小；所述nnUnet解码器通过跳跃连接和反卷积融合所述nnUnet编码器的特征图，当特征图通道数目反卷积达到256时，与所述Prompt编码器产生的向量进行CrossAttention。

5.根据权利要求1所述的基于Prompt-nnUnet的3D医学图像分割系统，其特征在于，所述CrossAttention采用如下点积注意力公式：

6.根据权利要求1所述的基于Prompt-nnUnet的3D医学图像分割系统，其特征在于，所述对所述Prompt-nnUnet模型进行训练包括：

采用所述nnUnet模型框架训练出nnUnet基准模型，冻结所述nnUnet基准模型中nnUnet编码层的参数，初始化其他网络参数，形成处理后的Prompt-nnUnet模型，选取框或者点的提示，标识目标区域，输入至处理后的Prompt-nnUnet模型，然后计算处理后的Prompt-nnUnet模型的输出与人工标注的目标区域的差异，根据差异，筛选预测错误的数据以及未预测出结果的数据作为negative点和positive点输入所述Prompt编码器对所述处理后的Prompt-nnUnet模型进行迭代训练。

7.一种基于Prompt-nnUnet的3D医学图像分割方法，其特征在于，包括：

构建Prompt-nnUnet模型，所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架；所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器；所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention；再进行卷积操作，输出分割结果；

对所述Prompt-nnUnet模型进行训练；

8.一种用于分割3D医学图像的3DSAM模型，其特征在于，包括权利要求1所述的Prompt-nnUnet模型。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求7所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求7所述方法的步骤。