CN116758100A - 一种3d医学图像分割系统及方法 - Google Patents
一种3d医学图像分割系统及方法 Download PDFInfo
- Publication number
- CN116758100A CN116758100A CN202311037480.4A CN202311037480A CN116758100A CN 116758100 A CN116758100 A CN 116758100A CN 202311037480 A CN202311037480 A CN 202311037480A CN 116758100 A CN116758100 A CN 116758100A
- Authority
- CN
- China
- Prior art keywords
- nnunet
- model
- prompt
- encoder
- promt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000003709 image segmentation Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 230000008014 freezing Effects 0.000 claims description 4
- 238000007710 freezing Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract 1
- 238000005266 casting Methods 0.000 description 16
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 206010014733 Endometrial cancer Diseases 0.000 description 1
- 206010014759 Endometrial neoplasm Diseases 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及医学图像处理技术领域,具体为一种3D医学图像分割系统及方法,本方法包括构建Prompt‑nnUnet模型,模型包括Prompt编码器和nnUnet模型框架,nnUnet模型框架包括nnUnet编码器和nnUnet解码器,Prompt编码器产生的向量与nnUnet解码器的输出的特征图进行CrossAttention,再进行卷积操作,输出分割结果,对模型进行训练,采用nnUnet模型框架得出目标区域,基于目标区域体对角上的两个点作为Prompt点信息输入模型中,得出最终分割结果;通过本发明构建的模型具备了Prompt能力以及nnunet本身的实例分类能力,分割效果更佳。
Description
技术领域
本发明涉及医学图像处理技术领域,具体为一种3D医学图像分割系统及方法。
背景技术
传统的3D医疗检测方法通常使用基于卷积神经网络(CNN)的架构,如U-Net、V-Net、3D-UNet等。这些方法需要针对每个特定任务进行训练,并且需要大量的标注数据。与之相比,SAM具有更强的泛化能力和更少的数据需求,因为它可以利用自然语言提示来指导分割过程,并且可以重用在自然图像上预训练的参数。
SAM是一种基于自然语言提示的通用目标分割模型,它使用了Transformer架构来捕捉图像中的空间信息。SAM在自然图像上表现出了令人印象深刻的结果,但是在医疗图像上的性能却受到了限制,尤其是在处理涉及小尺寸、不规则形状和低对比度的肿瘤分割任务时。且SAM是为2D自然图像设计的,因此不能有效地提取3D医疗数据中的空间信息。这导致了SAM在处理体积数据时的性能下降和不稳定。SAM对自然语言提示的质量和数量非常敏感,因此需要用户提供合适的输入来指导分割过程。这增加了用户的负担和交互成本,也限制了SAM的自动化能力。SAM在医疗图像上的泛化能力受到了训练数据分布的影响。由于医疗图像与自然图像存在很大的领域差异,不同的医疗图像模态、维度、对比度、目标大小等因素也会影响SAM的分割效果。
发明内容
(一)发明目的
鉴于上述问题,为了得出更好的3D医学图像分割方法,本公开提供了以下技术方案。
(二)技术方案
第一方面,本发明提供了一种基于Prompt-nnUnet的3D医学图像分割系统,包括模型构建模块、模型训练模块和分割模块;
所述模型构建模块,用于构建Prompt-nnUnet模型,所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架;所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器;所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention;进行卷积操作,输出分割结果;
所述模型训练模块,用于对所述Prompt-nnUnet模型进行训练;
所述分割模块,用于采用Prompt-nnUnet模型中nnUnet模型框架得出目标区域,基于所述目标区域体对角上的两个点作为Prompt点信息输入所述Prompt-nnUnet模型中,得出最终分割结果。
作为一种可实施方式,所述Prompt编码器采用pytorch框架构建可学习的(positional_encoding_gaussian_matrix)矩阵,将三维坐标点与所述矩阵作矩阵乘法,将三维坐标点转化为256纬度的向量。
作为一种可实施方式,所述Prompt编码器的输入为positive点、negative点、框左上角点和框右下角点和/或未输入框时的点。
作为一种可实施方式,所述nnUnet编码器通过卷积和下采样提升特征图通道数和降低特征图大小;所述nnUnet解码器通过跳跃连接和反卷积融合所述nnUnet编码器的特征图,当特征图通道数目反卷积达到256时,与所述Prompt编码器产生的向量进行跨注意结合。
作为一种可实施方式,所述跨注意结合采用如下点积注意力公式:
其中,Q是nnUnet解码器通道数为256时对应的特征图中每个点经过Prompt编码器后产生的256维度的向量加上原特征图所构成的向量,shape为(256, d/4, h/8, w/8);K、V为Prompt编码器中输入的Prompt点信息,shape为(n, 256),n是prompt点的个数;T为K的转置;dk为K的维度;其中d代表深度,h代表横截面长,w代表横截面宽。
作为一种可实施方式,所述对所述Prompt-nnUnet模型进行训练包括:
采用所述nnUnet模型框架训练出nnUnet基准模型,冻结所述nnUnet基准模型中nnUnet编码层的参数,初始化其他网络参数,形成处理后的Prompt-nnUnet模型,选取框或者点的提示,标识目标区域,输入至处理后的Prompt-nnUnet模型,然后计算处理后的Prompt-nnUnet模型的输出与人工标注的目标区域mask的差异,根据差异,筛选预测错误的数据以及未预测出结果的数据作为negative点和positive点输入所述Prompt编码器对所述处理后的Prompt-nnUnet模型进行迭代训练。
第二方面,本发明提供一种基于Prompt-nnUnet的3D医学图像分割方法,包括:
构建Prompt-nnUnet模型,所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架;所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器;所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention;进行卷积操作,输出分割结果;
对所述Prompt-nnUnet模型进行训练;
采用Prompt-nnUnet模型中nnUnet模型框架得出目标区域,基于所述目标区域体对角上的两个点作为Prompt点信息输入所述Prompt-nnUnet模型中,得出最终分割结果。
第三方面,本发明提供一种用于分割3D医学图像的3DSAM模型,包括所述的Prompt-nnUnet模型。
第四方面,本发明提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
第五方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
(三)有益效果
本公开实施例与现有技术相比存在的有益效果是:本发明实现将SAM中Promt思想融入优良的nnUnet框架,形成Prompt-nnUnet模型,支持3D医学数据的Prompt,最终模型具备了Prompt能力以及原先nnunet本身的实例分类能力,较如U-Net、V-Net、3D-UNet等形成的3D医学影像分割模型,本发明模型效果更佳。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例一种基于Prompt-nnUnet的3D医学图像分割系统示意图。
图2是本发明实施例一种基于Prompt-nnUnet的3D医学图像分割方法流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面参考图1详细描述本发明公开的一种基于Prompt-nnUnet的3D医学图像分割系统,包括模型构建模块10、模型训练模块20和分割模块30;
所述模型构建模块10,用于构建Prompt-nnUnet模型,所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架;所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器;所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention;进行卷积操作,输出分割结果。
CrossAttention 是一种注意力机制的实现方案,通过注意力机制, Q向量可以学习到K向量中提示的信息权重,利用该权重进一步得出V中的信息,综上,注意力类似我们视觉上看物体,总是集中在某一重点区域,CrossAttention也一样,可以集中在向量的某一特定区域提取信息。
其中,所述Prompt编码器采用pytorch框架构建可学习的(positional_encoding_gaussian_matrix)矩阵,其维度为(3, 256),通过将三维坐标点与所述矩阵作矩阵乘法,将三维坐标点转化为256纬度的向量。该矩阵具备将三维坐标点(x, y, z)映射到空间中的能力。
其中,设计可学习的向量positive_point_embedding, negative_point_embedding,left_up_box_point_embedding, right_down_box_point_embedding, not_a_point_embedding, 用于学习输入Prompt编码器的输入为positive点、negative点、框左上角点和框右下角点和/或未输入框时的点。本模型支持框以及点的提示,框代表目标区域的3维外接框,点支持positive以及negative类型的点,分别代表目标区域以及非目标区域。
其中,所述nnUnet编码器通过卷积和下采样提升特征图通道数和降低特征图大小;所述nnUnet解码器通过跳跃连接和反卷积融合所述nnUnet编码器的特征图,当特征图通道数目反卷积达到256时,与所述Prompt编码器产生的向量进行CrossAttention。
比如通道数目在Encoder中从1->32->64->128->256->320,特征图从(d,h,w)->(d,h/2,w/2)->(d/2,h/4,w/4)->(d/4,h/8,w/8)->(d/8,h/16,w/16)->(d/8, h/32,w/32),其中d代表深度,h、w代表横截面长和宽;在Decoder阶段,通道数以及特征图大小和Encoder阶段呈相反趋势,故当通道数目反卷积到256时,此时刚好和我们PromptEncoder产生的Prompt向量进行CrossAttention, 使得模型学习到我们的关注目标区间,Unet利用注意力学到我们的关注区间后,便可接着进行后续的卷机操作,得到最后的实例分割结果。
其中,所述跨注意结合采用如下点积注意力公式:
其中,Q是nnUnet解码器通道数为256时对应的特征图中每个点经过Prompt编码器后产生的256维度的向量加上原特征图所构成的向量,shape为(256, d/4, h/8, w/8);K、V为Prompt编码器中输入的Prompt点信息,shape为(n, 256),n是prompt点的个数;T为K的转置;dk为K的维度;其中d代表深度,h代表横截面长,w代表横截面宽。
针对Q,比如说现在特征图大小是(10, 28, 28),这个特征图上每个点都可以给个坐标,就是(3,10,28,28), 3代表的就是(x,y,z), 把每个点经过PromptEncocer后,就得到(256,10,28,28) 就是将位置编码从3维度转换为256维度,之后再加上特征图本身(256,10,28,28)。K和V是 Prompt点,最开始比如是 (n,3) n 代表 n个点,3代表这n个点的(x,y,z)坐标,经过Prompt后,变成(n,256)向量。
所述模型训练模块20,用于对所述Prompt-nnUnet模型进行训练。
具体可以为:
采用所述nnUnet模型框架训练出nnUnet基准模型,冻结所述nnUnet基准模型中nnUnet编码层的参数,使用He初始化,初始化其他网络参数,形成处理后的Prompt-nnUnet模型,选取框或者点的提示,标识目标区域,输入至处理后的Prompt-nnUnet模型,然后计算处理后的Prompt-nnUnet模型的输出与Ground Truth/人工标注的目标区域的差异,根据差异,筛选预测错误的数据FP以及未预测出结果的数据FN作为negative点和positive点输入所述Prompt编码器对所述处理后的Prompt-nnUnet模型进行迭代训练。以此模拟人机交互模式,提升模型的拟合能力,经过该训练方式,最后使得模型具备了Prompt能力。
所述分割模块30,用于采用Prompt-nnUnet模型中nnUnet模型框架得出目标区域,基于所述目标区域体对角上的两个点作为Prompt点信息输入所述Prompt-nnUnet模型中,得出最终分割结果。这样模型会既利用到nnUnet本身的能力,又利用Prompt自增强了一次自己的能力,得到更好的结果。
在子宫内膜癌上进行实验对比,控制样本一样,使用传统的Vne、nnUnet、EnhanceUnet得到了最高95% dice指标,且只使用nnUnet时,最高到94% dice,使用本发明Prompt-nnUnet模型,得到了最终97%的dice指标,充分证明了本发明Prompt-nnUnet模型的能力。
基于上述模型,设计一种如图2所示的基于Prompt-nnUnet的3D医学图像分割方法,包括:
S10、构建Prompt-nnUnet模型,所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架;所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器;所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention;再进行卷积操作,输出分割结果。
其中,所述Prompt编码器采用pytorch框架构建可学习的(positional_encoding_gaussian_matrix)矩阵,其维度为(3,256),通过将三维坐标点与所述矩阵作矩阵乘法,将三维坐标点转化为256纬度的向量。该矩阵具备将三维坐标点(x,y,z)映射到空间中的能力。
其中,设计可学习的向量positive_point_embedding, negative_point_embedding,left_up_box_point_embedding, right_down_box_point_embedding, not_a_point_embedding, 用于学习输入Prompt编码器的输入为positive点、negative点、框左上角点和框右下角点和/或未输入框时的点。本模型支持框以及点的提示,框代表目标区域的3维外接框,点支持positive以及negative类型的点,分别代表目标区域以及非目标区域。
其中,所述nnUnet编码器通过卷积和下采样提升特征图通道数和降低特征图大小;所述nnUnet解码器通过跳跃连接和反卷积融合所述nnUnet编码器的特征图,当特征图通道数目反卷积达到256时,与所述Prompt编码器产生的向量进行CrossAttention。
比如通道数目在Encoder中从1->32->64->128->256->320,特征图从(d,h,w)->(d,h/2,w/2)->(d/2,h/4,w/4)->(d/4,h/8,w/8)->(d/8,h/16,w/16)->(d/8, h/32,w/32),其中d代表深度,h,w代表横截面长和宽;在Decoder阶段,通道数以及特征图大小和Encoder阶段呈相反趋势,故当通道数目反卷积到256时,此时刚好和我们PromptEncoder产生的Prompt向量进行CrossAttention, 使得模型学习到我们的关注目标区间,Unet利用注意力学到我们的关注区间后,便可接着进行后续的卷机操作,得到最后的实例分割结果。
其中,所述跨注意结合采用如下点积注意力公式:
其中,Q是nnUnet解码器通道数为256时对应的特征图中每个点经过Prompt编码器后产生的256维度的向量加上原特征图所构成的向量,shape为(256, d/4, h/8, w/8);K、V为Prompt编码器中输入的Prompt点信息,shape为(n, 256),n是prompt点的个数;T为K的转置;dk为K的维度;其中d代表深度,h代表横截面长,w代表横截面宽。
S20、对所述Prompt-nnUnet模型进行训练。
采用所述nnUnet模型框架训练出nnUnet基准模型,冻结所述nnUnet基准模型中nnUnet编码层的参数,使用He初始化,初始化其他网络参数,形成处理后的Prompt-nnUnet模型,选取框或者点的提示,标识目标区域,输入至处理后的Prompt-nnUnet模型,然后计算处理后的Prompt-nnUnet模型的输出与Ground Truth/人工标注的目标区域的差异,根据差异,将筛选预测错误的数据FP以及未预测出结果的数据FN作为negative点和positive点输入所述Prompt编码器对所述处理后的Prompt-nnUnet模型进行迭代训练。以此模拟人机交互模式,提升模型的拟合能力,经过该训练方式,最后使得模型具备了Prompt能力。
S30、采用Prompt-nnUnet模型中nnUnet模型框架得出目标区域,基于所述目标区域体对角上的两个点作为Prompt点信息输入所述Prompt-nnUnet模型中,得出最终分割结果。
基于上述构建完成的Prompt-nnUnet模型,以及SAM模型框架,可以设计一种用于分割3D医学图像的3DSAM模型。
基于本发明的Prompt-nnUnet模型训练构建的3DSAM模型支持直接使用3D医学数据进行推理,人工给出点、框提示后,使用交互方式便可实现自动分割,较2DSAM有更快的推理速度以及准确性。
本发明提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM 中,还存储有电子设备操作所需的各种程序和数据。处理装置、ROM 以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
通常,以下装置可以连接至I/O接口:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。
本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种基于Prompt-nnUnet的3D医学图像分割系统,其特征在于,包括模型构建模块、模型训练模块和分割模块;
所述模型构建模块,用于构建Prompt-nnUnet模型,所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架;所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器;所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention;再进行卷积操作,输出分割结果;
所述模型训练模块,用于对所述Prompt-nnUnet模型进行训练;
所述分割模块,用于采用Prompt-nnUnet模型中nnUnet模型框架得出目标区域,基于所述目标区域体对角上的两个点作为Prompt点信息输入所述Prompt-nnUnet模型中,得出最终分割结果。
2.根据权利要求1所述的基于Prompt-nnUnet的3D医学图像分割系统,其特征在于,所述Prompt编码器采用pytorch框架构建可学习的矩阵,将三维坐标点与所述矩阵作矩阵乘法,将三维坐标点转化为256维度的向量。
3.根据权利要求2所述的基于Prompt-nnUnet的3D医学图像分割系统,其特征在于,所述Prompt编码器的输入为positive点、negative点、框左上角点和框右下角点和/或未输入框时的点。
4.根据权利要求1所述的基于Prompt-nnUnet的3D医学图像分割系统,其特征在于,所述nnUnet编码器通过卷积和下采样提升特征图通道数和降低特征图大小;所述nnUnet解码器通过跳跃连接和反卷积融合所述nnUnet编码器的特征图,当特征图通道数目反卷积达到256时,与所述Prompt编码器产生的向量进行CrossAttention。
5.根据权利要求1所述的基于Prompt-nnUnet的3D医学图像分割系统,其特征在于,所述CrossAttention采用如下点积注意力公式:
其中,Q是nnUnet解码器通道数为256时对应的特征图中每个点经过Prompt编码器后产生的256维度的向量加上原特征图所构成的向量,shape为(256, d/4, h/8, w/8);K、V为Prompt编码器中输入的Prompt点信息,shape为(n, 256),n是prompt点的个数;T为K的转置;dk为K的维度;其中d代表深度,h代表横截面长,w代表横截面宽。
6.根据权利要求1所述的基于Prompt-nnUnet的3D医学图像分割系统,其特征在于,所述对所述Prompt-nnUnet模型进行训练包括:
采用所述nnUnet模型框架训练出nnUnet基准模型,冻结所述nnUnet基准模型中nnUnet编码层的参数,初始化其他网络参数,形成处理后的Prompt-nnUnet模型,选取框或者点的提示,标识目标区域,输入至处理后的Prompt-nnUnet模型,然后计算处理后的Prompt-nnUnet模型的输出与人工标注的目标区域的差异,根据差异,筛选预测错误的数据以及未预测出结果的数据作为negative点和positive点输入所述Prompt编码器对所述处理后的Prompt-nnUnet模型进行迭代训练。
7.一种基于Prompt-nnUnet的3D医学图像分割方法,其特征在于,包括:
构建Prompt-nnUnet模型,所述Prompt-nnUnet模型包括Prompt编码器和nnUnet模型框架;所述nnUnet模型框架包括nnUnet编码器和nnUnet解码器;所述Prompt编码器产生的向量与所述nnUnet解码器的输出的特征图进行CrossAttention;再进行卷积操作,输出分割结果;
对所述Prompt-nnUnet模型进行训练;
采用Prompt-nnUnet模型中nnUnet模型框架得出目标区域,基于所述目标区域体对角上的两个点作为Prompt点信息输入所述Prompt-nnUnet模型中,得出最终分割结果。
8.一种用于分割3D医学图像的3DSAM模型,其特征在于,包括权利要求1所述的Prompt-nnUnet模型。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求7所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求7所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311037480.4A CN116758100A (zh) | 2023-08-17 | 2023-08-17 | 一种3d医学图像分割系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311037480.4A CN116758100A (zh) | 2023-08-17 | 2023-08-17 | 一种3d医学图像分割系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116758100A true CN116758100A (zh) | 2023-09-15 |
Family
ID=87951817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311037480.4A Pending CN116758100A (zh) | 2023-08-17 | 2023-08-17 | 一种3d医学图像分割系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758100A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557675A (zh) * | 2024-01-12 | 2024-02-13 | 北京航空航天大学杭州创新研究院 | 一种深度学习mri图像加速重建方法及系统 |
CN117745746A (zh) * | 2024-02-19 | 2024-03-22 | 中国人民解放军总医院第四医学中心 | 一种基于可变形nnUNet的图像分割方法和装置 |
CN118052830A (zh) * | 2024-01-04 | 2024-05-17 | 重庆邮电大学 | 一种基于隐式提示的多病变视网膜分割方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220180506A1 (en) * | 2020-12-03 | 2022-06-09 | Ping An Technology (Shenzhen) Co., Ltd. | Method, device, and storage medium for pancreatic mass segmentation, diagnosis, and quantitative patient management |
KR20220121141A (ko) * | 2021-02-24 | 2022-08-31 | 서울대학교병원 | 혈액을 전달하는 신체 구성요소를 분할하는 방법 및 장치 |
US11526994B1 (en) * | 2021-09-10 | 2022-12-13 | Neosoma, Inc. | Labeling, visualization, and volumetric quantification of high-grade brain glioma from MRI images |
US20230072400A1 (en) * | 2021-09-07 | 2023-03-09 | Arizona Board Of Regents On Behalf Of Arizona State University | SYSTEMS, METHODS, AND APPARATUSES FOR GENERATING PRE-TRAINED MODELS FOR nnU-Net THROUGH THE USE OF IMPROVED TRANSFER LEARNING TECHNIQUES |
CN115797638A (zh) * | 2023-02-03 | 2023-03-14 | 神州医疗科技股份有限公司 | 一种医学图像分割方法、装置、电子设备及存储介质 |
KR20230057060A (ko) * | 2021-10-21 | 2023-04-28 | 고려대학교 산학협력단 | 두경부 이미지 구획화 방법 및 장치 |
CN116188392A (zh) * | 2022-12-30 | 2023-05-30 | 阿里巴巴(中国)有限公司 | 图像处理方法、计算机可读存储介质以及计算机终端 |
WO2023098289A1 (zh) * | 2021-12-01 | 2023-06-08 | 浙江大学 | 一种基于对抗学习的无标签胰腺影像自动分割系统 |
CN116485813A (zh) * | 2023-04-25 | 2023-07-25 | 北京理工大学 | 基于提示学习的零样本脑病灶分割方法、系统、设备和介质 |
CN116596846A (zh) * | 2023-04-07 | 2023-08-15 | 北京航空航天大学 | 图像分割方法、图像分割模型构建方法、装置及介质 |
-
2023
- 2023-08-17 CN CN202311037480.4A patent/CN116758100A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220180506A1 (en) * | 2020-12-03 | 2022-06-09 | Ping An Technology (Shenzhen) Co., Ltd. | Method, device, and storage medium for pancreatic mass segmentation, diagnosis, and quantitative patient management |
KR20220121141A (ko) * | 2021-02-24 | 2022-08-31 | 서울대학교병원 | 혈액을 전달하는 신체 구성요소를 분할하는 방법 및 장치 |
US20230072400A1 (en) * | 2021-09-07 | 2023-03-09 | Arizona Board Of Regents On Behalf Of Arizona State University | SYSTEMS, METHODS, AND APPARATUSES FOR GENERATING PRE-TRAINED MODELS FOR nnU-Net THROUGH THE USE OF IMPROVED TRANSFER LEARNING TECHNIQUES |
US11526994B1 (en) * | 2021-09-10 | 2022-12-13 | Neosoma, Inc. | Labeling, visualization, and volumetric quantification of high-grade brain glioma from MRI images |
KR20230057060A (ko) * | 2021-10-21 | 2023-04-28 | 고려대학교 산학협력단 | 두경부 이미지 구획화 방법 및 장치 |
WO2023098289A1 (zh) * | 2021-12-01 | 2023-06-08 | 浙江大学 | 一种基于对抗学习的无标签胰腺影像自动分割系统 |
CN116188392A (zh) * | 2022-12-30 | 2023-05-30 | 阿里巴巴(中国)有限公司 | 图像处理方法、计算机可读存储介质以及计算机终端 |
CN115797638A (zh) * | 2023-02-03 | 2023-03-14 | 神州医疗科技股份有限公司 | 一种医学图像分割方法、装置、电子设备及存储介质 |
CN116596846A (zh) * | 2023-04-07 | 2023-08-15 | 北京航空航天大学 | 图像分割方法、图像分割模型构建方法、装置及介质 |
CN116485813A (zh) * | 2023-04-25 | 2023-07-25 | 北京理工大学 | 基于提示学习的零样本脑病灶分割方法、系统、设备和介质 |
Non-Patent Citations (4)
Title |
---|
FABIAN ISENSEE 等: "nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation", NATURE METHODS, vol. 18, pages 203 - 211, XP037359671, DOI: 10.1038/s41592-020-01008-z * |
JUNDE WU 等: "PromptUNet: Toward Interactive Medical Image Segmentation", ARXIV:2305.10300V1[EESS.IV], pages 1 - 13 * |
贺宝春;贾富仓;: "基于组合U-Net网络的CT图像头颈放疗危及器官自动分割", 集成技术, no. 02 * |
黄小米吖: "[Transformer]U-Net Transformer:Self and cross Attention for Medical Image Segmentation", pages 1 - 17, Retrieved from the Internet <URL:https://blog.csdn.net/qq_37151108/article/details/1321001395> * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118052830A (zh) * | 2024-01-04 | 2024-05-17 | 重庆邮电大学 | 一种基于隐式提示的多病变视网膜分割方法 |
CN117557675A (zh) * | 2024-01-12 | 2024-02-13 | 北京航空航天大学杭州创新研究院 | 一种深度学习mri图像加速重建方法及系统 |
CN117557675B (zh) * | 2024-01-12 | 2024-04-30 | 北京航空航天大学杭州创新研究院 | 一种深度学习mri图像加速重建方法及系统 |
CN117745746A (zh) * | 2024-02-19 | 2024-03-22 | 中国人民解放军总医院第四医学中心 | 一种基于可变形nnUNet的图像分割方法和装置 |
CN117745746B (zh) * | 2024-02-19 | 2024-05-31 | 中国人民解放军总医院第四医学中心 | 一种基于可变形nnUNet的图像分割方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110599492B (zh) | 图像分割模型的训练方法、装置、电子设备及存储介质 | |
CN116758100A (zh) | 一种3d医学图像分割系统及方法 | |
CN107293296B (zh) | 语音识别结果纠正方法、装置、设备及存储介质 | |
WO2023231329A1 (zh) | 一种医学图像的语义分割方法及装置 | |
CN110276345B (zh) | 卷积神经网络模型训练方法、装置和计算机可读存储介质 | |
CN106663425A (zh) | 用于自动语音识别的使用外推的跳帧和按需输出的神经网络 | |
CN113377914A (zh) | 推荐文本生成方法、装置、电子设备和计算机可读介质 | |
CN117095006B (zh) | 图像美学评估方法、装置、电子设备及存储介质 | |
CN115797495A (zh) | 一种句子-字符语义空间融合感知的文本生成图像的方法 | |
CN113780326A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
CN111368668A (zh) | 三维手部识别方法、装置、电子设备及存储介质 | |
CN117011156A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN116977885A (zh) | 视频文本任务处理方法、装置、电子设备及可读存储介质 | |
CN114299252B (zh) | 通用三维模型重建方法及装置、存储介质及电子设备 | |
CN113570695B (zh) | 一种图像生成方法、装置及电子设备 | |
CN118397147A (zh) | 一种基于深度学习的图像文本生成方法及装置 | |
CN112037305B (zh) | 对图像中的树状组织进行重建的方法、设备及存储介质 | |
CN117689772A (zh) | 一种基于潜空间特征融合的物体背景合成方法和系统 | |
CN114565953A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN113808192B (zh) | 一种户型图生成方法、装置、设备及存储介质 | |
CN114067069A (zh) | 一种基于深度学习的轨迹表示方法及系统 | |
CN114399708A (zh) | 一种视频动作迁移深度学习系统和方法 | |
CN115731240A (zh) | 一种分割方法、装置、电子设备及存储介质 | |
Mao et al. | A deep learning approach to track Arabidopsis seedlings’ circumnutation from time-lapse videos | |
CN118279679B (zh) | 基于深度学习模型的图像分类方法、图像分类设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230915 |