CN116958163A

CN116958163A - 一种多器官和/或病灶的医学图像分割方法及装置

Info

Publication number: CN116958163A
Application number: CN202311218351.5A
Authority: CN
Inventors: 祁霞; 周凡渝; 张雨萌; 项峥; 池琛; 罗富良; 黄乾富
Original assignee: Hygea Medical Technology Co Ltd
Current assignee: Hygea Medical Technology Co Ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-10-27
Anticipated expiration: 2043-09-20
Also published as: CN116958163B

Abstract

本发明提供一种多器官和/或病灶的医学图像分割方法及装置。获取包含目标区域的目标医学图像；确定包括目标医学图像中待分割的多个器官和/或病灶的候选框；将目标医学图像和候选框输入预先训练的分割模型，获取针对目标区域多个器官和/或病灶的第一分割结果；分割模型包括：图像编码器，用于提取目标医学图像的多尺度图像特征；候选框编码器，用于提取候选框token以表征候选框的坐标特征；掩膜解码器，用于根据医学图像的多尺度图像特征和候选框token生成分割结果。考虑了不同器官之间的位置信息和尺度信息，不易出现混淆或遗漏的情况。进一步地，提供了可靠的修正机制，以便医生在自动分割的基础上实现快捷的半自动分割，提高分割的准确性和可信度。

Description

一种多器官和/或病灶的医学图像分割方法及装置

技术领域

本发明涉及医学图像分割技术领域，尤其涉及一种多器官和/或病灶的医学图像分割方法及装置。

背景技术

腹部多器官分割和病灶分割是医学图像处理的重要任务之一，它可以为手术导航、病灶识别、器官测量等临床应用提供基础支持。然而，腹部多器官分割和病灶分割面临着诸多挑战，如腹部器官的形态和位置变化较大，腹部病灶的形状和大小不一，腹部图像的质量和对比度不佳等。

根据分割形式可分为手动标注、半自动分割和全自动分割。目前，人工手动标注是最常用的分割方法，但这种方法存在耗时长、标准不统一、精度较差等问题。全自动分割方法目前具有广阔的探索意义，但分割精度尚不能完全替代手工标注。半自动分割方法主要是在引入人的先验信息的基础上，再采用如阈值分割、区域生长、深度学习等方法进行分割，但这种方法往往分割效果不佳，且耗费时间较长。因此，开发一种高效、准确、鲁棒的医学图像分割方法具有重要的研究价值和实际意义。

发明内容

为解决上述问题，本发明提供一种多器官和/或病灶的医学图像分割方法及装置。

第一方面，本发明实施例提供一种多器官和/或病灶的医学图像分割方法，包括：

获取包含目标区域的目标医学图像；

确定包括目标医学图像中待分割的多个器官和/或病灶的候选框；

将所述目标医学图像和所述候选框输入预先训练的分割模型，获取针对目标区域多个器官和/或病灶的第一分割结果；

其中，所述分割模型包括：

图像编码器，用于提取目标医学图像的多尺度图像特征；

候选框编码器，用于提取候选框token以表征候选框的坐标特征；

掩膜解码器，用于根据医学图像的多尺度图像特征和候选框token生成分割结果。

在一些实现方式中，在候选框包括整个目标医学图像且第一分割结果不满足需求的情况下，所述方法还包括：

获取用户针对目标医学图像中勾画的候选框，以重新确定候选框；

利用所述分割模型的候选框编码器，提取重新确定的候选框的候选框token；

利用所述分割模型的掩膜解码器，根据医学图像的多尺度图像特征和重新确定的候选框的候选框token生成第二分割结果。

在一些实现方式中，获取包含目标区域的目标医学图像，包括：

获取包含目标区域的原始医学图像；

对所述原始医学图像进行标准化处理，使其像素值范围在0到1之间；

将标准化处理后的医学图像沿x轴和y轴进行重采样；

将重采样后的医学图像沿z轴进行等距离切分，得到若干个子图像，将所述若干个子图像中的任一子图像确定为目标医学图像。

在一些实现方式中，所述图像编码器包括：

图像分区模块，用于将目标医学图像划分为若干个图像块；

第一线性层，用于对每个图像块及其位置编码的相加结果进行线性变换；

多个编码模块，用于分别对线性变换的结果进行图像特征抽取；

多个第一卷积层，用于分别对抽取的图像特征进行卷积或者转置卷积操作，得到与目标医学图像尺度不同的图像特征；

占位层，用于保持抽取的与目标医学图像尺度相同的图像特征尺度；

多个第二卷积层，用于对所述多个第一卷积层和所述占位层输出的不同尺度的图像特征进行特征维度统一，并输出多尺度图像特征。

在一些实现方式中，所述编码模块包括多个编码子模块；所述编码子模块包括：

第一归一化层，用于对所述第一线性层输出的图像特征进行标准化处理；

注意力机制层，用于采用交错稀疏自注意力机制对所述第一归一化层输出的图像特征进行关键信息提取；

第二归一化层，用于对所述注意力机制层输出的关键信息进行标准化处理；

第二线性层，用于对所述第二归一化层的输出进行线性变换；

其中，输入所述第一归一化层的图像特征经过卷积运算后与所述注意力机制层的输出相加，形成跳跃连接，以实现特征融合；相加的结果和经过卷积运算后与所述第二线性层的输出相加，形成跳跃连接，以实现特征融合。

在一些实现方式中，所述候选框编码器在提取候选框token以表征候选框的坐标特征时，用于：

将候选框以候选框的中心坐标和最大半径表示；

将候选框的中心点坐标与候选框的位置编码相乘后与一个可学习的编码相加，将最大半径与一个可学习的编码相加，分别得到两个候选框token，用于表征候选框的坐标特征。

在一些实现方式中，所述掩膜解码器包括：

解码注意力层，用于通过模拟图像噪声的前向扩散过程和反向扩散过程，从噪声中获得真实的多尺度掩膜编码；

特征融合层，用于对多尺度掩膜编码进行特征融合进而得到表征分割结果的掩膜。

在一些实现方式中，所述解码注意力层，包括：

解码注意力模块，用于模拟图像噪声的前向扩散过程，其输入包括多尺度图像特征及其位置编码相加后与噪声掩膜计算交叉注意力得到的掩膜编码，以及拼接后的候选框token和设定的输出token，所述输出token包括dice token和掩膜token；其输出包括设定更新次数后更新得到的多尺度掩膜编码，dice token和掩膜token；

去噪扩散隐式模型，用于模拟图像噪声的反向扩散过程，其输入包括更新的多尺度掩膜编码，其输出包括噪声掩膜。

在一些实现方式中，所述解码注意力模块包括：

自注意力运算模块，用于对拼接后的候选框token和设定的输出token作自注意力运算；

第一交叉注意力模块，用于以候选框token作为查询向量，对掩膜编码做交叉注意力运算，更新候选框token；

第三线性层，用于对所述第一交叉注意力模块的输出进行线性变换；

第二交叉注意力模块，用于将掩膜编码作为查询向量，对候选框token做交叉注意力运算，更新掩膜编码。

在一些实现方式中，所述特征融合层在对多尺度掩膜编码进行特征融合进而得到表征分割结果的掩膜时，用于：

将所述解码注意力层输出的多尺度掩膜编码，经过转置卷积进行上采样以统一尺度，并进行特征融合；提取掩膜token，经过卷积降维、归一化、线性转换至特征维度与掩膜编码一致；将掩膜token与掩膜编码相乘生成掩膜。

第二方面，本发明实施例提供一种多器官和/或病灶的医学图像分割装置，包括：

获取模块，用于获取包含目标区域的目标医学图像；

确定模块，用于确定包括目标医学图像中待分割的多个器官和/或病灶的候选框；

分割模块，用于将所述目标医学图像和所述候选框输入预先训练的分割模型，获取针对目标区域多个器官和/或病灶的第一分割结果；

其中，所述分割模型包括：

图像编码器，用于提取目标医学图像的多尺度图像特征；

在一些实现方式中，在候选框包括整个目标医学图像且第一分割结果不满足需求的情况下，所述确定模块还用于获取用户针对目标医学图像中勾画的候选框，以重新确定候选框；所述分割模块还用于利用所述分割模型的候选框编码器，提取重新确定的候选框的候选框token；利用所述分割模型的掩膜解码器，根据医学图像的多尺度图像特征和重新确定的候选框的候选框token生成第二分割结果。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时，实现如第一方面所述的方法。

第四方面，本发明实施例提供一种电子设备，包括存储器和至少一个处理器，所述存储器上存储有计算机程序，所述计算机程序被所述至少一个处理器执行时实现如第一方面所述的方法。

有益效果：

本发明提供的多器官和/或病灶的医学图像分割方法及装置，通过提取包含目标区域的目标医学图像的多尺度图像特征，和提取包括目标医学图像中待分割的多个器官和/或病灶的候选框的候选框token，生成自动分割结果，考虑了不同器官之间的位置信息和尺度信息，不易出现混淆或遗漏的情况。进一步地，提供了可靠的修正机制，以便医生在自动分割的基础上实现快捷的半自动分割，提高分割的准确性和可信度，本发明能够实现高效、准确、鲁棒的医学图像分割，具有重要的研究价值和实际意义。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定。

图1是本发明实施例提供的多器官和/或病灶的医学图像分割方法流程图；

图2是本发明实施例提供的分割模型示意图；

图3是本发明实施例提供的图像编码器示例；

图4是本发明实施例提供的编码子模块示例；

图5是本发明实施例提供的候选框编码器示例；

图6是本发明实施例提供的掩膜解码器示例；

图7是本发明实施例提供的特征融合层示例；

图8是本发明实施例提供的多器官和/或病灶的医学图像分割装置框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和展示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，深度学习方法在医学图像分割领域取得了显著的进展，其中基于卷积神经网络（Convolutional Neural Network，CNN）的Unet结构及其变种是最常用的方法之一。然而，CNN方法存在一些局限性，如感受野有限、空间信息损失、长距离依赖难以建模等。近年来，基于Transformer的网络在自然语言处理（Natural Language Processing, NLP）领域取得了突破性的成果，引起了计算机视觉领域的广泛关注。Transformer网络利用注意力机制（Attention Mechanism）来提取特征，能够有效地处理长距离依赖问题，并且具有更好的可解释性。Vision Transformer（ViT）是Transformer网络在计算机视觉领域的代表作之一，它将图像切分为若干个小块，并将每个小块视为一个词向量，然后输入到Transformer网络中进行特征提取和分类。ViT在自然图像分类任务上取得了优异的性能，但由于医学图像与自然图像存在很大的差异，如医学图像模态多样化、像素值范围与自然图像差别较大、医学图像相较于自然图像伪影更多且难以区分、医学图像的标注更加难以获得且成本高等。Transformer网络在医学图像分割任务上还没有得到充分的验证和应用。

经过申请人分析，上述医学图像与自然图像间的差异给医学图像分割带来了新的挑战和需求。首先，在医学图像中，不同器官之间可能存在相似或重叠的区域，导致分割结果出现混淆或遗漏。因此，在进行特征提取时，需要考虑不同器官之间的位置信息和尺度信息。其次，在医学图像中，不同病灶之间特征差异较大，导致分割结果出现混淆或遗漏。第三，在医学图像中，由于分割结果的精度直接影响临床决策和诊断，因此还需要提供一种可靠的修正机制，以便医生在自动分割的基础上实现快捷的半自动分割，提高分割的准确性和可信度。

为解决上述问题，本发明实施例提供一种多器官和/或病灶的医学图像分割方法及装置，可以在全自动或半自动的情况下实现高效、准确、鲁棒的分割效果。

实施例一

本实施例提供一种多器官和/或病灶的医学图像分割方法，如图1所示，包括：

步骤S101、获取包含目标区域的目标医学图像。

在实际应用中，本实施例的方法可以用于对腹部多器官和/或病灶进行分割，因此，目标区域可以指腹部区域，分割目标包括腹部区域的多器官和/或病灶。腹部区域的多器官包括但不限于以下器官或结构：肝脏、脾、左肾、右肾、胆囊、胃、胰腺、小肠、十二指肠、结肠、主动脉、肾上腺、膀胱、肋骨、脊椎。腹部区域的病灶包括但不限于肝内病灶。

在一些实现方式中，目标医学图像是经过预处理后的医学图像，因此，获取包含目标区域的目标医学图像，可进一步包括：

步骤S101a、获取包含目标区域的原始医学图像。

本实施例中，原始医学图像可以指腹部区域的CT图像。

步骤S101b、对原始医学图像进行标准化处理，使其像素值范围在0到1之间，以提升分割效果。

步骤S101c、将标准化处理后的医学图像沿x轴和y轴进行重采样。

在一些实现方式中，将标准化处理后的医学图像沿x轴和y轴进行双线性插值重采样，使其分辨率为256×256像素，以避免超出显存限制，提升了分割计算效率。

步骤S101d、将重采样后的医学图像沿z轴进行等距离切分，得到若干个子图像，将若干个子图像中的任一子图像确定为目标医学图像。

在一些实现方式中，每个子图像的尺寸为128×256×256像素，若切分后的子图像不足128层，则在其上下两端进行像素值补零，使其达到128层，分割模型的输入为切分得到的一个子图像（patch）。

步骤S102、确定包括目标医学图像中待分割的多个器官和/或病灶的候选框。

步骤S103、将目标医学图像和候选框输入预先训练的分割模型，获取针对目标区域多个器官和/或病灶的第一分割结果。

其中，分割模型包括：

图像编码器，用于提取目标医学图像的多尺度图像特征；

候选框编码器，用于提取候选框token以表征候选框的坐标特征；以及

在一个具体的示例中，分割模型如图2所示，包括三部分：图像编码器（Imageencoder）、候选框编码器（Box encoder）和掩膜解码器（Mask decoder），其中，图像编码器的输入为当前要分割的3D CT图像，输出为提取到的3D CT图像的多尺度图像特征；候选框编码器的输入为box坐标，即候选框坐标，输出为提取到的box坐标的特征；掩码解码器的输入为3D CT图像的多尺度图像特征和候选框的坐标特征，根据3D CT图像的多尺度特征和box坐标的特征生成分割结果，得到标签。

在一些具体的实现方式中，图像编码器包括：

图像分区模块，用于将目标医学图像划分为若干个图像块；

多个第二卷积层，用于对多个第一卷积层和所述占位层输出的不同尺度的图像特征进行特征维度统一，并输出多尺度图像特征。

在一个具体的示例中，图像编码器如图3所示，由于本实施例处理的是3D CT图像，3D CT图像的层与层之间存在丰富的信息，因此分割模型需要充分考虑深度方向的信息。分割模型输入的3D CT子图像的z、y、x轴像素个数分别为D、H、W，同时处理的批次为B（Batch）、通道数为C（=1），此处D、H、W例如均为16的倍数。首先，B*C*D*H*W的3D CT图像的子图像（patch）输入图像分区模块（Image partition）将目标医学图像划分为若干个图像块，每个图像块的维度为16*16*16，共得到D/16*H/16*W/16个patch，划分后的图像块各自对应自己的位置编码。然后，每个图像块与对应的位置编码（position embeddings）相加后，输入到第一线性（linear embedding层）层（Multi-Layer Perceptron，MLP）在MLP层经过线性变换后输入到编码模块（Encoder block）中进一步提取特征。编码模块Encoder block不改变CT图像的特征维度，只能得到一种1/16尺度的特征。但是，在CT图像中不同器官或结构大小差异很大，单一的特征尺度不能适应每种器官或结构的分割任务，因此需要构建多尺度的特征。本示例中，设置了三个编码模块，输出分别通过步长Stride=2的三维转置卷积（ConvT3d）操作、占位层（Identity）的保持操作，步长Stride=2的三维卷积（Conv3d）操作，产生1/8以及1/32尺度的特征，再在第二卷积层通过1×1×1的卷积（Conv）操作将特征维度统一到256，并经过一个3×3×3的卷积（Conv）操作输出维度256的特征，其中1×1×1的卷积（Conv）操作与3×3×3的卷积（Conv）操作之间设置了归一化层（LN）。每个卷积操作的激活函数均为GELU函数。最后得到1/8、1/16、1/32三种尺度的图像特征Image feature_8、Image feature_16、Image feature_32。

在一些实现方式中，前述编码模块（Encoder block）包括多个编码子模块（Encoder subblock），多个编码子模块可以顺序连接组成编码模块；每个编码子模块包括：

第一归一化层，用于对第一线性层输出的图像特征进行标准化处理；

注意力机制层，用于采用交错稀疏自注意力机制提取第一归一化层输出的图像特征进行关键信息提取；

第二归一化层，用于对注意力机制层输出的关键信息进行标准化处理；

第二线性层，用于对第二归一化层的输出进行线性变换；

其中，输入第一归一化层（LN）的图像特征经过卷积运算后与注意力机制层的输出相加，形成跳跃连接，以实现特征融合；相加的结果和经过卷积运算后与第二线性层的输出相加，形成跳跃连接，以实现特征融合。

在一个具体的示例中，编码子模块（Encoder subblock）如图4所示，为了降低占用显存和计算量，本示例计算注意力时采用ISSA，ISSA计算过程分为两步：首先，以距离p等距离抽取全局元素，第一次注意力计算的作用在以距离p等距地分散在全局的n/p个元素上（n为全局元素的个数）；然后，第二次注意力计算作用在n/p个局部窗口中的p个元素上，经过这样的处理，大大降低了显存占用量和计算量，同时保留了注意力全局感受野的能力。

图3中的MLP输出的图像特征Image feature首先经过第一归一化层（Layer Norm，LN），然后通过交错稀疏自注意力机制层（ISSA：Interlaced Sparse Self-Attention），提取关键信息。原始特征经过1×1×1的卷积运算后和交错稀疏自注意力机制层的输出相加，形成跳跃连接，使原始特征和注意力特征融合。经过第二归一化层（Layer Norm，LN）后，输入到第二线性层MLP。同样地，前面相加的结果再经过1×1×1的卷积运算后与MLP层输出相加，形成跳跃连接。

本实施例中，图像编码器对于同一组CT图像仅需要进行一次计算，得到多尺度图像特征（image feature）并存储，在初步分割时，由于没有医生等用户勾画的候选框作为待分割区域，此时的候选框包括整个目标医学图像。进一步地，在第一分割结果不满足需求的情况下，需要执行医生等用户参与反馈的半自动分割，获取医生勾画的候选框来重新确定待分割区域，此时，直接调用已存储的多尺度图像特征，再利用候选框编码器和掩膜解码器重新计算后即可得到第二分割结果，而候选框编码器和掩膜解码器两部分的计算量小且计算速度快，大大加快了半自动分割速度，同时能够有效的利用全图信息，提高灵敏度和特异度。

因此，在候选框包括整个目标医学图像且第一分割结果不满足需求的情况下，本实施例的方法还包括如下半自动分割过程：

步骤S104、获取用户针对目标医学图像中勾画的候选框，以重新确定候选框；

步骤S105、利用分割模型的候选框编码器，提取重新确定的候选框的候选框token；

步骤S106、利用分割模型的掩膜解码器，根据医学图像的多尺度图像特征和重新确定的候选框的候选框token生成第二分割结果。

步骤S102中确定包括目标医学图像中待分割的多个器官和/或病灶的候选框时，可以根据是否为初步分割来确定，如果是初步分割，由于此时还没有医生勾画的候选框，那么整个目标医学图像都在待分割区域内，此情况下第一分割结果不满足需求的话，则可以通过医生来反馈其勾画的候选框来指定待分割区域，实现基于医生反馈信息的半自动图像分割，从而提升分割的准确性和效率。第一分割结果不满足需求可以指分割不准确或未识别的器官或病灶，医生勾画待分割区域可以通过在CT图像的横断面手动勾画矩形或者圆形区域的方式。手动在CT图像的横断面上勾画待分割时，为了保证在其他片层包含完整待分割区域，需要四周扩展一定的距离，得到3D待分割区域。

在一些实现方式中，候选框编码器（Box encoder）在提取候选框token以表征候选框的坐标特征时，可以具体用于：

将候选框以候选框的中心坐标和最大半径表示；将候选框的中心点坐标与候选框的位置编码相乘后与一个可学习的编码相加，将最大半径与一个可学习的编码相加，分别得到两个候选框token，用于表征候选框的坐标特征。

在一个具体示例中，候选框编码器（Box encoder）如图5所示，将3D待分割区域用待分割区域的中心坐标（Boxconer coordinate）（zb,yb,xb）和最大半径R表示。中心点坐标与位置编码（position embeddings）相乘后和一个可学习的编码（coner embedding）相加，最大半径R与一个可学习的编码（coner embedding）相加，得到两个候选框token（boxtoken）。

在一些实现方式中，掩膜解码器包括：

进一步地，解码注意力层包括：

解码注意力模块，用于模拟图像噪声的前向扩散过程，其输入包括多尺度图像特征及其位置编码相加后与噪声掩膜计算交叉注意力得到的掩膜编码，以及拼接后的候选框token和设定的输出token，输出token包括dice token和掩膜token；其输出包括设定更新次数后更新得到的多尺度掩膜编码，dice token和掩膜token；

进一步地，解码注意力模块包括：

第三线性层，用于对第一交叉注意力模块的输出进行线性变换；

在一个具体示例中，掩膜解码器（Mask decoder）如图6所示，图像编码器输出的多尺度图像特征Image feature与位置编码（Position embeddings）相加后，与随机初始化的正态分布的噪声掩膜（Noise mask）计算交叉注意力（cross attention），进行特征融合得到掩膜编码（mask embedding），然后输入到图6方框所示的解码注意力模块（decoderattention block）中，同时，候选框token（box token）和设定的输出token（output token）拼接后也输入到解码注意力模块（decoder attention block）中，做自注意力（selfattention）运算。然后，以box token作为查询向量q，在第一交叉注意力模块对maskembedding做cross attention运算，更新box token。再经过第三线性层（LN），然后maskembedding作为q，在第二交叉注意力模块对box token做cross attention运算，更新maskembedding。更新后的mask embedding 经过去噪扩散隐式模型（DDIM模块）重新输入到decoder attention block。此过程经过t次循环（例如10次以内）后，最终输出三个尺度的mask embedding、更新后的掩膜token（mask token）和dice token。decoder attentionblock的输出包含三个尺度的特征，这三个尺度的特征分别经过decoder attention block后在特征融合层进行融合。

本示例中的decoder attention block的设计结合了扩散模型，主要作用是提高分割模型对于高噪声输入图像的分割能力，扩散模型首先通过逐步向真实mask中添加随机噪声（前向分散过程），然后构建模型学习反向扩散过程，从噪声中得到真实分布结果（掩膜编码）。此过程中，image feature作为附加条件，使模型学习分割对象。相较于DDPM而言，本示例中的解码注意力层采用更小的采样步数来加速mask生成过程。

在一些实现方式中，特征融合层在对多尺度掩膜编码进行特征融合进而得到表征分割结果的掩膜时，具体用于：

将解码注意力层输出的多尺度掩膜编码，经过转置卷积进行上采样以统一尺度，并进行特征融合；提取掩膜token，经过卷积降维、归一化、线性转换至特征维度与掩膜编码一致；将掩膜token与掩膜编码相乘生成掩膜。

继续前面示例，特征融合层如图7所示，将前述decoder attention block输出的1/32、1/16、1/8尺度的mask embeddings经过若干层转置卷积进行上采样，统一到1/4尺度的特征，并进行特征融合（concate）。其中，1/32尺度的mask embeddings经过三轮转置卷积（convT3d）+卷积（conv3d）+归一化（LN），1/16尺度的mask embeddings经过两轮转置卷积（convT3d）+卷积（conv3d）+归一化（LN），1/8尺度的mask embeddings经过两轮转置卷积（convT3d）+卷积（conv3d）+归一化（LN）。转置卷积的kernel size=2，stride=2，采用GELU激活函数。特征融合后通过一卷积层（conv3d）对特征进行降维，并输入到归一化层（layernorm，LN）。同时，将mask token从box token分离出来，并经过卷积层（conv3d）降维、LN层、线性层（MLP）将特征维度转换至与mask embedding一致。然后将mask token与maskembedding相乘生成预测的MASK。

本实施例中，分割模型采用了基于ISSA（Interlaced Sparse Self-Attention，交错稀疏自注意力机制）的网络结构，利用交错稀疏自注意力机制来提取腹部多器官和病灶的特征，能够有效地处理长距离依赖问题，同时降低显存占用和计算量，并且具有更好的可解释性。利用多尺度特征提取机制，结合不同尺度的特征来进行特征融合和分割预测，能够充分利用不同尺度的信息，并且提高分割的精度和鲁棒性。在自动分割基础上，还提供了交互式的半自动分割方式，利用用户提供的反馈信息来进行分割结果的评估和修正，能够有效地解决全自动分割结果不满足临床需求或存在错误或遗漏的问题，并且提高分割的准确性和可信度。相较于现有的全自动或半自动分割方法，能够更有效的利用全图信息，运算速度更快且准确率更高。

在实际应用中，本实施例所采用的分割模型的训练方法可以如下：

第一步，将不少于预设数量的医学图像划分为训练集、验证集和测试集，其中训练集用于模型的训练，验证集用于模型的选择，测试集用于模型的评估。

例如，将不少于500套CT图像以8:1:1的比例分为训练集、验证集和测试集，训练预设周期数，根据模型在验证集中得到的Dice结果选出最终模型。

第二步，对训练集中的CT图像进行预处理，包括窗宽和窗位调整、标准化、重采样和切分。

首先，对CT图像窗宽和窗位进行调整，统计训练集待分割目标的HU值，计算0.5%和99.5%分位数作为窗宽，将不在此范围内的像素点进行截断。

然后，对截断后的CT图像进行标准化处理，使其像素值范围在0到1之间。接着，将标准化后的CT图像沿x, y轴进行双线性插值重采样，使其分辨率为256×256像素。

最后，将重采样后的CT图像沿z轴进行等距离切分，得到若干个子图像，每个子图像的尺寸为128×256×256像素。如果切分后的子图像不足128层，则在其上下两端补零，使其达到128层。

第三步，对训练集中的CT图像进行数据增强处理，包括但不限于翻转、平移、旋转、添加噪声、弹性变换等方法。数据增强处理可以提高模型的泛化能力和鲁棒性。

第四步，对训练集中的CT图像进行预训练，使用Masked Autoencoders（MAE）方法。将输入的CT图像切分为若干个图像块，并执行mask操作，即随机地将一些图像块置为零。然后只把可见的图像块送入Image encoder中，并将Image encoder的输出以及掩码tokens作为轻量级decoder的输入。decoder重构整张CT图像，并计算重构误差作为损失函数。预训练完成后，只保留Image encoder部分。由于预训练是非监督方式，可以使用大量无标注数据进行预训练。

第五步，对训练集中的CT图像进行正式训练，使用前述分割模型结构。根据标注的器官和病灶，随机生成若干中心坐标和半径，并根据子图像的大小缩放到（0，1）之间。将子图像输入到Image encoder中，并将中心坐标和半径输入到Box encoder中。将Imageencoder和Box encoder的输出输入到Mask decoder中，并生成分割结果。然后将分割结果与标注的真值进行比较，并计算dice损失作为损失函数。使用优化器对模型参数进行更新。

第六步，对验证集中的CT图像进行分割，使用前述分割模型结构。将预处理后的子图像输入到Image encoder中，并使用整个图像的中心坐标和半径输入到Box encoder中。将Image encoder和Box encoder的输出输入到Mask decoder中，并生成分割结果。然后将分割结果与标注的真值进行比较，并计算dice值作为评估指标。根据模型在验证集中得到的dice值，选出最终模型。

训练过程中采用的损失函数是focal loss，dice loss和dice predict loss三者的加权和，如下式所示：

其中，focal loss基于预测的mask与真值之间计算，公式如下所示：

其中，,代表难易分类样本的权重；

代表正负样本的权重。

Dice loss同样基于预测的mask与真值之间计算：

其中，和/>分别表示X和Y的元素的个数，/>代表预测结果，/>代表真值。

Dice predict loss是基于预测结果与真值之间的dice和Mask decoder预测的dice的均方误差损失（MSE，mean squared error)。

其中，表示预测结果与真值之间的dice，/>表示mask decoder预测的dice。

训练过程优化器可以使用Adam优化器（，/>）进行参数更新直到模型收敛，学习率采用线性学习率warmup以及阶段学习率衰减。/>

模型收敛后，根据模型在验证集中得到的Dice结果，选出Dice值最高的模型作为最终分割模型。

实施例二

本实施例提供一种多器官和/或病灶的医学图像分割装置，如图8所示，包括：

获取模块201，用于获取包含目标区域的目标医学图像；

确定模块202，用于确定包括目标医学图像中待分割的多个器官和/或病灶的候选框；

分割模块203，用于将目标医学图像和所述候选框输入预先训练的分割模型，获取针对目标区域多个器官和/或病灶的第一分割结果；

其中，分割模型包括：

图像编码器，用于提取目标医学图像的多尺度图像特征；

进一步地，在候选框包括整个目标医学图像且第一分割结果不满足需求的情况下，确定模块还用于获取用户针对目标医学图像中勾画的候选框，以重新确定候选框；分割模块还用于利用所述分割模型的候选框编码器，提取重新确定的候选框的候选框token；利用分割模型的掩膜解码器，根据医学图像的多尺度图像特征和重新确定的候选框的候选框token生成第二分割结果。

本实施例中各模块的具体实现方式详见实施例一，本实施例中不再赘述。应当理解的是，本实施例至少具备实施例一的全部有益效果。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被至少一个处理器执行时，实现如实施例一的方法。

实施例四

本实施例提供一种电子设备，包括存储器和至少一个处理器，存储器上存储有计算机程序，计算机程序被所述至少一个处理器执行时实现如实施例一的方法。

前述计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器（Static Random Access Memory，简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory，简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read-Only Memory，简称EPROM），可编程只读存储器（Programmable Read-Only Memory，简称PROM），只读存储器（Read-Only Memory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。

前述处理器可以是专用集成电路（Application Specific Integrated Circuit，简称ASIC）、数字信号处理器（Digital Signal Processor，简称DSP）、数字信号处理设备（Digital Signal Processing Device，简称DSPD）、可编程逻辑器件（Programmable LogicDevice，简称PLD）、现场可编程门阵列（Field Programmable Gate Array，简称FPGA）、控制器、微控制器 (Microcontroller Unit, MCU)、微处理器或其他电子元件实现，用于执行上述方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的。

需要说明的是，在本文中，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种多器官和/或病灶的医学图像分割方法，其特征在于，包括：

获取包含目标区域的目标医学图像；

其中，所述分割模型包括：

图像编码器，用于提取目标医学图像的多尺度图像特征；

2.根据权利要求1所述的多器官和/或病灶的医学图像分割方法，其特征在于，在候选框包括整个目标医学图像且第一分割结果不满足需求的情况下，所述方法还包括：

3.根据权利要求1所述的多器官和/或病灶的医学图像分割方法，其特征在于，获取包含目标区域的目标医学图像，包括：

获取包含目标区域的原始医学图像；

将标准化处理后的医学图像沿x轴和y轴进行重采样；

4.根据权利要求1所述的多器官和/或病灶的医学图像分割方法，其特征在于，所述图像编码器包括：

图像分区模块，用于将目标医学图像划分为若干个图像块；

5.根据权利要求4所述的多器官和/或病灶的医学图像分割方法，其特征在于，所述编码模块包括多个编码子模块；所述编码子模块包括：

6.根据权利要求1所述的多器官和/或病灶的医学图像分割方法，其特征在于，所述候选框编码器在提取候选框token以表征候选框的坐标特征时，用于：

将候选框以候选框的中心坐标和最大半径表示；

7.根据权利要求1所述的多器官和/或病灶的医学图像分割方法，其特征在于，所述掩膜解码器包括：

8.根据权利要求7所述的多器官和/或病灶的医学图像分割方法，其特征在于，所述解码注意力层，包括：

9.根据权利要求8所述的多器官和/或病灶的医学图像分割方法，其特征在于，所述解码注意力模块包括：

10.根据权利要求7所述的多器官和/或病灶的医学图像分割方法，其特征在于，所述特征融合层在对多尺度掩膜编码进行特征融合进而得到表征分割结果的掩膜时，用于：

11.一种多器官和/或病灶的医学图像分割装置，其特征在于，包括：

获取模块，用于获取包含目标区域的目标医学图像；

其中，所述分割模型包括：

图像编码器，用于提取目标医学图像的多尺度图像特征；

12.根据权利要求11所述的多器官和/或病灶的医学图像分割装置，其特征在于，在候选框包括整个目标医学图像且第一分割结果不满足需求的情况下，

所述确定模块还用于获取用户针对目标医学图像中勾画的候选框，以重新确定候选框；

所述分割模块还用于利用所述分割模型的候选框编码器，提取重新确定的候选框的候选框token；利用所述分割模型的掩膜解码器，根据医学图像的多尺度图像特征和重新确定的候选框的候选框token生成第二分割结果。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时，实现如权利要求1至10中任一项所述的方法。

14.一种电子设备，其特征在于，包括存储器和至少一个处理器，所述存储器上存储有计算机程序，所述计算机程序被所述至少一个处理器执行时实现如权利要求1至10中任一项所述的方法。