CN115578564A

CN115578564A - 实例分割模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN115578564A
Application number: CN202211308889.0A
Authority: CN
Inventors: 于灏; 张佳琦; 丁佳; 吕晨翀
Original assignee: Beijing Yizhun Medical AI Co Ltd
Current assignee: Zhejiang Yizhun Intelligent Technology Co ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-01-06
Anticipated expiration: 2042-10-25
Also published as: CN115578564B

Abstract

本公开提供了一种实例分割模型的训练方法、装置、设备及存储介质，包括：将训练集中的样本图像输入至实例分割模型包括的语义分割子模型中，获取样本图像对应的预测感兴趣区域；基于样本图像对应的预测感兴趣区域，从样本图像中获取对应的语义样本图像；将语义样本图像输入至实例分割模型包括的特征提取子模型中；获取样本图像对应的预测语义分割特征和预测聚类特征；基于预测语义分割特征、标注语义分割特征和预测聚类特征，调整特征提取子模型的参数；其中，所述语义分割特征和所述聚类特征用于确定所述样本图像的至少一个聚类特征，并基于所述至少一个聚类特征，确定所述样本图像的实例分割结果。

Description

实例分割模型的训练方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种实例分割模型的训练方法、装置、电子设备及存储介质。

背景技术

随着医学影像技术的不断进步，电子计算机断层扫描(Computed Tomography，CT)医学影像在疾病诊断中被广泛应用。为了通过CT影像来定位病灶的位置，从CT影像中对实例进行分割起到重要作用；然而相关技术中无法充分利用CT影像中实例在三维空间上的空间形状分布，分割精度较低。

发明内容

本公开提供了一种实例分割模型的训练方法、装置、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供一种实例分割模型的训练方法，包括：

将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中，获取所述样本图像对应的预测感兴趣区域；

基于所述样本图像对应的预测感兴趣区域，从所述样本图像中获取对应的语义样本图像；

将所述语义样本图像输入至所述实例分割模型包括的特征提取子模型中；获取所述样本图像对应的预测语义分割特征和预测聚类特征；

基于所述预测语义分割特征、标注语义分割特征和预测聚类特征，调整所述特征提取子模型的参数；

其中，所述预测语义分割特征和所述预测聚类特征用于确定所述样本图像的至少一个聚类特征，并基于所述至少一个聚类特征，确定所述样本图像的实例分割结果。

上述方案中，所述将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中，获取所述样本图像对应的预测感兴趣区域之前，所述方法还包括：

对训练集中的样本图像进行第一预处理；

其中，所述第一预处理包括分辨率统一化处理和骨窗归一化处理。

上述方案中，所述将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中，获取所述样本图像对应的预测感兴趣区域，包括：

基于所述语义分割子模型获取所述样本图像对应的预测掩码区域；

对所述预测掩码区域进行连通处理，确认连通处理后的所述预测掩码区域为所述预测感兴趣区域。

上述方案中，所述基于所述样本图像对应的预测感兴趣区域，从所述样本图像中获取对应的语义样本图像，包括：

基于所述预测感兴趣区域确认所述样本图像的第一感兴趣区域；

将所述样本图像中的第一感兴趣区域向外延伸第一阈值，确认延伸后的区域为所述样本图像对应的语义样本图像。

上述方案中，所述将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中之后，所述方法还包括：

基于所述预测掩码区域，和所述样本图像对应的标注掩码区域，调整所述语义分割子模型的参数。

上述方案中，所述将所述语义样本图像输入至所述实例分割模型包括的特征提取子模型中之前，所述方法还包括：

对所述语义样本图像进行第二预处理；

所述第二预处理包括尺度统一化处理和骨窗归一化处理。

上述方案中，所述基于所述预测语义分割特征、标注语义分割特征和预测聚类特征，调整所述特征提取子模型的参数，包括：

基于所述预测语义分割特征和所述标注语义分割特征，确认所述特征提取子模型的语义分割通道的损失值；

基于所述预测聚类特征，确认所述特征提取子模型的聚类特征通道的损失值；

基于所述语义分割通道的损失值和所述聚类特征通道的损失值，调整所述特征提取子模型的参数。

上述方案中，所述基于所述预测聚类特征，确认所述特征提取子模型的聚类特征通道的损失值，包括：

基于所述预测聚类特征确认每一个类的类内特征点与类内中心点之间距离平方的平均值；

基于所述预测聚类特征确认不同类之间的特征中心距离平方的平均值；

基于所述类内特征点与类内中心点之间距离平方的平均值，与所述不同类之间的特征中心距离平方的平均值，确认所述特征提取子模型的聚类特征通道的损失值。

根据本公开的第二方面，提供一种实例分割方法，基于上述训练得到的实例分割模型实现，所述方法包括：

将待分割图像输入至所述实例分割模型包括的语义分割子模型中，获取所述待分割图像对应的感兴趣区域；

基于所述待分割图像对应的感兴趣区域，从所述待分割图像中获取对应的语义图像；

将所述语义图像输入至所述实例分割模型包括的特征提取子模型中；获取所述待分割图像对应的语义分割特征和聚类特征；

基于所述语义分割特征和所述聚类特征，确认所述待分割图像对应的至少一个聚类特征中心；

基于所述至少一个聚类特征中心，确定所述待分割图像的实例分割结果。

上述方案中，所述基于所述待分割图像对应的感兴趣区域，从所述待分割图像中获取对应的语义图像，包括：

基于所述语义分割子模型获取所述待分割图像对应的掩码区域；

对所述掩码区域进行连通处理，确认连通处理后的所述掩码区域为所述感兴趣区域；

基于所述感兴趣区域确认所述待分割图像的第二感兴趣区域；

将所述待分割图像中的第二感兴趣区域向外延伸第一阈值，确认延伸后的区域为所述待分割图像对应的语义图像。

上述方案中，所述基于所述语义分割特征和所述聚类特征，确认所述待分割图像对应的至少一个聚类特征，包括：

基于所述语义分割特征，确认所述待分割图像中的目标子图像；

确认所述目标子图像中任一聚类特征对应的第一漂移点；

响应于所述第一漂移点与距离最近的两个漂移点之间的距离小于第二阈值，则确认所述第一漂移点为第一聚类特征中心；

基于所述第一聚类特征中心标记与所述第一聚类特征中心属于同一类的至少一个聚类特征。

上述方案中，所述方法还包括：

确认聚类特征的数量小于第三阈值的第一类；

将所述第一类包括的至少一个聚类特征整合至与所述第一类之间的距离小于第四阈值的第二类中，并基于整合结果更新所述第二类的聚类特征中心。

上述方案中，所述基于所述至少一个聚类特征中心，确定所述待分割图像的实例分割结果，包括：

确认每一个聚类特征中心所对应的聚类特征，为所述待分割图像包括的一个实例。

根据本公开的第三方面，提供一种实例分割模型的训练装置，包括：

第一输入单元，用于将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中，获取所述样本图像对应的预测感兴趣区域；

第一获取单元，用于基于所述样本图像对应的预测感兴趣区域，从所述样本图像中获取对应的语义样本图像；

第二输入单元，用于将所述语义样本图像输入至所述实例分割模型包括的特征提取子模型中；获取所述样本图像对应的预测语义分割特征和预测聚类特征；

调整单元，用于基于所述预测语义分割特征、标注语义分割特征和预测聚类特征，调整所述特征提取子模型的参数；

其中，所述语义分割特征和所述聚类特征用于确定所述样本图像的至少一个聚类特征，并基于所述至少一个聚类特征，确定所述样本图像的实例分割结果。

根据本公开的第四方面，提供一种实例分割装置，基于上述训练得到的实例分割模型实现，所述装置包括：

第三输入单元，用于将待分割图像输入至所述实例分割模型包括的语义分割子模型中，获取所述待分割图像对应的感兴趣区域；

第二获取单元，用于基于所述待分割图像对应的感兴趣区域，从所述待分割图像中获取对应的语义图像；

第四输入单元，用于将所述语义图像输入至所述实例分割模型包括的特征提取子模型中；获取所述待分割图像对应的语义分割特征和聚类特征；

聚类单元，用于基于所述语义分割特征和所述聚类特征，确认所述待分割图像对应的至少一个聚类特征中心；基于所述至少一个聚类特征中心，确定所述待分割图像的实例分割结果。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中，获取所述样本图像对应的预测感兴趣区域；基于所述样本图像对应的预测感兴趣区域，从所述样本图像中获取对应的语义样本图像；将所述语义样本图像输入至所述实例分割模型包括的特征提取子模型中；获取所述样本图像对应的预测语义分割特征和预测聚类特征；基于所述预测语义分割特征、标注语义分割特征和预测聚类特征，调整所述特征提取子模型的参数；其中，所述预测语义分割特征和所述预测聚类特征用于确定所述样本图像的至少一个聚类特征，并基于所述至少一个聚类特征，确定所述样本图像的实例分割结果。如此，能够在语义分割的基础上进一步对样本图像中的感兴趣区域(语义样本图像)进行处理得到预测语义分割特征和预测聚类特征，为进一步聚类提供基础，进而实现精准的实例分割。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例提供的实例分割模型的训练方法的一种可选流程示意图；

图2示出了本公开实施例提供的实例分割模型的训练方法的另一种可选流程示意图；

图3示出了本公开实施例提供的语义分割子模型的可选结构示意图；

图4示出了本公开实施例提供的特征提取子模型的可选结构示意图；

图5示出了本公开实施例提供的实例分割方法的一种可选流程示意图；

图6示出了本公开实施例提供的实例分割模型的训练装置的一种可选结构示意图；

图7示出了本公开实施例提供的实例分割装置的一种可选结构示意图；

图8示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

CT即电子计算机断层扫描，它是利用精确准直的X线束、γ射线、超声波等，与灵敏度极高的探测器一同围绕人体的某一部位作一个接一个的断面扫描，具有扫描时间快，图像清晰等特点，可用于多种疾病的检查。

以肋骨分割为例，随着医学影像技术的不断进步，CT图像(CT影像)在肋骨疾病诊断中被广泛应用。为了通过CT图像来定位肋骨病灶的位置，从CT图像中对肋骨进行分割起到重要作用。本领域技术人员应当理解，本公开实施例提供的实例分割模型的训练方法、装置、实例分割方法和装置也可以应用在非医疗领域(如对图像进行实例分割，图像可以是人物图像、植物图像、动物图像或风景图像)或医疗领域的其他分支中(如脑CT图像、器官CT图像或其他骨骼的CT图像等)，为方便说明，本公开实施例中以CT图像为胸部CT图像为例。

相关技术中，对于肋骨的分割方法可以通过预训练的全卷积图像语义分割模型对待处理的CT图像逐层进行分割，得到每层数据的肋骨二维分割结果以及相邻关系，基于二维分割使用联通域检测算法得到每层的肋骨轮廓，根据相邻层关系合并所有层的肋骨轮廓得到三维分割结果，利用后处理算法得到待处理分割CT图像的肋骨分割结果。

或者，通过对胸部CT图像进行预处理，得到归一化的点云数据，对归一化的点云数据进行多重数据采样，并基于采样的点云数据和肋骨自动识别模型，得到每个点云数据的肋骨标签的相应数量的预测概率结果，将每个点云数据肋骨标签所有预测概率结果进行融合，将融合后的点云数据转化为图像数据，实现肋骨识别。

然而上述方案中，对胸部CT图像逐层进行二维肋骨分割，通过各层二维肋骨分割结果结合层级相邻关系构建三维肋骨分割结果，存在明显的肋骨分割精度问题。肋骨在三维空间上有明显的空间形状分布，如果只考虑各层肋骨的二维分布，会缺失肋骨空间分布的连续性信息，这类方法容易出现层级肋骨区域漏检或者将非肋骨部分误识别为肋骨，不能保证较高的肋骨分割精度。再者，对胸部CT图像进行三维语义分割，通过三维语义分割结果将胸部CT图像中的肋骨部分转成点云数据，结合采样策略对点云数据进行实例预测，这类方法只考虑了肋骨的空间形状分布信息，忽略了CT图像中肋骨所在区域CT值分布信息，会影响肋骨实例结果精度，针对存在肋骨骨质破坏或者肋骨融合畸形的CT图像，仅考虑肋骨的空间形状分布不能很好的进行肋骨实例分割。

针对相关技术中存在的缺陷，本公开提供一种实例分割模型的训练方法、装置、实例分割方法和装置，可以通过两阶段实例分割模型(包括语义分割子模型和特征提取子模型)以及聚类算法，结合肋骨CT图像对应的掩码图像(二值图)和空间连续性信息，实现精准的肋骨实例分割。

图1示出了本公开实施例提供的实例分割模型的训练方法的一种可选流程示意图，将根据各个步骤进行说明。

步骤S101，将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中，获取所述样本图像对应的预测感兴趣区域。

在一些实施例中，将样本图像输入至语义分割子模型之前，所述方法还包括对训练集中的样本图像进行第一预处理；所述第一预处理包括分辨率统一化处理和骨窗归一化处理。

具体实施时，考虑到训练集中的样本图像(CT图像)来源多样，不同设备采集到的样本图像的分辨率和各径向间隔(spacing)的不同，需对样本图像进行预处理，预处理包含分辨率统一化和骨窗归一化处理，先将分辨率统一到同一粒度(如2mm*2mm*2mm)，再对样本图像进行骨窗归一化处理，骨窗调整公式如下：

Vol＝(Vol-700.0)/1000.0

其中Vol为分辨率统一化处理后样本图像中的CT值，再将Vol归一化为-1到1之间。

在一些实施例中，由于样本图像来源多样，不同设备采集的视角以及扫描区段存在明显不同，如果对原始样本图像直接进行肋骨特征提取，会因肋骨所在分布差异性导致模型学习困难，使得最终的分割精度降低。根据第一阶段的语义分割子模型提取肋骨所在感兴趣区域(ROI区域)的作用就是消除肋骨所在分布差异性以及非肋骨背景的干扰。

具体实施时，所述语义分割子模型可以UNet网络作为骨干网络进行特征提取，其中下采样阶段卷积池化层为4层，相对应的上采样阶段可以得到与各阶段下采样分辨率相同的4层特征图，上采样阶段包含跳层连接，选择上采样阶段最后特征图进行卷积输出单通道且分辨率与输入的样本图像相同的预测掩码区域；实例分割模型的训练装置(以下简称第一装置)对所述预测掩码区域进行连通处理，确认连通处理后的所述预测掩码区域为所述样本图像的预测感兴趣区域。

具体实施时，所述连通处理可以包括确认所述预测掩码区域中的连通域，将小于一定阈值(如面积小于一定阈值)的连通域归为背景(即非肋骨部分)进行去除。

在一些可选实施例中，所述第一装置还可以基于所述预测掩码区域，和所述样本图像对应的标注掩码区域，调整所述语义分割子模型的参数；具体的，所述第一装置可以基于Dice确认所述语义分割子模型的损失值，基于所述语义分割子模型的损失值调整所述语义分割子模型的参数。

步骤S102，基于所述样本图像对应的预测感兴趣区域，从所述样本图像中获取对应的语义样本图像。

在一些实施例中，所述第一装置基于所述预测感兴趣区域确认所述样本图像的第一感兴趣区域；将所述样本图像中的第一感兴趣区域向外延伸第一阈值，确认延伸后的区域为所述样本图像对应的语义样本图像。

具体实施时，所述装置在所述样本图像中确认预测感兴趣区域，即为样本图像的第一感兴趣区域，将所述第一感兴趣区域向外延伸第一阈值，确认为所述样本图像对应的语义样本图像。

如此，可以在样本图像中提取肋骨所在区域，排除非肋骨区域(背景)部分的干扰，提升后续肋骨特征提取的精度。

步骤S103，将所述语义样本图像输入至所述实例分割模型包括的特征提取子模型中；获取所述样本图像对应的预测语义分割特征和预测聚类特征。

在一些实施例中，所述第一装置对所述语义样本图像进行第二预处理；所述第二预处理包括尺度统一化处理和骨窗归一化处理。

具体实施时，所述第一装置将所述语义样本图像调整为预设大小(此处的调整可以为缩放)；尺度统一化操作可以消除因设备扫描分辨率不同、视角不同和被扫描患者身材高矮胖瘦导致肋骨大小及空间分布差异性干扰。骨窗归一化处理的具体流程可以与步骤S101所述相同，此处不再重复赘述。

在一些实施例中，特征提取子模型可以使用UNet作为主干网络，其中下采样阶段卷积池化层为6层，卷积层结构采用ResNet网络中的残差块Residual block结构，相对应的上采样阶段同样分为6层，同下采样阶段一样，上采样中的卷积层采用ResNet网络中的残差块Residual block结构，上采样阶段包含跳层连接，选择上采样阶段最后特征图进行卷积输出双通道且分辨率与输入图像相同的特征提取结果，一个通道为肋骨语义分割结果，即预测语义分割特征，另一个通道为肋骨聚类特征结果，即预测聚类特征。

步骤S104，基于所述预测语义分割特征、标注语义分割特征和预测聚类特征，调整所述特征提取子模型的参数。

在一些实施例中，所述第一装置可以基于所述预测语义分割特征和所述标注语义分割特征，确认所述特征提取子模型的语义分割通道的损失值；基于所述预测聚类特征，确认所述特征提取子模型的聚类特征通道的损失值；基于所述语义分割通道的损失值和所述聚类特征通道的损失值，调整所述特征提取子模型的参数。

具体实施时，所述第一装置可以基于Dice算法、预测语义分割特征和所述标注语义分割特征，确认所述特征提取子模型的语义分割通道的损失值。

具体实施时，所述第一装置可以基于所述预测聚类特征确认每一个类的类内特征点与类内中心点之间距离的平均值；基于所述预测聚类特征确认不同类之间的特征中心距离的平均值；基于所述类内特征点与类内中心点之间距离的平均值，与所述不同类之间的特征中心距离的平均值，确认所述特征提取子模型的聚类特征通道的损失值。

如此，通过本公开实施例提供的实例分割模型的训练方法，能够在语义分割的基础上进一步对样本图像中的感兴趣区域(语义样本图像)进行处理得到预测语义分割特征和预测聚类特征，为进一步聚类提供基础，进而实现精准的实例分割。

图2示出了本公开实施例提供的实例分割模型的训练方法的另一种可选流程示意图，将根据各个步骤进行说明。

在一些实施例中，实例分割模型包括语义分割子模型和特征提取子模型；其中，语义分割子模型用于对样本图像处理获得语义分割结果，以样本图像为胸部CT图像为例，所述语义分割结果为肋骨语义分割结果，进而可以从样本图像中获取肋骨所在的感兴趣区域图像。然后以所述感兴趣区域图像作为特征提取子模型的输入。

因为胸部CT图像来源多样，不同设备采集的视角以及扫描区段存在明显不同，如果对原始胸部CT图像进行肋骨特征提取，会因肋骨所在分布差异性导致模型学习困难，使得最终的分割精度降低。根据第一阶段模型提取肋骨所在ROI区域的作用就是消除肋骨所在分布差异性以及非肋骨背景的干扰。

步骤S201，对训练集中的样本图像进行第一预处理。

在一些实施例中，第一装置对训练集中的样本图像进行第一预处理；所述第一预处理可以包括分辨率统一化处理和骨窗归一化处理。

具体的，考虑到胸部CT图像来源多样，不同设备采集到的胸部CT图像分辨率和各径向spacing的不同，需对胸部CT图像进行预处理，预处理包含分辨率统一化处理和骨窗归一化处理，先将分辨率统一到2mm*2mm*2mm，再对样本图像进行骨窗归一化处理，骨窗调整公式如下：

Vol＝(Vol-700.0)/1000.0

步骤S202，训练语义分割子模型。

图3示出了本公开实施例提供的语义分割子模型的可选结构示意图。

如图3所示，语义分割子模型采用UNet网络作为骨干网络进行特征提取，其中下采样阶段卷积池化层为4层，相对应的上采样阶段可以得到与各阶段下采样分辨率相同的4层特征图，上采样阶段包含跳层连接，选择上采样阶段最后特征图进行卷积输出单通道且分辨率与输入的样本图像相同的语义分割结果(即预测掩码区域)。

在一些可选实施例中，所述样本图像可以是人工标注肋骨体素数据，人工标注对肋骨左右各12根肋骨分别标记为L1-L12和R1-R12，但在语义分割子模型训练阶段转为二值标签，肋骨标签为1，非肋骨背景为0。

在一些实施例中，所述语义分割子模型训练完成之后，还需要获取样本图像对应的预测感兴趣区域，作为特征提取子模型的输入。

具体实施时，所述第一装置向训练完成的语义分割子模型输入经过第一预处理后的样本图像，所述样本图像经过所述语义分割子模型进行分割之后，得到肋骨语义分割掩码二值图(即预测掩码区域)，对肋骨语义分割掩码二值图进行简单的后处理，计算肋骨语义分割掩码二值图中的联通域，面积小于一定阈值的联通域归为背景中非肋骨部分进行去除。

具体实施时，所述第一装置所述预测掩码区域进行连通处理，确认连通处理后的所述预测掩码区域为所述样本图像的预测感兴趣区域。

进一步，所述第一装置将所述预测感兴趣区域根据上述分辨率统一化处理和骨窗归一化处理，映射至样本图像中，确认样本图像中与所述预测感兴趣区域相对应的区域为第一感兴趣区域；将所述样本图像中的第一感兴趣区域向外延伸第一阈值，确认延伸后的区域为所述样本图像对应的语义样本图像。其中，所述语义样本图像为所述特征提取子模型的输入。

具体的，将所述第一感兴趣区域向外延伸20mm，得到的区域为肋骨ROI区域，从所述样本图像中提取所述肋骨ROI区域，为所述语义样本图像。其目的是将肋骨所在区域进行提取，排除非肋骨背景干扰，提高肋骨特征提取精度。

步骤S203，对语义样本图像进行第二预处理。

在一些实施例中，所述第一装置对提取的语义样本图像进行第二预处理，第二预处理包含尺度统一化处理和骨窗归一化处理，尺度统一化处理是将语义样本图像缩放至统一大小，如192*192*192，尺度统一化操作可以消除因设备扫描分辨率不同、视角不同和被扫描对象的身材、高、矮、胖、瘦、导致肋骨大小及空间分布差异性干扰。骨窗归一化处理的步骤与步骤S201相同，此处不再重复赘述。

步骤S204，训练特征提取子模型。

图4示出了本公开实施例提供的特征提取子模型的可选结构示意图。

如图4所示，所述特征提取子模型可以采用UNet网络作为骨干网络进行特征提取，其中下采样阶段卷积池化层为6层，卷积层结构采用ResNet网络中的残差块Residualblock结构，相对应的上采样阶段同样分为6层，同下采样阶段一样，上采样中的卷积层采用ResNet网络中的残差块Residual block结构，上采样阶段包含跳层连接，选择上采样阶段最后特征图进行卷积输出双通道且分辨率与输入的语义样本图像相同的特征提取结果，一个通道(语义分割通道)为预测语义分割特征，另一个通道(聚类特征通道)为预测聚类特征。

在一些实施例中，所述第一装置将经过步骤S203处理的语义样本图像作为所述特征提取子模型的输入；确认所述特征提取子模型的输出为所述样本图像对应的预测语义分割特征和预测聚类特征。

在一些可选实施例中，所述语义样本图像包括人工标注肋骨体素数据，人工标注对肋骨左右各12根肋骨分别标记为L1-L12和R1-R12，在网络模型训练时将其标记为1-24，非肋骨背景标记为0。

在一些实施例中，所述第一装置可以基于所述预测语义分割特征和所述标注语义分割特征，确认所述特征提取子模型的语义分割通道的损失值(Dice Loss)；基于所述预测聚类特征，确认所述特征提取子模型的聚类特征通道的损失值；基于所述语义分割通道的损失值和所述聚类特征通道的损失值(Cluster Loss)，调整所述特征提取子模型的参数。

具体的，所述第一装置可以通过下式确认聚类特征通道的损失值：

其中，α₁和α₂为权重系数，n为样本图像包括的类的总数(如样本图像为胸部CT图像，其中包括24根肋骨，对应n为24)，m_i为第i类预测聚类特征的数量，y_i为第i类的标注聚类特征，

为第i类中第k个点的预测聚类特征，

为第i类中第k个聚类特征的特征位置，进一步

为第i类的特征中心位置，则

表征第i类中全部聚类特征与特征中心的距离的平方的平均值；进而公式的前半部分即

表征全部类的类内聚类特征的特征位置与类特征中心位置之间的距离平均值。公式的后半部分中，

为第i类的特征中心位置，

为第j类的特征中心位置；

为任意两个类的特征中心位置的距离平均值(即不同类间的特征中心的距离平均值)。

肋骨聚类特征分布需要使类内差异性尽可能小，类间差异性尽可能大，相对应的Cluster Loss计算公式前半部分越小越好，后半部分越大越好

特别的，模型训练过程中，随着参数的不断调整，类内聚类特征的特征位置与类特征中心位置之间的距离平均值(即公式的前半部分)会越来越小，不同类间的特征中心的距离平均值会越来越大，而两个正数直接求和会导致Cluster Loss越来越大，这显然与随着训练过程Cluster Loss越来越小的需求不相符，因此将在Cluster Loss的公式中，前半部分与后半部分之间为相减的关系，即前半部分越来越小，加上后半部分越来越大的负数，使得随着训练不断进行，Cluster Loss越来越小直至满足预设需求确认训练完成。

图5示出了本公开实施例提供的实例分割方法的一种可选流程示意图，将根据各个步骤进行说明。

在一些实施例中，实例分割方法基于上述图1、图2、步骤S101至步骤S104以及步骤S201至步骤S204所述方法训练得到的实例分割模型实现。

具体的，实例分割方法可以包括三个部分：

1)利用语义分割子模型对待分割图像进行处理，得到待分割图像对应的感兴趣区域；这其中还可以包括包含对待分割图像进行第一预处理，第一预处理包含分辨率统一化处理和骨窗归一化处理，将经过第一预处理后的待分割图像作为语义分割子模型的输入，可以推理得到待分割图像对应的感兴趣区域(待分割图像对应的语义分割结果)。

2)根据语义分割子模型对待分割图像处理得到的感兴趣区域，可以确定肋骨在待分割图像中的空间存在范围，在原始的待分割图像中提取肋骨区域图像(语义图像)，对提取后的语义图像进行尺度统一化处理和骨窗归一化处理，利用特征提取子模型对预处理后的语义图像进行处理，得到语义分割特征和聚类特征。

3)利用语义分割特征和聚类特征，基于MeanShift均值漂移聚类算法，对提取得到的肋骨特征进行特征聚类，实现肋骨实例分割。

具体可以如图5所示：

步骤S301，将待分割图像输入至所述实例分割模型包括的语义分割子模型中，获取所述待分割图像对应的感兴趣区域。

在一些实施例中，实例分割装置(以下简称第二装置)对所述待分割图像进行第一预处理，包括分辨率统一化处理和骨窗归一化处理；然后将经过第一预处理的所述待分割图像输入至训练完成的语义分割子模型中，确认所述语义分割子模型的输出为所述待分割图像对应的掩码区域。

步骤S302，基于所述待分割图像对应的感兴趣区域，从所述待分割图像中获取对应的语义图像。

在一些实施例中，所述第二装置对所述掩码区域进行连通处理，确认连通处理后的所述掩码区域为所述感兴趣区域；基于所述感兴趣区域确认所述待分割图像的第二感兴趣区域；将所述待分割图像中的第二感兴趣区域向外延伸第一阈值，确认延伸后的区域为所述待分割图像对应的语义图像。

步骤S303，将所述语义图像输入至所述实例分割模型包括的特征提取子模型中；获取所述待分割图像对应的语义分割特征和聚类特征。

在一些实施例中，所述第二装置可以对所述语义图像进行第二预处理，所述第二预处理可以包括尺度统一化处理和骨窗归一化处理；将经过第二预处理的所述语义图像输入至所述特征提取子模型中，确认所述特征提取子模型的输出为所述待分割图像对应的语义分割特征和聚类特征。

步骤S304，基于所述语义分割特征和所述聚类特征，确认所述待分割图像对应的至少一个聚类特征中心。

在一些实施例中，所述第二装置基于所述语义分割特征，确认所述待分割图像中的目标子图像；确认所述目标子图像中任一聚类特征对应的第一漂移点；响应于所述第一漂移点与距离最近的两个漂移点之间的距离小于第二阈值，则确认所述第一漂移点为第一聚类特征中心；基于所述第一聚类特征中心标记与所述第一聚类特征中心属于同一类的至少一个聚类特征。

在一些可选实施例中，所述第二装置还可以确认聚类特征的数量小于第三阈值的第一类；将所述第一类包括的至少一个聚类特征整合至与所述第一类之间的距离小于第四阈值的第二类中，并基于整合结果更新所述第二类的聚类特征中心。

具体实施时，所述语义分割特征可以包括掩码，所述第二装置基于所述语义分割特征，将其中结果中值为0的非肋骨背景点所对应的聚类特征点进行标记，即特征聚类只考虑肋骨部分，不考虑非肋骨背景。

进一步，在未标记的聚类特征中随机选取一个聚类特征点构造高斯权重计算新的漂移点(即确认所述目标子图像中任一聚类特征对应的第一漂移点)，通过迭代计算前后两个特征漂移点距离小于一定阈值(第二阈值)时判断漂移收敛，此时的第一漂移点为第一聚类特征中心。

以计算得到的第一聚类特征中心为中心，一定阈值(第五阈值)的特征半径为半径计算类内特征，当类内特征大于一定数量(第六阈值)时，得到一簇特征聚类，该类所有特征点加入标记，即基于所述第一聚类特征中心标记与所述第一聚类特征中心属于同一类的至少一个聚类特征。

重复上述步骤，直至所有聚类特征点被标记，完成特征聚类。

对小于一定数量(第三阈值)的特征聚类进行整合，整合到与其特征中心小于一定阈值(第四阈值)的类中，更新聚类特征中心。

对各类计算两两之间特征中心距离，当类间特征中心距离小于一定阈值时进行合并，更新聚类特征中心。

其中，第一阈值、第二阈值、第三阈值、第四阈值、第五阈值和第六阈值可以根据实际需求设置。

如此，基于MeanShift均值漂移聚类算法，对提取得到的肋骨特征进行特征聚类，类别标签随机分配，每类对应一根肋骨，得到肋骨ROI区域图像的肋骨实例分割结果，将其映射到原始CT影像中，实现肋骨实例分割。

在一些可选实施例中，还可以用其他蕨类算法实现聚类，如K-Means、DBSCAN等。

步骤S305，基于所述至少一个聚类特征中心，确定所述待分割图像的实例分割结果。

在一些实施例中，所述第二装置确认每一个聚类特征中心所对应的聚类特征，为所述待分割图像包括的一个实例。

如此，通过本公开实施例提供的实例分割方法，首先通过语义分割子模型将肋骨所在区域进行提取，可以排除非肋骨背景干扰，极大提高肋骨分割精度，在特征提取预处理中将提取的肋骨ROI图像缩放至统一分辨率，排除了设备多样性和被扫描者身材多样性的干扰，极大提高肋骨分割精度。在聚类时，通过语义分割和特征聚类方法结合，充分结合了CT影像中肋骨所在区域CT值分布和空间连续性特点，极大提高了肋骨分割精度，并且通过肋骨特征聚类得到的肋骨分割结果为实例分割，为后续肋骨计数和病灶定位工作奠定基础。

图6示出了本公开实施例提供的实例分割模型的训练装置的一种可选结构示意图，将根据各个部分进行说明。

在一些实施例中，所述实例分割模型的训练装置600包括：第一输入单元601、第一获取单元602、第二输入单元603和调整单元604。

所述第一输入单元601，用于将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中，获取所述样本图像对应的预测感兴趣区域；

所述第一获取单元602，用于基于所述样本图像对应的预测感兴趣区域，从所述样本图像中获取对应的语义样本图像；

所述第二输入单元603，用于将所述语义样本图像输入至所述实例分割模型包括的特征提取子模型中；获取所述样本图像对应的预测语义分割特征和预测聚类特征；

所述调整单元604，用于基于所述预测语义分割特征、标注语义分割特征和预测聚类特征，调整所述特征提取子模型的参数；

在一些实施例中，所述实例分割模型的训练装置600还可以包括预处理单元605。

所述预处理单元605，用于在所述将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中，获取所述样本图像对应的预测感兴趣区域之前，对训练集中的样本图像进行第一预处理；其中，所述第一预处理包括分辨率统一化处理和骨窗归一化处理。

所述第一输入单元601，具体用于基于所述语义分割子模型获取所述样本图像对应的预测掩码区域；

所述第一获取单元602，具体用于基于所述预测感兴趣区域确认所述样本图像的第一感兴趣区域；

所述调整单元604，还用于在所述将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中之后，基于所述预测掩码区域，和所述样本图像对应的标注掩码区域，调整所述语义分割子模型的参数。

所述预处理单元605，还用于在将所述语义样本图像输入至所述实例分割模型包括的特征提取子模型中之前，对所述语义样本图像进行第二预处理；所述第二预处理包括尺度统一化处理和骨窗归一化处理。

所述调整单元604，具体用于基于所述预测语义分割特征和所述标注语义分割特征，确认所述特征提取子模型的语义分割通道的损失值；

所述调整单元604，具体用于基于所述预测聚类特征确认每一个类的类内特征点与类内中心点之间距离的平均值；

基于所述预测聚类特征确认不同类之间的特征中心距离的平均值；

基于所述类内特征点与类内中心点之间距离的平均值，与所述不同类之间的特征中心距离的平均值，确认所述特征提取子模型的聚类特征通道的损失值。

图7示出了本公开实施例提供的实例分割装置的一种可选结构示意图，将根据各个步骤进行说明。

在一些实施例中，所述实例分割装置700包括第三输入单元701、第二获取单元702、第四输入单元703和聚类单元704。

所述第三输入单元701，用于将待分割图像输入至所述实例分割模型包括的语义分割子模型中，获取所述待分割图像对应的感兴趣区域；

所述第二获取单元702，用于基于所述待分割图像对应的感兴趣区域，从所述待分割图像中获取对应的语义图像；

所述第四输入单元703，用于将所述语义图像输入至所述实例分割模型包括的特征提取子模型中；获取所述待分割图像对应的语义分割特征和聚类特征；

所述聚类单元704，用于基于所述语义分割特征和所述聚类特征，确认所述待分割图像对应的至少一个聚类特征中心；基于所述至少一个聚类特征中心，确定所述待分割图像的实例分割结果。

所述第二获取单元702，具体用于基于所述语义分割子模型获取所述待分割图像对应的掩码区域；

所述聚类单元704，具体用于基于所述语义分割特征，确认所述待分割图像中的目标子图像；

确认所述目标子图像中任一聚类特征对应的第一漂移点；

所述聚类单元704，具体用于确认聚类特征的数量小于第三阈值的第一类；

所述聚类单元704，具体用于确认每一个聚类特征中心所对应的聚类特征，为所述待分割图像包括的一个实例。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如实例分割模型的训练方法或实例分割方法。例如，在一些实施例中，实例分割模型的训练方法或实例分割方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的实例分割模型的训练方法或实例分割方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行实例分割模型的训练方法或实例分割方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种实例分割模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中，获取所述样本图像对应的预测感兴趣区域之前，所述方法还包括：

对训练集中的样本图像进行第一预处理；

3.根据权利要求1所述的方法，其特征在于，所述将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中，获取所述样本图像对应的预测感兴趣区域，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述样本图像对应的预测感兴趣区域，从所述样本图像中获取对应的语义样本图像，包括：

5.根据权利要求3所述的方法，其特征在于，所述将训练集中的样本图像输入至所述实例分割模型包括的语义分割子模型中之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述语义样本图像输入至所述实例分割模型包括的特征提取子模型中之前，所述方法还包括：

对所述语义样本图像进行第二预处理；

所述第二预处理包括尺度统一化处理和骨窗归一化处理。

7.根据权利要求1所述的方法，其特征在于，所述基于所述预测语义分割特征、标注语义分割特征和预测聚类特征，调整所述特征提取子模型的参数，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述预测聚类特征，确认所述特征提取子模型的聚类特征通道的损失值，包括：

9.一种实例分割方法，其特征在于，基于上述权利要求1-8训练得到的实例分割模型实现，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述待分割图像对应的感兴趣区域，从所述待分割图像中获取对应的语义图像，包括：

11.根据权利要求9所述的方法，其特征在于，所述基于所述语义分割特征和所述聚类特征，确认所述待分割图像对应的至少一个聚类特征中心，包括：

确认所述目标子图像中任一聚类特征对应的第一漂移点；

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

确认聚类特征的数量小于第三阈值的第一类；

13.根据权利要求12所述的方法，其特征在于，所述基于所述至少一个聚类特征中心，确定所述待分割图像的实例分割结果，包括：

14.一种实例分割模型的训练装置，其特征在于，所述装置包括：

15.一种实例分割装置，其特征在于，基于上述权利要求1-8训练得到的实例分割模型实现，所述装置包括：

16.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法；

或者，执行权利要求9-13中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法；

或者，执行权利要求9-13中任一项所述的方法。