CN117974693A

CN117974693A - 图像分割方法、装置、计算机设备和存储介质

Info

Publication number: CN117974693A
Application number: CN202410393276.4A
Authority: CN
Inventors: 初春燕
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-04-02
Filing date: 2024-04-02
Publication date: 2024-05-03
Anticipated expiration: 2044-04-02
Also published as: CN117974693B

Abstract

本申请涉及一种图像分割方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：获取待分割的目标图像和高斯噪声图像；以目标图像为条件信息，对高斯噪声图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到目标图像的多个概率性潜在特征向量；以目标图像为条件信息，对概率性潜在特征向量进行特征解码处理，得到多个预测噪声；基于所述预测噪声，通过反向扩散对高斯噪声图像进行去噪处理，得到每个预测噪声各自对应的图像分割结果。本申请可以有效地重建出多个概率性的分割掩膜，实现对目标图像的多样化分割掩膜重建处理，减少漏检情况的发生，有效提高图像分割处理的准确性。

Description

图像分割方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像分割方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术和人工智能技术的发展，出现了计算机视觉技术(ComputerVision, CV)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。可以通过计算机视觉技术来实现图像分割的处理，例如对医学图像可以进行图像分割处理，以辅助医生进行病灶识别和医学诊断等处理。

然而，目前基于扩散模型的图像分割无法产生多样化的图像分割结果，出现漏检等现象，从而影响了图像分割处理的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高图像分割处理准确性的图像分割方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种图像分割方法，包括：

获取待分割的目标图像和高斯噪声图像；

以所述目标图像为条件信息，通过向量量化变分自编码器模型对所述高斯噪声图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到所述高斯噪声图像的多个概率性潜在特征向量；

以所述目标图像为条件信息，通过向量量化变分自解码器模型，对所述概率性潜在特征向量进行特征解码处理，得到多个预测噪声；所述向量量化变分自编码器模型和所述向量量化变分自编码器模型，基于历史图像进行条件扩散训练得到；

基于所述预测噪声，通过反向扩散对所述高斯噪声图像进行去噪处理，得到每个预测噪声各自对应的图像分割结果。

第二方面，本申请还提供了一种图像分割装置，包括：

数据获取模块，用于获取待分割的目标图像和高斯噪声图像；

编码处理模块，用于以所述目标图像为条件信息，通过向量量化变分自编码器模型对所述高斯噪声图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到所述高斯噪声图像的多个概率性潜在特征向量；

解码处理模块，用于以所述目标图像为条件信息，通过向量量化变分自解码器模型，对所述概率性潜在特征向量进行特征解码处理，得到多个预测噪声；所述向量量化变分自编码器模型和所述向量量化变分自编码器模型，基于历史图像进行条件扩散训练得到；

图像分割模块，用于基于所述预测噪声，通过反向扩散对所述高斯噪声图像进行去噪处理，得到每个预测噪声各自对应的图像分割结果。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待分割的目标图像和高斯噪声图像；

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待分割的目标图像和高斯噪声图像；

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待分割的目标图像和高斯噪声图像；

上述图像分割方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待分割的目标图像和高斯噪声图像，得到适用于进行扩散模型分析的基础数据，而后以目标图像为条件信息，通过向量量化变分自编码器模型对目标图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到目标图像的多个概率性潜在特征向量，并以目标图像为条件信息，通过向量量化变分自解码器模型，对概率性潜在特征向量进行特征解码处理，得到多个预测噪声，即通过扩散训练得到的向量量化变分自编码器模型和解码器模型，来实现对目标图像的分割掩膜重建处理，通过向量量化变分自编码器模型的潜在空间表征能力，来学习图像的概率性的多样化分割样本分布，输出多个预测噪声，最后基于预测噪声，通过反向扩散对高斯噪声图像进行去噪处理，得到每个预测噪声各自对应的图像分割结果，实现对目标图像的多样化图像分割处理。本实施例中，通过扩散训练得到的向量量化变分自编码器模型和解码器模型，可以有效地重建出多个概率性的分割掩膜，实现对目标图像的多样化分割掩膜重建处理，减少漏检情况的发生，有效提高图像分割处理的准确性。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中图像分割方法的应用环境图；

图2为一个实施例中图像分割方法的流程示意图；

图3为一个实施例中向量量化变分自解码器模型的编码流程和解码流程的流程示意图；

图4为一个实施例中向量量化变分自解码器模型的生成图像流程的流程示意图；

图5为一个实施例中条件向量量化扩散模型的结构示意图；

图6为一个实施例中潜在空间表示约束模块的结构示意图；

图7为一个实施例中条件扩散训练流程的流程示意图；

图8为另一个实施例中图像分割方法的流程示意图；

图9为一个实施例中图像分割装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请涉及人工智能领域，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请具体涉及人工智能中的计算机视觉技术和机器学习(Machine Learning, ML)技术。

其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

本申请涉及的技术术语包括：

变分自编码器（Variational Autoencoder，VAE）：变分自编码器是一种生成模型，结合了自编码器和变分推断的思想。它可以用于学习和生成潜在空间中的高维数据的表示。

潜在空间（latent space）：潜在空间，这指的是在机器学习和统计建模中，通过对数据进行编码或表示而得到的一个低维度的特征空间。

卷积神经网络（Convolutional Neural Network，CNN）：卷积神经网络是一种深度学习模型，主要用于处理和分析具有网格结构的数据，如图像和视频。它通过在不同层次上应用卷积和池化操作来提取输入数据中的特征，并利用这些特征来进行分类、识别或回归等任务。

向量量化变分自编码器（Vector Quantized Variational Autoencoder，VQ-VAE）：向量量化变分自编码器是一种深度学习模型，用于生成和学习高维数据的低维表示。它结合了自编码器和变分自编码器的概念，并引入了向量量化技术来处理离散潜在空间。

本申请实施例提供的图像分割方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器。当终端102方的用户希望对目标图像进行分割处理，得到多个分割后的图像时，可以提交终端102提交该待分割的目标图像和随机的高斯噪声图像至服务器104。而服务器104在获取待分割的目标图像和高斯噪声图像后；会以目标图像为条件信息，通过向量量化变分自编码器模型对目标图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到目标图像的多个概率性潜在特征向量；并以目标图像为条件信息，通过向量量化变分自解码器模型对概率性潜在特征向量进行特征解码处理，得到多个预测噪声；向量量化变分自编码器模型和向量量化变分自编码器模型，基于历史图像进行条件扩散训练得到；基于预测噪声，通过反向扩散对高斯噪声图像进行去噪处理，得到每个预测噪声各自对应的图像分割结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个示例性的实施例中，如图2所示，提供了一种图像分割方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤201至步骤209。其中：

步骤201，获取待分割的目标图像和高斯噪声图像。

其中，目标图像是本申请图像分割方法所处理的目标图像，可以通过本申请的图像分割方法来对目标图像进行概率性的分割处理，得到多个图像分割结果。在其中一个实施例中，目标图像具体可以为医学图像，如CT（Computed Tomography，电子计算机断层扫描）、MRI（Magnetic Resonance Imaging，磁共振成像）图像，可以通过对这样医学图像的概率性图像分割处理，输出其相应的分割掩膜（分割结果），来辅助医生进行病灶识别和医学诊断等处理。高斯噪声图像则是指概率密度函数服从高斯分布（正态分布）的噪声图像。

示例性的，当终端102方的用户希望实现对目标图像的分割处理时，可以通过终端102向服务器104提交需要处理的目标图像，而服务器104在得到目标图像后，首先会对目标图像施加高斯噪声，来得到噪声图像。本申请的方案具体通过扩散模型结合向量量化变分自编码器模型来实现对目标图像的概率性分割处理，而高斯噪声与其中的扩散模型相关联。高斯噪声图像是一种随机噪声图像，通常添加到扩散模型的输入数据中。这样做是为了帮助扩散模型学习生成与训练数据相似的新数据，即使输入不完美。噪声是使用高斯分布生成的，高斯分布是一种概率分布，用于描述在给定范围内出现不同值的可能性。扩散模型是一种基础模型，可以根据训练数据生成新数据。它工作原理是向图像添加高斯噪声，这本质上是影响原始图像的随机像素或失真变化。这个过程称为前向扩散过程。然后，扩散模型学会在反向扩散过程中消除这些增加的噪声，逐渐降低噪声水平，直到产生清晰和高质量的图像。因此，本申请的方案以条件扩散模型的训练方式完成对向量量化变分自编码器和向量量化变分自解码器的训练，从而通过条件扩散模型结合向量量化变分自编码器，构造出条件向量量化扩散模型 (Conditional Vector Quantizer Diffusion Model， CVQDM)，来实现对目标图像的概率性分割处理。

步骤203，以目标图像为条件信息，通过向量量化变分自编码器模型对高斯噪声图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到目标图像的多个概率性潜在特征向量。

其中，条件信息是条件扩散模型扩散处理过程的指导信息，向量量化变分自编码器模型是一个由卷积层、压平层（Flatten）和全连接层组成的编码模块，基于历史图像通过条件扩散训练得到，本申请通过条件扩散的方式来完成对向量量化变分自编码器模型的训练，能够有效解决难以捕捉到真实分布的复杂相关结构、分割预测的多样性较少且模糊的问题。特征编码处理则是指通过编码器模型将目标图像映射到潜在空间中，得到其对应的潜在特征向量的处理过程，而在这个过程中，还需要对特征编码处理的结果施加潜在空间表示约束，潜在空间表示约束可以通过潜在空间表示约束模块（Latent SpaceRepresentation Constraint Module，LSRCM）实现，用于限制潜在空间的分布或距离度量，防止特征编码过程中通道的权重值过小损失潜在空间的表征能力，有助于提高模型的鲁棒性和稳定性。

示例性地，在得到目标图像和高斯噪声图像后，即可通过训练完成的向量量化变分自编码器模型来完成对高斯噪声图像的特征提取处理。通过将高斯噪声图像输入到向量量化变分自编码器模型中，并以输入的目标图像为条件信息，由模型来对高斯噪声图像进行编码处理，将高斯噪声图像的表征映射到潜在空间中，并施加潜在空间表示约束，来得到离散形式的概率性潜在特征向量。向量量化变分自编码器模型包含有嵌入空间（codebook）机制，因此利用该模型的codebook矢量量化过程合并了离散潜在空间，这允许更有效地表示离散数据，以及捕获更结构化的潜在表示，即通过编码器模型强大的潜在空间表征能力，来学习图像的概率性的多样化分割样本分布，同时，还需要对特征编码处理的结果施加潜在空间表示约束，减少codebook中离散向量弱相关表示值的权重，从而防止由于向量量化变分自编码器模型的强泛化而引起的处理异常，得到精细且准确的图像分割结果。

步骤207，以目标图像为条件信息，通过向量量化变分自解码器模型，对概率性潜在特征向量进行特征解码处理，得到多个预测噪声；向量量化变分自编码器模型和向量量化变分自编码器模型，基于历史图像进行条件扩散训练得到。

其中，向量量化变分自解码器模型与向量量化变分自编码器模型对应，其是一个由全连接层、转换层（Reshape）和转置卷积层组成的解码模块，其可以将概率性潜在特征向量转化为预测噪声。而对于预测噪声，通过在高斯噪声图像上不断去除该预测噪声即可得到针对目标图像的分割掩膜，实现对目标图像的分割处理，而多个概率性潜在特征向量则对应了不同的预测噪声。

示例性地，在得到高斯噪声图像的多个概率性潜在特征向量，可以通过将这些概率性潜在特征向量输入到向量量化变分自解码器模型中，以目标图像为条件信息，通过解码器来实现对这些概率性潜在特征向量的解码处理，得到相应的预测噪声。在解码预测噪声的过程中，解码器可以基于输入的概率性潜在特征向量重建图像，而后概率性潜在图像特征在通过codebook的转换（transform）处理后，可以得到预测噪声隐藏向量，而预测噪声隐藏向量在映射回图像空间后，则可以转化为预测噪声。目前，对于向量量化变分自解码器模型的具体编码和解码流程可以参照图3所示，而对于其图像生成的流程则可以参照图4所示，区别于图3和图4的方案，本申请的方案采用条件扩散模型（Conditional DiffusionModels）的网络结构为骨干模型，再结合向量量化变分自编码器模型来得到利用多分割掩码进行概率性分割的条件向量量化扩散模型，其结构如图5所示，以扩散模型的方式来完成对向量量化变分自编码器模型和向量量化变分自解码器模型的训练，其中（Xm，0）到（Xm，t）的过程即代表了对模型进行条件扩散训练的过程，同时在编码解码的过程中，还需要对向量量化变分自编码过程中嵌入空间（codebook）的输出施加潜在空间表示约束（LSRCM）。

步骤209，基于预测噪声，通过反向扩散对高斯噪声图像进行去噪处理，得到每个预测噪声各自对应的图像分割结果。

示例性地，图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。本申请的方案具体通过预测噪声来实现对目标图像的处理，即通过在原始高斯噪声图像的基础上，通过预测噪声的反向扩散，来对高斯噪声图像进行去噪处理，来得到相应的概率性的分割掩膜假设作为图像分割结果。对于图像分割处理的过程，可以基于所得到的预测噪声，在反向扩散过程中，从噪声图像中逐步去除噪声，来恢复分割掩膜，得到不同的概率性图像分割结果。在其中一个实施例中，本申请的图像分割方法适用于对医学图像进行处理，此时图像分割适用于划分出医学图像中的感兴趣区域，以辅助医生进行病灶识别和医学诊断等处理，此时可以通过本申请的图像分割方法来预测医学图像中的感兴趣区域，得到针对医学图像的分割掩膜假设，而不同的预测噪声可以处理得到多个概率性的图像分割结果，能更好的模仿在临床任务中，来自一组专家的集体见解总是优于个人的最佳诊断的情况。相较于现有的分割方法仅仅输出一个最可能的分割掩膜，可能导致误诊和次优治疗。仅提供逐像素概率忽略了像素之间的所有协方差，这使得后续分析变得更加困难，甚至不可能。如果提供了多个概率性的分割掩膜假设，它们可以用于进一步的诊断或解决歧义。

上述图像分割方法，通过获取待分割的目标图像和高斯噪声图像，得到适用于进行扩散模型分析的基础数据，而后以目标图像为条件信息，通过向量量化变分自编码器模型对目标图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到目标图像的多个概率性潜在特征向量，并以目标图像为条件信息，通过向量量化变分自解码器模型，对概率性潜在特征向量进行特征解码处理，得到多个预测噪声，即通过扩散训练得到的向量量化变分自编码器模型和解码器模型，来实现对目标图像的分割掩膜重建处理，通过向量量化变分自编码器模型的潜在空间表征能力，来学习图像的概率性的多样化分割样本分布，输出多个预测噪声，最后基于预测噪声，通过反向扩散对高斯噪声图像进行去噪处理，得到每个预测噪声各自对应的图像分割结果，实现对目标图像的多样化图像分割处理。本实施例中，通过扩散训练得到的向量量化变分自编码器模型和解码器模型，可以有效地重建出多个概率性的分割掩膜，实现对目标图像的多样化分割掩膜重建处理，减少漏检情况的发生，有效提高图像分割处理的准确性。

在一个示例性的实施例中，步骤205包括：以目标图像为条件信息，通过向量量化变分自编码器模型，对高斯噪声图像进行向量编码处理，得到中间表征向量；通过最邻近算法在嵌入空间中查找中间表征向量的相似向量；对相似向量施加潜在空间表示约束，得到多个概率性目标相似向量；构建每个概率性目标相似向量各自对应的概率性潜在特征向量。

其中，中间表征向量是指直接通过编码器得到的中间表征，用于直接在嵌入空间里找到最近的向量。最邻近算法则是一种确定特征之间距离的算法，距离越近说明两个向量越相似。嵌入空间即codebook，它是向量量化变分自编码器模型的一种机制，它可以把图像编码成离散向量。

示例性地，对于向量量化变分自编码器模型的处理过程，可以先通过向量量化变分自编码器模型将输入的高斯噪声图像进行向量编码处理，编码为中间表征向量。而后将中间表征向量输入到嵌入空间codebook中，并在codebook中查询相似向量。而对于codebook内向量的设置过程，在本申请中，具体可以通过如下方法进行初始化处理，来得到嵌入空间codebook内的self.embedding = nn.Embedding(self.codebook_emb_num,self.codebook_emb_dim)。而后在codebook内查询中间表征向量的相似向量，即计算中间表征向量的与嵌入空间codebook内所有嵌入向量(self.embedding.weight)之间的平方欧氏距离。这样得到的一个矩阵d，其表示嵌入向量与self.embedding.weight之间的距离。利用torch.argmin方法，来找到d矩阵每行的最小值的索引，其表示每个z_flattened样本最接近的嵌入向量的索引，对应于相似向量。而后在这些相似向量上施加在空间表示约束，即可得到多个概率性目标相似向量，并构建每个概率性目标相似向量各自对应的概率性潜在特征向量，此处将查询到的概率性目标相似向量放置到对应概率性潜在特征向量的位置上，得到量化后的概率性潜在特征向量。这个位置是指在潜在特征向量中的特定索引或坐标。

在VQ-VAE中，编码器会为输入数据生成一个连续的隐藏向量。然后，这个隐藏向量会被划分为多个部分，每个部分都会被量化为离散的嵌入向量。因此“将查询到的相似向量放置到对应概率性潜在特征向量的位置上”，是指将每个部分的连续隐藏向量替换为嵌入空间中最接近的离散嵌入向量。这个“位置”就是原始连续隐藏向量在整个隐藏向量中的索引或坐标。通过构建每个概率性目标相似向量各自对应的概率性潜在特征向量，可以将向量量化变分自编码器模型所输出的连续隐变量转化为离散的形式，得到目标图像的多个概率性潜在特征向量。本实施例中，通过中间表征向量的相似向量查询，而后对其施加潜在空间表示约束，从而可以利用嵌入空间codebook强大的潜在空间表征能力学习图像的概率性的多样化分割样本分布，构造出概率性潜在特征向量来进行图像生成和后续的分割处理。

在一个示例性的实施例中，对相似向量施加潜在空间表示约束，得到多个概率性目标相似向量包括：通过自适应平均池化将相似向量压缩为通道维度向量；对通道维度向量进行卷积处理，基于卷积处理的结果得到通道维度向量内不同通道的重要性权重；基于相对熵对不同通道的重要性权重施加潜在空间约束，得到不同通道的约束权重；基于不同通道的约束权重和通道维度向量，得到多个概率性目标相似向量。

其中，自适应平均池化是一种池化方法，它可以将卷积核和空间中的特征映射到一个特定的坐标系中，使高维特征投影到低维空间，通过将该坐标系中的特征向量平均，得到一个空间中的平均池结果。相对熵又称为KL（Kullback–Leibler divergence）散度，它是一种统计学度量，表示的是一个概率分布相对于另一个概率分布的差异程度。通过相对熵的约束，可以防止因通道的权重值过小而损失codebook潜在空间的表征能力。

示例性地，对于潜在空间表示约束的约束过程，具体可以通过相对熵来实现，先通过使用自适应平均池化将嵌入空间codebook转化得到的离散向量压缩到通道（channel）维度，而后通过卷积操作，来对每个通道的重要性进行预测，得到不同通道原始的重要性权重，通过卷积进行降维和转置卷积恢复维度，基于通道维度的降维卷积及升维卷积对codebook的通道维度进行叠加权重值的处理。之后再使用相对熵来对得到的权重进行潜在空间约束，潜在空间约束可以通过限制潜在空间的分布或距离度量，防止通道的权重值过小损失codebook潜在空间的表征能力，最后结合不同通道的约束权重和通道维度向量，来得到多个概率性目标相似向量，这有助于提高模型的鲁棒性和稳定性，最后将学习到的各个通道的权重值点乘的对应通道上。通过对相似向量施加潜在空间表示约束，可以有效地减少codebook中离散向量弱相关表示值的权重，从而防止由于VQ-VAE的强泛化而重构异常。在其中一个实施例中，对相似向量施加潜在空间表示约束的潜在空间表示约束模块具体结构可以参照图6所示。在其中一个实施例中，相对熵还可以替换为利用其他概率分布差异性的度量方式，如JS散度（Jensen-Shannon Divergence）、TV距离（total variationdistance）等。本实施例中，通过对嵌入空间所输出相似向量的潜在空间表示约束，可以有效地减少嵌入空间codebook中离散向量弱相关表示值的权重，从而防止由于VQ-VAE的强泛化而重构异常，从而提高图像分割处理的准确性。

在一个示例性的实施例中，步骤207包括：对多个概率性潜在特征向量进行转化处理，得到多个预测噪声隐藏向量；以目标图像为条件信息，通过向量量化变分自解码器模型，对每个预测噪声隐藏向量进行解码处理，确定每个预测噪声隐藏向量对应的预测噪声。

示例性地，对于概率性潜在特征向量，可以先将其转化为预测噪声隐藏向量，而后通过预测噪声隐藏向量得到预测噪声。对于转化过程，可以通过嵌入空间codebook来对每个概率性潜在特征向量进行转（transform）化处理，来得到预测噪声隐藏向量。而后通过向量量化变分自解码器模型，对每个预测噪声隐藏向量进行解码处理，确定每个预测噪声隐藏向量对应的预测噪声，在预测噪声时，可以使用向量量化变分自来解码器重建图片，而后将预测噪声隐藏向量映射回原始图像空间，从而在原始图像空间中得到每个预测噪声隐藏向量对应的预测噪声。

在一个示例性的实施例中，方法还包括：获取历史图像的多个分割掩膜；基于分割掩膜，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行条件扩散训练，得到向量量化变分自编码器模型和向量量化变分自解码器模型。

其中，历史图像是指历史数据中的图像数据，用于进行模型训练，历史图像可以根据本申请图像分割方法的应用领域进行选取，例如应用于医学图像分割领域，则可以选用医学图像作为历史图像。若应用于风景图像的分割，则可以选用风景图像作为历史图像。分割掩膜（Segmentation Mask）是指图像分割处理中一种用于标识或遮蔽图像中特定区域的图像，通过分割掩膜可以突出或者选择处感兴趣区域。通过分割掩膜可以将图像中的不同对象分离出来，生成对应的二值图或多值图，表示每个对象的位置和形状。

示例性地，本申请的方案还包含对向量量化变分自编码器模型和向量量化变分自解码器模型的模型训练过程，通过对编码器和解码器的无监督自训练，可以得到用于图像分割处理的可用模型。对于训练过程，需要先获取历史图像的多个分割掩膜，这些分割掩膜都是通过处理原先的历史图像得到。而后通过这些分割掩膜，来对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行训练，训练的方式参照条件扩散模型的训练方式，最终得到可用的向量量化变分自编码器模型和向量量化变分自解码器模型，来实现有效的图像分割处理。本实施例中，通过选用历史图像，构建多个分割掩膜，以扩散模型的训练方式，来实现对向量量化变分自编码器模型和向量量化变分自解码器模型的训练，可以有效保证编码和解码过程处理的有效性，从而保证图像分割处理的准确性。

在一个示例性的实施例中，基于分割掩膜，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行条件扩散训练，得到向量量化变分自编码器模型和向量量化变分自解码器模型包括：对每个分割掩膜依次施加不同次数的高斯噪声，得到每个分割掩膜在不同次数高斯噪声影响下的噪声掩膜；基于每个分割掩膜在不同次数高斯噪声影响下的噪声掩膜，依序对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行条件扩散处理，得到不同次数高斯噪声各自对应的噪音损失参数、图像重建损失参数和权重分布损失参数；根据噪音损失参数、图像重建损失参数和权重分布损失参数，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行优化处理，得到向量量化变分自编码器模型和向量量化变分自解码器模型。

其中，不同次数的高斯噪声指的是分步向每个原始分割掩膜多次添加噪声，并且记录下每一步添加的噪声，同时还可以得到每个分割掩膜在不同次数高斯噪声影响下的噪声掩膜。而对于噪音损失参数、图像重建损失参数和权重分布损失参数，其中噪声损失参数指的预测噪声的过程的损失参数，图像重建损失参数是指图像重建过程中，重建图像与原图像的损失，而权重分布损失参数则是指在对特征编码处理的结果施加潜在空间表示约束时，原始权重值分布和约束后所学习到的权重值分布的损失。

示例性地，对于条件扩散处理的模型训练过程，可以拆分为两个阶段，第一阶段为对原始分割掩码多次添加噪声，并且记录下每一步添加的噪声。第二阶段则需要输入当前步数下带噪声的分割掩膜和原始图像，利用带通道潜在空间表示约束模块的初始模型来预测反转过程中前一步出现的噪声，并且减去噪声，通过多次减去噪声重建分割掩膜，计算重建分割掩膜与真实分割掩膜的损失，最后优化模型，最后通过多轮的迭代得到可用于进行图像分割处理的模型。对于模型的损失，具体包含三个部分的损失，即噪音损失参数、图像重建损失参数和权重分布损失参数，将三者结合得到总的损失，来对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行优化处理，即可得到所需的向量量化变分自编码器模型和向量量化变分自解码器模型。本实施例中，通过逐步添加噪声的方式来完成对初始模型的扩散训练处理，实现对模型的优化得到可用的模型，可以有效提高后续进行图像分割处理的准确性。

在一个示例性的实施例中，基于每个分割掩膜在不同次数高斯噪声影响下的噪声掩膜，依序对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行条件扩散处理，得到不同次数高斯噪声各自对应的噪声损失参数包括：将每个分割掩膜的最大噪声掩膜与历史图像进行拼接处理，得到各个分割掩膜的掩膜拼接图像，最大噪声掩膜为施加了最大次数高斯噪声的噪声掩膜；通过初始向量量化变分自编码器模型对掩膜拼接图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到各个掩膜拼接图像各自对应的概率性潜在特征向量；通过初始向量量化变分自解码器模型对概率性潜在特征向量进行解码处理，确定预测的最高层高斯噪声；基于每个分割掩膜的最大噪声掩膜和最高层高斯噪声，构建每个分割掩膜的预测次高噪声掩膜；基于每个分割掩膜的预测次高噪声掩膜和每个分割掩膜的次高噪声掩膜，确定最高层高斯噪声的噪声损失参数。

其中，在对分割掩膜施加所有的高斯噪声后，所得到的噪声掩膜即为最大噪声掩膜，可以在最大噪声掩膜的基础上进行反向处理，来计算每一轮添加噪声过程中的模型损失，从而完整对模型的训练过程。

示例性地，在模型训练的过程中，需要将添加噪声后的图像与原图像进行拼接处理，而后将拼接所得到的掩膜拼接图像输入到初始向量量化变分自编码器模型中，进行特征编码和潜在空间表示约束的处理，来得到各个掩膜拼接图像各自对应的概率性潜在特征向量。而后由初始向量量化变分自解码器模型进行相应的解码处理，从而预测出最高层处的噪声。在其中一个实施例中，对于最高层高斯噪声的预测过程，具体可以通过初始向量量化变分自解码器模型对历史图像进行图像重建处理，得到重建图像；将概率性潜在特征向量映射至重建图像的图像重建空间，得到预测的最高层高斯噪声。

在得到最高层噪声后，将输入的最大噪声掩膜和最高层高斯噪声相减，即可预测出预测次高噪声掩膜，通过对比预测得到的预测次高噪声掩膜和记录下的次高噪声掩膜，即可确定每个分割掩膜在最高层高斯噪声的噪声损失参数。通过将每个分割掩膜的噪声损失参数相加，即可得到最终的噪声损失参数。而在得到最高层高斯噪声的噪声损失参数和其他两个损失参数后，即可基于来对模型进行一次优化处理。在最高层高斯噪声的噪声损失参数计算完成后，即可在此基础上计算次高层高斯噪声相应的各类损失参数，来完成对模型的后续迭代优化，经过与叠加的高斯噪声次数对应的反向训练过程，即可以还原出最初的分割掩膜，通过这样的训练过程，在后续的推理过程只需要输入符合正态分布的噪声以及需要进行分割的图像即可得到多个概率性分割掩膜。

而对于图像重建损失参数和权重分布损失参数两个损失参数的计算过程，可以通过对比历史图像和重建图像，得到最高层高斯噪声对应的图像重建损失参数。同时，获取概率性潜在特征向量在不同通道的重要性权重和约束权重，得到最高层高斯噪声对应的权重分布损失参数。模型三部分损失函数的定义满足以下公式：

总的模型损失由三部分组成，其中表示图像重建损失参数，用于衡量重建图像和真实图像的差异,其中为原始图像，为重建图像，表示噪音损失参数，式中为需要预测的噪声，为潜在空间的隐藏向量，是停止梯度，指代向量量化变分自编码器模型，指代向量量化变分自解码器模型。KL散度用于约束codebook权重的分布，为原始权重值分布，为学习的权重值分布。

对于模型的条件扩散训练过程，扩散模型在训练过程中需要多次叠加噪声的主要原因与其建模的目标分布有关。扩散模型是一种生成模型，用于建模数据的联合分布。其目标是从一个简单的分布（通常是高斯分布）逐渐演变到目标分布，从而生成符合目标数据分布的样本。噪声的多次叠加是这一生成过程的核心。在每一步，一个小的噪声被引入，从而使当前的数据点在分布上逐渐靠近目标分布。这个过程通过反复地添加噪声来实现。每次添加噪声后，数据点都会在分布中进行微小的调整，从而使得最终生成的样本更符合目标分布。

在其中一个实施例中，本申请适用于对医学图像的训练处理，此时训练过程可以参照图7所示，包括：基于原始的医学图像建立多个分割掩膜，而后将n个分割掩膜叠加T次高斯噪声，得到n x T个叠加不同程度噪声的掩膜，并且记录下每一步添加的噪声，在训练过程中，可以将叠加了T次噪声的n个分割掩膜与其对应的医学图像进行拼接，然后输入编码器。编码器将输入图像与掩膜拼接后的联合表征映射到潜在空间中，得到具有T次噪声的掩膜与医学图像的潜在向量表征，最邻近算法根据距离度量找到codebook中与输入中间表征最接近的向量的相似向量，在潜在空间表示约束的条件下对相似向量进行处理，将查询到的相似向量放置到对应生成目标域隐藏向量的位置上，得到量化后的生成目标域隐藏向量，而后有编码器模型在生成目标域隐藏向量的基础上器重建医学图像，将预测噪声隐藏向量映射回原始图像空间，生成预测第T次叠加的噪声，通过对叠加了T次噪声的n个分割掩膜减去其预测第T次叠加的噪声，预测出叠加了T-1次噪声的分割掩膜。而后对预测出叠加了T-1次噪声的分割掩膜和真实叠加了T-1次噪声的分割掩膜计算损失参数，来反向优化编码器模型和解码器模型，通过重复T次，即可还原出最初的分割掩膜，完成对模型的训练处理。本实施例中，通过多次叠加噪声的方式，来完成对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型的模型训练处理，可以有效提高后续进行图像分割处理的准确性。

在一个示例性的实施例中，根据噪音损失参数、图像重建损失参数和权重分布损失参数，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行优化处理，得到向量量化变分自编码器模型和向量量化变分自解码器模型包括：根据噪音损失参数、图像重建损失参数和权重分布损失参数，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行优化处理，得到待测向量量化变分自编码器模型和待测向量量化变分自解码器模型；获取测试图像和测试图像的真实分割结果；将测试图像输入待测向量量化变分自编码器模型和待测向量量化变分自解码器模型，得到测试分割结果；对测试分割结果和真实分割结果进行对比分析，得到相似度匹配分数，以及测试分割结果和真实分割结果的地面真值分布对最小方差和最大方差；基于最小方差和最大方差，确定多样性一致分数；基于相似度匹配分数和多样性一致分数得到集体识见分数，当集体识见分数高于分数阈值时，将待测向量量化变分自编码器模型，作为向量量化变分自编码器模型，并将待测向量量化变分自解码器模型，作为向量量化变分自解码器模型。

其中，相似度匹配分数即Dice匹配分数，它是一种衡量分割算法性能的指标，用于比较预测的分割结果与真实标签之间的相似度。相似度匹配分数的取值范围为0到1之间，其中0表示完全不匹配，1表示完全匹配。Dice分数越接近1，表示分割结果与真实分割越相似，分割质量越高。多样性一致分数则指的是分数，其用于评价预测的分割结果的多样性。集体识见分数（Collective Insight Score，CI）则是基于相似度匹配分数和多样性一致分数，该指标综合考虑了综合敏感性、最大Dice匹配分数和多样性一致性分数。CI分数通过对每个组成部分的调和平均来平衡各部分的权重。

示例性地，本申请所得到的条件向量量化扩散模型(Conditional VectorQuantizer Diffusion Model，CVQDM)模型是一种概率性分割模型，其产生的是预测的分布，而不是确定性的分布，因此需要根据基础事实的分布进行评估。虽然广义能量距离之前已被用于评估模糊分割模型，但该度量被发现是不充分的，因为它不成比例地奖励样本多样性，而不管其与真实样本是否匹配。这可能是潜在的危险，特别是在病理病例中。为了提高对模型评估的准确性，本申请引入集体识见分数来实现对概率性分割模型的评估，判断模型是否可用。该指标综合考虑了综合敏感性、最大Dice匹配分数和多样性一致性分数。CI分数通过对每个组成部分的调和平均来平衡各部分的权重。已被证实CI分数更能准确评估模糊模型的性能。其公式定义如下：

其中为组合灵敏度，为最大Dice匹配分数，多样性一致分数。其公式分别定义如下：（为预测分割掩膜的集合，为真实分割掩膜的集合，为单个真实分割掩膜，为对应的单个预测分割掩膜）

因此，在对训练得到模型进行评估时，可以分别获取测试图像的真实分割结果和测试分割结果，首先通过对测试分割结果和真实分割结果的对比分析，得到相似度匹配分数。同时计算单个输入图像的地面真值分布中所有对之间的方差，并取其中的最小方差和最大方差。此处将最小方差定义为，最大方差定义为。类似地，可以输入的预测分布中所有对之间的方差，并取最小和最大方差，其定义为和。对于特定输入，真实值的最小方差与预测分布的差值可以表示为。类似地，特定输入的真实值和预测分布的最大方差之差表示为。最后，将多样性协议Da定义为:

再将上述计算得到的相似度匹配分数和多样性一致分数代入集体识见分数的公式中，即可得到集体识见分数，当集体识见分数高于分数阈值时，将待测向量量化变分自编码器模型，作为向量量化变分自编码器模型，并将待测向量量化变分自解码器模型，作为向量量化变分自解码器模型，否则需要继续对模型进行训练，直到所得模型可以通过集体识见分数的评估。本实施例中，通过集体识见分数，来完成对训练所得的向量量化变分自编码器模型和向量量化变分自解码器模型的测试处理，可以有效地挑选出分割性能优越的模型来进行后续的图像分割处理，从而保证图像分割处理的准确性。

在一个示例性的实施例中，目标图像包括医学图像。方法还包括：基于图像分割结果进行医学图像识别处理，生成医学图像处理结果；反馈医学图像处理结果。

示例性地，本申请的图像分割方法具体可以应用于图像处理领域，来完成对原始医学图像的概率性分割处理。此时，针对每个概率性图像分割结果都可以进行相应的医学图像识别，确定通过图像分割所得到感兴趣区域的具体内容，识别出多个医学图像处理结果，而后将这些医学图像处理结果反馈至具体的医学图像处理人员，由这些医学图像处理人员来进行病灶识别和医学诊断等处理。在其中一个实施例中，本申请应用于肺病变医学图像的处理过程，此时可以选用肺病变分割(LIDC-IDRI)数据集来进行模型训练。这个公开可用的数据集包含来自1010名受试者的1018个肺部CT扫描，并有四位领域专家的手动注释，使其很好地代表了典型的CT图像歧义。共有12位放射科医生为该数据集提供了注释掩码。我们使用经过第二次阅片后的数据集，训练集包含13511张病灶图像，测试集包含1585张病灶图像，有4个专家分级。在另一个实施例中，本申请适用于骨表面医学图像的处理，此时可以选用骨表面分割(B-US)数据集来实现模型训练，其使用2D C5-2/60曲线探头和L14-5线性探头从受试者身上收集扫描结果得到。深度设置和图像分辨率分别在3-8 cm和0.12-0.19 mm之间变化。所有收集到的扫描图像都由一名超声专家和三名接受过骨分割训练的新手手工分割。训练集包含1769个骨超声扫描，测试集包含211个骨超声扫描。本实施例中，通过对图像分割结果的图像识别处理和反馈处理，可以更高效地概率性分割的识别结果反馈给到医学图像处理人员，由这些医学图像处理人员来进行后续病灶识别和医学诊断等处理，提高处理效率。

本申请还提供一种应用场景，以该应用场景应用上述的图像分割方法为例进行说明，该图像分割方法具体包括：

当用户需要通过一种医学图像的分割方法，来从采集的医学图像中分割处感兴趣的肺部病变位置，用于辅助进行医学相关的病灶识别和诊断时，可以通过本申请的图像分割方法来完成对医学图像的图像分割处理，得到多个概率性的图像分割结果。

首先，需要完成对模型的训练处理，此时，用户根据肺部病变的诊断需要，选用相关肺部图像构建训练集和测试集，而后通过训练集和测试集来完成对模型的训练和测试处理。搭载本申请图像分割方法的服务器，首先会获取目标对象所提交或者选定的训练集数据，而后针对训练集中的每张图像，构建该图像对应的多个分割掩膜，并对每个分割掩膜依次施加不同次数的高斯噪声，得到每个分割掩膜在不同次数高斯噪声影响下的噪声掩膜，将每个分割掩膜的最大噪声掩膜与测试集图像进行拼接处理，得到各个分割掩膜的掩膜拼接图像；再通过初始向量量化变分自编码器模型对掩膜拼接图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到各个掩膜拼接图像各自对应的概率性潜在特征向量；通过初始向量量化变分自解码器模型对概率性潜在特征向量进行解码处理，确定预测的最高层高斯噪声；基于每个分割掩膜的最大噪声掩膜和最高层高斯噪声，构建每个分割掩膜的预测次高噪声掩膜；基于每个分割掩膜的预测次高噪声掩膜和每个分割掩膜的次高噪声掩膜，确定最高层高斯噪声的噪声损失参数。同时，还可以对比输入的测试集图像和解码器的重建图像，得到最高层高斯噪声对应的图像重建损失参数；同时针对潜在空间表示约束的过程，获取概率性潜在特征向量在不同通道的重要性权重和约束权重，得到最高层高斯噪声对应的权重分布损失参数。根据噪音损失参数、图像重建损失参数和权重分布损失参数，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行优化处理，得到待测向量量化变分自编码器模型和待测向量量化变分自解码器模型；获取测试集中测试图像和测试图像的真实分割结果；将测试图像输入待测向量量化变分自编码器模型和待测向量量化变分自解码器模型，得到测试分割结果；对测试分割结果和真实分割结果进行对比分析，得到相似度匹配分数，以及测试分割结果和真实分割结果的地面真值分布对最小方差和最大方差；基于最小方差和最大方差，确定多样性一致分数；基于相似度匹配分数和多样性一致分数得到集体识见分数，当集体识见分数高于分数阈值时，将待测向量量化变分自编码器模型，作为向量量化变分自编码器模型，并将待测向量量化变分自解码器模型，作为向量量化变分自解码器模型。

在完成对模型的测试后，即可通过训练得到的模型来进行实际的图像分割处理，此时，可以将待处理的肺部病变图像和高斯噪声图像一起输入到搭载图像分割方法的服务器，而后以目标图像为条件信息，通过向量量化变分自编码器模型对目标图像进行向量编码处理，得到中间表征向量；通过最邻近算法在嵌入空间中查找中间表征向量的相似向量；通过自适应平均池化将相似向量压缩为通道维度向量；对通道维度向量进行卷积处理，基于卷积处理的结果得到通道维度向量内不同通道的重要性权重；基于相对熵对不同通道的重要性权重施加潜在空间约束，得到不同通道的约束权重；基于不同通道的约束权重和通道维度向量，得到多个概率性目标相似向量；构建每个概率性目标相似向量各自对应的概率性潜在特征向量。再对多个概率性潜在特征向量进行转化处理，得到多个预测噪声隐藏向量；以目标图像为条件信息，通过向量量化变分自解码器模型，对每个预测噪声隐藏向量进行解码处理，确定每个预测噪声隐藏向量对应的预测噪声。最后基于预测噪声，通过反向扩散对高斯噪声图像进行去噪处理，得到每个预测噪声各自对应的图像分割结果。

在其中一个实施例中，本申请的图像分割方法分割过程具体如图8所示，包括：

步骤801，获取待分割的目标图像和高斯噪声图像。步骤803，以目标图像为条件信息，通过向量量化变分自编码器模型对高斯噪声图像进行向量编码处理，得到中间表征向量。步骤805，通过最邻近算法在嵌入空间中查找中间表征向量的相似向量。步骤807，通过自适应平均池化将相似向量压缩为通道维度向量。步骤809，对通道维度向量进行卷积处理，基于卷积处理的结果得到通道维度向量内不同通道的重要性权重。步骤811，基于相对熵对不同通道的重要性权重施加潜在空间约束，得到不同通道的约束权重。步骤813，基于不同通道的约束权重和通道维度向量，得到多个概率性目标相似向量。步骤815，对多个概率性潜在特征向量进行转化处理，得到多个预测噪声隐藏向量。步骤817，以目标图像为条件信息，通过向量量化变分自解码器模型，对每个预测噪声隐藏向量进行解码处理，确定每个预测噪声隐藏向量对应的预测噪声。步骤819，基于预测噪声，通过反向扩散对高斯噪声图像进行去噪处理，得到每个预测噪声各自对应的图像分割结果。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像分割方法的图像分割装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像分割装置实施例中的具体限定可以参见上文中对于图像分割方法的限定，在此不再赘述。

在一个示例性的实施例中，如图9所示，提供了一种图像分割装置，包括：

数据获取模块902，用于获取待分割的目标图像和高斯噪声图像。

编码处理模块904，用于以目标图像为条件信息，通过向量量化变分自编码器模型对高斯噪声图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到目标图像的多个概率性潜在特征向量。

解码处理模块906，用于以目标图像为条件信息，通过向量量化变分自解码器模型，对概率性潜在特征向量进行特征解码处理，得到多个预测噪声；向量量化变分自编码器模型和向量量化变分自编码器模型，基于历史图像进行条件扩散训练得到。

图像分割模块908，用于基于预测噪声，通过反向扩散对高斯噪声图像进行去噪处理，得到每个预测噪声各自对应的图像分割结果。

在一个实施例中，编码处理模块904具体用于：以目标图像为条件信息，通过向量量化变分自编码器模型对高斯噪声图像进行向量编码处理，得到中间表征向量；通过最邻近算法在嵌入空间中查找中间表征向量的相似向量；对相似向量施加潜在空间表示约束，得到多个概率性目标相似向量；构建每个概率性目标相似向量各自对应的概率性潜在特征向量。

在一个实施例中，编码处理模块904具体用于：通过自适应平均池化将相似向量压缩为通道维度向量；对通道维度向量进行卷积处理，基于卷积处理的结果得到通道维度向量内不同通道的重要性权重；基于相对熵对不同通道的重要性权重施加潜在空间约束，得到不同通道的约束权重；基于不同通道的约束权重和通道维度向量，得到多个概率性目标相似向量。

在一个实施例中，解码处理模块906具体用于：对多个概率性潜在特征向量进行转化处理，得到多个预测噪声隐藏向量；以目标图像为条件信息，通过向量量化变分自解码器模型，对每个预测噪声隐藏向量进行解码处理，确定每个预测噪声隐藏向量对应的预测噪声。

在一个实施例中，还包括扩散模型训练模块，用于：获取历史图像的多个分割掩膜；基于分割掩膜，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行条件扩散训练，得到向量量化变分自编码器模型和向量量化变分自解码器模型。

在一个实施例中，扩散模型训练模块具体用于：对每个分割掩膜依次施加不同次数的高斯噪声，得到每个分割掩膜在不同次数高斯噪声影响下的噪声掩膜；基于每个分割掩膜在不同次数高斯噪声影响下的噪声掩膜，依序对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行条件扩散处理，得到不同次数高斯噪声各自对应的噪音损失参数、图像重建损失参数和权重分布损失参数；根据噪音损失参数、图像重建损失参数和权重分布损失参数，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行优化处理，得到向量量化变分自编码器模型和向量量化变分自解码器模型。

在一个实施例中，扩散模型训练模块具体用于：将每个分割掩膜的最大噪声掩膜与历史图像进行拼接处理，得到各个分割掩膜的掩膜拼接图像，最大噪声掩膜为施加了最大次数高斯噪声的噪声掩膜；通过初始向量量化变分自编码器模型对掩膜拼接图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到各个掩膜拼接图像各自对应的概率性潜在特征向量；通过初始向量量化变分自解码器模型对概率性潜在特征向量进行解码处理，确定预测的最高层高斯噪声；基于每个分割掩膜的最大噪声掩膜和最高层高斯噪声，构建每个分割掩膜的预测次高噪声掩膜；基于每个分割掩膜的预测次高噪声掩膜和每个分割掩膜的次高噪声掩膜，确定最高层高斯噪声的噪声损失参数。

在一个实施例中，扩散模型训练模块具体用于：通过初始向量量化变分自解码器模型对历史图像进行图像重建处理，得到重建图像；将概率性潜在特征向量映射至重建图像的图像重建空间，得到预测的最高层高斯噪声。

在一个实施例中，扩散模型训练模块具体用于：对比历史图像和重建图像，得到最高层高斯噪声对应的图像重建损失参数；获取概率性潜在特征向量在不同通道的重要性权重和约束权重，得到最高层高斯噪声对应的权重分布损失参数。

在一个实施例中，扩散模型训练模块具体用于：根据噪音损失参数、图像重建损失参数和权重分布损失参数，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行优化处理，得到待测向量量化变分自编码器模型和待测向量量化变分自解码器模型；获取测试图像和测试图像的真实分割结果；将测试图像输入待测向量量化变分自编码器模型和待测向量量化变分自解码器模型，得到测试分割结果；对测试分割结果和真实分割结果进行对比分析，得到相似度匹配分数，以及测试分割结果和真实分割结果的地面真值分布对最小方差和最大方差；基于最小方差和最大方差，确定多样性一致分数；基于相似度匹配分数和多样性一致分数得到集体识见分数，当集体识见分数高于分数阈值时，将待测向量量化变分自编码器模型和待测向量量化变分自解码器模型，作为向量量化变分自编码器模型和向量量化变分自编码器模型。

在一个实施例中，目标图像包括医学图像。装置还包括医学图像处理模块，用于：基于图像分割结果进行医学图像识别处理，生成医学图像处理结果；反馈医学图像处理结果。

上述图像分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像分割相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分割方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像分割方法，其特征在于，所述方法包括：

获取待分割的目标图像和高斯噪声图像；

2.根据权利要求1所述的方法，其特征在于，所述以所述目标图像为条件信息，通过向量量化变分自编码器模型对所述高斯噪声图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到所述高斯噪声图像的多个概率性潜在特征向量包括：

以所述目标图像为条件信息，通过向量量化变分自编码器模型，对所述高斯噪声图像进行向量编码处理，得到中间表征向量；

通过最邻近算法在嵌入空间中查找所述中间表征向量的相似向量；

对所述相似向量施加潜在空间表示约束，得到多个概率性目标相似向量；

构建每个概率性目标相似向量各自对应的概率性潜在特征向量。

3.根据权利要求2所述的方法，其特征在于，所述对所述相似向量施加潜在空间表示约束，得到多个概率性目标相似向量包括：

通过自适应平均池化将所述相似向量压缩为通道维度向量；

对所述通道维度向量进行卷积处理，基于卷积处理的结果得到所述通道维度向量内不同通道的重要性权重；

基于相对熵对所述不同通道的重要性权重施加潜在空间约束，得到不同通道的约束权重；

基于所述不同通道的约束权重和所述通道维度向量，得到多个概率性目标相似向量。

4.根据权利要求1所述的方法，其特征在于，所述以所述目标图像为条件信息，通过向量量化变分自解码器模型，对所述概率性潜在特征向量进行特征解码处理，得到多个预测噪声包括：

对多个所述概率性潜在特征向量进行转化处理，得到多个预测噪声隐藏向量；

以所述目标图像为条件信息，通过向量量化变分自解码器模型，对每个所述预测噪声隐藏向量进行解码处理，确定每个预测噪声隐藏向量对应的预测噪声。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取历史图像的多个分割掩膜；

基于所述分割掩膜，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行条件扩散训练，得到向量量化变分自编码器模型和向量量化变分自解码器模型。

6.根据权利要求5所述的方法，其特征在于，所述基于所述分割掩膜，对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行条件扩散训练，得到向量量化变分自编码器模型和向量量化变分自解码器模型包括：

对每个所述分割掩膜依次施加不同次数的高斯噪声，得到每个分割掩膜在不同次数高斯噪声影响下的噪声掩膜；

基于所述每个分割掩膜在不同次数高斯噪声影响下的噪声掩膜，依序对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行条件扩散处理，得到不同次数高斯噪声各自对应的噪音损失参数、图像重建损失参数和权重分布损失参数；

根据所述噪音损失参数、所述图像重建损失参数和所述权重分布损失参数，对所述初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行优化处理，得到向量量化变分自编码器模型和向量量化变分自解码器模型。

7.根据权利要求6所述的方法，其特征在于，基于所述每个分割掩膜在不同次数高斯噪声影响下的噪声掩膜，依序对初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行条件扩散处理，得到不同次数高斯噪声各自对应的噪声损失参数包括：

将每个分割掩膜的最大噪声掩膜与所述历史图像进行拼接处理，得到各个分割掩膜的掩膜拼接图像，所述最大噪声掩膜为施加了最大次数高斯噪声的噪声掩膜；

通过初始向量量化变分自编码器模型对所述掩膜拼接图像进行特征编码处理，并对特征编码处理的结果施加潜在空间表示约束，得到各个掩膜拼接图像各自对应的概率性潜在特征向量；

通过初始向量量化变分自解码器模型对所述概率性潜在特征向量进行解码处理，得到预测的最高层高斯噪声；

基于每个分割掩膜的所述最大噪声掩膜和所述最高层高斯噪声，构建每个分割掩膜的预测次高噪声掩膜；

基于每个分割掩膜的所述预测次高噪声掩膜和每个分割掩膜的次高噪声掩膜，确定最高层高斯噪声的噪声损失参数。

8.根据权利要求7所述的方法，其特征在于，所述通过初始向量量化变分自解码器模型对所述概率性潜在特征向量进行解码处理，确定预测的最高层高斯噪声包括：

通过初始向量量化变分自解码器模型，对所述历史图像进行图像重建处理，得到重建图像；

将所述概率性潜在特征向量映射至所述重建图像的图像重建空间，得到预测的最高层高斯噪声。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

对比所述历史图像和所述重建图像，得到最高层高斯噪声对应的图像重建损失参数；

获取所述概率性潜在特征向量在不同通道的重要性权重和约束权重，得到最高层高斯噪声对应的权重分布损失参数。

10.根据权利要求6所述的方法，其特征在于，所述根据所述噪音损失参数、所述图像重建损失参数和所述权重分布损失参数，对所述初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行优化处理，得到向量量化变分自编码器模型和向量量化变分自解码器模型包括：

根据所述噪音损失参数、所述图像重建损失参数和所述权重分布损失参数，对所述初始向量量化变分自编码器模型和初始向量量化变分自解码器模型进行优化处理，得到待测向量量化变分自编码器模型和待测向量量化变分自解码器模型；

获取测试图像和所述测试图像的真实分割结果；

将所述测试图像输入所述待测向量量化变分自编码器模型和待测向量量化变分自解码器模型，得到测试分割结果；

对所述测试分割结果和所述真实分割结果进行对比分析，得到相似度匹配分数，以及所述测试分割结果和所述真实分割结果的地面真值分布对最小方差和最大方差；

基于所述最小方差和所述最大方差，确定多样性一致分数；

基于所述相似度匹配分数和所述多样性一致分数得到集体识见分数，当所述集体识见分数高于分数阈值时，将所述待测向量量化变分自编码器模型，作为向量量化变分自编码器模型，并将所述待测向量量化变分自解码器模型，作为向量量化变分自解码器模型。

11.根据权利要求1至10任意一项所述的方法，其特征在于，所述目标图像包括医学图像；

所述方法还包括：

基于所述图像分割结果进行医学图像识别处理，生成医学图像处理结果；

反馈所述医学图像处理结果。

12.一种图像分割装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。