CN116993770B

CN116993770B - 一种基于残差扩散模型的图像分割方法

Info

Publication number: CN116993770B
Application number: CN202311031721.4A
Authority: CN
Inventors: 王宽全; 刘一凡; 李向宇; 王玮; 骆功宁; 李钦策; 袁永峰
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2024-05-28
Anticipated expiration: 2043-08-16
Also published as: CN116993770A

Abstract

一种基于残差扩散模型的图像分割方法，它属于图像处理技术领域。本发明解决了现有模糊图像分割算法的分割效果差的问题。本发明的主要方案为：步骤S1、对已知目标区域的三维图像进行预处理，将预处理后的图像作为训练数据；步骤S2、将步骤S1中预处理后图像的目标区域标签转换成体素级的独热编码分割标签向量y₀；步骤S3、构建残差扩散模型，所述残差扩散模型包括扩散先验网络和噪声估计网络两个部分；利用训练数据和分割标签向量y₀对扩散先验网络和噪声估计网络进行联合训练；步骤S4、对待分割图像进行预处理操作后，利用训练好的残差扩散模型的参数对预处理后的待分割图像进行分割。本发明方法可以应用于图像分割。

Description

一种基于残差扩散模型的图像分割方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于残差扩散模型的图像分割方法。

背景技术

在计算机视觉领域，由于成像条件的限制，会导致图像存在内在模糊性(如不同对象之间的边界模糊等)，因此实现模糊图像分割是一项至关重要的任务。然而模糊图像的分割任务具有巨大困难和挑战，在模糊图像中目标与背景之间的边界通常是模糊不清的，且目标与背景之间的灰度差异不明显，图像的细微特征和纹理难以分辨，使得分割算法在提取图像特征时相对困难，难以准确的确定目标边界从而导致分割效果不理想。但是模糊图像分割的准确性对后续的图像分析任务至关重要，通过解决模糊图像分割的问题，可以为医学图像分析、自动驾驶、安防监控等应用领域提供更好的技术基础。

发明内容

本发明的目的是为解决现有模糊图像分割算法的分割效果差的问题，而提出的一种基于残差扩散模型的图像分割方法。

本发明为解决上述技术问题所采取的技术方案是：

一种基于残差扩散模型的图像分割方法，所述方法具体包括以下步骤：

步骤S1、对已知目标区域的三维图像进行预处理，将预处理后的图像作为训练数据；

步骤S2、将步骤S1中预处理后图像的目标区域标签转换成体素级的独热编码分割标签向量y₀，(D,H,W)是三维图像的空间分辨率，C为图像中包含的目标类别数；

步骤S3、构建残差扩散模型，所述残差扩散模型包括扩散先验网络和噪声估计网络两个部分；

利用训练数据和分割标签向量y₀对扩散先验网络和噪声估计网络进行联合训练；

步骤S4、对待分割图像进行预处理操作后，利用训练好的残差扩散模型的参数对预处理后的待分割图像进行分割。

进一步地，所述对已知目标区域的三维图像进行预处理，其具体为：

对已知目标区域的图像依次进行图像裁剪和标准化。

进一步地，所述扩散先验网络为3D U-Net网络。

进一步地，所述利用训练数据对扩散先验网络和噪声估计网络进行联合训练的具体过程为：

步骤S31、将训练数据经过扩散先验网络的输出作为初始分割结果g_φ(x)，φ是扩散先验网络的参数；

步骤S32、根据初始分割结果g_φ(x)对独热编码分割标签向量y₀进行前向加噪声处理，得到在时间步t的预测结果y_t；

所述步骤S32的具体过程为：

步骤S321、将初始分割结果g_φ(x)作为先验，独热编码分割标签向量y0的单步前向扩散过程如下：

其中，q(y_t|y_t-1，g_φ(x))表示单步前向加噪概率分布，y_t是在时间步t的预测结果，y_t-1是在时间步t-1的预测结果，β_t是在时间步t加入的噪声方差，I是单位矩阵，是高斯分布；

步骤S322、通过重复执行步骤S321的过程和重参数化得到对任意时间步t的加噪之后的预测结果y_t：

其中，α_t＝1-β_t，α_t表示在时间步t加入的噪声方差与1的差距；表示不同时间步的噪声方差水平与1的差距的连乘，∈是待预测的噪声。

步骤S33、通过优化噪声估计网络的参数θ来学习反向去噪过程；

所述步骤S33的具体过程为：

步骤S331、根据步骤S321的单步前向扩散过程，得到以y₀为条件的前向扩散过程的后验概率分布q(y_t-1|y_t，y₀，g_φ(x))：

其中，

步骤S332、反向去噪过程的概率分布p_θ(y_t-1|y_t，x，g_φ(x))为：

其中，x为预处理的图像，μ_θ(y_t，x，g_φ(x))和∑_θ(y_t，x，g_φ(x))分别是高斯分布的均值和方差；

步骤S333、利用KL散度来描述步骤S332中反向去噪过程的概率分布p_θ(y_t-1|y_t，x，g_φ(x))与前向扩散过程的后验概率分布q(y_t-1|y_t，y₀，g_φ(x))的差异，根据差异来训练噪声估计网络，噪声估计网络的输出为对噪声的预测结果∈_θ(x，y_t，g_φ(x)，t)；

步骤S34、对反向去噪过程的每一步中得到的预测结果与步骤S2中的体素级的独热编码分割标签向量进行监督学习，训练残差扩散模型的网络参数；

所述步骤S34的具体过程为：

步骤S341、基于步骤S322中的y_t，根据预测的噪声∈_θ(x，y_t，g_φ(x)，t)在反向去噪过程的任意时间步t反推得到y₀的预测结果：

其中，是y₀的预测结果；

步骤S342、利用softmax层将从实数域的表示转换为概率向量的表示：

其中，是由预测结果/>中第i类目标所对应的元素组成的矩阵，/>代表矩阵/>中的各像素属于第i类目标的概率，k＝1，2，...，C；

步骤S343、根据步骤S342中得到的概率向量将任意时间步t的深度扩散监督损失函数定义为：

其中，a的取值为a＞1，是由预测结果y₀中第i类目标所对应的元素组成的矩阵；

步骤S344、联合扩散损失和深度扩散监督损失来对残差扩散模型的参数进行优化，联合后的损失函数为：

其中，λ表示平衡扩散损失和深度监督损失的重要性的相对权重，为扩散损失。

进一步地，所述噪声估计网络的工作过程为：

将图像x作为第一卷积层的输入，图像x经过第一卷积层得到第一卷积层输出的特征；

将输入的时间步t经过嵌入层编码到k维度空间中，得到编码结果；

将加噪之后的预测结果y_t与初始分割结果g_φ(x)在第一个维度上进行合并，得到合并结果；合并结果经过第一双倍卷积模块后，将第一双倍卷积模块的输出与编码结果相加，得到相加结果A；

将相加结果A与第一卷积层的输出做内积，做内积结果依次经过第二双倍卷积模块和第三双倍卷积模块，将第三双倍卷积模块的输出与编码结果相加，得到相加结果B；

将相加结果B作为第二卷积层的输入，第二卷积层的输出结果为∈_θ(x，y_t，g_φ(x)，t)。

进一步地，所述噪声估计网络的扩散损失为：

其中，为扩散损失，||·||为2范数。

进一步地，所述步骤S4的具体过程为：

步骤S41、对待分割图像x′进行预处理操作，得到预处理后的待分割图像；

步骤S42、通过训练好的残差扩散模型的扩散先验网络得到待分割图像的初始分割结果g_φ(x′)；

步骤S43、设定噪声采样的总次数为K，初始化当前噪声采样次数为k＝1；

步骤S44、将当前次从标准高斯分布中采样的噪声记为z_k，根据噪声z_k构造残差扩散模型在t时间步下对待分割图像的预测结果t：＝T，：＝代表赋值；

步骤S45、通过噪声估计网络来预测t时间步下待分割图像的噪声根据步骤S322中的重参数化的方式得到0时间步的标签预测结果y′₀；

步骤S46、根据和y′₀计算t-1时间步的预测结果/>

步骤S47、判断是否满足t-1＝0；

若满足，则利用来执行步骤S48；

否则，令t＝t-1，返回步骤S45；

步骤S48、根据和步骤S342中的方法来计算时间步0的分割结果预测概率/>后，再执行步骤S49；

步骤S49、判断是否满足k小于K；

若满足k小于K，则令k＝k+1，再返回步骤S44；

否则，执行步骤S410；

步骤S410、对于待分割图像中的任意一个像素，对该像素在每次采样噪声得到的分割结果预测概率中对应的概率值取均值，得到该像素属于第i类目标的概率，同理，得到该像素属于各类目标的概率；从该像素属于各类目标的概率中选择出最大的概率，将最大概率所对应的类别作为该像素所属的类别；

同理，分别得到各个像素所属的类别，即获得对待分割图像的分割结果。

更进一步地，所述第一双倍卷积模块中包括两个卷积层和一个投影层，且第一双倍卷积模块的每个卷积层之后均连接有IN层和ReLu激活函数层；

第二双倍卷积模块和第三双倍卷积模块与第一双倍卷积模块的结构相同。

本发明的有益效果是：

本发明通过在扩散过程中引入残差学习和深度监督策略对原始扩散模型进行扩展，将扩散先验网络的分割结果作为残差扩散模型的先验信息，来提高反向去噪过程的效率，在实现多类别目标的图像分割任务的同时，显著改善了图像分割的效果。

而且，本发明方法显著提高了采样效率和模型校准能力，实现了将扩散模型应用于分割任务中，解决了大量采样的体素级扩散导致计算效率极低的问题。

附图说明

图1是本发明的一种基于残差扩散模型的图像分割方法的流程图；

图2是噪声估计网络的结构图。

具体实施方式

具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种基于残差扩散模型的图像分割方法，所述方法具体包括以下步骤：

步骤S2、将步骤S1中预处理后图像的目标区域标签转换成体素级的独热编码分割标签向量y₀，(D,H,W)是三维图像的空间分辨率，C为图像中包含的目标类别数；将标签向量y₀作为残差扩散模型的目标；

本发明提出一种新的基于残差扩散模型的图像分割方法，该方法扩展了当前的概率扩散模型方法，有效地实现了模糊图像分割任务的同时，提升了对模糊图像和非模糊图像分割的效果。

与其他扩散模型相比，本发明的残差扩散模型具有以下优势：

(1)残差扩散模型能实现多类别标签的图像分割任务；

(2)将扩散先验网络的分割结果作为残差扩散模型的先验信息，来提高反向去噪过程的效率；

(3)对残差扩散模型进行训练时，在扩散损失基础上还加入深度扩散监督损失来进一步加强训练，加快模型收敛。

具体实施方式二、本实施方式与具体实施方式一不同的是，所述对已知目标区域的三维图像进行预处理，其具体为：

对己知目标区域的图像依次进行图像裁剪和标准化。

其它步骤及参数与具体实施方式一相同。

具体实施方式三、本实施方式与具体实施方式一或二不同的是，所述扩散先验网络为3D U-Net网络。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四、本实施方式与具体实施方式一至三之一不同的是，所述利用训练数据对扩散先验网络和噪声估计网络进行联合训练的具体过程为：

所述步骤S32的具体过程为：

步骤S321、将初始分割结果g_φ(x)作为先验，独热编码分割标签向量y₀的单步前向扩散过程如下：

其中，q(y_t|y_t-1，g_φ(x))表示单步前向加噪概率分布(即在给定y_t-1的分布和g_φ(x)的条件下，y_t的分布满足均值为方差为β_tI的高斯分布)，y_t是在时间步t的预测结果，y_t-1是在时间步t-1的预测结果，β_t是在时间步t加入的噪声方差，I是单位矩阵，/>是高斯分布；

步骤S322、在给定y₀条件下，基于单步前向扩散过程构造包含T步的前向马尔可夫链，通过重复执行步骤S321的过程(重复执行步骤S321时，从y₀开始逐步进行递推)和重参数化得到对任意时间步t的加噪之后的预测结果y_t：

本发明的残差扩散模型可以学习真实标签与初始分割结果之间的残差，相比直接学习分割标签，极大地降低了模型学习难度。

所述步骤S33的具体过程为：

步骤S331、根据步骤S321的单步前向扩散过程，得到以y₀为条件的前向扩散过程的后验概率分布q(y_t-1||y_t，y₀，g_φ(x))：

其中，

所述步骤S34的具体过程为：

步骤S341、基于步骤S322中的y_t，根据预测的噪声∈_θ(x,y_t,g_φ(x),t)在反向去噪过程的任意时间步t反推得到y₀的预测结果：

其中，是y₀的预测结果；

步骤S342、步骤S341中重构的预测结果是将编码的标签视为连续响应变量情况下得到的，因此是实数域的值而非概率向量，因此还需要利用softmax层将/>从实数域的表示转换为概率向量的表示：

其中，是由预测结果/>中第i类目标所对应的元素组成的矩阵(即在类别数C所对应的维度中，每个像素对应的向量长度为C，各像素所对应的向量中的第i个元素组成的矩阵为/>)，/>代表矩阵/>中的各像素属于第i类目标的概率，k＝1,2,…,C；

步骤S343、为进一步促进模型的训练并加快模型收敛，使用一种深度扩散监督策略，来监督扩散过程的中间步骤，以鼓励在每个时间步对y₀的准确预测，根据步骤S342中得到的概率向量将任意时间步t的深度扩散监督损失函数定义为：

其它步骤及参数与具体实施方式一至三之一相同。

需要说明的是：本发明中的扩散先验网络和噪声估计网络也可以单独进行训练，单独训练时，首先训练好扩散先验网络，扩散先验网络训练完成后参数即不再改变(初始分割结果不再改变)，然后再采用步骤S32至步骤S34对噪声估计网络进行训练。联合训练时，采用步骤S31至步骤S34进行训练，训练过程中初始分割结果随之动态改变。

具体实施方式五、结合图2说明本实施方式。本实施方式与具体实施方式一至四之一不同的是，所述噪声估计网络的工作过程为：

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六、本实施方式与具体实施方式一至五之一不同的是，所述噪声估计网络的扩散损失为：

其中，为扩散损失，||·||为2范数。

扩散损失根据步骤S332中反向去噪过程的概率分布p_θ(y_t-1|y_t，x，g_φ(x))与前向扩散过程的后验概率分布q(y_t-1|y_t，y₀，g_φ(x))的差异得到，具体为：

噪声估计网络的训练目标是最小化步骤S332中反向去噪过程的概率分布p_θ(y_t-1|y_t，x，g_φ(x))与步骤S331中前向扩散过程的后验概率分布q(y_t-1|y_t，y₀，g_φ(x))的差异，用KL散度来描述二者的差异，根据两个分布的均值和方差，其KL散度可以化简为：

其中和μ_θ(y_t，x，g_φ(x))分别表示分布q(y_t-1|y_t，y₀，g_φ(x))和分布p_θ(y_t-1|y_t，x，g_φ(x))的均值，/>和∑_θ(y_t，x，g_φ(x))分别表示分布q(y_t-1|y_t，y₀，g_φ(x))和分布p_θ(y_t-1|y_t，x，g_φ(x))的方差。

将反向去噪过程概率分布的方差∑_θ(y_t，x，g_φ(x))设为与β_t相关的常数，因此可训练的参数只存在于均值μ_θ(y_t，x，g_φ(x))中，于是训练目标可以进一步化简为：

为进一步简化训练方式，使噪声估计网络∈_θ(x，y_t，g_φ(x)，t)对噪声进行建模预测。根据步骤S322中y_t与y₀的关系，可以在已知y_t和噪声预测结果∈_θ(x，y_t，g_φ(x)，t)的条件下，求解y₀的预测结果y₀(y_t，x，g_φ(x))，进而根据步骤S331中的计算方式，反向去噪过程概率分布的均值μ_θ(y_t，x，g_φ(x))可以用∈_θ(x，y_t，g_φ(x)，t)表示为：

由于不含参数的项不影响训练目标的最小化，因此舍弃，同时为训练更稳定，将参数项的系数也舍弃，进而训练目标最终简化为噪声之间的均方误差，将其作为扩散损失，记为

其中，为扩散损失；

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七、本实施方式与具体实施方式一至六之一不同的是，所述步骤S4的具体过程为：

步骤S45、通过噪声估计网络来预测t时间步下待分割图像的噪声根据步骤S322中的重参数化的方式，用/>代替公式中的y_t计算得到0时间步的标签预测结果y′₀；

步骤S46、根据步骤S331中的后验概率分布，用和步骤S45得到的y′₀分别代替公式中的y_t和y₀，即根据/>和y′₀计算t-1时间步的预测结果/>

步骤S47、判断是否满足t-1＝0；

若满足，则利用来执行步骤S48；

否则，令t＝t-1，返回步骤S45；

步骤S49、判断是否满足k小于K；

若满足k小于K，则令k＝k+1，再返回步骤S44；

否则，执行步骤S410；

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八、本实施方式与具体实施方式一至七之一不同的是，所述第一双倍卷积模块中包括两个卷积层和一个投影层，且第一双倍卷积模块的每个卷积层之后均连接有IN(Instance-Normalization)层和ReLu激活函数层；

其它步骤及参数与具体实施方式一至七之一相同。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于残差扩散模型的图像分割方法，其特征在于，所述方法具体包括以下步骤：

所述扩散先验网络为3D U-Net网络；所述噪声估计网络的工作过程为：

将相加结果B作为第二卷积层的输入，第二卷积层的输出结果为∈_θ(x,y_t,g_φ(x),t)；

所述第一双倍卷积模块中包括两个卷积层和一个投影层，且第一双倍卷积模块的每个卷积层之后均连接有IN层和ReLu激活函数层；

第二双倍卷积模块和第三双倍卷积模块与第一双倍卷积模块的结构相同；

利用训练数据和分割标签向量y₀对扩散先验网络和噪声估计网络进行联合训练；具体训练过程为：

所述步骤S32的具体过程为：

其中，q(y_t∣y_t-1,g_φ(x))表示单步前向加噪概率分布，y_t是在时间步t的预测结果，y_t-1是在时间步t-1的预测结果，β_t是在时间步t加入的噪声方差，I是单位矩阵，是高斯分布；

其中，α_t＝1-β_t，α_t表示在时间步t加入的噪声方差与1的差距；s＝1,2,…,t，/>表示不同时间步的噪声方差水平与1的差距的连乘，∈是待预测的噪声；

所述步骤S33的具体过程为：

步骤S331、根据步骤S321的单步前向扩散过程，得到以y₀为条件的前向扩散过程的后验概率分布q(y_t-1∣y_t,y₀,g_φ(x))：

其中，

步骤S332、反向去噪过程的概率分布p_θ(y_t-1|y_t,x,g_φ(x))为：

其中，x为预处理的图像，μ_θ(y_t,x,g_φ(x))和Σ_θ(y_t,x,g_φ(x))分别是高斯分布的均值和方差；

步骤S333、利用KL散度来描述步骤S332中反向去噪过程的概率分布p_θ(y_t-1|y_t,x,g_φ(x))与前向扩散过程的后验概率分布q(y_t-1∣y_t,y₀,g_φ(x))的差异，根据差异来训练噪声估计网络，噪声估计网络的输出为对噪声的预测结果∈_θ(x,y_t,g_φ(x),t)；

所述步骤S34的具体过程为：

其中，是y₀的预测结果；

其中，是由预测结果/>中第i类目标所对应的元素组成的矩阵，/>代表矩阵/>中的各像素属于第i类目标的概率，k＝1,2,…,C；

其中，λ表示平衡扩散损失和深度监督损失的重要性的相对权重，为扩散损失；

2.根据权利要求1所述的一种基于残差扩散模型的图像分割方法，其特征在于，所述对已知目标区域的三维图像进行预处理，其具体为：

对已知目标区域的图像依次进行图像裁剪和标准化。

3.根据权利要求2所述的一种基于残差扩散模型的图像分割方法，其特征在于，所述噪声估计网络的扩散损失为：

其中，为扩散损失，‖·‖为2范数。

4.根据权利要求3所述的一种基于残差扩散模型的图像分割方法，其特征在于，所述步骤S4的具体过程为：

步骤S46、根据和y′₀计算t-1时间步的预测结果/>

步骤S47、判断是否满足t-1＝0；

若满足，则利用来执行步骤S48；

否则，令t＝t-1，返回步骤S45；

步骤S49、判断是否满足k小于K；

若满足k小于K，则令k＝k+1，再返回步骤S44；

否则，执行步骤S410；