CN116993770B - 一种基于残差扩散模型的图像分割方法 - Google Patents

一种基于残差扩散模型的图像分割方法 Download PDF

Info

Publication number
CN116993770B
CN116993770B CN202311031721.4A CN202311031721A CN116993770B CN 116993770 B CN116993770 B CN 116993770B CN 202311031721 A CN202311031721 A CN 202311031721A CN 116993770 B CN116993770 B CN 116993770B
Authority
CN
China
Prior art keywords
image
diffusion
result
noise
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311031721.4A
Other languages
English (en)
Other versions
CN116993770A (zh
Inventor
王宽全
刘一凡
李向宇
王玮
骆功宁
李钦策
袁永峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202311031721.4A priority Critical patent/CN116993770B/zh
Publication of CN116993770A publication Critical patent/CN116993770A/zh
Application granted granted Critical
Publication of CN116993770B publication Critical patent/CN116993770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种基于残差扩散模型的图像分割方法,它属于图像处理技术领域。本发明解决了现有模糊图像分割算法的分割效果差的问题。本发明的主要方案为:步骤S1、对已知目标区域的三维图像进行预处理,将预处理后的图像作为训练数据;步骤S2、将步骤S1中预处理后图像的目标区域标签转换成体素级的独热编码分割标签向量y0;步骤S3、构建残差扩散模型,所述残差扩散模型包括扩散先验网络和噪声估计网络两个部分;利用训练数据和分割标签向量y0对扩散先验网络和噪声估计网络进行联合训练;步骤S4、对待分割图像进行预处理操作后,利用训练好的残差扩散模型的参数对预处理后的待分割图像进行分割。本发明方法可以应用于图像分割。

Description

一种基于残差扩散模型的图像分割方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于残差扩散模型的图像分割方法。
背景技术
在计算机视觉领域,由于成像条件的限制,会导致图像存在内在模糊性(如不同对象之间的边界模糊等),因此实现模糊图像分割是一项至关重要的任务。然而模糊图像的分割任务具有巨大困难和挑战,在模糊图像中目标与背景之间的边界通常是模糊不清的,且目标与背景之间的灰度差异不明显,图像的细微特征和纹理难以分辨,使得分割算法在提取图像特征时相对困难,难以准确的确定目标边界从而导致分割效果不理想。但是模糊图像分割的准确性对后续的图像分析任务至关重要,通过解决模糊图像分割的问题,可以为医学图像分析、自动驾驶、安防监控等应用领域提供更好的技术基础。
发明内容
本发明的目的是为解决现有模糊图像分割算法的分割效果差的问题,而提出的一种基于残差扩散模型的图像分割方法。
本发明为解决上述技术问题所采取的技术方案是:
一种基于残差扩散模型的图像分割方法,所述方法具体包括以下步骤:
步骤S1、对已知目标区域的三维图像进行预处理,将预处理后的图像作为训练数据;
步骤S2、将步骤S1中预处理后图像的目标区域标签转换成体素级的独热编码分割标签向量y0(D,H,W)是三维图像的空间分辨率,C为图像中包含的目标类别数;
步骤S3、构建残差扩散模型,所述残差扩散模型包括扩散先验网络和噪声估计网络两个部分;
利用训练数据和分割标签向量y0对扩散先验网络和噪声估计网络进行联合训练;
步骤S4、对待分割图像进行预处理操作后,利用训练好的残差扩散模型的参数对预处理后的待分割图像进行分割。
进一步地,所述对已知目标区域的三维图像进行预处理,其具体为:
对已知目标区域的图像依次进行图像裁剪和标准化。
进一步地,所述扩散先验网络为3D U-Net网络。
进一步地,所述利用训练数据对扩散先验网络和噪声估计网络进行联合训练的具体过程为:
步骤S31、将训练数据经过扩散先验网络的输出作为初始分割结果gφ(x),φ是扩散先验网络的参数;
步骤S32、根据初始分割结果gφ(x)对独热编码分割标签向量y0进行前向加噪声处理,得到在时间步t的预测结果yt
所述步骤S32的具体过程为:
步骤S321、将初始分割结果gφ(x)作为先验,独热编码分割标签向量y0的单步前向扩散过程如下:
其中,q(yt|yt-1,gφ(x))表示单步前向加噪概率分布,yt是在时间步t的预测结果,yt-1是在时间步t-1的预测结果,βt是在时间步t加入的噪声方差,I是单位矩阵,是高斯分布;
步骤S322、通过重复执行步骤S321的过程和重参数化得到对任意时间步t的加噪之后的预测结果yt
其中,αt=1-βt,αt表示在时间步t加入的噪声方差与1的差距; 表示不同时间步的噪声方差水平与1的差距的连乘,∈是待预测的噪声。
步骤S33、通过优化噪声估计网络的参数θ来学习反向去噪过程;
所述步骤S33的具体过程为:
步骤S331、根据步骤S321的单步前向扩散过程,得到以y0为条件的前向扩散过程的后验概率分布q(yt-1|yt,y0,gφ(x)):
其中,
步骤S332、反向去噪过程的概率分布pθ(yt-1|yt,x,gφ(x))为:
其中,x为预处理的图像,μθ(yt,x,gφ(x))和∑θ(yt,x,gφ(x))分别是高斯分布的均值和方差;
步骤S333、利用KL散度来描述步骤S332中反向去噪过程的概率分布pθ(yt-1|yt,x,gφ(x))与前向扩散过程的后验概率分布q(yt-1|yt,y0,gφ(x))的差异,根据差异来训练噪声估计网络,噪声估计网络的输出为对噪声的预测结果∈θ(x,yt,gφ(x),t);
步骤S34、对反向去噪过程的每一步中得到的预测结果与步骤S2中的体素级的独热编码分割标签向量进行监督学习,训练残差扩散模型的网络参数;
所述步骤S34的具体过程为:
步骤S341、基于步骤S322中的yt,根据预测的噪声∈θ(x,yt,gφ(x),t)在反向去噪过程的任意时间步t反推得到y0的预测结果:
其中,是y0的预测结果;
步骤S342、利用softmax层将从实数域的表示转换为概率向量的表示:
其中,是由预测结果/>中第i类目标所对应的元素组成的矩阵,/>代表矩阵/>中的各像素属于第i类目标的概率,k=1,2,...,C;
步骤S343、根据步骤S342中得到的概率向量将任意时间步t的深度扩散监督损失函数定义为:
其中,a的取值为a>1,是由预测结果y0中第i类目标所对应的元素组成的矩阵;
步骤S344、联合扩散损失和深度扩散监督损失来对残差扩散模型的参数进行优化,联合后的损失函数为:
其中,λ表示平衡扩散损失和深度监督损失的重要性的相对权重,为扩散损失。
进一步地,所述噪声估计网络的工作过程为:
将图像x作为第一卷积层的输入,图像x经过第一卷积层得到第一卷积层输出的特征;
将输入的时间步t经过嵌入层编码到k维度空间中,得到编码结果;
将加噪之后的预测结果yt与初始分割结果gφ(x)在第一个维度上进行合并,得到合并结果;合并结果经过第一双倍卷积模块后,将第一双倍卷积模块的输出与编码结果相加,得到相加结果A;
将相加结果A与第一卷积层的输出做内积,做内积结果依次经过第二双倍卷积模块和第三双倍卷积模块,将第三双倍卷积模块的输出与编码结果相加,得到相加结果B;
将相加结果B作为第二卷积层的输入,第二卷积层的输出结果为∈θ(x,yt,gφ(x),t)。
进一步地,所述噪声估计网络的扩散损失为:
其中,为扩散损失,||·||为2范数。
进一步地,所述步骤S4的具体过程为:
步骤S41、对待分割图像x′进行预处理操作,得到预处理后的待分割图像;
步骤S42、通过训练好的残差扩散模型的扩散先验网络得到待分割图像的初始分割结果gφ(x′);
步骤S43、设定噪声采样的总次数为K,初始化当前噪声采样次数为k=1;
步骤S44、将当前次从标准高斯分布中采样的噪声记为zk,根据噪声zk构造残差扩散模型在t时间步下对待分割图像的预测结果t:=T,:=代表赋值;
步骤S45、通过噪声估计网络来预测t时间步下待分割图像的噪声根据步骤S322中的重参数化的方式得到0时间步的标签预测结果y′0
步骤S46、根据和y′0计算t-1时间步的预测结果/>
步骤S47、判断是否满足t-1=0;
若满足,则利用来执行步骤S48;
否则,令t=t-1,返回步骤S45;
步骤S48、根据和步骤S342中的方法来计算时间步0的分割结果预测概率/>后,再执行步骤S49;
步骤S49、判断是否满足k小于K;
若满足k小于K,则令k=k+1,再返回步骤S44;
否则,执行步骤S410;
步骤S410、对于待分割图像中的任意一个像素,对该像素在每次采样噪声得到的分割结果预测概率中对应的概率值取均值,得到该像素属于第i类目标的概率,同理,得到该像素属于各类目标的概率;从该像素属于各类目标的概率中选择出最大的概率,将最大概率所对应的类别作为该像素所属的类别;
同理,分别得到各个像素所属的类别,即获得对待分割图像的分割结果。
更进一步地,所述第一双倍卷积模块中包括两个卷积层和一个投影层,且第一双倍卷积模块的每个卷积层之后均连接有IN层和ReLu激活函数层;
第二双倍卷积模块和第三双倍卷积模块与第一双倍卷积模块的结构相同。
本发明的有益效果是:
本发明通过在扩散过程中引入残差学习和深度监督策略对原始扩散模型进行扩展,将扩散先验网络的分割结果作为残差扩散模型的先验信息,来提高反向去噪过程的效率,在实现多类别目标的图像分割任务的同时,显著改善了图像分割的效果。
而且,本发明方法显著提高了采样效率和模型校准能力,实现了将扩散模型应用于分割任务中,解决了大量采样的体素级扩散导致计算效率极低的问题。
附图说明
图1是本发明的一种基于残差扩散模型的图像分割方法的流程图;
图2是噪声估计网络的结构图。
具体实施方式
具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种基于残差扩散模型的图像分割方法,所述方法具体包括以下步骤:
步骤S1、对已知目标区域的三维图像进行预处理,将预处理后的图像作为训练数据;
步骤S2、将步骤S1中预处理后图像的目标区域标签转换成体素级的独热编码分割标签向量y0(D,H,W)是三维图像的空间分辨率,C为图像中包含的目标类别数;将标签向量y0作为残差扩散模型的目标;
步骤S3、构建残差扩散模型,所述残差扩散模型包括扩散先验网络和噪声估计网络两个部分;
利用训练数据和分割标签向量y0对扩散先验网络和噪声估计网络进行联合训练;
步骤S4、对待分割图像进行预处理操作后,利用训练好的残差扩散模型的参数对预处理后的待分割图像进行分割。
本发明提出一种新的基于残差扩散模型的图像分割方法,该方法扩展了当前的概率扩散模型方法,有效地实现了模糊图像分割任务的同时,提升了对模糊图像和非模糊图像分割的效果。
与其他扩散模型相比,本发明的残差扩散模型具有以下优势:
(1)残差扩散模型能实现多类别标签的图像分割任务;
(2)将扩散先验网络的分割结果作为残差扩散模型的先验信息,来提高反向去噪过程的效率;
(3)对残差扩散模型进行训练时,在扩散损失基础上还加入深度扩散监督损失来进一步加强训练,加快模型收敛。
具体实施方式二、本实施方式与具体实施方式一不同的是,所述对已知目标区域的三维图像进行预处理,其具体为:
对己知目标区域的图像依次进行图像裁剪和标准化。
其它步骤及参数与具体实施方式一相同。
具体实施方式三、本实施方式与具体实施方式一或二不同的是,所述扩散先验网络为3D U-Net网络。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四、本实施方式与具体实施方式一至三之一不同的是,所述利用训练数据对扩散先验网络和噪声估计网络进行联合训练的具体过程为:
步骤S31、将训练数据经过扩散先验网络的输出作为初始分割结果gφ(x),φ是扩散先验网络的参数;
步骤S32、根据初始分割结果gφ(x)对独热编码分割标签向量y0进行前向加噪声处理,得到在时间步t的预测结果yt
所述步骤S32的具体过程为:
步骤S321、将初始分割结果gφ(x)作为先验,独热编码分割标签向量y0的单步前向扩散过程如下:
其中,q(yt|yt-1,gφ(x))表示单步前向加噪概率分布(即在给定yt-1的分布和gφ(x)的条件下,yt的分布满足均值为方差为βtI的高斯分布),yt是在时间步t的预测结果,yt-1是在时间步t-1的预测结果,βt是在时间步t加入的噪声方差,I是单位矩阵,/>是高斯分布;
步骤S322、在给定y0条件下,基于单步前向扩散过程构造包含T步的前向马尔可夫链,通过重复执行步骤S321的过程(重复执行步骤S321时,从y0开始逐步进行递推)和重参数化得到对任意时间步t的加噪之后的预测结果yt
其中,αt=1-βt,αt表示在时间步t加入的噪声方差与1的差距; 表示不同时间步的噪声方差水平与1的差距的连乘,∈是待预测的噪声。
本发明的残差扩散模型可以学习真实标签与初始分割结果之间的残差,相比直接学习分割标签,极大地降低了模型学习难度。
步骤S33、通过优化噪声估计网络的参数θ来学习反向去噪过程;
所述步骤S33的具体过程为:
步骤S331、根据步骤S321的单步前向扩散过程,得到以y0为条件的前向扩散过程的后验概率分布q(yt-1||yt,y0,gφ(x)):
其中,
步骤S332、反向去噪过程的概率分布pθ(yt-1|yt,x,gφ(x))为:
其中,x为预处理的图像,μθ(yt,x,gφ(x))和∑θ(yt,x,gφ(x))分别是高斯分布的均值和方差;
步骤S333、利用KL散度来描述步骤S332中反向去噪过程的概率分布pθ(yt-1|yt,x,gφ(x))与前向扩散过程的后验概率分布q(yt-1|yt,y0,gφ(x))的差异,根据差异来训练噪声估计网络,噪声估计网络的输出为对噪声的预测结果∈θ(x,yt,gφ(x),t);
步骤S34、对反向去噪过程的每一步中得到的预测结果与步骤S2中的体素级的独热编码分割标签向量进行监督学习,训练残差扩散模型的网络参数;
所述步骤S34的具体过程为:
步骤S341、基于步骤S322中的yt,根据预测的噪声∈θ(x,yt,gφ(x),t)在反向去噪过程的任意时间步t反推得到y0的预测结果:
其中,是y0的预测结果;
步骤S342、步骤S341中重构的预测结果是将编码的标签视为连续响应变量情况下得到的,因此是实数域的值而非概率向量,因此还需要利用softmax层将/>从实数域的表示转换为概率向量的表示:
其中,是由预测结果/>中第i类目标所对应的元素组成的矩阵(即在类别数C所对应的维度中,每个像素对应的向量长度为C,各像素所对应的向量中的第i个元素组成的矩阵为/>),/>代表矩阵/>中的各像素属于第i类目标的概率,k=1,2,…,C;
步骤S343、为进一步促进模型的训练并加快模型收敛,使用一种深度扩散监督策略,来监督扩散过程的中间步骤,以鼓励在每个时间步对y0的准确预测,根据步骤S342中得到的概率向量将任意时间步t的深度扩散监督损失函数定义为:
其中,a的取值为a>1,是由预测结果y0中第i类目标所对应的元素组成的矩阵;
步骤S344、联合扩散损失和深度扩散监督损失来对残差扩散模型的参数进行优化,联合后的损失函数为:
其中,λ表示平衡扩散损失和深度监督损失的重要性的相对权重,为扩散损失。
其它步骤及参数与具体实施方式一至三之一相同。
需要说明的是:本发明中的扩散先验网络和噪声估计网络也可以单独进行训练,单独训练时,首先训练好扩散先验网络,扩散先验网络训练完成后参数即不再改变(初始分割结果不再改变),然后再采用步骤S32至步骤S34对噪声估计网络进行训练。联合训练时,采用步骤S31至步骤S34进行训练,训练过程中初始分割结果随之动态改变。
具体实施方式五、结合图2说明本实施方式。本实施方式与具体实施方式一至四之一不同的是,所述噪声估计网络的工作过程为:
将图像x作为第一卷积层的输入,图像x经过第一卷积层得到第一卷积层输出的特征;
将输入的时间步t经过嵌入层编码到k维度空间中,得到编码结果;
将加噪之后的预测结果yt与初始分割结果gφ(x)在第一个维度上进行合并,得到合并结果;合并结果经过第一双倍卷积模块后,将第一双倍卷积模块的输出与编码结果相加,得到相加结果A;
将相加结果A与第一卷积层的输出做内积,做内积结果依次经过第二双倍卷积模块和第三双倍卷积模块,将第三双倍卷积模块的输出与编码结果相加,得到相加结果B;
将相加结果B作为第二卷积层的输入,第二卷积层的输出结果为∈θ(x,yt,gφ(x),t)。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六、本实施方式与具体实施方式一至五之一不同的是,所述噪声估计网络的扩散损失为:
其中,为扩散损失,||·||为2范数。
扩散损失根据步骤S332中反向去噪过程的概率分布pθ(yt-1|yt,x,gφ(x))与前向扩散过程的后验概率分布q(yt-1|yt,y0,gφ(x))的差异得到,具体为:
噪声估计网络的训练目标是最小化步骤S332中反向去噪过程的概率分布pθ(yt-1|yt,x,gφ(x))与步骤S331中前向扩散过程的后验概率分布q(yt-1|yt,y0,gφ(x))的差异,用KL散度来描述二者的差异,根据两个分布的均值和方差,其KL散度可以化简为:
其中和μθ(yt,x,gφ(x))分别表示分布q(yt-1|yt,y0,gφ(x))和分布pθ(yt-1|yt,x,gφ(x))的均值,/>和∑θ(yt,x,gφ(x))分别表示分布q(yt-1|yt,y0,gφ(x))和分布pθ(yt-1|yt,x,gφ(x))的方差。
将反向去噪过程概率分布的方差∑θ(yt,x,gφ(x))设为与βt相关的常数,因此可训练的参数只存在于均值μθ(yt,x,gφ(x))中,于是训练目标可以进一步化简为:
为进一步简化训练方式,使噪声估计网络∈θ(x,yt,gφ(x),t)对噪声进行建模预测。根据步骤S322中yt与y0的关系,可以在已知yt和噪声预测结果∈θ(x,yt,gφ(x),t)的条件下,求解y0的预测结果y0(yt,x,gφ(x)),进而根据步骤S331中的计算方式,反向去噪过程概率分布的均值μθ(yt,x,gφ(x))可以用∈θ(x,yt,gφ(x),t)表示为:
由于不含参数的项不影响训练目标的最小化,因此舍弃,同时为训练更稳定,将参数项的系数也舍弃,进而训练目标最终简化为噪声之间的均方误差,将其作为扩散损失,记为
其中,为扩散损失;
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七、本实施方式与具体实施方式一至六之一不同的是,所述步骤S4的具体过程为:
步骤S41、对待分割图像x′进行预处理操作,得到预处理后的待分割图像;
步骤S42、通过训练好的残差扩散模型的扩散先验网络得到待分割图像的初始分割结果gφ(x′);
步骤S43、设定噪声采样的总次数为K,初始化当前噪声采样次数为k=1;
步骤S44、将当前次从标准高斯分布中采样的噪声记为zk,根据噪声zk构造残差扩散模型在t时间步下对待分割图像的预测结果t:=T,:=代表赋值;
步骤S45、通过噪声估计网络来预测t时间步下待分割图像的噪声根据步骤S322中的重参数化的方式,用/>代替公式中的yt计算得到0时间步的标签预测结果y′0
步骤S46、根据步骤S331中的后验概率分布,用和步骤S45得到的y′0分别代替公式中的yt和y0,即根据/>和y′0计算t-1时间步的预测结果/>
步骤S47、判断是否满足t-1=0;
若满足,则利用来执行步骤S48;
否则,令t=t-1,返回步骤S45;
步骤S48、根据和步骤S342中的方法来计算时间步0的分割结果预测概率/>后,再执行步骤S49;
步骤S49、判断是否满足k小于K;
若满足k小于K,则令k=k+1,再返回步骤S44;
否则,执行步骤S410;
步骤S410、对于待分割图像中的任意一个像素,对该像素在每次采样噪声得到的分割结果预测概率中对应的概率值取均值,得到该像素属于第i类目标的概率,同理,得到该像素属于各类目标的概率;从该像素属于各类目标的概率中选择出最大的概率,将最大概率所对应的类别作为该像素所属的类别;
同理,分别得到各个像素所属的类别,即获得对待分割图像的分割结果。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八、本实施方式与具体实施方式一至七之一不同的是,所述第一双倍卷积模块中包括两个卷积层和一个投影层,且第一双倍卷积模块的每个卷积层之后均连接有IN(Instance-Normalization)层和ReLu激活函数层;
第二双倍卷积模块和第三双倍卷积模块与第一双倍卷积模块的结构相同。
其它步骤及参数与具体实施方式一至七之一相同。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (4)

1.一种基于残差扩散模型的图像分割方法,其特征在于,所述方法具体包括以下步骤:
步骤S1、对已知目标区域的三维图像进行预处理,将预处理后的图像作为训练数据;
步骤S2、将步骤S1中预处理后图像的目标区域标签转换成体素级的独热编码分割标签向量y0(D,H,W)是三维图像的空间分辨率,C为图像中包含的目标类别数;
步骤S3、构建残差扩散模型,所述残差扩散模型包括扩散先验网络和噪声估计网络两个部分;
所述扩散先验网络为3D U-Net网络;所述噪声估计网络的工作过程为:
将图像x作为第一卷积层的输入,图像x经过第一卷积层得到第一卷积层输出的特征;
将输入的时间步t经过嵌入层编码到k维度空间中,得到编码结果;
将加噪之后的预测结果yt与初始分割结果gφ(x)在第一个维度上进行合并,得到合并结果;合并结果经过第一双倍卷积模块后,将第一双倍卷积模块的输出与编码结果相加,得到相加结果A;
将相加结果A与第一卷积层的输出做内积,做内积结果依次经过第二双倍卷积模块和第三双倍卷积模块,将第三双倍卷积模块的输出与编码结果相加,得到相加结果B;
将相加结果B作为第二卷积层的输入,第二卷积层的输出结果为∈θ(x,yt,gφ(x),t);
所述第一双倍卷积模块中包括两个卷积层和一个投影层,且第一双倍卷积模块的每个卷积层之后均连接有IN层和ReLu激活函数层;
第二双倍卷积模块和第三双倍卷积模块与第一双倍卷积模块的结构相同;
利用训练数据和分割标签向量y0对扩散先验网络和噪声估计网络进行联合训练;具体训练过程为:
步骤S31、将训练数据经过扩散先验网络的输出作为初始分割结果gφ(x),φ是扩散先验网络的参数;
步骤S32、根据初始分割结果gφ(x)对独热编码分割标签向量y0进行前向加噪声处理,得到在时间步t的预测结果yt
所述步骤S32的具体过程为:
步骤S321、将初始分割结果gφ(x)作为先验,独热编码分割标签向量y0的单步前向扩散过程如下:
其中,q(yt∣yt-1,gφ(x))表示单步前向加噪概率分布,yt是在时间步t的预测结果,yt-1是在时间步t-1的预测结果,βt是在时间步t加入的噪声方差,I是单位矩阵,是高斯分布;
步骤S322、通过重复执行步骤S321的过程和重参数化得到对任意时间步t的加噪之后的预测结果yt
其中,αt=1-βt,αt表示在时间步t加入的噪声方差与1的差距;s=1,2,…,t,/>表示不同时间步的噪声方差水平与1的差距的连乘,∈是待预测的噪声;
步骤S33、通过优化噪声估计网络的参数θ来学习反向去噪过程;
所述步骤S33的具体过程为:
步骤S331、根据步骤S321的单步前向扩散过程,得到以y0为条件的前向扩散过程的后验概率分布q(yt-1∣yt,y0,gφ(x)):
其中,
步骤S332、反向去噪过程的概率分布pθ(yt-1|yt,x,gφ(x))为:
其中,x为预处理的图像,μθ(yt,x,gφ(x))和Σθ(yt,x,gφ(x))分别是高斯分布的均值和方差;
步骤S333、利用KL散度来描述步骤S332中反向去噪过程的概率分布pθ(yt-1|yt,x,gφ(x))与前向扩散过程的后验概率分布q(yt-1∣yt,y0,gφ(x))的差异,根据差异来训练噪声估计网络,噪声估计网络的输出为对噪声的预测结果∈θ(x,yt,gφ(x),t);
步骤S34、对反向去噪过程的每一步中得到的预测结果与步骤S2中的体素级的独热编码分割标签向量进行监督学习,训练残差扩散模型的网络参数;
所述步骤S34的具体过程为:
步骤S341、基于步骤S322中的yt,根据预测的噪声∈θ(x,yt,gφ(x),t)在反向去噪过程的任意时间步t反推得到y0的预测结果:
其中,是y0的预测结果;
步骤S342、利用softmax层将从实数域的表示转换为概率向量的表示:
其中,是由预测结果/>中第i类目标所对应的元素组成的矩阵,/>代表矩阵/>中的各像素属于第i类目标的概率,k=1,2,…,C;
步骤S343、根据步骤S342中得到的概率向量将任意时间步t的深度扩散监督损失函数定义为:
其中,a的取值为a>1,是由预测结果y0中第i类目标所对应的元素组成的矩阵;
步骤S344、联合扩散损失和深度扩散监督损失来对残差扩散模型的参数进行优化,联合后的损失函数为:
其中,λ表示平衡扩散损失和深度监督损失的重要性的相对权重,为扩散损失;
步骤S4、对待分割图像进行预处理操作后,利用训练好的残差扩散模型的参数对预处理后的待分割图像进行分割。
2.根据权利要求1所述的一种基于残差扩散模型的图像分割方法,其特征在于,所述对已知目标区域的三维图像进行预处理,其具体为:
对已知目标区域的图像依次进行图像裁剪和标准化。
3.根据权利要求2所述的一种基于残差扩散模型的图像分割方法,其特征在于,所述噪声估计网络的扩散损失为:
其中,为扩散损失,‖·‖为2范数。
4.根据权利要求3所述的一种基于残差扩散模型的图像分割方法,其特征在于,所述步骤S4的具体过程为:
步骤S41、对待分割图像x′进行预处理操作,得到预处理后的待分割图像;
步骤S42、通过训练好的残差扩散模型的扩散先验网络得到待分割图像的初始分割结果gφ(x′);
步骤S43、设定噪声采样的总次数为K,初始化当前噪声采样次数为k=1;
步骤S44、将当前次从标准高斯分布中采样的噪声记为zk,根据噪声zk构造残差扩散模型在t时间步下对待分割图像的预测结果t:=T,:=代表赋值;
步骤S45、通过噪声估计网络来预测t时间步下待分割图像的噪声根据步骤S322中的重参数化的方式得到0时间步的标签预测结果y′0
步骤S46、根据和y′0计算t-1时间步的预测结果/>
步骤S47、判断是否满足t-1=0;
若满足,则利用来执行步骤S48;
否则,令t=t-1,返回步骤S45;
步骤S48、根据和步骤S342中的方法来计算时间步0的分割结果预测概率/>后,再执行步骤S49;
步骤S49、判断是否满足k小于K;
若满足k小于K,则令k=k+1,再返回步骤S44;
否则,执行步骤S410;
步骤S410、对于待分割图像中的任意一个像素,对该像素在每次采样噪声得到的分割结果预测概率中对应的概率值取均值,得到该像素属于第i类目标的概率,同理,得到该像素属于各类目标的概率;从该像素属于各类目标的概率中选择出最大的概率,将最大概率所对应的类别作为该像素所属的类别;
同理,分别得到各个像素所属的类别,即获得对待分割图像的分割结果。
CN202311031721.4A 2023-08-16 2023-08-16 一种基于残差扩散模型的图像分割方法 Active CN116993770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311031721.4A CN116993770B (zh) 2023-08-16 2023-08-16 一种基于残差扩散模型的图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311031721.4A CN116993770B (zh) 2023-08-16 2023-08-16 一种基于残差扩散模型的图像分割方法

Publications (2)

Publication Number Publication Date
CN116993770A CN116993770A (zh) 2023-11-03
CN116993770B true CN116993770B (zh) 2024-05-28

Family

ID=88521272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311031721.4A Active CN116993770B (zh) 2023-08-16 2023-08-16 一种基于残差扩散模型的图像分割方法

Country Status (1)

Country Link
CN (1) CN116993770B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971382A (zh) * 2017-03-16 2017-07-21 中国人民解放军国防科学技术大学 一种sar图像相干斑抑制方法
CN110211140A (zh) * 2019-06-14 2019-09-06 重庆大学 基于3D残差U-Net和加权损失函数的腹部血管分割方法
CN114863104A (zh) * 2022-05-05 2022-08-05 哈尔滨工业大学 一种基于标签分布学习的图像分割方法
CN116109719A (zh) * 2022-12-14 2023-05-12 电子科技大学长三角研究院(衢州) 一种基于结构化网络先验知识的公平可控图像生成方法
CN116309056A (zh) * 2023-02-28 2023-06-23 华为技术有限公司 图像重建方法、装置和计算机存储介质
CN116524062A (zh) * 2023-07-04 2023-08-01 南京邮电大学 一种基于扩散模型的2d人体姿态估计方法
CN116596949A (zh) * 2023-05-29 2023-08-15 浙江工业大学 一种基于条件扩散模型的医学图像分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961957B2 (en) * 2007-01-30 2011-06-14 Alon Schclar Diffusion bases methods for segmentation and clustering
US8520947B2 (en) * 2007-05-22 2013-08-27 The University Of Western Ontario Method for automatic boundary segmentation of object in 2D and/or 3D image

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971382A (zh) * 2017-03-16 2017-07-21 中国人民解放军国防科学技术大学 一种sar图像相干斑抑制方法
CN110211140A (zh) * 2019-06-14 2019-09-06 重庆大学 基于3D残差U-Net和加权损失函数的腹部血管分割方法
CN114863104A (zh) * 2022-05-05 2022-08-05 哈尔滨工业大学 一种基于标签分布学习的图像分割方法
CN116109719A (zh) * 2022-12-14 2023-05-12 电子科技大学长三角研究院(衢州) 一种基于结构化网络先验知识的公平可控图像生成方法
CN116309056A (zh) * 2023-02-28 2023-06-23 华为技术有限公司 图像重建方法、装置和计算机存储介质
CN116596949A (zh) * 2023-05-29 2023-08-15 浙江工业大学 一种基于条件扩散模型的医学图像分割方法
CN116524062A (zh) * 2023-07-04 2023-08-01 南京邮电大学 一种基于扩散模型的2d人体姿态估计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A New Weighted Relative Entropy Pre-Fitting for Active Contour based Image Segmentation;Chowdhury Mohammad Abid Rahman;2019 IEEE International Conference on Signal Processing, Information, Communication & Systems (SPICSCON);20200416;全文 *
基于GMRF-SVM的高分辨率遥感影像目标区域划分方法;明冬萍;骆剑承;沈占锋;;测绘科学;20090320(第02期);全文 *
基于卷积神经网络的灾难场景图像分类;王改华;科学技术与工程;20211231;全文 *
基于自注意力机制的弱监督和半监督语义分割;姚祺;中国优秀硕士学位论文全文数据库;20210228;全文 *

Also Published As

Publication number Publication date
CN116993770A (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
Kumar et al. Videoflow: A flow-based generative model for video
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN111080675B (zh) 一种基于时空约束相关滤波的目标跟踪方法
CN111582483A (zh) 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN112837344B (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
CN114266898A (zh) 一种基于改进EfficientNet的肝癌识别方法
CN112418149A (zh) 一种基于深卷积神经网络的异常行为检测方法
Rangarajan et al. Markov random eld models in image processing
CN117475357B (zh) 基于深度学习的监控视频图像遮挡检测方法及系统
CN117575908A (zh) 基于可逆引导和循环式知识蒸馏的多模态图像重建方法
CN116403152A (zh) 一种基于空间上下文学习网络的人群密度估计方法
CN116258877A (zh) 土地利用场景相似度变化检测方法、装置、介质及设备
CN109345497B (zh) 基于模糊算子的图像融合处理方法及系统、计算机程序
Prodan et al. Comprehensive evaluation of metrics for image resemblance
CN118229569A (zh) 基于模糊扩散模型的文档图像透射去除方法及装置
CN116843679B (zh) 基于深度图像先验框架的pet图像部分容积校正方法
Zhou et al. An optimal higher order likelihood distribution based approach for strong edge and high contrast restoration
CN113313179A (zh) 一种基于l2p范数鲁棒最小二乘法的噪声图像分类方法
CN117853596A (zh) 无人机遥感测绘方法及系统
CN116993770B (zh) 一种基于残差扩散模型的图像分割方法
EP4343680A1 (en) De-noising data
KR102057395B1 (ko) 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법
CN116309056A (zh) 图像重建方法、装置和计算机存储介质
CN116486150A (zh) 一种基于不确定性感知的图像分类模型回归误差消减方法
CN106709921B (zh) 一种基于空间Dirichlet混合模型的彩色图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant