CN116958554A - 一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法 - Google Patents

一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法 Download PDF

Info

Publication number
CN116958554A
CN116958554A CN202310959223.XA CN202310959223A CN116958554A CN 116958554 A CN116958554 A CN 116958554A CN 202310959223 A CN202310959223 A CN 202310959223A CN 116958554 A CN116958554 A CN 116958554A
Authority
CN
China
Prior art keywords
decoder
encoder
level
potential
semi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310959223.XA
Other languages
English (en)
Inventor
张立斌
丁卓
丁建睿
汤丰赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changjiang Shidai Communication Co ltd
Harbin Institute of Technology Weihai
Original Assignee
Changjiang Shidai Communication Co ltd
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changjiang Shidai Communication Co ltd, Harbin Institute of Technology Weihai filed Critical Changjiang Shidai Communication Co ltd
Priority to CN202310959223.XA priority Critical patent/CN116958554A/zh
Publication of CN116958554A publication Critical patent/CN116958554A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明公开一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,该方法包括两个阶段,图像生成阶段和半监督学习阶段。在图像生成阶段包括如下步骤:首先将图像输入到变分自动编码器的编码器中生成潜在空间编码,将对应图像的潜在空间编码输入到潜在扩散模型中,其次利用去噪自动编码器对加噪后的潜在空间编码计算去噪拟合损失以学习去噪分布,最后利用潜在扩散模型随机生成高斯噪声并进行去噪估计以生成潜在空间编码,将潜在空间编码通过变分自动解码器生成像素级图像。为了利用图像生成阶段生成的大量有价值合成无标记样本,半监督学习阶段包括如下步骤:首先将有标记图像和无标记合成图像样本输入到编码器以提取高级语义特征,其次引入多个辅助解码器,对辅助解码器和主解码器的输入特征提取不同等级的全局上下文信息,并对辅助解码器的输入特征额外施加噪声扰动,最后通过保持主解码器和辅助解码器之间输出结果的一致性来学习生成的未标记样本。发明可以用于任何利用合成图像进行半监督学习的任务。

Description

一种基于潜在扩散模型和多级上下文交叉一致性的半监督分 割方法
技术领域
本发明涉及计算机视觉和深度学习技术领域,尤其涉及一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法。
背景技术
由于图像数据集采集和标注难度大、成本高,这给深度学习技术在图像数据上的应用带来了巨大挑战。半监督学习通过少量的标注图像和大量未标注图像已提升模型的精度。在通常场景中,未标记图像收集于多个不同的相似领域,来源于多个不同相似领域的未标记图像会对训练造成负面影响,此外,在一些特殊场景中,因隐私问题,获取大量未标注样本仍然面临巨大的挑战。图像生成技术可以生成大量有价值的相同领域图像样本,在图像生成模型中,生成模型通过学习目标领域图像的分布来生成图像,相对于对抗网络(GAN)具有更加灵活的模型架构和精确的对数似然计算。传统的扩散模型通常在像素空间中运行,对其进行训练需要大量的算力和时间(数百GPU天),潜在扩散模型通过将扩散模型运用在图像压缩后的潜在空间进行潜在空间编码生成,并通过解码器将生成的潜在空间编码还原为像素级图像,潜在空间编码在生成高像素图像的同时显著降低计算成本和推理成本。通过利用生成图像进行半监督学习提升不同任务中模型的性能,但基于传统的半监督学习图像分割方法大多基于普通卷积操作,受到卷积局部局限性影响,基于普通卷积的半监督分割方法无法有效提取全局上下文信息以精确定位和分割目标。为了解决普通卷积局部局限性等问题,混合卷积模块使用大卷积窗口的逐深度卷积核来提取全局感受野,同时通过使用逐点卷积来混合遥远的空间位置信息以提取全局上下文。
发明内容
为了解决上述技术问题,本发明提出一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法。该方法分为两个阶段,分为图像生成和半监督分割阶段。在第一阶段,首先通过自动编码器解码器将图像压缩到潜在空间,其次在潜在空间中利用潜在扩散模型生成潜在空间编码,最后利用潜在空间编码由解码器生成像素级图像。在第二阶段,首先将有标签样本和第一阶段生成的无标签样本通过共享编码器提取各自的高级语义特征,其次引入多个辅助解码器,对输入到辅助解码器的无标记特征施加不同等级的全局上下文噪声扰动,并保持其与主解码器输出结果的一致性,同时计算标记样本的输出结果与真实标签的监督损失,最后通过优化组合损失函数实现对合成未标记样本的学习。
为了达到上述目的,本发明的技术方案如下:
一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,包括如下步骤:
步骤S1、将图像输入到变分自动编码器中生成潜在空间编码,将对应的潜在空间编码通过自动解码器还原为像素级图像,利用原图与像素级生成图像计算均方误差损失以训练完备的变分自动编码器潜在空间;
步骤S2、根据均方误差损失函数对变分自动编码器解码器模型的参数进行调整,直到达到迭代次数或者精度需求;
步骤S3、将步骤S1中生成的预训练模型权重加载到变分自动编码器解码器中后固定网络权重,使用固定权重的编码器对输入图像进行感知图像压缩,生成与输入图像对应的潜在空间编码;
步骤S4、将图像潜在空间编码输入到潜在扩散模型中,根据随机生成的不同加噪步数对潜在空间编码进行加噪;
步骤S5、利用去噪自动编码器对加噪后的潜在空间编码计算去噪估计损失学习去噪分布;
步骤S6、根据潜在空间编码的去噪估计损失函数对潜在扩散模型进行参数调整,直到达到迭代次数或者精度需求;
步骤S7、将随机生成的高斯噪声进行去噪生成潜在空间编码,将潜在空间编码通过固定的变分自动解码器生成像素级图像;
步骤S8、通过将有标签的样本和步骤S1-S8中通过潜在扩散模型生成的无标签的合成样本输入到分割网络的共享编码器中,提取高级语义特征;
步骤S9、对有标签的高级语义特征提取不同等级的全局上下文信息,将其输入到主解码器和施加噪声扰动的多个辅助解码器中,计算主解码器和辅助解码器的输出结果与真实标签的监督损失;
步骤S10、对无标签的高级语义特征施加不同等级的全局上下文信息,将其输入到主解码器和施加噪声扰动的多个辅助解码器中,计算主解码器输出结果和辅助解码器输出结果之间的一致性损失;
步骤S11、在多任务优化函数下对算法模型的参数进行调整,直到达到迭代次数或者精度需求。
优选地,所述图像数据集需要满足假设为:数据集的分布为多个高斯分布的叠加。
优选地,所述变分自动编码器解码器由四个下采样模块和四个上采样模块组成,其中下采样模块1采用pad为1、stride为1的3x3卷积核,下采样使用2x2的平均池化进行下采样;上采样模块采用pad为1、stride为1的3x3卷积核,上采用使用像素重组的上采用方法。变分自动编码器解码器通过训练一个自动编码器ε来生成图像对应的潜在空间编码,潜在空间编码通过解码器D恢复为高分辨率图像,解码和编码的标准过程表示为:
其中编码器为ε,x为潜在空间编码,/>为解码器,变分自动编码器解码器训练过程中的均方误差损失MSE如下:
其中ui为输入图像,为变分自动编码器解码器输出像素级预测像素,最终通过不断利用反向梯度算法进行模型的参数优化目标函数LMSE来优化变分自动编码器解码器模型网络中的所有参数。
优选地,所述潜在扩散模型对于潜在空间编码的加噪t步后计算过程如下:
其中x0为潜在空间编码,t为加噪步数,为加噪t步后的结果,/>为在t个噪声分布采样后的组合分布,/>其中βi为第i个噪声分布的标准差。
优选地,所述的标签y和步数t的编码器表示为τθ,编码器都由全连接层的网络构成并将标签和步数投影到1024维:和/> 是步数的编码中间表示,/>是标签的编码中间表示。
优选地,所述的去噪自动编码器由U型网络结构构成,具体去噪编码器表示为其中xt为加噪t步后的结果,/>是步数的编码中间表示。通过交叉注意力层将编码映射到U型网络结构的中间层,交叉注意力实现为:
其中为U型网络结构的中间表示,/>和/>是可学习的投影矩阵。具体U型网络结构由四个下采样模块和四个上采样模块组成,其中下采样模块1采用pad为1、stride为1的3x3卷积核,下采样使用2x2的平均池化进行下采样;上采样模块采用pad为1、stride为1的3x3卷积核,上采用使用像素重组的上采用方法。潜在扩散模型去噪拟合损失LLDM表示为:
其中∈为随机生成噪声,为加噪t步后的结果,/>是步数的编码中间表示。最终通过不断利用反向梯度算法进行模型的参数优化目标函数LLDM来优化潜在扩散模型网络中的所有参数。
优选地,所述的共享编码器E使用U型架构的编码器,无标签样本为潜在扩散模型生成的合成样本。
优选的,所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,主解码器Dmain和辅助解码器为U型架构的解码器,其中辅助解码器共有K个:{Daux1,Daux2,…,DauxK}。
优选的,所述的向解码器施加不同等级的全局上下文噪声扰动表示为:
其中和/>分别表示第k个辅助解码器Dauxk和主解码器Dmain的预测输出,/>表示等级为lk的混合卷积模块输出结果,/>为/>施加噪声扰动的输出结果。等级为l的混合卷积模块表示为:
f′l=BN(σ1{DepthwiseConf(fl-1)})+fl-1
fl=BN(σ1{PointwiseConv(f′l)})
其中fl表示混合卷积模块第l层的输出,DepthwiseConv表示逐深度卷积,PointwiseConv表示逐点卷积,σ1表示GELU激活函数,BN表示批量归一化。
优选的,所述的噪声扰动为Dropout、F-Drop和F-Noise。
优选的,所述的监督损失为Ls表示为:
其中K是辅助编码器数量,其中BCE为二元交叉熵损失,Dice为Dice损失,/>和/>和分别表示主解码器和第k个辅助解码器和对第i个有标签样本输出预测结果。
优选的,所述的一致性损失函数表示为:
优选的,所述的多任务损失函数为监督损失/>和一致性损失/>的组合,多任务损
失函数表示如下:
其中θE和/>分别是共享编码器、主解码器和辅助解码器的参数,/>为权利要求9所述的监督损失,/>为权利要求10所述的一致性损失,λ为高斯预热函数。最终通过不断利用反向梯度算法进行模型的参数优化目标函数/>来优化网络中的所有参数。
基于上述技术方案,本发明的有益效果是:本发明使用潜在扩散模型生成大量有价值的合成无标记样本,同时使用多级上下文交叉一致性框架实现对无标记样本的学习。本发明减少数据标注工作量和解决了收集大量未标注隐私数据面临的困难,同时本发明通过生成的图像进行半监督学习提升不同任务模型的性能,此外,本发明成果利用半监督学习在目标领域的语义特征分布和扩散概率分布之间建立桥梁,实现目标领域中的扩散概率知识向分割网络的有效迁移。
附图说明
图1是一个实施例中一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法流程图;
图2是一个实施例中两阶段框架示例图;
图3是一个实施例中图像生成阶段网络示例图;
图4是一个半监督图像分割阶段网络示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1,对本实施方式进行说明,本实施方式给出一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法。本实施方式的总体框架流程图如图2所示,主要包括两个阶段,分别为图像生成阶段和半监督学习阶段。
本实施方式的图像生成阶段如图3所示,具体包括以下步骤:
步骤S1、图像的数据预处理为随机反转、旋转和归一化,同时将图像输入统一尺寸为512×512,所述变分自动编码器解码器由四个下采样模块和四个上采样模块组成,其中下采样模块1采用pad为1、stride为1的3x3卷积核,下采样使用2x2的平均池化进行下采样;上采样模块采用pad为1、stride为1的3x3卷积核,上采用使用像素重组的上采用方法。变分自动编码器解码器通过训练一个自动编码器ε来生成图像对应的潜在空间编码,潜在空间编码通过解码器D恢复为高分辨率图像。
步骤S2、变分自动编码器解码器训练过程中的均方误差损失MSE如下:
其中ui为输入图像,为变分自动编码器解码器输出像素级预测像素,最终通过不断利用反向梯度算法进行模型的参数优化目标函数LMSE来优化变分自动编码器解码器模型网络中的所有参数。
步骤S3、感知图像压缩过程为将图像经编码器处理后生成对应的潜在空间编码,具体过程如下:
x=ε(u)
其中编码器为ε,x为潜在空间编码,将潜在空间编码通过解码器恢复为像素级图像过程:/> 为解码器。
步骤S4、所述潜在扩散模型对于潜在空间编码的加噪t步后计算过程如下:
其中x0为潜在空间编码,t为加噪步数,为加噪t步后的结果,/>为在t个噪声分布采样后的组合分布,/>其中βi为第i个噪声分布的标准差,所述的标签y和步数t的编码器表示为τθ,编码器都由全连接层的网络构成并将标签和步数投影到1024维:/>和/> 和/>是步数和标签的编码中间表示,此外,去噪自动编码器由U型网络结构构成,具体去噪编码器表示为/>其中xt为加噪t步后的结果,/>是步数的编码中间表示。通过交叉注意力层将编码映射到U型网络结构的中间层,交叉注意力实现为:
其中为U型网络结构的中间表示,/>和/>是可学习的投影矩阵。具体U型网络结构由四个下采样模块和四个上采样模块组成,其中下采样模块1采用pad为1、stride为1的3x3卷积核,下采样使用2x2的平均池化进行下采样;上采样模块采用pad为1、stride为1的3x3卷积核,上采用使用像素重组的上采用方法。
步骤S5、所述潜在扩散模型去噪拟合损失LLDM表示为:
其中∈为随机生成噪声,为加噪t步后的结果,/>是步数的编码中间表示。最终通过不断利用反向梯度算法进行模型的参数优化目标函数LLDM来优化潜在扩散模型网络中的所有参数。
本实施方式的半监督学习阶段如图4所示,具体包括以下步骤:
步骤S8、所述共享编码器E使用U型架构的编码器,无标签样本为潜在扩散模型生成的合成样本.
步骤S9、所述主解码器Dmain和辅助解码器为U型架构的解码器,其中辅助解码器共有K个:{Daux1,Daux2,…,DauxK},所述向解码器施加不同等级的全局上下文噪声扰动表示为:
其中和/>分别表示第k个辅助解码器Dauxk和主解码器Dmain的预测输出,/>表示等级为lk的混合卷积模块输出结果,/>为/>施加噪声扰动的输出结果。等级为l的混合卷积模块表示为:
f′l=BN(σ1{DepthwiseConv(fl-1)})+fl-1
fl=BN(σ1{PointwiseConv(f′l)})
其中fl表示混合卷积模块第l层的输出,DepthwiseConv表示逐深度卷积,PointwiseConv表示逐点卷积,σ1表示GELU激活函数,BN表示批量归一化。所述噪声扰动为Dropout、F-Drop和F-Noise。所述监督损失为lS表示为:
其中K是辅助编码器数量,其中BCE为二元交叉熵损失,Dice为Dice损失,/>和/>和分别表示主解码器和第k个辅助解码器和对第i个有标签样本输出预测结果。
步骤S10、所述一致性损失函数表示为:
步骤S11、所述多任务损失函数为监督损失/>和一致性损失/>的组合,多任务损失函数表示如下:
其中θe和/>分别是共享编码器、主解码器和辅助解码器的参数,/>为权利要求9所述的监督损失,/>为权利要求10所述的一致性损失,λ为高斯预热函数。最终通过不断利用反向梯度算法进行模型的参数优化目标函数/>来优化网络中的所有参数。
以上所述仅为本发明所公开的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法的优选实施方式,并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。

Claims (12)

1.一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,包括如下步骤:
步骤S1、将图像输入到变分自动编码器中生成潜在空间编码,将对应的潜在空间编码通过自动解码器还原为像素级图像,利用原图与像素级生成图像计算均方误差损失以训练完备的变分自动编码器潜在空间;
步骤S2、根据均方误差损失函数对变分自动编码器解码器模型的参数进行调整,直到达到迭代次数或者精度需求;
步骤S3、将步骤S1中生成的预训练模型权重加载到变分自动编码器解码器中后固定网络权重,使用固定权重的编码器对输入图像进行感知图像压缩,生成与输入图像对应的潜在空间编码;
步骤S4、将图像潜在空间编码输入到潜在扩散模型中,根据随机生成的不同加噪步数对潜在空间编码进行加噪;
步骤S5、利用去噪自动编码器对加噪后的潜在空间编码计算去噪估计损失学习去噪分布;
步骤S6、根据潜在空间编码的去噪估计损失函数对潜在扩散模型进行参数调整,直到达到迭代次数或者精度需求;
步骤S7、将随机生成的高斯噪声进行去噪生成潜在空间编码,将潜在空间编码通过固定的变分自动解码器生成像素级图像;
步骤S8、通过将有标签的样本和步骤S1-S8中通过潜在扩散模型生成的无标签的合成样本输入到分割网络的共享编码器中,提取高级语义特征;
步骤S9、对有标签的高级语义特征提取不同等级的全局上下文信息,将其输入到主解码器和施加噪声扰动的多个辅助解码器中,计算主解码器和辅助解码器的输出结果与真实标签的监督损失;
步骤S10、对无标签的高级语义特征施加不同等级的全局上下文信息,将其输入到主解码器和施加噪声扰动的多个辅助解码器中,计算主解码器输出结果和辅助解码器输出结果之间的一致性损失;
步骤S11、在多任务优化函数下对算法模型的参数进行调整,直到达到迭代次数或者精度需求。
2.根据权利要求1所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,所述图像数据集需要满足假设为:数据集的分布为多个高斯分布的叠加。
3.根据权利要求1所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,所述变分自动编码器解码器由四个下采样模块和四个上采样模块组成,其中下采样模块1采用pad为1、stride为1的3x3卷积核,下采样使用2x2的平均池化进行下采样;上采样模块采用pad为1、stride为1的3x3卷积核,上采用使用像素重组的上采用方法。变分自动编码器解码器通过训练一个自动编码器ε来生成图像对应的潜在空间编码,潜在空间编码通过解码器D恢复为高分辨率图像,解码和编码的标准过程表示为:
其中编码器为ε,x为潜在空间编码,/>为解码器,变分自动编码器解码器训练过程中的均方误差损失MSE如下:
其中ui为输入图像,为变分自动编码器解码器输出像素级预测像素,最终通过不断利用反向梯度算法进行模型的参数优化目标函数LMSE来优化变分自动编码器解码器模型网络中的所有参数。
4.根据权利要求4所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,所述潜在扩散模型对于潜在空间编码的加噪t步后计算过程如下:
其中x0为潜在空间编码,t为加噪步数,为加噪t步后的结果,/>为在t个噪声分布采样后的组合分布,/>其中βi为第i个噪声分布的标准差。
5.根据权利要求5所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,所述的去噪自动编码器由U型网络结构构成,具体去噪编码器表示为其中xt为加噪t步后的结果,/>是步数的编码中间表示。通过交叉注意力层将编码映射到U型网络结构的中间层,交叉注意力实现为:
其中为U型网络结构的中间表示,/>和/>是可学习的投影矩阵。具体U型网络结构由四个下采样模块和四个上采样模块组成,其中下采样模块1采用pad为1、stride为1的3x3卷积核,下采样使用2x2的平均池化进行下采样;上采样模块采用pad为1、stride为1的3x3卷积核,上采用使用像素重组的上采用方法。潜在扩散模型去噪拟合损失LLDM表示为:
其中∈为随机生成噪声,为加噪t步后的结果,/>是步数的编码中间表示。最终通过不断利用反向梯度算法进行模型的参数优化目标函数LLDM来优化潜在扩散模型网络中的所有参数。
6.根据权利要求8所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,共享编码器E使用U型架构的编码器,无标签样本为潜在扩散模型生成的合成样本。
7.根据权利要求9所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,主解码器Dmain和辅助解码器为U型架构的解码器,其中辅助解码器共有K个:{Daux1,Daux2,…,DauxK}。
8.根据权利要求9所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,向解码器施加不同等级的全局上下文噪声扰动表示为:
其中和/>分别表示第k个辅助解码器Dauxk和主解码器Dmain的预测输出,/>表示等级为lk的混合卷积模块输出结果,/>为/>施加噪声扰动的输出结果。等级为l的混合卷积模块表示为:
f′l=BN(σ1(DepthwiseConv(fl-1)})+fl-1
fl=BN(σ1{PointwiseConv(f′l)})
其中fl表示混合卷积模块第l层的输出,DepthwiseConv表示逐深度卷积,PointwiseConv表示逐点卷积,σ1表示GELU激活函数,BN表示批量归一化。
9.根据权利要求9所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,噪声扰动为Dropout、F-Drop和F-Noise。
10.根据权利要求9所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,监督损失为Ls表示为:
其中K是辅助编码器数量,其中BCE为二元交叉熵损失,Dice为Dice损失,/>和/>和分别表示主解码器和第k个辅助解码器和对第i个有标签样本输出预测结果。
11.根据权利要求10所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,一致性损失函数表示为:
12.根据权利要求11所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法,其特征在于,多任务损失函数为监督损失/>和一致性损失/>的组合,多任务损失函数表示如下:
其中θE和/>分别是共享编码器、主解码器和辅助解码器的参数,/>为权利要求9所述的监督损失,/>为权利要求10所述的一致性损失,λ为高斯预热函数。最终通过不断利用反向梯度算法进行模型的参数优化目标函数/>来优化网络中的所有参数。
CN202310959223.XA 2023-08-01 2023-08-01 一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法 Pending CN116958554A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310959223.XA CN116958554A (zh) 2023-08-01 2023-08-01 一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310959223.XA CN116958554A (zh) 2023-08-01 2023-08-01 一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法

Publications (1)

Publication Number Publication Date
CN116958554A true CN116958554A (zh) 2023-10-27

Family

ID=88452739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310959223.XA Pending CN116958554A (zh) 2023-08-01 2023-08-01 一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法

Country Status (1)

Country Link
CN (1) CN116958554A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117611484A (zh) * 2024-01-19 2024-02-27 武汉大学 一种基于去噪自解码网络的图像去噪方法及系统
CN117910601A (zh) * 2024-03-20 2024-04-19 浙江大学滨江研究院 一种个性化联邦潜在扩散模型学习方法和系统
CN117961976A (zh) * 2024-03-29 2024-05-03 湖南大学 基于生成扩散迁移的装配机器人在线检测方法及装置
CN117974693A (zh) * 2024-04-02 2024-05-03 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117611484A (zh) * 2024-01-19 2024-02-27 武汉大学 一种基于去噪自解码网络的图像去噪方法及系统
CN117611484B (zh) * 2024-01-19 2024-04-02 武汉大学 一种基于去噪自解码网络的图像去噪方法及系统
CN117910601A (zh) * 2024-03-20 2024-04-19 浙江大学滨江研究院 一种个性化联邦潜在扩散模型学习方法和系统
CN117961976A (zh) * 2024-03-29 2024-05-03 湖南大学 基于生成扩散迁移的装配机器人在线检测方法及装置
CN117974693A (zh) * 2024-04-02 2024-05-03 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备和存储介质
CN117974693B (zh) * 2024-04-02 2024-06-25 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Ye et al. Inverted pyramid multi-task transformer for dense scene understanding
CN116958554A (zh) 一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法
US20230410375A1 (en) Temporally stable data reconstruction with an external recurrent neural network
Liu et al. Automix: Unveiling the power of mixup for stronger classifiers
Liu et al. EfficientFCN: Holistically-guided decoding for semantic segmentation
US20200126191A1 (en) Neural network system with temporal feedback for adaptive sampling and denoising of rendered sequences
CN110782395B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
GB2571825A (en) Semantic class localization digital environment
CN113361250A (zh) 一种基于语义一致性的双向文本生成图像方法及系统
US20190158884A1 (en) Using residual video data resulting from a compression of original video data to improve a decompression of the original video data
Chai et al. A semi-supervised auto-encoder using label and sparse regularizations for classification
Liang et al. Effective adaptation in multi-task co-training for unified autonomous driving
Pandey et al. Deep neural networks based solar flare prediction using compressed full-disk line-of-sight magnetograms
Kolbeinsson et al. Multi-class segmentation from aerial views using recursive noise diffusion
Zhu et al. Two-branch encoding and iterative attention decoding network for semantic segmentation
Khoshsirat et al. Semantic segmentation using neural ordinary differential equations
Yang et al. RainFormer: a pyramid transformer for single image deraining
Li et al. HoloParser: Holistic visual parsing for real-time semantic segmentation in autonomous driving
Li et al. Automated deep learning system for power line inspection image analysis and processing: Architecture and design issues
An et al. DUFormer: Solving Power Line Detection Task in Aerial Images Using Semantic Segmentation
Zhou et al. Supervised semantic segmentation based on deep learning: a survey
CN115601235A (zh) 一种图像超分辨率网络训练方法、装置、设备及存储介质
Li et al. Multi-scale cross-fusion for arbitrary scale image super resolution
Zou et al. Toward Efficient Image Denoising: A Lightweight Network with Retargeting Supervision Driven Knowledge Distillation
Zhu et al. ACP-ST: An Anticancer Peptide Prediction Model Based on Learning Embedding Features and Swin-Transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination