CN116958554A

CN116958554A - 一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法

Info

Publication number: CN116958554A
Application number: CN202310959223.XA
Authority: CN
Inventors: 张立斌; 丁卓; 丁建睿; 汤丰赫
Original assignee: Changjiang Shidai Communication Co ltd; Harbin Institute of Technology Weihai
Current assignee: Changjiang Shidai Communication Co ltd; Harbin Institute of Technology Weihai
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-10-27

Abstract

本发明公开一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，该方法包括两个阶段，图像生成阶段和半监督学习阶段。在图像生成阶段包括如下步骤：首先将图像输入到变分自动编码器的编码器中生成潜在空间编码，将对应图像的潜在空间编码输入到潜在扩散模型中，其次利用去噪自动编码器对加噪后的潜在空间编码计算去噪拟合损失以学习去噪分布，最后利用潜在扩散模型随机生成高斯噪声并进行去噪估计以生成潜在空间编码，将潜在空间编码通过变分自动解码器生成像素级图像。为了利用图像生成阶段生成的大量有价值合成无标记样本，半监督学习阶段包括如下步骤：首先将有标记图像和无标记合成图像样本输入到编码器以提取高级语义特征，其次引入多个辅助解码器，对辅助解码器和主解码器的输入特征提取不同等级的全局上下文信息，并对辅助解码器的输入特征额外施加噪声扰动，最后通过保持主解码器和辅助解码器之间输出结果的一致性来学习生成的未标记样本。发明可以用于任何利用合成图像进行半监督学习的任务。

Description

一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法

技术领域

本发明涉及计算机视觉和深度学习技术领域，尤其涉及一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法。

背景技术

由于图像数据集采集和标注难度大、成本高，这给深度学习技术在图像数据上的应用带来了巨大挑战。半监督学习通过少量的标注图像和大量未标注图像已提升模型的精度。在通常场景中，未标记图像收集于多个不同的相似领域，来源于多个不同相似领域的未标记图像会对训练造成负面影响，此外，在一些特殊场景中，因隐私问题，获取大量未标注样本仍然面临巨大的挑战。图像生成技术可以生成大量有价值的相同领域图像样本，在图像生成模型中，生成模型通过学习目标领域图像的分布来生成图像，相对于对抗网络(GAN)具有更加灵活的模型架构和精确的对数似然计算。传统的扩散模型通常在像素空间中运行，对其进行训练需要大量的算力和时间(数百GPU天)，潜在扩散模型通过将扩散模型运用在图像压缩后的潜在空间进行潜在空间编码生成，并通过解码器将生成的潜在空间编码还原为像素级图像，潜在空间编码在生成高像素图像的同时显著降低计算成本和推理成本。通过利用生成图像进行半监督学习提升不同任务中模型的性能，但基于传统的半监督学习图像分割方法大多基于普通卷积操作，受到卷积局部局限性影响，基于普通卷积的半监督分割方法无法有效提取全局上下文信息以精确定位和分割目标。为了解决普通卷积局部局限性等问题，混合卷积模块使用大卷积窗口的逐深度卷积核来提取全局感受野，同时通过使用逐点卷积来混合遥远的空间位置信息以提取全局上下文。

发明内容

为了解决上述技术问题，本发明提出一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法。该方法分为两个阶段，分为图像生成和半监督分割阶段。在第一阶段，首先通过自动编码器解码器将图像压缩到潜在空间，其次在潜在空间中利用潜在扩散模型生成潜在空间编码，最后利用潜在空间编码由解码器生成像素级图像。在第二阶段，首先将有标签样本和第一阶段生成的无标签样本通过共享编码器提取各自的高级语义特征，其次引入多个辅助解码器，对输入到辅助解码器的无标记特征施加不同等级的全局上下文噪声扰动，并保持其与主解码器输出结果的一致性，同时计算标记样本的输出结果与真实标签的监督损失，最后通过优化组合损失函数实现对合成未标记样本的学习。

为了达到上述目的，本发明的技术方案如下：

一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，包括如下步骤：

步骤S1、将图像输入到变分自动编码器中生成潜在空间编码，将对应的潜在空间编码通过自动解码器还原为像素级图像，利用原图与像素级生成图像计算均方误差损失以训练完备的变分自动编码器潜在空间；

步骤S2、根据均方误差损失函数对变分自动编码器解码器模型的参数进行调整，直到达到迭代次数或者精度需求；

步骤S3、将步骤S1中生成的预训练模型权重加载到变分自动编码器解码器中后固定网络权重，使用固定权重的编码器对输入图像进行感知图像压缩，生成与输入图像对应的潜在空间编码；

步骤S4、将图像潜在空间编码输入到潜在扩散模型中，根据随机生成的不同加噪步数对潜在空间编码进行加噪；

步骤S5、利用去噪自动编码器对加噪后的潜在空间编码计算去噪估计损失学习去噪分布；

步骤S6、根据潜在空间编码的去噪估计损失函数对潜在扩散模型进行参数调整，直到达到迭代次数或者精度需求；

步骤S7、将随机生成的高斯噪声进行去噪生成潜在空间编码，将潜在空间编码通过固定的变分自动解码器生成像素级图像；

步骤S8、通过将有标签的样本和步骤S1-S8中通过潜在扩散模型生成的无标签的合成样本输入到分割网络的共享编码器中，提取高级语义特征；

步骤S9、对有标签的高级语义特征提取不同等级的全局上下文信息，将其输入到主解码器和施加噪声扰动的多个辅助解码器中，计算主解码器和辅助解码器的输出结果与真实标签的监督损失；

步骤S10、对无标签的高级语义特征施加不同等级的全局上下文信息，将其输入到主解码器和施加噪声扰动的多个辅助解码器中，计算主解码器输出结果和辅助解码器输出结果之间的一致性损失；

步骤S11、在多任务优化函数下对算法模型的参数进行调整，直到达到迭代次数或者精度需求。

优选地，所述图像数据集需要满足假设为：数据集的分布为多个高斯分布的叠加。

优选地，所述变分自动编码器解码器由四个下采样模块和四个上采样模块组成，其中下采样模块1采用pad为1、stride为1的3x3卷积核，下采样使用2x2的平均池化进行下采样；上采样模块采用pad为1、stride为1的3x3卷积核，上采用使用像素重组的上采用方法。变分自动编码器解码器通过训练一个自动编码器ε来生成图像对应的潜在空间编码，潜在空间编码通过解码器D恢复为高分辨率图像，解码和编码的标准过程表示为：

其中编码器为ε，x为潜在空间编码，/>为解码器，变分自动编码器解码器训练过程中的均方误差损失MSE如下：

其中u_i为输入图像，为变分自动编码器解码器输出像素级预测像素，最终通过不断利用反向梯度算法进行模型的参数优化目标函数L_MSE来优化变分自动编码器解码器模型网络中的所有参数。

优选地，所述潜在扩散模型对于潜在空间编码的加噪t步后计算过程如下：

其中x₀为潜在空间编码，t为加噪步数，为加噪t步后的结果，/>为在t个噪声分布采样后的组合分布，/>其中β_i为第i个噪声分布的标准差。

优选地，所述的标签y和步数t的编码器表示为τ_θ，编码器都由全连接层的网络构成并将标签和步数投影到1024维：和/> 是步数的编码中间表示，/>是标签的编码中间表示。

优选地，所述的去噪自动编码器由U型网络结构构成，具体去噪编码器表示为其中x_t为加噪t步后的结果，/>是步数的编码中间表示。通过交叉注意力层将编码映射到U型网络结构的中间层，交叉注意力实现为：

其中为U型网络结构的中间表示，/>和/>是可学习的投影矩阵。具体U型网络结构由四个下采样模块和四个上采样模块组成，其中下采样模块1采用pad为1、stride为1的3x3卷积核，下采样使用2x2的平均池化进行下采样；上采样模块采用pad为1、stride为1的3x3卷积核，上采用使用像素重组的上采用方法。潜在扩散模型去噪拟合损失L_LDM表示为：

其中∈为随机生成噪声，为加噪t步后的结果，/>是步数的编码中间表示。最终通过不断利用反向梯度算法进行模型的参数优化目标函数L_LDM来优化潜在扩散模型网络中的所有参数。

优选地，所述的共享编码器E使用U型架构的编码器，无标签样本为潜在扩散模型生成的合成样本。

优选的，所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于，主解码器D_main和辅助解码器为U型架构的解码器，其中辅助解码器共有K个：{D_aux1,D_aux2,…,D_auxK}。

优选的，所述的向解码器施加不同等级的全局上下文噪声扰动表示为：

其中和/>分别表示第k个辅助解码器D_auxk和主解码器D_main的预测输出，/>表示等级为l_k的混合卷积模块输出结果，/>为/>施加噪声扰动的输出结果。等级为l的混合卷积模块表示为：

f′_l＝BN(σ₁{DepthwiseConf(f_l-1)})+f_l-1

f_l＝BN(σ₁{PointwiseConv(f′_l)})

其中f_l表示混合卷积模块第l层的输出，DepthwiseConv表示逐深度卷积，PointwiseConv表示逐点卷积，σ₁表示GELU激活函数，BN表示批量归一化。

优选的，所述的噪声扰动为Dropout、F-Drop和F-Noise。

优选的，所述的监督损失为L_s表示为：

其中K是辅助编码器数量，其中BCE为二元交叉熵损失，Dice为Dice损失，/>和/>和分别表示主解码器和第k个辅助解码器和对第i个有标签样本输出预测结果。

优选的，所述的一致性损失函数表示为：

优选的，所述的多任务损失函数为监督损失/>和一致性损失/>的组合，多任务损

失函数表示如下：

其中θ_E、和/>分别是共享编码器、主解码器和辅助解码器的参数，/>为权利要求9所述的监督损失，/>为权利要求10所述的一致性损失，λ为高斯预热函数。最终通过不断利用反向梯度算法进行模型的参数优化目标函数/>来优化网络中的所有参数。

基于上述技术方案，本发明的有益效果是：本发明使用潜在扩散模型生成大量有价值的合成无标记样本，同时使用多级上下文交叉一致性框架实现对无标记样本的学习。本发明减少数据标注工作量和解决了收集大量未标注隐私数据面临的困难，同时本发明通过生成的图像进行半监督学习提升不同任务模型的性能，此外，本发明成果利用半监督学习在目标领域的语义特征分布和扩散概率分布之间建立桥梁，实现目标领域中的扩散概率知识向分割网络的有效迁移。

附图说明

图1是一个实施例中一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法流程图；

图2是一个实施例中两阶段框架示例图；

图3是一个实施例中图像生成阶段网络示例图；

图4是一个半监督图像分割阶段网络示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1，对本实施方式进行说明，本实施方式给出一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法。本实施方式的总体框架流程图如图2所示，主要包括两个阶段，分别为图像生成阶段和半监督学习阶段。

本实施方式的图像生成阶段如图3所示，具体包括以下步骤：

步骤S1、图像的数据预处理为随机反转、旋转和归一化，同时将图像输入统一尺寸为512×512，所述变分自动编码器解码器由四个下采样模块和四个上采样模块组成，其中下采样模块1采用pad为1、stride为1的3x3卷积核，下采样使用2x2的平均池化进行下采样；上采样模块采用pad为1、stride为1的3x3卷积核，上采用使用像素重组的上采用方法。变分自动编码器解码器通过训练一个自动编码器ε来生成图像对应的潜在空间编码，潜在空间编码通过解码器D恢复为高分辨率图像。

步骤S2、变分自动编码器解码器训练过程中的均方误差损失MSE如下：

步骤S3、感知图像压缩过程为将图像经编码器处理后生成对应的潜在空间编码，具体过程如下:

x＝ε(u)

其中编码器为ε，x为潜在空间编码，将潜在空间编码通过解码器恢复为像素级图像过程：/> 为解码器。

步骤S4、所述潜在扩散模型对于潜在空间编码的加噪t步后计算过程如下：

其中x₀为潜在空间编码，t为加噪步数，为加噪t步后的结果，/>为在t个噪声分布采样后的组合分布，/>其中β_i为第i个噪声分布的标准差，所述的标签y和步数t的编码器表示为τ_θ，编码器都由全连接层的网络构成并将标签和步数投影到1024维：/>和/> 和/>是步数和标签的编码中间表示，此外，去噪自动编码器由U型网络结构构成，具体去噪编码器表示为/>其中x_t为加噪t步后的结果，/>是步数的编码中间表示。通过交叉注意力层将编码映射到U型网络结构的中间层，交叉注意力实现为：

其中为U型网络结构的中间表示，/>和/>是可学习的投影矩阵。具体U型网络结构由四个下采样模块和四个上采样模块组成，其中下采样模块1采用pad为1、stride为1的3x3卷积核，下采样使用2x2的平均池化进行下采样；上采样模块采用pad为1、stride为1的3x3卷积核，上采用使用像素重组的上采用方法。

步骤S5、所述潜在扩散模型去噪拟合损失L_LDM表示为：

本实施方式的半监督学习阶段如图4所示，具体包括以下步骤：

步骤S8、所述共享编码器E使用U型架构的编码器，无标签样本为潜在扩散模型生成的合成样本.

步骤S9、所述主解码器D_main和辅助解码器为U型架构的解码器，其中辅助解码器共有K个：{D_aux1,D_aux2,…,Da_uxK}，所述向解码器施加不同等级的全局上下文噪声扰动表示为：

f′_l＝BN(σ₁{DepthwiseConv(f_l-1)})+f_l-1

f_l＝BN(σ₁{PointwiseConv(f′_l)})

其中f_l表示混合卷积模块第l层的输出，DepthwiseConv表示逐深度卷积，PointwiseConv表示逐点卷积，σ₁表示GELU激活函数，BN表示批量归一化。所述噪声扰动为Dropout、F-Drop和F-Noise。所述监督损失为l_S表示为：

步骤S10、所述一致性损失函数表示为：

步骤S11、所述多任务损失函数为监督损失/>和一致性损失/>的组合，多任务损失函数表示如下：

以上所述仅为本发明所公开的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法的优选实施方式，并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的保护范围之内。

Claims

1.一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于，所述图像数据集需要满足假设为：数据集的分布为多个高斯分布的叠加。

3.根据权利要求1所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于，所述变分自动编码器解码器由四个下采样模块和四个上采样模块组成，其中下采样模块1采用pad为1、stride为1的3x3卷积核，下采样使用2x2的平均池化进行下采样；上采样模块采用pad为1、stride为1的3x3卷积核，上采用使用像素重组的上采用方法。变分自动编码器解码器通过训练一个自动编码器ε来生成图像对应的潜在空间编码，潜在空间编码通过解码器D恢复为高分辨率图像，解码和编码的标准过程表示为：

4.根据权利要求4所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于，所述潜在扩散模型对于潜在空间编码的加噪t步后计算过程如下：

5.根据权利要求5所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于，所述的去噪自动编码器由U型网络结构构成，具体去噪编码器表示为其中x_t为加噪t步后的结果，/>是步数的编码中间表示。通过交叉注意力层将编码映射到U型网络结构的中间层，交叉注意力实现为：

6.根据权利要求8所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于，共享编码器E使用U型架构的编码器，无标签样本为潜在扩散模型生成的合成样本。

7.根据权利要求9所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于，主解码器D_main和辅助解码器为U型架构的解码器，其中辅助解码器共有K个：{D_aux1,D_aux2,…,D_auxK}。

8.根据权利要求9所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于，向解码器施加不同等级的全局上下文噪声扰动表示为：

f′_l＝BN(σ₁(DepthwiseConv(f_l-1)})+f_l-1

f_l＝BN(σ₁{PointwiseConv(f′_l)})

9.根据权利要求9所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于，噪声扰动为Dropout、F-Drop和F-Noise。

10.根据权利要求9所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于,监督损失为L_s表示为：

11.根据权利要求10所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于,一致性损失函数表示为：

12.根据权利要求11所述的一种基于潜在扩散模型和多级上下文交叉一致性的半监督分割方法，其特征在于,多任务损失函数为监督损失/>和一致性损失/>的组合，多任务损失函数表示如下：