CN116485682B

CN116485682B - 一种基于潜在扩散模型的图像阴影去除系统及方法

Info

Publication number: CN116485682B
Application number: CN202310487541.0A
Authority: CN
Inventors: 王金华; 王东辉
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2024-03-15
Anticipated expiration: 2043-05-04
Also published as: CN116485682A

Abstract

本申请公开了一种基于潜在扩散模型的图像阴影去除系统及方法，其中系统包括：图像处理模块、潜在空间模块和解码模块；所述图像处理模块用于收集待去除阴影图像，对所述待去除阴影图像进行初步处理，得到低维图像；所述潜在空间模块用于将所述低维图像进行扩散，得到噪声图像，对所述噪声图像进行去噪，得到去噪后低维图像；所述解码模块用于将所述去噪后低维图像解码并进行图像重构，得到去除阴影后图像。本申请的研究和应用可以推动深度学习、计算机视觉等领域的发展，阴影去除技术可以为更高级别的图像分析和识别提供更清晰、自然和准确的图像数据，从而推动相关技术的发展。

Description

一种基于潜在扩散模型的图像阴影去除系统及方法

技术领域

本申请属于计算机视觉技术领域，具体涉及一种基于潜在扩散模型的图像阴影去除系统及方法。

背景技术

阴影去除是计算机视觉和图像处理领域的一项重要技术，其背景可以追溯到早期的数字图像处理技术。随着数字摄影和图像处理技术的不断发展，阴影去除技术也得到了不断的改进和提高。阴影去除技术的应用非常广泛，包括自动驾驶、机器人导航、视频监控、数字广告、医学图像处理等领域。阴影去除是计算机视觉领域中既基本又重要的任务之一，其处理结果的好坏决定着后续任务的性能，是计算机视觉领域重要预处理阶段。近些年，深度学习理论也被用于解决阴影去除问题，这其中绝大多数都是采用GAN(GenerativeAdversarial Networks生成对抗网络)来完成图像阴影去除任务,GAN是一种强大的深度学习模型，已经在图像生成、图像修复、图像变换等许多领域得到了广泛的应用。使用GAN进行图像阴影去除也可以获得良好的结果，但是它也存在一些缺点：首先GAN通常需要大量的数据来进行训练，以获得良好的效果。对于阴影去除问题，需要大量的包含阴影和无阴影的图像数据集来进行训练，而这些数据集的准备和标注都是非常耗时和费力的。其次，GAN的训练过程非常复杂，需要同时训练两个神经网络。由于训练过程中的不稳定性，GAN很容易陷入训练不收敛、模式崩溃等问题，这可能导致生成的阴影去除结果出现不自然的纹理和失真等问题。潜在扩散模型(LDM，Latent Diffusion Models)最近在图像生成任务中表现出了显著的性能，并在图像合成等任务上取得了非常好的效果，LDM还能够产生更多样化的图像，而且它还拥有保留数据语义结构的能力，所以不会受到模式崩溃的影响。

发明内容

本申请旨在解决现有技术的不足，提出一种基于潜在扩散模型的图像阴影去除系统及方法，将原始图像转换为潜在空间的低维图像，并在潜在空间中通过对低维图像的迭代扩散操作来逐步生成去除阴影后图像。

为实现上述目的，本申请提供了如下方案：

一种基于潜在扩散模型的图像阴影去除系统，包括：图像处理模块、潜在空间模块和解码模块；

所述图像处理模块用于收集待去除阴影图像，对所述待去除阴影图像进行初步处理，得到低维图像；

所述潜在空间模块用于将所述低维图像进行扩散，得到噪声图像，对所述噪声图像进行去噪，得到去噪后低维图像；

所述解码模块用于将所述去噪后低维图像解码并进行图像重构，得到去除阴影后图像。

优选的，所述图像处理模块包括：阴影检测子模块、阴影去除子模块和低维图像生成子模块；

所述阴影检测子模块用于检测所述待去除阴影图像的阴影区域，生成阴影区域掩膜；

所述阴影去除子模块用于挖除所述待去除阴影图像中的阴影区域，得到第一图像；

所述低维图像生成子模块用于对所述第一图像进行降维，得到所述低维图像。

优选的，所述潜在空间模块包括：扩散子模块和去噪子模块；

所述扩散子模块用于在所述低维图像中添加高斯噪声，直至所述低维图像成为纯噪声图，得到所述噪声图像；

所述去噪子模块基于U-Net网络预测所述噪声图像的噪声分布，并基于所述噪声分布对所述噪声图像进行反向去噪过程，得到所述去噪后低维图像。

优选的，所述解码模块包括：解码器子模块和重构子模块；

所述解码器子模块用于将所述去噪后低维图像进行解码，得到输出图像，并对所述阴影区域掩膜做反相处理，得到反相后掩膜；

所述重构子模块用于将所述输出图像与所述反相后掩膜进行拼接得到第二图像，并将所述第二图像与第一图像进行拼接得到所述去除阴影后图像。

本申请还提供了一种基于潜在扩散模型的图像阴影去除方法，包括以下步骤：

收集待去除阴影图像，对所述待去除阴影图像进行初步处理，得到低维图像；

将所述低维图像进行扩散，得到噪声图像，对所述噪声图像进行去噪，得到去噪后低维图像；

将所述去噪后低维图像解码并进行图像重构，得到去除阴影后图像。

优选的，所述初步处理的方法包括：

检测所述待去除阴影图像的阴影区域，生成阴影区域掩膜；

基于所述阴影区域掩膜挖除所述待去除阴影图像中的阴影区域，得到第一图像；

对所述第一图像进行降维，得到所述低维图像。

优选的，所述扩散的方法包括：在所述低维图像中添加高斯噪声，直至所述低维图像成为纯噪声图，得到所述噪声图像；

所述去噪的方法包括：基于U-Net网络预测所述噪声图像的噪声分布，并基于所述噪声分布对所述噪声图像进行反向去噪过程，得到所述去噪后低维图像。

优选的，所述重构的方法包括：

将所述去噪后低维图像进行解码，得到输出图像，并对所述阴影区域掩膜做反相处理，得到反相后掩膜；

将所述输出图像与所述反相后掩膜进行拼接得到第二图像，并将所述第二图像与第一图像进行拼接得到所述去除阴影后图像。

与现有技术相比，本申请的有益效果为：

(1)本申请可以提高图像质量，使图像更加清晰、自然和易于识别，例如，交通监控、安防监控等领域可以通过阴影去除提高图像识别的准确性，减少安全隐患；

(2)本申请是一种基于深度学习的计算机视觉技术，其研究和应用可以推动深度学习、计算机视觉等领域的发展，例如，在图像处理、图像分析、图像识别等领域，阴影去除技术可以为更高级别的图像分析和识别提供更清晰、自然和准确的图像数据，从而推动相关技术的发展。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的系统结构示意图；

图2为本申请实施例的U-Net网络的整体架构图；

图3为本申请实施例的方法流程示意图；

图4为本申请实施例的详细流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

在本实施例中，如图1所示，一种基于潜在扩散模型的图像阴影去除系统，包括：图像处理模块、潜在空间模块和解码模块；

图像处理模块用于收集待去除阴影图像，对待去除阴影图像进行初步处理，得到低维图像。

图像处理模块包括：阴影检测子模块、阴影去除子模块和低维图像生成子模块。阴影检测子模块用于检测待去除阴影图像的阴影区域，生成阴影区域掩膜；阴影去除子模块用于基于阴影区域掩膜挖除待去除阴影图像中的阴影区域，得到第一图像；低维图像生成子模块用于对第一图像进行降维，得到低维图像。

在本实施例中，阴影检测子模块通过FSDNet模型检测图像中的阴影区域并生成对应的阴影区域掩膜；阴影去除子模块通过阴影区域掩膜挖除图像中的阴影区域得到第一图像，第一图像大小为H×W×3，并将挖除阴影区域的第一图像输入低维图像生成子模块，由其中的变分自编码器(Variational Autoencoder，VAE)模型中的Encoder模块对挖除阴影区域后的图像进行处理，将图片信息降维到潜在空间，得到低维图像。

潜在空间模块用于将低维图像进行扩散，得到噪声图像，对噪声图像进行去噪，得到去噪后低维图像。

潜在空间模块包括：扩散子模块和去噪子模块。扩散子模块用于在低维图像中添加高斯噪声，直至低维图像成为纯噪声图像，得到噪声图像；去噪子模块基于U-Net网络预测噪声图像的噪声分布，并基于噪声分布对噪声图像进行反向去噪过程，得到去噪后低维图像。

在本实施例中，扩散子模块对于原始数据X-X₀～q(X₀)，总共包含t步的扩散过程，每一步都是对上一步得到的数据X_t-l按如下方式增加高斯噪音：

前像过程图像X_t只和上一时刻的图像X_t-1有关，其中，β_t为高斯分布的方差超参，q表示前向扩散过程，N为正态分布。

以上加噪过程可以直接由原始图像X₀得到：X_t-1

其中，a_t＝1-β_t，。

为上一时刻图像，m为检测生成的阴影区域掩膜，(1-m)为对阴影掩膜进行反相操作，/>为模型预测的上一时刻图像。

U-Net网络结构主要分为三部分：下采样，上采样以及跳跃连接，左边是压缩的过程，通过卷积和下采样来降低图像尺寸，提取一些浅显的特征。右边部分是解码的过程，通过卷积和上采样来获取一些深层次的特征。U-Net网络中间通过拼接的方式，将编码阶段获得的feature map同解码阶段获得的feature map结合在一起，结合深层次和浅层次的特征，所以图像只会有一些细微的损失。扩散模型需要采样几百上千步，单步的信息损失就足以造成图像模糊，所以使用U-Net网络可以较好地解决生成图像崩坏的问题。

U-Net网络训练过程如下：首先在真实图像分布q(X₀)中采样出x₀，也就是训练图像；在区间1...T中随机生成一个t，代表扩散次数；从标准正态分布中采样一个随机噪声∈；计算损失函数，其中的真值是采样得到的噪声∈，网络预测值是∈_θ(X_t，t)；将t作为一个时间编码输入到网络中，因为在反向去噪过程中，每一次迭代的网络都是相同的，即参数共享，将t一同传进去参与训练，用t来告诉网络进行到第几次迭代。

解码模块用于将去噪后低维图像解码并进行图像重构，得到去除阴影后图像。

解码模块包括：解码器子模块和重构子模块。解码器子模块用于将去噪后低维图像进行解码，得到输出图像，并对阴影区域掩膜进行反相操作，得到反相后掩膜；重构子模块用于将输出图像与反相后掩膜进行拼接得到第二图像，并将第二图像与第一图像进行拼接得到去除阴影后图像。

实施例二

在本实施例中，如图3所示，一种基于潜在扩散模型的图像阴影去除方法，包括以下步骤：

S1.收集待去除阴影图像，对待去除阴影图像进行初步处理，得到低维图像。

检测待去除阴影图像的阴影区域，生成阴影区域掩膜；基于阴影区域掩膜挖除待去除阴影图像中的阴影区域，得到第一图像；对第一图像进行降维，得到低维图像。

在本实施例中，通过FSDNet模型检测图像中的阴影区域并生成对应的阴影区域掩膜；通过阴影区域掩膜挖除图像中的阴影区域得到第一图像，第一图像大小为H×W×3，并将挖除阴影区域的第一图像输入变分自动编码器(Variational Autoencoder，VAE)模型中的Encoder模块，对挖除阴影区域后的图像进行处理，将图片信息降维到潜在空间，得到低维图像。

S2.将低维图像进行扩散，得到噪声图像，对噪声图像进行去噪，得到去噪后低维图像。

在低维图像中添加高斯噪声，直至低维图像变为纯噪声图像，得到噪声图像；基于U-Net网络预测噪声图像的噪声分布，并基于噪声分布对噪声图像进行反向去噪过程，得到去噪后低维图像。

在本实施例中，对于原始数据X-X₀～q(X₀)，总共包含t步的扩散过程，每一步都是对上一步得到的数据X_t-1按如下方式增加高斯噪音：

以上加噪过程可以直接由X₀得到：

其中，α_t＝1-β_t，。

S3.将去噪后低维图像解码并进行图像重构，得到去除阴影后图像。

将去噪后低维图像进行解码，得到输出图像，并对阴影区域掩膜进行反相操作，得到反相后掩膜；将输出图像与反相后掩膜进行拼接得到第二图像，并将第二图像与第一图像进行拼接得到去除阴影后图像。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种基于潜在扩散模型的图像阴影去除系统，其特征在于，包括：图像处理模块、潜在空间模块和解码模块；

所述解码模块用于将所述去噪后低维图像解码并进行图像重构，得到去除阴影后图像；

所述图像处理模块包括：阴影检测子模块、阴影去除子模块和低维图像生成子模块；

所述低维图像生成子模块用于对所述第一图像进行降维，得到所述低维图像；

所述潜在空间模块包括：扩散子模块和去噪子模块；

所述去噪子模块基于U-Net网络预测所述噪声图像的噪声分布，并基于所述噪声分布对所述噪声图像进行反向去噪过程，得到所述去噪后低维图像；

扩散子模块对于原始数据X-X₀～q(X₀)，总共包含t步的扩散过程，每一步都是对上一步得到的数据X_t-l按如下方式增加高斯噪音：

前向过程图像X_t只和上一时刻的图像X_t-1有关，其中，β_t为高斯分布的方差超参，q表示前向扩散过程，N为正态分布；

加噪过程直接由原始图像X₀得到：

其中，a_t＝1-β_t；

为上一时刻图像，m为检测生成的阴影区域掩膜，(1-m)为对阴影掩膜进行反相操作，/>为模型预测的上一时刻图像；

所述解码模块包括：解码器子模块和重构子模块；

2.一种基于潜在扩散模型的图像阴影去除方法，所述去除方法应用于权利要求1所述的去除系统，其特征在于，包括以下步骤：

将所述去噪后低维图像解码并进行图像重构，得到去除阴影后图像；

所述初步处理的方法包括：

检测所述待去除阴影图像的阴影区域，生成阴影区域掩膜；

对所述第一图像进行降维，得到所述低维图像；

所述扩散的方法包括：在所述低维图像中添加高斯噪声，直至所述低维图像成为纯噪声图，得到所述噪声图像；

所述去噪的方法包括：基于U-Net网络预测所述噪声图像的噪声分布，并基于所述噪声分布对所述噪声图像进行反向去噪过程，得到所述去噪后低维图像；

对于原始数据X-X₀～q(X₀)，总共包含t步的扩散过程，每一步都是对上一步得到的数据X_t-l按如下方式增加高斯噪音：

加噪过程直接由原始图像X₀得到：

其中，a_t＝1-β_t；

所述重构的方法包括：