CN117455809B

CN117455809B - 基于深度引导扩散模型的图像混合雨去除方法和系统

Info

Publication number: CN117455809B
Application number: CN202311388489.XA
Authority: CN
Inventors: 余荣威; 张沛豪; 郭茜雅; 李翼展; 向婧怡
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2024-05-24
Anticipated expiration: 2043-10-24
Also published as: CN117455809A

Abstract

本发明公开了基于深度引导扩散模型的图像混合雨去除方法和系统，可以有效解决公共监控画面、自动驾驶目标跟踪等被雨水遮挡而造成的公共安全问题。本方法包括利用编码器解码器网络提取有雨图像的深度特征并预测有雨图像的深度映射；利用U‑Net网络提取有雨图像的噪声特征；通过带有可学习偏移量的卷积操作对上述两种特征进行采样并利用深度特征引导和精确U‑Net网络对于有雨图像噪声分布的预测；根据扩散模型框架对整个网络进行迭代最终得到去雨的干净图像。本发明可以更有效去除图像中复杂多样的雨水，同时针对被雨水遮挡的背景信息获得更高质量的恢复效果，从而整体提升去雨图像的质量。因此本发明可以为智能的数字城市系统带来更多便利性和安全性。

Description

基于深度引导扩散模型的图像混合雨去除方法和系统

技术领域

本发明属于公共安全交叉图像处理领域，具体来说是一种基于深度引导扩散模型的图像去雨方法。

背景技术

降雨是最常见的天气现象之一，复杂多样的降雨会严重影响图像的能见度并破坏图像的背景信息。这会使得公共监控、自动驾驶目标跟踪以及其他各种智能视觉任务在有雨的场景下受到巨大影响。比如犯罪嫌疑人在雨天作案，公共监控因为受到雨水的遮挡而丢失了重要的嫌疑人特征；又比如自动驾驶中，车中智能系统的目标识别任务受到雨水遮挡的影响，而导致目标特征丢失造成系统误判等等。这些都会带来一系列公共安全问题。随着智能交通系统和安全监视系统等领域的快速发展，对于图像质量的要求也越来越高，因此开发一种能够有效去除真实场景中的雨水并高质量恢复被遮挡背景信息的图像去雨方法至关重要。

早期的图像去雨方法采用了各种先验知识比如暗通道、人工字典等来去除雨水。然而，这些基于人工先验的方法表示能力较差，难以处理复杂多样的雨水去除。近年来，凭借强大的表示能力，基于深度学习的方法在图像去雨任务中表现出了巨大的优势。然而，在处理真实世界的雨水去除时，仍然无法获得令人满意的结果。

通过观察和总结这些方法的去雨效果，认为有两个方面导致这些基于深度学习的方法性能的不足：1)现有的方法认为雨水中只包含雨条纹。然而在大量真实世界的降雨图像中观察到，真正的雨水是雨条纹和雨雾的混合体，它们相互交织。此外，随着目标与相机的距离的增加，部分雨条纹会积累并转化成雨雾。因此，当面对真实的雨场景时，这些方法因雨模型建立的不足导致不能取得良好的去雨效果；2)以往的方法主要依赖于建模能力不足的深度神经网络，其膨胀卷积和非局部模块等目的在获取上下文信息的结构也无法有效捕捉丰富的上下文信息和长距离的相关性依赖，因此无法很好地恢复被雨水遮挡的未知像素。

发明内容

本发明针对现有方法的不足之处，提供了一种去雨性能更强、图像恢复质量更高的基于深度引导扩散模型的图像混合雨去除方法。

扩散模型是一种新兴的深度学习框架，其对图像像素分布的建模能力更加强大，训练过程也更加稳定，因此本发明使用扩散模型作为基本框架来获得更好地去雨效果以及图像恢复质量。扩散模型的实质就是两个过程：加噪过程和去噪过程。通俗来讲，加噪过程是将图像逐渐加入高斯噪声(需要大量加噪步骤)最终形成纯高斯噪声；去噪过程是利用一个深度学习网络来拟合去噪过程，从而从纯高斯噪声获取最终的去雨图像。

本发明所采用的技术方案是：一种基于深度引导扩散模型的图像混合雨去除方法，包括训练阶段和推理阶段，其中训练阶段包括如下步骤：

步骤11，选择附带深度图像的雨雾数据集，构造(有雨图像干净图像x₀、深度图像x_d)图像对；

步骤12，创建一个与干净图像张量大小一致的纯高斯噪声∈_t，利用去噪扩散概率模型原理以纯高斯噪声∈_t和干净图像x₀为输入求得当前时间步t对应的噪声x_t；

步骤13，将噪声x_t、有雨图像以及时间步t输入到噪声估计网络中，获得最终预测的噪声分布/>

所述噪声估计网络包括用于对图像的深度特征进行精确提取的深度特征提取网络分支和用于提取噪声分布特征并对当前时间步噪声x_t去噪所需的噪声分布/>进行预测的噪声分布估计网络分支；

步骤14，分别对预测的深度特征与深度图像x_d、预测的噪声分布/>与纯高斯噪声∈_t求损失函数，并使用随机梯度下降对噪声估计网络进行权重更新；

步骤15，判断两个损失函数是否收敛或达到预定的迭代步数，并对噪声估计网络进行保存以便进行推理使用，若两个条件均不满足，则继续进行下一次训练，即选择下一组图像对，重复步骤12-步骤14直至训练完成；

推理阶段包括：将有雨图像、当前时间步噪声以及当前时间步输入到训练好的噪声估计网络中得到预测的噪声分布，然后结合去噪扩散概率模型，将预测的噪声分布用于对当前时间步噪声进行去噪，直到时间步t为0时，完成推理，输出预测的去雨图像。

进一步的，所述深度特征提取网络分支包括十一个层，前十层用于提取深度特征，最后一层用于预测回归深度图，前十层均为CGNS模块，每个CGNS模块均由卷积运算、组归一化和缩放指数线性单元组成，并且在前三层和后三层之间添加跳跃连接，以最大限度地利用深度信息特征，最后一层由两个CGNS模块和一个sigmod函数组成用于预测深度图

进一步的，深度特征提取网络分支以有雨图像和时间步t作为输入，以获得的最终预测的深度图作为输出，通过正弦位置编码将时间步嵌入到具有跳跃连接的六个层对应的张量中，使得通过深度特征随时间步的变化来细化噪声分布的预测。

进一步的，噪声分布估计网络分支包括十三个层，前六层用于下采样，后六层用于上采样，中间为连接层，每一层都由多个ResNets残差块组成，并且在相同维度的上采样和下采样的层之间添加跳跃连接；并且在噪声分布估计网络的第三层、第七层和第十一层分别加入了两个、一个和三个自注意力模块。

进一步的，噪声分布估计网络分支以当前时间步的噪声x_t、有雨图像和时间步t作为输入，以预测噪声分布/>作为输出，通过正弦位置编码将时间步嵌入到具有跳跃连接的八个层对应的张量中，使提取的噪声分布特征与时间步长强相关。

进一步的，所述噪声估计网络还包括动态消息传递模块，添加在深度特征提取网络分支和噪声分布估计网络分支之间。

进一步的，在深度特征提取网络分支和噪声分布估计网络分支之间添加动态消息传递模块，将深度特征提取网络分支中的第一、第三和第五层作为动态消息传递模块的深度引导块，用于分别对噪声分布估计网络分支的前四层和后四层进行引导和细化，具体处理过程如下：

对于某个深度特征和噪声分布，首先对其周围特征进行均匀采样，并使用大小为K×K的可学习卷积核来预测每个采样节点的偏移量，然后通过图模型，获得深度特征上下文信息和噪声分布特征上下文信息，使用深度特征上下文信息来学习亲和度矩阵和滤波器权重，并将亲和度矩阵与噪声分布特征上下文信息进行点积操作，之后与再与滤波器权重进行点积操作以确定深度特征对噪声特征的消息，即获得深度消息；最后，通过将深度消息和噪声分布特征上下文信息按像素加和得到引导和细化后的潜在噪声分布特征。

进一步的，损失函数采用的是MSE均方误差。

本发明还提供基于深度引导扩散模型的图像混合雨去除系统，包括训练模块和推理模块，其中训练模块包括如下子模块：

图像对构造子模块，用于选择附带深度图像的雨雾数据集，构造(有雨图像干净图像x₀、深度图像x_d)图像对；

噪声子模块，用于创建一个与干净图像张量大小一致的纯高斯噪声v_t，利用去噪扩散概率模型原理以纯高斯噪声∈_t和干净图像x₀为输入求得当前时间步t对应的噪声x_t；

噪声估计网络构建子模块，用于将噪声x_t、有雨图像以及时间步t输入到噪声估计网络中，获得最终预测的噪声分布/>

权重更新子模块，分别对预测的深度特征与深度图像x_d、预测的噪声分布/>与纯高斯噪声∈_t求损失函数，并使用随机梯度下降对噪声估计网络进行权重更新；

迭代子模块，用于判断两个损失函数是否收敛或达到预定的迭代步数，并对噪声估计网络进行保存以便进行推理使用，若两个条件均不满足，则继续进行下一组图像对的训练；

推理模块的具体处理过程为：将有雨图像、当前时间步噪声以及当前时间步输入到训练好的噪声估计网络中得到预测的噪声分布，然后结合去噪扩散概率模型，将预测的噪声分布用于对当前时间步噪声进行去噪，直到时间步t为0时，完成推理，输出预测的去雨图像。

本发明提供的方法与国内外最先进的去雨方法相比具有以下的主要优点：第一，本发明充分考虑了真实世界中雨水的成像过程，建立了一个雨条纹和雨雾按照深度值融合的混合雨模型，使得模型可以更好地去除现实中复杂多样的雨水；第二，本发明利用两个包含残差块和自注意力块的编码器-解码器网络(深度特征提取网络和噪声分布估计网络)来有效提取深度特征和噪声分布特征；第三，本发明在扩散框架中部署网络，充分利用了扩散模型对像素分布的强大建模能力以及其更稳定的训练过程，使得模型得到的图像质量更高；第四，本发明设计了一种包含带有可学习偏移的卷积的动态消息传递模块来对深度特征和噪声特征进行上下文信息的有效采样，并使深度特征有效引导和细化噪声分布的预测，实现图像混合雨的有效去除并针对被雨水遮挡的未知像素的一个更高质量的恢复效果。

附图说明

图1是本发明中扩散模型的训练流程图。

图2是本发明中扩散模型的推理流程图。

图3是本发明中动态消息传递模块的流程图。

图4是本发明中噪声估计网络的具体结构。

具体实施方式

下面通过具体实施方式结合附图，对本发明的技术方案做进一步的详细描述。

由于扩散模型框架具有特殊的前向加噪和反向去噪的过程，因此本发明的技术方案与一般深度神经网络的描述方式有所区别。本方法的训练流程和推理流程是不一样的，但二者的核心部分即噪声估计网络是一致的。故而本节将从训练过程、推理过程以及噪声估计网络三个部分展开说明。

1.训练过程如附图1所示包括以下步骤：

步骤1：准备数据，选择附带深度图像的雨雾数据集，构造(有雨图像干净图像x₀、深度图像x_d)图像对；

步骤2：设定扩散模型时间步序列长度，本方案中设定长度为1000，即从纯高斯噪声需要1000步推理可以得到预测的去雨图像；

步骤3：打乱数据图像对顺序，每次训练选择一组作为训练图像对，并利用随机数函数(范围在时间步序列长度内)为本次训练选择一个随机时间步t；

步骤4：使用Pytorch框架中randn_like()函数创建一个与干净图像张量大小一致的纯高斯噪声利用去噪扩散概率模型DDPM原理以噪声∈_t和干净图像x₀为输入求得当前时间步对应的噪声x_t；

步骤5：将上述张量包括噪声x_t、有雨图像以及时间步t输入到噪声估计网络中。具体是首先将有雨图像/>输入到深度特征提取网络分支中，并在其每个残差块使用正弦位置编码将时间步t嵌入(使得特征与时间步强相关)，得到深度特征提取网络中间层的深度特征以及最终预测的深度映射/>接下来按照图像通道将有雨图像/>和噪声x_t进行连接得到一个六通道张量，将这个六通道张量输入到噪声分布估计网络分支中，同样在每个ResNet块中使用正弦位置编码将时间步嵌入，得到噪声分布估计网络中间层的噪声分布特征以及最终预测的噪声分布/>(这个噪声分布用于将x_t去噪得到x_t-1)；

步骤6：分别根据两个MSE均方误差损失函数对预测的深度映射与深度图像x_d、预测的噪声分布/>与纯高斯噪声∈_t进行回归，并使用随机梯度下降对噪声估计网络进行权重更新；

步骤7：判断两个MSE损失函数是否收敛以及是否已经完成预定的迭代步数(本发明中训练步数设为2000000步)。两个条件满足其一就停止训练，并对模型进行保存以便进行推理使用。若两个条件均不满足，就继续进行下一次训练，即选择下一组图像对，重复步骤4-步骤6直至训练完成。

2.推理过程如附图2所示，包括以下步骤：

步骤1：输入需要进行去雨的有雨图像并定义与有雨图像张量大小一致的纯高斯噪声；

步骤2：设定扩散模型时间步序列与训练过程中的长度一致，即本方案设定的1000步。接下来根据去噪隐式扩散模型DDIM加速采样思想设定一个时间步间隔S(本方案设为25)用于获取时间步序列的子序列(原本时间步序列是从1逐一到1000，子序列则是间隔为25从1到1000的等差数列)，这样推理步数从1000步减少到了40步，大大增加了模型的推理效率；

步骤3：初始将步骤1定义的纯高斯噪声作为初始噪声x₁₀₀₀，此时t为1000、tnext为t间隔S步的975；

步骤4：将有雨图像当前时间步噪声x_t以及当前时间步t输入到噪声估计网络中，得到预测的噪声分布/>用于对当前时间步噪声x_t进行去噪；

步骤5：根据去噪扩散概率模型DDPM原理以步骤4得到的预测噪声分布和下一个时间步tnext为输入对当前时间步噪声x_t进行更新得到下一个时间步tnext对应的噪声x_tnext；

步骤6：将当前时间步t更新为tnext，并取下一个间隔S的时间步作为新的tnext；

步骤7：判断当前时间步t是否为0。若当前时间步t为0，证明推理完成，当前噪声x₀即为预测的去雨图像；若不为0，代表还需继续推理，重复步骤4-步骤6直至推理完成。

3.噪声估计网络(Noise Prediction subnetwork，NPN)具体描述

噪声估计网络具体分为深度特征提取网络分支、噪声分布估计网络分支以及动态消息传递模块，其具体网络结构以及模块之间的关系如图4所示。深度特征提取网络分支负责对图像的深度特征进行精确提取，使得深度特征更好地对噪声分布预测进行引导和细化；噪声分布估计网络用于提取噪声分布特征并对当前时间步噪声x_t去噪所需的噪声分布进行预测；动态消息传递模块目的是为深度特征和噪声分布特征获取上下文信息并通过亲和度矩阵和滤波器权重两个向量让深度特征引导和细化噪声分布的预测，使得被雨水遮挡的未知像素恢复的质量更高。

深度特征提取网络Depth Prediction subnetwork：为了更好地捕捉深度特征，本发明创建了一个编码器-解码器子网络来预测深度图。详细地，深度特征提取网络包括十一个层，前十层用于提取深度特征，最后一层用于预测回归深度图。前十层均为CGNS模块(该名称是卷积conv、组归一化group normally以及缩放指数线性单元selu unit三个组成部分的首字母组成的)，每个CGNS模块均由卷积运算、组归一化和缩放指数线性单元组成，并且在前三层和后三层之间添加跳跃连接，以最大限度地利用深度信息特征。最后一层由两个CGNS模块和一个sigmod函数组成，用于预测深度图并通过将深度监督图与预测图拟合来细化将要提取的深度特征。

对于该子网络的输入输出，以有雨图像和时间步t作为输入，以获得的最终预测的深度图作为输出。具体通过正弦位置编码将时间步嵌入到具有跳跃连接的六个层(前三个和后三个)对应的张量中，这使得通过深度特征随时间步的变化来细化噪声分布的预测。

噪声分布估计网络Noise Prediction subnetwork：为了预测噪声分布，本发明构建了一个以Resnet残差块为主要组件的U-Net网络。在深度特征提取网络中提取深度特征的操作完成后，根据通道(条件扩散模型)将当前时间步的噪声x_t与有雨图像连接，以获得六通道输入，分别是噪声x_t和有雨图像/>两个RGB三通道图像的结合，即两个三通道连接组成的六通道，然后获得该U-Net之后的预测噪声分布/>

与深度特征提取网络一样，噪声分布估计网络同样是一个由十三个层组成的编码器-解码器网络，其中前六层用于下采样，后六层用于上采样，中间为连接层。每一层都由多个ResNets残差块组成，并且在对应于上采样和下采样(相同维度)的层之间添加跳跃连接，以提高网络的特征学习性能。在时间步嵌入方法上，与深度特征提取网络的方法保持一致，将时间步t嵌入到了每个Resnet残差块中，使噪声分布估计网络提取的特征能够与时间步长强相关。此外，在噪声分布估计网络中还添加了自注意力块来捕捉长距离相互依赖的特征，提高了整体图像生成效果，具体的，在噪声分布估计网络的第三层、第七层和第十一层分别加入了两个、一个和三个自注意力模块。

动态消息传递模块DGMP(Depth Guided message Propagation module)：在面临图像去雨任务时，需要恢复被遮挡的背景像素，获得更大的感受野和丰富的上下文信息至关重要。为了进一步提高这两个特征的提取能力和上下文信息的捕获能力，我们在深度特征提取网络和噪声分布估计网络之间添加了动态消息传递模块，模块机制如图3所示。

如图4所示，本发明设计将深度特征提取网络中的第一、第三和第五层作为动态消息传递模块的深度引导块，用于分别对噪声分布估计网络的前四层和后四层进行引导和细化。具体来说，该模块按照图模型来对特征进行上下文信息的捕捉，因此需要通过计算滤波器权重和亲和度矩阵(这两个矩阵代表图模型中节点与节点之间的依赖关系，一般初始化为全零矩阵，通过卷积学习得到两个矩阵中各个权重值从而更好地表达节点之间的依赖关系)来获取图模型中点和点之间的依赖关系，这里图模型的点即下面要进行采样的采样点。对于某个深度特征或噪声分布特征向量，首先对其周围特征进行均匀采样，以丰富当前像素特征。采样节点的数量决定了特征向量的感受野。然后，为了确保采样节点的有用性，使用大小为K×K的可学习卷积核来预测每个采样节点的偏移量，分别获得深度特征上下文信息和噪声分布特征上下文信息。由于偏移量是二维的，因此卷积的输出大小为2×K×K。在获得这两种特征的对应点的采样像素特征之后，使用深度的采样特征来学习亲和度矩阵A和滤波器权重W，之后如图3流程图所示，首先将亲和度矩阵与噪声分布特征上下文信息进行点积操作，之后与再与滤波器权重进行点积操作以确定深度特征对噪声特征的消息，即获得深度消息。最后，通过将深度消息和噪声分布特征上下文信息按像素加和得到引导和细化后的潜在噪声分布特征。通过一个完整的动态消息传递模块，就可以得到噪声分布估计网络中一个中间层的噪声特征的细化，使得最终达到噪声估计网络的输出更加精准。

4.本发明网络优越性以及模块有效性：

通过在两个权威数据集RainCityscapes和Rain200L上与国内外最优秀的去雨方法进行去雨效果的比较，可以明显看出本发明网络的去雨性能更优，其中两个性能指标PSNR-峰值信噪比和SSIM-结构相似性越高代表方法的去雨性能更好。具体比较结果如表1所示。

表1去雨效果对比结果

此外，为了验证本发明中每个模块的有效性，我们通过对各个模块进行消融实验，性能指标与表1使用的指标一致，具体消融实验结果如表2所示，可以明显看出完整的网络结构的去雨性能是最佳的。

表2消融实验具体结果

噪声子模块，用于创建一个与干净图像张量大小一致的纯高斯噪声∈_t，利用去噪扩散概率模型原理以纯高斯噪声∈_t和干净图像x₀为输入求得当前时间步t对应的噪声x_t；

各模块的具体实现方式与各步骤相同，本发明不予撰述。

以上所述，仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims

1.基于深度引导扩散模型的图像混合雨去除方法，其特征在于，包括训练阶段和推理阶段，其中训练阶段包括如下步骤：

所述深度特征提取网络分支包括十一个层，前十层用于提取深度特征，最后一层用于预测回归深度图，前十层均为CGNS模块，每个CGNS模块均由卷积运算、组归一化和缩放指数线性单元组成，并且在前三层和后三层之间添加跳跃连接，以最大限度地利用深度信息特征，最后一层由两个CGNS模块和一个sigmod函数组成用于预测深度图

噪声分布估计网络分支包括十三个层，前六层用于下采样，后六层用于上采样，中间为连接层，每一层都由多个ResNets残差块组成，并且在相同维度的上采样和下采样的层之间添加跳跃连接；并且在噪声分布估计网络的第三层、第七层和第十一层分别加入了两个、一个和三个自注意力模块；

在深度特征提取网络分支和噪声分布估计网络分支之间添加动态消息传递模块，将深度特征提取网络分支中的第一、第三和第五层作为动态消息传递模块的深度引导块，用于分别对噪声分布估计网络分支的前四层和后四层进行引导和细化，具体处理过程如下：

对于某个深度特征和噪声分布，首先对其周围特征进行均匀采样，并使用大小为K×K的可学习卷积核来预测每个采样节点的偏移量，然后通过图模型，获得深度特征上下文信息和噪声分布特征上下文信息，使用深度特征上下文信息来学习亲和度矩阵和滤波器权重，并将亲和度矩阵与噪声分布特征上下文信息进行点积操作，之后与再与滤波器权重进行点积操作以确定深度特征对噪声特征的消息，即获得深度消息；最后，通过将深度消息和噪声分布特征上下文信息按像素加和得到引导和细化后的潜在噪声分布特征；

2.如权利要求1所述的基于深度引导扩散模型的图像混合雨去除方法，其特征在于：深度特征提取网络分支以有雨图像和时间步t作为输入，以获得的最终预测的深度图作为输出，通过正弦位置编码将时间步嵌入到具有跳跃连接的六个层对应的张量中，使得通过深度特征随时间步的变化来细化噪声分布的预测。

3.如权利要求1所述的基于深度引导扩散模型的图像混合雨去除方法，其特征在于：噪声分布估计网络分支以当前时间步的噪声x_t、有雨图像和时间步t作为输入，以预测噪声分布/>作为输出，通过正弦位置编码将时间步嵌入到具有跳跃连接的八个层对应的张量中，使提取的噪声分布特征与时间步长强相关。

4.如权利要求1所述的基于深度引导扩散模型的图像混合雨去除方法，其特征在于：损失函数采用的是MSE均方误差。

5.基于深度引导扩散模型的图像混合雨去除系统，其特征在于，包括训练模块和推理模块，其中训练模块包括如下子模块：