CN116757955A

CN116757955A - 一种基于全维动态卷积多融合对比网络

Info

Publication number: CN116757955A
Application number: CN202310732511.1A
Authority: CN
Inventors: 曹莹; 蔡强; 曹健; 王晨
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-15

Abstract

本发明涉及一种基于全维动态卷积多融合对比网络的图像去噪方法。在单尺度网络中引入了分组全维动态卷积，在保持轻量化的同时，自适应的学习每个样本的不同退化，增强了模型的去噪灵活性，保持了图像原有内容的结构信息。同时，在编解码网络中引入了残差单元、密集连接、跳跃连接以及多重对比注意力机制，在密集卷积层的学习能力和注意力层的筛选能力能获取良好特征的基础上，在捕获图像完整的语义信息的同时加强了图像信息的保留。最后，将编解码网络与单尺度网络的输出图像进行有效融合，学习两者互补的特征信息，并通过对比学习机制，不断缩小去噪子空间，有利于挖掘更接近干净图像的重构信息。本发明中极大地增强了神经网络模型的学习能力，建立起了噪声图像到干净图像的准确映射，从而实现对高斯白噪声和真实噪声图像的实时去噪。

Description

一种基于全维动态卷积多融合对比网络

技术领域

本发明涉及计算机视觉与数字图像处理领域，具体来说，尤其涉及一种基于全维动态卷积多融合对比网络的图像去噪方法。

背景技术

由于图像在拍摄和传输过程中会不可避免地引入不必要的噪声，导致图像信号不佳，质量下降，缺乏可读性，从而影响后续图像处理任务的学习以及处理结果，因此在带噪声的图像中恢复出清晰图像是计算机视觉领域重要的研究内容之一。在早期，一些传统的去噪方法如NLM方法和BM3D方法利用自相似补丁对图像先验进行显式建模，另外，基于稀疏模型、梯度模型、马尔可夫随机场模型的手工图像先验的方法，对不同噪声水平的噪声图像进行灵活去噪。但其去噪过程耗时长，计算效率低。随着深度学习的发展，一系列使用卷积神经网络的方法通过从大规模数据中捕获自然图像统计数据来隐式地学习更多的一般先验。尽管很多基于深度学习的高斯白噪声图像去噪方法取得了很好的成果，但对去噪后图像的细节保留还有所欠缺，并且由于真实噪声的复杂性，去噪模型对于真实噪声图像去噪的泛化性还有待提升。

发明内容

为解决上述技术问题，本发明公开了一种基于全维动态卷积多融合对比网络的图像去噪方法，极大增强了编解码网络的去噪能力，建立起噪声图像到干净图像的准确映射，并在图像去噪和细节保留之间得到了很好的权衡。包括以下步骤：

数据预处理：本发明分别针对真实噪声图像和合成噪声图像训练特定的模型，以便用于精准去噪。其中，获取SIDD数据集中的320对图像用于真实噪声模型训练，以及DIV2K数据集中的800对图像用于合成噪声模型训练，将每一个全分辨率图像对分别随机切割为多个256×256的图像对，并将其写入lmdb进行键值对存储，以便训练时进行高速访问，在训练时，对数据集进行旋转、翻转等数据增强操作，增强模型的泛化能力。

构建多尺度编解码架构：利用编码器首先采用卷积降维操作去学习图像的映射关系及表达模式，在提取多尺度图像语义特征的同时，对数据进行压缩编码，将图像中的噪声过滤再借助解码过程还原图片信息。在解码过程中与编码器相应尺寸的特征进行联系，缓解图像信息缺失问题。另外，为了使重构的图像尺寸与特征信息足够丰富，本发明采用像素重组来实现上采样的操作，通过对图像进行亚像素层面的反卷积操作，使图像关注于亚像素层面的细节信息，使重构图像具备丰富的结构纹理信息。

多尺度编解码静态卷积去噪：构建具有全局建模能力和局部建模能力的模块并插入到编解码每个尺度中。

在全局建模部分，利用平均池化和对比方差池化捕获空间和通道全局信息，学习不同特征图通道和空间之间的联系。

在通道特征方面，学习图像特征在通道维度的均值和方差来加强图像的离散程度，捕获通道间的相关性。若以空间大小为H×W、通道为C的向量作为输入，各特征图均值为μ_c，标准差为σ_c，则所对应的对比信息值为：

CF_c＝μ_c+σ_c

CF_c为第c个通道的对比信息输出，计算每个通道特征图的对比信息之后，通过两个1×1卷积操作对通道进行挤压-激励操作，并经过Sigmoid激活后，得到对应通道的权重比例，与原始特征信息相乘，得到通道过滤后的信息。

在空间特征方面，利用平均池化和最大池化捕获通道全局信息，学习不同特征图空间之间的联系。若输入向量特征图为X₂，首先做一个基于通道的全局最大池化和全局平均池化，得到两个H×W×1的特征图，然后对其进行通道拼接处理，并经过一个5×5卷积操作，降维为1个通道。最后经过sigmoid生成空间注意特征图，最后将该特征图和该模块的输入特征图做乘法，得到最终生成的特征。

在局部建模部分，通过密集连接的卷积层提取丰富的局部特征。将前一个特征状态直接连接到当前残差密集块的所有层，从而形成一个连续的内存机制，并使用1×1的卷积操作作为一个局部融合操作，来自适应控制输出信息。

单尺度残差全维动态卷积去噪：在原始分辨率图像上，采用带残差结构的卷积网络进行特征提取，以保留更多图像细节的目的达到去噪效果。在每个残差块中，所有卷积操作为全维动态组卷积，首先将输入进行分组，在每组内，引入了一种具有并行策略的多维注意力机制，以学习卷积核在核空间的所有四个维度上的不同注意力，这些维度包括核的数量、大小，输入、输出的通道数量，通过对所有四个维度的核空间学习到的注意力分别进行线性组合，从而有效应对不同特征的样本输入。不同核空间的线性组合如下所示：

y＝(α_ω1*α_f1*α_c1*α_s1*W₁+…+α_ωn*α_fn*α_cn*α_sn*W_n)*x

其中，α_ωi、α_fi、α_ci、α_si分别表示四个学习到的注意权重，它们分别沿着卷积核的核空间的大小、空间维度、输入通道维度和输出通道维度计算，x和y分别为输入输出的特征图。

阶段特征融合：对多尺度去噪结果与单尺度去噪结果进行特征融合处理，从互补的角度权衡语义特征和细节特征的关系，互相学习两者的优势。

对比学习机制：将单尺度与多尺度融合后的去噪图像作为锚点，将不带噪声的干净图像作为正样本，将单尺度和多尺度的去噪图像分别作为负样本1和负样本2，通过双重对比学习来衡量正样本和负样本与锚点的差异。

与现有技术相比，本发明的有益效果在于：本发明的基于全维动态卷积多融合对比网络的图像去噪方法在单尺度网络中引入了分组全维动态卷积，在保持轻量化的同时，自适应的学习每个样本的不同退化，增强了模型的去噪灵活性，保持了图像原有内容的结构信息。同时，在编解码网络中引入了残差单元、密集连接、跳跃连接以及多重对比注意力机制，在密集卷积层的学习能力和注意力层的筛选能力能获取良好特征的基础上，在捕获图像完整的语义信息的同时加强了图像信息的保留。最后，通过对比学习机制，不断缩小去噪子空间，有利于挖掘更接近干净图像的重建信息。本发明中极大地增强了神经网络模型的学习能力，建立起了噪声图像到干净图像的准确映射，从而实现对高斯白噪声和真实噪声图像的实时去噪。

在进一步的方案中，本发明还可以具有以下有益效果：

本发明搭建的基于全维动态卷积多融合对比网络模型中的每个卷积层后面的激活函数均选用LeakyReLU函数，在图像去噪任务中，图像像素的敏感性比较大，使用ReLU函数会损失掉很多细节信息，而LeakyReLU函数是ReLU函数的变体，其输出对负值输入有很小的坡度，解决了ReLU函数进入负区间后神经元不学习的问题，从而能使去噪后的结果能保留更多的细节。

本发明搭建的基于全维动态卷积多融合对比网络模型中的单尺度去噪过程中，采用不同卷积核交替进行特征提取的模式，这使得网络不需要再额外引入池化层就可以训练并有足够的能力去获得很好的去噪效果，从而避免因引入池化层使得参数减少而导致的模型去噪效果不理想，结果不精确等问题。

本发明搭建的基于全维动态卷积多融合对比网络模型采用单尺度与多尺度联合学习的方式进行去噪，极大减缓了重建图像的噪声残留问题和细节平滑问题。

本发明搭建的基于全维动态卷积多融合对比网络模型通过采用双重对比学习机制，衡量正样本和负样本与锚点的差异。使最终输出的去噪图像更加接近原始干净图像，更加远离重构不足的去噪图像，进一步减小了图像恢复过程中的解空间。

本发明搭建基于全维动态卷积多融合对比网络模型时，以最小化损失函数为目标，其中重建损失函数选为Charbonnier损失函数，将双重对比损失作为正则化项提高模型的泛化能力，在不断最小化损失函数的过程中来获得高的PSNR值。其中Charbonnier损失函数是另一种类似于L1损失的稳定的损失函数：

Charbonnier损失在接近零点的值的梯度由于常数ε的存在，梯度也不会太小，避免梯度消失；远离零点的值的梯度由于开方，梯度也不会太大，避免梯度爆炸。

因此总的损失函数为：

loss＝l_cb+γ₁l_cl+γ₂l_cl2

其中γ₁和γ₂为正则化系数。

附图说明

图1是本发明优选实施例的基于全维动态卷积多融合对比网络的图像去噪方法的流程图；

具体实施方式

下面对照附图和具体实施例对本发明作进一步的详细说明。对于以下实施例中的步骤编号，仅为了便于阐述说明而设置，下面所描述的实施例仅为本发明的一部分，不应理解为局限在上述方式的全部范例。

S01：数据预处理：对于真实噪声图像去噪，获取SIDD数据集中的320对图像用于训练，将原始每一张高分辨率图像对分别裁剪为20个大小为128×128的图像对。对于合成噪声图像去噪，获取DIV2K数据集中的800对图像用于训练，将原始每一张高分辨率图像对分别裁剪为50个大小为128×128的图像对，施加不同水平的高斯噪声形成噪声-图像对用于训练。然后将所有图像对写入lmdb进行键值对存储，以便训练时进行高速访问。在训练时，对数据集进行不同方向的旋转、翻转等数据增强操作，增强模型的泛化能力。基于注意力机制的渐进式编解码对比网络的训练参数包括每次输入模型训练的图像块数量、图像深度、网络学习率、图像噪声水平、网络训练轮数等。本发明中将噪声图像和干净图像分别分割成同一分辨率的图像块，其数量和大小都相同。由于本发明针对的是彩色图像去噪，因此图像深度设置为3，即3个通道，学习率初始设置为2×10^-4，每训练一个epoch进行一次验证，方便观察模型的效果以便更好的调整模型的相关参数。本发明选取Kodak24和CBSD68数据集作为合成图像测试集测试外加高斯白噪声图像的去噪效果，除此之外，采用RNI15、Real3、SIDD、DND数据集作为真实噪声图像数据集测试真实噪声图像的去噪效果。

S02：多尺度静态卷积去噪：利用编码器首先采用卷积降维操作去学习图像的映射关系及表达模式，在提取多尺度图像语义特征的同时，对数据进行压缩编码，去除图像噪声，再借助解码过程还原图片信息。所述编解码网络模型由三个上、下采样尺度组成，上采样操作由像素重组操作完成，下采样操作对应步长为2的转置卷积。网络每个尺度的模块包含提取全局特征的双重注意力模块和提取局部特征的残差密集块，以实现互补的图像先验建模能力。

S021：提取全局特征：在通道特征方面，利用平均池化和对比方差池化捕获空间全局信息，学习不同特征图通道之间的联系；在空间特征方面，利用平均池化和最大池化捕获通道全局信息，学习不同特征图空间之间的联系。

S022：提取局部特征：通过密集连接的卷积层提取丰富的局部特征。将前一个特征状态直接连接到当前残差密集块的所有层，从而形成一个连续的内存机制，并使用1×1的卷积操作作为一个局部融合操作，来自适应控制输出信息。

S03：单尺度全维动态卷积去噪：在原始分辨率图像上，采用多个不同卷积核组合的残差卷积网络交替进行特征提取，使得网络不需要再额外引入池化层就可以训练，并有足够的能力去获得很好的去噪效果，从而避免因引入池化层使得参数减少而导致的模型去噪效果不理想，结果不精确等问题。其中，所有卷积操作均为全维动态组卷积，通过分组学习卷积核不同维度之间的线性组合，来应对不同空间变化和通道相关的噪声样本输入，从而达到在高轻量化的同时进行有效的去噪推理。

S04：阶段特征融合：对多尺度去噪结果与单尺度去噪结果进行特征融合处理，从互补的角度权衡语义特征和细节特征的关系，互相学习两者的优势。

S05：对比学习机制：将单尺度与多尺度融合后的去噪图像作为锚点，将不带噪声的干净图像作为正样本，将单尺度和多尺度的去噪图像分别作为负样本1和负样本2，通过双重对比学习来衡量正样本和负样本与锚点的差异。使最终输出的去噪图像更加接近原始干净图像，更加远离重构不足的去噪图像，进一步减小了图像恢复过程中的解空间。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于全维动态卷积多融合对比网络的图像去噪方法，其特征在于，包括以下步骤：

S1：数据预处理：获取SIDD数据集中的320对图像用于真实噪声模型训练，以及DIV2K数据集中的800对图像用于合成噪声模型训练，将每一个全分辨率图像对分别随机切割为多个256×256的图像对，并将其写入1mdb进行键值对存储，以便训练时进行高速访问，在训练时，对数据集进行旋转、翻转等数据增强操作，增强模型的泛化能力。

S2：构建多尺度编解码架构：利用编码器首先采用卷积降维操作去学习图像的映射关系及表达模式，在提取多尺度图像语义特征的同时，对数据进行压缩编码，过滤图像噪声，再借助解码过程还原图片信息。

S3：多尺度编解码静态卷积去噪：将具有全局建模能力和局部建模能力的模块插入到编解码每个尺度中。在全局建模方面，利用平均池化和对比方差池化分别捕获空间和通道的全局信息，学习不同特征图通道和空间之间的联系。在局部建模方面：通过密集连接的卷积层提取丰富的局部特征。S4：构建单尺度残差架构，在原始分辨率图像上，采用带残差结构的卷积网络进行特征提取，以保留更多图像细节的目的达到去噪效果。

S5：单尺度全维动态卷积去噪：在单尺度去噪模块，所有卷积操作为全维动态组卷积，首先将输入进行分组，每组内在卷积核的数量、每个卷积核的大小、输入通道数量和输出通道数量方面，学习它们之间的线性组合，并将其与输入相关的注意力加权，来应对不同空间变化和通道相关的噪声，从而达到在高轻量化的同时进行有效的去噪推理。

S6：阶段特征融合：对多尺度去噪结果与单尺度去噪结果进行特征融合处理，从互补的角度权衡语义特征和细节特征的关系，互相学习两者的优势。

S7：对比学习机制：将单尺度与多尺度融合后的去噪图像作为锚点，将不带噪声的干净图像作为正样本，将单尺度和多尺度的去噪图像分别作为负样本1和负样本2，通过双重对比学习来衡量正样本和负样本与锚点的差异。

2.根据权利要求1所述的基于全维动态卷积多融合对比网络的图像去噪方法S1步骤，其特征在于，在真实噪声图像去噪方面，由于光圈和传感器的大小，智能手机会比单反相机产生更多的噪声，而SIDD数据集包含了由五种手机相机拍摄的噪声图像数据集，其中包含了噪声图像对应的干净图像，便于作为训练集学习真实噪声的分布。在合成噪声图像方面，DIV2K数据集包含的800张图像具有超高分辨率，便于对数据集进行分割与数据增强，有利于提高模型训练的泛化能力。

3.根据权利要求1所述的基于全维动态卷积多融合对比网络的图像去噪方法S2步骤，其特征在于，由于编码器与解码器的对称特性，在编码器对图像进行压缩编码和噪声去除后，有利于解码器在对应尺度进行重建处理，通过编解码器的强大分割能力，能有效处理各种空间噪声水平的噪声图像。

4.根据权利要求1所述的基于全维动态卷积多融合对比网络的图像去噪方法S3步骤，其特征在于，自然图像在相机的成像过程中与各通道的相关性以及空间像素的分布相关性很强。为了对特征图的重要通道和空间元素进行激活处理，挖掘图像中重要的细节、纹理和边缘信息，引入基于方差的对比池化注意力机制，提高根据图像中像素的离散程度，找出需要增强的特征，加强模型的全局建模能力。同时，在卷积操作与激活操作的深度联合学习下，深层特征与浅层特征的关联度逐渐降低，利用残差密集块，加强浅层特征对深层特征的复用，加强模型的全局建模能力，便于重建细节更丰富的去噪图像。

5.根据权利要求1所述的基于全维动态卷积多融合对比网络的图像去噪方法S4步骤，其特征在于，单尺度去噪的关键在于提高感受野的大小，尽可能通过多层的局部操作取得一个良好的全局效果。扩张卷积能够在不引入额外参数量的情况下在卷积核间增加适当空隙，从而捕获更全面的特征，重构更具细节的干净图像。

6.根据权利要求1所述的基于全维动态卷积多融合对比网络的图像去噪方法S5步骤，其特征在于，利用动态机制，分别学习卷积核的数量、每个卷积核的大小、输入通道数量和输出通道数量各自的线性组合，使神经网络的权重具有样本自适应性，有利于去除图像中含有的相机真实产生的噪声。

7.根据权利要求1所述的基于全维动态卷积多融合对比网络的图像去噪方法S7步骤，其特征在于，通过对比学习，对上述训练的模型进行微调处理，能够进一步缩小去噪任务中的解空间，与将噪声图像作为负样本相比，将单一网络重建后的去噪图像作为负样本有利于缩小去噪结果的下界。而采用双重对比学习能够在两类负样本中取得权衡，以重建语义和细节丰富的去噪图像。对于对比学习的计算，使用预先训练好的VGG19模型分别提取相应的中间特征。为了使锚点的特征嵌入更接近于正样本的特征嵌入，而不是负样本的特征嵌入，将对比损失表示为：

其中，为VGG19预训练模型中的第i层，特征，M是总的隐藏层数量，N是训练样本的数量，/>是第i层的权重，F_t、F_f、F_o分别为正样本、负样本和目标样本的特征。

8.一种基于全维动态卷积多融合对比网络的图像去噪方法，包括：

多尺度编解码静态卷积模块，在通道和空间注意力机制协同捕获全局特征和残差密集块捕获局部特征的帮助下，将其作为主要构建块插入编解码器的主干网络中，以学习多尺度全局和局部特征。

单尺度全维动态卷积模块，在原始分辨率图像上，利用不同卷积核的协同作用，来应对不同空间位置和通道相关的噪声，在高轻量化的同时，以保留更多图像细节的目的达到去噪效果。

阶段特征融合模块，对多尺度去噪结果与单尺度去噪结果进行特征融合处理，学习两种网络架构去噪的优势。

双重对比学习机制，通过双重对比学习来衡量正样本和负样本与锚点的差异。使最终输出的去噪图像更加接近原始干净图像，更加远离重构不足的去噪图像。