CN116543168A

CN116543168A - 一种基于多维度图像信息融合的垃圾图像去噪方法

Info

Publication number: CN116543168A
Application number: CN202310284080.7A
Authority: CN
Inventors: 田春伟; 肖景钰; 高浩洋
Original assignee: Northwestern Polytechnical University; Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-08-04

Abstract

本发明提供了一种基于多维度图像信息融合的垃圾图像去噪方法，分别使用两个子网络对二维图像和三维图像进行互补信息提取，获取更多图像细节特征，引入动态自注意力模块削减二维图像噪声，其中动态卷积自适应地学习不同输入垃圾图像的动态噪声特征，并利用自注意力机制定位动态噪声特征中的显著性前景信息，抑制不重要背景信息；引入基于自适应稀疏机制的Transformer，对三维垃圾图像信息的远距离依赖关系进行建模，构建自适应稀疏机制。本发明克服卷积神经网络感受野局限性，降低Transformer自注意力运算量，通过二维与三维图像特征融合，能很好改善对垃圾图像去噪效果，提升后续垃圾分类、检测等任务的精确度。

Description

一种基于多维度图像信息融合的垃圾图像去噪方法

技术领域

本发明涉及图像处理与计算机视觉领域，尤其涉及一种基于融合卷积神经网络的图像去噪方法。

背景技术

图像去噪技术用于去除图像中存在的噪声信息，还原干净图像，促进图像处理应用的推广。经典的图像去噪方法利用图像中的冗余信息或图像域变换等方式遏制噪声，还原图像。例如，非局部像相似性方法利用了整幅图像来去噪，以图像块为单位在图像中寻找相似区域，再对这些区域求平均，能够比较好的去掉图像中存在的高斯噪声。其中干净图像中像素的估计值由图像中与它具有相似邻域结构的像素加权平均得到。而基于变换域的处理方法主要依赖于噪声信号与图像信号在频域内的差异性，对两种信号进行分离。以频域为例，图像的轮廓、边缘和噪声等分量在频域内对应高频部分，大面积背景区域则对应频域低频部分。根据对应频率特性进行协同滤波能进行有效去噪。然而，这些传统方法面临去噪速率不高且需要手动调参以适应不同噪声等挑战。

基于深度学习的方式能较好地解决这些问题。深度学习具有自动图像特征提取和学习的特性，可以较好地对噪声进行拟合，而且能降低去噪时间。基于深度学习的图像去噪方法采用多种神经网络架构提升特征表达能力，如残差网络、生成对抗网络和图神经网络等。其中，基于残差网络的去噪方法通过跳跃连接，解决深度网络的梯度消失问题，并且将浅层噪声信息与深层语义特征相连，每层网络学习只需要学习较少内容，降低优化难度。基于残差网络的去噪方法能够明显增大模型深度，提高表达能力，但多次使用跳跃连接容易导致模型出现过拟合问题。基于生成对抗网络的去噪方法包括两个模型。其中一个是生成模型，负责对噪声图像上的噪声信息进行提取，生成干净图像；另一个是判别模型，负责判断模型生成的干净噪声是否足够真实。生成模型和判别模型不断迭代地进行对抗学习，最终达到理想状态。基于生成对抗网络去噪方法的对抗学习策略能够较好地拟合图像噪声分布，然而模型训练存在难度，训练方式不够稳定。基于图神经网络的方法首先对于每一个像素点，计算在特征空间内与其他像素点的欧氏距离，构造K近邻图。然后对根据每个像素点最近的K个像素，利用边缘条件卷积的方式聚合成干净的图像。这种网络化拓扑结构适用于密集噪声分布，但拓扑结构复杂，同样存在训练困难的问题。以上方法在一般场景下具有较好效果，但在垃圾图像去噪方便存在挑战。垃圾图像具有本身背景环境杂乱、光照昏暗等特点，直接运用这些架构不能取得明显效果。因此，提出一种适用于垃圾图像场景下的图像去噪方法具有重要性。

发明内容

为了克服现有技术的不足，本发明提供一种基于多维度图像信息融合的垃圾图像去噪方法，实现通过多维度图像信息融合进行垃圾图像去噪。本发明主要从三方面实现提高垃圾图像去噪效果：引入二维图像与三维图像信息融合机制，不同于现有的基于二维图像去噪方法，本发明能够分别使用两个子网络对二维图像和三维图像进行互补信息提取，获取更多图像细节特征，最终提升对二维图片的去噪性能；引入动态自注意力模块削减二维图像噪声，其中动态卷积自适应地学习不同输入垃圾图像的动态噪声特征，并利用自注意力机制定位动态噪声特征中的显著性前景信息，抑制不重要背景信息；引入基于自适应稀疏机制的Transformer，对三维垃圾图像信息的远距离依赖关系进行建模，充分利用三维图像的丰富信息还原图像细节。此外，构建自适应稀疏机制，解决稀疏Transformer需要手动选取稀疏节点数量的问题，降低引入Transformer模型带来的计算量的提升，同时最大化筛选出向量序列的显著性。因此，本发明具有研究意义和现实意义。

一种基于多维度图像信息融合的垃圾图像去噪方法，具体步骤如下：

步骤1：将二维训练数据集进行维度转换，转换为三维训练数据集；

步骤2：将二维训练数据集输入动态自注意力模块，并通过动态自注意力模块，提取二维垃圾噪声特征；

步骤3：将步骤1获得的三维训练数据集输入基于自适应稀疏机制的Transformer网络，通过基于自适应稀疏机制的Transformer网络，提取三维训练数据集的三维垃圾噪声特征；

步骤4：将步骤3获得的三维垃圾噪声特征进行维度转换，转换为二维数据，二维数据与步骤2获得的二维垃圾噪声特征进行融合；

步骤5：将步骤4融合后的噪声输入融合网络，通过残差计算，获得干净垃圾图像；残差计算为将二维噪声图像与融合网络三个卷积处理层的输出进行相减操作；

步骤6：通过损失函数计算步骤5获取的输出图像与干净标签垃圾图像的损失，不断优化模型参数，直至所得误差达到任务要求精度范围内即可，得到优化后的去噪模型；

步骤7：将待去噪垃圾图像输入步骤6优化后的去噪模型，即可得到去噪后的干净图像。

所述基于自适应稀疏机制的Transformer网络，接收到三维训练数据集后，将3D图像块输入线性映射层，线性映射层将三维垃圾图像块映射为特征向量，特征向量进入位置嵌入层，位置嵌入层为垃圾图像远距离依赖关系提供输入序列的线索，输出携带位置信息的特征向量序列，带有位置信息的特征向量依次通过6个基于自适应稀疏Transformer子模块，即可提取得到三维训练数据集的三维垃圾噪声特征。

所述Transformer子模块包括2个层归一化、1个多头自注意力层、多层线性感知机MLP和自适应稀疏机制，将输入做层归一化，然后将归一化后的向量序列复制为三份，分别得到三个注意力输入查询向量序列Q、键值向量序列K和内容向量序列V，同时将归一化后的向量序列输入全连接层，以获取用于稀疏机制的位置偏移向量，配合另行定义的可学习参数D作为稀疏机制显著性向量数目，位置偏移向量、可学习参数D、键值向量序列K和内容向量序列V经过稀疏转换获得稀疏键值向量序列和稀疏内容向量序列，接着将查询向量序列Q、稀疏键值向量序列与稀疏内容向量序列输入多头自注意力块，使模型学习图像内部长距离依赖，所得多头自注意力块输出与层归一化输出进行残差相加，以降低模型训练难度；所得残差结果再用输入层归一化和多层线性感知机，并再次与上一个残差结果进行残差相加，从而得到最终输出。

本发明还提供一种动态自注意力模块，所述动态自注意力模块为4个依次连接的动态自注意力子模块，4个动态自注意力子模块顺序相连，每个自注意力子模块包含1个动态卷积处理层、2个卷积处理层和1个单一卷积层；将特征图依次输入动态卷积处理层、先后2个卷积处理层和单一卷积层，然后将卷积权重取出，分别做空间归一化和通道归一化，分别获得卷积权重空间注意力矩阵与卷积权重通道注意力向量，所述空间注意力矩阵与通道注意力向量分别按照对应空间维度与通道维度，与卷积输出的特征图进行点乘，分别获取空间自注意力结果与通道自注意力结果，最后将空间自注意力结果与通道自注意力结果相加，获得动态自注意力模块输出结果。

所述动态卷积处理层包括动态卷积层、批归一化(Batch Normalization,BN)和自适应参数整流线性单元(Adaptively Parametric Rectifier Linear Units，APReLU)。

本发明的有益效果在于针对垃圾图像去噪背景下，在二维去噪过程的基础上，引入了高维度噪声图像信息，并分别学习二维和三维图像噪声信息，并将互补的不同维度信息进行融合，最终提高垃圾图像噪声去除能力，从而提升后续垃圾分类、检测等任务的精确度；本发明模型架构采取了卷积神经网络与Transformer相结合的方式，既利用卷积神经网络对于结构性信息的优点，也利用了Transformer远距离建模的优势；采取基于自适应稀疏机制的Transformer网络，其中，自适应稀疏机制可以提高模型稀疏机制对重要特征向量的选取自由，并能更加自适应地确定显著性向量数目，从而更加灵活地降低Transformer在高维特征提取过程需要的大量计算量，提高运行效率；动态自注意力网络模型从二维垃圾图像中提取丰富的鲁棒性前景噪声信息，不同于基于特征图的注意力机制，本发明采用基于网络权重的注意力机制，能显著提升注意力特征的鲁棒性。

附图说明

图1为本发明整体流程图。

图2为本发明所提出的垃圾图像去噪模型框架图。

图3为本发明所提出的动态自注意力子模块结构图。

图4为本发明所提出的基于自适应稀疏机制Transformer子模块结构图。

图5为本发明待处理垃圾噪声图像。

图6为本发明生成的三维垃圾噪声图像。

图7为本发明去噪流程的实施例的示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明为一种基于多维度图像信息融合的垃圾图像去噪方法，如图1和图2所示，具体步骤如下：

本发明还提供一种基于自适应稀疏机制的Transformer网络，所述的基于自适应机制的Transformer网络如图2所示，接收到三维训练数据集后，将3D图像块输入线性映射层，线性映射层将三维垃圾图像块映射为特征向量，特征向量进入位置嵌入层，位置嵌入层为垃圾图像远距离依赖关系提供输入序列的线索，输出携带位置信息的特征向量序列，带有位置信息的特征向量依次通过6个基于自适应稀疏Transformer子模块，即可提取得到三维训练数据集的三维垃圾噪声特征。

现有的基于稀疏机制的Transformer通过对键值向量序列筛选出D个重要特征向量作为全局特征向量的替代。然而D值的选取有人工决定、且选取的向量是按照均匀间隔分布，这限制了稀疏机制的灵活性。本发明利用输入特征学习的D值和特征向量位置偏移量，提高模型对重要特征向量的选取自由，并能更加自适应地确定D值，提高运行效率。

所述Transformer子模块包括2个层归一化、1个多头自注意力层、多层线性感知机MLP和自适应系数机制，将输入做层归一化，然后将归一化后的向量序列复制为三份，分别得到三个注意力输入查询向量序列Q、键值向量序列K和内容向量序列V，同时将归一化后的向量序列输入全连接层，以获取用于稀疏机制的位置偏移向量，配合另行定义的可学习参数D作为稀疏机制显著性向量数目，位置偏移向量、可学习参数D、键值向量序列K和内容向量序列V经过稀疏转换获得稀疏键值向量序列和稀疏内容向量序列，接着将查询向量序列Q、稀疏键值向量序列与稀疏内容向量序列输入多头自注意力块，使模型学习图像内部长距离依赖，所得多头自注意力块输出与层归一化输出进行残差相加，以降低模型训练难度；所得残差结果再用输入层归一化和多层线性感知机，并再次与上一个残差结果进行残差相加，从而得到最终输出。

本发明还提供一种动态自注意力模块，所述动态自注意力模块为4个依次连接的动态自注意力子模块，4个动态自注意力子模块顺序相连，每个自注意力子模块包含1个动态卷积处理层、2个卷积处理层和1个单一卷积层；将特征图依次输入动态卷积处理层、先后2个卷积处理层和单一卷积层，然后将卷积权重取出，分别做空间归一化和通道归一化，分别获得卷积权重空间注意力矩阵与卷积权重通道注意力向量，所述空间注意力矩阵与通道注意力向量分别按照对应空间维度与通道维度，与卷积输出的特征图进行点乘，分别获取空间自注意力结果与通道自注意力结果，最后将空间自注意力结果与通道自注意力结果相加，获得最终输出结果。

所述动态卷积处理层包括动态卷积层、批归一化(Batch Normalization,BN)和自适应参数整流线性单元(Adaptively Parametric Rectifier Linear Units，APReLU)；动态卷积处理层用于提高对垃圾图像形态多变前景的应对能力，通过对不同垃圾图像特征信息针对性提取，增强提取特征的鲁棒性；BN为深度学习常用归一化方式，通过将特征图归一化，预防梯度消失现象，减少模型收敛时间；APReLU采取了可学习斜率参数，大大增强了激活函数的非线性性，增强模型表达能力。普通卷积处理层包括卷积、BN和APReLU,用于加深网络深度，提高噪声特征精炼程度。单一卷积层包括一层卷积，用于实现自注意力机制。不同于基于特征图的自注意力机制，本发明采用卷积层的权重分别通过空间和通道归一化，得到空间注意力和通道注意力权重。其中空间归一化是指将卷积权重同一空间位置、不同通道上的权重相加，然后对所有位置的权重和进行归一化；通道归一化是指将卷积权重同一通道、不同空间位置的权重相加，然后对所有通道的权重和进行归一化。两种注意力分别对特征图进行引导并融合，以使模型同时关注在空间位置和通道上的重要信息，实现从复杂垃圾图像环境中分离前景与背景的目的。所提取噪声特征通过逐层动态自注意力模块不断深化，最终获取显著性噪声信息。

本发明提出的垃圾图像去噪方法需要先对所提出的模型进行训练，然后利用训练后的模型对噪声垃圾图像进行去噪。对于模型训练阶段，根据提出方法特性，需要进行相应的数据准备、特征提取和模型参数优化过程。首先，需要将二维垃圾噪声图像进行维度转换，获得三维垃圾噪声图像。然后分别用动态自注意力模块和基于自适应稀疏机制的Transformer网络，提取二维和三维垃圾噪声特征，之后模型融合不同维度特征并获得去噪图像。根据生成去噪图像计算损失以此优化模型参数。对于训练后阶段，仅需将数据进行相同转换并输入训练好的模型即可。

本发明提出的网络模型包含两个相互配合的子网络模型：动态自注意力模块和基于自适应稀疏机制的Transformer网络，其中动态自注意力网络模型从二维垃圾图像中提取丰富的鲁棒性前景噪声信息，基于自适应稀疏机制的Transformer网络从三维垃圾图像中学习三维垃圾噪声特征。此外，为将两种噪声特征融合，本发明提出模型设置了融合网络，以最终提高垃圾图像噪声去除能力。

两个子网络模型(动态自注意力模块和基于自适应稀疏机制的Transformer网络)分别获取二维和三维垃圾图像噪声信息，通过融合网络进行融合。二者特征互补，融合后的特征图与单维度特征相比，具有显著丰富特征。融合网络包含3个卷积处理层，每个处理层包括卷积、BN和APReLU。最后通过残差操作获取干净垃圾图像。

模型训练完毕之后，将待去噪垃圾图像通过转换生成三维垃圾图像，分别输入两个子网络模型，维度转换过程通过多种开源工具如3D Build等实现，获得高维度丰富信息，将图像分别输入训练后整体模型后，模型输出即为去噪结果。

实施例如下：

(1)获取待去噪垃圾噪声图像，如图5所示：

(2)根据二维待去噪垃圾噪声图像，生成三维垃圾噪声图像，如图6所示：

(3)加载训练后网络模型。

(4)将二维和三维垃圾图像分别输入动态自注意力网络和基于自适应稀疏机制的Transformer网络，模型输出即为干净垃圾图像，示例过程如图7所示。其中，图7左侧下方的图像为二维垃圾噪声图像，图7左侧上方的图像为三维垃圾噪声图像，二维垃圾噪声图像和三维垃圾噪声图像分别输入两个子网络模型；然后训练好的模型对两张噪声图进行去噪处理；最后模型输出干净垃圾噪声图像，得到图7右侧所示的干净图像。

Claims

1.一种基于多维度图像信息融合的垃圾图像去噪方法，其特征在于包括下述步骤：

2.一种根据权利要求1所述基于多维度图像信息融合的垃圾图像去噪方法的Transformer网络，其特征在于：

3.根据权利要求2所述的Transformer网络，其特征在于：

4.一种根据权利要求1所述的基于多维度图像信息融合的垃圾图像去噪方法的动态自注意力模块，其特征在于：

所述动态自注意力模块为4个依次连接的动态自注意力子模块，4个动态自注意力子模块顺序相连，每个自注意力子模块包含1个动态卷积处理层、2个卷积处理层和1个单一卷积层；将特征图依次输入动态卷积处理层、先后2个卷积处理层和单一卷积层，然后将卷积权重取出，分别做空间归一化和通道归一化，分别获得卷积权重空间注意力矩阵与卷积权重通道注意力向量，所述空间注意力矩阵与通道注意力向量分别按照对应空间维度与通道维度，与卷积输出的特征图进行点乘，分别获取空间自注意力结果与通道自注意力结果，最后将空间自注意力结果与通道自注意力结果相加，获得动态自注意力模块输出结果。

5.根据权利要求4所述的基于多维度图像信息融合的垃圾图像去噪方法的动态自注意力模块，其特征在于：

所述动态卷积处理层包括动态卷积层、批归一化和自适应参数整流线性单元。