CN116543168A - 一种基于多维度图像信息融合的垃圾图像去噪方法 - Google Patents
一种基于多维度图像信息融合的垃圾图像去噪方法 Download PDFInfo
- Publication number
- CN116543168A CN116543168A CN202310284080.7A CN202310284080A CN116543168A CN 116543168 A CN116543168 A CN 116543168A CN 202310284080 A CN202310284080 A CN 202310284080A CN 116543168 A CN116543168 A CN 116543168A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- attention
- garbage
- image
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 title claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 72
- 238000012549 training Methods 0.000 claims description 35
- 238000010606 normalization Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 23
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于多维度图像信息融合的垃圾图像去噪方法,分别使用两个子网络对二维图像和三维图像进行互补信息提取,获取更多图像细节特征,引入动态自注意力模块削减二维图像噪声,其中动态卷积自适应地学习不同输入垃圾图像的动态噪声特征,并利用自注意力机制定位动态噪声特征中的显著性前景信息,抑制不重要背景信息;引入基于自适应稀疏机制的Transformer,对三维垃圾图像信息的远距离依赖关系进行建模,构建自适应稀疏机制。本发明克服卷积神经网络感受野局限性,降低Transformer自注意力运算量,通过二维与三维图像特征融合,能很好改善对垃圾图像去噪效果,提升后续垃圾分类、检测等任务的精确度。
Description
技术领域
本发明涉及图像处理与计算机视觉领域,尤其涉及一种基于融合卷积神经网络的图像去噪方法。
背景技术
图像去噪技术用于去除图像中存在的噪声信息,还原干净图像,促进图像处理应用的推广。经典的图像去噪方法利用图像中的冗余信息或图像域变换等方式遏制噪声,还原图像。例如,非局部像相似性方法利用了整幅图像来去噪,以图像块为单位在图像中寻找相似区域,再对这些区域求平均,能够比较好的去掉图像中存在的高斯噪声。其中干净图像中像素的估计值由图像中与它具有相似邻域结构的像素加权平均得到。而基于变换域的处理方法主要依赖于噪声信号与图像信号在频域内的差异性,对两种信号进行分离。以频域为例,图像的轮廓、边缘和噪声等分量在频域内对应高频部分,大面积背景区域则对应频域低频部分。根据对应频率特性进行协同滤波能进行有效去噪。然而,这些传统方法面临去噪速率不高且需要手动调参以适应不同噪声等挑战。
基于深度学习的方式能较好地解决这些问题。深度学习具有自动图像特征提取和学习的特性,可以较好地对噪声进行拟合,而且能降低去噪时间。基于深度学习的图像去噪方法采用多种神经网络架构提升特征表达能力,如残差网络、生成对抗网络和图神经网络等。其中,基于残差网络的去噪方法通过跳跃连接,解决深度网络的梯度消失问题,并且将浅层噪声信息与深层语义特征相连,每层网络学习只需要学习较少内容,降低优化难度。基于残差网络的去噪方法能够明显增大模型深度,提高表达能力,但多次使用跳跃连接容易导致模型出现过拟合问题。基于生成对抗网络的去噪方法包括两个模型。其中一个是生成模型,负责对噪声图像上的噪声信息进行提取,生成干净图像;另一个是判别模型,负责判断模型生成的干净噪声是否足够真实。生成模型和判别模型不断迭代地进行对抗学习,最终达到理想状态。基于生成对抗网络去噪方法的对抗学习策略能够较好地拟合图像噪声分布,然而模型训练存在难度,训练方式不够稳定。基于图神经网络的方法首先对于每一个像素点,计算在特征空间内与其他像素点的欧氏距离,构造K近邻图。然后对根据每个像素点最近的K个像素,利用边缘条件卷积的方式聚合成干净的图像。这种网络化拓扑结构适用于密集噪声分布,但拓扑结构复杂,同样存在训练困难的问题。以上方法在一般场景下具有较好效果,但在垃圾图像去噪方便存在挑战。垃圾图像具有本身背景环境杂乱、光照昏暗等特点,直接运用这些架构不能取得明显效果。因此,提出一种适用于垃圾图像场景下的图像去噪方法具有重要性。
发明内容
为了克服现有技术的不足,本发明提供一种基于多维度图像信息融合的垃圾图像去噪方法,实现通过多维度图像信息融合进行垃圾图像去噪。本发明主要从三方面实现提高垃圾图像去噪效果:引入二维图像与三维图像信息融合机制,不同于现有的基于二维图像去噪方法,本发明能够分别使用两个子网络对二维图像和三维图像进行互补信息提取,获取更多图像细节特征,最终提升对二维图片的去噪性能;引入动态自注意力模块削减二维图像噪声,其中动态卷积自适应地学习不同输入垃圾图像的动态噪声特征,并利用自注意力机制定位动态噪声特征中的显著性前景信息,抑制不重要背景信息;引入基于自适应稀疏机制的Transformer,对三维垃圾图像信息的远距离依赖关系进行建模,充分利用三维图像的丰富信息还原图像细节。此外,构建自适应稀疏机制,解决稀疏Transformer需要手动选取稀疏节点数量的问题,降低引入Transformer模型带来的计算量的提升,同时最大化筛选出向量序列的显著性。因此,本发明具有研究意义和现实意义。
一种基于多维度图像信息融合的垃圾图像去噪方法,具体步骤如下:
步骤1:将二维训练数据集进行维度转换,转换为三维训练数据集;
步骤2:将二维训练数据集输入动态自注意力模块,并通过动态自注意力模块,提取二维垃圾噪声特征;
步骤3:将步骤1获得的三维训练数据集输入基于自适应稀疏机制的Transformer网络,通过基于自适应稀疏机制的Transformer网络,提取三维训练数据集的三维垃圾噪声特征;
步骤4:将步骤3获得的三维垃圾噪声特征进行维度转换,转换为二维数据,二维数据与步骤2获得的二维垃圾噪声特征进行融合;
步骤5:将步骤4融合后的噪声输入融合网络,通过残差计算,获得干净垃圾图像;残差计算为将二维噪声图像与融合网络三个卷积处理层的输出进行相减操作;
步骤6:通过损失函数计算步骤5获取的输出图像与干净标签垃圾图像的损失,不断优化模型参数,直至所得误差达到任务要求精度范围内即可,得到优化后的去噪模型;
步骤7:将待去噪垃圾图像输入步骤6优化后的去噪模型,即可得到去噪后的干净图像。
所述基于自适应稀疏机制的Transformer网络,接收到三维训练数据集后,将3D图像块输入线性映射层,线性映射层将三维垃圾图像块映射为特征向量,特征向量进入位置嵌入层,位置嵌入层为垃圾图像远距离依赖关系提供输入序列的线索,输出携带位置信息的特征向量序列,带有位置信息的特征向量依次通过6个基于自适应稀疏Transformer子模块,即可提取得到三维训练数据集的三维垃圾噪声特征。
所述Transformer子模块包括2个层归一化、1个多头自注意力层、多层线性感知机MLP和自适应稀疏机制,将输入做层归一化,然后将归一化后的向量序列复制为三份,分别得到三个注意力输入查询向量序列Q、键值向量序列K和内容向量序列V,同时将归一化后的向量序列输入全连接层,以获取用于稀疏机制的位置偏移向量,配合另行定义的可学习参数D作为稀疏机制显著性向量数目,位置偏移向量、可学习参数D、键值向量序列K和内容向量序列V经过稀疏转换获得稀疏键值向量序列和稀疏内容向量序列,接着将查询向量序列Q、稀疏键值向量序列与稀疏内容向量序列输入多头自注意力块,使模型学习图像内部长距离依赖,所得多头自注意力块输出与层归一化输出进行残差相加,以降低模型训练难度;所得残差结果再用输入层归一化和多层线性感知机,并再次与上一个残差结果进行残差相加,从而得到最终输出。
本发明还提供一种动态自注意力模块,所述动态自注意力模块为4个依次连接的动态自注意力子模块,4个动态自注意力子模块顺序相连,每个自注意力子模块包含1个动态卷积处理层、2个卷积处理层和1个单一卷积层;将特征图依次输入动态卷积处理层、先后2个卷积处理层和单一卷积层,然后将卷积权重取出,分别做空间归一化和通道归一化,分别获得卷积权重空间注意力矩阵与卷积权重通道注意力向量,所述空间注意力矩阵与通道注意力向量分别按照对应空间维度与通道维度,与卷积输出的特征图进行点乘,分别获取空间自注意力结果与通道自注意力结果,最后将空间自注意力结果与通道自注意力结果相加,获得动态自注意力模块输出结果。
所述动态卷积处理层包括动态卷积层、批归一化(Batch Normalization,BN)和自适应参数整流线性单元(Adaptively Parametric Rectifier Linear Units,APReLU)。
本发明的有益效果在于针对垃圾图像去噪背景下,在二维去噪过程的基础上,引入了高维度噪声图像信息,并分别学习二维和三维图像噪声信息,并将互补的不同维度信息进行融合,最终提高垃圾图像噪声去除能力,从而提升后续垃圾分类、检测等任务的精确度;本发明模型架构采取了卷积神经网络与Transformer相结合的方式,既利用卷积神经网络对于结构性信息的优点,也利用了Transformer远距离建模的优势;采取基于自适应稀疏机制的Transformer网络,其中,自适应稀疏机制可以提高模型稀疏机制对重要特征向量的选取自由,并能更加自适应地确定显著性向量数目,从而更加灵活地降低Transformer在高维特征提取过程需要的大量计算量,提高运行效率;动态自注意力网络模型从二维垃圾图像中提取丰富的鲁棒性前景噪声信息,不同于基于特征图的注意力机制,本发明采用基于网络权重的注意力机制,能显著提升注意力特征的鲁棒性。
附图说明
图1为本发明整体流程图。
图2为本发明所提出的垃圾图像去噪模型框架图。
图3为本发明所提出的动态自注意力子模块结构图。
图4为本发明所提出的基于自适应稀疏机制Transformer子模块结构图。
图5为本发明待处理垃圾噪声图像。
图6为本发明生成的三维垃圾噪声图像。
图7为本发明去噪流程的实施例的示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明为一种基于多维度图像信息融合的垃圾图像去噪方法,如图1和图2所示,具体步骤如下:
步骤1:将二维训练数据集进行维度转换,转换为三维训练数据集;
步骤2:将二维训练数据集输入动态自注意力模块,并通过动态自注意力模块,提取二维垃圾噪声特征;
步骤3:将步骤1获得的三维训练数据集输入基于自适应稀疏机制的Transformer网络,通过基于自适应稀疏机制的Transformer网络,提取三维训练数据集的三维垃圾噪声特征;
步骤4:将步骤3获得的三维垃圾噪声特征进行维度转换,转换为二维数据,二维数据与步骤2获得的二维垃圾噪声特征进行融合;
步骤5:将步骤4融合后的噪声输入融合网络,通过残差计算,获得干净垃圾图像;残差计算为将二维噪声图像与融合网络三个卷积处理层的输出进行相减操作;
步骤6:通过损失函数计算步骤5获取的输出图像与干净标签垃圾图像的损失,不断优化模型参数,直至所得误差达到任务要求精度范围内即可,得到优化后的去噪模型;
步骤7:将待去噪垃圾图像输入步骤6优化后的去噪模型,即可得到去噪后的干净图像。
本发明还提供一种基于自适应稀疏机制的Transformer网络,所述的基于自适应机制的Transformer网络如图2所示,接收到三维训练数据集后,将3D图像块输入线性映射层,线性映射层将三维垃圾图像块映射为特征向量,特征向量进入位置嵌入层,位置嵌入层为垃圾图像远距离依赖关系提供输入序列的线索,输出携带位置信息的特征向量序列,带有位置信息的特征向量依次通过6个基于自适应稀疏Transformer子模块,即可提取得到三维训练数据集的三维垃圾噪声特征。
现有的基于稀疏机制的Transformer通过对键值向量序列筛选出D个重要特征向量作为全局特征向量的替代。然而D值的选取有人工决定、且选取的向量是按照均匀间隔分布,这限制了稀疏机制的灵活性。本发明利用输入特征学习的D值和特征向量位置偏移量,提高模型对重要特征向量的选取自由,并能更加自适应地确定D值,提高运行效率。
所述Transformer子模块包括2个层归一化、1个多头自注意力层、多层线性感知机MLP和自适应系数机制,将输入做层归一化,然后将归一化后的向量序列复制为三份,分别得到三个注意力输入查询向量序列Q、键值向量序列K和内容向量序列V,同时将归一化后的向量序列输入全连接层,以获取用于稀疏机制的位置偏移向量,配合另行定义的可学习参数D作为稀疏机制显著性向量数目,位置偏移向量、可学习参数D、键值向量序列K和内容向量序列V经过稀疏转换获得稀疏键值向量序列和稀疏内容向量序列,接着将查询向量序列Q、稀疏键值向量序列与稀疏内容向量序列输入多头自注意力块,使模型学习图像内部长距离依赖,所得多头自注意力块输出与层归一化输出进行残差相加,以降低模型训练难度;所得残差结果再用输入层归一化和多层线性感知机,并再次与上一个残差结果进行残差相加,从而得到最终输出。
本发明还提供一种动态自注意力模块,所述动态自注意力模块为4个依次连接的动态自注意力子模块,4个动态自注意力子模块顺序相连,每个自注意力子模块包含1个动态卷积处理层、2个卷积处理层和1个单一卷积层;将特征图依次输入动态卷积处理层、先后2个卷积处理层和单一卷积层,然后将卷积权重取出,分别做空间归一化和通道归一化,分别获得卷积权重空间注意力矩阵与卷积权重通道注意力向量,所述空间注意力矩阵与通道注意力向量分别按照对应空间维度与通道维度,与卷积输出的特征图进行点乘,分别获取空间自注意力结果与通道自注意力结果,最后将空间自注意力结果与通道自注意力结果相加,获得最终输出结果。
所述动态卷积处理层包括动态卷积层、批归一化(Batch Normalization,BN)和自适应参数整流线性单元(Adaptively Parametric Rectifier Linear Units,APReLU);动态卷积处理层用于提高对垃圾图像形态多变前景的应对能力,通过对不同垃圾图像特征信息针对性提取,增强提取特征的鲁棒性;BN为深度学习常用归一化方式,通过将特征图归一化,预防梯度消失现象,减少模型收敛时间;APReLU采取了可学习斜率参数,大大增强了激活函数的非线性性,增强模型表达能力。普通卷积处理层包括卷积、BN和APReLU,用于加深网络深度,提高噪声特征精炼程度。单一卷积层包括一层卷积,用于实现自注意力机制。不同于基于特征图的自注意力机制,本发明采用卷积层的权重分别通过空间和通道归一化,得到空间注意力和通道注意力权重。其中空间归一化是指将卷积权重同一空间位置、不同通道上的权重相加,然后对所有位置的权重和进行归一化;通道归一化是指将卷积权重同一通道、不同空间位置的权重相加,然后对所有通道的权重和进行归一化。两种注意力分别对特征图进行引导并融合,以使模型同时关注在空间位置和通道上的重要信息,实现从复杂垃圾图像环境中分离前景与背景的目的。所提取噪声特征通过逐层动态自注意力模块不断深化,最终获取显著性噪声信息。
本发明提出的垃圾图像去噪方法需要先对所提出的模型进行训练,然后利用训练后的模型对噪声垃圾图像进行去噪。对于模型训练阶段,根据提出方法特性,需要进行相应的数据准备、特征提取和模型参数优化过程。首先,需要将二维垃圾噪声图像进行维度转换,获得三维垃圾噪声图像。然后分别用动态自注意力模块和基于自适应稀疏机制的Transformer网络,提取二维和三维垃圾噪声特征,之后模型融合不同维度特征并获得去噪图像。根据生成去噪图像计算损失以此优化模型参数。对于训练后阶段,仅需将数据进行相同转换并输入训练好的模型即可。
本发明提出的网络模型包含两个相互配合的子网络模型:动态自注意力模块和基于自适应稀疏机制的Transformer网络,其中动态自注意力网络模型从二维垃圾图像中提取丰富的鲁棒性前景噪声信息,基于自适应稀疏机制的Transformer网络从三维垃圾图像中学习三维垃圾噪声特征。此外,为将两种噪声特征融合,本发明提出模型设置了融合网络,以最终提高垃圾图像噪声去除能力。
两个子网络模型(动态自注意力模块和基于自适应稀疏机制的Transformer网络)分别获取二维和三维垃圾图像噪声信息,通过融合网络进行融合。二者特征互补,融合后的特征图与单维度特征相比,具有显著丰富特征。融合网络包含3个卷积处理层,每个处理层包括卷积、BN和APReLU。最后通过残差操作获取干净垃圾图像。
模型训练完毕之后,将待去噪垃圾图像通过转换生成三维垃圾图像,分别输入两个子网络模型,维度转换过程通过多种开源工具如3D Build等实现,获得高维度丰富信息,将图像分别输入训练后整体模型后,模型输出即为去噪结果。
实施例如下:
(1)获取待去噪垃圾噪声图像,如图5所示:
(2)根据二维待去噪垃圾噪声图像,生成三维垃圾噪声图像,如图6所示:
(3)加载训练后网络模型。
(4)将二维和三维垃圾图像分别输入动态自注意力网络和基于自适应稀疏机制的Transformer网络,模型输出即为干净垃圾图像,示例过程如图7所示。其中,图7左侧下方的图像为二维垃圾噪声图像,图7左侧上方的图像为三维垃圾噪声图像,二维垃圾噪声图像和三维垃圾噪声图像分别输入两个子网络模型;然后训练好的模型对两张噪声图进行去噪处理;最后模型输出干净垃圾噪声图像,得到图7右侧所示的干净图像。
Claims (5)
1.一种基于多维度图像信息融合的垃圾图像去噪方法,其特征在于包括下述步骤:
步骤1:将二维训练数据集进行维度转换,转换为三维训练数据集;
步骤2:将二维训练数据集输入动态自注意力模块,并通过动态自注意力模块,提取二维垃圾噪声特征;
步骤3:将步骤1获得的三维训练数据集输入基于自适应稀疏机制的Transformer网络,通过基于自适应稀疏机制的Transformer网络,提取三维训练数据集的三维垃圾噪声特征;
步骤4:将步骤3获得的三维垃圾噪声特征进行维度转换,转换为二维数据,二维数据与步骤2获得的二维垃圾噪声特征进行融合;
步骤5:将步骤4融合后的噪声输入融合网络,通过残差计算,获得干净垃圾图像;残差计算为将二维噪声图像与融合网络三个卷积处理层的输出进行相减操作;
步骤6:通过损失函数计算步骤5获取的输出图像与干净标签垃圾图像的损失,不断优化模型参数,直至所得误差达到任务要求精度范围内即可,得到优化后的去噪模型;
步骤7:将待去噪垃圾图像输入步骤6优化后的去噪模型,即可得到去噪后的干净图像。
2.一种根据权利要求1所述基于多维度图像信息融合的垃圾图像去噪方法的Transformer网络,其特征在于:
所述基于自适应稀疏机制的Transformer网络,接收到三维训练数据集后,将3D图像块输入线性映射层,线性映射层将三维垃圾图像块映射为特征向量,特征向量进入位置嵌入层,位置嵌入层为垃圾图像远距离依赖关系提供输入序列的线索,输出携带位置信息的特征向量序列,带有位置信息的特征向量依次通过6个基于自适应稀疏Transformer子模块,即可提取得到三维训练数据集的三维垃圾噪声特征。
3.根据权利要求2所述的Transformer网络,其特征在于:
所述Transformer子模块包括2个层归一化、1个多头自注意力层、多层线性感知机MLP和自适应稀疏机制,将输入做层归一化,然后将归一化后的向量序列复制为三份,分别得到三个注意力输入查询向量序列Q、键值向量序列K和内容向量序列V,同时将归一化后的向量序列输入全连接层,以获取用于稀疏机制的位置偏移向量,配合另行定义的可学习参数D作为稀疏机制显著性向量数目,位置偏移向量、可学习参数D、键值向量序列K和内容向量序列V经过稀疏转换获得稀疏键值向量序列和稀疏内容向量序列,接着将查询向量序列Q、稀疏键值向量序列与稀疏内容向量序列输入多头自注意力块,使模型学习图像内部长距离依赖,所得多头自注意力块输出与层归一化输出进行残差相加,以降低模型训练难度;所得残差结果再用输入层归一化和多层线性感知机,并再次与上一个残差结果进行残差相加,从而得到最终输出。
4.一种根据权利要求1所述的基于多维度图像信息融合的垃圾图像去噪方法的动态自注意力模块,其特征在于:
所述动态自注意力模块为4个依次连接的动态自注意力子模块,4个动态自注意力子模块顺序相连,每个自注意力子模块包含1个动态卷积处理层、2个卷积处理层和1个单一卷积层;将特征图依次输入动态卷积处理层、先后2个卷积处理层和单一卷积层,然后将卷积权重取出,分别做空间归一化和通道归一化,分别获得卷积权重空间注意力矩阵与卷积权重通道注意力向量,所述空间注意力矩阵与通道注意力向量分别按照对应空间维度与通道维度,与卷积输出的特征图进行点乘,分别获取空间自注意力结果与通道自注意力结果,最后将空间自注意力结果与通道自注意力结果相加,获得动态自注意力模块输出结果。
5.根据权利要求4所述的基于多维度图像信息融合的垃圾图像去噪方法的动态自注意力模块,其特征在于:
所述动态卷积处理层包括动态卷积层、批归一化和自适应参数整流线性单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310284080.7A CN116543168A (zh) | 2023-03-22 | 2023-03-22 | 一种基于多维度图像信息融合的垃圾图像去噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310284080.7A CN116543168A (zh) | 2023-03-22 | 2023-03-22 | 一种基于多维度图像信息融合的垃圾图像去噪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543168A true CN116543168A (zh) | 2023-08-04 |
Family
ID=87453148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310284080.7A Pending CN116543168A (zh) | 2023-03-22 | 2023-03-22 | 一种基于多维度图像信息融合的垃圾图像去噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543168A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881674A (zh) * | 2023-09-07 | 2023-10-13 | 北京国药新创科技发展有限公司 | 医疗器械使用量的预测方法、装置及电子设备 |
CN117131348A (zh) * | 2023-10-27 | 2023-11-28 | 深圳中科保泰科技有限公司 | 基于差分卷积特征的数据质量分析方法及系统 |
CN118194246A (zh) * | 2024-05-16 | 2024-06-14 | 中国科学院地质与地球物理研究所 | 一种地空电磁探测系统运动噪声分离方法及深部找矿方法 |
-
2023
- 2023-03-22 CN CN202310284080.7A patent/CN116543168A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881674A (zh) * | 2023-09-07 | 2023-10-13 | 北京国药新创科技发展有限公司 | 医疗器械使用量的预测方法、装置及电子设备 |
CN116881674B (zh) * | 2023-09-07 | 2023-11-14 | 北京国药新创科技发展有限公司 | 医疗器械使用量的预测方法、装置及电子设备 |
CN117131348A (zh) * | 2023-10-27 | 2023-11-28 | 深圳中科保泰科技有限公司 | 基于差分卷积特征的数据质量分析方法及系统 |
CN117131348B (zh) * | 2023-10-27 | 2024-02-09 | 深圳中科保泰科技有限公司 | 基于差分卷积特征的数据质量分析方法及系统 |
CN118194246A (zh) * | 2024-05-16 | 2024-06-14 | 中国科学院地质与地球物理研究所 | 一种地空电磁探测系统运动噪声分离方法及深部找矿方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673307B (zh) | 一种轻量型的视频动作识别方法 | |
CN116543168A (zh) | 一种基于多维度图像信息融合的垃圾图像去噪方法 | |
Chandio et al. | Precise single-stage detector | |
CN115439857A (zh) | 一种基于复杂背景图像的倾斜字符识别方法 | |
CN112560865B (zh) | 一种室外大场景下点云的语义分割方法 | |
CN115345866B (zh) | 一种遥感影像中建筑物提取方法、电子设备及存储介质 | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN111899203A (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN112733693A (zh) | 一种全局感知高分辨率遥感影像多尺度残差道路提取方法 | |
CN115588237A (zh) | 一种基于单目rgb图像的三维手部姿态估计方法 | |
CN113744237A (zh) | 一种基于深度学习的渣土流塑性自动检测方法及系统 | |
CN112419352A (zh) | 一种基于轮廓的小样本语义分割方法 | |
CN116934796A (zh) | 基于孪生残差注意力聚合网络的视觉目标跟踪方法 | |
CN115578574A (zh) | 一种基于深度学习和拓扑感知的三维点云补全方法 | |
CN110647917A (zh) | 一种模型复用方法与系统 | |
CN115131245A (zh) | 一种基于注意力机制的点云补全方法 | |
CN114821631A (zh) | 基于注意力机制与多尺度特征融合的行人特征提取方法 | |
Zhan et al. | An advanced JPEG steganalysis method with balanced depth and width based on fractal residual network | |
CN117557782B (zh) | 一种多尺度特征融合和边界信息注意的视频显著目标检测方法 | |
CN117994172B (zh) | 基于时序依赖和边缘细化的海温图像鲁棒补全方法及系统 | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
Zhao et al. | Feature Extraction with Apparent to Semantic Channels for Object Detection. | |
CN117975239A (zh) | 基于轻量级双通道特征渐进提取的图像识别方法及装置 | |
Detector et al. | 48109, USA 6Department of Information Technology, Quaid-e-Awam University of Engineering, Science, and Technology, Nawabshah, Pakistan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |