CN116485689A - 基于CNN和Transformer的渐进式耦合图像去雨方法和系统 - Google Patents

基于CNN和Transformer的渐进式耦合图像去雨方法和系统 Download PDF

Info

Publication number
CN116485689A
CN116485689A CN202310749638.4A CN202310749638A CN116485689A CN 116485689 A CN116485689 A CN 116485689A CN 202310749638 A CN202310749638 A CN 202310749638A CN 116485689 A CN116485689 A CN 116485689A
Authority
CN
China
Prior art keywords
rain
background
image
characteristic
coupling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310749638.4A
Other languages
English (en)
Other versions
CN116485689B (zh
Inventor
王正
王琼
刘炳义
郑晓燕
路文轩
江奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Dashuiyun Technology Co ltd
Wuhan University WHU
Original Assignee
Wuhan Dashuiyun Technology Co ltd
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Dashuiyun Technology Co ltd, Wuhan University WHU filed Critical Wuhan Dashuiyun Technology Co ltd
Priority to CN202310749638.4A priority Critical patent/CN116485689B/zh
Publication of CN116485689A publication Critical patent/CN116485689A/zh
Application granted granted Critical
Publication of CN116485689B publication Critical patent/CN116485689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于CNN和Transformer的渐进式耦合图像去雨方法和系统。本发明不同于单一的卷积神经网络和Transformer模型,而是整合了这两种结构的优点,同时保持了去除雨水扰动的有效性和效率。此外,本发明实现了无雨背景和雨水残差特征的逐步分解和关联。为了减轻计算负担,本发明中将其设计成非对称的双路径相互表示网络,同时在本发明中,为了降低计算的复杂度,网络多处使用高效的卷积结构和分辨率重整的策略。经过大量的实验表明,本发明的方法可以有效地去除图像中的雨纹干扰,且更加轻量,具有相对于主流方法更高的效率。

Description

基于CNN和Transformer的渐进式耦合图像去雨方法和系统
技术领域
本发明属于图像处理领域,尤其涉及一种充分结合卷积神经网络和Transformer的优势的雨纹扰动去除方法和系统。
背景技术
图像处理一直备受计算机视觉界研究者的关注,是计算机视觉领域中一个重要的研究方向,其核心内容是图像修复、恢复、压缩、增强、编辑等等工作。图像去雨的目的是根据给定的有雨纹干扰的图像恢复出高质量的无雨图像。此类问题不仅涉及到雨纹的有效去除,还包括背景图像结构和细节的恢复,是一项极具挑战的研究方向。
在一些以摄像头捕捉的图像信息为主要或辅助输出的户外视觉系统应用中,在雨天这样的恶劣天气作业时,捕捉到的图像往往有雨纹、雨滴的干扰,使获得的信息减少或失真,进而对性能造成严重的影响。因此,去除图像的雨纹扰动可以帮助恢复有效信息,提升下游计算机视觉应用的性能,可以作为户外视觉系统预处理的关键一步。
早期的去雨方法更多的使用人工先验做约束,依赖于对雨水图像的数学统计分析,因此在复杂的雨水条件下显示出较差的鲁棒性。受益于强大的学习局部归纳先验的能力,许多基于卷积神经网络的图像去雨方法已经出现并取得了很大成功,循环神经网络、非局部网络、生成对抗网络等优秀的网络结构被用于去雨任务。这些方法都是通过直接预测无雨的背景图或雨残差图来直接或间接生成去雨结果。但是由于雨水干扰的复杂非线性退化,简单预测背景或雨残差图其中一种的方法很难在消除雨纹扰动的同时恢复高质量背景内容。后来,研究证明用级联或平行网络进行叠加背景恢复的方法十分有效且稳健。特别是雨水残差和无雨背景之间的耦合表示策略提供了一个消除雨水扰动且不损害背景内容的新思路。然而,已有的方法试图以更简单的网络框架来进行恢复,在追求效率的同时牺牲了模型的表达能力,它不能满足在推理高质量背景图像的同时对复杂的雨水分布进行建模的要求。
近两年,在自然语言处理任务中表现优异的自注意力机制被人们深入研究探索,应用到视觉领域,在计算机视觉任务的深度网络中发挥着越来越大的作用。自注意力机制通过计算整个序列元素之间的响应来捕获全局特征,具有优秀的全局建模能力。已经有一些研究者将卷积神经网络和Transformer结构结合起来用于图像去雨任务,但由于自注意力的计算复杂度随图像空间维度的增加二次增长带来巨大的计算负担,受到限制而无法缓解计算瓶颈和资源消耗,未能充分发挥其作用。
发明内容
本发明针对现有技术的不足,提出了一个基于卷积神经网络和Transformer的混合渐进式耦合学习的图像去雨方法,包括如下步骤:
步骤一,训练数据准备,从有雨图像-真实标注图像对中任取一对,对图像对进行相同的数据扩增操作,最终将得到的雨图作为网络的输入,得到的真实标注图作为真实标签;
步骤二,构建基于CNN和Transformer的渐进式耦合学习网络,具体处理流程如下:
首先提取雨图的初始特征图,并从初始特征图中提取初始的背景特征图和初始的雨残差特征图,然后输入到混合特征提取模块和耦合表示模块中经过M轮迭代处理得到细化后的背景特征图和雨残差特征图,进行上采样之后,从特征空间投影到图像空间,恢复成图像,包括无雨背景图和雨残差图;其中M为常数;
所述混合特征提取模块包括雨水特征分支和背景特征分支,其中雨水特征分支通过通道注意力块和Transformer块提取雨水特征,背景特征分支通过通道注意力块和卷积提取背景特征; 所述耦合表示模块先通过Transformer块对雨水特征和背景特征进行处理得到耦合雨水特征和耦合背景特征,然后对耦合雨水特征和耦合背景特征进行相应的修正作为输出;
步骤三,将恢复得到的无雨背景图与真实图像进行对比,将重建的雨图与输入的雨图进行对比,计算误差,即损失函数,如果误差并不收敛就返回继续训练直至误差收敛为止,当误差收敛后保存网络模型;所述重建的雨图为恢复得到的无雨背景图与雨残差图的叠加;
步骤四,利用训练好的网络模型实现图像去雨。
进一步的,所述雨水特征分支包括一个通道注意力块用于学习雨纹局部特征,和N个级联的Transformer块用于学习雨纹全局分布特征,二者进行像素级别求和作为提取到的雨水特征分支输出,同时,在N个级联的Transformer块的两端分别设置了异步卷积和转置卷积,先对输入特征进行下采样,经级联的Transformer块处理后再上采样,形成一个高效的U型结构,其具体公式如下:
其中,N为常数,和/>分别表示异步卷积和转置卷积操作,/>分别表示级联的Transformer块和通道注意力块,/>是第i个混合特征提取模块雨残差分支的输入,也即是第i-1个混合表示模块的输出,/>是第i个混合特征提取模块雨残差分支的输出。
进一步的,背景特征分支包括一个通道注意力块用于学习背景局部特征,和一个由卷积组成的恒等映射学习块用于背景图的细节特征,二者像素级别求和作为背景特征分支的输出,其具体公式如下:
其中表示标准卷积,/>表示通道注意力块,/>和/>分别是第i个混合特征提取模块背景分支的输入和输出。
进一步的,所述耦合表示模块接受混合特征提取模块的两路输出和/>作输入,先利用Transformer块的全局学习能力,从输入背景特征/>中提取耦合雨水特征/>,从输入雨水特征/>中提取耦合背景特征/>,使用输入雨水特征加上耦合雨水特征并减去耦合背景特征作为修正后的雨水特征输出/>,使用输入背景特征加上耦合背景特征并减去耦合雨水特征作为修正后的背景特征输出/>,其具体公式如下:
其中,表示单个Transformer块,/>和/>是第i个耦合表示模块修正后的雨水特征和背景特征输出,也是下一个迭代的混合表示模块的对应输入。
进一步的,利用转置卷积将经过M轮迭代细化后的背景残差图和雨残差特征图进行2倍上采样,恢复空间信息,其具体公式如下:
其中,表示转置卷积操作,/>分别表示最终恢复得到的雨残差特征和背景特征。
进一步的,使用3×3×3的卷积核将最终得到的雨残差特征和背景特征/>从特征空间投影到图像空间。
进一步的,损失函数公式如下:
其中,和/>分别表示预测的背景图或预测的雨图与对应的真实图像,/>和/>分别表示真实的背景图和真实的雨图;/>表示Charbonnier 惩罚函数,/>是惩罚因子,表示结构相似度损失,/>为最终具体的损失值,/>为权重,取值为常数。
进一步的,设置为/>;/>的值分别为0.3,0.15,0.06和0.03。
本发明还提供一种基于CNN和Transformer的渐进式耦合图像去雨系统,包括如下模块;
训练数据准备模块,用于从有雨图像-真实标注图像对中任取一对,对图像对进行相同的数据扩增操作,最终将得到的雨图作为网络的输入,得到的真实标注图作为真实标签;
网络模型构建模块,用于构建基于CNN和Transformer的渐进式耦合学习网络,具体处理流程如下:
首先提取雨图的初始特征图,并从初始特征图中提取初始的背景特征图和初始的雨残差特征图,然后输入到混合特征提取模块和耦合表示模块中经过M轮迭代处理得到细化后的背景特征图和雨残差特征图,进行上采样之后,从特征空间投影到图像空间,恢复成图像,包括无雨背景图和雨残差图;其中M为常数;
所述混合特征提取模块包括雨水特征分支和背景特征分支,其中雨水特征分支通过通道注意力块和Transformer块提取雨水特征,背景特征分支通过通道注意力块和卷积提取背景特征; 所述耦合表示模块先通过Transformer块对雨水特征和背景特征进行处理得到耦合雨水特征和耦合背景特征,然后对耦合雨水特征和耦合背景特征进行相应的修正作为输出;
模型训练模块,将恢复得到的无雨背景图与真实图像进行对比,将重建的雨图与输入的雨图进行对比,计算误差,即损失函数,如果误差并不收敛就返回继续训练直至误差收敛为止,当误差收敛后保存网络模型;所述重建的雨图为恢复得到的无雨背景图与雨残差图的叠加;
模型应用模块,用于利用训练好的网络模型实现图像去雨。
进一步的,所述耦合表示模块接受混合特征提取模块的两路输出和/>作输入,先利用Transformer块的全局学习能力,从输入背景特征/>中提取耦合雨水特征/>,从输入雨水特征/>中提取耦合背景特征/>,使用输入雨水特征加上耦合雨水特征并减去耦合背景特征作为修正后的雨水特征输出/>,使用输入背景特征加上耦合背景特征并减去耦合雨水特征作为修正后的背景特征输出/>,其具体公式如下:
其中,表示单个Transformer块,/>和/>是第i个耦合表示模块修正后的雨水特征和背景特征输出,也是下一个迭代的混合表示模块的对应输入。
本发明的发明原理是基于以下几点考虑的:1)卷积神经网络擅长学习局部信息,利于恢复细节但难以处理长程响应,Transformer利用全局信息,便于学习长程特征关系但难以关注局部细节,二者合理的结合可以优势互补,提升图像去雨的效果。2)背景图和雨残差图在空间维度有不同的特征分布特性,雨水分布有全局自相似性。3)高效的卷积结构和分辨率调整策略可以帮助降低计算量。本发明提出了一个新的混合的渐进式分解和耦合修正网络,利用Transformer和卷积神经网络两种结构的优点,通过渐进式分解和相互学习充分利用背景图和残差雨图的耦合关系进行雨纹去除。为了更好地分解、修复无雨的背景图,我们设计了非对称的双分支混合特征提取模块和耦合表示模块来进行充分的分解和相互学习。在其中,具有线性复杂度的高效Transformer块、深度可分离卷积、适当的分辨率缩放被使用来降低计算负担,提升效率。
附图说明
图1是本发明实施例的完整流程图。
图2是本发明实施例中图像混合表示模块的结构图。
图3是本发明实施例中重建模块的结构图。
图4是本发明实施例中Transformer块的结构图。
图5是本发明实施例中通道注意力块的结构图。
具体实施方式
下面结合附图及实施例对本发明的具体实施方式做进一步详细描述。以下实施示例或者附图仅用于说明和解释本发明,并不用于限定本发明的范围。
请参阅图1,图1是本发明实施例的完整流程图,本发明实施例提供一种基于CNN和Transformer的渐进式耦合图像去雨方法,主要包括高效渐进式网络模型训练、图像混合表示模块和重建模块三个部分。
其中高效渐进式网络模型训练部分的具体实现方式如下:
步骤1.1:训练数据准备,从有雨图像-真实标注图像对中任取一对,对图像对进行相同的数据扩增操作,进行随机裁剪,裁剪为128*128的图像块,再进行随机的旋转、翻转等数据扩增操作,最终得到的雨图作为网络的输入,得到的真实标注图作为真实标签。
步骤1.2:初始特征提取,输入长为H宽为W像素的RGB雨图,使用3×3×48的卷积提取输入雨图的特征,得到长为H,宽为W,通道数为48的初始特征图
步骤1.3:初始特征分解、缩放,利用步长为2的异步卷积实现空间维度上的1/2下采样,得到从初始特征图中提取到的初始的背景特征图和初始的雨残差特征图/>,此时两特征图的长为H/2,宽为W/2,通道数为48。其具体公式如下:
其中,表示异步卷积操作。
步骤1.4、步骤1.5:级联的混合表示模块进行特征提取,其包括混合特征提取模块对特征进行迭代分解(步骤1.4)和耦合表示模块对特征进行耦合修正(步骤1.5),具体结构参见图2。
混合特征提取模块有两个非对称的分支,其中,雨水特征分支包括一个通道注意力块学习雨纹局部特征,和N个级联的Transformer块(如图4所示)学习雨纹的全局分布,二者像素级别求和作为提取到的雨水特征输出。为了进一步减少Transformer块的计算负担,我们在N个级联的Transformer块的两端又分别设置了异步卷积和转置卷积,先对输入特征进行下采样,经级联的Transformer块处理后再上采样,形成一个高效的U型结构;其具体公式如下:
其中,和/>分别表示异步卷积和转置卷积操作,/>和/>分别表示级联的Transformer块和通道注意力块,/>是第i个混合特征提取模块雨残差分支的输入,也即是第i-1个混合表示模块的输出,/>是第i个混合特征提取模块雨残差分支的输出;其中N根据需求设定。
背景特征分支包括一个通道注意力块(如图5所示)学习背景局部特征,和一个由卷积组成的恒等映射块学习背景图的细节特征,二者像素级别求和作为背景特征的输出,其具体公式如下:
其中表示标准卷积,/>表示通道注意力块,/>和/>分别是第i个混合特征提取模块背景分支的输入和输出。
耦合表示模块接受混合特征提取模块的两路输出和/>作输入,先利用Transformer块的全局学习能力,从输入背景特征/>中提取耦合雨水特征/>,从输入雨水特征/>中提取耦合背景特征/>,使用输入雨水特征加上耦合雨水特征并减去耦合背景特征作为修正后的雨水特征输出/>,使用输入背景特征加上耦合背景特征并减去耦合雨水特征作为修正后的背景特征输出/>;其具体公式如下:
其中,表示单个Transformer块,/>和/>是第i个耦合表示块修正后的雨水特征和背景特征输出,也是下一个迭代的混合表示模块的对应输入。
步骤1.4、步骤1.5是一个渐进式的迭代过程,迭代的次数M可以自己设置,迭代的总公式如下:
其中,表示第i个混合表示模块的处理过程,/>和/>分别表示从第i个混合表示块中提取的有雨和无雨特征,i属于1到M。
步骤1.6:特征缩放,利用转置卷积将经过M轮迭代细化后的背景和雨残差的特征图进行2倍上采样,恢复空间信息。其具体公式如下:
其中,表示转置卷积操作,/>分别表示最终恢复得到的雨残差特征和背景特征。
步骤1.7:图像重建,使用3×3×3的卷积核将最终得到的雨残差特征和背景特征/>从特征空间投影到图像空间,恢复成图像,将恢复得到的无雨背景图与真实图像进行对比,将恢复得到的无雨背景图与雨残差图的叠加(即重建的雨图)与输入的雨图进行对比,计算误差,如果误差并不收敛就返回继续训练直至误差收敛为止,当误差收敛后保存网络模型。图像重建的具体公式如下:
其中,是标准卷积,/>是雨纹和无雨背景的深度解耦特征,重建的雨水残差图/>和背景/>相加获得预测的有雨图像/>
网络的监督上面,我们选择Charbonnier 惩罚函数作为主要的损失函数。相比于常规的像素级别的损失函数,Charbonnier 惩罚函数通过引入惩罚因子,对离群点和小误差的处理更为平滑,在保持高频特征上表现得更好。此外,为了更好地恢复图像的结构信息,我们同时使用了结构相似度损失,通过计算两张图像之间的结构相似性取逆来进行约束。具体的损失函数公式如下:
其中,和/>分别表示预测的背景图(或预测的雨图)与对应的真实图像,/>表示Charbonnier 惩罚函数,/>是惩罚因子,设置为/>,/>表示结构相似度损失,/>为最终具体的损失值,/>的值分别为0.3,0.15,0.06和0.03。这里的损失值是为了更新网络参数,优化网络模型的,本领域技术人员也可以设置为其他数值;如果损失值收敛,则停止网络模型的训练,否则返回继续训练。
请参阅图2,该图描述了混合图像表示模块,实施示例包括如下步骤:
步骤2.1:输入粗糙的背景图特征和对应的雨残差特征图。
步骤2.2混合特征提取模块和步骤2.3耦合表示模块都与渐进式去雨网络模型的步骤一致,这里将不再赘述。
请参阅图3,该图描述了重建模块,实施例包括如下步骤:
步骤3.1:输入最终得到的背景图特征和对应的雨残差特征图
步骤3.2特征投影和步骤3.3雨图重建都与渐进式去雨网络模型的步骤一致,这里将不再赘述。
根据上述本发明实施例的完整流程可知,本发明提供的一种基于CNN和Transformer的渐进式耦合图像去雨方法,包括如下步骤:
步骤一,训练数据准备,从有雨图像-真实标注图像对中任取一对,对图像对进行相同的数据扩增操作,最终将得到的雨图作为网络的输入,得到的真实标注图作为真实标签;
步骤二,构建基于CNN和Transformer的渐进式耦合学习网络,具体处理流程如下:
首先提取雨图的初始特征图,并从初始特征图中提取初始的背景特征图和初始的雨残差特征图,然后输入到混合特征提取模块和耦合表示模块中经过M轮迭代处理得到细化后的背景特征图和雨残差特征图,进行上采样之后,从特征空间投影到图像空间,恢复成图像,包括无雨背景图和雨残差图;其中M为常数;
所述混合特征提取模块包括雨水特征分支和背景特征分支,其中雨水特征分支通过通道注意力块和Transformer块提取雨水特征,背景特征分支通过通道注意力块和卷积提取背景特征; 所述耦合表示模块先通过Transformer块对雨水特征和背景特征进行处理得到耦合雨水特征和耦合背景特征,然后对耦合雨水特征和耦合背景特征进行相应的修正作为输出;
步骤三,将恢复得到的无雨背景图与真实图像进行对比,将重建的雨图与输入的雨图进行对比,计算误差,即损失函数,如果误差并不收敛就返回继续训练直至误差收敛为止,当误差收敛后保存网络模型;所述重建的雨图为恢复得到的无雨背景图与雨残差图的叠加;
步骤四,利用训练好的网络模型实现图像去雨。
各步骤的具体实现方式可以参见上述高效渐进式网络模型训练、图像混合表示模块和重建模块三个部分的具体实现方式,本发明实施例不予撰述。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
本发明实施例还提供一种基于CNN和Transformer的渐进式耦合图像去雨系统,包括如下模块;
训练数据准备模块,用于从有雨图像-真实标注图像对中任取一对,对图像对进行相同的数据扩增操作,最终将得到的雨图作为网络的输入,得到的真实标注图作为真实标签;
网络模型构建模块,用于构建基于CNN和Transformer的渐进式耦合学习网络,具体处理流程如下:
首先提取雨图的初始特征图,并从初始特征图中提取初始的背景特征图和初始的雨残差特征图,然后输入到混合特征提取模块和耦合表示模块中经过M轮迭代处理得到细化后的背景特征图和雨残差特征图,进行上采样之后,从特征空间投影到图像空间,恢复成图像,包括无雨背景图和雨残差图;其中M为常数;
所述混合特征提取模块包括雨水特征分支和背景特征分支,其中雨水特征分支通过通道注意力块和Transformer块提取雨水特征,背景特征分支通过通道注意力块和卷积提取背景特征; 所述耦合表示模块先通过Transformer块对雨水特征和背景特征进行处理得到耦合雨水特征和耦合背景特征,然后对耦合雨水特征和耦合背景特征进行相应的修正作为输出;
模型训练模块,将恢复得到的无雨背景图与真实图像进行对比,将重建的雨图与输入的雨图进行对比,计算误差,即损失函数,如果误差并不收敛就返回继续训练直至误差收敛为止,当误差收敛后保存网络模型;所述重建的雨图为恢复得到的无雨背景图与雨残差图的叠加;
模型应用模块,用于利用训练好的网络模型实现图像去雨。
各模块的具体实现方式与各步骤相应,本发明不予撰述。
本发明提出的非对称的混合渐进耦合网络,进一步整合了自注意力和卷积神经网络在图像修复应用中去除雨纹扰动的高性能优势,以实现更好地分解和恢复。
发明人对近几年最新的部分图像去雨专利做了调研,并将本发明与当前的专利做了详细的对比,详情如下:
中国专利文献号CN108648159B,公开(公告)日为2022.02.11,公开了一种图像去雨方法,构建用于去雨的孪生卷积网络结构,进行滤波处理获取待去雨图像的高频信息和低频信息,然后将待去雨图像的高频信息输入到用于去雨的孪生卷积网络结构中,得到对应的无雨图像的高频信息;再将获得的无雨图像的高频信息加上有雨图像的低频信息,得到对应的无雨图像。该方法仅利用卷积神经网络提取特征,对全局特征的学习能力较为缺乏,且没有考虑到无雨图像和有雨图像之间的耦合关系,直接提取的信息可能有冗余或缺失,对去雨性能造成影响。而本发明利用Transformer结构学习到了较好的全局特征,并构建了耦合学习模块促进有雨图像和无雨图像的特征分离,进一步提升了去雨性能。
中国专利文献号CN115331083A,公开(公告)日为2022.11.11,公开了一种基于逐步密集特征融合去雨网络的图像去雨方法及系统,首先基于U-Net编码器-解码器的网络结构构建逐步密集特征融合去雨网络,在编码器后堆叠6个残差密集单元,每个残差密集单元分别与特征逐步融合单元中的解码器一一对应,并将输出的中间特征分别输入至对应的密集连接的解码器。该方法使用普通卷积组成的U型结构,没有利用高效的卷积结构,且仅仅关注于图像细节信息,对全局长程信息的处理有欠考虑。而本发明使用成对的异步卷积和转置卷积构建两层U型网络,且多处使用深度可分离卷积,最大限度地平衡了效率和性能的关系;同时使用了具有线性复杂度的Transformer结构处理长程信息依赖,在保证效率的同时提升了去雨性能。
中国专利文献号CN115689918A,公开(公告)日为2023.02.03,公开了一种并行单幅图像去雨方法,该方法利用图像细节提取网络提取图片细节特征信息,通过雨线特征提取网络提取图片雨线特征信息,进而通过特征融合网络融合所述细节特征信息和雨线特征信息,最后完成去雨。该方法基于残差先验注意力机制,虽然也使用了注意力机制,但没有使用可以学习到更完备全局特征的自注意力机制。本发明选用了基于自注意力机制的Transformer结构,并充分考虑了解决自注意力的计算瓶颈问题,计算通道维度的注意力图,提升了去雨性能。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种基于CNN和Transformer的渐进式耦合图像去雨方法,其特征在于,包括如下步骤;
步骤一,训练数据准备,从有雨图像-真实标注图像对中任取一对,对图像对进行相同的数据扩增操作,最终将得到的雨图,即经过数据扩增后的有雨图像作为网络的输入,得到的真实标注图作为真实标签;
步骤二,构建基于CNN和Transformer的渐进式耦合学习网络,具体处理流程如下:
首先提取雨图的初始特征图,并从初始特征图中提取初始的背景特征图和初始的雨残差特征图,然后输入到混合特征提取模块和耦合表示模块中经过M轮迭代处理得到细化后的背景特征图和雨残差特征图,进行上采样之后,从特征空间投影到图像空间,恢复成图像,包括无雨背景图和雨残差图;其中M为常数;
所述混合特征提取模块包括雨水特征分支和背景特征分支,其中雨水特征分支通过通道注意力块和Transformer块提取雨水特征,背景特征分支通过通道注意力块和卷积提取背景特征; 所述耦合表示模块先通过Transformer块对雨水特征和背景特征进行处理得到耦合雨水特征和耦合背景特征,然后对耦合雨水特征和耦合背景特征进行相应的修正作为输出;
步骤三,将恢复得到的无雨背景图与真实图像进行对比,将重建的雨图与输入的雨图进行对比,计算误差,即损失函数,如果误差并不收敛就返回继续训练直至误差收敛为止,当误差收敛后保存网络模型;所述重建的雨图为恢复得到的无雨背景图与雨残差图的叠加;
步骤四,利用训练好的网络模型实现图像去雨。
2.根据权利要求1所述的一种基于CNN和Transformer的渐进式耦合图像去雨方法,其特征在于:所述雨水特征分支包括一个通道注意力块用于学习雨纹局部特征,和N个级联的Transformer块用于学习雨纹全局分布特征,二者进行像素级别求和作为提取到的雨水特征分支输出,同时,在N个级联的Transformer块的两端分别设置了异步卷积和转置卷积,先对输入特征进行下采样,经级联的Transformer块处理后再上采样,形成一个高效的U型结构,其具体公式如下:
其中,N为常数,和/>分别表示异步卷积和转置卷积操作,/>和/>分别表示级联的Transformer块和通道注意力块,/>是第i个混合特征提取模块雨残差分支的输入,也即是第i-1个混合表示模块的输出,/>是第i个混合特征提取模块雨残差分支的输出。
3.根据权利要求1所述的一种基于CNN和Transformer的渐进式耦合图像去雨方法,其特征在于:背景特征分支包括一个通道注意力块用于学习背景局部特征,和一个由卷积组成的恒等映射学习块用于背景图的细节特征,二者像素级别求和作为背景特征分支的输出,其具体公式如下:
其中表示标准卷积,/>表示通道注意力块,/>和/>分别是第i个混合特征提取模块背景分支的输入和输出。
4.根据权利要求1所述的一种基于CNN和Transformer的渐进式耦合图像去雨方法,其特征在于:所述耦合表示模块接受混合特征提取模块的两路输出和/>作输入,先利用Transformer块的全局学习能力,从输入背景特征/>中提取耦合雨水特征/>,从输入雨水特征/>中提取耦合背景特征/>,使用输入雨水特征加上耦合雨水特征并减去耦合背景特征作为修正后的雨水特征输出/>,使用输入背景特征加上耦合背景特征并减去耦合雨水特征作为修正后的背景特征输出/>,其具体公式如下:
其中,表示单个Transformer块,/>和/>是第i个耦合表示模块修正后的雨水特征和背景特征输出,也是下一个迭代的混合表示模块的对应输入。
5.根据权利要求1所述的一种基于CNN和Transformer的渐进式耦合图像去雨方法,其特征在于:利用转置卷积将经过M轮迭代细化后的背景残差图和雨残差特征图进行2倍上采样,恢复空间信息,其具体公式如下:
其中,表示转置卷积操作,/>分别表示最终恢复得到的雨残差特征和背景特征。
6.根据权利要求5所述的一种基于CNN和Transformer的渐进式耦合图像去雨方法,其特征在于:使用3×3×3的卷积核将最终得到的雨残差特征和背景特征/>从特征空间投影到图像空间。
7.根据权利要求1所述的一种基于CNN和Transformer的渐进式耦合图像去雨方法,其特征在于:损失函数公式如下:
其中,和/>分别表示预测的背景图或预测的雨图与对应的真实图像,/>和/>分别表示真实的背景图和真实的雨图;/>表示Charbonnier 惩罚函数,/>是惩罚因子,表示结构相似度损失,/>为最终具体的损失值,/>为权重,取值为常数。
8.根据权利要求1所述的一种基于CNN和Transformer的渐进式耦合图像去雨方法,其特征在于:设置为/>;/>的值分别为0.3,0.15,0.06和0.03。
9.一种基于CNN和Transformer的渐进式耦合图像去雨系统,其特征在于,包括如下模块;
训练数据准备模块,用于从有雨图像-真实标注图像对中任取一对,对图像对进行相同的数据扩增操作,最终将得到的雨图作为网络的输入,得到的真实标注图作为真实标签;
网络模型构建模块,用于构建基于CNN和Transformer的渐进式耦合学习网络,具体处理流程如下:
首先提取雨图的初始特征图,并从初始特征图中提取初始的背景特征图和初始的雨残差特征图,然后输入到混合特征提取模块和耦合表示模块中经过M轮迭代处理得到细化后的背景特征图和雨残差特征图,进行上采样之后,从特征空间投影到图像空间,恢复成图像,包括无雨背景图和雨残差图;其中M为常数;
所述混合特征提取模块包括雨水特征分支和背景特征分支,其中雨水特征分支通过通道注意力块和Transformer块提取雨水特征,背景特征分支通过通道注意力块和卷积提取背景特征; 所述耦合表示模块先通过Transformer块对雨水特征和背景特征进行处理得到耦合雨水特征和耦合背景特征,然后对耦合雨水特征和耦合背景特征进行相应的修正作为输出;
模型训练模块,将恢复得到的无雨背景图与真实图像进行对比,将重建的雨图与输入的雨图进行对比,计算误差,即损失函数,如果误差并不收敛就返回继续训练直至误差收敛为止,当误差收敛后保存网络模型;所述重建的雨图为恢复得到的无雨背景图与雨残差图的叠加;
模型应用模块,用于利用训练好的网络模型实现图像去雨。
10.根据权利要求9所述的一种基于CNN和Transformer的渐进式耦合图像去雨系统,其特征在于:所述耦合表示模块接受混合特征提取模块的两路输出和/>作输入,先利用Transformer块的全局学习能力,从输入背景特征/>中提取耦合雨水特征/>,从输入雨水特征/>中提取耦合背景特征/>,使用输入雨水特征加上耦合雨水特征并减去耦合背景特征作为修正后的雨水特征输出/>,使用输入背景特征加上耦合背景特征并减去耦合雨水特征作为修正后的背景特征输出/>,其具体公式如下:
其中,表示单个Transformer块,/>和/>是第i个耦合表示模块修正后的雨水特征和背景特征输出,也是下一个迭代的混合表示模块的对应输入。
CN202310749638.4A 2023-06-25 2023-06-25 基于CNN和Transformer的渐进式耦合图像去雨方法和系统 Active CN116485689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310749638.4A CN116485689B (zh) 2023-06-25 2023-06-25 基于CNN和Transformer的渐进式耦合图像去雨方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310749638.4A CN116485689B (zh) 2023-06-25 2023-06-25 基于CNN和Transformer的渐进式耦合图像去雨方法和系统

Publications (2)

Publication Number Publication Date
CN116485689A true CN116485689A (zh) 2023-07-25
CN116485689B CN116485689B (zh) 2023-11-14

Family

ID=87218179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310749638.4A Active CN116485689B (zh) 2023-06-25 2023-06-25 基于CNN和Transformer的渐进式耦合图像去雨方法和系统

Country Status (1)

Country Link
CN (1) CN116485689B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070690A (zh) * 2020-08-25 2020-12-11 西安理工大学 基于卷积神经网络双分支注意力生成的单幅图像去雨方法
WO2022011661A1 (zh) * 2020-07-17 2022-01-20 南京理工大学 一种基于渐进特征融合的图像去雾方法及系统
KR20220059881A (ko) * 2020-11-03 2022-05-10 고려대학교 산학협력단 순환 신경망 네트워크를 이용한 점진적 비 제거 방법 및 장치
CN114638768A (zh) * 2022-05-19 2022-06-17 武汉大学 一种基于动态关联学习网络的图像去雨方法、系统及设备
CN114913389A (zh) * 2022-04-25 2022-08-16 江苏新通达电子科技股份有限公司 基于Transformer网络的汽车360环视图像去雨方法
CN115880170A (zh) * 2022-12-05 2023-03-31 华南理工大学 基于图像先验和门控注意力学习的单图去雨方法和系统
CN116109499A (zh) * 2022-12-09 2023-05-12 华东师范大学 一种基于Transformer的面向记忆的单图片去雨方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022011661A1 (zh) * 2020-07-17 2022-01-20 南京理工大学 一种基于渐进特征融合的图像去雾方法及系统
CN112070690A (zh) * 2020-08-25 2020-12-11 西安理工大学 基于卷积神经网络双分支注意力生成的单幅图像去雨方法
KR20220059881A (ko) * 2020-11-03 2022-05-10 고려대학교 산학협력단 순환 신경망 네트워크를 이용한 점진적 비 제거 방법 및 장치
CN114913389A (zh) * 2022-04-25 2022-08-16 江苏新通达电子科技股份有限公司 基于Transformer网络的汽车360环视图像去雨方法
CN114638768A (zh) * 2022-05-19 2022-06-17 武汉大学 一种基于动态关联学习网络的图像去雨方法、系统及设备
CN115880170A (zh) * 2022-12-05 2023-03-31 华南理工大学 基于图像先验和门控注意力学习的单图去雨方法和系统
CN116109499A (zh) * 2022-12-09 2023-05-12 华东师范大学 一种基于Transformer的面向记忆的单图片去雨方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUI JIANG.ET.: "Rain-Free and Residue Hand-in-Hand: A Progressive Coupled Network for Real-Time Image Deraining", 《 IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 30, pages 7404, XP011875007, DOI: 10.1109/TIP.2021.3102504 *
高涛等: "基于窗口自注意力网络的单图像去雨算法", 《上海交通大学学报》, vol. 57, no. 5, pages 613 - 623 *

Also Published As

Publication number Publication date
CN116485689B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN110706157B (zh) 一种基于身份先验生成对抗网络的人脸超分辨率重建方法
CN109903228A (zh) 一种基于卷积神经网络的图像超分辨率重建方法
CN111861961A (zh) 单幅图像超分辨率的多尺度残差融合模型及其复原方法
CN112365403B (zh) 一种基于深度学习和相邻帧的视频超分辨率恢复方法
CN111768340B (zh) 一种基于密集多路径网络的超分辨图像重构方法和系统
CN105825477A (zh) 基于多字典学习与非局部信息融合的遥感图像超分辨率重建方法
CN109035146A (zh) 一种基于深度学习的低质量图像超分方法
CN111696033B (zh) 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法
CN114549385B (zh) 一种基于深度稠密残差网络的光学与sar图像融合的去云方法
CN116682120A (zh) 基于深度学习的多语种马赛克图像文本识别方法
CN113469884A (zh) 基于数据仿真的视频超分辨方法、系统、设备及存储介质
CN115131675A (zh) 一种基于参考影像纹理迁移的遥感影像压缩方法及系统
Cheng et al. Hybrid transformer and cnn attention network for stereo image super-resolution
CN109272450B (zh) 一种基于卷积神经网络的图像超分方法
Jiang et al. GAN-based multi-level mapping network for satellite imagery super-resolution
CN115526779A (zh) 一种基于动态注意力机制的红外图像超分辨率重建方法
Yan et al. Textual prompt guided image restoration
CN114022356A (zh) 基于小波域的河道流量水位遥感图像超分辨率方法与系统
CN117893409A (zh) 基于光照条件约束扩散模型的人脸超分辨率重建方法及系统
CN116485689B (zh) 基于CNN和Transformer的渐进式耦合图像去雨方法和系统
CN112734675A (zh) 一种基于金字塔模型和非局部增强密集块的图像去雨方法
CN116895037A (zh) 基于边缘信息和多尺度交叉融合网络的帧插入方法及系统
CN116721033A (zh) 一种基于随机掩码卷积和注意力机制的单幅图像去雾方法
CN116704367A (zh) 一种多尺度特征融合耕地变化检测方法及系统
CN115861108A (zh) 一种基于小波自注意力生成对抗网络的图像修复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant