CN112734672A - 基于注意力形变卷积自动搜索的实时视频去雨方法 - Google Patents

基于注意力形变卷积自动搜索的实时视频去雨方法 Download PDF

Info

Publication number
CN112734672A
CN112734672A CN202110043497.5A CN202110043497A CN112734672A CN 112734672 A CN112734672 A CN 112734672A CN 202110043497 A CN202110043497 A CN 202110043497A CN 112734672 A CN112734672 A CN 112734672A
Authority
CN
China
Prior art keywords
frame
convolution
rain
video
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110043497.5A
Other languages
English (en)
Other versions
CN112734672B (zh
Inventor
薛昕惟
孟祥玉
刘日升
王祎
樊鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110043497.5A priority Critical patent/CN112734672B/zh
Publication of CN112734672A publication Critical patent/CN112734672A/zh
Application granted granted Critical
Publication of CN112734672B publication Critical patent/CN112734672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T5/73
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,涉及到基于注意力形变卷积自动搜索的实时视频去雨方法。本发明首先利用形变卷积来将相邻帧提取的特征隐式地对齐到目标帧,来充分地利用视频中的冗余信息辅助去除目标帧中的雨痕。其中本发明巧妙地利用了通道注意力机制充分地提取通道间的相关信息来更好地估计偏移量,从而更好地对齐相邻帧。之后本发明利用网络架构搜索技术自动发现一个时空重建网络用于去除雨痕和恢复背景。其中首先定义搜索空间,基于残差学习的结构,设计了5个可以被搜索的操作。然后利用可微分的网络架构搜索技术自动发现最优的操作来构建重建网络。最后利用循环的机制依次序去除视频中每一帧的雨痕,获得每一帧的干净的背景。

Description

基于注意力形变卷积自动搜索的实时视频去雨方法
技术领域
本发明属于计算机视觉领域,涉及一种基于注意力形变卷积的自动搜索的实时视频去雨方法。
背景技术
近年来,对高质量视频的需求迅速增长。但雨痕不可避免地会影响视频质量。因此,从视频中去除雨痕是一项重要的任务。近年来有许多专门为视频去雨任务设计的算法被提出。总的来说,现有的视频去雨方法大致可以分为以下几种:分为基于模型的方法和基于学习的方法。
在基于模型的代表方法中,有些算法在梯度域分析了雨纹和背景的不同的先验知识,或者构建一种稀疏编码模型用于视频去雨。然而,基于模型的方法在手工构造先验时就有局限性,只能去除一些特定的形状条纹。此外,他们通常花费大量的时间执行优化迭代过程。
进来,大量基于深度学习的视频去雨方法涌现,有算法采用了超像素分割技术进行对齐操作,之后利用额外的卷积神经网络补偿丢失的细节。此外有算法是设计一个循环网络,依次序去除每一帧中的雨痕。还有一些算法提出了一种连续深度展开框架来求解去雨模型,该框架包含了光流估计网络与多帧融合网络等等。
然而,这些方法仍有不尽人意之处,比如雨痕去除不干净,背景细节丢失,恢复的结果过于模糊等等。此外这些基于学习的方法大多利用光流估计技术来对齐相邻帧,但通常需要大量的时间来估计光流。现有的绝大部分深度学习的方法都是需要手工设计网络的结构然后去验证结构的有效性,而这需要大量的时间和精力。最近一段时间,网络架构搜索技术迅速发展,本发明借助网络结构搜索技术可以自动发现一个性能优异的视频去雨网络。
发明内容
本发明设计了一种基于注意力形变卷积的自动发现的视频去雨方法。本发明首先利用形变卷积来将相邻帧提取的特征隐式地对齐到目标帧,来充分地利用视频中的冗余信息辅助去除目标帧中的雨痕。而前人可能使用光流来起到对齐作用,但是光流计算量大,消耗时间。此外本发明并没有采用一般的形变卷积,而是巧妙地利用了通道注意力机制充分地提取通道间的相关信息来更好地估计偏移量,从而更好地对齐相邻帧。之后本发明不同于以往的方法,他们手工设计网络,耗时耗力,本方法利用网络架构搜索技术自动发现一个时空重建网络用于去除雨痕和恢复背景。其中首先定义搜索空间,基于残差学习的结构,设计了5个可以被搜索的操作:标准的残差块、使用膨胀卷积的残差块(膨胀系数设置为2)、使用形变卷积的残差块、附加空间注意力机制的残差块和附加通道注意力机制的残差块。然后利用可微分的网络架构搜索技术自动发现最优的操作来构建重建网络。最后利用循环的机制依次序去除视频中每一帧的雨痕,获得每一帧的干净的背景。
本发明采用的技术方案:
基于注意力形变卷积自动搜索的实时视频去雨方法,其特征在于:
步骤一、基于通道注意力机制估计偏移量用于做形变卷积操作。
首先,利用卷积层将目标帧和其相邻帧提取成特征:
Ft=Conv(Rt)
Ft-1=Conv(Rt-1)
其中Rt和Rt-1表示输入的带有雨痕的目标帧和其前一帧,Conv表示卷积层,其卷积核大小为3,输入通道数是3,输出通道数是64,Ft和Ft-1表示提取得到的特征,共64通道。
然后将从相邻两帧提取得到的特征进行卷积操作,之后经过通道注意力机制获得用于形变卷积的偏移量的估计:
ΔP=CA(Conv(Ft-1,Ft))
其中Conv表示卷积操作,CA表示标准的通道注意力机制,ΔP表示估计得到的偏移量。
步骤二、利用估计得到的偏移量将临近的视频帧的特征做形变卷积,以实现将相邻帧对齐到目标帧的效果。
Figure BDA0002896237120000031
其中DC表示标准的形变卷积的操作,
Figure BDA0002896237120000032
表示经过形变卷积之后的特征,它隐式的实现了对齐操作。
步骤三、利用网络架构搜索技术自动发现一个时空重建模块用于去除雨痕,恢复干净的背景。
首先构建用于网络搜索的搜索空间,基于之前的视频去雨和图像去雨的经验,可以被搜索的操作都是基于残差学习的结构,其中有:标准的残差块、使用膨胀卷积的残差块(膨胀系数设置为2)、使用形变卷积的残差块、附加空间注意力机制的残差块和附加通道注意力机制的残差块。搜索空间中共有六条边需要被搜索。
然后利用基于梯度的可微分的网络架构搜索技术来自动发现最优的网络结构。最后采用循环的方式依次序处理带有雨痕的视频中的每一帧,获得相对应的去雨结果。整体流程如公式所示:
Figure BDA0002896237120000033
其中ASTR表示该自动搜索的时空重建模块,ht-1表示上一帧处理获得的隐藏状态特征,ht表示当前该帧处理得到的隐藏状态,它可以作为处理下一帧的输入之一,
Figure BDA0002896237120000041
表示当前帧去雨后的重建的背景。
Figure BDA0002896237120000042
就是视频中第t帧的最终去雨结果。
本发明的有益效果:本发明针对水下图像增强问题提出的图像增强方法在处理颜色失真严重以及图像雾化严重的增强情况有很好的表现效果,不仅能矫正图像色彩,而且能很好的保留图像细节信息。本发明能够实现端到端的图像增强并且效果显著。
附图说明
图1是本发明方法的整体网络架构示意图。
图2是本发明中设计的主要的网络模块:(a)快速的基于注意力机制的形变卷积对齐模块(FADA);(b)自动发现的时空重建模块(ASTR);(c)可以被用于搜索的基本操作。
图3是本发明在合成的小雨视频上的去雨图像结果展示示意图,(a)合成的小雨视频中的一帧,(b)为相对应的真实的没有雨痕的背景,(c)为网络的去雨结果,结果显示可以去除掉雨痕,而且重建的背景也比较清晰。
图4是本发明在合成的大雨视频上的去雨图像结果展示示意图,(a)合成的大雨视频中的一帧,(b)为相对应的真实的没有雨痕的背景,(c)为网络的去雨结果,结果显示可以去除掉雨痕,而且重建的背景也比较清晰。
图5是本发明在包含有真实雨痕的视频上的去雨图像结果展示示意图,(a)为真实的带有雨痕的视频中的一帧,(b)为网络的去雨结果,结果显示可以去除掉真实的雨痕,而且重建的背景也比较清晰。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明的具体实施流程如图1和2中所示,首先使用卷积层从相邻的视频中提取特征,然后利用当前帧和相邻一帧的特征估计偏移量,其中采用了注意力机制来有效地提取特征信息。之后采用形变卷积将相邻帧的特征隐式地对齐到当前帧。之后将对齐后的特征输入到搜索得到的时空重建网络来去除雨痕,重建干净的背景。
本发明采用的是端到端的深度卷积神经网络用来实现整个的视频去雨算法。本方法首先使用可微分的网络架构搜索技术来自动发现最优的操作构建重建模块,其中需要将训练集按照5:5的比例划分为用于更新网络参数和更新结构参数的两个互不相交的结合,分别采用SGD和Adam优化器来优化两部分参数,训练的迭代次数是50个epoch。之后利用搜索到的操作构建重建网络,与前面的注意力形变卷积对齐网络一起联合训练,采用Adam优化器优化整体网络参数,训练的迭代次数是100个epoch。
本发明是视频增强算法,损失函数包括两大部分,分别是重建损失和保持视频时间一致性的损失函数:
Figure BDA0002896237120000051
其中λ设置为1.0。本发明选取在各种图像和视频增强算法中经常使用的结构相似度(MS-SSIM)与可以保持色彩和明度的L1损失函数相加作为重建损失函数LR,如下所示:
Figure BDA0002896237120000052
其中
Figure BDA0002896237120000053
表示第t帧对应的标签,
Figure BDA0002896237120000054
表示第t帧对应的去雨结果,
Figure BDA0002896237120000055
表示标准的结构相似损失函数,表示在亮度、对比度和结构相似度等指标的差异。此外本方法还设计了一个时间一致性的损失函数,用于约束重建后的相邻的视频帧,以保持结果的连续顺畅:
Figure BDA0002896237120000061
其中
Figure BDA0002896237120000062
表示需要预先计算的目标帧与相邻帧之间的关于遮挡的掩码。
损失函数是用来计算预测值与目标值之间的差距,损失值越小说明模型对数据的拟合越好,通过计算本发明的预测函数,可知本发明的方法对数据拟合效果好,因此去除雨痕的效果也会好。

Claims (2)

1.基于注意力形变卷积自动搜索的实时视频去雨方法,其特征在于:
步骤一、基于通道注意力机制估计偏移量,用于做形变卷积操作;
首先,利用卷积层将目标帧和其相邻帧提取成特征:
Ft=Conv(Rt)
Ft-1=Conv(Rt-1)
其中Rt和Rt-1表示输入的带有雨痕的目标帧和其前一帧,Conv表示卷积层,其卷积核大小为3,输入通道数是3,输出通道数是64,Ft和Ft-1表示提取得到的特征,共64通道;
然后将从相邻两帧提取得到的特征进行卷积操作,之后经过通道注意力机制获得用于形变卷积的偏移量的估计:
ΔP=CA(Conv(Ft-1,Ft))
其中Conv表示卷积操作,CA表示标准的通道注意力机制,ΔP表示估计得到的偏移量;
步骤二、利用估计得到的偏移量将临近的视频帧的特征做形变卷积,以实现将相邻帧到目标帧的效果;
Figure FDA0002896237110000011
其中DC表示标准的形变卷积的操作,
Figure FDA0002896237110000012
表示经过形变卷积之后的特征,它隐式的实现了对齐操作;
步骤三、利用网络架构搜索技术自动发现一个时空重建模块用于去除雨痕,恢复干净的背景;
首先构建用于网络搜索的搜索空间,基于之前的视频去雨和图像去雨的经验,可以被搜索的操作都是基于残差学习的结构,其中有:标准的残差块、使用膨胀卷积的残差块、使用形变卷积的残差块、附加空间注意力机制的残差块和附加通道注意力机制的残差块;搜索空间中共有六条边需要被搜索;
然后利用基于梯度的可微分的网络架构搜索技术来自动发现最优的网络结构;
最后采用循环的方式依次序处理带有雨痕的视频中的每一帧,获得相对应的去雨结果;整体流程如公式所示:
Figure FDA0002896237110000021
其中ASTR表示该自动搜索的时空重建模块,ht-1表示上一帧处理获得的隐藏状态特征,ht表示当前该帧处理得到的隐藏状态,它可以作为处理下一帧的输入之一,
Figure FDA0002896237110000029
表示当前帧去雨后的重建的背景。
2.根据权利要求1所述的基于注意力形变卷积自动搜索的实时视频去雨方法,其特征在于,利用损失函数来计算预测值与目标值之间的差距,损失函数包括重建损失函数和保持视频时间一致性的损失函数:
Figure FDA0002896237110000022
选取结构相似性损失函数与L1损失函数相加作为重建损失函数LR,如下所示:
Figure FDA0002896237110000023
其中
Figure FDA0002896237110000024
表示第t帧对应的标签,
Figure FDA0002896237110000025
表示第t帧对应的去雨结果,
Figure FDA0002896237110000026
表示标准的结构相似损失函数,表示在亮度、对比度和结构相似度等指标的差异;
时间一致性的损失函数:
Figure FDA0002896237110000027
其中
Figure FDA0002896237110000028
表示需要预先计算的目标帧与相邻帧之间的关于遮挡的掩码。
CN202110043497.5A 2021-01-13 2021-01-13 基于注意力形变卷积自动搜索的实时视频去雨方法 Active CN112734672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110043497.5A CN112734672B (zh) 2021-01-13 2021-01-13 基于注意力形变卷积自动搜索的实时视频去雨方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110043497.5A CN112734672B (zh) 2021-01-13 2021-01-13 基于注意力形变卷积自动搜索的实时视频去雨方法

Publications (2)

Publication Number Publication Date
CN112734672A true CN112734672A (zh) 2021-04-30
CN112734672B CN112734672B (zh) 2022-09-20

Family

ID=75591543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110043497.5A Active CN112734672B (zh) 2021-01-13 2021-01-13 基于注意力形变卷积自动搜索的实时视频去雨方法

Country Status (1)

Country Link
CN (1) CN112734672B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592830A (zh) * 2021-08-04 2021-11-02 航天信息股份有限公司 一种图像缺陷检测方法、装置及存储介质
CN113870129A (zh) * 2021-09-15 2021-12-31 大连理工大学 基于空间感知与时间差异学习的视频去雨方法
CN113887459A (zh) * 2021-10-12 2022-01-04 中国矿业大学(北京) 一种基于改进Unet++的露天矿区采场变化区域检测方法
CN115661535A (zh) * 2022-10-31 2023-01-31 中国矿业大学 一种目标去除背景恢复方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969577A (zh) * 2019-11-29 2020-04-07 北京交通大学 一种基于深度双重注意力网络的视频超分辨率重建方法
CN111553851A (zh) * 2020-04-08 2020-08-18 大连理工大学 一种基于时间域的雨线分解和空间结构引导的视频去雨方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969577A (zh) * 2019-11-29 2020-04-07 北京交通大学 一种基于深度双重注意力网络的视频超分辨率重建方法
CN111553851A (zh) * 2020-04-08 2020-08-18 大连理工大学 一种基于时间域的雨线分解和空间结构引导的视频去雨方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭台哲等: "基于分组卷积和空间注意力机制的单幅图像去雨方法", 《电脑知识与技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592830A (zh) * 2021-08-04 2021-11-02 航天信息股份有限公司 一种图像缺陷检测方法、装置及存储介质
CN113592830B (zh) * 2021-08-04 2024-05-03 航天信息股份有限公司 一种图像缺陷检测方法、装置及存储介质
CN113870129A (zh) * 2021-09-15 2021-12-31 大连理工大学 基于空间感知与时间差异学习的视频去雨方法
CN113887459A (zh) * 2021-10-12 2022-01-04 中国矿业大学(北京) 一种基于改进Unet++的露天矿区采场变化区域检测方法
CN115661535A (zh) * 2022-10-31 2023-01-31 中国矿业大学 一种目标去除背景恢复方法、装置和电子设备
CN115661535B (zh) * 2022-10-31 2023-11-03 中国矿业大学 一种目标去除背景恢复方法、装置和电子设备

Also Published As

Publication number Publication date
CN112734672B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN112734672B (zh) 基于注意力形变卷积自动搜索的实时视频去雨方法
Davy et al. A non-local CNN for video denoising
CN111260560B (zh) 一种融合注意力机制的多帧视频超分辨率方法
KR20200018283A (ko) 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법
CN105787867A (zh) 基于神经网络算法的处理视频图像的方法和装置
CN111553851A (zh) 一种基于时间域的雨线分解和空间结构引导的视频去雨方法
Yao et al. Improving depth gradient continuity in transformers: A comparative study on monocular depth estimation with cnn
CN114170286A (zh) 一种基于无监督深度学习的单目深度估计方法
Lin et al. Single image deraining via detail-guided efficient channel attention network
CN116862773A (zh) 一种应用于复杂场景下的视频超分辨率重建方法
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
Tang et al. AutoEnhancer: Transformer on U-Net architecture search for underwater image enhancement
Wang et al. PFDN: Pyramid feature decoupling network for single image deraining
CN113947538A (zh) 一种多尺度高效卷积自注意力单幅图像除雨方法
CN113055674B (zh) 一种基于两阶段多帧协同的压缩视频质量增强方法
WO2024040973A1 (zh) 一种基于堆叠沙漏网络的多尺度融合去雾方法
CN114764750B (zh) 基于自适应一致性先验深度网络的图像去噪方法
Li et al. Motion-compensated frame interpolation using patch-based sparseland model
CN113870129A (zh) 基于空间感知与时间差异学习的视频去雨方法
CN114463237A (zh) 基于全局运动补偿和帧间时域关联性的实时视频去雨方法
CN114140334A (zh) 一种基于改进生成对抗网络的复杂煤矿图像去雾方法
Li et al. H-vfi: Hierarchical frame interpolation for videos with large motions
Xue et al. Multi-scale features joint rain removal for single image
Xue et al. Investigating Collaborative Layer Projection for Robust Rain Scene Modeling
Liu et al. Spatial-temporal integration network with self-guidance for robust video deraining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant