CN112734672A - 基于注意力形变卷积自动搜索的实时视频去雨方法 - Google Patents
基于注意力形变卷积自动搜索的实时视频去雨方法 Download PDFInfo
- Publication number
- CN112734672A CN112734672A CN202110043497.5A CN202110043497A CN112734672A CN 112734672 A CN112734672 A CN 112734672A CN 202110043497 A CN202110043497 A CN 202110043497A CN 112734672 A CN112734672 A CN 112734672A
- Authority
- CN
- China
- Prior art keywords
- frame
- convolution
- rain
- video
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000006870 function Effects 0.000 claims description 17
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 230000010339 dilation Effects 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims 1
- 238000013461 design Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 101100502320 Arabidopsis thaliana FAD4 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000889 atomisation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G06T5/73—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration by the use of local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域,涉及到基于注意力形变卷积自动搜索的实时视频去雨方法。本发明首先利用形变卷积来将相邻帧提取的特征隐式地对齐到目标帧,来充分地利用视频中的冗余信息辅助去除目标帧中的雨痕。其中本发明巧妙地利用了通道注意力机制充分地提取通道间的相关信息来更好地估计偏移量,从而更好地对齐相邻帧。之后本发明利用网络架构搜索技术自动发现一个时空重建网络用于去除雨痕和恢复背景。其中首先定义搜索空间,基于残差学习的结构,设计了5个可以被搜索的操作。然后利用可微分的网络架构搜索技术自动发现最优的操作来构建重建网络。最后利用循环的机制依次序去除视频中每一帧的雨痕,获得每一帧的干净的背景。
Description
技术领域
本发明属于计算机视觉领域,涉及一种基于注意力形变卷积的自动搜索的实时视频去雨方法。
背景技术
近年来,对高质量视频的需求迅速增长。但雨痕不可避免地会影响视频质量。因此,从视频中去除雨痕是一项重要的任务。近年来有许多专门为视频去雨任务设计的算法被提出。总的来说,现有的视频去雨方法大致可以分为以下几种:分为基于模型的方法和基于学习的方法。
在基于模型的代表方法中,有些算法在梯度域分析了雨纹和背景的不同的先验知识,或者构建一种稀疏编码模型用于视频去雨。然而,基于模型的方法在手工构造先验时就有局限性,只能去除一些特定的形状条纹。此外,他们通常花费大量的时间执行优化迭代过程。
进来,大量基于深度学习的视频去雨方法涌现,有算法采用了超像素分割技术进行对齐操作,之后利用额外的卷积神经网络补偿丢失的细节。此外有算法是设计一个循环网络,依次序去除每一帧中的雨痕。还有一些算法提出了一种连续深度展开框架来求解去雨模型,该框架包含了光流估计网络与多帧融合网络等等。
然而,这些方法仍有不尽人意之处,比如雨痕去除不干净,背景细节丢失,恢复的结果过于模糊等等。此外这些基于学习的方法大多利用光流估计技术来对齐相邻帧,但通常需要大量的时间来估计光流。现有的绝大部分深度学习的方法都是需要手工设计网络的结构然后去验证结构的有效性,而这需要大量的时间和精力。最近一段时间,网络架构搜索技术迅速发展,本发明借助网络结构搜索技术可以自动发现一个性能优异的视频去雨网络。
发明内容
本发明设计了一种基于注意力形变卷积的自动发现的视频去雨方法。本发明首先利用形变卷积来将相邻帧提取的特征隐式地对齐到目标帧,来充分地利用视频中的冗余信息辅助去除目标帧中的雨痕。而前人可能使用光流来起到对齐作用,但是光流计算量大,消耗时间。此外本发明并没有采用一般的形变卷积,而是巧妙地利用了通道注意力机制充分地提取通道间的相关信息来更好地估计偏移量,从而更好地对齐相邻帧。之后本发明不同于以往的方法,他们手工设计网络,耗时耗力,本方法利用网络架构搜索技术自动发现一个时空重建网络用于去除雨痕和恢复背景。其中首先定义搜索空间,基于残差学习的结构,设计了5个可以被搜索的操作:标准的残差块、使用膨胀卷积的残差块(膨胀系数设置为2)、使用形变卷积的残差块、附加空间注意力机制的残差块和附加通道注意力机制的残差块。然后利用可微分的网络架构搜索技术自动发现最优的操作来构建重建网络。最后利用循环的机制依次序去除视频中每一帧的雨痕,获得每一帧的干净的背景。
本发明采用的技术方案:
基于注意力形变卷积自动搜索的实时视频去雨方法,其特征在于:
步骤一、基于通道注意力机制估计偏移量用于做形变卷积操作。
首先,利用卷积层将目标帧和其相邻帧提取成特征:
Ft=Conv(Rt)
Ft-1=Conv(Rt-1)
其中Rt和Rt-1表示输入的带有雨痕的目标帧和其前一帧,Conv表示卷积层,其卷积核大小为3,输入通道数是3,输出通道数是64,Ft和Ft-1表示提取得到的特征,共64通道。
然后将从相邻两帧提取得到的特征进行卷积操作,之后经过通道注意力机制获得用于形变卷积的偏移量的估计:
ΔP=CA(Conv(Ft-1,Ft))
其中Conv表示卷积操作,CA表示标准的通道注意力机制,ΔP表示估计得到的偏移量。
步骤二、利用估计得到的偏移量将临近的视频帧的特征做形变卷积,以实现将相邻帧对齐到目标帧的效果。
步骤三、利用网络架构搜索技术自动发现一个时空重建模块用于去除雨痕,恢复干净的背景。
首先构建用于网络搜索的搜索空间,基于之前的视频去雨和图像去雨的经验,可以被搜索的操作都是基于残差学习的结构,其中有:标准的残差块、使用膨胀卷积的残差块(膨胀系数设置为2)、使用形变卷积的残差块、附加空间注意力机制的残差块和附加通道注意力机制的残差块。搜索空间中共有六条边需要被搜索。
然后利用基于梯度的可微分的网络架构搜索技术来自动发现最优的网络结构。最后采用循环的方式依次序处理带有雨痕的视频中的每一帧,获得相对应的去雨结果。整体流程如公式所示:
本发明的有益效果:本发明针对水下图像增强问题提出的图像增强方法在处理颜色失真严重以及图像雾化严重的增强情况有很好的表现效果,不仅能矫正图像色彩,而且能很好的保留图像细节信息。本发明能够实现端到端的图像增强并且效果显著。
附图说明
图1是本发明方法的整体网络架构示意图。
图2是本发明中设计的主要的网络模块:(a)快速的基于注意力机制的形变卷积对齐模块(FADA);(b)自动发现的时空重建模块(ASTR);(c)可以被用于搜索的基本操作。
图3是本发明在合成的小雨视频上的去雨图像结果展示示意图,(a)合成的小雨视频中的一帧,(b)为相对应的真实的没有雨痕的背景,(c)为网络的去雨结果,结果显示可以去除掉雨痕,而且重建的背景也比较清晰。
图4是本发明在合成的大雨视频上的去雨图像结果展示示意图,(a)合成的大雨视频中的一帧,(b)为相对应的真实的没有雨痕的背景,(c)为网络的去雨结果,结果显示可以去除掉雨痕,而且重建的背景也比较清晰。
图5是本发明在包含有真实雨痕的视频上的去雨图像结果展示示意图,(a)为真实的带有雨痕的视频中的一帧,(b)为网络的去雨结果,结果显示可以去除掉真实的雨痕,而且重建的背景也比较清晰。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明的具体实施流程如图1和2中所示,首先使用卷积层从相邻的视频中提取特征,然后利用当前帧和相邻一帧的特征估计偏移量,其中采用了注意力机制来有效地提取特征信息。之后采用形变卷积将相邻帧的特征隐式地对齐到当前帧。之后将对齐后的特征输入到搜索得到的时空重建网络来去除雨痕,重建干净的背景。
本发明采用的是端到端的深度卷积神经网络用来实现整个的视频去雨算法。本方法首先使用可微分的网络架构搜索技术来自动发现最优的操作构建重建模块,其中需要将训练集按照5:5的比例划分为用于更新网络参数和更新结构参数的两个互不相交的结合,分别采用SGD和Adam优化器来优化两部分参数,训练的迭代次数是50个epoch。之后利用搜索到的操作构建重建网络,与前面的注意力形变卷积对齐网络一起联合训练,采用Adam优化器优化整体网络参数,训练的迭代次数是100个epoch。
本发明是视频增强算法,损失函数包括两大部分,分别是重建损失和保持视频时间一致性的损失函数:
其中λ设置为1.0。本发明选取在各种图像和视频增强算法中经常使用的结构相似度(MS-SSIM)与可以保持色彩和明度的L1损失函数相加作为重建损失函数LR,如下所示:
其中表示第t帧对应的标签,表示第t帧对应的去雨结果,表示标准的结构相似损失函数,表示在亮度、对比度和结构相似度等指标的差异。此外本方法还设计了一个时间一致性的损失函数,用于约束重建后的相邻的视频帧,以保持结果的连续顺畅:
损失函数是用来计算预测值与目标值之间的差距,损失值越小说明模型对数据的拟合越好,通过计算本发明的预测函数,可知本发明的方法对数据拟合效果好,因此去除雨痕的效果也会好。
Claims (2)
1.基于注意力形变卷积自动搜索的实时视频去雨方法,其特征在于:
步骤一、基于通道注意力机制估计偏移量,用于做形变卷积操作;
首先,利用卷积层将目标帧和其相邻帧提取成特征:
Ft=Conv(Rt)
Ft-1=Conv(Rt-1)
其中Rt和Rt-1表示输入的带有雨痕的目标帧和其前一帧,Conv表示卷积层,其卷积核大小为3,输入通道数是3,输出通道数是64,Ft和Ft-1表示提取得到的特征,共64通道;
然后将从相邻两帧提取得到的特征进行卷积操作,之后经过通道注意力机制获得用于形变卷积的偏移量的估计:
ΔP=CA(Conv(Ft-1,Ft))
其中Conv表示卷积操作,CA表示标准的通道注意力机制,ΔP表示估计得到的偏移量;
步骤二、利用估计得到的偏移量将临近的视频帧的特征做形变卷积,以实现将相邻帧到目标帧的效果;
步骤三、利用网络架构搜索技术自动发现一个时空重建模块用于去除雨痕,恢复干净的背景;
首先构建用于网络搜索的搜索空间,基于之前的视频去雨和图像去雨的经验,可以被搜索的操作都是基于残差学习的结构,其中有:标准的残差块、使用膨胀卷积的残差块、使用形变卷积的残差块、附加空间注意力机制的残差块和附加通道注意力机制的残差块;搜索空间中共有六条边需要被搜索;
然后利用基于梯度的可微分的网络架构搜索技术来自动发现最优的网络结构;
最后采用循环的方式依次序处理带有雨痕的视频中的每一帧,获得相对应的去雨结果;整体流程如公式所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110043497.5A CN112734672B (zh) | 2021-01-13 | 2021-01-13 | 基于注意力形变卷积自动搜索的实时视频去雨方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110043497.5A CN112734672B (zh) | 2021-01-13 | 2021-01-13 | 基于注意力形变卷积自动搜索的实时视频去雨方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112734672A true CN112734672A (zh) | 2021-04-30 |
CN112734672B CN112734672B (zh) | 2022-09-20 |
Family
ID=75591543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110043497.5A Active CN112734672B (zh) | 2021-01-13 | 2021-01-13 | 基于注意力形变卷积自动搜索的实时视频去雨方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734672B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592830A (zh) * | 2021-08-04 | 2021-11-02 | 航天信息股份有限公司 | 一种图像缺陷检测方法、装置及存储介质 |
CN113870129A (zh) * | 2021-09-15 | 2021-12-31 | 大连理工大学 | 基于空间感知与时间差异学习的视频去雨方法 |
CN113887459A (zh) * | 2021-10-12 | 2022-01-04 | 中国矿业大学(北京) | 一种基于改进Unet++的露天矿区采场变化区域检测方法 |
CN115661535A (zh) * | 2022-10-31 | 2023-01-31 | 中国矿业大学 | 一种目标去除背景恢复方法、装置和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969577A (zh) * | 2019-11-29 | 2020-04-07 | 北京交通大学 | 一种基于深度双重注意力网络的视频超分辨率重建方法 |
CN111553851A (zh) * | 2020-04-08 | 2020-08-18 | 大连理工大学 | 一种基于时间域的雨线分解和空间结构引导的视频去雨方法 |
-
2021
- 2021-01-13 CN CN202110043497.5A patent/CN112734672B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969577A (zh) * | 2019-11-29 | 2020-04-07 | 北京交通大学 | 一种基于深度双重注意力网络的视频超分辨率重建方法 |
CN111553851A (zh) * | 2020-04-08 | 2020-08-18 | 大连理工大学 | 一种基于时间域的雨线分解和空间结构引导的视频去雨方法 |
Non-Patent Citations (1)
Title |
---|
谭台哲等: "基于分组卷积和空间注意力机制的单幅图像去雨方法", 《电脑知识与技术》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592830A (zh) * | 2021-08-04 | 2021-11-02 | 航天信息股份有限公司 | 一种图像缺陷检测方法、装置及存储介质 |
CN113592830B (zh) * | 2021-08-04 | 2024-05-03 | 航天信息股份有限公司 | 一种图像缺陷检测方法、装置及存储介质 |
CN113870129A (zh) * | 2021-09-15 | 2021-12-31 | 大连理工大学 | 基于空间感知与时间差异学习的视频去雨方法 |
CN113887459A (zh) * | 2021-10-12 | 2022-01-04 | 中国矿业大学(北京) | 一种基于改进Unet++的露天矿区采场变化区域检测方法 |
CN115661535A (zh) * | 2022-10-31 | 2023-01-31 | 中国矿业大学 | 一种目标去除背景恢复方法、装置和电子设备 |
CN115661535B (zh) * | 2022-10-31 | 2023-11-03 | 中国矿业大学 | 一种目标去除背景恢复方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112734672B (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112734672B (zh) | 基于注意力形变卷积自动搜索的实时视频去雨方法 | |
Davy et al. | A non-local CNN for video denoising | |
CN111260560B (zh) | 一种融合注意力机制的多帧视频超分辨率方法 | |
KR20200018283A (ko) | 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법 | |
CN105787867A (zh) | 基于神经网络算法的处理视频图像的方法和装置 | |
CN111553851A (zh) | 一种基于时间域的雨线分解和空间结构引导的视频去雨方法 | |
Yao et al. | Improving depth gradient continuity in transformers: A comparative study on monocular depth estimation with cnn | |
CN114170286A (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
Lin et al. | Single image deraining via detail-guided efficient channel attention network | |
CN116862773A (zh) | 一种应用于复杂场景下的视频超分辨率重建方法 | |
CN109871790B (zh) | 一种基于混合神经网络模型的视频去色方法 | |
Tang et al. | AutoEnhancer: Transformer on U-Net architecture search for underwater image enhancement | |
Wang et al. | PFDN: Pyramid feature decoupling network for single image deraining | |
CN113947538A (zh) | 一种多尺度高效卷积自注意力单幅图像除雨方法 | |
CN113055674B (zh) | 一种基于两阶段多帧协同的压缩视频质量增强方法 | |
WO2024040973A1 (zh) | 一种基于堆叠沙漏网络的多尺度融合去雾方法 | |
CN114764750B (zh) | 基于自适应一致性先验深度网络的图像去噪方法 | |
Li et al. | Motion-compensated frame interpolation using patch-based sparseland model | |
CN113870129A (zh) | 基于空间感知与时间差异学习的视频去雨方法 | |
CN114463237A (zh) | 基于全局运动补偿和帧间时域关联性的实时视频去雨方法 | |
CN114140334A (zh) | 一种基于改进生成对抗网络的复杂煤矿图像去雾方法 | |
Li et al. | H-vfi: Hierarchical frame interpolation for videos with large motions | |
Xue et al. | Multi-scale features joint rain removal for single image | |
Xue et al. | Investigating Collaborative Layer Projection for Robust Rain Scene Modeling | |
Liu et al. | Spatial-temporal integration network with self-guidance for robust video deraining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |