CN112734672A

CN112734672A - 基于注意力形变卷积自动搜索的实时视频去雨方法

Info

Publication number: CN112734672A
Application number: CN202110043497.5A
Authority: CN
Inventors: 薛昕惟; 孟祥玉; 刘日升; 王祎; 樊鑫
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-30
Anticipated expiration: 2041-01-13
Also published as: CN112734672B

Abstract

本发明属于计算机视觉领域，涉及到基于注意力形变卷积自动搜索的实时视频去雨方法。本发明首先利用形变卷积来将相邻帧提取的特征隐式地对齐到目标帧，来充分地利用视频中的冗余信息辅助去除目标帧中的雨痕。其中本发明巧妙地利用了通道注意力机制充分地提取通道间的相关信息来更好地估计偏移量，从而更好地对齐相邻帧。之后本发明利用网络架构搜索技术自动发现一个时空重建网络用于去除雨痕和恢复背景。其中首先定义搜索空间，基于残差学习的结构，设计了5个可以被搜索的操作。然后利用可微分的网络架构搜索技术自动发现最优的操作来构建重建网络。最后利用循环的机制依次序去除视频中每一帧的雨痕，获得每一帧的干净的背景。

Description

基于注意力形变卷积自动搜索的实时视频去雨方法

技术领域

本发明属于计算机视觉领域，涉及一种基于注意力形变卷积的自动搜索的实时视频去雨方法。

背景技术

近年来，对高质量视频的需求迅速增长。但雨痕不可避免地会影响视频质量。因此，从视频中去除雨痕是一项重要的任务。近年来有许多专门为视频去雨任务设计的算法被提出。总的来说，现有的视频去雨方法大致可以分为以下几种：分为基于模型的方法和基于学习的方法。

在基于模型的代表方法中，有些算法在梯度域分析了雨纹和背景的不同的先验知识，或者构建一种稀疏编码模型用于视频去雨。然而，基于模型的方法在手工构造先验时就有局限性，只能去除一些特定的形状条纹。此外，他们通常花费大量的时间执行优化迭代过程。

进来，大量基于深度学习的视频去雨方法涌现，有算法采用了超像素分割技术进行对齐操作，之后利用额外的卷积神经网络补偿丢失的细节。此外有算法是设计一个循环网络，依次序去除每一帧中的雨痕。还有一些算法提出了一种连续深度展开框架来求解去雨模型，该框架包含了光流估计网络与多帧融合网络等等。

然而，这些方法仍有不尽人意之处，比如雨痕去除不干净，背景细节丢失，恢复的结果过于模糊等等。此外这些基于学习的方法大多利用光流估计技术来对齐相邻帧，但通常需要大量的时间来估计光流。现有的绝大部分深度学习的方法都是需要手工设计网络的结构然后去验证结构的有效性，而这需要大量的时间和精力。最近一段时间，网络架构搜索技术迅速发展，本发明借助网络结构搜索技术可以自动发现一个性能优异的视频去雨网络。

发明内容

本发明设计了一种基于注意力形变卷积的自动发现的视频去雨方法。本发明首先利用形变卷积来将相邻帧提取的特征隐式地对齐到目标帧，来充分地利用视频中的冗余信息辅助去除目标帧中的雨痕。而前人可能使用光流来起到对齐作用，但是光流计算量大，消耗时间。此外本发明并没有采用一般的形变卷积，而是巧妙地利用了通道注意力机制充分地提取通道间的相关信息来更好地估计偏移量，从而更好地对齐相邻帧。之后本发明不同于以往的方法，他们手工设计网络，耗时耗力，本方法利用网络架构搜索技术自动发现一个时空重建网络用于去除雨痕和恢复背景。其中首先定义搜索空间，基于残差学习的结构，设计了5个可以被搜索的操作：标准的残差块、使用膨胀卷积的残差块(膨胀系数设置为2)、使用形变卷积的残差块、附加空间注意力机制的残差块和附加通道注意力机制的残差块。然后利用可微分的网络架构搜索技术自动发现最优的操作来构建重建网络。最后利用循环的机制依次序去除视频中每一帧的雨痕，获得每一帧的干净的背景。

本发明采用的技术方案：

基于注意力形变卷积自动搜索的实时视频去雨方法，其特征在于：

步骤一、基于通道注意力机制估计偏移量用于做形变卷积操作。

首先，利用卷积层将目标帧和其相邻帧提取成特征：

F_t＝Conv(R_t)

F_t-1＝Conv(R_t-1)

其中R_t和R_t-1表示输入的带有雨痕的目标帧和其前一帧，Conv表示卷积层，其卷积核大小为3，输入通道数是3，输出通道数是64，F_t和F_t-1表示提取得到的特征，共64通道。

然后将从相邻两帧提取得到的特征进行卷积操作，之后经过通道注意力机制获得用于形变卷积的偏移量的估计：

ΔP＝CA(Conv(F_t-1,F_t))

其中Conv表示卷积操作，CA表示标准的通道注意力机制，ΔP表示估计得到的偏移量。

步骤二、利用估计得到的偏移量将临近的视频帧的特征做形变卷积，以实现将相邻帧对齐到目标帧的效果。

其中DC表示标准的形变卷积的操作，

表示经过形变卷积之后的特征，它隐式的实现了对齐操作。

步骤三、利用网络架构搜索技术自动发现一个时空重建模块用于去除雨痕，恢复干净的背景。

首先构建用于网络搜索的搜索空间，基于之前的视频去雨和图像去雨的经验，可以被搜索的操作都是基于残差学习的结构，其中有：标准的残差块、使用膨胀卷积的残差块(膨胀系数设置为2)、使用形变卷积的残差块、附加空间注意力机制的残差块和附加通道注意力机制的残差块。搜索空间中共有六条边需要被搜索。

然后利用基于梯度的可微分的网络架构搜索技术来自动发现最优的网络结构。最后采用循环的方式依次序处理带有雨痕的视频中的每一帧，获得相对应的去雨结果。整体流程如公式所示：

其中ASTR表示该自动搜索的时空重建模块，h_t-1表示上一帧处理获得的隐藏状态特征，h_t表示当前该帧处理得到的隐藏状态，它可以作为处理下一帧的输入之一，

表示当前帧去雨后的重建的背景。

就是视频中第t帧的最终去雨结果。

本发明的有益效果：本发明针对水下图像增强问题提出的图像增强方法在处理颜色失真严重以及图像雾化严重的增强情况有很好的表现效果，不仅能矫正图像色彩，而且能很好的保留图像细节信息。本发明能够实现端到端的图像增强并且效果显著。

附图说明

图1是本发明方法的整体网络架构示意图。

图2是本发明中设计的主要的网络模块：(a)快速的基于注意力机制的形变卷积对齐模块(FADA)；(b)自动发现的时空重建模块(ASTR)；(c)可以被用于搜索的基本操作。

图3是本发明在合成的小雨视频上的去雨图像结果展示示意图，(a)合成的小雨视频中的一帧，(b)为相对应的真实的没有雨痕的背景，(c)为网络的去雨结果，结果显示可以去除掉雨痕，而且重建的背景也比较清晰。

图4是本发明在合成的大雨视频上的去雨图像结果展示示意图，(a)合成的大雨视频中的一帧，(b)为相对应的真实的没有雨痕的背景，(c)为网络的去雨结果，结果显示可以去除掉雨痕，而且重建的背景也比较清晰。

图5是本发明在包含有真实雨痕的视频上的去雨图像结果展示示意图，(a)为真实的带有雨痕的视频中的一帧，(b)为网络的去雨结果，结果显示可以去除掉真实的雨痕，而且重建的背景也比较清晰。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明的具体实施流程如图1和2中所示，首先使用卷积层从相邻的视频中提取特征，然后利用当前帧和相邻一帧的特征估计偏移量，其中采用了注意力机制来有效地提取特征信息。之后采用形变卷积将相邻帧的特征隐式地对齐到当前帧。之后将对齐后的特征输入到搜索得到的时空重建网络来去除雨痕，重建干净的背景。

本发明采用的是端到端的深度卷积神经网络用来实现整个的视频去雨算法。本方法首先使用可微分的网络架构搜索技术来自动发现最优的操作构建重建模块，其中需要将训练集按照5:5的比例划分为用于更新网络参数和更新结构参数的两个互不相交的结合，分别采用SGD和Adam优化器来优化两部分参数，训练的迭代次数是50个epoch。之后利用搜索到的操作构建重建网络，与前面的注意力形变卷积对齐网络一起联合训练，采用Adam优化器优化整体网络参数，训练的迭代次数是100个epoch。

本发明是视频增强算法，损失函数包括两大部分，分别是重建损失和保持视频时间一致性的损失函数：

其中λ设置为1.0。本发明选取在各种图像和视频增强算法中经常使用的结构相似度(MS-SSIM)与可以保持色彩和明度的L1损失函数相加作为重建损失函数LR，如下所示：

其中

表示第t帧对应的标签，

表示第t帧对应的去雨结果，

表示标准的结构相似损失函数，表示在亮度、对比度和结构相似度等指标的差异。此外本方法还设计了一个时间一致性的损失函数，用于约束重建后的相邻的视频帧，以保持结果的连续顺畅：

其中

表示需要预先计算的目标帧与相邻帧之间的关于遮挡的掩码。

损失函数是用来计算预测值与目标值之间的差距，损失值越小说明模型对数据的拟合越好，通过计算本发明的预测函数，可知本发明的方法对数据拟合效果好，因此去除雨痕的效果也会好。