CN112348766A

CN112348766A - 一种用于监控视频增强的渐进式特征流深度融合网络

Info

Publication number: CN112348766A
Application number: CN202011230728.5A
Authority: CN
Inventors: 陈瑞; 杨航; 宫霄霖; 张衡
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-09
Anticipated expiration: 2040-11-06
Also published as: CN112348766B

Abstract

本发明公开一种用于监控视频增强的渐进式特征流深度融合网络，包括用于对监控视频进行亮度增强的多级特征流融合网络；所述多级特征流融合网络包括U形融合模块UFM，输入与所述U形融合模块UFM的输出连接的跨尺度融合模块CFM；所述U形融合模块UFM的输入连接第一基本卷积层的输出，所述跨尺度融合模块CFM的输出第二基本卷积层的输入；所述第一基本卷积层的输入与输入侧结合一卷积层的渗漏整流线性单元的输出连接，所述第二基本卷积层的输出连接帧重建模块的输入。本发明能解决监控视频中存在的低光照的问题。

Description

一种用于监控视频增强的渐进式特征流深度融合网络

技术领域

本发明涉及监控视频增强技术领域，特别是涉及一种用于监控视频增强的渐进式特征流深度融合网络。

背景技术

监控视频增强技术旨在将原始监控场景采集的视频增强。由于原始监控视频的采集场景复杂，采集到的视频通常包含噪声、模糊等退化，且当监控视频采集场景的光照强度较低时，噪声和模糊的程度会更加严重。监控视频增强技术在现实中有着广泛的需求，如实时增强视频质量辅助监控分析，提升人脸识别、车辆和文字检测等高层次视觉任务的精度。通常从同一帧中恢复出清晰的帧有多个可能的解，因此视频增强是典型的不适定问题，需要根据先验约束找出最优的退化帧到基准帧(Ground Truth，GT)间的映射关系，达到更好视频增强效果。

传统低光照增强技术主要有基于直方图均衡化的方法和基于Retinex理论的方法。基于直方图均衡化的方法通过扩大图像的动态范围进而增强图像对比度，但可能会导致过度增强。基于Retinex的方法依赖于人工选择参数，并且会放大噪声。基于深度学习的方法主要是通过从大量的数据集中学习低对比度单帧图像到高对比度单帧图像的映射。一些研究采用卷积神经网络模拟Retinex算法的处理过程，首先将输入的单帧图像分解成光照图和反射图，然后对这两个分量分别处理，最后重建出增强后的单帧图像。为了解决黑暗区域的大量存在的伪影和噪声，一些研究使用多分支卷积神经网络对不同深度的特征进行重建，最后融合这些重建特征，进而得到亮度增强后的单帧图像。尽管这些方法在合成数据集上取得了较好的效果，但在真实世界的数据中往往会产生伪影和色彩偏移。基于生成对抗网络的深度学习模型可以使用未配对的数据集进行训练。生成对抗网络模型中包含两个网络进行对抗训练。一是判别网络，目标是尽可能准确判断一个样本是来自于真实数据还是生成网络产生的；另一个是生成网络，目标是尽量生成判别网络无法区分来源的样本。这两个目标相反的网络进行交替训练，直到判别网络无法区分数据来源。尽管其在真实场景下取得了较好的结果，但需要精心地挑选未配对的图像，以达到良好的亮度增强效果。

早期的视频去模糊方法通常假设视频中存在锐利图像结构，并通过对其进行插值恢复中间帧。这种方法利用了相邻帧中存在的锐利图像结构信息来恢复中间帧，但往往会产生过于平滑的效果，因为视频中不总是存在足够的锐利结构信息。基于变分法的视频去模糊算法通过建立各种先验来约束中间帧和光流进行视频去模糊。这种基于光流的运动模糊估计方法的性能通常受限于光流估计的准确性。为了改善这种缺陷，一些研究使用具有强大表示能力的卷积神经网络估计光流，然后通过传统反卷积算法来恢复中间帧。

卷积神经网络具有强大的表示能力，可以从大量的数据中建立模糊图像到清晰图像之间的映射。基于编码器和解码器架构的卷积神经网络被成功应用于视频去模糊中。为了利用相邻帧之间的冗余信息，基于深度递归神经网络的模型被提出用于视频去模糊。这类模型通过反复利用前一帧的信息来帮助恢复中间帧，但其对相邻帧信息的利用还不够充分。由于相邻帧之间存在一定抖动，必须先将输入帧序列对齐才能进一步融合，针对这个问题基于光流对齐的深度学习模型被提出。这类模型通过光流来描述运动并做出运动补偿从而达到对齐的目的。还有一些模型使用3D卷积捕获相邻帧之间的时间和空间信息，从而更好地恢复中间帧图像，但这些模型对时间和空间冗余信息的利用不够充分。一些模型提出时间和空间注意力机制，来更好地融合对齐后的图像。这些模型在特定的公开数据集上取得了良好的效果，但这些数据集是由移动设备采集，再经人工合成的较为理想的数据集。然而监控场景下，视频质量受多种因素干扰，并且退化复杂，使得两者的数据分布差异很大，因此在监控场景下这些模型是不适用的。

发明内容

本发明的目的是为了更好地解决监控视频中存在的低光照和运动模糊的问题，而提供一种用于监控视频增强的渐进式特征流深度融合网络，提出了一个多级特征流融合网络对监控视频进行亮度增强和一个三阶段特征流融合网络来消除监控视频中的运动模糊。

为实现本发明的目的所采用的技术方案是：

一种用于监控视频增强的渐进式特征流深度融合网络，包括：

用于对监控视频进行亮度增强的多级特征流融合网络；所述多级特征流融合网络包括U形融合模块UFM，输入与所述U形融合模块UFM的输出连接的跨尺度融合模块CFM；所述U形融合模块UFM的输入连接第一基本卷积层的输出，所述跨尺度融合模块CFM的输出第二基本卷积层的输入；

所述第一基本卷积层的输入与输入侧结合一卷积层的渗漏整流线性单元的输出连接，所述第二基本卷积层的输出连接帧重建模块的输入，所述帧重建模块用于将所述渗漏整流线性单元的输出的浅层特征以及第二基本卷积层的输出的深层融合特征跳跃连接后形成的深层特征映射成亮度增强后的单帧图像。

其中，所述U形融合模块UFM包括由多个残差组RG构成的U形的编码解码网络，并在编码侧与解码侧之间设置有通道注意力模块CA，通道注意力模块CA与解码侧的残差组RG之间布置有卷积层；

从第一阶段开始逐渐对特征图进行下采样；在收缩路径中，在每个级别使用残差组RG提取特征；使用一层卷积对特征图下采样后，特征的小尺度信息将传到下一阶段的残差组RG再次提取特征；第一阶段通道数不变，其他两个阶段的第一层卷积会将通道数扩充一倍，以提取更加丰富的特征信息；

在扩展路径中，使用反卷积进行上采样操作，同上一阶段经过通道注意力模块CA加权的特征图在通道维度进行拼接，然后使用一层卷积将通道数缩减一倍，再使用残差组RG进一步处理；

表示第m阶段的编码部分的残差模块的输出，

表示m+1阶段的解码部分的残差组RG输出，则第m级的输出表示为：

其中

表示残差组RG模块的函数，

表示卷积层，H_CA(·)表示通道注意力模块CA的函数。

其中，所述通道注意力模块CA包括：依次顺序连接的全局均值池化层、第一全连接层FC、修正线性单元ReLU、第二全连接层FC、Sigmoid激活层；通过全局均值池化操作得到C×1×1大小的初始权重张量后，通过Sigmoid激活层输最后的权重张量F_M：

F_M＝f(F_C2(δ(F_C1(z))))

其中，f(·)表示Sigmoid门函数，F_C1和F_C2表示两个全连接层，δ(·)表示修正线性单元ReLU激活函数，C表示通道数。

其中，所述残差组RG包括四个顺序布置的增强残差块ERB，前三个增强残差块ERB提取的特征连接到最后一个增强残差块ERB的后端，并与最后一个增强残差块ERB的输出在通道维度拼接；其特征提取方式表示如下：

F_ERB0表示输入到残差组RG的特征图，F_ERB1,F_ERB2,F_ERB3,F_ERB4分别表示四个增强残差块ERB的输出，F_C表示聚合后的残差特征图；经过一层卷积缩减通道数后，再与残差组RG的输入做一个残差连接，最后输出:

F_RG＝F_ERB0+H_Conv(F_C)

其中F_RG表示残差组RG的输出，H_Conv(·)表示恢复通道数的卷积操作。

其中，所述增强残差块ERB由一个卷积层、一个修正线性单元ReLU、另一个卷积层和一个增强空间注意力模块ESA顺次连接构成。

其中，所述增强空间注意力模块ESA依次包括用于缩减通道数的一层卷积层，用于扩大感受野的一层卷积加池化层，所述卷积加池化层后连接卷积组RG，所述卷积组RG后连接用于将特征上采样到到初始大小的上采样层，然后同初始缩减通道后的特征做残差连接；表达式如下：

F_rf＝H_erf(F₁)+F₁

其中H_erf表示卷积、池化、卷积组RG、上采样层顺次连接的特征提取操作，F_rf表示提取的感兴趣区域；

做残差连接后，再经一层卷积恢复通道数，最后经过Sigmoid激活后得到注意力掩膜；初始的特征图同这个注意力掩膜做哈达玛积，得到加权后的特征图；表达式如下：

F_ESA＝H_S(H_C2(F_rf))e F₀

其中F_ESA表示增强空间注意力(ESA)模块输出的特征图，H_C2(·)表示恢复通道数的卷积操作，H_S(·)表示Sigmoid激活，e表示哈达玛积。

其中，所述的跨尺度融合模块CFM包括多层结构，每层包括多个残差块RB，分别用于提取、融合不同分辨率的特征；不同尺度的特征融合前先经过上采样和\或下采样调整到相同尺度，经过上采样和\或下采样后将相同尺度的特征图在通道维度进行拼接，进而融合特征图；所述残差块RB的主体是一层卷积、实例正则化层、渗漏整流线性单元LreLU和一层卷积的顺次连接。

其中，所述多级特征流融合网络的整体损失可表示如下：

l^MFFN＝λ₁L_Content+λ₂L_MS-SSIM+λ₃L_Perceptual+λ₄L_Color

其中λ₁，λ₂，λ₃，λ₄是表示各项损失权重的超参数，

表示内容损失，用于评估重建视频的单帧图像和基准视频的单帧图像之间的L1范数，通过减小平均像素差来加快模型收敛；

其中H_MFFN(·)表示多级特征流融合网络MFFN函数，I_L表示低亮度视频的单帧图像，I_GT表示基准视频的单帧图像；

多层级结构相似性通过在不同尺度下多次计算结构相似性后得到最终评价分数，因此使用多层级结构相似性损失能恢复出更加接近人主观感知的图像；图像的宽高以2^M-1为缩小因子，例如当M＝2时表示图像缩小一半，表达式如下：

其中α_M,β_j,γ_j表示可调节超参数，l_M(x,y)，c_j(x,y)，s_j(x,y)分别表示不同尺度重建图像和基准图像之间的亮度、内容和结构相似度，L_MS-SSIM表示多层级结构相似性损失；

感知损失度量首先通过预训练好的VGG-19网络提取深层特征，再度量重建视频的单帧图像同基准视频的单帧图像的深层特征之间的L1范数：

其中

表示提取VGG-19网络第i层池化前的第j层卷积输出特征图的操作；

颜色损失的提出是为了减少重建视频和基准视频之间的色差，首先使用相同的高斯核处理重建后的视频单帧图像和基准视频单帧图像，然后计算二者L1范数：

其中G(·)表示高斯核，颜色损失促使减小重建单帧图像同基准单帧图像亮度和对比度的差异，忽略纹理和内容的差异，从而提高低光照单帧图像的亮度和对比度。

所述用于监控视频增强的渐进式特征流深度融合网络，还包括一个三阶段特征流融合网络TFFN，包括由顺序连接的多尺度融合模块MFM、跨尺度融合模块CFM和空洞卷积模块ACM构成的深层特征提取模块；多尺度融合模块MFM的前端布置有一层卷积加渗漏整流线性单元LreLU，用于提取浅层特征：提取的浅层特征输入到深层特征提取模块中处理；

其中，多尺度融合模块MFM通过残差连接对多尺度的信息进行融合，随后进入跨尺度融合模块CFM进一步提取和融合特征，最后由空洞卷积模块ACM中包含的并行空洞卷积进行特征提取，并使用一个通道注意力模块CA辅助特征融合，最后重建出的去除模糊后的单帧图像I_D；表示如下：

I_D＝F_MSB+I_E，

F_MSB＝H_MSB(F_DFB)

F_DFB＝H_ACM(H_CFM(H_MFM(F_OB)))

其中H_MSB(·)表示由渗漏整流线性单元LReLU加卷积层组成的深层特征融合重建结构，F_MSB表示重建得到的三通道特征，重建的深层特征与原始图片输入做残差连接后作为网络输出，即去除模糊后的单帧图像：

其中，F_DFB表示提取到的深层次特征，H_MFM(·)、H_CFM(·)和H_ACM(·)分别表示多尺度融合模块MFM、跨尺度融合模块CFM和空洞卷积模块ACM。

其中，所述多尺度融合模块MFM包括多个特征提取模块，每个特征提取模块包括由一层卷积Conv、批归一化层BN和修正线性单元ReLU顺次连接形成的卷积块；从第一个阶段开始逐渐对特征图下采样，在收缩路径中使用两层卷积块以提取特征，在使用一层的两个卷积块进行下采样后，提取的特征将输入到下一阶段的特征提取模块，第一阶段卷积操作不会改变通道的数量，其他两个阶段第一个卷积操作会将通道数扩充一倍，特征在第二阶段使用三个卷积块以提取特征，第三个阶段使用五个卷积块以提取更加精细的小尺度特征；

在扩展路径中将特征图上采样，以便使用残差连接相同尺度的特征图，然后使用若干卷积块加一层卷积融合组合后的特征图，扩展路径的最终输出同该模块的输入做残差连接，从而得到该模块的最终输出。

其中，所述空洞卷积融合模块ACM包括四种不同扩张率的空洞卷积层，所述四种不同扩张率的空洞卷积层后布置有连接层；

输入特征F_in被同时输入到四种不同扩张率的空洞卷积层，然后将得到的特征图在通道维度拼接，表达式如下：

F_AR＝(H_AR1(F_in),H_AR2(F_in),H_AR3(F_in),H_AR4(F_in))

其中H_AR1(·),H_AR2(·),H_AR3(·),H_AR4(·),分别表示四种不同扩张率的空洞卷积，(·)表示通道维度的特征图拼接，随后F_AR经过通道注意力模块CA对每个通道赋予学习到的权重，再经顺次连接的渗漏整流线性单元LReLU和卷积层融合特征并缩减通道数；空洞卷积融合模块ACM的输出表示为：

F_out＝F_in+H_f(F_AR)

其中H_f(·)表示特征融合函数，F_out表示空洞卷积融合模块ACM的输出特征。

其中，所述的三阶段特征流融合网络TFFN采用内容损失与感知损失组合形成的目标函数进行优化；

其中I_R表示消除模糊后的单帧图像，I_gt表示对应的基准视频的单帧图像，l_Content表示内容损失，l_Perceptual表示感知损失，α和β表示两项损失的权重参数，l^TFFN表示多三阶段特征流融合网络TFFN的整体损失。

本发明构建了一个U形融合模块，以充分利用不同尺度的空间信息，同时引入通道注意力机制，以更有效地融合特征。

本发明提出了一个跨尺度融合模块，通过融合多种尺度的特征，进而达到更有效利用上下文信息的目的。

本发明提出了一个多尺度融合模块，并使用残差连接对不同尺度的特征进行融合。

为了更好地利用不同空间位置的信息并提升感受野大小，提出一个空洞卷积模块，使用四个并行的、不同扩张率的空洞卷积提取特征，并通过通道注意力机制辅助融合这些特征。

另外，本发明提出了多种损失函数组合的目标函数，从而促进网络恢复出更多细节和纹理信息。

附图说明

图1是本发明的亮度增强的多级特征流融合网络的结构示意图；

图2是本发明的U形融合模块UFM的结构示意图；

图3是本发明的增强残差块ERB的结构示意图；

图4是本发明的增强空间注意力模块ESA的结构示意图；

图5是本发明的跨尺度融合模块CFM的结构示意图；

图6是本发明的三阶段特征流融合网络的结构示意图；

图7是本发明的多尺度融合模块MFM的结构示意图；

图8是本发明的空洞卷积模块ACM的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出两个用于监控视频增强的深度特征融合网络：其一是用于亮度增强的多级特征流融合网络(Multi-level Feature-Flow Fusion Network,MFFN)，其二是用于运动模糊消除的三阶段特征流融合网络。

本发明设计了四个特征融合模块，以更好地利用空间特征信息，提升视频重建质量。凭借对空间特征信息的有效利用，本发明提出的两个网络在监控视频增强方面取得了良好的效果。

本发明用于监控视频增强的渐进式特征流深度融合网络，包括一个多级特征流融合网络(Multi-level Feature-Flow Fusion Network,MFFN)，如图1所示，MFFN网络由U形融合模块(U-shaped Fusion Module,UFM)和跨尺度融合模块(Cross-Scale FusionModule,CFM)构成。

本发明用I_L表示初始的退化图片，I_E表示亮度增强后的输出。本发明使用一层卷积结合渗漏整流线性单元(Leaky Rectified Linear Unit，LReLU)提取浅层特征F₀:

F₀＝H_SFA(I_L) (1)

其中H_SFA(·)表示卷积加LReLU激活操作。随后，提取到的浅层特征F₀被输入到深层特征提取模块，用于深层特征的提取与融合。因此，可以进一步得到以下表达式：

F_MSA＝H_Conv2(H_CFM(H_UFM(H_Conv1(F₀)))) (2)

其中，H_Conv1(·)和H_Conv2(·)均表示卷积层，H_UFM(·),H_CFM(·)分别表示UFM和CFM两个特征提取融合模块。其中UFM使用残差组(Residual Group,RG)提取丰富的多尺度信息，并且通过通道注意力机制对多尺度信息进行融合，增加有效特征的权重。CFM增加了不同尺度信息的融合，进而更有效地利用不同尺度的空间特征信息。经过卷积层进一步融合特征后，通过跳跃连接与浅层特征F₀连接,得到深层特征：

F_DFA＝F_MSA+I_L (3)

最后通过帧重建模块将深层特征映射成亮度增强后的单帧图像I_E：

I_E＝H_RMA(F_DFA)＝H_MFFN(I_L) (4)

其中H_RMA(·)表示帧重建模块，H_MFFN(·)表示整个MFFN网络函数。

本发明提出的U形融合模块(UFM)，如图2所示。其中图2右侧为通道注意力(Channel Attention,CA)模块。U形融合模块(UFM)引入通道注意力(CA)机制增加不同尺度的有效特征的权重，进而帮助提升视频重建质量。基本的U形融合模块(UFM)本质上是一种编码解码网络，其中的收缩路径和对称扩展路径通过一系列的跳跃连接进行连接。

为了捕获更大感受野的空间特征信息，U形融合模块(UFM)从第一阶段(图2左侧第一个残差组(RG)开始逐渐对特征图进行下采样。在收缩路径中，在每个阶段使用残差组(RG)提取特征。使用一层卷积对特征图下采样后，特征的小尺度信息将传到下一阶段的残差组(RG)(图2左侧第二个残差组RG)再次提取特征。第一阶段通道数不变，其他两个阶段的第一层卷积会将通道数扩充一倍，以提取更加丰富的特征信息。在扩展路径中使用反卷积进行上采样操作，同上一阶段经过通道注意力(CA)加权的特征图在通道维度进行拼接，然后使用一层卷积将通道数缩减一倍，再使用残差组(RG)进一步处理。

表示第m阶段的编码部分的残差模块的输出，

表示(m+1)阶段的解码部分的残差组(RG)输出。第m级的输出可表示为：

其中

表示残差组(RG)模块的函数，

表示卷积层，H_CA(·)表示通道注意力(CA)模块的函数。

通道注意力(CA)模块的结构如图2右侧所示，对输入到该模块的特征图进行全局均值池化操作得到C×1×1(C表示通道数)大小的初始权重张量，如下式所示(以第c个通道为例)：

其中H、W分别表示特征图的长和宽。而后经过全连接层(Fully Connected Layer，FC)、修正线性单元(Rectified Linear Unit，ReLU)、全连接层(FC)和Sigmoid激活后得到最终的权重张量F_M：

F_M＝f(F_C2(δ(F_C1(z)))) (7)

其中f(·)表示Sigmoid门函数，F_C1和F_C2表示两个全连接层，δ(·)表示修正线性单元(ReLU)激活函数。

U形融合模块(UFM)中的残差组(RG)模块如图3所示，上半部是残差组(RG)的主干部分，下半部分是主干中增强残差块(Enhanced Residual Block,ERB)的结构。为了更好地利用局部残差特征，该模块将前三个增强残差块(ERB)提取的特征连接到第四个增强残差块(ERB)的后端，并与最后一个增强残差块(ERB)的输出在通道维度拼接，表达式如下：

其中F_ERB0表示输入到残差组(RG)模块的特征图，F_ERB1,F_ERB2,F_ERB3,F_ERB4分别表示四个增强残差块(ERB)的输出，F_C表示聚合后的残差特征图。经过一层卷积缩减通道数后，再与残差组(RG)模块的输入做一个残差连接，表达式如下:

F_RG＝F_ERB0+H_Conv(F_C) (9)

其中F_RG表示残差组(RG)模块的输出，H_Conv(·)表示恢复通道数的卷积操作。

增强残差块(ERB)的结构如图3下半部分所示，由卷积、修正线性单元(ReLU)、卷积和增强空间注意力(Enhanced Spatial Attention,ESA)模块顺次连接构成。增强空间注意力(ESA)模块的结构如图4所示。该模块首先通过一层卷积缩减通道数:

F₁＝H_C1(F₀)(10)

其中F₀表示输入增强空间注意力(ESA)模块的特征，H_C1(·)表示缩减通道数的卷积操作，F₁表示缩减通道数之后的特征图。然后使用一层卷积加池化来扩大感受野。经过一个卷积组(Conv Group，CG)处理后将特征上采样到初始大小，然后同初始缩减通道后的特征做残差连接，表达式如下：

F_rf＝H_erf(F₁)+F₁ (11)

其中H_erf表示卷积、池化、卷积组(CG)、上采样模块顺次连接的特征提取操作，F_rf表示提取的感兴趣区域。然后再经一层卷积恢复通道数。最后经过Sigmoid激活后得到注意力掩膜。初始的特征图同这个注意力掩膜做哈达玛积，从而得到加权后的特征图。表达式如下：

F_ESA＝H_S(H_C2(F_rf))e F₀ (12)

本发明提出的跨尺度融合模块(CFM)，如图5所示。左侧为跨尺度融合模块(CFM)的整体架构，右侧为其中残差块(Residual Block,RB)的结构。跨尺度融合模块(CFM)通过更多的残差块(RB)提取、融合不同分辨率的特征。不同尺度的特征融合前需要先经过上采样或下采样调整到相同尺度。经过上采样或下采样后将相同尺度的特征图在通道维度进行拼接，进而融合特征图。

所述的跨尺度融合模块(CFM)由三层结构的残差块(RB)组成，每层包括多个顺序布置的残差块(RB)，第一层的通道数不变，第二、三层的通道数对应扩充，第二、三层的残差块(RB)相应减少，如各自比上一层少两个；上一层的每个残差块(RB)处理后，经下采样后再由下一层的残差块(RB)以及同一层后续所连接的残差块(RB)处理，以提取融合不同分辨率特征，在每层的中间部分加强不同分辨率特征的融合。其中在中间部分每一层的每个残差块(RB)，经上采样或下采样后再由每层的后续的残差块(RB)处理，实现融合了所有尺度的特征信息。这样的结构设计大大促进了不同尺度的深度特征信息融合，更加有效地利用了不同尺度的上下文信息。

所述的跨尺度融合模块(CFM)中的残差块(RB)结构如图5右侧所示。该结构的主体是一层卷积、实例正则化层、渗漏整流线性单元(LReLU)和一层卷积的顺次连接，然后在该结构主体的基础上引入残差连接。已证明残差连接可以防止模型退化，同时加快模型收敛速度。该模块可表示如下：

F_RBO＝H_RB(F_RBI)+F_RBI (13)

其中F_RBI、F_RBO分别表示残差块(RB)的输入和输出，H_RB(·)表示残差块(RB)主干特征提取函数。

本发明针对多级特征流融合网络(MFFN)提出了内容损失、多层级结构相似性损失、基于预训练VGG网络的感知损失和颜色损失组合的目标函数。

内容损失用于评估重建视频的单帧图像和基准视频的单帧图像之间的L1范数。通过减小平均像素差来加快模型收敛。表达式如下：

其中H_MFFN(·)表示多级特征流融合网络(MFFN)函数，I_L表示低亮度视频的单帧图像，I_GT表示基准视频的单帧图像。

多层级结构相似性通过在不同尺度下多次计算结构相似性后得到最终评价分数。因此使用多层级结构相似性损失可以帮助恢复出更加接近人主观感知的图像。图像的宽高以2^M-1为缩小因子，例如当M＝2时表示图像缩小一半，表达式如下：

其中α_M,β_j,γ_j表示可调节超参数，l_M(x,y)，c_j(x,y)，s_j(x,y)分别表示不同尺度重建图像和基准图像之间的亮度、内容和结构相似度，L_MS-SSIM表示多层级结构相似性损失。

其中

表示提取VGG-19网络第i层池化前的第j层卷积输出特征图的操作。

颜色损失的提出是为了减少重建视频和基准视频之间的色差。首先使用相同的高斯核处理重建后的视频单帧图像和基准视频单帧图像，然后计算二者L1范数：

其中G(·)表示高斯核。这部分损失促使减小重建单帧图像同基准单帧图像亮度和对比度的差异，忽略纹理和内容的差异，从而提高低光照单帧图像的亮度和对比度。

亮度增强网络的整体损失可表示如下：

l^MFFN＝λ₁L_Content+λ₂L_MS-SSIM+λ₃L_Perceptual+λ₄L_Color (18)

其中λ₁，λ₂，λ₃，λ₄是表示各项损失权重的超参数。

本发明还提出一个三阶段特征流融合网络(Three-Stage Feature-Flow FusionNetwork，TFFN)。如图6所示。三阶段特征流融合网络(TFFN)主要由多尺度融合模块(Multi-Scale Fusion Module,MFM)、跨尺度融合模块(CFM)和空洞卷积模块(AtrousConvolutional Module,ACM)组成。初始阶段，本发明采用一层卷积加渗漏整流线性单元(LReLU)提取浅层特征：

F_OB＝H_SFB(I_E) (19)

其中H_SFB(·)表示特征提取模块，F_OB为提取的浅层特征。紧接着将浅层特征输入深层特征提取模块，表达式如下：

F_DFB＝H_ACM(H_CFM(H_MFM(F_OB))) (20)

其中F_DFB表示提取到的深层次特征，H_MFM(·)、H_CFM(·)和H_ACM(·)分别表示多尺度融合模块(MFM)、跨尺度融合模块(CFM)和空洞卷积模块(ACM)。这三个模块是网络的核心部分。多尺度融合模块(MFM)通过残差连接对多尺度的信息进行融合，随后进入跨尺度融合模块(CFM)模块进一步提取和融合特征，最后由空洞卷积模块(ACM)中包含的并行空洞卷积进行特征提取，并使用通道注意力(CA)机制辅助特征融合。并行空洞卷积使得无需下采样就可以获得更大的感受野，从而提取到更加精细的深层特征。进一步引出以下深层特征融合表达式：

F_MSB＝H_MSB(F_DFB) (21)

其中H_MSB(·)表示由渗漏整流线性单元(LReLU)加卷积层组成的深层特征融合重建结构，F_MSB表示重建得到的三通道特征。重建的深层特征与原始图片输入做残差连接后作为网络输出：

I_D＝F_MSB+I_E (22)

其中I_D表示最终重建出的去除模糊后的单帧图像。这种残差连接可以使训练更稳定，同时加快模型收敛速度。

本发明提出的多尺度融合模块(MFM)，如图7所示。该结构采用与U形融合模块(UFM)相似的设计理念，但是不同尺度特征的融合方式由通道维度的特征图拼接变更为残差连接。这样可以减少参数量，同时增加特征融合方式的多样性。特征提取的基本模块变更为一层卷积、批归一化层(Batch Normalization，BN)和修正线性单元(ReLU)的顺次连接(为叙述简便，以下称卷积块)。批归一化层(BN)的引入可以解决网络参数训练时内部协方差的偏移，进而使得网络更加容易训练。

为了获取更大的感受野，多尺度融合模块(MFM)从第一个阶段(图7中左起第1至第2个方框)开始逐渐对特征图下采样。在收缩路径中使用两个卷积层以提取特征。使用一层卷积进行下采样后，提取的特征将输入到下一阶段的卷积层特征提取模块。第一阶段卷积操作不会改变通道的数量，其他两个阶段第一个卷积操作会将通道数扩充一倍。特征在第二阶段使用三个卷积块(图7中左起第3至第5个方框)以提取特征，第三个阶段使用五个卷积块(图7中左起第6至第10个方框，第11个方框(Conv)用于融合这一尺度的特征)以提取更加精细的小尺度特征。

在扩展路径中将特征图上采样，以便使用残差连接相同尺度的特征图。然后使用若干卷积块加一层卷积融合组合后的特征图。扩展路径的最终输出同该模块的输入做残差连接，从而得到该模块的最终输出。

具体的，第三阶段的输出经过上采样后同第二阶段的输出作残差连接，然后进入两个卷积块和一层卷积，再经上采样后，同第一阶段的输出作残差连接，然后送入一个卷积块加一层卷积处理，输出同MFM模块初始输入作残差连接后作为本模块的最终输出。

本发明提出的空洞卷积融合模块(ACM)，如图8所示。为了进一步扩大感受野，提取更丰富的上下文信息，本发明引入空洞卷积。使用空洞卷积的好处在于可以以较少的参数量获得更大的感受野。以扩张率为2时为例，其感受野与普通的5×5卷积感受野相同，而参数量和计算量与普通的3×3卷积相同。因此使用空洞卷积就可以提取更大范围的空间特征信息，而不必进行下采样操作，以防止信息丢失。

空洞卷积融合模块(ACM)的输入特征F_in被同时输入到四种不同扩张率的空洞卷积层，然后将得到的特征图在通道维度拼接，表达式如下：

F_AR＝(H_AR1(F_in),H_AR2(F_in),H_AR3(F_in),H_AR4(F_in)) (23)

其中H_AR1(·),H_AR2(·),H_AR3(·),H_AR4(·),分别表示四种不同扩张率的空洞卷积，(·)表示通道维度的特征图拼接。随后F_AR经过通道注意力(CA)机制对每个通道赋予学习到的权重。再经顺次连接的渗漏整流线性单元(LReLU)和卷积层融合特征并缩减通道数。具体的，种扩张率的空洞卷积输出的特征拼接后会输入到全局池化(Global Pooling)，全连接(FC)，渗漏整流线性单元(LReLU)，全连接(FC)，Sigmoid的顺次连接的模块，输出为4C×1(C表示初始进入ACM模块特征的通道数)的权重，然后同前面提到的拼接后的特征做乘积，从而对拼接后的特征每个通道赋予一定的权重。加权后的特征图经渗漏整流线性单元(LReLU)处理后，再经一层卷积缩减通道数到C，然后同输入这一模块的初始输入作残差连接后作为ACM模块的最终输出。

空洞卷积融合模块(ACM)的输出可表示为：

F_out＝F_in+H_f(F_AR) (24)

其中H_f(·)表示特征融合函数，F_out表示空洞卷积融合模块(ACM)的输出特征。

本发明针对三阶段特征流融合网络(TFFN)提出了内容损失与感知损失组合的目标函数对网络进行优化。

其中I_R表示消除模糊后的单帧图像，I_gt表示对应的基准视频的单帧图像。l_Content表示内容损失，l_Perceptual表示感知损失，α和β表示两项损失的权重参数，l^TFFN表示多三阶段特征流融合网络(TFFN)的整体损失。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.用于监控视频增强的渐进式特征流深度融合网络，其特征在于，包括用于对监控视频进行亮度增强的多级特征流融合网络；所述多级特征流融合网络包括U形融合模块UFM，输入与所述U形融合模块UFM的输出连接的跨尺度融合模块CFM；所述U形融合模块UFM的输入连接第一基本卷积层的输出，所述跨尺度融合模块CFM的输出第二基本卷积层的输入；

2.根据权利要求1所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，所述U形融合模块UFM包括由多个残差组RG构成的U形的编码解码网络，并在编码侧与解码侧之间设置有通道注意力模块CA，通道注意力模块CA与解码侧的残差组RG之间布置有卷积层；

表示第m阶段的编码部分的残差模块的输出，

其中

表示残差组RG的函数，

表示卷积层，H_CA(·)表示通道注意力模块CA的函数。

3.根据权利要求2所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，所述通道注意力模块CA包括：依次顺序连接的全局均值池化层、第一全连接层FC、修正线性单元ReLU、第二全连接层FC、Sigmoid激活层；通过全局均值池化操作得到C×1×1大小的初始权重张量后，通过Sigmoid激活层输最后的权重张量F_M：

F_M＝f(F_C2(δ(F_C1(z))))

4.根据权利要求2所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，所述残差组RG包括四个顺序布置的增强残差块ERB，前三个增强残差块ERB提取的特征连接到最后一个增强残差块ERB的后端，并与最后一个增强残差块ERB的输出在通道维度拼接；其特征提取方式表示如下：

F_RG＝F_ERB0+H_Conv(F_C)

5.根据权利要求4所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，所述增强残差块ERB由一个卷积层、一个修正线性单元ReLU、另一个卷积层和一个增强空间注意力模块ESA顺次连接构成。

6.根据权利要求5所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，所述增强空间注意力模块ESA依次包括用于缩减通道数的一层卷积层，用于扩大感受野的一层卷积加池化层，所述卷积加池化层后连接卷积组RG，所述卷积组RG后连接用于将特征上采样到到初始大小的上采样层，然后同初始缩减通道后的特征做残差连接；表达式如下：

F_rf＝H_erf(F₁)+F₁

F_ESA＝H_S(H_C2(F_rf))e F₀

7.根据权利要求5所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，所述的跨尺度融合模块CFM包括多层结构，每层包括多个残差块RB，分别用于提取、融合不同分辨率的特征；不同尺度的特征融合前先经过上采样和\或下采样调整到相同尺度，经过上采样和\或下采样后将相同尺度的特征图在通道维度进行拼接，进而融合特征图；所述残差块RB的主体是一层卷积、实例正则化层、渗漏整流线性单元LreLU和一层卷积的顺次连接。

8.根据权利要求5所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，多级特征流融合网络的整体损失可表示如下：

l^MFFN＝λ₁L_Content+λ₂L_MS-SSIM+λ₃L_Perceptual+λ₄L_Color

其中λ₁，λ₂，λ₃，λ₄是表示各项损失权重的超参数，

其中

9.根据权利要求1-8任一项所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，还包括一个三阶段特征流融合网络TFFN，包括由顺序连接的多尺度融合模块MFM、跨尺度融合模块CFM和空洞卷积模块ACM构成的深层特征提取模块；多尺度融合模块MFM的前端布置有一层卷积加渗漏整流线性单元LreLU，用于提取浅层特征：提取的浅层特征输入到深层特征提取模块中处理；

I_D＝F_MSB+I_E，

F_MSB＝H_MSB(F_DFB)

F_DFB＝H_ACM(H_CFM(H_MFM(F_OB)))

10.根据权利要求9所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，所述多尺度融合模块MFM包括多个特征提取模块，每个特征提取模块包括由一层卷积Conv、批归一化层BN和修正线性单元ReLU顺次连接形成的卷积块；从第一个阶段开始逐渐对特征图下采样，在收缩路径中使用两层卷积块以提取特征，在使用一层的两个卷积块进行下采样后，提取的特征将输入到下一阶段的特征提取模块，第一阶段卷积操作不会改变通道的数量，其他两个阶段第一个卷积操作会将通道数扩充一倍，特征在第二阶段使用三个卷积块以提取特征，第三个阶段使用五个卷积块以提取更加精细的小尺度特征；

11.根据权利要求10所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，所述空洞卷积融合模块ACM包括四种不同扩张率的空洞卷积层，所述四种不同扩张率的空洞卷积层后布置有连接层；

F_AR＝(H_AR1(F_in),H_AR2(F_in),H_AR3(F_in),H_AR4(F_in))

F_out＝F_in+H_f(F_AR)

12.根据权利要求10所述用于监控视频增强的渐进式特征流深度融合网络，其特征在于，所述的三阶段特征流融合网络TFFN采用内容损失与感知损失组合形成的目标函数进行优化；