CN113378775A

CN113378775A - 一种基于深度学习的视频阴影检测与消除方法

Info

Publication number: CN113378775A
Application number: CN202110723932.9A
Authority: CN
Inventors: 肖春霞; 范馨云; 罗飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-10
Anticipated expiration: 2041-06-29
Also published as: CN113378775B

Abstract

本发明涉及视频处理技术领域，提出了一种基于深度学习的视频阴影检测与消除方法。该方法首先使用残差连接优化检测与关键帧提取光流补全相结合的方法进行视频阴影检测，再采用一个基于内部学习的保纹理方法进行视频阴影消除，通过光流计算中间帧，设置仿射变换损失以及视频一致性损失等加强对视频中时序信息的利用，从而保持视频处理结果的时空一致性，获取更真实可靠的处理结果。本发明通过给定输入的RGB阴影视频，对视频信息进行分析处理，能够准确地将视频中的阴影区域检测出来，并且将其阴影部分的光照信息修复成与没有阴影部分的光照一致，从而实现良好的阴影消除效果。

Description

一种基于深度学习的视频阴影检测与消除方法

技术领域

本发明涉及一种基于深度学习的视频阴影检测与消除方法，尤其是可以仅用给定的RGB视频数据快速检测视频中阴影信息并将该阴影消除。本发明属于视频处理技术领域，尤其涉及一种针对阴影对象的视频检测、削除方法。

背景技术

阴影作为一种普遍的自然光学现象，在日常生活场景中随处可见，同时，它也广泛存在于图像以及视频等信息传播介质中。它是由不透明物体遮挡光源照射的光线从而在原本正常光照下的区域形成光照衰减的现象，导致该区域与其他区域形成一定程度的明暗变化。视频中的阴影信息会对视频的目标检测与识别、实例分割等多项视觉任务产生不良的影响。因此，如何对视频中的阴影进行检测与消除对后期视频任务处理起到极为关键的作用，是亟待解决的问题。

视频上的阴影检测与消除主要是指在给定的输入视频文件当中，将视频中的阴影部分检测出来，并且能够将其阴影部分的光照信息修复成与没有阴影部分的光照一致，从而实现阴影消除效果。目前，视频阴影检测与消除算法大多使用传统数学建模的方式，通过利用阴影特征信息对视频帧中的阴影进行处理，由于已有方法的数学模型复杂度有限，这些方法处理的场景都相对单一，且处理结果与数学模型自身的构建具有强相关性，阴影的状态变化对结果影响很大。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度学习的视频阴影检测与消除方法，旨在解决现有视频阴影检测与消除中泛化能力不强、处理场景单一、训练数据缺乏等的问题而提供一种有效的视频阴影检测与消除方法。所发明的方法，输入为一个RGB阴影视频，输出为该视频中阴影区域的检测结果及消除结果。

本发明提供的基于深度学习的视频阴影检测与消除方法，其包括残差连接优化检测与关键帧提取光流补全相结合的视频阴影检测网络以及基于内部学习的保纹理视频阴影消除网络两个部分。其中第一部分网络包括残差连接优化检测网络、关键帧提取光流补全网络、一致性模块；第二部分网络包括一个具有跳跃连接的生成神经网络、纹理保留模块。本发明的技术方案包含以下步骤：

步骤S1：构建一个基础残差连接优化检测网络，利用网络模型进行学习，提取输入阴影视频序列中的阴影特征信息；

步骤S2：构建一个时空一致性模块，通过采用非局部双向GRU的方法来利用输入阴影视频序列中的时序信息，从而检测得到一个初始的视频阴影检测结果；

步骤S3：通过基于LAB颜色空间的关键帧提取方法得到阴影视频中的关键帧，将关键帧输入到基础检测网络中，得到视频关键帧的阴影检测结果；

步骤S4：将视频关键帧的检测结果输入到光流传播网络PWC-Net当中，利用光流网络计算得到视频关键帧之间的中间帧信息，获得一个基于关键帧提取光流补全的视频阴影检测结果；

步骤S5：对初始视频阴影检测结果以及基于关键帧提取光流补全的视频阴影检测结果构建一个一致性损失，得到最终的视频阴影检测结果；

步骤S6：构建一个具有跳跃连接的生成神经网络，通过内部学习的方式利用视频帧之间非阴影区域的特征来消除阴影区域中的阴影信息，并借助光流计算对帧间进行仿射变换处理，利用视频序列中的时空信息，使得消除结果能够保持时空连续性；

步骤S7：构建纹理保留模块，利用小波池化与小波非池化替代普通网络中的池化与非池化操作，达到阴影消除处理后还能完好保留阴影区域纹理信息的目的；

步骤S8：构建视频帧生成损失、光流生成损失、视频一致性损失以及视频帧感知损失等四个损失函数对网络进行约束，最终得到具有时空一致性的视频消除结果。

进一步地，步骤S1的网络由空间特征提取器和像素级分类器组成。

空间特征提取器基于ResNet-50模型构建，使用了ResNet-50的前五组层，并去掉了第五层中的下采样操作，减少空间特征信息丢失的情况，并使用速率为2的膨胀卷积来替换掉最后一层中的卷积层，使得处理后与原本网络的感受野大小保持一致。在最后一个卷积层后面添加上一个空洞空间卷积池化金字塔模块，同时捕获图像级的全局上下文信息以及多个尺度的空间上下文信息，空间特征提取器利用堆叠一起的卷积层以及下采样进行操作处理，在视频帧的低层次特征信息里面提取出高层次特征信息。同时，使用下采样操作来逐渐增加卷积信号的感受野，得到一个抽象的特征表示层数；

像素级分类器由三个级联的优化块组成，每个优化块的输入为上一个自底向上的输出特征图和与之相对应的从上到下进行下采样所得的连接特征图，并通过一个残差跳跃连接层连接到空间特征提取器中对应的一个层，减轻在下采样过程中空间细节信息丢失的干扰影响。分类器中的优化块将特征图连接起来，然后将它们传送到另一个具有128个通道的3×3卷积层，获取初始视频阴影检测结果。

进一步地，步骤S2.1：空间特征提取器提取的特征输入到一个非局部区域块中，该非局部区域块计算一个位置的响应，作为输入特征图所有位置特征的加权和，通过非局部区域块构造输入视频帧特征之间的时空连接；

步骤S2.2：利用双向ConvGRU模块实现序列特征演化建模，令x₁,x₂,...,x_T表示为ConvGRU的输入，h₁,h₂,...,h_T表示为与之对应的隐藏状态，一个ConvGRU模块由一个重置门R_t和一个更新门Z_t组成；通过这两个门的状态控制，ConvGRU可以实现对视频序列信息进行选择性记忆和遗忘；基于上述定义，按时间展开的ConvGRU的整体计算更新公式如下：

Z_t＝σ(W_zx_t+U_zh_t-1)

R_t＝σ(W_rx_t+U_rh_t-1)

其中，⊙为元素乘积，σ为Sigmoid函数，W和U表示可学习的权重矩阵；为了简单起见，公式中省略了偏差项，为了加强两个方向之间的时空信息交换，采用了更深层次的双向ConvGRU进行处理，这样不仅可以获得过去视频序列的记忆，还可以获取未来视频序列的记忆，加强视频序列信息的时空处理；计算公式如下：

其中，

表示前向ConvGRU的隐藏状态，

表示后向ConvGRU的隐藏状态，h_t表示最终的双向ConvGRU计算结果。

进一步地，所述步骤S3具体过程如下：

步骤S3.1：获取所有输入视频帧的Lab色彩值，计算前后两个视频帧的Lab色彩差值，判断计算的两帧之间是否存在显著的差异；

步骤S3.2：根据需要的关键帧数量来对所有视频帧Lab色彩差值进行平滑分区，提取局部最大值，即提取色彩变化差异最大的帧作为选取的关键帧；

步骤S3.3：将提取的关键帧输入到基本残差连接优化检测网络当中进行关键帧阴影检测，得到视频关键帧的阴影检测结果。

进一步地，所述步骤S6和步骤S7具体为：网络中的编码器由12个卷积层组成，每两个连续的层形成一个块，其中两个层有相同数量的通道。每个块内的第一层使用2个步长来降低空间分辨率，卷积层中使用大小为5的滤波器；解码器由12个卷积层组成，以及分为6个块，被每个块前添加一个最近邻上采样层；此处，所有卷积层中都使用大小为3的滤波器；同时，为了保留处理过程中的空间特征信息，也在编码器与解码器之间添加了跳跃连接。为了保留视频帧中的纹理，将模型中的池化和非池化部分都采用小波池化和非池化进行操作，此处的小波池化和非池化是根据Haar小波进行处理；小波池化层中的高频分量(LH,HL,HH)直接连接到解码器中，只有低频分量(LL)被传递到下一个编码层。

进一步地，所述步骤S8中整体损失函数计算公式L如下：

L＝λ_rL_r+λ_fL_f+λ_cL_c+λ_pL_p

其中，λ_r、λ_f、λ_c、λ_p分别是L_r、L_f、L_c、L_p损失函数对应的权重，通常设置为λ_r＝1、λ_f＝0.1、λ_c＝1、λ_p＝0.01；令

为第i帧I_i在网络训练后计算所得的初始输出结果，在每一帧

预测时都会计算其损失L_i，然后将所有视频帧的损失累加起来，得到视频的总损失情况，从而优化网络训练过程中的网络参数；

视频帧生成损失主要用于生成非阴影区域部分的内容，通过在视频帧非阴影区域中定义了一个L₂重构损失进行处理，计算公式如下：

光流生成损失主要用于将视频信息在视频帧之间传播，为了增强网络的鲁棒性，以及能够更好地捕获较长时间的一致性，网络中将会联合预测6个不同时间方向以及帧间间隔的光流图，即j∈{i±1，i±3，i±5}；光流生成与视频帧生成类似，均从非阴影区域中训练学习获取到先验信息，计算公式如下：

其中，

为从第i帧到第j帧的光流预估值，F_i,j为已知的光流值，O_i,j为通过前后一致性检查估计的阴影区域遮挡图，

为第i帧与第j帧对齐阴影区域相交计算得到的可靠流区域，计算如下：

视频一致性损失主要用于对生成的视频帧与生成的光流进行相互约束，令相邻的视频帧与它们之间预估的光流情况保持一致，计算公式如下：

其中，

为生成视频帧

通过生成的光流

进行反向映射所得的结果；一致性损失专门针对阴影区域中的像素点，通过采用对阴影遮罩取逆

的方式来约束损失函数的作用范围，使得训练集中于阴影区域中视频帧与光流的传播情况；

视频帧感知损失主要用于进一步提高视频帧生成的质量，采用的是从ImageNet数据集中进行预训练得到的VGG-16模型中提取的特征图之间的相似度进行计算的，计算公式如下：

其中，

为使用预训练VGG-16网络第k层对I_i进行特征提取得到的结果，

为调整成与提取特征图大小一致的阴影区域遮罩图。

本发明的优点在于：

1、通过残差连接优化检测网络与关键帧提取光流补全网络相结合的方式进行视频阴影检测，能够同时检测静态与动态等多种状态下的阴影信息，获取具有良好时空一致性的视频阴影检测结果。

2、基于内部学习的保纹理视频阴影消除方法，无需使用外部数据进行训练，在实现视频阴影良好消除的同时，也解决了当前深度学习中因为视频阴影消除真实数据缺乏而无法使用监督方式进行训练的难题。

附图说明

图1为视频阴影检测框架示意图。

图2为基础残差连接优化检测网络示意图。

图3为视频阴影消除框架示意图。

图4为添加纹理保留模块的视频阴影消除网络示意图。

图5为本发明的流程图。

具体实施方式

为进一步了解本发明的内容，使本发明的目的、技术方案及优点更加清晰明了，以下结合附图和实施例对本发明进行详细说明。应当理解的是，此处仅是对本发明进行解释而并非限定。

本发明提供的一种基于深度学习的视频阴影检测与消除方法实施例，能够较好地实现对输入RGB阴影视频的阴影检测与消除。

如图1所示，其为本实例中视频阴影检测框架示意图，其包括以下步骤：

步骤S1：构建一个基础残差连接优化检测网络，利用网络模型进行学习，提取输入阴影视频序列中的阴影特征信息。其网络示意图如图2所示，由空间特征提取器和由三个连接层连接的像素级分类器组成，具体实施例包含以下步骤：

步骤S1.1：空间特征提取器是利用堆叠一起的卷积层以及下采样进行操作处理，在视频帧的低层次特征信息(如物体颜色和物体纹理等)里面提取出高层次特征信息。同时，使用下采样操作来逐渐增加卷积信号的感受野，得到一个抽象的特征表示层数。它是基于ResNet-50模型构建的，使用了ResNet-50的前五组层，并去掉了第五层中的下采样操作，减少空间特征信息丢失的情况，并使用速率为2的膨胀卷积来替换掉最后一层中的卷积层，使得处理后与原本网络的感受野大小保持一致。在最后一个卷积层后面添加上一个空洞空间卷积池化金字塔模块(AtrousSpatial Pyramid Pooling，ASPP)，同时捕获图像级的全局上下文信息以及多个尺度的空间上下文信息。在卷积神经网络中，感受野(ReceptiveField)的定义是卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小。

步骤S1.2：像素级分类器由三个级联的优化块组成，每个优化块的输入为上一个自底向上的输出特征图和与之相对应的从上到下进行下采样所得的连接特征图，并通过一个残差跳跃连接层连接到空间特征提取器中对应的一个层，减轻在下采样过程中空间细节信息丢失的干扰影响。分类器中的优化块将特征图连接起来，然后将它们传送到另一个具有128个通道的3×3卷积层，获取初始视频阴影检测结果。

步骤S2：构建一个时空一致性模块，通过采用非局部双向门控循环单元GRU的方法来利用输入阴影视频序列中的时序信息，从而检测得到一个初始的视频阴影检测结果，该模块由两个非局部块和一个双向卷积门控循环单元(ConvGRU)模块组成，具体实施例包含以下步骤：

步骤S2.1：空间特征提取器提取的特征输入到一个非局部区域块中，该非局部区域块计算一个位置的响应，作为输入特征图所有位置特征的加权和，通过非局部区域块构造输入视频帧特征之间的时空连接。

步骤S2.2：利用双向ConvGRU模块实现序列特征演化建模。令x₁,x₂,...,x_T表示为ConvGRU的输入，h₁,h₂,...,h_T表示为与之对应的隐藏状态。一个ConvGRU模块由一个重置门R_t和一个更新门Z_t组成。通过这两个门的状态控制，ConvGRU可以实现对视频序列信息进行选择性记忆和遗忘。基于上述定义，按时间展开的ConvGRU的整体计算更新公式如下：

Z_t＝σ(W_zx_t+U_zh_t-1)

R_t＝σ(W_rx_t+U_rh_t-1)

其中，⊙为元素乘积，σ为Sigmoid函数，W和U表示可学习的权重矩阵。为了简单起见，公式中省略了偏差项。为了加强两个方向之间的时空信息交换，采用了更深层次的双向ConvGRU进行处理，这样不仅可以获得过去视频序列的记忆，还可以获取未来视频序列的记忆，加强视频序列信息的时空处理。计算公式如下：

其中，

表示前向ConvGRU的隐藏状态，

步骤S3：通过基于LAB颜色空间的关键帧提取方法得到阴影视频中的关键帧，将关键帧输入到基础检测网络中，得到视频关键帧的阴影检测结果，具体实施例包含以下步骤：

步骤S3.1：获取所有输入视频帧的Lab色彩值，计算前后两个视频帧的Lab色彩差值，判断计算的两帧之间是否存在显著的差异。

步骤S3.2：根据需要的关键帧数量来对所有视频帧Lab色彩差值进行平滑分区，提取局部最大值，即提取色彩变化差异最大的帧作为选取的关键帧。

步骤S5：对初始视频阴影检测结果以及基于关键帧提取光流补全的视频阴影检测结果构建一个一致性损失，得到最终的视频阴影检测结果。令第i帧的初始预测中，残差连接优化检测网络计算结果为

关键帧提取光流补全网络计算结果

定义了一个L₂损失进行一致性损失计算，具体公式如下：

如图3所示，其为视频阴影消除框架示意图，其包括以下步骤：

步骤S6：构建一个具有跳跃连接的生成神经网络，通过内部学习的方式利用视频帧之间非阴影区域的特征来消除阴影区域中的阴影信息，并借助光流计算对帧间进行仿射变换处理，利用视频序列中的时空信息，使得消除结果能够保持时空连续性。

步骤S7：构建纹理保留模块，利用小波池化与小波非池化替代普通网络中的池化与非池化操作，达到阴影消除处理后还能完好保留阴影区域纹理信息的目的。如图4所示，其为添加纹理保留模块的视频阴影消除网络示意图，具体实施例如下：

网络中的编码器由12个卷积层组成，每两个连续的层形成一个块，其中两个层有相同数量的通道。每个块内的第一层使用2个步长来降低空间分辨率，卷积层中使用大小为5的滤波器。解码器同样由12个卷积层组成，以及分为6个块，被每个块前添加一个最近邻上采样层。此处，所有卷积层中都使用大小为3的滤波器。同时，为了保留处理过程中的空间特征信息，也在编码器与解码器之间添加了跳跃连接。为了保留视频帧中的纹理，将模型中的池化和非池化部分都采用小波池化和小波非池化进行操作，此处的小波池化和小波非池化是根据Haar小波进行处理的。小波池化层中的高频分量(LH,HL,HH)直接连接到解码器中，只有低频分量(LL)被传递到下一个编码层。

步骤S8：构建视频帧生成损失L_r、光流生成损失L_f、视频一致性损失L_c以及视频帧感知损失L_p等四个损失函数对网络进行约束，最终得到具有时空一致性的视频消除结果。具体实施例如下：

整体损失函数计算公式L为：

L＝λ_rL_r+λ_fL_f+λ_cL_c+λ_pL_p

其中，λ_r、λ_f、λ_c、λ_p分别是L_r、L_f、L_c、L_p损失函数对应的权重，通常设置为λ_r＝1、λ_f＝0.1、λ_c＝1、λ_p＝0.01。令

为第i帧I_i在网络训练后计算所得的初始输出结果，在每一帧

预测时都会计算其损失L_i，然后将所有视频帧的损失累加起来，得到视频的总损失情况，从而优化网络训练过程中的网络参数。

视频帧生成损失主要用于生成非阴影区域部分的内容。通过在视频帧非阴影区域中定义了一个L₂重构损失进行处理，计算公式如下：

光流生成损失主要用于将视频信息在视频帧之间传播，为了增强网络的鲁棒性，以及能够更好地捕获较长时间的一致性，网络中将会联合预测6个不同时间方向以及帧间间隔的光流图，即j∈{i±1，i±3，i±5}。光流生成与视频帧生成类似，都是从非阴影区域中训练学习获取到先验信息，计算公式如下：

其中，

其中，

为生成视频帧

通过生成的光流

进行反向映射所得的结果。一致性损失专门针对阴影区域中的像素点，通过采用对阴影遮罩取逆

的方式来约束损失函数的作用范围，使得训练集中于阴影区域中视频帧与光流的传播情况。

其中，

为使用预训练VGG-16网络第k层对I_i进行特征提取得到的结果，

为调整成与提取特征图大小一致的阴影区域遮罩图。

本实施例提供了一种基于深度学习的视频阴影检测与消除方法，利用残差连接优化检测网络与关键帧提取光流补全网络相结合的方式进行视频阴影检测，并基于内部学习的方法及保纹理结合的方法进行视频阴影消除，解决了现有视频阴影检测与消除中泛化能力不强、处理场景单一、训练数据缺乏等的问题，同时实现了有效的视频阴影检测与消除。

以上是结合具体的优选实施方式对本发明所作的说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的视频阴影检测与消除方法，其特征在于，包括以下步骤：

步骤S7：构建纹理保留模块，利用小波池化与非池化替代普通网络中的池化与非池化操作，达到阴影消除处理后还能完好保留阴影区域纹理信息的目的；

2.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法，其特征在于：步骤S1的网络由空间特征提取器和像素级分类器组成；

3.根据权利要求2中所述的基于深度学习的视频阴影检测与消除方法，其特征在于：步骤S2的具体过程如下：

步骤S2.1：空间特征提取器提取的特征输入到一个非局部区域块中，该非局部区域块计算一个位置的响应，作为输入特征图所有位置特征的加权和，通过非局部区域块构造输入视频帧特征之间的时空连接；

Z_t＝σ(W_zx_t+U_zh_t-1)

R_t＝σ(W_rx_t+U_rh_t-1)

其中，

表示前向ConvGRU的隐藏状态，

4.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法，其特征在于：所述步骤S3具体过程如下：

5.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法，其特征在于：所述步骤S6和步骤S7具体为：网络中的编码器由12个卷积层组成，每两个连续的层形成一个块，其中两个层有相同数量的通道。每个块内的第一层使用2个步长来降低空间分辨率，卷积层中使用大小为5的滤波器；解码器由12个卷积层组成，以及分为6个块，被每个块前添加一个最近邻上采样层；此处，所有卷积层中都使用大小为3的滤波器；同时，为了保留处理过程中的空间特征信息，也在编码器与解码器之间添加了跳跃连接。为了保留视频帧中的纹理，将模型中的池化和非池化部分都采用小波池化和非池化进行操作，此处的小波池化和非池化是根据Haar小波进行处理；小波池化层中的高频分量(LH,HL,HH)直接连接到解码器中，只有低频分量(LL)被传递到下一个编码层。

6.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法，其特征在于：所述步骤S8中整体损失函数计算公式L如下：

L＝λ_rL_r+λ_fL_f+λ_cL_c+λ_pL_p