CN113378775A - 一种基于深度学习的视频阴影检测与消除方法 - Google Patents
一种基于深度学习的视频阴影检测与消除方法 Download PDFInfo
- Publication number
- CN113378775A CN113378775A CN202110723932.9A CN202110723932A CN113378775A CN 113378775 A CN113378775 A CN 113378775A CN 202110723932 A CN202110723932 A CN 202110723932A CN 113378775 A CN113378775 A CN 113378775A
- Authority
- CN
- China
- Prior art keywords
- video
- shadow
- frame
- loss
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000008030 elimination Effects 0.000 title claims abstract description 36
- 238000003379 elimination reaction Methods 0.000 title claims abstract description 36
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 230000003287 optical effect Effects 0.000 claims abstract description 49
- 238000005457 optimization Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 11
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 4
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 35
- 238000011176 pooling Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 10
- 230000002829 reductive effect Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 238000005286 illumination Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20064—Wavelet transform [DWT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及视频处理技术领域,提出了一种基于深度学习的视频阴影检测与消除方法。该方法首先使用残差连接优化检测与关键帧提取光流补全相结合的方法进行视频阴影检测,再采用一个基于内部学习的保纹理方法进行视频阴影消除,通过光流计算中间帧,设置仿射变换损失以及视频一致性损失等加强对视频中时序信息的利用,从而保持视频处理结果的时空一致性,获取更真实可靠的处理结果。本发明通过给定输入的RGB阴影视频,对视频信息进行分析处理,能够准确地将视频中的阴影区域检测出来,并且将其阴影部分的光照信息修复成与没有阴影部分的光照一致,从而实现良好的阴影消除效果。
Description
技术领域
本发明涉及一种基于深度学习的视频阴影检测与消除方法,尤其是可以仅用给定的RGB视频数据快速检测视频中阴影信息并将该阴影消除。本发明属于视频处理技术领域,尤其涉及一种针对阴影对象的视频检测、削除方法。
背景技术
阴影作为一种普遍的自然光学现象,在日常生活场景中随处可见,同时,它也广泛存在于图像以及视频等信息传播介质中。它是由不透明物体遮挡光源照射的光线从而在原本正常光照下的区域形成光照衰减的现象,导致该区域与其他区域形成一定程度的明暗变化。视频中的阴影信息会对视频的目标检测与识别、实例分割等多项视觉任务产生不良的影响。因此,如何对视频中的阴影进行检测与消除对后期视频任务处理起到极为关键的作用,是亟待解决的问题。
视频上的阴影检测与消除主要是指在给定的输入视频文件当中,将视频中的阴影部分检测出来,并且能够将其阴影部分的光照信息修复成与没有阴影部分的光照一致,从而实现阴影消除效果。目前,视频阴影检测与消除算法大多使用传统数学建模的方式,通过利用阴影特征信息对视频帧中的阴影进行处理,由于已有方法的数学模型复杂度有限,这些方法处理的场景都相对单一,且处理结果与数学模型自身的构建具有强相关性,阴影的状态变化对结果影响很大。
发明内容
针对现有技术存在的问题,本发明提供了一种基于深度学习的视频阴影检测与消除方法,旨在解决现有视频阴影检测与消除中泛化能力不强、处理场景单一、训练数据缺乏等的问题而提供一种有效的视频阴影检测与消除方法。所发明的方法,输入为一个RGB阴影视频,输出为该视频中阴影区域的检测结果及消除结果。
本发明提供的基于深度学习的视频阴影检测与消除方法,其包括残差连接优化检测与关键帧提取光流补全相结合的视频阴影检测网络以及基于内部学习的保纹理视频阴影消除网络两个部分。其中第一部分网络包括残差连接优化检测网络、关键帧提取光流补全网络、一致性模块;第二部分网络包括一个具有跳跃连接的生成神经网络、纹理保留模块。本发明的技术方案包含以下步骤:
步骤S1:构建一个基础残差连接优化检测网络,利用网络模型进行学习,提取输入阴影视频序列中的阴影特征信息;
步骤S2:构建一个时空一致性模块,通过采用非局部双向GRU的方法来利用输入阴影视频序列中的时序信息,从而检测得到一个初始的视频阴影检测结果;
步骤S3:通过基于LAB颜色空间的关键帧提取方法得到阴影视频中的关键帧,将关键帧输入到基础检测网络中,得到视频关键帧的阴影检测结果;
步骤S4:将视频关键帧的检测结果输入到光流传播网络PWC-Net当中,利用光流网络计算得到视频关键帧之间的中间帧信息,获得一个基于关键帧提取光流补全的视频阴影检测结果;
步骤S5:对初始视频阴影检测结果以及基于关键帧提取光流补全的视频阴影检测结果构建一个一致性损失,得到最终的视频阴影检测结果;
步骤S6:构建一个具有跳跃连接的生成神经网络,通过内部学习的方式利用视频帧之间非阴影区域的特征来消除阴影区域中的阴影信息,并借助光流计算对帧间进行仿射变换处理,利用视频序列中的时空信息,使得消除结果能够保持时空连续性;
步骤S7:构建纹理保留模块,利用小波池化与小波非池化替代普通网络中的池化与非池化操作,达到阴影消除处理后还能完好保留阴影区域纹理信息的目的;
步骤S8:构建视频帧生成损失、光流生成损失、视频一致性损失以及视频帧感知损失等四个损失函数对网络进行约束,最终得到具有时空一致性的视频消除结果。
进一步地,步骤S1的网络由空间特征提取器和像素级分类器组成。
空间特征提取器基于ResNet-50模型构建,使用了ResNet-50的前五组层,并去掉了第五层中的下采样操作,减少空间特征信息丢失的情况,并使用速率为2的膨胀卷积来替换掉最后一层中的卷积层,使得处理后与原本网络的感受野大小保持一致。在最后一个卷积层后面添加上一个空洞空间卷积池化金字塔模块,同时捕获图像级的全局上下文信息以及多个尺度的空间上下文信息,空间特征提取器利用堆叠一起的卷积层以及下采样进行操作处理,在视频帧的低层次特征信息里面提取出高层次特征信息。同时,使用下采样操作来逐渐增加卷积信号的感受野,得到一个抽象的特征表示层数;
像素级分类器由三个级联的优化块组成,每个优化块的输入为上一个自底向上的输出特征图和与之相对应的从上到下进行下采样所得的连接特征图,并通过一个残差跳跃连接层连接到空间特征提取器中对应的一个层,减轻在下采样过程中空间细节信息丢失的干扰影响。分类器中的优化块将特征图连接起来,然后将它们传送到另一个具有128个通道的3×3卷积层,获取初始视频阴影检测结果。
进一步地,步骤S2.1:空间特征提取器提取的特征输入到一个非局部区域块中,该非局部区域块计算一个位置的响应,作为输入特征图所有位置特征的加权和,通过非局部区域块构造输入视频帧特征之间的时空连接;
步骤S2.2:利用双向ConvGRU模块实现序列特征演化建模,令x1,x2,...,xT表示为ConvGRU的输入,h1,h2,...,hT表示为与之对应的隐藏状态,一个ConvGRU模块由一个重置门Rt和一个更新门Zt组成;通过这两个门的状态控制,ConvGRU可以实现对视频序列信息进行选择性记忆和遗忘;基于上述定义,按时间展开的ConvGRU的整体计算更新公式如下:
Zt=σ(Wzxt+Uzht-1)
Rt=σ(Wrxt+Urht-1)
其中,⊙为元素乘积,σ为Sigmoid函数,W和U表示可学习的权重矩阵;为了简单起见,公式中省略了偏差项,为了加强两个方向之间的时空信息交换,采用了更深层次的双向ConvGRU进行处理,这样不仅可以获得过去视频序列的记忆,还可以获取未来视频序列的记忆,加强视频序列信息的时空处理;计算公式如下:
进一步地,所述步骤S3具体过程如下:
步骤S3.1:获取所有输入视频帧的Lab色彩值,计算前后两个视频帧的Lab色彩差值,判断计算的两帧之间是否存在显著的差异;
步骤S3.2:根据需要的关键帧数量来对所有视频帧Lab色彩差值进行平滑分区,提取局部最大值,即提取色彩变化差异最大的帧作为选取的关键帧;
步骤S3.3:将提取的关键帧输入到基本残差连接优化检测网络当中进行关键帧阴影检测,得到视频关键帧的阴影检测结果。
进一步地,所述步骤S6和步骤S7具体为:网络中的编码器由12个卷积层组成,每两个连续的层形成一个块,其中两个层有相同数量的通道。每个块内的第一层使用2个步长来降低空间分辨率,卷积层中使用大小为5的滤波器;解码器由12个卷积层组成,以及分为6个块,被每个块前添加一个最近邻上采样层;此处,所有卷积层中都使用大小为3的滤波器;同时,为了保留处理过程中的空间特征信息,也在编码器与解码器之间添加了跳跃连接。为了保留视频帧中的纹理,将模型中的池化和非池化部分都采用小波池化和非池化进行操作,此处的小波池化和非池化是根据Haar小波进行处理;小波池化层中的高频分量(LH,HL,HH)直接连接到解码器中,只有低频分量(LL)被传递到下一个编码层。
进一步地,所述步骤S8中整体损失函数计算公式L如下:
L=λrLr+λfLf+λcLc+λpLp
其中,λr、λf、λc、λp分别是Lr、Lf、Lc、Lp损失函数对应的权重,通常设置为λr=1、λf=0.1、λc=1、λp=0.01;令为第i帧Ii在网络训练后计算所得的初始输出结果,在每一帧预测时都会计算其损失Li,然后将所有视频帧的损失累加起来,得到视频的总损失情况,从而优化网络训练过程中的网络参数;
视频帧生成损失主要用于生成非阴影区域部分的内容,通过在视频帧非阴影区域中定义了一个L2重构损失进行处理,计算公式如下:
光流生成损失主要用于将视频信息在视频帧之间传播,为了增强网络的鲁棒性,以及能够更好地捕获较长时间的一致性,网络中将会联合预测6个不同时间方向以及帧间间隔的光流图,即j∈{i±1,i±3,i±5};光流生成与视频帧生成类似,均从非阴影区域中训练学习获取到先验信息,计算公式如下:
视频一致性损失主要用于对生成的视频帧与生成的光流进行相互约束,令相邻的视频帧与它们之间预估的光流情况保持一致,计算公式如下:
视频帧感知损失主要用于进一步提高视频帧生成的质量,采用的是从ImageNet数据集中进行预训练得到的VGG-16模型中提取的特征图之间的相似度进行计算的,计算公式如下:
本发明的优点在于:
1、通过残差连接优化检测网络与关键帧提取光流补全网络相结合的方式进行视频阴影检测,能够同时检测静态与动态等多种状态下的阴影信息,获取具有良好时空一致性的视频阴影检测结果。
2、基于内部学习的保纹理视频阴影消除方法,无需使用外部数据进行训练,在实现视频阴影良好消除的同时,也解决了当前深度学习中因为视频阴影消除真实数据缺乏而无法使用监督方式进行训练的难题。
附图说明
图1为视频阴影检测框架示意图。
图2为基础残差连接优化检测网络示意图。
图3为视频阴影消除框架示意图。
图4为添加纹理保留模块的视频阴影消除网络示意图。
图5为本发明的流程图。
具体实施方式
为进一步了解本发明的内容,使本发明的目的、技术方案及优点更加清晰明了,以下结合附图和实施例对本发明进行详细说明。应当理解的是,此处仅是对本发明进行解释而并非限定。
本发明提供的一种基于深度学习的视频阴影检测与消除方法实施例,能够较好地实现对输入RGB阴影视频的阴影检测与消除。
如图1所示,其为本实例中视频阴影检测框架示意图,其包括以下步骤:
步骤S1:构建一个基础残差连接优化检测网络,利用网络模型进行学习,提取输入阴影视频序列中的阴影特征信息。其网络示意图如图2所示,由空间特征提取器和由三个连接层连接的像素级分类器组成,具体实施例包含以下步骤:
步骤S1.1:空间特征提取器是利用堆叠一起的卷积层以及下采样进行操作处理,在视频帧的低层次特征信息(如物体颜色和物体纹理等)里面提取出高层次特征信息。同时,使用下采样操作来逐渐增加卷积信号的感受野,得到一个抽象的特征表示层数。它是基于ResNet-50模型构建的,使用了ResNet-50的前五组层,并去掉了第五层中的下采样操作,减少空间特征信息丢失的情况,并使用速率为2的膨胀卷积来替换掉最后一层中的卷积层,使得处理后与原本网络的感受野大小保持一致。在最后一个卷积层后面添加上一个空洞空间卷积池化金字塔模块(AtrousSpatial Pyramid Pooling,ASPP),同时捕获图像级的全局上下文信息以及多个尺度的空间上下文信息。在卷积神经网络中,感受野(ReceptiveField)的定义是卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小。
步骤S1.2:像素级分类器由三个级联的优化块组成,每个优化块的输入为上一个自底向上的输出特征图和与之相对应的从上到下进行下采样所得的连接特征图,并通过一个残差跳跃连接层连接到空间特征提取器中对应的一个层,减轻在下采样过程中空间细节信息丢失的干扰影响。分类器中的优化块将特征图连接起来,然后将它们传送到另一个具有128个通道的3×3卷积层,获取初始视频阴影检测结果。
步骤S2:构建一个时空一致性模块,通过采用非局部双向门控循环单元GRU的方法来利用输入阴影视频序列中的时序信息,从而检测得到一个初始的视频阴影检测结果,该模块由两个非局部块和一个双向卷积门控循环单元(ConvGRU)模块组成,具体实施例包含以下步骤:
步骤S2.1:空间特征提取器提取的特征输入到一个非局部区域块中,该非局部区域块计算一个位置的响应,作为输入特征图所有位置特征的加权和,通过非局部区域块构造输入视频帧特征之间的时空连接。
步骤S2.2:利用双向ConvGRU模块实现序列特征演化建模。令x1,x2,...,xT表示为ConvGRU的输入,h1,h2,...,hT表示为与之对应的隐藏状态。一个ConvGRU模块由一个重置门Rt和一个更新门Zt组成。通过这两个门的状态控制,ConvGRU可以实现对视频序列信息进行选择性记忆和遗忘。基于上述定义,按时间展开的ConvGRU的整体计算更新公式如下:
Zt=σ(Wzxt+Uzht-1)
Rt=σ(Wrxt+Urht-1)
其中,⊙为元素乘积,σ为Sigmoid函数,W和U表示可学习的权重矩阵。为了简单起见,公式中省略了偏差项。为了加强两个方向之间的时空信息交换,采用了更深层次的双向ConvGRU进行处理,这样不仅可以获得过去视频序列的记忆,还可以获取未来视频序列的记忆,加强视频序列信息的时空处理。计算公式如下:
步骤S3:通过基于LAB颜色空间的关键帧提取方法得到阴影视频中的关键帧,将关键帧输入到基础检测网络中,得到视频关键帧的阴影检测结果,具体实施例包含以下步骤:
步骤S3.1:获取所有输入视频帧的Lab色彩值,计算前后两个视频帧的Lab色彩差值,判断计算的两帧之间是否存在显著的差异。
步骤S3.2:根据需要的关键帧数量来对所有视频帧Lab色彩差值进行平滑分区,提取局部最大值,即提取色彩变化差异最大的帧作为选取的关键帧。
步骤S3.3:将提取的关键帧输入到基本残差连接优化检测网络当中进行关键帧阴影检测,得到视频关键帧的阴影检测结果。
步骤S4:将视频关键帧的检测结果输入到光流传播网络PWC-Net当中,利用光流网络计算得到视频关键帧之间的中间帧信息,获得一个基于关键帧提取光流补全的视频阴影检测结果;
步骤S5:对初始视频阴影检测结果以及基于关键帧提取光流补全的视频阴影检测结果构建一个一致性损失,得到最终的视频阴影检测结果。令第i帧的初始预测中,残差连接优化检测网络计算结果为关键帧提取光流补全网络计算结果定义了一个L2损失进行一致性损失计算,具体公式如下:
如图3所示,其为视频阴影消除框架示意图,其包括以下步骤:
步骤S6:构建一个具有跳跃连接的生成神经网络,通过内部学习的方式利用视频帧之间非阴影区域的特征来消除阴影区域中的阴影信息,并借助光流计算对帧间进行仿射变换处理,利用视频序列中的时空信息,使得消除结果能够保持时空连续性。
步骤S7:构建纹理保留模块,利用小波池化与小波非池化替代普通网络中的池化与非池化操作,达到阴影消除处理后还能完好保留阴影区域纹理信息的目的。如图4所示,其为添加纹理保留模块的视频阴影消除网络示意图,具体实施例如下:
网络中的编码器由12个卷积层组成,每两个连续的层形成一个块,其中两个层有相同数量的通道。每个块内的第一层使用2个步长来降低空间分辨率,卷积层中使用大小为5的滤波器。解码器同样由12个卷积层组成,以及分为6个块,被每个块前添加一个最近邻上采样层。此处,所有卷积层中都使用大小为3的滤波器。同时,为了保留处理过程中的空间特征信息,也在编码器与解码器之间添加了跳跃连接。为了保留视频帧中的纹理,将模型中的池化和非池化部分都采用小波池化和小波非池化进行操作,此处的小波池化和小波非池化是根据Haar小波进行处理的。小波池化层中的高频分量(LH,HL,HH)直接连接到解码器中,只有低频分量(LL)被传递到下一个编码层。
步骤S8:构建视频帧生成损失Lr、光流生成损失Lf、视频一致性损失Lc以及视频帧感知损失Lp等四个损失函数对网络进行约束,最终得到具有时空一致性的视频消除结果。具体实施例如下:
整体损失函数计算公式L为:
L=λrLr+λfLf+λcLc+λpLp
其中,λr、λf、λc、λp分别是Lr、Lf、Lc、Lp损失函数对应的权重,通常设置为λr=1、λf=0.1、λc=1、λp=0.01。令为第i帧Ii在网络训练后计算所得的初始输出结果,在每一帧预测时都会计算其损失Li,然后将所有视频帧的损失累加起来,得到视频的总损失情况,从而优化网络训练过程中的网络参数。
视频帧生成损失主要用于生成非阴影区域部分的内容。通过在视频帧非阴影区域中定义了一个L2重构损失进行处理,计算公式如下:
光流生成损失主要用于将视频信息在视频帧之间传播,为了增强网络的鲁棒性,以及能够更好地捕获较长时间的一致性,网络中将会联合预测6个不同时间方向以及帧间间隔的光流图,即j∈{i±1,i±3,i±5}。光流生成与视频帧生成类似,都是从非阴影区域中训练学习获取到先验信息,计算公式如下:
视频一致性损失主要用于对生成的视频帧与生成的光流进行相互约束,令相邻的视频帧与它们之间预估的光流情况保持一致,计算公式如下:
视频帧感知损失主要用于进一步提高视频帧生成的质量,采用的是从ImageNet数据集中进行预训练得到的VGG-16模型中提取的特征图之间的相似度进行计算的,计算公式如下:
本实施例提供了一种基于深度学习的视频阴影检测与消除方法,利用残差连接优化检测网络与关键帧提取光流补全网络相结合的方式进行视频阴影检测,并基于内部学习的方法及保纹理结合的方法进行视频阴影消除,解决了现有视频阴影检测与消除中泛化能力不强、处理场景单一、训练数据缺乏等的问题,同时实现了有效的视频阴影检测与消除。
以上是结合具体的优选实施方式对本发明所作的说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (6)
1.一种基于深度学习的视频阴影检测与消除方法,其特征在于,包括以下步骤:
步骤S1:构建一个基础残差连接优化检测网络,利用网络模型进行学习,提取输入阴影视频序列中的阴影特征信息;
步骤S2:构建一个时空一致性模块,通过采用非局部双向GRU的方法来利用输入阴影视频序列中的时序信息,从而检测得到一个初始的视频阴影检测结果;
步骤S3:通过基于LAB颜色空间的关键帧提取方法得到阴影视频中的关键帧,将关键帧输入到基础检测网络中,得到视频关键帧的阴影检测结果;
步骤S4:将视频关键帧的检测结果输入到光流传播网络PWC-Net当中,利用光流网络计算得到视频关键帧之间的中间帧信息,获得一个基于关键帧提取光流补全的视频阴影检测结果;
步骤S5:对初始视频阴影检测结果以及基于关键帧提取光流补全的视频阴影检测结果构建一个一致性损失,得到最终的视频阴影检测结果;
步骤S6:构建一个具有跳跃连接的生成神经网络,通过内部学习的方式利用视频帧之间非阴影区域的特征来消除阴影区域中的阴影信息,并借助光流计算对帧间进行仿射变换处理,利用视频序列中的时空信息,使得消除结果能够保持时空连续性;
步骤S7:构建纹理保留模块,利用小波池化与非池化替代普通网络中的池化与非池化操作,达到阴影消除处理后还能完好保留阴影区域纹理信息的目的;
步骤S8:构建视频帧生成损失、光流生成损失、视频一致性损失以及视频帧感知损失等四个损失函数对网络进行约束,最终得到具有时空一致性的视频消除结果。
2.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:步骤S1的网络由空间特征提取器和像素级分类器组成;
空间特征提取器基于ResNet-50模型构建,使用了ResNet-50的前五组层,并去掉了第五层中的下采样操作,减少空间特征信息丢失的情况,并使用速率为2的膨胀卷积来替换掉最后一层中的卷积层,使得处理后与原本网络的感受野大小保持一致。在最后一个卷积层后面添加上一个空洞空间卷积池化金字塔模块,同时捕获图像级的全局上下文信息以及多个尺度的空间上下文信息,空间特征提取器利用堆叠一起的卷积层以及下采样进行操作处理,在视频帧的低层次特征信息里面提取出高层次特征信息。同时,使用下采样操作来逐渐增加卷积信号的感受野,得到一个抽象的特征表示层数;
像素级分类器由三个级联的优化块组成,每个优化块的输入为上一个自底向上的输出特征图和与之相对应的从上到下进行下采样所得的连接特征图,并通过一个残差跳跃连接层连接到空间特征提取器中对应的一个层,减轻在下采样过程中空间细节信息丢失的干扰影响。分类器中的优化块将特征图连接起来,然后将它们传送到另一个具有128个通道的3×3卷积层,获取初始视频阴影检测结果。
3.根据权利要求2中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:步骤S2的具体过程如下:
步骤S2.1:空间特征提取器提取的特征输入到一个非局部区域块中,该非局部区域块计算一个位置的响应,作为输入特征图所有位置特征的加权和,通过非局部区域块构造输入视频帧特征之间的时空连接;
步骤S2.2:利用双向ConvGRU模块实现序列特征演化建模,令x1,x2,...,xT表示为ConvGRU的输入,h1,h2,...,hT表示为与之对应的隐藏状态,一个ConvGRU模块由一个重置门Rt和一个更新门Zt组成;通过这两个门的状态控制,ConvGRU可以实现对视频序列信息进行选择性记忆和遗忘;基于上述定义,按时间展开的ConvGRU的整体计算更新公式如下:
Zt=σ(Wzxt+Uzht-1)
Rt=σ(Wrxt+Urht-1)
其中,⊙为元素乘积,σ为Sigmoid函数,W和U表示可学习的权重矩阵;为了简单起见,公式中省略了偏差项,为了加强两个方向之间的时空信息交换,采用了更深层次的双向ConvGRU进行处理,这样不仅可以获得过去视频序列的记忆,还可以获取未来视频序列的记忆,加强视频序列信息的时空处理;计算公式如下:
4.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:所述步骤S3具体过程如下:
步骤S3.1:获取所有输入视频帧的Lab色彩值,计算前后两个视频帧的Lab色彩差值,判断计算的两帧之间是否存在显著的差异;
步骤S3.2:根据需要的关键帧数量来对所有视频帧Lab色彩差值进行平滑分区,提取局部最大值,即提取色彩变化差异最大的帧作为选取的关键帧;
步骤S3.3:将提取的关键帧输入到基本残差连接优化检测网络当中进行关键帧阴影检测,得到视频关键帧的阴影检测结果。
5.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:所述步骤S6和步骤S7具体为:网络中的编码器由12个卷积层组成,每两个连续的层形成一个块,其中两个层有相同数量的通道。每个块内的第一层使用2个步长来降低空间分辨率,卷积层中使用大小为5的滤波器;解码器由12个卷积层组成,以及分为6个块,被每个块前添加一个最近邻上采样层;此处,所有卷积层中都使用大小为3的滤波器;同时,为了保留处理过程中的空间特征信息,也在编码器与解码器之间添加了跳跃连接。为了保留视频帧中的纹理,将模型中的池化和非池化部分都采用小波池化和非池化进行操作,此处的小波池化和非池化是根据Haar小波进行处理;小波池化层中的高频分量(LH,HL,HH)直接连接到解码器中,只有低频分量(LL)被传递到下一个编码层。
6.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:所述步骤S8中整体损失函数计算公式L如下:
L=λrLr+λfLf+λcLc+λpLp
其中,λr、λf、λc、λp分别是Lr、Lf、Lc、Lp损失函数对应的权重,通常设置为λr=1、λf=0.1、λc=1、λp=0.01;令为第i帧Ii在网络训练后计算所得的初始输出结果,在每一帧预测时都会计算其损失Li,然后将所有视频帧的损失累加起来,得到视频的总损失情况,从而优化网络训练过程中的网络参数;
视频帧生成损失主要用于生成非阴影区域部分的内容,通过在视频帧非阴影区域中定义了一个L2重构损失进行处理,计算公式如下:
光流生成损失主要用于将视频信息在视频帧之间传播,为了增强网络的鲁棒性,以及能够更好地捕获较长时间的一致性,网络中将会联合预测6个不同时间方向以及帧间间隔的光流图,即j∈{i±1,i±3,i±5};光流生成与视频帧生成类似,均从非阴影区域中训练学习获取到先验信息,计算公式如下:
视频一致性损失主要用于对生成的视频帧与生成的光流进行相互约束,令相邻的视频帧与它们之间预估的光流情况保持一致,计算公式如下:
视频帧感知损失主要用于进一步提高视频帧生成的质量,采用的是从ImageNet数据集中进行预训练得到的VGG-16模型中提取的特征图之间的相似度进行计算的,计算公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110723932.9A CN113378775B (zh) | 2021-06-29 | 2021-06-29 | 一种基于深度学习的视频阴影检测与消除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110723932.9A CN113378775B (zh) | 2021-06-29 | 2021-06-29 | 一种基于深度学习的视频阴影检测与消除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378775A true CN113378775A (zh) | 2021-09-10 |
CN113378775B CN113378775B (zh) | 2023-04-07 |
Family
ID=77579656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110723932.9A Active CN113378775B (zh) | 2021-06-29 | 2021-06-29 | 一种基于深度学习的视频阴影检测与消除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378775B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067258A (zh) * | 2022-01-18 | 2022-02-18 | 电子科技大学 | 一种面部通话视频的分层编码方法 |
CN115147412A (zh) * | 2022-08-31 | 2022-10-04 | 武汉大学 | 一种内存传递的长时序网络及视频阴影检测方法 |
CN117152167A (zh) * | 2023-10-31 | 2023-12-01 | 海信集团控股股份有限公司 | 一种目标移除、基于分割大模型的目标移除方法及设备 |
WO2024067176A1 (zh) * | 2022-09-29 | 2024-04-04 | 中兴通讯股份有限公司 | 车位检测处理方法、装置、存储介质及电子装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110077465A (ko) * | 2009-12-30 | 2011-07-07 | 서울과학기술대학교 산학협력단 | 카메라 위치·태양이 움직이는 시간에 따른 그림자 제거방식을 통한 영상추적장치 및 방법 |
CN110288538A (zh) * | 2019-05-23 | 2019-09-27 | 南京理工大学 | 一种多特征融合的运动目标阴影检测及消除方法 |
CN110349099A (zh) * | 2019-06-17 | 2019-10-18 | 武汉大学 | 一种复杂场景视频阴影检测与消除方法 |
CN111311490A (zh) * | 2020-01-20 | 2020-06-19 | 陕西师范大学 | 基于多帧融合光流的视频超分辨率重建方法 |
CN111626951A (zh) * | 2020-05-20 | 2020-09-04 | 武汉科技大学 | 一种基于内容感知信息的图像阴影消除方法 |
-
2021
- 2021-06-29 CN CN202110723932.9A patent/CN113378775B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110077465A (ko) * | 2009-12-30 | 2011-07-07 | 서울과학기술대학교 산학협력단 | 카메라 위치·태양이 움직이는 시간에 따른 그림자 제거방식을 통한 영상추적장치 및 방법 |
CN110288538A (zh) * | 2019-05-23 | 2019-09-27 | 南京理工大学 | 一种多特征融合的运动目标阴影检测及消除方法 |
CN110349099A (zh) * | 2019-06-17 | 2019-10-18 | 武汉大学 | 一种复杂场景视频阴影检测与消除方法 |
CN111311490A (zh) * | 2020-01-20 | 2020-06-19 | 陕西师范大学 | 基于多帧融合光流的视频超分辨率重建方法 |
CN111626951A (zh) * | 2020-05-20 | 2020-09-04 | 武汉科技大学 | 一种基于内容感知信息的图像阴影消除方法 |
Non-Patent Citations (2)
Title |
---|
ADRIAN WALCHLI: "《Optical Flow Dataset Synthesis from Unpaired Images》", 《ARXIV》 * |
吴文君: "《基于深度信息的单幅图像自动阴影检测》", 《武汉大学学报(理学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067258A (zh) * | 2022-01-18 | 2022-02-18 | 电子科技大学 | 一种面部通话视频的分层编码方法 |
CN115147412A (zh) * | 2022-08-31 | 2022-10-04 | 武汉大学 | 一种内存传递的长时序网络及视频阴影检测方法 |
CN115147412B (zh) * | 2022-08-31 | 2022-12-16 | 武汉大学 | 一种内存传递的长时序网络及视频阴影检测方法 |
WO2024067176A1 (zh) * | 2022-09-29 | 2024-04-04 | 中兴通讯股份有限公司 | 车位检测处理方法、装置、存储介质及电子装置 |
CN117152167A (zh) * | 2023-10-31 | 2023-12-01 | 海信集团控股股份有限公司 | 一种目标移除、基于分割大模型的目标移除方法及设备 |
CN117152167B (zh) * | 2023-10-31 | 2024-03-01 | 海信集团控股股份有限公司 | 一种目标移除、基于分割大模型的目标移除方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113378775B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378775B (zh) | 一种基于深度学习的视频阴影检测与消除方法 | |
CN108805015B (zh) | 加权卷积自编码长短期记忆网络人群异常检测方法 | |
CN110956094B (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
US20200074642A1 (en) | Motion assisted image segmentation | |
CN109919032B (zh) | 一种基于动作预测的视频异常行为检测方法 | |
CN111860162A (zh) | 一种视频人群计数系统及方法 | |
CN111861925B (zh) | 一种基于注意力机制与门控循环单元的图像去雨方法 | |
CN110580472B (zh) | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 | |
CN111402146A (zh) | 图像处理方法以及图像处理装置 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN113076685A (zh) | 图像重建模型的训练方法、图像重建方法及其装置 | |
WO2024002211A1 (zh) | 一种图像处理方法及相关装置 | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN111914997A (zh) | 训练神经网络的方法、图像处理方法及装置 | |
Guo et al. | Joint raindrop and haze removal from a single image | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
CN116977208A (zh) | 双分支融合的低照度图像增强方法 | |
CN116597144A (zh) | 一种基于事件相机的图像语义分割方法 | |
CN116452472A (zh) | 基于语义知识引导的低照度图像增强方法 | |
CN112686828B (zh) | 视频去噪方法、装置、设备及存储介质 | |
Zhao et al. | End-to-end retinex-based illumination attention low-light enhancement network for autonomous driving at night | |
Zhang et al. | Research on rainy day traffic sign recognition algorithm based on PMRNet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |