CN113378775A - 一种基于深度学习的视频阴影检测与消除方法 - Google Patents

一种基于深度学习的视频阴影检测与消除方法 Download PDF

Info

Publication number
CN113378775A
CN113378775A CN202110723932.9A CN202110723932A CN113378775A CN 113378775 A CN113378775 A CN 113378775A CN 202110723932 A CN202110723932 A CN 202110723932A CN 113378775 A CN113378775 A CN 113378775A
Authority
CN
China
Prior art keywords
video
shadow
frame
loss
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110723932.9A
Other languages
English (en)
Other versions
CN113378775B (zh
Inventor
肖春霞
范馨云
罗飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110723932.9A priority Critical patent/CN113378775B/zh
Publication of CN113378775A publication Critical patent/CN113378775A/zh
Application granted granted Critical
Publication of CN113378775B publication Critical patent/CN113378775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20064Wavelet transform [DWT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视频处理技术领域,提出了一种基于深度学习的视频阴影检测与消除方法。该方法首先使用残差连接优化检测与关键帧提取光流补全相结合的方法进行视频阴影检测,再采用一个基于内部学习的保纹理方法进行视频阴影消除,通过光流计算中间帧,设置仿射变换损失以及视频一致性损失等加强对视频中时序信息的利用,从而保持视频处理结果的时空一致性,获取更真实可靠的处理结果。本发明通过给定输入的RGB阴影视频,对视频信息进行分析处理,能够准确地将视频中的阴影区域检测出来,并且将其阴影部分的光照信息修复成与没有阴影部分的光照一致,从而实现良好的阴影消除效果。

Description

一种基于深度学习的视频阴影检测与消除方法
技术领域
本发明涉及一种基于深度学习的视频阴影检测与消除方法,尤其是可以仅用给定的RGB视频数据快速检测视频中阴影信息并将该阴影消除。本发明属于视频处理技术领域,尤其涉及一种针对阴影对象的视频检测、削除方法。
背景技术
阴影作为一种普遍的自然光学现象,在日常生活场景中随处可见,同时,它也广泛存在于图像以及视频等信息传播介质中。它是由不透明物体遮挡光源照射的光线从而在原本正常光照下的区域形成光照衰减的现象,导致该区域与其他区域形成一定程度的明暗变化。视频中的阴影信息会对视频的目标检测与识别、实例分割等多项视觉任务产生不良的影响。因此,如何对视频中的阴影进行检测与消除对后期视频任务处理起到极为关键的作用,是亟待解决的问题。
视频上的阴影检测与消除主要是指在给定的输入视频文件当中,将视频中的阴影部分检测出来,并且能够将其阴影部分的光照信息修复成与没有阴影部分的光照一致,从而实现阴影消除效果。目前,视频阴影检测与消除算法大多使用传统数学建模的方式,通过利用阴影特征信息对视频帧中的阴影进行处理,由于已有方法的数学模型复杂度有限,这些方法处理的场景都相对单一,且处理结果与数学模型自身的构建具有强相关性,阴影的状态变化对结果影响很大。
发明内容
针对现有技术存在的问题,本发明提供了一种基于深度学习的视频阴影检测与消除方法,旨在解决现有视频阴影检测与消除中泛化能力不强、处理场景单一、训练数据缺乏等的问题而提供一种有效的视频阴影检测与消除方法。所发明的方法,输入为一个RGB阴影视频,输出为该视频中阴影区域的检测结果及消除结果。
本发明提供的基于深度学习的视频阴影检测与消除方法,其包括残差连接优化检测与关键帧提取光流补全相结合的视频阴影检测网络以及基于内部学习的保纹理视频阴影消除网络两个部分。其中第一部分网络包括残差连接优化检测网络、关键帧提取光流补全网络、一致性模块;第二部分网络包括一个具有跳跃连接的生成神经网络、纹理保留模块。本发明的技术方案包含以下步骤:
步骤S1:构建一个基础残差连接优化检测网络,利用网络模型进行学习,提取输入阴影视频序列中的阴影特征信息;
步骤S2:构建一个时空一致性模块,通过采用非局部双向GRU的方法来利用输入阴影视频序列中的时序信息,从而检测得到一个初始的视频阴影检测结果;
步骤S3:通过基于LAB颜色空间的关键帧提取方法得到阴影视频中的关键帧,将关键帧输入到基础检测网络中,得到视频关键帧的阴影检测结果;
步骤S4:将视频关键帧的检测结果输入到光流传播网络PWC-Net当中,利用光流网络计算得到视频关键帧之间的中间帧信息,获得一个基于关键帧提取光流补全的视频阴影检测结果;
步骤S5:对初始视频阴影检测结果以及基于关键帧提取光流补全的视频阴影检测结果构建一个一致性损失,得到最终的视频阴影检测结果;
步骤S6:构建一个具有跳跃连接的生成神经网络,通过内部学习的方式利用视频帧之间非阴影区域的特征来消除阴影区域中的阴影信息,并借助光流计算对帧间进行仿射变换处理,利用视频序列中的时空信息,使得消除结果能够保持时空连续性;
步骤S7:构建纹理保留模块,利用小波池化与小波非池化替代普通网络中的池化与非池化操作,达到阴影消除处理后还能完好保留阴影区域纹理信息的目的;
步骤S8:构建视频帧生成损失、光流生成损失、视频一致性损失以及视频帧感知损失等四个损失函数对网络进行约束,最终得到具有时空一致性的视频消除结果。
进一步地,步骤S1的网络由空间特征提取器和像素级分类器组成。
空间特征提取器基于ResNet-50模型构建,使用了ResNet-50的前五组层,并去掉了第五层中的下采样操作,减少空间特征信息丢失的情况,并使用速率为2的膨胀卷积来替换掉最后一层中的卷积层,使得处理后与原本网络的感受野大小保持一致。在最后一个卷积层后面添加上一个空洞空间卷积池化金字塔模块,同时捕获图像级的全局上下文信息以及多个尺度的空间上下文信息,空间特征提取器利用堆叠一起的卷积层以及下采样进行操作处理,在视频帧的低层次特征信息里面提取出高层次特征信息。同时,使用下采样操作来逐渐增加卷积信号的感受野,得到一个抽象的特征表示层数;
像素级分类器由三个级联的优化块组成,每个优化块的输入为上一个自底向上的输出特征图和与之相对应的从上到下进行下采样所得的连接特征图,并通过一个残差跳跃连接层连接到空间特征提取器中对应的一个层,减轻在下采样过程中空间细节信息丢失的干扰影响。分类器中的优化块将特征图连接起来,然后将它们传送到另一个具有128个通道的3×3卷积层,获取初始视频阴影检测结果。
进一步地,步骤S2.1:空间特征提取器提取的特征输入到一个非局部区域块中,该非局部区域块计算一个位置的响应,作为输入特征图所有位置特征的加权和,通过非局部区域块构造输入视频帧特征之间的时空连接;
步骤S2.2:利用双向ConvGRU模块实现序列特征演化建模,令x1,x2,...,xT表示为ConvGRU的输入,h1,h2,...,hT表示为与之对应的隐藏状态,一个ConvGRU模块由一个重置门Rt和一个更新门Zt组成;通过这两个门的状态控制,ConvGRU可以实现对视频序列信息进行选择性记忆和遗忘;基于上述定义,按时间展开的ConvGRU的整体计算更新公式如下:
Zt=σ(Wzxt+Uzht-1)
Rt=σ(Wrxt+Urht-1)
Figure BDA0003137776070000031
Figure BDA0003137776070000032
其中,⊙为元素乘积,σ为Sigmoid函数,W和U表示可学习的权重矩阵;为了简单起见,公式中省略了偏差项,为了加强两个方向之间的时空信息交换,采用了更深层次的双向ConvGRU进行处理,这样不仅可以获得过去视频序列的记忆,还可以获取未来视频序列的记忆,加强视频序列信息的时空处理;计算公式如下:
Figure BDA0003137776070000033
Figure BDA0003137776070000034
Figure BDA0003137776070000035
其中,
Figure BDA0003137776070000036
表示前向ConvGRU的隐藏状态,
Figure BDA0003137776070000037
表示后向ConvGRU的隐藏状态,ht表示最终的双向ConvGRU计算结果。
进一步地,所述步骤S3具体过程如下:
步骤S3.1:获取所有输入视频帧的Lab色彩值,计算前后两个视频帧的Lab色彩差值,判断计算的两帧之间是否存在显著的差异;
步骤S3.2:根据需要的关键帧数量来对所有视频帧Lab色彩差值进行平滑分区,提取局部最大值,即提取色彩变化差异最大的帧作为选取的关键帧;
步骤S3.3:将提取的关键帧输入到基本残差连接优化检测网络当中进行关键帧阴影检测,得到视频关键帧的阴影检测结果。
进一步地,所述步骤S6和步骤S7具体为:网络中的编码器由12个卷积层组成,每两个连续的层形成一个块,其中两个层有相同数量的通道。每个块内的第一层使用2个步长来降低空间分辨率,卷积层中使用大小为5的滤波器;解码器由12个卷积层组成,以及分为6个块,被每个块前添加一个最近邻上采样层;此处,所有卷积层中都使用大小为3的滤波器;同时,为了保留处理过程中的空间特征信息,也在编码器与解码器之间添加了跳跃连接。为了保留视频帧中的纹理,将模型中的池化和非池化部分都采用小波池化和非池化进行操作,此处的小波池化和非池化是根据Haar小波进行处理;小波池化层中的高频分量(LH,HL,HH)直接连接到解码器中,只有低频分量(LL)被传递到下一个编码层。
进一步地,所述步骤S8中整体损失函数计算公式L如下:
L=λrLrfLfcLcpLp
其中,λr、λf、λc、λp分别是Lr、Lf、Lc、Lp损失函数对应的权重,通常设置为λr=1、λf=0.1、λc=1、λp=0.01;令
Figure BDA0003137776070000041
为第i帧Ii在网络训练后计算所得的初始输出结果,在每一帧
Figure BDA0003137776070000042
预测时都会计算其损失Li,然后将所有视频帧的损失累加起来,得到视频的总损失情况,从而优化网络训练过程中的网络参数;
视频帧生成损失主要用于生成非阴影区域部分的内容,通过在视频帧非阴影区域中定义了一个L2重构损失进行处理,计算公式如下:
Figure BDA0003137776070000043
光流生成损失主要用于将视频信息在视频帧之间传播,为了增强网络的鲁棒性,以及能够更好地捕获较长时间的一致性,网络中将会联合预测6个不同时间方向以及帧间间隔的光流图,即j∈{i±1,i±3,i±5};光流生成与视频帧生成类似,均从非阴影区域中训练学习获取到先验信息,计算公式如下:
Figure BDA0003137776070000044
其中,
Figure BDA0003137776070000045
为从第i帧到第j帧的光流预估值,Fi,j为已知的光流值,Oi,j为通过前后一致性检查估计的阴影区域遮挡图,
Figure BDA0003137776070000046
为第i帧与第j帧对齐阴影区域相交计算得到的可靠流区域,计算如下:
Figure BDA0003137776070000047
视频一致性损失主要用于对生成的视频帧与生成的光流进行相互约束,令相邻的视频帧与它们之间预估的光流情况保持一致,计算公式如下:
Figure BDA0003137776070000048
其中,
Figure BDA0003137776070000049
为生成视频帧
Figure BDA00031377760700000410
通过生成的光流
Figure BDA00031377760700000411
进行反向映射所得的结果;一致性损失专门针对阴影区域中的像素点,通过采用对阴影遮罩取逆
Figure BDA00031377760700000412
的方式来约束损失函数的作用范围,使得训练集中于阴影区域中视频帧与光流的传播情况;
视频帧感知损失主要用于进一步提高视频帧生成的质量,采用的是从ImageNet数据集中进行预训练得到的VGG-16模型中提取的特征图之间的相似度进行计算的,计算公式如下:
Figure BDA00031377760700000413
其中,
Figure BDA00031377760700000414
为使用预训练VGG-16网络第k层对Ii进行特征提取得到的结果,
Figure BDA00031377760700000415
为调整成与提取特征图大小一致的阴影区域遮罩图。
本发明的优点在于:
1、通过残差连接优化检测网络与关键帧提取光流补全网络相结合的方式进行视频阴影检测,能够同时检测静态与动态等多种状态下的阴影信息,获取具有良好时空一致性的视频阴影检测结果。
2、基于内部学习的保纹理视频阴影消除方法,无需使用外部数据进行训练,在实现视频阴影良好消除的同时,也解决了当前深度学习中因为视频阴影消除真实数据缺乏而无法使用监督方式进行训练的难题。
附图说明
图1为视频阴影检测框架示意图。
图2为基础残差连接优化检测网络示意图。
图3为视频阴影消除框架示意图。
图4为添加纹理保留模块的视频阴影消除网络示意图。
图5为本发明的流程图。
具体实施方式
为进一步了解本发明的内容,使本发明的目的、技术方案及优点更加清晰明了,以下结合附图和实施例对本发明进行详细说明。应当理解的是,此处仅是对本发明进行解释而并非限定。
本发明提供的一种基于深度学习的视频阴影检测与消除方法实施例,能够较好地实现对输入RGB阴影视频的阴影检测与消除。
如图1所示,其为本实例中视频阴影检测框架示意图,其包括以下步骤:
步骤S1:构建一个基础残差连接优化检测网络,利用网络模型进行学习,提取输入阴影视频序列中的阴影特征信息。其网络示意图如图2所示,由空间特征提取器和由三个连接层连接的像素级分类器组成,具体实施例包含以下步骤:
步骤S1.1:空间特征提取器是利用堆叠一起的卷积层以及下采样进行操作处理,在视频帧的低层次特征信息(如物体颜色和物体纹理等)里面提取出高层次特征信息。同时,使用下采样操作来逐渐增加卷积信号的感受野,得到一个抽象的特征表示层数。它是基于ResNet-50模型构建的,使用了ResNet-50的前五组层,并去掉了第五层中的下采样操作,减少空间特征信息丢失的情况,并使用速率为2的膨胀卷积来替换掉最后一层中的卷积层,使得处理后与原本网络的感受野大小保持一致。在最后一个卷积层后面添加上一个空洞空间卷积池化金字塔模块(AtrousSpatial Pyramid Pooling,ASPP),同时捕获图像级的全局上下文信息以及多个尺度的空间上下文信息。在卷积神经网络中,感受野(ReceptiveField)的定义是卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小。
步骤S1.2:像素级分类器由三个级联的优化块组成,每个优化块的输入为上一个自底向上的输出特征图和与之相对应的从上到下进行下采样所得的连接特征图,并通过一个残差跳跃连接层连接到空间特征提取器中对应的一个层,减轻在下采样过程中空间细节信息丢失的干扰影响。分类器中的优化块将特征图连接起来,然后将它们传送到另一个具有128个通道的3×3卷积层,获取初始视频阴影检测结果。
步骤S2:构建一个时空一致性模块,通过采用非局部双向门控循环单元GRU的方法来利用输入阴影视频序列中的时序信息,从而检测得到一个初始的视频阴影检测结果,该模块由两个非局部块和一个双向卷积门控循环单元(ConvGRU)模块组成,具体实施例包含以下步骤:
步骤S2.1:空间特征提取器提取的特征输入到一个非局部区域块中,该非局部区域块计算一个位置的响应,作为输入特征图所有位置特征的加权和,通过非局部区域块构造输入视频帧特征之间的时空连接。
步骤S2.2:利用双向ConvGRU模块实现序列特征演化建模。令x1,x2,...,xT表示为ConvGRU的输入,h1,h2,...,hT表示为与之对应的隐藏状态。一个ConvGRU模块由一个重置门Rt和一个更新门Zt组成。通过这两个门的状态控制,ConvGRU可以实现对视频序列信息进行选择性记忆和遗忘。基于上述定义,按时间展开的ConvGRU的整体计算更新公式如下:
Zt=σ(Wzxt+Uzht-1)
Rt=σ(Wrxt+Urht-1)
Figure BDA0003137776070000061
Figure BDA0003137776070000062
其中,⊙为元素乘积,σ为Sigmoid函数,W和U表示可学习的权重矩阵。为了简单起见,公式中省略了偏差项。为了加强两个方向之间的时空信息交换,采用了更深层次的双向ConvGRU进行处理,这样不仅可以获得过去视频序列的记忆,还可以获取未来视频序列的记忆,加强视频序列信息的时空处理。计算公式如下:
Figure BDA0003137776070000063
Figure BDA0003137776070000064
Figure BDA0003137776070000065
其中,
Figure BDA0003137776070000066
表示前向ConvGRU的隐藏状态,
Figure BDA0003137776070000067
表示后向ConvGRU的隐藏状态,ht表示最终的双向ConvGRU计算结果。
步骤S3:通过基于LAB颜色空间的关键帧提取方法得到阴影视频中的关键帧,将关键帧输入到基础检测网络中,得到视频关键帧的阴影检测结果,具体实施例包含以下步骤:
步骤S3.1:获取所有输入视频帧的Lab色彩值,计算前后两个视频帧的Lab色彩差值,判断计算的两帧之间是否存在显著的差异。
步骤S3.2:根据需要的关键帧数量来对所有视频帧Lab色彩差值进行平滑分区,提取局部最大值,即提取色彩变化差异最大的帧作为选取的关键帧。
步骤S3.3:将提取的关键帧输入到基本残差连接优化检测网络当中进行关键帧阴影检测,得到视频关键帧的阴影检测结果。
步骤S4:将视频关键帧的检测结果输入到光流传播网络PWC-Net当中,利用光流网络计算得到视频关键帧之间的中间帧信息,获得一个基于关键帧提取光流补全的视频阴影检测结果;
步骤S5:对初始视频阴影检测结果以及基于关键帧提取光流补全的视频阴影检测结果构建一个一致性损失,得到最终的视频阴影检测结果。令第i帧的初始预测中,残差连接优化检测网络计算结果为
Figure BDA0003137776070000071
关键帧提取光流补全网络计算结果
Figure BDA0003137776070000072
定义了一个L2损失进行一致性损失计算,具体公式如下:
Figure BDA0003137776070000073
如图3所示,其为视频阴影消除框架示意图,其包括以下步骤:
步骤S6:构建一个具有跳跃连接的生成神经网络,通过内部学习的方式利用视频帧之间非阴影区域的特征来消除阴影区域中的阴影信息,并借助光流计算对帧间进行仿射变换处理,利用视频序列中的时空信息,使得消除结果能够保持时空连续性。
步骤S7:构建纹理保留模块,利用小波池化与小波非池化替代普通网络中的池化与非池化操作,达到阴影消除处理后还能完好保留阴影区域纹理信息的目的。如图4所示,其为添加纹理保留模块的视频阴影消除网络示意图,具体实施例如下:
网络中的编码器由12个卷积层组成,每两个连续的层形成一个块,其中两个层有相同数量的通道。每个块内的第一层使用2个步长来降低空间分辨率,卷积层中使用大小为5的滤波器。解码器同样由12个卷积层组成,以及分为6个块,被每个块前添加一个最近邻上采样层。此处,所有卷积层中都使用大小为3的滤波器。同时,为了保留处理过程中的空间特征信息,也在编码器与解码器之间添加了跳跃连接。为了保留视频帧中的纹理,将模型中的池化和非池化部分都采用小波池化和小波非池化进行操作,此处的小波池化和小波非池化是根据Haar小波进行处理的。小波池化层中的高频分量(LH,HL,HH)直接连接到解码器中,只有低频分量(LL)被传递到下一个编码层。
步骤S8:构建视频帧生成损失Lr、光流生成损失Lf、视频一致性损失Lc以及视频帧感知损失Lp等四个损失函数对网络进行约束,最终得到具有时空一致性的视频消除结果。具体实施例如下:
整体损失函数计算公式L为:
L=λrLrfLfcLcpLp
其中,λr、λf、λc、λp分别是Lr、Lf、Lc、Lp损失函数对应的权重,通常设置为λr=1、λf=0.1、λc=1、λp=0.01。令
Figure BDA0003137776070000081
为第i帧Ii在网络训练后计算所得的初始输出结果,在每一帧
Figure BDA0003137776070000082
预测时都会计算其损失Li,然后将所有视频帧的损失累加起来,得到视频的总损失情况,从而优化网络训练过程中的网络参数。
视频帧生成损失主要用于生成非阴影区域部分的内容。通过在视频帧非阴影区域中定义了一个L2重构损失进行处理,计算公式如下:
Figure BDA0003137776070000083
光流生成损失主要用于将视频信息在视频帧之间传播,为了增强网络的鲁棒性,以及能够更好地捕获较长时间的一致性,网络中将会联合预测6个不同时间方向以及帧间间隔的光流图,即j∈{i±1,i±3,i±5}。光流生成与视频帧生成类似,都是从非阴影区域中训练学习获取到先验信息,计算公式如下:
Figure BDA0003137776070000084
其中,
Figure BDA0003137776070000085
为从第i帧到第j帧的光流预估值,Fi,j为已知的光流值,Oi,j为通过前后一致性检查估计的阴影区域遮挡图,
Figure BDA0003137776070000086
为第i帧与第j帧对齐阴影区域相交计算得到的可靠流区域,计算如下:
Figure BDA0003137776070000087
视频一致性损失主要用于对生成的视频帧与生成的光流进行相互约束,令相邻的视频帧与它们之间预估的光流情况保持一致,计算公式如下:
Figure BDA0003137776070000088
其中,
Figure BDA0003137776070000089
为生成视频帧
Figure BDA00031377760700000810
通过生成的光流
Figure BDA00031377760700000811
进行反向映射所得的结果。一致性损失专门针对阴影区域中的像素点,通过采用对阴影遮罩取逆
Figure BDA00031377760700000812
的方式来约束损失函数的作用范围,使得训练集中于阴影区域中视频帧与光流的传播情况。
视频帧感知损失主要用于进一步提高视频帧生成的质量,采用的是从ImageNet数据集中进行预训练得到的VGG-16模型中提取的特征图之间的相似度进行计算的,计算公式如下:
Figure BDA00031377760700000813
其中,
Figure BDA00031377760700000814
为使用预训练VGG-16网络第k层对Ii进行特征提取得到的结果,
Figure BDA00031377760700000815
为调整成与提取特征图大小一致的阴影区域遮罩图。
本实施例提供了一种基于深度学习的视频阴影检测与消除方法,利用残差连接优化检测网络与关键帧提取光流补全网络相结合的方式进行视频阴影检测,并基于内部学习的方法及保纹理结合的方法进行视频阴影消除,解决了现有视频阴影检测与消除中泛化能力不强、处理场景单一、训练数据缺乏等的问题,同时实现了有效的视频阴影检测与消除。
以上是结合具体的优选实施方式对本发明所作的说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (6)

1.一种基于深度学习的视频阴影检测与消除方法,其特征在于,包括以下步骤:
步骤S1:构建一个基础残差连接优化检测网络,利用网络模型进行学习,提取输入阴影视频序列中的阴影特征信息;
步骤S2:构建一个时空一致性模块,通过采用非局部双向GRU的方法来利用输入阴影视频序列中的时序信息,从而检测得到一个初始的视频阴影检测结果;
步骤S3:通过基于LAB颜色空间的关键帧提取方法得到阴影视频中的关键帧,将关键帧输入到基础检测网络中,得到视频关键帧的阴影检测结果;
步骤S4:将视频关键帧的检测结果输入到光流传播网络PWC-Net当中,利用光流网络计算得到视频关键帧之间的中间帧信息,获得一个基于关键帧提取光流补全的视频阴影检测结果;
步骤S5:对初始视频阴影检测结果以及基于关键帧提取光流补全的视频阴影检测结果构建一个一致性损失,得到最终的视频阴影检测结果;
步骤S6:构建一个具有跳跃连接的生成神经网络,通过内部学习的方式利用视频帧之间非阴影区域的特征来消除阴影区域中的阴影信息,并借助光流计算对帧间进行仿射变换处理,利用视频序列中的时空信息,使得消除结果能够保持时空连续性;
步骤S7:构建纹理保留模块,利用小波池化与非池化替代普通网络中的池化与非池化操作,达到阴影消除处理后还能完好保留阴影区域纹理信息的目的;
步骤S8:构建视频帧生成损失、光流生成损失、视频一致性损失以及视频帧感知损失等四个损失函数对网络进行约束,最终得到具有时空一致性的视频消除结果。
2.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:步骤S1的网络由空间特征提取器和像素级分类器组成;
空间特征提取器基于ResNet-50模型构建,使用了ResNet-50的前五组层,并去掉了第五层中的下采样操作,减少空间特征信息丢失的情况,并使用速率为2的膨胀卷积来替换掉最后一层中的卷积层,使得处理后与原本网络的感受野大小保持一致。在最后一个卷积层后面添加上一个空洞空间卷积池化金字塔模块,同时捕获图像级的全局上下文信息以及多个尺度的空间上下文信息,空间特征提取器利用堆叠一起的卷积层以及下采样进行操作处理,在视频帧的低层次特征信息里面提取出高层次特征信息。同时,使用下采样操作来逐渐增加卷积信号的感受野,得到一个抽象的特征表示层数;
像素级分类器由三个级联的优化块组成,每个优化块的输入为上一个自底向上的输出特征图和与之相对应的从上到下进行下采样所得的连接特征图,并通过一个残差跳跃连接层连接到空间特征提取器中对应的一个层,减轻在下采样过程中空间细节信息丢失的干扰影响。分类器中的优化块将特征图连接起来,然后将它们传送到另一个具有128个通道的3×3卷积层,获取初始视频阴影检测结果。
3.根据权利要求2中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:步骤S2的具体过程如下:
步骤S2.1:空间特征提取器提取的特征输入到一个非局部区域块中,该非局部区域块计算一个位置的响应,作为输入特征图所有位置特征的加权和,通过非局部区域块构造输入视频帧特征之间的时空连接;
步骤S2.2:利用双向ConvGRU模块实现序列特征演化建模,令x1,x2,...,xT表示为ConvGRU的输入,h1,h2,...,hT表示为与之对应的隐藏状态,一个ConvGRU模块由一个重置门Rt和一个更新门Zt组成;通过这两个门的状态控制,ConvGRU可以实现对视频序列信息进行选择性记忆和遗忘;基于上述定义,按时间展开的ConvGRU的整体计算更新公式如下:
Zt=σ(Wzxt+Uzht-1)
Rt=σ(Wrxt+Urht-1)
Figure FDA0003137776060000021
Figure FDA0003137776060000022
其中,⊙为元素乘积,σ为Sigmoid函数,W和U表示可学习的权重矩阵;为了简单起见,公式中省略了偏差项,为了加强两个方向之间的时空信息交换,采用了更深层次的双向ConvGRU进行处理,这样不仅可以获得过去视频序列的记忆,还可以获取未来视频序列的记忆,加强视频序列信息的时空处理;计算公式如下:
Figure FDA0003137776060000023
Figure FDA0003137776060000024
Figure FDA0003137776060000025
其中,
Figure FDA0003137776060000026
表示前向ConvGRU的隐藏状态,
Figure FDA0003137776060000027
表示后向ConvGRU的隐藏状态,ht表示最终的双向ConvGRU计算结果。
4.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:所述步骤S3具体过程如下:
步骤S3.1:获取所有输入视频帧的Lab色彩值,计算前后两个视频帧的Lab色彩差值,判断计算的两帧之间是否存在显著的差异;
步骤S3.2:根据需要的关键帧数量来对所有视频帧Lab色彩差值进行平滑分区,提取局部最大值,即提取色彩变化差异最大的帧作为选取的关键帧;
步骤S3.3:将提取的关键帧输入到基本残差连接优化检测网络当中进行关键帧阴影检测,得到视频关键帧的阴影检测结果。
5.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:所述步骤S6和步骤S7具体为:网络中的编码器由12个卷积层组成,每两个连续的层形成一个块,其中两个层有相同数量的通道。每个块内的第一层使用2个步长来降低空间分辨率,卷积层中使用大小为5的滤波器;解码器由12个卷积层组成,以及分为6个块,被每个块前添加一个最近邻上采样层;此处,所有卷积层中都使用大小为3的滤波器;同时,为了保留处理过程中的空间特征信息,也在编码器与解码器之间添加了跳跃连接。为了保留视频帧中的纹理,将模型中的池化和非池化部分都采用小波池化和非池化进行操作,此处的小波池化和非池化是根据Haar小波进行处理;小波池化层中的高频分量(LH,HL,HH)直接连接到解码器中,只有低频分量(LL)被传递到下一个编码层。
6.根据权利要求1中所述的基于深度学习的视频阴影检测与消除方法,其特征在于:所述步骤S8中整体损失函数计算公式L如下:
L=λrLrfLfcLcpLp
其中,λr、λf、λc、λp分别是Lr、Lf、Lc、Lp损失函数对应的权重,通常设置为λr=1、λf=0.1、λc=1、λp=0.01;令
Figure FDA0003137776060000031
为第i帧Ii在网络训练后计算所得的初始输出结果,在每一帧
Figure FDA0003137776060000032
预测时都会计算其损失Li,然后将所有视频帧的损失累加起来,得到视频的总损失情况,从而优化网络训练过程中的网络参数;
视频帧生成损失主要用于生成非阴影区域部分的内容,通过在视频帧非阴影区域中定义了一个L2重构损失进行处理,计算公式如下:
Figure FDA0003137776060000033
光流生成损失主要用于将视频信息在视频帧之间传播,为了增强网络的鲁棒性,以及能够更好地捕获较长时间的一致性,网络中将会联合预测6个不同时间方向以及帧间间隔的光流图,即j∈{i±1,i±3,i±5};光流生成与视频帧生成类似,均从非阴影区域中训练学习获取到先验信息,计算公式如下:
Figure FDA0003137776060000034
其中,
Figure FDA0003137776060000035
为从第i帧到第j帧的光流预估值,Fi,j为已知的光流值,Oi,j为通过前后一致性检查估计的阴影区域遮挡图,
Figure FDA0003137776060000036
为第i帧与第j帧对齐阴影区域相交计算得到的可靠流区域,计算如下:
Figure FDA0003137776060000037
视频一致性损失主要用于对生成的视频帧与生成的光流进行相互约束,令相邻的视频帧与它们之间预估的光流情况保持一致,计算公式如下:
Figure FDA0003137776060000041
其中,
Figure FDA0003137776060000042
为生成视频帧
Figure FDA0003137776060000043
通过生成的光流
Figure FDA0003137776060000044
进行反向映射所得的结果;一致性损失专门针对阴影区域中的像素点,通过采用对阴影遮罩取逆
Figure FDA0003137776060000045
的方式来约束损失函数的作用范围,使得训练集中于阴影区域中视频帧与光流的传播情况;
视频帧感知损失主要用于进一步提高视频帧生成的质量,采用的是从ImageNet数据集中进行预训练得到的VGG-16模型中提取的特征图之间的相似度进行计算的,计算公式如下:
Figure FDA0003137776060000046
其中,
Figure FDA0003137776060000047
为使用预训练VGG-16网络第k层对Ii进行特征提取得到的结果,
Figure FDA0003137776060000048
为调整成与提取特征图大小一致的阴影区域遮罩图。
CN202110723932.9A 2021-06-29 2021-06-29 一种基于深度学习的视频阴影检测与消除方法 Active CN113378775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110723932.9A CN113378775B (zh) 2021-06-29 2021-06-29 一种基于深度学习的视频阴影检测与消除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110723932.9A CN113378775B (zh) 2021-06-29 2021-06-29 一种基于深度学习的视频阴影检测与消除方法

Publications (2)

Publication Number Publication Date
CN113378775A true CN113378775A (zh) 2021-09-10
CN113378775B CN113378775B (zh) 2023-04-07

Family

ID=77579656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110723932.9A Active CN113378775B (zh) 2021-06-29 2021-06-29 一种基于深度学习的视频阴影检测与消除方法

Country Status (1)

Country Link
CN (1) CN113378775B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067258A (zh) * 2022-01-18 2022-02-18 电子科技大学 一种面部通话视频的分层编码方法
CN115147412A (zh) * 2022-08-31 2022-10-04 武汉大学 一种内存传递的长时序网络及视频阴影检测方法
CN117152167A (zh) * 2023-10-31 2023-12-01 海信集团控股股份有限公司 一种目标移除、基于分割大模型的目标移除方法及设备
WO2024067176A1 (zh) * 2022-09-29 2024-04-04 中兴通讯股份有限公司 车位检测处理方法、装置、存储介质及电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110077465A (ko) * 2009-12-30 2011-07-07 서울과학기술대학교 산학협력단 카메라 위치·태양이 움직이는 시간에 따른 그림자 제거방식을 통한 영상추적장치 및 방법
CN110288538A (zh) * 2019-05-23 2019-09-27 南京理工大学 一种多特征融合的运动目标阴影检测及消除方法
CN110349099A (zh) * 2019-06-17 2019-10-18 武汉大学 一种复杂场景视频阴影检测与消除方法
CN111311490A (zh) * 2020-01-20 2020-06-19 陕西师范大学 基于多帧融合光流的视频超分辨率重建方法
CN111626951A (zh) * 2020-05-20 2020-09-04 武汉科技大学 一种基于内容感知信息的图像阴影消除方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110077465A (ko) * 2009-12-30 2011-07-07 서울과학기술대학교 산학협력단 카메라 위치·태양이 움직이는 시간에 따른 그림자 제거방식을 통한 영상추적장치 및 방법
CN110288538A (zh) * 2019-05-23 2019-09-27 南京理工大学 一种多特征融合的运动目标阴影检测及消除方法
CN110349099A (zh) * 2019-06-17 2019-10-18 武汉大学 一种复杂场景视频阴影检测与消除方法
CN111311490A (zh) * 2020-01-20 2020-06-19 陕西师范大学 基于多帧融合光流的视频超分辨率重建方法
CN111626951A (zh) * 2020-05-20 2020-09-04 武汉科技大学 一种基于内容感知信息的图像阴影消除方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ADRIAN WALCHLI: "《Optical Flow Dataset Synthesis from Unpaired Images》", 《ARXIV》 *
吴文君: "《基于深度信息的单幅图像自动阴影检测》", 《武汉大学学报(理学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067258A (zh) * 2022-01-18 2022-02-18 电子科技大学 一种面部通话视频的分层编码方法
CN115147412A (zh) * 2022-08-31 2022-10-04 武汉大学 一种内存传递的长时序网络及视频阴影检测方法
CN115147412B (zh) * 2022-08-31 2022-12-16 武汉大学 一种内存传递的长时序网络及视频阴影检测方法
WO2024067176A1 (zh) * 2022-09-29 2024-04-04 中兴通讯股份有限公司 车位检测处理方法、装置、存储介质及电子装置
CN117152167A (zh) * 2023-10-31 2023-12-01 海信集团控股股份有限公司 一种目标移除、基于分割大模型的目标移除方法及设备
CN117152167B (zh) * 2023-10-31 2024-03-01 海信集团控股股份有限公司 一种目标移除、基于分割大模型的目标移除方法及设备

Also Published As

Publication number Publication date
CN113378775B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN113378775B (zh) 一种基于深度学习的视频阴影检测与消除方法
CN108805015B (zh) 加权卷积自编码长短期记忆网络人群异常检测方法
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
US20200074642A1 (en) Motion assisted image segmentation
CN109919032B (zh) 一种基于动作预测的视频异常行为检测方法
CN111860162A (zh) 一种视频人群计数系统及方法
CN111861925B (zh) 一种基于注意力机制与门控循环单元的图像去雨方法
CN110580472B (zh) 一种基于全卷积网络和条件对抗网络的视频前景检测方法
CN111402146A (zh) 图像处理方法以及图像处理装置
CN113065645B (zh) 孪生注意力网络、图像处理方法和装置
CN113076685A (zh) 图像重建模型的训练方法、图像重建方法及其装置
WO2024002211A1 (zh) 一种图像处理方法及相关装置
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN111914997A (zh) 训练神经网络的方法、图像处理方法及装置
Guo et al. Joint raindrop and haze removal from a single image
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN116977208A (zh) 双分支融合的低照度图像增强方法
CN116597144A (zh) 一种基于事件相机的图像语义分割方法
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN112686828B (zh) 视频去噪方法、装置、设备及存储介质
Zhao et al. End-to-end retinex-based illumination attention low-light enhancement network for autonomous driving at night
Zhang et al. Research on rainy day traffic sign recognition algorithm based on PMRNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant