CN111489372A - 基于级联卷积神经网络的视频前背景分离方法 - Google Patents

基于级联卷积神经网络的视频前背景分离方法 Download PDF

Info

Publication number
CN111489372A
CN111489372A CN202010168156.6A CN202010168156A CN111489372A CN 111489372 A CN111489372 A CN 111489372A CN 202010168156 A CN202010168156 A CN 202010168156A CN 111489372 A CN111489372 A CN 111489372A
Authority
CN
China
Prior art keywords
network
foreground
background
loss
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010168156.6A
Other languages
English (en)
Other versions
CN111489372B (zh
Inventor
杨敬钰
师雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010168156.6A priority Critical patent/CN111489372B/zh
Publication of CN111489372A publication Critical patent/CN111489372A/zh
Application granted granted Critical
Publication of CN111489372B publication Critical patent/CN111489372B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,为提出融合时空线索的级联卷积神经网络,用于实现视频前背景分离。为此,本发明采取的技术方案是,基于级联卷积神经网络的视频前背景分离方法,利用两个编码器‑解码器类型的子网络进行视频前背景分离,所述两个子网络分别为进行前景检测的FD网络和进行背景重建的BR网络,FD网络用来生成二值化的前景掩膜,BR网络利用FD网络的输出和输入视频帧来重建出背景图;为引入空间线索,将三张连续的视频帧作为输入;为提高网络适用性,与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。本发明主要应用于视频前背景分离场合。

Description

基于级联卷积神经网络的视频前背景分离方法
技术领域
本发明属于计算机视觉领域,具体讲,涉及基于级联卷积神经网络的视频前背景分离方法。
背景技术
前背景分离是计算机视觉领域的一项非常重要的基本任务,吸引了许多研究学者越来越多的关注。这项技术应用广泛,其中包括运动检测,物体跟踪,行为识别等。简单来说,具体的任务是从一段输入的视频序列中提取两个互补分量:静态背景和具有运动物体的前景。在过去的十年中,已经提出了许多方法来解决这个问题。最早的传统方法,如高斯混合模型、非参数模型等,提出独立地估计每个像素,并将像素分类为背景或前景。这类方法的缺点是没有考虑视频的全局信息。最近,鲁棒主成分分析方法(RPCA)因其在前背景分离上的优秀性能引起了广泛的关注,并且出现了许多改进算法,为视频分析引入了新视角。但是这些传统方法通常基于一些先验约束,所以它们可以在特定条件下很好地处理一些场景。但是面对复杂的场景,如恶劣天气,相机抖动,光线条件变化等,先前的假设被打破,它们就无法展现出优越性能。所以在这种情况下,非常需要改进前背景分离方法对通用复杂视频的适用性。
近年来,卷积神经网络(CNN)被广泛应用于计算机视觉领域,具有优异的性能。已经出现了编码器-解码器类型的卷积神经网络来解决上述问题并取得了重大进展。但是,这类工作仍然存在一些局限性。具体而言,它们仅采用一个视频帧作为输入,这不能有效地捕获前景的运动信息。在这种情况下,前景移动物体的检测不准确,会导致前景泄漏到背景中。为克服这一缺点,本发明提出了一个端对端的级联卷积神经网络来实现前景和背景的准确分离。
发明内容
为克服现有技术的不足,本发明旨在提出融合时空线索的级联卷积神经网络,用于实现视频前背景分离。为此,本发明采取的技术方案是,基于级联卷积神经网络的视频前背景分离方法,利用两个编码器-解码器类型的子网络进行视频前背景分离,所述两个子网络分别为进行前景检测的FD网络和进行背景重建的BR网络,FD网络用来生成二值化的前景掩膜,BR网络利用FD网络的输出和输入视频帧来重建出背景图;为引入空间线索,将三张连续的视频帧作为输入;为提高网络适用性,与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。
具体步骤如下:
1)建立训练数据库
11)采用异常物检测ChangeDetection2014数据库;
12)为了保证数据均衡性,从不同场景中随机抽取帧的序列,将每一个视频帧进行180度的水平翻转对数据进行数据扩充;
13)对帧图像统一用最近邻域插值算法进行尺寸调整,使图像大小统一;
14)划分训练集和测试集;
2)搭建前景检测网络FD网络,该子网络包含两个部分:编码器部分和解码器部分;
21)采用VGG16网络的前n个卷积模块作为编码器,用来提取前景移动物体的特征,VGG网络是由牛津大学的视觉几何组提出的网络模型,包括VGG16和VGG19;
22)采用反卷积层作为解码器端,用来将前景特征映射成前景掩膜;
23)网络的输入有两个部分,第一个部分是9通道的三张连续的原始视频帧,第二个部分是6通道的与原始视频帧相对应的光流图,两个输入分别用权重不共享的卷积层提取特征,在每一个卷积层后面都增加一个特征融合层:
Figure BDA0002408203240000021
其中
Figure BDA0002408203240000022
表示元素相加操作,i表示卷积层的索引,
Figure BDA0002408203240000023
分别表示前景和光流图在第i个卷积层提取出来的特征,fi表示融合后的特征,它被送入到下一个卷积层中提取更抽象的特征;
24)将编码器的特征图通过跳跃连接传送到解码器,在网络的末尾处添加一个残差块,用来精细化生成的前景掩膜;
25)FD网络采用二值交叉熵作为前景检测部分的损失函数Ldet
Figure BDA0002408203240000024
其中gj和mj表示前景真实标签G和预测出的前景掩膜M的第j个像素值,N代表像素的总数,∑表示求和操作,log()表示对数函数;
3)搭建背景重建BR网络,该子网络包含三个部分:编码器部分、传输部分和解码器部分;
31)采用三个卷积层作为解码器,在传输部分使用空洞卷积来替代传统的卷积层,传输部分包含10个残差块,不进行任何的下采样操作,解码器端包含三个反卷积层,用来将提取出来的背景特征映射成一个完整的背景图;
32)将FD网络生成的前景掩膜与当前帧结合:
Figure BDA0002408203240000025
其中
Figure BDA0002408203240000026
表示哈达玛乘积,D,M分别表示原始彩色视频帧和FD网络生成的前景掩膜,
Figure BDA0002408203240000027
表示去除前景后的不完整的背景图,将
Figure BDA0002408203240000028
输入到BR网络中生成完整的背景图;
33)BR网络采用加权损失函数,使用一范数来进行平衡,一范数损失
Figure BDA0002408203240000029
和二范数损失
Figure BDA00024082032400000210
定义如下:
Figure BDA0002408203240000031
其中bm,n,c
Figure BDA0002408203240000032
分别表示背景真实标签B和预测背景
Figure BDA0002408203240000033
在第m行、第n列、第c个通道上的像素值,N表示像素的总个数,重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签,采用感知损失来惩罚那些与标签感知不相似的结果,感知损失函数Lperc定义如下:
Figure BDA0002408203240000034
其中,φl表示在ImageNet上预训练好的VGG19网络上的第l个激活层的特征,Nl表示第l个激活层的特征图的像素个数,ImageNet是由斯坦福大学李飞飞团队制作的一个图像分类的数据集,因此加权背景重建损失函数Lrec定义为:
Figure BDA0002408203240000035
其中λ1,λ2和λperc分别表示一范数损失、二范数损失和感知损失的权重系数;
4)用划分好的帧序列训练网络模型,优化函数采用‘RMSprop’均方根误差。
训练过程是采用逐步训练策略:首先通过前景检测损失函数Ldet训练FD网络;然后保持FD网络参数不变的同时,用背景重建损失Lrec函数训练BR网络;最后整体的网络在这两个预训练好的子网络的基础上,用加权损失函数L进行微调:
L=αLdet+βLrec (7)
其中α和β表示加权系数。
本发明的特点及有益效果是:
本发明方法采用端对端的级联卷积神经网络,通过融合时空线索,实现了视频序列的前背景分离。本发明具有以下特点:
1、程序简单,易于实现。
2、能够处理各种复杂的视频场景,如恶劣天气、相机抖动、光照剧烈变化等。
3、引入了光流图作为时间线索,将光流特征融合到原始视频序列中,有益于检测前景运动信息。
4、采用多帧输入,进一步提高了网络的学习能力。
5、将前景检测任务和背景重建任务整合成端对端的方式实现。
附图说明:
图1为本发明方法的总框图;
图2为本发明的网络框架图;
图3是原始的office视频帧及采用本发明方法的前背景分离结果图。
具体实施方式
为了弥补现有技术的不足,本发明提出了一个融合时空线索的级联卷积神经网络,它包含两个编码器-解码器类型的子网络,分别为前景检测网络(FD网络)和背景重建网络(BR网络)。FD网络用来生成二值化的前景掩膜,BR网络利用FD网络的输出和输入视频帧来重建出背景图。为引入空间线索,本发明将三张连续的视频帧作为输入。为提高网络适用性,与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。具体方法包括以下步骤:
1)建立训练数据库。
11)采用ChangeDetection2014(异常物检测)数据库,这是一个公开数据集,包含11种场景类别,53个不同的视频序列,从中选出30个具有合适标签的视频序列。
12)为了保证数据均衡性,从30个场景中随机抽取500帧,对于不足500帧的序列,需要对数据进行数据扩充。具体方法是将每一个视频帧进行180度的水平翻转。扩充后得到15000帧图像。
13)对15000帧图像统一用最近邻域插值算法进行尺寸调整,使图像大小统一成256*256。
14)划分训练集和测试集。从15000帧中随机抽取3000帧作为测试集,其余12000帧作为训练集。
2)搭建前景检测网络(FD网络),该子网络包含两个部分:编码器部分和解码器部分。
21)采用VGG16(VGG网络是由牛津大学的视觉几何组提出的网络模型,包括VGG16和VGG19等)网络的前5个卷积模块作为编码器,用来提取前景移动物体的特征。
22)采用5个反卷积层作为解码器端,用来将前景特征映射成前景掩膜。
23)网络的输入有两个部分。第一个部分是9通道的三张连续的原始视频帧(前一帧,当前帧和下一帧),第二个部分是6通道的与原始视频帧相对应的光流图。两个输入分别用权重不共享的卷积层提取特征,在每一个卷积层后面都增加一个特征融合层:
Figure BDA0002408203240000041
其中
Figure BDA0002408203240000042
表示元素相加操作,i表示卷积层的索引,
Figure BDA0002408203240000043
分别表示前景和光流图在第i个卷积层提取出来的特征。fi表示融合后的特征,它被送入到下一个卷积层中提取更抽象的特征。
24)将编码器的特征图通过跳跃连接传送到解码器,有利用保存低维特征。在网络的末尾处添加一个残差块,用来精细化生成的前景掩膜。
25)FD网络采用二值交叉熵作为前景检测部分的损失函数Ldet
Figure BDA0002408203240000044
其中gj和mj表示前景真实标签G和预测出的前景掩膜M的第j个像素值,N代表像素的总数,∑表示求和操作,log()表示对数函数。
3)搭建背景重建网络(BR网络),该子网络包含三个部分:编码器部分、传输部分和解码器部分。
31)采用三个卷积层作为解码器,目的是保存更多精细化特征,但这会造成感受野较小。为了弥补这方面的不足,在传输部分使用空洞卷积来替代传统的卷积层,可以起到扩大感受野的作用。传输部分包含10个残差块,不进行任何的下采样操作,目的是在不丢失低维特征的前提下提取更多的背景信息。解码器端包含三个反卷积层,用来将提取出来的背景特征映射成一个完整的背景图。
32)将FD网络生成的前景掩膜与当前帧结合:
Figure BDA0002408203240000051
其中
Figure BDA0002408203240000052
表示哈达玛乘积,D,M分别表示原始彩色视频帧和FD网络生成的前景掩膜,
Figure BDA0002408203240000053
表示去除前景后的不完整的背景图。将
Figure BDA0002408203240000054
输入到BR网络中生成完整的背景图。
33)BR网络采用加权损失函数,其中包括一范数损失、二范数损失和感知损失。使用二范数损失通常会得到更高的峰值信噪比(PSNR),但是它也会导致生成的图像过平滑。所以本发明使用一范数来平衡这一缺点。一范数损失
Figure BDA0002408203240000055
和二范数损失
Figure BDA0002408203240000056
定义如下:
Figure BDA0002408203240000057
其中bm,n,c
Figure BDA0002408203240000058
分别表示背景真实标签B和预测背景
Figure BDA0002408203240000059
在第m行、第n列、第c个通道上的像素值。N表示像素的总个数。重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签,所以本发明提出采用感知损失来惩罚那些与标签感知不相似的结果,感知损失函数Lperc定义如下:
Figure BDA00024082032400000510
其中,φl表示在ImageNet(由斯坦福大学李飞飞团队制作的一个图像分类的数据集)上预训练好的VGG19网络上的第l个激活层的特征,Nl表示第l个激活层的特征图的像素个数。因此加权背景重建损失函数Lrec定义为:
Figure BDA00024082032400000511
其中
Figure BDA00024082032400000512
和λperc分别表示一范数损失、二范数损失和感知损失的权重系数。
4)用划分好的12000帧序列训练网络模型,优化函数采用‘RMSprop’(均方根误差,一种神经网络优化函数)。采用逐步训练策略:首先通过前景检测损失函数Ldet训练FD网络;然后保持FD网络参数不变的同时,用背景重建损失Lrec函数训练BR网络;最后整体的网络在这两个预训练好的子网络的基础上,用加权损失函数L进行微调:
L=αLdet+βLrec(7)
其中α和β表示加权系数。
下面结合附图和具体实例进一步详细说明本发明。
本发明提出了一种用于前景和背景分离的时空感知端到端的级联卷积神经网络。第一阶段FD网络能够在一些具有挑战性的场景中准确地检测移动物体。随后,通过第二阶段的BR网络利用FD网络的输出恢复背景。最后,通过将FD网络和BR网络组合在一起,可以获得更准确的前景-背景分离结果。具体方法包括以下步骤:
1)建立训练数据库。
11)采用ChangeDetection2014(异常物检测)数据库,这是一个公开数据集,包含11种场景类别,53个不同的视频序列,从中选出30个具有合适标签的视频序列。
12)为了保证数据均衡性,从30个场景中随机抽取500帧,对于不足500帧的序列,需要对数据进行数据扩充。具体方法是将每一个视频帧进行180度的水平翻转。扩充后得到15000帧图像。
13)对15000帧图像统一用最近邻域插值算法进行尺寸调整,使图像大小统一成256*256。
14)划分训练集和测试集。从15000帧中随机抽取3000帧作为测试集,其余12000帧作为训练集。
2)搭建前景检测网络(FD网络),该子网络包含两个部分:编码器部分和解码器部分。
21)采用VGG16(VGG网络是由牛津大学的视觉几何组提出的网络模型,包括VGG16和VGG19等)网络的前5个卷积模块作为编码器,用来提取前景移动物体的特征。
22)采用5个反卷积层作为解码器端,用来将前景特征映射成前景掩膜。
23)网络的输入有两个部分。第一个部分是9通道的三张连续的原始视频帧(前一帧,当前帧和下一帧),第二个部分是6通道的与原始视频帧相对应的光流图。两个输入分别用权重不共享的卷积层提取特征,在每一个卷积层后面都增加一个特征融合层:
Figure BDA0002408203240000061
其中
Figure BDA0002408203240000062
表示元素相加操作,i表示卷积层的索引,
Figure BDA0002408203240000063
分别表示前景和光流图在第i个卷积层提取出来的特征。fi表示融合后的特征,它被送入到下一个卷积层中提取更抽象的特征。
24)将编码器的特征图通过跳跃连接传送到解码器,有利用保存低维特征。在网络的末尾处添加一个残差块,用来精细化生成的前景掩膜。
25)FD网络采用二值交叉熵作为前景检测部分的损失函数Ldet
Figure BDA0002408203240000071
其中gj和mj表示前景真实标签G和预测出的前景掩膜M的第j个像素值,N代表像素的总数,∑表示求和操作,log()表示对数函数。
3)搭建背景重建网络(BR网络),该子网络包含三个部分:编码器部分、传输部分和解码器部分。
31)采用三个卷积层作为解码器,目的是保存更多精细化特征,但这会造成感受野较小。为了弥补这方面的不足,在传输部分使用空洞卷积来替代传统的卷积层,可以起到扩大感受野的作用。传输部分包含10个残差块,不进行任何的下采样操作,目的是在不丢失低维特征的前提下提取更多的背景信息。解码器端包含三个反卷积层,用来将提取出来的背景特征映射成一个完整的背景图。
32)将FD网络生成的前景掩膜与当前帧结合:
Figure BDA0002408203240000072
其中
Figure BDA0002408203240000073
表示哈达玛乘积,D,M分别表示原始彩色视频帧和FD网络生成的前景掩膜,
Figure BDA0002408203240000074
表示去除前景后的不完整的背景图。将
Figure BDA0002408203240000075
输入到BR网络中生成完整的背景图。
33)BR网络采用加权损失函数,其中包括一范数损失、二范数损失和感知损失。使用二范数损失通常会得到更高的峰值信噪比(PSNR),但是它也会导致生成的图像过平滑。所以本发明使用一范数来平衡这一缺点。一范数损失
Figure BDA0002408203240000076
和二范数损失
Figure BDA0002408203240000077
定义如下:
Figure BDA0002408203240000078
其中bm,n,c
Figure BDA0002408203240000079
分别表示背景真实标签B和预测背景
Figure BDA00024082032400000710
在第m行、第n列、第c个通道上的像素值。N表示像素的总个数。重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签,所以本发明提出采用感知损失来惩罚那些与标签感知不相似的结果,感知损失函数Lperc定义如下:
Figure BDA00024082032400000711
其中,φl表示在ImageNet(由斯坦福大学李飞飞团队制作的一个图像分类的数据集)上预训练好的VGG19网络上的第l个激活层的特征,Nl表示第l个激活层的特征图的像素个数。因此加权背景重建损失函数Lrec定义为:
Figure BDA00024082032400000712
其中
Figure BDA0002408203240000081
和λperc分别表示一范数损失、二范数损失和感知损失的权重系数。本发明中设置
Figure BDA0002408203240000082
λperc=0.1。
4)用划分好的12000帧序列训练网络模型,优化函数采用‘RMSprop’(均方根误差,一种神经网络优化函数)。采用逐步训练策略:首先通过前景检测损失函数Ldet训练FD网络;然后保持FD网络参数不变的同时,用背景重建损失Lrec函数训练BR网络;最后整体的网络在这两个预训练好的子网络的基础上,用加权损失函数L进行微调:
L=αLdet+βLrec (7)
其中α和β表示加权系数,且α=β=0.5。
下面结合附图和具体实施方式进一步详细说明本发明。
本发明涉及基于级联卷积神经网络的视频前背景分离方法(实验流程图如图1所示),其特征在于包括以下步骤:
1)建立训练数据库。
11)采用ChangeDetection2014(异常物检测)数据库,这是一个公开数据集,包含11种场景类别,53个不同的视频序列,从中选出30个具有合适标签的视频序列。
12)为了保证数据均衡性,从30个场景中随机抽取500帧,对于不足500帧的序列,需要对数据进行数据扩充。具体方法是将每一个视频帧进行180度的水平翻转。扩充后得到15000帧图像。
13)对15000帧图像统一用最近邻域插值算法进行尺寸调整,使图像大小统一成256*256。
14)划分训练集和测试集。从15000帧中随机抽取3000帧作为测试集,其余12000帧作为训练集。
2)搭建前景检测网络(FD网络,如图2所示),该子网络包含两个部分:编码器部分和解码器部分。
21)采用VGG16(VGG网络是由牛津大学的视觉几何组提出的网络模型,包括VGG16和VGG19等)网络的前5个卷积模块作为编码器,用来提取前景移动物体的特征。
22)采用5个反卷积层作为解码器端,用来将前景特征映射成前景掩膜。
23)网络的输入有两个部分。第一个部分是9通道的三张连续的原始视频帧(前一帧,当前帧和下一帧),第二个部分是6通道的与原始视频帧相对应的光流图。两个输入分别用权重不共享的卷积层提取特征,在每一个卷积层后面都增加一个特征融合层:
Figure BDA0002408203240000083
其中
Figure BDA0002408203240000084
表示元素相加操作,i表示卷积层的索引,
Figure BDA0002408203240000085
分别表示前景和光流图在第i个卷积层提取出来的特征。fi表示融合后的特征,它被送入到下一个卷积层中提取更抽象的特征。
24)将编码器的特征图通过跳跃连接传送到解码器,有利用保存低维特征。在网络的末尾处添加一个残差块,用来精细化生成的前景掩膜。
25)FD网络采用二值交叉熵作为前景检测部分的损失函数Ldet
Figure BDA0002408203240000091
其中gj和mj表示前景真实标签G和预测出的前景掩膜M的第j个像素值,N代表像素的总数,∑表示求和操作,log()表示对数函数。
3)搭建背景重建网络(BR网络,如图2所示),该子网络包含三个部分:编码器部分、传输部分和解码器部分。
31)采用三个卷积层作为解码器,目的是保存更多精细化特征,但这会造成感受野较小。为了弥补这方面的不足,在传输部分使用空洞卷积来替代传统的卷积层,可以起到扩大感受野的作用。传输部分包含10个残差块,不进行任何的下采样操作,目的是在不丢失低维特征的前提下提取更多的背景信息。解码器端包含三个反卷积层,用来将提取出来的背景特征映射成一个完整的背景图。
32)将FD网络生成的前景掩膜与当前帧结合:
Figure BDA0002408203240000092
其中
Figure BDA0002408203240000093
表示哈达玛乘积,D,M分别表示原始彩色视频帧和FD网络生成的前景掩膜,
Figure BDA0002408203240000094
表示去除前景后的不完整的背景图。将
Figure BDA0002408203240000095
输入到BR网络中生成完整的背景图。
33)BR网络采用加权损失函数,其中包括一范数损失、二范数损失和感知损失。使用二范数损失通常会得到更高的峰值信噪比(PSNR),但是它也会导致生成的图像过平滑。所以本发明使用一范数来平衡这一缺点。一范数损失
Figure BDA0002408203240000096
和二范数损失
Figure BDA0002408203240000097
定义如下:
Figure BDA0002408203240000098
其中bm,n,c
Figure BDA0002408203240000099
分别表示背景真实标签B和预测背景
Figure BDA00024082032400000910
在第m行、第n列、第c个通道上的像素值。N表示像素的总个数。重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签,所以本发明提出采用感知损失来惩罚那些与标签感知不相似的结果,感知损失函数Lperc定义如下:
Figure BDA00024082032400000911
其中,φl表示在ImageNet(由斯坦福大学李飞飞团队制作的一个图像分类的数据集)上预训练好的VGG19网络上的第l个激活层的特征,Nl表示第l个激活层的特征图的像素个数。因此加权背景重建损失函数Lrec定义为:
Figure BDA0002408203240000101
其中
Figure BDA0002408203240000102
和λperc分别表示一范数损失、二范数损失和感知损失的权重系数。本发明中设置
Figure BDA0002408203240000103
λperc=0.1。
4)用划分好的12000帧序列训练网络模型,优化函数采用‘RMSprop’(均方根误差,一种神经网络优化函数)。采用逐步训练策略:首先通过前景检测损失函数Ldet训练FD网络;然后保持FD网络参数不变的同时,用背景重建损失Lrec函数训练BR网络;最后整体的网络在这两个预训练好的子网络的基础上,用加权损失函数L进行微调:
L=αLdet+βLrec (7)
其中α和β表示加权系数,且α=β=0.5。

Claims (2)

1.一种基于级联卷积神经网络的视频前背景分离方法,其特征是,利用两个编码器-解码器类型的子网络进行视频前背景分离,所述两个子网络分别为进行前景检测的FD网络和进行背景重建的BR网络,FD网络用来生成二值化的前景掩膜,BR网络利用FD网络的输出和输入视频帧来重建出背景图;为引入空间线索,将三张连续的视频帧作为输入;为提高网络适用性,与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。
2.如权利要求1所述的基于级联卷积神经网络的视频前背景分离方法,其特征是,具体步骤如下:
1)建立训练数据库
11)采用异常物检测ChangeDetection2014数据库;
12)为了保证数据均衡性,从不同场景中随机抽取帧的序列,将每一个视频帧进行180度的水平翻转对数据进行数据扩充;
13)对帧图像统一用最近邻域插值算法进行尺寸调整,使图像大小统一;
14)划分训练集和测试集;
2)搭建前景检测网络FD网络,该子网络包含两个部分:编码器部分和解码器部分;
21)采用VGG16网络的前n个卷积模块作为编码器,用来提取前景移动物体的特征,VGG网络是由牛津大学的视觉几何组提出的网络模型,包括VGG16和VGG19;
22)采用反卷积层作为解码器端,用来将前景特征映射成前景掩膜;
23)网络的输入有两个部分,第一个部分是9通道的三张连续的原始视频帧,第二个部分是6通道的与原始视频帧相对应的光流图,两个输入分别用权重不共享的卷积层提取特征,在每一个卷积层后面都增加一个特征融合层:
Figure FDA0002408203230000011
其中
Figure FDA0002408203230000012
表示元素相加操作,i表示卷积层的索引,
Figure FDA0002408203230000013
分别表示前景和光流图在第i个卷积层提取出来的特征,fi表示融合后的特征,它被送入到下一个卷积层中提取更抽象的特征;
24)将编码器的特征图通过跳跃连接传送到解码器,在网络的末尾处添加一个残差块,用来精细化生成的前景掩膜;
25)FD网络采用二值交叉熵作为前景检测部分的损失函数Ldet
Figure FDA0002408203230000014
其中gj和mj表示前景真实标签G和预测出的前景掩膜M的第j个像素值,N代表像素的总数,∑表示求和操作,log()表示对数函数;
3)搭建背景重建BR网络,该子网络包含三个部分:编码器部分、传输部分和解码器部分;
31)采用三个卷积层作为解码器,在传输部分使用空洞卷积来替代传统的卷积层,传输部分包含10个残差块,不进行任何的下采样操作,解码器端包含三个反卷积层,用来将提取出来的背景特征映射成一个完整的背景图;
32)将FD网络生成的前景掩膜与当前帧结合:
Figure FDA0002408203230000021
其中
Figure FDA0002408203230000022
表示哈达玛乘积,D,M分别表示原始彩色视频帧和FD网络生成的前景掩膜,
Figure FDA0002408203230000023
表示去除前景后的不完整的背景图,将
Figure FDA0002408203230000024
输入到BR网络中生成完整的背景图;
33)BR网络采用加权损失函数,使用一范数来进行平衡,一范数损失
Figure FDA0002408203230000025
和二范数损失
Figure FDA0002408203230000026
定义如下:
Figure FDA0002408203230000027
其中bm,n,c
Figure FDA0002408203230000028
分别表示背景真实标签B和预测背景
Figure FDA0002408203230000029
在第m行、第n列、第c个通道上的像素值,N表示像素的总个数,重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签,采用感知损失来惩罚那些与标签感知不相似的结果,感知损失函数Lperc定义如下:
Figure FDA00024082032300000210
其中,φl表示在ImageNet上预训练好的VGG19网络上的第l个激活层的特征,Nl表示第l个激活层的特征图的像素个数,ImageNet是由斯坦福大学李飞飞团队制作的一个图像分类的数据集,因此加权背景重建损失函数Lrec定义为:
Figure FDA00024082032300000211
其中
Figure FDA00024082032300000212
和λperc分别表示一范数损失、二范数损失和感知损失的权重系数;
4)用划分好的帧序列训练网络模型,优化函数采用‘RMSprop’均方根误差。
训练过程是采用逐步训练策略:首先通过前景检测损失函数Ldet训练FD网络;然后保持FD网络参数不变的同时,用背景重建损失Lrec函数训练BR网络;最后整体的网络在这两个预训练好的子网络的基础上,用加权损失函数L进行微调:
L=αLdet+βLrec (7)
其中α和β表示加权系数。
CN202010168156.6A 2020-03-11 2020-03-11 基于级联卷积神经网络的视频前背景分离方法 Expired - Fee Related CN111489372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010168156.6A CN111489372B (zh) 2020-03-11 2020-03-11 基于级联卷积神经网络的视频前背景分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010168156.6A CN111489372B (zh) 2020-03-11 2020-03-11 基于级联卷积神经网络的视频前背景分离方法

Publications (2)

Publication Number Publication Date
CN111489372A true CN111489372A (zh) 2020-08-04
CN111489372B CN111489372B (zh) 2022-10-18

Family

ID=71812451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010168156.6A Expired - Fee Related CN111489372B (zh) 2020-03-11 2020-03-11 基于级联卷积神经网络的视频前背景分离方法

Country Status (1)

Country Link
CN (1) CN111489372B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348766A (zh) * 2020-11-06 2021-02-09 天津大学 一种用于监控视频增强的渐进式特征流深度融合网络
CN112344922A (zh) * 2020-10-26 2021-02-09 中国科学院自动化研究所 单目视觉里程计定位方法及系统
CN112529914A (zh) * 2020-12-18 2021-03-19 北京中科深智科技有限公司 一种实时头发分割方法和系统
CN112529931A (zh) * 2020-12-23 2021-03-19 南京航空航天大学 一种前景分割的方法及系统
CN113158901A (zh) * 2021-04-22 2021-07-23 天津大学 一种域自适应行人重识别方法
CN113269792A (zh) * 2021-05-07 2021-08-17 上海交通大学 一种图像后期和谐化处理方法、系统及终端
CN113505737A (zh) * 2021-07-26 2021-10-15 浙江大华技术股份有限公司 前景图像的确定方法及装置、存储介质、电子装置
CN113810715A (zh) * 2021-08-18 2021-12-17 南京航空航天大学 一种基于空洞卷积神经网络的视频压缩参考图像生成方法
CN113947612A (zh) * 2021-09-28 2022-01-18 西安电子科技大学广州研究院 基于前景背景分离的视频异常检测方法
WO2022155974A1 (zh) * 2021-01-25 2022-07-28 Oppo广东移动通信有限公司 视频编解码以及模型训练方法与装置
CN115588153A (zh) * 2022-10-10 2023-01-10 山东财经大学 一种基于3D-DoubleU-Net的视频帧生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097568A (zh) * 2019-05-13 2019-08-06 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN110378288A (zh) * 2019-07-19 2019-10-25 合肥工业大学 一种基于深度学习的多级时空运动目标检测方法
US20190355128A1 (en) * 2017-01-06 2019-11-21 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
CN110853074A (zh) * 2019-10-09 2020-02-28 天津大学 一种利用光流增强目标的视频目标检测网络系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190355128A1 (en) * 2017-01-06 2019-11-21 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
CN110097568A (zh) * 2019-05-13 2019-08-06 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN110378288A (zh) * 2019-07-19 2019-10-25 合肥工业大学 一种基于深度学习的多级时空运动目标检测方法
CN110853074A (zh) * 2019-10-09 2020-02-28 天津大学 一种利用光流增强目标的视频目标检测网络系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ALI DIBA,ET AL.: "Deep Temporal Linear Encoding Networks", 《ARXIV》 *
DU TRAN,ET AL.: "Learning Spatiotemporal Features with 3D Convolutional Networks", 《ARXIV》 *
XU ZHAO,ET AL.: "JOINT BACKGROUND RECONSTRUCTION AND FOREGROUND SEGMENTATION VIA A TWO-STAGE CONVOLUTIONAL NEURAL NETWORK", 《ARXIV》 *
谢宏等: "时空双路3D残差卷积网络的视频烟雾检测", 《计算机工程与应用》 *
邓志新,等.: "基于时空双流全卷积网络的视频目标分割算法研究及改进", 《工业控制计算机》 *
陈俊周等: "基于级联卷积神经网络的视频动态烟雾检测", 《电子科技大学学报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112344922A (zh) * 2020-10-26 2021-02-09 中国科学院自动化研究所 单目视觉里程计定位方法及系统
CN112348766A (zh) * 2020-11-06 2021-02-09 天津大学 一种用于监控视频增强的渐进式特征流深度融合网络
CN112348766B (zh) * 2020-11-06 2023-04-18 天津大学 一种用于监控视频增强的渐进式特征流深度融合网络
CN112529914A (zh) * 2020-12-18 2021-03-19 北京中科深智科技有限公司 一种实时头发分割方法和系统
CN112529914B (zh) * 2020-12-18 2021-08-13 北京中科深智科技有限公司 一种实时头发分割方法和系统
CN112529931A (zh) * 2020-12-23 2021-03-19 南京航空航天大学 一种前景分割的方法及系统
CN112529931B (zh) * 2020-12-23 2024-04-12 南京航空航天大学 一种前景分割的方法及系统
WO2022155974A1 (zh) * 2021-01-25 2022-07-28 Oppo广东移动通信有限公司 视频编解码以及模型训练方法与装置
CN113158901A (zh) * 2021-04-22 2021-07-23 天津大学 一种域自适应行人重识别方法
CN113269792B (zh) * 2021-05-07 2023-07-21 上海交通大学 一种图像后期和谐化处理方法、系统及终端
CN113269792A (zh) * 2021-05-07 2021-08-17 上海交通大学 一种图像后期和谐化处理方法、系统及终端
CN113505737A (zh) * 2021-07-26 2021-10-15 浙江大华技术股份有限公司 前景图像的确定方法及装置、存储介质、电子装置
CN113810715A (zh) * 2021-08-18 2021-12-17 南京航空航天大学 一种基于空洞卷积神经网络的视频压缩参考图像生成方法
CN113810715B (zh) * 2021-08-18 2024-04-05 南京航空航天大学 一种基于空洞卷积神经网络的视频压缩参考图像生成方法
CN113947612A (zh) * 2021-09-28 2022-01-18 西安电子科技大学广州研究院 基于前景背景分离的视频异常检测方法
CN113947612B (zh) * 2021-09-28 2024-03-29 西安电子科技大学广州研究院 基于前景背景分离的视频异常检测方法
CN115588153A (zh) * 2022-10-10 2023-01-10 山东财经大学 一种基于3D-DoubleU-Net的视频帧生成方法
CN115588153B (zh) * 2022-10-10 2024-02-02 山东财经大学 一种基于3D-DoubleU-Net的视频帧生成方法

Also Published As

Publication number Publication date
CN111489372B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN111489372B (zh) 基于级联卷积神经网络的视频前背景分离方法
CN112669325B (zh) 一种基于主动式学习的视频语义分割方法
CN112149459B (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
Johnston et al. A review of digital video tampering: From simple editing to full synthesis
CN110580472A (zh) 一种基于全卷积网络和条件对抗网络的视频前景检测方法
CN112465727A (zh) 基于HSV色彩空间和Retinex理论的无正常光照参考的低照度图像增强方法
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
CN111047532B (zh) 一种基于3d卷积神经网络的低照度视频增强方法
CN113034413B (zh) 一种基于多尺度融合残差编解码器的低照度图像增强方法
CN112241939B (zh) 一种基于多尺度和非局部的轻量去雨方法
Guo et al. Joint raindrop and haze removal from a single image
CN113052764B (zh) 一种基于残差连接的视频序列超分重建方法
CN111369548A (zh) 一种基于生成对抗网络的无参考视频质量评价方法及装置
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
CN112580473A (zh) 一种融合运动特征的视频超分辨率重构方法
Mehra et al. TheiaNet: Towards fast and inexpensive CNN design choices for image dehazing
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
Tang et al. AutoEnhancer: Transformer on U-Net architecture search for underwater image enhancement
CN114881879A (zh) 一种基于亮度补偿残差网络的水下图像增强方法
CN114494050A (zh) 一种基于事件相机的自监督视频去模糊和图像插帧方法
Men et al. Visual quality assessment for interpolated slow-motion videos based on a novel database
Evain et al. A lightweight neural network for monocular view generation with occlusion handling
Huang et al. Image dehazing in disproportionate haze distributions
CN113870162A (zh) 一种融合光照和反射的低光图像增强方法
Chen et al. NLUT: Neural-based 3D Lookup Tables for Video Photorealistic Style Transfer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221018

CF01 Termination of patent right due to non-payment of annual fee