CN111489372A - 基于级联卷积神经网络的视频前背景分离方法 - Google Patents
基于级联卷积神经网络的视频前背景分离方法 Download PDFInfo
- Publication number
- CN111489372A CN111489372A CN202010168156.6A CN202010168156A CN111489372A CN 111489372 A CN111489372 A CN 111489372A CN 202010168156 A CN202010168156 A CN 202010168156A CN 111489372 A CN111489372 A CN 111489372A
- Authority
- CN
- China
- Prior art keywords
- network
- foreground
- background
- loss
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 11
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 230000003287 optical effect Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 35
- 230000005540 biological transmission Effects 0.000 claims description 15
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- YDTFRJLNMPSCFM-YDALLXLXSA-M levothyroxine sodium anhydrous Chemical compound [Na+].IC1=CC(C[C@H](N)C([O-])=O)=CC(I)=C1OC1=CC(I)=C(O)C(I)=C1 YDTFRJLNMPSCFM-YDALLXLXSA-M 0.000 claims description 2
- 230000007306 turnover Effects 0.000 claims description 2
- 230000007812 deficiency Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域,为提出融合时空线索的级联卷积神经网络,用于实现视频前背景分离。为此,本发明采取的技术方案是,基于级联卷积神经网络的视频前背景分离方法,利用两个编码器‑解码器类型的子网络进行视频前背景分离,所述两个子网络分别为进行前景检测的FD网络和进行背景重建的BR网络,FD网络用来生成二值化的前景掩膜,BR网络利用FD网络的输出和输入视频帧来重建出背景图;为引入空间线索,将三张连续的视频帧作为输入;为提高网络适用性,与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。本发明主要应用于视频前背景分离场合。
Description
技术领域
本发明属于计算机视觉领域,具体讲,涉及基于级联卷积神经网络的视频前背景分离方法。
背景技术
前背景分离是计算机视觉领域的一项非常重要的基本任务,吸引了许多研究学者越来越多的关注。这项技术应用广泛,其中包括运动检测,物体跟踪,行为识别等。简单来说,具体的任务是从一段输入的视频序列中提取两个互补分量:静态背景和具有运动物体的前景。在过去的十年中,已经提出了许多方法来解决这个问题。最早的传统方法,如高斯混合模型、非参数模型等,提出独立地估计每个像素,并将像素分类为背景或前景。这类方法的缺点是没有考虑视频的全局信息。最近,鲁棒主成分分析方法(RPCA)因其在前背景分离上的优秀性能引起了广泛的关注,并且出现了许多改进算法,为视频分析引入了新视角。但是这些传统方法通常基于一些先验约束,所以它们可以在特定条件下很好地处理一些场景。但是面对复杂的场景,如恶劣天气,相机抖动,光线条件变化等,先前的假设被打破,它们就无法展现出优越性能。所以在这种情况下,非常需要改进前背景分离方法对通用复杂视频的适用性。
近年来,卷积神经网络(CNN)被广泛应用于计算机视觉领域,具有优异的性能。已经出现了编码器-解码器类型的卷积神经网络来解决上述问题并取得了重大进展。但是,这类工作仍然存在一些局限性。具体而言,它们仅采用一个视频帧作为输入,这不能有效地捕获前景的运动信息。在这种情况下,前景移动物体的检测不准确,会导致前景泄漏到背景中。为克服这一缺点,本发明提出了一个端对端的级联卷积神经网络来实现前景和背景的准确分离。
发明内容
为克服现有技术的不足,本发明旨在提出融合时空线索的级联卷积神经网络,用于实现视频前背景分离。为此,本发明采取的技术方案是,基于级联卷积神经网络的视频前背景分离方法,利用两个编码器-解码器类型的子网络进行视频前背景分离,所述两个子网络分别为进行前景检测的FD网络和进行背景重建的BR网络,FD网络用来生成二值化的前景掩膜,BR网络利用FD网络的输出和输入视频帧来重建出背景图;为引入空间线索,将三张连续的视频帧作为输入;为提高网络适用性,与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。
具体步骤如下:
1)建立训练数据库
11)采用异常物检测ChangeDetection2014数据库;
12)为了保证数据均衡性,从不同场景中随机抽取帧的序列,将每一个视频帧进行180度的水平翻转对数据进行数据扩充;
13)对帧图像统一用最近邻域插值算法进行尺寸调整,使图像大小统一;
14)划分训练集和测试集;
2)搭建前景检测网络FD网络,该子网络包含两个部分:编码器部分和解码器部分;
21)采用VGG16网络的前n个卷积模块作为编码器,用来提取前景移动物体的特征,VGG网络是由牛津大学的视觉几何组提出的网络模型,包括VGG16和VGG19;
22)采用反卷积层作为解码器端,用来将前景特征映射成前景掩膜;
23)网络的输入有两个部分,第一个部分是9通道的三张连续的原始视频帧,第二个部分是6通道的与原始视频帧相对应的光流图,两个输入分别用权重不共享的卷积层提取特征,在每一个卷积层后面都增加一个特征融合层:
24)将编码器的特征图通过跳跃连接传送到解码器,在网络的末尾处添加一个残差块,用来精细化生成的前景掩膜;
25)FD网络采用二值交叉熵作为前景检测部分的损失函数Ldet:
其中gj和mj表示前景真实标签G和预测出的前景掩膜M的第j个像素值,N代表像素的总数,∑表示求和操作,log()表示对数函数;
3)搭建背景重建BR网络,该子网络包含三个部分:编码器部分、传输部分和解码器部分;
31)采用三个卷积层作为解码器,在传输部分使用空洞卷积来替代传统的卷积层,传输部分包含10个残差块,不进行任何的下采样操作,解码器端包含三个反卷积层,用来将提取出来的背景特征映射成一个完整的背景图;
32)将FD网络生成的前景掩膜与当前帧结合:
其中bm,n,c和分别表示背景真实标签B和预测背景在第m行、第n列、第c个通道上的像素值,N表示像素的总个数,重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签,采用感知损失来惩罚那些与标签感知不相似的结果,感知损失函数Lperc定义如下:
其中,φl表示在ImageNet上预训练好的VGG19网络上的第l个激活层的特征,Nl表示第l个激活层的特征图的像素个数,ImageNet是由斯坦福大学李飞飞团队制作的一个图像分类的数据集,因此加权背景重建损失函数Lrec定义为:
其中λ1,λ2和λperc分别表示一范数损失、二范数损失和感知损失的权重系数;
4)用划分好的帧序列训练网络模型,优化函数采用‘RMSprop’均方根误差。
训练过程是采用逐步训练策略:首先通过前景检测损失函数Ldet训练FD网络;然后保持FD网络参数不变的同时,用背景重建损失Lrec函数训练BR网络;最后整体的网络在这两个预训练好的子网络的基础上,用加权损失函数L进行微调:
L=αLdet+βLrec (7)
其中α和β表示加权系数。
本发明的特点及有益效果是:
本发明方法采用端对端的级联卷积神经网络,通过融合时空线索,实现了视频序列的前背景分离。本发明具有以下特点:
1、程序简单,易于实现。
2、能够处理各种复杂的视频场景,如恶劣天气、相机抖动、光照剧烈变化等。
3、引入了光流图作为时间线索,将光流特征融合到原始视频序列中,有益于检测前景运动信息。
4、采用多帧输入,进一步提高了网络的学习能力。
5、将前景检测任务和背景重建任务整合成端对端的方式实现。
附图说明:
图1为本发明方法的总框图;
图2为本发明的网络框架图;
图3是原始的office视频帧及采用本发明方法的前背景分离结果图。
具体实施方式
为了弥补现有技术的不足,本发明提出了一个融合时空线索的级联卷积神经网络,它包含两个编码器-解码器类型的子网络,分别为前景检测网络(FD网络)和背景重建网络(BR网络)。FD网络用来生成二值化的前景掩膜,BR网络利用FD网络的输出和输入视频帧来重建出背景图。为引入空间线索,本发明将三张连续的视频帧作为输入。为提高网络适用性,与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。具体方法包括以下步骤:
1)建立训练数据库。
11)采用ChangeDetection2014(异常物检测)数据库,这是一个公开数据集,包含11种场景类别,53个不同的视频序列,从中选出30个具有合适标签的视频序列。
12)为了保证数据均衡性,从30个场景中随机抽取500帧,对于不足500帧的序列,需要对数据进行数据扩充。具体方法是将每一个视频帧进行180度的水平翻转。扩充后得到15000帧图像。
13)对15000帧图像统一用最近邻域插值算法进行尺寸调整,使图像大小统一成256*256。
14)划分训练集和测试集。从15000帧中随机抽取3000帧作为测试集,其余12000帧作为训练集。
2)搭建前景检测网络(FD网络),该子网络包含两个部分:编码器部分和解码器部分。
21)采用VGG16(VGG网络是由牛津大学的视觉几何组提出的网络模型,包括VGG16和VGG19等)网络的前5个卷积模块作为编码器,用来提取前景移动物体的特征。
22)采用5个反卷积层作为解码器端,用来将前景特征映射成前景掩膜。
23)网络的输入有两个部分。第一个部分是9通道的三张连续的原始视频帧(前一帧,当前帧和下一帧),第二个部分是6通道的与原始视频帧相对应的光流图。两个输入分别用权重不共享的卷积层提取特征,在每一个卷积层后面都增加一个特征融合层:
24)将编码器的特征图通过跳跃连接传送到解码器,有利用保存低维特征。在网络的末尾处添加一个残差块,用来精细化生成的前景掩膜。
25)FD网络采用二值交叉熵作为前景检测部分的损失函数Ldet:
其中gj和mj表示前景真实标签G和预测出的前景掩膜M的第j个像素值,N代表像素的总数,∑表示求和操作,log()表示对数函数。
3)搭建背景重建网络(BR网络),该子网络包含三个部分:编码器部分、传输部分和解码器部分。
31)采用三个卷积层作为解码器,目的是保存更多精细化特征,但这会造成感受野较小。为了弥补这方面的不足,在传输部分使用空洞卷积来替代传统的卷积层,可以起到扩大感受野的作用。传输部分包含10个残差块,不进行任何的下采样操作,目的是在不丢失低维特征的前提下提取更多的背景信息。解码器端包含三个反卷积层,用来将提取出来的背景特征映射成一个完整的背景图。
32)将FD网络生成的前景掩膜与当前帧结合:
33)BR网络采用加权损失函数,其中包括一范数损失、二范数损失和感知损失。使用二范数损失通常会得到更高的峰值信噪比(PSNR),但是它也会导致生成的图像过平滑。所以本发明使用一范数来平衡这一缺点。一范数损失和二范数损失定义如下:
其中bm,n,c和分别表示背景真实标签B和预测背景在第m行、第n列、第c个通道上的像素值。N表示像素的总个数。重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签,所以本发明提出采用感知损失来惩罚那些与标签感知不相似的结果,感知损失函数Lperc定义如下:
其中,φl表示在ImageNet(由斯坦福大学李飞飞团队制作的一个图像分类的数据集)上预训练好的VGG19网络上的第l个激活层的特征,Nl表示第l个激活层的特征图的像素个数。因此加权背景重建损失函数Lrec定义为:
4)用划分好的12000帧序列训练网络模型,优化函数采用‘RMSprop’(均方根误差,一种神经网络优化函数)。采用逐步训练策略:首先通过前景检测损失函数Ldet训练FD网络;然后保持FD网络参数不变的同时,用背景重建损失Lrec函数训练BR网络;最后整体的网络在这两个预训练好的子网络的基础上,用加权损失函数L进行微调:
L=αLdet+βLrec(7)
其中α和β表示加权系数。
下面结合附图和具体实例进一步详细说明本发明。
本发明提出了一种用于前景和背景分离的时空感知端到端的级联卷积神经网络。第一阶段FD网络能够在一些具有挑战性的场景中准确地检测移动物体。随后,通过第二阶段的BR网络利用FD网络的输出恢复背景。最后,通过将FD网络和BR网络组合在一起,可以获得更准确的前景-背景分离结果。具体方法包括以下步骤:
1)建立训练数据库。
11)采用ChangeDetection2014(异常物检测)数据库,这是一个公开数据集,包含11种场景类别,53个不同的视频序列,从中选出30个具有合适标签的视频序列。
12)为了保证数据均衡性,从30个场景中随机抽取500帧,对于不足500帧的序列,需要对数据进行数据扩充。具体方法是将每一个视频帧进行180度的水平翻转。扩充后得到15000帧图像。
13)对15000帧图像统一用最近邻域插值算法进行尺寸调整,使图像大小统一成256*256。
14)划分训练集和测试集。从15000帧中随机抽取3000帧作为测试集,其余12000帧作为训练集。
2)搭建前景检测网络(FD网络),该子网络包含两个部分:编码器部分和解码器部分。
21)采用VGG16(VGG网络是由牛津大学的视觉几何组提出的网络模型,包括VGG16和VGG19等)网络的前5个卷积模块作为编码器,用来提取前景移动物体的特征。
22)采用5个反卷积层作为解码器端,用来将前景特征映射成前景掩膜。
23)网络的输入有两个部分。第一个部分是9通道的三张连续的原始视频帧(前一帧,当前帧和下一帧),第二个部分是6通道的与原始视频帧相对应的光流图。两个输入分别用权重不共享的卷积层提取特征,在每一个卷积层后面都增加一个特征融合层:
24)将编码器的特征图通过跳跃连接传送到解码器,有利用保存低维特征。在网络的末尾处添加一个残差块,用来精细化生成的前景掩膜。
25)FD网络采用二值交叉熵作为前景检测部分的损失函数Ldet:
其中gj和mj表示前景真实标签G和预测出的前景掩膜M的第j个像素值,N代表像素的总数,∑表示求和操作,log()表示对数函数。
3)搭建背景重建网络(BR网络),该子网络包含三个部分:编码器部分、传输部分和解码器部分。
31)采用三个卷积层作为解码器,目的是保存更多精细化特征,但这会造成感受野较小。为了弥补这方面的不足,在传输部分使用空洞卷积来替代传统的卷积层,可以起到扩大感受野的作用。传输部分包含10个残差块,不进行任何的下采样操作,目的是在不丢失低维特征的前提下提取更多的背景信息。解码器端包含三个反卷积层,用来将提取出来的背景特征映射成一个完整的背景图。
32)将FD网络生成的前景掩膜与当前帧结合:
33)BR网络采用加权损失函数,其中包括一范数损失、二范数损失和感知损失。使用二范数损失通常会得到更高的峰值信噪比(PSNR),但是它也会导致生成的图像过平滑。所以本发明使用一范数来平衡这一缺点。一范数损失和二范数损失定义如下:
其中bm,n,c和分别表示背景真实标签B和预测背景在第m行、第n列、第c个通道上的像素值。N表示像素的总个数。重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签,所以本发明提出采用感知损失来惩罚那些与标签感知不相似的结果,感知损失函数Lperc定义如下:
其中,φl表示在ImageNet(由斯坦福大学李飞飞团队制作的一个图像分类的数据集)上预训练好的VGG19网络上的第l个激活层的特征,Nl表示第l个激活层的特征图的像素个数。因此加权背景重建损失函数Lrec定义为:
4)用划分好的12000帧序列训练网络模型,优化函数采用‘RMSprop’(均方根误差,一种神经网络优化函数)。采用逐步训练策略:首先通过前景检测损失函数Ldet训练FD网络;然后保持FD网络参数不变的同时,用背景重建损失Lrec函数训练BR网络;最后整体的网络在这两个预训练好的子网络的基础上,用加权损失函数L进行微调:
L=αLdet+βLrec (7)
其中α和β表示加权系数,且α=β=0.5。
下面结合附图和具体实施方式进一步详细说明本发明。
本发明涉及基于级联卷积神经网络的视频前背景分离方法(实验流程图如图1所示),其特征在于包括以下步骤:
1)建立训练数据库。
11)采用ChangeDetection2014(异常物检测)数据库,这是一个公开数据集,包含11种场景类别,53个不同的视频序列,从中选出30个具有合适标签的视频序列。
12)为了保证数据均衡性,从30个场景中随机抽取500帧,对于不足500帧的序列,需要对数据进行数据扩充。具体方法是将每一个视频帧进行180度的水平翻转。扩充后得到15000帧图像。
13)对15000帧图像统一用最近邻域插值算法进行尺寸调整,使图像大小统一成256*256。
14)划分训练集和测试集。从15000帧中随机抽取3000帧作为测试集,其余12000帧作为训练集。
2)搭建前景检测网络(FD网络,如图2所示),该子网络包含两个部分:编码器部分和解码器部分。
21)采用VGG16(VGG网络是由牛津大学的视觉几何组提出的网络模型,包括VGG16和VGG19等)网络的前5个卷积模块作为编码器,用来提取前景移动物体的特征。
22)采用5个反卷积层作为解码器端,用来将前景特征映射成前景掩膜。
23)网络的输入有两个部分。第一个部分是9通道的三张连续的原始视频帧(前一帧,当前帧和下一帧),第二个部分是6通道的与原始视频帧相对应的光流图。两个输入分别用权重不共享的卷积层提取特征,在每一个卷积层后面都增加一个特征融合层:
24)将编码器的特征图通过跳跃连接传送到解码器,有利用保存低维特征。在网络的末尾处添加一个残差块,用来精细化生成的前景掩膜。
25)FD网络采用二值交叉熵作为前景检测部分的损失函数Ldet:
其中gj和mj表示前景真实标签G和预测出的前景掩膜M的第j个像素值,N代表像素的总数,∑表示求和操作,log()表示对数函数。
3)搭建背景重建网络(BR网络,如图2所示),该子网络包含三个部分:编码器部分、传输部分和解码器部分。
31)采用三个卷积层作为解码器,目的是保存更多精细化特征,但这会造成感受野较小。为了弥补这方面的不足,在传输部分使用空洞卷积来替代传统的卷积层,可以起到扩大感受野的作用。传输部分包含10个残差块,不进行任何的下采样操作,目的是在不丢失低维特征的前提下提取更多的背景信息。解码器端包含三个反卷积层,用来将提取出来的背景特征映射成一个完整的背景图。
32)将FD网络生成的前景掩膜与当前帧结合:
33)BR网络采用加权损失函数,其中包括一范数损失、二范数损失和感知损失。使用二范数损失通常会得到更高的峰值信噪比(PSNR),但是它也会导致生成的图像过平滑。所以本发明使用一范数来平衡这一缺点。一范数损失和二范数损失定义如下:
其中bm,n,c和分别表示背景真实标签B和预测背景在第m行、第n列、第c个通道上的像素值。N表示像素的总个数。重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签,所以本发明提出采用感知损失来惩罚那些与标签感知不相似的结果,感知损失函数Lperc定义如下:
其中,φl表示在ImageNet(由斯坦福大学李飞飞团队制作的一个图像分类的数据集)上预训练好的VGG19网络上的第l个激活层的特征,Nl表示第l个激活层的特征图的像素个数。因此加权背景重建损失函数Lrec定义为:
4)用划分好的12000帧序列训练网络模型,优化函数采用‘RMSprop’(均方根误差,一种神经网络优化函数)。采用逐步训练策略:首先通过前景检测损失函数Ldet训练FD网络;然后保持FD网络参数不变的同时,用背景重建损失Lrec函数训练BR网络;最后整体的网络在这两个预训练好的子网络的基础上,用加权损失函数L进行微调:
L=αLdet+βLrec (7)
其中α和β表示加权系数,且α=β=0.5。
Claims (2)
1.一种基于级联卷积神经网络的视频前背景分离方法,其特征是,利用两个编码器-解码器类型的子网络进行视频前背景分离,所述两个子网络分别为进行前景检测的FD网络和进行背景重建的BR网络,FD网络用来生成二值化的前景掩膜,BR网络利用FD网络的输出和输入视频帧来重建出背景图;为引入空间线索,将三张连续的视频帧作为输入;为提高网络适用性,与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。
2.如权利要求1所述的基于级联卷积神经网络的视频前背景分离方法,其特征是,具体步骤如下:
1)建立训练数据库
11)采用异常物检测ChangeDetection2014数据库;
12)为了保证数据均衡性,从不同场景中随机抽取帧的序列,将每一个视频帧进行180度的水平翻转对数据进行数据扩充;
13)对帧图像统一用最近邻域插值算法进行尺寸调整,使图像大小统一;
14)划分训练集和测试集;
2)搭建前景检测网络FD网络,该子网络包含两个部分:编码器部分和解码器部分;
21)采用VGG16网络的前n个卷积模块作为编码器,用来提取前景移动物体的特征,VGG网络是由牛津大学的视觉几何组提出的网络模型,包括VGG16和VGG19;
22)采用反卷积层作为解码器端,用来将前景特征映射成前景掩膜;
23)网络的输入有两个部分,第一个部分是9通道的三张连续的原始视频帧,第二个部分是6通道的与原始视频帧相对应的光流图,两个输入分别用权重不共享的卷积层提取特征,在每一个卷积层后面都增加一个特征融合层:
24)将编码器的特征图通过跳跃连接传送到解码器,在网络的末尾处添加一个残差块,用来精细化生成的前景掩膜;
25)FD网络采用二值交叉熵作为前景检测部分的损失函数Ldet:
其中gj和mj表示前景真实标签G和预测出的前景掩膜M的第j个像素值,N代表像素的总数,∑表示求和操作,log()表示对数函数;
3)搭建背景重建BR网络,该子网络包含三个部分:编码器部分、传输部分和解码器部分;
31)采用三个卷积层作为解码器,在传输部分使用空洞卷积来替代传统的卷积层,传输部分包含10个残差块,不进行任何的下采样操作,解码器端包含三个反卷积层,用来将提取出来的背景特征映射成一个完整的背景图;
32)将FD网络生成的前景掩膜与当前帧结合:
其中bm,n,c和分别表示背景真实标签B和预测背景在第m行、第n列、第c个通道上的像素值,N表示像素的总个数,重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签,采用感知损失来惩罚那些与标签感知不相似的结果,感知损失函数Lperc定义如下:
其中,φl表示在ImageNet上预训练好的VGG19网络上的第l个激活层的特征,Nl表示第l个激活层的特征图的像素个数,ImageNet是由斯坦福大学李飞飞团队制作的一个图像分类的数据集,因此加权背景重建损失函数Lrec定义为:
4)用划分好的帧序列训练网络模型,优化函数采用‘RMSprop’均方根误差。
训练过程是采用逐步训练策略:首先通过前景检测损失函数Ldet训练FD网络;然后保持FD网络参数不变的同时,用背景重建损失Lrec函数训练BR网络;最后整体的网络在这两个预训练好的子网络的基础上,用加权损失函数L进行微调:
L=αLdet+βLrec (7)
其中α和β表示加权系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010168156.6A CN111489372B (zh) | 2020-03-11 | 2020-03-11 | 基于级联卷积神经网络的视频前背景分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010168156.6A CN111489372B (zh) | 2020-03-11 | 2020-03-11 | 基于级联卷积神经网络的视频前背景分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111489372A true CN111489372A (zh) | 2020-08-04 |
CN111489372B CN111489372B (zh) | 2022-10-18 |
Family
ID=71812451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010168156.6A Expired - Fee Related CN111489372B (zh) | 2020-03-11 | 2020-03-11 | 基于级联卷积神经网络的视频前背景分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111489372B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348766A (zh) * | 2020-11-06 | 2021-02-09 | 天津大学 | 一种用于监控视频增强的渐进式特征流深度融合网络 |
CN112344922A (zh) * | 2020-10-26 | 2021-02-09 | 中国科学院自动化研究所 | 单目视觉里程计定位方法及系统 |
CN112529914A (zh) * | 2020-12-18 | 2021-03-19 | 北京中科深智科技有限公司 | 一种实时头发分割方法和系统 |
CN112529931A (zh) * | 2020-12-23 | 2021-03-19 | 南京航空航天大学 | 一种前景分割的方法及系统 |
CN113158901A (zh) * | 2021-04-22 | 2021-07-23 | 天津大学 | 一种域自适应行人重识别方法 |
CN113269792A (zh) * | 2021-05-07 | 2021-08-17 | 上海交通大学 | 一种图像后期和谐化处理方法、系统及终端 |
CN113505737A (zh) * | 2021-07-26 | 2021-10-15 | 浙江大华技术股份有限公司 | 前景图像的确定方法及装置、存储介质、电子装置 |
CN113810715A (zh) * | 2021-08-18 | 2021-12-17 | 南京航空航天大学 | 一种基于空洞卷积神经网络的视频压缩参考图像生成方法 |
CN113947612A (zh) * | 2021-09-28 | 2022-01-18 | 西安电子科技大学广州研究院 | 基于前景背景分离的视频异常检测方法 |
WO2022155974A1 (zh) * | 2021-01-25 | 2022-07-28 | Oppo广东移动通信有限公司 | 视频编解码以及模型训练方法与装置 |
CN115588153A (zh) * | 2022-10-10 | 2023-01-10 | 山东财经大学 | 一种基于3D-DoubleU-Net的视频帧生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097568A (zh) * | 2019-05-13 | 2019-08-06 | 中国石油大学(华东) | 一种基于时空双分支网络的视频对象检测与分割方法 |
CN110378288A (zh) * | 2019-07-19 | 2019-10-25 | 合肥工业大学 | 一种基于深度学习的多级时空运动目标检测方法 |
US20190355128A1 (en) * | 2017-01-06 | 2019-11-21 | Board Of Regents, The University Of Texas System | Segmenting generic foreground objects in images and videos |
CN110853074A (zh) * | 2019-10-09 | 2020-02-28 | 天津大学 | 一种利用光流增强目标的视频目标检测网络系统 |
-
2020
- 2020-03-11 CN CN202010168156.6A patent/CN111489372B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190355128A1 (en) * | 2017-01-06 | 2019-11-21 | Board Of Regents, The University Of Texas System | Segmenting generic foreground objects in images and videos |
CN110097568A (zh) * | 2019-05-13 | 2019-08-06 | 中国石油大学(华东) | 一种基于时空双分支网络的视频对象检测与分割方法 |
CN110378288A (zh) * | 2019-07-19 | 2019-10-25 | 合肥工业大学 | 一种基于深度学习的多级时空运动目标检测方法 |
CN110853074A (zh) * | 2019-10-09 | 2020-02-28 | 天津大学 | 一种利用光流增强目标的视频目标检测网络系统 |
Non-Patent Citations (6)
Title |
---|
ALI DIBA,ET AL.: "Deep Temporal Linear Encoding Networks", 《ARXIV》 * |
DU TRAN,ET AL.: "Learning Spatiotemporal Features with 3D Convolutional Networks", 《ARXIV》 * |
XU ZHAO,ET AL.: "JOINT BACKGROUND RECONSTRUCTION AND FOREGROUND SEGMENTATION VIA A TWO-STAGE CONVOLUTIONAL NEURAL NETWORK", 《ARXIV》 * |
谢宏等: "时空双路3D残差卷积网络的视频烟雾检测", 《计算机工程与应用》 * |
邓志新,等.: "基于时空双流全卷积网络的视频目标分割算法研究及改进", 《工业控制计算机》 * |
陈俊周等: "基于级联卷积神经网络的视频动态烟雾检测", 《电子科技大学学报》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112344922A (zh) * | 2020-10-26 | 2021-02-09 | 中国科学院自动化研究所 | 单目视觉里程计定位方法及系统 |
CN112348766A (zh) * | 2020-11-06 | 2021-02-09 | 天津大学 | 一种用于监控视频增强的渐进式特征流深度融合网络 |
CN112348766B (zh) * | 2020-11-06 | 2023-04-18 | 天津大学 | 一种用于监控视频增强的渐进式特征流深度融合网络 |
CN112529914A (zh) * | 2020-12-18 | 2021-03-19 | 北京中科深智科技有限公司 | 一种实时头发分割方法和系统 |
CN112529914B (zh) * | 2020-12-18 | 2021-08-13 | 北京中科深智科技有限公司 | 一种实时头发分割方法和系统 |
CN112529931A (zh) * | 2020-12-23 | 2021-03-19 | 南京航空航天大学 | 一种前景分割的方法及系统 |
CN112529931B (zh) * | 2020-12-23 | 2024-04-12 | 南京航空航天大学 | 一种前景分割的方法及系统 |
WO2022155974A1 (zh) * | 2021-01-25 | 2022-07-28 | Oppo广东移动通信有限公司 | 视频编解码以及模型训练方法与装置 |
CN113158901A (zh) * | 2021-04-22 | 2021-07-23 | 天津大学 | 一种域自适应行人重识别方法 |
CN113269792B (zh) * | 2021-05-07 | 2023-07-21 | 上海交通大学 | 一种图像后期和谐化处理方法、系统及终端 |
CN113269792A (zh) * | 2021-05-07 | 2021-08-17 | 上海交通大学 | 一种图像后期和谐化处理方法、系统及终端 |
CN113505737A (zh) * | 2021-07-26 | 2021-10-15 | 浙江大华技术股份有限公司 | 前景图像的确定方法及装置、存储介质、电子装置 |
CN113810715A (zh) * | 2021-08-18 | 2021-12-17 | 南京航空航天大学 | 一种基于空洞卷积神经网络的视频压缩参考图像生成方法 |
CN113810715B (zh) * | 2021-08-18 | 2024-04-05 | 南京航空航天大学 | 一种基于空洞卷积神经网络的视频压缩参考图像生成方法 |
CN113947612A (zh) * | 2021-09-28 | 2022-01-18 | 西安电子科技大学广州研究院 | 基于前景背景分离的视频异常检测方法 |
CN113947612B (zh) * | 2021-09-28 | 2024-03-29 | 西安电子科技大学广州研究院 | 基于前景背景分离的视频异常检测方法 |
CN115588153A (zh) * | 2022-10-10 | 2023-01-10 | 山东财经大学 | 一种基于3D-DoubleU-Net的视频帧生成方法 |
CN115588153B (zh) * | 2022-10-10 | 2024-02-02 | 山东财经大学 | 一种基于3D-DoubleU-Net的视频帧生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111489372B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489372B (zh) | 基于级联卷积神经网络的视频前背景分离方法 | |
CN112669325B (zh) | 一种基于主动式学习的视频语义分割方法 | |
CN112149459B (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 | |
Johnston et al. | A review of digital video tampering: From simple editing to full synthesis | |
CN110580472A (zh) | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 | |
CN112465727A (zh) | 基于HSV色彩空间和Retinex理论的无正常光照参考的低照度图像增强方法 | |
CN114463218B (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
CN111047532B (zh) | 一种基于3d卷积神经网络的低照度视频增强方法 | |
CN113034413B (zh) | 一种基于多尺度融合残差编解码器的低照度图像增强方法 | |
CN112241939B (zh) | 一种基于多尺度和非局部的轻量去雨方法 | |
Guo et al. | Joint raindrop and haze removal from a single image | |
CN113052764B (zh) | 一种基于残差连接的视频序列超分重建方法 | |
CN111369548A (zh) | 一种基于生成对抗网络的无参考视频质量评价方法及装置 | |
CN111079864A (zh) | 一种基于优化视频关键帧提取的短视频分类方法及系统 | |
CN112580473A (zh) | 一种融合运动特征的视频超分辨率重构方法 | |
Mehra et al. | TheiaNet: Towards fast and inexpensive CNN design choices for image dehazing | |
CN109871790B (zh) | 一种基于混合神经网络模型的视频去色方法 | |
Tang et al. | AutoEnhancer: Transformer on U-Net architecture search for underwater image enhancement | |
CN114881879A (zh) | 一种基于亮度补偿残差网络的水下图像增强方法 | |
CN114494050A (zh) | 一种基于事件相机的自监督视频去模糊和图像插帧方法 | |
Men et al. | Visual quality assessment for interpolated slow-motion videos based on a novel database | |
Evain et al. | A lightweight neural network for monocular view generation with occlusion handling | |
Huang et al. | Image dehazing in disproportionate haze distributions | |
CN113870162A (zh) | 一种融合光照和反射的低光图像增强方法 | |
Chen et al. | NLUT: Neural-based 3D Lookup Tables for Video Photorealistic Style Transfer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221018 |
|
CF01 | Termination of patent right due to non-payment of annual fee |