CN111462191B - 一种基于深度学习的非局部滤波器无监督光流估计方法 - Google Patents

一种基于深度学习的非局部滤波器无监督光流估计方法 Download PDF

Info

Publication number
CN111462191B
CN111462191B CN202010328677.3A CN202010328677A CN111462191B CN 111462191 B CN111462191 B CN 111462191B CN 202010328677 A CN202010328677 A CN 202010328677A CN 111462191 B CN111462191 B CN 111462191B
Authority
CN
China
Prior art keywords
optical flow
layer
image
pyramid
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010328677.3A
Other languages
English (en)
Other versions
CN111462191A (zh
Inventor
涂志刚
陈雨劲
刘祥建
田龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010328677.3A priority Critical patent/CN111462191B/zh
Publication of CN111462191A publication Critical patent/CN111462191A/zh
Application granted granted Critical
Publication of CN111462191B publication Critical patent/CN111462191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的非局部滤波器无监督光流估计方法。为了解决现实中缺少真实光流标签以及构造有标签光流数据耗时费力的问题,本发明设计了一种无监督深度网络架构,减少了对标注数据的依赖。为了提高无监督光流模型的精度,针对光流计算面临的3大难点问题,即噪声、边界模糊、遮挡,首先开发了一种基于卷积神经网络的非局部滤波器,对光流场进行滤波精炼,有效的处理了噪声与边界模糊。该非局部滤波器能从视频数据中自主学习到滤波权重,泛化能力强。其次利用精炼后的光流对遮挡进行推理,根据光流和遮挡图设计全新的损失函数。本发明不需要任何标注数据,以端到端的训练模式获取高精度的运动信息,且能较好的获取目标运动细节。

Description

一种基于深度学习的非局部滤波器无监督光流估计方法
技术领域
本发明属于视频分析技术领域,尤其涉及一种基于深度学习的非局部滤波器无监督光流估计方法。
背景技术
光流运动估计是计算机视觉技术中一个重要的研究与应用领域。光流运动信息作为最主要的视觉线索之一,被广泛地应用于视频分析领域的诸多视觉任务中。开发高精度的、可实时计算的光流方法成为视频分析的一个重要突破点。光流能够描述视频中相邻帧图像对应像素点的运动信息,从而使计算机从纷繁的视频图像序列中获取目标的运动信息,过滤掉不关心的信息。其实质是自动计算视频目标在时序上的运动变化所产生的运动信息,为高层次的视频分析与理解提供有效的运动线索。
目前主流的光流运动估计技术根据其实现的方式进行区分,可以概括为以下主要类型:
变分法光流估计方法。最早在1981年,人们将二维速度场与亮度变化进行结合构建数据项,同时又提出了基于整体平滑性约束的正则项,将数据项与正则项结合组建成能量函数,并采用变分法对能量函数进行求解来计算光流,进而建立了变分光流法的完整理论架构。由于变分法具有诸多优点,在2015年之前,即在基于深度学习的光流法出现之前,是光流计算最主要的技术。为了处理大位移和计算效率问题,人们引入了金字塔策略,并进一步与现代数值法结合提出了多重网格法。为处理遮挡,主要有两类方法:第一、同步交互处理遮挡与计算光流;第二、分步检测遮挡区域然后对标记的遮挡进行处理。为处理噪声,有两种主要策略被提出:第一、图像滤波预处理,如双边滤波法,导向滤波法等;第二、光流平滑后处理。
基于深度学习的有监督光流运动估计。随着深度学习的不断发展,人们开始使用卷积神经网络进行光流计算,提出了一系列的有监督的光流方法。目前有监督光流方法的速度能够满足实时计算的需要,并且精准度相比于传统的方法有了大幅度的提升。
基于深度学习的无监督光流运动估计。为了避免训练过程对真实标注数据的依赖,人们开始采用无监督的方式来对光流进行计算。由于无监督光流运动估计模型具有诸多优点,必将成为将来光流计算的主流方式。
光流运动估计技术是视频分析的基础。光流能够提供稠密的运动信息,它是处理很多视觉任务的关键,但目前的光流却无法在实际任务中被广泛应用。其原因在于,上述方法均存在不少缺陷:
传统变分光流计算需要解决大量优化问题,导致计算速度慢,不能够满足实时计算的要求。其次变分光流法的很多参数是人为设置的,导致变分光流方法往往只对某些特定场景的数据有效。
基于深度学习的有监督光流方法,在模型训练过程中需要大量标注好的光流信息,而这种标注信息不容易获取,标注成本较高,且标注的数据不具有随机性。
基于深度学习的无监督光流方法的精度不高,主要是因为无法有效的处理噪声、边界模糊、遮挡等难点问题。
发明内容
针对现有技术所存在的缺点,本发明采用了基于深度学习的无监督光流计算的策略。针对光流模型训练过程中需要大量标注好的光流信息,但光流标注信息不容易获取且标注成本较高的问题,本发明设计了一种无监督深度网络架构。针对目前无监督光流模型所面临的3大难点问题,即噪声、边界模糊、遮挡,开发了一种基于深度学习的非局部滤波器,并设计了可处理遮挡的全新损失函数,使得该方法能适用于各种复杂的现实场景,实现了在不使用标注数据的情况下,以端到端的训练模式获取高精度的运动信息,同时还能恢复出目标的运动细节。该方法能有效的处理了噪声、边界模糊与遮挡。
为实现上述目的,本发明提出了一种基于深度学习的非局部滤波器无监督光流估计方法,包括以下步骤:
步骤1:将监控视频解压成连续的图像序列帧,将其中相邻两帧图像作为输入;
步骤2:将相邻两帧图像输入到光流网络中提取光流,通过光流网络中金字塔模型对相邻两帧图像中第一帧图像进行采样,得到金字塔图像;
步骤3:在光流网络中金字塔模型l层,用相同的卷积模板分别获取l层相邻两帧图像的特征信息,通过金字塔模型l层相邻两帧图像的特征信息构建金字塔模型l层成本计算量,将金字塔模型l层成本计算量、金字塔模型l层相邻两帧图像中第一帧图像的特征信息输入到基于深度学习的光流估计器中,得到金字塔模型l层的光流图,将金字塔模型l层的光流图通过上采样得到上采样后金字塔模型l+1层的光流图;
步骤4:重复执行步骤3直至光流网络中金字塔模型的底层,以构建前向光流;
步骤5:交换相邻两张图像的输入顺序,重复执行步骤2-步骤4,以构建后向光流;
步骤6:根据传统非局部滤波器构建基于深度学习的非局部化滤波器,分别将前向光流、后向光流通过基于深度学习的非局部滤波器进一步处理,获得精炼后的前向光流、精炼后的后向光流;
步骤7:结合前后一致性检测原理,利用精炼后的前向光流、精炼后的后向光流对遮挡区域进行估计,并获取前向遮挡区域、后向遮挡区域;
步骤8:结合精炼后的前向光流、精炼后的后向光流、前向遮挡区域和后向遮挡区域,构建前后一致性惩罚函数、遮挡感知损失函数,进一步构建光流网络损失函数作为训练函数;
步骤9:结合光流网络损失函数对模型进行训练,直至光流网络损失函数收敛为止,输出最终的光流运动场。
作为优选,步骤1所述连续的图像序列帧为:
V={I1,…,Ij,…IN},j∈[1,N]
其中,N为分解的图像帧数,Ij表示第j帧图像;
步骤2所述其中相邻两帧图像用Ij、Ij+1表示;
作为优选,步骤2所述相邻两帧图像为Ij、Ij+1,Ij表示第j帧图像,j∈[1,N],N为分解的图像帧数;
步骤2所述通过光流网络中金字塔模型对相邻两帧图像中第一帧图像进行采样为:
通过光流网络中金字塔模型对第j帧图像进行采样;
步骤2所述金字塔图像为:
Figure BDA0002464155880000041
其中,l∈[1,L],l用于表示光流网络中金字塔模型的第l层,L表示金字塔的总层数,Ij表示第j帧图像,j∈[1,N],N为分解的图像帧数;
当l=1时,表示金字塔图像的顶层即粗糙层;
当l=L时,表示金字塔图像的底层即原始层;
作为优选,步骤3所述金字塔模型顶层为光流网络中金字塔模型的l层,l用于表示光流网络中金字塔模型第l层,当l=1时表示金字塔图像的顶层,当l=L时表示金字塔图像的底层,l∈[1,L]
当l=1时,
步骤3所述相邻两帧图像为:
Figure BDA0002464155880000042
Figure BDA0002464155880000043
表示金字塔模型l层第j帧图像,j∈[1,N],N为分解的图像帧数;
步骤3所述相邻两帧图像的特征信息为:
Figure BDA0002464155880000044
Figure BDA0002464155880000045
为相邻两帧图像中第一帧图像的特征信息,
Figure BDA0002464155880000046
为相邻两帧图像中第二帧图像的特征信息;
步骤3所述构建金字塔模型l层成本计算量为:
Figure BDA0002464155880000047
步骤3所述金字塔模型l层的光流图为:vl
步骤3所述上采样后金字塔模型l+1层的光流图为:
Figure BDA0002464155880000048
作为优选,步骤4所述前向光流为:
Figure BDA0002464155880000049
作为优选,步骤5所述交换相邻两张图像的输入顺序即(Ij,Ij+1)变为(Ij+1,Ij);
步骤5所述后向光流为:
Figure BDA00024641558800000410
作为优选,步骤6所述传统非局部滤波器为:
Figure BDA0002464155880000051
ω(i,j)表示像素i与像素j之间的相似度,其权重大小满足0≤ω(i,j)≤1和∑jω(i,j)=1;
权重的计算方式为:
Figure BDA0002464155880000052
光流图中的像素点i和j的相似性取决于分别以i和j为中心的像素块的亮度相似性;
v(Ni)表示向量,它是由以像素点i为中心的区域像素点元素所组成的;
几何结构相似度是通过向量的欧几里得距离来衡量的,表示为:
Figure BDA0002464155880000053
其中,a>0,表示的是高斯核的标准差;
Figure BDA0002464155880000054
Z(i)为归一化系数,h为平滑参数用于控制高斯函数的衰减程度,h越大,高斯函数变化越平缓,去噪水平越高,但同时也会导致图像越模糊;
步骤6所述构建基于深度学习的非局部化滤波器为:
根据传统非局部化平均操作,在深度神经网络中定义一个非局部运算,来捕获长距离依赖关系:
Figure BDA0002464155880000055
其中,xi表示光流图i点的亮度值,yi表示输出像素点的亮度值。j是枚举所有可能的像素点;
g(xj)=Wg·xj计算位置j处的输入信号,其中,Wg为学习到的权重矩阵;
Figure BDA0002464155880000056
函数用于计算像素点i和j的相似性;
其中,θ(xi)=Wθxi,φ(xj)=Wφxj,C(x)为归一化因子,
Figure BDA0002464155880000057
作为优选,步骤7所述前后一致性检测原理为:
若精炼后的前向光流为精炼后的后向光流的反向则为非遮挡区域;
若精炼后的前向光流和精炼后的后向光流的差异则为遮挡区域;
当精炼后的前向光流和精炼后的后向光流匹配差距超过阈值或者超出图像边界Ω时,认为像素被遮,则为遮挡区域;。
对于前向遮挡区域Of来说,具体为:
当前后光流不满足如下约束模型时,将该点像素点的值设置为0,否则为1;所述约束模型如公式所示:
|vf(x)+vb(x+vf(x))|2≤a1(|vf(x)|2+|vb(x+vf(x))|2)+a1
其中,α1、α2分别为两个超参数,vf表示前项光流,vb表示精炼后的后向光流;
作为优选,步骤8所述前后一致性惩罚函数为:
Figure BDA0002464155880000061
O表示遮挡图,下标(f,b)用于区分前向遮挡和后向遮挡,Of表示前向遮挡图。v表示光流图,下标用于区分精炼后的前向光流、精炼后的后向光流,即vf表示精炼后的前向光流,vb表示精炼后的后向光流。
步骤8所述遮挡感知损失函数为:
LD(vf,vb,Of,Ob)=∑(1-Of)·σ(FD(Ij-Ij+1(x+vf))+(1-Ob)·σ(FD(Ij+1-Ij(x+vb))
其中,Ij、Ij+1表示相邻两帧连续图像,σ(x)=(x22)τ,ε、τ均为设定的超参数,FD表示亮度差异损失函数;
步骤8所述光流网络损失函数为:
L(I1,I2,vf,vb,Of,Ob)=LC+LD
新设计的损失函数充分的考虑了多种影响,有很强的约束能力,在面对遮挡、光照变化等较为复杂的状况时,该模型依然能够精准的计算出光流。
作为优选,步骤9所述训练的方法为随机梯度下降法,并通过使用反向传播来更新模型中可学习的参数;
所述模型为光流网络;
首先使用公开数据集FlyingChairs对模型进行预训练,使得模型具有较好的泛化能力,预训练好的模型就可以直接用于视频的光流运动估计。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
使用面广。新设计的基于深度学习的非局部滤波器可以融入各种面向深度学习的光流计算网络。极大的拓展了非局部滤波器在光流计算中的使用性。
泛化能力强。相比于传统非局部滤波器的滤波权重是人为指定的,基于深度学习的非局部滤波器的权重是从视频图像大数据中学习得到的。非局部化滤波器的参数会根据任务自动更新,因此能被广泛应用于各种类型的视频图像。其次,其遮挡感知损失函数也是自主学习得到的。
效率高。该模型只在最后一层加入非局部滤波器,且该滤波器只包含5层神经层,使得本发明提出的非局部滤波器无需花费多少时间。
精度高。新设计的损失函数能够充分考虑了光流和遮挡的关系。使得本发明能较好的处理噪声、边界模糊、遮挡等问题。在精确计算光流运动信息的同时较好的恢复出运动细节。
由此,本发明提供了一种在无需光流标注数据的情况下,计算精度高,可有效处理噪声、边界模糊、遮挡的光流运动估计的方法。
附图说明
图1:是本发明的总结构图;
图2:是本发明的光流提取网络;
图3:是本发明的金字塔模型结构框图;
图4:是本发明的深度学习的非局部滤波器;
图5:是本发明的遮挡估计;
图6:是本发明的总流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1为本发明方法一种基于深度学习非局部滤波器的高性能无监督光流运动估计方法的整体结构图。系统包括:光流提取网络;基于深度学习的非局部滤波器;基于前向后向一致性检测的遮挡估计。
下面结合图1至图6,介绍本发明的具体实施方式为一种基于深度学习的非局部滤波器无监督光流估计方法,包括以下步骤:
步骤1:将监控视频解压成连续的图像序列帧,将其中相邻两帧图像作为输入;
步骤1所述连续的图像序列帧为:
V={I1,…,Ij,…IN},j∈[1,N]
其中,N为分解的图像帧数,Ij表示第j帧图像;
步骤2所述其中相邻两帧图像用Ij、Ij+1表示;
步骤2:将相邻两帧图像输入到光流网络中提取光流,通过光流网络中金字塔模型对相邻两帧图像中第一帧图像进行采样,得到金字塔图像;
所述光流提取网络见说明书附图2;
步骤2所述相邻两帧图像为Ij、Ij+1,Ij表示第j帧图像,j∈[1,N],N为分解的图像帧数;
步骤2所述通过光流网络中金字塔模型对相邻两帧图像中第一帧图像进行采样为:
通过光流网络中金字塔模型对第j帧图像进行采样;
步骤2所述金字塔图像为:
Figure BDA0002464155880000081
其中,l∈[1,L],l用于表示光流网络中金字塔模型的第l层,L表示金字塔的总层数,Ij表示第j帧图像,j∈[1,N],N为分解的图像帧数;
当l=1时,表示金字塔图像的顶层即粗糙层;
当l=L时,表示金字塔图像的底层即原始层;
本发明中金字塔的采样率设置为0.5,且L=6;
步骤3:在光流网络中金字塔模型l层,用相同的卷积模板分别获取l层相邻两帧图像的特征信息,通过金字塔模型l层相邻两帧图像的特征信息构建金字塔模型l层成本计算量,将金字塔模型l层成本计算量、金字塔模型l层相邻两帧图像中第一帧图像的特征信息输入到基于深度学习的光流估计器中,得到金字塔模型l层的光流图,将金字塔模型l层的光流图通过上采样得到上采样后金字塔模型l+1层的光流图;
见说明书附图3,步骤3所述金字塔模型顶层为光流网络中金字塔模型的l层,l用于表示光流网络中金字塔模型第l层,当l=1时表示金字塔图像的顶层,当l=L时表示金字塔图像的底层,l∈[1,L]
当l=1时,
步骤3所述相邻两帧图像为:
Figure BDA0002464155880000091
Figure BDA0002464155880000092
表示金字塔模型l层第j帧图像,j∈[1,N],N为分解的图像帧数;
步骤3所述相邻两帧图像的特征信息为:
Figure BDA0002464155880000093
Figure BDA0002464155880000094
为相邻两帧图像中第一帧图像的特征信息,
Figure BDA0002464155880000095
为相邻两帧图像中第二帧图像的特征信息;
步骤3所述构建金字塔模型l层成本计算量为:
Figure BDA0002464155880000096
步骤3所述金字塔模型l层的光流图为:vl
步骤3所述上采样后金字塔模型l+1层的光流图为:
Figure BDA0002464155880000097
步骤4:重复执行步骤3直至光流网络中金字塔模型的底层,以构建前向光流;
步骤4所述前向光流为:
Figure BDA0002464155880000098
步骤5:交换相邻两张图像的输入顺序,重复执行步骤2-步骤4,以构建后向光流。
步骤5所述交换相邻两张图像的输入顺序即(Ij,Ij+1)变为(Ij+1,Ij);
步骤5所述后向光流为:
Figure BDA0002464155880000099
步骤6:根据传统非局部滤波器构建基于深度学习的非局部化滤波器,分别将前向光流、后向光流通过基于深度学习的非局部滤波器进一步处理,获得精炼后的前向光流、精炼后的后向光流,这样能有效的处理噪声、避免光流边界的过平滑;
步骤6所述传统非局部滤波器为:
光流图中像素点之间不是孤立存在的,某一点的像素与周边区域的其它像素点存在某种关联,可以概括为亮度相关度和几何结构相似度。同时相似像素点不局限于某个局部区域,如图像中的长边缘、结构纹理等,都是相似的,所以可以采用能够描述图像结构的图像块在整个图像上寻找相似块;
传统非局部滤波器定义如下:
Figure BDA0002464155880000101
ω(i,j)表示像素i与像素j之间的相似度,其权重大小满足0≤ω(i,j)≤1和∑jω(i,j)=1;
权重的计算方式为:
Figure BDA0002464155880000102
光流图中的像素点i和j的相似性取决于分别以i和j为中心的像素块的亮度相似性;
v(Ni)表示向量,它是由以像素点i为中心的区域像素点元素所组成的;
几何结构相似度是通过向量的欧几里得距离来衡量的,表示为:
Figure BDA0002464155880000103
其中,a>0,表示的是高斯核的标准差;
Figure BDA0002464155880000104
Z(i)为归一化系数,h为平滑参数用于控制高斯函数的衰减程度,h越大,高斯函数变化越平缓,去噪水平越高,但同时也会导致图像越模糊;
步骤6所述构建基于深度学习的非局部化滤波器为:
如图4所示,根据传统非局部化平均操作,在深度神经网络中定义一个非局部运算,来捕获长距离依赖关系:
Figure BDA0002464155880000105
其中,xi表示光流图i点的亮度值,yi表示输出像素点的亮度值。j是枚举所有可能的像素点;
g(xj)=Wg·xj计算位置j处的输入信号,其中,Wg为学习到的权重矩阵;
Figure BDA0002464155880000111
函数用于计算像素点i和j的相似性;
其中,θ(xi)=Wθxi,φ(xj)=Nφxj,C(x)为归一化因子,
Figure BDA0002464155880000112
步骤7:结合前后一致性检测原理,利用精炼后的前向光流、精炼后的后向光流对遮挡区域进行估计,并获取前向遮挡区域、后向遮挡区域;
步骤7所述前后一致性检测原理为:
若精炼后的前向光流为精炼后的后向光流的反向则为非遮挡区域;
若精炼后的前向光流和精炼后的后向光流的差异则为遮挡区域;
当精炼后的前向光流和精炼后的后向光流匹配差距超过阈值或者超出图像边界Ω时,认为像素被遮,则为遮挡区域;。
对于前向遮挡区域Of来说,具体为:
如图5所示,当前后光流不满足如下约束模型时,将该点像素点的值设置为0,否则为1;所述约束模型如公式所示:
|vf(x)+vb(x+vf(x))|2≤a1(|vf(x)|2+|vb(x+vf(x))|2)+a1
其中,α1、α2分别为两个超参数,vf表示前项光流,vb表示精炼后的后向光流;
将α1设置为0.01,将α2设置为0.05;
步骤8:结合精炼后的前向光流、精炼后的后向光流、前向遮挡区域和后向遮挡区域,构建前后一致性惩罚函数、遮挡感知损失函数,进一步构建光流网络损失函数作为训练函数;
步骤8所述前后一致性惩罚函数为:
Figure BDA0002464155880000113
O表示遮挡图,下标(f,b)用于区分前向遮挡和后向遮挡,Of表示前向遮挡图。v表示光流图,下标用于区分精炼后的前向光流、精炼后的后向光流,即vf表示精炼后的前向光流,vb表示精炼后的后向光流。
步骤8所述遮挡感知损失函数为:
LD(vf,vb,Of,Ob)=∑(1-Of)·σ(FD(Ij-Ij+1(x+vf))+(1-Ob)·σ(FD(Ij+1-Ij(x+vb))
其中,Ij、Ij+1表示相邻两帧连续图像,σ(x)=(x22)τ,ε、τ均为设定的超参数,FD表示亮度差异损失函数;
步骤8所述光流网络损失函数为:
L(I1,I2,vf,vb,Of,Ob)=LC+LD
新设计的损失函数充分的考虑了多种影响,有很强的约束能力,在面对遮挡、光照变化等较为复杂的状况时,该模型依然能够精准的计算出光流。
步骤9:结合光流网络损失函数对模型进行训练,直至光流网络损失函数收敛为止,输出最终的光流运动场。
步骤9所述训练的方法为随机梯度下降法,并通过使用反向传播来更新模型中可学习的参数;
所述模型为光流网络;
为了避免梯度消失和梯度爆炸,将模型训练过程中批处理大小设置为为8,并使用Adam作为优化器,初始学习率为1e-4;
首先使用公开数据集FlyingChairs对模型进行预训练,使得模型具有较好的泛化能力,预训练好的模型就可以直接用于视频的光流运动估计。
图6为本发明方法流程图。非局部滤波器在光流提取后执行,即经过光流提取网络后,使用非局部滤波器对前项光流和后向光流进行滤波器操作,得到精炼后的双向光流场,每次只执行一次滤波器操作。随后,使用精炼后的双向光流对进行遮挡估计,即使用前后一致性检测技术,对遮挡图进行推导。最后将遮挡估计融入到损失函数中,构建可处理遮挡的损失函数,对深度模型进行训练。该模型首先在FlyingChairs数据集上进行预训练,总迭代次数为30万次;批处理大小为8;初始学习率为0.0001,学习率每5万次衰减一半。代码使用Python语言,在PyTorch框架基础上搭建。操作系统为Linux Ubuntu。经过训练后的光流模型可以直接使用在其他场景中,无需标注数据。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于深度学习的非局部滤波器无监督光流估计方法,其特征在于,包括以下步骤:
步骤1:将监控视频解压成连续的图像序列帧,将其中相邻两帧图像作为输入;
步骤2:将相邻两帧图像输入到光流网络中提取光流,通过光流网络中金字塔模型对相邻两帧图像中第一帧图像进行采样,得到金字塔图像;
步骤3:在光流网络中金字塔模型l层,用相同的卷积模板分别获取l层相邻两帧图像的特征信息,通过金字塔模型l层相邻两帧图像的特征信息构建金字塔模型l层成本计算量,将金字塔模型l层成本计算量、金字塔模型l层相邻两帧图像中第一帧图像的特征信息输入到光流网络中,得到金字塔模型l层的光流图,将金字塔模型l层的光流图通过上采样得到上采样后金字塔模型l+1层的光流图;
步骤4:重复执行步骤3直至光流网络中金字塔模型的底层,以构建前向光流;
步骤5:交换相邻两张图像的输入顺序,重复执行步骤2-步骤3直至光流网络中金字塔模型的底层,以构建后向光流;
步骤6:根据传统非局部滤波器构建基于深度学习的非局部滤波器,分别将前向光流、后向光流通过基于深度学习的非局部滤波器进一步处理,获得精炼后的前向光流、精炼后的后向光流;
步骤7:结合前后一致性检测原理,利用精炼后的前向光流、精炼后的后向光流对遮挡区域进行估计,并获取前向遮挡区域、后向遮挡区域;
步骤8:结合精炼后的前向光流、精炼后的后向光流、前向遮挡区域和后向遮挡区域,构建前后一致性惩罚函数、遮挡感知损失函数,进一步构建光流网络损失函数作为训练函数;
步骤1所述连续的图像序列帧为:
V={I1,…,Ij,…IN},j∈[1,N]
其中,N为分解的图像帧数,Ij表示第j帧图像;
步骤2所述其中相邻两帧图像用Ij、Ij+1表示;
步骤2所述相邻两帧图像为Ij、Ij+1,Ij表示第j帧图像,j∈[1,N],N为分解的图像帧数;
步骤2所述通过光流网络中金字塔模型对相邻两帧图像中第一帧图像进行采样为:
通过光流网络中金字塔模型对第j帧图像进行采样;
步骤2所述金字塔图像为:
Figure FDA0003667949290000011
其中,l∈[1,L],l用于表示光流网络中金字塔模型的第l层,L表示金字塔的总层数,Ij表示第j帧图像,j∈[1,N],N为分解的图像帧数;
当l=1时,表示金字塔图像的顶层即粗糙层;
当l=L时,表示金字塔图像的底层即原始层;
步骤3中l用于表示光流网络中金字塔模型第l层,当l=1时表示金字塔图像的顶层,当l=L时表示金字塔图像的底层,l∈[1,L]
当l=1时,
步骤3所述相邻两帧图像为:
Figure FDA0003667949290000021
Figure FDA0003667949290000022
表示金字塔模型l层第j帧图像,j∈[1,N],N为分解的图像帧数;
步骤3所述相邻两帧图像的特征信息为:
Figure FDA0003667949290000023
Figure FDA0003667949290000024
为相邻两帧图像中第一帧图像的特征信息,
Figure FDA0003667949290000025
为相邻两帧图像中第二帧图像的特征信息;
步骤3所述构建金字塔模型l层成本计算量为:
Figure FDA0003667949290000026
步骤3所述金字塔模型l层的光流图为:vl
步骤3所述上采样后金字塔模型l+1层的光流图为:
Figure FDA0003667949290000027
2.根据权利要求1所述的基于深度学习的非局部滤波器无监督光流估计方法,其特征在于:
步骤4所述前向光流为:
Figure FDA0003667949290000028
3.根据权利要求1所述的基于深度学习的非局部滤波器无监督光流估计方法,其特征在于:
步骤5所述交换相邻两张图像的输入顺序即(Ij,Ij+1)变为(Ij+1,Ij);
步骤5所述后向光流为:
Figure FDA0003667949290000029
4.根据权利要求1所述的基于深度学习的非局部滤波器无监督光流估计方法,其特征在于:
步骤6所述传统非局部滤波器为:
Figure FDA0003667949290000031
ω(i,j)表示像素i与像素j之间的相似度,其权重大小满足0≤ω(i,j)≤1和∑jω(i,j)=1;
权重的计算方式为:
Figure FDA0003667949290000032
光流图中的像素点i和j的相似性取决于分别以i和j为中心的像素块的亮度相似性;
v(Ni)表示向量,它是由以像素点i为中心的区域像素点元素所组成的;
几何结构相似度是通过向量的欧几里得距离来衡量的,表示为:
Figure FDA0003667949290000033
其中,α>0,表示的是高斯核的标准差;
Figure FDA0003667949290000034
Z(i)为归一化系数,h为平滑参数用于控制高斯函数的衰减程度,h越大,高斯函数变化越平缓,去噪水平越高,但同时也会导致图像越模糊;
步骤6所述构建基于深度学习的非局部滤波器为:
根据传统非局部化平均操作,在深度神经网络中定义一个非局部运算,来捕获长距离依赖关系:
Figure FDA0003667949290000035
其中,xi表示光流图i点的亮度值,yi表示输出像素点的亮度值,j是枚举所有可能的像素点;
g(xj)=Wg·xj计算位置j处的输入信号,其中,Wg为学习到的权重矩阵;
Figure FDA0003667949290000036
函数用于计算像素点i和j的相似性;
其中,θ(xi)-Wθxi,φ(xj)-Wφxj,C(x)为归一化因子,
Figure FDA0003667949290000037
5.根据权利要求1所述的基于深度学习的非局部滤波器无监督光流估计方法,其特征在于:
步骤7所述前后一致性检测原理为:
若精炼后的前向光流为精炼后的后向光流的反向则为非遮挡区域;
若精炼后的前向光流和精炼后的后向光流存在差异则为遮挡区域;
当精炼后的前向光流和精炼后的后向光流匹配差距超过阈值或者超出图像边界Ω时,认为像素被遮,则为遮挡区域;
对于前向遮挡区域Of来说,具体为:
当前后光流不满足如下约束模型时,将该点像素点的值设置为0,否则为1;所述约束模型如公式所示:
|vf(x)+vb(x+vf(x))|2≤a1(|vf(x)|2+|vb(x+vf(x))|2)+a1
其中,α1、α2分别为两个超参数,vf表示前向光流,vb表示精炼后的后向光流。
6.根据权利要求1所述的基于深度学习的非局部滤波器无监督光流估计方法,其特征在于:
步骤8所述前后一致性惩罚函数为:
Figure FDA0003667949290000041
O表示遮挡图,下标(f,b)用于区分前向遮挡和后向遮挡,Of表示前向遮挡图;v表示光流图,下标用于区分精炼后的前向光流、精炼后的后向光流,即vf表示精炼后的前向光流,vb表示精炼后的后向光流;
步骤8所述遮挡感知损失函数为:
LD(vf,vb,Of,Ob)=∑(1-Of)·σ(FD(Ij-Ij+1(x+vf))+(1-Ob)·σ(FD(Ij+1-If(x+vb))
其中,Ij、Ij+1表示相邻两帧连续图像,σ(x)=(x22)τ,ε、τ均为设定的超参数,FD表示亮度差异损失函数;
步骤8所述光流网络损失函数为:
L(Ij,Ij+1,vb,vb,Of,Ob)=LC+LD
新设计的损失函数充分的考虑了多种影响,有很强的约束能力,在面对遮挡、光照变化等较为复杂的状况时,该模型依然能够精准的计算出光流。
7.根据权利要求1所述的基于深度学习的非局部滤波器无监督光流估计方法,其特征在于:
步骤9所述训练的方法为随机梯度下降法,并通过使用反向传播来更新模型中可学习的参数;
所述模型为光流网络;
首先使用公开数据集FlyingChairs对模型进行预训练,使得模型具有较好的泛化能力,预训练好的模型就可以直接用于视频的光流运动估计。
CN202010328677.3A 2020-04-23 2020-04-23 一种基于深度学习的非局部滤波器无监督光流估计方法 Active CN111462191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010328677.3A CN111462191B (zh) 2020-04-23 2020-04-23 一种基于深度学习的非局部滤波器无监督光流估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010328677.3A CN111462191B (zh) 2020-04-23 2020-04-23 一种基于深度学习的非局部滤波器无监督光流估计方法

Publications (2)

Publication Number Publication Date
CN111462191A CN111462191A (zh) 2020-07-28
CN111462191B true CN111462191B (zh) 2022-07-19

Family

ID=71680357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010328677.3A Active CN111462191B (zh) 2020-04-23 2020-04-23 一种基于深度学习的非局部滤波器无监督光流估计方法

Country Status (1)

Country Link
CN (1) CN111462191B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287977B (zh) * 2020-10-06 2024-02-09 武汉大学 一种基于边界框关键点距离的目标检测方法
CN112465872B (zh) * 2020-12-10 2022-08-26 南昌航空大学 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法
CN112785629A (zh) * 2021-01-21 2021-05-11 陕西师范大学 一种基于无监督深度光流网络的极光运动表征方法
CN113706676B (zh) * 2021-08-26 2024-01-16 京东鲲鹏(江苏)科技有限公司 用于点云数据的模型自监督训练方法和装置
CN115118948B (zh) * 2022-06-20 2024-04-05 北京华录新媒信息技术有限公司 一种全景视频中无规则遮挡的修复方法及装置
CN115880340B (zh) * 2023-02-03 2023-07-14 清华大学 小鼠行为分析方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105074726A (zh) * 2013-02-26 2015-11-18 A2Z罗基克斯公司 图像序列中的物体遮挡的确定
CN106934769A (zh) * 2017-01-23 2017-07-07 武汉理工大学 基于近景遥感的去运动模糊方法
CN109086807A (zh) * 2018-07-16 2018-12-25 哈尔滨工程大学 一种基于空洞卷积堆叠网络的半监督光流学习方法
CN110348312A (zh) * 2019-06-14 2019-10-18 武汉大学 一种区域视频人体动作行为实时识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7760911B2 (en) * 2005-09-15 2010-07-20 Sarnoff Corporation Method and system for segment-based optical flow estimation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105074726A (zh) * 2013-02-26 2015-11-18 A2Z罗基克斯公司 图像序列中的物体遮挡的确定
CN106934769A (zh) * 2017-01-23 2017-07-07 武汉理工大学 基于近景遥感的去运动模糊方法
CN109086807A (zh) * 2018-07-16 2018-12-25 哈尔滨工程大学 一种基于空洞卷积堆叠网络的半监督光流学习方法
CN110348312A (zh) * 2019-06-14 2019-10-18 武汉大学 一种区域视频人体动作行为实时识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Optical Flow Estimation using a Spatial Pyramid Network;Anurag Ranjan 等;《CVF》;20171231;全文 *
一种高精度的TV-L光流算法;涂志刚 等;《武汉大学学报.信息科学版》;20120430;第37卷(第04期);全文 *
变分光流法在序列图像运动分析中的研究;涂志刚;《中国博士学位论文全文数据库》;20150615(第06期);全文 *
总变差一范数光流场计算综述;李佳田等;《高技术通讯》;20160415(第04期);全文 *

Also Published As

Publication number Publication date
CN111462191A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111462191B (zh) 一种基于深度学习的非局部滤波器无监督光流估计方法
CN108596053B (zh) 一种基于ssd和车辆姿态分类的车辆检测方法和系统
CN111476292B (zh) 医学图像分类处理人工智能的小样本元学习训练方法
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN112052886B (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN109559320B (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN110111366A (zh) 一种基于多级损失量的端到端光流估计方法
CN111931787A (zh) 一种基于特征聚合的rgbd显著性检测方法
CN113657560B (zh) 基于节点分类的弱监督图像语义分割方法及系统
CN114972418A (zh) 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法
CN114897914B (zh) 基于对抗训练的半监督ct图像分割方法
CN108830170B (zh) 一种基于分层特征表示的端到端目标跟踪方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
CN109242019B (zh) 一种水面光学小目标快速检测与跟踪方法
CN110728694A (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN112184767A (zh) 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质
CN114842542B (zh) 基于自适应注意力与时空关联的面部动作单元识别方法及装置
CN116310098A (zh) 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法
Sun et al. Two-stage deep regression enhanced depth estimation from a single RGB image
CN112509014B (zh) 金字塔遮挡检测块匹配的鲁棒插值光流计算方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN108765384B (zh) 一种联合流形排序和改进凸包的显著性检测方法
CN116824140A (zh) 面向测试场景无掩码监督的小样本分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant