CN107993255A - 一种基于卷积神经网络的稠密光流估计方法 - Google Patents
一种基于卷积神经网络的稠密光流估计方法 Download PDFInfo
- Publication number
- CN107993255A CN107993255A CN201711220774.5A CN201711220774A CN107993255A CN 107993255 A CN107993255 A CN 107993255A CN 201711220774 A CN201711220774 A CN 201711220774A CN 107993255 A CN107993255 A CN 107993255A
- Authority
- CN
- China
- Prior art keywords
- mrow
- convolutional layer
- light stream
- convolution kernel
- warp lamination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域,提供了一种基于卷积神经网络的稠密光流估计方法,以解决现有技术计算时间长,计算量大,计算效率不高的问题,包含如下步骤:(1)提取运动图像信息:构建全卷积网络架构,然后在输入层输入两幅通道数都为C的图像,从卷积层8输出光流_6;(2)生成光流:构建稠密光流生成模型。光流_6输入反卷积层1,反卷积层2输出光流_5,反卷积层3输出光流_4,反卷积层4输出光流_3,反卷积层5输出光流_2,反卷积层6输出光流_1;(3)模型训练:用最终损失函数进行训练;(4)光流估计:从全卷积网络架构的输入层输入图像对,输出最终预测的光流。本发明能够有效地利用先验知识,模型可以预先训练,大大减少了计算时间。
Description
技术领域
本发明属于计算机视觉领域,尤其涉及一种基于卷积神经网络的稠密光流估计方法。
背景技术
光流估计是计算机视觉领域内的一个重要基础模块,其研究目的是通过建模计算出视频连续两帧间的运动信息,具体就是第一帧中每个像素在第二帧中的对应匹配像素。经过三十多年的发展,光流估计问题已经有非常多的相关研究,但在真实世界视频里的鲁棒光流估计仍然是个富有挑战性的问题。
光流估计根据所采用的方法的不同,大体可以分为两种:一种是基于Horn和Schunck提出的变分能量优化模型,一种是基于匹配的插值优化模型。基于变分能量优化模型的算法虽然能够在小位移光流估计中取得非常精确的结果,但这种方法通常会在有大位移运动物体的场景下失败。基于匹配的插值优化模型主要利用了在大位移运动中,两帧之间视觉关键点的匹配信息对光流估计结果的重要性。以一种相对稠密的匹配结果作为光流估计的初始值,可以很好的解决传统变分能量优化模型存在的问题。然而,基于匹配的插值优化模型主要问题在于计算稠密匹配需要相当大的代价,并且其匹配结果的精度也直接影响到最终光流估计的效果。针对这种问题,本发明提出一种新的适用于大位移光流估计的稠密匹配算法,可以高效地得到精确的匹配信息光流估计是计算机视觉的重要研究方向之一,近年来,光流估计越来越受到国内外学者的关注,是计算机视觉领域中的研究热点。
申请公布号为CN105809712A的专利,公开了一种高效大位移光流估计方法:从视频里获取两张连续图像,将两帧图像按时间顺序分别标记为I1和I2;以I1和I2为最底层分别构造图像金字塔和在图像金字塔的每层上生成相同数目的种子点,并将最顶层上的种子点的匹配初始化为随机值;将获得的种子点在由图像金字塔依次从顶层到底层逐层进行匹配,每层种子点的匹配结果作为下一层相应种子点的初始值;将最底层种子点的匹配结果利用对边缘敏感的插值算法进行插值,将插值结果作为光流估计的初始值,然后利用变分能量优化模型进行优化,最终得到大位移光流估计结果。但该方法计算量大,效率不高。
从上面来看,传统的光流估计模型使用的是变分框架,在能量泛函中定义数据项平滑项等约束,通过极小化能量泛函的方式求取光流。该方法不能利用先验知识,并且此种方法在求解过程中往往需要较多的迭代次数,计算时间较长,无法达到较高的计算速度。所以传统方法很难达到实际场景的应用需求。
发明内容
本发明的目的在于提供计算时间少,计算速度快,能够有效地利用先验知识的一种基于卷积神经网络的稠密光流估计方法。
本发明的目的是这样实现的:
一种基于卷积神经网络的稠密光流估计方法,包含如下步骤:
(1)提取运动图像信息:
构建全卷积网络架构:包括输入层,卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9;输入层,卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9顺次连接;卷积层1的卷积核长宽以及卷积核个数分别为7,7,64;卷积层2的卷积核长宽以及卷积核个数分别为3,3,128;卷积层3的卷积核长宽以及卷积核个数分别为3,3,256;卷积层4的卷积核长宽以及卷积核个数分别为3,3,256;卷积层5的卷积核长宽以及卷积核个数分别为3,3,512;卷积层6的卷积核长宽以及卷积核个数分别为3,3,512;卷积层7的卷积核长宽以及卷积核个数分别为3,3,512;卷积层8的卷积核长宽以及卷积核个数分别为3,3,512;卷积层9的卷积核长宽以及卷积核个数分别为3,3,1024;卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9的步长分别设置为2,2,2,1,1,2,1,1,2;卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9的激活函数都是RELU函数;然后在输入层输入两幅通道数都为C的图像,从卷积层8输出光流_6,光流_6为预测光流;
(2)生成光流:
构建稠密光流生成模型:定义密集体1,密集体2,密集体3,密集体4,密集体5,每个密集体包含L个团块,每个团块包括batch normalization,卷积核大小为3*3的卷积层,dropout层3个部分;batch normalization的激活函数为RELU函数;如图4,团块内部的连接方式:batch normalization,卷积核大小为3*3的卷积层,dropout层顺次连接;在密集体内部,团块L-1,团块L-2,团块L-3,到团块1共L-1个团块的输出与团块L相连接;定义反卷积层1,反卷积层2,反卷积层3,反卷积层4,反卷积层5,反卷积层6;反卷积层1的卷积核长宽以及卷积核个数分别为3,3,512;反卷积层2的卷积核长宽以及卷积核个数分别为3,3,256;反卷积层3的卷积核长宽以及卷积核个数分别为3,3,128;反卷积层4的卷积核长宽以及卷积核个数分别为3,3,64;反卷积层5的卷积核长宽以及卷积核个数分别为3,3,32;反卷积层6的卷积核长宽以及卷积核个数分别为3,3,16;卷积层9,反卷积层1,密集体1,反卷积层2,密集体2,反卷积层3,密集体3,反卷积层4,密集体4,反卷积层5,密集体5,反卷积层6顺次连接;
光流_6输入反卷积层1,卷积层9将处理后的信息输入反卷积层1,反卷积层2输出光流_5,反卷积层3输出光流_4,反卷积层4输出光流_3,反卷积层5输出光流_2,反卷积层6输出光流_1;光流_2,光流_3,光流_4,光流_5,光流_6为不同分辨率下的预测光流值;光流_1为最终预测的光流值,与两幅通道数都为C的图像同分辨率;
(3)模型训练:
最终损失函数:
Lfinal=λ1Lepe+λ2Lbrightness+λ3Lsmoothness;
上式中,λ1,λ2和λ3为3种约束的平衡因子;Lepe为端点误差损失函数,Lbrightness为亮度恒常损失函数,Lsmoothness为运动平滑损失函数。
端点误差损失函数Lepe:
上式中,W和H分别为两幅通道数都为C的图像的宽度和高度,ui,j和vi,j为预测的光流值,″ui,j和vi,j为对应的光流真值。
亮度恒常损失函数Lbrightness:
上式中,x为两幅通道数都为C的图像的横坐标,y为两幅通道数都为C的图像的纵坐标,u水平方向的光流,v是竖直方向的光流,N为像素点个数,Ix为x方向的导数,Iy为y方向的导数,It为时间方向的导数;ρD为鲁棒惩罚函数,ρD=(x2+ε2)α。
运动平滑损失函数Lsmoothness:
上式中,为光流水平方向的梯度值,为光流竖直方向的梯度值,ρS为鲁棒惩罚函数,ρS=(x2+ε2)α。
分别用最终损失函数作用于反卷积层1,反卷积层2,反卷积层3,反卷积层4,反卷积层5,反卷积层6进行训练;
(4)光流估计:
从全卷积网络架构的输入层输入图像对,输出最终预测的光流。
本发明的有益效果为:
本发明提出的一种基于卷积神经网络的稠密光流估计方法,能够有效地利用先验知识并通过训练得到可靠的网络模型,并且在先验知识的基础上,将传统框架中的约束项与神经网络相结合,模型能够实现从图像到稠密光流的映射。计算速度方面,由于模型可以预先训练,使得模型在运行阶段不需要繁杂的迭代计算,大大减少了计算时间。
附图说明
图1是一种基于卷积神经网络的稠密光流估计方法流程图;
图2是提取图像运动信息网络结构;
图3是稠密光流生成部分网络结构;
图4是密集体中的团块内部结构;
图5是密集体内部团块连接图。
具体实施方式
下面结合附图对本发明作进一步的描述。
如图1,一种基于卷积神经网络的稠密光流估计方法,包含如下步骤:
(1)提取运动图像信息:
构建全卷积网络架构,如图2,包括输入层,卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9。输入层,卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9顺次连接。卷积层1的卷积核长宽以及卷积核个数分别为7,7,64;卷积层2的卷积核长宽以及卷积核个数分别为3,3,128;卷积层3的卷积核长宽以及卷积核个数分别为3,3,256;卷积层4的卷积核长宽以及卷积核个数分别为3,3,256;卷积层5的卷积核长宽以及卷积核个数分别为3,3,512;卷积层6的卷积核长宽以及卷积核个数分别为3,3,512;卷积层7的卷积核长宽以及卷积核个数分别为3,3,512;卷积层8的卷积核长宽以及卷积核个数分别为3,3,512;卷积层9的卷积核长宽以及卷积核个数分别为3,3,1024;卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9的步长分别设置为2,2,2,1,1,2,1,1,2。卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9的激活函数都是RELU函数。然后在输入层输入两幅通道数都为C的图像,提取运动图像信息,卷积层8输出光流_6,光流_6为预测光流。
(2)生成光流
如图3,构建稠密光流生成模型:定义密集体1,密集体2,密集体3,密集体4,密集体5,每个密集体包含L个团块,每个团块包括batch normalization,卷积核大小为3*3的卷积层,dropout层3个部分。batch normalization的激活函数为RELU函数。如图4,团块内部的连接方式:batch normalization,卷积核大小为3*3的卷积层,dropout层顺次连接。在密集体内部,团块L-1,团块L-2,团块L-3,…,团块1的输出与团块L相连接,这样不仅增强了网络的监督特性,还能够将特征图复用。如图5,假如取L为5,那么团块间的连接方式如图5所示。定义反卷积层1,反卷积层2,反卷积层3,反卷积层4,反卷积层5,反卷积层6。反卷积层1的卷积核长宽以及卷积核个数分别为3,3,512;反卷积层2的卷积核长宽以及卷积核个数分别为3,3,256;反卷积层3的卷积核长宽以及卷积核个数分别为3,3,128;反卷积层4的卷积核长宽以及卷积核个数分别为3,3,64;反卷积层5的卷积核长宽以及卷积核个数分别为3,3,32;反卷积层6的卷积核长宽以及卷积核个数分别为3,3,16。卷积层9,反卷积层1,密集体1,反卷积层2,密集体2,反卷积层3,密集体3,反卷积层4,密集体4,反卷积层5,密集体5,反卷积层6顺次连接。光流_6输入反卷积层1,卷积层9将处理后的信息输入反卷积层1,反卷积层2输出光流_5,反卷积层3输出光流_4,反卷积层4输出光流_3,反卷积层5输出光流_2,反卷积层6输出光流_1。光流_2,光流_3,光流_4,光流_5,光流_6为不同分辨率下的预测光流值;光流_1为最终预测的光流值,与两幅通道数都为C的图像同分辨率。
(3)模型训练
定义端点误差损失函数Lepe:
上式中,W和H分别为两幅通道数都为C的图像的宽度和高度,ui,j和vi,j为预测的光流值,u′i,j和v′i,j为对应的光流真值。
反向传播误差过程中,令Lepe分别对u对v求导:
定义亮度恒常损失函数Lbrightness:
上式中,x为两幅通道数都为C的图像的横坐标,y为两幅通道数都为C的图像的纵坐标,u水平方向的光流,v是竖直方向的光流,N为像素点个数,Ix为x方向的导数,Iy为y方向的导数,It为时间方向的导数。ρD为鲁棒惩罚函数,ρD=(x2+ε2)α。
令亮度恒常损失函数Lbrightness分别对u对v求导
定义运动平滑损失函数Lsmoothness:
上式中,为光流水平方向的梯度值,为光流竖直方向的梯度值,ρS为鲁棒惩罚函数,ρS=(x2+ε2)α。
令运动平滑损失函数分别对u对v求导
定义最终损失函数:
Lfinal=λ1Lepe+λ2Lbrightness+λ3Lsmoothness;
上式中,λ1,λ2和λ3为3种约束的平衡因子。
分别用最终损失函数作用于反卷积层1,反卷积层2,反卷积层3,反卷积层4,反卷积层5,反卷积层6进行训练;
(4)光流估计
从全卷积网络架构的输入层输入图像对,输出最终预测的光流。
本发明提出的一种基于卷积神经网络的稠密光流估计方法,能够有效地利用先验知识并通过训练得到可靠的网络模型,并且在先验知识的基础上,将传统框架中的约束项与神经网络相结合,模型能够实现从图像到稠密光流的映射。计算速度方面,由于模型可以预先训练,使得模型在运行阶段不需要繁杂的迭代计算,大大减少了计算时间。
需要特别指出的是,本发明中未作具体说明的部分,均为本领域技术人员所公知,查阅相关文献就可以知晓,因此未作具体描述。
Claims (5)
1.一种基于卷积神经网络的稠密光流估计方法,其特征在于:包含如下步骤:
(1)提取运动图像信息:
构建全卷积网络架构:包括输入层,卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9;输入层,卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9顺次连接;卷积层1的卷积核长宽以及卷积核个数分别为7,7,64;卷积层2的卷积核长宽以及卷积核个数分别为3,3,128;卷积层3的卷积核长宽以及卷积核个数分别为3,3,256;卷积层4的卷积核长宽以及卷积核个数分别为3,3,256;卷积层5的卷积核长宽以及卷积核个数分别为3,3,512;卷积层6的卷积核长宽以及卷积核个数分别为3,3,512;卷积层7的卷积核长宽以及卷积核个数分别为3,3,512;卷积层8的卷积核长宽以及卷积核个数分别为3,3,512;卷积层9的卷积核长宽以及卷积核个数分别为3,3,1024;卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9的步长分别设置为2,2,2,1,1,2,1,1,2;卷积层1,卷积层2,卷积层3,卷积层4,卷积层5,卷积层6,卷积层7,卷积层8,卷积层9的激活函数都是RELU函数;然后在输入层输入两幅通道数都为C的图像,从卷积层8输出光流_6,光流_6为预测光流;
(2)生成光流:
构建稠密光流生成模型:定义密集体1,密集体2,密集体3,密集体4,密集体5,每个密集体包含L个团块,每个团块包括batch normalization,卷积核大小为3*3的卷积层,dropout层3个部分;batch normalization的激活函数为RELU函数;如图4,团块内部的连接方式:batch normalization,卷积核大小为3*3的卷积层,dropout层顺次连接;在密集体内部,团块L-1,团块L-2,团块L-3,到团块1共L-1个团块的输出与团块L相连接;定义反卷积层1,反卷积层2,反卷积层3,反卷积层4,反卷积层5,反卷积层6;反卷积层1的卷积核长宽以及卷积核个数分别为3,3,512;反卷积层2的卷积核长宽以及卷积核个数分别为3,3,256;反卷积层3的卷积核长宽以及卷积核个数分别为3,3,128;反卷积层4的卷积核长宽以及卷积核个数分别为3,3,64;反卷积层5的卷积核长宽以及卷积核个数分别为3,3,32;反卷积层6的卷积核长宽以及卷积核个数分别为3,3,16;卷积层9,反卷积层1,密集体1,反卷积层2,密集体2,反卷积层3,密集体3,反卷积层4,密集体4,反卷积层5,密集体5,反卷积层6顺次连接;
光流_6输入反卷积层1,卷积层9将处理后的信息输入反卷积层1,反卷积层2输出光流_5,反卷积层3输出光流_4,反卷积层4输出光流_3,反卷积层5输出光流_2,反卷积层6输出光流_1;光流_2,光流_3,光流_4,光流_5,光流_6为不同分辨率下的预测光流值;光流_1为最终预测的光流值,与两幅通道数都为C的图像同分辨率;
(3)模型训练:
分别用最终损失函数作用于反卷积层1,反卷积层2,反卷积层3,反卷积层4,反卷积层5,反卷积层6进行训练;
(4)光流估计:
从全卷积网络架构的输入层输入图像对,输出最终预测的光流。
2.根据权利要求1所述的一种基于卷积神经网络的稠密光流估计方法,其特征在于:所述的最终损失函数:
Lfinal=λ1Lepe+λ2Lbrightness+λ3Lsmoothness;
上式中,λ1,λ2和λ3为3种约束的平衡因子;Lepe为端点误差损失函数,Lbrightness为亮度恒常损失函数,Lsmoothness为运动平滑损失函数。
3.根据权利要求2所述的一种基于卷积神经网络的稠密光流估计方法,其特征在于:所述的端点误差损失函数Lepe:
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>e</mi>
<mi>p</mi>
<mi>e</mi>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>W</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>H</mi>
</munderover>
<msqrt>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<msubsup>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>v</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<msubsup>
<mi>v</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<mo>;</mo>
</mrow>
上式中,W和H分别为两幅通道数都为C的图像的宽度和高度,ui,j和vi,j为预测的光流值,u′i,j和v′i,j为对应的光流真值。
4.根据权利要求2所述的一种基于卷积神经网络的稠密光流估计方法,其特征在于:所述的亮度恒常损失函数Lbrightness:
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>b</mi>
<mi>r</mi>
<mi>i</mi>
<mi>g</mi>
<mi>h</mi>
<mi>t</mi>
<mi>n</mi>
<mi>e</mi>
<mi>s</mi>
<mi>s</mi>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>&rho;</mi>
<mi>D</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>I</mi>
<mi>x</mi>
</msub>
<mi>u</mi>
<mo>+</mo>
<msub>
<mi>I</mi>
<mi>y</mi>
</msub>
<mi>v</mi>
<mo>+</mo>
<msub>
<mi>I</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
上式中,x为两幅通道数都为C的图像的横坐标,y为两幅通道数都为C的图像的纵坐标,u水平方向的光流,v是竖直方向的光流,N为像素点个数,Ix为x方向的导数,Iy为y方向的导数,It为时间方向的导数;ρD为鲁棒惩罚函数,ρD=(x2+ε2)α。
5.根据权利要求2所述的一种基于卷积神经网络的稠密光流估计方法,其特征在于:所述的运动平滑损失函数Lsmoothness:
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>s</mi>
<mi>m</mi>
<mi>o</mi>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>n</mi>
<mi>e</mi>
<mi>s</mi>
<mi>s</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>&rho;</mi>
<mi>S</mi>
</msub>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>u</mi>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>x</mi>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>&rho;</mi>
<mi>S</mi>
</msub>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>v</mi>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>y</mi>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>&rho;</mi>
<mi>S</mi>
</msub>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>v</mi>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>x</mi>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>&rho;</mi>
<mi>S</mi>
</msub>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>v</mi>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>y</mi>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
上式中,为光流水平方向的梯度值,为光流竖直方向的梯度值,ρS为鲁棒惩罚函数,ρS=(x2+ε2)α。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711220774.5A CN107993255B (zh) | 2017-11-29 | 2017-11-29 | 一种基于卷积神经网络的稠密光流估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711220774.5A CN107993255B (zh) | 2017-11-29 | 2017-11-29 | 一种基于卷积神经网络的稠密光流估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107993255A true CN107993255A (zh) | 2018-05-04 |
CN107993255B CN107993255B (zh) | 2021-11-19 |
Family
ID=62033924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711220774.5A Active CN107993255B (zh) | 2017-11-29 | 2017-11-29 | 一种基于卷积神经网络的稠密光流估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107993255B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932725A (zh) * | 2018-06-08 | 2018-12-04 | 哈尔滨工程大学 | 基于卷积神经网络的场景流估计方法 |
CN109325430A (zh) * | 2018-09-11 | 2019-02-12 | 北京飞搜科技有限公司 | 实时行为识别方法及系统 |
CN109410253A (zh) * | 2018-11-06 | 2019-03-01 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN110751672A (zh) * | 2018-07-24 | 2020-02-04 | 深圳地平线机器人科技有限公司 | 利用稀释卷积实现多尺度光流像素变换的方法和装置 |
US20200134833A1 (en) * | 2018-10-26 | 2020-04-30 | Here Global B.V. | Deep neural network architecture for image segmentation |
CN111311646A (zh) * | 2018-12-12 | 2020-06-19 | 杭州海康威视数字技术股份有限公司 | 一种光流神经网络训练方法及装置 |
CN113837968A (zh) * | 2021-09-29 | 2021-12-24 | 北京地平线信息技术有限公司 | 人脸光流估计网络的训练以及人脸光流估计方法和装置 |
US11216704B2 (en) | 2018-10-23 | 2022-01-04 | John M. Couse; | Recognition system using multimodality dataset |
CN116433755A (zh) * | 2023-03-31 | 2023-07-14 | 哈尔滨工业大学 | 基于可变形三维模型和光流表示学习的结构稠密位移识别方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106667A (zh) * | 2013-02-01 | 2013-05-15 | 山东科技大学 | 一种面向遮挡和场景变换的运动对象追踪方法 |
CN103761737A (zh) * | 2014-01-22 | 2014-04-30 | 北京工业大学 | 基于稠密光流的机器人运动估计方法 |
CN105809712A (zh) * | 2016-03-02 | 2016-07-27 | 西安电子科技大学 | 一种高效大位移光流估计方法 |
CN106778854A (zh) * | 2016-12-07 | 2017-05-31 | 西安电子科技大学 | 基于轨迹和卷积神经网络特征提取的行为识别方法 |
CN106952292A (zh) * | 2017-03-14 | 2017-07-14 | 哈尔滨工程大学 | 基于6自由度场景流聚类的3d运动目标检测方法 |
US20170255832A1 (en) * | 2016-03-02 | 2017-09-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Detecting Actions in Videos |
EP3229206A1 (en) * | 2016-04-04 | 2017-10-11 | Xerox Corporation | Deep data association for online multi-class multi-object tracking |
US20170316578A1 (en) * | 2016-04-29 | 2017-11-02 | Ecole Polytechnique Federale De Lausanne (Epfl) | Method, System and Device for Direct Prediction of 3D Body Poses from Motion Compensated Sequence |
-
2017
- 2017-11-29 CN CN201711220774.5A patent/CN107993255B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106667A (zh) * | 2013-02-01 | 2013-05-15 | 山东科技大学 | 一种面向遮挡和场景变换的运动对象追踪方法 |
CN103761737A (zh) * | 2014-01-22 | 2014-04-30 | 北京工业大学 | 基于稠密光流的机器人运动估计方法 |
CN105809712A (zh) * | 2016-03-02 | 2016-07-27 | 西安电子科技大学 | 一种高效大位移光流估计方法 |
US20170255832A1 (en) * | 2016-03-02 | 2017-09-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Detecting Actions in Videos |
EP3229206A1 (en) * | 2016-04-04 | 2017-10-11 | Xerox Corporation | Deep data association for online multi-class multi-object tracking |
US20170316578A1 (en) * | 2016-04-29 | 2017-11-02 | Ecole Polytechnique Federale De Lausanne (Epfl) | Method, System and Device for Direct Prediction of 3D Body Poses from Motion Compensated Sequence |
CN106778854A (zh) * | 2016-12-07 | 2017-05-31 | 西安电子科技大学 | 基于轨迹和卷积神经网络特征提取的行为识别方法 |
CN106952292A (zh) * | 2017-03-14 | 2017-07-14 | 哈尔滨工程大学 | 基于6自由度场景流聚类的3d运动目标检测方法 |
Non-Patent Citations (2)
Title |
---|
XUEZHI XIANG: "Vehicle Detection and Tracking for Gas Station Surveillance Based on AdaBoosting and Optical Flow", 《2016 12TH WORLD CONGRESS ON INTELLIGENT CONTROL AND AUTOMATION》 * |
项学智: "一种彩色光流场估计算法", 《哈尔滨工程大学学报》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932725A (zh) * | 2018-06-08 | 2018-12-04 | 哈尔滨工程大学 | 基于卷积神经网络的场景流估计方法 |
CN108932725B (zh) * | 2018-06-08 | 2021-10-26 | 哈尔滨工程大学 | 基于卷积神经网络的场景流估计方法 |
CN110751672B (zh) * | 2018-07-24 | 2022-06-21 | 深圳地平线机器人科技有限公司 | 利用稀释卷积实现多尺度光流像素变换的方法和装置 |
CN110751672A (zh) * | 2018-07-24 | 2020-02-04 | 深圳地平线机器人科技有限公司 | 利用稀释卷积实现多尺度光流像素变换的方法和装置 |
CN109325430A (zh) * | 2018-09-11 | 2019-02-12 | 北京飞搜科技有限公司 | 实时行为识别方法及系统 |
CN109325430B (zh) * | 2018-09-11 | 2021-08-20 | 苏州飞搜科技有限公司 | 实时行为识别方法及系统 |
US11216704B2 (en) | 2018-10-23 | 2022-01-04 | John M. Couse; | Recognition system using multimodality dataset |
US20200134833A1 (en) * | 2018-10-26 | 2020-04-30 | Here Global B.V. | Deep neural network architecture for image segmentation |
US11600006B2 (en) * | 2018-10-26 | 2023-03-07 | Here Global B.V. | Deep neural network architecture for image segmentation |
CN109410253A (zh) * | 2018-11-06 | 2019-03-01 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN111311646B (zh) * | 2018-12-12 | 2023-04-07 | 杭州海康威视数字技术股份有限公司 | 一种光流神经网络训练方法及装置 |
CN111311646A (zh) * | 2018-12-12 | 2020-06-19 | 杭州海康威视数字技术股份有限公司 | 一种光流神经网络训练方法及装置 |
CN113837968A (zh) * | 2021-09-29 | 2021-12-24 | 北京地平线信息技术有限公司 | 人脸光流估计网络的训练以及人脸光流估计方法和装置 |
CN113837968B (zh) * | 2021-09-29 | 2024-01-23 | 北京地平线信息技术有限公司 | 人脸光流估计网络的训练以及人脸光流估计方法和装置 |
CN116433755A (zh) * | 2023-03-31 | 2023-07-14 | 哈尔滨工业大学 | 基于可变形三维模型和光流表示学习的结构稠密位移识别方法及系统 |
CN116433755B (zh) * | 2023-03-31 | 2023-11-14 | 哈尔滨工业大学 | 基于可变形三维模型和光流表示学习的结构稠密位移识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107993255B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107993255A (zh) | 一种基于卷积神经网络的稠密光流估计方法 | |
WO2020037965A1 (zh) | 一种用于视频预测的多运动流深度卷积网络模型方法 | |
Tong et al. | Image super-resolution using dense skip connections | |
CN107578436A (zh) | 一种基于全卷积神经网络fcn的单目图像深度估计方法 | |
CN109756690B (zh) | 基于特征级别光流的轻量级视频插值方法 | |
CN105809712B (zh) | 一种高效大位移光流估计方法 | |
CN110689008A (zh) | 一种面向单目图像的基于三维重建的三维物体检测方法 | |
CN106101535A (zh) | 一种基于局部及整体运动差异补偿的视频稳定方法 | |
CN109509211A (zh) | 同时定位与建图技术中的特征点提取与匹配方法及系统 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN112785502B (zh) | 一种基于纹理迁移的混合相机的光场图像超分辨率方法 | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN110363068A (zh) | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 | |
WO2024040973A1 (zh) | 一种基于堆叠沙漏网络的多尺度融合去雾方法 | |
CN109949217A (zh) | 基于残差学习和隐式运动补偿的视频超分辨率重建方法 | |
CN114049251A (zh) | 一种用于ai视频分析的模糊图像超分辨率重建方法及装置 | |
CN107067452A (zh) | 一种基于全卷积神经网络的电影2d转3d方法 | |
CN109658361A (zh) | 一种顾及运动估计误差的运动场景超分辨率重建方法 | |
CN113610912B (zh) | 三维场景重建中低分辨率图像单目深度估计系统及方法 | |
CN102355589A (zh) | 基于参数自优化多群粒子群优化的视频超分辨重建方法 | |
CN105205851B (zh) | 一种基于gpu超算的特种电影渲染方法及系统 | |
CN109087247A (zh) | 一种对立体图像进行超分的方法 | |
Fan et al. | Learning Bilateral Cost Volume for Rolling Shutter Temporal Super-Resolution | |
CN114743138A (zh) | 基于3D SE-Densenet网络的视频暴力行为识别模型 | |
Zhang et al. | Unsupervised learning of depth estimation based on attention model from monocular images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |