CN107292912A - 一种基于多尺度对应结构化学习的光流估计方法 - Google Patents

一种基于多尺度对应结构化学习的光流估计方法 Download PDF

Info

Publication number
CN107292912A
CN107292912A CN201710387001.XA CN201710387001A CN107292912A CN 107292912 A CN107292912 A CN 107292912A CN 201710387001 A CN201710387001 A CN 201710387001A CN 107292912 A CN107292912 A CN 107292912A
Authority
CN
China
Prior art keywords
mrow
msub
light stream
estimation
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710387001.XA
Other languages
English (en)
Other versions
CN107292912B (zh
Inventor
李玺
赵杉杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710387001.XA priority Critical patent/CN107292912B/zh
Publication of CN107292912A publication Critical patent/CN107292912A/zh
Application granted granted Critical
Publication of CN107292912B publication Critical patent/CN107292912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度对应结构化学习的光流估计方法,用于在给定连续视频帧的情况下,分析第一帧相对于第二帧的运动情况。具体包括如下步骤:获取用于训练光流估计的连续帧图像数据集,并定义算法目标;在不同尺度上对连续两帧图像之间的对应进行结构化建模;对不同尺度上的对应关系进行联合编码;建立光流估计的预测模型;使用所述预测模型估计连续视频帧的光流值。本发明适用于真实视频中的光流运动分析,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于多尺度对应结构化学习的光流估计方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于多尺度对应结构化学习的光流估计方法。
背景技术
光流估计作为一种底层视觉技术,常作为一些高层视觉任务的辅助信息,如视频异常事件检测、视频动作识别等,光流通过提供视频帧之间的运动信息将帧之间的关联关系考虑在内。光流估计的目标是给定连续两帧视频帧,预测第一帧中每个像素的运动位移。光流估计的关键因素包括像素或图像区域的鲁棒表示、像素之间对应关系的建模以及计算有效性。传统方法一般将光流估计任务看成一个稀疏或稠密像素匹配问题,尽管一些方法在预测精度上取得了突破,但是其在计算上比较耗时,同时往往因需要结合多种方法而缺乏灵活性。
由于统计建模的有效性,目前基于学习的方法逐渐被应用到光流估计任务中。现有的基于学习方法主要是采用端到端的深度学习框架,输入一对连续视频帧,输出预测的光流图。深度学习能够有效地解决特征表示的问题,而在对应关系建模上主要有两种策略:1、在单一尺度上固定搜索范围,计算像素之间的相似度;2、采用从粗到细的方法,动态更新搜索范围。然而,对于前者,往往很难确定一个合适的搜索范围,特别是对于大位移运动情况;对于后者,一旦在粗的尺度上预测错误,很有可能会使这种错误向后传播而使得预测结果错误。
发明内容
为解决上述问题,本发明的目的在于提供一种基于多尺度对应结构化学习的光流估计方法。该方法基于深度神经网络,利用深度视觉特征在不同尺度上建模像素之间的对应关系,并采用递归神经网络对不同尺度上的对应关系进行编码,能够更好地适应不同运动位移情况下的光流估计。
为实现上述目的,本发明的技术方案为:
基于多尺度对应结构化学习的光流估计方法,包括以下步骤:
S1、获取用于训练光流估计的连续帧图像数据集,并定义算法目标;
S2、在不同尺度上对连续两帧图像之间的对应进行结构化建模;
S3、对不同尺度上的对应关系进行联合编码;
S4、建立光流估计的预测模型;
S5、使用所述预测模型估计连续视频帧的光流图。
作为优选,步骤S1中,所述的用于训练光流模型的连续视频帧数据集,包括连续的视频帧对(XA,XB)train,人工标注的光流图Otrain
定义算法目标为:预测连续两帧视频图像中第一帧的光流图O。
进一步的,步骤S2中,在不同尺度上对连续两帧图像之间的对应进行结构化建模具体包括:
S21、对连续视频图像(XA,XB)train进行归一化后,随机进行包括放缩、旋转、平移、添加高斯噪声、对比度变换在内的操作,再从变换后的图像中裁剪出预设大小的图像块(IA,IB)train作为算法输入,根据图像的变换和运动规律对Otrain作相应的几何变换得到
S22、使用三层卷积操作对(IA,IB)train分别提取特征得到YA和YB,三层卷积操作中每一层加入ReLU激活函数,即:
YA=f(IA;θ1)
YB=f(IB;θ1)
其中θ1为卷积参数;f(;)表示卷积操作;
S23、对S22中得到的特征(YA,YB)进行多尺度表示:
{(YA,l,YB,l),l=1,2,3,4},其中:
YA,l=f(YA;θ2,l)
YB,l=f(YB;θ2,l)
其中{θ2,l}为卷积参数,且YA,l、YB,l的尺寸分别小于YA,l+1、YB,l+1的尺寸;YA,l、YB,l分别由YA、YB经过卷积操作或max-pooling加卷积操作而得;
S24、在每个尺度上分别计算两个特征图之间的对应关系,对于YA,l中(i,j)位置处的特征向量其与YB,l中以(i,j)为中心且大小为(2d+1)×(2d+1)的区域块S(i,j;d)内所有位置的相似度通过下式计算:
其中C{·}表示将集合内元素串接成一个向量,<·>表示内积运算;d为假定的最大位移的绝对值,k表示计算相似度时所用区域块的大小为(2k+1)×(2k+1),p和q分别为S(i,j;d)内每个位置的水平方向和垂直方向的坐标;
对YA,l每个空间位置上的特征向量均按照上式计算其与YB,l对应位置集合上的特征向量之间的相似度,即得到该尺度上的对应关系Ml
S25、使用两层卷积操作进一步处理Ml,得到Ql,两层卷积操作中每一层加入ReLU激活函数,即:
Ql=f(Ml;θ3,l)
其中θ3,l是卷积参数。
作为优选步骤S3中,对不同尺度上的对应关系进行联合编码具体包括:
S31、使用卷积GRU从Q1到Q4建模它们之间的依赖关系,即按照以下公式得到每一个尺度隐藏层的输出Hl
Zl=σ(Wz*Ql+Uz*Hl-1,↑)
Rl=σ(Wr*Ql+Ur*Hl-1,↑)
Hl,↑=W*Hl
其中*和⊙分别表示卷积和矩阵对应元素相乘操作,σ表示sigmoid函数,*表示反卷积操作;Wz、Uz、Rl、Wr、Ur、W、U以及Zl均为卷积核;tanh表示双曲正切函数;
S32、将每个尺度的隐藏层输出Hl上采样到和网络第二层卷积输出特征图同样的大小,得到Pl
Pl=f(Ql;θ4)
其中θ4:={Wz,Uz,Wr,Ur,W,U,W}为参数。
S33、将Pl和IA的第二层卷积输出拼接得到最终编码结果E:
作为优选步骤S4中,建立光流估计的预测模型具体包括:
S41、建立深度卷积神经网络,神经网络的输入为一对连续视频帧(XA,XB),输出为相对于XB,XA中每个像素的运动位移神经网络的结构表示为映射以公式表示为:
其中θ5为由E预测时所用的卷积参数;
S42、神经网络的损失函数为:
其中表示(x,y)位置处像素在垂直方向上的预测位移,表示(x,y)位置处像素在垂直方向上的真实位移,表示(x,y)位置处像素在水平方向上的预测位移,表示(x,y)位置处像素在水平方向上的真实位移。
使用Adam优化方法和反向传播算法在损失函数下训练整个神经网络。
作为优选步骤S4中,估计连续视频帧的光流图包括,将一对连续视频帧(XA,XB)直接输入到神经网络,输出即为预测的光流图。
本发明的基于多尺度对应结构化学习的光流估计方法,相比于现有的光流估计方法,具有以下有益效果:
首先,本发明的光流估计方法定义了光流估计中三个重要的问题,即像素或图像区域的鲁棒表示、像素之间对应关系的建模以及计算有效性。通过寻求这三个方向的解决方法,可以有效地解决复杂情况下的光流估计。
其次,本发明的光流估计方法基于深度卷积神经网络建立结构化对应模型以建模前两个关键问题,并具有计算有效性的优点。深度卷积神经网络能够更好地表达视觉特征,另外,视觉特征的提取和对应结构化模型的学习被统一在同一个框架里,提高了方法的最终效果。
最后,本发明的光流估计方法中提出将不同尺度上的对应关系看成一个序列,并通过利用递归神经网络建模不同尺度上对应之间的依赖关系而将其进行编码以预测光流。这种方法能够有效地将不同尺度上的对应关系融合,并保持原图中像素的空间拓扑结构。
本发明的基于多尺度对应结构化学习的光流估计方法,在视频分析和无人驾驶中,能够有效提高场景运动分析的准确度和效率,具有良好的应用价值。例如,在公共安全的应用场景里,本发明的光流估计方法能够快速和准确地预测场景中的运动规律,从而能够快速判断场景中有无异常事件发生,为公共场所的安防提供依据。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于多尺度对应结构化学习的光流估计方法,包括以下步骤:
首先,获取用于训练光流模型的连续视频帧数据集,包括连续的视频帧对(XA,XB)train,人工标注的光流图Otrain
定义算法目标为:预测连续两帧视频图像中第一帧的光流图O。
其次,在不同尺度上对连续两帧图像之间的对应进行结构化建模具体包括:
第一步,对连续视频图像(XA,XB)train进行归一化(除以255)后,随机进行放缩、旋转、平移、添加高斯噪声、对比度变换等操作,再从变换后的图像中裁剪出高320、宽448大小的图像块(IA,IB)train作为算法输入,根据对图像的变换和运动规律对Otrain作相应的几何变换(如放缩、旋转、平移、尺度变换等)得到
第二步,使用三层卷积操作(每一层加入ReLU激活函数)对(IA,IB)train分别提取特征得到YA和YB,即:
YA=f(IA;θ1)
YB=f(IB;θ1)
其中θ1为卷积参数;f(;)表示卷积操作;
第三步,对上一步中得到的特征(YA,YB)进行如下多尺度表示:
{(YA,l,YB,l),l=1,2,3,4},即:
YA,l=f(YA;θ2,l)
YB,l=f(YB;θ2,l)
其中{θ2,l}为卷积参数,且YA,l(YB,l)的尺寸小于YA,l+1(YB,l+1)的尺寸。YA,l(YB,l)由YA(YB)经过卷积操作或max-pooling加卷积操作而得。
第四步,在每个尺度上分别计算两个特征图之间的对应关系,对于YA,l中(i,j)位置处的特征向量其与YB,l中以(i,j)为中心、大小为(2d+1)×(2d+1)的区域块S(i,j;d)内所有位置的相似度可通过下式计算:
其中C{·}表示将集合内元素串接成一个向量,<·>表示内积运算;d为假定的最大位移的绝对值,k表示计算相似度时所用区域块的大小为(2k+1)×(2k+1),p和q分别为S(i,j;d)内每个位置的水平方向和垂直方向的坐标。对YA,l每个空间位置上的特征向量均按照上式计算其与YB,l对应位置集合上的特征向量之间的相似度即可得到该尺度上的对应关系Ml
第五步,使用两层卷积操作(每一层加入ReLU激活函数)进一步处理Ml,得到Ql,即:
Ql=f(Ml;θ3,l)
其中θ3,l是卷积参数。
接下来,对不同尺度上的对应关系进行联合编码具体包括:
第一步,使用卷积GRU从Q1到Q4建模它们之间的依赖关系,即按照以下公式得到每一个尺度隐藏层的输出Hl
Zl=σ(Wz*Ql+Uz*Hl-1,↑)
Rl=σ(Wr*Ql+Ur*Hl-1,↑)
Hl,↑=W*Hl
其中*和⊙分别表示卷积和矩阵对应元素相乘操作,σ表示sigmoid函数,*表示反卷积操作。Wz、Uz、Rl、Wr、Ur、W、U以及Zl均为卷积核;tanh表示双曲正切函数;
第二步,将每个尺度的隐藏层输出Hl上采样到和网络第二层卷积输出特征图同样的大小,得到Pl
Pl=f(Ql;θ4)
其中θ4:={Wz,Uz,Wr,Ur,W,U,W}为S31中的参数。
第三步,将Pl和IA的第二层卷积输出拼接得到最终编码结果E:
之后,建立光流估计的预测模型具体包括:
第一步,建立深度卷积神经网络,神经网络的输入为一对连续视频帧(XA,XB),输出为相对于XB,XA中每个像素的运动位移从而神经网络的结构可以表示为映射用公式可以表示为:
其中θ5为由E预测时所用的卷积参数。
第二步,神经网络的损失函数为:
其中表示(x,y)位置处像素在垂直方向上的预测位移,表示(x,y)位置处像素在垂直方向上的真实位移,表示(x,y)位置处像素在水平方向上的预测位移,表示(x,y)位置处像素在水平方向上的真实位移。
使用Adam优化方法和反向传播算法在损失函数下训练整个神经网络。
最后,使用建立的模型对输入的一对连续视频帧预测光流。具体包括,将一对连续视频帧(XA,XB)输入到神经网络(省去放缩、旋转、平移、添加高斯噪声、对比度变换、裁剪等操作),输出即为预测的光流图。
上述实施例中,本发明的光流估计方法首先分别在不同尺度上对像素之间的对应关系进行结构化建模并使用递归神经网络编码不同尺度上的对应关系。在此基础上,将原问题转化为端到端的结构化学习问题,并基于深度神经网络建立光流估计模型。最后,利用训练好的光流估计模型来预测新的一对连续视频帧的光流信息。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种基于多尺度对应结构化学习的光流估计方法。本发明可以在不同尺度上建模像素之间的对应关系并建模不同尺度上对应之间的依赖关系,从而估计准确的光流信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于多尺度对应结构化学习的光流估计方法,其特征在于,包括以下步骤:
S1、获取用于训练光流估计的连续帧图像数据集,并定义算法目标;
S2、在不同尺度上对连续两帧图像之间的对应进行结构化建模;
S3、对不同尺度上的对应关系进行联合编码;
S4、建立光流估计的预测模型;
S5、使用所述预测模型估计连续视频帧的光流图。
2.如权利要求1所述的基于多尺度对应结构化学习的光流估计方法,其特征在于,步骤S1中,所述的用于训练光流模型的连续视频帧数据集,包括连续的视频帧对(XA,XB)train,人工标注的光流图Otrain
定义算法目标为:预测连续两帧视频图像中第一帧的光流图O。
3.如权利要求2所述的基于多尺度对应结构化学习的光流估计方法,其特征在于,步骤S2中,在不同尺度上对连续两帧图像之间的对应进行结构化建模具体包括:
S21、对连续视频图像(XA,XB)train进行归一化后,随机进行包括放缩、旋转、平移、添加高斯噪声、对比度变换在内的操作,再从变换后的图像中裁剪出预设大小的图像块(IA,IB)train作为算法输入,根据图像的变换和运动规律对Otrain作几何变换得到
S22、使用三层卷积操作对(IA,IB)train分别提取特征得到YA和YB,三层卷积操作中每一层加入ReLU激活函数,即:
YA=f(IA;θ1)
YB=f(IB;θ1)
其中θ1为卷积参数;f(;)表示卷积操作;
S23、对S22中得到的特征(YA,YB)进行多尺度表示:
{(YA,l,YB,l),l=1,2,3,4},其中:
YA,l=f(YA;θ2,l)
YB,l=f(YB;θ2,l)
其中{θ2,l}为卷积参数,且YA,l、YB,l的尺寸分别小于YA,l+1、YB,l+1的尺寸;YA,l、YB,l分别由YA、YB经过卷积操作或max-pooling加卷积操作而得;
S24、在每个尺度上分别计算两个特征图之间的对应关系,对于YA,l中(i,j)位置处的特征向量其与YB,l中以(i,j)为中心且大小为(2d+1)×(2d+1)的区域块S(i,j;d)内所有位置的相似度通过下式计算:
<mrow> <mi>c</mi> <mrow> <mo>(</mo> <msubsup> <mi>Y</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mi>A</mi> <mo>,</mo> <mi>l</mi> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>Y</mi> <mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>;</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>B</mi> <mo>,</mo> <mi>l</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>C</mi> <mo>{</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>o</mi> <mi>y</mi> </msub> <mo>&amp;Element;</mo> <mo>&amp;lsqb;</mo> <mo>-</mo> <mi>k</mi> <mo>,</mo> <mi>k</mi> <mo>&amp;rsqb;</mo> </mrow> </munder> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>o</mi> <mi>y</mi> </msub> <mo>&amp;Element;</mo> <mo>&amp;lsqb;</mo> <mo>-</mo> <mi>k</mi> <mo>,</mo> <mi>k</mi> <mo>&amp;rsqb;</mo> </mrow> </munder> <mo>&lt;</mo> <msubsup> <mi>Y</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>o</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>o</mi> <mi>y</mi> </msub> </mrow> <mrow> <mi>A</mi> <mo>,</mo> <mi>l</mi> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>Y</mi> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>+</mo> <msub> <mi>o</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>o</mi> <mi>y</mi> </msub> </mrow> <mrow> <mi>B</mi> <mo>,</mo> <mi>l</mi> </mrow> </msubsup> <mo>&gt;</mo> <mo>,</mo> <mi>p</mi> <mo>,</mo> <mi>p</mi> <mo>&amp;Element;</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>;</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>}</mo> </mrow>
其中C{·}表示将集合内元素串接成一个向量,<·>表示内积运算;d为假定的最大位移的绝对值,k表示计算相似度时所用区域块的大小为(2k+1)×(2k+1),p和q分别为S(i,j;d)内每个位置的水平方向和垂直方向的坐标;
对YA,l每个空间位置上的特征向量均按照上式计算其与YB,l对应位置集合上的特征向量之间的相似度,即得到该尺度上的对应关系Ml
S25、使用两层卷积操作进一步处理Ml,得到Ql,两层卷积操作中每一层加入ReLU激活函数,即:
Ql=f(Ml;θ3,l)
其中θ3,l是卷积参数。
4.如权利要求3所述的基于多尺度对应结构化学习的光流估计方法,其特征在于,步骤S3中,对不同尺度上的对应关系进行联合编码具体包括:
S31、使用卷积GRU从Q1到Q4建模它们之间的依赖关系,即按照以下公式得到每一个尺度隐藏层的输出Hl
Zl=σ(Wz*Ql+Uz*Hl-1,↑)
Rl=σ(Wr*Ql+Ur*Hl-1,↑)
Hl,↑=W*Hl
其中*和⊙分别表示卷积和矩阵对应元素相乘操作,σ表示sigmoid函数,*表示反卷积操作;Wz、Uz、Rl、Wr、Ur、W、U以及Zl均为卷积核;tanh表示双曲正切函数;
S32、将每个尺度的隐藏层输出Hl上采样到和网络第二层卷积输出特征图同样大小,得到Pl
Pl=f(Ql;θ4)
其中θ4:={Wz,Uz,Wr,Ur,W,U,W}为参数;
S33、将Pl和IA的第二层卷积输出拼接得到最终编码结果E:
<mrow> <mi>E</mi> <mo>=</mo> <mi>C</mi> <mo>{</mo> <msup> <mover> <mi>Y</mi> <mo>~</mo> </mover> <mi>A</mi> </msup> <mo>,</mo> <msup> <mi>P</mi> <mi>l</mi> </msup> <mo>,</mo> <mi>l</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> <mo>,</mo> <mn>4</mn> <mo>}</mo> </mrow>
5.如权利要求4所述的基于多尺度对应结构化学习的光流估计方法,其特征在于,步骤S4中,建立光流估计的预测模型具体包括:
S41、建立深度卷积神经网络,神经网络的输入为一对连续视频帧(XA,XB),输出为相对于XB,XA中每个像素的运动位移神经网络的结构表示为映射以公式表示为:
<mrow> <mover> <mi>O</mi> <mo>^</mo> </mover> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>E</mi> <mo>;</mo> <msub> <mi>&amp;theta;</mi> <mn>5</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>X</mi> <mi>A</mi> </msup> <mo>,</mo> <msup> <mi>X</mi> <mi>B</mi> </msup> <mo>;</mo> <msub> <mi>&amp;theta;</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>&amp;theta;</mi> <mrow> <mn>2</mn> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&amp;theta;</mi> <mrow> <mn>3</mn> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&amp;theta;</mi> <mn>4</mn> </msub> <mo>,</mo> <msub> <mi>&amp;theta;</mi> <mn>5</mn> </msub> <mo>)</mo> </mrow> </mrow>
其中θ5为由E预测时所用的卷积参数;
S42、神经网络的损失函数为:
其中表示(x,y)位置处像素在垂直方向上的预测位移,表示(x,y)位置处像素在垂直方向上的真实位移,表示(x,y)位置处像素在水平方向上的预测位移,表示(x,y)位置处像素在水平方向上的真实位移;
使用Adam优化方法和反向传播算法在损失函数下训练整个神经网络。
6.如权利要求5所述的基于多尺度对应结构化学习的光流估计方法,其特征在于,步骤S4中,估计连续视频帧的光流图包括,将一对连续视频帧(XA,XB)直接输入到神经网络,输出即为预测的光流图。
CN201710387001.XA 2017-05-26 2017-05-26 一种基于多尺度对应结构化学习的光流估计方法 Active CN107292912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710387001.XA CN107292912B (zh) 2017-05-26 2017-05-26 一种基于多尺度对应结构化学习的光流估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710387001.XA CN107292912B (zh) 2017-05-26 2017-05-26 一种基于多尺度对应结构化学习的光流估计方法

Publications (2)

Publication Number Publication Date
CN107292912A true CN107292912A (zh) 2017-10-24
CN107292912B CN107292912B (zh) 2020-08-18

Family

ID=60095394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710387001.XA Active CN107292912B (zh) 2017-05-26 2017-05-26 一种基于多尺度对应结构化学习的光流估计方法

Country Status (1)

Country Link
CN (1) CN107292912B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010538A (zh) * 2017-12-22 2018-05-08 北京奇虎科技有限公司 音频数据处理方法及装置、计算设备
CN108235001A (zh) * 2018-01-29 2018-06-29 上海海洋大学 一种基于时空特征的深海视频质量客观评价模型
CN108241854A (zh) * 2018-01-02 2018-07-03 天津大学 一种基于运动和记忆信息的深度视频显著性检测方法
CN108769674A (zh) * 2018-06-27 2018-11-06 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法
CN108881952A (zh) * 2018-07-02 2018-11-23 上海商汤智能科技有限公司 视频生成方法及装置、电子设备和存储介质
CN108900446A (zh) * 2018-05-28 2018-11-27 南京信息工程大学 基于门控循环单元神经网络的坐标变换常模盲均衡方法
CN109068174A (zh) * 2018-09-12 2018-12-21 上海交通大学 基于循环卷积神经网络的视频帧率上变换方法及系统
CN109151474A (zh) * 2018-08-23 2019-01-04 复旦大学 一种生成新视频帧的方法
CN109344761A (zh) * 2018-09-26 2019-02-15 国信优易数据有限公司 一种视频状态确定方法和装置
CN109389035A (zh) * 2018-08-30 2019-02-26 南京理工大学 基于多特征和帧置信分数的低延迟视频动作检测方法
CN109410253A (zh) * 2018-11-06 2019-03-01 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109816611A (zh) * 2019-01-31 2019-05-28 北京市商汤科技开发有限公司 视频修复方法及装置、电子设备和存储介质
CN110111366A (zh) * 2019-05-06 2019-08-09 北京理工大学 一种基于多级损失量的端到端光流估计方法
CN110378936A (zh) * 2019-07-30 2019-10-25 北京字节跳动网络技术有限公司 光流计算方法、装置及电子设备
CN110751672A (zh) * 2018-07-24 2020-02-04 深圳地平线机器人科技有限公司 利用稀释卷积实现多尺度光流像素变换的方法和装置
CN111113404A (zh) * 2018-11-01 2020-05-08 阿里巴巴集团控股有限公司 一种机器人获得位置服务的方法及机器人
WO2021163928A1 (zh) * 2020-02-19 2021-08-26 华为技术有限公司 光流获取方法和装置
CN114677412A (zh) * 2022-03-18 2022-06-28 苏州大学 一种光流估计的方法、装置以及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758283A (zh) * 2005-11-03 2006-04-12 复旦大学 模拟多尺度交叠感受野的神经网络及其建立方法和应用
WO2010006001A2 (en) * 2008-07-08 2010-01-14 Harris Corporation Optical flow registration of panchromatic/multi-spectral image pairs
US20140241582A1 (en) * 2013-02-26 2014-08-28 Spinella Ip Holdings, Inc. Digital processing method and system for determination of object occlusion in an image sequence
CN105741316A (zh) * 2016-01-20 2016-07-06 西北工业大学 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758283A (zh) * 2005-11-03 2006-04-12 复旦大学 模拟多尺度交叠感受野的神经网络及其建立方法和应用
WO2010006001A2 (en) * 2008-07-08 2010-01-14 Harris Corporation Optical flow registration of panchromatic/multi-spectral image pairs
US20140241582A1 (en) * 2013-02-26 2014-08-28 Spinella Ip Holdings, Inc. Digital processing method and system for determination of object occlusion in an image sequence
CN105741316A (zh) * 2016-01-20 2016-07-06 西北工业大学 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEXEY DOSOVITSKIY等: "FlowNet: Learning Optical Flow with Convolutional Networks", 《IEEE》 *
黄赞等: "改进的基于光流的鲁棒多尺度运动估计算法", 《华南理工大学学报(自然科学版)》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010538A (zh) * 2017-12-22 2018-05-08 北京奇虎科技有限公司 音频数据处理方法及装置、计算设备
CN108010538B (zh) * 2017-12-22 2021-08-24 北京奇虎科技有限公司 音频数据处理方法及装置、计算设备
CN108241854A (zh) * 2018-01-02 2018-07-03 天津大学 一种基于运动和记忆信息的深度视频显著性检测方法
CN108241854B (zh) * 2018-01-02 2021-11-09 天津大学 一种基于运动和记忆信息的深度视频显著性检测方法
CN108235001A (zh) * 2018-01-29 2018-06-29 上海海洋大学 一种基于时空特征的深海视频质量客观评价模型
CN108900446A (zh) * 2018-05-28 2018-11-27 南京信息工程大学 基于门控循环单元神经网络的坐标变换常模盲均衡方法
CN108769674A (zh) * 2018-06-27 2018-11-06 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法
CN108881952A (zh) * 2018-07-02 2018-11-23 上海商汤智能科技有限公司 视频生成方法及装置、电子设备和存储介质
CN110751672B (zh) * 2018-07-24 2022-06-21 深圳地平线机器人科技有限公司 利用稀释卷积实现多尺度光流像素变换的方法和装置
CN110751672A (zh) * 2018-07-24 2020-02-04 深圳地平线机器人科技有限公司 利用稀释卷积实现多尺度光流像素变换的方法和装置
CN109151474B (zh) * 2018-08-23 2020-10-30 复旦大学 一种生成新视频帧的方法
CN109151474A (zh) * 2018-08-23 2019-01-04 复旦大学 一种生成新视频帧的方法
CN109389035A (zh) * 2018-08-30 2019-02-26 南京理工大学 基于多特征和帧置信分数的低延迟视频动作检测方法
CN109068174A (zh) * 2018-09-12 2018-12-21 上海交通大学 基于循环卷积神经网络的视频帧率上变换方法及系统
CN109068174B (zh) * 2018-09-12 2019-12-27 上海交通大学 基于循环卷积神经网络的视频帧率上变换方法及系统
CN109344761B (zh) * 2018-09-26 2021-03-19 国信优易数据股份有限公司 一种视频状态确定方法和装置
CN109344761A (zh) * 2018-09-26 2019-02-15 国信优易数据有限公司 一种视频状态确定方法和装置
CN111113404A (zh) * 2018-11-01 2020-05-08 阿里巴巴集团控股有限公司 一种机器人获得位置服务的方法及机器人
CN109410253A (zh) * 2018-11-06 2019-03-01 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109816611A (zh) * 2019-01-31 2019-05-28 北京市商汤科技开发有限公司 视频修复方法及装置、电子设备和存储介质
US11544820B2 (en) 2019-01-31 2023-01-03 Beijing Sensetime Technology Development Co., Ltd. Video repair method and apparatus, and storage medium
CN110111366A (zh) * 2019-05-06 2019-08-09 北京理工大学 一种基于多级损失量的端到端光流估计方法
CN110111366B (zh) * 2019-05-06 2021-04-30 北京理工大学 一种基于多级损失量的端到端光流估计方法
CN110378936A (zh) * 2019-07-30 2019-10-25 北京字节跳动网络技术有限公司 光流计算方法、装置及电子设备
CN110378936B (zh) * 2019-07-30 2021-11-05 北京字节跳动网络技术有限公司 光流计算方法、装置及电子设备
WO2021163928A1 (zh) * 2020-02-19 2021-08-26 华为技术有限公司 光流获取方法和装置
CN114677412A (zh) * 2022-03-18 2022-06-28 苏州大学 一种光流估计的方法、装置以及设备

Also Published As

Publication number Publication date
CN107292912B (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN107292912A (zh) 一种基于多尺度对应结构化学习的光流估计方法
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN105069413B (zh) 一种基于深度卷积神经网络的人体姿势识别方法
CN105741316B (zh) 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法
CN104182772B (zh) 一种基于深度学习的手势识别方法
CN100407798C (zh) 三维几何建模系统和方法
CN105608456B (zh) 一种基于全卷积网络的多方向文本检测方法
CN110728219B (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN109902798A (zh) 深度神经网络的训练方法和装置
CN110223324A (zh) 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
CN107369166A (zh) 一种基于多分辨率神经网络的目标跟踪方法及系统
CN107066935A (zh) 基于深度学习的手部姿态估计方法及装置
CN106981080A (zh) 基于红外图像和雷达数据的夜间无人车场景深度估计方法
CN103003846B (zh) 关节区域显示装置、关节区域检测装置、关节区域归属度计算装置、关节状区域归属度计算装置以及关节区域显示方法
CN107292247A (zh) 一种基于残差网络的人体行为识别方法及装置
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN105205453A (zh) 基于深度自编码器的人眼检测和定位方法
CN110197152A (zh) 一种用于自动驾驶系统的道路目标识别方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN107424161A (zh) 一种由粗至精的室内场景图像布局估计方法
CN110348383A (zh) 一种基于卷积神经网络回归的道路中心线和双线提取方法
CN107301376A (zh) 一种基于深度学习多层刺激的行人检测方法
CN113077554A (zh) 一种基于任意视角图片的三维结构化模型重建的方法
CN113706581A (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN111027586A (zh) 一种基于新型响应图融合的目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant