CN112686952A

CN112686952A - 一种图像光流计算系统、方法及应用

Info

Publication number: CN112686952A
Application number: CN202011436742.0A
Authority: CN
Inventors: 尚鹏; 杨德龙; 侯增涛; 王博; 付威廉
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-04-20

Abstract

本申请属于人工智能技术领域，特别是涉及一种图像光流计算系统、方法及应用。已有的基于深度学习的光流估计假设场景是静态的，无法处理动态目标的问题。本申请提供了一种图像光流计算系统，包括第一深度卷积神经网络单元、第二深度卷积神经网络单元和第三深度卷积神经网络单元；所述第一深度卷积神经网络单元，用于计算场景景深信息，得到场景对应的深度图像；所述第二深度卷积神经网络单元，用于计算相机空间位姿变换矩阵，得到相机位姿；所述第三深度卷积神经网络单元，用于计算动态目标对应的光流，将静态场景和动态目标区分处理。提高了光流估计方法的计算精度。

Description

一种图像光流计算系统、方法及应用

技术领域

本申请属于人工智能技术领域，特别是涉及一种图像光流计算系统、方法及应用。

背景技术

无人驾驶汽车面对的场景由静态场景和动态目标组成，通过景深信息和相机位姿可以计算静态场景信息，但是无法表征图像中动态目标相对于相机的运动情况。光流通过提取像素级匹配表征动态物体的运动情况，描述了三维场景在二维成像平面上对应像素的瞬时运动速度，在动态目标检测、辅助驾驶等领域具有重要的应用价值。

经典光流估计模型及其改进算法(Horn B,Schunck B.G.Determining opticalflow)经过了多年的发展，但依然面临诸多问题：(1)真实场景下，“光照不变性”和“光流平滑性”等条件无法满足，算法的改进可以减轻不利影响，但无法消除；(2)自然场景中，目标物体快速运动产生的大位移问题依然无法解决；(3)针对遮挡导致的阴影等尚无较好的解决方案。基于深度学习的光流估计算法通过CNN建立输入图像到光流图像的端到端模型，是一种数据驱动模型。该方法对应用场景没有进行前提假设，不受“亮度不变性”和“光流平滑性”等条件的制约。深度学习模型分为有监督学习算法和无监督学习算法。有监督学习模型的训练需要成本较高的类标签作为监督信号，应用范围受到限制。而无监督学习算法利用数据本身的几何关系设计监督信号，成为基于深度学习的光流计算方法的主流研究方向。

虽然FlowNet1.0(Dosovitskiy A,Fischery P,Ilg E,et al.FlowNet:Learningoptical flow with convolutional networks)、FlowNet2.0(Ilg E,Mayer N,Saikia T,et al.FlowNet 2.0:Evolution of optical flow estimation with deep networks)与LiteFlowNet(Hui T,Tang X,Loy C.LiteFlowNet: A Lightweight ConvolutionalNeural Network for Optical Flow Estimation)等模型已经将CNN 成功应用于图像的光流估计，但以上算法均假设相机的运动场景仅存在刚性运动，即假设图像是静态的。然而，无人驾驶场景多由静态场景和动态目标组成，统一计算不可避免的会产生计算误差。

发明内容

1.要解决的技术问题

目前基于变分法的光流估计方法必须满足“亮度守恒”和“光流平滑”等条件，使用范围受限。已有的基于深度学习的光流估计假设场景是静态的，无法处理动态目标的问题，本申请提供了一种图像光流计算系统、方法及应用。

2.技术方案

为了达到上述的目的，本申请提供了一种图像光流计算系统，包括第一深度卷积神经网络单元、第二深度卷积神经网络单元和第三深度卷积神经网络单元；

所述第一深度卷积神经网络单元，用于计算场景景深信息，得到场景对应的深度图像；

所述第二深度卷积神经网络单元，用于计算相机空间位姿变换矩阵，得到相机位姿；

所述第三深度卷积神经网络单元，用于计算动态目标对应的光流，将静态场景和动态目标区分处理。

本申请提供的另一种实施方式为：所述第一深度卷积神经网络单元包括第一损失函数项；所述第二深度卷积神经网络单元包括第二损失函数项；所述第三深度卷积神经网络单元包括第三损失函数项。

本申请提供的另一种实施方式为：所述第三深度卷积神经网络单元为“编码-解码”结构。

本申请提供的另一种实施方式为：所述第三深度卷积神经网络单元包括卷积层、池化层和激活层。

本申请还提供一种图像光流计算方法，所述方法包括如下步骤：步骤1：构造所述第一深度卷积神经网络单元、所述第二深度卷积神经网络单元和所述第三深度卷积神经网络单元；步骤2：将图像序列输入所述第一深度卷积神经网络单元得到输出视差图像，将所述图像系列输入所述第二深度卷积神经网络单元得到相机空间位姿矩阵；步骤3：根据所述视差图像和所述相机空间位姿矩阵获取静态场景对应的光流图像；步骤4：以原始输入图像、所述视差图像和所述相机位姿输入所述第三深度卷积神经网络单元，得到用于动态目标定位的场景光流图像；步骤5：以所述静态场景对应的光流图像和所述动态目标定位的场景光流图像之和作为场景对应的完整光流图像；步骤6：通过所述完整光流图像结合所述原始参考图像重建原始目标图像及其对应的光流图像，得到重建目标图像和重建光流图像，以所述重建目标图像与所述原始目标图像之间的差异和所述重建光流图像和原始光流图像之间的差异作为监督信号，取代标签集。

本申请提供的另一种实施方式为：所述相机空间位姿矩阵、所述视差图像和训练样本作为输入数据，所述静态场景对应的光流图像和所述动态目标定位的场景光流图像作为输出数据，将所述输入数据和所述输出数据用于图像的重建，根据所述重建图像与所述原始图像之间的差异构造目标函数。

本申请提供的另一种实施方式为：对所述目标函数进行训练为采用梯度下降法对目标函数进行迭代计算，得到固定的网络参数。

本申请提供的另一种实施方式为：所述目标函数包括目标图像的重建损失函数、基于光流的图像重建一致性损失函数和光流边缘损失函数。

本申请提供的另一种实施方式为：所述图像为双目图像序列。

本申请还提供一种图像光流计算方法的应用，将所述的图像光流计算方法应用于室外无人驾驶汽车或无人自主导航机器人中。

3.有益效果

与现有技术相比，本申请提供的一种图像光流计算系统、方法及应用的有益效果在于：

本申请提供的图像光流计算系统，为基于无监督深度学习的单目图像光流计算系统。

本申请提供的图像光流计算系统，提出了一种基于无监督深度学习的单目图像光流计算系统，将静态场景和动态目标区别处理，用以提高图像光流计算精度。

本申请提供的图像光流计算方法，对静态场景和动态目标区别研究，首先通过景深信息和视觉里程计获得静态场景信息，然后在此基础上完成光流估计，提高了光流估计方法的计算精度。

本申请提供的图像光流计算方法，提出一种“两步计算方法”，首先通过景深估计结果和相机空间位姿估计结果计算静态场景对应的光流，再设计光流估计网络计算动态目标对应的光流，区别处理静态场景和动态目标对应的光流。

附图说明

图1是本申请的图像光流计算方法原理示意图；

图2是本申请的第三深度卷积神经网络单元原理示意图；

图3是本申请的目标函数构造原理图示意图；

图4是本申请的光流一致性损失函数效果对比结果示意图；

图5是本申请的光流估计模型输出图像示意图。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

光流(optical flow)是空间运动物体在观察成像平面上的像素运动的瞬时速度。

光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

基于变分法的光流估计方法应用场景受到极大限制，基于深度学习的光流估计方法或在模型训练过程中需要人工标注信息，或仅能处理静态场景。三维场景在二维图像上的投影由相机和目标物体之间的相对运动关系决定。对于建筑物、树木等静态场景，其在不同图像上的投影变化由相机的运动决定；对于车辆、行人动动态目标，其在不同图像上的投影变化由相机和目标物体之间的相对运动决定。目前，大多数光流估计算法统一地对待图像中的所有区域，对静态场景和动态目标不加区分。这虽然降低了算法的复杂程度，但是对整个算法的估计精度产生了不利影响。

参见图1～5，本申请提供一种图像光流计算系统，包括第一深度卷积神经网络单元、第二深度卷积神经网络单元和第三深度卷积神经网络单元；

静态场景的运动完全由相机的运动引起，可以由场景景深和相机空间位姿计算获取；而动态目标的运动则由相机与目标物体之间的相对运动引起，运动关系更加复杂，无法直接计算。本申请系统采用基于无监督深度学习的“两步计算法”，首先设计用于计算场景景深信息的深度卷积神经网络DepthNet和用于计算相机空间位姿变换矩阵的深度卷积神经网络 MotionNet，由场景对应的深度图像和相机位姿计算静态场景运动信息。其次，设计一种基于“编码-解码”结构的深度卷积神经网络FlowNet，用于计算动态目标对应的光流，将静态场景和动态目标区分处理。

进一步地，所述第一深度卷积神经网络单元包括第一损失函数项；所述第二深度卷积神经网络单元包括第二损失函数项；所述第三深度卷积神经网络单元包括第三损失函数项。根据所述第一损失函数项、所述第二损失函数项和所述第三损失函数项构造目标函数。

进一步地，所述第三深度卷积神经网络单元为“编码-解码”结构。

进一步地，所述第三深度卷积神经网络单元包括卷积层、池化层和激活层。

本申请方法分为训练和测试过程。完成上述深度卷积神经网络的设计及相应目标函数的构造之后，使用梯度下降法对目标函数进行迭代计算以计算网络参数，即训练过程。在测试过程中，固定网络参数，直接使用FlowNet计算动态目标对应的光流。其算法整体流程图如图1所示。

进一步地，所述相机空间位姿矩阵、所述视差图像和训练样本作为输入数据，所述静态场景对应的光流图像和所述动态目标定位的场景光流图像作为输出数据，将所述输入数据和所述输出数据用于图像的重建，根据所述重建图像与所述原始图像之间的差异构造目标函数。这里的目标函数与根据所述第一损失函数项、所述第二损失函数项和所述第三损失函数项构造的目标函数相同。

进一步地，对所述目标函数进行训练为采用梯度下降法对目标函数进行迭代计算，得到固定的网络参数。

进一步地，所述目标函数包括目标图像的重建损失函数、基于光流的图像重建一致性损失函数和光流边缘损失函数。

进一步地，所述图像为双目图像。

实施例

如图1所示的基于无监督深度学习的单目图像光流计算方法流程图，该计算方法在训练过程中以双目图像序列为输入，DepthNet和MotionNet分别输出视差图像D和相机位姿矩阵T，通过数学计算获取静态场景对应的光流图像F^rigid；然后以原始输入图像、视差图像D和相机位姿变换T为FlowNet的输入，输出用于动态目标定位的场景光流图像F^res(

表示图像的堆叠)；最后以F^rigid与F^res之和作为场景对应的完整光流图像(

表示图像的加法)，结合原始输入图像重建输入和光流图像，以图像之间的差异作为监督信号，取代标签集。

本申请方法提出的光流计算方法在训练过程中以DepthNet和MotionNet的输出作为输入数据的一部分，输出光流图像。其中DepthNet和MotionNet的网络结构与文献“DelongYang， X.Y.Zhong,and et al,Unsupervised framework for depth estimationand camera motion prediction from video,Neurocomputing.”所提出的景深估计网络和相机位姿估计网络完全一致。本申请方法中所提出的FlowNet是一个“编码-解码”模型，其网络结构与DepthNet网络结构相一致，计算原理如图2所示。

如图2所示，FlowNet以训练样本、MotionNet输出的相机空间位姿矩阵和DepthNet输出的视差图像作为输入数据，以光流图像为输出。在目标函数的构造过程中，首先由上述输入数据和输出的光流图像完成指定图像的重建，再根据重建图像与原始图像之间的差异构造目标函数。整个过程没有基于任何外界条件的假设，没有复杂的数学计算过程。在训练过程中，模型使用梯度下降法进行迭代计算，以完成FlowNet网络参数的求解，属于一种数据驱动的模型，因此目标函数的设计直接决定了本申请方法的计算精度。

本申请方法基于训练样本中目标图像和参考图像之间的几何关系构造目标函数，其构造原理如图3所示，FlowNet的输入数据由双目图像序列、DepthNet输出的深度图像和MotionNet 输出的相机空间位姿变换矩阵组成。视差图像和相机空间位姿变换矩阵用于计算静态场景对应的光流图像，FlowNet仅用于计算动态目标等非刚性变换区域对应的光流图像，图像的重建过程基于静态场景和非刚性变换区域对应的光流图像之和。

目标函数的构造过程充分利用了由景深信息和相机空间位姿变换矩阵所得的静态场景信息，此时FlowNet的训练是一个“两步计算”过程，需要用到DepthNet和MotionNet的输出结果。目标函数在计算过程中分别考虑左、右图像序列，因此仅以左图像序列为例，对目标函数的构造原理进行说明。

(1)目标图像的重建损失函数

对于左图像序列

令第二幅图像

为目标图像

第一、三幅图像为参考图像。在FlowNet训练过程中，DepthNet和MotionNet已经在第一阶段完成训练，其网络参数固定不变，因此DepthNet输出

对应的深度图像

MotionNet输出从目标图像到参考图像的相机空间位姿变换矩阵

则静态场景下目标图像到参考图像的光流图像

为：

其中，n对应第一、三幅图像；K表示相机的参数矩阵，为已知量；p_t表示图像中的像素坐标。

在场景深度图像和相机空间位姿变换矩阵非常准确的情况下，由式(1)获得的光流图像也是准确的。但是相机空间位姿变换矩阵描述的是图像序列对应的相机运动关系，把动态目标和静态场景当作一个统一量对待必然会产生一定误差。针对动态目标的定位问题，目标函数使用FlowNet估计由动态目标等非刚性运动引起的光流变化。令FlowNet输出的非刚性运动对应的光流图像为

则场景对应的完整光流图像为：

由于第二阶段的训练仅针对FlowNet，DepthNet和MotionNet的输出结果保持不变，则

的数值是固定不变。因此网络训练的目的是不断优化FlowNet的网络参数，使之输出的

不断接近真实值。

图像重建由参考图像

和目标图像到参考图像的完整光流图像

重建目标图像。目标图像的重建公式为：

图像重建损失函数的构造过程为：

同理可得右图像序列对应的图像重建损失函数

则双目图像序列的重建误差损失函数为：

(2)基于光流的图像重建一致性损失函数

FlowNet由一系列卷积层、池化层、激活层组成，在逐层提取特征图像的过程中不可避免的存在信息损失，因此生成的光流图像存在一定误差。为了提高算法的精确性，本申请方法以参考图像对应的光流图像和目标图像对应的光流图像为输入重建光流图像，提出了针对光流图像重建的损失函数。

令I^src表示参考图像，I^tgt表示目标图像，将I^src和I^tgt同时输入FlowNet，光流网络输出与之对应的光流图像

以光流图像对

和

为输入，建立光流图像到光流图像的重建关系，即通过参考图像对应的光流图像重建目标图像重建的光流图像。基于光流的图像重建公式如下：

已知参考图像到目标图像的光流图像和目标图像到参考图像的光流图像，则可以重建目标图像对应的光流图像。对于左图像序列

已知第一幅图像

(参考图像)对应的光流图像为

第二幅图像

(目标图像)到

的光流图像为

则可以重建目标图像对应的光流图像

对于第三幅图像

由FlowNet得

到

的光流图像

同理可以重建目标图像对应的光流图像

完成光流图像的重建工作之后，本申请方法选择L₁范数计算重建的光流图像与FlowNet输出的原始光流图像的相似度，计算公式如下：

对于右图像序列，同理可得

故最终的光流重建一致性损失函数为：

(3)光流边缘损失函数

光流图像多用于场景中动态目标物体的定位以及非刚性运动的检测，因此目标物体边缘处的光流信息具有一定的特殊性。自然场景中的深度不连续性多出现在不同物体边缘处。视差图像相似，光流图像在物体边缘处容易出现光流突变，故本申请方法提出以光流图像的梯度突变区域构造损失函数。左图像序列的光流边缘损失函数项为：

其中，

为左图像序列的损失函数，

为FlowNet输出的光流图像。对于长度为3的左图像序列，针对FlowNet输出的光流图像求梯度，检测边缘明显区域，同时使用原始输入图像约束梯度项，这一过程不区分目标图像和光流图像。

同理可得右图像序列对应的光流边缘损失函数项为

则模型对应的光流边缘损失函数项为：

(4)目标函数

最终的目标函数为：

其中，μ₁，μ₂和μ₃分别为权重值；s是图像的尺度。

目标函数在上述过程中首先通过深度图像和相机空间位姿矩阵计算静态场景对应的光流图像，再通过FlowNet生成非刚性区域对应的光流图像，是一个“两步计算方法”，在有效利用其他网络计算结果与的同时,其光流估计结果又依赖于已经完成训练的DepthNet和 MotionNet。

在模型训练过程中，针对双目图像序列提出一种光流一致性损失函数，有效提高了光流估计方法的计算精度。

本申请针对室外无人驾驶汽车或无人自主导航机器人中的光流计算问题，提出一种基于无监督深度学习的光流计算方法。该方法是一个“两步计算方法”，包括用于估计单目相机与场景之间相对距离的深度卷积神经网络单元DepthNet，用于估计单目相机空间位置与姿态的深度卷积神经网络单元MotionNet，用于计算场景光流的深度卷积神经网络单元FlowNet，用于计算静态场景光流的目标函数，用于计算动态目标光流的目标函数等内容。

本申请提出一种基于无监督深度学习的单目图像光流计算方法，在模型的训练过程中仅使用图像作为训练样本，并建立一个“两步计算方法”将场景分为静态场景和动态目标两种类型分别处理，即不需要人工标记信息，又可以有针对性的计算动态目标，提高了算法精度。

如图4所示，图4(a)是输入图像，随机选自KITTIFlow2015数据集；图4(b)是场景真实光流数据(GT)，由激光扫描仪采集的点云在二维平面上投影生成；图4(c)表示包含光溜一致性损失函数项的目标函数所输出的光流图像；图4(d)是以不包含光溜一致性损失函数项的目标函数所输出的光流图像。在图4(a)所示的输入图像中，动态目标主要是行驶中的汽车。loss_1 和loss_2对应的模型输出结果均可初步显示汽车轮廓，同时loss_1对应的模型输出的光流图像对车辆的显示效果优于loss_2对应模型的输出结果，如图4中红色实线方框中的图像所示。对比实验结果图像可知光流一致性损失函数的使用提高了光流估计模型的性能。

图5(a)是输入图像，随机选自KITTIFlow2015数据集；图5(b)是场景真实光流数据(GT)，由激光扫描仪采集的点云在二维平面上投影生成；图5(c)是作为对比模型的GeoNet模型输出的光流图像；图5(d)是本方明方法提出的光流估计模型输出的光流图像。

本申请方法选择Flownet1.0，Flownet2.0和GeoNet模型作为基准对比实验(baseline)，使用平均终点误差(APE)作为评价指标，对比实验结果如表1所示：

表1 APE的对比结果

模型名称	训练数据集	Noc	All
				Flownet1.0	C+S	8.12	14.19
Flownet2.0	C+T	4.93	10.06
				GeoNet	K	8.05	10.81
本申请方法	K	6.45	9.87

其中，K表示KITTIFlow2015数据集，C表示FlyingChairs数据集，S表示MPISintel数据集； Noc表示训练数据为不存在遮挡的图像；All表示训练数据存在遮挡情况。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

Claims

1.一种图像光流计算系统，其特征在于：包括第一深度卷积神经网络单元、第二深度卷积神经网络单元和第三深度卷积神经网络单元；

2.如权利要求1所述的图像光流计算系统，其特征在于：所述第一深度卷积神经网络单元包括第一损失函数项；所述第二深度卷积神经网络单元包括第二损失函数项；所述第三深度卷积神经网络单元包括第三损失函数项。

3.如权利要求1或者2所述的图像光流计算系统，其特征在于：所述第三深度卷积神经网络单元为“编码-解码”结构。

4.如权利要求3所述的图像光流计算方法，其特征在于：所述第三深度卷积神经网络单元包括卷积层、池化层和激活层。

5.一种图像光流计算方法，其特征在于：所述方法包括如下步骤：

步骤1：构造所述第一深度卷积神经网络单元、所述第二深度卷积神经网络单元和所述第三深度卷积神经网络单元；

步骤2：将图像序列输入所述第一深度卷积神经网络单元得到输出视差图像，将所述图像系列输入所述第二深度卷积神经网络单元得到相机空间位姿变换矩阵；

步骤3：根据所述视差图像和所述相机空间位姿变换矩阵获取静态场景对应的光流图像；

步骤4：以原始输入图像、所述视差图像和所述相机位姿输入所述第三深度卷积神经网络单元，得到用于动态目标定位的场景光流图像；

步骤5：以所述静态场景对应的光流图像和所述动态目标定位的场景光流图像之和作为场景对应的完整光流图像；

步骤6：通过所述完整光流图像结合所述原始参考图像重建原始目标图像及其对应的光流图像，得到重建目标图像和重建光流图像，以所述重建目标图像与所述原始目标图像之间的差异和所述重建光流图像和原始光流图像之间的差异作为监督信号，取代标签集。

6.如权利要求5所述的图像光流计算方法，其特征在于：所述相机空间位姿矩阵、所述视差图像和训练样本作为输入数据，所述静态场景对应的光流图像和所述动态目标定位的场景光流图像作为输出数据，将所述输入数据和所述输出数据用于图像的重建，根据所述重建图像与所述原始图像之间的差异构造目标函数。

7.如权利要求6所述的图像光流计算方法，其特征在于：对所述目标函数进行训练为采用梯度下降法对目标函数进行迭代计算，得到参数固定的第三深度卷积神经网络单元。

8.如权利要求6所述的图像光流计算方法，其特征在于：所述目标函数包括目标图像的重建损失函数、基于光流的图像重建一致性损失函数和光流边缘损失函数。

9.如权利要求5～8中任一项所述的图像光流计算方法，其特征在于：所述图像为双目图像。

10.一种图像光流计算方法的应用，其特征在于：将权利要求5～9中任一项所述的图像光流计算方法应用于室外无人驾驶汽车或无人自主导航机器人中。