CN113160278A

CN113160278A - 一种场景流估计、场景流估计模型的训练方法和装置

Info

Publication number: CN113160278A
Application number: CN202110439951.9A
Authority: CN
Inventors: 石光明; 焦阳; 特雷克·陈; 谢雪梅
Original assignee: Guangzhou Institute of Technology of Xidian University
Current assignee: Guangzhou Institute of Technology of Xidian University
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-23

Abstract

本发明公开了一种场景流估计、场景流估计模型的训练方法和装置，所述场景流估计方法包括：获取待测场景中的每一帧场景图像，根据预先构建并训练完成的光流估计子模型和深度估计子模型，分别估计场景的光流场和深度图，计算场景的刚性流场；将所述光流场和刚性流场作为所述刚性像素推断子模型的输入，计算刚性像素掩码模板，将所述光流场和所述刚性流场基于所述刚性像素掩码模板进行融合，得到融合后的光流场，以得到所述待测场景的场景流信息。采用本发明实施例的技术手段，能够同时完成对场景中的刚性像素分割和场景流估计，提高了对刚性物体和非刚性物体的识别准确率，有效提高了基于无监督训练的场景流估计的准确性。

Description

一种场景流估计、场景流估计模型的训练方法和装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种场景流估计、场景流估计模型的训练方法和装置。

背景技术

场景流(Scene Flow)描述了真实场景中运动物体的三维轨迹。场景流一般由光流(Optical Flow)和深度(Depth)两部分组成。其中，光流刻画了运动物体在相机成像平面(X-Y轴)的二维运动，而深度变化描述了运动物体在垂直于相机平面(Z轴)的一维运动。场景流技术为众多的实际任务提供了重要的几何与运动信息，如自动驾驶，机器人导航等，近年来获得了广泛关注。

在场景流估计技术中，目前大都基于神经网络进行设计。在神经网络的训练过程中，基于监督学习的方需要大量逐像素标注的光流标签与深度标签，这极大地增加了开发过程中的人工标注难度与训练成本。因此，越来越多的场景流估计技术采取了以优化光度损失(photometric loss)为目标的无监督训练方法。在现有的无监督的方法中，为了降低光度损失计算过程中相邻帧之间像素投影的混淆性，刚性假设约束(Rigid AssumptionConstraint)作为被广泛的应用在场景流估计模型中。利用刚性假设约束，识别场景中的刚性物体，以降低对刚性区域的估计误差。

现有技术中对场景中的刚体物体进行识别的方法有：利用K-means算法计算局部刚性物体，采用预训练的语义分割网络进行像素级分类，或利用简单的运动差对场景中刚性物体进行计算等。然而，发明人发现现有技术至少存在如下问题：在现有技术框架中，刚性像素识别通常被设计为一项独立于场景流估计的独立子任务，这些方法虽然在一定程度上可以对场景中刚性-非刚性物体进行大致区分，但由于没有考虑到刚性运动与场景流估计任务之间存在的内在几何关系，导致刚性物体识别准确性较差，鲁棒性欠佳，最终降低了场景流估计的准确率。

发明内容

本发明实施例的目的是提供一种场景流估计、场景流估计模型的训练方法和装置，能够同时完成对场景中的刚性像素分割和场景流估计，提高了对刚性物体和非刚性物体的识别准确率，有效提高了基于无监督训练的场景流估计的准确性。

为实现上述目的，本发明实施例提供了一种场景流估计模型的训练方法，包括：

获取训练数据集；所述训练数据集由连续变化场景中的每一帧场景图像构成；

构建场景流估计模型；其中，所述场景流估计模型包括光流估计子模型、深度估计子模型和刚性像素推断子模型；

根据所述训练数据集、所述光流估计子模型和所述深度估计子模型，得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图，以计算所述连续变化场景中当前帧到下一帧的刚性流场；

将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入，计算当前帧场景图像的刚性区域；

根据所述光流场、所述深度图和所述刚性区域，计算优化损失函数；并以所优化损失函数最小化为目标，更新所述场景流估计模型的参数，以得到训练完成的场景流估计模型。

作为上述方案的改进，所述训练数据集中包括若干连续时间图像对和若干立体视觉图像对；所述连续时间图像对由所述连续变化场景中的当前帧左目场景图像和下一帧左目场景图像组成；所述立体视觉图像对由所述连续变化场景中的当前帧左目场景图像和当前帧右目场景图像组成；

则，所述根据所述训练数据集、所述光流估计子模型和所述深度估计子模型，得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图，以计算所述连续变化场景中当前帧到下一帧的刚性流场，具体包括：

将所述连续时间图像对作为所述光流估计子模型的输入，计算所述连续变化场景中当前帧到下一帧的光流场；

将所述立体视觉图像对作为所述深度估计子模型的输入，计算所述连续变化场景中当前帧的深度图；

根据所述光流场和所述深度图，计算所述连续变化场景中当前帧到下一帧的刚性流场。

作为上述方案的改进，所述根据所述光流场和所述深度图，计算所述连续变化场景中当前帧到下一帧的刚性流场，具体包括：

根据所述光流场和所述深度图，通过以下计算公式，求解相机姿态矩阵P：

根据所述深度图和所述相机姿态矩阵，通过以下计算公式，计算所述连续变化场景中当前帧到下一帧的刚性流场：

其中，

为所述当前帧到下一帧的光流场，D为所述当前帧的深度图，P为所述相机姿态矩阵；

为当前帧左目场景图像I_t的坐标通过光流变换后在t+1时刻的二维坐标；X_t＝[x_t；D]为当前帧左目场景图像在t时刻的三维坐标；

为相机内参数；d为三维坐标投影到二维坐标时的归一化系数；d_t为t时刻的图像深度值；d_t+1为t+1时刻三维坐标投影到二维坐标时的归一化系数；t时刻表示当前帧，t+1时刻表示下一帧。

作为上述方案的改进，所述将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入，计算当前帧场景图像的刚性区域，具体包括：

对所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场的相关性进行建模，以求解得到所述光流场和所述刚性流场的相关性图；

根据所述相关性图的数值分布，得到对应的相关性直方图；

将所述相关性直方图作为预设的边界学习神经网络的输入，计算得到刚性区域与非刚性区域的边界值；

根据所述刚性区域与非刚性区域的边界值，计算得到刚性像素掩码模板，以得到当前帧左目场景图像的刚性区域。

作为上述方案的改进，所述相关性图具体为：

其中，f_c算子用于逐点计算

与

之间的相关性；

算子用于对得到的相关性数值进行0-1归一化。

作为上述方案的改进，所述刚性像素掩码模板具体为：

其中，C_F为所述相关性图，h_F为所述相关性直方图，g(h_F|θ)为所述刚性区域与非刚性区域的边界值，α为预设的控制因子；1代表刚性像素点，0代表非刚性像素点。

作为上述方案的改进，所述根据所述光流场、所述深度图和所述刚性区域，计算优化损失函数；并以所优化损失函数最小化为目标，更新所述场景流估计模型的参数，以得到训练完成的场景流估计模型，具体包括：

根据所述光流场、所述深度图和所述刚性区域，计算优化损失函数：

其中，

为光流损失函数，

为边界敏感平滑损失函数，

为深度损失函数，

为边界损失函数，

为刚性光度损失函数，λ_f、λ_s、λ_d、λ_bnd、λ_r为对应的权重系数；

判断所述优化损失函数是否达到预设的收敛条件；

若所述优化损失函数未达到预设的收敛条件，采用梯度下降法对所述场景流估计模型的参数进行更新，并重新计算所述光流场、所述深度图和所述刚性区域；

若所述优化损失函数达到预设的收敛条件，得到训练完成的场景流估计模型。

作为上述方案的改进，所述光流损失函数具体为：

所述边界敏感平滑损失函数具体为：

所述深度损失函数具体为：

所述边界损失函数具体为：

所述刚性光度损失函数具体为：

其中，ρ(x，y)表示图像x和图像y之间的光度误差，ρ(x，y)＝λ_ρl₁(x-y)+(1-λ_ρ)SSIM(x，y)，SSIM为结构相似性指数，λ_ρ为l₁与SSIM之间的平衡系数；I_t为所述连续变化场景中的当前帧左目场景图像，

为下一帧左目场景图像I_t+1经过光流场

进行投影后在t时刻的重构图像；M_noc为图像I_t和

之间无遮挡区域；Ω为整个图像域；

为二阶梯度算子，

为所述连续变化场景中的当前帧右目场景图像I_t ^R通过深度图D进行投影重构得到；

为从右视角深度图投影得到的左视角深度重构图；M_R为所述刚性区域，

为通过刚性流场

重构的图像；t时刻表示当前帧，t+1时刻表示下一帧。

本发明实施例还提供了一种场景流估计方法，采用如上述任一项所述的场景流估计模型的训练方法所训练完成的场景流估计模型进行场景流估计；所述场景流估计方法，包括：

获取待测场景中的每一帧场景图像；

根据所述待测场景中的每一帧场景图像、所述光流估计子模型和所述深度估计子模型，得到所述待测场景中当前帧到下一帧的光流场和当前帧的深度图，以计算所述待测场景中当前帧到下一帧的刚性流场；

将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入，计算当前帧场景图像的刚性像素掩码模板；

将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场，基于所述刚性像素掩码模板进行融合，得到融合后的光流场；

根据所述待测场景中每连续两帧场景图像对应的融合后的光流场，得到所述待测场景的场景流信息。

作为上述方案的改进，所述将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场，基于所述刚性像素掩码模板进行融合，得到融合后的光流场，具体包括：

通过以下计算公式，将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场，基于所述刚性像素掩码模板进行融合，得到融合后的光流场：

其中，

为所述当前帧到下一帧的光流场，

为所述当前帧到下一帧的刚性流场，M_R为所述刚性像素掩码模板；t时刻表示当前帧，t+1时刻表示下一帧。

本发明实施例还提供了一种场景流估计模型的训练装置，包括：

训练数据集获取模块，用于获取训练数据集；所述训练数据集由连续变化场景中的每一帧场景图像构成；

场景流估计模型构建模块，用于构建场景流估计模型；其中，所述场景流估计模型包括光流估计子模型、深度估计子模型和刚性像素推断子模型；

第一刚性流场计算模块，用于根据所述训练数据集、所述光流估计子模型和所述深度估计子模型，得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图，以计算所述连续变化场景中当前帧到下一帧的刚性流场；

刚性区域计算模块，用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入，计算当前帧场景图像的刚性区域；

场景流估计模型训练模块，用于根据所述光流场、所述深度图和所述刚性区域，计算优化损失函数；并以所优化损失函数最小化为目标，更新所述场景流估计模型的参数，以得到训练完成的场景流估计模型。

本发明实施例还提供了一种场景流估计装置，采用如上述任一项所述的场景流估计模型的训练方法所训练完成的场景流模型进行场景流估计；所述场景流估计装置，包括：

待测场景获取模块，用于获取待测场景中的每一帧场景图像；

第二刚性流场计算模块，用于根据所述待测场景中的每一帧场景图像、所述光流估计子模型和所述深度估计子模型，得到所述待测场景中当前帧到下一帧的光流场和当前帧的深度图，以计算所述待测场景中当前帧到下一帧的刚性流场；

刚性像素掩模计算模块，用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入，计算当前帧场景图像的刚性像素掩码模板；

光流场融合模块，用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场，基于所述刚性像素掩码模板进行融合，得到融合后的光流场；

场景流信息获得模块，根据所述待测场景中每连续两帧场景图像对应的融合后的光流场，得到所述待测场景的场景流信息。

与现有技术相比，本发明公开的一种场景流估计、场景流估计模型的训练方法和装置，通过获取连续变化场景中的每一帧场景图像构成训练数据集，构建光流估计子模型、深度估计子模型和刚性像素推断子模型，得到场景流估计模型。根据所述训练数据集，分别估计场景的光流场和深度图，再通过求解最小化优化问题计算相机姿态，并以此得到场景的刚性流场；将所述光流场和刚性流场作为所述刚性像素推断子模型的输入，对场景中刚性-非刚性像素运动关系进行显式建模与分割，得到自适应刚性掩码模板，计算得到当前帧场景图像的刚性区域。根据所述光流场、所述深度图和所述刚性区域，计算优化损失函数；并以所优化损失函数最小化为目标，更新所述场景流估计模型的参数，以得到训练完成的场景流估计模型。在场景流估计过程中，根据所述场景流估计模型，计算待测场景的光流场、深度图和刚性像素掩码模板，将所述光流场和所述刚性流场基于所述刚性像素掩码模板进行融合，得到融合后的光流场，以得到所述待测场景的场景流信息。

采用本发明实施例的技术手段，摒弃了现有技术中的额外设置的刚性像素分割网络，而是通过设计刚性像素推断模型，联合光流-深度-相机姿态等信息，学习不同运动之间的相关性，高效且自适应地推理场景刚性像素，显著提高刚性-非刚性物体识别准确率，加强物体运动过程中的刚性像素约束，提高了后续场景流估计的整体准确率与鲁棒性。同时，本发明实施例通过无监督学习来训练场景流估计模型，整个训练过程不需要任何标注标签，降低了开发过程中的人工标注难度与训练成本。

附图说明

图1是本发明实施例一提供的一种场景流估计模型的训练方法的流程示意图；

图2是本发明实施例二提供的一种场景流估计方法的流程示意图；

图3是本发明实施例中所述场景流估计模型的系统框架示意图；

图4是本发明实施例三提供的一种场景流估计模型的训练装置的结构示意图；

图5是本发明实施例四提供的一种场景流估计装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例一提供的一种场景流估计模型的训练方法的流程示意图。本发明实施例一提供了一种场景流估计模型的训练方法，通过步骤S11至S15执行：

S11、获取训练数据集；所述训练数据集由连续变化场景中的每一帧场景图像构成。

S12、构建场景流估计模型；其中，所述场景流估计模型包括光流估计子模型、深度估计子模型和刚性像素推断子模型。

S13、根据所述训练数据集、所述光流估计子模型和所述深度估计子模型，得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图，以计算所述连续变化场景中当前帧到下一帧的刚性流场。

S14、将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入，计算当前帧场景图像的刚性区域。

S15、根据所述光流场、所述深度图和所述刚性区域，计算优化损失函数；并以所优化损失函数最小化为目标，更新所述场景流估计模型的参数，以得到训练完成的场景流估计模型。

需要说明的是，连续变化场景中一般可以分解为刚性物体(rigidobjects)和非刚性物体(non-rigidobjects)。其中，刚性物体，例如街道，建筑等，具有全局一致性的运动特征，即所有刚性物体的运动都遵循一个统一的相机(全局)运动模型；而非刚性物体，例如行人，车辆等，其运动则为互相独立的(局部)运动。因此，刚性像素(rigidpixels)的运动满足刚性假设约束(Rigid Assumption Constraint)，仅由相机运动(相机外参数)决定；而非刚性像素(non-rigidpixels)则不满足该约束，并独立于相机运动。

本发明实施例的场景流估计模型的训练方法适用于基于刚性像素推理的无监督学习的场景流估计技术，所训练得到的场景流估计模型在用于场景流估计过程中，能够同时完成刚性像素分割与场景流估计，提高了对刚性物体和非刚性物体的识别准确率，有效提高了基于无监督训练的场景流估计的准确性。

具体地，在步骤S11中，通过预先设置的摄像机拍摄任意连续变化场景中的场景图像，获取所述连续变化场景中的每一帧场景图像，构建所述训练数据集。

优选地，所述摄像机为双目相机，对任意连续变化的场景，获取左相机在t时刻拍摄的场景图像，记为当前帧左目场景图像I_t，左相机在t+1时刻拍摄的场景图像，记为下一帧左目场景图像I_t+1，以及右相机在t时刻拍摄的场景图像，记为当前帧右目场景图像

(I_t，I_t+1)两帧场景图像组成连续时间图像对，

两帧场景图像组成立体视觉图像对，从而得到若干连续时间图像对(I_t，I_t+1)和若干立体视觉图像对

以构成所述训练数据集。

作为优选的实施方式，为了进一步提高训练得到的场景估计模型的精准性，在步骤S11之后，还包括步骤S11’：

S11’、对所述训练数据集中的每一帧场景图像进行数据增强和归一化处理。

具体地，对所述训练数据集中的每一帧场景图像进行数据增强，包括对场景图像I_t，I_t+1以及

进行相同参数的图像旋转变换、水平翻转变换、图像尺寸裁切、对比度增强以及RGB通道变换等操作。

进一步地，对增强后的每一帧场景图像进行归一化处理，包括对场景图像I_t，I_t+1以及

进行灰度值归一化，均值及方差标准化。

在灰度值归一化中，采用以下公式对所有的输入场景图像

进行归一化处理：

其中，输入场景图像I_ori中像素的灰度值范围为0-255，归一化后的场景图像

中像素的灰度值范围为0-1。

在均值及方差标准化中，应用以下公式对灰度值归一化后的场景图像

进行均值及方差标准化，得到标准输入场景图像I。

其中，μ为所述训练数据集中所有场景图像像素的灰度平均值，δ为数据集中所有场景图像像素的方差平均值。

进一步地，在步骤S12中，构建光流估计子模型用于实现对所述连续变化场景的光流场估计，构建深度估计子模型用于实现对所述连续变化场景的深度图计算，构建刚性像素推断子模型用于实现对所述连续变化场景中刚性区域的预测。

在一种实施方式下，所述光流估计子模型为光流估计网络FlowCNN，光流估计网络FlowCNN的框架设计为编码器-解码器结构；其中编码器由一系列的卷积层、激活函数和下采样操作构成，而解码器由一系列的反卷积模块构成。示例性地，采用Recurrent All-Pairs Field Transforms(RAFT)网络结构作为光流估计网络。

在一种实施方式下，所述深度估计子模型为深度估计网络DepthCNN，深度估计网络DepthCNN的框架设计为编码器-解码器结构；其中编码器由一系列的卷积层、激活函数和下采样操作构成，而解码器由一系列的反卷积模块构成。示例性地，通过对经典光流网络PWC-Net进行改进，得到深度估计网络。具体地，将PWC-Net网络最后一层双通道卷积层改为单通道卷积层，使其输出单通道矩阵，得到深度估计网络DepthCNN。

需要说明的是，所述光流估计网络和所述深度估计网络均不限于上述实施方式，现有技术中的任何光流估计网络和任何深度估计网络均可作为本发明的光流估计网络FlowCNN和深度估计网络DepthCNN，在此不做具体限定。

在一种实施方式下，所述刚性像素推断子模型为刚性推断网络，通过设计刚性推断网络(RigidityfromMotion，RfM)，用于执行对输入的光流场和刚性流场进行相关性建模、边界学习和离群点剔除的步骤，以预测所述连续变化场景中的刚性像素。其中，边界学习采用构建全连接神经网络的方式实现。

进一步地，在构建所述光流估计子模型FlowCNN、深度估计子模型DepthCNN和刚性像素推断子模型RfM，并进行参数初始化之后，通过所述训练数据集中的每一帧场景图像，对所述光流估计子模型、深度估计子模型和刚性像素推断子模型进行无监督学习训练。

优选地，在步骤S13中，具体包括步骤S131至S133：

S131、将所述连续时间图像对作为所述光流估计子模型的输入，计算所述连续变化场景中当前帧到下一帧的光流场。

将增强和归一化处理后的连续两帧尺寸为3×H×W的标准输入场景图像I_t和I_t+1作为光流网络FlowCNN的输入，通过前向传播，计算得到t至t+1时刻物体运动的光流场

所述光流场

为双通道，尺寸为2×H×W，其中，H为图像高度，W为图像宽度，两个通道分别代表水平X轴及竖直Y轴方向上的光流。

S132、将所述立体视觉图像对作为所述深度估计子模型的输入，计算所述连续变化场景中当前帧的深度图。

将增强和归一化处理后的两帧尺寸为3×H×W的标准输入场景图像I_t和

作为深度估计网络DepthCNN的输入，通过前向传播，计算得到t时刻场景的单通道深度图D，其大小为1×H×W。

S133、根据所述光流场和所述深度图，计算所述连续变化场景中当前帧到下一帧的刚性流场。

具体地，通过最小化像素坐标之间的投影误差，对相机姿态矩阵P＝[R|t]进行建模，得到相机姿态模型为：

为旋转矩阵，

为平移矩阵。

为相机内参数；d为三维坐标投影到二维坐标时的归一化系数。

为所述当前帧到下一帧的光流场，D为所述当前帧的深度图。

根据所述光流场

和所述深度图D，通过Perspective-n-Points(PnP)算法及Levenberg-Marquardt优化方法求解所述相机姿态模型，得到所述相机姿态矩阵P。

优选地，本发明实施例同时采用RANSAC框架进行离群点剔除，进一步提高了求解过程的鲁棒性。

在计算得到所述相机姿态矩阵P之后，进行全局运动场流估计：根据所述深度图D和所述相机姿态矩阵P，通过以下计算公式，计算所述连续变化场景中当前帧到下一帧的刚性流场：

其中，P为所述相机姿态矩阵；d_t为t时刻的图像深度值；d_t+1为t+1时刻三维坐标投影到二维坐标时的归一化系数；t时刻表示当前帧，t+1时刻表示下一帧。

进一步地，在步骤S14中，具体包括步骤S141至S144：

S141、对所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场的相关性进行建模，以求解得到所述光流场和所述刚性流场的相关性图。

对光流场

和刚性流场

之间的相关性进行建模，得到相关性图C_F：

其中，f_c算子用于逐点计算

与

之间的相关性；

算子用于对得到的相关性数值进行0-1归一化。

在本实施例中，采用f_c＝l₂范数算子作为相关性计算函数。

S142、根据所述相关性图的数值分布，得到对应的相关性直方图。

S143、将所述相关性直方图作为预设的边界学习神经网络的输入，计算得到刚性区域与非刚性区域的边界值。

统计计算得到的相关性图C_F的数值分布，得到其直方图h_F，并通过设计两层全连接神经网络g(.|θ)作为所述边界学习神经网络，将直方图h_F作为g(.|θ)的输入，通过前向传播，计算得到刚性区域与非刚性区域的边界值g(h_F|θ)。其中，θ为网络g(.|θ)的学习参数。

需要说明的是，本发明实施例中的边界学习神经网络g(.|θ)不限于两层全连接网络，可以根据实际应用情况设计为其他形式的边界学习神经网络，均不影响本发明取得的有益效果。

S144、根据所述刚性区域与非刚性区域的边界值，计算得到刚性像素掩码模板，以得到当前帧左目场景图像的刚性区域。

所述刚性像素掩码模板具体为：

需要说明的是，控制因子α用于控制所得到的掩码模板M_R的“软硬”程度；当α取值越大，M_R越接近“硬”模板，即输出取值越趋近于0-1二值；反之，当α取值越小时，M_R越接近“软”模板，即输出取值越趋向于0-1之间的连续值。

进而，根据所述刚性像素掩码模板，对当前帧左目场景图像中的非刚性像素(离群点)进行剔除，得到当前帧左目场景图像I_t的刚性区域。

进一步地，在步骤S15中，根据上述步骤计算得到所述光流场、所述深度图和所述刚性区域之后，进一步计算所述场景估计模型的优化损失函数，用于实现所述场景估计模型的无监督学习训练。

首先，定义光度误差ρ(x，y)，用于衡量图像x和图像y之间的光度相似性，

ρ(x，y)＝λ_ρl₁(x-y)+(1-λ_ρ)SSIM(x，y)；

其中，SSIM为结构相似性指数，λ_ρ为l₁与SSIM之间的平衡系数。

进一步地，基于所述光度误差，构建光流损失函数

其中，I_t为所述连续变化场景中的当前帧左目场景图像，

为下一帧左目场景图像I_t+1经过光流场

进行投影后在t时刻的重构图像；

为图像I_t和

之间的光度误差；M_noc为图像I_t和

之间无遮挡区域；Ω为整个图像域。

进一步地，构建边界敏感平滑损失函数

该损失函数用来平滑正则化光流场的分布，同时保持不同物体边界的锐利，具体为：

其中，

为二阶梯度算子。

进一步地，基于所述光度误差，构建深度损失函数

其中，

为从右视角深度图投影得到的左视角深度重构图。

进一步地，构建边界损失函数

边界损失函数

用来防止RfM模块计算得到平凡解，具体为：

其中，M_R为RfM模块计算得到的刚性区域。

进一步地，基于所述光度误差，构建刚性光度损失函数，该损失函数通过最小化图像I_t和通过刚性流

重构的图像

之间的光度误差，优化场景流估计模型。具体为：

综合上述损失函数，以及每一损失函数对应预设的权重系数，得到训练该场景流估计模型的总体优化损失函数E：

所述场景流估计模型的训练可以建模为所述优化损失函数E的最小能量问题。具体地，通过判断所述优化损失函数是否达到预设的收敛条件；当所述优化损失函数未达到预设的收敛条件时，计算损失函数梯度，采用梯度下降法对所述场景流估计模型(包括光流估计子模型、深度估计子模型和刚性像素推断子模型)的网络参数进行更新，并利用更新后的光流估计子模型、深度估计子模型和刚性像素推断子模型，重新计算所述光流场、所述深度图和所述刚性区域，以再次计算所述优化损失函数E。以此不断调整所述场景流估计模型的网络参数设置，以不断降低所述优化损失函数，直到所述优化损失函数的值趋于最小化，也即达到所述预设的收敛条件时，所述光流估计子模型、深度估计子模型和刚性像素推断子模型训练完成，得到训练完成的场景流估计模型，可用于实现对待测场景的场景流估计。

本发明实施例一提供了一种场景流估计模型的训练方法，通过获取连续变化场景中的每一帧场景图像构成训练数据集，构建光流估计子模型、深度估计子模型和刚性像素推断子模型，得到场景流估计模型。根据所述训练数据集，分别估计场景的光流场和深度图，再通过求解最小化优化问题计算相机姿态，并以此得到场景的刚性流场；将所述光流场和刚性流场作为所述刚性像素推断子模型的输入，对场景中刚性-非刚性像素运动关系进行显式建模与分割，得到自适应刚性掩码模板，计算得到当前帧场景图像的刚性区域。根据所述光流场、所述深度图和所述刚性区域，计算优化损失函数；并以所优化损失函数最小化为目标，更新所述场景流估计模型的参数，以得到训练完成的场景流估计模型，用于实现场景流估计。采用本发明实施例的技术手段，摒弃了现有技术中的额外设置的刚性像素分割网络，而是通过设计刚性像素推断模型，联合光流-深度-相机姿态等信息，学习不同运动之间的相关性，高效且自适应地推理场景刚性像素，显著提高刚性-非刚性物体识别准确率，加强物体运动过程中的刚性像素约束，提高了后续场景流估计的整体准确率与鲁棒性。同时，本发明实施例通过无监督学习来训练场景流估计模型，整个训练过程不需要任何标注标签，降低了开发过程中的人工标注难度与训练成本。

参见图2，是本发明实施例二提供的一种场景流估计方法的流程示意图。本发明实施例二提供的一种场景流估计方法，采用如上述实施例一所述的场景流估计模型的训练方法所训练完成的场景流估计模型进行场景流估计。所述场景流估计方法，通过步骤S21至S25执行：

S21、获取待测场景中的每一帧场景图像。

S22、根据所述待测场景中的每一帧场景图像、所述光流估计子模型和所述深度估计子模型，得到所述待测场景中当前帧到下一帧的光流场和当前帧的深度图，以计算所述待测场景中当前帧到下一帧的刚性流场。

S23、将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入，计算当前帧场景图像的刚性像素掩码模板。

S24、将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场，基于所述刚性像素掩码模板进行融合，得到融合后的光流场。

S25、根据所述待测场景中每连续两帧场景图像对应的融合后的光流场，得到所述待测场景的场景流信息。

具体地，采用上述实施例所述的场景流估计模型的训练方法，得到训练完成的场景流估计模型，包括训练完成的光流估计子模型FlowCNN、深度估计子模型DepthCNN和刚性像素推断子模型RfM。

参见图3，是本发明实施例中所述场景流估计模型的系统框架示意图。在对待测场景进行场景流估计的过程中，首先获取待测场景中双目相机拍摄得到的每一帧场景图像。遍历所述待测场景中的每一帧左目场景图像和每一帧右目场景图像，以当前帧左目场景图像I_t和下一帧左目场景图像I_t+1组成连续时间图像对(I_t，I_t+1)；以当前帧左目场景图像I_t和当前帧右目场景图像

组成立体视觉图像对

优选地，对每一所述帧场景图像进行数据增强、灰度值归一化和均值、方差标准化处理，得到每一帧标准输入场景图像。

进一步地，将增强和归一化处理后的连续时间图像对(I_t，I_t+t1)作为所述训练完成的光流估计子模型FlowCNN的输入，通过前向传播，计算得到t至t+1时刻物体运动的光流场

将增强和归一化处理后的立体视觉图像对

作为深度估计网络DepthCNN的输入，通过前向传播，计算得到t时刻场景的单通道深度图D。

根据所述光流场

和所述深度图D，通过PnP算法及Levenberg-Marquardt优化方法求解相机姿态模型

得到所述相机姿态矩阵P。进而根据所述深度图D和所述相机姿态矩阵P，通过以下计算公式，计算所述待测场景中当前帧到下一帧的刚性流场：

进一步地，将所述光流场

和刚性流场

作为所述刚性像素推断子模型RfM的输入，以预测所述待测场景中的刚性区域。

具体地，对光流场

和刚性流场

之间的相关性进行建模，得到相关性图C_F，统计计算得到的相关性图C_F的数值分布，得到其直方图h_F，作为所述边界学习神经网络的输入，通过前向传播，计算得到刚性区域与非刚性区域的边界值g(h_F|θ)。根据所述刚性区域与非刚性区域的边界值，计算得到刚性像素掩码模板：

并根据所述刚性像素掩码模板，对当前帧左目场景图像中的非刚性像素进行剔除，得到当前帧左目场景图像I_t的刚性区域。

进一步地，通过以下计算公式，将所述当前帧到下一帧的光流场

和所述当前帧到下一帧的刚性流场

基于所述刚性像素掩码模板M_R进行融合，得到融合后的t至t+1时刻的光流场F_t→t+1：

融合后的光流场F_t→t+1可以更精细的描述连续变化图像的物体运动变化，既在刚性区域具有刚性约束，也在非刚性区域具有光流估计网络FlowCNN得到的运动自由度。

最后，通过遍历所述待测场景中的每一帧场景图像，计算每连续两帧场景图像对应的融合后的光流场，得到所述待测场景的场景流信息。

本发明实施例二提供了一种场景流估计方法，通过获取待测场景中的每一帧场景图像，根据预先构建并训练完成的光流估计子模型和深度估计子模型，分别估计场景的光流场和深度图，再通过求解最小化优化问题计算相机姿态，并以此得到场景的刚性流场；将所述光流场和刚性流场作为所述刚性像素推断子模型的输入，对场景中刚性-非刚性像素运动关系进行显式建模与分割，得到自适应的刚性像素掩码模板，将所述光流场和所述刚性流场基于所述刚性像素掩码模板进行融合，得到融合后的光流场，以得到所述待测场景的场景流信息。采用本发明实施例的技术手段，能够同时完成刚性像素分割与场景流估计，摒弃了现有技术中的额外设置的刚性像素分割网络。通过设计刚性像素推断模型，联合光流-深度-相机姿态等信息，学习不同运动之间的相关性，高效且自适应地推理场景刚性像素，显著提高刚性-非刚性物体识别准确率，加强物体运动过程中的刚性像素约束，提高了场景流估计的整体准确率与鲁棒性。

参见图4，是本发明实施例三提供的一种场景流估计模型的训练装置的结构示意图。本发明实施例三提供的一种场景流估计模型的训练装置30，包括：训练数据集获取模块31、场景流估计模型构建模块32、第一刚性流场计算模块33、刚性区域计算模块34和场景流估计模型训练模块35；其中，

所述训练数据集获取模块31，用于获取训练数据集；所述训练数据集由连续变化场景中的每一帧场景图像构成；

所述场景流估计模型构建模块32，用于构建场景流估计模型；其中，所述场景流估计模型包括光流估计子模型、深度估计子模型和刚性像素推断子模型；

所述第一刚性流场计算模块33，用于根据所述训练数据集、所述光流估计子模型和所述深度估计子模型，得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图，以计算所述连续变化场景中当前帧到下一帧的刚性流场；

所述刚性区域计算模块34，用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入，计算当前帧场景图像的刚性区域；

所述场景流估计模型训练模块35，用于根据所述光流场、所述深度图和所述刚性区域，计算优化损失函数；并以所优化损失函数最小化为目标，更新所述场景流估计模型的参数，以得到训练完成的场景流估计模型。

需要说明的是，本发明实施例提供的一种场景流估计模型的训练装置用于执行上述实施例一所述的一种场景流估计模型的训练方法的所有流程步骤，两者的工作原理和有益效果一一对应，因而不再赘述。

参见图5，是本发明实施例四提供的一种场景流估计装置的结构示意图。本发明实施例四提供了一种场景流估计装置40，采用如实施例一所述的场景流估计模型的训练方法所训练完成的场景流模型进行场景流估计；所述场景流估计装置40，包括：待测场景获取模块41、第二刚性流场计算模块42、刚性像素掩模计算模块43、光流场融合模块44和场景流信息获得模块45；其中，

所述待测场景获取模块41，用于获取待测场景中的每一帧场景图像；

所述第二刚性流场计算模块42，用于根据所述待测场景中的每一帧场景图像、所述光流估计子模型和所述深度估计子模型，得到所述待测场景中当前帧到下一帧的光流场和当前帧的深度图，以计算所述待测场景中当前帧到下一帧的刚性流场；

所述刚性像素掩模计算模块43，用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入，计算当前帧场景图像的刚性像素掩码模板；

所述光流场融合模块44，用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场，基于所述刚性像素掩码模板进行融合，得到融合后的光流场；

所述场景流信息获得模块45，根据所述待测场景中每连续两帧场景图像对应的融合后的光流场，得到所述待测场景的场景流信息。

需要说明的是，本发明实施例提供的一种场景流估计装置用于执行上述实施二例所述的一种场景流估计方法的所有流程步骤，两者的工作原理和有益效果一一对应，因而不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。