CN113160278A - 一种场景流估计、场景流估计模型的训练方法和装置 - Google Patents

一种场景流估计、场景流估计模型的训练方法和装置 Download PDF

Info

Publication number
CN113160278A
CN113160278A CN202110439951.9A CN202110439951A CN113160278A CN 113160278 A CN113160278 A CN 113160278A CN 202110439951 A CN202110439951 A CN 202110439951A CN 113160278 A CN113160278 A CN 113160278A
Authority
CN
China
Prior art keywords
scene
rigid
flow field
current frame
optical flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110439951.9A
Other languages
English (en)
Inventor
石光明
焦阳
特雷克·陈
谢雪梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute of Technology of Xidian University
Original Assignee
Guangzhou Institute of Technology of Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Technology of Xidian University filed Critical Guangzhou Institute of Technology of Xidian University
Priority to CN202110439951.9A priority Critical patent/CN113160278A/zh
Publication of CN113160278A publication Critical patent/CN113160278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/285Analysis of motion using a sequence of stereo image pairs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种场景流估计、场景流估计模型的训练方法和装置,所述场景流估计方法包括:获取待测场景中的每一帧场景图像,根据预先构建并训练完成的光流估计子模型和深度估计子模型,分别估计场景的光流场和深度图,计算场景的刚性流场;将所述光流场和刚性流场作为所述刚性像素推断子模型的输入,计算刚性像素掩码模板,将所述光流场和所述刚性流场基于所述刚性像素掩码模板进行融合,得到融合后的光流场,以得到所述待测场景的场景流信息。采用本发明实施例的技术手段,能够同时完成对场景中的刚性像素分割和场景流估计,提高了对刚性物体和非刚性物体的识别准确率,有效提高了基于无监督训练的场景流估计的准确性。

Description

一种场景流估计、场景流估计模型的训练方法和装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种场景流估计、场景流估计模型的训练方法和装置。
背景技术
场景流(Scene Flow)描述了真实场景中运动物体的三维轨迹。场景流一般由光流(Optical Flow)和深度(Depth)两部分组成。其中,光流刻画了运动物体在相机成像平面(X-Y轴)的二维运动,而深度变化描述了运动物体在垂直于相机平面(Z轴)的一维运动。场景流技术为众多的实际任务提供了重要的几何与运动信息,如自动驾驶,机器人导航等,近年来获得了广泛关注。
在场景流估计技术中,目前大都基于神经网络进行设计。在神经网络的训练过程中,基于监督学习的方需要大量逐像素标注的光流标签与深度标签,这极大地增加了开发过程中的人工标注难度与训练成本。因此,越来越多的场景流估计技术采取了以优化光度损失(photometric loss)为目标的无监督训练方法。在现有的无监督的方法中,为了降低光度损失计算过程中相邻帧之间像素投影的混淆性,刚性假设约束(Rigid AssumptionConstraint)作为被广泛的应用在场景流估计模型中。利用刚性假设约束,识别场景中的刚性物体,以降低对刚性区域的估计误差。
现有技术中对场景中的刚体物体进行识别的方法有:利用K-means算法计算局部刚性物体,采用预训练的语义分割网络进行像素级分类,或利用简单的运动差对场景中刚性物体进行计算等。然而,发明人发现现有技术至少存在如下问题:在现有技术框架中,刚性像素识别通常被设计为一项独立于场景流估计的独立子任务,这些方法虽然在一定程度上可以对场景中刚性-非刚性物体进行大致区分,但由于没有考虑到刚性运动与场景流估计任务之间存在的内在几何关系,导致刚性物体识别准确性较差,鲁棒性欠佳,最终降低了场景流估计的准确率。
发明内容
本发明实施例的目的是提供一种场景流估计、场景流估计模型的训练方法和装置,能够同时完成对场景中的刚性像素分割和场景流估计,提高了对刚性物体和非刚性物体的识别准确率,有效提高了基于无监督训练的场景流估计的准确性。
为实现上述目的,本发明实施例提供了一种场景流估计模型的训练方法,包括:
获取训练数据集;所述训练数据集由连续变化场景中的每一帧场景图像构成;
构建场景流估计模型;其中,所述场景流估计模型包括光流估计子模型、深度估计子模型和刚性像素推断子模型;
根据所述训练数据集、所述光流估计子模型和所述深度估计子模型,得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述连续变化场景中当前帧到下一帧的刚性流场;
将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性区域;
根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数;并以所优化损失函数最小化为目标,更新所述场景流估计模型的参数,以得到训练完成的场景流估计模型。
作为上述方案的改进,所述训练数据集中包括若干连续时间图像对和若干立体视觉图像对;所述连续时间图像对由所述连续变化场景中的当前帧左目场景图像和下一帧左目场景图像组成;所述立体视觉图像对由所述连续变化场景中的当前帧左目场景图像和当前帧右目场景图像组成;
则,所述根据所述训练数据集、所述光流估计子模型和所述深度估计子模型,得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述连续变化场景中当前帧到下一帧的刚性流场,具体包括:
将所述连续时间图像对作为所述光流估计子模型的输入,计算所述连续变化场景中当前帧到下一帧的光流场;
将所述立体视觉图像对作为所述深度估计子模型的输入,计算所述连续变化场景中当前帧的深度图;
根据所述光流场和所述深度图,计算所述连续变化场景中当前帧到下一帧的刚性流场。
作为上述方案的改进,所述根据所述光流场和所述深度图,计算所述连续变化场景中当前帧到下一帧的刚性流场,具体包括:
根据所述光流场和所述深度图,通过以下计算公式,求解相机姿态矩阵P:
Figure BDA0003034661420000031
根据所述深度图和所述相机姿态矩阵,通过以下计算公式,计算所述连续变化场景中当前帧到下一帧的刚性流场:
Figure BDA0003034661420000032
其中,
Figure BDA0003034661420000033
为所述当前帧到下一帧的光流场,D为所述当前帧的深度图,P为所述相机姿态矩阵;
Figure BDA0003034661420000034
为当前帧左目场景图像It的坐标通过光流变换后在t+1时刻的二维坐标;Xt=[xt;D]为当前帧左目场景图像在t时刻的三维坐标;
Figure BDA0003034661420000035
为相机内参数;d为三维坐标投影到二维坐标时的归一化系数;dt为t时刻的图像深度值;dt+1为t+1时刻三维坐标投影到二维坐标时的归一化系数;t时刻表示当前帧,t+1时刻表示下一帧。
作为上述方案的改进,所述将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性区域,具体包括:
对所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场的相关性进行建模,以求解得到所述光流场和所述刚性流场的相关性图;
根据所述相关性图的数值分布,得到对应的相关性直方图;
将所述相关性直方图作为预设的边界学习神经网络的输入,计算得到刚性区域与非刚性区域的边界值;
根据所述刚性区域与非刚性区域的边界值,计算得到刚性像素掩码模板,以得到当前帧左目场景图像的刚性区域。
作为上述方案的改进,所述相关性图具体为:
Figure BDA0003034661420000041
其中,fc算子用于逐点计算
Figure BDA0003034661420000042
Figure BDA0003034661420000043
之间的相关性;
Figure BDA0003034661420000044
算子用于对得到的相关性数值进行0-1归一化。
作为上述方案的改进,所述刚性像素掩码模板具体为:
Figure BDA0003034661420000045
其中,CF为所述相关性图,hF为所述相关性直方图,g(hF|θ)为所述刚性区域与非刚性区域的边界值,α为预设的控制因子;1代表刚性像素点,0代表非刚性像素点。
作为上述方案的改进,所述根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数;并以所优化损失函数最小化为目标,更新所述场景流估计模型的参数,以得到训练完成的场景流估计模型,具体包括:
根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数:
Figure BDA0003034661420000046
其中,
Figure BDA0003034661420000047
为光流损失函数,
Figure BDA0003034661420000048
为边界敏感平滑损失函数,
Figure BDA0003034661420000049
为深度损失函数,
Figure BDA00030346614200000410
为边界损失函数,
Figure BDA00030346614200000411
为刚性光度损失函数,λf、λs、λd、λbnd、λr为对应的权重系数;
判断所述优化损失函数是否达到预设的收敛条件;
若所述优化损失函数未达到预设的收敛条件,采用梯度下降法对所述场景流估计模型的参数进行更新,并重新计算所述光流场、所述深度图和所述刚性区域;
若所述优化损失函数达到预设的收敛条件,得到训练完成的场景流估计模型。
作为上述方案的改进,所述光流损失函数具体为:
Figure BDA0003034661420000051
所述边界敏感平滑损失函数具体为:
Figure BDA0003034661420000052
所述深度损失函数具体为:
Figure BDA0003034661420000053
所述边界损失函数具体为:
Figure BDA0003034661420000054
所述刚性光度损失函数具体为:
Figure BDA0003034661420000055
其中,ρ(x,y)表示图像x和图像y之间的光度误差,ρ(x,y)=λρl1(x-y)+(1-λρ)SSIM(x,y),SSIM为结构相似性指数,λρ为l1与SSIM之间的平衡系数;It为所述连续变化场景中的当前帧左目场景图像,
Figure BDA0003034661420000056
为下一帧左目场景图像It+1经过光流场
Figure BDA0003034661420000057
进行投影后在t时刻的重构图像;Mnoc为图像It
Figure BDA0003034661420000058
之间无遮挡区域;Ω为整个图像域;
Figure BDA0003034661420000059
为二阶梯度算子,
Figure BDA00030346614200000510
为所述连续变化场景中的当前帧右目场景图像It R通过深度图D进行投影重构得到;
Figure BDA00030346614200000511
为从右视角深度图投影得到的左视角深度重构图;MR为所述刚性区域,
Figure BDA00030346614200000512
为通过刚性流场
Figure BDA00030346614200000513
重构的图像;t时刻表示当前帧,t+1时刻表示下一帧。
本发明实施例还提供了一种场景流估计方法,采用如上述任一项所述的场景流估计模型的训练方法所训练完成的场景流估计模型进行场景流估计;所述场景流估计方法,包括:
获取待测场景中的每一帧场景图像;
根据所述待测场景中的每一帧场景图像、所述光流估计子模型和所述深度估计子模型,得到所述待测场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述待测场景中当前帧到下一帧的刚性流场;
将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性像素掩码模板;
将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场,基于所述刚性像素掩码模板进行融合,得到融合后的光流场;
根据所述待测场景中每连续两帧场景图像对应的融合后的光流场,得到所述待测场景的场景流信息。
作为上述方案的改进,所述将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场,基于所述刚性像素掩码模板进行融合,得到融合后的光流场,具体包括:
通过以下计算公式,将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场,基于所述刚性像素掩码模板进行融合,得到融合后的光流场:
Figure BDA0003034661420000061
其中,
Figure BDA0003034661420000062
为所述当前帧到下一帧的光流场,
Figure BDA0003034661420000063
为所述当前帧到下一帧的刚性流场,MR为所述刚性像素掩码模板;t时刻表示当前帧,t+1时刻表示下一帧。
本发明实施例还提供了一种场景流估计模型的训练装置,包括:
训练数据集获取模块,用于获取训练数据集;所述训练数据集由连续变化场景中的每一帧场景图像构成;
场景流估计模型构建模块,用于构建场景流估计模型;其中,所述场景流估计模型包括光流估计子模型、深度估计子模型和刚性像素推断子模型;
第一刚性流场计算模块,用于根据所述训练数据集、所述光流估计子模型和所述深度估计子模型,得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述连续变化场景中当前帧到下一帧的刚性流场;
刚性区域计算模块,用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性区域;
场景流估计模型训练模块,用于根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数;并以所优化损失函数最小化为目标,更新所述场景流估计模型的参数,以得到训练完成的场景流估计模型。
本发明实施例还提供了一种场景流估计装置,采用如上述任一项所述的场景流估计模型的训练方法所训练完成的场景流模型进行场景流估计;所述场景流估计装置,包括:
待测场景获取模块,用于获取待测场景中的每一帧场景图像;
第二刚性流场计算模块,用于根据所述待测场景中的每一帧场景图像、所述光流估计子模型和所述深度估计子模型,得到所述待测场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述待测场景中当前帧到下一帧的刚性流场;
刚性像素掩模计算模块,用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性像素掩码模板;
光流场融合模块,用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场,基于所述刚性像素掩码模板进行融合,得到融合后的光流场;
场景流信息获得模块,根据所述待测场景中每连续两帧场景图像对应的融合后的光流场,得到所述待测场景的场景流信息。
与现有技术相比,本发明公开的一种场景流估计、场景流估计模型的训练方法和装置,通过获取连续变化场景中的每一帧场景图像构成训练数据集,构建光流估计子模型、深度估计子模型和刚性像素推断子模型,得到场景流估计模型。根据所述训练数据集,分别估计场景的光流场和深度图,再通过求解最小化优化问题计算相机姿态,并以此得到场景的刚性流场;将所述光流场和刚性流场作为所述刚性像素推断子模型的输入,对场景中刚性-非刚性像素运动关系进行显式建模与分割,得到自适应刚性掩码模板,计算得到当前帧场景图像的刚性区域。根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数;并以所优化损失函数最小化为目标,更新所述场景流估计模型的参数,以得到训练完成的场景流估计模型。在场景流估计过程中,根据所述场景流估计模型,计算待测场景的光流场、深度图和刚性像素掩码模板,将所述光流场和所述刚性流场基于所述刚性像素掩码模板进行融合,得到融合后的光流场,以得到所述待测场景的场景流信息。
采用本发明实施例的技术手段,摒弃了现有技术中的额外设置的刚性像素分割网络,而是通过设计刚性像素推断模型,联合光流-深度-相机姿态等信息,学习不同运动之间的相关性,高效且自适应地推理场景刚性像素,显著提高刚性-非刚性物体识别准确率,加强物体运动过程中的刚性像素约束,提高了后续场景流估计的整体准确率与鲁棒性。同时,本发明实施例通过无监督学习来训练场景流估计模型,整个训练过程不需要任何标注标签,降低了开发过程中的人工标注难度与训练成本。
附图说明
图1是本发明实施例一提供的一种场景流估计模型的训练方法的流程示意图;
图2是本发明实施例二提供的一种场景流估计方法的流程示意图;
图3是本发明实施例中所述场景流估计模型的系统框架示意图;
图4是本发明实施例三提供的一种场景流估计模型的训练装置的结构示意图;
图5是本发明实施例四提供的一种场景流估计装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例一提供的一种场景流估计模型的训练方法的流程示意图。本发明实施例一提供了一种场景流估计模型的训练方法,通过步骤S11至S15执行:
S11、获取训练数据集;所述训练数据集由连续变化场景中的每一帧场景图像构成。
S12、构建场景流估计模型;其中,所述场景流估计模型包括光流估计子模型、深度估计子模型和刚性像素推断子模型。
S13、根据所述训练数据集、所述光流估计子模型和所述深度估计子模型,得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述连续变化场景中当前帧到下一帧的刚性流场。
S14、将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性区域。
S15、根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数;并以所优化损失函数最小化为目标,更新所述场景流估计模型的参数,以得到训练完成的场景流估计模型。
需要说明的是,连续变化场景中一般可以分解为刚性物体(rigidobjects)和非刚性物体(non-rigidobjects)。其中,刚性物体,例如街道,建筑等,具有全局一致性的运动特征,即所有刚性物体的运动都遵循一个统一的相机(全局)运动模型;而非刚性物体,例如行人,车辆等,其运动则为互相独立的(局部)运动。因此,刚性像素(rigidpixels)的运动满足刚性假设约束(Rigid Assumption Constraint),仅由相机运动(相机外参数)决定;而非刚性像素(non-rigidpixels)则不满足该约束,并独立于相机运动。
本发明实施例的场景流估计模型的训练方法适用于基于刚性像素推理的无监督学习的场景流估计技术,所训练得到的场景流估计模型在用于场景流估计过程中,能够同时完成刚性像素分割与场景流估计,提高了对刚性物体和非刚性物体的识别准确率,有效提高了基于无监督训练的场景流估计的准确性。
具体地,在步骤S11中,通过预先设置的摄像机拍摄任意连续变化场景中的场景图像,获取所述连续变化场景中的每一帧场景图像,构建所述训练数据集。
优选地,所述摄像机为双目相机,对任意连续变化的场景,获取左相机在t时刻拍摄的场景图像,记为当前帧左目场景图像It,左相机在t+1时刻拍摄的场景图像,记为下一帧左目场景图像It+1,以及右相机在t时刻拍摄的场景图像,记为当前帧右目场景图像
Figure BDA0003034661420000101
(It,It+1)两帧场景图像组成连续时间图像对,
Figure BDA0003034661420000102
两帧场景图像组成立体视觉图像对,从而得到若干连续时间图像对(It,It+1)和若干立体视觉图像对
Figure BDA0003034661420000103
以构成所述训练数据集。
作为优选的实施方式,为了进一步提高训练得到的场景估计模型的精准性,在步骤S11之后,还包括步骤S11’:
S11’、对所述训练数据集中的每一帧场景图像进行数据增强和归一化处理。
具体地,对所述训练数据集中的每一帧场景图像进行数据增强,包括对场景图像It,It+1以及
Figure BDA0003034661420000104
进行相同参数的图像旋转变换、水平翻转变换、图像尺寸裁切、对比度增强以及RGB通道变换等操作。
进一步地,对增强后的每一帧场景图像进行归一化处理,包括对场景图像It,It+1以及
Figure BDA0003034661420000105
进行灰度值归一化,均值及方差标准化。
在灰度值归一化中,采用以下公式对所有的输入场景图像
Figure BDA0003034661420000106
进行归一化处理:
Figure BDA0003034661420000107
其中,输入场景图像Iori中像素的灰度值范围为0-255,归一化后的场景图像
Figure BDA0003034661420000108
中像素的灰度值范围为0-1。
在均值及方差标准化中,应用以下公式对灰度值归一化后的场景图像
Figure BDA00030346614200001010
进行均值及方差标准化,得到标准输入场景图像I。
Figure BDA0003034661420000109
其中,μ为所述训练数据集中所有场景图像像素的灰度平均值,δ为数据集中所有场景图像像素的方差平均值。
进一步地,在步骤S12中,构建光流估计子模型用于实现对所述连续变化场景的光流场估计,构建深度估计子模型用于实现对所述连续变化场景的深度图计算,构建刚性像素推断子模型用于实现对所述连续变化场景中刚性区域的预测。
在一种实施方式下,所述光流估计子模型为光流估计网络FlowCNN,光流估计网络FlowCNN的框架设计为编码器-解码器结构;其中编码器由一系列的卷积层、激活函数和下采样操作构成,而解码器由一系列的反卷积模块构成。示例性地,采用Recurrent All-Pairs Field Transforms(RAFT)网络结构作为光流估计网络。
在一种实施方式下,所述深度估计子模型为深度估计网络DepthCNN,深度估计网络DepthCNN的框架设计为编码器-解码器结构;其中编码器由一系列的卷积层、激活函数和下采样操作构成,而解码器由一系列的反卷积模块构成。示例性地,通过对经典光流网络PWC-Net进行改进,得到深度估计网络。具体地,将PWC-Net网络最后一层双通道卷积层改为单通道卷积层,使其输出单通道矩阵,得到深度估计网络DepthCNN。
需要说明的是,所述光流估计网络和所述深度估计网络均不限于上述实施方式,现有技术中的任何光流估计网络和任何深度估计网络均可作为本发明的光流估计网络FlowCNN和深度估计网络DepthCNN,在此不做具体限定。
在一种实施方式下,所述刚性像素推断子模型为刚性推断网络,通过设计刚性推断网络(RigidityfromMotion,RfM),用于执行对输入的光流场和刚性流场进行相关性建模、边界学习和离群点剔除的步骤,以预测所述连续变化场景中的刚性像素。其中,边界学习采用构建全连接神经网络的方式实现。
进一步地,在构建所述光流估计子模型FlowCNN、深度估计子模型DepthCNN和刚性像素推断子模型RfM,并进行参数初始化之后,通过所述训练数据集中的每一帧场景图像,对所述光流估计子模型、深度估计子模型和刚性像素推断子模型进行无监督学习训练。
优选地,在步骤S13中,具体包括步骤S131至S133:
S131、将所述连续时间图像对作为所述光流估计子模型的输入,计算所述连续变化场景中当前帧到下一帧的光流场。
将增强和归一化处理后的连续两帧尺寸为3×H×W的标准输入场景图像It和It+1作为光流网络FlowCNN的输入,通过前向传播,计算得到t至t+1时刻物体运动的光流场
Figure BDA0003034661420000121
所述光流场
Figure BDA0003034661420000122
为双通道,尺寸为2×H×W,其中,H为图像高度,W为图像宽度,两个通道分别代表水平X轴及竖直Y轴方向上的光流。
S132、将所述立体视觉图像对作为所述深度估计子模型的输入,计算所述连续变化场景中当前帧的深度图。
将增强和归一化处理后的两帧尺寸为3×H×W的标准输入场景图像It
Figure BDA0003034661420000123
作为深度估计网络DepthCNN的输入,通过前向传播,计算得到t时刻场景的单通道深度图D,其大小为1×H×W。
S133、根据所述光流场和所述深度图,计算所述连续变化场景中当前帧到下一帧的刚性流场。
具体地,通过最小化像素坐标之间的投影误差,对相机姿态矩阵P=[R|t]进行建模,得到相机姿态模型为:
Figure BDA0003034661420000124
Figure BDA0003034661420000125
为旋转矩阵,
Figure BDA0003034661420000126
为平移矩阵。
Figure BDA0003034661420000127
为当前帧左目场景图像It的坐标通过光流变换后在t+1时刻的二维坐标;Xt=[xt;D]为当前帧左目场景图像在t时刻的三维坐标;
Figure BDA0003034661420000128
为相机内参数;d为三维坐标投影到二维坐标时的归一化系数。
Figure BDA0003034661420000129
为所述当前帧到下一帧的光流场,D为所述当前帧的深度图。
根据所述光流场
Figure BDA00030346614200001210
和所述深度图D,通过Perspective-n-Points(PnP)算法及Levenberg-Marquardt优化方法求解所述相机姿态模型,得到所述相机姿态矩阵P。
优选地,本发明实施例同时采用RANSAC框架进行离群点剔除,进一步提高了求解过程的鲁棒性。
在计算得到所述相机姿态矩阵P之后,进行全局运动场流估计:根据所述深度图D和所述相机姿态矩阵P,通过以下计算公式,计算所述连续变化场景中当前帧到下一帧的刚性流场:
Figure BDA0003034661420000131
其中,P为所述相机姿态矩阵;dt为t时刻的图像深度值;dt+1为t+1时刻三维坐标投影到二维坐标时的归一化系数;t时刻表示当前帧,t+1时刻表示下一帧。
进一步地,在步骤S14中,具体包括步骤S141至S144:
S141、对所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场的相关性进行建模,以求解得到所述光流场和所述刚性流场的相关性图。
对光流场
Figure BDA0003034661420000132
和刚性流场
Figure BDA0003034661420000133
之间的相关性进行建模,得到相关性图CF
Figure BDA0003034661420000134
其中,fc算子用于逐点计算
Figure BDA0003034661420000135
Figure BDA0003034661420000136
之间的相关性;
Figure BDA0003034661420000137
算子用于对得到的相关性数值进行0-1归一化。
在本实施例中,采用fc=l2范数算子作为相关性计算函数。
S142、根据所述相关性图的数值分布,得到对应的相关性直方图。
S143、将所述相关性直方图作为预设的边界学习神经网络的输入,计算得到刚性区域与非刚性区域的边界值。
统计计算得到的相关性图CF的数值分布,得到其直方图hF,并通过设计两层全连接神经网络g(.|θ)作为所述边界学习神经网络,将直方图hF作为g(.|θ)的输入,通过前向传播,计算得到刚性区域与非刚性区域的边界值g(hF|θ)。其中,θ为网络g(.|θ)的学习参数。
需要说明的是,本发明实施例中的边界学习神经网络g(.|θ)不限于两层全连接网络,可以根据实际应用情况设计为其他形式的边界学习神经网络,均不影响本发明取得的有益效果。
S144、根据所述刚性区域与非刚性区域的边界值,计算得到刚性像素掩码模板,以得到当前帧左目场景图像的刚性区域。
所述刚性像素掩码模板具体为:
Figure BDA0003034661420000141
其中,CF为所述相关性图,hF为所述相关性直方图,g(hF|θ)为所述刚性区域与非刚性区域的边界值,α为预设的控制因子;1代表刚性像素点,0代表非刚性像素点。
需要说明的是,控制因子α用于控制所得到的掩码模板MR的“软硬”程度;当α取值越大,MR越接近“硬”模板,即输出取值越趋近于0-1二值;反之,当α取值越小时,MR越接近“软”模板,即输出取值越趋向于0-1之间的连续值。
进而,根据所述刚性像素掩码模板,对当前帧左目场景图像中的非刚性像素(离群点)进行剔除,得到当前帧左目场景图像It的刚性区域。
进一步地,在步骤S15中,根据上述步骤计算得到所述光流场、所述深度图和所述刚性区域之后,进一步计算所述场景估计模型的优化损失函数,用于实现所述场景估计模型的无监督学习训练。
首先,定义光度误差ρ(x,y),用于衡量图像x和图像y之间的光度相似性,
ρ(x,y)=λρl1(x-y)+(1-λρ)SSIM(x,y);
其中,SSIM为结构相似性指数,λρ为l1与SSIM之间的平衡系数。
进一步地,基于所述光度误差,构建光流损失函数
Figure BDA0003034661420000142
Figure BDA0003034661420000143
其中,It为所述连续变化场景中的当前帧左目场景图像,
Figure BDA0003034661420000144
为下一帧左目场景图像It+1经过光流场
Figure BDA0003034661420000151
进行投影后在t时刻的重构图像;
Figure BDA0003034661420000152
为图像It
Figure BDA0003034661420000153
之间的光度误差;Mnoc为图像It
Figure BDA0003034661420000154
之间无遮挡区域;Ω为整个图像域。
进一步地,构建边界敏感平滑损失函数
Figure BDA0003034661420000155
该损失函数用来平滑正则化光流场的分布,同时保持不同物体边界的锐利,具体为:
Figure BDA0003034661420000156
其中,
Figure BDA0003034661420000157
为二阶梯度算子。
进一步地,基于所述光度误差,构建深度损失函数
Figure BDA0003034661420000158
Figure BDA0003034661420000159
其中,
Figure BDA00030346614200001510
为所述连续变化场景中的当前帧右目场景图像It R通过深度图D进行投影重构得到;
Figure BDA00030346614200001511
为从右视角深度图投影得到的左视角深度重构图。
进一步地,构建边界损失函数
Figure BDA00030346614200001512
边界损失函数
Figure BDA00030346614200001513
用来防止RfM模块计算得到平凡解,具体为:
Figure BDA00030346614200001514
其中,MR为RfM模块计算得到的刚性区域。
进一步地,基于所述光度误差,构建刚性光度损失函数,该损失函数通过最小化图像It和通过刚性流
Figure BDA00030346614200001515
重构的图像
Figure BDA00030346614200001516
之间的光度误差,优化场景流估计模型。具体为:
Figure BDA00030346614200001517
综合上述损失函数,以及每一损失函数对应预设的权重系数,得到训练该场景流估计模型的总体优化损失函数E:
Figure BDA00030346614200001518
所述场景流估计模型的训练可以建模为所述优化损失函数E的最小能量问题。具体地,通过判断所述优化损失函数是否达到预设的收敛条件;当所述优化损失函数未达到预设的收敛条件时,计算损失函数梯度,采用梯度下降法对所述场景流估计模型(包括光流估计子模型、深度估计子模型和刚性像素推断子模型)的网络参数进行更新,并利用更新后的光流估计子模型、深度估计子模型和刚性像素推断子模型,重新计算所述光流场、所述深度图和所述刚性区域,以再次计算所述优化损失函数E。以此不断调整所述场景流估计模型的网络参数设置,以不断降低所述优化损失函数,直到所述优化损失函数的值趋于最小化,也即达到所述预设的收敛条件时,所述光流估计子模型、深度估计子模型和刚性像素推断子模型训练完成,得到训练完成的场景流估计模型,可用于实现对待测场景的场景流估计。
本发明实施例一提供了一种场景流估计模型的训练方法,通过获取连续变化场景中的每一帧场景图像构成训练数据集,构建光流估计子模型、深度估计子模型和刚性像素推断子模型,得到场景流估计模型。根据所述训练数据集,分别估计场景的光流场和深度图,再通过求解最小化优化问题计算相机姿态,并以此得到场景的刚性流场;将所述光流场和刚性流场作为所述刚性像素推断子模型的输入,对场景中刚性-非刚性像素运动关系进行显式建模与分割,得到自适应刚性掩码模板,计算得到当前帧场景图像的刚性区域。根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数;并以所优化损失函数最小化为目标,更新所述场景流估计模型的参数,以得到训练完成的场景流估计模型,用于实现场景流估计。采用本发明实施例的技术手段,摒弃了现有技术中的额外设置的刚性像素分割网络,而是通过设计刚性像素推断模型,联合光流-深度-相机姿态等信息,学习不同运动之间的相关性,高效且自适应地推理场景刚性像素,显著提高刚性-非刚性物体识别准确率,加强物体运动过程中的刚性像素约束,提高了后续场景流估计的整体准确率与鲁棒性。同时,本发明实施例通过无监督学习来训练场景流估计模型,整个训练过程不需要任何标注标签,降低了开发过程中的人工标注难度与训练成本。
参见图2,是本发明实施例二提供的一种场景流估计方法的流程示意图。本发明实施例二提供的一种场景流估计方法,采用如上述实施例一所述的场景流估计模型的训练方法所训练完成的场景流估计模型进行场景流估计。所述场景流估计方法,通过步骤S21至S25执行:
S21、获取待测场景中的每一帧场景图像。
S22、根据所述待测场景中的每一帧场景图像、所述光流估计子模型和所述深度估计子模型,得到所述待测场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述待测场景中当前帧到下一帧的刚性流场。
S23、将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性像素掩码模板。
S24、将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场,基于所述刚性像素掩码模板进行融合,得到融合后的光流场。
S25、根据所述待测场景中每连续两帧场景图像对应的融合后的光流场,得到所述待测场景的场景流信息。
具体地,采用上述实施例所述的场景流估计模型的训练方法,得到训练完成的场景流估计模型,包括训练完成的光流估计子模型FlowCNN、深度估计子模型DepthCNN和刚性像素推断子模型RfM。
参见图3,是本发明实施例中所述场景流估计模型的系统框架示意图。在对待测场景进行场景流估计的过程中,首先获取待测场景中双目相机拍摄得到的每一帧场景图像。遍历所述待测场景中的每一帧左目场景图像和每一帧右目场景图像,以当前帧左目场景图像It和下一帧左目场景图像It+1组成连续时间图像对(It,It+1);以当前帧左目场景图像It和当前帧右目场景图像
Figure BDA0003034661420000171
组成立体视觉图像对
Figure BDA0003034661420000172
优选地,对每一所述帧场景图像进行数据增强、灰度值归一化和均值、方差标准化处理,得到每一帧标准输入场景图像。
进一步地,将增强和归一化处理后的连续时间图像对(It,It+t1)作为所述训练完成的光流估计子模型FlowCNN的输入,通过前向传播,计算得到t至t+1时刻物体运动的光流场
Figure BDA0003034661420000181
将增强和归一化处理后的立体视觉图像对
Figure BDA0003034661420000182
作为深度估计网络DepthCNN的输入,通过前向传播,计算得到t时刻场景的单通道深度图D。
根据所述光流场
Figure BDA0003034661420000183
和所述深度图D,通过PnP算法及Levenberg-Marquardt优化方法求解相机姿态模型
Figure BDA0003034661420000184
得到所述相机姿态矩阵P。进而根据所述深度图D和所述相机姿态矩阵P,通过以下计算公式,计算所述待测场景中当前帧到下一帧的刚性流场:
Figure BDA0003034661420000185
进一步地,将所述光流场
Figure BDA0003034661420000186
和刚性流场
Figure BDA0003034661420000187
作为所述刚性像素推断子模型RfM的输入,以预测所述待测场景中的刚性区域。
具体地,对光流场
Figure BDA0003034661420000188
和刚性流场
Figure BDA0003034661420000189
之间的相关性进行建模,得到相关性图CF,统计计算得到的相关性图CF的数值分布,得到其直方图hF,作为所述边界学习神经网络的输入,通过前向传播,计算得到刚性区域与非刚性区域的边界值g(hF|θ)。根据所述刚性区域与非刚性区域的边界值,计算得到刚性像素掩码模板:
Figure BDA00030346614200001810
并根据所述刚性像素掩码模板,对当前帧左目场景图像中的非刚性像素进行剔除,得到当前帧左目场景图像It的刚性区域。
进一步地,通过以下计算公式,将所述当前帧到下一帧的光流场
Figure BDA00030346614200001811
和所述当前帧到下一帧的刚性流场
Figure BDA00030346614200001812
基于所述刚性像素掩码模板MR进行融合,得到融合后的t至t+1时刻的光流场Ft→t+1
Figure BDA00030346614200001813
融合后的光流场Ft→t+1可以更精细的描述连续变化图像的物体运动变化,既在刚性区域具有刚性约束,也在非刚性区域具有光流估计网络FlowCNN得到的运动自由度。
最后,通过遍历所述待测场景中的每一帧场景图像,计算每连续两帧场景图像对应的融合后的光流场,得到所述待测场景的场景流信息。
本发明实施例二提供了一种场景流估计方法,通过获取待测场景中的每一帧场景图像,根据预先构建并训练完成的光流估计子模型和深度估计子模型,分别估计场景的光流场和深度图,再通过求解最小化优化问题计算相机姿态,并以此得到场景的刚性流场;将所述光流场和刚性流场作为所述刚性像素推断子模型的输入,对场景中刚性-非刚性像素运动关系进行显式建模与分割,得到自适应的刚性像素掩码模板,将所述光流场和所述刚性流场基于所述刚性像素掩码模板进行融合,得到融合后的光流场,以得到所述待测场景的场景流信息。采用本发明实施例的技术手段,能够同时完成刚性像素分割与场景流估计,摒弃了现有技术中的额外设置的刚性像素分割网络。通过设计刚性像素推断模型,联合光流-深度-相机姿态等信息,学习不同运动之间的相关性,高效且自适应地推理场景刚性像素,显著提高刚性-非刚性物体识别准确率,加强物体运动过程中的刚性像素约束,提高了场景流估计的整体准确率与鲁棒性。
参见图4,是本发明实施例三提供的一种场景流估计模型的训练装置的结构示意图。本发明实施例三提供的一种场景流估计模型的训练装置30,包括:训练数据集获取模块31、场景流估计模型构建模块32、第一刚性流场计算模块33、刚性区域计算模块34和场景流估计模型训练模块35;其中,
所述训练数据集获取模块31,用于获取训练数据集;所述训练数据集由连续变化场景中的每一帧场景图像构成;
所述场景流估计模型构建模块32,用于构建场景流估计模型;其中,所述场景流估计模型包括光流估计子模型、深度估计子模型和刚性像素推断子模型;
所述第一刚性流场计算模块33,用于根据所述训练数据集、所述光流估计子模型和所述深度估计子模型,得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述连续变化场景中当前帧到下一帧的刚性流场;
所述刚性区域计算模块34,用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性区域;
所述场景流估计模型训练模块35,用于根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数;并以所优化损失函数最小化为目标,更新所述场景流估计模型的参数,以得到训练完成的场景流估计模型。
需要说明的是,本发明实施例提供的一种场景流估计模型的训练装置用于执行上述实施例一所述的一种场景流估计模型的训练方法的所有流程步骤,两者的工作原理和有益效果一一对应,因而不再赘述。
参见图5,是本发明实施例四提供的一种场景流估计装置的结构示意图。本发明实施例四提供了一种场景流估计装置40,采用如实施例一所述的场景流估计模型的训练方法所训练完成的场景流模型进行场景流估计;所述场景流估计装置40,包括:待测场景获取模块41、第二刚性流场计算模块42、刚性像素掩模计算模块43、光流场融合模块44和场景流信息获得模块45;其中,
所述待测场景获取模块41,用于获取待测场景中的每一帧场景图像;
所述第二刚性流场计算模块42,用于根据所述待测场景中的每一帧场景图像、所述光流估计子模型和所述深度估计子模型,得到所述待测场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述待测场景中当前帧到下一帧的刚性流场;
所述刚性像素掩模计算模块43,用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性像素掩码模板;
所述光流场融合模块44,用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场,基于所述刚性像素掩码模板进行融合,得到融合后的光流场;
所述场景流信息获得模块45,根据所述待测场景中每连续两帧场景图像对应的融合后的光流场,得到所述待测场景的场景流信息。
需要说明的是,本发明实施例提供的一种场景流估计装置用于执行上述实施二例所述的一种场景流估计方法的所有流程步骤,两者的工作原理和有益效果一一对应,因而不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (12)

1.一种场景流估计模型的训练方法,其特征在于,包括:
获取训练数据集;所述训练数据集由连续变化场景中的每一帧场景图像构成;
构建场景流估计模型;其中,所述场景流估计模型包括光流估计子模型、深度估计子模型和刚性像素推断子模型;
根据所述训练数据集、所述光流估计子模型和所述深度估计子模型,得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述连续变化场景中当前帧到下一帧的刚性流场;
将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性区域;
根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数;并以所优化损失函数最小化为目标,更新所述场景流估计模型的参数,以得到训练完成的场景流估计模型。
2.如权利要求1所述的场景流估计模型的训练方法,其特征在于,所述训练数据集中包括若干连续时间图像对和若干立体视觉图像对;所述连续时间图像对由所述连续变化场景中的当前帧左目场景图像和下一帧左目场景图像组成;所述立体视觉图像对由所述连续变化场景中的当前帧左目场景图像和当前帧右目场景图像组成;
则,所述根据所述训练数据集、所述光流估计子模型和所述深度估计子模型,得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述连续变化场景中当前帧到下一帧的刚性流场,具体包括:
将所述连续时间图像对作为所述光流估计子模型的输入,计算所述连续变化场景中当前帧到下一帧的光流场;
将所述立体视觉图像对作为所述深度估计子模型的输入,计算所述连续变化场景中当前帧的深度图;
根据所述光流场和所述深度图,计算所述连续变化场景中当前帧到下一帧的刚性流场。
3.如权利要求2所述的场景流估计模型的训练方法,其特征在于,所述根据所述光流场和所述深度图,计算所述连续变化场景中当前帧到下一帧的刚性流场,具体包括:
根据所述光流场和所述深度图,通过以下计算公式,求解相机姿态矩阵P:
Figure FDA0003034661410000021
根据所述深度图和所述相机姿态矩阵,通过以下计算公式,计算所述连续变化场景中当前帧到下一帧的刚性流场:
Figure FDA0003034661410000022
其中,
Figure FDA0003034661410000023
为所述当前帧到下一帧的光流场,D为所述当前帧的深度图,P为所述相机姿态矩阵;
Figure FDA0003034661410000024
为当前帧左目场景图像It的坐标通过光流变换后在t+1时刻的二维坐标;Xt=[xt;D]为当前帧左目场景图像在t时刻的三维坐标;
Figure FDA0003034661410000025
为相机内参数;d为三维坐标投影到二维坐标时的归一化系数;dt为t时刻的图像深度值;tt+1为t+1时刻三维坐标投影到二维坐标时的归一化系数;t时刻表示当前帧,t+1时刻表示下一帧。
4.如权利要求1所述的场景流估计模型的训练方法,其特征在于,所述将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性区域,具体包括:
对所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场的相关性进行建模,以求解得到所述光流场和所述刚性流场的相关性图;
根据所述相关性图的数值分布,得到对应的相关性直方图;
将所述相关性直方图作为预设的边界学习神经网络的输入,计算得到刚性区域与非刚性区域的边界值;
根据所述刚性区域与非刚性区域的边界值,计算得到刚性像素掩码模板,以得到当前帧左目场景图像的刚性区域。
5.如权利要求4所述的场景流估计模型的训练方法,其特征在于,所述相关性图具体为:
Figure FDA0003034661410000031
其中,fc算子用于逐点计算
Figure FDA0003034661410000032
Figure FDA0003034661410000033
之间的相关性;
Figure FDA0003034661410000034
算子用于对得到的相关性数值进行0-1归一化。
6.如权利要求4所述的场景流估计模型的训练方法,其特征在于,所述刚性像素掩码模板具体为:
Figure FDA0003034661410000035
其中,CF为所述相关性图,hF为所述相关性直方图,g(hF|θ)为所述刚性区域与非刚性区域的边界值,α为预设的控制因子;1代表刚性像素点,0代表非刚性像素点。
7.如权利要求1所述的场景流估计模型的训练方法,其特征在于,所述根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数;并以所优化损失函数最小化为目标,更新所述场景流估计模型的参数,以得到训练完成的场景流估计模型,具体包括:
根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数:
Figure FDA0003034661410000036
其中,
Figure FDA0003034661410000041
为光流损失函数,
Figure FDA0003034661410000042
为边界敏感平滑损失函数,
Figure FDA0003034661410000043
为深度损失函数,
Figure FDA0003034661410000044
为边界损失函数,
Figure FDA0003034661410000045
为刚性光度损失函数,λf、λs、λd、λbnd、λr为对应的权重系数;
判断所述优化损失函数是否达到预设的收敛条件;
若所述优化损失函数未达到预设的收敛条件,采用梯度下降法对所述场景流估计模型的参数进行更新,并重新计算所述光流场、所述深度图和所述刚性区域;
若所述优化损失函数达到预设的收敛条件,得到训练完成的场景流估计模型。
8.如权利要求7所述的场景流估计模型的训练方法,其特征在于,所述光流损失函数具体为:
Figure FDA0003034661410000046
所述边界敏感平滑损失函数具体为:
Figure FDA0003034661410000047
所述深度损失函数具体为:
Figure FDA0003034661410000048
所述边界损失函数具体为:
Figure FDA0003034661410000049
所述刚性光度损失函数具体为:
Figure FDA00030346614100000410
其中,ρ(x,y)表示图像x和图像y之间的光度误差,ρ(x,y)=λρl1(x-y)+(1-λρ)SSIM(x,y),SSIM为结构相似性指数,λρ为l1与SSIM之间的平衡系数;It为所述连续变化场景中的当前帧左目场景图像,
Figure FDA00030346614100000411
为下一帧左目场景图像It+1经过光流场
Figure FDA00030346614100000412
进行投影后在t时刻的重构图像;Mnoc为图像
Figure FDA00030346614100000413
Figure FDA00030346614100000414
之间无遮挡区域;Ω为整个图像域;
Figure FDA00030346614100000415
为二阶梯度算子,
Figure FDA00030346614100000416
为所述连续变化场景中的当前帧右目场景图像It R通过深度图D进行投影重构得到;
Figure FDA00030346614100000417
为从右视角深度图投影得到的左视角深度重构图;MR为所述刚性区域,
Figure FDA00030346614100000418
为通过刚性流场
Figure FDA00030346614100000419
重构的图像;t时刻表示当前帧,t+1时刻表示下一帧。
9.一种场景流估计方法,其特征在于,采用如权利要求1-8任一项所述的场景流估计模型的训练方法所训练完成的场景流估计模型进行场景流估计;所述场景流估计方法,包括:
获取待测场景中的每一帧场景图像;
根据所述待测场景中的每一帧场景图像、所述光流估计子模型和所述深度估计子模型,得到所述待测场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述待测场景中当前帧到下一帧的刚性流场;
将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性像素掩码模板;
将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场,基于所述刚性像素掩码模板进行融合,得到融合后的光流场;
根据所述待测场景中每连续两帧场景图像对应的融合后的光流场,得到所述待测场景的场景流信息。
10.如权利要求9所述的场景流估计模型的训练方法,其特征在于,所述将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场,基于所述刚性像素掩码模板进行融合,得到融合后的光流场,具体包括:
通过以下计算公式,将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场,基于所述刚性像素掩码模板进行融合,得到融合后的光流场:
Figure FDA0003034661410000051
其中,
Figure FDA0003034661410000052
为所述当前帧到下一帧的光流场,
Figure FDA0003034661410000053
为所述当前帧到下一帧的刚性流场,MR为所述刚性像素掩码模板;t时刻表示当前帧,t+1时刻表示下一帧。
11.一种场景流估计模型的训练装置,其特征在于,包括:
训练数据集获取模块,用于获取训练数据集;所述训练数据集由连续变化场景中的每一帧场景图像构成;
场景流估计模型构建模块,用于构建场景流估计模型;其中,所述场景流估计模型包括光流估计子模型、深度估计子模型和刚性像素推断子模型;
第一刚性流场计算模块,用于根据所述训练数据集、所述光流估计子模型和所述深度估计子模型,得到所述连续变化场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述连续变化场景中当前帧到下一帧的刚性流场;
刚性区域计算模块,用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性区域;
场景流估计模型训练模块,用于根据所述光流场、所述深度图和所述刚性区域,计算优化损失函数;并以所优化损失函数最小化为目标,更新所述场景流估计模型的参数,以得到训练完成的场景流估计模型。
12.一种场景流估计装置,其特征在于,采用如权利要求1-8任一项所述的场景流估计模型的训练方法所训练完成的场景流模型进行场景流估计;所述场景流估计装置,包括:
待测场景获取模块,用于获取待测场景中的每一帧场景图像;
第二刚性流场计算模块,用于根据所述待测场景中的每一帧场景图像、所述光流估计子模型和所述深度估计子模型,得到所述待测场景中当前帧到下一帧的光流场和当前帧的深度图,以计算所述待测场景中当前帧到下一帧的刚性流场;
刚性像素掩模计算模块,用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场作为所述刚性像素推断子模型的输入,计算当前帧场景图像的刚性像素掩码模板;
光流场融合模块,用于将所述当前帧到下一帧的光流场和所述当前帧到下一帧的刚性流场,基于所述刚性像素掩码模板进行融合,得到融合后的光流场;
场景流信息获得模块,根据所述待测场景中每连续两帧场景图像对应的融合后的光流场,得到所述待测场景的场景流信息。
CN202110439951.9A 2021-04-23 2021-04-23 一种场景流估计、场景流估计模型的训练方法和装置 Pending CN113160278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110439951.9A CN113160278A (zh) 2021-04-23 2021-04-23 一种场景流估计、场景流估计模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110439951.9A CN113160278A (zh) 2021-04-23 2021-04-23 一种场景流估计、场景流估计模型的训练方法和装置

Publications (1)

Publication Number Publication Date
CN113160278A true CN113160278A (zh) 2021-07-23

Family

ID=76869890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110439951.9A Pending CN113160278A (zh) 2021-04-23 2021-04-23 一种场景流估计、场景流估计模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN113160278A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494332A (zh) * 2022-01-21 2022-05-13 四川大学 一种无监督的合成到真实LiDAR点云场景流估计方法
CN114663347A (zh) * 2022-02-07 2022-06-24 中国科学院自动化研究所 无监督的物体实例检测方法及装置
CN114972517A (zh) * 2022-06-10 2022-08-30 上海人工智能创新中心 一种基于raft的自监督深度估计方法
CN115272423A (zh) * 2022-09-19 2022-11-01 深圳比特微电子科技有限公司 一种训练光流估计模型的方法、装置和可读存储介质
CN114972517B (zh) * 2022-06-10 2024-05-31 上海人工智能创新中心 一种基于raft的自监督深度估计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法
CN110310362A (zh) * 2019-06-24 2019-10-08 中国科学院自动化研究所 基于深度图及imu的高动态场景三维重建方法、系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法
CN110310362A (zh) * 2019-06-24 2019-10-08 中国科学院自动化研究所 基于深度图及imu的高动态场景三维重建方法、系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG JIAO ET AL.: ""EffiScene: Efficient Per-Pixel Rigidity Inference for Unsupervised Joint Learning of Optical Flow, Depth, Camera Pose and Motion Segmentation"", 《ARXIV》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494332A (zh) * 2022-01-21 2022-05-13 四川大学 一种无监督的合成到真实LiDAR点云场景流估计方法
CN114494332B (zh) * 2022-01-21 2023-04-25 四川大学 一种无监督的合成到真实LiDAR点云场景流估计方法
CN114663347A (zh) * 2022-02-07 2022-06-24 中国科学院自动化研究所 无监督的物体实例检测方法及装置
CN114663347B (zh) * 2022-02-07 2022-09-27 中国科学院自动化研究所 无监督的物体实例检测方法及装置
CN114972517A (zh) * 2022-06-10 2022-08-30 上海人工智能创新中心 一种基于raft的自监督深度估计方法
CN114972517B (zh) * 2022-06-10 2024-05-31 上海人工智能创新中心 一种基于raft的自监督深度估计方法
CN115272423A (zh) * 2022-09-19 2022-11-01 深圳比特微电子科技有限公司 一种训练光流估计模型的方法、装置和可读存储介质

Similar Documents

Publication Publication Date Title
CN112258618B (zh) 基于先验激光点云与深度图融合的语义建图与定位方法
CN108986136B (zh) 一种基于语义分割的双目场景流确定方法及系统
CN111190981B (zh) 一种三维语义地图的构建方法、装置、电子设备及存储介质
CN113160278A (zh) 一种场景流估计、场景流估计模型的训练方法和装置
US20200311855A1 (en) Object-to-robot pose estimation from a single rgb image
US6757571B1 (en) System and process for bootstrap initialization of vision-based tracking systems
CN112991413A (zh) 自监督深度估测方法和系统
CN113657560B (zh) 基于节点分类的弱监督图像语义分割方法及系统
CN111696110B (zh) 场景分割方法及系统
CN108764244B (zh) 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN113312973B (zh) 一种手势识别关键点特征提取方法及系统
JP6901803B2 (ja) フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置
CN114937083B (zh) 一种应用于动态环境的激光slam系统及方法
CN111931603B (zh) 基于竞合网络的双流卷积网络的人体动作识别系统及方法
CN112001859A (zh) 一种人脸图像的修复方法及系统
US20230130281A1 (en) Figure-Ground Neural Radiance Fields For Three-Dimensional Object Category Modelling
CN111539983A (zh) 基于深度图像的运动物体分割方法及系统
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN115249321A (zh) 训练神经网络的方法、训练神经网络的系统以及神经网络
CN113421210B (zh) 一种基于双目立体视觉的表面点云重建方法
CN115035172A (zh) 基于置信度分级及级间融合增强的深度估计方法及系统
CN111462184A (zh) 基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法
Basak et al. Monocular depth estimation using encoder-decoder architecture and transfer learning from single RGB image
Wirges et al. Self-supervised flow estimation using geometric regularization with applications to camera image and grid map sequences
CN115219492B (zh) 一种三维物体的外观图像采集方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723