CN111311664A - 一种深度、位姿与场景流的联合无监督估计方法及系统 - Google Patents

一种深度、位姿与场景流的联合无监督估计方法及系统 Download PDF

Info

Publication number
CN111311664A
CN111311664A CN202010140536.9A CN202010140536A CN111311664A CN 111311664 A CN111311664 A CN 111311664A CN 202010140536 A CN202010140536 A CN 202010140536A CN 111311664 A CN111311664 A CN 111311664A
Authority
CN
China
Prior art keywords
point cloud
network
frame
scene
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010140536.9A
Other languages
English (en)
Other versions
CN111311664B (zh
Inventor
王贺升
王光明
张弛
田晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010140536.9A priority Critical patent/CN111311664B/zh
Publication of CN111311664A publication Critical patent/CN111311664A/zh
Application granted granted Critical
Publication of CN111311664B publication Critical patent/CN111311664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

本发明提供了一种深度、位姿与场景流的联合无监督估计方法及系统,包括:步骤M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;步骤M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;步骤M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下,第一帧图像的空间点云
Figure DDA0002398926960000011
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure DDA0002398926960000012
步骤M4:根据场景流差异、第一帧图像的空间点云
Figure DDA0002398926960000013
和第二帧图像的空间点云
Figure DDA0002398926960000014
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习;本发明解决了场景流网络、深度网络、位姿网络的训练过程中缺乏标注数据集的问题,降低了训练模型的成本,并实现了较高的准确性,有利于实际应用。

Description

一种深度、位姿与场景流的联合无监督估计方法及系统
技术领域
本发明涉及计算机视觉领域,具体地,涉及一种无监督学习方法及系统,更为具体地,涉及一种基于深度网络、位姿网络与场景流网络的联合无监督学习方法。
背景技术
深度估计是预测一帧图像中每个像素点的深度,通过深度估计可以通过图像获得环境的三维空间信息,因此深度估计在无人驾驶领域等有较为广泛的应用。早期的深度估计集中于立体图形,通过设计基于几何学的算法来估计深度,而随着近期深度学习在图像识别领域的应用,应用卷积神经网络提取图像的深度信息取得了较好的成果。
位姿估计在计算机视觉领域有深远的意义,但也是一项巨大的挑战:给定若干传感器检测到的图像信息,想要得到传感器的运动信息,需要排除尺度变换、遮挡、模糊与噪声、光照等等因素的干扰。
目前在运动图像分析的研究中,场景流法成为了一种新兴起的研究方法。场景流结合立体空间的深度信息与传统的光流信息,实现了较好的场景适应性,且无需先验知识,在运动目标检测任务中表现良好。此外,它可以补充和改进最先进的视觉测距和SLAM算法,在机器人技术中用于实现动态环境中的自主导航与操纵。
本发明提出一种深度网络、位姿网络与场景流网络的联合无监督学习方法:基于场景流变换一致性损失与点云重建损失,在训练过程中场景流网络与深度网络、位姿网络间相互监督,起到联合训练的效果。采用无监督学习方法,无需带有标注的数据集,可以降低学习的成本,最终实现了较高的准确性。
名词解释:
点云:对于某一帧图像的深度图,结合相机内参,可以将深度图中的每一个像素点投影到该帧相机坐标系下的三维空间中。点云即三维坐标系下所有投影点的集合,点云包含丰富的信息,如三维坐标、RGB颜色值等等,在测绘、自动驾驶、医疗等领域有较为广泛的应用。
场景流与场景流网络:场景流把对物体的运动估计由二维推广至三维,可以反应空间中物体运动形成的三维运动场,本文中场景流为点云在三维坐标系下发生的相对位移,包括由于相机运动引起的静态场景流,点云自运动引起的动态场景流,以及包含两者的整体场景流。场景流网络可通过输入两帧图像对应的空间点云,给出两点云间的场景流,实现场景流估计。
图像深度与深度网络:图像深度是2D图像中每个像素点的深度信息。单目深度估计是只通过单帧图像获得图像的深度,相当于从二维图像推测出三维空间,其难度非常大。目前较为流行的研究方法是利用卷积神经网络估计深度,向神经网络输入单帧图像,网络对深度进行估计并输出该帧图像对应深度图。深度估计在3D建模、场景识别等领域有较大应用。
位姿估计与位姿网络:位姿估计是指给定若干图像,估计拍摄图像的相机的运动问题。通过位姿变换,可以从当前相机的位置与拍摄角度推演得到下一时刻相机的位置与拍摄角度。位姿网络通过输入两帧的图像,输出相机从第一帧运动至第二帧过程中的位姿变换。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种深度、位姿与场景流的联合无监督估计方法及系统。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计方法,包括:
步骤M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
步骤M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
步骤M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure BDA0002398926940000021
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure BDA0002398926940000022
步骤M4:根据场景流差异、第一帧图像的空间点云
Figure BDA0002398926940000023
和第二帧图像的空间点云
Figure BDA0002398926940000024
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
优选地,所述步骤M4包括:
步骤M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
步骤M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
优选地,所述步骤M4.1包括:
步骤M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure BDA0002398926940000031
在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000032
根据第二帧图像中的空间点云
Figure BDA0002398926940000033
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000034
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure BDA0002398926940000035
步骤M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000036
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000037
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000038
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000039
得到两个点云间的动态场景流sfd,计算公式如下:
Figure BDA00023989269400000310
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
步骤M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400000311
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000312
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400000313
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000314
得到两个点云间的整体场景流sfo,计算公式如下:
Figure BDA00023989269400000315
步骤M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
Figure BDA00023989269400000316
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure BDA00023989269400000317
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure BDA00023989269400000318
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
步骤M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
优选地,所述步骤M4.2包括:
步骤M4.2.1:利用场景流网络,第一帧图像空间点云
Figure BDA0002398926940000041
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000042
计算公式如下:
Figure BDA0002398926940000043
Figure BDA0002398926940000044
其中,
Figure BDA0002398926940000045
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
步骤M4.2.2:利用第二帧图像的空间点云
Figure BDA0002398926940000046
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000047
的差异,计算整体场景流点云重建损失Epc-a
步骤M4.2.3:由第一帧图像的空间点云
Figure BDA0002398926940000048
经过静态场景流sfs变换得到空间点云
Figure BDA0002398926940000049
再由空间点云
Figure BDA00023989269400000410
经过动态场景流sfd′变换后得到空间点云
Figure BDA00023989269400000411
所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得。根据空间点云
Figure BDA00023989269400000412
与第二帧图像的空间点云
Figure BDA00023989269400000413
间差异,计算动静态场景流点云重建损失Epc-b
步骤M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失EPc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
步骤M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时,停止训练。
优选地,所述步骤M4.2.2包括:
步骤M4.2.2.1:对空间点云
Figure BDA00023989269400000414
中的每一个点
Figure BDA00023989269400000415
根据
Figure BDA00023989269400000416
的坐标
Figure BDA00023989269400000417
Figure BDA00023989269400000418
的点云中找到与坐标
Figure BDA00023989269400000419
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400000420
如下:
Figure BDA0002398926940000051
Figure BDA0002398926940000052
Figure 1
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA0002398926940000054
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure BDA0002398926940000055
的重建点P*(R*,G*,B*);
步骤M4.2.2.2:计算空间点云
Figure BDA0002398926940000056
中所有点的整体场景流点云重建损失Epc-a
Figure BDA0002398926940000057
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000058
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述步骤M4.2.3包括:
步骤M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000059
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000510
Figure BDA00023989269400000511
所述静态场景流sfs为上述步骤M4.1.1步骤算法所得;
步骤M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000512
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000513
Figure BDA00023989269400000514
Figure BDA00023989269400000515
步骤M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000516
中的每一个点
Figure BDA00023989269400000517
根据
Figure BDA00023989269400000518
的坐标
Figure BDA00023989269400000519
在第二帧图像的空间点云
Figure BDA00023989269400000520
的空间点云中找到与坐标
Figure BDA00023989269400000521
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400000522
如下:
Figure BDA00023989269400000523
Figure BDA0002398926940000061
Figure BDA0002398926940000062
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA0002398926940000063
间的距离;Ri、Gi、Bi对应点PI在颜色空间RGB上的对应值,由插值得到了
Figure BDA0002398926940000064
的重建点P*(R*,G*,B*);
步骤M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000065
中所有点的动静态场景流点云重建损失Epc-b
Figure BDA0002398926940000066
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000067
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计系统,包括:
模块M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
模块M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
模块M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure BDA0002398926940000068
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure BDA0002398926940000069
模块M4:根据场景流差异、第一帧图像的空间点云
Figure BDA00023989269400000610
和第二帧图像的空间点云
Figure BDA00023989269400000611
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
优选地,所述模块M4包括:
模块M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
模块M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
优选地,所述模块M4.1包括:
模块M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure BDA00023989269400000612
在第一帧相机坐标系下的空间点云
Figure BDA00023989269400000613
根据第二帧图像中的空间点云
Figure BDA00023989269400000614
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000071
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure BDA0002398926940000072
模块M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000073
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000074
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000075
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000076
得到两个点云间的动态场景流sfd,计算公式如下:
Figure BDA0002398926940000077
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
模块M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000078
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000079
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400000710
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000711
得到两个点云间的整体场景流sfo,计算公式如下:
Figure BDA00023989269400000712
模块M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
Figure BDA00023989269400000713
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure BDA00023989269400000714
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure BDA00023989269400000715
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
模块M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
优选地,所述模块M4.2包括:
模块M4.2.1:利用场景流网络,第一帧图像空间点云
Figure BDA00023989269400000716
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000081
计算公式如下:
Figure BDA0002398926940000082
Figure BDA0002398926940000083
其中,
Figure BDA0002398926940000084
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
模块M4.2.2:利用第二帧图像的空间点云
Figure BDA0002398926940000085
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000086
的差异,计算整体场景流点云重建损失Epc-a
模块M4.2.3:由第一帧图像的空间点云
Figure BDA0002398926940000087
经过静态场景流sfs变换得到空间点云
Figure BDA0002398926940000088
再由空间点云
Figure BDA0002398926940000089
经过动态场景流sfd′变换后得到空间点云
Figure BDA00023989269400000810
所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得。根据空间点云
Figure BDA00023989269400000811
与第二帧图像的空间点云
Figure BDA00023989269400000812
间差异,计算动静态场景流点云重建损失Epc-b
模块M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
模块M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到场景流网络中每一个参数的梯度,在通过梯度下降算法实现场景流网络参数的更新,实现场景流网络的训练,当场景流网络收敛即总点云重建损失不再降低时,停止训练。
优选地,所述模块M4.2.2包括:
模块M4.2.2.1:对空间点云
Figure BDA00023989269400000813
中的每一个点
Figure BDA00023989269400000814
根据
Figure BDA00023989269400000815
的坐标
Figure BDA00023989269400000816
Figure BDA00023989269400000817
的点云中找到与坐标
Figure BDA00023989269400000818
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400000819
如下:
Figure BDA00023989269400000820
Figure BDA00023989269400000821
Figure BDA00023989269400000822
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA00023989269400000823
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure BDA00023989269400000824
的重建点P*(R*,G*,B*);
模块M4.2.2.2:计算空间点云
Figure BDA00023989269400000825
中所有点的整体场景流点云重建损失Epc-a
Figure BDA00023989269400000826
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000091
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述模块M4.2.3包括:
模块M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000092
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000093
Figure BDA0002398926940000094
所述静态场景流sfs为上述模块M4.1.1模块算法所得;
模块M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000095
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000096
Figure BDA0002398926940000097
Figure BDA0002398926940000098
模块M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000099
中的每一个点
Figure BDA00023989269400000910
根据
Figure BDA00023989269400000911
的坐标
Figure BDA00023989269400000912
在第二帧图像的空间点云
Figure BDA00023989269400000913
的空间点云中找到与坐标
Figure BDA00023989269400000914
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400000915
如下:
Figure BDA00023989269400000916
Figure BDA00023989269400000917
Figure BDA00023989269400000918
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA00023989269400000919
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值,由插值得到了
Figure BDA00023989269400000920
的重建点P*(R*,G*,B*);
模块M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000921
中所有点的动静态场景流点云重建损失Epc-b
Figure BDA00023989269400000922
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000101
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出了一种新的深度网络、位姿网络与场景流网络的联合无监督学习方法,能够解决在训练深度网络、位姿网络与场景流网络的任务中,缺乏标注数据集的难题;
2、本发明采用无监督学习方法训练深度网络、位姿网络与场景流网络,并提出了两种损失函数:场景流变换一致性损失和点云重建损失。用两种损失函数对联合训练的结果进行惩罚,有利于下一轮的训练;
3、本发明解决了网络训练中标注数据集不足的问题,节约了人工标注数据的成本,能实现较高的准确性,有利于实际应用。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一种深度网络、位姿网络与场景流网络的联合无监督学习方法的系统框架图;
图2为步骤(A)基于场景流变换一致性损失的深度网络、位姿网络和场景流网络的联合无监督学习方法的流程图;
图3为利用sfo与(sfs+sfd)的差异计算场景流变换一致性损失的示意图;
图4为步骤(B)基于点云重建损失的深度网络、位姿网络和场景流网络的联合无监督学习方法的流程图;
图5为用距离点
Figure BDA0002398926940000102
最近的3个点重建点
Figure BDA0002398926940000103
的示意图;
图3中,sfo是整体场景流,sfs是静态场景流,sfd是动态场景流,(nx,ny,nz) 是整体场景流sfo在坐标系下的三维坐标,(mx,my,mz)是动态场景流与静态场景流之和在坐标系下的三维坐标,该图表明实际状况下sfo与(sfs+sfd)有差异性。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明提供了一种深度网络、位姿网络与场景流网络的联合无监督学习方法,其过程为,首先由深度网络与位姿网络获得连续两帧图像的深度图和两帧图像间的位姿变换,结合相机模型可以得到两帧图像对应的空间点云,由场景流网络可获得两帧点云间的场景流。定义场景流变换一致性损失与点云重建损失,对不满足一致性的场景流和重建点云进行惩罚。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计方法,包括:
步骤M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
步骤M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
步骤M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure BDA0002398926940000111
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure BDA0002398926940000112
步骤M4:根据场景流差异、第一帧图像的空间点云
Figure BDA0002398926940000113
和第二帧图像的空间点云
Figure BDA0002398926940000114
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
具体地,如图1所示,所述步骤M4包括:
步骤M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
步骤M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
具体地,如图2所示,所述步骤M4.1包括:
步骤M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure BDA0002398926940000115
在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000116
根据第二帧图像中的空间点云
Figure BDA0002398926940000117
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000118
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure BDA0002398926940000121
步骤M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000122
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000123
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000124
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000125
得到两个点云间的动态场景流sfd,计算公式如下:
Figure BDA0002398926940000126
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;网络Nst会输出两帧点云间的场景流;
步骤M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000127
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000128
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000129
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001210
得到两个点云间的整体场景流sfo,计算公式如下:
Figure BDA00023989269400001211
步骤M4.1.4:理想状态下应满足sfo与(sfs+sfd)一致,如图3所示,利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,训练场景流网络;通过计算得到的一致性损失;
如图3所示,sfo是整体场景流,sfs是静态场景流,sfd是动态场景流,(nx,ny,nz) 是整体场景流sfo在空间坐标系下的三维坐标,(mx,my,mz)是动态场景流与静态场景流之和在空间坐标系下的三维坐标。理想状态下sfo与(sfs+sfd)应当一致,即应满足mi= ni,i∈{x,y,z}。而实际状况下,如图3所示,两者存在差异,因此,利用sfo与(sfs+sfd) 定义损失函数:所述场景流变换一致性损失计算公式如下:
Figure BDA00023989269400001212
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure BDA00023989269400001213
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure BDA00023989269400001214
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数,参数∈=0.01,q=0.4;
步骤M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
具体地,如图4所示,所述步骤M4.2包括:
步骤M4.2.1:利用场景流网络,第一帧图像空间点云
Figure BDA0002398926940000131
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000132
计算公式如下:
Figure BDA0002398926940000133
Figure BDA0002398926940000134
其中,
Figure BDA0002398926940000135
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
步骤M4.2.2:理想状态下应满足
Figure BDA0002398926940000136
Figure BDA0002398926940000137
一致,利用第二帧图像的空间点云
Figure BDA0002398926940000138
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000139
的差异,计算整体场景流点云重建损失Epc-a
步骤M4.2.3:由第一帧图像的空间点云
Figure BDA00023989269400001310
经过静态场景流sfs变换得到空间点云
Figure BDA00023989269400001311
再由空间点云
Figure BDA00023989269400001312
经过动态场景流sfd′变换后得到空间点云
Figure BDA00023989269400001313
所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得;根据空间点云
Figure BDA00023989269400001314
与第二帧图像的空间点云
Figure BDA00023989269400001315
间差异,计算动静态场景流点云重建损失Epc-b
步骤M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
步骤M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到场景流网络中每一个参数的梯度,在通过梯度下降算法实现场景流网络参数的更新,实现场景流网络的训练,当场景流网络收敛即总点云重建损失不再降低时,停止训练。
具体地,所述步骤M4.2.2包括:
步骤M4.2.2.1:对空间点云
Figure BDA00023989269400001316
中的每一个点
Figure BDA00023989269400001317
根据
Figure BDA00023989269400001318
的坐标
Figure BDA00023989269400001319
Figure BDA00023989269400001320
的空间点云中找到与坐标
Figure BDA00023989269400001321
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400001322
如下:
Figure BDA00023989269400001323
Figure BDA0002398926940000141
Figure BDA0002398926940000142
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA0002398926940000143
间的距离;Ri、Ri、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure BDA0002398926940000144
的重建点P*(R*,G*,B*);
步骤M4.2.2.2:计算空间点云
Figure BDA0002398926940000145
中所有点的整体场景流点云重建损失Epc-a
Figure BDA0002398926940000146
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000147
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4;
所述步骤M4.2.3包括:
步骤M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000148
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000149
Figure BDA00023989269400001410
所述静态场景流sfs为上述步骤M4.1.1步骤算法所得;
步骤M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001411
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001412
Figure BDA00023989269400001413
Figure BDA00023989269400001414
步骤M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001415
中的每一个点
Figure BDA00023989269400001416
根据
Figure BDA00023989269400001417
的坐标
Figure BDA00023989269400001418
在第二帧图像的空间点云
Figure BDA00023989269400001419
的空间点云中找到与坐标
Figure BDA00023989269400001420
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400001421
如图5示意图,对于
Figure BDA00023989269400001422
中的点
Figure BDA00023989269400001423
Figure BDA00023989269400001424
中找到与其距离最近的三个点P1,P2,P3,并求出
Figure BDA00023989269400001425
点与三点的距离d1,d2,d3,实现对
Figure BDA00023989269400001426
点在颜色空间RGB上的重建如下:
Figure BDA0002398926940000151
Figure BDA0002398926940000152
Figure BDA0002398926940000153
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA0002398926940000154
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值,由插值得到了
Figure BDA0002398926940000155
的重建点P*(R*,G*,B*);
步骤M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000156
中所有点的动静态场景流点云重建损失Epc-b
Figure BDA0002398926940000157
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000158
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计系统,包括:
模块M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
模块M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
模块M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure BDA0002398926940000159
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure BDA00023989269400001510
模块M4:根据场景流差异、第一帧图像的空间点云
Figure BDA00023989269400001511
和第二帧图像的空间点云
Figure BDA00023989269400001512
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
具体地,如图1所示,所述模块M4包括:
模块M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
模块M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
具体地,如图2所示,所述模块M4.1包括:
模块M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure BDA0002398926940000161
在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000162
根据第二帧图像中的空间点云
Figure BDA0002398926940000163
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000164
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure BDA0002398926940000165
模块M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000166
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000167
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000168
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000169
得到两个点云间的动态场景流sfd,计算公式如下:
Figure BDA00023989269400001610
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;网络Nsf会输出两帧点云间的场景流;
模块M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400001611
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001612
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400001613
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001614
得到两个点云间的整体场景流sfo,计算公式如下:
Figure BDA00023989269400001615
模块M4.1.4:理想状态下应满足sfo与(sfs+sfd)一致,如图3所示,利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,训练场景流网络;通过计算得到的一致性损失;
如图3所示,sfo是整体场景流,sfs是静态场景流,sfd是动态场景流,(nx,ny,nz) 是整体场景流sfo在空间坐标系下的三维坐标,(mx,my,mz)是动态场景流与静态场景流之和在空间坐标系下的三维坐标。理想状态下sfo与(sfs+sfd)应当一致,即应满足mi= ni,i∈{x,y,z}。而实际状况下,如图3所示,两者存在差异,因此,利用sfo与(sfs+sfd) 定义损失函数:所述场景流变换一致性损失计算公式如下:
Figure BDA00023989269400001616
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure BDA00023989269400001617
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure BDA0002398926940000171
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数,参数∈=0.01,q=0.4;
模块M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
具体地,如图4所示,所述模块M4.2包括:
模块M4.2.1:利用场景流网络,第一帧图像空间点云
Figure BDA0002398926940000172
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000173
计算公式如下:
Figure BDA0002398926940000174
Figure BDA0002398926940000175
其中,
Figure BDA0002398926940000176
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
模块M4.2.2:理想状态下应满足
Figure BDA0002398926940000177
Figure BDA0002398926940000178
一致,利用第二帧图像的空间点云
Figure BDA0002398926940000179
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001710
的差异,计算整体场景流点云重建损失Epc-a
模块M4.2.3:由第一帧图像的空间点云
Figure BDA00023989269400001711
经过静态场景流sfs变换得到空间点云
Figure BDA00023989269400001712
再由空间点云
Figure BDA00023989269400001713
经过动态场景流sfd′变换后得到空间点云
Figure BDA00023989269400001714
所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得;根据空间点云
Figure BDA00023989269400001715
与第二帧图像的空间点云
Figure BDA00023989269400001716
间差异,计算动静态场景流点云重建损失Epc-b
模块M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
模块M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到场景流网络中每一个参数的梯度,在通过梯度下降算法实现场景流网络参数的更新,实现场景流网络的训练,当场景流网络收敛即总点云重建损失不再降低时,停止训练。
具体地,所述模块M4.2.2包括:
模块M4.2.2.1:对空间点云
Figure BDA00023989269400001717
中的每一个点
Figure BDA00023989269400001718
根据
Figure BDA00023989269400001719
的坐标
Figure BDA00023989269400001720
Figure BDA00023989269400001721
的空间点云中找到与坐标
Figure BDA0002398926940000181
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA0002398926940000182
如下:
Figure BDA0002398926940000183
Figure BDA0002398926940000184
Figure BDA0002398926940000185
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA0002398926940000186
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure BDA0002398926940000187
的重建点P*(R*,G*,B*);
模块M4.2.2.2:计算空间点云
Figure BDA0002398926940000188
中所有点的整体场景流点云重建损失Epc-a
Figure BDA0002398926940000189
其中,Ω为场景流中所有点的个数总和;
Figure BDA00023989269400001810
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4;
所述模块M4.2.3包括:
模块M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400001811
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001812
Figure BDA00023989269400001813
所述静态场景流sfs为上述模块M4.1.1模块算法所得;
模块M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001814
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001815
Figure BDA00023989269400001816
Figure BDA00023989269400001817
模块M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001818
中的每一个点
Figure BDA00023989269400001819
根据
Figure BDA00023989269400001820
的坐标
Figure BDA00023989269400001821
在第二帧图像的空间点云
Figure BDA00023989269400001822
的空间点云中找到与坐标
Figure BDA00023989269400001823
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400001824
如图5示意图,对于
Figure BDA0002398926940000191
中的点
Figure BDA0002398926940000192
Figure BDA0002398926940000193
中找到与其距离最近的三个点P1,P2,P3,并求出
Figure BDA0002398926940000194
点与三点的距离d1,d2,d3,实现对
Figure BDA0002398926940000195
点在颜色空间RGB上的重建如下:
Figure BDA0002398926940000196
Figure BDA0002398926940000197
Figure BDA0002398926940000198
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA00023989269400001912
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值,由插值得到了
Figure BDA00023989269400001913
的重建点P*(R*,G*,B*);
模块M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000199
中所有点的动静态场景流点云重建损失Epc-b
Figure BDA00023989269400001910
其中,Ω为场景流中所有点的个数总和;
Figure BDA00023989269400001911
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种深度、位姿与场景流的联合无监督估计方法,其特征在于,包括:
步骤M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
步骤M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
步骤M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure FDA0002398926930000011
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure FDA0002398926930000012
步骤M4:根据场景流差异、第一帧图像的空间点云
Figure FDA0002398926930000013
和第二帧图像的空间点云
Figure FDA0002398926930000014
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
2.根据权利要求1所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4包括:
步骤M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
步骤M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
3.根据权利要求1所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4.1包括:
步骤M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure FDA0002398926930000015
在第一帧相机坐标系下的空间点云
Figure FDA0002398926930000016
根据第二帧图像中的空间点云
Figure FDA0002398926930000017
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure FDA0002398926930000018
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure FDA0002398926930000019
步骤M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000110
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000111
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000112
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000113
得到两个点云间的动态场景流sfd,计算公式如下:
Figure FDA00023989269300000114
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
步骤M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure FDA0002398926930000021
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure FDA0002398926930000022
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA0002398926930000023
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0002398926930000024
得到两个点云间的整体场景流sfo,计算公式如下:
Figure FDA0002398926930000025
步骤M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
Figure FDA0002398926930000026
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure FDA0002398926930000027
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure FDA0002398926930000028
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
步骤M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
4.根据权利要求1所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4.2包括:
步骤M4.2.1:利用场景流网络,第一帧图像空间点云
Figure FDA0002398926930000029
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00023989269300000210
计算公式如下:
Figure FDA00023989269300000211
Figure FDA00023989269300000212
其中,
Figure FDA00023989269300000213
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
步骤M4.2.2:利用第二帧图像的空间点云
Figure FDA00023989269300000214
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00023989269300000215
的差异,计算整体场景流点云重建损失Epc-a
步骤M4.2.3:由第一帧图像的空间点云
Figure FDA00023989269300000216
经过静态场景流sfs变换得到空间点云
Figure FDA0002398926930000031
再由空间点云
Figure FDA0002398926930000032
经过动态场景流sfd′变换后得到空间点云
Figure FDA0002398926930000033
根据空间点云
Figure FDA0002398926930000034
与第二帧图像的空间点云
Figure FDA0002398926930000035
间差异,计算动静态场景流点云重建损失Epc-b
步骤M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
步骤M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时,停止训练。
5.根据权利要求4所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4.2.2包括:
步骤M4.2.2.1:对空间点云
Figure FDA0002398926930000036
中的每一个点
Figure FDA0002398926930000037
根据
Figure FDA0002398926930000038
的坐标
Figure FDA0002398926930000039
Figure FDA00023989269300000310
的点云中找到与坐标
Figure FDA00023989269300000311
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure FDA00023989269300000312
如下:
Figure FDA00023989269300000313
Figure FDA00023989269300000314
Figure FDA00023989269300000315
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure FDA00023989269300000316
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure FDA00023989269300000317
的重建点P*(R*,G*,B*);
步骤M4.2.2.2:计算空间点云
Figure FDA00023989269300000318
中所有点的整体场景流点云重建损失Epc-a
Figure FDA00023989269300000319
其中,Ω为场景流中所有点的个数总和;
Figure FDA00023989269300000320
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述步骤M4.2.3包括:
步骤M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000321
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0002398926930000041
Figure FDA0002398926930000042
所述静态场景流sfs为上述步骤M4.1.1步骤算法所得;
步骤M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0002398926930000043
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0002398926930000044
Figure FDA0002398926930000045
Figure FDA0002398926930000046
步骤M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0002398926930000047
中的每一个点
Figure FDA0002398926930000048
根据
Figure FDA0002398926930000049
的坐标
Figure FDA00023989269300000410
在第二帧图像的空间点云
Figure FDA00023989269300000411
的空间点云中找到与坐标
Figure FDA00023989269300000412
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure FDA00023989269300000413
如下:
Figure FDA00023989269300000414
Figure FDA00023989269300000415
Figure FDA00023989269300000416
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure FDA00023989269300000417
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值,由插值得到了
Figure FDA00023989269300000418
的重建点P*(R*,G*,B*);
步骤M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00023989269300000419
中所有点的动静态场景流点云重建损失Epc-b
Figure FDA00023989269300000420
其中,Ω为场景流中所有点的个数总和;
Figure FDA00023989269300000421
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
6.一种深度、位姿与场景流的联合无监督估计系统,其特征在于,包括:
模块M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
模块M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
模块M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure FDA0002398926930000051
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure FDA0002398926930000052
模块M4:根据场景流差异、第一帧图像的空间点云
Figure FDA0002398926930000053
和第二帧图像的空间点云
Figure FDA0002398926930000054
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
7.根据权利要求6所述的深度、位姿与场景流的联合无监督估计系统,其特征在于,所述模块M4包括:
模块M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
模块M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
8.根据权利要求6所述的深度、位姿与场景流的联合无监督估计系统,其特征在于,所述模块M4.1包括:
模块M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure FDA0002398926930000055
在第一帧相机坐标系下的空间点云
Figure FDA0002398926930000056
根据第二帧图像中的空间点云
Figure FDA0002398926930000057
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure FDA0002398926930000058
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure FDA0002398926930000059
模块M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000510
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000511
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000512
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000513
得到两个点云间的动态场景流sfd,计算公式如下:
Figure FDA00023989269300000514
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
模块M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000515
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure FDA00023989269300000516
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000517
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00023989269300000518
得到两个点云间的整体场景流sfo,计算公式如下:
Figure FDA0002398926930000061
模块M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
Figure FDA0002398926930000062
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure FDA0002398926930000063
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure FDA0002398926930000064
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
模块M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
9.根据权利要求6所述的深度、位姿与场景流的联合无监督估计系统,其特征在于,所述模块M4.2包括:
模块M4.2.1:利用场景流网络,第一帧图像空间点云
Figure FDA0002398926930000065
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0002398926930000066
计算公式如下:
Figure FDA0002398926930000067
Figure FDA0002398926930000068
其中,
Figure FDA0002398926930000069
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
模块M4.2.2:利用第二帧图像的空间点云
Figure FDA00023989269300000610
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00023989269300000611
的差异,计算整体场景流点云重建损失EPc-a
模块M4.2.3:由第一帧图像的空间点云
Figure FDA00023989269300000612
经过静态场景流sfs变换得到空间点云
Figure FDA00023989269300000613
再由空间点云
Figure FDA00023989269300000614
经过动态场景流sfd′变换后得到空间点云
Figure FDA00023989269300000615
根据空间点云
Figure FDA00023989269300000616
与第二帧图像的空间点云
Figure FDA00023989269300000617
间差异,计算动静态场景流点云重建损失Epc-b
模块M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
模块M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时,停止训练。
10.根据权利要求9所述的深度、位姿与场景流的联合无监督估计系统,其特征在于,所述模块M4.2.2包括:
模块M4.2.2.1:对空间点云
Figure FDA0002398926930000071
中的每一个点
Figure FDA0002398926930000072
根据
Figure FDA0002398926930000073
的坐标
Figure FDA0002398926930000074
Figure FDA0002398926930000075
的点云中找到与坐标
Figure FDA0002398926930000076
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure FDA0002398926930000077
如下:
Figure FDA0002398926930000078
Figure FDA0002398926930000079
Figure FDA00023989269300000710
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure FDA00023989269300000711
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure FDA00023989269300000712
的重建点P*(R*,G*,B*);
模块M4.2.2.2:计算空间点云
Figure FDA00023989269300000713
中所有点的整体场景流点云重建损失Epc-a
Figure FDA00023989269300000714
其中,Ω为场景流中所有点的个数总和;
Figure FDA00023989269300000715
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述模块M4.2.3包括:
模块M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00023989269300000716
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00023989269300000717
Figure FDA00023989269300000718
所述静态场景流sfs为上述模块M4.1.1模块算法所得;
模块M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0002398926930000081
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0002398926930000082
Figure FDA0002398926930000083
Figure FDA0002398926930000084
模块M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0002398926930000085
中的每一个点
Figure FDA0002398926930000086
根据
Figure FDA0002398926930000087
的坐标
Figure FDA0002398926930000088
在第二帧图像的空间点云
Figure FDA0002398926930000089
的空间点云中找到与坐标
Figure FDA00023989269300000810
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure FDA00023989269300000811
如下:
Figure FDA00023989269300000812
Figure FDA00023989269300000813
Figure FDA00023989269300000814
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure FDA00023989269300000815
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值,由插值得到了
Figure FDA00023989269300000816
的重建点P*(R*,G*,B*);
模块M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00023989269300000817
中所有点的动静态场景流点云重建损失Epc-b
Figure FDA00023989269300000818
其中,Ω为场景流中所有点的个数总和;
Figure FDA00023989269300000819
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
CN202010140536.9A 2020-03-03 2020-03-03 一种深度、位姿与场景流的联合无监督估计方法及系统 Active CN111311664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010140536.9A CN111311664B (zh) 2020-03-03 2020-03-03 一种深度、位姿与场景流的联合无监督估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010140536.9A CN111311664B (zh) 2020-03-03 2020-03-03 一种深度、位姿与场景流的联合无监督估计方法及系统

Publications (2)

Publication Number Publication Date
CN111311664A true CN111311664A (zh) 2020-06-19
CN111311664B CN111311664B (zh) 2023-04-21

Family

ID=71155090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010140536.9A Active CN111311664B (zh) 2020-03-03 2020-03-03 一种深度、位姿与场景流的联合无监督估计方法及系统

Country Status (1)

Country Link
CN (1) CN111311664B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706676A (zh) * 2021-08-26 2021-11-26 京东鲲鹏(江苏)科技有限公司 用于点云数据的模型自监督训练方法和装置
CN114494332A (zh) * 2022-01-21 2022-05-13 四川大学 一种无监督的合成到真实LiDAR点云场景流估计方法
CN116758131A (zh) * 2023-08-21 2023-09-15 之江实验室 一种单目图像深度估计方法、装置和计算机设备
WO2023178951A1 (zh) * 2022-03-25 2023-09-28 上海商汤智能科技有限公司 图像分析方法、模型的训练方法、装置、设备、介质及程序

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110043604A1 (en) * 2007-03-15 2011-02-24 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for forming a panoramic image of a scene having minimal aspect distortion
CN109544677A (zh) * 2018-10-30 2019-03-29 山东大学 基于深度图像关键帧的室内场景主结构重建方法及系统
CN110009674A (zh) * 2019-04-01 2019-07-12 厦门大学 基于无监督深度学习的单目图像景深实时计算方法
CN110246212A (zh) * 2019-05-05 2019-09-17 上海工程技术大学 一种基于自监督学习的目标三维重建方法
US20190333231A1 (en) * 2017-08-11 2019-10-31 Zhejiang University Stereo visual odometry method based on image gradient joint optimization
CN110782490A (zh) * 2019-09-24 2020-02-11 武汉大学 一种具有时空一致性的视频深度图估计方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110043604A1 (en) * 2007-03-15 2011-02-24 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for forming a panoramic image of a scene having minimal aspect distortion
US20190333231A1 (en) * 2017-08-11 2019-10-31 Zhejiang University Stereo visual odometry method based on image gradient joint optimization
CN109544677A (zh) * 2018-10-30 2019-03-29 山东大学 基于深度图像关键帧的室内场景主结构重建方法及系统
CN110009674A (zh) * 2019-04-01 2019-07-12 厦门大学 基于无监督深度学习的单目图像景深实时计算方法
CN110246212A (zh) * 2019-05-05 2019-09-17 上海工程技术大学 一种基于自监督学习的目标三维重建方法
CN110782490A (zh) * 2019-09-24 2020-02-11 武汉大学 一种具有时空一致性的视频深度图估计方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUANGMING WANG等: "Unsupervised Learning of Monocular Depth and Ego-Motion Using Multiple Masks", IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION ICRA *
王昱欣等: "软体机器人手眼视觉/形状混合控制", 机器人 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706676A (zh) * 2021-08-26 2021-11-26 京东鲲鹏(江苏)科技有限公司 用于点云数据的模型自监督训练方法和装置
CN113706676B (zh) * 2021-08-26 2024-01-16 京东鲲鹏(江苏)科技有限公司 用于点云数据的模型自监督训练方法和装置
CN114494332A (zh) * 2022-01-21 2022-05-13 四川大学 一种无监督的合成到真实LiDAR点云场景流估计方法
CN114494332B (zh) * 2022-01-21 2023-04-25 四川大学 一种无监督的合成到真实LiDAR点云场景流估计方法
WO2023178951A1 (zh) * 2022-03-25 2023-09-28 上海商汤智能科技有限公司 图像分析方法、模型的训练方法、装置、设备、介质及程序
CN116758131A (zh) * 2023-08-21 2023-09-15 之江实验室 一种单目图像深度估计方法、装置和计算机设备
CN116758131B (zh) * 2023-08-21 2023-11-28 之江实验室 一种单目图像深度估计方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111311664B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN108416840B (zh) 一种基于单目相机的三维场景稠密重建方法
CN106780576B (zh) 一种面向rgbd数据流的相机位姿估计方法
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
CN111311664A (zh) 一种深度、位姿与场景流的联合无监督估计方法及系统
Turner et al. Fast, automated, scalable generation of textured 3D models of indoor environments
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
CN111902826A (zh) 定位、建图和网络训练
CN110633628B (zh) 基于人工神经网络的rgb图像场景三维模型重建方法
CN111062326A (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
Chen et al. A particle filtering framework for joint video tracking and pose estimation
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN112686952A (zh) 一种图像光流计算系统、方法及应用
CN114494150A (zh) 一种基于半直接法的单目视觉里程计的设计方法
Lu et al. Stereo disparity optimization with depth change constraint based on a continuous video
Cao et al. Single view 3D reconstruction based on improved RGB-D image
Fan et al. Large-scale dense mapping system based on visual-inertial odometry and densely connected U-Net
Zhao et al. 3D object tracking via boundary constrained region-based model
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN114049678B (zh) 一种基于深度学习的面部动作捕捉方法及系统
CN115205463A (zh) 基于多球面场景表达的新视角图像生成方法、装置和设备
Yonemoto et al. Tracking of 3D multi-part objects using multiple viewpoint time-varying sequences
Hou et al. Octree-Based Approach for Real-Time 3D Indoor Mapping Using RGB-D Video Data
CN114202606A (zh) 图像处理方法、电子设置、存储介质及计算机程序产品
CN113240705A (zh) 3d姿态估计方法、装置、电子设备和存储介质
CN104751448A (zh) 基于pca和噪声分离的在线视频跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant