CN111311664A - 一种深度、位姿与场景流的联合无监督估计方法及系统 - Google Patents
一种深度、位姿与场景流的联合无监督估计方法及系统 Download PDFInfo
- Publication number
- CN111311664A CN111311664A CN202010140536.9A CN202010140536A CN111311664A CN 111311664 A CN111311664 A CN 111311664A CN 202010140536 A CN202010140536 A CN 202010140536A CN 111311664 A CN111311664 A CN 111311664A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- network
- frame
- scene
- coordinate system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000009466 transformation Effects 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 48
- 230000003068 static effect Effects 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 29
- 238000003384 imaging method Methods 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
技术领域
本发明涉及计算机视觉领域,具体地,涉及一种无监督学习方法及系统,更为具体地,涉及一种基于深度网络、位姿网络与场景流网络的联合无监督学习方法。
背景技术
深度估计是预测一帧图像中每个像素点的深度,通过深度估计可以通过图像获得环境的三维空间信息,因此深度估计在无人驾驶领域等有较为广泛的应用。早期的深度估计集中于立体图形,通过设计基于几何学的算法来估计深度,而随着近期深度学习在图像识别领域的应用,应用卷积神经网络提取图像的深度信息取得了较好的成果。
位姿估计在计算机视觉领域有深远的意义,但也是一项巨大的挑战:给定若干传感器检测到的图像信息,想要得到传感器的运动信息,需要排除尺度变换、遮挡、模糊与噪声、光照等等因素的干扰。
目前在运动图像分析的研究中,场景流法成为了一种新兴起的研究方法。场景流结合立体空间的深度信息与传统的光流信息,实现了较好的场景适应性,且无需先验知识,在运动目标检测任务中表现良好。此外,它可以补充和改进最先进的视觉测距和SLAM算法,在机器人技术中用于实现动态环境中的自主导航与操纵。
本发明提出一种深度网络、位姿网络与场景流网络的联合无监督学习方法:基于场景流变换一致性损失与点云重建损失,在训练过程中场景流网络与深度网络、位姿网络间相互监督,起到联合训练的效果。采用无监督学习方法,无需带有标注的数据集,可以降低学习的成本,最终实现了较高的准确性。
名词解释:
点云:对于某一帧图像的深度图,结合相机内参,可以将深度图中的每一个像素点投影到该帧相机坐标系下的三维空间中。点云即三维坐标系下所有投影点的集合,点云包含丰富的信息,如三维坐标、RGB颜色值等等,在测绘、自动驾驶、医疗等领域有较为广泛的应用。
场景流与场景流网络:场景流把对物体的运动估计由二维推广至三维,可以反应空间中物体运动形成的三维运动场,本文中场景流为点云在三维坐标系下发生的相对位移,包括由于相机运动引起的静态场景流,点云自运动引起的动态场景流,以及包含两者的整体场景流。场景流网络可通过输入两帧图像对应的空间点云,给出两点云间的场景流,实现场景流估计。
图像深度与深度网络:图像深度是2D图像中每个像素点的深度信息。单目深度估计是只通过单帧图像获得图像的深度,相当于从二维图像推测出三维空间,其难度非常大。目前较为流行的研究方法是利用卷积神经网络估计深度,向神经网络输入单帧图像,网络对深度进行估计并输出该帧图像对应深度图。深度估计在3D建模、场景识别等领域有较大应用。
位姿估计与位姿网络:位姿估计是指给定若干图像,估计拍摄图像的相机的运动问题。通过位姿变换,可以从当前相机的位置与拍摄角度推演得到下一时刻相机的位置与拍摄角度。位姿网络通过输入两帧的图像,输出相机从第一帧运动至第二帧过程中的位姿变换。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种深度、位姿与场景流的联合无监督估计方法及系统。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计方法,包括:
步骤M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
步骤M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
优选地,所述步骤M4包括:
步骤M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
步骤M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
优选地,所述步骤M4.1包括:
步骤M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云在第一帧相机坐标系下的空间点云根据第二帧图像中的空间点云和第二帧图像的空间点云在第一帧相机坐标系下的空间点云计算相机运动引起的静态场景流sfs,计算公式如下:
步骤M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云得到两个点云间的动态场景流sfd,计算公式如下:
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
步骤M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云和第二帧中的像素在第二帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第二帧相机坐标系下的空间点云得到两个点云间的整体场景流sfo,计算公式如下:
步骤M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
鲁棒性损失函数公式如下:
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
步骤M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
优选地,所述步骤M4.2包括:
步骤M4.2.3:由第一帧图像的空间点云经过静态场景流sfs变换得到空间点云再由空间点云经过动态场景流sfd′变换后得到空间点云所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得。根据空间点云与第二帧图像的空间点云间差异,计算动静态场景流点云重建损失Epc-b;
步骤M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失EPc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
步骤M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时,停止训练。
优选地,所述步骤M4.2.2包括:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述步骤M4.2.3包括:
所述静态场景流sfs为上述步骤M4.1.1步骤算法所得;
步骤M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云中的每一个点根据的坐标在第二帧图像的空间点云的空间点云中找到与坐标距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计系统,包括:
模块M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
模块M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
优选地,所述模块M4包括:
模块M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
模块M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
优选地,所述模块M4.1包括:
模块M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云在第一帧相机坐标系下的空间点云根据第二帧图像中的空间点云和第二帧图像的空间点云在第一帧相机坐标系下的空间点云计算相机运动引起的静态场景流sfs,计算公式如下:
模块M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云得到两个点云间的动态场景流sfd,计算公式如下:
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
模块M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云和第二帧中的像素在第二帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第二帧相机坐标系下的空间点云得到两个点云间的整体场景流sfo,计算公式如下:
模块M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
鲁棒性损失函数公式如下:
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
模块M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
优选地,所述模块M4.2包括:
模块M4.2.3:由第一帧图像的空间点云经过静态场景流sfs变换得到空间点云再由空间点云经过动态场景流sfd′变换后得到空间点云所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得。根据空间点云与第二帧图像的空间点云间差异,计算动静态场景流点云重建损失Epc-b;
模块M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
模块M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到场景流网络中每一个参数的梯度,在通过梯度下降算法实现场景流网络参数的更新,实现场景流网络的训练,当场景流网络收敛即总点云重建损失不再降低时,停止训练。
优选地,所述模块M4.2.2包括:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述模块M4.2.3包括:
所述静态场景流sfs为上述模块M4.1.1模块算法所得;
模块M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云中的每一个点根据的坐标在第二帧图像的空间点云的空间点云中找到与坐标距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出了一种新的深度网络、位姿网络与场景流网络的联合无监督学习方法,能够解决在训练深度网络、位姿网络与场景流网络的任务中,缺乏标注数据集的难题;
2、本发明采用无监督学习方法训练深度网络、位姿网络与场景流网络,并提出了两种损失函数:场景流变换一致性损失和点云重建损失。用两种损失函数对联合训练的结果进行惩罚,有利于下一轮的训练;
3、本发明解决了网络训练中标注数据集不足的问题,节约了人工标注数据的成本,能实现较高的准确性,有利于实际应用。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一种深度网络、位姿网络与场景流网络的联合无监督学习方法的系统框架图;
图2为步骤(A)基于场景流变换一致性损失的深度网络、位姿网络和场景流网络的联合无监督学习方法的流程图;
图3为利用sfo与(sfs+sfd)的差异计算场景流变换一致性损失的示意图;
图4为步骤(B)基于点云重建损失的深度网络、位姿网络和场景流网络的联合无监督学习方法的流程图;
图3中,sfo是整体场景流,sfs是静态场景流,sfd是动态场景流,(nx,ny,nz) 是整体场景流sfo在坐标系下的三维坐标,(mx,my,mz)是动态场景流与静态场景流之和在坐标系下的三维坐标,该图表明实际状况下sfo与(sfs+sfd)有差异性。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明提供了一种深度网络、位姿网络与场景流网络的联合无监督学习方法,其过程为,首先由深度网络与位姿网络获得连续两帧图像的深度图和两帧图像间的位姿变换,结合相机模型可以得到两帧图像对应的空间点云,由场景流网络可获得两帧点云间的场景流。定义场景流变换一致性损失与点云重建损失,对不满足一致性的场景流和重建点云进行惩罚。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计方法,包括:
步骤M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
步骤M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
具体地,如图1所示,所述步骤M4包括:
步骤M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
步骤M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
具体地,如图2所示,所述步骤M4.1包括:
步骤M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云在第一帧相机坐标系下的空间点云根据第二帧图像中的空间点云和第二帧图像的空间点云在第一帧相机坐标系下的空间点云计算相机运动引起的静态场景流sfs,计算公式如下:
步骤M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云得到两个点云间的动态场景流sfd,计算公式如下:
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;网络Nst会输出两帧点云间的场景流;
步骤M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云和第二帧中的像素在第二帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第二帧相机坐标系下的空间点云得到两个点云间的整体场景流sfo,计算公式如下:
步骤M4.1.4:理想状态下应满足sfo与(sfs+sfd)一致,如图3所示,利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,训练场景流网络;通过计算得到的一致性损失;
如图3所示,sfo是整体场景流,sfs是静态场景流,sfd是动态场景流,(nx,ny,nz) 是整体场景流sfo在空间坐标系下的三维坐标,(mx,my,mz)是动态场景流与静态场景流之和在空间坐标系下的三维坐标。理想状态下sfo与(sfs+sfd)应当一致,即应满足mi= ni,i∈{x,y,z}。而实际状况下,如图3所示,两者存在差异,因此,利用sfo与(sfs+sfd) 定义损失函数:所述场景流变换一致性损失计算公式如下:
鲁棒性损失函数公式如下:
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数,参数∈=0.01,q=0.4;
步骤M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
具体地,如图4所示,所述步骤M4.2包括:
步骤M4.2.3:由第一帧图像的空间点云经过静态场景流sfs变换得到空间点云再由空间点云经过动态场景流sfd′变换后得到空间点云所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得;根据空间点云与第二帧图像的空间点云间差异,计算动静态场景流点云重建损失Epc-b;
步骤M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
步骤M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到场景流网络中每一个参数的梯度,在通过梯度下降算法实现场景流网络参数的更新,实现场景流网络的训练,当场景流网络收敛即总点云重建损失不再降低时,停止训练。
具体地,所述步骤M4.2.2包括:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4;
所述步骤M4.2.3包括:
所述静态场景流sfs为上述步骤M4.1.1步骤算法所得;
步骤M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云中的每一个点根据的坐标在第二帧图像的空间点云的空间点云中找到与坐标距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计系统,包括:
模块M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
模块M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
具体地,如图1所示,所述模块M4包括:
模块M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
模块M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
具体地,如图2所示,所述模块M4.1包括:
模块M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云在第一帧相机坐标系下的空间点云根据第二帧图像中的空间点云和第二帧图像的空间点云在第一帧相机坐标系下的空间点云计算相机运动引起的静态场景流sfs,计算公式如下:
模块M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云得到两个点云间的动态场景流sfd,计算公式如下:
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;网络Nsf会输出两帧点云间的场景流;
模块M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云和第二帧中的像素在第二帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第二帧相机坐标系下的空间点云得到两个点云间的整体场景流sfo,计算公式如下:
模块M4.1.4:理想状态下应满足sfo与(sfs+sfd)一致,如图3所示,利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,训练场景流网络;通过计算得到的一致性损失;
如图3所示,sfo是整体场景流,sfs是静态场景流,sfd是动态场景流,(nx,ny,nz) 是整体场景流sfo在空间坐标系下的三维坐标,(mx,my,mz)是动态场景流与静态场景流之和在空间坐标系下的三维坐标。理想状态下sfo与(sfs+sfd)应当一致,即应满足mi= ni,i∈{x,y,z}。而实际状况下,如图3所示,两者存在差异,因此,利用sfo与(sfs+sfd) 定义损失函数:所述场景流变换一致性损失计算公式如下:
鲁棒性损失函数公式如下:
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数,参数∈=0.01,q=0.4;
模块M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
具体地,如图4所示,所述模块M4.2包括:
模块M4.2.3:由第一帧图像的空间点云经过静态场景流sfs变换得到空间点云再由空间点云经过动态场景流sfd′变换后得到空间点云所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得;根据空间点云与第二帧图像的空间点云间差异,计算动静态场景流点云重建损失Epc-b;
模块M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
模块M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到场景流网络中每一个参数的梯度,在通过梯度下降算法实现场景流网络参数的更新,实现场景流网络的训练,当场景流网络收敛即总点云重建损失不再降低时,停止训练。
具体地,所述模块M4.2.2包括:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4;
所述模块M4.2.3包括:
所述静态场景流sfs为上述模块M4.1.1模块算法所得;
模块M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云中的每一个点根据的坐标在第二帧图像的空间点云的空间点云中找到与坐标距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
2.根据权利要求1所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4包括:
步骤M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
步骤M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
3.根据权利要求1所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4.1包括:
步骤M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云在第一帧相机坐标系下的空间点云根据第二帧图像中的空间点云和第二帧图像的空间点云在第一帧相机坐标系下的空间点云计算相机运动引起的静态场景流sfs,计算公式如下:
步骤M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云得到两个点云间的动态场景流sfd,计算公式如下:
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
步骤M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云和第二帧中的像素在第二帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第二帧相机坐标系下的空间点云得到两个点云间的整体场景流sfo,计算公式如下:
步骤M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
鲁棒性损失函数公式如下:
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
步骤M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
4.根据权利要求1所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4.2包括:
步骤M4.2.3:由第一帧图像的空间点云经过静态场景流sfs变换得到空间点云再由空间点云经过动态场景流sfd′变换后得到空间点云根据空间点云与第二帧图像的空间点云间差异,计算动静态场景流点云重建损失Epc-b;
步骤M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
步骤M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时,停止训练。
5.根据权利要求4所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4.2.2包括:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述步骤M4.2.3包括:
所述静态场景流sfs为上述步骤M4.1.1步骤算法所得;
步骤M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云中的每一个点根据的坐标在第二帧图像的空间点云的空间点云中找到与坐标距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
7.根据权利要求6所述的深度、位姿与场景流的联合无监督估计系统,其特征在于,所述模块M4包括:
模块M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
模块M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
8.根据权利要求6所述的深度、位姿与场景流的联合无监督估计系统,其特征在于,所述模块M4.1包括:
模块M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云在第一帧相机坐标系下的空间点云根据第二帧图像中的空间点云和第二帧图像的空间点云在第一帧相机坐标系下的空间点云计算相机运动引起的静态场景流sfs,计算公式如下:
模块M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第一帧相机坐标系下的空间点云得到两个点云间的动态场景流sfd,计算公式如下:
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
模块M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云和第二帧中的像素在第二帧相机坐标系下的空间点云根据第一帧图像中的像素在第一帧相机坐标系下的空间点云和第二帧图像中的像素在第二帧相机坐标系下的空间点云得到两个点云间的整体场景流sfo,计算公式如下:
模块M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
鲁棒性损失函数公式如下:
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
模块M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
9.根据权利要求6所述的深度、位姿与场景流的联合无监督估计系统,其特征在于,所述模块M4.2包括:
模块M4.2.3:由第一帧图像的空间点云经过静态场景流sfs变换得到空间点云再由空间点云经过动态场景流sfd′变换后得到空间点云根据空间点云与第二帧图像的空间点云间差异,计算动静态场景流点云重建损失Epc-b;
模块M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b (8)
模块M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时,停止训练。
10.根据权利要求9所述的深度、位姿与场景流的联合无监督估计系统,其特征在于,所述模块M4.2.2包括:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述模块M4.2.3包括:
所述静态场景流sfs为上述模块M4.1.1模块算法所得;
模块M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云中的每一个点根据的坐标在第二帧图像的空间点云的空间点云中找到与坐标距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010140536.9A CN111311664B (zh) | 2020-03-03 | 2020-03-03 | 一种深度、位姿与场景流的联合无监督估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010140536.9A CN111311664B (zh) | 2020-03-03 | 2020-03-03 | 一种深度、位姿与场景流的联合无监督估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111311664A true CN111311664A (zh) | 2020-06-19 |
CN111311664B CN111311664B (zh) | 2023-04-21 |
Family
ID=71155090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010140536.9A Active CN111311664B (zh) | 2020-03-03 | 2020-03-03 | 一种深度、位姿与场景流的联合无监督估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111311664B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706676A (zh) * | 2021-08-26 | 2021-11-26 | 京东鲲鹏(江苏)科技有限公司 | 用于点云数据的模型自监督训练方法和装置 |
CN114494332A (zh) * | 2022-01-21 | 2022-05-13 | 四川大学 | 一种无监督的合成到真实LiDAR点云场景流估计方法 |
CN116758131A (zh) * | 2023-08-21 | 2023-09-15 | 之江实验室 | 一种单目图像深度估计方法、装置和计算机设备 |
WO2023178951A1 (zh) * | 2022-03-25 | 2023-09-28 | 上海商汤智能科技有限公司 | 图像分析方法、模型的训练方法、装置、设备、介质及程序 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110043604A1 (en) * | 2007-03-15 | 2011-02-24 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Method and system for forming a panoramic image of a scene having minimal aspect distortion |
CN109544677A (zh) * | 2018-10-30 | 2019-03-29 | 山东大学 | 基于深度图像关键帧的室内场景主结构重建方法及系统 |
CN110009674A (zh) * | 2019-04-01 | 2019-07-12 | 厦门大学 | 基于无监督深度学习的单目图像景深实时计算方法 |
CN110246212A (zh) * | 2019-05-05 | 2019-09-17 | 上海工程技术大学 | 一种基于自监督学习的目标三维重建方法 |
US20190333231A1 (en) * | 2017-08-11 | 2019-10-31 | Zhejiang University | Stereo visual odometry method based on image gradient joint optimization |
CN110782490A (zh) * | 2019-09-24 | 2020-02-11 | 武汉大学 | 一种具有时空一致性的视频深度图估计方法及装置 |
-
2020
- 2020-03-03 CN CN202010140536.9A patent/CN111311664B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110043604A1 (en) * | 2007-03-15 | 2011-02-24 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Method and system for forming a panoramic image of a scene having minimal aspect distortion |
US20190333231A1 (en) * | 2017-08-11 | 2019-10-31 | Zhejiang University | Stereo visual odometry method based on image gradient joint optimization |
CN109544677A (zh) * | 2018-10-30 | 2019-03-29 | 山东大学 | 基于深度图像关键帧的室内场景主结构重建方法及系统 |
CN110009674A (zh) * | 2019-04-01 | 2019-07-12 | 厦门大学 | 基于无监督深度学习的单目图像景深实时计算方法 |
CN110246212A (zh) * | 2019-05-05 | 2019-09-17 | 上海工程技术大学 | 一种基于自监督学习的目标三维重建方法 |
CN110782490A (zh) * | 2019-09-24 | 2020-02-11 | 武汉大学 | 一种具有时空一致性的视频深度图估计方法及装置 |
Non-Patent Citations (2)
Title |
---|
GUANGMING WANG等: "Unsupervised Learning of Monocular Depth and Ego-Motion Using Multiple Masks", IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION ICRA * |
王昱欣等: "软体机器人手眼视觉/形状混合控制", 机器人 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706676A (zh) * | 2021-08-26 | 2021-11-26 | 京东鲲鹏(江苏)科技有限公司 | 用于点云数据的模型自监督训练方法和装置 |
CN113706676B (zh) * | 2021-08-26 | 2024-01-16 | 京东鲲鹏(江苏)科技有限公司 | 用于点云数据的模型自监督训练方法和装置 |
CN114494332A (zh) * | 2022-01-21 | 2022-05-13 | 四川大学 | 一种无监督的合成到真实LiDAR点云场景流估计方法 |
CN114494332B (zh) * | 2022-01-21 | 2023-04-25 | 四川大学 | 一种无监督的合成到真实LiDAR点云场景流估计方法 |
WO2023178951A1 (zh) * | 2022-03-25 | 2023-09-28 | 上海商汤智能科技有限公司 | 图像分析方法、模型的训练方法、装置、设备、介质及程序 |
CN116758131A (zh) * | 2023-08-21 | 2023-09-15 | 之江实验室 | 一种单目图像深度估计方法、装置和计算机设备 |
CN116758131B (zh) * | 2023-08-21 | 2023-11-28 | 之江实验室 | 一种单目图像深度估计方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111311664B (zh) | 2023-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416840B (zh) | 一种基于单目相机的三维场景稠密重建方法 | |
Mueggler et al. | Continuous-time visual-inertial odometry for event cameras | |
CN106780576B (zh) | 一种面向rgbd数据流的相机位姿估计方法 | |
JP7178396B2 (ja) | 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム | |
CN109003325B (zh) | 一种三维重建的方法、介质、装置和计算设备 | |
CN111311664A (zh) | 一种深度、位姿与场景流的联合无监督估计方法及系统 | |
Turner et al. | Fast, automated, scalable generation of textured 3D models of indoor environments | |
CN111902826A (zh) | 定位、建图和网络训练 | |
CN110633628B (zh) | 基于人工神经网络的rgb图像场景三维模型重建方法 | |
CN111062326A (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
Chen et al. | A particle filtering framework for joint video tracking and pose estimation | |
CN111539983A (zh) | 基于深度图像的运动物体分割方法及系统 | |
CN115115780B (zh) | 基于多视角rgbd相机的三维重建方法及系统 | |
CN112686952A (zh) | 一种图像光流计算系统、方法及应用 | |
CN115205463A (zh) | 基于多球面场景表达的新视角图像生成方法、装置和设备 | |
CN114494150A (zh) | 一种基于半直接法的单目视觉里程计的设计方法 | |
CN115393538A (zh) | 基于深度学习的室内动态场景的视觉slam方法及系统 | |
Cao et al. | Single view 3D reconstruction based on improved RGB-D image | |
Lu et al. | Stereo disparity optimization with depth change constraint based on a continuous video | |
CN117788544A (zh) | 一种基于轻量级注意力机制的图像深度估计方法 | |
Zhao et al. | 3D object tracking via boundary constrained region-based model | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
CN114049678B (zh) | 一种基于深度学习的面部动作捕捉方法及系统 | |
Hou et al. | Octree-based approach for real-time 3d indoor mapping using rgb-d video data | |
Lee et al. | Event-and Frame-based Visual-Inertial Odometry with Adaptive Filtering based on 8-DOF Warping Uncertainty |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |