CN107845134B

CN107845134B - 一种基于彩色深度相机的单个物体的三维重建方法

Info

Publication number: CN107845134B
Application number: CN201711104182.7A
Authority: CN
Inventors: 许威威; 许佳敏; 鲍虎军
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2020-12-29
Anticipated expiration: 2037-11-10
Also published as: CN107845134A

Abstract

本发明公开了一种基于彩色深度相机的单个物体的三维重建方法，包括以下三个步骤，1、在扫描过程中对扫描的物体区域进行提取；2、根据彩色深度数据进行相机跟踪和深度数据的局部融合，然后对局部融合的数据进行全局的非刚体注册，逐步构建总体的三维模型和准确的关键帧相机位置；3、对融合模型进行网格提取，然后根据前面获取的关键帧相机位置和关键帧彩色图片，计算三维网格模型的纹理贴图。通过本文提出的方法框架可以保证重建单个物体时，即使在物体在图像中占比较小的情况下依然能进行高质量几何重建和纹理贴图。方法明确，速度较快，结果鲁棒。可用于虚拟现实场景构建等领域。

Description

一种基于彩色深度相机的单个物体的三维重建方法

技术领域

本发明涉及计算机视觉领域，特别是涉及使用彩色深度相机进行单个物体的三维重建和纹理贴图领域的方法。

背景技术

三维重建技术是基于二维的输入重建三维物体的方法。传统的三维重建方法包括StructureFromMotion(SfM)，主要通过大量彩色图像重建三维物体。近年来，随着Kinect等深度摄像头的发展和商品化，基于彩色深度图像的三维重建技术被广泛研究。基于彩色深度图像的三维重建技术可以被用于重建稠密、精细的物体模型，用于虚拟现实环境的构建，结合现在的虚拟现实、增强现实硬件和软件，提供三维的交互体验。

基于手持彩色深度相机的三维重建算法可用于生成高质量的模型，进一步的，用于计算高质量的纹理贴图。经典的KinectFusion算法使用Volume存储TSDF值表达物体(场景)，将每一幅深度图片中的深度信息依照跟踪的相机位置融合到Volume中，更新各个TSDF值。参见R.A.Newcombe,S.Izadi,O.Hilliges,D.Molyneaux,D.Kim,A.J.Davison,P.Kohi,J.Shotton,S.Hodges,and A.Fitzgibbon.Kinectfusion:Real-time dense surfacemapping and tracking.In Mixed and augmented reality(ISMAR),2011 10^th IEEEinternational symposium on,pages 127–136.IEEE,2011。后续的很多方法将KinectFusion框架进行修改，包括提升鲁棒性、适应大的场景等。其中主要的修改包括两方面：1.修改表达方式，提高场景表达效率。2.提高相机位置的准确性，包括加入彩色信息进行相机跟踪还有进行局部和全局的相机位置优化。

现有算法在多物体或者复杂场景下，相机跟踪比较准确。这主要是由于复杂场景下特征比较密集，局部相机跟踪和全局优化比较容易收敛到最优解。但是，由于复杂场景下物体之间存在遮挡和相互影响，场景中单个物体容易出现误差和缺失，难以达到预期的精度。相对的，扫描单个物体可以避免遮挡，利于保留物体细节。但是由于普通相机设置下单个物体占比较小，其特征总量较小，相应的在相机跟踪和全局优化过程中占总能量比重也较小，导致现有重建算法在优化过程中容易收敛到错误的局部最优解。

发明内容

本发明提供了一种，使用彩色深度相机进行单个物体的三维重建和纹理贴图的方法，可以保证即使物体在图像中占比较小的情况下依然能进行高质量几何重建和纹理贴图。

为了达到上述目的，本发明采用以下技术方案，包括以下步骤：

(1)在扫描过程中对扫描的物体区域进行提取，具体为：以手工标注、物体检测或者显著性检测获得的物体框

作为初始物体框，顺序的进行物体跟踪和物体区域提取，即在t时刻对于每一个新的彩色帧和深度帧，用I_t和D_t表示，获取更新的物体框

和物体像素集合

对于连续的两帧，D_t和D_t+1，使用Sobel算子提取深度边缘像素，并且去除不在范围[d_min,d_max]中的边缘像素后，分别记为Edge_t和Edge_t+1，d_min和d_max设定为：

其中：D(p_t)是指像素p_t的深度值；进一步的，去除Edge_t中不在物体框

中的边缘像素。对于Edge_t和Edge_t+1中的边缘像素根据八邻域分别提取连通区域，然后对于在这些连通区域上提取一系列特征点

和

提取方法为每3个点采样一个点。之后，对这些特征点提取SIFT特征，然后对

中的每一个特征点在

找一个最近邻匹配。标记

中每一个匹配上的特征点，以此为依据删除Edge_t+1中的不稳定边缘连通区域，具体为：匹配特征点绝对数量小于3个或者相对数量小于该边缘连通区域总像素数量10％。然后根据剩余的连通区域像素计算包围盒，作为新的物体框

之后，在新的物体框

和深度图D_t+1的基础上，进一步的提取物体区域

具体为：首先对于物体框

高度不变，左右各延展25％，将延展的部分用

表示。

主要由支撑平面构成。对于深度图D_t+1中的每一个像素p，计算对应的三维点位置v(p)和对应的法线向量n(p)

v(p)＝D(p_t)K^-1[p^T,1]^T

p_right和p_down分别是p在二维图像上的右边邻接像素和下边邻接像素，K是相机标定矩阵。对于延展区域

中的像素，计算其法向量的均值

作为该视角下的局部支撑平面朝向的估计，对于物体框

中的像素，计算其三维点位置的中位数

作为该视角下的局部物体中心的估计：

然后根据D_t+1中每个像素的三维点位置到估计的物体中心

的平行于支撑平面的距离进行像素筛选，具体筛选公式如下，其中I为单位矩阵，α设为1.5：

根据上述步骤可以迭代的获取每一个输入I_t和D_t的物体像素集合

在扫描过程中顺序的对扫描的物体区域进行提取。

(2)根据彩色深度数据进行相机跟踪和深度数据的局部融合，对局部融合的数据进行全局的非刚体注册，得到总体的三维模型和准确的相机位置。具体为：首先按照传统的方式，将初始相机位置设为世界坐标系原点，利用刚体ICP算法逐帧跟踪相机，并将I_t及物体像素集合

的深度

根据相机位置融合到以Surfel的形式表达的模型中。具体的融合方法参见T.Whelan,S.Leutenegger,R.F.Salas-moreno,B.Glocker,andA.J.Davison.ElasticFusion:Dense SLAM Without A Pose Graph Robotics:Scienceand Systems,2015(December),2015。模型被表达为一系列Surfel的集合，其中，单个Surfel可以被表示为六元组{v，n，color，radius，confidence}，分别为三维点位置、法线向量、颜色(RGB)、半径、置信度。同时，Surfel按时间顺序被分割入不同的段，用

表示：

t为当前时间，m为分段间隔，i为段编号，m可设为40。

包含了段内的所有Surfel，还包含Embedded Deformation(EMD)图、关键帧I_i和关键帧相机位姿T_i，

为T_i中的3×3的旋转分量，

为T_i中的3×1的平移分量；

EMD图用于后续的非刚体全局注册，具体由点云中的顶点到控制点图和控制点到控制点图构成；点云中顶点的初始位置和法线向量用

和

表示，控制点是点云的顶点中采样获得，由控制点初始位置

控制点局部仿射变换

构成，点云中的顶点到控制点图采用4-近邻构建，每个顶点连接4个最近控制点，将4个最近控制点的变换插值用于变换顶点的三维位置和法线向量，

和

分别为变换后的三维位置和法线向量。

dist_max是

到其除4近邻控制点外最近的控制点的距离，k为顶点编号，l表示k号顶点的4近邻控制点；控制点到控制点图采用8-近邻构建，用于约束EMD图的非刚体形变。参见R.W.Sumner,J.Schmid,and M.Pauly.Embedded deformation for shapemanipulation.ACM Transactions on Graphics,26(3):80,2007。关键帧的提取依据是选取该段的时间间隔内彩色图像最清晰的帧。参见F.Crete,T.Dolmiere,P.Ladret,andM.Nicolas.The blur effect:perception and estimation with a new no-referenceperceptual blur metric.Proceedings of SPIE,2007。

整个三维重建过程关键是逐步构建

并逐步对

做优化的过程。具体的：在初始时刻，相机位于坐标零点，使用I₀、

初始化

中的Surfel。在t时刻，如果t不是m的整数倍，则仅进行相机跟踪和Surfel融合。将当前

中所有Surfel投影到t-1时刻的相机位姿获得t-1时刻相机坐标系下的可见点云，利用刚体的ICP算法估计t-1到t时刻点云的位姿变换，以此作为相机的位姿变换，确定新的t时刻相机位姿。然后将I_t、

中的三维点信息、法线信息、颜色信息融合到最新的段

中，并且更新对应的半径radius和置信度confidence。如果t是m的整数倍，则在进行相机跟踪和Surfel融合之后，还需要提取EMD图、关键帧

关键帧相机位姿

如果t>1则还需进行

的整体优化后再进行后续操作，将

加入关系图

中，然后新建段

段的邻接关系图

用于后续整体优化，近邻关系集合用

表示，，存储

中各个段的近邻关系，构建

时，每次将和

的相机位姿的夹角接近的段加入

中：其中[T_i]₃表示T_i的第3列，γ指夹角阈值；

arccos([T_i]₃·[T_j]₃)<γ

的整体优化旨在非刚体优化

中的每一片点云，并且更新

中所有的关键帧相机位姿。优化对象是所有的EMD图中的控制点局部仿射变换，优化目标是最小化能量函数E：

E＝λ_geoE_geo+λ_photoE_photo+λ_smoothE_smooth+λ_rotE_rot

其中，λ为各能量项的权重，

为第i段和第j段点对的集合；在优化EMD图之后，将

中所有的Surfel按照EMD图的插值变换公式更新。相机位姿更新依据EMD图中的局部变换，将所有K个控制点的局部变化做平均，获得更新的关键帧相机位姿

其中

是正交矩阵，用如下形式表达：

在获得优化后的关键帧相机位姿之后，按照同样的方法更新

中最后一帧，即I_t、

的相机位姿，用于下一帧的相机跟踪。

(3)根据获取的关键帧相机位姿和关键帧彩色图片，计算三维网格模型的纹理贴图。首先使用泊松重建算法，使用

中所有的Surfel提取稠密网格。参见M.Kazhdan,M.Bolitho,and H.Hoppe.Poisson surface reconstruction.pages 61–70,2006。将

中的关键帧集合{I_i}按照关键帧相机位姿集合{T_i}在网格上计算纹理贴图，该纹理不涉及材质，仅计算网格上每一个三角面片在关键帧集合{I_i}中的对应，将对应于关键帧集合{I_i}中的纹理打包成一张纹理贴图。参见M.Waechter,N.Moehrle,and M.Goesele.Let there becolor！Large scale texturing of 3D reconstructions.Lecture Notes in ComputerScience(including subseries Lecture Notes in Artificial Intelligence andLecture Notes in Bioinformatics),8693LNCS(PART5):836–850,2014。

本发明的有益效果在于：

1、将物体区域提取出来，减少非物体区域的深度数据对于后面相机跟踪和整体优化的影响，减少优化到错误局部最优解的可能性；

2、在扫描过程中，将数据分段融合，基于EMD图进行非刚体全局注册，使用CUDA在GPU上快速求解，将相机跟踪过程中的误差、输入本身的畸变逐步修正；

3、使用修正的关键帧相机位置和关键帧图像计算高质量纹理贴图。

附图说明

图1为本发明的技术方案流程图；

图2为物体区域提取结果示意图；

图3为非刚体全局优化示意图；

图4为网格提取结果和纹理贴图结果示意图。

具体实施方式

如图1所示，使用彩色深度相机进行单个物体的三维重建和纹理贴图的方法，包括以下三个步骤，1、在扫描过程中对扫描的物体区域进行提取；2、根据彩色深度数据进行相机跟踪和深度数据的局部融合，对局部融合的数据进行全局的非刚体注册，通过迭代优化的方法，逐步构建总体的三维模型和准确的相机位置；3、根据前面获取的关键帧相机位置和关键帧彩色图片，计算三维网格模型的纹理贴图。

下面结合实例以及附图2-4对本发明进行详细说明。

现具体介绍本方法的三个步骤：

1)在扫描过程中对扫描的物体区域进行提取，如图2所示，具体为：以手工标注、物体检测或者显著性检测获得的物体框

作为初始物体框，顺序的进行物体跟踪和物体区域提取，即对于每一个新的彩色帧和深度帧，用I_t和D_t表示，获取更新的物体框

和物体像素集合

t为当前时间，T为最后一帧对应的时间，对于连续的两帧，D_t和D_t+1，使用Sobel算子提取深度边缘像素，并且去除不在范围[d_min,d_max]中的边缘像素，d_min和d_max设定为：

记为Edge_t和Edge_t+1。进一步的，去除Edge_t中不在物体框

和

中的每一个特征点在

找一个最近邻匹配。标记

之后，在新的物体框

和深度图D_t+1的基础上，进一步的提取物体区域

具体为：首先对于物体框

高度不变，左右各延展25％，将延展的部分用

表示。

v(p)＝D(p_t)K^-1[p^T,1]^T

中的像素，计算其法向量的均值

作为该视角下的局部支撑平面朝向的估计，对于物体框

中的像素，计算其三维点位置的中位数

作为该视角下的局部物体中心的估计：

然后根据D_t+1中每个像素的三维点位置到估计的物体中心的平行于支撑平面的距离进行像素筛选。具体筛选公式如下，α设为1.5：

在扫描过程中顺序的对扫描的物体区域进行提取。

2)根据彩色深度数据进行相机跟踪和深度数据的局部融合，对局部融合的数据进行全局的非刚体注册，得到总体的三维模型和准确的相机位置。具体为：首先按照传统的方式，将初始相机位置设为世界坐标系原点，利用刚体ICP算法逐帧跟踪相机，并将I_t及物体像素集合

的深度

根据相机位置融合到以Surfel的形式表达的模型中。参见T.Whelan,S.Leutenegger,R.F.Salas-moreno,B.Glocker,andA.J.Davison.ElasticFusion:Dense SLAM Without A Pose Graph Robotics:Scienceand Systems,2015(December),2015。模型被表达为一系列Surfel的集合，其中，单个Surfel可以被表示为六元组{v，n，color，radius，confidence}，分别为三维点位置、法线向量、颜色、半径、置信度。同时，Surfel按时间顺序被分割入不同的段，用

表示：

t为当前时间，m为分段间隔，m设为40。

为T_i中的3×3的旋转分量，

为T_i中的3×1的平移分量。

其中，EMD图用于后续的非刚体全局注册。具体由点云中的顶点到控制点图和控制点到控制点图构成。点云中顶点的初始位置和法线向量用

和

表示，控制点是点云的顶点中采样获得，控制点是点是点云中采样获得，由控制点位置

控制点局部变换

和

构成。EMD图采样16个控制点，采样使用简单的系统抽样(Systematic Sampling)算法。点云中的顶点到控制点图采用4-近邻构建，每个顶点连接4个最近控制点，将4个最近控制点的变换插值变换顶点的三维位置和法线向量。

和

分别为变换后的三维位置和法线向量。

dist_max是

到其除4近邻控制点外最近的控制点的距离，k为顶点编号，l表示k号顶点的4近邻控制点。控制点到控制点图采用8-近邻构建，用于约束EMD图的非刚体形变。参见R.W.Sumner,J.Schmid,and M.Pauly.Embedded deformation for shapemanipulation.ACM Transactions on Graphics,26(3):80,2007。关键帧的提取依据是选取该段的时间间隔内彩色图像最清晰的帧。参见F.Crete,T.Dolmiere,P.Ladret,andM.Nicolas.The blur effect:perception and estimation with a new no-referenceperceptual blur metric.Proceedings of SPIE,2007。

整个三维重建过程关键是逐步构建

并逐步对

做优化的过程，如图3所示。具体的：在初始时刻，相机位于坐标零点，使用I₀、

初始化

中的三维点信息、法线信息、颜色信息融合到最新的段

关键帧相机位姿

如果t>1则还需进行

的整体优化后再进行后续操作，将

加入关系图

中，然后新建段

段的邻接关系图

用于后续整体优化，近邻关系集合用

表示，存储

中各个段的近邻关系，构建

时，每次将和

的相机位置夹角接近的段加入

中，γ为相机夹角阈值，设为120^°。

arccos([T_i]₃·[T_j]₃<γ)

的整体优化旨在非刚体优化

中的每一片点云，并且更新

中所有的关键帧相机位姿。优化对象是所有的EMD图中的控制点局部变换，优化目标是最小化能量函数E：

E＝λ_geoE_geo+λ_photoE_photo+λ_smoothE_smooth+λ_rotE_rot

其中，λ为各能量项的权重。上述优化目标是一个非线性最小二乘问题，使用高斯-牛顿迭代法进行求解，固定迭代步数为5。为了方便计算雅可比矩阵，将需要更新的法向量

和关键帧相机位姿

初始化为{n}和{T}，在每一轮迭代中假设

和

不变，在计算计算雅可比矩阵时不进行求导，然后在每一步迭代之后更新法向量

和关键帧相机位姿

其中

是第i段和第j段之间的匹配点对，使用近似最近邻算法(FLANN)查找，使用点对的法线和距离进行过滤，具体过滤规则如下：

M₁＝arccos(n(v¹)·n(v²))

M₂＝||v¹-v²||

M₃＝arccos(n(v¹)·(v¹-v²))

M₄＝arccos(n(v²)·(v¹-v²))

如果点对M₁<30°并且M₂<0.005m，该点对被加入

中，如果0.005m<M₂<0.05m并且M₁<30°、M₃<30°、M₄<30°该点对被加入

中。为了控制

中点对的数量，使用系统抽样算法对每个段内的点云进行采样，采样个数是512，保证

中对于固定i,j的匹配点数量上限是512(除去被过滤掉的)。

在迭代优化的每一步都需要重新进行最近邻查找、过滤。

对于上述提到的高斯-牛顿迭代法的每一步迭代，目标是求解下面的线性系统：

(J^TJ)δx＝-J^Tr

x是由所有EMD图中的所有控制点的局部仿射变换组成的数组，其维度是：

r表示所有约束的当前迭代步骤的残差值。雅可比矩阵J的维度是：

由于J的维度非常大且非常稀疏，对J^TJ进行矩阵分解非常耗时，所以使用预处理的共轭梯度法(PCG)求解上述线性系统，固定共轭梯度迭代步数，预处理矩阵使用diag(J^TJ)^-1。

在每一步迭代求得δx后，使用公式x＝x+δx更新所有的控制点局部变换，并且重新插值获得所有的

更新所有关键帧相机位姿

关键帧相机位姿更新依据EMD图中的局部变换，将所有K(K为16)个控制点的局部变化做平均，获得更新的关键帧相机位姿

和

其中

是正交矩阵，用如下形式表达：

在获得优化后的关键帧相机位姿之后，按照同样的方法更新

中最后一帧，即I_t、

的相机位姿，用于下一帧的相机跟踪。

3)如图4所示，根据前面获取的关键帧相机位姿和关键帧彩色图片，计算三维网格模型的纹理贴图。首先使用泊松重建算法，使用

中的关键帧集合{I_i}按照关键帧相机位姿集合{T_i}在网格上计算纹理贴图，该纹理不涉及材质，仅计算网格上每一个三角面片在关键帧集合{I_i}中的对应，将对应于关键帧集合{I_i}中的纹理打包成一张纹理贴图。参见M.Waechter,N.Moehrle,andM.Goesele.Let there be color！Large scale texturing of 3Dreconstructions.Lecture Notes in Computer Science(including subseries LectureNotes in Artificial Intelligence and Lecture Notes in Bioinformatics),8693LNCS(PART5):836–850,2014。

Claims

1.一种基于彩色深度相机的单个物体的三维重建方法，其特征在于，包括以下步骤：

1)在扫描过程中对扫描的物体区域进行提取；

2)根据彩色深度数据进行相机跟踪和深度数据的局部融合，然后对局部融合的数据进行全局的非刚体注册，逐步构建总体的三维模型和准确的关键帧相机位置；

3)对融合模型进行网格提取，然后根据步骤2)获取的关键帧相机位置和关键帧彩色图片，计算三维网格模型的纹理贴图；

所述的步骤1)具体为：

以手工标注、物体检测或者显著性检测获得的物体框

作为初始物体框，顺序的进行物体跟踪和物体区域提取，在t时刻对于每一个新的彩色帧和深度帧，用I_t和D_t表示，获取更新的物体框

和物体像素集合

对于连续的两帧，D_t和D_t+1，使用Sobel算子提取深度边缘像素，并且去除不在范围[d_min，d_max]中的边缘像素后，分别记为Edge_t和Edge_t+1，d_min和d_max设定为：

中的边缘像素，然后对于Edge_t和Edge_t+1中的边缘像素根据八邻域分别提取连通区域，对于在这些连通区域上提取一系列特征点

和

提取方法为每3个点采样一个点，之后，对这些特征点提取SIFT特征，然后对

中的每一个特征点在

找一个最近邻匹配，标记

中每一个匹配上的特征点，以此为依据删除Edge_t+1中的不稳定边缘连通区域，所述的不稳定边缘连通区域具体为：匹配特征点绝对数量小于3个或者相对数量小于该边缘连通区域总像素数量10％；然后根据剩余的连通区域像素计算包围盒，作为新的物体框

之后，在新的物体框

和深度图D_t+1的基础上，进一步的提取物体像素集合

具体为：首先对于物体框

高度不变，左右各延展25％，将延展的部分用

表示，

由支撑平面像素构成，对于深度图D_t+1中的每一个像素p，计算对应的三维点位置v(p)和对应的法线向量n(p)

v(p)＝D(p_t)K^-1[p^T，1]^T

p_right和p_down分别是p在二维图像上的右边邻接像素和下边邻接像素，K是相机标定矩阵，对于延展区域

中的像素，计算其法向量的均值

作为当前视角下的局部支撑平面朝向的估计，对于物体框

中的像素，计算其三维点位置的中位数

作为当前视角下的局部物体中心的估计：

然后根据D_t+1中每个像素的三维点位置到估计的物体中心

在扫描过程中顺序的对扫描的物体区域进行提取；

所述的步骤2)具体为：

首先将初始相机位置设为世界坐标系原点，利用刚体ICP算法逐帧跟踪相机，并将I_t及物体像素集合

的深度

根据相机位置融合到以面元的形式表达的模型中；模型被表达为一系列面元的集合，其中，单个面元可以被表示为五元组{v，n，color，radius，confidence}，分别为三维点位置、法线向量、颜色、半径、置信度，同时，面元按时间顺序被分割入不同的段，用

表示：

t为当前时间，m为分段间隔，i为段编号；

包含了段内的所有面元，还包含Embedded Deformation图、关键帧I_i和初始关键帧相机位姿T_i，其中，

为T_i中的3×3的旋转分量，

为T_i中的3×1的平移分量；

和

表示，控制点是点云的顶点中采样获得，由控制点初始位置

控制点局部仿射变换

和

分别为变换后的三维位置和法线向量；

dist_max是

到其除4近邻控制点外最近的控制点的距离，k为控制点编号，l为k号顶点的4近邻控制点；控制点到控制点图采用8-近邻构建，用于约束EMD图的非刚体形变；

关键帧的提取依据是选取该段的时间间隔内彩色图像最清晰的帧；

整个三维重建过程关键是逐步构建

并逐步对

做优化的过程，具体的：在初始时刻，相机位于坐标零点，使用I₀、

初始化

中的面元；在t时刻，如果t不是m的整数倍，则仅进行相机跟踪和面元融合；将当前

中所有面元投影到t-1时刻的相机位姿获得t-1时刻相机坐标系下的可见点云，利用刚体的ICP算法估计t-1到t时刻点云的位姿变换，以此作为相机的位姿变换，确定新的t时刻相机位姿，然后将I_t、

中的三维点信息、法线信息、颜色信息融合到最新的段

中，并且更新对应的半径radius和置信度confidence；如果t是m的整数倍，则在进行相机跟踪和面元融合之后，还需要提取EMD图、关键帧

关键帧相机位姿

如果t＞1则还需进行

的整体优化后再进行后续操作，将

加入关系图

中，然后新建段

段的邻接关系图

用于后续整体优化，近邻关系集合用

表示，存储

中各个段的近邻关系，构建

时，每次将和

的相机位姿的夹角接近的段加入

中，其中[T_i]₃表示T_i的第3列，γ指夹角阈值：

arccos([T_i]₃·[T_j]₃)＜γ

的整体优化旨在非刚体优化

中的每一片点云，并且更新

中所有的关键帧相机位姿；优化对象是所有的EMD图中的控制点局部仿射变换，优化目标是最小化能量函数E：

E＝λ_geoE_geo+λ_photoE_photo+λ_smoothE_smooth+λ_rotE_rot

其中，λ为各能量项的权重，

为第i段和第j段点对的集合；在优化EMD图之后，将

中所有的面元按照EMD图的插值变换公式更新；相机位姿更新依据EMD图中的局部变换，将所有K个控制点的局部变化做平均，获得更新的关键帧相机位姿

其中

是正交矩阵，用如下形式表达：

在获得优化后的关键帧相机位姿之后，按照同样的方法更新

中最后一帧，I_t、

的相机位姿，用于下一帧的相机跟踪。