CN106570507B

CN106570507B - 单目视频场景三维结构的多视角一致的平面检测解析方法

Info

Publication number: CN106570507B
Application number: CN201610946965.9A
Authority: CN
Inventors: 陈小武; 马宽; 陆峰
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beijing University of Aeronautics and Astronautics
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2019-12-27
Anticipated expiration: 2036-10-26
Also published as: CN106570507A

Abstract

本发明公开了单目视频场景三维结构的多视角一致的平面检测解析方法，步骤：输入单目视频提取关键帧并生成包含噪音的半稠密点云；在关键帧图像中提取二维线段，将二维线段反投影到三维空间中得到对应的点云；将单帧提取得到的线段投影到其他关键帧中，根据多视角一致的约束，过滤掉点云中的噪音点，得到满足约束的点云，拟合点云得到三维线段；根据线线相交必然位于同一个平面中的约束，从三维线段中提取相交线段并构建平面，从而通过多视角一致约束从包含噪音的三维点云中检测解析得到单目视频场景中的平面；根据用户需求将重建得到的平面应用于增强现实中。本发明在平面重建、虚实融合等方面有良好的表现，可广泛应用于增强现实领域。

Description

单目视频场景三维结构的多视角一致的平面检测解析方法

技术领域

本发明涉及一种单目视频场景三维结构的多视角一致的平面检测解析方法，属于计算机视觉技术、三维重建、增强现实领域。

背景技术

在增强现实应用中，当前最主要的两个待解决的问题是恢复场景结构、虚实场景融合。而第一个问题更为基础、更为基本，只要得到准确的场景结构，才能够将虚拟对象放置在预期的位置，实现准确的虚实场景融合。

当前大多数实时的单相机重建恢复场景结构方法中，采用即时定位与地图重建（SLAM，Simultaneous Localization And Mapping）方法，往往只能得到富含噪声的稀疏或半稠密的点云。一些能够通过单相机获得稠密点云的方法，往往需要GPU的辅助，对计算能力的要求特别苛刻，无法适应现实生活中的应用限制。而且在增强现实应用中，将虚拟对象融合到真实视频中获得视觉上合理的融合效果，需要对直接重建得到的富含噪声的稀疏或者半稠密的点云进行进一步的计算，提取得到场景的平面几何结构，才能进行虚实融合。

现在的单相机重建方法大致可以分为三类：基于特征点（Based on Feature）的方法，基于直接图像对齐（Based on Image Align Directly）的方法以及结合这两种方法的综合方法。

基于特征点对齐的方法通过提取图像中离散的特征点，例如SIFT，SURF，FAST，ORB等特征，匹配相邻图像间的特征点，通过匹配的特征点计算相机的位姿增量并利用三角测量技术恢复得到特征点的三维坐标。Georg Klein和David Murray将应用场景限定于工作台等小型增强现实应用场合，假定提取得到的特征点大多数都位于同一个表面中，从而提出PTAM方法利用提取得到的FAST角点利用RANSAC算法估计场景的主平面，从而实现在小场景下增强现实的应用。但是特征点只包含了图像中相当少的一部分像素点，在实时场景中生成的三维点云往往十分稀疏，无法包含场景中丰富的几何结构，无法应用于复杂的应用中。

基于图像对齐的方法通过前一帧和当前帧之间所有像素点进行直接的对齐操作，利用图像上所有的像素点信息求解相邻帧的相机位姿增量，恢复图像中像素点的深度信息，从而得到点云。Richard Newcombe和Andrew Davison等人提出的DTAM方法通过在GPU上进行相邻帧图像直接对齐，获得了稠密重建的结果，但是通过图像对齐的方法往往十分耗时，也限制了其应用场景。Jakob Engel，Thomas和Daniel Cremers提出LSD-SLAM方法利用图像中梯度变化显著的点进行图像对齐，将前一帧恢复得到的点云投影到当前帧通过LM算法迭代求解相邻帧的相机位姿增量，并在sim(3)空间中优化相机位姿，得到图像中梯度变化显著的点的深度信息，从而生成半稠密点云。该方法大大降低了计算的时间复杂度，从而可以在无GPU帮助的情况下仅仅依赖CPU实时生成点云，并且半稠密点云包含了场景中轮廓部分的点云，提供了相当丰富的信息。Thomas等人将LSD-SLAM方法移植到手机平台上，通过对生成的半稠密点云的深度建立能量函数，最小化图像上不同像素点间深度变化的误差从而获得低精度的面片模型，使得能够在资源有限的手机平台上进行增强现实应用。总的来说，通过对图像上所有像素点进行直接图像对齐是一项十分耗时的工作，而通过对图像上梯度变化比较大的像素点进行图像对齐能够大大提升运算速度，同时对于场景中大多数十分重要的轮廓信息都得以保留。

在结合特征点和直接图像对齐进行重建的方法中，主要有Richard A.Newcombe和Andrew J.Davison利用PTAM创建的稀疏点云得到粗略的面模型然后投影到下一帧，通过光流跟踪重新更新面模型得到场景准确的结果，需要GPU的帮助；另一方面工作是Raul Mur-Artal和Juan D.Tardos通过提取图像ORB特征计算相邻帧间相机位姿增量，然后对图像中梯度变化比较大的点进行深度估计得到最终生成的点云。

综上所述，基于特征点对齐的方法进行单目相机场景重建，只能得到稀疏的点云，无法得到场景的三维结构，而基于直接图像对齐的DTAM等方法虽然能够恢复三维场景得到稠密点云，从而用于恢复场景的三维结构，但是往往需要GPU的辅助，对于计算能力的要求很高。而利用LSD-SLAM方法得到半稠密点云同时重建场景的工作仅考虑了点云信息用于三维结构重建，未考虑真实的三维场景中是否存在该三维结构。

发明内容

本发明的目的是：针对基于特征点对齐的方法只能得到稀疏点云无法恢复场景三维结构，而基于直接图像对齐的方法恢复三维场景得到稠密点云，计算复杂度较高需要GPU的辅助，提供单目视频场景三维结构的多视角一致的平面检测解析方法，能够仅在CPU的帮助下，利用包含噪声的半稠密点云和图像信息，恢复真实场景的三维结构信息，在平面重建、虚拟模型注册与虚实融合等方面有良好的表现，可广泛应用于增强现实领域。

为完成本发明的目的，本发明采用的技术方案是：

单目视频场景三维结构的多视角一致的平面检测解析方法，其中，包括如下步骤：

步骤S100，将视频的每一帧图像由RGB图像转成灰度图，通过LSD-SLAM检测图像中梯度变化比较强烈的点，通过直接图像对齐的方式计算相邻帧的相机位姿增量。利用三角测量技术计算这些梯度变化强烈的点的深度，这些点的深度构成深度图，利用深度图可生成包含噪音的点云，去掉冗余的帧，仅提取保留视频的关键帧、关键帧深度图、关键帧视角下的相机位姿。

步骤S200，对得到的关键帧利用Line Segment Detector方法提取得到关键帧中的二维线段，得到关键帧中包含的二维线段的起点、终点、线段宽度，延长二维线段，对那些延长后相交且方向相近、距离相近的二维线段进行合并。在任一个关键帧上得到二维线段后，并计算各个关键帧上二维线段对应的点云，从而根据关键帧得到关键帧上的一条线段。在以后的步骤中，线段将包含两部分：一条关键帧中的二维线段、若干三维点组成的点云。

步骤S300，针对单帧得到的二维线段对应的三维点包含着大量的噪音点的情况，提出多视角一致约束的方法，将基于单帧提取得到的线段（二维线段、三维点云）投影到相邻关键帧中寻找相关线段，在多个关键帧上计算每一个线段的相关线段构成相关线段集，过滤掉噪音点，拟合相关线段集中的点云得到三维线段；对得到三维线段以后的关键帧上直接投影该三维线段，寻找属于该三维线段的点云更新三维线段。在处理完所有关键帧后将过滤掉重复的三维线段。

步骤S400，计算步骤S300提取得到的三维线段中相交的三维线段，根据线线相交必然位于同一个平面中的约束，利用相交的三维线段构建平面并添加所有位于该平面的三维线段，在位于同一个平面上的三维线段的点云中利用RANSAC方法得到平面参数，从而结合图像信息从包含噪声的三维点云中通过多视角一致约束检测解析得到单目视频场景中的平面。

步骤S500，根据场景中重建得到的平面和相机参数，根据用户需求将虚拟三维模型注册进入视频中，虚实融合按照用户需求完成增强现实应用。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，在步骤S100中，用户首先将相机预先标定获得相机的焦距、主点、畸变等参数，然后将拍摄的视频进行去畸变处理。将输入视频的每一帧图像由RGB图像转成灰度图，然后通过LSD-SLAM检测图像中梯度变化比较强烈的点，通过直接图像对齐的方式计算相邻帧的相机位姿增量。利用三角测量技术计算这些梯度变化强烈的点的深度，这些点的深度构成深度图，利用深度图可生成包含噪音的点云，去掉冗余的帧，仅提取保留视频的关键帧、关键帧深度图、关键帧视角下的相机位姿。

步骤S210，对步骤S100中提取得到的每一个关键帧，利用Line Segment Detector方法提取得到二维线段，二维线段包含二维线段的起点、终点、二维线段宽度。

步骤S220，为了提高多视角连续约束生成三维线段的可靠性，减少只利用图像局部信息提取得到细小的二维线段，在得到的二维线段后进行合并。提取得到的二维线段向两端各延长N个像素点，计算延长后的二维线段与其他二维线段相交的情况，若相交的二维线段之间满足二者的夹角小于而且距离小于ε，则合并这两条二维线段。

步骤S230，在得到二维线段后，判断二维线段上的像素点在关键帧深度图中是否对应着有效的深度，若存在有效深度则从三维点云中得到所述像素点对应的点云，从而实现将二维线段投影到三维空间中，得到关键帧上各个二维线段对应的点云，在关键帧上得到一条由一条二维线段和其对应的三维点云构成的线段。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，N取值为10，夹角阀值取值为10°，距离阀值ε为3个像素点。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，在步骤S300中，将基于单个关键帧提取得到的线段（二维线段、三维点云）投影到相邻关键帧中，投影线段的三维点云，根据三维点云的投影结果寻找在相邻关键帧的相关线段。通过多视角连续约束，过略掉线段的三维点云中的噪音点，仅保留满足多视角连续约束的点云，然后拟合三维线段。

步骤S310，将关键帧F_i的线段L_(i,m)的三维点云投影到关键帧F_j，获得点云在关键帧F_j上的投影结果，线段L_(i,m)上的一点Pt_(i,m,p)在关键帧F_j的投影结果的公式如下：

其中，变量Pt′_(i,m,p)为点Pt_(i,m,p)的齐次坐标，变量Proj_4*4是根据相机的内参（焦距、主点）并经过去畸变后计算得到的相机投影矩阵，变量是步骤S100中得到的关键帧F_j对应的以相机视图矩阵形式表示的相机位姿，变量UV_(j,n,q)表示点Pt_(i,m,p)在关键帧F_j上的投影坐标；Width和Height分别表示关键帧F_j的宽度和高度。

步骤S320，将关键帧F_i命名为源关键帧，F_i上线段L_(i,m)命名为源线段，将与关键帧F_i相邻的下一个关键帧F_j命名为目标关键帧，按照步骤S310所述的方法将源线段上的三维点云投影到目标关键帧上，若三维点云的投影落在目标关键帧上的一条线段L_(j,n)的二维线段上，且落在线段L_(j,n)的二维线段上的点云数目超过阀值δ，则将目标关键帧上的这条线段命名为目标线段。

步骤S321，按照步骤S310所述的方法将目标线段上的三维点云投影到源关键帧上，判断三维点云是否落在源线段的二维线段上，若落在源线段的二维线段上的点云数目超过阀值δ，则称此源线段和目标线段满足多视角一致的约束，二者为相关线段。

步骤S322，相关线段中的源线段和目标线段的三维点云落在彼此上的点云构成相关线段的三维点云，其余点云被视为噪音点云将被抛弃从而通过多视角一致的约束过滤掉点云中的噪声点。从而利用多视角一致约束从包含噪音的点云中过滤掉噪声点，得到满足关键帧之间满足多视角一致约束的相关线段。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，点数阀值δ取值50。

步骤S330，按照步骤S320至S322的方法得到关键帧F_i上线段L_(i,m)和与关键帧F_i相邻的下一个关键帧F_j上线段L_(j,n)构成相关线段后，将该相关线段的三维点云投影到与关键帧F_j相邻的下一个关键帧F_k上。

步骤S331，若三维点云投影落在线段L_(k,p)上且点数超过阀值δ，则将线段L_(k,p)上的点云分别投影回关键帧F_i和关键帧F_j上，若投影点落在线段L_(i,m)和线段L_(j,n)的点云同样超过阀值δ，则线段L_(i,m)、L_(j,n)、L_(k,p)将组成一条新的相关线段，此相关线段的三维点云由三条线段的三维点云中投影点同时落在三条线段上的点云构成，此相关线段在三个视角下均满足多视角一致约束。

步骤S332，若步骤S331中未找到满足条件的线段，则将由关键帧F_i上线段L_(i,m)和关键帧F_j上线段L_(j,n)构成的相关线段舍弃掉。

步骤S333，将步骤S330、S321的方法扩展到N关键帧帧上，得到在N个视角下均满足多视角一致约束的相关线段。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，N设置为3。

步骤S340，在得到N个连续关键帧上满足多视角一致约束的相关线段后，对相关线段的点云Pt_N利用最小二乘法拟合点云得到点云对应的三维线段L_N。

步骤S341，在以后的关键帧中，将L_N投影在该关键帧F_k中得到投影结果L_k，搜索关键帧F_k中与L_k夹角小于δ₂距离小于ε₂的线段，所有满足条件的线段组成线段集{L_c}，在线段集{L_c}中的每一个线段对应的点云中搜索与三维直线L_N距离小于ε₃的三维点，将该三维点加入三维直线L_N的点云中，利用最小二乘法拟合点云得到新的三维线段。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，夹角阀值δ₂设置为10°，距离阀值ε₂设置为3个像素点，距离阀值ε₃的最佳取值应根据LSD-SLAM重建的点云的情况确定。确定ε₃的方法如下：挑选一些重建点云分布比较好的二维线段，直接根据最小二乘法拟合其点云生成三维线段，计算点云到该拟合出的三维线段的距离，取包含80%的点的距离为ε₃。

步骤S350，每一帧图像中的二维线段无论其是否已经做为前面帧的直线的相关线段，都会将自身投影到下一个相邻帧中寻找相关线段，如果在连续的N帧中均找到相关线段，则将按照步骤S340拟合点云生成三维线段，从而可能导致对于真实场景中的一条三维线段生成了若干个三维线段与之对应。这些生成的三维线段中部分受到点云误差的影响只在有限的几个视频帧中有相关线段，这些三维线段实际上是受误差影响生成的无效三维线段。从多个三维直线中过滤掉无效直线挑选得到正确的三维线段，将避免无效直线对最终的结果的影响。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，将三维线段投影到各关键帧上，计算各关键帧上的投影结果与关键帧上检测到的二维线段间的距离和夹角，若夹角小于而且距离小于ε则认为该二维线段是三维线段的相关线段，统计三维线段在所有关键帧上的相关线段。如果一条三维线段L_i超过τ的相关线段都为另一条三维线段L_j的相关线段，则认为L_i可合并入L_j中。若L_i可合并入L_j中，而L_j不可合并入L_i中，则可认为L_i为一条无效三维线段，将被删除掉；若L_i与L_j均可合并入对方，则将二者的点云合并重新拟合得到新的三维线段，替换原有的L_i与L_j。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，夹角阀值距离阀值ε取值等于步骤S341中δ₂、ε₂，τ设置为0.8。

步骤S400，两条在三维空间中相交的三维线段必然可以唯一确定一个平面，且该平面也必然是三维场景中的一个平面。经过多视角对齐约束后得到的三维线段，通过它们的相交属性确定初始平面，然后将输入同一个平面的其他三维线段也添加入该平面中，最后通过RANSAC方法得到平面的点法式参数。

步骤S410：将提取得到的所有的三维线段投影到各个关键帧图像中，计算投影结果在图像中的相交情况，统计在图像平面中相交的二维线段集合。然后再根据三维线段在三维空间中异面距离，若二者距离小于λ*ε₃，则认为这两条三维直线相交。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，ε₃即为步骤S341中用于判断点云到三维线段距离的阀值的参数ε₃，λ取值为1.5。

步骤S420：根据两两相交的三维线段，利用SVD分解提取出这两条相交的三维线段的点云中的满足共面要求的主要部分，从而实现利用RANSAC方法计算两直线构成平面的参数——法向量，然后统计所有顶点的平均值作为平面上一点。

其中Pt_i为一个一行三列的行向量，代表相交直线中点云的一个三维点，C代表一个常数，对矩阵进行SVD分解，计算最小的特征值及其特征向量该特征向量即为相交直线构成的平面的单位法向量。得到的平面法向量和平面上一点，满足使得点云到重建后的平面距离最小：

其中表示平面法向量，p表示平面上一点，P_(i,j)表示属于平面上的三维线段i上的三维点j。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，在获得初始平面后，搜索平面上的三维线段的相交三维线段，计算三维线段与平面法线的夹角、三维线段到平面的平均距离，与夹角小于而且距离小于ε，则三维线段属于该平面，否则三维线段不属于该平面。继续搜索平面上的三维线段的相交三维线段，判断是否属于该平面。直到搜索完所有属于该平面的三维线段，重新计算平面参数，然后继续搜索属于平面的三维线段，直到无新三维线段加入平面中。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，夹角阀值取值为10°，距离阀值ε为步骤S410中的λ*ε₃。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，在生成所有平面后，将那些不属于任何平面的三维线段，同样根据三维线段与平面法线的夹角、三维线段到平面的平均距离判断三维线段是否属于平面，从而将那些与其他三维线段不相交的三维线段也添加到平面中。

优选的是，所述的单目视频场景三维结构的多视角一致的平面检测解析方法中，将三维线段投影到平面上，计算投影三维线段的起点和终点坐标，作为三维线段的起点和终点坐标，计算三维线段的平面上的最小包围矩形，以该矩形作为重建的平面，三角化得到平面模型。

步骤S500中，用户可根据自己的应用需求，跟踪场景中相机的移动，将重建得到的平面注册入视频中，从而将重建得到的平面应用于实际的增强现实应用中。

本发明与现有技术相比的优点在于：本发明的单目视频场景三维结构的多视角一致的平面检测解析方法，可仅利用CPU而无需特殊硬件GPU的支持下，利用隐含场景轮廓信息的半稠密点云，结合图像中的信息，对比于以往通过仅利用点云信息进行场景重建而不考虑真实场景中是否存在这些三维结构的方法相比，本方法利用多视角一致的约束在图像信息的帮助下将重建得到的半稠密点云中的噪声点过滤掉保证能够重建得到准确的三维结构，同时利用图像的信息恢复三维场景中真实存在的三维线段，并利用这些三维线段提取场景中的真实存在的平面，从而将真实场景数字化，使得为虚拟对象融入真实场景中提供基础，并在实际的增强现实应用中取得了比较好的效果。

附图说明

图1是本发明的流程图；

图2是本发明中输入视频数据及生成的初始化点云结果；

图3是本发明的多视角约束示意图；

图4是本发明在增强现实应用中的效果图；

图5是本发明的二维线段合并对点云影响效果图；

图6是本发明的三维线段合并对点云影响效果图。

具体实施方式

如图1所示，本发明单目视频场景三维结构的多视角一致的平面检测解析方法，包括以下步骤：

步骤S100，用户首先将相机预先标定获得相机的焦距、主点、畸变等参数，然后将拍摄的视频进行去畸变处理。将输入视频的每一帧图像由RGB图像转成灰度图，然后通过LSD-SLAM检测图像中梯度变化比较强烈的点，通过直接图像对齐的方式计算相邻帧的相机位姿增量；利用三角测量技术计算这些梯度变化强烈的点的深度，这些点的深度构成深度图，利用深度图可生成包含噪音的点云，并去掉冗余的帧，仅提取保留视频的关键帧、关键帧深度图、关键帧视角下的相机位姿。

步骤S200，对步骤S100中提取得到的每一个关键帧，利用Line Segment Detector方法根据图像局部信息提取得到图像中的二维线段，并计算二维线段上像素点对应的点云，得到各关键帧上二维线段对应的点云，包含如下步骤：

步骤210，对得到的关键帧利用Line Segment Detector方法提取得到图像中的二维线段，得到图像中包含的二维线段的起点、终点、线段宽度。

步骤S220，向二维线段两端各延长N个像素点，计算延长后的二维线段与其他二维线段相交的情况，若相交二维线段之间满足二者的夹角小于而且距离小于ε，则合并这两条二维线段。其中，N取值为10，夹角阀值取值为10°，距离阀值ε为3个像素点。

步骤S300，针对单帧得到的二维线段对应的三维点包含着大量的噪音点的情况，提出多视角下线段连续约束的方法，将基于单个关键帧提取得到的线段（二维线段、三维点云）投影到相邻关键帧中，投影线段的三维点云，根据三维点云的投影结果寻找在相邻关键帧的相关线段。通过多视角连续约束，过略掉线段的三维点云中的噪音点，仅保留满足多视角连续约束的点云，然后拟合三维线段，包含以下步骤：

步骤S310，将关键帧F_i的线段L_(i,m)的三维点云投影到关键帧F_j，获得点云在关键帧F_j上的投影结果。计算线段L_(i,m)上的三维点Pt_(i,m,p)在关键帧F_j的投影结果的公式如下：

步骤S321，按照步骤S310所述的方法将目标线段上的三维点云投影到源关键帧上，判断三维点云是否落在源线段的二维线段上，若落在源线段的二维线段上的点云数目超过阀值δ，则称此源线段和目标线段满足多视角一致的约束，二者为相关线段。其中，点数阀值δ取值50。

步骤S330，按照步骤S320至S322的方法得到关键帧F_i上线段L_(i,m)和与关键帧F_i相邻的下一个关键帧F_j上线段L_(j,n)构成的相关线段后，将该相关线段的三维点云投影到与关键帧F_j相邻的下一个关键帧F_k上。

步骤S333，将步骤S330、S321的方法扩展到N关键帧帧上，得到在N个视角下均满足多视角一致约束的相关线段。其中，N取值为3。

步骤S340，在得到N个连续关键帧上满足多视角一致约束的相关线段后，对相关线段的点云Pt_N后利用最小二乘法拟合点云得到点云对应的三维线段L_N。

步骤S341，在以后的关键帧中，将L_N投影在该关键帧F_k中得到投影结果L_k，搜索关键帧F_k中与L_k夹角小于δ₂距离小于ε₂的线段，所有满足条件的线段组成线段集{L_c}，在线段集{L_c}中的每一个线段对应的点云中搜索与三维直线L_N距离小于ε₃的三维点，将该三维点加入三维直线L_N的点云中，利用最小二乘法拟合点云得到新的三维线段。其中，夹角阀值δ₂设置为10°，距离阀值ε₂设置为3个像素点，距离阀值ε₃的最佳取值应根据LSD-SLAM重建的点云的情况确定。确定ε₃的方法如下：挑选一些重建点云分布比较好的二维线段，直接根据最小二乘法拟合其点云生成三维直线，计算点云到该拟合出的直线的距离，取包含80%的点的距离为ε₃。

步骤S350，将三维直线投影到各关键帧上，计算各关键帧上的投影结果与关键帧上检测到的二维线段间的距离和夹角，若夹角小于而且距离小于ε则认为该二维线段是三维直线的相关线段，统计三维直线在所有关键帧上的相关线段。如果一条三维直线L_i超过的相关线段都为另一条三维直线L_j的相关线段，则认为L_i可合并入L_j中。若L_i可合并入L_j中，而L_j不可合并入L_i中，则可认为L_i为一条无效直线，将被删除掉；若L_i与L_j均可合并入对方，则将二者的点云合并重新拟合得到新的三维线段，替换原有的L_i与L_j。τ设置为0.8，夹角阀值距离阀值ε取值等于步骤S341中δ₂、ε₂。

步骤S400，计算步骤S300提取得到的三维线段中相交的三维线段，根据线线相交必然位于同一个平面中的约束，利用相交的三维线段构建平面并添加所有位于该平面的三维线段，在位于同一个平面上的三维线段的点云中利用RANSAC方法得到平面参数。

步骤S410：将提取得到的所有的三维线段投影到各个关键帧图像中，计算投影结果在图像中的相交情况，统计在图像平面中相交的三维线段集合。然后再根据三维线段在三维空间中距离，若二者距离小于λ*ε₃，则认为这两条三维线段相交。ε₃即为步骤S341中用于判断点云到三维线段距离的阀值ε₃，λ取值为1.5

步骤S420：根据两两相交的三维线段，利用SVD分解提取出两条三维线段的点云中的满足共面要求的主要部分，从而实现利用RANSAC方法计算两三维线段构成平面的参数——法向量，然后统计所有顶点的平均值作为平面上一点。

其中Pt_i为一个一行三列的行向量，代表相交三维线段中点云的一个三维点，C代表一个常数，对矩阵进行SVD分解，计算最小的特征值及其特征向量该特征向量即为相交三维线段构成的平面的单位法向量。

在获得初始平面后，继续搜索平面上的三维线段的相交三维线段，判断是否属于该平面。直到搜索完所有属于该平面的三维线段，重新计算平面参数，然后继续搜索属于平面的三维线段，直到无新三维线段加入平面中。在生成所有平面后，将那些不属于任何平面的三维线段，同样根据三维线段与平面法线的夹角、三维线段到平面的平均距离判断三维线段是否属于平面，从而将那些与平面上三维线段不相交的三维线段也添加到平面中。

步骤S500，根据场景中重建得到的平面和相机参数，根据用户需求将虚拟三维模型注册进入视频中，虚实融合，按照用户需求完成增强现实应用。

下面进一步结合附图以实例的方式进行说明：

请参见图2。图2是本发明的输入视频和LSD-SLAM方法生成的半稠密点云。其示出了本发明的输入数据，半稠密点云缺失了场景中实际存在的平面，但是包含了场景中重要的轮廓信息，同时点云中包含的大量的噪声点可以很明显的看到。

请参见图3。图3是本发明的多视角连续约束的示意图。这张图比较直观的反映了多视角连续约束计算相邻帧之间相关线段，以及计算相关点云的过程。图中三个关键帧中的三条直线表示连续3帧的一组相关线段，三维空间中的灰色区域表示经过关键帧0和关键帧1约束下相关点云的分布区域，分布在灰色区域的点云既是关键帧0上线段的相关点云，又是关键帧1上线段的相关点云。在经过第3个视角的线段连续约束后，点云可分布的区域有灰色缩小为黑色区域，可以看到在此步骤中大量的噪声点被过滤掉，而黑色区域中的点云同时是三个视角的相关点云，估计得到的直线受到噪声的影响更小。

请参见图4。图4是本发明在增强现实中的应用示例；第一列图像表示输入图像经过直线提取和多视角连续约束后的线段投影结果；第二类是通过线线相交必位于一个平面的约束提取得到的平面，可以看到场景中的主要的结构得到了很好的恢复，第三列是将卡通人物超级马里奥游戏应用于该增强现实中的效果图，达到了很好的视角效果。

请参见图5。图5是本发明中经过二维线段拟合后对提取到的三维线段的影响。左侧是未经过二维线段拟合的结果，场景中的轮廓线经过多视角连续约束后正确的点云被当做噪音点被过滤掉，经过二维线段拟合后的结果达到了预期的目的。

请参见图6。图6是本发明的对无效直线过滤的示意图。图片中叉号处的点画线构成的三维线段代表一条无效三维线段，在第一行图像中找到了相关线段，但在第二行图像中未找到相关线段；相比而言，黑色的三维线段在这些视角中都找到了相关线段，点画线构成的无效三维线段将被黑色的三维线段取代而被过滤掉。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

Claims

1.单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于包括如下步骤：

步骤S100，输入单目视频，提取关键帧并计算关键帧视角下的相机位姿，根据关键帧帧间连续性生成包含噪音的关键帧深度图，并根据所述深度图生成包含噪音的半稠密点云；

步骤S200，在关键帧中提取二维线段，延长二维线段，合并那些延长后相交且方向相近、距离相近的二维线段；将经过合并后得到的二维线段反投影到三维空间中，从所述半稠密点云中提取得到所述合并后得到的二维线段上像素点对应的点云，得到二维线段在所述关键帧上的相关点云，从而根据关键帧得到关键帧上的一条线段，其由两部分组成：从关键帧提取得到的二维线段和其对应的三维点云；

步骤S300，将关键帧命名为源关键帧，将源关键帧上的线段命名为源线段，将欲投影的相邻关键帧命名为目标关键帧，若源线段的三维点云在目标关键帧上投影落在目标关键帧上的一条线段的二维线段上，将目标关键帧上的这条线段命名为目标线段，且该目标线段上的三维点云投影到源关键帧上时三维点云的投影也落在源线段上时，称此源线段和目标线段满足多视角一致的约束，二者为相关线段；源线段和目标线段的三维点云落在彼此上的点云构成相关线段的三维点云，其余点云被视为噪音点云将被抛弃，从而利用多视角一致约束从包含噪音的点云中过滤掉噪声点，得到满足关键帧之间满足多视角一致约束的相关线段；将相关线段在后面的多个关键帧上继续寻找满足多视角一致约束的线段构成新相关线段，得到在多个连续的关键帧上满足多视角一致约束的相关线段后，拟合该相关线段的三维点云，得到一条准确的三维线段；对以后的关键帧直接投影该三维线段，寻找属于该三维线段的点云更新三维线段，在处理完所有关键帧后将过滤掉重复的三维线段；

步骤S400，根据线线相交必然位于同一个平面中的约束，从拟合得到三维线段中提取相交三维线段构建平面，同时搜索生成的三维线段得到属于同一平面的所有三维线段，对于同一个平面上的点云中利用RANSAC方法得到点法式平面的参数，从而从包含噪声的三维点云中通过多视角一致约束检测解析得到单目视频场景中的平面；

步骤S500，根据场景中重建得到的平面和相机位姿，根据用户需求将虚拟三维模型注册进入视频中，按照用户需求完成增强现实。

2.根据权利要求1所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：所述骤S100中，用户首先将相机预先标定获得相机的焦距、主点、畸变参数，然后对单目视频进行去畸变处理，使用LSD-SLAM(Large Scale Direct SLAM)方法通过直接图像对齐的方式利用帧间连续性生成包含噪音的关键帧深度图，同时得到在各个关键帧的视角下的相机位姿，根据所述关键帧深度图生成包含噪音的半稠密点云。

3.根据权利要求1所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：所述步骤S200中，根据关键帧得到关键帧上的一条线段的具体方法如下：

步骤210，在关键帧中利用Line Segment Detector方法提取得到二维线段，二维线段包含二维线段的起点、终点和二维线段宽度；

步骤220，二维线段向两端各延长N个像素点，计算延长后的二维线段与其他二维线段相交的情况，若相交的二维线段之间满足二者的夹角小于而且距离小于ε，则合并这两条二维线段得到一条新的二维线段；

步骤230，在得到二维线段后，判断二维线段上的像素点在关键帧深度图中是否对应着有效的深度，若存在有效深度则从三维点云中得到所述像素点对应的点云，从而实现将二维线段投影到三维空间中，得到关键帧上各个二维线段对应的点云，在关键帧上得到一条由一条二维线段和其对应的三维点云构成的线段。

4.根据权利要求1所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：所述步骤S300中，利用多视角一致约束从包含噪音的点云中过滤掉噪声点，得到满足关键帧之间满足多视角一致约束的相关线段的具体方法如下：

步骤S310，将关键帧F_i的线段L_(i，m)的三维点云投影到关键帧F_j，获得点云在关键帧F_j上的投影结果，线段L_(i，m)上的三维点Pt_(i，m，p)在关键帧F_j的投影结果的公式如下：

其中，Pt′_(i，m，p)为Pt_(i，m，p)对应的齐次坐标由分别表示三维空间位置的x，y，z，和表示齐次坐标变量的w四个元素组成，Proj_4*4是由去畸变后相机的焦距、主点构成的相机内参矩阵，是关键帧F_j下的视角中的相机位姿对应的外参矩阵，Pt′_(j，n，q)表示在关键帧F_j所对应的视角下的相机坐标系下点Pt_(i，m，p)的齐次坐标，变量UV_(j，n，q)表示点Pt_(i，m，p)在关键帧F_j上的投影坐标；Width和Height分别表示关键帧F_j的宽度和高度；

步骤S320，将关键帧F_i命名为源关键帧，F_i上线段L_(i，m)命名为源线段，将与关键帧F_i相邻的下一个关键帧F_j命名为目标关键帧，按照步骤S310所述的方法将源线段上的三维点云投影到目标关键帧上，若三维点云的投影落在目标关键帧上的一条线段L_(j，n)的二维线段上，且落在线段L_(j，n)的二维线段上的点云数目超过阀值δ，则将目标关键帧上的这条线段命名为目标线段；

步骤S321，按照步骤S310所述的方法将目标线段上的三维点云投影到源关键帧上，判断三维点云是否落在源线段的二维线段上，若落在源线段的二维线段上的点云数目超过阀值δ，则称此源线段和目标线段满足多视角一致的约束，二者为相关线段；

步骤S322，相关线段中的源线段和目标线段的三维点云落在彼此上的点云构成相关线段的三维点云，其余点云被视为噪音点云将被抛弃，从而利用多视角一致约束从包含噪音的点云中过滤掉噪声点，得到满足关键帧之间满足多视角一致约束的相关线段。

5.根据权利要求1所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：步骤S300中，将相关线段在后面的多个关键帧上继续寻找满足多视角一致约束的线段构成新相关线段的具体方法如下：

步骤S330，关键帧F_i上线段L_(i，m)和与关键帧F_i相邻的下一个关键帧F_j上线段L_(j，n)构成相关线段后，将该相关线段的三维点云投影到与关键帧F_j相邻的下一个关键帧F_k上；

步骤S331，若三维点云投影落在线段L_(k，p)上且点数超过阀值δ，则将线段L_(k，p)上的点云分别投影回关键帧F_i和关键帧F_j上，若投影点落在线段L_(i，m)和线段L_(j，n)的点云同样超过阀值δ，则线段L_(i，m)、L_(j，n)、L_(k，p)将组成一条新的相关线段，此相关线段的三维点云由三条线段的三维点云中投影点同时落在三条线段上的点云构成，此相关线段在三个视角下均满足多视角一致约束；

步骤S332，若步骤S331中未找到满足条件的线段，则将由关键帧F_i上线段L_(i，m)和关键帧F_j上线段L_(j，n)构成的相关线段舍弃掉；

步骤S333，将步骤S330、S331的方法扩展到N关键帧帧上，得到在N个视角下均满足多视角一致约束的相关线段。

6.根据权利要求1所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：步骤S300中，得到在多个连续的关键帧上满足多视角一致约束的相关线段后，拟合该相关线段的三维点云，得到一条准确的三维线段，对以后的关键帧直接投影该三维线段，寻找属于该三维线段的点云更新三维线段如下：

步骤S340，在得到N个连续关键帧上满足多视角一致约束的相关线段后，对相关线段的点云Pt_N利用最小二乘法拟合点云得到点云对应的三维线段L_N；

步骤S341，在以后的关键帧中，将L_N投影在该关键帧F_k中得到投影结果L_k，搜索关键帧F_k中与L_k夹角小于δ₂距离小于ε₂的线段，所有满足条件的线段组成线段集{L_c}，在线段集{L_c}中的每一个线段对应的点云中搜索与三维直线L_N距离小于ε₃的三维点，将该三维点加入三维直线的点云中，利用最小二乘法拟合点云得到新的三维线段。

7.根据权利要求1所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：在步骤S300中，在处理完所有关键帧后将过滤掉重复的三维线段的具体方法如下：

步骤S350，将提取得到的三维直线投影到各关键帧上，计算各关键帧上的投影结果与关键帧上检测到的二维线段间的距离和夹角，若夹角小于而且距离小于ε则认为该二维线段是三维直线的相关线段，统计三维直线在所有关键帧上的相关线段；如果一条三维直线L_i超过τ的相关线段都为另一条三维直线L_j的相关线段，则认为L_i可合并入L_j中；若L_i可合并入L_j中，而L_j不可合并入L_i中，则可认为L_i为一条无效直线，将被删除掉；若L_i与L_j均可合并入对方，则将二者的点云合并重新拟合得到新的三维直线，替换原有的L_i与L_j。

8.根据权利要求1所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：步骤400中，根据线线相交必然位于同一个平面中的约束，从拟合得到三维线段中提取相交线段构建平面的具体方法如下：

步骤S410：将提取得到的所有的三维线段投影到各个关键帧图像中，计算投影结果在图像中的相交情况，统计在图像平面中相交的线段集合；然后对于图像平面中的相交三维线段，再根据两个三维线段在三维空间中异面距离，若二者距离小于则认为这两条三维线段相交；

步骤S420：根据两两相交的三维线段，利用SVD分解提取出两条三维线段的点云中的满足共面要求的主要部分，从而实现利用RANSAC方法计算两条三维线段构成平面的参数——法向量，然后统计所有顶点的平均值作为平面上一点，得到平面的点法式参数，从而从包含噪声的三维点云中通过多视角一致约束检测解析得到单目视频场景中的平面；

其中Pt_i为一个一行三列的行向量，代表相交三维线段中点云的一个三维点，C代表一个常数，对矩阵进行SVD分解，计算最小的特征值及其特征向量该特征向量即为相交三维线段构成的平面的单位法向量，得到的平面法向量和平面上一点，满足使得点云到重建后的平面距离最小：

其中表示平面法向量，p表示平面上一点，P_(i，j)表示属于平面上的直线i上的三维点j；

在获得初始平面后，搜索与平面上的三维线段相交的三维线段，计算相交的三维线段与平面法线的夹角、及该相交的三维线段到平面的平均距离，若夹角小于而且距离小于ε，则三维线段属于该平面，否则不属于该平面；继续搜索与平面上的三维线段相交的三维线段，判断是否属于该平面；直到搜索完所有属于该平面的三维线段，重新计算平面参数，然后继续搜索属于平面的三维线段，直到无新三维线段加入平面中；

在生成所有平面后，将那些不属于任何平面的三维线段，同样根据三维线段与平面法线的夹角、到平面的平均距离判断三维线段是否属于平面，从而将那些与平面上的三维线段不相交的三维线段也添加到平面中；

然后，将三维线段投影到平面上，计算投影的起点和终点坐标，作为三维线段的起点和终点坐标，计算所有的三维线段的平面上的最小包围矩形，以该矩形作为重建的平面，三角化得到平面模型。

9.根据权利要求1所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：所述步骤S500中，用户可根据自己的应用需求，根据已经跟踪到的相机移动情况，将重建得到的平面注册入视频中，同时将其他虚拟对象注册入视频中，从而将重建得到的平面应用于实际的增强现实应用中。

10.根据权利要求3所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：所述步骤220中，N取值为10，夹角阀值取值为10°，距离阀值ε为3个像素点；步骤220中，阀值δ取值为50。

11.根据权利要求5所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：步骤333中，阀值N取值为3。

12.根据权利要求6所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：步骤341中，夹角阀值δ₂设置为10°，距离阀值ε₂设置为3个像素点，距离阀值ε₃的取值应根据LSD-SLAM重建的点云的情况确定，方法如下：挑选一些重建点云分布比较好的二维线段，直接根据最小二乘法拟合其点云生成三维直线，计算点云到该拟合出的直线的距离，取包含80％的点的距离为ε₃。

13.根据权利要求7所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：步骤350中夹角阀值取10°，距离阀值ε取值3个像素点，τ设置为0.8。

14.根据权利要求8所述的单目视频场景三维结构的多视角一致的平面检测解析方法，

其特征在于：步骤S410中，λ取值为1.5，ε₃的取值应根据LSD-SLAM重建的点云的情况确定，方法如下：挑选一些重建点云分布比较好的二维线段，直接根据最小二乘法拟合其点云生成三维线段，计算点云到该拟合出的三维线段的距离，取包含80％的点的距离为ε₃。

15.根据权利要求8所述的单目视频场景三维结构的多视角一致的平面检测解析方法，其特征在于：步骤S420中，夹角阀值取值为10°，距离阀值ε为的1.5*ε₃，ε₃的取值应根据LSD-SLAM重建的点云的情况确定，方法如下：挑选一些重建点云分布比较好的二维线段，直接根据最小二乘法拟合其点云生成三维直线，计算点云到该拟合出的直线的距离，取包含80％的点的距离为ε₃。