CN101719286B

CN101719286B - 融合单视点场景分析的多视点三维场景重建方法及其系统

Info

Publication number: CN101719286B
Application number: CN2009102418001A
Authority: CN
Inventors: 王亦洲; 张哲斌; 高文
Original assignee: Peking University
Current assignee: Guangzhou Start To Sail Industrial Robot Co; Sinomach Intelligence Technology Co ltd; Peking University; Guangzhou Mechanical Engineering Research Institute Co Ltd
Priority date: 2009-12-09
Filing date: 2009-12-09
Publication date: 2012-05-23
Anticipated expiration: 2029-12-09
Also published as: CN101719286A

Abstract

本发明公开了一种融合单视点场景分析的多视点三维场景重建方法及其系统。所述方法包括：对输入的原始图像序列分别进行基于多视点和单视点进行信息提取，获取初始语义信息和几何信息；依据所述初始语义信息和几何信息，基于先验概率模型及似然概率模型进行参数估计；依据所述参数估计的结果，重建所述原始图像序列所在场景的三维模型。本发明克服传统重建方法中，由于弱纹理区域造成的稀疏匹配问题，以及场景的复杂结构难题。

Description

融合单视点场景分析的多视点三维场景重建方法及其系统

技术领域

本发明涉及计算机视觉和图像处理技术领域，特别是针对三维场景重建问题中，融合单视点场景分析的多视点三维场景重建方法及其系统。

背景技术

三维场景建模是计算机图形学关注的核心问题之一，传统手段是使用诸如3dMax等三维建模工具人工绘制场景模型，在通过纹理映射，把场景对应的照片作为纹理映射到模型上以生成具有真实感的场景模型。从计算机视觉角度讲，三维重建问题一直是计算机视觉理论研究的核心问题之一，它的理想目标就是能够从一幅图像(单目视觉)或多幅图像(多目视觉)恢复出场景中内容在三维空间中的大小、位置、姿态等信息，从而能够对图像所反应的整个场景的三维结构进行重建。

基于图像的建模(Image Based Model(IBM))是一种融合计算机视觉技术和计算机图形学技术的三维建模手段。随着计算机视觉技术中的从运动获取结构(SFM，Structure From Motion)和基于模型的重建(Model-based reconstruction)等技术的发展，进一步推动了基于图像的建模技术的发展。另一方面，基于样例的三维重建方法也是今年来计算机图形学中被研究工作者所关注的重建方法之一，它的优势在于直接利用现有数据库中所对应物体或物体部件的三维模型，从而不需要对物体完全从头开始建模，省去了大量的工作。但存在的问题是：传统重建方法中，由于弱纹理区域造成的稀疏匹配问题，以及场景的复杂结构的难题都不能得到很好的解决。

发明内容

本发明的目的在于提供一种融合单视点场景分析的多视点三维场景重建方法及其系统，基于本发明，能够克服弱纹理造成的稀疏匹配问题，以及场景的复杂结构难题。

本发明一种融合单视点场景分析的多视点三维场景重建方法，包括如下步骤：信息提取的步骤，对输入的原始图像序列分别基于多视点和单视点进行信息提取，获取初始语义信息和几何信息；参数估计步骤，依据所述初始语义信息和几何信息，基于先验概率模型及似然概率模型进行参数估计；三维场景重建步骤，依据所述参数估计的结果，重建所述原始图像序列所在场景的三维模型。

上述三维场景重建方法，优选所述信息提取步骤中，基于多视点获取初始语义信息和几何信息包括：图像特征提取步骤，采用特征提取的算法，对所述原始图像序列进行特征提取，获取图像特征；稀疏的三维点云获取步骤，利用从运动获取结构的方法，计算表示所述图像特征的点在三维空间中的坐标，获取稀疏的三维点云。

上述三维场景重建方法，优选所述信息提取步骤中，基于多视点获取初始语义信息和几何信息还包括如下步骤：视差图获取步骤，依据立体匹配的方法，获取所述原始图像序列中每个像素点的视差图。

上述三维场景重建方法，优选所述信息提取步骤中，基于单视点获取所述初始语义信息和几何信息包括：语义标注步骤，将所述原始图像分割为多个图像块，依据提取的所述图像特征，采用分类器对所述多个图像块分别进行语义标注；语义区域匹配步骤，经过语义标注，图像中每个图像块获得到各自的语义标注；在多幅图像之间，根据图像特征的相似性以及语义标注的内容对不同图像之间的图像块进行相似性的比较；进而，对于两幅图像，获得图像块匹配对；对于多幅图像，获得图像块匹配组；模型选择步骤，从三维模型数据库中，选取与所述语义标注对应的物体类别模型，获取三维模型的假设。

上述三维场景重建方法，优选所述参数估计步骤中，所述三维模型的先验概率模型P(M)形式如下：

P (M) = Π_{k = 1}^{C} P_{k} (n_{k}) Π_{i = 1}^{n} \exp {- \underset{(i, j) &Element; ϵ}{Σ} ψ_{i} (m_{i}, m_{j})},

i，j，k均为自然数

其中，I为所述原始输入图像序列，M＝(n，m₁，m₂，...，m_n)，m_i＝(l_i，θ_i)；m₁，m₂，...，m_n为构成场景三维模型M中的n个子模型，每一子模型包括类别标签l_i及该子模型在世界坐标下的位置及姿态标签θ_i；P_k(n_k)表示关于第k类物体的子模型的个数n_k的先验，ψ_i(m_i，m_j)描述在整个三维模型中，子模型和其周围子模型之间，在包括物体类别、位置、姿态和尺度方面的一致性。

上述三维场景重建方法，优选所述参数估计步骤中，所述三维模型的似然概率模型P(I|M)形式如下：

P (I | M) = Π_{i = 1}^{n} P (I | m_{i}) = \frac{1}{z} \exp {- Σ_{i = 1}^{n} φ_{i} (m_{i}, f_{i} (I))}

其中，I为所述原始输入图像序列，φ_i(m_i，f_i(I))表示三维模型与所述原始图像序列中对应部分的拟合程度；f_i(I)表示子模型m_i在原始图像序列中对应的图像特征。

上述三维场景重建方法，优选所述三维场景重建步骤中，重建三维场景所采用的概率模型为：

M～P(M|I)∝P(I|M)P(M)；

M^{*} = \underset{M}{\arg \max} P (I | M) P (M);

其中，M^*表示重建的所述原始图像序列所在场景的最优三维模型。

上述三维场景重建方法，优选所述三维场景重建步骤中，采用自底向上和自顶向下的计算方法对三维场景进行语义信息和几何信息的融合，进而进行重建。

另一方法，本发明还提供了一种融合单视点场景分析的多视点三维场景重建系统，包括：信息提取的模块、参数估计模块和三维场景重建模块。其中，信息提取的模块用于对输入的原始图像序列分别基于多视点和单视点进行信息提取，获取初始语义信息和几何信息；参数估计模块用于依据所述初始语义信息和几何信息，基于先验概率模型及似然概率模型进行参数估计；三维场景重建模块用用于依据所述参数估计的结果，重建所述原始图像序列所在场景的三维模型。

相对于现有技术中，本发明具有如下有益效果：

第一、提出了融合单视点场景分析的多视点三维场景重建的统一的数学模型表示，从而使关于场景三维信息的理解可以在一个统一的框架下进行推理。

第二、从图像语义理解的角度为三位重建引入了场景的语义信息，从而能够克服传统重建方法中，由于弱纹理区域造成的稀疏匹配问题，以及场景的复杂结构难题。

第三、由于采用结合自底向上和自顶向下的高效计算手段，所以计算的速度和精度也将大大提高。

附图说明

图1为本发明融合单视点场景分析的多视点三维场景重建方法实施例的步骤流程图；

图2为本发明融合单视点场景分析的多视点三维场景重建系统实施例的结构示意图；

图3为本发明融合单视点场景分析的多视点三维场景重建系统中，从原始图像序列的输入到三维场景重现模型的输出的工作原理示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明在贝叶斯框架下融合多视点三维重建方法和单视点三维重建方法以及基本模型数据库，重构场景和对象物，以克服弱纹理造成的稀疏匹配以及场景复杂结构难题。其中，多视点三维重建方法包括从运动获取结构(SFM，Structure From Motion)以及立体匹配(SM，Stereo Matching)，单视点三维重建方法包括基于单幅图像的建模(MFSI，modeling from a single image)。

参照图1，图1为本发明融合单视点场景分析的多视点三维场景重建方法实施例的步骤流程图，包括如下步骤：

信息提取的步骤110，对输入的原始图像序列分别进行基于多视点和单视点进行信息提取，获取初始语义信息和几何信息；

参数估计步骤120，依据所述初始语义信息和几何信息，基于先验概率模型及似然概率模型进行参数估计；

三维场景重建步骤130，依据所述参数估计的结果，重建所述原始图像序列所表示的三维场景。

下面详细说明本发明融合单视点场景分析的多视点三维场景重建方法。其中，信息提取步骤110中，包括：

1)多视点信息提取：采用已知的特征提取方法，获取原始图像序列的图像特征，主要利用Structure from Motion(SFM)的方法通过匹配特征，从图像序列中计算特征点在三维空间中的坐标，从而形成稀疏的三维点云；同时，也可以利用立体匹配的方法得到图像中每个像素点的视差图。

2)单视点信息提取：在提取图像特征(外观特征和部分几何特征)的同时，对图像进行初始的标注，即：使用训练好的分类器(如Adaboost或SVM等)在图像中标注出其内含的各类型物体。也就是说，使用分类器的对图像标注的结果即为物体类别。基于标注，可以获取(1)初始匹配对或匹配组；(2)三维模型假设。下面分别说明。

(1)初始匹配对或匹配组

经过语义标注，图像中每个图像块获得到各自的语义标注；在多幅图像之间，根据图像特征的相似性以及语义标注的内容对不同图像之间的图像块进行相似性的比较，从而获得图像块匹配对(对于两幅图像)或匹配组(对于多幅图像)。这部分的工作实则是介于单视点信息提取和多视点信息提取之间，通过在多幅图像之间验证语义标注、匹配图像块，进而获得多幅图像之间各自单视点信息之间的关联。

(2)三维模型假设

而在三维图形基元库中，每一类物体都有各自的三维图形基元与其相对应，所以三维模型假设的获取实则就是根据标注结果从三维图形基元库中选取相应的三维基元模型即可。也就是说，基于这些标注我们可以从三维模型数据库中选取与之对应物体类别的三维图形基元模型假设，作为当前图像对应的各类物体的初始几何模型。

通过多视点信息提取后，获取的原始图像序列的信息可以包括：图像特征、稀疏的三维点云、视差图。

通过单视点信息提取后，取的原始图像序列的信息可以包括：初始匹配对或匹配组、三维模型假设。

然后将上述多视点及单视点信息提取获取的信息用于步骤120参数估计的步骤。

在具体说明参数估计步骤120之前，有必要对三维场景重建步骤130中，重建三维场景依据的概率模型进行说明。这样，我们就可以知道，需要获取哪些信息来以完成依据概率模型的三维场景的重建。

三维重建问题的形式化表示

我们把三维重建形式化为一个在贝叶斯理论框架下求取最大后验概率的问题，即在给定图像序列的条件下，计算一个最优的三维模型，使得该模型最能满足图像序列提供的三维信息的理解。该概率模型具有以下形式：

M～P(M|I)∝P(I|M)P(M)

M^{*} = \underset{M}{\arg \max} P (I | M) P (M)

其中，I为输入图像序列，M是对图像的三维理解，即三维模型。该模型具有如下形式：

M＝(n，m₁，m₂，...，m_n)以及

m_i＝(l_i，θ_i)

上式M集合的含义为：三维模型M由n个子模型构成，子模型由类别标签l_i指定它是哪一类物体(比如车辆、楼房、树木、行人等)，及相应参数θ_i指定该子模型在世界坐标下的位置及姿态。在执行过程中，依据类别标签从模型库中调用相应基本模型。需要指出的是，本算法所涉及的模型库，其中每个类别模型都是由一些3维模型基元构成，结构简单存储量小。

基于上述分析，对参数估计步骤120中，所涉及的先验概率模型和似然概率模型进行具体说明。

先验模型

如公式1所示，为了估计三维模型，我们需要在贝叶斯理论框架下分别求得三维模型的先验P(M)和模型的似然P(I|M)。P(M)形式如下：

P (M) = Π_{k = 1}^{C} P_{k} (n_{k}) Π_{i = 1}^{n} \exp {- \underset{(i, j) &Element; ϵ}{Σ} ψ_{i} (m_{i}, m_{j})}

该先验模型由两部分组成，在第一部分中P_k(n_k)表示关于第k类物体的子模型的个数n_k的先验，在第二部分中ψ_i(m_i，m_j)描述了在整个三维模型中，子模型和其周围子模型之间，在物体类别、位置、姿态和尺度等方面的一致性。例如车辆应该出现在公路上，路边的树木通常会在一排上，等等。

似然模型

似然模型P(I|M)形式如下：

P (I | M) = Π_{i = 1}^{n} P (I | m_{i}) = \frac{1}{z} \exp {- Σ_{i = 1}^{n} φ_{i} (m_{i}, f_{i} (I))}

该似然模型中，φ_i(m_i，f_i(I))表示三维模型与原始图像序列中对应部分(的特征)的拟合程度。f_i(I)表示子模型m_i在原始图像序列中对应的图像特征，这些特征既包括外观特征(颜色、纹理、光照等)，也包括几何特征(消失线、由立体匹配得到的密集视差图(disparitymap)或由Structure from Motion得到的稀疏三维点云等)。在对φ_i(m_i，f_i(I))进行计算时，外观特征可以帮助我们有效地判别当前图像区域更接近哪一类物体，从而为选择三维子模型提供依据。几何特征能够帮助我们精确地恢复三维模型在世界坐标系中的位置、姿态和尺度(例如，在进行子模型类别选择后，我们只知道应该选择人的模型还是楼的模型，但具体到楼的位置、朝向，以及楼地高度等这些信息都需要经由几何特征进行判断)。通过融合上述两种特征提供的信息，我们最终可以获得准确类别的三维子模型以及他们在世界坐标系中的位置、姿态和尺度参数，从而达到场景完整重建的目的。

并且，在三维场景重建步骤130中，关于模型计算的方法，其核心策略是：融合多视点视觉处理和单视点视觉处理得到的信息，在贝叶斯理论框架下，利用自底向上和自顶向下的计算机制，通过最大化生成三维场景模型的后验概率来进行场景解析，并对其中各个物体进行三维重构，包括对模型的选取以及对其参数(位置、姿态、尺度)的求取。

在上面已经说明，本算法所涉及的三维模型库，其中每个类别模型都是由一些3维模型基元构成，结构简单存储量小。

而建立三维图形基元是形成最终场景模型的基础，同时也是快速计算三维模型的关键的前提(在计算过程中通过语义信息驱动基本三维模型基元的抽取)。这包括如何决定基元表示形式、属性和基元个体之间的关系集等。在这里，我们依据人的认知角度和现实环境的基本常识，借鉴参数化的GEON模型的思想，手工设定常见的基元模型，包括不同类型的模型及其属性和不同模型之间的关系(互斥、相容等)。

上述实施例，融合单视点场景分析和多视几何的三维场景重建方法，并结合对场景的语义理解和基本的三维图形库，实现对于场景的三维重建，具有如下优点：

基于上述方法中涉及的似然概率模型，能够获取从场景中恢复的消失点、消失线等单视点几何信息，以及多视点视图像能够提供的三维稀疏点、立体匹配获得的深度信息等多目几何信息，而上述信息都是恢复三维场景的重要线索，能够有效克服传统重建方法中，由于弱纹理区域造成的稀疏匹配问题；并且，引入了关于场景内容理解的语义信息来帮助三维场景重建的进行，通过对单视点场景中景物的识别来驱动从基本的三维图形数据库中抽取重建所需的图形基元。在整个算法的计算流程中，使用了一套结合自底向上和自顶向下的计算方法，即单目几何信息抽取、多目几何信息抽取、基本三维图形基元抽取并行计算，自底向上的提出关于场景三维空间信息的候选信息，再通过已有的关于场景理解的先验知识自顶向下的验证、优化场景模型计算的速度和精度也将大大提高。

参照图2，图2为本发明融合单视点场景分析的多视点三维场景重建系统实施例的结构示意图，包括：

信息提取模块20，对输入的原始图像序列分别进行基于多视点和单视点进行信息提取，获取初始语义信息和几何信息；

参数估计模块22，依据所述初始语义信息和几何信息，基于先验概率模型及似然概率模型进行参数估计；

三维场景重建模块24，用于依据所述参数估计的结果，重建所述原始图像序列所在场景的三维模型。

在信息提取模块20中，包括基于多视点的图像信息获取子模块和基于单视点的图像信息获取子模块。

根据前述方法实施例的描述，基于多视点的图像信息获取子模块用于采用已知的特征提取方法，获取原始图像序列的图像特征，主要利用SFM的方法通过匹配特征，从图像序列中计算特征点在三维空间中的坐标，从而形成稀疏的三维点云；同时，也可以利用立体匹配的方法得到图像中每个像素点的视差图。通过该模块，对原始图像序列进行多视点信息提取后，获取的原始图像序列的信息可以包括：图像特征、稀疏的三维点云、视差图。

根据前述方法实施例的描述，基于单视点的图像信息获取子模块在提取图像特征(外观特征和部分几何特征)的同时，对图像进行初始的标注，即：使用训练好的分类器(如Adaboost或SVM等)在图像中标注出其内含的各类型物体。也就是说，使用分类器的对图像标注的结果即为物体类别。基于标注，可以获取(1)初始匹配对或匹配组；(2)三维模型假设。下面分别说明。

(1)初始匹配对或匹配组

(2)三维模型假设

然后将上述多视点及单视点信息提取获取的信息用于参数估计模块22和三维场景重建模块24，进而获取最优的三维场景模型。

上述参数估计模块22与三维场景重建模块24的工作原理与上述方法实施例中对应的参数估计的步骤以及三维场景重建步骤的原理一致，相关之处可以互相参照，在此不再赘述。

参照图3，图3为本发明融合单视点场景分析的多视点三维场景重建系统中，从原始图像序列的输入到三维场景重现模型的输出的工作原理示意图。其中，在图3中，矩形框表示数据处理的操作，而平行四边形框数据，该数据可以为原始图像序列，也可以为经过处理产生的中间数据，还可以是最终输出的重建的三维模型。

原始图像序列输入，分别进行基于多视点的图像信息获取和基于单视点的图像信息获取。下面结合图3分别介绍。

第一、基于多视点的图像信息获取子模块工作原理

该步骤是在信息提取模块20中的基于多视点的图像信息获取子模块中完成的。采用现有的特征提取算法，对原始图像序列进行特征提取，获取图像特征，然后主要利用Structure from Motion(SEM)的方法通过匹配特征，从图像序列中计算特征点在三维空间中的坐标，从而形成稀疏的三维点云；同时，也可以利用立体匹配的方法得到图像中每个像素点的视差图。

因此，多视点的图像信息获取子模块获取的初始语义信息和几何信息除包括图像特征外，还包括稀疏的三维点云和视差图。这些，均可以用于参数估计模块22进行参数估计。主要是基于似然模型的估计。

第二、基于单视点的图像信息获取子模块工作原理

该步骤是在信息提取模块20中的基于单视点的图像信息获取子模块中完成的。原始图像序列经过分割操作，分割为多个图像块，依据获取的原始图像特征，使用训练好的分类器(如Adaboost或SVM等)在标注出图像块表示的各类型物体。基于上述标注，可以进行语义区域匹配和模型选择的操作，从而，获取图像匹配对和三维模型假设的原始图形信息。该原始图形信息也作为参数估计模块22进行参数估计。主要是基于似然模型的估计。

在基于概率模型的参数估计的处理中，主要包括先验概率模型的参数估计和似然概率模型的参数估计，然后，基于这两种概率模型的估计结果，在上述贝叶斯理论框架下求取最大后验概率的问题，即在给定图像序列的条件下，计算一个最优的三维模型，使得该模型最能满足图像序列提供的三维信息的理解。所求得的最优三维模型即为重建后的三维场景。其中，先验概率模型的估计主要是先验训练数据经过先验训练后形成的。

其中，先验概率模型和似然概率模型，以及贝叶斯理论框架在上述方法实施例中已经有详细的说明，在此不再赘述。相互之间互相参阅即可。

以上对本发明所提供的融合单视点场景分析的多视点三维场景重建方法及其系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种融合单视点场景分析的多视点三维场景重建方法，其特征在于，包括如下步骤：

信息提取的步骤，对输入的原始图像序列分别基于多视点和单视点进行信息提取，获取初始语义信息和几何信息；

参数估计步骤，依据所述初始语义信息和几何信息，基于先验概率模型及似然概率模型进行参数估计；

三维场景重建步骤，依据所述参数估计的结果，重建所述原始图像序列所在场景的三维模型。

2.根据权利要求1所述的三维场景重建方法，其特征在于，所述信息提取步骤中，基于多视点获取初始语义信息和几何信息包括：

图像特征提取步骤，采用特征提取的算法，对所述原始图像序列进行特征提取，获取图像特征；

稀疏的三维点云获取步骤，利用从运动获取结构的方法，计算表示所述图像特征的点在三维空间中的坐标，获取稀疏的三维点云。

3.根据权利要求2所述的三维场景重建方法，其特征在于，所述信息提取步骤中，基于多视点获取初始语义信息和几何信息还包括如下步骤：

视差图获取步骤，依据立体匹配的方法，获取所述原始图像序列中每个像素点的视差图。

4.根据权利要求3所述的三维场景重建方法，其特征在于，所述信息提取步骤中，基于单视点获取所述初始语义信息和几何信息包括：

语义标注步骤，将所述原始图像分割为多个图像块，依据提取的所述图像特征，采用分类器对所述多个图像块分别进行语义标注；

语义区域匹配步骤，经过语义标注，图像中每个图像块获得到各自的语义标注；在多幅图像之间，根据图像特征的相似性以及语义标注的内容对不同图像之间的图像块进行相似性的比较；进而，对于两幅图像，获得图像块匹配对；对于多幅图像，获得图像块匹配组；

模型选择步骤，从三维模型数据库中，选取与所述语义标注对应的物体类别模型，获取三维模型的假设。

5.一种融合单视点场景分析的多视点三维场景重建系统，其特征在于，包括：

信息提取的模块，对输入的原始图像序列分别进行基于多视点和单视点信息提取，获取初始语义信息和几何信息；

参数估计模块，依据所述初始语义信息和几何信息，基于先验概率模型及似然概率模型进行参数估计；

三维场景重建模块，用于依据所述参数估计的结果，重建所述原始图像序列所在场景的三维模型。