CN101938668B

CN101938668B - 对多级透镜多视角场景的三维重建的方法

Info

Publication number: CN101938668B
Application number: CN 201010278130
Authority: CN
Inventors: 黄向生; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-09-10
Filing date: 2010-09-10
Publication date: 2013-01-23
Anticipated expiration: 2030-09-10
Also published as: CN101938668A

Abstract

本发明是一种对多级透镜多视角场景的三维重建的方法，通过多级透镜三维成像系统获取多视角二维图像，通过运用全息重建、立体视觉或是立体视觉和全息重建结合的方法对多视角的二维图像进行三维重建，得到场景中物体经过最后一级透镜所得的实像的深度信息，最后将得到的实像的深度信息沿着光线进入多级透镜三维成像系统的反方向，根据透镜的焦距、物距及像距之间的关系式逐级递推，从而获得场景中物体的三维信息。

Description

对多级透镜多视角场景的三维重建的方法

技术领域

本发明属于二维或三维成像技术领域，更具体地，本发明涉及一种对多级透镜多视角场景的三维重建的方法。

背景技术

计算机视觉是计算机科学中的一个非常活跃的领域。人类获得的感官信息中，80％都来自于视觉，而计算机视觉就是用摄像机和计算机模拟人眼立体视觉获得目标，并对其进行分析。立体视觉匹配技术是计算机视觉领域中最为关键的研究分支，是一种基于三角法测距原理的被动三维成像技术。被动式三维成像技术不需要引入外部光源，但是对没有明显特征的图像(如无明显边缘、角点或是无纹理及纹理重复等)，计算量很大，也很难确保匹配的准确度。

目前立体匹配算法主要分为局部匹配和全局匹配方法两大类。局部匹配方法是对像素周围的小区域进行约束，这一算法主要有基于灰度的匹配方法、基于特征的匹配方法、基于区域的匹配方法等。而全局匹配方法是对整幅图像进行约束的，主要包括动态规划匹配算法、图割法、信任度传播算法等。

局部匹配算法的重点就是匹配代价的积累阶段，只要找到一个具有最小的匹配代价作为差值即可，此类方法在每个像素周围的小区域中是最优的。

基于灰度的匹配算法的实质是利用局部窗口之间的灰度信息的相关程度来达到较高的精度。但是该类算法的匹配窗口的大小的选择是问题所在。在各种确定匹配窗口的方法中，Kanade和Okutomi的方法是比较经典的，其从理论上建立了左右图像匹配窗口内亮度对应的分布模型和匹配窗口内视差值分布的统计模型，提出了一种自适应窗口立体匹配方法。该方法能自适应的调整匹配窗口的大小，但是由于视差估计的形式很复杂，从而使计算量增大，降低了计算效率。

基于特征的匹配算法不直接依赖于灰度，具有较强的抗干扰性，并且计算量小。但是因为只能生成稀疏的视差图，所以对复杂形状的物体的匹配效果不好。Y.Ke等提出了PCA-SIFT描述子，在关键点周围的一定区域内计算每个像素的垂直和水平梯度，组成特征向量，然后利用PCA技术对描述向量进行降维。PCA-SIFT描述子能够很好的降低特征向量的维数，但是PCA技术要选取一些列有代表性的图像来训练投影矩阵，从而增加了计算复杂度。并且SIFT特征向量的高维性不仅占用的内存空间较大，而且影响特征匹配的速度。

全局匹配算法一般用相容性约束和平滑性约束来构成一个评价函数，再通过各种最优算法求取评价函数的最小值。

动态规划立体匹配算法的计算效率高、匹配效果较好的特点，使之成为实时处理中最常用的算法之一。传统的基于核线优化的动态规划立体匹配方法由于核线之间的约束不够，导致视差图中出现比较明显的横向“条纹”。Bobick等人引入了控制点修正技术，从而减少了“条纹”，改善了视差图的质量，但是控制点的获取时间较长，增加了匹配算法的时间，从而降低了算法的实时性。

图割算法不仅总体精度高，而且在不连续区域和低纹理区域的精度也比其他的算法高。文章A maximum-flow formulation of the n-camerastereo correspondence problem中的方法可以得到全局最优的匹配结果，目标与背景被较好分离，但损失了细节部分的信息。

基于置信传播(Belief Propagation，即BP)的视差估计算法是一类精度较高的全局算法，但是在物体遮挡区域，全局最优路径和真实路径有差距，从而增加了算法的计算复杂度。为了降低BP算法的计算复杂度，进行了改进，其中最典型的是Felzenszwalb等人的算法。该算法是通过采用分层技术来减少BP算法的迭代次数，从而提高收敛速度。但是当迭代次数较高时，执行时间也会比较长。并且它采用固定的平滑相和数据项，对BP算法全局路径与真实路径之间的差距没有任何改进。

基于局部约束的算法时间复杂度不高且容易实现，但精确度不高。基于全局约束的算法精确度比较高，但算法时间复杂度也较高，一般都比较耗费时间。

全息技术是实现真实的三维图像的记录和再现的技术。D.P.Paris首先在计算全息中引入快速傅里叶变换算法(FFT)，提高了产生傅里叶变换全息图的计算效率。H.Yoshikawa等采用泰勒级数展开法递归求解物体和全息面上对应点的距离，从而得到全息面相邻像素点的位相差的方法快速求解菲涅尔全息图。

但是全息图的产生和重现的计算量相当可观，因此，如何提高全息图的计算效率变成了全息技术的关键。

发明内容

为了解决立体视觉对无显著纹理或纹理重复的场景的匹配结果难以预测的问题，本发明的目的是利用全息重建对场景的要求不高的特点，采用全息重建的方法对立体视觉的重建结果进行整体修正或局部修正，从而很好的解决了立体视觉对无显著纹理或纹理重复的场景难以配对的问题。但是全息重建过程中，数字重建的计算量相当可观，为此，本发明提供一种对多级透镜多视角场景的三维重建的方法。

为达成所述目的，本发明提供的一种对多级透镜多视角场景的三维重建的方法，该方法的步骤如下：

步骤S1：利用N级透镜三维成像系统中的传感器，获取多视角二维图像，N为大于等于2的正整数；

步骤S2：多视角二维图像的三维重建是：对多视角二维图像构造正交投影图像，并对正交投影图像进行傅里叶变换或者菲涅尔变换，产生全息图像；然后，对全息图像进行傅里叶反变换或者菲涅尔反变换，实现数字重建，得到场景中物体经过第N-1级透镜所得的实像的深度信息；

步骤S3：对于N＝2的情况，对第N-1级透镜所得的实像的深度信息，再利用透镜的焦距、物距及像距之间的关系式，获得场景中物体的深度信息；对于N＞2的情况，获得经过第N-2级透镜所得的实像的深度信息，以此类推，对经过第N-2级透镜以及经过第N-2级透镜以上各级透镜所得的实像的深度信息逐级递推，直至得到第一级透镜的物距，则获得场景中物体对应的深度信息。

其中，所述多视角二维图像的三维重建还可以是立体视觉三维重建，所述立体视觉三维重建的具体步骤如下：对多视角二维图像进行两两双目的立体匹配，将多个两两匹配的结果综合成一个完整的视差图，最后利用三角测量原理对视差图的各个视差进行计算，得到场景中物体经过第N-1级透镜所得的实像的深度信息；对多视角二维图像也可以进行多目同时立体匹配，得到一个完整的视差图，最后利用三角测量原理对视差图的各个视差进行计算，得到场景中物体经过第N-1级透镜所得的实像的深度信息。

其中，所述多视角二维图像的三维重建还可以是立体视觉和全息重建结合的三维重建，所述立体视觉和全息重建的步骤如下：

步骤S21a：对多视角二维图像进行立体视觉的处理，得到多视角二维图像两个部分的像素为深度信息理想的第1像素部分和深度信息不理想的第2像素部分，及得到所述第1像素部分所对应的实像的深度信息和第2像素部分所对应的实像的深度范围；

步骤S22a：在深度信息不理想的第2像素部分对应的实像的深度范围内对第2像素部分进行全息重建，得到第2像素部分的理想深度信息；

步骤S23a：将所述第1像素部分对应的实像的深度信息与第2像素部分对应的实像的深度信息综合为完整的场景中物体经过第N-1级透镜所得到的实像的深度信息。

其中，将所述第1像素部分对应的实像的深度信息和第2像素部分对应的实像的深度信息分别送入步骤S3，步骤S3对所述第1像素部分对应的实像的深度信息和第2像素部分对应的实像的深度信息分别进行逐级递推的处理，分别生成场景中物体的第i深度信息和场景中物体的深度信息ii，再将得到的场景中物体对应的第i深度信息和场景中物体对应的深度信息ii做综合处理，得到完整的场景中物体的深度信息。

步骤S21b：对多视角二维图像进行立体视觉的处理，得到场景中的物体经过第N-1级透镜所成的实像的深度信息进而得到实像的深度范围；

步骤S22b：在步骤S21b得到的实像的深度范围内对多视角二维图像进行全息重建，得到场景中物体经过第N-1级透镜所成的实像的的深度信息；

步骤S23b：将经过立体视觉得到的实像的深度信息与经过全息重建得到的实像的深度信息综合为场景中物体经过第N-1级透镜所得到的实像的深度信息。

其中，将经过立体视觉得到的实像的深度信息和经过全息重建得到的实像的深度信息分别送入步骤S3，步骤S3对所述立体视觉得到的实像的深度信息和经过全息重建得到的实像的深度信息分别进行逐级递推的处理，分别生成场景中物体的第Ⅰ深度信息和场景中物体的第Ⅱ深度信息，再将得到的场景中物体对应的的第Ⅰ深度信息和场景中物体对应的第Ⅱ深度信息做综合处理，得到完整的场景中物体的深度信息。

本发明的有益效果：本发明对多级透镜三维成像系统得到的多视角场景二维图像进行三维场景和三维物体重建，减小了系统尺寸，方便携带，并且多级透镜成像系统中的各级透镜可以是透镜阵列，从而获取多视角的二维图像，则能够提供个多更全面的信息，可以有效解决由于遮挡等因素带来的立体视觉技术中的误匹配，从而提高匹配精度。并且本发明中采用全息重建和立体视觉结合的三维重建方法，充分体现了全息重建的优势，同时也弥补了立体视觉对无显著纹理或纹理重复的场景的效果不理想的缺点，从而重建出完整的场景的深度信息，使立体视觉的匹配效果的准确度更高，利用立体视觉的结果大大降低了数字重建的范围，从而大大减小了计算复杂度。本发明能精确的获取场景中的深度信息。

附图说明

图1a对多级透镜多视角场景的三维重建的方法的流程图。

图1b示出了二级透镜三维成像系统的示意图。

图2a-图2d示出了图1a中的重建步骤的子流程图。

图3a-图3c示出了立体视觉匹配的两种方式。

图4示出了同一极线不同摄像机对匹配图

图5示出了全息技术中获取正交投影图像的示意图。

图6示出了产生傅里叶全息图的示意图。

图7示出了产生菲涅尔全息图的示意图。

图8示出了图1a中逐级递推步骤在二级透镜的三维成像系统中的光路图的侧视图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明描述了对多级透镜多视角场景的三维重建的方法，对多级透镜三维成像系统得到的多视角场景二维图像进行方便、快捷的三维场景重建。

图1a示出了对多级透镜多视角场景的三维重建的方法的流程图。对多级透镜多视角场景的三维重建的方法大致可以分为三个步骤：

步骤S1：场景中的物体通过N级透镜的三维成像系统，最终在传感器上获取多视角二维图像，也就是传感器上的多幅不同视角场景中的物体的二维图像，其中，N为大于等于2的正整数；

步骤S2：多视角二维图像的三维重建是：对多视角二维图像构造正交投影图像，并对正交投影图像进行傅里叶变换或者菲涅尔变换，产生全息图像；然后，对全息图像进行傅里叶反变换或者菲涅尔反变换，实现数字重建；如图2a-图2d示出对所获取的多视角二维图像运用全息重建、立体视觉或是立体视觉和全息重建结合的方法进行三维重建，得到场景中物体经过第N-1级透镜所得的实像的深度信息；

步骤S3：对于N＝2的情况，对第N-1级透镜所得的实像的深度信息，再利用透镜的焦距、物距及像距之间的关系式，获得场景中物体的深度信息；对于N＞2的情况，获得经过第N-2级透镜所得的实像的深度信息，以此类推，对经过第N-2级透镜以及经过第N-2级透镜以上各级透镜所得的实像的深度信息逐级递推，直至得到第一级透镜的物距，则获得场景中物体对应的深度信息，具体实现过程如图8所示。

三维成像系统还可以采用更多级的三维成像系统，为便于理解图1b仅仅示出了一个二级三维成像系统，更多级的三维成像系统在此不再赘述，并且以下将以图1b示出的多级透镜三维成像系统为例进行详细的介绍。场景中物体的光线经过第一级透镜101成像之后经过第二级透镜102中的各个透镜a_len、b_len、c_len、d_len、e_len、f_len、g_len、h_len和i_len，最终通过传感器103获取场景中物体的光线经过两级透镜所成像的信息。第一级透镜101和第二级透镜102中的透镜阵列的选择不仅限于一个透镜或者两个透镜，而且可以是多个透镜的对称排布。在多级透镜三维成像系统的第一级透镜101选择一个焦距为f₁的透镜，第二级透镜选择焦距均为f₂的3*3的透镜阵列。那么第二级透镜102中的每个透镜a_len、b_len、c_len、d_len、e_len、f_len、g_len、h_len和i_len在传感器上分别有一个成像圆，其中，图1b中在传感器103上的正方形I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i分别是每个透镜a_len、b_len、c_len、d_len、e_len、f_len、g_len、h_len和i_len在传感器上的成像圆的最大内接正方形。

多视角二维图像的三维重建可以是：利用传感器103上获取的九幅图像I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i，构造正交投影图像(如图5所示)，并对正交投影图像进行傅里叶变换(如图6所示)或者菲涅尔变换(如图7所示)，产生全息图像；然后，对全息图像进行傅里叶反变换或者菲涅尔反变换，实现数字重建，得到场景中物体经过第N-1级透镜所得的实像的深度信息，从而完成多视角二维图像的三维重建。

多视角二维图像的三维重建还可以是：对传感器103上获取的九幅图像I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i进行两两双目的立体匹配，将两两匹配的结果综合成一个完整的视差图，具体过程如图3a-图3b所示，最后利用三角形测量原理对视差图的各个视差进行计算，得到场景中物体经过第N-1级透镜所得的实像的深度信息；对传感器103上获取的九幅图像I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i也可以进行多目同时立体匹配，得到一个完整的视差图，具体过程如图3c所示，最后利用三角测量原理对视差图的各个视差进行计算，得到场景中物体经过第N-1级透镜所得的实像的深度信息。

多视角二维图像的三维重建还可以是：图2a和图2b示出的立体视觉和全息重建结合的三维重建，具体步骤如下：

步骤S21a：对传感器103上获取的九幅图像I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i进行立体视觉的处理，得到场景中物体的实像的深度信息，即场景中物体经过第一级透镜所成的实像到第二级透镜的距离；由于立体视觉匹配技术对无显著纹理或纹理重复的区域匹配时存在难于配对的问题，那么经过立体视觉的处理(利用如图3a-图3c所示中任意一种立体匹配方式)，对于匹配点对的像素值差或者特征向量距离小于一个常数，则认为该像素点的深度信息是可以确定的、理想的；否则认为该像素点的深度信息是不理想的。那么，场景中物体的实像中的像素分为两部分：深度信息理想的第1像素部分和深度信息不理想的第2像素部分，同时还得到所述第1像素部分所对应的实像的深度信息和第2像素部分所对应的实像的深度信息；

步骤S22a：将传感器上获取的九幅图像I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i进行图5所示的处理得到多幅正交投影图像，再经过图6或图7的处理，利用所述的正交投影图像构造傅里叶全息图或菲涅尔全息图，然后，在所述第2像素部分对应的实像中像素点(x_i，y_i)的深度信息z_i的一个邻域(z_i-δ，z_i+δ)范围内对第2像素部分进行全息重建，取所述邻域范围内使得全息重建值

取得最大值的时候的深度信息作为像素点(x_i，y_i)的深度信息z_i，最终得到第2像素部分中每个像素点的理想深度信息，如图2a-图2b所示；

步骤S23a：将所述第1像素部分对应的实像的深度信息与第2像素部分对应的实像的深度信息取并集得到完整的场景中物体经过第一级透镜所得到的实像的深度信息，再执行步骤S3，如图2a所示；或者分别将所述第1像素部分对应的实像的深度信息和第2像素部分对应的实像的深度信息分别送入步骤S3处理，如图2b所示，然后将步骤S3所得的第1像素部分对应的场景中物体的深度信息与第2像素部分对应的场景中物体的深度信息取并集得到完整的场景中物体的深度信息。

多视角二维图像的三维重建还可以是：图2c和图2d示出的立体视觉和全息重建结合的三维重建，具体步骤如下：

步骤S21b：对传感器103上获取的九幅图像I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i进行立体视觉处理(利用如图3a-图3c所示中任意一种立体匹配方式)之后，得到完整的场景中物体经过第N-1级透镜所成的实像的深度信息进而得到完整的场景中物体的实像的深度范围；

步骤S22b：将传感器上获取的九幅图像I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i进行图5所示的处理得到多幅正交投影图像，再经过图6或图7的处理，利用所述的正交投影图像构造傅里叶全息图或菲涅尔全息图，然后，在步骤S21b得到的完整的场景中物体的实像的深度范围内进行数字重建，得到场景中物体经过第N-1级透镜所成的实像的深度信息；

步骤S23b：将经过立体视觉得到的场景中物体的实像中任意像素点的深度信息d_立和经过全息重建得到的场景中物体的实像中对应像素点的深度信息d_全进行如下处理：

depth＝d_立·α_立+d_全·α_全，

其中，α_立和α_全均为常数，且满足：α_立+α_全＝1，则depth为场景中物体经过第N-1级透镜所得到的实像中任意像素点的深度信息，再执行步骤S3，如图2c所示；或者分别将经过立体视觉得到的实像的深度信息和经过全息重建得到的实像的深度信息执行步骤S3所述的处理，如图2d所示，得到经过立体视觉处理得到的场景中物体上各个点对应的深度信息depth_立和经过全息重建得到的场景中物体上各点对应的深度信息depth_全将depth_立和depth_全进行如下处理：

depth＝depth_立·β_立+depth_全·β_全，

其中，β_立和β_全均为常数，且满足：β_立+β_全＝1，则depth为场景中物体上任意点的深度信息。

图3a示出了一种立体视觉匹配的方式。将传感器上获取的多幅图像，相邻的图像之间两两进行匹配，可以得到多幅相互独立的视差图，根据图3a所示的融合准则，将多幅视差图合成一幅视差图。图3a示出了将传感器103获取的图像I_a、I_b、I_c作为第一行图像，将其相邻的图像之间进行两两匹配(以下介绍中假定立体匹配图像对都是经过校正之后的)。图像I_b与图像I_a匹配得视差图D_ba，图像I_b与图像I_c匹配得视差图D_bc。将两幅视差图D_ba和D_bc融合则可以得到第一行图像I_a、I_b、I_c的匹配视差图。视差融合的公式为：

d_{b} (x) = \{\begin{matrix} \frac{d_{ba} (x) + d_{bc} (x)}{2}, & | d_{ba} (x) - d_{bc} (x) | < λ \\ 0 & else \end{matrix}

其中，x为参考图像I_b中任意一个像素点，d_ba(x)是x在视差图D_ba中的视差值，d_bc(x)是x在视差图D_bc中的视差值。λ为允许的视差误差阈值。那么，当视差值d_ba(x)和视差值d_bc(x)的差值小于λ时，则认为匹配正确，

将参考图像I_b中像素点x的视差值d_b(x)赋值为

否则认为是误匹配，将d_b(x)赋值为0，并对其进行修正：

比较像素点x在d_ba(x)和d_bc(x)的两种视差下特征匹配的程度，取二者中匹配得较好的视差值，赋给像素点x的视差值d_b(x)。将所有赋值为0的d_b(x)进行上述修正后，得到了第一行图像I_a、I_b、I_c的视差图D_b。分别再对第二行图像(I_d、I_e、I_f)、第三行图像(I_g、I_h、I_i)均进行上述的匹配处理，分别得到一个视差图D_e和D_h，以视差图D_e为基准，在视差图D_b与视差图D_e的公共区域内，若对应视差值相差大于一个阈值μ(例如：阈值μ取1-5间的一个整数)，则用视差图D_b与视差图D_e中匹配代价值小的视差值代替D_e的相应点的视差值，在视差图D_h与视差图D_e对应公共区域内，若对应视差值相差大于阈值μ，则用视差图D_h与视差图D_e中匹配代价值小的视差值代替D_e的相应点的视差，这样最终得到一幅行的整体视差图。对列进行同样的操作，得到一幅列的整体视差图。对于各行合并起来的视差图在上下边缘上有较准确的信息，对于各列合并起来的视差图在左右边缘上有较准确的信息，对于这两幅视差图中对应点视差相差比较大时可依据该点边缘信息判断当前取值，即若该点在上下边缘上则取值为合并各行所得视差图对应点的视差，若该点在左右边缘上则取值为合并各列所得视差图对应点的视差，这样将这两幅图综合起来得到完整的视差图。

图3b示出了另一种立体视觉匹配的方式。传感器上得到多行图像，在每行的多个图像中选择一个参考图像，然后将参考图像与该行的其他图像进行两两匹配得到视差图，然后将每行得到的多个视差图综合起来得到每行的视差图，最后将每行的视差图综合为一个完整的视差图。假设第一行图像I_a、I_b、I_c中的I_a为参考图像，将图像I_a与图像I_b进行匹配，图像I_a与图像I_c进行匹配，以其中一条极线为例，如图4所示，图像I_a与图像I_b中心之间的距离为B₁的平面401可以得到一条视差曲线1，图像I_a与图像I_c中心之间的距离为B₂的平面402可以得到一条视差曲线2，Q为x轴上坐标值为x₀的点，那么，x＝x₀的平面403与视差曲线1和视差曲线2分别相交于M和N点，且M和N点的视差值分别为d₁和d₂。则，直线MQ的斜率和NQ的斜率分别为：

k_{1} = \frac{d_{1}}{B_{1}},

k_{2} = \frac{d_{2}}{B_{2}},

由测量距离公式：

Z = \frac{B \times f}{d},

其中，Z为物体到摄像机的距离，B为摄像机之间的距离，f为摄像机焦距，d为视差。可知，

为一常数。如果匹配效果好，那么直线MQ的斜率k₁和NQ的斜率k₂基本相同。恰当选择直线MQ和NQ中的一个斜率k，则，x轴上的该点的最优视差为：

对图像I_a中每一个像素点做同样操作，可得到第一行图像对应的视差图D_a。然后对图像I_d，I_e，I_f和I_g，I_h，I_i也用相同方法求取视差图，可以得到第二、三行图像分别对应的视差图D_d，D_g，以视差图D_d为基准，在视差图D_a与视差图D_d的公共区域内，若对应视差值相差大于一个阈值μ(例如：阈值μ取1-5间的一个整数)，则用视差图D_a与视差图D_d中匹配代价值小的视差值代替D_d的相应点的视差值，在视差图D_g与视差图D_d对应公共区域内，若对应视差值相差大于阈值μ，则用视差图D_g与视差图D_d匹配代价值小的视差值代替D_d的相应点的视差值，这样最终得到一幅完整的视差图。

图3c示出了第三种立体视觉匹配的方式。在多幅图像中选择一幅图像为参考图像，则其他图像为匹配图像。对其中一幅匹配图像估计它的一组合理的视差值D0，以这组视差值为基准，对其他每一幅匹配图像计算相应的一组视差值Di，使得Di[j]与D0[j]表示相同的深度信息，不同的j表示不同的深度信息。对基准视差值组的估计和其他匹配图像的视差值组的计算可以通过摄像机的参数以及对深度范围的估计得到。将参考图像与各幅匹配图像对于其相应的视差组内的每一个视差值分别计算匹配代价函数值，综合利用这些匹配代价函数值的信息，得到最终的视差空间图像。将传感器103上获取的九幅图像I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i中的图像I_e作为参考图像，其他八幅图像I_a、I_b、I_c、I_d、I_f、I_g、I_h和I_i作为匹配图像，分别将八幅匹配图像I_a、I_b、I_c、I_d、I_f、I_g、I_h和I_i与参考图像I_e对各自视差组内的所有视差值计算匹配代价函数值。对参考图像I_e中的一个像素点P，以及索引j，在其他八幅匹配图像的视差值组中都有对应的视差值Di[j]，相应的，在八幅匹配图像中都存在着一个对应点，都会产生一个匹配代价函数值。综合这八个匹配代价函数值，得到一个合理的代价函数值，作为图像I_e的像素点P，在视差值组的第j个视差的情况下(或者第j个深度信息)的匹配代价。综合八个匹配代价函数值有很多方法，例如去除孤立点后取平均值，即选择一个匹配代价函数值出现比较集中的区间，求出该区间中的所有匹配代价函数值的平均值，记录为最优匹配代价，该区间称为最优匹配代价的邻域。对于视差范围内的每一个视差值，用一个信息数组M记录：每个像素点所对应的最优匹配代价值，匹配代价值在最优匹配代价值的邻域内的匹配图像标号以及数目，图像的数目即为该最优匹配代价值的可信度。选择匹配代价出现在最优匹配代价值的邻域内次数最多的图像I，用得到的信息数组M对图像I中的相应点进行如下操作：如果信息数组M中记录的相应点的最优匹配代价值的可信度大于某一个常数(例如：大于匹配图像总数的60％)，则用信息数组M中记录的相应点的最优匹配代价值替换；否则，保持原来的匹配代价值不变。这样就得到了图像I中相应点的最优匹配代价值。再利用立体匹配算法(例如动态规划立体匹配算法)根据最优匹配代价函数值进行立体匹配处理，得到一幅完整的视差图。

图5示出了全息重建中获取正交投影图像的示意图。在全息重建中将场景中的物体经过第一级透镜所成的实像作为全息重建中的三维物体，即利用全息重建获得的深度信息是场景中物体经过第一级透镜所成的实像到第二级透镜的距离。传感器103上获取的九幅图像I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i作为基本图像(Elemental image)。假设基本图像I_a、I_b、I_c、I_d、I_e、I_f、I_g、I_h和I_i的大小均为m*n像素，将每幅基本图像中的相同位置的像素汇集到同一幅图像中，即得到一幅正交投影图像，那么3*3幅大小为m*n像素的基本图像将生成m*n幅大小为3*3像素的正交投影图像，其中，m和n为正整数。

根据正交投影几何知识，场景中物体的实像中的任意一坐标为(x，y，z)的点对应的正交图像上的坐标为(x_p，y_p)，那么正交投影图像上的点(x_p，y_p)与场景中物体的实像上的对应点(x，y，z)的关系为：

y_p＝y+ztanθ＝y+zt/l (1)

其中，

角为光线投影到x-z面上与z轴所成的角，θ为光线投影到y-z面上与z轴所成的角，s和t分别与角

和θ有一一对应的关系，即，

\tan θ = \frac{t}{l},

\tan θ = \frac{t}{l},

\tan θ = \frac{s}{l},

引入符号s、t和l，来使得投影方向表述起来更方便，得到正交投影图像以及正交投影图像和场景中物体的实像的对应关系之后就可以产生全息图了。

图6示出了产生傅里叶全息图的示意图。将通过基本图像获取的正交投影图像记为P_st(x_p，y_p)，将每幅正交投影图像P_st(x_p，y_p)和斜平面波的相位因子相乘并积分，即

H(s，t)＝∫∫P_st(x_p，y_p)exp[-j2πb(x_ps+y_pt)]dx_pdy_p (2)

其中，b为一个正常数，并且假设l是一个常数。通过公式(2)，将每幅正交投影图像P_st(x_p，y_p)变换到傅里叶全息图上的一个点。由于场景中物体的实像上的点与正交投影图像P_st(x_p，y_p)上的点有公式(1)的对应关系，那么将公式(1)带入公式(2)，则场景中物体的三维实像O(x，y，z)的傅里叶全息图为：

H (u, v) = &Integral; &Integral; &Integral; O (x, y, z) \exp [- j \frac{2 πb}{M} (xu + yv + \frac{z}{lM} u^{2} + \frac{z}{lM} v^{2})] dxdydz,

且，

M = - \frac{2 f_{f}}{l},

b = \frac{2}{λl},

u＝Ms，v＝Mt，

其中，λ是波长，f_f为傅里叶变换透镜FTlens的焦距。

根据图6示出的傅里叶全息图的产生过程，可以得到傅里叶全息图H(u，v)。通过菲涅尔衍射公式对得到的全息图H(u，v)重建场景中物体的实像空间：

U_{z} (x, y) = A &Integral; &Integral; \exp [j \frac{π}{λ f_{f}} (1 - \frac{z}{f_{f}}) ({u^{2} + v}^{2})] \times H (u, v) \exp [- j \frac{2 π}{λ f_{f}} (ux + vy)] dudv,

其中，A为一常数，z为经过傅里叶变换透镜之后传播的距离，λ是波长，f_f为傅里叶变换透镜FTlens的焦距。对场景深度范围中的每个z进行重建，重建出对应深度z的场景，其中使得U_z(x，y)取最大值的z包含场景中的像素点(x，y)的正确深度信息，然后根据

z＝f_f+v₂+depth，

其中，f_f为傅里叶变换透镜FTlens的焦距，v₂为第二级透镜102到传感器103的距离，depth即为场景中物体的实像到第二级透镜的距离，那么，场景中物体实像的深度信息为：

depth＝z-f_f-v₂。

图7示出了产生菲涅尔全息图的示意图。将通过基本图像获取的正交投影图像记为P_st(x_p，y_p)，每一幅正交投影图像P_st(x_p，y_p)都可以构建一个菲涅尔面H_s，t(u，v)：

其中，b和c都是常数，D为菲涅尔面H_s，t(u，v)到正交投影图像的距离，且

\tan θ = \frac{t}{l},

那么完整的菲涅尔全息图为每幅正交投影图像构成的菲涅尔面H_s，t(u，v)的和，即：

H (u, v) = \underset{s, t}{Σ} H_{s, t} (u, v) = &Integral; &Integral; &Integral; \frac{1}{cD + 2 z} O (x, y, z) \exp {j \frac{2 πb}{cD (cD + 2 z)} [{(u - x)}^{2} + {(v - y)}^{2}]} dxdydz

其中，

c＝2，λ为波长。

根据图7示出的菲涅尔全息图的产生过程，可以得到菲涅尔全息图H(u，v)。通过菲涅尔衍射公式对得到的全息图H(u，v)重建场景中物体的实像空间：

U_{z} (x, y) = A &Integral; &Integral; H (u, v) \exp {j \frac{π}{λz} [{(u - x)}^{2} + {(v - y)}^{2}]} dudv,

其中，A为一常数，λ为波长，z为包含场景中物体的实像的深度信息的参数。对场景深度范围中的每个包含深度信息的z进行重建，重建出对应深度z的场景，其中使得U_z(x，y)取得最大值的z包含场景中的像素点(x，y)的正确的深度信息，然后根据

z＝D+v₂+depth，

其中，D为菲涅尔面H_s，t(u，v)到正交投影图像的距离，v₂为第二级透镜102到传感器103的距离，depth即为场景中物体的实像到第二级透镜的距离，那么，场景中物体实像的深度信息为：

depth＝z-D-v₂。

图8示出了图1a中逐级递推步骤在二级透镜的三维成像系统中的光路图的侧视图。与主光轴的距离为P的物体经过焦距为f₁的第一级透镜101成像，第一级透镜101所成的实像与主光轴的距离为Q，其中在第一级透镜101成像的光路中，物距为u₁，像距为v₁。光线继续传播经过第二级透镜中的焦距均为f₂的各个透镜，其中，将经过第一级透镜101所成的实像当作物体，那么在第二级透镜成像的光路中，物距为u₂，像距为v₂。第一级透镜101到传感器103的距离为L。

第一级透镜101成像的光路中，物距u₁为场景中物体的深度depth，则在第二级透镜成像的光路中，物距u₂为经过立体视觉或全息重建得到的场景中物体的实像的深度信息depth₁，即等式为：u₁＝depth，u₂＝depth₁。

那么在得到场景中物体的实像的深度信息D₁之后，可以通过等式：

v₁＝L-u₂-v₂＝L-depth₁-v₂，

得到第一级透镜101成像光路中的像距v₁。

对于第一级透镜101，其物距u₁、像距v₁、焦距f₁的关系为：

\frac{1}{u_{1}} + \frac{1}{v_{1}} = \frac{1}{f_{1}} &DoubleRightArrow; u_{1} = \frac{v_{1} f_{1}}{v_{1} - f_{1}},

则场景中物体的深度信息：

D_{0} = u_{1} = \frac{v_{1} f_{1}}{v_{1} - f_{1}} = \frac{(L - D_{1} - v_{2}) f_{1}}{L - D_{1} - v_{2} - f_{1}},

对场景中物体的实像的深度信息depth₁对应求出场景中物体的深度信息depth，即得到场景中物体的深度信息。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的权利要求书的保护范围之内。

Claims

1.一种对多级透镜多视角场景的三维重建的方法，其特征在于，该方法的步骤如下：

2.如权利要求1所述对多级透镜多视角场景的三维重建的方法，其特征在于，所述多视角二维图像的三维重建步骤S2替换为立体视觉和全息重建结合的三维重建，所述立体视觉和全息重建的步骤如下：

3.如权利要求2所述对多级透镜多视角场景的三维重建的方法，其特征在于，将所述第1像素部分对应的实像的深度信息和第2像素部分对应的实像的深度信息分别送入步骤S3，步骤S3对所述第1像素部分对应的实像的深度信息和第2像素部分对应的实像的深度信息分别进行逐级递推的处理，分别生成第1像素部分对应的场景中物体的深度信息和第2像素部分对应的场景中物体的深度信息，再将得到的第1像素部分对应的场景中物体的深度信息和第2像素部分对应的场景中物体的深度信息做综合处理，得到完整的场景中物体的深度信息。

4.如权利要求1所述对多级透镜多视角场景的三维重建的方法，其特征在于，所述多视角二维图像的三维重建步骤S2替换为立体视觉和全息重建结合的三维重建，所述立体视觉和全息重建的步骤如下：

5.如权利要求4所述对多级透镜多视角场景的三维重建的方法，其特征在于，将经过立体视觉得到的实像的深度信息和经过全息重建得到的实像的深度信息分别送入步骤S3，步骤S3对所述立体视觉得到的实像的深度信息和经过全息重建得到的实像的深度信息分别进行逐级递推的处理，分别生成经过立体视觉处理得到的场景中物体上各个点对应的深度信息和经过全息重建得到的场景中物体上各个点对应的深度信息，再将经过立体视觉处理得到的场景中物体上各个点对应的深度信息和经过全息重建得到的场景中物体上各个点对应的深度信息做综合处理，得到完整的场景中物体的深度信息。