CN106683182A

CN106683182A - 一种权衡立体匹配和视觉外形的三维重建方法

Info

Publication number: CN106683182A
Application number: CN201710021598.6A
Authority: CN
Inventors: 曹汛; 金威; 朱昊
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-01-12
Filing date: 2017-01-12
Publication date: 2017-05-17
Anticipated expiration: 2037-01-12
Also published as: CN106683182B

Abstract

本发明公开了一种权衡立体匹配和视觉外形的三维重建方法。具体步骤如下：(1)制作样本数据库，包括立体匹配深度图、视觉外形深度图、多视点RGB图和真实深度图；(2)构建深度卷积神经网络；(3)用数据库训练神经网络，获取立体匹配与视觉外形的权重分配值，根据该值调整神经网络结构，直到获取效果较好的神经网络模型；(4)输入立体匹配深度图、视觉外形深度图和RGB图，通过神经网络模型获得新的深度图；(5)用新的深度图重建三维模型。本发明结合立体匹配与视觉外形两种方法，并通过深度神经网络分配权重值，既能改善立体匹配无法重建高光、无纹理区域的问题，又能避免视觉外形无法重建凹面的缺陷，实现对复杂对象的高质量重建。

Description

一种权衡立体匹配和视觉外形的三维重建方法

技术领域

本发明涉及计算机视觉、三维重建、人工智能等技术领域，尤其涉及一种权衡立体匹配和视觉外形的三维融合方法。

背景技术

三维重建技术是计算视觉领域的热门研究方向，可分为主动式和被动式两类重建方法。主动式重建方法利用探测器主动发射和接收信号获取真实物体的深度信息，如激光、红外扫描器，使用结构光或飞行时间原理。被动式重建方法是通过多幅二维图像恢复三维模型。

对于被动式重建方法而言，立体信息可以通过多种方式获得，最主要的两类信息来源于立体匹配和视觉外形：

立体匹配(stereo match)是指提取不同视点的图像中的对应特征点，进而依据对极几何理论求解出每个特征点对应的三维坐标。具有代表性的算法包括：Hong Li等人提出一种基于图片分割的立体匹配方法(Computer Vision and Pattern Recognition,2004:74-81.)，该方法均匀分割参考图片，利用解最小能量方程获取视差图；Qingxiong Yang等人用颜色加权和分层置信传播最小化能量方程(Computer Vision and PatternRecognition,2006:2347-2354.)，恢复场景视差图，有效解决了非连续和阻塞问题。

视觉外形(Visual Hull)首先提取多视点图片中的目标轮廓，而后根据多视点轮廓重建目标的三维凸壳。具有代表性的算法包括：Matusik W等人提出了一种基于图片的方法IBVH(Image-Based Visual Hulls)(International Conference on ComputerGraphics and Interactive Techniques,2000:369-374.)，该方法采用极线几何和增量计算的方法计算并渲染模型，克服了传统算法计算复杂度高，图片分辨率有限的问题；FrancoJ和Boyer E.两人利用少量的几何操作计算出单通道的多面体视觉外形(IEEETransactions on Pattern Analysis and Machine Intelligence,2009,31(3):414-427)，恢复出具有良好拓扑结构的表面；英国萨里大学的Gregor Miller和Adrian Hilton提出了视觉外形可视交叉定理(International Conference on Pattern Recognition，2006，10.1109/ICPR.2006.515)，应用交叉比来选择图片间的交叉部分。

以上这两种三维重建的方法各具特点，可以相互补充：立体匹配算法在纹理充足、光照明暗明显的区域重建精度较高，但对缺乏纹理的区域重建效果极差，因此仅依靠立体匹配算法得到封闭的完整模型；视觉外形根据模型的轮廓信息重建结构，不受纹理的影响，可以稳定地得到完整的封闭模型。视觉外形算法的局限性在于无法重建凹状结构，因此需要立体匹配算法作为补充。

传统三维重建算法通常使用视觉外形为立体匹配提供初值，或者在立体匹配结果基础之上再使用视觉外形算法进行纠正。如：Yebin Liu等人提出了基于连续性的深度估算方法(Computer Vision and Pattern Recognition,2009:2121-2128.)，该方法融合轮廓信息和极线约束，在双目匹配阶段进行全局平滑调整，并且采用path-based NCC方法对深度图进行优化。Furukawa Y等人提出了使用一组离散的矩形面片表示三维模型的方法(IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(8):1362-1376.)，并在此基础之上加入局部光度约束和全局可见性约束，有效抑制了离群点和噪点；该方法生成的离散面片模型可进一步转化为封闭的网格模型。Beeler T等人在已有三维重建基础之上设计出高精度瞬时捕捉面部结构的算法(International Conferenceon Computer Graphics and Interactive Techniques,2010,29(4).)，该算法采用金字塔分层结构，建立由粗到精的立体匹配框架；针对人的面部特点，加入了连续性先验、顺序先验和对应先验，并引入微观结构的光照模型，模拟面部皮肤的细节结构。

发明内容

本发明提出了一种权衡立体匹配和视觉外形的三维重建方法，通过采用卷积神经网络计算立体匹配和视觉外形所生成的深度图的权重分配值，以获取更加准确的深度图，进而提高对复杂物体的重建效果。

本发明采用的技术方案如下：

一种权衡立体匹配和视觉外形的三维重建方法，包括以下步骤：

步骤1：制作样本数据库，每组数据包括多视点RGB图像、立体匹配深度图、视觉外形深度图、以及物体真实深度图，并计算得到物体真实权重分配值α；

步骤2：构建深度卷积神经网络，包括输入层、隐层和输出层，隐层包括卷积层、池化层和全连接层；卷积神经网络分三个通道输入，分别对应多视点RGB图像、立体匹配深度图和视觉外形深度图的输入，卷积神经网络的输出为视觉外形与立体匹配之间的权重分配值；

步骤3：利用步骤2的深度卷积神经网络对步骤1的样本数据库进行训练，输出立体匹配与视觉外形的权重分配值β，将β值与物体的真值权重图进行对比，根据结果好坏调整神经网络模型，直到获取效果较好的神经网络模型；；

步骤4：将新物体的立体匹配深度图、视觉外形深度图以及多视点RGB图像输入步骤3的深度网络模型，重新获取权重分配值γ，利用γ值得到新的物体深度图；

步骤5：利用新的物体深度图重建成高精度的三维模型。

所述步骤1中，样本数据库中每组数据的图片是同一物体的多视点RGB图片；立体匹配深度图和视觉外形深度图是根据多视点RGB图片，利用立体匹配算法和视觉外形算法计算得到的深度图。

所述步骤2中，卷积神经网络的三个通道输入的数据是：在多视点RGB图像、立体匹配深度图和视觉外形深度图这三张图片的相同位置，取一个大小为M×M的窗口作为输入，M取值范围不定，一般取奇数。

进一步地，所述步骤2中，深度卷积神经网络的三个输入通道中，输入立体匹配深度图和视觉外形深度图的两个通道含有相同的结构，均包括卷积层和池化层；所述三个输入通道通过全连接层连接到一起。

同上述现有方法不同，本发明提出一种基于机器学习的权衡立体匹配和视觉外形的三维重建方法，实验证明该方法能够提升对复杂物体三维重建的鲁棒性和适应性，所得模型的精度高于立体匹配、视觉外形以及传统的深度融合算法。具体地，本发明具有以下的优势：

(1)本发明结合视觉外形和立体匹配两种三维重建技术，根据两者深度置信度的高低来分配权重。视觉外形算法(Visual Hull)和立体匹配算法(Stereo Matching)具有天然互补的特性：前者以目标轮廓为依据，可靠地恢复出目标物体的外形，包括物体的凸状几何特，该方法的缺点是无法恢复目标物体中的凹陷部分的几何结构；后者以二维图像特征一致性作为依据，采用极线几何的知识重建出物体的几何结构，该方法的缺点在于对缺乏纹理及特殊材质(如半透明和反光材质)的重建效果极差，效果不稳定。

传统的重建方法已尝试过将视觉外形和立体匹配结合，但仅限于将二者以串联的形式进行组合。如Furukawa等采用视觉外形的深度作为初值，驱动立体匹配算法；Hao Zhu等在立体匹配重建的网格模型基础之上加入轮廓约束，使结果满足视觉外形约束。但是这两种方法均无法很好地发挥两种重建方法的优势，不能做到真正的优势互补。

(2)本发明采用深度学习方法来计算分配的权重值。事实上，对物体的重建方法选择依据很大程度上取决于物体的材质、外观特性，这些属性反映在彩色图片以及立体匹配、视觉外形所生成的深度特征中。人类通过直观的观察和简单的先验知识即可进行判断不同区域适合何种重建方式。本发明通过计算机来模拟人脑的思维模式，建立多层卷积神经网络，有助于提取各层的特征值，从而计算出最符合真实情况的权重值。

综上，本发明结合立体匹配与视觉外形两种方法，并且通过深度神经网络分配权重值，既能改善立体匹配无法重建高光、无纹理区域的问题，又能避免视觉外形无法重建凹面的缺陷，实现对复杂对象的高质量重建。实验证明该方法能有效提高对复杂物体的重建效果，可应用于优化多视点三维重建、运动恢复结构等等基于图片的三维建模系统。

附图说明

图1是本发明的系统流程图；

图2是本发明的深度卷积神经网络框架；

图3是本发明实施例中视觉外形三维重建结果，(a)正视图，(b)左视图，(c)右视图，(d)后视图；

图4是本发明实施例中立体匹配三维重建结果，(a)正视图，(b)左视图，(c)右视图，(d)后视图；

图5是本发明实施例中权衡立体匹配与视觉外形后，获得的新深度图的三维重建结果，(a)正视图，(b)左视图，(c)右视图，(d)后视图。

具体实施方式

为了进一步详细地说明本发明的目的和技术流程，以下将结合附图和实例，对具体实施方式进行说明。

本发明提出了一种权衡立体匹配和视觉外形的三维重建方法，其目的是为三维重建提供更加精确的深度图。图1是本发明的系统流程图。具体实施步骤如下：

(1)制作样本数据库。

样本数据库作为神经网络的输入，其质量的好坏影响整个神经网络的训练结果。样本数据库包含多组数据，每组数据对应一个模型，包含多视点RGB图片、立体匹配深度图、视觉外形深度图和目标物体的真值权重图。RGB图片通过单反相机拍摄，要求光照均匀，成像清晰。立体匹配深度图和视觉外形深度图是分别采用立体匹配算法和视觉外形算法计算得到。物体真值权重图需要利用物体的真实深度图(Ground Truth)，计算方法如下：

对于同一视点的两幅深度图，在有效像素的相同位置取大小为M×M的窗口，遍历整张图片后得到i组数据，计算真值权重的公式表示为：

上式中，j表示图片中窗口的序号，0≤j＜i；是物体的真实深度值，是在视觉外形深度图中，第j个M×M的窗口的深度平均值，是在立体匹配深度图中，第j个M×M的窗口的深度平均值，由此可以计算得到真值权重α^(j)。

本实施例中，多视点RGB图片通过RGB相机获取，真实深度值通过微软Kinect相机直接拍摄获取。为了把RGB相机与Kinect相机对齐，本实例把两台相机固定在一起，保持其相对位置不动，围绕物体一周拍摄一组多视点图片，图片数量为32张。RGB相机拍摄的图片分辨率为1280*720，Kinect相机拍摄的图片分辨率为320*240。

根据多视点RGB图片，利用立体匹配和视觉外形算法分别计算图片中物体的每个像素点的深度值，得到立体匹配深度图和视觉外形深度图。以每个像素点为中心，截取一个大小为17×17的窗口(Patch)。一张图片一共截取m个窗口。利用两台相机的对应关系可以将窗口中心点的深度值与Kinect拍摄的真实深度值对应起来。

本实例中采用的立体匹配算法为NCC匹配法。

本实例通过以下公式可以得到真值权重α^(i,j)：

上式中，i表示图片序号，0≤i＜32；j表示窗口序号，0≤j＜m，,是在第i幅图片中第j个窗口中心对应的物体的真实深度值，是在第i幅图片中第j个窗口中心的视觉外形深度值，是在第i幅图片中第j个窗口中心的立体匹配深度值，由此可以计算得到真值权重α^(i,j)。

更换拍摄物体，重复上述步骤，获取足够的样本数据。

(2)构建卷积神经网络。

本发明采用的神经网络为卷积神经网络。卷积神经网络的结构更类似于生物神经网络，它利用卷积层逐层提取局部特征，并且通过神经元的非全连接和权值共享减小网络复杂度，在图像处理和模式分类领域具有很大的优势。

本发明的卷积神经网络包含输入层，隐藏层和输出层。整个神经网络包含三个通道，分别输入立体匹配深度图，视觉外形深度图和RGB图片。前两个通道结构相同，由两层卷积层，两层池化层组成。全连接层将三通道连接起来，最后汇聚成一层输出层。

本实例采用深度学习网络框架Torch来搭建卷积神经网络。整个网络的框架如图2所示，分为三个组成部分，分别是输入层，隐层和输出层。

输入层包含三个通道T1、T2和T3，分别对应视觉立体匹配深度图，视觉外形深度图和RGB图片。对于同一张图片的同一位置，每个通道截取大小17×17的窗口作为输入。

隐层包含卷积层，池化层和全连接层。T1，T2通道含有相同的结构，分为卷积层C1，池化层S1，卷积层C2，池化层S2。第一层卷积层S1采用大小为3×3的卷积核，通道数为3，激励函数为ReLU(Rectified Linear Units)。第二层池化层S1采用Max Pooling，Pooling窗口大小为2×2，步进为1。第三层卷积层C2采用大小为3×3的卷积核，通道数为6，激励函数为ReLU。第四层池化层S2同样采用Max Pooling，Pooling窗口大小为2×2，步进为2。将大小为17×17的窗口(Patch)数据输入进来，经过四层计算后得到数据大小为6×6。T3通道为RGB图片通道，不含有卷积层和池化层。

全连接层共有两层，分别是1000维和100维。整个全连接层将三个通道连接起来，一共6×6×2×6+17×17＝721维的数据转化为100维向量，作为输出层的输入。

最后一层输出层，计算100维输入数据得到1维的输出权重β^(i,j)，表示第i幅图片中第j个窗口处的权重值。

(3)对样本进行训练。

训练模型的过程分为两个部分：前向传播和反向传播。

前向传播阶段，将样本数据库中的数据输入卷积神经网络，经过卷积，池化，全接连等过程得到输出为β^(j)，结合真值权重α^(j)，可以通过公式计算得到代价函数J，表示为：

反向传播阶段，通过反向传播算法计算各层参数的偏导数，采取梯度下降迭代优化。

不断重复前向传播和反向传播过程，使代价函数J收敛到全局最小值。

本实例具体训练过程如下：

取出一组96(32*3)张的立体匹配深度图，视觉外形深度图和RGB图片作为T1，T2，T3三个通道的输入。T1，T2两个通道的深度图中每个有效的像素点深度值分别为和i表示图片序号，0≤i＜32；j表示窗口序号，假设有m个有效像素点，则0≤j＜m。表示第i幅图片中第j个窗口中心的视觉外形深度值，表示第i幅图片中第j个窗口中心的立体匹配深度值。T3通道的输入为RGB图，表示为即第i幅图片中第j个窗口中心的像素值。

对于同一张图片，例如第一张，有三个输入样本合集，分别是视觉外形),(立体匹配)，(RGB图片)，图片的真值权重合集是α＝{α^(0,0),α^(0,1),α^(0,2)……α^(0,m-1)}，α^(0,j)表示第一幅图中与第j个窗口对应的真值权重。

将D_vh，D_sm和P_RGB三个合集输入到卷积神经网络的三个不同的通道中，经过整个网络的计算得到一个输出合集表示第一幅图中与第j个窗口对应的输出权重；W,b是卷积神经网络的权重和偏差。已知真值权重和输出权重合集，通过以下公式可以算出卷积神经网络的代价函数：

上式中第一项是一个均方差项，第二项是权重衰减项，λ是权重衰减参数，其目的是减小权重的幅度，防止过度拟合。

利用反向传播算法计算每一层的代价函数的偏导数，采用梯度下降的方法不断更新每一层的权重和偏差，随后重复上述步骤不断迭代优化来减小代价函数J(W,b)的值，进而求解神经网络。

(4)测试神经网络

将神经网络的输出权重值合集与物体的真值权重合集α＝{α^(0,0),α⁽⁰,¹⁾,α^(0,2)……α^(0,m-1)}进行比较，查看两者是否接近。根据结果好坏对神经网络进行相应的调整，直到获得满意的结果。

(5)重建三维模型

用已训练的深度卷积神经网络计算得到新物体的深度图，将新的深度图重建得到三维模型，将其与立体匹配和视觉外形的重建结果进行对比，可以发现本实例所采用的方法大大提高了重建模型的精度，结果对比如图3、图4、图5所示。

上述实施例为本发明的一种实施方式，但本发明的实施方式不受所述实施例的限制，比如立体匹配的算法还可以选用可替代的方法，卷积神经网络也可以选取不同的结构。凡在本发明的精神和原则之内，所做的任何修改，等同替换，改进等，均应包含在本发明的保护范围之内。

Claims

1.一种权衡立体匹配和视觉外形的三维重建方法，其特征在于，包括以下步骤：

步骤3：利用步骤2的深度卷积神经网络对步骤1的样本数据库进行训练，输出立体匹配与视觉外形的权重分配值β，将β值与物体的真值权重图进行对比，根据结果好坏调整神经网络模型，直到获取效果较好的神经网络模型；

步骤5：利用新的物体深度图重建成高精度的三维模型。

2.根据权利要求1所述的一种权衡立体匹配和视觉外形的三维重建方法，其特征在于，所述步骤1中，样本数据库中每组数据的图片是同一物体的多视点RGB图片；立体匹配深度图和视觉外形深度图是根据多视点RGB图片，利用立体匹配算法和视觉外形算法计算得到的深度图。

3.根据权利要求1所述的一种权衡立体匹配和视觉外形的三维重建方法，其特征在于，所述步骤1中，物体的真实权重分配值α是立体匹配深度图与视觉外形深度图两者对物体真实深度图的权重分配，计算公式为：

D_true＝α*D_vh+(1-α)*D_sm

其中，D_true为物体的真实深度值；D_vh为视觉外形深度值；D_sm为立体匹配深度值。

4.根据权利要求1所述的一种权衡立体匹配和视觉外形的三维重建方法，其特征在于，所述步骤2中，卷积神经网络的三个通道输入的数据是：在多视点RGB图像、立体匹配深度图和视觉外形深度图这三张图片的相同位置，取一个大小为M×M的窗口作为输入，M值为奇数。

5.根据权利要求1所述的一种权衡立体匹配和视觉外形的三维重建方法，其特征在于，所述步骤2中，深度卷积神经网络的三个输入通道中，输入立体匹配深度图和视觉外形深度图的两个通道含有相同的结构，均包括卷积层和池化层；所述三个输入通道通过全连接层连接到一起。

6.根据权利要求1所述的一种权衡立体匹配和视觉外形的三维重建方法，其特征在于，所述步骤3中，深度卷积神经网络的训练过程分为两个部分：

(1)前向传播阶段，输入的数据经过神经网络计算得到一个权重分配值β，从而得到代价函数J，表示为：

J＝∑||β-α||²

(2)反向传播阶段，利用反向传播算法计算卷积层和全连接层的参数的偏导数，采用梯度下降迭代优化；

不断重复过程(1)和(2)，使代价函数J收敛到全局最小值。