CN113763539A

CN113763539A - 一种基于图像和三维输入的隐式函数三维重建方法

Info

Publication number: CN113763539A
Application number: CN202111054666.1A
Authority: CN
Inventors: 唐琳琳; 刘楚然; 苏敬勇; 刘洋; 漆舒汉; 张加佳
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-12-07
Anticipated expiration: 2041-09-09
Also published as: CN113763539B

Abstract

本发明公开了一种基于图像和三维输入的隐式函数三维重建方法，其包括：通过三维输入预测网络处理三维输入以生成三维点的第一空间占用概率；通过图像预测网络处理输入图像以生成三维点的第二空间占用概率；所述的第一空间占用概率和第二空间占用概率被用来生成三维重建模型作为输出。本发明具有能准确提取二维图像包含的细节信息又能表达三维输入表示的结构形状信息而重建高准确度的三维模型的优点。

Description

一种基于图像和三维输入的隐式函数三维重建方法

技术领域

本发明涉及一种三维重建方法，尤其涉及一种基于图像和三维输入的隐式函数三维重建方法。

背景技术

三维重建是计算机视觉领域核心的研究方向，三维模型重建技术可分为传统的三维模型重建方法和基于深度学习的三维模型重建方法，传统的三维模型重建技术主要通过像素点的亮度变化和视差等几何信息来重建三维模型结构，大致分为纹理推导法、运动法和轮廓法。而基于深度学习的重建技术则利用图像信息直接进行三维模型的重建，更符合人类的视觉分析模式。近些年来，深度学习技术在图像处理领域的快速发展极大地提升了计算机对于图像信息的获取能力，进而也提升了基于视图所重建出的三维模型的准确度。对于利用深度学习方法的三维模型重建技术而言，三维物体的表示形式也关重要，目前常用的三维模型表示模型有以下三种：点云模型、深度图模型和体素模型。但是上述现有三维模型重建方法，对二维图像信息提取不充分导致局部信息丢失进而容易造成预测模型细节缺失。而且现有的基于图像的三维重建技术都有一个普遍性的问题，那就是通常只对可视部分的结构重建准确性更高，而遮挡部分的重建效果却不是很理想，无法准确地重建三维模型的形状结构。

现有技术如公告号为CN113112589A的中国发明专利公开了一种基于空间占用概率融合的增量式遥感图像的三维重建方法，该实现方法包括:从遥感图像中选取待重建的建筑物目标图像，对每个待重建的建筑物目标图像进行裁剪，获得不同角度的单个建筑物遥感图像，对每个建筑物图像进行建模，将所有建筑物遥感图像和图像对应的建筑物模型作为训练数据；得到训练好的重建网络参数模型；将待重建的目标建筑物图像输入训练好的重建网络参数模型，计算出建筑物中采样点的空间占用概率，再将不同角度的图像输入重建网络参数模型，得到多个新的建筑物中采样点的空间占用概率并设定概率置信度，生成建筑物的空间占用模型；获取空间占用模型的最大交并比3D-IoU，将多个空间占用模型的空间占用概率坐标系进行三维配准，使每个空间占用模型都保持在同一角度，再对所有空间占用模型进行三维信息融合，得到最终的空间占用模型；根据融合得到的空间占用模型，生成三维表面网格，获得建筑物的三维模型，实现建筑物的三维重建。

发明内容

本发明的目的在于针对现有技术提供一种既能准确提取二维图像的细节信息又能表达三维输入表示的结构形状信息的高准确度的三维重建方法。其包括：通过三维输入预测网络处理三维输入以生成三维点的第一空间占用概率；通过图像预测网络处理输入图像以生成三维点的第二空间占用概率；第一空间占用概率和第二空间占用概率被用来生成基于隐式函数的三维重建模型作为输出。由于三维输入虽然可以表示三维图像的大体形状，但往往分辨率差，缺乏细节信息，而图像数据虽然无法表现物体的三维形状，但分辨率很高，具有丰富的细节信息。通过学习三维点的占用概率所生成三维物体的三维重建模型可以同时表示三维物体的形状与细节信息，因此通过三维输入预测网络生成的第一空间占用概率可以提取到三维物体的形状信息，而通过图像预测网络生成的第二空间占用概率可以提取到图像中丰富的细节信息，将第一空间占用概率与第二空间占用概率结合起来可以生成三维重建模型，三维重建模型既能准确的包含从二维图像提取的细节信息又能包含三维输入表示的形状信息。

三维输入包括三维体素和三维点云。三维体素和三维点云是常见的三维表达方法，采集比较容易，但体素表示在分辨率上受到限制，点云表示缺乏底层网络的连接结构，因此需要对三维输入通过学习三维点的占用概率生成基于隐函数的三维重建模型，所生成的三维重建模型分辨率更高，更精确的表示物体的空间形状和细节信息。

三维输入预测网络通过三维输入编码器处理三维输入以获得三维点的特征编码，具体方式为：在三维输入编码器的每一层卷积层上以三线性插值的办法得到所述三维点与其七个邻域点上的特征向量；将这八个特征向量求平均值后作为所述三维点在这一层卷积层下的特征向量；将三维输入编码器内每一层卷积层所生成的特征向量拼接起来以得到该三维点的特征编码。将三维点的特征编码传入三维输入解码器，通过由多个全连接层和激活层组成的多层感知机，得到所述三维点在三维输入中的第一空间占用概率。三维编码器提取的特征编码包括三维输入的多个局部特征和全局特征，局部特征包含更多信息但感受野较小，全局特征能包含全局的形状分类等抽象信息，将特征编码传入三维输入解码器得到的三维点的第一空间占用概率可以包含三维输入的局部细节特征和全局结构特征。

三维输入预测网络处理三维输入以生成三维点的第一空间占用概率的公式为：f_θ(p,ψ(p，x))→[0,1],其中，p表示三维点，p在三维输入x上的特征编码为ψ(p，x)。

通过图像编码器处理图像以获得三维点在图像上的多尺度特征向量的方法为:使用图像编码器处理图像I以获得多个局部特征图F₁,F₂,...,F_N-1和全局特征图F_N，生成过程可用公式表示：f(I):＝F₁,F₂,...,F_N；将三维点投影到每一个局部特征图F₁,F₂,...,F_N-1中，通过双线性插值的方法获取所述三维点在每一个局部特征图上的局部特征向量，将所有的局部特征向量拼接起来以获得所述三维点在图像上多尺度局部特征向量；将三维点投影到全局特征图F_N中，通过双线性插值的方法获取所述三维点在全局特征图上的全局特征向量，通过图像编码器将多尺度局部特征向量和全局特征向量作为三维点在图像上的多尺度特征向量输出。为了能同时获取到图像的局部和全局特征，在每一个网络块之间将当前图像的局部特征图进行输出。在此，N取4，F₁∈R^64x56x56，F₂∈R^128x28x28，F₃∈R^256x14x14，F₄∈R⁵¹²。在得到了图像的整体特征图之后，随后将三维点p在空间中的坐标p_w＝(X_w,Y_w,Z_w)投影到二维图像上，得到其图像坐标p_i＝(u,v)，即三维点到图像的投影点。获取点p的图像坐标后使用双线性插值的方法，得到在每个局部特征图上的局部特征向量，随后将不同尺度的局部特征拼接起来，作为三维点p在图像上的多尺度局部特征向量。

图像解码器处理三维点的坐标信息以生成位置编码向量，位置编码向量在经过一层全连接层后生成注意力信息，将注意力信息与多尺度特征向量相乘，得到新的多尺度特征向量，然后将新的多尺度特征向量拼接起来生成新的位置编码向量，新的位置编码在经过一层全连接层后生成新的注意力信息，重复执行上述生成新的注意力信息与新的多尺度特征向量的操作i次，最后将生成的多尺度特征向量输入全连接层以获得三维点在图像上的第二空间占用概率。位置编码向量生成的注意力信息表示三维点的位置特征，通过将注意力信息与多尺度特征向量相乘得到的新的多尺度特征向量可以排除无关点的影响，丰富重要的细节信息。

图像预测网络处理图像输入以生成三维点的第二空间占用概率的公式为：f_θ(p,ψ(p，x))→[0,1]，其中，p表示三维点，p在图像x上的多尺度特征向量为ψ(p，x)。

将三维物体上每一个三维点都通过上述方式计算第一空间占用概率和第二空间占用概率，将第一空间占用概率和第二空间占用概率相加后可以得到所述三维点的空间占用概率；根据三维物体所有三维点的空间占用概率可以计算出三维物体的空间占用模型；对空间占用模型采用移动立方体算法(MCA)可以生成三维表面网格，实现三维重建。

由于本发明采用了通过三维输入预测网络处理三维输入以生成三维点的第一空间占用概率；通过图像预测网络处理输入图像以生成三维点的第二空间占用概率；第一空间占用概率和第二空间占用概率被用来生成三维重建模型作为输出。因而本发明具有能准确提取二维图像包含的细节信息又能表达三维输入表示的结构形状信息而重建高准确度的三维模型的优点。

附图说明

图1为本发明基于图像与三维输入的隐式函数三维重建方法流程图；

图2为本发明实施例方法时序图；

图3为本发明实施例生成三维重建模型比较效果示意图；

图4为本发明实施例相关指标比较示意图。

具体实施方式

以下结合实施例对本发明作进一步详细描述。

实施例1：

本实施例的参照图1至图3，本实施例的一种基于图像和三维输入的隐式函数三维重建方法，包括，通过三维输入预测网络处理三维输入以生成三维点的第一空间占用概率；通过图像预测网络处理输入图像以生成三维点的第二空间占用概率；第一空间占用概率和第二空间占用概率被用来生成基于隐式函数的三维重建模型作为输出。由于三维输入虽然可以表示三维图像的大体形状，但往往分辨率差，缺乏细节信息，而图像数据虽然无法表现物体的三维形状，但分辨率很高，具有丰富的细节信息。通过学习三维点的占用概率所生成三维物体的三维重建模型可以同时表示三维物体的形状与细节信息，因此通过三维输入预测网络生成的第一空间占用概率可以提取到三维物体的形状信息，而通过图像预测网络生成的第二空间占用概率可以提取到图像中丰富的细节信息，将第一空间占用概率与第二空间占用概率结合起来可以生成三维重建模型，三维重建模型既能准确的包含从二维图像提取的细节信息又能包含三维输入表示的形状信息。

三维输入包括三维体素和三维点云。三维体素和三维点云是常见的三维表达方法，采集比较容易，但体素表示在分辨率上受到限制，点云表示缺乏底层网络的连接结构，因此需要对三维输入通过学习三维点的占用概率生成基于隐函数的三维重建模型，所生成的三维重建模型分辨率更高，更精确的表示物体的空间形状结构和细节信息。

三维输入预测网络通过三维输入编码器处理三维输入以获得三维点的特征编码的方法为：在三维输入编码器的每一层卷积层上以三线性插值的办法得到所述三维点与其七个邻域点上的特征向量；将这八个特征向量求平均值后作为所述三维点在这一层卷积层下的特征向量；将三维输入编码器内每一层卷积层所生成的特征向量拼接起来以得到该三维点的特征编码。将三维点的特征编码传入三维输入解码器，通过由多个全连接层和激活层组成的多层感知机，得到所述三维点在三维输入中的第一空间占用概率。三维编码器提取的特征编码包括三维输入的多个局部特征和全局特征，局部特征包含更多信息但感受野较小，全局特征能包含全局的形状分类等抽象信息，将特征编码传入三维输入解码器得到的三维点的第一空间占用概率可以包含三维输入的局部细节特征和全局结构特征。

三维输入预测网络处理三维输入以生成三维点的第一空间占用概率的公式为：f_θ(p,ψ(p，x))→[0,1]，其中，p表示三维点，p在三维输入x上的特征编码为ψ(p，x)。

通过图像编码器处理图像以获得三维点在图像上的多尺度特征向量的方法为：使用图像编码器处理图像I以获得多个局部特征图F₁,F₂,...,F_N-1和全局特征图F_N，生成过程可用公式表示：f(I)：＝F₁,F₂,...,F_N；将三维点投影到每一个局部特征图F₁,F₂,...,F_N-1中，通过双线性插值的方法获取所述三维点在每一个局部特征图上的局部特征向量，将所有的局部特征向量拼接起来以获得所述三维点在图像上多尺度局部特征向量；将三维点投影到全局特征图F_N中，通过双线性插值的方法获取所述三维点在全局特征图上的全局特征向量，通过图像编码器将多尺度局部特征向量和全局特征向量作为三维点在图像上的多尺度特征向量输出。为了能同时获取到图像的局部和全局特征，在每一个网络块之间将当前图像的局部特征图进行输出。在此，N取4，F₁∈R^64x56x56，F₂∈R^128x28x28，F₃∈R^256x14x14，F₄∈R⁵¹²。在得到了图像的整体特征图之后，随后将三维点p在空间中的坐标p_w＝(X_w,Y_w,Z_w)投影到二维图像上，得到其图像坐标p_i＝(u,v)，即三维点到图像的投影点。获取点p的图像坐标后使用双线性插值的方法得到在每个局部特征图上的局部特征向量，随后将不同尺度的局部特征拼接起来，作为三维点p在图像上的多尺度局部特征向量。

图3展示了现有技术与本实施例对于输入图像进行三维重建后的效果比较，本实施例的三维重建效果能同时精确地还原物体形状结构并且表达从输入图像中提取到的细节信息。图4为现有技术与本实施例三维重建准确度比较，IoU与Normal Consistency都是计算机视觉领域常用的三维重建效果度量单位，IoU与Normal Consistency数值越高说明三维重建效果越接近真实三维模型，由图4可以看到本实例在三维重建上的准确度高于现有技术，统计数据由于真实三维模型采样误差导致结果存在部分误差。

实施例2：

本实施例在实施例1的基础上进一步阐述技术方案。

整个三维重建的过程如下：

S10，将三维体素或三维点云通过三维输入编码器，对三维输入上的每一个三维点，在三维输入编码器的每一层卷积层上以三线性插值的办法得到所述三维点与其七个邻域点上的特征向量，将这八个特征向量求平均值后作为所述三维点在这一层卷积层下的特征向量，将三维输入编码器内每一层卷积层所生成的特征向量拼接起来以得到该三维点的特征编码；

S11，将所述三维输入上的每一个三维点的特征编码通过由多个全连接层和激活层组成的多层感知机，得到三维点在三维输入中的第一空间占用概率；

S20，将图像输入图像编码器，可以获得多个局部特征图使用图像编码器处理图像I以获得多个局部特征图F₁,F₂,...,F_N-1和全局特征图F_N，将三维点在空间中的坐标p_w＝(X_w,Y_w,Z_w)投影到二维图像上，得到其图像坐标p_i＝(u,v)，即三维点到图像的投影点，获得点p的图像坐标后使用双线性插值的方法，得到点p在每个局部特征图上的局部特征向量，随后将不同尺度的局部特征拼接起来，作为三维点在图像上的多尺度局部特征向量；

S21，将三维点p的图像坐标输入图像解码器生成位置编码向量，将位置编码向量输入一层全连接层后生成注意力信息，将注意力信息与多尺度特征向量相乘，得到新的多尺度特征向量，然后将新的多尺度特征向量拼接起来生成新的位置编码向量，新的位置编码在经过一层全连接层后生成新的注意力信息，重复执行上述生成新的注意力信息与新的多尺度特征向量的操作i次，最后将生成的多尺度特征向量输入全连接层以获得三维点在图像上的第二空间占用概率；

S30，将三维物体上每一个三维点的第一空间占用概率和第二空间占用概率相加后可以得到三维点的空间占用概率，根据三维物体所有三维点的空间占用概率可以计算出三维物体的空间占用模型；

S31，对空间占用模型采用移动立方体算法(MCA)可以生成三维表面网格，实现三维重建。

实施例3：

本实施例在实施例1与实施例2的基础上进一步阐述技术方案。

本实施例参照图4，本实施例在完成实施例1与实施例2对空间占用模型采用移动立方体算法(MCA)生成三维表面网格实现三维重建后，使用第一梯度与第二梯度信息对所述模型进行进一步地优化，在训练时从三维表面网格的每一面随机取样三维点p_k然后最小化损失函数：

其中f_θ(p_k)为生成的三维点p_k的空间占用概率，τ为三维点p_k的真实空间占用概率，

表示点p_k在三维表面网格上的梯度，n(p_k)表示点p_k在三维表面网格上的法向量，λ作为参数可以取0.02。使用损失函数后能使得生成三维模型表面曲线更接近真实三维物体，图4为现有技术，实施例一与本实施例的三维重建准确度比较，IoU与NormalConsistency都是计算机视觉领域常用的三维重建效果度量单位，IoU与NormalConsistency数值越高说明三维重建效果越接近真实三维模型，由图4可以看到本实施例在实施例1的基础上使用了优化算法可以使得生成模型准确度更高，更接近于真是三维模型。统计数据由于真实三维模型采样误差导致结果存在部分误差。

虽然结合优选实施例对本发明进行了描述，但本发明并不受此描述限制。本领域技术人员可以在不脱离本发明的精神和范围的情况下对此处所列的对象进行各种修改、替换和修改。本发明的保护范围应当以所要求保护的权利要求的限定为准。

Claims

1.一种基于图像和三维输入的隐式函数三维重建方法，其特征是：包括，

通过三维输入预测网络处理三维输入以生成三维点的第一空间占用概率；

通过图像预测网络处理输入图像以生成三维点的第二空间占用概率；

所述的第一空间占用概率和第二空间占用概率被用来生成三维重建模型作为输出。

2.根据权利要求1所述的基于图像和三维输入的三维重建方法，其特征是：所述的通过三维输入预测网络处理三维输入以生成三维点的第一空间占用概率，所述的三维输入包括三维体素和三维点云；

优选的，所述的三维输入预测网络通过三维输入编码器处理三维输入以获得三维点的特征编码，将三维点的特征编码传入三维输入解码器以获得三维点在三维输入中的第一空间占用概率；

优选的，所述的图像预测网络是通过图像编码器处理图像以获得三维点在图像上的多尺度特征向量，将所述的多尺度特征向量输入图像解码器以获得三维点在图像上的第二间占用概率。

3.根据权利要求1所述的基于图像和三维输入的三维重建方法，其特征是：所述的第一空间占用概率和第二空间占用概率被用来生成三维重建模型作为输出的方法为：将三维物体上每一个三维点的第一空间占用概率和第二空间占用概率相加后可以得到所述三维点的空间占用概率；根据三维物体所有三维点的空间占用概率可以计算出三维物体的空间占用模型；对所述的空间占用模型采用移动立方体算法(MCA)可以生成三维表面网格，实现三维重建。

4.根据权利要求2所述的基于图像和三维输入的三维重建方法，其特征是：所述的通过三维输入编码器处理三维输入以获得三维点的特征编码的方法为：在所述的三维输入编码器的每一层卷积层上以三线性插值的办法得到所述三维点与其七个邻域点上的特征向量；将这八个特征向量求平均值后作为所述三维点在这一层卷积层下的特征向量；将三维输入编码器内每一层卷积层所生成的特征向量拼接起来以得到该三维点的特征编码。

5.根据权利要求2所述的基于图像和三维输入的三维重建方法，其特征是：所述的通过三维输入解码器获得三维点在三维输入中的第一空间占用概率的方法为：将所述的三维点的特征编码通过由多个全连接层和激活层组成的多层感知机，得到所述三维点在三维输入中的第一空间占用概率。

6.根据权利要求2所述的基于图像和三维输入的三维重建方法，其特征是：所述的通过图像编码器处理图像以获得三维点在图像上的多尺度特征向量的方法为：使用图像编码器处理图像I以获得多个局部特征图F₁,F₂,...,F_N-1和全局特征图F_N,生成过程可用公式表示：f(I)：＝F₁,F₂,...,F_N；将三维点投影到所述的每一个局部特征图F₁,F₂,...,F_N-1中，通过双线性插值的方法获取所述三维点在所述的每一个局部特征图上的局部特征向量，将所有的局部特征向量拼接起来以获得所述三维点在图像上多尺度局部特征向量；将三维点投影到所述的全局特征图F_N中，通过双线性插值的方法获取所述三维点在所述的全局特征图上的全局特征向量，通过图像编码器将多尺度局部特征向量和全局特征向量作为三维点在图像上的多尺度特征向量输出。

7.根据权利要求2所述的基于图像和三维输入的三维重建方法，其特征是：图像解码器处理三维点的坐标信息以生成位置编码向量，所述的位置编码向量在经过一层全连接层后生成注意力信息，将所述的注意力信息与所述的多尺度特征向量相乘，得到新的多尺度特征向量，然后将新的多尺度特征向量拼接起来生成新的位置编码向量，新的位置编码在经过一层全连接层后生成新的注意力信息，重复执行上述生成新的注意力信息与新的多尺度特征向量的操作i次，最后将生成的多尺度特征向量输入全连接层以获得三维点在图像上的第二空间占用概率。

8.实现如权利要求1所述方法的计算机程序。

9.存储如权利要求1所述计算机程序的存储介质。

10.安装有如权利要求8所述计算机程序的终端装置。