CN116310105B

CN116310105B - 基于多视图的物体三维重建方法、装置、设备及存储介质

Info

Publication number: CN116310105B
Application number: CN202310227806.3A
Authority: CN
Inventors: 朱鹏飞
Original assignee: Guangzhou Wojia Technology Co ltd
Current assignee: Guangzhou Wojia Technology Co ltd
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-12-05
Anticipated expiration: 2043-03-09
Also published as: CN116310105A

Abstract

本发明公开了一种基于多视图的物体三维重建方法、装置、设备及存储介质，本发明先获取目标物体在不同角度下的拍摄图像；而后，再确定出每张拍摄图像的相机位置参数，以便利用每张拍摄图像的相机位置参数，来确定出每张拍摄图像的最优深度图；如此，该步骤相当于得出了目标物体在不同角度下的深度信息；最后，本发明将所有拍摄图像的最优深度图进行深度融合，并对融合所得到的点云模型进行三维重建处理，即可得到目标物体的三维模型；由此，本发明能够以物体的图像为输入，来直接输出物体的三维模型，不仅降低了使用者的技术门槛，极大地提升了操作的便捷性和三维重建效率，还无需使用专业的深度采集设备，从而降低了重建成本。

Description

基于多视图的物体三维重建方法、装置、设备及存储介质

技术领域

本发明属于物体三维建模技术领域，具体涉及一种基于多视图的物体三维重建方法、装置、设备及存储介质。

背景技术

相较于二维图像，三维模型能提供场景物体的空间结构信息，有助于人们更好地对场景物体进行观察、理解和分析；因此，三维重建技术已成为计算机视觉和计算机图形学的研究热点和难点，且已经在元宇宙、电子商务、文化遗产保护等领域有着广泛的实际应用。

目前，三维重建方法主要有两种，一是使用工业级的激光扫描仪或RGB-D相机直接测量物体表面的深度信息，然后基于测量的深度信息来完成物体的三维重建，该方法虽然精度较高、简单直接，但数据采集设备昂贵，适用范围受到了很大的限制；另一种方法则是通过美术建模师使用专业的建模软件一点点重建出物体，该方法需要花费大量的时间，且需要较强的专业知识，使用范围依旧很狭小；因此，如何提供一种成本低、门槛低以及效率高的物体三维重建方法，已成为一个亟待解决的问题。

发明内容

本发明的目的是提供一种基于多视图的物体三维重建方法、装置、设备及存储介质，用以解决现有技术中所存在的成本高、花费时间长以及需要较强专业知识的问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供了一种基于多视图的物体三维重建方法，包括：

获取目标物体的图像集，其中，所述图像集包含有目标物体处于不同角度下的拍摄图像；

基于所述图像集，确定出所述图像集中每张拍摄图像对应拍摄相机的相机位置参数；

依据所述图像集和每张拍摄图像对应拍摄相机的相机位置参数，确定出每张拍摄图像的最优深度图，并将所有拍摄图像的最优深度图进行深度融合，以得到目标物体的稠密点云模型；

对所述稠密点云模型进行三维重建处理，得到所述目标物体的三维模型。

基于上述公开的内容，本发明先获取目标物体在不同角度下的拍摄图像；而后，再确定出每张拍摄图像的相机位置参数，以便利用每张拍摄图像的相机位置参数，来确定出每张拍摄图像的最优深度图；如此，该步骤相当于得出了目标物体在不同角度下的深度信息，从而可为目标物体的三维建模提供数据基础；接着，本发明将所有拍摄图像的最优深度图进行深度融合，得到目标物体的稠密点云模型；最后，对融合得到的稠密点云模型进行三维重建处理，即可得到目标物体的三维模型；由此通过前述设计，本发明能够以物体的图像为输入，来直接输出物体的三维模型，不仅降低了使用者的技术门槛，极大地提升了操作的便捷性和三维重建效率，还无需使用专业的深度采集设备，从而降低了重建成本。

在一个可能的设计中，基于所述图像集，确定出所述图像集中每张拍摄图像对应拍摄相机的相机位置参数，包括：

对于所述图像集中的第i张拍摄图像和第i+1张拍摄图像，对所述第i张拍摄图像和所述第i+1张拍摄图像进行特征提取处理，得到所述第i张拍摄图像和所述第i+1张拍摄图像的特征点，以利用所述第i张拍摄图像和所述第i+1张拍摄图像的特征点，组成特征点集合；

基于所述特征点集合，对所述特征点集合中的各个特征点进行特征匹配，得到若干匹配特征对，其中，所述若干匹配特征对中的任一匹配特征对包括两个特征点，且所述任一匹配特征对中的两个特征点用于表征所述目标物体的同一位置；

基于所述若干匹配特征对，计算出所述第i张拍摄图像对应拍摄相机与所述第i+1张拍摄图像对应拍摄相机之间的共同位置参数；

利用所述共同位置参数，确定出所述第i张拍摄图像对应拍摄相机的相机位置参数，以及所述第i+1张拍摄图像对应拍摄相机的相机位置参数；

将i自加1，并重新对所述第i张拍摄图像和所述第i+1张拍摄图像进行特征提取处理，直至i等于n-1时，得到每张拍摄图像对应拍摄相机的相机位置参数，其中，i的初始值为1，且n为所述图像集中拍摄图像的总数量。

在一个可能的设计中，基于所述若干匹配特征对，计算出所述第i张拍摄图像对应拍摄相机与所述第i+1张拍摄图像对应拍摄相机之间的共同位置参数，包括：

基于每个匹配特征对，并按照如下公式(1)，构建出每个匹配特征对的相机位置约束方程；

上述式(1)中，P_a1和P_a2分别表示第a个匹配特征对内的两特征点的坐标矩阵，K、t和R依次表示第i张拍摄图像对应拍摄相机与所述第i+1张拍摄图像对应拍摄相机之间的第一内参矩阵、第一平移运动距离和第一旋转矩阵，T表示转置运算，a＝1,2,..,A，且A表示所述特征对的总数量；

依据若干相机位置约束方程，计算得出所述第i张拍摄图像对应拍摄相机与所述第i+1张拍摄图像对应拍摄相机之间的第一内参矩阵、第一平移运动距离以及第一旋转矩阵；

利用所述第一内参矩阵、所述第一平移运动距离以及所述第一旋转矩阵，组成所述共同位置参数。

在一个可能的设计中，依据所述图像集和每张拍摄图像对应拍摄相机的相机位置参数，确定出每张拍摄图像的最优深度图，包括：

对于所述图像集中的第i张拍摄图像，利用所述第i张拍摄图像的相机位置参数，对目标图像进行视角校正，得到校正图像，其中，所述目标图像为所述图像集中去除所述第i张拍摄图像后所剩余的拍摄图像，且校正图像的拍摄角度与第i张拍摄图像的拍摄角度相同；

对于所述第i张拍摄图像中的第l个像素点，确定出第l个像素点的深度像素区域；

基于所述第l个像素点的深度像素区域以及所述校正图像，计算出所述第l个像素点的最优深度值；

将l自加1，并重新确定出所述第l个像素点的深度像素区域，直至l等于L时，得到所述第i张拍摄图像中所有像素点的最优深度值，以便利用第i张拍摄图像中所有像素点的最优深度值得到所述第i张拍摄图像的最优深度图，其中，l的初始值为1，且L为所述第i张拍摄图像中像素点的总数量；

将i自加1，并重新利用所述第i张拍摄图像的相机位置参数，对目标图像进行视角校正，直至i等于n时，得到每张拍摄图像的最优深度图，其中，i的初始值为1，且n为图像集中拍摄图像的总数量。

在一个可能的设计中，每张拍摄图像对应拍摄相机的相机位置参数均包括有：第二内参矩阵、第二旋转矩阵以及第二平移运动距离；

其中，利用所述第i张拍摄图像的相机位置参数，对目标图像进行视角校正，得到校正图像，包括：

对于目标图像中的第m张目标图像，利用所述第i张拍摄图像的相机位置参数，并采用如下公式(2)，对所述第m张目标图像进行视角校正，得到所述第m张目标图像对应的校正图像；

上述式(2)中，I^m′表示第m张目标图像对应的校正图像，K′、t′和R′依次表示所述第i张拍摄图像的相机位置参数中的第二内参矩阵、第二平移运动距离和第二旋转矩阵，表示深度假设值，N表示所述第i张拍摄图像的主轴方向矩阵，T表示转置运算，I^m表示第m张目标图像，m＝1,2,...，M，M为目标图像的总数量。

在一个可能的设计中，基于所述第l个像素点的深度像素区域以及所述校正图像，计算出所述第l个像素点的最优深度值，包括：

基于所述第l个像素点的深度像素区域以及所述校正图像，并采用如下公式(3)，计算出所述第l个像素点的最优深度值；

上述式(3)中，θ_l′表示第l个像素点的最优深度值，S_l(m)为相似度的概率函数，为第l个像素点的深度像素区域，与第m个校正图像中目标区域之间的颜色相似度，/>表示深度假设值，M表示校正图像的总数量，argmin表示/>取值最小时所对应的深度假设值，其中，所述目标区域在第m个校正图像中所表征的位置，与所述第l个像素点的深度像素区域在所述第i张拍摄图像中所表征的位置相同，且/>设置有多个。

在一个可能的设计中，对所述稠密点云模型进行三维重建处理，得到所述目标物体的三维模型，包括：

采用随机下采样算法，对所述稠密点云模型进行点云下采样处理，得到压缩后的点云模型；

采用泊松面片重建算法，对所述压缩后的点云模型进行面片重建，得到所述目标物体的三维模型。

第二方面，提供了一种基于多视图的物体三维重建装置，包括：

图像获取单元，用于获取目标物体的图像集，其中，所述图像集包含有目标物体处于不同角度下的拍摄图像；

相机参数确定单元，用于基于所述图像集，确定出所述图像集中每张拍摄图像对应拍摄相机的相机位置参数；

深度融合单元，用于依据所述图像集和每张拍摄图像对应拍摄相机的相机位置参数，确定出每张拍摄图像的最优深度图，并将所有拍摄图像的最优深度图进行深度融合，以得到目标物体的稠密点云模型；

三维重建单元，用于对所述稠密点云模型进行三维重建处理，得到目标物体的三维模型。

第三方面，提供了另一种基于多视图的物体三维重建装置，以装置为电子设备为例，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意一种可能设计的所述基于多视图的物体三维重建方法。

第四方面，提供了一种存储介质，存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任意一种可能设计的所述基于多视图的物体三维重建方法。

第五方面，提供了一种包含指令的计算机程序产品，当指令在计算机上运行时，使计算机执行如第一方面或第一方面中任意一种可能设计的所述基于多视图的物体三维重建方法。

有益效果：

(1)本发明能够以物体图像为输入，来直接输出物体的三维模型，不仅降低了使用者的技术门槛，极大地提升了操作的便捷性和三维重建效率，还无需使用专业的深度采集设备，从而降低了重建成本。

附图说明

图1为本发明实施例提供的基于多视图的物体三维重建方法的步骤流程示意图；

图2为本发明实施例提供的基于多视图的物体三维重建方法的流程结构图；

图3为本发明实施例提供的基于多视图的物体三维重建方法对表面粗糙物体进行三维重建的效果示意图；

图4为本发明实施例提供的基于多视图的物体三维重建方法对表面光滑物体进行三维重建的效果示意图；

图5为本发明实施例提供的基于多视图的物体三维重建装置的结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

实施例：

参见图1所示，本实施例所提供的基于多视图的物体三维重建方法，能够以目标物体的图像为输入，来直接输出目标物体的三维模型，如此，不仅提高了使用的便捷性和效率，降低了建模门槛，且还无需使用专业深度信息采集设备，从而可大幅降低建模成本；由此，本方法适用于在物体三维重建领域的大规模应用与推广；在本实施例中，举例该方法可以但不限于在三维重建端侧运行，可选的，三维重建端可以但不限于个人电脑(personalcomputer，PC)、平板电脑或智能手机，可以理解的，前述执行主体并不构成对本申请实施例的限定，相应的，本方法的运行步骤可以但不限于如下述步骤S1～S4所示。

S1.获取目标物体的图像集，其中，所述图像集包含有目标物体处于不同角度下的拍摄图像；在具体应用时，目标物体的图像集可直接通过相机拍摄获得，当然，也可通过拍摄目标物体的视频流来获得；在本实施例中，以拍摄视频流为例，来具体阐述目标物体对应图像集的具体获取过程；首先，获取目标物体按照不同预设规范所拍摄的视频流；接着，对每个视频流进行抽帧处理(如每隔30帧抽取一张图像)，得到若干张拍摄图像；最后，利用若干张拍摄图像组成目标物体的图像集；更进一步的，举例不同预设规范分别为：从与地面呈90°、45°和30°的角度绕环目标物体360°拍摄三个视频，得到三个视频流(每个视频流的时长可为30s)；同时，在拍摄时，将拍摄相机与目标物体的距离控制在10厘米至50厘米之间，且保持整个目标物体位于拍摄图像的中间，如此，可在保证各个视图之间存在重叠区域可以进行特征点匹配的同时，又能给出足够的视差空间对三维空间位置进行估计；另外，在拍摄时还需保持拍摄的相机参数和外界光线恒定，从而尽可能避免相机引起的图像模糊；当然，通过相机直接拍摄目标物体的规范与前述视频流的拍摄规范一致，于此不再赘述。

在本实施例中，为了降低拍摄图像中噪声对相机位置参数的影响，还设置有图像的预处理步骤；具体的，可以但不限于先将图像集中的每张拍摄图像进行格式化处理；然后，对每张格式化后的拍摄图像进行背景分割，得到分割后的图像；最后，利用分割后的图像来组成图像集；可选的，格式化处理可以但不限于将每张拍摄图像调节到预定尺寸(如16*16)，同时，可采用基于神经网络的前后景分割算法来对每张格式化后的拍摄图像进行背景分割；当然，前述预定尺寸可根据实际使用而具体设定，而基于神经网络的前后景分割算法则是背景分割的常用算法，其原理不再赘述。

在完成对前述每张拍摄图像的预处理后，则可基于处理后所得到的图像集，来确定出每张拍摄图像对应拍摄相机的相机位置参数；在本实施例中，相机位置参数的确定过程如下述步骤S2所示。

S2.基于所述图像集，确定出所述图像集中每张拍摄图像对应拍摄相机的相机位置参数；在具体实施时，可以但不限于利用不同视图中表征目标物体同一位置的特征点，来计算出不同视图之间的共同位置参数(即不同视图间的相机位置关系)，而后，利用不同视图之间的共同位置参数，来确定出每张拍摄图像的相机位置参数；可选的，前述每张拍摄图像的相机位置参数的具体计算过程可以但不限于如下述步骤S21～S25所示。

S21.对于所述图像集中的第i张拍摄图像和第i+1张拍摄图像，对所述第i张拍摄图像和所述第i+1张拍摄图像进行特征提取处理，得到所述第i张拍摄图像和所述第i+1张拍摄图像的特征点，以利用所述第i张拍摄图像和所述第i+1张拍摄图像的特征点，组成特征点集合。

S22.基于所述特征点集合，对所述特征点集合中的各个特征点进行特征匹配，得到若干匹配特征对，其中，所述若干匹配特征对中的任一匹配特征对包括两个特征点，且所述任一匹配特征对中的两个特征点用于表征所述目标物体的同一位置；在本实施例中，举例可以但不限于采用SIFT(Scale-invariant feature transform，尺度不变特征转换)算法，来实现第i张拍摄图像和第i+1张拍摄图像中的特征点的提取以及匹配；如此，前述步骤S21和步骤S22则可提取出不同视图上对应着同一三维空间点(也就是表征目标物体同一位置)的各个特征点；而后，则可利用前述匹配出的特征点，来确定出第i张拍摄图像和第i+1张拍摄图像之间的位置关系，其中，前述两拍摄图像之间的位置关系的确定过程可以但不限于如下述步骤S23和步骤S24所示。

S23.基于所述若干匹配特征对，计算出所述第i张拍摄图像对应拍摄相机与所述第i+1张拍摄图像对应拍摄相机之间的共同位置参数；在具体应用时，可以但不限于利用每个匹配特征对中的两特征点，来构建出每个匹配特征对的相机位置约束方程，而后，联立多个匹配特征对的相机位置约束方程，即可求解出前述两拍摄图像之间的共同位置参数；可选的，相机位置约束方程的构建过程以及求解过程，可以但不限于如下述步骤S23a～S23c所示。

S23a.基于每个匹配特征对，并按照如下公式(1)，构建出每个匹配特征对的相机位置约束方程；

上述式(1)中，P_a1和P_a2分别表示第a个匹配特征对内的两特征点的坐标矩阵，K、t和R依次表示第i张拍摄图像对应拍摄相机与所述第i+1张拍摄图像对应拍摄相机之间的第一内参矩阵、第一平移运动距离和第一旋转矩阵，T表示转置运算，a＝1,2,..,A，且A表示所述特征对的总数量；在本实施例中，第i张拍摄图像和第i+1张拍摄图像之间的共同位置参数，则是指二者拍摄相机之间的共同位置参数，该参数包括有二者间的第一内参矩阵、第一旋转矩阵和第一平移运动距离，如此，相机位置约束方程(即前述公式(1))相当于是一个三元一次方式，基于此，则可将每个匹配特征对中的两特征点，代入前述公式(1)，从而得到相机位置约束方程；而后，联立多个方程组成方程组，即可求解出公式(1)中的三个变量。

更进一步的，举例P_a1为第a个匹配特征对中隶属于第i张拍摄图像的特征点，而P_a2则是第a个匹配特征对中隶属于第i+1张拍摄图像的特征点；同时，u，v分别表示特征点P_a1的像素横纵坐标，u′,v′则分别表示特征点P_a2的像素横纵坐标；另外，第一平移运动距离则是第i张拍摄图像和第i+1张拍摄图像对应相机在三维现实空间中的平移向量，包含有X,Y,Z三个方向的值。

如此，将各个匹配的特征点代入前述式(1)，并进行联立求解，即可确定出第i张拍摄图像和第i+1张拍摄图像之间的共同位置参数；其中，具体计算过程如下述步骤S23b和步骤S23c所示。

S23b.依据若干相机位置约束方程，计算得出所述第i张拍摄图像对应拍摄相机与所述第i+1张拍摄图像对应拍摄相机之间的第一内参矩阵、第一平移运动距离以及第一旋转矩阵。

S23c.利用所述第一内参矩阵、所述第一平移运动距离以及所述第一旋转矩阵，组成所述共同位置参数。

由此通过前述步骤S23a～S23c，则可确定出第i张拍摄图像与第i+1张拍摄图像之间的相机位置关系；而在得到前述两图像之间的相机位置关系后，则可利用该位置关系，来计算出第i张拍摄图像对应拍摄相机的相机位置参数，以及第i+1张拍摄图像对应拍摄相机的相机位置参数，如下述步骤S24所示。

S24.利用所述共同位置参数，确定出所述第i张拍摄图像对应拍摄相机的相机位置参数，以及所述第i+1张拍摄图像对应拍摄相机的相机位置参数；在本实施例中，利用第i张拍摄图像中任一像素点，结合前述共同位置参数，即可转换出第i张拍摄图像的相机位置参数；当然，相机位置参数也包含有第二内参矩阵、第二旋转矩阵以及第二平移运动距离(这里为了与前述共同位置参数相区分，采用在第二用于区分)；同理，第i+1张拍摄图像的相机位置参数的确定原理也是如此，于此不再赘述；另外，举例可以但不限于采用“增量式运动恢复结构算法”，并依据共同位置参数，来确定出前述两拍摄图像的相机位置参数。

通过前述设计，即可利用图像集中相邻两拍摄图像之间的特征点，来计算得到相邻两拍摄图像各自拍摄相机对应的相机位置参数，而后，以此方法，不断循环，直至将图像集中的拍摄图像轮循完毕后，即可得到每张拍摄图像对应拍摄相机的相机位置参数；其中，轮循过程如下述步骤S25所示。

S25.将i自加1，并重新对所述第i张拍摄图像和所述第i+1张拍摄图像进行特征提取处理，直至i等于n-1时，得到每张拍摄图像对应拍摄相机的相机位置参数，其中，i的初始值为1，且n为所述图像集中拍摄图像的总数量。

通过前述步骤S21～S25，则可利用不同视图上对应着同一三维空间点的各个特征点，来计算得到每个拍摄图像对应拍摄相机的相机位置参数，从而为后续目标物体的深度信息提取提供数据基础。

在本实施例中，得到每张拍摄图像的相机位置参数后，则可基于各自对应的相机位置参数，来确定出每张拍摄图像的最优深度图，以便利用得到的最优深度图，构建出目标物体的点云模型；如此，即可为后续的三维重建处理提供三维信息；在具体实施时，每张拍摄图像的深度信息的提取过程可以但不限于如下述步骤S3所示。

S3.依据所述图像集和每张拍摄图像对应拍摄相机的相机位置参数，确定出每张拍摄图像的最优深度图，并将所有拍摄图像的最优深度图进行深度融合，以得到目标物体的稠密点云模型；在本实施例中，可以但不限于将每张拍摄图像都作为参考图像，然后对图像集中剩余的拍摄图像进行视角校正；接着，对于任一参考图像，基于任一参考图像以及剩余图像，来计算出该任一参考图像中每个像素点的最优深度值；最后，则可利用每个像素点的最优深度值，来生成该任一参考图像的最优深度图；如此，不断将下一拍摄图像作为参考图像来进行最优深度的计算，直至将所有拍摄图像轮询完毕后，即可得到每张拍摄图像的最优深度图。

可选的，前述每张拍摄图像的最优深度图的具体计算过程可以但不限于如下述步骤S31～S35所示。

S31.对于所述图像集中的第i张拍摄图像，利用所述第i张拍摄图像的相机位置参数，对目标图像进行视角校正，得到校正图像，其中，所述目标图像为所述图像集中去除所述第i张拍摄图像后所剩余的拍摄图像，且校正图像的拍摄角度与第i张拍摄图像的拍摄角度相同；在本实施例中，步骤S31相当于是将图像集中剩余图像的视角，转换为参考图像的视角(即第i张拍摄图像的视角)；如此，可保证后续深度信息计算的准确性；在具体应用时，对于目标图像中的第m张目标图像，可以但不限于采用如下公式(2)，来进行视角校正。

上述式(2)中，I^m′表示第m张目标图像对应的校正图像，K′、t′和R′依次表示所述第i张拍摄图像的相机位置参数中的第二内参矩阵、第二平移运动距离和第二旋转矩阵，表示深度假设值，N表示所述第i张拍摄图像的主轴方向矩阵，T表示转置运算，I^m表示第m张目标图像，m＝1,2,...，M，M为目标图像的总数量；在本实施例中，第i张拍摄图像的主轴方向矩阵可以但不限于预设至三维重建端，使用时调取即可，而深度假设值也为预设值。

由此，基于前述公式(2)，则可利用参考图像的相机位置参数，来对图像集中剩余的图像进行视角校正，从而得到校正图像。

在得到校正图像后，则可进行参考图像对应最优深度的计算，如下述步骤S32～S34所示。

S32.对于所述第i张拍摄图像中的第l个像素点，确定出第l个像素点的深度像素区域；在本实施例中，举例可以但不限于以第l个像素点为中心点，取半径为r的圆，作为深度像素区域；当然，该半径可根据实际使用而具体设定；在确定出第l个像素点的深度像素区域后，则可结合前述目标图像(也就是图像集中剩余的图像)，来计算出该第i个像素点的最优深度值，其中，计算过程如下述步骤S33所示。

S33.基于所述第l个像素点的深度像素区域以及所述校正图像，计算出所述第l个像素点的最优深度值；具体实施时，可以但不限于采用如下公式(3)，来计算出第l个像素点的最优深度值。

上述式(3)中，θ′_l表示第l个像素点的最优深度值，S_l(m)为相似度的概率函数，为第l个像素点的深度像素区域，与第m个校正图像中目标区域之间的颜色相似度，/>表示深度假设值，M表示校正图像的总数量，argmin表示/>取值最小时所对应的深度假设值，其中，所述目标区域在第m个校正图像中所表征的位置，与所述第l个像素点的深度像素区域在所述第i张拍摄图像中所表征的位置相同，且/>设置有多个；在本实施例中，举例可以但不限于采用NCC算法(Normalized Cross-Correlation，归一化互相关)来计算得到前述第l个像素点的深度像素区域，与第m个校正图像中目标区域之间的颜色相似度。

在本实施例中，第m个校正图像中目标区域的构建过程为：在第m个校正图像中确定出与第l个像素点表征同一位置的像素点(如均是表征目标物体的眼球中心，)，作为目标像素点；然后，以目标像素点为中心，取半径为r的圆，作为目标区域。

下述以一个实例来阐述前述步骤S33，假设图像集中共计有3张拍摄图像，其中，i为1，那么参考图像为第1张拍摄图像，目标图像为第2张和第3张拍摄图像；如此，第2张拍摄图像则作为第一张目标图像，第3张拍摄图像则作为第二张目标图像。

当l＝1时，则是先计算第1张拍摄图像中第1个像素点的深度像素区域，与第一张目标图像(即第2张拍摄图像)中目标区域之间的颜色相似度，该相似度是通过深度假设值来计算得到的；如此，相当于计算得到了接着，采用前述公式(3)，计算出m为1时的深度值；而后，再累加第1个像素点的深度像素区域，与第二张目标图像(即第3张拍摄图像)中目标区域之间的颜色相似度，如此，当代入一个深度假设值时，则可计算出第l个像素点在该深度假设值下所对应的深度值；而当把所有深度假设值都轮循一次时，第l个像素点在每个深度假设值都会对应有一个深度值；最后，根据前述公式(3)中的arg min运算，取深度值最小所对应的深度假设值，则可作为第l个像素点的最优深度值。

基于前述阐述，即可完成参考图像中第1个像素点的最优深度值的计算，而后，以前述方法计算后一像素点的最优深度值，并不断循环，直至轮询至参考图像中的最后一个像素点时，即可得到参考图像中每个像素点的最优深度值；最后，利用各个像素点的最优深度值，则可生成该参考图像的最优深度图；其中，循环过程如下述步骤S34所示。

S34.将l自加1，并重新确定出所述第l个像素点的深度像素区域，直至l等于L时，得到所述第i张拍摄图像中所有像素点的最优深度值，以便利用第i张拍摄图像中所有像素点的最优深度值得到所述第i张拍摄图像的最优深度图，其中，l的初始值为1，且L为所述第i张拍摄图像中像素点的总数量。

在得到第i张拍摄图像的最优深度图后，则可将图像集中下一张拍摄图像作为参考图像，并重复前述步骤S31～S34，从而得到下一张拍摄图像的最优深度图；如此，不断循环计算，即可得到每张拍摄图像的最优深度图；其中，循环过程如下述步骤S35所示。

S35.将i自加1，并重新利用所述第i张拍摄图像的相机位置参数，对目标图像进行视角校正，直至i等于n时，得到每张拍摄图像的最优深度图，其中，i的初始值为1，且n为图像集中拍摄图像的总数量。

在本实施例中，由于前述公式(2)中也存在深度假设值，因此，当公式(2)中的深度假设值存在多个时，则相当于在不同深度信息下，对目标图像进行视角校正，从而得到不同深度信息下的校正图像；因此，在后续的最优深度值的计算过程中，则是先计算出每个深度信息下，第l个像素点的最优深度值，然后取值最小的最优深度值，作为最终的最优深度值；如假设公式(2)中存在两个深度假设值，那么则存在两种校正图像(下述称为校正图像A和校正图像B)，因此，在后续计算第l个像素点的最优深度值时，先基于第i张拍摄图像中的第l个像素点的深度像素区域以及校正图像A，计算出第l个像素点的第一最优深度值；然后，再基于第i张拍摄图像中的第l个像素点的深度像素区域以及校正图像B，计算出第l个像素点的第二最优深度值，最后，选取二者中最小的值，作为第l个像素点的最优深度值；当然，计算最优深度值的过程可参见前述步骤S33，于此不再赘述。

另外，在本实施例中，为防止畸变对图像深度估计的影响，在进行视角校正前，还可以对图像集中的每张拍摄图像进行畸变纠正；如此，可提高深度信息提取精度，从而保证三维模型重建的准确性。

由此通过前述步骤S31～S35，则可通过前述公式(2)和公式(3)，来计算出每张拍摄图像的最优深度图；如此，前述步骤S31～S35则可提取出不同视角下，目标物体的最优深度信息，而后，基于该最优深度信息，则可实现三维模型的重建；其中，三维重建过程如下述步骤S4所示。

S4.对所述稠密点云模型进行三维重建处理，得到所述目标物体的三维模型。

在本实施例中，举例在进行三维重建前，可以但不限于采用统计值滤波方法，对前述稠密点云模型进行去噪，从而提高点云模型的精度；而后，则可采用随机下采样算法，对所述稠密点云模型(当然，则是去噪后的点云模型)进行点云下采样处理，得到压缩后的点云模型；最后，本实施例采用泊松面片重建算法，对所述压缩后的点云模型进行面片重建，即可得到目标物体的三维模型。

由此通过前述步骤S1～S4所详细描述的基于多视图的物体三维重建方法，本发明能够以目标物体的图像为输入，来直接输出目标物体的三维模型，如此，不仅提高了使用的便捷性和重建效率，降低了建模门槛，且还无需使用专业深度信息采集设备，从而可大幅降低建模成本；由此，本方法适用于在物体三维重建领域的大规模应用与推广。

参见图2、图3和图4所示，下述提供基于实施例第一方面所述的基于多视图的物体三维重建方法，进行物体三维重建的实例。

参见图2所示，其处理流程为：

(1)对表面光滑物体和表面粗糙物体进行视频流的采集，然后进行视频流的抽帧处理，得到图像集(在此成为原始图像序列)。

(2)对图像集进行图像的预处理(即进行格式化统一以及背景分离)，得到分割后的图像序列；然后，则对分割后的图像序列进行相机位置参数提取，得到每张图像的相机位置参数，

(3)对利用每张图像的相机位置参数，确定出每张图像的最优深度图；然后进行最优深度图的融合处理，并进行点云去噪，得到稠密点云模型。

(4)对稠密点云模型进行三维重建，得到表面光滑物体的三维模型，以及表面粗糙物体的三维模型；其中，重建示意图可参见图3和图4所示，其中，图3中从左到右依次为表面光滑物体的实物图像、点云模型和三维模型；而图4中从左到右依次为表面粗糙物体的实物图像、点云模型和三维模型；从图3和图4中可查看，本方法的重建效果较好，因此，适用于在物体三维重建技术领域的大规模应用与推广。

综上所述，本发明所带来的有益效果为：

(2)本发明采用基于深度学习的前后景分割方法，去除目标物体图像中的背景噪声部分，增强了面对包含背景噪声情形下输出结果的准确性和鲁棒性。

(3)本发明使用基于统计值滤波的点云过滤方法、基于随机下采样的点云压缩方法，优化了稠密点云结果，也维持了最终模型点云数量的稳定性。

如图5所示，本实施例第三方面提供了一种实现实施例第一方面中所述的基于多视图的物体三维重建方法的硬件装置，包括：

图像获取单元，用于获取目标物体的图像集，其中，所述图像集包含有目标物体处于不同角度下的拍摄图像。

相机参数确定单元，用于基于所述图像集，确定出所述图像集中每张拍摄图像对应拍摄相机的相机位置参数。

深度融合单元，用于依据所述图像集和每张拍摄图像对应拍摄相机的相机位置参数，确定出每张拍摄图像的最优深度图，并将所有拍摄图像的最优深度图进行深度融合，以得到目标物体的稠密点云模型。

本实施例提供的装置的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

如图6所示，本实施例第四方面提供了另一种基于多视图的物体三维重建装置，以装置为电子设备为例，包括：依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如实施例第一方面所述的基于多视图的物体三维重建方法。

具体举例的，所述存储器可以但不限于包括随机存取存储器(random accessmemory，RAM)、只读存储器(Read Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output，FIFO)和/或先进后出存储器(First In Last Out，FILO)等等；具体地，处理器可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现，同时，处理器也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。

在一些实施例中，处理器可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制，例如，所述处理器可以不限于采用型号为STM32F105系列的微处理器、精简指令集计算机(reduced instruction setcomputer,RISC)微处理器、X86等架构处理器或集成嵌入式神经网络处理器(neural-network processing units，NPU)的处理器；所述收发器可以但不限于为无线保真(WIFI)无线收发器、蓝牙无线收发器、通用分组无线服务技术(General Packet Radio Service，GPRS)无线收发器、紫蜂协议(基于IEEE802.15.4标准的低功耗局域网协议，ZigBee)无线收发器、3G收发器、4G收发器和/或5G收发器等。此外，所述装置还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例提供的电子设备的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

本实施例第五方面提供了一种存储包含有实施例第一方面所述的基于多视图的物体三维重建方法的指令的存储介质，即所述存储介质上存储有指令，当所述指令在计算机上运行时，执行如实施例第一方面所述的基于多视图的物体三维重建方法。

其中，所述存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例提供的存储介质的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

本实施例第六方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如实施例第一方面所述的基于多视图的物体三维重建方法，其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多视图的物体三维重建方法，其特征在于，包括：

对所述稠密点云模型进行三维重建处理，得到所述目标物体的三维模型；

依据所述图像集和每张拍摄图像对应拍摄相机的相机位置参数，确定出每张拍摄图像的最优深度图，包括：

将i自加1，并重新利用所述第i张拍摄图像的相机位置参数，对目标图像进行视角校正，直至i等于n时，得到每张拍摄图像的最优深度图，其中，i的初始值为1，且n为图像集中拍摄图像的总数量；

每张拍摄图像对应拍摄相机的相机位置参数均包括有：第二内参矩阵、第二旋转矩阵以及第二平移运动距离；

2.根据权利要求1所述的方法，其特征在于，基于所述图像集，确定出所述图像集中每张拍摄图像对应拍摄相机的相机位置参数，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述若干匹配特征对，计算出所述第i张拍摄图像对应拍摄相机与所述第i+1张拍摄图像对应拍摄相机之间的共同位置参数，包括：

4.根据权利要求1所述的方法，其特征在于，基于所述第l个像素点的深度像素区域以及所述校正图像，计算出所述第l个像素点的最优深度值，包括：

5.根据权利要求1所述的方法，其特征在于，对所述稠密点云模型进行三维重建处理，得到所述目标物体的三维模型，包括：

6.一种基于多视图的物体三维重建装置，其特征在于，包括：

三维重建单元，用于对所述稠密点云模型进行三维重建处理，得到目标物体的三维模型；

7.一种电子设备，其特征在于，包括：依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～5任意一项所述的基于多视图的物体三维重建方法。

8.一种存储介质，其特征在于，所述存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～5任意一项所述的基于多视图的物体三维重建方法。