CN113066165B

CN113066165B - 多阶段无监督学习的三维重建方法、装置和电子设备

Info

Publication number: CN113066165B
Application number: CN202110298317.8A
Authority: CN
Inventors: 桑新柱; 齐帅; 陈铎; 王鹏; 颜玢玢
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2022-06-21
Anticipated expiration: 2041-03-19
Also published as: CN113066165A

Abstract

本发明提供一种多阶段无监督学习的三维重建方法、装置和电子设备，包括：对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；其中，下一阶段对应的尺度特征图的分辨率高于前一阶段对应的尺度特征图；将所有视点的深度图进行融合确定所述待重建物体的三维点云。本发明提供的方法，避免了监督式深度学习方式对数据过于依赖的问题，增强模型的泛化性，有利于广泛应用，且生成的高精度深度图可以保证三维点云融合的准确性和完整性，点云稠密。

Description

多阶段无监督学习的三维重建方法、装置和电子设备

技术领域

本发明涉及三维重建技术领域，尤其涉及一种多阶段无监督学习的三维重建方法、装置和电子设备。

背景技术

传统的二维图像的获取和显示技术难以满足观看者日益增长的观赏需求。随着显示技术的革新和算力的提升，对于三维场景信息进行准确高效重建的方法受到了大量的关注。主流的三维场景重建方法主要包括两个流程：根据多视点彩色图像求解对应的多视点深度图，之后对求解的多视点深度图进行聚合，得到三维点云模型。随着深度学习的快速发展，基于深度学习的三维重建方法已经在多个评测平台上超过传统方法。尤其是以无监督学习为代表的三维重建方法，既具有较好的重建性能，又避免了监督学习方法依赖于人工标签数据的问题。无监督学习三维重建方法利用多视图几何约束关系，将深度估计问题转化图像重建问题来训练深度神经网络。

现有的无监督学习三维重建方法受限于计算资源限制，难以生成较高分辨率的深度图，因为现有的三维点云的融合基础是各视点原图基础上的多尺度特征图，因此，使用传统方式融合很难达到原图的分辨率，通常为输入图片分辨率的四分之一。如此，得到的深度图都会由于分辨率低下导致深度结果无法显示和应用。

因此，如何避免现有三维点云融合方法中采用监督式深度学习方式对数据过于依赖，而且融合结果得到的深度图分辨率低下导致深度结果无法良好显示和应用的情况，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明提供一种多阶段无监督学习的三维重建方法、装置和电子设备，用以解决现有三维点云融合方法中采用监督式深度学习方式对数据过于依赖，而且融合结果得到的深度图分辨率低下导致深度结果无法良好显示和应用的缺陷，通过多阶段无监督学习模式，在不同阶段使用不同尺度特征图进行融合形成深度图的过程中，及时检测每一阶段的融合深度图结果是否满足精度要求，如果不满足则继续使用下一阶段更高精度的特征图进行融合直到精度符合要求。避免了监督式深度学习方式对数据过于依赖的问题，增强模型的泛化性，有利于广泛应用，且生成的高精度深度图可以保证三维点云融合的准确性和完整性，点云稠密。

本发明提供一种多阶段无监督学习的三维重建方法，该方法包括：

对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；

其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率；

将所有视点的深度图进行融合确定所述待重建物体的三维点云。

根据本发明提供的一种多阶段无监督学习的三维重建方法，所述在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图，其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率，具体包括：

在前一阶段多视点图像对应的前一尺度特征图和前一深度范围确定的前一深度图不满足预设精度条件时，

基于所述前一深度图确定当前深度范围，基于所述当前深度范围和当前阶段多视点图像对应的当前尺度特征图确定当前深度图；

其中，所述当前尺度特征图的分辨率高于所述前一尺度特征图的分辨率。

根据本发明提供的一种多阶段无监督学习的三维重建方法，所述基于所述前一深度图确定当前深度范围，具体包括：

基于所述前一深度图确定所述任一视点的深度范围；

对所述深度范围进行搜索误差校正，确定当前深度范围；

对应地，用于确定第一阶段的深度图的初始深度范围的确定，具体包括：

基于所述多视点图像确定所述待重建物体在所述任一视点的初始深度范围。

根据本发明提供的一种多阶段无监督学习的三维重建方法，所述基于所述当前深度范围和当前阶段多视点图像对应的当前尺度特征图确定当前深度图，具体包括：

对所述当前深度范围进行均匀采样，得到多个深度平面；

在任一深度平面上，通过构建单应变换矩阵，将当前阶段多视点图像对应的当前尺度特征图变换到所述任一深度平面上得到对应变换结果；

将所有深度平面对应变化结果按照深度顺序进行预设规则组合，得到当前深度图。

根据本发明提供的一种多阶段无监督学习的三维重建方法，所述将所有深度平面对应变化结果按照深度顺序进行预设规则组合，得到当前深度图，具体包括：

将所有深度平面对应变化结果按照深度顺序进行组合得到3D代价体；

对所述3D代价体进行代价体空间的匹配，确定所述3D代价体中每个区域属于所述待重建物体的概率；

采用所述概率对所述3D代价体对应的深度值进行加权叠加，得到当前深度图。

根据本发明提供的一种多阶段无监督学习的三维重建方法，

所述任一阶段多视点图像对应的尺度特征图为从多尺度特征图集合中筛选得到，所述多尺度特征图集合为对采集所述待重建物体的多视点图像均进行同一多尺度特征提取处理后构建的。

根据本发明提供的一种多阶段无监督学习的三维重建方法，所述多尺度特征图中的尺度个数为3。

本发明还提供一种多阶段无监督学习的三维重建装置，包括：

深度图单元，用于对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；

点云融合单元，用于将所有视点的深度图进行融合确定所述待重建物体的三维点云。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的多阶段无监督学习的三维重建方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的多阶段无监督学习的三维重建方法的步骤。

本发明提供的多阶段无监督学习的三维重建方法、装置和电子设备，通过对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率；将所有视点的深度图进行融合确定所述待重建物体的三维点云。由于本发明提供的多阶段无监督学习模式，在不同阶段使用不同尺度特征图进行融合形成深度图的过程中，及时检测每一阶段的融合深度图结果是否满足精度要求，如果不满足则继续使用下一阶段更高精度的特征图进行融合直到精度符合要求。因此，本发明提供的方法、装置和电子设备，避免了监督式深度学习方式对数据过于依赖的问题，增强模型的泛化性，有利于广泛应用，且生成的高精度深度图可以保证三维点云融合的准确性和完整性，点云稠密。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的多阶段无监督学习的三维重建方法的流程示意图；

图2为本发明提供的多阶段无监督学习的三维重建装置的结构示意图；

图3为本发明提供的多阶段无监督学习的三维重建流程框架图；

图4为本发明提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有三维点云融合方法普遍存在由于采用监督式深度学习方式导致对数据过于依赖，而且融合结果得到的深度图分辨率低下导致深度结果无法良好显示和应用的问题。下面对本发明中用到的技术名词进行解释：

迭代精细化：通过迭代的方式，下一阶段的深度图求解以上一阶段生成的深度图作为初始值。不断缩减待估计深度值的求解范围，同时增大深度图的分辨率。

3D匹配代价体：在深度方向上进行采样，得到一系列假设深度值。将2D卷积网络提取的特征图通过单应变换，得到在一系列深度平面上的重聚焦图像。这些重聚焦图像的集合叫做3D匹配代价体。

深度图聚合：通过该方法得到所有多视点图像对应的深度图，通过将所有深度图反投影到三维空间，并进行一致性检测，得到三维点云模型。

下面结合图1描述本发明的一种多阶段无监督学习的三维重建方法。图1为本发明提供的多阶段无监督学习的三维重建方法的流程示意图，如图1所示，该方法包括：

步骤110：对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；

其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率。

具体地，本发明提供的多阶段无监督学习的三维重建方法是基于对待重建物体采集的多视点图像进行的，视点个数越多，三维重建效果越好，但是为了平衡三维融合计算量和精度之间的关系，多视点图像的个数一般为几百幅。对于采集到的每个视点图像都会进行2D多尺度特征提取，此处多尺度需要提前设置，例如多尺度的尺度个数为3，即每幅视点图像都要提取出3种不同尺度特征图，3种不同尺度特征图的分辨率分别为输入的视点图像的1/4倍、1/2倍和1倍。尺度个数越多，三维重建效果和精度越好，但是为了平衡三维融合计算和精度之间的关系，尺度个数选择合适范围，例如3-5个。现在针对采集的多幅视点图像中的每一个视点图像，均为确定该视点图像对应的深度图，即从该视点图像拍摄视点出发待重建物体各个像素点上的深度值。确定好每一个视点对应的深度图后，可以基于所有视点的深度图进行三维点云的融合得到最终的三维点云模型。

此处对多视点图像中的任意一个视点对应的深度图确定方法进行说明，即采用多阶段无监督学习模型，依次进行第一阶段到最后阶段的深度图的确定，最后阶段的判定方法是若当前阶段输出的深度图精度达到预设精度条件要求，则当前阶段为最后阶段，直接输出当前阶段的深度图作为所述任意一个视点的深度图计算结果，否则当前阶段不是最后阶段，还要进行下一阶段的深度图更新，下一阶段的深度图更新是基于下一阶段对应的尺度特征图，任一阶段用于计算深度图的尺度特征图的分辨率都高于所述任一阶段的前一阶段。即多阶段无监督学习模式下的深度图确定方法，就是从最低分辨率的尺度特征图使用开始，依阶段数增加对应尺度特征图的分辨率，直到输出的深度图的精度达到预设精度条件。例如，设置的多尺度特征图的尺度个数为4，那么各视点图像的多尺度特征图的分辨率从低到高的排列为：1/8倍分辨率特征图、1/4倍分辨率特征图、1/2倍分辨率特征图和1倍分辨率特征图，于是，对于任一视点，进行其对应的深度图计算时，第一阶段的深度图是基于多视点图像中除该视点图像以外的其他各视点图像的1/8倍分辨率特征图合成得到，然后检测第一阶段得到的深度图的精度是否满足预设精度条件，如果不满足，则进入第二阶段的深度图计算，第二阶段则采用多视点图像中除该视点图像以外的其他各视点图像的1/4倍分辨率特征图更新第一阶段的深度图，即在第一阶段的深度图的基础上继续使用1/4倍分辨率特征图进行融合计算，若检测得到第二阶段更新后的深度图的精度还是不满足预设精度条件，则进入第三阶段的深度图计算，即采用多视点图像中除该视点图像以外的其他各视点图像的1/2倍分辨率特征图更新第二阶段的深度图，以此类推，直到更新得到的深度图的精度满足预设精度条件的要求。每阶段针对输出的深度图精度进行判断后，再决定是否进行下一阶段对应的尺度特征图进行深度图的更新，体现了无监督学习中的无监督过程，即迭代循环没有预先设定的循环次数，仅拼接当前迭代结果是否满足预设精度条件判定是否进入下一轮次的迭代。

步骤120，将所有视点的深度图进行融合确定所述待重建物体的三维点云。

具体地，得到所有视点对应的深度图后，可以通过邻近多视点对应深度图之间满足一致性的原理，进行融合生成三维点云模型。进一步地，邻近几个视点的深度图反投影到空间中，保留满足几何一致性的空间点，过滤误差较大的离群点。原理是，把深度图都反投影到空间中，能有3个视点以上的深度图反投影结果重合在一起的是物体点，无法重合的是离群点。

本发明提供的多阶段无监督学习的三维重建方法，通过对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率；将所有视点的深度图进行融合确定所述待重建物体的三维点云。由于本发明提供的多阶段无监督学习模式，在不同阶段使用不同尺度特征图进行融合形成深度图的过程中，及时检测每一阶段的融合深度图结果是否满足精度要求，如果不满足则继续使用下一阶段更高精度的特征图进行融合直到精度符合要求。因此，本发明提供的方法，避免了监督式深度学习方式对数据过于依赖的问题，增强模型的泛化性，有利于广泛应用，且生成的高精度深度图可以保证三维点云融合的准确性和完整性，点云稠密。

基于上述实施例，该方法中，所述在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图，其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率，具体包括：

具体地，对于目标视点的每一生成深度图的阶段中需要的用于生成深度图的参数分为两类：一类是该阶段中获取的目标视点的深度范围，一类是该阶段其他视点图像对应的尺度特征图。其中，深度范围是基于上一阶段生成的深度图确定的，每一阶段都是在前一阶段计算得到的深度图基础上进行更新，即上一阶段的深度图用于确定当前阶段深度范围，每一阶段都是基于上一阶段计算出的更精确的深度图将待估计深度值的求解范围进行缩小，然后，在缩小范围内插入当前阶段相对于上一阶段分辨率更好的尺度特征图进行深度图的计算，增大深度图的分辨率。

基于上述实施例，该方法中，所述基于所述前一深度图确定当前深度范围，具体包括：

基于所述前一深度图确定所述任一视点的深度范围；

对所述深度范围进行搜索误差校正，确定当前深度范围；

具体地，此处具体限定每一阶段中的深度范围如何确定。对于第一阶段，即数据源仅包括多视点图像中各视点图像对应的多尺度特征图和多视点图像中各视点图像原图，那么第一阶段对应的初始深度范围[D_min，D_max]，即待重建物体的深度范围为[D_min，D_max]，真实的深度范围中D_{min_T}刚好对应于该视点图像中与对应的中心视点距离最近的像素点到所述中心视点的距离，D_{max_T}刚好对应于该视点图像中与对应的中心视点距离最远的像素点到所述中心视点的距离，但是获取的初始深度范围通常不会太精确，所以D_min＝D_{min_T}-e₁，D_max＝D_{min_T}+e₂，其中，e₁和e₂分别为初始深度范围的估计误差。下面具体介绍第一阶段对应的初始深度范围的估计方法：

将采集的待重建物体的所有视点图像作为输入SfM(Structure from Motion，运动构建结构)模型，输出所述待重建物体所在场景的稀疏模型，稀疏模型可以确定待重建物体的大致轮廓，根据在空间中的轮廓确定分布范围，进而可以确定在任一视点的视点图像中的任一像素点的深度值，即可以确定待重建物体在任一视点中的初始深度范围。对于第i阶段(i＝2,3,…,N，N为不超过多尺度特征图的尺度个数的正整数)的深度范围的确定，则是基于第i-1阶段得到的深度图确定的深度范围基础上进行搜索误差校正，得到第i阶段的深度范围。例如，基于第i-1阶段计算得到的深度图确定的深度范围是

进行搜索误差校正后，第i阶段的深度范围为

其中，Δ为校正参数，适当在缩减待估计深度值的求解范围

后增加一定的误差校正参数，防止漏测的深度值。

基于上述实施例，该方法中，所述基于所述当前深度范围和当前阶段多视点图像对应的当前尺度特征图确定当前深度图，具体包括：

对所述当前深度范围进行均匀采样，得到多个深度平面；

具体地，在确定了当前的深度范围的情况下，针对当前的深度范围所在空间以对应视点到待重建物体的方向从深度值最小到深度值最大进行等间隔采样切片，例如，进行80个切片的采样，则对当前的深度范围所在空间进行等间隔的80个切片的采样得到80个深度平面，对于每个深度平面，通过构建单应变换矩阵，将当前阶段多视点图像对应的当前尺度特征图变换到所述任一深度平面上得到对应变换结果，具体公式如下：

其中，H_i(d)是从邻近视点i映射到中心视点1上，深度值为d的平面上的变换矩阵，尺寸为3*3，K_i、R_i和t_i分别为邻近视点i对应视点图像的采集设备的相机内参参数、旋转参数和平移参数，K₁、R₁和t₁分别为邻近视点1对应视点图像的采集设备的相机内参参数、旋转参数和平移参数，n₁为邻近视点1对应视点图像的采集设备的相机光轴朝向的单位方向向量。

得到的每个深度平面上的变换结果显示的是对应视点图像的所有像素点，只不过对于深度值正好与本深度平面对应的深度值一致的像素点会完全显示，其他不在本深度平面上的像素点模糊显示，模糊显示包括调低亮度等方式。

然后将各个深度平面对应的变换结果按照深度顺序进行预设规则组合，得到当前深度图。对于每个深度平面上可以识别的像素点就可以确定其深度值，遍历所有深度平面，就可以确定出所有可以在深度平面上识别的像素点的深度值，进行组合后即可以得到当前阶段对应的当前深度图。

基于上述实施例，该方法中，所述将所有深度平面对应变化结果按照深度顺序进行预设规则组合，得到当前深度图，具体包括：

具体地，进一步限定基于所有深度平面对应变化结果按照深度顺序进行预设规则组合得到当前深度图的方法。由于每一深度平面上，对于和深度平面深度值一直的像素点是清晰显示，不一致的像素点是模糊显示，但是模糊显示的模糊程度是与其与本深度平面的深度值差值成正比的，同理，清晰显示的清晰程度也是有区别的，清晰程度是与其与本深度平面的深度值差值成反比的，因此，某一个像素点的深度值不仅仅基于一个深度平面决定，而是基于所有深度平面决定，基于该像素点在所有深度平面上的清晰度的程度决定，例如某一像素点在第35块切片对应的深度平面上最清晰，第34和第36块切片对应的深度平面上的清晰程度其次，最次的是第33块切片对应的深度平面上的清晰程度，那么该某一像素点的深度值需要将第33-地36块切片对应的4个深度平面的4个深度值进行加权得到，各个切片的权值系数与其清晰程度正相关。下面从3D代价体技术出发进行更专业的描述：

将所有深度平面对应变化结果按照深度顺序进行组合得到3D代价体，在使用3D卷积神经网络对3D匹配代价体进行匹配，求出在代价体空间中，每个区域属于三维物体的概率。例如：网络以5张图片作为输入，其中1张为中心视点图片，4张为临近视点图片。4张临近视点图片生成的特征图分别通过单应性变换，移动到了中心视点的不同深度平面上，得到了4组经过变换的特征图序列。中心视点特征图无需经过单应变换，复制在不同深度平面上，得到中心视点的变换特征图序列。通过对这4+1个变换特征图序列的对应像素位置进行求方差，生成了3D匹配代价体。3D匹配代价体通过CNN网络的匹配运算。具体地，使用3D卷积神经网络的匹配过程是，经过单应性变换，得到了3个不同尺度的匹配代价体。3D CNN网络使用的是3D U-Net的网络结构，输入的是带有32通道数的四维张量，输出的是带有1个通道数的四维张量。在初始状态下，3D匹配网络只能生成的带有1个通道数的四维张量，并不能实现匹配功能，需要依赖监督信号让网络收敛到正确的状态，才能实现匹配的功能。假设3D匹配网络生成的结果是生成中心视点每一像素发射出的光线在不同深度平面位置处存在物体的概率。所以在每一个位置处的概率值属0-1之间。但是整个光线方向上，物体存在的概率是1，所以让同一束光线上所有位置处的概率值相加等于1。经过归一化后，在沿着光线方向上，每个位置的概率和该位置所在深度值加权叠加，得到了最终的深度图。求出深度图后，根据无监督的约束条件，当前视点图片根据深度图反投影到空间中，应与临近视点图片满足光度一致性。通过该约束条件，可以让网络收敛到正确的状态，实现匹配的功能。其中的概率归一化处理，通常使用softmax对单个像素发射处光线上所有不同位置处的概率进行归一化处理。举例说明：对于40*40像素点的视点图像，若深度平面个数为80，则对于任一像素点i(i＝1,2,3,…,1600)，其对应的像素点发射光线与80个深度平面的相关概率构建成一个维度为80的概率序列

因此，该像素点i的深度值d_i的计算公式为：

基于上述实施例，该方法中，所述任一阶段多视点图像对应的尺度特征图为从多尺度特征图集合中筛选得到，所述多尺度特征图集合为对采集所述待重建物体的多视点图像均进行同一多尺度特征提取处理后构建的。

具体地，此处需要说明的是对于多视点图像中的每一视点图像进行特征提取的方式是统一的，即对第一视点图像采用的是多尺度特征提取方法，对第二视点图像采用的也是同样的多尺度特征提取方法，对第M视点图像采用的还是同样的多尺度特征提取方法，M为多视点图像的幅数。例如，多尺度特征提取处理为处理成三种尺度特征图：1/4倍分辨率尺度特征图、1/2倍分辨率尺度特征图和1倍分辨率尺度特征图，那么对于多视点图像中的每一个视点图像，都经过三种尺度特征图的提取，每一幅视点图像都得到1/4倍分辨率尺度特征图、1/2倍分辨率尺度特征图和1倍分辨率尺度特征图。

基于上述任一实施例，该方法中，所述多尺度特征图中的尺度个数为3。

具体地，为了到达精度和计算量之间平衡最优，选择多尺度特征图中的尺度个数为3，即多尺度特征提取处理为处理成三种尺度特征图：1/4倍分辨率尺度特征图、1/2倍分辨率尺度特征图和1倍分辨率尺度特征图，对应地，三个阶段中进行深度平面切片的片数设置为96层、48层和16层。此处需要说明的是，确定深度图最多需要三个阶段的深度图确定，若第一阶段或者第二阶段确定的深度图已经达到了预设精度条件要求，那么也无需进入第三阶段的深度图确定了。预设精度条件是深度图的分辨率与视点图像中的分辨率相等，若达不到视点图像中的分辨率，则继续进入下一阶段的深度图的确定。

下面对本发明提供的多阶段无监督学习的三维重建装置进行描述，下文描述的多阶段无监督学习的三维重建装置与上文描述的第一种多阶段无监督学习的三维重建方法可相互对应参照。

图2为本发明提供的多阶段无监督学习的三维重建装置的结构示意图，如图2所示，该装置包括深度图单元210和点云融合单元220，其中，

所述深度图单元210，用于对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；

所述点云融合单元220，用于将所有视点的深度图进行融合确定所述待重建物体的三维点云。

本发明提供的多阶段无监督学习的三维重建装置，通过对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率；将所有视点的深度图进行融合确定所述待重建物体的三维点云。由于本发明提供的多阶段无监督学习模式，在不同阶段使用不同尺度特征图进行融合形成深度图的过程中，及时检测每一阶段的融合深度图结果是否满足精度要求，如果不满足则继续使用下一阶段更高精度的特征图进行融合直到精度符合要求。因此，本发明提供的装置，避免了监督式深度学习方式对数据过于依赖的问题，增强模型的泛化性，有利于广泛应用，且生成的高精度深度图可以保证三维点云融合的准确性和完整性，点云稠密。

在上述实施例的基础上，该装置中，所述深度图单元，具体用于：

在上述实施例的基础上，该装置中，所述基于所述前一深度图确定当前深度范围，具体包括：

基于所述前一深度图确定所述任一视点的深度范围；

对所述深度范围进行搜索误差校正，确定当前深度范围；

在上述实施例的基础上，该装置中，所述基于所述当前深度范围和当前阶段多视点图像对应的当前尺度特征图确定当前深度图，具体包括：

对所述当前深度范围进行均匀采样，得到多个深度平面；

在上述实施例的基础上，该装置中，所述将所有深度平面对应变化结果按照深度顺序进行预设规则组合，得到当前深度图，具体包括：

在上述实施例的基础上，该装置中，

所述多尺度特征图中的尺度个数为3。

在上述实施例的基础上，本发明提供一种多阶段无监督学习的三维重建流程，图3为本发明提供的多阶段无监督学习的三维重建流程框架图，如图3所示，该流程包括如下步骤：

步骤1、初始化网络参数，读取待输入的多视点图片I及其内外参数K、R、T。

步骤2、使用2D多尺度特征提取网络对输入的多视点图片分别进行特征提取。

步骤3、将每个视点对应的3组不同尺度特征图进行分组储存，等待后续流程读取。3组不同尺度特征图的分辨率分别为输入图片的1/4倍、1/2倍、1倍。

步骤4、根据多视点图片采集的场景确定深度值的分布范围Dmin、Dmax。依据深度分布范围[Dmin,Dmax]，在深度方向上进行均匀采样生成一系列深度平面。在每个深度平面上，通过构建单应变换矩阵，将多个视点的1/4倍分辨率特征图变换到当前深度平面上。每个深度平面上都是多个视点的最低分辨率特征图变换的集合。将所有深度平面的变换结果按深度顺序组合在一起，构成了3D匹配代价体。

步骤5、使用3D卷积神经网络对3D匹配代价体进行匹配，求出在代价体空间中，每个区域属于三维物体的概率。同时，在沿着深度的方向上，使用Softmax函数对概率值进行归一化处理。

步骤6、将经过归一化处理的概率值和其对应的深度值进行加权叠加，得到第一个阶段的深度图。

步骤7、对当前阶段生成的深度图分辨率进行判断，如果和输入图片的分辨率相等，则当前生成的深度图为最终结果。如果小于输入图片的分辨率，则开始下一阶段的迭代。第一个阶段生成的是和1/4分辨率特征图同尺寸的深度图D1，所以开始进入下一阶段的迭代精细化。

步骤8、进入新一阶段，将生成分辨率更高的深度图。从步骤3中读取比上一阶段分辨率大一倍的1/2分辨率特征图，根据上一阶段生成的深度图D1作为初始值，以深度初始值±Δ范围内作为当前阶段深度的搜索范围。根据新生成的深度搜索范围[D1-Δ，D1+Δ]，输入视点的内外参数K R T，在不同的深度平面上构建单应变换矩阵。与步骤4相似，生成具有较高分辨率的3D匹配代价体。

步骤9、使用3D卷积神经网络对3D匹配代价体进行匹配，求出在代价体空间中，每个区域属于三维物体的概率。同时，在沿着深度的方向上，使用Softmax函数对概率值进行归一化处理。

步骤10、将经过归一化处理的概率值和其对应的深度值进行加权叠加，得到当前第一个阶段的最终深度图。

步骤11、对当前阶段生成的深度图分辨率进行判断，如果和输入图片的分辨率相等，则当前生成的深度图为最终结果。如果小于输入图片的分辨率，则跳转到步骤8，开始新一轮的迭代。

步骤12、将生成的多张深度图通过将深度图反投影聚合，形成最终点云模型。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行多阶段无监督学习的三维重建方法，该方法包括：对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率；将所有视点的深度图进行融合确定所述待重建物体的三维点云。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的多阶段无监督学习的三维重建方法，该方法包括：对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率；将所有视点的深度图进行融合确定所述待重建物体的三维点云。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的多阶段无监督学习的三维重建方法，该方法包括：对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设精度条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率；将所有视点的深度图进行融合确定所述待重建物体的三维点云。

以上所描述的终端实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多阶段无监督学习的三维重建方法，其特征在于，包括：

对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；

将所有视点的深度图进行融合确定所述待重建物体的三维点云；

所述在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图，其中，下一阶段多视点图像对应的尺度特征图的分辨率高于前一阶段多视点图像对应的尺度特征图的分辨率，具体包括：

在前一阶段多视点图像对应的前一尺度特征图和前一深度范围确定的前一深度图不满足预设条件时，

其中，所述当前尺度特征图的分辨率高于所述前一尺度特征图的分辨率；

所述基于所述前一深度图确定当前深度范围，具体包括：

基于所述前一深度图确定所述任一视点的深度范围；

对所述深度范围进行搜索误差校正，确定当前深度范围；

2.根据权利要求1所述的多阶段无监督学习的三维重建方法，其特征在于，所述基于所述当前深度范围和当前阶段多视点图像对应的当前尺度特征图确定当前深度图，具体包括：

对所述当前深度范围进行均匀采样，得到多个深度平面；

3.根据权利要求2所述的多阶段无监督学习的三维重建方法，其特征在于，所述将所有深度平面对应变化结果按照深度顺序进行预设规则组合，得到当前深度图，具体包括：

4.根据权利要求1-3中任一项所述的多阶段无监督学习的三维重建方法，其特征在于，

5.根据权利要求4所述的多阶段无监督学习的三维重建方法，其特征在于，所述多尺度特征图中的尺度个数为3。

6.一种多阶段无监督学习的三维重建装置，其特征在于，包括：

深度图单元，用于对于待重建物体的多视点图像中的任一视点，在前一阶段多视点图像对应的尺度特征图合成的深度图不满足预设条件时，采用当前阶段多视点图像对应的尺度特征图更新所述深度图；

点云融合单元，用于将所有视点的深度图进行融合确定所述待重建物体的三维点云；

所述基于所述前一深度图确定当前深度范围，具体包括：

基于所述前一深度图确定所述任一视点的深度范围；

对所述深度范围进行搜索误差校正，确定当前深度范围；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项所述的多阶段无监督学习的三维重建方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5中任一项所述的多阶段无监督学习的三维重建方法的步骤。