CN117496075B

CN117496075B - 一种单视图的三维重建方法、系统、设备及存储介质

Info

Publication number: CN117496075B
Application number: CN202410001553.2A
Authority: CN
Inventors: 黄芳; 熊文晶; 李祖德; 张昊
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2024-01-02
Filing date: 2024-01-02
Publication date: 2024-03-22
Anticipated expiration: 2044-01-02
Also published as: CN117496075A

Abstract

本发明公开了一种单视图的三维重建方法、系统、设备及存储介质，包括获取由相机拍摄的单视图图像；通过深度学习提取单视图图像中的相机参数值和预测的深度值，进而利用相机参数值反向投影构建出一个估计的三维体素，从这个三维体素中提取一个初始三维特征，再根据初始三维特征重建成一个更加接近与真实体素的最终三维体素。不仅仅忽略了对三维体素数据库的前置依赖，实现了能基于单视图图像的三维重建；而且先估计一个三维体素，再优化得到更加接近与真实体素的最终三维体素，能提升重建最终三维体素的准确度。

Description

一种单视图的三维重建方法、系统、设备及存储介质

技术领域

本发明涉及三维重建相关技术领域，尤其是涉及一种单视图的三维重建方法、系统、设备及存储介质。

背景技术

三维重建是计算机领域的一个重要研究方向。利用计算机重建出物体的三维模型，已经成为众多领域进行深入研究前不可或缺的一部分；在医疗领域中，利用三维模型诊断身体状况；在历史文化领域中，将文物进行立体重建，共科学研究及游客参观。除此之外，在游戏开发、工业设计、航天航海等领域，三维重建技术具有重要的应用前景。单视角图像是日常中最容易获得且不需要额外进行数据处理，相比于多视角视图来说，如何从单视图重建对应的三维模型有更大的研究和实用价值。三维模型的表示形式有三种：体素模型、网格模型和点云模型。体素是三维空间中的正方体，相当于三维空间中的像素；网格是由多个三角形组成的多面体结构，可以表示复杂物体的表面形状；点云是坐标系中点的集合，包含了三维坐标、颜色、分类值等信息。而根据输入的图像，又可以分为单视图重建与多视图重建。

目前的三维重建方法分为主动式三维重建与被动式三维重建。主动式三维重建如结构光法、TOF飞行时间发等已经在工业CT、数字化城市、文物修复等工程中得到一定的应用，但其时常受到光、距离局限等因素干扰，不仅计算量大还受限于整体数据采集设备的精密性和收集条件的好坏，例如三维扫描设备在采集目标对象信息时要求被采集物体在一定的背景、光照和角度下保持一段时间的相对稳定性。而利用相机运动和几何原理的被动式三维重建方法往往被约束与复杂的相机标定和立体匹配，并且计算量较大，重建过程较为复杂，如明暗恢复结构法、运动恢复结构法和多视图立体匹配等。被动式传统三维重建方法需要的条件比较简单，不像主动式三维重建那样依赖硬件，主要靠视觉算法完成，其需要图像序列或多视角图像作为输入，由于单视图信息太少，这种方法很难适用于单视图的三维重建，而且目前的跨领域检索在三维体素重建中的应用需要基于一个提前定义好的预测的最终三维体素数据库。

综上，目前的三维重建方法通常需要图像序列或多视角图像作为输入，由于单视图的信息量较少，所以针对单视图的三维图像的重建较为复杂，而且重建的效果不佳。

发明内容

本发明旨在至少解决现有技术中存在的技术问题。为此，本发明提出一种单视图的三维重建方法、系统、设备及存储介质，能够忽略对三维体素数据库的前置依赖，提升了重建最终三维体素的准确度。

本发明的第一方面，提供了一种单视图的三维重建方法，包括如下步骤：

获取由相机拍摄的单视图图像；

将所述单视图图像输入第一卷积神经网络模型，得到所述第一卷积神经网络模型预测的相机参数和深度图；

根据所述单视图图像、所述相机参数和所述深度图进行反向投影，得到初始三维体素；

将所述初始三维体素输入第二卷积神经网络模型进行特征提取，得到所述第二卷积神经网络模型预测的三维特征；

将所述三维特征输入第三卷积神经网络模型，得到所述第三卷积神经网络模型对所述单视图图像进行三维体素重建的最终三维体素；

根据所述最终三维体素建模得到所述单视图图像的三维预测模型。

根据本发明实施例的控制方法，至少具有如下有益效果：

本方法通过深度学习提取单视图图像中的相机参数值和预测的深度值，进而利用相机参数值反向投影构建出一个估计的三维体素，然后从这个三维体素中提取一个初始三维特征，最后再根据初始三维特征重建成一个更加接近与真实体素的最终三维体素。本方法利用到了相机参数值这一关键信息反向投影构建出一个估计的三维体素，进而利用这一个估计的三维体素重建出了最终三维体素，不仅仅忽略了对三维体素数据库的前置依赖，实现了能基于单视图图像的三维重建；而且先估计一个三维体素，再优化得到更加接近与真实体素的最终三维体素，能提升重建最终三维体素的准确度。

根据本发明的一些实施例，所述第一卷积神经网络模型的训练过程包括：

获取单视图训练图像，并构建相机参数预测模型；

将所述单视图训练图像输入至相机参数预测模型，得到所述相机参数预测模型预测的第一相机参数和第一深度图；

计算所述第一相机参数与预设的真实相机参数之间的第一损失以及所述第一深度图与真实深度图之间的第二损失；

根据所述第一损失和所述第二损失组合得到第三损失；

根据所述第三损失对所述相机参数预测模型进行反向优化，得到优化完成的所述相机参数预测模型，并将所述优化完成的所述相机参数预测模型作为所述第一卷积神经网络模型。

根据本发明的一些实施例，所述第二卷积神经网络模型的训练过程包括：

将所述单视图训练图像输入至所述第一卷积神经网络模型中，得到所述第一卷积神经网络模型预测的第二相机参数和第二深度图；

将所述单视图训练图像、所述第二相机参数和所述第二深度图进行反向投影，得到第一初始三维体素；

构建三维卷积神经网络模型；

将所述第一初始三维体素输入至所述三维卷积神经网络模型中，得到所述三维卷积神经网络模型输出的第一三维特征；

将所述单视图训练图像对应的真实三维体素输入至所述三维卷积神经网络模型中，得到所述三维卷积神经网络模型输出的第二三维特征；

分别计算所述第一三维特征的三元损失、所述第二三维特征的三元损失以及所述第一三维特征和所述第二三维特征之间的跨领域三元损失，并结合所述第一三维特征的三元损失、所述第二三维特征的三元损失和所述跨领域三元损失，得到三元总损失；

根据所述三元总损失对所述三维卷积神经网络模型进行反向优化，得到优化完成的所述三维卷积神经网络模型，并将优化完成的所述三维卷积神经网络模型作为所述第二卷积神经网络模型。

根据本发明的一些实施例，所述第三卷积神经网络模型的训练过程包括：

将所述第一初始三维体素输入至所述第二卷积神经网络模型中，得到所述第二卷积神经网络模型输出的三维预测特征；

构建三维体素重建模型；

将所述三维预测特征输入至所述三维体素重建模型中，得到所述三维体素重建模型输出的第一最终三维体素；

根据所述第一最终三维体素和所述真实三维体素采用如下公式进行损失计算，得到第一三维损失：

，

其中，为第一三维损失，/>为体素的分辨率，/>为第一最终三维体素的第/>个体素单元格的预测概率值，/>为真实三维体素的第/>个体素单元格的真实值，/>为预设的重建损失权重值；

根据所述第一三维损失对所述三维体素重建模型进行反向优化，得到优化完成的所述三维体素重建模型，并将所述优化完成的所述三维体素重建模型作为所述第三卷积神经网络模型。

根据本发明的一些实施例，所述分别计算所述第一三维特征的三元损失、所述第二三维特征的三元损失以及所述第一三维特征和所述第二三维特征之间的跨领域三元损失，包括：

采用如下公式计算所述第一三维特征的三元损失：

，

其中，为距离计算函数，/>为距离计算函数的参数，/>为距离计算函数的参数，/>为第一三维特征的三元损失，/>为由/>构成的三元组个数，/>为第一三维特征中随机选取的一个特征锚点，/>为在第一三维特征中和锚点/>属于同一类别的特征，/>为在第一三维特征中和锚点/>属于不同类别的特征，/>为预设第一边界值；

采用如下公式计算所述第二三维特征的三元损失：

，

其中，为第二三维特征的三元损失，/>为第二三维特征中随机选取的一个特征锚点，/>为在第二三维特征中和锚点/>属于同一类别的特征，/>为在第二三维特征中和锚点/>属于不同类别的特征；

采用如下公式计算所述第二三维特征之间的跨领域三元损失：

，

其中，为第二三维特征之间的跨领域三元损失，/>为预设第二边界值。

根据本发明的一些实施例，采用如下公式计算所述三元总损失：

，

其中，为三元总损失，/>为第一预设权重值，/>为第二预设权重值，/>为第三预设权重值。

根据本发明的一些实施例，所述根据所述单视图图像、所述相机参数和所述深度图进行反向投影，得到初始三维体素，包括：

获取所述单视图图像中每个像素的像素坐标；

根据所述单视图图像中每个像素的像素坐标、所述单视图图像、所述相机参数和所述深度图进行反向投影，得到预测三维坐标；

根据所述预测三维坐标通过点云体素化进行体素转化，得到所述初始三维体素。

本发明的第二方面，提供一种单视图的三维重建系统，所述单视图的三维重建系统包括：

数据获取模块，用于获取由相机拍摄的单视图图像；

相机参数和深度值预测模块，用于将所述单视图图像输入第一卷积神经网络模型，得到所述第一卷积神经网络模型预测的相机参数和深度图；

反向投影模块，用于根据所述单视图图像、所述相机参数和所述深度图进行反向投影，得到初始三维体素；

特征提取模块，用于将所述初始三维体素输入第二卷积神经网络模型进行特征提取，得到所述第二卷积神经网络模型预测的三维特征；

三维体素重建模块，用于将所述三维特征输入第三卷积神经网络模型，得到所述第三卷积神经网络模型对所述单视图图像进行三维体素重建的最终三维体素；

建模模块，用于根据所述最终三维体素建模得到所述单视图图像的三维预测模型。

本系统通过深度学习提取单视图图像中的相机参数值和预测的深度值，进而利用相机参数值反向投影构建出一个估计的三维体素，然后从这个三维体素中提取一个初始三维特征，最后再根据初始三维特征重建成一个更加接近与真实体素的最终三维体素。本方法利用到了相机参数值这一关键信息反向投影构建出一个估计的三维体素，进而利用这一个估计的三维体素重建出了最终三维体素，不仅仅忽略了对三维体素数据库的前置依赖，实现了能基于单视图图像的三维重建；而且先估计一个三维体素，再优化得到更加接近与真实体素的最终三维体素，能提升重建最终三维体素的准确度。

本发明的第三方面，提供了一种单视图的三维重建电子设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行上述的单视图的三维重建方法。

本发明的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述的单视图的三维重建方法。

需要注意的是，本发明的第二方面至第四方面与现有技术之间的有益效果与上述的一种单视图的三维重建系统与现有技术之间的有益效果相同，此处不再细述。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例的一种单视图的三维重建方法的流程图；

图2是本发明实施例提供的一种单视图的三维重建方法的步骤S102的第一卷积神经网络模型的训练过程示意图；

图3是本发明实施例提供的一种单视图的三维重建方法的步骤S104的第二卷积神经网络模型的训练过程示意图；

图4是本发明实施例提供的一种单视图的三维重建方法的步骤S105的第三卷积神经网络模型的训练过程示意图；

图5是本发明实施例提供的一种单视图的三维重建方法的步骤S103的根据单视图图像、相机参数和深度图进行反向投影得到初始三维体素的流程图；

图6是本发明实施例提供的一种单视图的三维重建方法的第一卷积神经网络模型训练流程图；

图7是本发明实施例提供的一种单视图的三维重建方法的第二卷积神经网络模型训练流程图；

图8是本发明实施例提供的一种单视图的三维重建方法的第三卷积神经网络模型训练流程图；

图9是本发明实施例提供的一种单视图的三维重建方法的整体训练流程图；

图10是本发明一实施例的一种单视图的三维重建系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，如果有描述到第一、第二等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本发明的描述中，需要说明的是，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

单视角图像，是日常中最容易获得且不需要额外进行数据处理，相比于多视角视图来说，如何从单视图重建对应的三维模型有更大的研究和实用价值。三维模型的表示形式有三种：体素模型、网格模型和点云模型。体素是三维空间中的正方体，相当于三维空间中的像素；网格是由多个三角形组成的多面体结构，可以表示复杂物体的表面形状；点云是坐标系中点的集合，包含了三维坐标、颜色、分类值等信息。而根据输入的图像，又可以分为单视图重建与多视图重建。本申请属于单视图三维体素重建。

目前的三维重建方法通常需要图像序列或多视角图像作为输入，由于单视图的信息量较少，所以针对单视图的三维图像的重建较为复杂，而且重建的效果不佳。

为了解决上述技术缺陷，参照图1，本发明提供了一种单视图的三维重建方法，包括：

步骤S101、获取由相机拍摄的单视图图像；

步骤S102、将单视图图像输入第一卷积神经网络模型，得到第一卷积神经网络模型预测的相机参数和深度图；

步骤S103、根据单视图图像、相机参数和深度图进行反向投影，得到初始三维体素；

步骤S104、将初始三维体素输入第二卷积神经网络模型进行特征提取，得到第二卷积神经网络模型预测的三维特征；

步骤S105、将三维特征输入第三卷积神经网络模型，得到第三卷积神经网络模型对单视图图像进行三维体素重建的最终三维体素；

步骤S106、根据最终三维体素建模得到单视图图像的三维预测模型。

需要说明的是，如同像素，体素本身并不含有空间中位置的数据即（它们的坐标），却可以从它们相对于其它体素的位置来推敲，意即它们在构成单一张体积影像的数据结构中的位置。体素用恒定的标量或者向量表示一个立体的区域，体素的边界在于相邻晶格的中间位置。这样，“体素”这个术语仅仅用来表示最邻近的插值，而不用来表示如三次线性、立方等等高次插值，这些情况可以用单元体积分支来表示。体素的数值可以表示不同的特性。体素可以包含本质上是向量的多个标量数值。在同一个体素位置的密度与流速经过独立通道获取。如曲面法线与颜色这样的一些其它数值可能对直接三维渲染非常有用。

需要说明的是，本实施例中的相机参数包括相机的内参和相机的外参，其中：相机的内参描述了相机本身的固有属性，包括焦距、像素间距等参数，通常用内参矩阵表示。这些参数决定了相机从三维场景中获取的二维图像的形状和大小，因此是进行图像处理和计算几何变换的重要输入。

相机的外参描述了相机在三维场景中的位置和朝向，通常用旋转矩阵和平移向量表示。外参描述了相机的位置、方向和观察角度，决定了相机从哪个角度观察场景，因此是进行三维重建和姿态估计等任务的重要输入。

简单来说，相机的内参描述了相机的固有属性，影响到拍摄的图像质量；而相机的外参描述了相机在三维空间中的位置和朝向，影响到场景的观察角度和姿态。

内参和外参在使用的时候需要进行标定，求解里面的参数，一般内参标定一次就可以了，外参可能时不时就需要更新一下，其中，具体的相机参数包括但不限于：

分辨率：靶面排列的像元数，用于度量图像内数据量多少的一个参数，通常表示成ppi (每英寸像素Pixel per inch)和dpi (每英寸点)；

像素位深：像素深度是指存储每个像素所用的位数，也用它来度量图像的分辨率。常见为8bit、10bit和12bit；

像元尺寸：像元尺寸和像元数（分辨率）共同决定靶面的大小。一般像元尺寸越小，制造难度越大；

传感器尺寸：靶面 = 像元尺寸*分辨率；

曝光时间：为了将光投射到照相感光材料的感光面上，快门要打开的时间。关系到成像有没有拖影；

视场角：最边缘的入射光线在镜头中心组成的角度；

精度：传感器一个像素表示实际物体的尺寸。

信噪比：图像中，信号与噪声的比值（有效信号平均灰度值与噪声均方根的比值），信噪比越高越好。

需要说明的是，本实施例的深度图（depth map）是一种灰度图像其中每个像素点距离相机的距离信息，它是计算机视觉中常用的一种图像表示方式，用于描述场景的三维结构。

需要说明的是，本实施例采用的反向投影的公式为：

，

其中，为每个像素对应的预测三维坐标，t为平移矩阵，/>为旋转矩阵，/>为单视图图像的像素坐标，/>为深度值，/>为预设相机内参矩阵，/>为相机在u轴方向上的尺度因子，/>为相机在v轴方向上的尺度因子，/>为相机主点一，/>为相机主点二，/>为相机参数。

参照图2，在一些实施例中，步骤S102的第一卷积神经网络模型的训练过程包括：

步骤S201、获取单视图训练图像，并构建相机参数预测模型；

步骤S202、将单视图训练图像输入至相机参数预测模型，得到相机参数预测模型预测的第一相机参数和第一深度图；

步骤S203、计算第一相机参数与预设的真实相机参数之间的第一损失以及第一深度图与真实深度图之间的第二损失；

步骤S204、根据第一损失和第二损失组合得到第三损失；

步骤S205、根据第三损失对相机参数预测模型进行反向优化，得到优化完成的相机参数预测模型，并将优化完成的相机参数预测模型作为第一卷积神经网络模型。

需要说明的是，在步骤S203和步骤S204中，计算第一相机参数与预设的真实相机参数之间的第一损失以及第一深度图与真实深度图之间的第二损失；根据第一损失和第二损失组合得到第三损失的计算公式为：

，

其中，为第一相机参数中的第i个预测的相机参数值，/>为真实相机参数中的第i个真实相机参数值，/>为第i个像素的预测的深度值，/>为第i个像素的真实深度值，/>为第一损失，/>为第二损失，/>为第三损失。

本实施例中通过构建相机参数预测模型，并通过第三损失对相机参数预测模型进行反向优化，得到优化完成的相机参数预测模型，将单视图训练图像输入至相机参数预测模型得到相机参数预测模型预测的第一相机参数和第一深度图，通过深度学习的方法实现了对单视图图像中的相机参数值和预测的深度值这两个关键参数的提取。

参照图3，在一些实施例中，步骤S104的第二卷积神经网络模型的训练过程包括：

步骤S301、将单视图训练图像输入至第一卷积神经网络模型中，得到第一卷积神经网络模型预测的第二相机参数和第二深度图；

步骤S302、将单视图训练图像、第二相机参数和第二深度图进行反向投影，得到第一初始三维体素；

步骤S303、构建三维卷积神经网络模型；

步骤S304、将第一初始三维体素输入至三维卷积神经网络模型中，得到三维卷积神经网络模型输出的第一三维特征；

步骤S305、将单视图训练图像对应的真实三维体素输入至三维卷积神经网络模型中，得到三维卷积神经网络模型输出的第二三维特征；

步骤S306、分别计算第一三维特征的三元损失、第二三维特征的三元损失以及第一三维特征和第二三维特征之间的跨领域三元损失，并结合第一三维特征的三元损失、第二三维特征的三元损失和跨领域三元损失，得到三元总损失；

步骤S307、根据三元总损失对三维卷积神经网络模型进行反向优化，得到优化完成的三维卷积神经网络模型，并将优化完成的三维卷积神经网络模型作为第二卷积神经网络模型。

本实施例中将单视图训练图像、第二相机参数和第二深度图进行反向投影得到第一初始三维体素；然后构建三维卷积神经网络模型，并结合各自的三元损失和跨领域三元损失，得到三元总损失；根据三元总损失对三维卷积神经网络模型进行反向优化，得到优化完成的三维卷积神经网络模型，本实施例通过结合各自的三元损失和跨领域三元损失的总损失优化后的三维卷积神经网络模型进行特征提取得到的三维特征，相较于目前的特征提取方法更为准确。

需要说明的是，步骤S306的分别计算第一三维特征的三元损失、第二三维特征的三元损失以及第一三维特征和第二三维特征之间的跨领域三元损失，包括：

步骤S401、采用如下公式计算第一三维特征的三元损失：

，

需要说明的是，是一个边界值，用于保证当/>和/>相同时仍能对这个三元组进行特征距离优化。

步骤S402、采用如下公式计算第二三维特征的三元损失：

，

步骤S403、采用如下公式计算第二三维特征之间的跨领域三元损失：

，

需要说明的是，是一个边界值，保证当/>和/>相同时仍能对这个三元组进行特征距离优化。

本实施例中通过结合各自的三元损失和跨领域三元损失，提高了损失计算的精准度。

需要说明的是，步骤S306的结合各自的三元损失和跨领域三元损失，得到三元总损失，包括：

步骤S501、采用如下公式计算三元总损失：

，

本实施例中通过结合各自的三元损失和跨领域三元损失进行三元总损失计算，通过三元总损失对第二卷积神经网络模型进行反向优化，提高了模型优化的准确率。

参照图4，在一些实施例中，步骤S105的第三卷积神经网络模型的训练过程包括：

步骤S601、将第一初始三维体素输入至第二卷积神经网络模型中，得到第二卷积神经网络模型输出的三维预测特征；

步骤S602、构建三维体素重建模型；

步骤S603、将三维预测特征输入至三维体素重建模型中，得到三维体素重建模型输出的第一最终三维体素；

步骤S604、根据第一最终三维体素和真实三维体素采用如下公式进行损失计算，得到第一三维损失：

，/>

步骤S605、根据第一三维损失对三维体素重建模型进行反向优化，得到优化完成的三维体素重建模型，并将优化完成的三维体素重建模型作为第三卷积神经网络模型。

本实施例中通过构建三维体素重建模型，通过第二卷积神经网络模型输出的三维预测特征作为输入数据，得到三维体素重建模型输出的第一最终三维体素，不仅仅忽略了对三维体素数据库的前置依赖，实现了能基于单视图图像的三维重建；而且先估计一个三维体素，再优化得到更加接近与真实体素的最终三维体素，能提升重建最终三维体素的准确度。

参照图5，在一些实施例中，步骤S103的根据单视图图像、相机参数和深度图进行反向投影，得到初始三维体素，包括：

步骤S701、获取单视图图像中每个像素的像素坐标；

步骤S702、根据单视图图像中每个像素的像素坐标、单视图图像、相机参数和深度图采用如下公式进行反向投影，得到预测三维坐标：

，

其中，为每个像素对应的预测三维坐标，t为平移矩阵，/>为旋转矩阵，/>为单视图图像的像素坐标，/>为深度值，/>为预设相机内参矩阵，/>为相机在u轴方向上的尺度因子，/>为相机在v轴方向上的尺度因子，/>为相机主点一，/>为相机主点二，/>为相机参数；

步骤S703、根据预测三维坐标通过点云体素化进行体素转化，得到初始三维体素。

本实施例中通过利用相机参数值和深度图进行反向投影构建出一个估计的三维体素，并将其作为后续得到最终三维体素的一个输入数据进行再优化，提升了重建三维体素的准确度。

具体的，参照图9，其中，为了便于本领域人员理解，以下提供一组最佳实施例：

一、相机参数和深度值预测：

参照图6，获取由相机拍摄的单视图图像和单视图训练图像；

将单视图图像输入第一卷积神经网络模型，得到第一卷积神经网络模型预测的相机参数和深度图，其中，第一卷积神经网络模型的训练过程为：

将单视图训练图像输入至相机参数预测模型，得到相机参数预测模型预测的第一相机参数和第一深度图；

计算第一相机参数与预设的真实相机参数之间的第一损失以及第一深度图与真实深度图之间的第二损失；根据第一损失和第二损失组合得到第三损失，其中，计算第一相机参数与预设的真实相机参数之间的第一损失以及第一深度图与真实深度图之间的第二损失；根据第一损失和第二损失组合得到第三损失的计算公式为：

，

其中，为第一相机参数中的第i个预测的相机参数值，/>为真实相机参数中的第i个真实相机参数值，/>为第i个像素的预测的深度值，/>为第i个像素的真实深度值，/>为第一损失，/>为第二损失，/>为第三损失；

根据第三损失对相机参数预测模型进行反向优化，得到优化完成的相机参数预测模型，并将优化完成的相机参数预测模型作为第一卷积神经网络模型。

二、初始三维体素预测：

获取单视图图像中每个像素的像素坐标；

根据单视图图像中每个像素的像素坐标、单视图图像、预测的相机参数值和预测的深度值进行反向投影，得到预测的三维坐标，其中，投影关系为，/>为单视图图像中每个像素的坐标，/>为该像素对应的三维坐标，/>，/>，/>，/>，根据单视图图像中每个像素的像素坐标、单视图图像、预测的相机参数值和预测的深度值进行反向投影，得到预测的三维坐标的计算公式为：

，

根据预测三维坐标通过点云体素化进行体素转化，得到预测的初始三维体素，其中，一个预测的最终三维体素，图像的分辨率为H*W，是3通道的RGB图像，每个像素的取值范围为[0,255]，三维体素的分辨率为32×32×32，三维体素中每个位置的取值为0或1，表示空间中该位置是否被预测的最终三维体素占据。

三、三维特征预测：

参照图7，将初始三维体素输入第二卷积神经网络模型进行特征提取，得到第二卷积神经网络模型预测的三维特征；其中，第二卷积神经网络模型的训练过程为：

将单视图训练图像输入至第一卷积神经网络模型中，得到第一卷积神经网络模型预测的第二相机参数和第二深度图；

将单视图训练图像、第二相机参数和第二深度图进行反向投影，得到第一初始三维体素；

构建三维卷积神经网络模型；

将第一初始三维体素输入至三维卷积神经网络模型中，得到三维卷积神经网络模型输出的第一三维特征；

将单视图训练图像对应的真实三维体素输入至三维卷积神经网络模型中，得到三维卷积神经网络模型输出的第二三维特征（图中为基于三维体素领域的三维特征，）；

分别计算第一三维特征和第二三维特征各自的三元损失以及第一三维特征和第二三维特征之间的跨领域三元损失，并结合各自的三元损失和跨领域三元损失，得到三元总损失；

采用如下公式计算第一三维特征的三元损失：

，

采用如下公式计算第二三维特征的三元损失：

，

采用如下公式计算第二三维特征之间的跨领域三元损失：

，

采用如下公式计算三元总损失：

，

根据三元总损失对三维卷积神经网络模型进行反向优化，得到优化完成的三维卷积神经网络模型，并将优化完成的三维卷积神经网络模型作为第二卷积神经网络模型。

四、最终三维体素重建与建模：

参照图8，将第一初始三维体素输入至第二卷积神经网络模型中，得到第二卷积神经网络模型输出的三维预测特征（图中为基于二维图像领域的三维特征，，C为特征的通道数，d为三维特征三个维度的大小）；

构建三维体素重建模型；

将三维预测特征输入至三维体素重建模型中，得到三维体素重建模型输出的第一最终三维体素；

根据第一最终三维体素和真实三维体素采用如下公式进行损失计算，得到第一三维损失：

，

根据第一三维损失对三维体素重建模型进行反向优化，得到优化完成的三维体素重建模型，并将优化完成的三维体素重建模型作为第三卷积神经网络模型。

另外，参照图10，本发明的一个实施例，提供一种单视图的三维重建系统，包括数据获取模块1100、相机参数和深度值预测模块1200、反向投影模块1300、特征提取模块1400三维体素重建模块1500以及建模模块1600，其中：

数据获取模块1100用于获取由相机拍摄的单视图图像；

相机参数和深度值预测模块1200用于将单视图图像输入第一卷积神经网络模型，得到第一卷积神经网络模型预测的相机参数和深度图；

反向投影模块1300用于根据单视图图像、相机参数和深度图进行反向投影，得到初始三维体素；

特征提取模块1400用于将初始三维体素输入第二卷积神经网络模型进行特征提取，得到第二卷积神经网络模型预测的三维特征；

三维体素重建模块1500用于将三维特征输入第三卷积神经网络模型，得到第三卷积神经网络模型对单视图图像进行三维体素重建的最终三维体素；

建模模块1600用于根据最终三维体素建模得到单视图图像的三维预测模型。

需要注意的是，本系统实施例与上述的系统实施例是基于相同的发明构思，因此上述方法实施例的相关内容同样适用于本系统实施例，这里不再赘述。

本申请还提供一种单视图的三维重建电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现：如上述的单视图的三维重建方法。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例的单视图的三维重建方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的单视图的三维重建方法，例如，执行以上描述的图1中的方法步骤S101至步骤S106。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行：如上述的单视图的三维重建方法。

该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的单视图的三维重建方法，例如，执行以上描述的图1中的方法步骤S101至步骤S106。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序单元或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序单元或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种单视图的三维重建方法，其特征在于，所述单视图的三维重建方法包括：

获取由相机拍摄的单视图图像；

将所述初始三维体素输入第二卷积神经网络模型进行特征提取，得到所述第二卷积神经网络模型预测的三维特征，其中，所述第二卷积神经网络模型的训练过程包括：

构建三维卷积神经网络模型；

分别计算所述第一三维特征的三元损失、所述第二三维特征的三元损失以及所述第一三维特征和所述第二三维特征之间的跨领域三元损失，并结合所述第一三维特征的三元损失、所述第二三维特征的三元损失和所述跨领域三元损失，得到三元总损失，具体为：

采用如下公式计算所述第一三维特征的三元损失：

，

其中，为距离计算函数，/>为距离计算函数的参数，/>为距离计算函数的参数，为第一三维特征的三元损失，/>为由/>构成的三元组个数，/>为第一三维特征中随机选取的一个特征锚点，/>为在第一三维特征中和锚点/>属于同一类别的特征，/>为在第一三维特征中和锚点/>属于不同类别的特征，/>为预设第一边界值；

采用如下公式计算所述第二三维特征的三元损失：

，

其中，为第二三维特征之间的跨领域三元损失，/>为预设第二边界值；

根据所述三元总损失对所述三维卷积神经网络模型进行反向优化，得到优化完成的所述三维卷积神经网络模型，并将优化完成的所述三维卷积神经网络模型作为所述第二卷积神经网络模型；

2.根据权利要求1所述的一种单视图的三维重建方法，其特征在于，所述第一卷积神经网络模型的训练过程包括：

获取单视图训练图像，并构建相机参数预测模型；

根据所述第一损失和所述第二损失组合得到第三损失；

3.根据权利要求2所述的一种单视图的三维重建方法，其特征在于，所述第三卷积神经网络模型的训练过程包括：

构建三维体素重建模型；

，

4.根据权利要求3所述的一种单视图的三维重建方法，其特征在于，采用如下公式计算所述三元总损失：

，

5.根据权利要求1所述的一种单视图的三维重建方法，其特征在于，所述根据所述单视图图像、所述相机参数和所述深度图进行反向投影，得到初始三维体素，包括：

获取所述单视图图像中每个像素的像素坐标；

6.一种单视图的三维重建系统，其特征在于，所述单视图的三维重建系统包括：

数据获取模块，用于获取由相机拍摄的单视图图像；

特征提取模块，用于将所述初始三维体素输入第二卷积神经网络模型进行特征提取，得到所述第二卷积神经网络模型预测的三维特征，其中，所述第二卷积神经网络模型的训练过程包括：

构建三维卷积神经网络模型；

采用如下公式计算所述第一三维特征的三元损失：

，

采用如下公式计算所述第二三维特征的三元损失：

，

7.一种单视图的三维重建设备，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至5任一项所述的一种单视图的三维重建方法。

8.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至5任一项所述的一种单视图的三维重建方法。