CN115512042A

CN115512042A - 网络训练及场景重建方法、装置、机械、系统及设备

Info

Publication number: CN115512042A
Application number: CN202211124733.7A
Authority: CN
Inventors: 金诚; 陈赢峰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-23

Abstract

本申请提供一种网络训练及场景重建方法、装置、机械、系统及设备，涉及图像处理技术领域。该训练方法包括：获取预设工程机械上双目相机采集的预设工程作业场景的多组样本双目图像；对多组样本双目图像进行处理，得到预设工程作业场景的稀疏点云；根据双目相机的相机参数，对稀疏点云进行稠密建图，得到多组样本双目图像对应的多组稠密深度图；对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图；根据多组样本双目图像以及对应的样本视差图进行模型训练，得到立体匹配网络。本申请可以降低三维场景重建的成本、提高实时性，且实现基于高质量点云完成三维场景重建。

Description

网络训练及场景重建方法、装置、机械、系统及设备

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种网络训练及场景重建方法、装置、机械、系统及设备。

背景技术

基于图像的三维目标与场景重建是计算机视觉领域的重要研究方向之一。

在大量的工程作业场景中，主要依靠各种大型的工程机械进行作业任务，由于工程作业场景的环境恶劣，现有的工程作业场景中主要依靠操作人员的工作经验操控工程机械进行作业，工作的危险度较高，因此，对工程作业场景进行三维场景重建，以便操作人员更好的了解工程作业场景的情况，降低工作的危险度。

现有的三维场景重建方案主要分为：激光点云三维重建、多视角三维重建和双目相机三维重建，但是这些方案都存在不同的缺陷问题。其中，激光点云三维重建激光雷达成本高，且成像效果受天气影响，所产生的点云效果不佳；多视角三维重建技术生成点云效果虽然好，但是针对大型的工程作业场景，由于会构建大量的点云信息，需要消耗大量的计算资源，导致很难满足工程作业现场对三维场景重建的实时性要求；双目相机三维重建技术虽然成本低、计算速度快，但由于其生成的点云效果严重依赖两个相机之间的视差估计结果，面对工程作业场景这样环境空旷、且光照变化剧烈的场景，所生成的点云效果精确度差，不利于进行三维重建。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种网络训练及场景重建方法、装置、机械、系统及设备，以便实现降低三维场景重建的成本、提高实时性，且实现基于高质量点云完成三维场景重建。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种立体匹配网络的训练方法，所述方法包括：

获取预设工程机械上双目相机采集的预设工程作业场景的多组样本双目图像；

对所述多组样本双目图像进行处理，得到所述预设工程作业场景的稀疏点云；

根据所述双目相机的相机参数，对所述稀疏点云进行稠密建图，得到所述多组样本双目图像对应的多组稠密深度图；

对每组稠密深度图进行处理，得到所述每组样本双目图像对应的一个样本视差图；

根据所述多组样本双目图像以及对应的样本视差图进行模型训练，得到所述立体匹配网络。

第二方面，本申请实施例还提供一种三维场景重建方法，所述方法包括：

获取预设工程机械上双目相机采集的预设工程作业场景的双目图像；

采用预先训练的立体匹配网络，对所述双目图像进行处理，得到所述双目图像对应的视差图，所述立体匹配网络为采用如上述第一方面任一所述的立体匹配网络的训练方法得到的；

根据所述双目相机的配置参数，对所述视差图进行处理，得到所述预设工程作业场景的三维点云数据；

根据所述三维点云数据和预设视角方向，进行场景渲染，得到所述预设工程作业场景在所述预设视角方向的三维场景图像。

第三方面，本申请实施例还提供一种立体匹配网络的训练装置，所述装置包括：

样本图像获取模块，用于获取预设工程机械上双目相机采集的预设工程作业场景的多组样本双目图像；

稀疏点云生成模块，用于对所述多组样本双目图像进行处理，得到所述预设工程作业场景的稀疏点云；

稠密建图模块，用于根据所述双目相机的相机参数，对所述稀疏点云进行稠密建图，得到所述多组样本双目图像对应的多组稠密深度图；

样本视差图生成模块，用于对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图；

匹配网络训练模块，用于根据所述多组样本双目图像以及对应的样本视差图进行模型训练，得到所述立体匹配网络。

第四方面，本申请实施例还提供一种三维场景重建装置，所述装置包括：

双目图像获取模块，用于获取预设工程机械上双目相机采集的预设工程作业场景的双目图像；

视差图生成模块，用于采用预先训练的立体匹配网络，对所述双目图像进行处理，得到所述双目图像对应的视差图，所述立体匹配网络为采用如上述第一方法任一所述的立体匹配网络的训练方法训练得到的；

三维点云生成模块，用于根据所述双目相机的配置参数，对所述视差图进行处理，得到所述预设工程作业场景的三维点云数据；

渲染模块，用于根据所述三维点云数据和预设视角方向，进行场景渲染，得到所述预设工程作业场景在所述预设视角方向的三维场景图像。

第五方面，本申请实施例还提供一种工程机械，所述工程机械上设置有双目相机，以及和所述双目相机通信连接的主机端，所述主机端用于执行如上述第二方面任一所述的三维场景重建方法的步骤。

第六方面，本申请实施例还提供一种三维场景重建系统，包括：双目相机、主机端以及客户端，所述双目相机、所述主机端均设置在工程机械上，所述主机端分别与所述双目相机和所述客户端通信连接；

所述主机端用于执行如上述第二方面任一所述的三维场景重建方法的步骤。

第七方面，本申请实施例还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行如上述第一方面任一所述的立体匹配网络的训练方法的步骤，或者，如上述第二方法任一所述的三维场景重建方法的步骤。

第八方面，本申请实施例还提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面任一所述的立体匹配网络的训练方法的步骤，或者，如上述第二方面任一所述的三维场景重建方法的步骤。

本申请的有益效果是：

本申请提供一种网络训练及场景重建方法、装置、机械、系统及设备，其中，通过获取预设工程机械上双目相机采集的预设工程作业场景的多组样本双目图像；对多组样本双目图像进行处理，得到预设工程作业场景的稀疏点云；根据双目相机的相机参数，对稀疏点云进行稠密建图，得到多组样本双目图像对应的多组稠密深度图；对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图；根据多组样本双目图像以及对应的样本视差图进行模型训练，得到立体匹配网络。一方面，本申请利用训练得到的立体匹配网络推测双目图像的视差估计结果，可以提高计算视差估计结果的实时性，以便更快速地基于视差估计结果完成三维场景重建；另一方面，本申请利用对样本双目图像构建稀疏点云，再由稀疏点云构建稠密深度图，通过高质量的稠密深度图生成样本视差图，使得样本视差图的视差估计结果的精度更高，以高精度的样本视差图作为标注数据和样本双目图像一起构成训练数据对立体匹配网络进行训练，使立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建；且采用双目相机采样大量的样本双目图像进行模型训练，也降低了模型训练成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种立体匹配网络的训练方法的流程示意图；

图2为本申请实施例提供的一种稀疏点云的示意图；

图3为本申请实施例提供的一种稠密点云的示意图；

图4为本申请实施例提供的另一种立体匹配网络的训练方法的流程示意图；

图5为本申请实施例提供的一种视差图；

图6为本申请实施例提供的又一种立体匹配网络的训练方法的流程示意图；

图7为本申请实施例提供的一种三维场景重建系统的结构示意图；

图8为本申请实施例提供的一种三维场景重建方法的流程示意图；

图9为本申请实施例提供的另一种三维场景重建方法的流程示意图；

图10为本申请实施例提供的又一种三维场景重建方法的流程示意图；

图11为本申请实施例提供的一种工程机械的结构示意图；

图12为本申请实施例提供的立体匹配网络的训练装置的结构示意图；

图13为本申请实施例提供的一种三维场景重建装置的结构示意图；

图14为本申请实施例提供的电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

在大量的工程作业场景中，主要依靠各种大型的工程机械进行作业任务，由于工程作业场景的环境恶劣，现有的工程作业场景中主要依靠操作人员的工作经验操控工程机械进行现场作业，人力成本较高，且工作的危险度较高，因此，设计半自动化或者全自动化的控制系统具有极高的现实意义。

为了实现对工程机械的有效远程操控，其技术核心在于对工程作业现场进行准确恢复，其包括了对工程作业现场中二维视觉信息的采集和三维点云的生成与渲染。其中，二维视觉信息有利于操控人员远程观察工程作业现场的实际情况，三维点云则可以在二维视觉信息的基础上提供更丰富的场景位置信息和多视角渲染信息，从不同视角对三维点云进行渲染，可以为操控人员提供更多的辅助视角进行观察和判断，进而避免在实际人工操作过程中操控人员需要时常将头部伸出座舱观察视角盲区的问题，提高作业安全性。更进一步地，精准的三维点云信息可以提供给控制系统准确的目标方位和尺度，比如，如果工程机械确定了准确的作业位置和装载位置，控制系统就可以工程机械自动完成作业和装车，从而大大降低了人工操作的工作量。因此，精准的三维点云信息是实现半自动化甚至全自动化作业的关键。

现有的三维场景重建方案主要分为：激光点云三维重建、多视角三维重建和双目相机三维重建，但是这些方案都存在不同的缺陷问题。其中，激光点云三维重建激光雷达成本高，生成的点云比较稀疏，难以渲染出高质量的三维场景，且成像效果受天气影响，所产生的点云效果不佳；多视角三维重建技术生成点云效果虽然好，但是针对大型的工程作业场景，需要部署更多的相机进行图像采集，且由于需要构建大量的点云信息，需要消耗大量的计算资源，导致很难满足工程作业现场对三维场景重建的实时性要求；双目相机三维重建技术虽然部署成本低、计算速度快，但由于其生成的点云效果严重依赖两个相机之间的视差估计结果，面对工程作业场景这样环境空旷、且光照变化剧烈的场景，所生成的点云效果精确度差，不利于进行三维重建。

基于此，本申请拟借助双目相机部署成本低、计算速度快以及生成的点云丰富度高的优点，采集大量的样本双目图像，并利用多视角三维重建技术离线构建精准点云的优点，生成样本双目图像对应的稠密深度图，利用稠密深度图自动化生成作为标注数据的样本视差图对立体匹配网络进行训练；在高精度的立体匹配网络训练完成后，通过立体匹配网络生成双目图像的视差图计算三维点云数据，基于三维点云数据进行任意视角的三维场景渲染，实现低成本、高实时性、高质量的三维场景重建。

请参考图1，为本申请实施例提供的一种立体匹配网络的训练方法的流程示意图，如图1所示，该方法包括：

S11：获取预设工程机械上双目相机采集的预设工程作业场景的多组样本双目图像。

一般地，立体匹配网络估计的视差图精度会直接影响用于三维场景重建的点云数据的精度，而立体匹配网络的性能很大程度上要依赖训练数据的质量，主流的模型训练都是利用公开的数据集进行训练产生的，而公开的数据集中的大部分数据都是人工合成数据或者激光数据，没有专门针对工程作业场景的训练，使得利用公开的数据集训练得到的立体匹配网络很难达到预想的想过。

双目相机是指固定在两个不同位置的用于进行图像采集的设备，通过双目相机对物体上的同一个特征点进行采集，该特征点在双目图像中位于不同的位置。工程机械是工程作业场景中用于作业的机械设备，针对不同的作业内容，工程机械的类型可能不同。本实施例中，在工程机械的预设位置部署双目相机，以通过双目相机对工程机械所在的工程作业场景进行图像采集，以得到工程作业场景的多组样本双目图像，在每组样本双目图像中，工程作业场景中任一物体的一个特征点在样本双目图像中的坐标不同。

需要说明的是，为了更好地对预设工程作业场景进行三维重建，通过双目相机获取的多组样本双目图像是针对预设工程作业场景进行全视角拍照得到的，即多组样本双目图像可以360°覆盖预设工程作业场景。

S12：对多组样本双目图像进行处理，得到预设工程作业场景的稀疏点云。

本实施例中，采用预设的特征提取方法，提取多组样本双目图像中的多组特征点，采用图像特征点匹配方法，对多组特征点进行匹配，得到多组特征点对，每组特征点对为工程作业场景中同一特征点在多组样本双目图像中的不同成像，从每组特征点中选择代表特征点，基于双目相机中目标相机的映射矩阵，将多个代表特征点映射到三维空间坐标系中，以生成稀疏点云。其中，双目相机获取的样本双目图像分为左视图和右视图，代表特征点均从多组样本双目图像的左视图或者右视图中选择，目标相机为双目相机中用于生成左视图或者右视图的相机。

示例的，特征提取方法可以为尺度不变特征变换(Scale-Invariant FeatureTransform，SIFT)方法，SIFT方法可以提取出目标视图集中的多个特征点；图像特征点匹配方法可以为欧式距离算法，通过计算目标视图集中的多个特征点之间的欧式距离，以确定多组特征点对。

需要说明的是，由于多组样本双目图像之间的视角范围跨度较大，预设工程作业场景中的一个特征不可能出现在所有的样本双目图像中，因此，对多组特征点进行匹配并不是在所有组中均匹配的特征点才能构成一组二维特征点对，在对多组特征点进行匹配时，只要有预设数量的组中有相互匹配的特征点，即可构成一组二维特征点对。

S13：根据双目相机的相机参数，对稀疏点云进行稠密建图，得到多组样本双目图像对应的多组稠密深度图。

本实施例中，双目相机的相机参数包括内参数和外参数，根据双目相机的内参数和外参数，计算稀疏点云投影到每张目标视图上各个像素点的深度值，将稀疏点云投影至每张目标视图上的像素点作为种子点，根据各个种子点的深度值，计算每张目标视图上其他像素点的深度值，根据所有像素点的深度值，生成每张目标视图对应的稠密深度图，每组样本双目视图对应一组稠密深度图，其中，将稠密深度图中各个像素点投影到三维空间得到三维点云，多组稠密深度图对应的三维点云构成了预设工程作业场景的稠密点云。

S14：对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图。

一般地，用于训练立体匹配网络的样本视差图很难像训练传统模型一样对样本进行人工标注，为了更好的训练立体匹配网络，本实施例采用自动化标注的方式生成样本视差图作为样本双目图像的标注。视差图是指一组双目图像中左视图和右视图同一像素点的像素差，本实施例中，通过稀疏点云构成的稠密深度图的深度值更加准确，通过对每组稠密深度图中的参考深度图进行投影，对投影得到的像素图与样本双目图像中的目标图像同一像素点的像素值进行差值计算，得到各个像素点对应的像素差，即为样本双目图像对应的样本视差图，其中，参考深度图为每组稠密深度图中左视图或者右视图对应的深度图，若参考深度图为左视图对应的深度图，则目标图像为样本双目图像中的右视图，若参考深度图为右视图对应的深度图，则目标图像为样本双目图像中的左视图。

S15：根据多组样本双目图像以及对应的样本视差图进行模型训练，得到立体匹配网络。

本实施例中，样本视差图作为样本双目图像的标注，以多组样本双目图像以及对应的样本视差图作为训练数据进行模型训练，训练完成后得到立体匹配网络，该立体匹配网络可以对双目相机从工程作业现场采集到的任意双目图像进行立体匹配，得到双目图像对应的视差图，基于该视差图构建高精度的点云数据，以便高精度的点云数据渲染得到工程作业场景的三维重建场景图像。

上述实施例提供的立体匹配网络的训练方法，一方面，本申请利用训练得到的立体匹配网络推测双目图像的视差估计结果，可以提高计算视差估计结果的实时性，以便更快速地基于视差估计结果完成三维场景重建；另一方面，本申请利用对样本双目图像构建稀疏点云，再由稀疏点云构建稠密深度图，通过高质量的稠密深度图生成样本视差图，使得样本视差图的视差估计结果的精度更高，以高精度的样本视差图作为标注数据和样本双目图像一起构成训练数据对立体匹配网络进行训练，使立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建；且采用双目相机采样大量的样本双目图像进行模型训练，也降低了模型训练成本。

在一种可选实施例中，上述S12中对多组样本双目图像进行处理，得到预设工程作业场景的稀疏点云，可以包括：

采用运动恢复结构技术，对多组样本双目图像进行处理，得到预设工程作业场景的稀疏地图，稀疏地图包括：稀疏点云和相机参数。

本实施例中，运动恢复结构(Structure From Motion，SFM)是指从各个角度的图像中计算出相机参数，恢复场景三维结构的过程，借助图像间特征匹配点的几何关系，恢复相机的位置姿态信息和特征点在三维空间坐标系中的坐标位置。

具体的，采用特征提取方法，提取多组样本双目图像的多组特征点，对多组特征点进行匹配，得到多组样本双目图像之间的特征匹配点，通过特征匹配点在多组样本双目图像中的二维坐标构建方程组，计算双目相机拍摄移动的方程，即计算双目相机中每个相机的外参数矩阵，每个相机的外参数矩阵即为该相机的位置姿态信息，用于表示在拍摄时该相机的旋转角度和平移向量。

每个相机的内参数矩阵是该相机的内部参数，可以通过人为标定获得，内参数矩阵在相机移动过程中保持不变，每个相机的内参数矩阵和外参数矩阵共同构成该相机的映射矩阵。

通过对多组样本双目图像的多组特征点进行特征匹配，得到多组特征点对后，从多组特征点对分别选择代表特征点，多个代表特征点属于多组样本双目图像中目标相机所对应的视图，根据目标相机的映射矩阵，计算多个代表特征点映射到三维空间坐标系的三维坐标，得到预设工程作业场景对应的稀疏点云。

请参考图2，为本申请实施例提供的一种稀疏点云的示意图，如图2所示，采用该目标相机的映射矩阵，可以多组特征点对进行映射，得到预设工程作业场景的稀疏点云。

上述实施例提供的立体匹配网络训练方法，通过采用运动恢复结构技术构建高精度的稀疏地图，以便生成高精度的稠密深度图，使训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

在一种可选实施例中，上述S13中根据双目相机的相机参数，对稀疏点云进行稠密建图，得到多组样本双目图像对应的多组稠密深度图，可以包括：

根据双目相机的相机参数，采用多视角立体几何技术，对稀疏点云进行稠密建图，得到多组稠密深度图。

本实施例中，多视角立体几何(Multi-View Stereo，MVS)技术是利用相机参数和稀疏点云重建稠密点云，在采用MVS技术重建稠密点云的过程中，即可生成多组样本双目图像对应的多组稠密深度图。

具体的，根据双目相机的内参数和外参数，计算稀疏点云投影到每张目标视图上各个像素点的深度值，将稀疏点云投影至每张目标视图上的像素点作为种子点，根据各个种子点的深度值，计算每张目标视图上其他像素点的深度值，根据所有像素点的深度值，生成每张目标视图对应的稠密深度图，每组样本双目视图对应一组稠密深度图。

示例的，请参考图3，为本申请实施例提供的一种稠密点云的示意图，如图3所示，将稠密深度图中各个像素点投影到三维空间得到三维点云，根据多组稠密深度图对应的三维点云，以及多组样本双目图像中各个图像块之间的相互匹配、相互约束的关系，生成预设工程作业场景的稠密点云。

上述实施例提供的立体匹配网络的训练方法，根据双目相机的相机参数，采用多视角立体几何技术，对稀疏点云进行稠密建图，得到高精度的稠密深度图，以便根据稠密深度图生成精准的样本视差图，使采用样本视差图训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

在上述实施例的基础上，本申请实施例还提供另一种立体匹配网络的训练方法。请参考图4，为本申请实施例提供的另一种立体匹配网络的训练方法的流程示意图，如图4所示，上述S14中对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图，可以包括：

S141：根据每组样本双目图像中的参考图像、每组稠密深度图中的参考深度图和参考相机的相机参数，计算参考深度图对应的参考点云。

其中，每组样本双目图像包括参考图像和目标图像，参考深度图为参考图像对应的深度图，参考相机为双目相机中生成参考图像对应的相机。

本实施例中，以左视图作为参考图像，右视图作为目标图像，对计算参考点云的过程进行详细说明，左视图对应的稠密深度图为参考深度图，右视图对应的稠密深度图为目标深度图，左视图对应的相机为参考相机，右视图对应的相机为目标相机。

具体的，根据左视图中各个像素点的像素坐标和左视图对应相机的内参数矩阵，计算左视图中各个像素点的图像坐标，根据各个像素点的图像坐标，以及各个像素点在稠密深度图中的深度值和左视图对应相机的外参数矩阵，将深度像素点投影至左视图对应相机的空间坐标系，得到参考点云。

S142：根据参考点云和参考相机的相机参数，计算参考点云的投影像素图。

本实施例中，为了更准确地计算左视图和右视图的视差图，通过将参考点云投影至目标相机所在的位置姿态下，以根据参考点云在目标相机所在的位置姿态下的投影像素图和目标图像的像素值计算视差图。

具体的，根据参考点云的三维坐标，以及参考相机相对于目标相机的位置姿态，计算将参考点云投影至目标相机所在位置姿态下的像素值，得到参考深度图所在目标相机所在位置姿态下投影像素图。

S143：根据投影像素图的像素值和目标图像的像素值，计算样本视差图。

本实施例中，在生成参考点云在目标相机所在的位置姿态下的投影像素图后，通过计算投影像素图和目标图像各个像素点的像素值之差，得到样本视差图。

示例的，请参考图5，为本申请实施例提供的一种视差图，如图5所示，通过计算投影像素图和目标图像各个像素点的像素值之差，得到样本视差图。

在一种可选实施例中，在上述S143根据投影像素图的像素值和目标图像的像素值，计算样本视差图之前，该方法还可以包括：

根据投影像素图各个像素点的像素值和目标图像各个像素点的像素值，滤除投影像素图中的噪声像素点。

一般地，双目相机左视图和右视图理论上在垂直方向上的像素差应该为零，本实施例中，为了避免投影像素图和目标图像在垂直方向上的像素值的差别过大，需要对投影像素图各个像素点的像素值与目标图像各个像素点的像素值进行对比，以将垂直方向上像素差大于预设参考像素差值的像素点作为噪声像素点，在投影像素图中滤除噪声像素点，之后，计算滤除噪声像素点的投影像素图和目标图像各个像素点的像素值之差，得到样本视差图。

在一种可选实施例中，将参考点云投影至目标相机所在的位置姿态下的投影像素图中超出视野范围的像素点作为噪声像素点进行滤除，之后，计算滤除噪声像素点的投影像素图和目标图像各个像素点的像素值之差，得到样本视差图。

上述实施例提供的立体匹配网络的训练方法，由于参考深度图中各个像素点的深度值十分准确，使得根据参考深度图生成的参考点云投影得到投影像素图和目标图像计算得到的样本视差图的结果更准确，使采用样本视差图训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

在上述实施例的基础上，本申请实施例还提供又一种立体匹配网络的训练方法。请参考图6，为本申请实施例提供的又一种立体匹配网络的训练方法的流程示意图，如图6所示，上述S142中根据参考点云和参考相机的相机参数，计算参考点云的投影像素图，可以包括：

S1421：根据参考点云和参考相机的相机参数，计算参考点云的投影深度图。

本实施例中，根据参考点云的三维坐标以及参考相机相对于目标相机的位置姿态，计算将参考点云投影至目标相机所在位置姿态下的深度图，得到参考点云在目标相机所在位置姿态下投影深度图。例如，参考点云中一个点的三维坐标为(x,y,z)，其中，z表示该点相对于目标相机成像平面的深度值，那么在将参考点云投影至目标相机成像平面后，参考点云在投影深度图中对应的像素点的图像坐标即为(x,y)，像素值即为深度值z。

S1422：根据投影深度图和参考相机的相机参数，计算投影像素图。

本实施例中，根据投影深度图中各个像素点的图像坐标和参考相机的内参数矩阵，计算各个像素点的像素坐标和像素值，得到投影像素图。

在一种可选实施例中，在上述S1422根据投影深度图和参考相机的相机参数，计算投影像素图之前，该方法还包括：

根据投影深度图各个像素点的深度值和目标深度图各个像素点的深度值，滤除投影深度图中的噪声像素点。

本实施例中，为了避免将参考点云投影至目标相机所在位置姿态下的投影深度图各个像素点的深度值与目标深度图各个像素点的深度值差异较大，保证根据投影像素图和目标图像计算的样本视差图的结果准确，需要对投影深度图进行深度校验，将深度值差值大于预设参考深度差值的像素点作为噪声像素点，在投影深度图中滤除噪声像素点，之后，计算滤除噪声像素点的投影深度图对应的投影像素图。

基于上述实施例的立体匹配网络的训练方法训练得到的立体匹配网络，可以进行三维场景重建。在对本申请提供的三维场景重建方法进行详细介绍之前，先对应用该三维场景重建方法的三维场景重建系统进行说明。

请参考图7，为本申请实施例提供的一种三维场景重建系统的结构示意图，如图7所示，该三维场景重建系统包括：包括：双目相机11、主机端12以及客户端13，双目相机11、主机端12均设置在工程机械上，主机端12分别与双目相机11和客户端13通信连接；主机端用于执行本申请的实施例提供的三维场景重建方法的步骤。

具体的，双目相机11设置在工程机械的外部，用于面向工程作业场景进行双目图像的采集，并将采集到的双目图像发送给主机端12，主机端12接收到双目图像后，根据预先训练得到的立体匹配网络生成双目图像对应的视差图，在对视差图进行点云计算，生成三维点云数据；主机端12与客户端13连接，用于接收客户端13发送的视角指令，以根据视角指令和三维点云数据，渲染得到指定视角的三维场景图像，并将该三维场景图像发送给客户端13进行显示。

如图7所示，双目相机11中包括：图像采集模块111，用于采集工程作业场景的双目图像；主机端12包括：立体匹配网络121、点云计算模块122和场景渲染模块123，立体匹配网络121是采用上述实施例的立体匹配网络的训练方法训练得到的，用于对图像采集模块111发送的双目图像进行视差估计，得到双目图像对应的视差图；点云计算模块122用于根据立体匹配网络121计算得到的视差图进行点云计算，生成三维点云数据；场景渲染模块123用于接收客户端发送的视角指令，根据视角指令和点云计算模块122发送的三维点云数据，渲染得到指定视角的三维场景图像，并将该三维场景图像发送给客户端13进行显示；客户端13包括：指令生成与发送模块131和显示模块132，指令生成与发送模块131用于通过客户端13的图形化显示界面生成视角指令，并发送给主机端12的场景渲染模块124，显示模块132作为客户端13的图形化显示界面，用于接收并显示场景渲染模块124发送的三维场景图像。

上述实施例提供的三维场景重建系统，通过双目相机采集双目图像，通过主机端对双目图像进行处理生成点云数据，根据客户端发送的视角指令渲染得到指定视角的三维场景图像，并在客户端对指定视角的三维场景图像进行显示，便于操控人员根据三维场景图像观察工程作业场景，保证作业安全，更优地，可以利用该三维场景重建系统实现对工程机械进行远程操控。

基于上述实施例提供的三维场景重建系统，本申请的实施例提供一种应用于三维场景重建系统中主机端的三维场景重建方法。请参考图8，为本申请实施例提供的一种三维场景重建方法的流程示意图，如图8所示，该方法包括：

S21：获取预设工程机械上双目相机采集的预设工程作业场景的双目图像。

本实施例中，对双目相机进行校准，将校准的双目相机部署在工程机械的预设位置，保证双目相机的视野覆盖范围充足，驱动双目相机对工程机械所在的工程作业场景进行图像采集，将得到的双目图像分为左视图和右视图发送给主机端。示例的，预设工程机械可以为挖掘机，双目相机可以部署在挖掘机座舱顶部靠近挖机臂的位置处。

S22：采用预先训练的立体匹配网络，对双目图像进行处理，得到双目图像对应的视差图。

本实施例中，立体匹配网络为采用上述实施例的立体匹配网络的训练方法，通过生成样本双目图像的稀疏点云和稠密点云，以计算样本双目图像对应的样本视差图，根据样本双目图像和样本视差图进行模型训练得到的。将训练完成的立体匹配网络部署在主机端，以对双目相机采集的双目图像进行立体匹配，得到双目图像对应的视差图，视差图是以双目图像中的一个图像作为目标图像，计算另一图像相对于参考图像的视差结果。

S23：根据双目相机的配置参数，对视差图进行处理，得到预设工程作业场景的三维点云数据。

本实施例中，对目标图像建立二维直角坐标系，对目标相机建立三维直角坐标系，双目相机的配置参数包括：双目相机的基线距离、目标相机的内参数和外参数，根据双目相机的基线距离、目标相机的内参数和外参数，根据视差图中每个像素点的二维坐标，计算每个像素点的三维坐标，得到预设工程作业场景的三维点云数据。

S24：根据三维点云数据和预设视角方向，进行场景渲染，得到预设工程作业场景在预设视角方向的三维场景图像。

本实施例中，根据预先设置的视角方向，对三维点云数据在预设视角方向进行渲染，得到预设工程作业场景在预设视角方向的三维场景图像。

上述实施例提供的三维场景重建方法，采用预设训练的立体匹配网络生成双目图像的视差图，根据该视差图可以得到高精度的三维点云数据，以便根据高精度的三维点云数据实现高质量的三维场景重建，且利用预先训练的立体匹配网络可以实时进行三维场景重建，提高三维场景重建的实时性；另外，由于只需要采样双目相机获取的双目图像进行高质量的三维场景重建，相对于采用激光点云进行三维场景重建，降低了三维场景重建的成本。

在上述实施例的基础上，本申请实施例还提供另一种三维场景重建方法。请参考图9，为本申请实施例提供的另一种三维场景重建方法的流程示意图，如图9所示，上述S23中根据双目相机的配置参数，对视差图进行处理，得到预设工程作业场景的三维点云数据，可以包括：

S231：根据双目相机的焦距和基线距离，对视差图进行处理，得到双目图像对应的深度图像。

本实施例中，目标相机的焦距作为目标相机的内参数矩阵中的一个参数，内参数矩阵是对目标相机进行标定得到的，内参数矩阵在目标相机工作过程中不会发生改变，双目相机的基线距离是双目相机的光心之间的距离，在双目相机部署在工程机械上之后即可确定。根据目标相机的焦距、双目相机的基线距离，对视差图中的每个像素点进行计算，得到每个像素点的深度值，生成双目图像中目标图像对应的深度图像。

S232：根据双目相机的内参数，对深度图像进行处理，得到预设工程作业场景的三维点云数据。

本实施例中，根据预先建立的二维直角坐标系和三维直角坐标系，根据视差图中每个像素点的像素坐标和目标相机的内参数，确定每个像素点在二维直角坐标系中的二维坐标，根据每个像素点的二维坐标和深度值，得到每个像素点的三维坐标，目标图像多个像素点的三维坐标构成了预设工程作业场景的三维点云数据。

上述实施例提供的三维场景重建方法，根据双目相机的焦距和基线距离，对视差图进行处理，得到双目图像对应的深度图像，根据双目相机的内参数和外参数，对深度图像进行处理，得到预设工程作业场景的三维点云数据，使得三维场景重建的结果更加精准。

在上述实施例的基础上，本申请实施例还提供又一种三维场景重建方法。请参考图10，为本申请实施例提供的又一种三维场景重建方法的流程示意图，如图10所示，该三维场景重建方法的步骤包括：S21-S23、S241、S242和S243，其中，S21-S23的实现方式与图4相同，在此不做赘述。

S241：接收客户端发送的预设视角方向指令。

S242：根据三维点云数据和预设视角方向指令，进行场景渲染，得到预设工程作业场景在预设视角方向的三维场景图像。

S243：向客户端发送预设视角方向的三维场景图像。

本实施例中，如图7所示，主机端与客户端通信连接，通过客户端确定需要显示的三维场景的视角，客户端将确定的视角以视角方向指令发送给主机端，主机端在生成三维点云数据后，根据客户端发送的视角方向指令，渲染得到指定视角的三维场景图像，并将该视角方向的三维场景图像发送至客户端进行显示。

上述实施例提供的三维场景重建方法，通过接收客户端发送的预设视角方向指令，根据三维点云数据和预设视角方向指令，进行场景渲染，得到预设工程作业场景在预设视角方向的三维场景图像，向客户端发送预设视角方向的三维场景图像，便于操控人员根据三维场景图像观察任意视角的工程作业场景，保证作业安全；更优地，可以利用该三维场景重建系统实现对工程机械进行远程操控。

在上述实施例的基础上，本申请实施例还提供一种应用上述实施例提供的三维场景重建方法的工程机械。请参考图11，为本申请实施例提供的一种工程机械的结构示意图，如图11所示，该工程机械上设置有双目相机11，以及和双目相机11通信连接的主机端12，主机端用于执行如上述实施例提供的三维场景重建方法的步骤。

具体的，双目相机11设置在工程机械的外部，用于面向工程作业场景进行双目图像的采集，主机端12是部署在工程机械上的小型或者微型工作站，主机端12根据双目相机11发送的双目图像可以完成视差图的生成、三维点云数据的计算和三维场景的渲染。

在一种可选实施例中，若工程机械为操控人员在工程机械内部进行操作，则将客户端13也可以设置在工程机械上，便操控人员边通过客户端13查看各个视角方向的工程作业场景，边控制工程机械进行作业。

在另一种可选实施例中，若工程机械为远程操作的机械，则将客户端13部署在远程操控平台上。

在上述实施例的基础上，本申请实施例还提供一种立体匹配网络的训练装置。请参考图12，为本申请实施例提供的立体匹配网络的训练装置的结构示意图，如图12所示，该装置包括：

样本图像获取模块101，用于获取预设工程机械上双目相机采集的预设工程作业场景的多组样本双目图像；

稀疏点云生成模块102，用于对多组样本双目图像进行处理，得到预设工程作业场景的稀疏点云；

稠密建图模块103，用于根据双目相机的相机参数，对稀疏点云进行稠密建图，得到多组样本双目图像对应的多组稠密深度图；

样本视差图生成模块104，用于对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图；

匹配网络训练模块105，用于根据多组样本双目图像以及对应的样本视差图进行模型训练，得到立体匹配网络。

上述实施例提供的立体匹配网络的训练装置，一方面，本申请利用训练得到的立体匹配网络推测双目图像的视差估计结果，可以提高计算视差估计结果的实时性，以便更快速地基于视差估计结果完成三维场景重建；另一方面，本申请利用对样本双目图像构建稀疏点云，再由稀疏点云构建稠密深度图，通过高质量的稠密深度图生成样本视差图，使得样本视差图的视差估计结果的精度更高，以高精度的样本视差图作为标注数据和样本双目图像一起构成训练数据对立体匹配网络进行训练，使立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建；且采用双目相机采样大量的样本双目图像进行模型训练，也降低了模型训练成本。

可选的，稀疏点云生成模块102，具体用于采用运动恢复结构技术，对多组样本双目图像进行处理，得到预设工程作业场景的稀疏地图，稀疏地图包括：稀疏点云和相机参数。

上述实施例提供的立体匹配网络训练装置，通过采用运动恢复结构技术构建高精度的稀疏地图，以便生成高精度的稠密深度图，使训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

可选的，稠密建图模块103，具体用于根据双目相机的相机参数，采用多视角立体几何技术，对稀疏点云进行稠密建图，得到多组稠密深度图。

上述实施例提供的立体匹配网络的训练装置，根据双目相机的相机参数，采用多视角立体几何技术，对稀疏点云进行稠密建图，得到高精度的稠密深度图，以便根据稠密深度图生成精准的样本视差图，使采用样本视差图训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

可选的，样本视差图生成模块104，包括：

参考点云生成单元，用于根据每组样本双目图像中的参考图像、每组稠密深度图中的参考深度图和参考相机的相机参数，计算参考深度图对应的参考点云，其中，每组样本双目图像包括参考图像和目标图像，参考深度图为参考图像对应的深度图，参考相机为双目相机中生成参考图像对应的相机；

投影像素图生成单元，用于根据参考点云和参考相机的相机参数，计算参考点云的投影像素图；

样本视差图生成单元，用于根据投影像素图的像素值和目标图像的像素值，计算样本视差图。

可选的，在样本视差图生成单元计算样本视差图之前，噪声滤除子单元，还用于根据投影像素图各个像素点的像素值和目标图像各个像素点的像素值，滤除投影像素图中的噪声像素点。

上述实施例提供的立体匹配网络的训练装置，由于参考深度图中各个像素点的深度值十分准确，使得根据参考深度图生成的参考点云投影得到投影像素图和目标图像计算得到的样本视差图的结果更准确，使采用样本视差图训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

可选的，投影像素图生成单元，包括：

投影深度图生成子单元，用于根据参考点云和参考相机的相机参数，计算参考点云的投影深度图；

投影像素图生成子单元，用于根据投影深度图和参考相机的相机参数，计算投影像素图。

可选的，在投影像素图生成子单元计算投影像素图之前，装置还包括：

噪声滤除子单元，用于根据投影深度图各个像素点的深度值和目标深度图各个像素点的深度值，滤除投影深度图中的噪声像素点。

在上述实施例的基础上，本申请实施例还提供一种三维场景重建装置。请参考图13，为本申请实施例提供的一种三维场景重建装置的结构示意图，如图13所示，该装置包括：

双目图像获取模块201，用于获取预设工程机械上双目相机采集的预设工程作业场景的双目图像；

视差图生成模块202，用于采用预先训练的立体匹配网络，对双目图像进行处理，得到双目图像对应的视差图，立体匹配网络为采用如上述第一方法任一的立体匹配网络的训练方法训练得到的；

三维点云生成模块203，用于根据双目相机的配置参数，对视差图进行处理，得到预设工程作业场景的三维点云数据；

渲染模块204，用于根据三维点云数据和预设视角方向，进行场景渲染，得到预设工程作业场景在预设视角方向的三维场景图像。

上述实施例提供的三维场景重建装置，采用预设训练的立体匹配网络生成双目图像的视差图，根据该视差图可以得到高精度的三维点云数据，以便根据高精度的三维点云数据实现高质量的三维场景重建，且利用预先训练的立体匹配网络可以实时进行三维场景重建，提高三维场景重建的实时性；另外，由于只需要采样双目相机获取的双目图像进行高质量的三维场景重建，相对于采用激光点云进行三维场景重建，降低了三维场景重建的成本。

可选的，三维点云生成模块203，包括：

深度图像生成单元，用于根据双目相机的焦距和基线距离，对视差图进行处理，得到双目图像对应的深度图像；

三维点云生成单元，用于根据双目相机的内参数和外参数，对深度图像进行处理，得到预设工程作业场景的三维点云数据。

上述实施例提供的三维场景重建装置，根据双目相机的焦距和基线距离，对视差图进行处理，得到双目图像对应的深度图像，根据双目相机的内参数和外参数，对深度图像进行处理，得到预设工程作业场景的三维点云数据，使得三维场景重建的结果更加精准。

可选的，装置还包括：指令接收模块和图像发送模块；

指令接收模块，用于接收客户端发送的预设视角方向指令；

渲染模块204，具体用于根据三维点云数据和预设视角方向指令，进行场景渲染，得到预设工程作业场景在预设视角方向的三维场景图像；

图像发送模块，用于向客户端发送预设视角方向的三维场景图像。

上述实施例提供的三维场景重建装置，通过接收客户端发送的预设视角方向指令，根据三维点云数据和预设视角方向指令，进行场景渲染，得到预设工程作业场景在预设视角方向的三维场景图像，向客户端发送预设视角方向的三维场景图像，便于操控人员根据三维场景图像观察任意视角的工程作业场景，保证作业安全；更优地，可以利用该三维场景重建系统实现对工程机械进行远程操控。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

请参考图14，为本申请实施例提供的电子设备的示意图，如图14所示，电子设备300包括：处理器301、存储介质302和总线，存储介质302存储有处理器301可执行的程序指令，当电子设备300运行时，处理器301与存储介质302之间通过总线通信，处理器301执行程序指令，以执行上述立体匹配网络的训练方法的步骤，或者三维场景重建方法的步骤。

具体的，处理器执行上述立体匹配网络的训练方法的步骤包括：

获取预设工程机械上双目相机采集的预设工程作业场景的多组样本双目图像；对多组样本双目图像进行处理，得到预设工程作业场景的稀疏点云；根据双目相机的相机参数，对稀疏点云进行稠密建图，得到多组样本双目图像对应的多组稠密深度图；对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图；根据多组样本双目图像以及对应的样本视差图进行模型训练，得到立体匹配网络。

上述实施例中处理器执行的立体匹配网络的训练方法，一方面，本申请利用训练得到的立体匹配网络推测双目图像的视差估计结果，可以提高计算视差估计结果的实时性，以便更快速地基于视差估计结果完成三维场景重建；另一方面，本申请利用对样本双目图像构建稀疏点云，再由稀疏点云构建稠密深度图，通过高质量的稠密深度图生成样本视差图，使得样本视差图的视差估计结果的精度更高，以高精度的样本视差图作为标注数据和样本双目图像一起构成训练数据对立体匹配网络进行训练，使立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建；且采用双目相机采样大量的样本双目图像进行模型训练，也降低了模型训练成本。

在一种可能的实现方式中，处理器执行对多组样本双目图像进行处理，得到预设工程作业场景的稀疏点云的步骤，可以包括：

上述实施例中处理器执行的立体匹配网络的训练方法，通过采用运动恢复结构技术构建高精度的稀疏地图，以便生成高精度的稠密深度图，使训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

在一种可能的实现方式中，处理器执行上述根据双目相机的相机参数，对稀疏点云进行稠密建图，得到多组样本双目图像对应的多组稠密深度图的步骤，可以包括：

上述实施例中处理器执行的立体匹配网络的训练方法，根据双目相机的相机参数，采用多视角立体几何技术，对稀疏点云进行稠密建图，得到高精度的稠密深度图，以便根据稠密深度图生成精准的样本视差图，使采用样本视差图训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

在一种可能的实现方式中，处理器执行上述对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图的步骤，可以包括：

根据每组样本双目图像中的参考图像、每组稠密深度图中的参考深度图和参考相机的相机参数，计算参考深度图对应的参考点云；根据参考点云和参考相机的相机参数，计算参考点云的投影像素图；根据投影像素图的像素值和目标图像的像素值，计算样本视差图。

在一种可选实施例中，处理器在执行上述根据投影像素图的像素值和目标图像的像素值，计算样本视差图的步骤之前，执行步骤还可以包括：

上述实施例中处理器执行的立体匹配网络的训练方法，由于参考深度图中各个像素点的深度值十分准确，使得根据参考深度图生成的参考点云投影得到投影像素图和目标图像计算得到的样本视差图的结果更准确，使采用样本视差图训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

在一种可能的实现方式中，处理器执行上述根据参考点云和参考相机的相机参数，计算参考点云的投影像素图的步骤，可以包括：

根据参考点云和参考相机的相机参数，计算参考点云的投影深度图；根据投影深度图和参考相机的相机参数，计算投影像素图。

在一种可选实施例中，处理器在执行上述根据投影深度图和参考相机的相机参数，计算投影像素图的步骤之前，执行步骤还可以包括：

具体的，处理器执行上述三维场景重建方法的步骤包括：

获取预设工程机械上双目相机采集的预设工程作业场景的双目图像；采用预先训练的立体匹配网络，对双目图像进行处理，得到双目图像对应的视差图；根据双目相机的配置参数，对视差图进行处理，得到预设工程作业场景的三维点云数据；根据三维点云数据和预设视角方向，进行场景渲染，得到预设工程作业场景在预设视角方向的三维场景图像。

上述实施例中处理器执行的三维场景重建方法，采用预设训练的立体匹配网络生成双目图像的视差图，根据该视差图可以得到高精度的三维点云数据，以便根据高精度的三维点云数据实现高质量的三维场景重建，且利用预先训练的立体匹配网络可以实时进行三维场景重建，提高三维场景重建的实时性；另外，由于只需要采样双目相机获取的双目图像进行高质量的三维场景重建，相对于采用激光点云进行三维场景重建，降低了三维场景重建的成本。

在一种可能的实现方式中，处理器执行上述根据双目相机的配置参数，对视差图进行处理，得到预设工程作业场景的三维点云数据的步骤，可以包括：

根据双目相机的焦距和基线距离，对视差图进行处理，得到双目图像对应的深度图像；根据双目相机的内参数和外参数，对深度图像进行处理，得到预设工程作业场景的三维点云数据。

上述实施例中处理器执行的三维场景重建方法，根据双目相机的焦距和基线距离，对视差图进行处理，得到双目图像对应的深度图像，根据双目相机的内参数和外参数，对深度图像进行处理，得到预设工程作业场景的三维点云数据，使得三维场景重建的结果更加精准。

在一种可能的实现方式中，处理器执行上述三维重建方法的步骤还包括：

获取预设工程机械上双目相机采集的预设工程作业场景的双目图像；采用预先训练的立体匹配网络，对双目图像进行处理，得到双目图像对应的视差图；根据双目相机的配置参数，对视差图进行处理，得到预设工程作业场景的三维点云数据；接收客户端发送的预设视角方向指令；根据三维点云数据和预设视角方向指令，进行场景渲染，得到预设工程作业场景在预设视角方向的三维场景图像；向客户端发送预设视角方向的三维场景图像。

上述实施例中处理器执行的三维场景重建方法，通过接收客户端发送的预设视角方向指令，根据三维点云数据和预设视角方向指令，进行场景渲染，得到预设工程作业场景在预设视角方向的三维场景图像，向客户端发送预设视角方向的三维场景图像，便于操控人员根据三维场景图像观察任意视角的工程作业场景，保证作业安全；更优地，可以利用该三维场景重建系统实现对工程机械进行远程操控。

可选的，本申请实施例还提供一种计算机可读存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述立体匹配网络的训练方法的步骤，或者三维场景重建方法的步骤。

具体的，计算机程序执行上述立体匹配网络的训练方法的步骤包括：

上述实施例中计算机程序执行的立体匹配网络的训练方法，一方面，本申请利用训练得到的立体匹配网络推测双目图像的视差估计结果，可以提高计算视差估计结果的实时性，以便更快速地基于视差估计结果完成三维场景重建；另一方面，本申请利用对样本双目图像构建稀疏点云，再由稀疏点云构建稠密深度图，通过高质量的稠密深度图生成样本视差图，使得样本视差图的视差估计结果的精度更高，以高精度的样本视差图作为标注数据和样本双目图像一起构成训练数据对立体匹配网络进行训练，使立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建；且采用双目相机采样大量的样本双目图像进行模型训练，也降低了模型训练成本。

在一种可能的实现方式中，计算机程序执行对多组样本双目图像进行处理，得到预设工程作业场景的稀疏点云的步骤，可以包括：

上述实施例中计算机程序执行的立体匹配网络的训练方法，通过采用运动恢复结构技术构建高精度的稀疏地图，以便生成高精度的稠密深度图，使训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

在一种可能的实现方式中，计算机程序执行上述根据双目相机的相机参数，对稀疏点云进行稠密建图，得到多组样本双目图像对应的多组稠密深度图的步骤，可以包括：

上述实施例中计算机程序执行的立体匹配网络的训练方法，根据双目相机的相机参数，采用多视角立体几何技术，对稀疏点云进行稠密建图，得到高精度的稠密深度图，以便根据稠密深度图生成精准的样本视差图，使采用样本视差图训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

在一种可能的实现方式中，计算机程序执行上述对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图的步骤，可以包括：

在一种可选实施例中，计算机程序在执行上述根据投影像素图的像素值和目标图像的像素值，计算样本视差图的步骤之前，执行步骤还可以包括：

上述实施例中计算机程序执行的立体匹配网络的训练方法，由于参考深度图中各个像素点的深度值十分准确，使得根据参考深度图生成的参考点云投影得到投影像素图和目标图像计算得到的样本视差图的结果更准确，使采用样本视差图训练得到的立体匹配网络对推测双目图像的视差估计结果的效果更好，从而实现基于视差估计结果计算的高质量点云完成三维场景重建。

在一种可能的实现方式中，计算机程序执行上述根据参考点云和参考相机的相机参数，计算参考点云的投影像素图的步骤，可以包括：

在一种可选实施例中，计算机程序在执行上述根据投影深度图和参考相机的相机参数，计算投影像素图的步骤之前，执行步骤还可以包括：

具体的，计算机程序执行上述三维场景重建方法的步骤包括：

上述实施例中计算机程序执行的三维场景重建方法，采用预设训练的立体匹配网络生成双目图像的视差图，根据该视差图可以得到高精度的三维点云数据，以便根据高精度的三维点云数据实现高质量的三维场景重建，且利用预先训练的立体匹配网络可以实时进行三维场景重建，提高三维场景重建的实时性；另外，由于只需要采样双目相机获取的双目图像进行高质量的三维场景重建，相对于采用激光点云进行三维场景重建，降低了三维场景重建的成本。

在一种可能的实现方式中，计算机程序执行上述根据双目相机的配置参数，对视差图进行处理，得到预设工程作业场景的三维点云数据的步骤，可以包括：

上述实施例中计算机程序执行的三维场景重建方法，根据双目相机的焦距和基线距离，对视差图进行处理，得到双目图像对应的深度图像，根据双目相机的内参数和外参数，对深度图像进行处理，得到预设工程作业场景的三维点云数据，使得三维场景重建的结果更加精准。

在一种可能的实现方式中，计算机程序执行上述三维重建方法的步骤还包括：

上述实施例中计算机程序执行的三维场景重建方法，通过接收客户端发送的预设视角方向指令，根据三维点云数据和预设视角方向指令，进行场景渲染，得到预设工程作业场景在预设视角方向的三维场景图像，向客户端发送预设视角方向的三维场景图像，便于操控人员根据三维场景图像观察任意视角的工程作业场景，保证作业安全；更优地，可以利用该三维场景重建系统实现对工程机械进行远程操控。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种立体匹配网络的训练方法，其特征在于，所述方法包括：

对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图；

2.根据权利要求1所述的方法，其特征在于，所述对所述多组样本双目图像进行处理，得到所述预设工程作业场景的稀疏点云，包括：

采用运动恢复结构技术，对所述多组样本双目图像进行处理，得到所述预设工程作业场景的稀疏地图，所述稀疏地图包括：所述稀疏点云和所述相机参数。

3.根据权利要求1所述的方法，其特征在于，所述根据所述双目相机的相机参数，对所述稀疏点云进行稠密建图，得到所述多组样本双目图像对应的多组稠密深度图，包括：

根据所述双目相机的相机参数，采用多视角立体几何技术，对所述稀疏点云进行稠密建图，得到所述多组稠密深度图。

4.根据权利要求1所述的方法，其特征在于，所述对每组稠密深度图进行处理，得到每组样本双目图像对应的一个样本视差图，包括：

根据所述每组样本双目图像中的参考图像、所述每组稠密深度图中的参考深度图和参考相机的相机参数，计算所述参考深度图对应的参考点云，其中，所述每组样本双目图像包括所述参考图像和目标图像，所述参考深度图为参考图像对应的深度图，所述参考相机为所述双目相机中生成所述参考图像对应的相机；

根据所述参考点云和所述参考相机的相机参数，计算所述参考点云的投影像素图；

根据所述投影像素图的像素值和所述目标图像的像素值，计算所述样本视差图。

5.如权利要求4所述的方法，其特征在于，所述根据所述参考点云和所述双目相机的相机参数，计算所述参考点云的投影像素图，包括：

根据所述参考点云和所述参考相机的相机参数，计算所述参考点云的投影深度图；

根据所述投影深度图和所述参考相机的相机参数，计算所述投影像素图。

6.如权利要求5所述的方法，其特征在于，所述根据所述投影深度图和所述参考相机的相机参数，计算所述投影像素图之前，所述方法还包括：

根据所述投影深度图各个像素点的深度值和所述目标深度图各个像素点的深度值，滤除所述投影深度图中的噪声像素点。

7.如权利要求4所述的方法，其特征在于，所述根据所述投影像素图的像素值和所述每组样本双目图像中的目标图像的像素值，计算所述样本视差图之前，所述方法还包括：

根据所述投影像素图各个像素点的像素值和所述目标图像各个像素点的像素值，滤除所述投影像素图中的噪声像素点。

8.一种三维场景重建方法，其特征在于，所述方法包括：

采用预先训练的立体匹配网络，对所述双目图像进行处理，得到所述双目图像对应的视差图，所述立体匹配网络为采用如权利要求1-7任一所述的立体匹配网络的训练方法得到的；

9.根据权利要求8所述的方法，其特征在于，所述根据所述双目相机的配置参数，对所述视差图进行处理，得到所述预设工程作业场景的三维点云数据，包括：

根据所述双目相机的焦距和基线距离，对所述视差图进行处理，得到所述双目图像对应的深度图像；

根据所述双目相机的内参数，对所述深度图像进行处理，得到所述预设工程作业场景的三维点云数据。

10.根据权利要求8所述的方法，其特征在于，所述根据所述三维点云数据和预设视角方向，进行场景渲染，得到所述预设工程作业场景在所述预设视角方向的三维场景图像之前，所述方法还包括：

接收客户端发送的预设视角方向指令；

所述根据所述三维点云数据和预设视角方向，进行场景渲染，得到所述预设工程作业场景在所述预设视角方向的三维场景图像，包括：

根据所述三维点云数据和所述预设视角方向指令，进行场景渲染，得到所述预设工程作业场景在所述预设视角方向的三维场景图像；

所述根据所述三维点云数据和预设视角方向，进行场景渲染，得到所述预设工程作业场景在所述预设视角方向的三维场景图像之后，所述方法还包括：

向所述客户端发送所述预设视角方向的三维场景图像。

11.一种立体匹配网络的训练装置，其特征在于，所述装置包括：

12.一种三维场景重建装置，其特征在于，所述装置包括：

视差图生成模块，用于采用预先训练的立体匹配网络，对所述双目图像进行处理，得到所述双目图像对应的视差图，所述立体匹配网络为采用如权利要求1-4任一所述的立体匹配网络的训练方法得到的；

13.一种工程机械，其特征在于，所述工程机械上设置有双目相机，以及和所述双目相机通信连接的主机端，所述主机端用于执行如权利要求8至10任一所述的三维场景重建方法的步骤。

14.一种三维场景重建系统，其特征在于，包括：双目相机、主机端以及客户端，所述双目相机、所述主机端均设置在工程机械上，所述主机端分别与所述双目相机和所述客户端通信连接；

所述主机端用于执行如权利要求8至10任一所述的三维场景重建方法的步骤。

15.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行如权利要求1至7任一所述的立体匹配网络的训练方法的步骤，或者，如权利要求8至10任一所述的三维场景重建方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的立体匹配网络的训练方法的步骤，或者，如权利要求8至10任一所述的三维场景重建方法的步骤。