CN115619928A

CN115619928A - 用于多相机系统的三维场景重建装置的训练方法

Info

Publication number: CN115619928A
Application number: CN202211183983.8A
Authority: CN
Inventors: 李睿; 刘志励; 李雪; 范圣印
Original assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Current assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-01-17

Abstract

本公开提供了一种用于多相机系统的三维场景重建装置的训练方法，包括：使用SFM方法对多相机系统的多相机图像序列进行处理以获得各个相机视角下的稀疏深度图，基于稀疏深度图对深度估计网络进行预训练，获得预训练后的深度估计网络；联合深度估计网络和位姿估计网络进行自监督训练，以输出多相机的位姿和多相机的深度图；基于多相机系统的多相机图像序列、多相机的位姿及多相机的深度图对多目TSDF估计网络进行训练，以用于三维场景重建。本公开还提供了三维场景重建装置、三维场景重建系统及可读存储介质。

Description

用于多相机系统的三维场景重建装置的训练方法

技术领域

本公开涉及三维重建技术领域，本公开尤其涉及一种用于多相机系统的三维场景重建装置的训练方法、三维场景重建装置、三维场景重建系统及可读存储介质。

背景技术

三维重建技术是物理环境感知的关键技术之一。一般而言，基于图像的三维重建是从多幅图片中逆向推导出场景或物体的三维深度信息，并重建出具备立体感的物体或者场景的三维模型的方法。

为了感知更丰富的环境信息，多个相机往往刚性耦合、构成一个多相机系统，可以同时拍摄不同视角的多幅图像，如智能车环视多相机组。基于多相机系统的三维重建在遥感测绘、机器人导航、自动驾驶、增强现实、虚拟现实、数字孪生、智慧城市等领域具有广泛的应用前景。

目前，基于图像的三维重建方法主要分为三大技术方向，即基于多视图几何的传统三维重建、基于深度学习的三维重建和基于神经辐射场的视点合成。

虽然基于多视图几何的传统三维重建方法已经相对成熟，有许多开源算法和商用软件。但是传统重建方法处理的输入往往是单个相机拍摄的多幅图像或者是拍摄来源不同的散乱图像。并没有专门处理多相机系统图像序列的方法，忽视了多相机之间固有的空间约束；现有的基于深度学习的三维重建方法，它们大多通过将传统三维重建方法中的各个或者部分流程设计到深度神经网络中，用已有的三维重建模型来监督网络的训练。虽然以学习的手段可以生成优于传统方法的三维模型，但这类网络往往需要使用者提供三维模型的真值来监督网络的训练，而现实条件下真值的获取往往成本昂贵、甚至不能获取；近年来，基于神经辐射场的视点合成为三维重建提供了另一种思路，它并不会重构出三维模型实体，而是学习辐射场分布来生成任意视角下的图像。虽然视点合成具有非常惊艳的视觉还原效果，但是由于没有三维模型实体，在许多需要仿真交互和二次加工的应用中受限。

以下为现有技术中的一些技术方案。

技术方案1：公布号为CN108564617A、发明名称为《多目相机的三维重建方法、装置、VR相机和全景相机》，公开了一种多目相机的三维重建方法、装置、计算机可读存储介质、VR相机和全景相机。技术方案1的三维重建方法，采用的是传统重建流程，根据所有摄像头拍摄的视频对应的关键帧做三维重建，生成点云和摄像头的相机姿态；进一步地，根据相邻摄像头已知的物理距离确定点云的尺度；尽管其提供了基于多目相机的三维重建方法，但是其重建方法设计较简单，仅仅是在传统三维重建模块后面增加了尺度恢复模块，也就是在传统三维重建流程生成点云和摄像头的相机姿态之后，利用多目相机的空间约束补充点云的物理尺度。然而，相机位姿恢复和多视图点云生成这两个步骤是三维重建的关键步骤，在技术方案1中的三维重建模块中，仅仅采用的传统三维重建步骤，在其中并没有引入多目相机之间固有的时空约束。所以，该方法的重建效果取决于传统三维重建方法的效果，多目相机的关系仅仅是用于恢复尺度。面对复杂的大尺度场景，重建的精度可能不高，重建模型的表面可能会出现分层或缺失的现象。

技术方案2：公布号为CN110070615A、发明名称为《一种基于多相机协同的全景视觉SLAM方法》，公开了一种基于多相机协同的SLAM方法。技术方案2结合多相机所在的运动平台的运动模型，估计SLAM系统在全局坐标系的当前位姿，并将每台相机获得的当前帧图像的特征点与当前局部地图点进行匹配，获得特征点与地图点的匹配点对，进一步使用基于机器学习的闭环检测方法优化更新全局地图。尽管技术方案2利用了多相机的协同关系来估计位姿和优化具有尺度信息的地图，但是该方法是基于同一时刻多相机图像的特征匹配点来生成点云，再利用多帧图像之间的特征点匹配来精确位姿的，这就要求多相机之间有足够大的重叠视野，而且重叠视野内需要有足够多的特征匹配点，鲁棒性较差，如果遇到建筑物的墙面等稀疏或重复性特征就不能正常工作。此外，该方法生成的点云相对稀疏，生成的全局地图也是离散化的稀疏点云，并不能生成稠密的三维地图模型。

技术方案3：公布号为CN114092633A、发明名称为《一种基于多目结构的三维重建装置及方法》，公开了一种视觉-轮速计紧耦合框架以实现高精度和鲁棒性的状态估计和重建的方法。技术方案3通过三维重建装置来限定相机的部分运动一致性从而约束相机自由度，并采用因子图优化的方式通过所提出的紧耦合框架对相机运动进行更为准确的估计，使得重建结果更加准确。技术方案3虽然可以准确重建场景，但是需要使用多个深度相机安装在特定的三维重建装置上，成本较高。此外，三维重建装置用轮速计反馈信息闭环控制伺服电机使其匀速旋转，可应用范围受限。

技术方案4：公布号为CN113838191A、发明名称为《一种基于注意力机制和单目多视角的三维重建方法》，公开了一种基于深度学习的单目三维重建方法。技术方案3对单目图像序列进行基于特征点提取匹配的稀疏点云重建，然后将相机位姿信息、相机内参、待测场景结构信息以及图像输入至预设的注意力机制的单目多视角重建网络，得到若干待测场景的深度估计图，最后将若干深度估计图进行深度融合，得到稠密点云模型。然而，技术方案3对单目图像序列的稀疏点云重建缺乏尺度信息，并且基于注意力机制的深度图估计网络仅从单目图像预测深度图，预测的相邻深度图之间缺乏关联性，不同视图的深度不一致，使得重建结果容易分层或者分散。

技术方案5：期刊文献《NeuralRecon:Real-Time Coherent 3D Reconstructionfrom Monocular Video》提出一个基于深度学习的TSDF估计网络。技术方案5通过神经网络为图像序列分段直接生成截断符号场，然后使用TSDF融合模块引导网络融合前后片段，更新全局截断符号场，最终生成三维模型。这种能够在顺序重建曲面时捕获3D曲面的局部平滑度先验和全局形状先验，从而实现精确、一致和实时的曲面重建。然而，该估计网络为有监督网络，需要使用者提供三维模型的真值来监督网络的训练，而现实条件下真值的获取往往成本昂贵、甚至不能获取，实际应用场景有限。

技术方案1-3是现有的多相机协同建图方法，这三种方法都是基于传统三维重建流程中的特征点提取匹配和点云生成来恢复三维结构信息的，而且技术方案1和技术方案2的重建结果只是稀疏点云。其中，技术方案1仅仅是利用多目相机的协同关系补充了所生成点云的物理尺度，而在点云生成过程中并没有利用多相机固有的时空约束；尽管技术方案2利用了多相机的协同关系来估计位姿和优化具有尺度信息的地图，但是该技术要求多相机之间有足够大的重叠视野，而且重叠视野内需要有足够多的特征匹配点，鲁棒性较差、重建场景十分稀疏，如果遇到建筑物的墙面等稀疏或重复性特征就不能正常工作；技术方案3虽然可以准确重建场景，但是硬件成本昂贵，需要使用多个深度相机安装在特定的三维重建装置上，此外该技术限制了重建装置的运动状态，必须在给定电机驱动下匀速旋转，装置的应用场景受限。

技术方案4-5是现有的基于深度学习的三维重建方法，这两种方法都是基于单目视觉的。技术方案4的整体思路是基于深度学习的三维重建方法最常见的思路，即通过预测待测场景的深度估计图，最后将若干深度估计图进行深度融合，得到稠密点云模型。这类方法基本都是从单目图像中预测深度图，预测的相邻深度图之间缺乏关联性，不同视图的深度不一致，使得重建结果容易分层或者分散；技术方案5则提出了一种基于深度学习的有监督TSDF估计网络。该技术通过神经网络直接预测截断符号场，能够在顺序重建曲面时捕获3D曲面的局部平滑度先验和全局形状先验，从而实现精确、一致和实时的曲面重建。然而，该估计网络为有监督网络，需要使用者提供三维模型的真值来监督网络的训练，而现实条件下真值的获取往往成本昂贵、甚至不能获取，实际应用场景有限；此外，市面上还有一些以多源散乱图像为输入的基于深度学习的三维重建方法，但还未发现有用于多相机系统的三维场景重建装置的训练方法。

综上可见，现有的三维重建技术主要是针对单目视觉、双目视觉或者是来源不同的散乱图像进行设计的，并不能充分利用多相机系统图像序列的时空信息。此外，这些方法还需要额外的传感器信息(如激光雷达、GPS定位)才能重建出具有真实世界物理尺度的三维场景。目前还没有一个针对多相机系统的，仅输入多相机图像序列就可以重建有真实尺度三维稠密模型的方法。

发明内容

本公开提供了一种用于多相机系统的三维场景重建装置的训练方法、三维场景重建装置、三维场景重建系统及可读存储介质。

根据本公开的一个方面，提供一种用于多相机系统的三维场景重建装置的训练方法，包括：

S100、使用SFM方法对多相机系统的多相机图像序列进行处理以获得各个相机视角下的稀疏深度图，基于稀疏深度图对深度估计网络进行预训练，获得预训练后的深度估计网络；

S200、联合深度估计网络和位姿估计网络进行自监督训练，以输出多相机的位姿和多相机的深度图；

S300、基于多相机系统的所述多相机图像序列、所述多相机的位姿及所述多相机的深度图对多目TSDF估计网络进行训练，以用于三维场景重建。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，使用SFM方法对多相机系统的多相机图像序列进行处理以获得各个相机视角下的稀疏深度图，包括：

S110、使用SFM方法对多相机系统获取的多相机图像序列进行特征点提取及特征点匹配，利用获得的多组匹配特征点求解本征矩阵以获得各个相机的相对位姿；

S120、采集多相机图像序列中重叠视野处的匹配特征点，基于重叠视野处的所述匹配特征点及各个相机的所述相对位姿生成稀疏点云并转化为各个相机视角下的稀疏深度图。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，基于稀疏深度图对深度估计网络进行预训练，包括：

使用所述稀疏深度图作为监督，对所述深度估计网络进行预训练。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，联合深度估计网络和位姿估计网络进行自监督训练，以输出多相机的位姿和多相机的深度图，包括：

S210、基于多相机图像之间的时空上下文关系构建各个相机采集的图像在target帧和source帧之间的时空关系，以获取帧间的重投影误差；

S220、基于帧内多相机位姿一致性约束，获取帧内多相机位姿一致性误差；

S230、通过最小化所述重投影误差及最小化所述帧内多相机位姿一致性误差对深度估计网络和位姿估计网络进行训练。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，S210、基于多相机图像之间的时空上下文关系构建各个相机采集的图像在target帧和source帧之间的时空关系，以获取帧间的重投影误差，包括：

S211、基于各个相机之间的空间约束和每个相机采集的图像序列的帧之间的时间约束，获得第i个相机的采集图像和第j个相机的采集图像在target帧和source帧之间的时空关系；

S212、基于所述时空关系，将相邻帧中的图像I_s像素投影到目标图像I_t上以获得合成图像

S213、基于所述目标图像I_t和所述合成图像

获得所述重投影误差。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，S220、基于帧内多相机位姿一致性约束，以获取帧内多相机位姿一致性误差，包括：

S221、基于帧内多相机位姿一致性约束，将所述位姿估计网络预测的除目标相机外各相机的位姿转换到目标相机的坐标系下；

S222、构建加权的平移函数t_loss和旋转一致性损失函数R_loss；

S223、基于加权的平移函数t_loss和旋转一致性损失函数R_loss构建帧内多相机位姿一致性函数以对空间约束进行权衡，以使得同一坐标系下各相机预测的旋转和平移趋于一致。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，S230、通过最小化所述重投影误差及最小化所述帧内多相机位姿一致性误差对深度估计网络和位姿估计网络进行训练，包括：

S231、从多相机图像序列中随机选择连续的三帧时刻的多相机图像；

S232、将中间帧时刻的多相机图像输入至所述深度估计网络，输出中间帧时刻各相机的深度图；将来自同一相机的三帧图像级联，分别输入至所述位姿估计网络，输出中间帧的前一帧与中间帧的后一帧的相对位姿；

S233、基于所述中间帧时刻各相机的深度图计算重投影误差损失函数以最小化所述重投影误差，基于所述中间帧的前一帧与中间帧的后一帧的相对位姿计算所述帧内多相机位姿一致性函数以最小化所述帧内多相机位姿一致性误差；

S234、反向传播以更新深度估计网络的网络参数及位姿估计网络的网络参数；

S235、判断是否达到迭代次数，如果未达到迭代次数，重复步骤S231至步骤234直至达到迭代次数。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，S300、基于多相机系统的所述多相机图像序列、所述多相机的位姿及所述多相机的深度图对多目TSDF估计网络进行训练，包括：

S310、基于各个相机的位姿及各个相机的深度图构建各个相机的已知位姿RGB-D图像序列以获得多目TSDF估计网络的初始截断符号场；

S320、以统一坐标系下各个相机的位姿的均值作为整体位姿并基于整体位姿的平移量和旋转量筛选整体关键帧；

S330、以预设数量的整体关键帧作为整体关键帧组，与各个整体关键帧对应的整体位姿共同输入到所述多目TSDF估计网络以预测全局截断符号场；

S340、使用所述初始截断符号场对所述多目TSDF估计网络进行监督训练，并最终输出全局截断符号场。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，S330、以预设数量的整体关键帧作为整体关键帧组，与各个整体关键帧对应的整体位姿共同输入到所述多目TSDF估计网络以预测全局截断符号场，包括：

S331、对整体关键帧组的各相机图像进行三个层级特征提取，以获得各个相机的三个层级的特征图；

S332、基于各个相机的位姿，将各个层级上的各个相机的特征图进行反向投影，以在整体关键帧组的时序上和帧内相机间聚合为对应各个层级的三维特征体；

S333、基于当前整体关键帧组生成的多相机的所述三维特征体，与当前整体关键帧组前一个整体关键帧组生成的全局几何特征体，在三个层级上进行递归局部融合，获得当前整体关键帧组的全局几何特征体，以进一步预测全局截断符号场。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，S333、基于当前整体关键帧组生成的多相机的所述三维特征体，与当前整体关键帧组前一个整体关键帧组生成的全局几何特征体，在三个层级上进行递归局部融合，获得当前整体关键帧组的全局几何特征体，以进一步预测全局截断符号场，包括：

S3331、对于当前整体关键帧组在各个层级上的三维特征体进行3D特征提取，以提取各个层级上的三维特征体的局部几何特征体；

S3332、基于当前整体关键帧组的上一个整体关键帧组的全局几何特征体提取当前整体关键帧组的各个局部几何特征体对应的局部几何特征体，将当前整体关键帧组的各个局部几何特征体与上一个整体关键帧组的各个局部几何特征体按照层级进行融合以生成当前整体关键帧组的新的各个局部几何特征体，从而获得当前整体关键帧组的全局几何特征体；

S3333、基于当前整体关键帧组在各个层级的新的局部特征体预测各个层级的TSDF体积即截断符号场；

S3334、将三个层级中第二层级获得的截断符号场和第三层级获得的截断符号场上分别级联最邻近插值上采样后的第一层级的截断符号场和第二层级的截断符号场，重复步骤S3331至步骤S3333；

S3335、将第三层级输出的截断符号场替换全局截断符号场的相应体素以生成最终的全局截断符号场。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，所述的局部特征体通过MLP层来预测该层级的TSDF体积，TSDF体积中的每个体素包含占用值o和截断符号值x。

根据本公开的至少一个实施方式的用于多相机系统的三维场景重建装置的训练方法，S340、使用所述初始截断符号场对所述多目TSDF估计网络进行监督训练，并最终输出全局截断符号场，包括：

S341、在由粗到细的所述三个层级上预测的占用值o和截断符号值x上，分别基于所述初始截断符号场对应区域的占用值和截断符号值进行监督；

S342、对更新局部截断符号场后得到的全局截断符号场内的截断符号值，基于初始符号截断场对应区域的截断符号值，将两者的截断符号值进行对数变换，以计算两截断符号值的L1损失，以更新多目TSDF估计网络的参数。

根据本公开的另一个方面，提供一种用于多相机系统的三维场景重建装置，包括：

深度估计网络模块，所述深度估计网络模块基于稀疏深度图进行训练，所述稀疏深度图为使用SFM方法对多相机系统的多相机图像序列进行处理获得的各个相机视角下的稀疏深度图；

位姿估计网络模块，所述位姿估计网络模块为联合所述深度估计网络模块进行自监督训练之后的位姿估计网络模块，所述自监督训练使得所述深度估计网络模块及所述位姿估计网络模块能够输出多相机的深度图和多相机的位姿；

多目TSDF估计网络模块，所述多目TSDF估计网络模块为基于多相机系统的所述多相机图像序列、所述多相机的位姿及所述多相机的深度图训练之后的多目TSDF估计网络模块，以用于三维场景重建。

根据本公开的又一个方面，提供一种三维场景重建系统，包括：

多相机系统，所述多相机系统包括多个相机，所述相机被固定设置在汽车上以采集汽车周围环境的图像序列；

同步摄像控制器，所述同步摄像控制器用于控制多个所述相机进行同步地图像序列采集；

存储器，所述车载存储器存储执行指令；

处理器，所述处理器通过执行所述存储器存储的所述执行指令对所述多相机系统采集的图像序列进行处理以实现本公开任一个实施方式的用于多相机系统的三维场景重建装置的训练方法。

存储器，所述存储器以计算机程序的方式存储本公开任一个实施方式的三维场景重建装置；

处理器，所述计算机程序被所述处理器执行时基于所述多相机系统采集的图像序列进行三维场景重建。

根据本公开的至少一个实施方式的三维场景重建系统，所述存储器为车载存储器，所述处理器为车载处理器。

根据本公开的又一个方面，提供一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现本公开任一个实施方式的用于多相机系统的三维场景重建装置的训练方法。

根据本公开的再一个方面，提供一种可读存储介质，所述可读存储介质以计算机程序的方式存储本公开任一个实施方式的三维场景重建装置。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本公开一个实施方式的用于多相机系统的三维场景重建装置的训练方法的流程示意图。

图2示出了本公开的一个实施方式的由四个单目摄像头构成的车载环视多相机系统。

图3示出了本公开的一个实施方式的车载环视多相机系统的时域关系和空间约束。

图4示出了本公开的一个实施方式的稀疏深度图的获取方法的流程示意图。

图5示出了本公开的一个实施方式的联合深度估计网络和位姿估计网络进行自监督训练的流程示意图。

图6示出了本公开一个实施方式的重投影误差的获取方法的流程示意图。

图7是本公开的一个实施方式的帧内多相机位姿一致性误差的获取方法的流程示意图。

图8示出了本公开一个实施方式的通过最小化重投影误差及最小化帧内多相机位姿一致性误差对深度估计网络和位姿估计网络进行训练的流程示意图。

图9示出了本公开一个实施方式的对多目TSDF估计网络进行训练的方法的流程示意图。

图10示出了本公开一个实施方式的多目TSDF估计网络自监督训练方法的完整流程图。

图11是本公开的一个实施方式的采用处理系统的硬件实现方式的三维场景重建装置的结构示意框图。

附图标记说明

1000 三维场景重建装置

1002 深度估计网络模块

1004 位姿估计网络模块

1006 多目TSDF估计网络模块

1100 总线

1200 处理器

1300 存储器

1400 其他电路。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

下文结合图1至图11对本公开的用于多相机系统的三维场景重建装置的训练方法、三维场景重建装置进行详细说明。

参考图1，本公开的用于多相机系统的三维场景重建装置的训练方法，包括：

S100、使用SFM方法(Structure from motion)对多相机系统的多相机图像序列进行处理以获得各个相机视角下的稀疏深度图(例如四个相机，则获得了四个稀疏深度图)，基于稀疏深度图对深度估计网络进行预训练，获得预训练后的深度估计网络(本公开中选用Monodepth2作为深度估计网络)；

S300、基于多相机系统的多相机图像序列、多相机的位姿及多相机的深度图对多目TSDF估计网络进行训练，以用于三维场景重建。

其中，本公开描述的SFM(Structure from motion)是一种三维重建的方法，属于现有技术，用于从motion中实现3D重建，也就是从时间系列的2D图像中推算3D信息。

在本公开的一些实施方式中，多相机系统可以由4个固定在汽车上的单目摄像头及同步摄像控制器构成，图2示出了本公开的一个实施方式的由四个单目摄像头构成的车载环视多相机系统。图3示出了本公开的一个实施方式的车载环视多相机系统的时域关系和空间约束。

驾驶员驾驶汽车，同步摄像控制器控制车载环视多相机系统收集行驶过程中的图像信息(图像序列)，并传送给车载PC机(具有GPU)。PC机基于本公开的三维重建装置/方法重建汽车行驶环境的三维场景模型。

参考图4，本公开中，使用SFM方法(Structure from motion)对多相机系统的多相机图像序列进行处理以获得各个相机视角下的稀疏深度图，包括：

S110、使用SFM方法对多相机系统获取的多相机图像序列进行特征点提取和特征点匹配，利用多组匹配特征点求解本征矩阵来获得各个相机的相对位姿。

S120、采集多相机图像序列中重叠视野处的匹配特征点，基于匹配特征点及各个相机的位姿生成稀疏点云并转化为各个相机视角下的稀疏深度图。

在本公开的一些实施方式中，多相机系统可以包括4个单目摄像头即4个相机，在4个相机中有重叠视野的图像使用KAZE描述子进行特征点提取和特征点匹配，获得匹配特征点，将匹配特征点和使用SFM方法对多相机系统获取的多相机图像进行处理获得的各个相机的位姿输入至Colmap的稀疏点云生成模块，将获得的稀疏点云转化为各个相机视角下的稀疏深度图。

对于上述各个实施方式的用于多相机系统的三维场景重建装置的训练方法，基于稀疏深度图对深度估计网络进行预训练，包括：

使用稀疏深度图作为监督，按照有监督深度估计网络的训练方式，对深度估计网络进行预训练。即，选取得到的稀疏深度图为监督标签，对应的多相机图像作为训练数据，将训练数据分批送入网络中，逐层进行前向计算，直至输出层，预测深度值。将当前网络输出的深度值与稀疏深度图对应位置的非零值比较，并利用交叉熵损失(Cross Entropy)计算出损失。根据链式法则，逐层计算出损失函数关于各层的梯度，进行反向传播，更新网络参数的权重。重复上述步骤，直到损失达到设定的阈值。

参考图5，本公开中，联合深度估计网络和位姿估计网络进行自监督训练，以输出多相机的位姿和多相机的深度图，包括：

S230、通过最小化重投影误差及最小化帧内多相机位姿一致性误差对深度估计网络和位姿估计网络进行训练。

对于上述实施方式的用于多相机系统的三维场景重建装置的训练方法，S210、基于多相机图像之间的时空上下文关系构建各个相机采集的图像在target帧和source帧之间的时空关系，以获取帧间的重投影误差，包括：

其中，target帧即当前帧，source帧可以是多帧，如target帧的前一帧和/或后一帧。

在本公开的一些实施方式中，利用多相机图像之间的时空上下文关系，即基于多个相机(本公开以4个相机作为示例)之间固有的空间约束(来自于标定的多相机内外参)和帧之间的时间约束(可以来自PoseNet的输出)，将第i个相机采集的图像和第j个相机采集的图像在target帧和source帧之间的时空关系表示为：

式中，

表示t时刻相机i图像中的某像素，

表示t时刻相机i图像对应的深度(由深度估计网络预测)，

表示齐次坐标中的像素p在给定预测深度

下反投影为3D点P,

和

分别为相机i由t时刻到s时刻(t+1或t-1时刻)的旋转矩阵和平移矩阵(由位姿估计网络预测)，R_i→j和t_i→j分别为相机i相对相机j的旋转矩阵和平移矩阵(由标定的多相机外参得到)，π_j(P)表示3D点P到相机j平面的投影，

表示t时刻相机i图像合成图像

中的像素，通过等式右侧s时刻相机j平面的对应像素获得。

本公开中，位姿估计网络可以选用《Unsupervised joint learning of depthand flow using cross-task consistency》中的PoseNet，来估计各个相机的独立位姿。在本公开技术方案的启示下，本领域技术人员也可以选用其他的位姿估计网络，均落入本公开的保护范围。

S212、基于时空关系，将相邻帧(即多相机系统采集的图像序列的相邻帧，相邻帧指的是时序上的相邻)中的图像I_s像素投影到目标图像I_t上以获得合成图像

在本公开的一些实施方式中，利用步骤S210的多相机图像之间的时空上下文关系，可以通过网格采样和双线性插值的STN方法将相邻帧(设置为前一帧和后一帧)的图像I_s像素投影到目标图像I_t上来获得合成图像

其中，该视图合成操作是完全可微的，支持端到端训练的梯度反向传播。

S213、基于目标图像I_t和合成图像

获得重投影误差。

在本公开的一些实施方式中，设置网络的重投影误差损失为structuresimilarity(SSIM)metric和L1 loss的加权组合(SSIM权重α设置为0.85)：

参考图7，对于本公开的用于多相机系统的三维场景重建装置的训练方法，优选地，S220、基于帧内多相机位姿一致性约束，以获取帧内多相机位姿一致性误差，包括：

S221、基于帧内多相机位姿一致性约束，将位姿估计网络预测的除目标相机(例如相机j作为目标相机)外各相机的位姿转换到目标相机的坐标系下；

本公开中，优选地，利用帧内多相机位姿一致性约束，即单位时刻的多相机的相对位姿是固定的，通过相机i和相机j的外参X_i和X_j将位姿估计网络预测的除相机j外各相机的位姿转换到相机j坐标系下：

为位姿估计网络预测的相机i从t时刻到t+1时刻的变换矩阵。

为

在相机j坐标系下的变换矩阵。

S222、构建加权的平移函数t_loss和旋转一致性损失函数R_loss；

在本公开的一些实施方式中，将位姿估计网络预测的各相机位姿都统一到相机j坐标系后，为了使同一坐标系下各相机预测的旋转和平移趋于一致，定义加权的平移一致性损失函数t_loss和旋转一致性损失函数R_loss来权衡空间约束：

其中，α_t为平移损失函数t_loss的权重因子，α_r为旋转一致性损失函数R_loss的权重因子。

在本公开的一些实施方式中，设置相机j＝1，位姿估计网络预测的平移为

相机i(i＝2,…,N)通过上文描述的转换方法得到的平移为

计算平移一致性损失函数t_loss：

在本公开的一些实施方式中，将同一坐标系下的各相机旋转矩阵转换为欧拉角的形式(φ_i,θ_i,ψ_i)，并计算旋转一致性损失R_loss：

参考图8，本公开中，优选地，S230、通过最小化重投影误差及最小化帧内多相机位姿一致性误差对深度估计网络和位姿估计网络进行训练，包括：

S232、将中间帧时刻的多相机图像输入至深度估计网络，输出中间帧时刻各相机的深度图；将来自同一相机的三帧图像级联，分别输入至位姿估计网络，输出中间帧的前一帧与中间帧的后一帧的相对位姿；

S233、基于中间帧时刻各相机的深度图计算重投影误差损失函数以最小化重投影误差，基于中间帧的前一帧与中间帧的后一帧的相对位姿计算帧内多相机位姿一致性函数以最小化帧内多相机位姿一致性误差；

S234、反向传播以更新深度估计网络的网络参数及位姿估计网络的网络参数；以及

参考图9，本公开中，优选地，S300、基于多相机系统的多相机图像序列、多相机的位姿及多相机的深度图对多目TSDF估计网络进行训练，包括：

S310、基于各个相机的位姿及各个相机的深度图构建各个相机的已知位姿RGB-D图像序列以获得多目TSDF估计网络的初始截断符号场(即截断符号距离场，truncatedsigned distance function)；

在本公开的一些实施方式中，基于步骤S200得到的各相机位姿和对应深度图，构成4个相机的已知位姿RGB-D图像序列，通过TSDF方法生成初始截断符号场，作为网络训练的监督信号。

TSDF(truncated signed distance function)即基于截断地带符号距离函数。本公开的多目TSDF估计网络可以采用现有的TSDF估计网络的架构，经由多相机系统的多相机图像序列、多相机的位姿及多相机的深度图进行训练，以获得多目(即多相机)TSDF估计网络。

在本公开的一些实施方式中，将上文中获得的统一坐标系下各相机转换位姿的均值视为整体位姿，并设置整体关键帧，以保证重建的多视图有足够的运动视差和共视性。示例性地，当新传入时刻4个相机帧的整体位姿相对平移大于0.1m(可调)和相对旋转大于15°(可调)时，保留该时刻对应的4个相机图像为一个整体关键帧。

S330、以预设数量的整体关键帧作为整体关键帧组，与各个整体关键帧对应的整体位姿共同输入到多目TSDF估计网络以预测全局截断符号场；

在本公开的一些实施方式中，可以设定每3个整体关键帧为一个整体关键帧组，与对应整体位姿共同输入到多目TSDF估计网络中。

S340、使用初始截断符号场对多目TSDF估计网络进行监督训练，并最终输出全局截断符号场。

即步骤S340使用步骤S310获得的初始截断符号场来监督训练步骤S330构建的多目TSDF估计网络，最终输出全局截断符号场，从而经过射线投影法重建场景三维模型。

本公开中，优选地，S330、以预设数量的整体关键帧作为整体关键帧组，与各个整体关键帧对应的整体位姿共同输入到多目TSDF估计网络以预测全局截断符号场，包括：

在本公开的一些实施方式中，使用Feature Pyramid Network作为特征提取模块，以一个整体关键帧组的各相机图像作为特征提取模块的输入，将在提取模块的由粗到精的三个特征提取层上得到对应层级上的4个相机的特征图，即在每个层级上得到各个相机的特征图。

S332、基于各个相机的位姿，将各个层级上的各个相机的特征图(2D特征图)进行反向投影，以在整体关键帧组的时序上和帧内相机间聚合为对应各个层级的三维特征体；

在本公开的一些实施方式中，可以利用上文获得的多相机位姿，分别将三个层级上的4个相机的2D特征图反向投影，在整体关键帧组的时序上和帧内相机间聚合为对应各个层级的三维特征体(即每个层级对应一个三维特征体)。

S333、基于当前整体关键帧组生成的多相机的三维特征体，与当前整体关键帧组前一个整体关键帧组生成的全局几何特征体，在三个层级上进行递归局部融合，获得当前整体关键帧组的全局几何特征体，以进一步预测全局截断符号场。

在本公开的一些实施方式中，S332、基于各个相机的位姿，将各个层级上的各个相机的特征图(2D特征图)进行反向投影，以在整体关键帧组的时序上和帧内相机间聚合为对应三个层级的三维特征体，还包括：

步骤S3321、设多相机图像序列中相机i的图像为

提取的2D特征图为

其中，c是特征尺寸。使用多相机系统已知的各相机内参和上文获得的相机位姿，将上述步骤中整体关键帧组的各相机图像的2D特征图反向投影到三维特征体素V_i上：

V_i(:,x,y,z)＝F_i(:,u,v)

其中，K_i和X_i分别是图像i的内参和外参，Π为透视映射，符号:是切片算子，(x,y,z)是世界空间中的体素坐标，(u,v)是图像空间中的像素坐标，则沿相机光线的所有体素都填充有与该像素对应的相同特征。

步骤S3322、使用递归加权平均法，将步骤3321得到的整体关键帧组的三维特征体素，在整体关键帧组的时序上和帧内相机间累积聚合为三维特征体。将同一相机t时刻获得的特征体V_t和t-1时刻的平均特征体

(初始时刻

)，根据体素权重W聚合为当前时刻t的平均特征体

将相机i在时刻t获得的特征体V_i聚合到同一时刻相机j的特征体V_j上得到

其中，权重采用二元掩码W(x,y,z)∈{0，1}，存储体素(x,y,z)在相机视锥体内还是视锥体外。

本公开中，优选地，S333、基于当前整体关键帧组生成的多相机的三维特征体，与当前整体关键帧组前一个整体关键帧组生成的全局几何特征体，在三个层级上进行递归局部融合，获得当前整体关键帧组的全局几何特征体，以进一步预测全局截断符号场，包括：

在本公开的一些实施方式中，将步骤S332得到的每个层级上的三维特征体

首先通过GRU(gated recurrent unit)模块的3D稀疏卷积层(SparseConv)，以提取3D几何特征体

即局部几何特征体。

更具体地，从上一个全局几何特征体

(初始时刻的

为空)提取当前整体关键帧组各个局部几何特征体对应部分的局部几何特征体

使用GRU模块将

与

融合，生成当前整体关键帧组在各个层级的新的局部特征体

并更新到

中的局部几何特征体

(即替换

)以获得

在本公开的一些实施方式中，上述更新的具体步骤为：

其中，z_t为更新门，r_t为遗忘门，σ为sigmoid函数，W_*作为稀疏卷积的权重。

在本公开的一些实施方式中，将局部特征体

通过MLP层来预测该层级的TSDF体积

中的每个体素包含占用值o和截断符号值x。其中，占用值o表示体素在TSDF截断距离λ内的置信度。o低于稀疏化阈值θ的体素被定义为空隙空间并将被稀疏化。

S3334、将三个层级中第二层级获得的截断符号场级联最邻近插值上采样后的第一层级的截断符号场，将第三层级获得的截断符号场级联最邻近插值上采样后的第二层级的截断符号场，重复步骤S3331至步骤S3333；

S3335、将第三层级(即最后一级)输出的截断符号场替换全局截断符号场的相应体素以生成最终的全局截断符号场。

本公开中，优选地，S340、使用初始截断符号场对多目TSDF估计网络进行监督训练，并最终输出全局截断符号场，包括：

S341、在由粗到细的三个层级上预测的占用值o和截断符号值x上，分别基于初始截断符号场对应区域的占用值和截断符号值进行监督；

在本公开的一些实施方式中，对预测占用值和初始截断符号场的占用值使用Binary Cross Entropy Loss(BCE loss)，对预测截断符号值和对应的初始截断符号值，取对数后计算L1 loss即L1损失。

S342、对更新局部截断符号场后得到的全局截断符号场内的截断符号值，基于初始符号截断场对应区域的截断符号值，将两者的截断符号值进行对数变换，以计算两截断符号值的L1损失(L1 Loss)，以更新多目TSDF估计网络的参数。

本公开还提供一种用于多相机系统的三维场景重建装置1000，包括：

深度估计网络模块1002，深度估计网络模块1002基于稀疏深度图进行训练，稀疏深度图为使用SFM方法(Structure from motion)对多相机系统的多相机图像序列进行处理获得的各个相机视角下的稀疏深度图(四个相机，则获得了四个稀疏深度图)；

位姿估计网络模块1004，位姿估计网络模块1004为联合深度估计网络模块1002进行自监督训练之后的位姿估计网络模块1004，自监督训练使得深度估计网络模块1002及位姿估计网络模块1004能够输出多相机的深度图和多相机的位姿；

多目TSDF估计网络模块1006，多目TSDF估计网络模块1006为基于多相机系统的多相机图像序列、多相机的位姿及多相机的深度图训练之后的多目TSDF估计网络模块1006，以用于三维场景重建。

本公开的三维场景重建装置1000可以通过计算机软件架构的方式实现。

图11是本公开的一个实施方式的采用处理系统的硬件实现方式的三维场景重建装置1000的结构示意框图。

该三维场景重建装置1000可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

根据本公开的一个实施方式的三维场景重建系统，包括：

多相机系统，多相机系统包括多个相机，相机被固定设置在汽车上以采集汽车周围环境的图像序列；根据本公开的优选实施方式，多个相机组成车载环视多相机系统；

同步摄像控制器(本公开可以采用现有技术中的同步摄像控制器)，同步摄像控制器用于控制多个相机进行同步地图像序列采集；

存储器，车载存储器存储执行指令(计算机执行指令)；

处理器，处理器通过执行存储器存储的执行指令对多相机系统采集的图像序列进行处理以实现本公开任一个实施方式的用于多相机系统的三维场景重建装置的训练方法。

其中，处理器优选为GPU。

根据本公开的另一个实施方式的三维场景重建系统，包括：

多相机系统，多相机系统包括多个相机，相机被固定设置在汽车上以采集汽车周围环境的图像序列；

同步摄像控制器，同步摄像控制器用于控制多个相机进行同步地图像序列采集；

存储器，存储器以计算机程序的方式存储本公开的三维场景重建装置1000；

处理器，计算机程序被处理器执行时基于多相机系统采集的图像序列进行三维场景重建。

其中，存储器为车载存储器，处理器为车载处理器。

根据本公开的一个实施方式的可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现本公开任一个实施方式的用于多相机系统的三维场景重建装置的训练方法。

根据本公开的另一个实施方式的可读存储介质，所述可读存储介质以计算机程序的方式存储本公开任一个实施方式的三维场景重建装置。

由上文描述可知，本公开提供的是一种基于深度学习的多相机系统三维重建的方法，能够在不需要事先采集额外的监督信号(如相机的位姿、图像深度信息、场景三维模型等)的前提下，仅基于多相机系统采集的图像序列，就可以基于深度学习的方法重建具有真实尺度的三维场景。本公开使基于深度学习的有监督三维重建方法能够自监督学习多相机系统的时域关系、空间约束和尺度信息，无需提供额外的传感器信息，仅输入多相机系统采集的图像序列，就可以自动、准确地重建具有尺度信息的三维模型。

本公开的技术方案利用深度估计网络预测的深度图和位姿估计网络估计的位姿变换，最小化帧间的重投影误差和帧内多相机位姿一致性误差来联合训练网络，最终得到多相机图像序列的对应位姿和深度图，可以充分利用多相机之间的时空上下文关系。特别地，在各相机位姿估计部分，利用多相机固有的空间关系建立各相机帧内图像对应位姿在统一坐标系下的位姿一致性关系，使得估计的位姿具有真实的物理尺度、并且更精确；在深度估计部分，基于SFM方法得到稀疏深度图预训练网络，利用多相机位姿估计网络得到的多个相机的位姿建立多视图一致性约束来监督深度估计网络，输出各相机图像的深度图，为后续的多相机系统下TSDF估计提供辅助信息。

本公开的自监督TSDF估计网络，采用基于全局TSDF生成局部TSDF，再将生成的局部模型融合更新到全局模型的方式，最终生成完整的全局模型。特别地，生成局部TSDF的单次输入为多相机系统整体关键帧组(包括帧内多相机图像及其帧间图像)，本公开利用整体关键帧组的时序上和帧内相机的映射关系将特征聚合为对应各层级的三维特征体，与之前整体关键帧组生成的全局隐藏特征体，在从粗到精的三个层级上进行递归局部融合，通过MLP模块来预测符号截断场。

本公开的自监督TSDF估计网络，基于多相机位姿估计网络得到的多个相机的位姿和多相机深度估计得到的对应深度图，通过TSDF方法生成初始截断符号场，作为自监督信号。无需提供额外的传感器信息，就可以生成具有物理尺度的稠密三维模型。

本公开的多目TSDF估计网络输入的多相机系统整体关键帧组的生成方法，基于多相机系统位姿估计方法得到的多个相机的位姿，通过设置整体关键帧组的整体关键帧数N、新传入帧相对平移阈值T和相对旋转阈值R，筛选当新传入帧的相对平移和相对旋转大于给定阈值时的多相机关键帧，组成一个整体关键帧，每N个整体关键帧作为一个整体关键帧组，作为多目TSDF估计网络的单位输入。

本公开的三维重建方法，无需像现有技术中的技术方案3一样提供额外的传感器信息，仅输入多相机系统采集的图像序列，就可以自动、准确地重建具有尺度信息的稠密三维模型。针对现有技术中的技术方案1，多相机位姿估计过程中没有利用多相机固有的时空约束问题，本公开提出的联合深度估计网络和位姿估计网络进行自监督训练的方法，利用深度估计网络预测的深度图和位姿估计网络估计的位姿变换，最小化帧间的重投影误差和帧内多相机位姿一致性误差来联合训练网络，最终得到多相机图像序列的对应位姿和深度图，可以充分利用多相机之间的时空上下文关系。针对现有技术中的技术方案2难以稠密重建、技术方案4预测的深度图之间缺乏关联性、不同视图的深度不一致的问题，本公开提出先使用SFM方法获得的稀疏深度图预训练深度估计网络，再联合深度估计网络和位姿估计网络进行自监督训练的方法，利用各个相机的图像和对应位姿训练深度估计网络获得尺度一致、互相关联的深度图。针对现有技术中的技术方案5的有监督单目TSDF估计网络需要使用者提供三维模型的真值来监督网络的训练，而现实条件下真值的获取往往成本昂贵、甚至不能获取的问题，本公开提出的自监督多目TSDF估计网络，利用多相机系统的时空约束，通过多相机图像序列和预测的深度图训练TSDF估计网络，生成准确、稠密、有尺度信息的三维模型。

在使用本公开的三维重建装置/三维重建系统时，相关网络的训练只需要在初次使用时进行。此后的三维重建中，使用者只需要控制多相机系统采集视野内含有待重建目标的图像序列即可，三维重建系统的PC机(处理器+存储器)将按照图2所示的基于深度学习的多相机系统三维重建结构，自动执行三维重建流程，准确地重建具有尺度信息的三维场景模型。

本公开的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种用于多相机系统的三维场景重建装置的训练方法，其特征在于，包括：

S200、联合深度估计网络和位姿估计网络进行自监督训练，以输出多相机的位姿和多相机的深度图；以及

2.根据权利要求1所述的用于多相机系统的三维场景重建装置的训练方法，其特征在于，使用SFM方法对多相机系统的多相机图像序列进行处理以获得各个相机视角下的稀疏深度图，包括：

S110、使用SFM方法对多相机系统获取的多相机图像序列进行特征点提取及特征点匹配，利用获得的多组匹配特征点求解本征矩阵以获得各个相机的相对位姿；以及

3.根据权利要求1或2所述的用于多相机系统的三维场景重建装置的训练方法，其特征在于，基于稀疏深度图对深度估计网络进行预训练，包括：

4.根据权利要求1所述的用于多相机系统的三维场景重建装置的训练方法，其特征在于，联合深度估计网络和位姿估计网络进行自监督训练，以输出多相机的位姿和多相机的深度图，包括：

S220、基于帧内多相机位姿一致性约束，获取帧内多相机位姿一致性误差；以及

5.根据权利要求4所述的用于多相机系统的三维场景重建装置的训练方法，其特征在于，S210、基于多相机图像之间的时空上下文关系构建各个相机采集的图像在target帧和source帧之间的时空关系，以获取帧间的重投影误差，包括：

以及

S213、基于所述目标图像I_t和所述合成图像

获得所述重投影误差；

可选地，S220、基于帧内多相机位姿一致性约束，以获取帧内多相机位姿一致性误差，包括：

S222、构建加权的平移函数t_loss和旋转一致性损失函数R_loss；以及

S223、基于加权的平移函数t_loss和旋转一致性损失函数R_loss构建帧内多相机位姿一致性函数以对空间约束进行权衡，以使得同一坐标系下各相机预测的旋转和平移趋于一致；

可选地，S230、通过最小化所述重投影误差及最小化所述帧内多相机位姿一致性误差对深度估计网络和位姿估计网络进行训练，包括：

S235、判断是否达到迭代次数，如果未达到迭代次数，重复步骤S231至步骤234直至达到迭代次数；

可选地，S300、基于多相机系统的所述多相机图像序列、所述多相机的位姿及所述多相机的深度图对多目TSDF估计网络进行训练，包括：

S330、以预设数量的整体关键帧作为整体关键帧组，与各个整体关键帧对应的整体位姿共同输入到所述多目TSDF估计网络以预测全局截断符号场；以及

S340、使用所述初始截断符号场对所述多目TSDF估计网络进行监督训练，并最终输出全局截断符号场；

可选地，S330、以预设数量的整体关键帧作为整体关键帧组，与各个整体关键帧对应的整体位姿共同输入到所述多目TSDF估计网络以预测全局截断符号场，包括：

S332、基于各个相机的位姿，将各个层级上的各个相机的特征图进行反向投影，以在整体关键帧组的时序上和帧内相机间聚合为对应各个层级的三维特征体；以及

S333、基于当前整体关键帧组生成的多相机的所述三维特征体，与当前整体关键帧组前一个整体关键帧组生成的全局几何特征体，在三个层级上进行递归局部融合，获得当前整体关键帧组的全局几何特征体，以进一步预测全局截断符号场；

可选地，S333、基于当前整体关键帧组生成的多相机的所述三维特征体，与当前整体关键帧组前一个整体关键帧组生成的全局几何特征体，在三个层级上进行递归局部融合，获得当前整体关键帧组的全局几何特征体，以进一步预测全局截断符号场，包括：

S3335、将第三层级输出的截断符号场替换全局截断符号场的相应体素以生成最终的全局截断符号场；

可选地，所述的局部特征体通过MLP层来预测该层级的TSDF体积，TSDF体积中的每个体素包含占用值o和截断符号值x；

可选地，S340、使用所述初始截断符号场对所述多目TSDF估计网络进行监督训练，并最终输出全局截断符号场，包括：

S341、在由粗到细的所述三个层级上预测的占用值o和截断符号值x上，分别基于所述初始截断符号场对应区域的占用值和截断符号值进行监督；以及

6.一种用于多相机系统的三维场景重建装置，其特征在于，包括：

位姿估计网络模块，所述位姿估计网络模块为联合所述深度估计网络模块进行自监督训练之后的位姿估计网络模块，所述自监督训练使得所述深度估计网络模块及所述位姿估计网络模块能够输出多相机的深度图和多相机的位姿；以及

7.一种三维场景重建系统，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器通过执行所述存储器存储的所述执行指令对所述多相机系统采集的图像序列进行处理以实现权利要求1至5中任一项所述的用于多相机系统的三维场景重建装置的训练方法；

可选地，所述存储器为车载存储器，所述处理器为车载处理器。

8.一种三维场景重建系统，其特征在于，包括：

存储器，所述存储器以计算机程序的方式存储权利要求6所述的三维场景重建装置；以及

处理器，所述计算机程序被所述处理器执行时基于所述多相机系统采集的图像序列进行三维场景重建；

9.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现权利要求1至5中任一项所述的用于多相机系统的三维场景重建装置的训练方法。

10.一种可读存储介质，其特征在于，所述可读存储介质以计算机程序的方式存储权利要求6所述的三维场景重建装置。