CN114219900B

CN114219900B - 基于混合现实眼镜的三维场景重建方法、重建系统和应用

Info

Publication number: CN114219900B
Application number: CN202210154127.3A
Authority: CN
Inventors: 徐迪; 孙苏园; 叶慕聪; 毛文涛; 蔡宝军
Original assignee: Beijing Yingchuang Information Technology Co ltd
Current assignee: Beijing Yingchuang Information Technology Co ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-07-01
Anticipated expiration: 2042-02-21
Also published as: CN114219900A

Abstract

本申请提供一种基于混合现实眼镜的三维场景重建方法、重建系统和应用，基于混合现实眼镜的三维场景重建方法包括以下步骤：采集样本图像及其对应的深度图；利用样本图像及其对应的深度图训练深度估计模型；利用获取的RGB目标图像和最终训练得到的深度估计模型进行实时场景的三维重建。本申请提供的基于混合现实眼镜的三维场景重建方法通过采用实时深度估计模型，能够在便携设备无深度传感器支持的情况下进行三维重建；通过采用三维重建技术，能够减少便携设备三维场景重建的时间，增强三维重建场景的效果。

Description

基于混合现实眼镜的三维场景重建方法、重建系统和应用

技术领域

本申请属于图像处理技术领域，具体涉及一种基于混合现实眼镜的三维场景重建方法、重建系统和应用。

背景技术

混合现实技术(Mix Reality，MR)是一种介于虚拟场景和现实场景之间的形态，包括了增强现实和增强虚拟，是指合并现实和虚拟而产生的新的可视化环境。在新的可视化环境里物理对象和数字对象共存，并实时互动。三维场景重建是计算机视觉领域的一项核心内容，在计算机动画、电子娱乐、虚拟显示等领域都有着广泛的应用价值。

目前，在混合现实眼镜端进行三维重建需要深度传感器等硬件的支持，三维重建算法需要依赖于深度传感器获取的深度图；然而，在一些便携设备中并不会配备深度传感器，因此，现有的三维重建技术无法拓展应用到便携设备中。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供了一种基于混合现实眼镜的三维场景重建方法、重建系统和应用。

根据本申请实施例的第一方面，本申请提供了一种基于混合现实眼镜的三维场景重建方法，其包括以下步骤：

采集样本图像及其对应的深度图；

利用样本图像及其对应的深度图训练深度估计模型；

利用获取的RGB目标图像和最终训练得到的深度估计模型进行实时场景的三维重建。

上述基于混合现实眼镜的三维场景重建方法中，所述利用样本图像及其对应的深度图训练深度估计模型的具体过程为：

设置学生神经网络和教师神经网络，学生神经网络和教师神经网络采用相同的模型架构；

采用ImageNet数据集预训练学生神经网络和教师神经网络，以初始化学生神经网络和教师神经网络；

将样本图像输入初始化后的学生神经网络，得到第一深度图；将样本图像输入初始化后的教师神经网络，得到第二深度图；

根据第一深度图采集到样本图像对应的深度图确定第一损失函数，并根据第一损失函数的损失值反向传播梯度调整学生神经网络的网络参数，直至学生神经网络达到收敛状态，得到第一深度估计模型；

将样本图像输入第一深度估计模型，得到第三深度图；

根据第二深度图和第三深度图确定第二损失函数，并根据第二损失函数的损失值反向传播梯度调整教师神经网络的网络参数，直至教师神经网络达到收敛状态，得到第二深度估计模型；

将第二深度估计模型作为最终用于预测的深度估计模型。

进一步地，所述将样本图像输入初始化后的学生神经网络，得到第一深度图的具体过程为：

对样本图像进行下采样；

对下采样后的图像进行特征提取；

对提取的特征进行特征融合，得到第一深度图。

上述基于混合现实眼镜的三维场景重建方法中，所述利用获取的RGB目标图像和最终训练得到的深度估计模型进行实时场景的三维重建的具体过程为：

根据RGB目标图像和最终训练得到的深度估计模型得到带有法向量的点云；

根据带有法向量的点云，利用ICP算法计算两帧图像之间的位姿；

根据计算得到的位姿，将当前帧的点云融合到网格模型中；

根据当前帧相机位姿，利用光线投影算法从模型投影得到当前帧视角下的点云，并且计算其法向量，用来对下一帧的输入图像配准。

进一步地，所述根据RGB目标图像和最终训练得到的深度估计模型得到带有法向量的点云的具体过程为：

将目标图像输入训练得到的深度估计模型中，得到目标深度图；

在已知相机内参的情况下，将目标深度图转换成点云；

根据相邻像素点求得每个点的法向量，得到带有法向量的点云。

上述基于混合现实眼镜的三维场景重建方法中，还包括以下步骤：将重建得到的实时场景存储至云服务器。

根据本申请实施例的第二方面，本申请还提供了一种基于混合现实眼镜的三维场景重建系统，其包括深度传感器、深度估计模型训练模块和三维重建模块，所述深度传感器用于采集样本图像及其对应的深度图，所述深度估计模型训练模块用于根据样本图像及其对应的深度图训练深度估计模型，所述三维重建模块用于根据目标图像和训练得到的深度估计模型对三维场景进行三维重建。

上述基于混合现实眼镜的三维场景重建系统中，还包括云服务器，所述云服务器用于存储重建后的三维场景。

根据本申请实施例的第三方面，本申请还提供了一种存储介质，其上存储有可执行程序，当可执行程序被调用时，执行上述任一项所述的基于混合现实眼镜的三维场景重建方法中的步骤。

根据本申请实施例的第四方面，本申请还提供了一种大场景实时三维重建方法的应用系统，其包括混合现实眼镜和云服务器，所述现实眼镜与云服务器进行通信连接；

所述混合现实眼镜中部署有场景修复模型，所述云服务器中存储有重建后的三维场景；所述混合现实眼镜向所述云服务器发送场景请求信息和位置信息，所述云服务器根据接收到的场景请求信息和位置信息向所述混合现实眼镜发送相应的重建后的三维场景；

所述混合现实眼镜中部署的场景修复模型对接收到的重建后的三维场景进行修复，并对修复后的场景进行渲染和展示。

根据本申请的上述具体实施方式可知，至少具有以下有益效果：本申请提供的基于混合现实眼镜的三维场景重建方法通过采用实时深度估计模型，能够解决便携设备在无深度传感器支持的情况下无法进行三维重建的问题；通过采用三维重建技术，能够解决便携设备算力低带来的三维场景重建时间长和效果差的问题。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本申请所欲主张的范围。

附图说明

下面的所附附图是本申请的说明书的一部分，其示出了本申请的实施例，所附附图与说明书的描述一起用来说明本申请的原理。

图1为本申请具体实施方式提供的一种基于混合现实眼镜的三维场景重建方法的流程图。

图2为本申请具体实施方式提供的一种基于混合现实眼镜的三维场景重建方法中根据样本图像得到深度图的整个网络架构的原理图。

图3为本申请具体实施方式提供的一种基于混合现实眼镜的三维场景重建方法中特征融合模块的原理图。

图4为本申请具体实施方式提供的一种基于混合现实眼镜的三维场景重建方法中场景修复模型的原理图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本申请所揭示内容的精神，任何所属技术领域技术人员在了解本申请内容的实施例后，当可由本申请内容所教示的技术，加以改变及修饰，其并不脱离本申请内容的精神与范围。

本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本申请，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

如图1所示，本申请实施例提供的基于混合现实眼镜的三维场景重建方法包括以下步骤：

S1、采集样本图像及其对应的深度图；

具体地，可以采用深度传感器采集样本图像及其对应的深度图。深度传感器具体可以采用kinect。

S2、利用样本图像及其对应的深度图训练深度估计模型，其具体过程为：

S21、设置学生神经网络和教师神经网络，其中，学生神经网络和教师神经网络采用相同的模型架构，具体可以采用mobilenet-v3。

S22、采用ImageNet数据集预训练学生神经网络和教师神经网络，以初始化学生神经网络和教师神经网络。

S23、将样本图像输入初始化后的学生神经网络，得到第一深度图；将样本图像输入初始化后的教师神经网络，得到第二深度图。

具体地，如图2所示，将样本图像输入初始化后的学生神经网络，得到第一深度图的具体过程为：

S231、对样本图像进行下采样，以降低样本图像的分辨率，减小计算量。

混合现实眼镜作为一种便携设备，其算力远远不及台式PC的算力。为了保证深度估计模型可以部署在混合现实眼镜端，实时估计当前视角的深度，在本申请实施例中设计了一个简单的编码器-解码器风格的架构，并将其用于在混合现实眼镜上快速和准确地估计场景深度。

为了进一步提升神经网络的运算速度，可以将输入的高分辨RGB图像下采样到一个较小的尺寸，然后对下采样后的图像进行特征提取。例如，可以将分辨率为1280×960或640×480的图像下采样为分辨率为160×128的图像。

S232、对下采样后的图像进行特征提取。

其中，特征提取器可以采用mobilenet-v3，将下采样后的图像输入到mobilenet-v3中。

例如，特征提取器中设置有5个卷积层，每经过一个卷积层，下采样2倍。最终提取的特征缩小为输入的图像的1/32。

为了进一步提升学生神经网络的运算速度，可以减少特征提取器每一层的通道数。例如，通道数可以减少到32。

与不对样本图像进行下采样而直接对原始样本图像送到特征提取器的做法相比，对样本图像进行快速下采样有以下优点：

使用分辨率较低的图像可以显著地减少运算时间。

使用快速下采样较小尺寸图像可以提取更全局的信息，模型也有更大的视野来捕捉上下文信息。快速下采样策略能够提取具有足够接受域和丰富上下文的特征，因此，不需要在编码器的顶部建立一个沉重的上下文建模模型来对特征解码，这是实现高性能的关键。

S233、对提取的特征进行特征融合，得到第一深度图；

采用编码器和解码器对步骤S222提取的特征进行特征融合。其中，解码器包括多个解码阶段。在每个解码阶段，采用FFM（Feature Fusion Module，特征融合模块）连接编码器（即图2中所示的卷积）中相邻块的特征。

根据样本图像得到深度图的整个网络架构如图2所示，FFM的架构如图3所示,。其中，各个解码阶段得到的深度图的分辨率依次是样本图像的分辨率的1/16、1/8、1/4、1/2。最终得到的第一深度图的图像尺寸与样本图像的尺寸相同，第一深度图中每个像素点的取值为[0，1]。第一深度图中每个像素对应样本图像中每个像素的预测深度。

FFM中设置有两个分支，第一个分支为解码分支，经过卷积、上采样和卷积操作使得提取的特征与对应的编码器特征尺寸一致；第二个分支直接将提取的特征与第一个分支得到的特征进行合并操作，以将两个特征进行融合，经过4个FFM的融合，得到最终的特征图。

由于教师神经网络与学生神经网络采用相同的模型架构，因此将样本图像输入教师神经网络得到第二深度图的具体过程与得到第一深度图的具体过程相同，在此不再赘述。

S24、根据第一深度图和步骤S1采集到的深度图确定第一损失函数，并根据第一损失函数的损失值反向传播梯度调整学生神经网络的网络参数，直至学生神经网络达到收敛状态，得到第一深度估计模型。

其中，第一损失函数为L2损失函数。

S25、将样本图像输入第一深度估计模型，得到第三深度图。

S26、根据第二深度图和第三深度图确定第二损失函数，并根据第二损失函数的损失值反向传播梯度调整教师神经网络的网络参数，直至教师神经网络达到收敛状态，得到第二深度估计模型。

其中，第二损失函数为CE（Cross-Entropy，交叉熵）损失函数。可以通过CE损失函数中的Softmax计算损失值

：

（1）

式（1）中，

表示教师神经网络的输出，

表示学生神经网络的输出，T表示控制教师神经网络输出的分布均匀程度，T的值越大，教师神经网络的输出越均匀。教师神经网络和学生神经网络收敛后丢弃学生神经网络，使用教师神经网络。

直接训练单一网络然后做预测，模型会对训练数据集输出预测的置信度高，导致过拟合训练数据。使用知识蒸馏的方法在Softmax中加入T来使得输出分布平缓，一方面起到一个平滑所用，这样在部署后的模型的鲁棒性更强，有良好的泛化能力，从而提高模型的预测精度。另一方面起到正则的作用，使得预测不趋向于0，1分布（即预测极端）。

将第二深度估计模型作为最终用于预测的深度估计模型。

采用步骤S2的方法得到的深度估计模型鲁棒性更强，具有良好的泛化能力。

S3、利用获取的RGB目标图像和步骤S2最终训练得到的深度估计模型进行实时场景的三维重建，其具体过程为：

S31、根据RGB目标图像和最终训练得到的深度估计模型得到带有法向量的点云，其具体过程为：

将目标图像输入训练得到的深度估计模型中，得到目标深度图。

在已知相机内参的情况下，将目标深度图转换成点云。

需要说明的是，在将目标深度图转换成点云之前可以先使用双边滤波对目标深度图进行滤波降噪，以保持清晰的边界。

双边滤波是在空间域加权平均的基础上再对值域加权平均，即像素灰度值越靠近中心像素的灰度值，权重越高。在边界附近，灰度值差异很大，所以虽然边界两边的像素在空间域靠在一起，但是由于灰度值差别非常大，对于互相的权重很低，所以可以保持清晰的边界。

根据相机内参，可以将降噪后的目标深度图反投影出每个像素点的三维坐标，这就是Vertex map。每个vertex的法向量可以很方便的通过相邻vertex用叉乘得到。然后，对降噪后的目标深度图降采样，行数和列数各减一半。

降采样使用的是均值降采样，即深度图上四个相邻像素的深度值被平均成一个值。构建三层金字塔的目的是为了从粗到细地计算相机位置姿态，以加速计算。

S32、根据带有法向量的点云，利用ICP（Iterative Closest Point，最近点迭代算法）算法计算两帧图像之间的位姿。

采用ICP算法计算两帧之间位姿，因为这里是实时的三维重建，相邻两帧之间位姿变化很小，R矩阵可以做线性化，从而最小二乘有闭式解。将通过当前帧深度图像转换得到的点云和根据上一帧相机位姿从模型投影获取的深度图像转换得到的点云进行配准。

在当前帧

下，深度图中的像素点为

，像素点的深度为

，相机内参校准矩阵

，则可以计算得到在当前帧

，相机坐标系下，像素

对应的点云坐标

为：

（2）

式（2）中，

为相机内参校准矩阵

的逆矩阵，

表示取二维矩阵的值。

通过相邻像素点对应的顶点计算当前点的法向量

：

（3）

相机的位姿矩矩阵

已知，可以得到全局坐标系下顶点和法向量：

（4）

式（4）中，

表示旋转缩放矩阵。

在当前帧

的深度图上的每一个像素点

并行计算。对于深度值大于0的像素点，求该像素点对应的顶点在上一帧所处的相机坐标系下的位置

，通过透视投射

到P，其中，P表示图像坐标下的三维坐标。对于P属于当前帧范围内，说明该顶点在上一帧中也在相机视口范围内，用上一帧的位姿矩阵左乘该点

，将其投影到全局坐标中得

。

同上得到全局坐标下的法向量

，如果

和

的距离小于阈值，则

和的

夹角小于阈值，则找到匹配点，然后优化下式：

（5）

式（5）中，artgmin表示使

取最小值时的变量

的值；

表示当前像素点

的深度值大于0时，则计算

的L2损失，否则不计算；

表示上一帧像素点u的全局坐标。

S33、根据计算得到的位姿，将当前帧的点云融合到网格模型中；

在当前帧

，对于体积空间中沿着x,y坐标下的每排体素，（这里的x,y是体素网格坐标下的），并行地从前往后遍历单排体素，将体素

转换到全局坐标下

，再转换到图像坐标下P，若

在摄像机的平截头视锥范围内，执行：在当前帧

下的该体素的

值为：全局坐标系下

到相机的距离

的距离减去对应P的深度值，该

的绝对值表示体素距离物体表面的距离，正负值表示体素在表面的内外侧。将

映射到[-1,1]之间，即得到

。

S34、根据当前帧相机位姿，利用光线投影算法从模型投影得到当前帧视角下的点云，并且计算其法向量，用来对下一帧的输入图像配准。

S4、将重建得到的实时场景存储至云服务器，其具体过程为：

S41、云服务器存储重建信息；

由于混合现实眼镜端的内存较小，无法将整个三维场景存储下来。为了能够实时的展示三维场景，将已经重建好的三维场景存储到云服务器。构建C/S架构使得混合现实眼镜可以实时发送请求，云服务器根据混合现实眼镜的请求和当前位置信息返回已经重建的三维场景。

S42、构建并优化场景修复模型；

由于网络通信存在一定的不稳定性，因此在丢帧、延迟等网络因素的影响下混合现实眼镜往往会获取到残缺的三维场景。为了保证传输质量，本申请提出了轻量级的场景修复模型，在混合现实眼镜端对云服务器返回的场景进行修复。

场景修复模型：

为了避免由于网络因素导致已经重建的场景出现残缺等问题，可以在混合现实眼镜端部署一个轻量级模型，用于修复云服务器返回的三维场景，模型的架构如下：

该场景修复模型包含17层3D卷积，采用U-shape架构融合多尺度特征。

如图4所示，该场景修复模型为一个U形网络，其包括编码器和解码器，解码器和编码器分别包括4组卷积块，每个卷积块包括2层卷积层。在编码器阶段，每经过一次卷积块，3D输入被下采样2倍。在解码器阶段，每经过一次卷积块上采样2倍，同时融合编码器对应块的输出。图中箭头表示数据传输路径的方向。

在云服务器和混合现实眼镜通信的过程中对网络进行一定的干预，例如，通过限制网络带宽、控制网络信号强度、增加信号扰动来模拟真实场景中遇到的网络不稳定问题。

然后，收集云服务器返回的不完整的三维场景，作为场景修复模型的输入。真实标签为云服务器存储的完整的三维场景。将采集的由于网络波动造成不完整的三维场景送进场景修复模型，将场景修复模型的输出与真实标签做误差，计算损失。损失函数为场景修复模型的输出与真实标签的L2损失。根据损失函数优化场景修复网络。

S43、在混合现实眼镜端部署场景修复模型；

将训练完成的模型部署到混合现实眼镜，当混合现实眼镜与云服务器进行通信时，混合现实眼镜首先将云服务器返回的三维场景经过场景修复模型进行修复，然后再对场景修复模型输出的结果进行渲染。

S5、混合现实眼镜实时获取云服务器中存储的三维场景并进行展示。

本申请提供的基于混合现实眼镜的三维场景重建方法通过采用提出的实时深度估计模型，能够解决便携设备在无硬件支持（深度传感器）的情况下无法进行三维重建的问题。通过采用三维重建技术，能够解决便携设备算力低带来的三维场景重建时间长和效果差的问题。

基于本申请提供的基于混合现实眼镜的三维场景重建方法，本申请还提供了一种基于混合现实眼镜的三维场景重建系统，其包括深度传感器、深度估计模型训练模块和三维重建模块，其中，深度传感器用于采集样本图像及其对应的深度图，深度估计模型训练模块用于根据样本图像及其对应的深度图训练深度估计模型，三维重建模块用于根据目标图像和训练得到的深度估计模型对三维场景进行三维重建。

需要说明的是：上述实施例提供的基于混合现实眼镜的三维场景重建系统仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将基于混合现实眼镜的三维场景重建系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的基于混合现实眼镜的三维场景重建系统与基于混合现实眼镜的三维场景重建方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，本申请实施例还提供了一种存储介质，是计算机可读存储介质，例如，包括计算机程序的存储器，上述计算机程序可由处理器执行，以完成前述基于混合现实眼镜的三维场景重建方法中的所述步骤。

基于本申请提供的基于混合现实眼镜的三维场景重建方法，本申请还提供了一种大场景实时三维重建方法的应用系统，其包括混合现实眼镜和云服务器，混合现实眼镜与云服务器进行通信连接。混合现实眼镜中部署有场景修复模型，云服务器中存储有重建后的三维场景。混合现实眼镜向云服务器发送场景请求信息和位置信息，云服务器根据接收到的场景请求信息和位置信息向混合现实眼镜发送相应的重建后的三维场景。混合现实眼镜中部署的场景修复模型对接收到的重建后的三维场景进行修复，并对修复后的场景进行渲染和展示。

上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如，本申请的实施例也可为在数据信号处理器中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列执行的多种功能。可根据本申请配置上述处理器执行特定任务，其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而，根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。

以上所述仅为本申请示意性的具体实施方式，在不脱离本申请的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本申请保护的范围。

Claims

1.一种基于混合现实眼镜的三维场景重建方法，其特征在于，包括以下步骤：

采集样本图像及其对应的深度图；

利用样本图像及其对应的深度图训练深度估计模型；

利用获取的RGB目标图像和最终训练得到的深度估计模型进行实时场景的三维重建，其具体过程为：

根据RGB目标图像和最终训练得到的深度估计模型得到带有法向量的点云，其过程为：将目标图像输入训练得到的深度估计模型中，得到目标深度图；在已知相机内参的情况下，将目标深度图转换成点云；根据相邻像素点求得每个点的法向量，得到带有法向量的点云

根据计算得到的位姿，将当前帧的点云融合到网格模型中；

根据当前帧相机位姿，利用光线投影算法从模型投影得到当前帧视角下的点云，并且计算其法向量，用来对下一帧的输入图像配准；

将重建得到的实时场景存储至云服务器；

混合现实眼镜实时获取云服务器中存储的三维场景，在混合现实眼镜中部署场景修复模型，场景修复模型对接收到的重建后的三维场景进行修复，并对修复后的场景进行渲染和展示；

所述场景修复模型为一个U形网络，其包括编码器和解码器，解码器和编码器分别包括4组卷积块，每个卷积块包括2层卷积层；在编码器阶段，每经过一次卷积块，3D输入被下采样2倍；在解码器阶段，每经过一次卷积块上采样2倍，同时融合编码器对应块的输出；

将从云服务器获取的不完整的三维场景送进场景修复模型，将场景修复模型的输出与云服务器存储的完整的三维场景做误差，计算损失；损失函数为场景修复模型的输出与云服务器存储的完整的三维场景的L2损失；根据损失函数优化场景修复模型。

2.根据权利要求1所述的基于混合现实眼镜的三维场景重建方法，其特征在于，所述利用样本图像及其对应的深度图训练深度估计模型的具体过程为：

将样本图像输入第一深度估计模型，得到第三深度图；

将第二深度估计模型作为最终用于预测的深度估计模型。

3.根据权利要求2所述的基于混合现实眼镜的三维场景重建方法，其特征在于，所述将样本图像输入初始化后的学生神经网络，得到第一深度图的具体过程为：

对样本图像进行下采样；

对下采样后的图像进行特征提取；

对提取的特征进行特征融合，得到第一深度图。

4.一种基于混合现实眼镜的三维场景重建系统，其特征在于，包括深度传感器、深度估计模型训练模块、三维重建模块和云服务器，所述深度传感器用于采集样本图像及其对应的深度图，所述深度估计模型训练模块用于根据样本图像及其对应的深度图训练深度估计模型，所述三维重建模块用于根据目标图像和训练得到的深度估计模型对三维场景进行三维重建，三维重建的具体过程为：

根据计算得到的位姿，将当前帧的点云融合到网格模型中；

所述云服务器用于存储重建得到的实时场景；

所述混合现实眼镜实时获取云服务器中存储的三维场景，在混合现实眼镜中部署场景修复模型，场景修复模型对接收到的重建后的三维场景进行修复，并对修复后的场景进行渲染和展示；

5.一种存储介质，其特征在于，其上存储有可执行程序，当可执行程序被调用时，执行如权利要求1-3中任一项所述的基于混合现实眼镜的三维场景重建方法中的步骤。