CN114219900B - 基于混合现实眼镜的三维场景重建方法、重建系统和应用 - Google Patents

基于混合现实眼镜的三维场景重建方法、重建系统和应用 Download PDF

Info

Publication number
CN114219900B
CN114219900B CN202210154127.3A CN202210154127A CN114219900B CN 114219900 B CN114219900 B CN 114219900B CN 202210154127 A CN202210154127 A CN 202210154127A CN 114219900 B CN114219900 B CN 114219900B
Authority
CN
China
Prior art keywords
scene
model
sample image
dimensional
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202210154127.3A
Other languages
English (en)
Other versions
CN114219900A (zh
Inventor
徐迪
孙苏园
叶慕聪
毛文涛
蔡宝军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingchuang Information Technology Co ltd
Original Assignee
Beijing Yingchuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingchuang Information Technology Co ltd filed Critical Beijing Yingchuang Information Technology Co ltd
Priority to CN202210154127.3A priority Critical patent/CN114219900B/zh
Publication of CN114219900A publication Critical patent/CN114219900A/zh
Application granted granted Critical
Publication of CN114219900B publication Critical patent/CN114219900B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

本申请提供一种基于混合现实眼镜的三维场景重建方法、重建系统和应用,基于混合现实眼镜的三维场景重建方法包括以下步骤:采集样本图像及其对应的深度图;利用样本图像及其对应的深度图训练深度估计模型;利用获取的RGB目标图像和最终训练得到的深度估计模型进行实时场景的三维重建。本申请提供的基于混合现实眼镜的三维场景重建方法通过采用实时深度估计模型,能够在便携设备无深度传感器支持的情况下进行三维重建;通过采用三维重建技术,能够减少便携设备三维场景重建的时间,增强三维重建场景的效果。

Description

基于混合现实眼镜的三维场景重建方法、重建系统和应用
技术领域
本申请属于图像处理技术领域,具体涉及一种基于混合现实眼镜的三维场景重建方法、重建系统和应用。
背景技术
混合现实技术(Mix Reality,MR)是一种介于虚拟场景和现实场景之间的形态,包括了增强现实和增强虚拟,是指合并现实和虚拟而产生的新的可视化环境。在新的可视化环境里物理对象和数字对象共存,并实时互动。三维场景重建是计算机视觉领域的一项核心内容,在计算机动画、电子娱乐、虚拟显示等领域都有着广泛的应用价值。
目前,在混合现实眼镜端进行三维重建需要深度传感器等硬件的支持,三维重建算法需要依赖于深度传感器获取的深度图;然而,在一些便携设备中并不会配备深度传感器,因此,现有的三维重建技术无法拓展应用到便携设备中。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种基于混合现实眼镜的三维场景重建方法、重建系统和应用。
根据本申请实施例的第一方面,本申请提供了一种基于混合现实眼镜的三维场景重建方法,其包括以下步骤:
采集样本图像及其对应的深度图;
利用样本图像及其对应的深度图训练深度估计模型;
利用获取的RGB目标图像和最终训练得到的深度估计模型进行实时场景的三维重建。
上述基于混合现实眼镜的三维场景重建方法中,所述利用样本图像及其对应的深度图训练深度估计模型的具体过程为:
设置学生神经网络和教师神经网络,学生神经网络和教师神经网络采用相同的模型架构;
采用ImageNet数据集预训练学生神经网络和教师神经网络,以初始化学生神经网络和教师神经网络;
将样本图像输入初始化后的学生神经网络,得到第一深度图;将样本图像输入初始化后的教师神经网络,得到第二深度图;
根据第一深度图采集到样本图像对应的深度图确定第一损失函数,并根据第一损失函数的损失值反向传播梯度调整学生神经网络的网络参数,直至学生神经网络达到收敛状态,得到第一深度估计模型;
将样本图像输入第一深度估计模型,得到第三深度图;
根据第二深度图和第三深度图确定第二损失函数,并根据第二损失函数的损失值反向传播梯度调整教师神经网络的网络参数,直至教师神经网络达到收敛状态,得到第二深度估计模型;
将第二深度估计模型作为最终用于预测的深度估计模型。
进一步地,所述将样本图像输入初始化后的学生神经网络,得到第一深度图的具体过程为:
对样本图像进行下采样;
对下采样后的图像进行特征提取;
对提取的特征进行特征融合,得到第一深度图。
上述基于混合现实眼镜的三维场景重建方法中,所述利用获取的RGB目标图像和最终训练得到的深度估计模型进行实时场景的三维重建的具体过程为:
根据RGB目标图像和最终训练得到的深度估计模型得到带有法向量的点云;
根据带有法向量的点云,利用ICP算法计算两帧图像之间的位姿;
根据计算得到的位姿,将当前帧的点云融合到网格模型中;
根据当前帧相机位姿,利用光线投影算法从模型投影得到当前帧视角下的点云,并且计算其法向量,用来对下一帧的输入图像配准。
进一步地,所述根据RGB目标图像和最终训练得到的深度估计模型得到带有法向量的点云的具体过程为:
将目标图像输入训练得到的深度估计模型中,得到目标深度图;
在已知相机内参的情况下,将目标深度图转换成点云;
根据相邻像素点求得每个点的法向量,得到带有法向量的点云。
上述基于混合现实眼镜的三维场景重建方法中,还包括以下步骤:将重建得到的实时场景存储至云服务器。
根据本申请实施例的第二方面,本申请还提供了一种基于混合现实眼镜的三维场景重建系统,其包括深度传感器、深度估计模型训练模块和三维重建模块,所述深度传感器用于采集样本图像及其对应的深度图,所述深度估计模型训练模块用于根据样本图像及其对应的深度图训练深度估计模型,所述三维重建模块用于根据目标图像和训练得到的深度估计模型对三维场景进行三维重建。
上述基于混合现实眼镜的三维场景重建系统中,还包括云服务器,所述云服务器用于存储重建后的三维场景。
根据本申请实施例的第三方面,本申请还提供了一种存储介质,其上存储有可执行程序,当可执行程序被调用时,执行上述任一项所述的基于混合现实眼镜的三维场景重建方法中的步骤。
根据本申请实施例的第四方面,本申请还提供了一种大场景实时三维重建方法的应用系统,其包括混合现实眼镜和云服务器,所述现实眼镜与云服务器进行通信连接;
所述混合现实眼镜中部署有场景修复模型,所述云服务器中存储有重建后的三维场景;所述混合现实眼镜向所述云服务器发送场景请求信息和位置信息,所述云服务器根据接收到的场景请求信息和位置信息向所述混合现实眼镜发送相应的重建后的三维场景;
所述混合现实眼镜中部署的场景修复模型对接收到的重建后的三维场景进行修复,并对修复后的场景进行渲染和展示。
根据本申请的上述具体实施方式可知,至少具有以下有益效果:本申请提供的基于混合现实眼镜的三维场景重建方法通过采用实时深度估计模型,能够解决便携设备在无深度传感器支持的情况下无法进行三维重建的问题;通过采用三维重建技术,能够解决便携设备算力低带来的三维场景重建时间长和效果差的问题。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。
附图说明
下面的所附附图是本申请的说明书的一部分,其示出了本申请的实施例,所附附图与说明书的描述一起用来说明本申请的原理。
图1为本申请具体实施方式提供的一种基于混合现实眼镜的三维场景重建方法的流程图。
图2为本申请具体实施方式提供的一种基于混合现实眼镜的三维场景重建方法中根据样本图像得到深度图的整个网络架构的原理图。
图3为本申请具体实施方式提供的一种基于混合现实眼镜的三维场景重建方法中特征融合模块的原理图。
图4为本申请具体实施方式提供的一种基于混合现实眼镜的三维场景重建方法中场景修复模型的原理图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。
本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
如图1所示,本申请实施例提供的基于混合现实眼镜的三维场景重建方法包括以下步骤:
S1、采集样本图像及其对应的深度图;
具体地,可以采用深度传感器采集样本图像及其对应的深度图。深度传感器具体可以采用kinect。
S2、利用样本图像及其对应的深度图训练深度估计模型,其具体过程为:
S21、设置学生神经网络和教师神经网络,其中,学生神经网络和教师神经网络采用相同的模型架构,具体可以采用mobilenet-v3。
S22、采用ImageNet数据集预训练学生神经网络和教师神经网络,以初始化学生神经网络和教师神经网络。
S23、将样本图像输入初始化后的学生神经网络,得到第一深度图;将样本图像输入初始化后的教师神经网络,得到第二深度图。
具体地,如图2所示,将样本图像输入初始化后的学生神经网络,得到第一深度图的具体过程为:
S231、对样本图像进行下采样,以降低样本图像的分辨率,减小计算量。
混合现实眼镜作为一种便携设备,其算力远远不及台式PC的算力。为了保证深度估计模型可以部署在混合现实眼镜端,实时估计当前视角的深度,在本申请实施例中设计了一个简单的编码器-解码器风格的架构,并将其用于在混合现实眼镜上快速和准确地估计场景深度。
为了进一步提升神经网络的运算速度,可以将输入的高分辨RGB图像下采样到一个较小的尺寸,然后对下采样后的图像进行特征提取。例如,可以将分辨率为1280×960或640×480的图像下采样为分辨率为160×128的图像。
S232、对下采样后的图像进行特征提取。
其中,特征提取器可以采用mobilenet-v3,将下采样后的图像输入到mobilenet-v3中。
例如,特征提取器中设置有5个卷积层,每经过一个卷积层,下采样2倍。最终提取的特征缩小为输入的图像的1/32。
为了进一步提升学生神经网络的运算速度,可以减少特征提取器每一层的通道数。例如,通道数可以减少到32。
与不对样本图像进行下采样而直接对原始样本图像送到特征提取器的做法相比,对样本图像进行快速下采样有以下优点:
使用分辨率较低的图像可以显著地减少运算时间。
使用快速下采样较小尺寸图像可以提取更全局的信息,模型也有更大的视野来捕捉上下文信息。快速下采样策略能够提取具有足够接受域和丰富上下文的特征,因此,不需要在编码器的顶部建立一个沉重的上下文建模模型来对特征解码,这是实现高性能的关键。
S233、对提取的特征进行特征融合,得到第一深度图;
采用编码器和解码器对步骤S222提取的特征进行特征融合。其中,解码器包括多个解码阶段。在每个解码阶段,采用FFM(Feature Fusion Module,特征融合模块)连接编码器(即图2中所示的卷积)中相邻块的特征。
根据样本图像得到深度图的整个网络架构如图2所示,FFM的架构如图3所示,。其中,各个解码阶段得到的深度图的分辨率依次是样本图像的分辨率的1/16、1/8、1/4、1/2。最终得到的第一深度图的图像尺寸与样本图像的尺寸相同,第一深度图中每个像素点的取值为[0,1]。第一深度图中每个像素对应样本图像中每个像素的预测深度。
FFM中设置有两个分支,第一个分支为解码分支,经过卷积、上采样和卷积操作使得提取的特征与对应的编码器特征尺寸一致;第二个分支直接将提取的特征与第一个分支得到的特征进行合并操作,以将两个特征进行融合,经过4个FFM的融合,得到最终的特征图。
由于教师神经网络与学生神经网络采用相同的模型架构,因此将样本图像输入教师神经网络得到第二深度图的具体过程与得到第一深度图的具体过程相同,在此不再赘述。
S24、根据第一深度图和步骤S1采集到的深度图确定第一损失函数,并根据第一损失函数的损失值反向传播梯度调整学生神经网络的网络参数,直至学生神经网络达到收敛状态,得到第一深度估计模型。
其中,第一损失函数为L2损失函数。
S25、将样本图像输入第一深度估计模型,得到第三深度图。
S26、根据第二深度图和第三深度图确定第二损失函数,并根据第二损失函数的损失值反向传播梯度调整教师神经网络的网络参数,直至教师神经网络达到收敛状态,得到第二深度估计模型。
其中,第二损失函数为CE(Cross-Entropy,交叉熵)损失函数。可以通过CE损失函 数中的Softmax计算损失值
Figure 477322DEST_PATH_IMAGE001
Figure 456779DEST_PATH_IMAGE002
(1)
式(1)中,
Figure 767675DEST_PATH_IMAGE003
表示教师神经网络的输出,
Figure 694042DEST_PATH_IMAGE004
表示学生神经网络的输出,T表示控制 教师神经网络输出的分布均匀程度,T的值越大,教师神经网络的输出越均匀。教师神经网 络和学生神经网络收敛后丢弃学生神经网络,使用教师神经网络。
直接训练单一网络然后做预测,模型会对训练数据集输出预测的置信度高,导致过拟合训练数据。使用知识蒸馏的方法在Softmax中加入T来使得输出分布平缓,一方面起到一个平滑所用,这样在部署后的模型的鲁棒性更强,有良好的泛化能力,从而提高模型的预测精度。另一方面起到正则的作用,使得预测不趋向于0,1分布(即预测极端)。
将第二深度估计模型作为最终用于预测的深度估计模型。
采用步骤S2的方法得到的深度估计模型鲁棒性更强,具有良好的泛化能力。
S3、利用获取的RGB目标图像和步骤S2最终训练得到的深度估计模型进行实时场景的三维重建,其具体过程为:
S31、根据RGB目标图像和最终训练得到的深度估计模型得到带有法向量的点云,其具体过程为:
将目标图像输入训练得到的深度估计模型中,得到目标深度图。
在已知相机内参的情况下,将目标深度图转换成点云。
根据相邻像素点求得每个点的法向量,得到带有法向量的点云。
需要说明的是,在将目标深度图转换成点云之前可以先使用双边滤波对目标深度图进行滤波降噪,以保持清晰的边界。
双边滤波是在空间域加权平均的基础上再对值域加权平均,即像素灰度值越靠近中心像素的灰度值,权重越高。在边界附近,灰度值差异很大,所以虽然边界两边的像素在空间域靠在一起,但是由于灰度值差别非常大,对于互相的权重很低,所以可以保持清晰的边界。
根据相机内参,可以将降噪后的目标深度图反投影出每个像素点的三维坐标,这就是Vertex map。每个vertex的法向量可以很方便的通过相邻vertex用叉乘得到。然后,对降噪后的目标深度图降采样,行数和列数各减一半。
降采样使用的是均值降采样,即深度图上四个相邻像素的深度值被平均成一个值。构建三层金字塔的目的是为了从粗到细地计算相机位置姿态,以加速计算。
S32、根据带有法向量的点云,利用ICP(Iterative Closest Point,最近点迭代算法)算法计算两帧图像之间的位姿。
采用ICP算法计算两帧之间位姿,因为这里是实时的三维重建,相邻两帧之间位姿变化很小,R矩阵可以做线性化,从而最小二乘有闭式解。将通过当前帧深度图像转换得到的点云和根据上一帧相机位姿从模型投影获取的深度图像转换得到的点云进行配准。
在当前帧
Figure 773994DEST_PATH_IMAGE005
下,深度图中的像素点为
Figure 127615DEST_PATH_IMAGE006
,像素点的深度为
Figure 925807DEST_PATH_IMAGE007
,相机内参 校准矩阵
Figure 655865DEST_PATH_IMAGE008
,则可以计算得到在当前帧
Figure 673148DEST_PATH_IMAGE009
,相机坐标系下,像素
Figure 197670DEST_PATH_IMAGE010
对应的点云坐标
Figure 483158DEST_PATH_IMAGE011
为:
Figure 751328DEST_PATH_IMAGE012
(2)
式(2)中,
Figure 805872DEST_PATH_IMAGE013
为相机内参校准矩阵
Figure 501295DEST_PATH_IMAGE014
的逆矩阵,
Figure 274079DEST_PATH_IMAGE015
表示取二维矩阵的值。
通过相邻像素点对应的顶点计算当前点的法向量
Figure 877099DEST_PATH_IMAGE016
Figure 51728DEST_PATH_IMAGE017
(3)
相机的位姿矩矩阵
Figure 918053DEST_PATH_IMAGE018
已知,可以得到全局坐标系下顶点和法向量:
Figure 178133DEST_PATH_IMAGE019
(4)
式(4)中,
Figure 788106DEST_PATH_IMAGE020
表示旋转缩放矩阵。
在当前帧
Figure 817242DEST_PATH_IMAGE021
的深度图上的每一个像素点
Figure 120047DEST_PATH_IMAGE022
并行计算。对于深度值大于0的像素点, 求该像素点对应的顶点在上一帧所处的相机坐标系下的位置
Figure 604774DEST_PATH_IMAGE023
,通过透视投射
Figure 18438DEST_PATH_IMAGE023
到P, 其中,P表示图像坐标下的三维坐标。对于P属于当前帧范围内,说明该顶点在上一帧中也在 相机视口范围内,用上一帧的位姿矩阵左乘该点
Figure 902080DEST_PATH_IMAGE024
,将其投影到全局坐标中得
Figure 375787DEST_PATH_IMAGE025
同上得到全局坐标下的法向量
Figure 344880DEST_PATH_IMAGE026
,如果
Figure 296655DEST_PATH_IMAGE027
Figure 300384DEST_PATH_IMAGE028
的距离小于阈值,则
Figure 679412DEST_PATH_IMAGE029
和的
Figure 135801DEST_PATH_IMAGE030
夹 角小于阈值,则找到匹配点,然后优化下式:
Figure 156847DEST_PATH_IMAGE031
(5)
式(5)中,artgmin表示使
Figure 483923DEST_PATH_IMAGE032
取最小值时的变 量
Figure 299432DEST_PATH_IMAGE033
的值;
Figure 508697DEST_PATH_IMAGE034
表示当前像素点
Figure 67854DEST_PATH_IMAGE035
的深度值大于0时,则计算
Figure 780595DEST_PATH_IMAGE036
的L2损失,否则不计算;
Figure 501427DEST_PATH_IMAGE037
表示上一帧像素点u的全局 坐标。
S33、根据计算得到的位姿,将当前帧的点云融合到网格模型中;
在当前帧
Figure 929478DEST_PATH_IMAGE038
,对于体积空间中沿着x,y坐标下的每排体素,(这里的x,y是体素网格 坐标下的),并行地从前往后遍历单排体素,将体素
Figure 26747DEST_PATH_IMAGE039
转换到全局坐标下
Figure 859574DEST_PATH_IMAGE040
,再转换到图像 坐标下P,若
Figure 751307DEST_PATH_IMAGE041
在摄像机的平截头视锥范围内,执行:在当前帧
Figure 872846DEST_PATH_IMAGE042
下的该体素的
Figure 773806DEST_PATH_IMAGE043
值为:全 局坐标系下
Figure 195560DEST_PATH_IMAGE044
到相机的距离
Figure 523774DEST_PATH_IMAGE045
的距离减去对应P的深度值,该
Figure 663768DEST_PATH_IMAGE043
的绝对值表示体素距离 物体表面的距离,正负值表示体素在表面的内外侧。将
Figure 368419DEST_PATH_IMAGE043
映射到[-1,1]之间,即得到
Figure 910258DEST_PATH_IMAGE046
S34、根据当前帧相机位姿,利用光线投影算法从模型投影得到当前帧视角下的点云,并且计算其法向量,用来对下一帧的输入图像配准。
S4、将重建得到的实时场景存储至云服务器,其具体过程为:
S41、云服务器存储重建信息;
由于混合现实眼镜端的内存较小,无法将整个三维场景存储下来。为了能够实时的展示三维场景,将已经重建好的三维场景存储到云服务器。构建C/S架构使得混合现实眼镜可以实时发送请求,云服务器根据混合现实眼镜的请求和当前位置信息返回已经重建的三维场景。
S42、构建并优化场景修复模型;
由于网络通信存在一定的不稳定性,因此在丢帧、延迟等网络因素的影响下混合现实眼镜往往会获取到残缺的三维场景。为了保证传输质量,本申请提出了轻量级的场景修复模型,在混合现实眼镜端对云服务器返回的场景进行修复。
场景修复模型:
为了避免由于网络因素导致已经重建的场景出现残缺等问题,可以在混合现实眼镜端部署一个轻量级模型,用于修复云服务器返回的三维场景,模型的架构如下:
该场景修复模型包含17层3D卷积,采用U-shape架构融合多尺度特征。
如图4所示,该场景修复模型为一个U形网络,其包括编码器和解码器,解码器和编码器分别包括4组卷积块,每个卷积块包括2层卷积层。在编码器阶段,每经过一次卷积块,3D输入被下采样2倍。在解码器阶段,每经过一次卷积块上采样2倍,同时融合编码器对应块的输出。图中箭头表示数据传输路径的方向。
在云服务器和混合现实眼镜通信的过程中对网络进行一定的干预,例如,通过限制网络带宽、控制网络信号强度、增加信号扰动来模拟真实场景中遇到的网络不稳定问题。
然后,收集云服务器返回的不完整的三维场景,作为场景修复模型的输入。真实标签为云服务器存储的完整的三维场景。将采集的由于网络波动造成不完整的三维场景送进场景修复模型,将场景修复模型的输出与真实标签做误差,计算损失。损失函数为场景修复模型的输出与真实标签的L2损失。根据损失函数优化场景修复网络。
S43、在混合现实眼镜端部署场景修复模型;
将训练完成的模型部署到混合现实眼镜,当混合现实眼镜与云服务器进行通信时,混合现实眼镜首先将云服务器返回的三维场景经过场景修复模型进行修复,然后再对场景修复模型输出的结果进行渲染。
S5、混合现实眼镜实时获取云服务器中存储的三维场景并进行展示。
本申请提供的基于混合现实眼镜的三维场景重建方法通过采用提出的实时深度估计模型,能够解决便携设备在无硬件支持(深度传感器)的情况下无法进行三维重建的问题。通过采用三维重建技术,能够解决便携设备算力低带来的三维场景重建时间长和效果差的问题。
基于本申请提供的基于混合现实眼镜的三维场景重建方法,本申请还提供了一种基于混合现实眼镜的三维场景重建系统,其包括深度传感器、深度估计模型训练模块和三维重建模块,其中,深度传感器用于采集样本图像及其对应的深度图,深度估计模型训练模块用于根据样本图像及其对应的深度图训练深度估计模型,三维重建模块用于根据目标图像和训练得到的深度估计模型对三维场景进行三维重建。
需要说明的是:上述实施例提供的基于混合现实眼镜的三维场景重建系统仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将基于混合现实眼镜的三维场景重建系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的基于混合现实眼镜的三维场景重建系统与基于混合现实眼镜的三维场景重建方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,是计算机可读存储介质,例如,包括计算机程序的存储器,上述计算机程序可由处理器执行,以完成前述基于混合现实眼镜的三维场景重建方法中的所述步骤。
基于本申请提供的基于混合现实眼镜的三维场景重建方法,本申请还提供了一种大场景实时三维重建方法的应用系统,其包括混合现实眼镜和云服务器,混合现实眼镜与云服务器进行通信连接。混合现实眼镜中部署有场景修复模型,云服务器中存储有重建后的三维场景。混合现实眼镜向云服务器发送场景请求信息和位置信息,云服务器根据接收到的场景请求信息和位置信息向混合现实眼镜发送相应的重建后的三维场景。混合现实眼镜中部署的场景修复模型对接收到的重建后的三维场景进行修复,并对修复后的场景进行渲染和展示。
上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如,本申请的实施例也可为在数据信号处理器中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列执行的多种功能。可根据本申请配置上述处理器执行特定任务,其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而,根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。
以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。

Claims (5)

1.一种基于混合现实眼镜的三维场景重建方法,其特征在于,包括以下步骤:
采集样本图像及其对应的深度图;
利用样本图像及其对应的深度图训练深度估计模型;
利用获取的RGB目标图像和最终训练得到的深度估计模型进行实时场景的三维重建,其具体过程为:
根据RGB目标图像和最终训练得到的深度估计模型得到带有法向量的点云,其过程为:将目标图像输入训练得到的深度估计模型中,得到目标深度图;在已知相机内参的情况下,将目标深度图转换成点云;根据相邻像素点求得每个点的法向量,得到带有法向量的点云
根据带有法向量的点云,利用ICP算法计算两帧图像之间的位姿;
根据计算得到的位姿,将当前帧的点云融合到网格模型中;
根据当前帧相机位姿,利用光线投影算法从模型投影得到当前帧视角下的点云,并且计算其法向量,用来对下一帧的输入图像配准;
将重建得到的实时场景存储至云服务器;
混合现实眼镜实时获取云服务器中存储的三维场景,在混合现实眼镜中部署场景修复模型,场景修复模型对接收到的重建后的三维场景进行修复,并对修复后的场景进行渲染和展示;
所述场景修复模型为一个U形网络,其包括编码器和解码器,解码器和编码器分别包括4组卷积块,每个卷积块包括2层卷积层;在编码器阶段,每经过一次卷积块,3D输入被下采样2倍;在解码器阶段,每经过一次卷积块上采样2倍,同时融合编码器对应块的输出;
将从云服务器获取的不完整的三维场景送进场景修复模型,将场景修复模型的输出与云服务器存储的完整的三维场景做误差,计算损失;损失函数为场景修复模型的输出与云服务器存储的完整的三维场景的L2损失;根据损失函数优化场景修复模型。
2.根据权利要求1所述的基于混合现实眼镜的三维场景重建方法,其特征在于,所述利用样本图像及其对应的深度图训练深度估计模型的具体过程为:
设置学生神经网络和教师神经网络,学生神经网络和教师神经网络采用相同的模型架构;
采用ImageNet数据集预训练学生神经网络和教师神经网络,以初始化学生神经网络和教师神经网络;
将样本图像输入初始化后的学生神经网络,得到第一深度图;将样本图像输入初始化后的教师神经网络,得到第二深度图;
根据第一深度图采集到样本图像对应的深度图确定第一损失函数,并根据第一损失函数的损失值反向传播梯度调整学生神经网络的网络参数,直至学生神经网络达到收敛状态,得到第一深度估计模型;
将样本图像输入第一深度估计模型,得到第三深度图;
根据第二深度图和第三深度图确定第二损失函数,并根据第二损失函数的损失值反向传播梯度调整教师神经网络的网络参数,直至教师神经网络达到收敛状态,得到第二深度估计模型;
将第二深度估计模型作为最终用于预测的深度估计模型。
3.根据权利要求2所述的基于混合现实眼镜的三维场景重建方法,其特征在于,所述将样本图像输入初始化后的学生神经网络,得到第一深度图的具体过程为:
对样本图像进行下采样;
对下采样后的图像进行特征提取;
对提取的特征进行特征融合,得到第一深度图。
4.一种基于混合现实眼镜的三维场景重建系统,其特征在于,包括深度传感器、深度估计模型训练模块、三维重建模块和云服务器,所述深度传感器用于采集样本图像及其对应的深度图,所述深度估计模型训练模块用于根据样本图像及其对应的深度图训练深度估计模型,所述三维重建模块用于根据目标图像和训练得到的深度估计模型对三维场景进行三维重建,三维重建的具体过程为:
根据RGB目标图像和最终训练得到的深度估计模型得到带有法向量的点云,其过程为:将目标图像输入训练得到的深度估计模型中,得到目标深度图;在已知相机内参的情况下,将目标深度图转换成点云;根据相邻像素点求得每个点的法向量,得到带有法向量的点云
根据带有法向量的点云,利用ICP算法计算两帧图像之间的位姿;
根据计算得到的位姿,将当前帧的点云融合到网格模型中;
根据当前帧相机位姿,利用光线投影算法从模型投影得到当前帧视角下的点云,并且计算其法向量,用来对下一帧的输入图像配准;
所述云服务器用于存储重建得到的实时场景;
所述混合现实眼镜实时获取云服务器中存储的三维场景,在混合现实眼镜中部署场景修复模型,场景修复模型对接收到的重建后的三维场景进行修复,并对修复后的场景进行渲染和展示;
所述场景修复模型为一个U形网络,其包括编码器和解码器,解码器和编码器分别包括4组卷积块,每个卷积块包括2层卷积层;在编码器阶段,每经过一次卷积块,3D输入被下采样2倍;在解码器阶段,每经过一次卷积块上采样2倍,同时融合编码器对应块的输出;
将从云服务器获取的不完整的三维场景送进场景修复模型,将场景修复模型的输出与云服务器存储的完整的三维场景做误差,计算损失;损失函数为场景修复模型的输出与云服务器存储的完整的三维场景的L2损失;根据损失函数优化场景修复模型。
5.一种存储介质,其特征在于,其上存储有可执行程序,当可执行程序被调用时,执行如权利要求1-3中任一项所述的基于混合现实眼镜的三维场景重建方法中的步骤。
CN202210154127.3A 2022-02-21 2022-02-21 基于混合现实眼镜的三维场景重建方法、重建系统和应用 Expired - Fee Related CN114219900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210154127.3A CN114219900B (zh) 2022-02-21 2022-02-21 基于混合现实眼镜的三维场景重建方法、重建系统和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210154127.3A CN114219900B (zh) 2022-02-21 2022-02-21 基于混合现实眼镜的三维场景重建方法、重建系统和应用

Publications (2)

Publication Number Publication Date
CN114219900A CN114219900A (zh) 2022-03-22
CN114219900B true CN114219900B (zh) 2022-07-01

Family

ID=80708958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210154127.3A Expired - Fee Related CN114219900B (zh) 2022-02-21 2022-02-21 基于混合现实眼镜的三维场景重建方法、重建系统和应用

Country Status (1)

Country Link
CN (1) CN114219900B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292965A (zh) * 2017-08-03 2017-10-24 北京航空航天大学青岛研究院 一种基于深度图像数据流的虚实遮挡处理方法
CN108986223A (zh) * 2017-05-31 2018-12-11 上海拆名晃信息科技有限公司 一种三维场景重建的方法与装置
CN109166144A (zh) * 2018-07-20 2019-01-08 中国海洋大学 一种基于生成对抗网络的图像深度估计方法
CN113205593A (zh) * 2021-05-17 2021-08-03 湖北工业大学 一种基于点云自适应修复的高反光表面结构光场三维重建方法
CN114022799A (zh) * 2021-09-23 2022-02-08 中国人民解放军军事科学院国防科技创新研究院 一种自监督单目深度估计方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4115606A4 (en) * 2020-03-05 2023-09-06 Magic Leap, Inc. SYSTEMS AND METHODS FOR END-TO-END SCENE RECONSTRUCTION FROM MULTI-VIEW IMAGES
CN113160294B (zh) * 2021-03-31 2022-12-23 中国科学院深圳先进技术研究院 图像场景深度的估计方法、装置、终端设备和存储介质
CN113256698B (zh) * 2021-06-09 2021-11-05 中国人民解放军国防科技大学 一种具有深度预测的单目3d重建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986223A (zh) * 2017-05-31 2018-12-11 上海拆名晃信息科技有限公司 一种三维场景重建的方法与装置
CN107292965A (zh) * 2017-08-03 2017-10-24 北京航空航天大学青岛研究院 一种基于深度图像数据流的虚实遮挡处理方法
CN109166144A (zh) * 2018-07-20 2019-01-08 中国海洋大学 一种基于生成对抗网络的图像深度估计方法
CN113205593A (zh) * 2021-05-17 2021-08-03 湖北工业大学 一种基于点云自适应修复的高反光表面结构光场三维重建方法
CN114022799A (zh) * 2021-09-23 2022-02-08 中国人民解放军军事科学院国防科技创新研究院 一种自监督单目深度估计方法和装置

Also Published As

Publication number Publication date
CN114219900A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN109859296B (zh) Smpl参数预测模型的训练方法、服务器及存储介质
CN110443842B (zh) 基于视角融合的深度图预测方法
He et al. Towards fast and accurate real-world depth super-resolution: Benchmark dataset and baseline
CN105654492B (zh) 基于消费级摄像头的鲁棒实时三维重建方法
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
JP6902122B2 (ja) ダブル視野角画像較正および画像処理方法、装置、記憶媒体ならびに電子機器
CN106101535B (zh) 一种基于局部及整体运动差异补偿的视频稳定方法
CN109191554B (zh) 一种超分辨图像重建方法、装置、终端和存储介质
CN113313828B (zh) 基于单图片本征图像分解的三维重建方法与系统
CN112509106A (zh) 文档图片展平方法、装置以及设备
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN115797561A (zh) 三维重建方法、设备及可读存储介质
CN115546273A (zh) 一种面向室内鱼眼图像的场景结构深度估计方法
Liu et al. Creating simplified 3D models with high quality textures
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
JP2024510230A (ja) 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測
US7907147B2 (en) Texture filtering apparatus, texture mapping apparatus, and method and program therefor
CN113989441A (zh) 基于单张人脸图像的三维漫画模型自动生成方法及系统
CN117036581B (zh) 基于二维神经渲染的体渲染方法、系统、设备及介质
CN115908753B (zh) 一种全身人体网格表面重建方法及相关装置
Seetharaman et al. A piecewise affine model for image registration in nonrigid motion analysis
Nouduri et al. Deep realistic novel view generation for city-scale aerial images
Zhang et al. Pseudo-LiDAR point cloud magnification
CN114219900B (zh) 基于混合现实眼镜的三维场景重建方法、重建系统和应用
CN115330935A (zh) 一种基于深度学习的三维重建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220701