CN113793420B

CN113793420B - 深度信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN113793420B
Application number: CN202111091932.8A
Authority: CN
Inventors: 张维智; 罗圣谚; 张曙; 曹宇强
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2024-05-24
Anticipated expiration: 2041-09-17
Also published as: CN113793420A

Abstract

本申请提供的深度信息处理方法，对于多帧具有位姿信息的目标图像，能够基于连续两帧目标图像各自的位姿信息确定对应的三维稀疏点，并以此生成连续两帧目标图像各自的稠密深度图。本申请能够利用位姿信息恢复深度信息，而无需使用其他额外的3D成像模组，并且可以适应不同的场景，恢复出的稠密深度图精度高、包含全部像素的深度信息。

Description

深度信息处理方法、装置、电子设备及存储介质

技术领域

本申请涉及软件技术领域，更具体地说，涉及一种深度信息处理方法、装置、电子设备及存储介质。

背景技术

远程协作是一种结合AR与远程通讯技术的远程指导解决方案，其中三维(3D)画笔可以实现专家实时可视化标注指导，现场人员可以按照标注快速恢复设备故障。

使用三维画笔对实时画面标注时，需要结合(画面)图像的稠密深度图，才可以将标注内容在现场的空间中锚定。但目前获取深度信息的方法主要通过添加3D成像模组来实现。3D成像模组有三种，分别是双目立体视觉，结构光和TOF(Time Of Flight)，各自的缺陷如下：

双目立体视觉算法复杂，仅能恢复纹理丰富区域深度；结构光识别距离短，一般只有0.2米到1.2米，模组结构复杂；TOF功耗高、成像精度稍低。

发明内容

有鉴于此，为解决上述问题，本申请提供一种深度信息处理方法、装置、电子设备及存储介质，技术方案如下：

本申请一方面提供一种深度信息处理方法，所述方法包括：

获得多帧目标图像，所述目标图像为具有位姿信息的图像；

基于连续两帧目标图像各自的位姿信息，确定所述连续两帧目标图像对应的三维稀疏点；

基于所述连续两帧目标图像、所述连续两帧目标图像各自的位姿信息、以及所述三维稀疏点，生成所述连续两帧目标图像各自的稠密深度图。

优选的，所述获得多帧目标图像，包括：

获得第一设备所输出的视频流；

在所述视频流中确定所述多帧目标图像。

优选的，所述在所述视频流中确定所述多帧目标图像，包括：

获得所述视频流对应的多个位姿信息，每个位姿信息具有相应的时间戳；

匹配所述视频流中每帧图像的时间戳、以及每个位姿信息的时间戳，确定所述多帧目标图像。

优选的，所述方法还包括：

获得第二设备所输出的二维标注信息；

确定所述视频流中具有所述二维标注信息的第一目标图像；

根据所述第一目标图像的稠密深度图将相应的二维标注信息转换为三维标注信息。

优选的，所述方法还包括：

将所述三维标注信息输出至所述第一设备，以所述第一设备在其视野中渲染所述三维标注信息。

优选的，所述方法还包括：

确定所述视频流中输出时间晚于所述第一目标图像的第二目标图像；

基于所述第二目标图像的位姿信息、以及所述三维标注信息，合成所述视频流对应的增强现实视频流；

将所述增强现实视频流输出至所述第二设备。

优选的，所述基于所述连续两帧目标图像、所述连续两帧目标图像各自的位姿信息、以及所述三维稀疏点，生成所述连续两帧目标图像各自的稠密深度图，包括：

将所述连续两帧目标图像、所述连续两帧目标图像各自的位姿信息、以及所述三维稀疏点输入至单目恢复深度网络中，所述单目恢复深度网络是预先以深度学习的方式训练得到的；

获得所述单目恢复深度网络输出的所述连续两帧目标图像各自的稠密深度图。

本申请另一方面提供一种深度信息处理装置，所述装置包括：

目标图像获得模块，用于获得多帧目标图像，所述目标图像为具有位姿信息的图像；

稀疏点确定模块，用于基于连续两帧目标图像各自的位姿信息，确定所述连续两帧目标图像对应的三维稀疏点；

深度图生成模块，用于基于所述连续两帧目标图像、所述连续两帧目标图像各自的位姿信息、以及所述三维稀疏点，生成所述连续两帧目标图像各自的稠密深度图。

本申请再一方面提供一种电子设备，所述电子设备包括：

存储器，用于存储应用程序及所述应用程序运行所产生的数据；

处理器，用于执行所述应用程序，以实现功能：获得多帧目标图像，所述目标图像为具有位姿信息的图像；基于连续两帧目标图像各自的位姿信息，确定所述连续两帧目标图像对应的三维稀疏点；基于所述连续两帧目标图像、所述连续两帧目标图像各自的位姿信息、以及所述三维稀疏点，生成所述连续两帧目标图像各自的稠密深度图。

本申请又一方面提供一种存储介质，所述存储介质存储有计算机程序代码，所述计算机程序代码执行时实现所述的深度信息处理方法。

经由上述的技术方案可知，本申请提供的深度信息处理方法，对于多帧具有位姿信息的目标图像，能够基于连续两帧目标图像各自的位姿信息确定对应的三维稀疏点，并以此生成连续两帧目标图像各自的稠密深度图。本申请能够利用位姿信息恢复深度信息，而无需使用其他额外的3D成像模组，并且可以适应不同的场景，恢复出的稠密深度图精度高、包含全部像素的深度信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的电子设备的硬件结构框图；

图2为本申请实施例一提供的深度信息处理方法的方法流程图；

图3为本申请实施例提供的目标图像的场景示意图；

图4为本申请实施例提供的三角化恢复深度的场景示意图；

图5为本申请实施例二提供的深度信息处理方法的方法流程图；

图6为本申请实施例提供的上传示意图；

图7为本申请实施例三提供的深度信息处理方法的方法流程图；

图8为本申请实施例提供的另一上传示意图；

图9为本申请实施例四提供的深度信息处理方法的方法流程图；

图10为本申请实施例提供的远程协作的三维画笔场景示意图；

图11为本申请实施例提供的深度信息处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请提供一种深度信息处理方法，该方法可以应用于电子设备，参见图1所示的电子设备的硬件结构框图，该电子设备的硬件结构可以包括：处理器11、通信接口12，存储器13和通信总线14；

在本申请实施例中，处理器11、通信接口12、存储器13、通信总线14的数量为至少一个，且处理器11、通信接口12、存储器13通过通信总线14完成相互间的通信。

处理器11可以是一个中央处理器CPU、GPU(Graphics Processing Unit，图形处理器)，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路等。

存储器13可以包括高速RAM存储器，也可以还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器。

其中，存储器13存储应用程序及应用程序运行所产生的数据，处理器11则执行应用程序，以实现功能：

获得多帧目标图像，目标图像为具有位姿信息的图像；基于连续两帧目标图像各自的位姿信息，确定连续两帧目标图像对应的三维稀疏点；基于连续两帧目标图像、连续两帧目标图像各自的位姿信息、以及三维稀疏点，生成连续两帧目标图像各自的稠密深度图。

需要说明的是，处理器执行应用程序所实现功能的细化和扩展，可以参见下文描述。

本申请实施例一提供一种深度信息处理方法，参见图2所示的方法流程图，该方法包括如下步骤：

步骤S101：获得多帧目标图像，目标图像为具有位姿信息的图像。

本申请实施例中，位姿信息即六自由度位姿(又称6dof位姿)，包括X轴、Y轴、Z轴三个方向下的平移矩阵、以及三个方向下的旋转矩阵。每帧目标图像都具有相应的位姿信息，并且多帧目标图像可以由用户输入、还可以从某一视频中所获得，本申请实施例对此不做限定。

参见图3所示的目标图像的场景示意图，在获得一段包含n帧图像的视频后，定位其中具有位姿信息的图像，假设视频中帧1、帧3、帧5、帧7、……、帧2i+1(i为正整数、2i+1≤n)均具有位姿信息，则帧1、帧3、帧5、帧7、……、帧2i+1均为目标图像。继续假设视频中帧1、帧2、帧3、帧4、……、帧j(j为正整数、j≤n)均具有位姿信息，则帧1、帧2、帧3、帧4、……、帧j均为目标图像。

步骤S102：基于连续两帧目标图像各自的位姿信息，确定连续两帧目标图像对应的三维稀疏点。

本申请实施例中，对于多帧目标图像中的任意的连续两帧，可以对该连续两帧目标图像进行三角化得到稀疏的深度信息，即三维稀疏点。

以连续两帧目标图像分别为图像I₁和图像I₂来说明。首先分别提取图像I₁和图像I₂中的特征点，进一步通过计算特征点的描述子对图像I₁和图像I₂间的特征点进行特征匹配。

对于图像I₁和图像I₂间匹配到的一组特征点，可以根据该组特征点的像素坐标、图像I₁和图像I₂各自对应的位姿信息，计算该组特征点中各特征点的深度值。参见图4所示的三角化恢复深度的场景示意图，特征点P₁和特征点P₂为一组相匹配的特征点、特征点P₁位于图像I₁、特征点P₂位于图像I₂、且O₁为图像I₁的相机光心、O₂为图像I₂的相机光心，则理论上直线O₁P₁与直线O₂P₂在场景中相交于一点P，该点P即为特征点P₁和特征点P₂所对应的地图点在三维场景中的位置，然而受噪声的影响，这两条直线往往无法相交，因此本申请实施例中可以通过最小二乘法求解特征点P₁和特征点P₂各自的深度值。以下为最小二乘法的公式：

其中，x₁为特征点P₁的像素坐标、x₂为特征点P₂的像素坐标、且x₁和x₂为像素坐标为归一化坐标，R为旋转矩阵、t为平移矩阵，s₁为待求解的特征点P₁的深度值、s₂为待求解的特征点P₂的深度值。

对于特征点P₁和特征点P₂，可以根据其中一个特征点的像素坐标、深度值、所在图像的位姿信息计算特征点P₁和特征点P₂所对应地图点的三维坐标。以特征点P₁为例，利用该特征点的像素坐标、深度值和预设的相机内参确定该特征点的三维坐标(该三维坐标在相机坐标系下)，进而利用图像I₁的位姿信息和特征点P₁的三维坐标确定地图点的三维坐标(该三维坐标在世界坐标系下)。

基于此，利用图像I₁和图像I₂间所匹配到的多组特征点，即可得到多个地图点的三维坐标。以此可以获得图像I₁和图像I₂间的三维稀疏点，也称稀疏深度图。

继续参见图3，假设帧1、帧3、帧5、帧7、……、帧2i+1均为目标图像，则帧1与帧3作为连续两帧目标图像，通过将帧1和帧3分别作为图像I₁和图像I₂即可获得帧1与帧3对应的三维稀疏点。同理，帧3与帧5作为连续两帧目标图像，通过将帧3和帧5分别作为图像I₁和图像I₂即可获得帧3与帧5对应的三维稀疏点，相应的，帧5与帧7、……、帧2i-1与帧2i+1分别作为连续两帧目标图像均可以获得相应的三维稀疏点。

步骤S103：基于连续两帧目标图像、连续两帧目标图像各自的位姿信息、以及三维稀疏点，生成连续两帧目标图像各自的稠密深度图。

由于特征点仅能在图像纹理丰富区域的角点处提取，因此三角化恢复深度得到的三维稀疏点是稀疏的三维点，原图中仅有部分像素被恢复深度，不足以用于三维画笔。对此，本申请实施例中，综合连续两帧目标图像、连续两帧目标图像各自的位姿信息和连续两帧目标图像对应的稀疏三维点，生成连续两帧目标图像各自的稠密深度图，该稠密深度图中包含所属目标图像中每个像素点(或者大部分像素点)的深度值。

具体的，本申请实施例可以基于深度学习的单目恢复深度方法生成稠密深度图。离线训练单目恢复深度网络(即深度学习网络)：采集或使用网络上公开的带有图像、位姿信息和稠密深度图的数据集作为训练样本，该单目恢复深度网络是以训练样本中连续两帧图像、连续两帧图像各自的位姿信息、三角化得到的连续两帧图像对应的稀释三维点作为输入、以输出的稠密深度图趋近于训练样本中连续两帧图像对应的稠密深度图为目标进行训练的。单目恢复深度网络仅需离线训练一次，可适应不同场景。

由此，训练好的单目恢复深度网络不仅可以对训练过的场景恢复深度，也可以对没训练过的场景恢复深度。将连续两帧目标图像、连续两帧目标图像各自的位姿信息、以及连续两帧目标图像对应的三维稀疏点输入至单目恢复深度网络中进行深度恢复，由该单目恢复深度网络输出连续两帧目标图像各自的稠密深度图。因为三角化恢复的稀疏三维点和目标图像的位姿信息作为先验信息，带有真实尺度信息，因此单目恢复深度网络恢复的深度精度更高，可以使单目恢复深度网络可以不局限于训练过的场景、能够适应不同场景。

继续以连续两帧目标图像分别为图像I₁和图像I₂来说明。将图像I₁、图像I₂、图像I₁对应的位姿信息、图像I₂对应的位姿信息、图像I₁和图像I₂间的三维稀疏点输入至单目恢复深度网络，由单目恢复深度网络输出图像I₁对应的稠密深度图、图像I₂的稠密深度图。

继续参见图3，假设帧1、帧3、帧5、帧7、……、帧2i+1均为目标图像，因此将帧1和帧3作为连续两帧目标图像，通过将帧1和帧3分别作为图像I₁和图像I₂即可获得帧1和帧3各自对应的稠密深度图。同理，帧3与帧5作为连续两帧目标图像，通过将帧3和帧5分别作为图像I₁和图像I₂即可获得帧3与帧5各自对应的稠密深度图，相应的，帧5与帧7、……、帧2i-1与帧2i+1分别作为连续两帧目标图像均可以获得其中各帧图像的稠密深度图。

显然，上述除帧1和帧2i+1外，帧3、帧5、帧7、……帧2i-1各自对应两个稠密深度图。本申请实施例还可以进一步对两个稠密深度图进行处理，保证一个目标图像对应一个稠密深度图。以帧3为例，其与帧1作为连续两帧目标图像时可以得到稠密深度图1、与帧5作为连续两帧目标图像时可以得到稠密深度图2，对此可以分别从稠密深度图1和稠密深度图2中确定帧3中不同像素点的深度值。

以帧3中的一个像素点来说明。假设其在稠密深度图1中的深度值为数值1、在稠密深度图2中的深度值为数值2，则可以比对数值1和数值2，如果两者的差值在预设的允许范围内，则可以选择其中一个数值或者选择两者的平均值或者选择两者的加权平均值等方式确定该像素点的实际深度值。另外，如果两者的差值不在预设的允许范围内，则可以不对该像素点赋予深度值、或者采用指定的深度值。可以理解的是，本申请实施例仅是给出了一帧目标图像对应多个稠密深度图的进一步处理的方式，对于本申请实施例未列举到的处理方式，也在本申请实施例的保护范围内。

此外，在一些实施例中，为保证经由步骤S103每帧目标图像均对应一个稠密深度图，在步骤S102选择连续两帧目标图像时每帧图像仅被选择一次。继续参见图3，假设帧1、帧3、帧5、帧7、……、帧2i+1均为目标图像，则可以将帧1和帧3作为连续两帧目标图像、帧5和帧7作为连续两帧目标图像、……、帧2i-1与帧2i+1作为连续两帧目标图像。由此，将帧1和帧3作为连续两帧目标图像，经由步骤S102和步骤S103可以获得帧1和帧3各自对应的稠密深度图。相应的，帧5与帧7、……、帧2i-1与帧2i+1分别作为连续两帧目标图像经由步骤S102和步骤S103可以获得其中各帧图像的稠密深度图。

本申请实施例提供的深度信息处理方法，对于多帧具有位姿信息的目标图像，能够基于连续两帧目标图像各自的位姿信息确定对应的三维稀疏点，并以此生成连续两帧目标图像各自的稠密深度图。本申请能够利用位姿信息恢复深度信息，而无需使用其他额外的3D成像模组，并且可以适应不同的场景，恢复出的稠密深度图精度高、包含全部像素的深度信息。

本申请实施例二提供一种深度信息处理方法，参见图5所示的方法流程图，该方法包括如下步骤：

步骤S201：获得第一设备所输出的视频流。

本申请实施例中，三维画笔具有节省故障发生到专家就位的时间、节约现场指导成本、方便调用专家资源等优点。因此，在三维画笔场景下，第一设备可以为现场端的AR(增强现实)设备、且AR设备为单目相机。现场端的AR设备可以拍摄现场实时画面，产生相应的视频流。并且，现场端的AR设备在拍摄现场实时画面的同时，可以运行SLAM(SimultaneousLocalization And Mapping，同步定位与地图构建)算法确定设备自身的位姿，由此视频流中的每帧图像或者特定帧图像可以具有相应的位姿信息。当然，现场端的AR设备还可以进一步采集现场实时声音，产生相应的音频流。

需要说明的是，本申请实施例中现场端的AR设备可以为穿戴式AR设备，而本申请实施例的深度信息处理方法可以应用于服务端。现场端的AR设备运行SLAM算法可以产生其中部分或者全部图像具有位置信息的视频流，并将该视频流与音频流上传至服务端。

需要说明的是，三维画笔除应用于远程协作场景，还可以应用于本地，即本申请实施例的深度信息处理方法可以应用于现场端的AR设备，也就是说，现场端的AR设备拍摄现场实时画面产生视频流后再进一步运行本申请实施例的深度处理方法，得到目标图像的稠密深度图。

步骤S202：在视频流中确定多帧目标图像，目标图像为具有位姿信息的图像。

本申请实施例中，现场端的AR设备可以将视频流中的图像、以及位姿信息使用同一个上传通道上传至服务端。参见图6所示的上传示意图。现场端的AR设备在同一个上传通道中上传图像与位姿信息，假设位姿信息默认的上传时间早于其所属图像的上传时间，则对于具有位姿信息的一帧图像，现场端的AR设备可以先上传其位姿信息再上传该图像。因此，服务端获得位姿信息1后再获得帧1，即可确定帧1具有位姿信息1，继续获得帧2、位置信息2、帧3，则可确定帧3具有位姿信息2，以此类推，帧5具有位姿信息3、帧7具有位姿信息4……，相应的，帧1、帧3、帧5、帧7即可作为目标图像。

可以理解的是，图6中位姿信息的上传时间早于其所属图像的上传时间。在其他一些同一个上传通道中上传图像与位姿信息的场景中，服务端还可以设置位姿信息的上传时间晚于其所属图像的上传时间、或者将位姿信息与其所属的图像打包后同时上传，本申请实施例对此不做限定。

步骤S203：基于连续两帧目标图像各自的位姿信息，确定连续两帧目标图像对应的三维稀疏点。

步骤S204：基于连续两帧目标图像、连续两帧目标图像各自的位姿信息、以及三维稀疏点，生成连续两帧目标图像各自的稠密深度图。

本申请实施例提供的深度信息处理方法，可以用于三维画笔的实现，结合第一设备的SLAM与稠密深度图恢复，无需使用额外的三维成像模组，也可以适用不同的场景。

本申请实施例三提供一种深度信息处理方法，参见图7所示的方法流程图，该方法包括如下步骤：

步骤S301：获得第一设备所输出的视频流。

步骤S302：获得视频流对应的多个位姿信息，每个位姿信息具有相应的时间戳。

本申请实施例中，现场端的AR设备还可以采用两个上传通道向服务端分别上传视频流中的图像、以及位姿信息。参见图8所示的上传示意图。现场端的AR设备在两个上传通道中分别上传图像与位姿信息，并且每帧图像和每个位姿信息均具有相应的时间戳。

步骤S303：匹配视频流中每帧图像的时间戳、以及每个位姿信息的时间戳，确定多帧目标图像，目标图像为具有位姿信息的图像。

继续参见图8，服务端在上传通道1中获得现场端的AR设备上传的每帧图像、在上传通道2中获得现场端的AR设备上传的每个位姿信息，通过匹配每帧图像的时间戳以及每个位姿信息的时间戳，来确定位姿信息所属的一帧图像。基于此，可以确定帧1具有位姿信息1、帧3具有位姿信息2、帧5具有位姿信息3、帧7具有位姿信息4……，相应的，帧1、帧3、帧5、帧7即可作为目标图像。

另外，相较于图像与位姿信息共用一个上传通道，使用两个上传通道可以保证两种数据互补影响，提高上传效率。

步骤S304：基于连续两帧目标图像各自的位姿信息，确定连续两帧目标图像对应的三维稀疏点。

步骤S305：基于连续两帧目标图像、连续两帧目标图像各自的位姿信息、以及三维稀疏点，生成连续两帧目标图像各自的稠密深度图。

本申请实施例四提供一种深度信息处理方法，参见图9所示的方法流程图，该方法包括如下步骤：

步骤S401：获得第一设备所输出的视频流。

步骤S402：在视频流中确定多帧目标图像，目标图像为具有位姿信息的图像。

步骤S403：基于连续两帧目标图像各自的位姿信息，确定连续两帧目标图像对应的三维稀疏点。

步骤S404：基于连续两帧目标图像、连续两帧目标图像各自的位姿信息、以及三维稀疏点，生成连续两帧目标图像各自的稠密深度图。

步骤S405：获得第二设备所输出的二维标注信息。

本申请实施例中，在三维画笔场景下，第二设备可以为专家端。参见图10所示的远程协作的三维画笔场景示意图。现场端的AR设备运行SLAM算法产生视频流和位姿信息，并与音频流一同上传至服务端；服务端一方面可以将视频流和音频流转发给专家端，另一方面可以对视频流中具有位姿信息的目标图像进行处理得到目标图像的稠密深度图；专家端则可以基于播报的音频流和视频流进行画面标注，在一帧或多帧图像中添加二维标注，产生二维标注信息上传至服务端，该二维标注信息中一方面包含二维标注点、另一方面还包含二维标注点所在图像的图像标识(比如时间戳)。

需要说明的是，本申请实施例中专家端可以为手机、平板、笔记本电脑等设备，本申请实施例对此不做限定。

步骤S406：确定视频流中具有二维标注信息的第一目标图像。

继续参见图10，服务端在获得专家端上传的二维标注信息后，可以基于其中的图像标识确定二维标注点所在的目标图像，即二维标注信息对应的目标图像，也就是第一目标图像。

步骤S407：根据第一目标图像的稠密深度图将相应的二维标注信息转换为三维标注信息。

继续参见图10，对于每帧第一目标图像，首先确定其中二维标注点在该第一目标图像中的像素坐标，进一步从该第一目标图像的稠密深度图中获得二维标注点所在的像素坐标的深度值，最后根据二维标注点所在的像素坐标、二维标注点所在的像素坐标的深度值、以及该第一目标图像的位姿信息计算二维标注点的三维坐标，具体的，利用二维标注点所在的像素坐标、二维标注点所在的像素坐标的深度值和预设的相机内参确定二维标注点的三维坐标(该三维坐标在相机坐标系下)，进而利用该第一目标图像的位姿信息和二维标注点的三维坐标确定二维标注点的三维坐标(该三维坐标在世界坐标系下)，由此可以产生二维标注点的三维标注信息。

综合所有第一目标图像中二维标注点的三维标注信息，即可实现将专家端在画面标注的二维标注投影到三维场景中。

需要说明的是，本申请实施例中对于步骤S405与S403、S404的先后次序并不限定，以获得二维标注信息的时间为准。

在其它一些实施例中，为方便现场人员查看专家的标注，快速修复设备故障、提高效率，本申请实施例进一步包含如下步骤：

将三维标注信息输出至第一设备，以第一设备在其视野中渲染三维标注信息。

继续参见图10，服务端在获得三维标注信息后，即可将三维标注信息下发至现场端的AR设备，由现场端的AR设备对三维标注信息进行渲染、并显示于现场端的AR设备的显示模块，这就可以在视野中产生三维标注点，方便现场人员查看。

在其他一些实施例中，为方便专家查看其标注，本申请实施例进一步包含如下步骤：

确定视频流中输出时间晚于第一目标图像的第二目标图像；基于第二目标图像的位姿信息、以及三维标注信息，合成视频流对应的增强现实视频流；将增强现实视频流输出至第二设备。

本申请实施例中，视频流中晚于第一目标图像的目标图像即为第二目标图像。根据三维标注信息和第二目标图像的位姿信息将二维标注点添加于第二目标图像中，由此专家端后续查看到的视频流中具有已标注的二维标注，这就利用增强现实技术产生增强现实视频流。

在将二维标注点添加于后续视频流中的任意一帧第二目标图像时，需要确定该二维标注点在该第二目标图像中的像素坐标。具体的，可以根据该二维标注点的三维标注信息中的三维坐标(该三维坐标在世界坐标系下)和该第二目标图像的位姿信息确定该二维标注点的三维坐标(该三维坐标在相机坐标系下)，进而结合该第二目标图像的位姿信息和该第二目标图像的稠密深度图将该二维标注点的三维坐标(该三维坐标在相机坐标系下)转换为二维标注点所在的像素坐标。

专家端接收服务端下发的增强现实视频流，由专家端显示。

本申请实施例提供的深度信息处理方法，可以用于三维画笔的实现，保证现场人员与专家间的交互沟通，提高远程协助的效率。

与上述深度信息处理方法对应的，本申请还公开了一种深度信息处理装置，如图11所示，该深度信息处理装置包括：

目标图像获得模块10，用于获得多帧目标图像，目标图像为具有位姿信息的图像；

稀疏点确定模块20，用于基于连续两帧目标图像各自的位姿信息，确定连续两帧目标图像对应的三维稀疏点；

深度图生成模块30，用于基于连续两帧目标图像、连续两帧目标图像各自的位姿信息、以及三维稀疏点，生成连续两帧目标图像各自的稠密深度图。

在本申请公开的深度信息处理装置的另一实施例中，目标图像获得模块10获得多帧目标图像，包括：

获得第一设备所输出的视频流；在视频流中确定多帧目标图像。

在本申请公开的深度信息处理装置的再一实施例中，目标图像获得模块10在视频流中确定多帧目标图像，包括：

获得视频流对应的多个位姿信息，每个位姿信息具有相应的时间戳；匹配视频流中每帧图像的时间戳、以及每个位姿信息的时间戳，确定多帧目标图像。

在本申请公开的深度信息处理装置的又一实施例中，该深度信息处理装置还包括：

三维标注模块，用于获得第二设备所输出的二维标注信息；确定视频流中具有二维标注信息的第一目标图像；根据第一目标图像的稠密深度图将相应的二维标注信息转换为三维标注信息。

在本申请公开的深度信息处理装置的又一实施例中，三维标注模块还用于：

在本申请公开的深度信息处理装置的又一实施例中，深度图生成模块30基于连续两帧目标图像、连续两帧目标图像各自的位姿信息、以及三维稀疏点，生成连续两帧目标图像各自的稠密深度图，包括：

将连续两帧目标图像、连续两帧目标图像各自的位姿信息、以及三维稀疏点输入至单目恢复深度网络中，单目恢复深度网络是预先以深度学习的方式训练得到的；获得单目恢复深度网络输出的连续两帧目标图像各自的稠密深度图。

本申请实施例中各模块的细化功能可以参见上述深度信息处理方法实施例对应公开部分，在此不再赘述。

与上述深度信息处理方法对应的，本申请还公开了一种存储介质，存储介质存储有计算机程序代码，计算机程序代码执行时实现深度信息处理方法。

以上对本申请所提供的一种深度信息处理方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种深度信息处理方法，所述方法包括：

获得多帧目标图像，所述目标图像为具有位姿信息的图像；

2.根据权利要求1所述的方法，所述获得多帧目标图像，包括：

获得第一设备所输出的视频流；

在所述视频流中确定所述多帧目标图像。

3.根据权利要求2所述的方法，所述在所述视频流中确定所述多帧目标图像，包括：

4.根据权利要求2所述的方法，所述方法还包括：

获得第二设备所输出的二维标注信息；

确定所述视频流中具有所述二维标注信息的第一目标图像；

5.根据权利要求4所述的方法，所述方法还包括：

6.根据权利要求4所述的方法，所述方法还包括：

将所述增强现实视频流输出至所述第二设备。

7.根据权利要求1所述的方法，所述基于所述连续两帧目标图像、所述连续两帧目标图像各自的位姿信息、以及所述三维稀疏点，生成所述连续两帧目标图像各自的稠密深度图，包括：

8.一种深度信息处理装置，所述装置包括：

9.一种电子设备，所述电子设备包括：

10.一种存储介质，所述存储介质存储有计算机程序代码，所述计算机程序代码执行时实现如权利要求1-7任意一项所述的深度信息处理方法。