CN113873264A

CN113873264A - 显示图像的方法、装置、电子设备及存储介质

Info

Publication number: CN113873264A
Application number: CN202111243215.2A
Authority: CN
Inventors: 吴泽寰; 刘鑫; 焦少慧
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2021-12-31

Abstract

本公开公开了一种显示图像的方法、装置、电子设备及存储介质，该方法应用于边缘设备，包括：接收与目标用户相对应的至少两个相机视角的深度视频流；确定与深度视频流相对应的3D点云，并根据与目标用户相关联的各显示设备的姿态信息，确定各目标渲染视角；基于各目标渲染视角对3D点云进行渲染，得到与各目标渲染视角相对应的目标视频帧，并将目标视频帧所对应的多媒体数据流发送至相应的显示设备。本公开实施例的技术方案，实现了显示设备显示的目标视频与显示设备的动态适配，进而提高用户观看体验的技术效果。

Description

显示图像的方法、装置、电子设备及存储介质

技术领域

本公开实施例涉及计算机技术领域，尤其涉及一种显示图像的方法、装置、电子设备及存储介质。

背景技术

目前，随着网络的普及，直播已应用在各种各样的场景中。现有的直播，多呈现的为二维视频。在基于二维视频观看直播时，存在用户无法多角度看到相应的内容，存在用户体验不佳的问题。

发明内容

本公开提供一种显示图像的方法、装置、电子设备及存储介质，以实现显示的视频图像与目标用户动态适配的情况，即，在不同观看视角看到不同角度的图像的情形，从而提高用户观看体验的技术效果。

第一方面，本公开实施例提供了一种显示图像的方法，该方法应用于边缘设备，包括：

接收与目标用户相对应的至少两个相机视角的深度视频流；

确定与所述深度视频流相对应的3D点云，并根据与所述目标用户相关联的各显示设备的姿态信息，确定各目标渲染视角；

基于各目标渲染视角对所述3D点云进行渲染，得到与各目标渲染视角相对应的目标视频帧，并将所述目标视频帧所对应的多媒体数据流发送至相应的显示设备。

第二方面，本公开实施例还提供了一种显示图像的装置，该装置配置于边缘设备，包括：

深度视频流获取模块，用于接收与目标用户相对应的至少两个相机视角的深度视频流；

渲染视角确定模块，用于确定与所述深度视频流相对应的3D点云，并根据与所述目标用户相关联的各显示设备的姿态信息，确定各目标渲染视角；

数据流下发模块，用于基于各目标渲染视角对所述3D点云进行渲染，得到与各目标渲染视角相对应的目标视频帧，并将所述目标视频帧所对应的多媒体数据流发送至相应的显示设备。

第三方面，本公开实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现如本公开实施例任一所述的显示图像的方法。

第三方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现如本公开实施例任一所述的显示图像的方法。

本公开实施例的技术方案，通过接收与目标用户相对应的至少两个相机视角的深度视频流，并确定与该深度视频流相对应的3D点云，根据与目标用户相关联的各显示设备的姿态信息，确定对3D点云进行渲染的渲染视角，从而基于渲染视角对3D点云渲染处理，得到将要发送至与目标用户相对应的显示设备，解决了现有技术中多看到的为二维直播画面，导致观看不全面，进而引起用户体验较差的问题，实现了实时或者间隔性的获取显示设备的设备参数，进而基于设备参数确定观看视频直播的观看视角，进而将相应观看视角下的图像发送至显示设备，以使显示设备可以显示与不同观看视角所对应的图像，进而使观看用户可以看到不同视角下的图像，达到了用户可以多角度浏览图像，从而提高用户体验的技术效果。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例一所提供的一种显示图像的方法流程示意图；

图2为本公开实施例二所提供的一种显示图像的方法流程示意图；

图3是本公开实施例三所提供的一种显示图像的方法示意图；

图4为本公开实施例四所提供的一种显示图像的装置结构示意图；

图5为本公开实施例五所提供的一种电子设备结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

在介绍本技术方案之前，可以先对应用场景进行示例性说明。本公开实施例可以应用在直播场景中，可以为不同观看直播用户所对应的客户端发送不同视角下的多媒体数据流，从而使各观看直播的用户可以看到相应视角下的视频画面，从而提高观看体验的技术效果。

还要说明的是，在直播场景中对数据的实时性是有较高要求的，为了快速便捷的根据用户的触发操作，将相应的视频流从最近的边缘设备发送至相应的客户端，可以分布式设置各个设备，即边缘设备，该边缘设备中设置有渲染机，渲染机可以渲染相应视角的图像，同时，该边缘设备可以实现支持点云重建、去噪以及远程渲染的功能。

实施例一

图1为本公开实施例一所提供的一种显示图像的方法流程示意图，本实施例可适用于在各种实时互动场景中，为用户提供不同视角的图像的情形，该方法可以由显示图像的装置来执行，该装置可以通过软件和/或硬件的形式实现，该硬件可以是电子设备，如移动终端、PC端或服务器等。

如图1所示，本实施例的方法包括：

S110、接收与目标用户相对应的至少两个相机视角的深度视频流。

在基于流媒体的通信或交互方案中，多个端口间的音视频传递通常采用流式传输的方式，例如，将多个视频帧以视频流的形式进行传输。因此可以理解，本实施例中的深度视频流即是基于至少两个相机拍摄的多张图像生成的视频流，同时，在这些作为传输数据的图像中，除普通的彩色图像外，至少还需要包括多张深度图像，对于这些图像来说，深度视频流中都有特定的视频帧与之相对应。

其中，彩色图像也叫做RGB图像，RGB颜色空间作为构成彩色图像的基础，R、G、B三个分量分别对应于红、绿、蓝三个通道的颜色，它们的叠加决定了图像最终的显示效果。深度图像又称为距离图像，与灰度图像中像素点存储亮度值不同，深度图像中像素点存储的是深度值，对于每个像素点来说，深度值表示该点到相机的距离，进一步的，通过多个点的深度值，可以确定出图像中目标物体与相机之间的距离。本领域技术人员应当理解，深度值的大小只与距离这一因素有关，而与环境、光线、方向等因素无关，因此深度图像能够真实准确地体现图像中物体的几何深度信息，为后续的确定目标视频帧做准备，例如，当相机针对某个物体拍摄得到对应的深度图像时，计算机基于这幅图像即可还原得到与该物体相对应的三维模型，进而基于三维模型确定相应视角的图像，得到发送至各客户端的目标视频帧。

在本实施例中，为了在采集场景彩色图像的同时，得到能够反应该场景几何深度信息的深度图像，用于拍摄的相机至少需要部署两台深度相机，每个深度相机包括两个镜头，且两个镜头位于同一拍摄光轴上，其中一个镜头用于获取目标场景的彩色图像，另一个镜头用于获取目标场景的深度图像，最后基于与两个镜头所对应数据传输通道中的图像整合出深度视频流。示例性的，可以将上述两台相机在相同的视角下瞄准目标场景进行拍摄，进而得到包含彩色图像和深度图像的深度视频流。

需要说明的是，在实际应用过程中，为了进一步提升图像信息采集的效率和准确度，还可以针对目标场景从多个视角部署更多的深度相机，本领域技术人员应当理解，具体的部署方式可以根据任务要求进行选择，本公开实施例在此不做具体的限定。例如，在直播场景中，通常对主播用户的正面比较关注，此时，可以在主播用户的正面部署至少两个深度相机，从而基于至少两个深度相机拍摄得到相应的深度视频流。

进一步的，相机对场景信息进行采集后生成的深度视频流会以推流的方式进行上传，可以理解，推流即是把数据采集阶段封装好的内容传输到服务器的过程。与作为采集端的至少两台相机相对应，接收深度视频流的一端可以是计算端，例如，基于数据传输通道与场景信息采集端(如上述示例中的两台相机)相连接的云服务器，计算端接收到深度视频流后即可对其执行后续的处理操作。

S120、确定与所述深度视频流相对应的3D点云，并根据与所述目标用户相关联的各显示设备的姿态信息，确定各目标渲染视角。

其中，如果应用场景是直播场景，各显示设备可以是各个观看直播的观看用户所使用的设备。姿态信息可以包括位置信息和朝向信息，其中，位置信息可以是显示设备的摆放位置，朝向信息可以是与用户所对应的相对朝向信息。不同的姿态信息所对应的渲染视角不同，即用户看到的主播用户的视角是存在一定差异的，可以将根据显示设备姿态信息，确定出的渲染视角作为目标渲染视角。姿态信息包括显示设备的位置信息和朝向信息。在具体应用场景中，例如，观看通过移动终端观看直播，可能出现移动或者旋转移动终端的情形，在3D图形学里边，平移和旋转可以调整显示设备的姿态信息，平移可以用a、b、c来表示，a、b、c分别表示其在空间中相对于X轴、Y轴以及Z轴的坐标信息，朝向信息可以用α、β、γ来表示，α、β、γ分别表示相对于X轴、Y轴以及Z轴的旋转角信息。基于上述信息，可以得到目标渲染视角。

在本实施例中，计算端接收到深度视频流之后，可以将这些数据作为原始数据进而构建出3D点云模型，本领域技术人员应当理解，3D点云模型即是与目标场景相对应的三维模型，是目标场景(以及场景内物体)的多边形表示，至少可以反映场景(以及场景内物体)的三维几何结构。同时，基于深度视频流中的每一帧画面都可以构建出3D模型，而视频流中又包含目标场景的多帧实时画面，因此，所构建的3D模型也是动态的3D视频模型。例如，实时互动场景的直播场景，可以采集与直播用户所对应的多媒体数据流，并基于边缘设备将多媒体数据流构建与主播用户以及主播用户所属环境的3D点云模型。

也就是说，在实时互动场景中，可以设备多个深度相机采集同一场景的多媒体数据流，并将采集的数据流发送至采集机，采集机可以是与多个深度相机相对应的终端设备或者边缘服务器。同时，根据各深度相机的相机参数进行标定配准后，将其推送发送至直播场景中所使用到的边缘设备。

具体来说，边缘设备可以基于图像的建模和绘制(Image-Based Modeling andRendering，IBMR)相关技术，从深度视频流的每一帧画面中确定出目标场景及场景内物体的几何形状和深度值，进一步的，基于三维建模软件或工具逐帧创建与深度视频流相对应的3D模型。在得到3D点云模型之后，可以获取显示设备的姿态信息，可选的，显示设备的位置信息和朝向信息，进而基于上述信息，得到与3D点云模型相对应的观看视角，即观看用户当前可以看到哪个视角的图像，可以将此时得到的观看视角作为目标渲染视角。在本实施例中，确定目标渲染视角的好处在于，可以看到不同视角下的目标场景。

在本实施例中，为了提高用户的观看体验，可以实时互动显示设备的姿态信息，进而动态调整每个时刻与显示设备所对应的目标渲染视角，从而渲染相应目标渲染视角的图像发送至相应的显示设备，以使与显示设备对应的用户可以欣赏到不同视角下的目标场景，虽然此时的图像并不是三维图像，但是可以达到3D显示的技术效果。

还需要说明的是，如果应用场景是直播场景，同一时刻观看某个主播用户的观看用户的数量可以是一个也可以是多个，如果是多个，那么可以确定每个显示设备的姿态信息，进而确定与相应显示设备对应的目标渲染视角。

S130、基于各目标渲染视角对所述3D点云进行渲染，得到与各目标渲染视角相对应的目标视频帧，并将所述目标视频帧所对应的多媒体数据流发送至相应的显示设备。

其中，在确定目标渲染视角后，渲染机可以基于各目标渲染视角对3D点云模型进行渲染，以得到各目标渲染视角下所对应的目标图像，可以将此图像作为相应显示设备的目标视频帧。可以将目标视频帧所对应的多媒体数据流发送至相应的显示设备，以得到与每个显示设备所对应的显示图像。

还需要说明的是，可以实时获取显示设备的姿态信息，因此，可以确定各显示设备在每个时刻所对应的姿态，从而根据每个时刻的姿态信息确定相应的观看视角，即渲染视角，进而渲染相应渲染视角的图像发送至显示设备以在显示设备进行显示，进而使用户可以基于显示设备看到不同视角的图像，从而达到3D显示的效果。

实施例二

图2为本公开实施例二所提供的一种显示图像的方法流程示意图，在前述实施例的基础上，可以按照相应的目标数据下发方式发送至少两个相机视角的深度视频流，进而基于深度视频流构建相应的3D点云。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

如图2所示，所述方法包括：

S210、接收基于采集机依据与所述深度视频流相对应的目标数据下发方式发送的至少两个相机视角的深度视频流。

其中，采集机与至少两个深度相机相对应，可以是边缘设备，也可以是与深度相机所对应的终端设备，可选的，电脑。该采集机支持相机标定和配准。目标数据下发方式可以理解为采集机将采集到的多媒体数据流和标定参数推流至边缘设备的方式。将采集机当前所采用的数据推流方式作为目标数据下发方式。

在本实施例中，目标数据下发方式包括基于IP连接的下发方式或基于内容分发网络进行下发的方式。

其中，应用场景为实时互动场景，可选的，直播场景，如果观看直播用户的数量较少，采用直播模式，采集机可以将深度视频流通过IP连接传输至渲染机。在本实施例中，将基于IP连接传输的方式作为IP连接的下发方式。如果观看直播用户的数量加多，可以采用广播模式将采集的深度视频流和标定参数通过视频流服务器以及内容分发网络进行下发，可以将上述下发方式作为基于内容分发网络进行下发的方式。

需要说明的是，在具体应用中采用哪一种数据下发方式，可以根据具体的情况而定，可选的，可以根据具体的观看直播的用户数量决定采用哪一种数据下方方式。

在上述技术方案的基础上，至少两个相机视角的深度视频流是基于至少两个深度相机采集的，在所述收基于采集机依据与所述深度视频流相对应的目标数据下发方式发送的至少两个相机视角的深度视频流之前，还包括：基于所述采集机确定与所述至少两个深度相机相对应的标定参数，并将所述标定参数作为所述深度视频流的附属信息，以在所述采集机发送所述深度视频流时携带所述附属信息，以根据所述附属信息确定与所述深度视频流相对应的3D点云。

其中，标定参数不仅包括每个深度相机的内参、外参，还包括至少两个深度相机之间的关联参数，例如，至少两个深度相机之间的摆放位置参数。可以将至少两个深度相机的标定参数作为深度视频流的附属信息。确定附属信息的好处在于，在对深度视频流进行处理，得到其相应的3D点云时，可以基于附属信息来重建，提高确定出的3D点云与实际场景之间的匹配性。

具体的，在采集机获取到相应场景的深度视频流后，可以根据具体的实际需求，确定是将深度视频流以IP连接传输至渲染机，还是基于视频流服务器以及内容分发网络来传输至渲染机。同时，在将至少两个深度相机采集的深度视频流发送至采集机，采集机在将深度视频流发送至渲染机的过程中，可以将至少两个深度相机的标定参数作为附属信息发送至边缘设备，以使边缘设备可以重建出与拍摄场景相对应的3D点云。

S220、通过对所述至少两个相机视角的深度视频流进行三维重建，得到与所述深度视频流相对应的3D点云。

在本实施例中，边缘设备接收到至少两个相机视角的深度视频流后，为了得到相应的3D点云，可以对视频流中的数据进行点云融合、网格生成以及纹理估计处理，从而得到与深度视频流相对应的3D点云。当然，如果对显示的图像要求性并不高，可以仅仅对视频流中的数据进行点云融合即可，可以不用网格生成和纹理估计。

在数据实时传输过程中的任意时刻，从多个深度视频流中可以确定出与该时刻对应的一帧或者多帧画面，每一帧画面中又包含目标区域的彩色信息和深度信息。基于此，边缘设备可以基于点云计算技术针对各个时刻构建出对应的点云数据(Point Cloud Data，PCD)。本领域技术人员应当理解，点云数据通常用于逆向工程中，是一种以点的形式记录的数据，这些点既可以是三维空间中的坐标，也可以是颜色或者光照强度等信息，在实际应用过程中，点云数据一般还包括点坐标精度、空间分辨率和表面法向量等内容，一般以PCD格式进行保存，在这种格式下，点云数据的可操作性较强，能够在后续过程中提高点云配准和融合的速度。

在任意时刻的多个深度视频流中，对于多帧通过不同角度拍摄的图像，各帧之间包含一定的公共部分，因此，计算端基于深度视频流得到点云数据并基于这些数据进行点云融合前，首先需要对点云进行配准，对于包含深度信息的图像的配准可以以场景的公共部分为基准，把不同时间、角度、照度获取的多帧图像叠加匹配到统一的坐标系中，计算出相应的平移向量与旋转矩阵，消除其中的冗余信息，本领域技术人员应当理解，三维深度信息的配准按照不同的图像输入条件与重建输出需求被分为粗糙配准、精细配准和全局配准等三类方法，具体的配准方法可以根据实际需要进行选择，本公开实施例在此不再赘述。

在本实施例中，经过配准后的深度信息仍为空间中散乱无序的点云数据，仅能展现目标区域的部分信息，此时，就需要对点云数据进行融合处理。具体的处理方法有多种，例如，可以基于编程语言编写相应的点云融合程序，通过执行该程序对点云数据进行处理，进而三维制图软件中生成对应的3D模型；还可以在三维空间中设置一个原点并构造体积网格，这些网格可以把空间分割成很多细小的立方体作为体素，通过为所有体素赋予有效距离场(Signed Distance Field，SDF)来隐式地模拟表面。同时，为了解决体素占用大量空间的问题，可以采用截断符号距离场(Truncated Signed Distance Field，TSDF)算法，这种算法采用了最小二乘法来优化处理过程，在点云融合时引入了权重值，因此对点云数据有明显的降噪功能。进一步的，基于体素哈希(Voxel Hashing)方法对处理过程进行加速，在实际应用过程中，相较于传统算法实现了7倍加速，以此保证对数据传输实时性的需求。

具体的，在边缘设备接收到至少两个深度相机的深度视频流后，可以对深度视频流进行三维重建，得到与深度视频流，即目标场景相对应的3D点云。

S230、根据接收到的与所述目标用户相关联的各显示设备的姿态信息，确定对所述显示设备的观看视角，并基于各观看视角确定对所述3D点云进行渲染的各目标渲染视角。

其中，与目标用户相关联的各显示设备可以是实时互动场景中各实时互动用户所使用的设备。例如，应用场景为直播场景，目标用户可以是主播用户，与主播用户相关联的各显示设备可以是观看直播用户的设备。如果应用场景为视频会议，可以将参会用户中使用深度相机拍摄其深度视频流的用户作为目标用户，相应的，视频会议中各参会用户所使用的终端设备作为显示设备。可以获取各显示设备的姿态信息，进而确定与显示设备相对应的观看视角，基于观看视角可以确定对3D点云进行渲染的目标渲染视角。

需要说明的是，获取显示设备的姿态信息需要经历获取、上传、进而根据上传的参数渲染图像、将渲染的图像回传至显示设备，进而在显示设备上显示，如果存在较长的延时，会导致3S内容无法和背景准确叠加，影响观看体验，因此，可以在边缘设备中设置渲染机，从而减少渲染机与播放设备(显示设备)之间的网络演示，进而确定3S内容与背景准确叠加，进而显示较为准确的图像的技术效果。

在本实施例中，所述显示设备包括支持增强现实功能的终端设备、VR/AR眼镜以及裸眼3D显示设备中的至少一种，所述姿态信息包括所述显示设备的位置信息和姿态信息。

其中，如果显示设备是移动终端，如，手机或者平板电脑等，则可以利用AR框架，获取姿态信息，并发送至渲染机，从而使渲染机渲染目标渲染视角下所对应的视图。VR眼镜可以通过厂家SDK获取姿态信息，并发送给渲染机，以渲染得到对应视角的图像后，与虚拟场景融合；AR眼镜通过场景SDK获取姿态信息，并将获取到的姿态信息发送至渲染机，以获取对应视角的图像后，直接呈现渲染图像。如果显示设备为裸眼3D显示设备可以提供多视角标定参数，并将多视角标定参数发送至渲染机之后，渲染机可以渲染相应视角的图像，并将相应视角的图像进行拼接后，发送至显示设备，以使显示设备的像素重排列接口对其处理后，呈现相应的视图。

基于上述可知，位姿信息包括位置信息和姿态信息，位置信息确定显示设备的当前位置，姿态信息可以是显示设备的朝向信息。基于上述两个信息，可以确定渲染机对3D点云模型的渲染视角，进而得到相应渲染视角下的图像。

需要说明的是，显示设备的参数信息可以是6自由度参数，该参数主要是和位置信息和姿态信息相对应，例如，位置信息和朝向信息用六维信息来表示。

S240、基于各目标渲染视角对所述3D点云进行渲染处理，得到与各目标渲染视角相对应的待处理渲染图像。

其中，渲染机可以针对每个渲染视角，渲染相应的视图，将各渲染视角下渲染得到的图像作为待处理渲染图像。

具体的，在获取到各个目标渲染视角后，可以基于相应的目标渲染视角绘制出相应的待处理渲染图像。

S250、通过对各待处理渲染图像进行编码处理，得到与各渲染视角相对应的目标视频帧。

具体的，针对每个待处理渲染图像，可以将当前待处理渲染图像编码处理，得到待发送至相应显示设备的目标视频帧，进而将目标视频帧发送至相应的显示设备，以在显示设备上显示该视角下所对应的视频图像。

S260、将所述目标视频帧所对应的多媒体数据流发送至相应的显示设备。

实施例三

作为上述实施例的一可选实施例，图3为本公开实施例三所提供的一种显示图像的方法示意图，其中，与上述实施例相同或者相应的技术术语在此不再赘述。

如图3所示，所述方法包括：基于至少两个深度相机(RGBD相机)采集同一场景的深度视频流，并将采集的深度视频流发送至采集机。采集机可以是边缘设备也可以不是边缘设备，只要可以是支持相机标定和配准即可。采集机可以将深度视频流和标定参数推流至相应的边缘设备。在采集机将深度视频流推流至相应的边缘设备可以采用的方式为：在直播场景中，当观看直播用户的数量较少时，可以采用直播模式，RTC服务撮合采集机和渲染机，实现点对点数据传输，即采集机将深度视频流通过IP连接传输至渲染机。当观看直播用户的数量较多时，可以采集广播模型，采集机将深度视频流通过视频流服务器以及内容分发网络传输给边缘设备。边缘设备中设置有渲染机，用于对接收到的深度视频流进行渲染处理。渲染机可以根据显示设备(播放设备)上传的位姿信息(位置信息和朝向信息)来渲染得到相应视角下的图像，同时，可以将其编码成常见视频格式发送至相应的显示设备。

显示设备可以是支持增强现实功能的移动终端、平板电脑、或者是VR/AR眼镜，亦或是裸眼3D显示器。基于增强现实功能的移动终端设备手机、平板电脑，可利用AR框架获取姿态信息，并将获取到的位姿信息发送给渲染机，从而获取对应视角的图像后，与原始摄像头的视频画面融合，得到目标视频帧。如果是VR眼镜，则可以通过厂家SDK获取姿态信息，发送给渲染机，从而获取对应视角的图像后，与虚拟场景融合，得到发送至显示设备的目标视频帧。如果是AR眼镜，则可以通过厂家SDK获取姿态信息，发送给渲染机获取对应视角的图像后，直接呈现渲染部分，即此时得到的即为将要发送至显示设备的目标视频帧。当然，如果显示设备为裸眼3D显示器，则可以提供多视角标定参数，并发送给渲染机，从而获取对应多视角拼接图像后，可以基于裸眼3D显示器的像素重排列接口处理后呈现，得到最终的显示图像。

本公开实施例的技术方案，利用边缘设备的渲染机，而不是播放设备(显示设备)来执行3D渲染，可以降低带宽，即，由于3D模型的压缩效率远低于直接发送的视频，即，本公开技术方案是基于边缘设备完成的3D数据处理，避免通过网络传输3D模型，导致传输占用带宽较大以及效率较低的问题。进一步的，通常边缘设备和显示设备的网络距离较近，可以确保低延时。

实施例四

图4为本发明实施例四所提供的一种确定显示图像的装置结构示意图，该装置可以陪住与边缘设备中，由边缘设备中的渲染机来执行本公开所提供的一种显示图像的方法。所述装置包括：深度视频流获取模块310、渲染视角确定模块320以及数据流下发模块330。

其中，深度视频流获取模块310，用于接收与目标用户相对应的至少两个相机视角的深度视频流；渲染视角确定模块320，用于确定与所述深度视频流相对应的3D点云，并根据与所述目标用户相关联的各显示设备的姿态信息，确定各目标渲染视角；数据流下发模块330，用于基于各目标渲染视角对所述3D点云进行渲染，得到与各目标渲染视角相对应的目标视频帧，并将所述目标视频帧所对应的多媒体数据流发送至相应的显示设备。

在上述技术方案的基础上，所述深度视频流获取模块，还用于：

接收基于采集机依据与所述深度视频流相对应的目标数据下发方式发送的至少两个相机视角的深度视频流。

在上述技术方案的基础上，所述目标数据下发方式包括基于IP连接的下发方式或基于内容分发网络进行下发的方式。

在上述技术方案的基础上，所述至少两个相机视角的深度视频流是基于至少两个深度相机采集的，在深度视频流获取模块，还用于：

基于所述采集机确定与所述至少两个深度相机相对应的标定参数，并将所述标定参数作为所述深度视频流的附属信息，以在所述采集机发送所述深度视频流时携带所述附属信息，以根据所述附属信息确定与所述深度视频流相对应的3D点云。

在上述技术方案的基础上，所述渲染视角确定模块，包括：

3D点云构建单元，用于通过对所述至少两个相机视角的深度视频流进行三维重建，得到与所述深度视频流相对应的3D点云；

渲染视角确定单元，用于根据接收到的与所述目标用户相关联的各显示设备的姿态信息，确定对所述显示设备的观看视角，并基于各观看视角确定对所述3D点云进行渲染的各目标渲染视角。

在上述各技术方案的基础上，所述数据流下发模块，包括：

待处理渲染图像确定单元，用于基于各目标渲染视角对所述3D点云进行渲染处理，得到与各目标渲染视角相对应的待处理渲染图像；

视频帧确定单元，用于通过对各待处理渲染图像进行编码处理，得到与各渲染视角相对应的目标视频帧。

在上述各技术方案的基础上，所述显示设备包括支持增强现实功能的终端设备、VR/AR眼镜以及裸眼3D显示设备中的至少一种，所述姿态信息包括所述显示设备的位置信息和姿态信息。

在上述各技术方案的基础上，所述目标用户为主播用户。

本公开实施例所提供的显示图像的装置可执行本公开任意实施例所提供的显示图像的方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本公开实施例的保护范围。

实施例五

图5为本公开实施例五所提供的一种电子设备的结构示意图。下面参考图5，其示出了适于用来实现本公开实施例的电子设备(例如图5中的终端设备或服务器)400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置406加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。编辑/输出(I/O)接口405也连接至总线404。

通常，以下装置可以连接至I/O接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的编辑装置406；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置406；以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置409从网络上被下载和安装，或者从存储装置406被安装，或者从ROM 402被安装。在该计算机程序被处理装置401执行时，执行本公开实施例的方法中限定的上述功能。

本公开实施例提供的电子设备与上述实施例提供的种显示图像的方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

实施例五

本公开实施例提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所提供的种显示图像的方法。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

接收与目标用户相对应的至少两个相机视角的深度视频流；

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，【示例一】提供了一种显示图像的方法，该方法包括：

接收与目标用户相对应的至少两个相机视角的深度视频流；

根据本公开的一个或多个实施例，【示例二】提供了一种显示图像的方法，还包括：

可选的，所述接收与目标用户相对应的至少两个相机视角的深度视频流，包括：

根据本公开的一个或多个实施例，【示例三】提供了一种显示图像的方法，还包括：

可选的，所述目标数据下发方式包括基于IP连接的下发方式或基于内容分发网络进行下发的方式。

根据本公开的一个或多个实施例，【示例四】提供了一种显示图像的方法，还包括：

所述至少两个相机视角的深度视频流是基于至少两个深度相机采集的，在所述接收基于采集机依据与所述深度视频流相对应的目标数据下发方式发送的至少两个相机视角的深度视频流之前，还包括：

根据本公开的一个或多个实施例，【示例五】提供了一种显示图像的方法，还包括：

可选的，所述确定与所述深度视频流相对应的3D点云，并根据与所述目标用户相关联的各显示设备的姿态信息，确定各目标渲染视角，包括：

通过对所述至少两个相机视角的深度视频流进行三维重建，得到与所述深度视频流相对应的3D点云；

根据接收到的与所述目标用户相关联的各显示设备的姿态信息，确定对所述显示设备的观看视角，并基于各观看视角确定对所述3D点云进行渲染的各目标渲染视角。

根据本公开的一个或多个实施例，【示例六】提供了一种显示图像的方法，还包括：

可选的，所述基于各目标渲染视角对所述3D点云进行渲染，得到与各目标渲染视角相对应的目标视频帧，包括：

基于各目标渲染视角对所述3D点云进行渲染处理，得到与各目标渲染视角相对应的待处理渲染图像；

通过对各待处理渲染图像进行编码处理，得到与各渲染视角相对应的目标视频帧。

根据本公开的一个或多个实施例，【示例七】提供了一种显示图像的方法，还包括：

可选的，所述显示设备包括支持增强现实功能的终端设备、VR/AR眼镜以及裸眼3D显示设备中的至少一种，所述姿态信息包括所述显示设备的位置信息和姿态信息。

根据本公开的一个或多个实施例，【示例八】提供了一种显示图像的方法，还包括：

所述目标用户为主播用户。

根据本公开的一个或多个实施例，【示例九】提供了一种显示图像的装置，还包括：

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种显示图像的方法，其特征在于，应用于边缘设备，包括：

接收与目标用户相对应的至少两个相机视角的深度视频流；

2.根据权利要求1所述的方法，其特征在于，所述接收与目标用户相对应的至少两个相机视角的深度视频流，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标数据下发方式包括基于IP连接的下发方式或基于内容分发网络进行下发的方式。

4.根据权利要求1所述的方法，其特征在于，所述至少两个相机视角的深度视频流是基于至少两个深度相机采集的，在所述接收基于采集机依据与所述深度视频流相对应的目标数据下发方式发送的至少两个相机视角的深度视频流之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述确定与所述深度视频流相对应的3D点云，并根据与所述目标用户相关联的各显示设备的姿态信息，确定各目标渲染视角，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于各目标渲染视角对所述3D点云进行渲染，得到与各目标渲染视角相对应的目标视频帧，包括：

7.根据权利要求1-6中任一所述的方法，其特征在于，所述显示设备包括支持增强现实功能的终端设备、VR/AR眼镜以及裸眼3D显示设备中的至少一种，所述姿态信息包括所述显示设备的位置信息和姿态信息。

8.根据权利要求1-6中任一所述的方法，其特征在于，所述目标用户为主播用户。

9.一种显示图像的装置，其特征在于，配置于边缘设备，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现如权利要求1-8中任一所述的显示图像的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现如权利要求1-8中任一所述的显示图像的方法。