CN114004927A

CN114004927A - 3d视频模型重建方法、装置、电子设备及存储介质

Info

Publication number: CN114004927A
Application number: CN202111241382.3A
Authority: CN
Inventors: 焦少慧; 张东波; 高宇康
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-02-01

Abstract

本发明公开了一种3D视频模型重建方法、装置、电子设备及存储介质。该方法包括：分别获取同一场景的至少三个相机视角的深度视频流；确定与所述至少三个相机视角的深度视频流相对应的目标前景点云和目标背景点云；根据与所述深度视频流相对应目标点云处理方式对所述目标前景点云和所述目标背景点云进行处理，得到与所述深度视频流相对应的3D视频模型。解决3D视频模型重建过程中需要多个相机数量、且在拍摄过程中采集内容范围较窄，导致应用范围较窄，以及在拍摄过程中出现遮挡物或3D视频拍摄不足的问题，实现利用较少的相机数量捕获3D视频，智能填补拍摄过程中的遮挡区域，或解决补充3D视频采集不足的问题。

Description

3D视频模型重建方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种3D视频模型重建方法、装置、电子设备及存储介质。

背景技术

体积视频是一种可以捕获三维空间中信息并生成三维模型序列的技术，将此种三维模型序列拼接起来，可以形成在任意视角下观看的全新视频格式。

为了捕获三维空间中的信息，体积视频技术需要多个深度相机，可选的，70台深度相机，存在搭建过程繁琐以及复杂的问题。为了解决深度相机数量较多的问题，可以采用较少数量的深度相机，但此中情况多是聚焦在人体的三维重建上，此时存在应用范围较窄的问题。

发明内容

本发明提供一种3D视频模型重建方法、装置、电子设备及存储介质，以实现利用较少的相机数量进行3D视频模型重建，以及智能填补拍摄过程中遮挡区域或补充3D视频采集不足的效果。

第一方面，本发明实施例提供了一种3D视频模型重建方法，该方法包括：

分别获取同一场景的至少三个相机视角的深度视频流；

确定与所述至少三个相机视角的深度视频流相对应的目标前景点云和目标背景点云；

根据与所述深度视频流相对应目标点云处理方式对所述目标前景点云和所述目标背景点云进行处理，得到与所述深度视频流相对应的3D视频模型。

第二方面，本发明实施例还提供了一种3D视频模型重建装置，该装置包括：

视频流获取模块，用于分别获取同一场景的至少三个相机视角的深度视频流；

点云确定模块，用于确定与所述至少三个相机视角的深度视频流相对应的目标前景点云和目标背景点云；

3D视频模型确定模块，用于根据与所述深度视频流相对应目标点云处理方式对所述目标前景点云和所述目标背景点云进行处理，得到与所述深度视频流相对应的3D视频模型。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开实施例任一所述的3D视频模型重建方法。

第四方面，本公开实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例任一所述的3D视频模型重建方法。

本公开实施例的技术方案，通过分别获取同一场景的至少三个相机视角的深度视频流；确定与所述至少三个相机视角的深度视频流相对应的目标前景点云和目标背景点云；根据与所述深度视频流相对应目标点云处理方式对所述目标前景点云和所述目标背景点云进行处理，得到与所述深度视频流相对应的3D视频模型，解决了3D视频模型重建过程中需要多个相机数量、且在拍摄过程中采集内容范围较窄，从而聚焦在人体的三维重建上，存在应用范围较窄的问题，实现了在使用较少相机的前提下可以实现三维重建，进而使用重建后的模型，提高了模型使用的便捷性和普适性的效果。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的一种3D视频模型重建方法的流程示意图；

图2为本公开实施例提供的一种相机参数部分参数数据图像；

图3为本公开实施例提供的一种深度相机的放置方式；

图4为本公开实施例提供的又一深度相机放置方式示意图；

图5为本公开实施例的又一深度相机放置方式示意图；

图6为本公开实施例提供的一种前景图像和背景图像分割的示意图；

图7为本公开实施例提供的前景图像和背景图像的分割结果示意图；

图8为本公开实施例二所提供的一种3D视频模型重建方法的流程示意图；

图9为本公开实施例提供的一种点云填补示意图；

图10为本公开实施例提供的一种点云填补结果图；

图11为本公开实施例三所提供的一种3D视频模型重建方法的流程示意图；

图12为本公开实施中提供的一种基于视频帧融合方式作为点云处理方式的流程示意图；

图13为本公开实施中提供的一种基于点云融合方式作为点云处理方式的流程示意图；

图14为本公开实施例四所提供的一种3D视频模型重建装置结构示意图；

图15为本公开实施例四所提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

实施例一

图1为本公开实施例一所提供的一种3D视频模型重建方法的流程示意图，本实施例可适用于构建与深度视频流相对应的3D视频模型流的情况，该方法可以由3D视频捕获装置来执行，该装置可以通过软件和/或硬件的形式实现，该硬件可以是电子设备，如移动终端、PC端或服务器等。

如图1所示，本公开实施例的方法包括：

S110、分别获取同一场景的至少三个相机视角的深度视频流。

其中，本公开实施例中的相机为深度相机，相比于传统相机，深度相机具有深度测量的功能，能够更加准确的感知周围环境及变化，可以应用于许多场景，例如可以用于三维建模、无人驾驶、机器人导航、人脸解锁以及体感游戏等。视频流可以理解为视频数据或者视频帧对应的多媒体数据流，示例性的，可以为视频中有序的图像序列。深度视频流可以理解为基于深度相机拍摄的带有深度信息的视频流，深度视频流中可以包含一个是视频帧，也可以包含多个视频帧；深度相机可以为RGBD相机，深度相机的数量可以为一个或多个。示例性的，可以将两个或多个深度相机放置在不同的光轴上，在不同视角对同一场景拍摄二维图像视频，获取视频图像中像素点的深度信息，得到不同视角的深度视频流，当视频帧的数量为多个时，且深度视频流中包含的视频帧的数量为多个时，位于不同角度位置的多个深度相机拍摄的视频帧数量相同。相机视角可以理解相机对同一场景中物体的拍摄角度。为了得到与目标区域相对应的三维模型，可以部署多个相机。为了全方位看到目标区域中各个用户的信息，多个深度相机的拍摄角度可以存在重叠，即所有深度相机的相机角度整合在一起全方位覆盖目标区域，如，在深度相机在同一水平方向上360度覆盖目标区域。同一场景可以理解为多个深度相机共同拍摄的一个场景。例如，在篮球比赛中存在精彩瞬间，如果需要全方位看到某个球员的精彩瞬间，同一场景可以是篮球比赛区域，此时可以将深度相机部署在篮球场区域的周围，以能够拍摄篮球场区域，从而得到与每个深度相机所对应的深度视频流。

具体的，利用深度相机拍摄的视频流中包含的RGB流和深度信息流，可以将编码后的RGB流通过RGB通道发送至云端服务器，将深度信息流均匀分配至RGB通道中，然后再进行编码，将编码后的深度信息流发送至云端服务器。在将深度视频流发送至云端服务器或其他存储设备中时，可以将拍摄的视频帧进行实时发送，也可以在多帧打包后发送。当然，如果应用在非实时场景中，可以在视频拍摄完毕后，将每个深度相机拍摄的深度视频流打包，以压缩包的形式发送至云端服务器。

其中，深度信息流可以由16字节表示，RGB三个通道传输的数据可以由8字节表示。进一步的，对深度视频流的编码可以采用高效率视频编码。

需要说明的是，不论是实时打包还是视频拍摄完成后发送至服务器，每个压缩包中的视频帧的数量相等。

可选的，所述分别获取同一场景的至少三个相机视角的深度视频流，包括：基于设置在同一场景的至少三个深度相机分别采集目标区域的深度视频流；其中，所述至少三个深度相机的相机视角对所述目标区域360°覆盖。

其中，目标区域可以理解为放置在不同角度位置的深度相机可以拍摄的视角范围内的场景区域，在放置深度相机时，可以将深度相机的摆放位置为同一水平面的同一高度，环绕目标区域放置，且相邻两个深度相机的拍摄视角可以重叠。根据深度相机放置角度的不同，深度相机的视角范围可以覆盖部分目标区域，也可以覆盖全部目标区域，以深度相机的视角对目标区域的360°覆盖为最佳放置方式。具体的，深度相机的摆放位置可以与相机参数相关，相机参数可以包括视角和深度范围等，如图2所示，图2为本公开实施例提供的一种相机参数部分参数数据图像。

以篮球场比赛场景为例，为了全方位的获得篮球比赛的场景画面，可以在篮球场的同一平面的同一高度，环绕篮球场，在不同角度放置至少三个深度相机对篮球场进行拍摄，则多个深度相机可以拍摄的视角范围内的篮球场景即为目标区域。

具体的，当深度相机的拍摄对象为用户时，目标区域可以理解为整个用户，在深度相机的拍摄视角范围内，站立一个静止的用户，将至少三个深度相机按照同一高度放置在用户的不同角度，保证至少三个深度相机的拍摄视角覆盖用户的360°范围，使深度相机从各个角度获取深度图片信息，例如可以包括用户的位姿信息等，进而，可以采集至少三个深度相机在同一场景下的不同角度对用户进行拍摄的深度视频流。

特别的，还可以根据具体的采集场景不同和场地的限制，基于预先设计的可视化方案设置多台深度相机的分布，根据不同的相机参数，以及用户希望看到的视频角度，深度相机的分布方式可以有多种。如图3所示，图3为本公开实施例提供的一种深度相机的放置方式，若每个深度相机的视角为45°或60°，将至少三个深度相机放置同一水平面的同一高度，在不同的角度拍摄用户，此时深度相机的视角范围为部分目标区域。同样的，当深度相机的拍摄视角为30°或45°时，深度相机的分布方式还可以如图4所示，图4为本公开实施例提供的又一深度相机放置方式示意图。深度相机的分布方式还可以如图5所示，图5为本公开实施例的又一深度相机放置方式示意图。此时深度相机的拍摄视角为120°，将三个深度相机分别放置在用户的周围，此时，深度相机的视角范围可以实现目标区域的360°覆盖。

也就是说，可以基于每个深度相机的相机参数，例如，广角参数，内参以及外参，确定各深度相机的摆设位置，进而拍摄得到同一场景的深度视频流。需要说明的是，所有深度相机的相机视角范围可以360°覆盖目标区域，也可以根据实际需求不全方位覆盖，例如，直播场景中，通常对用户的正面是比较关注的，此时，设置的深度相机可以只用拍摄主播用户的正面信息，进而得到正面信息的3D视频模型流。

S120、确定与所述至少三个相机视角的深度视频流相对应的目标前景点云和目标背景点云。

在本实施例中，可以同时对每个相机视角的深度视频流进行处理，得到与每个深度视频流相对应的前景点云和目标背景点云。

还需要说明的是，每个深度视频流中包括的视频帧数量可以是一帧也可以是多帧，为了清楚的介绍本技术方案，可以以对其中一个视频帧处理为例来介绍。

其中，点云可以理解为在一个三维坐标系统中的一组向量的集合，对物体进行扫描时以点的形式记录，每个点包含有三维坐标，在这个三维坐标系统中，除了包含集合位置信息外，还可能包括颜色信息(RGB)或反射强度信息等。例如在对一张图像进行处理时，可以将图像按照需求将图像分割为前景图像和背景图像。前景图像可以理解为图像中的主体区域或感兴趣区域，背景图像可以理解为图像中与主体区域无关的区域，例如，在一张图像中由一个站立的用户和自然风景等组成，在对图像进行处理时，可以将图像中的用户作为主体区域，自然风景作为非主体区域，然后对图像进行前景图像和背景图像分割时，可以得到与用户对应的前景图像，以及与自然风景对应的背景图像。具体的前景图像和背景图像的确定可以根据实际情况进行设置，确定方式可以由用户自定义划分，也可以由软件自动识别得到。目标前景点云可以理解为对图像进行扫描时，根据图像中的前景图像和背景图像的划分，对前景图像进行扫描，以点的形式记录，且每个点中不仅包含该点的几何位置信息，还包括该点对应位置的的颜色信息和强度信息。同样的，目标背景点云可以理解为对图像中的背景图像进行扫描后，得到背景图像每个像素点的几何位置信息、颜色信息和强度信息。

示例性地，参见图6，对其示意图进行前背景分割之前，可以设置主体区域和非主体区域，例如，将图像中的用户和盆栽作为主体区域，将图像中的墙壁、饮水机以及其他区域为非主体区域。在采用前背景分割技术对图像分割后，可以得到如图7所示的前景图像和背景图像。

具体的，每个深度相机都可以拍摄得到一个深度视频流，深度视频流的数量与深度相机的数量相等，且每个深度视频流可以包括一个视频帧或多个视频帧，当深度视频流中的视频帧为多个时，每个深度视频流中的视频帧的数量相等。获取深度视频流后，对每个视频流中的视频帧进行像分割，得到前景图像和背景图后，同时可以记录视频帧的前景图像和背景图像中每个像素点在三维坐标系统中的信息，可选的，三维坐标系统中的信息可以包括几何位置信息、颜色信息和强度信息。基于上述信息，可以确定目标前景云和目标背景云。

也就是说，可以对每个深度视频流的前景图像进行融合处理，得到目标前景点云，同时，对每个深度视频流的背景图像进行融合处理，得到目标背景点云。还需要说明的是，如果视频流中包括多个视频帧，可以对同一时刻的各视频流的视频帧进行融合处理。

S130、根据与所述深度视频流相对应目标点云处理方式对所述目标前景点云和所述目标背景点云进行处理，得到与所述深度视频流相对应的3D视频模型。

其中，可以将对目标前景点云和背景点云融合处理时，所采用的方式作为目标点云处理方式。也就是说，对于不同的点云类型可以采用不同的点云处理方式。

具体的，可以采用目标点云处理方式，对各深度视频流中同一时刻视频帧的目标前景点云和目标背景点云进行融合，得到与目标区域相对应的3D点云模型，基于3D点云模型可以确定出3D视频模型。

需要说明的是，由于各深度视频流可以是实时发送的，那么视频帧的数量可以包括多个，相应的，3D视频模型的数量也可以包括多个，即得到与各深度视频流相对应的3D视频模型流。。

在上述技术方案的基础上，在得到与深度视频流相对应的3D视频模型之后，还包括：基于用户关联信息，将与所述深度视频流相对应的3D视频模型依次下发至目标客户端。

其中，用户关联信息包括用户观看视角信息，或者用户所使用的显示设备信息等。例如，对于某些主播用户来说，所使用的设备性能比较好，对图像的整个要求较高，可以将整个3D视频模型整个下发至用户，以使主播用户所对应的客户端进行播放；还可以是，某些主播用户只需要显示的视频可以根据用户的视角进行变化，此时，可以根据用户的视角参数或显示设备参数，确定3D视频模型中某些视角下的图像发送至用户所对应的显示设备，即客户端。

具体的，以应用场景为直播场景举例，用户关联信息可以理解为观看该直播场景的用户的信息。可以将三维视频模型直接下发至各用户，由于三维视频模型的数据量比较大，需要使用5G传输或光纤通信。为了提高3D视频模型的普适性，可以获取用户的视觉角度，基于用户的视觉角度可以确定对3D视频模型进行渲染的渲染角度，进而基于渲染角度渲染得到发送至各目标客户端的目标图像，以使观看直播的用户可以在不同观看角度看不同的视频图像，从而达到三维显示的技术效果，解决了在客户端重建三维视频时，存在成本较高的问题，以及，存储数量较大的问题，此时，可以根据用户的关联参数，确定对视频模型的具体处理方式，进而将处理后的内容下发至相应的客户端。

实施例二

图8为本公开实施例二所提供的一种3D视频模型重建方法的流程示意图，在前述实施例的基础上，对所述确定与所述至少三个相机视角的深度视频流相对应的各目标前景点云和各目标背景点云进行细化。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

S210、分别获取同一场景的至少三个相机视角的深度视频流。

S220、针对各深度视频流中的视频帧，对所述视频帧进行前背景分割，得到所述视频帧的前景图像和背景图像。

其中，在一段视频中，视频图像按照时间顺序展示的图像序列，每个图像可以视为一个视频中的一个视频帧。

具体的，对每个深度相机所拍摄的深度视频流中的每个视频帧进一步进行处理，首先对得到视频帧进行前景图像和背景图像的分割，图像分割方式可以采用K均值聚类算法、小波变换法、阈值分割法、区域增长法、边缘分割法或滤波分割法中的一种或者多种，具体的图像分割方法不做限定，以能够准确进行图像分割为标准，由用户自定义设置。通过图像分割处理，可以得到每个视频帧的前景图像和背景图像。

可选的，所述对所述视频帧进行前背景分割，得到所述视频帧的前景图像和背景图像，包括：根据目标区域的纯背景图像对所述深度视频流中的视频帧进行前背景分割，得到与所述视频帧相对应的前景图像和背景图像。

具体的，在采用至少三个深度相机在同一场景的不同角度对目标区域拍摄时，目标区域的背景可以为纯色背景，进而，可以利用视频中的背景图像和前景图像的颜色信息差异，对视频帧图像进行图像分割，例如，可以根据图像的RGB信息，以图像中纯色背景图像的RGB值作为阈值进行图像分割，去除视频帧图像的纯色背景，保留图像中的前景图像。

S230、基于各视频帧的前景图像确定所述至少三个相机视角的深度视频流的目标前景点云，基于各视频帧的背景图像确定所述至少三个相机视角的深度视频流的目标背景点云。

具体的，对每个视频帧的前景图像和背景图像中的每个像素点进行扫描，获得每个像素点的RGB信息流、深度信息流以及该像素点在三维坐标系统中的几何位置信息。根据获得的前景图像中每个像素点的信息，进一步可以将前景图像中的像素点信息作为目标前景点云；根据获得的背景图像中每个像素点的信息，进一步可以将背景图像中的像素点信息作为目标背景点云。

可选的，所述基于各视频帧的前景图像确定所述至少三个相机视角的深度视频流的目标前景点云，基于各视频帧的背景图像确定所述至少三个相机视角的深度视频流的目标背景点云，包括：基于各视频帧的前景图像，确定与所述至少三个相机视角的深度视频流相对应的第一待填补点云；基于各视频帧的背景图像，确定与所述至少三个相机视角的深度视频流相对应的第二待填补点云；基于各前景图像和各背景图像对所述第一待填补点云和所述第二待填补点云进行填补处理，得到所述目标前景点云和所述目标背景点云。

在深度相机拍摄过程中，由于深度相机的摆放角度，可能会出现遮挡区域导致的视频帧中出现缺失或孔洞现象。其中，第一待填补点云可以理解为针对深度视频流中的视频帧的前景图像需要进行点云填补处理的像素点；第二待填补点云可以理解为针对深度视频流中的视频帧的背景图像需要进行点云填补处理的像素点。

具体的，如图9和图10所示，通过多个深度视频在不同角度对用户进行拍摄时，在不同的角度，不同角度的深度视频帧中包含的该用户的图像信息不完全相同，例如在某个视频帧中缺失或有孔洞的区域，如图9所示，图9中方框标记的区域为深度相机在某个角度拍摄的视频帧中的缺失的区域，在相对应的另外一种视频帧中的该区域的信息可能是完整的，如图10所示，图10中方框标记的区域为深度相机在另外一个角度拍摄同一时刻的视频帧，方框标记的区域未缺失，因此，可以利用点云填补技术对视频帧中的缺失或孔洞进行填补。

示例性地，基于各个视频帧图像的前景图像进行第一待填补点云技术处理，将其中一个深度视频拍摄的视频帧图像作为待填补视频帧，获取其他深度相机拍摄的对应的视频帧中的，与待填补区域对应的像素点的RGB信息、深度信息以及在三维坐标系统中的位置信息，利用第一待填补点云技术对待填补视频帧的前景图像中缺失部分或孔洞部分的像素点进行填补，得到目标前景点云。采用同样的方法，利用第二待填补点云技术对各个视频帧中的背景图像中缺失部分或孔洞部分的像素点进行填补，得到目标背景点云。

这样设置的好处在于，可以使视频帧中的图像信息更加完整，进而解决由于设备问题或拍摄过程中出现的遮挡问题，亦或是由于光线过强或过暗时，利用点云技术对采集的图像进行填补，获得更加完整清晰的图像。

S240、根据与所述深度视频流相对应目标点云处理方式对所述目标前景点云和所述目标背景点云进行处理，得到与所述深度视频流相对应的3D视频模型。

本公开实施例针对各深度视频流中的视频帧，对所述视频帧进行前背景分割，得到所述视频帧的前景图像和背景图像，进而对分割后的前景图像和背景图像分别进行扫描，基于每个像素点的颜色信息、深度信息和三维坐标系统中的几何位置信息，可以获得目标前景点云和目标背景点云。基于各视频帧的前景图像确定所述至少三个相机视角的深度视频流的目标前景点云，基于各视频帧背景图像确定所述至少三个相机视角的深度视频流的目标背景点云，用于将目标前景点云和目标背景点云进行处理，进而得到与深度视频流对应的3D视频模型。解决了视频帧中由于角度或遮挡造成的图像信息不完整的问题，实现了智能填补视频帧中的遮挡区域的效果。

实施例三

图11为本公开实施例三所提供的一种3D视频模型重建方法的流程示意图，在前述实施例的基础上，深度视频流中包括的视频帧的数量可以为一个，也可以为多个，通过判断视频帧的数量，确定与深度视频流相对应的视频帧的处理方式。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

如图11所示，该方法具体包括：

S310、分别获取同一场景的至少三个相机视角的深度视频流。

S320、确定与所述至少三个相机视角的深度视频流相对应的目标前景点云和目标背景点云。

S330、判断与深度视频流相对应的视频帧的数量是否为多帧，若是，则执行S340；若否则执行S350。

具体的，根据与每个相机视角的深度视频流中的视频帧的数量，确定对相应的目标点云的处理方式。如果与深度视频流相对应的视频帧的数量为多帧，则执行S340；如果与深度视频流相对应的视频帧的数量为单帧，则执行S350。

S340、如果与每个相机视角的深度视频流中包括多个视频帧，则所述目标点云处理方式为视频帧融合方式。

其中，帧融合方式可以理解为一种使视频播放更加流畅的方式，帧融合方式可以包括基于光流的视频帧融合、基于可变性卷积的视频帧融合以及基于RGB信息的视频帧融合方法等。

具体的，在视频在快放和慢放时，会对视频本身的素材进行拉伸和挤压，对视频的原像素造成影响，使视频播放时出现卡顿的情况，采用帧融合的方式可以使视频帧的场能够有机的结合一部分，使视频画面更加流畅。

具体的，若深度视频流中包括多个视频帧，则分别各个深度视频流中对应的视频帧的前景图像和背景图像进行视频帧融合处理。以对视频帧中的前景图像进行视频帧融合为例，利用对应的前景图像中对应的像素点的信息，基于三维坐标系统中对应位置的像素点，将每个像素点的颜色信息和深度信息进行融合，进而可以得到3D前景图像。这样做的好处在于通过将多帧视频帧进行融合不仅可以将视频帧由于像素点被挤压或被拉伸的部分进行融合，使视频更加流畅，可以填补深度视频流中由于拍摄时出现遮挡区域或者弥补3D视频采集不足的问题。

在一个具体的例子中，如图12所示，图12为本公开实施中提供的一种基于视频帧融合方式作为点云处理方式的流程示意图。

在本公开实施中，采用的相机为RGBD深度相机，采集第一RGBD深度相机、第二RGBD深度相机和第三RGBD深度相机的深度视频流，且视频流中仅包含一帧视频帧。其中，第一、第二和第三仅作为示意性而非限制性的，不具备实际含义。对于每一帧视频帧进行图像分割，获得每个深度相机视频流的视频帧中的目标前景图像和目标背景图像，进而生成前景点云和背景点云，基于点云填补技术对目标前景图像和目标背景图像中需要填补的区域进行点云填补，然后利用视频帧融合技术将各个深度相机拍摄的同一时刻的视频帧进行融合，得到3D前景视频以及3D背景视频，按照时间帧集合，可以得到3D视频流。

可选的，如果所述目标点云处理方式为视频帧融合方式，则基于所述视频帧融合方式将各相机视角的深度视频流中各视频帧的各目标前景点云进行处理，得到3D前景视频帧；以及基于所述视频帧融合方式将各相机视角的深度视频流中各视频帧的各目标背景点云进行处理，得到3D背景视频帧；基于所述3D前景视频帧和所述3D背景视频帧进行融合处理，得到与所述至少三个相机视角的深度视频流相对应的3D视频模型流。

具体的，如果采用视频帧融合方式对对视频帧进行处理，可以将各个相机视角的深度视频流中的视频帧图像进行帧融合处理，将每帧视频帧图像中的特征点的相对位姿进行融合。利用目标前景点云处理分别对每个深度相机的各个角度深度相机视频流中的视频帧中的前景图像进行点云填补，可以获得3D前景视频帧，利用目标背景点云处理分别对每个深度相机的各个角度深度相机视频流中的视频帧中的背景图像进行点云填补，可以得到3D背景视频帧，然后将得到的3D视频前景视频帧和3D视频背景帧进行融合，得到至少三个相机视角的深度视频流相对应的3D视频模型流。

S350、如果与每个相机视角的深度视频流中包括一个视频帧，则所述目标点云处理方式为点云融合方式。

其中，点云融合方式可以理解为通过一个固定范围搜索进行点云融合，根据图像中的某个像素点的搜索范围内符合融合标准的像素点，判断两个像素点是否为相似点，如果为相似点，则将该像素点与搜索范围内的相似点进行融合。

具体的，如果每个相机视角的深度视频流中包含一个视频中，则可以对该视频帧采用点云融合方式进行处理。示例性地，以视频帧中的关键特征点为当前点，将像素点的深度信息作为预设条件，在当前点的搜索范围进行搜索，根据像素点的深度信息是否满足预设条件，可以判断当前点的搜索范围内是否存在与当前点相似的像素点，如果存在相似点，则将该相似点与当前点进行融合。例如当像素点满足深度信息预设条件，则像素点A和像素点B为相似点，若以像素点A为当前点，则像素点B会被融合；若像素点B在处于图像中的拐角处，则场景在转角处将失去直角特性，变得圆滑，使图像的轮廓更加流畅。

在一个具体的例子中，如图13所示，在本公开实施中，采用的相机为RGBD深度相机，采集第一RGBD深度相机、第二RGBD深度相机和第三RGBD深度相机的深度视频流，且视频流中仅包含一帧视频帧。其中，第一、第二和第三仅作为示意性而非限制性的，不具备实际含义。对于每一帧视频帧进行图像分割，获得每个深度相机视频流的视频帧中的目标前景图像和目标背景图像，进而生成前景点云和背景点云，分别对目标前景图像和目标背景图像中需要填补的像素点区域进行点云填补，然后利用点云融合技术将填补后的前景图像和背景图像进行融合，可以得到3D点云合成视频帧图像。

可选的，如果所述目标点云处理方式为点云融合方式，则基于所述点云融合方式对所述目标前景点云和所述目标背景点云进行融合，得到所述与所述深度视频流相对应的3D视频模型。

具体的，当目标点云处理方式为点云融合方式时，对深度相机视频流的视频帧的前景图像和背景图像的目标前景点云和目标背景点云进行融合，进而可以得到与深度视频流相对应的3D视频模型。

本公开实施例通过确定与所述至少三个相机视角的深度视频流相对应的目标点云处理方式，对视频流中的视频帧为多个或单个，进行不同的处理，如果与每个相机视角的深度视频流中包括多个视频帧，则所述目标点云处理方式为视频帧融合方式，将深度视频流中的多个视频帧进行融合可以得到更加流畅的3D视频，且可以填补3D视频捕获过程中视频帧不足的问题；如果与每个相机视角的深度视频流中包括一个视频帧，则所述目标点云处理方式为点云融合方式，对单帧视频帧进行点云融合方式可以填补图像中遮挡区域，使视频帧图像更加完整。解决3D视频捕获过程中需要多个相机数量、且在拍摄过程中采集内容范围较窄，导致应用范围较窄，以及在拍摄过程中出现遮挡物或3D视频拍摄不足的问题，实现利用较少的相机数量捕获3D视频，以及智能填补拍摄过程中遮挡区域或补充3D视频采集不足的效果。

实施例四

图14为本公开实施例四所提供的一种3D视频模型重建装置结构示意图，该装置具体包括：视频流获取模块410、点云确定模块420、3D视频模型确定模块以及430。

视频流获取模块410，用于分别获取同一场景的至少三个相机视角的深度视频流；

点云确定模块420，用于确定与所述至少三个相机视角的深度视频流相对应的目标前景点云和目标背景点云；

3D视频模型确定模块430，用于根据与所述深度视频流相对应目标点云处理方式对所述目标前景点云和所述目标背景点云进行处理，得到与所述深度视频流相对应的3D视频模型。

在上述技术方案的基础上，可选地，所述视频流获取模块，用于：

基于设置在同一场景的至少三个深度相机分别采集目标区域的深度视频流；

其中，所述至少三个深度相机的相机视角对所述目标区域360°覆盖。

在上述技术方案的基础上，可选地，所述点云确定模块，具体包括：

背景分割单元，用于针对各深度视频流中的视频帧，对所述视频帧进行前背景分割，得到所述视频帧的前景图像和背景图像；

前景图像确定单元，用于基于各视频帧的前景图像确定所述至少三个相机视角的深度视频流的目标前景点云，基于各视频帧的背景图像确定所述至少三个相机视角的深度视频流的目标背景点云。

在上述技术方案的基础上，可选地，所述背景分割单元，用于：

根据目标区域的纯背景图像对所述深度视频流中的视频帧进行前背景分割，得到与所述视频帧相对应的前景图像和背景图像。

在上述技术方案的基础上，可选地，所述前景图像确定单元，具体包括：

第一待填补点云确定子单元，用于基于各视频帧的前景图像，确定与所述至少三个相机视角的深度视频流相对应的第一待填补点云；

第二待填补点云确定子单元，用于基于各视频帧的背景图像，确定与所述至少三个相机视角的深度视频流相对应的第二待填补点云；

点云确定子单元，用于基于各前景图像和各背景图像对所述第一待填补点云和所述第二待填补点云进行填补处理，得到所述目标前景点云和所述目标背景点云。

在上述技术方案的基础上，可选地，所述3D视频模型确定模块，具体包括：

点云处理方式单元，用于确定与所述至少三个相机视角的深度视频流相对应的目标点云处理方式；

所述点云处理方式单元，具体包括：

视频帧融合子单元，用于如果与每个相机视角的深度视频流中包括多个视频帧，则所述目标点云处理方式为视频帧融合方式；

点云融合子单元，用于如果与每个相机视角的深度视频流中包括一个视频帧，则所述目标点云处理方式为点云融合方式。

在上述技术方案的基础上，可选地，所述视频帧融合子单元，用于：

如果所述目标点云处理方式为视频帧融合方式，则基于所述视频帧融合方式将各相机视角的深度视频流中各视频帧的各目标前景点云进行处理，得到3D前景视频帧；以及基于所述视频帧融合方式将各相机视角的深度视频流中各视频帧的各目标背景点云进行处理，得到3D背景视频帧；

基于所述3D前景视频帧和所述3D背景视频帧进行融合处理，得到与所述至少三个相机视角的深度视频流相对应的3D视频模型流。

在上述技术方案的基础上，可选地，所述点云融合子单元，用于：

如果所述目标点云处理方式为点云融合方式，则基于所述点云融合方式对所述目标前景点云和所述目标背景点云进行融合，得到所述与所述深度视频流相对应的3D视频模型。

在上述技术方案的基础上，可选地，所述3D视频捕获装置还包括：

模型下发模块，用于基于用户关联信息，将与所述深度视频流相对应的3D视频模型依次下发至目标客户端。

本公开实施例所提供的3D视频捕获装置可执行本公开任意实施例所提供的3D视频模型重建，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

实施例五

图15为本公开实施例五所提供的一种电子设备的结构示意图。下面参考图15，其示出了适于用来实现本公开实施例的电子设备(例如图15中的终端设备或服务器)600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图15示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图15所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置606加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置606；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图15示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置606被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

实施例六

本公开实施例六提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所提供的3D视频模型重建方法。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取至少两个网际协议地址；向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求，其中，所述节点评价设备从所述至少两个网际协议地址中，选取网际协议地址并返回；接收所述节点评价设备返回的网际协议地址；其中，所获取的网际协议地址指示内容分发网络中的边缘节点。

或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：接收包括至少两个网际协议地址的节点评价请求；从所述至少两个网际协议地址中，选取网际协议地址；返回选取出的网际协议地址；其中，接收到的网际协议地址指示内容分发网络中的边缘节点。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，【示例一】提供了一种3D视频模型重建方法，该方法包括：

分别获取同一场景的至少三个相机视角的深度视频流；

根据本公开的一个或多个实施例，【示例二】提供了一种3D视频模型重建方法，还包括：

根据本公开的一个或多个实施例，【示例三】提供了一种3D视频模型重建方法，还包括：

针对各深度视频流中的视频帧，对所述视频帧进行前背景分割，得到所述视频帧的前景图像和背景图像；

基于各视频帧的前景图像确定所述至少三个相机视角的深度视频流的目标前景点云，基于各视频帧的背景图像确定所述至少三个相机视角的深度视频流的目标背景点云。

根据本公开的一个或多个实施例，【示例四】提供了一种3D视频模型重建方法，还包括：

根据本公开的一个或多个实施例，【示例五】提供了一种3D视频模型重建方法，还包括：

基于各视频帧的前景图像，确定与所述至少三个相机视角的深度视频流相对应的第一待填补点云；

基于各视频帧的背景图像，确定与所述至少三个相机视角的深度视频流相对应的第二待填补点云；

基于各前景图像和各背景图像对所述第一待填补点云和所述第二待填补点云进行填补处理，得到所述目标前景点云和所述目标背景点云。

根据本公开的一个或多个实施例，【示例六】提供了一种3D视频模型重建方法，还包括：

确定与所述至少三个相机视角的深度视频流相对应的目标点云处理方式；

所述确定与所述至少三个相机视角的深度视频流相对应的目标点云处理方式，包括：

如果与每个相机视角的深度视频流中包括多个视频帧，则所述目标点云处理方式为视频帧融合方式；

如果与每个相机视角的深度视频流中包括一个视频帧，则所述目标点云处理方式为点云融合方式。

根据本公开的一个或多个实施例，【示例七】提供了一种3D视频模型重建方法，还包括：

根据本公开的一个或多个实施例，【示例八】提供了一种3D视频模型重建方法，还包括：

根据本公开的一个或多个实施例，【示例九】提供了一种3D视频模型重建方法，还包括：

基于用户关联信息，将与所述深度视频流相对应的3D视频模型依次下发至目标客户端。

根据本公开的一个或多个实施例，【示例十】提供了一种3D视频捕获装置，该装置包括：

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种3D视频模型重建方法，其特征在于，包括：

分别获取同一场景的至少三个相机视角的深度视频流；

2.根据权利要求1所述的方法，其特征在于，所述分别获取同一场景的至少三个相机视角的深度视频流，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定与所述至少三个相机视角的深度视频流相对应的各目标前景点云和各目标背景点云，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述视频帧进行前背景分割，得到所述视频帧的前景图像和背景图像，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于各视频帧的前景图像确定所述至少三个相机视角的深度视频流的目标前景点云，基于各视频帧背景图像确定所述至少三个相机视角的深度视频流的目标背景点云，包括：

6.根据权利要求1所述的方法，其特征在于，在所述根据与所述深度视频流相对应目标点云处理方式对所述目标前景点云和所述目标背景点云进行处理，得到与所述深度视频流相对应的3D视频模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据与所述深度视频流相对应目标点云处理方式对所述目标前景点云和所述目标背景点云进行处理，得到与所述深度视频流相对应的3D视频模型，包括：

8.根据权利要求6所述的方法，其特征在于，所述根据与所述深度视频流相对应目标点云处理方式对所述目标前景点云和所述目标背景点云进行处理，得到与所述深度视频流相对应的3D视频模型，包括：

9.根据权利要求1所述的方法，其特征在于，在得到与深度视频流相对应的3D视频模型之后，还包括：

10.一种3D视频捕获装置，其特征在于，包括：

11.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的3D视频模型重建方法。

12.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-9中任一所述的3D视频模型重建方法。