CN116095338A

CN116095338A - 体积视频的解码方法、装置、介质、设备及产品

Info

Publication number: CN116095338A
Application number: CN202310064989.1A
Authority: CN
Inventors: 张煜; 岳鑫; 邵志兢; 孙伟
Original assignee: Zhuhai Prometheus Vision Technology Co ltd
Current assignee: Zhuhai Prometheus Vision Technology Co ltd
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-05-09

Abstract

本申请公开了一种体积视频的解码方法、装置、介质、设备及产品，涉及计算机技术领域，该方法包括：获取体积视频对应的多帧待解码图像；提取每一帧所述待解码图像对应的全局特征；基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度；基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频。本申请整体解码过程效率高且解码出的三维模型可靠性高，可以有效提升体积视频的解码效率且提升解码效果。

Description

体积视频的解码方法、装置、介质、设备及产品

技术领域

本申请涉及计算机技术领域，具体涉及一种体积视频的解码方法、装置、介质、设备及产品。

背景技术

体积视频是连续的三维模型的模型序列，体积视频中通常包括大量的三维模型，通常存在对体积视频进行编解码的需求。目前，相关技术中，存在将体积视频中三维模型编码为顶点数据及面片数据等编码数据，通过大量复杂解码计算对编码数据进行解码来播放体积视频的方案。目前的方案中，存在体积视频的解码存在解码效率较低及解码效果较差的问题。

发明内容

本申请实施例提供一种方案，可以提升体积视频的解码效率且提升解码效果。

为解决上述技术问题，本申请实施例提供以下技术方案：

根据本申请的一个实施例，一种体积视频的解码方法，所述方法包括：获取体积视频对应的多帧待解码图像；提取每一帧所述待解码图像对应的全局特征；基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度；基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频。

在本申请的一些实施例中，所述提取每一帧所述待解码图像对应的全局特征，包括：针对每一帧所述待解码图像，对所述待解码图像进行特征提取处理，得到所述待解码图像对应的图像特征；对所述待解码图像对应的图像特征进行特征融合处理，得到所述待解码图像对应的全局特征。

在本申请的一些实施例中，所述对所述待解码图像进行特征提取处理，得到所述待解码图像对应的图像特征，包括：对所述待解码图像进行多层级的编码处理，得到每一层级的编码处理所输出的图像特征；其中，每个层级的编码处理包括依次进行的卷积处理及最大池化处理；前一层级的编码处理所输出的图像特征用于下一层级的编码处理；所述对所述待解码图像对应的图像特征进行特征融合处理，得到所述待解码图像对应的全局特征，包括：对待融合特征进行多层级的解码处理，得到每一层级的解码处理所输出的融合特征；其中，每一层级的解码处理包括依次进行的反卷积处理、拼接处理及卷积处理；前一层级的解码处理所输出的融合特征用于下一层级的解码处理；每一层级的拼接处理包括：将反卷积处理输出的反卷积特征与相同层级的图像特征拼接，得到用于进行卷积处理的拼接特征；根据最后一层级的解码处理所输出的所述融合特征，得到所述待解码图像对应的全局特征。

在本申请的一些实施例中，所述将反卷积处理输出的反卷积特征与相同层级的图像特征拼接，得到用于进行卷积处理的拼接特征，包括：对所述相同层级的图像特征计算注意力分布，并根据所述注意力分布计算加权平均，得到相同层级的加权平均特征；将反卷积处理输出的反卷积特征与相同层级的加权平均特征拼接，得到用于进行卷积处理的拼接特征。

在本申请的一些实施例中，所述基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度，包括：将每一帧所述待解码图像对应的全局特征分别输入循环神经网络进行深度分析处理，得到所述循环神经网络输出的每一帧所述待解码图像对应的深度。

在本申请的一些实施例中，所述将每一帧所述待解码图像对应的全局特征分别输入循环神经网络进行深度分析处理，得到所述循环神经网络输出的每一帧所述待解码图像对应的深度，包括：将每一帧所述待解码图像对应的全局特征分别输入门控循环单元进行深度分析处理，得到所述门控循环单元输出的每一帧所述待解码图像对应的深度。

在本申请的一些实施例中，所述基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，包括：将每一帧所述待解码图像及对应的所述全局特征与所述深度分别输入卷积神经网络进行渲染处理，得到所述卷积神经网络输出的每一帧所述待解码图像对应的三维模型。

在本申请的一些实施例中，所述基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型之后，所述方法包括：将解码出的多帧三维模型，按照每帧三维模型对应的待解码图像对应的顺序序列化处理，得到所述体积视频。

根据本申请的一个实施例，一种体积视频的解码装置，所述装置包括：获取模块，用于获取体积视频对应的多帧待解码图像；提取模块，用于提取每一帧所述待解码图像对应的全局特征；分析模块，用于基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度；渲染模块，用于基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频。

在本申请的一些实施例中，所述提取模块，用于针对每一帧所述待解码图像，对所述待解码图像进行特征提取处理，得到所述待解码图像对应的图像特征；对所述待解码图像对应的图像特征进行特征融合处理，得到所述待解码图像对应的全局特征。

在本申请的一些实施例中，所述提取模块，用于：对所述待解码图像进行多层级的编码处理，得到每一层级的编码处理所输出的图像特征；其中，每个层级的编码处理包括依次进行的卷积处理及最大池化处理；前一层级的编码处理所输出的图像特征用于下一层级的编码处理；所述提取模块，还用于：对待融合特征进行多层级的解码处理，得到每一层级的解码处理所输出的融合特征；其中，每一层级的解码处理包括依次进行的反卷积处理、拼接处理及卷积处理；前一层级的解码处理所输出的融合特征用于下一层级的解码处理；每一层级的拼接处理包括：将反卷积处理输出的反卷积特征与相同层级的图像特征拼接，得到用于进行卷积处理的拼接特征；根据最后一层级的解码处理所输出的所述融合特征，得到所述待解码图像对应的全局特征。

在本申请的一些实施例中，所述提取模块，还用于：对所述相同层级的图像特征计算注意力分布，并根据所述注意力分布计算加权平均，得到相同层级的加权平均特征；将反卷积处理输出的反卷积特征与相同层级的加权平均特征拼接，得到用于进行卷积处理的拼接特征。

在本申请的一些实施例中，所述分析模块，用于：将每一帧所述待解码图像对应的全局特征分别输入循环神经网络进行深度分析处理，得到所述循环神经网络输出的每一帧所述待解码图像对应的深度。

在本申请的一些实施例中，所述分析模块，用于：将每一帧所述待解码图像对应的全局特征分别输入门控循环单元进行深度分析处理，得到所述门控循环单元输出的每一帧所述待解码图像对应的深度。

在本申请的一些实施例中，所述渲染模块，用于：将每一帧所述待解码图像及对应的所述全局特征与所述深度分别输入卷积神经网络进行渲染处理，得到所述卷积神经网络输出的每一帧所述待解码图像对应的三维模型。

在本申请的一些实施例中，所述装置还包括生成模块，用于：将解码出的多帧三维模型，按照每帧三维模型对应的待解码图像对应的顺序序列化处理，得到所述体积视频。

根据本申请的另一实施例，一种存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行本申请实施例所述的方法。

根据本申请的另一实施例，一种电子设备可以包括：存储器，存储有计算机程序；处理器，读取存储器存储的计算机程序，以执行本申请实施例所述的方法。

根据本申请的另一实施例，一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例所述的各种可选实现方式中提供的方法。

本申请实施例的体积视频的解码方案中，获取体积视频对应的多帧待解码图像；提取每一帧所述待解码图像对应的全局特征；基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度；基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频。

以这种方式，体积视频以编码为多帧待解码图像的形式提供，通过对每一帧待解码图像提升全局特征，并通过全局特征分析出深度，结合待解码图像、全局特征及深度渲染出三维模型，整体解码过程效率高且解码出的三维模型可靠性高，可以有效提升体积视频的解码效率且提升解码效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种可以应用本申请实施例的系统的示意图。

图2示出了根据本申请的一个实施例的体积视频的解码方法的流程图。

图3示出了根据本申请的另一个实施例的体积视频的解码装置的框图。

图4示出了根据本申请的一个实施例的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出了可以应用本申请实施例的系统100的示意图。如图1所示，系统100可以包括服务器101及终端102。

服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端102可以是任意的设备，终端102包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、VR/AR设备、智能手表以及计算机等等。一种实施方式中，服务器101或终端102可以是区块链网络或地图车联网平台中的节点设备。

本示例的一种实施方式中，服务器101或终端102可以：获取体积视频对应的多帧待解码图像；提取每一帧所述待解码图像对应的全局特征；基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度；基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频。

图2示意性示出了根据本申请的一个实施例的体积视频的解码方法的流程图。该体积视频的解码方法的执行主体可以是任意的设备，例如图1所示的服务器101或终端102。

如图2所示，该体积视频的解码方法可以包括步骤S210至步骤S240。

步骤S210，获取体积视频对应的多帧待解码图像；步骤S220，提取每一帧所述待解码图像对应的全局特征；步骤S230，基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度；步骤S240，基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频。

体积视频为多帧三维模型的模型序列，三维模型可以是人物、动物等对应的三维模型，体积视频通过连续的多帧三维模型可以演示对象的对象行为(例如跳舞)，每一帧三维模型可以通过多视角的多张二维图像重建得到。

预先可以将创建的体积视频编码为对应的多帧待解码图像。体积视频编码为对应的多帧待解码图像的方式：可以是将体积视频编码为用于重建体积视频中每一帧三维模型的多视角的彩色图像；也可以是将体积视频编码为针对每一帧三维模型从不同角度截取的多视角的模型图像。每一帧待解码图像可以对应一帧三维模型，每一帧待解码图像中可以包括至少一张图像。

对每一帧待解码图像进行全局信息的特征抽取，可以提取到每一帧待解码图像对应的包含全局信息的全局特征。基于每一帧待解码图像对应的全局特征进行深度分析处理，得到每一帧待解码图像对应的深度。

最后，基于每一帧待解码图像及待解码图像对应的全局特征与深度分别进行渲染处理，得到解码出的多帧三维模型，多帧三维模型序列化即可得到恢复/解码出的体积视频。

以这种方式，基于步骤S210至步骤S240，体积视频以编码为多帧待解码图像的形式提供，通过对每一帧待解码图像提升全局特征，并通过全局特征分析出深度，结合待解码图像、全局特征及深度渲染出三维模型，整体解码过程效率高且解码出的三维模型可靠性高，可以有效提升体积视频的解码效率且提升解码效果。

下面描述图2实施例中进行体积视频的解码时，所进行的各步骤下进一步具体可选实施例。

一种实施例中，步骤S220，所述提取每一帧所述待解码图像对应的全局特征，包括：针对每一帧所述待解码图像，对所述待解码图像进行特征提取处理，得到所述待解码图像对应的图像特征；对所述待解码图像对应的图像特征进行特征融合处理，得到所述待解码图像对应的全局特征。

通过特征提取网络(例如卷积网络)可以对待解码图像进行特征提取处理，得到所述待解码图像对应的图像特征，进一步的，通过特征融合网络(例如全连接网络)可以对待解码图像对应的图像特征进行特征融合处理，得到待解码图像对应的全局特征。

一种实施例中，步骤S220，所述提取每一帧所述待解码图像对应的全局特征，包括：针对每一帧所述待解码图像，通过直方图计算函数(例如Opencv中直方图计算函数)计算每一帧所述待解码图像对应的直方图作为全局特征。

一种实施例中，所述对所述待解码图像进行特征提取处理，得到所述待解码图像对应的图像特征，包括：对所述待解码图像进行多层级的编码处理，得到每一层级的编码处理所输出的图像特征；其中，每个层级的编码处理包括依次进行的卷积处理及最大池化处理；前一层级的编码处理所输出的图像特征用于下一层级的编码处理；所述对所述待解码图像对应的图像特征进行特征融合处理，得到所述待解码图像对应的全局特征，包括：对待融合特征进行多层级的解码处理，得到每一层级的解码处理所输出的融合特征；其中，每一层级的解码处理包括依次进行的反卷积处理、拼接处理及卷积处理；前一层级的解码处理所输出的融合特征用于下一层级的解码处理；每一层级的拼接处理包括：将反卷积处理输出的反卷积特征与相同层级的图像特征拼接，得到用于进行卷积处理的拼接特征；根据最后一层级的解码处理所输出的所述融合特征，得到所述待解码图像对应的全局特征。

该实施例下，首先，针对每帧待解码图像，通过特征提取网络(编码器encoder)对待解码图像进行多层级的编码处理，特征提取网络(编码器encoder)可以包括多层级联的提取网络，每一层级的提取网络通过编码处理可以输出对应层级的图像特征。其中，每个层级的提取网络中进行的编码处理具体包括依次进行的卷积处理及最大池化处理，例如，第一层级的提取网络中进行编码处理可以包括：先将待解码图像进行卷积处理，得到卷积特征，然后，将卷积特征进行最大池化处理，得到第一层级的编码处理所输出的图像特征。进一步的，前一层级的编码处理所输出的图像特征用于下一层级的编码处理，例如，第一层级的图像特征作为第二层级的提取网络的输入特征，第二层级的提取网络中先对第一层级的图像特征进行卷积处理，得到卷积特征，然后，将卷积特征进行最大池化处理，得到第二层级的编码处理所输出的图像特征。

进一步的，通过特征融合网络(解码器decoder)对待融合特征进行多层级的解码处理，特征融合网络(解码器decoder)可以包括多层级联的融合网络，每一层级的融合网络通过解码处理可以输出对应层级的融合特征。其中，每个层级的融合网络中进行的解码处理具体包括依次进行的反卷积处理、拼接处理及卷积处理，例如，第一层级的融合网络中进行解码处理可以包括：先将待融合特征进行反卷积处理，得到反卷积特征，然后，将反卷积特征进行拼接处理，得到拼接特征，然后，将拼接特征进行卷积处理，得到第一层级的解码处理所输出的融合特征。进一步的，前一层级的解码处理所输出的融合特征用于下一层级的解码处理，例如，第一层级的融合特征作为第二层级的融合网络的输入特征，第二层级的融合网络中先对第一层级的融合特征依次进行反卷积处理、拼接处理及卷积处理。进一步的，每一层级的拼接处理包括：将反卷积处理输出的反卷积特征与相同层级的图像特征拼接，得到用于进行卷积处理的拼接特征，例如，第一层级的拼接处理包括：将第一层级的反卷积处理输出的反卷积特征与第一层级的编码处理所输出的图像特征拼接，得到第一层级中用于进行卷积处理的拼接特征。

最后，根据最后一层级的解码处理所输出的融合特征，得到待解码图像对应的全局特征，可以是将最后一层级的解码处理所输出的融合特征，作为得到的待解码图像对应的全局特征，也可以是将最后一层级的解码处理所输出的融合特征进行降维，将降维特征作为得到的待解码图像对应的全局特征。

本示例的一种实施方式中，特征提取网络为UNet网络，UNet网络中包括左侧的特征提取网络(编码器encoder)及右侧的特征融合网络(解码器decoder)，特征提取网络(编码器encoder)中包括4层提取网络，特征融合网络(解码器decoder)中也包括4层融合网络。

一种实施例中，所述将反卷积处理输出的反卷积特征与相同层级的图像特征拼接，得到用于进行卷积处理的拼接特征，包括：

对所述相同层级的图像特征计算注意力分布，并根据所述注意力分布计算加权平均，得到相同层级的加权平均特征；将反卷积处理输出的反卷积特征与相同层级的加权平均特征拼接，得到用于进行卷积处理的拼接特征。

该实施例下，进一步先对相同层级的图像特征通过注意力机制计算加权平均特征，然后，将反卷积处理输出的反卷积特征与加权平均特征拼接，得到用于进行卷积处理的拼接特征。例如，首先，对第一层级的编码处理所输出的图像特征通过注意力机制计算加权平均特征，然后，将第一层级的反卷积处理输出的反卷积特征与第一层级的加权平均特征拼接，得到第一层级中用于进行卷积处理的拼接特征。以这种方式，提取的全局特征可以包含更多的全局信息，整体上进一步提升三维模型的解码效果。

其中，对相同层级的图像特征通过注意力机制计算加权平均特征，具体包括：对相同层级的图像特征计算注意力分布，并根据注意力分布计算加权平均，得到相同层级的加权平均特征。具体可以通过软性注意力(Soft Attention)机制计算得到加权平均特征。

一种实施例中，所述基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度，包括：将每一帧所述待解码图像对应的全局特征分别输入循环神经网络进行深度分析处理，得到所述循环神经网络输出的每一帧所述待解码图像对应的深度。

该实施例下，通过循环神经网络(recurrent neural network，RNN)基于每一帧待解码图像对应的全局特征进行深度分析处理，得到每一帧待解码图像对应的深度。具体的，将待解码图像对应的全局特征的序列输入循环神经网络中可以进行深度分析处理，得到循环神经网络输出的待解码图像对应的深度。循环神经网络中的参数在不同时刻是共享的，可以通过分析处理输出准确的深度。循环神经网络(recurrent neural network，RNN)具体可以包括长短时记忆网络(Long Short Term Memory Network，LSTM)或门控循环单元(gated recurrent unit，GRU)等。

一种实施例中，所述将每一帧所述待解码图像对应的全局特征分别输入循环神经网络进行深度分析处理，得到所述循环神经网络输出的每一帧所述待解码图像对应的深度，包括：将每一帧所述待解码图像对应的全局特征分别输入门控循环单元进行深度分析处理，得到所述门控循环单元输出的每一帧所述待解码图像对应的深度。

该实施例下，具体采用门控循环单元(gated recurrent unit，GRU)基于每一帧待解码图像对应的全局特征进行深度分析处理，得到每一帧待解码图像对应的深度。具体的，将待解码图像对应的全局特征的序列输入门控循环单元(gated recurrent unit，GRU)中可以进行深度分析处理，得到门控循环单元(gated recurrent unit，GRU)输出的待解码图像对应的深度。门控循环单元(gated recurrent unit，GRU)是一种门控循环神经网络，可以高效的分析得到可靠的深度。

一种实施例中，所述基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，包括：将每一帧所述待解码图像及对应的所述全局特征与所述深度分别输出卷积神经网络进行渲染处理，得到所述卷积神经网络输出的每一帧所述待解码图像对应的三维模型。

该实施例下，采用卷积神经网络综合待解码图像及待解码图像对应的全局特征与深度进行渲染处理，得到解码出的三维模型。例如，将第一帧待解码图像及第一帧待解码图像对应的全局特征与深度输出卷积神经网络进行渲染处理，得到卷积神经网络输出的第一帧待解码图像对应的三维模型，同理，可以得到其他帧待解码图像对应的三维模型，进而，得到解码出的多帧三维模型。

一种实施例中，所述基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频，包括：将解码出的多帧三维模型，按照每帧三维模型对应的待解码图像对应的顺序序列化处理，得到所述体积视频。每一帧待解码图像的可以得到对应的一帧三维模型，将得到的所有三维模型按照对应的待解码图像的顺序依次串联，即可得到解码出的体积视频。

本申请前述实施例中的体积视频(Volumetric Video，又称容积视频、空间视频、体三维视频或6自由度视频等)是一种通过捕获三维空间中信息(如深度和色彩信息等)并生成三维动态模型序列的技术。相对于传统的视频，体积视频将空间的概念加入到视频中，用三维模型来更好的还原真实三维世界，而不是以二维的平面视频加上运镜来模拟真实三维世界的空间感。由于体积视频实质为三维模型序列，使得用户可以随自己喜好调整到任意视角进行观看，较二维平面视频具有更高的还原度和沉浸感。

可选地，在本申请中，在步骤S210之前，用于构成体积视频的三维模型(该三维模型非步骤S210至S240解码所得到三维模型，而是指步骤S210之前事先通过三维重建得到的三维模型)可以按照如下方式重建得到：

先获取拍摄对象的不同视角的彩色图像和深度图像，以及彩色图像对应的相机参数；然后根据获取到的彩色图像及其对应的深度图像和相机参数，训练隐式表达拍摄对象三维模型的神经网络模型，并基于训练的神经网络模型进行等值面提取，实现对拍摄对象的三维重建，得到拍摄对象的三维模型。

应当说明的是，本申请实施例中对采用何种架构的神经网络模型不作具体限制，可由本领域技术人员根据实际需要选取。比如，可以选取不带归一化层的多层感知机(Multilayer Perceptron，MLP)作为模型训练的基础模型。

下面将对本申请提供的三维模型重建方法进行详细描述。

首先，可以同步采用多个彩色相机和深度相机对需要进行三维重建的对象进行多视角的拍摄，得到对象在多个不同视角的彩色图像及对应的深度图像，即在同一拍摄时刻(实际拍摄时刻的差值小于或等于时间阈值即认为拍摄时刻相同)，各视角的彩色相机将拍摄得到对象在对应视角的彩色图像，相应的，各视角的深度相机将拍摄得到对象在对应视角的深度图像。需要说明的是，对象可以是任意物体，包括但不限于人物、动物以及植物等生命物体，或者机械、家具、玩偶等非生命物体。

以此，对象在不同视角的彩色图像均具备对应的深度图像，即在拍摄时，彩色相机和深度相机可以采用相机组的配置，同一视角的彩色相机配合深度相机同步对同一对象进行拍摄。比如，可以搭建一摄影棚，该摄影棚中心区域为拍摄区域，环绕该拍摄区域，在水平方向和垂直方向每间隔一定角度配对设置有多组彩色相机和深度相机。当对象处于这些彩色相机和深度相机所环绕的拍摄区域时，即可通过这些彩色相机和深度相机拍摄得到该对象在不同视角的彩色图像及对应的深度图像。

此外，进一步获取每一彩色图像对应的彩色相机的相机参数。其中，相机参数包括彩色相机的内外参，可以通过标定确定，相机内参为与彩色相机自身特性相关的参数，包括但不限于彩色相机的焦距、像素等数据，相机外参为彩色相机在世界坐标系中的参数，包括但不限于彩色相机的位置(坐标)和相机的旋转方向等数据。

如上，在获取到对象在同一拍摄时刻的多个不同视角的彩色图像及其对应的深度图像之后，即可根据这些彩色图像及其对应深度图像对对象进行三维重建。区别于相关技术中将深度转换为点云进行三维重建的方式，本申请训练一神经网络模型用以实现对对象的三维模型的隐式表达，从而基于该神经网络模型实现对对象的三维重建。

可选地，本申请选用一不包括归一化层的多层感知机(Multilayer Perceptron，MLP)作为基础模型，按照如下方式进行训练：

基于对应的相机参数将每一彩色图像中的像素点转化为射线；在射线上采样多个采样点，并确定每一采样点的第一坐标信息以及每一采样点距离像素点的SDF值；将采样点的第一坐标信息输入基础模型，得到基础模型输出的每一采样点的预测SDF值以及预测RGB颜色值；基于预测SDF值与SDF值之间的第一差异，以及预测RGB颜色值与像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整，直至满足预设停止条件；将满足预设停止条件的基础模型作为隐式表达对象的三维模型的神经网络模型。

首先，基于彩色图像对应的相机参数将彩色图像中的一像素点转化为一条射线，该射线可以为经过像素点且垂直于彩色图像面的射线；然后，在该射线上采样多个采样点，采样点的采样过程可以分两步执行，可以先均匀采样部分采样点，然后再在基于像素点的深度值在关键处进一步采样多个采样点，以保证在模型表面附近可以采样到尽量多的采样点；然后，根据相机参数和像素点的深度值计算出采样得到的每一采样点在世界坐标系中的第一坐标信息以及每一采样点的有向距离(Signed Distance Field，SDF)值，其中，SDF值可以为像素点的深度值与采样点距离相机成像面的距离之间的差值，该差值为有符号的值，当差值为正值时，表示采样点在三维模型的外部，当差值为负值时，表示采样点在三维模型的内部，当差值为零时，表示采样点在三维模型的表面；然后，在完成采样点的采样并计算得到每一采样点对应的SDF值之后，进一步将采样点在世界坐标系的第一坐标信息输入基础模型(该基础模型被配置为将输入的坐标信息映射为SDF值和RGB颜色值后输出)，将基础模型输出的SDF值记为预测SDF值，将基础模型输出的RGB颜色值记为预测RGB颜色值；然后，基于预测SDF值与采样点对应的SDF值之间的第一差异，以及预测RGB颜色值与采样点所对应像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整。

此外，对于彩色图像中的其它像素点，同样按照上述方式进行采样点采样，然后将采样点在世界坐标系的坐标信息输入至基础模型以得到对应的预测SDF值和预测RGB颜色值，用于对基础模型的参数进行调整，直至满足预设停止条件，比如，可以配置预设停止条件为对基础模型的迭代次数达到预设次数，或者配置预设停止条件为基础模型收敛。在对基础模型的迭代满足预设停止条件时，即得到能够对对象的三维模型进行准确地隐式表达的神经网络模型。最后，可以采用等值面提取算法对该神经网络模型进行三维模型表面的提取，从而得到对象的三维模型。

可选地，在一些实施例中，根据相机参数确定彩色图像的成像面；确定经过彩色图像中像素点且垂直于成像面的射线为像素点对应的射线。

其中，可以根据彩色图像对应的彩色相机的相机参数，确定该彩色图像在世界坐标系中的坐标信息，即确定成像面。然后，可以确定经过彩色图像中像素点且垂直于该成像面的射线为该像素点对应的射线。

可选地，在一些实施例中，根据相机参数确定彩色相机在世界坐标系中的第二坐标信息及旋转角度；根据第二坐标信息和旋转角度确定彩色图像的成像面。

可选地，在一些实施例中，在射线上等间距采样第一数量个第一采样点；根据像素点的深度值确定多个关键采样点，并根据关键采样点采样第二数量个第二采样点；将第一数量个的第一采样点与第二数量个的第二采样点确定为在射线上采样得到的多个采样点。

其中，先在射线上均匀采样n(即第一数量)个第一采样点，n为大于2的正整数；然后，再根据前述像素点的深度值，从n个第一采样点中确定出距离前述像素点最近的预设数量个关键采样点，或者从n个第一采样点中确定出距离前述像素点小于距离阈值的关键采样点；然后，根据确定出的关键采样点再采样m个第二采样点，m为大于1的正整数；最后，将采样得到的n+m个采样点确定为在射线上采样得到的多个采样点。其中，在关键采样点处再多采样m个采样点，可以使得模型的训练效果在三维模型表面处更为精确，从而提升三维模型的重建精度。

可选地，在一些实施例中，根据彩色图像对应的深度图像确定像素点对应的深度值；基于深度值计算每一采样点距离像素点的SDF值；根据相机参数与深度值计算每一采样点的坐标信息。

其中，在每一像素点对应的射线上采样了多个采样点后，对于每一采样点，根据相机参数、像素点的深度值确定彩色相机的拍摄位置与对象上对应点之间的距离，然后基于该距离逐一计算每一采样点的SDF值以及计算出每一采样点的坐标信息。

需要说明的是，在完成对基础模型的训练之后，对于给定的任意一个点的坐标信息，即可由完成训练的基础模型预测其对应的SDF值，该预测的SDF值即表示了该点与对象的三维模型的位置关系(内部、外部或者表面)，实现对对象的三维模型的隐式表达，得到用于隐式表达对象的三维模型的神经网络模型。

最后，对以上神经网络模型进行等值面提取，比如可以采用等值面提取算法(Marching cubes，MC)绘制出三维模型的表面，得到三维模型表面，进而根据该三维模型表面得到对象的三维模型。

本申请提供的三维重建方案，通过神经网络去隐式建模对象的三维模型，并加入深度提高模型训练的速度和精度。采用本申请提供的三维重建方案，在时序上持续的对拍摄对象进行三维重建，即可得到拍摄对象在不同时刻的三维模型，这些不同时刻的三维模型按时序构成的三维模型序列即为对拍摄对象所拍摄得到的体积视频。以此，可以针对任意拍摄对象进行“体积视频拍摄”，得到特定内容呈现的体积视频。比如，可以对跳舞的拍摄对象进行体积视频拍摄，得到可以在任意角度观看对象舞蹈的体积视频，可以对教学的拍摄对象进行体积视频拍摄，得到可以在任意角度观看拍摄对象教学的体积视频，等等。

为便于更好的实施本申请实施例提供的体积视频的解码方法，本申请实施例还提供一种基于上述体积视频的解码方法的体积视频的解码装置。其中名词的含义与上述体积视频的解码方法中相同，具体实现细节可以参考方法实施例中的说明。图3示出了根据本申请的一个实施例的体积视频的解码装置的框图。

如图3所示，体积视频的解码装置300，体积视频的解码装置300中可以包括：获取模块310、提取模块320、分析模块330以及渲染模块340。

获取模块310可以用于获取体积视频对应的多帧待解码图像；提取模块320可以用于提取每一帧所述待解码图像对应的全局特征；分析模块330可以用于基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度；渲染模块340可以用于基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，本申请实施例还提供一种电子设备，该电子设备可以为终端或者服务器，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的计算机程序，从而实现本申请前述实施例中各种功能。

如处理器401可以执行下述步骤：获取体积视频对应的多帧待解码图像；提取每一帧所述待解码图像对应的全局特征；基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度；基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种方法中的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种方法中的步骤，因此，可以实现本申请实施例所提供的方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的实施例，而可以在不脱离其范围的情况下进行各种修改和改变。

Claims

1.一种体积视频的解码方法，其特征在于，所述方法包括：

获取体积视频对应的多帧待解码图像；

提取每一帧所述待解码图像对应的全局特征；

基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度；

基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频。

2.根据权利要求1所述的方法，其特征在于，所述提取每一帧所述待解码图像对应的全局特征，包括：

针对每一帧所述待解码图像，对所述待解码图像进行特征提取处理，得到所述待解码图像对应的图像特征；

对所述待解码图像对应的图像特征进行特征融合处理，得到所述待解码图像对应的全局特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述待解码图像进行特征提取处理，得到所述待解码图像对应的图像特征，包括：

对所述待解码图像进行多层级的编码处理，得到每一层级的编码处理所输出的图像特征；其中，每个层级的编码处理包括依次进行的卷积处理及最大池化处理；前一层级的编码处理所输出的图像特征用于下一层级的编码处理；

所述对所述待解码图像对应的图像特征进行特征融合处理，得到所述待解码图像对应的全局特征，包括：

对待融合特征进行多层级的解码处理，得到每一层级的解码处理所输出的融合特征；其中，每一层级的解码处理包括依次进行的反卷积处理、拼接处理及卷积处理；前一层级的解码处理所输出的融合特征用于下一层级的解码处理；每一层级的拼接处理包括：将反卷积处理输出的反卷积特征与相同层级的图像特征拼接，得到用于进行卷积处理的拼接特征；

根据最后一层级的解码处理所输出的所述融合特征，得到所述待解码图像对应的全局特征。

4.根据权利要求3所述的方法，其特征在于，所述将反卷积处理输出的反卷积特征与相同层级的图像特征拼接，得到用于进行卷积处理的拼接特征，包括：

对所述相同层级的图像特征计算注意力分布，并根据所述注意力分布计算加权平均，得到相同层级的加权平均特征；

将反卷积处理输出的反卷积特征与相同层级的加权平均特征拼接，得到用于进行卷积处理的拼接特征。

5.根据权利要求1所述的方法，其特征在于，所述基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度，包括：

将每一帧所述待解码图像对应的全局特征分别输入循环神经网络进行深度分析处理，得到所述循环神经网络输出的每一帧所述待解码图像对应的深度。

6.根据权利要求5所述的方法，其特征在于，所述将每一帧所述待解码图像对应的全局特征分别输入循环神经网络进行深度分析处理，得到所述循环神经网络输出的每一帧所述待解码图像对应的深度，包括：

将每一帧所述待解码图像对应的全局特征分别输入门控循环单元进行深度分析处理，得到所述门控循环单元输出的每一帧所述待解码图像对应的深度。

7.根据权利要求1所述的方法，其特征在于，所述基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，包括：

将每一帧所述待解码图像及对应的所述全局特征与所述深度分别输入卷积神经网络进行渲染处理，得到所述卷积神经网络输出的每一帧所述待解码图像对应的三维模型。

8.根据权利要求1至7任一项所述的方法，其特征在于，在所述基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型之后，所述方法包括：

将解码出的多帧三维模型，按照每帧三维模型对应的待解码图像对应的顺序序列化处理，得到所述体积视频。

9.一种体积视频的解码装置，其特征在于，所述装置包括：

获取模块，用于获取体积视频对应的多帧待解码图像；

提取模块，用于提取每一帧所述待解码图像对应的全局特征；

分析模块，用于基于每一帧所述待解码图像对应的全局特征进行深度分析处理，得到每一帧所述待解码图像对应的深度；

渲染模块，用于基于每一帧所述待解码图像及对应的所述全局特征与所述深度分别进行渲染处理，得到解码出的多帧三维模型，所述多帧三维模型用于生成所述体积视频。

10.一种存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行权利要求1至8任一项所述的方法。

11.一种电子设备，其特征在于，包括：存储器，存储有计算机程序；处理器，读取存储器存储的计算机程序，以执行权利要求1至8任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至8任一项的方法。