CN114693853A

CN114693853A - 对象渲染方法、装置、电子设备及存储介质

Info

Publication number: CN114693853A
Application number: CN202210360321.7A
Authority: CN
Inventors: 林君仪; 程巍; 吴文岩; 徐速; 朴镜潭; 钱晨; 李鸿升
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-01

Abstract

本公开提供了一种对象渲染方法、装置、电子设备及存储介质，该方法包括：获取待渲染对象对应的参数化模型；参数化模型由预先获取的多个原始图像构建得到；多个原始图像为在不同源视角下分别采集的所述待渲染对象的图像；基于目标视角，从参数化模型对应的三维空间中确定多个空间点，并针对每个空间点，基于空间点的位置信息、参数化模型和多个原始图像，生成空间点对应的、与每个源视角匹配的目标特征向量；基于空间点对应的多个目标特征向量、和空间点在每个原始图像上投影点的候选色彩信息，生成空间点对应的体密度和目标色彩信息；基于各个空间点分别对应的体密度和目标色彩信息，生成待渲染对象在目标视角下的渲染图像。

Description

对象渲染方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及一种对象渲染方法、装置、电子设备及存储介质。

背景技术

随着科技的进步，自由视角的视频被广泛应用于电影摄制、三维沉浸式通讯、增强现实(Augmented Reality，AR)和虚拟现实(Virtual Reality，VR)等场景中。

一般的，自由视角视频的生成环境较为复杂，比如生成环境需要专业的摄影环境、较多的视角等等，使得自由视角视频的生成较为困难。

发明内容

有鉴于此，本公开至少提供一种对象渲染方法、装置、电子设备及存储介质。

第一方面，本公开提供了一种对象渲染方法，包括：

获取待渲染对象对应的参数化模型；所述参数化模型由预先获取的多个原始图像构建得到；所述多个原始图像为在不同源视角下分别采集的所述待渲染对象的图像；

基于目标视角，从所述参数化模型对应的三维空间中确定多个空间点，并针对每个所述空间点，基于所述空间点的位置信息、所述参数化模型和所述多个原始图像，生成所述空间点对应的、与每个所述源视角匹配的目标特征向量；所述目标特征向量包括空间点在对应源视角下的视觉特征；

基于所述空间点对应的多个所述目标特征向量、和所述空间点在每个所述原始图像上投影点的候选色彩信息，生成所述空间点对应的体密度和目标色彩信息；

基于各个所述空间点分别对应的所述体密度和所述目标色彩信息，生成所述待渲染对象在所述目标视角下的渲染图像。

上述方法中，实现了利用待渲染对象的多个源视角下的原始图像，生成任意目标视角的渲染图像，渲染过程无需依赖专业摄影环境，渲染过程较稳定和较高效。本公开中使用了待渲染对象对应的参数化模型，该参数化模型为表征待渲染对象姿态的几何形状的模型，利用该参数化模型能够泛化任意未知的人体和未知的人体体态；且该参数化模型是通过多个原始图像确定模型参数后生成的，与通过使用深度相机或其他几何扫描仪对人体进行三维建模得到人体三维模型的方式相比，本公开建立参数化模型的过程重点关注待渲染对象的姿态，无需关注与姿态无关的其他信息比如服饰信息、发型信息等，参数化模型的确定方式较高效和简便。

同时，本公开中使用参数化模型和空间点的位置信息，确定空间点对应的与每个源视角匹配的目标特征向量，实现将空间点相对于参数化模型的隐式几何特征嵌入至目标特征向量，使得目标特征向量能够表征待渲染对象姿态特征；以及利用空间点的位置信息和原始图像，实现将原始图像中的视觉特征嵌入至目标特征向量，该视觉特征比如包括待渲染对应的穿着特征、外饰特征等，使得目标特征向量能够表征待渲染对象的穿着、外饰等特征。并利用空间点对应的多个目标特征向量和空间点在每个原始图像上投影点的候选色彩信息，较准确的确定空间点对应的体密度和目标色彩信息。并利用各个空间点分别对应的体密度和目标色彩信息，较准确的生成待渲染对象在目标视角下的渲染图像，得到的渲染图像的图像质量较佳。

一种可能的实施方式中，所述基于所述空间点的位置信息、所述参数化模型和所述多个原始图像，生成所述空间点对应的、与每个所述源视角匹配的目标特征向量，包括：

基于所述空间点的位置信息和所述参数化模型，生成所述空间点对应的第一特征向量；以及

针对每个所述源视角，基于所述空间点的位置信息和所述源视角对应的原始图像，生成所述源视角对应的第二特征向量；其中，所述第一特征向量用于表征所述空间点与所述参数化模型之间的隐式几何特征；所述第二特征向量用于表征所述空间点在所述源视角对应的原始图像上的视觉特征；

基于所述第一特征向量、各个所述源视角对应的所述第二特征向量、所述空间点的位置信息和所述目标视角对应的方向向量中的至少一种，生成所述空间点对应的、与每个所述源视角匹配的目标特征向量。

这里，生成用于表征空间点与参数化模型之间的隐式几何特征的第一特征向量，和用于表征空间点在源视角对应的原始图像上的图像特征的第二特征向量。再利用第一特征向量、各个源视角对应的第二特征向量、空间点的位置信息和目标视角对应的方向向量中的至少一种，较灵活的生成空间点对应的、与每个源视角匹配的目标特征向量。

一种可能的实施方式中，所述基于所述空间点的位置信息和所述参数化模型，生成所述空间点对应的第一特征向量，包括：

基于所述空间点的位置信息，确定所述参数化模型上与所述空间点之间的距离最小的目标模型点；

基于所述空间点的位置信息和所述目标模型点的位置信息，确定所述空间点相对于所述参数化模型的距离信息和方向信息；

基于所述参数化模型上第一模型点、与规范模型上第二模型点之间的映射关系，确定所述目标模型点对应的第二模型点的位置信息；

基于所述距离信息、所述方向信息和所述第二模型点的位置信息中的至少一种，生成所述空间点对应的第一特征向量。

这里，通过确定空间点对应的第一特征向量，该第一特征向量用于表征空间点与参数化模型之间的隐式几何特征，实现对参数化模型的隐式几何估计，使得利用第一特征向量生成目标特征向量时，该目标特征向量具有参数化模型的几何特征，进而后续利用目标特征向量能够较准确的确定空间点的体密度和目标色彩信息，提高了渲染图像的准确度。

一种可能的实施方式中，所述基于所述空间点的位置信息和所述源视角对应的原始图像，生成所述源视角对应的第二特征向量，包括：

对所述源视角对应的原始图像进行特征提取，生成所述原始图像对应的视觉特征图；

基于所述空间点的位置信息和所述原始图像对应的相机参数信息，确定所述视觉特征图上所述空间点对应的目标特征点的特征信息；

基于所述目标特征点的特征信息，生成所述源视角对应的第二特征向量。

这里，通过确定每个源视角对应的第二特征向量，该第二特征向量用于表征空间点在源视角对应的原始图像上的图像特征，使得利用第二特征向量生成目标特征向量时，该目标特征向量具有待渲染对象的服饰、发型等属性特征，进而后续利用目标特征向量能够较准确的确定空间点的体密度和目标色彩信息，提高了渲染图像的准确度。

一种可能的实施方式中，所述基于所述空间点对应的多个所述目标特征向量、和所述空间点在每个所述原始图像上投影点的候选色彩信息，生成所述空间点对应的体密度和目标色彩信息，包括：

对多个所述目标特征向量分别进行特征提取，生成每个所述源视角对应的中间特征数据；

基于各个所述源视角对应的所述中间特征数据，生成所述空间点对应的所述体密度和预测色彩信息；

基于所述预测色彩信息、和所述空间点在每个所述原始图像上投影点的候选色彩信息，生成所述空间点对应的所述目标色彩信息。

考虑到在源视角的数量较少时，存在空间点在各个源视角下均被遮挡的情况，这种情况下若仅将该空间点对应的候选色彩信息进行混合，会造成得到目标色彩信息存在较大的误差，鲁棒性较差。为了缓解上述问题，可以利用各个源视角对应的中间特征数据，生成空间点对应的预测色彩信息。以便后续可以利用混合参数、预测色彩信息和多个候选色彩信息，较准确的生成空间点对应的目标色彩信息。

一种可能的实施方式中，所述基于所述预测色彩信息、和所述空间点在每个所述原始图像上投影点的候选色彩信息，生成所述空间点对应的所述目标色彩信息，包括：

确定所述预测色彩信息和多个所述候选色彩信息分别对应的混合参数；其中，所述混合参数包括：表征所述空间点在对应源视角下的可见性的第一参数，和/或，表征色彩信息权重的第二参数；

按照所述混合参数，将所述预测色彩信息和多个所述候选色彩信息进行混合处理，生成所述空间点对应的所述目标色彩信息。

这里，可以基于各个源视角对应的中间特征数据，确定预测色彩信息和多个候选色彩信息分别对应的混合参数，比如，混合参数包括表征空间点在源视角下是否可见的第一参数，或者，包括表征色彩权重的第二参数，以便利用该混合参数，能够较准确的将预测色彩信息和多个候选色彩信息进行混合，得到目标色彩信息。

一种可能的实施方式中，所述混合参数包括所述第一参数，根据下述步骤确定所述预测色彩信息和多个所述候选色彩信息分别对应的第一参数，包括：

基于预设值，确定所述预测色彩信息对应的所述第一参数；以及

针对每个所述源视角，基于所述空间点的位置信息，确定所述源视角下所述空间点的深度信息；

基于所述源视角对应的所述中间特征数据、和所述源视角下所述空间点的所述深度信息，生成所述源视角对应的候选色彩信息的所述第一参数。

这里，通过确定各个源视角下空间点的深度信息，并利用各个源视角对应的中间特征数据和各个源视角下空间点的深度信息，较准确的生成每个候选色彩信息对应的第一参数，以便后续利用第一参数，能够较准确的生成目标色彩信息。

一种可能的实施方式中，所述混合参数包括所述第二参数，根据下述步骤确定所述预测色彩信息和多个所述候选色彩信息分别对应的第二参数，包括：

将各个所述源视角对应的所述中间特征数据进行融合处理，得到融合特征数据；

基于第一目标特征数据和第二目标特征数据，生成键信息；以及基于所述第一目标特征数据，生成查询信息；其中，所述第一目标特征数据包括所述融合特征数据、所述目标视角的方向向量和所述空间点的位置信息；所述第二目标特征数据包括各个所述中间特征数据、各个所述源视角的方向向量和所述空间点的位置信息；所述键信息表征所述预测色彩信息和多个所述候选色彩信息的特征信息；所述查询信息表征所述预测色彩信息的特征信息；

基于所述键信息和所述查询信息，确定多个所述候选色彩信息和所述预测色彩信息分别对应的第二参数。

这里，通过生成多个候选色彩信息和预测色彩信息分别对应的第二参数，以便后续利用第二参数，能够较准确的将多个候选色彩信息和预测色彩信息进行混合，生成目标色彩信息。

一种可能的实施方式中，所述基于所述多个原始图像，生成所述待渲染对象对应的参数化模型，包括：

对各个所述原始图像进行关键点提取，得到每个所述原始图像中所述待渲染对象对应的目标关键点信息；以及

基于每个所述原始图像对应的相机参数信息，将包括多个预设关键点的蒙皮模型投影至所述原始图像对应的投影平面，得到每个所述预设关键点在所述原始图像上的投影点信息；

基于各个所述原始图像对应的所述目标关键点信息和所述多个预设关键点对应的投影点信息，对所述蒙皮模型的模型参数进行调整，得到调整后的模型参数；

基于所述调整后的模型参数，生成所述待渲染对象对应的参数化模型。

上述实施方式中，通过利用待渲染对象对应的多个原始图像，能够较简便和较高效的生成待渲染对象对应的参数化模型，以便后续利用待渲染对象对应的参数化模型，较高效的生成任一目标视角的待渲染对象对应的渲染图像。

一种可能的实施方式中，所述基于各个所述空间点分别对应的所述体密度和所述目标色彩信息，生成所述待渲染对象在所述目标视角下的渲染图像，包括：

基于所述目标视角对应的相机参数信息，确定所述三维空间中投影至同一目标像素点上的多个空间点；

基于所述投影至同一目标像素点上的多个空间点对应的所述体密度和所述目标色彩信息，确定所述目标像素点的像素色彩；

基于各个所述目标像素点的像素色彩，生成所述渲染图像。

一种可能的实施方式中，所述渲染图像为利用训练得到的目标神经网络生成的；所述目标神经网络为基于构建的目标数据集训练得到；其中所述目标数据集中包括多个样本用户分别对应的不同视角下的视频数据、以及每个所述样本用户对应的样本参数化模型；

构建所述目标数据集，包括：

控制多个图像采集设备分别采集每个所述样本用户的视频数据；其中，不同样本用户对应不同的用户属性信息，所述用户属性信息包括：体型、服装、配饰、发型、动作中的至少一种；

基于每个所述样本用户对应的多个所述视频数据，生成所述样本用户对应的样本参数化模型；

基于所述视频数据、和各个所述样本用户对应的所述样本参数化模型，构建所述目标数据集。

通过上述方式，可以构建样本较丰富的目标数据集，利用该目标数据集能够较精准的对目标神经网络进行训练，提高了训练后的目标神经网络的性能。

一种可能的实施方式中，在生成所述渲染图像之后，所述方法还包括：

获取多个目标视角下所述待渲染对象对应的渲染图像；

基于多个所述渲染图像，生成所述待渲染对象对应的渲染视频。

这里，针对每个待渲染用户，可以生成该待渲染用户对应的任意目标视角下的渲染图像，渲染图像的生成较高效，进而基于多个渲染图像，能够较简便的生成待渲染对象对应的渲染视频，提高自由视角视频的生成效率。且该过程无需依赖外部环境，自由视角视频的生成方式较为简便。

获取多个目标视角下所述待渲染对象对应的渲染图像；

基于多个所述渲染图像，生成所述待渲染对象对应的虚拟模型；

控制目标设备展示所述待渲染对象对应的所述虚拟模型。

这里，针对每个待渲染用户，可以生成该待渲染用户对应的任意目标视角下的渲染图像，渲染图像的生成较高效。进而基于多个渲染图像，能够较准确和较高效的生成待渲染对象对应的虚拟模型。

以下装置、电子设备等的效果描述参见上述方法的说明，这里不再赘述。

第二方面，本公开提供了一种对象渲染装置，包括：

获取模块，用于获取待渲染对象对应的参数化模型；所述参数化模型由预先获取的多个原始图像构建得到；所述多个原始图像为在不同源视角下分别采集的所述待渲染对象的图像；

第一生成模块，用于基于目标视角，从所述参数化模型对应的三维空间中确定多个空间点，并针对每个所述空间点，基于所述空间点的位置信息、所述参数化模型和所述多个原始图像，生成所述空间点对应的、与每个所述源视角匹配的目标特征向量；所述目标特征向量包括空间点在对应源视角下的视觉特征；

第二生成模块，用于基于所述空间点对应的多个所述目标特征向量、和所述空间点在每个所述原始图像上投影点的候选色彩信息，生成所述空间点对应的体密度和目标色彩信息；

第三生成模块，用于基于各个所述空间点分别对应的所述体密度和所述目标色彩信息，生成所述待渲染对象在所述目标视角下的渲染图像。

第三方面，本公开提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的对象渲染方法的步骤。

第四方面，本公开提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的对象渲染方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种对象渲染方法的流程示意图；

图2示出了本公开实施例所提供的一种对象渲染方法中，多个源视角的示意图；

图3a示出了本公开实施例所提供的一种对象渲染方法中，源视角的原始图像中待渲染对象的示意图；

图3b示出了本公开实施例所提供的一种对象渲染方法中，待渲染对象对应的参数化模型在源视角下的深度图的示意图；

图4示出了本公开实施例所提供的一种对象渲染方法中，目标神经网络的结构示意图；

图5示出了本公开实施例所提供的另一种对象渲染方法的流程示意图；

图6示出了本公开实施例所提供的一种对象渲染装置的架构示意图；

图7示出了本公开实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

由于自由视角视频的生成环境较为复杂，比如生成环境需要专业的摄影环境、较多的视角等等，使得自由视角视频的生成较为困难。若能够通过较少视角下的图像，生成人体的自由视角视频，能够较大的提升利用自由视角视频的各个场景在日常生活中的便捷性，比如能够提升三维沉浸式交互在日常生活使用中接入的便捷性。

一般的，在使用较少视角的图像泛化并渲染新视角下人体的图像，并增强其鲁棒性和泛化性时，主要有两个维度的难点需要解决：1、泛化任意未知的人体和未知的人体体态、动作、穿着、外饰；2、具有转化视角稳定性的高质量渲染。但是，针对上述难点未能有较好的方式进行解决。

因此，一种方法中，使用深度相机或其他几何扫描仪对人体进行三维建模，得到人体三维模型；进而可以利用人体三维模型得到人体对应的自由视角视频，这类方法缺乏对未知人体的泛化能力；且上述方法中自由视角视频的生成过程较为繁琐、效率较低。另一种方法中，利用深度学习网络通过学习人体的三维几何特征和纹理特征，得到人体对应的自由视角视频，由于人体具有人体体态、动作、穿着等变量，使得该方式难以渲染得到清晰的自由视角视频。

为了缓解上述问题，本公开实施例提供了一种对象渲染方法、装置、电子设备及存储介质。上述方法中实现了利用待渲染对象的多个源视角下的原始图像，生成任意目标视角的渲染图像，渲染过程无需依赖专业摄影环境，渲染过程较稳定和较高效，进而根据任意目标视角的渲染图像能够得到自由视角视频。

本公开中使用了待渲染对象对应的参数化模型，该参数化模型为表征待渲染对象姿态的几何形状的模型，利用该参数化模型能够泛化任意未知的人体和未知的人体体态；且该参数化模型是通过多个原始图像确定模型参数后生成的，与通过使用深度相机或其他几何扫描仪对人体进行三维建模得到人体三维模型的方式相比，本公开建立参数化模型的过程重点关注待渲染对象的姿态，无需关注与姿态无关的其他信息比如服饰信息、发型信息等，参数化模型的确定方式较高效和简便。

本公开中使用参数化模型和空间点的位置信息，确定空间点对应的与每个源视角匹配的目标特征向量，实现将空间点相对于参数化模型的隐式几何特征嵌入至目标特征向量，使得目标特征向量能够表征待渲染对象姿态特征；以及利用空间点的位置信息和原始图像，实现将原始图像中的视觉特征嵌入至目标特征向量，该视觉特征比如包括待渲染对应的穿着特征、外饰特征等，使得目标特征向量能够表征待渲染对象的穿着、外饰等特征。并利用空间点对应的多个目标特征向量和空间点在每个原始图像上投影点的候选色彩信息，较准确的确定空间点对应的体密度和目标色彩信息。以便利用各个空间点分别对应的体密度和目标色彩信息，较准确的生成待渲染对象在目标视角下的渲染图像；即可以较准确的生成任意目标视角下的渲染图像。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种对象渲染方法进行详细介绍。本公开实施例所提供的对象渲染方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、个人数字助理(PersonalDigital Assistant，PDA)、手持设备、计算设备、可穿戴设备等。在一些可能的实现方式中，该对象渲染方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例所提供的对象渲染方法的流程示意图，所述方法包括S101-S104，其中：

S101，获取待渲染对象对应的参数化模型；参数化模型由预先获取的多个原始图像构建得到；多个原始图像为在不同源视角下分别采集的待渲染对象的图像。

S102，基于目标视角，从参数化模型对应的三维空间中确定多个空间点，并针对每个空间点，基于空间点的位置信息、参数化模型和多个原始图像，生成空间点对应的、与每个源视角匹配的目标特征向量。目标特征向量包括空间点在对应源视角下的视觉特征。

S103，基于空间点对应的多个目标特征向量、和空间点在每个原始图像上投影点的候选色彩信息，生成空间点对应的体密度和目标色彩信息。

S104，基于各个空间点分别对应的体密度和目标色彩信息，生成待渲染对象在目标视角下的渲染图像。

下述对S101-S104进行具体说明。

针对S101：

获取待渲染对象对应的多个原始图像。每个原始图像对应一个源视角，不同的原始图像对应不同的源视角。其中，待渲染对象可以为具有任意姿态、任意服饰、任意体型、任意配饰等的人体；或者，待渲染对象还可以为任意姿态的动物等。源视角可以基于采集原始图像时图像采集设备的采集方向与待渲染对象的预设方向之间的方向差确定，即源视角与待渲染对象的采集方向相匹配。比如，待渲染对象的预设方向为正面方向，若图像采集设备从背面采集得到原始图像，则该原始图像对应的源视角为180°。

在一些实施例中，可以控制多个图像采集设备，从不同源视角采集待渲染对象的原始图像。或者，还可以控制一个图像采集设备，依次从不同源视角采集待渲染对象的原始图像。示例性的，可以以待渲染对象的正前方为起点，顺时针方向确定各个源视角。比如，原始图像1对应的源视角可以为0°，即该原始图像1为图像采集设备从待渲染对象的正面拍摄到的图像；原始图像2对应的源视角可以为180°，即该原始图像2为图像采集设备从待渲染对象的背面拍摄到的图像。

其中，不同源视角的数量和角度可以根据需要进行选取。参见图2所示，该待渲染对象对应有四个源视角，比如待渲染对象的正面对应一个源视角1、背面对应一个源视角2、左侧面对应一个源视角3、右侧面对应一个源视角4。图像采集设备可以在对应源视角下采集待渲染对象的原始图像。

在获取到待渲染对象对应的多个原始图像之后，可以利用多个原始图像，生成待渲染对象对应的参数化模型。该参数化模型为通过多个原始图像确定模型参数后生成的，该参数化模型为包括待渲染对象的姿态、动作等几何特征的最少穿着的模型，即该参数化模型不包括待渲染对象的与动作、姿态无关的其他特征，其他特征比如可以包括发型特征、服饰特征、配饰特征等。在待渲染对象为人体时，该参数化模型可以为多人体姿态蒙皮(Skinned Multi-Person Linear，SMPL)模型或者SMPL-x模型。其中，参数化模型可以由体态参数和动作参数进行控制，可以通过确定待渲染对象的体态参数和动作参数，得到待渲染对象的参数化模型。

实施时，可以根据多个原始图像中待渲染对象的轮廓信息，确定模型参数信息(例如包括体态参数和动作参数)，根据该模型参数信息，生成待渲染对象对应的参数化模型。或者，也可以根据多个原始图像中待渲染对象的轮廓信息，对规范模型的模型参数信息进行调整，再根据调整后模型参数，生成待渲染对象对应的参数化模型。其中，规范模型可以为预先构建的具有标准体态和标准动作(比如张开双臂的动作)的参数化模型。

一种可能的实施方式中，基于多个原始图像，生成待渲染对象对应的参数化模型，包括：

步骤A1，对各个原始图像进行关键点提取，得到每个原始图像中待渲染对象对应的目标关键点信息；以及基于每个原始图像对应的相机参数信息，将包括多个预设关键点的蒙皮模型投影至原始图像对应的投影平面，得到每个预设关键点在原始图像上的投影点信息。

在步骤A1中，可以利用训练后的用于进行关键点提取的第一神经网络，对该原始图像进行关键点提取，得到该原始图像中待渲染对象的目标关键点信息。示例性的，目标关键点可以包括骨架关键点、手势关键点、人脸关键点等的至少一种，目标关键点信息可以包括每个目标关键点的位置信息、标识信息等。进而可以得到各个原始图像分别对应的目标关键点信息。

原始图像对应的相机参数信息包括采集原始图像时相机的内参和外参。

蒙皮模型为预先构建的参数化模型，该蒙皮模型上包括多个预设关键点，其中，预设关键点的类型和数量可以根据需要进行设置。且该蒙皮模型对应有模型参数信息。

利用原始图像对应的相机参数信息，将蒙皮模型投影至该原始图像对应的投影平面，得到蒙皮模型在该投影平面上的投影图像、以及预设关键点在该投影图像上的第一像素位置，进而可以根据第一像素位置，确定每个预设关键点在原始图像上的投影点信息(比如位置信息)。

其中，目标关键点与预设关键点的类型相匹配。比如，目标关键点的类型可以与预设关键点相同；或者，目标关键点的类型包括预设关键点的类型。

步骤A2，基于各个原始图像对应的目标关键点信息和多个预设关键点对应的投影点信息，对蒙皮模型的模型参数进行调整，得到调整后的模型参数。

在步骤A2中，针对每个预设关键点，从每个原始图像包括的各个目标关键点中，确定与该预设关键点匹配的目标关键点；比如可以根据标识信息，确定预设关键点与目标关键点之间的匹配关系。再根据该预设关键点在每个原始图像上的投影点信息、和该原始图像上匹配的目标关键点的位置信息，确定该预设关键点在原始图像上的位置差值；进而能够得到该预设关键点在多个原始图像上的位置差值。进一步地，可以基于各个预设关键点分别对应的多个位置差值，对蒙皮模型的模型参数进行调整，比如对体态参数和/或动作参数进行调整，得到调整后的模型参数。

步骤A3，基于调整后的模型参数，生成待渲染对象对应的参数化模型。

针对S102：

在具体实施中，可以预先构建以参数化模型的中心点为原点的三维空间。该三维空间对应有预设三维坐标系。考虑到参数化模型的尺寸可能不统一，进而使得构建的三维空间的大小不一致，故在得到参数化模型之后，可以对参数化模型进行尺寸调整，得到标准尺寸下的参数化模型。再以调整后的参数化模型的中心点为原点，构建三维空间。

本公开实施例中，设置目标视角，该目标视角可以根据实际需求进行设置，比如在欲渲染得到待渲染对象的右侧面图像时，可以确定能够生成右侧面图像的目标视角，该目标视角比如可以为90°。再可以根据设置的目标视角，从参数化模型对应的三维空间中确定多个空间点，得到每个空间点在预设三维坐标系中的位置信息。

示例性的，可以根据目标视角和目标视角对应的相机参数信息，确定以相机参数信息指示的相机位置为原点的多条射线。再从位于三维空间内的局部线段上采样得到多个空间点。

实施时，针对每个空间点，可以确定该空间点的体密度σ和目标色彩信息，以便后续利用各个空间点的体密度和目标色彩信息，渲染得到在目标视角下的渲染图像。其中，体密度用于表征图像渲染过程中光线经过空间点时被终止的概率。体密度为体素渲染volumerendering方法中所使用的体素密度，每个空间点代表一个体素，该空间点对应的体密度为一条射线在经过该空间点时被终止的概率，该概率越大，表征该空间点的透明度越低，比如，三维空间内位于人体表面的空间点的体密度大于位于人体表面前方的其他空间点的体密度。

示例性的，可以将空间点的位置信息、参数化模型和多个原始图像输入至目标神经网络中，利用目标神经网络中的第一网络，得到各个源视角对应的目标特征向量。第一网络用于将确定的空间点的视觉特征和隐式几何特征进行融合，比如，该第一网络可以包括编码器模块，利用编码器模块确定原始图像的视觉特征，再根据空间点的位置信息和提取的视觉特征，确定该空间点在每个源视角下的视觉特征；第一网络还可以包括几何特征确定模块，利用几何特征确定模块，确定空间点与参数化模型之间的隐式几何特征；第一网络还包括级联层，利用该级联层将空间点对应的视觉特征与空间点对应的隐式几何特征级联，得到目标特征向量。

一种可选实施方式中，基于空间点的位置信息、参数化模型和多个原始图像，生成空间点对应的、与每个源视角匹配的目标特征向量，包括：

步骤B1，基于空间点的位置信息和参数化模型，生成空间点对应的第一特征向量。其中，第一特征向量用于表征空间点与参数化模型之间的隐式几何特征。

步骤B2，针对每个源视角，基于空间点的位置信息和源视角对应的原始图像，生成源视角对应的第二特征向量。其中，第二特征向量用于表征空间点在源视角对应的原始图像上的视觉特征。

步骤B3，基于第一特征向量、各个源视角对应的第二特征向量、空间点的位置信息和目标视角对应的方向向量中的至少一种，生成空间点对应的、与每个源视角匹配的目标特征向量。

在步骤B1中，可以利用空间点的位置信息和参数化模型，生成空间点对应的第一特征向量。该第一特征向量用于表征空间点与参数化模型之间的隐式几何特征。其中，隐式几何用于表征点与点之间的关系，而非点的具体位置，此处隐式几何特征能够表征空间点与参数化模型上模型点之间的关系。比如，可以根据空间点的位置信息和参数化模型，确定该空间点对应的有符号距离函数(Signed Distance Function，SDF)，利用SDF的值表征空间点与参数化模型之间的接近程度。再可以根据该SDF的值，生成第一特征向量。

基于空间点的位置信息和参数化模型，生成空间点对应的第一特征向量，具体包括：

步骤B11，基于空间点的位置信息，确定参数化模型上与空间点之间的距离最小的目标模型点。

步骤B12，基于空间点的位置信息和目标模型点的位置信息，确定空间点相对于参数化模型的距离信息和方向信息。

步骤B13，基于参数化模型上第一模型点、与规范模型上第二模型点之间的映射关系，确定目标模型点对应的第二模型点的位置信息。

步骤B14，基于距离信息、方向信息和第二模型点的位置信息中的至少一种，生成空间点对应的第一特征向量。

在步骤B11中，若空间点不位于参数化模型上，则可以根据空间点的位置信息，确定参数化模型上与空间点之间的距离最小的目标模型点；该距离可以为欧式距离、马氏距离等。若空间点位于参数化模型上，则该空间点为目标模型点。

在步骤B12中，利用空间点的位置信息和目标模型点的位置信息，确定空间点相对于参数化模型的距离信息。比如，可以确定空间点与参数化模型的最小距离，将该最小距离，确定为距离信息。或者，也可以确定空间点相对于参数化模型的SDF值，将该SDF值确定为距离信息。

以及利用空间点的位置信息和目标模型点的位置信息，确定该空间点与参数化模型之间的最小距离对应的方向向量，将该方向向量，确定为方向信息。或者，可以确定空间点相对于参数化模型的SDF的偏导函数，得到方向信息；该方向信息能够表征空间点趋近于参数化模型的方向。

在步骤B13中，规范模型可以为标准体态、标准动作下的标准人体模型。该规范模型可以为由多个不规则的三角面片构成的三维网格mesh模型。比如在待渲染对象为人体时，可以将具有预设身高、预设体重、预设身材比例的形态，确定为标准形态；将张开手臂的动作，确定为标准动作。

其中，规范模型上的第二模型点与参数化模型上的第一模型点之间具有映射关系，在确定了目标模型点之后，可以根据该映射关系，确定目标模型点对应的第二模型点的位置信息，以便利用第二模型点的位置信息，为空间点提供语义信息；比如若第二模型点的位置信息指示该第二模型点为头部上的模型点，则第二模型点的位置信息为空间点提供了头部的语义信息。

在步骤B14中，基于距离信息、方向信息和第二模型点的位置信息中的至少一种，生成空间点对应的第一特征向量。比如，可以将g＝(a，b1，b2，b3，x1，y1，z1)的第一组合向量，作为第一特征向量，其中，a为距离信息，b1，b2，b3为方向信息，x1，y1，z1为第二模型点的位置信息。或者，还可以对第一组合向量(a，b1，b2，b3，x1，y1，z1)进行特征提取，得到空间点对应的第一特征向量。

在步骤B2中，可以确定各个源视角对应的第二特征向量。实施时，针对每个源视角，利用空间点的位置信息和源视角对应的原始图像，生成源视角对应的第二特征向量。其中，第二特征向量用于表征空间点在源视角对应的原始图像上的视觉特征。

示例性的，可以利用空间点的位置信息，确定该空间点在源视角对应的原始图像上的投影点的像素信息，利用该投影点的像素信息，生成源视角对应的第二特征向量。或者，也可以利用该投影点的像素信息、和位于该投影点周围的其他像素点的像素信息，生成源视角对应的第二特征向量；比如，可以将该像素信息作为第二特征向量；或者，也可以对该像素信息进行线性插值处理，得到源视角对应的第二特征向量。

基于空间点的位置信息和源视角对应的原始图像，生成源视角对应的第二特征向量，可以包括：

步骤B21，对源视角对应的原始图像进行特征提取，生成原始图像对应的视觉特征图。

步骤B22，基于空间点的位置信息和原始图像对应的相机参数信息，确定视觉特征图上空间点对应的目标特征点的特征信息。

步骤B23，基于目标特征点的特征信息，生成源视角对应的第二特征向量。

实施时，针对每个源视角，可以利用编码器对该源视角下的原始图像进行特征提取，得到原始图像对应的视觉特征图。该视觉特征图可以为多通道的特征数据。

再根据原始图像对应的相机参数信息和空间点的位置信息，确定视觉特征图上与该空间点匹配的目标特征点，并获取该目标特征点的特征信息。比如，目标特征点的特征信息可以为特征向量，且该特征向量的维度与通道数一致。

再可以将目标特征点的特征信息，确定为源视角对应的第二特征向量。或者，也可以对目标特征点的特征信息进行特征提取处理、融合处理、或插值处理等至少一种处理，得到源视角对应的第二特征向量。

在步骤B3中，可以根据第一特征向量、各个源视角对应的第二特征向量、空间点的位置信息和目标视角对应的方向向量中的至少一种，生成空间点对应的、与每个源视角匹配的目标特征向量。

比如，可以将第二组合向量(x，d，g，f_i)确定为目标特征向量，其中，x为空间点的位置信息，d为目标视角对应的方向向量，g为第一特征向量，f_i为第i个源视角对应的第二特征向量，其中i为正整数。或者，也可以对第二组合向量进行特征提取、融合处理等，生成目标特征向量。

针对S103：

在得到多个目标特征向量之后，可以基于空间点对应的多个目标特征向量，生成空间点对应的体密度和预测色彩信息；其中，该预测色彩信息为预测得到的该空间点在目标视角下的色彩信息。以及基于空间点对应的多个目标特征向量，生成预测色彩信息、候选色彩信息分别对应的混合参数；最后根据空间点在每个原始图像上投影点的候选色彩信息、预测色彩信息和混合参数，混合得到空间点对应的目标色彩信息。

示例性的，可以将空间点对应的多个目标特征向量和空间点在每个原始图像上投影点的候选色彩信息输入至目标神经网络，利用目标神经网络的第二网络，生成空间点对应的体密度和目标色彩信息。比如，第二网络中可以包括多个卷积层，利用设置的多个卷积层对多个目标特征向量进行特征提取，利用提取到的特征确定空间点的体密度和预测色彩信息；再将预测色彩信息和多个候选色彩信息融合，比如将预测色彩信息和多个候选色彩信息相加，或加权相加，得到空间点的目标色彩信息。

在得到每个空间点的体密度和目标色彩信息之后，通过将多个空间点的体密度和目标色彩信息进行积分，能够得到各个目标像素点的像素色彩。

一种可选实施方式中，基于空间点对应的多个目标特征向量、和空间点在每个原始图像上投影点的候选色彩信息，生成空间点对应的体密度和目标色彩信息，具体包括：

步骤C1，对多个目标特征向量分别进行特征提取，生成每个源视角对应的中间特征数据。

步骤C2，基于各个源视角对应的中间特征数据，生成空间点对应的体密度和预测色彩信息。

步骤C3，基于预测色彩信息、和空间点在每个所述原始图像上投影点的候选色彩信息，生成空间点对应的所述目标色彩信息。

在步骤C1中，可以利用多个卷积层对每个目标特征向量进行特征提取，生成每个源视角对应的中间特征数据。比如，对源视角1对应的目标特征向量进行特征提取，得到源视角1对应的中间特征数据。该中间特征数据可以为多通道的特征图。

在步骤C2中，可以将各个源视角对应的中间特征数据进行融合处理，得到融合特征数据。再利用多个卷积层对该融合特征数据进行特征提取，生成空间点对应的体密度和预测色彩信息。

示例性的，可以设置5个卷积层，第一、利用卷积层1对融合特征数据进行特征提取，得到第一特征数据；第二、将第一特征数据、空间点的位置信息和第一特征向量输入至卷积层2进行特征提取，得到第二特征数据；第三、利用卷积层3对第二特征数据进行特征提取，得到第三特征数据；第四、将第三特征数据、空间点的位置信息、目标视角的方向向量和第一特征向量输入至卷积层4进行特征提取，得到第四特征数据；第五、将第四特征数据和目标视角的方向向量输入至卷积层5进行特征提取，得到空间点对应的体密度和预测色彩信息。

在步骤C3中，可以将预测色彩信息、和空间点在每个原始图像上投影点的候选色彩信息进行融合，得到目标色彩信息。或者，也可以将预测色彩信息和各个候选色彩信息进行加权融合，得到目标色彩信息。或者，还可以将预测色彩信息，确定为空间点对应的目标色彩信息。

一种可能的实施方式中，基于预测色彩信息、和空间点在每个原始图像上投影点的候选色彩信息，生成空间点对应的目标色彩信息，包括：

确定预测色彩信息和多个候选色彩信息分别对应的混合参数；其中，混合参数包括：表征空间点在对应源视角下的可见性的第一参数，和/或，表征色彩信息权重的第二参数；按照混合参数，将预测色彩信息和多个候选色彩信息进行混合处理，生成空间点对应的目标色彩信息。

实施时，可以基于各个源视角对应的中间特征数据，确定混合参数。其中，混合参数包括第一参数和第二参数。比如，可以利用卷积层对各个视角对应的中间特征数据进行特征提取，得到预测色彩信息和多个候选色彩信息分别对应的第一参数。或者，也可以利用注意力机制网络，对各个视角对应的中间特征数据进行特征提取，得到预测色彩信息和多个候选色彩信息分别对应的第二参数。

一种方式中，根据下述步骤确定预测色彩信息和多个候选色彩信息分别对应的第一参数：基于预设值，确定预测色彩信息对应的第一参数。以及针对每个源视角，基于空间点的位置信息，确定源视角下空间点的深度信息；基于源视角对应的中间特征数据和源视角下空间点的深度信息，生成源视角对应的候选色彩信息的第一参数。

实施时，可以将预设值，确定为预测色彩信息对应的第一参数的值，比如，预设值可以为1，即表征该预测色彩信息的可见性为可见。

根据下述过程确定候选色彩信息对应的第一参数：

步骤D1、基于空间点的位置信息，确定各个源视角下空间点的深度信息。

考虑到在每个源视角下，若空间点被参数化模型上的模型点遮挡，则在该源视角下，该空间点的深度值大于该模型点的深度值。可见使用深度信息，能够确定空间点在源视角下的可见性。

一种方式中，可以根据空间点的位置信息和每个源视角对应的相机参数信息，确定该源视角下空间点距离图像采集设备的深度值，将该深度值确定为该源视角下的深度信息。进而可以得到各个源视角下空间点的深度信息。

另一种方式中，首先，可以基于参数化模型，生成该参数化模型对应的、各个源视角下的深度图。比如，可以将参数化模型进行栅格化处理。针对每个源视角，确定在该源视角下可见的各个栅格的深度值；基于确定的各个栅格的深度值，生成该源视角对应的深度图。再次，针对每个源视角，基于空间点的位置信息和该源视角对应的相机参数信息，确定深度图中与空间点匹配的特征点，将该特征点的深度值，确定为该源视角下空间点的深度信息。进而可以得到各个源视角下空间点的深度信息。

参见图3a所示，该图3a中展示有源视角的原始图像中待渲染对象，该待渲染对象对应的参数化模型在源视角下的深度图如图3b所示。

步骤D2、基于各个源视角对应的中间特征数据和各个源视角下空间点的深度信息，生成每个候选色彩信息对应的第一参数。

实施时，可以利用至少一个卷积层，对各个源视角对应的中间特征数据和各个源视角下空间点的深度信息进行特征提取，生成每个候选色彩信息对应的第一参数。

或者，还可以针对每个源视角，使用该源视角对应的中间特征数据、该源视角下空间点的深度信息和该源视角的原始图像对应的候选色彩信息，生成该源视角对应的第三组合数据。进而可以得到各个源视角分别对应的第三组合数据。再利用至少一个卷积层，对各个源视角分别对应的第三组合数据进行特征提取，生成各个候选色彩信息对应的第一参数。

其中，第一参数的值可以为0或1，第一参数为0时表征该空间点不可见；第一参数为1时表征该空间点可见。

另一种方式中，根据下述步骤确定预测色彩信息和多个候选色彩信息分别对应的第二参数，具体包括：

步骤E1，将各个源视角对应的中间特征数据进行融合处理，得到融合特征数据。

步骤E2，基于第一目标特征数据和第二目标特征数据，生成键信息；以及基于第一目标特征数据，生成查询信息。

其中，第一目标特征数据包括融合特征数据、目标视角的方向向量和空间点的位置信息；第二目标特征数据包括各个中间特征数据、各个源视角的方向向量和空间点的位置信息；键信息表征预测色彩信息和多个候选色彩信息的特征信息；查询信息表征预测色彩信息的特征信息。

步骤E3，基于键信息和查询信息，确定多个候选色彩信息和预测色彩信息分别对应的第二参数。

实施时，可以利用至少一个卷积层，将各个源视角对应的中间特征数据进行融合处理，得到融合特征数据。

将融合特征数据、目标视角的方向向量、空间点的位置信息进行级联，得到第一目标特征数据。以及针对每个源视角，将该源视角对应的中间特征数据、该源视角的方向向量和空间点的位置信息进行级联，得到该源视角对应的局部特征数据；各个源视角分别对应的局部特征数据，构成第二目标特征数据。

利用至少一个卷积层，对第一目标特征数据进行特征提取，生成预测色彩信息对应的查询信息Q。以及利用至少一个卷积层，对第一目标特征数据和第二目标特征数据进行特征提取，生成预测色彩信息和多个候选色彩信息对应的键信息K^T。再将查询信息Q和键信息K^T进行点乘运算，得到多个候选色彩信息和预测色彩信息分别对应的第二参数。

由于键信息表征预测色彩信息和多个候选色彩信息的特征信息；查询信息表征预测色彩信息的特征信息，通过将键信息与查询信息进行相比，确定预测色彩信息特征和多个候选色彩信息分别对应的第二参数。

在混合参数包括第一参数时，可以将预测色彩信息和多个候选色彩信息分别与对应的第一参数相乘，再将得到的第一积值相加，得到空间点对应的目标色彩信息。

在混合参数包括第二参数时，可以将预测色彩信息和多个候选色彩信息分别与对应的第二参数相乘，再将得到的第二积值相加，得到空间点对应的目标色彩信息。

在混合参数包括第一参数和第二参数时，可以先将第一参数和对应的第二参数相乘，得到目标参数；比如，可以将该预测色彩信息对应的第一参数和第二参数相乘，得到预测色彩信息对应的目标参数。再将预测色彩信息和多个候选色彩信息分别与对应的目标参数相乘，并将得到的第三积值相加，得到空间点对应的目标色彩信息。

针对S104：

在得到各个空间点对应的体密度和目标色彩信息之后，可以按照经典积分渲染公式，将三维空间中投影至同一目标像素点上的空间点的体密度和目标色彩信息进行渲染，得到该目标像素点的像素色彩。进而基于各个目标像素点的像素色彩，生成渲染图像。其中，经典积分渲染公式为：

其中，C(r)为目标像素点对应的像素色彩，σ为空间点的体密度，c为空间点的目标色彩信息，t_f和t_n为三维空间上的最远边界和最近边界。

一种可选实施方式中，基于各个空间点分别对应的体密度和目标色彩信息，生成待渲染对象对应的目标视角的渲染图像，具体包括：

步骤F1、基于目标视角对应的相机参数信息，确定三维空间中投影至同一目标像素点上的多个空间点。

步骤F2、基于投影至同一目标像素点上的多个空间点对应的体密度和目标色彩信息，确定目标像素点的像素色彩。

步骤F3、基于各个目标像素点的像素色彩，生成渲染图像。

实施时，可以根据目标视角对应的相机参数信息，确定三维空间中投影至同一目标像素点上的多个空间点。比如，可以基于目标视角对应的相机参数信息，生成多条相机发射线，每条相机发射线对应渲染图像上的一个像素点。位于同一条相机发射线上的多个空间点，为投影至同一目标像素点上的多个空间点。

针对每条相机发射线，对位于该条相机发射线上的多个空间点的体密度和目标色彩信息进行积分，得到该相机发射线对应的像素点的像素色彩。进而，基于各个相机发射线分别对应的像素点的像素色彩，生成渲染图像。即基于各个目标像素点的像素色彩，生成渲染图像。

一种方式中，在生成渲染图像之后，所述方法还包括：获取多个目标视角下待渲染对象对应的渲染图像；基于多个渲染图像，生成待渲染对象对应的渲染视频。

实施时，针对多个目标视角中的每个目标视角，可以使用S101-S104的步骤，生成该目标视角对应的渲染图像。进而可以得到多个目标视角分别对应的渲染图像。再基于多个渲染图像，生成待渲染对象对应的渲染视频。该渲染视频可以为自由视角的视频。

另一种方式中，在生成渲染图像之后，所述方法还包括：获取多个目标视角下待渲染对象对应的渲染图像；基于多个渲染图像，生成待渲染对象对应的虚拟模型；控制目标设备展示待渲染对象对应的虚拟模型。

实施时，在生成各个目标视角对应的渲染图像之后，可以对每个渲染图像进行三维关键点提取，得到每个渲染图像中待渲染对象的三维关键点信息。进而可以根据提取到的各个渲染图像分别对应的三维关键点信息，生成待渲染对象对应的虚拟模型。并控制目标设备展示该虚拟模型。目标设备比如可以为手机、平板、AR设备、VR设备、显示屏等。

其中，渲染图像为利用训练得到的目标神经网络生成的；该目标神经网络可以为基于构建的目标数据集训练得到。其中目标数据集中包括多个样本用户分别对应的不同视角下的视频数据、以及每个样本用户对应的样本参数化模型。

根据下述步骤构建目标数据集：

步骤G1，控制多个图像采集设备分别采集每个样本用户的视频数据；其中，不同样本用户对应不同的用户属性信息，用户属性信息包括：体型、服装、配饰、发型、动作中的至少一种。

步骤G2，基于每个样本用户对应的多个视频数据，生成样本用户对应的样本参数化模型。

步骤G3，基于视频数据、和各个样本用户对应的样本参数化模型，构建目标数据集。

示例性的，可以在目标场所内设置多个图像采集设备，响应于目标场所存在样本用户，控制多个图像采集设备同步采集该样本用户的视频数据。其中每个采集设备采集得到不同采样视角下样本用户的视频数据。

其中，不同样本用户对应不同的用户属性信息，该用户属性信息包括：体型、服装、配饰、发型、动作中的至少一种。比如，可以挑选不同体型的用户作为多个样本用户。或者，也可以使得同一样本用户在目标场所内执行不同的动作，以便采集执行不同动作时样本用户的视频数据。

再基于每个样本用户对应的多个视频数据，生成样本用户对应的样本参数化模型。比如，针对样本用户的每个视频数据，对该视频数据中的每个视频帧进行前景人体分割，得到该视频帧对应的分割图像。再对该分割图像进行三维关键点检测，得到该样本用户在该视频帧上的三维关键点。即得到该视频数据中各个视频帧对应的三维关键点。再可以使用该样本用户对应的各个视频数据分别对应的三维关键点，构建该样本用户对应的样本参数化模型。

比如可以使用SMPLx模型，基于样本用户对应的多个视频数据，生成该样本用户对应的样本参数化模型。

在可以使用每个视频数据中的任一视频帧、和样本用户对应的样本参数化模型，构建目标数据集。或者，也可以使用视频数据和样本用户对应的样本参数化模型，构建目标数据集。

示例性的，可以使用目标数据集和合成数据集，对待训练神经网络进行训练，得到目标神经网络。该合成数据集中包括在采样视角下每个空间点对应的标注深度值和标注体密度。

可以根据下述步骤训练得到神经网络：

步骤H1、将合成数据集中的训练样本输入至待训练神经网络，生成第一预测图像。其中，生成第一预测图像的过程可参照S101至S104的过程。

步骤H2、基于第一预测图像和第一预测图像对应的第一真值图像，生成第一损失值。

步骤H3、利用第一损失值，对待训练神经网络进行多轮训练，直至满足第一训练截止条件，得到中间神经网络。该第一训练截止条件包括：神经网络的第一损失值小于第一阈值，或者，训练次数等于第一次数阈值等。

步骤H4、再将目标数据集中的训练样本输入至中间神经网络，生成第二预测图像。

步骤H5、基于第二预测图像和第二预测图像对应的第二真值图像，生成第二损失值。

步骤H6、利用第二损失值，对中间神经网络进行多轮训练，直至满足第二训练截止条件，得到目标神经网络。该第二训练截止条件包括：神经网络收敛，或者，训练次数等于第二次数阈值，或者，神经网络的第二损失值小于第二阈值等。

由于合成数据集中包括空间点对应的标注深度值和标注体密度，因此第一损失值可以包括：用于表征图像色彩偏差的图像损失值，和用于表征空间点密度偏差和深度偏差的空间点损失值。以及由于目标数据集中不包括空间点对应的标注深度值和标注体密度，因此第二损失值可以包括图像损失值。

根据下述公式确定图像损失值：

其中，L_photo为图像损失值；R为相机发射线的数量，也即为预测图像中像素点的数量；c₀(r)为神经网络生成的该相机发射线上每个空间点对应的预测色彩信息，

为真值图像上像素点r对应的真值色彩信息；c(r)为预测图像上像素点r对应的推测色彩信息。

根据下述公式确定空间点损失值：

其中，L_geo为空间点损失值，|X|为全部空间点的数量，σ(x)为空间点x对应的预测体密度，o为表征空间点x可见性的预测第一参数，ψ(z_gt-z)用于表征空间点x可见性的真值第一参数。

参见图4所示的目标神经网络的结构示意图。结合图4对对象渲染方法进行示例性说明。参见图5所示，该方法包括以下步骤：

S501，获取待渲染对象的N个不同源视角的原始图像。

比如图4中的原始图像I₁、…、原始图像I_N等。

S502，对多个原始图像进行关键点提取，生成每个原始图像中待渲染对象的目标关键点信息；以及基于每个原始图像对应的相机参数信息，将包括多个预设关键点的蒙皮模型投影至原始图像对应的投影平面，得到每个预设关键点在所述原始图像上的投影点信息；基于各个原始图像对应的目标关键点信息和多个预设关键点对应的投影点信息，对蒙皮模型的模型参数进行调整，得到调整后的模型参数。利用调整后的模型参数，生成待渲染对象对应的参数化模型。

比如，图4中的参数化模型41。

S503，基于目标视角，从参数化模型对应的三维空间中确定多个空间点。

比如，图4中的三维空间42，以及相机发射线43上的多个空间点44。

S504，针对每个空间点，基于空间点的位置信息和参数化模型，生成表征空间点与参数化模型之间的隐式几何特征的第一特征向量。以及利用卷积神经网络(ConvolutionalNeural Networks，CNN)编码器对每个原始图像进行特征提取，得到视觉特征图。利用空间点的位置信息和原始图像对应的相机参数信息，确定视觉特征图上空间点对应的目标特征点的特征信息。基于目标特征点的特征信息，生成源视角对应的、表征空间点在源视角对应的原始图像上视觉特征的第二特征向量。基于第一特征向量、各个源视角对应的第二特征向量、空间点的位置信息和目标视角对应的方向向量，生成空间点对应的、与每个源视角匹配的目标特征向量。

比如，图4中的目标特征向量有(x，d，g，f₁)、…、(x，d，g，f_N)。其中，x为空间点的位置信息，d为目标视角的方向向量，g为第一特征向量，f₁为第一个源视角对应的第二特征向量，f_N为第N个源视角对应的第二特征向量。

S505，利用目标神经网络中的网络模块F1，对多个目标特征向量分别进行特征提取，生成每个源视角对应的中间特征数据。利用目标神经网络中的网络模块Φ，将各个源视角对应的中间特征数据进行融合处理，得到融合特征数据。利用目标神经网络中的网络模块F2，对融合特征数据进行特征提取，生成每个空间点对应的体密度σ和预测色彩信息c₀。

即图4中的Densityσ和color c₀。

S506，利用目标神经网络中的网络模块T，基于各个源视角对应的中间特征数据，确定预测色彩信息和多个候选色彩信息分别对应的混合参数。以及基于混合参数、预测色彩信息和多个候选色彩信息，生成空间点对应的目标色彩信息c(即图4中的color c)。其中，混合参数包括表征空间点在对应源视角下的可见性的第一参数，和/或，表征色彩信息权重的第二参数。

实施时，根据下述步骤确定每个候选色彩信息对应的第一参数：针对每个源视角，基于空间点的位置信息，确定源视角下空间点的深度信息；基于源视角对应的中间特征数据、和源视角下空间点的深度信息，生成源视角对应的候选色彩信息的第一参数。

S507，体空间渲染。

具体的基于目标视角对应的相机参数信息，确定三维空间中投影至同一目标像素点上的多个空间点；按照经典积分渲染公式，将投影至同一目标像素点上的多个空间点对应的体密度和所述目标色彩信息进行渲染，确定目标像素点的像素色彩；基于各个目标像素点的像素色彩，生成待渲染对象在目标视角下的渲染图像。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于相同的构思，本公开实施例还提供了一种对象渲染装置，参见图6所示，为本公开实施例提供的对象渲染装置的架构示意图，包括获取模块601、第一生成模块602、第二生成模块603、第三生成模块604，具体的：

获取模块601，用于获取待渲染对象对应的参数化模型；所述参数化模型由预先获取的多个原始图像构建得到；所述多个原始图像为在不同源视角下分别采集的所述待渲染对象的图像；

第一生成模块602，用于基于目标视角，从所述参数化模型对应的三维空间中确定多个空间点，并针对每个所述空间点，基于所述空间点的位置信息、所述参数化模型和所述多个原始图像，生成所述空间点对应的、与每个所述源视角匹配的目标特征向量；所述目标特征向量包括空间点在对应源视角下的视觉特征；

第二生成模块603，用于基于所述空间点对应的多个所述目标特征向量、和所述空间点在每个所述原始图像上投影点的候选色彩信息，生成所述空间点对应的体密度和目标色彩信息；

第三生成模块604，用于基于各个所述空间点分别对应的所述体密度和所述目标色彩信息，生成所述待渲染对象在所述目标视角下的渲染图像。

一种可能的实施方式中，所述获取模块601，在基于所述多个原始图像，生成所述待渲染对象对应的参数化模型时，用于：

一种可能的实施方式中，所述第一生成模块602，在基于所述空间点的位置信息、所述参数化模型和所述多个原始图像，生成所述空间点对应的、与每个所述源视角匹配的目标特征向量时，用于：

一种可能的实施方式中，所述第一生成模块602，在基于空间点的位置信息和参数化模型，生成所述空间点对应的第一特征向量时，用于：

一种可能的实施方式中，所述第一生成模块602，在基于空间点的位置信息和源视角对应的原始图像，生成源视角对应的第二特征向量时，用于：

一种可能的实施方式中，所述第二生成模块603，在基于所述空间点对应的多个所述目标特征向量、和所述空间点在每个所述原始图像上投影点的候选色彩信息，生成所述空间点对应的体密度和目标色彩信息时，用于：

一种可能的实施方式中，所述第二生成模块603，在基于所述预测色彩信息、和所述空间点在每个所述原始图像上投影点的候选色彩信息，生成所述空间点对应的所述目标色彩信息时，用于：

一种可能的实施方式中，所述混合参数包括所述第一参数，所述第二生成模块603，根据下述步骤确定所述预测色彩信息和多个所述候选色彩信息分别对应的第一参数：

一种可能的实施方式中，所述混合参数包括所述第二参数，所述第二生成模块603，根据下述步骤确定所述预测色彩信息和多个所述候选色彩信息分别对应的第二参数：

一种可能的实施方式中，所述第三生成模块604，在基于各个所述空间点分别对应的所述体密度和所述目标色彩信息，生成所述待渲染对象在所述目标视角下的渲染图像时，用于：

基于各个所述目标像素点的像素色彩，生成所述渲染图像。

一种可能的实施方式中，所述渲染图像为利用训练得到的目标神经网络生成的；所述目标神经网络为基于构建的目标数据集训练得到；其中所述目标数据集中包括多个样本用户分别对应的不同视角下的视频数据、以及每个所述样本用户对应的样本参数化模型。

所述装置还包括：构建模块605，用于根据下述步骤构建目标数据集：

控制多个图像采集设备分别采集每个样本用户的视频数据；其中，不同样本用户对应不同的用户属性信息，所述用户属性信息包括：体型、服装、配饰、发型、动作中的至少一种；

一种可能的实施方式中，在生成所述渲染图像之后，所述装置还包括：第一应用模块606，用于：

获取多个目标视角下所述待渲染对象对应的渲染图像；

一种可能的实施方式中，在生成所述渲染图像之后，所述装置还包括：第二应用模块607，用于：

获取多个目标视角下所述待渲染对象对应的渲染图像；

控制目标设备展示所述待渲染对象对应的所述虚拟模型。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图7所示，为本公开实施例提供的电子设备的结构示意图，包括处理器701、存储器702、和总线703。其中，存储器702用于存储执行指令，包括内存7021和外部存储器7022；这里的内存7021也称内存储器，用于暂时存放处理器701中的运算数据，以及与硬盘等外部存储器7022交换的数据，处理器701通过内存7021与外部存储器7022进行数据交换，当电子设备700运行时，处理器701与存储器702之间通过总线703通信，使得处理器701在执行以下指令：

其中，处理器701的具体处理流程可以参照上述方法实施例的记载，这里不再赘述。

此外，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的对象渲染方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的对象渲染方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本公开涉及增强现实领域，通过获取现实环境中的目标对象的图像信息，进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理，从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的，目标对象可涉及与人体相关的脸部、肢体、手势、动作等，或者与物体相关的标识物、标志物，或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景，还可以涉及与人相关的特效处理，比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。可通过卷积神经网络，实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式、处理的个人信息种类等信息。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种对象渲染方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述空间点的位置信息、所述参数化模型和所述多个原始图像，生成所述空间点对应的、与每个所述源视角匹配的目标特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述空间点的位置信息和所述参数化模型，生成所述空间点对应的第一特征向量，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述基于所述空间点的位置信息和所述源视角对应的原始图像，生成所述源视角对应的第二特征向量，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述基于所述空间点对应的多个所述目标特征向量、和所述空间点在每个所述原始图像上投影点的候选色彩信息，生成所述空间点对应的体密度和目标色彩信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述预测色彩信息、和所述空间点在每个所述原始图像上投影点的候选色彩信息，生成所述空间点对应的所述目标色彩信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述混合参数包括所述第一参数，根据下述步骤确定所述预测色彩信息和多个所述候选色彩信息分别对应的第一参数，包括：

8.根据权利要求6或7所述的方法，其特征在于，所述混合参数包括所述第二参数，根据下述步骤确定所述预测色彩信息和多个所述候选色彩信息分别对应的第二参数，包括：

9.根据权利要求1-8任一所述的方法，其特征在于，基于所述多个原始图像，生成所述待渲染对象对应的参数化模型，包括：

10.根据权利要求1-9任一所述的方法，其特征在于，所述基于各个所述空间点分别对应的所述体密度和所述目标色彩信息，生成所述待渲染对象在所述目标视角下的渲染图像，包括：

基于各个所述目标像素点的像素色彩，生成所述渲染图像。

11.根据权利要求1-10任一所述的方法，其特征在于，所述渲染图像为利用训练得到的目标神经网络生成的；所述目标神经网络为基于构建的目标数据集训练得到；其中所述目标数据集中包括多个样本用户分别对应的不同视角下的视频数据、以及每个所述样本用户对应的样本参数化模型；

构建所述目标数据集，包括：

12.根据权利要求1-11任一所述的方法，其特征在于，在生成所述渲染图像之后，所述方法还包括：

获取多个目标视角下所述待渲染对象对应的渲染图像；

13.根据权利要求1-11任一所述的方法，其特征在于，在生成所述渲染图像之后，所述方法还包括：

获取多个目标视角下所述待渲染对象对应的渲染图像；

控制目标设备展示所述待渲染对象对应的所述虚拟模型。

14.一种对象渲染装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至13任一所述的对象渲染方法的步骤。

16.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至13任一所述的对象渲染方法的步骤。