CN114511662A

CN114511662A - 渲染图像的方法、装置、电子设备及存储介质

Info

Publication number: CN114511662A
Application number: CN202210109322.4A
Authority: CN
Inventors: 陈冠英; 叶晓青; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-17

Abstract

本公开提供了一种渲染图像的方法、装置、电子设备及存储介质，涉及人工智能领域，具体涉及计算机视觉和深度学习技术，具体可用于3D视觉和人体驱动场景下。具体实现方案为：获取虚拟相机的视角信息和虚拟三维模型在第一空间下的形状与姿态信息；利用形状与姿态信息，将虚拟三维模型上的多个第一空间点转换为第二空间下的多个第二空间点；采用多个第二空间点中每个第二空间点的位置信息、视角信息以及形状与姿态信息对应的纹理贴图信息，确定多个第二空间点中每个第二空间点的密度信息和颜色信息；基于密度信息和颜色信息执行体素渲染操作，得到目标图像。

Description

渲染图像的方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉和深度学习技术，具体可用于3D视觉和人体驱动场景下，尤其涉及渲染图像的方法、装置、电子设备及存储介质。

背景技术

在互联网实际应用场景中，经常需要基于一段给定的人体运动视频，展示出人体在不同视角下做不同动作的图片，对此，本领域的技术人员不断尝试各种图片渲染方法。

现有方案中，基于人体运动视频的图片渲染方法是通过输入的图像重建虚拟人体模型，该虚拟人体模型包括三维形状模型和纹理特征；对该虚拟人体模型进行骨骼绑定和蒙皮估计；驱动该虚拟人体模型并渲染成所需图片。然而，这种方法的缺陷在于：基于图像重建虚拟人体模型难度非常大，且重建的虚拟人体模型精度较低，这导致渲染的图片视觉效果较差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本公开提供了渲染图像的方法、装置、电子设备及存储介质，以至少解决现有技术中由于基于图像重建虚拟人体模型难度大、精度低导致虚拟人体新视角、新姿态图片渲染效果差的技术问题。

根据本公开其中一实施例，提供了一种渲染图像的方法，包括：获取虚拟相机的视角信息和虚拟三维模型在第一空间下的形状与姿态信息，其中，第一空间为虚拟相机的观察空间；利用形状与姿态信息，将虚拟三维模型上的多个第一空间点转换为第二空间下的多个第二空间点，其中，第二空间是与虚拟三维模型的预设姿态对应的静态标准空间；采用多个第二空间点中每个第二空间点的位置信息、视角信息以及形状与姿态信息对应的纹理贴图信息，确定多个第二空间点中每个第二空间点的密度信息和颜色信息；基于密度信息和颜色信息执行体素渲染操作，得到目标图像。

根据本公开其中一实施例，还提供了一种渲染图像的的装置，包括：获取模块，用于获取虚拟相机的视角信息和虚拟三维模型在第一空间下的形状与姿态信息，其中，第一空间为虚拟相机的观察空间；转换模块，用于利用形状与姿态信息，将虚拟三维模型上的多个第一空间点转换为第二空间下的多个第二空间点，其中，第二空间是与虚拟三维模型的预设姿态对应的静态标准空间；确定模块，用于采用多个第二空间点中每个第二空间点的位置信息、视角信息以及形状与姿态信息对应的纹理贴图信息，确定多个第二空间点中每个第二空间点的密度信息和颜色信息；渲染模块，用于基于密度信息和颜色信息执行体素渲染操作，得到目标图像。

根据本公开其中一实施例，还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提出的渲染图像的方法。

根据本公开其中一实施例，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提出的渲染图像的方法。

根据本公开其中一实施例，还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行本公开提出的渲染图像的方法。

本公开的实施例中，获取虚拟相机的视角信息和虚拟三维模型在第一空间下的形状与姿态信息，其中，第一空间为虚拟相机的观察空间；通过利用形状与姿态信息，将虚拟三维模型上的多个第一空间点转换为第二空间下的多个第二空间点，其中，第二空间是与虚拟三维模型的预设姿态对应的静态标准空间；采用多个第二空间点中每个第二空间点的位置信息、视角信息以及形状与姿态信息对应的纹理贴图信息，确定多个第二空间点中每个第二空间点的密度信息和颜色信息；并基于密度信息和颜色信息执行体素渲染操作，得到目标图像，达到了基于给定人体运动视频渲染出该人体在新视角和新姿态下的图片的目的，实现了互联网应用场景下根据已有人体运动视频高效、精确地提供人体在新视角、新姿态下的图片的技术效果，解决了现有技术中由于基于图像重建虚拟人体模型难度大、精度低导致虚拟人体新视角、新姿态图片渲染效果差的技术问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种用于实现渲染图像的方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本公开实施例提供的一种渲染图像的的方法的流程图；

图3是根据本公开实施例的提供的一种渲染图像的的装置的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本公开实施例，提供了一种渲染图像的方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。图1示出了一种用于实现渲染图像的方法的计算机终端(或移动设备)的硬件结构框图。

如图1所示，计算机终端100包括计算单元101，其可以根据存储在只读存储器(ROM)102中的计算机程序或者从存储单元108加载到随机访问存储器(RAM)103中的计算机程序，来执行各种适当的动作和处理。在RAM 103中，还可存储计算机终端100操作所需的各种程序和数据。计算单元101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

计算机终端100中的多个部件连接至I/O接口105，包括：输入单元106，例如键盘、鼠标等；输出单元107，例如各种类型的显示器、扬声器等；存储单元108，例如磁盘、光盘等；以及通信单元109，例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的渲染图像的方法。例如，在一些实施例中，渲染图像的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元108。在一些实施例中，计算机程序的部分或者全部可以经由ROM102和/或通信单元109而被载入和/或安装到计算机终端100上。当计算机程序加载到RAM103并由计算单元101执行时，可以执行本文描述的定位故障硬盘的方法的一个或多个步骤。备选地，在其他实施例中，计算单元101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行定位故障硬盘的方法。

本文中描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

此处需要说明的是，在一些可选实施例中，上述图1所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述电子设备中的部件的类型。

在上述运行环境下，本公开提供了如图2所示的渲染图像的方法，该方法可以由图1所示的计算机终端或者类似的电子设备执行。图2是根据本公开实施例提供的一种渲染图像的方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S200，获取虚拟相机的视角信息和虚拟三维模型在第一空间下的形状与姿态信息，其中，第一空间为虚拟相机的观察空间；

上述虚拟相机可以是一个假设存在的相机，该虚拟相机可以根据上述虚拟三维模型运动视频的拍摄信息确定。

上述虚拟相机的视角信息为该虚拟相机拍摄该视频时的视角信息。确定该虚拟相机的观察空间为第一空间。基于上述视频中记录的上述虚拟三维模型在该第一空间下的运动，可以获取该虚拟三维模型的形状与姿态信息。

可选地，选取该虚拟相机作为描述上述第一空间的坐标系的原点。特别地，由于该虚拟相机可能是运动的，因此上述第一空间是动态空间。

步骤S202，利用形状与姿态信息，将虚拟三维模型上的多个第一空间点转换为第二空间下的多个第二空间点，其中，第二空间是与虚拟三维模型的预设姿态对应的静态标准空间；

上述多个第一空间点可以是在上述第一空间中虚拟三维模型上的数据点。该数据点可以包含该虚拟三维模型的形状与姿态信息。

上述虚拟三维模型的预设姿态可以是双手平伸且两脚站直的姿态，即T-pose。确定与该虚拟三维模型的预设姿态对应的空间为第二空间。该第二空间中的数据点为第二空间点。由于该T-pose是固定标准的姿态，因此该第二空间是静态标准空间。基于该虚拟三维模型的形状与姿态信息将上述多个第一空间点转换为第二空间下的多个第二空间点。

可选地，由于上述第二空间是基于该虚拟三维模型的预设姿态确定的，因此，选取该虚拟三维模型作为描述该第二空间的坐标系的原点。

步骤S204，采用多个第二空间点中每个第二空间点的位置信息、视角信息以及形状与姿态信息对应的纹理贴图信息，确定多个第二空间点中每个第二空间点的密度信息和颜色信息；

上述多个第二空间点中每个第二空间点包含上述虚拟三维模型在该点的位置信息、上述虚拟相机的视角信息、上述虚拟三维模型的形状与姿态信息。基于该虚拟三维模型在该点的位置信息、该虚拟相机的视角信息、该虚拟三维模型的形状与姿态信息可以确定该第二空间点对应的纹理贴图信息，进而确定上述多个第二空间点中每个第二空间点的密度信息和颜色信息。

步骤S206，基于密度信息和颜色信息执行体素渲染操作，得到目标图像。

上述虚拟三维模型上的密度信息和颜色信息可以用于体素渲染操作。该体素渲染操作可以基于给定的图像或视频渲染得到目标图像。

上述体素渲染操作可以是可微体素渲染(volume rendering)。该可微体素渲染可用于基于虚拟三维模型的密度信息和颜色信息计算所需图像的在红绿蓝色彩模型(Red-Green-Blue Color Model)下的颜色值，简称RGB颜色值。该可微体素渲染原理是：以虚拟相机为中心，对于已知图像的某个像素，可以在三维空间中确定一条该像素对应的虚拟射线；该虚拟射线可以经过该虚拟三维模型；通过积分方程，对该虚拟射线经过的虚拟三维模型上各点的密度信息和颜色信息进行积分，得到该像素点的RGB颜色值。

根据本公开实施例的渲染图像的方法，基于用户给定的一段人体运动视频，可以根据实际需要渲染出人体模在新视角、新姿态下的图片，本公开实施例的应用场景包括：虚拟人，人体驱动，增强现实，混合现实等。

根据本公开上述步骤S200至步骤S206，获取虚拟相机的视角信息和虚拟三维模型在第一空间下的形状与姿态信息，其中，第一空间为虚拟相机的观察空间；通过利用形状与姿态信息，将虚拟三维模型上的多个第一空间点转换为第二空间下的多个第二空间点，其中，第二空间是与虚拟三维模型的预设姿态对应的静态标准空间；采用多个第二空间点中每个第二空间点的位置信息、视角信息以及形状与姿态信息对应的纹理贴图信息，确定多个第二空间点中每个第二空间点的密度信息和颜色信息；并基于密度信息和颜色信息执行体素渲染操作，得到目标图像，达到了基于给定人体运动视频渲染出该人体在新视角和新姿态下的图片的目的，实现了互联网应用场景下根据已有人体运动视频高效、精确地提供人体在新视角、新姿态下的图片的技术效果，解决了现有技术中由于基于图像重建虚拟人体模型难度大、精度低导致虚拟人体新视角、新姿态图片渲染效果差的技术问题。

下面对该实施例的上述方法进行进一步介绍。

作为一种可选的实施方式，渲染图像的方法还包括：

步骤S208，获取当前录制的视频，其中，视频包括：多个图像帧，多个图像帧的每个图像帧中均显示有虚拟三维模型；

步骤S210，对多个图像帧进行三维姿态估计，得到形状与姿态信息、虚拟三维模型的全局旋转信息、虚拟三维模型的全局平移信息以及虚拟相机的相机内参，其中，形状与姿态信息包括：虚拟三维模型的姿态参数和形状参数。

上述当前录制的视频可以是描述虚拟三维模型运动的视频。该视频可以包含多个图像帧。该多个图像帧的每个图像帧中均显示有该虚拟三维模型。

上述多个图像帧的每个图像帧中可以包含上述虚拟三维模型的形状与姿态信息、该虚拟三维模型的全局旋转信息、该虚拟三维模型的全局平移信息以及上述虚拟相机的相机内参。该虚拟三维模型的形状与姿态信息包括：该虚拟三维模型的姿态参数和该虚拟三维模型的形状参数。

通过对上述多个图像帧进行三维姿态估计，可以获得上述形状与姿态信息、虚拟三维模型的全局旋转信息、虚拟三维模型的全局平移信息以及虚拟相机的相机内参。

例如，对于给定的一段人体运动视频，记为Video1，该视频包含N个图像帧，记为{I_t|t＝1，...，N}，其中，每个图像帧均显示有该人体模型。根据本公开实施例，可以基于Video1渲染出所需的新视角下的图像，或者该人体模型在新姿态下的图像。

仍然以基于Video1进行图像渲染为例，在对Video1中的N个图像帧进行三维姿态估计之前，通过人体图像分割模型对该N个图像帧进行人体图像分割。其中，对每个图像帧进行人体图像分割具体为对该图像帧按如下规则进行标记：将图像帧中属于人体模型区域的像素标记为1，不属于人体模型区域的像素标记为0。对N个图像帧进行人体图像分割所得的N个人体分割图记为{M_t|t＝1，...，N}。

可选地，上述人体图像分割模型可以是快速区域卷积神经网络模型(FasterRegion-Convolutional Neural Network，简称Faster R-CNN)，或者，该人体图像分割模型还可以是在Faster R-CNN的基础上添加了一个预测分割面部的分支的面部区域卷积神经网络模型(Mask Region_-Convolutional Neural Network，简称Mask R-CNN)。

仍然以基于Video1进行图像渲染为例，通过人体三维姿态估计算法模型对Video1中包含的N个图像帧进行三维姿态估计，得到以下目标参数：

(1)人体形状参数和姿态参数，估计得到的Video1中N个图像帧的人体形状和姿态参数通过蒙皮复合人体线性模型(A Skinned Multi-Person Linear Model，简称为SMPL模型)表示为{θ_t，β_t|t＝1，...，N}，其中，θ_t表示人体姿态参数、β_t表示人体形状参数；

(2)人体全局旋转参数，估计得到的Video1中N个图像帧的人体全局旋转参数记为{R_t|t＝1，...，N}；

(3)人体全局平移参数，估计得到的Video1中N个图像帧的人体全局平移参数记为{T_t|t＝1，...，N}；

(4)虚拟相机的相机内部参数，估计得到的Video1中N个图像帧的虚拟相机的相机内部参数记为{K_t|t＝1，…，N}。

可选地，上述人体三维姿态估计算法模型可以是人体姿态和形状估计的视频推断(Video Inference for human Body pose and shape Estimation，简称VIBE)模型。

需要注意的是，由于Video1中描述的是同一个人体模型的运动，该人体模型的形状信息应当是一定的，即各图像帧中的该人体模型的形状参数应当相同，因此，可以对通过上述人体三维姿态估计得到的Video1中N个图像帧的人体形状参数{β_t|t＝1，...，N}进行平均，将平均值β作为Video1对应的人体形状参数。

作为一种可选的实施方式，渲染图像的方法还包括：

步骤S212，采用相机内参、形状与姿态信息以及多个图像帧，获取纹理贴图信息。

基于上述虚拟相机的相机内参、上述虚拟三维模型的形状与姿态信息，结合上述多个图像帧，可以获取上述纹理贴图信息。

仍然以基于Video1进行图像渲染为例，Video1中显示的三维人体模型的纹理贴图信息可以是该三维人体模型的光线(ultraviolet，简称UV)纹理图信息。该UV纹理图包含多个像素，其中每个像素用于描述该三维人体模型上对应顶点位置的颜色信息c^uv。基于Video1对应的虚拟相机的相机内部参数{K_t|t＝1，...，N}、三维人体模型的形状参数β和姿态参数{θ_t|t＝1，...，N}，结合N个图像帧，可以获取该人体模型的UV纹理图。

然而，Video1中的每个图像帧显示该三维人体模型的部分表面，也就是说，从单一图像帧能够获取到三维人体模型UV纹理图中的一部分像素。因此，从Video1包含的N个图像帧中进行像素采样，尽可能得到该三维人体模型所有顶点上的颜色信息，进而获取尽可能完整的UV纹理图。

作为一种可选的实施方式，渲染图像的方法还包括：

步骤S214，将形状与姿态信息对应的坐标系确定为全局坐标系；

步骤S216，利用全局旋转信息和全局平移信息，确定多个图像帧的每个图像帧中的虚拟相机在全局坐标系下的姿态；

步骤S218，基于虚拟相机在全局坐标系下的姿态，在全局坐标系下构建第一空间和第二空间。

确定上述虚拟三维模型的形状与姿态信息对应的坐标系为全局坐标系。对于多个图像帧的每个图像帧，利用全局旋转信息和全局平移信息可以确定上述虚拟相机在该全局坐标系下的姿态。基于该虚拟相机在全局坐标系下的姿态，可以在全局坐标系下构建第一空间和第二空间。第一空间是该虚拟相机的观察空间。第二空间是与虚拟三维模型的预设姿态对应的静态标准空间。

仍然以基于Video1进行图像渲染为例，确定通过SMPL模型表示的形状与姿态参数{θ_t，β_t|t＝1，...，N}对应的坐标系为全局坐标系，利用人体全局旋转参数{R_t|t＝1，...，N}和人体全局平移参数{T_t|t＝1，...，N}，确定Video1中N个图像帧的每个图像帧中的虚拟相机在全局坐标系下的姿态信息，其中，该姿态信息包括：相机位置，记为

相机朝向，记为

仍然以基于Video1进行图像渲染为例，基于全局坐标系下虚拟相机的相机位置

和相机朝向

在全局坐标系下建立基于该虚拟相机的第一空间SP1和基于三维人体模型的T-pose的第二空间SP2，其中，第一空间SP1跟随该虚拟相机的运动而动态变化，第一空间坐标系的原点为该虚拟相机所在的空间位置点；第二空间SP2是静态标准(canonical)空间，第二空间坐标系的原点为该人体模型T-pose的中心点。

需要注意的是，现有技术中使用神经辐射场(neural radiance field)来表征人体模型的几何形状和颜色。然而，由于Video1中显示的人体是持续运动的，使用现有技术中的神经辐射场不能很好的对该运动人体进行建模，因此，本公开实施例构建第二空间SP2，在该静态标准空间SP2中，人体始终保持T-pose，对应的人体姿态参数θ始终为零向量，便于对人体进行建模。

作为一种可选的实施方式，在步骤S202，利用形状与姿态信息，将多个第一空间点转换为多个第二空间点包括：

步骤S2021，利用姿态参数和线性混合蒙皮，将多个图像帧的每个图像帧中的多个第一空间点转换为多个第二空间点。

上述线性混合蒙皮(linear blend skinning)用于将上述多个第一空间点转换为上述多个第二空间点，该转换过程还需要基于上述虚拟三维模型的姿态参数。

仍然以基于Video1进行图像渲染为例，对于Video1中N个图像帧的每个图像帧，通过变换矩阵，将多个第一空间SP1中的数据点变换到第二空间SP2中。其中，对第t个图像帧中的多个数据点进行变换的具体操作为：获取某数据点在第一空间SP1中的位置x及其对应的人体姿态参数θ_t，通过线性混合蒙皮将该人体姿态参数θ_t变换到第二空间SP2中该数据点的对应位置x^can上。

需要注意的是，当待变换的数据点在人体模型表面时，上述变换矩阵是这样得到的：基于人体形状参数β和人体姿态参数{θ_t|t＝1，...，N}，生成一个包含结构顶点信息和结构表面信息的三维模型；基于该三维模型上某个给定顶点和某个给定姿态对应的人体姿态参数θ_t，可以得到该三维模型从T-pose变换到该给定姿态时该顶点位置的变换矩阵。特别地，当待变换的数据点不在人体模型表面上时，选取距离该待变换的数据点最近的三维人体模型的顶点，通过上述方法得到上述变换矩阵作为该数据点的变换矩阵。

作为一种可选的实施方式，在步骤S204，采用多个第二空间点中每个第二空间点的位置信息、视角信息以及形状与姿态信息对应的纹理贴图信息，确定密度信息和颜色信息包括：

步骤S2041，采用目标神经网络模型对多个第二空间点中每个第二空间点的位置信息、视角信息以及纹理贴图信息进行分析，得到密度信息和颜色信息。

通过目标神经网络对上述多个第二空间点中每个第二空间点的位置信息、视角信息以及纹理贴图信息进行分析，可以得到该第二空间点的密度信息和颜色信息。

仍然以基于Video1进行图像渲染为例，使用神经辐射场作为神经网络模型，在第二空间SP2中，将三维空间点的坐标x^can、相机朝向d和该三维空间点对应的UV纹理图上的颜色c^uv输入该神经辐射场，通过一个全连接网络F_Φ：(x^can，d，c^uv)→(σ(x^can)，c(x^can))，可以得到该三维空间点对应的密度参数σ和颜色参数c，其中，Φ是该全连接网络的参数。

作为一种可选的实施方式，在步骤S206，基于密度信息和颜色信息执行体素渲染操作，得到目标图像包括：

步骤S2061，确定每个图像帧中的每个像素点对应的虚拟射线；

步骤S2062，采用全局平移信息和形状参数确定虚拟射线在第一空间下的第一深度和第二深度，其中，第一深度小于第二深度；

步骤S2063，在第一深度与第二深度之间选取多个第一采样点；

步骤S2064，利用形状与姿态信息，将多个第一采样点转换为第二空间下的多个第二采样点；

步骤S2065，基于多个第二采样点的密度信息和颜色信息计算得到目标图像中每个像素点的目标像素值。

上述每个图像帧中的每个像素可以确定一条虚拟射线，该虚拟射线在空间中经过上述虚拟三维模型。利用全局平移信息和形状参数可以确定该虚拟射线在第一空间下的第一深度和第二深度。上述第一深度可以是该虚拟射线经过该虚拟三维模型的最小深度，上述第二深度可以是该虚拟射线经过该虚拟三维模型的最大深度。

上述多个第一采样点可以是在该虚拟射线上的上述第一深度和上述第二深度之间的采样点。上述第一采样点可以通过等间距采样得到。利用虚拟三维模型的形状与姿态信息，可以将第一空间下的多个第一采样点转换为第二空间下的多个第二采样点。

基于上述多个第二采样点的密度信息和颜色信息，可以计算得到上述目标图像中每个像素点的目标像素值。

仍然以基于Video1进行图像渲染为例，确定一该人体模型处于新姿态下的图像作为目标图像，记为Pic1。使用可微体素渲染计算Pic1的RGB颜色值，对于Video1中第t个图像帧，具体的渲染计算如下：

(1)在第一空间SP1中，第t个图像帧中的每个像素可以确定一条虚拟射线，对于每条虚拟射线，根据人体全局平移参数{T_t|t＝1，...，N}和人体形状参数β确定该虚拟射线穿过该人体模型区域的最小深度和最大深度；

(2)在第一空间SP1中，在该虚拟射线上最小深度和最大深度之间等距离采样n个点，记为{x_k|k＝1，...，n}；

(3)将第一空间SP1中的n个点{x_k|k＝1，...，n}映射为第二空间SP2中的n个点

(4)根据第二空间SP2中的n个点

对应的密度信息

和颜色信息

计算得到目标图像Pic1中每个像素点的目标像素值

的计算过程如以下公式(1)所示：

在公式(1)中，δ_k是三维空间中两个相邻点采样点的距离，δ_k＝||x_k+1-x_k||，T_k是虚拟射线从起点到第k-1个采样点的累积投射比，T_k的计算过程如以下公式(2)所示：

作为一种可选的实施方式，渲染图像的方法还包括：

步骤S220，基于目标像素值和目标图像中每个像素点的初始像素值，确定目标损失函数，其中，初始像素值从多个图像帧中与目标图像对应的图像帧获得；

步骤S222，采用目标损失函数对初始神经网络模型的网络参数进行优化，得到目标神经网络模型。

基于多个第二采样点的密度信息和颜色信息，可以计算得到上述目标像素值，上述初始像素值可以是给定的视频中包含的多个图像帧中与目标图像对应的图像帧的像素值，基于该目标像素值和该初始像素值可以确定目标损失函数。

利用目标神经网络模型对多个第二空间点中每个第二空间点的位置信息、视角信息以及纹理贴图信息进行分析，可以得到密度信息和颜色信息，该目标神经网络模型可以采用目标损失函数对初始神经网络模型的网络参数进行优化得到。

仍然以基于Video1进行图像渲染为例，确定Video1中N个图像帧中与目标图像Pic1对应的图像帧的像素值为初始像素值C_t(r)，确定目标像素值

和该初始像素值的平方和误差作为目标损失函数L，该目标损失函数L的计算过程如以下公式(3)所示：

在公式(3)中，R是由图像帧中所有像素确定的虚拟射线集合。

仍然以基于Video1进行图像渲染为例，为了提高目标图像Pic1中目标像素点的计算质量，需要利用目标损失函数L对全连接网络的参数Φ进行优化，得到优化后的网络参数#Φ，优化的过程如以下公式(4)所示：

在公式(4)中，I_t为Video1中第t个图像帧，θ_t为Video1中第t个图像帧对应的人体姿态参数，β为Video1对应的人体形状参数，R_t为Video1中第t个图像帧对应的人体全局旋转参数，T_t为Video1中第t个图像帧对应的人体全局平移参数，K_t为虚拟相机的相机内部参数。

需要说明的是，实际上，使用全连接网络作为图像渲染中的目标神经网络，其中，该全连接网络的网络参数应当是由上述目标损失函数优化后的该网络参数#Φ。也就是说，初始神经网络模型为全连接网络F_Φ，目标神经网络模型为优化后的全连接网络F_#Φ。

作为一种可选的实施方式，渲染图像的方法还包括：

步骤S224，采用目标损失函数对初始神经网络模型的网络参数、形状与姿态信息、全局旋转信息、全局平移信息以及相机内参进行联合优化。

上述联合优化用于提高图像渲染质量，采用目标损失函数对初始神经网络模型的网络参数、形状与姿态信息、全局旋转信息、全局平移信息以及相机内参，可以进行该联合优化。

仍然以基于Video1进行图像渲染为例，基于全连接网络的参数Φ进行网络参数、人体参数和相机参数的联合优化，联合优化的目标如以下公式(5)所示：

需要注意的是，按照上述公式(5)进行联合优化的目标损失函数仍然是由公式(4)计算所得的目标损失函数L。

特别地，上述联合优化使用的优化方法可以是随机优化方法(AMethod forStochastic Optimization，简称ADAM)或者有限记忆BFGS法(Limited-memory BFGS)，其中，BFGS方法是由柏罗登(C.G.Broyden)、弗莱彻(R.Fletcher)、戈德福布(D.Goldfarb)以及生纳(D.F.Shanno)所研究，故得名。

根据本公开实施例，可以通过指定渲染时的相机位置，渲染出新视角下的图像；或者通过改变人体姿态参数，渲染出不同动作下的图像。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例所述的方法。

在本公开中还提供了一种渲染图像的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本公开实施例的提供的一种渲染图像的装置的结构框图，如图3所示，渲染图像的装置300包括：获取模块301，转换模块302，确定模块303，渲染模块304。

获取模块301，用于获取虚拟相机的视角信息和虚拟三维模型在第一空间下的形状与姿态信息，其中，第一空间为虚拟相机的观察空间；转换模块302，用于利用形状与姿态信息，将虚拟三维模型上的多个第一空间点转换为第二空间下的多个第二空间点，其中，第二空间是与虚拟三维模型的预设姿态对应的静态标准空间；确定模块303，用于采用多个第二空间点中每个第二空间点的位置信息、视角信息以及形状与姿态信息对应的纹理贴图信息，确定多个第二空间点中每个第二空间点的密度信息和颜色信息；渲染模块304，用于基于密度信息和颜色信息执行体素渲染操作，得到目标图像。

可选地，渲染图像的装置300还包括：估计模块305(图中未画出)，用于：获取当前录制的视频，其中，视频包括：多个图像帧，多个图像帧的每个图像帧中均显示有虚拟三维模型；对多个图像帧进行三维姿态估计，得到形状与姿态信息、虚拟三维模型的全局旋转信息、虚拟三维模型的全局平移信息以及虚拟相机的相机内参，其中，形状与姿态信息包括：虚拟三维模型的姿态参数和形状参数。

可选地，渲染图像的装置300还包括：贴图模块306(图中未画出)，用于：采用相机内参、形状与姿态信息以及多个图像帧，获取纹理贴图信息。

可选地，渲染图像的装置300还包括：构建模块307(图中未画出)，用于：将形状与姿态信息对应的坐标系确定为全局坐标系；利用全局旋转信息和全局平移信息，确定多个图像帧的每个图像帧中的虚拟相机在全局坐标系下的姿态；基于虚拟相机在全局坐标系下的姿态，在全局坐标系下构建第一空间和第二空间。

可选地，上述转换模块302，还用于：利用姿态参数和线性混合蒙皮，将多个图像帧的每个图像帧中的多个第一空间点转换为多个第二空间点。

可选地，上述确定模块303，还用于：采用目标神经网络模型对多个第二空间点中每个第二空间点的位置信息、视角信息以及纹理贴图信息进行分析，得到密度信息和颜色信息。

可选地，上述渲染模块304，还用于：确定每个图像帧中的每个像素点对应的虚拟射线；采用全局平移信息和形状参数确定虚拟射线在第一空间下的第一深度和第二深度，其中，第一深度小于第二深度；在第一深度与第二深度之间选取多个第一采样点；利用形状与姿态信息，将多个第一采样点转换为第二空间下的多个第二采样点；基于多个第二采样点的密度信息和颜色信息计算得到目标图像中每个像素点的目标像素值。

可选地，渲染图像的装置300还包括：第一优化模块308(图中未画出)，用于：基于目标像素值和目标图像中每个像素点的初始像素值，确定目标损失函数，其中，初始像素值从多个图像帧中与目标图像对应的图像帧获得；采用目标损失函数对初始神经网络模型的网络参数进行优化，得到目标神经网络模型。

可选地，渲染图像的装置300还包括：第二优化模块309(图中未画出)，用于：采用目标损失函数对初始神经网络模型的网络参数、形状与姿态信息、全局旋转信息、全局平移信息以及相机内参进行联合优化。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

根据本公开的实施例，本公开还提供了一种电子设备，包括存储器和至少一个处理器，该存储器中存储有计算机指令，该处理器被设置为运行计算机指令以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S1，获取虚拟相机的视角信息和虚拟三维模型在第一空间下的形状与姿态信息，其中，第一空间为虚拟相机的观察空间；

步骤S2，利用形状与姿态信息，将虚拟三维模型上的多个第一空间点转换为第二空间下的多个第二空间点，其中，第二空间是与虚拟三维模型的预设姿态对应的静态标准空间；

步骤S3，采用多个第二空间点中每个第二空间点的位置信息、视角信息以及形状与姿态信息对应的纹理贴图信息，确定多个第二空间点中每个第二空间点的密度信息和颜色信息；

步骤S4，基于密度信息和颜色信息执行体素渲染操作，得到目标图像。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质中存储有计算机指令，其中，该计算机指令被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于：U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

根据本公开的实施例，本公开还提供了一种计算机程序产品。用于实施本公开的渲染图像的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本公开所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

Claims

1.一种渲染图像的方法，包括：

获取虚拟相机的视角信息和虚拟三维模型在第一空间下的形状与姿态信息，其中，所述第一空间为所述虚拟相机的观察空间；

利用所述形状与姿态信息，将所述虚拟三维模型上的多个第一空间点转换为第二空间下的多个第二空间点，其中，所述第二空间是与所述虚拟三维模型的预设姿态对应的静态标准空间；

采用所述多个第二空间点中每个第二空间点的位置信息、所述视角信息以及所述形状与姿态信息对应的纹理贴图信息，确定所述多个第二空间点中每个第二空间点的密度信息和颜色信息；

基于所述密度信息和所述颜色信息执行体素渲染操作，得到目标图像。

2.根据权利要求1所述的方法，其中，所述方法还包括：

获取当前录制的视频，其中，所述视频包括：多个图像帧，所述多个图像帧的每个图像帧中均显示有所述虚拟三维模型；

对所述多个图像帧进行三维姿态估计，得到所述形状与姿态信息、所述虚拟三维模型的全局旋转信息、所述虚拟三维模型的全局平移信息以及所述虚拟相机的相机内参，其中，所述形状与姿态信息包括：所述虚拟三维模型的姿态参数和形状参数。

3.根据权利要求2所述的方法，其中，所述方法还包括：

采用所述相机内参、所述形状与姿态信息以及所述多个图像帧，获取所述纹理贴图信息。

4.根据权利要求2所述的方法，其中，所述方法还包括：

将所述形状与姿态信息对应的坐标系确定为全局坐标系；

利用所述全局旋转信息和所述全局平移信息，确定所述多个图像帧的每个图像帧中的所述虚拟相机在所述全局坐标系下的姿态；

基于所述虚拟相机在所述全局坐标系下的姿态，在所述全局坐标系下构建所述第一空间和所述第二空间。

5.根据权利要求2所述的方法，其中，利用所述形状与姿态信息，将所述多个第一空间点转换为所述多个第二空间点包括：

利用所述姿态参数和线性混合蒙皮，将所述多个图像帧的每个图像帧中的所述多个第一空间点转换为所述多个第二空间点。

6.根据权利要求2所述的方法，其中，采用所述多个第二空间点中每个第二空间点的位置信息、所述视角信息以及所述形状与姿态信息对应的纹理贴图信息，确定所述密度信息和所述颜色信息包括：

采用目标神经网络模型对所述多个第二空间点中每个第二空间点的位置信息、所述视角信息以及所述纹理贴图信息进行分析，得到所述密度信息和所述颜色信息。

7.根据权利要求6所述的方法，其中，基于所述密度信息和所述颜色信息执行体素渲染操作，得到所述目标图像包括：

确定每个图像帧中的每个像素点对应的虚拟射线；

采用所述全局平移信息和所述形状参数确定所述虚拟射线在所述第一空间下的第一深度和第二深度，其中，所述第一深度小于所述第二深度；

在所述第一深度与所述第二深度之间选取多个第一采样点；

利用所述形状与姿态信息，将所述多个第一采样点转换为所述第二空间下的多个第二采样点；

基于所述多个第二采样点的所述密度信息和所述颜色信息计算得到所述目标图像中每个像素点的目标像素值。

8.根据权利要求7所述的方法，其中，所述方法还包括：

基于所述目标像素值和所述目标图像中每个像素点的初始像素值，确定目标损失函数，其中，所述初始像素值从所述多个图像帧中与所述目标图像对应的图像帧获得；

采用所述目标损失函数对初始神经网络模型的网络参数进行优化，得到所述目标神经网络模型。

9.根据权利要求7所述的方法，其中，所述方法还包括：

采用所述目标损失函数对初始神经网络模型的网络参数、所述形状与姿态信息、所述全局旋转信息、所述全局平移信息以及所述相机内参进行联合优化。

10.一种渲染图像的装置，包括：

获取模块，用于获取虚拟相机的视角信息和虚拟三维模型在第一空间下的形状与姿态信息，其中，所述第一空间为所述虚拟相机的观察空间；

转换模块，用于利用所述形状与姿态信息，将所述虚拟三维模型上的多个第一空间点转换为第二空间下的多个第二空间点，其中，所述第二空间是与所述虚拟三维模型的预设姿态对应的静态标准空间；

确定模块，用于采用所述多个第二空间点中每个第二空间点的位置信息、所述视角信息以及所述形状与姿态信息对应的纹理贴图信息，确定所述多个第二空间点中每个第二空间点的密度信息和颜色信息；

渲染模块，用于基于所述密度信息和所述颜色信息执行体素渲染操作，得到目标图像。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。