CN116342782A

CN116342782A - 生成虚拟形象渲染模型的方法和装置

Info

Publication number: CN116342782A
Application number: CN202310344024.8A
Authority: CN
Inventors: 李�杰; 陈睿智; 赵晨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-27

Abstract

本公开提供了生成虚拟形象渲染模型的方法和装置，涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、数字人等场景。具体实现方案为：获取预定人物的视频；对视频进行人脸检测跟踪，得到人脸图像集合；将人脸图像集合通过三维可变形人脸模型进行三维人脸重建，得到每帧人脸图像的表情参数、纹理参数；基于每帧人脸图像的表情参数、纹理参数训练优化模型；根据三维可变形人脸模型、优化模型生成虚拟形象渲染模型。该实施方式提供了在算力成本、硬件成本、终端适配性、渲染引擎适配、收敛速度等相对其他方法都有很大优势的虚拟形象渲染模型。

Description

生成虚拟形象渲染模型的方法和装置

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，具体为一种生成虚拟形象渲染模型的方法和装置。

背景技术

虚拟数字人是创建元宇宙虚拟世界的关键元素之一。根据数字人的业务需求不同，数字人可分为2D、3D、卡通、写实、超写实等几类。超写实数字人渲染由于写实逼真需求，需要对数字人材质、光照模型、3D模型等进行细粒度建模，虚拟形象的超写实渲染贴图设计完全根据业务需求依赖专业设计人员进行设计迭代优化。需要专业的动画师对虚拟形象进行几何建模、纹理贴图、光照贴图等进行专业优化设计以达到适配业务需求的基本虚拟形象构建。

现有的高精虚拟形象生成方案的硬件成本高，需要搭建多个视角结合不同光照进行几何纹理求解。并且计算成本高，多视角求解需要建立高分辨率对每个像素建立物理光照模型进行求解。此外，现有的方案的扩展性弱，传统多视角多光照只适用于室内对于室外无约束场景难以复用。

发明内容

本公开提供了一种生成虚拟形象渲染模型的方法、装置、设备、存储介质以及计算机程序产品。

根据本公开的第一方面，提供了一种生成虚拟形象渲染模型的方法，包括：获取预定人物的视频；对所述视频进行人脸检测跟踪，得到人脸图像集合；将所述人脸图像集合通过三维可变形人脸模型进行三维人脸重建，得到每帧人脸图像的表情参数、纹理参数；基于每帧人脸图像的表情参数、纹理参数训练优化模型；根据所述三维可变形人脸模型、所述优化模型生成虚拟形象渲染模型。

根据本公开的第二方面，提供了一种虚拟形象渲染方法，包括：获取待渲染的目标人脸图像；将所述目标人脸图像输入根据第一方面中任一项所述的方法训练出的虚拟形象渲染模型，生成3D人脸动画。

根据本公开的第三方面，提供了一种生成虚拟形象渲染模型的装置，包括：获取单元，被配置成获取预定人物的视频；跟踪单元，被配置成对所述视频进行人脸检测跟踪，得到人脸图像集合；重建单元，被配置成将所述人脸图像集合通过三维可变形人脸模型进行三维人脸重建，得到每帧人脸图像的表情参数、纹理参数；优化单元，被配置成基于每帧人脸图像的表情参数、纹理参数训练优化模型；生成单元，被配置成根据所述三维可变形人脸模型、所述优化模型生成虚拟形象渲染模型。

根据本公开的第四方面，提供了一种虚拟形象渲染装置，包括：获取单元，被配置成获取待渲染的目标人脸图像；生成单元，被配置成将所述目标人脸图像输入根据第二方面中任一项所述的装置训练出的虚拟形象渲染模型，生成3D人脸动画。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面或第二方面中任一项所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面或第二方面中任一项所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面或第二方面中任一项所述的方法。

根据本申请的技术，将神经可微分光线追踪神经渲染与传统渲染引擎进行结合，并结合虚拟形象设计的三维参数化模型和光学模型先验实现对虚拟形象三维隐式空间的几何驱动估计。该方法在算力成本、硬件成本、终端适配性、渲染引擎适配、收敛速度等相对其他方法都有很大优势。

本申请所述方法不仅适用于元宇宙虚拟数字人的生成交互场景，而且适用于目前大多数终端的虚拟形象生成交互场景。该方法有望成为元宇宙中多终端数字人生成显示交互的标准形态。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请生成虚拟形象渲染模型的方法的一个实施例的流程图；

图3是根据本申请虚拟形象渲染方法的一个应用场景的示意图；

图4是根据本申请虚拟形象渲染方法的一个实施例的流程图；

图5是根据本申请生成虚拟形象渲染模型的装置的一个实施例的结构示意图；

图6是根据本申请虚拟形象渲染装置的一个实施例的结构示意图；

图7是用来实现本申请实施例的生成虚拟形象渲染模型的方法和虚拟形象渲染方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了可以应用本申请实施例的生成虚拟形象渲染模型的方法、生成虚拟形象渲染模型的装置、虚拟形象渲染方法或虚拟形象渲染装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端101、102，网络103、数据库服务器104和服务器105。网络103用以在终端101、102，数据库服务器104与服务器105之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端101、102通过网络103与服务器105进行交互，以接收或发送消息等。终端101、102上可以安装有各种客户端应用，例如模型训练类应用、视频驱动人脸动画类应用、购物类应用、支付类应用、网页浏览器和即时通讯工具等。

这里的终端101、102可以是硬件，也可以是软件。当终端101、102为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio La7er III，动态影像专家压缩标准音频层面3)、膝上型便携计算机和台式计算机等等。当终端101、102为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

当终端101、102为硬件时，其上还可以安装有麦克风、图像采集设备。图像采集设备可以是各种能实现采集图像功能的设备，如摄像头、传感器等等。用户110可以利用终端101、102上的图像采集设备来采集人脸，使用麦克风采集语音。

数据库服务器104可以是提供各种服务的数据库服务器。例如数据库服务器中可以存储有样本集。样本集中包含有大量的样本。其中，样本可以包括预定人物的视频，还可以包括由专业的动画师根据预定人物的图像进行几何建模、纹理贴图、光照贴图等构建的3D虚拟形象。这样，用户110也可以通过终端101、102，从数据库服务器104所存储的样本集中选取样本。

服务器105也可以是提供各种服务的服务器，例如对终端101、102上运行的各种应用提供支持的后台服务器。后台服务器可以利用终端101、102发送的样本集中的样本，对初始虚拟形象渲染模型进行训练，并可以将训练结果(如生成的虚拟形象渲染模型)发送给终端101、102。这样，用户可以应用生成的模型进行3D动画驱动。

这里的数据库服务器104和服务器105同样可以是硬件，也可以是软件。当它们为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当它们为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的生成虚拟形象渲染模型的方法和虚拟形象渲染方法一般由服务器105执行。相应地，生成虚拟形象渲染模型的装置和虚拟形象渲染装置一般也设置于服务器105中。

需要指出的是，在服务器105可以实现数据库服务器104的相关功能的情况下，系统架构100中可以不设置数据库服务器104。

应该理解，图1中的终端、网络、数据库服务器和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端、网络、数据库服务器和服务器。

继续参见图2，其示出了根据本申请的生成虚拟形象渲染模型的方法的一个实施例的流程200。该生成虚拟形象渲染模型的方法可以包括以下步骤：

步骤201，获取预定人物的视频。

在本实施例中，生成虚拟形象渲染模型的方法的执行主体(例如图1所示的服务器)可以通过多种方式来获取预定人物的视频。预定人物可以是真实的人，也可以是虚拟人物，例如卡通人物。例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的现有的预定人物的视频。再例如，用户可以通过终端(例如图1所示的终端101、102)来收集预定人物的视频。这些视频是由2D的视频帧组成的。

步骤202，对视频进行人脸检测跟踪，得到人脸图像集合。

在本实施例中，可通过现有的人脸检测技术识别视频帧中的人脸，再通过现有技术的目标跟踪算法来对人脸进行跟踪，最后从视频中提取出包含预定人物的人脸图像集合。

步骤203，将人脸图像集合通过三维可变形人脸模型进行三维人脸重建，得到每帧人脸图像的表情参数、纹理参数。

在本实施例中，基于人脸图像的三维重建方法非常多，常见的包括立体匹配，Structure From Motion(简称SfM)，Shape from Shading(简称sfs)，三维可变形人脸模型(3DMM)。3DMM，即三维可变形人脸模型，是一个通用的三维人脸模型，用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配，并且可以由其他许多幅人脸正交基加权线性相加而来。我们所处的三维空间，每一点(x,y,z)，实际上都是由三维空间三个方向的基量，(1,0,0)，(0,1,0)，(0,0,1)加权相加所得，只是权重分别为x,y,z。

转换到三维空间，道理也一样。每一个三维的人脸，可以由一个数据库中的所有人脸组成的基向量空间中进行表示，而求解任意三维人脸的模型，实际上等价于求解各个基向量的系数的问题。

人脸的基本属性包括形状和纹理，每一张人脸可以表示为形状向量和纹理向量的线性叠加。纹理参数由多个表情基进行线性组合。

每一帧图像对应一组表情参数。3D虚拟人像的面部驱动(包括口型)是由一些动画引擎预定义的一组Blender Shape(BS，表情参数)参数控制的。BS参数是一个向量，每一个维度取值范围为[0,1],代表一个特定的面部运动。例如jaw_open这个维度控制着下巴的张合程度，数值越大表示张合越大。图3中左图展示的是jaw_open＝0对应的虚拟人像形态，右图展示的是jaw_open＝1对应的虚拟人像形态。类似的，控制虚拟人面部各个肌肉维度的总共370个BS，共同控制虚拟人的面部运动，让其拥有表达各种表情的能力。

步骤204，基于每帧人脸图像的表情参数和纹理参数训练优化模型。

在本实施例中，优化模型可以是一种神经网络，可以将表情参数、纹理参数中的至少一项进行优化，从而能够得到超写实的3D虚拟形象。可由专业的动画师对虚拟形象进行几何建模、纹理贴图、光照贴图等进行专业优化设计以达到适配业务需求的基本虚拟形象构建，得到优化后的表情参数、纹理参数。将步骤203的输出结果作为优化模型的输入，将动画师优化的表情参数、纹理参数作为优化模型的输出，对优化模型进行有监督的训练。

步骤205，根据三维可变形人脸模型、优化模型生成虚拟形象渲染模型。

在本实施例中，可将三维可变形人脸模型和优化模型级联组成虚拟形象渲染模型。三维可变形人脸模型用于生成基本的3D虚拟形象，然后将3D虚拟形象输入优化模型，用于将3D虚拟形象进行优化，变得更写实。

本申请的上述实施例提供的方法，能够快速、准确地训练出虚拟形象渲染模型，使得模型生成的3D动画更加逼真，达到超写实的效果。

在本实施例的一些可选的实现方式中，所述基于每帧人脸图像的表情参数、纹理参数训练优化模型，包括：基于每帧人脸图像的表情参数训练形状优化模型作为优化模型。形状优化模型是一种神经网络，用于对表情参数进行优化，从而实现3D虚拟形象的形状的优化，得到形状更逼真的3D动画。可由专业的动画师对虚拟形象进行几何建模、纹理贴图、光照贴图等进行专业优化设计以达到适配业务需求的基本虚拟形象构建，得到优化后的表情参数、纹理参数。将步骤203得到的表情参数作为形状优化模型的输入，将动画师优化的表情参数作为形状优化模型的输出，对形状优化模型进行有监督的训练。

在本实施例的一些可选的实现方式中，所述基于每帧人脸图像的表情参数、纹理参数训练优化模型，包括：基于每帧人脸图像的纹理参数训练颜色优化模型作为优化模型。颜色优化模型是一种神经网络，用于对纹理参数进行优化，从而实现3D虚拟形象的纹理(颜色)的优化，得到颜色更逼真的3D动画。可由专业的动画师对虚拟形象进行几何建模、纹理贴图、光照贴图等进行专业优化设计以达到适配业务需求的基本虚拟形象构建，得到优化后的纹理参数。将步骤203得到的纹理参数作为颜色优化模型的输入，将动画师优化的纹理参数为颜色优化模型的输出，对颜色优化模型进行有监督的训练。

在本实施例的一些可选的实现方式中，所述基于每帧人脸图像的表情参数、纹理参数训练优化模型，包括：基于每帧人脸图像的表情参数训练形状优化模型；基于每帧人脸图像的纹理参数训练颜色优化模型；根据所述形状优化模型和所述颜色优化模型生成优化模型。具体过程与上文相同，这样得到的优化模型包括形状优化模型和颜色优化模型，从而实现3D动画的颜色优化和形状优化，得到形状和颜色更逼真的3D动画。

在本实施例的一些可选的实现方式中，所述基于每帧人脸图像的表情参数训练形状优化模型作为优化模型，包括：通过形状优化模型对每帧人脸图像的表情参数进行映射加权，得到每帧人脸图像的表情参数的加权结果。所述形状优化模型为三维运动体素网格基或有符号距离场。三维运动体素网格是固定分辨率的三维栅格地图，用于体素化渲染，渲染的不是一个个面，而是一个实心的物体。有符号距离场(Signed Distance Field，简称SDF)可以用一个标量场函数或者一张体贴图来表示，简单地来说就是一种空间的表达，里面存的是空间中一个点到最近的三角面的距离，如果在物体内部则是负值。因为是“距离”的标量场，所以用“距离”保留了空间信息，结合硬件插值可以更好地保留表面信息，不像体素一旦被体素化，所有几何信息就全部丢失了，原来的边界在哪里就不知道了，所以SDF的有效分辨率其实比体素要高的多。SDF追踪的时候能加速，可以跳过空闲的空间。

在本实施例的一些可选的实现方式中，所述基于每帧人脸图像的表情参数训练形状优化模型作为优化模型，包括：通过形状优化模型实现每帧人脸图像的表情参数的校准空间学习。由于参数化基底存在表现力不够问题，需要进行校准。形状优化模型可以是多层感知机。可将每帧人脸图像的表情参数作为形状优化模型的输入，将人工校准后的表情参数作为形状优化模型的输出，有监督地训练形状优化模型。得到可将表情参数转换成优化后的表情参数的模型。

在本实施例的一些可选的实现方式中，所述基于每帧人脸图像的表情参数训练形状优化模型作为优化模型，包括：通过形状优化模型中的三维运动体素网格基对每帧人脸图像的表情参数进行映射加权，得到每帧人脸图像的表情参数的加权结果；基于每帧人脸图像的表情参数的加权结果通过形状优化模型中的多层感知机实现每帧人脸图像的表情参数的加权结果的校准空间学习。可先通过映射加权纠正偏移，再通过校准进一步纠正偏移，从而得到形状更准确的3D人脸。

在本实施例的一些可选的实现方式中，所述基于每帧人脸图像的纹理参数训练颜色优化模型作为优化模型，包括：基于每帧人脸图像的纹理参数训练多层感知机作为优化模型。可将每帧人脸图像的纹理参数作为颜色优化模型的输入，将人工校准后的纹理参数作为颜色优化模型的输出，有监督地训练颜色优化模型。得到可将纹理参数转换成优化后的纹理参数的模型。

在本实施例的一些可选的实现方式中，所述基于每帧人脸图像的纹理参数训练颜色优化模型作为优化模型，包括：基于每帧人脸图像的表情参数通过形状优化模型中的三维运动体素网格基对每帧人脸图像的表情参数进行映射加权，得到每帧人脸图像的表情参数的加权结果；基于每帧人脸图像的表情参数的加权结果通过形状优化模型中的多层感知机实现每帧人脸图像的表情参数的加权结果的校准空间学习，得到每帧人脸图像的表情参数的校准结果；基于每帧人脸图像的表情参数的校准结果和每帧人脸图像的纹理参数训练颜色优化模型作为优化模型。可将形状优化模型的训练和纹理优化模型的训练结合，训练出既优化形状又优化纹理的优化模型。

在本实施例的一些可选的实现方式中，所述方法还包括：基于每帧人脸图像的表情参数、纹理参数对所述虚拟形象渲染模型进行自监督训练。虚拟形象渲染模型训练完成后，即可使用步骤203中回归的表情参数和纹理参数进行隐式空间三维虚拟形象的写实驱动，得到3D动画。可将3D动画再进行投影转换成2D图像，计算转换后的2D图像与步骤202得到的人脸图像之间的损失值，通过损失值调整虚拟形象渲染模型，实现自监督训练。

继续参见图4，其示出了本申请提供的虚拟形象渲染方法的一个实施例的流程400。该虚拟形象渲染方法可以包括以下步骤：

步骤401，获取待渲染的目标人脸图像。

在本实施例中，虚拟形象渲染方法的执行主体(例如图1所示的服务器105)可以通过多种方式来获取目标人脸图像。例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的目标人脸图像。再例如，执行主体也可以接收终端(例如图1所示的终端101、102)或其他设备采集的目标人脸图像。

步骤402，将目标人脸图像输入虚拟形象渲染模型，生成3D人脸动画。

在本实施例中，将目标人脸图像输入根据步骤201-205所述的方法训练得到的虚拟形象渲染模型，可以提取出表情参数、纹理参数，然后再对表情参数、纹理参数进行优化，得到优化后的3D人脸动画。

需要说明的是，本实施例虚拟形象渲染方法可以用于测试上述各实施例所生成的虚拟形象渲染模型。进而根据测试结果可以不断地优化虚拟形象渲染模型。该方法也可以是上述各实施例所生成的虚拟形象渲染模型的实际应用方法。采用上述各实施例所生成的虚拟形象渲染模型，来生成人脸3D动画，有助于提高人脸3D动画的写实性。

本申请所述方法不仅适用于元宇宙虚拟数字人的生成交互场景，而且适用于目前大多数终端的虚拟形象生成交互场景。本申请提出一种虚拟形象神经渲染驱动方法，该方法有望成为元宇宙中多终端数字人生成显示交互的标准形态。

继续参见图5，作为对上述图2所示方法的实现，本申请提供了一种生成虚拟形象渲染模型的装置的一个实施例。该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的生成虚拟形象渲染模型的装置500可以包括：获取单元501、跟踪单元502、重建单元503、优化单元504和生成单元505。其中，获取单元501，被配置成获取预定人物的视频；跟踪单元502，被配置成对所述视频进行人脸检测跟踪，得到人脸图像集合；重建单元503，被配置成将所述人脸图像集合通过三维可变形人脸模型进行三维人脸重建，得到每帧人脸图像的表情参数、纹理参数；优化单元504，被配置成基于每帧人脸图像的表情参数、纹理参数训练优化模型；生成单元505，被配置成根据所述三维可变形人脸模型、所述优化模型生成虚拟形象渲染模型。

在本实施例的一些可选的实现方式中，优化单元504进一步被配置成：基于每帧人脸图像的表情参数训练形状优化模型作为优化模型。

在本实施例的一些可选的实现方式中，优化单元504进一步被配置成：基于每帧人脸图像的纹理参数训练颜色优化模型作为优化模型。

在本实施例的一些可选的实现方式中，优化单元504进一步被配置成：基于每帧人脸图像的表情参数训练形状优化模型；基于每帧人脸图像的纹理参数训练颜色优化模型；根据所述形状优化模型和所述颜色优化模型生成优化模型。

在本实施例的一些可选的实现方式中，优化单元504进一步被配置成：通过形状优化模型对每帧人脸图像的表情参数进行映射加权，得到每帧人脸图像的表情参数的加权结果。

在本实施例的一些可选的实现方式中，形状优化模型为三维运动体素网格基。

在本实施例的一些可选的实现方式中，形状优化模型为有符号距离场。

在本实施例的一些可选的实现方式中，优化单元504进一步被配置成：通过形状优化模型实现每帧人脸图像的表情参数的校准空间学习。

在本实施例的一些可选的实现方式中，优化单元504进一步被配置成：通过形状优化模型中的三维运动体素网格基对每帧人脸图像的表情参数进行映射加权，得到每帧人脸图像的表情参数的加权结果；基于每帧人脸图像的表情参数的加权结果通过形状优化模型中的多层感知机实现每帧人脸图像的表情参数的加权结果的校准空间学习。

在本实施例的一些可选的实现方式中，优化单元504进一步被配置成：基于每帧人脸图像的纹理参数训练多层感知机作为优化模型。

在本实施例的一些可选的实现方式中，优化单元504进一步被配置成：通过形状优化模型中的三维运动体素网格基对每帧人脸图像的表情参数进行映射加权，得到每帧人脸图像的表情参数的加权结果；通过形状优化模型中的多层感知机实现每帧人脸图像的表情参数的加权结果的校准空间学习，得到每帧人脸图像的表情参数的校准结果；基于每帧人脸图像的表情参数的校准结果和每帧人脸图像的纹理参数训练颜色优化模型作为优化模型。

在本实施例的一些可选的实现方式中，装置500还包括训练单元(附图中未示出)，被配置成：基于每帧人脸图像的表情参数、纹理参数对所述虚拟形象渲染模型进行自监督训练。

继续参见图6，作为对上述图4所示方法的实现，本申请提供了一种虚拟形象渲染装置的一个实施例。该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的虚拟形象渲染装置600可以包括：获取单元601和生成单元602，其中，获取单元601，被配置成获取待渲染的目标人脸图像；生成单元602，被配置成将所述目标人脸图像输入装置500训练出的虚拟形象渲染模型，生成3D人脸动画。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行流程200或400所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行流程200或400所述的方法。

一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现流程200或400所述的方法。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如生成虚拟形象渲染模型的方法。例如，在一些实施例中，生成虚拟形象渲染模型的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的生成虚拟形象渲染模型的方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行生成虚拟形象渲染模型的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种生成虚拟形象渲染模型的方法，包括：

获取预定人物的视频；

对所述视频进行人脸检测跟踪，得到人脸图像集合；

将所述人脸图像集合通过三维可变形人脸模型进行三维人脸重建，得到每帧人脸图像的表情参数和纹理参数；

基于每帧人脸图像的表情参数和纹理参数训练优化模型；

根据所述三维可变形人脸模型、所述优化模型生成虚拟形象渲染模型。

2.根据权利要求1所述的方法，其中，所述基于每帧人脸图像的表情参数和纹理参数训练优化模型，包括：

基于每帧人脸图像的表情参数训练形状优化模型作为优化模型。

3.根据权利要求1所述的方法，其中，所述基于每帧人脸图像的表情参数和纹理参数训练优化模型，包括：

基于每帧人脸图像的纹理参数训练颜色优化模型作为优化模型。

4.根据权利要求1所述的方法，其中，所述基于每帧人脸图像的表情参数和纹理参数训练优化模型，包括：

基于每帧人脸图像的表情参数训练形状优化模型；

基于每帧人脸图像的纹理参数训练颜色优化模型；

根据所述形状优化模型和所述颜色优化模型生成优化模型。

5.根据权利要求2所述的方法，其中，所述基于每帧人脸图像的表情参数训练形状优化模型作为优化模型，包括：

通过形状优化模型对每帧人脸图像的表情参数进行映射加权，得到每帧人脸图像的表情参数的加权结果。

6.根据权利要求5所述的方法，其中，所述形状优化模型为三维运动体素网格基。

7.根据权利要求5所述的方法，其中，所述形状优化模型为有符号距离场。

8.根据权利要求2所述的方法，其中，所述基于每帧人脸图像的表情参数训练形状优化模型作为优化模型，包括：

通过形状优化模型实现每帧人脸图像的表情参数的校准空间学习。

9.根据权利要求2所述的方法，其中，所述基于每帧人脸图像的表情参数训练形状优化模型作为优化模型，包括：

通过形状优化模型中的三维运动体素网格基对每帧人脸图像的表情参数进行映射加权，得到每帧人脸图像的表情参数的加权结果；

基于每帧人脸图像的表情参数的加权结果通过形状优化模型中的多层感知机实现每帧人脸图像的表情参数的加权结果的校准空间学习。

10.根据权利要求3所述的方法，其中，所述基于每帧人脸图像的纹理参数训练颜色优化模型作为优化模型，包括：

基于每帧人脸图像的纹理参数训练多层感知机作为优化模型。

11.根据权利要求3所述的方法，其中，所述基于每帧人脸图像的纹理参数训练颜色优化模型作为优化模型，包括：

基于每帧人脸图像的表情参数通过形状优化模型中的三维运动体素网格基对每帧人脸图像的表情参数进行映射加权，得到每帧人脸图像的表情参数的加权结果；

基于每帧人脸图像的表情参数的加权结果通过形状优化模型中的多层感知机实现每帧人脸图像的表情参数的加权结果的校准空间学习，得到每帧人脸图像的表情参数的校准结果；

基于每帧人脸图像的表情参数的校准结果和每帧人脸图像的纹理参数训练颜色优化模型作为优化模型。

12.根据权利要求1-11中任一项所述的方法，其中，所述方法还包括：

基于每帧人脸图像的表情参数、纹理参数对所述虚拟形象渲染模型进行自监督训练。

13.一种虚拟形象渲染方法，包括：

获取待渲染的目标人脸图像；

将所述目标人脸图像输入根据权利要求1-12中任一项所述的方法训练出的虚拟形象渲染模型，生成3D人脸动画。

14.一种生成虚拟形象渲染模型的装置，包括：

获取单元，被配置成获取预定人物的视频；

跟踪单元，被配置成对所述视频进行人脸检测跟踪，得到人脸图像集合；

重建单元，被配置成将所述人脸图像集合通过三维可变形人脸模型进行三维人脸重建，得到每帧人脸图像的表情参数和纹理参数；

优化单元，被配置成基于每帧人脸图像的表情参数和纹理参数训练优化模型；

生成单元，被配置成根据所述三维可变形人脸模型、所述优化模型生成虚拟形象渲染模型。

15.根据权利要求14所述的装置，其中，所述优化单元进一步被配置成：

16.根据权利要求14所述的装置，其中，所述优化单元进一步被配置成：

17.根据权利要求14所述的装置，其中，所述优化单元进一步被配置成：

基于每帧人脸图像的表情参数训练形状优化模型；

基于每帧人脸图像的纹理参数训练颜色优化模型；

根据所述形状优化模型和所述颜色优化模型生成优化模型。

18.根据权利要求15所述的装置，其中，所述优化单元进一步被配置成：

基于每帧人脸图像的表情参数通过形状优化模型对每帧人脸图像的表情参数进行映射加权，得到每帧人脸图像的表情参数的加权结果。

19.根据权利要求18所述的装置，其中，所述形状优化模型为三维运动体素网格基。

20.根据权利要求18所述的装置，其中，所述形状优化模型为有符号距离场。

21.根据权利要求15所述的装置，其中，所述优化单元进一步被配置成：

22.根据权利要求15所述的装置，其中，所述优化单元进一步被配置成：

23.根据权利要求16所述的装置，其中，所述优化单元进一步被配置成：

24.根据权利要求16所述的装置，其中，所述优化单元进一步被配置成：

通过形状优化模型中的多层感知机实现每帧人脸图像的表情参数的加权结果的校准空间学习，得到每帧人脸图像的表情参数的校准结果；

25.根据权利要求14-24中任一项所述的装置，其中，所述装置还包括训练单元，被配置成：

26.一种虚拟形象渲染装置，包括：

获取单元，被配置成获取待渲染的目标人脸图像；

生成单元，被配置成将所述目标人脸图像输入根据权利要求14-25中任一项所述的装置训练出的虚拟形象渲染模型，生成3D人脸动画。

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-13中任一项所述的方法。