CN111814652A

CN111814652A - 虚拟人像渲染方法、装置以及存储介质

Info

Publication number: CN111814652A
Application number: CN202010630338.0A
Authority: CN
Inventors: 谢新林
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-23

Abstract

本发明提供一种虚拟人像渲染方法、装置以及存储介质，该方法包括：所述第一终端设备采集待处理图像；所述第一终端设备根据所述待处理图像，获取所述待处理图像中的人脸图像；所述第一终端设备根据所述人脸图像，获取所述人脸图像对应的表情参数，所述表情参数用于表征所述人脸图像上各个肌肉动作的强烈程度；所述第一终端设备将所述表情参数发送至第二终端设备，所述表情参数用于指示所述第二终端设备对虚拟人像的表情和动作进行渲染。由于第一终端设备发送给第二终端设备的并不是高清图像，而是表情参数和位姿参数，这两种参数所占用的带宽和高清图像相比是很小的，卡顿现象显著减少，提升了学生端的上课体验度。

Description

虚拟人像渲染方法、装置以及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种虚拟人像渲染方法、装置以及存储介质。

背景技术

随着终端技术不断发展，手机和电脑等终端设备成为人们日常生活中实时通讯必不可少的工具。终端设备所能实现的功能日趋丰富，其中视频通话、云课堂以及云会议等沟通方式可以让用户足不出户即可享受相应的网络资源。

目前，在使用云课堂或者云会议时，主讲端展示的是讲师或者主讲人的真实人像。这种方式有如下缺陷：讲师或者主讲人的个人身份信息可能泄露；而且，高清图像对网络带宽的要求非常高，当网络带宽有限时，可能造成卡顿。

发明内容

本发明提供一种虚拟人像渲染方法和装置，用以解决现有技术传输真实图像带来的卡顿等问题。

第一方面，本发明提供一种虚拟人像渲染方法，应用于第一终端设备，包括：该第一终端设备采集待处理图像；该第一终端设备根据该待处理图像，获取该待处理图像中的人脸图像；该第一终端设备根据该人脸图像，获取该人脸图像对应的表情参数，该表情参数用于表征该人脸图像上各个肌肉动作的强烈程度；该第一终端设备将该表情参数发送至第二终端设备，该表情参数用于指示该第二终端设备对虚拟人像的表情和动作进行渲染。

可选的，该第一终端设备将该表情参数发送至第二终端设备之前，还包括：该第一终端设备根据该人脸图像，获取该人脸图像上关键点的位姿参数；该第一终端设备将该表情参数发送至第二终端设备，包括：该第一终端设备将该表情参数和该位姿参数发送至第二终端设备，以使该第二终端设备根据该表情参数和该位姿参数，对虚拟人像的表情和动作进行渲染。

可选的，该第一终端设备根据该人脸图像，获取该人脸图像上关键点的位姿参数，包括：该第一终端设备根据该人脸图像，获取该人脸图像上关键点的二维坐标；该第一终端设备根据该人脸图像上关键点的二维坐标，获取该人脸图像上关键点的位姿参数。

可选的，该第一终端设备根据该人脸图像，获取该人脸图像上关键点的位姿参数，包括：该第一终端设备将该人脸图像输入位姿估计模型；将该位姿估计模型的输出结果确定为该位姿参数。

可选的，该表情参数包括多个精细化运动单元AU值；该第一终端设备根据该人脸图像，获取该人脸图像对应的表情参数，包括：该第一终端设备根据该人脸图像和表情特征提取模型，提取该人脸图像上不同肌肉动作的特征；该第一终端设备根据该人脸图像上不同肌肉动作的特征和表情估计模型，获取该多个精细化运动单元AU值。

可选的，该表情特征提取模型包括第一网络块、第二网络块、第三网络块、第四网络块、第五网络块、第六网络块和第七网络块；该第一网络块的通道数为16，该第一网络块的扩张倍数为1，该第一网络块的卷积步长为1，该第一网络块的重复次数为1；该第二网络块的通道数为24，该第二网络块的扩张倍数为6，该第二网络块的卷积步长为2，该第二网络块的重复次数为2；该第三网络块的通道数为32，该第三网络块的扩张倍数为6，该第三网络块的卷积步长为2，该第三网络块的重复次数为3；该第四网络块的通道数为64，该第四网络块的扩张倍数为6，该第四网络块的卷积步长为1，该第四网络块的重复次数为4；该第五网络块的通道数为96，该第五网络块的扩张倍数为6，该第五网络块的卷积步长为3，该第五网络块的重复次数为2；该第六网络块的通道数为160，该第六网络块的扩张倍数为6，该第六网络块的卷积步长为2，该第六网络块的重复次数为3；该第七网络块的通道数为320，该第七网络块的扩张倍数为6，该第七网络块的卷积步长为1，该第七网络块的重复次数为1；该第一终端设备根据该人脸图像和表情特征提取模型，提取该人脸图像上不同肌肉动作的特征，包括：将该人脸图像输入该第一网络块，依次经过该第一网络块、第二网络块、第三网络块、第四网络块、第五网络块、第六网络块和第七网络块处理后，得到该人脸图像上不同肌肉动作的特征。

可选的，该表情估计模型包括第一全连接层、第二全连接层和第三全连接层；该第一全连接层输出特征向量维度为512，该第二全连接层输出特征向量维度为256，该第三全连接层输出特征向量维度为该表情参数所包括的精细化运动单元AU值的个数；该第一终端设备根据该人脸图像上不同肌肉动作的特征和表情估计模型，获取该多个精细化运动单元AU值，包括：将该人脸图像上不同肌肉动作的特征输入该第一全连接层，依次经过该第一全连接层、该第二全连接层和该第三全连接层处理后，得到该多个精细化运动单元AU值。

可选的，该表情参数包括脸部各个肌肉动作的变形等级；该第一终端设备根据该人脸图像，获取该人脸图像对应的表情参数，包括：该第一终端设备根据该人脸图像和表情特征提取模型，提取该人脸图像上不同肌肉动作的特征；该第一终端设备根据该人脸图像上不同肌肉动作的特征和分类算法，获取该肌肉变形等级。

可选的，该第一终端设备根据该人脸图像，获取该人脸图像上关键点的二维坐标，包括：该第一终端设备根据该人脸图像和关键点检测算法，获取该人脸图像上关键点的二维坐标。

可选的，该第一终端设备根据该人脸图像上关键点的二维坐标，获取该人脸图像上关键点的位姿参数，包括：该第一终端设备根据该人脸图像上关键点的二维坐标和预先定义的标准正脸的关键点的三维坐标，采用弱视投影法确定该位姿参数。

第二方面，本发明提供一种虚拟人像渲染方法，应用于第二终端设备，包括：该第二终端设备接收第一终端设备发送的表情参数和位姿参数，该表情参数用于表征人脸图像上各个肌肉动作的强烈程度；该第二终端设备根据该表情参数和该位姿参数，对虚拟人像的表情和动作进行渲染。

第三方面，本发明提供一种终端设备，包括：采集模块，用于采集待处理图像；获取模块，用于根据该待处理图像，获取该待处理图像中的人脸图像；还用于根据该人脸图像，获取该人脸图像对应的表情参数，该表情参数用于表征该人脸图像上各个肌肉动作的强烈程度；发送模块，用于将该表情参数发送至第二终端设备，该表情参数用于指示该第二终端设备对虚拟人像的表情和动作进行渲染。

可选的，上述获取模块还用于：该第一终端设备根据该人脸图像，获取该人脸图像上关键点的位姿参数；发送模块具体用于将该表情参数和该位姿参数发送至第二终端设备，以使该第二终端设备根据该表情参数和该位姿参数，对虚拟人像的表情和动作进行渲染。

可选的，上述获取模块具体用于：根据该人脸图像，获取该人脸图像上关键点的二维坐标；根据该人脸图像上关键点的二维坐标，获取该人脸图像上关键点的位姿参数。

可选的，上述获取模块具体用于：将该人脸图像输入位姿估计模型；将该位姿估计模型的输出结果确定为该位姿参数。

可选的，该表情参数包括多个精细化运动单元AU值；上述获取模块具体用于：根据该人脸图像和表情特征提取模型，提取该人脸图像上不同肌肉动作的特征；根据该人脸图像上不同肌肉动作的特征和表情估计模型，获取该多个精细化运动单元AU值。

可选的，该表情特征提取模型包括第一网络块、第二网络块、第三网络块、第四网络块、第五网络块、第六网络块和第七网络块；该第一网络块的通道数为16，该第一网络块的扩张倍数为1，该第一网络块的卷积步长为1，该第一网络块的重复次数为1；该第二网络块的通道数为24，该第二网络块的扩张倍数为6，该第二网络块的卷积步长为2，该第二网络块的重复次数为2；该第三网络块的通道数为32，该第三网络块的扩张倍数为6，该第三网络块的卷积步长为2，该第三网络块的重复次数为3；该第四网络块的通道数为64，该第四网络块的扩张倍数为6，该第四网络块的卷积步长为1，该第四网络块的重复次数为4；该第五网络块的通道数为96，该第五网络块的扩张倍数为6，该第五网络块的卷积步长为3，该第五网络块的重复次数为2；该第六网络块的通道数为160，该第六网络块的扩张倍数为6，该第六网络块的卷积步长为2，该第六网络块的重复次数为3；该第七网络块的通道数为320，该第七网络块的扩张倍数为6，该第七网络块的卷积步长为1，该第七网络块的重复次数为1；上述获取模块具体用于：将该人脸图像输入该第一网络块，依次经过该第一网络块、第二网络块、第三网络块、第四网络块、第五网络块、第六网络块和第七网络块处理后，得到该人脸图像上不同肌肉动作的特征。

可选的，该表情估计模型包括第一全连接层、第二全连接层和第三全连接层；该第一全连接层输出特征向量维度为512，该第二全连接层输出特征向量维度为256，该第三全连接层输出特征向量维度为该表情参数所包括的精细化运动单元AU值的个数；上述获取模块具体用于：将该人脸图像上不同肌肉动作的特征输入该第一全连接层，依次经过该第一全连接层、该第二全连接层和该第三全连接层处理后，得到该多个精细化运动单元AU值。

可选的，该表情参数包括脸部各个肌肉动作的变形等级；上述获取模块具体用于：根据该人脸图像和表情特征提取模型，提取该人脸图像上不同肌肉动作的特征；根据该人脸图像上不同肌肉动作的特征和分类算法，获取该肌肉变形等级。

可选的，上述获取模块具体用于：根据该人脸图像和关键点检测算法，获取该人脸图像上关键点的二维坐标。

可选的，上述获取模块具体用于：根据该人脸图像上关键点的二维坐标和预先定义的标准正脸的关键点的三维坐标，采用弱视投影法确定该位姿参数。

第四方面，本发明提供一种终端设备，包括：接收模块，用于接收第一终端设备发送的表情参数和位姿参数，该表情参数用于表征人脸图像上各个肌肉动作的强烈程度；渲染模块，用于根据该表情参数和该位姿参数，对虚拟人像的表情和动作进行渲染。

第五方面，本发明提供一种终端设备，包括：存储器和处理器；该存储器用于存储程序指令，该处理器用于调用该存储器中的程序指令执行第一方面提供的方法。

第六方面，本发明提供一种终端设备，包括：存储器和处理器；该存储器用于存储程序指令，该处理器用于调用该存储器中的程序指令执行第二方面提供的方法。

第七方面，本发明提供一种可读存储介质，该可读存储介质上存储有计算机程序；该计算机程序在被执行时，实现第一方面提供的方法。

第七方面，本发明提供一种可读存储介质，该可读存储介质上存储有计算机程序；该计算机程序在被执行时，实现第二方面提供的方法。

本发明提供的虚拟人像渲染方法、装置以及存储介质，第一终端设备采集到讲师的图像后，对采集到的图像进行处理，得到表情参数和位姿参数，将该表情参数和位姿参数发送给第二终端设备，使得第二终端设备根据该表情参数和位姿参数对预先定义的虚拟人像进行渲染显示，使得虚拟人像在表情和动作上和讲师是同步的，这种方式采用虚拟人像代替了讲师的真实图像，可对讲师的身份信息起到保护作用，而且，由于第一终端设备发送给第二终端设备的并不是高清图像，而是表情参数和位姿参数，这两种参数所占用的带宽和高清图像相比是很小的，卡顿现象显著减少，提升了学生端的上课体验度。

附图说明

图1为本发明提供的系统架构图；

图2为本发明提供的虚拟人像渲染方法的实施例一的流程示意图；

图3为本发明提供的虚拟人像渲染方法的实施例二的流程示意图；

图4为本发明提供的表情特征提取模型结构示意图；

图5为本发明提供的图4中block的结构示意图一；

图6为本发明提供的图4中block的结构示意图二；

图7为本发明提供的虚拟人像渲染方法的实施例三的流程示意图；

图8为本发明提供的终端设备800的结构示意图一；

图9为本发明提供的终端设备900的结构示意图二；

图10为本发明实施例提供的终端设备10的硬件结构示意图；

图11为本发明实施例提供的终端设备11的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中，需要解释的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“以是一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：单独a，单独b，单独c，a和b的组合，a和c的组合，b和c的组合，或a、b以及c的组合，其中a，b，c可以是单个，也可以是多个。

图1为本发明提供的系统架构图。图1所示系统包括第一终端设备和多个第二终端设备，第一终端设备和每个第二终端设备无线连接。在云课堂场景下，第一终端设备上可安装讲师端应用程序APP，第二终端设备上可安装学生端APP；在云会议场景下，第一终端设备上可安装主讲端APP，第二终端设备上可安装参会端APP。下文以云课堂场景为例，对本发明提供的虚拟人像渲染方法进行说明。本发明提供的虚拟人像渲染方法中，第一终端设备所执行的步骤具体可以由第一终端设备上安装的对应的APP执行，第二终端设备所执行的步骤具体可由第二终端设备上安装的对应的APP执行。

需要说明的是：图1示出的第一终端设备和第二终端设备均使用手机示意，可以理解的，第一终端设备和第二终端设备还可以是平板电脑、笔记本电脑以及台式电脑等任何支持安装相应APP的设备，本发明不以图1所示手机为限制。

现有技术中，第一终端设备安装的讲师端APP被启动后，摄像头实时采集讲师的图像，并将讲师的图像发送给各个第二终端设备，使得持有第二终端设备的学生在上课的过程中能够看到讲师的图像。

然而，第一终端设备直接将讲师的图像发送给各个第二终端设备存在如下缺陷：讲师的个人身份信息可能泄露；而且，高清图像对网络带宽的要求非常高，当网络带宽有限时，可能造成卡顿。

考虑到现有技术存在的上述技术问题，本发明提供一种虚拟人像渲染方法，第一终端设备采集到讲师的图像后，对采集到的图像进行处理，得到表情参数和位姿参数，将该表情参数和位姿参数发送给第二终端设备，使得第二终端设备根据该表情参数和位姿参数对预先定义的虚拟人像进行渲染显示，使得虚拟人像在表情和动作上和讲师是同步的，这种方式采用虚拟人像代替了讲师的真实图像，可对讲师的身份信息起到保护作用，而且，由于第一终端设备发送给第二终端设备的并不是高清图像，而是表情参数和位姿参数，这两种参数所占用的带宽和高清图像相比是很小的，卡顿现象显著减少，提升了学生端的上课体验度。

下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明提供的虚拟人像渲染方法的实施例一的流程示意图。参见图2所示，本实施例提供的虚拟人像渲染方法，包括：

S201、第一终端设备采集待处理图像。

一种可能的实现方式中，第一终端设备安装的讲师端APP被启动后，第一终端设备上安装的摄像头开始采集讲师的图像，将采集到的讲师的图像作为待处理图像。

S202、第一终端设备根据待处理图像，获取待处理图像中的人脸图像。

一种可能的实现方式中，可将待处理图像送到基于深度学习的人脸检测算法中来确定脸部区域的位置，在得到脸部区域的位置后，通过关键点检测算法从待处理图像中裁剪出人脸图像。

S203、第一终端设备根据人脸图像，获取人脸图像对应的表情参数，该表情参数用于表征人脸图像上各个肌肉动作的强烈程度。

一种可能的实现方式中，上述表情参数可以包括多个精细化运动单元AU值，在得到人脸图像后，首先可根据该人脸图像和表情特征提取模型，提取人脸图像上不同肌肉动作的特征；然后根据人脸图像上不同肌肉动作的特征和表情估计模型来获取多个精细化AU值。

下面对精细化AU值的概念进行解释：

面部行为编码系统(Facial Action Coding System，简称FACS)将脸部各个肌肉动作定义为不同的动作单元AU值，比如：将“内侧眉毛向上拉升”对应的AU值为AU1，本实施例中的精细化AU值不仅体现了AU值，还体现对应肌肉动作的强烈程度，比如精细化AU值为：AU1(0.2)，表明对应肌肉动作为内侧眉毛向上拉升，拉升的程度为0.2。

一种可能的实现方式中，为了前后两帧图像的表情参数具有连续性，在得到当前帧图像的表情参数后，可对当前帧图像的表情参数进行卡尔曼滤波平滑，具体的，可对上一帧图像的表情参数和当前帧图像的表情参数求取加权平均，将该加权平均结果作为当前帧图像的最终表情参数，保证了帧间的表情参数可以平缓过度，虚拟人像的表情更加流畅自然。

另一种可能的实现方式中，上述表情参数可以包括脸部各个肌肉动作的变形等级，在得到人脸图像后，同上述实现方式，首先可根据该人脸图像和表情特征提取模型，提取人脸图像上不同肌肉动作的特征；然后根据不同肌肉动作的特征和分类算法来获取上述变形等级。和上述通过表情估计模型回归具体的AU值的实现方式相比，本实现方式仅需得到脸部动作所属的变形等级，相当于把回归问题转化成分类问题，提高表情参数的获取效率。

S204、第一终端设备根据人脸图像，获取人脸图像上关键点的位姿参数。

一种可能的实现方式中，可将人脸图像输入预先训练好的位姿估计模型，将位姿估计模型的输出结果确定为位姿参数。

另一种可能的实现方式中，可根据人脸图像，获取人脸图像上关键点的二维坐标；然后根据人脸图像上关键点的二维坐标，获取人脸图像上关键点的位姿参数。

同上述表情参数，在得到当前帧图像的位姿参数后，也可对该位姿参数进行卡尔曼平滑滤波，保证了帧间的位姿参数可以平缓过度，虚拟人像的动作更加流畅自然。

S205、第一终端设备将表情参数和位姿参数发送至第二终端设备。

S206、第二终端设备根据表情参数和位姿参数，对虚拟人像的表情和动作进行渲染。

一种可能的实现方式中，第二终端设备接收到表情参数和位姿参数后，可通过开放图形库(Open Graphics Library，简称OpenGL)的图形渲染框架对预定义的卡通人像的表情和动作进行渲染。其中，表情参数主要用于多个表情基的线性加权，进而合成讲师的面部表情的形状。位姿参数用于将带有讲师面部表情的卡通人像进行相应的旋转，使得卡通人像不仅在表情上与讲师同步，同时能够实时跟随讲师的头部运动，从而实现了生动形象的卡通虚拟动画过程。

本实施例提供的虚拟人像渲染方法，第一终端设备采集到讲师的图像后，对采集到的图像进行处理，得到表情参数和位姿参数，将该表情参数和位姿参数发送给第二终端设备，使得第二终端设备根据该表情参数和位姿参数对预先定义的虚拟人像进行渲染显示，使得虚拟人像在表情和动作上和讲师是同步的，这种方式采用虚拟人像代替了讲师的真实图像，可对讲师的身份信息起到保护作用，而且，由于第一终端设备发送给第二终端设备的并不是高清图像，而是表情参数和位姿参数，这两种参数所占用的带宽和高清图像相比是很小的，卡顿现象显著减少，提升了学生端的上课体验度。

图3为本发明提供的虚拟人像渲染方法的实施例二的流程示意图。本实施例对上述实施例中S203的可实现方式进行详细介绍。参见图3所示，上述实施例中的S203具体可包括：

S301、第一终端设备根据人脸图像和表情特征提取模型，提取人脸图像上不同肌肉动作的特征。

一种可能的实现方式中，参见图4所示，表情特征提取模型包括第一网络块(图4中Block1)、第二网络块(图4中Block2)、第三网络块(图4中Block3)、第四网络块(图4中Block4)、第五网络块(图4中Block5)、第六网络块(图4中Block6)和第七网络块(图4中Block7)。

参见图4所示，Block1的通道数为16，扩张倍数为1，卷积步长为1，重复次数为1；Block2的通道数为24，扩张倍数为6，卷积步长为2，重复次数为2；Block3的通道数为32，扩张倍数为6，卷积步长为2，重复次数为3；Block4的通道数为64，扩张倍数为6，卷积步长为1，重复次数为4；Block5的通道数为96，扩张倍数为6，卷积步长为3，重复次数为2；Block6的通道数为160，扩张倍数为6，卷积步长为2，重复次数为3；Block7的通道数为320，扩张倍数为6，卷积步长为1，重复次数为1。

可将人脸图像输入Block1，依次经过Block1、Block2、Block3、Block4、Block5、Block6和Block7处理后，得到人脸图像上不同肌肉动作的特征。

可选的，参见图4所示，表情特征提取模型还包括第一卷积层、第二卷积层和第三卷积层，人脸图像可输入该第一卷积层，该第一卷积层的输出为Block1的输入，第一卷积层的卷积核尺寸为3×3，通道数为32，卷积步长为2。Block7的输出为第二卷积层的输入，第一卷积层的卷积核尺寸为1×1，通道数为1280，步长为1。第二卷积层的输出为第三卷积层的输入，第三卷积层的卷积核尺寸为7×7，Avgpool为平均池化操作。第三卷积层的输出为人脸图像上不同肌肉动作的特征。

一种可能的实现方式中，参加图5所示，图4中的每个Block可拆分为第一子层、第二子层、第三子层和第四子层，第一子层的普通卷积尺寸为1×1，激活函数为Relu6；第二子层的深度可分离卷积尺寸为3×3，激活函数为Relu6；第三子层的普通卷积尺寸为1×1，其后接全连接Linear层；第四子层为Add层，用于低层和高层特征的融合。

另一种可能的实现方式中，参加图6所示，图4中的每个Block可拆分为第一子层、第二子层和第三子层，第一子层的普通卷积尺寸为1×1，激活函数为Relu6；第二子层的深度可分离卷积尺寸为3×3，激活函数为Relu6；第三子层的普通卷积尺寸为1×1，其后接全连接Linear层。

S302、第一终端设备根据人脸图像上不同肌肉动作的特征和表情估计模型，获取多个精细化运动单元AU值。

一种可能的实现方式中，参加图4所示，表情估计模型包括第一全连接层(图4中FC1)、第二全连接层(图4中FC2)和第三全连接层(图4中FC3)；FC1输出特征向量维度为512，FC2输出特征向量维度为256，FC3输出特征向量维度为表情参数所包括的精细化运动单元AU值的个数，图4中以精细化运动单元AU值的个数为24示意。在S301得到人脸图像上不同肌肉动作的特征后，将该人脸图像上不同肌肉动作的特征输入第一全连接层，依次经过第一全连接层、第二全连接层和第三全连接层的处理，便可回归得到多个精细化AU值，如上文描述，该多个精细化AU值中的每个精细化AU值不仅体现了AU值，还体现对应肌肉动作的强烈程度，比如回归得到多个精细化AU值包括AU1(0.2)，那么代表人脸图像上内侧眉毛向上拉升，而且拉升的程度为0.2。可以使依据该多个精细化AU值渲染得到的虚拟人像的表情和讲师真实表情更加贴近，呈现效果更加逼真。

本实施例提供的虚拟人像渲染方法，对根据人脸图像，获取表情参数的实现方式进行了详细说明，通过本实施例的方法可以得到精细化AU值，由于精细化运动单元AU值可反映脸部各个肌肉动作的强烈程度，根据该精细化AU值渲染得到的表情和讲师的真实表情更加贴近，呈现效果更加逼真。

图7为本发明提供的虚拟人像渲染方法的实施例三的流程示意图。本实施例对上述实施例中S204的可实现方式进行详细介绍。参见图7所示，上述实施例中的S204具体可包括：

S701、第一终端设备根据人脸图像，获取人脸图像上关键点的二维坐标。

一种可能的实现方式中，第一终端设备可根据人脸图像和关键点检测算法来提取人脸图像上关键点的二维坐标，每个关键点都具有面部的语义信息，以68个关键点的检测算法为例，第9个关键点代表正下巴处。

S702、第一终端设备根据人脸图像上关键点的二维坐标，获取人脸图像上关键点的位姿参数。

一种可能的实现方式中，第一终端设备可根据人脸图像上关键点的二维坐标和预先定义的标准正脸的关键点的三维坐标，采用弱视投影法确定所述位姿参数。

具体的，可通过如下两个矩阵来确定位姿参数：

其中，(u,v)表示S701得到的关键点的二维坐标，(X_w,Y_w,Z_w)表示预先定义的与二维坐标具有相同面部语义的三维坐标，f表示相机的焦距，dx和dy分别表示图像平面到像素平面中心点的偏移。(u₀,v₀)代表像素平面的中心，在求解位姿参数之前，相机内参包括f,dx,dy,(u₀,v₀)均是已知，通过建立二维关键点(u,v)和三维标准人脸关键点(X_w,Y_w,Z_w)，即可求解旋转矩阵R和平移矩阵T，该旋转矩阵R和平移矩阵T即为本步骤要获取的位姿参数。其中为了保证矩阵齐次性的特点，等式左边会左乘Zc，但在实际计算过程中会被内化于相机内参中。

本实施例提供的虚拟人像渲染方法，对根据人脸图像，获取位姿参数的实现方式进行了详细说明，通过本实施例的方法可以得到人脸图像上关键点的位姿参数，该位姿参数用于将带有讲师面部表情的卡通人像进行相应的旋转，使得卡通人像不仅在表情上与讲师同步，同时能够实时跟随讲师的头部运动，从而实现了生动形象的卡通虚拟动画过程。

图8为本发明提供的终端设备800的结构示意图一。参见图8所示，本发明提供的终端设备800，包括：

采集模块801，用于采集待处理图像；

获取模块802，用于根据所述待处理图像，获取所述待处理图像中的人脸图像；还用于根据所述人脸图像，获取所述人脸图像对应的表情参数，所述表情参数用于表征所述人脸图像上各个肌肉动作的强烈程度；

发送模块803，用于将所述表情参数发送至第二终端设备，所述表情参数用于指示所述第二终端设备对虚拟人像的表情和动作进行渲染。

可选的，上述获取模块802还用于：

所述第一终端设备根据所述人脸图像，获取所述人脸图像上关键点的位姿参数；

发送模块具体用于将所述表情参数和所述位姿参数发送至第二终端设备，以使所述第二终端设备根据所述表情参数和所述位姿参数，对虚拟人像的表情和动作进行渲染。

可选的，上述获取模块802具体用于：根据所述人脸图像，获取所述人脸图像上关键点的二维坐标；根据所述人脸图像上关键点的二维坐标，获取所述人脸图像上关键点的位姿参数。

可选的，上述获取模块802具体用于：将所述人脸图像输入位姿估计模型；将所述位姿估计模型的输出结果确定为所述位姿参数。

可选的，所述表情参数包括多个精细化运动单元AU值；上述获取模块802具体用于：根据所述人脸图像和表情特征提取模型，提取所述人脸图像上不同肌肉动作的特征；根据所述人脸图像上不同肌肉动作的特征和表情估计模型，获取所述多个精细化运动单元AU值。

可选的，所述表情特征提取模型包括第一网络块、第二网络块、第三网络块、第四网络块、第五网络块、第六网络块和第七网络块；

所述第一网络块的通道数为16，所述第一网络块的扩张倍数为1，所述第一网络块的卷积步长为1，所述第一网络块的重复次数为1；

所述第二网络块的通道数为24，所述第二网络块的扩张倍数为6，所述第二网络块的卷积步长为2，所述第二网络块的重复次数为2；

所述第三网络块的通道数为32，所述第三网络块的扩张倍数为6，所述第三网络块的卷积步长为2，所述第三网络块的重复次数为3；

所述第四网络块的通道数为64，所述第四网络块的扩张倍数为6，所述第四网络块的卷积步长为1，所述第四网络块的重复次数为4；

所述第五网络块的通道数为96，所述第五网络块的扩张倍数为6，所述第五网络块的卷积步长为3，所述第五网络块的重复次数为2；

所述第六网络块的通道数为160，所述第六网络块的扩张倍数为6，所述第六网络块的卷积步长为2，所述第六网络块的重复次数为3；

所述第七网络块的通道数为320，所述第七网络块的扩张倍数为6，所述第七网络块的卷积步长为1，所述第七网络块的重复次数为1；

上述获取模块802具体用于：将所述人脸图像输入所述第一网络块，依次经过所述第一网络块、第二网络块、第三网络块、第四网络块、第五网络块、第六网络块和第七网络块处理后，得到所述人脸图像上不同肌肉动作的特征。

可选的，所述表情估计模型包括第一全连接层、第二全连接层和第三全连接层；所述第一全连接层输出特征向量维度为512，所述第二全连接层输出特征向量维度为256，所述第三全连接层输出特征向量维度为所述表情参数所包括的精细化运动单元AU值的个数。

上述获取模块802具体用于：将所述人脸图像上不同肌肉动作的特征输入所述第一全连接层，依次经过所述第一全连接层、所述第二全连接层和所述第三全连接层处理后，得到所述多个精细化运动单元AU值。

可选的，所述表情参数包括脸部各个肌肉动作的变形等级；上述获取模块802具体用于：根据所述人脸图像和表情特征提取模型，提取所述人脸图像上不同肌肉动作的特征；根据所述人脸图像上不同肌肉动作的特征和分类算法，获取所述肌肉变形等级。

可选的，上述获取模块802具体用于：根据所述人脸图像和关键点检测算法，获取所述人脸图像上关键点的二维坐标。

可选的，上述获取模块802具体用于：根据所述人脸图像上关键点的二维坐标和预先定义的标准正脸的关键点的三维坐标，采用弱视投影法确定所述位姿参数。

本发明提供的终端设备800，可以执行上述方法实施例中第一终端设备所执行的步骤，其实现原理以及有益效果类似，此处不再进行赘述。

图9为本发明提供的终端设备900的结构示意图二。参见图9所示，本发明提供的终端设备900，包括：

接收模块901，用于接收第一终端设备发送的表情参数和位姿参数，所述表情参数用于表征人脸图像上各个肌肉动作的强烈程度；

渲染模块902，用于根据所述表情参数和所述位姿参数，对虚拟人像的表情和动作进行渲染。

本发明提供的终端设备900，可以执行上述方法实施例中第二终端设备所执行的步骤，其实现原理以及有益效果类似，此处不再进行赘述。

图10为本发明实施例提供的终端设备10的硬件结构示意图。如图10所示，本发明实施例提供的终端设备10可以包括：

存储器101，用于存储程序指令。

处理器102，用于在所述程序指令被执行时实现上述方法实施例中第一终端设备所执行的步骤，其实现原理以及有益效果类似，此处不再进行赘述。

图11为本发明实施例提供的终端设备11的硬件结构示意图。如图11所示，本发明实施例提供的终端设备11可以包括：

存储器110，用于存储程序指令。

处理器111，用于在所述程序指令被执行时实现上述方法实施例中第二终端设备所执行的步骤，其实现原理以及有益效果类似，此处不再进行赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法实施例中第一终端设备所执行的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法实施例中第二终端设备所执行的步骤。

本发明实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时实现上述方法实施例中第一终端设备所执行的步骤。

本发明实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时实现上述方法实施例中第二终端设备所执行的步骤。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应理解，本发明实施例所描述的处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种虚拟人像渲染方法，其特征在于，应用于第一终端设备，包括：

所述第一终端设备采集待处理图像；

所述第一终端设备根据所述待处理图像，获取所述待处理图像中的人脸图像；

所述第一终端设备根据所述人脸图像，获取所述人脸图像对应的表情参数，所述表情参数用于表征所述人脸图像上各个肌肉动作的强烈程度；

所述第一终端设备将所述表情参数发送至第二终端设备，所述表情参数用于指示所述第二终端设备对虚拟人像的表情和动作进行渲染。

2.根据权利要求1所述的方法，其特征在于，所述第一终端设备将所述表情参数发送至第二终端设备之前，还包括：

所述第一终端设备将所述表情参数发送至第二终端设备，包括：

所述第一终端设备将所述表情参数和所述位姿参数发送至第二终端设备，以使所述第二终端设备根据所述表情参数和所述位姿参数，对虚拟人像的表情和动作进行渲染。

3.根据权利要求2所述的方法，其特征在于，所述第一终端设备根据所述人脸图像，获取所述人脸图像上关键点的位姿参数，包括：

所述第一终端设备根据所述人脸图像，获取所述人脸图像上关键点的二维坐标；

所述第一终端设备根据所述人脸图像上关键点的二维坐标，获取所述人脸图像上关键点的位姿参数。

4.根据权利要求2所述的方法，其特征在于，所述第一终端设备根据所述人脸图像，获取所述人脸图像上关键点的位姿参数，包括：

所述第一终端设备将所述人脸图像输入位姿估计模型；

将所述位姿估计模型的输出结果确定为所述位姿参数。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述表情参数包括多个精细化运动单元AU值；

所述第一终端设备根据所述人脸图像，获取所述人脸图像对应的表情参数，包括：

所述第一终端设备根据所述人脸图像和表情特征提取模型，提取所述人脸图像上不同肌肉动作的特征；

所述第一终端设备根据所述人脸图像上不同肌肉动作的特征和表情估计模型，获取所述多个精细化运动单元AU值。

6.根据权利要求5所述的方法，其特征在于，所述表情特征提取模型包括第一网络块、第二网络块、第三网络块、第四网络块、第五网络块、第六网络块和第七网络块；

所述第一终端设备根据所述人脸图像和表情特征提取模型，提取所述人脸图像上不同肌肉动作的特征，包括：

将所述人脸图像输入所述第一网络块，依次经过所述第一网络块、第二网络块、第三网络块、第四网络块、第五网络块、第六网络块和第七网络块处理后，得到所述人脸图像上不同肌肉动作的特征。

7.根据权利要求5所述的方法，其特征在于，所述表情估计模型包括第一全连接层、第二全连接层和第三全连接层；所述第一全连接层输出特征向量维度为512，所述第二全连接层输出特征向量维度为256，所述第三全连接层输出特征向量维度为所述表情参数所包括的精细化运动单元AU值的个数；

所述第一终端设备根据所述人脸图像上不同肌肉动作的特征和表情估计模型，获取所述多个精细化运动单元AU值，包括：

将所述人脸图像上不同肌肉动作的特征输入所述第一全连接层，依次经过所述第一全连接层、所述第二全连接层和所述第三全连接层处理后，得到所述多个精细化运动单元AU值。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述表情参数包括脸部各个肌肉动作的变形等级；

所述第一终端设备根据所述人脸图像上不同肌肉动作的特征和分类算法，获取所述肌肉变形等级。

9.根据权利要求3所述的方法，其特征在于，所述第一终端设备根据所述人脸图像，获取所述人脸图像上关键点的二维坐标，包括：

所述第一终端设备根据所述人脸图像和关键点检测算法，获取所述人脸图像上关键点的二维坐标。

10.根据权利要求9所述的方法，其特征在于，所述第一终端设备根据所述人脸图像上关键点的二维坐标，获取所述人脸图像上关键点的位姿参数，包括：

所述第一终端设备根据所述人脸图像上关键点的二维坐标和预先定义的标准正脸的关键点的三维坐标，采用弱视投影法确定所述位姿参数。

11.一种虚拟人像渲染方法，其特征在于，应用于第二终端设备，包括：

所述第二终端设备接收第一终端设备发送的表情参数和位姿参数，所述表情参数用于表征人脸图像上各个肌肉动作的强烈程度；

所述第二终端设备根据所述表情参数和所述位姿参数，对虚拟人像的表情和动作进行渲染。

12.一种终端设备，其特征在于，包括：

采集模块，用于采集待处理图像；

获取模块，用于根据所述待处理图像，获取所述待处理图像中的人脸图像；还用于根据所述人脸图像，获取所述人脸图像对应的表情参数，所述表情参数用于表征所述人脸图像上各个肌肉动作的强烈程度；

发送模块，用于将所述表情参数发送至第二终端设备，所述表情参数用于指示所述第二终端设备对虚拟人像的表情和动作进行渲染。

13.一种终端设备，其特征在于，包括：

接收模块，用于接收第一终端设备发送的表情参数和位姿参数，所述表情参数用于表征人脸图像上各个肌肉动作的强烈程度；

渲染模块，用于根据所述表情参数和所述位姿参数，对虚拟人像的表情和动作进行渲染。

14.一种终端设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令，所述处理器用于调用所述存储器中的程序指令执行权利要求1-10任一项所述的方法。

15.一种终端设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令，所述处理器用于调用所述存储器中的程序指令执行权利要求11所述的方法。

16.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序；所述计算机程序在被执行时，实现上述权利要求1-10任一项所述的方法。

17.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序；所述计算机程序在被执行时，实现上述权利要求11所述的方法。