CN116503524A

CN116503524A - 一种虚拟形象的生成方法、系统、装置及存储介质

Info

Publication number: CN116503524A
Application number: CN202310385691.0A
Authority: CN
Inventors: 杨锦; 李�权; 彭绪坪; 叶俊杰; 王伦基; 成秋喜; 付玟
Original assignee: Guangzhou Sailingli Technology Co ltd
Current assignee: Guangzhou Sailingli Technology Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-28
Anticipated expiration: 2043-04-11
Also published as: CN116503524B

Abstract

本发明公开了一种虚拟形象的生成方法、系统、装置及存储介质，包括：获取包含人脸的图像，并对所述图像进行预处理，得到符合预设要求的待处理图像；所述图像由单目摄像头拍摄得到；将所述待处理图像输入到人脸透视重建模型进行预测，得到三维人脸网格顶点坐标信息和二维关键点位置信息；根据所述三维人脸网格顶点坐标信息确定表情基形状系数，根据所述三维人脸网格顶点坐标信息和所述二维关键点位置信息确定头部位姿信息；将所述表情基形状系数和所述头部位姿信息迁移到头部模型，生成三维人脸表情画像。本发明实施例能够通过单目摄像头获取的人脸图像驱动3D建模数字人，操作简洁，成本低，可广泛应用于计算机技术领域。

Description

一种虚拟形象的生成方法、系统、装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种虚拟形象的生成方法、系统、装置及存储介质。

背景技术

元宇宙背景下，现实与虚拟环境的互动显得格外重要，而人脸表情的互动能更好连接虚拟与现实。目前要想捕获人脸表情去驱动3D建模数字人的表情，普遍方法是利用深度相机或者人脸面部标记点的辅助方式捕捉，存在操作复杂，驱动成本昂贵等缺点。

发明内容

有鉴于此，本发明实施例的目的是提供一种虚拟形象的生成方法、系统、装置及存储介质，能够通过单目摄像头获取的人脸图像驱动3D建模数字人，操作简洁，成本低。

第一方面，本发明实施例提供了一种虚拟形象的生成方法，包括以下步骤：

获取包含人脸的图像，并对所述图像进行预处理，得到符合预设要求的待处理图像；所述图像由单目摄像头拍摄得到；

将所述待处理图像输入到人脸透视重建模型进行预测，得到三维人脸网格顶点坐标信息和二维关键点位置信息；

根据所述三维人脸网格顶点坐标信息确定表情基形状系数，根据所述三维人脸网格顶点坐标信息和所述二维关键点位置信息确定头部位姿信息；

将所述表情基形状系数和所述头部位姿信息迁移到头部模型，生成三维人脸表情画像。

可选地，所述对所述图像进行预处理，得到符合预设要求的待处理图像，具体包括：

将所述图像进行人脸检测和尺寸变换，得到只包含单一人脸且符合人脸透视重建模型输入尺寸的待处理图像。

可选地，所述将所述图像进行人脸检测和尺寸变换，具体包括：

通过人脸检测模型对所述图像进行检测，得到人脸边界框和脸部关键点；

保持脸部关键点之间的距离比例不变，通过相似变换将所述人脸边界框缩放到人脸透视重建模型输入尺寸。

可选地，所述人脸透视重建模型的训练过程包括：

获取包含头部动作和面部表情的样本图像，并根据样本图像确定真实三维人脸网格顶点坐标信息和真实二维关键点位置信息；所述样本图像通过深度摄像头拍摄得到；

将预处理后的样本图像输入到初始模型，得到预测三维人脸网格顶点坐标信息和预测二维关键点位置信息；

根据真实三维人脸网格顶点坐标信息与预测三维人脸网格顶点坐标信息之间的误差计算第一损失值，根据真实二维关键点位置信息与预测二维关键点位置信息之间的误差计算第二损失值；

根据第一损失值和第二损失值对初始模型的模型参数进行更新，得到所述人脸透视重建模型。

可选地，所述根据所述三维人脸网格顶点坐标信息确定表情基形状系数，具体包括：

根据三维人脸网格顶点坐标信息确定三维人脸网格；

根据所述三维人脸网格和表情基形状确定表情基形状系数。

可选地，所述根据所述三维人脸网格顶点坐标信息和所述二维关键点位置信息确定头部位姿信息，具体包括：

通过EPnP算法对所述三维人脸网格顶点坐标信息和所述二维关键点位置信息进行预测，得到头部的旋转和平移信息。

第二方面，本发明实施例提供了一种虚拟形象的生成系统，包括：

第一模块，用于获取包含人脸的图像，并对所述图像进行预处理，得到符合预设要求的待处理图像；所述图像由单目摄像头拍摄得到；

第二模块，用于将所述待处理图像输入到人脸透视重建模型进行预测，得到三维人脸网格顶点坐标信息和二维关键点位置信息；

第三模块，用于根据所述三维人脸网格顶点坐标信息确定表情基形状系数，根据所述三维人脸网格顶点坐标信息和所述二维关键点位置信息确定头部位姿；

第四模块，用于将所述表情基形状系数和所述头部位姿迁移到自建头部模型，生成三维人脸表情画像。

第三方面，本发明实施例提供了一种虚拟形象的生成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的方法。

第五方面，本发明实施例提供了一种虚拟形象的生成系统，包括图像采集设备以及与所述图像采集设备连接的计算机设备；其中，

所述图像采集设备，包括单目摄像头，用于拍摄包含人脸的图片；

所述计算机设备包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

实施本发明实施例包括以下有益效果：本实施例首先获取由单目摄像头拍摄的包含人脸的图像，并进行预处理得到待处理图像，然后将待处理图像输入到人脸透视重建模型得到三维人脸网格顶点坐标信息和二维关键点位置信息，并基于三维人脸网格顶点坐标信息和二维关键点位置信息得到表情基形状系数和头部位姿信息，最后将表情基形状系数和头部位姿信息迁移到头部模型生成三维人脸表情画像，通过人脸透视重建模型预测输入的单目摄像头图像的三维人脸网格顶点坐标信息和二维关键点位置信息，并进一步确定表情基形状系数和头部位姿信息，并结合头部模型生成三维人脸表情画像，从而实现通过单目摄像头获取的人脸图像驱动3D建模数字虚拟人，无需穿戴面部表情设备，通过连续的图像帧可以生成三维人脸表情动画，操作简洁，成本低。

附图说明

图1是本发明实施例提供的一种虚拟形象的生成方法的步骤流程示意图；

图2是本发明实施例提供的一种虚拟形象的生成方法的步骤流程示意图；

图3是本发明实施例提供的一种虚拟形象的生成系统的结构框图；

图4是本发明实施例提供的一种虚拟形象的生成装置的结构框图；

图5是本发明实施例提供的一种虚拟形象的生成系统的另一种结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

参阅图1和图2所示，本发明实施例提供了一种虚拟形象的生成方法，包括以下步骤S100-S400：

S100、获取包含人脸的图像，并对所述图像进行预处理，得到符合预设要求的待处理图像；所述图像由单目摄像头拍摄得到。

由单目摄像头拍摄的包含人脸的图像是后续头部模型中表情和位姿的信息来源，待处理图像为符合后续数据处理要求的图像。预处理的具体方式根据实际应用确定，本实施例不做具体限制，预处理包括但不限于图像裁剪和图像尺寸变换等。

S110、将所述图像进行人脸检测和尺寸变换，得到只包含单一人脸且符合人脸透视重建模型输入尺寸的待处理图像。

具体地，首先对图像进行人脸检测，得到只包含人脸的图像区域，然后将包含人脸的图像区域进行尺寸变换，得到符合人脸透视重建模型输入尺寸要求的待处理图像。需要说明的是，人脸检测和尺寸变换的具体方式根据实际应用确定，本实施例不做具体限制。

S111、通过人脸检测模型对所述图像进行检测，得到人脸边界框和脸部关键点；

S112、保持脸部关键点之间的距离比例不变，通过相似变换将所述人脸边界框缩放到人脸透视重建模型输入尺寸。

人脸检测模型用于对图像进行人脸检测，人脸检测模型包括但不限于RetinaFace神经网络。具体地，通过RetinaFace神经网络捕捉到图像中的人脸边界框和脸部关键点坐标，然后在保持脸部关键点之间的距离比例不变的情况下，将人脸边界框缩小或放大到人脸透视重建模型输入尺寸。缩小或放大根据检测的人脸边界框与模型输入尺寸之间的大小关系确定，若人脸边界框大于模型输入尺寸，则采用缩小操作，若人脸边界框小于模型输入尺寸，则采用放大操作。

S200、将所述待处理图像输入到人脸透视重建模型进行预测，得到三维人脸网格顶点坐标信息和二维关键点位置信息。

需要说明的是，人脸透视重建模需要先进行训练，然后将训练好的人脸透视重建模用于三维人脸网格顶点坐标信息和二维关键点位置信息的预测。

人脸透视重建模的结构包括若干个网络层结构和残差块，在一个具体的实施例中，脸透视重建模的结构包括依次连接的三个卷积层、一个池化层和四个残差块。输入图像先经过三个卷积层和一个池化层进行特征提取，提取出的特征图依次经过四个残差块进行深度特征提取和压缩。每个残差块包含两个卷积层，其中，第一个卷积层的输出通道数为输入通道数的一半，第二个卷积层的输出通道数等于输入通道数，最后经过一个全局池化层和全连接层回归。在一个具体的实施例中，人脸透视重建模的结构参数如表一所示，最终输出的是一个6100维的向量，分别表示1220个预测3D顶点坐标(pred_verts)和1220个预测2D顶点坐标(pred_points2d)。

表一

可选地，所述人脸透视重建模型的训练过程包括：

S201、获取包含头部动作和面部表情的样本图像，并根据样本图像确定真实三维人脸网格顶点坐标信息和真实二维关键点位置信息；所述样本图像通过深度摄像头拍摄得到。

在一个具体的实施例中，邀请10名志愿者来制作数据集，他们坐在一个随机的环境中，3D采集设备固定在他们面前，距离大约在0.3m到0.9m之间。每个志愿者者被要求用两个头部动作(从左看到右看/从抬头到低头)做出46个特定的表情，这些特定表情包含了人脸能做出的所有常用表情。使用深度摄像头来记录3D ground trunth.人脸的形状和位置由结构光传感器跟踪。在数据集类别中，使用其中3560个实例作为训练集，905个实例作为测试集。每个实例包含1220个3D网格顶点坐标信息label_verts的真实标签和通过面部对齐工具包预测的1220个关键点坐标label_verts。对原始数据的图片进行预处理，通过仿射变换中的相似变换使得1220个脸部关键点之间距离比例不变的情况，将人脸边界框尺寸缩放到256x256尺寸。

S202、将预处理后的样本图像输入到初始模型，得到预测三维人脸网格顶点坐标信息和预测二维关键点位置信息。

具体地，样本图像的预处理包括但不限于尺寸归一化、变换、旋转等步骤实现数据增强等。初始模型表示模型参数有待更新确定的人脸透视重建模型。初始模型的网络结构参数根据实际应用确定，本实施例不做具体限制。

S203、根据真实三维人脸网格顶点坐标信息与预测三维人脸网格顶点坐标信息之间的误差计算第一损失值，根据真实二维关键点位置信息与预测二维关键点位置信息之间的误差计算第二损失值。

具体地，损失值的计算公司参阅下面公式，计算3D顶点坐标pred_verts(预测值)和label_verts(真实值)张量之间的第一损失值L_vets，以及2D顶点坐标pred_points2d(预测值)label_points2d(真实值)和张量之间的第二损失值L_land，N是3D和2D顶点个数，v是模型预测3D输出，v^*是3D真实标签，p是模型预测2D输出，p^*是2D真实标签。

S204、根据第一损失值和第二损失值对初始模型的模型参数进行更新，得到所述人脸透视重建模型。

设定最小优化算法：联合2D和3D损失函数得到总损失函数Loss＝L_vets+L_land，以及设定训练迭代次数，并根据误差最小化的目的完成训练。例如：训练方式采用随机梯度下降法训练40个迭代次数可以实现准模型确精度。

S300、根据所述三维人脸网格顶点坐标信息确定表情基形状系数，根据所述三维人脸网格顶点坐标信息和所述二维关键点位置信息确定头部位姿信息。

表情基形状系数用于表征基于面部表情基形状的变换系数。头部位姿信息用于表征头部的动作信息。根据三维人脸网格顶点坐标信息确定表情基形状系数，用于后续确定画像中人脸的面部表情；根据三维人脸网格顶点坐标信息和二维关键点位置信息确定头部位姿信息，用于后续确定画像中人头的动作。

S310、根据三维人脸网格顶点坐标信息确定三维人脸网格；

S320、根据所述三维人脸网格和表情基形状确定表情基形状系数。

具体地，首先，根据三维人脸网格顶点坐标信息进行点与点连线、线与线成面，从而确定三维人脸网格；然后，将三维人脸网格降维到表情基形状，从而得到表情基形状系数。

在一个具体的实施例中，3D网格顶点坐标信息pred_verts共有1220个顶点，根据网格的点与点连线--线与线成面的规则，可以形成2374条线和1152个面，在已知线-面的布局已知的前提下，根据3D顶点坐标信息可以生成3D人脸网格。通过52个表情基形状和预测的3D人脸网格，通过最小二乘矩阵回归计算出52个表情基形状参数。

上述矩阵方程记为矩阵A∈R^n×m，n是表情基形状个数52，m是输出3D网格顶点一维数据3660，/>是第i个表情基形状的3D网格顶点坐标信息，a_i是第i个表情基形/>状的系数，同样使得残差的平方和最小，标签值Y写为向量的形式/>

通过求偏导，最终的表情基形状系数的最优取值为：

S330、通过EPnP(Efficient Perspective-n-Point)算法对所述三维人脸网格顶点坐标信息和所述二维关键点位置信息进行预测，得到头部的旋转和平移信息。

具体地，分别选择左右眼、鼻头、下巴四个3D网格顶点，3D空间中的4个点分别表示为P1＝(X1，Y1，Z1)、P2＝(X2，Y2，Z2)、P3＝(X3，Y3，Z3)、P4＝(X4，Y4，Z4)，对应的在图像上的2D关键点表示为Q1＝(u1，v1)、Q2＝(u2，v2)、Q3＝(u3，v3)、Q4＝(u4，v4)，EPnP算法的求解公式如下：

Min∑_i||Q_i-K(BP_i+t)||²

其中，Q_i表示第i个3D网格顶点，P_i表示第i个2D网格顶点，K为相机内部参数矩阵，B是旋转矩阵B∈R^3×3，t是平移向量t∈R^3*1。

可以使用下面的步骤来计算头部的位姿信息。

相机内部的参数矩阵K的逆矩阵K^-1，这可以通过相机的内部参数(如焦距、像素尺寸等)来计算得到，K的形式通常为

其中，fx和fy为焦距，cx和cy为图像中心点的坐标。

通过将P_i表示为列向量，并将R和t拼成一个3*4的矩阵M＝[R|t]，最小化公式可化简为：

Min∑_i||Q_i-KP_iM||²

定义矩阵A如下：

A_i＝[Z_iK^-1Q_i,-Z_iK^-1P_i]

其中，Z_i是P_i的第三个维度Z轴的坐标，则最小化公式进一步简化为:

Min∑_i||A_iM||²

使用奇异值分解(SVD)计算矩阵A的分解：

A＝U*S*V^T

其中，U和V是正交矩阵，S是对角矩阵。

通过计算矩阵B和向量t来计算头部的旋转和平移：

B＝UV^T

t＝P-B^-1K^-1Q

将B和t转换为相机坐标系下的坐标系，即将从相机坐标系转换为世界坐标系：

R＝K^-1*B

T＝K^-1*t

其中，R是旋转矩阵，T是平移向量。最终得到的旋转矩阵R和平移向量T可以用来表示头部在世界坐标系下的姿态，再将旋转矩阵转换为欧拉角roll、yaw、pitch。

S400、将所述表情基形状系数和所述头部位姿信息迁移到头部模型，生成三维人脸表情画像。

头部模型包含52个面部表情基形状，52个表情基形状相互两两正交，自建的3D头部模型的布线面规则不用仿照。

具体地，将1220*3个3D数据降到了52个维度来表现人脸的表情信息，将预测得到的52表情基形状参数移植到自建头部模型上，实现将单目摄像头捕捉的输入图片的人脸表情移植到自建3D头部模型。然后，自建3D头部模型绑定头部旋转骨架，将预测得到的头部旋转值和平移值给到骨架旋转值和偏移值，实现将单目摄像头捕捉的输入图片的头部位姿移植到自建3D头部模型。

参阅图3，本发明实施例提供了一种虚拟形象的生成系统，包括：

可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参阅图4，本发明实施例提供了一种虚拟形象的生成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

其中，存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的远程存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可见，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

此外，本申请实施例还公开了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述的方法。同样地，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现上述的方法。

可以理解的是，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

参阅图5，本发明实施例提供了一种虚拟形象的生成系统，包括图像采集设备以及与所述图像采集设备连接的计算机设备；其中，

所述计算机设备包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

具体地，对于所述图像采集设备，其主要通过包含单目摄像头的相机来实现；而对于所述计算机设备，其可为不同类型的电子设备，包含但不限于有台式电脑、手提电脑等终端。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种虚拟形象的生成方法，其特征在于，包括：

2.根据权利要求1所述的生成方法，其特征在于，所述对所述图像进行预处理，得到符合预设要求的待处理图像，具体包括：

3.根据权利要求2所述的生成方法，其特征在于，所述将所述图像进行人脸检测和尺寸变换，具体包括：

4.根据权利要求1所述的生成方法，其特征在于，所述人脸透视重建模型的训练过程包括：

5.根据权利要求1所述的生成方法，其特征在于，所述根据所述三维人脸网格顶点坐标信息确定表情基形状系数，具体包括：

根据三维人脸网格顶点坐标信息确定三维人脸网格；

根据所述三维人脸网格和表情基形状确定表情基形状系数。

6.根据权利要求1所述的生成方法，其特征在于，所述根据所述三维人脸网格顶点坐标信息和所述二维关键点位置信息确定头部位姿信息，具体包括：

7.一种虚拟形象的生成系统，其特征在于，包括：

8.一种虚拟形象的生成装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-6任一项所述的方法。

10.一种虚拟形象的生成系统，其特征在于，包括图像采集设备以及与所述图像采集设备连接的计算机设备；其中，

所述计算机设备包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；