CN113886640A

CN113886640A - 数字人生成方法、装置、设备及介质

Info

Publication number: CN113886640A
Application number: CN202111165975.6A
Authority: CN
Inventors: 王鑫宇; 常向月; 刘炫鹏; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-04

Abstract

本申请涉及一种数字人生成方法、装置、设备及介质，涉及计算机技术领域，该数字人生成方法包括：将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点；从目标人脸图像中提取3D人脸重建参数；依据若干个所述第一人脸关键点和所述3D人脸重建参数，确定若干个包含人脸姿态信息的第二人脸关键点；依据所述第二人脸关键点，生成数字人图片。由此，能够使得生成的数字人的姿态更加自然，提升用户体验。

Description

数字人生成方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数字人生成方法、装置、设备及介质。

背景技术

数字人，是一种利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。随着计算机技术的快速发展，数字人的生成技术越来越成熟。在实际处理中，如果数字人生成技术想要应用在商业，实现实时交互，则数字人生成方案至少需要满足两点：生成效果好和推理效率高；其中，数字人的生成效果好是必要的前提，推理效率高是商业的需要。

目前，为了提高数字人的推理效率，出现了基于声音推理生成数字人的方案，其主要是通过声音推理模型，采用声音推理生成人脸关键点，然后将该人脸关键点同通过3D人脸重建模型从真实原始图片中提取出的信息相结合，最终生成数字人。

然而，基于声音推理出的人脸关键点中包含人脸姿态信息，且该人脸姿态信息存在角度问题，因此，应用上述方案最终生成的数字人姿态不自然。

发明内容

有鉴于此，本申请提供了一种数字人生成方法、装置、设备及介质，以使得基于声音推理生成的数字人的姿态能够更加自然，提升用户体验。

第一方面，本申请实施例提供了一种数字人生成方法，包括：

将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点；

从目标人脸图像中提取3D人脸重建参数；

依据若干个所述第一人脸关键点和所述3D人脸重建参数，确定若干个包含人脸姿态信息的第二人脸关键点；

依据所述第二人脸关键点，生成数字人图片。

可选的，所述方法还包括：

从所述目标人脸图像中提取人脸边缘线；

所述依据所述第二人脸关键点，生成数字人图片，包括：

依据所述第二人脸关键点和所述人脸边缘线，确定目标人脸轮廓线；

将所述目标人脸轮廓线输入至已训练的第二生成器中，得到数字人图片。

可选的，所述依据所述第二人脸关键点和所述人脸边缘线，确定目标人脸轮廓线，包括：

对若干个所述第二人脸关键点进行卷积操作，得到人脸关键点特征向量，以及对所述人脸边缘线进行卷积操作，得到边缘线特征向量；

对所述人脸关键点特征向量和所述边缘线特征向量进行向量求和，得到隐藏向量；

利用预设解码器对所述隐藏向量进行解码，得到目标人脸轮廓线。

可选的，所述目标音频包括一个音频帧或若干个连续的音频帧；

当所述目标音频包括若干个连续的音频帧时，所述将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点，包括：

将所述目标音频包括的每一音频帧分别输入至已训练的第一生成器，得到每一所述音频帧各自对应的，若干个不包含人脸姿态信息的第三人脸关键点；

确定若干个所述音频帧对应的所述第三人脸关键点的平均值；

将所述平均值确定为所述第一人脸关键点。

可选的，所述方法还包括：

按照若干个所述目标音频的时间顺序，对若干个所述目标音频对应的所述数字人图片进行组合，生成数字人视频。

可选的，所述第一生成器通过以下方式训练得到：

从视频流中提取若干个图片帧以及所述图片帧对应的音频帧；

针对每一所述图片帧，从所述图片帧中提取出若干个不包含人脸姿态信息的第四人脸关键点，从所述图片帧对应的音频帧中提取出音频特征；

将若干个所述第四人脸关键点和所述音频特征确定为样本数据；

依据若干个所述样本数据进行模型训练，得到所述第一生成器。

可选的，所述图片帧对应的音频帧包括一个音频帧或若干个连续的音频帧。

可选的，所述从所述图片帧中提取出若干个不包含人脸姿态信息的第四人脸关键点，包括：

利用预设的人脸关键点检测算法对所述图片帧进行人脸关键点检测，得到包含人脸姿态信息的第五人脸关键点；

利用人脸3D形变统计模型对所述第五人脸关键点进行处理，得到所述第四人脸关键点。

可选的，所述从所述图片帧对应的音频帧中提取出音频特征，包括：

针对所述图片频对应的音频帧，利用傅里叶变换提取Mel频率倒谱系数作为所述音频帧对应的音频特征；

或者，

针对所述图片帧对应的音频帧，利用预设的语音识别模型提取所述音频帧对应的音频特征。

可选的，所述依据若干个所述样本数据进行模型训练，得到所述第一生成器，包括：

将各所述样本数据中的所述音频特征输入至初始的第一生成器，得到所述音频特征对应的预测人脸关键点；

依据各所述音频特征对应的所述预测人脸关键点、各所述样本数据中的所述第四人脸关键点，确定模型损失值；

若所述模型损失值不符合预设的模型收敛条件，则基于所述模型损失值更新所述第一生成器的模型参数，并对更新模型参数后的第一生成器进行迭代训练，直至所述模型损失值符合所述模型收敛条件。

可选的，所述依据各所述音频特征对应的所述预测人脸关键点、各所述样本数据中的所述第四人脸关键点，确定模型损失值，包括：

依据各所述音频特征对应的所述预测人脸关键点、各所述样本数据中的所述第四人脸关键点，确定第一损失值信息；

依据各所述音频特征对应的所述预测人脸关键点、各所述样本数据中的所述第四人脸关键点，确定第二损失值信息；

基于所述第一损失值信息和所述第二损失值信息，确定模型损失值。

第二方面，本申请实施例提供了一种数字人生成装置，包括：

第一关键点确定模块，用于将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点；

参数提取模块，用于从目标人脸图像中提取3D人脸重建参数；

第二关键点确定模块，用于依据若干个所述第一人脸关键点和所述3D人脸重建参数，确定若干个包含人脸姿态信息的第二人脸关键点；

数字人生成模块，用于依据所述第二人脸关键点，生成数字人图片。

可选的，所述装置还包括：

边缘线提取模块，用于从所述目标人脸图像中提取人脸边缘线；

数字人生成模块包括：

轮廓线确定子模块，用于依据所述第二人脸关键点和所述人脸边缘线，确定目标人脸轮廓线；

模型输入子模块，用于将所述目标人脸轮廓线输入至已训练的第二生成器中，得到数字人图片。

可选的，所述轮廓线确定子模块，具体用于：

对若干个所述第二人脸关键点进行卷积操作，得到人脸关键点特征向量，以及对所述人脸边缘线进行卷积操作，得到边缘线特征向量；对所述人脸关键点特征向量和所述边缘线特征向量进行向量求和，得到隐藏向量；利用预设解码器对所述隐藏向量进行解码，得到目标人脸轮廓线。

所述模型输入子模块，具体用于：当所述目标音频包括若干个连续的音频帧时，将所述目标音频包括的每一音频帧分别输入至已训练的第一生成器，得到每一所述音频帧各自对应的，若干个不包含人脸姿态信息的第三人脸关键点；确定若干个所述音频帧对应的所述第三人脸关键点的平均值；将所述平均值确定为所述第一人脸关键点。

可选的，所述数字人生成模块，还用于按照若干个所述目标音频的时间顺序，对若干个所述目标音频对应的所述数字人图片进行组合，生成数字人视频。

可选的，所述装置还包括：

模型训练模块，用于训练得到所述第一生成器；

所述模型训练模块具体包括：

帧提取子模块，用于从视频流中提取若干个图片帧以及所述图片帧对应的音频帧；

关键点提取子模块，用于针对每一所述图片帧，从所述图片帧中提取出若干个不包含人脸姿态信息的第四人脸关键点；

音频特征提取子模块，用于从所述图片帧对应的音频帧中提取出音频特征；

样本构造子模块，用于将若干个所述第四人脸关键点和所述音频特征确定为样本数据；

训练子模块，用于依据若干个所述样本数据进行模型训练，得到所述第一生成器。

可选的，所述关键点提取子模块，具体用于：

利用预设的人脸关键点检测算法对所述图片帧进行人脸关键点检测，得到包含人脸姿态信息的第五人脸关键点；利用人脸3D形变统计模型对所述第五人脸关键点进行处理，得到所述第四人脸关键点。

可选的，所述音频特征提取子模块，具体用于：

或者，

可选的，所述训练子模块，具体用于：

可选的，所述训练子模块依据各所述音频特征对应的所述预测人脸关键点、各所述样本数据中的所述第四人脸关键点，确定模型损失值，包括：

第三方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如第一方面任一项所述的数字人生成方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的数字人生成方法的步骤。

本申请实施例提供的技术方案，通过将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点，从目标人脸图像中提取3D人脸重建参数，依据若干个第一人脸关键点和3D人脸重建参数，确定若干个包含人脸姿态信息的第二人脸关键点，依据第二人脸关键点，生成数字人图片，由于最终用来生成数字人图片的第二人脸关键点中所包含的人脸姿态信息，来自于从真实人脸图像中提取的3D人脸重建参数，因此，相较于现有技术而言，能够避免因基于音频推理出的人脸姿态信息存在角度问题，导致最终生成的数字人姿态不自然的问题，也即，应用本申请实施例提出的技术方案，能够使得基于音频推理生成的数字人的姿态更加自然，提升用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数字人生成方法的步骤流程图；

图2为本申请一个可选实施例提供的一种数字人生成方法的步骤流程图；

图3为目标人脸轮廓线的一种示例；

图4为本申请另一个可选实施例提供的一种数字人生成方法步骤流程图；

图5为本申请实施例提供的一种数字人生成装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，示出了本申请实施例提供的一种数字人生成方法的步骤流程图。具体的，本申请提供的数字人生成方法可以适用于视频生成场景，如可以适用于基于真实图片生成视频的虚拟图像的情况；其中，虚拟图像可以是视频中的数字人图像，具体可以用于表示数字人视频中的数字人。具体的，作为一个例子，该视频生成场景为直播视频的生成场景，在该场景下，对用户音频和直播间主播(如虚拟主播)的图片应用本申请提供的数字人生成方法，可以实现基于用户音频驱动直播间主播的图片，从而生成虚拟主播的直播视频。作为另一个例子，该视频生成场景为线上教育场景，在该场景下，对讲师的音频和讲师(如虚拟讲师)的图片应用本申请提供的数字人生成方法，可以实现基于讲师音频驱动讲师的图片，从而生成虚拟讲师在线授课的视频。当然，上述应用场景仅仅是本申请提供的数字人生成方法的示例性应用场景，本申请实施例对具体的应用场景不做限制。

如图1所示，本申请实施例中的数字人生成方法具体可以包括如下步骤：

步骤110，将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点。

其中，目标音频可以指待处理的真实音频，如可以是用户录制的音频，或者是用户录制的视频中的音频。进一步的，本申请实施例中，目标音频可以作为最终生成的数字人视频中所包含的音频，也即最终生成的数字人所输出的音频。

在一实施例中，目标音频包括一个音频帧，如可以是用户录制的音频或视频中的各个音频帧。当目标音频包括一个音频帧时，则意味着根据该一个音频帧推理生成一张数字人图片。

在另一实施例中，目标音频包括若干个连续的音频帧，如可以是用户录制的音频或视频中的第t帧至第t+n帧音频帧，t为正整数，n为不小于1的整数。当目标音频包括若干个连续的音频帧时，则意味着根据该若干个连续的音频帧推理生成一张数字人图片。

本申请实施例对目标音频所包含的音频帧数不作具体限制。

第一生成器是预先训练得到的，用于基于音频推理出若干个不包含人脸姿态信息(即pose信息)的人脸关键点(为描述方便，以下称为第一人脸关键点)的机器学习模型，如第一生成器能够基于音频推理出68个第一人脸关键点。至于第一生成器是如何训练得到的，在下文中通过图4所示流程进行说明，这里先不详述。

需要注意的是，本申请实施例中，第一生成器所推理出的第一人脸关键点不包含pose信息，这就与现有技术中，基于音频推理出pose信息和expression(表情)参数，进而基于音频推理出的pose信息和expression参数，同通过3D人脸重建模型从真实原始图片中提取出的信息相结合，最终生成数字人不同，并且，相较于现有技术而言，能够避免由于基于音频推理出的pose信息存在角度问题，导致最终生成的数字人姿态不自然的问题。

基于上述描述，步骤110中，将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点。

其中，当目标音频包括若干个连续的音频帧时，该将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点，包括：将目标音频包括的每一音频帧分别输入至已训练的第一生成器，得到每一音频帧各自对应的，若干个不包含人脸姿态信息的第三人脸关键点，确定若干个音频帧对应的第三人脸关键点的平均值，将该平均值确定为第一人脸关键点。

例如，目标音频包含一段音频中的第t帧、第t+1帧、第t+2帧音频帧。按照上述描述，将第t帧、第t+1帧、第t+2帧音频帧分别输入至已训练的第一生成器中，得到3组第一人脸关键点集，分别记为(x₁、x₂、x₃、...、x₆₈)，(y₁、y₂、y₃、...、y₆₈)，(z₁、z₂、z₃、...、z₆₈)。按照上述描述的处理方式，依据该3组第一人脸关键点集最终得到的一个第一人脸关键点集为((x₁+y₁+z₁)/3、(x₂+y₂+z₂)/3、...、(x₆₈+y₆₈+z₆₈)/3)。

由此可见，本申请实施例提供的技术方案能够基于多个音频帧推理出一组人脸关键点，这相较于基于一个音频帧推理出一组人脸关键点而言，可以提高推理出的人脸关键点的稳定性和准确性。如上述第t+2帧音频帧中除人物说话声音以外，还存在突然发生的噪声，那么，仅基于第t+2帧音频帧推理出人脸关键点，将导致推理出的人脸关键点受噪声影响较大。而倘若按照上述方式，结合第t帧、第t+1帧音频帧共同推理出人脸关键点，将削弱噪声对推理出的人脸关键点的影响，使得推理出的人脸关键点更具稳定性和准确性。

步骤120，从目标人脸图像中提取3D人脸重建参数。

其中，目标人脸图像可以指待处理的真实图片，如可以是通过图像采集设备采集目标人物的图像或视频得到。

3D人脸重建参数包括但不限于：人脸形状信息、反射信息(其中包含人脸角度信息、姿态信息)、纹理信息、光照信息等。

在具体实现中，可利用预设的3D人脸重建参数提取算法或3D人脸重建参数提取模型，从目标人脸图像中提取3D人脸重建参数。至于具体的3D人脸重建参数提取算法或3D人脸重建参数提取模型，本申请实施例不做详细阐述。

步骤130，依据若干个第一人脸关键点和3D人脸重建参数，确定若干个包含人脸姿态信息的第二人脸关键点。

由上述描述可知，3D人脸重建参数中包含人脸姿态信息，因此，通过将若干个第一人脸关键点和3D人脸重建参数进行结合，可以得到若干个包含人脸姿态信息的人脸关键点(为描述方便，以下称为第二人脸关键点)。

在具体实现中，可利用人脸3D形变统计模型(如3DMM)对若干个第一人脸关键点和3D人脸重建参数进行处理，得到上述第二人脸关键点。

步骤140，依据第二人脸关键点，生成数字人图片。

至于步骤140的具体实现，可参见下文中图2所示实施例中的详细描述，这里先不详述。

由此可见，本申请实施例提供的技术方案，通过将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点，从目标人脸图像中提取3D人脸重建参数，依据若干个第一人脸关键点和3D人脸重建参数，确定若干个包含人脸姿态信息的第二人脸关键点，依据第二人脸关键点，生成数字人图片，由于最终用来生成数字人图片的第二人脸关键点中所包含的人脸姿态信息，来自于从真实人脸图像中提取的3D人脸重建参数，因此，相较于现有技术而言，能够避免因基于音频推理出的人脸姿态信息存在角度问题，导致最终生成的数字人姿态不自然的问题，也即，应用本申请实施例提出的技术方案，能够使得基于音频推理生成的数字人的姿态更加自然，提升用户体验。

参见图2，示出了本申请一个可选实施例提供的一种数字人生成方法的步骤流程图。如图2所示，本申请实施例中的数字人生成方法具体可以包括如下步骤：

步骤210，将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点。

步骤220，从目标人脸图像中提取3D人脸重建参数。

至于步骤210和步骤220的详细描述，可以参见上述图1所示实施例中的相关描述，这里不再赘述。

步骤230，从目标人脸图像中提取人脸边缘线。

边缘指周围像素灰度有阶跃变化或屋顶变化的像素的集合，是图像最重要的特征之一。

本申请实施例中，可采用预设的边缘检测算法，从目标人脸图像中提取人脸边缘线。

需要说明的是，本申请实施例中对步骤220和步骤230的执行顺序不作限制。如在具体实现中，可以先执行步骤220，再执行步骤230；或者先执行步骤230，再执行步骤220；再或者同时执行步骤220和步骤230。

步骤240，依据第二人脸关键点和人脸边缘线，确定目标人脸轮廓线。

步骤250，将目标人脸轮廓线输入至已训练的第二生成器中，得到数字人图片。

以下对步骤240和步骤250进行统一说明：

首先，由步骤240和步骤250的描述可知，本申请实施例中，依据第二人脸关键点，生成数字人图片，包括：依据第二人脸关键点和人脸边缘线，确定目标人脸轮廓线，将目标人脸轮廓线输入至已训练的第二生成器中，得到数字人图片。其中，如图3所示，为目标人脸轮廓线的一种示例。

具体而言，步骤240中依据第二人脸关键点和人脸边缘线，确定目标人脸轮廓线包括以下步骤：

步骤a，对若干个第二人脸关键点进行卷积操作，得到人脸关键点特征向量；

步骤b，对人脸边缘线进行卷积操作，得到边缘线特征向量；

卷积操作的目的是提取特征。如步骤a中，对若干个第二人脸关键点进行卷积操作，以提取该若干个第二人脸关键点的特征，得到对应的特征向量，即上述人脸关键点特征向量。又如步骤b中，对人脸边缘线进行卷积操作，以提取该人脸边缘线的特征，得到对应的特征向量，即上述边缘线特征向量。

在具体实现中，可将若干个第二人脸关键点和人脸边缘线分别输入至对应的CNN(Convolutional Neural Network，卷积神经网络)模型，以对其进行卷积操作，得到对应的特征向量。

需要说明的是，用于对若干个第二人脸关键点进行特征提取的CNN模型和用于对人脸边缘线进行特征提取的CNN模型可以不同，本申请实施例对此不作限制。

还需要说明的是，本申请实施例中对步骤a和步骤b的执行顺序不作限制。如在具体实现中，可以先执行步骤a，再执行步骤b；或者先执行步骤b，再执行步骤a；再或者同时执行步骤a和步骤b。

步骤c，对人脸关键点特征向量和边缘线特征向量进行向量求和，得到隐藏向量；

在一实施例中，可直接对人脸关键点特征向量和边缘线特征向量进行向量求和，得到隐藏向量。

在另一实施例中，可基于预设的权重参数，对人脸关键点特征向量和边缘线特征向量进行向量加权求和，得到隐藏向量。至于具体的权重参数，本申请实施例不作限制。

步骤d，利用预设解码器对隐藏向量进行解码，得到目标人脸轮廓线。

第二生成器是预先训练得到的，用于基于人脸轮廓线推理出数字人图片的机器学习模型，如GAN(Generative Adversarial Networks，生成式对抗网络)模型。

基于此，本申请实施例中，将目标人脸轮廓线输入至已训练的第二生成器中，得到数字人图片。

步骤260，按照若干个目标音频的时间顺序，对若干个目标音频对应的数字人图片进行组合，生成数字人视频。

本申请实施例中，可针对一段音频(如一段wav格式，帧率为100的音频)应用本申请实施例提供的数字人生成方法，最终生成数字人视频。

具体而言，在一实施例中，可将该一段音频中的每一音频帧分别确定为一个目标音频，然后针对每一目标音频执行上述步骤240至步骤250，得到每一目标音频对应的数字人图片。最后，按照该若干个目标音频的时间顺序，对若干个目标音频对应的数字人图片进行组合，生成数字人视频。

在另一实施例中，可从该段音频的首个音频帧开始，依次将若干个连续的音频帧确定为目标音频，例如，该段音频包括7个音频帧，可将第1帧至第3帧确定为目标音频，将第2帧至第4帧确定为目标音频，将第3帧至第5帧确定为目标音频，将第4帧至第6帧确定为目标音频，将第5帧至第7帧确定为目标音频。然后，针对每一目标音频执行上述步骤240至步骤250，得到每一目标音频对应的数字人图片。最后，按照该若干个目标音频的时间顺序，对若干个目标音频对应的数字人图片进行组合，生成数字人视频。

由此可见，本申请实施例提供的技术方案，由于最终用来生成数字人图片的第二人脸关键点中所包含的人脸姿态信息来自于从真实人脸图像中提取的3D人脸重建参数，因此，相较于现有技术而言，能够避免因基于音频推理出的人脸姿态信息存在角度问题，导致最终生成的数字人姿态不自然的问题，也即，应用本申请实施例提出的技术方案，能够使得基于音频推理生成的数字人的姿态更加自然，从而提升用户体验。

参见图4，示出了本申请另一个可选实施例提供的一种数字人生成方法步骤流程图。具体而言，本申请实施例提供的数字人生成方法在模型训练阶段，具体可以包括如下步骤：

步骤410，从视频流中提取若干个图片帧以及图片帧对应的音频帧。

其中，视频流可以指待处理的真实视频流，如可以是用户录制的视频流。在视频流中，每一视频帧包含音频帧和图片帧，例如，若一秒的视频流中包含5个视频帧，则该视频流包含5个音频帧和5个图片帧，也即音频帧与图片帧一一对应。进一步的，在具体实现中，若干个连续的音频帧各自对应的图片帧有可能是相同的，因此，在该种情况下，也可看做该若干个连续的音频帧对应一个图片帧。

综上，在视频流中，每一个音频帧具有对应的一个图片帧。

步骤420，针对每一图片帧，从图片帧中提取出若干个不包含人脸姿态信息的第四人脸关键点，以及从图片帧对应的音频帧中提取出音频特征。

在一实施例中，步骤420针对每一图片帧，从图片帧中提取出若干个不包含人脸姿态信息的第四人脸关键点的具体实现包括：利用预设的人脸关键点检测算法对图片帧进行人脸关键点检测，得到包含人脸姿态信息的人脸关键点(为描述方便，称为第五人脸关键点)，然后利用人脸3D形变统计模型对第五人脸关键点进行处理，得到不包含人脸姿态信息的第四人脸关键点。

步骤430，将若干个第四人脸关键点和音频特征确定为样本数据。

由步骤420和430中的描述可见，针对视频流中的每一图片帧，可构造出一条样本数据，该样本数据包括该图片帧对应的第四人脸关键点，和该图片帧所对应音频帧的音频特征，并且音频特征为样本数据的输入值，第四人脸关键点为标签值。这里，图片帧所对应的音频帧可以为一个音频帧，也可以为若干个连续的音频帧。

在具体实现中，从图片帧对应的音频帧中提取出音频特征的方法包括但不限于：利用傅里叶变换提取Mel频率倒谱系数作为音频帧对应的音频特征、利用预设的语音识别模型提取音频帧对应的音频特征等。

步骤440，依据若干个样本数据进行模型训练，得到第一生成器。

在具体实现中，可采用有监督学习算法，并利用若干个样本数据对初始模型进行训练，待满足预设的训练停止条件时，停止训练，得到第一生成器。

可选的，上述有监督学习算法可以为支持向量机算法、朴素贝叶斯算法、决策树算法等。

上述初始模型可以为CNN模型、LSTM(Long Short-Term Memory，长短期记忆网络)模型等。

在一实施例中，上述训练停止条件可以指训练得到的模型收敛，模型收敛是指模型损失值符合所述模型收敛条件。具体而言，将上述各样本数据中的音频特征输入至初始的第一生成器，得到音频特征对应的预测人脸关键点，依据各音频特征对应的预测人脸关键点、各样本数据中的第四人脸关键点，确定模型损失值。若模型损失值不符合预设的模型收敛条件，则基于当前的模型损失值更新当前的第一生成器的模型参数，并对更新模型参数后的第一生成器进行迭代训练，直至模型损失值符合模型收敛条件，也即训练得到的模型收敛。

进一步的，上述依据各音频特征对应的预测人脸关键点、各样本数据中的第四人脸关键点，确定模型损失值，包括：依据各音频特征对应的预测人脸关键点、各样本数据中的第四人脸关键点，确定第一损失值信息，如L1 Loss值，也即，利用L1 Loss损失函数，实现依据各音频特征对应的预测人脸关键点、各样本数据中的第四人脸关键点，确定第一损失值信息；以及依据各音频特征对应的预测人脸关键点、各样本数据中的第四人脸关键点，确定第二损失值信息，如wing Loss值，也即，利用wing Loss损失函数，实现依据各音频特征对应的预测人脸关键点、各样本数据中的第四人脸关键点，确定第二损失值信息；最后，基于第一损失值信息和第二损失值信息，确定模型损失值。

其中，可以将第一损失值信息和第二损失值信息进行直接求和，或者是加权求和，将求和结果确定为模型损失值。

在另一实施例中，上述训练停止条件可以指达到预设的训练迭代次数。

由此可见，本申请实施例提供的技术方案，通过从视频流中提取若干个图片帧以及图片帧对应的音频帧，针对每一图片帧，从图片帧中提取出若干个不包含人脸姿态信息的第四人脸关键点，以及从图片帧对应的音频帧中提取出音频特征，将若干个第四人脸关键点和音频特征确定为样本数据，依据若干个样本数据进行模型训练，得到第一生成器，能够实现训练得到用于基于音频推理出若干个不包含人脸姿态信息的人脸关键点的机器学习模型，也即第一生成器；进而利用该第一生成器参与到基于音频推理生成数字人的技术方案中，能够避免因基于音频推理出的人脸姿态信息存在角度问题，导致最终生成的数字人姿态不自然的问题，也即，能够使得基于音频推理生成的数字人的姿态更加自然，从而提升用户体验。

本申请实施例还提供了一种数字人生成装置。如图5所示，本申请实施例提供的数字人生成装置可以包括如下模块：

第一关键点确定模块510，用于将目标音频输入至已训练的第一生成器中，得到若干个不包含人脸姿态信息的第一人脸关键点；

参数提取模块520，用于从目标人脸图像中提取3D人脸重建参数；

第二关键点确定模块530，用于依据若干个所述第一人脸关键点和所述3D人脸重建参数，确定若干个包含人脸姿态信息的第二人脸关键点；

数字人生成模块540，用于依据所述第二人脸关键点，生成数字人图片。

可选的，所述装置还包括(图中未示出)：

本申请实施例中的数字人生成模块540包括(图中未示出)：

可选的，所述轮廓线确定子模块，具体用于：

可选的，所述数字人生成模块540，还用于按照若干个所述目标音频的时间顺序，对若干个所述目标音频对应的所述数字人图片进行组合，生成数字人视频。

可选的，所述装置还包括(图中未示出)：

模型训练模块，用于训练得到所述第一生成器；

所述模型训练模块具体包括：

可选的，所述关键点提取子模块，具体用于：

可选的，所述音频特征提取子模块，具体用于：

或者，

可选的，所述训练子模块，具体用于：

需要说明的是，上述提供的图像处理装置可执行本申请任意实施例所提供的图像处理方法，具备执行方法相应的功能和有益效果。

在具体实现中，上述数字人生成装置可以应用在诸如个人计算机、服务器等电子设备中，使得电子设备作为图像处理设备可以依据目标音频生成数字人，并使得生成的数字人姿态更加自然，提升用户体验。

进一步的，本申请实施例还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任意一个方法实施例所述的数字人生成方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个方法实施例所述的数字人生成方法的步骤。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数字人生成方法，其特征在于，包括：

从目标人脸图像中提取3D人脸重建参数；

依据所述第二人脸关键点，生成数字人图片。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述目标人脸图像中提取人脸边缘线；

所述依据所述第二人脸关键点，生成数字人图片，包括：

3.根据权利要求2所述的方法，其特征在于，所述依据所述第二人脸关键点和所述人脸边缘线，确定目标人脸轮廓线，包括：

4.根据权利要求1所述的方法，其特征在于，所述目标音频包括一个音频帧或若干个连续的音频帧；

将所述平均值确定为所述第一人脸关键点。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述第一生成器通过以下方式训练得到：

7.根据权利要求6所述的方法，其特征在于，所述图片帧对应的音频帧包括一个音频帧或若干个连续的音频帧。

8.根据权利要求6所述的方法，其特征在于，所述从所述图片帧中提取出若干个不包含人脸姿态信息的第四人脸关键点，包括：

9.根据权利要求6所述的方法，其特征在于，所述从所述图片帧对应的音频帧中提取出音频特征，包括：

或者，

10.根据权利要求6所述的方法，其特征在于，所述依据若干个所述样本数据进行模型训练，得到所述第一生成器，包括：

11.根据权利要求10所述的方法，其特征在于，所述依据各所述音频特征对应的所述预测人脸关键点、各所述样本数据中的所述第四人脸关键点，确定模型损失值，包括：

12.一种数字人生成装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-11任一项所述的数字人生成方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-11任一项所述的数字人生成方法的步骤。