CN115661005B

CN115661005B - 一种定制数字人的生成方法及设备

Info

Publication number: CN115661005B
Application number: CN202211671876.XA
Authority: CN
Inventors: 陈尧森; 李志强; 罗明利
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-05-12
Anticipated expiration: 2042-12-26
Also published as: CN115661005A

Abstract

本发明公开了一种定制数字人的生成方法及设备，属于计算机视觉和计算机图形学技术领域，包括步骤：S1，定制数字人视音频数据采集；S2，定制数字人换脸模型优化：将构建换脸模型的源数据与定制的目标数据进行换脸模型的训练，得到优化后的定制角色换脸模型；S3，定制数字人文本转语音模型优化：将构建定制角色的音频数据进行文本转语音模型的调优训练，得到优化后的定制角色文本转语音模型；S4，利用优化后的换脸模型和文本转语音模型，生成定制数字人播报视频。本发明解决了目前高逼真数字人不能高逼真快速定制的技术问题。

Description

一种定制数字人的生成方法及设备

技术领域

本发明涉及计算机视觉和计算机图形学技术领域，更为具体的，涉及一种定制数字人的生成方法及设备。

背景技术

随着数字媒体的快速发展，特别是数字人的制作过程中，高逼真快速定制二维数字人成为非常重要的挑战。传统的基于三维模型进行重建的数字人需要在不同光照条件下采集大量的角色数据用于对角色进行建模，然后在渲染引擎中通过特定的动作捕捉设备、面部捕捉设备等进行姿态和表情的驱动。这个过程中，建模不仅需要耗费大量的算力资源，还可能需要更多的时间进行美术设计从而提高模型的逼真度。另外，通过动捕和面捕来驱动三维数字人在数字人制作的过程中也需要耗费大量的算力资源。

通过AI生成的数字人方法也需要通过采集大量的数据，通过采集不同姿态、语音等数据进行联合训练，从而得到数字人生成模型，再通过语音驱动，表情驱动等方法制作数字人播报视频。然而，这种方法仍然需要数天的时间来制作特定的数字人模型。因此，如何快速的定制数字人成为一个亟需解决的技术问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种定制数字人的生成方法及设备，解决了目前高逼真数字人不能高逼真快速定制的技术问题等。

本发明的目的是通过以下方案实现的：

一种定制数字人的生成方法，包括以下步骤：

S1，定制数字人视音频数据采集；

S2，定制数字人换脸模型优化：将构建换脸模型的源数据与定制的目标数据进行换脸模型的训练，得到优化后的定制角色换脸模型；

S3，定制数字人文本转语音模型优化：将构建定制角色的音频数据进行文本转语音模型的调优训练，得到优化后的定制角色文本转语音模型；

S4，利用优化后的换脸模型和文本转语音模型，生成定制数字人播报视频。

进一步地，在步骤S1中，所述定制数字人视音频数据采集包括子步骤：

S11，对定制角色在选定姿态状态下的视音频进行录制；

S12，通过录制的定制角色的视频，构建用于优化换脸模型的源数据；

S13，通过录制的定制角色的音频，构建用于优化定制角色文本转语音模型的音频数据。

进一步地，在步骤S2中，所述将构建换脸模型的源数据与定制的目标数据进行换脸模型的训练，包括子步骤：

首先构建人脸目标数据集和源数据集，在该数据集上训练得到一个原始换脸模型；

然后利用该原始换脸模型的权重参数作为定制数字人换脸模型的权重初始化参数，结合构建的定制数字人的源数据进行换脸模型的调优训练。

进一步地，在步骤S3中，所述将构建定制角色的音频数据进行文本转语音模型的调优训练，包括子步骤：

首先在文本转语音任务上训练得到一个原始文本转语音模型；

然后利用该原始文本转语音模型的权重参数作为定制数字人文本转语音模型的权重初始化参数，结合构建的定制数字人的音频数据进行文本转语音模型的调优训练。

进一步地，其特征在于，在步骤S4中，所述换脸模型包括口型矫正算法、人脸复原算法、换脸算法；所述文本转语音模型包括文本转语音算法，且在步骤S4中所述利用优化后的换脸模型和文本转语音模型，生成定制数字人播报视频，包括如下子步骤：

S41，将用户输入的文本通过定制角色的文本转语音模型的文本转语音算法转换为语音文件；

S42，将语音文件通过换脸模型的口型矫正算法驱动定制数字人的选定姿态视频得到播报视频；

S43，将原始播报视频通过换脸模型的人脸复原算法进行人脸质量提升；

S44，利用定制角色的换脸模型中的换脸算法对提升后的视频人脸进行换脸，从而得到最终的数字人播报视频。

进一步地，在步骤S11中，所述对定制角色在选定姿态状态下的视音频进行录制，包括子步骤：

S111，在选定场所进行录像机、麦克风设备搭建；

S112，定制角色按照所需播报要求保持选定姿态阅读设定好的文稿，同时录像机和麦克风录制设定时长的视音频并保存为文件。

进一步地，在步骤S42中，所述选定姿态视频被提前录制为相应姿态，同时具备自然的头部和手部动作。

一种定制数字人的生成设备，包括：

数据采集模块，用于定制数字人视音频数据采集；

定制数字人换脸模型优化模块，用于将构建换脸模型的源数据与定制的目标数据进行换脸模型的训练，得到优化后的定制角色换脸模型；

定制数字人文本转语音模型优化模块，用于将构建定制角色的音频数据进行文本转语音模型的调优训练，得到优化后的定制角色文本转语音模型；

定制数字人生成模块，用于利用优化后的换脸模型和文本转语音模型，生成定制数字人播报视频。

进一步地，所述定制数字人换脸模型优化模块包括原始换脸模型构建模块和换脸模型调优训练模块；

所述原始换脸模型构建模块，用于构建人脸目标数据集和源数据集，在该数据集上训练得到一个原始换脸模型；

所述换脸模型调优训练模块，用于利用原始换脸模型的权重参数作为定制数字人换脸模型的权重初始化参数，结合构建的定制数字人的源数据进行换脸模型的调优训练。

进一步地，所述定制数字人生成模块，包括原始文本转语音模型构建模块和文本转语音模型调优训练模块；

所述原始文本转语音模型构建模块，用于在文本转语音任务上训练得到一个原始文本转语音模型；

所述文本转语音模型调优训练模块，用于利用原始文本转语音模型的权重参数作为定制数字人文本转语音模型的权重初始化参数，结合构建的定制数字人的音频数据进行文本转语音模型的调优训练。

本发明的有益效果包括：

本发明能够利用基于定制角色拍摄的视频快速生成高逼真的二维数字人视频。

本发明同时通过利用拍摄到的定制角色视频和音频分别优化训练了定制角色的换脸模型和文本转语音模型，从而实现二维数字人的逼真呈现。

本发明能利用口型矫正算法驱动定制数字人特定姿态下的视频，生成数字人的定制内容播报视频；为了提高播报视频的逼真度，利用人脸复原算法优化生成的播报时候中的人脸；为了进一步的提高逼真度和人脸的自然状态，利用定制数字人的换脸模型对播报视频进行换脸，从而快速生成定制数字人的高逼真播报视频。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供一种高逼真快速定制的二维数字人方法的流程示意图；

图2为本发明实施例中定制数字人换脸模型优化的流程示意图；

图3为本发明实施例中定制数字人文本转语音模型优化的流程示意图；

图4为本发明实施例中利用文本转语音算法、口型矫正算法、人脸复原算法、换脸算法等生成高逼真定制二维数字人播报视频流程示意图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1所示，本发明实施例的一种定制数字人的生成方法，包括如下步骤：

S1，定制数字人视音频数据采集：其中包括对定制角色的视音频录制、定制角色换脸模型的源数据构建以及定制角色的音频数据的构建；

S2，定制数字人换脸模型优化：将构建换脸模型的源数据与定制的大规模目标数据进行换脸模型的训练，得到优化后的定制角色换脸模型；

S4，利用文本转语音算法、口型矫正算法、人脸复原算法、换脸算法等生成高逼真定制二维数字人播报视频。

在实际应用过程中，步骤S1中，所述定制数字人视音频数据采集步骤，具体包括：

S11，对定制角色在特定姿态状态下的视音频进行录制；

在实际应用过程中，步骤S1中，所述定制角色在特定姿态状态下的视频录制步骤，具体包括：

在特定场所（例如简单背景、无噪声音频影响）进行录像机、麦克风等设备搭建；

定制角色按照所需播报要求保持特定姿态（例如站立）阅读设定好的文稿，同时录像机和麦克风录制约五分钟的视音频并保存为文件。

在实际应用过程中，步骤S2中，在执行所述定制数字人换脸模型优化时如图2所示，首先构建了一个大型的换脸模型优化的人脸目标数据集和源数据集，在该数据集上训练得到了一个具有较强泛化能力的原始换脸模型；然后利用该原始换脸模型的权重参数作为定制数字人换脸模型的权重初始化参数，结合构建的定制数字人的源数据进行换脸模型的调优训练，从而得到一个定制数字人的优化后的换脸模型。

在实际应用过程中，步骤S3中，在执行定制数字人文本转语音模型优化时，如图3所示，首先使用在大规模文本转语音任务上训练得到一个具有较强泛化能力的原始的文本转语音模型，然后利用该原始文本转语音模型的权重参数作为定制数字人文本转语音模型的权重初始化参数，结合构建的定制数字人的音频数据进行文本转语音模型的调优训练，从而得到一个定制数字人的优化后的文本转语音模型。

在实际应用过程中，步骤S4中，在利用文本转语音算法、口型矫正算法、人脸复原算法、换脸算法等生成高逼真定制二维数字人播报视频步骤如图4所示，具体包括：

S41，将用户输入的文本通过定制角色的文本转语音模型转换为语音文件；

S42，将语音文件通过口型矫正算法驱动定制数字人的特定姿态视频得到播报视频；

S43，将原始播报视频通过人脸复原算法进行人脸质量提升；

S44，利用定制角色的换脸模型对提升后的视频人脸进行换脸，进一步提升播报视频的人脸质量，从而得到最终的高逼真二维数字人播报视频。

在实际应用过程中，步骤S4中，所述特定姿态视频可以被提前录制为“站播”、“坐播”等姿态，同时具备一定的自然的头部和手部动作，这些姿态动作可根据用于需要在生成高逼真定制二维数字人播报视频时进行设置。

在实际应用过程中，步骤S4中，所述口型矫正算法的模型是在包含普通话、英语语种的大规模单人视频数据集上进行训练得到的；在口型矫正时，通过输入的音频文件和特定姿态动画视频，重新生成与音频相匹配的特定角色的嘴部动画。

在实际应用过程中，步骤S4中，所述人脸复原算法采用生成对抗网络在大规模人脸数据集上进行训练，能最大限度的复原口型矫正算法生成的人脸画面质量。

在实际应用过程中，步骤S4中，所述定制角色的换脸模型用于恢复逼真的人脸画面，进一步提升人脸画面的质量和逼真度。

需要说明的是，在本发明权利要求书中所限定的保护范围内，以下实施例均可以从上述具体实施方式中，例如公开的技术原理，公开的技术特征或隐含公开的技术特征等，以合乎逻辑的任何方式进行组合和/或扩展、替换。

实施例1

一种定制数字人的生成方法，包括以下步骤：

S1，定制数字人视音频数据采集；

实施例2

在实施例1的基础上，在步骤S1中，所述定制数字人视音频数据采集包括子步骤：

S11，对定制角色在选定姿态状态下的视音频进行录制；

实施例3

在实施例1的基础上，在步骤S2中，所述将构建换脸模型的源数据与定制的目标数据进行换脸模型的训练，包括子步骤：

实施例4

在实施例1的基础上，在步骤S3中，所述将构建定制角色的音频数据进行文本转语音模型的调优训练，包括子步骤：

实施例5

在任一实施例1、实施例3、实施例4的基础上，在步骤S4中，所述换脸模型包括口型矫正算法、人脸复原算法、换脸算法；所述文本转语音模型包括文本转语音算法，且在步骤S4中所述利用优化后的换脸模型和文本转语音模型，生成定制数字人播报视频，包括如下子步骤：

实施例6

在实施例2的基础上，在步骤S11中，所述对定制角色在选定姿态状态下的视音频进行录制，包括子步骤：

S111，在选定场所进行录像机、麦克风设备搭建；

实施例7

在实施例5的基础上，在步骤S42中，所述选定姿态视频被提前录制为相应姿态，同时具备自然的头部和手部动作。

实施例8

一种定制数字人的生成设备，包括：

数据采集模块，用于定制数字人视音频数据采集；

实施例9

在实施例8的基础上，所述定制数字人换脸模型优化模块包括原始换脸模型构建模块和换脸模型调优训练模块；

实施例10

在实施例8的基础上，所述定制数字人生成模块，包括原始文本转语音模型构建模块和文本转语音模型调优训练模块；

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本发明实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种定制数字人的生成方法，其特征在于，包括以下步骤：

S1，定制数字人视音频数据采集；

在步骤S1中，所述定制数字人视音频数据采集，包括子步骤：

S11，对定制角色在选定姿态状态下的视音频进行录制；

S13，通过录制的定制角色的音频，构建用于优化定制角色文本转语音模型的音频数据；

在步骤S2中，所述将构建换脸模型的源数据与定制的目标数据进行换脸模型的训练，包括子步骤：

然后利用该原始换脸模型的权重参数作为定制数字人换脸模型的权重初始化参数，结合构建的定制数字人的源数据进行换脸模型的调优训练；

S3，定制数字人文本转语音模型优化：将构建定制角色的音频数据进行文本转语音模型的调优训练，得到优化后的定制角色文本转语音模型；在步骤S3中，所述将构建定制角色的音频数据进行文本转语音模型的调优训练，包括子步骤：

然后利用该原始文本转语音模型的权重参数作为定制数字人文本转语音模型的权重初始化参数，结合构建的定制数字人的音频数据进行文本转语音模型的调优训练；

S4，利用优化后的换脸模型和文本转语音模型，生成定制数字人播报视频，在步骤S4中，所述换脸模型包括口型矫正算法、人脸复原算法、换脸算法；所述文本转语音模型包括文本转语音算法，且在步骤S4中包括如下子步骤：

2.根据权利要求1所述的定制数字人的生成方法，其特征在于，在步骤S11中，所述对定制角色在选定姿态状态下的视音频进行录制，包括子步骤：

S111，在选定场所进行录像机、麦克风设备搭建；

3.根据权利要求1所述的定制数字人的生成方法，其特征在于，在步骤S42中，所述选定姿态视频被提前录制为相应姿态，同时具备自然的头部和手部动作。

4.一种定制数字人的生成设备，其特征在于，该生成设备用于执行如权利要求1所述的定制数字人的生成方法，还包括：

数据采集模块，用于定制数字人视音频数据采集；

5.根据权利要求4所述的定制数字人的生成设备，其特征在于，

所述定制数字人换脸模型优化模块包括原始换脸模型构建模块和换脸模型调优训练模块；

6.根据权利要求4所述的定制数字人的生成设备，其特征在于，

所述定制数字人生成模块，包括原始文本转语音模型构建模块和文本转语音模型调优训练模块；