CN115830193A

CN115830193A - 数字人动画的生成方法、装置、电子设备和存储介质

Info

Publication number: CN115830193A
Application number: CN202211385266.3A
Authority: CN
Inventors: 程平; 吴松城
Original assignee: Xiamen Black Mirror Technology Co ltd
Current assignee: Xiamen Black Mirror Technology Co ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-03-21

Abstract

本发明公开了一种数字人动画的生成方法、装置、电子设备和存储介质，该方法包括：根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列；对各源视频帧中的人脸区域进行3D人脸建模并生成多个第一3D人脸模型；根据目标音频中各音素的时序生成音素序列，并根据各音素的发音时长确定各音素的权重参数；根据音素序列从预设3D人脸模型集合中获取多个第二3D人脸模型；根据时序和各权重参数对各第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像；按时序将各人脸图像分别与各源视频帧进行融合并得到渲染帧序列，根据渲染帧序列和目标音频生成与目标人对应的数字人动画，从而提高了数字人动画中目标人的音频和口型的一致性。

Description

数字人动画的生成方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，更具体地，涉及一种数字人动画的生成方法、装置、电子设备和存储介质。

背景技术

根据一段音频和目标人的视频，生成与该音频同步的目标人说话的数字人动画。这种音频驱动的数字人动画有着广泛的应用，例如，可以应用在数字虚拟人，游戏/动漫角色配音嘴形同步化，音唇同步的语音翻译等场景。

现有技术中，在进行上述数字人动画生成时，需要训练音频到表情参数和姿态参数的映射模型，将音频输入该映射模型得到表情参数和姿态参数，然后将该表情参数和姿态参数替换与源视频帧对应的3D人脸模型的相应参数，再经渲染和融合后生成数字人动画。然而，该映射模型需要大量的数据进行训练，训练成本高，并且，基于该映射模型得到的表情参数和姿态参数受音频特性(音色、强度、噪声等)影响较大，导致音频和口型不同步，进而使生成的数字人动画存在严重失真。

因此，如何提高数字人动画中目标人的音频和口型的一致性，是目前有待解决的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例提供一种数字人动画的生成方法、装置、电子设备和存储介质，用以提高数字人动画中目标人的音频和口型的一致性。

第一方面，提供一种数字人动画的生成方法，所述方法包括：

根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列，所述源视频帧序列由多个源视频帧组成；

基于预设3D人脸重建算法对各所述源视频帧中的人脸区域进行3D人脸建模并生成由多个第一3D人脸模型组成的第一模型序列；

根据所述目标音频中各音素的时序生成音素序列，并根据各所述音素的发音时长确定各所述音素的权重参数；

根据所述音素序列从预设3D人脸模型集合中获取多个第二3D人脸模型并生成第二模型序列；

根据所述时序和各所述权重参数对各所述第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像，所述第三3D人脸模型是将所述第一3D人脸模型的表情参数置零后生成的；

按所述时序将各所述人脸图像分别与各所述源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，根据所述渲染帧序列和所述目标音频生成与所述目标人对应的数字人动画；

其中，所述预设3D人脸模型集合是预先根据各所述第一3D人脸模型的口型从预设音素库中筛选出的，所述预设音素库是根据不同音素和不同口型3D人脸模型之间的对应关系建立的。

在一些实施例中，所述根据所述时序和各所述权重参数对各所述第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像，具体包括：

根据所述时序将各所述第二3D人脸模型和各所述第三3D人脸模型融合得到由多个第四3D人脸模型组成的第三模型序列；

按预设帧数对各所述音素的发音起始点和发音结束点进行扩展，以在所述音素序列中每两个相邻音素之间形成重叠区间；

按照所述权重参数将与各所述重叠区间对应的两种第四3D人脸模型的参数进行均值加权融合，并得到多个第五3D人脸模型；

按所述时序将各所述第五3D人脸模型插入所述第三模型序列并得到第四模型序列，基于所述第四模型序列渲染出多个所述人脸图像。

在一些实施例中，在按所述时序将各所述第五3D人脸模型插入所述第三模型序列并得到第四模型序列之后，所述方法还包括：

基于预设滤波算法对所述第四模型序列进行滤波处理。

在一些实施例中，所述基于预设滤波算法对所述第四模型序列进行滤波处理，具体包括：

对所述第四模型序列中的各所述第五3D人脸模型和各所述第四3D人脸模型进行多项式曲线拟合，以使所述第四模型序列中每个3D人脸模型与相邻3D人脸模型之间表情参数的变化量满足预设条件。

在一些实施例中，所述按所述时序将各所述人脸图像分别与各所述源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，具体包括：

按预设检测位置分别从所述人脸图像和各所述源视频帧中的真实人脸图像检测出多个关键点；

以所述真实人脸图像中的各关键点为基准，对所述人脸图像进行仿射变换处理；

按所述时序将经过仿射变换处理后的各人脸图像分别与各所述真实人脸图像进行贴合，并得到由多个所述渲染帧组成的渲染帧序列。

在一些实施例中，在根据所述目标音频中各音素的时序生成音素序列，并根据各所述音素的发音时长确定各所述音素的权重参数之前，所述方法还包括：

基于预设语音识别算法对所述目标音频进行语音识别，并根据语音识别结果获取文本数据和与所述文本数据对应的时间戳信息；

根据与所述文本数据对应的拼音信息和所述时间戳信息确定各所述音素和各所述发音时长。

在一些实施例中，所述根据所述渲染帧序列和所述目标音频生成与所述目标人对应的数字人动画，具体包括：

将各所述渲染帧输入预设图像转换模型，并根据所述预设图像转换模型输出的各目标视频帧生成目标视频帧序列；

将所述目标音频和所述目标视频帧序列进行合成处理并生成所述数字人动画；

其中，所述预设图像转换模型是预先基于所述渲染帧和与所述渲染帧对应的源视频帧对预设生成对抗模型进行训练后生成的。

第二方面，提供一种数字人动画的生成装置，所述装置包括：

获取模块，用于根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列，所述源视频帧序列由多个源视频帧组成；

第一生成模块，用于基于预设3D人脸重建算法对各所述源视频帧中的人脸区域进行3D人脸建模并生成由多个第一3D人脸模型组成的第一模型序列；

确定模块，用于根据所述目标音频中各音素的时序生成音素序列，并根据各所述音素的发音时长确定各所述音素的权重参数；

第二生成模块，用于根据所述音素序列从预设3D人脸模型集合中获取多个第二3D人脸模型并生成第二模型序列；

融合渲染模块，用于根据所述时序和各所述权重参数对各所述第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像，所述第三3D人脸模型是将所述第一3D人脸模型的表情参数置零后生成的；

第三生成模块，用于按所述时序将各所述人脸图像分别与各所述源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，根据所述渲染帧序列和所述目标音频生成与所述目标人对应的数字人动画；

第三方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行如第一方面所述数字人动画的生成方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述数字人动画的生成方法。

通过应用以上技术方案，根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列，源视频帧序列由多个源视频帧组成；基于预设3D人脸重建算法对各源视频帧中的人脸区域进行3D人脸建模并生成由多个第一3D人脸模型组成的第一模型序列；根据目标音频中各音素的时序生成音素序列，并根据各音素的发音时长确定各音素的权重参数；根据音素序列从预设3D人脸模型集合中获取多个第二3D人脸模型并生成第二模型序列；根据时序和各权重参数对各第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像，第三3D人脸模型是将第一3D人脸模型的表情参数置零后生成的；按时序将各人脸图像分别与各源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，根据渲染帧序列和目标音频生成与目标人对应的数字人动画。通过根据音素序列从预设3D人脸模型集合中获取与音素相关的3D人脸模型，可以在不考虑大规模数据训练的前提下，生成比较精准的口型效果，从而提高了数字人动画中目标人的音频和口型的一致性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种数字人动画的生成方法的流程示意图；

图2示出了本发明实施例中将各第二3D人脸模型和各第三3D人脸模型融合及渲染的流程示意图；

图3示出了本发明实施例中将人脸图像与源视频帧融合的流程示意图；

图4示出了本发明另一实施例提出的一种数字人动画的生成方法的原理示意图；

图5示出了本发明实施例提出的一种数字人动画的生成装置的结构示意图；

图6示出了本发明实施例提出的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求部分指出。

应当理解的是，本申请并不局限于下面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

下面结合图1-图3来描述根据本申请示例性实施方式的数字人动画的生成方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

本申请实施例提供一种数字人动画的生成方法，如图1所示，该方法包括以下步骤：

步骤S101，根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列，所述源视频帧序列由多个源视频帧组成。

本实施例中，目标音频可以是预先录制的语音音频，也可以是自然人说话的自然语音音频，还可以是根据预设语音合成算法将输入的文本信息进行语音合成后得到的语音音频。相应的，可通过接收用户输入的一段预先录制的语音音频，并将其作为目标音频；或者对自然人说话的自然语音音频进行接收和存储并作为目标音频；或者接收用户输入的文本信息，基于预设语音合成算法将该文本信息进行语音合成后得到目标音频。

目标人的真实说话视频可以是用户输入的一段视频，也可以是实时录制一段的目标人说话时的视频。为了获得较好的效果，在本申请具体的应用场景中，目标人的真实说话视频的时长应当不小于预设时长，如2分钟。

根据目标音频的时长可以确定待生成的数字人动画的帧数，根据该帧数从目标人的真实说话视频中获取多个源视频帧，并基于多个源视频帧组成源视频帧序列。为了获得较好的效果，在本申请具体的应用场景中，各源视频帧中均包括完整的人脸图像。

可选的，目标音频的格式可以为包括mp3、wma、aac、ogg、mpc、flac、ape等格式中的任一种，目标人的真实说话视频的格式可以为包括wmv、asf、asx、rm、rmvb、mpg、mpeg、mpe、3gp、mov、mp4、m4v、avi、dat、mkv、flv、vob等格式中的任一种，本领域技术人员可根据实际需要灵活选用。

步骤S102，基于预设3D人脸重建算法对各所述源视频帧中的人脸区域进行3D人脸建模并生成由多个第一3D人脸模型组成的第一模型序列。

本实施例中，可以先基于人脸检测技术从源视频帧中获取人脸区域，然后基于预设3D人脸重建算法对各人脸区域进行3D人脸建模，得到多个第一3D人脸模型并组成第一模型序列。

可选的，预设3D人脸重建算法可以为3DMM(3D Morphable Face Model，人脸3D形变统计模型)，3DMM是一种比较基础的三维人脸统计模型，可基于一组人脸形状和纹理的统计模型来表示任意一张人脸。每个第一3D人脸模型表征了一组3DMM参数，该3DMM参数可包括形状参数、纹理参数、亮度参数、表情参数和姿态参数等。预设3D人脸重建算法还可以是DECA(Detailed Expression Capture and Animation，详细表情捕捉和动画)，DECA能够从由特定人的细节参数和通用表情参数组成的低维潜在表示中稳健地生成UV位移map，而回归器经过训练，能够从单张图片中预测细节、形状、反照率、表情、姿势和照明参数。本领域技术人员还可根据实际需要采用其他类型的预设3D人脸重建算法进行人脸重建，这并不影响本申请的保护范围。

步骤S103，根据所述目标音频中各音素的时序生成音素序列，并根据各所述音素的发音时长确定各所述音素的权重参数。

本实施例中，音素是构成音节的最小语音单位，任意一段音频都是有限种音素组合而成。可根据目标音频中各音素的时序生成音素序列，每个音素可对应一个发音时长，根据发音时长为每个音素确定一个权重参数，该权重参数的值可以为根据声母和韵母的发音规则设置的经验值，从而可更加符合汉语的发音规则。

举例来说，文本“波”字所对应的拼音为“bo”，其起止时间戳为time1和time2。可以将“bo”转化成音素“b”和“o”。则音素“b”和“o”所持续的发音时长分别为(time2-time1)*w1，(time2-time1)*w2。这里w1和w2为两个音素在语音中持续时间的权重参数。

在本申请一些实施例中，在根据所述目标音频中各音素的时序生成音素序列，并根据各所述音素的发音时长确定各所述音素的权重参数之前，所述方法还包括：

本实施例中，基于预设语音识别算法对目标音频进行语音识别，可以获取对应的文本数据和与文本数据对齐的时间戳信息，然后将文本数据转换为对应的拼音信息，基于该拼音信息和时间戳信息可确定各音素和各发音时长，从而可获得更加准确的音素序列和权重参数。

可以理解的是，若目标音频为除汉语以外的其他语言的音频时，由于不存在拼音信息，可根据与所述文本数据对应的单词发音信息和所述时间戳信息确定各所述音素和各所述发音时长。

步骤S104，根据所述音素序列从预设3D人脸模型集合中获取多个第二3D人脸模型并生成第二模型序列。

本实施例中，预先根据不同音素和不同口型3D人脸模型之间的对应关系建立了预设音素库，该预设音素库包括了不同口型的3d人脸模型，每种3d人脸模型可对应一种音素。在执行步骤S102之后，根据各第一3D人脸模型的口型从预设音素库中筛选出一组3D人脸模型作为预设3D人脸模型集合，由于目标人的真实说话视频满足一定长度，该预设3D人脸模型集合可涵盖多种不同音素对应的3D人脸模型。根据音素序列从预设3D人脸模型集合中筛选与各音素对应的3D人脸模型，从而获取多个第二3D人脸模型，并生成第二模型序列。

步骤S105，根据所述时序和各所述权重参数对各所述第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像，所述第三3D人脸模型是将所述第一3D人脸模型的表情参数置零后生成的。

本实施例中，先将第一3D人脸模型的表情参数置零并生成第三3D人脸模型，以去除第一3D人脸模型的表情及口型，然后将根据时序和各权重参数对各第二3D人脸模型和各第三3D人脸模型进行融合，再渲染出多个人脸图像。

在本申请一些实施例中，所述根据所述时序和各所述权重参数对各所述第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像，如图2所示，具体包括以下步骤：

步骤S1051，根据所述时序将各所述第二3D人脸模型和各所述第三3D人脸模型融合得到由多个第四3D人脸模型组成的第三模型序列。

本实施例中，根据时序将各第二3D人脸模型和各第三3D人脸模型依次融合，得到多个按时序排列的第四3D人脸模型并形成第三模型序列。可以理解的是，将各第二3D人脸模型和各第三3D人脸模型融合是指将对应的模型参数进行融合，具体的融合过程对于本领域技术人员是显而易见的，在此不再赘述。

步骤S1052，按预设帧数对各所述音素的发音起始点和发音结束点进行扩展，以在所述音素序列中每两个相邻音素之间形成重叠区间。

本实施例中，为了实现更加符合正常人说话的口型动作效果，需要对各音素的发音进行扩展，具体的，按预设帧数对各音素的发音起始点和发音结束点进行扩展，从而在音素序列中每两个相邻音素之间形成重叠区间，其中，预设帧数可以是一帧或多帧。

举例来说，音素“b”在一段语音中持续的范围为第n到第n+5帧，音素“o”在语音中的持续范围为第n+6至n+12帧，则可以将音素“b”的范围设为第n-1到第n+6帧，将音素“o”的范围设为第n+5到第n+13帧，这样保证了两个音素在n+5和n+6这两帧实现重合，形成重叠区间。

步骤S1053，按照所述权重参数将与各所述重叠区间对应的两种第四3D人脸模型的参数进行均值加权融合，并得到多个第五3D人脸模型。

本实施例中，每个重叠区间对应相邻的两个音素，每个音素对应一种第四3D人脸模型，因此每个重叠区间对应两种第四3D人脸模型，按权重参数对每种第四3D人脸模型的参数进行均值加权融合后得到一个第五3D人脸模型，该第五3D人脸模型可作为两个相邻音素的过渡，多个重叠区间可对应得到多个第五3D人脸模型。

步骤S1054，按所述时序将各所述第五3D人脸模型插入所述第三模型序列并得到第四模型序列，基于所述第四模型序列渲染出多个所述人脸图像。

本实施例中，按时序将各第五3D人脸模型插入第三模型序列中各重叠区间对应位置，并得到第四模型序列，然后将各第四模型序列中各3D模型进行渲染，从而得到多个人脸图像。

通过将各相邻音素对应的第四3D人脸模型间插入作为过渡的第五3D人脸模型，确保了音素之间良好的衔接。

在本申请一些实施例中，在按所述时序将各所述第五3D人脸模型插入所述第三模型序列并得到第四模型序列之后，所述方法还包括：

基于预设滤波算法对所述第四模型序列进行滤波处理。

本实施例中，通过预设滤波算法对所述第四模型序列进行滤波处理，可以使第四模型序列更加符合正常说话的口型连贯性和整体性。

在本申请一些实施例中，所述基于预设滤波算法对所述第四模型序列进行滤波处理，具体包括：

本实施例中，对所述第四模型序列中的各所述第五3D人脸模型和各所述第四3D人脸模型进行多项式曲线拟合，重构每一帧的表情参数，使每个3D人脸模型与相邻3D人脸模型之间的表情参数的变化量满足预设条件，预设条件可以为变化量小于预设变化量，从而可以滤除口型变化幅度较大的抖动帧，避免所生成的数字人动画中出现口型突然变化的情况。

本领域技术人员还可根据实际需要采用其他类型的滤波算法，如对各第五3D人脸模型的参数和各第四3D人脸模型的参数在时间窗口上进行中值滤波或高斯滤波等，从而可过滤掉一些异常数据。

步骤S106，按所述时序将各所述人脸图像分别与各所述源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，根据所述渲染帧序列和所述目标音频生成与所述目标人对应的数字人动画。

本实施例中，由于各人脸图像中不包含头发和背景信息，需要将各人脸图像与各源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，以对人脸图像增加头发和背景信息，然后根据渲染帧序列和目标音频可生成与目标人对应的数字人动画。

二维人脸图像经过3D重建后的模型再渲染成二维人脸图像的过程中，由于经过2D到3D的映射和拟合，难免存在一定程度的误差，所以将渲染的人脸图先和真实人脸图像直接进行贴合就会导致面部的错位和失真，在视频中就表现为抖动，为了解决这一问题，在本申请一些实施例中，所述按所述时序将各所述人脸图像分别与各所述源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，如图3所示，具体包括以下步骤：

步骤S1061，按预设检测位置分别从所述人脸图像和各所述源视频帧中的真实人脸图像检测出多个关键点。

本实施例中，按预设检测位置分别对人脸图像和各源视频帧中的真实人脸图像进行关键点检测，并得到多个关键点。

可选的，可将人脸图像和真实人脸图像中与眼睛、鼻子等相对稳定部位对应的多个位置作为预设检测位置，本领域技术人员可灵活设置不同数量的预设检测位置，如68、106等。

步骤S1062，以所述真实人脸图像中的各关键点为基准，对所述人脸图像进行仿射变换处理。

本实施例中，仿射变换是一种二维坐标到二维坐标之间的线性变换，可保持二维图形的“平直性”和“平行性”。以真实人脸图像中的各关键点为基准，计算出仿射变换中旋转、平移和缩放的参数，基于该旋转、平移和缩放的参数完成对人脸图像的仿射变换处理。

步骤S1063，按所述时序将经过仿射变换处理后的各人脸图像分别与各所述真实人脸图像进行贴合，并得到由多个所述渲染帧组成的渲染帧序列。

本实施例中，由于基于多个关键点对人脸图像进行了仿射变换处理，从而可与各真实人脸图像进行准确贴合，可有效避免后续生成的数字人动画中出现面部抖动的现象。

在本申请一些实施例中，所述根据所述渲染帧序列和所述目标音频生成与所述目标人对应的数字人动画，具体包括：

本实施例中，为了使各所述渲染帧与源视频帧中的图像更加接近，需要进一步进行优化，该预设图像转换模型是基于渲染帧和与渲染帧对应的源视频帧对预设生成对抗模型进行训练后生成，将各渲染帧输入预设图像转换模型进行优化，预设图像转换模型可输出优化后的目标视频帧序列，再将目标音频和目标视频帧序列进行合成处理，最后可生成口型精准，无抖动的目标人的数字人动画。

可选的，预设生成对抗模型可以为Memory Gan模型，该Memory Gan模型包括生成器、判别器和记忆网络。

可选的，将目标音频和目标视频帧序列进行合成处理可通过FFmpeg(FastForward Mpeg)编码实现。

通过应用以上技术方案，根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列，源视频帧序列由多个源视频帧组成；基于预设3D人脸重建算法对各源视频帧中的人脸区域进行3D人脸建模并生成由多个第一3D人脸模型组成的第一模型序列；根据目标音频中各音素的时序生成音素序列，并根据各音素的发音时长确定各音素的权重参数；根据音素序列从预设3D人脸模型集合中获取多个第二3D人脸模型并生成第二模型序列；根据时序和各权重参数对各第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像，第三3D人脸模型是将第一3D人脸模型的表情参数置零后生成的；按时序将各人脸图像分别与各源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，根据渲染帧序列和目标音频生成与目标人对应的数字人动画；通过根据音素序列从预设3D人脸模型集合中获取与音素相关的3D人脸模型，可以在不考虑大规模数据训练的前提下，生成比较精准的口型效果，从而提高了数字人动画中目标人的音频和口型的一致性。

为了进一步阐述本发明的技术思想，现结合具体的应用场景，对本发明的技术方案进行说明。

本申请实施例提供一种数字人动画的生成方法，如图4所示，包括以下过程：

步骤1、获取目标音频和目标人的真实说话视频，根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列，同时根据目标音频中各音素的时序生成音素序列；

步骤2、基于3DMM算法对各源视频帧中的人脸区域进行3D人脸建模，根据建立的3D人脸模型(即第一3D人脸模型)从预设音素库中筛选出预设3D人脸模型集合；

步骤3、根据各音素的发音时长确定各音素的权重参数；

步骤4、根据音素序列从预设3D人脸模型集合中获取基于音素的3D人脸模型(即第二3D人脸模型)；

步骤5、将源视频帧的3D人脸模型参数中的表情参数置零，得到无表情的3D人脸模型(即第三3D人脸模型)；

步骤6、将步骤4中的基于音素的3D人脸模型和步骤5中的源视频帧的无表情3D人脸模型按照时序和各权重参数进行加权融合，得到新的3D人脸模型(即第四模型序列中的3D人脸模型)；

具体的，加权融合的过程可参考上述步骤S1051-步骤S1054，在此不再赘述。

步骤7、将新的3D人脸模型经过渲染并与源视频帧融合得到渲染帧；

具体的，获取将新的3D人脸模型经过渲染后的人脸图像，以及源视频帧中的真实人脸图像，按眼睛和鼻子处的预设检测位置分别从人脸图像和各真实人脸图像检测出多个关键点；以真实人脸图像中的各关键点为基准，对人脸图像进行仿射变换处理；按时序将经过仿射变换处理后的各人脸图像分别与各真实人脸图像进行贴合，得到渲染帧。

步骤8、将步骤7的渲染帧输入训练好的Memory Gan模型，就可以得到优化后视频帧；

步骤9、将优化后视频帧与目标音频通过FFmpeg编码合成处理得到与目标人对应的数字人动画。

通过应用以上技术方案，通过根据音素序列从预设3D人脸模型集合中获取与音素相关的3D人脸模型，可以在不考虑大规模数据训练的前提下，生成比较精准的口型效果，并且由于基于多个关键点对人脸图像进行了仿射变换处理，从而可与各真实人脸图像进行准确贴合，可有效避免后续生成的数字人动画中出现面部抖动的现象。

本申请实施例还提出了一种数字人动画的生成装置，如图5所示，所述装置包括：

获取模块501，用于根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列，所述源视频帧序列由多个源视频帧组成；

第一生成模块502，用于基于预设3D人脸重建算法对各所述源视频帧中的人脸区域进行3D人脸建模并生成由多个第一3D人脸模型组成的第一模型序列；

确定模块503，用于根据所述目标音频中各音素的时序生成音素序列，并根据各所述音素的发音时长确定各所述音素的权重参数；

第二生成模块504，用于根据所述音素序列从预设3D人脸模型集合中获取多个第二3D人脸模型并生成第二模型序列；

融合渲染模块505，用于根据所述时序和各所述权重参数对各所述第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像，所述第三3D人脸模型是将所述第一3D人脸模型的表情参数置零后生成的；

第三生成模块506，用于按所述时序将各所述人脸图像分别与各所述源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，根据所述渲染帧序列和所述目标音频生成与所述目标人对应的数字人动画；

在具体的应用场景中，融合渲染模块505，具体用于：

在具体的应用场景中，所述装置还包括滤波模块，用于：

基于预设滤波算法对所述第四模型序列进行滤波处理。

在具体的应用场景中，所述滤波模块，具体用于：

在具体的应用场景中，第三生成模块506，具体用于：

在具体的应用场景中，所述确定模块，还用于：

在具体的应用场景中，第三生成模块506，还具体用于：

通过应用以上技术方案，数字人动画的生成装置包括：获取模块，用于根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列，源视频帧序列由多个源视频帧组成；第一生成模块，用于基于预设3D人脸重建算法对各源视频帧中的人脸区域进行3D人脸建模并生成由多个第一3D人脸模型组成的第一模型序列；确定模块，用于根据目标音频中各音素的时序生成音素序列，并根据各音素的发音时长确定各音素的权重参数；第二生成模块，用于根据音素序列从预设3D人脸模型集合中获取多个第二3D人脸模型并生成第二模型序列；融合渲染模块，用于根据时序和各权重参数对各第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像，第三3D人脸模型是将第一3D人脸模型的表情参数置零后生成的；第三生成模块，用于按时序将各人脸图像分别与各源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，根据渲染帧序列和目标音频生成与目标人对应的数字人动画，通过根据音素序列从预设3D人脸模型集合中获取与音素相关的3D人脸模型，可以在不考虑大规模数据训练的前提下，生成比较精准的口型效果，从而提高了数字人动画中目标人的音频和口型的一致性。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存储处理器的可执行指令；

处理器601，被配置为经由执行所述可执行指令来执行：

上述通信总线可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括非易失性存储器，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的数字人动画的生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上所述的数字人动画的生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数字人动画的生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述时序和各所述权重参数对各所述第二3D人脸模型和各第三3D人脸模型进行融合并渲染出多个人脸图像，具体包括：

3.如权利要求2所述的方法，其特征在于，在按所述时序将各所述第五3D人脸模型插入所述第三模型序列并得到第四模型序列之后，所述方法还包括：

基于预设滤波算法对所述第四模型序列进行滤波处理。

4.如权利要求3所述的方法，其特征在于，所述基于预设滤波算法对所述第四模型序列进行滤波处理，具体包括：

5.如权利要求1所述的方法，其特征在于，所述按所述时序将各所述人脸图像分别与各所述源视频帧进行融合并得到由多个渲染帧组成的渲染帧序列，具体包括：

6.如权利要求1所述的方法，其特征在于，在根据所述目标音频中各音素的时序生成音素序列，并根据各所述音素的发音时长确定各所述音素的权重参数之前，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，所述根据所述渲染帧序列和所述目标音频生成与所述目标人对应的数字人动画，具体包括：

8.一种数字人动画的生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～7中任意一项所述数字人动画的生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任意一项所述数字人动画的生成方法。