CN115914505A

CN115914505A - 基于语音驱动数字人模型的视频生成方法及系统

Info

Publication number: CN115914505A
Application number: CN202310018537.XA
Authority: CN
Inventors: 刘云飞; 李昱; 周昌印; 余飞
Original assignee: Hangzhou Gaishi Technology Co ltd; International Digital Economy Academy IDEA
Current assignee: Hangzhou Gaishi Technology Co ltd; International Digital Economy Academy IDEA
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-04-04
Anticipated expiration: 2043-01-06
Also published as: CN115914505B

Abstract

本发明公开了一种基于语音驱动数字人模型的视频生成方法及系统，方法包括：获取驱动对象的驱动语音、权限验证信息及被驱动对象；权限验证信息满足被驱动对象的权限验证条件时获取被驱动对象的数字人模型和参考图像；根据数字人模型获取被驱动对象对应的面部特征，根据驱动语音和面部特征获取多组人像参数，根据人像参数和面部特征生成多个人像表征向量；获取各人像表征向量的时序位置编码，根据参考图像、各人像表征向量以及各时序位置编码，通过已训练的神经网络生成器生成各人像表征向量对应的一帧被驱动图像，并生成被驱动视频，被驱动视频中被驱动对象的嘴部动作与驱动语音匹配。本发明有利于提高语音驱动的视频的生成效果和展示效果。

Description

基于语音驱动数字人模型的视频生成方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及的是一种基于语音驱动数字人模型的视频生成方法及系统。

背景技术

随着科学技术的发展，尤其是图像处理和视频处理技术的发展，用户对于图像处理和视频处理的要求也越来越高。例如，一种需求为由第一用户进行讲话，以驱动第二用户的脸进行同样的讲话，即生成第二用户进行同样讲话的视频。

现有技术中，通常拍摄第一用户和第二用户的讲话视频，然后对视频进行逐帧处理，对于视频中的每一帧图像，将第一用户和第二用户的图像中嘴部区域进行截取和替换。现有技术的问题在于，必须采集第一用户对应的视频，无法直接通过采集的语音实现视频生成，不利于提高视频生成的便利性。同时，直接对两个用户的图像（或视频）进行嘴部区域的替换，替换后的第二用户所对应的图像中的嘴部区域的图像实际仍是第一用户的嘴部区域的图像，实际上没有达到用第一用户的语音驱动第二用户进行同样讲话的目的，不利于提高语音驱动的视频的生成效果。并且，直接替换后生成的第二用户对应的视频中嘴部区域与脸部其它区域并不能很好的匹配，即不利于提高生成的视频的展示效果。

因此，现有技术还有待改进和发展。

发明内容

本发明的主要目的在于提供一种基于语音驱动数字人模型的视频生成方法及系统，旨在解决现有技术中只通过对两个用户的视频中每一帧图像中嘴部区域进行截取和替换的视频处理方案不利于提高视频生成的便利性，且不利于提高语音驱动的视频的生成效果和展示效果的问题。

为了实现上述目的，本发明第一方面提供一种基于语音驱动数字人模型的视频生成方法，其中，上述基于语音驱动数字人模型的视频生成方法包括：

获取驱动对象的驱动语音、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象；

当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的数字人模型和参考图像；

根据上述数字人模型获取上述被驱动对象对应的面部特征，根据上述驱动语音和上述面部特征获取多组人像参数，根据上述人像参数和上述面部特征生成多个人像表征向量，其中，一组上述人像参数与上述驱动语音的一个时刻对应，一个上述人像表征向量与一组上述人像参数对应；

获取各上述人像表征向量对应的时序位置编码，根据上述参考图像、各上述人像表征向量以及各上述时序位置编码，通过已训练的神经网络生成器分别生成各上述人像表征向量对应的一帧被驱动图像，并根据上述被驱动图像生成被驱动视频，其中，上述被驱动视频中上述被驱动对象的嘴部动作与上述驱动语音匹配。

可选的，上述根据上述驱动语音和上述面部特征获取多组人像参数，根据上述人像参数和上述面部特征生成多个人像表征向量，包括：

根据上述驱动语音提取获得多个时刻对应的语音信息；

根据上述语音信息和上述面部特征获取多个参数估计数据，其中，一个参数估计数据包括上述面部特征和一个时刻对应的语音信息；

分别将各上述参数估计数据输入已训练的语音驱动数字化身参数估计神经网络以分别获取各上述参数估计数据对应的一组人像参数；

根据上述人像参数和上述面部特征，分别生成各组上述人像参数对应的人像表征向量。

可选的，上述人像参数包括人脸关键点参数、肩部关键点参数和头部姿态。

可选的，上述语音驱动数字化身参数估计神经网络根据如下步骤进行训练：

将参数估计训练数据中的训练参数估计数据输入上述语音驱动数字化身参数估计神经网络，通过上述语音驱动数字化身参数估计神经网络生成上述训练参数估计数据对应的训练人像参数，其中，上述参数估计训练数据包括多组参数估计训练信息组，每一组参数估计训练信息组包括训练参数估计数据和标注人像参数；

根据上述训练人像参数和上述标注人像参数，对上述语音驱动数字化身参数估计神经网络的网络参数进行调整，并继续执行上述将参数估计训练数据中的训练参数估计数据输入上述语音驱动数字化身参数估计神经网络的步骤，直至满足第一预设训练条件，以得到已训练的语音驱动数字化身参数估计神经网络。

可选的，上述根据上述人像参数和上述面部特征，分别生成各组上述人像参数对应的人像表征向量，包括：

根据所有上述人脸关键点参数和上述面部特征获取多个待优化数据，其中，一个上述待优化数据包括上述面部特征和一个上述人脸关键点参数；

分别将各上述待优化数据输入已训练的三维关键点调优神经网络以分别获取各上述待优化数据对应的人脸网格点优化数据；

根据各组对应的人脸网格点优化数据、肩部关键点参数和头部姿态分别获取各上述人像表征向量。

可选的，任意一个人像表征向量根据如下步骤获得：

获取一组对应的人脸网格点优化数据、肩部关键点参数和头部姿态；

根据预设的投影函数对第一乘积进行投影获得面部二维图像表征向量，其中，上述第一乘积由上述人脸网格点优化数据和上述头部姿态点乘获得；

根据上述投影函数对上述肩部关键点进行投影获得肩部二维图像表征向量；

将上述面部二维图像表征向量和上述肩部二维图像表征向量相加获得上述人像表征向量。

可选的，上述三维关键点调优神经网络根据如下步骤进行训练：

将调优训练数据中的训练待优化数据输入上述三维关键点调优神经网络，通过上述三维关键点调优神经网络生成上述训练待优化数据对应的训练人脸网格点优化数据，其中，上述调优训练数据包括多组调优训练信息组，每一组调优训练信息组包括训练待优化数据和标注人脸网格点优化数据；

根据上述训练人脸网格点优化数据和上述标注人脸网格点优化数据，对上述三维关键点调优神经网络的网络参数进行调整，并继续执行上述将调优训练数据中的训练待优化数据输入上述三维关键点调优神经网络的步骤，直至满足第二预设训练条件，以得到已训练的三维关键点调优神经网络。

可选的，上述神经网络生成器根据如下步骤进行训练：

将第三训练数据中的训练参考图像、训练人像表征向量和训练时序位置编码输入上述神经网络生成器，通过上述神经网络生成器生成对应的一帧训练被驱动图像，其中，上述第三训练数据包括多组第三训练信息组，每一组第三训练信息组包括训练参考图像、训练人像表征向量、训练时序位置编码和训练真实图像，上述训练人像表征向量根据上述训练真实图像获得；

根据上述训练被驱动图像和上述训练真实图像，对上述神经网络生成器的网络参数进行调整，并继续执行上述将第三训练数据中的训练参考图像、训练人像表征向量和训练时序位置编码输入上述神经网络生成器的步骤，直至满足第三预设训练条件，以获得已训练的神经网络生成器。

可选的，上述参考图像用于为上述已训练的神经网络生成器提供上述被驱动对象对应的图像纹理细节，上述被驱动图像与上述参考图像的图像纹理细节相同，上述时序位置编码用于为上述已训练的神经网络生成器提供时间信息。

本发明第二方面提供一种基于语音驱动数字人模型的视频生成系统，其中，上述基于语音驱动数字人模型的视频生成系统包括：

数据获取模块，用于获取驱动对象的驱动语音、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象；

权限验证模块，用于当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的数字人模型和参考图像；

数据处理模块，用于根据上述数字人模型获取上述被驱动对象对应的面部特征，根据上述驱动语音和上述面部特征获取多组人像参数，根据上述人像参数和上述面部特征生成多个人像表征向量，其中，一组上述人像参数与上述驱动语音的一个时刻对应，一个上述人像表征向量与一组上述人像参数对应；

视频生成模块，用于获取各上述人像表征向量对应的时序位置编码，根据上述参考图像、各上述人像表征向量以及各上述时序位置编码，通过已训练的神经网络生成器分别生成各上述人像表征向量对应的一帧被驱动图像，并根据上述被驱动图像生成被驱动视频，其中，上述被驱动视频中上述被驱动对象的嘴部动作与上述驱动语音匹配。

本发明第三方面提供一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的基于语音驱动数字人模型的视频生成程序，上述基于语音驱动数字人模型的视频生成程序被上述处理器执行时实现上述任意一种基于语音驱动数字人模型的视频生成方法的步骤。

本发明第四方面提供一种计算机可读存储介质，上述计算机可读存储介质上存储有基于语音驱动数字人模型的视频生成程序，上述基于语音驱动数字人模型的视频生成程序被处理器执行时实现上述任意一种基于语音驱动数字人模型的视频生成方法的步骤。

由上可见，本发明方案中，获取驱动对象的驱动语音、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象；当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的数字人模型和参考图像；根据上述数字人模型获取上述被驱动对象对应的面部特征，根据上述驱动语音和上述面部特征获取多组人像参数，根据上述人像参数和上述面部特征生成多个人像表征向量，其中，一组上述人像参数与上述驱动语音的一个时刻对应，一个上述人像表征向量与一组上述人像参数对应；获取各上述人像表征向量对应的时序位置编码，根据上述参考图像、各上述人像表征向量以及各上述时序位置编码，通过已训练的神经网络生成器分别生成各上述人像表征向量对应的一帧被驱动图像，并根据上述被驱动图像生成被驱动视频，其中，上述被驱动视频中上述被驱动对象的嘴部动作与上述驱动语音匹配。

与现有技术中相比，本发明方案并不需要采集驱动对象对应的视频，而只需要采集驱动对象的驱动语音，有利于提高视频生成的便利性。同时，本发明方案并不是简单的进行嘴部区域图像的替换，而是根据驱动语音和被驱动对象对应的面部特征，获得各个时刻的人像参数及其对应的人像表征向量，然后根据时序位置编码、参考图像和人像表征向量，通过已训练的神经网络生成器生成各帧的被驱动图像并最终获得被驱动视频。

可见，被驱动视频并不是通过简单的嘴部区域图像替换获得的，而是将被驱动对象的面部特征、被驱动对象的参考图像和驱动对象对应的语音信息等数据进行融合后生成的。可以实现由被驱动对象进行与驱动对象相同的讲话，且被驱动图像中的五官特征、纹理细节等都由被驱动对象提供，不会错误地保留驱动对象原有的实际纹理或实际嘴部图像，有利于获得更好的被驱动视频，提高语音驱动的视频的生成效果和展示效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于语音驱动数字人模型的视频生成方法的流程示意图；

图2是本发明实施例提供的一种基于语音驱动数字人模型的视频生成方法的具体流程示意图；

图3是本发明实施例提供的一种神经网络生成器的训练过程示意图；

图4是本发明实施例提供的一种基于语音驱动数字人模型的视频生成系统的结构示意图；

图5是本发明实施例提供的一种智能终端的内部结构原理框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

现有技术中，通常拍摄第一用户和第二用户的讲话视频，然后对视频进行逐帧处理，对于视频中的每一帧图像，将第一用户和第二用户的图像中嘴部区域进行截取和替换。现有技术的问题在于，必须采集第一用户对应的视频，无法直接通过采集的语音实现视频生成，不利于提高视频生成的便利性。同时，直接对两个用户的图像（或视频）进行嘴部区域的替换，替换后的第二用户所对应的图像中的嘴部区域的图像实际仍是第一用户的嘴部区域的图像，实际上没有达到用第一用户的语音驱动第二用户进行同样讲话的目的，不利于提高语音驱动的视频的生成效果。并且，直接替换后生成的第二用户对应的视频中嘴部区域与脸部其它区域并不能很好的匹配，并且拼接处容易出现不自然的过渡，即不利于提高生成的视频的展示效果。

在一种应用场景中，可以求解语音信息与嘴部运动模式的相关性，人工设计映射模型，将语音信号转换为二维或三维的嘴部运动数据，从而根据嘴部运动数据驱动数据人说话，实现根据第一用户的语音信息获得第二用户进行同样讲话的视频。但基于人工设计的映射模型高度依赖专业人士的手动挑参，并且针对外貌差异较大的用户（例如第一用户和第二用户的外貌差异较大）或对应的数字人模型，该映射模型的效果会大大降低。同时，该方法总体制作成本和后期维护成本较高。

在另一种应用场景中，可以通过数据驱动的方式进行被驱动视频的生成。此时也需要采集说话人的说话视频，基于深度学习从说话人视频中学习一些显性的视频属性，如人的头部姿态、表情等信息，或者可以学习一些隐式的特征表达，以上这些信息均可以被调整与操作，并与语音信息相结合，从而一同恢复人像的影像。例如，将语音信号与人的上半脸作为输入，直接生成出对应的包括嘴部结构的下半脸图像，通过替换原视频的下半脸实现语音驱动人像。但该方案仅能生成与讲话对应的嘴型，忽略了对应数字人模型的头部姿态、眨眼、上体运动等信息，生成的视频画面质量，丰富度与自然性受限。又如，利用语音信息驱动人脸关键点这一中间表达，将其渲染成为逼真的人像视频。但该方案所使用的二维人脸关键点通常损失了人脸的细节信息与立体信息，导致生成的人像视频中存在画面不自然拉伸，另外该方法需要针对语音驱动嘴型，驱动头部运动等单独训练模型，不便于实际使用。或者，可以使用神经辐射场作为渲染器，通过将语音信息作为渲染器的输入，生成高清人像视频。但该方案渲染的结果仍然会出现局部模糊、丢失细节等问题，且头部以下的肩膀部分的运动经常与头部运动相割，另外使用神经辐射场进行渲染的效率非常低，每训练一个数字人模型需要消耗大量时间。

为了解决上述多个问题中的至少一个问题，本发明方案中，获取驱动对象的驱动语音、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象；当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的数字人模型和参考图像；根据上述数字人模型获取上述被驱动对象对应的面部特征，根据上述驱动语音和上述面部特征获取多组人像参数，根据上述人像参数和上述面部特征生成多个人像表征向量，其中，一组上述人像参数与上述驱动语音的一个时刻对应，一个上述人像表征向量与一组上述人像参数对应；获取各上述人像表征向量对应的时序位置编码，根据上述参考图像、各上述人像表征向量以及各上述时序位置编码，通过已训练的神经网络生成器分别生成各上述人像表征向量对应的一帧被驱动图像，并根据上述被驱动图像生成被驱动视频，其中，上述被驱动视频中上述被驱动对象的嘴部动作与上述驱动语音匹配。

同时，本发明方案中，在输入一次音频的情况下，可以同时预测嘴部运动、头部姿态以及肩部运动（即上体运动），无需构建不同的模型来分别训练；并且无需在不同数字人模型上（或针对不同语音、或针对不同的驱动对象）单独训练，节省训练时长。具体的，能够针对同一个语音生成不同的头部运动与身体运动模式，使得渲染的结果丰富且写实，达到接近真实说话人的效果；同时，在渲染器中加入时序信息（即时序位置编码）的约束，使得生成的视频帧间过度更为平滑稳定。

示例性方法

如图1所示，本发明实施例提供一种基于语音驱动数字人模型的视频生成方法，具体的，上述方法包括如下步骤：

步骤S100，获取驱动对象的驱动语音、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象。

其中，上述驱动对象是使用语音进行驱动以生成视频的对象，也即在视频生成的过程中需要保留对应的嘴部动作特征但不保留脸部细节的对象（例如第一用户），被驱动对象即驱动对象需要控制的对象（例如第二用户），即驱动对象使用语音驱动生成被驱动对象进行同样讲话的视频。上述驱动语音是驱动对象输入的语音。需要说明的是，上述驱动对象和被驱动对象可以为动物、动画形象、虚拟人物或者真实人物，驱动对象和被驱动对象可以相同，也可以不同；本实施例中以真实人物为例进行说明，但不作为具体限定。

步骤S200，当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的数字人模型和参考图像。

上述权限验证信息是用于对驱动对象进行验证以确定驱动对象是否有权限使用被驱动对象对应的数据（例如数字人模型和/或参考图像）的信息。具体的，为了保护被驱动对象的隐私和安全，避免任何用户都可以使用被驱动对象的数字人模型从而生成具有被驱动对象的视频的情况出现，本实施例中，预先为被驱动对象设置权限验证条件，只有当驱动对象的权限验证信息满足被驱动对象的权限验证条件时，才能获取被驱动对象对应的数字人模型和参考图像。需要说明的是，权限验证条件和对应的权限验证信息的设置方式有多种，例如密码匹配的方式、通过权限表授权的方式等，在此不作具体限定。

其中，上述数字人模型是运用数字技术创造出来的、与被驱动对象的形象接近的数字化人物形象所对应的数字化模型（即人像数字人模型）。针对被驱动对象，可以使用其根据现有方法制作获得的数字人模型，也可以为其构建对应的数字人模型。在一种应用场景中，可以拍摄被驱动对象对应的一段讲话视频（例如3分钟左右的视频），以此素材作为训练数据在训练平台上经过4小时左右的深度神经网络训练，即可生成此用户对应的数字人模型。

在另一种应用场景中，上述数字人模型根据如下步骤训练获得：将数字人训练数据中的数字人参考图像、数字人训练脸部几何渲染图像以及该数字人训练脸部几何渲染图像对应的时间编码输入深度神经网络生成器，通过所述深度神经网络生成器生成针对所述数字人参考图像和所述数字人训练脸部几何渲染图像的数字人训练被驱动图像，其中，所述数字人训练数据包括多组数字人训练图像组，每一组数字人训练图像组包括与所述被驱动对象对应的数字人参考图像、与所述驱动对象对应的数字人训练脸部几何渲染图像（由数字人模型参数可视化得到）、时间编码以及该数字人训练脸部几何渲染图像对应的数字人训练驱动图像；根据所述数字人训练被驱动图像（即通过该模型生成的被驱动图像）和所述数字人训练驱动图像，对所述深度神经网络生成器的模型参数进行调整，并继续执行所述将数字人训练数据中的数字人参考图像、数字人训练脸部几何渲染图像以及该数字人训练脸部几何渲染图像对应的数字人训练时间编码输入所述深度神经网络生成器的步骤，直至满足预设数字人训练条件，以得到所述数字人模型。

需要说明的是，数字人模型是针对用户（被驱动对象）构建的，一个被驱动对象对应一个数字人模型。

步骤S300，根据上述数字人模型获取上述被驱动对象对应的面部特征，根据上述驱动语音和上述面部特征获取多组人像参数，根据上述人像参数和上述面部特征生成多个人像表征向量，其中，一组上述人像参数与上述驱动语音的一个时刻对应，一个上述人像表征向量与一组上述人像参数对应。

具体的，可以根据数字人模型和驱动语音生成多组人像参数。在一种应用场景中，一组人像参数与驱动语音的一个时刻对应，其他人像参数可以具备一定的随机性且保持真实。图2是本发明实施例提供的一种基于语音驱动数字人模型的视频生成方法的具体流程示意图，其中，数字人模型B代表被驱动对象的数字人模型，用户A代表驱动对象。具体的，获取用户A输入的语音信息X（即驱动语音）和被驱动对象对应的数字人模型B之后，先提取出数字人模型B对应的面部特征。其中，上述面部特征是从数字人模型中提取获得的用于体现被驱动对象的面部特征的向量。

本实施例中，根据上述面部特征和上述驱动语音获取多组人像参数，进而获得人像表征向量。具体的，上述根据上述驱动语音和上述面部特征获取多组人像参数，根据上述人像参数和上述面部特征生成多个人像表征向量，包括：根据上述驱动语音提取获得多个时刻对应的语音信息；根据上述语音信息和上述面部特征获取多个参数估计数据，其中，一个参数估计数据包括上述面部特征和一个时刻对应的语音信息；分别将各上述参数估计数据输入已训练的语音驱动数字化身参数估计神经网络以分别获取各上述参数估计数据对应的一组人像参数；根据上述人像参数和上述面部特征，分别生成各组上述人像参数对应的人像表征向量。

其中，获得的上述人像参数是具备数字人模型B中被驱动对象的说话风格的参数，融合了驱动语音和被驱动对象的面部特征的信息。一组上述人像参数包括上述被驱动对象在标准空间下对应的人脸关键点参数、肩部关键点参数和头部姿态，且人脸关键点参数包括人脸的眼部、嘴部等各个部位的参数，在此不作具体限定。需要说明的是，本实施例中，上述人脸关键点参数、肩部关键点参数是三维参数，上述头部姿态是六维参数。

具体的，本实施例中，对驱动语音进行提取获得多个时刻对应的语音信息，例如，针对驱动语音X提取获得的一个时序位置y的语音信息为。对于时序位置y（即时刻y），将面部特征和语音信息为作为参数估计数据并输入语音驱动数字化身参数估计神经网络，以获得第帧对应的具备数字人模型B说话风格的人像参数()，其中，和分别代表音频的采样率与视频的帧率。

其中，人像参数包括用于描述数字人模型的状态，包括标准空间下的人脸3D关键点（即人脸关键点参数）、肩部3D关键点（即肩部关键点参数）和头部姿态。具体的，人像参数根据如下公式（1）生成：

其中，代表语音驱动数字化身参数估计神经网络，是该语音驱动数字化身参数估计神经网络对应的权重（即网络参数）。上述语音驱动数字化身参数估计神经网络可以根据如下公式（2）进行定义：

其中，和分别为网络的头部和尾部，能满足输入输出的参数要求即可，具体网络结构在此不作具体限定。符号代表网络模块之间的拼接操作。代表具备双重注意力机制的网络主体，其计算方式如下公式（3）所示：

其中，为输出的特征，为特征对齐注意力模块，为多模态注意力模块，为特征逐元素相加的操作。

根据图2和上述公式可知，本实施例中，对于驱动语音和面部特征，在上述语音驱动数字化身参数估计神经网络中基于双重注意力机制进行处理，并最终获得各个时刻对应的人像参数。

在一种应用场景中，上述语音驱动数字化身参数估计神经网络根据如下步骤进行训练：将参数估计训练数据中的训练参数估计数据（例如可以包括语音信息数据以及参考人像的参数）输入上述语音驱动数字化身参数估计神经网络，通过上述语音驱动数字化身参数估计神经网络生成上述训练参数估计数据对应的训练人像参数，其中，上述参数估计训练数据包括多组参数估计训练信息组，每一组参数估计训练信息组包括训练参数估计数据和标注人像参数；根据上述训练人像参数和上述标注人像参数，对上述语音驱动数字化身参数估计神经网络的网络参数通过梯度反传进行调整，并继续执行上述将参数估计训练数据中的训练参数估计数据输入上述语音驱动数字化身参数估计神经网络的步骤，直至满足第一预设训练条件，以得到已训练的语音驱动数字化身参数估计神经网络。

其中，上述参数估计训练数据是预先采集获取的用于对语音驱动数字化身参数估计神经网络进行训练的数据，其中包括用于进行训练的训练参数估计数据和标注人像参数，需要说明的是，训练参数估计数据包括训练面部特征和一个时刻对应的训练语音信息，标注人像参数则包括标注人脸关键点参数、标注肩部关键点参数和标注头部姿态，即本实施例中各个神经网络在训练过程中使用的数据和使用过程中使用的数据相对应，在此不再赘述。

具体的，本实施例中，上述第一预设训练条件是预先设置的语音驱动数字化身参数估计神经网络的训练完成条件，可以包括迭代次数达到预设的第一迭代阈值和/或损失值小于预设的第一损失阈值，还可以包括其它条件，在此不作具体限定。

进一步的，为了提高对于人脸部分的拟合效果，本实施例中针对人脸关键点参数进行调优，在优化后获得人像表征向量，从而获得更好的视频生成和展示效果。具体的，上述根据上述人像参数和上述面部特征，分别生成各组上述人像参数对应的人像表征向量，包括：根据所有上述人脸关键点参数和上述面部特征获取多个待优化数据，其中，一个上述待优化数据包括上述面部特征和一个上述人脸关键点参数；分别将各上述待优化数据输入已训练的三维关键点调优神经网络以分别获取各上述待优化数据对应的人脸网格点优化数据；根据各组对应的人脸网格点优化数据、肩部关键点参数和头部姿态分别获取各上述人像表征向量。

具体的，对于一个人脸关键点参数（即一个人脸3D关键点），使用三维关键点调优神经网络进行优化并获得对应的人脸网格点优化数据，并最终根据优化后的人脸网格点优化数据计算获得人像表征向量，其中，人像表征向量是根据数字人模型生成的被驱动视频中第帧的刻画（即人面部的2D图像表征）。其中，上述三维关键点调优神经网络根据如下公式（4）计算获得人脸网格点优化数据：

其中，代表人脸网格点优化数据，也即优化后的整体的人脸3D网格点集合。如公式（4）所示，预先训练一个深度神经网络来进行人脸3D关键点调优，是该深度神经网络训练后的权重参数（即网络参数或模型参数）。需要说明的是，上述三维关键点调优神经网络为多层全连接网络（MLP，Multi-layer perception）构成，其具体网络结构在此不作具体限定。

本实施例中，任意一个人像表征向量根据如下步骤获得：获取一组对应的人脸网格点优化数据、肩部关键点参数和头部姿态；根据预设的投影函数对第一乘积进行投影获得面部二维图像表征向量，其中，上述第一乘积由上述人脸网格点优化数据和上述头部姿态点乘获得；根据上述投影函数对上述肩部关键点进行投影获得肩部二维图像表征向量；将上述面部二维图像表征向量和上述肩部二维图像表征向量相加获得上述人像表征向量。具体的，根据如下公式（5）计算人像表征向量：

其中，符号为矩阵之间的点乘操作，代表预先设置的投影函数，用于将3D点投影到2D图像像素坐标系中。是第帧的头部姿态，是第帧的人脸网格点优化数据。人脸网格点优化数据和上述头部姿态点乘获得第一乘积，然后使用预设的投影函数进行投影获得面部二维图像表征向量，即第帧人面部的2D图像表征。同样的，使用投影函数对肩部关键点进行投影获得肩部二维图像表征向量，即肩部投影到2D图像坐标系后的表征。最后将和相加获得第帧的人像表征向量。是整体的肖像在2D图像坐标系下的表征，其中包括了用于驱动数字人的面部（包括眼睛、嘴部等）和肩部（或上体）的特征，该表征将用于后续的神经网络生成器的输入，以获得更自然生动的视频。在一种应用场景中，上述三维关键点调优神经网络根据如下步骤进行训练：将调优训练数据中的训练待优化数据输入上述三维关键点调优神经网络，通过上述三维关键点调优神经网络生成上述训练待优化数据对应的训练人脸网格点优化数据，其中，上述调优训练数据包括多组调优训练信息组，每一组调优训练信息组包括训练待优化数据和标注人脸网格点优化数据；根据上述训练人脸网格点优化数据和上述标注人脸网格点优化数据，对上述三维关键点调优神经网络的网络参数进行调整，并继续执行上述将调优训练数据中的训练待优化数据输入上述三维关键点调优神经网络的步骤，直至满足第二预设训练条件，以得到已训练的三维关键点调优神经网络。

其中，上述调优训练数据是预先采集的用于对三维关键点调优神经网络进行训练的数据，需要说明的是，在对三维关键点调优神经网络进行训练的过程中使用的数据的数据类型与使用三维关键点调优神经网络进行优化时使用的数据的数据类型相同，例如一个待优化数据包括面部特征和一个人脸关键点参数，则一个上述训练待优化数据也包括对应的训练面部特征和一个训练人脸关键点参数，其它神经网络或模型训练时同理，不再赘述。

上述第二预设训练条件是预先设置的用于判断三维关键点调优神经网络是否训练完成的条件，可以包括三维关键点调优神经网络的迭代次数达到预设的第二迭代阈值，或损失值小于预设的第二损失阈值，还可以包括其它条件，在此不作具体限定。

步骤S400，获取各上述人像表征向量对应的时序位置编码，根据上述参考图像、各上述人像表征向量以及各上述时序位置编码，通过已训练的神经网络生成器分别生成各上述人像表征向量对应的一帧被驱动图像，并根据上述被驱动图像生成被驱动视频，其中，上述被驱动视频中上述被驱动对象的嘴部动作与上述驱动语音匹配。

需要说明的是，上述被驱动视频中上述被驱动对象的嘴部动作还具备丰富且真实的其他动作。本实施例中，使用预先训练好的神经网络生成器将人像表征向量渲染成为逼真的数字人模型图像（即被驱动图像），根据各帧被驱动图像即可以组合构成被驱动视频。具体的，还引入参考图像和时序位置编码来调优渲染器的生产效果。其中是以数字人模型B的真实图像作为参考图，其具体姿势表情不限制；时序位置编码的定义如下公式（6）所示：

其中，为特征通道间拼接操作。代表参考图像垂直方向的像素总数，代表参考图像水平方向上的像素总数，代表可调节的超参，实际应用中可以取6，代表第几个时刻或第几帧。如此，根据时序位置编码有利于提高最终获得的视频的连续性和流畅性，提高视频生成和展示效果。

神经网络生成器根据如下公式（7）进行计算并获得数字人模型图像：

其中，是适配数字人模型的神经网络生成器的网络参数（其具体值可以根据训练确定）。神经网络生成器的输入和输出都是图像，并且空间尺寸大小保持一致，其网络结构不作限制，例如UNet。最后将所有的被驱动图像视频帧按照设定的帧率进行合并，即可得到用户A的语音驱动的数字人模型B的说话视频。

具体的，上述参考图像用于为上述已训练的神经网络生成器提供上述被驱动对象对应的图像纹理细节，上述被驱动图像与上述参考图像的图像纹理细节相同，上述时序位置编码用于为上述已训练的神经网络生成器提供时间信息。以获得更好的渲染效果，提高视频生成质量。

在一种应用场景中，上述神经网络生成器根据如下步骤进行训练：将第三训练数据中的训练参考图像、训练人像表征向量和训练时序位置编码输入上述神经网络生成器，通过上述神经网络生成器生成对应的一帧训练被驱动图像，其中，上述第三训练数据包括多组第三训练信息组，每一组第三训练信息组包括训练参考图像、训练人像表征向量、训练时序位置编码和训练真实图像，上述训练人像表征向量根据上述训练真实图像获得；根据上述训练被驱动图像和上述训练真实图像，对上述神经网络生成器的网络参数进行调整，并继续执行上述将第三训练数据中的训练参考图像、训练人像表征向量和训练时序位置编码输入上述神经网络生成器的步骤，直至满足第三预设训练条件，以获得已训练的神经网络生成器。

其中，上述第三预设训练条件是用于判断上述神经网络生成器是否已经训练完成的条件，可以包括迭代次数达到预设的第三迭代阈值和/或损失值小于预设的第三损失阈值，还可以包括其它条件，在此不作具体限定。

本实施例中，还基于一种具体应用场景对上述神经网络生成器的训练过程进行具体描述。图3是本发明实施例提供的一种神经网络生成器的训练过程示意图，如图3所示，本实施例中以针对人物C（即数字人模型C）进行神经网络生成器训练为例进行具体说明。首先进行数据准备，对于被驱动的数字人模型C的创建，首先将拍摄的数字人模型C的视频按照时间顺序拆成图像帧，并对每一帧对应的时间位置标记为。随后对每一帧图像进行特征提取，包括人脸3D关键点、肩部关键点，头部姿态。将视频中每帧的人脸3D关键点根据其头部姿态投影到标准空间中将人脸对齐标准空间下人脸3D关键点，该计算方式如下公式（8）所示：

然后根据上述公式（5）计算获取人像表征向量（即数字人模型表征）。随后，通过神经网络训练来获取数字人模型C的模型参数，在训练过程中，根据公式（2）-（7）来通过输入来获取对应的数字人模型C的预测图像。通过引入神经网络判别器来判断生成的图像的真假，根据判别器的生成对抗损失，来约束神经网络生成器生成的结果足够逼真。其中训练过程可以视为神经网络生成器与神经网络判别器互相竞争的过程，具体的，神经网络判别器需要将录制人物C得到的视频帧识别为真，神经网络生成器生成的图像识别为假；而神经网络生成器目的则需要尽可能欺骗判别器，他们之间通过生成对抗损失来进行梯度反传进而优化各自网络参数。

进一步的，在进行训练时，可以使用包括空间随机裁剪等的数据增强操作，且可以通过优化多项联合图像重建损失函数（L1重建损失、感知损失、GAN判别器损失等）来训练神经网络生成器。具体的，Batch Size为20，输入输出图像分辨率为512*512。

需要说明的是，上述语音驱动数字化身参数估计神经网络中，针对音频输入（即驱动语音），将输入的语音信号通过Wav2vec进行音频特征预处理，然后通过一个MLP来进行特征映射得到音频隐码；输入的面部特征也可以通过MLP来进行特征映射得到面部隐码。映射得到的音频隐码和面部隐码可以通过特征逐元素相加得到特征；双重注意力中的可以由一个Transformer decoder来实现，可通过一个transformervariational auto-encoder来实现；最后可以通过不同的MLP来实现，进而解码获得。

上述三维关键点调优神经网络可以通过一个MLP来实现，神经网络生成器可以通过一个带有跳层链接的U-Net网络来实现。神经网络判别器可以通过一个CNN编码器后接一个MLP来实现。

如此，基于本实施例提供的基于语音驱动数字人模型的视频生成方法，用户仅需要输入语音信息，选择需要使用的数字人模型，即可实时驱动对应的数字人模型，同一段讲话在不同时期驱动时，数字人模型能做出不同且自然的动作，并能保持说话嘴部运动的正确性。生成出来的被驱动视频真实自然且动作表情丰富，并在稳定度与语音同步性上超过同期同类方法，能达到与真实说话人相近的生成结果。同时，用户只需要录制3-5min人物C的说话视频，即可制作出能被驱动的人物C的数字人模型C，此后任意用户在任意场景下通过录制声音，可根据数字人模型C生成真实生动的讲话视频，且视频中的数字人模型在讲话时具备丰富以及自然的头部上体运动，即生成的视频效果较好。

同时，本实施例方案在数字人创建和视频生成所对应的效率和成本上都具有优势。首先，基于本实施例方案，不需要针对每个数字人模型训练所有的神经网络，仅需要重新训练神经网络生成器，即可以实现针对语音驱动新的数字人模型并生成视频。本方案与其它方案的训练时长与视频渲染时长的测试结果如下表1所示，可见，本方案训练时长是其他同期方法的三分之一，与AD-NeRF相比更是减少到了十分之一以下，同时，还可以提高图像渲染效率，例如与AD-NeRF相比，渲染速度为该方法的几百倍。

表1

同时，本实施例方案还有利于提高生成的视频的语音同步性和图像生成质量。表2是本发明实施例提供的同步性测试结果，如表2所示，在公开数据集HDTF的测试集上进行测试时，基于本实施例方案生成的视频中，嘴部同步性相关的指标LMD（Landmark distance），LMD-v（Velocity of Landmark distance）均显著低于其他方法，并且在图像质量上更加真实，NIQE（Naturalness of Image Quality Evaluation）也低于其他方法。需要说明的是，以上这些指标的数值越小，代表语音驱动的嘴部同步性越高，视频的生成质量越好。

表2

由上可见，本实施例方案中，并不需要采集驱动对象对应的视频，而只需要采集驱动对象的驱动语音，有利于提高视频生成的便利性。同时，本实施例方案并不是简单的进行嘴部区域图像的替换，而是根据驱动语音和被驱动对象对应的面部特征，获得各个时刻的人像参数及其对应的人像表征向量，然后根据时序位置编码、参考图像和人像表征向量，通过已训练的神经网络生成器生成各帧的被驱动图像并最终获得被驱动视频。

示例性设备

如图4中所示，对应于上述基于语音驱动数字人模型的视频生成方法，本发明实施例还提供一种基于语音驱动数字人模型的视频生成系统，上述基于语音驱动数字人模型的视频生成系统包括：

数据获取模块510，用于获取驱动对象的驱动语音、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象；

权限验证模块520，用于当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的数字人模型和参考图像；

数据处理模块530，用于根据上述数字人模型获取上述被驱动对象对应的面部特征，根据上述驱动语音和上述面部特征获取多组人像参数，根据上述人像参数和上述面部特征生成多个人像表征向量，其中，一组上述人像参数与上述驱动语音的一个时刻对应，一个上述人像表征向量与一组上述人像参数对应；

视频生成模块540，用于获取各上述人像表征向量对应的时序位置编码，根据上述参考图像、各上述人像表征向量以及各上述时序位置编码，通过已训练的神经网络生成器分别生成各上述人像表征向量对应的一帧被驱动图像，并根据上述被驱动图像生成被驱动视频，其中，上述被驱动视频中上述被驱动对象的嘴部动作与上述驱动语音匹配。

具体的，本实施例中，上述基于语音驱动数字人模型的视频生成系统及其各模块的具体功能可以参照上述基于语音驱动数字人模型的视频生成方法中的对应描述，在此不再赘述。

需要说明的是，上述基于语音驱动数字人模型的视频生成系统的各个模块的划分方式并不唯一，在此也不作为具体限定。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图5所示。上述智能终端包括处理器及存储器。该智能终端的存储器包括基于语音驱动数字人模型的视频生成程序，存储器为基于语音驱动数字人模型的视频生成程序的运行提供环境。该基于语音驱动数字人模型的视频生成程序被处理器执行时实现上述任意一种基于语音驱动数字人模型的视频生成方法的步骤。需要说明的是，上述智能终端还可以包括其它功能模块或单元，在此不作具体限定。

本领域技术人员可以理解，图5中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体地智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例还提供一种计算机可读存储介质，上述计算机可读存储介质上存储有基于语音驱动数字人模型的视频生成程序，上述基于语音驱动数字人模型的视频生成程序被处理器执行时实现本发明实施例提供的任意一种基于语音驱动数字人模型的视频生成方法的步骤。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的系统/智能终端和方法，可以通过其它的方式实现。例如，以上所描述的系统/智能终端实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音驱动数字人模型的视频生成方法，其特征在于，所述方法包括：

获取驱动对象的驱动语音、所述驱动对象的权限验证信息以及所述驱动对象对应的被驱动对象；

当所述驱动对象的权限验证信息满足所述被驱动对象的权限验证条件时，获取所述被驱动对象对应的数字人模型和参考图像；

根据所述数字人模型获取所述被驱动对象对应的面部特征，根据所述驱动语音和所述面部特征获取多组人像参数，根据所述人像参数和所述面部特征生成多个人像表征向量，其中，一组所述人像参数与所述驱动语音的一个时刻对应，一个所述人像表征向量与一组所述人像参数对应；

获取各所述人像表征向量对应的时序位置编码，根据所述参考图像、各所述人像表征向量以及各所述时序位置编码，通过已训练的神经网络生成器分别生成各所述人像表征向量对应的一帧被驱动图像，并根据所述被驱动图像生成被驱动视频，其中，所述被驱动视频中所述被驱动对象的嘴部动作与所述驱动语音匹配。

2.根据权利要求1所述的基于语音驱动数字人模型的视频生成方法，其特征在于，所述根据所述驱动语音和所述面部特征获取多组人像参数，根据所述人像参数和所述面部特征生成多个人像表征向量，包括：

根据所述驱动语音提取获得多个时刻对应的语音信息；

根据所述语音信息和所述面部特征获取多个参数估计数据，其中，一个参数估计数据包括所述面部特征和一个时刻对应的语音信息；

分别将各所述参数估计数据输入已训练的语音驱动数字化身参数估计神经网络以分别获取各所述参数估计数据对应的一组人像参数；

根据所述人像参数和所述面部特征，分别生成各组所述人像参数对应的人像表征向量。

3.根据权利要求2所述的基于语音驱动数字人模型的视频生成方法，其特征在于，所述人像参数包括人脸关键点参数、肩部关键点参数和头部姿态。

4.根据权利要求2或3所述的基于语音驱动数字人模型的视频生成方法，其特征在于，所述语音驱动数字化身参数估计神经网络根据如下步骤进行训练：

将参数估计训练数据中的训练参数估计数据输入所述语音驱动数字化身参数估计神经网络，通过所述语音驱动数字化身参数估计神经网络生成所述训练参数估计数据对应的训练人像参数，其中，所述参数估计训练数据包括多组参数估计训练信息组，每一组参数估计训练信息组包括训练参数估计数据和标注人像参数；

根据所述训练人像参数和所述标注人像参数，对所述语音驱动数字化身参数估计神经网络的网络参数进行调整，并继续执行所述将参数估计训练数据中的训练参数估计数据输入所述语音驱动数字化身参数估计神经网络的步骤，直至满足第一预设训练条件，以得到已训练的语音驱动数字化身参数估计神经网络。

5.根据权利要求3所述的基于语音驱动数字人模型的视频生成方法，其特征在于，所述根据所述人像参数和所述面部特征，分别生成各组所述人像参数对应的人像表征向量，包括：

根据所有所述人脸关键点参数和所述面部特征获取多个待优化数据，其中，一个所述待优化数据包括所述面部特征和一个所述人脸关键点参数；

分别将各所述待优化数据输入已训练的三维关键点调优神经网络以分别获取各所述待优化数据对应的人脸网格点优化数据；

根据各组对应的人脸网格点优化数据、肩部关键点参数和头部姿态分别获取各所述人像表征向量。

6.根据权利要求5所述的基于语音驱动数字人模型的视频生成方法，其特征在于，任意一个人像表征向量根据如下步骤获得：

根据预设的投影函数对第一乘积进行投影获得面部二维图像表征向量，其中，所述第一乘积由所述人脸网格点优化数据和所述头部姿态点乘获得；

根据所述投影函数对所述肩部关键点进行投影获得肩部二维图像表征向量；

将所述面部二维图像表征向量和所述肩部二维图像表征向量相加获得所述人像表征向量。

7.根据权利要求5所述的基于语音驱动数字人模型的视频生成方法，其特征在于，所述三维关键点调优神经网络根据如下步骤进行训练：

将调优训练数据中的训练待优化数据输入所述三维关键点调优神经网络，通过所述三维关键点调优神经网络生成所述训练待优化数据对应的训练人脸网格点优化数据，其中，所述调优训练数据包括多组调优训练信息组，每一组调优训练信息组包括训练待优化数据和标注人脸网格点优化数据；

根据所述训练人脸网格点优化数据和所述标注人脸网格点优化数据，对所述三维关键点调优神经网络的网络参数进行调整，并继续执行所述将调优训练数据中的训练待优化数据输入所述三维关键点调优神经网络的步骤，直至满足第二预设训练条件，以得到已训练的三维关键点调优神经网络。

8.根据权利要求1所述的基于语音驱动数字人模型的视频生成方法，其特征在于，所述神经网络生成器根据如下步骤进行训练：

将第三训练数据中的训练参考图像、训练人像表征向量和训练时序位置编码输入所述神经网络生成器，通过所述神经网络生成器生成对应的一帧训练被驱动图像，其中，所述第三训练数据包括多组第三训练信息组，每一组第三训练信息组包括训练参考图像、训练人像表征向量、训练时序位置编码和训练真实图像，所述训练人像表征向量根据所述训练真实图像获得；

根据所述训练被驱动图像和所述训练真实图像，对所述神经网络生成器的网络参数进行调整，并继续执行所述将第三训练数据中的训练参考图像、训练人像表征向量和训练时序位置编码输入所述神经网络生成器的步骤，直至满足第三预设训练条件，以获得已训练的神经网络生成器。

9.根据权利要求1所述的基于语音驱动数字人模型的视频生成方法，其特征在于，所述参考图像用于为所述已训练的神经网络生成器提供所述被驱动对象对应的图像纹理细节，所述被驱动图像与所述参考图像的图像纹理细节相同，所述时序位置编码用于为所述已训练的神经网络生成器提供时间信息。

10.一种基于语音驱动数字人模型的视频生成系统，其特征在于，所述系统包括：

数据获取模块，用于获取驱动对象的驱动语音、所述驱动对象的权限验证信息以及所述驱动对象对应的被驱动对象；

权限验证模块，用于当所述驱动对象的权限验证信息满足所述被驱动对象的权限验证条件时，获取所述被驱动对象对应的数字人模型和参考图像；

数据处理模块，用于根据所述数字人模型获取所述被驱动对象对应的面部特征，根据所述驱动语音和所述面部特征获取多组人像参数，根据所述人像参数和所述面部特征生成多个人像表征向量，其中，一组所述人像参数与所述驱动语音的一个时刻对应，一个所述人像表征向量与一组所述人像参数对应；

视频生成模块，用于获取各所述人像表征向量对应的时序位置编码，根据所述参考图像、各所述人像表征向量以及各所述时序位置编码，通过已训练的神经网络生成器分别生成各所述人像表征向量对应的一帧被驱动图像，并根据所述被驱动图像生成被驱动视频，其中，所述被驱动视频中所述被驱动对象的嘴部动作与所述驱动语音匹配。

11.一种智能终端，其特征在于，所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于语音驱动数字人模型的视频生成程序，所述基于语音驱动数字人模型的视频生成程序被所述处理器执行时实现如权利要求1-9任意一项所述基于语音驱动数字人模型的视频生成方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于语音驱动数字人模型的视频生成程序，所述基于语音驱动数字人模型的视频生成程序被处理器执行时实现如权利要求1-9任意一项所述基于语音驱动数字人模型的视频生成方法的步骤。