CN115223224A

CN115223224A - 数字人说话视频生成方法、系统、终端设备及介质

Info

Publication number: CN115223224A
Application number: CN202210832331.6A
Authority: CN
Inventors: 潘涛; 李国鸣; 朱勰戎; 钱学成
Original assignee: China Merchants Bank Co Ltd
Current assignee: China Merchants Bank Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-21

Abstract

本发明公开了一种数字人说话视频生成方法、系统、终端设备以及计算机可读存储介质，该数字人说话视频生成方法的步骤包括：获取预设语音信息的语音特征，将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值，并基于所述人脸关键点坐标偏移值得到对应的人脸关键点；基于所述人脸关键点确定人脸轮廓视频，并将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。本发明能够提升数字人说话视频的视频质量。

Description

数字人说话视频生成方法、系统、终端设备及介质

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种数字人说话视频生成方法、系统、终端设备以及计算机可读存储介质。

背景技术

随着人工智能、虚拟现实等新技术浪潮的发展，虚拟数字人的生产门槛进一步降低，各方面的性能获得了飞跃式的提升，开始从外观的数字化逐渐深入到行为的交互化、思想的智能化。以虚拟主播、虚拟员工等为代表的数字人成功进入大众视野，并以多元的姿态在影视、游戏、传媒、文旅、金融等众多领域大放异彩。

语音驱动数字人形象技术是虚拟数字人应用的基础，其目标是根据输入的语音信息合成目标人物的音频同步视频帧。它对于交互式应用程序(如数字化身、视频会议、视觉效果、虚拟现实、视频配音和计算机游戏)很有价值。随着目前多模态技术研究的发展热潮，语音驱动数字人形象技术作为一种跨模态领域的研究课题，受到了研究人员的广泛关注，已经涌现了一些相关的研究成果和应用。然而，合成出逼真且富有表现力的目标人物音频同步数字人视频仍然是一个开放的挑战。

目前语音驱动数字人形象技术按照输出的视频质量可以分为非照片级真实的和照片级真实两种技术路线。非照片级真实的语音驱动数字人形象技术重点关注如何学习输入语音信息到对应的人脸面部运动的映射关系，其输出通常为人脸三维模型的顶点坐标变化或者人脸模型表情参数和头部运动参数。然后利用现有的三维模型渲染引擎将驱动后的三维人脸模型序列渲染成音频同步说话的视频。然而这种技术路线需要事先通过硬件设备获取高质量的4D人脸捕捉数据，或通过3D建模人员人工调整人脸模型参数。同时，通过渲染3D模型得到的数字人音频同步说话视频的质量与模型精度有关，往往无法达到照片级的以假乱真的效果。另一类技术路线旨在输出照片级真实感的数字人视频，按照技术方案又可以分为基于视频编辑的方法和基于图像生成的方法。基于视频编辑的方法需要事先获取目标人物的一段说话视频数据，通过将视频中人物的嘴部区域根据输入的语音信息进行编辑修改，实现口型与输入语音的同步。但是这种方法的缺陷在于输出的视频受限于原视频的长度，并且人物头部运动姿态只能保持与原视频中的相同，导致可能出现的头部运动与语音要表达的情绪态度等冲突。另一类基于图像生成的方法只需要一张或少量的目标人物的图像，就能通过神经网络根据输入语音生成对应的说话人视频。但由于要生成整张图像，这类方法往往不能生成具有高质量的面部运动细节、整体头部动态和稳定的背景的数字人视频，且生成的视频帧之间缺乏时间一致性，导致输出的视频出现抖动、面部扭曲等不良情况。

综上所述，现有的数字人说话视频生成技术存在数字人音频同步说话视频质量低、视频帧之间缺乏时间一致性、头部运动与语音要表达的情绪态度容易冲突以及视频抖动、面部扭曲等问题。

发明内容

本发明的主要目的在于提供一种数字人说话视频生成方法、系统、终端设备以及计算机可读存储介质，旨在提升数字人说话视频的视频质量。

为实现上述目的，本发明提供一种数字人说话视频生成方法，所述数字人说话视频生成包括：

获取预设语音信息的语音特征，将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值，并基于所述人脸关键点坐标偏移值得到对应的人脸关键点；

基于所述人脸关键点确定人脸轮廓视频，并将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。

可选地，所述第一深度学习模型包括：第一多层传感器、第二多层传感器和双向长短期记忆网络；

所述将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值，并基于所述人脸关键点坐标偏移值得到包含面部运动信息的人脸关键点的步骤，包括：

将所述语音特征输入所述多层传感器得到升维的语音特征，并将所述升维的语音特征输入所述双向长短期记忆网络得到基础人脸关键点；

将所述基础人脸关键点与预设的静态人脸关键点坐标进行级联，并将级联后的所述基础人脸关键点和所述静态人脸关键点输入至所述第二多层传感器得到坐标偏移值；

将所述坐标偏移值与所述静态人脸关键点的坐标相加得到人脸关键点。可选地，在所述将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值的步骤之前，还包括：

基于预设的第一数据集，通过预设优化器对第一初始深度学习模型进行训练得到所述第一深度学习模型。

可选地，在所述基于预设的第一数据集，通过预设优化器对初始深度学习模型进行训练得到所述第一深度学习模型的步骤之前，还包括：

构建所述第一数据集；

所述构建所述第一数据集的步骤，包括：

通过人脸对齐算法提取预设样本视频中各个帧的多个3D人脸关键点，将所述各个帧的多个3D人脸关键点进行二维投影得到人脸关键点集；

将所述人脸关键点集作为第一数据集，以完成对所述第一数据集的构建。

可选地，在所述将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频的步骤之前，还包括：

通过预设的第二数据集对预设第二初始深度学习模型进行训练得到所述第二深度学习模型；

在所述通过预设的第二数据集对预设第二初始深度学习模型进行训练得到所述第二深度学习模型之前，还包括：

构建所述第二数据集；

所述构建所述第二数据集的步骤，包括：

将所述人脸关键点集中各个帧的人脸关键点进行连线得到对应的人脸轮廓图，并确定各个所述人脸轮廓图所对应的视频帧；

将所述人脸轮廓图与所述视频帧组成数据对，并将多个所述数据对作为第二数据集，以完成对所述第二数据集的构建。

可选地，所述第二深度学习模型包括：vid2vid深度网络模型，所述将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频的步骤，包括：

将所述人脸关键点轮廓图输入所述vid2vid深度网络模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。

可选地，所述获取预设语音信息的语音特征的步骤，包括：

对预设语音信息进行离散傅里叶变换，并根据多个预设的三角梅尔尺度滤波器对离散傅里叶变换后的所述语音信息进行过滤得到对应的梅尔频率谱系数；

对所述梅尔频率谱系数取对数，并将对数化的梅尔频率谱系数进行一维正则化得到语音特征。

为实现上述目的，本发明还提供一种数字人说话视频生成系统，所述数字人说话视频生成系统，包括：

确定人脸关键点模块，用于获取预设语音信息的语音特征，将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值，并基于所述人脸关键点坐标偏移值确定对应的人脸关键点；

确定数字人说话视频模块，用于基于所述人脸关键点确定人脸轮廓视频，并将所述人脸轮廓视频输入第二深度学习模型确定包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。

其中，本发明数字人说话视频生成系统的各个功能模块各自在运行时均实现如上所述的数字人说话视频生成方法的步骤。

为实现上述目的，本发明还提供一种终端设备，所述终端设备包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的数字人说话视频生成程序，所述数字人说话视频生成程序被所述处理器执行时实现如上所述的数字人说话视频生成方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有数字人说话视频生成程序，所述数字人说话视频生成程序被处理器执行时实现如上所述的数字人说话视频生成方法的步骤。

此外，为实现上述目的，本发明还提供计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如上所述的数字人说话视频生成方法的步骤。

本发明提供一种数字人说话视频生成方法、系统、终端设备、计算机可读存储介质以及计算机程序产品，数字人说话视频生成方法包括以下步骤：获取预设语音信息的语音特征，将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值，并基于所述人脸关键点坐标偏移值得到对应的人脸关键点；基于所述人脸关键点确定人脸轮廓视频，并将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。

相比于现有技术中数字人说话视频的生成方式，在本申请中，通过第一深度学习模型输出包含面部运动形象和头部姿态变化信息的人脸轮廓视频，并将该人脸轮廓视频输入至第二深度学习模型得到对应的包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。因此，本发明提出了一种高效的数字人说话视频的生成方式，能够从语音同时推断出人脸面部运动和头部姿态变化，使数字人说话视频既能保持语音与面部运动同步，也能够带有自然的头部姿态变化，并且提升了视觉感知质量，也进一步提升了用户体验。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明数字人说话视频生成方法一实施例的流程示意图；

图3为本发明数字人说话视频生成方法一实施例的生成数字人视频整体流程示意图；

图4为本发明数字人说话视频生成方法一实施例的面部运动和头部姿态变化推断示意图；

图5为本发明数字人说话视频生成系统一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例终端设备可以是用于生成数字人说话视频的终端设备，该终端设备具体可以是计算机和服务器等。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数字人说话视频生成程序。操作系统是管理和控制设备硬件和软件资源的程序，支持数字人说话视频生成程序以及其它软件或程序的运行。在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与服务器建立通信连接；而处理器1001可以用于调用存储器1005中存储的数字人说话视频生成程序，并执行以下操作：

进一步地，所述第一深度学习模型包括：第一多层传感器、第二多层传感器和双向长短期记忆网络；处理器1001还可以用于调用存储器1005中存储的数字人说话视频生成程序，还执行以下操作：

将所述语音特征输入所述第一多层传感器得到升维的语音特征，并将所述升维的语音特征输入所述双向长短期记忆网络得到基础人脸关键点；

将所述坐标偏移值与所述静态人脸关键点的坐标相加得到人脸关键点。

进一步地，在所述将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值的步骤之前，处理器1001还可以用于调用存储器1005中存储的数字人说话视频生成程序，还执行以下操作：

进一步地，在所述基于预设的第一数据集，通过预设优化器对初始深度学习模型进行训练得到所述第一深度学习模型的步骤之前，处理器1001还可以用于调用存储器1005中存储的数字人说话视频生成程序，还执行以下操作：

构建所述第一数据集；

处理器1001还可以用于调用存储器1005中存储的数字人说话视频生成程序，还执行以下操作：

进一步地，在所述将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频的步骤之前，处理器1001还可以用于调用存储器1005中存储的数字人说话视频生成程序，还执行以下操作：

通过预设的第二数据集对第二初始深度学习模型进行训练得到所述初始深度学习模型；

在所述通过预设的第二数据集对第二初始深度学习模型进行训练得到所述初始深度学习模型之前，处理器1001还可以用于调用存储器1005中存储的数字人说话视频生成程序，还执行以下操作：

构建所述第二数据集；

将所述人脸关键点集中各个帧的人脸关键点进行连线得到多个人脸轮廓图，并确定各个所述人脸轮廓图所对应的视频帧；

进一步地，处理器1001还可以用于调用存储器1005中存储的数字人说话视频生成程序，还执行以下操作：

参照图2，图2为本发明数字人说话视频生成方法第一实施例的流程示意图。

在本实施例中，提供了数字人说话视频生成方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中所采用的技术方案主要包含三个模块：语音信息处理模块，面部运动和头部姿态变化推断模块以及视频生成模块，如图3所示，获取语音信号；通过语音信息处理模块将语音信号进行处理提取语音MFCC(Mel频率倒谱系数)特征；通过面部运动和头部姿态变化推断模块，从该语音MFCC特征推断面部运动和头部姿态变化得到对应的人脸轮廓；根据人脸轮廓的序列，通过视频生成模块得到数字人说话视频。

步骤S10，获取预设语音信息的语音特征，并将所述语音特征输入第一深度学习模型得到人脸关键点的坐标偏移值，并基于所述坐标偏移值确定人脸轮廓图；

终端设备获取任意一段输入的语音信号，并将该语音信号经处理得到对应的语音特征，为了进一步根据该语音特征得到对应的数字人说话视频，需要将该语音特征输入第一深度学习模型，并得到该第一深度学习模型输出的与该语音特征对应的人脸关键点的坐标偏移值，以根据该坐标偏移值确定人脸关键点轮廓视频，进而基于该人脸关键点轮廓视频得到数字人说话视频。

步骤S20，将所述人脸轮廓图输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频帧。

终端设备在获取到人脸关键点后，将该人脸关键点投影到二维并连接形成人脸轮廓图，根据该人脸轮廓图合成人脸轮廓视频，进一步将该人脸轮廓视频输入至第二深度学习模型，并通过该第二深度学习模型输出对应的带有面部运动形象和头部姿态变化的照片级真实的数字人说话视频，以实现数字人说话视频与输入的语音特征的音画同步，强制保证输出视频的帧间一致性。

在本实施例中，将获取的语音特征输入第一深度学习模型得到与该语音特征对应的人脸关键点坐标偏移值，并根据人脸关键点坐标偏移值得到包含面部运动信息的人脸关键点；将每一帧3D的人脸关键点投影到二维并连接形成人脸轮廓图，将包含人脸轮廓图的人脸轮廓视频输出至第深度学习模型得到与输入的语音信号一致的包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。

相比于现有技术中数字人说话视频的生成方式，在本发明中，通过第一深度学习模型输出包含面部运动形象和头部姿态变化信息的人脸轮廓视频，并将该人脸轮廓视频输入至第二深度学习模型得到对应的包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。因此，本发明提出了一种高质量的数字人说话视频的生成方式，能够从语音同时推断出人脸面部运动和头部姿态变化，使数字人说话视频既能保持语音与面部运动同步，也能够带有自然的头部姿态变化，本发明更具时间一致性，并且提升了视觉感知质量，进而提升了用户体验。

进一步地，基于上述本发明数字人说话视频生成方法的第一实施例，提出本发明数字人说话视频生成方法的第二实施例。

相比于第一实施例，在本实施例中，上述步骤S10中，“将所述语音特征输入第一深度学习模型得到人脸关键点轮廓图”，可以包括：

步骤S101，将所述语音特征输入所述多层传感器得到升维的语音特征，并将所述升维的语音特征输入所述双向长短期记忆网络得到基础人脸关键点；

步骤S102，将所述基础人脸关键点与预设的静态人脸关键点坐标进行级联，并将级联后的所述基础人脸关键点和所述静态人脸关键点输入至所述第二多层传感器得到坐标偏移值；

步骤S103，将所述坐标偏移值与所述静态人脸关键点的坐标相加得到人脸关键点。

需要说明的是，在本实施例中，第一深度学习模型包括：第一多层传感器(MLP)、第二多层传感器(MLP)和双向长短期记忆网络(LSTM)。在本实施例中旨在通过该第一MLP、双向LSTM以及第二MLP得到的当前时间帧对应的语音特征映射到68个3D人脸关键点的坐标偏移，进而基于该坐标偏移得到人脸关键点轮廓图。

具体地，例如，如图4所示，考虑到本实施例需要建模语音与人脸关键点的时序依赖关系，所以本实施例将构建基于LSTM的深度学习网络模型，即第一深度学习模型。在每个时间帧t，选取[t，t+16]时间帧窗口内的语音特征，将其输入到一个2层的隐含层特征维度都为256的第一MLP中，得到升维后的语音特征；再将该升维后的语音特征输入至一个3层的隐含层特征维度都为256的双向LSTM；将该LSTM层输出的256*2维度的基础人脸关键点与静止状态下的68*2维特征的68个人脸关键点坐标共进行级联；将级联后基础人脸关键点和多组所述静态人脸关键点输入到一个3层的特征维度分别为(512，256，68*2)的第二MLP(多层感知器)中，得到68个人脸关键点的x、y坐标偏移值，最后将该坐标偏移值与静止状态下的人脸关键点坐标相加，得到带有当前时刻面部运动信息的人脸关键点，并将每一帧3D的人脸关键点投影到二维并连接形成人脸轮廓图，以将包含人脸轮廓图的人脸轮廓视频输入至第二深度学习模型。

进一步地，上述步骤S20中，“将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频帧”，可以包括：

步骤S201，将所述人脸关键点轮廓图输入所述vid2vid深度网络模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。

需要说明的是，在本实施例中，第二深度学习模型包括：vid2vid深度网络模型。

终端设备在获取到通过第一深度学习模型生成的人脸轮廓视频后，将该人脸轮廓视频输入至vid2vid深度网络模型，进而通过该vid2vid深度网络模型得到与输入的语音信号一致的包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。本实施例通过vid2vid深度网络模型实现了在生成的数字人视频中语音信号与面部运动同步，且带有自然的头部姿态变化。

在本实施例中，通过包含第一MLP、第二MLP和LSTM的第一深度学习模型输出包含面部运动形象和头部姿态变化信息的人脸轮廓视频，并将该人脸轮廓视频输入至vid2vid深度网络模型得到对应的包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。因此，本发明提出了一种高质量的数字人说话视频的生成方式，能够从语音同时推断出人脸面部运动和头部姿态变化，使数字人说话视频既能保持语音与面部运动同步，也能够带有自然的头部姿态变化，本发明更具时间一致性，并且提升了视觉感知质量，进而提升了用户体验。

进一步地，基于上述本发明数字人说话视频生成方法的第一实施例和第二实施例，提出本发明数字人说话视频生成方法的第三实施例。

相对于第一实施例和第二实施例，在本实施例中，在上述步骤S10，“将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值”之前，还包括：

S30，基于预设的第一数据集，通过预设优化器对第一初始深度学习模型进行训练得到所述第一深度学习模型。

终端设备在通过第一深度学习模型生成人脸关键点和对应的人脸轮廓视频之前，需要使用预设的第一数据集对该第一深度学习模型进行训练，以提升第一深度学习模型输出结果的准确性。

具体地，例如，为了学习得到网络模型中的参数，本发明最小化预测出的人脸关键点坐标与其对应的真实值的L1损失函数，具体的误差函数如公式1所示：

其中，t表示时间帧，i表示关键点索引，p_i,t表示人脸关键点坐标的预测值，

表示人脸关键点坐标真实值。并在模型参数的训练过程中，采用Adam优化器优化参数，优化器的学习率设置为0.0001，beta值设置为(0.5，0.999)。训练批大小设置为64，在本实施例中累计针对该第一深度学习模型训练50轮。

进一步地，在上述步骤S30，“基于预设的第一数据集，通过预设优化器对第一初始深度学习模型进行训练得到所述第一深度学习模型”之前，还包括：

步骤S40，构建所述第一数据集；

终端设备在使用预设的第一数据集对该第一深度学习模型进行训练之前，需要预先构建该第一数据集。

所述“构建所述第一数据集”，可以包括：

步骤S401，通过人脸对齐算法提取预设样本视频中各个帧的多个3D人脸关键点，将所述各个帧的多个3D人脸关键点进行二维投影得到人脸关键点集；

步骤S402，将所述人脸关键点集作为第一数据集，以完成对所述第一数据集的构建。

为了对第一深度学习模型进行训练，在本实施例中制作了一个包含有3D人脸关键点数据和对应的语音数据的跨模态数据集。比如，首先在视频网站中选取了一段约20分钟的主播口播视频，采用现有的人脸对齐算法face-alignment提取视频中每一帧的68个3D人脸关键点，并将其坐标投影到2维平面得到多个2D人脸关键点，并将多个该2D人脸关键点作为训练数据的第一数据集，并将该第一数据集中的数据作为真实值对第一深度学习模型进行训练。

进一步地，在上述步骤S20，“将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频”之前，还可以包括：

步骤S50，通过预设的第二数据集对第二初始深度学习模型进行训练得到所述第二深度学习模型；

终端设备在通过vid2vid深度网络模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频的步骤之前，需要通过预设的第二数据集对第二初始深度学习模型进行训练得到vid2vid深度网络模型。

具体地，例如，vid2vid深度网络模型采用LSGAN损失函数，使用Adam优化器，Adam优化器的学习率设置为0.0002，beta值设置为(0.5，0.999)。一共训练40轮。

在所述通过预设的第二数据集对第二初始深度学习模型进行训练得到所述初始深度学习模型之前，还包括：

S60，构建所述第二数据集；

终端设备在使用预设的第二数据集对vid2vid深度网络模型进行训练之前，需要预先构建该第二数据集。

上述步骤S60，可以包括：

步骤S601，将所述人脸关键点集中各个帧的人脸关键点进行连线得到多个人脸轮廓图，并确定各个所述人脸轮廓图所对应的视频帧；

步骤S602，将所述人脸轮廓图与所述视频帧组成数据对，并将多个所述数据对作为第二数据集，以完成对所述第二数据集的构建。

需要说明的是，在本实施例中，训练vid2vid深度网络模型所使用的人脸关键点集与训练第一深度学习模型所用的人脸关键点集相同。

终端设备在通过人脸对齐算法face-alignment提取出的视频中每一帧的3D人脸关键点投影在256*256大小的图像上得到人脸关键点集后，连接人脸关键点集中的各个人脸关键点得到可视化人脸轮廓图，并将该人脸轮廓图与对应的预设样本的视频帧组成数据对，将该数据对作为vid2vid深度网络模型的训练数据集，即第二数据集。

进一步地，在上述步骤S10中，“获取预设语音信息的语音特征”，可以包括：

步骤S103，对预设语音信息进行离散傅里叶变换，并根据多个预设的三角梅尔尺度滤波器对离散傅里叶变换后的所述语音信息进行过滤得到对应的梅尔频率谱系数；

步骤S104，对所述梅尔频率谱系数取对数，并将对数化的梅尔频率谱系数进行一维正则化得到语音特征。

终端设备在获取到任意的语音信息后，将确定该语音信息的采样频率，在音频的采样率不为16000时，将其重采样到16000Hz；进而对每25ms的语音数据片段，进行离散傅里叶变换得到其在频率域的表达，其中，每个语音数据片段按10ms的间隔进行采样；用80个三角梅尔尺度滤波器对离散傅里叶变换后的语音信息进行滤波得到对应80维的梅尔频率谱系数；对80维的梅尔频率谱系数取对数，并将对数化的梅尔频率谱系数进行一维正则化得到语音特征。

在本实施例中，终端设备在通过第一深度学习模型和第二深度学习模型最终生成包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频之前，需要构建第一数据集和第二数据集，以通过该第一数据集和该第二数据集分别对该第一深度学习模型和第二深度学习模型进行训练，以提升深度学习模型输出结果的准确性，在此基础上，本发明能够从语音同时推断出人脸面部运动和头部姿态变化，使数字人说话视频既能保持语音与面部运动同步，也能够带有自然的头部姿态变化，本发明更具时间一致性，并且提升了视觉感知质量，进而提升了用户体验。

此外，本发明实施例还提出一种数字人说话视频生成系统，参照图3，图3为本发明数字人说话视频生成一实施例的功能模块示意图。如图3所示，本发明数字人说话视频生成系统，包括：

确定人脸关键点模块10，用于获取预设语音信息的语音特征，将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值，并基于所述人脸关键点坐标偏移值确定对应的人脸关键点；

确定数字人说话视频模块20，用于基于所述人脸关键点确定人脸轮廓视频，并将所述人脸轮廓视频输入第二深度学习模型确定包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。

进一步地，所述第一深度学习模型包括：第一多层传感器、第二多层传感器和双向长短期记忆网络；所述确定人脸关键点模块10，包括：

第一输入单元，用于将所述语音特征输入所述多层传感器得到升维的语音特征，并将所述升维的语音特征输入所述双向长短期记忆网络得到基础人脸关键点；

第二输入单元，用于将所述基础人脸关键点与预设的静态人脸关键点坐标进行级联，并将级联后的所述基础人脸关键点和所述静态人脸关键点输入至所述第二多层传感器得到坐标偏移值；

确定人脸关键点单元，用于将所述坐标偏移值与所述静态人脸关键点的坐标相加得到人脸关键点。

进一步地，所述数字人说话视频生成系统，还包括：

第一训练模块，用于基于预设的第一数据集，通过预设优化器对第一初始深度学习模型进行训练得到所述第一深度学习模型。

进一步地，所述数字人说话视频生成系统，还包括：

第一构建模块，用于构建所述第一数据集；

所述构建模块，包括：

二维投影单元，用于通过人脸对齐算法提取预设样本视频中各个帧的多个3D人脸关键点，将所述各个帧的多个3D人脸关键点进行二维投影得到人脸关键点集；

确定第一数据集单元，用于将所述人脸关键点集作为第一数据集，以完成对所述第一数据集的构建。

进一步地，所述数字人说话视频生成系统，还包括：

第二训练模块，用于通过预设的第二数据集对第二初始深度学习模型进行训练得到所述初始深度学习模型；

所述数字人说话视频生成系统，还包括：

第二构建模块，用于构建所述第二数据集；

所述第二构建模块，包括：

连线单元，用于将所述人脸关键点集中各个帧的人脸关键点进行连线得到多个人脸轮廓图，并确定各个所述人脸轮廓图所对应的视频帧；

确定第二数据集单元，用于将所述人脸轮廓图与所述视频帧组成数据对，并将多个所述数据对作为第二数据集，以完成对所述第二数据集的构建。

进一步地，所述第二深度学习模型包括：vid2vid深度网络模型，所述确定数字人说话视频模块20，包括：

确定数字人说话视频模块单元，用于将所述人脸关键点轮廓图输入所述vid2vid深度网络模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。

进一步地，所述确定人脸关键点模块10，包括：

过滤单元，用于对预设语音信息进行离散傅里叶变换，并根据多个预设的三角梅尔尺度滤波器对离散傅里叶变换后的所述语音信息进行过滤得到对应的梅尔频率谱系数；

获取语音特征单元，用于对所述梅尔频率谱系数取对数，并将对数化的梅尔频率谱系数进行一维正则化得到语音特征。

本发明数字人说话视频生成系统的各个功能模块的具体实施方式与上述数字人说话视频生成方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有数字人说话视频生成程序，所述数字人说话视频生成程序被处理器执行时实现如上所述的数字人说话视频生成方法的步骤。

本发明数字人说话视频生成系统和计算机可读存储介质的各实施例，均可参照本发明数字人说话视频生成方法各个实施例，此处不再赘述。

此外，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如以上数字人说话视频生成方法的任一项实施例所述的数字人说话视频生成方法的步骤。

本发明计算机程序产品的具体实施例与上述数字人说话视频生成方法的各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是计算机和服务器等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数字人说话视频生成方法，其特征在于，所述数字人说话视频生成方法应用于机器人，所述数字人说话视频生成方法包括以下步骤：

2.如权利要求1所述的数字人说话视频生成方法，其特征在于，所述第一深度学习模型包括：第一多层传感器、第二多层传感器和双向长短期记忆网络；

所述将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值，并基于所述人脸关键点坐标偏移值得到对应的人脸关键点的步骤，包括：

3.如权利要求1所述的数字人说话视频生成方法，其特征在于，在所述将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值的步骤之前，还包括：

4.如权利要求3所述的数字人说话视频生成方法，其特征在于，在所述基于预设的第一数据集，通过预设优化器对预设第一初始深度学习模型进行训练得到所述第一深度学习模型的步骤之前，还包括：

构建所述第一数据集；

所述构建所述第一数据集的步骤，包括：

5.如权利要求4所述的数字人说话视频生成方法，其特征在于，在所述将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频的步骤之前，还包括：

构建所述第二数据集；

所述构建所述第二数据集的步骤，包括：

6.如权利要求1所述的数字人说话视频生成方法，其特征在于，所述第二深度学习模型包括：vid2vid深度网络模型，所述将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频的步骤，包括：

将所述人脸轮廓视频输入所述vid2vid深度网络模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。

7.如权利要求1所述的数字人说话视频生成方法，其特征在于，所述获取预设语音信息的语音特征的步骤，包括：

8.一种数字人说话视频生成系统，其特征在于，所述数字人说话视频生成系统包括：

9.一种终端设备，其特征在于，所述终端设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的数字人说话视频生成程序，所述数字人说话视频生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的数字人说话视频生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数字人说话视频生成程序，所述数字人说话视频生成程序被处理器执行时实现如权利要求1至7中任一项所述的数字人说话视频生成方法的步骤。