CN116634242A

CN116634242A - 语音驱动的说话视频生成方法、系统、设备和存储介质

Info

Publication number: CN116634242A
Application number: CN202310521219.5A
Authority: CN
Inventors: 李冠彬; 钟伟至; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-08-22

Abstract

本发明公开了语音驱动的说话视频生成方法、系统、设备和存储介质，包括将语音数据、参考关键点和人脸姿势先验关键点输入关键点预测模型，得到第一人脸关键点，将第一人脸关键点和人脸姿势先验关键点进行组合，得到目标轮廓图；从原始说话视频数据中提取原始人脸图，将原始人脸图、目标轮廓图和语音数据输入关键点渲染模型进行图像扭曲和图像合成，得到与所述目标轮廓图相对应的合成人脸图；使用合成人脸图对原始人脸图进行逐帧替换，并对替换后的视频帧进行高斯平滑和帧合并，得到说话视频数据。本发明能够准确预测人脸关键点，并能够将关键点轮廓渲染成真实的说话视频，本发明保留了更多ID信息，使生成的人脸更加真实逼真，视频效果更加真实。

Description

语音驱动的说话视频生成方法、系统、设备和存储介质

技术领域

本发明涉及视频处理技术领域，特别是涉及语音驱动的说话视频生成方法、系统、设备和存储介质。

背景技术

随着科学技术的发展，电视、视频、电影等多媒体内容充斥着人们的生活。语音驱动的说话视频生成作为一种多媒体内容创作技术，可以根据任意一段语音输入及人物的参考视频，自动地生成一个人物说话的视频，尤其是视频中的嘴型与输入语音是同步的。这项技术极大地降低了说话视频的创作成本，在生活中有广泛的应用场景。近年来，随着深度学习和计算机视觉的发展，深度神经网络已广泛应用于语音驱动的说话视频生成的研究之中。

在这类研究中，可以根据方法所需的训练数据以及训练模式分为两大类方法。其中一大类是人物特定型方法，以AD-NeRF为代表，该类方法为了生成某个人物的说话视频，需要收集该人物的一些说话视频作为训练数据，为该人物训练一个深度学习模型，训练好的模型根据输入语音以及一些参考信息，生成该人物的说话视频；另外一类则是人物通用型方法，以Wav2Lip为代表，该类方法首先在一个大规模的多人数据集上训练好，这个预训练好的模型，可以应用到任何人物的说话视频生成。但是目前这两种方法都具有一定的局限性，现有的人物特定型方法虽然能够生成较逼真的效果，但是为特定人物训练特定模型所需要的成本太过高昂，限制了应用价值。而现有的人物通用型方法，在应用时由于预训练的模型没有见过某个特定人物的信息，普遍存在着ID保留问题，即生成的说话视频中，人物看起来不像真实的那个人，丢失了一些ID细节，而更像数据集中所有人物的平均情形。此外，大部分人物通用型方法生成的视频还存在模糊或者有瑕疵的现象，生成效果看起来不够真实。

发明内容

为了解决上述技术问题，本发明提供了一种语音驱动的说话视频生成方法、系统、设备和存储介质，以能够在生成的说话视频能够更好地保留人物ID细节，同时减轻模糊和瑕疵的现象，从而使生成的人脸更加逼真，生成的视频效果更加真实。

第一方面，本发明提供了语音驱动的说话视频生成方法，所述方法包括：

获取语音数据和原始说话视频数据，从所述原始说话视频数据中提取参考关键点和人脸姿势先验关键点；

将所述语音数据、所述参考关键点和所述人脸姿势先验关键点输入预先训练好的关键点预测模型进行关键点预测，得到第一人脸关键点，并将所述第一人脸关键点和所述人脸姿势先验关键点进行组合，得到目标轮廓图；其中，所述关键点预测模型包括参考编码器、语音编码器、姿态编码器和Transformer编码器；

从所述原始说话视频数据中提取原始人脸图，将所述原始人脸图、所述目标轮廓图和所述语音数据输入预先训练好的关键点渲染模型进行图像扭曲和图像合成，得到与所述目标轮廓图相对应的合成人脸图，其中，所述关键点渲染模型包括光流子模型和轮廓转换子模型；

使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换，并对替换后的视频帧进行高斯平滑和帧合并，得到与所述语音数据相匹配的说话视频数据。

进一步地，所述从所述原始说话视频数据中提取参考关键点和人脸姿势先验关键点的步骤包括：

从所述原始说话视频数据中随机选取第一帧数的视频帧，对所述视频帧进行人脸关键点提取，得到参考关键点；

将所述原始说话视频数据按照第二帧数顺序分为若干个视频帧片段，分别对每个所述视频帧片段进行人脸上半脸关键点提取，得到人脸姿势先验关键点。

进一步地，所述将所述语音数据、所述参考关键点和所述人脸姿势先验关键点输入预先训练好的关键点预测模型进行关键点预测，得到第一人脸关键点的步骤包括：

将所述语音数据输入所述语音编码器，将所述参考关键点输入所述参考编码器，将所述人脸姿势先验关键点输入所述姿态编码器，分别得到语音特征向量、参考特征向量和姿态特征向量；

根据所述语音特征向量、所述参考特征向量和所述姿态特征向量，生成对应的位置编码和模态编码，并将所述参考特征向量、所述语音特征向量、所述姿态特征向量、所述位置编码和所述模态编码输入所述Transformer编码器进行关键点预测，得到第一人脸关键点，所述第一人脸关键点包括嘴巴关键点和下巴关键点。

进一步地，所述将所述原始人脸图、所述目标轮廓图和所述语音数据输入预先训练好的关键点渲染模型进行图像扭曲和图像合成，得到与所述目标轮廓图相对应的合成人脸图的步骤包括：

随机选取若干张原始人脸图作为人脸参考图，并对所述人脸参考图进行轮廓提取，得到参考轮廓图；

将所述人脸参考图、所述参考轮廓图和所述目标轮廓图输入所述光流子模型进行光流预测，得到光流场和权重值；

根据所述光流场对所述人脸参考图和中间特征图进行扭曲，并根据所述权重值分别对扭曲后的人脸参考图和扭曲后的中间特征图进行加权求和，得到扭曲参考图和扭曲特征图，所述中间特征图由所述光流子模型对所述人脸参考图进行编码得到；

对所述原始人脸图的下半脸进行遮蔽，得到人脸遮蔽图，将所述人脸遮蔽图、所述目标轮廓图、所述语音数据、所述扭曲参考图和所述扭曲特征图输入所述轮廓转换子模型进行轮廓图像转换，得到与所述目标轮廓图相对应的合成人脸图。

进一步地，所述使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换，并对替换后的视频帧进行平滑处理和帧合并，得到与所述语音数据相匹配的说话视频数据的步骤包括：

使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换，并对替换后的视频帧进行人脸关键点检测，得到人脸外轮廓关键点；

根据所述人脸外轮廓关键点，绘制得到第一人脸掩码，对所述第一人脸掩码进行互补运算，得到第一背景掩码，并对所述第一人脸掩码和所述第一背景掩码进行高斯平滑，得到第二人脸掩码和第二背景掩码；

将替换后的视频帧与所述第二人脸掩码进行逐元素相乘，得到合成人脸帧，并将替换前的视频帧与所述第二背景掩码进行逐元素相乘，得到背景内容帧；

将所述合成人脸帧与所述背景内容帧对应相加，得到合成视频帧，并对所述合成视频帧进行帧合并，得到与所述语音数据相匹配的说话视频数据。

进一步地，所述参考编码器和所述姿态编码器由一维卷积神经网络组成，所述语音编码器由二维卷积神经网络组成；

所述光流子模型包括依次连接的第一卷积层、第二卷积层、第一空间自适应归一化模块、第二空间自适应归一化模块、第一像素重排层、第三空间自适应归一化模块和第三卷积层；

所述轮廓转换子模块包括依次连接的第四卷积层、第五卷积层、第四空间自适应归一化模块、第一自适应实例归一化模块、第二像素重排层、第五空间自适应归一化模块、第二自适应实例归一化模块、第六空间自适应归一化模块和第六卷积层。

进一步地，所述关键点预测模型的损失函数由L1损失和速度损失组成，所述关键点渲染模型的损失函数由扭曲损失、图像重构损失、风格损失、判别损失和特征匹配损失组成；

其中，采用如下公式表示所述关键点预测模型的损失函数：

L_Y＝L₁+L_v

式中，L₁表示L1损失，L_v表示速度损失；

采用如下公式表示所述关键点渲染模型的损失函数：

L_G＝λ_wL_w+λ_rL_r+λ_sL_s+λ_gL_g+λ_fL_f

式中，L_w表示扭曲损失，L_r表示图像重构损失，L_s表示风格损失，L_g表示判别损失，L_f表示特征匹配损失，λ_w、λ_r、λ_s、λ_g、λ_f分别表示扭曲损失、图像重构损失、风格损失、判别损失和特征匹配损失的权重值。

第二方面，本发明提供了语音驱动的说话视频生成系统，所述系统包括：

数据获取模块，用于获取语音数据和原始说话视频数据，从所述原始说话视频数据中提取参考关键点和人脸姿势先验关键点；

关键点预测模型，用于将所述语音数据、所述参考关键点和所述人脸姿势先验关键点输入预先训练好的关键点预测模型进行关键点预测，得到第一人脸关键点，并将所述第一人脸关键点和所述人脸姿势先验关键点进行组合，得到目标轮廓图；其中，所述关键点预测模型包括参考编码器、语音编码器、姿态编码器和Transformer编码器；

关键点渲染模型，用于从所述原始说话视频数据中提取原始人脸图，将所述原始人脸图、所述目标轮廓图和所述语音数据输入预先训练好的关键点渲染模型进行图像扭曲和图像合成，得到与所述目标轮廓图相对应的合成人脸图，其中，所述关键点渲染模型包括光流子模型和轮廓转换子模型；

数据处理模块，用于使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换，并对替换后的视频帧进行高斯平滑和帧合并，得到与所述语音数据相匹配的说话视频数据。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明提供了一种语音驱动的说话视频生成方法、系统、计算机设备和存储介质。本发明通过以关键点为中间特征的两阶段框架，不仅能够准确预测人脸关键点，使生成视频中人脸各部位的轮廓更真实，保留更多人物ID信息，并且能够将准确预测的关键点轮廓渲染成真实的说话视频，在渲染过程中能够充分利用外观先验，从而使生成的人脸更加逼真，生成的视频效果更加真实。

附图说明

图1是本发明实施例中说话视频生成方法的流程示意图；

图2是本发明实施例中说话视频生成方法的整体框架图；

图3是图2中参考编码器的模型结构示意图；

图4是图2中语音编码器的模型结构示意图；

图5是图2中姿态编码器的模型结构示意图；

图6是图2中光流子模型的模型结构示意图；

图7是图2中轮廓转换子模型的模型结构示意图；

图8是本发明实施例中数据后处理流程示意图；

图9是本发明实施例中说话视频生成系统的结构示意图；

图10是本发明实施例中计算机设备的内部结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明第一实施例提出的一种语音驱动的说话视频生成方法，包括步骤S10～S40：

步骤S10，获取语音数据和原始说话视频数据，从所述原始说话视频数据中提取参考关键点和人脸姿势先验关键点。

语音驱动的说话视频生成作为一种多媒体内容创作技术，可以根据任意一段语音输入及人物的参考视频，自动地生成一个人物说话的视频，尤其是视频中的嘴型与输入语音是同步的，本发明是根据输入的语音来编辑人脸的下半部分，使编辑后的视频中嘴型和下巴动作与输入语音同步，从而生成说话视频。

请参阅图2所示的整体框架图，本发明提出了一种基于关键点为中间表征的两阶段的框架，包括语音预测关键点阶段和关键点渲染阶段，在语音预测关键点阶段是根据输入的语音数据以及一些关键点先验信息，通过关键点预测模型来预测下巴和嘴巴的关键点，为此，我们首先需要获取这些关键点先验信息，其具体步骤如下所示：

步骤S101，从所述原始说话视频数据中随机选取第一帧数的视频帧，对所述视频帧进行人脸关键点提取，得到参考关键点；

步骤S102，将所述原始说话视频数据按照第二帧数顺序分为若干个视频帧片段，分别对每个所述视频帧片段进行人脸上半脸关键点提取，得到人脸姿势先验关键点。

本发明所使用的关键点先验信息包括参考关键点和人脸姿势先验关键点，其中，参考关键点是一些能够代表整张人脸的关键点，用于向神经网络提供目标人物的人脸轮廓信息，使预测得到的关键点更加符合该人物的ID。在本实施例中，我们从输入的原始说话视频中随机选取若干帧画面，比如选取15帧画面，提取这些画面的人脸关键点作为参考关键点。

人脸姿势先验关键点则是一些能够代表人脸姿势的上半脸关键点，它告诉神经网络当前人脸的朝向，使预测的下巴和嘴巴关键点符合当前人脸的姿势，由于视频中的人脸姿势是活动的，因此，人脸姿势先验关键点需要根据输入的原始说话视频的视频帧顺序进行分段提取。假设后续的关键点预测模型每一次会预测连续5帧画面也就是0.2s的关键点，为此，其预测所需要的人脸姿势先验关键点也按照该帧数进行提取，即，将原始说话视频中的视频帧按照关键点预测模型的每次预测帧数，比如5帧，顺序划分为若干个帧片段，然后从每个帧片段中提取人脸姿势先验关键点。

步骤S20，将所述语音数据、所述参考关键点和所述人脸姿势先验关键点输入预先训练好的关键点预测模型进行关键点预测，得到第一人脸关键点，并将所述第一人脸关键点和所述人脸姿势先验关键点进行组合，得到目标轮廓图；其中，所述关键点预测模型包括参考编码器、语音编码器、姿态编码器和Transformer编码器。

在通过上述步骤得到关键点先验信息后，就可以根据输入的语音数据和这些关键点先验信息通过关键点预测模型进行下巴和嘴巴的关键点预测，具体步骤如下所示：

步骤S201，将所述语音数据输入所述语音编码器，将所述参考关键点输入所述参考编码器，将所述人脸姿势先验关键点输入所述姿态编码器，分别得到语音特征向量、参考特征向量和姿态特征向量；

步骤S202，根据所述语音特征向量、所述参考特征向量和所述姿态特征向量，生成对应的位置编码和模态编码，并将所述参考特征向量、所述语音特征向量、所述姿态特征向量、所述位置编码和所述模态编码输入所述Transformer编码器进行关键点预测，得到第一人脸关键点，所述第一人脸关键点包括嘴巴关键点和下巴关键点。

如图2所示，本实施例中的关键点预测模型包括参考编码器、语音编码器、姿态编码器和Transformer编码器，参考关键点和人脸姿势先验关键点/>都是一维向量的形式，向量中存储了这些关键点的相对坐标值，它们首先分别输入至由1维卷积神经网络组成的参考编码器和姿态编码器，编码得到含高级语义的参考特征向量r₁～r_Nl和姿态特征向量p₁～p₅。语音输入的梅尔谱图特征m_t是二维矩阵的形式，它输入至由二维卷积神经网络组成的语音编码器，得到含高级语义的语音特征向量a₁～a₅。

请参阅图3，参考编码器是由若干层一维卷积层组成，在本实施例中，参考编码器具体是由六个卷积块组成，其中前四个卷积块中每个卷积块均包括三个卷积层，后两个卷积块中则每个卷积块包括两个卷积层，图中，Conv1D代表一维卷积层，in和out分别代表输入和输出的通道数，k代表卷积核的大小，s代表卷积操作的步幅，p代表填充。BN代表批归一化层，Residual代表残差连接，ReLU为神经网络的激活函数。

请参阅图4，语音编码器是由若干层二维卷积层组成，在本实施例中，语音编码器具体是由五个卷积块组成，其中，前三个卷积块中每个卷积块均包括三个卷积层，后两个卷积块中每个卷积块均包括两个卷积层，图中，Conv2D代表一维卷积层，其他参数含义与图3相同，后续将不再重复。

请参阅图5，姿态编码器也是由若干层一维卷积层组成，在本实施例中，姿态编码器具体是由八个卷积块组成，其中，前六个卷积块中每个卷积块均包括三个卷积层，第七个卷积块包括两个卷积层，第八个卷积块则包括三个卷积层。需要说明的是，本实施例中为所有的模型提供的参数设置请参阅模型对应的附图，在此将不再一一详述，本实施例中各个模型的具体结构只作为一种优选而非限定，在不脱离本发明技术原理的前提下，其结构和配置参数可以根据实际情况进行灵活设置，后续也将不再一一赘述。

通过上述的三个编码器会生成参考特征向量、语音特征向量、姿态特征向量三种特征向量，而每种特征向量的模态并不相同，并且由于姿态特征向量是根据输入的原始说话视频的帧顺序来提取的，因此其具有帧的序列要求，而当三种特征向量共同输入Transformer编码器时，编码器并没有办法对其模态以及视频帧的顺序进行区分，为此，还需要根据生成的这三种特征向量的模态以及输入的视频帧顺序，生成对应的位置编码和模态编码，然后将参考特征向量、语音特征向量、姿态特征向量、位置编码和模态编码输入至Transformer编码器网络，使Transformer编码器能够准确区分三种不同的输入向量，从而能够更好的进行关键点预测。

本实施例中的Transformer编码器有4层，每层包含4个注意力头，且中间特征的维度是512，其输出特征向量对应于语音输入和姿势输入，即参考特征向量、语音特征向量、姿态特征向量三种特征向量均在编码器中参与了关键点预测，但是编码器的输出向量的个数是与语音特征向量、姿态特征向量相对应的，比如在本实施例中语音特征向量、姿态特征向量的输入个数均为5，而编码器的输出向量则为10个即和/>Transformer编码器的输出特征再经过一个线性层后，会被映射为预测的嘴巴关键点和下巴关键点。

将预测到的嘴巴和下巴关键点与代表人脸姿势的上半脸关键点进行组合，就可以在二维图像平面上画出目标轮廓图像。本发明通过基于基于Transformer神经网络的语音预测关键点模块，能够准确地预测嘴巴和下巴的关键点，使生成的说话视频的嘴型更准确，同时保留了更多ID信息。

步骤S30，从所述原始说话视频数据中提取原始人脸图，将所述原始人脸图、所述目标轮廓图和所述语音数据输入预先训练好的关键点渲染模型进行图像扭曲和图像合成，得到与所述目标轮廓图相对应的合成人脸图，其中，所述关键点渲染模型包括光流子模型和轮廓转换子模型。

如图2所示，本发明提出的两阶段框架的第二阶段是关键点渲染阶段，该阶段通过关键点渲染模型来进行图像渲染，本实施例中的关键点渲染模型包括两个子模型，分别为光流子模型和轮廓转换子模型，其中光流子模型用于对图像进行扭曲，轮廓转换子模型则用于将生成的目标轮廓图转换为人脸图，其具体步骤如下所示：

步骤S301，随机选取若干张原始人脸图作为人脸参考图，并对所述人脸参考图进行轮廓提取，得到参考轮廓图。

步骤S302，将所述人脸参考图、所述参考轮廓图和所述目标轮廓图输入所述光流子模型进行光流预测，得到光流场和权重值。

步骤S303，根据所述光流场对所述人脸参考图和中间特征图进行扭曲，并根据所述权重值分别对扭曲后的人脸参考图和扭曲后的中间特征图进行加权求和，得到扭曲参考图和扭曲特征图，所述中间特征图由所述光流子模型对所述人脸参考图进行编码得到。

步骤S304，对所述原始人脸图的下半脸进行遮蔽，得到人脸遮蔽图，将所述人脸遮蔽图、所述目标轮廓图、所述语音数据、所述扭曲参考图和所述扭曲特征图输入所述轮廓转换子模型进行轮廓图像转换，得到与所述目标轮廓图相对应的合成人脸图。

本实施例中为了将目标轮廓渲染成真实的人脸图像，需要从多张参考图中获取人物的外观先验信息，而为了更有效地从参考图中提取外观先验信息，本发明设计了一个光流子模型对参考图进行扭曲。如图2所示，首先，从输入的原始说话视频中提取若干张原始人脸图作为人脸参考图然后提取人脸参考图的轮廓图，得到参考轮廓图/>每张人脸参考图和参考轮廓图在通道维度上进行拼接后，就可以输入到光流子模型中。

本实施例中的光流子模型包括依次连接的第一卷积层、第二卷积层、第一空间自适应归一化模块、第二空间自适应归一化模块、第一像素重排层、第三空间自适应归一化模块和第三卷积层，请参阅图6，图中Conv2D代表二维卷积层，SPADE代表SPADE层，即空间自适应归一化层，mod代表SPADE层调制输入的通道数量，h代表SPADE层的隐藏层通道数量，Pixel Shuffle代表像素重排层，Leaky_ReLU、Sigmoid为神经网络的激活函数。其中，光流子模型包含了三个空间自适应归一化模块即SPADE模块，每个SPADE模块均由两个SPADE层和两个二维卷积层组成。

通过上述步骤生成是目标轮廓图通过第一空间自适应归一化模块输入到光流子模型中，光流子模型为每张人脸参考图输出一个光流场F_1:N以及权重值，人脸参考图在输入光流子模型后会通过卷积层进行编码生成中间特征图，根据光流场可以对参考图以及它们编码得到的中间特征图进行扭曲，使扭曲后的参考图的表情和姿势与目标轮廓图一致，从而使渲染的时候能够更加有效地利用参考图。每一张扭曲后的参考图以及特征图再乘以该参考图对应的权重，最后所有扭曲参考图以及特征图通过加权和的方式，汇总成一张扭曲参考图以及扭曲特征图。

本实施例中的轮廓转换子模型用于将目标轮廓图转换成一帧人脸图，记为第t帧，为了使生成的视频具有更好的连续性，我们选取第t帧以及周围几帧的目标轮廓图输入至转换模块。由于本发明提出的方法是根据输入的语音来编辑下半脸部分，使编辑后的视频中嘴型和下巴动作与输入语音同步，因此生成图的上半脸部分可以直接参照参考视频中的原始上半脸部分。一张包含上半脸内容的人脸遮蔽图和目标轮廓图L_t-k:t+k在RGB通道维度上拼接后，一起输入至轮廓转换子模型，其中，人脸遮蔽图的下半部分被0值填充，以达到遮蔽的效果。

本实施例中的轮廓转换子模块包括依次连接的第四卷积层、第五卷积层、第四空间自适应归一化模块、第一自适应实例归一化模块、第二像素重排层、第五空间自适应归一化模块、第二自适应实例归一化模块、第六空间自适应归一化模块和第六卷积层，请参阅图7，Conv2D代表二维卷积层，SPADE和AdaIN代表SPADE层和AdaIN层，即空间自适应归一化层和自适应实例归一化层，mod代表SPADE层或AdaIN层调制输入的通道数量，h代表SPADE层或AdaIN层的隐藏层通道数量，Pixel Shuffle代表像素重排层，Leaky_ReLU、Sigmoid为神经网络的激活函数。其中，轮廓转换子模型包含了三个空间自适应归一化模块即SPADE模块，以及两个自适应实例归一化模块及AdaIN模块，每个SPADE模块均由两个SPADE层和两个二维卷积层组成，每个AdaIN模块均由两个AdaIN层和两个二维卷积层组成。

语音数据以语音特征向量的形式通过第二自适应实例归一化模块输入至轮廓转换子模型，语音特征向量的获取方法与上述关键点预测阶段的获取方法相同，语音特征向量的作用是在渲染过程中增强嘴巴的细节以及嘴型，使生成人脸图的嘴型和语音更加同步。由光流子模型扭曲处理过的参考图以及相应的特征图，则通过第六空间自适应归一化模块输入至轮廓转换子模型，为渲染过程提供更多的外观先验信息，使渲染得到的真实人脸图更逼真，保留更多ID细节，通过轮廓转换子模型就可以将目标轮廓图转换为合成人脸图

步骤S40，使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换，并对替换后的视频帧进行高斯平滑和帧合并，得到与所述语音数据相匹配的说话视频数据。

通过上述模型生成的是人脸图，并不包含背景内容，为了得到说话视频，我们还需要将生成的人脸图贴回至参考视频，替换原始的人脸。然而，直接将生成的人脸图贴回至参考视频，会存在下巴周围有瑕疵的现象，如图8中的“处理前”所示。为了减轻这种瑕疵模糊的现象，本发明设计了一种后处理方法，具体步骤如下所示：

步骤S401，使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换，并对替换后的视频帧进行人脸关键点检测，得到人脸外轮廓关键点；

步骤S402，根据所述人脸外轮廓关键点，绘制得到第一人脸掩码，对所述第一人脸掩码进行互补运算，得到第一背景掩码，并对所述第一人脸掩码和所述第一背景掩码进行高斯平滑，得到第二人脸掩码和第二背景掩码；

步骤S403，将替换后的视频帧与所述第二人脸掩码进行逐元素相乘，得到合成人脸帧，并将替换前的视频帧与所述第二背景掩码进行逐元素相乘，得到背景内容帧；

步骤S404，将所述合成人脸帧与所述背景内容帧对应相加，得到合成视频帧，并对所述合成视频帧进行帧合并，得到与所述语音数据相匹配的说话视频数据。

请参阅图8，首先使用合成人脸图对原始说话视频中的原始人脸图进行逐帧替换，对于替换后的视频帧执行人脸关键点检测算法，得到人脸外轮廓关键点，并根据这些关键点绘制出人脸掩码。对人脸掩码执行互补运算得到背景掩码，背景掩码和人脸掩码再通过高斯平滑操作，使它们的边界能够平滑过渡；然后，将替换后的视频帧逐元素乘以人脸掩码得到合成人脸帧，并将原始说话视频中的视频帧即替换前的视频帧逐元素乘以背景掩码得到背景内容帧，将合成人脸帧和背景内容帧对应相加，就可以得到最终的合成视频帧，最后将所有的合成视频帧进行合并，就可以生成与语音数据相匹配的说话视频数据。本发明提供的这种后处理方法可以有效减轻直接进行人脸替换导致的图像瑕疵模糊问题，能够使生成的说话视频效果更加真实。

进一步地，本发明提出的方法框架分为语音预测关键点阶段和关键点渲染阶段，这两个阶段的模型训练是独立进行的，在语音预测关键点阶段对于关键点预测模型是采用L1损失和速度损失作为模型的损失函数，其中，L1损失的计算公式如下所示：

式中，和/>分别表示预测的嘴巴和下巴关键点，分别表示嘴巴和下巴的答案关键点，t表示第t帧，T表示一次预测的总帧数。

速度损失使预测的不同帧的关键点之间具有更好的连续性，其计算公式如下：

在本实施例中可以将T设置为5，即每次预测连续5帧画面的关键点，即T的数值是根据每次预测的实际帧数来确定的。

因此，在语音预测关键阶段所使用的总的损失函数为：

L_Y＝L₁+L_v

在关键点渲染阶段根据渲染的流程可知，损失函数应当包括扭曲损失L_w、图像重构损失L_r、风格损失L_s、判别损失L_g和特征匹配损失L_f，其中，扭曲损失的计算公式如下所示：

式中，φ_i表示VGG-19网络第i层的激活输出，表示扭曲后的参考图，I_t表示答案图像。

图像重构损失和风格损失的计算公式分别如下所示：

式中，表示转换模块输出的生成图，/>表示VGG-19网络中由激活输出φ_i推导出的Gram矩阵。

判别损失和特征匹配损失由PatchGAN提供，属于常规损失函数，在此不再重复说明。

由此可得，在关键点渲染阶段所使用的总的损失函数为：

L_G＝λ_wL_w+λ_rL_r+λ_sL_s+λ_gL_g+λ_fL_f

式中，λ_w、λ_r、λ_s、λ_g、λ_f分别表示扭曲损失、图像重构损失、风格损失、判别损失和特征匹配损失的权重值，这些权重值可以根据实际情况自行设置，比如在本实施例中可以将权重值设置为：

λ_w＝2.5,λ_r＝4,λ_s＝1000,λ_g＝0.25,λ_f＝2.5

通过上述将两个阶段的模型进行独立训练的方式，可以更有针对性的对每个模型进行训练，从而进一步提高了模型输出的准确性。

本实施例提供的一种语音驱动的说话视频生成方法，相比传统方法生成的视频中人物不够真实且生成效果存在瑕疵的问题，本发明采用关键点为中间表征，通过基于transformer的语音预测关键点模块，能够准确地预测嘴巴和下巴的关键点，使生成的说话视频的嘴型更准确，同时保留更多ID信息，通过关键点渲染阶段的光流模块对多张参考图进行扭曲并加权汇总，从而为渲染过程提供了更多的外观先验信息，使生成的人脸更加真实，同时保留更多ID细节。本发明提供了一种人物通用型方法，不仅成本低，并且生成的视频效果逼真，能够更好地保留人物的ID信息，并且本发明重点关注根据语音重新生成人脸的下半部分，而姿势、表情、背景等内容可以重用参考视频中的，通过后处理可以无缝组合生成的人脸和背景，简化了问题，从而取得更好的效果。

请参阅图9，基于同一发明构思，本发明第二实施例提出的一种语音驱动的说话视频生成系统，包括：

数据获取模块10，用于获取语音数据和原始说话视频数据，从所述原始说话视频数据中提取参考关键点和人脸姿势先验关键点；

关键点预测模型20，用于将所述语音数据、所述参考关键点和所述人脸姿势先验关键点输入预先训练好的关键点预测模型进行关键点预测，得到第一人脸关键点，并将所述第一人脸关键点和所述人脸姿势先验关键点进行组合，得到目标轮廓图；其中，所述关键点预测模型包括参考编码器、语音编码器、姿态编码器和Transformer编码器；

关键点渲染模型30，用于从所述原始说话视频数据中提取原始人脸图，将所述原始人脸图、所述目标轮廓图和所述语音数据输入预先训练好的关键点渲染模型进行图像扭曲和图像合成，得到与所述目标轮廓图相对应的合成人脸图，其中，所述关键点渲染模型包括光流子模型和轮廓转换子模型；

数据处理模块40，用于使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换，并对替换后的视频帧进行高斯平滑和帧合并，得到与所述语音数据相匹配的说话视频数据。

进一步地，数据获取模块10还包括：

参考关键点获取模块101，用于从所述原始说话视频数据中随机选取第一帧数的视频帧，对所述视频帧进行人脸关键点提取，得到参考关键点；

先验关键点获取模块102，用于将所述原始说话视频数据按照第二帧数顺序分为若干个视频帧片段，分别对每个所述视频帧片段进行人脸上半脸关键点提取，得到人脸姿势先验关键点。

关键点预测模型20还包括：

第一编码模块201，用于将所述语音数据、所述参考关键点和所述人脸姿势先验关键点分别输入所述语音编码器、所述参考编码器和所述姿态编码器，得到语音特征向量、参考特征向量和姿态特征向量；

第二编码模块202，用于根据所述语音特征向量、所述参考特征向量和所述姿态特征向量，生成对应的位置编码和模态编码，并将所述参考特征向量、所述语音特征向量、所述姿态特征向量、所述位置编码和所述模态编码输入所述Transformer编码器进行关键点预测，得到第一人脸关键点，所述第一人脸关键点包括嘴巴关键点和下巴关键点。

关键点渲染模型30还包括：

轮廓图获取模块301，用于随机选取若干张原始人脸图作为人脸参考图，并对所述人脸参考图进行轮廓提取，得到参考轮廓图；

光流子模型302，用于将所述人脸参考图、所述参考轮廓图和所述目标轮廓图输入所述光流子模型进行光流预测，得到光流场和权重值；

图像扭曲模块303，用于根据所述光流场对所述人脸参考图和中间特征图进行扭曲，并根据所述权重值分别对扭曲后的人脸参考图和扭曲后的中间特征图进行加权求和，得到扭曲参考图和扭曲特征图，所述中间特征图由所述光流子模型对所述人脸参考图进行编码得到；

轮廓转换子模型304，用于对所述原始人脸图的下半脸进行遮蔽，得到人脸遮蔽图，将所述人脸遮蔽图、所述目标轮廓图、所述语音数据、所述扭曲参考图和所述扭曲特征图输入所述轮廓转换子模型进行轮廓图像转换，得到与所述目标轮廓图相对应的合成人脸图。

数据处理模块40还包括：

外轮廓关键点获取模块401，用于使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换，并对替换后的视频帧进行人脸关键点检测，得到人脸外轮廓关键点；

掩码计算模块402，用于根据所述人脸外轮廓关键点，绘制得到第一人脸掩码，对所述第一人脸掩码进行互补运算，得到第一背景掩码，并对所述第一人脸掩码和所述第一背景掩码进行高斯平滑，得到第二人脸掩码和第二背景掩码；

帧生成模块403，用于将替换后的视频帧与所述第二人脸掩码进行逐元素相乘，得到合成人脸帧，并将替换前的视频帧与所述第二背景掩码进行逐元素相乘，得到背景内容帧；

帧合并模块404，用于将所述合成人脸帧与所述背景内容帧对应相加，得到合成视频帧，并对所述合成视频帧进行帧合并，得到与所述语音数据相匹配的说话视频数据。

本发明实施例提出的语音驱动的说话视频生成系统的技术特征和技术效果与本发明实施例提出的方法相同，在此不予赘述。上述语音驱动的说话视频生成系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图10，一个实施例中计算机设备的内部结构图，该计算机设备具体可以是终端或服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现语音驱动的说话视频生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域普通技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算设备可以包括比途中所示更多或更少的部件，或者组合某些部件，或者具有相同的部件布置。

此外，本发明实施例还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

综上，本发明实施例提出的语音驱动的说话视频生成方法、系统、设备和存储介质，所述方法通过获取语音数据和原始说话视频数据，从所述原始说话视频数据中提取参考关键点和人脸姿势先验关键点；将所述语音数据、所述参考关键点和所述人脸姿势先验关键点输入预先训练好的关键点预测模型进行关键点预测，得到第一人脸关键点，并将所述第一人脸关键点和所述人脸姿势先验关键点进行组合，得到目标轮廓图；其中，所述关键点预测模型包括参考编码器、语音编码器、姿态编码器和Transformer编码器；从所述原始说话视频数据中提取原始人脸图，将所述原始人脸图、所述目标轮廓图和所述语音数据输入预先训练好的关键点渲染模型进行图像扭曲和图像合成，得到与所述目标轮廓图相对应的合成人脸图，其中，所述关键点渲染模型包括光流子模型和轮廓转换子模型；使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换，并对替换后的视频帧进行高斯平滑和帧合并，得到与所述语音数据相匹配的说话视频数据。本发明能够准确预测人脸关键点，使生成视频中人脸各部位的轮廓更像特定的人物，从而保留了人物的ID信息，并且能够将准确预测的关键点轮廓渲染成真实的说话视频，在渲染的过程中能够充分利用多张参考图提供的外观先验，从而使生成的人脸更加真实逼真，保留更多ID细节。

本说明书中的各个实施例均采用递进的方式描述，各个实施例直接相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音驱动的说话视频生成方法，其特征在于，包括：

2.根据权利要求1所述的语音驱动的说话视频生成方法，其特征在于，所述从所述原始说话视频数据中提取参考关键点和人脸姿势先验关键点的步骤包括：

3.根据权利要求2所述的语音驱动的说话视频生成方法，其特征在于，所述将所述语音数据、所述参考关键点和所述人脸姿势先验关键点输入预先训练好的关键点预测模型进行关键点预测，得到第一人脸关键点的步骤包括：

4.根据权利要求1所述的语音驱动的说话视频生成方法，其特征在于，所述将所述原始人脸图、所述目标轮廓图和所述语音数据输入预先训练好的关键点渲染模型进行图像扭曲和图像合成，得到与所述目标轮廓图相对应的合成人脸图的步骤包括：

5.根据权利要求1所述的语音驱动的说话视频生成方法，其特征在于，所述使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换，并对替换后的视频帧进行平滑处理和帧合并，得到与所述语音数据相匹配的说话视频数据的步骤包括：

6.根据权利要求1所述的语音驱动的说话视频生成方法，其特征在于，所述参考编码器和所述姿态编码器均由一维卷积神经网络组成，所述语音编码器由二维卷积神经网络组成；

7.根据权利要求1所述的语音驱动的说话视频生成方法，其特征在于，所述关键点预测模型的损失函数由L1损失和速度损失组成，所述关键点渲染模型的损失函数由扭曲损失、图像重构损失、风格损失、判别损失和特征匹配损失组成；

其中，采用如下公式表示所述关键点预测模型的损失函数：

L_Y＝L₁+L_v

式中，L₁表示L1损失，L_v表示速度损失；

采用如下公式表示所述关键点渲染模型的损失函数：

L_G＝λ_wL_w+λ_rL_r+λ_sL_s+λ_gL_g+λ_fL_f

8.一种语音驱动的说话视频生成系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。