CN113449590A

CN113449590A - 说话视频生成方法及装置

Info

Publication number: CN113449590A
Application number: CN202110532690.5A
Authority: CN
Inventors: 张智勐; 李林橙; 丁彧; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-09-28
Anticipated expiration: 2041-05-14
Also published as: CN113449590B

Abstract

本发明提供了一种说话视频生成方法及装置。通过基于待生成的说话视频对应的语音帧序列以及参考图像，确定语音帧序列中每个语音帧对应的运动参数；基于参考图像、预设人脸模型、以及每个语音帧对应的运动参数，确定每个语音帧对应的稠密运动场；基于参考图像和每个语音帧对应的稠密运动场，生成待生成的说话视频中与每个语音帧对应的帧图像。以此可以实现通过预测稠密运动场来生成说话视频图像，提升了抗干扰能力，精度更高。

Description

说话视频生成方法及装置

技术领域

本发明涉及计算机技术领域，尤其是涉及一种说话视频生成方法及装置。

背景技术

基于单张图像输入的说话人脸视频合成技术的发展时间并不长，但其可广泛应用于虚拟助手、远程会议、电子游戏等多个领域。因为其广泛的应用价值，近年来被越来越多的学者关注。早期的技术方案简单的使用深度学习技术，利用深度图像生成网络直接从输入的人脸图像和语音合成说话人脸视频，这些网络往往都是端到端的结构。

近年来的技术方案将端到端的深度图像生成网络拆成两个主要模块，第一个模块为人脸关键点合成模块，这些方案一般使用人脸关键点的主成分系数或者关键点的位置偏移来表示嘴唇运动、面部表情和头部运动。第二个模块为人脸视频帧合成模块，该模块以人脸关键点为输入，利用深度图像生成网络合成说话人脸视频。

但是，使用人脸关键点表示表情和头部运动人脸关键点太稀疏了，会丢失掉很多表情的细节，容易受到噪声干扰。

发明内容

本发明的目的在于提供一种说话视频生成方法及装置，以缓解了现有技术中存在的容易受到噪声干扰的技术问题。

第一方面，本发明提供一种说话视频生成方法，包括：

基于待生成的说话视频对应的语音帧序列以及参考图像，确定语音帧序列中每个语音帧对应的运动参数；

基于参考图像、预设人脸模型、以及每个语音帧对应的运动参数，确定每个语音帧对应的稠密运动场；

基于参考图像和每个语音帧对应的稠密运动场，生成待生成的说话视频中与每个语音帧对应的帧图像。

在可选的实施方式中，基于待生成的说话视频对应的语音帧序列以及参考图像，确定语音帧序列中每个语音帧对应的运动参数，包括：

基于预先训练的人脸识别模型对参考图像进行人脸识别，得到人脸特征；

基于预先训练的语音特征提取器对待生成的说话视频对应的语音帧序列中的每个语音帧进行特征提取，得到每个语音帧对应的语音特征；

将每个语音帧对应的语音特征与人脸特征进行融合，得到每个语音帧对应的融合特征；

基于每个语音帧对应的融合特征，确定每个语音帧对应的运动参数。

在可选的实施方式中，将每个语音帧对应的语音特征与人脸特征进行融合，得到每个语音帧对应的融合特征，包括：

基于预先训练的全连接网络以及人脸特征，确定自适应实例归一化的参数；

将每个语音帧对应的语音特征与自适应实例归一化的参数进行融合，得到每个语音帧对应的融合特征。

在可选的实施方式中，运动参数包括嘴唇运动参数、表情运动参数以及头部运动参数；基于每个语音帧对应的融合特征，确定每个语音帧对应的运动参数，包括：

基于每个语音帧对应的融合特征和预先训练的运动参数识别模型中的嘴唇运动分支，确定每个语音帧对应的嘴唇运动参数；

基于每个语音帧对应的融合特征和预先训练的运动参数识别模型中的长时依赖解码器和表情运动分支，确定每个语音帧对应的表情运动参数；

基于每个语音帧对应的融合特征和预先训练的运动参数识别模型中的长时依赖解码器和头部运动分支，确定每个语音帧对应的头部运动参数。

在可选的实施方式中，基于参考图像、预设人脸模型、以及每个语音帧对应的运动参数，确定每个语音帧对应的稠密运动场，包括：

基于每个语音帧对应的运动参数调整预设人脸模型得到每个语音帧对应的人脸模型；

将每个语音帧对应的人脸模型投影到参考图像中，得到每个语音帧对应的投影图像；

基于每个语音帧对应的投影图像确定每个语音帧对应的稠密运动场。

在可选的实施方式中，投影图像包括面部区域、躯干区域以及除面部区域和躯干区域以外的其他区域。

在可选的实施方式中，基于每个语音帧对应的投影图像确定每个语音帧对应的稠密运动场：

基于每个语音帧对应的投影图像与上一语音帧对应的投影图像之间的差别，确定每个语音帧对应的面部区域的稠密运动场；

基于每个语音帧对应的第一稠密运动场，确定面部区域的平均运动场，并基于面部区域的平均运动场确定每个语音帧对应的躯干区域稠密运动场；

基于每个语音帧对应的面部区域中面部区域边缘的稠密运动场，确定每个语音帧对应的其他区域的稠密运动场；

基于每个语音帧对应的面部区域的稠密运动场、躯干区域稠密运动场和其他区域的稠密运动场，确定每个语音帧对应的稠密运动场。

基于每个语音帧对应的投影图像与上一语音帧对应的投影图像之间的差别，确定每个语音帧对应的第一稠密运动场；

基于每个语音帧对应的第一稠密运动场确定每个语音帧对应的面部区域的稠密运动场；

基于每个语音帧对应的第一稠密运动场，确定头部区域的平均运动场，并基于头部区域的平均运动场确定每个语音帧对应的躯干区域稠密运动场；

在可选的实施方式中，面部区域与头部区域为同一区域。

在可选的实施方式中，基于参考图像和每个语音帧对应的稠密运动场，生成待生成的说话视频中与每个语音帧对应的帧图像，包括：

基于参考图像和每个语音帧对应的稠密运动场，确定每个语音帧对应的形变图像；

基于每个语音帧对应的形变图像，以及预先训练的深度网络中，得到每个语音帧对应的补偿掩码、补偿数据以及前景掩码；

基于每个语音帧对应的前景掩码和稠密运动场，确定每个语音帧对应的精细稠密运动场；

基于参考图像以及每个语音帧对应的精细稠密运动场、补偿掩码以及补偿数据进行掩码操作，生成待生成的说话视频中与每个语音帧对应的帧图像。

在可选的实施方式中，基于参考图像和每个语音帧对应的稠密运动场，确定每个语音帧对应的形变图像，包括：

对参考图像和每个语音帧对应的稠密运动场进行下采样，得到下采样图像和每个语音帧对应的下采样稠密运动场；

基于下采样图像和每个语音帧对应的下采样稠密运动场，确定每个语音帧对应的形变图像。

在可选的实施方式中，基于参考图像以及每个语音帧对应的精细稠密运动场、补偿掩码以及补偿数据进行掩码操作，生成待生成的说话视频中与每个语音帧对应的帧图像，包括：

基于参考图像确定特征图；

每个语音帧对应的精细稠密运动场、补偿掩码以及补偿数据作用于特征图，得到每个语音帧对应的掩码特征图；

对每个语音帧对应的掩码特征图进行解码，生成待生成的说话视频中与每个语音帧对应的帧图像。

第二方面，本发明提供一种说话视频生成装置，包括：

识别模块，用于基于待生成的说话视频对应的语音帧序列以及参考图像，确定语音帧序列中每个语音帧对应的运动参数；

确定模块，用于基于参考图像、预设人脸模型、以及每个语音帧对应的运动参数，确定每个语音帧对应的稠密运动场；

生成模块，用于基于参考图像和每个语音帧对应的稠密运动场，生成待生成的说话视频中与每个语音帧对应的帧图像。

第三方面，本发明提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现前述实施方式任一项的方法。

第四方面，本发明提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器执行前述实施方式任一的方法。

本发明提供的一种说话视频生成方法及装置。通过基于待生成的说话视频对应的语音帧序列以及参考图像，确定语音帧序列中每个语音帧对应的运动参数；基于参考图像、预设人脸模型、以及每个语音帧对应的运动参数，确定每个语音帧对应的稠密运动场；基于参考图像和每个语音帧对应的稠密运动场，生成待生成的说话视频中与每个语音帧对应的帧图像。以此可以实现通过预测稠密运动场来生成说话视频图像，提升了抗干扰能力，精度更高。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种说话视频生成方法的流程示意图；

图2为本发明实施例提供的一个示例；

图3为本发明实施例提供的另一个示例；

图4为本发明实施例提供的另一个示例；

图5为本发明实施例提供的另一个示例；

图6为本发明实施例提供的一种说话视频生成装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本申请的发明人通过分析发现，使用人脸关键点表示表情和头部运动来生成说话视频，不够合理和鲁棒且较易受到噪声的影响的主要原因是，人脸关键点只能在2D平面上表示头部运动和表情运动，对于头部运动，人脸关键点对于头部旋转的表示具有较大的难度，对于表情运动，人脸关键点太稀疏了，会丢失掉很多表情的细节。目前的人脸关键点检测算法还没有完全的成熟，所以人脸关键点还容易受到噪声的干扰发生形变。

近年来的技术方案合成的说话人脸视频的分辨率一直受限于256x256大小，其主要原因是人脸关键点太稀疏了，对于人脸视频帧合成模块来说，人脸关键点提供的人脸信息量太少。所以导致合成的视频分辨率一直受限。

本发明实施例提供了一种说话视频生成方法及装置，可以提升鲁棒且生成的视频精度更高。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的一种说话视频生成方法流程示意图。如图1所示，该方法可以包括如下步骤：

S110，基于待生成的说话视频对应的语音帧序列以及参考图像，确定语音帧序列中每个语音帧对应的运动参数。

其中，该待生成的说话视频是指基于语音帧序列需要预测的说话视频。该语音帧序列可以为一段语音按照说话视频的频率划分的语音帧的集合。例如，该说话视频的频率可以为一秒钟24帧图像，那个对应的一秒语音也需要划分为24段。

在实际应用中，该语音帧序列的长度可以根据实际需要确定，例如，对于延时要求高的场景，该语音帧序列的长度可以设置的短一些，对于一些离线的场景，该语音帧序列的长度可以设置的长一些。

该运动参数可以用于指示由于说话所产生的嘴唇、头部以及表情等方面的变化。可以是通过机器学习来基于收集的一些训练数据，学习到的一些运动参数与语音特征之间的对应关系，基于该对应关系，可以基于语音帧确定其对应的运动参数。

该运动参数可以包括嘴唇运动参数、表情运动参数以及头部运动参数。

S120，基于参考图像、预设人脸模型、以及每个语音帧对应的运动参数，确定每个语音帧对应的稠密运动场(dense motion flow)。

基于该运动参数可以作用与预设的人脸模型中，以此生成一个通用的说话中的人脸模型，基于该模型以及参考图像可以确定对应于每个语音帧的帧图像的稠密运动场。该稠密运动场是一种描述两张图片像素对应关系的图片的统称。

其中，可以通过三维人脸重建技术来实现稠密运动场的确定。该三维人脸重建技术主要包含以下的方面：首先，需要美术人员制作出一个三维形变人脸模型3DMM(3DMorphable Model)，3DMM中包含有一个人的外貌参数(也叫ID参数)和一个人的表情参数，这两个参数分别可以控制3DMM的外貌和表情。3DMM是一个双线性模型，使用公式可以表示为：

其中，M(c^s,c^e)表示三维形变人脸中的网格点；M₀是平均脸的网格；所有的形变发生在这张平均脸上；

表示的是人脸的外貌的线性基，一共有60个；

表示的是人脸的表情的线性基，一共有33个；c^s表示人脸的外貌参数，是一个60维的向量；c^e表示人脸的表情参数，是一个33维的向量。

然后，对于一张给定的人脸图像，可以使用3DMM拟合出与这张人脸图像的外貌和表情一致的人脸，从而将人脸重建了出来。人脸重建的具体过程为：首先利用openface提取出给定人脸图像的人脸关键点，并在3DMM上将关键点对应的网格点标记出来，然后将3DMM上的网格点使用正交投影的方法投影到二维图像中，将目标定为网格投影点和人脸关键点尽可能重合，通过优化该目标可以实现三维人脸的重建。上述人脸重建过程可以使用公式可以表示为：

其中，p_k表示第k个人脸关键点；δ_k表示第k个关键点对应的权重；K表示人脸关键点的个数；R表示头部的旋转，大小为一个3×3的矩阵；t表示头部的平移，大小为一个二维向量；s表示投影过程中的缩放尺度，

R^*,t^*分别表示重建后的人脸外貌系数、人脸表情系数、头部的旋转和头部的平移。

利用以上三维人脸重建技术，可以将视频数据中的人脸嘴唇参数、表情参数和头部运动参数等提取出来，用于后期的嘴唇参数、表情参数和头部运动参数的合成使用。

S130，基于参考图像和每个语音帧对应的稠密运动场，生成待生成的说话视频中与每个语音帧对应的帧图像。

可以以稠密运动场为输入，利用深度图像生成网络合成说话人脸视频。例如，可以利用对抗网络训练的方式，合成清晰度较高的图像。

通过本发明实施例可以实现通过预测稠密运动场来生成说话视频图像，提升了抗干扰能力，精度更高。

在一些实施例中，如图2所示，首先输入任意一段语音和任意一张人脸图像，通过人脸参数合成模块的识别和预测，合成合理的嘴唇运动参数、表情运动参数和头部运动参数。然后将嘴唇运动参数、表情运动参数和头部运动参数输入到3DMM中，合成稠密运动场，然后将稠密运动场输入到人脸视频合成模块中，合成说话视频。下面结合一些具体示例对本发明实施例进行进一步地介绍。

在一些实施例中，对于人脸参数合成模块，主要用于对参考图像以及语音帧进行特征提取以及融合，以便基于融合后的特征确定运动参数。如图3所示，上述步骤S110可以由人脸参数合成模块实现，具体可以通过如下步骤实现：

步骤1.1)，基于预先训练的人脸识别模型对参考图像进行人脸识别，得到人脸特征；其中，上述预先训练的人脸识别模型可以采用通过人脸样本图像预先训练得到的VGGface模型。

步骤1.2)，基于预先训练的语音特征提取器对待生成的说话视频对应的语音帧序列中的每个语音帧进行特征提取，得到每个语音帧对应的语音特征。预先训练的语音特征提取器诸如可以采用通过训练样本预先训练的语音特征提取器，也可以采用预先搭建的神经网络，在实际应用中，语音特征提取器的选取不作具体限定，可以根据实际需要进行选取。

步骤1.3)，将每个语音帧对应的语音特征与人脸特征进行融合，得到每个语音帧对应的融合特征；

步骤1.4)，基于每个语音帧对应的融合特征，确定每个语音帧对应的运动参数。

对于上述步骤1.1)，对于输入的人脸图像(参考图像)，将其输入到一个预训练的人脸识别模型中，提取出相应的人脸特征，该人脸特征表示着人脸的一些外貌信息。

对于上述步骤1.2)，对于输入的任意语音(语音帧序列)，将其输入到语音特征提取器中，提取出语音特征，该语音特征编码用于表征输入语音中的内容和韵律等信息。

对于上述步骤1.3)，主要是实现包含说话习惯的语音特征计算，具体可以通过如下步骤实现：步骤2.1)，基于预先训练的全连接网络以及人脸特征，确定自适应实例归一化的参数，自适应实例归一化的参数可以表示为α和β，其中参数α表示缩放系数，参数β表示平移系数；步骤2.2)，将每个语音帧对应的语音特征与自适应实例归一化的参数进行融合，得到每个语音帧对应的融合特征。其中，参数融合可以采用自适应归一化的方式，其可以表示为：

其中，f表示每个语音帧对应的语音特征，μ(.)表示取均值操作，σ(.)表示取方差操作，f^*表示自适应实例归一化融合后的融合特征。

考虑到不同的人具有不同的说话习惯，利用自适应实例归一化的方法融合人脸特征和语音特征，得到包含说话习惯的语音特征，具体的计算过程为，利用一个全连接层网络输入人脸特征计算自适应实例归一化的参数，然后将该参数与语音特征进行融合。

对于上述步骤1.4)，主要是用于嘴唇运动参数、表情运动参数和头部运动参数的合成，具体可以通过如下步骤实现：步骤3.1)，基于每个语音帧对应的融合特征和预先训练的运动参数识别模型中的嘴唇运动分支，确定每个语音帧对应的嘴唇运动参数；步骤3.2)，基于每个语音帧对应的融合特征和预先训练的运动参数识别模型中的长时依赖解码器和表情运动分支，确定每个语音帧对应的表情运动参数；步骤3.3)，基于每个语音帧对应的融合特征和预先训练的运动参数识别模型中的长时依赖解码器和头部运动分支，确定每个语音帧对应的头部运动参数。由于在说话时，嘴唇运动、表情运动和头部运动之间存在相应的依赖关系，因此该确定每个语音帧对应的运动参数的方式，可以对嘴唇运动、表情运动以及头部运动综合考量，使得运动参数的确定更加符合实际情况，进而生成的说话视频更加真实、自然。

通过对包含说话习惯的语音特征解码，可以计算得到嘴唇运动参数、表情运动参数以及头部运动参数，具体过程为，首先经过嘴唇运动分支，使用嘴唇解码器解码出嘴唇运动参数，对于表情运动和头部运动，先经过一个长时依赖解码器，然后分别通过表情解码器和头部运动解码器解码出表情运动参数和头部运动参数。嘴唇运动参数、表情运动参数以及头部运动参数具体的计算过程可以表示为：

p^mou＝M(f^*)；

p^ebro＝E(L(f^*))；

p^hed＝H(L(f^*))；

其中，f^*为包含说话习惯的语音特征，M表示嘴唇解码器，p^mou为嘴唇运动参数，L表示长时依赖解码器，E和H分别表示为表情解码器和头部运动解码器，p^ebro和p^hed表示解码出来的表情运动参数和头部运动参数。

在一些实施例中，上述步骤S120主要用于实现稠密运动场的生成，如图4所示，具体可以通过如下步骤实现：

步骤4.1)，基于每个语音帧对应的运动参数调整预设人脸模型得到每个语音帧对应的人脸模型；

步骤4.2)，将每个语音帧对应的人脸模型投影到参考图像中，得到每个语音帧对应的投影图像；

步骤4.3)，基于每个语音帧对应的投影图像确定每个语音帧对应的稠密运动场。

其中，投影图像包括面部区域、躯干区域以及除面部区域和躯干区域以外的其他区域。作为一个示例，如图4中的(b)部分，可以预先将人脸图像(例如，参考图像、投影图像或视频帧)分成三个区域，分别为面部区域(绿色部分)、躯干区域(橘色部分)和其他区域(蓝色部分)。首先分别合成各个区域的稠密运动场，然后将各个区域的稠密运动场组合在一起作为完整的稠密运动场。

对于面部区域：可以利用3DMM来合成面部区域的稠密运动场，具体来说，由于在3DMM中有标记出一圈面部区域的曲线，因此输入某一帧的嘴唇运动参数、表情运动参数和头部运动参数到3DMM中，可以得到形变后的三维形变人脸，然后将三维形变人脸正交投影到二维图像中，即可得到3DMM中曲线区域内的每一个点投影到图像中的坐标，从而确定面部区域。对于相邻的两帧投影图像，计算投影点的坐标差值，从而得到相邻两帧的坐标对应关系，从而得到稠密运动场。因为利用了3DMM的投影，所以得到的面部区域的稠密运动场是非常准确的。

对于躯干区域：假设躯干的运动方向和人脸的平均移动方向是一致的，所以在计算躯干区域的稠密运动场前，可以先统计一下头部区域的平均运动场，头部的平均运动场表示头部运动的平均方向，然后将头部平均运动场复制到躯干区域中，作为躯干区域的稠密运动场。为了保证躯干区域的确定方式不会影响生成视频的效果且运算量较小，可以将图像中面部区域以下的所有区域都确定为躯干区域。

对于其他区域(也即整个图像中除了上述人脸区域和躯干区域之外的区域)：假设其他区域的运动方向跟随着人脸摆动，所以对于其他区域的每一个像素点，只要找到其最近的面部区域的边缘，然后将该边缘的运动场赋值给该像素点即可，对于其他区域的所有像素点都执行该操作，便可以得到其他区域的稠密运动场。

最终，将面部区域、躯干区域和其他区域，这三个区域的稠密运动场组合到一起，得到最终整张人脸图像的稠密运动场。

作为一个示例，上述步骤4.3)具体可以通过如下步骤实现：

步骤5.1)，基于每个语音帧对应的投影图像与上一语音帧对应的投影图像之间的差别，确定每个语音帧对应的面部区域的稠密运动场；

步骤5.2)，基于每个语音帧对应的第一稠密运动场，确定面部区域的平均运动场，并基于面部区域的平均运动场确定每个语音帧对应的躯干区域稠密运动场；

步骤5.3)，基于每个语音帧对应的面部区域中面部区域边缘的稠密运动场，确定每个语音帧对应的其他区域的稠密运动场；

步骤5.4)，基于每个语音帧对应的面部区域的稠密运动场、躯干区域稠密运动场和其他区域的稠密运动场，确定每个语音帧对应的稠密运动场。

作为另一个示例，上述步骤4.3)具体可以通过如下步骤实现：

步骤6.1)，基于每个语音帧对应的投影图像与上一语音帧对应的投影图像之间的差别，确定每个语音帧对应的第一稠密运动场；

步骤6.2)，基于每个语音帧对应的第一稠密运动场确定每个语音帧对应的面部区域的稠密运动场；

步骤6.3)，基于每个语音帧对应的第一稠密运动场，确定头部区域的平均运动场，并基于头部区域的平均运动场确定每个语音帧对应的躯干区域稠密运动场；

步骤6.4)，基于每个语音帧对应的面部区域中面部区域边缘的稠密运动场，确定每个语音帧对应的其他区域的稠密运动场；

步骤6.5)，基于每个语音帧对应的面部区域的稠密运动场、躯干区域稠密运动场和其他区域的稠密运动场，确定每个语音帧对应的稠密运动场。

其中，该面部区域与头部区域可以为同一区域或者不同区域。诸如，针对面部区域与头部区域为不同区域时，该方式可以针对面部区域的变化(诸如表情变化、嘴唇运动等)与头部区域的变化(诸如扭头、点头等的头动)，进行细化，从而可以更加准确的对稠密运动场的确定。在一些实施例中，如图5所示，上述步骤S130可以由人脸视频帧合成模块来实现，具体可以通过如下步骤实现：

步骤7.1)，基于参考图像和每个语音帧对应的稠密运动场，确定每个语音帧对应的形变图像；

步骤7.2)，基于每个语音帧对应的形变图像，以及预先训练的深度网络中，得到每个语音帧对应的补偿掩码、补偿数据以及前景掩码；

步骤7.3)，基于每个语音帧对应的前景掩码和稠密运动场，确定每个语音帧对应的精细稠密运动场；

步骤7.4)，基于参考图像以及每个语音帧对应的精细稠密运动场、补偿掩码以及补偿数据进行掩码操作，生成待生成的说话视频中与每个语音帧对应的帧图像。

通过确定的形变图像，确定每个语音帧对应的补偿掩码、补偿数据以及前景掩码，并进而生成说话视频的方式，可以使生成的说话人脸视频帧更加准确。

对于上述步骤7.1)，主要用于形变图像生成。其中，可以输入人脸图像和稠密运动场，先分别进行下采样操作，得到下采样后的人脸图像和运动场，然后根据运动场对人脸图像进行形变操作，得到形变图像，整个过程可以通过以下公式表示：

其中，

表示下采样后的输入人脸图像，

表示下采样后的稠密运动场，

表示形变操作，

表示形变后的人脸图像。

具体可以通过如下步骤实现：步骤8.1)，对参考图像和每个语音帧对应的稠密运动场进行下采样，得到下采样图像和每个语音帧对应的下采样稠密运动场；步骤8.2)，基于下采样图像和每个语音帧对应的下采样稠密运动场，确定每个语音帧对应的形变图像。这种方式可以在计算形变图像时，保证形变准确确定的情况下减小运算量。

对于上述步骤7.2)，将稠密运动场、输入人脸图像和形变图像一起输入到深度网络中，分别计算出前景掩码、补偿数据和补偿掩码。计算过程可以表示为：

其中，H为深度网络模型，M^f表示前景掩码，

表示补偿数据，M^m表示补偿掩码。

对于上述步骤7.3)，将前景掩码作用于稠密运动场，得到精细稠密运动场，该精细稠密运动场比输入稠密运动场更加的准确。该过程可以表示为：

F＝F^app*M^f；

其中，F^app为稠密运动场，M^f为前景掩码，F为精细稠密运动场。

对于上述步骤7.4)，对输入人脸图像使用一个编码器计算特征图，将补偿数据、补偿掩码和精细稠密运动场作用于特征图得到掩码特征图，将掩码特征图输入到解码器中计算得到最终的说话人脸视频帧，整个过程可以表示为：

f^ref＝(I^ref)

其中，I^ref为输入人脸图像，f^ref为从输入人脸图像计算的特征图，E为计算特征图所用的编码器，

为补偿数据、M^m为补偿掩码，

为掩码操作后的掩码特征图，I^out为最终的说话人脸视频帧，D为解码器。

具体可以通过如下步骤实现：步骤9.1)，基于参考图像确定特征图；步骤9.2)，每个语音帧对应的精细稠密运动场、补偿掩码以及补偿数据作用于特征图，得到每个语音帧对应的掩码特征图；步骤9.3)，对每个语音帧对应的掩码特征图进行解码，生成待生成的说话视频中与每个语音帧对应的帧图像，该方式可以根据参考图像以及语音帧对应的运动场信息，以及图像中的补偿信息进行说话视频中与每个语音帧对应的帧图像的生成，从而可以准确确定图像中的运动信息，并通过补偿信息，提升了重要信息的稠密运动场确定。

图6为本发明实施例提供的一种说话视频生成装置结构示意图。如图6所示该装置可以包括：

识别模块601，用于基于待生成的说话视频对应的语音帧序列以及参考图像，确定语音帧序列中每个语音帧对应的运动参数；

确定模块602，用于基于参考图像、预设人脸模型、以及每个语音帧对应的运动参数，确定每个语音帧对应的稠密运动场；

生成模块603，用于基于参考图像和每个语音帧对应的稠密运动场，生成待生成的说话视频中与每个语音帧对应的帧图像。

在一些实施例中，识别模块601具体用于：

在一些实施例中，运动参数包括嘴唇运动参数、表情运动参数以及头部运动参数；识别模块601具体用于：

在一些实施例中，确定模块602具体用于：

在一些实施例中，投影图像包括面部区域、躯干区域以及除面部区域和躯干区域以外的其他区域。

在一些实施例中，确定模块602具体用于：

在一些实施例中，面部区域与头部区域为同一区域。

在一些实施例中，生成模块603具体用于：

基于参考图像确定特征图；

本发明实施例提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被处理器运行时执行如上实施方式的任一项的方法。

图7为本发明实施例提供的一种电子设备的结构示意图，该电子设备1包括：处理器70，存储器71，总线72和通信接口73，处理器70、通信接口73和存储器71通过总线72连接；处理器70用于执行存储器71中存储的可执行模块，例如计算机程序。

其中，存储器71可能包含高速随机存取存储器(RAM，RandomAccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口73(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线72可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器71用于存储程序，处理器70在接收到执行指令后，执行程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器70中，或者由处理器70实现。

处理器70可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器70中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器70可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器71，处理器70读取存储器71中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的说话视频生成方法、装置和电子设备的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种说话视频生成方法，其特征在于，包括：

基于待生成的说话视频对应的语音帧序列以及参考图像，确定所述语音帧序列中每个语音帧对应的运动参数；

基于所述参考图像、预设人脸模型、以及每个所述语音帧对应的运动参数，确定每个所述语音帧对应的稠密运动场；

基于所述参考图像和每个所述语音帧对应的稠密运动场，生成所述待生成的说话视频中与每个所述语音帧对应的帧图像。

2.根据权利要求1所述的，其特征在于，所述基于待生成的说话视频对应的语音帧序列以及参考图像，确定所述语音帧序列中每个语音帧对应的运动参数，包括：

基于预先训练的语音特征提取器对待生成的说话视频对应的语音帧序列中的每个语音帧进行特征提取，得到每个所述语音帧对应的语音特征；

将每个所述语音帧对应的语音特征与所述人脸特征进行融合，得到每个所述语音帧对应的融合特征；

基于每个所述语音帧对应的融合特征，确定每个所述语音帧对应的运动参数。

3.根据权利要求2所述的方法，其特征在于，将每个所述语音帧对应的语音特征与所述人脸特征进行融合，得到每个所述语音帧对应的融合特征，包括：

基于预先训练的全连接网络以及所述人脸特征，确定自适应实例归一化的参数；

将每个所述语音帧对应的语音特征与所述自适应实例归一化的参数进行融合，得到每个所述语音帧对应的融合特征。

4.根据权利要求2所述的方法，其特征在于，运动参数包括嘴唇运动参数、表情运动参数以及头部运动参数；所述基于每个所述语音帧对应的融合特征，确定每个所述语音帧对应的运动参数，包括：

基于每个所述语音帧对应的融合特征和预先训练的运动参数识别模型中的嘴唇运动分支，确定每个所述语音帧对应的嘴唇运动参数；

基于每个所述语音帧对应的融合特征和预先训练的运动参数识别模型中的长时依赖解码器和表情运动分支，确定每个所述语音帧对应的表情运动参数；

基于每个所述语音帧对应的融合特征和预先训练的运动参数识别模型中的长时依赖解码器和头部运动分支，确定每个所述语音帧对应的头部运动参数。

5.根据权利要求1-4任意一项所述的方法，其特征在于，基于所述参考图像、预设人脸模型、以及每个所述语音帧对应的运动参数，确定每个所述语音帧对应的稠密运动场，包括：

基于每个所述语音帧对应的运动参数调整所述预设人脸模型得到每个所述语音帧对应的人脸模型；

将每个所述语音帧对应的人脸模型投影到所述参考图像中，得到每个所述语音帧对应的投影图像；

基于每个所述语音帧对应的投影图像确定每个所述语音帧对应的稠密运动场。

6.根据权利要求5所述的方法，其特征在于，投影图像包括面部区域、躯干区域以及除所述面部区域和所述躯干区域以外的其他区域。

7.根据权利要求6所述的方法，其特征在于，所述基于每个所述语音帧对应的投影图像确定每个所述语音帧对应的稠密运动场包括：

基于每个所述语音帧对应的投影图像与上一语音帧对应的投影图像之间的差别，确定每个所述语音帧对应的面部区域的稠密运动场；

基于每个所述语音帧对应的第一稠密运动场，确定面部区域的平均运动场，并基于所述面部区域的平均运动场确定每个所述语音帧对应的躯干区域稠密运动场；

基于每个所述语音帧对应的面部区域中面部区域边缘的稠密运动场，确定每个所述语音帧对应的其他区域的稠密运动场；

基于每个所述语音帧对应的面部区域的稠密运动场、躯干区域稠密运动场和其他区域的稠密运动场，确定每个所述语音帧对应的稠密运动场。

8.根据权利要求6所述的方法，其特征在于，所述基于每个所述语音帧对应的投影图像确定每个所述语音帧对应的稠密运动场包括：

基于每个所述语音帧对应的投影图像与上一语音帧对应的投影图像之间的差别，确定每个所述语音帧对应的第一稠密运动场；

基于每个所述语音帧对应的第一稠密运动场确定每个所述语音帧对应的面部区域的稠密运动场；

基于每个所述语音帧对应的第一稠密运动场，确定头部区域的平均运动场，并基于所述头部区域的平均运动场确定每个所述语音帧对应的躯干区域稠密运动场；

9.根据权利要求8所述的方法，其特征在于，所述面部区域与所述头部区域为同一区域。

10.根据权利要求1所述的方法，其特征在于，所述基于所述参考图像和每个所述语音帧对应的稠密运动场，生成所述待生成的说话视频中与每个所述语音帧对应的帧图像，包括：

基于参考图像和每个所述语音帧对应的稠密运动场，确定每个所述语音帧对应的形变图像；

基于每个所述语音帧对应的形变图像，以及预先训练的深度网络中，得到每个所述语音帧对应的补偿掩码、补偿数据以及前景掩码；

基于每个所述语音帧对应的前景掩码和稠密运动场，确定每个所述语音帧对应的精细稠密运动场；

基于参考图像以及每个所述语音帧对应的精细稠密运动场、补偿掩码以及补偿数据进行掩码操作，生成所述待生成的说话视频中与每个所述语音帧对应的帧图像。

11.根据权利要求10所述的方法，其特征在于，基于参考图像和每个所述语音帧对应的稠密运动场，确定每个所述语音帧对应的形变图像，包括：

对参考图像和每个所述语音帧对应的稠密运动场进行下采样，得到下采样图像和每个所述语音帧对应的下采样稠密运动场；

基于所述下采样图像和每个所述语音帧对应的下采样稠密运动场，确定每个所述语音帧对应的形变图像。

12.根据权利要求10所述的方法，其特征在于，基于参考图像以及每个所述语音帧对应的精细稠密运动场、补偿掩码以及补偿数据进行掩码操作，生成所述待生成的说话视频中与每个所述语音帧对应的帧图像，包括：

基于参考图像确定特征图；

每个所述语音帧对应的精细稠密运动场、补偿掩码以及补偿数据作用于所述特征图，得到每个所述语音帧对应的掩码特征图；

对每个所述语音帧对应的掩码特征图进行解码，生成所述待生成的说话视频中与每个所述语音帧对应的帧图像。

13.一种说话视频生成装置，其特征在于，包括：

识别模块，用于基于待生成的说话视频对应的语音帧序列以及参考图像，确定所述语音帧序列中每个语音帧对应的运动参数；

确定模块，用于基于所述参考图像、预设人脸模型、以及每个所述语音帧对应的运动参数，确定每个所述语音帧对应的稠密运动场；

生成模块，用于基于所述参考图像和每个所述语音帧对应的稠密运动场，生成所述待生成的说话视频中与每个所述语音帧对应的帧图像。

14.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器执行所述权利要求1至12任一所述的方法。