CN113269066B

CN113269066B - 说话视频生成方法、装置和电子设备

Info

Publication number: CN113269066B
Application number: CN202110531354.9A
Authority: CN
Inventors: 王苏振; 李林橙; 丁彧; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2022-10-04
Anticipated expiration: 2041-05-14
Also published as: CN113269066A

Abstract

本发明提供了一种说话视频生成方法、装置和电子设备，涉及视频生成技术领域，该说话视频生产方法包括：对与待生成的说话视频对应的参考图像进行检测得到第一无监督关键点；基于与待生成的说话视频对应的语音帧序列和参考图像，预测与每一语音帧对应的第二无监督关键点；基于第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场；基于参考图像和与每一语音帧对应的密集运动场，生成待生成的说话视频中与每一语音帧对应的帧图像。本发明可以防止人脸以外的区域出现大量的伪影，同时提升了生成说话视频的质量以及生成视频的连贯性。

Description

说话视频生成方法、装置和电子设备

技术领域

本发明涉及视频生成技术领域，尤其是涉及一种说话视频生成方法、装置和电子设备。

背景技术

通过语音驱动人脸视频生成的方案，可广泛应用于虚拟助手、智能客服、新闻播报、远程会议、电子游戏等多个领域，满足上述领域对智能虚拟形象的功能需求和性能需求，并基于人工智能大幅度降低相关行业的人工劳动。

目前的方法产生的头动或是运动幅度很小，或是产生一些不合理的运动，无法得到自然的头动。并且，针对涉及到头动的方案，仅仅针对人脸进行建模，从而导致生成的视频中包含大量的伪影以及视频时序之间存在大量的抖动，难以得到高质量的说话视频。

发明内容

本发明的目的在于提供一种说话视频生成方法、装置和电子设备，可以防止人脸以外的区域出现大量的伪影，同时提升了生成说话视频的质量以及生成视频的连贯性。

第一方面，本发明提供一种说话视频生成方法，方法包括：对与待生成的说话视频对应的参考图像进行检测得到第一无监督关键点；基于与待生成的说话视频对应的语音帧序列和参考图像，预测与每一语音帧对应的第二无监督关键点；基于第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场；基于参考图像和与每一语音帧对应的密集运动场，生成待生成的说话视频中与每一语音帧对应的帧图像。

在可选的实施方式中，基于与待生成的说话视频对应的语音帧序列和参考图像，预测与每一语音帧对应的第二无监督关键点的步骤，包括：基于与待生成的说话视频对应的语音帧序列和参考图像，预测与语音帧序列对应的头动参数序列；基于与待生成的说话视频对应的语音帧序列、参考图像和与语音帧序列对应的头动参数序列，预测与每一语音帧对应的第二无监督关键点。

在可选的实施方式中，基于与待生成的说话视频对应的语音帧序列和参考图像，预测与语音帧序列对应的头动参数序列的步骤，包括：将参考图像输入至图像编码器，得到参考图像中的头部特征信息；基于头部特征信息和语音帧序列，通过预先训练的头动预测模型预测头动参数序列。

在可选的实施方式中，基于头部特征信息和语音帧序列，通过预先训练的头动预测模型预测头动参数序列的步骤，包括：基于所述头部特征信息确定所述头动参数序列中的初始头动参数；基于所述头部特征信息和所述语音帧序列中的第一个语音帧，通过预先训练的头动预测模型预测得到与所述第一个语音帧对应的头动中间参数；基于第N-1个语音帧对应的头动参数和所述语音帧序列中的第N个语音帧，通过预先训练的头动预测模型预测得到与所述第N个语音帧对应的头动中间参数，其中，N为大于1的自然数；基于每个语音帧对应的头动中间参数，确定所述头动参数序列中除初始头动参数以外的其他头动参数。

在可选的实施方式中，在通过预先训练的头动预测模型预测得到与所述第一个语音帧对应的头动中间参数之前，方法还包括：基于预设的滑动窗口对语音帧序列进行逐帧特征提取，确定每一语音帧对应的多种初始语音特征；多种初始语音特征包括梅尔频率倒谱系数、梅尔滤波器组能量特征、基频和语音标志位特征的任意多种；对多种初始语音特征进行特征组合，得到每一语音帧对应的语音特征信息。

在可选的实施方式中，基于第N-1个语音帧对应的头动参数和所述语音帧序列中的第N个语音帧，通过预先训练的头动预测模型预测得到与所述第N个语音帧对应的头动中间参数的步骤，包括：将所述第N-1个语音帧对应的头动中间参数和所述第N个语音帧对应的语音特征信息进行拼接，通过预先训练的头动预测模型预测得到与所述第N个语音帧对应的头动中间参数。

在可选的实施方式中，所述头动预测模型包括长短期记忆网络LSTM；所述头动中间参数为头部在图像中的空间位置编码。

在可选的实施方式中，基于与待生成的说话视频对应的语音帧序列、参考图像和与语音帧序列对应的头动参数序列，预测与每一语音帧对应的第二无监督关键点的步骤，包括：基于与语音帧序列对应的头动参数序列，确定相机坐标系对应的三维空间中的头动图像；对语音特征信息执行离散操作，得到与参考图像尺寸相同的语音特征图像；将参考图像、头动图像和语音特征图像输入至预先选择的3D卷积神经网络，预测与每一语音帧对应的第二无监督关键点。

在可选的实施方式中，基于语音帧序列对应的头动参数，确定头动图像的步骤，包括：基于语音帧序列对应的头动参数确定三维空间中的立方体包围框；将立方体包围框投影至相机平面，以确定相机坐标系对应的三维空间中的头动图像。

在可选的实施方式中，在将参考图像、头动图像和语音特征图像输入至预先选择的3D卷积神经网络之前，方法还包括：基于滑动窗口的长度对参考图像进行重复，得到与头动图像和语音特征图像相同的多张参考图像。

在可选的实施方式中，将参考图像、头动图像和语音特征图像输入至预先选择的3D卷积神经网络，预测与每一语音帧对应的第二无监督关键点的步骤，包括：分别将每张参考图像、每张头动图像和每张语音特征图像按照对应的时间进行拼接，得到目标图像块；将目标图像块输入至预先选择的3D卷积神经网络，预测与每一语音帧对应的第二无监督关键点。

在可选的实施方式中，基于第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场的步骤，包括：将第一无监督关键点和与每一语音帧对应的第二无监督关键点进行差分运算，确定与每一语音帧对应的密集运动场。

第二方面，本发明提供一种说话视频生成装置，装置包括：无监督关键点检测模块，用于对与待生成的说话视频对应的参考图像进行检测得到第一无监督关键点；无监督关键点预测模块，用于基于与待生成的说话视频对应的语音帧序列和参考图像，预测与每一语音帧对应的第二无监督关键点；密集运动场确定模块，用于基于第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场；说话视频生成模块，用于基于参考图像和与每一语音帧对应的密集运动场，生成待生成的说话视频中与每一语音帧对应的帧图像。

第三方面，本发明提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现前述实施方式任一项的说话视频生成方法。

第四方面，本发明提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器执行前述实施方式任一项的说话视频生成方法。

本发明提供的说话视频生成方法、装置和电子设备，该说话视频生成方法首先对与待生成的说话视频对应的参考图像进行检测得到第一无监督关键点，并基于与待生成的说话视频对应的语音帧序列和参考图像，预测与每一语音帧对应的第二无监督关键点，进而基于第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场，最终基于参考图像和与每一语音帧对应的密集运动场，生成待生成的说话视频中与每一语音帧对应的帧图像。上述方式通过检测得到的第一无监督关键点和预测得到的第二无监督关键点确定密集运动场，并基于参考图像和与每一语音帧对应的密集运动场，生成待生成的说话视频中与每一语音帧对应的帧图像。其中，由于无监督关键点无法直接获取语义，需要深度网络学习才能获知具体的语义，从而可以表征参考图像中任意关键点，而并非现有技术中仅用于表征人脸特征(诸如眼睛、嘴、鼻子等)的人脸关键点；并且由于基于无监督关键点确定的密集运动场可以包含整幅图像的运动信息(诸如人脸的变化、头动的变化及人脸以外的背景变化等等)，从而可以防止人脸以外的区域出现大量的伪影，提升了生成说话视频的质量以及生成视频的连贯性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种说话视频生成方法的流程示意图；

图2为本发明实施例提供的一种头动参数序列生成的示意图；

图3为本发明实施例提供的第二无监督关键点的预测方式的示意图；

图4为本发明实施例提供的一种具体的说话视频生成方法的流程示意图；

图5为本发明实施例提供的一种说话视频生成装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

考虑到目前的说话视频生成方案均不能得到自然的头动，这些方案产生的头动或是运动幅度很小，或是产生一些不合理的运动，远远达不到我们对自然头动的预期，并且在涉及到头动的方案中，由于具体方法的局限性，仅仅针对人脸进行建模，从而导致生成的视频中包含大量的伪影以及视频时序之间存在大量的抖动，难以得到高质量的说话视频。基于此，本发明实施例提供了一种说话视频生成方法、装置和电子设备，可以防止人脸以外的区域出现大量的伪影，同时提升了生成说话视频的质量以及生成视频的连贯性。

为便于理解，首先对本发明实施例提供的一种说话视频生成方法进行详细说明，参见图1所示的一种说话视频生成方法的流程示意图，该方法主要包括以下步骤S102至步骤S108：

步骤S102，对与待生成的说话视频对应的参考图像进行检测得到第一无监督关键点。

上述参考图像诸如可以包括说话人的正脸图像，还可以包括除说话人的正脸图像以外的背景图像，该参考图像可以根据待生成的说话视频的实际应用场景进行选取，在实际应用时，可以针对不同的应用场景适应性的选择对应的参考图像。

第一无监督关键点为针对上述参考图像的无监督关键点，第一无监督关键点没有具体的语义，因此无法直观的通过第一无监督关键点获知该关键点的语义，需要通过深度神经网络学习才可获知具体的语义。

在进行第一无监督关键点检测时，可以基于表情迁移预训练的模型对参考图像进行检测，将人脸图像输入至该基于表情迁移预训练的模型，输出即为第一无监督关键点。

步骤S104，基于与待生成的说话视频对应的语音帧序列和参考图像，预测与每一语音帧对应的第二无监督关键点。

上述与待生成的说话视频对应的语音帧序列可以为将原始语音数据进行采样，并通过结构化构建获得的帧序列。采样操作可以预先设定采样时间窗口，并将原始语音数据采样成若干个采样时间窗口大小的语音数据。可以理解的是，原始语音数据为连续的数字信号，按照1s包括25帧进行划分的话，诸如可以选取64帧语音帧(2.56秒)作为采样时间窗口，也可以选择32帧语音帧(1.28秒)作为采样时间窗口。在实际应用时，可以根据实际的需要选取其他大小的采样时间窗口，此处不作具体限定。

结构化构建操作诸如可以包括特征提取和特征组合操作，也即对原始语音数据进行采样得到的每段语音数据进行特征提取操作，得到若干语音特征，并对得到的若干语音特征进行特征组合操作，得到了与上述采样时间窗口对应的语音帧序列。

第二无监督关键点为对通过语音驱动后的参考图像进行预测，得到的每一语音帧对应的图像上的无监督关键点。其中，语音驱动也即通过上述语音帧序列对参考图像进行驱动，得到该参考图像针对该语音帧序列形成说话视频的过程。

步骤S106，基于第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场。

上述密集运动场也即后续每帧语音驱动后的图像与参考图像的深度特征之间的相对位置，用于表征整幅图像的运动信息，诸如头部的移动、表情的变化、由于头部移动导致的背景变化等等。

在一种实施方式中，可以通过对第一无监督关键点和第二无监督关键点进行差分处理，进行每一语音帧对应的密集运动场的确定。可以理解的是，由于第一无监督关键点用于表征参考图像上的无监督关键点，第二无监督关键点为基于语音帧序列和参考图像预测的无监督关键点，因此差分处理后，可以得到目标图像和参考图像的相对密集运动场，用于表征整幅参考图像上发生变化的特征信息。

步骤S108，基于参考图像和与每一语音帧对应的密集运动场，生成待生成的说话视频中与每一语音帧对应的帧图像。

在生成成待生成的说话视频中与每一语音帧对应的帧图像，可以将参考图像和每一语音帧对应的密集运动场输入至预先选择的图像生成器进行生成。预先选择的图像生成器诸如可以使用First Order Motion的网络结构，还可以根据实际需求选择其他的图像生成器，此处不作具体限定。

本发明实施例提供的说话视频生成方法，通过检测得到的第一无监督关键点和预测得到的第二无监督关键点确定密集运动场，并基于参考图像和与每一语音帧对应的密集运动场，生成待生成的说话视频中与每一语音帧对应的帧图像。其中，由于无监督关键点无法直接获取语义，需要深度网络学习才能获知具体的语义，从而可以表征参考图像中任意关键点，而并非现有技术中仅用于表征人脸特征(诸如眼睛、嘴、鼻子等)的人脸关键点；并且由于基于无监督关键点确定的密集运动场可以包含整幅图像的运动信息(诸如人脸的变化、头动的变化及人脸以外的背景变化等等)，从而可以防止人脸以外的区域出现大量的伪影，提升了生成说话视频的质量以及生成视频的连贯性。

上述参考图像可以针对不同的说话场景进行选择，再具体实施时，当该说话视频应用于视频会议时，可以选择适应于视频会议的参考图像；当该说话视频应用于诸如直播时，可以选择适应于直播的参考图像，诸如直播互动图像、直播卖货背景等等。

可以理解的是，视频传输相对于音频传输通常需要更大的带宽，而通过本实施例的方式，可以仅通过一张参考图像和一段音频即可得到自然的说话视频，在节省传输带宽时，满足不同场景的应用需求。

考虑到生成自然的说话视频可以包括人脸的表情变化、头部的自然摆动以及背景的清晰稳定，本实施例在生成说话视频时，在进行关键点检测时，采用的关键点为无监督关键点，也即上述第一无监督关键点，从而可以得到不仅仅包括人脸关键点的图像中的其余关键点。也即该第一无监督关键点至少包括参考图像中人脸和图像背景的无监督关键点，还可能会包括其他关键点，由于关键点为无监督关键点，需要深度学习网络才可以获知其具体的语义，因此，该关键点可以包括更加丰富的信息，从而对于参考图像中的表情变化、头部摆动以及背景的变化进行更加全面的检测，有助于生成更加自然流畅的说话视频。

上述第二无监督关键点为通过语音驱动后预测得到的无监督关键点，在基于与待生成的说话视频对应的语音帧序列和参考图像，预测与每一语音帧对应的第二无监督关键点时，可以根据以下步骤1和步骤2执行：

步骤1，基于与待生成的说话视频对应的语音帧序列和参考图像，预测与语音帧序列对应的头动参数序列。其中，头动参数序列的生成可以参见图2所示，在具体生成头动参数序列时，可以参照如下步骤1.1和步骤1.2执行：

步骤1.1，将参考图像输入至图像编码器，得到参考图像中的头部特征信息。其中，头部特征信息用于表征头部在参考图像中的位置信息，参见图2中的e₀，通过参考图像中头部的空间位置编码向量表示。在具体实施时，可以在0时刻将该参考图像输入至图像编码器，也即最初时刻进行参考图像的输入，从而可以得到该参考图像中的头部特征信息。

步骤1.2，基于头部特征信息和语音帧序列，通过头动预测模型预测头动参数序列。在一种实施方式中，头动预测模型可以采用长短期记忆网络(Long Short-termMemory，LSTM)，该头动预测模型预先通过参考图像集、语音帧以及对应的说话视频进行训练得到的。通过预先训练的头动预测模型随着语音帧序列的时间推进进行对应的头动参数序列的预测，可以使头动参数序列的预测可以更加贴近语音帧序列的特征，使得生成说话视频中的头动更加自然贴切。

步骤1.2.1，基于头部特征信息确定头动参数序列中的初始头动参数。

将头部特征信息输入至第一头动解码器，得到初始头动参数。该初始头动参数也即图2所示的s₀，相应的第一头动解码器也即与s₀对应的头动解码器E_D。可以理解的是，初始头动参数为针对参考图像计算得到的头动参数，因此该初始头动参数实质上为0。

为了保证头部特征信息与语音帧可以进行拼接，以便输入至预先训练的头动预测模型，可以首先基于预设的滑动窗口对语音帧序列进行逐帧特征提取，确定每一语音帧对应的多种初始语音特征；进而对多种初始语音特征进行特征组合，得到每一语音帧对应的语音特征信息。多种初始语音特征包括MFCC(Mel Frequency Cepstrum Coefficients，梅尔频率倒谱系数)、FBANK(Mel-filterbank energy features，梅尔滤波器组能量特征)、pitch(基频)和voiceless(语音标志位特征)中的任意多种。在具体实施时，可以在每个滑动窗口中对语音帧序列进行逐帧特征提取，提取13维的MFCC，26维的FBANK，1维的pitch和1维的voiceless，然后对多种初始语音特征进行特征组合，拼接起来组成41维的语音特征，也即每一语音帧对应的语音特征信息。在实际操作时，特征组合可以采用帧对齐的方式直接拼接即可。由于视频的帧率为25，所以每帧对应4个语音滑动窗口，因此每帧的语音特征指4x41大小的特征，并且，输入的语音特征信息与滑动窗口的长度T相对应，也即图2中的a₁、a₂……a_T。通过使用多种语音特征进行组合的方式代替原始输入语音，可以从原始语音中提取最具代表性最相关的语音特征，降低后续模型的学习难度，进而可以提升头动参数预测的准确性及真实性。

步骤1.2.2，基于头部特征信息和语音帧序列中的第一个语音帧，通过预先训练的头动预测模型预测得到与第一个语音帧对应的头动中间参数。

上述头部特征信息也即与参考图像对应的头部特征，第一个语音帧为预设的滑动窗口中输入的第一个语音帧，通过该头部特征信息和第一个语音帧进行拼接，进而可以通过预先训练的头动预测模型预测受到语音驱动后的头部可能出现的变化，也即与第一个语音帧对应的头动中间参数(也即图2中的e₁)，头动中间参数为头部在图像上的空间位置编码，在实际应用时，可以通过图像编码器得到。

步骤1.2.3，基于第N-1个语音帧对应的头动参数和语音帧序列中的第N个语音帧，通过预先训练的头动预测模型预测得到与第N个语音帧对应的头动中间参数，其中，N为大于1的自然数。

为了保证生成的说话视频两帧之间的连贯性，可以将第N-1个语音帧对应的头动中间参数和第N个语音帧对应的语音特征信息进行拼接，通过预先训练的头动预测模型预测得到与第N个语音帧对应的头动中间参数。当前语音帧预测得到的头动中间参数总是基于上一帧语音帧对应的头动中间参数进行预测，参见图2所示，e₂为通过e₁和a₂进行拼接，并输入至LSTM后预测得到的头动中间参数，以此类推，直至预测得到最后一个语音帧对应的头动中间参数。

在图2所示的示例中，由于按照预设的滑动窗口对语音帧进行特征提取，滑动窗口的长度为T，因此图2中的最后一个头动中间参数e_T中的T也即上述N。

步骤1.2.4，基于每个语音帧对应的头动中间参数，确定头动参数序列中除初始头动参数以外的其他头动参数。

当确定当前时刻的头动中间参数后，可以基于第二头动解码器确定除初始头动参数以外的其他头动参数。诸如，在每个滑动窗口中，当此时的语音特征信息为a₁时，此时将e₀和a₁输入至LSTM网络，可以预测到当前时刻受到语音驱动后的头动中间参数e₁，然后通过第二头动解码器对e₁进行解码，得到对应的其他头动参数s₁。以此类推，每次获得的当前时刻的其他头动参数均为根据上一时刻的头动中间参数以及头动解码器得到的，从而可以保证前后两个时刻的头动更加自然，不会出现明显的非自然头动。

可以理解的是，本实施例中的第一头动解码器和第二头动解码器仅是针对对象不同，其中，第一头动解码器针对参考图像的头部特征信息进行的解码，而第二头动解码器为针对加入语音特征信息后预测得到的头动中间参数后的头动解码器。在实际应用时，第一头动解码器和第二头动解码器也可以采用同一头动解码器，以减少成本。

基于上述初始头动参数和除初始头动参数以外的其他头动参数可以确定头动参数序列。由于输入的每段语音按照预设的滑动窗口均包含有多帧语音特征编码，因此确定的一个滑动时间窗口对应的头动参数序列包括有参考图像对应的初始头动参数s₀，以及语音驱动后的T个其他头动参数s₁、s₂……s_T。

上述方式确定的头动参数序列的方式，通过使用单独的神经网络(头动预测模型)来预测头动，实现了头动与其余运动(如口型，眉眼)之间的解耦，从而能够得到真实自然的头动参数序列。由于需要参考图像作为输入，对于不同的输入参考图像，即使输入相同的语音，得到的头动参数序列也是不同的，但头动的节奏适中同语音保持一致。可以理解的是，上述头动预测网络是一个回归模型，每帧包括六维的特征，其中三维代表旋转，三维代表头动，从而可以保证得到的头动既包含旋转也包含空间位移。

步骤2，基于语音帧序列、参考图像和头动参数序列，预测与每一语音帧对应的第二无监督关键点。通过上述由单独的神经网络确定的头动参数序列、以及参考图像和语音帧序列进行第二无监督关键点的预测，可以在确定了准确的头动下进一步预测图像中的其他运动信息，诸如表情的变化、由于头动引起的背景变化等等，从而可以得到整幅图像的运动信息，并且防止出现生成的视频中包含大量的伪影以及视频时序之间存在大量的抖动的情况，进而提升了生成说话视频的质量。在预测第二无监督关键点时，可以参见图3所示的一种第二无监督关键点的预测方式的示意图，在进行预测时，首先可以基于滑动窗口的长度对参考图像进行重复，得到与头动图像和语音特征图像相同的多张参考图像(也即图3中的V_I)，以便在对预先选择的3D卷积神经网络进行输入构建时，可以使网络的块状输入的参数(也即参考图像、头动参数以及语音特征信息)的个数对应相同。在具体实施时，第二无监督关键点的预测可以根据与待生成的说话视频对应的语音帧序列、参考图像和与语音帧序列对应的头动参数序列确定，从而保证预测的第二无监督关键点相对于参考图像更加的符合语音特征的变化，从而可以得到更加自然的说话视频。无监督关键点可以包括以下步骤2.1至步骤2.3：

步骤2.1，基于与语音帧序列对应的头动参数序列，确定相机坐标系对应的三维空间中的头动图像。该头动图像也即用于表示头动在相机坐标系对应的三维空间的图像，诸如前后左右的移动或者旋转等，在具体实施时，可以首先基于语音帧序列对应的头动参数确定三维空间中的立方体包围框，然后将立方体包围框投影至相机平面，以确定相机坐标系对应的三维空间中的头动图像。可以理解的是，每个头动参数均对应有一张头动图像，因此头动参数序列对应的头动图像为T张(也即图3中的V_s)。通过该方式确定的头动图像可以表征头部在空间中的位置，以便得到与语音特征信息对应的不同时刻的头动情况。

步骤2.2，对语音特征信息执行离散操作，得到与参考图像尺寸相同的语音特征图像。离散操作诸如可以包括卷积操作和上采样操作，通过对语音特征信息进行离散操作，以得到与上述V_I、V_s对应的T张语音特征图像(V_A)。

步骤2.3，将参考图像、头动图像和语音特征图像输入至预先选择的3D卷积神经网络，预测与每一语音帧对应的第二无监督关键点。上述预先选择的3D卷积神经网络也即图3所示的3DCNN。在将参考图像、头动图像和语音特征图像输入至预先选择的3D卷积神经网络之前，可以首先分别将每张参考图像、每张头动图像和每张语音特征图像按照对应的时间进行拼接，得到目标图像块(也即构建3DCNN块状输入)，然后将目标图像块输入至预先选择的3D卷积神经网络，预测与每一语音帧对应的第二无监督关键点。该方式可以通过参考图像、每张头动图像和每张语音特征图像共同作为3DCNN的块状输入，使得预测得到的第二无监督关键点更加符合图像特征以及语音特征，通过该无监督关键点最终生成的说话视频更加真实自然。

在具体实施时，上述3D卷积神经网络可以选用Hourglass3D，也可以采用其他3DCNN网络诸如Unet-3D、Resnet-3D，可以根据具体的需求进行选择，此处不作具体限定。

当确定上述第一无监督关键点和第二无监督关键点后，可以基于第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场。由于第二无监督关键点为与语音帧对应的无监督关键点，因此会存在一些运动信息，可以通过将第一无监督关键点和与每一语音帧对应的第二无监督关键点进行差分运算，确定与每一语音帧对应的密集运动场，从而可以确定发生运动的无监督关键点，以便在生成待生成的说话视频中与每一语音帧对应的帧图像时，通过对该发生运动的无监督关键点通过图像生成器(诸如2DCNN网络)，即可在每帧的密集光流中生成最终的图像，提升了最终的图像的生成效率。

本发明实施例还给出了一种具体的示例，参见图4所示，给定输入的参考图像和语音，首先通过一个头动生成器进行头动参数序列的预测(预测方式参见上述实施例，此处不再赘述)，然后运动场生成器将语音特征、头动以及参考图像作为输入，生成每帧关键点(也即上述第二无监督关键点)，与初始关键点(也即上述第一无监督关键点)做差分处理即可得到每帧相对于参考图像的密集运动场，最后通过一个图像生成器从密集运动场中生成最终的图像。由于得到的密集运动场同时描述了包含背景在内的整幅图像的运动光流，保证了生成中视频之间的连续性，并且有效的解决了图像中的模糊和伪影问题，实现了逼真、自然的图像生成。并且，由于密集运动场包含了整幅图像的运动信息，从而保证生成的说话视频中能够包含较为准确的口型及表情变化，视频的生成质量较高。

综上，本实施例提供的说话视频的生成方法，可以大幅度解决了目前one-shot生成中视频之间的连续性、图像中的模糊和伪影问题，实现了逼真、自然的图像生成，并且保证了说话视频中的口型及表情变化，视频的生成质量较高。

针对上述说话视频的生成方法，本发明实施例还提供了一种说话视频的生成装置，参见图5所示，该装置主要包括以下部分：

无监督关键点检测模块502，用于对与待生成的说话视频对应的参考图像进行检测得到第一无监督关键点；

无监督关键点预测模块504，用于基于与所述待生成的说话视频对应的语音帧序列和所述参考图像，预测与每一语音帧对应的第二无监督关键点；

密集运动场确定模块506，用于基于所述第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场；

说话视频生成模块508，用于基于所述参考图像和与每一语音帧对应的密集运动场，生成所述待生成的说话视频中与每一语音帧对应的帧图像。

本发明实施例提供的说话视频生成装置，通过检测得到的第一无监督关键点和预测得到的第二无监督关键点确定密集运动场，并基于参考图像和与每一语音帧对应的密集运动场，生成待生成的说话视频中与每一语音帧对应的帧图像。其中，由于无监督关键点无法直接获取语义，需要深度网络学习才能获知具体的语义，从而可以表征参考图像中任意关键点，而并非现有技术中仅用于表征人脸特征(诸如眼睛、嘴、鼻子等)的人脸关键点；并且由于基于无监督关键点确定的密集运动场可以包含整幅图像的运动信息(诸如人脸的变化、头动的变化及人脸以外的背景变化等等)，从而可以防止人脸以外的区域出现大量的伪影，提升了生成说话视频的质量以及生成视频的连贯性。

在一些实施方式中，上述无监督关键点预测模块504，还用于基于与待生成的说话视频对应的语音帧序列和参考图像，预测与语音帧序列对应的头动参数序列；基于与待生成的说话视频对应的语音帧序列、参考图像和与语音帧序列对应的头动参数序列，预测与每一语音帧对应的第二无监督关键点。

在一些实施方式中，上述无监督关键点预测模块504，还用于将参考图像输入至图像编码器，得到参考图像中的头部特征信息；基于头部特征信息、与待生成的说话视频对应的语音帧序列和头动预测模型预测头动参数序列。

在一些实施方式中，上述无监督关键点预测模块504，还用于基于所述头部特征信息确定所述头动参数序列中的初始头动参数；基于所述头部特征信息和所述语音帧序列中的第一个语音帧，通过预先训练的头动预测模型预测得到与所述第一个语音帧对应的头动中间参数；基于第N-1个语音帧对应的头动参数和所述语音帧序列中的第N个语音帧，通过预先训练的头动预测模型预测得到与所述第N个语音帧对应的头动中间参数，其中，N为大于1的自然数；基于每个语音帧对应的头动中间参数，确定所述头动参数序列中除初始头动参数以外的其他头动参数。

在一些实施方式中，上述装置还包括语音特征提取模块，用于基于预设的滑动窗口对语音帧序列进行逐帧特征提取，确定每一语音帧对应的多种初始语音特征；多种初始语音特征包括梅尔频率倒谱系数、梅尔滤波器组能量特征、基频和语音标志位特征中的任意多种；对多种初始语音特征进行特征组合，得到每一语音帧对应的语音特征信息。

在一些实施方式中，上述无监督关键点预测模块504，还用于将所述第N-1个语音帧对应的头动中间参数和所述第N个语音帧对应的语音特征信息进行拼接，通过预先训练的头动预测模型预测得到与所述第N个语音帧对应的头动中间参数。

在一些实施方式中，上述无监督关键点预测模块504，头动预测模型包括长短期记忆网络LSTM；头动中间参数为头部在图像中的空间位置编码。

在一些实施方式中，上述无监督关键点预测模块504，还用于基于与语音帧序列对应的头动参数序列，确定相机坐标系对应的三维空间中的头动图像；对语音特征信息执行离散操作，得到与参考图像尺寸相同的语音特征图像；将参考图像、头动图像和语音特征图像输入至预先选择的3D卷积神经网络，预测与每一语音帧对应的第二无监督关键点。

在一些实施方式中，上述无监督关键点预测模块504，还用于基于语音帧序列对应的头动参数确定三维空间中的立方体包围框；将立方体包围框投影至相机平面，以确定相机坐标系对应的三维空间中的头动图像。

在一些实施方式中，上述装置还包括图像重复模块，用于在将参考图像、头动图像和语音特征图像输入至预先选择的3D卷积神经网络之前，基于滑动窗口的长度对参考图像进行重复，得到与头动图像和语音特征图像相同的多张参考图像。

在一些实施方式中，上述无监督关键点预测模块504，还用于分别将每张参考图像、每张头动图像和每张语音特征图像按照对应的时间进行拼接，得到目标图像块；将目标图像块输入至预先选择的3D卷积神经网络，预测与每一语音帧对应的第二无监督关键点。

在一些实施方式中，上述密集运动场确定模块506，还用于将第一无监督关键点和与每一语音帧对应的第二无监督关键点进行差分运算，确定与每一语音帧对应的密集运动场。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供了一种服务器，具体的，该服务器包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图6为本发明实施例提供的一种服务器的结构示意图，该服务器100包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。

其中，存储器61可能包含高速随机存取存储器(RAM，RandomAccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。

处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的说话视频生成方法、装置和电子设备的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种说话视频生成方法，其特征在于，所述方法包括：

对与待生成的说话视频对应的参考图像进行检测得到第一无监督关键点；

基于与所述待生成的说话视频对应的语音帧序列和所述参考图像，预测与每一语音帧对应的第二无监督关键点；

基于所述第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场；

基于所述参考图像和与每一语音帧对应的密集运动场，生成所述待生成的说话视频中与每一语音帧对应的帧图像；

所述基于与所述待生成的说话视频对应的语音帧序列和所述参考图像，预测与每一语音帧对应的第二无监督关键点的步骤，包括：

基于所述语音帧序列和所述参考图像，预测与所述语音帧序列对应的头动参数序列；

基于与所述语音帧序列、所述参考图像和所述头动参数序列，预测与每一语音帧对应的所述第二无监督关键点。

2.根据权利要求1所述的说话视频生成方法，其特征在于，所述基于所述语音帧序列和所述参考图像，预测与所述语音帧序列对应的头动参数序列的步骤，包括：

将所述参考图像输入至图像编码器，得到所述参考图像中的头部特征信息；

基于所述头部特征信息和所述语音帧序列，通过预先训练的头动预测模型预测所述头动参数序列。

3.根据权利要求2所述的说话视频生成的方法，其特征在于，所述基于所述头部特征信息和所述语音帧序列，通过预先训练的头动预测模型预测所述头动参数序列的步骤，包括：

基于所述头部特征信息确定所述头动参数序列中的初始头动参数；

基于所述头部特征信息和所述语音帧序列中的第一个语音帧，通过预先训练的头动预测模型预测得到与所述第一个语音帧对应的头动中间参数；所述头动中间参数为头部在图像上的空间位置编码；

基于第N-1个语音帧对应的头动中间参数和所述语音帧序列中的第N个语音帧，通过预先训练的头动预测模型预测得到与所述第N个语音帧对应的头动中间参数，其中，N为大于1的自然数；

基于每个语音帧对应的头动中间参数和头动解码器，确定所述头动参数序列中除初始头动参数以外的其他头动参数。

4.根据权利要求3所述的说话视频生成的方法，其特征在于，在通过预先训练的头动预测模型预测得到与所述第一个语音帧对应的头动中间参数之前，所述方法还包括：

基于预设的滑动窗口对所述语音帧序列进行逐帧特征提取，确定每一语音帧对应的多种初始语音特征；所述多种初始语音特征包括梅尔频率倒谱系数、梅尔滤波器组能量特征、基频和语音标志位特征中的任意多种；

对所述多种初始语音特征进行特征组合，得到每一语音帧对应的语音特征信息。

5.根据权利要求4所述的说话视频生成的方法，其特征在于，所述基于第N-1个语音帧对应的头动参数和所述语音帧序列中的第N个语音帧，通过预先训练的头动预测模型预测得到与所述第N个语音帧对应的头动中间参数的步骤，包括：

将所述第N-1个语音帧对应的头动中间参数和所述第N个语音帧对应的语音特征信息进行拼接，通过预先训练的头动预测模型预测得到与所述第N个语音帧对应的头动中间参数。

6.根据权利要求5所述的说话视频生成的方法，其特征在于，所述头动预测模型包括长短期记忆网络LSTM。

7.根据权利要求4所述的说话视频生成的方法，其特征在于，所述基于与所述待生成的说话视频对应的语音帧序列、所述参考图像和与所述语音帧序列对应的头动参数序列，预测与每一语音帧对应的所述第二无监督关键点的步骤，包括：

基于所述头动参数序列，确定相机坐标系对应的三维空间中的头动图像；

对所述语音特征信息执行离散操作，得到与所述参考图像尺寸相同的语音特征图像；

将所述参考图像、所述头动图像和所述语音特征图像输入至预先选择的3D卷积神经网络，预测与每一语音帧对应的所述第二无监督关键点。

8.根据权利要求7所述的说话视频生成的方法，其特征在于，所述基于所述语音帧序列对应的头动参数，确定头动图像的步骤，包括：

基于所述语音帧序列对应的头动参数确定三维空间中的立方体包围框；

将所述立方体包围框投影至相机平面，以确定相机坐标系对应的三维空间中的所述头动图像。

9.根据权利要求7所述的说话视频生成的方法，其特征在于，在将所述参考图像、所述头动图像和所述语音特征图像输入至预先选择的3D卷积神经网络之前，所述方法还包括：

基于滑动窗口的长度对所述参考图像进行重复，得到与所述头动图像和所述语音特征图像相同的多张参考图像。

10.根据权利要求7所述的说话视频生成的方法，其特征在于，所述将所述参考图像、所述头动图像和所述语音特征图像输入至预先选择的3D卷积神经网络，预测与每一语音帧对应的所述第二无监督关键点的步骤，包括：

分别将每张所述参考图像、每张所述头动图像和每张所述语音特征图像按照对应的时间进行拼接，得到目标图像块；

将所述目标图像块输入至预先选择的3D卷积神经网络，预测与每一语音帧对应的所述第二无监督关键点。

11.根据权利要求1所述的说话视频生成的方法，其特征在于，所述基于所述第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场的步骤，包括：

将所述第一无监督关键点和与每一语音帧对应的第二无监督关键点进行差分运算，确定与每一语音帧对应的所述密集运动场。

12.一种说话视频生成装置，其特征在于，所述装置包括：

无监督关键点检测模块，用于对与待生成的说话视频对应的参考图像进行检测得到第一无监督关键点；

无监督关键点预测模块，用于基于与所述待生成的说话视频对应的语音帧序列和所述参考图像，预测与每一语音帧对应的第二无监督关键点；

密集运动场确定模块，用于基于所述第一无监督关键点和与每一语音帧对应的第二无监督关键点确定与每一语音帧对应的密集运动场；

说话视频生成模块，用于基于所述参考图像和与每一语音帧对应的密集运动场，生成所述待生成的说话视频中与每一语音帧对应的帧图像；

所述无监督关键点预测模块，还用于基于所述语音帧序列和所述参考图像，预测与所述语音帧序列对应的头动参数序列；基于与所述语音帧序列、所述参考图像和所述头动参数序列，预测与每一语音帧对应的所述第二无监督关键点。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至11任一项所述的说话视频生成方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器执行所述权利要求1至11任一所述的说话视频生成方法。