CN114245230A

CN114245230A - 视频的生成方法、装置、电子设备及存储介质

Info

Publication number: CN114245230A
Application number: CN202111448050.2A
Authority: CN
Inventors: 王苏振; 李林橙; 丁彧; 吕唐杰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-25

Abstract

本申请提供一种视频的生成方法、装置、电子设备及存储介质；该方法包括：根据待生成的视频对应的语音帧序列和包含目标头像的参考图像，得到与每一语音帧对应的目标头像的头动数据；根据语音帧序列进行音素特征提取，得到与每一语音帧对应的音素特征；通过预先训练的语音视觉关联模型，得到与每一语音帧对应的第一关键点数据；根据对应于参考图像第二关键点数据，对第一关键点数据进行相对运动迁移，得到与每一语音帧对应的密集运动场；根据每一语音帧对应的密集运动场，得到与每一语音帧对应的帧图像，并根据所述帧图像生成所述视频。本申请的方案能够真实、准确的模拟头部和面部的动作，并有效的提高生成的视频的质量。

Description

视频的生成方法、装置、电子设备及存储介质

技术领域

本申请涉及视频生成技术领域，尤其涉及一种视频的生成方法、装置、电子设备及存储介质。

背景技术

通过语音驱动人脸说话视频生成的方案，可广泛应用于虚拟助手、智能客服、新闻播报、远程会议、电子游戏等多个领域，满足上述领域对智能虚拟形象的功能需求和性能需求，并能够基于人工智能大幅度降低相关行业的人工劳动。

然而，现有的说话视频的生成方案，普遍难以准确模拟出头部和面部的动作，使得生成的视频的质量较低。

发明内容

针对上述技术问题，非常需要一种改进的方案，能够真实、准确的模拟头部和面部的动作，并有效的提高生成的视频的质量。

基于上述目的，本申请提供了一种视频的生成方法，包括：

根据待生成的视频对应的语音帧序列和包含目标头像的参考图像，得到与每一语音帧对应的所述目标头像的头动数据；

根据所述语音帧序列进行音素特征提取，得到与每一语音帧对应的音素特征；

根据所述参考图像、所述头动数据和所述音素特征，通过预先训练的语音视觉关联模型，得到与每一语音帧对应的第一关键点数据；所述语音视觉关联模型是通过一定数量具有相同身份信息的训练样本训练得到的；

对所述参考图像进行关键点检测得到第二关键点数据；

根据所述第二关键点数据，对所述第一关键点数据进行相对运动迁移，得到与每一语音帧对应的密集运动场；

根据每一语音帧对应的密集运动场，得到与每一语音帧对应的帧图像，并根据所述帧图像生成所述视频。

在一些实施方式中，所述根据待生成的视频对应的语音帧序列和包含目标头像的参考图像，得到与每一语音帧对应的所述目标头像的头动数据，包括：对所述参考图像进行二维空间投影，得到初始头动数据；根据所述语音帧序列进行语音特征提取，得到与每一语音帧对应的语音特征；根据所述初始头动数据和所述语音特征，通过预先训练的头动预测模型预测得到与每一语音帧对应的所述目标头像的头动数据；所述头动预测模型是通过一定数量具有相同身份信息的头动训练样本训练得到的。

在一些实施方式中，所述根据所述初始头动数据和所述语音特征，通过预先训练的头动预测模型预测得到与每一语音帧对应的所述目标头像的头动数据，包括：对于所述语音帧序列中的首个语音帧，将该语音帧对应的语音特征与所述初始头动数据分别编码后拼接，得到该语音帧对应的空间位置编码；对该语音帧对应的空间位置编码进行解码，得到该语音帧对应的头动数据；对于所述语音帧序列中的其他任一语音帧，对该语音帧对应的语音特征编码后与上一语音帧对应的空间位置编码拼接，得到该语音帧对应的空间位置编码；对该语音帧对应的空间位置编码进行解码，得到该语音帧对应的头动数据。

在一些实施方式中，所述训练样本的身份信息与所述头动训练样本的身份信息相同。

在一些实施方式中，所述根据所述参考图像、所述头动数据和所述音素特征，通过预先训练的语音视觉关联模型，得到与每一语音帧对应的第一关键点数据，包括：将所述头动数据、所述音素特征与所述参考图像进行组合，得到结构化输入数据；根据所述结构化输入数据进行姿态预测，得到与每一语音帧对应的第一关键点数据。

在一些实施方式中，所述将所述头动数据、所述音素特征与所述参考图像进行组合，得到结构化输入数据，包括：将所述音素特征进行编码，得到所述音素特征的向量表示；将所述音素特征的向量表示进行转换，得到所述音素特征的二维表示；将所述头动数据、所述音素特征的二维表示与所述参考图像的尺寸对齐后进行通道维度的拼接，得到所述结构化输入数据。

在一些实施方式中，所述根据所述结构化输入数据进行姿态预测，得到与每一语音帧对应的第一关键点数据，包括：对于任一语音帧，将该语音帧作为中间帧并通过预定长度的滑动窗口选择一定数量的目标语音帧，将该语音帧对应的结构化输入数据、全部所述目标语音帧对应的结构化输入数据与所述参考图像进行通道维度的拼接，得到组合输入数据，并根据所述组合输入数据进行姿态预测，以得到与该语音帧对应的第一关键点数据。

在一些实施方式中，所述第一关键点数据，包括：关键点坐标数据和关键点仿射变换数据。

在一些实施方式中，所述根据所述第二关键点数据，对所述第一关键点数据进行相对运动迁移，得到与每一语音帧对应的密集运动场，包括：对于任一语音帧，确定该语音帧对应的第一关键点数据与所述语音帧序列中的首个语音帧对应的第一关键点数据之间的相对运动数据，将所述相对运动数据相对于所述第二关键点数据进行迁移，得到该语音帧对应的密集运动场。

基于同一构思，本申请还提供了一种视频的生成装置，包括：

头动数据预测模块，被配置为根据待生成的视频对应的语音帧序列和包含目标头像的参考图像，得到与每一语音帧对应的所述目标头像的头动数据；

音素特征提取模块，被配置为根据所述语音帧序列进行音素特征提取，得到与每一语音帧对应的音素特征；

第一关键点生成模块，被配置为根据所述参考图像、所述头动数据和所述音素特征，通过预先训练的语音视觉关联模型，得到与每一语音帧对应的第一关键点数据；所述语音视觉关联模型是通过一定数量具有相同身份信息的第一训练样本训练得到的；

第二关键点生成模块，被配置为对所述参考图像进行关键点检测得到第二关键点数据；

密集运动场生成模块，被配置为根据所述第二关键点数据，对所述第一关键点数据进行相对运动迁移，得到与每一语音帧对应的密集运动场；

视频生成模块，被配置为根据每一语音帧对应的密集运动场，得到与每一语音帧对应的帧图像，并根据所述帧图像生成所述视频。

基于同一构思，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上任意一项所述的方法。

基于同一构思，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行如上任意一项所述的方法。

从上面所述可以看出，本申请提供的视频的生成方法、装置、电子设备及存储介质，单独处理得到的头动数据和音素特征的使用，能够避免模型学习到无用的特征，语音视觉关联模型也相应的使用具有相同身份信息的训练样本训练得到，使语音视觉关联模型能够更加准确的输出关键点数据，再基于one-shot的方式，通过关键点数据的迁移，得到对应于参考图像中人物的密集运动场，实现特定人物到任意人物的泛化，最终得到真实、准确反映参考图像中人物特点的视频，有效的提升了生成的视频的质量。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的应用场景示意图；

图2为本申请实施例的视频的生成方法流程示意图；

图3为本申请实施例的头动预测模型的工作原理示意图；

图4为本申请实施例一种具体的视频生成方法的流程示意图；

图5为本申请实施例的视频的生成装置结构示意图；

图6为本申请实施例的电子设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

根据本申请的实施方式，提出了一种视频的生成方法、装置、电子设备及存储介质。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本申请的若干代表性实施方式，详细阐释本申请的原理和精神。

如背景技术部分所述，现有的视频生成方案，普遍存在生成的包括有说话人物的视频的质量较低的问题。在实现本申请的过程中，申请人发现上述问题存在的原因在于：在对说话视频生成方案中的相关模型进行训练时，需要使用海量的包含有不同人物(该人物可以是自然人，也可以是虚拟人物)的训练样本，也即从数据角度来说，该些训练样本具有不同的身份信息；然而，由于不同人物在说话过程中存在的差异性，这使得上述相关模型在训练时，会将上述差异当做特征进行学习，这使得该些模型难以准确的学习到训练样本中所记载的头部动作和面部动作的特征，也就进一步造成了上述现有技术存在的问题。此外，申请人在实现本申请的过程中还发现，如果使用仅包括有单个人物的训练样本对相关模型进行训练，由于该些训练样本具有相同的身份信息，相关模型则能够较好的学习到头部动作和面部动作的特征；但是，上述基于单个人物的训练样本训练得到的模型，在实际使用过程中无法泛化到任意的说话人物，存在应用上的困难。

基于上述申请人的发现，并为解决上述问题，本申请提供了一种视频的生成方案，对待生成的说话视频对应的语音帧序列和参考图像进行单独的处理，得到头动数据；根据语音帧序列得到音素特征，根据预先训练的语音视觉关联模型，基于头动数据、音素特征和参考图像得到关键点数据，再基于参考图像对将关键点数据进行迁移，以最终生成说话视频。本申请的方案中，单独处理得到的头动数据和音素特征的使用，能够避免模型学习到无用的特征，语音视觉关联模型也相应的使用具有相同身份信息的训练样本训练得到，使语音视觉关联模型能够更加准确的输出关键点数据，再基于one-shot的方式，通过关键点数据的迁移，得到对应于参考图像中人物的密集运动场，实现特定人物到任意人物的泛化，最终得到真实、准确反映参考图像中人物特点的说话视频，有效的提升了生成的说话视频的质量。

参考图1，为本申请实施例提供的视频的生成方法的应用场景示意图。该应用场景包括终端设备101、服务器102、和数据存储系统103。其中，终端设备101、服务器102以及数据存储系统103之间均可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备视、个人数字助理(personal digital assistant，PDA)或其它能够实现上述功能的电子设备等。服务器102和数据存储系统103均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务器102用于向终端设备101的用户提供说话视频生成和/播放服务，终端设备101中安装有与服务器102通信的客户端，用户可以通过该客户端接收生成的说话视频并进行播放。客户端可以通过调用终端设备101的输入组件(如键盘、麦克风等)将待生成的说话视频对应的语音帧序列和参考图像发送给服务器102，并接收服务器102发送的说话视频并进行播放；客户端也可以仅接收服务器102发送的说话视频并进行播放。数据存储系统103为服务器102的工作运行提供数据存储支持，如存储语音帧序列、参考图像、训练样本等。服务器102可以根据待生成的说话视频对应的语音帧序列和参考图像，通过其上部署的语音视觉关联模型，执行本申请实施例的说话视频的生成方法得到说话视频，并将说话视频发送至终端设备101并在客户端中播放。

下面结合图1的应用场景，来描述根据本申请示例性实施方式的视频的生成方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

首先，本申请实施例提供了一种视频的生成方法。

参考图2，本实施例的视频的生成方法，可以包括以下步骤：

步骤S201、根据待生成的视频对应的语音帧序列和包含目标头像的参考图像，得到与每一语音帧对应的所述目标头像的头动数据。

本步骤中，可以先获取待生成的视频对应的语音帧序列和包含目标头像的参考图像。

具体实施时，语音帧序列可以为对原始语音数据进行采样，并基于任意可行的数据结构构建获得的帧序列。其中，对原始语音数据进行采样操作可以预先设定采样时间窗口，并将原始语音数据采样成若干个采样时间窗口大小的语音数据。在具体实施时，可以根据实施需要选取采样时间窗口的大小，本实施例中不作具体限定。

具体实施时，参考图像为一帧图像数据，一般情况下，参考图像包括有说话人的正脸图像，本实施例中该说话人的的正脸图像称为目标头像；此外，参考图像还可以包括有说目标头像以外的背景图像。该参考图像可以根据待生成的视频的实际应用场景进行选取，在实际实施时，可以针对不同的应用场景适应性的选择对应的参考图像，例如，在视频会议场景、视频直播场景下，参考图像可以是包括有主持人及其所处的环境的图像。

作为一个可选的实施方式，可以通过预先训练的头动预测模型来预测得到与每一语音帧对应的头动数据。该通过头动预测模型得到头动数据的方案，可以包括以下步骤：对所述参考图像进行二维空间投影，得到初始头动数据；根据所述语音帧序列进行语音特征提取，得到与每一语音帧对应的语音特征；根据所述初始头动数据和所述语音特征，通过预先训练的头动预测模型预测得到与每一语音帧对应的所述目标头像的头动数据；所述头动预测模型是通过一定数量具有相同身份信息的第二训练样本训练得到的。

本实施例中，基于语音帧序列为具有时序特征的特点，头动预测模型可以相应的选择用于处理具有时序特征的数据的序列模型。对于使用何种具体的序列模型，可以根据实施需要而选择任意，例如，可以是RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)，transformer等。

本实施例中，由于参考图像包括了目标头像、背景等图像内容，同时也包括有上述图像内容所对应的丰富的纹理信息，若直接对参考图像进行编码并使用，则会造成现有技术中学习到过多对于头部动作预测无用的特征的情况。则为解决上述问题，本实施例中对参考图像进行二维空间投影，通过二维空间投影处理得到投影图，该投影图中纹理信息被去除，仅保留了二维空间中目标头像的空间位置信息，将该投影图作为初始头动数据，能够使得头动预测模型更加准确的预测得到头动数据。

本实施例中，对语音帧序列进行语音特征提取得到语音特征。对于使用何种类型的语音特征可以根据实施需要而选择任意，例如，可以是MFCC(Mel Frequency CepstrumCoefficients，梅尔频率倒谱系数)、FBANK(Mel-filterbank energy features，梅尔滤波器组能量特征)、pitch(基频)、voiceless(语音标志位特征)中的一种或多种的组合。

本实施例中，根据初始头动数据和语音特征，通过头动预测模型预测得到与每一语音帧对应的头动数据的过程，可以参考图3所示。

通过图像编码模型对于初始头动数据进行编码后，可以得到初始空间位置编码e₀。得到初始空间位置编码e₀的过程可以公式表示为：e₀＝F_r(h^r)，其中，h^r表示初始头动数据，F_r表示图像编码模型，该图像编码模型例如可以是预先训练的深度神经网络。

对于每一语音帧对应的语音特征通过语音特征编码器进行编码后，可以得到语音特征编码f_t。得到语音特征编码f_t的过程可以公式表示为：f_t＝F_a(a_t)，其中，a_t表示总计包括有T个语音帧的语音帧序列中的第t个语音特征，F_a表示语音特征编码器，该语音特征编码器可以选择任意现有的语音特征编码模型。

参考图3，将初始头动数据和与每一语音帧对应的语音特征依次输入头动预测模型，头动预测模型可以依次输出与每一语音帧对应的头动数据。基于序列模型的特点，头动预测模型可以理解为包括头动编码器和头动解码器。

对于语音帧序列中的首个语音帧，通过编码后得到对应的语音特征编码f₁；将该语音特征编码f₁与初始空间位置编码e₀拼接后作为输入，通过头动编码器编码后得到该语音帧对应的空间位置编码e₁；进一步通过头动解码器对空间位置编码e₁解码后即得到该语音帧对应的头动数据h₁。

对于语音帧序列中的其他任一语音帧，通过编码后得到对应的语音特征编码f_t；将该语音特征编码f_t与上一语音帧对应的空间位置编码e_t-1拼接后作为输入，通过头动编码器编码后得到该语音帧对应的空间位置编码e_t；进一步通过头动解码器对空间位置编码e_t解码后即得到该语音帧对应的头动数据h_t。

本实施例中，头动预测模型是通过一定数量具有相同身份信息的头动训练样本训练得到的。其中，头动训练样本是指用于训练头动预测模型所使用的图片数据，该些图片数据与参考图像类似，包括有说话人、背景等图像内容。所述的具有相同身份信息是指，该些头动训练样本均是取自同一个说话人的图片数据。由于头动预测模型通过具有相同身份信息的头动训练样本训练得到，相比于使用具有不同身份信息的训练样本，使得本实施例的头动预测模型能够更加准确的学习到头动训练样本中包含的头部动作特征；此外，基于具有相同身份信息的特点，使用的头动训练样本的总数量也相对减少，能够相应的提升模型训练的效率。

在一些其他的实施方式中，也可以使用任意可行的方式根据语音帧序列和参考图像，得到与每一语音帧对应的头动数据。

步骤S202、根据所述语音帧序列进行音素特征提取，得到与每一语音帧对应的音素特征。

本实施例中，考虑到语音帧包括有音质、音色等丰富的信息，若直接对语音帧提取语音特征并进行编码使用，则会造成现有技术中学习到音质、音色这些对于面部动作预测无用的特征的情况。则为解决上述问题，本实施例中对语音帧序列进行音素特征提取。其中，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。可见，音素与发音动作存在对应关系，所以通过音素特征来对应的表达语音帧，能够更加突出的反映出发音动作的特征，去除掉音质、音色等对于面部动作预测无用的特征，有助于提升后续生成的反映面部动作的第一关键点数据的真实度和准确度。

本实施例中，可以通过任意可行的音素特征提取模型对本实施例的语音帧序列进行音素特征提取，具体选择本实施例中不做限定。

步骤S203、根据所述参考图像、所述头动数据和所述音素特征，通过预先训练的语音视觉关联模型，得到与每一语音帧对应的第一关键点数据；所述语音视觉关联模型是通过一定数量具有相同身份信息的第一训练样本训练得到的。

本实施例中，通过预先训练的语音视觉关联模型来根据参考图像、每一语音帧对应的头动数据和音素特征，来生成与每一语音帧对应的第一关键点数据。其中，关键点数据是人体动作识别领域中常用的用于表达人体关键部位动作的数据；在本实施例中，将参考图像、头动数据和音素特征组合得到结构化输入数据，以作为语音视觉关联模型的输入；通过语音视觉关联模型进行姿态预测，以输出与每一语音帧对应的、表达头部动作和面部动作的关键点数据，本实施例中将语音视觉关联模输出的关键点数据称为第一关键点数据。

具体实施时，构建得到结构化输入数据，可以包括以下步骤：将所述音素特征进行编码，得到所述音素特征的向量表示；将所述音素特征的向量表示进行转换，得到所述音素特征的二维表示；将所述音素特征的向量表示、所述音素特征的二维表示与所述参考图像的尺寸对齐后进行通道维度的拼接，得到所述结构化输入数据。

其中，对于任一语音帧，将该语音帧对应的音素特征进行编码，得到一定特征维度的音素特征的向量表示；其中，具体的编码方式可以选择one-hot编码，或者词向量编码模型Word2vec等。例如，可以通过one-hot编码方式，比如得到256维的音素特征的向量表示。为实现与为二维投影图形式的头动数据对齐，则相应的将音素特征的向量表示进一步通过任意可行的方式进行形状变换，以得到音素特征的二维表示。例如，头动数据的大小为大小为64*64*1，则相应的对于256维的音素特征的向量表示，先经过变换形状得到16*16*1大小的二维特征图，再通过采样转换为64*64*1大小的二维表示，将音素特征的二维表示和头动数据进行通道维度的拼接，得到音素头动的联合表示

参考图像为64*64*3的RGB三通道表示，则将头动数据、音素特征的维表示与参考图像进行通道维度的拼接后，即得到对应于该语音帧的结构化输入数据

其中，根据得到的结构化输入数据，语音视觉关联模型可以基于诸如沙漏网络(Hourglass)、U-net等具体的卷积神经网络结构，来根据结构化输入数据生成对应的第一关键点数据。上述过程可以公式表达为：

其中，k_i表示关键点坐标数据，j_i表示关键点仿射变换数据，F_av表示语音视觉关联模型所使用的具体的卷积神经网络。关键点坐标数据k_i和关键点仿射变换数据j_i即构成第一关键点数据(k_i,j_i)。

作为一个可选的实施方式，基于语音视觉关联模型每次生成一个语音帧对应的第一关键点数据的特点，并考虑到时序上的稳定性，还可以通过滑动窗口的方式选取若干连续的语音帧对应的音素头动的联合表示，来与参考图像构成组合输入数据。

具体的，对于任一语音帧，将该语音帧作为中间帧并通过预定长度的滑动窗口选择一定数量的目标语音帧；例如，使用长度为5的滑动窗口，则以当前语音帧作为中间帧，则确定出i-2、i-1、i+1、i+2四个目标语音帧。将该语音帧和全部目标语音帧分别对应的音素头动的联合与参考图像进行通道维度的拼接，得到组合输入数据

根据该组合输入数据进行姿态预测，以得到与该语音帧对应的第一关键点数据。

需要说明的是，上述说明中出现的所有向量、特征图的维度的具体数值均仅作为示例，并非是对于相应特征的具体限定。

本实施例中，语音视觉关联模型是通过一定数量具有相同身份信息的训练样本训练得到的。其中，训练样本是指用于训练语音视觉关联模型所使用的数据，该些数据包括训练用的语音帧序列以及根据训练用的参考图片得到的训练用的头动数据。所述的具有相同身份信息是指，该些训练样本均取自同一个说话人。由于使用具有相同身份信息的训练样本，使得本实施例的语音视觉关联模型能够更加准确的学习到训练样本中包含的语音与头部动作、面目动作之间的关联关系；此外，基于具有相同身份信息的特点，使用的训练样本的总数量也相对减少，能够相应的提升模型训练的效率。

需要说明的是，为提升本实施例中各模型预测的准确度和一致性，所述的语音视觉关联模型和头动预测模型在训练时，使用的训练样本的身份信息与头动训练样本的身份信息可以是相同。当然，上述两种训练样本的身份信息也可以不同，仅需保证同一种训练样本内具有相同的身份信息即可。

步骤S204、对所述参考图像进行关键点检测得到第二关键点数据。

本实施例中，可以通过如上述获得第一关键点数据时所使用的任意的卷积神经网络模型，来对参考图像进行关键点检测，以得到参考图像对应的关键点数据。本实施例中，将该参考图像对应的关键点数据称为第二关键点数据。

步骤S205、根据所述第二关键点数据，对所述第一关键点数据进行相对运动迁移，得到与每一语音帧对应的密集运动场。

本实施例中，由于生成第一关键点数据的语音视觉关联模型是使用具有相同身份信息的训练样本训练得到的，则第一关键点数据仅反映特定人的语音与头部动作、面目动作之间的关联关系。本实施例中，基于one-shot的设计思想，对于任一语音帧，将该语音帧对应的第一关键点数据相对于首个音帧对应的第一关键点数据之间的相对运动数据，迁移到从参考图像检测出的第二关键点数据，从而得到该语音帧对应的密集运动场。由于相对于参考图像进行了迁移，则相应实现了从特定人到任意人的泛化。其中，密集运动场是人体动作识别领域中常用的根据关键点数据生成的光流场数据，其用于反映整幅图像中对象的运动信息。在本实施例中，通过基于参考图像的迁移，使得得到的密集运动场能够表达整幅图像的运动信息，例如头部的移动、面部的变化、由于头部移动导致的背景变化等。

具体的，对于任一语音帧对应的第一关键点数据，可以包括第一关键点坐标数据k_i，以及第一关键点仿射变换数据j_i；对于语音帧序列中的首个语音帧对应的第一关键点数据，可以包括首个语音帧对应的第一关键点数据k₀；对于参考图像对应的第二关键点数据，可以包括第二关键点坐标数据k_r，以及第二关键点仿射变换数据j_r。相应的，根据第二关键点数据，对第一关键点数据进行相对运动迁移，得到密集运动场的过程，可以公式表达为：

其中，计算得到的(k′_i,j′_i)，分别表示迁移后的关键点坐标数据和关键点仿射变换数据，基于该(k′_i,j′_i)即可以相应的确定出该语音帧对应的密集运动场。

步骤S206、根据每一语音帧对应的密集运动场，得到与每一语音帧对应的帧图像，并根据所述帧图像生成所述视频。

本实施例中，基于前述步骤获得的每一语音帧对应的密集运动场，可以通过预先设置的图像生成器，并通过图像生成器生成与待生成的视频中与每一语音帧对应的帧图像。其中，预先设置的图像生成器可以根据实施需要而相应选择，例如First Order Motion模型等。进一步的，基于与每一语音帧对应的帧图像，通过合成即能够得到视频。

基于上述实施例，作为一个具体的示例，参考图4，给定输入的参考图像I_r和语音(例如内容是“Hi，everybody！”)，对参考图像进行二维空间投影得到初始头动数据h_r，对语音帧序列进行特征提取得到语音特征的序列a_1:T，通过头动预测模型预测得到头动数据的序列h_1:T；对语音帧序列进行音素提取得到音素特征的序列p_1:T；根据参考图像、音素特征和头动数据，通过语音视觉关联模型预测得到关键点数据后相对于参考图像进行迁移，得到与每一语音帧对应的密集运动场，再通过图像生成器生成待生成的视频中与每一语音帧对应的帧图像并最终合成得到视频。

由上述实施例可见，本申请的视频的生成方法，单独处理得到的头动数据和音素特征的使用，能够避免模型学习到无用的特征，语音视觉关联模型也相应的使用具有相同身份信息的训练样本训练得到，使语音视觉关联模型能够更加准确的输出关键点数据，再基于one-shot的方式，通过关键点数据的迁移，得到对应于参考图像中人物的密集运动场，实现特定人物到任意人物的泛化，最终得到真实、准确反映参考图像中人物特点的视频，有效的提升了生成的视频的质量。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一构思，本申请实施例还提供了一种视频的生成装置。参考图5，所述的视频的生成装置，包括：

头动数据预测模块501，被配置为根据待生成的视频对应的语音帧序列和包含目标头像的参考图像，得到与每一语音帧对应的所述目标头像的头动数据；

音素特征提取模块502，被配置为根据所述语音帧序列进行音素特征提取，得到与每一语音帧对应的音素特征；

第一关键点生成模块503，被配置为根据所述参考图像、所述头动数据和所述音素特征，通过预先训练的语音视觉关联模型，得到与每一语音帧对应的第一关键点数据；所述语音视觉关联模型是通过一定数量具有相同身份信息的第一训练样本训练得到的；

第二关键点生成模块504，被配置为对所述参考图像进行关键点检测得到第二关键点数据；

密集运动场生成模块505，被配置为根据所述第二关键点数据，对所述第一关键点数据进行相对运动迁移，得到与每一语音帧对应的密集运动场；

视频生成模块506，被配置为根据每一语音帧对应的密集运动场，得到与每一语音帧对应的帧图像，并根据所述帧图像生成所述视频。

在一些可选的实施例中，头动数据预测模块501，具体被配置为对所述参考图像进行二维空间投影，得到初始头动数据；根据所述语音帧序列进行语音特征提取，得到与每一语音帧对应的语音特征；根据所述初始头动数据和所述语音特征，通过预先训练的头动预测模型预测得到与每一语音帧对应的所述目标头像的头动数据；所述头动预测模型是通过一定数量具有相同身份信息的头动训练样本训练得到的。

在一些可选的实施例中，头动数据预测模块501，具体被配置为对于所述语音帧序列中的首个语音帧，将该语音帧对应的语音特征与所述初始头动数据分别编码后拼接，得到该语音帧对应的空间位置编码；对该语音帧对应的空间位置编码进行解码，得到该语音帧对应的头动数据；对于所述语音帧序列中的其他任一语音帧，对该语音帧对应的语音特征编码后与上一语音帧对应的空间位置编码拼接，得到该语音帧对应的空间位置编码；对该语音帧对应的空间位置编码进行解码，得到该语音帧对应的头动数据。

在一些可选的实施例中，所述训练样本的身份信息与所述头动训练样本的身份信息相同。

在一些可选的实施例中，第一关键点生成模块503，具体被配置为将所述头动数据、所述音素特征与所述参考图像进行组合，得到结构化输入数据；根据所述结构化输入数据进行姿态预测，得到与每一语音帧对应的第一关键点数据。

在一些可选的实施例中，第一关键点生成模块503，具体被配置为将所述音素特征进行编码，得到所述音素特征的向量表示；将所述音素特征的向量表示进行转换，得到所述音素特征的二维表示；将所述头动数据、所述音素特征的二维表示与所述参考图像的尺寸对齐后进行通道维度的拼接，得到所述结构化输入数据。

在一些可选的实施例中，第一关键点生成模块503，具体被配置为对于任一语音帧，将该语音帧作为中间帧并通过预定长度的滑动窗口选择一定数量的目标语音帧，将该语音帧对应的结构化输入数据、全部所述目标语音帧对应的结构化输入数据与所述参考图像进行通道维度的拼接，得到组合输入数据，并根据所述组合输入数据进行姿态预测，以得到与该语音帧对应的第一关键点数据。

在一些可选的实施例中，所述第一关键点数据，包括：关键点坐标数据和关键点仿射变换数据。

在一些可选的实施例中，密集运动场生成模块505，具体被配置为对于任一语音帧，确定该语音帧对应的第一关键点数据与所述语音帧序列中的首个语音帧对应的第一关键点数据之间的相对运动数据，将所述相对运动数据相对于所述第二关键点数据进行迁移，得到该语音帧对应的密集运动场。

上述实施例的装置用于实现如上任一实施例中相应的视频的生成方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一构思，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任一实施例所述的视频的生成方法。

图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现如上任一实施例中相应的视频的生成方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一构思，本申请实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的视频的生成方法。

上述非暂态计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例中相应的视频的生成方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本申请的精神和原理，但是应该理解，本申请并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种视频的生成方法，其特征在于，包括：

对所述参考图像进行关键点检测得到第二关键点数据；

2.根据权利要求1所述的方法，其特征在于，所述根据待生成的视频对应的语音帧序列和包含目标头像的参考图像，得到与每一语音帧对应的所述目标头像的头动数据，包括：

对所述参考图像进行二维空间投影，得到初始头动数据；

根据所述语音帧序列进行语音特征提取，得到与每一语音帧对应的语音特征；

根据所述初始头动数据和所述语音特征，通过预先训练的头动预测模型预测得到与每一语音帧对应的所述目标头像的头动数据；所述头动预测模型是通过一定数量具有相同身份信息的头动训练样本训练得到的。

3.根据权利要求2所述的方法，其特征在于，所述根据所述初始头动数据和所述语音特征，通过预先训练的头动预测模型预测得到与每一语音帧对应的所述目标头像的头动数据，包括：

对于所述语音帧序列中的首个语音帧，将该语音帧对应的语音特征与所述初始头动数据分别编码后拼接，得到该语音帧对应的空间位置编码；对该语音帧对应的空间位置编码进行解码，得到该语音帧对应的头动数据；

对于所述语音帧序列中的其他任一语音帧，对该语音帧对应的语音特征编码后与上一语音帧对应的空间位置编码拼接，得到该语音帧对应的空间位置编码；对该语音帧对应的空间位置编码进行解码，得到该语音帧对应的头动数据。

4.根据权利要求2所述的方法，其特征在于，所述训练样本的身份信息与所述头动训练样本的身份信息相同。

5.根据权利要求1所述的方法，其特征在于，所述根据所述参考图像、所述头动数据和所述音素特征，通过预先训练的语音视觉关联模型，得到与每一语音帧对应的第一关键点数据，包括：

将所述头动数据、所述音素特征与所述参考图像进行组合，得到结构化输入数据；

根据所述结构化输入数据进行姿态预测，得到与每一语音帧对应的第一关键点数据。

6.根据权利要求5所述的方法，其特征在于，所述将所述头动数据、所述音素特征与所述参考图像进行组合，得到结构化输入数据，包括：

将所述音素特征进行编码，得到所述音素特征的向量表示；

将所述音素特征的向量表示进行转换，得到所述音素特征的二维表示；

将所述头动数据、所述音素特征的二维表示与所述参考图像的尺寸对齐后进行通道维度的拼接，得到所述结构化输入数据。

7.根据权利要求5所述的方法，其特征在于，所述根据所述结构化输入数据进行姿态预测，得到与每一语音帧对应的第一关键点数据，包括：

对于任一语音帧，将该语音帧作为中间帧并通过预定长度的滑动窗口选择一定数量的目标语音帧，将该语音帧对应的结构化输入数据、全部所述目标语音帧对应的结构化输入数据与所述参考图像进行通道维度的拼接，得到组合输入数据，并根据所述组合输入数据进行姿态预测，以得到与该语音帧对应的第一关键点数据。

8.根据权利要求5所述的方法，其特征在于，所述第一关键点数据，包括：关键点坐标数据和关键点仿射变换数据。

9.根据权利要求1所述的方法，其特征在于，所述根据所述第二关键点数据，对所述第一关键点数据进行相对运动迁移，得到与每一语音帧对应的密集运动场，包括：

对于任一语音帧，确定该语音帧对应的第一关键点数据与所述语音帧序列中的首个语音帧对应的第一关键点数据之间的相对运动数据，将所述相对运动数据相对于所述第二关键点数据进行迁移，得到该语音帧对应的密集运动场。

10.一种视频的生成装置，其特征在于，包括：

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任意一项所述的方法。

12.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行如权利要求1至9任意一项所述的方法。