CN116156277A

CN116156277A - 基于姿态预测的视频生成方法及相关设备

Info

Publication number: CN116156277A
Application number: CN202310184922.1A
Authority: CN
Inventors: 魏舒; 周超勇; 陈远旭; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-05-23
Anticipated expiration: 2043-02-16
Also published as: CN116156277B

Abstract

本申请提出一种基于姿态预测的视频生成方法、装置、电子设备及存储介质，基于姿态预测的视频生成方法包括：将预设起始姿态和起始单位时间内采集的实时音频输入姿态预测网络以输出下一个单位时间的预测姿态；将预测姿态和预设形象输入第一生成网络得到虚拟姿态图；采集下一个单位时间的实时音频；并将该实时音频和预设形象的面部图像输入第二生成网络以获取虚拟姿态图；用虚拟表情图和虚拟姿态图构建的视频帧；对于视频生成过程中每个单位时间，基于相同单位时间的预测姿态和实时音频得到视频帧。本申请通过采集实时音频即可生成预设形象的视频，同时保证生成的视频中预设形象姿态和表情的真实性和自然性，提高观看体验。

Description

基于姿态预测的视频生成方法及相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于姿态预测的视频生成方法、装置、电子设备及存储介质。

背景技术

虚拟主播是指使用预设形象在视频中与观众进行交互的主播，可应用于金融、保险等领域的客服系统。使用虚拟主播与客户进行交互，可以解决传统人工客服成本高、工作质量不稳定等问题，从而提高客户满意度，保证良好的客服质量。

目前，在预设形象直播或视频制作的场景中，需要生成该预设形象的视频，然而在生成预设形象的视频的过程中，常常只关注预设形象面部的清晰自然度以及口唇与实时音频的匹配程度，忽略了预设形象肢体动作的自然性和真实性，降低了观看体验。

发明内容

鉴于以上内容，有必要提出一种基于姿态预测的视频生成方法及相关设备，以解决如何提高预设形象肢体动作的自然性和真实性以提高观看体验这一技术问题，其中，相关设备包括基于姿态预测的视频生成装置、电子设备及存储介质。

本申请提供基于姿态预测的视频生成方法，所述方法包括：

S10，采集预设起始姿态和起始单位时间内的实时音频，并将所述起始单位时间内的实时音频和所述预设起始姿态输入姿态预测网络以输出邻接单位时间的预测姿态，所述邻接单位时间为所述起始单位时间下一个单位时间；

S11，将所述邻接单位时间的预测姿态和预设形象输入第一生成网络以获取所述预设形象执行所述预测姿态时的虚拟姿态图；

S12，采集所述邻接单位时间内的实时音频，并将所述邻接单位时间内的实时音频和所述预设形象的面部图像输入第二生成网络以获取所述预设形象发出所述邻接单位时间内的实时音频时的虚拟表情图；

S13，基于所述虚拟表情图和所述虚拟姿态图构建所述邻接单位时间的视频帧；

S14，对于每一个当前单位时间，将所有历史单位时间的预测姿态和采集的实时音频输入所述姿态预测网络以输出下一个单位时间的预测姿态，并重复执行步骤S11到步骤S13以获取所述下一个单位时间的视频帧，所述历史单位时间为所述当前单位时间和所述当前单位时间之前的单位时间；

S15，将所有视频帧按照获取的先后顺序进行排列，得到所述预设形象的视频。

在一些实施例中，所述将所述起始单位时间内的实时音频和所述预设起始姿态输入姿态预测网络以输出邻接单位时间的预测姿态之前，所述方法还包括：训练姿态预测网络，具体包括：

搭建姿态预测网络；

采集真实主播直播时的视频序列和音频序列，所述视频序列包括多个单位时间的视频帧，且一个单位时间对应一个视频帧，所述音频序列包括每一个单位时间内采集的实时音频；

基于训练完毕的姿态估计网络检测所述视频帧以获取所述视频序列中每一个单位时间的姿态特征，将所有单位时间的姿态特征作为姿态特征序列；

将所述姿态特征序列和所述音频序列作为一个训练样本；

储存多个训练样本以获取训练集；

基于所述训练集和预设损失函数训练所述姿态预测网络。

在一些实施例中，所述姿态预测网络包括音频编码层、拼接层和解码层；

所述姿态预测网络的输入为长度相同的音频序列和姿态特征序列；

依据预设算法对所述音频序列中的每一个实时音频进行特征提取得到浅层音频特征，并将所有浅层音频特征输入所述音频编码层以输出每一个单位时间的深层音频特征；

所述拼接层用于将相同单位时间的所述姿态特征和所述深层音频特征进行拼接得到所述单位时间的拼接特征，将所有拼接特征按照单位时间的先后顺序进行排列得到拼接特征序列；

将所述拼接特征序列输入所述解码层以输出所述姿态特征序列下一个单位时间的预测姿态。

在一些实施例中，所述基于所述训练集和预设损失函数训练所述姿态预测网络包括：

从所述训练集中随机选取一个训练样本，将所述训练样本中的姿态特征序列和音频序列对齐；

设置至少一个截断点，以起始位置为起点，所述截断点为终点，对所述姿态特征序列和所述音频序列进行截断以获取长度相同的姿态特征子序列和音频子序列，并将所述姿态特征序列中所述截断点之后相邻的姿态特征作为标签姿态；

将所述姿态特征子序列、所述音频子序列输入所述姿态预测网络以获取预测姿态，并基于所述预测姿态和所述标签姿态计算预设损失函数的数值；

利用梯度下降法更新所述姿态预测网络，不断从所述训练集中选取训练样本以更新所述姿态预测网络，直至所述预设损失函数的数值不再变化时停止。

在一些实施例中，所述预设损失函数满足关系式：

其中，M表示所有人体关键点的数量，y_i和

分别为所述预测姿态和所述标签姿态中人体关键点i的位置信息，N为人体关键点中所有手指指尖关键点的数量，y_j和/>

为所述预测姿态和所述标签姿态中手指指尖关键点j的位置信息，/>

为y_j和/>

之间的L1距离，λ为权重系数，/>

满足关系式：/>

其中，w和∈为预设系数，C为常数且满足C＝w-wln(1+w/∈)。

在一些实施例中，所述第一生成网络为生成对抗网络，所述第一生成网络输入为姿态特征和任意人员的图像，输出结果为所述人员执行所述姿态特征的姿态图；

所述第二生成网络为说话人脸生成网络，所述第二生成网络输入为单位时间内的实时音频和任意人员的面部图像，输出结果为所述人员说出所述实时音频的表情图。

在一些实施例中，所述将所有历史单位时间的预测姿态和采集的实时音频输入所述姿态预测网络以输出下一个单位时间的预测姿态包括：

获取所有历史单位时间的预测姿态和采集的实时音频，所述历史单位时间为所述当前单位时间和所述当前单位时间之前的单位时间；

将所有预测姿态按照历史单位时间的先后顺序进行排列得到预测姿态序列；

将所有实时音频按照历史单位时间的先后顺序进行排列得到实时音频序列；

将所述预测姿态序列和所述实时音频序列输入所述姿态预测网络以输出下一个单位时间的预测姿态。

本申请实施例还提供一种基于姿态预测的视频生成装置，所述装置包括：

姿态预测单元，用于采集预设起始姿态和起始单位时间内的实时音频，并将所述起始单位时间内的实时音频和所述预设起始姿态输入姿态预测网络以输出邻接单位时间的预测姿态，所述邻接单位时间为所述起始单位时间下一个单位时间；

第一生成单元，用于将所述邻接单位时间的预测姿态和预设形象输入第一生成网络以获取所述预设形象执行所述预测姿态时的虚拟姿态图；

第二生成单元，用于采集所述邻接单位时间内的实时音频，并将所述邻接单位时间内的实时音频和所述预设形象的面部图像输入第二生成网络以获取所述预设形象发出所述邻接单位时间内的实时音频时的虚拟表情图；

构建单元，用于基于所述虚拟表情图和所述虚拟姿态图构建所述邻接单位时间的视频帧；

重复单元，用于对于每一个当前单位时间，将所有历史单位时间的预测姿态和采集的实时音频输入所述姿态预测网络以输出下一个单位时间的预测姿态，并重复执行所述第一生成单元、所述第二生成单元和所述构建单元以获取所述下一个单位时间的视频帧，所述历史单位时间为所述当前单位时间和所述当前单位时间之前的单位时间；

排列单元，将所有视频帧按照获取的先后顺序进行排列，得到所述预设形象的视频。

本申请实施例还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；

处理器，执行所述存储器中存储的指令以实现所述的基于姿态预测的视频生成方法。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现所述的基于姿态预测的视频生成方法。

综上，本申请将预设的初始姿态和生成预设形象视频的过程中采集的单位时间内的实时音频输入姿态预测网络，得到下一个单位时间的预测姿态；当采集到下一个单位时间内的实时音频时，基于相同单位时间的预测姿态和实时音频得到视频帧，通过采集实时音频即可实现生成预设形象的视频，同时保证了生成的视频帧中预设形象姿态和表情的真实性和自然性，提高观看体验。

附图说明

图1是本申请所涉及的基于姿态预测的视频生成方法的较佳实施例的流程图。

图2是本申请所涉及的姿态预测网的结构示意图。

图3是本申请所涉及的基于姿态预测的视频生成装置的较佳实施例的功能模块图。

图4是本申请所涉及的基于姿态预测的视频生成方法的较佳实施例的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本申请的目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。在下面的描述中阐述了很多具体细节以便于充分理解本申请，所述描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本申请实施例提供一种基于姿态预测的视频生成方法，可应用于一个或者多个电子设备中，电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

电子设备可以是任何一种可与客户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能式穿戴式设备等。

电子设备还可以包括网络设备和/或客户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。

电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

如图1所示，是本申请基于姿态预测的视频生成方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

本申请实施例提供的基于姿态预测的视频生成方法能够应用于任一种需要生成视频的场景中，则该方法能够应用于这些场景的产品中，例如，金融、银行中使用生成视频与客户交互、使用生成视频进行宣传等等。

S10，采集预设起始姿态和起始单位时间内的实时音频，并将所述实时音频和所述预设起始姿态输入姿态预测网络以输出邻接单位时间的预测姿态，所述邻接单位时间为所述起始单位时间下一个单位时间。

在一个可选的实施例中，在使用预设形象生成视频的过程中需要采集每一个单位时间的实时音频，所述单位时间为生成的视频中视频帧采样频率的倒数，即一个单位时间对应一个视频帧，比如，若视频帧采样频率为10帧/秒，则所述单位时间为视频帧采样频率的倒数，即所述单位时间为0.1秒，每0.1秒对应一个视频帧。所述起始单位时间为开始生成预设形象的视频时的第一个单位时间；所述预设起始姿态为预先设置的姿态特征，所述预设起始姿态为包括多个人体关键点的二维姿态图，所述人体关键点的数量可根据具体应用场景确定，比如，在金融、保险等客服系统的场景下，只需要选用上半身的人体关键点即可；在体操、舞蹈教学等场景下，需要选用全身所有的人体关键点。

在一个可选的实施例中，所述将所述起始单位时间内的实时音频和所述预设起始姿态输入姿态预测网络以输出邻接单位时间的预测姿态之前，所述方法还包括：训练姿态预测网络，具体包括：

搭建姿态预测网络；

将所述姿态特征序列和所述音频序列作为一个训练样本；

储存多个训练样本以获取训练集；

基于所述训练集和预设损失函数训练所述姿态预测网络。

其中，所述训练完毕的姿态估计网络用于检测视频中的姿态特征，可以采用OpenPose、CPN等现有的姿态估计网络，每一个视频帧的姿态特征为包括多个人体关键点的二维姿态图。优选的，所述训练完毕的姿态估计网络采用OpenPose网络。

该可选的实施例中，请参见图2，是姿态预测网络的结构示意图。所述姿态预测网络包括音频编码层30、拼接层31和解码层32；

所述姿态预测网络的输入为长度相同的音频序列20和姿态特征序列21；

依据预设算法对所述音频序列20中的每一个实时音频进行特征提取得到浅层音频特征，并将所有浅层音频特征输入所述音频编码层30以输出每一个单位时间的深层音频特征；

所述拼接层31用于将相同单位时间的所述姿态特征和所述深层音频特征进行拼接得到所述单位时间的拼接特征，将所有拼接特征按照单位时间的先后顺序进行排列得到拼接特征序列22；

将所述拼接特征序列22输入所述解码层32以输出所述姿态特征序列21下一个单位时间的预测姿态。

其中，所述音频序列20和所述姿态特征序列21分别包括相同单位时间内的实时音频和姿态特征；所述预设算法为梅尔倒谱系数(MFCC，Mel-scaleFrequency CepstralCoefficients)，所述梅尔倒谱系数可以将采集的实时音频转化为固定尺寸的浅层音频特征；所述音频编码层30可以采用Transformer、LSTM、GRU等循环神经网络的编码器结构；所述解码层32可以采用Transformer、LSTM、GRU等循环神经网络的解码器结构，得到姿态特征序列21中下一个单位时间的预测姿态，所述预测姿态同样为包括多个人体关键点的二维姿态图。优选的，所述音频编码层30采用Transformer的编码器结构，所述解码层32采用Transformer的解码器结构。

该可选的实施例中，所述基于所述训练集和预设损失函数训练所述姿态预测网络包括：

其中，所述预测姿态和所述标签姿态包括相同的人体关键点，所述人体关键点至少包括手部关键点。

示例性的，假设训练样本中姿态特征序列中包括4个姿态特征{1，2，3，4}，则音频序列包括4个实时音频{a，b，c，d}；对齐之后，姿态特征1、2、3、4分别对应实时音频a、b、c、d；若设置的截断点为姿态特征2和姿态特征3之间，则姿态特征子序列和音频子序列分别为{1，2}和{a，b}，对应的标签姿态为姿态特征3。

该可选的实施例中，所述预设损失函数满足关系式：

其中，M表示所有人体关键点的数量，y_i和

为y_j和/>

之间的L1距离，λ为权重系数，/>

满足关系式：

其中，w和∈为预设系数，C为常数且满足C＝w-wln(1+w/∈)。其中w和∈的取值分别为5和1，所述权重系数的取值为λ＝0.5。

需要说明的是，上述预设损失函数中，

用于约束预测姿态中所有人体关键点的位置与标签姿态中对应关键点位置相同，/>

用于约束预测姿态中所有手指指尖关键点的位置与标签姿态中对应关键点位置相同，以解决所述预测姿态手指分不开，手部形状畸形的问题。

在一个可选的实施例中，训练姿态预测网络完成后，所述姿态预测网络可以根据输入的长度相同的姿态特征序列和音频序列得到所述姿态特征序列的下一个单位时间内预测姿态。

在开始生成预设形象的视频时，采集起始单位时间内的实时音频，并将所述实时音频和所述预设起始姿态分别作为姿态特征序列和音频序列，输入姿态预测网络以输出邻接单位时间的预测姿态，所述邻接单位时间为所述起始单位时间下一个单位时间。

如此，借助训练完毕的姿态预测网络，将预先设定的预设起始姿态和起始单位时间内采集的实时音频输入姿态预测网络，得到下一个单位时间内的预测姿态。

S11，将所述邻接单位时间的预测姿态和预设形象输入第一生成网络以获取所述预设形象执行所述预测姿态时的虚拟姿态图。

在一个可选的实施例中，所述预设形象为预先设计的人物形象，所述预设形象包括肢体和人脸区域；所述第一生成网络为生成对抗网络，所述第一生成网络输入为姿态特征和任意人员的图像，输出结果为所述人员执行所述姿态特征的姿态图。优选的，所述第一生成网络采用Everybody Dance Now神经网络。

将所述邻接单位时间的预测姿态和所述预设形象输入第一生成网络，得到所述预设形象执行所述预测姿态时的虚拟姿态图。其中，所述虚拟姿态图与所述邻接单位时间对应。

如此，得到邻接单位时间对应的虚拟姿态图，所述虚拟姿态图中的预设形象的姿态为所述邻接单位时间的预测姿态。

S12，采集所述邻接单位时间内的实时音频，并将所述邻接单位时间内的实时音频和所述预设形象的面部图像输入第二生成网络以获取所述预设形象发出所述邻接单位时间内的实时音频时的虚拟表情图。

在一个可选的实施例中，获取所述邻接单位时间的虚拟姿态图的同时，采集所述邻接单位时间内的实时音频；将所述邻接单位时间内的实时音频和所述预设形象的面部图像输入第二生成网络以获取所述预设形象发出所述邻接单位时间内的实时音频时的虚拟表情图。其中，所述虚拟表情图与所述邻接单位时间对应。

其中，所述第二生成网络为说话人脸生成网络(Talking Face Generation)，所述第二生成网络输入为单位时间内的实时音频和任意人员的面部图像，输出结果为所述人员说出所述实时音频的表情图。优选的，所述第二生成网络采用DAVS(Talking FaceGeneration by Adversarially Disentangled Audio-Visual Representation)神经网络。

如此，采集所述邻接单位时间内的实时音频，将该实时音频和预设形象的面部图像输入说话人脸生成网络得到所述邻接单位时间对应的虚拟表情图，保证虚拟表情图的真实性和自然性。

S13，基于所述虚拟表情图和所述虚拟姿态图构建所述邻接单位时间的视频帧。

在一个可选的实施例中，所述虚拟表情图和所述虚拟姿态图均与所述邻接单位时间对应。将所述虚拟表情图粘贴在所述虚拟姿态图中的面部区域以构建所述邻接单位时间的视频帧，所述视频帧为所述预设形象发出实时音频并执行所述实时音频对应预测姿态的图像。

如此，得到邻接单位时间的视频帧，所述视频帧中预设形象的姿态为实时音频对应的预测姿态，保证所构建的视频帧中预设形象姿态的真实性和自然性。

S14，对于每一个当前单位时间，将所有历史单位时间的预测姿态和采集的实时音频输入所述姿态预测网络以输出下一个单位时间的预测姿态，并重复执行步骤S11到步骤S13以获取所述下一个单位时间的视频帧，所述历史单位时间为所述当前单位时间和所述当前单位时间之前的单位时间。

在一个可选的实施例中，在生成预设形象视频的过程中，每一个单位时间均会采集到实时音频。对于当前单位时间，所述将所有历史单位时间的预测姿态和采集的实时音频输入所述姿态预测网络以输出下一个单位时间的预测姿态包括：

该可选的实施例中，得到下一个单位时间的预测姿态后，重复执行步骤S11到步骤S13以获取下一个单位时间的视频帧。

需要说明的是，随着所述预设形象的视频的生成，会不断采集新的单位时间内的实时音频，利用新的单位时间内采集的实时音频和所述姿态预测网络输出的预测姿态生成新的单位时间的视频帧。

如此，针对生成视频的过程中每一个单位时间，基于当前单位时间的预测姿态和采集到的实时音频生成当前单位时间对应的视频帧。

如此，仅需要采集实时音频即可生成每一个单位时间所述预设形象的视频帧，将所有视频帧按照获取的先后顺序进行排列，即可得到所述预设形象的视频。

由以上技术方案可以看出，本申请将预设的初始姿态和生成预设形象视频的过程中采集的单位时间内的实时音频输入姿态预测网络，得到下一个单位时间的预测姿态；当采集到下一个单位时间内的实时音频时，基于相同单位时间的预测姿态和实时音频得到视频帧，通过采集实时音频即可实现生成预设形象的视频，同时保证了生成的视频帧中预设形象姿态和表情的真实性和自然性，提高观看体验。

请参见图3，图3是本申请基于姿态预测的视频生成装置的较佳实施例的功能模块图。基于姿态预测的视频生成装置11包括姿态预测单元110、第一生成单元111、第二生成单元112、构建单元113、重复单元114和排列单元115。本申请所称的模块/单元是指一种能够被处理器13所执行，并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。

在一个可选的实施例中，姿态预测单元110用于采集预设起始姿态和起始单位时间内的实时音频，并将所述起始单位时间内的实时音频和所述预设起始姿态输入姿态预测网络以输出邻接单位时间的预测姿态，所述邻接单位时间为所述起始单位时间下一个单位时间。

搭建姿态预测网络；

将所述姿态特征序列和所述音频序列作为一个训练样本；

储存多个训练样本以获取训练集；

基于所述训练集和预设损失函数训练所述姿态预测网络。

该可选的实施例中，所述预设损失函数满足关系式：

其中，M表示所有人体关键点的数量，y_i和

为y_j和/>

之间的L1距离，λ为权重系数，/>

满足关系式：

需要说明的是，上述预设损失函数中，

在一个可选的实施例中，第一生成单元111用于将所述邻接单位时间的预测姿态和预设形象输入第一生成网络以获取所述预设形象执行所述预测姿态时的虚拟姿态图。

在一个可选的实施例中，第二生成单元112用于采集所述邻接单位时间内的实时音频，并将所述邻接单位时间内的实时音频和所述预设形象的面部图像输入第二生成网络以获取所述预设形象发出所述邻接单位时间内的实时音频时的虚拟表情图。

在一个可选的实施例中，构建单元113用于基于所述虚拟表情图和所述虚拟姿态图构建所述邻接单位时间的视频帧。

在一个可选的实施例中，重复单元114用于对于每一个当前单位时间，将所有历史单位时间的预测姿态和采集的实时音频输入所述姿态预测网络以输出下一个单位时间的预测姿态，并重复执行所述第一生成单元、所述第二生成单元和所述构建单元以获取所述下一个单位时间的视频帧，所述历史单位时间为所述当前单位时间和所述当前单位时间之前的单位时间。

该可选的实施例中，得到下一个单位时间的预测姿态后，重复执行第一生成单元111、第二生成单元112和构建单元113以获取下一个单位时间的视频帧。

在一个可选的实施例中，排列单元115将将所有视频帧按照获取的先后顺序进行排列，得到所述预设形象的视频。

请参见图4，是本申请实施例提供的一种电子设备的结构示意图。电子设备1包括存储器12和处理器13。存储器12用于存储计算机可读指令，处理器13用执行所述储器中存储的计算机可读指令以实现上述任一实施例所述的基于姿态预测的视频生成方法。

在一个可选的实施例中，电子设备1还包括总线、存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如基于姿态预测的视频生成程序。

图4仅示出了具有存储器12和处理器13的电子设备1，本领域技术人员可以理解的是，图4示出的结构并不构成对电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

结合图1，电子设备1中的所述存储器12存储多个计算机可读指令以实现一种基于姿态预测的视频生成方法，所述处理器13可执行所述多个指令从而实现：

具体地，所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，电子设备1可以是总线型结构，也可以是星形结构，电子设备1还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置，例如电子设备1还可以包括输入输出设备、网络接入设备等。

需要说明的是，电子设备1仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

其中，存储器12至少包括一种类型的可读存储介质，所述可读存储介质可以是非易失性的，也可以是易失性的。所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部注册单元，例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如基于姿态预测的视频生成程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是电子设备1的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备1的各个部件，通过运行或执行存储在所述存储器12内的程序或者模块(例如执行基于姿态预测的视频生成程序等)，以及调用存储在所述存储器12内的数据，以执行电子设备1的各种功能和处理数据。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个基于姿态预测的视频生成方法实施例中的步骤，例如图1所示的步骤。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机程序在电子设备1中的执行过程。例如，所述计算机程序可以被分割成姿态预测单元110、第一生成单元111、第二生成单元112、构建单元113、重复单元114和排列单元115。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备，或者网络设备等)或处理器(Processor)执行本申请各个实施例所述的基于姿态预测的视频生成方法的部分。

电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指示相关的硬件设备来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存储器及其他存储器等。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

总线可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，在图4中仅用一根箭头表示，但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。

本申请实施例还提供一种计算机可读存储介质(图未示)，计算机可读存储介质中存储有计算机可读指令，计算机可读指令被电子设备中的处理器执行以实现上述任一实施例所述的基于姿态预测的视频生成方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。说明书陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种基于姿态预测的视频生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于姿态预测的视频生成方法，其特征在于，所述将所述起始单位时间内的实时音频和所述预设起始姿态输入姿态预测网络以输出邻接单位时间的预测姿态之前，所述方法还包括：训练姿态预测网络，具体包括：

搭建姿态预测网络；

将所述姿态特征序列和所述音频序列作为一个训练样本；

储存多个训练样本以获取训练集；

基于所述训练集和预设损失函数训练所述姿态预测网络。

3.如权利要求2所述的基于姿态预测的视频生成方法，其特征在于，所述姿态预测网络包括音频编码层、拼接层和解码层；

4.如权利要求3所述的基于姿态预测的视频生成方法，其特征在于，所述基于所述训练集和预设损失函数训练所述姿态预测网络包括：

5.如权利要求4所述的基于姿态预测的视频生成方法，其特征在于，所述预设损失函数满足关系式：

其中，M表示所有人体关键点的数量，y_i和

为y_j和/>

之间的L1距离，λ为权重系数，/>

满足关系式：

其中，w和∈为预设系数，C为常数且满足C＝w-wln(1+w/∈)。

6.如权利要求1所述的基于姿态预测的视频生成方法，其特征在于，

所述第一生成网络为生成对抗网络，所述第一生成网络输入为姿态特征和任意人员的图像，输出结果为所述人员执行所述姿态特征的姿态图；

7.如权利要求1所述的基于姿态预测的视频生成方法，其特征在于，所述将所有历史单位时间的预测姿态和采集的实时音频输入所述姿态预测网络以输出下一个单位时间的预测姿态包括：

8.一种基于姿态预测的视频生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储有计算机可读指令；及

处理器，执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的基于姿态预测的视频生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于姿态预测的视频生成方法。