CN113507627B

CN113507627B - 视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN113507627B
Application number: CN202110774445.5A
Authority: CN
Inventors: 郭玉东; 石彪; 李廷照; 户磊
Original assignee: Beijing Dilusense Technology Co Ltd; Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2022-03-25
Anticipated expiration: 2041-07-08
Also published as: CN113507627A

Abstract

本发明实施例涉及计算机视觉领域，公开了一种视频生成方法、装置、电子设备及存储介质。本发明的视频生成方法，包括：根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征；获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量；将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频，其中，所述人像视频包括多帧人物图像，所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。应用于语音驱动视频生成的过程，使得生成的视频语音和人像严格匹配同步。

Description

视频生成方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及计算机视觉领域，特别涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

在人工智能、计算机视觉等领域中，模拟真人原型的数字人或虚拟人已经得到了越来越多的应用。数字人或虚拟人的生成主要利用基于语音驱动的视频生成技术，通过估计出此时此刻人脸的表情动作、说话风格从而生成与原始视频一样逼真的视觉效果。目前大多通过重建3D人脸、高效的回归表情系数或2D面部关键点等处理方法实现语音驱动视频生成。

然而，上述处理方法大多没有考虑到人物的肢体动作变化，导致生成的视频死板、僵硬。另外由于对人脸进行各种解析处理，这些中间解析处理过程造成了人脸信息的损失，使得生成的视频语音和人脸图像并不完全匹配、同步。

发明内容

本发明实施方式的目的在于提供一种视频生成方法、电子设备及存储介质，使得生成的视频语音和人物图像严格同步。

为解决上述技术问题，本发明的实施方式提供了一种视频生成方法，包括：根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征；获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量；将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频，其中，所述人像视频包括多帧人物图像，所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。

本发明的实施方式还提供了一种视频生成装置，包括：

数据处理模块，用于根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征；获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量；

视频生成模块，用于将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频，其中，所述人像视频包括多帧人物图像，所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述实施方式提及的视频生成方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式提及的视频生成方法。

本发明实施方式提供的视频生成方法，利用预先训练的视频生成模型建立音频特征和人体姿态向量之间的映射关系，通过这种映射关系将音频特征和人体姿态向量输入到视频生成模型中就能获取与音频同步的人像视频，获取的人像视频中包含音频特征和人体姿态向量之间的映射关系，使得语音和人物图像严格匹配、同步，实现语音驱动视频产生逼真生动的感官效果。

另外，本发明实施方式提供的视频生成方法，根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征，包括：根据每帧的第一音频特征和每帧对应的相邻帧的第一音频特征，获取所述目标音频数据每帧的音频特征。按照预先训练的视频生成模型对应的视频帧率提取音频特征，进一步保证语音和人物图像的精准匹配；通过将前后帧的音频特征结合作为当前帧的音频特征，保证后续视频生成的语音效果平稳连贯。

另外，本发明实施方式提供的视频生成方法，获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量，包括：通过图像分割算法从所述目标视频数据中提取每帧的人物图像，所述人物图像包括：人头图像和身体图像；分别从所述人头图像和所述身体图像中提取人头姿态向量和身体姿态向量，组成所述人物的人体姿态向量；其中，所述人体姿态向量

(x，y，z)为视频拍摄设备拍摄时人物在场景的三维空间坐标，

为所述视频拍摄设备拍摄的视角方向。对人头图像和身体图像根据各自运动特点进行分开处理，使得生成的人体姿态向量更加准确，保证生成的人像视频逼真、生动。

另外，本发明实施方式提供的视频生成方法，将多帧人物图像合成，获取与所述目标音频数据同步的人像视频，包括：将多帧人物图像合成，获取与所述目标音频数据同步的第一人像视频；从所述目标视频数据中提取与每帧的人物图像对应的背景图像；将所述第一人像视频和所述背景图像融合，生成与所述目标音频数据同步的人像视频。在对目标视频数据处理过程中，将背景图像和人物图像分割开来，既可以生成无背景的人像视频，也可以生成某一背景下的人像视频。

另外，本发明实施方式提供的视频生成方法，将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频之前，还包括：获取待训练音频数据的音频特征和与所述待训练音频数据同步的待训练视频数据中人物的人体姿态向量，其中，所述人体姿态向量包括人头姿态向量和身体姿态向量；将所述待训练音频数据对应的音频特征和所述待训练视频数据对应的人头姿态向量通过无卷积的深度全连接神经网络进行训练，获取第一视频生成模型；将所述待训练音频数据对应的音频特征和所述待训练视频数据对应的身体姿态向量通过所述第一视频生成模型进行训练，获取视频生成模型。通过将音频特征和人头姿态向量、音频特征和身体姿态向量输入到神经网络中，分别建立音频与人头的映射关系、音频与身体的映射关系，保证语音与人像的精准匹配，使得训练的视频生成模型更符合真实场景。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明的实施方式提供的视频生成方法的流程图；

图2是本发明的又一实施方式提供的视频生成方法的流程图；

图3是本发明的又一实施方式提供的视频生成方法的流程图；

图4是本发明的又一实施方式提供的视频生成方法的流程图；

图5是图4的实施方式提供的视频生成方法中步骤404的流程图；

图6是本发明的又一实施方式提供的视频生成方法的流程图；

图7是本发明的实施方式的提供的视频生成装置的结构示意图。

图8是本发明的实施方式的提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

下面对本实施方式的视频生成方法的实现细节进行举例说明。以下内容仅为方便理解而提供的实现细节，并非实施本方案的必须。

本发明的实施方式涉及一种视频生成方法，如图1所示，包括：

步骤101，根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征。

具体地说，本实施方式中预先训练的视频生成模型是根据待训练音频数据和待训练视频数据训练得到的，因此，在提取目标音频数据的音频特征时，需要按照待训练视频数据的视频帧率将音频数据分为一帧一帧，以保证后续通过视频生成模型获取质量高，效果好的人像视频帧。

步骤102，获取与目标音频数据同步的目标视频数据中人物的人体姿态向量。

需要说明的是，获取的目标音频数据必须与训练时的音频数据在语种上保持一致，否则后续视频生成的效果将大受影响。此外，目标音频数据和目标视频数据在帧时刻上应该保证严格一致，如此才可使得后续生成的视频和语音相匹配。优选地，获取的目标音频数据和目标视频数据为按照时间序列排布的数据。目标视频数据在选取过程中应该需要尽量包含足够丰富的表情动作以及音频信息，这会对后面的音频驱动效果造成直接的影响。

具体地说，可以通过神经网络提取目标音频数据的音频特征，神经网络可以采用卷积神经网络、长短期记忆网络、深度神经网络和循环神经网络等现有神经网络中的任何一种，也可以将多个神经网络结合构成一个复杂的神经网络，以提高提取的准确度。

另外，获取目标视频数据中人物的人体姿态向量可以通过彩色图建模算法，彩色图位姿算法等现有方法中的任一种得到目标视频数据中每一帧的人体姿态向量。

步骤103，将音频特征和音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与目标音频数据同步的人像视频，其中，人像视频包括多帧人物图像，多帧人物图像中包含音频特征和人体姿态向量之间的映射关系。

具体地说，本实施方式中获取的与目标音频数据同步的人像视频，同步指的是每一帧都是一一对应的。另外，在生成人像视频过程中，可以将每帧的音频特征和对应的人体姿态向量输入到预先训练的视频生成模型，获取与目标视频数据完整相同的人像视频。也可以仅将一部分音频特征和对应的人体姿态向量输入，获取一部分片段的人像视频。

本发明的实施方式涉及一种视频生成方法，如图2所示，包括：

步骤201，根据预先训练的视频生成模型对应的视频帧率提取目标音频数据中每帧的第一音频特征，其中，音频数据包含N个音频帧，N为大于0的整数。

步骤202，对于第i帧音频帧，根据第i帧相邻的前m帧的第一音频特征和第i帧相邻的后m帧的第一音频特征，获取目标音频数据第i帧的音频特征，其中，0<i≤N，0<m<N。

具体地说，m的选择可以根据用户需求随意调整，若需要简单快速获取目标音频数据的音频特征，且对后续生成的视频质量不做要求，m可以选择数值较小的值，甚至于选择数值0，即直接将第一音频特征作为目标音频数据每帧的音频特征。若需要生成的视频语音效果上平稳连贯、不僵硬，则m可以选择数据较大的值。具体地，可以将第i帧的前m帧的第一音频特征和第i帧的后m帧的第一音频特征进行加权融合得到目标音频数据每帧的音频特征，而加权的系数可根据用户对精度和速度的需要选取，一般根据与目标帧的距离选择加权系数，距离越近加权系数越高，距离越远，加权系数越低，比如，对于第5帧音频帧，获取其前3帧的第一音频特征和其后3帧的第一音频特征，对于第4帧的第一音频特征，其加权系数可以取0.7，对于第3帧的第一音频特征，其加权系数可以取0.2，对于第2帧的第一音频特征，其加权系数可以取0.1，对应地，后三帧的加权系数与前三帧相同。

步骤203，获取与目标音频数据同步的目标视频数据中人物的人体姿态向量。

步骤204，将音频特征和音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与目标音频数据同步的人像视频，其中，人像视频包括多帧人物图像，多帧人物图像中包含音频特征和人体姿态向量之间的映射关系。

本实施方式中的步骤203、步骤204与步骤102、步骤103实施细节大致相同，在此不做赘述。

本发明实施方式提供的视频生成方法，利用预先训练的视频生成模型建立音频特征和人体姿态向量之间的映射关系，通过这种映射关系将音频特征和人体姿态向量输入到视频生成模型中就能获取与音频同步的人像视频，获取的人像视频中包含音频特征和人体姿态向量之间的映射关系，使得语音和人物图像严格匹配、同步，实现语音驱动视频产生逼真生动的感官效果。另外，按照预先训练的视频生成模型对应的视频帧率提取音频特征，进一步保证语音和人物图像的精准匹配；通过将前后帧的音频特征结合作为当前帧的音频特征，保证后续视频生成的语音效果平稳连贯。

本发明的实施方式涉及一种视频生成方法，如图3所示，包括：

步骤301，根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征。

具体地说，本实施方式中步骤301的具体实施细节与步骤201-步骤202基本相同，在此不作赘述。

步骤302，从目标视频数据中提取每帧的人物图像，人物图像包括：人头图像和身体图像。

具体地，对于目标视频数据可以采用图像分割算法将人物图像、人物图像对应的背景图像分割开来，分别处理。图像分割算法可以采用基于边缘的图像分割算法、基于区域和语意的深度学习分割算法、基于图的分割算法等现有的任何一种图像分割算法，在此不对具体图像分割方法进行限定。

步骤303，分别从人头图像和身体图像中提取人头姿态向量和身体姿态向量，组成人物的人体姿态向量。

具体地说，获取的人体姿态向量为5D坐标

(x，y，z)为视频拍摄设备拍摄视频时人物在实际场景的三维空间坐标，

为所述视频拍摄设备拍摄的视角方向，优选的视频拍摄设备为虚拟相机。具体地，获取人头姿态向量和身体姿态向量可以采用卷积神经网络、循环神经网络、彩色图位姿算法等任何现有的姿态估计算法。这种空间表示方法，提供了一种更加自然的方式去旋转人像、整体变形等操作，这是传统2D图像生成方法无法实现的。

本领域技术人员可以理解的是，对于同一人物场景，在不同方向不同角度拍摄时产生的视频效果并不相同。例如，对于运动员跑步的场景，在运动员前方、后方、侧方和上方俯拍产生的视频图像是不一样的，相应地获取的人体姿态向量也不相同，在提取人体姿态向量的具体实施难度上也有所不同。另外，将每一帧人头图像和每一帧身体图像提取的人头姿态向量和身体姿态向量组成5D坐标集，后续可以通过视频生成模型批量处理，提高处理速度。

需要说明的是，对于人物肢体只有轻微变化，而头部动作或面部表情变化较大的视频，比如:远程视频会议场景、主播新闻播报的场景，此时，人头姿态向量的提取在速度和复杂度上就会大于身体姿态向量的提取。

此外，人脸表情的变化相对于肢体动作来说更加精细、微小，将人物图像分割成人头图像和身体图像，针对各自图像特点采用不同的提取策略，比如，针对人头图像，进一步分割为上部图像(眼睛以上部分)、中部图像(鼻子部分)和下部图像(嘴巴以下部分)，然后针对三部分图像分别提取各自的姿态向量。或者，针对变化较为剧烈的图像，多次提取人体姿态向量，然后求取平均值。如此，可以进一步保证生成的视频逼真生动，更符合真人的交流动作。

步骤304，将音频特征和音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与目标音频数据同步的人像视频，其中，人像视频包括多帧人物图像，多帧人物图像中包含音频特征和人体姿态向量之间的映射关系。

本发明实施方式提供的视频生成方法利用预先训练的视频生成模型建立音频特征和人体姿态向量之间的映射关系，通过这种映射关系将音频特征和人体姿态向量输入到视频生成模型中就能获取与音频同步的人像视频，获取的人像视频中包含音频特征和人体姿态向量之间的映射关系，使得语音和人物图像严格匹配、同步，实现语音驱动视频产生逼真生动的感官效果。另外，对人头图像和身体图像根据各自运动特点进行分开处理，使得生成的人体姿态向量更加准确，保证生成的人像视频逼真、生动。

本发明的实施方式涉及一种视频生成方法，如图4所示，包括：

步骤401，根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征。

具体地说，本实施方式中步骤401与步骤201-步骤202的实施细节基本相同，在此不做赘述。

步骤402，获取与目标音频数据同步的目标视频数据中人物的人体姿态向量。

具体地说，本实施方式中步骤402与步骤302-步骤303的实施细节基本相同，在此不做赘述。

步骤403，将每帧的音频特征和每帧的音频特征对应的人体姿态向量输入到预先训练的视频生成模型中，获取多帧人物图像。

需要说明的是，本实施方式步骤403也可以仅将一部分帧的音频特征和对应的人体姿态向量输入到预先训练的视频生成模型中，获取一部分帧的人物图像。另外，在选择的过程中，可以选择需要的音频特征输出对应的人像视频，也可以选择人体姿态向量

中需要的拍摄视角

输出对应角度的人物的人像视频。比如：目标视频数据中存在多个拍摄视角的人物视频片段，相应地，提取的人物姿态向量中拍摄视角

的数值也不相同，可以选择某一拍摄视角的人物姿态向量，输出该视角下的人物视频。

步骤404，将多帧人物图像合成，获取与目标音频数据同步的人像视频。

具体地说，根据帧时刻的顺序将多帧人物图像合成，此时获取的是无背景图像的人像视频。

进一步地，如图5所示，步骤404可以包括：

步骤501，将多帧人物图像合成，获取与目标音频数据同步的第一人像视频。

步骤502，从目标视频数据中提取与每帧的人物图像对应的背景图像。

步骤503，将第一人像视频和背景图像融合，生成与目标音频数据同步的人像视频。

具体地说，通过图像分割算法获取的每帧人物图像对应的背景图像，可能完全一样，即在同一场景下背景不变，也可能部分背景图像存在差异，而在后续将无背景的第一人像视频与背景图像合成时，可以选择任一帧的背景图像，生成背景不变的人像视频，也可以选择多个不同帧的不同背景图像，生成背景变化的人像视频。也就是说，生成的人像视频中的背景可以根据用户和实际应用场景需要自行选择。

本发明实施方式提供的视频生成方法，利用预先训练的视频生成模型建立音频特征和人体姿态向量之间的映射关系，通过这种映射关系将音频特征和人体姿态向量输入到视频生成模型中就能获取与音频同步的人像视频，获取的人像视频中包含音频特征和人体姿态向量之间的映射关系，使得语音和人物图像严格匹配、同步，实现语音驱动视频产生逼真生动的感官效果。另外，在对目标视频数据处理过程中，将背景图像和人物图像分割开来，既可以生成无背景的人像视频，也可以生成某一背景下的人像视频，使得生成的人像视频风格多变，实用性强，应用范围广。

本发明的实施方式涉及一种视频生成方法，如图6所示，包括：

步骤601，获取待训练音频数据的音频特征和与待训练音频数据同步的待训练视频数据中人物的人体姿态向量，其中，人体姿态向量包括人头姿态向量和身体姿态向量。

具体地说，待训练的音频数据和待训练的视频数据需要在帧时刻上严格同步，此外，视频数据需要尽量包含足够丰富的表情动作以及音频信息，这会对后面的音频驱动效果造成直接的影响。

步骤602，将待训练音频数据对应的音频特征和待训练视频数据对应的人头姿态向量通过无卷积的深度全连接神经网络进行训练，获取第一视频生成模型。

步骤603，将待训练音频数据对应的音频特征和待训练视频数据对应的身体姿态向量通过第一视频生成模型进行训练，获取视频生成模型。

具体地说，通过步骤602可以建立音频特征与人头图像的映射关系。将音频特征和人头姿态向量输入无卷积的深度全连接神经网络后，可以得到人头图像(实际输出)，然后计算与目标输出的损失，进行回归优化，收敛后，就完成建立音频与人头图像映射关系了。类似地，通过步骤603可以建立音频特征与身体图像的映射关系。

另外，使用的损失函数可以是的均方误差损失函数(MSE)，直接计算实际输出图像与目标输出图像中各个像素的差平方的期望，公式表示为：

其中，M为待计算的样本总数，m为样本序号，y为实际输出，

为目标输出，由此可以计算出模型损失。收敛的目标是使其尽量接近0。在回归优化过程中可以使用的Adam优化算法来进行优化，学习率设为0.0005。

需要说明的是，由于采用了无卷积的深度全连接神经网络(即神经辐射场技术)，它拥有逼真的射线修补策略。因此本发明的模型可以很好地表示牙齿和头发等一些精细比例的面部成分，并且可以实现比现有的基于GAN的方法具有更好的图像质量。

步骤604，根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征。

具体地说，本实施方式中步骤604的具体实施细节与步骤201-步骤202基本相同，在此不作赘述。

步骤605，获取与目标音频数据同步的目标视频数据中人物的人体姿态向量。

具体地说，本实施方式中步骤605的具体实施细节与步骤301-步骤303基本相同，在此不作赘述。

步骤606，将音频特征和音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与目标音频数据同步的人像视频，其中，人像视频包括多帧人物图像，多帧人物图像中包含音频特征和人体姿态向量之间的映射关系。

具体地说，本实施方式中步骤606的具体实施细节与步骤403-步骤404基本相同，在此不作赘述。

另外，在获取到与目标音频数据同步的人像视频帧之后，还可以获取人像视频帧中每一帧图像对应的峰值信噪比作为评价指数，根据评价指数获取人像视频帧的生成质量。

具体地，分别获取人像视频中每一帧图像的R通道第一峰值信噪比、G通道第一峰值信噪比和B通道第一峰值信噪比；计算R通道第一峰值信噪比、G通道第一峰值信噪比和B通道第一峰值信噪比的平均值，获取评价指数。

具体地，可以采用如下公式计算峰值信噪比PSNR：

其中，

为图像可能的最大像素值，MSE为通过损失函数计算的均方误差。一般地，针对uint8数据，最大像素值为255，针对浮点型数据，最大像素值为1。为了评价输出的人像视频中每一帧的图像质量，需要计算RGB三个通道的峰值信噪比，然后取平均值，作为评价指数，其值越大代表输出图片越接近原始图片，质量越好，

本发明实施方式提供的视频生成方法，利用预先训练的视频生成模型建立音频特征和人体姿态向量之间的映射关系，通过这种映射关系将音频特征和人体姿态向量输入到视频生成模型中就能获取与音频同步的人像视频，获取的人像视频中包含音频特征和人体姿态向量之间的映射关系，使得语音和人物图像严格匹配、同步，实现语音驱动视频产生逼真生动的感官效果。另外，通过将音频特征和人头姿态向量、音频特征和身体姿态向量输入到神经网络中，分别建立音频与人头的映射关系、音频与身体的映射关系，保证语音与人像的精准匹配，使得训练的视频生成模型更符合真实场景。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的实施方式涉及一种视频生成装置，如图7所示，所述装置包括：

数据处理模块701，用于根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征；获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量。

视频生成模块702，用于将数据处理模块701获取到的音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频，其中，人像视频包括多帧人物图像，多帧人物图像中包含音频特征和人体姿态向量之间的映射关系。

不难发现，本实施方式为与上述方法实施方式相对应的装置实施方式，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

值得一提的是，本实施例中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施例中不存在其它的单元。

本发明的实施方式涉及一种电子设备，如图8所示，包括：

至少一个处理器801；以及，与至少一个处理器801通信连接的存储器802；其中，存储器802存储有可被至少一个处理器801执行的指令，指令被至少一个处理器801执行，以使至少一个处理器801能够执行如上述实施方式提及的视频生成方法。

该电子设备包括：一个或多个处理器801以及存储器802，图8中以一个处理器801为例。处理器801、存储器802可以通过总线或者其他方式连接，图8中以通过总线连接为例。存储器802作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施方式中策略空间内的各处理策略对应的算法就存储于存储器802中。处理器801通过运行存储在存储器802中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述视频生成方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器802中，当被一个或者多个处理器801执行时，执行上述任意方法实施方式中的视频生成方法。

上述产品可执行本申请实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本申请实施方式所提供的方法。

本发明的实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种视频生成方法，其特征在于，包括：

根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征；

获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量；

将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频，其中，所述人像视频包括多帧人物图像，所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系；

所述获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量，包括：

从所述目标视频数据中提取每帧的人物图像，所述人物图像包括：人头图像和身体图像；

分别从所述人头图像和所述身体图像中提取人头姿态向量和身体姿态向量，组成所述人物的人体姿态向量；

其中，所述人体姿态向量为

为所述视频拍摄设备拍摄的视角方向。

2.根据权利要求1所述的视频生成方法，其特征在于，所述根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征之前，还包括：

获取待训练音频数据的音频特征和与所述待训练音频数据同步的待训练视频数据中人物的人体姿态向量，其中，所述人体姿态向量包括人头姿态向量和身体姿态向量；

将所述待训练音频数据对应的音频特征和所述待训练视频数据对应的人头姿态向量通过无卷积的深度全连接神经网络进行训练，获取第一视频生成模型；

将所述待训练音频数据对应的音频特征和所述待训练视频数据对应的身体姿态向量通过所述第一视频生成模型进行训练，获取视频生成模型。

3.根据权利要求1或2所述的视频生成方法，其特征在于，所述根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征，包括：

根据所述预先训练的视频生成模型对应的视频帧率提取所述目标音频数据中每帧的第一音频特征，其中，所述音频数据包含N个音频帧，N为大于0的整数；

对于第i帧音频帧，根据第i帧相邻的前m帧的第一音频特征和第i帧相邻的后m帧的第一音频特征，获取所述目标音频数据第i帧的音频特征，其中，0<i≤N，0<m<N。

4.根据权利要求1或2所述的视频生成方法，其特征在于，所述将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频，包括：

将所述每帧的音频特征和所述每帧的音频特征对应的人体姿态向量输入到预先训练的视频生成模型中，获取多帧人物图像；

将多帧人物图像合成，获取与所述目标音频数据同步的人像视频。

5.根据权利要求4所述的视频生成方法，其特征在于，所述将多帧人物图像合成，获取与所述目标音频数据同步的人像视频，包括：

将多帧人物图像合成，获取与所述目标音频数据同步的第一人像视频；

从所述目标视频数据中提取与每帧的人物图像对应的背景图像；

将所述第一人像视频和所述背景图像融合，生成与所述目标音频数据同步的人像视频。

6.根据权利要求1或5所述的视频生成方法，其特征在于，所述获取与所述目标音频数据同步的人像视频之后，还包括：

获取所述人像视频中每一帧图像对应的峰值信噪比作为评价指数；

根据所述评价指数确定所述人像视频的生成质量。

7.一种视频生成装置，其特征在于，包括：

数据处理模块，用于根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征，获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量，所述获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量，包括：从所述目标视频数据中提取每帧的人物图像，所述人物图像包括：人头图像和身体图像；分别从所述人头图像和所述身体图像中提取人头姿态向量和身体姿态向量，组成所述人物的人体姿态向量；其中，所述人体姿态向量为

为所述视频拍摄设备拍摄的视角方向；

视频生成模块，用于将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频，其中，所述预先训练的视频生成模型建立所述音频特征和所述人体姿态向量之间的映射关系。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一所述的视频生成方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的视频生成方法。