CN110245638A

CN110245638A - 视频生成方法和装置

Info

Publication number: CN110245638A
Application number: CN201910539863.9A
Authority: CN
Inventors: 卞东海; 蒋帅; 陈思姣; 罗雨; 陈奇石; 曾启飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-09-17

Abstract

本发明实施例提出一种视频生成方法和装置，方法包括：获取视频中包括目标人物的各帧图像，每个帧图像包含目标人物的关键姿态信息；将目标人物的关键姿态信息输入虚拟人物的生成模型，得到与各帧图像的关键姿态信息对应的各虚拟人物姿态图像；利用各虚拟人物姿态图像生成包括虚拟人物的视频。本发明实施例能够利用生成模型得到做出与视频各帧图像中目标人物对应姿态的虚拟人物图像。并且能够利用各虚拟人物图像生成可以做出与视频中目标人物对应动作的虚拟人物视频。

Description

视频生成方法和装置

技术领域

本发明涉及姿态识别技术领域，尤其涉及一种视频生成方法和装置。

背景技术

目前已有的虚拟人物视频的创作过程一般都是真人做出一系列动作，然后通过后期处理将真人替换为虚拟人物。但这种方式涉及到的环节较多，整个过程非常的复杂繁琐，且从采集真人动作到最终生成虚拟人物视频所需耗时较长，且需要付出财力成本巨大。并且这种方式很难实现根据用户需求个性化的生成虚拟人物视频，无法做到快速的更新替换虚拟人物或虚拟人物所做的动作。

发明内容

本发明实施例提供一种视频生成方法和装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种虚拟人物视频生成方法，包括：

获取视频中包括目标人物的各帧图像，每个帧图像包含所述目标人物的关键姿态信息；

将所述目标人物的关键姿态信息输入虚拟人物的生成模型，得到与各帧图像的关键姿态信息对应的各虚拟人物姿态图像；

利用各虚拟人物姿态图像生成包括虚拟人物的视频。

在一种实施方式中，获取所述目标人物的关键姿态信息，包括：

利用人体姿态识别模型对所述每个帧图像进行处理，得到所述目标人物的各人体关节点位置信息；

将所述各人体关节点位置信息关联，得到所述目标人物的关键姿态信息。

在一种实施方式中，所述目标人物的关键姿态信息包括人体姿态信息和/或面部姿态信息，将所述目标人物的关键姿态信息输入虚拟人物的生成模型，得到与各帧图像的关键姿态信息对应的各虚拟人物姿态图像，包括：

将所述目标人物的人体姿态信息和/或面部姿态信息输入所述虚拟人物的生成模型，得到与各帧图像的人体姿态信息对应的各虚拟人物姿态图像。

在一种实施方式中，所述虚拟人物的生成模型的训练过程包括：

将虚拟人物训练图像和训练视频的多帧图像输入生成式对抗网络模型进行训练；所述虚拟人物训练图像包括虚拟人物的关键姿态信息，所述训练视频的多帧图像包括目标人物的关键姿态信息；

根据所述生成式对抗网络模型的输出结果，调整优化所述生成式对抗网络模型，以得到所述虚拟人物的生成模型。

在一种实施方式中，获取所述虚拟人物训练图像，包括：

对多个虚拟人物素材图进行标注；

利用标注后的多个虚拟人物素材图，通过预设算法训练得到姿态模型；

利用所述姿态模型对所述虚拟人物训练图像进行处理，得到所述虚拟人物训练图像中虚拟人物的关键姿态信息。

在一种实施方式中，利用各虚拟人物姿态图像生成包括虚拟人物的视频，包括：

获取所述视频中的音频数据；

利用所述各虚拟人物姿态图像和音频数据，生成包括虚拟人物的视频。

第二方面，本发明实施例提供了一种虚拟人物视频生成装置，包括：

获取模块，用于获取视频中包括目标人物的各帧图像，每个帧图像包含所述目标人物的关键姿态信息；

图像生成模块，用于将所述目标人物的关键姿态信息输入虚拟人物的生成模型，得到与各帧图像的关键姿态信息对应的各虚拟人物姿态图像；

视频生成模块，用于利用各虚拟人物姿态图像生成包括虚拟人物的视频。

在一种实施方式中，获取模块包括：

第一处理子模块，用于利用人体姿态识别模型对所述每个帧图像进行处理，得到所述目标人物的各人体关节点位置信息；

关联子模块，用于将所述各人体关节点位置信息关联，得到所述目标人物的关键姿态信息。

在一种实施方式中，图像生成模块包括：

图像生成子模块，用于将所述目标人物的人体姿态信息和/或面部姿态信息输入所述虚拟人物的生成模型，得到与各帧图像的人体姿态信息对应的各虚拟人物姿态图像。

在一种实施方式中，还包括：

第一训练子模块，用于将虚拟人物训练图像和训练视频的多帧图像输入生成式对抗网络模型进行训练；所述虚拟人物训练图像包括虚拟人物的关键姿态信息，所述训练视频的多帧图像包括目标人物的关键姿态信息；

优化子模块，用于根据所述生成式对抗网络模型的输出结果，调整优化所述生成式对抗网络模型，以得到所述虚拟人物的生成模型。

在一种实施方式中，还包括：

标注子模块，用于对多个虚拟人物素材图进行标注；

第二训练子模块，用于利用标注后的多个虚拟人物素材图，通过预设算法训练得到姿态模型；

第二处理子模块，用于利用所述姿态模型对所述虚拟人物训练图像进行处理，得到所述虚拟人物训练图像中虚拟人物的关键姿态信息。

在一种实施方式中，视频生成模块包括：

获取子模块，用于获取所述视频中的音频数据；

视频生成子模块，用于利用所述各虚拟人物姿态图像和音频数据，生成包括虚拟人物的视频。

第三方面，本发明实施例提供了一种虚拟人物视频生成终端，所述虚拟人物视频生成终端的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述虚拟人物视频生成终端的结构中包括处理器和存储器，所述存储器用于存储支持所述虚拟人物视频生成终端执行上述虚拟人物视频生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述虚拟人物视频生成终端还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储虚拟人物视频生成终端所用的计算机软件指令，其包括用于执行上述虚拟人物视频生成方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：本发明实施例能够利用生成模型得到做出与视频各帧图像中目标人物对应姿态的虚拟人物图像。并且能够利用各虚拟人物图像生成可以做出与视频中目标人物对应动作的虚拟人物视频。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的视频生成方法的流程图。

图2示出根据本发明实施例的视频生成方法的步骤S100的具体流程图。

图3示出根据本发明另一实施例的视频生成方法的流程图。

图4示出根据本发明实施例的虚拟人物的生成模型的训练的流程图。

图5示出根据本发明实施例的获取虚拟人物训练图像的流程图。

图6示出根据本发明实施例的视频生成方法的步骤S300的具体流程图。

图7示出根据本发明实施例的视频生成方法的流程框图。

图8示出根据本发明实施例的视频生成方法的应用示例中视频采集模块的工作流程图。

图9示出根据本发明实施例的视频生成方法的应用示例中舞蹈人物动作关节检测模块的工作流程图。

图10示出根据本发明实施例的视频生成方法的应用示例中趣味性视频生成模块的工作流程图。

图11示出根据本发明实施例的视频生成装置的结构框图。

图12示出根据本发明实施例的视频生成装置的获取模块的结构框图。

图13示出根据本发明实施例的视频生成装置的图像生成模块的结构框图。

图14示出根据本发明实施例的视频生成装置的视频生成模块的结构框图。

图15示出根据本发明实施例的视频生成终端的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的视频生成方法的流程图。如图1所示，该视频生成方法包括：

S100：获取视频中包括目标人物的各帧图像，每个帧图像包含目标人物的关键姿态信息。

可以从预先配置的数据库中获取视频，也可以从网络视频资源中获取视频。如果从数据库中获取视频，可预先对视频进行处理，得到该视频中包含目标人物的各帧图像，并得到这些帧图像中包含的目标人物的关键姿态信息。

视频中的目标人物可以包括用户指定的出现在视频中的人物。目标人物在视频的多帧图像中可能做出不同动作。例如，视频为舞蹈视频，该舞蹈视频中包括多个跳舞的人物A、B和C。用户选定了人物A为目标人物，可以从舞蹈视频中提取包括人物A的多帧图像。再如，视频为健身视频，该健身视频中包括多个做出健身动作的人物E和F。如果分别选定人物E和F作为目标人物，可以从该健身视频中提取包括人物E的多帧图以及包括人物F的多帧图。

关键姿态信息可以看做是人体的抽象表述，能够表征人物的大体姿态。通过每个帧图像中目标人物的关键姿态信息可以获取到目标人物在该帧图像中的人物姿态。关键姿态信息可以包括人体的多个关键部位、人体骨骼的多个主要关节点位置等。人体的关键部位可以包括鼻子、眼睛、手腕、脚、盆骨、肩膀、手肘、膝盖等。

S200：将目标人物的关键姿态信息输入虚拟人物的生成模型，得到与各帧图像的关键姿态信息对应的各虚拟人物姿态图像。

在一个示例中，每张虚拟人物姿态图像对应一帧图像，每张虚拟人物姿态图像中虚拟人物的关键姿态信息与相对应的一帧图像中目标人物的关键姿态信息一致。虚拟人物的生成模型可以包括预先训练好的神经网络模型。

在一个示例中，当视频其中一帧图像中目标人物的关键姿态信息对应的姿态是双腿半蹲，双手抱在胸前时，通过上述步骤得到的虚拟人物姿态图像中虚拟人物的姿态也是双腿半蹲，双手抱在胸前。

S300：利用各虚拟人物姿态图像生成包括虚拟人物的视频。

由于每张虚拟人物姿态图像均对应视频一帧的图像，因此将各虚拟人物姿态图像组合并连续播放即可得到虚拟人物做出连贯动作的视频。根据各虚拟人物姿态图像组合顺序的不同，可以得到虚拟人物做出不同连贯动作的视频。

在一个示例中，当希望虚拟人物做出和视频中目标人物完全一致的动作时，再将

各虚拟人物姿态图像按视频中对应的各帧图像的时序进行组合和播放。

在一种实施方式中，如图2所示，获取目标人物的关键姿态信息，包括：

S110：利用人体姿态识别模型对每个帧图像进行处理，得到目标人物的各人体关节点位置信息。人体姿态识别模型可采用已有的模型。通过人体姿态识别模型可以在包含目标人物的帧图像上标注出各人体关节点位置信息。

S120：将各人体关节点位置信息关联，得到目标人物的关键姿态信息。

上述获取目标人物的关键姿态信息的步骤可应用于从数据库中直接获取预存视频的场景，也可应用于从网络直接选取视频的场景。具体的，当步骤S100获取的视频来自于数据库中预存视频时，预存视频在存入数据库之前可经过步骤S110和S120将预存视频中包括目标人物的各帧图像上标注出关键姿态信息后，再存入数据库。当步骤S100获取的视频来自于网络中时，可经过步骤S110和S120直接将视频中包括目标人物的各帧图像上标注出关键姿态信息。

在一个示例中，在利用人体姿态识别模型对每个帧图像进行处理之前，还包括：对视频进行帧提取，将视频转换为若干个帧图像，这些帧图像结合可以还原为视频。筛选出各帧图像中包括目标人物的帧图像。并将其作为人体姿态识别模型的输入数据。

在一种实施方式中，如图3所示，目标人物的关键姿态信息包括人体姿态信息和/或面部姿态信息，将目标人物的关键姿态信息输入虚拟人物的生成模型，得到与各帧图像的关键姿态信息对应的各虚拟人物姿态图像，包括：

S210：将目标人物的人体姿态信息和/或面部姿态信息输入虚拟人物的生成模型，得到与各帧图像的人体姿态信息对应的各虚拟人物姿态图像。

需要说明的是，人体姿态信息可以包括人体骨骼信息。例如，膝盖位置、手肘位置、脚踝位置、盆骨位置、头部位置、肩膀位置等。面部姿态信息可以包括五官在面部的位置信息。例如，嘴巴在面部的位置以及对应的嘴巴姿态、眉毛在面部的位置以及对应的眉毛姿态、眼睛在面部的位置以及对应的眼睛姿态等。根据嘴巴姿态、眉毛姿态和眼睛姿态可以判断出目标人物的表情。

在一个示例中，若输入虚拟人物的生成模型中的是目标人物的人体姿态信息时，则模型输出的虚拟人物姿态图像中虚拟人物的人体姿态信息与目标人物的人体姿态信息相对应。例如，输入模型的帧图像中目标人物的姿态是站立姿态时，模型输出的虚拟人物姿态图像中虚拟人物的姿态也为站立姿态。

在另一个示例中，若输入虚拟人物的生成模型中的是目标人物的人体姿态信息和面部姿态信息时，则模型输出的虚拟人物姿态图像中虚拟人物的人体姿态信息以及面部姿态信息均与目标人物的人体姿态信息和面部姿态信息相对应。例如，输入的帧图像中目标人物的姿态是站立姿态且面部表情为微笑时，得到的虚拟人物姿态图像中虚拟人物的姿态也是站立姿态且面部表情为微笑。

在一种实施方式中，如图4所示，虚拟人物的生成模型的训练过程包括：

S10：将虚拟人物训练图像和训练视频的多帧图像输入生成式对抗网络(GAN，Generative Adversarial Networks)模型进行训练。虚拟人物训练图像包括虚拟人物的关键姿态信息，训练视频的多帧图像包括目标人物的关键姿态信息。

其中，生成式对抗网络是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。原始GAN理论中，并不要求G和D都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为G和D。一个优秀的GAN应用需要有良好的训练方法，否则可能由于神经网络模型的自由性而导致输出不理想。

S20：根据生成式对抗网络模型的输出结果，调整优化生成式对抗网络模型，以得到虚拟人物的生成模型。输出结果可以包括做出目标人物姿态的虚拟人物的姿态图像。当输出结果中虚拟人物能够做出和目标人物对应或大体一致的姿态时，则可以认为模型训练完成。

例如，当输入到生成式对抗网络中的虚拟人物训练图像均为同一个虚拟人物的图像时，则最终训练得到的虚拟人物的生成模型为专属于该虚拟人物的模型。这样，向专属于该虚拟人物的模型中输入任意具有目标人物姿态的帧图像时，模型都能够输出虚拟人物做出目标人物姿态的虚拟人物姿态图像。

在一个示例中，当关键姿态信息包括人体姿态信息时，虚拟人物的生成模型的训练过程包括：

将虚拟人物训练图像和训练视频的多帧图像输入生成式对抗网络模型进行训练。虚拟人物训练图像包括虚拟人物的人体姿态信息，训练视频的多帧图像包括目标人物的人体姿态信息。

根据生成式对抗网络模型的输出结果，调整优化生成式对抗网络模型，以得到虚拟人物的生成模型。输出结果可以包括做出目标人物身体姿态的虚拟人物的身体姿态图像。

在一个示例中，当关键姿态信息包括人体姿态信息和面部姿态信息时，虚拟人物的生成模型的训练过程包括：

将虚拟人物训练图像和训练视频的多帧图像输入生成式对抗网络模型进行训练。虚拟人物训练图像包括虚拟人物的人体姿态信息和面部姿态信息，训练视频的多帧图像包括目标人物的人体姿态信息和面部姿态信息。

根据生成式对抗网络模型的输出结果，调整优化生成式对抗网络模型，以得到虚拟人物的生成模型。输出结果可以包括同时做出目标人物身体姿态和面部表情的虚拟人物的姿态图像。

在一种实施方式中，如图5所示，作为训练样本输入生成式对抗网络模型中的虚拟人物训练图像的获取过程包括：

S1000：对多个虚拟人物素材图进行标注。标注方式可采用人工标注的方式，通过人工标注后的虚拟人物素材图上包括有该虚拟人物的关键姿态信息。通过人工标注的虚拟人物的关键姿态信息可以作为真值参考。

S2000：利用标注后的多个虚拟人物素材图，通过openpose(开源姿态)算法训练得到姿态模型。姿态模型可以在CPU(Central Processing Unit，中央处理器)环境下进行模型训练。

S3000：利用姿态模型对虚拟人物训练图像进行处理，得到虚拟人物训练图像中虚拟人物的关键姿态信息。

在一种实施方式中，如图6所示，利用各虚拟人物姿态图像生成包括虚拟人物的视频，包括：

S310：获取视频中的音频数据。

S320：利用各虚拟人物姿态图像和音频数据，生成包括虚拟人物的视频。

在一个示例中，当视频为舞蹈视频时，舞蹈视频中不仅包含有目标人物做出的舞蹈动作，还包含有与舞蹈动作对应的背景音乐。为了使得生成的虚拟人物的视频更加生动，更加完整的还原舞蹈视频中的目标人物，因此根据视频中帧图像和音频的时序，将舞蹈视频中的背景音源加入到虚拟人物的视频中。

在一种实施方式中，如图7所示，视频的生成方法包括：

从互联网中获取视频资源和虚拟人物资源。

将视频资源和虚拟人物资源经过预处理后存入数据库中。以便在后续进行虚拟人物的视频生成时，用户可以直接从数据库中选择任意的视频和虚拟人物进行组合，得到做出视频中目标人物动作的虚拟人物视频。其中，视频资源可以包括舞蹈、健身、瑜伽、武术、运动等各种类型的视频。虚拟人物可以包括卡通人物、卡通动物等。对视频资源进行预处理存入数据库的过程包括：获取各大网站上按照热度排序的动作视频并进行下载。然后按照视频长度、视频中是否具有单独出现在多帧图像中的人物、视频清晰度等条件对下载的各视频进行过滤筛选，最后将符合要求的动作视频存入到素材库中。对虚拟人物资源进行预处理存入数据库的过程包括：获取各大网站上虚拟人物的视频并进行下载。然后按照视频清晰度、视频大小、视频简介等信息进行视频过滤。对过滤后的视频使用人脸识别技术，对视频的每一帧图像进行判别，若该图片仅包含虚拟人则就设为合格的图片素材，并存入数据库。

对存入数据库中的视频资源进行预处理，识别每个视频资源的各帧图像中是否包括预设目标人物。若包括，则对目标人物进行姿态检测，标注目标人物的关键姿态信息。

基于存入数据库的虚拟人物素材图，进行姿态模型训练，使得姿态模型能够对虚拟人物素材图进行关键姿态信息的标注，得到包含有虚拟人物的关键姿态信息的虚拟人物训练图像。

基于存入数据库的虚拟人物训练图像和训练视频，对GAN模型进行训练，使得GAN模型能够基于帧图像中目标人物的姿态生成做出目标人物姿态的虚拟人物的姿态图像。并将训练好的GAN模型作为虚拟人物的生成模型存入数据库。

当接收到用户的视频生成指令后，根据视频生成指令确定所需虚拟人物和视频，从数据库中获取视频和虚拟人物的生成模型。基于视频中目标人物的关键姿态信息和虚拟人物的生成模型，得到与视频中包含目标人物的帧图像对应的虚拟人物姿态图像。

将各虚拟人物姿态图像结合，生成虚拟人物的视频。

在一种实施方式中，当应用于舞蹈视频和动漫人物的视频生成场景时，上述各实施例的方法可通过以下模块实现。

如图8所示，视频采集模块，主要功能是收集要创作的舞蹈视频和动漫人物视频。其中，舞蹈视频收集包括：首先爬取各大网站上按照热度排序的舞蹈视频名称，然后按照名称去网站下载相关视频，接着按照视频长度，视频是否是一个人跳舞、视频清晰度等条件过滤，最后将符合要求的视频入库。动漫人物素材收集包括：人工选择需要进行舞蹈表演的动漫人物列表，然后根据列表去各大动漫网站抓取相关的动漫视频，对于要抓取的视频，由于数据量较大，需要按照清晰度、视频大小、视频介绍是否包含该动漫人物等信息进行过滤；对于已经抓取到的视频，使用人脸识别技术，对视频按照每秒图片进行判别，若该图片仅包含该人物就设为合格的图片素材；最后将这些素材入库。

如图9所示，舞蹈人物动作关节检测模块，主要功能是利用人体姿态识别技术识别出舞蹈视频中人物跳舞时的肢体关键节点，即给定一幅图像或一段视频，人体姿态识别就是去恢复其中人体关节点位置的过程。具体包括：视频的帧提取，该过程将视频转化为一组舞蹈动作图片。视频人物识别，从上述的动作图片中选出有跳舞人物的图片。人物关键部位节点检测，对上述的图片使用开源的人体姿态识别模型进行识别。将识别出人物关键部位节点的图片存入数据库。

动漫人物动作关节检测模块，主要用于检测动漫人物的关键姿态信息。

动漫人物舞蹈动作生成模块，主要用于根据肢体姿态图生成做出该动作的动漫人物，具体包括：训练样本构建，使用动漫人物动作关节检测模块的功能对每个动漫人物都进行肢体动作检测，输出结果作为每个动漫人物的训练集，即训练数据为<部位关键点图片，动漫人物图片>。训练模型构建，整体动漫人物姿态图片生成，使用训练集作为GAN网络的输入，训练动漫人物的生成模型。动漫人物脸部表情图片生成，对脸部区域特殊对待，原因是为了保证脸部有更加多的细节以及让其更加的清晰，具体也就是将脸部的姿态图片以及对应的人物图像的脸部区域切出来，重新对抗训练另外一个GAN网络。动漫人物图片生成，使用训练的生成模型根据输入的目标人物的关键姿态生成对应姿态的动漫人物姿态图像。

如图10所示，趣味性视频生成模块：该模块使用上述模块作为输入生成动漫人物跳舞视频，具体处理步骤如下：舞蹈选择，选择要生成的舞蹈视频，并利用舞蹈人物动作关节检测模块进行人体姿态动作检测，并将该视频中包含的音乐分离出来备用。动漫人物选择，选择要进行视频表演的动漫人物以及对应的训练好的GAN网络。动漫人物姿态动作生成，使用动漫人物舞蹈动作生成模块和舞蹈人物的人体姿态生成动漫人物姿态图。视频合成及配音，将各动漫人物姿态图进行组合成视频，并将音乐加入到视频当中，生成动漫人物的趣味舞蹈视频。

图11示出根据本发明实施例的视频生成装置的结构框图。如图11所示，该视频生成装置包括：

获取模块10，用于获取视频中包括目标人物的各帧图像，每个帧图像包含目标人物的关键姿态信息。

图像生成模块20，用于将目标人物的关键姿态信息输入虚拟人物的生成模型，得到与各帧图像的关键姿态信息对应的各虚拟人物姿态图像。

视频生成模块30，用于利用各虚拟人物姿态图像生成包括虚拟人物的视频。

在一种实施方式中，如图12所示，获取模块10包括：

第一处理子模块11，用于利用人体姿态识别模型对每个帧图像进行处理，得到目标人物的各人体关节点位置信息。

关联子模块12，用于将各人体关节点位置信息关联，得到目标人物的关键姿态信息。

在一种实施方式中，如图13所示，图像生成模块20包括：

图像生成子模块21，用于将目标人物的人体姿态信息和/或面部姿态信息输入虚拟人物的生成模型，得到与各帧图像的人体姿态信息对应的各虚拟人物姿态图像。

在一种实施方式中，如图13所示，图像生成模块20还包括：

第一训练子模块22，用于将虚拟人物训练图像和训练视频的多帧图像输入生成式对抗网络模型进行训练。虚拟人物训练图像包括虚拟人物的关键姿态信息，训练视频的多帧图像包括目标人物的关键姿态信息。

优化子模块23，用于根据生成式对抗网络模型的输出结果，调整优化生成式对抗网络模型，以得到虚拟人物的生成模型。

在一种实施方式中，如图13所示，图像生成模块20还包括：

标注子模块24，用于对多个虚拟人物素材图进行标注。

第二训练子模块25，用于利用标注后的多个虚拟人物素材图，通过openpose算法训练得到姿态模型。

第二处理子模块26，用于利用姿态模型对虚拟人物训练图像进行处理，得到虚拟人物训练图像中虚拟人物的关键姿态信息。

在一种实施方式中，如图14所示，视频生成模块30包括：

获取子模块31，用于获取视频中的音频数据。

视频生成子模块32，用于利用各虚拟人物姿态图像和音频数据，生成包括虚拟人物的视频。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图15示出根据本发明实施例的视频生成终端的结构框图。如图15所示，该终端包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的视频生成方法。所述存储器910和处理器920的数量可以为一个或多个。

该终端还包括：

通信接口930，用于与外界设备进行通信，进行数据视频生成传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandardArchitecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图15中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频生成方法，其特征在于，包括：

利用各虚拟人物姿态图像生成包括虚拟人物的视频。

2.根据权利要求1所述的方法，其特征在于，获取所述目标人物的关键姿态信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标人物的关键姿态信息包括人体姿态信息和/或面部姿态信息，将所述目标人物的关键姿态信息输入虚拟人物的生成模型，得到与各帧图像的关键姿态信息对应的各虚拟人物姿态图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述虚拟人物的生成模型的训练过程包括：

5.根据权利要求4所述的方法，其特征在于，获取所述虚拟人物训练图像，包括：

对多个虚拟人物素材图进行标注；

6.根据权利要求1所述的方法，其特征在于，利用各虚拟人物姿态图像生成包括虚拟人物的视频，包括：

获取所述视频中的音频数据；

7.一种视频生成装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，获取模块包括：

9.根据权利要求7所述的装置，其特征在于，图像生成模块包括：

10.根据权利要求9所述的装置，其特征在于，还包括：

11.根据权利要求9所述的装置，其特征在于，还包括：

标注子模块，用于对多个虚拟人物素材图进行标注；

12.根据权利要求7所述的装置，其特征在于，视频生成模块包括：

获取子模块，用于获取所述视频中的音频数据；

13.一种视频生成终端，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述方法。

14.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述方法。