CN110147737A

CN110147737A - 用于生成视频的方法、装置、设备和存储介质

Info

Publication number: CN110147737A
Application number: CN201910340393.3A
Authority: CN
Inventors: 龙翔; 高原; 李鑫; 刘霄; 张赫男; 文石磊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-20
Anticipated expiration: 2039-04-25
Also published as: CN110147737B

Abstract

本公开涉及用于生成视频的方法、装置、设备和存储介质。在一个方法中，获取包括用于生成视频的一组目标动作的动作视频，动作视频包括由人物执行一组目标动作的一组动作图像。从一组动作图像中，标识一组目标动作。根据目标人物的动作模型中包括的目标人物的动作、目标人物的目标人物图像与目标人物图像的目标蒙版之间的关联关系，分别确定与一组目标动作相关联的一组目标人物图像和一组目标人物图像的一组目标蒙版。基于一组目标人物图像和一组目标蒙版，生成包括由目标人物执行一组目标动作的视频。采用上述实现方式，可以以更为有效的方式确定目标人物的动作，使得目标人物的动作更为自然。

Description

用于生成视频的方法、装置、设备和存储介质

技术领域

本公开内容的实现方式概括地涉及图像处理，并且更具体地，涉及用于生成由目标人物执行目标动作的视频的方法、装置、设备和计算机存储介质。

背景技术

随着计算机技术的发展，目前已经出现了虚拟人物的技术。在虚拟人物技术中，可以使用虚拟人物来播放新闻、天气预报、以及教学等方面的内容。真实人物在执行不同的动作时，人体的各部分将处于不同的姿态，因而期望虚拟人物的动作能够逼真地模拟真实人物的动作。此时，如何以更为真实地方式确定虚拟人物执行不同动作的图像，成为一个技术难题。

发明内容

根据本公开内容的示例实现方式，提供了一种用于生成视频的方案。

在本公开内容的第一方面中，提供了一种用于生成视频的方法。在该方法中，在一个方法中，获取包括用于生成视频的一组目标动作的动作视频，动作视频包括由人物执行一组目标动作的一组动作图像。从一组动作图像中，标识一组目标动作。根据目标人物的动作模型中包括的目标人物的动作、目标人物的目标人物图像与目标人物图像的目标蒙版之间的关联关系，分别确定与一组目标动作相关联的一组目标人物图像和一组目标人物图像的一组目标蒙版。基于一组目标人物图像和一组目标蒙版，生成包括由目标人物执行一组目标动作的视频。

在本公开内容的第二方面中，提供了用于生成视频的装置，包括：获取模块，配置用于获取包括用于生成视频的一组目标动作的动作视频，动作视频包括由人物执行一组目标动作的一组动作图像；标识模块，配置用于从一组动作图像中，标识一组目标动作；确定模块，配置用于根据目标人物的动作模型中包括的目标人物的动作、目标人物的目标人物图像与目标人物图像的目标蒙版之间的关联关系，分别确定与一组目标动作相关联的一组目标人物图像和一组目标人物图像的一组目标蒙版；以及生成模块，配置用于基于一组目标人物图像和一组目标蒙版，生成包括由目标人物执行一组目标动作的视频。

在本公开内容的第三方面中，提供了一种设备。该设备包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开内容的第一方面的方法。

在本公开内容的第四方面中，提供了一种其上存储有计算机程序的计算机可读介质，该程序在被处理器执行时实现根据本公开内容的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开内容的实现方式的关键或重要特征，亦非用于限制本公开内容的范围。本公开内容的其他特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开内容的各实现方式的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示意性示出了基于真实人物的外貌和动作来生成虚拟人物的视频的框图；

图2示意性示出了根据本公开内容的示例性实现方式的用于生成动作模型的过程的框图；

图3示意性示出了根据本公开内容的示例性实现方式的用于生成动作模型的方法的流程图；

图4示意性示出了根据本公开内容的示例性实现方式的用于确定动作的框图；

图5示意性示出了根据本公开内容的示例性实现方式的用于使用动作模型来确定目标人物的人物图像和蒙版的过程的框图；

图6示意性示出了根据本公开内容的示例性实现方式的用于使用动作模型来生成视频的方法的流程图；

图7示意性示出了根据本公开内容的示例性实现方式的用于基于动作图像中的人物位置来调整生成的视频中的人物图像的位置的过程的框图；

图8示意性示出了根据本公开内容的示例性实现方式的用于基于动作图像中的人物大小来调整生成的视频中的人物图像的大小的过程的框图；

图9示意性示出了根据本公开内容的示例性实现方式的用于生成视频的装置的框图；以及

图10示出了能够实施本公开内容的多个实现方式的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开内容的实现方式。虽然附图中显示了本公开内容的某些实现方式，然而应当理解的是，本公开内容可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实现方式，相反提供这些实现方式是为了更加透彻和完整地理解本公开内容。应当理解的是，本公开内容的附图及实现方式仅用于示例性作用，并非用于限制本公开内容的保护范围。

在本公开内容的实现方式的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实现方式”或“该实现方式”应当理解为“至少一个实现方式”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

随着图像处理技术的发展，目前已经出现了虚拟人物。例如，对于某些并不需要主播与观众做出更多交流的播报类节目，已经可以利用虚拟主播来代替真实人物。此外，还可以基于虚拟人物来生成电影、电视剧等中的特效画面，或者还可以基于虚拟人物来生成动画产品。将会理解，在此的虚拟人物是指通过计算出来而生成的人物，而并非真实人物。虚拟人物可以具有真实人物的外貌和衣着，或者虚拟人物还可以具有动画人物的外貌和衣着。

图1示意性示出了基于真实人物的外貌和动作来生成虚拟人物的视频的框图100。如图1所示，可以获取包括目标人物执行一组动作的训练视频110(例如，一位男士做操的视频)。将会理解，在此的目标人物是指最终生成的视频中的人物，也即，期望最终生成的视频中的人物具有目标人物(男士)的外貌和衣着。还可以获取包括一组目标动作的动作视频120(例如，一位女士跳舞的视频)。将会理解，在此的目标动作是指最终生成的视频中的人物执行的动作，也即，期望最终生成的视频中的人物执行跳舞动作)。继而，可以生成由目标人物执行一组目标动作的视频130(即，男士跳舞的视频)。

目前已经提出了基于神经网络技术来生成包括虚拟人物的各种动作的视频的技术方案。然而，这些技术方案并不能区分视频中的前景和背景，因而仅能生成虚拟人物在相同背景下执行一组目标动作的视频，并且视频背景可能出现严重抖动。另外，由于没有单独处理背景，训练用的训练视频必须在完全相同的背景下拍摄完成，如果训练拍摄过程中像机的位置发生偏移，则这样的视频将无法用于训练。

为了至少部分地解决上述技术方案中的不足，根据本公开的示例性实现，提供了一种用于生成视频的技术方案。在该技术方案中，提出了动作模型的概念，可以针对目标人物来生成动作模型。进而，该动作模型可以描述视频中的目标人物的动作、目标人物图像和目标人物图像的蒙版之间的关联关系。利用该动作模型，可以分别生成视频130中的前景和背景，进而生成最终的视频130。利用本公开的示例性实现方式，可以基于蒙版来区分图像中的人物图像和背景图像，进而便于将从动作视频120中提取的动作应用于目标人物。

利用本公开的示例性实现方式，一方面避免了获取包括目标人物的视频时对于目标人物的位置和相机位置的严格要求，另一方面并不要求在相同背景下拍摄包括目标人物的训练视频110和包括目标动作的动作视频120。因而，可以以更为有效的方式来生成由目标人物执行目标动作的视频130。提出的技术方案包括：生成动作模型和使用动作模型来生成视频两部分。

在下文中，首先参见图2描述生成动作模型的过程。图2示意性示出了根据本公开内容的示例性实现方式的用于生成动作模型230的过程的框图200。可以针对获取的训练视频110中的每个帧执行如图2所示的处理。例如，可以从训练视频110中提取多个图像。对于训练视频110中的图像210，可以从图像210中标识目标人物执行的动作220。继而，可以将图像210和动作220作为输入来用于训练动作模型230，以使得训练后的动作模型描述动作220、图像210中的人物图像240和该人物图像240的蒙版250之间的关联关系。

将会理解，在训练视频110中可以包括多个图像，通过对每个图像执行图2所示的处理，可以获取该训练视频110中的一组图像。可以从一组图像中，分别标识一组动作。继而，可以基于一组图像和一组动作来迭代地训练动作模型230。此时，训练后的动作模型230可以描述一组动作、目标人物在一组图像中的一组人物图像和一组人物图像的一组目标蒙版之间的关联关系。在下文中，将参加图3描述有关训练过程的更多细节。

图3示意性示出了根据本公开内容的示例性实现方式的用于生成动作模型230的方法300的流程图。在框310处，获取包括目标人物的训练视频110，训练视频包括由目标人物执行一组动作的一组图像。可以利用相机拍摄目标人物执行一组动作的训练视频110，在此并不严格要求目标人物与相机之间的位置保持不变，而是目标人物可以在相机的清晰成像范围内执行一组动作。为了确保动作模型230可以包括各种姿态下的动作信息，期望训练视频110足够长，并且包括在自然运动状况下可能出现的各种动作。

在框320处，从一组图像中，分别标识一组动作。在此可以针对一组图像中的每个图像进行处理，进而从每个图像中提取一个动作。在下文中，将参见图4描述如何标识图像中的动作。图4示意性示出了根据本公开内容的示例性实现方式的用于确定动作的框图400。具体地，可以从图像210中确定由目标人物在执行动作时的多个人体关键点412、414和416等。在此的人体关键点可以是人体中的关键部位在动作图像中的位置。人体关键点可以包括诸如五官、脖子、躯干、肩关节、肘关节、腕关节、指关节、胯关节、膝关节、踝关节、脚关节等。可以识别出各个人体关键点，并基于人体关键点来确定该图像210中包括的动作410。

根据本公开的示例性实现方式，可以采用多种方式来确定人体关键点的位置。例如，可以基于图像识别技术，从动作图像中识别出人体关键点。根据本公开的示例性实现方式，可以按照预定顺序连接多个人体关键点。例如，可以基于从头到脚，从主干到四肢的顺序来连接各个人体关键点。继而，基于连接的多个人体关键点确定给定目标动作。如图4所示，可以按顺序连接位于肩部的关键点412、位于肘部的关键点414和位于手腕的关键点416，以便形成动作220中的与目标人物左臂相关的部分。可以以类似方式对于图像210中的其他部分进行处理。

根据本公开的示例性实现方式，还可以基于机器学习技术来建立的关键点模型，从各个图像中找到人体关键点。根据本公开的示例性实现方式，还可以基于机器学习技术，并建立描述图像与图像中的人物的动作的关联关系的模型。通过使用该模型，可以快速并且有效地确定各个图像中的动作。

可以按照图4描述的方法，从一组图像中分别标识一组动作。在已经获得一组动作之后，在图3的框330处，可以基于一组图像和一组动作训练动作模型230。例如，可以采用神经网络技术来获得动作模型230，使得训练后的动作模型230描述一组动作、目标人物在一组图像中的一组人物图像和一组人物图像的一组目标蒙版之间的关联关系。

根据本公开的示例性实现方式，可以采用目前已知的或者将在未来开发的各种方法来针对动作模型230进行训练，只要该动作模型230能够描述一组动作、目标人物在一组图像中的一组人物图像和一组人物图像的一组目标蒙版之间的关联关系即可。

返回图2，对于一组图像中的一个图像210而言，动作模型230可以描述该图像210中的动作220、该图像210中的人物图像240和蒙版250之间的关联关系。通过对动作模型进行迭代地训练，动作模型230可以包括目标人物的任意动作、人物图像和蒙版之间的关联关系。换言之，通过向动作模型230输入任意动作，即可获得包括目标人物执行该任意动作时的人物图像和相对应的蒙版图像。以此方式，可以生成由目标人物执行任意动作的图像。

在下文中，将参见图5描述如何使用动作模型230。图5示意性示出了根据本公开内容的示例性实现方式的用于使用动作模型230来确定目标人物的人物图像和蒙版的过程的框图500。如图5所示，可以从包括一组目标动作的动作视频120中提取一个动作图像510。继而，可以采用上文参见图4描述的过程来从动作图像510中提取目标动作520。通过向动作模型230输入提取的目标动作520，即可获得由目标人物执行目标动作520的人物图像530以及和该人物图像530相对应的蒙版540。基于人物图像530和蒙版540，即可生成由目标人物执行目标动作520的图像。

将会理解，图5仅示意性示出了生成由目标人物执行一个目标动作520的图像的过程。根据本公开的示例性实现方式，可以基于包括一组目标动作的动作视频120，来生成由目标人物执行一组目标动作的视频130。在下文中，将参见图6描述生成视频的过程。图6示意性示出了根据本公开内容的示例性实现方式的用于使用动作模型来生成视频的方法600的流程图。

在框610处，获取包括用于生成视频130的一组目标动作的动作视频120，动作视频120包括由人物执行一组目标动作的一组动作图像。将会理解，在此的人物可以是不同于目标人物的任意人物，例如可以是真实人物，或者还可以是虚拟人物。

在框620处，从动作视频120包括的一组动作图像中，标识一组目标动作。可以使用上文参见图4描述的过程来针对一组动作图像中的每个动作图像进行处理，以便从每个动作图像中获取相应的目标动作。例如，对于一组动作图像中的动作图像510，可以从该动作图像510获取目标动作520。具体地，可以从动作图像510中确定由人物执行一组目标动作中的给定目标动作时的多个人体关键点。可以按照从头到脚、从躯干到四肢的顺序来连接多个人体关键点，并基于连接的多个人体关键点确定给定目标动作。类似地，可以从一组动作图像中的每个动作图像中获取相应的目标动作。

在框630处，可以向动作模型230输入获取的一组目标动作。此时，根据目标人物的动作模型230中包括的目标人物的动作、目标人物的目标人物图像与目标人物图像的目标蒙版之间的关联关系，即可获得与输入的每个目标动作相关联的人物图像和目标蒙版。对于一个动作图像510而言，通过将在框620处获得的目标动作520输入动作模型230，即可获得由目标人物执行目标动作520的人物图像530和该人物图像530的蒙版540。可以采用类似方式，向动作模型230中输入一组目标动作中的每个目标动作，即可分别确定与一组目标动作相关联的一组目标人物图像和一组目标人物图像的一组目标蒙版。

接着，在框640处，可以基于一组目标人物图像和一组目标蒙版，生成包括由目标人物执行一组目标动作的视频130。可以基于目标人物图像和相对应的目标蒙版，来生成最终视频130中的一个帧。可以通过组合各个帧，来生成最终的视频130。

根据本公开的示例性实现方式，最终生成的视频130的背景可以是任意背景，该背景可以与训练视频110和动作视频120中的背景相同或者不相同。在生成视频130期间，可以分别生成视频130的前景和背景。例如，可以基于一组目标人物图像和一组目标蒙版，生成一组前景图像。前景图像中，目标人物以外的部分是透明的。可以获取用于生成视频130的背景图像。继而，可以将前景图像叠加至背景图像，以便生成视频130中的每个帧。

根据本公开的示例性实现方式，为了更逼真地模拟真实环境中的光影效果，蒙版可以包括人物图像与背景图像之间的轮廓，并且该轮廓还可以包括人物的影子。例如，可以以半透明方式来表示影子区域。在将前景和背景进行叠加时，可以向蒙版中的影子区域加入目标人物的影子。

将会理解，由于拍摄角度不同、人物距离相机的距离不同、人物本身的高矮胖瘦的不同，人物在图像中所占据的区域的大小可能会存在较大差异。因而，还需要考虑人物在动作图像510中的相对位置，以使得训练视频110中的目标人物和动作视频120中的人物可以位于视频画面中的不同位置。在下文中，将参见图7详细描述。

图7示意性示出了根据本公开内容的示例性实现方式的用于基于动作图像510中的人物位置710来调整生成的视频130中的人物图像的位置的过程的框图700。如图7所示，假设执行目标动作的人物位于动作图像520中的位置710处。该位置例如以人物的包围盒的位置来表示。此时，可以基于位置710来调整一组目标人物图像中的给定目标人物图像和给定目标人物图像的给定目标蒙版的位置。可以指定期望将目标人物调整到的视频130的图像区域720中的位置730。可以基于位置710与位置730之间的位移，来调整人物图像和蒙版。例如，期望将目标人物调整到图像区域720的上方，则调整后的人物图像和蒙版分别如附图标记740和750所示。

利用本公开的示例性实现方式，并不要求限制训练视频110中的目标人物的位置和动作视频120中的人物的位置。此时，目标人物和人物可以位于相机清晰拍摄范围内的任何区域。以此方式，制作训练视频110和动作视频120时不再严格要求保持目标人物/人物与相机之间的相对位置不变。

将会理解，动作视频120中的人物和目标人物的身高、身材、以及身体各个部分的比例等可能存在差异。因而，为了更为逼真地模拟目标人物执行目标动作的姿态，还可以考虑执行目标动作的人物和目标人物之间的身材比例。图8示意性示出了根据本公开内容的示例性实现方式的用于基于动作图像510中的人物大小来调整视频130中的人物图像的大小的过程的框图800。根据本公开的示例性实现方式，可以确定动作图像520中的人物图像的尺寸810(例如，以人物图像的包围盒的长度和宽度表示)。可以基于尺寸810来调整一组目标人物图像中的给定目标人物图像和给定目标人物图像的给定目标蒙版的大小。

例如，可以指定期望将目标人物调整到的图像区域820中的尺寸830。可以基于尺寸810与尺寸830之间的比例，来调整人物图像和蒙版。例如，期望将目标人物放大到原始尺寸的1.5倍，则调整后的人物图像和蒙版分别如附图标记840和850所示。

将会理解，尽管在上文中描述了针对人物图像和蒙版进行整体缩放的示例，根据本公开的示例性实现方式，当目标人物与动作视频120中的人物的身材比例不一样时，还可以针对身体的一部分区域进行缩放。例如，可以预先获取目标人物与人物的身体的各个部分之间的比例，并且将目标动作中的骨骼中各个部分的比例调整至目标人物的骨骼的各个部分的比例。

利用本公开的示例性实现方式，可以确保生成的图像和视频中的目标人物的身体比例与真实比例一致，进而可以获得更为逼真的图像和视频。进一步，利用本公开的示例性实现方式，并不要求限制动作视频120中的人物与目标人物具有类似的身材，也并不要求该人物在拍摄期间与相机保持固定距离。

将会理解，上文分别参见图7和图8描述了如何调整目标人物图像和相对应的目标蒙版。可以基于调整后的一组目标人物图像和调整后的一组目标蒙版，生成最终的视频130。例如，对于图7中的示例而言，在生成的视频130中，目标人物将位于视频画面的上方。又例如，对于图8中的示例而言，在生成的视频130中，目标人物将具有更大的尺寸。将会理解，还可以同时针对目标人物图像和目标蒙版进行位置和大小两方面的调整，并基于调整后的一组目标人物图像和调整后的一组目标蒙版，生成最终的视频130。

在上文中已经详细描述了如何生成动作模230型方法300和使用动作模型230来生成视频130的方法600的多个实现方式。根据本公开的示例性实现方式，还提供了一种用于生成视频130的装置。在下文中，将参见图9详细描述。图9示意性示出了根据本公开内容的示例性实现方式的用于生成视频的装置900的框图。如图9所示，该装置900包括：获取模块910，配置用于获取包括用于生成视频的一组目标动作的动作视频，动作视频包括由人物执行一组目标动作的一组动作图像；标识模块920，配置用于从一组动作图像中，标识一组目标动作；确定模块930，配置用于根据目标人物的动作模型中包括的目标人物的动作、目标人物的目标人物图像与目标人物图像的目标蒙版之间的关联关系，分别确定与一组目标动作相关联的一组目标人物图像和一组目标人物图像的一组目标蒙版；以及生成模块940，配置用于基于一组目标人物图像和一组目标蒙版，生成包括由目标人物执行一组目标动作的视频。

根据本公开的示例性实现方式，标识模块920包括：关键点确定模块，配置用于针对一组动作图像中的给定动作图像，确定由人物执行一组目标动作中的给定目标动作时的多个人体关键点；以及动作确定模块，配置用于基于多个人体关键点，确定给定动作图像包括的给定目标动作。

根据本公开的示例性实现方式，动作确定模块包括：连接模块，配置用于按照预定顺序连接多个人体关键点；以及目标动作确定模块，配置用于基于连接的多个人体关键点确定给定目标动作。

根据本公开的示例性实现方式，进一步包括：位置确定模块，配置用于确定人物在给定动作图像中的位置；以及位置调整模块，配置用于基于位置调整一组目标人物图像中的给定目标人物图像和给定目标人物图像的给定目标蒙版的位置。

根据本公开的示例性实现方式，进一步包括：尺寸确定模块，配置用于确定给定动作图像中的人物图像的尺寸；以及尺寸调整模块，配置用于基于尺寸调整一组目标人物图像中的给定目标人物图像和给定目标人物图像的给定目标蒙版的尺寸。

根据本公开的示例性实现方式，生成模块940进一步配置用于基于调整后的一组目标人物图像和调整后的一组目标蒙版，生成视频。

根据本公开的示例性实现方式，生成模块940包括：背景模块，配置用于获取用于生成视频的背景图像；前景模块，配置用于基于一组目标人物图像和一组目标蒙版，生成一组前景图像；以及组合模块，配置用于基于一组前景图像和背景图像，生成视频。

根据本公开的示例性实现方式，确定模块930包括：动作处理模块，配置用于针对一组目标动作中的给定目标动作，基于动作模型，确定与给定目标动作相关联的给定目标人物图像和给定目标人物图像的给定目标蒙版。

根据本公开的示例性实现方式，针对一组目标人物图像中的给定目标人物图像：给定目标人物图像的给定蒙版包括目标人物图像与背景之间的轮廓，以及轮廓包括目标人物的影子。

根据本公开的示例性实现方式，进一步包括：动作模型获取模块。动作模型获取模块包括：训练视频获取模块，配置用于获取包括目标人物的训练视频，训练视频包括由目标人物执行一组动作的一组图像；动作标识模块，配置用于从一组图像中，分别标识一组动作；以及训练模块，配置用于基于一组图像和一组动作训练动作模型，使得训练后的动作模型描述一组动作、目标人物在一组图像中的一组人物图像和一组人物图像的一组目标蒙版之间的关联关系。

图10示出了能够实施本公开内容的多个实现方式的计算设备1000的框图。设备1000可以用于实现图3和图6描述的方法。如图所示，设备1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序指令或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元1001执行上文所描述的各个方法和处理，例如方法300和600。例如，在一些实现方式中，方法300和600可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实现方式中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由CPU 1001执行时，可以执行上文描述的方法300和600的一个或多个步骤。备选地，在其他实现方式中，CPU1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法300和600。

根据本公开内容的示例性实现方式，提供了一种其上存储有计算机程序的计算机可读存储介质。程序被处理器执行时实现本公开所描述的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开内容的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开内容的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开内容的范围的限制。在单独的实现方式的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于生成视频的方法，包括：

获取包括用于生成所述视频的一组目标动作的动作视频，所述动作视频包括由人物执行所述一组目标动作的一组动作图像；

从所述一组动作图像中，标识所述一组目标动作；

根据目标人物的动作模型中包括的目标人物的动作、所述目标人物的目标人物图像与所述目标人物图像的目标蒙版之间的关联关系，分别确定与所述一组目标动作相关联的一组目标人物图像和所述一组目标人物图像的一组目标蒙版；以及

基于所述一组目标人物图像和所述一组目标蒙版，生成包括由所述目标人物执行所述一组目标动作的所述视频。

2.根据权利要求1所述的方法，其中从所述一组动作图像中，标识所述一组目标动作包括：针对所述一组动作图像中的给定动作图像，

确定由所述人物执行所述一组目标动作中的给定目标动作时的多个人体关键点；以及

基于所述多个人体关键点，确定所述给定动作图像包括的给定目标动作。

3.根据权利要求2所述的方法，其中基于所述人体关键点，确定所述给定动作图像包括的给定目标动作包括：

按照预定顺序连接所述多个人体关键点；以及

基于连接的所述多个人体关键点确定所述给定目标动作。

4.根据权利要求2所述的方法，进一步包括：

确定所述人物在所述给定动作图像中的位置；以及

基于所述位置调整所述一组目标人物图像中的给定目标人物图像和所述给定目标人物图像的给定目标蒙版的位置。

5.根据权利要求2所述的方法，进一步包括：

确定所述给定动作图像中的人物图像的尺寸；以及

基于所述尺寸调整所述一组目标人物图像中的给定目标人物图像和所述给定目标人物图像的给定目标蒙版的尺寸。

6.根据权利要求4所述的方法，其中基于所述一组目标人物图像和所述一组目标蒙版，生成所述视频包括：

基于调整后的所述一组目标人物图像和调整后的所述一组目标蒙版，生成所述视频。

7.根据权利要求1所述的方法，其中基于所述一组目标人物图像和所述一组目标蒙版，生成所述视频包括：

获取用于生成所述视频的背景图像；

基于所述一组目标人物图像和所述一组目标蒙版，生成一组前景图像；以及

基于所述一组前景图像和所述背景图像，生成所述视频。

8.根据权利要求1所述的方法，其中分别确定与所述一组目标动作相关联的一组目标人物图像和所述一组目标人物图像的一组目标蒙版包括：针对所述一组目标动作中的给定目标动作，

基于所述动作模型，确定与给定目标动作相关联的给定目标人物图像和所述给定目标人物图像的给定目标蒙版。

9.根据权利要求1所述的方法，其中针对所述一组目标人物图像中的给定目标人物图像：

所述给定目标人物图像的给定蒙版包括所述目标人物图像与背景之间的轮廓，以及所述轮廓包括所述目标人物的影子。

10.根据权利要求1所述的方法，进一步包括：获取所述动作模型，包括：

获取包括所述目标人物的训练视频，所述训练视频包括由所述目标人物执行一组动作的一组图像；

从所述一组图像中，分别标识所述一组动作；以及

基于所述一组图像和所述一组动作训练所述动作模型，使得训练后的所述动作模型描述所述一组动作、所述目标人物在一组图像中的一组人物图像和所述一组人物图像的一组目标蒙版之间的关联关系。

11.一种用于生成视频的装置，包括：

获取模块，配置用于获取包括用于生成所述视频的一组目标动作的动作视频，所述动作视频包括由人物执行所述一组目标动作的一组动作图像；

标识模块，配置用于从所述一组动作图像中，标识所述一组目标动作；

确定模块，配置用于根据目标人物的动作模型中包括的目标人物的动作、所述目标人物的目标人物图像与所述目标人物图像的目标蒙版之间的关联关系，分别确定与所述一组目标动作相关联的一组目标人物图像和所述一组目标人物图像的一组目标蒙版；以及

生成模块，配置用于基于所述一组目标人物图像和所述一组目标蒙版，生成包括由所述目标人物执行所述一组目标动作的所述视频。

12.根据权利要求11所述的装置，其中所述标识模块包括：

关键点确定模块，配置用于针对所述一组动作图像中的给定动作图像，确定由所述人物执行所述一组目标动作中的给定目标动作时的多个人体关键点；以及

动作确定模块，配置用于基于所述多个人体关键点，确定所述给定动作图像包括的给定目标动作。

13.根据权利要求12所述的装置，其中所述动作确定模块包括：

连接模块，配置用于按照预定顺序连接所述多个人体关键点；以及

目标动作确定模块，配置用于基于连接的所述多个人体关键点确定所述给定目标动作。

14.根据权利要求12所述的装置，进一步包括：

位置确定模块，配置用于确定所述人物在所述给定动作图像中的位置；以及

位置调整模块，配置用于基于所述位置调整所述一组目标人物图像中的给定目标人物图像和所述给定目标人物图像的给定目标蒙版的位置。

15.根据权利要求12所述的装置，进一步包括：

尺寸确定模块，配置用于确定所述给定动作图像中的人物图像的尺寸；以及

尺寸调整模块，配置用于基于所述尺寸调整所述一组目标人物图像中的给定目标人物图像和所述给定目标人物图像的给定目标蒙版的尺寸。

16.根据权利要求14所述的装置，其中所述生成模块进一步配置用于基于调整后的所述一组目标人物图像和调整后的所述一组目标蒙版，生成所述视频。

17.根据权利要求11所述的装置，其中所述生成模块包括：

背景模块，配置用于获取用于生成所述视频的背景图像；

前景模块，配置用于基于所述一组目标人物图像和所述一组目标蒙版，生成一组前景图像；以及

组合模块，配置用于基于所述一组前景图像和所述背景图像，生成所述视频。

18.根据权利要求11所述的装置，其中所述确定模块包括：

动作处理模块，配置用于针对所述一组目标动作中的给定目标动作，基于所述动作模型，确定与给定目标动作相关联的给定目标人物图像和所述给定目标人物图像的给定目标蒙版。

19.根据权利要求11所述的装置，其中针对所述一组目标人物图像中的给定目标人物图像：

20.根据权利要求11所述的装置，进一步包括：动作模型获取模块，包括：

训练视频获取模块，配置用于获取包括所述目标人物的训练视频，所述训练视频包括由所述目标人物执行一组动作的一组图像；

动作标识模块，配置用于从所述一组图像中，分别标识所述一组动作；以及

训练模块，配置用于基于所述一组图像和所述一组动作训练所述动作模型，使得训练后的所述动作模型描述所述一组动作、所述目标人物在一组图像中的一组人物图像和所述一组人物图像的一组目标蒙版之间的关联关系。

21.一种用于生成视频的设备，所述设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-10中任一项所述的方法。

22.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-10中任一项所述的方法。