CN110148202A

CN110148202A - 用于生成图像的方法、装置、设备和存储介质

Info

Publication number: CN110148202A
Application number: CN201910340395.2A
Authority: CN
Inventors: 龙翔; 高原; 李鑫; 刘霄; 张赫男; 文石磊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-20
Anticipated expiration: 2039-04-25
Also published as: CN110148202B

Abstract

本公开涉及用于生成图像的方法、装置、设备和存储介质。在一种方法中，获取目标动作图像，目标动作图像包括由人物执行目标动作的图像。获取动作视频，动作视频包括由目标人物执行一组动作的一组图像。基于相似性规则，从一组图像中选择目标输入图像，目标输入图像包括由目标人物执行一组动作中的一个动作的图像，动作与目标动作之间的相似性满足预定条件。根据动作模型中包括的输入图像、输出图像中的动作和输出图像之间的关联关系，生成与目标输入图像和目标动作相关联的目标输出图像，目标输出图像包括由目标人物执行目标动作的图像。采用上述实现方式，可以以更为有效的方式确定目标人物执行各种动作的图像，使得目标人物的动作更为自然。

Description

用于生成图像的方法、装置、设备和存储介质

技术领域

本公开内容的实现方式概括地涉及图像处理，并且更具体地，涉及用于确定由目标人物执行目标动作的图像的方法、装置、设备和计算机存储介质。

背景技术

随着计算机技术的发展，目前已经出现了虚拟人物的技术。在虚拟人物技术中，可以使用虚拟人物来播放新闻、天气预报、以及教学等方面的内容。真实人物在执行不同的动作时，人体的各部分将处于不同的姿态，因而期望虚拟人物的动作能够逼真地模拟真实人物的动作。此时，如何以更为真实地方式确定虚拟人物执行不同动作的图像，成为一个技术难题。

发明内容

根据本公开内容的示例实现方式，提供了一种用于生成图像的方案。

在本公开内容的第一方面中，提供了一种用于生成图像的方法。在该方法中，获取目标动作图像，目标动作图像包括由人物执行目标动作的图像。获取动作视频，动作视频包括由目标人物执行一组动作的一组图像。基于相似性规则，从一组图像中选择目标输入图像，目标输入图像包括由目标人物执行一组动作中的一个动作的图像，动作与目标动作之间的相似性满足预定条件。根据动作模型中包括的输入图像、输出图像中的动作和输出图像之间的关联关系，生成与目标输入图像和目标动作相关联的目标输出图像，目标输出图像包括由目标人物执行目标动作的图像。

在本公开内容的第二方面中，提供了用于生成图像的装置，包括：图像获取模块，配置用于获取目标动作图像，目标动作图像包括由人物执行目标动作的图像；视频模块，配置用于获取动作视频，动作视频包括由目标人物执行一组动作的一组图像；选择模块，配置用于基于相似性规则，从一组图像中选择目标输入图像，目标输入图像包括由目标人物执行一组动作中的一个动作的图像，动作与目标动作之间的相似性满足预定条件；生成模块，配置用于根据动作模型中包括的输入图像、输出图像中的动作和输出图像之间的关联关系，生成与目标输入图像和目标动作相关联的目标输出图像，目标输出图像包括由目标人物执行目标动作的图像。

在本公开内容的第三方面中，提供了一种设备。该设备包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开内容的第一方面的方法。

在本公开内容的第四方面中，提供了一种其上存储有计算机程序的计算机可读介质，该程序在被处理器执行时实现根据本公开内容的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开内容的实现方式的关键或重要特征，亦非用于限制本公开内容的范围。本公开内容的其他特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开内容的各实现方式的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示意性示出了基于真实人物的图像来生成虚拟人物的图像的示意图；

图2示意性示出了根据本公开内容的示例性实现方式的用于生成图像的技术方案的框图；

图3示意性示出了根据本公开内容的示例性实现方式的动作模型的输入和输出的框图；

图4示意性示出了根据本公开内容的示例性实现方式的用于训练动作模型的过程的框图；

图5示意性示出了根据本公开内容的示例性实现方式的用于训练动作模型的方法的流程图；

图6示意性示出了根据本公开内容的示例性实现方式的用于获取动作模型的训练样本的过程的示意图；

图7示意性示出了根据本公开内容的示例性实现方式的用于确定两个图像中的动作的相似性的框图；

图8示意性示出了根据本公开内容的示例性实现方式的用于基于两个图像中的骨骼来确定动作之间的相似性的框图；

图9示意性示出了根据本公开内容的示例性实现方式的用于生成图像的方法的流程图；

图10示意性示出了根据本公开内容的示例性实现方式的用于生成图像的过程的框图；

图11示意性示出了根据本公开内容的示例性实现方式的用于生成图像的装置的框图；以及

图12示出了能够实施本公开内容的多个实现方式的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开内容的实现方式。虽然附图中显示了本公开内容的某些实现方式，然而应当理解的是，本公开内容可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实现方式，相反提供这些实现方式是为了更加透彻和完整地理解本公开内容。应当理解的是，本公开内容的附图及实现方式仅用于示例性作用，并非用于限制本公开内容的保护范围。

在本公开内容的实现方式的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实现方式”或“该实现方式”应当理解为“至少一个实现方式”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

随着图像处理技术的发展，目前已经出现了虚拟人物。例如，对于某些并不需要主播与观众做出更多交流的播报类节目，已经可以利用虚拟主播来代替真实人物。此外，还可以基于虚拟人物来生成电影、电视剧等中的特效画面，或者还可以基于虚拟人物来生成动画产品。将会理解，在此的虚拟人物是指通过计算出来而生成的人物，而并非真实人物。虚拟人物可以具有真实人物的外貌和衣着，或者虚拟人物还可以具有动画人物的外貌和衣着。

图1示意性示出了基于真实人物的输入图像和目标动作图像来生成虚拟人物的图像的示意图100。如图1所示，可以获取包括目标动作的目标动作图像110和包括目标人物的图像120，基于已经建立的动作模型，可以生成由目标人物执行目标动作的图像130。

目前已经提出了基于神经网络技术来生成动作模型的技术方案。在一个技术方案中，可以基于单一图像来生成动作模型。将包括目标人物的图像输入该模型，可以输出由目标人物执行动作模型中的目标动作的图像。在此技术方案中，用于训练的信息不足，当输入图像中的动作与模型中的动作差异较大时，生成的图像中的动作并不逼真。在另一技术方案中，可以基于目标人物的视频来生成动作模型。然而，该动作模型仅适用于特定的目标人物而并不适用于目标人物以外的其他人物，需要针对每个目标人物生成相应的动作模型，训练成本高。

为了至少部分地解决上述技术方案中的不足，根据本公开的示例性实现，提供了一种用于生成图像的技术方案。根据本公开的示例性实现方式，提出了动作相似性的概念。在该技术方案中，可以获取包括由目标人物执行一组动作的一组图像和包括目标动作的图像，并从一组图像中选择包括与目标动作最为相似的动作的图像，进而基于选择的图像来生成最终输出图像。具体地，提出的技术方案包括：生成动作模型和使用动作模型来确定由目标人物执行目标动作的图像两个阶段。

根据本公开的示例性实现方式，在生成动作模型中，可以考虑各个训练图像中的动作的相似性，进而使得生成的动作模型能够准确描述输入图像与最终输出图像之间的关联关系。在使用动作模型中，通过选择包括与目标动作最为相似的动作的图像作为输入，获得的由目标人物执行目标动作的图像将会更为逼真。利用本公开的示例性实现方式，一方面避免了生成动作模型时信息不足的情况，另一方面生成的动作模型可以用于不同的人物和不同的动作。

在下文中，将参见图2概括描述本公开的示例性实现的使用动作模型阶段的过程。图2示意性示出了根据本公开内容的示例性实现方式的用于生成图像的技术方案的框图200。首先，可以获取目标动作图像110，在此的目标动作图像110是包括由任意人物执行目标动作的图像。在此并不关心由哪个人物来执行目标动作，而是仅需要从该目标动作图像110中提取目标动作。进一步，可以获取动作视频210，在此动作视频210包括由目标人物执行一组动作的一组图像。将会理解，这里的目标人物是指期望针对其生成最终输出图像的人物。

在此实现方式中，可以基于相似性规则，动作视频210中的从一组图像中选择目标输入图像230，该目标输入图像230包括由目标人物执行一组动作中的一个动作的图像。目标输入图像230中的动作与目标动作之间的相似性满足预定条件。换言之，可以从一组图像中选择包括与目标动作最为接近的动作的图像，来作为目标输入图像230。根据已经生成的动作模型240中包括的输入图像、输出图像中的动作和输出图像之间的关联关系，可以确定与目标输入图像230和目标动作相关联的目标输出图像250，在此目标输出图像250包括由目标人物执行目标动作的图像。

将会理解，在此的动作模型240可以是已经基于样本图像训练好的动作模型。图3示意性示出了根据本公开内容的示例性实现方式的动作模型的输入和输出的框图300。如图3所示，可以基于样本输入图像310、样本输出图像320中的动作312和样本输出图像320来训练动作模型240。在此的样本输入图像310是包括由人物执行动作的图像，样本输出图像320是由该人物执行相似动作的图像。通过使用一组训练样本(每个样本包括样本输入图像310、样本输出图像320中的动作312和样本输出图像320)，可以使得训练后的动作模型240在输入包括人物执行的动作的图像以及包括任意人物执行目标动作的图像时，可以输出包括由该人物执行目标动作的图像。

在下文中，将参见附图4描述如何生成动作模型240。图4示意性示出了根据本公开内容的示例性实现方式的用于训练动作模型240的过程的框图400。根据本公开的示例性实现方式，可以基于训练视频410来生成动作模型240。将会理解，可以获取一个或多个训练视频。在此并不限制各个训练视频中所包括的人物是否为相同人物，并且多个训练视频可以涉及相同或者不同的人物。根据本公开的示例性实现方式，降低了对于训练视频410的要求，并且可以更容易获取包括各种动作的训练视频410。

在下文中，将仅以一个训练视频410为示例，描述如何基于训练视频410来生成动作模型240。基于相似性规则220，可以从训练视频410中，提取训练样本420来用于训练动作模型240。在此的一个训练样本420可以包括样本输入图像310、样本输出图像320中的动作312和样本输出图像320。可以从一个训练视频410中提取多个训练样本420，在下文中，将参见图5详细描述。

图5示意性示出了根据本公开内容的示例性实现方式的用于训练动作模型240的方法500的流程图。如图5所示，在框510处，可以获取至少一个训练视频410。为了使得训练后的动作模型240具有较高的精度，可以指定训练视频的数量。进一步，还可以选择尽量覆盖各种动作的视频来作为训练视频410。

在框520处，从至少一个训练视频中的训练视频中，提取用于训练动作模型240的样本输入图像310和样本输出图像320。在下文中，将参见图6描述有关获取训练样本的更多细节。

图6示意性示出了根据本公开内容的示例性实现方式的用于获取动作模型240的训练样本420的过程的示意图600。如图6所示，可以将训练视频410划分为第一部分610和第二部分620，从第一部分610中选择样本输入图像310。基于相似性规则220，从第二部分620中选择样本输出图像320。

在此，样本输入图像310中的动作与样本输出图像320中的动作之间的相似性满足预定条件。例如，可以基于相似性规则220，分别确定第一部分610中的各个图像中动作与样本输出图像320中的动作之间的相似性，并且从中选择相似性最高的图像来作为输入图像。备选地和/或附加地，还可以设置预定的阈值，当两个图像之间的相似性的差异满足该阈值时，则停止在第一部分610中搜索其他图像。

将会理解，尽管上文描述了将训练视频410划分为第一部分610和第二部分620的示例，还可以将训练视频410划分为更多部分，并且可以分别从不同的部分中选择样本输入图像310和样本输出图像320。利用本公开的示例性实现方式，一方面可以确保从训练视频410中获取大量训练样本，另一方面还可以确保样本输入图像310和样本输出图像320之间存在差异，并且两个图像的动作之间具有相似性。在下文中，将参见图7描述如何确定两个图像中的动作的相似性。

图7示意性示出了根据本公开内容的示例性实现方式的用于确定两个图像中的动作的相似性的框图700。如图7所示，可以确定任意两个图像710和720中的动作的相似性。根据本公开的示例性实现方式，可以基于两个图像中的人物的骨骼长度来确定动作之间的相似性。具体地，可以分别从两个图像710和720中提取动作712和722(例如，以人体骨骼来表示)。

为了确定动作，可以确定各个图像中的一组人体关键点，并按照预定顺序连接第一组人体关键点。在此的人体关键点可以是人体中的关键部位在动作图像中的位置。人体关键点可以包括诸如五官、脖子、躯干、肩关节、肘关节、腕关节、指关节、胯关节、膝关节、踝关节、脚关节等。例如，可以按照人体骨骼的从头到脚、从主干到四肢的顺序来定义关键点的顺序。以此方式，可以高效地确定骨骼的长度和方向(人物的骨骼的向量)。

根据本公开的示例性实现方式，可以基于多种方式来提取动作。例如，可以基于数字图像处理的方式，确定图像中的人体的姿态进而确定动作。备选地和/或附加地，还可以获取基于机器学习技术建立的骨骼模型。通过向骨骼模型中输入图像710即可获得该图像710中的人物中的动作712。

将会理解，图像中的人物的骨骼长度在一定程度上可以反映人物动作的差异。例如，假设人物的垂直站立，则图像中的小腿骨的长度表现为自然长度；如果人物朝向侧后方抬起小腿，则由于投影原因，图像中的小腿骨长度将会短于自然长度。利用本公开的示例性实现方式，基于骨骼长度，可以以简单并且有效的方式来衡量两个动作之间的差异。

具体地，可以分别从动作712和722中获取相对应的骨骼714和724(例如，小腿骨)，并基于骨骼714和724的长度的差异来确定两个图像710和720中的动作的相似性。根据本公开的示例性实现方式，基于关键点的优先顺序，从排序靠前的关键点连接向排序靠后的关键点。此时，可以采用向量来表示每个骨骼。当以关键点表示坐标时，例如，左膝盖关键点坐标为(x1,y1)，左脚踝关键点坐标为(x2,y2)。可以按照从左膝盖关键点到左脚踝关键点的顺序连接，则左侧小腿骨骼的向量表示为(x2-x1,y2-y1)，并且小腿骨骼长度为

根据本公开的示例性实现方式，可以根据两个图像710和720中的相对应的骨骼714和724的向量表示，来确定两个图像710和720中的动作的相似性。具体地，图8示意性示出了根据本公开内容的示例性实现方式的用于基于两个图像中的骨骼来确定动作之间的相似性的框图800。如图8所示，可以确定骨骼714和724之间的相似性。假设骨骼714的向量表示为(DXa,DYa)，骨骼724的向量表示为(DXb,DYb)，则可以基于如下公式1来确定两个骨骼的长度差：

将会理解，长度差越小，则骨骼之间的相似性越高。将会理解，尽管公式1中以骨骼的绝对长度的差异来表示长度差，还可以以相对长度(例如，两个骨骼长度之间的比例)来表示长度差。根据本公开的示例性实现方式，还可以基于相对应的骨骼之间的角度差来确定相似性。利用本公开的示例性实现方式，可以基于骨骼的朝向来确定动作之间的相似性，进而以更为准确的方式找到包括相似动作的图像。可以定义，两个骨骼角度之间的角度差越小，则骨骼之间的相似性越高。可以基于如下的公式2来确定两个骨骼之间的角度差。

将会理解，由于拍摄角度不同、人物距离相机的距离不同、人物本身的高矮胖瘦的不同，从不同图像中获取的人体骨骼的长度可能会存在较大差异。根据本公开的示例性实现方式，还可以基于不同人物各自的多个骨骼的平均长度来将不同人物的骨骼长度进行归一化处理，以便使得基于不同图像获得的骨骼长度之间具有类似的比较基础。根据本公开的示例性实现方式，可以首先确定目标人物的多个骨骼的平均长度，继而基于平均长度更新骨骼的长度。

假设两个图像均为由人物A的执行同一动作的图像，不同之处在于人物A距离相机的距离不同。此时，基于距离相机较远的图像获得的骨骼长度较短，而基于距离相机较近的图像获得的骨骼长度较长。如果仅基于相对应的骨骼的长度进行比较，则会得出两个图像的动作不相似的结论。利用本公开的示例性实现方式，通过利用多个或者全部骨骼的平均长度来校正各个骨骼的长度，则会得出两个图像的动作相似的结论。以此方式，可以校正相似性确定中的潜在误差，进而提高计算准确性。

将会理解，尽管上文示意性示出了如何确定相对应的骨骼714和724之间的相似性，根据本公开的示例性实现方式，可以确定动作712和722中的各个骨骼的整体相似性。具体地，可以确定相对应的多个骨骼之间的长度差和角度差。假设分别向各个骨骼对指定序号1、2、……、n，则可以分别基于上文的公式1来确定每对骨骼之间的长度差DL1、DL2、…、DLn，可以分别基于上文的公式2来确定每对骨骼之间的角度差：θ1、θ2、…、θn。进一步，可以为不同部位的骨骼设定不同的权重，例如w1、w2、…、wn。由于骨骼之间的角度差更能够反映动作的差异，还可以为角度差设定一个整体权重c，此时，可以基于公式3来确定图像710和720中的动作的整体相似性：

将会理解，还可以针对公式3进行变形，例如，可以针对骨骼之间的角度差设置各自的权重ci，此时公式3可以变形为如下公式4。

基于上文描述的公式1-4，可以确定任意图像710和720中的动作的相似性。以此方式，可以以简单并且高效的方式来从训练视频410中提取样本输入图像310和样本输出图像320。可以将图6所示的第二部分620中的部分或者全部图像帧来作为样本输出图像320，并且可以基于从第一部分610中选择与每个样本输出图像320相对应的样本输入图像310。

返回图5，在框530处，可以基于样本输入图像310、样本输出图图像中的动作和样本输出图像320来训练动作模型240，以使得训练后的动作模型240描述样本输入图像310、样本输出图像320中的动作312和样本输出图像320之间的关联关系。换言之，向动作模型240中输入包括由目标人物的输入图像和目标动作，即可获得由目标人物执行目标动作的图像。

根据本公开的示例性实现方式，将会理解，可以基于神经网络模型来获取动作模型240。根据本公开的示例性实现方式，训练后的动作模型240可以用于生成由任意目标人物来执行任意目标动作的图像。换言之，一旦训练过程结束，则动作模型240可以用于多人使用。以此方式，可以降低分别针对不同的目标人物生成各自的专用动作模型的繁重计算量。

在上文中已经描述了如何生成动作模型240，在下文中，将参见图9描述如何使用动作模型240。图9示意性示出了根据本公开内容的示例性实现方式的用于生成图像的方法900的流程图。在图9中，在框910处，可以获取目标动作图像100。将参见图10描述图像生成过程的更多细节。图10示意性示出了根据本公开内容的示例性实现方式的用于生成图像的过程的框图1000。该目标动作图像110包括由人物执行目标动作(例如，以目标动作1010表示)的图像。在框920处，可以获取动作视频210，在此的动作视频210可以包括由目标人物执行一组动作的一组图像。

返回图9的框930处，可以基于相似性规则220，从一组图像中选择目标输入图像220。在此的目标输入图像220包括由目标人物执行一组动作中的一个动作的图像，并且该动作与目标动作1010之间的相似性满足预定条件。具体地，可以基于上文描述的确定两个图像中的中的动作的相似性的方法，来从动作视频210中选择包括与目标动作1010所示的动作最为相似的动作(如动作1020)的图像来作为目标输入图像220。

根据本公开的示例性实现方式，可以基于相似性规则，从一组图像中选择目标输入图像。在此的相似性规则指定了基于两个图像中人物的骨骼来确定动作之间的相似性度量。通过向动作模型240中输入目标输入图像220，可以使得训练后的动作模型240更准确地输出由目标人物执行目标动作时的图像。

根据本公开的示例性实现方式，针对一组图像中的第一图像，可以按照上文描述的方法来确定第一图像中包括的第一动作与目标动作之间的第一相似性。类似地，针对一组图像中的第二图像，可以按照上文描述的方法来确定第二图像中包括的第二动作与目标动作之间的第二相似性。继而，可以比较第一相似性和第二相似性的数值。如果第一相似性高于第二相似性，则可以选择第一动作图像作为目标输入图像。

根据本公开的示例性实现方式，可以针对动作视频210中的每个图像进行处理。例如，可以分别确定每个图像中的动作与动作1010中的动作的相似性，并且选择包括最高相似性的动作的图像来作为目标输入图像220。

在确定相似性的过程中，可以基于各个骨骼的长度的差异来分别确定第一和第二相似性。具体地，可以基于第一图像确定目标人物的骨骼的第一长度，可以基于目标动作图像确定人物的骨骼的长度，并且可以基于第一长度和长度的长度差确定第一相似性。还可以以类似的方式确定第二相似性，在此不再赘述。

根据本公开的示例性实现方式，按照上文描述的方式，可以首先确定第一图像中的目标人物的第一组人体关键点，并按照预定顺序连接第一组人体关键点。继而，可以基于连接的第一组人体关键点确定目标人物的骨骼的第一长度。根据本公开的示例性实现方式，考虑到拍摄角度、人物距离相机的距离、人物本身的高矮胖瘦等因素的差异，还可以确定目标人物的多个骨骼的平均长度，并且基于平均长度更新第一长度。根据本公开的示例性实现方式，还可以基于第一图像中的目标人物的骨骼的第一朝向、以及目标动作图像中的人物的骨骼的朝向的角度差，确定第一相似性。

继而，在图9中的框940处，可以根据动作模型240中包括的输入图像、输出图像中的动作和输出图像之间的关联关系，生成与目标输入图像220和目标动作1010相关联的目标输出图像220。在此的目标输出图像220包括由目标人物执行目标动作1010的图像。将会理解，由于动作模型240中已经包括了有关输入图像、输出图像中的动作和输出图像之间的关联关系的知识，因而在向动作模型240输入目标输入图像220和目标动作1010的情况下，即可生成包括由目标人物执行目标动作1010的目标输出图像250。

将会理解，尽管上文中示出了向动作模型240输入目标输入图像220和目标动作1010的示例，还可以直接向动作模型240目标动作图像110，并且由动作模型240来提取目标动作1010。在此可以采用与训练动作模型240相一致的方式来确定对于动作模型240的输入。假设在训练动作模型240中的训练样本包括样本输入图像以及样本输出图像，则在使用动作模型240时的输入可以包括：目标输入图像220和目标动作图像110。换言之，此时由动作模型240来从目标动作图像110中提取目标动作1010。基于上述输入和动作模型240，即可生成包括由目标人物执行目标动作的目标输出图像250。

根据本公开的示例性实现方式，还可以基于动作模型240获取由同一个目标人物执行多个目标动作的图像。具体地，可以获取另一目标动作图像，另一目标动作图像包括由人物执行另一目标动作的图像。基于相似性规则，从一组图像中选择另一目标输入图像。根据动作模型，获取与另一目标输入图像相关联的另一目标输出图像，另一目标输出图像包括由目标人物执行另一目标动作的另一图像。将会理解，在此生成另一图像的过程类似于上文描述的方法900的过程，不同之处在于此时输入的目标动作图像是包括另一动作的图像。

根据本公开的示例性实现方式，还可以基于目标动作视频中的一系列目标动作，来生成由目标人物执行多个目标动作的视频。具体地，可以获取包括多个目标动作的目标动作视频，从目标动作视频中获取目标动作图像和另一目标动作图像，并且基于图像和另一图像，生成由目标人物执行一系列动作的视频。换言之，可以针对目标动作视频中的每个帧进行处理，分别生成由目标人物执行每个帧中的动作的图像帧。继而，通过将多个图像帧进行组合，即可生成由目标人物执行一系列动作的视频。

在上文中已经详细描述了如何生成动作模型方法500和使用动作模型来生成图像的方法900的多个实现方式。根据本公开的示例性实现方式，还提供了用于生成图像的装置。在下文中，将参见图11详细描述。图11示意性示出了根据本公开内容的示例性实现方式的用于生成图像的装置1100的框图。如图11所示，该装置1100包括：图像获取模块1110，配置用于获取目标动作图像，目标动作图像包括由人物执行目标动作的图像；视频模块1120，配置用于获取动作视频，动作视频包括由目标人物执行一组动作的一组图像；选择模块1130，配置用于基于相似性规则，从一组图像中选择目标输入图像，目标输入图像包括由目标人物执行一组动作中的一个动作的图像，动作与目标动作之间的相似性满足预定条件；生成模块1140，配置用于根据动作模型中包括的输入图像、输出图像中的动作和输出图像之间的关联关系，生成与目标输入图像和目标动作相关联的目标输出图像，目标输出图像包括由目标人物执行目标动作的图像。

根据本公开的示例性实现方式，选择模块1130包括：相似性确定模块，配置用于针对一组图像中的第一图像，确定第一图像中包括的第一动作与目标动作之间的第一相似性；相似性确定模块进一步配置用于针对一组图像中的第二图像，确定第二图像中包括的第二动作与目标动作之间的第二相似性；以及图像选择模块，配置用于响应于第一相似性高于第二相似性，选择第一动作图像作为目标输入图像。

根据本公开的示例性实现方式，相似性确定模块包括：长度确定模块，配置用于基于第一图像确定目标人物的骨骼的第一长度；长度确定模块进一步配置用于基于目标动作图像确定人物的骨骼的长度；以及长度比较模块，配置用于基于第一长度和长度的长度差确定第一相似性。

根据本公开的示例性实现方式，长度确定模块包括：关键点确定模块，配置用于确定第一图像中的目标人物的第一组人体关键点；连接模块，配置用于按照预定顺序连接第一组人体关键点；以及骨骼长度确定模块，配置用于基于连接的第一组人体关键点确定目标人物的骨骼的第一长度。

根据本公开的示例性实现方式，骨骼长度确定模块进一步包括：平均长度模块，配置用于确定目标人物的多个骨骼的平均长度；以及更新模块，配置用于基于平均长度更新第一长度。

根据本公开的示例性实现方式，相似性确定模块包括：朝向确定模块，配置用于基于第一图像确定目标人物的骨骼的第一朝向；朝向确定模块进一步配置用于基于目标动作图像确定人物的骨骼的朝向；以及朝向比较模块，配置用于基于第一朝向和朝向之间的角度差，确定第一相似性。

根据本公开的示例性实现方式，进一步包括模型生成模块，包括：训练视频获取模块，配置用于获取至少一个训练视频；提取模块，配置用于从至少一个训练视频中的训练视频中，提取用于训练动作模型的样本输入图像和样本输出图像；以及训练模块，配置用于基于样本输入图像和样本输出图像来训练动作模型，以使得训练后的动作模型基于样本输入图像和样本输出图像而输出由样本输入图像中的人物执行样本输出图像中的动作的图像。

根据本公开的示例性实现方式，提取模块包括：划分模块，配置用于将训练视频划分为第一部分和第二部分，从第一部分中选择样本输入图像；样本选择模块，配置用于基于相似性规则，从第二部分中选择样本输出图像，样本输入图像中的动作与样本输出图像中的动作之间的相似性满足预定条件。

根据本公开的示例性实现方式，图像获取模块1110进一步配置用于获取另一目标动作图像，另一目标动作图像包括由人物执行另一目标动作的图像；选择模块1130进一步配置用于基于相似性规则，从一组图像中选择另一目标输入图像；生成模块1140进一步配置用于根据动作模型，获取与另一目标输入图像相关联的另一目标输出图像，另一目标输出图像包括由目标人物执行另一目标动作的另一图像。

根据本公开的示例性实现方式，进一步包括：动作视频获取模块，配置用于获取包括多个目标动作的目标动作视频；图像获取模块1110进一步配置用于从目标动作视频中获取目标动作图像和另一目标动作图像；以及视频生成模块，配置用于基于图像和另一图像，生成由目标人物执行一系列动作的视频。

图12示出了能够实施本公开内容的多个实现方式的计算设备1200的框图。设备1200可以用于实现图5和图9描述的方法。如图所示，设备1200包括中央处理单元(CPU)1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序指令或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元1201执行上文所描述的各个方法和处理，例如方法500和900。例如，在一些实现方式中，方法500和900可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实现方式中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由CPU 1201执行时，可以执行上文描述的方法500和900的一个或多个步骤。备选地，在其他实现方式中，CPU 1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法500和900。

根据本公开内容的示例性实现方式，提供了一种其上存储有计算机程序的计算机可读存储介质。程序被处理器执行时实现本公开所描述的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开内容的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开内容的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开内容的范围的限制。在单独的实现方式的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于生成图像的方法，包括：

获取目标动作图像，所述目标动作图像包括由人物执行目标动作的图像；

获取动作视频，所述动作视频包括由目标人物执行一组动作的一组图像；

基于相似性规则，从所述一组图像中选择目标输入图像，所述目标输入图像包括由所述目标人物执行所述一组动作中的一个动作的图像，所述动作与所述目标动作之间的相似性满足预定条件；

根据动作模型中包括的输入图像、输出图像中的动作和输出图像之间的关联关系，生成与所述目标输入图像和目标动作相关联的目标输出图像，所述目标输出图像包括由所述目标人物执行所述目标动作的图像。

2.根据权利要求1所述的方法，其中基于所述相似性规则，从所述一组图像中选择所述目标输入图像包括：

针对所述一组图像中的第一图像，确定所述第一图像中包括的第一动作与所述目标动作之间的第一相似性；

针对所述一组图像中的第二图像，确定所述第二图像中包括的第二动作与所述目标动作之间的第二相似性；以及

响应于所述第一相似性高于所述第二相似性，选择所述第一动作图像作为所述目标输入图像。

3.根据权利要求2所述的方法，其中确定所述第一相似性包括：

基于所述第一图像确定所述目标人物的骨骼的第一长度；

基于所述目标动作图像确定所述人物的骨骼的长度；以及

基于所述第一长度和所述长度的长度差确定所述第一相似性。

4.根据权利要求3所述的方法，其中基于所述第一图像确定所述目标人物的骨骼的所述第一长度包括：

确定所述第一图像中的所述目标人物的第一组人体关键点；

按照预定顺序连接所述第一组人体关键点；以及

基于连接的所述第一组人体关键点确定所述目标人物的所述骨骼的所述第一长度。

5.根据权利要求3所述的方法，其中基于连接的所述第一组人体关键点确定所述目标人物的所述骨骼的所述第一长度包括：

确定所述目标人物的多个骨骼的平均长度；以及

基于所述平均长度更新所述第一长度。

6.根据权利要求2所述的方法，其中确定所述第一相似性包括：

基于所述第一图像确定所述目标人物的骨骼的第一朝向；

基于所述目标动作图像确定所述人物的骨骼的朝向；以及

基于所述第一朝向和所述朝向之间的角度差，确定所述第一相似性。

7.根据权利要求1所述的方法，进一步包括获取所述动作模型，包括：

获取至少一个训练视频；

从所述至少一个训练视频中的训练视频中，提取用于训练所述动作模型的样本输入图像和样本输出图像；以及

基于所述样本输入图像和所述样本输出图像来训练所述动作模型，以使得训练后的所述动作模型基于所述样本输入图像和所述样本输出图像而输出由所述样本输入图像中的人物执行所述样本输出图像中的动作的图像。

8.根据权利要求7所述的方法，其中提取用于训练所述动作模型的所述样本输入图像和所述样本输出图像包括：

将所述训练视频划分为第一部分和第二部分，从所述第一部分中选择所述样本输入图像；

基于所述相似性规则，从所述第二部分中选择所述样本输出图像，所述样本输入图像中的动作与所述样本输出图像中的动作之间的相似性满足所述预定条件。

9.根据权利要求1所述的方法，进一步包括：

获取另一目标动作图像，所述另一目标动作图像包括由所述人物执行另一目标动作的图像；

基于所述相似性规则，从所述一组图像中选择另一目标输入图像；

根据所述动作模型，获取与所述另一目标输入图像相关联的另一目标输出图像，所述另一目标输出图像包括由所述目标人物执行所述另一目标动作的另一图像。

10.根据权利要求9所述的方法，进一步包括：

获取包括多个目标动作的目标动作视频；

从所述目标动作视频中获取所述目标动作图像和所述另一目标动作图像；以及

基于所述图像和所述另一图像，生成由所述目标人物执行一系列动作的视频。

11.一种用于生成图像的装置，包括：

图像获取模块，配置用于获取目标动作图像，所述目标动作图像包括由人物执行目标动作的图像；

视频模块，配置用于获取动作视频，所述动作视频包括由目标人物执行一组动作的一组图像；

选择模块，配置用于基于相似性规则，从所述一组图像中选择目标输入图像，所述目标输入图像包括由所述目标人物执行所述一组动作中的一个动作的图像，所述动作与所述目标动作之间的相似性满足预定条件；

生成模块，配置用于根据动作模型中包括的输入图像、输出图像中的动作和输出图像之间的关联关系，生成与所述目标输入图像和目标动作相关联的目标输出图像，所述目标输出图像包括由所述目标人物执行所述目标动作的图像。

12.根据权利要求11所述的装置，其中所述选择模块包括：

相似性确定模块，配置用于针对所述一组图像中的第一图像，确定所述第一图像中包括的第一动作与所述目标动作之间的第一相似性；

所述相似性确定模块进一步配置用于针对所述一组图像中的第二图像，确定所述第二图像中包括的第二动作与所述目标动作之间的第二相似性；以及

图像选择模块，配置用于响应于所述第一相似性高于所述第二相似性，选择所述第一动作图像作为所述目标输入图像。

13.根据权利要求12所述的装置，其中所述相似性确定模块包括：

长度确定模块，配置用于基于所述第一图像确定所述目标人物的骨骼的第一长度；

所述长度确定模块进一步配置用于基于所述目标动作图像确定所述人物的骨骼的长度；以及

长度比较模块，配置用于基于所述第一长度和所述长度的长度差确定所述第一相似性。

14.根据权利要求13所述的装置，其中所述长度确定模块包括：

关键点确定模块，配置用于确定所述第一图像中的所述目标人物的第一组人体关键点；

连接模块，配置用于按照预定顺序连接所述第一组人体关键点；以及

骨骼长度确定模块，配置用于基于连接的所述第一组人体关键点确定所述目标人物的所述骨骼的所述第一长度。

15.根据权利要求13所述的装置，其中所述骨骼长度确定模块进一步包括：

平均长度模块，配置用于确定所述目标人物的多个骨骼的平均长度；以及

更新模块，配置用于基于所述平均长度更新所述第一长度。

16.根据权利要求12所述的装置，其中所述相似性确定模块包括：

朝向确定模块，配置用于基于所述第一图像确定所述目标人物的骨骼的第一朝向；

所述朝向确定模块进一步配置用于基于所述目标动作图像确定所述人物的骨骼的朝向；以及

朝向比较模块，配置用于基于所述第一朝向和所述朝向之间的角度差，确定所述第一相似性。

17.根据权利要求11所述的装置，进一步包括模型生成模块，包括：

训练视频获取模块，配置用于获取至少一个训练视频；

提取模块，配置用于从所述至少一个训练视频中的训练视频中，提取用于训练所述动作模型的样本输入图像和样本输出图像；以及

训练模块，配置用于基于所述样本输入图像和所述样本输出图像来训练所述动作模型，以使得训练后的所述动作模型基于所述样本输入图像和所述样本输出图像而输出由所述样本输入图像中的人物执行所述样本输出图像中的动作的图像。

18.根据权利要求17所述的装置，其中所述提取模块包括：

划分模块，配置用于将所述训练视频划分为第一部分和第二部分，从所述第一部分中选择所述样本输入图像；

样本选择模块，配置用于基于所述相似性规则，从所述第二部分中选择所述样本输出图像，所述样本输入图像中的动作与所述样本输出图像中的动作之间的相似性满足所述预定条件。

19.根据权利要求11所述的装置，其中：

所述图像获取模块进一步配置用于获取另一目标动作图像，所述另一目标动作图像包括由所述人物执行另一目标动作的图像；

所述选择模块进一步配置用于基于所述相似性规则，从所述一组图像中选择另一目标输入图像；

所述生成模块进一步配置用于根据所述动作模型，获取与所述另一目标输入图像相关联的另一目标输出图像，所述另一目标输出图像包括由所述目标人物执行所述另一目标动作的另一图像。

20.根据权利要求19所述的装置，进一步包括：

动作视频获取模块，配置用于获取包括多个目标动作的目标动作视频；

所述图像获取模块进一步配置用于从所述目标动作视频中获取所述目标动作图像和所述另一目标动作图像；以及

视频生成模块，配置用于基于所述图像和所述另一图像，生成由所述目标人物执行一系列动作的视频。

21.一种用于生成图像的设备，所述设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-10中任一项所述的方法。

22.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-10中任一项所述的方法。