CN115880766A - 姿态迁移、姿态迁移模型训练方法、装置和存储介质 - Google Patents
姿态迁移、姿态迁移模型训练方法、装置和存储介质 Download PDFInfo
- Publication number
- CN115880766A CN115880766A CN202111145837.1A CN202111145837A CN115880766A CN 115880766 A CN115880766 A CN 115880766A CN 202111145837 A CN202111145837 A CN 202111145837A CN 115880766 A CN115880766 A CN 115880766A
- Authority
- CN
- China
- Prior art keywords
- source
- target
- image
- attitude
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请涉及一种姿态迁移方法、装置、计算机设备和存储介质。该方法包括:获取源图像中源对象的三维源姿态信息和三维源形状信息以及目标图像中目标对象的三维目标姿态信息;基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息;获取源图像中源对象对应的源姿态轮廓信息,基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息;基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。采用本方法提高了姿态迁移的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种姿态迁移、姿态迁移模型训练方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,出现了姿态迁移技术,姿态迁移是指是将目标姿态迁移到原始图像中的对象中,比如,人体姿态迁移可以是将驱动视频里面的动作迁移到待驱动人物身上,被驱动人物是一张或数张图片,驱动视频中包含人体动作序列。目前,在进行姿态迁移时,通常是基于三维(3D)变换的,即得到3D模型,将3D模型的网格对应关系,从而得到2维图片间的对应关系,然后根据2维图片间的对应关系来变换得到结果。然而,目标进行姿态迁移方法通常需要对待驱动对象进行微调步骤才会得到较好的结果。从而导致耗时,并且由于生成的3D模型对姿态的表示能力有限,从而导致姿态迁移后的姿态较为僵硬,准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高实时性和准确性的姿态迁移方法、装置、计算机设备和存储介质。
一种姿态迁移方法,所述方法包括:
获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息;
基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息;
获取源图像中源对象对应的源姿态轮廓信息,基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息;
基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。
一种姿态迁移装置,所述装置包括:
获取模块,用于获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息;
投影模块,用于基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息;
轮廓预测模块,用于获取源图像中源对象对应的源姿态轮廓信息,基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息;
姿态迁移模块,用于基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息;
基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息;
获取源图像中源对象对应的源姿态轮廓信息,基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息;
基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息;
基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息;
获取源图像中源对象对应的源姿态轮廓信息,基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息;
基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。
上述姿态迁移方法、装置、计算机设备和存储介质,通过获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息;基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息,然后在获取源图像中源对象对应的源姿态轮廓信息,并使用源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息,最后使用源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像,通过在进行目标姿态迁移时,获取到源图像中源对象对应的源姿态轮廓信息,进而使用源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息,最后使用源图像、目标姿态轮廓信息和二维目标姿态信息进行姿态迁移,从而得到源图像对应的目标姿态图像,从而避免了微调步骤,提高了姿态迁移的实时性,并且,由于使用了目标姿态轮廓信息共同来进行目标姿态图像的生成,从而使生成的目标姿态图像提高了准确性。
一种姿态迁移模型训练方法,所述方法包括:
获取训练视频,从训练视频中确定训练源图像和训练目标图像;训练源图像中的训练源对象和训练目标图像中的训练目标对象为同一对象;
基于训练源图像和训练目标图像获取到训练源对象对应的训练二维源姿态信息和训练源对象对应的训练二维目标姿态信息,并获取到训练源图像对应的训练源对象对应的训练源姿态轮廓信息;
将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始姿态迁移模型中;
初始姿态迁移模型基于训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息,并基于训练源图像、训练目标姿态轮廓信息和训练二维目标姿态信息进行目标姿态图像生成,得到训练源图像对应的训练目标姿态图像,对训练目标姿态图像进行图像判别,得到判别结果;
基于判别结果确定图像对抗损失,并基于训练目标姿态图像和训练目标图像计算得到图像真实性损失,使用图像对抗损失和图像真实性损失更新初始姿态迁移模型,并返回获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。
一种姿态迁移模型训练装置,所述装置包括:
视频获取模块,用于获取训练视频,从训练视频中确定训练源图像和训练目标图像;训练源图像中的训练源对象和训练目标图像中的训练目标对象为同一对象;
信息获取模块,用于基于训练源图像和训练目标图像获取到训练源对象对应的训练二维源姿态信息和训练源对象对应的训练二维目标姿态信息,并获取到训练源图像对应的训练源对象对应的训练源姿态轮廓信息;
训练模块,用于将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始姿态迁移模型中;初始姿态迁移模型基于训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息,并基于训练源图像、训练目标姿态轮廓信息和训练二维目标姿态信息进行目标姿态图像生成,得到训练源图像对应的训练目标姿态图像,对训练目标姿态图像进行图像判别,得到判别结果;
迭代模块,用于基于判别结果确定图像对抗损失,并基于训练目标姿态图像和训练目标图像计算得到图像真实性损失,使用图像对抗损失和图像真实性损失更新初始姿态迁移模型,并返回获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练视频,从训练视频中确定训练源图像和训练目标图像;训练源图像中的训练源对象和训练目标图像中的训练目标对象为同一对象;
基于训练源图像和训练目标图像获取到训练源对象对应的训练二维源姿态信息和训练源对象对应的训练二维目标姿态信息,并获取到训练源图像对应的训练源对象对应的训练源姿态轮廓信息;
将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始姿态迁移模型中;
初始姿态迁移模型基于训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息,并基于训练源图像、训练目标姿态轮廓信息和训练二维目标姿态信息进行目标姿态图像生成,得到训练源图像对应的训练目标姿态图像,对训练目标姿态图像进行图像判别,得到判别结果;
基于判别结果确定图像对抗损失,并基于训练目标姿态图像和训练目标图像计算得到图像真实性损失,使用图像对抗损失和图像真实性损失更新初始姿态迁移模型,并返回获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练视频,从训练视频中确定训练源图像和训练目标图像;训练源图像中的训练源对象和训练目标图像中的训练目标对象为同一对象;
基于训练源图像和训练目标图像获取到训练源对象对应的训练二维源姿态信息和训练源对象对应的训练二维目标姿态信息,并获取到训练源图像对应的训练源对象对应的训练源姿态轮廓信息;
将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始姿态迁移模型中;
初始姿态迁移模型基于训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息,并基于训练源图像、训练目标姿态轮廓信息和训练二维目标姿态信息进行目标姿态图像生成,得到训练源图像对应的训练目标姿态图像,对训练目标姿态图像进行图像判别,得到判别结果;
基于判别结果确定图像对抗损失,并基于训练目标姿态图像和训练目标图像计算得到图像真实性损失,使用图像对抗损失和图像真实性损失更新初始姿态迁移模型,并返回获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。
上述姿态迁移模型训练方法、装置、计算机设备和存储介质,通过获取训练视频,从训练视频中确定训练源图像和训练目标图像,然后使用训练源图像和训练目标图像对初始姿态迁移模型进行训练,该初始姿态迁移模型使用训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息,并基于训练源图像、训练目标姿态轮廓信息和训练二维目标姿态信息进行目标姿态图像生成,得到训练源图像对应的训练目标姿态图像,对训练目标姿态图像进行图像判别,得到判别结果;基于判别结果确定图像对抗损失,并基于训练目标姿态图像和训练目标图像计算得到图像真实性损失,使用图像对抗损失和图像真实性损失更新初始姿态迁移模型,并返回获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。通过在训练时,通过判别结果确定图像对抗损失,并使用训练目标姿态图像和训练目标图像计算得到图像真实性损失,然后使用图像对抗损失和图像真实性损失来进行模型训练,从而提高了第一目标姿态迁移模型在进行姿态迁移的实时性和准确性。
附图说明
图1为一个实施例中姿态迁移方法的应用环境图;
图2a为一个实施例中姿态迁移方法的流程示意图;
图2b为一个具体实施例中生成的目标姿态图像的示意图;
图3为一个实施例中得到目标姿态视频的流程示意图;
图4为一个实施例中得到二维目标姿态信息的流程示意图;
图5为一个实施例中得到目标姿态轮廓信息的流程示意图;
图6为一个实施例中得到目标姿态图像的流程示意图;
图7为一个实施例中确定二维变换关系的流程示意图;
图8a为一个实施例中得到柔软目标姿态图像的流程示意图;
图8b为一个具体实施例中目标姿态图像和柔软目标姿态图像的对比示意图;
图9为另一个实施例中得到目标姿态图像的流程示意图;
图10a为又一个实施例中得到目标姿态图像的流程示意图;
图10b为一个具体实施例中目标视频关键帧姿态迁移的示意图;
图11为一个实施例中得到柔软目标姿态图像的流程示意图;
图12为另一个实施例中得到柔软目标姿态图像的流程示意图;
图13为一个实施例中姿态迁移模型训练方法的流程示意图;
图14a为一个实施例中得到第二目标姿态迁移模型的流程示意图;
图14b为一个具体实施例中姿态迁移结果的对比示意图;
图15为一个实施例中得到判别结果的流程示意图;
图16为一个实施例中得到训练柔软源外观特征的流程示意图;
图17为一个具体实施例中姿态迁移方法的流程示意图;
图18a为一个具体实施例中预处理的流程示意图;
图18b为一个具体实施例中稠密姿态解析图对应的二维示意图;
图19为一个具体实施例中姿态迁移模型的架构示意图;
图20为一个实施例中姿态迁移装置的结构框图;
图21为一个实施例中姿态迁移模型训练装置的结构框图;
图22为一个实施例中计算机设备的内部结构图;
图23为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例提供的方案涉及人工智能的三维物体重建、图像处理等技术,具体通过如下实施例进行说明:
本申请提供的姿态迁移方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104接收到终端102发送的迁移指令,根据该迁移指令服务器104从数据库106中获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息;服务器104基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息;服务器104获取源图像中源对象对应的源姿态轮廓信息,基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息;服务器104基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像,服务器104可以将生成的源图像对应的目标姿态图像发送到终端102进行展示。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2a所示,提供了一种姿态迁移方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用在终端中,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。在本实施例中,包括以下步骤:
步骤202,获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息。
其中,源图像是指原始图像。源对象是指源图像中的对象,该对象是指具有姿态、能够变化姿态的对象,包括但不限于人物、动物、虚拟人物、虚拟动物和虚拟物体等等。三维源姿态信息是指源对象对应的三维的姿态信息,是原始的姿态信息。姿态信息可以是指对象中关键点的位置信息,比如,人体姿态信息可以是指头、左手、右手、左脚和右脚等关键位置的信息。在一个具体的实施例中,人体的姿态信息可以是人体整体运动位姿和关节相对角度的参数。三维源形状信息是指源对象对应的三维的形状信息。形状信息是指刻画对象的形状的信息。在一个具体的实施例中,人体形状信息可以是人体高矮胖瘦、头身比等比例的参数信息。目标图像是指需要将图像中的姿态迁移到源图像中的图像。目标对象是指目标图像中的对象。三维目标姿态信息是指目标对象对应的三维的姿态信息。需要将目标对象对应的姿态信息迁移到源对象中。
具体地,服务器可以从数据库中获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息。即源图像中源对象对应的三维源姿态信息和三维源形状信息以及目标图像中目标对象对应的三维目标姿态信息是预处理好的。服务器也可以从第三方获取到获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息,其中,该第三方可以是提供姿态迁移服务的服务方。
在一个实施例中,服务器可以获取到源图像,然后对源图像三维建模得到源图像中源对象对应的三维源姿态信息和三维源形状信息,同时可以获取到预先设置好的目标图像中目标对象对应的三维目标姿态信息。
步骤204,基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息。
其中,二维源姿态信息是指源对象在三维源姿态信息时对应的二维的姿态信息。二维目标姿态信息是指源对象在三维目标姿态信息时对应的二维的姿态信息。该姿态信息用于表征对象二维的姿态,包括但不限于二维的材质坐标和前景掩码。
具体地,服务器将根据三维源姿态信息和三维源形状信息得到的三维对象模型进行渲染,即将三维投影到二维平面,得到源对象对应的二维源姿态信息。同时,对三维源形状信息和三维目标姿态信息得到三维对象模型进行渲染,即将三维投影到二维平面,得到源对象对应的二维目标姿态信息。
步骤206,获取源图像中源对象对应的源姿态轮廓信息,基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息。
其中,源姿态轮廓信息是指源图像中源对象在原始姿态时的轮廓信息,该轮廓信息可以是图像对应的前景掩码。源对象对应的目标姿态轮廓信息是指源图像中源对象在目标姿态时的轮廓信息。目标姿态是指目标图像中目标对象对应的姿态。
具体地,服务器可以直接从数据库中获取到源图像中源对象对应的源姿态轮廓信息,该源图像中源对象对应的源姿态轮廓信息是预处理好的。在一个实施例中,服务器也可以获取到源图像,然后对源图像进行前景掩膜提取,得到源图像中源对象对应的源姿态轮廓信息。然后使用源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息。
步骤208,基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。
其中,目标姿态图像是指将源图像中的姿态变换为目标姿态后生成的图像,即将目标图像中目标对象的姿态迁移到源图像的源对象中得到的图像。
具体地,服务器使用源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。在一个具体的实施例中,如图2b所示,为生成的目标姿态图像示意图,其中,通过将目标人物玩偶图像的动作迁移到源图像即女性人物图像的身上,得到生成结果。
上述姿态迁移方法中,通过获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息;基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息,然后在获取源图像中源对象对应的源姿态轮廓信息,并使用源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息,最后使用源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像,通过在进行目标姿态迁移时,获取到源图像中源对象对应的源姿态轮廓信息,进而使用源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息,最后使用源图像、目标姿态轮廓信息和二维目标姿态信息进行姿态迁移,从而得到源图像对应的目标姿态图像,从而避免了微调步骤,提高了姿态迁移的实时性,并且,由于使用了目标姿态轮廓信息共同来进行目标姿态图像的生成,从而使生成的目标姿态图像提高了准确性
在一个实施例中,如图3所示,步骤202,即获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息,包括:
步骤302,获取源图像和目标视频,从目标视频中确定目标图像。
其中,目标视频是指需要进行动作迁移的视频,即将目标视频中对象的动作迁移到源图像的对象中。
具体地,服务器获取到源图像和目标视频,其中,目标视频可以是预先设置好的,源图像可以是通过用户终端获取到的。然后服务器从目标视频中抽取视频帧,将抽取的视频帧作为目标图像。
步骤304,基于源图像中源对象进行三维对象姿态和形状估计,得到源图像中源对象对应的三维源姿态信息和三维源形状信息。
步骤306,基于目标图像中目标对象进行三维对象姿态和形状估计,得到目标图像中目标对象对应的三维目标姿态信息。
具体地,服务器使用源图像进行三维对象姿态和形状估计,进行三维对象姿态和形状估计,同时使用目标图像进行三维对象姿态和形状估计,得到目标图像中目标对象对应的三维目标姿态信息。
在一个具体的实施例中,在进行人体姿态迁移时,可以使用SPIN(Learning toReconstruct 3D Human Pose and Shape via Model-fitting in the Loop,通过基于回归和基于迭代的优化方法之间的紧密协作,为三维人体姿态和形状估计训练了一个深度网络)算法来进行三维对象姿态和形状估计,得到SMPL(a skinned multi-person linearmode,人体参数化三维模型)参数。
在步骤208之后,即在基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像之后,还包括:
步骤308,依次遍历目标视频中的视频帧,得到各个视频帧对应的目标姿态图像。
步骤310,基于各个视频帧对应的目标姿态图像,得到源图像中源对象对应的目标姿态视频。
其中,目标姿态视频是指源图像在姿态迁移后得到的源对象在目标姿态时的视频。
具体地,服务器依次将目标视频中的每个视频帧都作为目标图像进行姿态迁移,得到每个视频帧作为目标图像时对应的目标姿态图像,然后根据各个目标姿态图像就得到了源图像中源对象对应的目标姿态视频。
在上述实施例中,通过获取源图像和目标视频,然后通过依次遍历目标视频中每个视频帧进行姿态迁移,得到源图像中源对象对应的目标姿态视频,从而提高了得到的目标姿态视频的准确性。
在一个实施例中,如图4所示,步骤204,即基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息,包括:
步骤402,获取源图像中源对象对应的源相机参数,基于三维源姿态信息和三维源形状信息进行三维源对象建立,得到三维源对象,并基于源相机参数将三维源对象进行投影变换,得到源对象对应的二维源姿态信息。
其中,源相机参数是指源图像对应的在三维世界中拍摄装置的位置参数。三维源对象是指对源图像中源对象进行三维建模得到的三维的源对象。
具体地,服务器可以直接从数据库中获取到源图像中源对象对应的源相机参数,该源图像中源对象对应的源相机参数也可以是预处理得到的。然后使用三维源姿态信息和三维源形状信息进行三维源对象建立,得到三维源对象。然后基于源相机参数将三维源对象进行投影变换,得到源对象对应的二维源姿态信息。
步骤404,获取目标图像中目标对象对应的目标相机参数,基于三维源形状信息和三维目标姿态信息进行三维目标对象建立,得到三维目标对象,并基于目标相机参数将三维目标对象进行投影变换,得到源对象对应的二维目标姿态信息。
其中,目标相机参数是指目标图像对应的在三维世界中拍摄装置的位置参数。三维目标对象是指对目标图像中目标对象进行三维建模得到的三维的目标对象。
具体地,服务器可以直接从数据库中获取到目标图像中目标对象对应的目标相机参数,该目标图像中目标对象对应的目标相机参数也可以是预处理得到的。然后使用三维目标姿态信息和三维目标形状信息进行三维目标对象建立,得到三维目标对象。然后基于目标相机参数将三维目标对象进行投影变换,得到目标对象对应的二维目标姿态信息。
在一个具体的实施例中,在进行人体姿态迁移时,可以使用SMPL算法进行三维人体建模,即将三维源姿态信息和三维源形状信息通过SMPL模型进行三维人体建模,得到三维源对象。然后将3D空间的SMPL模型进行渲染,得到2D上的材质坐标图以及前景掩码。
在上述实施例中,通过使用三维姿态信息和三维形状信息进行三维建模,得到三维对象,然后对三维对象进行投影变换,得到二维姿态信息,提高了得到的二维姿态信息的准确性。
在一个实施例中,如图5所示,步骤206,即获取源图像中源对象对应的源姿态轮廓信息,基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息,包括:
步骤502,将源图像进行前景掩码提取,得到源对象对应的源姿态轮廓信息。
具体地,服务器可以使用前景提取算法进行前景掩码(mask)提取,得到源对象对应的源姿态轮廓信息,该前景提取算法可以是使用MODNet(一个简单、快速稳定的实时人像抠图处理算法)算法。该源姿态轮廓信息是指源对象对应的真实的轮廓信息。
步骤504,将源姿态轮廓信息和二维源姿态信息进行轮廓预测编码,得到源编码特征。
步骤506,将二维目标姿态信息进行轮廓预测编码,得到目标编码特征。
其中,源编码特征是指将源姿态轮廓信息和二维源姿态信息进行编码后得到的特征。目标编码特征是指对二维目标姿态信息进行编码后得到的特征。
具体地,服务器进行编码处理,将分别将源姿态轮廓信息和二维源姿态信息以及二维目标姿态信息进行轮廓预测编码,得到源编码特征和目标编码特征,该源编码特征用于表征源对象,目标编码特征用于表征目标对象。
步骤508,基于源编码特征和目标编码特征进行轮廓预测解码,得到源对象对应的目标姿态轮廓信息。
具体地,服务器将源编码特征和目标编码特征进行合并,得到合并后的特征,然后将合并后的特征进行解码处理,就得到源对象对应的目标姿态轮廓信息,该目标姿态轮廓信息是预测得到的源对象在目标姿态时的轮廓信息。即通过编解码来建立对象姿态信息与真实对象轮廓的对应关系,然后在得到二维源姿态信息和源姿态轮廓信息的基础上,根据编解码建立的对应关系在得到二维目标姿态信息的情况下就可以输出源对象对应的目标姿态轮廓信息。
在上述实施例中,通过将源图像进行前景掩码提取,得到源对象对应的源姿态轮廓信息,然后再通过编解码来得到源对象对应的目标姿态轮廓信息,提高了得到的目标姿态轮廓信息的准确性。
在一个实施例汇总,步骤208,基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像,包括步骤:
基于源图像、源姿态轮廓信息、二维源姿态信息对源图像中源对象的外观特征进行提取,得到源对象对应的源外观特征;在源外观特征的条件下使用源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。
其中,源外观特征用于表征源图像中源对象的外观。
具体地,服务器使用源图像、源姿态轮廓信息、二维源姿态信息对源图像中源对象的外观特征进行提取,得到源对象对应的源外观特征,其中,可以通过神经网络算法来对源对象的外观特征进行提取,比如,可以使用卷积神经网络来对源对象的源外观特征进行提取。然后服务器进行有条件的图像生成,即生成的目标姿态图像中的源对象是具有该外观特征的。即通过源外观特征作为额外信息来指导图像的生成,从而提高了生成的目标姿态图像的准确性。
在一个实施例中,如图6所示,在源外观特征的条件下使用源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像,包括:
步骤602,获取源对象与目标对象之间的二维变换关系,基于二维变换关系将源图像进行变换,得到变换图像,并基于二维变换关系将源对象外观特征进行变换,得到外观变换特征。
其中,二维变换关系是指源对象和目标对象在二维时的位置变换关系。变换图像是指通过二维变换关系进行变换后得到的图像,外观变换特征是指通过二维变换关系进行变换后得到的外观特征。
具体地,服务器可以直接从数据库中获取到源对象与目标对象之间的二维变换关系,该二维变换关系可以是预处理得到的。即服务器获取到源图像和目标图像时,获取到源对象和目标对象在三维网格上的对应关系,然后根据三维网格上的对应关系来得到二维变换关系。其中,源对象和目标对象在三维网格上的对应关系可以是根据源对象对应的三维对象模型和目标对象对应的三维对象模型确定的。然后服务器使用二维变换关系将源图像进行变换,得到变换图像,通过使用二维变换关系将源对象外观特征进行变换,得到外观变换特征
步骤604,将变换图像、目标姿态轮廓信息和二维目标姿态信息进行合并,得到合并信息,基于合并信息进行姿态迁移编码,得到合并编码特征。
其中,合并信息用于表征合并后的特征。合并编码特征是指将合并信息进行编码得到的特征。
具体地,服务器将变换图像、目标姿态轮廓信息和二维目标姿态信息进行合并,该合并包括但不限于直接拼接,进行运算合并等等,其中,进行运算合并可以计算特征向量和、特征向量积等等。然后通过姿态迁移编码参数对合并信息进行姿态迁移编码,得到合并编码特征,该姿态迁移编码参数可以是预先训练好的。
步骤606,将合并编码特征与外观变换特征相加,得到条件控制特征,基于条件控制特征进行空间调制参数生成,得到空间调制参数。
其中,条件控制特征用于对合并解码特征进行调整。空间调制参数是指进行调整的具体参数。
具体地,服务器将合并编码特征与外观变换特征的特征进行相加,得到条件控制特征,然后使用条件控制特征进行空间调制参数生成,得到空间调制参数。
步骤608,使用空间调制参数对合并解码特征进行调制,得到源图像对应的目标姿态图像。
具体地,服务器使用空间调制参数对合并解码特征进行调制,得到源图像对应的目标姿态图像。其中,通过利用条件信息来进行归一化的方法对合并解码特征进行调制,可以有效的传播语义信息。比如,可以通过SPADE(Semantic Image Synthesis withSpatially-Adaptive Normalization,一种利用条件信息来进行归一化的方法)来进行调制。
在一个实施例中,如图7所示,步骤602,即获取源对象与目标对象之间的二维变换关系,包括:
步骤702,基于源图像中源对象对应的三维源姿态信息和三维源形状信息,以及目标图像中目标对象对应的三维目标姿态信息确定源对象与目标对象的三维变换关系。
具体地,服务器根据源图像中源对象对应的三维源姿态信息和三维源形状信息建立三维源对象,并根据目标图像中目标对象对应的三维目标姿态信息建立三维目标对象,然后根据三维网格的对应关系来确定源对象与目标对象的三维变换关系。
步骤704,获取源对象对应的二维源姿态信息,并获取源对象对应的二维目标姿态信息。
具体地,服务器可以从数据库中获取到源对象对应的二维源姿态信息,并获取到源对象对应的二维目标姿态信息。
步骤706,基于三维变换关系、源对象对应的二维源姿态信息和源对象对应的二维目标姿态信息确定源对象与目标对象之间的二维变换关系。
具体地,服务器根据三维变换关系,源对象对应的二维源姿态信息和源对象对应的二维目标姿态信息来确定源对象与目标对象之间的二维变换关系。在一个实施例中,可以直接根据三维变换关系通过渲染得到源对象与目标对象之间的二维对应关系,即得到二维变换关系,提高了得到的二维变换关系的准确性。
在一个实施例中,如图8a所示,姿态迁移方法还包括:
步骤802,获取源图像中源对象对应的源稠密姿态解析图和目标图像中目标对象对应的目标稠密姿态解析图。
其中,源稠密姿态解析图是指通过人体姿势实时识别系统进行源对象的稠密姿态解析得到的图像,即是源对象对应的稠密姿态解析图。目标稠密姿态解析图是指通过人体姿势实时识别系统进行目标对象的稠密姿态解析得到的图像,即是目标对象对应的稠密姿态解析图。前文中提到的二维姿态信息由于有三维人体信息做先验,其鲁棒性较好,但是对姿态的表达却不是很准确,比如不能很好的捕捉腰肢的扭动、手臂关节的弯曲程度,所以该二维姿态信息整体看上去比较僵硬。而稠密姿态是指一种对姿态表达能力强于二维姿态的一种姿态表示方式,用于捕捉的人体衣装下躯体的姿态,不会带有头发、衣装等信息,并且对腰肢的扭动、手臂关节扭曲等细粒度姿态捕捉能力较强。解析图是指根据躯体每个点所对应的类别信息(如头、背、屁股、胳膊、腿等等)来渲染出图像,其中图像中相同颜色的区域表示同一个类别,有多少颜色就表示被划分出了多少类。具体地,服务器可以直接从数据库中获取到源图像中源对象对应的源稠密姿态解析图和目标图像中目标对象对应的目标稠密姿态解析图,也可以通过对源图像进行人体姿势实时识别系统进行识别得到的。
步骤804,基于源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的柔软目标姿态轮廓信息。
其中,柔软目标姿态轮廓信息是指使用了源稠密姿态解析图和目标稠密姿态解析图进行轮廓预测得到的源对象在目标姿态时对应的轮廓信息。
具体地,服务器使用源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息共同来进行轮廓预测,得到源对象对应的柔软目标姿态轮廓信息,即通过增加源稠密姿态解析图、目标稠密姿态解析图来进行轮廓预测,使得到的姿态轮廓信息能够更加真实,更加柔软,保证了得到的柔软目标姿态轮廓信息的准确性。
步骤806,基于源稠密姿态解析图、源图像、源姿态轮廓信息、二维源姿态信息对源图像中源对象的外观特征进行提取,得到源对象对应的柔软源外观特征。
其中,柔软源外观特征是指使用了源稠密姿态解析图进行源对象的外观特征提取得到的外观特征。
具体地,服务器可以使用源稠密姿态解析图、源图像、源姿态轮廓信息、二维源姿态信息共同来对源对象的外观特征进行提取,得到源对象对应的柔软源外观特征。比如,将源稠密姿态解析图、源图像、源姿态轮廓信息、二维源姿态信息作为通过神经网络建立的网络模型的输入来进行外观特征提取,得到输出的源对象对应的柔软源外观特征。即通过增加源稠密姿态解析图来进行外观特征进行提取,使得到的源对象的外观特征能够更加真实,保证了得到的柔软源外观特征的准确性。
步骤808,在柔软源外观特征的条件下使用源图像、柔软目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的柔软目标姿态图像。
具体地,柔软目标姿态图像是指在新增源稠密姿态解析图和目标稠密姿态解析图来进行姿态迁移时生成的源图像对应的目标姿态图像。即通过使用柔软源外观特征和柔软目标姿态轮廓信息来进行目标姿态图像生成,从而使得到的源图像对应的柔软目标姿态图像更加真实,更加柔软,更加的准确,使得姿态迁移后的姿态保真度更好,减少了迁移后对象姿态的僵硬。在一个具体的实施例中,如图8b所示,目标姿态图像和柔软目标姿态图像的对比示意图,其中,左侧目标姿态图像中扭胯的动作就比较僵硬。而右侧柔软目标姿态图像中扭胯的动作明显就比左侧目标姿态图像中扭胯的动作柔软,即该柔软目标姿态图像相对于未增加稠密姿态解析图得到的目标姿态图像减少了迁移后对象姿态的僵硬,更加真实,更加柔软,动作细节保真度更好。
在一个实施例中,步骤802,即获取源图像中源对象对应的源稠密姿态解析图和目标图像中目标对象对应的目标稠密姿态解析图,包括步骤:
将源图像进行稠密姿态估计,得到图像中源对象对应的源稠密姿态解析图;将目标图像进行稠密姿态估计,得到目标图像中目标对象对应的目标稠密姿态解析图。
具体地,服务器将源图像通过使用人体姿态估计算法来进行稠密姿态估计,得到图像中源对象对应的源稠密姿态解析图。同时将目标图像使用人体姿态估计算法来进行稠密姿态估计,得到图像中源对象对应的源稠密姿态解析图。比如,在人体姿态迁移时,可以使用DensePose(用深度学习把2D图像坐标映射到3D人体表面上,再加上以每秒多帧的速度处理密集坐标,最后实现动态人物的精确定位和姿态估计)来获取源图像中源对象对应的源稠密姿态解析图和目标图像中目标对象对应的目标稠密姿态解析图,其中,可以得到DensePose的parsing map(人体解析图)作为稠密姿态解析图。
在一个实施例中,姿态迁移方法还包括:
将源图像、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到姿态迁移模型中,姿态迁移模型是基于训练样本使用神经网络算法进行训练得到的;姿态迁移模型基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息,并基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。
其中,姿态迁移模型是预先训练好的用于进行姿态迁移的人工智能模型,该人工智能模型可以是使用神经网络算法建立的,比如,该神经网络算法可以是卷积神经网络。训练样本是指训练时使用的图像,也可以是视频。该训练样本包括但不限于真实图像和合成图像,真实图像是指通过摄像装置进行拍摄得到的图像,合成图像是指通过机器进行合成得到的图像。
具体地,服务器预先训练好的姿态迁移模型并进行部署。然后在需要进行姿态迁移时,服务器获取到源图像、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息,将源图像、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到姿态迁移模型中进行姿态迁移,得到姿态迁移模型的输出,即源图像对应的目标姿态图像。通过使用姿态迁移模型来进行姿态迁移,提高了效率。
在一个实施例,姿态迁移模型包括轮廓预测网络、外观特征提取网络和姿态迁移网络:
如图9所示,将源图像、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到姿态迁移模型中,包括:
步骤902,将源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到轮廓预测网络进行轮廓预测,得到源对象对应的目标姿态轮廓信息。
其中,轮廓预测网络是使用卷积神经网络建立的,用于进行轮廓预测,该轮廓预测网络是类U-net(使用全卷积网络进行语义分割的算法,一种编码器-解码器结构)的网络结构。
具体地,轮廓预测网络的输入是源姿态轮廓信息、二维源姿态信息和二维目标姿态信息,使用轮廓预测网络进行轮廓预测,输出的是源对象对应的目标姿态轮廓信息。
步骤904,将源图像、源姿态轮廓信息、二维源姿态信息输入到外观特征提取网络中对源图像中源对象的外观特征进行提取,得到源对象对应的源外观特征。
其中,外观特征提取网络是使用卷积神经网络建立的,用于对外观特征进行提取。该轮廓预测网络也是类U-net的网络结构。
具体地,外观特征提取网络的输入是源图像、源姿态轮廓信息、二维源姿态信息,然后通过外观特征提取网络中对源图像中源对象的外观特征进行提取,输出的是源对象对应的源外观特征。
步骤906,将源图像、目标姿态轮廓信息和二维目标姿态信息输入姿态迁移网络中在源外观特征条件下进行目标姿态图像生成,得到源图像对应的目标姿态图像。
其中,姿态迁移网络也是使用卷积神经网络建立的,用于生成姿态迁移后的图像。该姿态迁移网络也是类U-net的网络结构,其中编码器输出的特征通过和外观变换特征进行相加后通过SPADE来调制解码器的特征。
具体地,姿态迁移网络是输入是源图像、目标姿态轮廓信息和二维目标姿态信息,通过姿态迁移网络中在源外观特征条件下进行目标姿态图像生成,输出的是源图像对应的目标姿态图像。
在上述实施例中,通过使用轮廓预测网络、外观特征提取网络和姿态迁移网络来进行姿态迁移,从而提高了得到的目标姿态图像的准确性。
在一个实施例中,姿态迁移网络包括编码子网络和解码子网络;
如图10a所示,步骤908,即将源图像、目标姿态轮廓信息和二维目标姿态信息输入姿态迁移网络中在源外观特征条件下进行目标姿态图像生成,得到源图像对应的目标姿态图像,包括:
步骤1002,获取源对象与目标对象之间的二维变换关系,基于二维变换关系将源图像进行变换,得到变换图像,并基于二维变换关系将源对象外观特征进行变换,得到外观变换特征。
其中,变换图像是将通过二维变换关系将源图像变换后得到的图像。外观变换特征是指源对象外观特征进行变换得到的特征。
具体地,服务器可以直接从数据库获取到源对象与目标对象之间的二维变换关系,该二维变换关系是预处理时得到的,然后使用二维变换关系对源图像以及源对象外观特征进行变换,得到变换图像和外观变换特征。在一个实施例中,外观特征提取网络中不同解码层输出不同大小的源对象外观特征,使用二维变换关系依次变换每个不同大小的源对象外观特征,得到不同大小的外观变换特征。
步骤1004,将变换图像、目标姿态轮廓信息和二维目标姿态信息进行合并,得到合并信息,将合并信息输入到姿态迁移网络中。
具体地,姿态迁移网络的输入是变换图像、目标姿态轮廓信息和二维目标姿态信息,并且在外观变换特征的条件下进行姿态迁移,其中,也可以先将变换图像、目标姿态轮廓信息和二维目标姿态信息进行合并,得到合并后的信息,然后将合并后的信息作为姿态迁移网络的输入。
步骤1006,姿态迁移网络通过编码子网络将合并信息进行编码,得到合并编码特征,将合并编码特征与外观变换特征相加,得到条件控制特征,基于条件控制特征进行空间调制参数生成,得到空间调制参数,通过解码子网络使用空间调制参数对合并解码特征进行调制,得到源图像对应的目标姿态图像。
其中,编码子网络用于进行姿态迁移编码。解码子网络用于进行有条件时的解码生成目标姿态图像。
具体地,服务器中姿态迁移网络在接收到输入时,先通过编码子网络对输入即合并后的信息进行编码,得到合并编码特征,然后将合并编码特征与外观变换特征进行和计算,得到条件控制特征,使用条件控制特征生成空间调制参数,然后解码子网络通过空间调制参数对合并解码特征进行调制,从而得到输出即源图像对应的目标姿态图像。在一个实施例中,编码子网络每一层输出对应的编码特征,使用最后一层输出的编码特征对解码子网络中第一层的解码特征进行调制,依次进行调制,最后使用编码子网络第一层的输出的编码特征对解码子网络中最后一层的界面特征进行调制,调制完成后得到源图像对应的目标姿态图像。
在一个具体的实施例中,获取到女性人物图像和虚拟形象动作视频,使用姿态迁移模型进行姿态迁移得到姿态迁移后的视频。如图10b所示,为目标视频中关键帧的姿态迁移示意图,其中,需要将虚拟形象动作迁移到女性人物身上,通过姿态迁移模型得到迁移后的视频关键帧。
在上述实施例中,姿态迁移网络通过编码子网络进行编码处理,然后再通过解码子网络进行调制,最后生成源图像对应的目标姿态图像,提高了目标姿态图像的准确性。
在一个实施例中,如图11所示,姿态迁移方法还包括:
步骤1102,获取源图像中源对象对应的源稠密姿态解析图和目标图像中目标对象对应的目标稠密姿态解析图。
具体地,服务器可以直接从数据库中获取源图像中源对象对应的源稠密姿态解析图和目标图像中目标对象对应的目标稠密姿态解析图。也可以在获取到源图像和目标图像后进行预处理,即通过对象姿态估计算法来预处理得到源稠密姿态解析图和目标稠密姿态解析图。
步骤1104,将源图像、源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到柔软姿态迁移模型中,柔软姿态迁移模型是基于合成训练样本使用神经网络算法进行训练得到的。
其中,合成训练样本是指训练柔软姿态迁移模型时使用的图像,该图像只包括合成图像,是纯净的图像数据。柔软姿态迁移模型是指使用了稠密姿态解析图作为输入时训练得到的姿态迁移模型,该柔软姿态迁移模型进行姿态迁移生成的图像更加的真实和准确。
具体地,服务器预先使用合成训练样本训练好柔软姿态迁移模型并进行部署。当需要使用时,服务器直接调用该柔软姿态迁移模型。即将源图像、源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息作为柔软姿态迁移模型的输入。
步骤1106,柔软姿态迁移模型基于源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的柔软目标姿态轮廓信息,基于源稠密姿态解析图、源图像、源姿态轮廓信息、二维源姿态信息对源图像中源对象的外观特征进行提取,得到源对象对应的柔软源外观特征,在柔软源外观特征的条件下使用源图像、柔软目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的柔软目标姿态图像。
具体地,服务器也可以使用柔软姿态迁移模型进行柔软目标姿态图像的生成,即柔软姿态迁移模型使用源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的柔软目标姿态轮廓信息,并使用源稠密姿态解析图、源图像、源姿态轮廓信息、二维源姿态信息对源图像中源对象的外观特征进行提取,得到源对象对应的柔软源外观特征,最后在柔软源外观特征的条件下使用源图像、柔软目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的柔软目标姿态图像。
在一个实施例中,柔软姿态迁移模型包括柔软轮廓预测网络、柔软外观特征提取网络和柔软姿态迁移网络;
如图12所示,步骤1104,即将源图像、源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到柔软姿态迁移模型中,包括:
步骤1202,将源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到柔软轮廓预测网络中进行轮廓预测,得到源对象对应的柔软目标姿态轮廓信息。
其中,柔软轮廓预测网络是指使用源稠密姿态解析图和目标稠密姿态解析图来进行轮廓预测的网络。柔软外观特征提取网络是指使用源稠密姿态解析图来进行外观特征提取的网络。柔软姿态迁移网络是指使用柔软目标姿态轮廓信息和柔软源外观特征进行姿态迁移图像生成的网络。
具体地,服务器中的柔软姿态迁移模型接收到输入时,先使用柔软轮廓预测网络进行轮廓预测,得到源对象对应的柔软目标姿态轮廓信息。
步骤1204,将源稠密姿态解析图、源图像、源姿态轮廓信息、二维源姿态信息输入到柔软外观特征提取网络对源图像中源对象的外观特征进行提取,得到源对象对应的柔软源外观特征。
具体地,同时服务器使用柔软姿态迁移模型中的柔软外观特征提取网络进行外观特征提取,得到输出的源对象对应的柔软源外观特征。
步骤1206,将源图像、柔软目标姿态轮廓信息和二维目标姿态信息输入到柔软姿态迁移网络中,柔软姿态迁移网络在柔软源外观特征的条件下进行目标姿态图像生成,得到源图像对应的柔软目标姿态图像。
具体地,最后服务器使用柔软姿态迁移模型中的柔软姿态迁移网络来进行柔软目标姿态图像的生成。
在上述实施例中,通过不同的网络来进行不同的处理,即使用柔软轮廓网络来进行柔软轮廓预测,使用柔软外观特征提取网络来进行柔软外观特征提取,并使用柔软姿态迁移网络来进行柔软目标姿态图像的生成,从而提高了生成的柔软目标姿态图像的准确性。
在一个实施例中,如图13所示,提供了一种姿态迁移模型训练方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用在终端中,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。在本实施例中,包括以下步骤:
步骤1302,获取训练视频,从训练视频中确定训练源图像和训练目标图像;训练源图像中的训练源对象和训练目标图像中的训练目标对象为同一对象。
其中,训练视频是指训练时使用的训练样本,该训练视频可以是真实视频或者合成视频,真实视频是指使用摄像装置进行拍摄得到的视频,合成视频是指通过技术手段合成的视频。训练源图像是指训练时使用的源图像,训练目标图像是指训练时使用的目标图像。
具体地,服务器可以从数据库中获取到训练视频,服务器也可以从提供数据服务的服务方中获取大量训练视频,服务器也可以从互联网采集得到训练视频。然后服务器从训练视频中抽取任意的两帧图像,得到训练源图像和训练目标图像,即该训练源图像中的训练源对象和训练目标图像中的训练目标对象为同一对象。该训练源对象和训练目标对象的姿态不同。
步骤1304,基于训练源图像和训练目标图像获取到训练源对象对应的训练二维源姿态信息和训练源对象对应的训练二维目标姿态信息,并获取到训练源图像对应的训练源对象对应的训练源姿态轮廓信息。
具体地,服务器对训练源图像进行预处理获取到训练源对象对应的训练二维源姿态信息和的训练源姿态轮廓信息。并对训练目标图像进行预处理,得到对应的训练二维目标姿态信息。即服务器对训练源图像和训练目标图像分别进行三维对象估计,然后将三维对象投影得到对应的二维信息。
步骤1306,将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始姿态迁移模型中。
其中,初始姿态迁移模型是指模型参数初始化的姿态迁移模型,是需要进行训练的模型,是使用卷积神经网络算法建立的模型。
具体地,服务器将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始姿态迁移模型中进行姿态迁移。
步骤1308,初始姿态迁移模型基于训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息,并基于训练源图像、训练目标姿态轮廓信息和训练二维目标姿态信息进行目标姿态图像生成,得到训练源图像对应的训练目标姿态图像,对训练目标姿态图像进行图像判别,得到判别结果。
其中,训练目标姿态轮廓信息是指训练时预测得到的训练源对象对应的目标姿态轮廓信息。训练目标姿态图像是指使用初始姿态迁移模型进行姿态迁移生成的目标姿态图像。判别结果用于表征训练目标姿态图像的真实性,当判别结果无法判别训练目标性姿态图像的真实性时,说明生成的训练目标性姿态图像准确性较高。
具体地,服务器的初始姿态迁移模型先进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息,然后进行对抗学习,即通过生成训练目标姿态图像,并对训练目标姿态图像进行图像判别,得到判别结果。
步骤1310,基于判别结果确定图像对抗损失,并基于训练目标姿态图像和训练目标图像计算得到图像真实性损失,使用图像对抗损失和图像真实性损失更新初始姿态迁移模型,并返回获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。
其中,图像对抗损失是指使用对抗损失函数计算得到的损失信息。图像真实性损失用于表征生成的训练目标姿态图像与训练目标图像之间的误差。第一目标姿态迁移模型用于将目标图像中对象的姿态迁移到源图像中的对象中。
具体地,服务器进行损失计算,基于判别结果使用对抗损失函数来计算图像对抗损失。然后基于训练目标姿态图像和训练目标图像使用回归损失函数计算得到图像真实性损失。其中,对抗损失函数可以是GAN(Generative Adversarial Networks,生成对抗网络)损失,回归损失函数可以是L1(平均绝对误差)损失。在一个具体的实施例中,最终的目标姿态图像是由前景和背景组成,则服务器还可以计算掩码的L1损失、背景的L1损失和掩码的平滑损失等等。然后服务器使用计算得到的损失来更新初始姿态迁移模型中的参数,得到更新后的姿态迁移模型,然后将更新后的姿态迁移模型作为初始姿态迁移模型,并返回获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。其中,该训练完成条件可以是训练达到第一阶段迭代次数上限、模型的损失达到预设损失阈值、模型的参数不再发生变化等等。
上述姿态迁移模型训练方法,通过获取训练视频,从训练视频中确定训练源图像和训练目标图像,然后使用训练源图像和训练目标图像对初始姿态迁移模型进行训练,该初始姿态迁移模型使用训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息,并基于训练源图像、训练目标姿态轮廓信息和训练二维目标姿态信息进行目标姿态图像生成,得到训练源图像对应的训练目标姿态图像,对训练目标姿态图像进行图像判别,得到判别结果;基于判别结果确定图像对抗损失,并基于训练目标姿态图像和训练目标图像计算得到图像真实性损失,使用图像对抗损失和图像真实性损失更新初始姿态迁移模型,并返回获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。通过在训练时,通过判别结果确定图像对抗损失,并使用训练目标姿态图像和训练目标图像计算得到图像真实性损失,然后使用图像对抗损失和图像真实性损失来进行模型训练,从而提高了第一目标姿态迁移模型在进行姿态迁移的实时性和准确性。
在一个实施例中,如图14a所示,在步骤1310之后,在得到第一目标姿态迁移模型之后,还包括:
步骤1402,获取微调视频,从微调视频中确定微调源图像和微调目标图像;微调源图像中的微调源对象和微调目标图像中的微调目标对象为同一对象。
其中,微调视频是指在微调训练时使用的视频,该视频是合成的视频,是纯净的视频数据。微调源图像是指微调训练时使用的源图像,微调目标图像是指微调训练时使用的目标图像。微调源对象是指微调源图像中的对象。微调目标对象是指微调目标图像中的对象。
具体地,服务器可以从数据库中获取到微调视频,也可以从提供数据服务的服务方获取到微调视频,也可以从互联网中采集到微调视频,还可以从业务方获取到微调视频等等。然后服务器从微调视频中随机选取两帧图像来确定微调源图像和微调目标图像。比如,将微调视频的第一帧作为微调源图像,将微调视频的最后一帧作为微调目标图像。
步骤1404,基于微调源图像和微调目标图像获取到微调源对象对应的微调二维源姿态信息和微调源对象对应的微调二维目标姿态信息,并获取到微调源图像对应的微调源对象对应的微调源姿态轮廓信息。
其中,微调二维源姿态信息用于表征微调源对象对应的二维源姿态信息,微调二维目标姿态信息用于表征微调源对象对应的二维目标姿态信息。微调源姿态轮廓信息用于表征微调源对象对应的源姿态轮廓信息。
具体地,服务器对微调源图像和微调目标图像进行预处理,即通过对微调源图像和微调目标图像进行三维对象形态估计,得到微调源对象对应的在原始姿态时的三维对象和再目标姿态时的三维对象,然后分别将三维对象进行渲染即进行投影,得到微调二维源姿态信息和微调二维目标姿态信息。
步骤1406,将微调源图像、微调源姿态轮廓信息、微调二维源姿态信息和微调二维目标姿态信息输入到第一目标姿态迁移模型中。
具体地,服务器使用微调源图像、微调源姿态轮廓信息、微调二维源姿态信息和微调二维目标姿态信息对第一目标姿态迁移模型进行微调训练。
步骤1408,第一目标姿态迁移模型基于微调源姿态轮廓信息、微调二维源姿态信息和微调二维目标姿态信息使用第一轮廓参数进行轮廓预测,得到微调源对象对应的微调目标姿态轮廓信息,并基于微调源图像、微调目标姿态轮廓信息和微调二维目标姿态信息使用第一图像生成参数进行目标姿态图像生成,得到微调源图像对应的微调目标姿态图像,对微调目标姿态图像使用第一判别参数进行图像判别,得到微调判别结果。
其中,微调目标姿态轮廓信息是指微调源对象在目标姿态时的轮廓信息。第一轮廓参数是指第一目标姿态迁移模型中进行轮廓预测时使用的参数。第一图像生成参数是指第一目标姿态迁移模型中进行目标姿态图像生成时使用的参数。微调目标姿态图像是指进行微调训练时生成的目标姿态图像。第一判别参数是指第一目标姿态迁移模型中进行图像生成结果判别时使用的参数。微调判别结果是指对微调目标姿态图像进行真实性判断的结果。
具体地,服务器对第一目标姿态迁移模型再次进行微调训练,即通过对抗学习的方式进行训练,得到微调训练时生成的微调目标姿态图像和微调判别结果。
步骤1410,基于微调判别结果确定微调图像对抗损失,并基于微调目标姿态图像和微调目标图像计算得到微调图像真实性损失,基于微调图像对抗损失和微调图像真实性损失更新第一判别参数和第一图像生成参数,得到更新判别参数和更新图像生成参数,基于更新判别参数、更新图像生成参数和第一轮廓参数得到更新后的第一目标姿态迁移模型。
其中,微调图像对抗损失是指微调训练时得到的对抗损失。微调图像真实性损失是指微调训练时微调目标姿态图像和微调目标图像之间的误差。
具体地,服务器根据第一目标姿态迁移模型在微调训练时的输出结果进行损失计算,得到微调图像对抗损失和微调图像真实性损失,此时,服务器使用微调图像对抗损失和微调图像真实性损失更新第一判别参数和第一图像生成参数,并保持第一轮廓参数不变,得到更新后的第一目标姿态迁移模型。
步骤1412,将更新后的第一目标姿态迁移模型作为第一目标姿态迁移模型,并返回获取微调视频,从微调视频中确定微调源图像和微调目标图像的步骤迭代执行,直到达到微调训练完成条件时,得到第二目标姿态迁移模型。
具体地,服务器将更新后的第一目标姿态迁移模型作为第一目标姿态迁移模型,并返回获取微调视频,从微调视频中确定微调源图像和微调目标图像的步骤迭代执行,直到达到微调训练完成条件时,得到第二目标姿态迁移模型。其中,微调训练完成条件可以是微调训练迭代次数达到最大迭代次数、模型参数不再发生变化、模型损失达到预设微调损失阈值。
在一个具体的实施例中,如图14b所示,为第一目标姿态迁移模型进行姿态迁移结果和第二目标姿态迁移模型行姿态迁移结果的对比示意图,其中,由于第一目标姿态迁移模型使用了真实数据集,比如图像光照有变化,都会导致训练有误差,会存在准确性不够高的问题,比如身体会出现断裂以及在时域上稳定性较弱。此时,通过微调训练得到第二目标姿态迁移模型,进一步减少训练误差,进一步提高了姿态迁移的准确性。如图14b中第一迁移结果中的1402a中手臂就出现断裂的情况,而第二迁移结果中相同位置1402b就是正常的。
在上述实施例中,在训练得到第一目标姿态迁移模型时,通过微调视频对第一目标姿态迁移模型中的第一判别参数和第一图像生成参数进一步进行调整,从而得到第二目标姿态迁移模型,使训练得到的第二目标姿态迁移模型进一步提高了姿态迁移的准确性。
在一个实施例中,初始姿态迁移模型包括初始轮廓预测网络、初始外观特征提取网络、初始姿态迁移网络和初始图像判别网络;
如图15所示,步骤1306,即将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始姿态迁移模型中,包括:
步骤1502,将训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始轮廓预测网络进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息。
其中,初始轮廓预测网络是指网络参数初始化的轮廓预测网络,初始外观特征提取网络是指网络参数初始化的外观特征提取网络,初始姿态迁移网络是指网络参数初始化的姿态迁移网络,初始图像判别网络是指网络参数初始化的图像判别网络。
具体地,服务器使用初始轮廓预测网络中的初始网络参数进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息。
步骤1504,将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息输入到初始外观特征提取网络中对训练源图像中训练源对象的外观特征进行提取,得到训练源对象对应的训练源外观特征。
具体地,服务器使用初始外观特征提取网络中的初始网络参数对训练源对象的外观特征进行提取,得到训练源对象对应的训练源外观特征。
步骤1506,将训练源图像、训练目标姿态轮廓信息和训练二维目标姿态信息输入初始姿态迁移网络中在训练源外观特征条件下进行目标姿态图像生成,得到训练源图像对应的训练目标姿态图像,将训练目标姿态图像输入到初始图像判别网络中进行图像判别,得到判别结果。
具体地,服务器使用初始姿态迁移网络和初始图像判别网络作为条件生成式对抗网络来进行有条件下的对抗学习,即使用初始姿态迁移网络中的初始网络参数在训练源外观特征条件下进行目标姿态图像生成。并使用初始图像判别网络中的初始网络参数进行图像判别。训练得到的第一目标姿态迁移模型和第二目标姿态迁移模型在使用时不保留图像判别网络。在一个具体的实施例中,在进行第二目标姿态迁移模型训练时,在进行网络参数迭代更新时保持轮廓预测网络的参数不变,对外观特征提取网络、姿态迁移网络和图像判别网络中的网络参数进行更新。
在一个实施例中,如图16所示,步骤1502,即将训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始轮廓预测网络进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息,包括:
步骤1602,获取训练源图像中训练源对象对应的训练源稠密姿态解析图和训练目标图像中训练目标对象对应的训练目标稠密姿态解析图,并获取随机偏移量,基于随机偏移量对训练目标稠密姿态解析图进行随机偏移,得到偏移目标稠密姿态解析图。
其中,训练源稠密姿态解析图是指训练源对象对应的源稠密姿态解析图,即训练源对象在原始姿态时的稠密姿态解析图。训练目标稠密姿态解析图是指训练目标对象对应的目标稠密姿态解析图,即训练目标对象在目标姿态时的稠密姿态解析图。随机偏移量是指随机生成的偏移数值。偏移目标稠密姿态解析图是指随机偏移后的目标稠密姿态解析图,该偏移目标稠密姿态解析图用于表征训练源对象在目标姿态时的稠密姿态解析图。
具体地,服务器可以直接从数据库中获取到训练源图像中训练源对象对应的训练源稠密姿态解析图和训练目标图像中训练目标对象对应的训练目标稠密姿态解析图。服务器也可以使用DensePose算法对训练源图像和训练目标图像进行对象三维估计,得到训练源稠密姿态解析图和训练目标稠密姿态解析图。然后通过随机生成来获取随机偏移量,计算训练目标稠密姿态解析图与随机偏移量的和,得到偏移目标稠密姿态解析图,即将稠密姿态解析图的坐标加上随机偏移数值,得到偏移后的稠密姿态解析图。
步骤1604,将训练源稠密姿态解析图、偏移目标稠密姿态解析图、训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始轮廓预测网络进行轮廓预测,得到训练源对象对应的训练柔软目标姿态轮廓信息。
其中,训练柔软目标姿态轮廓信息是指训练时使用初始轮廓预测网络中的初始网络参数得到的柔软目标姿态轮廓信息。
具体地,服务器在进行训练时,新增训练源稠密姿态解析图和偏移目标稠密姿态解析图共同来对初始轮廓预测网络进行训练,从而使训练得到的轮廓预测网络能够预测得到柔软目标姿态轮廓信息,提高了得到的姿态轮廓信息的准确性。
步骤1504,将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息输入到初始外观特征提取网络中对训练源图像中训练源对象的外观特征进行提取,得到训练源对象对应的训练源外观特征,包括:
步骤1608,将训练源稠密姿态解析图、训练源图像、训练源姿态轮廓信息和训练二维源姿态信息输入到初始外观特征提取网络中对训练源图像中训练源对象的外观特征进行提取,得到训练源对象对应的训练柔软源外观特征。
具体地,服务器增加训练源稠密姿态解析图来共同训练初始外观特征提取网络,从而使训练得到的外观特征提取网络能够进一步提高外观特征提取的准确性。
在一个实施例中,训练源稠密姿态解析图和偏移目标稠密姿态解析图可以使用其中的部分区域作为输入。比如,在人体姿态迁移模型训练时,由于DensePose的头部形状差异性较大,导致训练准确性降低,此时可以将头部区域以外的区域作为训练时使用的稠密姿态解析图,即训练源稠密姿态解析图和偏移目标稠密姿态解析图中未包括人体头部区域,从而能够进一步提高了训练的准确性。在一个实施例中,训练得到的第一目标姿态迁移模型是姿态迁移方法实施例中的姿态迁移模型,训练得到的第二目标姿态迁移模型是姿态迁移方法实施例中柔软姿态迁移模型。在一个实施例中,也可以使用源稠密姿态解析图和偏移目标稠密姿态解析图作为输入参数共同来训练得到第二目标姿态迁移模型。
在上述实施例中,通过增加训练源稠密姿态解析图和偏移目标稠密姿态解析图来对初始姿态迁移模型进行训练,从而使训练得到的姿态迁移模型进一步提高了姿态迁移时的准确性。
在一个具体的实施例中,如图17所示,提供一种姿态迁移方法,具体来说包括以下步骤:
步骤1702,获取源图像和目标视频,从目标视频中确定目标图像,基于源图像中源对象进行三维对象姿态和形状估计,得到源图像中源对象对应的三维源姿态信息和三维源形状信息,基于目标图像中目标对象进行三维对象姿态和形状估计,得到目标图像中目标对象对应的三维目标姿态信息。
步骤1704,获取源图像中源对象对应的源相机参数,基于三维源姿态信息和三维源形状信息进行三维源对象建立,得到三维源对象,并基于源相机参数将三维源对象进行投影变换,得到源对象对应的二维源姿态信息。获取目标图像中目标对象对应的目标相机参数,基于三维源形状信息和三维目标姿态信息进行三维目标对象建立,得到三维目标对象,并基于目标相机参数将三维目标对象进行投影变换,得到源对象对应的二维目标姿态信息。
步骤1706,基于源图像中源对象对应的三维源姿态信息和三维源形状信息,以及目标图像中目标对象对应的三维目标姿态信息确定源对象与目标对象的三维变换关系,获取源对象对应的二维源姿态信息,并获取源对象对应的二维目标姿态信息,基于三维变换关系、源对象对应的二维源姿态信息和源对象对应的二维目标姿态信息确定源对象与目标对象之间的二维变换关系。
步骤1708,获取源图像中源对象对应的源稠密姿态解析图和目标图像中目标对象对应的目标稠密姿态解析图,将源图像、源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到柔软姿态迁移模型中。
步骤1710,柔软姿态迁移模型将源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到柔软轮廓预测网络中进行轮廓预测,得到源对象对应的柔软目标姿态轮廓信息,将源稠密姿态解析图、源图像、源姿态轮廓信息、二维源姿态信息输入到柔软外观特征提取网络对源图像中源对象的外观特征进行提取,得到源对象对应的柔软源外观特征。
步骤1712,获取源对象与目标对象之间的二维变换关系,基于二维变换关系将源图像进行变换,得到变换图像,并基于二维变换关系将源对象外观特征进行变换,得到柔软外观变换特征,将变换图像、柔软目标姿态轮廓信息和二维目标姿态信息进行合并,得到合并信息,将合并信息输入到柔软姿态迁移网络中。
步骤1714,柔软姿态迁移网络通过编码子网络将合并信息进行编码,得到合并编码特征,将合并编码特征与柔软外观变换特征相加,得到条件控制特征,基于条件控制特征进行空间调制参数生成,得到空间调制参数,通过解码子网络使用空间调制参数对合并解码特征进行调制,得到源图像对应的目标姿态图像。
步骤1716,依次遍历目标视频中的视频帧,得到各个视频帧对应的目标姿态图像;基于各个视频帧对应的目标姿态图像,得到源图像中源对象对应的目标姿态视频。
本申请还提供一种应用场景,该应用场景应用上述的姿态迁移方法。该方法应用到人体舞蹈动作迁移中,具体来说:服务器获取到被驱动人物A的一张图片以及包含一段驱动人物做舞蹈动作B的驱动视频。此时需要将驱动视频中的舞蹈动作迁移到被驱动人物A中,即生成人物A做舞蹈动作B的视频。首先,服务器对被驱动人物A图像和驱动视频进行预处理。如图18a所示,为预处理的流程示意图。其中,将被驱动人物A图像即源图像以及驱动视频中的一帧图像即目标图像进行预处理。通过SPIN进行三维人体形态估计,得到SMPL参数,即相机参数、姿态参数和形状参数。并使用SMPL参数通过SMPL人体建模算法来建立三维人体模型,然后将三维人体模型进行渲染,得到二维源姿态信息和二维目标姿态信息,该姿态信息是指二维的材质坐标图以及前景掩码,并得到源对象和目标对象之间的二维变换关系(2D flow)。同时对源图像和目标图像通过稠密姿态网络(densepose net)估计densepose的parsing(解析)图,得到源稠密姿态解析图和目标稠密姿态解析图,如图18b所示,为稠密姿态解析图对应的示意图,该解析图(parsing)是densepose产生的输出,是衣装下躯体对应区域中每个点所对应的类别信息,类别信息用于表明该点属于的人体区域,比如,头部区域、胳膊区域、腿部区域、屁股区域等等,示意图中每个划分的区域表示相同的类别,比如,1802表示腿部区域,该区域的点对应的类别都是腿部。通过对源图像使用MODNet算法(一个简单、快速稳定的实时人像抠图处理算法)进行前景掩码提取,得到人体前景掩码(mask),即源图像对应的源轮廓信息。
然后使用训练好的姿态迁移模型进行姿态迁移。如图19所示,为姿态迁移模型的架构示意图。该姿态迁移模型包括轮流预测网络、外观特征提取网络和图像迁移生成网络,其中,将源稠密姿态解析图、目标稠密姿态解析图、源轮廓信息、二维源姿态信息和二维目标姿态信息输入到轮廓预测网络中进行轮廓预测,得到被驱动人在驱动姿态下轮廓图。再将源稠密姿态解析图、源轮廓信息、二维源姿态信息和源图像输入到外观特征提取网络中进行网格特征提取,得到不同大小的解码层输出的不同大小的外观特征。此时将源图像和不同大小的外观特征通过二维变换关系进行变换,得到变换图像和不同大小的外观变换特征。然后将变换图像、二维目标姿态信息和被驱动人在驱动姿态下轮廓图进行合并后输入到姿态迁移生成网络中进行图像生成,其中,姿态迁移生成网络中的编码层对合并信息进行解码得到不同大小的编码特征,然后计算编码特征与对应的外观变换特征的和并通过SPADE来调制姿态迁移生成网络中解码层输出的解码特征,最后输出舞蹈动作迁移后的图像。依次遍历目标视频中的每一帧,得到对应的舞蹈动作迁移后的图像,即得到人物A做舞蹈动作B的视频。
应该理解的是,虽然图2a-图17的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2a-图17中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图20所示,提供了一种姿态迁移装置2000,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块2002、投影模块2004、轮廓预测模块2006和姿态迁移模块2008,其中:
获取模块2002,用于获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息;
投影模块2004,用于基于三维源姿态信息和三维源形状信息进行投影变换,得到源对象对应的二维源姿态信息,并基于三维源形状信息和三维目标姿态信息进行投影变换,得到源对象对应的二维目标姿态信息;
轮廓预测模块2006,用于获取源图像中源对象对应的源姿态轮廓信息,基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息;
姿态迁移模块2008,用于基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。
在一个实施例中,获取模块2002还用于:获取源图像和目标视频,从目标视频中确定目标图像;基于源图像中源对象进行三维对象姿态和形状估计,得到源图像中源对象对应的三维源姿态信息和三维源形状信息;基于目标图像中目标对象进行三维对象姿态和形状估计,得到目标图像中目标对象对应的三维目标姿态信息;
所述装置,还包括:
视频得到模块,用于依次遍历目标视频中的视频帧,得到各个视频帧对应的目标姿态图像;基于各个视频帧对应的目标姿态图像,得到源图像中源对象对应的目标姿态视频。
在一个实施例中,投影模块2004还用于获取源图像中源对象对应的源相机参数,基于三维源姿态信息和三维源形状信息进行三维源对象建立,得到三维源对象,并基于源相机参数将三维源对象进行投影变换,得到源对象对应的二维源姿态信息;获取目标图像中目标对象对应的目标相机参数,基于三维源形状信息和三维目标姿态信息进行三维目标对象建立,得到三维目标对象,并基于目标相机参数将三维目标对象进行投影变换,得到源对象对应的二维目标姿态信息。
在一个实施例中,轮廓预测模块2006还用于将源图像进行前景掩码提取,得到源对象对应的源姿态轮廓信息;将源姿态轮廓信息和二维源姿态信息进行轮廓预测编码,得到源编码特征;将二维目标姿态信息进行轮廓预测编码,得到目标编码特征;基于源编码特征和目标编码特征进行轮廓预测解码,得到源对象对应的目标姿态轮廓信息。
在一个实施例中,姿态迁移模块2008还用于基于源图像、源姿态轮廓信息、二维源姿态信息对源图像中源对象的外观特征进行提取,得到源对象对应的源外观特征;在源外观特征的条件下使用源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。
在一个实施例中,姿态迁移模块2008还用于获取源对象与目标对象之间的二维变换关系,基于二维变换关系将源图像进行变换,得到变换图像,并基于二维变换关系将源对象外观特征进行变换,得到外观变换特征;将变换图像、目标姿态轮廓信息和二维目标姿态信息进行合并,得到合并信息,基于合并信息进行姿态迁移编码,得到合并编码特征;将合并编码特征与外观变换特征相加,得到条件控制特征,基于条件控制特征进行空间调制参数生成,得到空间调制参数;使用空间调制参数对合并解码特征进行调制,得到源图像对应的目标姿态图像。
在一个实施例中,姿态迁移模块2008还用于基于源图像中源对象对应的三维源姿态信息和三维源形状信息,以及目标图像中目标对象对应的三维目标姿态信息确定源对象与目标对象的三维变换关系;获取源对象对应的二维源姿态信息,并获取源对象对应的二维目标姿态信息;基于三维变换关系、源对象对应的二维源姿态信息和源对象对应的二维目标姿态信息确定源对象与目标对象之间的二维变换关系。
在一个实施例中,所述装置还包括:
柔软迁移模块,用于获取源图像中源对象对应的源稠密姿态解析图和目标图像中目标对象对应的目标稠密姿态解析图;基于源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的柔软目标姿态轮廓信息;基于源稠密姿态解析图、源图像、源姿态轮廓信息、二维源姿态信息对源图像中源对象的外观特征进行提取,得到源对象对应的柔软源外观特征;在柔软源外观特征的条件下使用源图像、柔软目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的柔软目标姿态图像。
在一个实施例中,柔软迁移模块还用于将源图像进行稠密姿态估计,得到图像中源对象对应的源稠密姿态解析图;将目标图像进行稠密姿态估计,得到目标图像中目标对象对应的目标稠密姿态解析图。
在一个实施例中,所述装置还包括:
模型迁移模块,用于将源图像、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到姿态迁移模型中,姿态迁移模型是基于训练样本使用神经网络算法进行训练得到的;姿态迁移模型基于源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的目标姿态轮廓信息,并基于源图像、目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的目标姿态图像。
在一个实施例中,姿态迁移模型包括轮廓预测网络、外观特征提取网络和姿态迁移网络:
模型迁移模块,还用于将源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到轮廓预测网络进行轮廓预测,得到源对象对应的目标姿态轮廓信息;将源图像、源姿态轮廓信息、二维源姿态信息输入到外观特征提取网络中对源图像中源对象的外观特征进行提取,得到源对象对应的源外观特征;将源图像、目标姿态轮廓信息和二维目标姿态信息输入姿态迁移网络中在源外观特征条件下进行目标姿态图像生成,得到源图像对应的目标姿态图像。
在一个实施例中,姿态迁移网络包括编码子网络和解码子网络;
模型迁移模块,还用于获取源对象与目标对象之间的二维变换关系,基于二维变换关系将源图像进行变换,得到变换图像,并基于二维变换关系将源对象外观特征进行变换,得到外观变换特征;将变换图像、目标姿态轮廓信息和二维目标姿态信息进行合并,得到合并信息,将合并信息输入到姿态迁移网络中;姿态迁移网络通过编码子网络将合并信息进行编码,得到合并编码特征,将合并编码特征与外观变换特征相加,得到条件控制特征,基于条件控制特征进行空间调制参数生成,得到空间调制参数,通过解码子网络使用空间调制参数对合并解码特征进行调制,得到源图像对应的目标姿态图像。
在一个实施例中,所述装置还包括:
柔软模型迁移模块,用于获取源图像中源对象对应的源稠密姿态解析图和目标图像中目标对象对应的目标稠密姿态解析图;将源图像、源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到柔软姿态迁移模型中,柔软姿态迁移模型是基于合成训练样本使用神经网络算法进行训练得到的;柔软姿态迁移模型基于源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息进行轮廓预测,得到源对象对应的柔软目标姿态轮廓信息,基于源稠密姿态解析图、源图像、源姿态轮廓信息、二维源姿态信息对源图像中源对象的外观特征进行提取,得到源对象对应的柔软源外观特征,在柔软源外观特征的条件下使用源图像、柔软目标姿态轮廓信息和二维目标姿态信息进行目标姿态图像生成,得到源图像对应的柔软目标姿态图像。
在一个实施例中,柔软姿态迁移模型包括柔软轮廓预测网络、柔软外观特征提取网络和柔软姿态迁移网络;
柔软模型迁移模块还用于:将源稠密姿态解析图、目标稠密姿态解析图、源姿态轮廓信息、二维源姿态信息和二维目标姿态信息输入到柔软轮廓预测网络中进行轮廓预测,得到源对象对应的柔软目标姿态轮廓信息;将源稠密姿态解析图、源图像、源姿态轮廓信息、二维源姿态信息输入到柔软外观特征提取网络对源图像中源对象的外观特征进行提取,得到源对象对应的柔软源外观特征;将源图像、柔软目标姿态轮廓信息和二维目标姿态信息输入到柔软姿态迁移网络中,柔软姿态迁移网络在柔软源外观特征的条件下进行目标姿态图像生成,得到源图像对应的柔软目标姿态图像。
在一个实施例中,如图21所示,提供了一种姿态迁移模型训练装置2000,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:视频获取模块2102、信息获取模块2104、训练模块2106和迭代模块2108,其中:
视频获取模块2102,用于获取训练视频,从训练视频中确定训练源图像和训练目标图像;训练源图像中的训练源对象和训练目标图像中的训练目标对象为同一对象;
信息获取模块2104,用于基于训练源图像和训练目标图像获取到训练源对象对应的训练二维源姿态信息和训练源对象对应的训练二维目标姿态信息,并获取到训练源图像对应的训练源对象对应的训练源姿态轮廓信息;
训练模块2106,用于将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始姿态迁移模型中;初始姿态迁移模型基于训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息,并基于训练源图像、训练目标姿态轮廓信息和训练二维目标姿态信息进行目标姿态图像生成,得到训练源图像对应的训练目标姿态图像,对训练目标姿态图像进行图像判别,得到判别结果;
迭代模块2108,用于基于判别结果确定图像对抗损失,并基于训练目标姿态图像和训练目标图像计算得到图像真实性损失,使用图像对抗损失和图像真实性损失更新初始姿态迁移模型,并返回获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。
在一个实施例中,姿态迁移模型训练装置2000,还包括:
微调模块,用于获取微调视频,从微调视频中确定微调源图像和微调目标图像;微调源图像中的微调源对象和微调目标图像中的微调目标对象为同一对象;基于微调源图像和微调目标图像获取到微调源对象对应的微调二维源姿态信息和微调源对象对应的微调二维目标姿态信息,并获取到微调源图像对应的微调源对象对应的微调源姿态轮廓信息;将微调源图像、微调源姿态轮廓信息、微调二维源姿态信息和微调二维目标姿态信息输入到第一目标姿态迁移模型中;第一目标姿态迁移模型基于微调源姿态轮廓信息、微调二维源姿态信息和微调二维目标姿态信息使用第一轮廓参数进行轮廓预测,得到微调源对象对应的微调目标姿态轮廓信息,并基于微调源图像、微调目标姿态轮廓信息和微调二维目标姿态信息使用第一图像生成参数进行目标姿态图像生成,得到微调源图像对应的微调目标姿态图像,对微调目标姿态图像使用第一判别参数进行图像判别,得到微调判别结果;基于微调判别结果确定微调图像对抗损失,并基于微调目标姿态图像和微调目标图像计算得到微调图像真实性损失,基于微调图像对抗损失和微调图像真实性损失更新第一判别参数和第一图像生成参数,得到更新判别参数和更新图像生成参数,基于更新判别参数、更新图像生成参数和第一轮廓参数得到更新后的第一目标姿态迁移模型;将更新后的第一目标姿态迁移模型作为第一目标姿态迁移模型,并返回获取微调视频,从微调视频中确定微调源图像和微调目标图像的步骤迭代执行,直到达到微调训练完成条件时,得到第二目标姿态迁移模型。
在一个实施例中,初始姿态迁移模型包括初始轮廓预测网络、初始外观特征提取网络、初始姿态迁移网络和初始图像判别网络;
训练模块2106还用于将训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始轮廓预测网络进行轮廓预测,得到训练源对象对应的训练目标姿态轮廓信息;将训练源图像、训练源姿态轮廓信息、训练二维源姿态信息输入到初始外观特征提取网络中对训练源图像中训练源对象的外观特征进行提取,得到训练源对象对应的训练源外观特征;将训练源图像、训练目标姿态轮廓信息和训练二维目标姿态信息输入初始姿态迁移网络中在训练源外观特征条件下进行目标姿态图像生成,得到训练源图像对应的训练目标姿态图像,将训练目标姿态图像输入到初始图像判别网络中进行图像判别,得到判别结果。
在一个实施例中,训练模块2106还用于获取训练源图像中训练源对象对应的训练源稠密姿态解析图和训练目标图像中训练目标对象对应的训练目标稠密姿态解析图,并获取随机偏移量,基于随机偏移量对训练目标稠密姿态解析图进行随机偏移,得到偏移目标稠密姿态解析图;将训练源稠密姿态解析图、偏移目标稠密姿态解析图、训练源姿态轮廓信息、训练二维源姿态信息和训练二维目标姿态信息输入到初始轮廓预测网络进行轮廓预测,得到训练源对象对应的训练柔软目标姿态轮廓信息;
训练模块2106还用于将训练源稠密姿态解析图、训练源图像、训练源姿态轮廓信息和训练二维源姿态信息输入到初始外观特征提取网络中对训练源图像中训练源对象的外观特征进行提取,得到训练源对象对应的训练柔软源外观特征。
关于姿态迁移装置和姿态迁移模型训练装置的具体限定可以参见上文中对于姿态迁移方法和姿态迁移模型训练方法的限定,在此不再赘述。上述姿态迁移装置和姿态迁移模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图22所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和信息库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的信息库用于存储目标图像和训练视频。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种姿态迁移方法s和姿态迁移模型训练方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图23所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种姿态迁移方法或者姿态迁移模型训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图22或者23中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、信息库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (23)
1.一种姿态迁移方法,其特征在于,所述方法包括:
获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息;
基于所述三维源姿态信息和三维源形状信息进行投影变换,得到所述源对象对应的二维源姿态信息,并基于所述三维源形状信息和三维目标姿态信息进行投影变换,得到所述源对象对应的二维目标姿态信息;
获取所述源图像中源对象对应的源姿态轮廓信息,基于所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息进行轮廓预测,得到所述源对象对应的目标姿态轮廓信息;
基于所述源图像、所述目标姿态轮廓信息和所述二维目标姿态信息进行目标姿态图像生成,得到所述源图像对应的目标姿态图像。
2.根据权利要求1所述的方法,其特征在于,所述获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息,包括:
获取源图像和目标视频,从所述目标视频中确定目标图像;
基于所述源图像中源对象进行三维对象姿态和形状估计,得到所述源图像中源对象对应的三维源姿态信息和三维源形状信息;
基于所述目标图像中目标对象进行三维对象姿态和形状估计,得到所述目标图像中目标对象对应的三维目标姿态信息;
在所述基于所述源图像、所述目标姿态轮廓信息和所述二维目标姿态信息进行目标姿态图像生成,得到所述源图像对应的目标姿态图像之后,还包括:
依次遍历所述目标视频中的视频帧,得到各个视频帧对应的目标姿态图像;
基于所述各个视频帧对应的目标姿态图像,得到所述源图像中源对象对应的目标姿态视频。
3.根据权利要求1所述的方法,其特征在于,所述基于所述三维源姿态信息和三维源形状信息进行投影变换,得到所述源对象对应的二维源姿态信息,并基于所述三维源形状信息和三维目标姿态信息进行投影变换,得到所述源对象对应的二维目标姿态信息,包括:
获取所述源图像中源对象对应的源相机参数,基于所述三维源姿态信息和三维源形状信息进行三维源对象建立,得到三维源对象,并基于所述源相机参数将所述三维源对象进行投影变换,得到所述源对象对应的二维源姿态信息;
获取所述目标图像中目标对象对应的目标相机参数,基于所述三维源形状信息和三维目标姿态信息进行三维目标对象建立,得到三维目标对象,并基于所述目标相机参数将所述三维目标对象进行投影变换,得到所述源对象对应的二维目标姿态信息。
4.根据权利要求1所述的方法,其特征在于,所述获取所述源图像中源对象对应的源姿态轮廓信息,基于所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息进行轮廓预测,得到所述源对象对应的目标姿态轮廓信息,包括:
将所述源图像进行前景掩码提取,得到所述源对象对应的源姿态轮廓信息;
将所述源姿态轮廓信息和所述二维源姿态信息进行轮廓预测编码,得到源编码特征;
将所述二维目标姿态信息进行轮廓预测编码,得到目标编码特征;
基于所述源编码特征和所述目标编码特征进行轮廓预测解码,得到所述源对象对应的目标姿态轮廓信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述源图像、所述目标姿态轮廓信息和所述二维目标姿态信息进行目标姿态图像生成,得到所述源图像对应的目标姿态图像,包括:
基于所述源图像、所述源姿态轮廓信息、所述二维源姿态信息对所述源图像中源对象的外观特征进行提取,得到所述源对象对应的源外观特征;
在所述源外观特征的条件下使用所述源图像、所述目标姿态轮廓信息和所述二维目标姿态信息进行目标姿态图像生成,得到所述源图像对应的目标姿态图像。
6.根据权利要求5所述的方法,其特征在于,所述在所述源外观特征的条件下使用所述源图像、所述目标姿态轮廓信息和所述二维目标姿态信息进行目标姿态图像生成,得到所述源图像对应的目标姿态图像,包括:
获取所述源对象与所述目标对象之间的二维变换关系,基于所述二维变换关系将所述源图像进行变换,得到变换图像,并基于所述二维变换关系将所述源对象外观特征进行变换,得到外观变换特征;
将所述变换图像、目标姿态轮廓信息和所述二维目标姿态信息进行合并,得到合并信息,基于所述合并信息进行姿态迁移编码,得到合并编码特征;
将所述合并编码特征与所述外观变换特征相加,得到条件控制特征,基于所述条件控制特征进行空间调制参数生成,得到空间调制参数;
使用所述空间调制参数对所述合并解码特征进行调制,得到所述源图像对应的目标姿态图像。
7.根据权利要求6所述的方法,其特征在于,所述获取所述源对象与所述目标对象之间的二维变换关系,包括:
基于所述源图像中源对象对应的三维源姿态信息和三维源形状信息,以及所述目标图像中目标对象对应的三维目标姿态信息确定所述源对象与所述目标对象的三维变换关系;
获取所述源对象对应的二维源姿态信息,并获取所述源对象对应的二维目标姿态信息;
基于所述三维变换关系、所述源对象对应的二维源姿态信息和所述源对象对应的二维目标姿态信息确定所述源对象与所述目标对象之间的二维变换关系。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述源图像中源对象对应的源稠密姿态解析图和所述目标图像中目标对象对应的目标稠密姿态解析图;
基于所述源稠密姿态解析图、所述目标稠密姿态解析图、所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息进行轮廓预测,得到所述源对象对应的柔软目标姿态轮廓信息;
基于所述源稠密姿态解析图、所述源图像、所述源姿态轮廓信息、所述二维源姿态信息对所述源图像中源对象的外观特征进行提取,得到所述源对象对应的柔软源外观特征;
在所述柔软源外观特征的条件下使用所述源图像、所述柔软目标姿态轮廓信息和所述二维目标姿态信息进行目标姿态图像生成,得到所述源图像对应的柔软目标姿态图像。
9.根据权利要求1所述的方法,其特征在于,所述获取所述源图像中源对象对应的源稠密姿态解析图和所述目标图像中目标对象对应的目标稠密姿态解析图,包括:
将所述源图像进行稠密姿态估计,得到所述图像中源对象对应的源稠密姿态解析图;
将所述目标图像进行稠密姿态估计,得到所述目标图像中目标对象对应的目标稠密姿态解析图。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述源图像、所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息输入到姿态迁移模型中,所述姿态迁移模型是基于训练样本使用神经网络算法进行训练得到的;
所述姿态迁移模型基于所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息进行轮廓预测,得到所述源对象对应的目标姿态轮廓信息,并基于所述源图像、所述目标姿态轮廓信息和所述二维目标姿态信息进行目标姿态图像生成,得到所述源图像对应的目标姿态图像。
11.根据权利要求10所述的方法,其特征在于,所述姿态迁移模型包括轮廓预测网络、外观特征提取网络和姿态迁移网络:
所述将所述源图像、所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息输入到姿态迁移模型中,包括:
将所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息输入到所述轮廓预测网络进行轮廓预测,得到所述源对象对应的目标姿态轮廓信息;
将所述源图像、所述源姿态轮廓信息、所述二维源姿态信息输入到所述外观特征提取网络中对所述源图像中源对象的外观特征进行提取,得到所述源对象对应的源外观特征;
将所述源图像、所述目标姿态轮廓信息和所述二维目标姿态信息输入所述姿态迁移网络中在所述源外观特征条件下进行目标姿态图像生成,得到所述源图像对应的目标姿态图像。
12.根据权利要求11所述的方法,其特征在于,所述姿态迁移网络包括编码子网络和解码子网络;
所述将所述源图像、所述目标姿态轮廓信息和所述二维目标姿态信息输入所述姿态迁移网络中在所述源外观特征条件下进行目标姿态图像生成,得到所述源图像对应的目标姿态图像,包括:
获取所述源对象与所述目标对象之间的二维变换关系,基于所述二维变换关系将所述源图像进行变换,得到变换图像,并基于所述二维变换关系将所述源对象外观特征进行变换,得到外观变换特征;
将所述变换图像、目标姿态轮廓信息和所述二维目标姿态信息进行合并,得到合并信息,将所述合并信息输入到所述姿态迁移网络中;
所述姿态迁移网络通过所述编码子网络将所述合并信息进行编码,得到合并编码特征,将所述合并编码特征与所述外观变换特征相加,得到条件控制特征,基于所述条件控制特征进行空间调制参数生成,得到空间调制参数,通过所述解码子网络使用所述空间调制参数对所述合并解码特征进行调制,得到所述源图像对应的目标姿态图像。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述源图像中源对象对应的源稠密姿态解析图和所述目标图像中目标对象对应的目标稠密姿态解析图;
将所述源图像、所述源稠密姿态解析图、所述目标稠密姿态解析图、所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息输入到柔软姿态迁移模型中,所述柔软姿态迁移模型是基于合成训练样本使用神经网络算法进行训练得到的;
所述柔软姿态迁移模型基于所述源稠密姿态解析图、所述目标稠密姿态解析图、所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息进行轮廓预测,得到所述源对象对应的柔软目标姿态轮廓信息,基于所述源稠密姿态解析图、所述源图像、所述源姿态轮廓信息、所述二维源姿态信息对所述源图像中源对象的外观特征进行提取,得到所述源对象对应的柔软源外观特征,在所述柔软源外观特征的条件下使用所述源图像、所述柔软目标姿态轮廓信息和所述二维目标姿态信息进行目标姿态图像生成,得到所述源图像对应的柔软目标姿态图像。
14.根据权利要求13所述的方法,其特征在于,所述柔软姿态迁移模型包括柔软轮廓预测网络、柔软外观特征提取网络和柔软姿态迁移网络;
所述将所述源图像、源稠密姿态解析图、目标稠密姿态解析图、所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息输入到柔软姿态迁移模型中,包括:
将所述源稠密姿态解析图、所述目标稠密姿态解析图、所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息输入到所述柔软轮廓预测网络中进行轮廓预测,得到所述源对象对应的柔软目标姿态轮廓信息;
将所述源稠密姿态解析图、所述源图像、所述源姿态轮廓信息、所述二维源姿态信息输入到所述柔软外观特征提取网络对所述源图像中源对象的外观特征进行提取,得到所述源对象对应的柔软源外观特征;
将所述源图像、所述柔软目标姿态轮廓信息和所述二维目标姿态信息输入到所述柔软姿态迁移网络中,所述柔软姿态迁移网络在所述柔软源外观特征的条件下进行目标姿态图像生成,得到所述源图像对应的柔软目标姿态图像。
15.一种姿态迁移模型训练方法,其特征在于,所述方法包括:
获取训练视频,从训练视频中确定训练源图像和训练目标图像;所述训练源图像中的训练源对象和所述训练目标图像中的训练目标对象为同一对象;
基于所述训练源图像和所述训练目标图像获取到所述训练源对象对应的训练二维源姿态信息和所述训练源对象对应的训练二维目标姿态信息,并获取到所述训练源图像对应的训练源对象对应的训练源姿态轮廓信息;
将所述训练源图像、所述训练源姿态轮廓信息、所述训练二维源姿态信息和所述训练二维目标姿态信息输入到初始姿态迁移模型中;
所述初始姿态迁移模型基于所述训练源姿态轮廓信息、所述训练二维源姿态信息和所述训练二维目标姿态信息进行轮廓预测,得到所述训练源对象对应的训练目标姿态轮廓信息,并基于所述训练源图像、所述训练目标姿态轮廓信息和所述训练二维目标姿态信息进行目标姿态图像生成,得到所述训练源图像对应的训练目标姿态图像,对所述训练目标姿态图像进行图像判别,得到判别结果;
基于所述判别结果确定图像对抗损失,并基于所述训练目标姿态图像和所述训练目标图像计算得到图像真实性损失,使用所述图像对抗损失和所述图像真实性损失更新所述初始姿态迁移模型,并返回所述获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。
16.根据权利要求15所述的方法,其特征在于,在所述得到第一目标姿态迁移模型之后,还包括:
获取微调视频,从所述微调视频中确定微调源图像和微调目标图像;所述微调源图像中的微调源对象和所述微调目标图像中的微调目标对象为同一对象;
基于所述微调源图像和所述微调目标图像获取到所述微调源对象对应的微调二维源姿态信息和所述微调源对象对应的微调二维目标姿态信息,并获取到所述微调源图像对应的微调源对象对应的微调源姿态轮廓信息;
将所述微调源图像、所述微调源姿态轮廓信息、所述微调二维源姿态信息和所述微调二维目标姿态信息输入到第一目标姿态迁移模型中;
所述第一目标姿态迁移模型基于所述微调源姿态轮廓信息、所述微调二维源姿态信息和所述微调二维目标姿态信息使用第一轮廓参数进行轮廓预测,得到所述微调源对象对应的微调目标姿态轮廓信息,并基于所述微调源图像、所述微调目标姿态轮廓信息和所述微调二维目标姿态信息使用第一图像生成参数进行目标姿态图像生成,得到所述微调源图像对应的微调目标姿态图像,对所述微调目标姿态图像使用第一判别参数进行图像判别,得到微调判别结果;
基于所述微调判别结果确定微调图像对抗损失,并基于所述微调目标姿态图像和所述微调目标图像计算得到微调图像真实性损失,基于所述微调图像对抗损失和所述微调图像真实性损失更新所述第一判别参数和所述第一图像生成参数,得到更新判别参数和更新图像生成参数,基于所述更新判别参数、所述更新图像生成参数和所述第一轮廓参数得到更新后的第一目标姿态迁移模型;
将所述更新后的第一目标姿态迁移模型作为第一目标姿态迁移模型,并返回所述获取微调视频,从所述微调视频中确定微调源图像和微调目标图像的步骤迭代执行,直到达到微调训练完成条件时,得到第二目标姿态迁移模型。
17.根据权利要求15所述的方法,其特征在于,所述初始姿态迁移模型包括初始轮廓预测网络、初始外观特征提取网络、初始姿态迁移网络和初始图像判别网络;
将所述训练源图像、所述训练源姿态轮廓信息、所述训练二维源姿态信息和所述训练二维目标姿态信息输入到初始姿态迁移模型中,包括:
将所述训练源姿态轮廓信息、所述训练二维源姿态信息和所述训练二维目标姿态信息输入到所述初始轮廓预测网络进行轮廓预测,得到所述训练源对象对应的训练目标姿态轮廓信息;
将所述训练源图像、所述训练源姿态轮廓信息、所述训练二维源姿态信息输入到所述初始外观特征提取网络中对所述训练源图像中训练源对象的外观特征进行提取,得到所述训练源对象对应的训练源外观特征;
将所述训练源图像、所述训练目标姿态轮廓信息和所述训练二维目标姿态信息输入所述初始姿态迁移网络中在所述训练源外观特征条件下进行目标姿态图像生成,得到所述训练源图像对应的训练目标姿态图像,将所述训练目标姿态图像输入到所述初始图像判别网络中进行图像判别,得到所述判别结果。
18.根据权利要求17所述的方法,其特征在于,所述将所述训练源姿态轮廓信息、所述训练二维源姿态信息和所述训练二维目标姿态信息输入到所述初始轮廓预测网络进行轮廓预测,得到所述训练源对象对应的训练目标姿态轮廓信息,包括:
获取所述训练源图像中训练源对象对应的训练源稠密姿态解析图和所述训练目标图像中训练目标对象对应的训练目标稠密姿态解析图,并获取随机偏移量,基于所述随机偏移量对所述训练目标稠密姿态解析图进行随机偏移,得到偏移目标稠密姿态解析图;
将所述训练源稠密姿态解析图、所述偏移目标稠密姿态解析图、所述训练源姿态轮廓信息、所述训练二维源姿态信息和所述训练二维目标姿态信息输入到所述初始轮廓预测网络进行轮廓预测,得到所述训练源对象对应的训练柔软目标姿态轮廓信息;
所述将所述训练源图像、所述训练源姿态轮廓信息、所述训练二维源姿态信息输入到所述初始外观特征提取网络中对所述训练源图像中训练源对象的外观特征进行提取,得到所述训练源对象对应的训练源外观特征,包括:
将所述训练源稠密姿态解析图、所述训练源图像、所述训练源姿态轮廓信息和所述训练二维源姿态信息输入到所述初始外观特征提取网络中对所述训练源图像中训练源对象的外观特征进行提取,得到所述训练源对象对应的训练柔软源外观特征。
19.一种姿态迁移装置,其特征在于,所述装置包括:
获取模块,用于获取源图像中源对象对应的三维源姿态信息和三维源形状信息,并获取目标图像中目标对象对应的三维目标姿态信息;
投影模块,用于基于所述三维源姿态信息和三维源形状信息进行投影变换,得到所述源对象对应的二维源姿态信息,并基于所述三维源形状信息和三维目标姿态信息进行投影变换,得到所述源对象对应的二维目标姿态信息;
轮廓预测模块,用于获取所述源图像中源对象对应的源姿态轮廓信息,基于所述源姿态轮廓信息、所述二维源姿态信息和所述二维目标姿态信息进行轮廓预测,得到所述源对象对应的目标姿态轮廓信息;
姿态迁移模块,用于基于所述源图像、所述目标姿态轮廓信息和所述二维目标姿态信息进行目标姿态图像生成,得到所述源图像对应的目标姿态图像。
20.一种姿态迁移模型训练装置,其特征在于,所述装置包括:
视频获取模块,用于获取训练视频,从训练视频中确定训练源图像和训练目标图像;所述训练源图像中的训练源对象和所述训练目标图像中的训练目标对象为同一对象;
信息获取模块,用于基于所述训练源图像和所述训练目标图像获取到所述训练源对象对应的训练二维源姿态信息和所述训练源对象对应的训练二维目标姿态信息,并获取到所述训练源图像对应的训练源对象对应的训练源姿态轮廓信息;
训练模块,用于将所述训练源图像、所述训练源姿态轮廓信息、所述训练二维源姿态信息和所述训练二维目标姿态信息输入到初始姿态迁移模型中;所述初始姿态迁移模型基于所述训练源姿态轮廓信息、所述训练二维源姿态信息和所述训练二维目标姿态信息进行轮廓预测,得到所述训练源对象对应的训练目标姿态轮廓信息,并基于所述训练源图像、所述训练目标姿态轮廓信息和所述训练二维目标姿态信息进行目标姿态图像生成,得到所述训练源图像对应的训练目标姿态图像,对所述训练目标姿态图像进行图像判别,得到判别结果;
迭代模块,用于基于所述判别结果确定图像对抗损失,并基于所述训练目标姿态图像和所述训练目标图像计算得到图像真实性损失,使用所述图像对抗损失和所述图像真实性损失更新所述初始姿态迁移模型,并返回所述获取训练视频,从训练视频中确定训练源图像和训练目标图像的步骤迭代执行,直到达到训练完成条件时,得到第一目标姿态迁移模型。
21.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至18中任一项所述的方法的步骤。
22.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至18中任一项所述的方法的步骤。
23.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至18任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111145837.1A CN115880766A (zh) | 2021-09-28 | 2021-09-28 | 姿态迁移、姿态迁移模型训练方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111145837.1A CN115880766A (zh) | 2021-09-28 | 2021-09-28 | 姿态迁移、姿态迁移模型训练方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115880766A true CN115880766A (zh) | 2023-03-31 |
Family
ID=85763707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111145837.1A Pending CN115880766A (zh) | 2021-09-28 | 2021-09-28 | 姿态迁移、姿态迁移模型训练方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115880766A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557699A (zh) * | 2024-01-11 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 动画数据生成方法、装置、计算机设备和存储介质 |
-
2021
- 2021-09-28 CN CN202111145837.1A patent/CN115880766A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557699A (zh) * | 2024-01-11 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 动画数据生成方法、装置、计算机设备和存储介质 |
CN117557699B (zh) * | 2024-01-11 | 2024-04-02 | 腾讯科技(深圳)有限公司 | 动画数据生成方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Romero et al. | Embodied hands: Modeling and capturing hands and bodies together | |
US10679046B1 (en) | Machine learning systems and methods of estimating body shape from images | |
Li et al. | Monocular real-time volumetric performance capture | |
CN109636831B (zh) | 一种估计三维人体姿态及手部信息的方法 | |
CN111598998B (zh) | 三维虚拟模型重建方法、装置、计算机设备和存储介质 | |
WO2021184933A1 (zh) | 一种人体三维模型重建方法 | |
CN110998659B (zh) | 图像处理系统、图像处理方法、及程序 | |
Zhi et al. | Texmesh: Reconstructing detailed human texture and geometry from rgb-d video | |
US11282257B2 (en) | Pose selection and animation of characters using video data and training techniques | |
CN113012282A (zh) | 三维人体重建方法、装置、设备及存储介质 | |
CN114648613B (zh) | 基于可变形神经辐射场的三维头部模型重建方法及装置 | |
CN113570684A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN110147737B (zh) | 用于生成视频的方法、装置、设备和存储介质 | |
CN113706699A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN113628327A (zh) | 一种头部三维重建方法及设备 | |
CN111815768B (zh) | 三维人脸重建方法和装置 | |
Chen et al. | Markerless monocular motion capture using image features and physical constraints | |
CN113593001A (zh) | 目标对象三维重建方法、装置、计算机设备和存储介质 | |
Karunratanakul et al. | Harp: Personalized hand reconstruction from a monocular rgb video | |
CN117635897B (zh) | 三维对象的姿态补全方法、装置、设备、存储介质及产品 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN111862278A (zh) | 一种动画获得方法、装置、电子设备及存储介质 | |
CN115880766A (zh) | 姿态迁移、姿态迁移模型训练方法、装置和存储介质 | |
US20230126829A1 (en) | Point-based modeling of human clothing | |
US20230326137A1 (en) | Garment rendering techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40084140 Country of ref document: HK |