CN117689781A

CN117689781A - 目标对象的动作驱动方法、装置、存储介质及设备

Info

Publication number: CN117689781A
Application number: CN202311743811.6A
Authority: CN
Inventors: 汪敏; 严妍; 马文婧; 杨春宇; 任梦园
Original assignee: Beijing Kaipuyun Information Technology Co ltd
Current assignee: Beijing Kaipuyun Information Technology Co ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-12

Abstract

本申请公开了一种目标对象的动作驱动方法、装置、存储介质及设备，属于图像处理技术领域。方法包括：获取包含目标对象的全身像的源图像，对源图像提取第一人体关键点；获取人体的肢体动作驱动视频，对从肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点；根据第一人体关键点、各个第二人体关键点和预设的相对参考帧，生成从每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵；根据源图像、关键点仿射变换矩阵和遮挡矩阵，生成肢体动作合成图像；将肢体动作合成图像编码成目标对象的肢体动作合成视频。本申请能提高关键点仿射变换矩阵的准确性，从而提高生成的肢体动作合成视频的准确性。

Description

目标对象的动作驱动方法、装置、存储介质及设备

技术领域

本申请涉及图像处理技术领域，特别涉及一种目标对象的动作驱动方法、装置、存储介质及设备。

背景技术

随着人工智能及计算机视觉技术的快速发展，动作驱动技术也越来越成熟，通过模拟人类身体运动机制和动作表现，实现数字人物的模拟和生成。在游戏、动画、传媒、虚拟现实等领域，大多使用传感器采集人体的运动数据，再将其转化成数字模型以模拟数字人的运动，就可以生成获取数字人的身体姿态和动作信息。

相关技术中，可以使用深度学习神经网络进行动作驱动，从而将肢体动作驱动视频中的肢体动作迁移到静态的源图像中，得到肢体动作合成视频。例如，FOMM(First OrderMotion Model for ImageAnimation，一阶运动模型)可以在不借助外设的情况下获取运动轨迹信息，包括面部以及肢体动作，然后，结合图像生成模型生成肢体动作合成视频。

然而，FOMM在肢体驱动中存在以下缺点：生成图像较为模糊、生成速度较慢、面部相似度较低且模糊。

发明内容

本申请提供了一种目标对象的动作驱动方法、装置、存储介质及设备，用于解决相关技术中的使用FOMM模型进行动作驱动时，生成图像较为模糊、生成速度较慢，面部相似度较低且模糊的问题。所述技术方案如下：

根据本申请的第一方面，提供了一种目标对象的动作驱动方法，所述方法包括：

获取包含目标对象的全身像的源图像，对所述源图像提取第一人体关键点；

获取人体的肢体动作驱动视频，对从所述肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点；

根据所述第一人体关键点、各个第二人体关键点和预设的相对参考帧，生成从每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵；

根据所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵，生成肢体动作合成图像，所述肢体动作合成图像包含所述目标对象的人脸以及所述肢体动作驱动视频中的肢体动作；

将所述肢体动作合成图像编码成所述目标对象的肢体动作合成视频。

在一种可能的实现方式中，所述根据所述第一人体关键点、各个第二人体关键点和预设的相对参考帧，生成从每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵，包括：

根据所述第一人体关键点和所述相对参考帧，生成从所述相对参考帧到所述源图像的第一关键点仿射变换矩阵；

根据各个第二人体关键点和所述相对参考帧，生成从所述相对参考帧到各个驱动帧的第二关键点仿射变换矩阵；

利用预先训练的运动模型对所述第一关键点仿射变换矩阵和所述第二关键点仿射变换矩阵进行处理，得到每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵。

在一种可能的实现方式中，所述利用预先训练的运动模型对所述第一关键点仿射变换矩阵和所述第二关键点仿射变换矩阵进行处理，得到每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵，包括：

获取预先训练的运动模型；

利用所述运动模型中的深度学习可分离卷积对所述第一关键点仿射变换矩阵和所述第二关键点仿射变换矩阵进行卷积运算，得到特征图；

对所述特征图进行处理，得到每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵。

在一种可能的实现方式中，所述根据所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵，生成肢体动作合成图像，包括：

获取预先训练的生成模型；

利用所述生成模型对所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵进行处理，得到肢体动作合成图像。

在一种可能的实现方式中，所述利用所述生成模型对所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵进行处理，得到肢体动作合成图像，包括：

利用所述生成模型中的VGG网络提取所述源图像中的面部特征；

对所述面部特征、所述关键点仿射变换矩阵和所述遮挡矩阵进行处理，得到肢体动作合成图像。

在一种可能的实现方式中，所述方法还包括：

利用ESRGAN模型的超分辨率算法对所述肢体动作合成图像进行处理，得到高清的肢体动作合成图像。

在一种可能的实现方式中，所述将所述肢体动作合成图像编码成所述目标对象的肢体动作合成视频，包括：

将高清的肢体动作合成图像编码成所述目标对象的肢体动作合成视频。

根据本申请的第二方面，提供了一种目标对象的动作驱动装置，所述装置包括：

图像获取模块，用于获取包含目标对象的全身像的源图像，对所述源图像提取第一人体关键点；

视频获取模块，用于获取人体的肢体动作驱动视频，对从所述肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点；

矩阵生成模块，用于根据所述第一人体关键点、各个第二人体关键点和预设的相对参考帧，生成从每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵；

图像合成模块，用于根据所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵，生成肢体动作合成图像，所述肢体动作合成图像包含所述目标对象的人脸以及所述肢体动作驱动视频中的肢体动作；

视频合成模块，用于将所述肢体动作合成图像编码成所述目标对象的肢体动作合成视频。

根据本申请的第三方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的目标对象的动作驱动方法。

根据本申请的第四方面，提供了一种计算机设备，所述计算机设备包括目标对象的动作驱动上述目标对象的动作驱动装置。

本申请提供的技术方案的有益效果至少包括：

在将肢体动作驱动视频中的驱动帧仿射变换到源图像中时，驱动帧与源图像的人体关键点差异可能会比较大，通过引入一个抽象的相对参考帧，将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡，能够提高关键点仿射变换矩阵的准确性，从而提高生成的肢体动作合成视频的准确性。

运动模型中包含深度学习可分离卷积，在保证关键点信息可用的前提下将特征图的通道数降为原来的一半，在模型复杂度和计算速度上有显著提升，不会影响图像的生成质量，且能够保证动作的连贯自然。

生成模型中包含VGG网络，可以提取面部细节特征向量，采用面部重建损失能更多地关注面部纹理特征，使得在驱动肢体动作的同时，保证生成的人脸的面部清晰度以及与源图像中人脸的相似度较高。

使用ESRGAN模型能够提升整体图像的分辨率，提高肢体动作合成视频的清晰度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的目标对象的动作驱动方法的流程图；

图2是本申请一个实施例提供的目标对象的动作驱动方法的流程图；

图3是本申请一个实施例提供的目标对象的动作驱动方法的流程图；

图4是本申请一个实施例提供的目标对象的动作驱动装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

如图1所示，其示出了本申请一个实施例提供的目标对象的动作驱动方法的方法流程图，该目标对象的动作驱动方法可以应用于图1所示的计算机设备中。该目标对象的动作驱动方法，可以包括：

步骤101，获取包含目标对象的全身像的源图像，对源图像提取第一人体关键点。

目标对象可以是自然人，比如，主播、演员、歌手、讲师等等。

源图像需要包含目标对象的全身像，也就是说，需要包含目标对象的人脸和四肢。

人体关键点是人体中关键部位的点，用来描述人体姿态。本实施例中，可以根据业务需求设置人体关键点的位置及数量，本实施例中不做具体限定。比如，头部的关键点包括左耳、左眼、鼻子、右耳、右眼；上身的关键点包括左手腕、左肘关节、左肩、右肩、右肘关节、右手腕、脖子；下身的关键点包括左脚踝、左膝盖、大腿根部两侧2点、大腿根部中心点、右膝盖、右脚踝；脚部的关键点包括左脚跟、左脚大脚趾、左脚小脚趾、右脚跟、右脚大脚趾、右脚小脚趾。

本实施例中，将从源图像中提取出的人体关键点称为第一人体关键点，将从肢体动作驱动视频的驱动帧中提取出的人体关键点称为第二人体关键点，以便于区分。

步骤102，获取人体的肢体动作驱动视频，对从肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点。

肢体动作驱动视频需要包含人体的肢体动作，这里的人体可以是自然人，也可以是虚拟的数字人。比如，肢体动作驱动视频可以是舞蹈视频、运动视频等。

计算机设备按照预设的采样频率从肢体动作驱动视频中提取出多个驱动帧，对每个驱动帧提取第二人体关键点。

步骤103，根据第一人体关键点、各个第二人体关键点和预设的相对参考帧，生成从每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵。

关键点仿射变换矩阵用于将驱动帧中的肢体动作仿射变换到源图像中，使目标对象做出同样的肢体动作。

遮挡矩阵用于定义肢体动作合成图像中的仿射变化部分和图像生成部分，其中，仿射变换部分是通过关键点仿射变换矩阵计算得到的，图像生成部分是通过生成模型生成的。

驱动帧与源图像的人体关键点差异可能会比较大，通过引入一个抽象的相对参考帧，将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡，能够提高关键点仿射变换矩阵的准确性，从而提高生成的肢体动作合成视频的准确性。

步骤104，根据源图像、关键点仿射变换矩阵和遮挡矩阵，生成肢体动作合成图像，该肢体动作合成图像包含目标对象的人脸以及肢体动作驱动视频中的肢体动作。

肢体动作合成图像是将驱动帧中的肢体动作合成到源图像后形成的图像，具体生成方式详见下文中的描述，此处不作赘述。

步骤105，将肢体动作合成图像编码成目标对象的肢体动作合成视频。

综上所述，本申请实施例提供的目标对象的动作驱动方法，在将肢体动作驱动视频中的驱动帧仿射变换到源图像中时，驱动帧与源图像的人体关键点差异可能会比较大，通过引入一个抽象的相对参考帧，将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡，能够提高关键点仿射变换矩阵的准确性，从而提高生成的肢体动作合成视频的准确性。

如图2所示，其示出了本申请一个实施例提供的目标对象的动作驱动方法的流程图，该目标对象的动作驱动方法可以应用于图1所示的计算机设备中。该目标对象的动作驱动方法，可以包括：

步骤201，获取包含目标对象的全身像的源图像，对源图像提取第一人体关键点。

步骤202，获取人体的肢体动作驱动视频，对从肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点。

步骤203，根据第一人体关键点和相对参考帧，生成从相对参考帧到源图像的第一关键点仿射变换矩阵。

相对参考帧是一个虚拟帧，在后续的计算过程中会被抵消掉，本实施例中不限定相对参考帧的具体内容和提取方式。

驱动帧与源图像的人体关键点差异可能会比较大，通过引入一个抽象的相对参考帧，将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡。

本实施例中将从相对参考帧到源图像的关键点仿射变换矩阵称为第一关键点仿射变换矩阵，将从相对参考帧到驱动帧的关键点仿射变换矩阵称为第二关键点仿射变换矩阵，以便于区分。

若将源图像记为S，相对参考帧记为R，则第一关键点仿射变换矩阵可以表示为T_R→S。

步骤204，根据各个第二人体关键点和相对参考帧，生成从相对参考帧到各个驱动帧的第二关键点仿射变换矩阵。

若将驱动帧记为D，相对参考帧记为R，则第二关键点仿射变换矩阵可以表示为T_R→D。

步骤205，利用预先训练的运动模型对第一关键点仿射变换矩阵和第二关键点仿射变换矩阵进行处理，得到每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵。

关键点仿射变换矩阵用于将驱动帧中的肢体动作仿射变换到源图像中，使目标对象做出同样的肢体动作。若将源图像记为S，驱动帧记为D，相对参考帧记为R，则关键点仿射变换矩阵可以表示为T_D→S。

遮挡矩阵用于定义肢体动作合成图像中的仿射变化部分和图像生成部分，其中，仿射变换部分是通过关键点仿射变换矩阵计算得到的，图像生成部分是通过生成模型生成的。若将源图像记为S，驱动帧记为D，则遮挡矩阵可以表示为O_D→S。

具体的，利用预先训练的运动模型(MotionModule)对第一关键点仿射变换矩阵和第二关键点仿射变换矩阵进行处理，得到每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵，可以包括：获取预先训练的运动模型；利用运动模型中的深度学习可分离卷积对第一关键点仿射变换矩阵和第二关键点仿射变换矩阵进行卷积运算，得到特征图；对特征图进行处理，得到每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵。

其中，运动模型中包含深度学习可分离卷积，在保证关键点信息可用的前提下将特征图的通道数降为原来的一半，在模型复杂度和计算速度上有显著提升，不会影响图像的生成质量，且能够保证动作的连贯自然。

步骤206，获取预先训练的生成模型，利用生成模型对源图像、关键点仿射变换矩阵和遮挡矩阵进行处理，得到肢体动作合成图像，该肢体动作合成图像包含目标对象的人脸以及肢体动作驱动视频中的肢体动作。

肢体动作合成图像是将驱动帧中的肢体动作合成到源图像后形成的图像。

具体的，利用生成模型(Generation Module)对源图像、关键点仿射变换矩阵和遮挡矩阵进行处理，得到肢体动作合成图像，可以包括：利用生成模型中的VGG网络提取源图像中的面部特征；对面部特征、关键点仿射变换矩阵和遮挡矩阵进行处理，得到肢体动作合成图像。

其中，生成模型中包含VGG网络，可以提取面部细节特征向量，采用面部重建损失能更多地关注面部纹理特征，使得在驱动肢体动作的同时，保证生成的人脸的面部清晰度以及与源图像中人脸的相似度较高。

步骤207，利用ESRGAN模型的超分辨率算法对肢体动作合成图像进行处理，得到高清的肢体动作合成图像。

ESRGAN模型中包含超分辨率算法，会用该超分辨率算法对肢体动作合成图像进行处理，可以提高肢体动作合成图像的清晰度。

步骤208，将高清的肢体动作合成图像编码成目标对象的肢体动作合成视频。

计算机设备对所有高清的肢体动作合成图像进行编码，得到肢体动作合成视频。比如，将一位明星的全身像和一位数字人的舞蹈视频进行合成，即可得到明星跳舞的视频。

图3示出了目标对象的动作驱动方法的流程，即先对肢体动作驱动视频进行视频解码，得到驱动帧D，再基于相对参考帧，分别对驱动帧D和源图像S进行关键点检测，得到第一关键点仿射变换矩阵T_R→S和第二关键点仿射变换矩阵T_R→D；通过运动模型(MotionModule)对第一关键点仿射变换矩阵T_R→S和第二关键点仿射变换矩阵T_R→D进行处理，得到关键点仿射变换矩阵T_D→S和遮挡矩阵O_D→S，通过生成模型(GenerationModule)对源图像S、关键点仿射变换矩阵T_D→S和遮挡矩阵O_D→S进行处理，得到生成图像(肢体动作合成图像)，通过ESRGAN模型对生成图像进行处理，得到清晰度更高的生成图像；对生成图像进行编码可以得到输出视频(肢体动作合成视频)。

如图4所示，其示出了本申请一个实施例提供的目标对象的动作驱动装置的结构框图，该目标对象的动作驱动装置可以应用于图1所示的计算机设备中。该目标对象的动作驱动装置，可以包括：

图像获取模块410，用于获取包含目标对象的全身像的源图像，对源图像提取第一人体关键点；

视频获取模块420，用于获取人体的肢体动作驱动视频，对从肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点；

矩阵生成模块430，用于根据第一人体关键点、各个第二人体关键点和预设的相对参考帧，生成从每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵；

图像合成模块440，用于根据源图像、关键点仿射变换矩阵和遮挡矩阵，生成肢体动作合成图像，肢体动作合成图像包含目标对象的人脸以及肢体动作驱动视频中的肢体动作；

视频合成模块450，用于将肢体动作合成图像编码成目标对象的肢体动作合成视频。

在一个可选的实施例中，矩阵生成模块430，还用于：

根据第一人体关键点和相对参考帧，生成从相对参考帧到源图像的第一关键点仿射变换矩阵；

根据各个第二人体关键点和相对参考帧，生成从相对参考帧到各个驱动帧的第二关键点仿射变换矩阵；

利用预先训练的运动模型对第一关键点仿射变换矩阵和第二关键点仿射变换矩阵进行处理，得到每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵。

在一个可选的实施例中，矩阵生成模块430，还用于：

获取预先训练的运动模型；

利用运动模型中的深度学习可分离卷积对第一关键点仿射变换矩阵和第二关键点仿射变换矩阵进行卷积运算，得到特征图；

对特征图进行处理，得到每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵。

在一个可选的实施例中，图像合成模块440，还用于：

获取预先训练的生成模型；

利用生成模型对源图像、关键点仿射变换矩阵和遮挡矩阵进行处理，得到肢体动作合成图像。

在一个可选的实施例中，图像合成模块440，还用于：

利用生成模型中的VGG网络提取源图像中的面部特征；

对面部特征、关键点仿射变换矩阵和遮挡矩阵进行处理，得到肢体动作合成图像。

在一个可选的实施例中，图像合成模块440，还用于：

利用ESRGAN模型的超分辨率算法对肢体动作合成图像进行处理，得到高清的肢体动作合成图像。

在一个可选的实施例中，视频合成模块450，还用于：

将高清的肢体动作合成图像编码成目标对象的肢体动作合成视频。

综上所述，本申请实施例提供的目标对象的动作驱动装置，在将肢体动作驱动视频中的驱动帧仿射变换到源图像中时，驱动帧与源图像的人体关键点差异可能会比较大，通过引入一个抽象的相对参考帧，将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡，能够提高关键点仿射变换矩阵的准确性，从而提高生成的肢体动作合成视频的准确性。

本申请一个实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的目标对象的动作驱动方法。

本申请一个实施例提供了一种计算机设备，所述计算机设备包括上述任意目标对象的动作驱动装置。

需要说明的是：上述实施例提供的目标对象的动作驱动装置在进行目标对象的动作驱动时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将目标对象的动作驱动装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标对象的动作驱动装置与目标对象的动作驱动方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种目标对象的动作驱动方法，其特征在于，所述方法包括：

2.根据权利要求1所述的目标对象的动作驱动方法，其特征在于，所述根据所述第一人体关键点、各个第二人体关键点和预设的相对参考帧，生成从每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵，包括：

3.根据权利要求2所述的目标对象的动作驱动方法，其特征在于，所述利用预先训练的运动模型对所述第一关键点仿射变换矩阵和所述第二关键点仿射变换矩阵进行处理，得到每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵，包括：

获取预先训练的运动模型；

4.根据权利要求1所述的目标对象的动作驱动方法，其特征在于，所述根据所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵，生成肢体动作合成图像，包括：

获取预先训练的生成模型；

5.根据权利要求4所述的目标对象的动作驱动方法，其特征在于，所述利用所述生成模型对所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵进行处理，得到肢体动作合成图像，包括：

6.根据权利要求1所述的目标对象的动作驱动方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的目标对象的动作驱动方法，其特征在于，所述将所述肢体动作合成图像编码成所述目标对象的肢体动作合成视频，包括：

8.一种目标对象的动作驱动装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至7任一所述的目标对象的动作驱动方法。

10.一种计算机设备，其特征在于，计算机设备包括：权利要求8所述的目标对象的动作驱动装置。