CN117689781A - 目标对象的动作驱动方法、装置、存储介质及设备 - Google Patents
目标对象的动作驱动方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN117689781A CN117689781A CN202311743811.6A CN202311743811A CN117689781A CN 117689781 A CN117689781 A CN 117689781A CN 202311743811 A CN202311743811 A CN 202311743811A CN 117689781 A CN117689781 A CN 117689781A
- Authority
- CN
- China
- Prior art keywords
- key point
- limb
- image
- affine transformation
- driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 147
- 230000033001 locomotion Effects 0.000 claims abstract description 141
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 108
- 230000009466 transformation Effects 0.000 claims abstract description 103
- 239000002131 composite material Substances 0.000 claims abstract description 39
- 230000015572 biosynthetic process Effects 0.000 claims description 31
- 238000003786 synthesis reaction Methods 0.000 claims description 31
- 230000001815 facial effect Effects 0.000 claims description 25
- 238000013135 deep learning Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 210000003414 extremity Anatomy 0.000 description 109
- 239000000284 extract Substances 0.000 description 9
- 230000007704 transition Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000001131 transforming effect Effects 0.000 description 5
- 210000003423 ankle Anatomy 0.000 description 4
- 210000002310 elbow joint Anatomy 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000001255 hallux Anatomy 0.000 description 4
- 210000003127 knee Anatomy 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 210000003371 toe Anatomy 0.000 description 4
- 210000000689 upper leg Anatomy 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 210000000707 wrist Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 210000002683 foot Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种目标对象的动作驱动方法、装置、存储介质及设备,属于图像处理技术领域。方法包括:获取包含目标对象的全身像的源图像,对源图像提取第一人体关键点;获取人体的肢体动作驱动视频,对从肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点;根据第一人体关键点、各个第二人体关键点和预设的相对参考帧,生成从每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵;根据源图像、关键点仿射变换矩阵和遮挡矩阵,生成肢体动作合成图像;将肢体动作合成图像编码成目标对象的肢体动作合成视频。本申请能提高关键点仿射变换矩阵的准确性,从而提高生成的肢体动作合成视频的准确性。
Description
技术领域
本申请涉及图像处理技术领域,特别涉及一种目标对象的动作驱动方法、装置、存储介质及设备。
背景技术
随着人工智能及计算机视觉技术的快速发展,动作驱动技术也越来越成熟,通过模拟人类身体运动机制和动作表现,实现数字人物的模拟和生成。在游戏、动画、传媒、虚拟现实等领域,大多使用传感器采集人体的运动数据,再将其转化成数字模型以模拟数字人的运动,就可以生成获取数字人的身体姿态和动作信息。
相关技术中,可以使用深度学习神经网络进行动作驱动,从而将肢体动作驱动视频中的肢体动作迁移到静态的源图像中,得到肢体动作合成视频。例如,FOMM(First OrderMotion Model for ImageAnimation,一阶运动模型)可以在不借助外设的情况下获取运动轨迹信息,包括面部以及肢体动作,然后,结合图像生成模型生成肢体动作合成视频。
然而,FOMM在肢体驱动中存在以下缺点:生成图像较为模糊、生成速度较慢、面部相似度较低且模糊。
发明内容
本申请提供了一种目标对象的动作驱动方法、装置、存储介质及设备,用于解决相关技术中的使用FOMM模型进行动作驱动时,生成图像较为模糊、生成速度较慢,面部相似度较低且模糊的问题。所述技术方案如下:
根据本申请的第一方面,提供了一种目标对象的动作驱动方法,所述方法包括:
获取包含目标对象的全身像的源图像,对所述源图像提取第一人体关键点;
获取人体的肢体动作驱动视频,对从所述肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点;
根据所述第一人体关键点、各个第二人体关键点和预设的相对参考帧,生成从每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵;
根据所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵,生成肢体动作合成图像,所述肢体动作合成图像包含所述目标对象的人脸以及所述肢体动作驱动视频中的肢体动作;
将所述肢体动作合成图像编码成所述目标对象的肢体动作合成视频。
在一种可能的实现方式中,所述根据所述第一人体关键点、各个第二人体关键点和预设的相对参考帧,生成从每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵,包括:
根据所述第一人体关键点和所述相对参考帧,生成从所述相对参考帧到所述源图像的第一关键点仿射变换矩阵;
根据各个第二人体关键点和所述相对参考帧,生成从所述相对参考帧到各个驱动帧的第二关键点仿射变换矩阵;
利用预先训练的运动模型对所述第一关键点仿射变换矩阵和所述第二关键点仿射变换矩阵进行处理,得到每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵。
在一种可能的实现方式中,所述利用预先训练的运动模型对所述第一关键点仿射变换矩阵和所述第二关键点仿射变换矩阵进行处理,得到每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵,包括:
获取预先训练的运动模型;
利用所述运动模型中的深度学习可分离卷积对所述第一关键点仿射变换矩阵和所述第二关键点仿射变换矩阵进行卷积运算,得到特征图;
对所述特征图进行处理,得到每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵。
在一种可能的实现方式中,所述根据所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵,生成肢体动作合成图像,包括:
获取预先训练的生成模型;
利用所述生成模型对所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵进行处理,得到肢体动作合成图像。
在一种可能的实现方式中,所述利用所述生成模型对所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵进行处理,得到肢体动作合成图像,包括:
利用所述生成模型中的VGG网络提取所述源图像中的面部特征;
对所述面部特征、所述关键点仿射变换矩阵和所述遮挡矩阵进行处理,得到肢体动作合成图像。
在一种可能的实现方式中,所述方法还包括:
利用ESRGAN模型的超分辨率算法对所述肢体动作合成图像进行处理,得到高清的肢体动作合成图像。
在一种可能的实现方式中,所述将所述肢体动作合成图像编码成所述目标对象的肢体动作合成视频,包括:
将高清的肢体动作合成图像编码成所述目标对象的肢体动作合成视频。
根据本申请的第二方面,提供了一种目标对象的动作驱动装置,所述装置包括:
图像获取模块,用于获取包含目标对象的全身像的源图像,对所述源图像提取第一人体关键点;
视频获取模块,用于获取人体的肢体动作驱动视频,对从所述肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点;
矩阵生成模块,用于根据所述第一人体关键点、各个第二人体关键点和预设的相对参考帧,生成从每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵;
图像合成模块,用于根据所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵,生成肢体动作合成图像,所述肢体动作合成图像包含所述目标对象的人脸以及所述肢体动作驱动视频中的肢体动作;
视频合成模块,用于将所述肢体动作合成图像编码成所述目标对象的肢体动作合成视频。
根据本申请的第三方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的目标对象的动作驱动方法。
根据本申请的第四方面,提供了一种计算机设备,所述计算机设备包括目标对象的动作驱动上述目标对象的动作驱动装置。
本申请提供的技术方案的有益效果至少包括:
在将肢体动作驱动视频中的驱动帧仿射变换到源图像中时,驱动帧与源图像的人体关键点差异可能会比较大,通过引入一个抽象的相对参考帧,将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡,能够提高关键点仿射变换矩阵的准确性,从而提高生成的肢体动作合成视频的准确性。
运动模型中包含深度学习可分离卷积,在保证关键点信息可用的前提下将特征图的通道数降为原来的一半,在模型复杂度和计算速度上有显著提升,不会影响图像的生成质量,且能够保证动作的连贯自然。
生成模型中包含VGG网络,可以提取面部细节特征向量,采用面部重建损失能更多地关注面部纹理特征,使得在驱动肢体动作的同时,保证生成的人脸的面部清晰度以及与源图像中人脸的相似度较高。
使用ESRGAN模型能够提升整体图像的分辨率,提高肢体动作合成视频的清晰度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的目标对象的动作驱动方法的流程图;
图2是本申请一个实施例提供的目标对象的动作驱动方法的流程图;
图3是本申请一个实施例提供的目标对象的动作驱动方法的流程图;
图4是本申请一个实施例提供的目标对象的动作驱动装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
如图1所示,其示出了本申请一个实施例提供的目标对象的动作驱动方法的方法流程图,该目标对象的动作驱动方法可以应用于图1所示的计算机设备中。该目标对象的动作驱动方法,可以包括:
步骤101,获取包含目标对象的全身像的源图像,对源图像提取第一人体关键点。
目标对象可以是自然人,比如,主播、演员、歌手、讲师等等。
源图像需要包含目标对象的全身像,也就是说,需要包含目标对象的人脸和四肢。
人体关键点是人体中关键部位的点,用来描述人体姿态。本实施例中,可以根据业务需求设置人体关键点的位置及数量,本实施例中不做具体限定。比如,头部的关键点包括左耳、左眼、鼻子、右耳、右眼;上身的关键点包括左手腕、左肘关节、左肩、右肩、右肘关节、右手腕、脖子;下身的关键点包括左脚踝、左膝盖、大腿根部两侧2点、大腿根部中心点、右膝盖、右脚踝;脚部的关键点包括左脚跟、左脚大脚趾、左脚小脚趾、右脚跟、右脚大脚趾、右脚小脚趾。
本实施例中,将从源图像中提取出的人体关键点称为第一人体关键点,将从肢体动作驱动视频的驱动帧中提取出的人体关键点称为第二人体关键点,以便于区分。
步骤102,获取人体的肢体动作驱动视频,对从肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点。
肢体动作驱动视频需要包含人体的肢体动作,这里的人体可以是自然人,也可以是虚拟的数字人。比如,肢体动作驱动视频可以是舞蹈视频、运动视频等。
计算机设备按照预设的采样频率从肢体动作驱动视频中提取出多个驱动帧,对每个驱动帧提取第二人体关键点。
步骤103,根据第一人体关键点、各个第二人体关键点和预设的相对参考帧,生成从每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵。
关键点仿射变换矩阵用于将驱动帧中的肢体动作仿射变换到源图像中,使目标对象做出同样的肢体动作。
遮挡矩阵用于定义肢体动作合成图像中的仿射变化部分和图像生成部分,其中,仿射变换部分是通过关键点仿射变换矩阵计算得到的,图像生成部分是通过生成模型生成的。
驱动帧与源图像的人体关键点差异可能会比较大,通过引入一个抽象的相对参考帧,将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡,能够提高关键点仿射变换矩阵的准确性,从而提高生成的肢体动作合成视频的准确性。
步骤104,根据源图像、关键点仿射变换矩阵和遮挡矩阵,生成肢体动作合成图像,该肢体动作合成图像包含目标对象的人脸以及肢体动作驱动视频中的肢体动作。
肢体动作合成图像是将驱动帧中的肢体动作合成到源图像后形成的图像,具体生成方式详见下文中的描述,此处不作赘述。
步骤105,将肢体动作合成图像编码成目标对象的肢体动作合成视频。
综上所述,本申请实施例提供的目标对象的动作驱动方法,在将肢体动作驱动视频中的驱动帧仿射变换到源图像中时,驱动帧与源图像的人体关键点差异可能会比较大,通过引入一个抽象的相对参考帧,将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡,能够提高关键点仿射变换矩阵的准确性,从而提高生成的肢体动作合成视频的准确性。
如图2所示,其示出了本申请一个实施例提供的目标对象的动作驱动方法的流程图,该目标对象的动作驱动方法可以应用于图1所示的计算机设备中。该目标对象的动作驱动方法,可以包括:
步骤201,获取包含目标对象的全身像的源图像,对源图像提取第一人体关键点。
目标对象可以是自然人,比如,主播、演员、歌手、讲师等等。
源图像需要包含目标对象的全身像,也就是说,需要包含目标对象的人脸和四肢。
人体关键点是人体中关键部位的点,用来描述人体姿态。本实施例中,可以根据业务需求设置人体关键点的位置及数量,本实施例中不做具体限定。比如,头部的关键点包括左耳、左眼、鼻子、右耳、右眼;上身的关键点包括左手腕、左肘关节、左肩、右肩、右肘关节、右手腕、脖子;下身的关键点包括左脚踝、左膝盖、大腿根部两侧2点、大腿根部中心点、右膝盖、右脚踝;脚部的关键点包括左脚跟、左脚大脚趾、左脚小脚趾、右脚跟、右脚大脚趾、右脚小脚趾。
本实施例中,将从源图像中提取出的人体关键点称为第一人体关键点,将从肢体动作驱动视频的驱动帧中提取出的人体关键点称为第二人体关键点,以便于区分。
步骤202,获取人体的肢体动作驱动视频,对从肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点。
肢体动作驱动视频需要包含人体的肢体动作,这里的人体可以是自然人,也可以是虚拟的数字人。比如,肢体动作驱动视频可以是舞蹈视频、运动视频等。
计算机设备按照预设的采样频率从肢体动作驱动视频中提取出多个驱动帧,对每个驱动帧提取第二人体关键点。
步骤203,根据第一人体关键点和相对参考帧,生成从相对参考帧到源图像的第一关键点仿射变换矩阵。
相对参考帧是一个虚拟帧,在后续的计算过程中会被抵消掉,本实施例中不限定相对参考帧的具体内容和提取方式。
驱动帧与源图像的人体关键点差异可能会比较大,通过引入一个抽象的相对参考帧,将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡。
本实施例中将从相对参考帧到源图像的关键点仿射变换矩阵称为第一关键点仿射变换矩阵,将从相对参考帧到驱动帧的关键点仿射变换矩阵称为第二关键点仿射变换矩阵,以便于区分。
若将源图像记为S,相对参考帧记为R,则第一关键点仿射变换矩阵可以表示为TR→S。
步骤204,根据各个第二人体关键点和相对参考帧,生成从相对参考帧到各个驱动帧的第二关键点仿射变换矩阵。
若将驱动帧记为D,相对参考帧记为R,则第二关键点仿射变换矩阵可以表示为TR→D。
步骤205,利用预先训练的运动模型对第一关键点仿射变换矩阵和第二关键点仿射变换矩阵进行处理,得到每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵。
关键点仿射变换矩阵用于将驱动帧中的肢体动作仿射变换到源图像中,使目标对象做出同样的肢体动作。若将源图像记为S,驱动帧记为D,相对参考帧记为R,则关键点仿射变换矩阵可以表示为TD→S。
遮挡矩阵用于定义肢体动作合成图像中的仿射变化部分和图像生成部分,其中,仿射变换部分是通过关键点仿射变换矩阵计算得到的,图像生成部分是通过生成模型生成的。若将源图像记为S,驱动帧记为D,则遮挡矩阵可以表示为OD→S。
具体的,利用预先训练的运动模型(MotionModule)对第一关键点仿射变换矩阵和第二关键点仿射变换矩阵进行处理,得到每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵,可以包括:获取预先训练的运动模型;利用运动模型中的深度学习可分离卷积对第一关键点仿射变换矩阵和第二关键点仿射变换矩阵进行卷积运算,得到特征图;对特征图进行处理,得到每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵。
其中,运动模型中包含深度学习可分离卷积,在保证关键点信息可用的前提下将特征图的通道数降为原来的一半,在模型复杂度和计算速度上有显著提升,不会影响图像的生成质量,且能够保证动作的连贯自然。
步骤206,获取预先训练的生成模型,利用生成模型对源图像、关键点仿射变换矩阵和遮挡矩阵进行处理,得到肢体动作合成图像,该肢体动作合成图像包含目标对象的人脸以及肢体动作驱动视频中的肢体动作。
肢体动作合成图像是将驱动帧中的肢体动作合成到源图像后形成的图像。
具体的,利用生成模型(Generation Module)对源图像、关键点仿射变换矩阵和遮挡矩阵进行处理,得到肢体动作合成图像,可以包括:利用生成模型中的VGG网络提取源图像中的面部特征;对面部特征、关键点仿射变换矩阵和遮挡矩阵进行处理,得到肢体动作合成图像。
其中,生成模型中包含VGG网络,可以提取面部细节特征向量,采用面部重建损失能更多地关注面部纹理特征,使得在驱动肢体动作的同时,保证生成的人脸的面部清晰度以及与源图像中人脸的相似度较高。
步骤207,利用ESRGAN模型的超分辨率算法对肢体动作合成图像进行处理,得到高清的肢体动作合成图像。
ESRGAN模型中包含超分辨率算法,会用该超分辨率算法对肢体动作合成图像进行处理,可以提高肢体动作合成图像的清晰度。
步骤208,将高清的肢体动作合成图像编码成目标对象的肢体动作合成视频。
计算机设备对所有高清的肢体动作合成图像进行编码,得到肢体动作合成视频。比如,将一位明星的全身像和一位数字人的舞蹈视频进行合成,即可得到明星跳舞的视频。
图3示出了目标对象的动作驱动方法的流程,即先对肢体动作驱动视频进行视频解码,得到驱动帧D,再基于相对参考帧,分别对驱动帧D和源图像S进行关键点检测,得到第一关键点仿射变换矩阵TR→S和第二关键点仿射变换矩阵TR→D;通过运动模型(MotionModule)对第一关键点仿射变换矩阵TR→S和第二关键点仿射变换矩阵TR→D进行处理,得到关键点仿射变换矩阵TD→S和遮挡矩阵OD→S,通过生成模型(GenerationModule)对源图像S、关键点仿射变换矩阵TD→S和遮挡矩阵OD→S进行处理,得到生成图像(肢体动作合成图像),通过ESRGAN模型对生成图像进行处理,得到清晰度更高的生成图像;对生成图像进行编码可以得到输出视频(肢体动作合成视频)。
综上所述,本申请实施例提供的目标对象的动作驱动方法,在将肢体动作驱动视频中的驱动帧仿射变换到源图像中时,驱动帧与源图像的人体关键点差异可能会比较大,通过引入一个抽象的相对参考帧,将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡,能够提高关键点仿射变换矩阵的准确性,从而提高生成的肢体动作合成视频的准确性。
运动模型中包含深度学习可分离卷积,在保证关键点信息可用的前提下将特征图的通道数降为原来的一半,在模型复杂度和计算速度上有显著提升,不会影响图像的生成质量,且能够保证动作的连贯自然。
生成模型中包含VGG网络,可以提取面部细节特征向量,采用面部重建损失能更多地关注面部纹理特征,使得在驱动肢体动作的同时,保证生成的人脸的面部清晰度以及与源图像中人脸的相似度较高。
使用ESRGAN模型能够提升整体图像的分辨率,提高肢体动作合成视频的清晰度。
如图4所示,其示出了本申请一个实施例提供的目标对象的动作驱动装置的结构框图,该目标对象的动作驱动装置可以应用于图1所示的计算机设备中。该目标对象的动作驱动装置,可以包括:
图像获取模块410,用于获取包含目标对象的全身像的源图像,对源图像提取第一人体关键点;
视频获取模块420,用于获取人体的肢体动作驱动视频,对从肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点;
矩阵生成模块430,用于根据第一人体关键点、各个第二人体关键点和预设的相对参考帧,生成从每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵;
图像合成模块440,用于根据源图像、关键点仿射变换矩阵和遮挡矩阵,生成肢体动作合成图像,肢体动作合成图像包含目标对象的人脸以及肢体动作驱动视频中的肢体动作;
视频合成模块450,用于将肢体动作合成图像编码成目标对象的肢体动作合成视频。
在一个可选的实施例中,矩阵生成模块430,还用于:
根据第一人体关键点和相对参考帧,生成从相对参考帧到源图像的第一关键点仿射变换矩阵;
根据各个第二人体关键点和相对参考帧,生成从相对参考帧到各个驱动帧的第二关键点仿射变换矩阵;
利用预先训练的运动模型对第一关键点仿射变换矩阵和第二关键点仿射变换矩阵进行处理,得到每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵。
在一个可选的实施例中,矩阵生成模块430,还用于:
获取预先训练的运动模型;
利用运动模型中的深度学习可分离卷积对第一关键点仿射变换矩阵和第二关键点仿射变换矩阵进行卷积运算,得到特征图;
对特征图进行处理,得到每个驱动帧到源图像的关键点仿射变换矩阵和遮挡矩阵。
在一个可选的实施例中,图像合成模块440,还用于:
获取预先训练的生成模型;
利用生成模型对源图像、关键点仿射变换矩阵和遮挡矩阵进行处理,得到肢体动作合成图像。
在一个可选的实施例中,图像合成模块440,还用于:
利用生成模型中的VGG网络提取源图像中的面部特征;
对面部特征、关键点仿射变换矩阵和遮挡矩阵进行处理,得到肢体动作合成图像。
在一个可选的实施例中,图像合成模块440,还用于:
利用ESRGAN模型的超分辨率算法对肢体动作合成图像进行处理,得到高清的肢体动作合成图像。
在一个可选的实施例中,视频合成模块450,还用于:
将高清的肢体动作合成图像编码成目标对象的肢体动作合成视频。
综上所述,本申请实施例提供的目标对象的动作驱动装置,在将肢体动作驱动视频中的驱动帧仿射变换到源图像中时,驱动帧与源图像的人体关键点差异可能会比较大,通过引入一个抽象的相对参考帧,将相对参考帧作为计算驱动帧到源图像的关键点仿射变换矩阵的过渡,能够提高关键点仿射变换矩阵的准确性,从而提高生成的肢体动作合成视频的准确性。
运动模型中包含深度学习可分离卷积,在保证关键点信息可用的前提下将特征图的通道数降为原来的一半,在模型复杂度和计算速度上有显著提升,不会影响图像的生成质量,且能够保证动作的连贯自然。
生成模型中包含VGG网络,可以提取面部细节特征向量,采用面部重建损失能更多地关注面部纹理特征,使得在驱动肢体动作的同时,保证生成的人脸的面部清晰度以及与源图像中人脸的相似度较高。
使用ESRGAN模型能够提升整体图像的分辨率,提高肢体动作合成视频的清晰度。
本申请一个实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的目标对象的动作驱动方法。
本申请一个实施例提供了一种计算机设备,所述计算机设备包括上述任意目标对象的动作驱动装置。
需要说明的是:上述实施例提供的目标对象的动作驱动装置在进行目标对象的动作驱动时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将目标对象的动作驱动装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的目标对象的动作驱动装置与目标对象的动作驱动方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。
Claims (10)
1.一种目标对象的动作驱动方法,其特征在于,所述方法包括:
获取包含目标对象的全身像的源图像,对所述源图像提取第一人体关键点;
获取人体的肢体动作驱动视频,对从所述肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点;
根据所述第一人体关键点、各个第二人体关键点和预设的相对参考帧,生成从每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵;
根据所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵,生成肢体动作合成图像,所述肢体动作合成图像包含所述目标对象的人脸以及所述肢体动作驱动视频中的肢体动作;
将所述肢体动作合成图像编码成所述目标对象的肢体动作合成视频。
2.根据权利要求1所述的目标对象的动作驱动方法,其特征在于,所述根据所述第一人体关键点、各个第二人体关键点和预设的相对参考帧,生成从每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵,包括:
根据所述第一人体关键点和所述相对参考帧,生成从所述相对参考帧到所述源图像的第一关键点仿射变换矩阵;
根据各个第二人体关键点和所述相对参考帧,生成从所述相对参考帧到各个驱动帧的第二关键点仿射变换矩阵;
利用预先训练的运动模型对所述第一关键点仿射变换矩阵和所述第二关键点仿射变换矩阵进行处理,得到每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵。
3.根据权利要求2所述的目标对象的动作驱动方法,其特征在于,所述利用预先训练的运动模型对所述第一关键点仿射变换矩阵和所述第二关键点仿射变换矩阵进行处理,得到每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵,包括:
获取预先训练的运动模型;
利用所述运动模型中的深度学习可分离卷积对所述第一关键点仿射变换矩阵和所述第二关键点仿射变换矩阵进行卷积运算,得到特征图;
对所述特征图进行处理,得到每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵。
4.根据权利要求1所述的目标对象的动作驱动方法,其特征在于,所述根据所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵,生成肢体动作合成图像,包括:
获取预先训练的生成模型;
利用所述生成模型对所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵进行处理,得到肢体动作合成图像。
5.根据权利要求4所述的目标对象的动作驱动方法,其特征在于,所述利用所述生成模型对所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵进行处理,得到肢体动作合成图像,包括:
利用所述生成模型中的VGG网络提取所述源图像中的面部特征;
对所述面部特征、所述关键点仿射变换矩阵和所述遮挡矩阵进行处理,得到肢体动作合成图像。
6.根据权利要求1所述的目标对象的动作驱动方法,其特征在于,所述方法还包括:
利用ESRGAN模型的超分辨率算法对所述肢体动作合成图像进行处理,得到高清的肢体动作合成图像。
7.根据权利要求6所述的目标对象的动作驱动方法,其特征在于,所述将所述肢体动作合成图像编码成所述目标对象的肢体动作合成视频,包括:
将高清的肢体动作合成图像编码成所述目标对象的肢体动作合成视频。
8.一种目标对象的动作驱动装置,其特征在于,所述装置包括:
图像获取模块,用于获取包含目标对象的全身像的源图像,对所述源图像提取第一人体关键点;
视频获取模块,用于获取人体的肢体动作驱动视频,对从所述肢体动作驱动视频中提取的各个驱动帧提取第二人体关键点;
矩阵生成模块,用于根据所述第一人体关键点、各个第二人体关键点和预设的相对参考帧,生成从每个驱动帧到所述源图像的关键点仿射变换矩阵和遮挡矩阵;
图像合成模块,用于根据所述源图像、所述关键点仿射变换矩阵和所述遮挡矩阵,生成肢体动作合成图像,所述肢体动作合成图像包含所述目标对象的人脸以及所述肢体动作驱动视频中的肢体动作;
视频合成模块,用于将所述肢体动作合成图像编码成所述目标对象的肢体动作合成视频。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7任一所述的目标对象的动作驱动方法。
10.一种计算机设备,其特征在于,计算机设备包括:权利要求8所述的目标对象的动作驱动装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311743811.6A CN117689781A (zh) | 2023-12-18 | 2023-12-18 | 目标对象的动作驱动方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311743811.6A CN117689781A (zh) | 2023-12-18 | 2023-12-18 | 目标对象的动作驱动方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117689781A true CN117689781A (zh) | 2024-03-12 |
Family
ID=90129935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311743811.6A Pending CN117689781A (zh) | 2023-12-18 | 2023-12-18 | 目标对象的动作驱动方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117689781A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109951654A (zh) * | 2019-03-06 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种视频合成的方法、模型训练的方法以及相关装置 |
CN113870313A (zh) * | 2021-10-18 | 2021-12-31 | 南京硅基智能科技有限公司 | 一种动作迁移方法 |
CN114612595A (zh) * | 2022-03-07 | 2022-06-10 | 中国平安人寿保险股份有限公司 | 视频生成方法、装置、计算机设备和存储介质 |
CN114998814A (zh) * | 2022-08-04 | 2022-09-02 | 广州此声网络科技有限公司 | 目标视频生成方法、装置、计算机设备和存储介质 |
-
2023
- 2023-12-18 CN CN202311743811.6A patent/CN117689781A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109951654A (zh) * | 2019-03-06 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种视频合成的方法、模型训练的方法以及相关装置 |
CN113870313A (zh) * | 2021-10-18 | 2021-12-31 | 南京硅基智能科技有限公司 | 一种动作迁移方法 |
CN114612595A (zh) * | 2022-03-07 | 2022-06-10 | 中国平安人寿保险股份有限公司 | 视频生成方法、装置、计算机设备和存储介质 |
CN114998814A (zh) * | 2022-08-04 | 2022-09-02 | 广州此声网络科技有限公司 | 目标视频生成方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Object-occluded human shape and pose estimation from a single color image | |
Balakrishnan et al. | Synthesizing images of humans in unseen poses | |
CN110599573B (zh) | 一种基于单目相机的人脸实时交互动画的实现方法 | |
Ersotelos et al. | Building highly realistic facial modeling and animation: a survey | |
Kim et al. | Recurrent temporal aggregation framework for deep video inpainting | |
Wei et al. | GAC-GAN: A general method for appearance-controllable human video motion transfer | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN111899320A (zh) | 数据处理的方法、动捕去噪模型的训练方法及装置 | |
CN110147737B (zh) | 用于生成视频的方法、装置、设备和存储介质 | |
CN113807265A (zh) | 一种多样化的人脸图像合成方法及系统 | |
Chen et al. | Markerless monocular motion capture using image features and physical constraints | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN114863533A (zh) | 数字人生成方法和装置及存储介质 | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
CN115497149A (zh) | 一种汽车座舱的音乐交互方法 | |
Zhu et al. | Champ: Controllable and consistent human image animation with 3d parametric guidance | |
Krishna et al. | Gan based indian sign language synthesis | |
CN117689781A (zh) | 目标对象的动作驱动方法、装置、存储介质及设备 | |
Sun et al. | Robust pose transfer with dynamic details using neural video rendering | |
Wei et al. | OAW-GAN: occlusion-aware warping GAN for unified human video synthesis | |
CN115880766A (zh) | 姿态迁移、姿态迁移模型训练方法、装置和存储介质 | |
Agianpuye et al. | 3d facial expression synthesis: a survey | |
Hu et al. | Pathosisgan: sick face image synthesis with generative adversarial network | |
Gan et al. | Fine-Grained Multi-View Hand Reconstruction Using Inverse Rendering | |
Chang et al. | Pose-variant 3D facial attribute generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |