CN114863013A - 一种目标物体三维模型重建方法 - Google Patents
一种目标物体三维模型重建方法 Download PDFInfo
- Publication number
- CN114863013A CN114863013A CN202210310293.8A CN202210310293A CN114863013A CN 114863013 A CN114863013 A CN 114863013A CN 202210310293 A CN202210310293 A CN 202210310293A CN 114863013 A CN114863013 A CN 114863013A
- Authority
- CN
- China
- Prior art keywords
- target object
- video
- dimensional
- key point
- video frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种目标物体三维模型重建方法,包括:获取待检测视频中各视频帧图像对应的图像特征信息及目标物体二维关键点序列;根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列;对所述图像特征信息、所述目标物体二维关键点序列、及所述目标物体三维关键点序列进行连接处理,获取目标物体对应的特征序列;根据所述目标物体对应的特征序列,获取目标物体三维模型。该方法将关键点序列作为模型输入元素的一部分,提高了模型关键点预测的准确性,使待检测视频各视频帧图像对应的目标物体三维模型间姿态变化更加流畅、真实。
Description
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种目标物体三维模型重建方法、训练方法、装置、电子设备以及计算机可读存储介质。
背景技术
随着计算机科技的快速发展,利用三维重建技术对图片或视频进行物体三维模型重建被广泛应用于虚拟现实(Virtual Reality,VR)、增强现实(Augmented Reality,AR)、混合现实(Mix Reality,MR)、人机交互、运动分析、医学保健等多种领域中。
现有的基于视频的物体三维模型重建技术,主要是利用预训练的神经网络逐帧提取视频各帧图像的特征,然后用神经网络计算并预测每一帧图像的模型参数,最后用损失函数优化整个神经网络。在三维模型重建过程中,由于模型的参数化,使得模型参数与图像之间存在语义鸿沟,会导致模型关键点预测不准确、视频的各视频帧图像对应的模型间姿态变化幅度大、不真实的问题。
发明内容
本申请提供了一种目标物体三维模型重建方法以解决现有三维模型重建方法中模型关键点预测不准确、视频的各视频帧图像对应的模型间姿态变化幅度大、不真实的技术问题。
本申请实施例提供了一种目标物体三维模型重建方法,包括:
获取待检测视频中各视频帧图像对应的图像特征信息及待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列;
根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列;
对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列;
根据所述待检测视频中各视频帧图像中的目标物体对应的特征序列,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型。
可选的,所述根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列,包括:通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列。
可选的,所述姿态先验网络包括第一全连接层、残差块、及第二全连接层,所述通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列,包括:
基于第一全连接层将所述目标物体二维关键点序列转换为目标物体二维关键点特征向量;
基于残差块将所述目标物体二维关键点特征向量转换为目标物体三维关键点特征向量;
基于第二全连接层将所述目标物体三维关键点特征向量转换为所述目标物体三维关键点序列。
可选的,所述通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列,还包括:将所述目标物体二维关键点序列及所述目标物体三维关键点序列共同作为所述姿态先验网络的输出。
可选的,所述对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列,包括:对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行维度加和,将相同维度的求和结果组合为所述待检测视频中各视频帧图像中的目标物体对应的特征序列。
可选的,所述对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列,还包括:在所述待检测视频中各视频帧图像中的目标物体对应的特征序列中加入所述待检测视频中各视频帧图像对应的位置向量。
可选的,所述根据所述待检测视频中各视频帧图像中的目标物体对应的特征序列,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型,包括:
基于编码器对所述待检测视频中各视频帧图像中的目标物体对应的特征序列进行时序编码处理,获取编码后的待检测视频中各视频帧图像中的目标物体对应的特征序列;
基于参数回归网络对所述编码后的待检测视频中各视频帧图像中的目标物体对应的特征序列进行解码处理,获取待检测视频中各视频帧图像中的目标物体对应的目标物体姿态参数、待检测视频中各视频帧图像中的目标物体对应的目标物体形状参数、及待检测视频中各视频帧图像中的目标物体对应的目标物体相机参数;
根据所述目标物体姿态参数、所述目标物体形状参数、及所述目标物体相机参数,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型。
本申请实施例还提供一种目标物体三维模型重建模型的训练方法,应用于目标物体三维模型重建模型,所述目标物体三维模型重建模型通过上述目标物体三维模型重建方法对数据集中获取的至少一个视频进行目标物体三维模型重建,获取所述视频中各视频帧图像中的目标物体对应的目标物体姿态参数、所述视频中各视频帧图像中的目标物体对应的目标物体形状参数、及所述视频中各视频帧图像中的目标物体对应的目标物体相机参数,所述训练方法包括:
根据所述目标物体姿态参数和所述目标物体形状参数获取模型参数损失;
根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失;
根据所述目标物体姿态参数获取生成对抗损失;
根据所述模型参数损失、所述二维关键点损失、所述三维关键点损失、所述生成对抗损失获取目标物体三维模型总损失;
根据所述目标物体三维模型总损失对所述目标物体三维模型重建模型进行迭代训练。
可选的,所述根据所述目标物体姿态参数和所述目标物体形状参数获取模型参数损失,包括:
从所述数据集中获取所述视频中各视频帧图像中的目标物体对应的模型参数;
以从所述数据集中获取的所述视频中各视频帧图像中的目标物体对应的模型参数作为真值,计算所述模型参数损失。
可选的,所述根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失,包括:
从所述数据集中获取所述视频中各视频帧图像中的目标物体对应的二维关键点序列;
以从所述数据集中获取的所述视频中各视频帧图像中的目标物体对应的二维关键点序列作为真值,计算所述二维关键点损失。
可选的,所述根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失,还包括:
通过所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数,计算所述视频中各视频帧图像中的目标物体对应的三维关键点序列;
以计算得到的所述视频中各视频帧图像中的目标物体对应的三维关键点序列作为真值,计算所述三维关键点损失。
可选的,所述根据所述目标物体姿态参数获取生成对抗损失,包括:基于时序判别网络对所述目标物体姿态参数进行损失计算。
本申请实施例还提供一种目标物体三维模型重建装置,其特征在于,包括:获取单元、姿态先验单元、连接单元、重建单元;
所述获取单元,用于获取待检测视频中各视频帧图像对应的图像特征信息及待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列;
所述姿态先验单元,用于根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列;
所述连接单元,用于对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列;
所述重建单元,用于根据所述待检测视频中各视频帧图像中的目标物体对应的特征序列,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型。
本申请实施例还提供一种目标物体三维模型重建模型的训练装置,其特征在于,包括:重建单元、模型参数损失获取单元、关键点损失获取单元、生成对抗损失获取单元、总损失获取单元、训练单元;
所述重建单元,用于对数据集中获取的至少一个视频进行目标物体三维模型重建,获取所述视频中各视频帧图像中的目标物体对应的目标物体姿态参数、所述视频中各视频帧图像中的目标物体对应的目标物体形状参数、及所述视频中各视频帧图像中的目标物体对应的目标物体相机参数;
所述模型参数损失获取单元,用于根据所述目标物体姿态参数和所述目标物体形状参数获取模型参数损失;
所述关键点损失获取单元,用于根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失;
所述生成对抗损失获取单元,用于根据所述目标物体姿态参数获取生成对抗损失;
所述总损失获取单元,用于根据所述模型参数损失、所述二维关键点损失、所述三维关键点损失、所述生成对抗损失获取目标物体三维模型总损失;
所述训练单元,用于根据所述目标物体三维模型总损失对所述目标物体三维模型重建模型进行迭代训练。
本申请实施例还提供一种电子设备,其特征在于,包括:采集器、处理器和存储器;
所述采集器,用于采集待检测视频;
所述存储器,用于存储一条或多条计算机指令;
所述处理器,用于执行所述一条或多条计算机指令,以实现上述目标物体三维模型重建方法。
本申请实施例还提供一种电子设备,其特征在于,包括:收集器、处理器和存储器;
所述收集器,用于收集数据集中的至少一个视频;
所述存储器,用于存储一条或多条计算机指令;
所述处理器,用于执行所述一条或多条计算机指令,以实现上述目标物体三维模型重建模型的训练方法。
本申请实施例还提供一种计算机可读存储介质,其上存储有一条或多条计算机指令,其特征在于,该指令被处理器执行以实现上述方法。
与现有技术相比,本申请提供的目标物体三维模型重建方法,包括:获取待检测视频中各视频帧图像对应的图像特征信息及待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列;根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列;对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列;根据所述待检测视频中各视频帧图像中的目标物体对应的特征序列,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型。
该方法通过获取待检测视频中各视频帧图像对应的图像特征信息和目标物体对应的目标物体二维关键点序列,并将目标物体二维关键点序列转化为目标物体三维关键点序列,以待检测视频中各视频帧图像对应的图像特征信息、目标物体二维关键点序列和目标物体三维关键点序列共同作为输入元素,获取待检测视频中各视频帧图像对应的目标物体三维模型。本申请提供的目标物体三维模型重建方法,将关键点序列作为输入元素的一部分,增强了在目标物体三维模型重建过程中对关键点的监督,提高了模型关键点预测的准确性,使待检测视频各视频帧图像对应的目标物体三维模型间姿态变化更加流畅、真实;本方法尤其适用于人体的三维模型重建。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种目标物体三维模型重建方法的应用系统图;
图2为本申请实施例提供的又一种目标物体三维模型重建方法的应用系统图;
图3为本申请一实施例提供的目标物体三维模型重建方法的流程图;
图4为本申请另一实施例提供的目标物体三维模型重建方法的流程示意图;
图5为本申请一实施例提供的将二维关键点序列转换为三维关键点序列的流程图;
图6为本申请另一实施例提供的将二维关键点序列转换为三维关键点序列的流程示意图;
图7为本申请一实施例提供的根据特征序列获取目标物体三维模型的流程图;
图8为本申请一实施例提供的目标物体三维模型重建方法所重建的三维模型的结果示例图;
图9为本申请另一实施例提供的目标物体三维模型重建模型的训练方法的流程图;
图10为本申请另一实施例提供的目标物体三维模型重建装置的结构示意图;
图11为本申请另一实施例提供的目标物体三维模型重建模型的训练装置的结构示意图;
图12为本申请一实施例提供的电子设备的结构示意图;
图13为本申请另一实施例提供的电子设备的结构示意图。
具体实施方式
为了使本领域的技术人员能够更好的理解本申请的技术方案,下面结合本申请实施例中的附图,对本申请进行清楚、完整地描述。但本申请能够以很多不同于上述描述的其他方式进行实施,因此,基于本申请提供的实施例,本领域普通技术人员在不经过创造性劳动的情况下,所获得的所有其他实施例,都应属于本申请保护的范围。
需要说明的是,本申请的权利要求书、说明书及附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,并不用于描述特定的顺序或先后次序。这样使用的数据在适当情况下是可以互换的,以便于本文所描述的本申请的实施例,能够以除了在本文图示或描述的内容以外的顺序实施。此外,术语“包括”、“具有”以及他们的变形形式,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请提供的目标物体三维模型重建方法,包括对视频或图片中所包含的人物、动物或机器等物体的三维模型重建。本申请实施例主要以人体作为目标物体,对本申请提供的方法进行详细说明。
人体三维模型是一个参数化模型,即,可以通过参数改变人体姿态和体型的模型。体型一般由一个标准的人体顶点模型和多个偏移模板构成,通过人体顶点模型和偏移模板的线性组合,可以获得不同的体型,姿态一般由关节点位置信息和关节旋转信息构成,通过铰链运动和蒙皮信息使人体得到不同的姿态。
蒙皮多人体线性模型(Skinned Multi-Person Linear model,SMPL)是一种基于蒙皮顶点的体积模型,它可以表示各种人体形状及姿态,并且可以显示出人体处于不同姿态时引起的皮肤等软组织形变,比如:能够显示出肢体运动过程中肌肉的凸起和凹陷,能够精准的展示出肌肉拉伸以及收缩运动的形貌。
蒙皮多人体线性模型的重建依赖于各项参数,包括姿态参数、形状参数和相机参数。其中姿态参数是指可以表征人体三维模型姿态的参数,比如:人是站着还是坐着,嘴巴是否张开,是微笑还是大笑,又比如:小臂相对于大臂的弯曲程度(即,各关节点相对于其父节点的旋转量)等。形状参数是指可以表征人体三维模型形状的参数,比如:高、矮、胖、瘦,又比如:脸部轮廓、五官形状和大小等。相机参数是指建立相机成像的几何模型的参数。人体三维模型重建的任务就是要从视频或图像预测出姿态参数、形状参数、及相机参数。
现有的基于视频的人体三维模型重建方法,一般包括三个步骤。第一,利用预训练的神经网络逐帧提取待检测视频中各视频帧图像对应的特征信息;第二,通过神经网络对提取的待检测视频中各视频帧图像对应的特征信息进行计算,并预测出待检测视频中各视频帧图像中的人体对应的姿态参数、人体对应的形状参数和人体对应的相机参数;第三,根据预测的姿态参数、形状参数和相机参数重建待检测视频中各视频帧图像中的人体对应的人体三维模型。
由于重建的人体三维模型是一个参数化的模型,而上述现有的人体三维模型重建方法中仅将图像对应的特征信息作为输入元素,进行人体三维模型的重建,那么就会导致模型参数与图像间存在语义鸿沟,使模型关键点预测不准确、待检测视频中各视频帧图像对应的模型姿态变化幅度大、不真实。
针对上述现有的人体三维模型重建方法存在的问题,本申请提供了一种目标物体三维模型重建方法,将待检测视频中各视频帧图像对应的关键点序列(包括:二维关键点序列和三维关键点序列)与特征信息共同作为输入元素,用以重建人体三维模型。由于在人体三维模型重建过程中,同时引入了二维关键点和三维关键点,加强了对关键点的监督,从而缩小了计算出的模型参数与图像间的语义鸿沟,加强了模型关键点预测的准确定,提高了待检测视频中各视频帧图像对应的模型姿态的连续性与真实性。
下面结合具体实施例及附图对本申请所述的目标物体三维模型重建方法、训练方法、装置、电子设备以及计算机可读存储介质做进一步详细说明。
图1是本申请实施例提供的一种目标物体三维模型重建方法的应用系统图。如图1所示,所述应用系统,包括:第一终端101、第二终端102。所述第一终端101和所述第二终端102通过网络进行通信连接。所述第一终端101可以是各种形式的视频采集装置,如摄像头、照相机等。所述第二终端102可以是计算机终端,如,笔记本电脑、台式电脑等设备;也可以是触控终端,如,智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等设备。当然,所述第一终端101也可以是所述第二终端102的一部分。第一终端101对待检测视频进行采集,通过网络发送给第二终端102,第二终端102对接收的待检测视频进行目标物体三维模型重建。
图2是本申请实施例提供的又一种目标物体三维模型重建方法的应用系统图。如图2所示,所述应用系统,包括:终端201、服务器202。所述终端201和所述服务器202通过网络进行通信连接。所述终端201可以是各种形式的视频采集装置,如摄像头、照相机等,可以是一个,也可以是多个。所述服务器202可以是独立的服务器,部署本申请提供的目标物体三维模型重建方法,也可以是多个服务器组成的服务器群,其中每一个服务器部署本申请提供的目标物体三维模型重建方法的一个模块,比如:特征提取服务器、关键点转换服务器、时序编码服务器等。当然,所述服务器202还可以是云端服务器,将本申请提供的目标物体三维模型重建方法部署在云端服务器上。终端201对待检测视频进行采集,通过网络上传至服务器202,服务器202对待检测视频进行目标物体三维模型重建。
该目标物体三维模型重建方法的应用系统可以被应用到虚拟现实(VirtualReality,VR)、增强现实(Augmented Reality,AR)、混合现实(Mix Reality,MR)、人机交互、运动分析、医学保健等多种领域中。
图3是本实施例提供的目标物体三维模型重建方法的流程图。图4是本实施例以人体作为目标物体,提供的目标物体三维模型重建方法的流程示意图。以下结合图3和图4,以人体作为目标物体,对本实施例提供的目标物体三维模型重建方法进行详细描述。以下描述所涉及的实施例用于解释本申请的技术方案,并不作为实际使用的限定。
如图3所述,本实施例提供的目标物体三维模型重建方法包括如下步骤:
步骤S301,获取待检测视频401中各视频帧图像对应的图像特征信息402-1及待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列402-2。
视频可以被分为多个视频帧,每一个视频帧对应一个图像,因此一个视频可以被分为多个视频帧图像。基于视频的目标物体三维模型重建,实际上是对视频中各视频帧图像一一进行目标物体三维模型重建,然后将视频中各视频帧图像对应的目标物体三维模型拼接为视频对应的目标物体三维重建视频。
本实施例提供的图像特征信息获取方法,包括:通过预训练的卷积神经网络对待检测视频中各视频帧图像对应的图像特征信息进行提取。
所述神经网络(Neural Networks,NNs),是由若干神经元及其参数组成的,是一种通过大量的示例来“学习”而执行任务的系统,通常不使用特定于任务的规则进行编程。例如,在图像识别中,神经网络可以通过分析标记为“猫”或“不是猫”的示例图像对猫的特征进行学习,并使用学习结果来识别其他图像是否含有猫。在神经网络的学习中,并不会向神经网络直接输入猫的特征,而是输入标记为猫的示例图像,神经网络通过迭代学习,就会根据示例图像自动生成表示猫的特征信息。
所述卷积神经网络(Convolutional Neural Networks,CNN),是神经网络的一种,它将若干个神经元组织成一个卷积层,数据从输入开始,靠神经元之间的连接,在若干卷积层中顺序传播,直至最终输出。卷积神经网络还可以依据人为指定的优化目标计算误差,靠反向传播与梯度下降法迭代更新神经网络的参数,使网络得到优化。
本步骤中的卷积神经网络可以采用ResNet-50网络结构,使用预训练的参数,为待检测视频中每一个视频帧图像提取对应的图像特征信息,提取的图像特征信息可以表示为多维度的向量(比如:维度为C×H×W的向量,其中C表示通道数、H表示图像的高、W表示图像的宽)。
本实施例提供的二维关键点序列获取方法,包括:利用OpenPose对待检测视频中各视频帧图像对应的二维关键点序列进行提取。
所述OpenPose,是基于卷积神经网络和监督学习并以caffe为框架开发的人体姿态识别项目,可以对图像中单人或多人的人体动作、面部表情、手指运动等姿态进行估计,同时对人体、手部、面部等多个关键点进行实时检测。
本步骤是采用OpenPose提取待检测视频中每一个视频帧图像对应的二维关键点序列,提取的二维关键点序列可以是包括多个关键点的二维向量(比如:J个关键点的二维向量,维度为J×2)。
步骤S302,根据所述目标物体二维关键点序列402-2,估算获取与所述目标物体二维关键点序列402-2对应的目标物体三维关键点序列402-3。
根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列的一种可选的实现方式为:通过姿态先验网络402将所述目标物体二维关键点序列402-2转换为所述与所述目标物体二维关键点序列402-2对应的目标物体三维关键点序列402-3。
本实施例提供的姿态先验网络包括第一全连接层、残差块、及第二全连接层。
所述全连接层,是每一个节点都与上一层的所有节点相连接的网络结构,用于把提取的特征进行整合。
所述残差块,是由两个顺序连接的全连接层组成的网络结构。
图5是本实施例提供的将二维关键点序列转换为三维关键点序列的流程图。图6是本实施例提供的将二维关键点序列转换为三维关键点序列的流程示意图。以下结合图5和图6对本实施例提供的通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列的方法进行详细描述。
如图5所示,本实施例提供的通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列,包括如下步骤:
步骤S302-1,基于第一全连接层将所述目标物体二维关键点序列转换为目标物体二维关键点特征向量。
如图6所示,将待检测视频中各视频帧图像中目标物体对应的目标物体二维关键点序列作为输入,在第一全连接层601中进行转换,输出目标物体二维关键点特征向量。
步骤S302-2,基于残差块将所述目标物体二维关键点特征向量转换为目标物体三维关键点特征向量。
如图6所示,将步骤S302-1中输出的目标物体二维关键点特征向量作为残差块602输入,残差块602对输入的目标物体二维关键点特征向量进行增加维度处理,将二维关键点特征向量转换为三维关键点特征向量。本步骤中的残差块可以是一个,也可以是多个,具体数量在此不做限制。
步骤S302-3,基于第二全连接层将所述目标物体三维关键点特征向量转换为所述目标物体三维关键点序列。
如图6所示,将步骤S302-2中输出的待检测视频中各视频帧图像中目标物体对应的三维关键点特征向量作为第二全连接层603输入,第二全连接层603对输入的三维关键点特征向量进行转换,输出待检测视频中各视频帧图像中目标物体对应的三维关键点序列。三维关键点序列可以是包括多个关键点的三维向量(比如:J个关键点的三维向量,维度为J×3)。
通过以上三个步骤实现了二维关键点序列向三维关键点序列的转换,当然转换方式还可以包括其他步骤或内容,在此不再进行说明。
此外,通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列,还可以包括:将所述目标物体二维关键点序列及所述目标物体三维关键点序列共同作为所述姿态先验网络的输出。
也就是说,通过姿态先验网络输出的关键点序列既包括二维关键点序列又包括三维关键点序列。一种实现方式是:将二维关键点序列和三维关键点序列作为独立的序列进行输出。另一种实现方式是:将二维关键点序列和三维关键点序列进行维度加和处理,形成维度合并的关键点序列进行输出(比如:J×2+J×3,维度为J×5)。
通过以上步骤获取了待检测视频中各视频帧图像对应的图像特征信息、目标物体二维关键点序列和目标物体三维关键点序列,以此作为目标物体三维模型重建的输入元素。
步骤S303,对所述待检测视频中各视频帧图像对应的图像特征信息402-1、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列402-2、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列402-3进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列403。
所述连接处理,是指在通道维度上对多个特征进行连接,形成一个由多个特征组成的完整特征序列。通过连接处理可以将待检测视频中各视频帧图像对应的所有特征进行组合,防止出现与其他视频帧图像对应的特征混淆的现象,同时能够保持待检测视频中各视频帧图像对应的所有特征信息不丢失,为后续的计算与学习提供完整的特征序列。
本实施例提供的一种可选的实现方式为:对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行维度加和,将相同维度的求和结果组合为所述待检测视频中各视频帧图像中的目标物体对应的特征序列。
比如:待检测视频中各视频帧图像对应的特征信息的维度为C×H×W、二维关键点序列的维度为J×2、三维关键点序列的维度为J×3,那么对特征信息、二维关键点序列及三维关键点序列进行维度加和,获得的待检测视频中各视频帧图像对应的特征序列的维度为:C×H×W+J×2+J×3,其中C表示通道数、H表示图像的高、W表示图像的宽、J表示关键点数量。
由于待检测视频是由多个视频帧图像组成的,因此需要对待检测视频中每一个视频帧图像对应的特征序列在所有特征序列中的相对位置和绝对位置进行确定。一种可选的实现方式为:在所述待检测视频中各视频帧图像中的目标物体对应的特征序列中加入所述待检测视频中各视频帧图像对应的位置向量404。这样可以使待检测视频中各视频帧图像对应的特征序列按照待检测视频中各视频帧图像在视频中的位置进行排列,并连接为一个视频对应的整体特征序列,这个整体特征序列的维度为:(C×H×W+J×2+J×3)×T,其中C表示通道数、H表示图像的高、W表示图像的宽、J表示关键点数量、T表示待检测视频中视频帧的数量。
步骤S304,根据所述待检测视频中各视频帧图像中的目标物体对应的特征序列403,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型407。
图7是本实施例以人体作为目标物体,提供的根据特征序列获取目标物体三维模型的流程图。
如图7所示,本实施例提供的根据所述待检测视频中各视频帧图像对应的特征序列403,获取待检测视频中各视频帧图像对应的人体三维模型407,包括如下步骤:
步骤S304-1,基于编码器405对所述待检测视频中各视频帧图像中的目标物体对应的特征序列403进行时序编码处理,获取编码后的待检测视频中各视频帧图像中的目标物体对应的特征序列405-1。
所述编码器,是神经网络的一种具体形式,其中,Transformer编码器是广泛应用的一种编码器,通常由多个编码器层堆叠而成,每一个编码器层有两个子层连接结构,第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接,第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接。Transformer编码器中的多头自注意力子层实际上是一种自注意力机制,可以对输入序列的每一个元素,都计算其与其他元素的相关性,因此Transformer编码器具有较强的序列化建模能力。
本实施例将待检测视频中各视频帧图像对应的特征序列作为Transformer编码器的输入序列,利用Transformer编码器的强序列化建模能力对待检测视频中各视频帧图像对应的特征序列进行编码,最终输出编码后的待检测视频中各视频帧图像对应的特征序列。编码后的待检测视频中各视频帧图像对应的特征序列的维度为:C×H×W×T,其中C表示通道数、H表示图像的高、W表示图像的宽、T表示待检测视频中视频帧的数量。
步骤S304-2,基于参数回归网络406对所述编码后的待检测视频中各视频帧图像中的目标物体对应的特征序列405-1进行解码处理,获取待检测视频中各视频帧图像中的目标物体对应的目标物体姿态参数406-1、待检测视频中各视频帧图像中的目标物体对应的目标物体形状参数406-2、及待检测视频中各视频帧图像中的目标物体对应的目标物体相机参数406-3。
所述参数回归网络,是一种神经网络,由两个共享全连接层和三个独立全连接层组成。用于将编码后的待检测视频中各视频帧图像对应的特征序列进行解码,并获取待检测视频中各视频帧图像对应的各项参数。
所述姿态参数,是指表征人体当前状态的参数,比如:人是站着还是坐着,嘴巴是否张开,是微笑还是大笑,又比如:小臂相对于大臂的弯曲程度(即,关节点相对于其父节点的旋转量)等。
所述形状参数,是指表征人体固有形态的参数,比如:高、矮、胖、瘦,又比如:脸部轮廓、五官形状和大小等。
所述相机参数,是指建立相机成像的几何模型的参数,一般包括外参和内参,外参可以包括对应人体朝向的旋转矩阵、人体映射至二维图像坐标下的平移矩阵等,内参可以包括映射的比例系数等。
本实施例将Transformer编码器编码输出的待检测视频中各视频帧图像对应的特征序列作为参数回归网络的输入,经过参数回归网络解码,输出待检测视频中各视频帧图像对应的姿态参数、形状参数、及相机参数。
姿态参数、形状参数及相机参数都可以表示为多维向量,比如:姿态参数为72维向量、形状参数为10向量、相机参数为3维向量。
步骤S304-3,根据所述目标物体姿态参数406-1、所述目标物体形状参数406-2、及所述目标物体相机参数406-3,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型407。
重建的人体三维模型是一个参数化的模型,将通过参数回归网络输出的待检测视频中各视频帧图像对应的姿态参数、形状参数、及相机参数作为模型参数,重建待检测视频中各视频帧图像对应的人体三维模型,比如:SMPL模型。
上述实施例以人体作为目标物体,提供了目标物体三维模型重建方法的一种可选实现方式,具体步骤如下:
第一,获取待检测视频。
第二,获取待检测视频中各视频帧图像对应的二维关键点序列。
第三,通过预训练的卷积神经网络对待检测视频中各视频帧图像对应的特征信息进行提取。
第四,通过姿态先验网络将所述待检测视频中各视频帧图像对应的二维关键点序列转换为三维关键点序列。
第五,对通过第二步骤获取的待检测视频中各视频帧图像对应的二维关键点序列、通过第三步骤获取的待检测视频中各视频帧图像对应的特征信息、通过第四步骤获取的待检测视频中各视频帧图像对应的三维关键点序列进行连接处理,获取待检测视频中各视频帧图像对应的特征序列。
第六,在通过第五步骤获取的待检测视频中各视频帧图像对应的特征序列中加入待检测视频中各视频帧图像对应的位置向量,对待检测视频中各视频帧图像对应的特征序列进行位置编码。
第七,基于Transformer编码器对通过第六步骤获取的位置编码后的待检测视频中各视频帧图像对应的特征序列进行时序编码处理。
第八,基于参数回归网络对通过第七步骤获取的编码后的待检测视频中各视频帧图像对应的特征序列进行解码处理,获取待检测视频中各视频帧图像对应的姿态参数、形状参数、及相机参数。
第九,根据通过第八步骤获取的待检测视频中各视频帧图像对应的姿态参数、形状参数、及相机参数,获取待检测视频中各视频帧图像对应的人体三维模型。
图8是本实施例提供的目标物体三维模型重建方法所重建的人体三维模型的结果示例图。
如图8所示,第801行为待检测视频中各视频帧图像,第802行为通过现有人体三维模型重建技术获得的待检测视频中各视频帧图像对应的人体三维模型,第803行为通过本申请第一实施例提供的人体三维模型重建方法获得的待检测视频中各视频帧图像对应的人体三维模型。由图8可知,本申请第一实施例提供的人体三维模型重建方法对于人体关键点的预测更加准确,待检测视频中各视频帧图像对应的模型姿态的连续性更好,动作更加真实。
以上实施例提供的目标物体三维模型重建方法同样可以被应用于视频或照片中动物、植物、机器等物体的三维模型重建,在此不再做详细论述。
本申请另一实施例提供了一种目标物体三维模型重建模型的训练方法。应用于目标物体三维模型重建模型,所述目标物体三维模型重建模型将从数据集中获取的视频作为原始训练数据,通过本申请上述实施例提供的目标物体三维模型重建方法对所述从数据集中获取的视频进行目标物体三维模型重建,获取所述视频中各视频帧图像中的目标物体对应的目标物体姿态参数、所述视频中各视频帧图像中的目标物体对应的目标物体形状参数、及所述视频中各视频帧图像中的目标物体对应的目标物体相机参数。
图9为本实施例提供的目标物体三维模型重建模型的训练方法的流程图。以下结合图9对本实施例提供的目标物体三维模型重建模型的训练方法进行详细说明。
如图9所示,本实施例提供的目标物体三维模型重建模型的训练方法,包括如下步骤:
步骤S901,根据所述目标物体姿态参数和所述目标物体形状参数获取模型参数损失。
所述模型参数损失,是指通过本申请第一实施例提供的目标物体三维模型重建方法获取的模型参数(包括:姿态参数和形状参数)与真值之间的差异。
本实施例提供了一种可选的模型参数损失的计算方法,步骤如下:
第一,从所述数据集中获取所述视频中各视频帧图像中的目标物体对应的模型参数。
所述数据集,是一种公开的视频集,其中包括了收录的视频及视频中各视频帧图像对应的特征信息、二维关键点序列、及姿态参数、形状参数等。InstaVariety、PoseTrack、PennAction都是比较优选的数据集。
因此,可以直接从数据集中获取所述视频中各视频帧图像对应的模型参数,包括姿态参数和形状参数。
第二,以从所述数据集中获取的所述视频中各视频帧图像中的目标物体对应的模型参数作为真值,计算所述模型参数损失。
以直接从数据集中获取的所述视频中各视频帧图像中的目标物体对应的模型参数(包括:姿态参数和形状参数)作为真值,计算通过本申请第一实施例提供的目标物体三维模型重建方法获取的所述视频中各视频帧图像对应的姿态参数及形状参数与真值的差值。
其中β表示形状参数,θ表示姿态参数,μi为权重参数。
步骤S902,根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失。
所述二维关键点损失,是指根据本申请第一实施例提供的目标物体三维模型重建方法获取的所述视频中各视频帧图像对应的姿态参数、形状参数及相机参数,获取所述视频中各视频帧图像对应的模型的二维关键点序列,计算二维关键点序列与真值之间的差异。
所述三维关键点损失,是指根据本申请第一实施例提供的目标物体三维模型重建方法获取的所述视频中各视频帧图像对应的姿态参数、形状参数及相机参数,计算所述视频中各视频帧图像对应的模型的三维关键点序列;以计算得到的所述视频中各视频帧图像对应的模型的三维关键点序列作为真值,计算通过姿态先验网络获取的三维关键点序列与真值之间的差异。
本实施例提供了一种可选的二维关键点损失的计算方法,步骤如下:
第一,从所述数据集中获取所述视频中各视频帧图像中的目标物体对应的二维关键点序列。
所述视频中各视频帧图像中的目标物体对应的二维关键点序列可以直接从数据集中获取。
第二,以从所述数据集中获取的所述视频中各视频帧图像中的目标物体对应的二维关键点序列作为真值,计算所述二维关键点损失。
以直接从数据集中获取的所述视频中各视频帧图像中的目标物体对应的二维关键点序列作为真值,计算通过本申请第一实施例提供的目标物体三维模型重建方法获取的所述视频中各视频帧图像对应的模型的二维关键点序列与真值之间的差值。
本实施例提供了一种可选的三维关键点损失的计算方法,步骤如下:
第一,根据所述目标物体姿态参数、形状参数和相机参数,计算所述视频中各视频帧图像中的目标物体对应的三维关键点序列。
第二,以计算得到的所述视频中各视频帧图像中的目标物体对应的三维关键点序列作为真值,计算所述三维关键点损失。
以计算得到的所述视频中各视频帧图像对应的三维关键点序列作为真值,计算通过本申请第一实施例提供的姿态先验网络获取的三维关键点序列与真值之间的差值。
步骤S903,根据所述目标物体姿态参数获取生成对抗损失。
所述生成对抗损失,用于判断获取的姿态参数是否真实。
可以将本申请第一实施例提供的目标物体三维模型重建方法作为生成器,将时序判别网络作为判别器,基于时序判别网络对生成器获取的姿态参数进行损失计算。
生成器的生成对抗损失可表示为:判别器的对抗损失可表示为其中表示期望值,pG表示生成器的数据分布,pR表示真实数据(来源于数据集)的数据分布,DM表示时序判别网络。对于生成器,计算的是生成器生成的数据输入判别器时,输出与1的差距,越小,说明判别器输出越接近1,生成的数据越接近真实的数据分布;对于判别器,计算的是判别器对真实数据的输出与1的差距以及对生成数据的输出与0的差距,越小,说明判别器对生成数据和真实数据的判别能力越强。
步骤S904,根据所述模型参数损失、所述二维关键点损失、所述三维关键点损失、所述生成对抗损失获取目标物体三维模型总损失。
所述目标物体三维模型总损失,是模型参数损失、二维关键点损失、三维关键点损失、生成对抗损失的加权和,是整个目标物体三维模型重建方法训练过程中的目标函数。
步骤S905,根据所述目标物体三维模型总损失对所述目标物体三维模型重建模型进行迭代训练。
本实施例提供的训练方法为:对获取的目标物体三维模型总损失经过链式求导法则,计算得到损失在各参数上的梯度,从而优化参数降低损失。训练时,使用PyTorch深度学习框架并选择随机梯度下降法,对目标物体三维模型重建方法进行迭代训练,可以得到性能良好的目标物体三维模型重建神经网络。
本申请一实施例提供了一种目标物体三维模型重建装置。图10是本实施例提供的目标物体三维模型重建装置的结构示意图。
如图10所示,本实施例提供的目标物体三维模型重建装置,包括:获取单元1001、姿态先验单元1002、连接单元1003、重建单元1004。
所述获取单元1001,用于获取待检测视频中各视频帧图像对应的图像特征信息及待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列。
所述姿态先验单元1002,用于根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列。
可选的,所述根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列,包括:通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列。
可选的,所述姿态先验网络包括第一全连接层、残差块、及第二全连接层,所述通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列,包括:
基于第一全连接层将所述目标物体二维关键点序列转换为目标物体二维关键点特征向量;
基于残差块将所述目标物体二维关键点特征向量转换为目标物体三维关键点特征向量;
基于第二全连接层将所述目标物体三维关键点特征向量转换为所述目标物体三维关键点序列。
可选的,所述通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列,还包括:将所述目标物体二维关键点序列及所述目标物体三维关键点序列共同作为所述姿态先验网络的输出。
所述连接单元1003,用于对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列。
可选的,所述对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列,包括:对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行维度加和,将相同维度的求和结果组合为所述待检测视频中各视频帧图像中的目标物体对应的特征序列。
可选的,所述对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列,还包括:在所述待检测视频中各视频帧图像中的目标物体对应的特征序列中加入所述待检测视频中各视频帧图像对应的位置向量。
所述重建单元1004,用于根据所述待检测视频中各视频帧图像中的目标物体对应的特征序列,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型。
可选的,所述根据所述待检测视频中各视频帧图像中的目标物体对应的特征序列,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型,包括:
基于编码器对所述待检测视频中各视频帧图像中的目标物体对应的特征序列进行时序编码处理,获取编码后的待检测视频中各视频帧图像中的目标物体对应的特征序列;
基于参数回归网络对所述编码后的待检测视频中各视频帧图像中的目标物体对应的特征序列进行解码处理,获取待检测视频中各视频帧图像中的目标物体对应的目标物体姿态参数、待检测视频中各视频帧图像中的目标物体对应的目标物体形状参数、及待检测视频中各视频帧图像中的目标物体对应的目标物体相机参数;
根据所述目标物体姿态参数、所述目标物体形状参数、及所述目标物体相机参数,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型。
本申请另一实施例提供了一种目标物体三维模型重建模型的训练装置。图11是本实施例提供的目标物体三维模型重建模型的训练装置的结构示意图。
如图11所示,本实施例提供的目标物体三维模型重建模型的训练装置,包括:重建单元1101、模型参数损失获取单元1102、关键点损失获取单元1103、生成对抗损失获取单元1104、总损失获取单元1105、训练单元1106。
所述重建单元1101,用于对数据集中获取的至少一个视频进行目标物体三维模型重建,获取所述视频中各视频帧图像中的目标物体对应的目标物体姿态参数、所述视频中各视频帧图像中的目标物体对应的目标物体形状参数、及所述视频中各视频帧图像中的目标物体对应的目标物体相机参数。
所述模型参数损失获取单元1102,用于根据所述目标物体姿态参数和所述目标物体形状参数获取模型参数损失。
可选的,所述根据所述目标物体姿态参数和所述目标物体形状参数获取模型参数损失,包括:
从所述数据集中获取所述视频中各视频帧图像中的目标物体对应的模型参数;
以从所述数据集中获取的所述视频中各视频帧图像中的目标物体对应的模型参数作为真值,计算所述模型参数损失。
所述关键点损失获取单元1103,用于根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失。
可选的,所述根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失,包括:
从所述数据集中获取所述视频中各视频帧图像中的目标物体对应的二维关键点序列;
以从所述数据集中获取的所述视频中各视频帧图像中的目标物体对应的二维关键点序列作为真值,计算所述二维关键点损失。
可选的,所述根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失,还包括:
通过所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数,计算所述视频中各视频帧图像中的目标物体对应的三维关键点序列;
以计算得到的所述视频中各视频帧图像中的目标物体对应的三维关键点序列作为真值,计算所述三维关键点损失。
所述生成对抗损失获取单元1104,用于根据所述目标物体姿态参数获取生成对抗损失。
可选的,所述根据所述目标物体姿态参数获取生成对抗损失,包括:基于时序判别网络对所述目标物体姿态参数进行损失计算。
所述总损失获取单元1105,用于根据所述模型参数损失、所述二维关键点损失、所述三维关键点损失、所述生成对抗损失获取目标物体三维模型总损失。
所述训练单元1106,用于根据所述目标物体三维模型总损失对所述目标物体三维模型重建模型进行迭代训练。
本申请一实施例提供了一种电子设备。图12为本实施例提供的电子设备的结构示意图。
如图12所示,本实施例提供的电子设备,包括:采集器1201、存储器1202和处理器1203。
所述采集器1201,用于采集待检测视频。
所述存储器1202,用于存储执行目标物体三维模型重建方法的计算机指令。
所述处理器1203,用于执行存储于存储器1202中的计算机指令,以执行本申请提供的目标物体三维模型重建方法。
本申请另一实施例提供了一种电子设备。图13为本实施例提供的电子设备的结构示意图。
如图13所示,本实施例提供的电子设备,包括:收集器1301、存储器1302和处理器1303。
所述收集器1301,用于收集数据集中的至少一个视频。
所述存储器1302,用于存储执行目标物体三维模型重建模型的训练方法的计算机指令。
所述处理器1303,用于执行存储于存储器1302中的计算机指令,以执行本申请提供的目标物体三维模型重建模型的训练方法。
本申请另一实施例提供了一种计算机可读存储介质,计算机可读存储介质包括计算机指令,计算机指令在被处理器执行时用于实现本申请提供的目标物体三维模型重建方法和目标物体三维模型重建模型的训练方法所述的技术方案。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (17)
1.一种目标物体三维模型重建方法,其特征在于,包括:
获取待检测视频中各视频帧图像对应的图像特征信息及待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列;
根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列;
对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列;
根据所述待检测视频中各视频帧图像中的目标物体对应的特征序列,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列,包括:通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列。
3.根据权利要求2所述的方法,其特征在于,所述姿态先验网络包括第一全连接层、残差块、及第二全连接层,所述通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列,包括:
基于第一全连接层将所述目标物体二维关键点序列转换为目标物体二维关键点特征向量;
基于残差块将所述目标物体二维关键点特征向量转换为目标物体三维关键点特征向量;
基于第二全连接层将所述目标物体三维关键点特征向量转换为所述目标物体三维关键点序列。
4.根据权利要求2所述的方法,其特征在于,所述通过姿态先验网络将所述目标物体二维关键点序列转换为所述与所述目标物体二维关键点序列对应的目标物体三维关键点序列,还包括:将所述目标物体二维关键点序列及所述目标物体三维关键点序列共同作为所述姿态先验网络的输出。
5.根据权利要求1所述的方法,其特征在于,所述对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列,包括:对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行维度加和,将相同维度的求和结果组合为所述待检测视频中各视频帧图像中的目标物体对应的特征序列。
6.根据权利要求1所述的方法,其特征在于,所述对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列,还包括:在所述待检测视频中各视频帧图像中的目标物体对应的特征序列中加入所述待检测视频中各视频帧图像对应的位置向量。
7.根据权利要求1所述的方法,其特征在于,所述根据所述待检测视频中各视频帧图像中的目标物体对应的特征序列,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型,包括:
基于编码器对所述待检测视频中各视频帧图像中的目标物体对应的特征序列进行时序编码处理,获取编码后的待检测视频中各视频帧图像中的目标物体对应的特征序列;
基于参数回归网络对所述编码后的待检测视频中各视频帧图像中的目标物体对应的特征序列进行解码处理,获取待检测视频中各视频帧图像中的目标物体对应的目标物体姿态参数、待检测视频中各视频帧图像中的目标物体对应的目标物体形状参数、及待检测视频中各视频帧图像中的目标物体对应的目标物体相机参数;
根据所述目标物体姿态参数、所述目标物体形状参数、及所述目标物体相机参数,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型。
8.一种目标物体三维模型重建模型的训练方法,其特征在于,应用于目标物体三维模型重建模型,所述目标物体三维模型重建模型通过权利要求1所述的目标物体三维模型重建方法对数据集中获取的至少一个视频进行目标物体三维模型重建,获取所述视频中各视频帧图像中的目标物体对应的目标物体姿态参数、所述视频中各视频帧图像中的目标物体对应的目标物体形状参数、及所述视频中各视频帧图像中的目标物体对应的目标物体相机参数,所述训练方法包括:
根据所述目标物体姿态参数和所述目标物体形状参数获取模型参数损失;
根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失;
根据所述目标物体姿态参数获取生成对抗损失;
根据所述模型参数损失、所述二维关键点损失、所述三维关键点损失、所述生成对抗损失获取目标物体三维模型总损失;
根据所述目标物体三维模型总损失对所述目标物体三维模型重建模型进行迭代训练。
9.根据权利要求8所述的训练方法,其特征在于,所述根据所述目标物体姿态参数和所述目标物体形状参数获取模型参数损失,包括:
从所述数据集中获取所述视频中各视频帧图像中的目标物体对应的模型参数;
以从所述数据集中获取的所述视频中各视频帧图像中的目标物体对应的模型参数作为真值,计算所述模型参数损失。
10.根据权利要求8所述的训练方法,其特征在于,所述根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失,包括:
从所述数据集中获取所述视频中各视频帧图像中的目标物体对应的二维关键点序列;
以从所述数据集中获取的所述视频中各视频帧图像中的目标物体对应的二维关键点序列作为真值,计算所述二维关键点损失。
11.根据权利要求8所述的训练方法,其特征在于,所述根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失,还包括:
通过所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数,计算所述视频中各视频帧图像中的目标物体对应的三维关键点序列;
以计算得到的所述视频中各视频帧图像中的目标物体对应的三维关键点序列作为真值,计算所述三维关键点损失。
12.根据权利要求8所述的训练方法,其特征在于,所述根据所述目标物体姿态参数获取生成对抗损失,包括:基于时序判别网络对所述目标物体姿态参数进行损失计算。
13.一种目标物体三维模型重建装置,其特征在于,包括:获取单元、姿态先验单元、连接单元、重建单元;
所述获取单元,用于获取待检测视频中各视频帧图像对应的图像特征信息及待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列;
所述姿态先验单元,用于根据所述目标物体二维关键点序列,估算获取与所述目标物体二维关键点序列对应的目标物体三维关键点序列;
所述连接单元,用于对所述待检测视频中各视频帧图像对应的图像特征信息、所述待检测视频中各视频帧图像中的目标物体对应的目标物体二维关键点序列、及与所述目标物体二维关键点序列对应的所述目标物体三维关键点序列进行连接处理,获取待检测视频中各视频帧图像中的目标物体对应的特征序列;
所述重建单元,用于根据所述待检测视频中各视频帧图像中的目标物体对应的特征序列,获取待检测视频中各视频帧图像中的目标物体对应的目标物体三维模型。
14.一种目标物体三维模型重建模型的训练装置,其特征在于,包括:重建单元、模型参数损失获取单元、关键点损失获取单元、生成对抗损失获取单元、总损失获取单元、训练单元;
所述重建单元,用于对数据集中获取的至少一个视频进行目标物体三维模型重建,获取所述视频中各视频帧图像中的目标物体对应的目标物体姿态参数、所述视频中各视频帧图像中的目标物体对应的目标物体形状参数、及所述视频中各视频帧图像中的目标物体对应的目标物体相机参数;
所述模型参数损失获取单元,用于根据所述目标物体姿态参数和所述目标物体形状参数获取模型参数损失;
所述关键点损失获取单元,用于根据所述目标物体姿态参数、所述目标物体形状参数和所述目标物体相机参数获取二维关键点损失及三维关键点损失;
所述生成对抗损失获取单元,用于根据所述目标物体姿态参数获取生成对抗损失;
所述总损失获取单元,用于根据所述模型参数损失、所述二维关键点损失、所述三维关键点损失、所述生成对抗损失获取目标物体三维模型总损失;
所述训练单元,用于根据所述目标物体三维模型总损失对所述目标物体三维模型重建模型进行迭代训练。
15.一种电子设备,其特征在于,包括:采集器、处理器和存储器;
所述采集器,用于采集待检测视频;
所述存储器,用于存储一条或多条计算机指令;
所述处理器,用于执行所述一条或多条计算机指令,以实现如权利要求1-7任意一项权利要求所述的方法。
16.一种电子设备,其特征在于,包括:收集器、处理器和存储器;
所述收集器,用于收集数据集中的至少一个视频;
所述存储器,用于存储一条或多条计算机指令;
所述处理器,用于执行所述一条或多条计算机指令,以实现如权利要求9-12任意一项权利要求所述的方法。
17.一种计算机可读存储介质,其上存储有一条或多条计算机指令,其特征在于,该指令被处理器执行以实现如权利要求1-12任意一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210310293.8A CN114863013A (zh) | 2022-03-28 | 2022-03-28 | 一种目标物体三维模型重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210310293.8A CN114863013A (zh) | 2022-03-28 | 2022-03-28 | 一种目标物体三维模型重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114863013A true CN114863013A (zh) | 2022-08-05 |
Family
ID=82628596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210310293.8A Pending CN114863013A (zh) | 2022-03-28 | 2022-03-28 | 一种目标物体三维模型重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863013A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363320A (zh) * | 2023-06-01 | 2023-06-30 | 摩尔线程智能科技(北京)有限责任公司 | 重建模型的训练和三维模型重建方法、装置、设备及介质 |
CN117593449A (zh) * | 2023-11-07 | 2024-02-23 | 书行科技(北京)有限公司 | 人-物交互运动视频的构建方法、装置、设备及存储介质 |
-
2022
- 2022-03-28 CN CN202210310293.8A patent/CN114863013A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363320A (zh) * | 2023-06-01 | 2023-06-30 | 摩尔线程智能科技(北京)有限责任公司 | 重建模型的训练和三维模型重建方法、装置、设备及介质 |
CN116363320B (zh) * | 2023-06-01 | 2023-08-25 | 摩尔线程智能科技(北京)有限责任公司 | 重建模型的训练和三维模型重建方法、装置、设备及介质 |
CN117593449A (zh) * | 2023-11-07 | 2024-02-23 | 书行科技(北京)有限公司 | 人-物交互运动视频的构建方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Unsupervised representation learning with long-term dynamics for skeleton based action recognition | |
CN110599395A (zh) | 目标图像生成方法、装置、服务器及存储介质 | |
CN110660017A (zh) | 一种基于三维姿态识别的舞谱记录与演示方法 | |
CN114863013A (zh) | 一种目标物体三维模型重建方法 | |
CN104200203B (zh) | 一种基于动作字典学习的人体动作检测方法 | |
CN112329525A (zh) | 一种基于时空图卷积神经网络的手势识别方法和装置 | |
CN112037310A (zh) | 基于神经网络的游戏人物动作识别生成方法 | |
KR102270949B1 (ko) | 3차원 인간 모델 복원 장치 및 방법 | |
Hosoe et al. | Recognition of JSL finger spelling using convolutional neural networks | |
Ma et al. | Human motion gesture recognition based on computer vision | |
CN113158861A (zh) | 一种基于原型对比学习的运动分析方法 | |
WO2023142651A1 (zh) | 动作生成方法及相关装置、电子设备、存储介质和程序 | |
CN114973097A (zh) | 电力机房内异常行为识别方法、装置、设备及存储介质 | |
WO2023071806A1 (zh) | 先验空间的生成方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品 | |
CN114419732A (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
CN113706670A (zh) | 生成动态三维人体网格模型序列的方法及装置 | |
CN117974693B (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN116959094A (zh) | 一种基于时空图卷积网络的人体行为识别方法 | |
CN113408721A (zh) | 神经网络结构搜索方法、装置、计算机设备和存储介质 | |
CN116469147A (zh) | 人脸表情迁移方法和表情迁移装置、电子设备及存储介质 | |
CN116824689A (zh) | 骨骼序列行为识别方法、装置、设备及存储介质 | |
JP7067709B1 (ja) | スキンモデルから骨格に基づく体長を統計的に分析するプログラム、装置及び方法 | |
CN114445676A (zh) | 一种手势图像处理方法、存储介质及设备 | |
Wu et al. | Capturing implicit spatial cues for monocular 3D hand reconstruction | |
CN112651363A (zh) | 基于多特征点的微表情拟合方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |