CN113989283A - 3d人体姿态估计方法、装置、电子设备与存储介质 - Google Patents

3d人体姿态估计方法、装置、电子设备与存储介质 Download PDF

Info

Publication number
CN113989283A
CN113989283A CN202111617338.8A CN202111617338A CN113989283A CN 113989283 A CN113989283 A CN 113989283A CN 202111617338 A CN202111617338 A CN 202111617338A CN 113989283 A CN113989283 A CN 113989283A
Authority
CN
China
Prior art keywords
limb
key point
sequence
human body
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111617338.8A
Other languages
English (en)
Other versions
CN113989283B (zh
Inventor
王金桥
陈盈盈
周鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Objecteye Beijing Technology Co Ltd
Original Assignee
Objecteye Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Objecteye Beijing Technology Co Ltd filed Critical Objecteye Beijing Technology Co Ltd
Priority to CN202111617338.8A priority Critical patent/CN113989283B/zh
Publication of CN113989283A publication Critical patent/CN113989283A/zh
Application granted granted Critical
Publication of CN113989283B publication Critical patent/CN113989283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种3D人体姿态估计方法、装置、电子设备与存储介质,所述方法包括:对人体图像序列进行2D姿态估计,得到2D人体关键点序列;基于2D人体关键点序列,确定2D肢干向量序列;将2D人体关键点序列和2D肢干向量序列输入至3D姿态估计模型,得到3D姿态估计模型输出的3D人体关键点;其中,3D姿态估计模型是基于样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。本发明提供的方法、装置、电子设备与存储介质,应用3D姿态估计模型结合2D人体关键点序列和2D肢干向量序列进行3D人体姿态估计,实现了3D人体姿态的精确估计,同时提升了3D人体姿态估计的鲁棒性和泛化性。

Description

3D人体姿态估计方法、装置、电子设备与存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种3D人体姿态估计方法、装置、电子设备与存储介质。
背景技术
3D(Three Dimensions,三维)人体姿态估计技术是计算机视觉和模式识别领域中的一个重要研究方向,它需要预测给定人体图像的3D人体关键点坐标。然而3D人体姿态估计存在诸多问题,3D人体姿态估计数据的获得通常具有局限性,大部分场景为室内,且动作范式有限,限制了3D人体姿态数据的多样性。近年来,随着深度学习的发展,3D人体姿态估计取得了长足的进步。
目前,单目3D人体姿态估计主要分为单阶段预测和双阶段预测两种方式。单阶段的方法以人体图像作为输入,通过卷积神经网络提取特征进而实现3D人体关键点的预测。双阶段的方法以人体图像作为输入,首先通过2D(Two Dimensions,二维)人体姿态估计网络提取2D人体关键点,之后通过2D-3D关键点的映射,获得3D人体关键点。然而,现有的3D人体姿态估计方法大多只关注不同帧人体关键点之间的语义关联,导致3D人体姿态估计的精度较差。
发明内容
本发明提供一种3D人体姿态估计方法、装置、电子设备与存储介质,用以解决现有技术中3D人体姿态估计精度差的缺陷,实现提升3D人体姿态估计的精度。
本发明提供一种3D人体姿态估计方法,包括:
对人体图像序列进行2D姿态估计,得到2D人体关键点序列;
基于所述2D人体关键点序列,确定2D肢干向量序列;
将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型,得到所述3D姿态估计模型输出的3D人体关键点;其中,所述3D姿态估计模型是基于样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。
根据本发明提供的一种3D人体姿态估计方法,所述3D姿态估计模型包括关键点网络分支、肢干网络分支和3D姿态估计层;
所述将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型,得到所述3D姿态估计模型输出的3D人体关键点,包括:
将所述2D人体关键点序列输入至所述关键点网络分支,得到所述关键点网络分支输出的关键点表示序列;
将所述2D肢干向量序列输入至所述肢干网络分支,得到所述肢干网络分支输出的肢干表示序列;
将所述关键点表示序列和所述肢干表示序列输入至3D姿态估计层,得到所述3D人体关键点。
根据本发明提供的一种3D人体姿态估计方法,所述关键点网络分支包括差分层、编码层和关键点变换层;
所述将所述2D人体关键点序列输入至所述关键点网络分支,得到所述关键点网络分支输出的关键点表示序列,包括:
将所述2D人体关键点序列输入至所述差分层,得到所述差分层输出的运动向量序列;
将所述2D人体关键点序列和所述运动向量序列分别输入至所述编码层,得到所述编码层输出的初始关键点表示序列和运动表示序列;
将所述初始关键点表示序列和所述运动表示序列输入至所述关键点变换层,得到所述关键点表示序列。
根据本发明提供的一种3D人体姿态估计方法,所述3D姿态估计层包括融合变换层、特征分离层和关键点回归层;
所述将所述关键点表示序列和所述肢干表示序列输入至3D姿态估计层,得到所述3D人体关键点,包括:
将所述关键点表示序列和所述肢干表示序列输入至所述融合变换层,得到所述融合变换层输出的最终特征表示;
将所述最终特征表示输入至所述特征分离层,得到所述特征分离层输出的关键点特征和肢干特征;
将所述关键点特征输入至所述关键点回归层,得到所述关键点回归层输出的3D人体关键点。
根据本发明提供的一种3D人体姿态估计方法,所述3D姿态估计层还包括肢干回归层;
所述将所述最终特征表示输入至所述特征分离层,得到所述特征分离层输出的关键点特征和肢干特征,之后还包括:
将所述肢干特征输入至所述肢干回归层,得到所述肢干回归层输出的3D人体肢干。
根据本发明提供的一种3D人体姿态估计方法,所述3D姿态估计模型的损失函数包括循环一致性损失函数;
所述循环一致性损失函数是基于第一预测3D人体肢干与第二预测3D人体肢干之间的一致性确定的;
其中,所述第一预测3D人体肢干和预测3D人体关键点是所述3D姿态估计模型基于所述样本2D人体关键点序列和所述样本2D肢干向量序列确定的,所述第二预测3D人体肢干是基于所述预测3D人体关键点确定的。
根据本发明提供的一种3D人体姿态估计方法,所述第二预测3D人体肢干是基于如下步骤确定的:
基于所述预测3D人体关键点,确定各肢干类型对应的预测人体关键点;
基于所述各肢干类型对应的预测人体关键点,确定所述各肢干类型对应的预测肢干向量;
基于所述各肢干类型对应的预测肢干向量,确定所述第二预测3D人体肢干。
本发明还提供一种3D人体姿态估计装置,包括:
估计模块,用于对人体图像序列进行2D姿态估计,得到2D人体关键点序列;
确定模块,用于基于所述2D人体关键点序列,确定2D肢干向量序列;
输入模块,用于将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型,得到所述3D姿态估计模型输出的3D人体关键点;其中,所述3D姿态估计模型是基于样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述3D人体姿态估计方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述3D人体姿态估计方法的步骤。
本发明提供的3D人体姿态估计方法、装置、电子设备与存储介质,通过在得到高精度的2D人体关键点序列之后,确定出具有更高阶人体结构信息的2D肢干向量序列,并应用3D姿态估计模型结合2D人体关键点序列和2D肢干向量序列进行3D人体姿态估计,既可以捕捉到不同帧关键点之间的结构语义关联,还可以捕捉到不同帧肢干之间的结构语义关联,从而可以得到高精度的3D人体关键点,进而实现了3D人体姿态的精确估计,同时提升了3D人体姿态估计的鲁棒性和泛化性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的3D人体姿态估计方法的流程示意图;
图2是本发明提供的3D人体姿态估计方法的总体框架图;
图3是本发明提供的3D姿态估计模型的网络结构图;
图4是本发明提供的3D人体姿态估计装置的结构图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,单目3D人体姿态估计主要分为单阶段预测和双阶段预测两种方式。单阶段的方法以人体图像作为输入,通过卷积神经网络提取特征进而实现3D人体关键点的预测。双阶段的方法以人体图像作为输入,首先通过2D人体姿态估计网络提取2D人体关键点,之后通过2D-3D关键点的映射,获得3D人体关键点。
双阶段的方法能充分利用已有的高精度的2D人体姿态估计网络的2D人体关键点预测,因此得到了更广泛的关注。其中,有相关文献引入分层图卷积网络,同时结合对角占优图卷积层和非局部层的特征提取网络块来实现特征的增强,以减少2D到3D映射过程中的歧义性;还有相关文献提出一种神经网络搜索方法,为每组关键点分配一种神经网络结构,针对不同的关键点进行优化,以提升3D人体姿态估计的精度。然而,现有的3D人体姿态估计方法大多只关注不同帧人体关键点之间的语义关联,缺乏对更高阶人体结构诸如人体肢干的关注和建模,导致3D人体姿态估计的精度仍然较差。
对此,本发明实施例提供了一种3D人体姿态估计方法。图1是本发明提供的3D人体姿态估计方法的流程示意图,如图1所示,该方法包括:
步骤110,对人体图像序列进行2D姿态估计,得到2D人体关键点序列;
步骤120,基于2D人体关键点序列,确定2D肢干向量序列;
步骤130,将2D人体关键点序列和2D肢干向量序列输入至3D姿态估计模型,得到3D姿态估计模型输出的3D人体关键点;其中,3D姿态估计模型是基于样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。
具体地,人体图像序列包括多帧人体图像,每帧人体图像可以来自于预先拍摄并存储的视频,也可以来自于实时采集的视频流,本发明实施例对此不作具体限定。多帧人体图像按照视频或视频流中的时间顺序排列,从而形成人体图像序列。对人体图像序列中各帧人体图像进行2D姿态估计,可以提取到各帧人体图像中的2D人体关键点,并按照时间顺序排列得到2D人体关键点序列。此处,2D姿态估计的方式具体可以通过高精度的2D人体姿态估计网络进行2D人体关键点检测实现。
随即,可以根据人体关键点与人体肢干之间的对应关系,将各帧人体图像中提取出的2D人体关键点,转化为各帧人体图像中的2D肢干向量,由此即可得到2D肢干向量序列。此处,人体肢干可以包括与姿态相关的背、上臂、前臂、大腿、小腿等人体部件,2D肢干向量即对应人体图像中人体肢干的向量表示。在此基础上,将2D人体关键点序列和2D肢干向量序列输入至3D姿态估计模型,3D姿态估计模型可以结合2D人体关键点序列和2D肢干向量序列进行3D人体姿态估计,从而得到高精度的3D人体关键点。
需要说明的是,现有的3D人体姿态估计方法中,只关注不同帧人体关键点之间的语义关联,缺乏对更高阶人体结构的关注和建模,导致3D人体姿态估计的精度仍然较差。而本发明实施例中3D姿态估计模型基于输入的序列既可以获取到关键点层级的人体结构信息,还可以获取到肢干层级的人体结构信息,从而在执行3D人体姿态估计时,既可以捕捉到不同帧关键点之间的结构语义关联,还可以捕捉到不同帧更高阶人体结构即肢干之间的结构语义关联,由此得到高精度的3D人体关键点,进而实现了3D人体姿态的精确估计,同时提升了3D人体姿态估计的鲁棒性和泛化性。
另外,在执行步骤130之前,还可以预先训练得到3D姿态估计模型,具体可通过如下方式训练得到3D姿态估计模型:首先,收集大量样本2D人体关键点序列,并确定对应的样本2D肢干向量序列以及样本3D人体关键点。随即,采用样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点,对初始模型进行训练,从而得到3D姿态估计模型。
本发明实施例提供的方法,在得到高精度的2D人体关键点序列之后,确定出具有更高阶人体结构信息的2D肢干向量序列,并应用3D姿态估计模型结合2D人体关键点序列和2D肢干向量序列进行3D人体姿态估计,既可以捕捉到不同帧关键点之间的结构语义关联,还可以捕捉到不同帧肢干之间的结构语义关联,从而可以得到高精度的3D人体关键点,进而实现了3D人体姿态的精确估计,同时提升了3D人体姿态估计的鲁棒性和泛化性。
基于上述任一实施例,3D姿态估计模型包括关键点网络分支、肢干网络分支和3D姿态估计层;
步骤130中,将2D人体关键点序列和2D肢干向量序列输入至3D姿态估计模型,得到3D姿态估计模型输出的3D人体关键点,包括:
将2D人体关键点序列输入至关键点网络分支,得到关键点网络分支输出的关键点表示序列;
将2D肢干向量序列输入至肢干网络分支,得到肢干网络分支输出的肢干表示序列;
将关键点表示序列和肢干表示序列输入至3D姿态估计层,得到3D人体关键点。
具体地,为了实现通过建模不同帧间不同层级的人体结构关系,提升3D人体姿态估计的鲁棒性和泛化性,本发明实施例中针对3D姿态估计模型设计了一种基于双流变换器的神经网络结构。3D姿态估计模型包括关键点网络分支和肢干网络分支,利用关键点网络分支基于输入的2D人体关键点序列,捕捉不同帧人体关键点间的结构语义关联,得到关键点表示序列,并利用肢干网络分支基于输入的2D肢干向量序列,捕捉不同帧人体肢干间的结构语义关联,得到肢干表示序列,从而实现获取不同层级的人体结构信息。此处,关键点表示序列和肢干表示序列可以分别仅根据2D人体关键点序列和2D肢干向量序列进行编码等处理得到,也可以结合位置信息、运动信息等其他信息得到,本发明实施例对此不作具体限定。
基于此,为了更好地利用双流特征,促进不同帧不同层级人体部件间特征的信息传递,本发明实施例设计了3D姿态估计层来建模不同帧不同层级人体部件之间的语义关联。将关键点网络分支和肢干网络分支两个分支的输出一起输入到3D姿态估计层进行3D姿态估计,由此结合关键点表示序列和肢干表示序列,来建模不同帧关键点特征和肢干特征之间的语义关联,从而得到具有更强鲁棒性的3D姿态估计结果,即3D人体关键点。
本发明实施例提供的方法,利用肢干网络分支捕捉不同帧人体肢干间的结构语义关联,利用肢干网络分支捕捉不同帧人体肢干间的结构语义关联,增强了特征的鲁棒性,同时利用3D姿态估计层来建模不同帧关键点特征和肢干特征之间的语义关联,提升了关系建模的有效性,进一步增强了特征的鲁棒性。
基于上述任一实施例,关键点网络分支包括差分层、编码层和关键点变换层;
将2D人体关键点序列输入至关键点网络分支,得到关键点网络分支输出的关键点表示序列,包括:
将2D人体关键点序列输入至差分层,得到差分层输出的运动向量序列;
将2D人体关键点序列和运动向量序列分别输入至编码层,得到编码层输出的初始关键点表示序列和运动表示序列;
将初始关键点表示序列和运动表示序列输入至关键点变换层,得到关键点表示序列。
具体地,考虑到对于同一个2D人体姿态,受遮挡和深度歧义的影响,其可以对应多个3D人体姿态,因此,仅根据2D人体姿态数据进行3D人体姿态的估计是不准确的,存在不适定问题。针对这一问题,本发明实施例在关键点网络分支中嵌入了运动信息,具体可以通过如下方式实现:
关键点网络分支包括差分层、编码层和关键点变换层,首先由差分层对输入的2D人体关键点序列进行差分运算,得到运动向量序列,从而利用不同帧人体关键点在时间维度上体现的差异性,获取到能够表征在原始视频中人体姿态的运动信息的运动向量;再将2D人体关键点序列和运动向量序列分别输入到编码层中进行特征编码,从而可以得到映射到高维空间的特征表示,即初始关键点表示序列和运动表示序列;在此基础上,即可将初始关键点表示序列和运动表示序列一起输入到关键点变换层中,从而得到融合了关键点信息和运动信息的关键点表示序列。可选地,关键点变换层可以采用Transformer架构的网络,从而可以实现全局关系建模,充分捕捉不同帧人体关键点间的结构语义关联。
本发明实施例提供的方法,利用关键点变换层捕捉不同帧人体关键点间的结构语义关联,同时利用差分层和编码层引入运动信息的编码,从而为关键点变换层提供显示的运动语义先验信息。需要说明的是,运动信息的嵌入对于2D人体关键点到3D人体关键点的映射发挥着重要的作用,能够有效缓解不适定带来的问题,从而可以进一步提高了3D人体姿态估计的精度。
基于上述任一实施例,类似地,为了有效缓解不适定带来的问题,在肢干网络分支中也可以嵌入运动信息。肢干网络分支可以包括肢干差分层、肢干编码层和肢干变换层,由肢干差分层对输入的2D肢干向量序列进行差分运算,从而得到肢干对应的运动向量序列,再将2D肢干向量序列和肢干对应的运动向量序列分别输入到肢干编码层中,从而得到肢干编码层输出的初始肢干表示序列和肢干对应的运动表示序列,在此基础上,即可将初始肢干表示序列和肢干对应的运动表示序列一起输入到肢干变换层中,从而得到融合了肢干信息和运动信息的肢干表示序列。
本发明实施例提供的方法,利用肢干变换层捕捉不同帧人体肢干间的结构语义关联,同时利用肢干差分层和肢干编码层引入运动信息的编码,从而为肢干变换层提供显示的肢干运动语义先验。进一步地,本发明实施例分别在关键点网络分支和肢干网络分支中嵌入运动信息,从而实现提供不同层级的运动语义先验,极大地提高了3D人体姿态估计的精度。
基于上述任一实施例,3D姿态估计层包括融合变换层、特征分离层和关键点回归层;
将关键点表示序列和肢干表示序列输入至3D姿态估计层,得到3D人体关键点,包括:
将关键点表示序列和肢干表示序列输入至融合变换层,得到融合变换层输出的最终特征表示;
将最终特征表示输入至特征分离层,得到特征分离层输出的关键点特征和肢干特征;
将关键点特征输入至关键点回归层,得到关键点回归层输出的3D人体关键点。
具体地,3D姿态估计层可以包括融合变换层、特征分离层和关键点回归层。其中,融合变换层用于对输入的两个序列即关键点表示序列和肢干表示序列进行融合变换,建模不同帧关键点特征和肢干特征之间的语义关联,从而得到融合变换层输出的最终特征表示。可选地,融合变换层可以采用Transformer架构的网络,从而可以充分捕捉不同帧关键点特征和肢干特征之间的全局语义关联。
特征分离层用于对输入的最终特征表示进行特征分离,从而得到关键点特征和肢干特征;关键点回归层用于对输入的关键点特征进行回归运算,从而得到3D人体关键点,至此即完成了3D人体关键点的预测。可以理解的是,该3D人体关键点既是关键点回归层的输出,也是整个3D姿态估计模型最终的输出。
基于上述任一实施例,3D姿态估计层还包括肢干回归层;
将最终特征表示输入至特征分离层,得到特征分离层输出的关键点特征和肢干特征,之后还包括:
将肢干特征输入至肢干回归层,得到肢干回归层输出的3D人体肢干。
具体地,3D姿态估计层还可以包括肢干回归层,将特征分离层输出的肢干特征输入至肢干回归层,由肢干回归层对该肢干特征进行回归运算,得到肢干回归层输出的3D人体肢干,从而实现了3D人体肢干的预测。
进一步地,图2是本发明提供的3D人体姿态估计方法的总体框架图,如图2所示,2D人体姿态估计网络可以采用HRNet(High-Resolution Network,高分辨率网络),将人体图像序列输入至HRNet中进行2D姿态估计,得到2D人体关键点序列,并根据2D人体关键点序列得到2D肢干向量序列,随即,将2D人体关键点序列和2D肢干向量序列分别输入至关键点网络分支和肢干网络分支,再经由3D姿态估计层,即可得到关键点回归层输出的3D人体关键点,以及肢干回归层输出的3D人体肢干。
基于上述任一实施例,3D姿态估计模型的损失函数包括循环一致性损失函数;
循环一致性损失函数是基于第一预测3D人体肢干与第二预测3D人体肢干之间的一致性确定的;
其中,第一预测3D人体肢干和预测3D人体关键点是3D姿态估计模型基于样本2D人体关键点序列和样本2D肢干向量序列确定的,第二预测3D人体肢干是基于预测3D人体关键点确定的。
具体地,考虑到人体关键点和人体肢干属于不同层级的人体部件,人体不同层级预测之间存在不对齐的现象,从而会影响3D姿态估计模型的收敛。为了保证肢干网络分支和关键点网络分支的预测一致性,对齐两分支的预测结果,本发明实施例中3D姿态估计模型的损失函数包括循环一致性损失函数,循环一致性损失函数是基于第一预测3D人体肢干与第二预测3D人体肢干之间的一致性确定得到的。其中,第一预测3D人体肢干和预测3D人体关键点是3D姿态估计模型基于样本2D人体关键点序列和样本2D肢干向量序列确定的,第二预测3D人体肢干是基于预测3D人体关键点确定的。
在3D姿态估计模型的训练阶段,循环一致性损失函数可以使得第一预测3D人体肢干与第二预测3D人体肢干之间的相似度逐渐升高,从而达到第一预测3D人体肢干与第二预测3D人体肢干一致的训练目标。在训练过程中,3D姿态估计模型可以放大并学习第一预测3D人体肢干与对应的第二预测3D人体肢干之间的一致性,即第一预测3D人体肢干与第二预测3D人体肢干之间的共性特征,进而可以实现对齐关键点和肢干的预测结果,提升3D人体关键点的预测精度。
本发明实施例提供的方法,引入循环一致性损失函数来对齐肢干网络分支和关键点网络分支的预测结果,能够得到更加准确的3D人体关键点,进一步提升了3D人体姿态估计的精度。
基于上述任一实施例,3D姿态估计模型的损失函数包括监督损失函数,监督损失函数采用MPJPE(Mean Per Joint Position Error),具体表示如下:
Figure 82622DEST_PATH_IMAGE001
Figure 232981DEST_PATH_IMAGE002
其中,L表示关键点监督损失函数,
Figure 844222DEST_PATH_IMAGE003
表示肢干监督损失函数,
Figure 652909DEST_PATH_IMAGE004
表示3D姿态估计模 型预测得到的预测3D人体关键点,
Figure 852946DEST_PATH_IMAGE005
为第j个关键点的监督,即样本3D人体关键点,J表示关 键点的个数。
Figure 721676DEST_PATH_IMAGE006
表示3D姿态估计模型预测得到的第一预测3D人体肢干,
Figure 272743DEST_PATH_IMAGE007
表示第b个肢干 的监督,即样本3D人体肢干,B代表肢干的数量。
为了对齐肢干网络分支和关键点网络分支的预测结果,本发明实施例引入了循环 一致性损失函数来进一步提升肢干和关键点的预测精度,具体地,利用预测的3D人体关键 点获得第二预测3D人体肢干,可表示为
Figure 822804DEST_PATH_IMAGE008
,循环一致性损失函数可以表示为:
Figure 955976DEST_PATH_IMAGE009
通过循环一致性损失函数,由关键点构成的人体肢干预测逐渐合理,对3D人体关键点的预测起到很好的约束作用。
从而,3D姿态估计模型的总体损失函数可表示为:
Figure 182558DEST_PATH_IMAGE010
其中,
Figure 768392DEST_PATH_IMAGE011
为平衡网络损失的超参数。鉴于网络训练初始肢干预测和关键点预 测都不稳定,此处,本发明实施例采用动态修改
Figure 105832DEST_PATH_IMAGE011
取值的方式,即
Figure 562352DEST_PATH_IMAGE012
其中,
Figure 507306DEST_PATH_IMAGE013
表示迭代次数,
Figure 32965DEST_PATH_IMAGE014
Figure 924829DEST_PATH_IMAGE015
为常量。通过该调整,网络能够逐步调整循环一致性损 失函数的权重,待网络训练稳定后逐步加入循环一致性损失函数。
基于上述任一实施例,第二预测3D人体肢干是基于如下步骤确定的:
基于预测3D人体关键点,确定各肢干类型对应的预测人体关键点;
基于各肢干类型对应的预测人体关键点,确定各肢干类型对应的预测肢干向量;
基于各肢干类型对应的预测肢干向量,确定第二预测3D人体肢干。
具体地,在3D姿态估计模型的训练阶段,将样本2D人体关键点序列和样本2D肢干向量序列输入到3D姿态估计模型中,可以得到模型输出的第一预测3D人体肢干和预测3D人体关键点。接着,可以统计人体肢干类型,然后根据3D姿态估计模型预测得到的预测3D人体关键点,找到各个肢干类型对应的预测人体关键点,并根据各个肢干类型对应的预测人体关键点的坐标,计算各肢干类型对应肢干的空间向量表示即预测肢干向量,最后,即可根据各肢干类型对应的预测肢干向量,得到第二预测3D人体肢干。类似地,也可以通过上述方式得到步骤120中的2D肢干向量序列。
基于上述任一实施例,3D姿态估计模型包括关键点网络分支、肢干网络分支和3D 姿态估计层。图3是本发明提供的3D姿态估计模型的网络结构图,如图3所示,对于3D姿态估 计模型中的关键点网络分支,可以首先将2D人体关键点序列
Figure 281861DEST_PATH_IMAGE016
(其中f表示输入序列的帧数,J表示关键点的个数)输入至关键点网络分支中的差分层,得 到运动向量序列
Figure 335399DEST_PATH_IMAGE017
,其中,
Figure 613933DEST_PATH_IMAGE018
之后,通过编码层包括的运动向量编码层,将关键点对应的运动向量序列映射至 高维空间获得运动表示序列
Figure 106225DEST_PATH_IMAGE019
,Emo为 编码器结构;通过编码层包括的关键点编码层,将输入X映射至高维空间获得人体关键点序 列的时间表达,即初始关键点表示序列
Figure 17898DEST_PATH_IMAGE020
,C表示序列的特 征维度,E为编码器结构;类似于常规变换器,此处,为了加入位置信息,在关键点变换层的 输入中加入自学习的位置信息编码
Figure 22763DEST_PATH_IMAGE021
,此时关键点变换层的输入
Figure 70485DEST_PATH_IMAGE022
可表示为:
Figure 553419DEST_PATH_IMAGE023
关键点变换层可以采用Transformer架构的网络,其核心是利用自注意力机制来 关联输入序列,通过查询矩阵
Figure 573459DEST_PATH_IMAGE024
,键矩阵
Figure 483646DEST_PATH_IMAGE025
,值矩阵
Figure 18663DEST_PATH_IMAGE026
获得自注意 力矩阵,N为输入序列的长度。其中,
Figure 790442DEST_PATH_IMAGE027
Figure 179835DEST_PATH_IMAGE028
Figure 73972DEST_PATH_IMAGE029
Figure 283237DEST_PATH_IMAGE030
,
Figure 858706DEST_PATH_IMAGE031
为映射矩阵,注意力矩阵可表示为:
Figure 650075DEST_PATH_IMAGE032
进一步地,可以用多头自注意力机制(Multi-headed Self-attention,MSA)来代替注意力机制:
Figure 167644DEST_PATH_IMAGE033
Figure 614937DEST_PATH_IMAGE034
其中,h为注意力头的个数,
Figure 40102DEST_PATH_IMAGE035
为可学习的全连接层网络参数。关键点变换层一 共包含L层,具体表示为:
Figure 889241DEST_PATH_IMAGE036
Figure 312132DEST_PATH_IMAGE037
Figure 309038DEST_PATH_IMAGE038
其中,MLP为多层感知机,由多个全连接层构成,
Figure 226310DEST_PATH_IMAGE039
为层归一化操作。经过关键点 变换层之后,最终获得关键点表示序列
Figure 179222DEST_PATH_IMAGE040
类似地,对于3D姿态估计模型中的肢干网络分支,肢干网络分支的输入为2D肢干 向量序列
Figure 586064DEST_PATH_IMAGE041
,B代表肢干的数量。通过肢干编码层,将
Figure 257217DEST_PATH_IMAGE042
映射 至高维空间获得
Figure 978179DEST_PATH_IMAGE043
。位置信息编码可表示为
Figure 598647DEST_PATH_IMAGE044
,对于肢干依然可以提取其对应的运动向量序列
Figure 363341DEST_PATH_IMAGE045
, 其中,
Figure 69260DEST_PATH_IMAGE046
并将
Figure 577602DEST_PATH_IMAGE047
映射至高维空间中可以获得
Figure 244120DEST_PATH_IMAGE048
。 此时肢干变换层的输入可以表示为:
Figure 445294DEST_PATH_IMAGE049
类似地,经过肢干变换层之后,最终获得肢干表示序列
Figure 638509DEST_PATH_IMAGE050
对于3D姿态估计模型中的3D姿态估计层,将关键点表示序列和肢干表示序列进行拼接,同时送入融合变换层中进行变换处理,从而实现不同帧肢干特征和关键点特征之间的语义交互。具体地,融合后的输入特征可表示为:
Figure 435695DEST_PATH_IMAGE051
其中,
Figure 280023DEST_PATH_IMAGE052
为拼接操作。将
Figure 402831DEST_PATH_IMAGE053
输入到融合变换层中,可表示为:
Figure 270293DEST_PATH_IMAGE054
Figure 933487DEST_PATH_IMAGE055
Figure 586316DEST_PATH_IMAGE056
Figure 863714DEST_PATH_IMAGE057
表示最终特征表示。将
Figure 500362DEST_PATH_IMAGE057
输入至特征分离层,由特征分离层沿着时间轴对
Figure 967247DEST_PATH_IMAGE057
进行 拆分,分别获得关键点特征
Figure 723850DEST_PATH_IMAGE058
和肢干特征
Figure 922882DEST_PATH_IMAGE059
。分别经过关键点回归层和肢干回归层进行回 归运算之后,可获得关键点的预测结果即3D人体关键点,以及肢干的预测结果即3D人体肢 干,具体表示如下:
Figure 30515DEST_PATH_IMAGE060
Figure 35511DEST_PATH_IMAGE061
其中,
Figure 646621DEST_PATH_IMAGE062
表示3D人体关键点,
Figure 282133DEST_PATH_IMAGE063
表示3D人体肢干,
Figure 158953DEST_PATH_IMAGE064
为关键点回归 层,
Figure 154591DEST_PATH_IMAGE065
为肢干回归层。
需要说明的是,本发明实施例设计了一种基于双流变换器的3D姿态估计模型,3D姿态估计模型包括关键点网络分支和肢干网络分支,能够建模不同帧关键点间的语义关联和不同帧肢干间的语义关联,并且,为了更好地利用双流特征,3D姿态估计模型还包括3D姿态估计层,能够建模不同帧不同层级人体部件之间的语义关联,从而扩大了信息传递的范围。
关键点网络分支包括关键点变换层,肢干网络分支包括肢干变换层,3D姿态估计模型包括融合变换层。关键点变换层,肢干变换层以及融合变换层这三个变化器可以采用Transformer架构的网络,具有较强的长序列建模能力,从而可以实现建模不同帧关键点特征间和肢干特征间的全局关联,以及建模不同帧不同层级人体部件之间的全局关联。本发明实施例提供的方法,在3D人体姿态估计问题上实现了较低的度量误差。
下面对本发明提供的3D人体姿态估计装置进行描述,下文描述的3D人体姿态估计装置与上文描述的3D人体姿态估计方法可相互对应参照。
基于上述任一实施例,图4是本发明提供的3D人体姿态估计装置的结构图,该装置包括:
估计模块410,用于对人体图像序列进行2D姿态估计,得到2D人体关键点序列;
确定模块420,用于基于所述2D人体关键点序列,确定2D肢干向量序列;
输入模块430,用于将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型,得到所述3D姿态估计模型输出的3D人体关键点;其中,所述3D姿态估计模型是基于样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。
本发明实施例提供的装置,在得到高精度的2D人体关键点序列之后,确定出具有更高阶人体结构信息的2D肢干向量序列,并应用3D姿态估计模型结合2D人体关键点序列和2D肢干向量序列进行3D人体姿态估计,既可以捕捉到不同帧关键点之间的结构语义关联,还可以捕捉到不同帧肢干之间的结构语义关联,从而可以得到高精度的3D人体关键点,进而实现了3D人体姿态的精确估计,同时提升了3D人体姿态估计的鲁棒性和泛化性。
基于上述任一实施例,3D姿态估计模型包括关键点网络分支、肢干网络分支和3D姿态估计层;
将2D人体关键点序列和2D肢干向量序列输入至3D姿态估计模型,得到3D姿态估计模型输出的3D人体关键点,包括:
将2D人体关键点序列输入至关键点网络分支,得到关键点网络分支输出的关键点表示序列;
将2D肢干向量序列输入至肢干网络分支,得到肢干网络分支输出的肢干表示序列;
将关键点表示序列和肢干表示序列输入至3D姿态估计层,得到3D人体关键点。
基于上述任一实施例,关键点网络分支包括差分层、编码层和关键点变换层;
将2D人体关键点序列输入至关键点网络分支,得到关键点网络分支输出的关键点表示序列,包括:
将2D人体关键点序列输入至差分层,得到差分层输出的运动向量序列;
将2D人体关键点序列和运动向量序列分别输入至编码层,得到编码层输出的初始关键点表示序列和运动表示序列;
将初始关键点表示序列和运动表示序列输入至关键点变换层,得到关键点表示序列。
基于上述任一实施例,3D姿态估计层包括融合变换层、特征分离层和关键点回归层;
将关键点表示序列和肢干表示序列输入至3D姿态估计层,得到3D人体关键点,包括:
将关键点表示序列和肢干表示序列输入至融合变换层,得到融合变换层输出的最终特征表示;
将最终特征表示输入至特征分离层,得到特征分离层输出的关键点特征和肢干特征;
将关键点特征输入至关键点回归层,得到关键点回归层输出的3D人体关键点。
基于上述任一实施例,3D姿态估计层还包括肢干回归层;
将最终特征表示输入至特征分离层,得到特征分离层输出的关键点特征和肢干特征,之后还包括:
将肢干特征输入至肢干回归层,得到肢干回归层输出的3D人体肢干。
基于上述任一实施例,3D姿态估计模型的损失函数包括循环一致性损失函数;
循环一致性损失函数是基于第一预测3D人体肢干与第二预测3D人体肢干之间的一致性确定的;
其中,第一预测3D人体肢干和预测3D人体关键点是3D姿态估计模型基于样本2D人体关键点序列和样本2D肢干向量序列确定的,第二预测3D人体肢干是基于预测3D人体关键点确定的。
基于上述任一实施例,第二预测3D人体肢干是基于如下步骤确定的:
基于预测3D人体关键点,确定各肢干类型对应的预测人体关键点;
基于各肢干类型对应的预测人体关键点,确定各肢干类型对应的预测肢干向量;
基于各肢干类型对应的预测肢干向量,确定第二预测3D人体肢干。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行3D人体姿态估计方法,该方法包括:对人体图像序列进行2D姿态估计,得到2D人体关键点序列;基于所述2D人体关键点序列,确定2D肢干向量序列;将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型,得到所述3D姿态估计模型输出的3D人体关键点;其中,所述3D姿态估计模型是基于样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的3D人体姿态估计方法,该方法包括:对人体图像序列进行2D姿态估计,得到2D人体关键点序列;基于所述2D人体关键点序列,确定2D肢干向量序列;将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型,得到所述3D姿态估计模型输出的3D人体关键点;其中,所述3D姿态估计模型是基于样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的3D人体姿态估计方法,该方法包括:对人体图像序列进行2D姿态估计,得到2D人体关键点序列;基于所述2D人体关键点序列,确定2D肢干向量序列;将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型,得到所述3D姿态估计模型输出的3D人体关键点;其中,所述3D姿态估计模型是基于样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种3D人体姿态估计方法,其特征在于,包括:
对人体图像序列进行2D姿态估计,得到2D人体关键点序列;
基于所述2D人体关键点序列,确定2D肢干向量序列;
将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型,得到所述3D姿态估计模型输出的3D人体关键点;其中,所述3D姿态估计模型是基于样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。
2.根据权利要求1所述的3D人体姿态估计方法,其特征在于,所述3D姿态估计模型包括关键点网络分支、肢干网络分支和3D姿态估计层;
所述将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型,得到所述3D姿态估计模型输出的3D人体关键点,包括:
将所述2D人体关键点序列输入至所述关键点网络分支,得到所述关键点网络分支输出的关键点表示序列;
将所述2D肢干向量序列输入至所述肢干网络分支,得到所述肢干网络分支输出的肢干表示序列;
将所述关键点表示序列和所述肢干表示序列输入至3D姿态估计层,得到所述3D人体关键点。
3.根据权利要求2所述的3D人体姿态估计方法,其特征在于,所述关键点网络分支包括差分层、编码层和关键点变换层;
所述将所述2D人体关键点序列输入至所述关键点网络分支,得到所述关键点网络分支输出的关键点表示序列,包括:
将所述2D人体关键点序列输入至所述差分层,得到所述差分层输出的运动向量序列;
将所述2D人体关键点序列和所述运动向量序列分别输入至所述编码层,得到所述编码层输出的初始关键点表示序列和运动表示序列;
将所述初始关键点表示序列和所述运动表示序列输入至所述关键点变换层,得到所述关键点表示序列。
4.根据权利要求2所述的3D人体姿态估计方法,其特征在于,所述3D姿态估计层包括融合变换层、特征分离层和关键点回归层;
所述将所述关键点表示序列和所述肢干表示序列输入至3D姿态估计层,得到所述3D人体关键点,包括:
将所述关键点表示序列和所述肢干表示序列输入至所述融合变换层,得到所述融合变换层输出的最终特征表示;
将所述最终特征表示输入至所述特征分离层,得到所述特征分离层输出的关键点特征和肢干特征;
将所述关键点特征输入至所述关键点回归层,得到所述关键点回归层输出的3D人体关键点。
5.根据权利要求4所述的3D人体姿态估计方法,其特征在于,所述3D姿态估计层还包括肢干回归层;
所述将所述最终特征表示输入至所述特征分离层,得到所述特征分离层输出的关键点特征和肢干特征,之后还包括:
将所述肢干特征输入至所述肢干回归层,得到所述肢干回归层输出的3D人体肢干。
6.根据权利要求1至5中任一项所述的3D人体姿态估计方法,其特征在于,所述3D姿态估计模型的损失函数包括循环一致性损失函数;
所述循环一致性损失函数是基于第一预测3D人体肢干与第二预测3D人体肢干之间的一致性确定的;
其中,所述第一预测3D人体肢干和预测3D人体关键点是所述3D姿态估计模型基于所述样本2D人体关键点序列和所述样本2D肢干向量序列确定的,所述第二预测3D人体肢干是基于所述预测3D人体关键点确定的。
7.根据权利要求6所述的3D人体姿态估计方法,其特征在于,所述第二预测3D人体肢干是基于如下步骤确定的:
基于所述预测3D人体关键点,确定各肢干类型对应的预测人体关键点;
基于所述各肢干类型对应的预测人体关键点,确定所述各肢干类型对应的预测肢干向量;
基于所述各肢干类型对应的预测肢干向量,确定所述第二预测3D人体肢干。
8.一种3D人体姿态估计装置,其特征在于,包括:
估计模块,用于对人体图像序列进行2D姿态估计,得到2D人体关键点序列;
确定模块,用于基于所述2D人体关键点序列,确定2D肢干向量序列;
输入模块,用于将所述2D人体关键点序列和所述2D肢干向量序列输入至3D姿态估计模型,得到所述3D姿态估计模型输出的3D人体关键点;其中,所述3D姿态估计模型是基于样本2D人体关键点序列,样本2D肢干向量序列以及对应的样本3D人体关键点训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述3D人体姿态估计方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述3D人体姿态估计方法的步骤。
CN202111617338.8A 2021-12-28 2021-12-28 3d人体姿态估计方法、装置、电子设备与存储介质 Active CN113989283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111617338.8A CN113989283B (zh) 2021-12-28 2021-12-28 3d人体姿态估计方法、装置、电子设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111617338.8A CN113989283B (zh) 2021-12-28 2021-12-28 3d人体姿态估计方法、装置、电子设备与存储介质

Publications (2)

Publication Number Publication Date
CN113989283A true CN113989283A (zh) 2022-01-28
CN113989283B CN113989283B (zh) 2022-04-05

Family

ID=79734612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111617338.8A Active CN113989283B (zh) 2021-12-28 2021-12-28 3d人体姿态估计方法、装置、电子设备与存储介质

Country Status (1)

Country Link
CN (1) CN113989283B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663917A (zh) * 2022-03-14 2022-06-24 清华大学 基于多视角的多人三维人体位姿估计方法及装置
CN115205737A (zh) * 2022-07-05 2022-10-18 北京甲板智慧科技有限公司 基于Transformer模型的运动实时计数方法和系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920274A (zh) * 2017-01-20 2017-07-04 南京开为网络科技有限公司 移动端2d关键点快速转换为3d融合变形的人脸建模方法
CN108460338A (zh) * 2018-02-02 2018-08-28 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
CN110991293A (zh) * 2019-11-26 2020-04-10 爱菲力斯(深圳)科技有限公司 姿态识别方法、装置、计算机设备和存储介质
CN111666917A (zh) * 2020-06-19 2020-09-15 北京市商汤科技开发有限公司 姿态检测及视频处理方法、装置、电子设备和存储介质
CN111783755A (zh) * 2020-09-04 2020-10-16 中国科学院自动化研究所 基于空间变换信息传递的人体关键点检测方法与系统
CN111832386A (zh) * 2020-05-22 2020-10-27 大连锐动科技有限公司 一种估计人体姿态的方法、装置及计算机可读介质
CN112926475A (zh) * 2021-03-08 2021-06-08 电子科技大学 一种人体三维关键点提取方法
CN112989947A (zh) * 2021-02-08 2021-06-18 上海依图网络科技有限公司 一种人体关键点的三维坐标的估计方法及装置
WO2021219835A1 (en) * 2020-04-30 2021-11-04 Siemens Aktiengesellschaft Pose estimation method and apparatus
US20210366146A1 (en) * 2020-05-22 2021-11-25 Google Llc Human pose estimation using neural networks and kinematic structure

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920274A (zh) * 2017-01-20 2017-07-04 南京开为网络科技有限公司 移动端2d关键点快速转换为3d融合变形的人脸建模方法
CN108460338A (zh) * 2018-02-02 2018-08-28 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
CN110991293A (zh) * 2019-11-26 2020-04-10 爱菲力斯(深圳)科技有限公司 姿态识别方法、装置、计算机设备和存储介质
WO2021219835A1 (en) * 2020-04-30 2021-11-04 Siemens Aktiengesellschaft Pose estimation method and apparatus
CN111832386A (zh) * 2020-05-22 2020-10-27 大连锐动科技有限公司 一种估计人体姿态的方法、装置及计算机可读介质
US20210366146A1 (en) * 2020-05-22 2021-11-25 Google Llc Human pose estimation using neural networks and kinematic structure
CN111666917A (zh) * 2020-06-19 2020-09-15 北京市商汤科技开发有限公司 姿态检测及视频处理方法、装置、电子设备和存储介质
CN111783755A (zh) * 2020-09-04 2020-10-16 中国科学院自动化研究所 基于空间变换信息传递的人体关键点检测方法与系统
CN112989947A (zh) * 2021-02-08 2021-06-18 上海依图网络科技有限公司 一种人体关键点的三维坐标的估计方法及装置
CN112926475A (zh) * 2021-03-08 2021-06-08 电子科技大学 一种人体三维关键点提取方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663917A (zh) * 2022-03-14 2022-06-24 清华大学 基于多视角的多人三维人体位姿估计方法及装置
CN115205737A (zh) * 2022-07-05 2022-10-18 北京甲板智慧科技有限公司 基于Transformer模型的运动实时计数方法和系统
CN115205737B (zh) * 2022-07-05 2023-06-20 北京甲板智慧科技有限公司 基于Transformer模型的运动实时计数方法和系统

Also Published As

Publication number Publication date
CN113989283B (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN112767554B (zh) 一种点云补全方法、装置、设备及存储介质
CN113989283B (zh) 3d人体姿态估计方法、装置、电子设备与存储介质
CN111476184A (zh) 一种基于双注意力机制的人体关键点检测方法
CN113111760B (zh) 基于通道注意力的轻量化图卷积人体骨架动作识别方法
CN112200057B (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN113077501B (zh) 一种基于特征学习的端到端点云配准方法
CN116030537B (zh) 基于多分支注意力图卷积的三维人体姿态估计方法
WO2023142651A1 (zh) 动作生成方法及相关装置、电子设备、存储介质和程序
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN115546888A (zh) 一种基于身体部位分组的对称语义图卷积姿态估计方法
CN113255569B (zh) 一种基于图空洞卷积编码器解码器的3d姿态估计方法
CN114724247A (zh) 面向特定场景下基于语义认知的姿态估计方法及系统
CN113887501A (zh) 行为识别方法、装置、存储介质及电子设备
CN117711066A (zh) 一种三维人体姿态估计方法、装置、设备及介质
CN111738092B (zh) 一种基于深度学习的恢复被遮挡人体姿态序列方法
CN113706670A (zh) 生成动态三维人体网格模型序列的方法及装置
CN114333069B (zh) 对象的姿态处理方法、装置、设备及存储介质
CN115908497A (zh) 一种基于人体拓扑感知网络的三维人体姿态估计方法及系统
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
CN114399648A (zh) 行为识别方法及装置、存储介质及电子设备
CN114298961A (zh) 图像处理方法、装置、设备及存储介质
CN113420676A (zh) 一种二路特征交错融合网络的3d人体姿态估计方法
CN112801138A (zh) 基于人体拓扑结构对齐的多人姿态估计方法
CN118038553B (zh) 基于图卷积和注意力机制的三维人体姿态估计系统及方法
CN113723237B (zh) 一种根据相对信息的三维人体姿态估计方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant