CN114022684B - 人体姿态估计方法及装置 - Google Patents

人体姿态估计方法及装置 Download PDF

Info

Publication number
CN114022684B
CN114022684B CN202210003055.2A CN202210003055A CN114022684B CN 114022684 B CN114022684 B CN 114022684B CN 202210003055 A CN202210003055 A CN 202210003055A CN 114022684 B CN114022684 B CN 114022684B
Authority
CN
China
Prior art keywords
image
key point
recognized
human body
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210003055.2A
Other languages
English (en)
Other versions
CN114022684A (zh
Inventor
王金桥
陈盈盈
周鲁
王海鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Objecteye Beijing Technology Co Ltd
Original Assignee
Objecteye Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Objecteye Beijing Technology Co Ltd filed Critical Objecteye Beijing Technology Co Ltd
Priority to CN202210003055.2A priority Critical patent/CN114022684B/zh
Publication of CN114022684A publication Critical patent/CN114022684A/zh
Application granted granted Critical
Publication of CN114022684B publication Critical patent/CN114022684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种人体姿态估计方法及装置,该方法包括获取待识别图像;将待识别图像输入姿态估计模型,获取姿态估计模型输出的待识别图像中每一人体实例的姿态;其中,姿态估计模型,用于从待识别图像中确定多个关键点,基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计,尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定,身份信息基于嵌入向量在所处空间中的位置确定。本发明提供的人体姿态估计方法及装置,能在待识别图像中至少一个人体实例被遮挡的情况下,更准确的获取待识别图像中每一人体实例的姿态,对待识别图像进行人体姿态估计的鲁棒性更强。

Description

人体姿态估计方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种人体姿态估计方法及装置。
背景技术
基于2D图像的人体姿态估计,指利用图像处理和机器学习方法,通过找出待识别图像中人体实例的关键点(头部、肘部、手腕、肩部、膝盖以及脚踝等)的位置,获取待识别图像中人体实例的姿态的技术。高效、准确的人体姿态估计是行人重识别、行为分析、人机交互等各类下游视觉应用的基础。
现有的人体姿态估计方法可以包括自顶向下的人体姿态估计方法和自底向上的人体姿态估计方法。但是,在待识别图像中的人体实例被遮挡的情况下,基于现有的人体姿态估计方法,难以准确地获取待识别图像中每一人体实例的姿态。
发明内容
本发明提供一种人体姿态估计方法及装置,用以解决现有技术中在待识别图像中的人体实例被遮挡的情况下,难以准确地获取待识别图像中每一人体实例的姿态的缺陷,实现更准确的获取待识别图像中每一人体实例的姿态。
本发明提供一种人体姿态估计方法,包括:
获取待识别图像;
将所述待识别图像输入姿态估计模型,获取所述姿态估计模型输出的所述待识别图像中每一人体实例的姿态;
其中,所述姿态估计模型,是基于样本图像以及所述样本图像中每一人体实例的姿态,进行训练后得到的;
所述姿态估计模型,用于从所述待识别图像中确定多个关键点,基于各所述关键点对应的身份信息和尺度信息对所述待识别图像进行人体姿态估计,所述尺度信息基于对应关键点在所述待识别图像对应的特征嵌入图中的嵌入向量确定,所述身份信息基于所述嵌入向量在所处空间中的位置确定。
根据本发明提供的一种人体姿态估计方法,所述姿态估计模型包括特征提取层、关键点检测层、特征嵌入层、第一数据处理层以及结果输出层;
相应地,所述将所述待识别图像输入姿态估计模型,获取所述姿态估计模型输出的所述待识别图像中每一人体实例的姿态,具体包括:
将所述待识别图像输入所述特征提取层,获取所述特征提取层输出的所述待识别图像的特征图;
将所述特征图分别输入所述关键点检测层和所述特征嵌入层,获取所述关键点检测层输出的每一所述关键点的位置信息以及所述特征嵌入层输出的所述特征嵌入图;
将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层,获取所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息;
将每一所述关键点的尺度信息和身份信息输入所述结果输出层,获取所述结果输出层输出的所述待识别图像中每一人体实例的姿态。
根据本发明提供的一种人体姿态估计方法,所述关键点检测层包括热力图生成层和第二数据处理层;
相应地,将所述特征图输入所述关键点检测层,获取所述关键点检测层输出的每一所述关键点的位置信息,具体包括:
将所述特征图输入所述热力图生成层,获取所述热力图生成层输出的热力图;
将所述热力图输入所述第二数据处理层,获取所述第二数据处理层输出的每一所述关键点的位置信息。
根据本发明提供的一种人体姿态估计方法,所述姿态估计模型的损失函数包括热力图损失函数;
所述热力图损失函数是基于所述样本图像的热力图标签,以及所述样本图像的预测热力图确定的,所述预测热力图是将所述样本图像输入至训练中的姿态估计模型,由所述训练中的姿态估计模型的热力图生成层输出的。
根据本发明提供的一种人体姿态估计方法,所述样本图像的热力图标签,是基于高斯函数生成的;所述高斯函数中标准差的修正值,是基于所述样本图像对应的预测特征嵌入图中每一像素点的预测嵌入向量确定的,所述预测嵌入向量是将所述样本图像输入所述训练中的姿态估计模型,由所述训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。
根据本发明提供的一种人体姿态估计方法,所述姿态估计模型的损失函数包括分组损失函数;
所述分组损失函数,是基于所述样本图像中每一人体实例中的每一关键点在所述样本图像对应的预测特征嵌入图中的预测嵌入向量确定的,所述预测嵌入向量是将所述样本图像输入训练中的姿态估计模型,由所述训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。
根据本发明提供的一种人体姿态估计方法,所述将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层,获取所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息,具体包括:
将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层,由所述第一数据处理层基于每一所述关键点的位置信息,确定每一所述关键点在所述特征嵌入图中的嵌入向量,将所述嵌入向量在所处空间中的位置确定为对应关键点的身份信息,将所述嵌入向量绝对值的归一化值确定为对应关键点的尺度信息,获得所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息。
根据本发明提供的一种人体姿态估计方法,所述姿态估计模型的损失函数包括尺度损失函数;
所述尺度损失函数,是基于所述样本图像中每一关键点的预测尺度信息以及所述每一关键点的尺度信息标签确定的,所述预测尺度信息,是将所述样本图像输入训练中姿态估计模型,由所述训练中的姿态估计模型中的第一数据处理层输出的,所述尺度信息标签是基于对应关键点所在人体实例的外接矩形框确定的,所述外接矩形框用于标注所述人体实例。
本发明还提供一种人体姿态估计装置,包括:
图像获取模块,用于获取待识别图像;
姿态估计模块,用于将所述待识别图像输入姿态估计模型,获取所述姿态估计模型输出的所述待识别图像中每一人体实例的姿态;
其中,所述姿态估计模型,是基于样本图像以及所述样本图像中每一人体实例的姿态,进行训练后得到的;
所述姿态估计模型,用于从所述待识别图像中确定多个关键点,基于各所述关键点对应的身份信息和尺度信息对所述待识别图像进行人体姿态估计,所述尺度信息基于对应关键点在所述待识别图像对应的特征嵌入图中的嵌入向量确定,所述身份信息基于所述嵌入向量在所处空间中的位置确定。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述人体姿态估计方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述人体姿态估计方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述人体姿态估计方法的步骤。
本发明提供的人体姿态估计方法及装置,通过将待识别图像输入训练好的姿态估计模型,由姿态估计模型从待识别图像中确定多个关键点,基于每一关键点在待识别图像对应的特征嵌入图中的嵌入向量确定每一关键点的尺度信息,基于上述每一嵌入向量在所处空间中的位置确定每一关键点的身份信息,基于每一关键点的尺度信息和身份信息对待识别图像进行人体姿态估计,进而获取训练好的姿态估计模型输出的待识别图像中每一人体实例的姿态,能在待识别图像中至少一个人体实例被遮挡的情况下,更准确的获取待识别图像中每一人体实例的姿态,对待识别图像进行人体姿态估计的鲁棒性更强。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的人体姿态估计方法的流程示意图之一;
图2是本发明提供的人体姿态估计方法的流程示意图之二;
图3是本发明提供的人体姿态估计方法中人体姿态估计模型的结构示意图;
图4是本发明提供的人体姿态估计装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在待识别图像中包括多个人体实例的情况下,传统的人体姿态估计方法主要包括自顶向下的人体姿态估计方法和自底向上的人体姿态估计方法。
自顶向下的人体姿态估计方法,首先通过目标检测方法对待识别图像中的每一人体实例进行定位,并用检测框标记待识别图像中的每一人体实例,进而再分别确定每一人体实例中各关键点的位置,从而基于每一人体实例中各关键点的位置,获取待识别图像中每一人体实例的姿态。
自底向上的人体姿态估计方法,首先对待识别图像进行关键点检测,确定待识别图像中所有关键点的位置,进而对检测到的各关键点进行分组,将每一关键点划分至对应的人体实例中,从而基于每一人体实例中各关键点的位置,获取待识别图像中每一人体实例的姿态。
相较于自底向上的人体姿态估计方法,自顶向下的人体姿态估计方法有如下缺点:一方面,自顶向下的人体姿态估计方法中,需要为定位得到的每一人体实例分别执行姿态估计算法,随着待识别图像中人体实例数量的增加,自顶向下的人体姿态估计方法的计算复杂度呈线性增加,计算时长较长,计算效率较低;另一方面,若待识别图像中有至少一个人体实例被遮挡,则可能出现某一检测框中包括多个人体实例或人体实例的遗漏,导致无法正确定位待识别图像中的每一人体实例,从而导致难以准确的获取待识别图像中每一人体实例的姿态。而自底向上的人体姿态估计方法无需对待识别图像中的每一人体实例进行定位,在待识别图像中有至少一个人体实例被遮挡的情况下具有更高的鲁棒性,且计算效率受待识别图像中人体实例的数量的影响不大。
对此,本发明基于传统的自底向上的人体姿态估计方法的技术框架,提供了一种人体姿态估计方法,该方法可以在待识别图像中的一个或多个人体实例被遮挡的情况下,更准确的获取待识别图像中每一人体实例的姿态。
图1是本发明提供的人体姿态估计方法的流程示意图之一。下面结合图1描述本发明的人体姿态估计方法。如图1所示,该方法包括:步骤101、获取待识别图像。
具体地,待识别图像为需要进行人体姿态估计的图像。
可选地,可以通过多种方式获取待识别图像,例如:可以利用视觉传感器,获取目标场景的图像作为待识别图像。
步骤102、将待识别图像输入姿态估计模型,获取姿态估计模型输出的待识别图像中每一人体实例的姿态。
其中,姿态估计模型,是基于样本图像以及样本图像中每一人体实例的姿态,进行训练后得到的。
姿态估计模型,用于从待识别图像中确定多个关键点,基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计,尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定,身份信息基于嵌入向量在所处空间中的位置确定。
图2是本发明提供的人体姿态估计方法的流程示意图之二,如图2所示,在将待识别图像输入姿态估计模型,获取姿态估计模型输出的待识别图像中每一人体实例的姿态之前,可以预先对姿态估计模型进行训练,获得训练好的姿态估计模型。
可选地,可以通过如下方式对姿态估计模型进行训练:首先,获取样本场景的图像作为样本图像。其中,样本图像的数量可以为多张,且样本图像的数量越多,训练得到的姿态估计模型的准确度越高;其次,可以对样本图像进行标注,标注出样本图像中的每一人体实例以及每一人体实例中的每一关键点;再次,可以基于标注后的样本图像,获取样本图像中的每一人体实例的姿态;最后,基于样本图像以及样本图像中每一人体实例的姿态对姿态估计模型进行训练,从而得到训练好的姿态估计模型。需要说明的是,此处的姿态估计模型是基于传统的自底向上的人体姿态估计方法的技术框架构建的。
需要说明的是,可以通过目视编译等方式,在样本图像中标注每一人体实例以及每一人体实例中各预设类型的人体关键点。其中,样本图像中同一人体实例的任意两个关键点之间的距离较近,而任一人体实例中的各关键点与另一人体实例中的各关键点之间的距离较远。任一人体实例中的各关键点与另一人体实例中的各关键点之间的距离,可以用任一实例中各关键点的中心位置与另一人体实例中各关键点的中心位置之间的距离表示。
需要说明的是,传统的自底向上的人体姿态估计方法通常基于待识别图的局部语义或特征嵌入的方式实现各关键点的分组,在待识别图像中至少一个人体实例被遮挡的情况下,一方面被遮挡的人体实例的局部语义信息(例如肢体连接)会变得模糊,进而导致难以准确的获取到上述人体实例的姿态;另一方面,获取待识别图像中各关键点的位置的过程中,若各关键点的尺度不同,则易出现关键点的漏检和误检。
若基于特征嵌入的方式进行各关键点的分组,则在嵌入向量仅携带有全局特征的情况下,上述特征嵌入的方法会导致训练好的姿态估计模型对待识别图像中人体实例的数量较为敏感。对此,本发明实施例中的嵌入向量在携带有全局特征的同时还携带有不同尺度的局部特征,可以降低训练好的姿态估计模型对待识别图像中人体实例的数量的敏感程度,并增强嵌入特征的语义,可以在待识别图像中至少一个人体实例被遮挡的情况下,提高各关键点分组的准确度。相应地,姿态估计模型还可以是基于特征嵌入的技术框架构建的。
获得训练好的姿态估计模型之后,可以加载模型参数,并将待识别图像输入训练好的姿态估计模型。
训练好的姿态估计模型可以用于从待识别图像中确定多个关键点,获取上述每一关键点对应的身份信息和尺度信息,并基于上述各关键点对应的身份信息和尺度信息对上述各关键点进行分组,基于分组结果对待识别图像进行人体姿态估计,从而可以获取训练好的姿态估计模型输出的待识别图像中每一人体实例的姿态。其中,对于待识别图像中的每一关键点,该关键点对应的尺度信息是基于该关键点在待识别图像对应的特征嵌入图中的嵌入向量确定的,该关键点对应的身份信息是基于上述嵌入向量在所处空间中的位置确定的。上述嵌入向量携带有待识别图像的全局特征以及该关键点不同尺度的局部特征。上述嵌入向量在携带有全局特征的同时还携带有不同尺度的局部特征。
本发明实施例通过将待识别图像输入训练好的姿态估计模型,由姿态估计模型从待识别图像中确定多个关键点,基于每一关键点在待识别图像对应的特征嵌入图中的嵌入向量确定每一关键点的尺度信息,基于上述每一嵌入向量在所处空间中的位置确定每一关键点的身份信息,基于每一关键点的尺度信息和身份信息对待识别图像进行人体姿态估计,进而获取训练好的姿态估计模型输出的待识别图像中每一人体实例的姿态,能在待识别图像中至少一个人体实例被遮挡的情况下,更准确的获取待识别图像中每一人体实例的姿态,对待识别图像进行人体姿态估计的鲁棒性更强。
图3是本发明提供的人体姿态估计方法中人体姿态估计模型的结构示意图,如图3所示,姿态估计模型包括特征提取层、关键点检测层、特征嵌入层、第一数据处理层以及结果输出层。
相应地,将待识别图像输入姿态估计模型,获取姿态估计模型输出的待识别图像中每一人体实例的姿态,具体包括:将待识别图像输入特征提取层,获取特征提取层输出的待识别图像的特征图。
具体地,对于待识别图像,特征提取层可以用于提取待识别图像中的特征,进而生成并输出待识别图像的特征图。
可选地,本发明实施例中可以采用HRNet作为特征提取层,使得特征提取层在提取待识别图像的特征时,通过多个阶段的尺度融合,在提取全局特征的同时保留一定的局部特征,从而获取并输出可以更好适用于后续的密集预测的待识别图像的特征图。
需要说明的是,特征提取层提取待识别图像中的特征时,可以对待识别图像进行降采样。相应地,待识别图像的特征图的分辨率低于待识别图像的分辨率。
将待识别图像的特征图分别输入关键点检测层和特征嵌入层,获取关键点检测层输出的每一关键点的位置信息以及特征嵌入层输出的特征嵌入图。
具体地,获取特征提取层输出的待识别图像的特征图之后,可以将待识别图像的特征图分别输入关键点检测层和特征嵌入层。
关键点检测层可以用于基于待识别图像的特征图,对待识别图像进行关键点检测,从待识别图像中确定多个关键点,进而获取并输出上述每一关键点的位置信息。
需要说明的是,可以通过坐标的形式标识上述特征图中的每一像素点,并可以将每一关键点在上述特征图中对应的像素点的坐标,作为每一关键点的位置信息。还可以通过坐标的形式表示待识别图像中每一像素点,并可以基于上述特征图与待识别图像的位置对应关系,获取每一关键点在待识别图像中对应的像素点的坐标,作为每一关键点的位置信息。
可选地,特征嵌入层可以用于基于待识别图像的特征图,为待识别图像的特征图 中的每一像素点嵌入对应的嵌入向量t,进而获取并输出待识别图像对应的特征嵌入图。其 中,上述特征嵌入图可以用
Figure 632642DEST_PATH_IMAGE001
表示,H和W分别表示上述特征嵌入图
Figure 989674DEST_PATH_IMAGE002
的长度 和宽度,K表示人体关键点的预设类型的数量,M表示上述嵌入向量t的维度数量。
可以理解的是,上述特征嵌入图
Figure 964583DEST_PATH_IMAGE002
的分辨率与上述特征图的分辨率相同。上述特征 嵌入图
Figure 977539DEST_PATH_IMAGE002
中的像素点与上述特征图中的像素点一一对应。
需要说明的是,在对姿态估计模型进行训练的过程中,将样本图像输入训练中的姿态估计模型,可以获取训练中的姿态估计模型的特征嵌入层输出的样本图像对应的预测嵌入图。对于上述预测嵌入图中的预先确定的每一关键点,该关键点在上述预测嵌入图中的预测嵌入向量携带有全局特征,基于上述预测嵌入向量可以获取该关键点的预测身份信息标签,并可以根据上述预测身份信息标签的相对值定义损失函数,促使姿态估计模型学习到样本图像中所有关键点的全局特征。上述预测嵌入向量还携带有该关键点不同尺度的局部特征,避免因关键点的尺度不同,出现关键点的漏检和误检。训练好的姿态估计模型可以依据待识别图像的全局特征以及每一关键点不同尺度的局部特征,确定待识别图像中每一关键点的身份信息和尺度信息,实现上述各关键点的分组,受局部语义信息模糊的影响较小,更适合待识别图像中至少一个人体实例被遮挡的情况下,获取待识别图像中每一人体实例的姿态。
将每一关键点的位置信息和特征嵌入图输入第一数据处理层,获取第一数据处理层输出的每一关键点的尺度信息和身份信息。
具体地,获取关键点检测层输出的待识别图像中每一关键点的位置信息,以及特征嵌入层输出的待识别图像对应的特征嵌入图之后,可以将上述每一关键点的位置信息和上述特征嵌入图输入第一数据处理层。
第一数据处理层可以用于对上述每一关键点的位置信息和上述特征嵌入图进行数据处理,进而获取并输出上述每一关键点的尺度信息和身份信息。
将每一关键点的尺度信息和身份信息输入结果输出层,获取结果输出层输出的待识别图像中每一人体实例的姿态。
具体地,获取第一数据处理层输出的待识别图像中每一关键点的尺度信息和身份信息之后,可以将上述每一关键点的尺度信息和身份信息输出结果输出层。
结果输出层可以用于基于上述每一关键点的尺度信息和身份信息对上述各关键点进行分组,将同属一个人体实例的各关键点分为一组,进而基于各关键点的分组结果,获取并输出待识别图像中每一人体实例的姿态。
可选地,结果输出层可以用于基于上述每一关键点的尺度信息和身份信息,通过二分图最大匹配的经典匈牙利算法,对上述各关键点进行分组。
本发明实施例基于姿态估计模型中的特征提取层、关键点检测层、特征嵌入层、第一数据处理层和结果输出层,获取待识别图像的特征图,并基于上述特征图获取待识别图像中每一关键点的位置信息以及待识别图像对应的特征嵌入图,基于上述每一关键点的位置信息和上述特征嵌入图,获取上述每一关键点的尺度信息和身份信息,基于每一关键点的尺度信息和身份信息,对上述各关键点进行分组,并基于分组结果对待识别图像进行人体姿态估计,获取姿态估计模型输出的待识别图像中每一人体实例的姿态,能通过同时嵌入全局特征以及多尺度的局部特征,提高从待识别图像中确定关键点的准确度以及对各关键点进行分组的准确度,从而能进一步提高对待识别图像进行人体姿态估计的准确度。
基于上述各实施例的内容,关键点检测层包括热力图生成层和第二数据处理层。
相应地,将特征图输入关键点检测层,获取关键点检测层输出的每一关键点的位置信息,具体包括:将特征图输入热力图生成层,获取热力图生成层输出的热力图。
具体地,如图3所示,热力图生成层可以用于基于待识别图像的特征图,获取上述特征图中每一像素点的置信度,进而可以基于上述各像素点的置信度生成并输出热力图。其中,上述置信度,可以用于描述上述特征图中的像素点为关键点的可信程度。
可选地,上述热力图可以是由各预设类型的人体关键点的类别热力图堆叠构成的。其中,各预设类型的人体关键点可以包括头、右膝、肩部以及右手等。
任一预设类型的人体关键点的类别热力图,可以是通过在上述特征图中以渐变颜色的形式反映每一像素点的类别置信度生成的。其中,上述类别置信度,可以用于描述上述特征图中的像素点为该预设类型的人体关键点的可信程度。
可以理解的是,任一预设类型的人体关键点的类别热力图的分辨率与上述特征图的分辨率相同,且该类别热力图中的像素点与上述特征图中的像素点一一对应。相应地,任一预设类型的人体关键点的类别热力图的分辨率与待识别图像对应的特征嵌入图的分辨率相同,且该类别热力图中的像素点与上述特征图中的像素点一一对应。
将热力图输入第二数据处理层,获取第二数据处理层输出的每一关键点的位置信息。
具体地,获取热力图生成层输出的热力图之后,可以将上述热力图输入第二数据处理层。
第二数据处理层可以用于基于上述热力图中每一像素点的置信度,通过预设的阈值对上述热力图中的背景像素点进行过滤,将保留下的像素点作为候选关键点,通过局部的非极大值抑制算法剔除冗余的候选关键点,得到多个关键点,进而获取并输出上述每一关键点的位置信息。
本发明实施例基于姿态估计模型中的热力图生成层和第二数据处理层,获取热力图,并基于上述热力图获取待识别图像中每一关键点的位置信息,能更简单、更高效和更准确的从待识别图像中确定多个关键点,进而能提高对待识别图像进行人体姿态估计的计算效率和准确度。
基于上述各实施例的内容,将每一关键点的位置信息和特征嵌入图输入第一数据处理层,获取第一数据处理层输出的每一关键点的尺度信息和身份信息,具体包括:将每一关键点的位置信息和特征嵌入图输入第一数据处理层,由第一数据处理层基于每一关键点的位置信息,确定每一关键点在特征嵌入图中的嵌入向量,将嵌入向量在所处空间中的位置确定为对应关键点的身份信息,将嵌入向量绝对值的归一化值确定为对应关键点的尺度信息,获得第一数据处理层输出的每一关键点的尺度信息和身份信息。
具体地,将待识别图像中每一关键点的位置信息和待识别图像对应的特征嵌入图输入第一数据处理层之后,第一数据处理层可以基于上述每一关键点的位置信息,在上述特征嵌入图中进行检索,获取上述每一关键点对应的像素点,并将上述像素点的嵌入向量,作为上述每一关键点在上述特征嵌入图中的嵌入向量。
第一数据处理层获取上述每一关键点在上述特征嵌入图中的嵌入向量之后,对于每一关键点,可以将该关键点在上述特征嵌入图中的嵌入向量在所处空间中的位置确定为该关键点的身份信息,还可以获取上述嵌入向量绝对值的归一化值,并将上述嵌入向量绝对值的归一化值确定为该关键点的尺度信息。
可以理解的是,上述各关键点在上述特征嵌入图中的嵌入向量中,属于待识别图像中同一人体实例的各关键点在上述特征嵌入图中的嵌入向量之间的距离较近,属于待识别图像中不同人体实例的各关键点在上述特征嵌入图中的嵌入向量之间的距离较远。
需要说明的是,上述嵌入向量所处空间的每一维度可以对应一个尺度。上述任一关键点在上述特征嵌入图中的嵌入向量绝对值的归一化值,可以作为该关键点不同尺度的局部特征的离散分布。
本发明实施例基于姿态估计模型的第一数据处理层,通过基于待识别图像中每一关键的位置信息确定上述每一关键点在待识别图像对应的特征嵌入图中的嵌入向量,将上述嵌入向量在所处空间中的位置确定为对应关键点的身份信息,将上述嵌入向量绝对值的归一化值确定为对应关键点的尺度信息,从而获得第一数据处理层输出的上述每一关键点的尺度信息和身份信息,能基于同时携带有全局特征和不同尺度的局部特征的嵌入向量,更简单、更准确的获取待识别图像中每一关键点的尺度信息和身份信息,从而能更准确的对待识别图像中各关键点进行分组,能提高对待识别图像进行人体姿态估计的准确度。
基于上述各实施例的内容,姿态估计模型的损失函数包括分组损失函数。
分组损失函数,是基于样本图像中每一人体实例中的每一关键点在样本图像对应的预测特征嵌入图中的预测嵌入向量确定的,预测嵌入向量是将样本图像输入训练中的姿态估计模型,由训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。
具体地,为了使得待识别图像对应的特征嵌入图中,同一人体实例中的每两个关 键点在上述特征嵌入图中的嵌入向量之间的距离最小化,任一人体实例中的各关键点在上 述特征嵌入图中的嵌入向量的均值与另一人体实例中的各关键点在上述特征嵌入图中的 嵌入向量的均值之间的距离最大化,在将待识别图像的特征图输入特征嵌入层之前,可以 基于分组损失函数
Figure 474027DEST_PATH_IMAGE003
对姿态估计模型进行训练,训练目标为
Figure 295353DEST_PATH_IMAGE003
最小化。
可选地,分组损失函数
Figure 831376DEST_PATH_IMAGE003
可以通过如下公式表示:
Figure 738152DEST_PATH_IMAGE004
(1)
其中,n和m为样本图像中人体实例的标识,且n与m不同,例如:样本图像中的第n个 人体实例、样本图像中第m个人体实例;n={1,2,…,N},m={1,2,…,N};N表示样本图像中人 体实例的总数;k为任一人体实例中关键点的标识,例如:第n个人体实例的第k个关键点,k= {1,2,…,K};
Figure 17824DEST_PATH_IMAGE005
表示上述第n个人体实例中第k个关键点在样本图像对应的预测特征嵌入 图中的预测嵌入向量;
Figure 21552DEST_PATH_IMAGE006
表示上述第n个人体实例中的所有关键点在上述预测特征嵌入图 中的预测嵌入向量的均值;
Figure 603843DEST_PATH_IMAGE007
表示上述第m个人体实例中的所有关键点在上述预测特征嵌 入图中的预测嵌入向量的均值。
需要说明的是,在对姿态估计模型进行训练的过程中,将样本图像输入训练中的姿态估计模型,可以获取训练中的姿态估计模型的特征嵌入层输出的样本图像对应的预测嵌入图。基于上述预测嵌入图,可以获取样本图像中每一人体实例中的每一关键点在上述预测嵌入图中的预测嵌入向量。
本发明实施例基于分组损失函数对人体姿态模型进行训练,能使得待识别图像对应的特征嵌入图中,同一人体实例中的每两个关键点在上述特征嵌入图中的嵌入向量之间的距离最小化,任一人体实例中的各关键点在上述特征嵌入图中的嵌入向量的均值与另一人体实例中的各关键点在上述特征嵌入图中的嵌入向量的均值之间的距离最大化,从而能更准确的对待识别图像中各关键点进行分组,能提高对待识别图像进行人体姿态估计的准确度。
基于上述各实施例的内容,姿态估计模型的损失函数包括尺度损失函数。
尺度损失函数,是基于样本图像中每一关键点的预测尺度信息以及每一关键点的尺度信息标签确定的,预测尺度信息,是将样本图像输入训练中姿态估计模型,由训练中的姿态估计模型中的第一数据处理层输出的,尺度信息标签是基于对应关键点所在人体实例的外接矩形框确定的,外接矩形框用于标注人体实例。
具体地,为了使得第一数据处理层输出的待识别图像中每一关键的尺度信息和身 份信息更准确,在将上述每一关键点的位置信息以及待识别图像对应的特征嵌入图输入第 一数据处理层之前,可以基于尺度损失函数
Figure 388128DEST_PATH_IMAGE008
对姿态估计模型进行训练,训练目标为
Figure 81278DEST_PATH_IMAGE008
最 小化,从而可以使得在没有精确的尺度信息标签的情况下,姿态估计模型更容易收敛。
可选地,尺度损失函数
Figure 1829DEST_PATH_IMAGE008
可以通过如下公式表示:
Figure 82918DEST_PATH_IMAGE009
(2)
其中,
Figure 698707DEST_PATH_IMAGE010
表示
Figure 320181DEST_PATH_IMAGE005
绝对值的归一化值;
Figure 970605DEST_PATH_IMAGE011
表示样本图像中第n个人体实例中第k 个关键点的尺度信息标签;
Figure 287842DEST_PATH_IMAGE012
表示
Figure 656506DEST_PATH_IMAGE010
Figure 19354DEST_PATH_IMAGE011
的内积。
需要说明的是,可以通过外接矩形框标注样本图像中的每一人体实例。
可选地,可以基于样本图像中用于标注每一人体实例的每一外接矩形框,预先获 取
Figure 648919DEST_PATH_IMAGE011
。相较于直接标注样本图像中每一关键点的尺度,基于外接矩形框获取
Figure 743914DEST_PATH_IMAGE011
有以下优 点:一方面,关键点的尺度具有较强的不确定性,人工难以直接获取并标注关键点尺度的准 确数值,而外接矩形框可以提供近似的尺度信息;另一方面,通过外接矩形框可以更简单、 更高效且更低成本的标注样本图像中的每一人体实例。
可选地,
Figure 724508DEST_PATH_IMAGE011
可以通过如下公式计算得到:
Figure 563151DEST_PATH_IMAGE013
(3)
Figure 516064DEST_PATH_IMAGE014
(4)
Figure 906594DEST_PATH_IMAGE015
(5)
其中,
Figure 249850DEST_PATH_IMAGE016
表示样本图像中第n个人体实例的外接矩形框的面积;
Figure 751239DEST_PATH_IMAGE017
表示样本 图像的面积;M表示嵌入向量的维度;
Figure 558658DEST_PATH_IMAGE018
表示向量;
Figure 995455DEST_PATH_IMAGE019
表示向量
Figure 682133DEST_PATH_IMAGE018
在不同维度的取值。
本发明实施例基于尺度损失函数对人体姿态模型进行训练,能基于待识别图像中每一关键点在待识别图像对应的特征嵌入图中的嵌入向量,更高效、更准确的获取上述每一关键点的尺度信息,能提高对待识别图像进行人体姿态估计的准确度。
基于上述各实施例的内容,姿态估计模型的损失函数包括热力图损失函数。
热力图损失函数是基于样本图像的热力图标签,以及样本图像的预测热力图确定的,预测热力图是将样本图像输入至训练中的姿态估计模型,由训练中的姿态估计模型的热力图生成层输出的。
具体地,为了使得姿态估计模型的热力图生成层输出的热力图更精确,在将待识 别图像的特征图输入热力图生成层之前,可以基于热力图损失函数
Figure 128158DEST_PATH_IMAGE020
对姿态估计模型进行 训练,训练目标为
Figure 852400DEST_PATH_IMAGE020
最小化。
可选地,热力图损失函数
Figure 460099DEST_PATH_IMAGE020
可以通过如下公式表示:
Figure 574686DEST_PATH_IMAGE021
(6)
其中,
Figure 949035DEST_PATH_IMAGE022
表示预测热力图;
Figure 403150DEST_PATH_IMAGE023
表示样本图像的热力图标签。
需要说明的是,基于样本图像中预先标注的每一人体实例以及每一人体实例中各预设类型的人体关键点,可以预先生成上述热力图标签。热力图标签可以是由各预设类型的人体关键点的类别热力图标签堆叠构成的。
可选地,将未标注每一人体实例以及每一人体实例中各预设类型的人体关键点的样本图像输入至训练中的姿态估计模型,训练中的姿态估计模型的热力图生成层可以基于上述样本图像生成每一预设类型的人体关键点的预测类别热力图,进而可以获取训练中的姿态估计模型的热力图生成层输出的由上述各预测类别热力图堆叠构成的预测热力图。在预设类型的数量为K种的情况下,预测类别热力图的数量为K张。
本发明实施例基于热力图损失函数对人体姿态模型进行训练,能基于训练好的热力图损失函数获取更精确的热力图,从而能更准确的获取待识别图像中每一关键点的位置信息,能提高对待识别图像进行人体姿态估计的准确度。
基于上述各实施例的内容,样本图像的热力图标签,是基于高斯函数生成的;高斯函数中标准差的修正值,是基于样本图像对应的预测特征嵌入图中每一像素点的预测嵌入向量确定的,预测嵌入向量是将样本图像输入训练中的姿态估计模型,由训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。
具体地,可以基于未归一化的高斯函数获取样本图像的热力图标签。对于样本图像中已标注的每一关键点,上述高斯函数的输入为上述关键点与样本图像中其他任一像素点之间的距离,输出为上述像素点的置信度。上述关键点与上述像素点之间的距离越近,得到的上述像素点的置信度越高,上述关键点与上述像素点之间的距离越远,得到的上述像素点的置信度越低。
可选地,用于生成样本图像的热力图标签的高斯函数可以通过如下公式表示:
Figure 306384DEST_PATH_IMAGE024
(7)
其中,
Figure 832568DEST_PATH_IMAGE025
表示高斯函数的标准差;
Figure 682712DEST_PATH_IMAGE026
表示高斯函数值标准差
Figure 115968DEST_PATH_IMAGE025
的修正值;e表 示自然对数;
Figure 65469DEST_PATH_IMAGE027
表示预测嵌入特征图中坐标为{i,j}的像素点对应的尺度因子。
Figure 482544DEST_PATH_IMAGE027
可以基 于预测嵌入特征图中坐标为{i,j}的像素点的预测嵌入向量计算获得,其值等于尺度级别 离散分布的期望值。
可选地,
Figure 542904DEST_PATH_IMAGE027
可以通过如下公式计算得到:
Figure 299507DEST_PATH_IMAGE028
(8)
基于
Figure 544544DEST_PATH_IMAGE027
可以对自适应的对上述高斯函数中的标准差
Figure 58702DEST_PATH_IMAGE025
进行修正,得到高斯函数中 标准差
Figure 47386DEST_PATH_IMAGE025
的修正值,从而可以使得样本图像中不同尺度的关键点,对应的热力图标签不同, 训练好的姿态估计模型的热力图生成层输出的热力图对于尺度变化的鲁棒性更强。
本发明实施例通过高斯函数获取样本图像的热力图标签,并基于样本图像对应的预测特征嵌入图中每一像素点的预测嵌入向量确定上述高斯函数中标准差的修正值,能使得样本图像中不同尺度的关键点对应的类别热力图标签不同,对待识别图像进行人体姿态估计的鲁棒性更强。
图4是本发明提供的人体姿态估计装置的结构示意图。下面结合图4对本发明提供的人体姿态估计装置进行描述,下文描述的人体姿态估计装置与上文描述的本发明提供的人体姿态估计方法可相互对应参照。如图4所示,该装置包括:图像获取模块401和姿态估计模块402。
图像获取模块401,用于获取待识别图像。
姿态估计模块402,用于将待识别图像输入姿态估计模型,获取姿态估计模型输出的待识别图像中每一人体实例的姿态。
其中,姿态估计模型,是基于样本图像以及样本图像中每一人体实例的姿态,进行训练后得到的。
姿态估计模型,用于从待识别图像中确定多个关键点,基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计,尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定,身份信息基于嵌入向量在所处空间中的位置确定。
具体地,图像获取模块401和姿态估计模块402电连接。
图像获取模块401可以通过多种方式获取待识别图像,例如:可以利用视觉传感器,获取目标场景的图像作为待识别图像。
获得训练好的姿态估计模型之后,姿态估计模块402可以加载模型参数,并将待识别图像输入训练好的姿态估计模型。训练好的姿态估计模型可以用于从待识别图像中确定多个关键点,获取上述每一关键点对应的身份信息和尺度信息,并基于上述各关键点对应的身份信息和尺度信息对上述各关键点进行分组,基于分组结果对待识别图像进行人体姿态估计,从而可以获取训练好的姿态估计模型输出的待识别图像中每一人体实例的姿态。
本发明实施例通过将待识别图像输入训练好的姿态估计模型,由姿态估计模型从待识别图像中确定多个关键点,基于每一关键点在待识别图像对应的特征嵌入图中的嵌入向量确定每一关键点的尺度信息,基于上述每一嵌入向量在所处空间中的位置确定每一关键点的身份信息,基于每一关键点的尺度信息和身份信息对待识别图像进行人体姿态估计,进而获取训练好的姿态估计模型输出的待识别图像中每一人体实例的姿态,能在待识别图像中至少一个人体实例被遮挡的情况下,更准确的获取待识别图像中每一人体实例的姿态,对待识别图像进行人体姿态估计的鲁棒性更强。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行人体姿态估计方法,该方法包括:获取待识别图像;将待识别图像输入姿态估计模型,获取姿态估计模型输出的待识别图像中每一人体实例的姿态;其中,姿态估计模型,是基于样本图像以及样本图像中每一人体实例的姿态,进行训练后得到的;姿态估计模型,用于从待识别图像中确定多个关键点,基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计,尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定,身份信息基于嵌入向量在所处空间中的位置确定。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的人体姿态估计方法,该方法包括:获取待识别图像;将待识别图像输入姿态估计模型,获取姿态估计模型输出的待识别图像中每一人体实例的姿态;其中,姿态估计模型,是基于样本图像以及样本图像中每一人体实例的姿态,进行训练后得到的;姿态估计模型,用于从待识别图像中确定多个关键点,基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计,尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定,身份信息基于嵌入向量在所处空间中的位置确定。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的人体姿态估计方法,该方法包括:获取待识别图像;将待识别图像输入姿态估计模型,获取姿态估计模型输出的待识别图像中每一人体实例的姿态;其中,姿态估计模型,是基于样本图像以及样本图像中每一人体实例的姿态,进行训练后得到的;姿态估计模型,用于从待识别图像中确定多个关键点,基于各关键点对应的身份信息和尺度信息对待识别图像进行人体姿态估计,尺度信息基于对应关键点在待识别图像对应的特征嵌入图中的嵌入向量确定,身份信息基于嵌入向量在所处空间中的位置确定。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种人体姿态估计方法,其特征在于,包括:
获取待识别图像;
将所述待识别图像输入姿态估计模型,获取所述姿态估计模型输出的所述待识别图像中每一人体实例的姿态;
其中,所述姿态估计模型,是基于样本图像以及所述样本图像中每一人体实例的姿态,进行训练后得到的;
所述姿态估计模型,用于从所述待识别图像中确定多个关键点,基于各所述关键点对应的身份信息和尺度信息对所述待识别图像进行人体姿态估计,所述尺度信息基于对应关键点在所述待识别图像对应的特征嵌入图中的嵌入向量确定,所述身份信息基于所述嵌入向量在所处空间中的位置确定;
所述姿态估计模型包括特征提取层、关键点检测层、特征嵌入层、第一数据处理层以及结果输出层;
相应地,所述将所述待识别图像输入姿态估计模型,获取所述姿态估计模型输出的所述待识别图像中每一人体实例的姿态,具体包括:
将所述待识别图像输入所述特征提取层,获取所述特征提取层输出的所述待识别图像的特征图;
将所述特征图分别输入所述关键点检测层和所述特征嵌入层,获取所述关键点检测层输出的每一所述关键点的位置信息以及所述特征嵌入层输出的所述特征嵌入图;
将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层,获取所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息;
将每一所述关键点的尺度信息和身份信息输入所述结果输出层,获取所述结果输出层输出的所述待识别图像中每一人体实例的姿态;所述关键点检测层包括热力图生成层和第二数据处理层;
相应地,将所述特征图输入所述关键点检测层,获取所述关键点检测层输出的每一所述关键点的位置信息,具体包括:
将所述特征图输入所述热力图生成层,获取所述热力图生成层输出的热力图;
将所述热力图输入所述第二数据处理层,获取所述第二数据处理层输出的每一所述关键点的位置信息;所述姿态估计模型的损失函数包括热力图损失函数;
所述热力图损失函数是基于所述样本图像的热力图标签,以及所述样本图像的预测热力图确定的,所述预测热力图是将所述样本图像输入至训练中的姿态估计模型,由所述训练中的姿态估计模型的热力图生成层输出的。
2.根据权利要求1所述的人体姿态估计方法,其特征在于,所述样本图像的热力图标签,是基于高斯函数生成的;所述高斯函数中标准差的修正值,是基于所述样本图像对应的预测特征嵌入图中每一像素点的预测嵌入向量确定的,所述预测嵌入向量是将所述样本图像输入所述训练中的姿态估计模型,由所述训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。
3.根据权利要求1所述的人体姿态估计方法,其特征在于,所述姿态估计模型的损失函数包括分组损失函数;
所述分组损失函数,是基于所述样本图像中每一人体实例中的每一关键点在所述样本图像对应的预测特征嵌入图中的预测嵌入向量确定的,所述预测嵌入向量是将所述样本图像输入训练中的姿态估计模型,由所述训练中的姿态估计模型的特征嵌入层输出的预测特征嵌入图确定的。
4.根据权利要求1所述的人体姿态估计方法,其特征在于,所述将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层,获取所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息,具体包括:
将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层,由所述第一数据处理层基于每一所述关键点的位置信息,确定每一所述关键点在所述特征嵌入图中的嵌入向量,将所述嵌入向量在所处空间中的位置确定为对应关键点的身份信息,将所述嵌入向量绝对值的归一化值确定为对应关键点的尺度信息,获得所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息。
5.根据权利要求4所述的人体姿态估计方法,其特征在于,所述姿态估计模型的损失函数包括尺度损失函数;
所述尺度损失函数,是基于所述样本图像中每一关键点的预测尺度信息以及所述每一关键点的尺度信息标签确定的,所述预测尺度信息,是将所述样本图像输入训练中姿态估计模型,由所述训练中的姿态估计模型中的第一数据处理层输出的,所述尺度信息标签是基于对应关键点所在人体实例的外接矩形框确定的,所述外接矩形框用于标注所述人体实例。
6.一种人体姿态估计装置,其特征在于,
图像获取模块,用于获取待识别图像;
姿态估计模块,用于将所述待识别图像输入姿态估计模型,获取所述姿态估计模型输出的所述待识别图像中每一人体实例的姿态;
其中,所述姿态估计模型,是基于样本图像以及所述样本图像中每一人体实例的姿态,进行训练后得到的;
所述姿态估计模型,用于从所述待识别图像中确定多个关键点,基于各所述关键点对应的身份信息和尺度信息对所述待识别图像进行人体姿态估计,所述尺度信息基于对应关键点在所述待识别图像对应的特征嵌入图中的嵌入向量确定,所述身份信息基于所述嵌入向量在所处空间中的位置确定;
所述姿态估计模型包括特征提取层、关键点检测层、特征嵌入层、第一数据处理层以及结果输出层;
相应地,所述将所述待识别图像输入姿态估计模型,获取所述姿态估计模型输出的所述待识别图像中每一人体实例的姿态,具体包括:
将所述待识别图像输入所述特征提取层,获取所述特征提取层输出的所述待识别图像的特征图;
将所述特征图分别输入所述关键点检测层和所述特征嵌入层,获取所述关键点检测层输出的每一所述关键点的位置信息以及所述特征嵌入层输出的所述特征嵌入图;
将每一所述关键点的位置信息和所述特征嵌入图输入所述第一数据处理层,获取所述第一数据处理层输出的每一所述关键点的尺度信息和身份信息;
将每一所述关键点的尺度信息和身份信息输入所述结果输出层,获取所述结果输出层输出的所述待识别图像中每一人体实例的姿态;所述关键点检测层包括热力图生成层和第二数据处理层;
相应地,将所述特征图输入所述关键点检测层,获取所述关键点检测层输出的每一所述关键点的位置信息,具体包括:
将所述特征图输入所述热力图生成层,获取所述热力图生成层输出的热力图;
将所述热力图输入所述第二数据处理层,获取所述第二数据处理层输出的每一所述关键点的位置信息;所述姿态估计模型的损失函数包括热力图损失函数;
所述热力图损失函数是基于所述样本图像的热力图标签,以及所述样本图像的预测热力图确定的,所述预测热力图是将所述样本图像输入至训练中的姿态估计模型,由所述训练中的姿态估计模型的热力图生成层输出的。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述人体姿态估计方法的步骤。
CN202210003055.2A 2022-01-05 2022-01-05 人体姿态估计方法及装置 Active CN114022684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210003055.2A CN114022684B (zh) 2022-01-05 2022-01-05 人体姿态估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210003055.2A CN114022684B (zh) 2022-01-05 2022-01-05 人体姿态估计方法及装置

Publications (2)

Publication Number Publication Date
CN114022684A CN114022684A (zh) 2022-02-08
CN114022684B true CN114022684B (zh) 2022-04-05

Family

ID=80069344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210003055.2A Active CN114022684B (zh) 2022-01-05 2022-01-05 人体姿态估计方法及装置

Country Status (1)

Country Link
CN (1) CN114022684B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882567A (zh) * 2022-05-27 2022-08-09 支付宝(杭州)信息技术有限公司 一种表情识别模型的训练方法、装置以及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781765A (zh) * 2019-09-30 2020-02-11 腾讯科技(深圳)有限公司 一种人体姿态识别方法、装置、设备及存储介质
CN111178251A (zh) * 2019-12-27 2020-05-19 汇纳科技股份有限公司 一种行人属性识别方法及系统、存储介质及终端
CN112651291A (zh) * 2020-10-01 2021-04-13 新加坡依图有限责任公司(私有) 基于视频的姿势估计方法、装置、介质及电子设备
WO2021098261A1 (zh) * 2019-11-22 2021-05-27 苏州浪潮智能科技有限公司 一种目标检测方法与装置
CN113255443A (zh) * 2021-04-16 2021-08-13 杭州电子科技大学 一种基于金字塔结构的图注意力网络时序动作定位方法
CN113673354A (zh) * 2021-07-23 2021-11-19 湖南大学 一种基于上下文信息与联合嵌入的人体关键点检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11741728B2 (en) * 2020-04-15 2023-08-29 Toyota Research Institute, Inc. Keypoint matching using graph convolutions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781765A (zh) * 2019-09-30 2020-02-11 腾讯科技(深圳)有限公司 一种人体姿态识别方法、装置、设备及存储介质
WO2021098261A1 (zh) * 2019-11-22 2021-05-27 苏州浪潮智能科技有限公司 一种目标检测方法与装置
CN111178251A (zh) * 2019-12-27 2020-05-19 汇纳科技股份有限公司 一种行人属性识别方法及系统、存储介质及终端
CN112651291A (zh) * 2020-10-01 2021-04-13 新加坡依图有限责任公司(私有) 基于视频的姿势估计方法、装置、介质及电子设备
CN113255443A (zh) * 2021-04-16 2021-08-13 杭州电子科技大学 一种基于金字塔结构的图注意力网络时序动作定位方法
CN113673354A (zh) * 2021-07-23 2021-11-19 湖南大学 一种基于上下文信息与联合嵌入的人体关键点检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于全局上下文的特定舞蹈动作识别方法研究;毕雪超;《微型电脑应用》;20201020;第36卷(第10期);全文 *
融合多姿势估计特征的动作识别;罗会兰等;《中国图象图形学报》;20151116;第20卷(第11期);全文 *

Also Published As

Publication number Publication date
CN114022684A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN109117848B (zh) 一种文本行字符识别方法、装置、介质和电子设备
EP2907082B1 (en) Using a probabilistic model for detecting an object in visual data
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
CN111582126B (zh) 基于多尺度行人轮廓分割融合的行人重识别方法
CN113033465A (zh) 活体检测模型训练方法、装置、设备以及存储介质
CN112541448B (zh) 一种行人重识别方法、装置、电子设备和存储介质
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN111539456B (zh) 一种目标识别方法及设备
CN113255719A (zh) 目标检测方法、装置、电子设备及计算机可读存储介质
CN114022684B (zh) 人体姿态估计方法及装置
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN116206334A (zh) 一种野生动物识别方法和装置
CN114005169B (zh) 人脸关键点检测方法、装置、电子设备及存储介质
CN111444850A (zh) 一种图片检测的方法和相关装置
CN117058723B (zh) 掌纹识别方法、装置及存储介质
CN113033305B (zh) 活体检测方法、装置、终端设备和存储介质
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
CN113505716B (zh) 静脉识别模型的训练方法、静脉图像的识别方法及装置
CN111160219B (zh) 对象完整度评估方法、装置、电子设备及存储介质
Wang et al. Oil tank detection via target-driven learning saliency model
CN115512375A (zh) 文本纠错模型的训练方法、文本识别方法及相关设备
CN116563840B (zh) 基于弱监督跨模态对比学习的场景文本检测与识别方法
CN114118303B (zh) 基于先验约束的人脸关键点检测方法及装置
CN117197611A (zh) 目标检测模型训练方法、目标检测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant