CN115661254A - 一种多人姿态估计方法及相关装置 - Google Patents

一种多人姿态估计方法及相关装置 Download PDF

Info

Publication number
CN115661254A
CN115661254A CN202211571205.6A CN202211571205A CN115661254A CN 115661254 A CN115661254 A CN 115661254A CN 202211571205 A CN202211571205 A CN 202211571205A CN 115661254 A CN115661254 A CN 115661254A
Authority
CN
China
Prior art keywords
human body
query
queries
initial
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211571205.6A
Other languages
English (en)
Other versions
CN115661254B (zh
Inventor
杨杰
曾爱玲
刘世隆
李峰
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Digital Economy Academy IDEA
Original Assignee
International Digital Economy Academy IDEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Digital Economy Academy IDEA filed Critical International Digital Economy Academy IDEA
Priority to CN202211571205.6A priority Critical patent/CN115661254B/zh
Publication of CN115661254A publication Critical patent/CN115661254A/zh
Application granted granted Critical
Publication of CN115661254B publication Critical patent/CN115661254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开了一种多人姿态估计方法及相关装置,方法包括通过目标图像的特征向量确定初始人体查询,利用第一解码器的注意力机制对初始人体查询及特征向量进行学习以得到目标人体查询;基于目标人体查询生成初始人体‑关键点查询,利用第二解码器的注意力机制对初始人体‑关键点查询及特征向量进行学习得到目标人体‑关键点查询;基于目标人体‑关键点查询确定目标人体及人体姿态。本申请通过目标人体查询初始人体‑关键点查询,将目标人体查询与初始人体‑关键点查询连接作为人体‑关键点查询,可以关注到拥挤人群场景中全局到全局、全局到局部、局部到局部的相互关系,提高学习到的关键点的语义信息的准确性,进而提高了姿态估计的准确性。

Description

一种多人姿态估计方法及相关装置
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种多人姿态估计方法及相关装置。
背景技术
随着多人姿态估计(MPPE)技术在增强现实、虚拟现实和人机交互等领域的广泛应用,其已经引起了计算机视觉界的广泛关注,其中,多人姿态估计技术为检测图像中的所有人并为每个人定位出关键点的技术。
目前普遍使用的多人姿态估计方法包括两阶段的方法,两阶段的方法是将该任务分为两个独立的子问题(例如,全局的人体检测和局部的关键点回归),例如,具有高性能但推理成本高的自上而下方法,以及推理速度快但相对低精度的自下而上方法等。然而,两阶段方法需要进行繁琐的后处理,例如,如非最大抑制、兴趣区域裁剪,以及关键点分组等后处理操作等。
为此,人们将端到端可训练的方法应用于多姿态估计,其利用两分匹配进行一对一的预测,用Transformer来避免繁琐的后处理,例如,PETR等人提出了一个完全端到端的框架来预测实例感知的姿势。然而,现有的采用端到端可训练的方法进行多姿态估计普遍是仅利用局部的依赖关系来回归关键点,即直接利用姿势查询直接回归每个人的关键点,使得多人的关键点匹配不明确,无法获取准确的关键点语义信息,进而影响姿态估计的准确性。
因而现有技术还有待改进和提高。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种多人姿态估计方法及相关装置。
为了解决上述技术问题,本申请实施例第一方面提供了一种多人姿态估计方法,所述的方法包括:
获取包含人的目标图像的多条特征向量,并基于所述多条特征向量确定所述目标图像对应的多条初始人体查询,其中,所述初始人体查询包括初始人体特征查询和初始人体位置查询;
将多条初始人体查询及多条特征向量输入第一解码器,利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询,其中,所述目标人体查询包括目标人体特征查询和目标人体位置查询;
基于每条目标人体查询确定若干初始人体-关键点查询,以得到多条初始人体-关键点查询,其中,所述初始人体-关键点查询包括初始人体-关键点特征查询和初始人体-关键点位置查询;
将多条初始人体-关键点查询及多条特征向量输入第二解码器,利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询,其中,所述目标人体-关键点查询包括目标人体-关键点特征查询和目标人体-关键点位置查询;
基于多条目标人体-关键点查询,确定目标人体以及目标人体对应的人体姿态。
在一个实现方式中,所述获取包含人的目标图像的多条特征向量具体包括:
获取包含人的目标图像的若干特征图,其中,若干特征图的图像尺寸不同;
将若干特征图划分为多条候选特征向量,并通过Transformer编码器将各候选特征向量与各候选特征向量的位置嵌入相结合,以得到多条特征向量。
在一个实现方式中,所述基于所述多条特征向量确定目标图像对应的多条初始人体查询具体包括:
对多条特征向量进行人体筛选以得到多条初始人体特征查询,其中,多条初始人体特征查询的数量少于多条特征向量的数量;
将多条初始人体特征查询输入预先训练的第一前馈网络,通过所述第一前馈网络确定各初始人体特征查询对应的初始人体位置查询,以得到多条初始人体查询。
在一个实现方式中,所述注意力机制包括自注意力机制和交叉注意力机制;所述将多条初始人体查询及多条特征向量输入第一解码器,利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询具体包括:
将多条初始人体查询及多条特征向量输入第一解码器;
利用第一解码器的自注意力机制对初始人体查询进行学习,以得到多条更新人体特征查询;
利用第一解码器的交叉注意力机制对更新人体特征查询、初始人体位置查询以及多条特征向量进行学习,以得到目标人体特征查询;
基于目标人体特征查询确定四维偏移量,并基于确定的四维偏移量及初始人体位置查询确定目标人体位置查询,以得到多条目标人体查询。
在一个实现方式中,所述基于目标人体特征查询确定四维偏移量,并基于确定的四维偏移量及初始人体位置查询确定目标人体位置查询,以得到多条目标人体查询之后,所述方法还包括:
对多条目标人体查询进行筛选,并将筛选得到的目标人体查询作为目标人体查询。
在一个实现方式中,所述基于每条目标人体查询确定若干初始人体-关键点查询,以得到多条初始人体-关键点查询具体包括:
对于每条目标人体查询,将所述目标人体查询中的目标人体特征查询与预设特征向量进行逐点相加,以得到初始关键点特征查询;
基于所述目标人体特征查询确定若干二维关键点坐标,并分别将各二维关键点坐标与预设位置向量拼接得到若干初始关键点位置查询,其中,所述预设位置向量为所述预设特征向量与所述目标人体查询中的目标人体位置查询中的二维尺寸向量的向量乘积;
基于各初始关键点位置查询与初始关键点特征查询,确定若干初始关键点查询,并基于目标人体查询与若干初始关键点查询确定若干初始人体-关键点查询,以得到多条目标人体查询对应的多条初始人体-关键点查询。
在一个实现方式中,所述初始关键点位置查询用于反映关键点对应的检测框信息,其中,初始关键点位置查询的维度为4。
在一个实现方式中,所述注意力机制包括自注意力机制和交叉注意力机制;所述将多条初始人体-关键点查询及多条特征向量输入第二解码器,利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询具体包括:
将多条初始人体-关键点查询及多条特征向量输入第二解码器;
利用第二解码器的自注意力机制对多条初始人体-关键点特征查询进行学习,以得到多条更新人体-关键点特征查询;
利用第二解码器的交叉注意力机制对多条更新人体-关键点特征查询、多条初始人体-关键点位置查询以及多条特征向量进行学习,以得到多条目标人体-关键点特征查询;
基于各目标人体-关键点特征查询确定各目标人体-关键点特征查询各自对应的四维偏移量,并基于确定的多条四维偏移量及多条初始人体-关键点位置查询确定多条目标人体-关键点位置查询,以得到多条目标人体-关键点查询。
本申请实施例第二方面提供了一种姿态估计系统,所述的系统包括:
特征提取模块,用于获取包含人的目标图像的多条特征向量,并基于所述多条特征向量确定目标图像对应的多条初始人体查询,其中,所述初始人体查询包括初始人体特征查询和初始人体位置查询;
第一解码器模块,用于将多条初始人体查询及多条特征向量输入第一解码器,利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询,其中,所述目标人体查询包括目标人体特征查询和目标人体位置查询;
生成模块,用于基于每条目标人体查询生成若干初始人体-关键点查询,以得到多条初始人体-关键点查询,其中,所述初始人体-关键点查询包括初始人体-关键点特征查询和初始人体-关键点位置查询;
第二解码器模块,用于将多条初始人体-关键点查询及多条特征向量输入第二解码器,利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询,其中,所述目标人体-关键点查询包括目标人体-关键点特征查询和目标人体-关键点位置查询;
识别模块,用于基于多条目标人体-关键点查询,确定目标人体以及目标人体对应的人体姿态。
本申请实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的多人姿态估计方法中的步骤。
本申请实施例第四方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的多人姿态估计方法中的步骤。
有益效果:与现有技术相比,本申请提供了一种多人姿态估计方法及相关装置,方法包括基于目标图像对应的多条特征向量确定初始人体查询,利用第一解码器的注意力机制对初始人体查询及特征向量进行学习,以得到目标人体查询;基于目标人体查询生成多条初始人体-关键点查询,利用第二解码器的注意力机制对人体-关键点查询及特征向量进行学习得到目标人体-关键点查询;基于多条目标人体-关键点查询,确定目标人体以及目标人体对应的人体姿态。本申请一方面通过第一解码器对人体查询和特征向量进行学习,以学习到目标图像中各人体间的相互关系,然后通过目标人体查询初始化关键点,再通过第二解码器对人体-关键点查询和特征向量进行学习,学习到人体与关键点间以及关键点与关键点间的相互关系,从而可以关注到拥挤人群场景中全局到全局、全局到局部、局部到局部之间的相互关系,另一方面将关键点以特征信息+位置信息的表征形式与人体查询向量拼接后输入到解码器中学习,可以充分利用关键点的上下文信息,从而本申请可以提高关键点提取的准确性,进而可以提高姿态估计的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的多人姿态估计方法的流程图。
图2为本申请提供的多人姿态估计方法的流程示例图。
图3为本申请提供的多人姿态估计方法的第一解码器的结构图。
图4为本申请提供的多人姿态估计方法的第二解码器的结构图。
图5为本申请提供的多人姿态估计系统的结构原理图。
图6为本申请提供的终端设备的结构原理图。
具体实施方式
本申请提供一种多人姿态估计方法及相关装置,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在目标元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
发明人经过研究发现,随着多人姿态估计(MPPE)技术在增强现实、虚拟现实和人机交互等领域的广泛应用,其已经引起了计算机视觉界的广泛关注,其中,多人姿态估计技术为检测图像中的所有人并为每个人定位出关键点的技术。
由于拥挤人群场景中存在人体间遮挡、困难姿势以及不同人的身体部位尺度不同的问题,在进行多人姿态估计时需要关注全局(即人类层面)和局部(关键点层面)的依赖关系,而全局和局部集中在不同的语义颗粒度上。为此,目前普遍使用的多人姿态估计方法通常时两阶段的方法,两阶段的方法是将多人姿态估计任务分为两个独立的子问题(例如,全局的人体检测和局部的关键点回归),例如,具有高性能但推理成本高的自上而下方法,以及推理速度快但相对低精度的自下而上方法等。然而,两阶段方法需要进行繁琐的后处理,例如,如非最大抑制、兴趣区域裁剪,以及关键点分组等后处理操作等。
为此,人们将端到端可训练的方法应用于多姿态估计,其利用两分匹配进行一对一的预测,用Transformer来避免繁琐的后处理,例如,PETR等人提出了一个完全端到端的框架来预测实例感知的姿势。然而,现有的采用端到端可训练的方法进行多姿态估计普遍是仅利用局部的依赖关系来回归关键点,即直接利用姿势查询直接回归每个人的关键点,使得多人的关键点匹配不明确,无法获取准确的关键点语义信息,进而影响姿态估计的准确性。
为了解决上述问题,在本申请实施例中,基于目标图像对应的多条特征向量确定初始人体查询,利用第一解码器的注意力机制对初始人体查询及特征向量进行学习,以得到目标人体查询;基于目标人体查询生成多条初始人体-关键点查询,利用第二解码器的注意力机制对人体-关键点查询及特征向量进行学习得到目标人体-关键点查询;基于多条目标人体-关键点查询,确定目标人体以及目标人体对应的人体姿态。本申请一方面通过第一解码器对人体查询和特征向量进行学习,以学习到目标图像中各人体间的相互关系,然后通过目标人体查询初始化关键点,再通过第二解码器对人体-关键点查询和特征向量进行学习,学习到人体与关键点间以及关键点与关键点间的相互关系,从而可以关注到拥挤人群场景中全局到全局、全局到局部、局部到局部之间的相互关系,另一方面将关键点以特征信息+位置信息的表征形式与人体查询向量拼接后输入到解码器中学习,可以充分利用关键点的上下文信息,从而本申请可以提高关键点提取的准确性,进而可以提高姿态估计的准确性。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施例提供了一种多人姿态估计方法,如图1所示,所述方法包括:
S10、获取包含人的目标图像的多条特征向量,并基于所述多条特征向量确定目标图像对应的多条初始人体查询。
具体地,目标图像所包含的人可以为多个,例如,目标图像为对拥挤人群场景进行拍摄得到的。此外,目标图像中的多个人可以相互重叠,即目标图像中的部分人可以被其他人遮挡。多条特征向量
Figure 725853DEST_PATH_IMAGE001
中的每一特征向量
Figure 317371DEST_PATH_IMAGE001
均包括特征信息以及位置信息,特征信息用于反映特征向量对应的图像区域中的内容信息,位置信息用于反映特征向量对应的图像区域的区域位置。
在一个实现方式中,如图2所示,所述多条特征向量
Figure 746079DEST_PATH_IMAGE001
可以通过特征提取网络以及Transformer编码器联合作用所得到,其中,特征提取网络用于提取目标图像的特征图,Transformer编码器用于将特征图中的特征信息与位置信息相结合。基于此,所述获取包含人体的目标图像的多条特征向量具体包括:
获取包含人体的目标图像的若干特征图;
将若干特征图划分为多条候选特征向量,并通过Transformer编码器将各候选特征向量与各候选特征向量的位置嵌入相结合,以得到多条特征向量。
具体地,若干特征图中的各特征图的图像尺寸不同,例如,若干特征图包括特征图A、特征图B以及特征图C,特征图A的图像尺寸为28*28,特征图B的图像尺寸为56*56,特征图C的图像尺寸为128*128。此外,若干特征图可以通过预先训练的特征提取网络提取得到的,例如,VGG-16,ResNet50等网络,也就是说,将目标图像输入特征提取网络,通过特征提取网络输出目标图像对应的若干尺寸不同的特征图。
候选特征向量
Figure 132061DEST_PATH_IMAGE002
用于反映特征图中部分图像区域的图像特征,位置嵌入用于为候选特征向量对应的部分图像区域的区域位置。候选特征向量
Figure 911798DEST_PATH_IMAGE002
的确定过程可以为对于若干特征图中的每个特征图,将该特征图划分为若干子特征图,然后将每个子特征图转换为向量表示以得到每个子特征图对应的候选特征向量。其中,每个特征图划分得到的各子特征图的图像尺寸相同,并且各特征图各自对应的子特征图的图像尺寸也相同,以使得多条候选特征向量中的每条候选特征向量的向量维度相同。
所述初始人体查询包括初始人体特征查询
Figure 41428DEST_PATH_IMAGE003
和初始人体位置查询
Figure 59062DEST_PATH_IMAGE004
,初始人体位置查询的维度为4。例如,初始人体查询的向量维度为260,初始人体查询的前256维为初始人体特征查询
Figure 130792DEST_PATH_IMAGE005
,后4维为初始人体位置查询
Figure 132247DEST_PATH_IMAGE006
。此外,初始人体位置查询
Figure 65567DEST_PATH_IMAGE007
包括初始人体特征查询
Figure 203288DEST_PATH_IMAGE008
对应的检测框的中心坐标、宽度以及高度,例如,人体位置查询表示为(x,y,w,h),其中,x和y表示位置查询中检测框的中心坐标,w和h表示位置查询中的二维尺寸信息,w表示宽度,h表示高度。
在一个实现方式中,所述基于所述多条特征向量确定目标图像对应的多条初始人体查询具体包括:
对多条特征向量进行人体筛选以得到多条初始人体特征查询;
将多条初始人体特征查询输入预先训练的第一前馈网络,通过所述第一前馈网络确定各初始人体特征查询对应的初始人体位置查询,以得到多条初始人体查询。
具体地,多条初始人体特征查询
Figure 196652DEST_PATH_IMAGE009
中的每一条初始人体特征查询
Figure 685402DEST_PATH_IMAGE010
均包含于多条特征向量中,而多条特征向量中存在不为初始人体特征查询的特征向量。也就是说,通过对多条特征向量
Figure 156834DEST_PATH_IMAGE011
进行人体筛选以去除多条特征向量中的部分未携带人体特征或者携带人体特征少的特征向量,这样可以减少初始人体特征查询的数量,提高后续解码器的输入项的数据量,从而可以提高后续解码过程的解码效率,进而提高姿态估计的速度。
进一步,对多条特征向量进行人体筛选可以通过预先训练的人体分类模型实现的,即通过人体分类模型对各特征向量进行二分类(即检测特征向量代表背景信息还是人体信息),以得到各特征向量对应的分类分数,其中,分类分数用于反映特征向量为人体信息的置信度。在获取到各特征向量各自对应的分类分数后,按照分类分数从高到低的顺序选取预设数量的特征向量,并将选取到特征向量作为初始人体特征查询。例如,多条特征向量为300条,选取到的初始人体特征查询为100条。
第一前馈网络为预先训练的神经网络模型,通过第一前馈网络可以确定初始人体位置查询
Figure 414640DEST_PATH_IMAGE012
,即通过第一前馈网络可以将初始人体特征查询
Figure 565524DEST_PATH_IMAGE013
进行回归,以得到初始人体特征查询
Figure 275991DEST_PATH_IMAGE014
对应的检测框的四维坐标信息(x,y,w,h),并将四维坐标信息作为初始人体位置查询
Figure 551114DEST_PATH_IMAGE015
S20、将多条初始人体查询及多条特征向量输入第一解码器,利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询,其中,所述目标人体查询包括目标人体特征查询和目标人体位置查询。
具体地,第一解码器为预先训练的,第一解码器配置有注意力机制,通过注意力机制可以对多条初始人体查询及多条特征向量进行学习,以学习全局到全局的相互关系(即人到人的相互关系)。其中,第一解码器可以包括依次级联的若干解码单元,例如第一解码器包括两个级联的解码单元;若干解码单元中的每个解码单元均配置有注意力机制。
在一个实现方式中,注意力机制包括自注意力机制和交叉注意力机制,相应的,解码单元包括注意力交互层和交叉注意力交互层,其中,注意力交互层配置有自注意力机制,用于学习人体查询与人体查询的相互关系,包括多条人体查询之间的特征关系、位置关系;交叉注意力交互层配置有交叉注意力机制,用于与多条特征向量
Figure 929006DEST_PATH_IMAGE011
进行交互以更新人体特征查询,这样通过第一解码器可以学习全局到全局的相互关系,即学习人到人的相互关系。
基于此,所述将多条初始人体查询及多条特征向量输入第一解码器,利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询具体包括:
S21、将多条初始人体查询及多条特征向量输入第一解码器;
S22、利用第一解码器的自注意力机制对初始人体查询进行学习,以得到多条更新人体特征查询;
S23、利用第一解码器的交叉注意力机制对更新人体特征查询、初始人体位置查询以及多条特征向量进行学习,以得到目标人体特征查询;
S24、基于目标人体特征查询确定四维偏移量,并基于确定的四维偏移量及初始人体位置查询确定目标人体位置查询,以得到多条目标人体查询。
具体地,第一解码器包括解码单元,解码单元包括自注意力交互层和交叉注意力交互层。如图2所示,解码单元的输入项包括多条初始人体查询中的初始人体特征查询
Figure 998593DEST_PATH_IMAGE009
、初始人体位置查询
Figure 461935DEST_PATH_IMAGE016
以及多条特征向量
Figure 275171DEST_PATH_IMAGE011
,其中,如图3所示,初始人体特征查询
Figure 756836DEST_PATH_IMAGE009
和初始人体位置查询
Figure 997325DEST_PATH_IMAGE017
连接得到的向量为自注意力交互层的K,初始人体特征查询
Figure 682384DEST_PATH_IMAGE009
与经过激活函数的初始人体位置查询连接得到的向量为自注意力交互层的Q,初始人体特征查询
Figure 299310DEST_PATH_IMAGE009
为自注意力交互层的V,自注意力交互层通过对Q、V和K进行交互学习,得到更新人体特征查询。
如图3所示,初始人体位置查询
Figure 386215DEST_PATH_IMAGE018
为交叉注意力交互层的K,更新人体特征查询和经过激活函数的初始人体位置查询连接得到的向量为交叉注意力交互层的Q,多条特征向量为交叉注意力交互层的V,交叉注意力交互层对Q、V和K进行学习得到目标人体特征查询
Figure 63184DEST_PATH_IMAGE019
。此外,在获取到目标人体特征查询
Figure 235539DEST_PATH_IMAGE019
后,基于目标人体特征查询
Figure 639845DEST_PATH_IMAGE019
计算四维偏移量
Figure 846835DEST_PATH_IMAGE020
,然后将四维偏移量加到初始人体位置查询
Figure 163547DEST_PATH_IMAGE021
上,得到目标人体位置查询
Figure 823198DEST_PATH_IMAGE022
,其中,四维偏移量
Figure 781927DEST_PATH_IMAGE020
可以采用现有方法计算得到,这里就不具体说明。在一个实现方式中,所述交叉注意力交互层确定的目标人体特征查询
Figure 843424DEST_PATH_IMAGE019
可以是通过将多条特征向量
Figure 862196DEST_PATH_IMAGE023
与更新人体特征查询进行点乘得到,其中,在点乘过程中将人体特征查询对应的人体位置查询作为K值进行引导。
此外,值得说明的是,上述是以第一解码器包括一个解码单元进行说明,而在实际应用中,第一解码器包括多个解码单元,当第一解码器包括多个解码单元时,每个解码单元均的模型结构以及处理过程均相同,各解码单元的不同之处在于各解码单元的输入项不同,其中,位于最前的解码单元的输入相位初始人体特征查询、初始人体位置查询以及多条特征向量,相邻两个解码单元中位于后的解码单元的输入项为位于前的解码单元输出的目标人体特征查询和目标人体位置查询以及多条特征向量,通过第一解码器确定的目标人体特征查询和目标人体位置查询为位于最后的解码单元输出的目标人体特征查询和目标人体位置查询。
为了进一步提高姿态估计的速度,在获取到多条目标人体查询后,可以对多条目标人体查询进行筛选。基于此,所述基于各目标人体特征查询确定各目标人体特征查询各自对应的四维偏移量,并基于确定的多条四维偏移量及多条初始人体位置查询确定多条目标人体位置查询,以得到多条目标人体查询之后,所述方法还包括:
对多条目标人体查询进行筛选,并将筛选得到的目标人体查询作为目标人体查询。
具体地,对多条目标人体查询进行筛选的过程可以与上述多条候选特征向量进行筛选的过程相同,即通过对目标人体查询进行人体分类得到分类分数进行筛选,具体过程可以操作上述对多条候选特征向量进行筛选的过程,这里就不具体说明。
S30、基于每条目标人体查询确定若干初始人体-关键点查询,以得到多条初始人体-关键点查询。
具体地,所述初始人体-关键点查询包括初始人体-关键点特征查询
Figure 992832DEST_PATH_IMAGE024
和初始人体-关键点位置查询
Figure 489672DEST_PATH_IMAGE025
,每条目标人体查询对应的若干初始人体-关键点查询,即目标图像中的每个人对应的若干初始人体-关键点查询,其中,若干初始人体-关键点查询的数量等于用于估计人体姿态所需的关键点数量,例如,关键点数量为17,那么每条目标人体查询对应17个初始人体-关键点查询,那么假设多条目标人体查询为50个,那么多条初始人体-关键点查询的数量为50*17。
在一个实现方式中,所述基于每条目标人体查询确定若干初始人体-关键点查询,以得到多条初始人体-关键点查询具体包括:
S31、对于每条目标人体查询,将所述目标人体查询中的目标人体特征查询与预设特征向量进行逐点相加,以得到初始关键点特征查询;
S32、基于所述目标人体特征查询确定若干二维关键点坐标,并分别将各二维关键点坐标与预设位置向量拼接得到若干初始关键点位置查询;
S33、基于各初始关键点位置查询与初始关键点特征查询,确定若干初始关键点查询,并基于目标人体查询与若干初始关键点查询确定若干初始人体-关键点查询,以得到多条目标人体查询对应的多条初始人体-关键点查询。
具体地,在所述步骤S31中,预设特征向量为经过训练得到的,也就是说,预设特征向量可以通过预先对该可学习的特征向量进行训练来得到的。其中,预设特征向量的向量维度与目标人体查询的向量维度相同,以使得所述目标人体特征查询与预设特征向量可以进行逐点相加。本实施例通过基于目标人体特征来确定初始关键点特征,使得初始关键点可以将目标人体特征作为先验知识,降低解码器的自由度,可以提高解码器的训练速度。
在所述步骤S32中,二维关键点坐标为通过对目标人体特征查询进行回归得到,用于反应目标人体所携带的关键点的位置信息。每个目标特征查询确定二维关键点坐标的数量与用于估计人体姿态的关键点的数量相同,并且每个二维关键点坐标对应一个关键点。此外,所述预设位置向量为所述预设特征向量与所述目标人体查询中的目标人体位置查询中的二维尺寸向量的向量乘积,其中,二维尺寸向量指的是目标人体位置查询中的宽度和高度。此外,预设位置向量的向量维度为2,以使得将二维关键点坐标与预设位置向量拼接得到的初始关键点位置查询的维度为4,并通过初始关键点位置查询反映反映关键点对应的检测框信息,其中,初始关键点位置查询包括二维关键点坐标、宽度和高度。本实施例通过将二维关键点坐标与预设位置向量进行拼接来将关键点视为一个图像区域,通过对图像区域的学习来确定关键点,这样可以充分利用了关键点的上下文信息,提高关键点的准确性。
在所述步骤S33中,在获取到目标人体特征对应的初始关键点特征查询
Figure 405675DEST_PATH_IMAGE026
和若干初始关键点位置查询
Figure 595348DEST_PATH_IMAGE027
后,将基于各初始关键点位置查询与初始关键点特征查询指的是将各初始关键点位置查询分别与初始关键点特征查询组合,并将每个初始关键点位置查询与初始关键点特征查询组合得到的查询作为一个初始关键点查询。可以理解的是,对于任意两个初始关键点查询,两个初始关键点查询中的初始关键点特征查询相同,两个初始关键点查询中的初始位置关键点查询不同。
进一步,若干初始人体-关键点查询为将目标人体查询与各初始关键点查询拼接得到查询。可以理解的是,若干初始人体-关键点查询的数量等初始关键点查询的数量,例如,初始关键点查询的数量为N,那么初始人体-关键点查询的数量为N。其中,在将目标人体查询与初始关键点查询拼接时,将目标人体查询中的目标人体特征查询与初始关键点查询中的初始关键点特征查询连接,将目标人体位置查询与初始关键点位置查询连接。本实施例通过将目标人体查询与初始关键点查询拼接得到查询作为初始人体-关键点查询,然后将初始人体-关键点查询作为第二解码器的输入项进行注意力学习,可以学习到人体与关键点的相互关系,以及关键点与关键点的相互关系,可以学习到全局到局部、局部到局部之间的相互关系,这样通过第一解码器和第二解码器可以使得多姿态学习关注全局到全局(人体与人体)、全局到局部(人体与其关键点)、局部到局部(关键点与关键点)之间的相互关系,以提高估计到人体姿态的准确性。
S40、将多条初始人体-关键点查询及多条特征向量输入第二解码器,利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询,其中,所述目标人体-关键点查询包括目标人体-关键点特征查询和目标人体-关键点位置查询。
具体地,所述第二解码器包括若干级联解码单元,其中,第二解码器中的解码单元的模型结构与第一解码器中的解码单元的模型结构相同,第二解码器中的解码单元的模型结构与第一解码器中的解码单元的模型不同之处在于输入项不同。此外,第二解码器所包括的解码单元的数量可以与第一解码器所包括的解码单元的数量不同,例如,第一解码器包括2个解码单元,第二解码器包括4个解码单元等。
第二解码器中的注意力交互层用于学习人体与关键点的相互关系,以及关键点与关节点间的相互关系;第二解码器中的交叉注意力交互层用于与特征向量与人体特征查询进行交互,以及特征向量与关键点特征查询进行交互,这样通过第二解码器可以学习到全局到局部以及局部到局部的相互关系,即学习到人到关键点以及关键点到关键点的相互关系。
基于此,所述将多条初始人体-关键点查询及多条特征向量输入第二解码器,利用第二解码器的注意力机制对多条人体-关键点查询及多条特征向量进行学习,以得到多条目标人体-关键点查询具体包括:
将多条初始人体-关键点查询及多条特征向量输入第二解码器;
利用第二解码器的自注意力机制对多条初始人体-关键点特征查询进行学习,以得到多条更新人体-关键点特征查询;
利用第二解码器的交叉注意力机制对多条更新人体-关键点特征查询、多条初始人体-关键点位置查询以及多条特征向量进行学习,以得到多条目标人体-关键点特征查询;
基于各目标人体-关键点特征查询确定各目标人体-关键点特征查询各自对应的四维偏移量,并基于确定的多条四维偏移量及多条初始人体-关键点位置查询确定多条目标人体-关键点位置查询,以得到多条目标人体-关键点查询。
具体地,如图2所示,第二解码器的输入项包括多条初始人体-关键点查询中的初始人体-关键点特征查询
Figure 229592DEST_PATH_IMAGE028
、初始人体-关键点位置查询
Figure 530123DEST_PATH_IMAGE029
以及多条特征向量
Figure 300633DEST_PATH_IMAGE011
,其中,如图4所示,初始人体-关键点特征查询
Figure 636107DEST_PATH_IMAGE028
和初始人体-关键点位置查询
Figure 757646DEST_PATH_IMAGE028
连接得到的向量为第二解码器中的自注意力交互层的K,初始人体-关键点特征查询
Figure 596289DEST_PATH_IMAGE028
与经过激活函数的初始人体-关键点位置查询
Figure 486885DEST_PATH_IMAGE029
连接得到的查向量为第二解码器中的自注意力交互层的Q,初始人体-关键点特征查询
Figure 18360DEST_PATH_IMAGE028
为第二解码器中的自注意力交互层的V,自注意力交互层通过对Q、V和K进行交互学习,来进行各初始人体-关键点查询的初始关键点查询
Figure 361617DEST_PATH_IMAGE030
中的各关键点间相互学习,以及各初始人体-关键点查询中的人体查询间相互学习,以得到更新人体-关键点特征查询。
如图4所示,初始人体-关键位置查询
Figure 269530DEST_PATH_IMAGE029
为第二解码器中交叉注意力交互层的K,更新人体-关键特征查询和经过激活函数的初始人体-关键位置查询
Figure 998321DEST_PATH_IMAGE029
连接得到的向量为交叉注意力交互层的Q,多条特征向量
Figure 700698DEST_PATH_IMAGE011
为交叉注意力交互层的V,交叉注意力交互层对Q、V和K进行学习得到目标人体特征查询
Figure 531250DEST_PATH_IMAGE031
。其中,K为初始人体位置查询
Figure 711696DEST_PATH_IMAGE032
,Q为将更新人体特征查询和经过激活函数的初始人体位置查询连接得到的,V为多条特征向量。此外,在获取到目标人体-关键点特征查询
Figure 576884DEST_PATH_IMAGE031
后,基于目标人体-关键点特征查询
Figure 184583DEST_PATH_IMAGE031
计算四维偏移量
Figure 751699DEST_PATH_IMAGE033
,然后将四维偏移量加到初始人体-关键点位置查询
Figure 735836DEST_PATH_IMAGE029
上,得到目标人体位置查询
Figure 455530DEST_PATH_IMAGE034
,其中,四维偏移量
Figure 499709DEST_PATH_IMAGE035
可以采用现有方法计算得到,这里就不具体说明。在一个实现方式中,所述交叉注意力交互层确定的目标人体特征查询
Figure 304854DEST_PATH_IMAGE036
可以是通过将多条特征向量
Figure 827102DEST_PATH_IMAGE011
与更新人体特征查询进行点乘得到,其中,在点乘过程中将人体-关键点特征查询对应的人体-关键点位置查询作为K值进行引导。
此外,值得说明的是,上述是以第二解码器包括一个解码单元进行说明,而在实际应用中,第二解码器包括多个解码单元,当第二解码器包括多个解码单元时,每个解码单元均的模型结构以及处理过程均相同,各解码单元的不同之处在于各解码单元的输入项不同,其中,位于最前的解码单元的输入相位初始人体-关键点特征查询、初始人体-关键点位置查询以及多条特征向量,相邻两个解码单元中位于后的解码单元的输入项为位于前的解码单元输出的目标人体-关键点特征查询和目标人体-关键点位置查询以及多条特征向量,通过第二解码器确定的目标人体-关键点特征查询和目标人体-关键点位置查询为位于最后的解码单元输出的目标人体-关键点特征查询和目标人体-关键点位置查询。
S50、基于多条目标人体-关键点查询,确定目标人体以及目标人体对应的人体姿态。
具体地,目标人体对应的人体姿态为基于目标人体对应的关键点确定,由此,在获取到多条目标人体-关键点查询后,基于多条目标人体-关键点查询确定目标图像包括的各目标人体,以及各目标人体各自对应的若干关键点,然后在基于各目标人体各自对应的若干关键点,确定各目标人体各自对应的人体姿态。
在一个实现方式中,目标人体和目标人体对应的若干关键点可以基于预先训练的前馈网络模型确定,即在获取到多条目标人体-关键点查询,将多条目标人体-关键点查询输入前馈网络模型,通过前馈网络模型对多条目标人体-关键点查询进行分类,以得到属于人体类别的目标人体-关键点查询,然后属于人体类别的目标人体-关键点查询确定目标人体的检测框以及目标人体对应的若干关键点坐标,最后基于确定目标人体的检测框确定目标人体,并基于目标人体对应的若干关键点坐标确定目标人体对应的人体姿态。
为了进一步说明本实施例提供的多人姿态估计方法,下面给出本实施例采用ResNet50作为特征提取模型来进行多人姿态估计与现有的双阶段方法进行姿态估计在CrowdPose数据集和COCO数据集上性能比对,其中,在CrowdPose数据上,本实施例相对于双阶段提升了9.1AP,在COCO数据集上,本实施例相对于双阶段提升了1.2AP。
综上所述,本实施例提供了一种多人姿态估计方法,所述的方法包括基于目标图像对应的多条特征向量确定初始人体查询,利用第一解码器的注意力机制对初始人体查询及特征向量进行学习,以得到目标人体查询;基于目标人体查询生成多条初始人体-关键点查询,利用第二解码器的注意力机制对人体-关键点查询及特征向量进行学习得到目标人体-关键点查询;基于多条目标人体-关键点查询,确定目标人体以及目标人体对应的人体姿态。本申请一方面通过第一解码器对人体查询和特征向量进行学习,以学习到目标图像中各人体间的相互关系,然后通过目标人体查询初始化关键点,再通过第二解码器对人体-关键点查询和特征向量进行学习,学习到人体与关键点间以及关键点与关键点间的相互关系,从而可以关注到拥挤人群场景中全局到全局、全局到局部、局部到局部之间的相互关系,另一方面将关键点以特征信息+位置信息的表征形式与人体查询向量拼接后输入到解码器中学习,可以充分利用关键点的上下文信息,从而本申请可以提高关键点提取的准确性,进而可以提高姿态估计的准确性。
基于上述多人姿态估计方法,本实施例提供了一种述多人姿态估计系统,如图5所示,所述的系统包括:
特征提取模块100,用于获取包含人体的目标图像的多条特征向量,并基于所述多条特征向量确定目标图像对应的多条初始人体查询,其中,所述初始人体查询包括初始人体特征查询和初始人体位置查询;
第一解码器模块200,用于将多条初始人体查询及多条特征向量输入第一解码器,利用第一解码器的注意力机制对多条初始人体查询及多条特征向量进行学习,以得到多条目标人体查询,其中,所述目标人体查询包括目标人体特征查询和目标人体位置查询;
生成模块300,用于基于每条目标人体查询生成若干初始人体-关键点查询,以得到多条初始人体-关键点查询,其中,所述初始人体-关键点查询包括初始人体-关键点特征查询和初始人体-关键点位置查询;
第二解码器模块400,用于将多条初始人体-关键点查询及多条特征向量输入第二解码器,利用第二解码器的注意力机制对多条人体-关键点查询及多条特征向量进行学习,以得到多条目标人体-关键点查询,其中,所述目标人体-关键点查询包括目标人体-关键点特征查询和目标人体-关键点位置查询;
识别模块500,用于基于多条目标人体-关键点查询,确定目标人体以及目标人体对应的人体姿态。
此外,在实际应用中,本实施例提供的多人姿态估计系统可以作为一个独立的姿态估计模型,姿态估计模型的输入项为目标图像,输出项为目标图像所包含的各目标人体和各目标人体各自对应的人体姿态,其中,姿态估计模型可以包括特征提取模型、编码器、第一解码器、第二解码器以及识别模型,其中,所述特征提取模型和所述编码器联合用于提取多条特征向量,第一解码器用于确定目标人体查询,第二解码器用于确定目标人体-关键点查询,识别模型用于确定目标人体以及目标人体对应的人体姿态。其中,特征提取模型、编码器、第一解码器、第二解码器以及识别模型可以直接集成为一个独立的模型,也可以分别单独使用,通过联合使用特征提取模型、编码器、第一解码器、第二解码器以及识别模型来确定人体姿态。本实施例提供的多人姿态估计方法是对人体姿态确定过程进行说明,其可以用于特征提取模型、编码器、第一解码器、第二解码器以及识别模型可以直接集成为一个独立的模型确定人体姿态,也可以通过联合使用特征提取模型、编码器、第一解码器、第二解码器以及识别模型来确定人体姿态。
基于上述多人姿态估计方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的多人姿态估计方法中的步骤。
基于上述多人姿态估计方法,本申请还提供了一种终端设备,如图6所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种多人姿态估计方法,其特征在于,所述的方法包括:
获取包含人的目标图像的多条特征向量,并基于所述多条特征向量确定所述目标图像对应的多条初始人体查询,其中,所述初始人体查询包括初始人体特征查询和初始人体位置查询;
将多条初始人体查询及多条特征向量输入第一解码器,利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询,其中,所述目标人体查询包括目标人体特征查询和目标人体位置查询;
基于每条目标人体查询确定若干初始人体-关键点查询,以得到多条初始人体-关键点查询,其中,所述初始人体-关键点查询包括初始人体-关键点特征查询和初始人体-关键点位置查询;
将多条初始人体-关键点查询及多条特征向量输入第二解码器,利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询,其中,所述目标人体-关键点查询包括目标人体-关键点特征查询和目标人体-关键点位置查询;
基于多条目标人体-关键点查询,确定目标人体以及目标人体对应的人体姿态。
2.根据权利要求1所述多人姿态估计方法,其特征在于,所述获取包含人的目标图像的多条特征向量具体包括:
获取包含人的目标图像的若干特征图,其中,若干特征图的图像尺寸不同;
将若干特征图划分为多条候选特征向量,并通过Transformer编码器将各候选特征向量与各候选特征向量的位置嵌入相结合,以得到多条特征向量。
3.根据权利要求1所述多人姿态估计方法,其特征在于,所述基于所述多条特征向量确定目标图像对应的多条初始人体查询具体包括:
对多条特征向量进行人体筛选以得到多条初始人体特征查询,其中,多条初始人体特征查询的数量少于多条特征向量的数量;
将多条初始人体特征查询输入预先训练的第一前馈网络,通过所述第一前馈网络确定各初始人体特征查询对应的初始人体位置查询,以得到多条初始人体查询。
4.根据权利要求1所述多人姿态估计方法,其特征在于,所述注意力机制包括自注意力机制和交叉注意力机制;所述将多条初始人体查询及多条特征向量输入第一解码器,利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询具体包括:
将多条初始人体查询及多条特征向量输入第一解码器;
利用第一解码器的自注意力机制对初始人体查询进行学习,以得到多条更新人体特征查询;
利用第一解码器的交叉注意力机制对更新人体特征查询、初始人体位置查询以及多条特征向量进行学习,以得到目标人体特征查询;
基于目标人体特征查询确定四维偏移量,并基于确定的四维偏移量及初始人体位置查询确定目标人体位置查询,以得到多条目标人体查询。
5.根据权利要求4所述多人姿态估计方法,其特征在于,所述基于目标人体特征查询确定四维偏移量,并基于确定的四维偏移量及初始人体位置查询确定目标人体位置查询,以得到多条目标人体查询之后,所述方法还包括:
对多条目标人体查询进行筛选,并将筛选得到的目标人体查询作为目标人体查询。
6.根据权利要求1所述多人姿态估计方法,其特征在于,所述基于每条目标人体查询确定若干初始人体-关键点查询,以得到多条初始人体-关键点查询具体包括:
对于每条目标人体查询,将所述目标人体查询中的目标人体特征查询与预设特征向量进行逐点相加,以得到初始关键点特征查询;
基于所述目标人体特征查询确定若干二维关键点坐标,并分别将各二维关键点坐标与预设位置向量拼接得到若干初始关键点位置查询,其中,所述预设位置向量为所述预设特征向量与所述目标人体查询中的目标人体位置查询中的二维尺寸向量的向量乘积;
基于各初始关键点位置查询与初始关键点特征查询,确定若干初始关键点查询,并基于目标人体查询与若干初始关键点查询确定若干初始人体-关键点查询,以得到多条目标人体查询对应的多条初始人体-关键点查询。
7.根据权利要求6所述多人姿态估计方法,其特征在于,所述初始关键点位置查询用于反映关键点对应的检测框信息,其中,初始关键点位置查询的维度为4。
8.根据权利要求1所述多人姿态估计方法,其特征在于,所述注意力机制包括自注意力机制和交叉注意力机制;所述将多条初始人体-关键点查询及多条特征向量输入第二解码器,利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询具体包括:
将多条初始人体-关键点查询及多条特征向量输入第二解码器;
利用第二解码器的自注意力机制对多条初始人体-关键点特征查询进行学习,以得到多条更新人体-关键点特征查询;
利用第二解码器的交叉注意力机制对多条更新人体-关键点特征查询、多条初始人体-关键点位置查询以及多条特征向量进行学习,以得到多条目标人体-关键点特征查询;
基于各目标人体-关键点特征查询确定各目标人体-关键点特征查询各自对应的四维偏移量,并基于确定的多条四维偏移量及多条初始人体-关键点位置查询确定多条目标人体-关键点位置查询,以得到多条目标人体-关键点查询。
9.一种姿态估计系统,其特征在于,所述的系统包括:
特征提取模块,用于获取包含人的目标图像的多条特征向量,并基于所述多条特征向量确定目标图像对应的多条初始人体查询,其中,所述初始人体查询包括初始人体特征查询和初始人体位置查询;
第一解码器模块,用于将多条初始人体查询及多条特征向量输入第一解码器,利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询,其中,所述目标人体查询包括目标人体特征查询和目标人体位置查询;
生成模块,用于基于每条目标人体查询生成若干初始人体-关键点查询,以得到多条初始人体-关键点查询,其中,所述初始人体-关键点查询包括初始人体-关键点特征查询和初始人体-关键点位置查询;
第二解码器模块,用于将多条初始人体-关键点查询及多条特征向量输入第二解码器,利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询,其中,所述目标人体-关键点查询包括目标人体-关键点特征查询和目标人体-关键点位置查询;
识别模块,用于基于多条目标人体-关键点查询,确定目标人体以及目标人体对应的人体姿态。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-8任意一项所述的多人姿态估计方法中的步骤。
11.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的多人姿态估计方法中的步骤。
CN202211571205.6A 2022-12-08 2022-12-08 一种多人姿态估计方法及相关装置 Active CN115661254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211571205.6A CN115661254B (zh) 2022-12-08 2022-12-08 一种多人姿态估计方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211571205.6A CN115661254B (zh) 2022-12-08 2022-12-08 一种多人姿态估计方法及相关装置

Publications (2)

Publication Number Publication Date
CN115661254A true CN115661254A (zh) 2023-01-31
CN115661254B CN115661254B (zh) 2023-05-16

Family

ID=85019131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211571205.6A Active CN115661254B (zh) 2022-12-08 2022-12-08 一种多人姿态估计方法及相关装置

Country Status (1)

Country Link
CN (1) CN115661254B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129228A (zh) * 2023-04-19 2023-05-16 中国科学技术大学 图像匹配模型的训练方法、图像匹配方法及其装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766791A (zh) * 2017-09-06 2018-03-06 北京大学 一种基于全局特征和粗粒度局部特征的行人再识别方法及装置
US20210201161A1 (en) * 2020-07-15 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, electronic device and readable storage medium for constructing key-point learning model
US20210319213A1 (en) * 2020-04-09 2021-10-14 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for prompting motion, electronic device and storage medium
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法
CN114170688A (zh) * 2022-02-11 2022-03-11 北京世纪好未来教育科技有限公司 人物交互关系识别方法、装置、电子设备
CN114581945A (zh) * 2022-02-21 2022-06-03 中国科学院大学 一种融合时空特征的单目三维人体姿态估计方法及系统
CN114724181A (zh) * 2022-03-24 2022-07-08 同济大学 一种基于姿态增强型关系特征的人体动作识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766791A (zh) * 2017-09-06 2018-03-06 北京大学 一种基于全局特征和粗粒度局部特征的行人再识别方法及装置
US20210319213A1 (en) * 2020-04-09 2021-10-14 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for prompting motion, electronic device and storage medium
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法
US20210201161A1 (en) * 2020-07-15 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, electronic device and readable storage medium for constructing key-point learning model
CN114170688A (zh) * 2022-02-11 2022-03-11 北京世纪好未来教育科技有限公司 人物交互关系识别方法、装置、电子设备
CN114581945A (zh) * 2022-02-21 2022-06-03 中国科学院大学 一种融合时空特征的单目三维人体姿态估计方法及系统
CN114724181A (zh) * 2022-03-24 2022-07-08 同济大学 一种基于姿态增强型关系特征的人体动作识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129228A (zh) * 2023-04-19 2023-05-16 中国科学技术大学 图像匹配模型的训练方法、图像匹配方法及其装置

Also Published As

Publication number Publication date
CN115661254B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
Zhou et al. To learn or not to learn: Visual localization from essential matrices
US10949649B2 (en) Real-time tracking of facial features in unconstrained video
CN110866953B (zh) 地图构建方法及装置、定位方法及装置
US11367271B2 (en) Similarity propagation for one-shot and few-shot image segmentation
Quattoni et al. Hidden-state conditional random fields
CN110543841A (zh) 行人重识别方法、系统、电子设备及介质
CN111862213A (zh) 定位方法及装置、电子设备、计算机可读存储介质
JP2013508844A (ja) 画像のシーケンス内のオブジェクトのリアルタイム表現のハイブリッド型追跡のための方法、コンピュータプログラム、および装置
CN111783506A (zh) 目标特征的确定方法、装置和计算机可读存储介质
CN113673354A (zh) 一种基于上下文信息与联合嵌入的人体关键点检测方法
CN115661254B (zh) 一种多人姿态估计方法及相关装置
CN113947810A (zh) 基于姿态识别的太极拳评估方法及系统
Paterson et al. 3D head tracking using non-linear optimization.
Yamashita et al. Cost-alleviative learning for deep convolutional neural network-based facial part labeling
CN111104911A (zh) 一种基于大数据训练的行人重识别方法及装置
Tobeta et al. E2pose: Fully convolutional networks for end-to-end multi-person pose estimation
CN116012942A (zh) 手语教学方法、装置、设备及存储介质
CN115222047A (zh) 一种模型训练方法、装置、设备及存储介质
CN115439922A (zh) 对象行为识别方法、装置、设备及介质
CN114586075A (zh) 用于位置识别的视觉对象实例描述符
Wang et al. Robust discriminative regression for facial landmark localization under occlusion
CN113570667B (zh) 视觉惯导补偿方法、装置及存储介质
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN115063598A (zh) 关键点检测方法、神经网络、装置、电子设备及存储介质
Cong et al. Improved explicit shape regression face alignment algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant