CN115661254A

CN115661254A - 一种多人姿态估计方法及相关装置

Info

Publication number: CN115661254A
Application number: CN202211571205.6A
Authority: CN
Inventors: 杨杰; 曾爱玲; 刘世隆; 李峰; 张磊
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-01-31
Anticipated expiration: 2042-12-08
Also published as: CN115661254B

Abstract

本申请公开了一种多人姿态估计方法及相关装置，方法包括通过目标图像的特征向量确定初始人体查询，利用第一解码器的注意力机制对初始人体查询及特征向量进行学习以得到目标人体查询；基于目标人体查询生成初始人体‑关键点查询，利用第二解码器的注意力机制对初始人体‑关键点查询及特征向量进行学习得到目标人体‑关键点查询；基于目标人体‑关键点查询确定目标人体及人体姿态。本申请通过目标人体查询初始人体‑关键点查询，将目标人体查询与初始人体‑关键点查询连接作为人体‑关键点查询，可以关注到拥挤人群场景中全局到全局、全局到局部、局部到局部的相互关系，提高学习到的关键点的语义信息的准确性，进而提高了姿态估计的准确性。

Description

一种多人姿态估计方法及相关装置

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种多人姿态估计方法及相关装置。

背景技术

随着多人姿态估计(MPPE)技术在增强现实、虚拟现实和人机交互等领域的广泛应用，其已经引起了计算机视觉界的广泛关注，其中，多人姿态估计技术为检测图像中的所有人并为每个人定位出关键点的技术。

目前普遍使用的多人姿态估计方法包括两阶段的方法，两阶段的方法是将该任务分为两个独立的子问题（例如，全局的人体检测和局部的关键点回归），例如，具有高性能但推理成本高的自上而下方法，以及推理速度快但相对低精度的自下而上方法等。然而，两阶段方法需要进行繁琐的后处理，例如，如非最大抑制、兴趣区域裁剪，以及关键点分组等后处理操作等。

为此，人们将端到端可训练的方法应用于多姿态估计，其利用两分匹配进行一对一的预测，用Transformer来避免繁琐的后处理，例如，PETR等人提出了一个完全端到端的框架来预测实例感知的姿势。然而，现有的采用端到端可训练的方法进行多姿态估计普遍是仅利用局部的依赖关系来回归关键点，即直接利用姿势查询直接回归每个人的关键点，使得多人的关键点匹配不明确，无法获取准确的关键点语义信息，进而影响姿态估计的准确性。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种多人姿态估计方法及相关装置。

为了解决上述技术问题，本申请实施例第一方面提供了一种多人姿态估计方法，所述的方法包括：

获取包含人的目标图像的多条特征向量，并基于所述多条特征向量确定所述目标图像对应的多条初始人体查询，其中，所述初始人体查询包括初始人体特征查询和初始人体位置查询；

将多条初始人体查询及多条特征向量输入第一解码器，利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询，其中，所述目标人体查询包括目标人体特征查询和目标人体位置查询；

基于每条目标人体查询确定若干初始人体-关键点查询，以得到多条初始人体-关键点查询，其中，所述初始人体-关键点查询包括初始人体-关键点特征查询和初始人体-关键点位置查询；

将多条初始人体-关键点查询及多条特征向量输入第二解码器，利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询，其中，所述目标人体-关键点查询包括目标人体-关键点特征查询和目标人体-关键点位置查询；

基于多条目标人体-关键点查询，确定目标人体以及目标人体对应的人体姿态。

在一个实现方式中，所述获取包含人的目标图像的多条特征向量具体包括：

获取包含人的目标图像的若干特征图，其中，若干特征图的图像尺寸不同；

将若干特征图划分为多条候选特征向量，并通过Transformer编码器将各候选特征向量与各候选特征向量的位置嵌入相结合，以得到多条特征向量。

在一个实现方式中，所述基于所述多条特征向量确定目标图像对应的多条初始人体查询具体包括：

对多条特征向量进行人体筛选以得到多条初始人体特征查询，其中，多条初始人体特征查询的数量少于多条特征向量的数量；

将多条初始人体特征查询输入预先训练的第一前馈网络，通过所述第一前馈网络确定各初始人体特征查询对应的初始人体位置查询，以得到多条初始人体查询。

在一个实现方式中，所述注意力机制包括自注意力机制和交叉注意力机制；所述将多条初始人体查询及多条特征向量输入第一解码器，利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询具体包括：

将多条初始人体查询及多条特征向量输入第一解码器；

利用第一解码器的自注意力机制对初始人体查询进行学习，以得到多条更新人体特征查询；

利用第一解码器的交叉注意力机制对更新人体特征查询、初始人体位置查询以及多条特征向量进行学习，以得到目标人体特征查询；

基于目标人体特征查询确定四维偏移量，并基于确定的四维偏移量及初始人体位置查询确定目标人体位置查询，以得到多条目标人体查询。

在一个实现方式中，所述基于目标人体特征查询确定四维偏移量，并基于确定的四维偏移量及初始人体位置查询确定目标人体位置查询，以得到多条目标人体查询之后，所述方法还包括：

对多条目标人体查询进行筛选，并将筛选得到的目标人体查询作为目标人体查询。

在一个实现方式中，所述基于每条目标人体查询确定若干初始人体-关键点查询，以得到多条初始人体-关键点查询具体包括：

对于每条目标人体查询，将所述目标人体查询中的目标人体特征查询与预设特征向量进行逐点相加，以得到初始关键点特征查询；

基于所述目标人体特征查询确定若干二维关键点坐标，并分别将各二维关键点坐标与预设位置向量拼接得到若干初始关键点位置查询，其中，所述预设位置向量为所述预设特征向量与所述目标人体查询中的目标人体位置查询中的二维尺寸向量的向量乘积；

基于各初始关键点位置查询与初始关键点特征查询，确定若干初始关键点查询，并基于目标人体查询与若干初始关键点查询确定若干初始人体-关键点查询，以得到多条目标人体查询对应的多条初始人体-关键点查询。

在一个实现方式中，所述初始关键点位置查询用于反映关键点对应的检测框信息，其中，初始关键点位置查询的维度为4。

在一个实现方式中，所述注意力机制包括自注意力机制和交叉注意力机制；所述将多条初始人体-关键点查询及多条特征向量输入第二解码器，利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询具体包括：

将多条初始人体-关键点查询及多条特征向量输入第二解码器；

利用第二解码器的自注意力机制对多条初始人体-关键点特征查询进行学习，以得到多条更新人体-关键点特征查询；

利用第二解码器的交叉注意力机制对多条更新人体-关键点特征查询、多条初始人体-关键点位置查询以及多条特征向量进行学习，以得到多条目标人体-关键点特征查询；

基于各目标人体-关键点特征查询确定各目标人体-关键点特征查询各自对应的四维偏移量，并基于确定的多条四维偏移量及多条初始人体-关键点位置查询确定多条目标人体-关键点位置查询，以得到多条目标人体-关键点查询。

本申请实施例第二方面提供了一种姿态估计系统，所述的系统包括：

特征提取模块，用于获取包含人的目标图像的多条特征向量，并基于所述多条特征向量确定目标图像对应的多条初始人体查询，其中，所述初始人体查询包括初始人体特征查询和初始人体位置查询；

第一解码器模块，用于将多条初始人体查询及多条特征向量输入第一解码器，利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询，其中，所述目标人体查询包括目标人体特征查询和目标人体位置查询；

生成模块，用于基于每条目标人体查询生成若干初始人体-关键点查询，以得到多条初始人体-关键点查询，其中，所述初始人体-关键点查询包括初始人体-关键点特征查询和初始人体-关键点位置查询；

第二解码器模块，用于将多条初始人体-关键点查询及多条特征向量输入第二解码器，利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询，其中，所述目标人体-关键点查询包括目标人体-关键点特征查询和目标人体-关键点位置查询；

识别模块，用于基于多条目标人体-关键点查询，确定目标人体以及目标人体对应的人体姿态。

本申请实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的多人姿态估计方法中的步骤。

本申请实施例第四方面提供了一种终端设备，其包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的多人姿态估计方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种多人姿态估计方法及相关装置，方法包括基于目标图像对应的多条特征向量确定初始人体查询，利用第一解码器的注意力机制对初始人体查询及特征向量进行学习，以得到目标人体查询；基于目标人体查询生成多条初始人体-关键点查询，利用第二解码器的注意力机制对人体-关键点查询及特征向量进行学习得到目标人体-关键点查询；基于多条目标人体-关键点查询，确定目标人体以及目标人体对应的人体姿态。本申请一方面通过第一解码器对人体查询和特征向量进行学习，以学习到目标图像中各人体间的相互关系，然后通过目标人体查询初始化关键点，再通过第二解码器对人体-关键点查询和特征向量进行学习，学习到人体与关键点间以及关键点与关键点间的相互关系，从而可以关注到拥挤人群场景中全局到全局、全局到局部、局部到局部之间的相互关系，另一方面将关键点以特征信息+位置信息的表征形式与人体查询向量拼接后输入到解码器中学习，可以充分利用关键点的上下文信息，从而本申请可以提高关键点提取的准确性，进而可以提高姿态估计的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的多人姿态估计方法的流程图。

图2为本申请提供的多人姿态估计方法的流程示例图。

图3为本申请提供的多人姿态估计方法的第一解码器的结构图。

图4为本申请提供的多人姿态估计方法的第二解码器的结构图。

图5为本申请提供的多人姿态估计系统的结构原理图。

图6为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种多人姿态估计方法及相关装置，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在目标元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

发明人经过研究发现，随着多人姿态估计(MPPE)技术在增强现实、虚拟现实和人机交互等领域的广泛应用，其已经引起了计算机视觉界的广泛关注，其中，多人姿态估计技术为检测图像中的所有人并为每个人定位出关键点的技术。

由于拥挤人群场景中存在人体间遮挡、困难姿势以及不同人的身体部位尺度不同的问题，在进行多人姿态估计时需要关注全局（即人类层面）和局部（关键点层面）的依赖关系，而全局和局部集中在不同的语义颗粒度上。为此，目前普遍使用的多人姿态估计方法通常时两阶段的方法，两阶段的方法是将多人姿态估计任务分为两个独立的子问题（例如，全局的人体检测和局部的关键点回归），例如，具有高性能但推理成本高的自上而下方法，以及推理速度快但相对低精度的自下而上方法等。然而，两阶段方法需要进行繁琐的后处理，例如，如非最大抑制、兴趣区域裁剪，以及关键点分组等后处理操作等。

为了解决上述问题，在本申请实施例中，基于目标图像对应的多条特征向量确定初始人体查询，利用第一解码器的注意力机制对初始人体查询及特征向量进行学习，以得到目标人体查询；基于目标人体查询生成多条初始人体-关键点查询，利用第二解码器的注意力机制对人体-关键点查询及特征向量进行学习得到目标人体-关键点查询；基于多条目标人体-关键点查询，确定目标人体以及目标人体对应的人体姿态。本申请一方面通过第一解码器对人体查询和特征向量进行学习，以学习到目标图像中各人体间的相互关系，然后通过目标人体查询初始化关键点，再通过第二解码器对人体-关键点查询和特征向量进行学习，学习到人体与关键点间以及关键点与关键点间的相互关系，从而可以关注到拥挤人群场景中全局到全局、全局到局部、局部到局部之间的相互关系，另一方面将关键点以特征信息+位置信息的表征形式与人体查询向量拼接后输入到解码器中学习，可以充分利用关键点的上下文信息，从而本申请可以提高关键点提取的准确性，进而可以提高姿态估计的准确性。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种多人姿态估计方法，如图1所示，所述方法包括：

S10、获取包含人的目标图像的多条特征向量，并基于所述多条特征向量确定目标图像对应的多条初始人体查询。

具体地，目标图像所包含的人可以为多个，例如，目标图像为对拥挤人群场景进行拍摄得到的。此外，目标图像中的多个人可以相互重叠，即目标图像中的部分人可以被其他人遮挡。多条特征向量

中的每一特征向量

均包括特征信息以及位置信息，特征信息用于反映特征向量对应的图像区域中的内容信息，位置信息用于反映特征向量对应的图像区域的区域位置。

在一个实现方式中，如图2所示，所述多条特征向量

可以通过特征提取网络以及Transformer编码器联合作用所得到，其中，特征提取网络用于提取目标图像的特征图，Transformer编码器用于将特征图中的特征信息与位置信息相结合。基于此，所述获取包含人体的目标图像的多条特征向量具体包括：

获取包含人体的目标图像的若干特征图；

具体地，若干特征图中的各特征图的图像尺寸不同，例如，若干特征图包括特征图A、特征图B以及特征图C，特征图A的图像尺寸为28*28，特征图B的图像尺寸为56*56，特征图C的图像尺寸为128*128。此外，若干特征图可以通过预先训练的特征提取网络提取得到的，例如，VGG-16，ResNet50等网络，也就是说，将目标图像输入特征提取网络，通过特征提取网络输出目标图像对应的若干尺寸不同的特征图。

候选特征向量

用于反映特征图中部分图像区域的图像特征，位置嵌入用于为候选特征向量对应的部分图像区域的区域位置。候选特征向量

的确定过程可以为对于若干特征图中的每个特征图，将该特征图划分为若干子特征图，然后将每个子特征图转换为向量表示以得到每个子特征图对应的候选特征向量。其中，每个特征图划分得到的各子特征图的图像尺寸相同，并且各特征图各自对应的子特征图的图像尺寸也相同，以使得多条候选特征向量中的每条候选特征向量的向量维度相同。

所述初始人体查询包括初始人体特征查询

和初始人体位置查询

，初始人体位置查询的维度为4。例如，初始人体查询的向量维度为260，初始人体查询的前256维为初始人体特征查询

，后4维为初始人体位置查询

。此外，初始人体位置查询

包括初始人体特征查询

对应的检测框的中心坐标、宽度以及高度，例如，人体位置查询表示为（x，y，w，h），其中，x和y表示位置查询中检测框的中心坐标，w和h表示位置查询中的二维尺寸信息，w表示宽度，h表示高度。

对多条特征向量进行人体筛选以得到多条初始人体特征查询；

具体地，多条初始人体特征查询

中的每一条初始人体特征查询

均包含于多条特征向量中，而多条特征向量中存在不为初始人体特征查询的特征向量。也就是说，通过对多条特征向量

进行人体筛选以去除多条特征向量中的部分未携带人体特征或者携带人体特征少的特征向量，这样可以减少初始人体特征查询的数量，提高后续解码器的输入项的数据量，从而可以提高后续解码过程的解码效率，进而提高姿态估计的速度。

进一步，对多条特征向量进行人体筛选可以通过预先训练的人体分类模型实现的，即通过人体分类模型对各特征向量进行二分类（即检测特征向量代表背景信息还是人体信息），以得到各特征向量对应的分类分数，其中，分类分数用于反映特征向量为人体信息的置信度。在获取到各特征向量各自对应的分类分数后，按照分类分数从高到低的顺序选取预设数量的特征向量，并将选取到特征向量作为初始人体特征查询。例如，多条特征向量为300条，选取到的初始人体特征查询为100条。

第一前馈网络为预先训练的神经网络模型，通过第一前馈网络可以确定初始人体位置查询

，即通过第一前馈网络可以将初始人体特征查询

进行回归，以得到初始人体特征查询

对应的检测框的四维坐标信息（x，y，w，h），并将四维坐标信息作为初始人体位置查询

。

S20、将多条初始人体查询及多条特征向量输入第一解码器，利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询，其中，所述目标人体查询包括目标人体特征查询和目标人体位置查询。

具体地，第一解码器为预先训练的，第一解码器配置有注意力机制，通过注意力机制可以对多条初始人体查询及多条特征向量进行学习，以学习全局到全局的相互关系（即人到人的相互关系）。其中，第一解码器可以包括依次级联的若干解码单元，例如第一解码器包括两个级联的解码单元；若干解码单元中的每个解码单元均配置有注意力机制。

在一个实现方式中，注意力机制包括自注意力机制和交叉注意力机制，相应的，解码单元包括注意力交互层和交叉注意力交互层，其中，注意力交互层配置有自注意力机制，用于学习人体查询与人体查询的相互关系，包括多条人体查询之间的特征关系、位置关系；交叉注意力交互层配置有交叉注意力机制，用于与多条特征向量

进行交互以更新人体特征查询，这样通过第一解码器可以学习全局到全局的相互关系，即学习人到人的相互关系。

基于此，所述将多条初始人体查询及多条特征向量输入第一解码器，利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询具体包括：

S21、将多条初始人体查询及多条特征向量输入第一解码器；

S22、利用第一解码器的自注意力机制对初始人体查询进行学习，以得到多条更新人体特征查询；

S23、利用第一解码器的交叉注意力机制对更新人体特征查询、初始人体位置查询以及多条特征向量进行学习，以得到目标人体特征查询；

S24、基于目标人体特征查询确定四维偏移量，并基于确定的四维偏移量及初始人体位置查询确定目标人体位置查询，以得到多条目标人体查询。

具体地，第一解码器包括解码单元，解码单元包括自注意力交互层和交叉注意力交互层。如图2所示，解码单元的输入项包括多条初始人体查询中的初始人体特征查询

、初始人体位置查询

以及多条特征向量

，其中，如图3所示，初始人体特征查询

和初始人体位置查询

连接得到的向量为自注意力交互层的K，初始人体特征查询

与经过激活函数的初始人体位置查询连接得到的向量为自注意力交互层的Q，初始人体特征查询

为自注意力交互层的V，自注意力交互层通过对Q、V和K进行交互学习，得到更新人体特征查询。

如图3所示，初始人体位置查询

为交叉注意力交互层的K，更新人体特征查询和经过激活函数的初始人体位置查询连接得到的向量为交叉注意力交互层的Q，多条特征向量为交叉注意力交互层的V，交叉注意力交互层对Q、V和K进行学习得到目标人体特征查询

。此外，在获取到目标人体特征查询

后，基于目标人体特征查询

计算四维偏移量

，然后将四维偏移量加到初始人体位置查询

上，得到目标人体位置查询

，其中，四维偏移量

可以采用现有方法计算得到，这里就不具体说明。在一个实现方式中，所述交叉注意力交互层确定的目标人体特征查询

可以是通过将多条特征向量

与更新人体特征查询进行点乘得到，其中，在点乘过程中将人体特征查询对应的人体位置查询作为K值进行引导。

此外，值得说明的是，上述是以第一解码器包括一个解码单元进行说明，而在实际应用中，第一解码器包括多个解码单元，当第一解码器包括多个解码单元时，每个解码单元均的模型结构以及处理过程均相同，各解码单元的不同之处在于各解码单元的输入项不同，其中，位于最前的解码单元的输入相位初始人体特征查询、初始人体位置查询以及多条特征向量，相邻两个解码单元中位于后的解码单元的输入项为位于前的解码单元输出的目标人体特征查询和目标人体位置查询以及多条特征向量，通过第一解码器确定的目标人体特征查询和目标人体位置查询为位于最后的解码单元输出的目标人体特征查询和目标人体位置查询。

为了进一步提高姿态估计的速度，在获取到多条目标人体查询后，可以对多条目标人体查询进行筛选。基于此，所述基于各目标人体特征查询确定各目标人体特征查询各自对应的四维偏移量，并基于确定的多条四维偏移量及多条初始人体位置查询确定多条目标人体位置查询，以得到多条目标人体查询之后，所述方法还包括：

具体地，对多条目标人体查询进行筛选的过程可以与上述多条候选特征向量进行筛选的过程相同，即通过对目标人体查询进行人体分类得到分类分数进行筛选，具体过程可以操作上述对多条候选特征向量进行筛选的过程，这里就不具体说明。

S30、基于每条目标人体查询确定若干初始人体-关键点查询，以得到多条初始人体-关键点查询。

具体地，所述初始人体-关键点查询包括初始人体-关键点特征查询

和初始人体-关键点位置查询

，每条目标人体查询对应的若干初始人体-关键点查询，即目标图像中的每个人对应的若干初始人体-关键点查询，其中，若干初始人体-关键点查询的数量等于用于估计人体姿态所需的关键点数量，例如，关键点数量为17，那么每条目标人体查询对应17个初始人体-关键点查询，那么假设多条目标人体查询为50个，那么多条初始人体-关键点查询的数量为50*17。

S31、对于每条目标人体查询，将所述目标人体查询中的目标人体特征查询与预设特征向量进行逐点相加，以得到初始关键点特征查询；

S32、基于所述目标人体特征查询确定若干二维关键点坐标，并分别将各二维关键点坐标与预设位置向量拼接得到若干初始关键点位置查询；

S33、基于各初始关键点位置查询与初始关键点特征查询，确定若干初始关键点查询，并基于目标人体查询与若干初始关键点查询确定若干初始人体-关键点查询，以得到多条目标人体查询对应的多条初始人体-关键点查询。

具体地，在所述步骤S31中，预设特征向量为经过训练得到的，也就是说，预设特征向量可以通过预先对该可学习的特征向量进行训练来得到的。其中，预设特征向量的向量维度与目标人体查询的向量维度相同，以使得所述目标人体特征查询与预设特征向量可以进行逐点相加。本实施例通过基于目标人体特征来确定初始关键点特征，使得初始关键点可以将目标人体特征作为先验知识，降低解码器的自由度，可以提高解码器的训练速度。

在所述步骤S32中，二维关键点坐标为通过对目标人体特征查询进行回归得到，用于反应目标人体所携带的关键点的位置信息。每个目标特征查询确定二维关键点坐标的数量与用于估计人体姿态的关键点的数量相同，并且每个二维关键点坐标对应一个关键点。此外，所述预设位置向量为所述预设特征向量与所述目标人体查询中的目标人体位置查询中的二维尺寸向量的向量乘积，其中，二维尺寸向量指的是目标人体位置查询中的宽度和高度。此外，预设位置向量的向量维度为2，以使得将二维关键点坐标与预设位置向量拼接得到的初始关键点位置查询的维度为4，并通过初始关键点位置查询反映反映关键点对应的检测框信息，其中，初始关键点位置查询包括二维关键点坐标、宽度和高度。本实施例通过将二维关键点坐标与预设位置向量进行拼接来将关键点视为一个图像区域，通过对图像区域的学习来确定关键点，这样可以充分利用了关键点的上下文信息，提高关键点的准确性。

在所述步骤S33中，在获取到目标人体特征对应的初始关键点特征查询

和若干初始关键点位置查询

后，将基于各初始关键点位置查询与初始关键点特征查询指的是将各初始关键点位置查询分别与初始关键点特征查询组合，并将每个初始关键点位置查询与初始关键点特征查询组合得到的查询作为一个初始关键点查询。可以理解的是，对于任意两个初始关键点查询，两个初始关键点查询中的初始关键点特征查询相同，两个初始关键点查询中的初始位置关键点查询不同。

进一步，若干初始人体-关键点查询为将目标人体查询与各初始关键点查询拼接得到查询。可以理解的是，若干初始人体-关键点查询的数量等初始关键点查询的数量，例如，初始关键点查询的数量为N，那么初始人体-关键点查询的数量为N。其中，在将目标人体查询与初始关键点查询拼接时，将目标人体查询中的目标人体特征查询与初始关键点查询中的初始关键点特征查询连接，将目标人体位置查询与初始关键点位置查询连接。本实施例通过将目标人体查询与初始关键点查询拼接得到查询作为初始人体-关键点查询，然后将初始人体-关键点查询作为第二解码器的输入项进行注意力学习，可以学习到人体与关键点的相互关系，以及关键点与关键点的相互关系，可以学习到全局到局部、局部到局部之间的相互关系，这样通过第一解码器和第二解码器可以使得多姿态学习关注全局到全局（人体与人体）、全局到局部（人体与其关键点）、局部到局部（关键点与关键点）之间的相互关系，以提高估计到人体姿态的准确性。

S40、将多条初始人体-关键点查询及多条特征向量输入第二解码器，利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询，其中，所述目标人体-关键点查询包括目标人体-关键点特征查询和目标人体-关键点位置查询。

具体地，所述第二解码器包括若干级联解码单元，其中，第二解码器中的解码单元的模型结构与第一解码器中的解码单元的模型结构相同，第二解码器中的解码单元的模型结构与第一解码器中的解码单元的模型不同之处在于输入项不同。此外，第二解码器所包括的解码单元的数量可以与第一解码器所包括的解码单元的数量不同，例如，第一解码器包括2个解码单元，第二解码器包括4个解码单元等。

第二解码器中的注意力交互层用于学习人体与关键点的相互关系，以及关键点与关节点间的相互关系；第二解码器中的交叉注意力交互层用于与特征向量与人体特征查询进行交互，以及特征向量与关键点特征查询进行交互，这样通过第二解码器可以学习到全局到局部以及局部到局部的相互关系，即学习到人到关键点以及关键点到关键点的相互关系。

基于此，所述将多条初始人体-关键点查询及多条特征向量输入第二解码器，利用第二解码器的注意力机制对多条人体-关键点查询及多条特征向量进行学习，以得到多条目标人体-关键点查询具体包括：

具体地，如图2所示，第二解码器的输入项包括多条初始人体-关键点查询中的初始人体-关键点特征查询

、初始人体-关键点位置查询

以及多条特征向量

，其中，如图4所示，初始人体-关键点特征查询

和初始人体-关键点位置查询

连接得到的向量为第二解码器中的自注意力交互层的K，初始人体-关键点特征查询

与经过激活函数的初始人体-关键点位置查询

连接得到的查向量为第二解码器中的自注意力交互层的Q，初始人体-关键点特征查询

为第二解码器中的自注意力交互层的V,自注意力交互层通过对Q、V和K进行交互学习，来进行各初始人体-关键点查询的初始关键点查询

中的各关键点间相互学习，以及各初始人体-关键点查询中的人体查询间相互学习，以得到更新人体-关键点特征查询。

如图4所示，初始人体-关键位置查询

为第二解码器中交叉注意力交互层的K，更新人体-关键特征查询和经过激活函数的初始人体-关键位置查询

连接得到的向量为交叉注意力交互层的Q，多条特征向量

为交叉注意力交互层的V，交叉注意力交互层对Q、V和K进行学习得到目标人体特征查询

。其中，K为初始人体位置查询

，Q为将更新人体特征查询和经过激活函数的初始人体位置查询连接得到的，V为多条特征向量。此外，在获取到目标人体-关键点特征查询

后，基于目标人体-关键点特征查询

计算四维偏移量

，然后将四维偏移量加到初始人体-关键点位置查询

上，得到目标人体位置查询

，其中，四维偏移量

可以是通过将多条特征向量

与更新人体特征查询进行点乘得到，其中，在点乘过程中将人体-关键点特征查询对应的人体-关键点位置查询作为K值进行引导。

此外，值得说明的是，上述是以第二解码器包括一个解码单元进行说明，而在实际应用中，第二解码器包括多个解码单元，当第二解码器包括多个解码单元时，每个解码单元均的模型结构以及处理过程均相同，各解码单元的不同之处在于各解码单元的输入项不同，其中，位于最前的解码单元的输入相位初始人体-关键点特征查询、初始人体-关键点位置查询以及多条特征向量，相邻两个解码单元中位于后的解码单元的输入项为位于前的解码单元输出的目标人体-关键点特征查询和目标人体-关键点位置查询以及多条特征向量，通过第二解码器确定的目标人体-关键点特征查询和目标人体-关键点位置查询为位于最后的解码单元输出的目标人体-关键点特征查询和目标人体-关键点位置查询。

S50、基于多条目标人体-关键点查询，确定目标人体以及目标人体对应的人体姿态。

具体地，目标人体对应的人体姿态为基于目标人体对应的关键点确定，由此，在获取到多条目标人体-关键点查询后，基于多条目标人体-关键点查询确定目标图像包括的各目标人体，以及各目标人体各自对应的若干关键点，然后在基于各目标人体各自对应的若干关键点，确定各目标人体各自对应的人体姿态。

在一个实现方式中，目标人体和目标人体对应的若干关键点可以基于预先训练的前馈网络模型确定，即在获取到多条目标人体-关键点查询，将多条目标人体-关键点查询输入前馈网络模型，通过前馈网络模型对多条目标人体-关键点查询进行分类，以得到属于人体类别的目标人体-关键点查询，然后属于人体类别的目标人体-关键点查询确定目标人体的检测框以及目标人体对应的若干关键点坐标，最后基于确定目标人体的检测框确定目标人体，并基于目标人体对应的若干关键点坐标确定目标人体对应的人体姿态。

为了进一步说明本实施例提供的多人姿态估计方法，下面给出本实施例采用ResNet50作为特征提取模型来进行多人姿态估计与现有的双阶段方法进行姿态估计在CrowdPose数据集和COCO数据集上性能比对，其中，在CrowdPose数据上，本实施例相对于双阶段提升了9.1AP，在COCO数据集上，本实施例相对于双阶段提升了1.2AP。

综上所述，本实施例提供了一种多人姿态估计方法，所述的方法包括基于目标图像对应的多条特征向量确定初始人体查询，利用第一解码器的注意力机制对初始人体查询及特征向量进行学习，以得到目标人体查询；基于目标人体查询生成多条初始人体-关键点查询，利用第二解码器的注意力机制对人体-关键点查询及特征向量进行学习得到目标人体-关键点查询；基于多条目标人体-关键点查询，确定目标人体以及目标人体对应的人体姿态。本申请一方面通过第一解码器对人体查询和特征向量进行学习，以学习到目标图像中各人体间的相互关系，然后通过目标人体查询初始化关键点，再通过第二解码器对人体-关键点查询和特征向量进行学习，学习到人体与关键点间以及关键点与关键点间的相互关系，从而可以关注到拥挤人群场景中全局到全局、全局到局部、局部到局部之间的相互关系，另一方面将关键点以特征信息+位置信息的表征形式与人体查询向量拼接后输入到解码器中学习，可以充分利用关键点的上下文信息，从而本申请可以提高关键点提取的准确性，进而可以提高姿态估计的准确性。

基于上述多人姿态估计方法，本实施例提供了一种述多人姿态估计系统，如图5所示，所述的系统包括：

特征提取模块100，用于获取包含人体的目标图像的多条特征向量，并基于所述多条特征向量确定目标图像对应的多条初始人体查询，其中，所述初始人体查询包括初始人体特征查询和初始人体位置查询；

第一解码器模块200，用于将多条初始人体查询及多条特征向量输入第一解码器，利用第一解码器的注意力机制对多条初始人体查询及多条特征向量进行学习，以得到多条目标人体查询，其中，所述目标人体查询包括目标人体特征查询和目标人体位置查询；

生成模块300，用于基于每条目标人体查询生成若干初始人体-关键点查询，以得到多条初始人体-关键点查询，其中，所述初始人体-关键点查询包括初始人体-关键点特征查询和初始人体-关键点位置查询；

第二解码器模块400，用于将多条初始人体-关键点查询及多条特征向量输入第二解码器，利用第二解码器的注意力机制对多条人体-关键点查询及多条特征向量进行学习，以得到多条目标人体-关键点查询，其中，所述目标人体-关键点查询包括目标人体-关键点特征查询和目标人体-关键点位置查询；

识别模块500，用于基于多条目标人体-关键点查询，确定目标人体以及目标人体对应的人体姿态。

此外，在实际应用中，本实施例提供的多人姿态估计系统可以作为一个独立的姿态估计模型，姿态估计模型的输入项为目标图像，输出项为目标图像所包含的各目标人体和各目标人体各自对应的人体姿态，其中，姿态估计模型可以包括特征提取模型、编码器、第一解码器、第二解码器以及识别模型，其中，所述特征提取模型和所述编码器联合用于提取多条特征向量，第一解码器用于确定目标人体查询，第二解码器用于确定目标人体-关键点查询，识别模型用于确定目标人体以及目标人体对应的人体姿态。其中，特征提取模型、编码器、第一解码器、第二解码器以及识别模型可以直接集成为一个独立的模型，也可以分别单独使用，通过联合使用特征提取模型、编码器、第一解码器、第二解码器以及识别模型来确定人体姿态。本实施例提供的多人姿态估计方法是对人体姿态确定过程进行说明，其可以用于特征提取模型、编码器、第一解码器、第二解码器以及识别模型可以直接集成为一个独立的模型确定人体姿态，也可以通过联合使用特征提取模型、编码器、第一解码器、第二解码器以及识别模型来确定人体姿态。

基于上述多人姿态估计方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的多人姿态估计方法中的步骤。

基于上述多人姿态估计方法，本申请还提供了一种终端设备，如图6所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多人姿态估计方法，其特征在于，所述的方法包括：

2.根据权利要求1所述多人姿态估计方法，其特征在于，所述获取包含人的目标图像的多条特征向量具体包括：

3.根据权利要求1所述多人姿态估计方法，其特征在于，所述基于所述多条特征向量确定目标图像对应的多条初始人体查询具体包括：

4.根据权利要求1所述多人姿态估计方法，其特征在于，所述注意力机制包括自注意力机制和交叉注意力机制；所述将多条初始人体查询及多条特征向量输入第一解码器，利用第一解码器的注意力机制学习到各初始人体查询对应的目标人体查询具体包括：

将多条初始人体查询及多条特征向量输入第一解码器；

5.根据权利要求4所述多人姿态估计方法，其特征在于，所述基于目标人体特征查询确定四维偏移量，并基于确定的四维偏移量及初始人体位置查询确定目标人体位置查询，以得到多条目标人体查询之后，所述方法还包括：

6.根据权利要求1所述多人姿态估计方法，其特征在于，所述基于每条目标人体查询确定若干初始人体-关键点查询，以得到多条初始人体-关键点查询具体包括：

7.根据权利要求6所述多人姿态估计方法，其特征在于，所述初始关键点位置查询用于反映关键点对应的检测框信息，其中，初始关键点位置查询的维度为4。

8.根据权利要求1所述多人姿态估计方法，其特征在于，所述注意力机制包括自注意力机制和交叉注意力机制；所述将多条初始人体-关键点查询及多条特征向量输入第二解码器，利用第二解码器的注意力机制学习到各初始人体-关键点查询对应的目标人体-关键点查询具体包括：

9.一种姿态估计系统，其特征在于，所述的系统包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-8任意一项所述的多人姿态估计方法中的步骤。

11.一种终端设备，其特征在于，包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的多人姿态估计方法中的步骤。