CN109145867B

CN109145867B - 人体姿态估计方法、装置、系统、电子设备、存储介质

Info

Publication number: CN109145867B
Application number: CN201811049731.XA
Authority: CN
Inventors: 刘瀛成; 林孟潇; 张祥雨
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2021-08-10
Anticipated expiration: 2038-09-07
Also published as: CN109145867A

Abstract

本发明提供了一种人体姿态估计方法、装置、系统、电子设备、存储介质，所述方法包括：当每个注意力模块获取到输入特征后，可以先预测输入特征所包括的所有人体实例的关键点的热度图，然后将输入特征与热度图进行融合得到融合特征；最后将融合特征进行过滤。若人模块的第一个注意力模块获取到的输入特征内包括多个人体实例的姿态特征，人模块的最后一个注意力模块只会输出对应于一个人体实例(假设为A)的增强特征，然后将最后一个注意力模块输出的增强特征用于对A进行姿态估计。由于增强特征中过滤掉了除去A外的其他人体实例的姿态特征，因此，可以提高对A的人体姿态估计精度，缓解因A被周围人体遮挡、重合造成的错误姿态估计。

Description

人体姿态估计方法、装置、系统、电子设备、存储介质

技术领域

本发明涉及图像处理领域，具体而言，涉及一种人体姿态估计方法、装置、系统、电子设备、存储介质。

背景技术

目前，基于深度学习的多人人体姿态估计(multi-person pose estimation)方法主要分为自顶向下(top-down)和自底向上(bottom-up)两种。

自顶向下的多人人体姿态估计方法，首先利用物体检测(object detection)方法，给出图像中每一个人体实例的检测框(bounding box)，理论上，每个检测框包含一个人体示例的一组关键点(key point)，然后根据得到的检测框，从原图中分割出一部分图片，再对每一个图片给出一个完整的单人姿态估计。

然而，在实际应用中，根据检测框分割出来的图片难以避免具有以下两种情况：由于检测框的不精确或者人体实例在原图中的重合，分割出来的图片中不止包含一个人体实例，还包含当前实例在图片上紧邻的其他人的部分人体，使得一个检测框中出现属于多个人的关键点；由于实际场景的复杂性，图片中人体关键点可能会被其它人体遮挡而不可见。

包含上述情况的分割图片可能会导致在对单人人体姿态进行估计时产生错误的结果，即希望输出对应于一个人的关键点的概率热度图(heat map)，但是实际输出的却是包含了两个人甚至更多人的关键点的概率热度图，进而导致后续产生错误的人体姿态估计。

发明内容

有鉴于此，本发明实施例的目的在于提供一种人体姿态估计方法、装置、系统、电子设备、存储介质，以缓解上述问题。

第一方面，本发明实施例提供了一种人体姿态估计方法，所述方法包括：人模块所包括的每个注意力模块获取输入特征，其中，第一个所述注意力模块获取一个子图片的姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征，所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点；预测所述输入特征所包括的所有人体实例的关键点的热度图；将所述输入特征与所述热度图进行融合，得到融合特征；将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块输出的所述增强特征用于对所述一个人体实例进行姿态估计。

结合第一方面的一种实施方式，预测所述输入特征所包括的所有人体实例的关键点的热度图，包括：每个所述注意力模块通过全卷积神经网络或沙漏网络，输出所述输入特征所包括的所有人体实例的关键点的热度图。

结合第一方面的一种实施方式，多个所述人模块依次有向连接，第二个所述人模块至最后一个所述人模块的第一个所述注意力模块还获取在自身之前的所有所述人模块的最后一个所述注意力模块输出的所述增强特征，针对每个所述人模块的第一个所述注意力模块，将所述输入特征与所述热度图进行融合，得到融合特征，包括：将所述输入特征与所述热度图进行融合，得到初步融合特征；判断是否获取到在自身之前的所有所述人模块的最后一个所述注意力模块输出的所述增强特征；在为是时，将接收到的所述增强特征与所述初步融合特征进行融合，得到所述融合特征，其中，所述融合特征中不包括在自身之前的所有所述人模块的最后一个所述注意力模块所输出的增强特征；在为否时，将所述初步融合特征作为所述融合特征。

结合第一方面的一种实施方式，将接收到所述增强特征与所述初步融合特征进行融合，包括：将接收到所述增强特征取反后得到处理后的增强特征；将所述处理后的增强特征与所述初步融合特征相乘，得到所述融合特征。

结合第一方面的一种实施方式，在所述人模块的个数为N，所述人体实例的个数为M，N＞M时，针对第N-M个所述人模块到第N个所述人模块的每一个所述注意力模块，将接收到的所述增强特征与所述初步融合特征进行融合，得到所述融合特征，包括：将接收到的所述增强特征与所述初步融合特征进行融合，得到内容为空的所述融合特征。

第二方面，本发明实施例提供了一种人体姿态估计方法，所述方法包括：基于预先保存的检测算法检测获取到的待处理图片，得到多个子图片，其中，每个所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点；基于预先保存的神经网络人体姿态估计算法，对一个所述子图片进行特征提取，得到与所述子图片对应的姿态特征；将所述姿态特征作为输入特征输入到人模块，所述人模块所包括的每个注意力模块获取输入特征，其中，第一个所述注意力模块获取所述姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征；预测所述输入特征所包括的所有人体实例的关键点的热度图；将所述输入特征与所述热度图进行融合，得到融合特征；将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块输出的所述增强特征用于对所述一个人体实例进行姿态估计。

第三方面，本发明实施例提供了一种人体姿态估计装置，所述装置包括：获取模块、预测模块、融合模块以及输出模块，针对人模块所包括的每个注意力模块，所述获取模块，用于获取输入特征，其中，第一个所述注意力模块通过所述获取模块获取一个子图片的姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块通过所述获取模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征，所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点；所述预测模块，用于预测所述输入特征所包括的所有人体实例的关键点的热度图；所述融合模块，用于将所述输入特征与所述热度图进行融合，得到融合特征；所述输出模块，用于将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块输出的所述增强特征用于对所述一个人体实例进行姿态估计。

第四方面，本发明实施例提供了一种人体姿态估计系统，所述系统包括：检测模块、提取模块、输入模块和人模块，所述人模块包括多个依次连接的注意力模块，每个所述注意力模块包括：融合模块以及输出模块；所述检测模块，用于基于预先保存的检测算法检测获取到的待处理图片，得到多个子图片，其中，每个所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点；所述提取模块，用于基于预先保存的神经网络人体姿态估计算法，对一个所述子图片进行特征提取，得到与所述子图片对应的姿态特征；所述输入模块，用于将所述姿态特征作为输入特征输入到所述人模块，针对所述人模块所包括的每个注意力模块，所述获取模块，用于获取输入特征，其中，第一个所述注意力模块获取所述姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征；所述预测模块，用于预测所述输入特征所包括的所有人体实例的关键点的热度图；所述融合模块，用于将所述输入特征与所述热度图进行融合，得到融合特征；所述输出模块，用于将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块输出的所述增强特征用于对所述一个人体实例进行姿态估计。

第五方面，本发明实施例提供了一种电子设备，包括相互耦合的存储器、处理器、输入输出装置，所述存储器内存储计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行第一方面中任一项所述的方法或者第二方面所述的方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行第一方面中任意一项所述的方法或者第二方面所述的方法。

与现有技术相比，本发明各实施例提出的人体姿态估计方法、装置、系统、电子设备、存储介质的有益效果是：当每个注意力模块获取到输入特征后，可以先预测输入特征所包括的所有人体实例的关键点的热度图，然后将输入特征与热度图进行融合得到融合特征；最后将融合特征进行过滤。若人模块的第一个注意力模块获取到的输入特征内包括多个人体实例的姿态特征，人模块的最后一个注意力模块只会输出对应于一个人体实例(假设为A)的增强特征，然后将最后一个注意力模块输出的增强特征用于对A进行姿态估计。由于增强特征中过滤掉了除去A外的其他人体实例的姿态特征，因此，可以提高对A的人体姿态估计精度，缓解因A被周围人体遮挡、重合造成的错误姿态估计。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种网络构架的结构框图；

图2为本发明实施例提供的一种电子设备的结构框图；

图3为本发明第一实施例提供的人体姿态估计方法的流程图之一；

图4为本发明实施例提供的另一种网络构架的结构框图；

图5为本发明第一实施例提供的人体姿态估计方法的流程图之二；

图6为本发明第二实施例提供的人体姿态估计方法的流程图；

图7为本发明第三实施例提供的人体姿态估计装置的结构框图；

图8为本发明第四实施例提供的人体姿态估计系统的结构框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在自顶向下的多人人体姿态估计方法中，首先利用物体/行人检测方法(例如区域卷积神经网络算法(R-CNN)、单轮检测算法(Single Shot Detector)等)，给出图像中每一个人体实例的检测框(bounding box)，然后将检测框中的人体抠取并缩放到一个固定大小(例如128×64像素)的子图片内输入到传统的神经网络中。理论上，每个检测框只包含一个人体实例的一组关键点(key point)，最后得到的也是对每一个子图片给出一个完整的单人姿态估计。

然而，在实际应用中，根据检测框分割出来的子图片可能不止包含一个人体实例，还包含当前实例在图片上紧邻的其他人的部分人体，使得一个检测框中出现属于多个人的关键点，或者由于实际场景的复杂性，子图片中人体关键点可能会被其它人体遮挡而不可见。

包含上述情况的子图片可能会导致在后续对单人人体姿态进行估计时产生错误的结果，即希望输出对应于一个人的关键点的概率热度图(heat map)，但是实际输出的却是包含了两个人甚至更多人的关键点的概率热度图，进而导致后续产生错误的人体姿态估计。

为了改善上述问题，本发明实施例提供了一种人体姿态估计方法、装置、系统、电子设备、存储介质，该技术可采用相应的软件、硬件以及软硬结合的方式实现。以下对本发明实施例进行详细介绍。

首先，参照图1来描述用于实现本发明实施例的人体姿态估计方法、装置的网络构架100。

网络构架100连接在现有的神经网络后端，至少可以包括一个人模块110，每个人模块110可以包括多个依次有向连接的注意力模块111。

待处理图片在经过现有的人体/物体检测方法的处理后，可以得到多个子图片，子图片的大小可以为128×64像素。每个子图片中只包含一个检测框，在该检测框中，包含了多个关键点，关键点用来描述人体实例的姿态估计。其中，所述多个关键点可能是只属于一个人体实例，也可能是属于多个人体实例，例如，其中几个关键点属于人体实例P1，其中几个关键点属于人体实例P2，其中几个关键点属于人体实例P3。

针对每个子图片，在将该子图片输入到现有的基于神经网络后，可以提取出与该子图片中的关键点对应的用于进行人体姿态估计的姿态特征feature，feature中包含经过整合后的图像信息。

于本发明实施例中，将每个子图片基于现有的神经网络的人体姿态估计算法所产生的feature定义为feature0，作为网络构架100的输入。

请参看图2，图2为本发明实施例提供的一种电子设备200的结构示意图，网络构架100可以运行在电子设备200上。图中，电子设备200可以包括存储器210、处理器220、输入输出装置230以及人体姿态估计装置。

存储器210、处理器220、输入输出装置230以及人体姿态估计装置这些组件可以通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意，图2所示的电子设备200的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备200也可以具有其他组件和结构。

所述人体姿态估计装置包括至少一个可以软件或固件(firmware)的形式存储于所述存储器210中或固化在电子设备200的操作系统(operating system，OS)中的软件功能模块。所述处理器220用于执行存储器210中存储的可执行模块，例如所述人体姿态估计装置包括的软件功能模块或计算机程序。

所述存储器210可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器220可以运行所述程序指令，以实现下文所述的本发明实施例中期望实现的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

处理器220可能是一种集成电路芯片，具有信号的处理能力。上述的处理器220可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。处理器220可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。

输入输出装置230用于提供给用户输入数据，实现用户与电子设备200的交互。所述输入输出装置230可以是，但不限于，鼠标和键盘等。

下面将针对为了达到提高人体姿态估计精确度的目的而进行的人体姿态估计方法进行介绍：

第一实施例

请参照图3，图3是本发明第一实施例提供的一种人体姿态估计方法的流程图。下面将从人模块110的每个注意力模块111的角度来对图3所示的流程进行详细阐述，所述方法包括：

步骤S110：获取输入特征。

由于每个人模块110可以包括多个注意力模块111，因此，针对某个人模块110的第一个注意力模块111，可以获取一个子图片的姿态特征feature0作为所述输入特征，而针对该人模块110的第二个所述注意力模块111至最后一个所述注意力模块111，可以获取与自身连接的前一个注意力模块111所输出的增强特征作为所述输入特征。

例如人模块110包括3个依次连接的注意力模块111，分别为A1、A2、A3，假设A1最后输出feature1，A2最后输出feature2，A3最后输出feature3，那么A1的输入特征为feature0，A2的输入特征为feature1，A3的输入特征为feature2。

步骤S120：预测所述输入特征所包括的所有人体实例的关键点的热度图。

在获取到输入特征后，每个所述注意力模块111可以通过全卷积神经网络(FullyConvolution Network)或沙漏网络(Hourglass Network)对输入特征进行处理，使得每个注意力模块111可以得到与自身的输入特征相对应的热度图，其中，所述热度图为输入特征所包括的所有人体实例的关键点的热度图。在热度图中，包含有每个关键点的大概位置。

步骤S130：将所述输入特征与所述热度图进行融合，得到融合特征。

可选的，注意力模块111可以分别从输入特征以及热度图中提取出对应输入特征的特征向量以及对应热度图的特征向量，并分别将两个特征向量进行聚类，再对聚类后的两个特征向量进行归一化处理，得到归一化后的两个特征，然后，注意力模块111再将归一化后的两个特征映射到同一特征空间内，并在所述特征空间中对归一化后的两个特征进行线性融合，从而得到融合特征。

可选的，注意力模块111还可以将输入特征以及热度图进行直接拼接(即特征之间取并)的方式，得到对应的融合特征。

步骤S140：将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征。

针对每个注意力模块111，在得到融合特征后，可以将与自身对应的融合特征进行过滤。

可选的，注意力模块111可以通过瓶颈网络(Bottleneck Network)和/或者沙漏网络(Hourglass Network)组成的沙漏模块来对融合特征进行过滤。

针对人模块110的第一个注意力模块111，其包括的沙漏模块在对融合特征进行过滤时，可以从融合特征中随机选择一个人体实例，然后输出与该人体实例对应的融合特征作为增强特征，过滤掉不属于该人体实例的融合特征。

可选的，若最初输入第一个注意力模块111的feature0中的关键点本身就对应于一个人体实例，那么第一个注意力模块111便只会输出该人体实例的融合特征作为增强特征。

可选的，若最初输入第一个注意力模块111的feature0中的关键点至少属于至少两个人体实例，那么，第一个注意力模块111便会从至少两个人体实例中随机选择一个人体实例P1，并输出与P1对应的融合特征作为增强特征(对应上文中的feature1)，将不属于P1的融合特征进行删除。当然，在第一个注意力模块111输出的feature1中，可能还存在少量的不属于P1的融合特征。在第一个注意力模块111输出feature1后，第二个注意力模块111获取feature1作为输入特征，并再次进行与步骤S120-S130相同的处理，在执行到步骤S140时，进一步的将不属于P1的融合特征进行删除，得到feature2。第三个注意力模块111重复上述步骤得到feature3，……，最后一个注意力模块111重复上述步骤得到featureN，经过多次迭代，featureN中只会存在属于P1的增强特征。其中，最后一个注意力模块输出的featureN用于对P1进行姿态估计。由于featureN中只存在属于P1的融合特征，因此，可以提高人体姿态估计的准确率。

作为一种可选的实施方式，请参看图4，网络构架100还可以包括多个人模块110，多个所述人模块110之间依次有向连接。其中，第二个人模块110至最后一个人模块110的第一个注意力模块111与自身之前的所有人模块110的最后一个注意力模块111连接，以获取在自身之前的所有所述人模块110的最后一个注意力模块111输出的增强特征。

不同人模块110所包括的注意力模块111的个数可以相同，也可以不相同。在图4中所示的网络构架100中，网络构架100包括人模块A、人模块B、人模块C，人模块A包括3个依次连接的注意力模块111，分别为A1、A2、A3，人模块B包括3个依次连接的注意力模块111，分别为B1、B2、B3，人模块C包括3个依次连接的注意力模块111，分别为C1、C2、C3。其中，A3与B1连接，B3与C1连接，A3还与C1连接。

当然，图中示出的人模块110的个数以及注意力模块111的个数仅仅是示例性的，并不起到对网络构架100的限制作用。

在这种实施方式下，请参看图5，针对每个所述人模块110的第一个注意力模块111，在执行步骤S130时所述的融合时，可以包括：

步骤S131：将所述输入特征与所述热度图进行融合，得到初步融合特征。

值得指出的是，每个人模块110的第一个注意力模块111所获取到的输入特征相同，均为feature0。

步骤S132：判断是否获取到在自身之前的所有所述人模块的最后一个所述注意力模块输出的所述增强特征。

步骤S133：在为否时，将所述初步融合特征作为所述融合特征。

针对第一个人模块110的第一个注意力模块111，由于在A前不存在其他人模块110，因此，A不会接收到自身之前的任一一个人模块110输出的增强特征，执行步骤S133，将所述初步融合特征直接作为所述融合特征。

步骤S134：在为是时，将接收到的所述增强特征与所述初步融合特征进行融合，得到所述融合特征，其中，所述融合特征中不包括在自身之前的所有所述人模块的最后一个所述注意力模块所输出的增强特征。

针对第二个人模块110的第一个注意力模块111(即针对B的B1)，由于在B前存在人模块A，因此，B1会接收到A的最后一个注意力模块A3输出的增强特征。针对第三个人模块110的第一个注意力模块111(即针对C的C1)，由于在C前存在A以及B，因此，C1会接收到A的最后一个注意力模块A3输出的增强特征，也会接收到B的最后一个注意力模块B3输出的增强特征。因此，针对第二个人模块110的第一个注意力模块111以及第三个人模块110的第一个注意力模块111，执行步骤S134，将接收到的所述增强特征与所述初步融合特征进行融合，得到所述融合特征。

其中，所述融合特征中不包括在自身之前的所有人模块110的最后一个所述注意力模块111所输出的增强特征。为了达到这个效果，B1以及C1可以将接收到所有增强特征作为监督信息，并将其取反后得到处理后的增强特征，然后再将所述处理后的增强特征与所述初步融合特征相乘，得到所述融合特征。

例如，最初输入到A1中的feature0包含了属于三个人体实例(分别为P1、P2、P3)的特征信息，A3最后只输出了属于P1的增强特征feature3(此处为了进行与后续人模块110的第三个注意力模块111所输出的增强特征进行区分，把A3输出的增强特征feature3命名为data1)。

针对B1在进行融合时，会将data1取反后，得到不包含P1的处理后的增强特征data1^’，而B1得到的初步融合特征又同时包含P1、P2、P3三部分信息，那么在后续将初步融合特征与处理后的增强特征相乘时，最后取交集得到的是包含P2、P3两部分的信息的融合信息。B1在经过步骤S140的过滤后，最后在P2或者P3中任一选择一个输出增强特征feature1。假设B1最后选择输出P2的增强特征feature1，那么B3最后只输出了属于P2的增强特征feature3(此处为了进行与后续人模块110的第三个注意力模块111所输出的增强特征进行区分，把B3输出的增强特征feature3命名为data2)。

针对C1在进行融合时，会将data1以及data2进行取反后，得到不包含P1的处理后的增强特征data1^’以及不包含P2的处理后的增强特征data2^’，而C1得到的初步融合特征又同时包含P1、P2、P3三部分信息，那么在后续将初步融合特征与处理后的增强特征相乘时，最后取交集得到的是包含P3的融合信息。

相应的，对应于步骤S140，对于每个人模块110A、B、C，都可以分别输出一个属于不同人体实例的增强特征，用于后续的人体姿态估计。

假设人模块的个数为N，假设最初输入的feature0所包括的人体实例的个数为M。通过上述的阐述可以看出：

若N≤M时，整个网络构架100可以输出N个互不相同的增强特征，最后用于得到N个不同的人的人体姿态估计。

若N＞M时，针对第N-M个所述人模块到第N个所述人模块的每一个所述注意力模块，将接收到的所述增强特征与所述初步融合特征进行融合，得到所述融合特征，可以包括：将接收到的所述增强特征与所述初步融合特征进行融合，得到内容为空的所述融合特征。

例如有五个人模块110(即在图4后面再连接人模块D以及人模块E)，但是最初输出的feature0中只包含了三个人体实例，那么针对第四个人模块110以及第五个人模块110的每一个注意力模块111，他们所得到的融合特征为空，最后所输出的增强特征也为空，表现为黑。

下面以第四个人模块110为例进行介绍。针对第四个人模块110的第一个注意力模块111(假设为D1)，获取到的输入特征为feature0，包含了三个人体实例，分别为P1、P2、P3，其中，A最后输出P1的增强特征，B最后输出P2的增强特征，C最后输出P3的增强特征。在D1把初步融合特征与接收到的增强特征进行融合时，接收到的所述增强特征分别是来自A3的data1^’(不包括与P1相关的特征)、data2^’(不包括与P2相关的特征)、data3’(不包括与P3相关的特征)，因此，D1得到的融合特征与data1’、data2’以及data3’取交集的结果为空，相应的，D1最后所输出的增强特征feature1也为空，从而导致D3最后输出也为空，表现为黑。第五个人模块110与第四个人模块110的原理相似，此处不在赘述。

当人模块110的数量大于两个时，通过上述举例可以看出，可以实现对姿态估计进行两个维度上的优化。其中，第一个维度是针对同一个人体实例，利用一个人模块110所包括的多个注意力模块111形成递归神经网络形成迭代机制优化姿态估计，将关键点回归到属于同一个人的部位上。第二个维度是利用子图片中的其他人体实例所产生的监督信息，在其中一个人模块110估计了第一个人的姿态基础上，通过第二个人模块110估计第二个人的姿态，以此类推，产生对人体的实体意识(instance aware)，加强神经网络学习更加完整鲁棒的信息。

本发明第一实施例提供的一种人体姿态估计方法，应用于人模块所包括的每个注意力模块，当每个注意力模块获取到输入特征后，可以先预测输入特征所包括的所有人体实例的关键点的热度图，然后将输入特征与所述热度图进行融合，得到融合特征；最后将融合特征进行过滤，若人模块的第一个注意力模块获取到的输入特征内包括多个人体实例的姿态特征，人模块的最后一个注意力模块只会输出对应于一个人体实例(假设为A)的增强特征，然后人模块将最后一个注意力模块输出的增强特征用于对A进行姿态估计，由于增强特征中过滤掉了除去A外的其他人体实例的姿态特征，因此，可以提高对A的人体姿态估计精度，缓解因A被周围人体遮挡、重合造成的错误姿态估计。

第二实施例

请参照图6，图6是本发明第二实施例提供的一种人体姿态估计方法的流程图。所述方法包括：

步骤S210：基于预先保存的检测算法检测获取到的待处理图片，得到多个子图片。

其中，每个所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点。

步骤S220：基于预先保存的神经网络人体姿态估计算法，对一个所述子图片进行特征提取，得到与所述子图片对应的姿态特征。

步骤S230：将所述姿态特征作为输入特征输入到人模块，所述人模块所包括的每个注意力模块获取输入特征。

其中，第一个所述注意力模块获取所述姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征。

步骤S240：预测所述输入特征所包括的所有人体实例的关键点的热度图。

步骤S250：将所述输入特征与所述热度图进行融合，得到融合特征。

步骤S260：将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块输出的所述增强特征用于对所述一个人体实例进行姿态估计。

第三实施例

对应于图3提供的人体姿态估计方法，请参看图7，本发明实施例还提供了一种人体姿态估计装置400，应用于人模块所包括的每个注意力模块，该装置可以包括：获取模块410、预测模块420、融合模块430以及输出模块440。

所述获取模块410，用于获取输入特征。

其中，第一个所述注意力模块通过所述获取模块获取一个子图片的姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块通过所述获取模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征，所述一个子图片为基于物体检测方法对待处理图片进行分割得到的多个子图片的一个子图片，所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点。

所述预测模块420，用于预测所述输入特征所包括的所有人体实例的关键点的热度图。

所述融合模块430，用于将所述输入特征与所述热度图进行融合，得到融合特征。

所述输出模块440，用于将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块输出的所述增强特征用于对所述一个人体实例进行姿态估计。

可选的，所述预测模块420，可以用于通过全卷积神经网络或沙漏网络，输出所述输入特征所包括的所有人体实例的关键点的热度图。

可选的，多个所述人模块依次有向连接，第二个所述人模块至最后一个所述人模块的第一个所述注意力模块还获取在自身之前的所有所述人模块的最后一个所述注意力模块输出的所述增强特征，针对每个所述人模块的第一个所述注意力模块，所述融合模块430，可以包括：

融合子模块，用于将所述输入特征与所述热度图进行融合，得到初步融合特征；判断子模块，用于判断是否获取到在自身之前的所有所述人模块的最后一个所述注意力模块输出的所述增强特征；执行子模块，用于在所述判断子模块判断为是时，将接收到的所述增强特征与所述初步融合特征进行融合，得到所述融合特征，其中，所述融合特征中不包括在自身之前的所有所述人模块的最后一个所述注意力模块所输出的增强特征；所述执行子模块，还用于在所述判断子模块判断为否时，将所述初步融合特征作为所述融合特征。

可选的，执行子模块，可以用于将接收到所述增强特征取反后得到处理后的增强特征；将所述处理后的增强特征与所述初步融合特征相乘，得到所述融合特征。

可选的，在所述人模块的个数为N，所述人体实例的个数为M，N＞M时，针对第N-M个所述人模块到第N个所述人模块的每一个所述注意力模块，所述融合模块430，用于：将接收到的所述增强特征与所述初步融合特征进行融合，得到内容为空的所述融合特征。

本实施例对人体姿态估计装置400的各功能模块实现各自功能的过程，请参见上述图1至图5所示实施例中描述的内容，此处不再赘述。

第四实施例

对应于图6提供的人体姿态估计方法，请参看图8，本发明实施例还提供了一种人体姿态估计系统500，包括：检测模块510、提取模块520、输入模块530和人模块，所述人模块包括多个依次连接的注意力模块，每个所述注意力模块包括：获取模块540、预测模块540、融合模块550以及输出模块560。

所述检测模块510，用于基于预先保存的检测算法检测获取到的待处理图片，得到多个子图片，其中，每个所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点；

所述提取模块520，用于基于预先保存的神经网络人体姿态估计算法，对一个所述子图片进行特征提取，得到与所述子图片对应的姿态特征；

所述输入模块530，用于将所述姿态特征作为输入特征输入到所述人模块。

针对所述人模块所包括的每个注意力模块，

所述获取模块540，用于获取输入特征，其中，第一个所述注意力模块获取所述姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征；

所述预测模块550，用于预测所述输入特征所包括的所有人体实例的关键点的热度图；

所述融合模块560，用于将所述输入特征与所述热度图进行融合，得到融合特征；

所述输出模块570，用于将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块输出的所述增强特征用于对所述一个人体实例进行姿态估计。

本实施例对人体姿态估计系统500的各功能模块实现各自功能的过程，请参见上述图1至图5所示实施例中描述的内容，此处不再赘述。

此外，本发明实施例还提供了一种电子设备，其结构可以如图1所示，包括相互耦合的存储器、处理器、输入输出装置，所述存储器内存储计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行本发明任一项实施方式所提供的人体姿态估计方法。

此外，本发明实施例还提供了一种计算机可读存储介质，在该计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行本发明任一项实施方式所提供的人体姿态估计方法。

此外，本发明实施例还提供了一种计算机程序，该计算机程序可以存储在云端或者本地的存储介质上，当所述计算机程序在计算机上运行时，使得所述计算机执行本发明任一项实施方式所提供的人体姿态估计方法。

综上所述，本发明实施例提出的人体姿态估计方法、装置、系统、电子设备、存储介质，应用于人模块所包括的每个注意力模块，当每个注意力模块获取到输入特征后，可以先预测输入特征所包括的所有人体实例的关键点的热度图，然后将输入特征与所述热度图进行融合，得到融合特征；最后将融合特征进行过滤，若人模块的第一个注意力模块获取到的输入特征内包括多个人体实例的姿态特征，人模块的最后一个注意力模块只会输出对应于一个人体实例(假设为A)的增强特征，然后人模块将最后一个注意力模块输出的增强特征用于对A进行姿态估计，由于增强特征中过滤掉了除去A外的其他人体实例的姿态特征，因此，可以提高对A的人体姿态估计精度，缓解因A被周围人体遮挡、重合造成的错误姿态估计。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人体姿态估计方法，其特征在于，所述方法包括：

人模块所包括的每个注意力模块获取输入特征，其中，第一个所述注意力模块获取一个子图片的姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征，所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点；

预测所述输入特征所包括的所有人体实例的关键点的热度图；

将所述输入特征与所述热度图进行融合，得到融合特征；

将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块输出的所述增强特征用于对所述一个人体实例进行姿态估计；

其中，多个人模块依次有向连接，第二个所述人模块至最后一个所述人模块的第一个所述注意力模块还获取在自身之前的所有所述人模块的最后一个所述注意力模块输出的所述增强特征。

2.根据权利要求1所述的方法，其特征在于，预测所述输入特征所包括的所有人体实例的关键点的热度图，包括：

每个所述注意力模块通过全卷积神经网络或沙漏网络，输出所述输入特征所包括的所有人体实例的关键点的热度图。

3.根据权利要求1所述的方法，其特征在于，针对每个所述人模块的第一个所述注意力模块，将所述输入特征与所述热度图进行融合，得到融合特征，包括：

将所述输入特征与所述热度图进行融合，得到初步融合特征；

判断是否获取到在自身之前的所有所述人模块的最后一个所述注意力模块输出的所述增强特征；

在为是时，将接收到的所述增强特征与所述初步融合特征进行融合，得到所述融合特征，其中，所述融合特征中不包括在自身之前的所有所述人模块的最后一个所述注意力模块所输出的增强特征；

在为否时，将所述初步融合特征作为所述融合特征。

4.根据权利要求3所述的方法，其特征在于，将接收到所述增强特征与所述初步融合特征进行融合，包括：

将接收到所述增强特征取反后得到处理后的增强特征；

将所述处理后的增强特征与所述初步融合特征相乘，得到所述融合特征。

5.根据权利要求3或4所述的方法，其特征在于，在所述人模块的个数为N，所述人体实例的个数为M，N＞M时，针对第N-M个所述人模块到第N个所述人模块的每一个所述注意力模块，将接收到的所述增强特征与所述初步融合特征进行融合，得到所述融合特征，包括：

将接收到的所述增强特征与所述初步融合特征进行融合，得到内容为空的所述融合特征。

6.一种人体姿态估计方法，其特征在于，所述方法包括：

基于预先保存的检测算法检测获取到的待处理图片，得到多个子图片，其中，每个所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点；

基于预先保存的神经网络人体姿态估计算法，对一个所述子图片进行特征提取，得到与所述子图片对应的姿态特征；

将所述姿态特征作为输入特征输入到多个依次有向连接的人模块，所述人模块所包括的每个注意力模块获取输入特征，其中，第一个所述注意力模块获取所述姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征；第二个所述人模块至最后一个所述人模块的第一个所述注意力模块还获取在自身之前的所有所述人模块的最后一个所述注意力模块输出的所述增强特征；

将所述输入特征与所述热度图进行融合，得到融合特征；

将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块输出的所述增强特征用于对所述一个人体实例进行姿态估计。

7.一种人体姿态估计装置，其特征在于，所述装置应用于人模块所包括的每个注意力模块，所述装置包括：获取模块、预测模块、融合模块以及输出模块，

所述获取模块，用于获取输入特征，其中，第一个所述注意力模块通过所述获取模块获取一个子图片的姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块通过所述获取模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征，所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点；

所述预测模块，用于预测所述输入特征所包括的所有人体实例的关键点的热度图；

所述融合模块，用于将所述输入特征与所述热度图进行融合，得到融合特征；

所述输出模块，用于将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块的所述输出模块输出的所述增强特征用于对所述一个人体实例进行姿态估计；

多个人模块依次有向连接，第二个所述人模块至最后一个所述人模块的第一个所述注意力模块还获取在自身之前的所有所述人模块的最后一个所述注意力模块输出的所述增强特征。

8.一种人体姿态估计系统，其特征在于，所述系统包括：检测模块、提取模块、输入模块和人模块，所述人模块包括多个依次连接的注意力模块，每个所述注意力模块包括：获取模块、预测模块、融合模块以及输出模块；

所述检测模块，用于基于预先保存的检测算法检测获取到的待处理图片，得到多个子图片，其中，每个所述子图片内包括与至少两个人体实例的姿态特征相对应的多个关键点；

所述提取模块，用于基于预先保存的神经网络人体姿态估计算法，对一个所述子图片进行特征提取，得到与所述子图片对应的姿态特征；

所述输入模块，用于将所述姿态特征作为输入特征输入到多个依次有向连接的所述人模块；

针对所述人模块所包括的每个注意力模块，

所述获取模块，用于获取输入特征，其中，第一个所述注意力模块获取所述姿态特征作为所述输入特征，第二个所述注意力模块至最后一个所述注意力模块获取自身的前一个所述注意力模块输出的增强特征作为所述输入特征；第二个所述人模块至最后一个所述人模块的第一个所述注意力模块还获取在自身之前的所有所述人模块的最后一个所述注意力模块输出的所述增强特征；

所述输出模块，用于将所述融合特征进行过滤，输出对应于一个人体实例的所述增强特征，其中，最后一个所述注意力模块输出的所述增强特征用于对所述一个人体实例进行姿态估计。

9.一种电子设备，其特征在于，包括相互耦合的存储器、处理器、输入输出装置，所述存储器内存储计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-6中任意一项所述的方法。