CN111797791A

CN111797791A - 人体姿态识别方法及装置

Info

Publication number: CN111797791A
Application number: CN202010663716.5A
Authority: CN
Inventors: 谌贵雄; 张波; 陈成才
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2020-10-20
Also published as: CN109657631A; CN109657631B

Abstract

本发明提供一种人体姿态识别方法及装置，所述方法包括：提供待处理图像；对所述待处理图像进行目标检测处理，以得到一个或多个第一头部检测框；对所述第一头部检测框进行关键点计算处理，以得到多个第一头部关键点信息；对所述待处理图像进行自下而上识别处理，以得到一个或多个第二人体姿态信息；从所述第二人体姿态信息中提取第二头部关键点信息和第一躯干关键点信息；对所述第一头部关键点信息和所述第二头部关键点信息进行融合，得到融合后的第三头部关键点信息；将所述第三头部关键点信息和所述第一躯干关键点信息作为人体姿态识别结果。本发明可以提高人体姿态识别的准确率。

Description

人体姿态识别方法及装置

本申请是申请日为2018年12月25日，申请号为201811594417.X，发明创造名称为“人体姿态识别方法及装置”的分案申请。

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人体姿态识别方法、人体姿态识别装置、电子设备和计算机可读存储介质。

背景技术

近年来，基于人工智能的计算机视觉技术得到快速发展，人体姿态识别作为其中的一个重要方向，在机器人交互、游戏、动画、行为识别、安防监控等多个领域都有较大的应用前景。

现有技术中人体姿态识别技术主要包括两个大类：

一类是自上而下的识别方法，即：先定位人体大概位置，再对姿态进行具体识别。最常用的是先采用目标检测的方法得到图像中每个人的位置框，然后在检测框的基础上针对单个人做人体骨骼关键点检测，最终得到整个人体姿态，主要有CPM、RMPE、mask-RCNN、G-RMI等方法。

另一类是自下而上的识别方法，即：这种方法是先找到所有肢体，然后将肢体进行组合，主要步骤是将图像中所有关键点都检测出来，然后通过相关策略将所有的关键点聚类成不同的个体。典型的代表是：采用人体姿态热力图Heatmaps或回归关键点坐标计算人体姿态的每个关键点信息；采用部分亲和场(Part Affinity Fields，PAF)将计算的关键点之间进行连接；当识别出多个人时，采用图论的二分图求解方法得到每个人的人体姿态信息。

但是以上两类方法都存在识别准确率低的问题：第一类自上而下的方法中先检查个体，再识别姿态的方法，其步骤是相互分离没有内在联系的，这使得姿态识别严重依赖前一步检测定位的结果；第二类自下而上的方法中先检测所有人体关键点，然后通过聚类算法对这些关键点进行连接，从而形成完整的个体，该方法中这些被检测出的关键点，对于人体靠的比较近时效果非常不理想，很多情况下会将一个人的关键点连接到另一个人体上，且该方法无法从全局特征去发现身体部件。

因此，如何提高人体姿态识别的准确率成为本领域技术人员亟待解决的技术问题之一。

发明内容

本发明解决的问题是如何提高人体姿态识别的准确率。

为解决上述问题，本发明实施例提供一种人体姿态识别方法，包括：

提供待处理图像；

对所述待处理图像进行目标检测处理，以得到一个或多个第一头部检测框；

对所述第一头部检测框进行关键点计算处理，以得到多个第一头部关键点信息；

对所述待处理图像进行自下而上识别处理，以得到一个或多个第二人体姿态信息；

从所述第二人体姿态信息中提取第二头部关键点信息和第一躯干关键点信息；

对所述第一头部关键点信息和所述第二头部关键点信息进行融合，得到融合后的第三头部关键点信息；

将所述第三头部关键点信息和所述第一躯干关键点信息作为人体姿态识别结果；

对所述第一头部关键点信息和所述第二头部关键点信息进行融合包括采用以下方式：

其中，f_k(x_i)为融合后的第k个第三头部关键点对应的第i个像素的高斯分布值，G为双线性插值函数，R为头部关键点对应像素区域的半径，l_k为第k个第二头部关键点对应的像素的位置坐标值，x_i为第k个第二头部关键点对应的第i个像素的高斯分布值，x_j为第k个第一头部关键点对应的第j个像素的位置坐标值，L_k为第k个第一头部关键点对应的像素的位置坐标值。

可选地，所述方法还包括：

提供训练图像数据集，所述训练图像数据集包括多张训练图像；

分别采用人工方式在每张所述训练图像中标注第四头部关键点信息，并根据所述第四头部关键点信息计算确定第二头部检测框；

对每张所述训练图像进行目标检测处理，以得到一个或多个第三头部检测框；

对所述第三头部检测框进行关键点计算处理，以得到多个第五头部关键点信息；

根据所述第二头部检测框以及对应的所述第三头部检测框进行第一深度学习，以获得目标检测深度学习模型；

根据所述第四头部关键点信息以及对应的所述第五头部关键点信息进行第二深度学习，以获得关键点计算深度学习模型；

采用所述目标检测深度学习模型对所述待处理图像进行目标检测处理，采用所述关键点计算深度学习模型对所述待处理图像进行关键点计算处理。

可选地，所述目标检测处理采用Faster-RCNN或SSD。

可选地，所述关键点计算处理包括：

采用人体姿态热力图或回归关键点坐标计算人体姿态的每个关键点信息；

根据计算的每个关键点信息获知人体的头部姿态；

当所述人体的头部姿态为正面或背面时，分别将头部检测框各边的中点作为四个头部关键点；

当所述人体的头部姿态为左侧面时，将头部检测框右侧纵向边的中点、左下顶点以及上侧横向边的中点作为三个头部关键点；

当所述人体的头部姿态为右侧面时，将头部检测框左侧纵向边的中点、右下顶点以及上侧横向边的中点作为三个头部关键点；

或者，所述关键点计算处理包括：

根据计算的每个关键点信息获知人体的头部姿态；

当所述人体的头部姿态为侧面时，对头部检测框进行横向扩展处理，得到扩展后的头部检测框；

当所述人体的头部姿态为正面或背面时，分别将头部检测框各边的中点作为四个头部关键点；当所述人体的头部姿态为左侧面时，将扩展后的头部检测框右侧纵向边的中点、左下顶点以及上侧横向边的中点作为三个初步头部关键点；当所述人体的头部姿态为右侧面时，将扩展后的头部检测框左侧纵向边的中点、右下顶点以及上侧横向边的中点作为三个初步头部关键点信息；

当所述人体的头部姿态为侧面时，对所述初步头部关键点信息进行与所述横向扩展处理相应的横向敛缩处理，以得到头部关键点信息。

可选地，采用人工方式在每张所述训练图像中标注第四头部关键点信息包括：

当所述训练图像中人体为正面或背面时，将头顶、左耳、右耳和下巴作为四个第四头部关键点；当所述训练图像中人体为左侧面时，将头顶、左耳和下巴作为三个第四头部关键点；当所述训练图像中人体为右侧面时，将头顶、右耳和下巴作为三个第四头部关键点；

根据所述第四头部关键点信息计算确定第二头部检测框包括：

当所述训练图像中人体为正面或背面时，以四个第四头部关键点为第四头部检测框四个边的中点，从而确定所述第二头部检测框；

当所述训练图像中人体为左侧面时，以头顶对应的所述第四头部关键点作为第四头部检测框上侧横向边的中点、左耳对应的所述第四头部关键点作为第四头部检测框右侧纵向边的中点、下巴对应的所述第四头部关键点作为第四头部检测框左下顶点，从而确定所述第二头部检测框；

当所述训练图像中人体为右侧面时，以头顶对应的所述第四头部关键点作为第四头部检测框上侧横向边的中点、右耳对应的所述第四头部关键点作为第四头部检测框左侧纵向边的中点、下巴对应的所述第四头部关键点作为第四头部检测框右下顶点，从而确定所述第二头部检测框。

可选地，所述自下而上识别处理包括：

采用部分亲和场将计算的关键点之间进行连接；

当识别出多个人时，采用图论的二分图求解方法得到每个人的人体姿态信息。

可选地，所述方法还包括：计算所述人体姿态识别结果的识别准确率，具体包括：

设置多个不同的OKS阈值，分别计算每个人体关键点在每个OKS阈值下的精度，并将所有OKS阈值下的精度的第一加权求和值作为第一精度；

设置多个不同的IOU阈值，分别计算第四头部关键点信息以及对应的第五头部关键点在每个IOU阈值下的精度，并将所有IOU阈值下的精度的第二加权求和值作为第二精度；

对所述第一精度和所述第二精度进行加权求和，以得到第三精度。

为解决上述技术问题，本发明还提供了一种人体姿态识别装置，包括：

输入模块，用于提供待处理图像；

目标检测模块，用于对所述待处理图像进行目标检测处理，以得到一个或多个第一头部检测框；

关键点计算模块，用于对所述第一头部检测框进行关键点计算处理，以得到多个第一头部关键点信息；

自下而上识别模块，用于对所述待处理图像进行自下而上识别处理，以得到一个或多个第二人体姿态信息；

关键点提取模块，用于从所述第二人体姿态信息中提取第二头部关键点信息和第一躯干关键点信息；

信息融合模块，用于对所述第一头部关键点信息和所述第二头部关键点信息进行融合，得到融合后的第三头部关键点信息；

输出模块，用于将所述第三头部关键点信息和所述第一躯干关键点信息作为人体姿态识别结果；

所述信息融合模块采用以下方式：

为解决上述技术问题，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的人体姿态识别方法的步骤。

为解决上述技术问题，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的人体姿态识别方法的步骤。

与现有技术相比，本发明的技术方案具有以下优点：

本发明在进行人体姿态识别时，通过目标检测处理和关键点计算处理得到待处理图像的第一头部关键点信息，通过自下而上识别处理得到待处理图像的第二头部关键点信息和第一躯干关键点信息，然后对第一头部关键点信息和第二头部关键点信息进行融合得到第三头部关键点信息，最后将第三头部关键点信息和第一躯干关键点信息作为人体姿态识别结果。本发明将数据标注方式和人体姿态预测算法能有效的结合起来，借鉴自上而下识别方法的思想，以容易提取的面部特征作为主要目标检测定位特征提取，从而提高模型的识别精度，且在训练和评估过程中更加高效和准确。

进一步地，设置多个不同的OKS阈值和IOU阈值，通过两次加权求和分别得到与OKS阈值相关的第一精度和与OKS阈值相关的第二精度，进而通过对第一精度和第二精度进行第三次加权求和得到最终的第三精度，即在模型评估上融合了现有的相似度评估指标和检测定位指标，能使评估更符合实际且更准确。

附图说明

图1是本发明实施例一提供的人体姿态识别方法的流程示意图；

图2是本发明实施例一提供的一种关键点计算处理的流程示意图；

图3是本发明实施例一提供的另一种关键点计算处理的流程示意图；

图4是本发明实施例一中正面时对应的人体关键点的示意图；

图5是本发明实施例一左侧面时对应的头部关键点的示意图；

图6是本发明实施例一融合后得到的人体姿态识别结果。

具体实施方式

现有技术中对人体关键点的标注大多对人脸的五官进行标注，导致大多数情况下会有遮挡和不可见的关键点，这些关键点使得模型在学习和评估时都会产生一定的影响。此外，现有的自上而下的人体姿态识别方法建立的模型中，目标检测和后续关键点检测是分开进行特征提取，这使得后面的关键点检测对前面的目标检测定位精度具有较大依赖性。而自下而上的人体姿态识别方法中，关键点与关键点之间的评估是相对独立的，其不能反映模型在局部点与点之间的预测准确性，从而容易将一个人的关键点连接到另一个人体上。因此，现有技术的两类方法均存在识别准确率低的问题。

本发明在进行二维人体姿态识别时，通过目标检测处理和关键点计算处理得到待处理图像的第一头部关键点信息，通过自下而上的人体姿态识别处理得到待处理图像的第二头部关键点信息和第一躯干关键点信息，然后对第一头部关键点信息和第二头部关键点信息进行融合得到第三头部关键点信息，最后将第三头部关键点信息和第一躯干关键点信息作为人体姿态识别结果。本发明将数据标注方式和人体姿态预测算法能有效的结合起来，借鉴自上而下识别方法的思想，以容易提取的面部特征作为主要目标检测定位特征提取，从而提高模型的识别精度，且在训练和评估过程中更加高效和准确。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

实施例一

参考图1所示，本实施例提供了一种人体姿态识别方法，包括以下步骤：

步骤S1，提供待处理图像；

步骤S2，对所述待处理图像进行目标检测处理，以得到一个或多个第一头部检测框；

步骤S3，对所述第一头部检测框进行关键点计算处理，以得到多个第一头部关键点信息；

步骤S4，对所述待处理图像进行自下而上识别处理，以得到一个或多个第二人体姿态信息；

步骤S5，从所述第二人体姿态信息中提取第二头部关键点信息和第一躯干关键点信息；

步骤S6，对所述第一头部关键点信息和所述第二头部关键点信息进行融合，得到融合后的第三头部关键点信息；

步骤S7，将所述第三头部关键点信息和所述第一躯干关键点信息作为人体姿态识别结果。

本实施例使用了头部四点或三点构成的矩形区域进行目标检测定位特征提取作为模型空间定位，且采用所有人体关键点参与人体姿态热力图的特征学习，从而使得关键点定位和目标检测相互联系起来，目标检测算法主要目的是定位与头部相关联的四点组成的目标区域，而定位的同时也融合了头部相关的关键点的信息回归，最终可以提高人体姿态识别的准确率。

首先执行步骤S1，提供待处理的图像文本。

所述待处理的图像文本可以对应不同的图像格式，也可以对应不同的存储格式，还可以对应不同的压缩方式，其都是在本发明的保护范围内。

比如：本实施例可以应用于机器人交互、游戏、动画、行为识别、安防等场景下获取的图像文本，其不限制本发明的保护范围。

在进行后续步骤之前，还可以对待处理的图像文本进行预处理以及图像增强，如：二值化处理、噪声去除、图像尺寸变化、旋转、镜像和随机裁剪等，其对于本领域技术人员是熟知的，在此不再赘述。

接着执行步骤S2，对所述待处理图像进行目标检测处理，以得到一个或多个第一头部检测框。

本实施例中通过目标检测处理来获取待处理图像中人体的第一头部检测框，所述第一头部检测框为矩形框，对应人体的头部尽可能内切于该矩形框。当图像中仅包括一个人时，则通过目标检测处理得到一个第一头部检测框；当图像中包括多个人时，则通过目标检测处理得到多个第一头部检测框。

通过目标检测处理可以得到图像中物体相关信息，包括该物体的类别以及位置，比如图上是人还是物，具体数量，而位置信息通常以一个bounding box(检测框)表示。本实施例中就是通过目标检测处理来得到每个人体头部的bounding box。

具体地，本实施例中可以采用的目标检测方法是基于卷积神经网络的Faster-RCNN、R-FCN等为代表的两个阶段的检测方法，该类方法主要通过候选窗加深度学习分类，先通过提取候选区域，并对相应区域进行以深度学习方法为主的分类方案；还可以采用以YOLO、SSD等为代表的基于深度学习的端到端的回归方法，这类方法将图像事先划分好若干个小方格，在小方格中进行特征提取。此外，本实施例中也可以采用传统的检测方法来进行目标检测处理，其都在本发明的保护范围内。

接着执行步骤S3，对所述第一头部检测框进行关键点计算处理，以得到多个第一头部关键点信息。

本实施例在获得第一头部检测框后，就可以通过关键点计算处理来得到多个第一头部关键点信息，所述头部关键点信息主要指的是头部关键点对应的像素的位置坐标值(即头部关键点的位置坐标值)以及头部关键点对应像素区域内每个像素的位置坐标值。所述头部关键点对应像素区域指的是以头部关键点对应的像素为中心像素，半径为R的圆形区域中包含的除中心像素之外的所有其余像素。

所述R的取值方式并不限定，比如：R可以取3倍的高斯函数标准差值，还可以取待处理图像长边像素的一定比例，如：1/10倍。

在一个具体例子中，参考图2所示，所述关键点计算处理可以包括以下步骤：

步骤S301，采用人体姿态热力图或回归关键点坐标计算人体姿态的每个关键点信息；

步骤S302，根据计算的每个关键点信息获知人体的头部姿态；

步骤S303，当所述人体的头部姿态为正面或背面时，分别将所述第一头部检测框各边的中点作为四个头部关键点；

步骤S304，当所述人体的头部姿态为左侧面时，将所述第一头部检测框右侧纵向边的中点、左下顶点以及上侧横向边的中点作为三个头部关键点；

步骤S305，当所述人体的头部姿态为右侧面时，将所述第一头部检测框左侧纵向边的中点、右下顶点以及上侧横向边的中点作为三个头部关键点。

首先执行步骤S301，采用人体姿态热力图或回归关键点坐标计算人体姿态的每个关键点信息。

采用人体姿态热力图计算人体姿态的每个关键点信息以及采用回归关键点坐标计算人体姿态的每个关键点信息对于本领域技术人员是熟知的，在此不再赘述。

本例子中计算得到16个关键点信息(当人体姿态为正面或侧面时，此时的人体关键点具体参见图4)或15个关键点信息(当人体姿态为左侧面时，此时的头部关键点具体参见图5，其中1为头顶，2为左耳，3为下巴)，其与采用的计算模型相关，而计算模型的训练则与人工标注相关，人工标注的具体方式后面详细介绍。

接着执行步骤S302，根据计算的每个关键点信息获知人体的头部姿态。

本例子中具体可以通过PAF将计算的关键点进行连接，当识别出多个人时，采用图论的二分图求解方法(如：匈牙利算法)来得到每个人的人体姿态信息；当识别出仅一人时，则利用深度学习根据连接的关键点得出每个人的人体姿态识别信息。

所述PAF以及图论的二分图求解方法对于本领域技术人员是熟知的，在此不再赘述。

具体地，当步骤S301获知头部包括四个关键点时，则表明人体的头部姿态为正面或背面；当步骤S301获知头部包括三个关键点且位于头部检测框顶点的关键点(即下巴)位于头部检测框最左侧时，则表明人体的头部姿态为左侧面；当步骤S301获知头部包括三个关键点且位于头部检测框顶点的关键点(即下巴)位于头部检测框最右侧时，则表明人体的头部姿态为右侧面。

至此，可以获知待处理图像中每个人体的头部姿态，所述头部姿态包括：正面、背面、左侧面或右侧面。

然后对于不同的头部姿态，分别采用不同的方式进行处理：

当所述人体的头部姿态为正面或背面时，分别将所述第一头部检测框各边的中点作为四个第一头部关键点；

当所述人体的头部姿态为左侧面时，将所述第一头部检测框右侧纵向边的中点、左下顶点以及上侧横向边的中点作为三个所述第一头部关键点；

当所述人体的头部姿态为右侧面时，将所述第一头部检测框左侧纵向边的中点、右下顶点以及上侧横向边的中点作为三个所述第一头部关键点。

在另一个具体例子中，参考图3所示，所述关键点计算处理可以包括以下步骤：

步骤S311，采用人体姿态热力图或回归关键点坐标计算人体姿态的每个关键点信息；

步骤S312，根据计算的每个关键点信息获知人体的头部姿态；

步骤S313，当所述人体的头部姿态为侧面时，对所述第一头部检测框进行横向扩展处理，得到扩展后的第一头部检测框；

步骤S314，当所述人体的头部姿态为正面或背面时，分别将第一头部检测框各边的中点作为四个所述第一头部关键点；

步骤S315，当所述人体的头部姿态为左侧面时，将扩展后的第一头部检测框右侧纵向边的中点、左下顶点以及上侧横向边的中点作为三个第一初步头部关键点信息；

步骤S316，当所述人体的头部姿态为右侧面时，将扩展后的第一头部检测框左侧纵向边的中点、右下顶点以及上侧横向边的中点作为三个第一初步头部关键点信息；

步骤S317，当所述人体的头部姿态为左侧面或右侧面时，对第一初步头部关键点信息进行与所述横向扩展处理相应的横向敛缩处理，以得到所述第一头部关键点信息。

图3所示的例子与图2所示的例子相比，步骤S311、步骤S312、步骤S314、步骤S315和步骤S316分别可以参考步骤S301、步骤S302、步骤S303、步骤S304和步骤S305，其主要是增加了步骤S313和步骤S317。

当获知人体的头部姿态为左侧面或右侧面时，接着执行步骤S313，对所述第一头部检测框进行横向扩展处理，即将所述第一头部检测框在人脸的横向方向进行一定比例的扩展(参见图5所示，其中中间的矩形框是第一头部检测框，扩展后的矩形框是扩展后的第一头部检测框)，该扩展比例的取值范围可以包括1.2-1.5，比如：将第一头部检测框保持中心点不变且纵向长度不变的情况下，横向扩展1.2倍、1.3倍、1.4倍或1.5倍，即横向坐标以第一头部检测框的中心为原点且保持不变的情况下扩展1.2倍、1.3倍、1.4倍或1.5倍，以使扩展后的第一头部检测框可以完全覆盖人的头部，从而提高后续识别的准确率。

当执行完步骤S315或步骤S316时，即可获得一个人体对应的三个第一初步头部关键点信息，接着执行步骤S317，对得到的三个第一初步头部关键点信息进行与步骤S313中的横向扩展处理相应的横向敛缩处理，即其纵向坐标不变，而横向坐标以第一头部检测框的中心为原点进行敛缩处理，比如：当步骤S313的扩展比例为1.1倍时，则敛缩比例为1/1.1，并将敛缩后的三个第一初步头部关键点信息作为三个所述第一头部关键点信息。

发明人经过创造性劳动发现：当人体的头部姿态为侧面(非正面或非背面)时，通过对第一头部检测框的合理扩展以及据此得到的头部关键点的敛缩，可以使第一头部关键点信息更符合实际情况，最终提高人体姿态的识别准确率。

需要再次强调的是，所述关键点信息包括以所述关键点对应的像素为中心像素，半径为R的圆形区域中包含的所有像素的位置坐标值。

至此采用一种方式获知第一头部关键点信息。

接着执行步骤S4，对所述待处理图像进行自下而上识别处理，以得到一个或多个第二人体姿态信息。

本实施例中所述自下而上识别处理可以包括以下步骤：

采用人体姿态热力图或回归关键点坐标计算人体姿态的每个关键点信息，其具体实现方式可以参考步骤S301，且在具体例子中可以直接获取步骤S301的信息，从而无需重复执行；

采用部分亲和场将计算的关键点之间进行连接，当识别出多个人时，采用图论的二分图求解方法(如：匈牙利算法)得到每个人的人体姿态信息，其具体实现方式可以参考步骤S302，且在具体例子中可以直接获取步骤S302的信息，从而无需重复执行。

需要说明的是，在本发明的其它实施例中还可以采用其它自下而上识别方法获知第二人体姿态信息，其都在本发明的保护范围内。

接着执行步骤S5，从所述第二人体姿态信息中提取第二头部关键点信息和第一躯干关键点信息。

从人体姿态信息中提取头部关键点信息以及躯干关键点信息，其对于本领域技术人员是熟知的，在此不再赘述。

所述第一躯干关键点为12个，每个肢体上有三个关键点，具体可以参见图4。

所述第二头部关键点为3个(当人体头部姿态为左侧面或右侧面时，具体可以参见图5)或4个(当人体头部姿态为正面或背面时，具体可以参见图4)。

需要说明的是，本实施例中不仅需要提取头部关键点和躯干关键点对应的像素的位置坐标值，而且还需要提取以每个头部关键点和每个躯干关键点为中心、半径为R的圆形区域对应的像素的位置坐标值。

至此采用另一种方式获知第二头部关键点信息。

接着执行步骤S6，对所述第一头部关键点信息和所述第二头部关键点信息进行融合，得到融合后的第三头部关键点信息。

本实施例中可以先计算得到每个第二头部关键点对应的整个待处理图像中每个像素的高斯分布值，接着通过下面的公式计算得到每个融合后的第三头部关键点对应的整个待处理图像中每个像素的高斯分布值，然后再将计算得到的高斯分布值转换为每个融合后的第三头部关键点对应像素的位置坐标值以及半径为R的圆形区域对应的像素的位置坐标值。

在经过图论的二分图求解方法得到PAF的连接问题之后，人体姿态所有关键点连接矢量场已经求得，为了提高定位精度，且进一步去除错误和多余的连接(这些连接可能是前一步处理中人体有严重重叠部位或隐藏部位等相对难以识别的部分)，将现有的姿态信息和bounding box的头部位置信息进行融合，从而提高信息定位的准确率。

本实施例所述融合包括以下公式，即可以通过该公式计算得到每个融合后的第三头部关键点对应的整个待处理图像中每个像素的高斯分布值：

其中，i的取值范围为1-M，M为半径为R的圆形区域中包括的像素的数目；j的取值范围为1-N，N为待处理图像中像素的总数目。

在实际应用时，可以根据高斯分布值来确定R的数值，进而去确定前面步骤中的R具体取值。

当人体的头部姿态为正面或背面时，第一头部关键点和第二头部关键点的数目为四个，从而k的取值为1、2、3和4。

当人体的头部姿态为左侧面或右侧面时，第一头部关键点和第二头部关键点的数目为三个，从而k的取值为1、2和3。

通过对三个或四个头部关键点的计算，从而得到每个头部关键点对应的像素的第三位置坐标值以及每个头部关键点对应的像素的第三位置坐标值，即第三头部关键点信息。

最后执行步骤S7，将步骤S6得到的三个或四个第三头部关键点信息以及步骤S5得到的十二个第一躯干关键点信息作为人体姿态识别结果。

后续还可以根据步骤S7得到的关键点信息确定人体姿态，其对于本领域技术人员是熟知的，在此不再赘述。

需要说明的是，本实施例中可以先执行步骤S2或步骤S3，再执行步骤S4；也可以先执行步骤S4，再执行步骤S2或步骤S3；还可以同时执行步骤S4以及步骤S2或步骤S3，其都在本发明的保护范围内。

图6所示为采用本实施例方法后得到的一个具体识别效果图，由此可以看出各关键点的定位准确，且各关键点之间进行了正确连接，即其检测效果非常好。

本实施例使用了头部四点或三点构成的矩形区域进行目标检测定位特征提取作为模型空间定位；其次本实施例中采用所有人体关键点参与人体姿态热力图的特征学习。本实施例方法使得关键点定位和目标检测相互联系起来，目标检测的主要目的是定位与头部相关联的四点或三点构成的目标区域，而定位的同时也融合了头部相关的关键点的回归信息，最终提高了人体姿态识别的准确率。

除了上述步骤之外，本实施例方法还可以包括以下步骤：

步骤s1，提供训练图像数据集，所述训练图像数据集包括多张训练图像。

所述训练图像的文本可以对应不同的图像格式，也可以对应不同的存储格式，还可以对应不同的压缩方式，其都是在本发明的保护范围内。

在进行后续步骤之前，还可以对训练图像的文本进行预处理以及图像增强，如：二值化处理、噪声去除、图像尺寸变化、旋转、镜像和随机裁剪等，其对于本领域技术人员是熟知的，在此不再赘述。

步骤s2，分别采用人工方式在每张所述训练图像中标注第四头部关键点信息，并根据所述第四头部关键点信息计算确定第二头部检测框。

本实施例中采用人工方式在每张所述训练图像中标注第四头部关键点信息具体可以包括：

当所述训练图像中人体为正面或背面时，将头顶、左耳、右耳和下巴作为四个第四头部关键点，参考图4；当所述训练图像中人体为左侧面时，将头顶、左耳和下巴作为三个第四头部关键点，参考图5；当所述训练图像中人体为右侧面时，将头顶、右耳和下巴作为三个第四头部关键点。

本实施例中根据所述第四头部关键点信息计算确定第二头部检测框具体可以包括：

本实施例在识别应用阶段是先确定头部检测框进而确定头部关键点，而在训练阶段则是先标注头部关键点进而确定头部检测框。

步骤s3，对每张所述训练图像进行目标检测处理，以得到一个或多个第三头部检测框。

步骤s3中的目标检测处理的具体实施方式可以参考步骤S2，只是处理的对象不同而已，在此不再赘述。

步骤s4，对所述第三头部检测框进行关键点计算处理，以得到多个第五头部关键点信息。

在一个具体例子中，所述关键点计算处理包括：

根据计算的每个关键点信息获知人体的头部姿态；

当所述人体的头部姿态为正面或背面时，分别将第三头部检测框各边的中点作为四个所述第五头部关键点；

当所述人体的头部姿态为左侧面时，将第三头部检测框右侧纵向边的中点、左下顶点以及上侧横向边的中点作为三个所述第五头部关键点；

当所述人体的头部姿态为右侧面时，将第三头部检测框左侧纵向边的中点、右下顶点以及上侧横向边的中点作为三个所述第五头部关键点。

在另一个例子中，所述关键点计算处理包括：

根据计算的每个关键点信息获知人体的头部姿态；

当所述人体的头部姿态为侧面时，对第三头部检测框进行横向扩展处理，得到扩展后的第三头部检测框；

当所述人体的头部姿态为正面或背面时，分别将第三头部检测框各边的中点作为四个第五头部关键点；当所述人体的头部姿态为左侧面时，将扩展后的第三头部检测框右侧纵向边的中点、左下顶点以及上侧横向边的中点作为三个第五初步头部关键点；当所述人体的头部姿态为右侧面时，将扩展后的第三头部检测框左侧纵向边的中点、右下顶点以及上侧横向边的中点作为三个第五初步头部关键点信息；

当所述人体的头部姿态为侧面时，对所述第五初步头部关键点信息进行与所述横向扩展处理相应的横向敛缩处理，以得到第五头部关键点信息。

步骤s4中的关键点计算处理的具体实施方式可以参考步骤S3中的两种方式，在此不再赘述。

步骤s5，根据所述第二头部检测框以及对应的所述第三头部检测框进行第一深度学习，以获得目标检测深度学习模型。

根据人工标注得到第二头部检测框以及根据目标检测处理计算得到的第三头部检测框，采用所述目标检测处理的方法建立深度学习模型，即目标检测深度学习模型。

步骤s6，根据所述第四头部关键点信息以及对应的所述第五头部关键点信息进行第二深度学习，以获得关键点计算深度学习模型。

根据人工标注得到的第四头部关键点信息以及根据关键点计算处理计算得到的第五头部关键点，采用所述关键点计算处理的方法建立深度学习模型，即关键点计算深度学习模型。

当两个深度学习模型建立之后，步骤S2就可以采用目标检测深度学习模型来对待处理图像进行目标检测处理，步骤S3就可以采用所述关键点计算深度学习模型对所述待处理图像进行关键点计算处理。

需要说明的是，本实施例中两个深度学习模型的建立需要分别在步骤S2和步骤S3之前完成，以便更好地执行步骤S2和步骤S3。

在实际应用中，训练的时候是两个单独的深度学习模型，等训练完成后就得到一个最终深度学习模型，当将待处理图像输入该最终深度学习模型后就可以输入所述第一头部关键点信息。采用此种方式，同样具有准确率高的优点。

此外，本实施例还可以对建立的深度学习模型进行评估，从而既可以清楚知悉应用此深度学习模型时的人体姿态识别准确率，而且还有助于识别方法各步骤的参数进行优化调整，以更好地提高识别率。

本实施例中计算所述人体姿态识别结果的识别准确率具体可以包括以下步骤：

设置多个不同的OKS(Object Keypoint Similarity，关键点相似度)阈值，分别计算每个人体关键点(所述人体关键点包括躯干关键点和头部关键点)在每个OKS阈值下的精度，并将所有OKS阈值下的精度的第一加权求和值作为第一精度；

设置多个不同的IOU(Intersection Over Union，交并比)阈值，分别计算第四头部关键点信息以及对应的第五头部关键点在每个IOU阈值下的精度，并将所有IOU阈值下的精度的第二加权求和值作为第二精度；

所述精度指的是正确被检索的item占所有应该检索到的item的比例。

其中，所述OKS阈值的设置数目取值范围可以包括3-8，比如：3、4、5、6、7或8等；所述OKS阈值的取值范围可以包括0.4-0.9，比如：0.4、0.5、0.6、0.7、0.8或0.9等。

其中，所述IOU阈值的设置数目取值范围可以包括3-8，比如：3、4、5、6、7或8等；所述IOU阈值的取值范围可以包括0.4-0.9，比如：0.4、0.5、0.6、0.7、0.8或0.9等。

在具体例子中，所述OKS阈值的设置数目与所述IOU阈值的设置数目可以相同，也可以不同。

在一个具体例子中，设置四个OKS阈值分别为0.5、0.6、0.7和0.8，分别计算在这四个不同阈值下的精度，得到四个精度值为A1、A2、A3和A4，对这四个精度值进行第一加权求和作为第一精度A(比如将A1、A2、A3和A4的平均值作为A)；设置四个IOU阈值分别为0.6、0.7、0.8和0.9，分别计算在这四个不同阈值下的精度，得到四个精度值为B1、B2、B3和B4，对这四个精度值进行第二加权求和作为第二精度B(比如将B1、B2、B3和B4的平均值作为B)；然后对第一精度A和第二精度B进行第三加权求和得到第三精度C(比如将A和B的平均值作为C)。

除了计算精度之外，还可以采用类似的方法计算召回率，即：

设置多个不同的OKS(Object Keypoint Similarity，关键点相似度)阈值，分别计算每个人体关键点(所述人体关键点包括躯干关键点和头部关键点)在每个OKS阈值下的召回率，并将所有OKS阈值下的召回率的第一加权求和值作为第一召回率；

设置多个不同的IOU(Intersection Over Union，交并比)阈值，分别计算第四头部关键点信息以及对应的第五头部关键点在每个IOU阈值下的召回率，并将所有IOU阈值下的召回率的第二加权求和值作为第二召回率；

对所述第一召回率和所述第二召回率进行加权求和，以得到第三召回率。

所述召回率是所有正确被检索的item占所有实际被检索到的item的比例。

结合第三精度和第三召回率可以得到精度-召回率(precision-recall)曲线，进而根据该曲线就可以判断上述最终深度学习模型的优劣，并可以据此不断优化最终深度学习模型，最终达到对人体姿态较高的识别准确率。

该模型的评估方式采用交并比(IOU，Intersection over Union)与OKS指标相结合的方法，IOU用于人体头部位置的定位和人体初步状态识别评估，OKS用于人体姿态描述评估。IOU的原理是计算当前预测的头部区域与标注区域的重叠区域面积与两个区域并集面积的比例，比例越高，说明位置契合的更精确；OKS着重于对每一个预测关键点位置计算相对于人工标注的关键点的分布概率值。同OKS对最终结果的影响一样，本实施例同样采用选取不同IOU阈值的方法对最终的评估结果进行计算，这样可以减少沉余，以此为基础，再把多个OKS的阈值进行平均精度的计算，最后再求得总的平均值得到评估结果。这个评估的结果最突出的一点是在前基础上加入了对于个体位置度的更准确的衡量。

本实施例在模型评估上能改善原来采用单一的相似度衡量的尺度，能减少由于关键点在图像上遮挡、不可见或者人工标注误差而造成的影响，使模型以及其评估更精确化。

此外，本实施例还具有以下优点：

1、现有的标注大多对人脸的五官进行标注，导致大多数情况下会有遮挡和不可见的关键点，这些关键点使得模型在学习和评估时都会产生一定的影响，在人体姿态识别的前提下，本实施例的标注方式，可以有效减少因为关键点的遮挡和不可见因素的影响，并在此基础上充分利用人脸的面部特征，相对身体其他部位而言，人体面部特征比较明显，特征提取相对更容易，从而提高模型的识别精度，且在训练和评估过程中更加高效和准确。

2、现有的自上而下方法建立的模型中，目标检测和后续关键点检测是分开的特征提取，这使得第二步的关键点检测对前一步的目标检测定位精度具有相应的依赖性，模型的拟合在一定程度上会受到影响。通过目标检测处理的定位得到的bounding box对后面人体姿态关键点的特征提取没有太大的意义，但如果定位不准确，会使得后一步的特征提取变的相对困难，出现漏检，误检现象，且IOU(交并比)大小的存在也会对结果有影响。而自下而上的方法中，点与点之间的评估是相对独立的，这样的评估从整体上看是合理的，但是不能反映模型在局部点与点之间的预测精确性。本实施例很好地避免了以上情况，标注的数据用关键点形成目标检测区域，并且很好的利用人体面部文理特征进行空间定位，同时进行关键点的相似性度量，两者相互作用，最终得到高精度的预测模型。

3、结合两种相似度衡量，能让识别更加精确和有效。现有的人体姿态模型评估方法一般采用单一的相似性度量方法，这导致其评估的数值往往不能表达出完全意义上的人体姿态整体预测效果，本发明在模型评估上融合了现有的相似度评估指标和检测定位指标，使评估更符合实际。

实施例二

本实施例提供了一种人体姿态识别装置，其可以包括：

输入模块，用于提供待处理图像；

输出模块，用于将所述第三头部关键点信息和所述第一躯干关键点信息作为人体姿态识别结果。

此外，所述装置还可以包括模型训练模块，其可以包括：

数据集提供单元，其用于提供训练图像数据集，所述训练图像数据集包括多张训练图像；

人工标注单元，用于分别采用人工方式在每张所述训练图像中标注第四头部关键点信息，

检测框计算单元，用于根据所述第四头部关键点信息计算确定第二头部检测框；

目标检测单元，用于对每张所述训练图像进行目标检测处理，以得到一个或多个第三头部检测框；

关键点计算单元，用于对所述第三头部检测框进行关键点计算处理，以得到多个第五头部关键点信息；

第一深度学习单元，用于根据所述第二头部检测框以及对应的所述第三头部检测框进行第一深度学习，以获得目标检测深度学习模型；

第二深度学习单元，用于根据所述第四头部关键点信息以及对应的所述第五头部关键点信息进行第二深度学习，以获得关键点计算深度学习模型；

所述目标检测模块采用所述目标检测深度学习模型对所述待处理图像进行目标检测处理，所述关键点计算模块采用所述关键点计算深度学习模型对所述待处理图像进行关键点计算处理。

其中，所述目标检测模块可以采用Faster-RCNN或SSD实现。

在一个例子中，所述关键点计算模块可以包括：

头部姿态判断单元，用于采用人体姿态热力图或回归关键点坐标计算人体姿态的每个关键点信息，并根据计算的每个关键点信息获知人体的头部姿态；

关键点确定单元，用于当所述人体的头部姿态为正面或背面时，分别将头部检测框各边的中点作为四个头部关键点；当所述人体的头部姿态为左侧面时，将头部检测框右侧纵向边的中点、左下顶点以及上侧横向边的中点作为三个头部关键点；当所述人体的头部姿态为右侧面时，将头部检测框左侧纵向边的中点、右下顶点以及上侧横向边的中点作为三个头部关键点。

在另一个例子中，所述关键点计算模块可以包括：

横向扩展单元，用于当所述人体的头部姿态为侧面时，对头部检测框进行横向扩展处理，得到扩展后的头部检测框；

初步确定单元，当所述人体的头部姿态为左侧面时，将扩展后的头部检测框右侧纵向边的中点、左下顶点以及上侧横向边的中点作为三个初步头部关键点；当所述人体的头部姿态为右侧面时，将扩展后的头部检测框左侧纵向边的中点、右下顶点以及上侧横向边的中点作为三个初步头部关键点信息；

横向敛缩单元，用于当所述人体的头部姿态为侧面时，对所述初步头部关键点信息进行与所述横向扩展处理相应的横向敛缩处理；

关键点确定单元，用于当所述人体的头部姿态为正面或背面时，分别将头部检测框各边的中点作为四个头部关键点；当所述人体的头部姿态为左侧面或右侧面时，将横向敛缩后的初步头部关键点信息作为三个头部关键点信息。

其中，所述人工标注单元的具体工作方式如下：当所述训练图像中人体为正面或背面时，将头顶、左耳、右耳和下巴作为四个第四头部关键点；当所述训练图像中人体为左侧面时，将头顶、左耳和下巴作为三个第四头部关键点；当所述训练图像中人体为右侧面时，将头顶、右耳和下巴作为三个第四头部关键点。

其中，所述检测框计算单元的具体工作方式如下：

其中，所述自下而上识别模块可以包括：

关键点计算单元，用于采用人体姿态热力图或回归关键点坐标计算人体姿态的每个关键点信息；

连接计算单元，用于采用部分亲和场将计算的关键点之间进行连接；

求解单元，用于当识别出多个人时，采用图论的二分图求解方法得到每个人的人体姿态信息。

其中，所述信息融合模块可以包括采用一下公式：

此外，所述装置还可以包括：准确率计算模块，用于计算所述人体姿态识别结果的识别准确率，具体包括：

OKS精度计算单元，用于设置多个不同的OKS阈值，分别计算每个人体关键点在每个OKS阈值下的精度，并将所有OKS阈值下的精度的第一加权求和值作为第一精度；

IOU精度计算单元，用于设置多个不同的IOU阈值，分别计算第四头部关键点信息以及对应的第五头部关键点在每个IOU阈值下的精度，并将所有IOU阈值下的精度的第二加权求和值作为第二精度；

加权求和单元，用于对所述第一精度和所述第二精度进行加权求和，以得到第三精度。

本实施例中装置的具体工作原理、工作方式、工作过程以及有益效果可以参见实施例一中对应方法步骤的描述，在此不再赘述。

实施例三

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一所述的人体姿态识别方法的步骤，具体请参见上面方法部分，在此不再赘述。

存储器作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的人体姿态识别方法以及人体姿态识别方法对应的程序指令/模块(例如，人体姿态识别装置中的输入模块、目标检测模块、关键点计算模块、自下而上识别模块、关键点提取模块、信息融合模块以及输出模块)。处理器通过运行存储在存储器中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的人体姿态识别方法。

存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例四

相应地，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一所述的人体姿态识别方法的步骤，具体请参见上面方法部分，在此不再赘述。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述人体姿态识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。