CN111353349B

CN111353349B - 人体关键点检测方法、装置、电子设备及存储介质

Info

Publication number: CN111353349B
Application number: CN201811581382.6A
Authority: CN
Inventors: 王轩瀚; 谭文明
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2023-10-17
Anticipated expiration: 2038-12-24
Also published as: CN111353349A

Abstract

本申请实施例提供了人体关键点检测方法、装置、电子设备及存储介质，该方法包括：获取待检测图像；通过预设神经网络的特征提取部分对待检测图像进行分析，得到待检测图像的多个层级特征；通过预设神经网络的人体检测部分对各层级特征进行分析，确定各层级特征中的人体区域；对各层级特征中的人体区域进行区域特征映射，得到各实例特征；通过预设神经网络的关键点检测部分对各实例特征进行分析，得到各人体关键点。本申请实施例的人体关键点检测方法，实现了人体关键点的自动检测；并且将人体检测与关键点检测统一在一个网络框架内，仅通过单个神经网络就完成多人场景下的人体关键点检测，且无需复杂的后处理过程，实用价值高。

Description

人体关键点检测方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及人体关键点检测方法、装置、电子设备及存储介质。

背景技术

随着计算机视觉技术的出现，图像自动化处理在计算机产业中蓬勃发展。人体关键点检测是指获取人体关键部位，例如头、手、肩、膝盖或脚等，通过人体关键点检测，可以确定人体的姿态及预测人体的动作等，对人体动作及人体识别等有重要意义。因此希望能够对人体关键点进行自动检测。

发明内容

本申请实施例的目的在于提供一种人体关键点检测方法、装置、电子设备及存储介质，以实现人体关键点的自动检测。具体技术方案如下：

第一方面，本申请实施例提供了一种人体关键点检测方法，所述方法包括：

获取待检测图像；

通过预设神经网络的特征提取部分对所述待检测图像进行分析，得到所述待检测图像的多个层级特征；

通过所述预设神经网络的人体检测部分对各所述层级特征进行分析，确定各所述层级特征中的人体区域；

对各所述层级特征中的人体区域进行区域特征映射，得到各实例特征；

通过所述预设神经网络的关键点检测部分对各所述实例特征进行分析，得到各人体关键点。

可选的，在所述通过所述预设神经网络的关键点检测部分对各所述实例特征进行分析，得到各人体关键点之后，所述方法还包括：

按照各所述人体关键点，生成人体关键点热力分布图。

可选的，所述预设神经网络的特征提取部分包括浅层图像空间特征网络、第一中层图像空间特征网络、第二中层图像空间特征网络、第一深层图像语义特征网络及第二深层图像语义特征网络；

所述通过预设神经网络的特征提取部分对所述待检测图像进行分析，得到所述待检测图像的多个层级特征，包括：

通过所述浅层图像空间特征网络，对所述待检测图像进行处理，得到浅层图像空间特征；

通过所述第一中层图像空间特征网络，对所述浅层图像空间特征进行处理，得到第一中级图像空间特征；

通过所述第二中层图像空间特征网络，对所述第一中级图像空间特征进行处理，得到第二中级图像空间特征；

通过所述第一深层图像语义特征网络，对所述第二中级图像空间特征进行处理，得到第一深层图像语义特征；

通过所述第二深层图像语义特征网络，对所述第一深层图像语义特征进行处理，得到第二深层图像语义特征。

可选的，所述预设神经网络人体检测部分包括多个人体检测框生成网络；

所述通过所述预设神经网络的人体检测部分对各所述层级特征进行分析，确定各所述层级特征中的人体区域，包括：

通个多个所述人体检测框生成网络，并行对各所述层级特征进行单次回归分析，确定各所述层级特征中的人体区域。

可选的，在本申请实施例的人体关键点检测方法中，各所述人体检测框生成网络的参数相同。

可选的，所述对各所述层级特征中的人体区域进行区域特征映射，得到各实例特征，包括：

对各所述层级特征中的人体区域进行区域特征映射，得到实例纹理特征及实例语义特征；

按照所述实例纹理特征及所述实例语义特征在所述待检测图像中对应的位置，将相同位置的所述实例纹理特征及所述实例语义特征进行特征融合，得到各实例融合特征；

所述通过所述预设神经网络的关键点检测部分对各所述实例特征进行分析，得到各人体关键点，包括：

通过所述预设神经网络的关键点检测部分对各所述实例融合特征进行分析，得到各人体关键点。

第二方面，本申请实施例提供了一种人体关键点检测装置，所述装置包括：

图像获取模块，被设置为获取待检测图像；

层级特征提取模块，被设置为通过预设神经网络的特征提取部分对所述待检测图像进行分析，得到所述待检测图像的多个层级特征；

人体区域确定模块，被设置为通过所述预设神经网络的人体检测部分对各所述层级特征进行分析，确定各所述层级特征中的人体区域；

实例特征确定模块，被设置为对各所述层级特征中的人体区域进行区域特征映射，得到各实例特征；

关键点确定模块，被设置为通过所述预设神经网络的关键点检测部分对各所述实例特征进行分析，确定各人体关键点。

可选的，本申请实施例的人体关键点检测装置还包括：

分布图生成模块，被设置为按照各所述人体关键点，生成人体关键点热力分布图。

所述层级特征提取模块，包括：

浅层特征提取子模块，被设置为通过所述浅层图像空间特征网络，对所述待检测图像进行处理，得到浅层图像空间特征；

第一中层特征提取子模块，被设置为通过所述第一中层图像空间特征网络，对所述浅层图像空间特征进行处理，得到第一中级图像空间特征；

第二中层特征提取子模块，被设置为通过所述第二中层图像空间特征网络，对所述第一中级图像空间特征进行处理，得到第二中级图像空间特征；

第一深层特征提取子模块，被设置为通过所述第一深层图像语义特征网络，对所述第二中级图像空间特征进行处理，得到第一深层图像语义特征；

第二深层特征浅层特征提取子模块，被设置为通过所述第二深层图像语义特征网络，对所述第一深层图像语义特征进行处理，得到第二深层图像语义特征。

所述人体区域确定模块，被设置为：通个多个所述人体检测框生成网络，并行对各所述层级特征进行单次回归分析，确定各所述层级特征中的人体区域。

可选的，在本申请实施例的人体关键点检测装置中，各所述人体检测框生成网络的参数相同。

可选的，所述实例特征确定模块，包括：

特征映射子模块，被配置为对各所述层级特征中的人体区域进行区域特征映射，得到实例纹理特征及实例语义特征；

特征融合子模块，被配置为按照所述实例纹理特征及所述实例语义特征在所述待检测图像中对应的位置，将相同位置的所述实例纹理特征及所述实例语义特征进行特征融合，得到各实例融合特征；

所述关键点确定模块，被设置为：通过所述预设神经网络的关键点检测部分对各所述实例融合特征进行分析，确定各人体关键点。

第三方面，本申请实施例提供了一种电子设备，包括处理器和存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述第一方面任一所述的人体关键点检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的人体关键点检测方法。

本申请实施例提供的人体关键点检测方法、装置、电子设备及存储介质，获取待检测图像；通过预设神经网络的特征提取部分对待检测图像进行分析，得到待检测图像的多个层级特征；通过预设神经网络的人体检测部分对各层级特征进行分析，确定各层级特征中的人体区域；对各层级特征中的人体区域进行区域特征映射，得到各实例特征；通过预设神经网络的关键点检测部分对各实例特征进行分析，得到各人体关键点。实现了人体关键点的自动检测；并且将人体检测与关键点检测统一在一个网络框架内，仅通过单个神经网络就完成多人场景下的人体关键点检测，且无需复杂的后处理过程，具有较高的实用价值，可以根据现实需求构造不同的检测器结构，同时也可以嵌入到各种平台结构。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的人体关键点检测方法的一种流程示意图；

图2为本申请实施例的人体关键点检测方法的另一种流程示意图；

图3为本申请实施例的人体关键点检测装置的一种示意图；

图4为本申请实施例的电子设备的一种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请涉及的术语进行说明。

CNN(Convolutional Neural Network，卷积神经网络)，一种用于图像处理的神经网络。

ROI(Region of Interest，感兴趣区域)_Pooling(池化)：即区域池化，一种基于区域的特征计算方法。

人体关键点检测：获取图像中人物的主要关节位置：包括头、左肩点、右肩点、手、膝盖及脚等。

在相关的人体关键点检测技术中，首先利用一个全卷积神经网络来提取图像中人体的特征图以及关键点的热力图，并将特征图和热力图进行特征融合，然后采用阈值筛选的处理方式进行融合特征的过滤。接着将过滤后的融合特征输入到第二个全卷积神经网络中，并通过第二个全卷积神经网络回归出人体的位置及各关键点的位置。

上述方法虽然能够实现人体关键点检测，但是实现数据预处理复杂，需要准备两类不同的训练数据来分别训练两个全卷积神经网络，由于需要将第一个全卷积神经网络的生成结果进行过滤才能输入到第二个全卷积神经网络中，导致第二个全卷积神经网络的学习无法反馈到第一个全卷积神经网络。因此需要堆叠两个全卷积神经网络，使得整体模型的复杂度很高，并且训练方式复杂。

有鉴于此，为了减少整体模型的复杂度，提高人体关键点检测的实用性，本申请实施例提供了一种人体关键点检测方法，利用卷积神经网络对输入图片中的行人目标进行检测并姿态估计，可以实现现实场景中的行人分析及行为识别等需求，能够根据2D(Dimensionality，维度)图像同时完成对图像中行人的检测和姿态估计两个任务。并且计算量低占用计算资源少，能够获得更好的姿态估计性能。其具体实现流程可以如图1所示。

图像特征计算与提取模块利用一个由一系列卷积运算和池化运算构成的神经网络来计算图像不同层级的特征。具体地，图像特征计算与提取模块可以构建5种层级的特征，由浅到深逐渐构成图像不同语义层次的特征，包括浅层图像空间特征、中级图像空间特征-1(第一中级图像空间特征)、中级图像空间特征-2(第二中级图像空间特征)、深层图像语义特征-1(第一深层图像语义特征)及深层图像语义特征-2(第二深层图像语义特征)。浅层和中层特征一般描述图像内容的基本纹理与颜色信息，深层语义特征基本用于目标识别和分类。不同层级的语义特征具有不同的含义，一般来说，深层特征具有大的视觉感受野，而浅层特征视觉感受野较小。因此，对于小目标而言，浅层特征更适合用于小目标的候选框生成，而深层特征适合于大目标候选框生成。

行人定位模块通过上述5种层级的特征，来生成图像中可能存在的行人候选框。为了满足现实场景目标的多样性，行人定位模块在各层级特征上构建人体检测框生成网络，由此来生成不同大小目标的检测框。行人定位模块采用单次回归方法，直接生成最终的人体检测框，相比于先通过网络生成候选框，再通过额外的子网络对候选框进行过滤和二次回归，大大提高了计算效率。并且各层级的特征上的网络均采用同一套参数，以保证总体参数量不会过大，节约存储资源。

关键点识别模块采用了多任务学习的方法，将联合目标检测和关键点识别任务集中在一个网络模型中，关键点识别模块直接在检测网络上延伸出子网络，将检测结果作为子网络输入，并回归出对应的关键点。相比于采用独立于检测网络的另一个独立网络，极大地节省了预测时间，兼顾识别性能和实用效率。

具体地，关键点识别模块主要包括两个功能：目标多尺度特征提取及目标关键点识别。

目标多尺度特征提取：在获取人体检测框后，按照人体检测框在各层级特征上进行区域截取并构造实例特征。具体地，对行人定位模块所生成的人体检测框，逐一在各层级特征上进行区域特征映射。通过在浅层特征上进行区域映射可以得到人体检测框区域下的实例纹理特征，在深层特征上进行区域映射，例如roi_pooling或roi_align等，可以得到人体检测框区域下的实例语义特征。为了减少各层级特征的信息在映射过程中的损失度，可以针对不同尺度的特征采用不同尺度的区域映射方式，即多尺度roi映射方式。将不同尺度映射下的区域特征经过如上采样操作得到统一尺寸的实例特征，然后通过特征融合的方式，将各区域的实例纹理特征及实例语义特征进行整合，构造实例融合特征。

目标关键点识别：在得到实例融合特征后，将实例融合特征输入到分支网络中，通过分支网络来完成人体关键点识别。分支网络可以采用少量连续堆叠的卷积组成，以减少引入的计算量。在预测过程中，通过分支网络来确定人体关键点的位置，并生成人体检测框中的人体关键点的热力分布图。

为了提高本申请实施例的人体关键点检测方法的准确率，在神经网络训练阶段，可以针对不同任务目标设计不同的优化目标函数。

在训练行人检测框生成网络时，目标检测分支会回归生成目标框的位置例如，目标框中心位置、目标框的长和目标框的宽，同时还会回归出对应目标类别的概率。可以采用Smooth-L1损失函数作为目标定位的训练目标函数，采用信息损失熵作为目标分类的训练目标函数。假设目标的真实位置为t_i，i∈{x,y,w,h}，共有D个预设目标类别，网络回归出的位置为v_i，实例目标类别为k，网络输出类别k的置信度得分为p_k，则目标位置的训练目标函数定义为：

其中，x为目标框中心位置的x轴坐标，y为目标框中心位置的y轴坐标，w为目标框的宽，h为目标框的高。

目标分类的训练目标函数定义为：

其中，I{condition}为判别函数，当且仅当条件为真时输出1，否则输出0。

对于关键点热力图，本方法采用空间信息熵损失函数作为目标函数。假设一共有m个节点，网络对关键点j预测的热力图为h_j∈R^w×h，u(0＜u＜(w×h))为目标关键点的位置，则单个关键点的损失函数定义如下：

则总体的关键点损失函数为：

总体的损失函数则定义为：

L＝αL_loc+βL_cls+λL_kps，其中，α、β、λ均为预设系数。

本申请实施例中，将人体检测与关键点检测统一在一个网络框架内，仅用单个神经网络完成多人场景下的人体关键点检测，且无需复杂的后处理过程。设计端到端的联合训练方法，加入多任务目标损失方法，加快网络收敛的速度，提高网络识别的泛化能力。具有较高的实用价值，可以根据现实需求构造不同的检测器结构，同时也可以嵌入到各种平台结构。

本申请实施例提供了一种人体关键点检测方法，参见图2，该方法包括：

S201，获取待检测图像。

本申请实施例中的人体关键点检测方法可以通过检测系统实现，检测系统为任意能够实现本申请实施例的人体关键点检测方法的系统。例如：

检测系统可以为一种电子设备，包括：处理器、存储器、通信接口和总线；处理器、存储器和通信接口通过总线连接并完成相互间的通信；存储器存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行本申请实施例的人体关键点检测方法。

检测系统还可以为一种应用程序，用于在运行时执行本申请实施例的人体关键点检测方法。

检测系统还可以为一种存储介质，用于存储可执行代码，可执行代码用于执行本申请实施例的人体关键点检测方法。

检测系统获取待检测图像，例如，检测系统可以获取图像采集设备实时采集的待检测图像，或检测系统可以从数据库等存储介质中获取待检测图像等。

S202，通过预设神经网络的特征提取部分对上述待检测图像进行分析，得到上述待检测图像的多个层级特征。

预设神经网络可以为预先训练的卷积神经网络，预设神经网络包括特征提取部分、人体检测部分及关键点检测部分。特征提取部分用于提取待检测图像的特征；人体检测部分用于对提取的特征进行分析，确定出人体区域；关键点检测部分用于在人体区域中确定关键点。可选的，在一种可能的实施方式中，预设神经网络可以如图1所示，其中，特征提取部分相当于图1中的图像特征计算与提取模块，人体检测部分相当于图1中的行人定位模块，关键点检测部分相当于图1中的关键点识别模块。

可选的，在上述由预设神经网络的特征提取部分得到的待检测图像的多个层级特征中，包括至少一个深层特征和至少一个中层特征。

在计算机视觉领域，不同层级特征具有不同的含义，一般来说，深层特征具有大的视觉感受野，而浅层特征视觉感受野较小。因此，当在多个层级特征中包括至少一个深层特征和至少一个中层特征时，可以从大视觉感受野检测出占区域较大的人体，通过小视觉感受野检测出占区域较小的人体，从而适用于不同大小的人体检测。采用中层特征而不是浅层特征，是因为相对于浅层特征，神经网络对中层特征中的目标识别成功的概率更高，且当人体很小时关键点识别成功率低。

S203，通过上述预设神经网络的人体检测部分对各上述层级特征进行分析，确定各上述层级特征中的人体区域。

利用预设神经网络中的人体检测部分，对各层级特征进行分析，识别出各层级特征中的人体区域，并标记各人体区域，例如通过检测框标记各人体区域等。

S204，对各上述层级特征中的人体区域进行区域特征映射，得到各实例特征。

通过在浅层/中层特征上进行区域特征映射可以得到人体区域的实例纹理特征，通过在深层特征上进行区域特征映射，例如roi_pooling或roi_align等，可以得到人体区域的实例语义特征。

S205，通过上述预设神经网络的关键点检测部分对各上述实例特征进行分析，确定各人体关键点。

预设神经网络的关键点检测部分可以采用少量连续堆叠的卷积组成，以减少引入的计算量，通过关键点检测部分来确定人体关键点的位置。

在本申请实施例中，实现了人体关键点的自动检测；并且将人体检测与关键点检测统一在一个网络框架内，仅通过单个神经网络就完成多人场景下的人体关键点检测，且无需复杂的后处理过程，具有较高的实用价值，可以根据现实需求构造不同的检测器结构，同时也可以嵌入到各种平台结构。

可选的，在上述通过上述预设神经网络的关键点检测部分对各上述实例特征进行分析，确定各人体关键点之后，上述方法还包括：

S206，按照各上述人体关键点，生成人体关键点热力分布图。

在本申请实施例中，按照人体关键点生成人体关键点热力分布图，通过关键点热力分布图，能够使用户更加直观的感受到人体关键点位置。

可选的，上述预设神经网络的特征提取部分包括浅层图像空间特征网络、第一中层图像空间特征网络、第二中层图像空间特征网络、第一深层图像语义特征网络及第二深层图像语义特征网络；

上述S202，通过预设神经网络的特征提取部分对上述待检测图像进行分析，得到上述待检测图像的多个层级特征，包括：

S2021，通过上述浅层图像空间特征网络，对上述待检测图像进行处理，得到浅层图像空间特征。

S2022，通过上述第一中层图像空间特征网络，对上述浅层图像空间特征进行处理，得到第一中级图像空间特征。

S2023，通过上述第二中层图像空间特征网络，对上述第一中级图像空间特征进行处理，得到第二中级图像空间特征。

S2024，通过上述第一深层图像语义特征网络，对上述第二中级图像空间特征进行处理，得到第一深层图像语义特征。

S2025，通过上述第二深层图像语义特征网络，对上述第一深层图像语义特征进行处理，得到第二深层图像语义特征。

在本申请实施例中，通过五个特征网络生成五种层级特征，从而实现多种视觉感受野下的人体检测，能够减少漏检情况，提高人体检测的准确度，进而提高人体关键点检测的准确度。

可选的，上述预设神经网络人体检测部分包括多个人体检测框生成网络；

上述通过上述预设神经网络的人体检测部分对各上述层级特征进行分析，确定各上述层级特征中的人体区域，包括：

通个多个上述人体检测框生成网络，并行对各上述层级特征进行单次回归分析，确定各上述层级特征中的人体区域。

为了增加人体关键点检测的实时性，需要增加人体区域的检测效率。因此在本申请中，通过多个人体检测框生成网络，并行对各层级特征进行单次回归分析，以确定各层级特征中的人体区域。可以在各层级特征上构建人体检测框生成网络，来生成不同大小目标的检测框，人体检测框生成网络采用单次回归方法，直接生成最终的人体检测框。相比于先通过网络生成候选框，再通过额外的网络对候选框进行过滤和二次回归，采用单次回归方法可以大大提高计算效率。

可选的，在本申请实施例的人体关键点检测方法中，各上述人体检测框生成网络的参数相同。

各人体检测框生成网络均使用同一套参数，以保证总体参数量不会过大，节约存储资源。

可选的，上述S204，对各上述层级特征中的人体区域进行区域特征映射，得到各实例特征，包括：

S2041，对各上述层级特征中的人体区域进行区域特征映射，得到实例纹理特征及实例语义特征。

在确定人体区域后，按照人体区域在各层级特征上的位置进行区域截取并构造实例特征。例如，在通过人体检测框表征人体区域时，预设神经网络的特征提取部分分别针对每个人体检测框，逐一在各层级特征上进行区域特征映射。通过在浅层特征上进行区域映射可以得到人体区域的实例纹理特征，在深层特征上进行区域映射，例如roi_pooling或roi_align等，可以得到人体区域的实例语义特征。为了减少各层级特征的信息在映射过程中的损失度，可以针对不同尺度的特征采用不同尺度的区域映射方式，即多尺度roi映射方式。

S2042，按照上述实例纹理特征及上述实例语义特征在上述待检测图像中对应的位置，将相同位置的上述实例纹理特征及上述实例语义特征进行特征融合，得到各实例融合特征。

相同位置的实例纹理特征及实例语义特征为同一人体区域的特征。将不同尺度映射下的区域特征经过采样操作得到统一尺寸的实例特征，然后通过特征融合的方式，针对每个人体区域，将该人体区域的实例纹理特征及实例语义特征进行整合，得到该人体区域的实例融合特征，从而得到各人体区域的实例融合特征。

上述通过上述预设神经网络的关键点检测部分对各上述实例特征进行分析，确定各人体关键点，包括：

通过上述预设神经网络的关键点检测部分对各上述实例融合特征进行分析，确定各人体关键点。

预设神经网络的关键点检测部分采用了多任务学习的方法，将联合目标检测和关键点识别任务集中在一个网络模型中，关键点识别模块直接在检测网络上延伸出子网络，将检测结果作为子网络输入，并回归出对应的关键点。相比于采用独立于检测网络的另一个独立网络，极大地节省了预测时间，兼顾识别性能和实用效率。

本申请实施例提供了一种人体关键点检测装置，参见图3，该装置包括：

图像获取模块301，被设置为获取待检测图像；

层级特征提取模块302，被设置为通过预设神经网络的特征提取部分对上述待检测图像进行分析，得到上述待检测图像的多个层级特征；

人体区域确定模块303，被设置为通过上述预设神经网络的人体检测部分对各上述层级特征进行分析，确定各上述层级特征中的人体区域；

实例特征确定模块304，被设置为对各上述层级特征中的人体区域进行区域特征映射，得到各实例特征；

关键点确定模块305，被设置为通过上述预设神经网络的关键点检测部分对各上述实例特征进行分析，确定各人体关键点。

可选的，本申请实施例的人体关键点检测装置还包括：

分布图生成模块，被设置为按照各上述人体关键点，生成人体关键点热力分布图。

上述层级特征提取模块302，包括：

浅层特征提取子模块，被设置为通过上述浅层图像空间特征网络，对上述待检测图像进行处理，得到浅层图像空间特征；

第一中层特征提取子模块，被设置为通过上述第一中层图像空间特征网络，对上述浅层图像空间特征进行处理，得到第一中级图像空间特征；

第二中层特征提取子模块，被设置为通过上述第二中层图像空间特征网络，对上述第一中级图像空间特征进行处理，得到第二中级图像空间特征；

第一深层特征提取子模块，被设置为通过上述第一深层图像语义特征网络，对上述第二中级图像空间特征进行处理，得到第一深层图像语义特征；

第二深层特征浅层特征提取子模块，被设置为通过上述第二深层图像语义特征网络，对上述第一深层图像语义特征进行处理，得到第二深层图像语义特征。

上述人体区域确定模块303，被设置为：通个多个上述人体检测框生成网络，并行对各上述层级特征进行单次回归分析，确定各上述层级特征中的人体区域。

可选的，在本申请实施例的人体关键点检测装置中，各上述人体检测框生成网络的参数相同。

可选的，上述实例特征确定模块304，包括：

特征映射子模块，被配置为对各上述层级特征中的人体区域进行区域特征映射，得到实例纹理特征及实例语义特征；

特征融合子模块，被配置为按照上述实例纹理特征及上述实例语义特征在上述待检测图像中对应的位置，将相同位置的上述实例纹理特征及上述实例语义特征进行特征融合，得到各实例融合特征；

上述关键点确定模块305，被设置为：通过上述预设神经网络的关键点检测部分对各上述实例融合特征进行分析，确定各人体关键点。

本申请实施例还提供了一种电子设备，如图4所示，包括处理器401及存储器402；

上述存储器402，用于存放计算机程序；

上述处理器401，用于执行上述存储器402上所存放的程序时，实现如下步骤：

获取待检测图像；

通过预设神经网络的特征提取部分对上述待检测图像进行分析，得到上述待检测图像的多个层级特征；

通过上述预设神经网络的人体检测部分对各上述层级特征进行分析，确定各上述层级特征中的人体区域；

对各上述层级特征中的人体区域进行区域特征映射，得到各实例特征；

通过上述预设神经网络的关键点检测部分对各上述实例特征进行分析，得到各人体关键点。

可选的，上述处理器401，用于执行上述存储器402上所存放的程序时，还能够实现上述任一人体关键点检测方法。

可选的，本发明实施例的电子设备还包括，通信接口和通信总线，其中，处理器401，通信接口，存储器402通过通信总线完成相互间的通信。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现如下步骤：

获取待检测图像；

可选的，上述计算机程序被处理器执行时，还能够实现上述任一人体关键点检测方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种人体关键点检测方法，其特征在于，所述方法包括：

获取待检测图像；

通过所述预设神经网络的关键点检测部分对各所述实例特征进行分析，得到各人体关键点；

所述预设神经网络的特征提取部分包括浅层图像空间特征网络、第一中层图像空间特征网络、第二中层图像空间特征网络、第一深层图像语义特征网络及第二深层图像语义特征网络；

2.根据权利要求1所述的方法，其特征在于，在所述通过所述预设神经网络的关键点检测部分对各所述实例特征进行分析，得到各人体关键点之后，所述方法还包括：

按照各所述人体关键点，生成人体关键点热力分布图。

3.根据权利要求1所述的方法，其特征在于，所述预设神经网络人体检测部分包括多个人体检测框生成网络；

4.根据权利要求3所述的方法，其特征在于，各所述人体检测框生成网络的参数相同。

5.根据权利要求1所述的方法，其特征在于，所述对各所述层级特征中的人体区域进行区域特征映射，得到各实例特征，包括：

6.一种人体关键点检测装置，其特征在于，所述装置包括：

图像获取模块，被设置为获取待检测图像；

关键点确定模块，被设置为通过所述预设神经网络的关键点检测部分对各所述实例特征进行分析，确定各人体关键点；

所述层级特征提取模块，包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述预设神经网络人体检测部分包括多个人体检测框生成网络；

9.根据权利要求8所述的装置，其特征在于，各所述人体检测框生成网络的参数相同。

10.根据权利要求6所述的装置，其特征在于，所述实例特征确定模块，包括：

11.一种电子设备，其特征在于，包括处理器和存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。