CN111652054B

CN111652054B - 关节点检测方法、姿态识别方法及装置

Info

Publication number: CN111652054B
Application number: CN202010320061.1A
Authority: CN
Inventors: 蔡元昊; 王志成; 周而进
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2023-11-03
Anticipated expiration: 2040-04-21
Also published as: CN111652054A

Abstract

本发明提供了一种关节点检测方法、姿态识别方法及装置，该方法包括：获取待检测的人物图像；通过多阶段密集连接残差神经网络对人物图像进行关节点检测，得到人物图像中所包含的所有关节点的关节热力图；其中，多阶段密集连接残差神经网络包括多个单阶段密集连接残差神经网络；单阶段密集连接残差神经网络包括多个密集连接残差单元；基于关节热力图确定人物图像中的关节点。本发明可以有效提高关节点检测的准确性。

Description

关节点检测方法、姿态识别方法及装置

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种关节点检测方法、姿态识别方法及装置。

背景技术

人体姿态估计技术是计算机视觉领域的重要分支，该项技术可以通过定位人体的各个关节点以确定人体的姿态。近年来随着神经网络的发展人体姿态估计技术的研究也逐步取得了长足的进展，其中，为了较好地对人体关节点进行定位与分类，现有技术中提出利用诸如多尺度特征等算法对人体关节点进行检测，以适应不同尺寸的人体关节点。然而由于估计关节点检测的场景可能较为复杂，例如存在人体被遮挡、人体分布密集以及背景繁杂等问题，将影响人体关节点的定位的准确性，从而导致人体关节点的误检或漏检，也即现有的关节点检测方法存在检测结果准确性较低的问题。

发明内容

有鉴于此，本发明的目的在于提供一种关节点检测方法、姿态识别方法及装置，可以有效提高关节点检测的准确性。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种关节点检测方法，包括：获取待检测的人物图像；通过多阶段密集连接残差神经网络对所述人物图像进行关节点检测，得到所述人物图像中所包含的所有关节点的关节热力图；其中，所述多阶段密集连接残差神经网络包括多个单阶段密集连接残差神经网络；所述单阶段密集连接残差神经网络包括多个密集连接残差单元；基于所述关节热力图确定所述人物图像中的关节点。

在一种实施方式中，所述获取待检测的人物图像的步骤，包括：获取待检测的原始图像；将所述原始图像输入至目标检测网络，得到标注有人物包围框的原始图像；截取所述人物包围框所在区域，得到待检测的人物图像。

在一种实施方式中，所述多阶段密集连接残差神经网络包括多个阶段的网络结构，每个阶段的网络结构均包括单阶段密集连接残差神经网络、上采样网络和热力图网络；所述通过多阶段密集连接残差神经网络对所述人物图像进行关节点检测，得到所述人物图像中所包含的所有关节点的关节热力图的步骤，包括：对于每个阶段的网络结构，通过该阶段内的单阶段密集连接残差神经网络对该阶段对应的指定图像进行下采样处理，得到该阶段的下采样特征图；通过该阶段内的上采样网络对该阶段的下采样特征图进行上采样处理，得到该阶段的人物特征图；通过该阶段内的热力图网络基于该阶段的人物特征图生成当前热力图；其中，第一阶段的网络结构对应的指定图像为所述人物图像，其余阶段的网络结构对应的指定图像为上一阶段得到的人物特征图；将最后一阶段的网络结构生成的当前热力图，作为所述人物图像中所包含的所有关节点的关节热力图。

在一种实施方式中，所述密集连接残差单元包括预设分支数量的卷积分支；各个所述卷积分支中包含的卷积核数量不同；所述通过该阶段内的单阶段密集连接残差神经网络对该阶段对应的指定图像进行下采样处理的步骤，包括：对于每个密集连接残差单元，通过矩阵形式表征该阶段对应的指定图像，并按照特征通道将所述指定图像均匀拆分为多个矩阵；其中，所述特征通道与人物对象的关节点一一对应；所述矩阵的数量为所述预设分支数量；将各个所述矩阵分别输入至该密集连接残差单元的各个卷积分支，并按照所述特征通道合并各个所述卷积分支输出的特征，以实现对所述指定图像进行下采样处理。

在一种实施方式中，所述将各个所述矩阵分别输入至该密集连接残差单元的各个卷积分支的步骤，包括：对于每个卷积分支，将该卷积分支内的第n-1个卷积核输出的特征，与该卷积分支对应的前一卷积分支内的第n个卷积核输出的特征进行特征融合，并将所述特征融合后的特征输入至该卷积分支内的第n个卷积核；其中，n为大于1的自然数；或，将该卷积分支内的第n-1个卷积核输出的特征，输入至该卷积分支的第n个卷积核。

在一种实施方式中，所述方法还包括：基于各个阶段的网络结构生成的当前热力图计算平方损失值，用以训练所述多阶段密集连接残差神经网络。

在一种实施方式中，所述方法还包括：通过姿态改善网络优化所述多阶段密集连接残差神经网络的最后一阶段输出的人物特征图，得到目标特征图；基于所述目标特征图生成所述人物图像中所包含的所有关节点的关节热力图。

在一种实施方式中，所述姿态改善网络包括第一卷积层、顶层子网络、中间子网络、底层子网络和第二卷积层；其中，第一卷积层的输出分别与所述顶层子网络、所述中间子网络和所述底层子网络的输入相连，所述第二卷积层的输入分别与所述顶层子网络、所述中间子网络和所述底层子网络的输出相连；所述中间子网络包括依次相连的全局池化层、第三卷积层、第四卷积层和第一激活函数；所述底层子网络包括依次连接的第五卷积层、深度可分离卷积层和第二激活函数。

在一种实施方式中，所述通过姿态改善网络优化所述多阶段密集连接残差神经网络的最后一阶段输出的人物特征图，得到目标特征图的步骤，包括：将所述多阶段密集连接残差神经网络的最后一阶段输出的人物特征图输入至所述第一卷积层，得到所述第一卷积层输出的第一特征图；通过所述中间子网络计算所述第一特征图中各个特征通道对应的权重，基于所述第一特征图和各个所述特征通道对应的权重计算第二特征图；通过所述底层子网络基于注意力机制确定所述第一特征图对应的注意力特征图；对所述第二特征图和所述注意力特征图进行按位相乘处理，得到第三特征图；通过所述顶层子网络对所述第一特征图和所述第三特征图进行按位相加处理，得到目标特征图；所述基于所述目标特征图生成所述人物图像中所包含的所有关节点的关节热力图的步骤，包括：将所述目标特征图输入至所述第二卷积层，得到所述人物图像中所包含的所有关节点的关节热力图。

在一种实施方式中，所述基于所述关节热力图确定所述人物图像中的关节点的步骤，包括：利用高斯模糊算法对所述关节热力图中各个像素点的像素值进行统计处理；对于所述关节热力图与每个特征通道对应的区域，将该区域中像素值最大的像素点作为该区域对应的特征通道的目标像素点；将各个所述特征通道的目标像素点对应的坐标值映射至所述人物图像，得到所述人物图像中的关节点。

第二方面，本发明实施例还提供一种姿态识别方法，包括：采用如第一方面提供的任一项所述的方法对待检测的人物图像进行关节点检测，得到所述人物图像中所包含的人物对象的多个关节点；根据所述人物对象的多个关节点识别所述人物对象的姿态。

第三方面，本发明实施例提供了一种关节点检测装置，包括：人物图像获取模块，用于获取待检测的人物图像；热力图获取模块，用于通过多阶段密集连接残差神经网络对所述人物图像进行关节点检测，得到所述人物图像中所包含的所有关节点的关节热力图；其中，所述多阶段密集连接残差神经网络包括多个单阶段密集连接残差神经网络；所述单阶段密集连接残差神经网络包括多个密集连接残差单元；关节点确定模块，用于基于所述关节热力图确定所述人物图像中的关节点。

第四方面，本发明实施例提供了一种姿态识别装置，包括：关节检测模块，用于采用如第一方面提供的任一项所述的方法对待检测的人物图像进行关节点检测，得到所述人物图像中人物对象的多个关节点；姿态识别模块，用于根据所述人物对象的多个关节点识别所述人物对象的姿态。

第五方面，本发明实施例提供了一种电子设备，包括处理器和存储器；所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面提供的任一项所述的方法，或，执行如第二方面提供的所述的方法。

第六方面，本发明实施例提供了一种计算机存储介质，用于储存为第一方面提供的任一项所述方法所用的计算机软件指令，或，执行储存为第二方面提供的所述方法所用的计算机软件指令。

本发明实施例提供了一种关节点检测方法及装置，首先获取待检测的人物图像，并通过多阶段密集连接残差神经网络对人物图像进行关节点检测，得到人物图像中所包含的所有关节点的关节热力图，进而基于该关节热力图确定人物图像中的关节点，其中，上述多阶段密集连接残差神经网络包括多个单阶段密集连接残差神经网络，单阶段密集连接残差神经网络又包括多个密集连接残差单元。上述方法利用多阶段密集连接残差神经网络对人物图像进行关节点检测，充分利用了人物图像的特征，使得到的关节热力图更为贴合人物图像中人物对象的各个关节点，从而较好地适应复杂场景下的关节点检测，大幅提高了关节点检测的精度，可以有效提高关节点检测的准确性，可较为全面准确的检测出人体关节点。

本发明实施例提供了一种姿态识别方法及装置，利用上述关节点检测方法及装置对待检测的人物图像进行关节点检测，得到人物图像中包含的人物对象的多个关节点，进而根据人物对象的多个关节点识别人物对象的姿态。上述方法利用检测精度较高的关节点检测方法对人物图像的关节点进行检测，并在此基础上识别人物对象的姿态，从而可以识别得到更为准确的人体姿态。

本发明实施例的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明实施例的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种关节点检测方法的流程示意图；

图3示出了本发明实施例所提供的一种多阶段密集连接残差神经网络的结构示意图；

图4示出了本发明实施例所提供的另一种多阶段密集连接残差神经网络的结构示意图；

图5示出了本发明实施例所提供的一种单阶段密集连接残差神经网络的结构示意图；

图6示出了本发明实施例所提供的一种密集连接残差单元的结构示意图；

图7示出了本发明实施例所提供的一种姿态改善网络的结构示意图；

图8示出了本发明实施例所提供的另一种姿态改善网络的结构示意图；

图9示出了本发明实施例所提供的一种姿态识别方法的流程示意图；

图10示出了本发明实施例所提供的一种关节点检测装置的结构示意图；

图11示出了本发明实施例所提供的一种姿态识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

目前检测人物关节点的方法通常存在检测结果精度较低的问题，为改善此问题，本发明实施例提供的一种关节点检测方法、姿态识别方法及装置，该技术可应用于需要对关节点进行检测的场景，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的一种关节点检测方法、姿态识别方法及装置的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备可以具有图1示出的部分组件，也可以具有图1未示出其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的关节点检测方法、姿态识别方法及装置的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。

实施例二：

参见图2所示的一种关节点检测方法的流程示意图，该方法主要包括以下步骤S202至步骤S206：

步骤S202，获取待检测的人物图像。

其中，人物图像中可以基于待检测的原始图像获取，原始图像可以包含有一个或多个人物对象，为较好地对原始图像中的各个人物对象的关节点进行检测，本发明实施例可以检测原始图像中所包含的人物对象，并从原始图像中截取每个人物对象，以得到原始图像中各个人物对象对应的人物图像。

步骤S204，通过多阶段密集连接残差神经网络对人物图像进行关节点检测，得到人物图像中所包含的所有关节点的关节热力图。

其中，关节热力图用于指示人物图像中关节点所在位置，多阶段密集连接残差神经网络包括多个单阶段密集连接残差神经网络，单阶段密集连接残差神经网络包括多个密集连接残差单元。为便于对本发明实施例提供的多阶段密集连接残差神经网络进行理解，本发明实施例提供了一种多阶段密集连接残差神经网络的结构示意图，如图3所示，多阶段密集连接残差神经网络(Multi-Stage Residual Steps Network)包括多个阶段的网络结构，每个网络结构均包括单阶段密集连接残差神经网络(RSN，Residual Steps Network)，每个RSN又包括多个依次连接的密集连接残差单元(RSB，Residual Steps Block)，每个阶段的网络结构均用于下采样处理、上采样处理和生成热力图，充分地利用了人物图像的低层特征，并将最后一个阶段生成的热力图作为关节热力图。

步骤S206，基于关节热力图确定人物图像中的关节点。

在一种实施方式中，可以按特征通道将关节热力图分为多个区域，其中，每个特征通道对应一个关节点，在基于关节热力图确定人物图像中的关节点时，可以通过确定各个区域中像素值最大的像素点，并将该像素点的坐标确定为该区域对应的关节点的坐标，从而实现检测人物图像中所包含的关节点。

本发明实施例提供的上述关节点检测方法，首先获取待检测的人物图像，并通过多阶段密集连接残差神经网络对人物图像进行关节点检测，得到人物图像中所包含的所有关节点的关节热力图，进而基于该关节热力图确定人物图像中的关节点。上述方法利用多阶段密集连接残差神经网络对人物图像进行关节点检测，充分利用了人物图像的特征，使得到的关节热力图更为贴合人物图像中人物对象的各个关节点，从而较好地适应复杂场景下的关节点检测，大幅提高了关节点检测的精度，可以有效提高关节点检测的准确性，可较为全面准确的检测出人体关节点。

在实际应用中，通过诸如智能手机或相机等具有拍摄功能拍摄得到的原始图像中可能存在多个人物对象，原始图像可能存在人物堆叠、人物分布密集或图像背景较为复杂等问题，导致检测该原始图像的关节点的难度较大。而为了较为准确地检测原始图像中每个人物对象的关节点，本发明实施例将原始图像中所包含的人物对象均截取出来，得到各个人物对象分别对应的人物图像，进而分别对每个人物对象的关节点进行检测，在一定程度上降低了检测关节点的难度，进而提高了关节点检测的精度。

本发明实施例提供了一种获取待检测的人物图像的具体实施方式，(1)获取待检测的原始图像。在一些实施方式中，可以通过具有拍摄功能的电子设备采集原始图像，也可以直接接收人为上传或网络下载的图像，例如，向用户提供上传通道，用户可自行选择并上传需要检测关节点的图像。(2)将原始图像输入至目标检测网络，得到标注有人物包围框的原始图像。其中，目标检测网络可以采用诸如Megdet网络、R-CNN(Region-basedConvolutional Network)网络、YOLO(You Only Look Once)网络或SSD(Single ShotMulti-Box Detector)网络等，人物包围框可以为用于标注人物对象的矩形框。为得到检测质量较高的人物包围框，本发明实施例利用Megdet网络检测原始图像中包含的人物对象，以得到通过人物包围框标注人物对象的原始图像。(3)截取人物包围框所在区域，得到待检测的人物图像。在一种实施方式中，将各个人物包围框在原始图像中所在的区域截取下来即可得到人物图像，为了进一步提高关节点检测的精度，本发明实施例还可以将截取到的人物图像缩放至指定尺寸，例如，将人物图像的尺寸缩放为384×288，并在后续检测过程中对该指定尺寸的人物图像进行关节点检测。

为便于对上述多阶段密集连接残差神经网络进一步理解，本发明实施例提供了另一种多阶段密集连接残差神经网络的结构示意图，如图4所示，该多阶段密集连接残差神经网络包括多个阶段的网络结构，每个阶段的网络结构均包括单阶段密集连接残差神经网络、上采样网络和热力图网络(图中未示出)。其中，第一阶段的单阶段密集连接残差神经网络的输入为人物图像，其余阶段的单阶段密集连接残差神经网络的输入为前一阶段上采样网络输出的人体特征图，每个阶段的单阶段密集连接残差神经网络的输出为下采样特征图；每个阶段的上采样网络的输入为该阶段的单阶段密集连接残差神经网络输出的下采样特征图，输出为人体特征图；每个阶段的热力图网络的输入为该阶段的上采样网络输出的人体特征图，输出为当前热力图。

在图4的基础上，本发明实施例提供了一种通过多阶段密集连接残差神经网络对人物图像进行关节点检测，得到人物图像中所包含的所有关节点的关节热力图的具体实施方式，对于每个阶段的网络结构，通过该阶段内的单阶段密集连接残差神经网络对该阶段对应的指定图像进行下采样处理，得到该阶段的下采样特征图；通过该阶段内的上采样网络对该阶段的下采样特征图进行上采样处理，得到该阶段的人物特征图；通过该阶段内的热力图网络基于该阶段的人物特征图生成当前热力图(Headmap)。其中，第一阶段的网络结构对应的指定图像为人物图像，其余阶段的网络结构对应的指定图像为上一阶段得到的人物特征图。例如，对于第m阶段的网络结构，通过第m阶段的单阶段密集连接残差神经网络对第m-1阶段的上采样网络输出的人体特征图进行下采样处理，得到第m阶段的下采样特征图，通过第m阶段的上采样网络对第m阶段的下采样特征图进行上采样处理，得到第m阶段的人体特征图，通过第m阶段的热力图网络基于第m阶段的人体特征图生成第m阶段的当前热力图，其中，m为大于1的自然数。在实际应用中，可将最后一阶段的网络结构生成的当前热力图，作为人物图像中所包含的所有关节点的关节热力图。

对于上述实施例提及的单阶段密集连接残差神经网络，本发明实施例提供了一种单阶段密集连接残差神经网络，具体可参见图5所示的一种单阶段密集连接残差神经网络的结构示意图，图5中示意出了单阶段密集连接残差神经网络包括多个依次连接的密集连接残差单元，本发明实施例在通过该阶段内的单阶段密集连接残差神经网络对该阶段对应的指定图像进行下采样处理时，可以通过该单阶段密集连接残差神经网络内的各个密集连接残差单元依次对指定图像进行下采样处理。

在一种具体的实施方式中，上述图5所示的每个密集连接残差单元均包括预设分支数量的卷积分支，且各个卷积分支中包含的卷积核数量不同。本发明实施例示例性提供了一种密集连接残差单元，假设预设分支数量为4，参见图6所示的一种密集连接残差单元的结构示意图，其中，第一卷积分支f1包括依次连接的一个1*1卷积核和一个3*3卷积核，第二卷积分支f2包括依次连接的一个1*1卷积核和两个3*3卷积核，第三卷积分支包括依次连接的一个1*1卷积核和三个3*3卷积核，第四卷积分支包括一个1*1卷积核和四个3*3卷积核，且第一卷积分支f1、第二卷积分支f2、第三卷积分支f3和第四卷积分支f4均经一个1*1卷积核输出。

在图6的基础上，可以按照如下过程执行通过该阶段内的单阶段密集连接残差神经网络对该阶段对应的指定图像进行下采样处理的步骤，在一种具体的实施方式中，对于每个密集连接残差单元，通过矩阵形式表征该阶段对应的指定图像，并按照特征通道将指定图像均匀拆分为多个矩阵，然后将各个矩阵分别输入至该密集连接残差单元的各个卷积分支，并按照特征通道合并各个卷积分支输出的特征，以实现对指定图像进行下采样处理。其中，特征通道与人物对象的关节点一一对应，例如，手肘部对应一个特征通道和手腕部对应一个特征通道等，矩阵的数量为预设分支数量。例如，假设预设分支数量为4，则按照特征通道将用于表征指定图像的矩阵均匀拆分为4等份，得到特征矩阵1、特征矩阵2、特征矩阵3和特征矩阵4。其中，第一卷积分支f1的输入为特征矩阵1，输出为y1；同理，第一卷积分支f2的输入为特征矩阵2，输出为y2；第一卷积分支f3的输入为特征矩阵3，输出为y3；第一卷积分支f4输入为特征矩阵4，输出为y4，将输出y1、y2、y3和y4按照特征通道进行合并，并经过1*1卷积核，从而实现通过该密集连接残差单元对指定图像进行下采样处理。

在实际应用中，为使各个卷积分支输出的特征的感受野差异较小，使特征融合更加精细以及使梯度回传效果更佳，本发明实施例在将各个矩阵分别输入至该密集连接残差单元的各个卷积分支时，可以使每个卷积分支内的卷积核输出的特征矩阵与下一个卷积分支内的卷积核输出的特征矩阵利用矩阵按位相加的方式进行特征融合，从而能提取较为充分的空间纹理信息使关节点的定位更为精准。在一种实施方式中，对于每个卷积分支，将该卷积分支内的第n-1个卷积核输出的特征，与该卷积分支对应的前一卷积分支内的第n个卷积核输出的特征进行特征融合，并将特征融合后的特征输入至该卷积分支内的第n个卷积核，其中，n为大于1的自然数，例如，对于第四卷积分支f4，将第四卷积分支f4内的第3个卷积核输出的特征，与第三个卷积分支f3内第4个卷积核输出的特征进行按位相加处理，得到特征融合后的特征，并将该特征融合后的特征输入至第四卷积分支f4的第4个卷积核。在另一种实施方式中，也可以将该卷积分支内的第n-1个卷积核输出的特征，输入至该卷积分支的第n个卷积核，例如，第四卷积分支f4内的第4个卷积核输出的特征直接输入至第四卷积分支f4内的第5个卷积核。

为便于对上述过程进行理解，本发明实施例以图6所示的密集连接残差网络为例，进一步解释说明密集连接残差单元进行下采样的过程。特征矩阵1输入至第一卷积分支f1，经1*1卷积核和3*3卷积核后，将3*3卷积核输出的特征输入至第二卷积分支f2；特征矩阵2输入至第二卷积分支f2，将经1*1卷积核输出的特征与上述第一卷积分支f1中3*3卷积核输出的特征进行按位相加，并将按位相加后的特征输入至第二卷积分支f2的第一个3*3卷积核，将第二卷积分支f2的第一个3*3卷积核输出的特征分别输入至第三卷积分支f3和第二卷积分支f2的第二个3*3卷积核，以及将经第二个3*3卷积核输出的特征输入至第三卷积分支f3；以此类推，按照上述方法对输入至第三卷积分支和第四卷积分支的特征进行处理。其中，按位相加也即将特征矩阵中相同位置的元素进行相加处理。

另外，本发明实施例还可以基于各个阶段的网络结构生成的当前热力图计算平方损失值，用以训练多阶段密集连接残差神经网络。在具体实现时，每一个阶段中，指定图像被依次降采样到1/4、1/8、1/16和1/32，得到下采样特征图，然后又通过上采样网络对下采样特征图进行上采样处理得到人物特征图，并将上采样网络输出的人物特征图输入至下一阶段中进一步提高检测精度，同时通过热力图网络基于该人物特征图生成用于表征关节点的当前热力图，并利用各个阶段的当前热力图计算平方损失值。

在实际应用中，最后一个阶段输出人物特征图中，高层特征和低层特征混合在一起，其中，高层特征中包含较多的语义描述信息，这些语义描述信息有利于关节点的分类，低层特征中包含较多的空间纹理信息，这些空间文理信息有利于关键点的定位。由于混合的信息对最终的关节点检测效果的贡献不同，因此需要对这些特征重新分配权重来使其发挥更好的作用。基于此，本发明实施例还提出利用姿态改善网络对最后一个阶段输出的人物特征图进行优化，具体可参见如下步骤1至步骤2：

步骤1，通过姿态改善网络优化多阶段密集连接残差神经网络的最后一阶段输出的人物特征图，得到目标特征图。为便于对步骤1进行理解，本发明实施例还提供了一种姿态改善网络的结构示意图，如图7所示，姿态改善网络实质为一种注意力机制，姿态改善网络包括第一卷积层、顶层子网络、中间子网络、底层子网络和第二卷积层。其中，第一卷积层的输出分别与顶层子网络、中间子网络和底层子网络的输入相连，第二卷积层的输入分别与顶层子网络、中间子网络和底层子网络的输出相连。在具体实现时，该姿态改善网络可与多阶段密集连接残差神经网络的最后一个阶段内的上采样网络相连，以对该上采样网络输出的人物特征图进行优化，如图4所示。

基于图7所示的姿态改善网络，可以按照如下步骤1.1至步骤1.5优化多阶段密集连接残差神经网络的最后一阶段输出的人物特征图，得到目标特征图：

步骤1.1，将多阶段密集连接残差神经网络的最后一阶段输出的人物特征图输入至第一卷积层，得到第一卷积层输出的第一特征图。在一种实施方式中，第一卷积层可以包括一个3*3的卷积核。

步骤1.2，通过中间子网络计算第一特征图中各个特征通道对应的权重，基于第一特征图和各个特征通道对应的权重计算第二特征图。为便于对步骤1.2进行理解，本发明实施例提供了另一种姿态改善网络的结构示意图，如图8所示，其中，中间子网络包括依次相连的全局池化层(GP，global pooling)、第三卷积层、第四卷积层和第一激活函数(Sigmoid)，中间子网络用于按特征通道为输入的人物特征图分配权重，地中，第三卷积层和第四卷积层均可以包含1*1的卷积核。在具体实现时，中间子网络确定各个特征通道对应的权重α，并基于该权重α对第一特征图重新赋值，得到第二特征图。

步骤1.3，通过底层子网络基于注意力机制确定第一特征图对应的注意力特征图。参见上述图8所示，底层子网络包括依次连接的第五卷积层、深度可分离卷积层(DW9*9)和第二激活函数，用于生成注意力特征图，该注意力特征图可用于给输入的人物特征图在二维控件平面上分配权重。其中，第五卷积层可以包括1*1卷积核。

步骤1.4，对第二特征图和注意力特征图进行按位相乘处理，得到第三特征图。在一种实施方式中，可以预先设置注意力权重β，通过该注意力权重β为注意力特征图重新赋值，并将重新赋值后的注意力特征图与第二特征图进行按位相乘处理，得到第三特征图。

步骤1.5，通过顶层子网络对第一特征图和第三特征图进行按位相加处理，得到目标特征图。其中，顶层子网络为跳级连接，该顶层子网络的作用为学习残差。

步骤2，基于目标特征图生成人物图像中所包含的所有关节点的关节热力图。在一种实施方式中，可以将目标特征图输入至第二卷积层，得到人物图像中所包含的所有关节点的关节热力图。其中，第二卷积层可以包括1*1卷积核。

在实际应用中，人物对象通常包含17个关节点，每个关节点对应一个特征通道，也即可以将关节热力图划分为17个特征通道，每一个特征通道的峰值所在的位置即为关节点的位置。本发明实施例提供了上述步骤S106的具体实现方式，首先利用高斯模糊算法对关节热力图中各个像素点的像素值进行统计处理，然后对于关节热力图与每个特征通道对应的区域，将该区域中像素值最大的像素点作为该区域对应的特征通道的目标像素点，并将各个特征通道的目标像素点对应的坐标值映射至人物图像，得到人物图像中的关节点。其中，高斯模糊算法可以根据高斯曲线调节关节热力图中各个像素点的像素值，用以减少关节点热力图中存在的噪声，同时统计关节热力图中各个像素点的像素值，确定出该关节热力图中各个特征通道对应的最大像素值，将该最大像素值所在的坐标值确定为关节点所在的坐标值，通过将该坐标值映射至人物图像中，即可确定人物对象的关节点。

综上所述，本发明实施例提供的上述关节点检测方法，利用多阶段密集连接残差神经网络充分挖掘了人物图像的低层特征，使人体关节点的检测精度得到了大幅度的提升。另外，本发明实施例还利用姿态改善机(也即，上述姿态改善网络)平衡高层特征和低层特征，使平衡后的特征图更好地体现人物对象的特征，进而在此基础上进一步提高关节点检测的精度。

实施例三：

在实施例二提供的关节点检测方法的基础上，本发明实施例提供了一种姿态识别方法，参见图9所示的一种姿态识别方法的流程示意图，该方法主要包括以下步骤S902至步骤S904：

步骤S902，采用如实施例二任一项的方法对待检测的人物图像进行关节点检测，得到人物图像中所包含的人物对象的多个关节点。在一种实施方式中，可以将人物图像输入至多阶段密集连接残差神经网络中，通过该多阶段密集连接残差神经网络对人物图像中的关节点进行检测，得到该人物图像对应的关节热力图，进而基于该关节热力图得到人物对象的多个关节点，其中，多阶段密集连接残差神经网络的结构可参照前述实施例二，本发明实施例在此不再赘述。

步骤S904，根据人物对象的多个关节点识别人物对象的姿态。其中，关节点也可理解为人体骨骼关键点，用于描述人体姿态，因此得到人物帝乡的多个关节点后，按照人体骨架结构连接各个关节点即可得到人物对象的姿态。

本发明实施例提供的上述姿态识别方法，利用上述关节点检测方法及装置对待检测的人物图像进行关节点检测，得到人物图像中包含的人物对象的多个关节点，进而根据人物对象的多个关节点识别人物对象的姿态。上述方法利用检测精度较高的关节点检测方法对人物图像的关节点进行检测，并在此基础上识别人物对象的姿态，从而可以识别得到更为准确的人体姿态。

实施例四：

对于实施例二中所提供的关节点检测方法，本发明实施例提供了一种关节点检测装置，参见图10所示的一种关节点检测装置的结构示意图，该装置包括以下模块：

人物图像获取模块1002，用于获取待检测的人物图像。

热力图获取模块1004，用于通过多阶段密集连接残差神经网络对人物图像进行关节点检测，得到人物图像中所包含的所有关节点的关节热力图；其中，多阶段密集连接残差神经网络包括多个单阶段密集连接残差神经网络；单阶段密集连接残差神经网络包括多个密集连接残差单元。

关节点确定模块1006，用于基于关节热力图确定人物图像中的关节点。

本发明实施例提供的上述关节点检测装置，利用多阶段密集连接残差神经网络对人物图像进行关节点检测，充分利用了人物图像的特征，使得到的关节热力图更为贴合人物图像中人物对象的各个关节点，从而较好地适应复杂场景下的关节点检测，大幅提高了关节点检测的精度，可以有效提高关节点检测的准确性，可较为全面准确的检测出人体关节点。

在一种实施方式中，上述人物图像获取模块1002还用于：获取待检测的原始图像；将原始图像输入至目标检测网络，得到标注有人物包围框的原始图像；截取人物包围框所在区域，得到待检测的人物图像。

在一种实施方式中，多阶段密集连接残差神经网络包括多个阶段的网络结构，每个阶段的网络结构均包括单阶段密集连接残差神经网络、上采样网络和热力图网络；上述热力图获取模块1004还用于：对于每个阶段的网络结构，通过该阶段内的单阶段密集连接残差神经网络对该阶段对应的指定图像进行下采样处理，得到该阶段的下采样特征图；通过该阶段内的上采样网络对该阶段的下采样特征图进行上采样处理，得到该阶段的人物特征图；通过该阶段内的热力图网络基于该阶段的人物特征图生成当前热力图；其中，第一阶段的网络结构对应的指定图像为人物图像，其余阶段的网络结构对应的指定图像为上一阶段得到的人物特征图；将最后一阶段的网络结构生成的当前热力图，作为人物图像中所包含的所有关节点的关节热力图。

在一种实施方式中，密集连接残差单元包括预设分支数量的卷积分支；各个卷积分支中包含的卷积核数量不同；上述热力图获取模块1004还用于：对于每个密集连接残差单元，通过矩阵形式表征该阶段对应的指定图像，并按照特征通道将指定图像均匀拆分为多个矩阵；其中，特征通道与人物对象的关节点一一对应；矩阵的数量为预设分支数量；将各个矩阵分别输入至该密集连接残差单元的各个卷积分支，并按照特征通道合并各个卷积分支输出的特征，以实现对指定图像进行下采样处理。

在一种实施方式中，上述热力图获取模块1004还用于：对于每个卷积分支，将该卷积分支内的第n-1个卷积核输出的特征，与该卷积分支对应的前一卷积分支内的第n个卷积核输出的特征进行特征融合，并将特征融合后的特征输入至该卷积分支内的第n个卷积核；其中，n为大于1的自然数；或，将该卷积分支内的第n-1个卷积核输出的特征，输入至该卷积分支的第n个卷积核。

在一种实施方式中，上述装置还包括训练模块，用于：基于各个阶段的网络结构生成的当前热力图计算平方损失值，用以训练多阶段密集连接残差神经网络。

在一种实施方式中，上述装置还包括改善模块，用于：通过姿态改善网络优化多阶段密集连接残差神经网络的最后一阶段输出的人物特征图，得到目标特征图；基于目标特征图生成人物图像中所包含的所有关节点的关节热力图。

在一种实施方式中，姿态改善网络包括第一卷积层、顶层子网络、中间子网络、底层子网络和第二卷积层；其中，第一卷积层的输出分别与顶层子网络、中间子网络和底层子网络的输入相连，第二卷积层的输入分别与顶层子网络、中间子网络和底层子网络的输出相连；中间子网络包括依次相连的全局池化层、第三卷积层、第四卷积层和第一激活函数；底层子网络包括依次连接的第五卷积层、深度可分离卷积层和第二激活函数。

在一种实施方式中，上述改善模块还用于：将多阶段密集连接残差神经网络的最后一阶段输出的人物特征图输入至第一卷积层，得到第一卷积层输出的第一特征图；通过中间子网络计算第一特征图中各个特征通道对应的权重，基于第一特征图和各个特征通道对应的权重计算第二特征图；通过底层子网络基于注意力机制确定第一特征图对应的注意力特征图；对第二特征图和注意力特征图进行按位相乘处理，得到第三特征图；通过顶层子网络对第一特征图和第三特征图进行按位相加处理，得到目标特征图；基于目标特征图生成人物图像中所包含的所有关节点的关节热力图的步骤，包括：将目标特征图输入至第二卷积层，得到人物图像中所包含的所有关节点的关节热力图。

在一种实施方式中，上述关节点确定模块1006还用于：利用高斯模糊算法对关节热力图中各个像素点的像素值进行统计处理；对于关节热力图与每个特征通道对应的区域，将该区域中像素值最大的像素点作为该区域对应的特征通道的目标像素点；将各个特征通道的目标像素点对应的坐标值映射至人物图像，得到人物图像中的关节点。

对于实施例三中所提供的姿态识别方法，本发明实施例提供了一种姿态识别装置，参见图11所示的一种姿态识别装置的结构示意图，该装置包括以下模块：

关节检测模块1102，用于采用如实施例二任一项的方法对待检测的人物图像进行关节点检测，得到人物图像中人物对象的多个关节点。

姿态识别模块1104，用于根据人物对象的多个关节点识别人物对象的姿态。

本发明实施例提供的上述姿态识别装置，利用检测精度较高的关节点检测方法对人物图像的关节点进行检测，并在此基础上识别人物对象的姿态，从而可以识别得到更为准确的人体姿态。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例五：

本发明实施例所提供的关节点检测方法、姿态识别方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种关节点检测方法，其特征在于，包括：

获取待检测的人物图像；

通过多阶段密集连接残差神经网络对所述人物图像进行关节点检测，得到所述人物图像中所包含的所有关节点的关节热力图；其中，所述多阶段密集连接残差神经网络包括多个单阶段密集连接残差神经网络；所述单阶段密集连接残差神经网络用于下采样处理；所述单阶段密集连接残差神经网络包括多个密集连接残差单元；

基于所述关节热力图确定所述人物图像中的关节点。

2.根据权利要求1所述的方法，其特征在于，所述获取待检测的人物图像的步骤，包括：

获取待检测的原始图像；

将所述原始图像输入至目标检测网络，得到标注有人物包围框的原始图像；

截取所述人物包围框所在区域，得到待检测的人物图像。

3.根据权利要求1所述的方法，其特征在于，所述多阶段密集连接残差神经网络包括多个阶段的网络结构，每个阶段的网络结构均包括单阶段密集连接残差神经网络、上采样网络和热力图网络；

所述通过多阶段密集连接残差神经网络对所述人物图像进行关节点检测，得到所述人物图像中所包含的所有关节点的关节热力图的步骤，包括：

对于每个阶段的网络结构，通过该阶段内的单阶段密集连接残差神经网络对该阶段对应的指定图像进行下采样处理，得到该阶段的下采样特征图；通过该阶段内的上采样网络对该阶段的下采样特征图进行上采样处理，得到该阶段的人物特征图；通过该阶段内的热力图网络基于该阶段的人物特征图生成当前热力图；其中，第一阶段的网络结构对应的指定图像为所述人物图像，其余阶段的网络结构对应的指定图像为上一阶段得到的人物特征图；

将最后一阶段的网络结构生成的当前热力图，作为所述人物图像中所包含的所有关节点的关节热力图。

4.根据权利要求3所述的方法，其特征在于，所述密集连接残差单元包括预设分支数量的卷积分支；各个所述卷积分支中包含的卷积核数量不同；

所述通过该阶段内的单阶段密集连接残差神经网络对该阶段对应的指定图像进行下采样处理的步骤，包括：

对于每个密集连接残差单元，通过矩阵形式表征该阶段对应的指定图像，并按照特征通道将所述指定图像均匀拆分为多个矩阵；其中，所述特征通道与人物对象的关节点一一对应；所述矩阵的数量为所述预设分支数量；

将各个所述矩阵分别输入至该密集连接残差单元的各个卷积分支，并按照所述特征通道合并各个所述卷积分支输出的特征，以实现对所述指定图像进行下采样处理。

5.根据权利要求4所述的方法，其特征在于，所述将各个所述矩阵分别输入至该密集连接残差单元的各个卷积分支的步骤，包括：

对于每个卷积分支，将该卷积分支内的第n-1个卷积核输出的特征，与该卷积分支对应的前一卷积分支内的第n个卷积核输出的特征进行特征融合，并将所述特征融合后的特征输入至该卷积分支内的第n个卷积核；其中，n为大于1的自然数；

或，将该卷积分支内的第n-1个卷积核输出的特征，输入至该卷积分支的第n个卷积核。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于各个阶段的网络结构生成的当前热力图计算平方损失值，用以训练所述多阶段密集连接残差神经网络。

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

通过姿态改善网络优化所述多阶段密集连接残差神经网络的最后一阶段输出的人物特征图，得到目标特征图；

基于所述目标特征图生成所述人物图像中所包含的所有关节点的关节热力图。

8.根据权利要求7所述的方法，其特征在于，所述姿态改善网络包括第一卷积层、顶层子网络、中间子网络、底层子网络和第二卷积层；其中，第一卷积层的输出分别与所述顶层子网络、所述中间子网络和所述底层子网络的输入相连，所述第二卷积层的输入分别与所述顶层子网络、所述中间子网络和所述底层子网络的输出相连；

所述中间子网络包括依次相连的全局池化层、第三卷积层、第四卷积层和第一激活函数；所述底层子网络包括依次连接的第五卷积层、深度可分离卷积层和第二激活函数。

9.根据权利要求8所述的方法，其特征在于，所述通过姿态改善网络优化所述多阶段密集连接残差神经网络的最后一阶段输出的人物特征图，得到目标特征图的步骤，包括：

将所述多阶段密集连接残差神经网络的最后一阶段输出的人物特征图输入至所述第一卷积层，得到所述第一卷积层输出的第一特征图；

通过所述中间子网络计算所述第一特征图中各个特征通道对应的权重，基于所述第一特征图和各个所述特征通道对应的权重计算第二特征图；

通过所述底层子网络基于注意力机制确定所述第一特征图对应的注意力特征图；

对所述第二特征图和所述注意力特征图进行按位相乘处理，得到第三特征图；

通过所述顶层子网络对所述第一特征图和所述第三特征图进行按位相加处理，得到目标特征图；

所述基于所述目标特征图生成所述人物图像中所包含的所有关节点的关节热力图的步骤，包括：

将所述目标特征图输入至所述第二卷积层，得到所述人物图像中所包含的所有关节点的关节热力图。

10.根据权利要求1所述的方法，其特征在于，所述基于所述关节热力图确定所述人物图像中的关节点的步骤，包括：

利用高斯模糊算法对所述关节热力图中各个像素点的像素值进行统计处理；

对于所述关节热力图与每个特征通道对应的区域，将该区域中像素值最大的像素点作为该区域对应的特征通道的目标像素点；

将各个所述特征通道的目标像素点对应的坐标值映射至所述人物图像，得到所述人物图像中的关节点。

11.一种姿态识别方法，其特征在于，包括：

采用如权利要求1-10任一项所述的方法对待检测的人物图像进行关节点检测，得到所述人物图像中所包含的人物对象的多个关节点；

根据所述人物对象的多个关节点识别所述人物对象的姿态。

12.一种关节点检测装置，其特征在于，包括：

人物图像获取模块，用于获取待检测的人物图像；

热力图获取模块，用于通过多阶段密集连接残差神经网络对所述人物图像进行关节点检测，得到所述人物图像中所包含的所有关节点的关节热力图；其中，所述多阶段密集连接残差神经网络包括多个单阶段密集连接残差神经网络；所述单阶段密集连接残差神经网络用于下采样处理；所述单阶段密集连接残差神经网络包括多个密集连接残差单元；

关节点确定模块，用于基于所述关节热力图确定所述人物图像中的关节点。

13.一种姿态识别装置，其特征在于，包括：

关节检测模块，用于采用如权利要求1-10任一项所述的方法对待检测的人物图像进行关节点检测，得到所述人物图像中人物对象的多个关节点；

姿态识别模块，用于根据所述人物对象的多个关节点识别所述人物对象的姿态。

14.一种电子设备，其特征在于，包括处理器和存储器；

所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至10任一项所述的方法，或，执行如权利要求11所述的方法。

15.一种计算机存储介质，其特征在于，用于储存为权利要求1至10任一项所述方法所用的计算机软件指令，或，执行储存为权利要求11所述方法所用的计算机软件指令。