CN111414823A

CN111414823A - 人体特征点的检测方法、装置、电子设备以及存储介质

Info

Publication number: CN111414823A
Application number: CN202010171918.8A
Authority: CN
Inventors: 吴佳涛
Original assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-14
Anticipated expiration: 2040-03-12
Also published as: WO2021179822A1; CN111414823B

Abstract

本申请公开了一种人体特征点的检测方法、装置、电子设备以及存储介质，涉及电子设备技术领域。所述方法包括：获取待检测图像，对待检测图像进行下采样处理，获得待检测图像的第一图像特征，对第一图像特征进行多尺度特征提取，获得待检测图像的多个第二图像特征，对多个第二图像特征进行卷积运算，获得待检测图像中的人体特征点位置信息和人体特征点连接信息。本申请通过对待检测图像进行多尺度特征提取，以获取在不同尺度下的图像特征，并基于不同尺度下的图像特征获取人体特征点位置信息和人体特征点连接信息，从而大幅度提升人体特征点检测的精度和效率。

Description

人体特征点的检测方法、装置、电子设备以及存储介质

技术领域

本申请涉及电子设备技术领域，更具体地，涉及一种人体特征点的检测方法、装置、电子设备以及存储介质。

背景技术

随着人工智能技术的不断发展，人工智能技术也逐渐被应用到人体特征点的检测领域。目前，在通过人工智能技术对图像中的人体特征点进行检测时，需要先用目标检测算法检测出图像中的人体，再对检测出的人体进行人体特征点检测，检测速度与图像中人体的个数呈线性增长关系，因此，在图像中的人体个数较多时，检测速度较慢。

发明内容

鉴于上述问题，本申请提出了一种人体特征点的检测方法、装置、电子设备以及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种人体特征点的检测方法，所述方法包括：获取待检测图像；对所述待检测图像进行下采样处理，获得所述待检测图像的第一图像特征；对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征；对所述多个第二图像特征进行卷积运算，获得所述待检测图像中的人体特征点位置信息和人体特征点连接信息。

第二方面，本申请实施例提供了一种人体特征点的检测装置，所述装置包括：待检测图像获取模块，用于获取待检测图像；第一图像特征获取模块，用于对所述待检测图像进行下采样处理，获得所述待检测图像的第一图像特征；第二图像特征获取模块，用于对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征；人体特征点检测模块，用于对所述多个第二图像特征进行卷积运算，获得所述待检测图像中的人体特征点位置信息和人体特征点连接信息。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

本申请实施例提供的人体特征点的检测方法、装置、电子设备以及存储介质，获取待检测图像，对待检测图像进行下采样处理，获得待检测图像的第一图像特征，对第一图像特征进行多尺度特征提取，获得待检测图像的多个第二图像特征，对多个第二图像特征进行卷积运算，获得待检测图像中的人体特征点位置信息和人体特征点连接信息，从而通过对待检测图像进行多尺度特征提取，以获取在不同尺度下的图像特征，并基于不同尺度下的图像特征获取人体特征点位置信息和人体特征点连接信息，从而大幅度提升人体特征点检测的精度和效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请一个实施例提供的人体特征点的检测方法的流程示意图；

图2示出了本申请又一个实施例提供的人体特征点的检测方法的流程示意图；

图3示出了本申请的图2所示的人体特征点的检测方法的步骤S260的流程示意图；

图4示出了本申请再一个实施例提供的人体特征点的检测方法的流程示意图；

图5示出了本申请实施例提供的检测模型的整体框架图；

图6示出了本申请实施例提供的人体特征点的检测装置的模块框图；

图7示出了本申请实施例用于执行根据本申请实施例的人体特征点的检测方法的电子设备的框图；

图8示出了本申请实施例的用于保存或者携带实现根据本申请实施例的人体特征点的检测方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

卷积神经网络是一类包含卷积计算且具有一定深度结构的神经网络，是深度学习的代表算法之一。卷积神经网络发展至今，一般包含如下几种类型的堆叠层：输入层、卷积层、池化层、归一化层(又叫Batch Norm层)、激活函数层、全连接层、输出层等。在计算机视觉领域，输入层一般是RGB三通道的彩色图像；卷积层的功能是对输入数据进行特征提取，计算形式为卷积运算，包含权重系数和偏置；池化层用于对特征信息进行选择和过滤，常用的池化方式包括最大池化和平均池化；归一化层对输入数据进行归一化处理，使各个特征的分布相近，网络更容易训练；激活函数层用于给模型增加非线性因素，使得模型具有更强的拟合能力；全连接层一般位于卷积神经网络的最后部分，对输入特征进行非线性组合得到输出；输出层输出模型所需类型的结果，对图像分类问题，输出层使用softmax(归一化指数函数，在深度学习领域常用作输出层，得到指定类型的输出)等函数输出分类标签，对图像语义分割问题，输出层直接输出每个像素的分类结果，对人体特征点检测问题，输出层输出人体特征点热图(不同算法模型可能还会输出其他热图用于辅助特征点检测和分配)。

人体特征点检测，即pose estimation，主要检测人体的一些特征点，如眼睛、鼻子、手肘、肩膀等，并将它们按照特征点顺序依次连接，通过特征点来描述人体信息。扩展开来，还可以描述人体的姿态、步态、行为等信息。人体特征点检测是计算机视觉的基础性算法之一，在计算机视觉的其他相关领域的研究中都起到了基础性的作用，如行为识别、智能构图等相关领域。现有的基于深度学习的人体特征点检测算法可分为两个方向，即自上而下(Top-Down)的检测方法和自下而上(Bottom-Up)的检测方法。

其中，自上而下的人体特征点检测算法将人体特征点检测任务分为两部分执行：人体检测和单人人体特征点检测，即首先通过目标检测算法将图像中每一个人单独检测出来，然后在检测框的基础上针对单个人做人体特征点检测。自上而下的方法往往检测精度更高，但该方法的检测速度与图像中人物个数呈线性增长的关系，而且还需要额外的目标检测算法作为支撑。

其中，自下而上的方法也包含两个部分：图像中多人特征点检测和后处理，即首先需要将图片中所有的特征点都检测出来，然后在后处理模块中应用相关策略将所有的特征点分配到不同的人物个体上，代表性算法有Openpose，PersonLab等。自下而上的方法检测精度要低于自上而下的方法，但检测速度较快，检测时间与图像中的人物个数无关，后处理模块往往由一些逻辑策略构成，如贪心算法。

其中，Openpose算法除了检测特征点的分布热图(又叫heatmap)，还提出一种代表特征点连接信息的热图：pafmap，该热图中置信度高的位置表示该位置处有特征点连接的概率也高。以heatmap和pafmap作为算法模型的输出，再配以贪心算法作为后处理策略，实现将多人特征点分配到独立的人物实例中。该方法经历了两版演变，在发布的第一个版本中，模型结构分为基础网络和热图检测网络，其中热图检测网络包含多个阶段(stage)，每个stage分为上下两条分支，每条分支的网络结构完全相同，但负责学习不同的图像信息：一条负责学习特征点分布热图heatmap，一条负责学习特征点连接的分布热图pafmap。下一个stage以基础网络的特征信息和上一个stage检测的heatmap和pafmap三者综合作为输入。在发布的第二个版本中，热图检测网络依旧分为多个stage，但将双分支结构修改为单分支，前面N个stage只负责学习特征点连接的分布热图pafmap，后面M个stage只负责学习特征点分布热图heatmap，同时将模型中的7*7卷积替换成3个3*3卷积的残差连接，降低运算量的同时还丰富了模型能学习到的图像感受野。

然而，发明人在研究中发现，自上而下的人体特征点检测算法虽然无需复杂的后处理过程，但无法同时检测图像中的所有人体特征点，只能先用目标检测算法检测出图像中的人体，再对检测出的单人进行人体特征点检测，检测速度与图像中人体的个数呈线性增长的关系，所有的自上而下的人体特征点算法均存在检测速度慢的缺点，无法做到实时的检测，在移动端部署时，模型运算量过高，参数量较大，部署困难。而Openpose算法虽然检测速度与图像中的人物的个数无关，也不要额外的目标检测算法进行预处理。但该算法模型同样存在模型复杂度高，运算量大的缺点，多个stage的堆叠对模型精度的提升效果不显著，反而带来了大量的冗余运算量，第二个版本中单分支结构中的3*3残差连接方式虽然能增加感受野信息，但带来的精度提升非常小，同时造成了大量的运算量浪费，这些设计结构使得模型在移动端部署时，会造成模型运算量过高，参数量较大，部署困难等问题。

针对上述问题，发明人经过长期的研究发现，并提出了本申请实施例提供的人体特征点的检测方法、装置、电子设备以及存储介质，通过对待检测图像进行多尺度特征提取，以获取在不同尺度下的图像特征，并基于不同尺度下的图像特征获取人体特征点位置信息和人体特征点连接信息，从而大幅度提升人体特征点检测的精度和效率。其中，具体的人体特征点的检测方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一个实施例提供的人体特征点的检测方法的流程示意图，所述人体特征点的检测方法用于通过对待检测图像进行多尺度特征提取，以获取在不同尺度下的图像特征，并基于不同尺度下的图像特征获取人体特征点位置信息和人体特征点连接信息，从而大幅度提升人体特征点检测的精度和效率。在具体的实施例中，所述人体特征点的检测方法应用于如图6所示的人体特征点的检测装置200以及配置有人体特征点的检测装置200的电子设备100(图7)。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的电子设备可以为移动终端、智能手机、平板电脑、穿戴式电子设备等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述人体特征点的检测方法具体可以包括以下步骤：

步骤S110：获取待检测图像。

在本实施例中，可以获取待检测图像，其中，所获取的待检测图像中包括至少一个人体。在一些实施方式中，该待检测图像可以为通过电子设备的摄像头采集的预览图像、可以为通过电子设备的摄像头拍摄并存储在相册的照片、可以为从网络下载并存储在相册的图像等，在此不做限定。另外，在一些实施方式中，所获取的待检测图像可以为静态图像，也可以为动态图像，在此不做限定。

步骤S120：对所述待检测图像进行下采样处理，获得所述待检测图像的第一图像特征。

在本实施例中，在获取待检测图像后，可以对待检测图像进行下采样处理，以获得待检测图像的第一图像特征。其中，可以对待检测图像依次进行2倍下采样处理，直到获得的待检测图像的第一图像特征满足处理需求，在一些实施方式中，可以对待检测图像依次进行2倍下采样处理，共4次，即对待检测图像进行16倍下采样处理，以使所获得的待检测图像的第一图像特征中包括足够的抽象特征，且不会造成特征的过度提取，以满足处理需求。具体地，在获取待检测图像后，可以对待检测图像进行2倍下采样处理，再对进行2倍下采样处理所获取的图像特征进行4倍下采样处理，再对进行4倍下采样处理所获取的图像特征进行8倍下采样处理，再对进行8倍下采样处理所获取的图像特征进行16倍下采样处理，以获得待检测图像的第一图像特征。

当然，在一些实施方式中，还可以对待检测图像进行更多倍的下采样处理，例如，还可以对待检测图像进行32倍下采样处理、64倍下采样处理，在此不做限定。

其中，在本实施例中，所获得的待检测图像的第一图像特征的数量为多个。

步骤S130：对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征。

其中，由于对待检测图像进行下采样处理是对待检测图像依次进行2倍下采样处理，具体地，是对待检测图像进行2倍下采样处理后，再对进行2倍下采样处理所获取的图像特征进行4倍下采样处理等，即上述下采样是采用串行的方式进行处理，某个卷积层的输入只能为上一个卷积层的输出，意味着该卷积层所能学习到的图像特征中的特征信息只能是上一卷积层的输出所代表的单一感受野信息，即通过下采样处理所获得的待检测图像的第一图像特征的尺度和感受野较为单一。

因此，在本实施例中，为了提升所获得的图像特征的尺度和感受野，可以对待检测图像的第一图像特征进行多尺度特征提取，以获得待检测图像在不同尺度、不同感受野下的多个第二图像特征。在一些实施方式中，可以通过并列的多个不同卷积核的卷积层对第一图像特征进行处理，具体地，可以将第一图像特征输入多个不同卷积核的卷积层，以使多个不同卷积核的卷积层分别对第一图像特征进行处理，并分别获取第二图像特征，可以理解的，由于并列的多个卷积层使用不同大小的卷积核，使得可以基于同一输入(第一图像特征)，能同时输出多个不同尺度、不同感受野的第二图像特征，并一同输出给下一层作为输入，从而可以实现待检测图像的更多尺度和感受野的获取。

步骤S140：对所述多个第二图像特征进行卷积运算，获得所述待检测图像中的人体特征点位置信息和人体特征点连接信息。

在本实施例中，在获得待检测图像的多个第二图像特征后，可以对多个第二图像特征进行卷积运算，以获得待检测图像的人体特征点位置信息(heatmap)和人体特征点连接信息(pafmap)。在一些实施方式中，在获得待检测图像的多个第二图像特征后，可以将多个第二图像特征分为两条分支进行卷积运算，其中，一条分支对多个第二图像特征进行卷积运算输出人体特征点位置信息，另一条分支对多个第二图像特征进行卷积运算输出人体特征点连接信息。

在一些实施方式中，在获取待检测图像中的人体特征点位置信息和人体特征点连接信息后，可以基于人体特征点位置信息和人体特征点连接信息，获得人体特征点信息。其中，在本实施例中，在获取人体特征点位置信息和人体特征点连接信息后，可以基于人体特征点连接信息对已知位置的人体特征点进行连接，从而绘制生成人体特征点信息。

本申请一个实施例提供的人体特征点的检测方法，获取待检测图像，对待检测图像进行下采样处理，获得待检测图像的第一图像特征，对第一图像特征进行多尺度特征提取，获得待检测图像在不同尺度、不同感受野下的多个第二图像特征，对多个第二图像特征进行卷积运算，获得待检测图像中的人体特征点位置信息和人体特征点连接信息，从而通过对待检测图像进行多尺度特征提取，以获取在不同尺度、不同感受野下的图像特征，并基于不同尺度、不同感受野下的图像特征获取人体特征点位置信息和人体特征点连接信息，从而大幅度提升人体特征点检测的精度和效率。

请参阅图2，图2示出了本申请又一个实施例提供的人体特征点的检测方法的流程示意图。下面将针对图2所示的流程进行详细的阐述，所述人体特征点的检测方法具体可以包括以下步骤：

步骤S210：获取待检测图像。

其中，步骤S210的具体描述请参阅步骤S110，在此不再赘述。

步骤S220：对所述待检测图像进行N1倍下采样处理，获得待处理图像特征，其中，N1＝2^M1，N1为正整数。

在本实施例中，在获取待检测图像后，可以对待检测图像进行N1倍下采样处理，以获得待处理图像特征。在一些实施方式中，对待检测图像进行N1倍下采样处理可以为对待检测图像进行16倍下采样处理，即对待检测图像依次进行4次2倍下采样处理，从而实现对待检测图像进行16倍下采样处理，此时，N1＝16，M1＝4。

步骤S230：对所述待处理图像特征进行N2倍上采样处理，获得所述待检测图像的第一图像特征，N2＝2^M2，N2＜N1，N2为正整数。

其中，鉴于对待检测图像进行N1倍下采样处理时，为了获取待检测图像更多的抽象特征，则对待检测图像进行N1倍下采样处理后的图像尺寸往往会比较小，如果直接将N1倍下采样处理后的待处理图像特征进行多尺度特征提取，那么，在进行卷积核较大的卷积的时候容易造成图像特征的过度提取，引入过多不必要的冗余信息。例如，为了获取待检测图像更多的抽象特征，一般会对待检测图像进行16倍下采样处理，相应地，对待检测图像进行16倍下采样处理后的图像尺寸会比较小，如果直接将16倍下采样处理后的第一待处理特征图像进行多尺度特征提取，那么，在进行7*7卷积的时候便会容易造成图像特征的过度提取，引入不必要的冗余信息。

因此，在本实施例中，在对待检测图像进行N1倍下采样处理获得待处理图像特征后，还可以对待处理图像特征进行N2倍上采样处理，以将从新获取的图像特征确定为待检测图像的第一图像特征，以避免造成图像特征的过度提取，引入不必要的冗余信息。在一些实施方式中，对待检测图像进行N1倍下采样处理可以为对待检测图像进行16倍下采样处理，对待处理图像特征进行N2倍上采样处理可以为2倍上采样处理，此时，N1＝16，M1＝4，N2＝2，M2＝1，也就是说，在对待处理图像特征进行2倍上采样处理后，可以使第一图像特征恢复8倍下采样下的图像特征，从而在保证获取较多抽象特征的前提下，避免造成图像特征的过度提取，引入不必要的冗余信息。

步骤S240：对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征。

其中，步骤S240的具体描述请参阅步骤S130，在此不再赘述。

步骤S250：对所述待检测图像进行下采样处理，获取所述待检测图像的第三图像特征。

其中，为了进一步提升所能获取的特征尺度信息和感受野，除了将多个第二图像特征进行卷积运算，获得人体特征点位置信息和人体特征点连接信息外，还可以额外从待检测图像中进行下采样处理参与卷积运算，这种方式不仅能进一步地增加特征尺度信息和感受野，还能增加浅层精确像素位置信息，提升人体特征点位置信息和人体特征点连接信息的获取精度。具体地，对待检测图像的第一图像特征进行多尺度特征提取所获得的多个第二图像特征为待检测图像的抽象特征，对待检测图像进行下采样处理所获得的第三图像特征为待检测图像的浅层特征，即多个第二图像特征和第三图像特征的尺度不同、感受野不同，因此，在将第三图像特征参与卷积运算，获取人体特征点位置信息和人体特征点连接信息时，可以增加数据的尺度和感受野，再者，由于第三图像特征为浅层图像特征，且浅层图像特征的像素位置信息更精确，从而可以提升所获取的人体特征点位置信息和人体特征点连接信息的精度。

因此，在本实施例中，还可以对待检测图像进行下采样，以获得待检测图像的第三图像特征，并将第三图像特征参与卷积运算。在一些实施方式中，可以通过卷积层对待检测图像进行特征提取，在此不做限定。

其中，在进行两个图像特征的通道连接时，需要保证两个图像特征对应的图像尺寸一致。因此，在本实施例中，若要进行第一图像特征和第三图像特征的通道连接，需要保证第一图像特征对应的图像尺寸和第三图像特征对应的图像尺寸一尺。例如，若第一图像特征是在待检测图像进行16倍下采样获得，则第三图像特征也需要是在进行16倍下采样获得，若第一图像特征是在待检测图像进行8倍下采样获得，则第三图像特征也需要是在进行8倍下采样获得。

因此，在本实施例中，在获取待检测图像后，可以对待检测图像进行N3倍下采样处理，以获得待检测图像的第三图像特征。其中，对待检测图像进行N3倍下采样处理可以为对待检测图像进行2^M1-M2倍下采样处理，以使对待检测图像进行N3倍下采样处理所获得的第三图像特征对应的图像尺寸与第一图像特征对应的图像尺寸一致，从而实现后续将多个第二待处理图像特征和第三图像特征进行通道连接时提供连接基础。

在一些实施方式中，该第一图像特征可以是通过对待检测图像进行N1倍下采样处理后再进行N2倍上采样处理获得，其中，N1＝2^M1，N2＝2^M2，第三图像特征可以是对待检测图像进行N3倍下采样处理后进行特征提取获得，其中N3＝2^M1-M2，即可以保证第一图像特征对应的图像尺寸与第三图像特征对应的图像尺寸一致。例如，当N1＝16，N2＝2时，则第一图像特征对应的图像尺寸是待检测图像经过8倍下采样处理对应的图像尺寸，此时，可以确定M1＝4，M2＝1，由于N3＝2^M1-M2，则可以确定N3＝8，也就是说，第三图像特征对应的图像尺寸也是待检测图像经过8倍下采样处理对应的图像尺寸。

步骤S260：对所述多个第二图像特征和所述第三图像特征进行卷积运算，获得所述待检测图像中的所述人体特征点位置信息和所述人体特征点连接信息。

在一些实施方式中，在获得待检测图像的多个第二图像特征和第三图像特征后，可以对多个第二图像特征和第三图像特征进行卷积运算，以获得待检测图像的人体特征点位置信息和人体特征点连接信息。在一些实施方式中，在获得待检测图像的多个第二图像特征和第三图像特征后，可以将多个第二图像特征和第三图像特征分为两条分支进行卷积运算，其中，一条分支对多个第二图像特征和第三图像特征进行卷积运算输出人体特征点位置信息，另一条分支对多个第二图像特征和第三图像特征进行卷积运算输出人体特征点连接信息。

请参阅图3，图3示出了本申请的图2所示的人体特征点的检测方法的步骤S260的流程示意图。下面将针对图3所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S261：将所述多个第二图像特征和所述第三图像特征进行通道连接，获得第四图像特征。

在本实施例中，可以将多个第二图像特征和第三图像特征进行通道连接，以获得第四图像特征，并将第四图像特征参与卷积运算，以获得待检测图像总的人体特征点位置信息和人体特征点连接信息。在一些实施方式中，在获得多个第二图像特征和第三图像特征后，可以通过concat算子对多个第二图像特征和第三图像特征进行通道连接，例如，若多个第二图像特征包括两个第二图像特征，分别为19维和38维，第三图像特征为38维，则经过通道concat之后，输出的第四图像特征为19+38+38＝95维。

步骤S262：对所述第四图像特征进行卷积运算，获得所述待检测图像中的所述人体特征点位置信息和所述人体特征点连接信息。

在本实施例中，在获得待检测图像的第四图像特征后，可以对第四图像特征进行卷积运算，以获得待检测图像的人体特征点位置信息和人体特征点连接信息。在一些实施方式中，在获得待检测图像的第四图像特征后，可以将第四图像特征分为两条分支进行卷积运算，其中，一条分支对第四图像特征进行卷积运算输出人体特征点位置信息，另一条分支对第四图像特征进行卷积运算输出人体特征点连接信息。

本申请又一个实施例提供的人体特征点的检测方法，获取待检测图像，对待检测图像进行N1倍下采样处理，获得待处理图像特征，对待处理图像特征进行N2倍上采样处理，获得待检测图像的第一图像特征，对第一图像特征进行多尺度特征提取，获得待检测图像再不同尺度、不同感受野下的多个第二图像特征，对待检测图像进行特征提取，获得待检测图像的第三图像特征，对多个第二图像特征和第三图像特征进行卷积运算，获得待检测图像中的人体特征点位置信息和人体特征点连接信息。相较于图1所示的人体特征点的检测方法，本实施例还对待检测图像进行N1倍下采样处理后，再进行N2倍上采样处理，以获得第一图像特征，以获得更多抽象信息的同时，能避免图像特征的过度提取引入过多不必要的冗余信息。另外，本实施例还基于多个第二图像特征和基于待检测图像提取到的第三图像特征进行卷积运算，以增加图像的感受野。

请参阅图4，图4示出了本申请再一个实施例提供的人体特征点的检测方法的流程示意图。下面将针对图4所示的流程进行详细的阐述，所述人体特征点的检测方法具体可以包括以下步骤：

步骤S310：获取待检测图像。

其中，步骤S310的具体描述请参阅步骤S110，在此不再赘述。

步骤S320：对所述待检测图像进行下采样处理，获得所述待检测图像的第一图像特征。

在本实施例中，可以采用已训练的检测模型对获取的待检测图像进行处理，以输出该待检测图像的人体特征点位置信息和人体特征点连接信息。其中，如图5所示，图5示出了本申请实施例提供的检测模型的整体框架图，该检测模型可以包含3个主体部分：基础网络模块F、多尺度模块M以及热图检测模块S。

其中，在获取待检测图像后，可以将待检测图像输入检测模型中的基础网络模块，通过基础网络模块对待检测图像进行下采样处理，以获得该待检测图像的第一图像特征，并将该第一图像特征作为检测模型中的多尺度模块的输入。在一些实施方式中，该基础网络模块可以包括：Vgg、ResNet、Mobilenet等卷积神经网络，若使用较深层次的网络模型如Vgg、ResNet，则会增加模型的运算量，但能得到更高的检测精度，若使用轻量化的网络模型如Mobilenet，则会损失一定的检测精度，但能获取更快的检测速度，可以做到完全的实时检测。

步骤S330：将所述第一图像特征输入检测模型的多尺度模块，通过所述多尺度模块对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征。

其中，在本实施例中，在获得基础网络模块输出的第一图像特征后，可以将第一图像特征输入检测模型的多尺度模块，以通过多尺度模块对第一图像特征进行多尺度特征提取，获得待检测图像的多个第二图像特征。其中，在一些实施方式中，多尺度模块包括并列的多个卷积层，多个卷积层中的每个卷积层的卷积核均不同，每个卷积层用于从第一图像特征中提取不同尺度、不同感受野的第二图像特征。作为一种方式，该多尺度模块可以包括4个并列的卷积层，依次为：1*1卷积、3*3卷积、5*5卷积以及7*7卷积，每个卷积层的卷积核大小依次递增，负责提取不同尺度和感受野的图像信息，该4个并列的卷积层共同组成了该多尺度模块。

步骤S340：将所述多个第二图像特征输入检测模型的热图检测模块，通过所述热图检测模块对所述多个第二图像特征进行卷积运算，获得所述热图检测模块输出的所述人体特征点位置信息和所述人体特征点连接信息。

其中，在本实施例中，在获得多尺度模块输出的多个第二图像特征后，可以将多个第二图像特征输入检测模型的热图检测模块，以通过热图检测模块对多个第二图像特征进行卷积运算，获得人体特征点位置信息和人体特征点连接信息。在一些实施方式中，还可以获得基础网络模块输出的第三图像特征，则可以将多个第二图像特征和第三图像特征进行通道连接获得第四图像特征后，输入入检测模型的热图检测模块，以通过热图检测模块对第四图像特征进行卷积运算，获得人体特征点位置信息和人体特征点连接信息。

在一些实施方式中，热图检测模块仅包括一个卷积阶段(stage)，该一个卷积阶段包括第一处理分支和第二处理分支，第一处理分支用于检测并输出人体特征点位置信息，第二处理分支用于检测并输出人体特征点连接信息。另外，第一处理分支包括两个卷积层，第二处理分支包括两个卷积层。

其中，在Openpose模型中，热图检测模块均由多个stage进行串行连接来提升精度，但实验表明，无论是heatmap的检测还是pafmap的检测，均不需要过多的stage来进行校正，多个stage的串联，不仅带来的精度提升十分有限，还会带来巨大的参数量和运算量。而本实施例，加入了多尺度模块，使得输入到热图检测模块中的图像特征信息已经包含有非常丰富的图像特征信息和尺度信息，进一步使得热图检测模块缩减stage数目成为可能，只采用一个stage足够取得较高的精度，还能大幅减小模型的运算量和参数量，使得模型在移动端做到实时检测。另外，在本实施例中，热图检测模块只包含一个stage，为进一步缩减参数量和运算量，stage的每条分支中只采用2个卷积层：一个3*3卷积负责对输入的通道连接图像特征进行进一步的特征提取，另一个1*1卷积负责对人体特征点位置信息/人体特征点连接信息进行检测，输出对应通道数的特征图。

针对前述实施例中的已训练的检测模型，本申请实施例中还可以包括对该检测模型的训练和校正，其中，对检测模型的训练可以是根据获取的训练数据集预先进行的，后续在每次进行检测时，则可以根据该检测模型进行检测，而无需每次进行检测时对检测模型进行训练。

在一些实施方式中，对检测模型进行训练包括：获取训练数据集，训练数据集包括多个图像，以及多个图像中的每个图像对应的人体特征点位置信息和人体特征点连接信息，基于训练数据集，将每个图像作为输入数据，以及每个图像对应的人体特征点位置信息和人体特征点连接信息作为输出数据，通过机器学习算法进行训练，获得已训练的检测模型。其中，机器学习算法可以包括包括上述基础网络模块F、多尺度模块M以及热图检测模块S对应的算法。

其中，在检测模型的训练过程中，可以设置一个目标函数，该函数用于衡量检测模型检测的结果与真实标签之间的差距，该函数就叫损失函数，又称为loss函数。检测模型训练的目标就是最小化这个函数。对检测模型设置不同的loss函数，则意味着对检测模型的训练设置不同的学习目标。

在本实施例中，损失函数共包含两部分：L_total＝L_heatmap+L_pafmap，其中，L_heatmap表示特征点位置热图损失，L_pafmap表示特征点连接热图损失。

其中，特征点位置热图损失用来衡量检测的特征点位置热图与真实的特征点位置热图之间的损失：

其中(i,j)表示特征图中像素点位置，P_heat(i,j)表示检测的特征点特征图中位置(i,j)上的值，G_heat(i,j)表示真实的特征点特征图中位置(i,j)上的值，width和height分别表示特征点特征图的宽和高。

特征点连接热图损失用来衡量检测的特征点连接热图与真实的特征点连接热图之间的损失：

其中(i,j)表示特征图中像素点位置，P_paf(i,j)表示检测的特征点连接特征图中位置(i,j)上的值，G_paf(i,j)表示真实的特征点连接特征图中位置(i,j)上的值，width和height分别表示特征点连接特征图的宽和高。

本申请再一个实施例提供的人体特征点的检测方法，获取待检测图像，对待检测图像进行下采样处理，获得待检测图像的第一图像特征，将第一图像特征输入检测模型的多尺度模块，通过多尺度模块对第一图像特征进行多尺度特征提取，获得待检测图像的多个第二图像特征，将多个第二图像特征输入检测模型的热图检测模块，通过热图检测模块对多个第二图像特征进行卷积运算，获得待检测图像中的人体特征点位置信息和人体特征点连接信息。相较于图1所示的人体特征点的检测方法，本实施例还通过检测模型对待检测图像的人体特征点进行检测，以提高人体特征点检测的准确性。

请参阅图6，图6示出了本申请实施例提供的人体特征点的检测装置200的模块框图。下面将针对图6所示的框图进行阐述，所述人体特征点的检测装置200包括：待检测图像获取模块210、第一图像特征获取模块220、第二图像特征获取模块230以及人体特征点检测模块240，其中：

待检测图像获取模块210，用于获取待检测图像。

第一图像特征获取模块220，用于对所述待检测图像进行下采样处理，获得所述待检测图像的第一图像特征。

进一步地，所述第一图像特征获取模块220包括：待处理图像特征获得子模块和第一图像特征获取子模块，其中：

待处理图像特征获得子模块，用于对所述待检测图像进行N1倍下采样处理，获得待处理图像特征，其中，N1＝2^M1，N1为正整数。

第一图像特征获取子模块，用于对所述待处理图像特征进行N2倍上采样处理，获得所述待检测图像的第一图像特征，N2＝2^M2，N2＜N1，N2为正整数。

第二图像特征获取模块230，用于对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征。

进一步地，所述第二图像特征获取模块230包括：第二图像特征获取子模块，其中：

第二图像特征获取子模块，用于将所述第一图像特征输入检测模型的多尺度模块，通过所述多尺度模块对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征。

人体特征点检测模块240，用于对所述多个第二图像特征进行卷积运算，获得所述待检测图像中的人体特征点位置信息和人体特征点连接信息。

进一步地，所述人体特征点检测模块240包括：第三特征图像获取子模块和第一人体特征点检测子模块，其中：

第三特征图像获取子模块，用于对所述待检测图像进行特征提取，获取所述待检测图像的第三图像特征。

进一步地，所述第三特征图像获取子模块包括：第三特征图像获取单元，其中：

第三特征图像获取单元，用于对所述待检测图像进行N3倍下采样处理，所述待检测图像的第三图像特征，其中，N3＝2^M1-M2，N3为正整数。

第一人体特征点检测子模块，用于对所述多个第二图像特征和所述第三图像特征进行卷积运算，获得所述待检测图像中的所述人体特征点位置信息和所述人体特征点连接信息。

进一步地，所述第一人体特征点检测子模块包括：第四图像特征获得单元和人体特征点检测单元，其中：

第四图像特征获得单元，用于将所述多个第二图像特征和所述第三图像特征进行通道连接，获得第四图像特征。

人体特征点检测单元，用于对所述第四图像特征进行卷积运算，获得所述待检测图像中的所述人体特征点位置信息和所述人体特征点连接信息。

进一步地，所述人体特征点检测模块240包括：第二人体特征点检测子模块，其中：

第二人体特征点检测子模块，用于将所述多个第二图像特征输入检测模型的热图检测模块，通过所述热图检测模块对所述多个第二图像特征进行卷积运算，获得所述热图检测模块输出的所述人体特征点位置信息和所述人体特征点连接信息。

进一步地，所述人体特征点的检测装置200还包括：训练数据集获取模块和模型训练模块，其中：

训练数据集获取模块，用于获取训练数据集，所述训练数据集包括多个图像，以及所述多个图像中的每个图像对应的人体特征点位置信息和人体特征点连接信息。

模型训练模块，用于基于所述训练数据集，将每个图像作为输入数据，以及所述每个图像对应的人体特征点位置信息和人体特征点连接信息作为输出数据，通过机器学习算法进行训练，获得已训练的检测模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图7，其示出了本申请实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

其中，处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责待显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储移动终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图8，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的人体特征点的检测方法、装置、电子设备以及存储介质，获取待检测图像，对待检测图像进行下采样处理，获得待检测图像的第一图像特征，对第一图像特征进行多尺度特征提取，获得待检测图像的多个第二图像特征，对多个第二图像特征进行卷积运算，获得待检测图像中的人体特征点位置信息和人体特征点连接信息，从而通过对待检测图像进行多尺度特征提取，以获取在不同尺度下的图像特征，并基于不同尺度下的图像特征获取人体特征点位置信息和人体特征点连接信息，从而大幅度提升人体特征点检测的精度和效率。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种人体特征点的检测方法，其特征在于，所述方法包括：

获取待检测图像；

对所述待检测图像进行下采样处理，获得所述待检测图像的第一图像特征；

对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征；

对所述多个第二图像特征进行卷积运算，获得所述待检测图像中的人体特征点位置信息和人体特征点连接信息。

2.根据权利要求1所述的方法，其特征在于，所述对所述多个第二图像特征进行卷积运算，获得所述待检测图像中的人体特征点位置信息和人体特征点连接信息，包括：

对所述待检测图像进行下采样处理，获取所述待检测图像的第三图像特征；

对所述多个第二图像特征和所述第三图像特征进行卷积运算，获得所述待检测图像中的所述人体特征点位置信息和所述人体特征点连接信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述多个第二图像特征和所述第三图像特征进行卷积运算，获得所述待检测图像中的所述人体特征点位置信息和所述人体特征点连接信息，包括：

将所述多个第二图像特征和所述第三图像特征进行通道连接，获得第四图像特征；

对所述第四图像特征进行卷积运算，获得所述待检测图像中的所述人体特征点位置信息和所述人体特征点连接信息。

4.根据权利要求2所述的方法，其特征在于，所述对所述待检测图像进行下采样处理，获得所述待检测图像的第一图像特征，包括：

对所述待检测图像进行N1倍下采样处理，获得待处理图像特征，其中，N1＝2^M1，N1为正整数；

对所述待处理图像特征进行N2倍上采样处理，获得所述待检测图像的第一图像特征，N2＝2^M2，N2＜N1，N2为正整数。

5.根据权利要求4所述的方法，其特征在于，所述对所述待检测图像进行下采样处理，获取所述待检测图像的第三图像特征，包括：

对所述待检测图像进行N3倍下采样处理，获取所述待检测图像的第三图像特征，其中，N3＝2^M1-M2，N3为正整数。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征，包括：

将所述第一图像特征输入检测模型的多尺度模块，通过所述多尺度模块对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征。

7.根据权利要求6所述的方法，其特征在于，所述多尺度模块包括并列的多个卷积层，所述多个卷积层中的每个卷积层的卷积核均不同，所述每个卷积层用于从所述第一图像特征中提取不同尺度的第二图像特征。

8.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述多个第二图像特征进行卷积运算，获得所述待检测图像中的人体特征点位置信息和人体特征点连接信息，包括：

将所述多个第二图像特征输入检测模型的热图检测模块，通过所述热图检测模块对所述多个第二图像特征进行卷积运算，获得所述热图检测模块输出的所述人体特征点位置信息和所述人体特征点连接信息。

9.根据权利要求8所述的方法，其特征在于，所述热图检测模块包括一个卷积阶段，所述一个卷积阶段包括第一处理分支和第二处理分支，所述第一处理分支用于检测并输出所述人体特征点位置信息，所述第二处理分支用于检测并输出所述人体特征点连接信息。

10.根据权利要求9所述的方法，其特征在于，所述第一处理分支包括两个卷积层，所述第二处理分支包括两个卷积层。

11.根据权利要求1-5任一项所述的方法，其特征在于，所述获取待检测图像之前，还包括：

获取训练数据集，所述训练数据集包括多个图像，以及所述多个图像中的每个图像对应的人体特征点位置信息和人体特征点连接信息；

基于所述训练数据集，将每个图像作为输入数据，以及所述每个图像对应的人体特征点位置信息和人体特征点连接信息作为输出数据，通过机器学习算法进行训练，获得已训练的检测模型。

12.一种人体特征点的检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测图像；

第一图像特征获取模块，用于对所述待检测图像进行下采样处理，获得所述待检测图像的第一图像特征；

第二图像特征获取模块，用于对所述第一图像特征进行多尺度特征提取，获得所述待检测图像的多个第二图像特征；

人体特征点检测模块，用于对所述多个第二图像特征进行卷积运算，获得所述待检测图像中的人体特征点位置信息和人体特征点连接信息。

13.一种电子设备，其特征在于，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-11任一项所述的方法。

14.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-11任一项所述的方法。