CN115601793B

CN115601793B - 一种人体骨骼点检测方法、装置、电子设备和存储介质

Info

Publication number: CN115601793B
Application number: CN202211598244.5A
Authority: CN
Inventors: 高向阳; 姚尧; 李斯琦
Original assignee: Health Hope (beijing) Technology Co ltd
Current assignee: Health Hope (beijing) Technology Co ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-04-07
Anticipated expiration: 2042-12-14
Also published as: CN115601793A

Abstract

本发明涉及图像数据处理技术，公开了一种人体骨骼点检测方法、装置、电子设备和存储介质，包括：采集第一原始图像，识别第一原始图像中至少一个人物的第一外接矩形框的第一位置信息；根据第一位置信息，确定第一原始图像中人物的第二外接矩形框的第二位置信息；基于第二外接矩形框的第二位置信息对第一原始图像进行裁剪，得到人物对应的第一裁剪图像；将第一裁剪图像输入至预先训练的卷积神经网络模型，得到人物的人体骨骼点位置信息集合，并根据人体骨骼点位置信息集合更新人物的第一外接矩形框的第一位置信息。提高了人体骨骼点检测准确率和检测效率的同时，也缩短了检测时间。

Description

一种人体骨骼点检测方法、装置、电子设备和存储介质

技术领域

本发明涉及图像数据处理技术领域，尤其涉及一种人体骨骼点检测方法、装置、电子设备和存储介质。

背景技术

现有方案中，从图像中检测人体骨骼点方法大概分两类：第一类使用自上而下方式，先检测图像中每个人的位置，用矩形框表示，然后将每个矩形框中的图像裁切出来，输入到模型中得到图像中所有的人体骨骼点；第二类使用自下而上的方式，先检测图片中所有骨骼点的位置，然后把骨骼点连接起来，组成每个人的人体骨骼点。

然而，发明人在实现本发明的过程中发现，第一类方案首先运行一个检测人体的模型来计算每个人的外接矩形框，然后再运行骨骼点检测模型来检测骨骼点位置，如果一张图像上有n个人，则骨骼点检测模型需要运行n次，所以检测一张图像，计算时间长且效率低；第二类方案通过骨骼点识别人体，准确率较低，且当图像中人数比较少时，运算会带进大量背景，大量的算力被浪费，效率过低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明实施例提供了一种人体骨骼点检测方法、装置、电子设备和存储介质，提高了识别准确率以及人体骨骼点检测效率，也缩短了检测时间。

本发明实施例提供了一种人体骨骼点检测方法，包括：

根据第一外接矩形框的第一位置信息，确定第一原始图像中人物的第二外接矩形框的第二位置信息；其中，第二外接矩形框的高、宽分别大于其对应的第一外接矩形框的高、宽；基于第二外接矩形框的第二位置信息对第一原始图像进行裁剪，得到人物对应的第一裁剪图像；将第一裁剪图像输入至预先训练的卷积神经网络模型，得到人物的人体骨骼点位置信息集合，并根据人体骨骼点位置信息集合更新人物的第一外接矩形框的第一位置信息；其中，第一位置信息用于后续采集图像中人物的第一外接矩形框的定位。

本发明实施例还提供了一种人体骨骼点检测装置，包括：

识别模块，用于采集第一原始图像，识别第一原始图像中至少一个人物的第一外接矩形框的第一位置信息；确定模块，用于根据第一外接矩形框的第一位置信息，确定第一原始图像中人物的第二外接矩形框的第二位置信息；其中，第二外接矩形框的高、宽分别大于其对应的第一外接矩形框的高、宽；裁剪模块，用于基于第二外接矩形框的第二位置信息对第一原始图像进行裁剪，得到人物对应的第一裁剪图像；生成模块，用于将第一裁剪图像输入至预先训练的卷积神经网络模型，得到人物的人体骨骼点位置信息集合，并根据人体骨骼点位置信息集合更新人物的第一外接矩形框的第一位置信息；其中，第一位置信息用于后续采集图像中人物的第一外接矩形框的定位。

本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上所述的人体骨骼点检测方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上的人体骨骼点检测方法。

本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的人体骨骼点检测方法。

本发明实施例提供的技术方案与现有技术相比至少具有如下优点：本发明实施例提供的人体骨骼点检测方法、装置、电子设备及存储介质，一方面通过双外接矩形框（第一外接矩形框和第二外接矩形框）包围图像中识别出的各人物，保证外接矩形框的框选准确率，进而提高人体骨骼点检测准确率；另一方面，在检测出人体骨骼点位置信息集合的同时，输出人体骨骼点位置信息集合更新第一外接矩形框的位置信息，从而在后续采集的图片中无需在进行人物识别和第一外接矩形框位置信息的确定步骤，提高人体骨骼点检测效率的同时，也缩短了检测时间。

附图说明

结合附图并参考以下具体实施方式，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本发明实施例中的一种人体骨骼点检测方法的流程图；

图2为本发明实施例中的第一外接矩形框和第二外接矩形框示意图；

图3为本发明实施例中一种采集多帧图像场景下人体骨骼点检测的流程图；

图4为本发明实施例中卷积神经网络优化的流程图；

图5本发明实施例中的一种人体骨骼点检测装置的结构示意图；

图6本发明实施例中的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细的描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整的理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分的基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本发明中提及的“第一”“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明中提及的“一个”“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

参考图1所示，本发明实施例提供了一种人体骨骼点检测方法的流程图。

步骤S110，采集第一原始图像，识别第一原始图像中至少一个人物的第一外接矩形框的第一位置信息。

具体的，从图像采集设备采集得到第一原始图像，并使用已有的人体目标检测模型，将第一原始图像输入到该目标检测模型中，识别第一原始图像中出现的一个或多个人物，并得到每个人物在第一原始图像中的最小包围矩形，即第一外接矩形框，以及第一外接矩形框的第一位置信息。其中，目标检测模型可以预先根据YOLO（you only look once，只需要浏览一次就可以识别出图中的物体的类别和位置）、Faster-RCNN（Regions with CNNfeatures）等算法进行训练。第一位置信息用于表征外接矩形框在第一原始图像中的位置及外接矩形框的尺寸。

步骤S120，根据第一外接矩形框的第一位置信息，确定第一原始图像中人物的第二外接矩形框的第二位置信息；其中，第二外接矩形框的高、宽分别大于其对应的第一外接矩形框的高、宽。

在实践过程中，发明人发现一方面，有时候由于目标检测模型的误差，未能将人物全部框选在第一矩形框内，存在着人物的部分器官或部位或在第一外接矩形框外的情况；另一方面，人物的某些部位或器官与第一外接矩形框的边缘相隔比较近，如果根据第一外接矩形框对图像进行裁剪，容易造成上述部位或器官的误裁剪，从而也会导致人物的部分器官或部位或在第一外接矩形框外。

为了解决上述问题，本发明实施例对第一外接矩形框进行高度和宽度两个方向的扩大，得到该人物在第一原始图像中的第二外接矩形框，并根据第一外接矩形框的第一位置信息确定第二外接矩形框的第二位置信息。

作为本发明实施例的一些可选实施方式，第一位置信息包括第一外接矩形框的目标点的坐标、宽度和高度；第二位置信息包括第二外接矩形框的目标点的坐标、宽度和高度。其中目标点为可以是外接矩形框各条边上的任意点，例如左上角顶点、右上角顶点、某条边中点等。

具体的，为了理解方便，这里放一个真实的图来说明。图2所示，在第一原始图像I中识别得到人物A，并生成人物A的第一外接矩形框IB1，IB1的第一位置信息包括左上角顶点坐标（x，y）、宽度w、高度h，可以记作第一外接矩形框IB1（x，y，w，h）；在图中找到比第一外接矩形框IB1大一些的第二外接矩形框IB2，IB2的第一位置信息包括左上角顶点坐标（x2，y2）、宽度w2、高度h2，可以记作第二外接矩形框IB2（x2，y2，w2，h2）。

进一步的，可以根据如下方法确定第二外接矩形框的位置信息：根据第一外接矩形框的目标点的坐标、宽度和高度确定第一外接矩形框的中心点的坐标；根据中心点的坐标、第一外接矩形框的宽度和高度、以及预设参数确定第二外接矩形框的目标点的坐标、宽度和高度。

具体的，预设参数可以是第一外接矩形框与第二外矩形框之间宽度和高度的放大倍数，也可以是第一外接矩形框与第二外矩形框之间宽度和高度的增加绝对值。预设参数可以是具体数值，也可以是有上限和下限的数值范围（A1，A2）。第一外接矩形框的中心点（xc，yc）的坐标可以通过如下公式确定：

可选的，根据第一外接矩形框的宽度和高度、以及预设参数，计算得到第二外接矩形框的宽度和高度；基于中心点的坐标、以及第二外接矩形框的宽度和高度，计算得到第二外接矩形框的目标点的坐标。

在本方案中，预设参数为放大倍数a，a是在A1、A2之间的经验参数，即a = random([A1, A2])。第一外接矩形框和第二矩形框的中心点重合，因此可以基于第一外接矩形框IB1的目标点的坐标（x，y）确定中心点的坐标（xc、yc），即xc = x + w / 2，yc = y + h /2；再根据第一外接矩形框IB1的宽高（w，h）以及放大倍数a确定第二外接矩形框IB2的宽高（w2，h2），即w2 = w*a，h2 = h*a；最后根据中心点的坐标（xc、yc）第二外接矩形框IB2的宽高（w2，h2）确定第二外接矩形框IB2的目标点的坐标（x2，y2），即x2 = xc - w/2，y2 = yc -h/2。

步骤S130，基于第二外接矩形框的第二位置信息对第一原始图像进行裁剪，得到人物对应的第一裁剪图像。

在本步骤中，根据第二外接矩形框IB2对第一原始图像I进行裁剪，裁剪出图像HB2，将图像HB2作为人物对应的第一裁剪图像。需要说明的是，如果第一原始图像中识别出多个人物，可以根据每个人物的第二外接矩形框进行裁剪，从而得到每个人物对应的第一裁剪图像。也就是第一裁剪图像的数量与识别出的人物数量相同。

步骤S140，将第一裁剪图像输入至预先训练的卷积神经网络模型，得到人物的人体骨骼点位置信息集合，并根据人体骨骼点位置信息集合更新第一外接矩形框的第一位置信息；其中，第一位置信息用于后续采集图像中第一外接矩形框的定位。

在本步骤中，卷积神经网络模型用于识别人体骨骼关键点的位置，经过计算输出所述人物的多个人体骨骼关键点坐标（例如kp1（Xp1,Yp1），kp2（Xp2,Yp2），kp3（Xp3,Yp3），...)，从而组成人体骨骼点位置信息集合。其中，预先选出若干样本图像，对样本图像按照步骤S110-步骤S130进行裁剪，得到裁剪后的样本图像后标记人体骨骼关键点（或者，也可以在裁剪前标记人体骨骼关键点），生成人体骨骼点标记位置信息集合，将裁剪后的样本图像和人体骨骼点标记位置信息集合输入至卷积神经网络模型进行训练。

进一步的，对人体骨骼点位置信息集合进行图形计算，得到第三外接矩形框IB3以及第三外接矩形框的第三位置信息(x3,y3,w3,h3)。由于第三外接矩形框是基于多个人体骨骼关键点连接起来勾勒出的轮廓确定的，比模型输出的第一外接矩形框更精确，因此将该第三位置信息作为更新后的上述第一外接矩形框的第一位置信息。在进行第二原始图像的采集时，可以直接将更新后的所述第一外接矩形框的第一位置信息作为第二原始图像中人物的第一外接矩形框的第一位置信息，提高了第一外接矩形框的位置精确度的同时，也无需再进行第二原始图像的识别步骤，缩短了检测时间。

需要说明的是，如果步骤S110中识别得到多个人物，则每个人物都有对应的第一外接矩形框，也都基于第三外接矩形框的第三位置信息更新其对应的第一外接矩形框的第一位置信息。

本发明实施例提供的技术方案，一方面通过双外接矩形框（第一外接矩形框和第二外接矩形框）包围图像中识别出的各人物，保证外接矩形框的框选准确率，进而提高人体骨骼点检测准确率；另一方面，在检测出人体骨骼点位置信息集合的同时，输出人体骨骼点位置信息集合更新第一外接矩形框的位置信息，从而在后续采集的图片中无需在进行人物识别和第一外接矩形框位置信息的确定步骤，提高人体骨骼点检测效率的同时，也缩短了检测时间。

作为本发明实施例可选的实施方式，为了提高人体骨骼点的检测准确率，可能会采集多帧图像，结合多帧图像的结果确定给人体骨骼点位置信息集合。图3示出了采集多帧图像场景下人体骨骼点的检测方法，如图3所示，所述方法包括：

步骤S310，采集第一原始图像，识别第一原始图像中至少一个人物的第一外接矩形框的第一位置信息。

步骤S320，根据第一外接矩形框的第一位置信息，确定第一原始图像中人物的第二外接矩形框的第二位置信息；其中，第二外接矩形框的高、宽分别大于其对应的第一外接矩形框的高、宽。

步骤S330，基于第二外接矩形框的第二位置信息对第一原始图像进行裁剪，得到人物对应的第一裁剪图像。

步骤S340，将第一裁剪图像输入至预先训练的卷积神经网络模型，得到人物的人体骨骼点位置信息集合，并根据人体骨骼点位置信息集合更新人物的第一外接矩形框的第一位置信息；其中，第一位置信息用于后续采集图像中人物的第一外接矩形框的定位。

步骤S310-步骤S340具体实施方法参见图1-图2所示实施例，再次不做赘述。

步骤S350，采集第二原始图像。

其中，第二原始图像可以是在第一原始图像采集完成预设时间后再进行采集。

步骤S360，响应于第二原始图像中包括人物，将第一位置信息作为第二原始图像中人物的第一外接矩形框的第一位置信息；重复步骤S320-步骤S340，更新人物的人体骨骼点位置信息集合。

在本步骤中，无需在进行步骤S310中的人物识别以及第一外接矩形框的第一位置信息的确定，只需要重复步骤S320-步骤S340，不断输出人体骨骼点坐标，用于更新人物的人体骨骼点位置信息集合。此外，还可以进行第三原始图像的采集，以此类推，不断更新人物的人体骨骼点位置信息集合。

步骤S370，响应于第二原始图像中包括新人物，重复步骤S310-步骤S340，确定新人物的人体骨骼点位置信息集合。

具体的，在进行是否有新人物的判断时，可以将第一原始图像中每个第一外接矩形框按照其对应的第一位置信息放置在第二原始图像中，确定是否存在缺失第一外接矩形框的人物，若有，则确定第二原始图像中包括新人物。

在本步骤中，若第二原始图像中有新人物的出现，则需要重复步骤S310-步骤S340的所有步骤，得到新人物的人体骨骼点位置信息集合。同时，还可以输出新人物更新的第一矩形框的第一位置信息，这样，当进行第三原始图像的采集时，该新人物的人体骨骼点位置信息集合的更新只需重复步骤S320-步骤S340即可。

与现有的技术相比，本方案在保持检测准确率的同时，可以明显提升单张图像的检测效率。假设识别一帧图像中人物以及第一外接矩形框位置信息的时间为t1，卷积神经网络模型检测一帧图像中人体骨骼点位置信息集合的时间为t2，那么按照现有技术中第一类方案每帧图像计算时间为t1+t2，而本方案只有第一帧计算时间为t1+t2，后续帧检测时间均为t2，大大缩短了检测时间。

作为本发明实施例可选的实施方式，图4示出了卷积神经网络模型的优化方法，如图4所示，该方法包括：

步骤S410，获取样本图像、样本图像中至少一个样本人物的外接矩形框的位置信息、以及样本人物的人体骨骼点标记位置信息。

在进行本步骤之前，参考目前成熟的单人人体骨骼点检测模型，搭建卷积神经网络模型。如上所述，预先选出若干样本图像，该样本图像中出现的至少一个样本人物已经标记好了人体骨骼关键点的坐标，即每个样本人物对应有人体骨骼点标记位置信息。对样本图像重复图1或图2所示实施例中的步骤S110-步骤S130，得到样本人物中每个样本人物的外接矩形框的位置信息（即上述实施例中的第二外接矩形框）。

步骤S420，基于外接矩形框的位置信息对样本图像进行裁剪，得到样本人物对应的裁剪图像。

本步骤中，按照外接矩形框对样本图像进行裁剪，得到每个样本人物对应的裁剪后的样本图像，即裁剪图像。

步骤S430，将裁剪图像输入至卷积神经网络模型，得到样本人物的人体骨骼点位置信息。

具体的，人体骨骼点位置信息包括样本人物每个人体骨骼关键点的坐标。

步骤S440，对人体骨骼点标记位置信息和人体骨骼点位置信息进行对比计算，根据计算结果优化卷积神经网络模型。

具体的，将卷积神经网络模型输出的人体骨骼点位置信息与人体骨骼点标记位置信息输入到均方误差计算函数中，得到损失值，当损失之大于预设阈值时，需要调节卷积神经网络模型中的参数，再重复本步骤，直至损失值小于预设阈值，说明模型优化完成，将模型内部的参数进行固化。

可选的，对人体骨骼点标记位置信息和人体骨骼点位置信息进行对比计算之前，该方法还包括：根据外接矩形框的位置信息对人体骨骼点标记位置信息进行校正，得到校正后的人体骨骼点标记位置信息。

进一步的，标记的人体骨骼关键点的坐标是相对于样本图像的位置，在进行样本图像的裁剪后，标记的人体骨骼关键点的坐标应该是相对于裁剪图像的位置，因此需要对人体骨骼关键点的坐标进行校正。

具体的，比如样本人物手腕处有一关键点，此点在样本图像中的坐标为（g，t），而此点在裁剪图像中的坐标需要根据公式校正，得到在裁剪图像中的坐标(g2，t2)。可选的，公式可以为：（g2，t2）= （g，t）-（x2，y2），其中，（x2，y2）为样本图像外接矩形框左上角的顶点坐标。

根据上述方法，将所有标记的人体骨骼关键点的坐标都进行校正，即可得到校正后的所述人体骨骼点标记位置信息。

可选的，在得到校正后的人体骨骼点标记位置信息后，对人体骨骼点标记位置信息和人体骨骼点位置信息进行对比计算，根据计算结果优化卷积神经网络模型，包括：

将校正后的人体骨骼点标记位置信息和人体骨骼点位置信息输入到均方误差计算函数中，得到损失值；使用梯度下降算法，基于损失值更新所述卷积神经网络模型中的参数，直至损失值小于预设阈值。

具体的，将校正后的每个标记的人体骨骼关键点坐标与模型输出的每个人体骨骼关键点坐标运算输入到均方误差计算函数中，得到损失值；使用梯度下降算法，对损失值与卷积神经网络模型进行反向传播，更新卷积神经网络模型中的参数；不断迭代上述步骤，直到损失值收敛，小于经验值LOSS，结束训练，导出优化后的卷积神经网络模型。

在一个实施例中，参考图5所示，提供了一种人体骨骼点检测装置的结构示意图。该装置可用于执行图1-图4任一所示的人体骨骼点检测方法，该装置包括：识别模块510、确定模块520、裁剪模块530和生成模块540；其中，

识别模块510，用于采集第一原始图像，识别第一原始图像中至少一个人物的第一外接矩形框的第一位置信息；确定模块520，用于根据第一外接矩形框的第一位置信息，确定第一原始图像中人物的第二外接矩形框的第二位置信息；其中，第二外接矩形框的高、宽分别大于其对应的第一外接矩形框的高、宽；裁剪模块530，用于基于第二外接矩形框的第二位置信息对第一原始图像进行裁剪，得到人物对应的第一裁剪图像；生成模块540，用于将第一裁剪图像输入至预先训练的卷积神经网络模型，得到人物的人体骨骼点位置信息集合，并根据人体骨骼点位置信息集合更新人物的第一外接矩形框的第一位置信息；其中，第一位置信息用于后续采集图像中人物的第一外接矩形框的定位。

可选的，识别模块510，还用于采集第二原始图像；响应于第二原始图像中包括人物，将第一位置信息作为第二原始图像中人物的第一外接矩形框的第一位置信息。

可选的，第一位置信息包括第一外接矩形框的目标点的坐标、宽度和高度；第二位置信息包括第二外接矩形框的目标点的坐标、宽度和高度；确定模块520，用于根据第一外接矩形框的目标点的坐标、宽度和高度确定第一外接矩形框的中心点的坐标；根据中心点的坐标、第一外接矩形框的宽度和高度、以及预设参数确定第二外接矩形框的目标点的坐标、宽度和高度。

可选的，确定模块520，用于根据第一外接矩形框的宽度和高度、以及预设参数，计算得到第二外接矩形框的宽度和高度；基于中心点的坐标、以及第二外接矩形框的宽度和高度，计算得到第二外接矩形框的目标点的坐标。

可选的，该装置还包括获取模块和对比模块，获取模块，用于获取样本图像、样本图像中至少一个样本人物的外接矩形框的位置信息、以及样本人物的人体骨骼点标记位置信息；裁剪模块530，用于基于外接矩形框的位置信息对样本图像进行裁剪，得到样本人物对应的裁剪图像；生成模块540，用于将裁剪图像输入至卷积神经网络模型，得到样本人物的人体骨骼点位置信息；对比模块，用于对人体骨骼点标记位置信息和人体骨骼点位置信息进行对比计算，根据计算结果优化卷积神经网络模型。

可选的，该装置还包括校正模块，用于根据外接矩形框的位置信息对人体骨骼点标记位置信息进行校正，得到校正后的人体骨骼点标记位置信息。

可选的，还包括对比模块，用于将校正后的人体骨骼点标记位置信息和人体骨骼点位置信息输入到均方误差计算函数中，得到损失值；使用梯度下降算法，基于损失值更新卷积神经网络模型中的参数，直至损失值小于预设阈值。

需要说明的是，本发明实施例所提供的人体骨骼点检测装置对应的可用于执行上述各方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图6为本发明实施例中的一种电子设备的结构示意图。下面具体参考图6，其示出了适于用来实现本发明实施例中的电子设备600的结构示意图。本发明实施例中的电子设备600可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置（例如中央处理器、图形处理器等）601，其可以根据存储在只读存储器（ROM）602中的程序或者从存储装置608加载到随机访问存储器（RAM）603中的程序而执行各种适当的动作和处理以实现如本发明所述的实施例的方法。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代的实施或具备更多或更少的装置。

特别的，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码，从而实现如上所述方法。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM602被安装。在该计算机程序被处理装置601执行时，执行本发明实施例的方法中限定的上述功能。

需要说明的是，本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

在一些实施方式中，终端、服务器可以利用诸如HTTP（HyperText TransferProtocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

附图中的流程图和框图，图示了按照本发明各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连的表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，依照所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样的，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反的，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种人体骨骼点检测方法，其特征在于，所述方法包括：

步骤一：采集第一原始图像，识别所述第一原始图像中至少一个人物的第一外接矩形框的第一位置信息；

步骤二：根据所述第一外接矩形框的第一位置信息，确定所述第一原始图像中所述人物的第二外接矩形框的第二位置信息；其中，所述第二外接矩形框的高、宽分别大于其对应的所述第一外接矩形框的高、宽；

步骤三：基于所述第二外接矩形框的第二位置信息对所述第一原始图像进行裁剪，得到所述人物对应的第一裁剪图像；

步骤四：将所述第一裁剪图像输入至预先训练的卷积神经网络模型，得到所述人物的人体骨骼点位置信息集合，并根据所述人体骨骼点位置信息集合更新所述人物的第一外接矩形框的第一位置信息；其中，更新后的第一位置信息用于后续采集图像中所述人物的第一外接矩形框的定位；

步骤五：采集第二原始图像；

步骤六：响应于所述第二原始图像中包括所述人物，将所述更新后的第一位置信息作为所述第二原始图像中所述人物的第一外接矩形框的第一位置信息；按照所述步骤二至步骤四的方式继续处理所述第二原始图像，更新所述人物的所述人体骨骼点位置信息集合；

步骤七：响应于所述第二原始图像中包括新人物，按照所述步骤一至步骤四的方式处理所述第二原始图像，确定所述新人物的人体骨骼点位置信息集合。

2.根据权利要求1所述的方法，其特征在于，所述第一位置信息包括所述第一外接矩形框的目标点的坐标、宽度和高度；所述第二位置信息包括所述第二外接矩形框的目标点的坐标、宽度和高度；所述根据所述第一外接矩形框的第一位置信息，确定所述第一原始图像中所述人物的第二外接矩形框的第二位置信息，包括：

根据所述第一外接矩形框的目标点的坐标、宽度和高度确定所述第一外接矩形框的中心点的坐标；

根据所述中心点的坐标、所述第一外接矩形框的宽度和高度、以及预设参数确定所述第二外接矩形框的目标点的坐标、宽度和高度。

3.根据权利要求2所述的方法，其特征在于，所述根据所述中心点的坐标、所述第一外接矩形框的宽度和高度、以及预设参数确定所述第二外接矩形框的目标点的坐标、宽度和高度，包括：

根据所述第一外接矩形框的宽度和高度、以及预设参数，计算得到所述第二外接矩形框的宽度和高度；

基于所述中心点的坐标、以及所述第二外接矩形框的宽度和高度，计算得到所述第二外接矩形框的目标点的坐标。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取样本图像、所述样本图像中至少一个样本人物的外接矩形框的位置信息、以及所述样本人物的人体骨骼点标记位置信息；

基于所述外接矩形框的位置信息对所述样本图像进行裁剪，得到所述样本人物对应的裁剪图像；

将所述裁剪图像输入至所述卷积神经网络模型，得到所述样本人物的人体骨骼点位置信息；

对所述人体骨骼点标记位置信息和所述人体骨骼点位置信息进行对比计算，根据计算结果优化所述卷积神经网络模型。

5.根据权利要求4所述的方法，其特征在于，所述对所述人体骨骼点标记位置信息和所述人体骨骼点位置信息进行对比计算之前，所述方法还包括：

根据所述外接矩形框的位置信息对所述人体骨骼点标记位置信息进行校正，得到校正后的所述人体骨骼点标记位置信息。

6.根据权利要求5所述的方法，其特征在于，所述对所述人体骨骼点标记位置信息和所述人体骨骼点位置信息进行对比计算，根据计算结果优化所述卷积神经网络模型，包括：

将校正后的所述人体骨骼点标记位置信息和所述人体骨骼点位置信息输入到均方误差计算函数中，得到损失值；

使用梯度下降算法，基于损失值更新所述卷积神经网络模型中的参数，直至损失值小于预设阈值。

7.一种人体骨骼点检测装置，其特征在于，包括：

第一模块，用于采集第一原始图像，识别所述第一原始图像中至少一个人物的第一外接矩形框的第一位置信息；

第二模块，用于根据所述第一外接矩形框的第一位置信息，确定所述第一原始图像中所述人物的第二外接矩形框的第二位置信息；其中，所述第二外接矩形框的高、宽分别大于其对应的所述第一外接矩形框的高、宽；

第三模块，用于基于所述第二外接矩形框的第二位置信息对所述第一原始图像进行裁剪，得到所述人物对应的第一裁剪图像；

第四模块，用于将所述第一裁剪图像输入至预先训练的卷积神经网络模型，得到所述人物的人体骨骼点位置信息集合，并根据所述人体骨骼点位置信息集合更新所述人物的第一外接矩形框的第一位置信息；其中，更新后的第一位置信息用于后续采集图像中所述人物的第一外接矩形框的定位；

第五模块，用于采集第二原始图像；

第六模块，用于响应于所述第二原始图像中包括所述人物，将所述更新后的第一位置信息作为所述第二原始图像中所述人物的第一外接矩形框的第一位置信息；按照所述第二模块至第四模块的方式继续处理所述第二原始图像，更新所述人物的所述人体骨骼点位置信息集合；

第七模块，用于响应于所述第二原始图像中包括新人物，按照所述第一模块至第四模块的方式处理所述第二原始图像，确定所述新人物的人体骨骼点位置信息集合。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任意一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任意一项所述的方法。