CN114139630A

CN114139630A - 姿态识别方法、装置、存储介质和电子设备

Info

Publication number: CN114139630A
Application number: CN202111463757.0A
Authority: CN
Inventors: 肖亚博; 王国利; 张骞; 黄畅
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-04

Abstract

本公开实施例公开了一种姿态识别方法、装置、存储介质和电子设备，其中，方法包括：利用姿态识别模型提取包含待识别对象的图像的第一特征数据；基于第一特征数据，预测待识别对象的中心点的位置和各个部位分别对应的自适应点的位置，中心点表征待识别对象中心点部位的成像点；基于第一特征数据和各个部位分别对应的自适应点的位置，预测各个部位分别对应的关键点集；基于中心点的位置和各个部位分别对应的关键点集，确定待识别对象的目标姿态。通过各个自适应点，可以细粒度地表征不同尺度和形变的姿态，进而明确关键点与待识别对象的关联，可以提高姿态识别的准确度。

Description

姿态识别方法、装置、存储介质和电子设备

技术领域

本公开涉及计算机视觉技术，尤其是一种姿态识别方法、装置、存储介质和电子设备。

背景技术

在计算机视觉领域，姿态识别用于定位出图像中待识别对象的关键点位置，并基于关键点位置表征待识别对象的姿态，例如人体姿态识别。随着深度学习技术的应用，该领域取得了极大的进步并且促进了人机交互、行为识别等领域的发展。

相关技术中，单阶段的姿态回归方法通常是先预测出人体的中心点，然后基于中心点预测多个关键点，得到人体的姿态。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种人体姿态识别的方法、装置、存储介质和电子设备。

根据本公开实施例的一个方面，提供了一种人体姿态识别的方法，该方法包括：利用姿态识别模型提取包含待识别对象的图像的第一特征数据；基于第一特征数据，预测待识别对象的中心点的位置和各个部位分别对应的自适应点的位置，中心点表征待识别对象中心点部位的成像点；基于第一特征数据和各个部位分别对应的自适应点的位置，预测各个部位分别对应的关键点集；基于中心点的位置和各个部位分别对应的关键点集，确定待识别对象的目标姿态。

根据本公开实施例的又一个方面，提供了一种训练姿态识别模型的方法，该方法包括：获取训练集，训练集包括已标记样本标签的样本图像，样本标签包括待识别对象的样本中心点的位置、样本关键点的位置以及样本图像对应的样本中心点热图、样本关键点热图；基于初始姿态识别模型的初始姿态回归子网络对样本特征数据进行处理，得到每个像素点的预测中心点置信度及其对应的预测关键点的位置；基于初始姿态识别模型的关键点热图网络对样本特征数据进行处理，生成样本图像的预测关键点热图；基于每个像素点的预测中心点置信度与样本中心点热图，确定第一损失函数；基于样本关键点的位置以及参考像素点对应的预测关键点的位置，确定第二损失函数，参考像素点的位置与样本中心点的位置相同；基于预测关键点热图和样本关键点热图，确定第三损失函数的值；基于第一损失函数、第二损失函数和第三损失函数，调整初始姿态识别模型的参数，直至满足终止条件时，删除关键点热图网络，得到姿态识别模型。

根据本公开实施例的又一个方面，提供了一种人体姿态确定装置，包括：特征提取单元，被配置成利用姿态识别模型提取包含待识别对象的图像的第一特征数据；第一预测单元，被配置成基于第一特征数据，预测待识别对象的中心点的位置和各个部位分别对应的自适应点的位置，中心点表征待识别对象中心点部位的成像点；第二预测单元，被配置成基于第一特征数据和各个部位分别对应的自适应点的位置，预测各个部位分别对应的关键点集；姿态确定单元，被配置成基于中心点的位置和各个部位分别对应的关键点集，确定待识别对象的目标姿态。

根据本公开实施例的又一个方面，提供了一种训练姿态识别模型的装置，包括：样本获取单元，被配置成获取训练集，训练集包括已标记样本标签的样本图像，样本标签包括待识别对象的样本中心点的位置、样本关键点的位置以及样本图像对应的样本中心点热图、样本关键点热图；特征提取单元，被配置成基于预先构建的初始姿态识别模型的初始骨干网络对训练集中的样本图像进行处理，得到样本特征数据；姿态预测单元，被配置成基于初始姿态识别模型的初始姿态回归子网络对样本特征数据进行处理，得到每个像素点的预测中心点置信度及其对应的预测关键点的位置；热图预测单元，被配置成基于初始姿态识别模型的关键点热图网络对样本特征数据进行处理，生成样本图像的预测关键点热图；第一损失单元，被配置成基于每个像素点的预测中心点置信度与样本中心点热图，确定第一损失函数；第二损失单元，被配置成基于样本关键点的位置以及参考像素点对应的预测关键点的位置，确定第二损失函数，参考像素点的位置与样本中心点的位置相同；第三损失单元，被配置成基于预测关键点热图和样本关键点热图，确定第三损失函数；模型训练单元，被配置成基于第一损失函数、第二损失函数和第三损失函数，调整初始姿态识别模型的参数，直至满足终止条件，删除关键点热图网络，得到姿态识别模型。

基于本公开上述实施例提供的人体姿态确定方法，可以利用第一特征数据预测出待识别对象的中心点的位置和各个部位分别对应的自适应点的位置，然后根据第一特征数据和各部位分别对应的自适应点的位置，预测每个部位对应的关键点集，并根据中心点的位置和各个部位分别对应的关键点集确定待识别对象的目标姿态。通过各个自适应点，可以细粒度地表征不同尺度和形变的姿态，进而明确关键点与待识别对象的关联，从而提高姿态识别的准确度。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1(a)是本公开的姿态识别方法的一个系统架构示意图；

图1(b)是本公开的姿态识别方法的一个实施例中的目标姿态的示意图；

图2为本公开的姿态识别方法的一个实施例的流程图。

图3为本公开的姿态识别方法的一个实施例中预测中心点和自适应点的位置的流程图；

图4为本公开的姿态识别方法的一个实施例中预测关键点集的流程图；

图5为本公开的姿态识别方法的一个实施例中预测候选自适应点的位置的流程图；

图6为本公开的姿态识别方法的一个实施例中预测候选关键点集的流程图；

图7为本公开的训练姿态识别模型的方法的一个实施例的流程图；

图8为本公开的姿态识别装置的一个实施例的结构示意图；

图9为本公开的训练姿态识别模型的装置的一个实施例的结构示意图；

图10为本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，单阶段的姿态回归方法在基于中心点预测关键点的过程中，由于仅利用了中心点的特征，导致无法充分编码不同尺度和形变的姿态信息，导致不能细粒度地表征不同尺度和形变的姿态，姿态识别的准确度较低。

示例性系统

下面结合图1(a)对本公开的姿态识别方法进行示例性说明，图1(a)为本公开的姿态识别方法的一个系统架构示意图。如图1所示，该系统可以包括姿态识别模型和最大池化核170，其中，姿态识别模型可以包括骨干网络110、关键点回归网络分支120、区域感知网络分支130和中心点感知网络分支140和。执行主体可以是装载有该姿态识别模型的计算机指令的终端设备或服务器，当执行主体获取到包含待识别对象的图像时，可以通过姿态识别模型的骨干网络110(例如可以是ResNet、HRNet等卷积神经网络)从图像中提取第一特征数据，然后由中心点感知网络分支140基于第一特征数据预测每个像素点的中心点置信度，并由最大池化核170根据中心点置信度筛选出待识别对象的中心点；由关键点回归网络分支120从第一特征数据中提取关键点回归特征，并由区域感知网络分支130基于关键点回归特征预测待识别对象的各个部位分别对应的自适应点的位置150；之后由关键点回归网络分支120基于各自适应点的位置和关键点回归特征，预测各部位分别对应的关键点集160。最后，根据中心点的位置确定待识别对象的位置，并确定属于待识别对象的各个关键点集，从而确定待识别对象的目标姿态。

如图1(b)所示，当待识别对象为人体时，目标姿态可以包括7个部位分别对应的关键点集，每个部位的局部姿态以及该部位在人体实例中的相对位置可以通过关键点集来表征。

示例性方法

本公开实施例中，“候选”表示待定的意思，例如候选自适应点表示待定的、具备一定概率成为自适应点的点。通过判断确定该候选自适应点满足预设条件时(例如候选自适应点对应的像素点被确定为中心点)，该自候选自适应点相应的被确定为自适应点，在此过程中，点的属性(例如位置、语义信息等)并不会发生改变。

图2是本公开一示例性实施例提供的姿态识别方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤210、利用姿态识别模型提取包含待识别对象的图像的第一特征数据。

在本实施例中，待识别对象例如可以是人体、动物或其他可以识别姿态的物体。第一特征数据可以包括但不限于图像的纹理特征以及像素点的语义信息、边界信息、位置信息等，第一特征数据例如可以是多维矩阵。

结合图1(a)进行示例性说明，可以利用姿态识别模型中的骨干网络对图像进行特征提取，得到第一特征数据。

步骤220、基于第一特征数据，预测待识别对象的中心点的位置和各个部位分别对应的自适应点的位置。

其中，中心点表征待识别对象中心点部位的成像点。

在本实施例中，自适应点与待识别对象的各个部位对应，可以通过自适应点与中心点的相对位置表征部位与待识别对象的中心之间的相对位置。

作为示例，可以利用姿态识别模型中的卷积层或全连接层对第一特征数据进行处理，预测出待识别对象的中心点的位置以及各个部位对应的的自适应点的位置。

在一个具体的示例中，执行主体可以采用逐像素点的处理方式，首先将每个像素点都假设为中心点，然后利用姿态识别模型预设每个像素点的中心点置信度，以及，预测该像素点为中心点时分别与各个部位对应的候选自适应点；之后，可以通过中心点置信度对所有像素点进行筛选，当像素点的置信度满足预设条件时(例如可以是置信度大于预定的数值或者置信度为局部最大值)，就将该像素点确定为中心点，则该像素点对应的候选自适应点即为自适应点，由此可以得到待处理对象的中心点以及各个部位分别对应的自适应点。

步骤230、基于第一特征数据和各个部位分别对应的自适应点的位置，预测各个部位分别对应的关键点集。

在本实施例中，每个部位均对应一个关键点集，关键点集中可以包括一个或多个关键点。

如图1(b)所示，在人体姿态识别的示例中，各个部位可以根据人体的关节结构确定，则关键点可以表征人体的关节的成像点。例如头部区域可以包括5个关键点，其他部位可以包括两个关键点。

在一个具体的示例中，执行主体可以采用双线性插值的方式从第一特征数据中提取各个自适应点的位置对应的特征数据，然后利用卷积层或全连接层对提取出的特征数据进行处理，预测每个自适应点对应的一个或多个关键点，即可得到每个部位对应的关键点集。

步骤240、基于中心点的位置和各个部位分别对应的关键点集，确定待识别对象的目标姿态。

在一个多人姿态识别的示例中，执行主体可以根据中心点的位置确定图像中各个人体实例的位置，然后根据每个中心点对应的各个关键点集，分别确定每个人体实例的各个部位分别对应的关键点集，并根据多个关键点集确定出图像中各个人体的目标姿态。

本实施例提供的姿态识别方法，可以利用第一特征数据预测出待识别对象的中心点的位置和各个部位分别对应的自适应点的位置，然后根据第一特征数据和各部位分别对应的自适应点的位置，预测每个部位对应的关键点集，并根据中心点的位置和各个部位分别对应的关键点集确定待识别对象的目标姿态。通过各个自适应点，可以细粒度地表征不同尺度和形变的姿态，进而明确关键点与待识别对象的关联，从而提高姿态识别的准确度。

本公开实施例提供的任一种姿态识别方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种姿态识别方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种姿态识别方法。下文不再赘述。

接着参考图3，图3示出了本公开的姿态识别方法的一个实施例中预测中心点和自适应点的位置的流程图，如图3所示，上述步骤220可以进一步包括如下步骤：

步骤310、基于姿态识别模型的关键点回归网络分支对第一特征数据进行特征提取，得到第二特征数据。

作为示例，关键点回归网络分支可以通过卷积层对第一特征数据进行特征提取，得到第二特征数据。

步骤320、基于姿态识别模型的区域感知网络分支对第二特征数据进行处理，预测图像中的每个像素点分别对应于各个部位的候选自适应点的位置。

在本实施例中，在确定出中心点之前，图像中的每个像素点都具备一定的概率成为中心点，该概率即为中心点的置信度。基于此，执行主体可以首先假设每个像素点为中心点，以此预测每个像素点对应于各个部位的候选自适应点的位置。候选自适应点表征待定的自适应点，当像素点被确定为中心点时，候选自适应点即为自适应点。

作为示例，区域感知网络分支可以利用卷积层或全连接层对第二特征数据进行处理，预测每个像素点分别对应于各个部位的候选自适应点的位置。

步骤330、基于姿态识别模型的中心点感知网络分支对第一特征数据进行特征提取，得到第三特征数据。

步骤340、基于每个像素点分别对应于各个部位的候选自适应点的位置，从第三图像特征中提取每个像素点对应的中心回归特征。

本公开中的特征数据(例如包括第一特征数据、第二特征数据、第三特征数据、中心回归特征、关键点回归特征以及其他特征数据)可以采用多维矩阵的形式，基于像素点在图像中的位置(通常是指像素坐标)可以在从特征图中提取对应部分的特征数据。

步骤350、基于每个像素点对应的中心回归特征，预测每个像素点的中心点置信度。

在一个具体示例中，执行主体可以利用中心点感知网络分支中的第一卷积层从第一特征数据中提取第三特征数据，再从第三特征数据中提取各个候选自适应点的位置对应的特征数据；之后将提取出的各个特征数据拼接，得到每个像素点对应的中心回归特征；然后利用第二卷积层或全连接层对中心回归特征进行处理，预测每个像素点的中心点置信度。

需要说明的是，本实施中的中心点感知网络分支和关键点回归网络可以并行处理，本公开并不限定其先后顺序。

步骤360、利用最大池化核将中心点置信度大于预设阈值的像素点的位置确定为待识别对象的中心点的位置，并将该像素点分别对应于各个部位的候选自适应点的位置确定为待识别对象的各个部位分别对应的自适应点的位置。

在本实施例中，中心点置信度表征像素点为中心点的概率，中心置信度越高，则像素点与中心点的匹配程度就越高，相应的，由该像素点表征待识别对象的中心点的准确度就越高。

在图3所示的实施例中，采用了逐像素的处理方式，利用姿态识别模型预测出每个像素点的中心点置信度及其对应的候选自适应点，然后通过中心点置信度对像素点与中心点的匹配程度进行评估，将中心点置信度大于预设阈值的像素点确定为中心点，则该像素点对应的候选自适应点即为各部位分别对应的自适应点。一方面可以提高预测中心点和自适应点的位置的准确度，另一方面通过姿态识别模型中各个网络分支的并行处理方式，可以提高运算效率。

进一步参考图4，图4示出了本公开的姿态识别方法的一个实施例中预测关键点集的流程图，在图3和图2所示的实施例的基础上，上述步骤230可以进一步包括：

步骤410、利用关键点回归网络分支，基于每个像素点分别对应的各个部位的候选自适应点的位置，从第二特征数据中提取每个像素点分别对应的各个部位的关键点回归特征。

作为示例，可以利用关键点回归网络分支，采用双线性插值的方式从第二特征数据中提取各个候选自适应点的位置对应的特征数据，然后将提取出的各个特征数据拼接，并将拼接后的特征数据作为像素点对应的各个部位的关键点回归特征。

步骤420、基于每个像素点分别对应的各个部位的关键点回归特征、及其对应的各个候选自适应点的位置，预测每个像素点分别对应的各个部位的候选关键点集。

在本实施例中，执行主体可以利用关键点回归网络分支对预测每个候选自适应点的位置对应的一个或多个候选关键点，得到每个像素点分别对应的各个部位的候选关键点集。

步骤430、在利用最大池化核将中心点置信度大于预设阈值的像素点的位置确定为待识别对象的中心点的位置之后，将该像素点对应的各个部位的候选关键点集确定为各个所述部位分别对应的关键点集。

在本实施例中，候选自适应点表征待定的自适应点，候选关键点集则表征待定的关键点集。通过最大池化核对像素点进行评估，当像素点被确定为中心点时，则其对应的候选自适应点以及候选关键点集相应的称为自适应点和关键点集。

从图4可以看出，图4的流程体现了基于姿态识别模型预测出每个候选自适应点对应的候选关键点集，当像素点被确定为中心点时，可以同步的将该像素点对应的候选自适应点以及候选关键点确定为自适应点和关键点集。与相关技术中的自上而下和自下而上的两阶段识别方法相比，本实施例中的姿态识别方法无需后处理，即可确定待识别对象的中心点的位置和关键点集，实现了单阶段的姿态识别，可以避免后处理过程中的运算负担和存储负担，提高识别效率。

接着参考图5，图5示出了本公开的姿态识别方法的一个实施例中预测候选自适应点的位置的流程图，如图5所示，在图4和图3所示的实施例的基础上，上述步骤320可以进一步包括如下步骤：

步骤510、基于第二特征数据，预测每个像素点分别对应于各个部位的第一偏移量。

在本实施例中，第一偏移量是由像素点指向各个部位对应的自适应点的向量，可以表征待识别对象的部位与中心点的相对位置。

作为示例，姿态识别模型中区域感知分支可以利用卷积层或全连接层基于第二特征数据进行预测，得到每个像素点的一个或多个第一偏移量。

步骤520、基于每个像素点的位置及其对应于各个部位的第一偏移量，确定每个像素点分别对应于各个部位的候选自适应点的位置。

在图5所示的流程中，可以通过第二特征数据预测像素点对应于各个部位的第一偏移量，再结合像素点的位置确定候选自适应点的位置，通过自适应点的位置可以更准确地感知局部特征。

接着参考图6，图6示出了本公开的姿态识别方法的一个实施例中预测候选关键点集的流程图，如图6所示，在图4和图5所示的实施例的基础上，上述步骤420包括：

步骤610、基于每个像素点分别对应的各个部位的关键点回归特征，预测每个候选自适应点对应的一个或多个第二偏移量。

在本实施例中，第二偏移量是由候选自适应点指向候选关键点的向量。

作为示例，姿态识别模型中的关键点回归网络分支可以利用卷积层或全连接层对每个像素点分别对应的各个部位的关键点回归特征进行预测，确定每个候选自适应点对应的一个或多个第二偏移量。

步骤620、基于每个像素点分别对应的各个部位的候选自适应点的位置、以及每个候选自适应点对应的一个或多个第二偏移量，预测每个像素点分别对应的各个部位的一个或多个候选关键点的位置，以生成每个像素点分别对应的各个部位的候选关键点集。

在实现本公开的过程中，发明人还发现，相关技术通常是基于上游关键点的位置预测下游关键点的位置。例如，预测腕关节关键点的位置时，首先需要预测中心点到肩关节关键点的位置，然后基于肩关节关键点的位置预测肘关节关键点的位置，再基于肘关节关键点的位置预测腕关节关键点的位置。这就导致肩关节关键点和肘关节关键点的误差累积到腕关节关键点的误差中，因而关键点预测准确度较低。

从图6可以看出，图6所示的流程体现了“基于关键点回归特征预测第二偏移量，再结合候选自适应点的位置确定候选关键点的位置”的步骤。由于候选自适应点的位置不是预定义的，而是基于特征数据预测得到的，因而可以降低预测候选关键点过程中的累积误差。

接着参考图7，图7示出了本公开的训练姿态识别模型的方法的一个实施例的流程图，如图7所示，该流程包括以下步骤：

步骤710、获取训练集。

其中，训练集包括已标记样本标签的样本图像，样本标签包括待识别对象的样本中心点的位置、样本关键点的位置以及样本图像的样本中心点热图和样本关键点热图。

在本实施例中，样本中心点热图可以表征每个像素点为中心点的参考置信度，样本关键点热图可以表征每个像素点为关键点的概率。

步骤720、基于预先构建的初始姿态识别模型的初始骨干网络对训练集中的样本图像进行处理，得到样本特征数据。

步骤730、基于初始姿态识别模型的初始姿态回归子网络对样本特征数据进行处理，得到每个像素点的预测中心点置信度及其对应的预测关键点的位置。

作为示例，初始姿态回归子网络可以包括初始中心点感知网络分支、初始区域感知网络分支和初始关键点回归网络分支。初始区域感知网络可以预测每个像素点的候选自适应点的位置，初始中心点感知网络可以预测每个像素点的预测中心点置信度；初始区域感知网络分支可以预测每个像素点对应的候选自适应点的位置；关键点回归网络分支可以预测每个候选自适应点对应的预测关键点的位置，从而得到每个像素点对应的预测关键点的位置。

步骤740、基于初始姿态识别模型的关键点热图子网络对样本特征数据进行处理，生成样本图像的预测关键点热图。

在本实施例中，关键点热图网络基于样本特征数据预测出每个像素点分别对应多个类型的关键点置信度，并基于每个像素点分别对应多个类型的关键点置信度生成多通道的预测关键点热图，每个类型对应一个通道，关键点的类型例如可以表征关键点表征的待识别对象的关节类型，例如对应于肩关节的关键点属于同一个关键点的类型。

步骤750、基于每个像素点的预测中心点置信度与样本中心点热图，确定第一损失函数。

作为示例，执行主体可以首选确定根据像素点的位置，从样本中心点热图中确定该位置对应的参考置信度，然后确定每个像素点的预测中心点置信度与参考置信度的差异，并以此确定第一损失函数。

步骤760、基于样本关键点的位置以及参考像素点对应的预测关键点的位置，确定第二损失函数。

其中，参考像素点的位置与样本中心点的位置相同。

作为示例，执行主体通过初始姿态回归网络得到每个像素点的预测关键点之后，可以根据样本中心点的位置确定参考像素点的位置，进而得到参考像素点对应的预测关键点的位置，然后确定预测关键点的位置与参考像素点的位置之间的预测偏移量，并确定样本关键点的位置与样本中心点的位置之间的样本偏移量，之后可以根据预测偏移量与样本偏移量之间的差异，确定第二损失值。

步骤770、基于预测关键点热图和样本关键点热图，确定第三损失函数。

作为示例，执行主体可以首先确定相同位置的像素点在预测关键点热图和样本标签中的像素值的差异，然后基于所有像素点的差异，确定损失函数的值。

步骤780、基于第一损失函数、第二损失函数和第三损失函数，调整初始姿态识别模型的参数，直至满足终止条件，删除关键点热图网络，得到姿态识别模型。

在图7所示的实施例中，可以利用第一损失函数约束姿态识别模型中预测中心点置信度的过程，可以利用第二损失函数约束姿态识别模型中预测关键点的位置的过程，同时，可以利用样本关键点热图和关键点热图网络分支辅助骨干网络学习待识别对象的结构化姿态信息的提取策略，可以提高训练效率。

示例性装置

下面参考图8，图8示出了本公开的姿态识别装置的一个实施例的结构示意图，如图8所示，该装置包括：特征提取单元810，被配置成利用姿态识别模型提取包含待识别对象的图像的第一特征数据；第一预测单元820，被配置成基于第一特征数据，预测待识别对象的中心点的位置和各个部位分别对应的自适应点的位置，中心点表征待识别对象中心点部位的成像点；第二预测单元830，被配置成基于第一特征数据和各个部位分别对应的自适应点的位置，预测各个部位分别对应的关键点集；姿态确定单元840，被配置成基于中心点的位置和各个部位分别对应的关键点集，确定待识别对象的目标姿态。

在其中一个实施例中，第一预测单元820进一步包括：第一提取模块，被配置成基于姿态识别模型的关键点回归网络分支对第一特征数据进行特征提取，得到第二特征数据；第一预测模块，被配置成基于姿态识别模型的区域感知网络分支对第二特征数据进行处理，预测图像中的每个像素点分别对应于各个部位的候选自适应点的位置；第二提取模块，被配置成基于姿态识别模型的中心点感知网络分支对第一特征数据进行特征提取，得到第三特征数据；第三提取模块，被配置成基于每个像素点分别对应于各个部位的候选自适应点的位置，从第三图像特征中提取每个像素点对应的中心回归特征；第二预测模块，被配置成基于每个像素点对应的中心回归特征，预测每个像素点的中心点置信度；第一确定模块，被配置成利用最大池化核将中心点置信度大于预设阈值的像素点的位置确定为待识别对象的中心点的位置，并将该像素点分别对应于各个部位的候选自适应点的位置确定为待识别对象的各个部位分别对应的自适应点的位置。

在其中一个实施例中，第二预测单元830进一步包括：第四提取模块，被配置成利用关键点回归网络分支，基于每个像素点分别对应的各个部位的候选自适应点的位置，从第二特征数据中提取每个像素点分别对应的各个部位的关键点回归特征；第三预测模块，被配置成基于每个像素点分别对应的各个部位的关键点回归特征、及其对应的各个候选自适应点的位置，预测每个像素点分别对应的各个部位的候选关键点集；第二确定模块，被配置成在利用最大池化核将中心点置信度大于预设阈值的像素点的位置确定为待识别对象的中心点的位置之后，将该像素点对应的各个部位的候选关键点集确定为各个所述部位分别对应的关键点集。

在其中一个实施例中，第一预测模块进一步包括：第一偏移子模块，被配置成基于第二特征数据，预测每个像素点分别对应于各个部位的第一偏移量；第一位置子模块，被配置成基于每个像素点的位置及其对应于各个部位的第一偏移量，确定每个像素点分别对应于各个部位的候选自适应点的位置。

在其中一个实施例中，第三预测模块进一步包括：第二偏移子模块，被配置成基于每个像素点分别对应的各个部位的关键点回归特征，预测每个候选自适应点对应的一个或多个第二偏移量；第二位置子模块，被配置成基于每个像素点分别对应的各个部位的候选自适应点的位置、以及每个候选自适应点对应的一个或多个第二偏移量，预测每个像素点分别对应的各个部位的一个或多个候选关键点的位置，以生成每个像素点分别对应的各个部位的候选关键点集。

接着参考图9，图9示出了本公开的训练姿态识别模型的装置的一个实施例的结构示意图，如图9所示，该装置包括：样本获取单元910，被配置成获取训练集，训练集包括已标记样本标签的样本图像，样本标签包括待识别对象的样本中心点的位置、样本关键点的位置以及样本图像的样本中心点热图和样本关键点热图；特征提取单元920，被配置成基于预先构建的初始姿态识别模型的初始骨干网络对训练集中的样本图像进行处理，得到样本特征数据；姿态预测单元930，被配置成基于初始姿态识别模型的初始姿态回归子网络对样本特征数据进行处理，得到每个像素点的预测中心点置信度及其对应的预测关键点的位置；热图预测单元940，被配置成基于初始姿态识别模型的关键点热图网络对样本特征数据进行处理，生成样本图像的预测关键点热图；第一损失单元950，被配置成基于每个像素点的预测中心点置信度与样本中心点置信度，确定第一损失函数；第二损失单元960，被配置成基于样本关键点的位置以及参考像素点对应的预测关键点的位置，确定第二损失函数，参考像素点的位置与样本中心点的位置相同；第三损失单元970，被配置成基于预测关键点热图和样本关键点热图，确定第三损失函数；模型训练单元980，被配置成基于第一损失函数、第二损失函数和第三损失函数，调整初始姿态识别模型的参数，直至满足终止条件，删除关键点热图网络，得到姿态识别模型。

示例性电子设备

下面，参考图10来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图10图示了根据本公开实施例的电子设备的框图。

如图10所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的姿态识别方法和/训练姿态识别模型的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的姿态识别方法和/训练姿态识别模型的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的姿态识别方法和/训练姿态识别模型的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种姿态识别方法，包括：

利用姿态识别模型提取包含待识别对象的图像的第一特征数据；

基于所述第一特征数据，预测所述待识别对象的中心点的位置和各个部位分别对应的自适应点的位置，所述中心点表征所述待识别对象中心点部位的成像点；

基于所述第一特征数据和各个所述部位分别对应的自适应点的位置，预测各个所述部位分别对应的关键点集；

基于所述中心点的位置和各个所述部位分别对应的关键点集，确定所述待识别对象的目标姿态。

2.根据权利要求1所述的方法，其中，基于所述第一特征数据，预测所述待识别对象的中心点的位置和各个所述部位分别对应的自适应点的位置，包括：

基于姿态识别模型的关键点回归网络分支对所述第一特征数据进行特征提取，得到第二特征数据；

基于所述姿态识别模型的区域感知网络分支对所述第二特征数据进行处理，预测所述图像中的每个像素点分别对应于各个所述部位的候选自适应点的位置；

基于所述姿态识别模型的中心点感知网络分支，对所述第一特征数据进行特征提取，得到第三特征数据；基于每个所述像素点分别对应于各个所述部位的候选自适应点的位置，从所述第三图像特征中提取每个所述像素点对应的中心回归特征；基于每个所述像素点对应的中心回归特征，预测每个所述像素点的中心点置信度；

利用最大池化核将所述中心点置信度大于预设阈值的像素点的位置确定为所述待识别对象的中心点的位置，并将该像素点分别对应于各个所述部位的候选自适应点的位置确定为所述待识别对象的各个所述部位分别对应的自适应点的位置。

3.根据权利要求2所述的方法，其中，基于所述第一特征数据和各个所述部位分别对应的自适应点的位置，预测各个所述部位分别对应的关键点集，包括：

利用所述关键点回归网络分支，基于每个所述像素点分别对应的各个所述部位的所述候选自适应点的位置，从所述第二特征数据中提取每个所述像素点分别对应的各个所述部位的关键点回归特征；

基于每个所述像素点分别对应的各个所述部位的关键点回归特征、及其对应的各个所述候选自适应点的位置，预测每个所述像素点分别对应的各个所述部位的候选关键点集；

在利用所述最大池化核将所述中心点置信度大于预设阈值的像素点的位置确定为所述待识别对象的中心点的位置之后，将该像素点对应的各个所述部位的候选关键点集确定为各个所述部位分别对应的关键点集。

4.根据权利要求3所述的方法，其中，基于所述姿态识别模型的区域感知网络分支对所述第二特征数据进行处理，预测所述图像中的每个像素点分别对应于各个所述部位的候选自适应点的位置，包括：

基于所述第二特征数据，预测每个所述像素点分别对应于各个所述部位的第一偏移量；

基于每个所述像素点的位置及其对应于各个所述部位的第一偏移量，确定每个所述像素点分别对应于各个所述部位的候选自适应点的位置。

5.根据权利要求4所述的方法，其中，基于每个所述像素点分别对应的各个所述部位的关键点回归特征、及其对应的各个所述候选自适应点的位置，预测每个所述像素点分别对应的各个所述部位的候选关键点集，包括：

基于每个所述像素点分别对应的各个所述部位的关键点回归特征，预测每个所述候选自适应点对应的一个或多个第二偏移量；

基于每个所述像素点分别对应的各个所述部位的所述候选自适应点的位置、以及每个所述候选自适应点对应的一个或多个第二偏移量，预测每个所述像素点分别对应的各个所述部位的一个或多个候选关键点的位置，以生成每个所述像素点分别对应的各个所述部位的候选关键点集。

6.一种训练姿态识别模型的方法，包括：

获取训练集，所述训练集包括已标记样本标签的样本图像，所述样本标签包括待识别对象的样本中心点的位置、样本关键点的位置以及所述样本图像对应的样本中心点热图和样本关键点热图；

基于预先构建的初始姿态识别模型的初始骨干网络对所述训练集中的样本图像进行处理，得到样本特征数据；

基于所述初始姿态识别模型的初始姿态回归子网络对所述样本特征数据进行处理，得到每个像素点的预测中心点置信度及其对应的预测关键点的位置；

基于所述初始姿态识别模型的关键点热图网络对所述样本特征数据进行处理，生成所述样本图像的预测关键点热图；

基于所述每个像素点的预测中心点置信度与所述样本中心点热图，确定第一损失函数；

基于所述样本关键点的位置以及参考像素点对应的预测关键点的位置，确定第二损失函数，所述参考像素点的位置与所述样本中心点的位置相同；

基于所述预测关键点热图和所述样本关键点热图，确定第三损失函数；

基于所述第一损失函数、所述第二损失函数和所述第三损失函数，调整所述初始姿态识别模型的参数，直至满足终止条件，删除所述关键点热图网络，得到所述姿态识别模型。

7.一种姿态识别装置，包括：

特征提取单元，被配置成利用姿态识别模型提取包含待识别对象的图像的第一特征数据；

第一预测单元，被配置成基于所述第一特征数据，预测所述待识别对象的中心点的位置和各个部位分别对应的自适应点的位置，所述中心点表征所述待识别对象中心点部位的成像点；

第二预测单元，被配置成基于所述第一特征数据和各个所述部位分别对应的自适应点的位置，预测各个所述部位分别对应的关键点集；

姿态确定单元，被配置成基于所述中心点的位置和各个所述部位分别对应的关键点集，确定所述待识别对象的目标姿态。

8.一种训练姿态识别模型的装置，包括：

样本获取单元，被配置成所述训练集包括已标记样本标签的样本图像，所述样本标签包括待识别对象的样本中心点的位置、样本关键点的位置以及所述样本图像对应的样本中心点热图和样本关键点热图；

特征提取单元，被配置成基于预先构建的初始姿态识别模型的初始骨干网络对所述训练集中的样本图像进行处理，得到样本特征数据；

姿态预测单元，被配置成基于所述初始姿态识别模型的初始姿态回归子网络对所述样本特征数据进行处理，得到每个所述像素点的预测中心点置信度及其对应的预测关键点的位置；

热图预测单元，被配置成基于所述初始姿态识别模型的关键点热图网络对所述样本特征数据进行处理，生成所述样本图像的预测关键点热图；

第一损失单元，被配置成基于所述每个像素点的预测中心点置信度与所述样本中心点热图，确定第一损失函数；

第二损失函数，被配置成基于所述样本关键点的位置以及参考像素点对应的预测关键点的位置，确定第二损失函数，所述参考像素点的位置与所述样本中心点的位置相同；

第三损失单元，被配置成基于所述预测关键点热图和所述样本关键点热图，确定第三损失函数；

模型训练单元，被配置成基于所述第一损失函数、所述第二损失函数和所述第三损失函数，调整所述初始姿态识别模型的参数，直至满足终止条件，删除所述关键点热图网络，得到所述姿态识别模型。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的方法。