CN111626105A

CN111626105A - 姿态估计方法、装置及电子设备

Info

Publication number: CN111626105A
Application number: CN202010297991.XA
Authority: CN
Inventors: 魏秀参
Original assignee: Xuzhou Kuangshi Data Technology Co ltd; Nanjing Kuangyun Technology Co ltd; Beijing Megvii Technology Co Ltd
Current assignee: Xuzhou Kuangshi Data Technology Co ltd; Nanjing Kuangyun Technology Co ltd; Beijing Megvii Technology Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-09-04
Anticipated expiration: 2040-04-15
Also published as: CN111626105B

Abstract

本发明提供了一种姿态估计方法、装置及电子设备，首先获取包含目标对象的待处理图像；将该待处理图像输入至关键点识别模型中，输出该目标对象的关键点信息；然后根据该目标对象的关键点信息确定该目标对象的关键点的位置；进而根据该目标对象的关键点的位置以及该关键点之间的连接关系，确定该目标对象的姿态。本发明实施例通过结合肢体结构中关键点之间的连接关系，预先建立关键点识别模型并对其进行训练，基于该模型在对关键点进行识别时，可以根据关键点之间的相互关系对关键点位置进行调整和推理，从而提高关键点位置的估计精度，进而提高人体姿态的估计精度。

Description

姿态估计方法、装置及电子设备

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及一种姿态估计方法、装置及电子设备。

背景技术

人体姿态估计作为计算机视觉研究领域的一个重要研究方向，以及体感技术领域中的一个关键问题，广泛应用于人体活动分析、智能视频监控及高级人机交互等领域。其中，人体姿态估计技术可以通过计算机在一幅包含人体的图像中自动地检测出人体，包括定位人体的关节点。

目前，现有的人体姿态估计方法通常是对人体的各个关节点进行独立的定位，这种方式导致估计出的关节点位置精度较低，使得人体姿态的估计精度也较低。

发明内容

有鉴于此，本发明的目的在于提供一种姿态估计方法、装置及电子设备，可以提高人体姿态估计中，关键点位置的估计精度，进而提高人体姿态的估计精度。

第一方面，本发明实施例提供了一种姿态估计方法，包括：获取包含目标对象的待处理图像；将该待处理图像输入至关键点识别模型中，输出该目标对象的关键点信息；该关键点识别模型基于预设的肢体结构建立，该肢体结构包括肢体中指定的关键点，以及该指定的关键点之间的连接关系；该关键点信息包括：该目标对象的关键点位于图中各个像素点的概率；根据该目标对象的关键点信息确定该目标对象的关键点的位置；根据该目标对象的关键点的位置以及该关键点之间的连接关系，确定该目标对象的姿态。

在本发明较佳的实施例中，上述关键点识别模型通过下述方式进行训练：根据预设的肢体结构实例化神经网络模型；将当前训练图片输入实例化的该神经网络模型中，输出该当前训练图片中该关注对象的关键点信息；该关键点信息包括：该关注对象的关键点位于图中各个像素点的概率；基于该关键点信息、该当前训练图片的标注值，确定该神经网络模型对应的损失值；根据该损失值，对该神经网络模型的参数进行迭代更新，得到关键点识别模型。

在本发明较佳的实施例中，上述神经网络模型包括全卷积神经网络模块和图卷积神经网络模块；上述将当前训练图片输入实例化的该神经网络模型中，输出该当前训练图片中该关注对象的关键点信息的步骤，包括：将当前训练图片输入该全卷积神经网络模块，输出该当前训练图片中该关注对象的关键点的卷积特征图；将该关注对象的关键点的卷积特征图输入该图卷积神经网络模块，输出该当前训练图片中该关注对象的关键点信息。

在本发明较佳的实施例中，上述图卷积神经网络模块包括第一图卷积神经网络单元和第二图卷积神经网络单元；该第一图卷积神经网络单元基于该关注对象的关键点在局部感受野内的相关关系建立；该第二图卷积神经网络单元基于该关注对象的关键点彼此之间的相关关系建立；该将该关注对象的关键点的卷积特征图输入该图卷积神经网络模块，输出该当前训练图片中该关注对象的关键点信息的步骤，包括：将该关注对象的关键点的卷积特征图分别输入该第一图卷积神经网络单元、该第二图卷积神经网络单元，对应输出该关键点的第一卷积特征图、第二卷积特征图；分别对该第一卷积特征图和该第二卷积特征图进行1×1卷积处理，对应得到该关键点的第一关键点信息、第二关键点信息；根据第一关键点信息和第二关键点信息，输出当前训练图片中关注对象的关键点信息。

在本发明较佳的实施例中，上述根据第一关键点信息和第二关键点信息，输出当前训练图片中关注对象的关键点信息的步骤，包括：对该第一关键点信息和该第二关键点信息进行特征融合，得到该关键点的第三关键点信息；输出该关键点的第一关键点信息、第二关键点信息和第三关键点信息。

在本发明较佳的实施例中，上述第一图卷积神经网络单元的网络结构根据下述公式构建：

其中，

式中，

表示该第一图卷积神经网络单元的第l层网络中关键点u的输入卷积特征图；

表示该关键点u的隐藏特征表示；沿着channel方向将

分成K份，每一份特征

att_u,v代表卷积参数；*代表卷积操作；N_u代表该关键点u的邻接关键点集合；concate(·)代表沿channel方向串联特征图；σ代表RELU激活函数；

表示3×3的卷积层。

在本发明较佳的实施例中，上述第二图卷积神经网络单元的网络结构根据下述公式构建：

其中，

式中，

表示该第二图卷积神经网络单元的第l层网络中关键点u的输入特征表示；

表示该关键点u的隐藏特征表示；N_u代表节点u的邻接节点集合；

和

均表示3×3的卷积层；β_u,v∈R^HW×HW为该第二图卷积神经网络单元中关键点u对关键点v的注意力图。

在本发明较佳的实施例中，上述对该第一关键点信息和该第二关键点信息进行特征融合，得到该关键点的第三关键点信息的步骤，包括：根据预设的特征融合公式对该第一关键点信息、该第二关键点信息进行特征融合，得到该关键点的第三关键点信息；其中，该特征融合公式为：

式中，P_u表示任意关键点u的第三关键点信息，

表示该关键点u的第一关键点信息，

表示该关键点u的第二关键点信息。

在本发明较佳的实施例中，上述基于该关键点信息、该当前训练图片的标注值，确定该神经网络模型对应的损失值的步骤，包括：根据该当前训练图片中该关注对象的关键点的标注值，计算该关注对象的真实热图；该真实热图包括该关注对象的关键点位于该当前训练图片中各个像素点的概率；计算该真实热图与该关键点信息之间的平方误差；根据该平方误差确定该神经网络模型对应的损失值。

在本发明较佳的实施例中，上述根据平方误差确定该神经网络模型对应的损失值的计算公式为：

其中，l_m表示该神经网络模型对应的损失值；

表示该肢体结构；

表示该关键点u的第一关键点信息；

表示该关键点u的第二关键点信息；P_u表示该关键点u的第三关键点信息；G_u表示该关键点u的真实热图；||·||₂表示求平方误差。

在本发明较佳的实施例中，上述根据该目标对象的关键点信息确定该目标对象的关键点的位置的步骤，包括：对于该目标对象的每一个关键点，将该关键点对应的关键点信息中，概率最大值对应的像素点的坐标，确定为该关键点的位置。

第二方面，本发明实施例还提供了一种姿态估计装置，包括：待处理图像获取模块，用于获取包含目标对象的待处理图像；关键点信息输出模块，用于将该待处理图像输入至关键点识别模型中，输出该目标对象的关键点信息；该关键点识别模型基于预设的肢体结构建立，该肢体结构包括肢体中指定的关键点，以及各个该关键点之间的连接关系；该关键点信息包括：该目标对象的关键点位于图中各个像素点的概率；关键点位置确定模块，用于根据该目标对象的关键点信息确定该目标对象的关键点的位置；目标对象姿态确定模块，用于根据该目标对象的关键点的位置以及该关键点之间的连接关系，确定该目标对象的姿态。

第二方面，本发明实施例还提供了一种电子设备，该电子设备包括处理器和存储器，该存储器存储有能够被该处理器执行的计算机可执行指令，该处理器执行该计算机可执行指令以实现上述姿态估计方法。

第三方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述姿态估计方法。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种姿态估计方法、装置及电子设备，首先获取包含目标对象的待处理图像；将该待处理图像输入至关键点识别模型中，输出该目标对象的关键点信息；该关键点识别模型基于预设的肢体结构建立，该肢体结构包括肢体中指定的关键点，以及该指定的关键点之间的连接关系；该关键点信息包括：该目标对象的关键点位于图中各个像素点的概率；然后根据该目标对象的关键点信息确定该目标对象的关键点的位置；进而根据该目标对象的关键点的位置以及该关键点之间的连接关系，确定该目标对象的姿态。该方式中，通过结合肢体结构中各个指定的关键点，以及各个关键点之间的连接关系，预先建立关键点识别模型并对其进行训练，基于该模型在对关键点进行识别时，可以根据关键点之间的相互关系对关键点位置进行调整和推理，相比于传统的对各个关键点进行独立定位的方式，本发明可以提高关键点位置的估计精度，进而提高人体姿态的估计精度。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种姿态估计方法的流程示意图；

图3为本发明实施例提供的一种姿态估计方法中的训练关键点识别模型的流程示意图；

图4a和图4b均为本发明实施例提供的一种图卷积神经网络通过局部空间注意力机制进行网络更新的示意图；

图5为本发明实施例提供的一种图卷积神经网络通过全局空间注意力机制进行网络更新的示意图；

图6为本发明实施例提供的一种通过关键点识别模型识别人体关键点的过程示意图；

图7为本发明实施例提供的一种关键点识别模型中图卷积神经网络模块的工作过程示意图；

图8为本发明实施例提供的一种通过关键点识别模型识别人体关键点的效果示意图；

图9为本发明实施例提供的一种姿态估计装置的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的人体姿态估计方法对关节点位置估计精度较低的问题，本发明实施例提供的一种姿态估计方法、装置及电子设备，该技术可以应用于对人、动物或其他可移动物体(例如机器人、虚拟人物、机械臂等)进行关键点定位或姿态估计的场景中。为便于对本实施例进行理解，首先对本发明实施例所公开的一种姿态估计方法进行详细介绍。

这里，参照图1来描述用于实现本发明实施例的态估计方法、装置及电子设备的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，电子系统也可以具有其他组件和结构。

处理设备102可以为智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子系统100中的其它组件的数据进行处理，还可以控制电子系统100中的其它组件以执行目标对象统计的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集设备110可以采集训练图片，并且将采集到的预览视频帧或图像数据存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的态估计方法、装置及电子设备中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到图片的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

参见图2，所示为本发明实施例提供的一种姿态估计方法的流程示意图，由图2可见，该方法包括以下步骤：

步骤S102：获取包含目标对象的待处理图像。

这里，目标对象可以是人、动物或者其他可以移动的物体，例如，机器人、叉车、机械臂、虚拟人物等等。并且，待处理图像中可以是包含目标对象的整体，也可以是该目标对象的局部，例如，该目标对象为某人物A，并且待处理图像中只包含该人物A的上半身，而该人物B的下半身可能被遮挡。

步骤S104：将该待处理图像输入至关键点识别模型中，输出该目标对象的关键点信息；该关键点识别模型基于预设的肢体结构建立，该肢体结构包括肢体中指定的关键点，以及该指定的关键点之间的连接关系；该关键点信息包括：该目标对象的关键点位于图中各个像素点的概率。

其中，该关键点识别模型可以预先通过神经网络的学习训练得到，并且，该关键点识别模型的网络结构基于预设的肢体结构建立。这里，肢体结构可以是人的人体结构，动物的肢体结构，或者机器人的机械结构等。

并且，该肢体结构包括肢体中指定的关键点，以及指定的关键点自己的连接关系。其中，上述关键点可以是关节点，例如，以人体结构为例，可以是人体的肩关节、颈关节、膝关节、肘关节等等；此外，该关键点还可以是肢体结构中的重要部位，仍以人体结构为例，可以以头部整体作为一个关键点。在其它应用场景中，可以根据实际需求灵活设置肢体结构的关键点，在此不作限制。

另外，对于该肢体结构中的关键点，彼此之间有相互联系，而各个关键点之间的联系又有所区别，例如，有的关键点是直接相连接，而有的关键点是间接相连，并且各个关键点之间有距离远近的差异，以及在实际活动场景中，关键点之间相互影响的差异。

例如，仍以人体结构为例，若以人体的各个主要关节点作为人体结构的关键点，假设包括以下7个关键点：颈关节、肩关节、肘关节、腕关节、臀关节、膝关节和踝关节，基于人体本身的固有结构，颈关节与肩关节是直接相连的，而与肘关节是间接相连(通过肩关节再连接到肘关节)。并且，肘关节与肩关节和臀关节的距离有远近差异，在实际人体的活动中，肘关节与肩关节、肘关节与臀关节这两组关节之间的相互影响也不同，例如，人在坐着的情况下伸懒腰，则肩关节和肘关节的活动相互影响，而臀关节可以保持不动。

在本实施例中，基于肢体结构的关键点和关键点之间的连接关系构建关键点识别模型，因此，该关键点识别模型在进行关键点的识别时，不是对各个关键点进行独立地定位，而是结合了各个关键点之间彼此的内在联系，基于该肢体结构的整体角度，对各个关键点的位置进行估计，使得各个关键点的估计位置符合彼此之间的连接关系。

例如，假设图像中某人物的肘关节比较清晰，而腕关节有所遮挡，传统方法对腕关节进行独立定位则会因为图像中的遮挡导致腕关节的定位估计不准确，而本实施例中的关键点识别模型，还可以结合肘关节的估计位置，以及肘关节与腕关节之间的彼此连接关系，对腕关节的位置进行精修和推理，从而可以缓解因为腕关节被遮挡而导致其估计精度较差的问题。

可见，通过本实施例中的关键点识别模型对人体姿态进行估计时，是将人体姿态看作一个多任务模型，其中，定位不同的关节点相当于多个不同的子任务，并且不同的子任务之间具有不同的相关性。由于人体的关节点之间是相互连接的，因此，本实施例的关键点识别模型将这种连接关系(也即人体结构关系)，表示为子任务之间的相关关系，使得各个关节点的位置估计不是相互独立，而是彼此影响，彼此修正调整，从而提高关节点的位置估计精度。

对于上述关键点识别模型，输入待处理图像，并输出该待处理图像中目标对象的关键点信息，其中，该关键点信息包括该目标对象的关键点位于图中各个像素点的概率，这里，该关键点信息可以输出为数据表格、图像或者文本文档等。在至少一种可能的实施方式中，该关键点信息可以以热图的方式输出。这里，热图反映关键点的估计位置在图中各个像素点的概率分布情况，并以颜色差异反映概率的高低，更加直观。

步骤S106：根据该目标对象的关键点信息确定该目标对象的关键点的位置。

在其中一种可能的实施方式中，对于该目标对象的每一个关键点，将该关键点对应的关键点信息中，概率最大值对应的像素点的坐标，确定为该关键点的位置。

步骤S108：根据该目标对象的关键点的位置以及该关键点之间的连接关系，确定该目标对象的姿态。

根据关键点之间的连接关系，将前述步骤中确定出的目标对象的关键点进行连接，即得到该目标对象的姿态。

本发明实施例提供的一种姿态估计方法，首先获取包含目标对象的待处理图像；将该待处理图像输入至关键点识别模型中，输出该目标对象的关键点信息；该关键点识别模型基于预设的肢体结构建立，该肢体结构包括肢体中指定的关键点，以及该指定的关键点之间的连接关系；该关键点信息包括：该目标对象的关键点位于图中各个像素点的概率；然后根据该目标对象的关键点信息确定该目标对象的关键点的位置；进而根据该目标对象的关键点的位置以及该关键点之间的连接关系，确定该目标对象的姿态。该方式中，通过结合肢体结构中各个指定的关键点，以及各个关键点之间的连接关系，预先建立关键点识别模型并对其进行训练，基于该模型在对关键点进行识别时，可以根据关键点之间的相互关系对关键点位置进行调整和推理，相比于传统的对各个关键点进行独立定位的方式，本发明可以提高关键点位置的估计精度，进而提高人体姿态的估计精度。

在图2所示姿态估计方法的基础上，本实施例还提供了另一种姿态估计方法，该方法重点描述了前述实施例中训练关键点识别模型的具体实现过程，如图3所示，其为一种姿态估计方法中的训练关键点识别模型的流程示意图，由图3可见，该训练过程包括以下步骤：

步骤S202：根据预设的肢体结构实例化神经网络模型。

这里，肢体结构包括肢体中指定的关键点，以及该指定的关键点之间的连接关系。并且，实例化是指在面向对象的编程中，把用类创建对象的过程称为实例化，它是将一个抽象的概念类，具体到该类实物的过程。

步骤S204：将当前训练图片输入实例化的该神经网络模型中，输出该当前训练图片中该关注对象的关键点信息；该关键点信息包括：该关注对象的关键点位于图中各个像素点的概率。

在实际操作中，可以基于预设的训练集合确定当前训练图片；在其中一种可能的实施方式中，该当前训练图片预先标注有该关注对象的标注框和该关注对象的关键点。

以该关注对象为人进行说明，确定的当前训练图片中预先标注有人体标注框，以及人体的指定关键点，例如，可以是人体的关节点。在其中一种可能的实施方式中，仅对于该当前训练图片中显示的关节点进行标注，例如，假设图片中只显示目标对象的头颈部，其他部分被遮挡，则仅标注颈关节位置。

对于每一张当前训练图片，均执行以下训练操作：将该当前训练图片输入实例化的该神经网络模型中，输出该当前训练图片中该关注对象的关键点信息；该关键点信息包括：该关注对象的关键点位于图中各个像素点的概率；基于该关键点信息、该当前训练图片的标注值，确定该神经网络模型对应的损失值；根据该损失值调整该神经网络模型的参数。

在至少一种可能的实施方式中，上述神经网络模型包括全卷积神经网络模块和图卷积神经网络模块；其中，上述将当前训练图片输入实例化的该神经网络模型中，输出该当前训练图片中该关注对象的关键点信息的步骤，可以通过下述步骤21-22实现：

(21)将该当前训练图片输入该全卷积神经网络模块，输出该当前训练图片中该关注对象的关键点的卷积特征图。

(22)将该关注对象的关键点的卷积特征图输入该图卷积神经网络模块，输出该当前训练图片中该关注对象的关键点信息。

在其中一种可能的实施方式中，上述图卷积神经网络模块包括第一图卷积神经网络单元和第二图卷积神经网络单元。其中，该第一图卷积神经网络单元基于该关注对象的关键点在局部感受野内的相关关系建立，例如，可以通过局部空间注意力机制，使该第一图卷积神经网络单元专注于关键点在局部感受野内的特征相关关系。并且，上述第二图卷积神经网络单元基于该关注对象的关键点彼此之间的相关关系建立，例如，可以通过全局空间注意力机制，使该第二图卷积神经网络单元关注关键点在全局像素点的信息交互。

这里，上述将该关注对象的关键点的卷积特征图输入该图卷积神经网络模块，输出该当前训练图片中该关注对象的关键点信息的步骤，可以通过可下述步骤31-33实现：

(31)将该关注对象的关键点的卷积特征图分别输入该第一图卷积神经网络单元、该第二图卷积神经网络单元，对应输出该关键点的第一卷积特征图、第二卷积特征图。

在本实施例中，该第一图卷积神经网络单元的网络结构根据下述公式构建：

其中，

上述公式1中，

表示该关键点u的隐藏特征表示；沿着channel方向将

分成K份，每一份特征

表示3×3的卷积层。

为了更清楚理解第一图卷积神经网络单元的网络结构，参见图4a和图4b，所示均为本发明实施例提供的图卷积神经网络通过局部空间注意力机制进行网络更新的示意图，其中，图4a和图4b均表示了该图卷积神经网络单元的关键点u的特征从第l层网络到第l+1层网络的更新过程，通过局部注意力机制，关键点u融合了其相邻关键点v的特征，并与关键点u所在位置的局部像素点进行了信息交互。具体地，图4a展示了关键点u的单个特征的更新方式，图4b展示了关键点u的两个特征同时更新的方式。

另外，上述第二图卷积神经网络单元的网络结构根据下述公式构建：

其中，

上述公式2中，

和

这里，参见图5，所示为一种图卷积神经网络通过全局空间注意力机制进行网络更新的示意图，其中，通过全局空间注意力机制得到了HW×HW的注意力图，使得该图卷积神经网络中的关键点u的特征，在从第l层网络到第l+1层网络的更新过程中，融合了其相邻关键点v的特征，并与全局的像素点进行信息交互。

(32)分别对该第一卷积特征图和该第二卷积特征图进行1×1卷积处理，对应得到该关键点的第一关键点信息、第二关键点信息。

这里，通过1×1卷积处理，由三维的卷积特征图得到二维的关键点信息。

(33)根据第一关键点信息和第二关键点信息，输出当前训练图片中关注对象的关键点信息。

这里，可以先对该第一关键点信息和该第二关键点信息进行特征融合，得到该关键点的第三关键点信息；然后，输出该关键点的第一关键点信息、第二关键点信息和第三关键点信息。

在至少一种可能的实施方式中，可以根据预设的特征融合公式对该第一关键点信息、该第二关键点信息进行特征融合，得到该关键点的第三关键点信息；其中，该特征融合公式为：

式中，P_u表示任意关键点u的第三关键点信息，

表示该关键点u的第一关键点信息，

表示该关键点u的第二关键点信息。

并且，上述第一关键点信息、第二关键点信息和第三关键点信息，均包括该关注对象的关键点位于图中各个像素点的概率。

步骤S206：基于该关键点信息、该当前训练图片的标注值，确定该神经网络模型对应的损失值。

在实际操作中，上述基于该关键点信息、该当前训练图片和预设的损失函数计算该当前训练图片的损失值的步骤，可以通过下述步骤41-43实现：

(41)根据该当前训练图片中该关注对象的关键点的标注位置，计算该关注对象的真实热图；该真实热图包括该关注对象的关键点位于该当前训练图片中各个像素点的概率；

(42)计算该真实热图与该关键点信息之间的平方误差；

(43)根据该平方误差确定该神经网络模型对应的损失值。

在其中一种可能的实施方式中，上述根据平方误差确定该神经网络模型对应的损失值的计算公式为：

其中，l_m表示该神经网络模型对应的损失值；

表示该肢体结构；

表示该关键点u的第一关键点信息；

步骤S208：根据该损失值，对该神经网络模型的参数进行迭代更新，得到关键点识别模型。

在计算得到当前该神经网络模型对应的损失值之后，根据该损失值调整该神经网络模型的参数，并继续从训练集合中确定当前训练图片，以继续对该神经网络模型进行训练。

当该训练操作满足预设的训练结束条件时，将当前训练得到的该神经网络模型确定为关键点识别模型。这里，训练结束条件可以是预设的训练时长，也可以是整体的训练次数，或者其他终止条件，并且，训练结束得到的神经网络模型即确定为关键点识别模型。

为了验证本实施例训练得到的关键点识别模型的识别效果，以人体姿态识别为例，根据预设的人体关节点和关节点之间的连接关系，设置相应的人体结构，并根据该人体结构构建了关键点识别模型。参见图6和图7，其中，图6为一种通过关键点识别模型识别人体关键点的过程示意图，并且，图7示出了该关键点识别模型中图卷积神经网络模块的工作过程。

另外，还通过三个人体姿态估计权威数据集对本实施例训练得到的关键点识别模型进行了测试，测试结果见下表：

Table 1：Comparisons of PCKh@0.5scoreso on the MPII testing set

Table 2：Comparisons of PCK＠0.2 scores on the LSP testing set.

Table3：Comparison with Hourglass

CPN

and SIM

on COCO val2017dataset.

Their results are cited from

and

由上述三个表格的测试数据可见，与传统的人体姿态估计方法相比，本发明中基于训练得到的关键点识别模型，对人体关节点进行识别的方法(对应表格中Ours)，其识别结果有更高的精度。另外，参见图8，所示为一种通过关键点识别模型识别人体关键点的效果示意图，由图8可见，本发明实施例提供的姿态估计方法(对应图中Ground-Truth)可同时精修和推理关节点位置，获得更佳的估计效果。

本实施例提供的姿态估计方法，通过结合肢体结构中各个指定的关键点，以及各个关键点之间的连接关系，建立关键点识别模型并对其进行训练，进而根据训练得到的关键点识别模型确定待处理图像中目标对象的关键点，相比于传统的对各个关键点进行独立定位的方式，本发明可以提高人体姿态估计中，关键点位置的估计精度，进而提高人体姿态的估计精度。

对应于图2中所示的姿态估计方法，本发明实施例还提供了一种姿态估计装置，如图9所示，其为该姿态估计装置的结构示意图，由图9可见，该装置包括依次连接的待处理图像获取模块81、关键点信息输出模块82、关键点位置确定模块83和目标对象姿态确定模块84，其中，各个模块的功能如下：

待处理图像获取模块81，用于获取包含目标对象的待处理图像；

关键点信息输出模块82，用于将该待处理图像输入至关键点识别模型中，输出该目标对象的关键点信息；该关键点识别模型基于预设的肢体结构建立，该肢体结构包括肢体中指定的关键点，以及各个该关键点之间的连接关系；该关键点信息包括：该目标对象的关键点位于图中各个像素点的概率；

关键点位置确定模块83，用于根据该目标对象的关键点信息确定该目标对象的关键点的位置；

目标对象姿态确定模块84，用于根据该目标对象的关键点的位置以及该关键点之间的连接关系，确定该目标对象的姿态。

本实施例提供的姿态估计装置，首先获取包含目标对象的待处理图像；将该待处理图像输入至关键点识别模型中，输出该目标对象的关键点信息；该关键点识别模型基于预设的肢体结构建立，该肢体结构包括肢体中指定的关键点，以及该指定的关键点之间的连接关系；该关键点信息包括：该目标对象的关键点位于图中各个像素点的概率；然后根据该目标对象的关键点信息确定该目标对象的关键点的位置；进而根据该目标对象的关键点的位置以及该关键点之间的连接关系，确定该目标对象的姿态。该装置中，通过结合肢体结构中各个指定的关键点，以及各个关键点之间的连接关系，预先建立关键点识别模型并对其进行训练，基于该模型在对关键点进行识别时，可以根据关键点之间的相互关系对关键点位置进行调整和推理，相比于传统的对各个关键点进行独立定位的方式，本发明可以提高关键点位置的估计精度，进而提高人体姿态的估计精度。

在其中一种可能的实施方式中，上述关键点识别模型通过下述方式进行训练：根据预设的肢体结构实例化神经网络模型；将当前训练图片输入实例化的该神经网络模型中，输出该当前训练图片中该关注对象的关键点信息；该关键点信息包括：该关注对象的关键点位于图中各个像素点的概率；基于该关键点信息、该当前训练图片的标注值，确定该神经网络模型对应的损失值；根据该损失值，对该神经网络模型的参数进行迭代更新，得到关键点识别模型。

在另一种可能的实施方式中，上述神经网络模型包括全卷积神经网络模块和图卷积神经网络模块；上述将当前训练图片输入实例化的该神经网络模型中，输出该当前训练图片中该关注对象的关键点信息的步骤，包括：将该当前训练图片输入该全卷积神经网络模块，输出该当前训练图片中该关注对象的关键点的卷积特征图；将该关注对象的关键点的卷积特征图输入该图卷积神经网络模块，输出该当前训练图片中该关注对象的关键点信息。

在另一种可能的实施方式中，上述图卷积神经网络模块包括第一图卷积神经网络单元和第二图卷积神经网络单元；该第一图卷积神经网络单元基于该关注对象的关键点在局部感受野内的相关关系建立；该第二图卷积神经网络单元基于该关注对象的关键点彼此之间的相关关系建立；该将该关注对象的关键点的卷积特征图输入该图卷积神经网络模块，输出该当前训练图片中该关注对象的关键点信息的步骤，包括：将该关注对象的关键点的卷积特征图分别输入该第一图卷积神经网络单元、该第二图卷积神经网络单元，对应输出该关键点的第一卷积特征图、第二卷积特征图；分别对该第一卷积特征图和该第二卷积特征图进行1×1卷积处理，对应得到该关键点的第一关键点信息、第二关键点信息；根据第一关键点信息和第二关键点信息，输出当前训练图片中关注对象的关键点信息。

在另一种可能的实施方式中，上述根据第一关键点信息和第二关键点信息，输出当前训练图片中关注对象的关键点信息的步骤，包括：对该第一关键点信息和该第二关键点信息进行特征融合，得到该关键点的第三关键点信息；输出该关键点的第一关键点信息、第二关键点信息和第三关键点信息。

在另一种可能的实施方式中，上述第一图卷积神经网络单元的网络结构根据下述公式构建：

其中，

式中，

表示该关键点u的隐藏特征表示；沿着channel方向将

分成K份，每一份特征

表示3×3的卷积层。

在另一种可能的实施方式中，上述第二图卷积神经网络单元的网络结构根据下述公式构建：

其中，

式中，

和

在另一种可能的实施方式中，上述对该第一关键点信息和该第二关键点信息进行特征融合，得到该关键点的第三关键点信息的步骤，包括：根据预设的特征融合公式对该第一关键点信息、该第二关键点信息进行特征融合，得到该关键点的第三关键点信息；其中，该特征融合公式为：

式中，P_u表示任意关键点u的第三关键点信息，

表示该关键点u的第一关键点信息，

表示该关键点u的第二关键点信息。

在另一种可能的实施方式中，上述基于该关键点信息、该当前训练图片的标注值，确定该神经网络模型对应的损失值的步骤，包括：根据该当前训练图片中该关注对象的关键点的标注值，计算该关注对象的真实热图；该真实热图包括该关注对象的关键点位于该当前训练图片中各个像素点的概率；计算该真实热图与该关键点信息之间的平方误差；根据该平方误差确定该神经网络模型对应的损失值。

在另一种可能的实施方式中，上述根据平方误差确定该神经网络模型对应的损失值的计算公式为：

其中，l_m表示该神经网络模型对应的损失值；

表示该肢体结构；

表示该关键点u的第一关键点信息；

在另一种可能的实施方式中，上述关键点位置确定模块83还用于：对于该目标对象的每一个关键点，将该关键点对应的关键点信息中，概率最大值对应的像素点的坐标，确定为该关键点的位置。

本发明实施例提供的姿态估计装置，其实现原理及产生的技术效果和前述姿态估计方法实施例相同，为简要描述，姿态估计装置的实施例部分未提及之处，可参考前述姿态估计方法实施例中相应内容。

本发明实施例还提供了一种电子设备，如图10所示，为该电子设备的结构示意图，其中，该电子设备包括处理器91和存储器92，该存储器92存储有能够被该处理器91执行的机器可执行指令，该处理器91执行该机器可执行指令以实现上述姿态估计方法。

在图10示出的实施方式中，该电子设备还包括总线93和通信接口94，其中，处理器91、通信接口94和存储器92通过总线连接。

其中，存储器92可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口94(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器91可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器91中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器91可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器91读取存储器92中的信息，结合其硬件完成前述实施例的姿态估计方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述姿态估计方法，具体实现可参见前述方法实施例，在此不再赘述。

本发明实施例所提供的姿态估计方法、姿态估计装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的姿态估计方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种姿态估计方法，其特征在于，包括：

获取包含目标对象的待处理图像；

将所述待处理图像输入至关键点识别模型中，输出所述目标对象的关键点信息；所述关键点识别模型基于预设的肢体结构建立，所述肢体结构包括肢体中指定的关键点，以及所述指定的关键点之间的连接关系；所述关键点信息包括：所述目标对象的关键点位于图中各个像素点的概率；

根据所述目标对象的关键点信息确定所述目标对象的关键点的位置；

根据所述目标对象的关键点的位置以及所述关键点之间的连接关系，确定所述目标对象的姿态。

2.根据权利要求1所述的姿态估计方法，其特征在于，所述关键点识别模型通过下述方式进行训练：

根据预设的肢体结构实例化神经网络模型；

将当前训练图片输入实例化的所述神经网络模型中，输出所述当前训练图片中关注对象的关键点信息；所述关键点信息包括：所述关注对象的关键点位于图中各个像素点的概率；

基于所述关键点信息、所述当前训练图片的标注值，确定所述神经网络模型对应的损失值；

根据所述损失值，对所述神经网络模型的参数进行迭代更新，得到所述关键点识别模型。

3.根据权利要求2所述的姿态估计方法，其特征在于，所述神经网络模型包括全卷积神经网络模块和图卷积神经网络模块；所述将当前训练图片输入实例化的所述神经网络模型中，输出所述当前训练图片中关注对象的关键点信息的步骤，包括：

将当前训练图片输入所述全卷积神经网络模块，输出所述当前训练图片中关注对象的关键点的卷积特征图；

将所述关注对象的关键点的卷积特征图输入所述图卷积神经网络模块，输出所述当前训练图片中所述关注对象的关键点信息。

4.根据权利要求3所述的姿态估计方法，其特征在于，所述图卷积神经网络模块包括第一图卷积神经网络单元和第二图卷积神经网络单元；所述第一图卷积神经网络单元基于所述关注对象的关键点在局部感受野内的相关关系建立；所述第二图卷积神经网络单元基于所述关注对象的关键点彼此之间的相关关系建立；

所述将所述关注对象的关键点的卷积特征图输入所述图卷积神经网络模块，输出所述当前训练图片中所述关注对象的关键点信息的步骤，包括：

将所述关注对象的关键点的卷积特征图分别输入所述第一图卷积神经网络单元、所述第二图卷积神经网络单元，对应输出所述关键点的第一卷积特征图、第二卷积特征图；

分别对所述第一卷积特征图和所述第二卷积特征图进行1×1卷积处理，对应得到所述关键点的第一关键点信息、第二关键点信息；

根据所述第一关键点信息和所述第二关键点信息，输出所述当前训练图片中所述关注对象的关键点信息。

5.根据权利要求4所述的姿态估计方法，其特征在于，所述根据所述第一关键点信息和所述第二关键点信息，输出所述当前训练图片中所述关注对象的关键点信息的步骤，包括：

对所述第一关键点信息和所述第二关键点信息进行特征融合，得到所述关键点的第三关键点信息；

输出所述关键点的第一关键点信息、第二关键点信息和第三关键点信息。

6.根据权利要求4所述的姿态估计方法，其特征在于，所述第一图卷积神经网络单元的网络结构根据下述公式构建：

其中，

式中，

表示所述第一图卷积神经网络单元的第l层网络中关键点u的输入卷积特征图；

表示所述关键点u的隐藏特征表示；沿着channel方向将

分成K份，每一份特征

att_u,v代表卷积参数；*代表卷积操作；N_u代表所述关键点u的邻接关键点集合；concate(·)代表沿channel方向串联特征图；σ代表RELU激活函数；

表示3×3的卷积层。

7.根据权利要求4所述的姿态估计方法，其特征在于，所述第二图卷积神经网络单元的网络结构根据下述公式构建：

其中，

式中，

表示所述第二图卷积神经网络单元的第l层网络中关键点u的输入特征表示；

表示所述关键点u的隐藏特征表示；N_u代表节点u的邻接节点集合；

和

均表示3×3的卷积层；β_u,v∈R^HW×HW为所述第二图卷积神经网络单元中关键点u对关键点v的注意力图。

8.根据权利要求5所述的姿态估计方法，其特征在于，所述对所述第一关键点信息和所述第二关键点信息进行特征融合，得到所述关键点的第三关键点信息的步骤，包括：

根据预设的特征融合公式对所述第一关键点信息、所述第二关键点信息进行特征融合，得到所述关键点的第三关键点信息；其中，所述特征融合公式为：

式中，P_u表示任意关键点u的第三关键点信息，

表示所述关键点u的第一关键点信息，

表示所述关键点u的第二关键点信息。

9.根据权利要求2所述的姿态估计方法，其特征在于，所述基于所述关键点信息、所述当前训练图片的标注值，确定所述神经网络模型对应的损失值的步骤，包括：

根据所述当前训练图片中所述关注对象的关键点的标注值，计算所述关注对象的真实热图；所述真实热图包括所述关注对象的关键点位于所述当前训练图片中各个像素点的概率；

计算所述真实热图与所述关键点信息之间的平方误差；

根据所述平方误差确定所述神经网络模型对应的损失值。

10.根据权利要求9所述的姿态估计方法，其特征在于，根据所述平方误差确定所述神经网络模型对应的损失值的计算公式为：

其中，l_m表示所述神经网络模型对应的损失值；

表示所述肢体结构；

表示所述关键点u的第一关键点信息；

表示所述关键点u的第二关键点信息；P_u表示所述关键点u的第三关键点信息；G_u表示所述关键点u的真实热图；||·||₂表示求平方误差。

11.根据权利要求1所述的姿态估计方法，其特征在于，所述根据所述目标对象的关键点信息确定所述目标对象的关键点的位置的步骤，包括：

对于所述目标对象的每一个关键点，将所述关键点对应的关键点信息中，概率最大值对应的像素点的坐标，确定为所述关键点的位置。

12.一种姿态估计装置，其特征在于，包括：

待处理图像获取模块，用于获取包含目标对象的待处理图像；

关键点信息输出模块，用于将所述待处理图像输入至关键点识别模型中，输出所述目标对象的关键点信息；所述关键点识别模型基于预设的肢体结构建立，所述肢体结构包括肢体中指定的关键点，以及各个所述关键点之间的连接关系；所述关键点信息包括：所述目标对象的关键点位于图中各个像素点的概率；

关键点位置确定模块，用于根据所述目标对象的关键点信息确定所述目标对象的关键点的位置；

目标对象姿态确定模块，用于根据所述目标对象的关键点的位置以及所述关键点之间的连接关系，确定所述目标对象的姿态。

13.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至11任一项所述的姿态估计方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至11任一项所述的姿态估计方法。