CN110969105A

CN110969105A - 一种人体姿态估计方法

Info

Publication number: CN110969105A
Application number: CN201911159199.1A
Authority: CN
Inventors: 王好谦; 高艺华; 张永兵; 杨芳
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-04-07
Anticipated expiration: 2039-11-22
Also published as: CN110969105B

Abstract

本发明提供一种人体姿态估计方法，包括：采用人体检测网络从原始图形中获取单人图像，原始图形中包括至少一个单人图像；采用人体姿态估计网络对每个单人图像进行关键点检测，得到各个关键点的位置的分布热图；获取每个单人图像的边框与原始图形中其他单人图像的边框的重叠程度，判断单人图像是否存在遮挡问题；若单人图像不存在遮挡问题，则由分布热图得到单人图像中关键点的最终坐标；若单人图像存在遮挡问题则将单人图像中全部分布热图构成图的形式，并通过图神经网络对每个分布热图进行优化，然后由优化后的分布热图得到单人图像中关键点的最终坐标。用图神经网络充分提取图的整体结构信息，以实现对关键点位置的校正效果，提高检测准确率。

Description

一种人体姿态估计方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人体姿态估计方法。

背景技术

对包含人像的二维图像进行人体关键点检测从而进行人体姿态估计，是计算机视觉领域一个非常有价值的研究方向。人体关键点有许多用途，特别是在视频方面，其检测结果可进一步服务于人机交互、行人追踪、行为识别等多个领域，已经应用于许多产品。

目前主流的人体关键点检测方法主要分为两种：自顶向下的人体姿态估计方法和自底向上的人体姿态估计方法。

自顶向下的人体姿态估计方法，指的是采用人体检测网络从包含一个或多个人的原始图像中得到单人图像，然后采用单人姿态估计的检测方法得到单人关键点的分布热图，最后由分布热图计算出单人关键点的最终坐标，并将结果返回原始图像。检测到的单人矩形边框的准确性对单人关键点检测的结果影响较大，且速度与图像中人体个数相关。这种方法的优点是准确性较高，缺点是实时性较差。

自底向上的人体姿态估计方法，指的是在原始含多人的图像中直接检测出所有人的各类人体关键点，然后结合全局信息选用对应的匹配方法将其中属于同一个人的关键点相连接。关键点的检测速度不受图像中人物数量的影响，匹配过程挑战较大。这种方法的优点是检测速度较快，缺点是精度较低。

当一张图像中有多人时通常会出现遮挡情况，而对于有遮挡的情况，自顶向下的检测方法更容易出错。主要错误体现为易检测到他人的关键点，或由于遮挡关键点位置出现较大偏差，而且这种错误在后续步骤中无法被修正。因此对于有遮挡的人体，在原有的“人体检测——单人姿态估计”的两步检测的基础上加入一个关键点位置校正模块，是十分有效且必要的。当前的关键点校正方法仍多采用常规的卷积神经网络，对所有检测结果进行统一修正，对检测准确度有一定提升，但缺乏对困难样本的选择性，也未充分利用人体的结构信息。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明为了解决现有的问题，提供一种人体姿态估计方法。

为了解决上述问题，本发明采用的技术方案如下所述：

一种人体姿态估计方法，包括如下步骤：S1：采用人体检测网络从原始图形中获取单人图像，所述原始图形中包括至少一个单人图像；S2：采用人体姿态估计网络对每个所述单人图像进行关键点检测，得到各个所述关键点的位置的分布热图；S3：获取每个所述单人图像的边框与所述原始图形中其他所述单人图像的边框的重叠程度，判断所述单人图像是否存在遮挡问题；S4：若所述单人图像不存在遮挡问题，则由所述分布热图得到所述单人图像中关键点的最终坐标；若所述单人图像存在遮挡问题则将所述单人图像中全部所述分布热图构成图的形式，并通过图神经网络对每个所述分布热图进行优化，然后由优化后的所述分布热图得到所述单人图像中关键点的最终坐标。

优选地，所述重叠程度包括获取所述单人图像的边框与所述原始图形中其他所述单人图像的边框的交并比，具体如下：

其中，IoU表示交并比。

优选地，所述单人图像的边框与所述原始图形中其他所述单人图像的边框的交并比中至少一个大于0.6，则判断所述单人图像存在遮挡问题。

优选地，所述单人图像中全部所述关键点构成的所述图包括节点和边，表示为G＝{K,E}，其中，K为节点的集合，对于任意k∈K，节点k表示为每所述单人图像中的关键点，总数为N，其特征属性h_k表示为所述节点对应的分布热图，是一个大小固定的二维数组；E是边的集合，由各个所述节点的连接关系决定。优选地，在没有方向和权重的条件下，所述E由一个对称的二维矩阵A表示，称为邻接矩阵，大小为N×N，D为顶点的度矩阵，对角线上的元素依次为各个顶点的度：D_ii＝∑_jA_ij；将所述图G的Laplacian矩阵表示为：

其中，Λ为矩阵的特征值对角矩阵，U为特征值对应的特征列向量组成的矩阵，将节点的特征集合h在所述图G＝{K,E}中的傅里叶变换定义为：

傅里叶逆变换定义为：

若将卷积核定义为由参数θ构造的对角矩阵g_θ＝diag(θ)，那么g_θ(Λ)＝U^Tg_θ为卷积核的傅里叶变换，则对特征h进行一次卷积运算表示为：

(g_θ*h)_G＝U((U^Tg_θ)⊙(U^Th))＝Ug_θ(Λ)U^Th

定义

所示的频域卷积核，并简化式如上的卷积运算：

其中，

T₀(x)＝1

T₁(x)＝x

θ＝θ₀＝-θ₁

其中，卷积核的定义用到了以递归形式定义的切比雪夫多项式，阶数选择为 1，将感受野约束为一阶近邻；

结合上式，每一层的迭代过程记为：

其中，Θ为本层的卷积核参数，其维度由本次迭代前后特征的维度决定，σ为激活函数。

优选地，所述激活函数为ReLU。

优选地，所述人体检测网络采用YOLOv3或Mask RCNN。

优选地，所述人体姿态估计网络在网络训练阶段选用的数据集是COCO数据集或MPII数据集。

优选地，所述人体姿态估计网络是ResNet或Hourglass网络。

本发明再提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本发明的有益效果为：提供一种人体姿态估计方法，通过单人姿态估计流程得到单人关键点的检测结果，然后评估单人图像边框的重叠程度，将存在遮挡问题的单人图片构成图的形式，用图神经网络充分提取图的整体结构信息，以实现对关键点位置的校正效果，提高检测准确率。

更进一步的，本发明充分利用了人体骨骼动作的结构特征，能够达到校正遮挡情况下关键点位置误差的目的。

具有很强的灵活性，具有校正作用的网络模块可与不同的人体姿态估计网络相结合，均可提升原网络结果的准确性。

附图说明

图1是本发明实施例中一种人体姿态估计方法的示意图。

图2是本发明实施例中人体姿态估计网络得到的关键点的位置的分布热图的示意图。

图3是本发明实施例中人体关键点构成的图形式示意图。

图4(a)是本发明实施例中现有技术的方法人体姿态估计的示意图。

图4(b)是本发明实施例中采用本发明的方法的人体姿态估计示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于” 另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接既可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、 “竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二” 的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例1

人体各关节点之间有非常密切的联系，各关节点间的距离和相对方位都有规律可循，人体的常见姿态也为关键点的检测提供了大量的信息，因此人体关节点间的结构关系应当被充分利用。而在传统的姿态估计方法中，关键点的检测更多依赖于局部的纹理及形状等特征信息，在卷积神经网络提取特征的过程中没有充分地利用关键点之间的相对位置关系以及整体动作的结构连贯性。针对检测中可能会出现关键点缺失、对称关键点干扰，他人关键点干扰、关键点位置偏差过大等问题，人体骨架的结构信息会提供非常有效的指导作用。因此，对关键点的检测结果加入全局结构信息进行修正是一个行之有效的提升检测准确性的方法。

人体骨架是一种典型的图(Graph)的形式，由关节点及关节点之间的连接关系构成。对于这种非规则的数据结构，图神经网络(Graph Neural Network) 是一种有效的大数据处理方式。图神经网络是将深度学习的方法应用于非规则数据构建得到的网络结构，在知识图谱、社交网络、计算机视觉等方向均有广泛的实践应用。人体姿态估计中，关键点的数目及连接关系是固定不变的，对于结构不变的小型图，谱图卷积神经网络是一种高效的处理方法。

如图1所示，本发明提供一种人体姿态估计方法，包括如下步骤：

S1：采用人体检测网络从原始图形中获取单人图像，所述原始图形中包括至少一个单人图像；

S2：采用人体姿态估计网络对每个所述单人图像进行关键点检测，得到各个所述关键点的位置的分布热图；

S3：获取每个所述单人图像的边框与所述原始图形中其他所述单人图像的边框的重叠程度，判断所述单人图像是否存在遮挡问题；

S4：若所述单人图像不存在遮挡问题，则由所述分布热图得到所述单人图像中关键点的最终坐标；

若所述单人图像存在遮挡问题则将所述单人图像中全部所述分布热图构成图的形式，并通过图神经网络对每个所述分布热图进行优化，然后由优化后的所述分布热图得到所述单人图像中关键点的最终坐标。

在网络的训练阶段，可直接使用数据集标注图形中的单人位置信息，提取单人图像；在网络测试阶段及实际应用中，采用现有的检测网络从包含人像的原始图像中得到一个或多个单人图像，人体检测网络可采用YOLOv3或Mask RCNN 等性能较好的网络；对每个单人图像应用单人姿态估计的检测方法，得到各个关键点位置的分布热图，关键点数量N是一个确定值，与训练阶段选用的数据集有关，如在COCO数据集下，N＝17，在MPII数据集下，N＝14，单人姿态估计网络可根据需求选用ResNet、Hourglass等网络及其变体。

如图2所示，人体姿态估计网络得到的关键点的位置的分布热图的示意图。

在本发明的一种实施例中，重叠程度包括获取单人图像的边框与原始图形中其他单人图像的边框的交并比，具体如下：

其中，IoU表示交并比，用于表示单人图像的边框的重叠程度。

若两个单人图像的边框的IoU较大，那么可以认为这两个单人图像的人体部分有重叠，即存在人物遮挡情况。计算每一个单人图像的边框与所在原始图像中所有其他单人边框的IoU，若出现一个或多个IoU＞0.6(该阈值为经验值，可根据实验结果调整)的情况，则可认为此单人图像存在遮挡问题。对于有遮挡的单人图像，需要进一步用图神经网络的方式对关键点的位置进行校正；无遮挡图像则不需要进行校正环节。

用人体检测网络和人体姿态估计网络得到单人图像各个关键点位置的分布热图共N张，分别表示N个关键点的位置概率分布图像，以分布热图形式表示。

图(Graph)由节点和边构成，可以表示为G＝{K,E}。其中K为节点的集合，对于任意k∈K，都有一组隐藏的特征属性h_k，该特征随着网络的迭代进行更新，第t次迭代后的节点k的特征属性表示为

节点总数为N。E是图G中边的集合，在没有方向和权重的条件下，E可由一个对称的二维矩阵A表示，称为邻接矩阵，大小为N×N。若两节点之间有连接关系，则对应位置的元素为1，否则为0。在由人体关键点构成的图中，节点k表示为每个人的关键点，总数为 N，其特征属性h_k表示为该节点对应的分布热图，是一个大小固定的二维数组，E由各关节点的连接关系决定。

如图3所示，人体关键点构成的图形式示意图，节点的特征属性未显示。

参考卷积的概念，可以通过特殊的卷积操作将空域中的图G的结构信息及其包含的节点特征信息h_k转换到频域中，通过在频域中的信息融合完成节点特征信息的更新，而后经逆变换返回空域，从而实现了全局信息对每个节点的特征更新。通过卷积核形式的设计，可以实现卷积神经网络的局部连接、权值共享等优势，而多层网络的叠加可以实现感受野的逐步扩大。具体实现方式如下：

在包含N个关键点的单人姿态估计任务中，图G＝{K,E}的节点个数固定为 N，节点间的连接关系为固定的人体骨骼结构，因此邻接矩阵A可表示为一个确定的对称矩阵，大小为N×N。D为顶点的度矩阵，对角线上的元素依次为各个顶点的度

D_ii＝∑_jA_ij (1)

在此基础上可将图G的Laplacian矩阵表示为

这是一个半正定对称矩阵，其中Λ为矩阵的特征值对角矩阵，U为特征值对应的特征列向量组成的矩阵。

参考传统傅里叶变换的形式，将节点的特征集合h在图G＝{K,E}中的傅里叶变换定义为

傅里叶逆变换定义为

若将卷积核定义为由参数θ构造的对角矩阵g_θ＝diag(θ)，那么 g_θ(Λ)＝U^Tg_θ为卷积核的傅里叶变换，则对特征h进行一次卷积运算可表示为 (g_θ*h)_G＝U((U^Tg_θ)⊙(U^Th))＝Ug_θ(Λ)U^Th (5)

考虑运算复杂度、感受野范围等因素，可以定义式(6)所示的频域卷积核，并简化式(5)的卷积运算：

其中，

这里卷积核的定义用到了以递归形式定义的切比雪夫多项式，阶数选择为 1，是为了将感受野约束为一阶近邻。

结合上式，每一层的迭代过程可写作：

其中，Θ为本层的卷积核参数，其维度由本次迭代前后特征的维度决定，σ为激活函数，通常采用ReLU等。

由于在关键点优化的任务中，构成的图体量较小(节点数小于20)，因此网络并不要求大的深度。网络的宽度可根据训练使用的数据集的大小来适当调整，以避免出现欠拟合或过拟合的情况。叠加多次式(9)所示的特征提取运算，便构成了一个完整的图卷积神经网络，输出的特征维度与初始输入相同，为表示关键点位置的分布热图。经过图卷积网络模块的修正，可以结合整体结构信息优化关键点位置，从而实现了检测准确性的提高。

如图4(a)和图4(b)，分别是采用现有技术的人体姿态估计方法得到的人体姿态和采用本发明的方法得到的人体姿态估计，对有遮挡的单人图像做进一步校正处理，从而提高遮挡情况下关键点检测结果的准确率。

本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种人体姿态估计方法，其特征在于，包括如下步骤：

2.如权利要求1所述的人体姿态估计方法，其特征在于，所述重叠程度包括获取所述单人图像的边框与所述原始图形中其他所述单人图像的边框的交并比，具体如下：

其中，IoU表示交并比。

3.如权利要求2所述的人体姿态估计方法，其特征在于，所述单人图像的边框与所述原始图形中其他所述单人图像的边框的交并比中至少一个大于0.6，则判断所述单人图像存在遮挡问题。

4.如权利要求1所述的人体姿态估计方法，其特征在于，所述单人图像中全部所述关键点构成的所述图包括节点和边，表示为G＝{K,E}，其中，K为节点的集合，对于任意k∈K，节点k表示为每所述单人图像中的关键点，总数为N，其特征属性h_k表示为所述节点对应的分布热图，是一个大小固定的二维数组；E是边的集合，由各个所述节点的连接关系决定。

5.如权利要求4所述的人体姿态估计方法，其特征在于，在没有方向和权重的条件下，所述E由一个对称的二维矩阵A表示，称为邻接矩阵，大小为N×N，D为顶点的度矩阵，对角线上的元素依次为各个顶点的度

D_ii＝∑_jA_ij

将所述图G的Laplacian矩阵表示为