CN111199207B

CN111199207B - 基于深度残差神经网络的二维多人体姿态估计方法

Info

Publication number: CN111199207B
Application number: CN201911404612.6A
Authority: CN
Inventors: 毛宜军; 曾志超; 梁早清; 古万荣; 徐振林; 朱凯
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-06-20
Anticipated expiration: 2039-12-31
Also published as: CN111199207A

Abstract

本发明公开了一种基于深度残差神经网络的二维多人体姿态估计方法，包括步骤：1)获取基础人体姿态估计训练数据集2)将获取的图片送入预训练的深度残差神经网络，生成对应的特征向量；3)将特征向量通过两个方向的多次卷积操作生成两个分支的特征映射，生成关节点置信场和部位亲和场；4)计算真实图片的关节点置信场和部位亲和力场，组合成为真实图片的特征映射，将步骤3)中的特征映射与真实图片的特征映射之间均方误差，做网络的训练；重复步骤1)‑步骤3)，生成训练后图片的关节点置信场和部位亲和力场；5)使用步骤4)中生成的关节点置信场和部位亲和场进行关节点的计算和关节点连接。本发明可以很好地应付复杂的姿态变换并且推广到多人姿态估计。

Description

基于深度残差神经网络的二维多人体姿态估计方法

技术领域

本发明涉及计算机视觉的技术领域，尤其是指一种基于深度残差神经网络的二维多人体姿态估计方法。

背景技术

人体姿态估计长久以来一直是计算机视觉领域的一个热点问题。其主要内容，是让计算机从图像或视频中定位出人物的关键点(也称为关节点，如肘、手腕等)。人体姿识别计按维度可分为二维和三维两种：二维人体姿态识别通常使用线段或者矩形来描述人体各关节在图像上的投影位置，线段的长度和角度表示了人体的二维姿态；三维人体姿态估计通常使用树模型来描述估计的姿态，各关节点的位置使用三维坐标确定。在实际应用中，目前获取的大多数图像仍是二维图像，同时三维姿态估计可以使用二维预测进行推理，所以二维姿态估计有着重要的研究价值。

自人体姿态估计的概念提出以来，国内外的学者对此做出了不懈的努力。传统的姿态估计算法主要是基于图结构(Pictorial Structures)模型。该模型将人或物体表示为多个部件的集合，这些部件之间含有空间约束，通过人工指定的特征检测组件实现关节点检测。传统方法过于依赖手工设计的模板，难以应付复杂的姿态变换并且推广到多人姿态估计。随着深度学习技术在计算机视觉领域大放异彩，部分学者开始研究如何利用深度学习来解决人体姿态估计问题。本文所做的研究，目的就是通过深度学习的方式来实现人体姿态识别。

人体姿态识别作为理解图像或视频中人物动作的基础，一直受到众多学者的关注。随着计算机技术的迅猛发展，人体姿态估计已经在动作识别、人机交互、智能安防、增强现实等领域获得了广泛应用。随着人体姿态识别的广泛普及，对这类问题的算法研究，是意义重大的。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于深度残差神经网络的二维多人体姿态估计方法，不再依赖手工设计的模板，可以很好地应付复杂的姿态变换并且推广到多人姿态估计。

为实现上述目的，本发明所提供的技术方案为：基于深度残差神经网络的二维多人体姿态估计方法，包括以下步骤：

1)获取基础人体姿态估计训练数据集，数据集包括多张图片，每张图片包含多个人体和标注好的每个人体各关键点的位置；

2)将步骤1)中获取的图片处理成网络输入所需的形式，然后送入预训练的深度残差神经网络中进行前向传播，生成对应的特征向量作为图片的特征；

3)将步骤2)中生成的特征向量通过两个方向的多次卷积操作生成两个分支的特征映射，特征映射对应到两个分支的预测，一个称为部位亲和力场，用于预测各关节点位置，另一个称为关节点置信场，用于预测关节点直接的连接；

4)计算真实图片的关节点置信场和部位亲和力场，组合成为真实图片的特征映射，将步骤3)中输出的特征映射与真实图片的特征映射之间均方误差，并将误差反向传播，更新每个权值，做网络的训练，最终保存训练结果的网络参数；重复步骤1)-步骤3)，生成训练后图片的关节点置信场和部位亲和力场；

5)使用步骤4)中生成的关节点置信场进行关节点的计算，并将相邻关节点连接，使用部位亲和力场进行计算，排除相邻关节点的错误连接，保证同一个人体相邻的关节点能进行正确的连接、非同人体的关节点不进行连接，最终得到图片中人体的所有关节点以及正确的关节点连接，即得到完整的二维多人体姿态结果。

在步骤1)中，获取开源数据集做网络的训练，这个数据集叫MPII，包含多张图像，每张图片包含多个人体以及每个人体对应的各个关节点的位置，将获取的数据存入数据库中，用于后续网络的训练。

在步骤2)中，修改所有图片尺寸为224*224以适应网络的输入，图片尺寸 224*224为深度残差神经网络的图片输入尺寸要求，构建预训练的深度残差神经网络，将图片以及对应的标签输入到网络中，经过网络的前向运算，输出表示图片特征的特征向量F。

在步骤3)中，将步骤2)中生成的特征映射F输入到一组自定义的由上下两个分支的卷积神经网络构成的结构网络中，一个结构网络的前向运算称之为一个阶段，该阶段随后会连续计算6次，次数为超参数，能够随意修改；通过网络的第一次前向运算，上下两个分支分别产成一组关节点置信场ρ¹(F)和一组部位亲和力场

其中ρ¹和/>

表示第一阶段的两部分卷积神经网络；在随后的每个阶段中，将前一阶段中来自两个分支的预测与原始图像特征连接起来，并用于生成精确的预测：

其中，t表示6次前向运算中第t个阶段，ρ^t和

表示第t阶段的两部分卷积神经网络，F表示图片经过预训练的深度残差神经网络的特征向量，S^t和L^t表示t阶段网络输出的特征映射，最终，经过多个卷积操作，模型输出了关节点置信场的特征映射S^t和部位亲和力场的特征映射L^t，用于人体的关节点预测和关节点连接。

在步骤4)中，生成一组与步骤3)中关节点置信场的特征映射S^t维度一致的向量S^*，并将S^*中对应是关节点的位置置位1，非关节点位置置为0，表示真实图片中的关节点置信场；生成一组与步骤3)中部位亲和力场的特征映射L^t维度一致的向量L*，用于表示真实图片中的部位亲和场；对于属于特定肢体的区域中的每个像素，2d向量对从肢体的一部分指向另一部分的方向进行编码，每种肢体都有一个对应的亲和场，连接其两个相关的身体部位，设k为图片多人中的第k个人，c表示肢体，x_j1,k和x_j2,k是人体k中肢体c的两个真实的关节点j1 和j2，

是一个二维向量，用于表示图片中第k个人肢体c的正确连接，即部位亲和力场，/>

表示点p在这个二维向量的值，如果一个点p落在了肢体c 上面，向量

的值就是一个由j1指向j2的单位向量，而其他位置的点p的值则为0向量；在网络训练阶段，定义真实图片中人体的部位亲和力场向量为 />

在整张图片中，所有的点p的值计算如下公式：

其中，limb_c,k表示人体k的c肢体，v＝(x_j2,k-x_j1,k)/||x_j2,k-x_j1,k||₂为肢体c方向上的单位向量；在肢体上的点的集合被定义为在某个阈值内的线段，即这些点p 所在的位置满足：0≤v·(p-x_j1,k)≤l_c,k和|v_⊥·(p-x_j1,k)|≤σ_l，其中，肢体的宽度σ_l为像素水平的距离，肢体的长度l_c,k＝||x_j2,k-x_j1,k||₂，F表示垂直于单位向量v的向量；在真实图片中，一个肢体的部位亲和力场的特征向量为：

其中，n(p)表示所有重叠在k个人的c肢体的非零向量点p，即计算不同人的肢体重叠部分的平均值，得到所有的

后，将所有17个/>

合并，便得到了L*；将S^t和L^t合并，得到真实图片的特征映射；最后，将步骤3)中输出的特征映射与真实图片的特征映射之间均方误差，并将误差反向传播，更新每个权值，做网络的训练，最终保存训练结果的网络参数；重复步骤1)-步骤3)，生成训练后图片的关节点置信场的特征向量S^t和部位亲和力场的特征向量L^t。

在步骤5)中，使用步骤4)中生成的关节点置信场的特征向量S^t，取S^t中的取值大于某个阈值λ的点作为网络预测的关节点，λ的大小根据网络预测情况进行选取；使用步骤4)生成的部位亲和力场的特征向量L^t计算相应部位亲和力场上的线积分，沿连接候选关节点位置的线段测量候选关节点检测之间的关联，即测量预测的部位亲和力场与通过连接检测到的真实图片身体部位形成的候选肢体的对准；具体地说，对于两个候选关节点d_j2和d_j1，沿着线段采样L_c以测量它们关联中的置信度：

其中，L_c表示人体中所有c肢体的预测部位亲和力场二维向量，p(u)为两个关节点d_j2和d_j1位置的插值，p(u)＝(1-u)d_j1+ud_j2；最终，计算出E值表示d_j2和d_j1两个关节点连接的可信度，E值大于零，该连接可能为正确连接，若d_j2和d_j1为错误的连接，则E的值为小于零的值；通过计算所有两两关节点的E值，选E大于0的连接为正确连接，最终得到完整的二维多人体姿态结果；

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明在多人体姿态识别中的人体重叠、交叉等问题上比传统的自顶向下的模型有很好的效果。

2、本发明在人体数较多且人体较小的图片中有更好的性能。

3、本发明使用的深度残差神经网络能解决传统神经网络由于网络层数过深而导致无法有效训练的问题。

4、本发明在模型结构设计上非常轻巧，避免了传统使用目标检测算法先进行人体位置检测的步骤。

附图说明

图1为本发明的总体流程图。

图2为本发明中人体关节点以及连接的预测的网络结构图。

图3为本发明人体关节点连接的示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本发明所提供的基于深度残差神经网络的二维多人体姿态估计方法，包括以下步骤：

1)获取基础人体姿态估计训练数据集，包括多张图片，每张图片包含多个人体和标注好的每个人体各关键点的位置。

获取开源数据集MPII做网络的训练，MPII数据集是用于评估关节式人体姿势估计的最新基准。该数据集包含约25K图像，其中包含超过4万名带注释的人体关节的人。使用建立的日常人类活动分类法系统地收集图像。总体而言，数据集涵盖410种人类活动，并且每个图像都带有活动标签。每个图像都是从 YouTube视频中提取的，并带有前后未注释的帧。此外，对于数据集，其中包含了更丰富的注释，包括身体部位遮挡以及3D躯干和头部方向。

2)将步骤1)中获取的图片处理成网络输入所需的形式，然后送入预训练的深度残差神经网络中进行前向传播，生成对应的特征向量作为图片的特征。

残差网络是由来自Microsoft Research的多位学者提出的卷积神经网络，在2015年的ImageNet大规模视觉识别竞赛(ImageNet Large Scale Visual RecognitionChallenge,ILSVRC)中获得了图像分类和物体识别的优胜。残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。因此，我们有理由相信，使用残差神经网络，可以对原始图片的特征作一个很好的表达，其网络结果如图2所示。

3)将步骤2)中生成的特征向量通过两个方向的多次卷积操作生成两个分支的特征映射，特征映射对应到两个分支的预测，一个称为部位亲和力场，用于预测各关节点位置，另一个称为关节点置信场，用于预测关节点直接的连接，具体如下：

将特征映射F输入到一组自定义的由上下两个分支的卷积神经网络构成的结构网络中，一个结构网络的前向运算称之为一个阶段，该阶段随后会连续计算6次。如图2所示，loss表示在该处使用损失函数进行反向传播。在第一阶段，该网络上下两个分支分别产生一组检测置信映射PIF＝ρ¹(F)和一组部分亲和力场

其中ρ¹和/>

表示第一阶段的两部分卷积神经网络。在随后的每个阶段中，将前一阶段中来自两个分支的预测与原始图像特征连接起来，并用于生成精确的预测。

其中，ρ^t和

表示第t阶段的两部分卷积神经网络。最终，经过多个卷积操作，模型输出了S^t和L^t两个特征映射，用于人体的关节点预测和关节点连接。

4)计算真实图片的关节点置信场和部位亲和力场，组合成为真实图片的特征映射，将步骤3)中输出的特征映射与真实图片的特征映射之间均方误差，并将误差反向传播，更新每个权值，做网络的训练，最终保存训练结果的网络参数；重复步骤1)-步骤3)，生成训练后图片的关节点置信场和部位亲和力场，具体如下：

我们将使用步骤3)中网络输出的部位亲和力场来进行人体各个关节点的连接。部位亲和力是每个肢体的2d向量场，对于属于特定肢体的区域中的每个像素，2d向量对从肢体的一部分指向另一部分的方向进行编码。每种肢体都有一个对应的亲和场，连接其两个相关的身体部位。考虑下单个肢体，设x_j1,k和x_j2,k是人体k中肢体c的两个真实的关节点j1和j2，如果一个点p在肢体落在了肢体 c上面，向量

的值就是一个由j1指向j2的单位向量，而其他位置的点p 的值则为0向量。在网络训练阶段，我们定义真实图片中人体的部位亲和力场向量为/>

在整张图片中，所有的点p的值计算如下公式：

其中v＝(x_j2,k-x_j1,k)/||x_j2,k-x_j1,k||₂，为肢体c方向上的单位向量。在肢体上的点的集合被定义为在某个阈值内的线段，即这些点p所在的位置满足：

0≤v·(p-x_j1,k)≤l_c,k和|v_⊥·(p-x_j2,k)＜σ₁|，其中，肢体的宽度σ₁为像素水平的距离，肢体的长度l_c,k＝||x_j2,k-x_j1,k||，v_⊥表示垂直于单位向量v的向量。在真实图片中，一个肢体的部位亲和力场的特征向量为：

其中，n_c(p)表示所有重叠在k个人的c肢体的非零向量点p。即计算不同人的肢体重叠部分的平均值。

我们通过计算相应PAF上的线积分，沿连接候选部件位置的线段测量候选部件检测之间的关联。换句话说，我们测量预测的PAF与通过连接检测到的身体部位形成的候选肢体的对准。具体地说，对于两个候选部件位置d_j2和d_j1，我们沿着线段采样预测部件亲和场以测量它们关联中的置信度：

其中，p(u)为两个关节点d_j2和d_j1位置的插值，p(u)＝(1-u)d_j1+ud_j2。在实践中，我们通过采样和求和u的均匀间隔的值来近似积分。最终，计算出E值最大的连接，则为网络最终输出的关节点连接。

5)使用步骤4)中生成的关节点置信场进行关节点的计算，并将相邻关节点连接，使用部位亲和力场作计算，排除相邻关节点的错误连接，保证同一个人体相邻的关节点能进行正确的连接、非同人体的关节点不进行连接，最终输出图片中人体的所有关节点以及正确的关节点连接，即得到完整的二维多人体姿态结果，如图3所示，具体如下：

使用步骤4)中生成的关节点置信场的特征向量S^t，取S^t中的取值大于某个阈值λ的点作为网络预测的关节点，λ的大小根据网络预测情况进行选取；使用步骤4)生成的部位亲和力场的特征向量L^t计算相应部位亲和力场上的线积分，沿连接候选关节点位置的线段测量候选关节点检测之间的关联，即测量预测的部位亲和力场与通过连接检测到的真实图片身体部位形成的候选肢体的对准；具体地说，对于两个候选关节点d_j2和d_j1，沿着线段采样L_c以测量它们关联中的置信度：

其中，L_c表示人体中所有c肢体的预测部位亲和力场二维向量，p(u)为两个关节点d_j2和d_j1位置的插值，p(u)＝(1-u)d_j1+ud_j2；最终，计算出E值表示d_j2和d_j1两个关节点连接的可信度，E值大于零，该连接可能为正确连接，若d_j2和d_j1为错误的连接，则E的值为小于零的值；通过计算所有两两关节点的E值，选E大于0的连接为正确连接，最终得到完整的二维多人体姿态结果。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于深度残差神经网络的二维多人体姿态估计方法，其特征在于，包括以下步骤：

1)获取基础人体姿态估计训练数据集，包括多张图片，每张图片包含多个人体和标注好的每个人体各关键点的位置；

生成一组与步骤3)中关节点置信场的特征映射S^t维度一致的向量S^*，并将S^*中对应是关节点的位置置位1，非关节点位置置为0，表示真实图片中的关节点置信场；生成一组与步骤3)中部位亲和力场的特征映射L^t维度一致的向量L^*，用于表示真实图片中的部位亲和场；对于属于肢体的区域中的每个像素，2d向量对从肢体的一部分指向另一部分的方向进行编码，每种肢体都有一个对应的亲和场，连接其两个相关的身体部位，设k为图片多人中的第k个人，c表示肢体，x_j1,k和x_j2,k是人体k中肢体c的两个真实的关节点j1和j2，

表示点p在这个二维向量的值，如果一个点p落在了肢体c上面，向量/>

的值就是一个由j1指向j2的单位向量，而其他位置的点p的值则为0向量；在网络训练阶段，定义真实图片中人体的部位亲和力场向量为/>

在整张图片中，所有的点p的值计算如下公式：

其中，limb_c,k表示人体k的c肢体，v＝(x_j2,k-x_j1,k)/||x_j2,k-x_j1,k||₂为肢体c方向上的单位向量；在肢体上的点的集合被定义为在某个阈值内的线段，即这些点p所在的位置满足：0≤v·(p-x_j1,k)≤l_c,k和|v_⊥·(p-x_j1,k)|≤σ_l，其中，肢体的宽度σ_l为像素水平的距离，肢体的长度l_c,k＝||x_j2,k-x_j1,k||₂，F表示垂直于单位向量v的向量；在真实图片中，一个肢体的部位亲和力场的特征向量为：

后，将所有17个/>

合并，便得到了L^*；将S^t和L^t合并，得到真实图片的特征映射；最后，将步骤3)中输出的特征映射与真实图片的特征映射之间均方误差，并将误差反向传播，更新每个权值，做网络的训练，最终保存训练结果的网络参数；重复步骤1)-步骤3)，生成训练后图片的关节点置信场的特征向量S^t和部位亲和力场的特征向量L^t；

2.根据权利要求1所述的基于深度残差神经网络的二维多人体姿态估计方法，其特征在于：在步骤1)中，获取开源数据集做网络的训练，这个数据集叫MPII，包含多张图像，每张图片包含多个人体以及每个人体对应的各个关节点的位置，将获取的数据存入数据库中，用于后续网络的训练。

3.根据权利要求1所述的基于深度残差神经网络的二维多人体姿态估计方法，其特征在于：在步骤2)中，修改所有图片尺寸为224*224以适应网络的输入，图片尺寸224*224为深度残差神经网络的图片输入尺寸要求，构建预训练的深度残差神经网络，将图片以及对应的标签输入到网络中，经过网络的前向运算，输出表示图片特征的特征向量F。

4.根据权利要求1所述的基于深度残差神经网络的二维多人体姿态估计方法，其特征在于：在步骤3)中，将步骤2)中生成的特征映射F输入到一组自定义的由上下两个分支的卷积神经网络构成的结构网络中，一个结构网络的前向运算称之为一个阶段，该阶段随后会连续计算6次，次数为超参数，能够随意修改；通过网络的第一次前向运算，上下两个分支分别产成一组关节点置信场ρ¹(F)和一组部位亲和力场

其中ρ¹和/>

其中，t表示6次前向运算中第t个阶段，ρ^t和

5.根据权利要求1所述的基于深度残差神经网络的二维多人体姿态估计方法，其特征在于：在步骤5)中，使用步骤4)中生成的关节点置信场的特征向量S^t，取S^t中的取值大于某个阈值λ的点作为网络预测的关节点，λ的大小根据网络预测情况进行选取；使用步骤4)生成的部位亲和力场的特征向量L^t计算相应部位亲和力场上的线积分，沿连接候选关节点位置的线段测量候选关节点检测之间的关联，即测量预测的部位亲和力场与通过连接检测到的真实图片身体部位形成的候选肢体的对准；具体地说，对于两个候选关节点d_j2和d_j1，沿着线段采样L_c以测量它们关联中的置信度：

其中，L_c表示人体中所有c肢体的预测部位亲和力场二维向量，p(u)为两个关节点d_j2和d_j1位置的插值，p(u)＝(1-u)d_j1+ud_j2；最终，计算出E值表示d_j2和d_j1两个关节点连接的可信度，E值大于零，该连接为正确连接，若d_j2和d_j1为错误的连接，则E的值为小于零的值；通过计算所有两两关节点的E值，选E大于0的连接为正确连接，最终得到完整的二维多人体姿态结果。