CN111259735B

CN111259735B - 基于多级预测特征增强卷积神经网络的单人姿态估计方法

Info

Publication number: CN111259735B
Application number: CN202010018024.5A
Authority: CN
Inventors: 谢雪梅; 马丽华; 柴维路
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2023-04-07
Anticipated expiration: 2040-01-08
Also published as: CN111259735A

Abstract

本发明提出了一种基于多级预测特征增强卷积神经网络的单人姿态估计方法，实现步骤为：获取训练集和测试集；对人体骨架点进行等级划分；构建多级预测特征增强卷积神经网络；对多级预测特征增强卷积神经网络进行训练；基于训练好的多级预测特征增强卷积神经网络获取单人姿态估计结果。本发明采用多级预测特征增强卷积神经网络，区分人体姿态骨架点预测的难易程度并采用无参数的特征增强模块，使得提取的骨架点特征更加精细，同时极大减少了模型的参数量，有效提高了单人姿态估计的准确率和速度。

Description

基于多级预测特征增强卷积神经网络的单人姿态估计方法

技术领域

本发明属于计算机视觉技术领域，涉及一种单人姿态估计方法，具体涉及一种基于多级预测特征增强神经网络的单人姿态估计方法，可用于人体行为分析技术的各项领域。

背景技术

随着现代信息技术的飞速发展，利用人体行为分析技术对大数据中的人体行为进行快速准确的分析有着非常广泛的应用，如安防监控、运动分析和人机交互等。准确的人体姿态骨架点的获取是人体行为分析技术的基础，相较于利用Kinect深度相机获取人体姿态信息，人体姿态估计算法可以直接从RGB相机所得的图像中获取人体骨架点，经济实用且应用范围更广。另外，人体行为分析的各项领域，如2D多人姿态估计、3D姿态估计、姿态跟踪以及步态分析等，均依赖于准确的单人姿态估计算法。因此，急需要一种高精度轻量级的单人姿态估计算法，对图像中的人体进行快速、准确的姿态估计。

传统的单人姿态估计算法直接通过全局特征将单人姿态估计问题看作分类或者回归问题直接求解，其采取的特征一般均使用HOG、Shape Context和SIFI等浅层特征，算法精度一般且只适用于背景干净的场景。随着深度学习的发展，单人姿态估计算法开始使用具有强大特征表达能力的卷积神经网络，其估计效果的精度有了显著的提升，并且可以适用于较复杂背景的场景。同时，深度学习对单人姿态估计中的特征提取和空间位置建模不进行独立的拆解，算法模型更容易优化，因而设计性能良好的模型变得尤为重要。

目前，针对单人姿态估计方法的研究，主要集中在利用多阶段特征融合卷积神经网络来获取的人体姿态骨架点信息。其实现方案是通过不断地利用多个级联堆叠的卷积层，对每个阶段的输出结果融合输入图像的特征来修正该阶段姿态估计的结果，在模型训练过程中未区分人体姿态骨架点检测的难易程度，简易骨架点占据过多学习机会不利于困难骨架点学习，使得人体姿态骨架点特征表示不准确，导致单人姿态估计的准确率较低。另外，现有的单人姿态估计算法会通过至少六个阶段的特征融合来获取较为准确的人体姿态结果，模型参数量剧增，导致单人姿态估计的速度降低。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于多级预测特征增强神经网络的单人姿态估计方法，旨在提高单人姿态估计的准确率和速度。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练集和测试集：

从单人姿态估计数据集中随机选取M个带有真实标签的图像样本组成训练集，同时选取N个带有真实标签的图像样本组成测试集，其中，每个标签所包含人体骨架点的类别数为P，每个类别的人体骨架点个数为1，M≥2000，N≥10000，P≥14；

(2)对人体骨架点进行等级划分：

(2a)将测试集作为多阶段特征融合单人姿态估计模型的输入，对每个图像样本的每类人体骨架点的位置进行预测，并通过预测结果和人体骨架点的标签计算每类人体骨架点的准确率PCK；

(2b)设置判断阈值σ₁和σ₂，并将PCK≥σ₁的骨架点作为简单骨架点，将σ₂＜PCK＜σ₁骨架点作为较难骨架点，将PCK≤σ₂骨架点作为困难骨架点，其中，0.7≤σ₁≤0.9，0.5≤σ₂≤0.7；

(3)构建多级预测特征增强卷积神经网络：

(3a)构建包括级联堆叠的多个卷积层和多个池化层的图像特征提取网络；

(3b)构建包括级联的简单骨架点预测子网络、较难骨架点预测子网络和困难骨架点预测子网络的骨架点预测网络，每个子网络均包括多个级联堆叠的卷积层、concat层、特征增强模块和预测层，其中，特征增强模块包括全局均值池化函数、L₂归一化函数和缩放函数，用于对特征图的表达能力进行增强；

(3c)将图像特征提取网络的输出与骨架点预测网络的输入连接，得到多级预测特征增强卷积神经网络；

(4)对多级预测特征增强卷积神经网络进行训练：

(4a)设迭代次数为t，最大迭代次数为T，T≥62500，并令t＝0；

(4b)从训练集中随机选取m个带有真实标签的图像样本作为多级预测特征增强卷积神经网络的输入进行训练，得到m个预测标签，并通过m个预测标签与其对应的真实标签计算多级预测特征增强卷积神经网络的损失值L，其中，m＝1,2,4,8,16；

(4c)采用梯度下降法，并通过损失值L对多级预测特征增强卷积神经网络各层的参数进行更新；

(4d)判断t＞＝T是否成立，若是，得到训练好的多级预测特征增强卷积神经网络，否则，令t＝t+1，并执行步骤(4b)；

(5)基于训练好的多级预测特征增强卷积神经网络获取单人姿态估计结果：

将与训练集中图像样本同类型的待预测图像作为多级预测特征增强卷积神经网络的输入进行检测，得到待预测图像的P个骨架点的预测结果，并将P个骨架点的预测结果按照人体骨架连接方式进行连接，得到最终的姿态估计结果。

与发明与现有技术相比，具有如下优点：

第一，本发明的简单骨架点预测子网络、较难骨架点预测子网络和困难骨架点预测子网络实现了骨架点的多级预测，直接分等级预测骨架点，避免采用多阶段特征融合方式的同时使得提取的骨架点特征更加精细，克服了现有技术不区分人体姿态骨架点预测的难易程度，进而不能准确的表示骨架点特征，导致现有技术单人姿态估计效果差的问题；克服了现有单人姿态估计算法模型参数量过大，导致对图像中人体姿态估计速度下降的问题，有效提高了单人姿态估计的准确率和速度。

第二，本发明构建了特征增强模块，使用无参数的计算方式增强人体骨架点特征表示，克服了现有技术中人体姿态骨架点特征表示不准确的问题，进一步提高了单人姿态估计的准确率。

附图说明

图1为本发明的实现流程图；

图2为本发明采用的人体骨架的结构示意图。

具体实施方式

以下结合附图和具体实施例子，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

(1)获取训练集和测试集：

从单人姿态估计数据集中随机选取M个带有真实标签的图像样本组成训练集，同时选取N个带有真实标签的图像样本组成测试集，其中，每个标签所包含人体骨架点的类别数为P，每个类别的人体骨架点个数为1，M＝2000，N＝10000，P＝14；

(2)对人体骨架点进行等级划分：

(2a)将测试集作为多阶段特征融合单人姿态估计模型的输入，本实施例采取现阶段准确率较高的Hourglass模型对每个图像样本的每类人体骨架点的位置进行预测，并通过预测结果和人体骨架点的标签计算每类人体骨架点的准确率PCK，其计算方式为：

其中，A和A⁺分别表示测试集中的骨架点总个数和预测正确的骨架点个数。

(2b)设置判断阈值σ₁和σ₂，并将PCK≥σ₁的骨架点作为简单骨架点，将σ₂＜PCK＜σ₁骨架点作为较难骨架点，将PCK≤σ₂骨架点作为困难骨架点，其中，σ₁＝0.9，σ₂＝0.7；

(3)构建多级预测特征增强卷积神经网络：

(3a)构建包括级联堆叠的七个卷积层和四个池化层的图像特征提取网络，其具体结构为：第一池化层→第一卷积层→第二池化层→第二卷积层→第三池化层→第三卷积层→第四池化层→第四卷积层→第五卷积层→第六卷积层→第七卷积层；

(3b)构建包括级联的简单骨架点预测子网络、较难骨架点预测子网络和困难骨架点预测子网络的骨架点预测网络，每个子网络均包括级联堆叠的四个卷积层、concat层、特征增强模块和预测层，其具体结构均为：第一卷积层→concat层→第二卷积层→第三卷积层→第四卷积层→特征增强模块→预测层，其中，特征增强模块包括全局均值池化函数、L2归一化函数和缩放函数，用于对特征图的表达能力进行增强，其对特征图的具体操作方式为：

x_i＝F₂(s_i,v_i)＝s_i·v_i

其中，v_i为待增强特征图的第i个通道的特征图，H,W分别表示该特征图的长和宽，z_i为对v_i的所有像素值求和后取均值的结果，s_i表示对z_i归一化后的结果，x_i表示利用s_i对v_i的幅值进行缩放后的结果。

简单骨架点预测子网络的具体参数为：

第一卷积层的卷积核大小为5×5，卷积核数量为32，卷积核步长为1；

concat层的拼接维度为49；

第二卷积层的卷积核大小为11×11，卷积核数量为128，卷积核步长为1；

第三卷积层的卷积核大小为11×11，卷积核数量为128，卷积核步长为1；

第四卷积层的卷积核大小为1×1，卷积核数量为128，卷积核步长为1；

预测层的卷积核大小为1×1，卷积核数量为C₁:C₁＝P₁+1，卷积核步长为1，其中，P₁为简单骨架点、较难骨架点和困难骨架点的类别数之和；

较难骨架点预测子网络网络的具体参数为：

concat层的拼接维度为32+C₁；

预测层的卷积核大小为1×1，卷积核数量为C₂:C₂＝P₂+1，卷积核步长为1，其中，P₂为较难骨架点和困难骨架点类别数之和；

困难骨架点预测子网络网络的具体结构的具体参数为：

concat层，其拼接维度设置为32+C₂；

预测层的卷积核大小为1×1，卷积核数量为C₃:C₃＝P₃+1，卷积核步长为1，其中，P₃为困难骨架点类别数。

(4)对多级预测特征增强卷积神经网络进行训练：

(4a)设迭代次数为t，最大迭代次数为T，T＝62500，并令t＝0；

(4b)从训练集中随机选取m个带有真实标签的图像样本作为多级预测特征增强卷积神经网络的输入进行训练，得到m个预测标签，并通过m个预测标签与其对应的真实标签计算多级预测特征增强卷积神经网络的损失值L，其中，m＝16，损失值L的计算公式为：

L＝L₁+L₂+L₃

其中，L₁、L₂和L₃分别表示简单骨架点预测子网络、较难骨架点预测子网络和困难骨架点预测子网络的损失值，P₁表示简单骨架点、较难骨架点和困难骨架点的类别数之和，P₂表示较难骨架点和困难骨架点的类别数之和，P₃表示困难骨架点的类别数，m表示训练集的第m个训练样本，

和

表示第m个训练样本的第p类简单骨架点子网络预测标签和真实标签，

和

表示第m个训练样本的第p类较难骨架点子网络预测标签和真实标签，

和

表示第m个训练样本的第p类困难骨架点子网络预测标签和真实标签；

(4d)判断t＞＝T是否成立，若是，得到训练好的级联式特征增强卷积神经网络，否则，令t＝t+1，并执行步骤(4b)；

将与训练集中图像样本同类型的待预测图像作为多级预测特征增强卷积神经网络的输入进行检测，得到待预测图像的14个骨架点的预测结果，并将14个骨架点的预测结果按照图2人体骨架连接方式进行连接，得到最终的姿态估计结果。图2中的黑色圆圈表示组成人体的骨架点，圆圈内的数字1至14分别表示人体骨架点的编号，黑色直线表示两两骨架点之间的连接线，其中14个人体骨架点及其对应的编号为：1.右脚踝，2.右膝，3.右臀，4.左脚踝，5.左膝，6.左臀，7.右手腕，8.右肘，9.右肩，10.左肩，11.左肘，12.左手腕，13.颈部，14.头部。

Claims

1.一种基于多级预测特征增强卷积神经网络的单人姿态估计方法，其特征在于，包括如下步骤：

(1)获取训练集和测试集：

(2)对人体骨架点进行等级划分：

(3)构建多级预测特征增强卷积神经网络：

(4)对多级预测特征增强卷积神经网络进行训练：

(4a)设迭代次数为t，最大迭代次数为T，T≥62500，并令t＝0；

2.根据权利要求1所述的基于多级预测特征增强卷积神经网络的单人姿态估计方法，其特征在于，步骤(2a)中所述的多阶段特征融合单人姿态估计模型和人体骨架点的准确率PCK，其中，多阶段特征融合单人姿态估计模型采用Hourglass模型或CPM模型，人体骨架点的准确率PCK的计算方式为：

3.根据权利要求1所述的基于多级预测特征增强卷积神经网络的单人姿态估计方法，其特征在于，步骤(3a)中所述的图像特征提取网络，包括七个卷积层和四个池化层，该图像特征提取子网络的具体结构为：第一池化层→第一卷积层→第二池化层→第二卷积层→第三池化层→第三卷积层→第四池化层→第四卷积层→第五卷积层→第六卷积层→第七卷积层。

4.根据权利要求1所述的基于多级预测特征增强卷积神经网络的单人姿态估计方法，其特征在于，步骤(3b)中所述的简单骨架点预测子网络、较难骨架点预测子网络和困难骨架点预测子网络，该三个子网络所包含的卷积层的数量均为四个，具体结构均为：第一卷积层→concat层→第二卷积层→第三卷积层→第四卷积层→特征增强模块→预测层，其中：

简单骨架点预测子网络的具体参数为：

concat层的拼接维度为49；

较难骨架点预测子网络网络的具体参数为：

concat层的拼接维度为32+C₁；

困难骨架点预测子网络网络的具体结构的具体参数为：

concat层，其拼接维度设置为32+C₂；