CN111523377A

CN111523377A - 一种多任务的人体姿态估计和行为识别的方法

Info

Publication number: CN111523377A
Application number: CN202010160461.0A
Authority: CN
Inventors: 吴哲夫; 蒋岳锋
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-08-11

Abstract

一种多任务的人体姿态估计和行为识别方法，采用端到端的多任务框架，主要实现功能有：对RGB图片进行3D姿态估计，输出3维坐标点；对连续视频帧，该系统将图片的视觉特征和中间联合概率热图作为外观特征与姿态估计获得坐标来进行人体姿态行为识别。本发明过单个体系结构有效解决了计算机视觉领域姿态估计和行为识别两种问题，具有一定的应用价值。

Description

一种多任务的人体姿态估计和行为识别的方法

技术领域

本发明涉及计算机视觉中的人体姿态估计以及行为识别技术，具体涉及一种多任务的姿态估计和行为识别的方法。

背景技术

人体姿态估计和人体行为识别都是计算机视觉中重要的研究课题，但目前将人体姿态估计和行为识别结合起来形成一个的体系还较少。

实现2D姿态估计的方法有基于检测方法和基于回归方法，基于检测方法一般直接根据特征热图对关节点位置进行估计，但该方法不能直接提供关节点坐标。

也有学者通过soft-argmax函数将热图直接转化为坐标点，因此基于检测的方法可以转化为基于回归的方法，有利于系统进行后续处理和调整。

基于回归的方法也开始从2D姿态估计应用到3D姿态估计上去，通过将2D热图转换成体积热图，从而可以获得关节点的3D坐标，从而能进行简单的姿态估计。因为获得坐标，使得一些函数方法也能应用到姿态估计上来，如通过获得多视角的相机参数同时使用soft-argmax获得坐标点映射来进行三角测量，学习姿态估计，这使得姿态估计的精度更加提高。

不只是2D/3D转换方面，基于回归的方法可以使姿态估计和视频行为识别在一个体系下进行一同处理。如果只靠图片上的一些视觉信息来进行姿态估计，在某些动作识别上会有局限性，同理，如果只用连续姿态来识别视频动作同样会有局限性。

发明内容

为了克服现有技术的组本发明目的在于提供一种多任务的人体姿态估计和行为识别的方法，该方法能够对输入的单个RGB图像进行2D/3D姿态估计，同时又能对输入视频帧进行行为识别，将姿态估计与视觉特征相结合来进行行为识别，来提高行为识别精度，同时多任务处理提高了系统的鲁棒性。

为达到上述目的，本发明提供的技术方案如下：

一种多任务的人体姿态估计和行为识别方法，该方法包括以下步骤：

步骤1：输入连续视频帧，将摄像头采集视频帧输入计算机，单个RGB图像I∈R^T ^×H×W×3,其中H×W为输入图像大小；

步骤2：通过一个inception-v4网络的多任务主干模型提取特征，采用多次卷积和2次pooling，并行结构用来防止bottleneck问题，最后还有一个可分离残差模块；

步骤3：将多任务主干模型输出输入到姿势估计模型，里面有K个预测块，预测块由分成3种不同分辨率的8个可分离残差模块组成；

步骤4：使用soft-argmax函数获得各关节点的联合概率图，进行回归不断优化姿态估计与真实姿态位置误差，最终第K个估计姿态位置即为最终姿态位置；通过将2D热图转化为体积热图，定义的堆叠2D热图对应于深度分辨率；通过对z平均热图应用2D-Soft-argmax操作执行进行(x,y)坐标预测，z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归；

通过以上步骤1-4，输出视频的2D/3D姿态坐标；

步骤5：通过姿势识别模型，将姿态估计模块输出的带有N_j个关节点的T时间序列转化为类似图像的表现形式，时间T为垂直轴，关节点N_j为水平轴，并将每个点的坐标编码为通道；将其输入到姿态识别网络，该网络将输入通过一个全卷积神经网络将输入的姿势中提取的特征转化为动作热图；并且，经过K个预测块优化预测、max+min池化以及softmax函数激活生成每个动作的输出概率；

步骤6：通过外观识别模型输出视觉特征

和姿态估计输出关节点联合概率热图

这里N_f为特征点个数，N_j为关节点个数；将视觉特征V_t乘以联合概率热图的每个关节点通道得到外观特征，然后将空间维数收缩得到t时刻的

即外观特征为

生成每个动作的输出概率；

步骤7：将基于姿态识别的输出与基于外观识别输出相结合得到最终视频动作输出。

进一步，对于姿态估计任务，运用弹性网络损失函数训练网络，如以下等式所定义：

其中

和p_n分别为第n关节的估计位置和真实位置，N_j为关节个数，||||₁为L1范数，||||₂为L2范数，L_p为姿态的损失函数；使用SDG优化器优化姿态估计部分，当验证达到稳定水平时，学习率将减少0.2倍，并分批处理24张图像。

再进一步，对于行为识别任务，使用预先训练的姿势估计模型权重来同时训练姿势和外观模型；运用交叉熵损失训练网络，使用经典的SGD优化器，在验证时学习率减少0.2倍，并分批处理2个视频剪辑；当验证准确性不再提高时，将最终学习率除以10，然后对整个网络进行微调，以获得更多的5个时期；在视频帧中选择固定时间T的样本剪辑进行训练，最后的识别结果为一个片段的平均结果。

使用MPⅡ、Human3.6、Penn Action数据集进行训练，为了合并不同的数据集，将姿势转换为通用布局，固定关节的数量等于具有更多关节的数据集。

当只进行姿势估计时，使用8个预测块；对于动作识别，则使用4个预测块；对于所有实验，使用大小为256×256的裁切RGB图像，并通过旋转图像、垂直水平平移图像、缩小放大图像、将视频进行2次采样以及随机水平化来扩充数据。

本发明中，网络体系结构主要分为四部分：多任务主干模型，姿势估计模型，姿势识别模型，外观识别模型。

使用soft-argmax函数获得各关节点的联合概率图，进行回归不断优化姿态估计与真实姿态位置误差，最终第8个估计姿态位置即为最终姿态位置；

通过将2D热图转化为体积热图，我们定义了堆叠的2D热图，对应于深度分辨率。在(x,y)坐标中的预测是通过对z平均热图应用2D-Soft-argmax操作执行的，而z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归。

本发明的有益效果为：将姿态估计与视觉特征相结合来进行行为识别，来提高行为识别精度，同时多任务处理提高了系统的鲁棒性。

附图说明

图1为姿态估计和行为识别时，多任务主干模型和姿态估计模型的网络结构；

图2为行为识别时，姿态识别模型和外观识别模型的网络结构。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1和图2，一种多任务的人体姿态估计和行为识别方法，该方法能够对输入的单个RGB图像进行2D/3D姿态估计，同时又能对输入视频帧进行行为识别。

网络体系结构主要分为四部分：多任务主干模型，姿势估计模型，姿势识别模型，外观识别模型。

多任务主干模型，如附图1所示，主要由Inception-v4组成，Inception-v4的整体结构，其实就是多次卷积和2次pooling，其中pooling采用卷积+pooling并行的结构，来防止bottleneck问题，最后还有一个可分离残差模块；

姿势估计模型，如附图1所示，主要由预测块组成，预测块由分成3种不同分辨率的8个可分离残差模块组成；

姿势识别模型，外观识别模型，如附图2所示，这两个模型结构相似，都有动作预测块，动作预测块主要多次卷积，经过max+min池化以及softmax函数激活生成每个动作的输出概率。

本发明多任务的人体姿态估计和行为识别方法，包括以下步骤：

步骤1：使用MPⅡ、Human3.6、Penn Action数据集进行评估方法，为了合并不同的数据集，将姿势转换为通用布局，固定关节的数量等于具有更多关节的数据集。固定关节数量为16。本发明，使用大小为256×256的裁切RGB图像。并通过旋转图像，垂直水平平移图像，缩小放大图像，对视频进行采样以及随机水平化来扩充训练集；

步骤2：如附图1所示，只进行姿态估计时，用MPⅡ、Human3.6数据集进行评估，单个RGB图像I∈R^H×W×3,其中H×W为输入图像大小；

步骤3：通过多任务主干模型，先经过三次3×3卷积，再经过池化层，池化层采用3×3卷积和maxpooling并行的结构，用全连接层连接，再并行经过2次卷积和4次卷积进行全连接，再经过池化层，全连接层最后通过可分离残差模块，可分离残差模块的过滤器大小为5×5，输出图像基础特征。

步骤4：将多任务主干模型输出输入到姿势估计模型，里面有8个预测块；预测块由分成3种不同分辨率的8个可分离残差模块组成，可分离残差模块的过滤器大小为5×5；

步骤5：使用soft-argmax函数得到各关节点的联合概率图，进行回归不断优化姿态估计与真实姿态位置误差，最终第8个估计姿态位置即为最终姿态位置；

如果对2D关节点热图进行输入，通过归一化信号可以获得概率图，如果要得到关节点位置，只需进行求数学期望，公式如下：

其中，x为输入热图，W_x，H_x为输入图尺寸大小，φ(x)为softmax函数，

为输出坐标点；

步骤6：通过将2D热图转化为体积热图，我们定义了堆叠的2D热图，堆叠深度N_d为16，对应于深度分辨率。在(x,y)坐标中的预测是通过对z平均热图应用2D-Soft-argmax操作执行的，而z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归；

步骤7：运用弹性网络损失函数训练网络，如以下等式所定义：

其中

和p_n分别为第n关节的估计位置和真实位置，N_j为关节个数，||||₁为L1范数，||||₂为L2范数，L_p为姿态的损失函数。

用SDG优化器优化姿态估计部分，当验证达到稳定水平时，学习率将减少0.2倍，并分批处理24张图像；

步骤8：可以需选择单幅图和多幅图进行评估，对于单幅图只需取中心图像进行姿态估计，对于多幅图，对图像进行小幅旋转，平移进行平均预测。

步骤9：当进行行为识别时，用MPⅡ、Penn Action数据集进行评估,使用16个关节点，使用由T＝16帧的剪辑进行训练。

步骤10：输入的视频I∈R^T×H×W×3仍然通过inception-v4网络提取基础特征，与进行姿态估计不同，这里只经过4个预测块回归优化估计得到坐标点；

步骤11：如附图2所示，将带有N_j个关节点的T时间序列转化为类似图像的表现形式，时间T为垂直轴，关节点N_j为水平轴，并将每个点的坐标编码为通道。然后输入到姿态识别网络，该网络将输入通过一个全卷积神经网络将输入的姿势中提取的特征转化为动作热图。该全卷积神经网络和姿态估计模型一样有4个预测块优化预测。行为预测块中，先进行卷积和max+min池化，最后通过步长为N_a的3×3卷积，N_a为动作数量设为15，输出动作热图，经过max+min池化以及softmax函数激活生成每个动作的输出概率；

步骤12：如附图2所示，将主干生成模块输出的视觉特征

和姿态估计输出关节点联合概率热图

这里N_f为特征点个数，N_j为关节点个数，将视觉特征V_t乘以联合概率热图的每个关节点通道得到外观特征，然后空间维数收缩得到t时刻的

输出外观特征为

和姿态识别模型类似，通过一个全卷积神经网络将输入的姿势中提取的特征转化为动作热图。该全卷积神经网络和姿态估计模型一样有4个预测块优化预测。

行为预测块中，先进行卷积和max+min池化，最后通过步长为N_a的3×3卷积，N_a为动作数量设为15，输出动作热图，经过max+min池化以及softmax函数激活生成每个动作的输出概率；

步骤13：将基于姿态识别的输出与基于外观识别输出相结合得到最终视频动作输出；

步骤14：使用预先训练的姿势估计模型的权重同时训练姿势和外观模型；

步骤15：运用交叉熵损失训练网络，使用经典的SGD优化器，在验证时学习率减少0.2倍，并分批处理2个视频剪辑。当验证准确性不再提高时，我们将最终学习率除以10，然后对整个网络进行微调，以获得更多的5个时期。在视频帧中选择固定时间T的样本剪辑进行训练；

步骤16：可以选择单剪辑和多剪辑进行识别评估，对于单剪辑只需剪视频中间片段，对于多剪辑，每个T/2时刻进行片段剪辑，最后的识别结果为一个片段的平均结果；

步骤17：对仅使用外观特征识别、仅使用姿态识别以及结合外观姿态进行识别进行了对比，结果如表1。表1仅进行外观识别、姿态识别和结合外观姿势的行为识别对比表；

表1

从表1可以看出结合姿势特征和外观特征后，动作识别精度分别比仅使用姿势特征提高0.6，比仅使用外观特征提高0.3。

同时本发明还能进行一个体系下进行姿态估计和行为识别，具有较高的鲁棒性和灵活性。

Claims

1.一种多任务的人体姿态估计和行为识别方法，其特征在于，该方法包括以下步骤：

步骤1：输入连续视频帧，将摄像头采集视频帧输入计算机，单个RGB图像I∈R^T×H×W×3,其中H×W为输入图像大小；

通过以上步骤1-4，输出视频的2D/3D姿态坐标；

步骤6：通过外观识别模型输出视觉特征

和姿态估计输出关节点联合概率热图

即外观特征为

生成每个动作的输出概率；

2.根据权利要求1所述的一种多任务的人体姿态估计和行为识别方法，其特征在于，对于姿态估计任务，运用弹性网络损失函数训练网络，如以下等式所定义：

其中

和p_n分别为第n关节的估计位置和真实位置，N_j为关节个数，|| ||₁为L1范数，||||₂为L2范数，L_p为姿态的损失函数；使用SDG优化器优化姿态估计部分，当验证达到稳定水平时，学习率将减少0.2倍，并分批处理24张图像。

3.根据权利要求2所述的一种多任务的人体姿态估计和行为识别方法，其特征在于，对于行为识别任务，使用预先训练的姿势估计模型权重来同时训练姿势和外观模型；运用交叉熵损失训练网络，使用经典的SGD优化器，在验证时学习率减少0.2倍，并分批处理2个视频剪辑；当验证准确性不再提高时，将最终学习率除以10，然后对整个网络进行微调，以获得更多的5个时期；在视频帧中选择固定时间T的样本剪辑进行训练，最后的识别结果为一个片段的平均结果。

4.根据权利要求1～3之一所述的一种多任务的人体姿态估计和行为识别方法，其特征在于，使用MPⅡ、Human3.6、Penn Action数据集进行训练，为了合并不同的数据集，将姿势转换为通用布局，固定关节的数量等于具有更多关节的数据集。

5.根据权利要求1～3之一所述的一种多任务的人体姿态估计和行为识别方法，其特征在于，当只进行姿势估计时，使用8个预测块；对于动作识别，则使用4个预测块；对于所有实验，使用大小为256×256的裁切RGB图像，并通过旋转图像、垂直水平平移图像、缩小放大图像、将视频进行2次采样以及随机水平化来扩充数据。