CN112347861B

CN112347861B - 一种基于运动特征约束的人体姿态估计方法

Info

Publication number: CN112347861B
Application number: CN202011111463.7A
Authority: CN
Inventors: 陈豪明; 杨柏林; 刘振广; 王津航; 田端正; 封润洋; 王勋
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2023-12-05
Anticipated expiration: 2040-10-16
Also published as: CN112347861A

Abstract

本发明涉及一种基于运动特征约束的人体姿态估计方法。本发明先将视频分为多个人体时空窗口，提取窗口下每一帧的图像特征，然后根据窗口包含的多个图像特征抽取该窗口的人体运动特征，接着，通过运动特征约束单帧图片的人体姿态估计。本发明采用了全卷积神经网络的架构，并且使用动态卷积使单帧姿态估计能够根据视频中所包含的情境信息适应性的调整，这样可以更好地应对人体姿态估计任务中常见的运动模糊、肢体遮挡等问题，能够更好地对视频进行姿态估计，提高视频场景下的人体姿态估计准确率。

Description

一种基于运动特征约束的人体姿态估计方法

技术领域

本发明属于人体姿态估计领域，具体涉及一种基于运动特征约束的人体姿态估计方法。

背景技术

人体姿态估计是计算机视觉中的一项有趣的研究领域，它在安防监控、自动驾驶、人机交互、视频理解等领域有着重要的应用价值。人体姿态估计的目标是对图片或视频图像中的人体进行姿态估计，通过定位人体各个关键部位，然后将这些关键点连接起来从而实现人体姿态的预测。

当前的人体姿态估计方法通常分为两类：自顶向下和自底向上。自顶向下从全局出发，首先利用目标检测技术定位每个人在图片或视频图像中的位置，然后在每个人的位置进行单人姿态估计，进而对所有人进行姿态估计。虽然这类方法的运行时间会随着人的数量增加而增加，但是得益于姿态估计器能够专注于每个人的局部空间，因而能得到比较高的准确率。自底向上的方法着眼于人体部件，首先提取图片中所有人的关键部位的位置信息以及部件之间的亲和度，然后依照人体姿态的拓扑结构将关键点进行分组和聚类，最终实现到所有人的姿态估计，自底向上运行时间不受人数的影响能够较快的运行，但准确率不高。

目前的人体姿态估计方法大多针对图片，然而在真实应用场景下视频才是主要载体，现有的方法将视频分解为单帧图片，然后逐帧进行人体姿态估计，这种做法往往忽视了单帧图像与静态图片之间的区别，例如，单帧中经常存在运动模糊和镜头抖动等情况，也没有充分考虑到视频帧之间存在丰富的关联信息，导致人体姿态估计在视频下的准确率不尽如人意。因此，提出一种有效的针对视频人体姿态估计的方法迫在眉睫。

发明内容

为了解决视频的人体姿态估计，本发明提供了一种基于运动特征约束的人体姿态估计方法。

本发明先将视频分为多个人体时空窗口，提取窗口下每一帧的图像特征，然后根据窗口包含的多个图像特征抽取该窗口的人体运动特征，接着，通过运动特征约束单帧图片的人体姿态估计。这样可以更好地应对人体姿态估计任务中常见的运动模糊、肢体遮挡等问题，提高视频场景下的人体姿态估计准确率。

本发明解决其技术问题所采用的技术方案步骤如下：

(1)使用带有多人姿态标注的视频数据集，并在视频上建立人体时空窗口；

(2)对训练集中的关键点坐标做预处理，生成对应的人体关键点高斯热图；

(3)构建Temporal Adaptive模型；

(4)使用训练集对Temporal Adaptive模型进行训练，得到最优的网络模型参数；

(5)模型训练收敛后，将待估计的视频图像输入至模型中，同时输出人体关键点高斯热图并对热图做后处理，得到人体关键点的坐标，实现多人姿态估计。

进一步地，所述步骤(1)所述中关于建立人体时空窗口的具体实现方式为：首先，对于视频中的每一帧图像，通过Cascaded R-CNN检测算法检测出图像内所有人的ROI(感兴趣区域，即人体位置区域)，然后固定位置区域的中心点并向四周扩大，用放大后的边界框分别在视频单帧和其邻近帧内进行裁剪，用裁剪出的区域表示一个人在该时间区间内的大致位置区域，将其称为人体时空窗口，确保每个人在每一帧都有唯一对应的人体时空窗口，人体时空窗口的公式形式为：

其中为t时刻视频帧的人p的位置区域。

进一步地，所述步骤(2)对训练集中的关键点坐标做预处理，生成对应的人体关键点高斯热图的具体实现方式为：视频数据集的人体关键点坐标是以原图作为参考坐标系，需要转换为以ROI为坐标系下的坐标。因此需要先根据局部区域的左上角、右下角和中心点与原图的左上角、右下角和中心点作为先后变换点算出仿射矩阵，然后用仿射矩阵对原始关键点坐标进行坐标变换，变换公式是：

其中x_G和y_G是关键点在原图全局区域下的坐标，x_L和x_L是关键点在ROI所在局部区域下的坐标，H是仿射矩阵。

视频数据集中的关键点坐标是由坐标数值表示，转换为高斯热图缩小了输入空间和输出空间的差距。关键点高斯热图能够反应关键点在像素位置上出现的概率，其生成公式是：

G(x,y)＝exp(-[(x,y)-(x_L,y_L)]²/σ²)

其中(x,y)为高斯热图的坐标，(x_L,y_L)为关键点在ROI的坐标。σ是高斯分布的标准差。

进一步，步骤(3)所述构建Temporal Adaptive模型的具体实现为：TemporalAdaptive模型包含由四个子网络模块，分别为图片特征提取模块、运动特征抽取模块、姿态修正模块、姿态分类模块。

Temporal Adaptive模型以人体时空窗口为输入，经过图片特征提取模块获取窗口下三张视频图像的特征图；运动特征抽取模块根据特征图提炼出对应的运动情境特征图；姿态修正模块根据运动特征图动态的生成卷积核参数，并与窗口中心帧即目标帧图像的特征图做卷积操作得到调整后的特征图；姿态分类模块以调整后的特征图作为输入，最终得到人体关键点的预测热图。

进一步地，所述图片特征提取模块使用现有针对图片人体姿态估计的Deep High-Resolution网络模型。

进一步地，所述运动特征抽取模块由三个卷积块A1～A3级联构成，其中A1～A2卷积块均由卷积核大小为3*3的卷积层、批归一化层、Relu激活层连接而成，A3由卷积核大小为3*3的卷积层和Relu激活层串联而成。

进一步地，所述姿态修正模块由参数生成器网络和动态卷积网络构成。其中参数生成器网络由四个卷积块B1～B4按顺序连接而成，B1～B4卷积块都包含卷积核大小为3*3的卷积层。除此之外，B1～B3卷积块的卷积层后面额外连接卷积核大小为3*3的最大值池化层。动态卷积网络以卷积核参数和图像特征图作为输入，用动态的卷积核参数来替换原本静态的卷积核参数在图像特征图上做卷积。

进一步地，所述姿态分类模块则由一个卷积块C1组成，C1卷积块包含卷积核大小为3x3的卷积层，该卷积层的输入通道数为图像特征图通道数，输出通道数为人体姿态关键点个数。

进一步，步骤(4)使用训练集对Temporal Adaptive模型进行训练，得到最优的网络模型参数的具体实现主要分为两部分：

第一部分：训练图片特征提取模块和姿态分类模块的表达能力。输入单张图片，图片经过图片特征提取模块获得图片的特征图，然后将特征图送入姿态分类模块，得到人体每个关键点的热图；然后计算一次训练过程的损失函数L，进而依据上述流程遍历数据集中的所有图片，直至损失函数L收敛。损失函数L使用均方误差，其表达式如下

其中P_j表示预测生成的关键点高斯热图，G_j表示关键点真实坐标生成的高斯热图，v_j是指示函数用于表示关键点是否可见(可见为1，不可见为0)，N表示关键点的个数。

第二部分：训练完整的Temporal Adaptive模型。输入人体时空窗口，窗口下包含多帧的视频图像，每帧视频图像独立的经过图片提取抽取模块得到各自的特征图，将所有特征图进行融合，然后进入到运动特征抽取模块得到时空窗口的运动特征图，姿态修正模块根据运动特征图动态的生成卷积核参数并对窗口中心帧的特征图做卷积操作来输出精修后的图像特征图，将该特征图送入姿态分类模块获得人体各个关键点的高斯热图。然后参照第一部分的损失函数L对网络进行训练。除此之外，在该部分的训练过程中冻结图片特征提取模块的参数，只更新其余模块的参数。

进一步地，所述步骤(5)的具体实现过程为：在关键点高斯热图上寻找概率值最大的像素位置，即关键点的坐标，然后将坐标映射回原始图像中，并按人体姿态拓扑结构将存在相连关系的关键点连接起来，产生了人体的骨架，从而完成了人体姿态估计。其中最大概率值像素位置获取的数学公式是：

(x_j,y_j)＝argmax(P_j)。

本发明的有益效果：针对现有方法在处理视频数据时忽视视频时序信息的问题进行改进，采用了全卷积神经网络的架构，并且使用动态卷积使单帧姿态估计能够根据视频中所包含的情境信息适应性的调整，有效地增强了模型的推理能力，能够更好地对视频进行姿态估计，为视频理解、人机交互等需要抽取人体姿态进行数据分析的行业提供基础技术支持。

附图说明

图1是本发明用于描述人体姿态的关键点示意图；

图2是本发明人体姿态估计的总体结构示意图；

图3是本发明运动特征抽取网络的结构示意图；

图4是本发明参数生成器的结构示意图；

图5是本发明训练图像特征模块和姿态分类模型的流程示意图；

图6是本发明人体姿态估计方法的流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

(1)使用带有多人姿态标注的视频数据集，并在视频上建立人体时空窗口。

本实施方法选择PoseTrack作为数据集，该数据集是用于多人姿态估计和多人姿态跟踪的大型视频数据集，共包含超过1356段视频序列，共有超过276K个人体姿态标注。该数据集的人体关键点以及关键点序号如图1所示，包含了右脚踝、右膝盖、右髋部、左髋部、左膝盖、左脚踝、右肩膀、右手肘、右手腕、左肩膀、左手肘、左手腕、胸椎、头、鼻子共15个人体关键点。

本发明属于自上而下的方法，并且针对视频的时序特点提出了建立人体时空窗口的数据预处理流程：首先用Cascaded R-CNN检测算法检测出视频图像中每个人的位置区域，之后固定该区域的中心点并使向四周扩大25％的长度，得到扩张后的人体位置区域，用该区域在单帧和其邻近帧(具体实施时，取单帧的前后两帧)中进行裁剪，裁剪出的结果作为一个人体时空窗口，按本流程确保视频下的每个人在每一帧都有唯一对应的时空窗口。

(2)对训练集中的关键点坐标做预处理，生成对应的人体关键点高斯热图。

PoseTrack数据集中人体姿态关键点的位置标注信息是在全局坐标系下的，需要将其转换为在图像局部人体位置区域坐标系下的坐标。本发明的具体实施方式取全局坐标下的左上角、右下角以及中心点为变换前的点，再取局部区域的左上角、右下角以及中心点为变换后的点，由这六个点构成三组前后变换的点，获得仿射变换矩阵H。每个人都有其对应的仿射变换矩阵，然后将全局坐标系下的15个关键点坐标与仿射变换矩阵相乘，得到局部坐标系下的15个关键点坐标：

每个关键点对应一张高斯热图，高斯热图由二维正态分布在空白图片上生成，其中以关键点像素坐标为中心，概率值由中心向正态分布边缘逐渐递减直至为0，其余空白部分的概率值也为0.关键点高斯热图生成公式是：

G(x,y)＝exp(-[(x,y)-(x_L,y_L)]²/σ²)

其中(x,y)为高斯热图的坐标，(x_L,y_L)为关键点的坐标，σ是高斯分布的标准差。

(3)构建Temporal Adaptive模型。

本实施方法中Temporal Adaptive的总体架构图如图2所示，主要由图像特征抽取模块、运动特征抽取模块、姿态修正模块、姿态分类模块组成。图片抽取模块是由多个卷积层、池化层、批归一化层组成的HRNET构成，经过训练后能够提取出图像初级的特征图；运动特征抽取模块，用来抽取每个人体时空窗口下的的运动特征图；姿态修正模块则是根据运动特征图来对图像初级的特征图进行调整；姿态分类模块，将图像的特征图分类为姿态热图。

图像特征抽取模块用于抽取图像的特征，采用现有的Deep High-Resolution Net作为主干网络。

运动特征抽取模块，多张图片的特征融合是将窗口下邻近帧的图像特征图减去中心帧的图像特征图，得到两个图像差异特征图ΔF，再将差异特征图按通道堆叠起来得到综合的特征融合图ΔF_sum，最后把特征融合图送入情境抽取网络得到运动特征图M。情境抽取网络的结构如图3所示，由3个块组成，前两个块(Block1,Block2)结构相同，都由1个卷积核尺寸为3*3的卷积层、批归一化层、Relu激活层组成；最后一个Block3块由卷积核为3*3的卷积层和Relu激活层组成。

姿态修正模块，使用参数生成器将运动特征图M转换为动态卷积核参数φ。参数生成器网络结构如图4所示，由4个卷积核尺寸为3*3的卷积层以及3个Relu激活层交错连接而成。动态卷积是在运作卷积操作时，将原本静态的卷积核参数替换为动态生成的卷积核参数φ。

姿态分类模块，用于将特征图转换为姿态关键点高斯热图，其结构由1个卷积核尺寸为3*3的卷积层构成。

(4)使用训练集对Temporal Adaptive模型进行训练，得到最优的网络模型参数。

Temporal Adaptive模型的训练分为两部分，两部分的损失函数都是用均方误差：

其中P_j表示预测生成的关键点高斯热图，G_j表示关键点真实坐标生成的高斯热图，v_j是指示函数用于表示关键点是否可见(可见为1，不可见为0)，N表示关键点的个数.

第一部分的训练：该部分的训练流程如图5所示，单独拿出图像特征抽取模块和姿态分类模块，将这两个模块进行联合训练。训练起始，输入处理好的单帧视频图像，图像特征抽取模块输出图像对应的特征图，然后将特征图送入姿态分类模块，得到预测出的人体关键点高斯热图。将预测的高斯热图与真实标注的高斯热图作比较产生损失值，来更新两个模型的参数。

第二部分的训练：该部分的训练流程如图6所示，训练时会固定图像特征抽取模块的参数，只更新其余模块的网络参数。训练起始，输入为已经建立好的人体时空窗口，首先，将窗口下的三帧图片分别经过图像特征抽取模块，得到各自对应的特征图。其次，将当前帧的特征图分别与邻近帧的特征图做差，得到运动差异特征图，再将两个运动差异特征图按通道堆叠送入运动特征抽取网络，获得运动特征图M。之后，将运动特征图M输入到参数生成器中，生成了动态卷积的参数。然后，用动态生成的卷积核参数对当前帧的特征图做卷积，产生了精修后的特征图。最后通过姿态分类模块，将精修后的特征图分类为关键点高斯热图。将预测的高斯热图与真实标注的高斯热图作比较产生损失值，更新模型参数，以此来训练出最佳的人体姿态估计模型。

待估计的视频输入模型并预测出关键点高斯热图的过程与上述的第二部分训练过程相同，即图6的所示。在关键点高斯热图上求得概率值最大的坐标，再求从局部区域转换到全局图片的仿射矩阵，用仿射矩阵将坐标映射到原图坐标系中，从而得到人体姿态关键点在图片中的位置。再根据图1的人体姿态拓扑图得到最终的人体姿态估计结果。

本发明实施方案已公开如上，该描述是为便于本技术领域的普通技术人员能够理解和应用本发明。对于熟悉本领域的人员而言，可以容易地实现另外的修改，因此本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于运动特征约束的人体姿态估计方法，其特征在于该方法包括以下步骤：

步骤（1）、使用带有多人姿态标注的视频数据集，并在视频上建立人体时空窗口；

步骤（2）、对训练集中的关键点坐标做预处理，生成对应的人体关键点高斯热图；

步骤（3）、构建Temporal Adaptive模型，所述的Temporal Adaptive模型包含由四个子网络模块，分别为图片特征提取模块、运动特征抽取模块、姿态修正模块、姿态分类模块；

Temporal Adaptive模型以人体时空窗口为输入，经过图片特征提取模块获取窗口下三张视频图像的特征图；运动特征抽取模块根据特征图提炼出对应的运动情境特征图；姿态修正模块根据运动情境特征图动态的生成卷积核参数，并与窗口中心帧即目标帧图像的特征图做卷积操作得到调整后的特征图；姿态分类模块以调整后的特征图作为输入，最终得到人体关键点的预测热图；

步骤（4）、使用训练集对Temporal Adaptive模型进行训练，得到最优的网络模型参数；

步骤（5）、模型训练收敛后，将待估计的视频图像输入至模型中，同时输出人体关键点高斯热图并对热图做后处理，得到人体关键点的坐标，实现多人姿态估计。

2.根据权利要求1所述的一种基于运动特征约束的人体姿态估计方法，其特征在于：

步骤（1）中建立人体时空窗口的具体是：

首先，对于视频中的每一帧图像，通过Cascaded R-CNN检测算法检测出图像内所有人的人体位置区域；

然后固定位置区域的中心点并向四周扩大，用放大后的边界框分别在视频单帧和其邻近帧内进行裁剪；

用裁剪出的区域表示一个人在该时间区间内的大致位置区域，将其称为人体时空窗口；确保每个人在每一帧都有唯一对应的人体时空窗口。

3.根据权利要求1所述的一种基于运动特征约束的人体姿态估计方法，其特征在于：

步骤（2）中的预处理具体是：

将视频数据集的人体关键点坐标将转换为以人体位置区域为坐标系下的坐标：先根据局部区域的左上角、右下角和中心点与原图的左上角、右下角和中心点作为先后变换点计算出仿射矩阵；然后用仿射矩阵对原始关键点坐标进行坐标变换；

步骤（2）中的生成对应的人体关键点高斯热图具体是：

视频数据集中的关键点位置是由坐标数值表示，转换为高斯热图缩小了输入空间和输出空间的差距；关键点高斯热图用于反应关键点在像素位置上出现的概率。

4.根据权利要求1所述的一种基于运动特征约束的人体姿态估计方法，其特征在于：

所述图片特征提取模块使用针对图片人体姿态估计的Deep High-Resolution网络模型；

所述运动特征抽取模块由三个卷积块A1~A3级联构成，其中A1~A2卷积块均由卷积核大小为3*3的卷积层、批归一化层、Relu激活层连接而成，A3由卷积核大小为3*3的卷积层和Relu激活层串联而成；

所述姿态修正模块由参数生成器网络和动态卷积网络构成；其中参数生成器网络由四个卷积块B1~B4按顺序连接而成，B1~B4卷积块都包含卷积核大小为3*3的卷积层；除此之外，B1~B3卷积块的卷积层后面额外连接卷积核大小为3*3的最大值池化层；动态卷积网络以卷积核参数和目标帧图像的特征图作为输入，用动态的卷积核参数来替换原本静态的卷积核参数；

所述姿态分类模块则由一个卷积块C1组成，C1卷积块包含卷积核大小为3x3的卷积层，该卷积层的输入通道数为图像特征图通道数，输出通道数为人体姿态关键点个数。

5.根据权利要求1所述的一种基于运动特征约束的人体姿态估计方法，其特征在于：

步骤（4）具体分为两部分：

第一部分：训练图片特征提取模块和姿态分类模块的表达能力；

输入单张图片，图片经过图片特征提取模块获得图片的特征图，其次将特征图送入姿态分类模块，得到人体每个关键点的热图；然后计算一次训练过程的损失函数L，进而依据上述流程遍历数据集中的所有图片，直至损失函数L收敛；

第二部分：训练完整的Temporal Adaptive 模型；

输入人体时空窗口，窗口下包含多帧的视频图像，每帧视频图像独立的经过图片特征提取模块得到各自的特征图，将所有特征图进行融合，然后进入到运动特征抽取模块得到时空窗口的运动特征图，姿态修正模块根据运动特征图动态的生成卷积核参数并对窗口中心帧的特征图做卷积操作来输出精修后的图像特征图，将该特征图送入姿态分类模块获得人体各个关键点的高斯热图；然后参照第一部分的损失函数L对网络进行训练；除此之外，在该部分的训练过程中冻结图片特征提取模块的参数，只更新其余模块的参数。

6.根据权利要求1所述的一种基于运动特征约束的人体姿态估计方法，其特征在于：

步骤（5）具体是：在关键点高斯热图上寻找概率值最大的像素位置，即关键点的坐标，然后将坐标映射回原始图像中，并按人体姿态拓扑结构将存在相连关系的关键点连接起来，产生了人体的骨架，从而完成了人体姿态估计。