CN111695457B

CN111695457B - 一种基于弱监督机制的人体姿态估计方法

Info

Publication number: CN111695457B
Application number: CN202010468015.6A
Authority: CN
Inventors: 刘振广; 封润洋; 王勋; 钱鹏
Original assignee: Zhejiang Gongshang University
Current assignee: Shandong Rendui Network Co.,Ltd.
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2023-05-09
Anticipated expiration: 2040-05-28
Also published as: CN111695457A

Abstract

本发明公开了一种基于弱监督机制的人体姿态估计方法，通过弱监督的训练方式，利用较少的带标签数据来训练模型，解决了视频数据集标注困难、成本高等问题，同时充分利用了视频的时序信息即视频帧之间的隐式相关性，从而更好的处理了人体姿态估计任务中固有的遮挡、运动模糊等问题，使得模型的泛化性更强，实现更高的检测准确率。同时，本发明方法采用轻量级的网络架构，使得姿态估计实时利用更加可行，解决了传统姿态估计占用大量资源的问题，对短视频平台、安防等领域具有重要应用价值。

Description

一种基于弱监督机制的人体姿态估计方法

技术领域

本发明属于人体姿态估计技术领域，具体涉及一种基于弱监督机制的人体姿态估计方法。

背景技术

人体姿态估计是计算机视觉中一个常见的应用，它的目标在于检测图片或视频中人体的某些关键部位(例如“头部”、“胳膊”)，从而对人体进行姿态估计；人体姿态的骨架可以用图形的格式来表示，它是一组二维平面上的点，这些点连接起来即可表示人的动作姿势。人体姿态估计具有重大意义，一些领域的成功实践表明了人体姿态估计可以让机器更容易理解人的意图，从而能在很多应用中起到促进作用。例如：自动驾驶领域，通过对行人的运动趋势判断可以提前避免车祸的发生；安防领域，通过学习特定的人体姿态序列可以检测异常行为；人机交互领域，通过估计舞台上人体的姿态动作可以达到实时交互，能保证拍摄视频过程中准确率和清晰度。

人体姿态估计主要有两种主流方法：(1)自上而下，首先通过检测出图片或视频中所有的人，把每个人都从原始图片或视频帧中分割出来；然后通过姿态估计器分析每个人的姿态信息；接着用变换矩阵把分割出来的每个人的姿态信息映射回原始图片或视频帧中，从而能够对图片或视频中的所有人进行姿态估计；自上而下的方法一般来说准确率比较高，但是检测时间与图片中人数成正比，该方法需要用到对象检测技术先提取图片或视频中所有人的坐标位置信息，因此人的坐标位置的检测质量对最终姿态估计效果影响很大。(2)自下而上，首先提取图片或视频中所有人的关节坐标位置信息，然后把属于同一个人的关节进行分组和聚类，从而最终对图片或视频中所有的人进行姿态估计；自下而上方法一般情况下效率比较高，图片中人数对检测时间影响较小。

目前主流的人体姿态估计方法都是针对于图片的，然而在实际应用中却更多专注于视频，例如安防、自动驾驶、人机交互等；自上而下的方法和自下而上的方法在处理视频中的姿态估计时都是先把视频分解为单帧，然后对单帧进行人体姿态估计，这些方法存在一些局限性，例如：(1)没有考虑视频的时序信息，即视频中帧与帧之间存在某些隐性相关性(例如人物的位置信息等)，因此如果直接将视频分解为单帧会忽略这些信息；(2)这些方法都采用了比较深的网络架构，在实际预测和推理时的计算量比较大，也会占用大量的计算资源，对硬件的要求比较高。

此外，现有的主流方法采用的是监督学习，监督学习技术通过学习大量训练样本来构建预测模型，其中每个训练样本都有一个标签对应其真值输出；尽管当前的技术已经取得了巨大的成功，但是值得注意的是，由于数据标注过程的高成本，很难对所有的数据都进行标注。

发明内容

鉴于上述，本发明提出了一种基于弱监督机制的人体姿态估计方法，通过弱监督的训练方式，利用较少的带标签数据来训练模型，解决了视频数据集标注困难、成本高等问题，同时充分利用了视频的时序信息即视频帧之间的隐式相关性，从而更好的处理了人体姿态估计任务中固有的遮挡、运动模糊等问题，使得模型的泛化性更强，实现更高的检测准确率。

一种基于弱监督机制的人体姿态估计方法，包括如下步骤：

(1)收集包含多人在内的视频数据集并对其进行预处理；

(2)对于视频数据集中一段完整的视频，以连续的n帧图像为一组样本，人工标记样本中第1帧和第n帧图像中每个人的关键部位坐标作为标签，n为大于2的自然数；

(3)构建卷积长短期记忆网络，利用样本对其进行训练，得到人体姿态估计模型；

(4)将待估计的视频图像输入至人体姿态估计模型中，即可输出得到每帧图像中人物的姿态估计结果即人体各关键部位坐标。

进一步地，所述步骤(1)中对于视频数据集中的每一帧视频图像，通过YOLOv3算法检测图像中每个人物的ROI(感兴趣区域，即被包围的最小矩形框)位置坐标，然后利用姿态跟踪算法对视频中所有人物进行跟踪，确保整个视频中每个人都有唯一的编号，且该编号在整个视频中维持不变。

进一步地，所述卷积长短期记忆网络由n个LSTM(LongShort-TermMemory)级联组成，所述LSTM中的所有相乘操作均转为卷积操作；第i个LSTM的输入为A1～A4叠加后的结果，A1为样本第i帧图像中对应同一人物的ROI经图像特征抽取模块得到的特征图，A2为样本第i帧图像中对应同一人物的ROI经单人姿态估计模块得到的高斯热图，A3为逐帧传播计算过程中前一LSTM输出结果经热图生成模块得到的高斯热图，A4为用于区分前景和背景的置信图，i为自然数且1≤i≤n。

进一步地，所述单人姿态估计模块采用Stacked-Hourglass堆叠沙漏网结构。

进一步地，所述图像特征抽取模块由四个卷积块B1～B4级联组成，其中卷积块B1～B3均由卷积核大小为9×9的卷积层、Relu激活层、卷积核大小为3×3的最大池化层依次连接组成，卷积块B4由卷积核大小为5×5的卷积层以及Relu激活层连接组成。

进一步地，所述热图生成模块由卷积层C1、Relu激活层R1、卷积层C2、Relu激活层R2、卷积层C3、Relu激活层R3、卷积层C4、Relu激活层R4、卷积层C5依次连接组成，其中卷积层C1～C3的卷积核大小为11×11，卷积层C4～C5的卷积核大小为1×1。

进一步地，所述步骤(3)中利用样本对卷积长短期记忆网络进行训练的具体过程为：首先取一组样本的所有图像中对应某一人物的ROI输入卷积长短期记忆网络，一次训练过程分成两部分：

第一部分：从第1个LSTM向后逐帧传播计算，即第1个LSTM输出结果x₁对应的高斯热图传递作为第2个LSTM输入中的A3，以此类推直至得到第k个LSTM的输出结果，再从第k个LSTM反向逐帧传播计算，即第k个LSTM输出结果对应的高斯热图传递作为第k-1个LSTM输入中的A3，以此类推直至得到第1个LSTM的输出结果x₁'，第1个LSTM在首次计算中输入所采用的A3为样本第1帧图像中对应同一人物的ROI经初始化LSTM模块得到的高斯热图，k为自然数且1＜k＜n；

第二部分：从第n个LSTM向前逐帧传播计算，即第n个LSTM输出结果x_n对应的高斯热图传递作为第n-1个LSTM输入中的A3，以此类推直至得到第k个LSTM的输出结果，再从第k个LSTM反向逐帧传播计算，即第k个LSTM输出结果对应的高斯热图传递作为第k+1个LSTM输入中的A3，以此类推直至得到第n个LSTM的输出结果x_n'，第n个LSTM在首次计算中输入所采用的A3为样本第n帧图像中对应同一人物的ROI经初始化LSTM模块得到的高斯热图；

然后计算一次训练过程结束后网络的损失函数L，进而依据上述取一组样本的所有图像中对应另一人物的ROI输入卷积长短期记忆网络进行下一次训练过程，直至损失函数L收敛。

进一步地，所述损失函数L的表达式如下：

其中：H_{gt_j}为样本第1帧和第n帧图像中对应同一人物第j个关键部位坐标经转换生成的两张高斯热图叠加后的结果，H_{pted_j}为x₁'对应的第j层高斯热图与x_n'对应的第j层高斯热图叠加后的结果，|| ||₂表示L2范数，N为人体标注的关键部位数量。

进一步地，所述初始化LSTM模块由一个LSTM和热图生成模块连接组成，LSTM的输入为A1、A4和A5叠加后的结果，A5为样本第1帧或第n帧图像中对应同一人物的ROI中所有关键部位坐标经转换生成的高斯热图，LSTM的输出经热图生成模块得到对应的高斯热图。

进一步地，所述步骤(4)的具体实现过程为：将待估计连续的n帧视频图像中同一人物的ROI输入人体姿态估计模型，先从第1个LSTM向后逐帧传播计算至第n个LSTM，得到各LSTM输出结果对应的高斯热图，再从第n个LSTM反向逐帧传播计算至第1个LSTM，得到各LSTM输出结果对应的高斯热图，将两组高斯热图加权平均后的结果即作为n帧视频图像对应预测得到的高斯热图，通过对高斯热图进行转换计算得到n帧视频图像中同一人物的关键部位坐标信息，进而将坐标信息映射到原始图像中并按顺序将这些关键部位进行链接即可产生人体骨架的预测结果，从而实现人体姿态估计。

本发明基于弱监督机制的人体姿态估计方法，主要使用卷积长短期记忆网络作为预测模型；长短期记忆网络是一种循环神经网络，具有一定的记忆性，由输入门、遗忘门和输出门组成，其主要被用来处理需要用到时序信息的任务，例如语音识别、机器翻译；然而，若是直接用它来处理图片是不合理的，因为在图片处理的任务中，图片的空间信息很重要，所以我们对原始长短期记忆网络的计算进行改进，加入了卷积操作，使得其在处理图片序列时不仅能够得到相邻帧之间的隐式相关性，同时由于卷积操作的特性，也能计算出图片的空间特征；因此，卷积长短期记忆网络的设计对于视频中的人体姿态估计更加合理。

本发明充分利用了视频的时序信息，增强了模型的推理能力，能够更好的对人体的关键部位进行估计，对安防、短视频平台等需要实时抽取姿态进行分析的行业，具有重要意义，其有益技术效果主要体现在以下方面：

1.本发明通过准确的姿态估计算法，更好的推测出被遮挡和运动模糊的关键点，检测的准确性更高。

2.本发明是针对视频设计的，更加符合各种应用场景，设计架构决定网络更加的轻量级，使得姿态估计在实时应用中变成了可能。

附图说明

图1为本发明卷积长短期记忆网络的传播计算流程示意图。

图2为本发明卷积长短期记忆网络LSTM_CycleNet的结构示意图。

图3为初始化LSTM模块的计算流程示意图。

图4为用于区分前景和背景的置信图。

图5为LSTM的计算流程示意图。

图6为抽取图像特征模块的结构示意图。

图7为heatmaps生成模块的结构示意图。

图8为本发明人体姿态估计方法的流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图8所示，本发明基于弱监督机制的人体姿态估计方法，包括如下步骤：

(1)收集并选择人体姿态估计视频数据集，对数据集进行预处理。

本实施方式中训练数据采用PoseTrack数据集，该数据集用于人体姿态跟踪任务，其中很多视频都存在人物遮挡和运动模糊的情况，这极大的增加了对这类视频进行人体姿态估计的难度。本实施方式是一种自上而下方法，因此需要对数据集做预处理：首先通过YOLOV3检测算法检测每个人的位置坐标，然后利用姿态跟踪算法对视频中所有人物进行跟踪，确保一个视频中每个人都有唯一的编号，并且这个编号在整个视频中是维持不变的。

(2)构建LSTM_CycleNet模型作为人体姿态估计模型。

LSTM_CycleNet主要由以下几部分组成：抽取图片特征模块、高斯热图生成模块、卷积长短期记忆网络模块。抽取图片特征模块由一组卷积与池化层组成，经过模型训练可以提取出质量较高的特征图用以后续计算；卷积长短期记忆网络模块用来传播、计算中间状态；高斯热图生成模块则是用来计算最终的高斯热图。本实施方式中LSTM_CycleNet的结构如图2所示，其中LSTM_init为初始(Stage1)的LSTM网络，LSTM为其他阶段的网络，图2以第IMG3为例进行传播计算两端的loss值，对于IMG2、IMG4按同样的计算流程计算；LSTM_Init、LSTM均为卷积长短期记忆网络，即把原始LSTM中的所有相乘操作转为卷积操作。

(3)将步骤(1)中预处理后的数据输入模型，以CycleLoss作为损失函数更新参数、训练模型。

如图1所示，LSTM_CycleNet采用分阶段训练的方法，一共训练3个阶段：第1阶段的卷积长短期记忆网络为后续计算提供数据，第2～3阶段网络结构相同，共享权值和参数。

LSTM_CycleNet首先通过定义T表示需要标签信息的时间间隔，把视频按时间隔T分割成数个子图片序列，每个子图片序列长度为T，并且每个子图片序列中只有起始帧、结尾帧有人体关键点位置标签信息，然后把每个分割后的子图片序列作为LSTM_CycleNet的输入。

第1阶段的卷积长短期记忆网络输入：①图片序列的第一帧图片经过卷积神经网络结构得到的特征图；②第一帧图片的人体关键点真实坐标经过矩阵变换后，采用坐标转换高斯热图算法得到的高斯热图；③一个用于区分前景和背景的置信图，输出细胞状态和隐藏状态。

如图3所示，本实施方式中经过预处理的第一帧图像经过抽取图像特征模块G得到特征向量，此时特征向量维度为[1,32,45,45]；Label_Heatmap为第一帧图像的关键点的标签信息通过高斯热图生成算法生成的高斯热图，维度为[1,15,45,45]；Centermap由计算机程序化生成，维度为[1,1,45,45]，如图4所示；上述三个张量堆叠在一起形成一个新的张量，维度为[1,48,45,45]输入LSTM_Init，得到中间状态值cell和hidden向量输入heatmaps生成模块H得到预测的heatmap，维度为[1,15,45,45]。

第2～3阶段的卷积长短期记忆网络输入：①当前帧经过卷积神经网络得到的特征图；②前一帧通过卷积长短期记忆网络输出的细胞状态和隐藏状态，经过高斯热图生成模块得到的高斯热图；③用现有的姿态估计方法检测得到的当前帧的高斯热图；④用于区分前景和背景的置信图，输出当前帧的细胞状态和隐藏状态，并且由高斯热图生成模块输出当前帧的高斯热图。在整个训练阶段，用于得到图片特征图的卷积神经网络结构保持不变，并且共享参数和权值。

如图5所示，本实施方式中LSTM计算流程与LSTM_Init类似，有着相同的抽取图像特征模块G、heatmaps生成模块H，不同之处在于由四个输入组成，分别是：第一帧图像经过抽取图像特征模块G得到的特征向量；第一帧图像在Stage1(LSTM_Init)输出的heatmap，即图中的LSTM_init_heatmap；第一帧图像经过现有的单人姿态估计算法模块P得到的heatmap，此处P采用的是Stacked-Hourglass堆叠沙漏网结构；程序化生成的centermap，与前述相同。

上述四种信息堆叠在一起，维度为[1,63,45,45]输入LSTM，输出中间状态值cell和hidden向量，输入heatmaps生成模块H得到预测的heatmap，维度为[1,15,45,45]。

如图6所示，本实施方式中抽取图像特征模块G由四个小块组成，前三个块(block1，block2，block3)结构相同，由一个卷积核尺寸为9*9的卷积层、Relu激活层、卷积核尺寸为3*3的最大池化层组成；最后一个块(block4)由卷积核尺寸为5*5的卷积层、Relu激活层组成，这四个块一起构成了抽取图像特征模块。

如图7所示，本实施方式中heatmaps生成模块H由三组卷积核尺寸为11*11的卷积层、Relu激活层，一组卷积核尺寸为1*1的卷积层、Relu激活层以及一个卷积核尺寸为1*1的卷积层组成。

LSTM_Cycle Net训练时主要采用了CycleLoss，在每个输入卷积长短期记忆网络的图片序列中，真正需要估计姿态的只是中间没有人物关键部位的位置标签信息的帧，因此不能通过这些中间帧计算损失值；以第2帧为例描述损失函数计算流程：

(a)根据起始帧和结束帧的真实的人体关节坐标生成高斯热图，分别作为起始帧和结尾帧的标签。

(b)从起始帧向后逐帧传播计算，得到第二帧的高斯热图，再从第二帧向前逐帧传播计算得到起始帧的高斯热图，与步骤(a)中得到的起始帧的标签信息计算均方误差得到起始帧的损失值，损失函数表达式如下：

其中：N表示关键点数量，不同标准下有不同的数量，这里采用PoseTrack标准，15个关键点；H_{gt_j}表示标签的第j个关键点坐标生成的heatmap，H_{pred_j}表示预测的第j个关键点坐标生成的heatmap。

(c)从结尾帧向前逐帧传播计算，直至计算出第二帧的高斯热图，再从第二帧向后逐帧传播计算得到结尾帧的高斯热图，与步骤(a)中得到的结尾帧的标签信息计算均方误差得到结尾帧的损失值。

(d)除起始帧、结尾帧之外的其它中间帧依次执行步骤(b)、步骤(c)，通过起始帧和结尾帧的Cycleloss监督整个网络的学习，而网络在学习中反复的进行正向和反向传播，使得其具备了双向预测性。

(4)模型训练完成后，输入测试集，输出人体姿态估计结果，具体实现过程如下：

4.1测试集输入训练好的模型，具体与上述训练过程中的第1～3阶段相同。

4.2预测时先从起始帧向后正向传播计算到最后一帧，计算每帧的高斯热图，再由结尾帧向前反向传播到起始帧，得到每帧的高斯热图；然后，我们将得到的两组高斯热图进行加权平均作为输入序列所预测的最终的热图。

4.3通过高斯热图坐标转换算法，我们从步骤4.2的最终高斯热图进行计算得到人体关键部位坐标信息，然后使这些坐标信息映射到原始图片中，从而得到这些关键部位的位置，最后按照顺序将这些关键部位进行链接既可以产生人体骨架的预测结果，从而达到人体姿态估计的目标。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于弱监督机制的人体姿态估计方法，包括如下步骤：

(1)收集包含多人在内的视频数据集并对其进行预处理；

(3)构建卷积长短期记忆网络，其由n个LSTM级联组成，所述LSTM中的所有相乘操作均转为卷积操作；第i个LSTM的输入为A1～A4叠加后的结果，A1为样本第i帧图像中对应同一人物的ROI经图像特征抽取模块得到的特征图，A2为样本第i帧图像中对应同一人物的ROI经单人姿态估计模块得到的高斯热图，A3为逐帧传播计算过程中前一LSTM输出结果经热图生成模块得到的高斯热图，A4为用于区分前景和背景的置信图，i为自然数且1≤i≤n；

所述单人姿态估计模块采用Stacked-Hourglass堆叠沙漏网结构；所述图像特征抽取模块由四个卷积块B1～B4级联组成，其中卷积块B1～B3均由卷积核大小为9×9的卷积层、Relu激活层、卷积核大小为3×3的最大池化层依次连接组成，卷积块B4由卷积核大小为5×5的卷积层以及Relu激活层连接组成；所述热图生成模块由卷积层C1、Relu激活层R1、卷积层C2、Relu激活层R2、卷积层C3、Relu激活层R3、卷积层C4、Relu激活层R4、卷积层C5依次连接组成，其中卷积层C1～C3的卷积核大小为11×11，卷积层C4～C5的卷积核大小为1×1；

利用样本对上述卷积长短期记忆网络进行训练，得到人体姿态估计模型，具体过程为：首先取一组样本的所有图像中对应某一人物的ROI输入卷积长短期记忆网络，一次训练过程分成两部分：

然后计算一次训练过程结束后网络的损失函数L，进而依据上述取一组样本的所有图像中对应另一人物的ROI输入卷积长短期记忆网络进行下一次训练过程，直至损失函数L收敛；

2.根据权利要求1所述的人体姿态估计方法，其特征在于：所述步骤(1)中对于视频数据集中的每一帧视频图像，通过YOLOv3算法检测图像中每个人物的ROI位置坐标，然后利用姿态跟踪算法对视频中所有人物进行跟踪，确保整个视频中每个人都有唯一的编号，且该编号在整个视频中维持不变。

3.根据权利要求1所述的人体姿态估计方法，其特征在于：所述损失函数L的表达式如下：

其中：H_{gt_j}为样本第1帧和第n帧图像中对应同一人物第j个关键部位坐标经转换生成的两张高斯热图叠加后的结果，H_{pred_j}为x₁'对应的第j层高斯热图与x_n'对应的第j层高斯热图叠加后的结果，‖‖₂表示L2范数，N为人体标注的关键部位数量。

4.根据权利要求1所述的人体姿态估计方法，其特征在于：所述初始化LSTM模块由一个LSTM和热图生成模块连接组成，LSTM的输入为A1、A4和A5叠加后的结果，A5为样本第1帧或第n帧图像中对应同一人物的ROI中所有关键部位坐标经转换生成的高斯热图，LSTM的输出经热图生成模块得到对应的高斯热图。

5.根据权利要求1所述的人体姿态估计方法，其特征在于：所述步骤(4)的具体实现过程为：将待估计连续的n帧视频图像中同一人物的ROI输入人体姿态估计模型，先从第1个LSTM向后逐帧传播计算至第n个LSTM，得到各LSTM输出结果对应的高斯热图，再从第n个LSTM反向逐帧传播计算至第1个LSTM，得到各LSTM输出结果对应的高斯热图，将两组高斯热图加权平均后的结果即作为n帧视频图像对应预测得到的高斯热图，通过对高斯热图进行转换计算得到n帧视频图像中同一人物的关键部位坐标信息，进而将坐标信息映射到原始图像中并按顺序将这些关键部位进行链接即可产生人体骨架的预测结果，从而实现人体姿态估计。