CN111738092A

CN111738092A - 一种基于深度学习的恢复被遮挡人体姿态序列方法

Info

Publication number: CN111738092A
Application number: CN202010465431.0A
Authority: CN
Inventors: 聂勇伟; 杨韫韬; 李桂清
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-10-02
Anticipated expiration: 2040-05-28
Also published as: CN111738092B

Abstract

本发明公开了一种基于深度学习的恢复被遮挡人体姿态序列方法，包括以下步骤：根据视频数据进行处理，获取人体步行数据集，对人体步行数据集进行数据预处理并划分，得到前序姿态序列、目标姿态序列、后序姿态序列；训练基于RNN的第一预测模型，该模型以前序姿态序列作为输入，被遮挡姿态序列作为输出；训练基于CNN的第二预测模型，该模型使用后序姿势作为输入，被遮挡姿态序列作为输出；将第一预测模型和第二预测模型的输出进行有权重相加，并添加MergeNet网络，构建训练总模型，通过训练总模型得到最终姿态序列；本发明通过解析前序姿态序列和后续姿态序列的信息，便可恢复出人体被障碍物遮挡的运动姿态序列。

Description

一种基于深度学习的恢复被遮挡人体姿态序列方法

技术领域

本发明涉及多媒体信息处理的研究领域，特别涉及一种基于深度学习的恢复被遮挡人体姿态序列方法。

背景技术

姿态生成是一种根据已知的姿态序列信息，推断出下一段时间内姿态序列的技术；基于深度学习的方法可以通过大量的数据学习，使模型习得推断后续姿态的能力，有更普适的应用范围。现阶段的方法是使用预测的方法：通过前序姿态序列来预测未知的目标姿态序列，但只考虑前序姿态的信息可能导致预测生成的姿态不够准确。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于深度学习的恢复被遮挡人体姿态序列方法，综合前序序列和后续序列的信息进行学习相对于只通过两者之一进行学习可以得到更加准确的预测，达到更好的视觉效果。

本发明的目的通过以下的技术方案实现：

一种基于深度学习的恢复被遮挡人体姿态序列方法，包括以下步骤：

S1、根据视频数据进行处理，获取人体步行数据集，并对人体步行数据集进行数据预处理，划分得到前序姿态序列、目标姿态序列、后序姿态序列；

S2、训练基于RNN的第一预测模型，该模型以前序姿态序列作为输入，被遮挡姿态序列作为输出；

S3、训练基于CNN的第二预测模型，该模型使用后序姿势作为输入，被遮挡姿态序列作为输出；

S4、将第一预测模型和第二预测模型的输出进行有权重相加，并添加MergeNet网络，构建训练总模型，通过训练总模型得到最终姿态序列。

进一步地，还包括步骤：将将最终姿态序列通过基于Savitzky-Golay滤波器进行微调。

进一步地，所述步骤S1具体如下：

S101、使用人体姿态识别项目对视频数据进行标注，获取人体在视频中各帧的光节点位置，若有光节点被遮挡，则忽略，得到人体步行数据集；

S102、对人体步行数据集进行预处理，即把所有关键点从相对于整个视频画面的坐标更改为相对于视频中行人头部的坐标；

S103、将预处理后的人体步行数据集划分为训练集、测试集和验证集，将整个序列划分为前序姿态序列、目标姿态序列、后序姿态序列。

进一步地，所述序列划分具体为：将每段视频以1：2：1的比例划分为前序姿态序列、目标姿态序列、后序姿态序列；所述人体步行数据集划分具体为：将人体步行数据集以7：2：1的比例划分为训练集、测试集、验证集。

进一步地，所述对人体步行数据集进行预处理，具体为：设人体头部关键点坐标为P_h(x,y)，人体其余部位关键点原始坐标为P(x,y)，对人体其余部位关键点进行处理，将人体其余部位关键点的原始坐标减去人体头部关键点坐标，得到处理后人体其余部位关键点P′(x,y)，

P′(x,y)＝P(x,y)-P_h(x,y)。

进一步地，所述步骤S2具体为：使用Keras框架，在基于序列到序列的基础上，添加一个重构解码器，构成第一预测模型；此解码器依然以序列到序列模型中编码器的输出作为输入，但是以输入姿态序列的倒序作为输出。此技巧增加了训练时模型的参数，但是可以得到更高的准确率；

对该模型进行训练：将前序姿态序列作为输入，目标姿态作为输出1，前序姿态序列的倒序序列作为输出2，保留第一网络权值的相关文件。

进一步地，所述步骤S3具体为：基于一维卷积网络1D-CNN，由若干个1D卷积层，一个上采样层和一个全连接层构成第二预测模型，一维卷积网络在时序的维度进行卷积操作；

对该模型进行训练：将后序姿态序列作为输入，目标姿态作为输出3，保留第二网络权值文件的相关文件。

进一步地，所述步骤S4具体为：将第一预测模型和第二预测模型的输出部分通过MergeNet网络合并在一起，该MergeNet网络由若干层全连接层构成，最后在MergeNet网络后添加一个Savitzky-Golay层，构建训练总模型；

对训练总模型进行训练，首先将保存的第一网络权值和第二网络权值加载到训练总模型中，训练过程中冻结这部分网络权重，只训练MergeNet网络部分的权重。

进一步地，所述MergeNet网络为第一预测模型的输入和第二预测模型的输入各分配一个可训练的权重，有机的结合前序姿态序列和后序姿态序列的信息，生成目标姿态序列：

其中，W₁为第一预测模型分配的权重，Y₁为第一预测模型计算所得到的结果，W₂为第二预测模型分配的权重，Y₂为第二预测模型计算所得到的结果。

训练模型时，使用关键点正确估计的比例(PCK-Percentage of CorrectKeypoints)作为模型的评价指标，即越高代表模型生成的姿态更加准确。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明可使深度学习模型综合前序序列和后续序列的信息进行学习，相对于只通过两者之一进行学习可以得到准确的生成结果，达到更好的视觉效果；

2、本发明的1D-CNN以较低的训练成本大幅提高了模型的效果；

3、本发明的Savitzky-Golay层借鉴了Savitzky-Golay滤波器的思想，可以对序列中的突变值进行平滑处理，解决了预测第一帧不连续的问题。

附图说明

图1是本发明所述一种基于深度学习的恢复被遮挡人体姿态序列方法流程图；

图2为本发明所述实施例中Pre-Pose-Net模型训练时的网络结构示意图；

图3为本发明所述实施例中Post-Pose-Net模块的网络结构示意图；

图4为本发明所述实施例中整体模型的结构示意图；

图5a为本发明所述实施例中未使用Savitzky-Golay层生成不连续的姿态序列的示意图；

图5b为本发明所述实施例中使用Savitzky-Golay层生成连续的姿态序列的示意图；

图6为利用本发明所述实施例中对缺失姿态序列进行生成的效果图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

一种基于深度学习的恢复被遮挡人体姿态序列方法，如图1所示，包括以下步骤：

S1、根据视频数据进行处理，获取人体步行数据集，对人体步行数据集进行数据预处理并划分，得到前序姿态序列、目标姿态序列、后序姿态序列；

其具体流程如下：

(S11)获取所需要的视频数据后，使用OpenPose对其进行标注，获取人体在每帧中的关键点姿态保存为JSON文件。

(S12)截取视频长度。因为每个视频的时长不同，故帧数也不同。为了方便模型对数据的读取进行训练，编写python脚本将所有获得的姿态文件截取相同的帧数，然后将其整合为一个数据文件，并存为.npy格式。此外，原始姿态序列数据为三维，即{T(帧数)，2(xy坐标)，N(关键点个数)}，为了方便模型训练，降低至二维数据：{T，2*N}。

(S13)数据预处理。将所有关键点(除头部外)从相对于整个画面的坐标更改为相对于头部的坐标，具体处理方式为：将所有关键点(除头部外)的坐标P(x,y)减去头部的坐标P_h(x,y)，即P′(x,y)＝P(x,y)-P_h(x,y)；同时也将关键点中一些无意义(由于观察角度的问题被遮挡)的点删去。

(S14)划分数据集。将每段视频以1：2：1的比例划分为前序姿态序列，目标姿态序列，后续姿态序列；再将整个数据集划分为将数据集以7：2：1的比例划分为训练集，测试集和验证集。

数据处理完毕后，开始搭建模型并进行训练，其具体步骤是：

(S21)首先搭建Pre-Pose-Net,如图2所示。此结构是基于序列到序列的模型(Sequence-to-Sequence)。蓝色的LSTM单元构成编码器，此部分的作用是对输入的姿态序列进行编码，将序列中的语义信息进行编码存储在隐藏向量中；橙色的LSTM单元构成预测解码器；绿色的LSTM单元构成重构解码器，此解码器只在训练的Pre-Pose-Net的过程中存在，它在训练过程中起到辅助训练的作用，将前序姿态序列倒序后作为输入。

(S22)训练Pre-Pose-Net。将前序姿态序列S_pre输入到编码器，其倒序序列S_pre_reverse作为重构解码器的输入，将目标序列S_target作为预测解码器的输入。共训练60个epoch，批大小设置为8。Loss。并且保存该权值文件。

(S23)如图3所示，搭建Post-Post-Net。此结构基于一维卷积网络(1D-CNN)，由若干个1D卷积层，一个上采样层和一个全连接层构成。

(S24)训练Post-Post-Net，将后续姿态序列S_post作为输入，目标姿态序列S_target作为输出。共训练60个epoch，批大小设置为8。Loss。且保存该权值文件。

(S25)搭建组合模型。如图4所示，步骤(S21)和步骤(S23)构建的模型作为模型的一部分，将两者的输出作为MergeNet部分的输入，MergeNet部分的输出为目标序列S，若步骤(S21)部分的输入为S_pre，步骤(S23)的输入为S_post。将S_pre,S，S_post连接在一起构成S_total输入模型最后Savitzky-Golay层，其输出便是目标序列S_target。

(S26)训练组合模型。模型有两个输入，分别为前序姿态序列S_pre和后续姿态序列S_post，输出为目标序列S_target。训练过程中，首先加载步骤(S22)和步骤(S24)中获得的模型权重。训练过程中，冻结这部分的权值，只对MergeNet部分的权值进行训练。共训练60个epoch，批大小设置为8。Loss。训练结束后保存获得的权重文件。

在步骤(S22)、(S24)、(S26)中，使用均方误差(MSE)作为损失函数，定义Loss函数如下：

此公式中，M为目标姿态序列的总帧数，m为关键点的总个数。

为模型输出的预测值，

为关键点位置的真值。

在步骤(S25)中设计的MergeNet中，步骤(S21)和步骤(S23)的输出分别乘以一个可以训练的权重W并进行相加后，再输入到多级的全连接层中。如图4中MergeNet部分所示，这个子网络也构成了一个残差结构。

在获得训练得到的模型后，便可以使用测试数据进行测试。图5a和图5b分别表示Savitzky-Golay层的修正效果以及模型在真实场景中对缺失姿态序列的恢复效果所示。图5a为未使用Savitzky-Golay层进行预测的结果，可以看到，在已知序列和预测序列之间出现了明显的预测不连续现象；图5b使用Savitzky-Golay层后，预测不连续的现象得到了明显的修复。图6展示了6个场景下，若运动过程中的姿态被障碍物遮挡，本发明对缺失姿态序列的生成效果。

可通过各种手段实施本发明描述的技术。举例来说，对于数据预处理过程中获取人体关键点的方法，可以使用其他已开源的人体关键点估计算法；对于模型的建立和训练，可以使用其他流行的深度学习框架，如Caffe，Pytorch，Tensorflow等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的恢复被遮挡人体姿态序列方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的恢复被遮挡人体姿态序列方法，其特征在于，还包括步骤：将将最终姿态序列通过基于Savitzky-Golay滤波器进行微调。

3.根据权利要求1所述的一种基于深度学习的恢复被遮挡人体姿态序列方法，其特征在于，所述步骤S1具体如下：

4.根据权利要求3所述的一种基于深度学习的恢复被遮挡人体姿态序列方法，其特征在于，所述序列划分具体为：将每段视频以1：2：1的比例划分为前序姿态序列、目标姿态序列、后序姿态序列；所述人体步行数据集划分具体为：将人体步行数据集以7：2：1的比例划分为训练集、测试集、验证集。

5.根据权利要求3所述的一种基于深度学习的恢复被遮挡人体姿态序列方法，其特征在于，所述对人体步行数据集进行预处理，具体为：设人体头部关键点坐标为P_h(x,y)，人体其余部位关键点原始坐标为P(x,y)，对人体其余部位关键点进行处理，将人体其余部位关键点的原始坐标减去人体头部关键点坐标，得到处理后人体其余部位关键点P′(x,y)，

P′(x,y)＝P(x,y)-P_h(x,y)。

6.根据权利要求1所述的一种基于深度学习的恢复被遮挡人体姿态序列方法，其特征在于，所述步骤S2具体为：使用Keras框架，在基于序列到序列的基础上，添加一个重构解码器，构成第一预测模型；

7.根据权利要求6所述的一种基于深度学习的恢复被遮挡人体姿态序列方法，其特征在于，所述步骤S3具体为：基于一维卷积网络1D-CNN，由若干个1D卷积层，一个上采样层和一个全连接层构成第二预测模型，一维卷积网络在时序的维度进行卷积操作；

8.根据权利要求7所述的一种基于深度学习的恢复被遮挡人体姿态序列方法，其特征在于，所述步骤S4具体为：将第一预测模型和第二预测模型的输出部分通过MergeNet网络合并在一起，该MergeNet网络由若干层全连接层构成，最后在MergeNet网络后添加一个Savitzky-Golay层，构建训练总模型；

9.根据权利要求8所述的一种基于深度学习的恢复被遮挡人体姿态序列方法，其特征在于，所述MergeNet网络为第一预测模型的输入和第二预测模型的输入各分配一个可训练的权重，有机的结合前序姿态序列和后序姿态序列的信息，生成目标姿态序列：