CN112200165A

CN112200165A - 模型训练方法、人体姿态估计方法、装置、设备及介质

Info

Publication number: CN112200165A
Application number: CN202011400737.4A
Authority: CN
Inventors: 袁振杰; 郝瑞; 李慧强; 雒冬梅; 孙亚莲; 孙瑞鸿
Original assignee: Beijing Softcom Smart City Technology Co ltd
Current assignee: Beijing Softcom Smart City Technology Co ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-01-08

Abstract

本发明公开了一种模型训练方法、人体姿态估计方法、装置、设备及介质，包括：获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频所包含的二维图像；将所述训练数据输入所述姿态估计模型中，对所述姿态估计模型预估的时空信息进行多尺度的运动编码，并计算所述训练数据对应的运动损失函数；基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件。本发明实施例提供的技术方案，可以动态地调节运动损失函数对应的参数，使得训练后得到的模型更加准确，进而在从连续二维姿势估算三维姿势时，能够更加准确地估计出人体的姿态，而且能够减小人体姿态估计的误差。

Description

模型训练方法、人体姿态估计方法、装置、设备及介质

技术领域

本发明实施例涉及计算机视觉技术，尤其涉及一种模型训练方法、人体姿态估计方法、装置、设备及介质。

背景技术

基于视频的三维人体姿态估计，以视频作为输入，可以通过三维姿态估计模型估计视频中目标运动的三维结构，并推断目标的深度信息，以便在每个帧中进行三维姿态估计。

现有方法中，用于监督学习三维姿态估计模型的常见损失函数可以为闵可夫斯基损失函数。通过计算闵可夫斯基距离，计算三维空间中预测的关键点相对于样本中的真实位置的整体位置误差。但是闵可夫斯基距离存在突出的限制，依赖其的三维姿态估计模型没有考虑估计姿势序列和真实姿势序列之间在时间维度上的相似性。

由上可知道在闵可夫斯基距离的监督下，三维姿态估计模型很难从样本的关键点轨迹中学习到运动信息，因此基于三维姿态估计模型下的预测，很难获得人体运动合理的姿势轨迹。

发明内容

本发明提供一种模型训练方法、人体姿态估计方法、装置、设备及介质，以实现通过设计的运动损失函数很好的拟合训练数据和验证结果。

第一方面，本发明实施例提供了一种模型训练方法，包括：

基于空间维度和时间维度构建姿态估计模型；

获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频所包含的二维图像；

将所述训练数据输入所述姿态估计模型中，对所述姿态估计模型预估的时空信息进行多尺度的运动编码，并计算所述训练数据对应的运动损失函数；

基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件。

进一步地，所述姿态估计模型包括上采样模块、下采样模块和合并模块，

所述姿态估计模型基于下述步骤处理所述训练数据：

在上采样模块，基于预设公式对所述训练数据进行抽取，获取到所述训练数据的关节信息，得到第一数据；

在所述下采样模块，恢复所述第一数据的分辨率，得到第二数据；

在所述合并模块，将包括不同时间信息的至少一个所述第二数据进行融合，得到三维空间坐标；

在运动损失监督学习模块，每个关键点的三维空间坐标由U型时空图卷积网络估算，以端到端的方式进行运动损失的监督。

进一步地，将所述训练数据输入所述姿态估计模型之后，还包括：

提取所述二维图像的人体姿态关键点及骨架的轮廓序列数据；

对所述人体姿态关键点及所述骨架的轮廓序列进行特征提取，得到基于时间与空间的人体关键点集，其中，所述人体关键点集包括骨骼的关节点及连边的向量信息与置信度信息。

进一步地，将所述训练数据输入所述姿态估计模型中，对所述姿态估计模型预估的时空信息进行多尺度的运动编码，并计算所述训练数据对应的运动损失函数，包括：

在至少一个时间尺度对所述U型时空图卷积网络提取的所述向量信息进行编码，得到运动编码；

基于所述运动编码和预设运动损失公式，计算所述运动损失函数。

进一步地，基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件，包括：

基于预设优化算法，调整所述姿态估计模型的参数，直至所述运动损失函数小于预设值。

第二方面，本发明实施例还提供了一种人体姿态估计方法，该方法包括：

获取待估计姿态的人类活动影像数据；

将所述人类活动影像数据输入至预设姿态估计模型中，其中，所述预设姿态估计模型通过如第一方面任一所述的方法训练得到；

根据所述预设姿态估计模型的输出结果对所述人类活动影像数据中的人体姿态进行预测。

第三方面，本发明实施例还提供了一种模型训练装置，该装置包括：

获取模块，用于获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频包含的二维图像；

计算模块，用于将所述训练数据输入所述姿态估计模型中，对所述姿态估计模型预估的时空信息进行多尺度的运动编码，并计算所述训练数据对应的运动损失函数；

训练模块，用于基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件。

第四方面，本发明实施例还提供了一种人体姿态估计装置，该装置包括：

执行模块，用于获取待估计姿态的人类活动影像数据；

输入模块，用于将所述人类活动影像数据输入至预设姿态估计模型中，其中，所述预设姿态估计模型通过如第一方面任一所述的方法训练得到；

预测模块，用于根据所述预设姿态估计模型的输出结果对所述人类活动影像数据中的人体姿态进行预测。

第五方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如第一方面和第二方面任一所述的方法。

本发明通过基于空间维度和时间维度构建姿态估计模型；获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频所包含的二维图像；将所述训练数据输入所述姿态估计模型中，对所述姿态估计模型预估的时空信息进行多尺度的运动编码，并计算所述训练数据对应的运动损失函数；基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件。本发明实施例提供的技术方案，可以动态地调节运动损失函数对应的参数，使得训练后得到的模型更加准确，进而在从连续二维姿势估算三维姿势时，能够更加准确地估计出人体的姿态，而且能够减小人体姿态估计的误差。

附图说明

图1为本发明实施例一提供的一种模型训练方法的流程图；

图2为本发明实施例二提供的一种模型训练方法的流程图；

图3为本实施例提供的预估姿势序列和真实姿势序列的示意图；

图4为本发明实施例提供的姿态估计模型的处理过程示意图；

图5为本发明实施例三提供的一种人体姿态估计方法的流程图；

图6为本发明实施例四提供的一种模型训练装置的结构图；

图7为本发明实施例五提供的一种人体姿态估计装置的结构图；

图8为本发明实施例六提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

建立智能影像分析识别系统涉及到庞大的数据，这些数据十分复杂，不仅仅是数据量上，更是数据的多维度，为满足影响智能分析识别的需要，需要对这些数据进行标记，以保证对数据的智能分析更加准确，而整理标记这些庞大的数据已经远超人类的能力，因此需要利用机器学习算法的自主学习能力，对这些数据的特征进行提取，同时需要保证特征数据的准确度。并且在不断的模型训练过程中，利用神经网络算法不断进行自主优化，到达满足要求的分类识别效果。

三维人体姿势估计主要通过二维图像重建三维关键点。由于与二维姿态估计不同，二维图像输入中缺少深度信息会导致歧义的发生。为了获得对深度的感知，最近的方法都是利用多个同步摄像机从不同角度观察物体，取得了相当大的进步。然而与单目角度采集的方法相比，多角度同步采集方法由于其对设备和环境的严格要求，而在实际中比较不实用且投入成本高。

实施例一

图1为本发明实施例一提供的一种模型训练方法的流程图，本实施例可适用于根据二维图像估计三维空间坐标的情况，该方法可以由计算机来执行，具体包括如下步骤：

步骤110、基于空间维度和时间维度构建姿态估计模型。

步骤120、获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频所包含的二维图像。

具体地，训练数据可以包括单目摄像头采集的没有深度信息的二维图像，根据二维图像可以进行三维人体姿态估计。

其中，姿态估计模型一般为端到端的姿态估计模型。

姿态估计模型可以由基于图卷积网络的新型三维姿态估计模型架构和基于骨骼的动作识别的时空图卷积网络模型相结合的U型时空图卷积网络架构构建。

姿态估计模型可以在骨骼图序列上制定的，序列图上每个节点对应于人体的一个关节。骨骼图序列可以包括人体姿态的关键点在时间和空间的关系。序列图中存在两种类型的边，即符合关节的自然连接的空间边和在连续的时间步骤中连接相同关节的时间边。在此基础上构建多层的时空图卷积，允许信息沿着空间和时间两个维度进行整合。共同构成了时间依赖性和空间配置。进而实现对序列图进行一系列图卷积运算。

另外，在原始二维图像数据集不够充分的情况下，可以采用数据增强来提升数据集，从而提升姿态估计模型的整体性能。数据增强的主要方法可以包括：旋转、水平翻转、镜像、缩放、随机剪裁等。本发明实施例中，同时可以组合多种处理方式对数据集进行处理。例如，同时进行旋转和缩放数据处理主要包括去均值、归一化等。去均值可以把数据各个维度都中心化为零；归一化可以对提取后的二值化图像进行形态学处理，去除噪声等干扰因素，并通过先开运算后闭运算来填补目标区域的空洞点以及去除多余的噪声点。归一化还可以对人体图像进行平滑，使得提取的目标图像以及后续的特征提取更加精准，最后使用可以Canny 算子对人体边缘轮廓进行提取。

由于视频中的人体距离单目摄像头的距离和角度不同，造成人体轮廓的尺寸不同，存在比较大的差别，所以需要对目标进行归一化处理，以便于更好地提取人体目标的轮廓。检测出视频中的目标的轮廓之后，可以对人体轮廓高度进行归一化处理，将其高度归一化到统一高度，并按照一定的比例来对轮廓的宽度进行缩放。

步骤130、将所述训练数据输入所述姿态估计模型中，对所述姿态估计模型预估的时空信息进行多尺度的运动编码，并计算所述训练数据对应的运动损失函数。

具体地，训练数据输入姿态估计模型中，可以根据运动损失函数训练姿态估计模型，使得姿态估计模型的参数更加适合当前场景。

姿态估计模型可以从预设视频的二维姿势序列

，重建其三维坐标

，其中T是视频帧数，M是人体关节数量，

和

是分别表示帧t中关节j的二维和三维位置的矢量。通过时空图构造二维姿势序列，并通过姿态估计模型预测它们的三维位置。

示例性的，运动损失函数可以根据运动编码得到。运动损失函数可以用于评价姿态估计模型的预测值和真实值之间不一样的程度，运动损失为运动空间中的预测值与真实值的距离。因此，需要运动编码器才能将二维姿势序列投影到上述运动空间。

另外，二维姿势序列可以通过构造二维图像的时空图获取得到。二维姿势序列中的关键点可以描述人类的动作序列。

在实际的场景下，姿势序列会更长，需要考虑人体运动所具有的较大的变化范围。因此可以在多个时间尺度上对人体运动进行编码，可以采用如下公式对姿势序列进行编码。

其中，

是时间间隔，t是当前时刻，j是序列关键点。可以包括减法、内积或叉积运算等。

运动编码中，可以将轨迹分解为一组成对的坐标矢量，每对通过减法、内积或叉积运算后，然后将获得的结果连接起来以构建完整的运动编码。其中的连接方式也可以为一种计算符，用于进行运动编码。

为了计算整个姿势序列的运动损失，可以计算编码空间中所有关节、时刻和多个时间间隔的距离。得到多尺度运动编码结果，具体可以包括姿势序列的长度为2、多个时间间隔（满足运动速度变化大）多尺度上的关键点编码。

根据姿势序列得到对应的运动编码之后，可以通过运动编码计算对应的运动损失函数，具体可以通过如下公式计算运动损失函数。

其中，gt 代表的grand true 标注数据样本－－标记真实样本。

代表在标记真实的样本中的动作序列第t帧、第j关节点、时间间隔τ 的运动编码。

区间集Z包括多个时间尺度的不同τ。成对运动编码将轨迹分解为坐标对，并通过可微运算（例如叉积）为每对坐标对提取特征。作为三维姿态估计中运动监督的第一步，可以依次进行分段、内积和叉积操作。

上述运动损失函数仅考虑运动编码时的二阶相关性，不包括其绝对位置信息。因此，我们在目标函数中可以添加传统的重建损失，传统重建损失函数可以根据下述公式进行计算。

其中，

代表在标记真实样本中的动作序列，第t帧、第j关节点的三维位置矢量。其可以为将运动损失仅考虑成对运动编码时的二阶相关性情况后，引入绝对位置信息。

以端到端的方式对姿态估计模型进行综合损失监督，总体运动损失函数可以根据如下公式进行计算。

其中，

为超参数，用于平衡两个目标，获取最优化的损失。

步骤140、基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件。

具体地，可以采用时间核大小为5，dropout率为0.5的时空卷积块作为基本单元来构建网络。将带有96帧的二维姿势序列输入姿态估计模型，同时姿态估计模型受到

的运动损失函数的监督。可以使用Adam算法优化110个时期的姿态估计模型，批处理大小可以为256，初始学习率可以为10的负3次方。在第90和100个迭代后，可以将学习率降低0.1。为了避免过度拟合，可以将卷积层参数的权重衰减因子设置为10的负5次方。

本实施例的技术方案，通过获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频所包含的二维图像；将所述训练数据输入所述姿态估计模型中，对所述姿态估计模型预估的时空信息进行多尺度的运动编码，并计算所述训练数据对应的运动损失函数；基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件。本发明实施例提供的技术方案，可以动态地调节运动损失函数对应的参数，使得训练后得到的模型更加准确，进而在从连续二维姿势估算三维姿势时，能够更加准确地估计出人体的姿态，而且能够减小人体姿态估计的误差。

实施例二

图2为本发明实施例二提供的一种模型训练方法的流程图，本实施例是在上述实施例的基础上进行具体化。在本实施例中，该方法还可以包括：

步骤210、基于空间维度和时间维度构建姿态估计模型。

步骤220、获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频所包含的二维图像。

具体获取训练数据的方式在实施例一中已经进行了详细的说明，在此不再赘述。

步骤230、将所述训练数据输入所述姿态估计模型中，提取所述二维图像的人体姿态关键点及骨架的轮廓序列数据。

具体地，可以采用Canny算子提取二维图像中的人体姿态关键点及骨架的轮廓序列数据，使得提取的目标图像以及后续的特征提取更加精确。

一种实施方式中，可以基于空间维度和时间维度构建所述姿态估计模型。

传统卷积神经网络和长短期神经网络可以用来分别学习空间和时间特征，然而传统卷积神经网络只能处理标准的网格数据，而长短期神经网络因为采用迭代训练，容易发生误差积累，而且计算量大、难以训练。

图3为本实施例提供的预估姿势序列和真实姿势序列的示意图，如图3所示，姿态估计模型可以在骨骼图序列上制定，包括人体姿态的关键点和在时间和空间的关系，姿势序列上每个节点对应于人体的一个关节。姿势序列中可以包括两种类型的边，即符合关节的自然连接的空间边和在连续的时间步骤中连接相同关节的时间边。在此基础上构建多层的时空图卷积，允许信息沿着空间和时间两个维度进行整合，共同构成了时间依赖性和空间配置。之后可以对即可对该姿势序列进行一系列图卷积运算。

图4为本发明实施例提供的姿态估计模型的处理过程示意图，如图4所示，一种实施方式中，所述姿态估计模型包括上采样模块、下采样模块和合并模块，

所述姿态估计模型基于下述步骤处理所述训练数据：

在上采样模块，基于预设公式对所述训练数据进行抽取，获取到所述训练数据的关节信息，得到第一数据。

其中，上采样阶段包含四个时空图卷积网络块，每个时空图卷积网络块后面都有一个上采样层。由于时空图中规则的时间结构，因此可以实现时间维度的上采样。

具体地，可以利用9个时空图卷积网络块来聚合时间特征。此外可以将第二、第四、第六和第八个时空图卷积网络块的步长设置为2，以增加时间维度上的接收场。此阶段可以嵌入处理编码完整骨架序列的全局信息。

在所述下采样模块，恢复所述第一数据的分辨率，得到第二数据。

具体地，可以利用9个时空图卷积网络块来聚合时间特征，增加时间维度上的接收场。此外可以将第二、第四、第六和第八个时空图卷积网络块的步长设置为2，以增加时间维度上的接收场。此阶段可以嵌入处理编码完整骨架序列的全局信息。

通过连续的上采样操作，时间分辨率可以由低到高逐渐恢复，全局信息可以传播到整个图形。由于二维姿势序列是三维输出的投影，因此低级信息可能会为估计三维输出提供强大的几何约束。所以可以将低级信息保留在网络中。因此，可以下采样阶段的特征以相同的时间分辨率添加到上采样阶段。

在所述合并模块，将包括不同时间信息的至少一个所述第二数据进行融合，得到三维空间坐标。

具体地，合在并阶段，可以将上采样阶段中具有不同时间信息的特征图转换为相同的维度，然后进行融合以获得最终的嵌入。当然，该嵌入可以包含多个时间尺度上的大量信息。

在运动损失监督学习阶段，每个关键点的3D坐标由时空卷积网络回归器估算。以端到端的方式受到运动损失的监督。

步骤240、对所述人体姿态关键点及所述骨架的轮廓序列进行特征提取，得到基于时间与空间的人体关键点集，其中，所述人体关键点集包括骨骼的关节点及连边的向量信息与置信度信息。

具体地，可以通过先开运算和后闭运算填补目标区域的空洞点以及去除多余的噪声点。

步骤250、在至少一个时间尺度对所述U型时空图卷积网络提取的所述向量信息进行编码，得到运动编码。

具体进行运动编码的方式已经在实施例一中进行了详细的说明，在此不再说明。

步骤260、基于所述运动编码和预设运动损失公式，计算所述运动损失函数。

具体地，可以根据如下公式计算运动损失函数。

其中，

为超参数，用于平衡两个目标，获取最优化的损失。

步骤270、基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件。

一种实施方式中，步骤260具体可以包括：基于预设优化算法，调整所述姿态估计模型的参数，直至所述运动损失函数小于预设值。

具体地，在对姿态估计模型进行训练的过程中，可以根据预设优化算法，基于反向传播算法，调整姿态估计模型的参数，直至运动损失率小于预设值。

需要说明的是，在训练结束之后，可以基于Human3.6M和MPI-INF-3DHP对姿态估计模型进行运动损失测试。确定训练得到的姿态估计模型可以对人体姿态进行估计、识别和分类等。

本实施例的技术方案，通过获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频所包含的二维图像；将所述训练数据输入所述姿态估计模型中，提取所述二维图像的人体姿态关键点及骨架的轮廓序列数据；对所述人体姿态关键点及所述骨架的轮廓序列进行特征提取，得到基于时间与空间的人体关键点集，其中，所述人体关键点集包括骨骼的关节点及连边的向量信息与置信度信息；在至少一个时间尺度对所述U型时空图卷积网络提取的所述向量信息进行编码，得到运动编码；基于所述运动编码和预设运动损失公式，计算所述运动损失函数；基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件。本发明实施例提供的技术方案，可以动态地调节运动损失函数对应的参数，使得训练后得到的模型更加准确，在进行人体姿态估计时，能够更加准确地估计出人体的姿态，而且能够减小人体姿态估计的误差。

实施例三

图5为本发明实施例三提供的一种人体姿态估计方法的流程图，如图5所示，该方法包括：

步骤510、获取待估计姿态的人类活动影像数据。

具体地，人类活动影像数据的二维图像投影可以用于估计三维姿态。

步骤520、将所述人类活动影像数据输入至预设姿态估计模型中，其中，所述预设姿态估计模型通过如实施例一和实施例二任一所述的方法训练得到。

具体地，可以将二维人类活动影像数据作为输入数据，输入预设姿态估计模型中，用于估计人体姿态估计，或者用于对人体姿态进行分类。

步骤530、根据所述预设姿态估计模型的输出结果对所述人类活动影像数据中的人体姿态进行预测。

具体地，预设姿态估计模型根据其输出与真实的姿态进行比较，确定预设姿态估计模型的输出是否准确。

另外，训练出的预设姿态估计模型经过softmax层的回归，即可端到端的得出人体动作分类的概率值，进而确定其为“坐”、“走”或者“跳”。

可以知道的是，可以采用步长为5的滑动窗口算法对输入长度固定的变长姿态序列进行估计，并对不同时间位置的结果进行平均，得到精确估计结果。

本实施例的技术方案，通过获取待估计姿态的人类活动影像数据；将所述人类活动影像数据输入至预设姿态估计模型中，其中，所述预设姿态估计模型通过如实施例一和实施例二任一所述的方法训练得到；根据所述预设姿态估计模型的输出结果对所述人类活动影像数据中的人体姿态进行预测。上述技术方案，可以将二维人类活动影像数据输入预设姿态估计模型，得到人体三维姿态，实现了对人体姿态的估计。而且，预设姿态估计模型采用运动损失函数进行训练，得到的预设姿态估计模型可以使得估计得到的人体姿态更加精确。

实施例四

图6为本发明实施例四提供的一种模型训练装置的结构图，该装置可以适用于在根据运动损失函数训练姿态估计模型，提高训练后得到的模型的准确率。该装置可以通过软件和/或硬件实现，并一般集成在计算机中。

如图6所示，该装置包括：

构建模块610，用于基于空间维度和时间维度构建姿态估计模型；

获取模块620，用于获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频包含的二维图像；

计算模块630，用于将所述训练数据输入所述姿态估计模型中，对所述姿态估计模型预估的时空信息进行多尺度的运动编码，并计算所述训练数据对应的运动损失函数；

训练模块640，用于基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件。

本实施例提供的模型训练装置，通过基于空间维度和时间维度构建姿态估计模型；获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频所包含的二维图像；将所述训练数据输入所述姿态估计模型中，计算所述训练数据对应的运动损失函数；基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件。本发明实施例提供的技术方案，可以动态地调节运动损失函数对应的参数，使得训练后得到的模型更加准确，在进行人体姿态估计时，能够更加准确地估计出人体的姿态，而且能够减小人体姿态估计的误差。

在上述实施例的基础上，该装置还包括：

提取模块，用于提取所述二维图像的人体姿态关键点及骨架的轮廓序列数据；

归一化执行模块，用于对所述人体姿态关键点及所述骨架的轮廓序列进行特征提取，得到基于时间与空间的人体关键点集，其中，所述人体关键点集包括骨骼的关节点及连边的向量信息与置信度信息。在上述实施例的基础上，计算模块630具体用于：

一种实施方式中，构建所述姿态估计模型包括：基于空间维度和时间维度构建所述姿态估计模型。

一种实施方式中，所述姿态估计模型包括上采样模块、下采样模块和合并模块，

所述姿态估计模型基于下述步骤处理所述训练数据：

在上述实施例的基础上，训练模块640具体用于：

本发明实施例所提供的模型训练装置可执行本发明任意实施例所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图7为本发明实施例五提供的一种人体姿态估计装置的结构图，该装置可以适用于对人体姿态进行估计的情况，提高人体姿态估计的准确率。该装置可以通过软件和/或硬件实现，并一般集成在计算机中。

如图7所示，该装置包括：

执行模块710，用于获取待估计姿态的人类活动影像数据；

输入模块720，用于将所述人类活动影像数据输入至预设姿态估计模型中，其中，所述预设姿态估计模型通过如实施例一和实施例二任一所述的方法训练得到；

预测模块730，用于根据所述预设姿态估计模型的输出结果对所述人类活动影像数据中的人体姿态进行预测。

实施例六

图8为本发明实施例六提供的一种计算机设备的结构示意图，如图8所示，该计算机设备可以集成本发明实施例提供的模型训练装置和人体姿态估计装置至少之一。如图8所示，计算机设备包括处理器810、存储器820及存储在存储器820上并可在处理器810上运行的计算机程序，所述处理器810执行所述计算机程序时实现本发明实施例提供的模型训练方法和人体姿态估计方法至少之一。

存储器820作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的模型训练方法和人体姿态估计方法至少之一对应的程序指令/模块（例如，模型训练装置中的构建模块610、获取模块620、计算模块630和训练模块640，和，人体姿态估计装置中的执行模块710、输入模块720和预测模块730至少之一）。处理器810通过运行存储在存储器820中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的模型训练方法和人体姿态估计方法至少之一。

存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器820可进一步包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例提供的运动设备可以执行上述实施例提供的模型训练方法和人体姿态估计方法至少之一，具备相应的功能和有益效果。

实施例七

本发明实施例七还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种模型训练方法和一种人体姿态估计方法至少之一，

其中，模型训练方法包括：

基于空间维度和时间维度构建姿态估计模型；

获取姿态估计模型的训练数据，其中，所述训练数据包括预设视频包含的二维图像；

将所述训练数据输入所述姿态估计模型中，计算所述训练数据对应的运动损失函数；

其中，人体姿态估计方法包括：

获取待估计姿态的人类活动影像数据；

将所述人类活动影像数据输入至预设姿态估计模型中，其中，所述预设姿态估计模型通过如前述的模型训练方法训练得到；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的模型训练方法和人体姿态估计方法至少之一中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（Read-Only Memory, ROM）、随机存取存储器（RandomAccess Memory, RAM）、闪存（FLASH）、硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

值得注意的是，上述模型训练装置和人体姿态估计装置至少之一的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种模型训练方法，其特征在于，包括：

基于空间维度和时间维度构建姿态估计模型；

获取所述姿态估计模型的训练数据，其中，所述训练数据包括预设视频所包含的二维图像；

2.根据权利要求1所述的模型训练方法，其特征在于，所述姿态估计模型包括上采样模块、下采样模块合并模块和运动损失监督学习模块，

所述姿态估计模型基于下述步骤处理所述训练数据：

在所述上采样模块，基于预设公式对所述训练数据进行抽取，获取到所述训练数据的关节信息，得到第一数据；

3.根据权利要求1所述的模型训练方法，其特征在于，将所述训练数据输入所述姿态估计模型之后，还包括：

4.根据权利要求1所述的模型训练方法，其特征在于，将所述训练数据输入所述姿态估计模型中，对所述姿态估计模型预估的时空信息进行多尺度的运动编码，并计算所述训练数据对应的运动损失函数，包括：

在至少一个时间尺度对U型时空图卷积网络提取的向量信息进行编码，得到运动编码；

5.根据权利要求1所述的模型训练方法，其特征在于，基于所述运动损失函数对所述姿态估计模型进行训练，以调整所述姿态估计模型的参数，直至所述姿态估计模型满足预设收敛条件，包括：

6.一种人体姿态估计方法，其特征在于，包括：

获取待估计姿态的人类活动影像数据；

将所述人类活动影像数据输入至预设姿态估计模型中，其中，所述预设姿态估计模型通过如权利要求1-5任一所述的方法训练得到；

7.一种模型训练装置，其特征在于，包括：

构建模块，用于基于空间维度和时间维度构建姿态估计模型；

获取模块，用于获取所述姿态估计模型的训练数据，其中，所述训练数据包括预设视频包含的二维图像；

8.一种人体姿态估计装置，其特征在于，包括：

执行模块，用于获取待估计姿态的人类活动影像数据；

输入模块，用于将所述人类活动影像数据输入至预设姿态估计模型中，其中，所述预设姿态估计模型通过如权利要求1-5任一所述的方法训练得到；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6任一项所述的方法。