CN117711066A

CN117711066A - 一种三维人体姿态估计方法、装置、设备及介质

Info

Publication number: CN117711066A
Application number: CN202311749925.1A
Authority: CN
Inventors: 何晨光; 欧阳宁康
Original assignee: North China University of Water Resources and Electric Power
Current assignee: North China University of Water Resources and Electric Power
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-03-15

Abstract

本申请公开了一种三维人体姿态估计方法、装置、设备及介质，包括：获取目标视频流，通过三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型对目标视频流的完全帧进行全帧提取，以获取目标视频帧，以对各个目标视频帧中的二维人体姿态进行帧间匹配，获取目标视频帧中包含的二维人体骨架序列；将二维人体骨架序列输入至三维人体姿态估计模型中的双向时空网络子模型，以便双向时空网络子模型将二维人体骨架序列映射至三维空间，以得到相应的三维人体骨架序列；通过三维人体姿态估计模型对三维人体骨架序列与环境信息、人体深度信息进行三维人体姿态估计，以得到相应的估计结果。实现了人体三维姿态估计的准确评估。

Description

一种三维人体姿态估计方法、装置、设备及介质

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种三维人体姿态估计方法、装置、设备及介质。

背景技术

三维人体姿态估计是指通过计算机视觉技术和机器学习方法，从图像或视频中获取人体的三维姿态信息。这项技术在人机交互、虚拟现实、运动分析等领域具有广泛的应用前景。一种常见方法是基于深度学习的姿态估计。这种方法通过深度神经网络来学习从图像到关节位置的映射关系。最早的基于深度学习的姿态估计方法是通过使用二维关节位置作为监督信号，例如，人体关键点检测。然后，通过结合多个二维关节位置估计的结果，来推断三维姿态。这种方法的优点是可以从单个图像中估计出人体的三维姿态，但由于仅使用了二维信息，容易受到遮挡、视角变化等因素的影响。近年来，随着深度学习的发展和可用数据集的增加，出现了一些基于端到端的方法，可以直接从图像中估计出人体的三维姿态。这些方法通常使用卷积神经网络或变种来学习从图像到三维姿态的映射。它们可以通过联合优化关节位置和姿态的表示，从而提高估计的准确性。但是三维姿态估计通常需要大量的标注数据，包括图像和对应的姿态信息。手动标注数据耗时耗力，且需要专业知识。此外，采集包含各种姿势和背景的训练数据也具有挑战性。并且在复杂的场景中，人体可能被遮挡或以不同的视角出现，这会导致姿态估计的困难。这些因素使得从图像中准确地恢复人体的三维姿态变得更加复杂。另一种常见的方法是基于模型的姿态估计。这种方法通过建立一个人体模型来估计姿态，例如，使用人体骨骼结构表示姿态。该方法通常需要预先构建一个人体模型，并将模型的参数与输入图像进行匹配来估计姿态。这种方法的优点是能够较好地处理遮挡和视角变化等问题，但需要先验的模型信息，并且对模型的准确性和鲁棒性要求较高。

综上，如何实现二维人体骨架序列的自行获取，并能够在遮挡发生或已发生后的完成目标人体姿态的匹配，提升三维人体姿态估计的准确性是本领域有待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种三维人体姿态估计方法、装置、设备及介质，能够实现二维人体骨架序列的自行获取，并能够在遮挡发生或已发生后的完成目标人体姿态的匹配，提升三维人体姿态估计的准确性。其具体方案如下：

第一方面，本申请公开了一种三维人体姿态估计方法，包括：

获取目标视频流，并通过三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以对各个所述目标视频帧中的二维人体姿态进行帧间匹配，获取所述目标视频帧中包含的二维人体骨架序列；

将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型将二维人体骨架序列映射至三维空间，以得到相应的三维人体骨架序列；

通过所述三维人体姿态估计模型对所述三维人体骨架序列与环境信息、人体深度信息进行三维人体姿态估计，以得到相应的估计结果。

所述通过三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以对各个所述目标视频帧中的二维人体姿态进行帧间匹配，获取所述目标视频帧中包含的二维人体骨架序列，包括：

可选的，通过半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以通过姿态框对所述目标视频帧中的二维人体姿态进行框出，以得到二维人体姿态框，利用所述二维人体姿态框对相邻目标视频帧之间的帧间视图进行相同动作标准的人体姿态框匹配，以获取目标二维人体姿态框；

计算所述目标二维人体姿态框之间的欧几德里距离，以基于所述欧几德里距离确定相邻目标视频帧之间的亲和度分数确定姿态框中的二维人体姿态信息，并将所述二维人体姿态信息作为二维人体骨架序列。

可选的，所述的三维人体姿态估计方法，还包括：

利用所述目标视频帧和对应的二维人体骨架序列对帧间比对子模型进行半监督学习训练，以获取用于帧间亲和度检测的目标帧间比对子模型。

可选的，所述将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型将二维人体骨架序列映射至三维空间，以得到相应的三维人体骨架序列，包括：

将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型利用空间位置编码和时间位置编码对所述二维人体骨架序列空间中各元素在空间中的位置信息和在时间上的位置信息编码至三维空间，以得到三维人体骨架序列。

可选的，所述将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型利用空间位置编码和时间位置编码对所述二维人体骨架序列空间中各元素在空间中的位置信息和在时间上的位置信息编码至三维空间，以得到三维人体骨架序列，包括：

将所述二维人体骨架序列输入至双向时空网络子模型，以便所述双向时空网络子模型利用空间位置编码和时间位置编码并基于所述二维人体骨架序列中包含的不同视角下检测到的同一关节的二维位置坐标计算所述关节的三维位置坐标，得到三维人体骨架序列。

可选的，利用预设数量个包含空间分支和时间分支的双流融合模块构建初始双向时空网络子模型；

设置包含模型训练次数、偏移计算层、丢弃数据的比例参数、数据切片信息的所述初始双向时空网络子模型的模型参数；

利用训练数据集对所述初始双向时空网络子模型进行无标记学习训练，以得到双向时空网络子模型。

可选的，所述通过所述三维人体姿态估计模型对所述三维人体骨架序列与环境信息、人体深度信息进行三维人体姿态估计，以得到相应的估计结果，包括：

通过所述三维人体姿态估计模型并基于所述目标视频帧中视频场景中各个点到相机的距离信息获取包含人体深度信息的深度图，以利用所述三维人体骨架序列、环境信息与所述人体深度信息对所述目标视频帧进行三维人体姿态估计。

第二方面，本申请公开了一种三维人体姿态估计装置，包括：

二维序列获取模块，用于获取目标视频流，并通过三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以对各个所述目标视频帧中的二维人体姿态进行帧间匹配，获取所述目标视频帧中包含的二维人体骨架序列；

三维序列生成模块，用于将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型将二维人体骨架序列映射至三维空间，以得到相应的三维人体骨架序列；

姿态估计模块，用于通过所述三维人体姿态估计模型对所述三维人体骨架序列与环境信息、人体深度信息进行三维人体姿态估计，以得到相应的估计结果。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的三维人体姿态估计方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的三维人体姿态估计方法的步骤。

由此可见，本申请公开了一种三维人体姿态估计方法，包括：获取目标视频流，并通过三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以对各个所述目标视频帧中的二维人体姿态进行帧间匹配，获取所述目标视频帧中包含的二维人体骨架序列；将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型将二维人体骨架序列映射至三维空间，以得到相应的三维人体骨架序列；通过所述三维人体姿态估计模型对所述三维人体骨架序列与环境信息、人体深度信息进行三维人体姿态估计，以得到相应的估计结果。可见，通过半监督学习训练的目标帧间比对子模型能够自行推断估计关节所处位置，既解决了人体模型数据标注困难的问题又同时兼顾到训练过程中的标注不准确而导致的识别程度差异较大的问题，并且通过帧间匹配能够实现在遮挡发生或已发生后的目标检测匹配，保证了针对单一姿态识别精度且也能保证针对个人的目标匹配，降低了三维姿态的估计成本，提高了三维姿态检测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种三维人体姿态估计方法流程图；

图2为本申请公开的一种帧间图像多视图匹配结果示意图；

图3为本申请公开的一种具体的三维人体姿态估计方法流程图；

图4为本申请公开的一种深度信息估计解码器工作流程图；

图5为本申请公开的一种三维人体姿态估计装置结构示意图；

图6为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为此，本发明提供了一种三维人体姿态估计方案，能够实现二维人体骨架序列的自行获取，并能够在遮挡发生或已发生后的完成目标人体姿态的匹配，提升三维人体姿态估计的准确性。

参照图1所示，本发明实施例公开了一种三维人体姿态估计方法，包括：

步骤S11：获取目标视频流，并通过三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以对各个所述目标视频帧中的二维人体姿态进行帧间匹配，获取所述目标视频帧中包含的二维人体骨架序列。

本实施例中，首先获取包含待识别目标人体的目标视频流，可以理解的是，所述目标视频流中待识别目标人体的数量可以为一个也可以为多个。并且，获取的目标视频流可以为多个摄像机从不同角度分别拍摄记录的视频流，以保证每一时刻下的视频帧均存在两幅及以上的视图。通过本发明的三维人体姿态估计模型能够分别估计出对应待识别目标人体的三维姿态。

本实施例中，通过半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以通过姿态框对所述目标视频帧中的二维人体姿态进行框出，以得到二维人体姿态框；利用所述二维人体姿态框对相邻目标视频帧之间的帧间视图进行相同动作标准的人体姿态框匹配，以获取目标二维人体姿态框。可以理解的是，利用半监督学习训练的目标帧间比对子模型对目标视频流的完全帧进行全帧提取，以获取目标视频帧，其中，所述完全帧为视频或图像序列中包含完整图像信息的帧。然后对目标视频帧中的2D(Dimension，维度)人体姿态框出，将检测到的二维人体姿态框在帧间视图间进行匹配，也即需要在所有帧间视图中找到属于同一动作标准的2D bounding box(二维边界框)。也就是需要在所有帧间视图中找到属于同一动作标准的2D bounding box。这一步骤的目的是为了将不同目标视频帧中的2D姿态框对应到同一个3D动作姿态上，从而实现人体3D姿态动作姿态的重建。这样一来，通过对视频流完全帧进行全帧提取和对2D人体姿态框出，以及将检测到的姿态框在帧间视图间进行匹配，可以为人体3D动作姿态重建提供准确的信息，从而提高重建的精度和效果。

本实施例中，计算所述目标二维人体姿态框之间的欧几德里距离，以基于所述欧几德里距离确定相邻目标视频帧之间的亲和度分数确定姿态框中的二维人体姿态信息，并将所述二维人体姿态信息作为二维人体骨架序列。可以理解的是，基于外观相似性和几何相容性来计算包含帧间人物外观几何特征、关节特征信息的二维人体姿态框的亲和度。关节特征信息是指人体关节的空间位置和相对角度，例如肩膀、肘部、手腕、髋部、膝盖、脚踝等关节的位置和角度。这些关节的几何信息对于描述人体的姿态和运动非常重要，可以用于人体运动分析、人机交互、虚拟现实等领域。人物外观几何特征是指人体外观的视觉特征，例如肤色、服装、体型、面部特征等。这些特征对于识别和跟踪人体在图像或视频中的位置和运动非常重要，可以用于视频监控、人机交互、虚拟现实等领域。在将同一视频的全部图像帧根据人体关节特征信息和人物外观几何特征进行还原匹配的过程中，人体关节几何和外观特征的区别在于它们所描述的信息不同。人体关节几何描述了人体关节的空间位置和相对角度，而外观特征则描述了人体外观的视觉特征。在还原匹配过程中，需要同时考虑人体关节几何和外观特征，以确保匹配的准确性和可靠性。其中，基于外观相似性计算二维人体姿态框的亲和度可通过计算帧间图像的目标二维人体姿态框之间的欧几里得距离来实现，基于几何相容性来计算二维人体姿态框的亲和度可通过将计算出的欧几德里距离映射到使用Sigmoid(S型函数)函数作为边界框对相似性得分的(0，1)的区间值内来实现。具体的，首先，将输入的目标视频流经过预先处理，产生一个feature传入定位识别模型re-fr网络来获得边界框的描述符，通过计算帧间图像bounding box之间的欧几里何距离，并将计算出的距离映射到使用sigmoid函数作为边界框对相似性得分的(0，1)的区间值内。对目标视频流中的人体进行评估。两个视图x_i和x_j之间的几何一致性可以通过以下距离来测量：

其中，表示视图位姿i的第n个关节的二维位置，/>表示表示视图位姿j的第n个关节的二维位置，/>是从另一个角度与/>相关联的极线，dg(·)表示l的点到线距离，/>表示另一角度与/>关联的极线，N表示视图总数量，使用sigmoid函数将距离dg映射到(0,1)中的值作为最终几何亲和分数。

从外观上，帧间关联的两个目标二维人体姿态框的另一个重要线索是他们相关的2D姿态应该是几何一致的。具体的，对应的2D关节位置应满足线性对应，第一视图中所产生的姿态应在第二视图及后面的视图中保持在同一相关联的核线上。线性对应意味着两个边界框中对应的2D关节位置之间应该存在线性关系，即它们之间的相对位置应该保持不变。这可以通过计算两个边界框中对应关节位置之间的距离或角度来实现。在同一相关联的核线上意味着在第一视图中产生的姿态应该在第二视图及后面的视图中保持在同一相关联的核线上。核线是指连接两个对应关节位置的直线，它表示了目标在空间中的方向和姿态。如果两个边界框中对应的2D关节位置满足线性对应关系，并且它们在同一相关联的核线上，那么这两个目标二维人体姿态框所表示的目标的姿态就是几何一致的。通过上述满足条件，可以更好地在不同的帧之间关联边界框，从而更准确地跟踪目标的运动轨迹。相较于传统三维姿态估计方法(如模式匹配、局部分析)，通过同一视频的全部图像帧外观、几何相似度的帧间匹配，对同一目标的持续追踪性有着有效提升。

根据循环一致性的多路匹配，如果传入的帧间图像仅有两个视图需要匹配，即可以简单的最大化相似性区间的最大值，但是在同时处理多个帧间视图的问题时，常常会忽略循环一致性约束，并且可能导致匹配不一致的结果，如图2所示，例如，经过二维人体姿态框框出三张视图中不同目标，其中，以红色框作为框选目标1的矩形框，以绿色框作为框选目标2的矩形框，红色的对应是不一致的，绿色的对应周期一致的，因为他们形成了一个闭合的周期。具体的，在第一张视图中可看出分别通过不同颜色矩形框分别框选出目标1和目标2，以得到目标1的姿态框01和目标2的姿态框05，在第二张视图中可看出依旧通过不同颜色矩形框分别框选出目标1和目标2，以得到目标1的姿态框02和目标2的姿态框06。而在第三张视图中可看出，虽然分别通过不同颜色矩形框分别框选出目标1和目标2，得到目标1的姿态框03、目标1的姿态框04以及目标2的姿态框07，但是通过实际情况可知，在第三张视图红色矩形框框出的目标1存在框选错误的现象，而绿色矩形框框选的目标2是正确的。因此，通过利用计算的相邻目标视频帧之间的最大化亲和度分数来衡量二者的几何一致性的过程中，使用循环一致性的多路匹配来处理多个帧间视图的匹配问题。具体来说，可以通过最大化相似性区间的最大值来选择最佳匹配，同时保持循环一致性约束，以避免匹配不一致的结果，并将匹配一致的二维人体姿态信息作为二维人体骨架序列。

本实施例中，利用所述目标视频帧和对应的二维人体骨架序列对帧间比对子模型进行半监督学习训练，以获取用于帧间亲和度检测的目标帧间比对子模型。可以理解的是，三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型为通过预训练阶段完成先导模型的预训练，核心训练策略采用半监督学习学习策略，根据先导模型预训练的效果带动三维人体姿态估计模型进行训练。也即目标帧间比对子模型re-fr的帧间比对及亲和度检测与三维人体姿态估计将在3DPM(3D People Model)数据集上完成预训练。这样一来，可在训练过程中，实现数据集的自标注过程，得到自标注数据集，自标注数据集"是指由机器学习模型自身产生的标注数据集。在传统的机器学习中，通常需要手动标注大量的数据来训练模型，这是一项耗时且昂贵的任务。然而，自标注数据集是通过使用已经训练好的模型来自动标注新的数据，从而减少手动标注的工作量。自标注数据集的生成过程通常涉及两个步骤：首先，使用已经训练好的模型对未标注的数据进行预测，得到预测结果；然后，将预测结果与真实标注进行比较，以确定预测结果的准确性。如果预测结果足够准确，可以将其作为标注数据集的一部分，用于训练新的模型。自标注数据集的优点是可以减少手动标注的工作量，提高数据标注的效率和准确性。此外，自标注数据集还可以用于改进模型的性能，因为它提供了更多的标注数据，可以更好地训练模型。

步骤S12：将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型将二维人体骨架序列映射至三维空间，以得到相应的三维人体骨架序列。

本实施例中，将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型利用空间位置编码和时间位置编码对所述二维人体骨架序列空间中各元素在空间中的位置信息和在时间上的位置信息编码至三维空间，以得到三维人体骨架序列。可以理解的是，将所述二维人体骨架序列输入至双向时空网络子模型，以便所述双向时空网络子模型利用空间位置编码和时间位置编码并基于所述二维人体骨架序列中包含的不同视角下检测到的同一关节的二维位置坐标计算所述关节的三维位置坐标，得到三维人体骨架序列。具体的，输入二维人体骨架序列至双向时空网络子模型，首先将其投影到高维特征/>上，然后将可学习的空间位置编码/>和时间位置编码/>加入其中。然后利用计算/>(i＝1，…，N)其中，N为网络深度。对F^N应用具有tanh激活的线性层来计算运动表示最后，应用线性变换toE来估计3D运动的/>这里，T表示序列长度，J表示身体关节的数量。C_in、C_f、C_e、C_out分别为输入通道号、特征通道号、嵌入通道号、输出通道号。

可见，相较于传统方法中将检测到的人体二维视图采用最大化策略将一整个状态空间离散为统一的三维网络伴随产生复杂度随着空间维数的增加而快速增长的方法。本发明没有采取网格采样，而是将每个3D关节的状态空间设置为由所有对应的2D关节对三角化的3D建议。只要在两个视图中正确检测到关节，通过其真实的3D位置就包含在提案中。也即，通过在两个不同的视角下检测到关节的位置，可以使用三角测量原理来计算出关节的真实三维位置。具体来说，假设在两个视角下检测到了关节的二维坐标分别为(x₁，y₁)和(x₂，y₂)，则可以使用以下公式计算出关节的三维坐标(x，y，z)：

通过这种方法，只要在两个视图中正确检测到关节的位置，就可以得到关节的真实三维位置，从而提高三维人体姿态估计的准确性。通过这种方式，状态空间大大减少，从而在不牺牲准确性的情况下获得更快的推断。

步骤S13：通过所述三维人体姿态估计模型对所述三维人体骨架序列与环境信息、人体深度信息进行三维人体姿态估计，以得到相应的估计结果。

本实施例中，使用构建完成的人体三维空间的三维人体骨架序列和环境信息与人体深度信息，共同构建出人体三维骨架结构。最后通过三维人体姿态估计模型对构建的人体三维骨架结构进行姿态分析，进行三维人体姿态估计，最后，输出估计的三维人体姿态。

参照图3所示，本发明实施例公开了一种具体的三维人体姿态估计方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

步骤S21：获取目标视频流，并通过三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以对各个所述目标视频帧中的二维人体姿态进行帧间匹配，获取所述目标视频帧中包含的二维人体骨架序列。

步骤S22：利用预设数量个包含空间分支和时间分支的双流融合模块构建初始双向时空网络子模型；设置包含模型训练次数、偏移计算层、丢弃数据的比例参数、数据切片信息的所述初始双向时空网络子模型的模型参数；利用训练数据集对所述初始双向时空网络子模型进行无标记学习训练，以得到双向时空网络子模型。

本实施例中，双向时空网络子模型的参数、层数以及主干框架由双向时空BERT模型构成。该双向时空网络子模型是训练全局空间位置样本以及姿态样本的核心模型.双向时空BERT(Bidirectional Encoder Representations from Transformers)模型由N个双流融合模块组成。每个模块包含两个时空分支MHSA(Multi-Head Self-Attention，多头自注意力)和MLP(Multi-Layer Perceptron，多层感知机)。空间MHSA模拟不同关节在一个时间步长的连接，而时间MHSA模拟一个关节的运动，BatchNorm为每次训练规模参数，ReLU为偏移计算层.Dropout为丢弃数据的比例参数,Slice为所选数据切片。神经网络训练需要多次，因为在本发明采取的无标记学习过程就是调整和收集额外有效训练样本的过程，需要不断更新初始建立的神经网络，使得神经网络的映射关系不断完善。双向时空网络模型经过学习一定的真实配套数据后.用测试数据进行预测，将预测值和测试数据再代入神经网络训练，实现映射关系的更新。

本实施例中，空间块MHSA(S-MHSA)旨在建模同一时间步长的关节之间的关系。它被定义为：

其中，为投影参数矩阵，h为正面个数，i∈1，…，h。利用自注意力层，从每个head_i的输入每帧空间特征/>中得到查询Q_s、键K_s和值V_s：

其中，为投影矩阵，d_k为K_s的维数。将S-MHSA并行应用于不同时间步长的特征。S-MHSA结果采用残差连接和层归一化LayerNorm，再将其馈入多层感知器MLP，然后进行残差连接和LayerNorm跟踪。最后用MHSA、LayerNorm、MLP和S表示整个空间块。

本实施例中，时间MHSA(T-MHSA)旨在为身体关节建模跨时间步的关系。其计算过程与S-MHSA相似，不同之处是MHSA应用于每个关节的时间特征并在空间维度上并行化。

其中，i∈1，…，h，Q_T、K_T、V_T的计算方法与空间块的计算相似。用T来表示整个时间块。

本实施例中，给定分别捕获帧内和帧间身体关节相互作用的空间和时间MHSA，组装基本构建块以融合流中的空间和时间信息。通过设计了一个双流体系结构，其指导原则如下：两种流都可以模拟综合时空上下文；两种流分别针对不同的时空方面；将两种流融合在一起，并根据输入时空特征动态平衡融合权重。因此，将空间和时间的MHSA块按不同的顺序堆叠，形成两个并行计算分支。利用注意回归器预测的自适应权值融合两个分支的输出特征。然后双流融合模块重复n次，最后整合输出形成双向时空转换器，以作为双向时空网络子模型的重点架构：

其中，i∈1，…，N，Fⁱ表示功能嵌入深度i，表示逐元素生成，不同块不共享权重。自适应融合权值/> 为如下，W是一个可学习的线性变换。

步骤S23：将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型将二维人体骨架序列映射至三维空间，以得到相应的三维人体骨架序列。

其中，步骤S21、S23中更加详细的处理过程请参照前述公开的实施例内容，在此不再进行赘述。

步骤S24：通过所述三维人体姿态估计模型并基于所述目标视频帧中视频场景中各个点到相机的距离信息获取包含人体深度信息的深度图，以利用所述三维人体骨架序列、环境信息与所述人体深度信息对所述目标视频帧进行三维人体姿态估计。

本实施例中，通过所述三维人体姿态估计模型并基于所述目标视频帧中视频场景中各个点到相机的距离信息获取包含人体深度信息的深度图，并从该深度图获取环境信息和人体深度信息，其中，环境信息可以包括场景中的物体、背景、光照等因素，而人体深度信息则指的是人体在三维空间中的位置、姿态、形状等信息。深度图获取的具体流程如下：深度估计也即获取图像中场景里的每个点到相机的距离信息，这种距离信息组成的图称之为深度图。是一项从单目相机成像的图像中估计深度信息的任务，两张图像中相同物体的像素坐标不同，较近的物体的像素坐标差异较大，较远的物体的差异较小。同一个世界坐标系下的点在不同图像中的像素坐标差异，就是视差。不同图像之间的视差，可以换算出物体和拍摄点之间的距离，也就是深度。单目摄像头很难直接从二维图像中获取深度信息。在计算机视觉、图形学和机器学习等领域，对二维图像进行深度估计一直以来是一个不适应问题。在目前的技术中，立体匹配技术是最常用的一种，因为它与人的视觉系统密切相关，这种方法采用搜索和匹配找到两张图像的统一像素点即立体匹配方法，进而找出其间像素坐标的差异，利用多幅图像匹配和手工提取的特点实现了基于立体视觉的深度估计。与其他任务类似，传统算法的限制性较大，经常受到复杂的背景、光照、遮挡的影响。基于本发明神经网络中深度信息估计的解码器，其结构如图4所示，它的输入通道数与编码器的输出相同，从由双线性上采样组成的上采样块开始，然后由Concat层与编码器连接，而后紧随的是由两个大小为3x3的卷积层组成的Conv Block，在网络的最后一个Conv Block中仅有一个大小为3x3的卷积层。

深度信息损失值计算公式如下所示：

其中，每个上采样块中使用Leaky ReLU作为激活函数，将参数设置为0.1。对于深度信息估计的解码器网络，训练时将人体图像的真实深度图与预测深度图之间的差异作为损失函数，损失函数的选择将会对深度估计的准确性和训练速度造成较大影响，因此该解码器网络的损失函数被设置为下式来最小化真实深度图与预测深度图之间的差值，其中，y为该点的真实深度值，则代表该点的预测深度值。最后利用三维人体骨架序列、环境信息与所述人体深度信息对所述目标视频帧进行三维人体姿态估计。

由此可见，BERT网络结构特性设计出通过按照不同顺序堆叠时间和空间的MHSA块，形成两个并行的计算分支，通过分部计算、集中整合的方法，有效提升了系统对于人体细微关节姿态的识别精准度。并且相较于传统模型在训练过程中对于数据标注准确率的要求较高，模型的识别能力受到数据集训练程度影响较大，本发明在训练过程中通过采取半监督学习的学习策略，在预训练的过程中采取小样本标注，无标注样本学习的训练方法，使得模型的泛化能力显著提升。

参照图5所示，本发明还公开了一种三维人体姿态估计装置，包括：

二维序列获取模块11，用于获取目标视频流，并通过三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以对各个所述目标视频帧中的二维人体姿态进行帧间匹配，获取所述目标视频帧中包含的二维人体骨架序列；

三维序列生成模块12，用于将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型将二维人体骨架序列映射至三维空间，以得到相应的三维人体骨架序列；

姿态估计模块13，用于通过所述三维人体姿态估计模型对所述三维人体骨架序列与环境信息、人体深度信息进行三维人体姿态估计，以得到相应的估计结果。

由此可见，本申请公开了获取目标视频流，并通过三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以对各个所述目标视频帧中的二维人体姿态进行帧间匹配，获取所述目标视频帧中包含的二维人体骨架序列；将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型将二维人体骨架序列映射至三维空间，以得到相应的三维人体骨架序列；通过所述三维人体姿态估计模型对所述三维人体骨架序列与环境信息、人体深度信息进行三维人体姿态估计，以得到相应的估计结果。可见，通过半监督学习训练的目标帧间比对子模型能够自行推断估计关节所处位置，既解决了人体模型数据标注困难的问题又同时兼顾到训练过程中的标注不准确而导致的识别程度差异较大的问题，并且通过帧间匹配能够实现在遮挡发生或已发生后的目标检测匹配，保证了针对单一姿态识别精度且也能保证针对个人的目标匹配，降低了三维姿态的估计成本，提高了三维姿态检测的准确率。

进一步的，本申请实施例还公开了一种电子设备，图6是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的三维人体姿态估计方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的三维人体姿态估计方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的三维人体姿态估计方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器RAM(Random Access Memory)、内存、只读存储器ROM(Read Only Memory)、电可编程EPROM(Electrically Programmable Read Only Memory)、电可擦除可编程EEPROM(ElectricErasable Programmable Read Only Memory)、寄存器、硬盘、可移动磁盘、CD-ROM(CompactDisc-Read Only Memory，紧凑型光盘只读储存器)、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种三维人体姿态估计方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种三维人体姿态估计方法，其特征在于，包括：

2.根据权利要求1所述的三维人体姿态估计方法，其特征在于，所述通过三维人体姿态估计模型中的半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以对各个所述目标视频帧中的二维人体姿态进行帧间匹配，获取所述目标视频帧中包含的二维人体骨架序列，包括：

通过半监督学习训练的目标帧间比对子模型对所述目标视频流的完全帧进行全帧提取，以获取目标视频帧，以通过姿态框对所述目标视频帧中的二维人体姿态进行框出，以得到二维人体姿态框，利用所述二维人体姿态框对相邻目标视频帧之间的帧间视图进行相同动作标准的人体姿态框匹配，以获取目标二维人体姿态框；

3.根据权利要求2所述的三维人体姿态估计方法，其特征在于，还包括：

4.根据权利要求1所述的三维人体姿态估计方法，其特征在于，所述将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型将二维人体骨架序列映射至三维空间，以得到相应的三维人体骨架序列，包括：

5.根据权利要求4所述的三维人体姿态估计方法，其特征在于，所述将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型，以便所述双向时空网络子模型利用空间位置编码和时间位置编码对所述二维人体骨架序列空间中各元素在空间中的位置信息和在时间上的位置信息编码至三维空间，以得到三维人体骨架序列，包括：

6.根据权利要求1所述的三维人体姿态估计方法，其特征在于，所述将所述二维人体骨架序列输入至所述三维人体姿态估计模型中的双向时空网络子模型之前，还包括：

利用预设数量个包含空间分支和时间分支的双流融合模块构建初始双向时空网络子模型；

7.根据权利要求1至6任一项所述的三维人体姿态估计方法，其特征在于，所述通过所述三维人体姿态估计模型对所述三维人体骨架序列与环境信息、人体深度信息进行三维人体姿态估计，以得到相应的估计结果，包括：

8.一种三维人体姿态估计装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的三维人体姿态估计方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的三维人体姿态估计方法的步骤。