CN115223201A

CN115223201A - 基于单目序列图像的三维人体关节点估算方法、系统及装置

Info

Publication number: CN115223201A
Application number: CN202210835636.2A
Authority: CN
Inventors: 吕钊; 王华彬; 周健; 李平; 裴胜兵; 范存航
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-21

Abstract

本发明涉及一种基于单目序列图像的三维人体关节点估算方法、系统及装置，该估算方法先获取每一帧单目序列图像中的二维人体关节序列，然后对二维人体关节点序列进行滤波处理，在二维人体关节点序列中加入位置编码后输入至一个新构建的空间特征提取网络中，提取每一帧单目序列图像中的人体关节点的空间特征，进而得到一个n帧的三维人体关节点姿态特征序列。再然后将n帧的三维人体关节点姿态特征序列输入至一个时序特征提取网络中，得到中间帧的三维人体关节点特征。最终将中间帧的三维人体关节点特征输入到一个全连接层模块二，得到中间帧的三维人体关节点坐标。该估算方法能够有效降低关节点估算过程中的估计误差。

Description

基于单目序列图像的三维人体关节点估算方法、系统及装置

技术领域

本发明涉及关节点定位领域，特别是涉及一种基于单目序列图像的三维人体关节点估算方法、系统及装置。

背景技术

人体骨骼关节点对于描述人体姿态、预测人体行为起到至关重要的作用。人体骨骼关节点的捕捉被广泛应用于电子游戏、机器人开发、虚拟现实等领域。近些年来，随着人工智能以及图像算力的快速发展，如何让机器模仿人类的思维特性对关节点进行捕捉计算，并且关节点的计算比人类更加精确，成为了目前关节点定位领域亟需解决的问题。

Transformer由于其高效、可伸缩性和强大的建模能力，已经成为自然语言处理(NLP)的事实模型，现在正被引入计算机视觉任务，如图像分类、对象检测和语义分割。得益于自注意力机制，Transformer能捕捉长时序输入的内在关联，且不受制于其距离，跨长输入序列的全局相关性特征可以被清楚地捕获。这使得它特别适合序列数据问题的架构，因此自然可以扩展到序列数据的三维人体关节点估计。

然而，最近的研究表明，在视觉任务方面，现有的基于Transformer的关节点估算方法中，处理序列时存在大量冗余，并且模型的内存需求较高。另外，在处理帧对帧之间时序特征信息的提取时还可能会丢失大量有价值的信息，导致估计误差较大，并且不能很好地利用局部信息，从而限制了Transformer在人体骨骼关节点中的应用。

发明内容

基于此，有必要针对现有技术中三维人体关节点估算存在估计误差较大的技术问题，本发明提供一种基于单目序列图像的三维人体关节点估算方法、系统及装置。

本发明公开一种基于单目序列图像的三维人体关节点估算方法，其包括以下步骤：

S1：采集多帧含有人体关节动作的单目序列图像，并获取每一帧单目序列图像中的二维人体关节序列。

S2：对二维人体关节点序列进行滤波处理，然后在二维人体关节点序列中加入位置编码。

S3：将位置编码后的J个二维人体关节序列输入至一个新构建的空间特征提取网络中，提取每一帧单目序列图像中的人体关节点的空间特征，进而得到一个n帧的三维人体关节点姿态特征序列。其中，空间特征提取网络的构建方法包括如下步骤：

S31：根据人体骨骼的链式结构将人体的各个关节点划分为多个关节集。

S32：按照各个关节集的运动幅度特性，将多个关节集分配至多个不同估算难度的层级。

S33：按照链式结构的分属特性，将每个层级中的多个关节集划分到表征不同分属部位的多条通道，进而使多个关节集组合成树状串联结构。其中，多个层级按照先易后难的顺序，与树状串联结构的延伸方向相对应。

S34：设计分别与多个关节集对应的多组空间特征提取模块，进而构成空间特征提取网络。每组空间特征提取模块用于提取相应关节集的关节点空间特征向量。

S4：将n帧的三维人体关节点姿态特征序列输入至一个时序特征提取网络中，得到中间帧的三维人体关节点特征。其中，时序特征提取网络包括多组时序特征提取模块。每组时序特征提取模块用于通过提取多帧连续的人体关节点姿态特征，进而合并相邻帧缩减多帧人体关节点姿态的帧序列，经过多组时序特征提取模块得到目标帧的三维人体关节点坐标。

S5：将中间帧的三维人体关节点特征输入到一个维度为T*J的全连接层模块二，得到中间帧的三维人体关节点坐标。

作为本发明的进一步改进，S32和S33中，关节集共设置有八个。多个层级按照估算难度由易到难依次设置有四个：第一层级、第二层级、第三层级和第四层级。表征不同分属部位的通道共设置有三条：第一通道、第二通道、第三通道。第一通道对应头部，第二通道对应手部，第三通道对应腿部。

其中，第一个层级分配有一个关节集，该关节集包括尾骨、脊柱、胸腔、左髋骨和右髋骨共五个关节点。

第二层级分配有三个关节集，位于第一通道的关节集包括颈部。位于第二通道的关节集包括左肩膀、右肩膀。位于第三通道的关节集包括左膝盖、右膝盖。

第三层级分配有三个关节集，位于第一通道的关节集包括头部。位于第二通道的关节集包括左手肘、右手肘。位于第三通道的关节集包括左脚踝、右脚踝。

第四层级分配有一个关节集，该关节集包括左手腕、右手腕。

作为本发明的进一步改进，S3和S4中，空间特征提取网络和时序特征提取网络串联，进而构成一个针对性时空Transformer网络模型。针对性时空Transformer网络模型基于经典的Transformer网络进行改进。针对性时空Transformer网络模型的构建方法包括如下步骤：

(一)获取标准Transformer网络作为空间特征提取模块和时序特征提取模块的基本构架，使用GeLU函数分别作为空间特征提取模块和时序特征提取模块的激活函数，并在激活中融入随机正则化功能。

(二)将每组时序特征提取模块中的全连接层替换为跨步卷积单元。跨步卷积单元用于降低层与层之间的时间维度。

(三)在每组时序特征提取模块采用残差结构二实现各单元间的连接，并将平均池化函数作为残差结构的降维函数。

(四)在空间特征提取网络的输出端增加一个维度为T*J的全连接层模块一，还在时序特征提取网络的输出端增加全连接层模块二，进而构建出针对性时空Transformer网络模型。全连接层模块一用于根据n帧的三维人体关节点姿态特征序列得到一个n帧的三维人体关节点序列。

作为本发明的进一步改进，空间特征提取模块和时序特征提取模块的激活函数的表达公式为：

作为本发明的进一步改进，构建出针对性时空Transformer网络模型后，还对针对性时空Transformer网络模型进行训练，训练过程如下：

获取多帧已知关节点坐标真实数据的标准单目序列图像，并将标准单目序列图像与对应的待估算单目序列图像混合，得到随机的单目序列图像集。以单目序列图像集作为样本数据构成进行模型训练的数据集，并将数据集分为训练集和验证集。

完成针对性时空Transformer网络模型的初始化，利用训练集对针对性时空Transformer网络模型进行训练，利用验证集验证针对性时空Transformer网络模型的训练效果，进而得到训练完成的针对性时空Transformer网络模型。

作为本发明的进一步改进，每个空间特征提取模块包括：层归一化单元一、多头注意力单元一、两个全连接层单元一以及残差结构一。

其中，每个空间特征提取模块生成的特征向量经过全连接层模块一生成一个三维姿态，进而计算中间监督损失函数L_J以快速反向传播，中间监督损失函数L_J设置为每个空间特征提取模块优化关节点与真实数据中对应关节点间的平均欧式距离。

将全连接层模块一生成的n帧的三维人体关节点序列与n帧对应真实数据中对应关节点之间的平均欧式距离作为空间特征提取网络的序列损失函数L_K：

式中，

表示关节i在t帧处估计的三维关节点位置。

表示关节i在t帧处真实三维关节点位置。

空间特征提取网络的总损失L_S的表达公式为：

L_S＝λ_KL_K+λ_JL_J

式中，λ_K和λ_J分别为与中间监督损失函数和序列损失函数相对应的权重因子。

作为本发明的进一步改进，每组时序特征提取模块包括：层归一化单元二、多头注意力单元二、两个连续的一维卷积单元以及残差结构二。

其中，利用单帧损耗L_T来最小化时序特征提取网络输出的中间帧的三维关节点坐标X与对应的真实三维人体关节点坐标Y之间的距离。L_T的表达公式为：

作为本发明的进一步改进，针对性时空Transformer网络模型的总损失L的表达公式为：

L＝λ_SL_S+λ_TL_T

式中，λ_S和λ_T分别为与空间特征提取网络和时序特征提取网络相关的权重因子。

本发明还公开一种基于单目序列图像的三维人体关节点估算系统，其采用上述任意一项基于单目序列图像的三维人体关节点估算方法。基于单目序列图像的三维人体关节点估算系统包括：图像采集模块、前序处理模块、空间特征提取网络、时序特征提取网络以及全连接层模块二。

图像采集模块用于采集多帧含有人体关节动作的单目序列图像，并获取每一帧单目序列图像中的二维人体关节序列。

前序处理模块用于对二维人体关节点序列进行滤波处理，然后在二维人体关节点序列中加入位置编码。

空间特征提取网络用于提取每一帧单目序列图像中的人体关节点的空间特征，进而得到一个n帧的三维人体关节点姿态特征序列。空间特征提取网络包括多组空间特征提取模块。每组空间特征提取模块用于提取相应关节集的关节点空间特征向量。

时序特征提取网络用于根据n帧的三维人体关节点姿态特征序列得到中间帧的三维人体关节点特征。时序特征提取网络包括多组时序特征提取模块。每组时序特征提取模块用于通过提取多帧连续的人体关节点姿态特征，进而合并相邻帧缩减多帧人体关节点姿态的帧序列，经过多组时序特征提取模块得到目标帧的三维人体关节点坐标。

全连接层模块二用于根据中间帧的三维人体关节点特征得到中间帧的三维人体关节点坐标。

本发明还公开一种基于单目序列图像的三维人体关节点估算装置，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任意一项的基于单目序列图像的三维人体关节点估算方法的步骤。

与现有技术相比，本发明公开的技术方案有如下有益效果：

1、该估算方法采用两阶段法从单目序列图像中估计中间帧三维人体关节点位置，先利用新构建的空间特征提取网络从二维人体关节序列中提取每一帧单目序列图像中的人体关节点的空间特征，进而得到三维人体关节点姿态特征序列。并且构建的空间特征提取网络先根据人体骨骼的链式结构特点，确定核心五个关节点，然后依次估计靠近链式结构边缘的关节点，利用链式结构中关节点之间的约束，由易到难，层层递进，有效提升了模型的精确度，并且一定程度缓解了整体估计带来的一个关节点出现的估计误差传递到所有关节点的问题，最终能够有效降低关节点估算过程中的估计误差。

2、该估算方法改进了PoseFormer的网络结构，提出了针对性时空Transformer网络模型。首先结合时序卷积结构来处理帧于帧之间的时间特征，用跨步卷积取代Transformer中的全连接层，逐步减少序列长度，有效解决了相近帧的时序特征的冗余问题，减少无效特征的干扰。另外，还使用GeLU作为激活函数，在激活函数中融入了随机正则化，有效提升了模型的泛化性。最后，改良后的Transformer权衡了MLP中的计算来构建更深层次的模型，并以全局和局部的方式聚合信息，提高模型容量，同时应用中间监督的思想，在空间和时间上分别对序列图像的损失函数进行监督，基于空间Transformer的结构更有助于学习单帧人体关节点之间的空间信息特征提取，而基于时间Transformer的结构将注意力放在帧与帧之间的时间信息特征提取，增强时间平滑性。

3、该估算系统及装置的有益效果与上述估算方法相同，在此不再赘述。

附图说明

图1为本发明实施例1中Transformer应用于人体关节点的两种思路示意图；

图2为本发明实施例1中基于纯Transformer模块的算法结构示意图；

图3为本发明实施例1中基于单目序列图像的三维人体关节点估算的流程图；

图4为本发明实施例1中针对性时空Transformer网络模型执行估算方法时的系统框图图；

图5为本发明实施例1中不同关节点在系列帧的标准差对比图；

图6为本发明实施例1中人体关节结构划分示意图；

图7为本发明实施例1中空间特征提取网络的结构示意图；

图8为本发明实施例1中空间特征提取模块的模块示意图；

图9为本发明实施例1中时序特征提取模块的模块示意图；

图10为本发明实施例1中的不同激活函数对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当组件被称为“安装于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。当一个组件被认为是“固定于”另一个组件，它可以是直接固定在另一个组件上或者可能同时存在居中组件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“或/及”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例1

然而，最近的研究表明，在视觉任务方面，Transformer需要特定的设计才能达到与CNN同类模型相当的性能。具体来说，它们通常需要非常大规模的训练数据集，或者如果应用于较小的数据集，则需要数据增强和正则化。此外，现有的视觉Transformer主要局限于图像分类、目标检测和分割，但就如何利用Transformer的力量用于三维人体关节点估计的工作仍较少。

请参阅图1，有学者试图将Transformer直接应用在二维到三维的人体姿态估计上。图1(a)中的一种方法是将给定序列中每一帧的整个二维姿态视为一个token。虽然这种方法在一定程度上是有用的，但它忽略了空间关系，即一帧二维姿态中的关节与关节之间的信息。图1(b)中的另一种方法是将每帧二维姿态的每个关节的坐标视为tokens，并提供来自序列所有帧的这些关节组成的输入。然而，当使用帧数较高的序列作为输入时，tokens的数量会越来越大。例如三维人体姿态估计中常见的是243帧序列的输入，每帧有17个关节，tokens的数量为243×17＝4131。由于Transformer模型会对每个tokens与另一个tokens直接计算，因此模型的内存需求达到了一个不合理的水平。

请参阅图2，为了解决这个问题，Zheng等人提出了PoseFormer。PoseFormer直接用两个不同的Transformer模块对输入的二维关节点序列从空间和时间方面建模。具体地说，PoseFormer构建的空间Transformer模块编码每一帧中二维关节点间的局部关系，自注意力层将重点放在二维关节点的空间位置信息，并返回潜在的特征表示。接下来，时间Transformer模块将分析每帧空间特征表示之间的全局时序依赖关系，并最终生成准确的三维姿态估计。PoseFormer固然能够起到不错的效果，其不仅在空间和时间的维度上提取特征，而且它这样做时不会对长输入序列产生巨大的tokens计数。

然而，PoseFormer对帧与帧之间时序特征信息的提取实际上包含了基于关节点序列的姿态估计的大量冗余，因为相邻的帧非常相似。因此应该逐步合并邻近帧，以减少序列长度，直到一个中间帧的三维关节点表示。一种方法是在MLP(Multi-Layer Perception)之后执行池化操作。但是，此方法可能会丢失大量有价值的信息，并且不能很好地利用局部信息。

基于此，本实施例提供一种基于单目序列图像的三维人体关节点估算方法，以下将对该方法进行介绍和验证。

请参阅图3和图4，本实施例提供一种基于单目序列图像的三维人体关节点估算方法，其包括步骤S1～S5。

本实施例中，可利用CPN作为二维关节探测器输出视频序列的二维人体姿态序列。

S3：将位置编码后的J个二维人体关节序列输入至一个空间特征提取网络中，提取每一帧单目序列图像中的人体关节点的空间特征，进而得到一个n帧的三维人体关节点姿态特征序列。其中，空间特征提取网络的构建方法包括如下步骤：

本实施例中的关节点估算方法基于整体回归的深度学习方法，一般较难处理复杂度高的关节点，而人体关节点的复杂度与其相应的动作幅度密切相关，可以用一段时间内人体运动中各个关节点在各个方向上的坐标标准差来判断。

人体在进行不同动作时的活动范围虽有差别，但无论人体在进行怎样的活动，沿人体躯干，关节点的活动幅度都会有一个或多个方向地逐渐增加。在同样的动作下，即使在只分析平面的低维人体关节点轨迹中，不同的关节部位也会出现不同的动作幅度。

请参阅图5，本文选取Human3.6M数据集中某位演员在进行不同动作时各个关节在x，y，z三个方向上的真实位置坐标，并对其取标准差来分析在这个动作中，各个关节点的运动幅度大小。如图4所示，我们发现，无论是讨论动作、摆拍动作还是坐下动作中，人体手腕部的关节点的运动幅度总为所有关节点之首，且关节点随着人体骨骼的链式结构，由手腕到手肘再到肩膀，其标准差总是呈现一个下降的趋势。因此可以得到结论：人体的关节点运动幅度是随着骨骼的链式结构逐渐变大的，也就是说，越靠近手腕脚腕的关节点，运动幅度越大，估计难度越大。而髋骨、脊柱、胸腔等关节点运动幅度总是最小，估计难度小，可视为人体骨骼关节点结构的根节点，在算法中先行估计。确定了容易估计的关节点位置，在根据人体骨骼关节点结构的约束，便能较轻松地估计靠近手腕脚腕的较难估计的关节点。

因此，本实施例提出将人体所有关节点依据其在一段视频中所有帧坐标的标准差进行复杂度划分。

请参阅图6，本实施例提供如图6中所示的针对性人体关节性结构，可将人体各个关节点划分为四个层级：第一层级、第二层级、第三层级和第四层级。关节集可以设置有八个。表征不同分属部位的通道共设置有三条：第一通道、第二通道、第三通道。第一通道对应头部，第二通道对应手部，第三通道对应腿部。

其中，第一层级包含5个节点，尾骨、脊柱、胸腔、左髋骨和右髋骨。该5个节点运动幅度小，估计难度低，在三维人体关节点估计中将其视为核心关节点来最先估计。第二层级包含左膝、右膝、左肩膀、右肩膀和颈部共计五个关节点，这部分的关节点估计难度略有提升，在算法中放在第一层级之后进行估计。第三层级包含左踝、右踝、左手肘、右手肘和头部共计五个关节点，这部分的关节点靠近人体关节点结构的边缘，估计难度较大，在算法中将其放在第二层级之后进行估计。第四层级为运动复杂度最高的左手腕和右手腕两个关节点，此部分关节点是人体关节点结构的边缘，运动幅度最大，在算法中将其放在最后进行估计。同时，由于手臂、腿部和头部分属不同的链式结构，为了将其区分，本实施例还在之前的划分上按照这三种链式结构对关节点再度划分，即三条通道。

请参阅图7，本实施例中的空间特征提取网络包括8个空间特征提取模块，各个空间特征提取模块在上述的四个层次基础上，再次被划分至3条通道。在空间特征提取网络中，优先估计运动幅度小、复杂度低的关节点，然后估计与之相邻的靠近链式结构边缘的、复杂度高的关节点。由于链式结构中相邻人体关节点存在一定的约束作用，在确定其中一个关节点后，就会较容易估计出另一个关节点，因此模型将加入位置编码后的J个特征向量输入到第一层空间特征提取Transformer模块，用于调整复杂度最低的第一层的五个关节点，分别是髋骨、脊柱、胸腔、左右髋骨。然后根据人体链式结构的特征，映射成3个d_m维的特征向量，分别输入3个通道，为了调整颈部、手部和腿部的关节点。再依据针对性人体关节点结构，一步步完成关节点复杂度由低到高、由简单到困难的估计。例如第二条通道用于优化手部上的关节点，先优化复杂度较低的左右肩膀、再优化复杂度较高的左右手肘，最后优化复杂度最高的左右手腕。最终三条通道汇总得到所有关节点都得到优化的人体姿态。

请参阅图8，本实施例中，每个空间特征提取模块包括：层归一化单元一、多头注意力单元一、两个全连接层单元一以及残差结构一，激活函数可以使用GeLU函数，在激活中加入正则化的功能，以提高泛化能力。每组空间特征提取模块生成的特征向量经过全连接层模块一生成一个三维姿态，进而计算中间监督损失函数L_J以快速反向传播，中间监督损失函数L_J设置为每个空间特征提取模块优化关节点与真实数据中对应关节点间的平均欧式距离。

本实施例中，先根据人体骨骼的链式结构，确定核心五个关节点，然后依次估计靠近链式结构边缘的关节点，利用链式结构中关节点之间的约束，由易到难，一定程度缓解了整体估计带来的一个关节点出现的估计误差传递到所有关节点的问题。

另外，我们还注意到，在单个目标帧尺度上直接监督的模型没有考虑到帧与帧之间的时序平滑性，而只在全序列尺度上监督的模型不能明确地学习目标帧的特定表示。为了将这两种尺度约束结合到框架中，提出了一种完整到单一的方案，进一步细化中间预测，以产生更准确的估计，而不是使用单一的组件与单一的输出。我们通过在训练过程中施加额外的时间平滑约束来实现全序列尺度的监督。空间特征提取网络最终输出的n帧的三维人体关节点姿态特征序列可以输入到全连接层模块一中，将全连接层模块一生成的n帧的三维人体关节点序列与n帧对应真实数据中对应关节点之间的平均欧式距离作为空间特征提取网络的序列损失函数L_K，在空间层面整体对人体关节点进行中间监督，以改进单帧序列的时间一致性预测。再加上之前针对每个空间提取模块产生的中间监督损失函数L_J，L_K以及整个空间特征提取网络的总损失L_S的表达公式分别如下：

L_S＝λ_KL_K+λ_JL_J

式中，

表示关节i在t帧处估计的三维关节点位置。

表示关节i在t帧处真实三维关节点位置。λ_K和λ_J分别为与中间监督损失函数和序列损失函数相对应的权重因子。

在前述的空间特征提取网络中，完成了对每一帧图像的人体关节点的空间特征提取。以下将介绍时序特征提取网络。

请参阅图9，每组时序特征提取模块包括：层归一化单元二、多头注意力单元二、两个连续的一维卷积单元以及残差结构二。基于时序卷积的方法来处理不同输入长度的序列，我们提出用跨步卷积取代时序特征提取模块中的全连接层，逐步减少序列长度，其中自注意力单元二用于提取全局时序特征，跨步卷积单元有助于提取相近帧的时序特征。这样从一层到另一层逐渐降低时间维度，并将附近的姿态合并为一个短序列长度表示。时序特征提取网络以全局和局部的方式聚合信息，更重要的是，减少了所有帧的冗余，从而提高了模型的容量，增强了时间平滑性。同时，为了防止梯度消失或者梯度爆炸的现象，我们分别在多头注意力单元二和作为前馈网络的全连接层采用了残差结构，并采用平均池化函数作为残差结构的降维函数，最大限度的保留了残差结构的特征信息。

最终，n帧的三维人体关节点姿态特征序列经过时序特征提取网络后，得到中间帧的三维人体关节点特征。

时间特征提取网络是一种逐层降维的结构。使用过去和未来数据预测输入序列中所有帧的三维人体姿态作为输出。本实施例中，使用单帧损耗L_T来最小化时序特征提取网络输出的中间帧的三维关节点坐标X与对应的真实三维人体关节点坐标Y之间的距离。L_T的表达公式为：

在本实施例中，空间特征提取网络和时序特征提取网络串联，进而构成一个针对性时空Transformer网络模型。针对性时空Transformer网络模型基于经典的Transformer网络进行改进。针对性时空Transformer网络模型的构建方法包括如下步骤：

构建出针对性时空Transformer网络模型后，还对针对性时空Transformer网络模型进行训练，训练过程如下：

S5：将中间帧的三维人体关节点特征输入到一个维度为T*J的全连接层模块二，得到中间帧的三维人体关节点坐标。整个针对性时空Transformer网络模型的总损失L的表达公式为：

L＝λ_SL_S+λ_TL_T

近些年，随着网络的不断深入，采用sigmoid激活函数的神经网络的训练被证明比非平滑的，概率较低的ReLU的效果要差，后者一般比sigmoid函数训练速度更快，收敛效果也更好。基于ReLU成功的经验，一种称为ELU的优化激活函数许可像ReLU这样的非线性函数输出小于0的值，在一些情况下会提升训练效率。总之，对于神经网络来说，激活函数的选择是非常必要的，以免神经网络成为线性的深层网络。

非线性激活函数可以很好地拟合数据，为了避免其过拟合，又需要通过加入正则化来提高其泛化能力。因此网络设计师经常面临如何选择随机正则化方法的问题。例如应用Dropout，并且正则化功能是与激活功能分开的。随机正则化器dropout通过随机与零相乘的方式，随机更改一些激活决策来创建伪集合。非线性激活函数和dropout因此共同决定了神经元的输出，但正则化器dropout的随机性与输入无关，缺少灵活性。

Hendrycks D和Gimpel K提出了一种新的非线性激活函数，即高斯误差线性单元(GELU)。它与随机正则化器有关，因为它是对随机正则化器Dropout的一种优化。需要说明的是，ReLU和Dropout都会输出一个神经元的结果，其中，前者会确定性地将输入乘0或1作为输出，后者则是随机乘上0。而GELU也是通过将输入乘上0或1来实现这个功能，但是输入是乘以0还是1，是在同时取决于输入自身分布的情况下随机选择的。换句话说，是0还是1取决于当前的输入有多大的概率大于其余的输入。这说明神经元可被输出的可能性更大。这种特别的非线性激活函数在多个领域的任务中均超过了ReLU或ELU激活函数。

请参阅图，本实施例中还对三维人体姿态估计中的ReLU激活函数、ELU激活函数和GELU激活函数进行了比较。ReLU激活函数(α＝1)、ELU激活函数(α＝1)和GELU激活函数(μ＝0，σ＝1)效果如图所示。在本实施例中，我们使用近似的GELU定义，即

为了验证本实施例提出的基于单目序列图像的三维人体关节点估算方法，本实施例还进行了如下的性能验证试验。性能验证试验过程如下：

实验与分析

本实施例探究了利用最近流行的Transformer模型实现从单目序列图像中估计三维人体关节点的问题，提出了针对性时空Transformer网络。首先利用CPN作为二维关节探测器输出视频序列的二维人体姿态序列，然后从空间和时间两个维度提取二维人体姿态序列的特征信息，并输出该视频序列最中间一帧的三维人体姿态。为了检验新模型的成果。本实施例在Human3.6M数据集上对上述方法进行测试，还使用Ubuntu系统、Pytorch框架搭建网络，使用显卡为GTX1080Ti。

实验设置如下：

(1)在标准协议下对模型的性能进行测试。

(2)研究空间模型的改进、时序模型的改进以及激活函数的改进对实验结果的具体影响。

(3)对模型的不同超参数组合进行试验，探求可训练出最佳效果的超参数组合。

标准协议实验

本实施例继续引入Human3.6M数据集进行模型的检验，按照从二维到三维的二阶段方法，我们使用CPN网络作为二维关节点检测器，然后将检测到的二维关节点序列作为训练和测试的输入。实验基于协议1，并采用S9和S11作为验证集计算误差。具体的实验结果如表所示，最后一列提供了所有验证集中的平均值。具体请参阅表1。

表1标准协议1下的实验结果

表1(续)

表1中，数据单位为毫米(mm)。依据协议1的测试结果，本实施例提出的针对性时空Transformer网络模型的效果比时序卷积网络高出很多(4.6％)。这清楚地证明了使用Transformer网络来对人体关节点序列在时序和空间上建模的优势。由数据可知，针对性时空Transformer网络模型可以更准确地预测困难的动作，如拍照、坐下、遛狗和吸烟。与其他简单动作不同的是，这些动作中的人体姿态变化更快，一些远距离帧具有很强的相关性。在这种情况下，全局依赖性起着重要作用，而Transformer网络中的自注意力机制对于提取此类特征尤其有利。

在协议1下，本实施例提出的针对性时空Transformer网络模型的平均MPJPE最低为43.5毫米。与Zheng等人提出的PoseFormer网络相比，本实施例改进的针对性时空Transformer网络模型降低了约1.58％的MPJPE。究其原因，首先针对性时空Transformer网络模型更注重对人体链式结构的研究，对于每帧关节点的训练由易到难，层层递进。其次，针对性时空Transformer网络模型采用时序卷积模块替代后半部分MLP模块，以扩张卷积的方式逐步提取时序特征，有效改善了相邻帧之间特征的冗余问题。最后，针对性时空Transformer网络模型使用GeLU作为激活函数，在激活函数中融入了随机正则化，有效提升了模型的泛化性。

消融实验

为了验证针对性时空Transformer网络模型单个组件的贡献以及超参数对性能的影响，我们在协议1下对Human3.6M数据集进行了广泛的消融实验。本实施例测试了模型的改进结构对输出结果的影响，具体情况如表2所示。

表2网络结构误差分析表

由表2可以看出，其中对原网络的编码层改为层次结构来提取空间特征后，算法的误差减少约0.3mm；在原网络的解码层改为卷积结构来提取时序特征后，算法误差减少约0.3mm；将激活函数将ReLU函数替换为GeLU函数后，算法误差减少约0.2mm。

实验表明本文提出的改进结构都是切实有效的，每个部分都可以提升算法的性能，给予模型正向的反馈。结合这三个改进措施，在原网络的基础上将误差减少了约0.8mm，有效提升了模型的性能。

参数实验

为了验证针对性时空Transformer网络模型中超参数对性能的影响，本实施例还在协议1下对Human3.6M数据集进行了超参数实验。

表3不同超参数组合的对比研究

如表3所示，本实施例探索各种参数组合，以找到最优网络。c表示空间Transformer中嵌入的特征维数，L表示Transformer模型的编码器使用的层数。在我们的针对性时空Transformer模型中，空间Transformer的输出被平化，并添加了时间位置嵌入，形成时间Transformer编码器的输入。因此时间Transformer编码器的嵌入特征维数为c×j。我们的模型的最优参数为c＝32,L_S＝4,L_T＝4。

综上所述，本实施例提供的基于单目序列图像的三维人体关节点估算具有如下优点：

该估算方法采用两阶段法从单目序列图像中估计中间帧三维人体关节点位置，先利用新构建的空间特征提取网络从二维人体关节序列中提取每一帧单目序列图像中的人体关节点的空间特征，进而得到三维人体关节点姿态特征序列。并且构建的空间特征提取网络先根据人体骨骼的链式结构特点，确定核心五个关节点，然后依次估计靠近链式结构边缘的关节点，利用链式结构中关节点之间的约束，由易到难，层层递进，有效提升了模型的精确度，并且一定程度缓解了整体估计带来的一个关节点出现的估计误差传递到所有关节点的问题，最终有效降低关节点的估计误差。

该估算方法改进了PoseFormer的网络结构，提出了针对性时空Transformer网络模型。首先结合时序卷积结构来处理帧于帧之间的时间特征，用跨步卷积取代Transformer中的全连接层，逐步减少序列长度，有效解决了相近帧的时序特征的冗余问题，减少无效特征的干扰。另外，还使用GeLU作为激活函数，在激活函数中融入了随机正则化，有效提升了模型的泛化性。最后，改良后的Transformer权衡了MLP中的计算来构建更深层次的模型，并以全局和局部的方式聚合信息，提高模型容量，同时应用中间监督的思想，在空间和时间上分别对序列图像的损失函数进行监督，基于空间Transformer的结构更有助于学习单帧人体关节点之间的空间信息特征提取，而基于时间Transformer的结构将注意力放在帧与帧之间的时间信息特征提取，增强时间平滑性。

实施例2

本发明还公开一种基于单目序列图像的三维人体关节点估算系统，其可以采用实施例1中的基于单目序列图像的三维人体关节点估算方法。基于单目序列图像的三维人体关节点估算系统包括：图像采集模块、前序处理模块、空间特征提取网络、时序特征提取网络以及全连接层模块二。图像采集模块用于采集多帧含有人体关节动作的单目序列图像，并获取每一帧单目序列图像中的二维人体关节序列。前序处理模块用于对二维人体关节点序列进行滤波处理，然后在二维人体关节点序列中加入位置编码。

实施例3

本发明还公开一种基于单目序列图像的三维人体关节点估算装置，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可以实现实施例1中的基于单目序列图像的三维人体关节点估算方法的步骤。

该关节点估算装置可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的关节点估算装置至少包括但不限于：可通过系统总线相互通信连接的存储器、处理器。

本实施例中，存储器(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。当然，存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外，存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据，以实现前述实施例1中关节点估算方法的处理过程，从而对单目序列图像中的人体三维关节点进行精确估算。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于单目序列图像的三维人体关节点估算方法，其特征在于，其包括步骤：

S1：采集多帧含有人体关节动作的单目序列图像，并获取每一帧单目序列图像中的二维人体关节序列；

S2：对所述二维人体关节点序列进行滤波处理，然后在所述二维人体关节点序列中加入位置编码；

S3：将位置编码后的J个二维人体关节序列输入至一个新构建的空间特征提取网络中，提取每一帧单目序列图像中的人体关节点的空间特征，进而得到一个n帧的三维人体关节点姿态特征序列；

其中，所述空间特征提取网络的构建方法包括如下步骤：

S31：根据人体骨骼的链式结构将人体的各个关节点划分为多个关节集；

S32：按照各个关节集的运动幅度特性，将多个关节集分配至多个不同估算难度的层级；

S33：按照所述链式结构的分属特性，将每个所述层级中的多个关节集划分到表征不同分属部位的多条通道，进而使多个关节集组合成树状串联结构；其中，多个所述层级按照先易后难的顺序，与所述树状串联结构的延伸方向相对应；

S34：设计分别与多个关节集对应的多组空间特征提取模块，进而构成所述空间特征提取网络；每组空间特征提取模块用于提取相应关节集的关节点空间特征向量；

S4：将n帧的三维人体关节点姿态特征序列输入至一个时序特征提取网络中，得到中间帧的三维人体关节点特征；其中，所述时序特征提取网络包括多组时序特征提取模块；每组时序特征提取模块用于通过提取多帧连续的人体关节点姿态特征，进而合并相邻帧缩减多帧人体关节点姿态的帧序列，经过多组时序特征提取模块得到目标帧的三维人体关节点坐标；

2.根据权利要求1所述的基于单目序列图像的三维人体关节点估算方法，其特征在于，S32和S33中，关节集共设置有八个；多个层级按照估算难度由易到难依次设置有四个：第一层级、第二层级、第三层级和第四层级；表征不同分属部位的通道共设置有三条：第一通道、第二通道、第三通道；第一通道对应头部，第二通道对应手部，第三通道对应腿部；

其中，第一层级分配有一个关节集，该关节集包括尾骨、脊柱、胸腔、左髋骨和右髋骨共五个关节点；

第二层级分配有三个关节集，位于第一通道的关节集包括颈部；位于第二通道的关节集包括左肩膀、右肩膀；位于第三通道的关节集包括左膝盖、右膝盖；

第三层级分配有三个关节集，位于第一通道的关节集包括头部；位于第二通道的关节集包括左手肘、右手肘；位于第三通道的关节集包括左脚踝、右脚踝；

3.根据权利要求1所述的基于单目序列图像的三维人体关节点估算方法，其特征在于，S3和S4中，所述空间特征提取网络和所述时序特征提取网络串联，进而构成一个针对性时空Transformer网络模型；所述针对性时空Transformer网络模型基于经典的Transformer网络进行改进；所述针对性时空Transformer网络模型的构建方法包括如下步骤：

(一)获取标准Transformer网络作为所述空间特征提取模块和时序特征提取模块的基本构架，使用GeLU函数分别作为空间特征提取模块和时序特征提取模块的激活函数，并在激活中融入随机正则化功能；

(二)将每组时序特征提取模块中的全连接层替换为跨步卷积单元；所述跨步卷积单元用于降低层与层之间的时间维度；

(三)在每组时序特征提取模块采用残差结构二实现各单元间的连接，并将平均池化函数作为残差结构的降维函数；

(四)在所述空间特征提取网络的输出端增加一个维度为T*J的全连接层模块一，还在所述时序特征提取网络的输出端增加所述全连接层模块二，进而构建出针对性时空Transformer网络模型；所述全连接层模块一用于根据n帧的三维人体关节点姿态特征序列得到一个n帧的三维人体关节点序列。

4.根据权利要求3所述的基于单目序列图像的三维人体关节点估算方法，其特征在于，空间特征提取模块和时序特征提取模块的激活函数的表达公式为：

5.根据权利要求3所述的基于单目序列图像的三维人体关节点估算方法，其特征在于，构建出针对性时空Transformer网络模型后，还对所述针对性时空Transformer网络模型进行训练，训练过程如下：

获取多帧已知关节点坐标真实数据的标准单目序列图像，并将所述标准单目序列图像与对应的待估算单目序列图像混合，得到随机的单目序列图像集；以所述单目序列图像集作为样本数据构成进行模型训练的数据集，并将数据集分为训练集和验证集；

完成所述针对性时空Transformer网络模型的初始化，利用训练集对针对性时空Transformer网络模型进行训练，利用验证集验证针对性时空Transformer网络模型的训练效果，进而得到训练完成的针对性时空Transformer网络模型。

6.根据权利要求5所述的基于单目序列图像的三维人体关节点估算方法，其特征在于，每个空间特征提取模块包括：层归一化单元一、多头注意力单元一、两个全连接层单元一以及残差结构一；

其中，每个空间特征提取模块生成的特征向量经过所述全连接层模块一生成一个三维姿态，进而计算中间监督损失函数L_J以快速反向传播，中间监督损失函数L_J设置为每个空间特征提取模块优化关节点与真实数据中对应关节点间的平均欧式距离；

将所述全连接层模块一生成的n帧的三维人体关节点序列与n帧对应真实数据中对应关节点之间的平均欧式距离作为所述空间特征提取网络的序列损失函数L_K：

式中，

表示关节i在t帧处估计的三维关节点位置；

表示关节i在t帧处真实三维关节点位置；

空间特征提取网络的总损失L_S的表达公式为：

L_S＝λ_KL_K+λ_JL_J

7.根据权利要求6所述的基于单目序列图像的三维人体关节点估算方法，其特征在于，每组时序特征提取模块包括：层归一化单元二、多头注意力单元二、两个连续的一维卷积单元以及所述残差结构二；

其中，利用单帧损耗L_T来最小化所述时序特征提取网络输出的中间帧的三维关节点坐标X与对应的真实三维人体关节点坐标Y之间的距离；L_T的表达公式为：

8.根据权利要求7所述的基于单目序列图像的三维人体关节点估算方法，其特征在于，针对性时空Transformer网络模型的总损失L的表达公式为：

L＝λ_SL_S+λ_TL_T

9.一种基于单目序列图像的三维人体关节点估算系统，其特征在于，其采用如权利要求1至8中任意一项所述的基于单目序列图像的三维人体关节点估算方法；所述基于单目序列图像的三维人体关节点估算系统包括：

图像采集模块，其用于采集多帧含有人体关节动作的单目序列图像，并获取每一帧单目序列图像中的二维人体关节序列；

前序处理模块，其用于对所述二维人体关节点序列进行滤波处理，然后在所述二维人体关节点序列中加入位置编码；

空间特征提取网络，其用于提取每一帧单目序列图像中的人体关节点的空间特征，进而得到一个n帧的三维人体关节点姿态特征序列；空间特征提取网络包括多组空间特征提取模块；每组空间特征提取模块用于提取相应关节集的关节点空间特征向量；

时序特征提取网络，其用于根据n帧的三维人体关节点姿态特征序列得到中间帧的三维人体关节点特征；所述时序特征提取网络包括多组时序特征提取模块；每组时序特征提取模块用于通过提取多帧连续的人体关节点姿态特征，进而合并相邻帧缩减多帧人体关节点姿态的帧序列，经过多组时序特征提取模块得到目标帧的三维人体关节点坐标；以及

全连接层模块二，其用于根据中间帧的三维人体关节点特征得到中间帧的三维人体关节点坐标。

10.一种基于单目序列图像的三维人体关节点估算装置，其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任意一项所述的基于单目序列图像的三维人体关节点估算方法的步骤。