CN116631064A

CN116631064A - 基于关键点与网格顶点互补增强的3d人体姿态估计方法

Info

Publication number: CN116631064A
Application number: CN202310775274.7A
Authority: CN
Inventors: 潜丽妃; 罗玲; 姜宗伯; 仲元红; 徐乾锋; 黄智勇; 韩术; 钟代笛; 周庆
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-08-22

Abstract

本发明具体涉及基于关键点与网格顶点互补增强的3D人体姿态估计方法，包括：通过回归预测模型输出各个视频帧的SMPL模型参数；回归预测模型的处理步骤包括：通过骨干网提取关键点热度图以及浅层特征和最终层特征；依次将关键点热度图转换为2D关键点坐标和2D关键点特征，提取时空特征生成3D关键点坐标；通过多尺度特征处理生成部分3D顶点热度图并转换为3D顶点坐标；生成键点‑顶点坐嵌入特征，并通过SMPL参数回归模块输出SMPL模型参数；基于各个视频帧的SMPL模型参数构建SMPL模型。本发明能够实现在连续视频帧中对运动的人体进行连续、平滑的建模估计，并且能够改善SMPL参数回归网络在肢体旋转和体型的构建上存在的信息缺失和拟合难度大等问题。

Description

基于关键点与网格顶点互补增强的3D人体姿态估计方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及基于关键点与网格顶点互补增强的3D人体姿态估计方法。

背景技术

人体姿态估计是计算机视觉在过去几十年中最重要的任务之一，是机器理解人体动作的基础。它的目标是识别、定位图像/视频中的所有人体的预设关键点(如肘部、手腕等)，使得人体的姿态、运动数据化。该技术通常以人体关键点坐标或姿态参数对姿态进行描述，可应用于如人机交互、虚拟现实、智能监控、体育竞技等诸多技术领域。

过去一段时间，2D人体姿态估计一直是计算机视觉领域的主要研究内容。然而，2D人体姿态估计存在一些局限性：由于最终估计结果为人体关键点在二维图像上的坐标，因此无法准确描述关键点在三维空间中的具体位置以及肢体的旋转和形状信息。3D人体姿态估计的目标是推断出人体关键点在三维空间中的坐标，实现更准确和真实的姿态表示。因此，通过将姿态信息转化到三维空间，研究者可以获得更多关于人体姿态、空间结构和运动状态的详细信息，为相关领域的研究和应用提供更广阔的可能性。

基于2D检测结果进行3D重构的方法在3D人体姿态估计中占据了重要位置。现有方法先利用有效的2D姿态估计网络输出2D人体关键点坐标，然后将2D坐标输入三维重建网络生成重构的三维姿态。但是，3D人体关键点坐标也有其局限性，只表示了人体关键点在空间中的位置分布，不能准确描述人体在空间中的姿态。现有的方法是额外添加一个回归参数化的人体模型的网络，使得预测结果由3D人体关键点坐标转换为人体参数模型。其中，蒙皮多人线性模型(SMPL)人体网格重建方法中常用的模型，该模型可以获得关节旋转和人体形状以及关节坐标。在该模型下可以对人体的关键点坐标，体型以及肢体旋转角度进行更详细的描述。

现有方法通过SMPL回归网络生成人体模型时，输入信息通常是3D人体关键点坐标的嵌入特征以及骨干网输出特征信息。然而，现有基于图像的方法可以从静态图像中较合理地预测输出，但由于是基于图像进行设计并训练的，连续视频帧中的帧间连续性被破坏，难以实现在连续视频帧中对运动的人体进行连续、平滑的建模估计，导致3D人体姿态估计的连续性不好。同时，生成的3D人体关键点坐标只能准确地描述人体关键点在空间中的位置分布，而却缺少肢体旋转以及体型的描述，使得SMPL参数回归网络在肢体旋转和体型的构建上存在信息缺失和拟合难度大等问题，导致生成的最终模型不够准确。因此，如何设计一种能够提高3D人体姿态估计的连续性和准确性的方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种基于关键点与网格顶点互补增强的3D人体姿态估计方法，能够实现在连续视频帧中对运动的人体进行连续、平滑的建模估计，并且能够改善SMPL参数回归网络在肢体旋转和体型的构建上存在的信息缺失和拟合难度大等问题，从而能够提高SMPL参数回归和3D人体姿态估计的连续性和准确性。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于关键点与网格顶点互补增强的3D人体姿态估计方法，包括：

S1：获取待估计的连续视频帧；

S2：将连续视频帧输入训练后的回归预测模型，输出各个视频帧的SMPL模型参数；

回归预测模型的处理步骤如下：

S201：将连续视频帧输入骨干网，提取各个视频帧的关键点热度图以及浅层特征和最终层特征；

S202：依次将各个视频帧的关键点热度图转换为2D关键点坐标和2D关键点特征；然后根据各个视频帧的2D关键点特征学习关键点的时空相关性，生成对应的3D关键点坐标；

S203：根据各个视频帧的浅层特征和最终层特征进行多尺度特征处理，生成对应的部分3D顶点热度图；然后将各个视频帧的部分3D顶点热度图转换为对应的3D顶点坐标；

S204：根据各个视频帧的3D关键点坐标和3D顶点坐标生成关键点-顶点嵌入特征；

S205：将各个视频帧的关键点-顶点嵌入特征输入SMPL参数回归模块中，输出对应的SMPL模型参数；

S3：基于各个视频帧的SMPL模型参数构建对应的SMPL模型，作为各个视频帧估计的3D人体姿态模型。

优选的，对连续视频帧进行数据预处理，得到单人裁剪后的连续视频帧，进而将单人裁剪后的连续视频帧输入骨干网。

优选的，通过如下步骤生成视频帧的3D关键点坐标：

S2021：通过βsoftargmax函数将视频帧的关键点热度图转换为对应的2D关键点坐标；

S2022：通过线性嵌入将2D关键点坐标转换为高维度的2D关键点特征；

S2023：将高维度的2D关键点特征输入时空堆叠注意力模块，在时间层面和空间层面多次利用注意力机制提取不同视频帧中相同关键点间的特征和相同视频帧中不同关键点间的特征以反复学习关键点的时空相关性，生成对应的时空加权3D关键点特征；

S2024：根据时空加权3D关键点特征生成对应的3D关键点坐标。

优选的，时空堆叠注意力模块包括多个堆叠的时空注意力模块；前一时空注意力模块输出的特征作为后一时空注意力模块的输入，最后一个时空注意力模块输出的特征作为时空加权3D关键点特征；

每个时空注意力模块包括如下处理步骤：

1)在时间层面，首先将输入的特征在关键点层面进行拆分，使得关键点之间解除耦合，进而在时间层面聚合得到包含时间信息的高维时间特征；其次高维时间特征经过层归一化在时间层面调整数据的分布，再经过多层感知机结构的MLP层进一步提取特征；最后经过层归一化后由多头注意力模块对相同关键点的时间相关性进行建模，捕捉关键点的运动轨迹，生成时间注意力加权后的特征；

2)在空间层面，对时间注意力加权后的特征在时间层面解除耦合，在空间层面聚合以生成蕴含空间信息的高维时空特征；其次高维时空特征经过层归一化在空间层面调整数据的分布，再经过多层感知机结构的MLP层进一步提取特征；最后经过层归一化后由多头注意力模块对关键点之间的空间关系进行建模，捕捉关键点之间的位置依赖，生成时空注意力加权后的特征；

3)将时空注意力加权后的特征维度变换至与输入特征的维度一致。

优选的，通过如下步骤生成视频帧的3D顶点坐标：

S2031：通过顶点回归模块对浅层特征和最终层特征进行多尺度特征提取，得到部分网格顶点的特征信息，进而根据部分网格顶点的特征信息生成对应的部分3D顶点热度图H^3D；

S2032：将部分3D顶点热度图与权重系数相乘并进行归一化，生成归一化后的3D顶点热度图；

S2033：通过βsoftargmax函数将归一化后的3D顶点热度图换为对应的3D顶点坐标。

优选的，顶点回归模块包括依次首尾连接的3D卷积层、三个堆叠的3D残差块、最大池化层、3D残差块、最大池化层、3D残差块、最大池化层、两个堆叠的3D残差块、3D残差块、上采样层、3D残差块、上采样层、3D残差块、上采样层、3D残差块、3D卷积层、1×1×1卷积层；

3D卷积层由一层3D卷积、批归一层和ReLU激活函数组成；

3D残差块先经过一层卷积层，再经过3D卷积和批次归一化，最后将结果与输入相加后输入ReLU激活层；

最大池化层执行步幅为2的3D最大池化操作；

上采样层由步幅为2的三维反卷积层、批次归一化层和ReLU激活函数组成。

优选的，通过如下公式计算生成3D顶点坐标：

式中：表示第n个网格顶点在三维空间的坐标，即3D顶点坐标；/>表示第n个网格顶点的3D顶点热度图；/>表示归一化后第n个网格顶点的3D顶点热度图；ω表示设置的权重系数；n表示网格顶点坐标的索引号；r＝[r_x,r_y,r_z]，表示三维空间坐标为(x,y,z)处的坐标。

优选的，首先通过线性变换将各个视频帧的3D关键点坐标和3D顶点坐标转换为对应的3D关键点嵌入特征和3D顶点嵌入特征；然后连接各个视频帧的3D关键点嵌入特征和3D顶点嵌入特征连接形成关键点-顶点嵌入特征。

优选的，SMPL模型参数包括旋转参数θ∈R^24×3、体型参数β∈R¹⁰和相机参数k_c∈R³。

优选的，通过如下损失函数训练回归预测模型：

L＝L_pose+L_mesh；

L_mesh＝L_param+L_pose′；

式中：L表示回归预测模型的总损失；L_pose表示生成的3D关键点坐标与标签坐标之间的L1距离；L_mesh表示预测SMPL参数的损失函数；L_param表示参数θ和β与标签参数之间的L1距离；L_pose′表示构建的SMPL模型的网格坐标与标签之间的L1距离。

本发明中基于关键点与网格顶点互补增强的3D人体姿态估计方法与现有技术相比，具有如下有益效果：

本发明通过回归预测模型预测连续视频帧的SMPL模型参数，进而基于SMPL模型参数构建3D人体姿态模型。一方面，本发明回归预测模型的时空注意力模块在时间层面和空间层面分别利用注意力机制分布提取不同视频帧中相同关键点间的特征和相同视频帧中不同关键点间的特征，使得能够有效利用关键点坐标的时间一致性和关键点之间的相关性(即连续视频帧的帧间一致性)来将2D关键点转换为3D关键点坐标，进而能够实现在连续视频帧中对运动的人体进行连续、平滑的建模估计，从而能够提高SMPL参数回归和3D人体姿态估计的连续性。另一方面，本发明在利用时空注意力进行人体姿态估计的基础上，通过顶点回归模块提取人体网格顶点的特征信息并生成各个网格顶点的3D顶点坐标，使得能够利用3D关键点坐标和3D顶点坐标回归最终的SMPL模型参数，实现了关键点与网格顶点的互补增强，补充了人体关键点骨架中缺失的肢体旋转和人体形状等信息，能够改善SMPL参数回归网络在肢体旋转和体型的构建上存在的信息缺失和拟合难度大等问题，使得SMPL模型回归更加准确且更加切合图像本身，并减少了对特征提取模块的依赖，从而能够提高SMPL参数回归和3D人体姿态估计的准确性。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明3D人体姿态估计算法的逻辑框图；

图2为回归预测模型的网络结构图；

图3为单个时空注意力模块的网络结构图；

图4为顶点回归模块的网络结构图；

图5为本发明方法在3DPW上的可视化结果；

图6为本发明方法在Huaman3.6上的可视化结果；

图7为VertAttPose(a)与MPSnet(b)在Huaman3.6上的可视化比较结果；

图8为网格顶点可视化示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件能够以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。例如“水平”仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于关键点与网格顶点互补增强的3D人体姿态估计方法。

如图1所示，基于关键点与网格顶点互补增强的3D人体姿态估计方法，包括：

S1：获取待估计的连续视频帧；

结合图2所示，回归预测模型的处理步骤如下：

本实施例中，骨干网采用现有的ResNet-50，其网络结构和训练方式均为现有技术。通过骨干网提取视频帧的关键点热度图以及浅层特征和最终层特征也是现有成熟手段。其中，骨干网是一个深度神经网络，其浅层特征主要含有基础的纹理等信息，最终层特征含有人体关键点特征信息，通过浅层特征和最终层特征的结合能够有效提取网格顶点特征信息。

本实施例中，首先通过线性嵌入将各个视频帧的3D关键点坐标和3D顶点坐标转换为对应的3D关键点嵌入特征和3D顶点嵌入特征；然后连接各个视频帧的3D关键点嵌入特征和3D顶点嵌入特征连接形成关键点-顶点嵌入特征。

本实施例中，采用的SMPL参数回归模块为现有的SMPL参数回归器(如SUN K,XIAOB,LIU D,et al.Deep High-Resolution Representation Learning for Human PoseEstimation或LI C,LEE G H.From synthetic to real:Unsupervised DomainAdaptation for Animal Pose Estimation中公开的SMPL参数回归器)，该SMPL参数回归模块通过关键点-顶点嵌入特征F估计SMPL模型参数。

需要说明的是，图2中所示的关键点嵌入E^k和顶点嵌入E^v可以理解为是扩充信息后的特征。原本的坐标只有3维的信息：x、y、z。嵌入特征在其基础上对维度进行扩展，通过拟合训练的方式挖掘其中额外的信息，该过程通过简单的全连接层得到。

本发明的回归预测模型在3DPW以及Human3.6M上进行了实验的验证，结果表明与现有方法相比，本发明方法预测的3D人体模型更加贴合。作为代价，则是模型参数和计算量较现有方法增加较多。

具体实施过程中，采用的骨干网为ResNet-50，其框架为单人姿态估计网络，因此将连续视频帧输入骨干网之前，需要对连续视频帧进行数据预处理，即对连续视频帧进行数据预处理，得到单人裁剪后的连续视频帧，进而将单人裁剪后的连续视频帧输入骨干网。

数据预处理包括：对于连续视频帧中的同一人体目标，通过从当前视频帧中获得的人体检测框进行定位(通过人体检测器对视频帧进行检测生成对应的人体检测框)，在某些检测结果中，远离人体中心的四肢(如手掌、脚等)不能完全包含在检测框中，导致对该部分的关键点估计不正确，为了避免上述情况和保证连续视频帧中同一的人体具有相同的视角，将人体检测框放大了25％，使得检测框可以完全包含检测到的人体；然后利用当前帧中放大后的人体检测框对连续的多帧视频帧进行裁剪，得到单人裁剪后的连续视频帧，进而将单人裁剪后的连续视频帧送入骨干网提取关键点热度图和关键点特征。

本发明通过连续视频帧进行数据预处理即视频帧裁剪，能够得到单人裁剪后的连续视频帧，使得连续视频帧中定位的人体能够保持在相同的区域，有利于骨干网更好的提取关键点热度图以及浅层特征和最终层特征，从而能够进一步提高后续SMPL参数回归和3D人体姿态估计的准确性。

具体实施过程中，设计时空注意力模块的动机如下：现有的方法主要在空间中将所有关键点的2D坐标进行关联，因为相邻关键点大多存在与同一骨骼上，彼此之间的位置会相互影响。但输入由原本的图像转化为关键点坐标后，网络很难将单独的坐标与坐标之间建立联系，因此单一的在空间上利用关键点位置信息改进有限。而在时间层面，人体的同一关键点的位置不会突变，且往往基于上个时刻的位置运动。可利用时间信息对关键点信息进行纠正修正，平滑关键点的运动轨迹，减少因个别关键点定位错误带来的负面印象。因此本发明的时空注意力模块在时间和空间两个层面对嵌入后的坐标关键点特征分开进行学习，以捕捉不同关键点自身的运动轨迹。

本发明设计的时空注意力模块由多个时空注意力模块堆叠构成，其中单个时空注意力模型由一个时间注意力模块和空间注意力模块组成构成。时间注意力模块关注不同帧之间相同关键点之间的注意力，空间注意力关注同一帧中不同关键点之间的注意力，二者联合关注每个关键点的时间和空间相关性。时间和空间注意力模块具有相同的注意力结构，但由于变换了输入特征通道，使得网络可以计算不同的注意力特征。

时空堆叠注意力模块通过如下步骤生成视频帧的3D关键点坐标：

S2021：通过βsoftargmax函数将视频帧的关键点热度图转换为对应的2D关键点坐标。

本实施例中，各个视频帧的2D关键点坐标表示为C_N,K∈R^N×K×2，N为视频帧的帧数，K为关键点个数。

S2022：通过线性嵌入(或全连接层)将2D关键点坐标转换为高维度的2D关键点特征D_m为特征维数；本实施例中，线性嵌入将低维度的2D坐标转化为高维度特征，增加其信息含量，同时便于后续处理。

S2023：将高维度的2D关键点特征输入时空堆叠注意力模块，在时间层面和空间层面多次利用注意力机制提取不同视频帧中相同关键点间的特征和相同视频帧中不同关键点间的特征以反复学习关键点的时空相关性，生成对应的时空加权3D关键点特征。

即2D关键点特征经过时空加权生成3D关键点特征。本实施例采用的注意力机制是现有成熟手段。

注意力机制一般包括两个步骤：计算注意力权重和应用注意力权重。在计算注意力权重时，可以使用各种算法，例如Softmax、Sigmoid、Max等等。计算出的注意力权重可以直接应用于特征图上，或者在通道维度上进行重新加权。本实施例中，使用的注意力模块也是基于以上两个步骤进行计算的，先通计算出特征在每个像素位置或通道上的注意力权重，然后将注意力系数赋予所属的特征，得到注意力加权后的结果。

输入特征先经过三个卷积层，以得到三个的特征V、K、Q，或是由一个卷积层生成3倍与输入张量通道数的特征，然后再拆分为V、K、Q 3个特征。其中V作为进一步处理后的特征，K、Q用于计算相似系数。具体计算过程可分为两步：先利用K、Q计算归一化注意力系数，然后将V与计算好的注意力系数相乘，得到注意力加权后的结果。其过程可由如下公式组成：

S×V→F_out；

式中F_in为输入特征，F_out为注意力加权后的特征，T表示转置操作，其中V、K、Q的形状与输入特征相同。上述操作为单次注意力计算，一般情况下会单注意力主要集中关注某个特征。实际应用中网络应该关注的特征点不局限于1，如人体姿态估计中的检测目标为多个人体关键点。多头注意力在基于上述注意力网络结构，使用相同结构但不同参数的注意力权重计算模块对其进行多次计算，其目的是希望网络能够对输入张量中的不同特征进行关注。多头注意力中的头为模块中注意力的个数，即计算注意力系数的次数。最终的输出结果将多头的注意力结果进行加权合并，使得网络最终不只限于对某种单一的特征进行注意力加权，可提取更多的特征并对不同特征进行注意力加权。

S2024：根据时空加权3D关键点特征生成对应的3D关键点坐标。

本实施例中，首先由1×1×1卷积将3D关键点坐标转换为3D关键点热度图，然后使用βsoftargmax函数由3D关键点热度图生成对应的3D关键点坐标。

结合图3所示，时空堆叠注意力模块包括多个堆叠的时空注意力模块；前一时空注意力模块输出的特征作为后一时空注意力模块的输入，最后一个时空注意力模块输出的特征作为时空加权3D关键点特征；

每个时空注意力模块包括如下处理步骤：

1)在时间层面，首先将输入的特征X_in在关键点层面进行拆分，使得关键点之间解除耦合，进而在时间层面聚合得到包含时间信息的高维时间特征其次高维时间特征经过层归一化在时间层面调整数据的分布，再经过多层感知机结构的MLP层进一步提取特征；最后经过层归一化后由多头注意力模块对相同关键点的时间相关性进行建模，捕捉关键点的运动轨迹，生成时间注意力加权后的特征。

2)在空间层面，对时间注意力加权后的特征在时间层面解除耦合，在空间层面聚合以生成蕴含空间信息的高维时间特征其次高维时间特征经过层归一化在空间层面调整数据的分布，再经过多层感知机结构的MLP层进一步提取特征；最后经过层归一化后由多头注意力模块对关键点之间的空间关系进行建模，捕捉关键点之间的位置依赖，生成时空注意力加权后的特征X_out。

需要说明的是，图3中涉及的如下公式中的B表示批次、N表示帧数、K表示关键点个数、D_m表示嵌入特征的维数。

X_in＝B×N×K×D_m；

X_t＝(B×K)×N×D_m；

X_out＝B×N×K×D_m；

X_s＝(B×N)×K×D_m。

3)将特征X_out的维度变换至与输入特征X_in的维度一致。

现有方法只对单一的时间或空间进行建模，尽管利用时空信息，但网络只着重于利用部分特征信息，在信息的使用上不够充分。本发明设计的时空注意力模块由多个时空注意力模块堆叠构成，时间注意力关注不同帧之间相同关键点之间的注意力，空间注意力关注同一帧中不同关键点之间的注意力，二者联合关注每个关键点的时间和空间相关性，使得能够反复对关节点的时空相关性进行学习，同时使用多头时空注意力模块同时在时间和空间层面提取特征，在时间和空间充分利用了关键点之间的相关性，多个模块重复堆叠使对特征进行反复提取，能更好地获得其中的相关特征，从而能够进一步提高后续SMPL参数回归和3D人体姿态估计的准确性。

具体实施过程中，顶点回归模块的设计动机如下：SMPL模型本质上使用3D顶点组成的网格对人体的形状和姿态进行描述，而模型本身由模型参数表示。现有基于SMPL模型的方法大多使用3D人体关键点坐标回归SMPL模型参数。但生成的3D人体关键点坐标上只能准确地描述人体关键点在空间中的位置分布，却缺少肢体旋转以及体型的描述。这使得SMPL参数回归网络在肢体的旋转和人体形状的构建上存在信息缺失，拟合难度大等问题。通常的做法是增加数据集的多样性和数据或是改进SMPL模型结构增强其拟合能力，但这会增加人工数据处理成本和网络参数量和训练成本。有鉴于此，本发明采用了一个额外的多尺度分支网络用于估计SMPL模型的部分3D顶点坐标，这些顶点用于补充人体关键点中缺失的体型和肢体旋转信息，使得SMPL参数回归模块可以更好的学习。

顶点回归模块通过如下步骤生成视频帧的3D顶点坐标：

S2031：通过顶点回归模块对浅层特征和最终层特征进行多尺度特征提取，得到部分网格顶点(即人体模型顶点)的特征信息，进而根据部分网格顶点的特征信息生成对应的部分3D顶点热度图H^3D；

本实施例中，对浅层特征和最终层特征进行多尺度特征提取采用的是现有成熟手段。其中，不同尺度即不同分辨率的特征，低分辨率的特征经过下采样，语义信息表征能力强，但是特征图的分辨率低，几何信息的表征能力弱(空间几何特征细节缺乏)；高分辨率的特征几何细节信息表征能力强，虽然分辨率高，但是语义信息表征能力弱。通过将二者进行结合可以实现互补增强，提高网络提取信息的能力。

3D顶点的数量根据实际需求设置。

S2032：将部分3D顶点热度图H^3D与权重系数相乘ω并进行归一化，生成归一化后的3D顶点热度图；

本实施例中，权重系数ω通过实验进行设置，可设置为160。

结合图4所示，顶点回归模块由3D卷积层、3D残差块、最大池化层、上采样层和1×1×1卷积层组成，包含2个基本3D卷积层、11个3D残差块、3个最大池化层、3个上样本层和一个1×1×1卷积层。

顶点回归模块包括依次首尾连接(首尾连接是指前一模块的输出端与后一模块的输入端连接)的3D卷积层、三个堆叠的3D残差块、最大池化层、3D残差块、最大池化层、3D残差块、最大池化层、两个堆叠的3D残差块、3D残差块、上采样层、3D残差块、上采样层、3D残差块、上采样层、3D残差块、3D卷积层、1×1×1卷积层。

即顶点回归模块通过上述网络结构实现多尺度特征提取和部分3D顶点热度图生成。

3D卷积层由一层3D卷积、批归一层和ReLU激活函数组成；

最大池化层执行步幅为2的3D最大池化操作；

热度图计算坐标通常有两种做法：argmax操作和soft-argmax操作。其中通过argmax函数可以准确获得热度图中最大值的坐标，但其本身是不可导函数，无法计算其梯度，因此使用该方法往往不能实现端到端训练。soft-argmax将热度图归一化处理，然后将归一后的热度图与对应坐标值相乘后求和则得到原本最大值的坐标。理想情况下由于原本最大值处的值接近与1，其他则接近与0，相乘求和后仅有最大值处坐标保留，其他均因值接近与0而可被忽略，因此可以计算最大值坐标，且该函数可导。而实际预测的3D热度图中的最大值不一定远远大于其他值，因此直接使用soft-argmax通常不够准确。因为最大值的概率不够大，使得其他较大值会对坐标的计算产生影响。

由于SMPL参数回归模块的输入通常是人体关键点坐标，现有结果是网格顶点的三维顶点热度图，为了使模型能够端到端训练，本发明使用加权后的3D soft-argmax函数计算顶点坐标，即让热度图先乘以权重系数ω以扩大最大值与其他值之间的差距，然后在通过soft-argmax操作完成坐标的获取。

通过如下公式计算生成3D顶点坐标：

本发明的顶点回归模块根据关键点特征提取人体网格顶点的特征信息，并生成各个网格顶点的3D顶点坐标，使得能够利用3D关键点坐标和3D顶点坐标回归最终的SMPL模型参数，实现了关键点与网格顶点的互补增强，补充了人体关键点骨架中缺失的肢体旋转和人体形状等信息，能够改善SMPL参数回归网络在肢体旋转和体型的构建上存在的信息缺失和拟合难度大等问题，使得SMPL模型回归更加准确且更加切合图像本身，并减少了对特征提取模块的依赖。

具体实施过程中，SMPL模型不再是人体骨架，而是由6890个顶点构成的蒙皮模型，其蒙皮为三维网格，由3维空间中的3顶点连线构成。由于网格顶点数目众多，直接回归难度较大，因此使用数据量较少的模型参数描述生成的人体模型。

本发明中SMPL模型参数包括旋转参数θ∈R^24×3、体型参数β∈R¹⁰和相机参数k_c∈R³；θ用于描述模型中的子类肢体相对于父类肢体的旋转角度；β用于描述人体的形状大小，如高矮胖瘦等；k_c用于投影计算。

本发明使用数据量较少的模型参数描述生成的人体模型，使得回归预测模型的回归目标由6890个顶点转化为实际上的85个参数，有效降低了网络的计算量。

具体实施过程中，由于网络先生成3D关键点坐标与SMPL顶点坐标，然后再由二者经过SMPL回归模块生成SMPL模型参数，模型参数经过计算可生成对应的SMPL模型。因此本发明方法在两个层面进行监督：3D人体关键点坐标和SMPL模型参数和网格顶点坐标。

通过如下损失函数训练回归预测模型：

L＝L_pose+L_mesh；

L_mesh＝L_param+L_pose′；

式中：L表示回归预测模型的总损失；L_pose表示生成的3D关键点坐标与标签坐标之间的L1距离；L_mesh表示预测SMPL参数的损失函数；L_param表示参数θ和β与标签参数之间的L1距离；L_pose′表示构建的SMPL模型的网格坐标与标签之间的L1距离。实际计算过程中，使用2D坐标进行计算监督，预测的关键点坐标使用相机参数k_c投影到二维平面。

本发明采用的上述损失在关键点坐标和人体模型两个层面进行监督：一方面，关键点坐标层面监督确保人体的整体结构是清晰，同时保证用于回归人体模型的人体关键点坐标是准确的，避免错误关键点坐标带来的损失；另一方面，在模型参数上监督确保生成的最终人体模型的准确性，然后将人体模型投影到二维平面对2D坐标进行监督，以保证生成的人体模型贴合图中的人体，从而能够辅助提高SMPL参数回归和3D人体姿态估计的准确性。

为了更好的说明本发明技术方案的优势，本实施例公开了如下实验。

1、实验参数设置

本实验使用Ubuntu系统上的PyTorch。骨干网为现有的ResNet-50(来自HE K,ZHANG X,REN S,et al.Deep Residual Learning for Image Recognition)，采用在ImageNet数据集上预训练后的权重作为初始化权重，其余部分的权重采用高斯分布初始化，o＝0.001。权重由Adam优化器22更新，迷你批量大小为32。为了从输入图像中裁剪人体区域，在训练和测试阶段都使用地面真值边界框。当测试阶段没有边界框时，对Mask R-CNN(来自JAIN A,TOMPSON J,LECUN Y,et al.Modeep:A Deep Learning Framework UsingMotion Features for Human Pose Estimation)进行训练和测试，得到边界框。裁剪的人体图像被调整为256x256。

在训练中进行数据增强，包括缩放(±25％)、旋转(±60°)、随机水平翻转和颜色抖动(±20％)初始学习率为10-4。本发明的回归预测模型训练了6个epoch，在第3和第5个epoch之后，学习率降低了10倍。与现有方法(来自WEI W L,LIN J C,LIU T L,etal.Capturing Humans in Motion:Temporal-Attentive 3D Human Pose and ShapeEstimation from Monocular Video)相同，本实验在3DPW数据集上使用MPJPE，PA-MPJPE，MPVPE和ACC-ERR作为评估指标；由于Human3.6M数据集官方并未给出SMPL模型输出(现有数据多使用网络拟合或其他手段生成)，因此使用现有的MPJPE，PA-MPJPE和ACC-ERR作为评估指标。

2、与现有方法的比较

3DPW数据集：本发明首先显示了以3DPW为测试集的评估结果，评估指标为MPJPE，PA-MPJPE，MPVPE和ACC-ERR。在表1显示了本发明设计的网络在与现有基于多帧的方法VIBE(来自KOCABAS M,ATHANASIOU N,BLACK M J.Vibe:Video Inference for Human BodyPose and Shape Estimation)，MEVA(来自LUO Z,GOLESTANEH S A,KITANI K M.3dHumanMotion Estimation Via Motion Compression and Refinement)，TCMR(来自CHOI H,MOONG,CHANG J Y,et al.Beyond Static Features for Temporally Consistent 3d HumanPose and Shape from a Video)，MPS-Net(来自WEI W L,LIN J C,LIU T L,etal.Capturing Humans in Motion:Temporal-Attentive 3D Human Pose and ShapeEstimation from Monocular Video)在3DPW数据集上定量比较的结果。图5展示了本发明的方法在3DPW数据集上正视、测视、背视和遮挡下的可视化结果，比较指标为相比之下拥有更高的精度。

表1本发明方法与其他方法在3DPW上的定量比较结果

基于Human3.6M数据集的结果：本发明的模型在Human3.6M数据上进行了评估，评估指标为MPJPE，PA-MPJPE和ACC-ERR。

表2显示了本发明方法与现有基于多帧的方法VIBE、MEVA、TCMR、MPS-Net在Human3.6M定量比较的结果。图6显示了本发明方法在Human3.6M数据集中正视、测视、背视和遮挡下的可视化结果。

表2本发明的方法与不同的方法在Human3.6M上的定量比较结果

本发明模型的计算量和复杂性：由于不同的算法平台和大多数算法都不是开源的，本发明无法准确地知道其模型的运行效率。因此，本实验比较了模型参数和计算复杂性，以间接说明成本。表3显示了本发明的方法和代表性竞争对手VIBE、MEVA和TCMR的参数与计算复杂度。由于本发明提出的网络相比于之前的网络额外添加了顶点回归模块，因此模型参数量和计算量要多于比较的方法。

表3本发明方法与不同的方法在浮点数运算和参数量上的定量比较结果

/>

为了直观地展示本发明方法的性能，图7显示了与MPSnet(来自WEI W L,LIN J C,LIU T L,et al.Capturing Humans in Motion:Temporal-Attentive 3D Human Pose andShape Estimation from Monocular Video)在不同视角下的比较情况。与MPSnet相比，本发明方法的结果更准确：在正面视角中，MPSnet使用人体关键点坐标作为特征回归模型参数，由于关键点缺少旋转信息，使得估计出的模型脚步呈现一个奇怪的姿态。同理，在正面了背面视角中，本发明提出的方法所估计的模型姿态更为贴合所预测的人体，这说明了额外的顶点回归提供了有效的旋转信息，完善的信息使得预测结果更加准确。

3、消融实验

为了减少训练时间，本实验在数据集3DPW上进行消融实验，以验证本发明方法中每个模块的有效性。消融模块包括顶点回归模块、时间空间注意力融合。实验表明，所设计的模块在提高输出精度方面是有效的。

时空注意力模块：在这个消融设置中，本实验探讨了不同注意机制对最终输出姿态的影响。本实验去除了时空模块中的时间注意机制，仅使用空间注意力机制进行特征提取。从表4中可以看到ACC-ERR由7.5变化为28.3。这是由于空间注意力只捕捉单帧中的关键点直接的依赖，忽略了不同时刻关键点之间的位置影响，使得表示输出平滑度下降了。当去除空间注意力机制，只使用时间注意力机制时，各个指标均有下降，且网络性能优于只采用单空间注意力的网络，这是由于使用了基于2D骨干网提取的2D坐标为输入信息。2D骨干网在提取时主要针对单帧在多尺度层面进行特征提取，一定程度上利用了关键点之间的空间信息，因此单一的空间注意力机制对网络的性能提升有限。添加时间注意力机制实质上是利用多帧信息对输出进行平滑，减少了因某个2D检测误差带来的影响。

同时，本实验也探讨了时空注意力模块堆叠的个数带来影响。级联堆叠的时空注意力模块个数由2、4和8，每增加一次堆叠网络性能都会有一定程度的提升，某一方面试由于网络参数与层数的增加增强了网络的拟合能力，这也说明反复进行特征提取能够使得数据建立中间特征的时间、空间依赖，使得最终输出精度提升。

顶点回归模块：在此设置中，本实验将探讨顶点回归模块对网络性能的影响。实验中采用了两种设置：去除顶点回归模块和顶点个数的选择。

去除顶点回归模块的结果见表4，只使用8个堆叠时空注意力模块的网络相比于完整的网络，其精度存在一定程度的下降。这说明额外的回归的顶点能够对后面SMPL参数的回归起到补充作用。同时也探讨了顶点回归个数对网络性能的影响，回归顶点的个数开始设定为34，后续逐渐增加为原来的两倍直至392，最后直接回归SMPL模型所有的顶点(6890)。从表4中可以看出，当添加额外顶点时，网络性能有所提升，说明额外的顶点可以补充关键点所不具备的旋转和体型信息。而当回归的顶点数目逐渐增加时，网络性能呈现先增加，后减少的现象。这是由于少量的顶点确实可以补充信息，同时提出的顶点回归模块可以较好地生成对应的顶点。但当回归的顶点数目增加直至所有的顶点时，由于顶点回归模块是一个网络参数量较少的模块，其本身的结构和参数不能支持其回归如此庞大的对象，所以其估计的顶点的精度下降，进而导致最终的网络预测精度下降。这进一步说明了应选择合适数目的顶点，能恰好补充人体关键点所不具备的信息，同时网络本身又能完成该复杂度的任务。

表4本发明方法中不同模块在3DPW上进行的消融研究

图8为所选择网格顶点可视化结果。图中可以直观的看出：34、68个顶点只覆盖模型中的一小部分，因此其对缺失信息的补充效果有限；136个顶点在人体模型的各个部位均有出现，因此其对信息的补充效果好于前者；272个顶点覆盖了大部分的人体，相比于前者信息更加完备，但是由于数目众多，所设计的顶点回归模块不足以满足其需求，需要额外的计算量和参数量，因此预测精度下降。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于关键点与网格顶点互补增强的3D人体姿态估计方法，其特征在于，包括：

S1：获取待估计的连续视频帧；

回归预测模型的处理步骤如下：

2.如权利要求1所述的基于关键点与网格顶点互补增强的3D人体姿态估计方法，其特征在于：步骤S201中，对连续视频帧进行数据预处理，得到单人裁剪后的连续视频帧，进而将单人裁剪后的连续视频帧输入骨干网。

3.如权利要求1所述的基于关键点与网格顶点互补增强的3D人体姿态估计方法，其特征在于，步骤S202中，通过如下步骤生成视频帧的3D关键点坐标：

S2024：根据时空加权3D关键点特征生成对应的3D关键点坐标。

4.如权利要求3所述的基于关键点与网格顶点互补增强的3D人体姿态估计方法，其特征在于：步骤S2023中，时空堆叠注意力模块包括多个堆叠的时空注意力模块；前一时空注意力模块输出的特征作为后一时空注意力模块的输入，最后一个时空注意力模块输出的特征作为时空加权3D关键点特征；

每个时空注意力模块包括如下处理步骤：

5.如权利要求1所述的基于关键点与网格顶点互补增强的3D人体姿态估计方法，其特征在于，步骤S203中，通过如下步骤生成视频帧的3D顶点坐标：

S2031：通过顶点回归模块对浅层特征和最终层特征进行多尺度特征提取，得到部分网格顶点的特征信息，进而根据部分网格顶点的特征信息生成对应的部分3D顶点热度图；

6.如权利要求5所述的基于关键点与网格顶点互补增强的3D人体姿态估计方法，其特征在于：顶点回归模块包括依次首尾连接的3D卷积层、三个堆叠的3D残差块、最大池化层、3D残差块、最大池化层、3D残差块、最大池化层、两个堆叠的3D残差块、3D残差块、上采样层、3D残差块、上采样层、3D残差块、上采样层、3D残差块、3D卷积层、1×1×1卷积层；

3D卷积层由一层3D卷积、批归一层和ReLU激活函数组成；

最大池化层执行步幅为2的3D最大池化操作；

7.如权利要求5所述的基于关键点与网格顶点互补增强的3D人体姿态估计方法，其特征在于，通过如下公式计算生成3D顶点坐标：

8.如权利要求1所述的基于关键点与网格顶点互补增强的3D人体姿态估计方法，其特征在于：步骤S204中，首先通过线性变换将各个视频帧的3D关键点坐标和3D顶点坐标转换为对应的3D关键点嵌入特征和3D顶点嵌入特征；然后连接各个视频帧的3D关键点嵌入特征和3D顶点嵌入特征连接形成关键点-顶点嵌入特征。

9.如权利要求1所述的基于关键点与网格顶点互补增强的3D人体姿态估计方法，其特征在于：步骤S205中，SMPL模型参数包括旋转参数θ∈R^24×3、体型参数β∈R¹⁰和相机参数k_c∈R³。

10.如权利要求9所述的基于关键点与网格顶点互补增强的3D人体姿态估计方法，其特征在于：通过如下损失函数训练回归预测模型：

L＝L_pose+L_mesh；

L_mesh＝L_param+L_pose′；