CN117292407B

CN117292407B - 一种3d人体姿态估计方法及系统

Info

Publication number: CN117292407B
Application number: CN202311585615.0A
Authority: CN
Inventors: 单军龙; 李小曼; 朱兆亚
Original assignee: Anhui Jushi Technology Co ltd
Current assignee: Anhui Jushi Technology Co ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-03-26
Anticipated expiration: 2043-11-27
Also published as: CN117292407A

Abstract

本发明提出了一种3D人体姿态估计方法及系统，解决了现有人体姿态估计方式单一，不同相机情况下检测精度受限等问题，其方法步骤包括由卷积神经网络获取双目视图特征；由可学习的人体查询与关节查询层级组合成成组的关节目标查询，将相机参数编码进描述，并将卷积神经网络的视图特征融入，分别计算初始3D关节点估计值及初始相机外参估计值；由多层变压解码器对S2中关节目标查询进行成对自注意及自适应特征提取；对于上述3D人体姿态估计模型，计算网络损失，网络损失包括置信度损失、姿态回归损失以及相机外参估计损失；对3D人体姿态估计模型进行策略训练。

Description

一种3D人体姿态估计方法及系统

技术领域

本发明涉及人体姿态估计技术领域，尤其涉及一种3D人体姿态估计方法及系统。

背景技术

3D人体姿态估计，即相机参数已知的多视角拍摄图像检测并恢复出该场景下所有人体骨架的任务，是计算机领域精典的研究课题，在运动分析、影视特效等邻域具有重要的应用前景。单目2D图像估计人体3D姿态，可能存在不同的3D姿态具有相同的2D投影姿态，而且也面临着自遮挡、其他物体遮挡、深度的不确定性等问题，而基于双目或着多目图像可以使得估计的人体3D姿态更加精确。目前多视角3D人体姿态估计主要有如下方案：

1）基于匹配和三角重建的方法，它首先检测各个视角下的2D骨架，然后将各个视角检测到的人体关键点进行匹配，最后基于多视角的2D坐标和相机参数，利用三角测量的原理，得到人体的3D姿态，如MVPose方法；

2）基于空间体素的方法，通过将 3D 空间划分为等距网格，用概率模型或者 3D卷积神经网络（CNN）检测关键点，如VoxelPose方法；

3）基于图卷积神经网络的自顶向下的两阶段方法，首先设计了多视角匹配图神经网络，得到精确3D 人体中心点定位，然后基于人体姿态回归图模型，得到3D 人体姿态；

4）基于Transformer的单阶段算法，它的优势是没有中间阶段，而是直接预测多人关键点三维坐标，代表方法是MvP方法。

上述多视角3D人体姿态估计方案的优缺点如下：

1）基于匹配和三角重建的方法，3D重建的精度十分依赖于2D检测结果，且匹配和重建部分没有误差反传；

2）基于空间体素的方法，避免了2D检测误差对后续匹配的影响，直接在3D空间进行姿态估计；但是，其精度受到网格大小的制约，不可避免的受到量化误差，且其计算的复杂度随着3D空间呈三次方的增长方式，无法应用于大场景下的3D姿态估计；

3）基于图卷积神经网络的自顶向下的两阶段方法，相比于上两个方法，精度更高，SOTA有很明显的提高；

4）基于Transformer的单阶段算法，在运行速度上取得SOTA的性能，比VoxelPose快了2倍，并且推理时间不随场景中人数的增加而增加，能更好地应对拥挤的场景。

发明内容

本发明要解决的技术问题是克服现有技术存在的缺陷，本发明提出了一种适用于不同相机外参的双目视觉人体关节点检测的3D人体姿态估计方法及系统，首先，由卷积神经网络提取双目视图特征，由可学习的人体查询与关节查询层级组合成成组的关节目标查询，双目视图特征连同相机内外参数编码进关节目标查询，再经多层变压解码器进行关节查询的自注意力和双目视图特征上下文信息的自适应提取，变压器输出经多层感知器直接回归人体3D关键点。

为解决上述技术问题，本发明采用的技术方案是：一种3D人体姿态估计方法，包括如下步骤：

S1、由卷积神经网络获取双目视图特征；

S2、由可学习的人体查询与关节查询层级组合成成组的关节目标查询，将相机参数编码进描述，并将卷积神经网络的视图特征融入该成组的关节目标查询分别计算初始3D关节点估计值及初始相机外参估计值；

S3、由多层变压解码器对S2中关节目标查询进行成对自注意及自适应特征提取；

S4、对于上述由卷积神经网络及多层变压解码器组成的3D人体姿态估计模型，每层变压解码器的输出由不同的感知器头实现，输出包括相机的外参偏移量、3D关节点位置的偏移量以及其置信度，网络损失包括置信度损失、姿态回归损失以及相机外参估计损失；

S5、对S4中3D人体姿态估计模型进行策略训练。

进一步地，所述步骤S2中融入相机参数的关节目标查询描述如下，

其中，表示为第m个关节点，/>表示第n个人人体位置编码，/>为已知相机外参，/>为可学习权重。

进一步地，所述步骤S2中视图特征融入关节目标查询计算初始3D关节点估计值和初始相机外参数描述的具体步骤如下，

将不同维度视图特征通过池化层下采样，并进行通道级联和展平操作；

经过全连接层得到与关节目标查询维度一致的视图特征；

与关节目标查询结合，得到初始3D关节点估计值，计算如下，

相应初始相机外参数的估计值计算如下，

其中，表示通道级联操作，/>表示池化操作，/>为可学习权重，/>为所述步骤S1中的卷积神经网络获取双目视图特征。

进一步地，所述步骤S3中，每层变压解码器包括，

自注意阶段，采用多头注意力进行关节查询成对的自注意，

双目视图特征上下文信息的自适应提取阶段，关节查询结合上一层层变压解码器估计的3D关节点、估计的相机外参和已知的相机内参进行投影，然后自适应提取关节投影点附近对应视图特征的上下文信息，并融合其自适应提取到的关节投影点附近的上下文信息。

进一步地，对应所述步骤S3中自适应提取阶段计算步骤如下，

对于所述步骤S1双目视图特征视图特征、关节目标查询q、已知的相机内参/>、已知相机外参/>以及由q经多层感知器估计的三维关节点位置y，

关节投影点，/>表示当前y的2D投影，其中Π表示投影计算，

则自适应提取阶段对应计算步骤如下，

其中,为目标查询q注意权重，/>为投影锚点的偏移量，其中/>和/>为可学习权重；/>是通过聚集关节投影点/>附近 K个离散偏移采样点特征来获得的，/>，/>和/>是可学习权重，若关节投影点/>和偏移采样点/>为分数，则使用双线性插值得到相应的特征/>或/>。

进一步地，所述步骤S5中，训练策略包括，

自适应提取阶段中，训练时采用上一层变压解码器估计的相机外参，推理时，/>采用实际已知的相机外参；

依据相机参数的一致性分场景依次给网络喂入图片。

进一步地，所述步骤S4中，网络损失计算步骤如下，

对人体数m以及关节点数n而言，其对应估计出的人的三维姿态集合、每个人对应估计的3D关节点/>，相应的关节点置信度，分别对每个人的关节点置信度取平均得到人的置信度/>、实际的人体三维姿态集合/>，采用填充空元/>的方式将实际人数扩充至与模型预测的人数一致，

采用匈牙利算法对的真实的三维姿态集和估计的三维姿集/>进行做最优匹配，

其中，表示匈牙利算法，/>为最优匹配结果，

网络损失的计算方式如下，

其中，分别为置信度损失、姿态回归损失和相机外参数回归损失，/>和/>为权重系数。

进一步地，对于置信度损失，采用Focal Loss损失函数，训练过程中动态降低易区分样本的权重，从而将重心快速聚焦在那些难区分的样本，

其中，y为真实标签，通过抑制正负样本的数量失衡，通过/>控制简单/难区分样本数量失衡；

对于姿态回归损失，包括三维关节及双目视图投影二维关节的损失，其中，二维关节的损失包含整体骨架偏移损失和关节分布损失，关节分布损失函数/>定义为，真实关节姿态与估计关节姿态各关节距离的/>损失；整体骨架偏移损失函数定义为，真实关节姿态质心与估计关节姿态质心的/>损失；且二维关节，可由预测的三维关键点和相机外参结合相机内参通过投影公式计算而得，/>为视图数,那么

其中，表示标签值,/>为权重系数；

对于相机外参数回归损失，

。

一种3D人体姿态估计系统，包括：

卷积网络模块，用以获取双目视图特征；

关节目标查询模块，通过可学习的人体查询与关节查询层级组合成成组的关节目标查询，并将相机参数编码以及视图特征融入后计算初始3D关节点估计值及初始相机外参估计值；

自适应提取模块，由多层变压解码器对关节目标查询进行成对自注意及自适应特征提取；

训练损失模块，用以对模型网络损失计算，网络损失包括置信度损失、姿态回归损失以及相机外参估计损失；

策略训练模块，用以依据训练策略对前述由卷积神经网络及多层变压解码器组成的3D人体姿态估计模型进行训练。

与现有技术相比，本发明的有益效果包括：通过卷积神经网络提取双目视图特征，由可学习的人体查询与关节查询层级组合成成组的关节目标查询，双目视图特征连同相机内外参数编码进关节目标查询，再经多层变压解码器进行关节查询的自注意力和双目视图特征上下文信息的自适应提取，变压器输出经多层感知器直接回归人体3D关键点，检测模型能够适应于具有不同的相机外参的拍摄场景，检测精度更高。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制。在附图中，相同的附图标记用于指代相同的部件。其中：

图1示意性显示了根据本发明一个实施方式提出的模型构建流程图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

根据本发明的一实施方式结合图1示出。

一种3D人体姿态估计方法，包括如下步骤：

S1、由卷积神经网络获取双目视图特征；

S5、对S4中3D人体姿态估计模型进行策略训练。

以下对上述每一步做具体阐述：

对于步骤S1和S2而言，其实质即为成组约束的关节目标查询，变压器解码通过每个可学习的关节目标查询，关注图像的不同区域，结合视图特征，推理关节目标之间和估计的二维投影在图像的上下文之间的关系，并行解码出人体的3D关节点。模型首先由可学习的关节目标查询估计初始3D关键点，每一层变压器解码器回归相对上一层估计的3D关键点的偏移量，进而回归出当层估计的3D关键点及其置信度，同时每一层变压器解码器估计相机外参数的偏移量，修正估计的相机外参。

为了使人体关节姿态信息能够有效地在不同人之间共享，不采用单独设置每个人的关节目标查询，而是对先验的人体位置信息进行编码，再与共享的人体不同关节点的关节目标查询进行组合，获得不同人不同关节点的关节目标查询。同时，为了让模型对不同相机外参数的视图场景具有良好适用性，将已知的相机参数编码进关节查询。

融入相机参数的关节目标查询描述如下，

为了增强模型的泛化能力，初始3D关键点的估计融入了卷积神经网络的视图特征,即将不同维度的视图特征通过池化层下采样，再进行通道级联和展平操作，最后经过全连接层得到与关节目标查询维度一致的视图特征，与关节查询结合，再进行初始3D关节点的估计，则初始3D关节点估计值，计算如下，

相应初始相机外参数的估计值计算如下，

对于步骤S3而言，每层解码器都包含自注意阶段和双目视图特征上下文信息的自适应提取阶段。

在自注意阶段，采用多头注意力进行关节查询成对的自注意，关节查询关注同组的其他关节，也关注其他组的关节，学习人体的骨骼关节之间的相关性，同时区分不同人体的骨骼关节。在双目视图特征上下文信息的自适应提取阶段，关节查询通过其估计的3D关节点和估计的相机参数，投影到特征图长宽尺度上，自适应的提取投影点附近对应的视图特征的上下文信息，并融合其自适应提取到的双视图骨骼点瞄点附近的上下文信息，以精确估计估计3D关节点的偏移量，和区分不同人体的骨骼关节。

对应自适应提取阶段计算步骤如下，

关节投影点，/>表示当前y的2D投影，其中Π表示投影计算，

则自适应提取阶段对应计算步骤如下，

在双目视图特征上下文信息的自适应提取阶段，为了提升三维关节点偏移量提取的准确性，提取每个视图的相机投影方向信息做位置编码。首先关节目标查询经多层感知器估计相机内外参，由相机内外参计算对应左右视图特征长宽尺度的相机投影方向矩阵，然后和视图特征进行通道级联，再进行卷积操作得到新的视图特征：。

对于步骤S4而言，由上述由卷积神经网络及多层变压解码器组成的3D人体姿态估计模型，每层变压解码器的输出由不同的感知器头实现，输出包括相机的外参偏移量、3D关节点位置的偏移量以及其置信度，网络损失包括置信度损失、姿态回归损失以及相机外参估计损失。

具体而言，网络损失计算步骤如下，

其中，表示匈牙利算法，/>为最优匹配结果，

网络损失的计算方式如下，

其中，表示标签值,/>为权重系数；

对于相机外参数回归损失，

。

对于步骤S5而言，为了使网络能够适应于具有不同的相机外参的拍摄场景，将实际相机外参编码进关节查询，并且在每一层解码器都进行相机外参的估计，并且训练时双目视图特征上下文信息的自适应提取阶段采用了估计的相机外参，在推理时，为了使结果更加精确，采用实际的相机外参。在训练过程中，如果采用随意混合所有拍摄场景的方式给网络输入图片，当前输入场景只有一个人，然后下个输入图片属于不同相机参数的场景，其实是不利于解码器进行相机外参的精确估计的，所以，在训练时，应该根据相机参数的一致性分场景依次给网络喂入图片。

同样的，依据上述方法所构建的一种3D人体姿态估计系统也同样在本发明的保护范围之类，具体而言，该系统包括：

卷积网络模块，用以获取双目视图特征；

此外，上述的方法步骤以及系统，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于SaaS模式CRM系统的业务性能分析方法，该方法包括：获取业务性能分析请求；所述业务性能分析请求用于请求分析在多个租户访问软件运营服务SaaS模式客户关系管理CRM系统时影响业务性能的原因；所述租户为具有标准产品功能的租户、或者具有标准产品功能和业务扩展功能的租户；基于所述业务性能分析请求和各所述租户在执行至少一种业务逻辑时的日志信息，对各所述租户访问SaaS模式CRM系统时影响业务性能的原因进行分析，得到影响业务性能的原因；所述日志信息包括租户标识和执行耗时信息。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。

Claims

1.一种3D人体姿态估计方法，其特征在于，包括如下步骤：

S1、由卷积神经网络获取双目视图特征；

S2、由可学习的人体查询与关节查询层级组合成成组的关节目标查询，将相机参数编码进描述，并将卷积神经网络的视图特征融入该成组的关节目标查询分别计算初始3D关节点估计值及初始相机外参估计值，

所述融入相机参数的关节目标查询描述如下，

，

其中，表示为第m个关节点，/>表示第n个人人体位置编码，/>为已知相机外参，/>为可学习权重，/>表示第n个人人体位置编码中第m个关节点的关节目标查询，

所述视图特征融入关节目标查询计算初始3D关节点估计值和初始相机外参数描述的具体步骤如下，

将不同维度视图特征通过池化层下采样，并进行通道级联和展平操作，

经过全连接层得到与关节目标查询维度一致的视图特征，

，

相应初始相机外参数的估计值计算如下，

，

其中，表示通道级联操作，/>表示池化操作，/>为可学习权重，/>为所述步骤S1中的卷积神经网络获取双目视图特征；

S3、由多层变压解码器对S2中关节目标查询进行成对自注意及自适应特征提取，

每层变压解码器包括，

自注意阶段，采用多头注意力进行关节查询成对的自注意，

双目视图特征上下文信息的自适应提取阶段，关节查询结合上一层层变压解码器估计的3D关节点、估计的相机外参和已知的相机内参进行投影，然后自适应提取关节投影点附近对应视图特征的上下文信息，并融合其自适应提取到的关节投影点附近的上下文信息，

所述自适应提取阶段计算步骤如下，

关节投影点其中，/>表示当前y的2D投影，Π表示投影计算，

则自适应提取阶段对应计算步骤如下，

，

其中,为目标查询q注意权重，/>为投影锚点的偏移量，其中/>和/>为可学习权重；/>是通过聚集关节投影点/>附近 K个离散偏移采样点特征来获得的，/>，/>和/>是可学习权重，若关节投影点/>和偏移采样点为分数，则使用双线性插值得到相应的特征/>或/>，train表示模型训练时，/>代表模型推理时，/>表示上一层变压解码器估计的相机外参，/>表示实际相机外参；

S5、对S4中3D人体姿态估计模型进行策略训练。

2.根据权利要求1所述的一种3D人体姿态估计方法，其特征在于：所述步骤S5中，训练策略包括，

自适应提取阶段中，训练时采用上一层变压解码器估计的相机外参，推理时，采用实际已知的相机外参；

依据相机参数的一致性分场景依次给网络喂入图片。

3.根据权利要求2所述的一种3D人体姿态估计方法，其特征在于：所述步骤S4中，网络损失计算步骤如下，

对人体数m以及关节点数n而言，其对应估计出的人的三维姿态集合、每个人对应估计的3D关节点/>，相应的关节点置信度/>，分别对每个人的关节点置信度取平均得到人的置信度/>、实际的人体三维姿态集合，采用填充空元/>的方式将实际人数扩充至与模型预测的人数一致，

采用匈牙利算法对的真实的三维姿态集和估计的三维姿态集/>进行做最优匹配，

，

其中，表示匈牙利算法，/>为最优匹配结果，

网络损失的计算方式如下，

，

其中，分别为置信度损失、姿态回归损失和相机外参数回归损失，/>和/>为权重系数；

对于置信度损失，采用Focal Loss损失函数，训练过程中动态降低易区分样本的权重，从而将重心快速聚焦在那些难区分的样本，

，

对于姿态回归损失，包括三维关节及双目视图投影二维关节的损失，其中，二维关节的损失包含整体骨架偏移损失和关节分布损失，关节分布损失函数/>定义为，真实关节姿态与估计关节姿态各关节距离的/>损失；整体骨架偏移损失函数/>定义为，真实关节姿态质心与估计关节姿态质心的/>损失；且二维关节/>，可由预测的三维关键点和相机外参结合相机内参通过投影公式计算而得，/>为视图数,那么，

，

其中，*表示标签值,为权重系数；

对于相机外参数回归损失，

，

其中，表示真实的相机外参。

4.一种依据上述权利要求1-3任一所述的3D人体姿态估计方法的3D人体姿态估计系统，其特征在于，包括：

卷积网络模块，用以获取双目视图特征；