CN116311514A

CN116311514A - 一种基于2d-3d坐标匹配策略的行人检测与姿态估计方法

Info

Publication number: CN116311514A
Application number: CN202310243337.4A
Authority: CN
Inventors: 田炜; 高众; 艾文瑾
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-23

Abstract

本发明涉及一种基于2D‑3D坐标匹配策略的行人检测与姿态估计方法，将包含多人的待检测图像作为输入图像，输入预先构建并训练的检测网络中，输出行人检测及2D人体姿态估计结果；检测网络包括：主干网络：用以输出多个不同尺度的第一特征图；信息恢复分支：用以进行多次上采样，生成多个不同尺度的第二特征图；检测器：用以执行检测任务，输出单人检测框和单人关键点坐标；2D预测分支：用以根据所有第二特征图以及单人检测框，输出2D人体表征参数；矫正优化模块：用以对2D预测分支输出的2D人体表征参数进行优化，输出最终的2D人体姿态坐标点。与现有技术相比，本发明能够矫正关键点坐标，进而缓解现有技术2D姿态估计中错匹配的问题，提高检测效率。

Description

一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法

技术领域

本发明涉及行人检测与姿态估计技术领域，尤其是涉及一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法。

背景技术

随着自动驾驶技术的发展，其自身安全性受到了越来越多的关注，与非自动驾驶汽车相比，自动驾驶车辆需要准确识别环境中的障碍物以避免发生碰撞。而在交通场景下，运动轨迹最为多变的就是行人，因此模型不仅需要能够检测到行人位置，还需要对其轨迹有一定的了解。

现有技术的行人检测与姿态估计方法多直接采用多目标跟踪的框架同时追踪视野内的行人和其他障碍物，而没有考虑行人自身的先验信息。许多先前的工作致力于基于模型的3D姿态估计方法使用参数化的SMPL人体模型参数作为输出目标，从而利用身体结构的先验统计信息。随着深度学习技术的进步，越来越多的研究关注基于学习的模型，使用深度学习网络来估计姿势和形状参数。但是在基于学习的多人姿态检测方法中存在2D-3D关键点坐标变换问题，目前尚未完全得到解决，因此在传统的2D姿态估计中往往存在错匹配的情况。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，该发明能够矫正关键点坐标，进而缓解现有技术2D姿态估计中错匹配的问题，提高检测效率。

本发明的目的可以通过以下技术方案来实现：

本发明提供一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，将包含多人的待检测图像作为输入图像，输入预先构建并训练的检测网络中，输出行人检测及2D人体姿态估计结果；

所述检测网络包括：

主干网络：用以接收输入图像，输出多个不同尺度的第一特征图；

信息恢复分支：用以将最小尺度的第一特征图进行多次上采样，进而生成多个不同尺度的第二特征图；

检测器：用以接收所有第一特征图并执行检测任务，输出单人检测框和单人关键点坐标；

2D预测分支：用以接收并根据信息恢复分支输出的所有第二特征图以及检测器输出的单人检测框，预测单人2D姿态，输出2D人体表征参数；

矫正优化模块：用以接收并根据检测器输出的单人关键点坐标，描述3D人体表征参数，进而得到人体3D各坐标点的相对关系，根据人体3D各坐标点的相对关系对2D预测分支输出的2D人体表征参数进行优化，输出最终的2D人体姿态坐标点。

优选地，所述2D预测分支从所述信息恢复分支输出的所有第二特征图中选取与检测器输出的单人检测框尺度匹配的第二特征图，并对该第二特征图进行裁剪，得到预测热图，进行单人2D姿态的预测；

所述2D预测分支预测单人2D姿态的过程具体为：

1a)对于预测热图，分别按UV两个方向累加求和，得到各关键点在UV方向上的坐标投票权重z；

2a)根据坐标投票权重z，计算归一化权重分布z′＝Softmax(z)；

3a)定义固定枚举序列E，计算归一化权重分布z′与固定枚举序列E的乘积，得到各关键点对应的投票值；

4a)根据投票值计算均值和方差，得到各关键点的预测UV坐标值以及其不确定度。

优选地，所述2D预测分支预测过程中的2D姿态损失函数为：

式中，u_i和v_i分别代表第i个关键点的横、纵坐标的真值，c_i代表第i个关键点预测值的不确定度，w代表正则项的权重，

和/>

分别代表第i个关键点的横、纵坐标预测值。

优选地，所述2D预测分支基于K-Block结构构建，输出包括人体SMPL关键点的2D坐标预测值和关键点的2D坐标预测值的不确定度。

优选地，所述矫正优化模块基于SMPL模型和单人关键点坐标，描述3D人体表征参数，输出SMPL关键点的3D坐标预测值，根据SMPL关键点的3D坐标预测值对2D预测分支输出的人体SMPL关键点的2D坐标预测值进行优化，基于2D-3D坐标匹配策略的优化方程为：

式中(R^*,t^*)为满足最小化损失函数Loss的2D-3D坐标匹配的最优旋转矩阵和平移向量，p_i和q_i为SMPL向量形式的对应坐标点，考虑到不确定度c_i和权重w_i负相关，以不确定度c_i和权重w_i分别为对角线元素建立对角线矩阵W和C，以W＝C^-1代入可简化得：

式中，满足SVD分解P^TC^-1Q＝U∑V^T，两组对应的坐标点组成点集P＝{p₁,p₂,…,p_k}和Q＝{q₁,q₂,…,q_k}，(R，t)分别为一对欧式变换的旋转矩阵和平移向量，通过该变换后使得P和Q的误差最小，U、V为两个正交矩阵，满足P^TC^-1Q＝U∑V^T。

优选地，进行基于2D-3D坐标匹配策略的优化的过程为：

输入人体SMPL关键点的2D坐标预测值KPS_2D、关键点的2D坐标预测值的不确定度C_2D以及SMPL关键点的3D坐标预测值KPS_3D；

1b)计算KPS_2D的均值mean和方差var用于后续恢复2D点的坐标，假设KPS_2D的z轴坐标均为0；

2b)对KPS_2D和KPS_3D进行归一化以对齐模型；

3b)计算KPS_2D，C_2D和KPS_3D的外积S＝(KPS_2D)(C_2D)^-1(KPS_3D)；

4b)计算S的SVD分解S＝UΣV'，得到旋转矩阵R＝VU'；

5b)令R的行列式为1，即det(R)＝1，以确保R为旋转矩阵而非反射矩阵；

6b)根据mean和var计算KPS_3D对应2D点的坐标；

7b)将变换后的z轴坐标赋给KPS_2D；

8b)重复步骤3b)～7b)以优化旋转矩阵R，获得最终的2D人体姿态坐标点。

优选地，优化过程中，关键点回归损失函数Loss_KPS3D为：

式中，u_i和v_i分别代表第i个关键点的横、纵坐标的真值，

和/>

分别代表第i个关键点的横、纵坐标预测值。

优选地，所述检测器为基于Transformer的DETR检测器。

优选地，所述检测器执行检测任务过程中的损失函数包括由单人检测框和真实框之间直接计算的L1损失函数，IoU优化损失函数，行人预测置信度损失函数以及预测检测框对应的GIoU值损失函数。

优选地，所述主干网络为基于ResNet的简化多层神经网络，所述信息恢复分支为特征金字塔网络。

与现有技术相比，本发明具有以如下有益效果：

(1)本发明将原始图像经过预处理后送入主干网络；挖掘主干网络提取出的图像特征，预测行人所在的包围框(BBox)，输出检测置信度和检测框的坐标，并输出一组预测的SMPL参数值，用于矫正关节点坐标，缓解了传统2D姿态估计存在的错配情况；分别对不同的检测框进行特征提取；直接将提取后的低分辨率特征经过变换后送入特定的结构以进行姿态预测，降低了计算量，提高了检测效率；使用模型输出的参数进一步优化受遮挡或低光照等特殊工况下的人体关节点检测；

(2)本发明使用了简化的多层神经网络，避免梯度传播上的困难，并且额外增加了信息恢复分支，以适应不同尺寸的输入，同时给出对应的参数供单人2D姿态预测模块使用。

(3)本发明设计的基于K-Block的人体姿态估计模式，大幅降低对梯度的浪费，并能实现端到端地训练模型。

附图说明

图1为本实施例提供的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法的检测网络的结构示意图。

图2为图1所示实施例中2D预测分支预测单人2D姿态的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

参考图1所示，本实施例提供一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，包括如下步骤：

步骤1：获取包含多人的待检测图像，将待检测图像分为测试集和训练集；

步骤2：构建检测网络，将训练集输入检测网络中，对检测网络进行训练，使得训练好的检测网络能够进行行人检测与姿态估计；

检测网络包括：

主干网络：用以接收输入图像，输出多个不同尺度的第一特征图。

信息恢复分支：用以将最小尺度的第一特征图进行多次上采样，进而生成多个不同尺度的第二特征图。

检测器：用以接收所有第一特征图并执行检测任务，输出单人检测框、单人关键点坐标和单人检测置信度。

2D预测分支：用以接收并根据信息恢复分支输出的所有第二特征图以及检测器输出的单人检测框，预测单人2D姿态，输出2D人体表征参数。

作为一种可选的实施方式，主干网络为基于ResNet的简化多层神经网络。

作为一种可选的实施方式，信息恢复分支为特征金字塔网络(Feature PyramidNetwork)。信息恢复分支对最小尺度的第一特征图进行多次上采样，对于每次上采样过程，当前尺度的第二特征图以及比当前尺度大一级的第一特征图，作为当前上采样的输入，输出比当前尺度大一级的第二特征图。

作为一种可选的实施方式，检测器为基于Transformer的DETR检测器。

作为一种可选的实施方式，检测器执行检测任务过程中的损失函数包括：

(1)L1损失函数：由单人检测框和真实框之间直接计算，描述L1损失的公式如下所示：

式中，x_i、y_i、w_i和h_i分别为第j个检测框的横纵位置和长宽四个参数的真值，

和/>

分别为第j个检测框的横纵位置和长宽四个参数的预测值，Loss_BBox为L1损失函数。

(2)IoU优化损失函数：

引入主要评价指标IoU：

式中，A、B分别为单人检测框和真实框所占据的面积。

式中，Loss_GIoU为IoU优化损失函数，GIoU(A,B)为度量A和B之间距离的函数，C为A、B的外接最小矩形所占的面积。

(3)行人预测置信度损失函数：

式中，α＝0.25,γ＝2，均为对应的超参数，

为真实标签，p为预测结果。

(4)预测检测框对应的GIoU值损失函数：

式中，GIoU为真实框的GIoU值，

为预测的单人检测框的GIoU值。

作为一种可选的实施方式，2D预测分支从信息恢复分支输出的所有第二特征图中选取与检测器输出的单人检测框尺度匹配的第二特征图，并对该第二特征图进行裁剪，得到预测热图，进行单人2D姿态的预测。

参考图2所示，2D预测分支预测单人2D姿态的过程具体如下：

1a)对于单张尺寸为W×H的预测热图T_i，分别按UV两个方向累加求和，得到各关键点在UV方向上的坐标投票权重z，其大小为1H和W×1；

2a)根据坐标投票权重z，计算归一化权重分布z′＝Softmax(z)；

3a)对于一个给定向量，设其长度为N，则有固定枚举序列向量E＝(1,2,…N)，其物理意义为每一行或列像素的序号组成的向量，计算归一化权重分布z′与固定枚举序列E的乘积，得到各关键点对应的投票值；

4a)根据投票值计算均值和方差，得到各关键点的预测UV坐标值u_i，v_i及其不确定度c_i,1，c_i,2。

作为一种可选的实施方式，2D预测分支预测过程中的2D姿态损失函数为：

式中，u_i和v_i分别代表第i个关键点的横、纵坐标的真值，c代表坐标预测的不确定度，w代表正则项的权重，

和/>

分别代表第i个关键点的横、纵坐标预测值。

作为一种可选的实施方式，2D预测分支基于K-Block结构构建，该结构同时从全部热图像素中计算人体关节的坐标值，并采用非argmax的输出形式，输出人体SMPL关键点的2D坐标预测值KPS_2D和关键点的2D坐标预测值的不确定度C_2D。

作为一种可选的实施方式，矫正优化模块接收检测器输出的单人关键点坐标，基于SMPL模型和单人关键点坐标，矫正优化模块基于SMPL模型和单人关键点坐标，描述3D人体表征参数，输出SMPL关键点的3D坐标预测值，根据SMPL关键点的3D坐标预测值对2D预测分支输出的人体SMPL关键点的2D坐标预测值进行优化，输出最终的2D人体姿态坐标点。

基于2D-3D坐标匹配策略的优化方程为：

式中(R^*,t^*)为满足最小化损失函数Loss的2D-3D坐标匹配的最优旋转矩阵和平移向量。p_i和q_i为SMPL向量形式的对应坐标点。考虑到不确定度c_i和权重w_i负相关，以不确定度c_i和权重w_i分别为对角线元素建立对角线矩阵W和C，以W＝C^-1代入可简化得：

作为一种可选的实施方式，进行基于2D-3D坐标匹配策略的优化的过程为：

将2D预测分支输出人体SMPL关键点的2D坐标预测值KPS_2D和关键点的2D坐标预测值的不确定度C_2D；SMPL关键点的3D坐标预测值KPS_3D作为输入，输出加权的2D坐标SMPL形式，即Weighted KPS_2D。

2b)对KPS_2D和KPS_3D进行归一化(移除均值和方差)以对齐模型；

3b)计算KPS_2D，C_2D和KPS_3D的外积S＝(KPS_2D)(C_2D)^-1(KPS_3D)；

4b)计算S的SVD分解S＝UΣV'，得到旋转矩阵R＝VU'；

6b)根据mean和var计算KPS_3D对应2D点的坐标；

7b)将变换后的z轴坐标赋给KPS_2D；

8b)重复步骤3b～7b以优化旋转矩阵R，并获得基于3D点预测值的加权2D坐标。

作为一种可选的实施方式，优化过程中，关键点回归损失函数为：

步骤3：将测试集输入训练好的检测网络中，输出行人检测及2D人体姿态估计结果。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，其特征在于，将包含多人的待检测图像作为输入图像，输入预先构建并训练的检测网络中，输出行人检测及2D人体姿态估计结果；

所述检测网络包括：

2.根据权利要求1所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，其特征在于，所述2D预测分支从所述信息恢复分支输出的所有第二特征图中选取与检测器输出的单人检测框尺度匹配的第二特征图，并对该第二特征图进行裁剪，得到预测热图，进行单人2D姿态的预测；

所述2D预测分支预测单人2D姿态的过程具体为：

2a)根据坐标投票权重z，计算归一化权重分布z′＝Softmax(z)；

3.根据权利要求2所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，其特征在于，所述2D预测分支预测过程中的2D姿态损失函数为：

和/>

分别代表第i个关键点的横、纵坐标预测值。

4.根据权利要求2所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，其特征在于，所述2D预测分支基于K-Block结构构建，输出包括人体SMPL关键点的2D坐标预测值和关键点的2D坐标预测值的不确定度。

5.根据权利要求4所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，其特征在于，所述矫正优化模块基于SMPL模型和单人关键点坐标，描述3D人体表征参数，输出SMPL关键点的3D坐标预测值，根据SMPL关键点的3D坐标预测值对2D预测分支输出的人体SMPL关键点的2D坐标预测值进行优化，基于2D-3D坐标匹配策略的优化方程为：

式中(R^*，t^*)为满足最小化损失函数Loss的2D-3D坐标匹配的最优旋转矩阵和平移向量，p_i和q_i为SMPL向量形式的对应坐标点，考虑到不确定度c_i和权重w_i负相关，以不确定度c_i和权重w_i分别为对角线元素建立对角线矩阵W和C，以W＝C^-1代入可简化得：

式中，满足SVD分解P^TC^-1Q＝UΣV^T，两组对应的坐标点组成点集P＝{p₁，p₂，...，p_k}和Q＝{q₁，q₂，...，q_k}，(R，t)分别为一对欧式变换的旋转矩阵和平移向量，通过该变换后使得P和Q的误差最小，U、V为两个正交矩阵，满足P^TC^-1Q＝UΣV^T。

6.根据权利要求5所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，其特征在于，进行基于2D-3D坐标匹配策略的优化的过程为：

2b)对KPS_2D和KPS_3D进行归一化以对齐模型；

3b)计算KPS_2D，C_2D和KPS_3D的外积S＝(KPS_2D)(C_2D)^-1(KPS_3D)；

4b)计算S的SVD分解S＝U∑V′，得到旋转矩阵R＝VU′；

6b)根据mean和var计算KPS_3D对应2D点的坐标；

7b)将变换后的z轴坐标赋给KPS_2D；

7.根据权利要求6所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，其特征在于，优化过程中，关键点回归损失函数Loss_KPS3D为：

式中，u_i和v_i分别代表第i个关键点的横、纵坐标的真值，

和/>

分别代表第i个关键点的横、纵坐标预测值。

8.根据权利要求1所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，其特征在于，所述检测器为基于Transformer的DETR检测器。

9.根据权利要求1所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，其特征在于，所述检测器执行检测任务过程中的损失函数包括由单人检测框和真实框之间直接计算的L1损失函数，IoU优化损失函数，行人预测置信度损失函数以及预测检测框对应的GIoU值损失函数。

10.根据权利要求1所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法，其特征在于，所述主干网络为基于ResNet的简化多层神经网络，所述信息恢复分支为特征金字塔网络。