CN116311514A - 一种基于2d-3d坐标匹配策略的行人检测与姿态估计方法 - Google Patents
一种基于2d-3d坐标匹配策略的行人检测与姿态估计方法 Download PDFInfo
- Publication number
- CN116311514A CN116311514A CN202310243337.4A CN202310243337A CN116311514A CN 116311514 A CN116311514 A CN 116311514A CN 202310243337 A CN202310243337 A CN 202310243337A CN 116311514 A CN116311514 A CN 116311514A
- Authority
- CN
- China
- Prior art keywords
- coordinate
- detection
- prediction
- human body
- kps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 238000011084 recovery Methods 0.000 claims abstract description 15
- 238000012512 characterization method Methods 0.000 claims abstract description 7
- 238000012937 correction Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于2D‑3D坐标匹配策略的行人检测与姿态估计方法,将包含多人的待检测图像作为输入图像,输入预先构建并训练的检测网络中,输出行人检测及2D人体姿态估计结果;检测网络包括:主干网络:用以输出多个不同尺度的第一特征图;信息恢复分支:用以进行多次上采样,生成多个不同尺度的第二特征图;检测器:用以执行检测任务,输出单人检测框和单人关键点坐标;2D预测分支:用以根据所有第二特征图以及单人检测框,输出2D人体表征参数;矫正优化模块:用以对2D预测分支输出的2D人体表征参数进行优化,输出最终的2D人体姿态坐标点。与现有技术相比,本发明能够矫正关键点坐标,进而缓解现有技术2D姿态估计中错匹配的问题,提高检测效率。
Description
技术领域
本发明涉及行人检测与姿态估计技术领域,尤其是涉及一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法。
背景技术
随着自动驾驶技术的发展,其自身安全性受到了越来越多的关注,与非自动驾驶汽车相比,自动驾驶车辆需要准确识别环境中的障碍物以避免发生碰撞。而在交通场景下,运动轨迹最为多变的就是行人,因此模型不仅需要能够检测到行人位置,还需要对其轨迹有一定的了解。
现有技术的行人检测与姿态估计方法多直接采用多目标跟踪的框架同时追踪视野内的行人和其他障碍物,而没有考虑行人自身的先验信息。许多先前的工作致力于基于模型的3D姿态估计方法使用参数化的SMPL人体模型参数作为输出目标,从而利用身体结构的先验统计信息。随着深度学习技术的进步,越来越多的研究关注基于学习的模型,使用深度学习网络来估计姿势和形状参数。但是在基于学习的多人姿态检测方法中存在2D-3D关键点坐标变换问题,目前尚未完全得到解决,因此在传统的2D姿态估计中往往存在错匹配的情况。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,该发明能够矫正关键点坐标,进而缓解现有技术2D姿态估计中错匹配的问题,提高检测效率。
本发明的目的可以通过以下技术方案来实现:
本发明提供一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,将包含多人的待检测图像作为输入图像,输入预先构建并训练的检测网络中,输出行人检测及2D人体姿态估计结果;
所述检测网络包括:
主干网络:用以接收输入图像,输出多个不同尺度的第一特征图;
信息恢复分支:用以将最小尺度的第一特征图进行多次上采样,进而生成多个不同尺度的第二特征图;
检测器:用以接收所有第一特征图并执行检测任务,输出单人检测框和单人关键点坐标;
2D预测分支:用以接收并根据信息恢复分支输出的所有第二特征图以及检测器输出的单人检测框,预测单人2D姿态,输出2D人体表征参数;
矫正优化模块:用以接收并根据检测器输出的单人关键点坐标,描述3D人体表征参数,进而得到人体3D各坐标点的相对关系,根据人体3D各坐标点的相对关系对2D预测分支输出的2D人体表征参数进行优化,输出最终的2D人体姿态坐标点。
优选地,所述2D预测分支从所述信息恢复分支输出的所有第二特征图中选取与检测器输出的单人检测框尺度匹配的第二特征图,并对该第二特征图进行裁剪,得到预测热图,进行单人2D姿态的预测;
所述2D预测分支预测单人2D姿态的过程具体为:
1a)对于预测热图,分别按UV两个方向累加求和,得到各关键点在UV方向上的坐标投票权重z;
2a)根据坐标投票权重z,计算归一化权重分布z′=Softmax(z);
3a)定义固定枚举序列E,计算归一化权重分布z′与固定枚举序列E的乘积,得到各关键点对应的投票值;
4a)根据投票值计算均值和方差,得到各关键点的预测UV坐标值以及其不确定度。
优选地,所述2D预测分支预测过程中的2D姿态损失函数为:
优选地,所述2D预测分支基于K-Block结构构建,输出包括人体SMPL关键点的2D坐标预测值和关键点的2D坐标预测值的不确定度。
优选地,所述矫正优化模块基于SMPL模型和单人关键点坐标,描述3D人体表征参数,输出SMPL关键点的3D坐标预测值,根据SMPL关键点的3D坐标预测值对2D预测分支输出的人体SMPL关键点的2D坐标预测值进行优化,基于2D-3D坐标匹配策略的优化方程为:
式中(R*,t*)为满足最小化损失函数Loss的2D-3D坐标匹配的最优旋转矩阵和平移向量,pi和qi为SMPL向量形式的对应坐标点,考虑到不确定度ci和权重wi负相关,以不确定度ci和权重wi分别为对角线元素建立对角线矩阵W和C,以W=C-1代入可简化得:
式中,满足SVD分解PTC-1Q=U∑VT,两组对应的坐标点组成点集P={p1,p2,…,pk}和Q={q1,q2,…,qk},(R,t)分别为一对欧式变换的旋转矩阵和平移向量,通过该变换后使得P和Q的误差最小,U、V为两个正交矩阵,满足PTC-1Q=U∑VT。
优选地,进行基于2D-3D坐标匹配策略的优化的过程为:
输入人体SMPL关键点的2D坐标预测值KPS2D、关键点的2D坐标预测值的不确定度C2D以及SMPL关键点的3D坐标预测值KPS3D;
1b)计算KPS2D的均值mean和方差var用于后续恢复2D点的坐标,假设KPS2D的z轴坐标均为0;
2b)对KPS2D和KPS3D进行归一化以对齐模型;
3b)计算KPS2D,C2D和KPS3D的外积S=(KPS2D)(C2D)-1(KPS3D);
4b)计算S的SVD分解S=UΣV',得到旋转矩阵R=VU';
5b)令R的行列式为1,即det(R)=1,以确保R为旋转矩阵而非反射矩阵;
6b)根据mean和var计算KPS3D对应2D点的坐标;
7b)将变换后的z轴坐标赋给KPS2D;
8b)重复步骤3b)~7b)以优化旋转矩阵R,获得最终的2D人体姿态坐标点。
优选地,优化过程中,关键点回归损失函数LossKPS3D为:
优选地,所述检测器为基于Transformer的DETR检测器。
优选地,所述检测器执行检测任务过程中的损失函数包括由单人检测框和真实框之间直接计算的L1损失函数,IoU优化损失函数,行人预测置信度损失函数以及预测检测框对应的GIoU值损失函数。
优选地,所述主干网络为基于ResNet的简化多层神经网络,所述信息恢复分支为特征金字塔网络。
与现有技术相比,本发明具有以如下有益效果:
(1)本发明将原始图像经过预处理后送入主干网络;挖掘主干网络提取出的图像特征,预测行人所在的包围框(BBox),输出检测置信度和检测框的坐标,并输出一组预测的SMPL参数值,用于矫正关节点坐标,缓解了传统2D姿态估计存在的错配情况;分别对不同的检测框进行特征提取;直接将提取后的低分辨率特征经过变换后送入特定的结构以进行姿态预测,降低了计算量,提高了检测效率;使用模型输出的参数进一步优化受遮挡或低光照等特殊工况下的人体关节点检测;
(2)本发明使用了简化的多层神经网络,避免梯度传播上的困难,并且额外增加了信息恢复分支,以适应不同尺寸的输入,同时给出对应的参数供单人2D姿态预测模块使用。
(3)本发明设计的基于K-Block的人体姿态估计模式,大幅降低对梯度的浪费,并能实现端到端地训练模型。
附图说明
图1为本实施例提供的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法的检测网络的结构示意图。
图2为图1所示实施例中2D预测分支预测单人2D姿态的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
参考图1所示,本实施例提供一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,包括如下步骤:
步骤1:获取包含多人的待检测图像,将待检测图像分为测试集和训练集;
步骤2:构建检测网络,将训练集输入检测网络中,对检测网络进行训练,使得训练好的检测网络能够进行行人检测与姿态估计;
检测网络包括:
主干网络:用以接收输入图像,输出多个不同尺度的第一特征图。
信息恢复分支:用以将最小尺度的第一特征图进行多次上采样,进而生成多个不同尺度的第二特征图。
检测器:用以接收所有第一特征图并执行检测任务,输出单人检测框、单人关键点坐标和单人检测置信度。
2D预测分支:用以接收并根据信息恢复分支输出的所有第二特征图以及检测器输出的单人检测框,预测单人2D姿态,输出2D人体表征参数。
矫正优化模块:用以接收并根据检测器输出的单人关键点坐标,描述3D人体表征参数,进而得到人体3D各坐标点的相对关系,根据人体3D各坐标点的相对关系对2D预测分支输出的2D人体表征参数进行优化,输出最终的2D人体姿态坐标点。
作为一种可选的实施方式,主干网络为基于ResNet的简化多层神经网络。
作为一种可选的实施方式,信息恢复分支为特征金字塔网络(Feature PyramidNetwork)。信息恢复分支对最小尺度的第一特征图进行多次上采样,对于每次上采样过程,当前尺度的第二特征图以及比当前尺度大一级的第一特征图,作为当前上采样的输入,输出比当前尺度大一级的第二特征图。
作为一种可选的实施方式,检测器为基于Transformer的DETR检测器。
作为一种可选的实施方式,检测器执行检测任务过程中的损失函数包括:
(1)L1损失函数:由单人检测框和真实框之间直接计算,描述L1损失的公式如下所示:
(2)IoU优化损失函数:
引入主要评价指标IoU:
式中,A、B分别为单人检测框和真实框所占据的面积。
式中,LossGIoU为IoU优化损失函数,GIoU(A,B)为度量A和B之间距离的函数,C为A、B的外接最小矩形所占的面积。
(3)行人预测置信度损失函数:
(4)预测检测框对应的GIoU值损失函数:
作为一种可选的实施方式,2D预测分支从信息恢复分支输出的所有第二特征图中选取与检测器输出的单人检测框尺度匹配的第二特征图,并对该第二特征图进行裁剪,得到预测热图,进行单人2D姿态的预测。
参考图2所示,2D预测分支预测单人2D姿态的过程具体如下:
1a)对于单张尺寸为W×H的预测热图Ti,分别按UV两个方向累加求和,得到各关键点在UV方向上的坐标投票权重z,其大小为1H和W×1;
2a)根据坐标投票权重z,计算归一化权重分布z′=Softmax(z);
3a)对于一个给定向量,设其长度为N,则有固定枚举序列向量E=(1,2,…N),其物理意义为每一行或列像素的序号组成的向量,计算归一化权重分布z′与固定枚举序列E的乘积,得到各关键点对应的投票值;
4a)根据投票值计算均值和方差,得到各关键点的预测UV坐标值ui,vi及其不确定度ci,1,ci,2。
作为一种可选的实施方式,2D预测分支预测过程中的2D姿态损失函数为:
作为一种可选的实施方式,2D预测分支基于K-Block结构构建,该结构同时从全部热图像素中计算人体关节的坐标值,并采用非argmax的输出形式,输出人体SMPL关键点的2D坐标预测值KPS2D和关键点的2D坐标预测值的不确定度C2D。
作为一种可选的实施方式,矫正优化模块接收检测器输出的单人关键点坐标,基于SMPL模型和单人关键点坐标,矫正优化模块基于SMPL模型和单人关键点坐标,描述3D人体表征参数,输出SMPL关键点的3D坐标预测值,根据SMPL关键点的3D坐标预测值对2D预测分支输出的人体SMPL关键点的2D坐标预测值进行优化,输出最终的2D人体姿态坐标点。
基于2D-3D坐标匹配策略的优化方程为:
式中(R*,t*)为满足最小化损失函数Loss的2D-3D坐标匹配的最优旋转矩阵和平移向量。pi和qi为SMPL向量形式的对应坐标点。考虑到不确定度ci和权重wi负相关,以不确定度ci和权重wi分别为对角线元素建立对角线矩阵W和C,以W=C-1代入可简化得:
式中,满足SVD分解PTC-1Q=U∑VT,两组对应的坐标点组成点集P={p1,p2,…,pk}和Q={q1,q2,…,qk},(R,t)分别为一对欧式变换的旋转矩阵和平移向量,通过该变换后使得P和Q的误差最小,U、V为两个正交矩阵,满足PTC-1Q=U∑VT。
作为一种可选的实施方式,进行基于2D-3D坐标匹配策略的优化的过程为:
将2D预测分支输出人体SMPL关键点的2D坐标预测值KPS2D和关键点的2D坐标预测值的不确定度C2D;SMPL关键点的3D坐标预测值KPS3D作为输入,输出加权的2D坐标SMPL形式,即Weighted KPS2D。
1b)计算KPS2D的均值mean和方差var用于后续恢复2D点的坐标,假设KPS2D的z轴坐标均为0;
2b)对KPS2D和KPS3D进行归一化(移除均值和方差)以对齐模型;
3b)计算KPS2D,C2D和KPS3D的外积S=(KPS2D)(C2D)-1(KPS3D);
4b)计算S的SVD分解S=UΣV',得到旋转矩阵R=VU';
5b)令R的行列式为1,即det(R)=1,以确保R为旋转矩阵而非反射矩阵;
6b)根据mean和var计算KPS3D对应2D点的坐标;
7b)将变换后的z轴坐标赋给KPS2D;
8b)重复步骤3b~7b以优化旋转矩阵R,并获得基于3D点预测值的加权2D坐标。
作为一种可选的实施方式,优化过程中,关键点回归损失函数为:
步骤3:将测试集输入训练好的检测网络中,输出行人检测及2D人体姿态估计结果。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,其特征在于,将包含多人的待检测图像作为输入图像,输入预先构建并训练的检测网络中,输出行人检测及2D人体姿态估计结果;
所述检测网络包括:
主干网络:用以接收输入图像,输出多个不同尺度的第一特征图;
信息恢复分支:用以将最小尺度的第一特征图进行多次上采样,进而生成多个不同尺度的第二特征图;
检测器:用以接收所有第一特征图并执行检测任务,输出单人检测框和单人关键点坐标;
2D预测分支:用以接收并根据信息恢复分支输出的所有第二特征图以及检测器输出的单人检测框,预测单人2D姿态,输出2D人体表征参数;
矫正优化模块:用以接收并根据检测器输出的单人关键点坐标,描述3D人体表征参数,进而得到人体3D各坐标点的相对关系,根据人体3D各坐标点的相对关系对2D预测分支输出的2D人体表征参数进行优化,输出最终的2D人体姿态坐标点。
2.根据权利要求1所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,其特征在于,所述2D预测分支从所述信息恢复分支输出的所有第二特征图中选取与检测器输出的单人检测框尺度匹配的第二特征图,并对该第二特征图进行裁剪,得到预测热图,进行单人2D姿态的预测;
所述2D预测分支预测单人2D姿态的过程具体为:
1a)对于预测热图,分别按UV两个方向累加求和,得到各关键点在UV方向上的坐标投票权重z;
2a)根据坐标投票权重z,计算归一化权重分布z′=Softmax(z);
3a)定义固定枚举序列E,计算归一化权重分布z′与固定枚举序列E的乘积,得到各关键点对应的投票值;
4a)根据投票值计算均值和方差,得到各关键点的预测UV坐标值以及其不确定度。
4.根据权利要求2所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,其特征在于,所述2D预测分支基于K-Block结构构建,输出包括人体SMPL关键点的2D坐标预测值和关键点的2D坐标预测值的不确定度。
5.根据权利要求4所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,其特征在于,所述矫正优化模块基于SMPL模型和单人关键点坐标,描述3D人体表征参数,输出SMPL关键点的3D坐标预测值,根据SMPL关键点的3D坐标预测值对2D预测分支输出的人体SMPL关键点的2D坐标预测值进行优化,基于2D-3D坐标匹配策略的优化方程为:
式中(R*,t*)为满足最小化损失函数Loss的2D-3D坐标匹配的最优旋转矩阵和平移向量,pi和qi为SMPL向量形式的对应坐标点,考虑到不确定度ci和权重wi负相关,以不确定度ci和权重wi分别为对角线元素建立对角线矩阵W和C,以W=C-1代入可简化得:
式中,满足SVD分解PTC-1Q=UΣVT,两组对应的坐标点组成点集P={p1,p2,...,pk}和Q={q1,q2,...,qk},(R,t)分别为一对欧式变换的旋转矩阵和平移向量,通过该变换后使得P和Q的误差最小,U、V为两个正交矩阵,满足PTC-1Q=UΣVT。
6.根据权利要求5所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,其特征在于,进行基于2D-3D坐标匹配策略的优化的过程为:
输入人体SMPL关键点的2D坐标预测值KPS2D、关键点的2D坐标预测值的不确定度C2D以及SMPL关键点的3D坐标预测值KPS3D;
1b)计算KPS2D的均值mean和方差var用于后续恢复2D点的坐标,假设KPS2D的z轴坐标均为0;
2b)对KPS2D和KPS3D进行归一化以对齐模型;
3b)计算KPS2D,C2D和KPS3D的外积S=(KPS2D)(C2D)-1(KPS3D);
4b)计算S的SVD分解S=U∑V′,得到旋转矩阵R=VU′;
5b)令R的行列式为1,即det(R)=1,以确保R为旋转矩阵而非反射矩阵;
6b)根据mean和var计算KPS3D对应2D点的坐标;
7b)将变换后的z轴坐标赋给KPS2D;
8b)重复步骤3b)~7b)以优化旋转矩阵R,获得最终的2D人体姿态坐标点。
8.根据权利要求1所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,其特征在于,所述检测器为基于Transformer的DETR检测器。
9.根据权利要求1所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,其特征在于,所述检测器执行检测任务过程中的损失函数包括由单人检测框和真实框之间直接计算的L1损失函数,IoU优化损失函数,行人预测置信度损失函数以及预测检测框对应的GIoU值损失函数。
10.根据权利要求1所述的一种基于2D-3D坐标匹配策略的行人检测与姿态估计方法,其特征在于,所述主干网络为基于ResNet的简化多层神经网络,所述信息恢复分支为特征金字塔网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310243337.4A CN116311514A (zh) | 2023-03-14 | 2023-03-14 | 一种基于2d-3d坐标匹配策略的行人检测与姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310243337.4A CN116311514A (zh) | 2023-03-14 | 2023-03-14 | 一种基于2d-3d坐标匹配策略的行人检测与姿态估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116311514A true CN116311514A (zh) | 2023-06-23 |
Family
ID=86835492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310243337.4A Pending CN116311514A (zh) | 2023-03-14 | 2023-03-14 | 一种基于2d-3d坐标匹配策略的行人检测与姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311514A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116611970A (zh) * | 2023-07-20 | 2023-08-18 | 中国人民解放军空军特色医学中心 | 结合人脸和姿态识别的群体训练动作纠正系统及方法 |
-
2023
- 2023-03-14 CN CN202310243337.4A patent/CN116311514A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116611970A (zh) * | 2023-07-20 | 2023-08-18 | 中国人民解放军空军特色医学中心 | 结合人脸和姿态识别的群体训练动作纠正系统及方法 |
CN116611970B (zh) * | 2023-07-20 | 2023-11-07 | 中国人民解放军空军特色医学中心 | 结合人脸和姿态识别的群体训练动作纠正系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111582059B (zh) | 一种基于变分自编码器的人脸表情识别方法 | |
CN111259930B (zh) | 自适应注意力指导机制的一般性目标检测方法 | |
CN106780612A (zh) | 一种图像中的物体检测方法及装置 | |
CN114758288B (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN111462191B (zh) | 一种基于深度学习的非局部滤波器无监督光流估计方法 | |
CN104537686B (zh) | 基于目标时空一致性和局部稀疏表示的跟踪方法及装置 | |
CN116524062B (zh) | 一种基于扩散模型的2d人体姿态估计方法 | |
CN114170230B (zh) | 基于可变形卷积与特征融合的玻璃缺陷检测方法与装置 | |
CN113536925A (zh) | 一种基于引导注意力机制的人群计数方法 | |
CN116311514A (zh) | 一种基于2d-3d坐标匹配策略的行人检测与姿态估计方法 | |
CN111339967B (zh) | 一种基于多视域图卷积网络的行人检测方法 | |
CN113486860A (zh) | 一种基于YOLOv5的安全护具佩戴检测方法及系统 | |
CN116823885A (zh) | 一种基于金字塔池化注意力机制的端到端单目标跟踪方法 | |
CN111753670A (zh) | 注意力修复和关键点检测迭代协同的人脸超分方法 | |
CN117079095A (zh) | 基于深度学习的高空抛物检测方法、系统、介质和设备 | |
CN117237884A (zh) | 一种基于泊位定位的互动式巡检机器人 | |
CN115171074A (zh) | 一种基于多尺度yolo算法的车辆目标识别方法 | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 | |
CN113609999A (zh) | 基于姿态识别的人体模型建立方法 | |
CN115063428B (zh) | 一种基于深度强化学习的空间暗弱小目标检测方法 | |
Zhu et al. | Road scene layout reconstruction based on CNN and its application in traffic simulation | |
CN114067359B (zh) | 融合人体关键点与可见部位注意力特征的行人检测方法 | |
CN113792660B (zh) | 基于改进YOLOv3网络的行人检测方法、系统、介质、设备 | |
CN112784800B (zh) | 一种基于神经网络和形状约束的人脸关键点检测方法 | |
CN115187660A (zh) | 一种基于知识蒸馏的多人人体姿态估计方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |