CN112651316A - 二维和三维多人姿态估计系统及方法 - Google Patents

二维和三维多人姿态估计系统及方法 Download PDF

Info

Publication number
CN112651316A
CN112651316A CN202011509274.5A CN202011509274A CN112651316A CN 112651316 A CN112651316 A CN 112651316A CN 202011509274 A CN202011509274 A CN 202011509274A CN 112651316 A CN112651316 A CN 112651316A
Authority
CN
China
Prior art keywords
dimensional
coordinate
layer
data
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011509274.5A
Other languages
English (en)
Other versions
CN112651316B (zh
Inventor
徐超
李杰锋
谌志存
卢策吾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011509274.5A priority Critical patent/CN112651316B/zh
Publication of CN112651316A publication Critical patent/CN112651316A/zh
Application granted granted Critical
Publication of CN112651316B publication Critical patent/CN112651316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

一种二维和三维多人姿态估计系统及方法,包括:数据层、模型层和评估层,其中:数据层根据训练阶段和评估阶段所需的二维和三维姿态数据集或推理阶段输入的图片路径集进行解析和预处理得到模型图片的输入数据和监督目标,模型层根据输入数据与监督目标对基于卷积神经网络进行推理与训练,得到二维和三维姿态预测结果,评估层将二维和三维姿态预测结果坐标变换得到最终算法预测结果,并对预测结果评估打分。本发明可以同时端到端训练、评估、推理二维以及三维姿态估计。并对多任务有良好的应用性,识别性能非常理想,且内存占用较小,有较高的效率和实时性。

Description

二维和三维多人姿态估计系统及方法
技术领域
本发明涉及的是一种计算机视觉和模式识别领域的技术,具体是一种二维和三维多人姿态估计系统及方法。
背景技术
姿态估计任务的目标是检测图片中人体各关键点的位置。对于二维姿态估计任务,需要得到关键点的像素坐标。对于三维姿态估计任务,需要得到关键点的三维空间坐标。而对于多人场景,不仅需要检测到所有人体的关键点,而且要确定每个关键点的所属个体。姿态估计任务是计算机视觉领域最重要的基础任务之一。在学术上,除帮助解析人体结构本身外,还可以作用于更高级的人体智能理解等相关研究,如动作理解、人物交互语义知识、姿态迁移、动作重定向等方向。在工业界上,对于人机交互、特效制作、行为监督、游戏互动等任务都有重要的应用价值。但是现在的主流算法中,存在二维热力图表征存在量化误差以及三维热力图占用存储空间太大等问题,同时没有算法满足实际应用中同时训练、评估、推理二维以及三维姿态估计的要求。
发明内容
本发明针对现有技术热力图量化误差、训练稳定性差、三维热力图占用存储空间大、实用性和通用性较差等问题,提出一种二维和三维多人姿态估计系统及方法,可以同时进行二维和三维的多人姿态估计,藉由检测器获取到单人人体边界框,将多人姿态估计任务转化为单人姿态估计,通过卷积神经网络提取特征,分别经过二维热力图子网络和一维深度中间表征子网络以及各自的后处理模块得到二维单人姿态估计结果与深度预测结果,将两者合并并且进行坐标变换后得到三维单人姿态估计结果。
本发明是通过以下技术方案实现的:
本发明涉及一种二维和三维多人姿态估计系统,包括:数据层、模型层和评估层,其中:数据层根据训练阶段和评估阶段所需的二维和三维姿态数据集或推理阶段输入的图片路径集进行解析和预处理得到模型图片的输入数据和监督目标,模型层根据输入数据与监督目标对基于卷积神经网络进行推理与训练,得到二维和三维姿态预测结果,评估层将二维和三维姿态预测结果坐标变换得到最终算法预测结果,并对预测结果评估打分。
本发明涉及上述系统的二维和三维多人姿态估计方法,通过对二维姿态数据集和三维姿态数据集进行解析并且预处理后进行模型推理,分别得到二维热力图和深度中间表征,经各自后处理后分别得到二维坐标和三维坐标,对其施加监督训练,最后经坐标变换后得到二维最终预测坐标以及三维最终预测坐标并分别进行二维姿态评估和三维姿态评估与结果存储。
所述的解析包括:①在训练阶段和评估阶段对二维和三维姿态数据集所包含图片和标注文件进行解析,得到数据集的原始图片、人体边界框及其二维关键点标注或三维关键点标注;②在推理阶段以图片路径列表作为输入进行解析,得到列表中的每张原始图片数据,并通过目标检测器获取人体候选边界框,生成全零的关键点伪标注。
所述的关键点伪标注的张量维度与训练集的保持一致。
所述的预处理包括:①对数据进行随机裁切、旋转、遮挡、反转、颜色畸变、归一化以及关节定义重对齐,得模型图片输入和训练监督目标;②二维姿态的监督目标通过增加置零深度维与三维姿态数据集对齐,并且深度上的目标权重掩码置零。
所述的模型推理包括:对解析后的数据依次进行特征提取、上采样后分别输入二维热力图子网络和一维深度中间表征子网络,得到各关键点的二维热力图和结构化人体骨架动力链上各关键点相对于其父节点的深度偏移量。
所述的关键点是指:由数据集所定义的结构化人体的各部位或各关节核心位置,即姿态估计任务的预测目标。比如:手肘点、脖子点、脚踝点等。
所述的结构化人体骨架动力链是指:模拟人体的树结构,该结构上各个节点对应人体的关键点,结构的根节点为盆骨点,从根节点出发沿一条由不同关键点组成的动力学路径到达某个关键点节点。
所述的父节点是指:每个关键点在其动力学路径上的前一个节点,该关键点即为其路径上前一个节点的子节点。
所述的特征提取,以数据层预处理后的图片数据以及监督目标为输入,经过卷积神经网络骨架后,得到分辨率较低的高维语义特征。
所述的上采样,通过上采样卷积神经网络,进一步扩大高维语义特征的特征分辨率,得到甚高维语义特征。
所述的二维热力图子网络在得到上采样子网络输出的甚高维语义特征后,通过一层通道映射卷积层,得到各关键点的二维热力图。
所述的一维深度中间表征子网络通过全局池化与全连接层,对甚高维语义特征直接回归关键点深度中间表征,即结构化人体骨架动力链上各关键点相对于其父节点的深度偏移量。
所述的后处理包括:对二维热力图:采用优化积分坐标回归方法将热力图解码得到其表征的二维关键点坐标以及对深度中间表征:从根关节点出发经过骨架动力链累加各子节点偏移量,得到各关键点相对于根节点的深度,再将两部分合并得到预测的三维关键点坐标。
所述的优化积分坐标回归方法是指:将归一化后的单张二维热力图看作二维坐标的联合概率分布,通过对另一变量的积分操作,对联合概率分布边缘化,得到概率分布的离散形式
Figure BDA0002845883170000031
Figure BDA0002845883170000032
其中:单张二维热力图h∈{hk|k∈[1,K]},Ho和Wo分别为热力图的高度和宽度。设
Figure BDA0002845883170000033
为预测点的坐标向量,则预测的关键点二维坐标由概率的期望公式得到
Figure BDA0002845883170000034
以及
Figure BDA0002845883170000035
设热力图上的坐标向量变量为p∈{(x,y)|x∈[1,width],y∈[1,height]},将离散化的坐标积分回归表达为
Figure BDA0002845883170000036
优选地,为能考虑到各元素的独立信息,比如获取置信度等信息,使用sigmoid激活函数与除以总和的方式作为热力图的归一化方式。
所述的优化积分坐标回归方法的自适应的梯度计算方式
Figure BDA0002845883170000037
Figure BDA0002845883170000038
使其训练收敛速度更快更稳定,其中:
Figure BDA0002845883170000039
是符号函数,l是损失函数。
所述的监督训练是指:对于仅含二维姿态估计任务,对其二维坐标结果进行监督,对其对其施加L1损失函数作为监督;对于三维姿态估计任务,对合并后的三维坐标施加L1损失函数作为监督。
所述的坐标变换是指:对模型输出的二维预测坐标和三维预测坐标,经过坐标变换得到各自最终预测结果。在二维姿态估计任务中,将网络输出的二维坐标从相对于框中图片坐标系变换至原始图片坐标系。在三维姿态估计任务中,将网络输出的三维坐标组合的二维坐标部分从框中图片坐标系变换至原始图片坐标系,与深度坐标部分组合后利用摄像机的内参信息和根关节点距离摄像机的深度经过小孔成像原理得到摄像机坐标系下的三维空间坐标。
技术效果
本发明整体解决了现有二维以及三维姿态估计算法后处理存在的热力图量化误差、训练稳定性差、大量内存占用等问题。与现有技术相比,本发明通过端到端训练的优化积分坐标回归后处理,其将归一化后的热力图视作点位概率分布,并求取多元期望得到预测坐标值。并通过自适应梯度设计,使其训练收敛更加快速;通过热力图分离结构,将原本三维热力图表征分解为二维热力图与深度中间表征的组合,减少大量内存占用的同时提升精度;通过抽象数据层、模型层和评估层并制定各层统一输入输出标准,提出二维和三维多人姿态估计通用算法系统,可以同时训练、评估、推理二维以及三维姿态估计。
附图说明
图1为本发明系统示意图;
图2为本发明的二维多人姿态估计方法流程图;
图3为本发明的优化积分坐标回归方法示意图;
图4为本发明的三维多人姿态估计方法流程图;
图5为本发明效果示意图。
具体实施方式
如图1所示,为本实施例涉及的一种二维和三维多人姿态估计系统,包括:数据层、模型层和评估层,其中:数据层根据训练阶段和评估阶段所需的二维和三维姿态数据集或推理阶段输入的图片路径集进行解析和预处理得到模型图片的输入数据和监督目标,模型层根据输入数据与监督目标对基于卷积神经网络进行推理与训练,得到二维和三维姿态预测结果,评估层将二维和三维姿态预测结果坐标变换得到最终算法预测结果,并对预测结果评估打分。
所述的数据层包括:数据集解析单元与预处理单元,其中:数据集解析单元在训练阶段和评估阶段,根据算法训练所需二维和三维姿态数据集所包含图片和标注文件进行解析,得到原始图片
Figure BDA0002845883170000041
人体边界框
Figure BDA0002845883170000042
及其二维关键点标注
Figure BDA0002845883170000043
Figure BDA0002845883170000044
或三维关键点标注
Figure BDA0002845883170000045
其中:H和W分别为原始图片的长和宽,
Figure BDA0002845883170000046
为框的左上角坐标,
Figure BDA0002845883170000047
为框的长宽,K为数据集所定义的关键点类别数;数据集解析单元在推理阶段以图片路径列表作为输入,得到列表中的每张原始图片数据,并通过目标检测器获取人体候选边界框,生成全零的关键点伪标注;预处理单元对解析结果进行预处理,得到模型输入
Figure BDA0002845883170000048
Figure BDA0002845883170000049
与二维和三维姿态数据集的监督目标,其中:Hi和Wi分别为模型输入的长和宽,二维姿态数据集的监督目标通过增加置零深度维与三维姿态数据集的监督目标维数对齐,并且深度上的目标权重掩码置零。
所述的目标检测器采用但不限于:yolov3。
所述的模型层包括:特征提取单元、上采样单元、二维热力图子网络单元、一维深度中间表征子网络单元和后处理单元,其中:特征提取单元以数据层预处理后的图片数据以及监督目标为输入,经过内置的卷积神经网络骨架得到分辨率较低的高维语义特征
Figure BDA00028458831700000410
其中:s1为骨架网络的降采样倍数,C1为骨架网络输出的特征通道数;上采样单元通过内置的上采样卷积神经网络,进一步扩大高维语义特征的特征分辨率,得到甚高维语义特征
Figure BDA00028458831700000411
Figure BDA00028458831700000412
其中:Ho和Wo分别为上采样后的特征分辨率,C2为上采样后的特征通道数;二维热力图子网络单元通过对甚高维语义特征进行一层通道映射卷积
Figure BDA00028458831700000413
Figure BDA00028458831700000414
K为关键点的类别数,得到各关键点的二维热力图
Figure BDA00028458831700000415
一维深度中间表征子网络单元通过对甚高维语义特征进行全局池化与全连接层处理,直接回归关键点深度z的中间表征,即子关键点相对于父节点的深度偏移量;后处理单元分别对二维热力图子网络单元和一维深度中间表征子网络单元的结果进行后处理,得到预测的三维关键点坐标。
所述的后处理,包括:①对各关键点的二维热力图采用优化积分坐标回归方法将热力图解码得到其表征的二维关键点坐标;②对结构化人体骨架动力链上各关键点相对于父节点的深度偏移量,从根关节点出发经过骨架动力链累加各子节点偏移量,得到各关键点相对于根节点的深度z;③将两部分合并得到预测的三维关键点坐标。
优选地,如图2所示,对于纯二维姿态估计任务只需对其二维热力图子网络单元的输出结果进行监督,对其对其施加L1损失函数作为监督
Figure BDA0002845883170000051
一维深度中间表征子网络单元的输出没有实际意义,深度维也不会被监督。在三维姿态估计任务中,其模型流程图如图4所示,对合并后的三维坐标施加L1损失函数作为监督,
Figure BDA0002845883170000052
所述的评估层包括:坐标变换单元和评估单元,其中:坐标变换单元对预测的三维关键点坐标经过坐标变换得到最终预测结果,评估单元在训练阶段和评估阶段根据最终预测结果按照数据集定义评估流程进行评估打分;评估单元在推理阶段将预测结果按照图片名索引的方式存储。
所述的坐标变换包括:①在二维姿态估计任务中,将网络输出的二维坐标从相对于框中图片坐标系变换至原始图片坐标系;②在三维姿态估计任务中,将网络输出的三维坐标组合的二维坐标部分从框中图片坐标系变换至原始图片坐标系,与深度坐标部分组合后利用摄像机的内参信息和根关节点距离摄像机的深度经过小孔成像原理得到摄像机坐标系下的三维空间坐标。
本实施例涉及上述系统的二维和三维多人姿态估计方法,包括以下步骤:
步骤1,构建训练样本数据集集,本实施例中采用公开的MSCOCO数据集用于二维多人姿态估计;采用Human3.6M数据集用于三维多人姿态估计、二维数据集MPII用于辅助训练
所述的Human3.6M数据集和二维数据集MPII的训练样本在训练批中的占比为1:1。
步骤2,通过数据层分别对二维姿态数据集和三维姿态数据集进行解析,获得原始图片Iraw、其人体边界框标注
Figure BDA0002845883170000053
(由框的左上角坐标和长宽组成)及其二维关键点标注
Figure BDA0002845883170000054
或三维关键点标注
Figure BDA0002845883170000055
在MSCOCO和Human3.6M中K为17,而MPII中K为16。在推理阶段,即以图片路径列表为输入,通过主流目标检测器yolov3得到输入图片集中每个人体的边界框,并对焦距和根关节点距离摄像机的深度进行合理近似估算
Figure BDA0002845883170000056
Figure BDA0002845883170000057
焦距近似系数β为
Figure BDA0002845883170000058
zroot≈5000(mm)。由于一般情况下zroot>>dI且实际人物距离镜头位置在一定距离附近,所以使得通过近似后的参数还原的原始三维空间坐标畸变并不严重。
步骤3,预处理:对步骤2得到的作为训练数据的图片和标注进行进行随机裁切、随机旋转、随机遮挡、随机反转、随机颜色畸变、归一化以及关节定义重对齐,得到网络图片输入I和二维姿态估计任务和三维姿态估计任务的训练监督目标及其权重掩码。
所述的随机裁切是指:对标注人体边界框随机缩放至多±0.3倍,随后裁切出边界框所围图片,关键点坐标进行相应的从原始图片坐标系到边界框内图片坐标系的转换。
所述的随机旋转是指:对图片和坐标随机旋转至多一定角度,对二维姿态估计任务设置为±40°,三维姿态估计任务设置为±30°。裁切并旋转后的图片会被缩放至网络输入所需的分辨率。二维姿态估计算法的输入图片分辨率为256×192,三维姿态估计算法的输入图片分辨率为256×256。
所述的随机遮挡是指:对图片局部随机生成高斯噪声矩形块,只有在三维姿态估计任务中被设置。
所述的随机反转是指:对图片和坐标随机横向翻转,概率是0.5。
所述的随机颜色畸变是指:对图片输入像素值按通道分别增加随机抖动,最大为自身像素值的±0.2倍,只有在三维姿态估计任务中被设置。
所述的归一化是指:对图片和目标坐标进行归一化处理,使其分布均值为0,方差为1。在计算损失函数时,网络输出的坐标也会做归一化处理。
所述的关节定义重对齐是指:根据不同数据集对关键点的不同定义,以主数据集定义为基准,将其他辅助数据集的各关键点目标坐标重新排列,使其与主数据集的目标坐标在顺序上对齐,且数量一致,当某关键点在主数据集中没有被定义,它的目标坐标将会被丢弃;当有在主数据集中被定义,而辅助数据集没有的关键点,那么新增置零的目标坐标,且该目标权重掩码置零。
所述的二维姿态数据集的训练监督目标通过增加置零深度维与三维姿态数据集对齐,并且深度上的目标权重掩码置零。
步骤4,如图2~图4所示,将步骤3预处理后的图片和二维姿态估计任务和三维姿态估计任务的监督目标及其掩码输入基于卷积神经网络进行推理和训练,并将得到的二维热力图和深度中间表征进行后处理,得到二维坐标和三维坐标。
所述的基于卷积神经网络包括:特征提取单元、上采样单元、二维热力图子网络单元、一维深度中间表征子网络单元,其中:特征提取单元使用的使用ResNet-50,降采样倍率s1为32,输出的特征图通道数量C1为2048;上采样单元使用的是三层反卷积,每层上采样2倍,上采样单元输出的特征图尺寸与特征提取单元输出的分辨率之比
Figure BDA0002845883170000071
中间每层输出的通道数量均为256,最终的输出通道数数量C2为256。
通过各自的预测子网络后,得到二维热力图和深度z的中间表征。
所述的后处理是指:分别对二维热力图和深度中间表征的结果进行后处理。二维热力图部分的后处理方式是采用优化积分坐标回归方法将热力图解码得到其表征的二维关键点坐标。深度中间表征部分的后处理方式是从根关节点出发经过骨架动力链累加各子节点偏移量,得到各关键点相对于根节点的深度z。将两部分合并,即得到模型预测的三维关键点坐标。
所述的后处理中,优化积分坐标回归的梯度项的权重系数α为2。
步骤5,通过步骤3得到的训练监督目标及其权重掩码,对步骤4得到的二维坐标和三维坐标进行监督训练,具体为:对于二维姿态估计任务,只监督其二维坐标,用于监督的L1损失函数为
Figure BDA0002845883170000072
其中:
Figure BDA0002845883170000073
是第k个关键点的训练目标权重掩码,
Figure BDA0002845883170000074
是第k个关键点的预测坐标,
Figure BDA0002845883170000075
是第k个关键点的目标坐标。深度中间表征的后处理结果,即三维坐标并无意义,也不会被监督。对于三维姿态估计任务,监督其三维坐标,用于监督的L1损失函数为
Figure BDA0002845883170000076
其中:
Figure BDA0002845883170000077
Figure BDA0002845883170000078
是第k个关键点的训练目标权重掩码,
Figure BDA0002845883170000079
是第k个关键点的预测坐标,
Figure BDA00028458831700000710
是第k个关键点的目标坐标。
当所述的训练目标权重掩码为0意味着该对应处的预测项不会被监督,有以下几种情况:
(1)数据集中该关键点标注缺失或标记为不可见;
(2)在预处理时,关键点的目标坐标超出输入图片范围;
(3)在关节定义重对齐时,出现主数据集中被定义,而辅助数据集没有的关键点,而被新增的置零目标坐标;
(4)二维姿态数据集的监督目标通过增加置零深度维与三维姿态数据集对齐。
前3种情况,关键点的目标权重掩码所有维均置零。最后一种情况,仅第三维,即深度维置零。
步骤6,对步骤4得到的二维坐标和三维坐标进行评估,即:将网络输出经过坐标变换后得到最终预测坐标分别按照数据集定义评估流程进行评估打分,其中预处理时增加的随机扰动操作均不实施。
在二维姿态估计任务中,网络输出的二维坐标是相对于框中图片坐标系(uI,vI),需要将其坐标变换至原始图片坐标系
Figure BDA0002845883170000081
变化公式为
Figure BDA0002845883170000082
其中:Wo和Ho是网络输出热力图的宽和高,分别为48和64。
在三维姿态估计任务中,网络输出的三维坐标是相对于框中图片坐标系与相对空间深度的组合(uI,vI,dI),需要利用小孔成像原理将其坐标变换至原始三维空间坐标系(x,y,z),变化公式为
Figure BDA0002845883170000083
其中:Wo和Ho均为64,深度的归一化系数
Figure BDA0002845883170000084
设为2000,zroot是标注中的根关节点距离摄像机的深度,fx和fy分别是横纵方向的焦距。所使用的二维多人姿态数据集MSCOCO的评估指标为mAP,三维多人姿态数据集Human3.6M的评估指标为PA MPJPE。
步骤7,对步骤6得到的经过坐标变换后的最终预测坐标按照图片名索引的方式存储。
经过具体实际实验,在二维姿态估计任务中,使用常见的二维多人姿态数据集MSCOCO数据集训练并且评估,姿态的准确率指标mAP达71.6。在三维姿态估计任务中,使用常见的三维多人姿态数据集Human3.6M与二维数据集MPII混合训练,在Human3.6M上评估,姿态的错误偏差指标PA MPJPE达32.07。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种二维和三维多人姿态估计系统,其特征在于,包括:数据层、模型层和评估层,其中:数据层根据训练阶段和评估阶段所需的二维和三维姿态数据集或推理阶段输入的图片路径集进行解析和预处理得到模型图片的输入数据和监督目标,模型层根据输入数据与监督目标对基于卷积神经网络进行推理与训练,得到二维和三维姿态预测结果,评估层将二维和三维姿态预测结果坐标变换得到最终算法预测结果,并对预测结果评估打分;
所述的数据层包括:数据集解析单元与预处理单元;
所述的模型层包括:特征提取单元、上采样单元、二维热力图子网络单元、一维深度中间表征子网络单元和后处理单元;
所述的评估层包括:坐标变换单元和评估单元。
2.根据权利要求1所述的二维和三维多人姿态估计系统,其特征是,所述的数据集解析单元在训练阶段和评估阶段对二维和三维姿态数据集所包含图片和标注文件进行解析,得到数据集的原始图片、人体边界框及其二维关键点标注或三维关键点标注;在推理阶段以图片路径列表作为输入,得到列表中的每张原始图片数据,并通过目标检测器获取人体候选边界框,生成全零的关键点伪标注;
所述的预处理单元对数据进行随机裁切、旋转、遮挡、反转、颜色畸变、归一化以及关节定义重对齐,得模型图片输入和训练监督目标。
3.根据权利要求2所述的二维和三维多人姿态估计系统,其特征是,所述的监督目标中的二维姿态的监督目标通过增加置零深度维与三维姿态数据集对齐,并且深度上的目标权重掩码置零。
4.根据权利要求1所述的二维和三维多人姿态估计系统,其特征是,所述的特征提取单元以数据层预处理后的图片数据以及监督目标为输入,经过卷积神经网络骨架后,得到分辨率较低的高维语义特征;所述的上采样单元通过上采样卷积神经网络,进一步扩大高维语义特征的特征分辨率,得到甚高维语义特征;所述的二维热力图子网络单元根据甚高维语义特征,通过一层通道映射卷积层得到各关键点的二维热力图;所述的一维深度中间表征子网络单元通过全局池化与全连接层,对甚高维语义特征直接回归关键点深度中间表征,即子关键点相对于父节点的深度偏移量;所述的后处理单元对二维热力图:采用优化积分坐标回归方法将热力图解码得到其表征的二维关键点坐标以及对深度中间表征:从根关节点出发经过骨架动力链累加各子节点偏移量,得到各关键点相对于根节点的深度,再将两部分合并得到预测的三维关键点坐标。
5.根据权利要求1所述的二维和三维多人姿态估计系统,其特征是,所述的坐标变换单元对模型输出的二维预测坐标和三维预测坐标,经过坐标变换得到各自最终预测结果,包括:在二维姿态估计任务中,将网络输出的二维坐标从相对于框中图片坐标系变换至原始图片坐标系,在三维姿态估计任务中,将网络输出的三维坐标组合的二维坐标部分从框中图片坐标系变换至原始图片坐标系,与深度坐标部分组合后利用摄像机的内参信息和根关节点距离摄像机的深度经过小孔成像原理得到摄像机坐标系下的三维空间坐标。
6.一种基于上述任一权利要求所述系统的二维和三维多人姿态估计方法,其特征在于,通过对二维姿态数据集和三维姿态数据集进行解析并且预处理后进行模型推理,分别得到二维热力图和深度中间表征,经各自后处理后分别得到二维坐标和三维坐标,对其施加监督训练,最后经坐标变换后得到二维最终预测坐标以及三维最终预测坐标并分别进行二维姿态评估和三维姿态评估与结果存储。
7.根据权利要求6所述的二维和三维多人姿态估计方法,其特征是,所述的优化积分坐标回归方法是指:将归一化后的单张二维热力图看作二维坐标的联合概率分布,通过对另一变量的积分操作,对联合概率分布边缘化,得到概率分布的离散形式
Figure FDA0002845883160000021
Figure FDA0002845883160000022
Figure FDA0002845883160000023
其中:单张二维热力图h∈{hk|k∈[1,K]},Ho和Wo分别为热力图的高度和宽度,设
Figure FDA0002845883160000024
为预测点的坐标向量,则预测的关键点二维坐标由概率的期望公式得到
Figure FDA0002845883160000025
Figure FDA0002845883160000026
以及
Figure FDA0002845883160000027
设热力图上的坐标向量变量为p∈{(x,y)|x∈[1,width],y∈[1,height]},将离散化的坐标积分回归表达为
Figure FDA0002845883160000028
8.根据权利要求7所述的二维和三维多人姿态估计方法,其特征是,使用sigmoid激活函数与除以总和的方式作为热力图的归一化方式。
9.根据权利要求6所述的二维和三维多人姿态估计方法,其特征是,所述的优化积分坐标回归方法的自适应的梯度计算方式
Figure FDA0002845883160000029
使其训练收敛速度更快更稳定,其中:
Figure FDA00028458831600000210
是符号函数,l是损失函数。
10.根据权利要求6所述的二维和三维多人姿态估计方法,其特征是,所述的监督训练是指:对于仅含二维姿态估计任务,对其二维坐标结果进行监督,对其对其施加L1损失函数作为监督;对于三维姿态估计任务,对合并后的三维坐标施加L1损失函数作为监督。
CN202011509274.5A 2020-12-18 2020-12-18 二维和三维多人姿态估计系统及方法 Active CN112651316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011509274.5A CN112651316B (zh) 2020-12-18 2020-12-18 二维和三维多人姿态估计系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011509274.5A CN112651316B (zh) 2020-12-18 2020-12-18 二维和三维多人姿态估计系统及方法

Publications (2)

Publication Number Publication Date
CN112651316A true CN112651316A (zh) 2021-04-13
CN112651316B CN112651316B (zh) 2022-07-15

Family

ID=75355048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011509274.5A Active CN112651316B (zh) 2020-12-18 2020-12-18 二维和三维多人姿态估计系统及方法

Country Status (1)

Country Link
CN (1) CN112651316B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210166418A1 (en) * 2019-02-23 2021-06-03 Shenzhen Sensetime Technology Co., Ltd. Object posture estimation method and apparatus
CN113269197A (zh) * 2021-04-25 2021-08-17 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法
CN113420604A (zh) * 2021-05-28 2021-09-21 沈春华 多人姿态估计方法、装置和电子设备
CN113837130A (zh) * 2021-09-29 2021-12-24 福州大学 一种人体手部骨架检测方法及系统
CN114783039A (zh) * 2022-06-22 2022-07-22 南京信息工程大学 一种3d人体模型驱动的运动迁移方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008915A (zh) * 2019-04-11 2019-07-12 电子科技大学 基于掩码-rcnn进行稠密人体姿态估计的系统及方法
CN111191622A (zh) * 2020-01-03 2020-05-22 华南师范大学 基于热力图和偏移向量的姿态识别方法、系统及存储介质
CN111523377A (zh) * 2020-03-10 2020-08-11 浙江工业大学 一种多任务的人体姿态估计和行为识别的方法
CN111597976A (zh) * 2020-05-14 2020-08-28 杭州相芯科技有限公司 一种基于rgbd相机的多人三维姿态估计方法
CN112836618A (zh) * 2021-01-28 2021-05-25 清华大学深圳国际研究生院 一种三维人体姿态估计方法及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008915A (zh) * 2019-04-11 2019-07-12 电子科技大学 基于掩码-rcnn进行稠密人体姿态估计的系统及方法
CN111191622A (zh) * 2020-01-03 2020-05-22 华南师范大学 基于热力图和偏移向量的姿态识别方法、系统及存储介质
CN111523377A (zh) * 2020-03-10 2020-08-11 浙江工业大学 一种多任务的人体姿态估计和行为识别的方法
CN111597976A (zh) * 2020-05-14 2020-08-28 杭州相芯科技有限公司 一种基于rgbd相机的多人三维姿态估计方法
CN112836618A (zh) * 2021-01-28 2021-05-25 清华大学深圳国际研究生院 一种三维人体姿态估计方法及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DUSHYAT MEHTA ET AL.: "XNect: Real-time Multi-Person 3D Motion Capture with a Single RGB Camera", 《ARXIV:1907.00837V2》 *
JIANAN ZHEN ET AL.: "SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation", 《ARXIV:2008.11469V1》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210166418A1 (en) * 2019-02-23 2021-06-03 Shenzhen Sensetime Technology Co., Ltd. Object posture estimation method and apparatus
CN113269197A (zh) * 2021-04-25 2021-08-17 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法
CN113269197B (zh) * 2021-04-25 2024-03-08 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法
CN113420604A (zh) * 2021-05-28 2021-09-21 沈春华 多人姿态估计方法、装置和电子设备
CN113420604B (zh) * 2021-05-28 2023-04-18 沈春华 多人姿态估计方法、装置和电子设备
CN113837130A (zh) * 2021-09-29 2021-12-24 福州大学 一种人体手部骨架检测方法及系统
CN113837130B (zh) * 2021-09-29 2023-08-08 福州大学 一种人体手部骨架检测方法及系统
CN114783039A (zh) * 2022-06-22 2022-07-22 南京信息工程大学 一种3d人体模型驱动的运动迁移方法
CN114783039B (zh) * 2022-06-22 2022-09-16 南京信息工程大学 一种3d人体模型驱动的运动迁移方法

Also Published As

Publication number Publication date
CN112651316B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN112651316B (zh) 二维和三维多人姿态估计系统及方法
US10592780B2 (en) Neural network training system
Chen et al. The face image super-resolution algorithm based on combined representation learning
CN113673425B (zh) 一种基于Transformer的多视角目标检测方法及系统
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
Chen et al. RSPrompter: Learning to prompt for remote sensing instance segmentation based on visual foundation model
CN109035172B (zh) 一种基于深度学习的非局部均值超声图像去噪方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
Li et al. MSAt-GAN: a generative adversarial network based on multi-scale and deep attention mechanism for infrared and visible light image fusion
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
Zhu et al. Semantic image segmentation with shared decomposition convolution and boundary reinforcement structure
CN115222896A (zh) 三维重建方法、装置、电子设备及计算机可读存储介质
Li et al. SOSMaskFuse: An infrared and visible image fusion architecture based on salient object segmentation mask
Wu et al. Meta transfer learning-based super-resolution infrared imaging
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
Fernando et al. Transformer point net: cost-efficient classification of on-road objects captured by light ranging sensors on low-resolution conditions
CN115239765A (zh) 基于多尺度可形变注意力的红外图像目标跟踪系统及方法
CN115147806A (zh) 一种基于关键点检测车辆伪3d边界框的方法
CN114187569A (zh) 一种皮尔森系数矩阵与注意力融合的实时目标检测方法
CN113487374A (zh) 一种基于5g网络的区块电商平台交易系统
Guo et al. Udtiri: An open-source road pothole detection benchmark suite
Wang et al. Keyframe image processing of semantic 3D point clouds based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant