CN112836824B - 单目三维人体位姿无监督学习方法、系统及介质 - Google Patents

单目三维人体位姿无监督学习方法、系统及介质 Download PDF

Info

Publication number
CN112836824B
CN112836824B CN202110240172.6A CN202110240172A CN112836824B CN 112836824 B CN112836824 B CN 112836824B CN 202110240172 A CN202110240172 A CN 202110240172A CN 112836824 B CN112836824 B CN 112836824B
Authority
CN
China
Prior art keywords
joint
bone
root
coordinates
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110240172.6A
Other languages
English (en)
Other versions
CN112836824A (zh
Inventor
王贺升
王子良
曾泓豪
王光明
宋昊临
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110240172.6A priority Critical patent/CN112836824B/zh
Publication of CN112836824A publication Critical patent/CN112836824A/zh
Application granted granted Critical
Publication of CN112836824B publication Critical patent/CN112836824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种单目三维人体位姿无监督学习方法、系统及介质,包括:步骤A:运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量,对每一个目标关节,给出一组由根关节到此关节的骨骼路径,沿路径将骨骼向量相加得到一组粗糙关节坐标;步骤B:通过注意力网络得到每条路径的注意力,对每组粗糙关节坐标加权得到最终关节坐标;步骤C:在单帧3D到2D的投影位置误差的基础上,添加基于投影一致的位移误差损失,训练骨长、方向估计网络和注意力网络。本发明提出基于投影一致的单目相机三维人体位姿无监督学习方法,提高了对关节预测的准确性,有利于实际利用。

Description

单目三维人体位姿无监督学习方法、系统及介质
技术领域
本发明涉及计算机视觉技术领域,具体地,涉及一种单目三维人体位姿无监督学习方法、系统及介质。尤其地,涉及一种基于单目相机的三维人体位姿估计中关节位置的无监督损失计算方法和关节位置的获得方法。
背景技术
人体位姿估计是计算机视觉中的一个基础问题,是对人体的姿态(如头、胸、脚等人体关键点)的位置估计,目前主要是用人体关节点表示人体位姿。
对于人体关节点的预测目前主要有两种方法,一种为直接对关节点进行回归的方法,另一种为对人体骨骼进行位置估计,再由骨骼得到关节点的方法。在第二种方法中,有两种骨骼预测方法,一种为直接预测整根骨骼的向量的方法,另一种为分别预测骨骼长度和骨骼方向的方法。
对于神经网络的训练主要分成有监督和无监督两类方法,其中有监督方法需要大量的3D真值数据,难以取得。
专利文献CN111340867A(申请号:CN202010121139.7)公开了一种图像帧的深度估计方法、装置、电子设备及存储介质,通过使用经过无监督训练得到的光流预测网络提取像素关系来代替传统手工设置的图像特征SIFT等做匹配,像素之间关系的确定变得更加准确,同时引入置信度采样进一步提高鲁棒性;并通过使用建立像素关系再解算相机位姿关系,代替了端到端的相机位姿相对变化估计。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种单目三维人体位姿无监督学习方法、系统及介质。
根据本发明提供的单目三维人体位姿无监督学习方法,包括:
步骤A:运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量,对每一个目标关节,给出一组由根关节到此关节的骨骼路径,沿路径将骨骼向量相加得到一组粗糙关节坐标;
步骤B:通过注意力网络得到每条路径的注意力,对每组粗糙关节坐标加权得到最终关节坐标;
步骤C:在单帧3D到2D的投影位置误差的基础上,添加基于投影一致的位移误差损失,训练骨长、方向估计网络和注意力网络。
优选的,所述步骤A包括如下步骤:
步骤A1:对于骨骼Bi→j的预测分为预测骨长li→j和骨骼的单位方向Bd,i→j,同时对相邻关节的真骨骼Bi→j和非相邻关节的假骨骼B'i→j进行预测,将预测骨长li→j和骨骼的单位方向Bd,i→j,相乘得到骨骼向量,表达式为:
Bd,i→j=(xo,i→j,yo,i→j,zo,i→j)
Bi→j=li→jBd,i→j=(li→jxo,i→j,li→jyo,i→j,li→jzo,i→j)=(xi→j,yi→j,zi→j)
其中,Bi→j表示从关节Ji到关节Jj的骨骼;x0、y0、z0分别表示骨骼的单位方向向量;xi→j表示骨骼向量x轴方向分量;yi→j表示骨骼向量y轴方向分量;zi→j表示骨骼向量z轴方向分量;
步骤A2:将骨盆位置的关节点设为根关节Jroot,基于根关节将人体关节分为三组:上半身Supbody、左腿Sleftleg、右腿Srightleg,根关节到每组中的关节有唯一的由真骨骼组成的路径,对于任意的人体非根关节Jt∈Si(i=upbody,leftleg,rightleg),取与该关节不同组的一个关节Jk∈Sk(k=upbody,leftleg,rightleg,Sk≠Si),由根关节Jroot到关节Jk的真骨骼路径
Figure BDA0002961809870000021
和一条由关节Jk到关节Jt的假骨骼B'k→t组成一条由根关节Jroot到目标关节Jt的骨骼路径
Figure BDA0002961809870000022
表达式为:
Figure BDA0002961809870000023
Figure BDA0002961809870000024
其中,
Figure BDA0002961809870000025
表示真骨骼路径经过的关节;Br→k1表示真骨骼路径第一条骨骼,即根关节Jroot到关节
Figure BDA0002961809870000026
的骨骼向量;Bkn→k表示真骨骼路径最后一条骨骼,即关节
Figure BDA0002961809870000027
到关节Jk的骨骼向量;
步骤A3:在网络预测得到的骨骼中,由得到的骨骼路径
Figure BDA0002961809870000028
将对应的骨骼沿路径相加,得到一个对应关节的粗糙坐标
Figure BDA0002961809870000029
Figure BDA00029618098700000210
其中,m为当前的关节数。
优选的,所述步骤B包括如下步骤:
步骤B1:在步骤A中得到每个关节基于一组骨骼路径的一组粗糙关节坐标,为衡量每条路径的重要性,设置注意力网络,将所有关节的粗糙关节坐标作为输入,输出得到每条路径对应的注意力W,表达式为:
W=(W1,W2,…,Wn)
Figure BDA0002961809870000031
步骤B2:将得到的注意力结合粗糙关节坐标,得到最终预测的关节坐标位置,表达式为:
Figure BDA0002961809870000032
其中,n为关节数,nt为第t个关节的路径数。
优选的,所述步骤C包括如下步骤:
步骤C1:对于由连续两帧2D关节位置图像预测得到的关节3D位置,使用相机参数矩阵,将每个关节的3D位置投影回2D平面,得到关节位置的2D投影,表达式为:
Figure BDA0002961809870000033
其中,f为相机焦距,dx为相机x轴方向一个像素的宽度,dy为相机沿y轴方向一个像素的宽度,(u0,v0)为光心对应图像像素坐标系的坐标,
Figure BDA0002961809870000034
是相机空间坐标系中模型预测出的三维坐标点
Figure BDA0002961809870000035
对应的图像像素坐标系二维坐标;
步骤C2:对于每个关节预测三维坐标点的二维投影,计算它在两帧之间的平面位移,即关节2D位置的估计位移,表达式为:
Figure BDA0002961809870000036
其中,
Figure BDA0002961809870000037
为关节i在第t帧的图像像素坐标;
步骤C3:计算在输入的2D关节位置图像上每个关节点的位移,即关节2D位置的实际位移,表达式为:
Figure BDA0002961809870000038
步骤C4:将关节点2D位置的估计位移与对应的实际位移作差,将所有关节点位移误差的平均值作为损失函数,与单帧3D到2D的投影位置误差εi,t联合使用,表达式为:
Figure BDA0002961809870000041
其中,
Figure BDA0002961809870000042
表示第t帧中第i个关节预测3D坐标投影得到的2D估计位置与实际2D位置的误差。
根据本发明提供的单目三维人体位姿无监督学习系统,包括:
模块A:运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量,对每一个目标关节,给出一组由根关节到此关节的骨骼路径,沿路径将骨骼向量相加得到一组粗糙关节坐标;
模块B:通过注意力网络得到每条路径的注意力,对每组粗糙关节坐标加权得到最终关节坐标;
模块C:在单帧3D到2D的投影位置误差的基础上,添加基于投影一致的位移误差损失,训练骨长、方向估计网络和注意力网络。
优选的,所述模块A包括:
模块A1:对于骨骼Bi→j的预测分为预测骨长li→j和骨骼的单位方向Bd,i→j,同时对相邻关节的真骨骼Bi→j和非相邻关节的假骨骼B'i→j进行预测,将预测骨长li→j和骨骼的单位方向Bd,i→j,相乘得到骨骼向量,表达式为:
Bd,i→j=(xo,i→j,yo,i→j,zo,i→j)
Bi→j=li→jBd,i→j=(li→jxo,i→j,li→jyo,i→j,li→jzo,i→j)=(xi→j,yi→j,zi→j)
其中,Bi→j表示从关节Ji到关节Jj的骨骼;x0、y0、z0分别表示骨骼的单位方向向量;xi→j表示骨骼向量x轴方向分量;yi→j表示骨骼向量y轴方向分量;zi→j表示骨骼向量z轴方向分量;
模块A2:将骨盆位置的关节点设为根关节Jroot,基于根关节将人体关节分为三组:上半身Supbody、左腿Sleftleg、右腿Srightleg,根关节到每组中的关节有唯一的由真骨骼组成的路径,对于任意的人体非根关节Jt∈Si(i=upbody,leftleg,rightleg),取与该关节不同组的一个关节Jk∈Sk(k=upbody,leftleg,rightleg,Sk≠Si),由根关节Jroot到关节Jk的真骨骼路径
Figure BDA0002961809870000043
和一条由关节Jk到关节Jt的假骨骼B'k→t组成一条由根关节Jroot到目标关节Jt的骨骼路径
Figure BDA0002961809870000044
表达式为:
Figure BDA0002961809870000045
Figure BDA0002961809870000046
其中,
Figure BDA0002961809870000047
表示真骨骼路径经过的关节;Br→k1表示真骨骼路径第一条骨骼,即根关节Jroot到关节
Figure BDA0002961809870000051
的骨骼向量;Bkn→k表示真骨骼路径最后一条骨骼,即关节
Figure BDA0002961809870000052
到关节Jk的骨骼向量;
模块A3:在网络预测得到的骨骼中,由得到的骨骼路径
Figure BDA0002961809870000053
将对应的骨骼沿路径相加,得到一个对应关节的粗糙坐标
Figure BDA0002961809870000054
Figure BDA0002961809870000055
其中,m为当前的关节数。
优选的,所述模块B包括:
模块B1:在模块A中得到每个关节基于一组骨骼路径的一组粗糙关节坐标,为衡量每条路径的重要性,设置注意力网络,将所有关节的粗糙关节坐标作为输入,输出得到每条路径对应的注意力W,表达式为:
W=(W1,W2,…,Wn)
Figure BDA0002961809870000056
模块B2:将得到的注意力结合粗糙关节坐标,得到最终预测的关节坐标位置,表达式为:
Figure BDA0002961809870000057
其中,n为关节数,nt为第t个关节的路径数。
优选的,所述模块C包括:
模块C1:对于由连续两帧2D关节位置图像预测得到的关节3D位置,使用相机参数矩阵,将每个关节的3D位置投影回2D平面,得到关节位置的2D投影,表达式为:
Figure BDA0002961809870000058
其中,f为相机焦距,dx为相机x轴方向一个像素的宽度,dy为相机沿y轴方向一个像素的宽度,(u0,v0)为光心对应图像像素坐标系的坐标,
Figure BDA0002961809870000059
是相机空间坐标系中模型预测出的三维坐标点
Figure BDA00029618098700000510
对应的图像像素坐标系二维坐标;
模块C2:对于每个关节预测三维坐标点的二维投影,计算它在两帧之间的平面位移,即关节2D位置的估计位移,表达式为:
Figure BDA0002961809870000061
其中,
Figure BDA0002961809870000062
为关节i在第t帧的图像像素坐标;
模块C3:计算在输入的2D关节位置图像上每个关节点的位移,即关节2D位置的实际位移,表达式为:
Figure BDA0002961809870000063
模块C4:将关节点2D位置的估计位移与对应的实际位移作差,将所有关节点位移误差的平均值作为损失函数,与单帧3D到2D的投影位置误差εi,t联合使用,表达式为:
Figure BDA0002961809870000064
其中,
Figure BDA0002961809870000065
表示第t帧中第i个关节预测3D坐标投影得到的2D估计位置与实际2D位置的误差。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述的方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明保证了关节位置估计在相邻帧的连续性,可以减少在连续视频中关节位置估计结果的波动;
(2)本发明提出了一种由骨骼路径结合注意力机制获得关节坐标的方法:对网络预测的真假骨骼,根据给定的骨骼路径得到每个关节点的多个粗糙的预测坐标,由粗糙的预测坐标结合注意力机制加权得到最终的关节坐标,在此基础上,设计了基于投影位移误差的无监督损失函数用于训练骨长和骨骼方向预测网络,注意力网络,由多条骨骼路径加权得到关节点,一定程度上提高了准确性;
(3)本发明采用无监督方法,需要获取的数据量较少,减少了获取数据的成本。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明的一种基于多路径加权和投影一致的单目三维人体位姿无监督学习方法的结构框图;
图2是骨骼长度估计网络、骨骼方向估计网络与注意力网络的流程图;
图3是基本人体骨架模型示意图;
图4是引入的部分假骨骼示意图;
图5是一条骨骼路径示意图;
图6是基于投影一致的无监督损失的流程图;
图7是关节投影位移误差示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
如图1,本发明提供一种基于多路径加权和投影一致的单目三维人体位姿无监督学习方法,包括:步骤A:粗糙关节坐标获取;步骤B:注意力机制引入;步骤C:损失计算。
如图2,所述步骤A包括如下步骤:
步骤A1:对于骨骼Bi→j(表示从关节Ji到关节Jj的骨骼)的预测可以分为预测骨长li→j和骨骼的单位方向Bd,i→j,这种预测网络相关文献已有详细介绍,其网络只预测真骨骼(相邻关节)的长度和方向。例如,图3为以17个关节表示的人体骨骼框架图,其中包括了头、肩、肘、腕等17个人体关键关节,相邻关节之间的骨骼向量为真骨骼向量。
我们的网络同时对真骨骼Bi→j和假骨骼B'i→j(非相邻关节)进行预测。例如,图4中用虚线箭头表示了右肘到胸、左肩到左臀、左腕到左踝的骨骼向量,由于向量两端的关节不相邻,因此这些向量表示假骨骼向量。
将预测骨长li→j和骨骼的单位方向Bd,i→j,相乘得到骨骼向量Bi→j
Bd,i→j=(xo,i→j,yo,i→j,zo,i→j)
Bi→j=li→jBd,i→j=(li→jxo,i→j,li→jyo,i→j,li→jzo,i→j)=(xi→j,yi→j,zi→j)
其中,x0,y0,z0表示骨骼的单位方向向量;xi→j表示骨骼向量x轴方向分量;yi→j表示骨骼向量y轴方向分量;zi→j表示骨骼向量z轴方向分量。
步骤A2:将骨盆位置的关节点设为根关节Jroot,基于根关节将人体关节分为三组,上半身Supbody、左腿Sleftleg、右腿Srightleg,根关节到每组中的关节有唯一的由真骨骼组成的路径。对于任意的人体非根关节Jt∈Si(i=upbody,leftleg,rightleg),取与该关节不同组的一个关节Jk∈Sk(k=upbody,leftleg,rightleg,Sk≠Si),由根关节Jroot到关节Jk的真骨骼路径
Figure BDA0002961809870000081
和一条由关节Jk到关节Jt的假骨骼B'k→t组成一条由根关节Jroot到目标关节Jt的骨骼路径
Figure BDA0002961809870000082
Figure BDA0002961809870000083
Figure BDA0002961809870000084
其中,
Figure BDA0002961809870000085
表示真骨骼路径经过的关节;Br→k1表示真骨骼路径第一条骨骼,即根关节Jroot到关节
Figure BDA0002961809870000086
的骨骼向量;Bkn→k表示真骨骼路径最后一条骨骼,即关节
Figure BDA0002961809870000087
到关节Jk的骨骼向量。
如图5,取目标关节为左膝关节,用黑粗线表示了一条骨骼路径,骨盆→脊柱→胸→脖→左肩→左肘→左膝。其中,骨盆→脊柱,脊柱→胸,胸→脖,脖→左肩,左肩→左肘,这五条骨骼为真骨骼,左肘→左膝的骨骼为假骨骼。
步骤A3:在网络预测得到的骨骼中,由得到的骨骼路径
Figure BDA0002961809870000088
将对应的骨骼沿路径相加,得到一个对应关节的粗糙坐标
Figure BDA0002961809870000089
Figure BDA00029618098700000810
所述步骤B包括如下步骤:
步骤B1:在步骤A中得到了每个关节基于一组骨骼路径的一组粗糙关节坐标,为了衡量每条路径的重要性,设置注意力网络,将所有关节的粗糙关节坐标作为输入,输出得到每条路径对应的注意力W:
W=(W1,W2,…,Wn)
Figure BDA00029618098700000811
其中,n为关节数,nt为第t个关节的路径数。
步骤B2:将得到的注意力结合粗糙关节坐标,得到最终预测的关节坐标位置:
Figure BDA00029618098700000812
如图6,所述步骤C包括如下步骤:
步骤C1:对于由连续两帧2D关节位置图像预测得到的关节3D位置,使用相机参数矩阵,将每个关节的3D位置投影回2D平面,得到关节位置的2D投影。
Figure BDA0002961809870000091
其中,f为相机焦距,dx为相机x轴方向一个像素的宽度,dy为相机沿y轴方向一个像素的宽度。(u0,v0)为光心对应图像像素坐标系的坐标,
Figure BDA0002961809870000092
是相机空间坐标系中,模型预测出的坐标点
Figure BDA0002961809870000093
对应的图像像素坐标系坐标。
对任意关节点i,在第t帧预测的该关节的3D位置(相机坐标系)
Figure BDA0002961809870000094
可由公式计算其2D估计位置的坐标
Figure BDA0002961809870000095
Figure BDA0002961809870000096
步骤C2:对于每个关节点的投影,计算它在两帧之间的平面位移;
Figure BDA0002961809870000097
步骤C3:计算每个关节点在输入的2D关节位置图像上的位移,即关节2D位置的实际位移;
Figure BDA0002961809870000098
如图7,点
Figure BDA0002961809870000099
为关节i在第t-1帧的2D估计位置,其坐标为
Figure BDA00029618098700000910
Figure BDA00029618098700000911
为关节i在第t帧的2D估计位置,其坐标为
Figure BDA00029618098700000912
点Pi,t-1为输入图像中关节i在第t-1帧的2D实际位置,坐标为(ui,t-1,vi,t-1)T,点Pi,t为输入图像中关节i在第t帧的2D实际位置,坐标为(ui,t,vi,t)T。图中向量
Figure BDA00029618098700000913
Figure BDA00029618098700000914
图中向量
Figure BDA00029618098700000915
即Δi,t
步骤C4:将投影的平面位移与对应关节点的实际位移作差(如图7),将所有关节点位移误差的平均值作为损失函数,与常用的单帧投影位置误差联合使用。
Figure BDA00029618098700000916
其中
Figure BDA00029618098700000917
表示第t帧中第i个关节预测位置的投影与实际位置的误差。如图7,图中向量
Figure BDA00029618098700000918
即εi,t
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (7)

1.一种单目三维人体位姿无监督学习方法,其特征在于,包括:
步骤A:运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量,对每一个目标关节,给出一组由根关节到此关节的骨骼路径,沿路径将骨骼向量相加得到一组粗糙关节坐标;
步骤B:通过注意力网络得到每条路径的注意力,对每组粗糙关节坐标加权得到最终关节坐标;
步骤C:在单帧3D到2D的投影位置误差的基础上,添加基于投影位移误差的无监督损失函数,训练骨长、方向估计网络和注意力网络;
所述步骤C包括如下步骤:
步骤C1:对于由连续两帧2D关节位置图像预测得到的关节3D位置,使用相机参数矩阵,将每个关节的3D位置投影回2D平面,得到关节位置的2D投影,表达式为:
Figure FDA0003929795530000011
其中,f为相机焦距,dx为相机x轴方向一个像素的宽度,dy为相机沿y轴方向一个像素的宽度,(u0,v0)为光心对应图像像素坐标系的坐标,
Figure FDA0003929795530000012
是相机空间坐标系中模型预测出的三维坐标点
Figure FDA0003929795530000013
对应的图像像素坐标系二维坐标;
步骤C2:对于每个关节预测三维坐标点的二维投影,计算它在两帧之间的平面位移,即关节2D位置的估计位移,表达式为:
Figure FDA0003929795530000014
其中,
Figure FDA0003929795530000015
为关节i在第t帧的图像像素坐标;
步骤C3:计算在输入的2D关节位置图像上每个关节点的位移,即关节2D位置的实际位移,表达式为:
Figure FDA0003929795530000016
步骤C4:将关节点2D位置的估计位移与对应的实际位移作差,将所有关节点位移误差的平均值作为损失函数,与单帧3D到2D的投影位置误差εi,t联合使用,表达式为:
Figure FDA0003929795530000021
其中,
Figure FDA0003929795530000022
表示第t帧中第i个关节预测3D坐标投影得到的2D估计位置与实际2D位置的误差。
2.根据权利要求1所述的单目三维人体位姿无监督学习方法,其特征在于,所述步骤A包括如下步骤:
步骤A1:对于骨骼Bi→j的预测分为预测骨长li→j和骨骼的单位方向Bd,i→j,同时对相邻关节的真骨骼Bi→j和非相邻关节的假骨骼B′i→j进行预测,将预测骨长li→j和骨骼的单位方向Bd,i→j,相乘得到骨骼向量,表达式为:
Bd,i→j=(xo,i→j,yo,i→j,zo,i→j)
Bi→j=li→jBd,i→j=(li→jxo,i→j,li→jyo,i→j,li→jzo,i→j)=(xi→j,yi→j,zi→j)
其中,Bi→j表示从关节Ji到关节Jj的骨骼;x0、y0、z0分别表示骨骼的单位方向向量;xi→j表示骨骼向量x轴方向分量;yi→j表示骨骼向量y轴方向分量;zi→j表示骨骼向量z轴方向分量;
步骤A2:将骨盆位置的关节点设为根关节Jroot,基于根关节将人体关节分为三组:上半身Supbody、左腿Sleftleg、右腿Srightleg,根关节到每组中的关节有唯一的由真骨骼组成的路径,对于任意的人体非根关节Jt∈Si(i=upbody,leftleg,rightleg),取与该关节不同组的一个关节Jk∈Sk(k=upbody,leftleg,rightleg,Sk≠Si),由根关节Jroot到关节Jk的真骨骼路径
Figure FDA0003929795530000023
和一条由关节Jk到关节Jt的假骨骼B′k→t组成一条由根关节Jroot到目标关节Jt的骨骼路径
Figure FDA0003929795530000024
表达式为:
Figure FDA0003929795530000025
Figure FDA0003929795530000026
其中,
Figure FDA0003929795530000027
表示真骨骼路径经过的关节;Br→k1表示真骨骼路径第一条骨骼,即根关节Jroot到关节
Figure FDA0003929795530000028
的骨骼向量;Bkn→k表示真骨骼路径最后一条骨骼,即关节
Figure FDA00039297955300000212
到关节Jk的骨骼向量;
步骤A3:在网络预测得到的骨骼中,由得到的骨骼路径
Figure FDA0003929795530000029
将对应的骨骼沿路径相加,得到一个对应关节的粗糙坐标
Figure FDA00039297955300000210
Figure FDA00039297955300000211
其中,m为当前的关节数。
3.根据权利要求1所述的单目三维人体位姿无监督学习方法,其特征在于,所述步骤B包括如下步骤:
步骤B1:在步骤A中得到每个关节基于一组骨骼路径的一组粗糙关节坐标,为衡量每条路径的重要性,设置注意力网络,将所有关节的粗糙关节坐标作为输入,输出得到每条路径对应的注意力W,表达式为:
W=(W1,W2,…,Wn)
Figure FDA0003929795530000031
步骤B2:将得到的注意力结合粗糙关节坐标,得到最终预测的关节坐标位置,表达式为:
Figure FDA0003929795530000032
其中,n为关节数,nt为第t个关节的路径数。
4.一种单目三维人体位姿无监督学习系统,其特征在于,包括:
模块A:运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量,对每一个目标关节,给出一组由根关节到此关节的骨骼路径,沿路径将骨骼向量相加得到一组粗糙关节坐标;
模块B:通过注意力网络得到每条路径的注意力,对每组粗糙关节坐标加权得到最终关节坐标;
模块C:在单帧3D到2D的投影位置误差的基础上,添加基于投影位移误差的无监督损失函数,训练骨长、方向估计网络和注意力网络;
所述模块C包括:
模块C1:对于由连续两帧2D关节位置图像预测得到的关节3D位置,使用相机参数矩阵,将每个关节的3D位置投影回2D平面,得到关节位置的2D投影,表达式为:
Figure FDA0003929795530000033
其中,f为相机焦距,dx为相机x轴方向一个像素的宽度,dy为相机沿y轴方向一个像素的宽度,(u0,v0)为光心对应图像像素坐标系的坐标,
Figure FDA0003929795530000034
是相机空间坐标系中模型预测出的三维坐标点
Figure FDA0003929795530000035
对应的图像像素坐标系二维坐标;
模块C2:对于每个关节预测三维坐标点的二维投影,计算它在两帧之间的平面位移,即关节2D位置的估计位移,表达式为:
Figure FDA0003929795530000041
其中,
Figure FDA0003929795530000042
为关节i在第t帧的图像像素坐标;
模块C3:计算在输入的2D关节位置图像上每个关节点的位移,即关节2D位置的实际位移,表达式为:
Figure FDA0003929795530000043
模块C4:将关节点2D位置的估计位移与对应的实际位移作差,将所有关节点位移误差的平均值作为损失函数,与单帧3D到2D的投影位置误差εi,t联合使用,表达式为:
Figure FDA0003929795530000044
其中,
Figure FDA0003929795530000045
表示第t帧中第i个关节预测3D坐标投影得到的2D估计位置与实际2D位置的误差。
5.根据权利要求4所述的单目三维人体位姿无监督学习系统,其特征在于,所述模块A包括:
模块A1:对于骨骼Bi→j的预测分为预测骨长li→j和骨骼的单位方向Bd,i→j,同时对相邻关节的真骨骼Bi→j和非相邻关节的假骨骼B′i→j进行预测,将预测骨长li→j和骨骼的单位方向Bd,i→j,相乘得到骨骼向量,表达式为:
Bd,i→j=(xo,i→j,yo,i→j,zo,i→j)
Bi→j=li→jBd,i→j=(li→jxo,i→j,li→jyo,i→j,li→jzo,i→j)=(xi→j,yi→j,zi→j)
其中,Bi→j表示从关节Ji到关节Jj的骨骼;x0、y0、z0分别表示骨骼的单位方向向量;xi→j表示骨骼向量x轴方向分量;yi→j表示骨骼向量y轴方向分量;zi→j表示骨骼向量z轴方向分量;
模块A2:将骨盆位置的关节点设为根关节Jroot,基于根关节将人体关节分为三组:上半身Supbody、左腿Sleftleg、右腿Srightleg,根关节到每组中的关节有唯一的由真骨骼组成的路径,对于任意的人体非根关节Jt∈Si(i=upbody,leftleg,rightleg),取与该关节不同组的一个关节Jk∈Sk(k=upbody,leftleg,rightleg,Sk≠Si),由根关节Jroot到关节Jk的真骨骼路径
Figure FDA0003929795530000046
和一条由关节Jk到关节Jt的假骨骼B′k→t组成一条由根关节Jroot到目标关节Jt的骨骼路径
Figure FDA0003929795530000047
表达式为:
Figure FDA0003929795530000048
Figure FDA0003929795530000051
其中,
Figure FDA0003929795530000052
表示真骨骼路径经过的关节;Br→k1表示真骨骼路径第一条骨骼,即根关节Jroot到关节
Figure FDA0003929795530000053
的骨骼向量;Bkn→k表示真骨骼路径最后一条骨骼,即关节
Figure FDA0003929795530000054
到关节Jk的骨骼向量;
模块A3:在网络预测得到的骨骼中,由得到的骨骼路径
Figure FDA0003929795530000055
将对应的骨骼沿路径相加,得到一个对应关节的粗糙坐标
Figure FDA0003929795530000056
Figure FDA0003929795530000057
其中,m为当前的关节数。
6.根据权利要求4所述的单目三维人体位姿无监督学习系统,其特征在于,所述模块B包括:
模块B1:在模块A中得到每个关节基于一组骨骼路径的一组粗糙关节坐标,为衡量每条路径的重要性,设置注意力网络,将所有关节的粗糙关节坐标作为输入,输出得到每条路径对应的注意力W,表达式为:
W=(W1,W2,…,Wn)
Figure FDA0003929795530000058
模块B2:将得到的注意力结合粗糙关节坐标,得到最终预测的关节坐标位置,表达式为:
Figure FDA0003929795530000059
其中,n为关节数,nt为第t个关节的路径数。
7.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
CN202110240172.6A 2021-03-04 2021-03-04 单目三维人体位姿无监督学习方法、系统及介质 Active CN112836824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110240172.6A CN112836824B (zh) 2021-03-04 2021-03-04 单目三维人体位姿无监督学习方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110240172.6A CN112836824B (zh) 2021-03-04 2021-03-04 单目三维人体位姿无监督学习方法、系统及介质

Publications (2)

Publication Number Publication Date
CN112836824A CN112836824A (zh) 2021-05-25
CN112836824B true CN112836824B (zh) 2023-04-18

Family

ID=75934581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110240172.6A Active CN112836824B (zh) 2021-03-04 2021-03-04 单目三维人体位姿无监督学习方法、系统及介质

Country Status (1)

Country Link
CN (1) CN112836824B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846348A (zh) * 2018-06-07 2018-11-20 四川大学 一种基于三维骨骼特征的人体行为识别方法
CN112037312A (zh) * 2020-11-04 2020-12-04 成都市谛视科技有限公司 实时人体姿态逆向运动学求解方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787439B (zh) * 2016-02-04 2019-04-05 广州新节奏智能科技股份有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN107886089A (zh) * 2017-12-11 2018-04-06 深圳市唯特视科技有限公司 一种基于骨架图回归的三维人体姿态估计的方法
CN108830150B (zh) * 2018-05-07 2019-05-28 山东师范大学 一种基于三维人体姿态估计方法及装置
EP3731185A1 (en) * 2019-04-26 2020-10-28 Tata Consultancy Services Limited Weakly supervised learning of 3d human poses from 2d poses
CN111062326B (zh) * 2019-12-02 2023-07-25 北京理工大学 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
CN111310707B (zh) * 2020-02-28 2023-06-20 山东大学 基于骨骼的图注意力网络动作识别方法及系统
CN111476181B (zh) * 2020-04-13 2022-03-04 河北工业大学 一种人体骨架动作的识别方法
CN111723667A (zh) * 2020-05-20 2020-09-29 同济大学 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN111797806A (zh) * 2020-07-17 2020-10-20 浙江工业大学 一种基于2d骨架的三维图卷积行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846348A (zh) * 2018-06-07 2018-11-20 四川大学 一种基于三维骨骼特征的人体行为识别方法
CN112037312A (zh) * 2020-11-04 2020-12-04 成都市谛视科技有限公司 实时人体姿态逆向运动学求解方法及装置

Also Published As

Publication number Publication date
CN112836824A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN109636831B (zh) 一种估计三维人体姿态及手部信息的方法
JP7177062B2 (ja) 統計モデルを用いた画像データからの深度予測
Zheng et al. Hybridfusion: Real-time performance capture using a single depth sensor and sparse imus
Zhang et al. Interacting two-hand 3d pose and shape reconstruction from single color image
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
CN110020611B (zh) 一种基于三维假设空间聚类的多人动作捕捉方法
Malciu et al. A robust model-based approach for 3d head tracking in video sequences
CN110232706B (zh) 多人跟拍方法、装置、设备及存储介质
CN110874865A (zh) 三维骨架生成方法和计算机设备
CN109255783B (zh) 一种多人图像上的人体骨骼关键点的位置排布检测方法
CN111862299A (zh) 人体三维模型构建方法、装置、机器人和存储介质
Tang et al. Joint multi-view people tracking and pose estimation for 3D scene reconstruction
CN114663496B (zh) 一种基于卡尔曼位姿估计网络的单目视觉里程计方法
CN114663593B (zh) 三维人体姿态估计方法、装置、设备及存储介质
CN113689539A (zh) 基于隐式光流场的动态场景实时三维重建方法与装置
CN114782661B (zh) 下半身姿态预测模型的训练方法及装置
Sharma et al. An end-to-end framework for unconstrained monocular 3D hand pose estimation
CN117542122B (zh) 人体位姿估计与三维重建方法、网络训练方法及装置
CN112836824B (zh) 单目三维人体位姿无监督学习方法、系统及介质
WO2022018811A1 (ja) 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
KR102181828B1 (ko) 4d리깅정보 복원장치 및 방법
CN112508776B (zh) 动作迁移方法、装置和电子设备
CN115205737A (zh) 基于Transformer模型的运动实时计数方法和系统
Wu et al. MUG: Multi-human graph network for 3D mesh reconstruction from 2D pose
Liu et al. Joint estimation of pose, depth, and optical flow with a competition–cooperation transformer network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant