CN112836824A - 单目三维人体位姿无监督学习方法、系统及介质 - Google Patents
单目三维人体位姿无监督学习方法、系统及介质 Download PDFInfo
- Publication number
- CN112836824A CN112836824A CN202110240172.6A CN202110240172A CN112836824A CN 112836824 A CN112836824 A CN 112836824A CN 202110240172 A CN202110240172 A CN 202110240172A CN 112836824 A CN112836824 A CN 112836824A
- Authority
- CN
- China
- Prior art keywords
- joint
- bone
- root
- path
- joints
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 115
- 239000013598 vector Substances 0.000 claims abstract description 55
- 238000006073 displacement reaction Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims description 7
- 230000003287 optical effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 210000002414 leg Anatomy 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 210000003423 ankle Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 210000002683 foot Anatomy 0.000 description 1
- 210000001624 hip Anatomy 0.000 description 1
- 210000000629 knee joint Anatomy 0.000 description 1
- 210000004197 pelvis Anatomy 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种单目三维人体位姿无监督学习方法、系统及介质,包括:步骤A:运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量,对每一个目标关节,给出一组由根关节到此关节的骨骼路径,沿路径将骨骼向量相加得到一组粗糙关节坐标;步骤B:通过注意力网络得到每条路径的注意力,对每组粗糙关节坐标加权得到最终关节坐标;步骤C:在单帧3D到2D的投影位置误差的基础上,添加基于投影一致的位移误差损失,训练骨长、方向估计网络和注意力网络。本发明提出基于投影一致的单目相机三维人体位姿无监督学习方法,提高了对关节预测的准确性,有利于实际利用。
Description
技术领域
本发明涉及计算机视觉技术领域,具体地,涉及一种单目三维人体位姿无监督学习方法、系统及介质。尤其地,涉及一种基于单目相机的三维人体位姿估计中关节位置的无监督损失计算方法和关节位置的获得方法。
背景技术
人体位姿估计是计算机视觉中的一个基础问题,是对人体的姿态(如头、胸、脚等人体关键点)的位置估计,目前主要是用人体关节点表示人体位姿。
对于人体关节点的预测目前主要有两种方法,一种为直接对关节点进行回归的方法,另一种为对人体骨骼进行位置估计,再由骨骼得到关节点的方法。在第二种方法中,有两种骨骼预测方法,一种为直接预测整根骨骼的向量的方法,另一种为分别预测骨骼长度和骨骼方向的方法。
对于神经网络的训练主要分成有监督和无监督两类方法,其中有监督方法需要大量的3D真值数据,难以取得。
专利文献CN111340867A(申请号:CN202010121139.7)公开了一种图像帧的深度估计方法、装置、电子设备及存储介质,通过使用经过无监督训练得到的光流预测网络提取像素关系来代替传统手工设置的图像特征SIFT等做匹配,像素之间关系的确定变得更加准确,同时引入置信度采样进一步提高鲁棒性;并通过使用建立像素关系再解算相机位姿关系,代替了端到端的相机位姿相对变化估计。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种单目三维人体位姿无监督学习方法、系统及介质。
根据本发明提供的单目三维人体位姿无监督学习方法,包括:
步骤A:运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量,对每一个目标关节,给出一组由根关节到此关节的骨骼路径,沿路径将骨骼向量相加得到一组粗糙关节坐标;
步骤B:通过注意力网络得到每条路径的注意力,对每组粗糙关节坐标加权得到最终关节坐标;
步骤C:在单帧3D到2D的投影位置误差的基础上,添加基于投影一致的位移误差损失,训练骨长、方向估计网络和注意力网络。
优选的,所述步骤A包括如下步骤:
步骤A1:对于骨骼Bi→j的预测分为预测骨长li→j和骨骼的单位方向Bd,i→j,同时对相邻关节的真骨骼Bi→j和非相邻关节的假骨骼B'i→j进行预测,将预测骨长li→j和骨骼的单位方向Bd,i→j,相乘得到骨骼向量,表达式为:
Bd,i→j=(xo,i→j,yo,i→j,zo,i→j)
Bi→j=li→jBd,i→j=(li→jxo,i→j,li→jyo,i→j,li→jzo,i→j)=(xi→j,yi→j,zi→j)
其中,Bi→j表示从关节Ji到关节Jj的骨骼;x0、y0、z0分别表示骨骼的单位方向向量;xi→j表示骨骼向量x轴方向分量;yi→j表示骨骼向量y轴方向分量;zi→j表示骨骼向量z轴方向分量;
步骤A2:将骨盆位置的关节点设为根关节Jroot,基于根关节将人体关节分为三组:上半身Supbody、左腿Sleftleg、右腿Srightleg,根关节到每组中的关节有唯一的由真骨骼组成的路径,对于任意的人体非根关节Jt∈Si(i=upbody,leftleg,rightleg),取与该关节不同组的一个关节Jk∈Sk(k=upbody,leftleg,rightleg,Sk≠Si),由根关节Jroot到关节Jk的真骨骼路径和一条由关节Jk到关节Jt的假骨骼B'k→t组成一条由根关节Jroot到目标关节Jt的骨骼路径表达式为:
其中,m为当前的关节数。
优选的,所述步骤B包括如下步骤:
步骤B1:在步骤A中得到每个关节基于一组骨骼路径的一组粗糙关节坐标,为衡量每条路径的重要性,设置注意力网络,将所有关节的粗糙关节坐标作为输入,输出得到每条路径对应的注意力W,表达式为:
W=(W1,W2,…,Wn)
步骤B2:将得到的注意力结合粗糙关节坐标,得到最终预测的关节坐标位置,表达式为:
其中,n为关节数,nt为第t个关节的路径数。
优选的,所述步骤C包括如下步骤:
步骤C1:对于由连续两帧2D关节位置图像预测得到的关节3D位置,使用相机参数矩阵,将每个关节的3D位置投影回2D平面,得到关节位置的2D投影,表达式为:
其中,f为相机焦距,dx为相机x轴方向一个像素的宽度,dy为相机沿y轴方向一个像素的宽度,(u0,v0)为光心对应图像像素坐标系的坐标,是相机空间坐标系中模型预测出的三维坐标点对应的图像像素坐标系二维坐标;
步骤C2:对于每个关节预测三维坐标点的二维投影,计算它在两帧之间的平面位移,即关节2D位置的估计位移,表达式为:
步骤C3:计算在输入的2D关节位置图像上每个关节点的位移,即关节2D位置的实际位移,表达式为:
步骤C4:将关节点2D位置的估计位移与对应的实际位移作差,将所有关节点位移误差的平均值作为损失函数,与单帧3D到2D的投影位置误差εi,t联合使用,表达式为:
根据本发明提供的单目三维人体位姿无监督学习系统,包括:
模块A:运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量,对每一个目标关节,给出一组由根关节到此关节的骨骼路径,沿路径将骨骼向量相加得到一组粗糙关节坐标;
模块B:通过注意力网络得到每条路径的注意力,对每组粗糙关节坐标加权得到最终关节坐标;
模块C:在单帧3D到2D的投影位置误差的基础上,添加基于投影一致的位移误差损失,训练骨长、方向估计网络和注意力网络。
优选的,所述模块A包括:
模块A1:对于骨骼Bi→j的预测分为预测骨长li→j和骨骼的单位方向Bd,i→j,同时对相邻关节的真骨骼Bi→j和非相邻关节的假骨骼B'i→j进行预测,将预测骨长li→j和骨骼的单位方向Bd,i→j,相乘得到骨骼向量,表达式为:
Bd,i→j=(xo,i→j,yo,i→j,zo,i→j)
Bi→j=li→jBd,i→j=(li→jxo,i→j,li→jyo,i→j,li→jzo,i→j)=(xi→j,yi→j,zi→j)
其中,Bi→j表示从关节Ji到关节Jj的骨骼;x0、y0、z0分别表示骨骼的单位方向向量;xi→j表示骨骼向量x轴方向分量;yi→j表示骨骼向量y轴方向分量;zi→j表示骨骼向量z轴方向分量;
模块A2:将骨盆位置的关节点设为根关节Jroot,基于根关节将人体关节分为三组:上半身Supbody、左腿Sleftleg、右腿Srightleg,根关节到每组中的关节有唯一的由真骨骼组成的路径,对于任意的人体非根关节Jt∈Si(i=upbody,leftleg,rightleg),取与该关节不同组的一个关节Jk∈Sk(k=upbody,leftleg,rightleg,Sk≠Si),由根关节Jroot到关节Jk的真骨骼路径和一条由关节Jk到关节Jt的假骨骼B'k→t组成一条由根关节Jroot到目标关节Jt的骨骼路径表达式为:
其中,m为当前的关节数。
优选的,所述模块B包括:
模块B1:在模块A中得到每个关节基于一组骨骼路径的一组粗糙关节坐标,为衡量每条路径的重要性,设置注意力网络,将所有关节的粗糙关节坐标作为输入,输出得到每条路径对应的注意力W,表达式为:
W=(W1,W2,…,Wn)
模块B2:将得到的注意力结合粗糙关节坐标,得到最终预测的关节坐标位置,表达式为:
其中,n为关节数,nt为第t个关节的路径数。
优选的,所述模块C包括:
模块C1:对于由连续两帧2D关节位置图像预测得到的关节3D位置,使用相机参数矩阵,将每个关节的3D位置投影回2D平面,得到关节位置的2D投影,表达式为:
其中,f为相机焦距,dx为相机x轴方向一个像素的宽度,dy为相机沿y轴方向一个像素的宽度,(u0,v0)为光心对应图像像素坐标系的坐标,是相机空间坐标系中模型预测出的三维坐标点对应的图像像素坐标系二维坐标;
模块C2:对于每个关节预测三维坐标点的二维投影,计算它在两帧之间的平面位移,即关节2D位置的估计位移,表达式为:
模块C3:计算在输入的2D关节位置图像上每个关节点的位移,即关节2D位置的实际位移,表达式为:
模块C4:将关节点2D位置的估计位移与对应的实际位移作差,将所有关节点位移误差的平均值作为损失函数,与单帧3D到2D的投影位置误差εi,t联合使用,表达式为:
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述的方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明保证了关节位置估计在相邻帧的连续性,可以减少在连续视频中关节位置估计结果的波动;
(2)本发明提出了一种由骨骼路径结合注意力机制获得关节坐标的方法:对网络预测的真假骨骼,根据给定的骨骼路径得到每个关节点的多个粗糙的预测坐标,由粗糙的预测坐标结合注意力机制加权得到最终的关节坐标,在此基础上,设计了基于投影位移误差的无监督损失函数用于训练骨长和骨骼方向预测网络,注意力网络,由多条骨骼路径加权得到关节点,一定程度上提高了准确性;
(3)本发明采用无监督方法,需要获取的数据量较少,减少了获取数据的成本。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明的一种基于多路径加权和投影一致的单目三维人体位姿无监督学习方法的结构框图;
图2是骨骼长度估计网络、骨骼方向估计网络与注意力网络的流程图;
图3是基本人体骨架模型示意图;
图4是引入的部分假骨骼示意图;
图5是一条骨骼路径示意图;
图6是基于投影一致的无监督损失的流程图;
图7是关节投影位移误差示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
如图1,本发明提供一种基于多路径加权和投影一致的单目三维人体位姿无监督学习方法,包括:步骤A:粗糙关节坐标获取;步骤B:注意力机制引入;步骤C:损失计算。
如图2,所述步骤A包括如下步骤:
步骤A1:对于骨骼Bi→j(表示从关节Ji到关节Jj的骨骼)的预测可以分为预测骨长li→j和骨骼的单位方向Bd,i→j,这种预测网络相关文献已有详细介绍,其网络只预测真骨骼(相邻关节)的长度和方向。例如,图3为以17个关节表示的人体骨骼框架图,其中包括了头、肩、肘、腕等17个人体关键关节,相邻关节之间的骨骼向量为真骨骼向量。
我们的网络同时对真骨骼Bi→j和假骨骼B'i→j(非相邻关节)进行预测。例如,图4中用虚线箭头表示了右肘到胸、左肩到左臀、左腕到左踝的骨骼向量,由于向量两端的关节不相邻,因此这些向量表示假骨骼向量。
将预测骨长li→j和骨骼的单位方向Bd,i→j,相乘得到骨骼向量Bi→j:
Bd,i→j=(xo,i→j,yo,i→j,zo,i→j)
Bi→j=li→jBd,i→j=(li→jxo,i→j,li→jyo,i→j,li→jzo,i→j)=(xi→j,yi→j,zi→j)
其中,x0,y0,z0表示骨骼的单位方向向量;xi→j表示骨骼向量x轴方向分量;yi→j表示骨骼向量y轴方向分量;zi→j表示骨骼向量z轴方向分量。
步骤A2:将骨盆位置的关节点设为根关节Jroot,基于根关节将人体关节分为三组,上半身Supbody、左腿Sleftleg、右腿Srightleg,根关节到每组中的关节有唯一的由真骨骼组成的路径。对于任意的人体非根关节Jt∈Si(i=upbody,leftleg,rightleg),取与该关节不同组的一个关节Jk∈Sk(k=upbody,leftleg,rightleg,Sk≠Si),由根关节Jroot到关节Jk的真骨骼路径和一条由关节Jk到关节Jt的假骨骼B'k→t组成一条由根关节Jroot到目标关节Jt的骨骼路径
如图5,取目标关节为左膝关节,用黑粗线表示了一条骨骼路径,骨盆→脊柱→胸→脖→左肩→左肘→左膝。其中,骨盆→脊柱,脊柱→胸,胸→脖,脖→左肩,左肩→左肘,这五条骨骼为真骨骼,左肘→左膝的骨骼为假骨骼。
所述步骤B包括如下步骤:
步骤B1:在步骤A中得到了每个关节基于一组骨骼路径的一组粗糙关节坐标,为了衡量每条路径的重要性,设置注意力网络,将所有关节的粗糙关节坐标作为输入,输出得到每条路径对应的注意力W:
W=(W1,W2,…,Wn)
其中,n为关节数,nt为第t个关节的路径数。
步骤B2:将得到的注意力结合粗糙关节坐标,得到最终预测的关节坐标位置:
如图6,所述步骤C包括如下步骤:
步骤C1:对于由连续两帧2D关节位置图像预测得到的关节3D位置,使用相机参数矩阵,将每个关节的3D位置投影回2D平面,得到关节位置的2D投影。
其中,f为相机焦距,dx为相机x轴方向一个像素的宽度,dy为相机沿y轴方向一个像素的宽度。(u0,v0)为光心对应图像像素坐标系的坐标,是相机空间坐标系中,模型预测出的坐标点对应的图像像素坐标系坐标。
步骤C2:对于每个关节点的投影,计算它在两帧之间的平面位移;
步骤C3:计算每个关节点在输入的2D关节位置图像上的位移,即关节2D位置的实际位移;
如图7,点为关节i在第t-1帧的2D估计位置,其坐标为点为关节i在第t帧的2D估计位置,其坐标为点Pi,t-1为输入图像中关节i在第t-1帧的2D实际位置,坐标为(ui,t-1,vi,t-1)T,点Pi,t为输入图像中关节i在第t帧的2D实际位置,坐标为(ui,t,vi,t)T。图中向量即图中向量即Δi,t。
步骤C4:将投影的平面位移与对应关节点的实际位移作差(如图7),将所有关节点位移误差的平均值作为损失函数,与常用的单帧投影位置误差联合使用。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (9)
1.一种单目三维人体位姿无监督学习方法,其特征在于,包括:
步骤A:运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量,对每一个目标关节,给出一组由根关节到此关节的骨骼路径,沿路径将骨骼向量相加得到一组粗糙关节坐标;
步骤B:通过注意力网络得到每条路径的注意力,对每组粗糙关节坐标加权得到最终关节坐标;
步骤C:在单帧3D到2D的投影位置误差的基础上,添加基于投影一致的位移误差损失,训练骨长、方向估计网络和注意力网络。
2.根据权利要求1所述的单目三维人体位姿无监督学习方法,其特征在于,所述步骤A包括如下步骤:
步骤A1:对于骨骼Bi→j的预测分为预测骨长li→j和骨骼的单位方向Bd,i→j,同时对相邻关节的真骨骼Bi→j和非相邻关节的假骨骼B'i→j进行预测,将预测骨长li→j和骨骼的单位方向Bd,i→j,相乘得到骨骼向量,表达式为:
Bd,i→j=(xo,i→j,yo,i→j,zo,i→j)
Bi→j=li→jBd,i→j=(li→jxo,i→j,li→jyo,i→j,li→jzo,i→j)=(xi→j,yi→j,zi→j)
其中,Bi→j表示从关节Ji到关节Jj的骨骼;x0、y0、z0分别表示骨骼的单位方向向量;xi→j表示骨骼向量x轴方向分量;yi→j表示骨骼向量y轴方向分量;zi→j表示骨骼向量z轴方向分量;
步骤A2:将骨盆位置的关节点设为根关节Jroot,基于根关节将人体关节分为三组:上半身Supbody、左腿Sleftleg、右腿Srightleg,根关节到每组中的关节有唯一的由真骨骼组成的路径,对于任意的人体非根关节Jt∈Si(i=upbody,leftleg,rightleg),取与该关节不同组的一个关节Jk∈Sk(k=upbody,leftleg,rightleg,Sk≠Si),由根关节Jroot到关节Jk的真骨骼路径和一条由关节Jk到关节Jt的假骨骼B'k→t组成一条由根关节Jroot到目标关节Jt的骨骼路径表达式为:
其中,m为当前的关节数。
4.根据权利要求1所述的单目三维人体位姿无监督学习方法,其特征在于,所述步骤C包括如下步骤:
步骤C1:对于由连续两帧2D关节位置图像预测得到的关节3D位置,使用相机参数矩阵,将每个关节的3D位置投影回2D平面,得到关节位置的2D投影,表达式为:
其中,f为相机焦距,dx为相机x轴方向一个像素的宽度,dy为相机沿y轴方向一个像素的宽度,(u0,v0)为光心对应图像像素坐标系的坐标,是相机空间坐标系中模型预测出的三维坐标点对应的图像像素坐标系二维坐标;
步骤C2:对于每个关节预测三维坐标点的二维投影,计算它在两帧之间的平面位移,即关节2D位置的估计位移,表达式为:
步骤C3:计算在输入的2D关节位置图像上每个关节点的位移,即关节2D位置的实际位移,表达式为:
步骤C4:将关节点2D位置的估计位移与对应的实际位移作差,将所有关节点位移误差的平均值作为损失函数,与单帧3D到2D的投影位置误差εi,t联合使用,表达式为:
5.一种单目三维人体位姿无监督学习系统,其特征在于,包括:
模块A:运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量,对每一个目标关节,给出一组由根关节到此关节的骨骼路径,沿路径将骨骼向量相加得到一组粗糙关节坐标;
模块B:通过注意力网络得到每条路径的注意力,对每组粗糙关节坐标加权得到最终关节坐标;
模块C:在单帧3D到2D的投影位置误差的基础上,添加基于投影一致的位移误差损失,训练骨长、方向估计网络和注意力网络。
6.根据权利要求1所述的单目三维人体位姿无监督学习系统,其特征在于,所述模块A包括:
模块A1:对于骨骼Bi→j的预测分为预测骨长li→j和骨骼的单位方向Bd,i→j,同时对相邻关节的真骨骼Bi→j和非相邻关节的假骨骼B'i→j进行预测,将预测骨长li→j和骨骼的单位方向Bd,i→j,相乘得到骨骼向量,表达式为:
Bd,i→j=(xo,i→j,yo,i→j,zo,i→j)
Bi→j=li→jBd,i→j=(li→jxo,i→j,li→jyo,i→j,li→jzo,i→j)=(xi→j,yi→j,zi→j)
其中,Bi→j表示从关节Ji到关节Jj的骨骼;x0、y0、z0分别表示骨骼的单位方向向量;xi→j表示骨骼向量x轴方向分量;yi→j表示骨骼向量y轴方向分量;zi→j表示骨骼向量z轴方向分量;
模块A2:将骨盆位置的关节点设为根关节Jroot,基于根关节将人体关节分为三组:上半身Supbody、左腿Sleftleg、右腿Srightleg,根关节到每组中的关节有唯一的由真骨骼组成的路径,对于任意的人体非根关节Jt∈Si(i=upbody,leftleg,rightleg),取与该关节不同组的一个关节Jk∈Sk(k=upbody,leftleg,rightleg,Sk≠Si),由根关节Jroot到关节Jk的真骨骼路径和一条由关节Jk到关节Jt的假骨骼B'k→t组成一条由根关节Jroot到目标关节Jt的骨骼路径表达式为:
其中,m为当前的关节数。
8.根据权利要求5所述的单目三维人体位姿无监督学习系统,其特征在于,所述模块C包括:
模块C1:对于由连续两帧2D关节位置图像预测得到的关节3D位置,使用相机参数矩阵,将每个关节的3D位置投影回2D平面,得到关节位置的2D投影,表达式为:
其中,f为相机焦距,dx为相机x轴方向一个像素的宽度,dy为相机沿y轴方向一个像素的宽度,(u0,v0)为光心对应图像像素坐标系的坐标,是相机空间坐标系中模型预测出的三维坐标点对应的图像像素坐标系二维坐标;
模块C2:对于每个关节预测三维坐标点的二维投影,计算它在两帧之间的平面位移,即关节2D位置的估计位移,表达式为:
模块C3:计算在输入的2D关节位置图像上每个关节点的位移,即关节2D位置的实际位移,表达式为:
模块C4:将关节点2D位置的估计位移与对应的实际位移作差,将所有关节点位移误差的平均值作为损失函数,与单帧3D到2D的投影位置误差εit联合使用,表达式为:
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110240172.6A CN112836824B (zh) | 2021-03-04 | 2021-03-04 | 单目三维人体位姿无监督学习方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110240172.6A CN112836824B (zh) | 2021-03-04 | 2021-03-04 | 单目三维人体位姿无监督学习方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836824A true CN112836824A (zh) | 2021-05-25 |
CN112836824B CN112836824B (zh) | 2023-04-18 |
Family
ID=75934581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110240172.6A Active CN112836824B (zh) | 2021-03-04 | 2021-03-04 | 单目三维人体位姿无监督学习方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836824B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN107886089A (zh) * | 2017-12-11 | 2018-04-06 | 深圳市唯特视科技有限公司 | 一种基于骨架图回归的三维人体姿态估计的方法 |
CN108830150A (zh) * | 2018-05-07 | 2018-11-16 | 山东师范大学 | 一种基于三维人体姿态估计方法及装置 |
CN108846348A (zh) * | 2018-06-07 | 2018-11-20 | 四川大学 | 一种基于三维骨骼特征的人体行为识别方法 |
CN111062326A (zh) * | 2019-12-02 | 2020-04-24 | 北京理工大学 | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 |
CN111310707A (zh) * | 2020-02-28 | 2020-06-19 | 山东大学 | 基于骨骼的图注意力网络动作识别方法及系统 |
CN111476181A (zh) * | 2020-04-13 | 2020-07-31 | 河北工业大学 | 一种人体骨架动作的识别方法 |
CN111723667A (zh) * | 2020-05-20 | 2020-09-29 | 同济大学 | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 |
CN111797806A (zh) * | 2020-07-17 | 2020-10-20 | 浙江工业大学 | 一种基于2d骨架的三维图卷积行为识别方法 |
US20200342270A1 (en) * | 2019-04-26 | 2020-10-29 | Tata Consultancy Services Limited | Weakly supervised learning of 3d human poses from 2d poses |
CN112037312A (zh) * | 2020-11-04 | 2020-12-04 | 成都市谛视科技有限公司 | 实时人体姿态逆向运动学求解方法及装置 |
-
2021
- 2021-03-04 CN CN202110240172.6A patent/CN112836824B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN107886089A (zh) * | 2017-12-11 | 2018-04-06 | 深圳市唯特视科技有限公司 | 一种基于骨架图回归的三维人体姿态估计的方法 |
CN108830150A (zh) * | 2018-05-07 | 2018-11-16 | 山东师范大学 | 一种基于三维人体姿态估计方法及装置 |
CN108846348A (zh) * | 2018-06-07 | 2018-11-20 | 四川大学 | 一种基于三维骨骼特征的人体行为识别方法 |
US20200342270A1 (en) * | 2019-04-26 | 2020-10-29 | Tata Consultancy Services Limited | Weakly supervised learning of 3d human poses from 2d poses |
CN111062326A (zh) * | 2019-12-02 | 2020-04-24 | 北京理工大学 | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 |
CN111310707A (zh) * | 2020-02-28 | 2020-06-19 | 山东大学 | 基于骨骼的图注意力网络动作识别方法及系统 |
CN111476181A (zh) * | 2020-04-13 | 2020-07-31 | 河北工业大学 | 一种人体骨架动作的识别方法 |
CN111723667A (zh) * | 2020-05-20 | 2020-09-29 | 同济大学 | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 |
CN111797806A (zh) * | 2020-07-17 | 2020-10-20 | 浙江工业大学 | 一种基于2d骨架的三维图卷积行为识别方法 |
CN112037312A (zh) * | 2020-11-04 | 2020-12-04 | 成都市谛视科技有限公司 | 实时人体姿态逆向运动学求解方法及装置 |
Non-Patent Citations (2)
Title |
---|
T.CHEN ET AL.: "《Anatomy-Aware 3D Human Pose Estimation With》", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY 》 * |
田志强: "《基于骨骼时序散度特征的人体行为识别算法》", 《计算机应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836824B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109636831B (zh) | 一种估计三维人体姿态及手部信息的方法 | |
JP7177062B2 (ja) | 統計モデルを用いた画像データからの深度予測 | |
Nibali et al. | 3d human pose estimation with 2d marginal heatmaps | |
Zhang et al. | Interacting two-hand 3d pose and shape reconstruction from single color image | |
Zheng et al. | Hybridfusion: Real-time performance capture using a single depth sensor and sparse imus | |
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN110020611B (zh) | 一种基于三维假设空间聚类的多人动作捕捉方法 | |
CN111325794A (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
Tang et al. | Joint multi-view people tracking and pose estimation for 3D scene reconstruction | |
CN111902826A (zh) | 定位、建图和网络训练 | |
CN110874865A (zh) | 三维骨架生成方法和计算机设备 | |
CN110232706B (zh) | 多人跟拍方法、装置、设备及存储介质 | |
CN111862299A (zh) | 人体三维模型构建方法、装置、机器人和存储介质 | |
Agudo et al. | Real-time 3D reconstruction of non-rigid shapes with a single moving camera | |
CN113689539A (zh) | 基于隐式光流场的动态场景实时三维重建方法与装置 | |
CN114663496A (zh) | 一种基于卡尔曼位姿估计网络的单目视觉里程计方法 | |
JP2021060989A (ja) | マルチモーダル密対応関係撮像システム | |
CN113537393A (zh) | 一种基于改进Transformer的黑暗场景三维人体姿态估计算法 | |
CN109255783A (zh) | 一种多人图像上的人体骨骼关键点的位置排布检测方法 | |
CN111160162A (zh) | 一种级联的驾驶员人体姿态估计方法 | |
WO2022018811A1 (ja) | 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム | |
CN112836824B (zh) | 单目三维人体位姿无监督学习方法、系统及介质 | |
Lee et al. | Instance-wise depth and motion learning from monocular videos | |
CN112149531A (zh) | 一种行为识别中人体骨骼数据的建模方法 | |
Liu et al. | Joint estimation of pose, depth, and optical flow with a competition–cooperation transformer network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |