CN115880724A - 一种基于rgb图像的轻量化三维手部姿态估计方法 - Google Patents

一种基于rgb图像的轻量化三维手部姿态估计方法 Download PDF

Info

Publication number
CN115880724A
CN115880724A CN202211628762.7A CN202211628762A CN115880724A CN 115880724 A CN115880724 A CN 115880724A CN 202211628762 A CN202211628762 A CN 202211628762A CN 115880724 A CN115880724 A CN 115880724A
Authority
CN
China
Prior art keywords
dimensional
map
convolution
joint
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211628762.7A
Other languages
English (en)
Inventor
佘青山
陈炫琦
马玉良
席旭刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211628762.7A priority Critical patent/CN115880724A/zh
Publication of CN115880724A publication Critical patent/CN115880724A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种基于RGB图像的轻量化三维手部姿态估计方法,首先,使用多个sandglass残差块串联堆叠,用于进行局部的特征建模。其次,在部分sandglass残差块之后,对特征进行“展开”操作,并以Transformer块结构进行全局的特征建模,再对特征进行“折叠”,并进行特征融合。然后,在Transformer块中引入可分离自注意力机制,降低自注意力的计算复杂度。最后,将特征图通过卷积得到二维手部姿态热图,两者拼接后通过卷积得到关节向量图,再次拼接后再通过卷积得到三维手部姿态热图,最终实现三维手部姿态估计。本发明从RGB图像中直接估计三维手部姿态,并且能够在具有较高的估计精度的同时保持优良的计算效率,能够在人机交互、虚拟现实、手势识别等领域具有广阔的应用前景。

Description

一种基于RGB图像的轻量化三维手部姿态估计方法
技术领域
本发明涉及一种基于RGB图像的轻量化三维手部姿态估计方法,利用多层轻量的sandglass残差连接块提取图像局部特征,再结合视觉Transfomer块结构提取图像全局特征,最终再通过卷积将二维手部姿态热图提升为三维姿态热图,实现基于RGB图像的三维手部姿态估计,属于计算机视觉、深度学习技术领域。
背景技术
近年来,由于深度学习卷积神经网络的发展,手部姿态估计任务也有着飞速的发展,在过去的十几年里提出了很多效果不错的方法。根据获取手部姿态的信息表示方式,可以将手部姿态估计的任务划分为二维和三维两种情况。由于RGB图像的获取相较于具有深度信息RGB-D图像而言,所需的设备成本以及计算成本更低,所以基于RGB图像的手部姿态估计更具研究价值。而三维手部姿态估计能更精确地的表示手部关节点的位置,故在缺乏深度信息的RGB图像中,精确估计出手部关节点的三维信息具有挑战性。
在深度学习研究兴起之前,传统的机器学习算法通常用于手部姿态估计的研究。例如,Rehg和Wang等人开发了可视化的手部跟踪程序,并使用物理外设完成手部跟踪和交互任务。这些传统方法通常使用三维动态模型来拟合模型。后来由于人体姿态估计方法的突破,神经网络被广泛应用于姿态估计。人体姿态估计和手部姿态估计是两个密切相关的研究领域,受人体姿态估计的启发,提出了许多手部姿态估计方法。Spurr等人提出了一种使用生成模型同时应用于RGB和深度图像的方法。该方法采用半监督学习方法,利用交叉模态训练网络获取手部空间模型。Cai等人提出了一种弱监督方法,在训练中使用深度图像,在测试中使用RGB图像作为联合预测。该方法对预测的三维姿态进行深度图像回归,补充了三维姿态回归中的弱监督模式。
近年来,很多基于RGB图像的手部姿态估计方法都是基于手部的二维骨骼关键点检测,然后利用二维信息提升到三维。Franziska等提出了一种结合了神经网络和运动学约束的手位姿估计模型,用以解决单目RGB图像手的跟踪和位姿估计问题,他们认为这种组合对数据的泛化是有效的,并且对手部骨骼关键点的估计在运动中不同的相机视角下更具鲁棒性。同时,提出了一种基于几何一致性的图像转换方法,利用神经网络将合成数据“转换”为真实数据,从而更有利于得到鲁棒性更强的三维模型。Liuhao等人提出了一种使用RGB图像估计手姿并生成手形的方法,主要分为两个训练。在一阶段中,作者使用合成数据进行训练,通过沙漏网络模型与图卷积网络,最终线性回归生成手部姿态。然后在二阶段中对一阶段的模型进行微调,用于真实数据的训练,一定程度上提高了模型的泛化性,能够使其在真实场景中效果得到改善。Yuxiao等人提出了一种利用多模态数据的单目手部运动捕捉方法,从单张图像恢复手部的二维关键点表示,通过二维关键点恢复手部的三维关键点和形状。在二维关键点检测中,通过卷积网络得到手部关键点的热图,通过热图回归找到二维关键点的表示。在三维关键点检测部分,参考VNect的人体姿态估计网络,通过二维关键点热图和图像特征回归手部三维姿态。
由上述研究可知,理想情况下,能实现实时人机交互等应用的手部姿态捕获的方法应该在低成本的情况下直接反馈给用户,利用低成本的RGB相机可以降低图像获取成本和功耗,并且可以以较好的精度以及较低的计算复杂度,实现以高精度、低延迟的手部的三维手部姿态估计,以实现应用。而三维的手部姿态估计非常具有挑战性,特别是来自单目RGB图像,由于没有深度信息,导致手部三维姿态难以准确估计;二是因为单目RGB图像有着固有的单眼环境的深度模糊性,会导致手部姿态部分遮挡,姿态难以估计;最后由于三维的姿态估计精度较高的网络结构往往伴随更高的计算复杂度,在硬件算力不足时显著影响实际效果。因此建立一种基于RGB图像的轻量化网络模型来实现精确的三维手部姿态关键点估计并保持较低的计算复杂度是当前三维手部姿态关键点估计研究的研究重点。
发明内容
针对以上问题,本发明设计并实现了基于RGB图像的轻量化三维手部姿态估计方法,在保证估计精度的同时减少更多的计算成本。本发明首先设计了多个串联的sandglass残差卷积块,用于进行局部的特征建模。其次,在部分残差块之后,对特征进行“展开”操作,再以Transformer块结构进行全局的特征建模,再特征进行“折叠”,并进行特征融合。然后,在Transformer块中引入可分离自注意力机制,降低自注意力的计算复杂度。最后,将特征图通过卷积得到二维手部姿态热图,两者拼接后通过卷积得到关节向量图,再次拼接后再通过卷积得到三维手部姿态热图,最终实现三维手部姿态估计。
一种基于RGB图像的轻量化三维手部姿态估计方法的具体步骤如下:
步骤一:使用多个sandglass残差块串联堆叠,保证卷积所具有的归纳偏置特性,用于进行局部的特征建模。
步骤二:分别在第4、5、6个sandglass残差块之后,将特征图通过卷积核为1×1的卷积层调整特征通道数,对特征进行“展开”,再以Transformer块结构进行全局的特征建模,再通过一个卷积核大小为1×1的卷积层将通道数调整回原始大小,对特征进行“折叠”,并通过1×1的卷积层实现特征融合。
步骤三:在用于全局特征建模的Transformer块中引入可分离自注意力机制,降低自注意力的计算复杂度。
步骤四:将特征图通过卷积得到二维手部姿态热图,两者拼接后通过卷积得到关节向量图,再次拼接后再通过卷积得到三维手部姿态热图,最终实现三维手部姿态估计。
本发明与已有的基于RGB图像的三维手部姿态估计方法相比,具有如下特点:
1、设计了一种更为轻量的特征提取网络,用于从RGB图像中提取特征,回归二维、三维手部姿态热图,克服了已有方法计算速度慢的问题。采用多个轻量的sandglass卷积残差块进行堆叠,用于进行局部特征建模,既保留了逐点卷积、深度可分离卷积所带来的计算复杂度的降低,又将深度可分离卷积应用到更高维度的特征上,从而可以对更丰富的空间信息进行编码。
2、在主干网络中部分sandglass残差块之间,引入具有可分离自注意力的视觉Transformer,它对输入特征图具备捕捉全局感受野的能力,能在空间维度上建立全局依赖关系,从而学习到全局视觉表征信息。而其中的可分离自注意力降低了自注意力的计算复杂度,能够在手部姿态估计实际推理中降低延迟。所以本发明在保证了3D手部姿态估计的精度同时也提升了模型计算的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于RGB图像的轻量化三维手部姿态估计方法的实施流程图;
图2为本发明sandglass结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于RGB图像的轻量化三维手部姿态估计方法的具体步骤如下:
本发明一种基于RGB图像的轻量化三维手部姿态估计方法,图1为实施流程图。
如图1,本发明方法的实施主要包括四个步骤:步骤一:将多个sandglass残差块串联堆叠,用于局部的特征建模;步骤二:对特征进行“展开”操作,再以Transformer块结构进行全局的特征建模,再对特征进行“折叠”,并进行特征融合;步骤三:Transformer块中引入可分离自注意力机制,降低自注意力的计算复杂度,步骤四:将特征图通过卷积得到二维手部姿态热图,两者拼接后通过卷积得到关节向量图,再次拼接后再通过卷积得到三维手部姿态热图,最终实现三维手部姿态估计。
下面逐一对各步骤进行详细说明。
步骤一:使用多个sandglass残差块串联堆叠,保证卷积所具有的归纳偏置特性,用于进行局部的特征建模。
本发明方法引入了sandglass残差块结构,如图2所示为sandglass结构图。其中主分支中的第一个和最后一个卷积层是保留通道数不变的深度可分离卷积层。为了模拟经典的瓶颈块结构,在两个深度可分离卷积层之间使用两个连续的逐点卷积堆叠,来先减少再增加通道数。因为1×1的逐点卷积会导致空间信息的减弱,因此将两个3×3的卷积置于两个1×1的卷积之外,并适当地将两个深度可分离卷积应用到更高维度的特征上,从而可以对更丰富的空间信息进行编码,以生成更具表现力的空间信息。
假设
Figure BDA0004004840640000041
表示输入特征,
Figure BDA0004004840640000042
表示输出特征,该模块可以采用如下公式表示:
Figure BDA0004004840640000051
Figure BDA0004004840640000052
其中φi,p,φi,d分别表示第i个逐点卷积与深度卷积,确保了深度可分离卷积在高维空间处理并得到更丰富的特征表达。sandglass残差块基本信息如表1所示,其中t和s分别表示通道缩减率和步长。
表1sandglass残差块基本信息
Figure BDA0004004840640000053
步骤二:分别在第4、5、6个sandglass残差块之后,对特征进行“展开”操作,以Transformer块结构进行全局的特征建模,再对特征进行“折叠”,并进行特征融合。
将之前sandglass块输出作为d维的输入特征
Figure BDA0004004840640000054
首先应用一个n×n标准卷积层,再用1×1的点卷积层产生特征XL。为了让模型具有空间归纳偏置的全局表示,将特征XL展开为N个不重叠的patch,用
Figure BDA0004004840640000055
表示。这里,P=wh,而
Figure BDA0004004840640000056
是patch的数量,h≤n和w≤n分别是patch的高度和宽度。根据式(3),对于每个patch,即p∈{1,···,P},通过Transformer对patch间的关系进行编码从而得到
Figure BDA0004004840640000057
XG(p)= Transformer (XU(p)),1≤p≤P (3)
因为这个操作并不会丢失patch的顺序,也不会丢失每个patch内像素的空间顺序,所以可以折叠
Figure BDA0004004840640000058
得到
Figure BDA0004004840640000059
接着,使用逐点卷积将XF投影到低维空间,并通过拼接操作与特征X组合,然后使用另一个n×n卷积层来融合这些特征。对特征XU(p)使用卷积对n×n区域的局部信息进行编码,XG(p)对第p个位置的patch的全局信息进行编码,XG中的每个像素都可以编码来自X中所有像素的信息,所以总的有效感受野为H×W。
步骤三:在用于全局特征建模的Transformer块中引入可分离自注意力机制,降低自注意力的计算复杂度。
可分离自注意力的结构与Transformer中使用的多头自注意力类似,将Transformer的输入Xinput分别使用输入I、键K和值V三个分支处理。输入分支I使用具有权重WI的线性层将Xinput中的每个d维token映射为标量。权重WI用来表示潜在token与Xinput间的距离,从而产生一个k维向量,然后使用softmax函数以产生上下文分数
Figure BDA0004004840640000061
与针对所有k个token计算每个token的注意力分数不同,可分离自注意力仅计算关于潜在token的注意力分数。这样可以使得计算注意力分数的时间复杂度从O(k2)下降到O(k)。
由式(4),上下文向量Cv通过上下文分数Cs得到,其中
Figure BDA0004004840640000062
由具有权重
Figure BDA0004004840640000063
的键分支K将输入Xinput线性投影到d维空间后得到。
Figure BDA0004004840640000064
Cv中编码的上下文信息与Xinput中的所有token共享。为此,使用权重为WV的值分支V将输入Xinput线性投影到d维空间
Figure BDA0004004840640000065
然后使用ReLU激活函数后产生输出
Figure BDA0004004840640000066
最后将得到的输出馈送到具有权重
Figure BDA0004004840640000067
的另一个线性层后产生最终输出
Figure BDA0004004840640000068
步骤四:将特征图通过卷积得到二维手部姿态热图,两者拼接后通过卷积得到关节向量图,再次拼接后再通过卷积得到三维手部姿态热图,最终实现三维手部姿态估计。
先将主干网络的输出特征图F通过两层卷积网络得到包含21个手部关节点的关节预测置信图,即二维热图H。再将特征图F与二维热图H拼接后通过两层卷积得到关节向量图D。关节向量图D中的每一个像素分别编码了各个骨骼关节的方向,表示的是从父关节到子关节的3D向量。接下来,将二维热图H、特征图F与关节向量图D再次拼接,通过另一个两层卷积后得到最终的关节位置图L,分别从X、Y、Z坐标轴表示的图中选择置信度最大的点所对应的值为做坐标轴的数值,从而得到最终的3D手部姿态坐标。
损失函数L如下:
L=LH+LD+LL (5)
其中LH确保回归的二维热图H接近真实标注的热图H’,如式(6)表示。
如式(7)、(8)所示,LD、LL分别测量真实标注的关节向量图D、关节位置图L与预测的关节向量图D、关节位置图L之间的差异。真实标注的关节位置图L'和关节向量图D'是通过将真实关节位置和骨骼方向的坐标平铺到热图的大小来构建的。
Figure BDA0004004840640000071
Figure BDA0004004840640000072
Figure BDA0004004840640000073
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (5)

1.一种基于RGB图像的轻量化三维手部姿态估计方法,其特征在于:包括以下步骤:
步骤一:将多个sandglass残差块串联堆叠,保证卷积所具有的归纳偏置特性,用于局部的特征建模;
步骤二:对特征进行“展开”操作,再以Transformer块结构进行全局的特征建模,再对特征进行“折叠”,并进行特征融合;
步骤三:在用于全局特征建模的Transformer块中引入可分离自注意力机制,降低自注意力的计算复杂度;
步骤四:将特征图通过卷积得到二维手部姿态热图,两者拼接后通过卷积得到关节向量图,再次拼接后再通过卷积得到三维手部姿态热图,最终实现三维手部姿态估计。
2.根据权利要求1所述的一种基于RGB图像的轻量化三维手部姿态估计方法,其特征在于:所述步骤一具体包括:
引入了sandglass残差块结构,其中主分支中的第一个和最后一个卷积层是保留通道数不变的深度可分离卷积层,模拟经典的瓶颈块结构,在两个深度可分离卷积之间使用两个连续的逐点卷积堆叠,来先减少再增加通道数,因为1×1的逐点卷积会导致空间信息的减弱,将两个3×3的卷积置于两个1×1的卷积之外,并适当地将两个深度可分离卷积应用到更高维度的特征上,从而可以对更丰富的空间信息进行编码,以生成更具表现力的空间信息,
假设
Figure FDA0004004840630000011
表示输入特征,
Figure FDA0004004840630000012
表示输出特征,该模块可以采用如下公式表示:
Figure FDA0004004840630000013
Figure FDA0004004840630000014
其中,φi,p,φi,d分别表示第i个逐点卷积与深度卷积,确保深度卷积在高维空间处理并得到更丰富的特征表达。
3.根据权利要求1所述的一种基于RGB图像的轻量化三维手部姿态估计方法,其特征在于:所述步骤二具体包括:
将sandglass块输出作为d维的输入特征
Figure FDA0004004840630000015
应用一个n×n标准卷
积层,再用1×1的点卷积层产生特征XL,让模型具有空间归纳偏置的全局表示,将特征XL展开为N个不重叠的patch,用
Figure FDA0004004840630000021
表示,P=wh,而
Figure FDA0004004840630000022
是patch的数量,h≤n和w≤n分别是patch的高度和宽度,根据式(3),对于每个patch,即p∈{1,···,P},通过Transformer对patch间的关系进行编码从而得到
Figure FDA0004004840630000023
XG(p)=Transformer(XU(p)),1≤p≤P(3)
可以折叠
Figure FDA0004004840630000024
得到
Figure FDA0004004840630000025
使用逐点卷积将XF投影到低维空间,并通过级联操作与特征X组合,使用另一个n×n卷积层来融合这些连接的特征,对特征XU(p)使用卷积对n×n区域的局部信息进行编码,XG(p)对第p个位置的patch的全局信息进行编码,XG中的每个像素都可以编码来自X中所有像素的信息,总的有效感受野为H×W。
4.根据权利要求1所述的一种基于RGB图像的轻量化三维手部姿态估计方法,其特征在于:所述步骤三具体包括:
可分离自注意力的结构与Transformer中使用的多头自注意力类似,将Transformer的输入Xinput分别使用输入I、键K和值V三个分支处理,输入分支I使用具有权重WI的线性层将Xinput中的每个d维token映射为标量,权重WI用来表示潜在token与Xinput间的距离,从而产生一个k维向量,然后使用softmax函数以产生上下文分数
Figure FDA0004004840630000026
与针对所有k个token计算每个token的注意力分数不同,可分离自注意力仅计算关于潜在token的注意力分数,这样可以使得计算注意力分数的时间复杂度从O(k2)下降到O(k);
由式(4),上下文向量Cv通过上下文分数Cs得到,其中
Figure FDA0004004840630000027
由具有权重
Figure FDA0004004840630000028
的键分支K将输入Xinput线性投影到d维空间后得到,
Figure FDA0004004840630000029
Cv中编码的上下文信息与Xinput中的所有token共享,使用权重为WV的值分支V将输入Xinput线性投影到d维空间
Figure FDA00040048406300000210
然后使用ReLU激活函数后产生输出
Figure FDA00040048406300000211
将得到的输出馈送到具有权重
Figure FDA00040048406300000212
的另一个线性层后产生最终输出
Figure FDA0004004840630000031
5.根据权利要求1所述的一种基于RGB图像的轻量化三维手部姿态估计方法,其特征在于:所述步骤四具体包括:
先将主干网络的输出特征图F通过两层卷积网络得到包含21个手部关节点的关节预测置信图,即二维热图H,再将特征图F与二维热图H拼接后通过两层卷积得到关节向量图D,关节向量图D中的每一个像素分别编码了各个骨骼关节的方向,表示的是从父关节到子关节的3D向量,将二维热图H、特征图F与关节向量图D再次拼接,通过另一个两层卷积后得到最终的关节位置图L,分别从X、Y、Z坐标轴表示的图中选择置信度最大的点所对应的值为做坐标轴的数值,得到最终的3D手部姿态坐标:
损失函数L如下:
L=LH+LD+LL(5)
其中LH确保回归的二维热图H接近真实标注的热图H’,如式(6)表示,如式(7)、(8)所示,LD、LL分别测量真实标注的关节向量图D、关节位置图L与预测的关节向量图D、关节位置图L之间的差异,真实标注的关节位置图L'和关节向量图D'是通过将真实关节位置和骨骼方向的坐标平铺到热图的大小来构建的,
Figure FDA0004004840630000032
Figure FDA0004004840630000033
Figure FDA0004004840630000034
CN202211628762.7A 2022-12-17 2022-12-17 一种基于rgb图像的轻量化三维手部姿态估计方法 Pending CN115880724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211628762.7A CN115880724A (zh) 2022-12-17 2022-12-17 一种基于rgb图像的轻量化三维手部姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211628762.7A CN115880724A (zh) 2022-12-17 2022-12-17 一种基于rgb图像的轻量化三维手部姿态估计方法

Publications (1)

Publication Number Publication Date
CN115880724A true CN115880724A (zh) 2023-03-31

Family

ID=85755159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211628762.7A Pending CN115880724A (zh) 2022-12-17 2022-12-17 一种基于rgb图像的轻量化三维手部姿态估计方法

Country Status (1)

Country Link
CN (1) CN115880724A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486489A (zh) * 2023-06-26 2023-07-25 江西农业大学 基于语义感知图卷积的三维手物姿态估计方法及系统
CN116740290A (zh) * 2023-08-15 2023-09-12 江西农业大学 基于可变形注意力的三维交互双手重建方法及系统
CN117612259A (zh) * 2023-12-01 2024-02-27 北京中科睿途科技有限公司 一种手势识别方法和装置
CN117635897A (zh) * 2024-01-26 2024-03-01 腾讯科技(深圳)有限公司 三维对象的姿态补全方法、装置、设备、存储介质及产品
CN117953545A (zh) * 2024-03-27 2024-04-30 江汉大学 基于彩色图像的三维手部姿态估计方法、装置及处理设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486489A (zh) * 2023-06-26 2023-07-25 江西农业大学 基于语义感知图卷积的三维手物姿态估计方法及系统
CN116486489B (zh) * 2023-06-26 2023-08-29 江西农业大学 基于语义感知图卷积的三维手物姿态估计方法及系统
CN116740290A (zh) * 2023-08-15 2023-09-12 江西农业大学 基于可变形注意力的三维交互双手重建方法及系统
CN116740290B (zh) * 2023-08-15 2023-11-07 江西农业大学 基于可变形注意力的三维交互双手重建方法及系统
CN117612259A (zh) * 2023-12-01 2024-02-27 北京中科睿途科技有限公司 一种手势识别方法和装置
CN117635897A (zh) * 2024-01-26 2024-03-01 腾讯科技(深圳)有限公司 三维对象的姿态补全方法、装置、设备、存储介质及产品
CN117635897B (zh) * 2024-01-26 2024-05-07 腾讯科技(深圳)有限公司 三维对象的姿态补全方法、装置、设备、存储介质及产品
CN117953545A (zh) * 2024-03-27 2024-04-30 江汉大学 基于彩色图像的三维手部姿态估计方法、装置及处理设备

Similar Documents

Publication Publication Date Title
CN115880724A (zh) 一种基于rgb图像的轻量化三维手部姿态估计方法
Saito et al. SCANimate: Weakly supervised learning of skinned clothed avatar networks
CN106971414B (zh) 一种基于深度循环神经网络算法的三维动画生成方法
CN110399809A (zh) 多特征融合的人脸关键点检测方法及装置
Xu et al. Monocular 3d pose estimation via pose grammar and data augmentation
CN112232106B (zh) 一种二维到三维人体姿态估计方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
Liu et al. Facial expression recognition using pose-guided face alignment and discriminative features based on deep learning
CN116740290B (zh) 基于可变形注意力的三维交互双手重建方法及系统
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN113239892A (zh) 一种基于数据增强架构的单目人体三维姿态估计方法
CN114581502A (zh) 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
Wang et al. A progressive quadric graph convolutional network for 3D human mesh recovery
CN114036969A (zh) 一种多视角情况下的3d人体动作识别算法
Lifkooee et al. Real-time avatar pose transfer and motion generation using locally encoded laplacian offsets
Zhuang et al. Appearance-based gaze estimation using separable convolution neural networks
CN114863013A (zh) 一种目标物体三维模型重建方法
CN114494543A (zh) 动作生成方法及相关装置、电子设备和存储介质
CN117115855A (zh) 基于多尺度Transformer学习丰富视觉特征的人体姿态估计方法及系统
Chang et al. Multi-view 3D human pose estimation with self-supervised learning
Gong Application and Practice of Artificial Intelligence Technology in Interior Design
CN116091762A (zh) 一种基于rgbd数据和视锥体的三维目标检测方法
CN115908497A (zh) 一种基于人体拓扑感知网络的三维人体姿态估计方法及系统
CN113763536A (zh) 一种基于rgb图像的三维重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination