CN116958405A - 双手重建方法、装置、设备及存储介质 - Google Patents
双手重建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116958405A CN116958405A CN202310232179.2A CN202310232179A CN116958405A CN 116958405 A CN116958405 A CN 116958405A CN 202310232179 A CN202310232179 A CN 202310232179A CN 116958405 A CN116958405 A CN 116958405A
- Authority
- CN
- China
- Prior art keywords
- hand
- center
- feature representation
- graph
- subgraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 143
- 238000003860 storage Methods 0.000 title claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims abstract description 157
- 230000002452 interceptive effect Effects 0.000 claims abstract description 96
- 230000002776 aggregation Effects 0.000 claims abstract description 78
- 238000004220 aggregation Methods 0.000 claims abstract description 78
- 230000001419 dependent effect Effects 0.000 claims abstract description 71
- 210000001145 finger joint Anatomy 0.000 claims abstract description 67
- 238000010586 diagram Methods 0.000 claims abstract description 61
- 230000003993 interaction Effects 0.000 claims description 88
- 238000012549 training Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 27
- 230000000877 morphologic effect Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 210000000988 bone and bone Anatomy 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 28
- 210000004247 hand Anatomy 0.000 description 151
- 210000003811 finger Anatomy 0.000 description 33
- 230000000875 corresponding effect Effects 0.000 description 25
- 238000005516 engineering process Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 230000004931 aggregating effect Effects 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 210000000811 metacarpophalangeal joint Anatomy 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 210000003857 wrist joint Anatomy 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了一种双手重建方法、装置、设备及存储介质,属于人工智能领域。该方法包括:获取双手图像;通过特征编码网络,编码得到双手图像的参数图、手中心图、手指节分割图和交互手先验图;通过特征聚合网络,基于手中心图和参数图,生成双手图像的全局特征表示;基于手指节分割图和参数图,生成双手图像的局部特征表示;基于手中心图和交互手先验图,生成依赖特征表示;基于全局特征表示、局部特征表示和依赖特征表示,生成双手的手部特征表示;根据双手的手部特征表示,对双手进行建模。上述方法支持任意场景下的双手重建。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种双手重建方法、装置、设备及存储介质。
背景技术
双手重建在各种应用中发挥着重要作用,如增强现实和虚拟现实、人机交互、电影和游戏的三维角色动画等。早期处理双手重建的一种简单策略是分别定位每只手,然后将任务简化为单手重建。然而,由于双手处于交互状态时通常会造成相互遮挡,AI(Artificial Intelligence,人工智能)模型难以从相互遮挡的双手中准确预测出独立个体。
相关技术中,进一步提供了基于单目RGB相机进行双手重建的解决方案。在此类解决方案下,往往将双手视为一个整体,通过高度耦合的检测框级别的特征表示对双手同时统一建模,这种耦合的特征表示隐式编码了双手交互状态。
然而,相关技术中基于单目RGB相机进行双手重建的解决方案对于双手不完全交互的情况(如图像中包含被边缘截断的手、互相分离的双手或来自内外部的遮挡)非常脆弱,此时重建出的双手三维模型存在较为明显的瑕疵。
发明内容
本申请提供了一种双手重建方法、装置、设备及存储介质,支持任意场景下的双手重建。所述技术方案如下:
根据本申请的一个方面,提供了一种双手重建方法,所述方法包括:
获取双手图像;
通过特征编码网络,编码得到双手图像的参数图、手中心图、手指节分割图和交互手先验图;参数图至少包括双手的基础手部参数,手中心图用于表征双手的手中心的位置;手指节分割图至少用于表征双手的多个指节的位置,交互手先验图用于推理双手之间的交互关系;
通过特征聚合网络,基于手中心图和参数图,生成双手图像的全局特征表示;基于手指节分割图和参数图,生成双手图像的局部特征表示;基于手中心图和交互手先验图,生成依赖特征表示;
基于全局特征表示、局部特征表示和依赖特征表示,生成双手的手部特征表示;根据双手的手部特征表示,对双手进行建模。
根据本申请的一个方面,提供了一种双手重建装置,所述装置包括:
获取模块,用于获取双手图像;
编码模块,用于通过特征编码网络,编码得到双手图像的参数图、手中心图、手指节分割图和交互手先验图;参数图至少包括双手的基础手部参数,手中心图用于表征双手的手中心的位置;手指节分割图至少用于表征双手的多个指节的位置,交互手先验图用于推理双手之间的交互关系;
聚合模块,用于通过特征聚合网络,基于手中心图和参数图,生成双手图像的全局特征表示;基于手指节分割图和参数图,生成双手图像的局部特征表示;基于手中心图和交互手先验图,生成依赖特征表示;
重建模块,用于基于全局特征表示、局部特征表示和依赖特征表示,生成双手的手部特征表示;根据双手的手部特征表示,对双手进行建模。
在一个实施例中,聚合模块,还用于基于手中心图中的左手中心子图和参数图中的左手参数子图,生成左手全局特征表示;基于手指节分割图中的左手分割子图和左手参数子图,生成左手局部特征表示;基于手中心图中的右手中心子图和交互手先验图中的左手先验子图,生成左手依赖特征表示;基于左手全局特征表示、左手局部特征表示和左手依赖特征表示,生成左手的手部特征表示。
在一个实施例中,聚合模块,还用于基于手中心图中的右手中心子图和参数图中的右手参数子图,生成右手全局特征表示;基于手指节分割图中的右手分割子图和右手参数子图,生成右手局部特征表示;基于手中心图中的左手中心子图和交互手先验图中的右手先验子图,生成右手依赖特征表示;基于右手全局特征表示、右手局部特征表示和右手依赖特征表示,生成右手的手部特征表示。
在一个实施例中,交互手先验图包含左手先验子图和右手先验子图,左手先验子图包含左手的基础手部参数,右手先验子图包含右手的基础手部参数,左手依赖特征表示用于表征根据右手推理得到的左手先验知识,右手依赖特征表示用于表征根据左手推理得到的右手先验知识。
在一个实施例中,聚合模块,还用于将手中心图中的左手中心子图通过归一化指数函数转换为左手中心注意力图;将左手中心注意力图与参数图中的左手参数子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到左手全局特征表示。
在一个实施例中,聚合模块,还用于将手中心图中的右手中心子图通过归一化指数函数转换为右手中心注意力图;将右手中心注意力图与参数图中的右手参数子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到右手全局特征表示。
在一个实施例中,装置还包括更新模块。更新模块用于基于左手中心子图中左手中心的高斯核尺寸、右手中心子图中右手中心的高斯核尺寸、左手中心和右手中心的位置差,以及左手中心和右手中心的欧氏距离,生成调节向量;调节向量表征左手中心对右手中心的排斥作用;将左手中心的位置与调节向量进行加权求和运算,得到更新后的左手中心的位置;将右手中心的位置与调节向量进行加权求差运算,得到更新后的右手中心的位置;基于更新后的左手中心的位置,生成更新后的左手中心子图;以及基于更新后的右手中心的位置,生成更新后的右手中心子图。
在一个实施例中,聚合模块,还用于将手指节分割图中的左手分割子图通过归一化指数函数转换为左手分割注意力图;将左手分割注意力图与左手参数子图进行哈达玛积运算,生成左手局部特征表示。
在一个实施例中,聚合模块,还用于将手指节分割图中的右手分割子图通过归一化指数函数转换为右手分割注意力图;将右手分割注意力图与右手参数子图进行哈达玛积运算,生成右手局部特征表示。
在一个实施例中,聚合模块,还用于将手中心图中的右手中心子图通过归一化指数函数转换为右手中心注意力图;将右手中心注意力图与交互手先验图中的左手先验子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到左手依赖特征表示。
在一个实施例中,聚合模块,还用于将手中心图中的左手中心子图通过归一化指数函数转换为左手中心注意力图;将左手中心注意力图与交互手先验图中的右手先验子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到右手依赖特征表示。
在一个实施例中,聚合模块,还用于计算左手中心图中的左手中心与右手中心图中的右手中心的欧式距离;根据左手中心的高斯核尺寸和右手中心的高斯核尺寸,生成交互阈值;在欧式距离大于交互阈值的情况下,设置交互强度系数为零;在欧式距离不大于交互阈值的情况下,根据交互阈值和欧式距离,生成交互强度系数。
在一个实施例中,聚合模块,还用于将交互强度系数乘以左手依赖特征表示;将乘法计算结果与左手全局特征表示、左手局部特征表示进行拼接;将拼接结果进行全连接,得到左手的手部特征表示。
在一个实施例中,聚合模块,还用于将交互强度系数乘以右手依赖特征表示;将乘法计算结果与右手全局特征表示、右手局部特征表示进行拼接;将拼接结果进行全连接得到右手的手部特征表示。
在一个实施例中,左手参数子图包括左手的姿态参数、左手的形态参数和左手对应的弱透视相机参数;右手参数子图包括右手的姿态参数、右手的形态参数和右手对应的弱透视相机参数。
在一个实施例中,手指节分割图为概率分割体,概率分割体包括与左手分割图对应的左手概率分割体、与右手分割图对应的右手概率分割体和背景维度;左手概率分割体上的一个体素表征左手对应的多个指节类别的一个概率逻辑通道;右手概率分割体上的一个体素表征右手对应的多个指节类别的一个概率逻辑通道;背景维度上的像素表征处于背景区域的概率。
在一个实施例中,左手先验子图包括左手的姿态参数、左手的形态参数和左手对应的弱透视相机参数;右手先验子图包括右手的姿态参数、右手的形态参数和右手对应的弱透视相机参数。
在一个实施例中,重建模块,还用于将双手的手部特征表示输入参数化模型,回归得到重建后的双手三维模型。
在一个实施例中,装置还包括训练模块。训练模块,还用于根据手中心子图的损失、手指节分割图的损失和双手三维模型的损失,训练特征编码网络、特征聚合网络和参数化模型。
在一个实施例中,训练模块,还用于将左手中心子图和标签左手中心子图之间的损失与右手中心子图和标签右手中心子图之间的损失进行求和,得到第一子损失;计算手指节分割图与标签手指节分割图之间的损失,得到第二子损失;将双手三维模型中姿态参数的损失、形态参数的损失与关节损失进行加权求和,得到第三子损失;关节损失包括三维关节的位置损失、二维关节的位置损失和骨骼长度损失;将第一子损失、第二子损失和第三子损失进行加权求和,得到目标损失;根据目标损失训练特征编码网络、特征聚合网络和参数化模型。
根据本申请的一个方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上所述的双手重建方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上所述的双手重建方法。
根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述双手重建方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过特征编码网络编码得到参数图、手中心图、手指节分割图和交互手先验图,再通过特征聚合网络聚合得到全局特征表示、局部特征表示和依赖特征表示,再根据上述三个特征表示得到双手的手部特征表示,即可根据手部特征表示进行双手重建。上述重建过程中,手中心图显式减少了双手之间的依赖关系,手指节分割图显式减少了手内部多个指节之间的依赖关系,减少依赖关系有助于释放输入约束,但是也降低了交互状态下双手之间的相互作用。因此,本申请还设计了交互手先验图,交互手先验图用于在交互状态下推理得到双手之间的交互关系。基于手中心图、手指节分割图和交互手先验图的设计,使得本申请提供的双手重建流程可以支持任意场景下的双手图像。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是使用相关技术和本申请提供的双手重建方法的效果对比的示意图;
图2是本申请一个示例性实施例提供的原理示意图;
图3是本申请一个示例性实施例提供的双手重建方法的流程图;
图4是本申请一个示例性实施例提供的是否使用交互手先验图的效果对比的示意图;
图5是本申请一个示例性实施例提供的特征聚合的示意图;
图6是本申请一个示例性实施例提供的双手重建方法的示意图;
图7是本申请一个示例性实施例提供的聚合左手全局特征表示的方法的流程图;
图8是本申请一个示例性实施例提供的聚合右手全局特征表示的方法流程图;
图9是本申请一个示例性实施例提供的聚合左手局部特征表示的方法的流程图;
图10是本申请一个示例性实施例提供的聚合右手局部特征表示的方法的流程图;
图11是本申请一个示例性实施例提供的聚合左手依赖特征表示的方法的流程图;
图12是本申请一个示例性实施例提供的聚合右手依赖特征表示的方法的流程图;
图13是本申请一个示例性实施例提供的生成交互强度系数的方法的流程图;
图14是本申请一个示例性实施例提供的更新手中心的方法的流程图;
图15是本申请一个示例性实施例提供的训练方法的流程图;
图16是使用相关技术和本申请提供的双手重建方法的效果对比的示意图;
图17是使用相关技术和本申请提供的双手重建方法的效果对比的示意图;
图18是本申请一个示例性实施例提供的双手重建装置的结构框图;
图19是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
手部姿态估计和形态重建(Hand Pose Estimation and Shape Recovery):基于计算机视觉的手部姿态估计和形态重建是实现人机交互的重要环节,意在准确恢复三维手部姿态的同时,重建真实、合理的三维手部模型。
端到端学习(End-to-End Learning):指神经网络的输入是原始数据,而输出就是最后的结果,无需额外的中间结果或预处理,后处理过程。
注意力机制(Attention):学习需要关注特定区域信息进行信息聚合提纯,与深度学习模型进行联合训练来提升特征表示的高效性,此技术广泛应用于自然语言处理(Natural Language Processing,NLP)、计算机视觉(Computer Vision,CV)等领域。
对本申请的相关技术介绍如下:
基于单目RGB相机的双手三维姿态估计和形状重建在各种新兴应用中发挥着重要作用,如增强现实(Augmented Reality,AR)和虚拟现实(Virtual Reality,VR)、人机交互、电影和游戏的三维角色动画等。然而,由于标记数据有限、遮挡、深度模糊等,这项任务极具挑战性。其中,由于双手在交互过程中非常容易产生相互遮挡和歧义问题,交互双手重建的复杂度和难度通常远超单手重建。
早期处理双手重建的一种简单策略是分别定位每只手,然后将任务简化为单手重建。这一策略通常在全身动作捕捉和重建框架中被广泛采用。然而,这种独立重建两只手的策略在处理双手交互的情况时非常容易失败,因为距离相近的双手通常会造成相互遮挡,而模型通常仅把双手各自视为独立的个体进行重建,所以容易以此混淆模型预测,造成不可避免的歧义问题。
为了更好的处理双手交互的情况,一些早期工作通过模型拟合,多目相机或者深度相机来解决交互手预测的问题。除此之外,还提出了一种方案,该方案提出了一种基于双目RGBD相机的手部捕捉系统,并提出了手部几何的隐式模型,以便于模型优化。还提出了另一种方案,该方案通过单个深度相机进一步简化了系统,通过预测手部的分割图以及体素-像素对来帮助手部姿态和形态预测。还提出了另一种方案,该方案采用多目RGB相机系统来计算手部关键点和3D扫描以进行网格拟合。为了处理交互和遮挡,引入了一种基于物理的可变形模型,该模型提高了基于视觉的重建算法的鲁棒性。
近期的研究工作重心转移到了直接基于单目RGB相机重建交互的双手。一种方案下,通过直接学习一个基于检测框级别的耦合的特征表示来进行双手的建模。另一种方案下,提出了一种基于多任务学习的深度卷积神经网络,该网络从RGB图像中预测多源互补信息,以重建两只交互的手。另一种方案下,提出了一个两阶段框架,该框架首先获得初始预测,然后执行因子化细化程序以防止产生双手穿模碰撞。另一种方案下,从较深的特征预测初始姿态和形状,并逐渐细化与较低层特征的回归。另一种方案下,提出了一个基于图卷积网络的回归网络,该网络利用金字塔特征并学习内隐注意力来解决遮挡和交互问题。然而,所有现存的交互双手重建方法都主要将双手视为一个整体,并隐式学习耦合表示来编码双手交互,这种高度耦合的特征表示将对于不完全的交互情况非常脆弱,例如被边缘截断的手、互相分离的双手或来自内外部的遮挡,此时重建后的双手三维模型存在较为明显的瑕疵。
结合参考图1,图1示出了输入三张双手图像,三张双手图像按顺序分别对应被边缘截断的手、互相分离的双手、双手相互遮挡的情况。图1示出了采用IntagHand(一种相关技术中执行双手重建的方法)重建后的双手三维模型,从图1中可以看出IntagHand对于被边缘截断的双手图像,将生成错误的双手三维模型;对于互相分离的双手图像,生成的双手三维模型的轮廓与正确轮廓贴合度较差;对于双手互相遮挡的双手图像,将在左手和右手的三维模型之间生成不存在的手指;也即,IntagHand对于被边缘截断的手、互相分离的双手、双手相互遮挡的情况均存在明显瑕疵。图1还示出了采用本申请的方法重建后的双手三维模型,对比IntagHand可以发现,本申请明显改善了三种情况下重建后的双手三维模型的瑕疵。图1还示出了采用本申请的方法进行现场演示和自然场景演示的效果图。
图2示出了本申请一个示例性实施例提供的计算机系统。该计算机系统包括AI模型的训练设备201和AI模型的使用设备202。AI模型是用于执行双手重建任务的神经网络模型,在本申请中AI模型至少包括特征编码网络21和特征聚合网络22。AI模型的训练设备201和AI模型的使用设备202之间通过有线或无线方式连接,训练设备201将训练得到的AI模型发送至使用设备202,使用设备202通过AI模型执行双手重建。
结合参考图2,图2示出了使用设备202通过AI模型执行双手重建的流程。
获取双手图像之后,特征编码网络21将生成双手的手中心图203、交互手先验图204、参数图205和手指节分割图206。手中心图203上的每个像素用于表征手中心位于该像素位置的可能性,手中心图203用于解耦双手之间的依赖关系;交互手先验图204用于执行双手之间的相互推理;参数图205至少包含双手的基础手部参数,如手部的姿态参数和形态参数;手指节分割图206上的每个像素用于表征多个指节位于该像素位置的可能性,可选的,手指节分割图为概率分割体,每个体素对应多个指节位于该体素位置的可能性,即手指节分割图206用于解耦手内部多个指节之间的依赖关系。
生成上述四张图之后,特征聚合网络22将根据手中心图203和参数图205,生成全局特征表示207;根据手指节分割图206和参数图205,生成局部特征表示208;根据手中心图203和交互手先验图204,生成依赖特征表示209。可以理解的是,手中心图203将作为注意力图,关注参数图205中手中心指示的参数区域,对参数图205进行数据提纯,得到全局特征表示207;手指节分割图206将作为注意力图,关注参数图205中多个指节指示的参数区域,对参数图205进行数据提纯,得到局部特征表示208。手中心图203还作为注意力图,关注交互手先验图204中手中心指示的参数区域,得到依赖特征表示209,例如采用左手的手中心图,关注交互手先验图204中右手指示的参数区域,得到右手依赖特征表示;反之同理。即,交互手先验图204用于执行双手之间的相互推理。
图2所示的双手重建流程中,还将根据全局特征表示207、局部特征表示208和依赖特征表示209,得到双手的手部特征表示210;根据手部特征表示210重建得到双手重建模型。可选的,将手部特征表示210输入参数化模型(如MANO模型)得到双手重建模型。
可选的,上述训练设备201和使用设备202可以是同一个计算机设备,或者,训练设备201和使用设备202也可以是不同的计算机设备,比如训练设备201为服务器,使用设备202为终端。训练设备201和使用设备202可以是同一类型的设备,比如训练设备201和使用设备202可以都是服务器或都是终端。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
图3示出了本申请一个示例性实施例提供的双手重建方法的流程图,以该方法由图2所示的使用设备202执行进行举例说明,该方法包括:
步骤310,获取双手图像;
双手图像,指用于执行本申请提供的双手重建方法的输入图像。可选的,本申请采用的双手图像为基于单目RGB相机拍摄得到的手部图像。在本申请中,双手图像是指至少包含两只手的图像,下文中将针对仅包含两只手的重建场景进行介绍,本领域技术人员可以根据下文提供的针对双手的重建方案类似拓展至大于两只手的重建场景,比如,三只手处于彼此分离的状态、三只手处于交互状态等。可选的,双手图像中包含的双手可以是来自同一对象的双手,也可以是来自不同对象的双手。
在本申请中,双手图像中的双手可以处于任意状态,比如,处于交互状态的双手(如双手十指相扣)、处于分离状态的双手、被边缘截断的双手(手被图像边缘截断)、被内外部遮挡的双手(如双手相互遮挡或手被其他物体遮挡)。
交互状态,指双手相互接触的状态,例如双手呈握手状态、抱拳状态、击掌状态、十指相扣状态等。分离状态,指双手未发生接触的状态,左右手之间未发生皮肤表面接触。
步骤320,通过特征编码网络,编码得到双手图像的参数图、手中心图、手指节分割图和交互手先验图;
参数图,至少包括双手的基础手部参数。参数图在本申请中将作为包含双手的基础特征表示的图。可选的,参数图可被分为左手参数子图和右手参数子图两部分。可选的,参数图MP∈R218×H×W,前109个参数维度为左手参数子图、后109个参数维度为右手参数子图,H和W表示特征矩阵的高和宽。每109个参数维度用于描述一只手的状态,如握紧拳头的手。可选的,基础手部参数包括姿态参数和形态参数。可选的,每109个参数维度中还包括弱透视相机参数(s,tx,ty),其中,s表示每只手的二维投影在图像上的缩放尺寸,(tx,ty)分别表示每只手的二维投影在像素坐标系X方向(横轴方向)以及Y方向(纵轴方向)上的位移。
手中心图,用于表征双手的手中心的位置。可选的,手中心图AC∈R2×H×W,H和W表示特征矩阵的高和宽。可选的,手中心图可被分为左手中心子图和右手中心子图。每只手的中心图可被表示为AC∈R1×H×W。对于左手中心子图或右手中心子图,在训练过程中将被学习为二维高斯热图,二维高斯热图上的每个像素表示手中心位于该二维像素位置的可能性。可选的,手中心为根据预设规则确定的中心,比如规定手中心为所有可见的MCP关节(掌指关节)的中心。可以理解的是,手中心图对双手之间的特征进行显式解耦,降低了双手之间的依赖性。
手指节分割图,至少用于表征双手的多个指节的位置。示意性的,手指节分割图AP∈R33×H×W,H和W表示特征矩阵的高和宽。手指节分割图被学习为分割概率体,分割概率体上的每个体素是33个类别上的概率逻辑通道。可选的,手指节分割图可被分为与左手分割子图对应的左手概率分割体、与右手分割子图对应的右手概率分割体,以及背景维度。左手概率分割体上的一个体素表征左手对应的多个指节类别(如16个指节类别)的一个概率逻辑通道;右手概率分割体上的一个体素表征右手对应的多个指节类别(如16个指节类别)的一个概率逻辑通道;背景维度(如一个背景维度)上的像素表征处于背景区域的概率。示意性的,左手分割概率体表示为R16×H×W,则分割概率体的每个体素表示16个指节在该体素位置的概率。可选的,16个指节对应下文中参数化模型(可选的,为MANO模型)支持输入的16个关节。可选的,在数据制作过程中,通过可微神经渲染器渲染真实的MANO手部网格来获得手指节分割图的掩模。示意性的,16个关节包括一个手腕关节和五根手指的每根手指上的三个手指间关节。
交互手先验图,用于推理双手之间的交互关系。可选的,当双手之间的距离较近时,双手之间的交互关系较强;当双手之间的距离较远时,双手之间的交互关系较弱。可选的,交互手先验图与参数图包含的数据一致,即交互手先验图至少包括双手的基础手部参数。可选的,交互手先验图可被分为左手先验子图和右手先验子图。交互手先验图用于执行交互手的特征查询,交互手先验图在双手交互场景下提供了强大的相互推理能力。可选的,交互手先验图MC∈R218×H×W,前109维度代表左手先验子图,后109维度代表右手先验子图。其中单手的先验子图进一步包含两部分:姿态参数θ∈R16*3和形态参数β∈R10,以及弱透视相机参数(s,tx,ty)。
步骤330,通过特征聚合网络,基于手中心图和参数图,生成双手图像的全局特征表示;
可以理解的是,特征聚合网络将手中心图作为注意力图(或称为注意力掩模),关注参数图中手中心指示的参数区域,对参数图进行数据提纯,得到双手图像的全局特征表示。全局特征表示,用于表征解除依赖之后的双手的特征。因此,全局特征表示将关注双手图像的全局特征。此时得到的全局特征表示解耦了双手之间的依赖关系,但仅拥有全局特征表示会造成遮挡的不稳定性且不具有恢复手部细节的能力。
步骤340,通过特征聚合网络,基于手指节分割图和参数图,生成双手图像的局部特征表示;
为解决仅拥有全局特征表示仍存在的问题,特征聚合网络还将手指节分割图作为另一注意力图(或称为注意力掩模),关注参数图中多个手指节指示的参数区域,对参数图进行数据提纯,得到手部的局部特征表示。局部特征表示,用于表征解除依赖之后的手内部多个指节的特征。因此,局部特征表示将关注双手图像的手部细节。此时得到的局部特征表征进一步解耦了手内部多个指节之间的依赖关系。
步骤350,通过特征聚合网络,基于手中心图和交互手先验图,生成依赖特征表示;
在上述步骤中,尽管解耦了双手之间的依赖关系和手内部多个指节之间的依赖关系,但是,当两只手处于紧密交互的场景下,两只手的状态是密切高度相关的。简单地将解耦后的双手和手内部的多个指节作为最终的特征表示,将降低重建后的交互场景下双手之间的相互推理关系。
因此,本申请还再次使用手中心图作为注意力图,通过交互手先验图查询出依赖特征表示,作为相互推理后的特征表示。举例来说,使用左手中心图作为注意力图,通过右手先验子图查询出右手依赖特征表示,作为根据左手推理出的右手先验知识。或者,使用右手中心图作为注意力图,通过左手先验子图查询出左手依赖特征表示,作为根据右手推理出的左手先验知识。依赖特征表示,用于表征双手相互推理之后得到的特征。因此,依赖特征表示将关注双手图像的双手之间的交互关系。
图4示出了使用本申请提供的完整方法重建后的双手三维模型,以及相比于完整方法仅缺失交互手先验图的方法进行重建得到的双手三维模型。可以看到,对于双手处于交互状态的双手图像,完整方法能准确恢复出双手的独立个体,而对于缺失交互手先验图的方法,第一张图的左手大拇指显示在右手前方,第二张图交错的手指发生了穿模现象。因此,可以确定交互手先验图明确地帮助推断和恢复了密切交互的双手之间的相关性。
步骤360,基于全局特征表示、局部特征表示和依赖特征表示,生成双手的手部特征表示;
将双手的全局特征表示、局部特征表示和依赖特征表示进行拼接,得到双手的手部特征表示。该手部特征表示可在任意双手场景下用于双手建模。
步骤370,根据双手的手部特征表示,对双手进行建模。
在一个实施例中,将手部特征表示输入参数化模型(如MANO模型),参数化模型将恢复得到双手的三维模型和关节点位置。参数化模型,用于根据输入的手部参数,回归得到双手三维模型。可选的,参数化模型具有可微分性质,因此支持梯度反向传播以实现模型训练。
综上所述,通过特征编码网络编码得到参数图、手中心图、手指节分割图和交互手先验图,再通过特征聚合网络聚合得到全局特征表示、局部特征表示和依赖特征表示,再根据上述三个特征表示得到双手的手部特征表示,即可根据手部特征表示进行双手重建。上述重建过程中,手中心图显式减少了双手之间的依赖关系,手指节分割图显式减少了手内部多个指节之间的依赖关系,减少依赖关系有助于释放输入约束,但是也降低了交互状态下双手之间的相互作用。因此,本申请还设计了交互手先验图,交互手先验图用于在交互状态下推理得到双手之间的交互关系。基于手中心图、手指节分割图和交互手先验图的设计,使得本申请提供的双手重建流程可以支持任意场景下的双手图像。
基于图3所示的可选实施例,特征编码网络生成的手中心图包括左手中心图和右手中心图;手指节分割图包括左手分割子图和右手分割子图;参数图包括左手参数子图和右手参数子图;交互手先验图包括左手先验子图和右手先验子图。步骤330、步骤340、步骤350和步骤360可被替换为如下内容:
结合参考图5,图5示出了通过特征聚合网络聚合得到左手的手部特征表示和右手的手部特征表示。基于手中心图中的左手中心子图和参数图中的左手参数子图,通过特征聚合生成左手全局特征表示;基于手指节分割图中的左手分割子图和左手参数子图,通过特征聚合生成左手局部特征表示;基于手中心图中的右手中心子图和交互手先验图中的左手先验子图,通过特征聚合生成左手依赖特征表示;基于左手全局特征表示、左手局部特征表示和左手依赖特征表示,通过特征拼接生成左手的手部特征表示;
结合参考图5,基于手中心图中的右手中心子图和参数图中的右手参数子图,通过特征聚合生成右手全局特征表示;基于手指节分割图中的右手分割子图和右手参数子图,通过特征聚合生成右手局部特征表示;基于手中心图中的左手中心子图和交互手先验图中的右手先验子图,通过特征聚合生成右手依赖特征表示;基于右手全局特征表示、右手局部特征表示和右手依赖特征表示,通过特征拼接生成右手的手部特征表示。
图6示出了本申请一个示例性实施例提供的双手重建方法的示意图。
获取双手图像,双手图像中的双手处于任意场景(即可处于交互状态、分离状态、被边缘截断状态、被遮挡状态中的任意一种场景,图6中处于交互状态)。
将双手图像输入主干网络61,主干网络61用于进行初步特征提取,得到初始特征F∈RCxHxW,C为特征维度、H和W表征双手图像中像素的二维坐标。通过特征编码网络62(具体为四次卷积操作),分别从初始特征中提取得到手中心图、交互手先验图、参数图和手指节分割图。手中心图包括左手中心子图和右手中心子图、交互手先验图包括左手先验子图和右手先验子图(图6未示出)、参数图包括左手参数子图和右手参数子图(图6未示出)、手指节分割图包括左手分割子图和右手分割子图。可以注意到的是,手指节分割图为概率逻辑体,包含多个指节类别,手指节分割图用于指示多个指节的位置;而手中心图仅包含一个手中心类别,手中心图用于指示手中心的位置。
在特征聚合网络63中,将左手中心子图与左手参数子图进行像素级别乘法之后,进行通道级别求和,得到左手全局特征表示;将右手中心子图与右手参数子图进行像素级别乘法之后,进行通道级别求和,得到右手全局特征表示;将左手分割子图与左手参数子图进行像素级别乘法之后,进行多通道级别求和,得到左手局部特征表示;将右手分割子图与右手参数子图进行像素级别乘法之后,进行多通道级别求和,得到右手局部特征表示;将右手中心子图与左手先验子图进行像素级别乘法之后,进行通道级别求和,得到左手依赖特征表示;将左手中心子图与右手先验子图进行像素级别乘法之后,进行通道级别求和,得到右手依赖特征表示(特征聚合阶段);
将左手全局特征表示、左手局部特征表示和左手依赖特征表示通过多层感知机,得到左手的手部特征表示。左手手部特征表示包含左手姿态参数、左手形态参数和左手弱透视相机参数(特征拼接阶段)。
将右手依赖特征表示、右手全局特征表示和右手局部特征表示通过多层感知机,得到右手手部特征表示。右手手部特征表示包含右手姿态参数、右手形态参数和右手弱透视相机参数。
将左手姿态参数、左手形态参数、左手弱透视相机参数、右手姿态参数、右手形态参数和右手弱透视相机参数输入MANO模型64,进行建模(重建阶段)。
下面将详细介绍特征聚合阶段、特征拼接阶段和重建阶段的过程。
特征聚合阶段包括聚合全局特征表示阶段、聚合局部特征表示阶段和聚合依赖特征表示阶段。
聚合全局特征表示阶段:基于图3所示的可选实施例,步骤330中生成左手的全局特征表示可被替换为图7中的方法步骤。图7示出了本申请一个示例性实施例提供的左手的全局特征表示的聚合方法的流程图。该方法包括:
步骤710,将左手中心子图通过归一化指数函数转换为左手中心注意力图;
步骤720,将左手中心注意力图与左手参数子图进行像素级别的点乘操作;
步骤730,将点乘操作的计算结果进行全连接得到左手全局特征表示。
基于图3所示的可选实施例,步骤330中生成右手的全局特征表示可被替换为图8中的方法步骤。图8示出了本申请一个示例性实施例提供的右手的全局特征表示的聚合方法的流程图。该方法包括:
步骤810,将右手中心子图通过归一化指数函数转换为右手中心注意力图;
步骤820,将右手中心注意力图与右手参数子图进行像素级别的点乘操作;
步骤830,将点乘操作的计算结果进行全连接得到右手全局特征表示。
对于上述图7所示的左手的全局特征聚合方法或图8所示的右手的全局特征聚合方法,可表示为:
其中,h∈{L,R}分别代表左右手,为手中心图、/>为参数图,/>为全局特征表示,σ为空间softmax函数,f()为全连接操作,/>为像素级别的乘法。
因此,通过上述方法可得到全局特征表示FG。
聚合局部特征表示阶段:基于图3所示的可选实施例,步骤340中生成左手的局部特征表示可被替换为图9中的方法步骤。图9示出了本申请一个示例性实施例提供的左手的全局特征表示的聚合方法的流程图。该方法包括:
步骤910,将手指节分割图中的左手分割子图通过归一化指数函数转换为左手分割注意力图;可选的,此处的左手分割子图中,除了16个手指类别维度,还包括左手对应的背景维度。
步骤920,将左手分割注意力图与左手参数子图进行哈达玛积运算,生成左手局部特征表示。
基于图3所示的可选实施例,步骤340中生成右手的局部特征表示可被替换为图10中的方法步骤。图10示出了本申请一个示例性实施例提供的右手的全局特征表示的聚合方法的流程图。该方法包括:
步骤1010,将手指节分割图中的右手分割子图通过归一化指数函数转换为右手分割注意力图;可选的,此处右手分割子图中,除了16个手指类别维度,还包括右手对应的背景维度。
步骤1020,将右手分割注意力图与右手参数子图进行哈达玛积运算,生成右手局部特征表示。
具体而言,针对左手局部特征表示或右手局部特征表示,遵循相同公式如下:
其中,为手指节分割图,/>为参数图,/>为局部特征表示,(h,w)表示双手图像的像素二维坐标。⊙表示哈达玛积运算,σ为空间softmax函数。/>是最后的局部特征表示。
通过张量重塑的方式实现哈达玛积操作,重塑后的局部特征表示FP为:
其中, 为参数图,/>为没有背景维度的手指节分割图,T表示矩阵的转置操作。R表示实数域。
因此,通过上述方法可得到局部特征表示FP。
聚合依赖特征表示阶段:基于图3所示的可选实施例,步骤350中生成左手的依赖特征表示可被替换为图11中的方法步骤。图11示出了本申请一个示例性实施例提供的左手依赖特征表示的聚合方法的流程图。该方法包括:
步骤1110,将右手中心子图通过归一化指数函数转换为右手中心注意力图;
步骤1120,将右手中心注意力图与左手先验子图进行像素级别的点乘操作;
步骤1130,将点乘操作的计算结果进行全连接得到左手依赖特征表示。
基于图3所示的可选实施例,步骤350中生成右手的依赖特征表示可被替换为图12中的方法步骤。图12示出了本申请一个示例性实施例提供的右手依赖特征表示的聚合方法的流程图。该方法包括:
步骤1210,将左中心子图通过归一化指数函数转换为左手中心注意力图;
步骤1220,将左手中心注意力图与右手先验子图进行像素级别的点乘操作;
步骤1230,将点乘操作的计算结果进行全连接得到右手依赖特征表示。
上述图11和图12的步骤可表示为:
其中,表示右手中心子图,/>表示左手先验子图,/>表示根据右手推理出的左手先验知识(左手依赖特征表示);/>表示左手中心子图,/>表示右手先验子图,表示根据左手推理出的右手先验知识(右手依赖特征表示)。σ、/>和fc分别是空间softmax函数、逐像素乘法和全连接操作。因此,此阶段将聚合出依赖特征表示FC。
上述已经聚合得到双手的依赖特征表示,然而,双手可能处于交互状态也可能处于分离状态,交互状态也包括紧密的交互和松散的交互。当双手互相远离,退出交互时,彼此之间的依赖程度应当减弱。对此,本申请还设计了交互强度系数,用于调节依赖特征表示的应用权重。
交互强度系数计算:图13示出了本申请一个示例性实施例提供的生成交互强度系数的方法的流程图。该方法包括:
步骤1310,计算左手中心图中的左手中心与右手中心图中的右手中心的欧式距离;
步骤1320,根据左手中心的高斯核尺寸和右手中心的高斯核尺寸,生成交互阈值;
步骤1330,在欧式距离大于交互阈值的情况下,设置交互强度系数为零;
步骤1340,在欧式距离不大于交互阈值的情况下,根据交互阈值和欧式距离,生成交互强度系数。
上述步骤可表示为:
其中,CL为左手中心图的左手中心,CR为右手中心图的右手中心,d为左手中心与右手中心的欧式距离,IF(Interaction Field)为双手交互场(即交互阈值),IF=γ(kL+kR+1),kL为左手中心的高斯核尺寸、kR为右手中心的高斯核尺寸,γ为可调节幅度,λ为交互强度系数。
特征拼接阶段:在一个实施例中,将交互强度系数(上文中的λ)乘以左手依赖特征表示将乘法计算结果与左手全局特征表示/>左手局部特征表示/>进行拼接;将拼接结果进行全连接,得到左手的手部特征表示。将交互强度系数乘以右手依赖特征表示/>将乘法计算结果与右手全局特征表示/>右手局部特征表示/>进行拼接;将拼接结果进行全连接得到右手的手部特征表示;
上述步骤可表示为:
其中,h∈{L,R}分别代表左右手,concat()表示拼接操作,f()表示全连接操作,表示手部特征表示。
重建阶段:将手部特征表示输入MANO模型64(一种支持可微的参数化模型),回归得到重建后的双手重建模型。将左手姿态参数、左手形态参数、左手弱透视相机参数、右手姿态参数、右手形态参数和右手弱透视相机参数输入MANO模型64,进行建模。MANO模型64包含姿态参数θ∈R16*3,以及形态参数β∈R10,此外,本实施例还进一步利用了6D的表示形式来更好的表示姿态参数,姿态参数表示为θ∈R16*6。最后,双手重建模型将被蒙皮函数W回归为M=W(θ,β)∈R778*3。可选的,还将根据双手三维模型产出得到三维关节点的位置J3D=L·M∈R21*3,其中L为预训练的线性回归器。可选的,通过弱透视投影相机模型(s,tx,ty)得到二维关节点的位置并进行模型渲染。
综上所述,上述实施例进一步示出了双手重建的详细方法,可以注意到的是,上文介绍中还引入了交互强度系数,交互强度系数用于根据双手之间的距离来确定双手的交互紧密程度,当双手距离较近(紧密程度较高)时交互强度系数数值较大,以此调节后的依赖特征表示在手部特征表示的所占权重较大;当双手距离较远(紧密程度较低或为零)时交互强度系数数值较小或为零,在手部特征表示中降低或解除依赖特征表示的权重。交互强度系数帮助交互手先验图制定一个自适应的交互场,进而可以更好地建模两只手的相关性,同时对密切交互和分离保持敏感,以避免不必要的特征纠缠。
基于图3所示的方法实施例中,为了生成质量更高的手中心图来引导获取更彻底的特征解耦,避免双手过近时导致的特征歧义,下面实施例还采用了基于碰撞感知表示的手中心,并对手中心图进行更新。图14示出了本申请一个示例性实施例提供的更新手中心图的方法的流程图(图14对应的方法流程位于图3所示的步骤320之后,步骤330之前)。
步骤1410,基于左手中心子图中左手中心的高斯核尺寸、右手中心子图中右手中心的高斯核尺寸、左手中心和右手中心的位置差,以及左手中心和右手中心的欧氏距离,生成调节向量;其中,调节向量表征左手中心对右手中心的排斥作用;
步骤1420,将左手中心的位置与调节向量进行加权求和运算,得到更新后的左手中心的位置;
步骤1430,将右手中心的位置与调节向量进行加权求差运算,得到更新后的右手中心的位置;
步骤1440,基于更新后的左手中心的位置,生成更新后的左手中心子图;
步骤1450,基于更新后的右手中心的位置,生成更新后的右手中心子图。
上述步骤可表示为:
CL ′=CL+αR,CR ′=CR+αR;
其中,CL表示左手中心子图的左手中心,CR表示右手中心子图的右手中心;CL ′表示更新后的左手中心,CR ′表示更新后的右手中心;kL表示左手中心的高斯核尺寸,kR表示右手中心的高斯核尺寸;d为左手中心和右手中心之间的欧氏距离,α为可控的强度系数。可以理解的是,当两只手中心之间的欧式距离小于(kL+kR+1)时,将产生左手中心对右手中心的排斥作用。
综上所述,由于强大的像素级表示,原先得到的手中心图能够解除双手之间的依赖关系,并为两只手构建一个明确分离的特征表示。然而,当两只手的中心过于接近时,这些特征表示也可能高斯模糊。本实施例采用碰撞感知进一步更新了手中心图的手中心,以更彻底地解除依赖关系。
上文已经介绍的双手重建方法(AI模型的使用过程),对应的是图2中AI模型的使用设备202执行的内容。接下来将介绍AI模型的训练过程,对应的是图2中AI模型的训练设备201执行的内容。具体的,AI模型至少包括特征编码网络、特征聚合网络和参数化模型(MANO模型)。
图15示出了本申请一个示例性实施例提供的特征编码网络、特征聚合网络和参数化模型的训练方法,该方法包括:
步骤1510,获取双手图像,双手图像中的双手处于交互状态或分离状态;
双手图像,指用于执行本申请提供的特征编码网络、特征聚合网络和参数化模型的训练方法。可选的,本申请采用的双手图像为基于单目RGB相机拍摄得到的手部图像。
步骤1520,通过特征编码网络,编码得到双手图像的参数图、手中心图、手指节分割图和交互手先验图;
具体请参考上述步骤320。
步骤1530,通过特征聚合网络,基于手中心图和参数图,生成双手图像的全局特征表示;
具体请参考上述步骤330。
步骤1540,通过特征聚合网络,基于手指节分割图和参数图,生成双手图像的局部特征表示;
具体请参考上述步骤340。
步骤1550,通过特征聚合网络,基于手中心图和交互手先验图,生成依赖特征表示;
具体请参考上述步骤350。
步骤1560,基于全局特征表示、局部特征表示和依赖特征表示,生成双手的手部特征表示;
具体请参考上述步骤360。
步骤1570,将双手的手部特征表示输入参数化模型,回归得到重建后的双手三维模型;
具体请参考上述步骤370。
步骤1580,根据手中心图的损失、手指节分割图的损失和双手三维模型的损失,训练特征编码网络、特征聚合网络和参数化模型。
在一个实施例中,用于训练AI模型的损失包含三部分:第一子损失(手中心图的损失、第二子损失(手指节分割图的损失)和第三子损失(重建后的双手三维模型的损失)。
可选的,对于图6所示的重建方法,AI模型还包括主干网络61。
针对手中心图的损失(LC):将左手中心子图和标签左手中心子图之间的损失与右手中心子图和标签右手中心子图之间的损失进行求和,得到第一子损失。对于左手中心子图或右手中心子图,均由如下公式计算损失:
LC=∑h={L,R}(AC,A′C);
其中,AC表示左手中心子图,A′C表示标签左手中心子图;或,AC表示右手中心子图,A′C表示标签右手中心子图。
针对手指节分割图的损失(LP):计算手指节分割图与标签手指节分割图之间的损失,得到第二子损失,如下公式计算所示:
其中,CrossEntropy为交叉熵损失函数,表示手指节分割图在(h,w)位置的概率分割体,/>表示标签手指节分割图,此处的σ为基于通道维度的归一化指数函数。(h,w)为像素的二维坐标。此处的手分割图不需忽略背景维度。可选的,在训练时,只在前两轮使用手指节分割图的损失进行训练,而在之后的轮次使用其他损失进行训练直至收敛。
针对双手三维模型的损失(Lmesh):将双手三维模型中姿态参数的损失、形态参数的损失与关节损失进行加权求和,得到第三子损失;关节损失包括三维关节的位置损失、二维关节的位置损失和骨骼长度损失;如下公式计算所示:
Lmesh=LMANO+Ljoint;
其中,LMANO表示根据MANO参数θ(姿态参数)和β(形态参数)的二范数损失函数的加权和。wθ和wβ为权重,可选的,wθ=80,wβ=10。Ljoint是三维关节点的位置、投影之后的二维关节点的位置、以及骨骼长度的损失的加权和。
L3D=wj3dLMPJPE+wpa-j3dLPA-MPJPE;
其中,LMPJPE为重建后的掌指关节的位置的二范数损失函数(根据真实三维关节点位置计算),LPA-MPJPE为掌指关节进一步经过Procrustes-alignment(一种对齐方法)之后的三维关节点位置损失函数(根据对齐前后的位置误差计算),wj3d和wpa-j3d为设置的权重,L3D为三维关节的位置损失。可选的,wj3d=200,wpa-j3d=360。
PJ2D为使用弱透视投影相机投影三维关节点产生的投影二维关节点,J2D′为真实2D关节点位置,wpj2d为设置的权重系数。L2D为二维关节的位置损失。PJ2D投影之后得到的坐标xpj2D=sx3D+tx,ypj2D=sy3D+ty。可选的,wpj2d=400。
bi为骨骼i长度,bi′为真实骨骼i长度,wbl为设置的权重系数,Lbone为骨骼长度的损失。可选的,wbl=200。
综上所述,上文介绍了训练网络时所使用的损失函数,具体提供了特征编码网络、特征聚合网络和参数化模型的训练方法。
下面将介绍本申请提供的双手重建方法的实验部分。
实验细节:在PyTorch上运行本申请使用到的神经网络。对于主干网络61,通过ResNet-50和HRNet-W32进行训练,以获得更快的推理速度和更好的双手重建效果。与相关技术的需要手部检测器的方法不同,本申请可以使用端到端的方式重建任意场景下的手。并且,本申请提供的方法并没有限制输入的双手图像,对于没有裁剪或者检测的单目原始RGB相机图像,所有输入的原始图像和分割图像将被重新调整为512×512尺寸,通过填充零的方式使得所有的图像保持相同的宽高比。通过主干网络61提取得到特征图f∈R(C+2)×H×W。特征图f之后将通过四个卷积块生成手中心图、参数图、交互手先验图和手指节分割图。
训练过程:为了在InterHand2.6M数据集上进行比较,使用Adam优化器和5e-5学习率进行八轮学习。当没有MANO有效标签时,不使用手指节分割图损失和手中心图损失进行监督。因为真实的手指节分割图是从绘制MANO手网格中得到的,MANO手网格使用神经网络绘制得到。在所有实验中,使用预训练的主干网络HRNet-W32进行初始化,用于加速训练。使用2个批处理大小为64的V100GPU。主干网络输出的特征大小为128×128,4个像素对齐的输出图像的大小为64×64。训练过程中应用了随机缩放、旋转、翻转和颜色抖动增强。
测试过程:在所有实验中,如果没指定,主干网络将为HRNet-W32。为了与其他方法进行比较,使用完整的官方测试集进行评估。由于在所有的训练集和测试集中只有一个左手和一个右手,因此置信度阈值设置为0.25,最大检测数为1个左手和1个右手。
评估指标:为了评估双手重建的准确性,首先报告了平均关节位置误差(MPJPE)和Procrustes-align后平均关节位置误差(PA-MPJPE),单位为毫米。这两种误差都是在遵循现有技术的关节点对齐后计算的。在FreiHand数据集上,还通过平均顶点位置误差(MPVPE)和Procrustes-align后平均顶点位置误差(PA-MPVPE),测试了重建后的手形状的准确度。
数据集
InterHand2.6M是第一个也是唯一一个公开的具有精确双手网格注释的双手交互数据集。这个大规模的真实捕获数据集,具有精确的人体(H)和机器(M)的三维姿态和网格注释,包含用于训练的1361062帧图像和用于测试的849160帧图像,以及用于验证的380125帧图像。这些子集被分为两部分:交互手(IH)和单手(SH)。在实验中,使用了带有H+M注释的5帧/秒的交互手子集。
FreiHan是一个单手三维姿态估计数据集。对于每一帧,它都有MANO标注和3D关键点标注。有4×32560帧用于训练和3960帧用于评估和测试。32560帧的初始序列被捕获为绿幕背景,允许背景移除。
与相关技术进行比较
基于本申请的双手重建方法,能够获取最高的自由度以及实用性,同时拥有最高的重建精度,在几乎任何情况下都优于现有所有双手重建方法。实验主要在InterHand2.6M测试集以及在网络来源视频上的单目重建效果对比以验证本申请方法的有效性。如图16所示,相比于现有的基于检测框级别耦合特征的交互双手重建方法(IntagHand),本申请在面对更有挑战性的场景下(例如截断、遮挡时),比IntagHand能产生更加合理、准确的重建结果。本申请提出的基于特征解耦的方法从根本上具有对于不完全交互场景的鲁棒性。
本申请还尝试了在包含单手、第一人称、手物交互和截断手的情况下进行手部重建。如图17所示,本申请在一些其他情况下,相比于IntagHand具有更好的效果,证明了本申请提供的方法的通用性和实用性。
下表1对比了各种主流单手重建方法、双手重建方法和本申请在InterHand2.6M测试集上的平均节点位置误差(MPJPE),平均顶点位置误差(MPVPE),可以看到,本申请的误差显著低于所有现存方法,有着更高的精度。同时也是唯一一个不需要任何额外信息的方法。
表1
下表2对比了各种主流单手重建方法与本申请在FreiHand测试集上的Procrustes-alignment之后的平均节点位置误差(PA-MPJPE)和平均顶点位置误差(PA-MPVPE),可以看到,本申请获得了与基于顶点回归的方法的单手方法相当的性能,显示了其精确单手重建的潜力,取得了基于MANO模型的最佳结果,同时我们的方法将会拥有比顶点回归方法更佳的泛化能力。
表2
重建方法 | PA-MPJPE | PA-MPVPE |
MeshGraphormer | 6 | 5.9 |
METRO | 6.8 | 6.7 |
I2L-MeshNet | 7.4 | 7.6 |
HandTailor | 8.2 | 8.7 |
本申请 | 6.9 | 7.0 |
综上所述,本申请提出了一种基于注意力聚合和特征解耦的任意交互双手重建方法。此方法利用基于手中心(全局)和指节(局部)的特征表示,来减轻双手之间以及每只手各自指节之间的相互依赖性和歧义,并由此释放了不必要的输入约束。对于更好的处理双手交互的应用场景提出了一个带有交互场(IF)的交互手先验推理模块来动态调整双手之间的姿态依赖强度,进一步优化交互双手的重建效果。本申请的误差显著低于所有现存方法,有着更高的精度。同时也是唯一一个不需要任何额外信息的方法,可以很好地与人体姿态估计结合,应用于全身动作捕捉。
图18示出了本申请一个示例性实施例提供的双手重建装置的结构框图,该装置包括:
获取模块1801,用于获取双手图像;
编码模块1802,用于通过特征编码网络,编码得到双手图像的参数图、手中心图、手指节分割图和交互手先验图;参数图至少包括双手的基础手部参数,手中心图用于表征双手的手中心的位置;手指节分割图至少用于表征双手的多个指节的位置,交互手先验图用于推理双手之间的交互关系;
聚合模块1803,用于通过特征聚合网络,基于手中心图和参数图,生成双手图像的全局特征表示;基于手指节分割图和参数图,生成双手图像的局部特征表示;基于手中心图和交互手先验图,生成依赖特征表示;
重建模块1804,用于基于全局特征表示、局部特征表示和依赖特征表示,生成双手的手部特征表示;根据双手的手部特征表示,对双手进行建模。
在一个可选的实施例中,聚合模块1803,还用于基于手中心图中的左手中心子图和参数图中的左手参数子图,生成左手全局特征表示;基于手指节分割图中的左手分割子图和左手参数子图,生成左手局部特征表示;基于手中心图中的右手中心子图和交互手先验图中的左手先验子图,生成左手依赖特征表示;基于左手全局特征表示、左手局部特征表示和左手依赖特征表示,生成左手的手部特征表示。
在一个可选的实施例中,聚合模块1803,还用于基于手中心图中的右手中心子图和参数图中的右手参数子图,生成右手全局特征表示;基于手指节分割图中的右手分割子图和右手参数子图,生成右手局部特征表示;基于手中心图中的左手中心子图和交互手先验图中的右手先验子图,生成右手依赖特征表示;基于右手全局特征表示、右手局部特征表示和右手依赖特征表示,生成右手的手部特征表示。
在一个可选的实施例中,交互手先验图包含左手先验子图和右手先验子图,左手先验子图包含左手的基础手部参数,右手先验子图包含右手的基础手部参数,左手依赖特征表示用于表征根据右手推理得到的左手先验知识,右手依赖特征表示用于表征根据左手推理得到的右手先验知识。
在一个可选的实施例中,聚合模块1803,还用于将手中心图中的左手中心子图通过归一化指数函数转换为左手中心注意力图;将左手中心注意力图与参数图中的左手参数子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到左手全局特征表示。
在一个可选的实施例中,聚合模块1803,还用于将手中心图中的右手中心子图通过归一化指数函数转换为右手中心注意力图;将右手中心注意力图与参数图中的右手参数子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到右手全局特征表示。
在一个可选的实施例中,装置还包括更新模块1805。更新模块1805用于基于左手中心子图中左手中心的高斯核尺寸、右手中心子图中右手中心的高斯核尺寸、左手中心和右手中心的位置差,以及左手中心和右手中心的欧氏距离,生成调节向量;调节向量表征左手中心对右手中心的排斥作用;将左手中心的位置与调节向量进行加权求和运算,得到更新后的左手中心的位置;将右手中心的位置与调节向量进行加权求差运算,得到更新后的右手中心的位置;基于更新后的左手中心的位置,生成更新后的左手中心子图;以及基于更新后的右手中心的位置,生成更新后的右手中心子图。
在一个可选的实施例中,聚合模块1803,还用于将手指节分割图中的左手分割子图通过归一化指数函数转换为左手分割注意力图;将左手分割注意力图与左手参数子图进行哈达玛积运算,生成左手局部特征表示;将手指节分割图中的右手分割子图通过归一化指数函数转换为右手分割注意力图;将右手分割注意力图与右手参数子图进行哈达玛积运算,生成右手局部特征表示。
在一个可选的实施例中,聚合模块1803,还用于将手中心图中的右手中心子图通过归一化指数函数转换为右手中心注意力图;将右手中心注意力图与交互手先验图中的左手先验子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到左手依赖特征表示;将手中心图中的左手中心子图通过归一化指数函数转换为左手中心注意力图;将左手中心注意力图与交互手先验图中的右手先验子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到右手依赖特征表示。
在一个可选的实施例中,聚合模块1803,还用于计算左手中心图中的左手中心与右手中心图中的右手中心的欧式距离;根据左手中心的高斯核尺寸和右手中心的高斯核尺寸,生成交互阈值;在欧式距离大于交互阈值的情况下,设置交互强度系数为零;在欧式距离不大于交互阈值的情况下,根据交互阈值和欧式距离,生成交互强度系数。
在一个可选的实施例中,重建模块1804,还用于将交互强度系数乘以左手依赖特征表示;将乘法计算结果与左手全局特征表示、左手局部特征表示进行拼接;将拼接结果进行全连接,得到左手的手部特征表示。
在一个可选的实施例中,重建模块1804,还用于将交互强度系数乘以右手依赖特征表示;将乘法计算结果与右手全局特征表示、右手局部特征表示进行拼接;将拼接结果进行全连接得到右手的手部特征表示。
在一个可选的实施例中,左手参数子图包括左手的姿态参数、左手的形态参数和左手对应的弱透视相机参数;右手参数子图包括右手的姿态参数、右手的形态参数和右手对应的弱透视相机参数。
在一个可选的实施例中,手指节分割图为概率分割体,概率分割体包括与左手分割图对应的左手概率分割体、与右手分割图对应的右手概率分割体和背景维度;左手概率分割体上的一个体素表征左手对应的多个指节类别的一个概率逻辑通道;右手概率分割体上的一个体素表征右手对应的多个指节类别的一个概率逻辑通道;背景维度上的像素表征处于背景区域的概率。
在一个可选的实施例中,左手先验子图包括左手的姿态参数、左手的形态参数和左手对应的弱透视相机参数;右手先验子图包括右手的姿态参数、右手的形态参数和右手对应的弱透视相机参数。
在一个可选的实施例中,重建模块1804,还用于将双手的手部特征表示输入参数化模型,回归得到重建后的双手三维模型。
在一个可选的实施例中,该装置还包括训练模块1806。训练模块1806,用于根据手中心子图的损失、手指节分割图的损失和双手三维模型的损失,训练特征编码网络、特征聚合网络和参数化模型。
在一个可选的实施例中,训练模块1806,还用于将左手中心子图和标签左手中心子图之间的损失与右手中心子图和标签右手中心子图之间的损失进行求和,得到第一子损失;计算手指节分割图与标签手指节分割图之间的损失,得到第二子损失;将双手三维模型中姿态参数的损失、形态参数的损失与关节损失进行加权求和,得到第三子损失;关节损失包括三维关节的位置损失、二维关节的位置损失和骨骼长度损失;将第一子损失、第二子损失和第三子损失进行加权求和,得到目标损失;根据目标损失训练特征编码网络、特征聚合网络和参数化模型。
综上所述,通过特征编码网络编码得到参数图、手中心图、手指节分割图和交互手先验图,再通过特征聚合网络聚合得到全局特征表示、局部特征表示和依赖特征表示,再根据上述三个特征表示得到双手的手部特征表示,即可根据手部特征表示进行双手重建。上述重建过程中,手中心图显示减少了双手之间的依赖关系,手指节分割图显示减少了手内部多个指节之间的依赖关系,减少依赖关系有助于释放输入约束,但是也降低了交互状态下双手之间的相互作用。因此,本申请还设计了交互手先验图,交互手先验图用于在交互状态下推理得到双手之间的交互关系。基于手中心图、手指节分割图和交互手先验图的设计,使得本申请提供的双手重建流程可以支持任意场景下的双手图像。
图19是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1900包括中央处理单元(Central Processing Unit,CPU)1901、包括随机存取存储器(Random Access Memory,RAM)1902和只读存储器(Read-Only Memory,ROM)1903的系统存储器1904,以及连接系统存储器1904和中央处理单元1901的系统总线1905。所述计算机设备1900还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1906,和用于存储操作系统1913、应用程序1914和其他程序模块1915的大容量存储设备1907。
所述基本输入/输出系统1906包括有用于显示信息的显示器1908和用于用户输入信息的诸如鼠标、键盘之类的输入设备1909。其中所述显示器1908和输入设备1909都通过连接到系统总线1905的输入输出控制器1919连接到中央处理单元1901。所述基本输入/输出系统1906还可以包括输入输出控制器1910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1919还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1907通过连接到系统总线1905的大容量存储控制器(未示出)连接到中央处理单元1901。所述大容量存储设备1907及其相关联的计算机设备可读介质为计算机设备1900提供非易失性存储。也就是说,所述大容量存储设备1907可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器1904和大容量存储设备1907可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1900还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1900可以通过连接在所述系统总线1905上的网络接口单元1912连接到网络1911,或者说,也可以使用网络接口单元1912来连接到其他类型的网络或远程计算机设备系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理单元1901通过执行该一个或一个以上程序来实现上述知识图谱的实体建边方法的全部或者部分步骤。本申请还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的双手重建方法。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的双手重建方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种双手重建方法,其特征在于,所述方法包括:
获取双手图像;
通过特征编码网络,编码得到所述双手图像的参数图、手中心图、手指节分割图和交互手先验图;所述参数图至少包括双手的基础手部参数,所述手中心图用于表征双手的手中心的位置;所述手指节分割图至少用于表征双手的多个指节的位置,所述交互手先验图用于推理所述双手之间的交互关系;
通过特征聚合网络,基于所述手中心图和所述参数图,生成所述双手图像的全局特征表示;基于所述手指节分割图和所述参数图,生成所述双手图像的局部特征表示;基于所述手中心图和所述交互手先验图,生成依赖特征表示;
基于所述全局特征表示、所述局部特征表示和所述依赖特征表示,生成双手的手部特征表示;根据所述双手的手部特征表示,对所述双手进行建模。
2.根据权利要求1所述的方法,其特征在于,所述基于所述手中心图和所述参数图,生成所述双手图像的全局特征表示;基于所述手指节分割图和所述参数图,生成所述双手图像的局部特征表示;基于所述手中心图和所述交互手先验图,生成依赖特征表示;基于所述全局特征表示、所述局部特征表示和所述依赖特征表示,生成双手的手部特征表示,包括:
基于所述手中心图中的左手中心子图和所述参数图中的左手参数子图,生成左手全局特征表示;基于所述手指节分割图中的左手分割子图和所述左手参数子图,生成左手局部特征表示;基于所述手中心图中的右手中心子图和所述交互手先验图中的左手先验子图,生成左手依赖特征表示;基于所述左手全局特征表示、所述左手局部特征表示和所述左手依赖特征表示,生成左手的手部特征表示;
基于所述手中心图中的右手中心子图和所述参数图中的右手参数子图,生成右手全局特征表示;基于所述手指节分割图中的右手分割子图和所述右手参数子图,生成右手局部特征表示;基于所述手中心图中的左手中心子图和所述交互手先验图中的右手先验子图,生成右手依赖特征表示;基于所述右手全局特征表示、所述右手局部特征表示和所述右手依赖特征表示,生成右手的手部特征表示;
其中,所述交互手先验图包含所述左手先验子图和所述右手先验子图,所述左手先验子图包含左手的基础手部参数,所述右手先验子图包含右手的基础手部参数,所述左手依赖特征表示用于表征根据右手推理得到的左手先验知识,所述右手依赖特征表示用于表征根据左手推理得到的右手先验知识。
3.根据权利要求2所述的方法,其特征在于,所述基于所述手中心图中的左手中心子图和所述参数图中的左手参数子图,生成左手全局特征表示,包括:
将所述手中心图中的左手中心子图通过归一化指数函数转换为左手中心注意力图;将所述左手中心注意力图与所述参数图中的左手参数子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到所述左手全局特征表示;
所述基于所述手中心图中的右手中心子图和所述参数图中的右手参数子图,生成右手全局特征表示,包括:
将所述手中心图中的右手中心子图通过归一化指数函数转换为右手中心注意力图;将所述右手中心注意力图与所述参数图中的右手参数子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到所述右手全局特征表示。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述左手中心子图中左手中心的高斯核尺寸、所述右手中心子图中右手中心的高斯核尺寸、所述左手中心和所述右手中心的位置差,以及所述左手中心和所述右手中心的欧氏距离,生成调节向量;所述调节向量表征所述左手中心对所述右手中心的排斥作用;
将所述左手中心的位置与所述调节向量进行加权求和运算,得到更新后的左手中心的位置;将所述右手中心的位置与所述调节向量进行加权求差运算,得到更新后的右手中心的位置;
基于所述更新后的左手中心的位置,生成更新后的左手中心子图;以及基于所述更新后的右手中心的位置,生成更新后的右手中心子图。
5.根据权利要求2至4任一所述的方法,其特征在于,所述基于所述手指节分割图中的左手分割子图和所述左手参数子图,生成左手局部特征表示,包括:
将所述手指节分割图中的左手分割子图通过归一化指数函数转换为左手分割注意力图;将所述左手分割注意力图与所述左手参数子图进行哈达玛积运算,生成所述左手局部特征表示;
所述基于所述手指节分割图中的右手分割子图和所述右手参数子图,生成右手局部特征表示,包括:
将所述手指节分割图中的右手分割子图通过归一化指数函数转换为右手分割注意力图;将所述右手分割注意力图与所述右手参数子图进行哈达玛积运算,生成所述右手局部特征表示。
6.根据权利要求2至4任一所述的方法,其特征在于,所述基于所述手中心图中的右手中心子图和所述交互手先验图中的左手先验子图,生成左手依赖特征表示,包括:
将所述手中心图中的右手中心子图通过归一化指数函数转换为右手中心注意力图;将所述右手中心注意力图与所述交互手先验图中的左手先验子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到所述左手依赖特征表示;
所述基于所述手中心图中的左手中心子图和所述交互手先验图中的右手先验子图,生成右手依赖特征表示,包括:
将所述手中心图中的左手中心子图通过归一化指数函数转换为左手中心注意力图;将所述左手中心注意力图与所述交互手先验图中的右手先验子图进行像素级别的点乘操作;将点乘操作的计算结果进行全连接得到所述右手依赖特征表示。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
计算所述左手中心图中的左手中心与所述右手中心图中的右手中心的欧式距离;根据所述左手中心的高斯核尺寸和所述右手中心的高斯核尺寸,生成交互阈值;在所述欧式距离大于所述交互阈值的情况下,设置交互强度系数为零;在所述欧式距离不大于所述交互阈值的情况下,根据所述交互阈值和所述欧式距离,生成所述交互强度系数;
所述基于所述左手全局特征表示、所述左手局部特征表示和所述左手依赖特征表示,生成左手的手部特征表示,包括:
将所述交互强度系数乘以所述左手依赖特征表示;将乘法计算结果与所述左手全局特征表示、所述左手局部特征表示进行拼接;将拼接结果进行全连接,得到所述左手的手部特征表示;
所述基于所述右手全局特征表示、所述右手局部特征表示和所述右手依赖特征表示,生成右手的手部特征表示,包括:
将所述交互强度系数乘以所述右手依赖特征表示;将乘法计算结果与所述右手全局特征表示、所述右手局部特征表示进行拼接;将拼接结果进行全连接得到所述右手的手部特征表示。
8.根据权利要求2至4任一所述的方法,其特征在于,所述左手参数子图包括左手的姿态参数、左手的形态参数和左手对应的弱透视相机参数;所述右手参数子图包括右手的姿态参数、右手的形态参数和右手对应的弱透视相机参数;
所述手指节分割图为概率分割体,所述概率分割体包括与所述左手分割图对应的左手概率分割体、与所述右手分割图对应的右手概率分割体和背景维度;所述左手概率分割体上的一个体素表征左手对应的多个指节类别的一个概率逻辑通道;所述右手概率分割体上的一个体素表征右手对应的多个指节类别的一个概率逻辑通道;所述背景维度上的像素表征处于背景区域的概率;
所述左手先验子图包括所述左手的姿态参数、所述左手的形态参数和所述左手对应的弱透视相机参数;所述右手先验子图包括所述右手的姿态参数、所述右手的形态参数和所述右手对应的弱透视相机参数;
所述根据所述双手的手部特征表示,对所述双手进行建模,包括:
将所述双手的手部特征表示输入参数化模型,回归得到重建后的双手三维模型。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述手中心子图的损失、所述手指节分割图的损失和所述双手三维模型的损失,训练所述特征编码网络、所述特征聚合网络和所述参数化模型。
10.根据权利要求9所述的方法,其特征在于,所述根据所述手中心子图的损失、所述手指节分割图的损失和所述双手三维模型的损失,训练所述特征编码网络、所述特征聚合网络和所述参数化模型,包括:
将所述左手中心子图和标签左手中心子图之间的损失与所述右手中心子图和标签右手中心子图之间的损失进行求和,得到第一子损失;
计算所述手指节分割图与标签手指节分割图之间的损失,得到第二子损失;
将所述双手三维模型中所述姿态参数的损失、所述形态参数的损失与关节损失进行加权求和,得到第三子损失;所述关节损失包括三维关节的位置损失、二维关节的位置损失和骨骼长度损失;
将所述第一子损失、所述第二子损失和所述第三子损失进行加权求和,得到目标损失;根据所述目标损失训练所述特征编码网络、所述特征聚合网络和所述参数化模型。
11.一种双手重建装置,其特征在于,所述装置包括:
获取模块,用于获取双手图像;
编码模块,用于通过特征编码网络,编码得到所述双手图像的参数图、手中心图、手指节分割图和交互手先验图;所述参数图至少包括双手的基础手部参数,所述手中心图用于表征双手的手中心的位置;所述手指节分割图至少用于表征双手的多个指节的位置,所述交互手先验图用于推理所述双手之间的交互关系;
聚合模块,用于通过特征聚合网络,基于所述手中心图和所述参数图,生成所述双手图像的全局特征表示;基于所述手指节分割图和所述参数图,生成所述双手图像的局部特征表示;基于所述手中心图和所述交互手先验图,生成依赖特征表示;
重建模块,用于基于所述全局特征表示、所述局部特征表示和所述依赖特征表示,生成双手的手部特征表示;根据所述双手的手部特征表示,对所述双手进行建模。
12.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至10任一所述的双手重建方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一所述的双手重建方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一所述的双手重建方法。
15.一种计算机程序,其特征在于,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一所述的双手重建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310232179.2A CN116958405A (zh) | 2023-02-28 | 2023-02-28 | 双手重建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310232179.2A CN116958405A (zh) | 2023-02-28 | 2023-02-28 | 双手重建方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958405A true CN116958405A (zh) | 2023-10-27 |
Family
ID=88443329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310232179.2A Pending CN116958405A (zh) | 2023-02-28 | 2023-02-28 | 双手重建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958405A (zh) |
-
2023
- 2023-02-28 CN CN202310232179.2A patent/CN116958405A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fieraru et al. | Three-dimensional reconstruction of human interactions | |
WO2020199931A1 (zh) | 人脸关键点检测方法及装置、存储介质和电子设备 | |
CN111598998B (zh) | 三维虚拟模型重建方法、装置、计算机设备和存储介质 | |
US11232286B2 (en) | Method and apparatus for generating face rotation image | |
US20210158023A1 (en) | System and Method for Generating Image Landmarks | |
Wang et al. | Hmor: Hierarchical multi-person ordinal relations for monocular multi-person 3d pose estimation | |
Hu et al. | Deep depth completion from extremely sparse data: A survey | |
Kothari et al. | Weakly-supervised physically unconstrained gaze estimation | |
Ma et al. | Ppt: token-pruned pose transformer for monocular and multi-view human pose estimation | |
CN114648613B (zh) | 基于可变形神经辐射场的三维头部模型重建方法及装置 | |
Núñez et al. | Multiview 3D human pose estimation using improved least-squares and LSTM networks | |
CN113592913A (zh) | 一种消除自监督三维重建不确定性的方法 | |
Sharma et al. | An end-to-end framework for unconstrained monocular 3D hand pose estimation | |
CN110163095B (zh) | 回环检测方法、回环检测装置及终端设备 | |
Zhang et al. | Deep learning-based real-time 3D human pose estimation | |
Cao et al. | Single view 3D reconstruction based on improved RGB-D image | |
CN114913552A (zh) | 一种基于单视角点云序列的三维人体稠密对应估计方法 | |
Chang et al. | 2d–3d pose consistency-based conditional random fields for 3d human pose estimation | |
An et al. | ARShoe: Real-time augmented reality shoe try-on system on smartphones | |
Kourbane et al. | A graph-based approach for absolute 3D hand pose estimation using a single RGB image | |
WO2022043834A1 (en) | Full skeletal 3d pose recovery from monocular camera | |
CN113822097B (zh) | 单视角人体姿态识别方法、装置、电子设备和存储介质 | |
Shen et al. | ImLiDAR: cross-sensor dynamic message propagation network for 3D object detection | |
CN116977547A (zh) | 一种三维人脸重建方法、装置、电子设备和存储介质 | |
CN114049678B (zh) | 一种基于深度学习的面部动作捕捉方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40099459 Country of ref document: HK |