CN111401141B - 一种基于骨架的3d手势估计方法 - Google Patents
一种基于骨架的3d手势估计方法 Download PDFInfo
- Publication number
- CN111401141B CN111401141B CN202010116785.4A CN202010116785A CN111401141B CN 111401141 B CN111401141 B CN 111401141B CN 202010116785 A CN202010116785 A CN 202010116785A CN 111401141 B CN111401141 B CN 111401141B
- Authority
- CN
- China
- Prior art keywords
- gesture
- skeleton
- image
- shared
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Abstract
本发明公开了一种基于骨架和隐含特征空间对齐的3D手势估计方法。该方法利用深度生成网络实现对手势骨架和深度手势的隐含特征进行建模、学习和表达,并利用多任务学习的机制,在建模的同时完成骨架隐含空间与手势隐含空间之间的对齐。不同于以往的手势估计方法,该方法的目标是在低维隐含空间之间学习建立映射关系,使得学习难度降低。同时,该方法有效地利用了多任务学习机制,使得学习到的特征更加全面,鲁棒性更高。
Description
技术领域
本发明属于姿态估计、计算机视觉、和人机交互领域,特别地涉及一种基于骨架和多任务学习的手势估计方法。
背景技术
3D手势估计是计算机视觉与人机交互领域的基础和重要的任务。经典的手势估计方法包括基于生成模型的方法,基于判别模型的方法,基于3D卷积神经网络的方法以及基于骨架关节点热图的方法。但是,多数现有方法往往基于手势的深度或RGB图像,通过对其进行层层处理,最终估计得到手势参数,如关节点坐标或角度。然而,不难理解,手势与骨架从本质上来讲是同一事物的两种模态,手势与骨架之间存在着一一对应的关系,它们的低维特征也是如此。因此,与其采用由手势到骨架的自顶向下的处理思路,不如考虑在低维特征层面上,将手势与骨架关联起来,即可实现从手势到骨架的估计过程。此外,低维特征空间的构建与特征关联应该是两个互相促进的任务,而非相互独立的。
引入多任务学习策略,同步地进行低维特征空间的构建与特征关联,这一方法能够保证学习到的特征更加关注于手的本质,而非偏向手势或是骨架。多任务学习策略有助于提高两个联合任务各自的效果。
发明内容
本发明的目的在于提供了一种基于骨架的3D手势估计模型。该方法通过对骨架的学习、建模和表达,基于变分自动编码器建立了骨架的特征空间,并在此基础上,同步完成手势的特征空间建立以及手势、骨架的特征关联,从而实现手势与骨架在低维空间层面上映射关系。
为实现上述目的,本发明的技术方案为:一种基于骨架的3D手势估计模型。该方法为:首先建模骨架的低维特征空间,然后将手势生成模块与特征映射模块用一个联合的损失函数进行训练优化,其中D为实际手势图像,是手势生成的结果,z由骨架坐标向量y经过步骤1中的编码器编码所得,是特征映射的结果,优化该损失函数即等价于同步地进行构建低维空间与学习特征映射任务。该方法具体为:
(4)构建手势生成模块,所述手势生成模块包括生成器Dec和判别器Dis。共享特征zs经过生成器Dec,重新生成对应的深度手势图像建立损失函数 同时,生成图像与原图像D经过判别器Dis,进行图像的真假判断,建立损失函数按照梯度下降法的原则,对Dis与Dec进行参数更新;
(5)构建用于关联手势、骨架的特征映射模块Ali,将共享特征zs输入特征映射模块Ali,得到估计的骨架隐含特征结合步骤2生成模型得到的隐含特征z建立损失函数 其中第二项为KL散度,表示特征映射模块Ali的输出,即符合标准正态分布。按照梯度下降法的原则,对Ali进行参数更新;
(6)基于多任务学习策略,联合生成模块与特征映射模块的损失函数,建立总损失函数其中α、β均为可学习的权重参数,按照梯度下降法的原则,对α、β以及共享编码器Enc进行参数更新;第一个损失项为手势的重构损失,第二个损失项为手势的真假判别损失,第三个损失项为由手势特征到骨架特征的映射损失;
进一步地,步骤1中所述手势数据包括深度、RGB等数据格式。
进一步地,步骤2中,生成模型的训练过程为无监督训练。利用变分自动编码器具有的生成能力,在非监督的方式下进行训练,使得变分自动编码器能够有效的对骨架进行特征提取,并构建了一个能够有效进行骨架生成的低维特征空间。由于变分自动编码器引入的随机性,该特征空间不仅对训练样本有重构能力,而且对于任意的新数据也能够有效地进行编解码;
进一步地,所述共享特征与骨架隐含特征均具有可解释性,可以应用的任务包括:
(4.1)手势估计;
(4.2)手势识别。
进一步地,所述步骤5中,特征映射模块Ali为单隐层全连接网络。
本发明的有益效果是:
(1)以一种基于骨架的设计思路,实现了手势与骨架之间,在低维特征层面上的关联。
(2)建立了低维空间建模与特征映射的多任务学习结构,实现了两个任务的相互补充、促进,学习到了具有解释性的、足够鲁棒的手势特征,提升了手势估计的效果。
附图说明
图1为本发明的流程图;
图2为待估计手势图像,其中,a-f分别为六种手势;
图3为图2对应的估计结果,其中,a-f分别为六种手势。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应该理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。
参考图1所示为本发明实施例的基于骨架的3D手势估计模型的训练步骤流程图。
1.训练3D手势估计模型
(1.1)将训练数据集中的骨架坐标向量作为样本集合,Y={yi}i=1…N。设定变分自动编码器的隐层数量为1,此时变分自动编码器为“输入层-隐层-特征层-隐层-输出层”的镜像结构。将Y中样本输入到变分自动编码器中进行无监督学习,建立骨架的生成模型。
(1.2)设定共享编码器、手势生成模块以及用于关联手势、骨架的特征映射模块Ali的网络结构,其中,共享编码器结构可以使用已有的各类卷积神经网络,如ResNet、DenseNet等,手势生成模块包括一个生成器Dec与一个判别器Dis,本实施例中,共享编码器结构采用DenseNet,特征映射模块Ali采用简单的单隐层全连接网络。
(1.3)将手势图像Di输入共享编码器学习、提取共享特征,共享特征进一步分别输入手势生成模块,建立损失函数和 进行训练,对Dis与Dec进行参数更新得到手势生成模型。将共享特征zs输入特征映射模块Ali,得到估计的骨架隐含特征结合步骤2生成模型得到的隐含特征z建立损失函数其中第二项为KL散度,表示特征映射模块Ali的输出,即符合标准正态分布。按照梯度下降法的原则,对Ali进行参数更新训练得到特征映射模型。
(1.4)联合生成模块与特征映射模块的损失函数,建立总损失函数 其中α、β均为可学习的权重参数,按照梯度下降法的原则,对α、β以及共享编码器Enc进行参数迭代优化,直到总损失函数收敛或达到最大迭代次数,保存网络权重。
2.对测试图像d
(2.1)将测试图像d(如图2所示)输入共享编码器,提取共享特征zs
(2.2)共享特征zs经过特征映射模型,映射为骨架特征z
(2.3)利用(1.1)中变分自动编码器的后半部分的解码器,即“特征层-隐层-输出层”,将骨架特征z重构生成为最终的骨架估计结果。
图3为使用训练好的模型进行估计后的输出结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于骨架的3D手势估计方法,其特征在于,该方法包括如下步骤:
(4)构建手势生成模块,所述手势生成模块包括生成器Dec和判别器Dis;共享特征zs经过生成器Dec,重新生成对应的深度手势图像建立损失函数 同时,生成图像与原图像D经过判别器Dis,进行图像的真假判断,建立损失函数按照梯度下降法的原则,对Dis与Dec进行参数更新;
(5)构建用于关联手势、骨架的特征映射模块Ali,将共享特征zs输入特征映射模块Ali,得到估计的骨架隐含特征结合步骤(2)生成模型得到的隐含特征z建立损失函数其中第二项为KL散度,表示特征映射模块Ali的输出,即符合标准正态分布;按照梯度下降法的原则,对Ali进行参数更新;
2.根据权利要求1所述的方法,其特征在于,步骤(1)中所述手势图像为深度或RGB图像。
3.根据权利要求1所述的方法,其特征在于,步骤(2)中,生成模型的训练过程为无监督训练。
4.根据权利要求1所述的方法,其特征在于,所述共享特征与骨架隐含特征均具有可解释性,应用的任务包括:
(4.1)手势估计;
(4.2)手势识别。
5.根据权利要求1所述的方法,其特征在于,所述步骤(5)中,特征映射模块Ali为单隐层全连接网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116785.4A CN111401141B (zh) | 2020-02-25 | 2020-02-25 | 一种基于骨架的3d手势估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116785.4A CN111401141B (zh) | 2020-02-25 | 2020-02-25 | 一种基于骨架的3d手势估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401141A CN111401141A (zh) | 2020-07-10 |
CN111401141B true CN111401141B (zh) | 2022-07-15 |
Family
ID=71432093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010116785.4A Active CN111401141B (zh) | 2020-02-25 | 2020-02-25 | 一种基于骨架的3d手势估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401141B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318558A (zh) * | 2014-10-17 | 2015-01-28 | 浙江大学 | 复杂场景下基于多信息融合的手势分割方法 |
EP3203412A1 (en) * | 2016-02-05 | 2017-08-09 | Delphi Technologies, Inc. | System and method for detecting hand gestures in a 3d space |
CN109815920A (zh) * | 2019-01-29 | 2019-05-28 | 南京信息工程大学 | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 |
CN110286749A (zh) * | 2019-05-27 | 2019-09-27 | 华中师范大学 | 基于深度数据的手部姿势估计和追踪方法 |
CN110569823A (zh) * | 2019-09-18 | 2019-12-13 | 西安工业大学 | 一种基于rnn的手语识别与骨架生成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013056431A1 (en) * | 2011-10-18 | 2013-04-25 | Nokia Corporation | Methods and apparatuses for gesture recognition |
CN106991372B (zh) * | 2017-03-02 | 2020-08-28 | 北京工业大学 | 一种基于混合深度学习模型的动态手势识别方法 |
CN110210513B (zh) * | 2019-04-23 | 2021-04-09 | 深圳信息职业技术学院 | 数据分类方法、装置及终端设备 |
-
2020
- 2020-02-25 CN CN202010116785.4A patent/CN111401141B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318558A (zh) * | 2014-10-17 | 2015-01-28 | 浙江大学 | 复杂场景下基于多信息融合的手势分割方法 |
EP3203412A1 (en) * | 2016-02-05 | 2017-08-09 | Delphi Technologies, Inc. | System and method for detecting hand gestures in a 3d space |
CN109815920A (zh) * | 2019-01-29 | 2019-05-28 | 南京信息工程大学 | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 |
CN110286749A (zh) * | 2019-05-27 | 2019-09-27 | 华中师范大学 | 基于深度数据的手部姿势估计和追踪方法 |
CN110569823A (zh) * | 2019-09-18 | 2019-12-13 | 西安工业大学 | 一种基于rnn的手语识别与骨架生成方法 |
Non-Patent Citations (3)
Title |
---|
Crossing Nets: Dual Generative Models with a Shared Latent Space for Hand Pose Estimation;Chengde Wan 等;《arXiv》;20170211;第1-10页 * |
基于Kinect深度和骨架信息的指尖检测方法;毛雁明 等;《延边大学学报(自然科学版)》;20160930;第235-240页 * |
结合排序向量SVM的视频跟踪;于慧敏 等;《浙江大学学报(工学版)》;20150630;第49卷(第6期);第1015-1021页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111401141A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503598B (zh) | 基于条件循环一致性生成对抗网络的字体风格迁移方法 | |
CN110544297B (zh) | 一种单幅图像的三维模型重建方法 | |
CN108875935B (zh) | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 | |
CN113779675B (zh) | 物理-数据驱动的智能化剪力墙建筑结构设计方法和装置 | |
CN111652124A (zh) | 一种基于图卷积网络的人体行为识别模型的构建方法 | |
CN110427799B (zh) | 基于生成对抗网络的人手深度图像数据增强方法 | |
CN109783910B (zh) | 一种利用生成对抗网络加速的结构优化设计方法 | |
CN110570346B (zh) | 一种基于循环生成对抗网络对书法进行风格迁移的方法 | |
CN110415308B (zh) | 一种基于循环空间转换网络的人脸漫画生成方法 | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
CN105427360B (zh) | 一种动态网格的误差可控cage序列表示算法 | |
CN113112607B (zh) | 一种生成任意帧率的三维网格模型序列的方法及装置 | |
CN110188667B (zh) | 一种基于三方对抗生成网络的人脸摆正方法 | |
CN110516724A (zh) | 可视化作战场景的高性能多层字典学习特征图像处理方法 | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN114926553A (zh) | 基于神经辐射场的三维场景一致性风格化方法及系统 | |
CN112489164A (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN113051420A (zh) | 一种基于文本生成视频机器人视觉人机交互方法及系统 | |
CN114882524A (zh) | 一种基于全卷积神经网络的单目三维手势估计方法 | |
CN113538608B (zh) | 基于生成对抗网络的可控人物图像生成方法 | |
CN113706670A (zh) | 生成动态三维人体网格模型序列的方法及装置 | |
CN117454495A (zh) | 一种基于建筑草图轮廓序列的cad矢量模型生成方法及装置 | |
CN111401141B (zh) | 一种基于骨架的3d手势估计方法 | |
CN115482557A (zh) | 人体图像生成方法、系统、设备及存储介质 | |
CN115908600A (zh) | 基于先验正则化的大批量图像重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |