CN109308459A - 基于手指注意力模型和关键点拓扑模型的手势估计方法 - Google Patents
基于手指注意力模型和关键点拓扑模型的手势估计方法 Download PDFInfo
- Publication number
- CN109308459A CN109308459A CN201811030190.6A CN201811030190A CN109308459A CN 109308459 A CN109308459 A CN 109308459A CN 201811030190 A CN201811030190 A CN 201811030190A CN 109308459 A CN109308459 A CN 109308459A
- Authority
- CN
- China
- Prior art keywords
- key point
- feature
- gesture
- model
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 6
- 210000001145 finger joint Anatomy 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000005284 excitation Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 229910052797 bismuth Inorganic materials 0.000 claims 1
- 229910052738 indium Inorganic materials 0.000 claims 1
- 210000003811 finger Anatomy 0.000 description 28
- 230000006870 function Effects 0.000 description 8
- 238000013480 data collection Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 210000002478 hand joint Anatomy 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 1
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于手指注意力模型和关键点拓扑模型的手势估计方法,包括如下步骤:步骤1,获取手部图像,根据手部运动的特征将手部分为n个区域,相应的手部关键点也被分为n组;步骤2,对获取的手部图像进行预处理;步骤3,搭建ASNet网络;步骤4,目标模型训练:对ASNet网络进行目标模型训练,然后使用训练好的模型进行手势估计。
Description
技术领域
本发明涉及计算机视觉应用领域,特别是涉及基于手指注意力模型和关键点拓扑模型的手势估计方法。
背景技术
近些年来,由于手势估计在人机交互和增强现实方面都有着广泛的应用和潜力,而随着神经网络技术的迅猛发展和深度图像采集设备的广泛运用,一种新的从深度图像中利用神经网络技术来对手势进行检测估计的方法得到了广泛的关注和研究并取得了很大进展,平均手部关节点检测精度甚至可以达到十余毫米。
然而,在人的手部姿势变化中,手指间角度变化大,手指关节灵活,而目前硬件设备能够获取的深度图像质量并不高,同时手部存在自遮挡等问题,要进行精确的手势估计仍然是一个很有挑战的问题。而大部分基于深度学习的手势估计方法都只是简单的把手势当做一些相互独立的手部关节点来处理,并没有考虑事实存在的手部关节点之间的物理关系和运动特征,而这些关系无疑是对手势估计具有重大意义的。
发明内容
本发明针对现有技术的不足,提供了基于手指注意力模型和关键点拓扑模型的手势估计方法,本发明方法分析了手部关节点之间的这些关系,并在一个基础的神经网络框架中加入相应机制(FAM,JSM),使得本发明方法可以对这些关系进行一定程度的建模,得到更好的手势估计效果。
本发明包括如下步骤:
步骤1,确定手势估计所需的手部关键点并对其进行分组,关键点包括手指关节点和掌中心点,通常采用15或20个手指关节点和1个掌中心点,可根据应用场景调整;分组时根据手部运动特征将所有关键点划分为n组;
步骤2,通过深度摄像头获取图像序列,并对图像进行预处理,作为输入数据;
步骤3,搭建ASNet(Attention-and-Sequence Network,注意力-拓扑网络),包括一个典型的CNN(Convolutional Neural Network,卷积神经网络),n个FAM(FingerAttention Model,手指注意力模块)结构,n个JSM(Joint Sequence Model,关键点拓扑模型)结构,以及损失函数L,其中n为步骤1所划分的分组数目;
步骤4,目标模型训练:对ASNet网络进行目标模型训练,然后使用训练好的模型输出所需关键点的空间坐标,这些关键点的坐标构成一个手势表示估计。
在步骤1中,对于用手部关键点空间信息表示手势的问题,由于关键点之间存在着物理约束关系,手部运动时也表现出一定的运动特征,从而不同区域的点之间的关系有所不同,同一手指上的点之间有很强的相关性,而不同手指上的点相互独立性更强。常用的深度学习方法在处理手势估计问题时并未特别关注这些特征或者对这些关系加以区分或者建模,所以在步骤1中,首先根据这些关键点之间的关系对整个手部区域进行了划分,目标关键点相应被划分成n组(n通常为5或者6,包括5根手指或再加上手指以外的部分,特别的,掌中心点被认为和其他关键点都具有很强相关性,故所有组都包含掌中心点),根据分组在后面网络构建中对n组关键点的相关性和独立性做相应建模;
步骤2中,采用DeepPrior++中的手势预处理方法处理手部图像(参考文献:MarkusOberweger and Vincent Lepetit.Deepprior++:Improving fast and accurate 3d handpose estimation.In ICCV workshop,2017.),得到一个128×128大小,像素值在[-1, 1]的归一化图像数据,该数据作为神经网络模型的输入。
步骤3包括如下步骤:
步骤3-1,建立一个典型CNN(Convolutional Neural Network,卷积神经网络)模块,对步骤2得到的图像数据进行特征提取,得到一个特征映射F;
步骤3-2,根据步骤1的划分,对n组关键点在CNN之后加入n个FAM(FingerAttention Model,手指注意力模型)结构,对n组关键点的独立性建模,从而对F进一步进行特征提取,得到n个注意力特征映射,称为A0,A1,…,An-1,第i个注意力特征映射Ai对应手部的第i个部分,也就是第i个关键点分组;每个FAM包括一个1x 1的卷积层,采用sigmoid激励函数,即x是某个神经元的输出,设定F的大小为(W,H,C),其中,W、H、C分别是宽度,高度和通道数目,经过卷积后得到一个大小为(W,H)的图像Mi,而其中的每个像素值作为特征映射F中相应像素的权重,这里称Mi为权重图像;特征映射F经过Mi赋予相应权重,从而得到相应的注意力特征Ai;
步骤3-3,将每个FAM得到的注意力特征映射Ai通过一个AP(Average Pooling,平均池化)层和一个FC(Full Connection,全连接)层,然后送入JSM(Joint Sequence Model,关键点拓扑模型)结构,JSM关注同组关键点之间的相关性,从而得到特征Bi,总共得到n个特征B0,B1,…,Bn-1;
步骤3-4,利用上一步得到的B0,B1,…,Bn-1,让Bi经过一个全连接层,设定第i 个关键点分组包含m个关键点,则该全连接层输出大小为m×3,将所有输出组成一个 N×3的向量该向量即为模型所预测的关键点在输入图像中的坐标表示,其中N是指所有关键点的总数目。值得注意的是,前面提过掌中心点被包含在所有的分组中,故掌中心点的对应网络输出是由n个组的对应结果计算一个平均值得到的,实验证明,该做法能够极大提高掌中心点坐标的估计精度,而该点在手势估计中问题里无疑是非常关键的一个点。
步骤3-5,设置ASNet的训练损失函数L如下:
其中Y为关键点坐标的人工标注值(经过步骤2中输入图像预处理的同等变换后的值),为步骤3-4中所得结果。
步骤3-2中,为n组关键点计算了n个不同的权重图像Mi,对基础特征映射F的不同位置特征值给出了不同的权重,也就是不同的注意力,通过如下公式计算注意力特征Ai:
每组关键点享有一个Ai,这样就对n组关键点的独立性做了一个建模,这里的和Fx,y,c分别对应特征映射A和特征映射F中坐标(x,y,c)处的值,而对应图像Mi中坐标(x,y)处的值。
步骤3-3包括:设定步骤1中对手部划分的第i个分组包含m个关键点,相应的注意力特征为Ai,首先通过一个16×16的AP层和一个包含64×m个神经元的FC层,然后将FC层的输出调整大小为(m,64),此时这样一个输出可以看作是m个小块,将这 m个小块采用GRU(Gated Recurrent Unit,门控循环单元)按照空间顺序串起来,得到m 个优化过的小块,最终这m个优化后的小块被存储为一个向量,也就是一个优化特征,称为Bi,长度为64×m。
此前常用的基于深度学习方法进行手势估计问题所采用的损失函数L0,计算方式如下:
而上述ASNet网络的所采用的训练损失函数L经实验验证,相比L0能够显著提高预测关键点坐标的精度,同时训练后期模型表现得更加稳定。
步骤4包括:利用已有公开手势数据集或者根据应用需求,采集手势深度图像,人工标注所需关键点,构成训练集,对ASNet网络进行目标模型训练,然后使用训练好的模型进行手势估计。模型输出的值是所有关键点在步骤2经过原始深度图像预处理所得的输入图像中的坐标,需要进行一个预处理的逆过程,从而得到关键点实际的三维坐标,用所有关键点的三维坐标来表示对当前手势的估计。
本发明的有益效果是:本发明可以应对多种角度,多种姿态变化的手势估计,并且平均关键点检测精度可以达到5至10毫米左右。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1a中展示了不同手指的指尖关键点在多个典型手势中相对位置的变化,图1b展示食指上关键点和掌中关键点在多个典型手势中相对位置的变化。
图2a是来自公开手势数据集ICVL的典型的手部关键点标注和本方法采用的分组。
图2b是来自公开手势数据集NYU的典型的手部关键点标注和本方法采用的分组。
图2c是来自公开手势数据集MSRA的典型的手部关键点标注和本方法采用的分组。
图3是ASNet网络框架总体结构。
图4是CNN部分具体的网络参数和结构设置。
图5是FAM(Finger Attention Mechanism,手指关注模型)。
图6是JSM(Joint Sequence Mechanism,关键点拓扑模型)。
图7是手势估计效果示例,给出6个典型手势检测示例,上排为预测结果,下排为人工标注结果。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
参考图1a和图1b,本发明用于检测手指的关键点检测,关键点通常是手指关节点或其他根据具体需求的目标手部关键点,具体实施方案如下:
步骤1,确定所需手部关键点并对其进行分组;典型的手部关键点包含情况参考图2,如图2a中用16个关键点来表达一个手势,其中包括每根手指3个关节点和一个掌中心点;分组依据在这里由图1进行说明,在图1a中可以看到,不同典型手势中,五个手指的指尖关键点的相对位置变化很大,这里把它称为关键点间的独立性,而在图1b 中,3个食指上的关键点和掌中心点,在不同手势中空间上的相对位置保持着一定的相关性,特别的,相邻点之间的空间距离几乎不变。由此,将所有关键点划分为n组,使得不同组的点之间独立性更为突出,而同组的点之间独立性突出,典型的n为5或者6,包括5根手指上的点或加上其他区域的关键点;特别的,掌中心点包含在所有的组中,因为该点与其他所有点都存在着很强的相关性;具体如图所示,图2a和图2c分别标注了16和21个关键点,都分为5组,每组分别有4和5个关键点,而图2b的标注方式中共14个关键点,分为6组,多了一个分组包含了手掌部分的3个点,除大拇指所在分组有4个点外,其余分组每组3个点。
步骤2,通过深度图像采集设备(如Kinect)获取深度图像,对图像进行预处理,这里采用DeepPrior++中的手势预处理方法,包括对原图像的手部粗定位,裁剪,缩放等变换,得到一个128×128大小,像素值在[-1,1]的归一化图像数据,该数据作为神经网络模型的输入。
步骤3,搭建ASNet网络,ASNet网络结构如图3所示
步骤3包括如下步骤:
步骤3-1,首先包含一个基本的典型CNN(Convolutional Neural Network,卷积神经网络)模块,对步骤2中获取的输入数据(图3中的I)进行特征提取,得到一个特征映射F。如图4所示,该CNN包括一个卷积层(Convolution),一个池化层(Pooling) 和两个残差块(Residual Block)。
步骤3-2,根据步骤1的划分,有n组关键点则加入n个FAM结构(图3中FA分支)来对n组关键点的独立性建模,对F作进一步特征提取,得到n个注意力特征映射,称为A0,A1,…,An-1,分别对应n组关键点。一个FAM的具体结构如图5所示,包括一个1x 1的卷积层,采用sigmoid激励函数如F的大小为(W,H, C),做卷积得到一个大小为(W,H)的图像Mi,其中的每个像素值作为F中相应像素的权重。接着,使用F和Mi,作如下计算(图5中的),得到注意力特征Ai:
这里的和Fx,y,c分别是特征映射Ai和特征映射F中坐标(x,y,c)处的值,而是指权重图像Mi中坐标(x,y)处的值。Ai之所以被称为注意力特征,这是因为,Mi给特征F 中的每个像素值赋予了不同的权重,这样一来,不同组的关键点的特征通过用不同的Mi区分开来,关注到特征映射F中的不同部分,使得n组关键点组间的独立性得到了建模。
步骤3-3,每个FAM得到的注意力特征映射Ai通过一个平均池化层(AP)和一个全连接层(FC),然后进入JSM(joint sequence mechanism),即图3中的AP+FC+JS,进一步得到特征Bi。JSM的具体结构如图6所示,考虑一个手指部分,或者说一个分组,包含m个关键点,相应的注意力特征为Ai,首先通过一个16×16的平均池化层(AP) 和一个包含64×m个神经元的全连接层(FC)。然后将FC层的输出调整(Resize)为 (m,64),这样的一个输出可被看作是m个小块。然后,将这m个小块采用门控循环单元(GRU,一种循环神经网络变体,参考文献:Kyunghyun Cho,Bart Van Merri¨enboer, Caglar Gulcehre,Dzmitry Bahdanau,FethiBougares,Holger Schwenk,and Yoshua Bengio.Learning phrase representationsusing rnn encoder-decoder for statistical machine translation.arXiv preprintarXiv:1406.1078,2014.)按照顺序串起来(如掌心关键点-食指指根关键点-食指第二关节点-食指第三关节点这样的顺序),得到m个精炼过的小块。最终,这m个精炼小块被结合(Resize)为一个向量,也就是一个优化特征,称为Bi,长度为64×m。
步骤3-4,利用步骤3-3得到的B0,B1,…,Bn-1,让Bi经过一个全连接层(图3中的Estimate过程包含的即为一个全连接层),设定第i组包括的关键点数目为m,则该全连接层输出大小为m×3的一个向量Pi,将所有输出P0,P1,…,Pn-1组成一个N×3 的向量该向量即为模型所预测的关键点在输入图像中的坐标表示,其中N是指所有关键点的总数目。值得注意的是,前面提过掌中心点被包含在所有的分组中,故掌中心点的对应网络输出是由n个组的对应结果计算一个平均值得到的,实验证明,该做法能够极大提高掌中心点坐标的估计精度,而该点在手势估计中问题里无疑是非常关键的一个点。
步骤3-5,ASNet的训练损失函数L设置如下:
其中Y为关键点坐标的人工标注值在经过步骤2中输入图像预处理的同步变换后的值,为ASNet的输出。而此前常用的基于深度学习方法进行手势估计问题所采用的损失函数L0,计算方式如下:
经实验验证比较,相比较于L0,损失函数L可以显著提高手势关键点预测精度和并在训练后期表现得更为稳定。
步骤4,目标模型训练:在搭建完ASNet网络之后,需要利用已有公开手势数据集或者根据应用需求,采集大量包含手势的深度图像,人工标注所需关键点,构成训练集,进行目标模型训练。然后即可使用训练好的模型进行高精度的手势估计。典型的训练参数设置如下表1:
表1
步骤5,模型测试和使用:训练完成后可使用模型来进行手势估计的测试和使用。由于是关键点在步骤2中所得的输入图像中的坐标,所以首先要按照步骤2中的预处理过程做一个逆变换,得到关键点的真实坐标,该坐标的精度可达到毫米级别,而所有关键点的坐标即作为一个手势表示的估计结果(图3中的R),在图7中给出了本方法在一些典型的较难手势上的估计示例,下排为人工标注结果,作为参照,上排为本模型预测结果,可以看到,标注结果与预测结果偏差是非常小的。
本发明提供了基于手指注意力模型和关键点拓扑模型的手势估计方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (6)
1.基于手指注意力模型和关键点拓扑模型的手势估计方法,其特征在于,包括如下步骤:
步骤1,确定手势估计所需的手部关键点并对其进行分组,关键点包括手指关节点和掌中心点,分组时根据手部运动特征将所有关键点划分为n组;
步骤2,获取手部图像,并对图像进行预处理,作为输入数据;
步骤3,搭建ASNet网络,包括一个典型的CNN,n个FAM结构,n个JSM结构,以及损失函数L,其中n为步骤1所划分的分组数目;
步骤4,目标模型训练:对ASNet网络进行目标模型训练,然后使用训练好的模型输出所需关键点的空间坐标,这些关键点的坐标构成一个手势表示估计。
2.根据权利要求1所述的方法,其特征在于,步骤2中,采用DeepPrior+中的手势预处理方法处理手部图像,得到一个128×128大小,像素值在[-1,1]的归一化图像数据,该数据作为神经网络模型的输入。
3.根据权利要求2所述的方法,其特征在于,步骤3包括如下步骤:
步骤3-1,建立一个典型CNN模块,对步骤2得到的图像数据进行特征提取,得到一个特征映射F;
步骤3-2,根据步骤1的划分,对n组关键点在CNN之后加入n个FAM结构,对n组关键点的独立性建模,从而对F进一步进行特征提取,得到n个注意力特征映射,称为A0,A1,...,An-1,第i个注意力特征映射Ai对应手部的第i个部分,也就是第i个关键点分组;每个FAM包括一个1x1的卷积层,采用sigmoid激励函数S(x),即设定F的大小为(W,H,C),其中,W、H、C分别是宽度,高度和通道数目,经过卷积后得到一个大小为(W,H)的图像Mi,而其中的每个像素值作为特征映射F中相应像素的权重,这里称Mi为权重图像;特征映射F经过Mi赋予相应权重,从而得到相应的注意力特征Ai;
步骤3-3,将每个FAM得到的注意力特征映射Ai通过一个AP层和一个FC层,然后送入JSM结构,JSM关注同组关键点之间的相关性,从而得到特征Bi,总共得到n个特征B0,B1,...,Bn -1;
步骤3-4,利用上一步得到的B0,B1,...,Bn-1,让Bi经过一个全连接层,设定第i个关键点分组包含m个关键点,则该全连接层输出大小为m×3,将所有输出组成一个N×3的向量该向量即为模型所预测的关键点在输入图像中的坐标表示,其中N是指所有关键点的总数目;
步骤3-5,设置ASNet网络的训练损失函数L如下:
其中Y为关键点坐标的标注值。
4.根据权利要求3所述的方法,其特征在于,步骤3-2中,通过如下公式计算注意力特征Ai:
每组关键点享有一个Ai,这样就对n组关键点的独立性做了一个建模,这里的和Fx,y,c分别对应特征映射A中坐标(x,y,c)处的值和特征映射F中坐标(x,y,c)处的值,而对应图像Mi中坐标(x,y)处的值。
5.根据权利要求4所述的方法,其特征在于,步骤3-3包括:设定步骤1中对手部划分的第i个分组包含m个关键点,相应的注意力特征为Ai,首先通过一个16×16的AP层和一个包含64×m个神经元的FC层,然后将FC层的输出调整大小为(m,64),此时这样一个输出看作是m个小块,将这m个小块采用GRU按照空间顺序串起来,得到m个优化过的小块,最终这m个优化后的小块被存储为一个向量,也就是一个优化特征,称为Bi,长度为64×m。
6.根据权利要求5所述的方法,其特征在于,步骤4包括:采集手势深度图像,标注所需关键点,构成训练集,对ASNet网络进行目标模型训练,然后使用训练好的模型进行手势估计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811030190.6A CN109308459B (zh) | 2018-09-05 | 2018-09-05 | 基于手指注意力模型和关键点拓扑模型的手势估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811030190.6A CN109308459B (zh) | 2018-09-05 | 2018-09-05 | 基于手指注意力模型和关键点拓扑模型的手势估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109308459A true CN109308459A (zh) | 2019-02-05 |
CN109308459B CN109308459B (zh) | 2022-06-24 |
Family
ID=65224676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811030190.6A Active CN109308459B (zh) | 2018-09-05 | 2018-09-05 | 基于手指注意力模型和关键点拓扑模型的手势估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308459B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887375A (zh) * | 2019-04-17 | 2019-06-14 | 西安邮电大学 | 基于图像识别处理的钢琴练习纠错方法 |
CN110245659A (zh) * | 2019-05-21 | 2019-09-17 | 北京航空航天大学 | 基于前背景相互关系的图像显著对象分割方法及装置 |
CN110414402A (zh) * | 2019-07-22 | 2019-11-05 | 北京达佳互联信息技术有限公司 | 一种手势数据标注方法、装置、电子设备及存储介质 |
CN111128348A (zh) * | 2019-12-27 | 2020-05-08 | 上海联影智能医疗科技有限公司 | 医学图像处理方法、装置、存储介质及计算机设备 |
CN111184512A (zh) * | 2019-12-30 | 2020-05-22 | 电子科技大学 | 一种脑卒中患者上肢及手部康复训练动作识别方法 |
CN111222401A (zh) * | 2019-11-14 | 2020-06-02 | 北京华捷艾米科技有限公司 | 一种手部关键点三维坐标的识别方法及装置 |
CN112488059A (zh) * | 2020-12-18 | 2021-03-12 | 哈尔滨拓博科技有限公司 | 一种基于深度学习模型级联的空间手势控制方法 |
CN112613384A (zh) * | 2020-12-18 | 2021-04-06 | 安徽鸿程光电有限公司 | 手势识别方法、手势识别装置及交互显示设备的控制方法 |
CN112749512A (zh) * | 2021-01-18 | 2021-05-04 | 杭州易现先进科技有限公司 | 手势估计优化的方法、系统和电子装置 |
CN114185429A (zh) * | 2021-11-11 | 2022-03-15 | 杭州易现先进科技有限公司 | 手势关键点定位或姿态估计的方法、电子装置和存储介质 |
EP4060458A4 (en) * | 2019-11-20 | 2022-12-28 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | GESTURE RECOGNITION METHOD AND APPARATUS, AND STORAGE MEDIA |
CN113312973B (zh) * | 2021-04-25 | 2023-06-02 | 北京信息科技大学 | 一种手势识别关键点特征提取方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718879A (zh) * | 2016-01-19 | 2016-06-29 | 华南理工大学 | 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法 |
CN108229490A (zh) * | 2017-02-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
-
2018
- 2018-09-05 CN CN201811030190.6A patent/CN109308459B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718879A (zh) * | 2016-01-19 | 2016-06-29 | 华南理工大学 | 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法 |
CN108229490A (zh) * | 2017-02-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
QI YE等: ""Spatial Attention Deep Net with Partial PSO for Hierarchical Hybrid Hand Pose Estimation"", 《ARXIV》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887375A (zh) * | 2019-04-17 | 2019-06-14 | 西安邮电大学 | 基于图像识别处理的钢琴练习纠错方法 |
CN110245659B (zh) * | 2019-05-21 | 2021-08-13 | 北京航空航天大学 | 基于前背景相互关系的图像显著对象分割方法及装置 |
CN110245659A (zh) * | 2019-05-21 | 2019-09-17 | 北京航空航天大学 | 基于前背景相互关系的图像显著对象分割方法及装置 |
US11151725B2 (en) | 2019-05-21 | 2021-10-19 | Beihang University | Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background |
CN110414402A (zh) * | 2019-07-22 | 2019-11-05 | 北京达佳互联信息技术有限公司 | 一种手势数据标注方法、装置、电子设备及存储介质 |
CN110414402B (zh) * | 2019-07-22 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 一种手势数据标注方法、装置、电子设备及存储介质 |
CN111222401A (zh) * | 2019-11-14 | 2020-06-02 | 北京华捷艾米科技有限公司 | 一种手部关键点三维坐标的识别方法及装置 |
CN111222401B (zh) * | 2019-11-14 | 2023-08-22 | 北京华捷艾米科技有限公司 | 一种手部关键点三维坐标的识别方法及装置 |
EP4060458A4 (en) * | 2019-11-20 | 2022-12-28 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | GESTURE RECOGNITION METHOD AND APPARATUS, AND STORAGE MEDIA |
CN111128348A (zh) * | 2019-12-27 | 2020-05-08 | 上海联影智能医疗科技有限公司 | 医学图像处理方法、装置、存储介质及计算机设备 |
CN111128348B (zh) * | 2019-12-27 | 2024-03-26 | 上海联影智能医疗科技有限公司 | 医学图像处理方法、装置、存储介质及计算机设备 |
CN111184512A (zh) * | 2019-12-30 | 2020-05-22 | 电子科技大学 | 一种脑卒中患者上肢及手部康复训练动作识别方法 |
CN112488059B (zh) * | 2020-12-18 | 2022-10-04 | 哈尔滨拓博科技有限公司 | 一种基于深度学习模型级联的空间手势控制方法 |
CN112613384A (zh) * | 2020-12-18 | 2021-04-06 | 安徽鸿程光电有限公司 | 手势识别方法、手势识别装置及交互显示设备的控制方法 |
CN112488059A (zh) * | 2020-12-18 | 2021-03-12 | 哈尔滨拓博科技有限公司 | 一种基于深度学习模型级联的空间手势控制方法 |
CN112613384B (zh) * | 2020-12-18 | 2023-09-19 | 安徽鸿程光电有限公司 | 手势识别方法、手势识别装置及交互显示设备的控制方法 |
CN112749512B (zh) * | 2021-01-18 | 2024-01-26 | 杭州易现先进科技有限公司 | 手势估计优化的方法、系统和电子装置 |
CN112749512A (zh) * | 2021-01-18 | 2021-05-04 | 杭州易现先进科技有限公司 | 手势估计优化的方法、系统和电子装置 |
CN113312973B (zh) * | 2021-04-25 | 2023-06-02 | 北京信息科技大学 | 一种手势识别关键点特征提取方法及系统 |
CN114185429A (zh) * | 2021-11-11 | 2022-03-15 | 杭州易现先进科技有限公司 | 手势关键点定位或姿态估计的方法、电子装置和存储介质 |
CN114185429B (zh) * | 2021-11-11 | 2024-03-26 | 杭州易现先进科技有限公司 | 手势关键点定位或姿态估计的方法、电子装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109308459B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308459A (zh) | 基于手指注意力模型和关键点拓扑模型的手势估计方法 | |
CN108597578B (zh) | 一种基于二维骨架序列的人体运动评估方法 | |
CN109408653A (zh) | 基于多特征检索和形变的人体发型生成方法 | |
CN104317391B (zh) | 一种基于立体视觉的三维手掌姿态识别交互方法和系统 | |
CN110399809A (zh) | 多特征融合的人脸关键点检测方法及装置 | |
CN113362452B (zh) | 一种手部姿态三维重建方法、装置及存储介质 | |
CN107688391A (zh) | 一种基于单目视觉的手势识别方法和装置 | |
CN111862213A (zh) | 定位方法及装置、电子设备、计算机可读存储介质 | |
CN111062326B (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
WO2021051526A1 (zh) | 多视图3d人体姿态估计方法及相关装置 | |
CN102567716B (zh) | 一种人脸合成系统及实现方法 | |
CN108154104A (zh) | 一种基于深度图像超像素联合特征的人体姿态估计方法 | |
CN109255783B (zh) | 一种多人图像上的人体骨骼关键点的位置排布检测方法 | |
CN104866824A (zh) | 一种基于Leap Motion的手语字母识别方法 | |
CN106030610A (zh) | 移动设备的实时3d姿势识别和跟踪系统 | |
CN110210426A (zh) | 基于注意力机制从单幅彩色图像进行手部姿态估计的方法 | |
CN108305321B (zh) | 一种基于双目彩色成像系统的立体人手3d骨架模型实时重建方法和装置 | |
CN110826500B (zh) | 基于运动链接空间的对抗性网络估计3d人体姿态的方法 | |
CN117671738B (zh) | 基于人工智能的人体姿态识别系统 | |
CN114036969B (zh) | 一种多视角情况下的3d人体动作识别算法 | |
CN107479693A (zh) | 基于rgb信息的实时手部识别方法、存储介质、电子设备 | |
Liu et al. | Hand pose estimation from rgb images based on deep learning: A survey | |
CN1766929B (zh) | 一种基于三维数据库的运动对象运动重构方法 | |
CN113012268B (zh) | 静态行人图像的运动动态化方法、系统、装置及介质 | |
CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |