CN111709268A - 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置 - Google Patents

一种深度图像中的基于人手结构指导的人手姿态估计方法和装置 Download PDF

Info

Publication number
CN111709268A
CN111709268A CN202010331826.1A CN202010331826A CN111709268A CN 111709268 A CN111709268 A CN 111709268A CN 202010331826 A CN202010331826 A CN 202010331826A CN 111709268 A CN111709268 A CN 111709268A
Authority
CN
China
Prior art keywords
stage
point cloud
human hand
coordinate system
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010331826.1A
Other languages
English (en)
Other versions
CN111709268B (zh
Inventor
邓小明
左德鑫
马翠霞
王宏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202010331826.1A priority Critical patent/CN111709268B/zh
Publication of CN111709268A publication Critical patent/CN111709268A/zh
Application granted granted Critical
Publication of CN111709268B publication Critical patent/CN111709268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种深度图像中的基于人手结构指导的人手姿态估计方法和装置。该方法的步骤包括:对深度图像进行分割,获得消除背景的人手区域;对分割后的深度图像进行采样得到点云,对点云进行归一化;构建人手标准化坐标系;利用归一化后的点云和构建的人手标准化坐标系,构建多阶段点云网络,在每个阶段对点云进行姿态引导的对齐;训练多阶段点云网络;利用所训练的多阶段点云网络预测人手的关节位置。本发明提出了人手结构指导的人手姿态估计方法,提出了从手掌到手指的从“粗糙”到“精细”的估计流程。经过实际使用验证,本发明具有自动化程度高、精度高和速度快的优点,可满足专业的或者大众化的应用需求。

Description

一种深度图像中的基于人手结构指导的人手姿态估计方法和 装置
技术领域
本发明属于计算机视觉、计算机图像处理领域,具体涉及一种深度图像中基于人手结构指导的人手姿态估计方法和装置。
背景技术
手势操作具有不需要接触操作,体积小,较自然等优点。最初手势识别交互主要是利用特制的设备,直接获得人手各个部位的空间位置。典型的设备是数据手套,这种手套由多个传感器件组成,通过传感器可以将手的信息输入计算机从而计算出手势。这种设备估计出的人手姿态比较准确,但是手套本身价格昂贵,需要依据人手的大小定制,且不方便携带。后来,光学标记被应用于人手姿态检测,这个方法要求人们在手上配戴光学标记,用光学信息取代了数据手套中的传感器信息。该方法也由良好的效果,但是依然流程繁琐并且价格昂贵。
外部设备的介入虽然可以提供良好的精确度,但繁琐、昂贵等特点限制了它的应用场景。随着移动互联网、物联网兴起,电子摄像头成为了移动终端的标配,视觉信息成为了最容易获取人手姿态的渠道,移动应用对获取人手姿态的需求也越来越强烈,基于视觉的人手姿态估计越来越成为研究的主流方向。视觉人手姿态估计是指利用图像采集设备采集到的图像数据,通过计算机视觉技术获得人手各部位的位置信息。人手姿态估计把人手建模成一些关键部位(如手掌、手指)的集合进而估计它们在图像上(二维估计)或者三维空间内位置的过程。
利用视觉信息获取手势的关键在于计算机对于视觉信息的理解。传统的做法是用滤波器获取图像的特征,再用提取到的特征训练分类器或者决策森林。这种方法的优点在于可解释性强,缺点是设计特征需要较强的领域知识,过于依赖特征。2012年,以Alex-net为代表的基于深度学习的视觉算法获得了ImageNet的冠军,Top-5错误率从25%降至17%,标志着计算机视觉走入深入学习为主导的阶段。深度学习中的“深度”是相对于传统的支持向量机、隐马尔可夫模型、Boosting算法等“浅层”学习方法而言的。深度学习利用多隐层的人工神经网络,直接接收原始数据,通过分层网络获取分层次的特征信息。它解决了浅层学习中需要人工提取特征的难题,能够自动地学习所需特征,从而解决图像识别、语音识别、自然语言处理等领域中的多种问题。
基于视觉的人手姿态估计可分为特征提取和预测姿态两个步骤,深度学习出现之后,特征提取普遍地用多层神经网络来实现,预测姿态的过程主要分为两类,一类是基于检测的预测,一类是基于回归的预测。基于检测的预测为每个关节生成一个概率分布图称为热度图,关节的坐标通过对应的热度图取argmax获得。基于回归的方法直接预测所有关节的坐标,这类方法在模型的最后一层会有和关节数相等神经元,神经元的输出直接作为关节的坐标。由于从图像到人手坐标是高度非线性的,训练基于回归的模型需要大量的数据。但是,由于三维热度图非常稠密,会占用比较大的计算资源,基于回归的方法在三维关节预测时也是一个常见的选择。
基于回归的方法把人手建模为稀疏的关节点,这种人手没有对关节的位置做显式约束,神经网络对于人手模型的概念是由数据驱动的,因此不具备足够的稳定性。因此需要建立更加明确的人手模型已消除数据驱动带来的不确定性。
发明内容
本发明针对上述问题,提供一种深度图像中的基于人手结构指导的人手姿态估计方法和装置。主要解决的问题是如何从单张深度估计人手关节点的三维空间位置,该问题主要的技术难点在于人手丰富的手势变化以及由于拍摄角度导致的人手自遮挡等。
本发明采用的技术方案如下:
一种深度图像中的基于人手结构指导的人手姿态估计方法,包括以下步骤:
对深度图像进行分割,获得消除背景的人手区域;
对分割后的深度图像进行采样得到点云,对点云进行归一化;
构建人手标准化坐标系;
利用归一化后的点云和构建的人手标准化坐标系,构建多阶段点云网络,在每个阶段对点云进行姿态引导的对齐(后文简称姿态对齐);
训练多阶段点云网络;
利用所训练的多阶段点云网络预测人手的关节位置。
进一步地,所述归一化包括:首先将采样的点利用相机参数变换到世界坐标系,然后进行归一化。
进一步地,所述人手标准化坐标系利用手上的关节点作为参考点确定手掌坐标系和手指坐标系。
进一步地,所述多阶段点云网络包括:
第一阶段称为初始化阶段,输入归一化之后的点云,通过初始化阶段网络预测该点云对应的关节坐标;
第二阶段称为手掌阶段,将第一阶段得到的关节坐标输入手掌预测网络,预测得到所有关节在手掌坐标系下的坐标;
第三个阶段称为手指阶段,将第二阶段预测的关节分为五组,每个手指分别为一组;将其输入各个手指预测网络,预测在手指坐标系下的关节坐标。
进一步地,所述多阶段点云网络利用人手姿态指导输入数据完成空间变换,人手姿态包括关节点、角度,输入数据包括点云、深度图,空间包括三维空间。
进一步地,所述多阶段点云网络中每一个阶段的输入是上一阶段预测的姿态和原始输入的一个结合,所述结合包括空间变换、加权、拼接。
进一步地,所述多阶段点云网络中,姿态指导空间变换之后的输入数据输入下一阶段的智能模块进行预测,每个阶段所使用的智能模块包括神经网络、决策树、支持向量机。
一种深度图像中的基于人手结构指导的人手姿态估计装置,其包括:
数据预处理模块,负责进行数据预处理,包括:对深度图像进行分割,获得消除背景的人手区域;对分割后的深度图像进行采样得到点云,对点云进行归一化;构建人手标准化坐标系;
网络构建与训练模块,负责构建和训练多阶段点云网络;
关节位置预测模块,负责利用所训练的多阶段点云网络预测人手的关节位置。
本发明的有益效果如下:
本发明建立了人手坐标系下的人手模型,在此模型下,人手具有更小的自由度,能减轻网络预测人手关节的难度。本发明还提出了基于此模型的多阶段预测流程,提出了从手掌到手指的从“粗糙”到“精细”的估计流程。经过实验验证,本发明的预测精度超过了现有方法的最高精度,在速度上达到了实时的要求。本发明具有精度高、显存占用小、速度快等优点。
附图说明
图1展示了姿态引导的点云对齐。
图2展示了人手坐标系的建立方式,(a)、(b)是手掌坐标系的两种不同建立方式,(c)、(d)是无名指坐标系的两种不同的建立方式。
图3展示了第一阶段和第二阶段所用的网络结构。
图4展示了手指阶段所用的网络结构。
图5展示了本发明的全部流程。
图6展示了不同阶段的预测结果。
图7展示了本发明在不同数据集上的结果。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本实施例提供了一种基于深度图像的人手姿态估计方法,包括以下步骤:
1.对深度图像进行分割,获得消除背景的人手区域。
1.1)数据获取:数据格式为单张深度图,通过深度相机采集得到。
1.2)人手分割:通过现有的基于深度图的人手分割算法得到人手区域,在图像上仅保留人手区域深度图,其余区域用0填充。
2.对深度图像进行采样得到点云,对点云进行归一化。
2.1)采样:在分割好的深度图上通过最远点采样算法采集得到N个点,用Pplane表示,Pplane∈RN×3,每个点用(u(i),v(i),d(i))表示,其中(u(i),v(i))是点在图像平面的坐标,表示这个点在图像上的第u(i)行,第v(i)列,d(i)表示这个位置存放的深度值。
2.2)归一化:采样好的点需要利用相机参数变换到世界坐标系,相机的参数记为(fy,fy,u0,v0),世界坐标系下点的坐标记为(x(i),y(i),z(i)),计算方法为:
Figure BDA0002465208210000041
于是把Pplane转换成了世界坐标系下的点Pworld,计算Pworld的中心坐标,除以一个固定的长度C,对Pworld进行归一化得到P,每个点P(i)的计算公式可以表示为:
Figure BDA0002465208210000042
图1展示了姿态引导的点云对齐。上面的分支展示的是深度图经过两次随机采样和一次最远点采样之后得到点云,下面的分支展示的是通过关节计算坐标系变换矩阵,汇合处表示矩阵乘法,实现的是点云的几何变换,最终得到了对齐之后的点云。
3.构建人手标准化坐标系。
3.1)人手标准化坐标系
为了对人手的自由度进行约束,需要建立坐标系作为人手各个部位的参考。在进行测试时,从预测出的粗略关节计算坐标系参数和变换矩阵,然后对点云进行三维空间变换。人手标准化坐标系分为手掌坐标系和各个手指坐标系,以下是根据关节点计算各个坐标系基向量的方法:
手掌坐标系Tpalm:手掌坐标系需要三个点来确定,不妨选取掌心坐标作为坐标原点O,掌心与手掌上或者手腕上的某一关节A作为x轴的方向,掌心与手掌上或者手腕上的另一关节B作为平面的确定依据。用Tpalm表示原坐标系到手掌坐标系的几何变换。
图2中(a)、(b)是手掌坐标系的两种不同建立方式,这两种方式是:
1)以掌心关节作为O点,两个手腕关节分别作为A点和B点;
2)以掌心关节作为O点,小拇指和食指分别作为A点和B点。
手指坐标系包括拇指坐标系、食指坐标系、中指坐标系、无名指坐标系、小指坐标系,分别表示为Tthumb,Tindex,Tmiddle,Tring,Tpinky。每个手指坐标系需要三个点来确定,不妨选取手指根关节作为坐标原点O,手指中关节A作为x轴的方向,指间关节B作为平面的确定依据。
图2中(c)、(d)是无名指坐标系的两种不同的建立方式,这两种方式是:
1)以手指根关节往上数第一个关节作为O点,第二个关节作为B点,掌心作为A点;
2)以手指根关节往上数第一个关节作为O点,第三个关节作为B点,掌心作为A点。
坐标轴可以用向量叉乘获得,三个轴的计算方式为:
Figure BDA0002465208210000051
把坐标轴的方向作为基向量,可以得到旋转变换矩阵R:
R=(x y z)T
为了能表示平移和缩放平移量用t来表示,缩放量用s来表示,齐次坐标系下的变换
Figure BDA0002465208210000053
可以写成
Figure BDA0002465208210000052
当不发生缩放和平移时,t=0,S=1。
3.2)坐标系变换
将点云P进行空间变换之前,需要将其变换为齐次坐标
Figure BDA0002465208210000061
空间变换之后的点云的计算方法为:
Figure BDA0002465208210000062
4.构建多阶段点云网络,包括以下三个阶段:
本发明提出一个多阶段的预测流程,分为三个阶段,如图5所示。
第一阶段:将归一化之后的点云P输入网络φglobal(·),得到该点云对应的关节坐标Jglobal=φglobal(P)。
从关节Jglobal计算
Figure BDA0002465208210000063
的过程可以用函数
Figure BDA0002465208210000064
表示,使用Jglobal计算变换矩阵
Figure BDA0002465208210000065
将得到的变换
Figure BDA0002465208210000066
施加于P,进行对齐得到
Figure BDA0002465208210000067
Figure BDA0002465208210000068
Figure BDA0002465208210000069
的非齐次表示。
Figure BDA00024652082100000610
其中,
Figure BDA00024652082100000611
表示手掌阶段的点云对齐变换,
Figure BDA00024652082100000612
表示手掌阶段对齐之后的点云。
第二阶段:将第一阶段变换后的点云输入第二阶段网络φpalm(·),预测得到所有关节在手掌坐标系下的坐标Jpalm
第三阶段:将第二阶段预测的关节分出五组,每个手指分别为一组;组内的每个关节点获取在归一化点云中的近邻,变换到该组对应的标准坐标系下。为每个手指分别构建小型点云网络,预测标准坐标系下的坐标。把标准坐标系下的坐标根据原来的变换参数变换回原来的坐标系下,作为最终预测的坐标。
第一个阶段称为初始化阶段,输入是归一化之后的点云P,通过初始化阶段网络φglobal(·)预测该点云对应的关节坐标Jglobal,令Jstage1=Jglobal
第二个阶段称为手掌阶段,用Jstage1计算变换矩阵
Figure BDA00024652082100000613
将点云变换到手掌坐标系下得到
Figure BDA00024652082100000614
输入第二阶段的手掌预测网络φpalm(·)预测出所有关节在手掌坐标系下的坐标Jpalm,通过逆变换
Figure BDA00024652082100000615
计算得到关节在原来坐标系下的坐标。
第三个阶段称为手指阶段,使用多个不同的网络预测各个手指区域的局部姿态。和第二阶段类似,根据手指坐标系的定义,可以得到变换矩阵的求法,用函数
Figure BDA00024652082100000616
Figure BDA0002465208210000071
表示,其中thumb、index、middle、ring、pinky各表示大拇指、食指、中指、无名指、小指。根据Jstage2计算各个手指对应的变换矩阵
Figure BDA0002465208210000072
Figure BDA0002465208210000073
Figure BDA0002465208210000074
先把点云P分别进行变换得到经过各个手指坐标系下的对齐后坐标
Figure BDA0002465208210000075
分别输入各个手指预测网络φthumb(·)、φindex(·)、φmiddle(·)、φring(·)、φpinky(·)预测在手指坐标系下的关节坐标Jthumb、Jindex、Jmiddle、Jring、Jpinky(仅包含属于该手指的关节),通过逆变换然后组合起来得到手指阶段的预测,
Figure BDA0002465208210000076
Figure BDA0002465208210000077
5.训练点云网络
如前文第4部分所述,本发明提出一个多阶段的点云网络,分为三个阶段,分别对应了姿态对齐的初始化阶段、手掌阶段和手指阶段。
第一个阶段和第二个阶段使用PointNet++的类似结构,将点云继续分三级采样,第一级采样点从原始点云采样而来,后续每一级采样点都是由前一级点云通过最远点采样得到。PointNet++使用分组操作提取特征以提取不同尺度的特征,分组操作利用后一级采样点作为中心,按照K近邻法则进行分组。在每个组中,每个采样点使用多层感知器将点的三维坐标特征提升维度,组内所有采样点的特征使用最大池化聚合为一个特征,连接到下一级采样点的坐标特征上,作为下一级提取特征的输入。
第三个阶段的网络使用轻量级的特征提取网络,使用的是PointNet的结构,去掉了第一、二个阶段多层次分组的操作,使用多层感知器直接从点云提取每个点高维特征,全部点的高维特征通过最大池化直接输出该点云代表的特征。
网络特征提取阶段会输出一个全局的高维特征,作为点云的特征表示,把这个特征输入多层全连接层回归关节的位置坐标。
图3展示了第一阶段和第二阶段所用的网络结构。网络的输入是点云,用一个N×3的张量(Tensor)表示。点云需要首先经过两个抽取层(abstract)进行特征抽取。每个特征抽取层包含了一次分组过程和一次特征提取过程。分组过程在点云里选取N′个点作为组中心,每个组包含了离组中心欧式距离最近的K个点,获得N×K×3的张量。接着是一个特征提取过程,用1×1卷积实现多层感知机(MLP)功能,图中MLP后面的括号表示1×1卷积核的通道数,特征提取会改变点云的维度到C′维,结合点云的原始维度d,最终的维度是C+d。抽取层一共有N′个组,因此抽取层的最终输出是形状为N×(C+d)的张量。其后接入一个MLP进一步提取特征,最后在N′所在的维度进行最大池化max pooling,得到1024维的全局特征,最后通过一个MLP回归关节,输出的关节张量为J×3。
图4展示了手指阶段所用的网络结构。在手指阶段,为了排除其他手指的干扰,把输入某一手指的关节称为相关关节,每根手指所对应的网络只接受相关关节的近邻点云作为输入。为了选取近邻点云,利用Jpalm在点云P上选取每个相关关节最近的K个点。每个手指的网络具有相同的结构,输入是数量为Nf的点云,经过一个多层感知机提取特征,得到Nf×512的张量,经过最大池化层,得到维度为512的特征,因为反映的是手指局部的特征,因此称为局部特征。接着把局部特征输入多层感知机,回归出F个关节的坐标(F是该手指含有的关节数量)。
6.利用点云网络预测关节位置
最终的预测结果由第二阶段和第三阶段组合而成,第二个阶段提供手掌各关节点的坐标,第三个阶段提供手指各个关节点的坐标。将两个阶段的预测拼接得到最终的人手关节点预测结果。图6展示了不同阶段的预测结果。第一行展示了初始化阶段的预测结果,第二行展示了手掌阶段的预测结果,第三行展示了手指阶段的预测结果,根据该图可以看出,初始化阶段、手掌阶段、手指阶段的预测精度依次提高,体现了本发明提出的姿态对齐和多阶段流程对于提升预测精度的重要性。
图7展示了在不同数据集上的结果。其中NYU表示NYU数据集,ICVL表示ICVL数据集,MSRA表示MSRA数据集。第一行表示网络的预测结果,第二行表示目标姿态。根据该图可以看出,网络的预测结果跟目标姿态差距非常小,精确程度非常高。
本发明的方案可以通过软件的方式实现,也可以通过硬件的方式来实现,比如:
在一个实施例中,提供一种基于深度图像的人手姿态估计装置,其包括:
数据预处理模块,负责进行输入神经网络前的数据预处理,把原始深度图采样获得点云,归一化,获取姿态标签。具体包括:对深度图像进行分割,获得消除背景的人手区域;对分割后的深度图像进行采样得到点云,对点云进行归一化;构建人手标准化坐标系。
网络构建与训练模块,负责构建和训练关节点预测网络,即前文所述的多阶段点云网络;
关节位置预测模块,负责利用所训练的多阶段点云网络预测人手的关节位置,包括后续阶段利用前一阶段的姿态输出实施点云的空间变换,输入下一阶段预测关节位置;包括三个阶段的预测结果的组合策略。
在另一个实施例中,提供一种电子装置(计算机、服务器等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上面所述方法中各步骤的指令。
在另一个实施例中,提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现上面所述方法的步骤。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种深度图像中的基于人手结构指导的人手姿态估计方法,其特征在于,包括以下步骤:
对深度图像进行分割,获得消除背景的人手区域;
对分割后的深度图像进行采样得到点云,对点云进行归一化;
构建人手标准化坐标系;
利用归一化后的点云和构建的人手标准化坐标系,构建多阶段点云网络,在每个阶段对点云进行姿态引导的对齐;
训练多阶段点云网络;
利用所训练的多阶段点云网络预测人手的关节位置。
2.根据权利要求1所述的方法,其特征在于,所述归一化包括:首先将采样的点利用相机参数变换到世界坐标系,然后进行归一化。
3.根据权利要求1所述的方法,其特征在于,所述人手标准化坐标系利用手上的关节点作为参考点确定手掌坐标系和手指坐标系。
4.根据权利要求1所述的方法,其特征在于,所述多阶段点云网络包括:
第一阶段称为初始化阶段,输入归一化之后的点云,通过初始化阶段网络预测该点云对应的关节坐标;
第二阶段称为手掌阶段,将第一阶段得到的关节坐标输入手掌预测网络,预测得到所有关节在手掌坐标系下的坐标;
第三个阶段称为手指阶段,将第二阶段预测的关节分为五组,每个手指分别为一组;将其输入各个手指预测网络,预测在手指坐标系下的关节坐标。
5.根据权利要求1所述的方法,其特征在于,所述多阶段点云网络利用人手姿态指导输入数据完成空间变换,人手姿态包括关节点、角度,输入数据包括点云、深度图,空间包括三维空间。
6.根据权利要求1所述的方法,其特征在于,所述多阶段点云网络中每一个阶段的输入是上一阶段预测的姿态和原始输入的一个结合,所述结合包括空间变换、加权、拼接。
7.根据权利要求1所述的方法,其特征在于,所述多阶段点云网络中,姿态指导空间变换之后的输入数据输入下一阶段的智能模块进行预测,每个阶段所使用的智能模块包括神经网络、决策树、支持向量机。
8.一种采用权利要求1~7中任一权利要求所述方法的深度图像中的基于人手结构指导的人手姿态估计装置,其特征在于,包括:
数据预处理模块,负责进行数据预处理,包括:对深度图像进行分割,获得消除背景的人手区域;对分割后的深度图像进行采样得到点云,对点云进行归一化;构建人手标准化坐标系;
网络构建与训练模块,负责构建和训练多阶段点云网络;
关节位置预测模块,负责利用所训练的多阶段点云网络预测人手的关节位置。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一权利要求所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一权利要求所述的方法。
CN202010331826.1A 2020-04-24 2020-04-24 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置 Active CN111709268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010331826.1A CN111709268B (zh) 2020-04-24 2020-04-24 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010331826.1A CN111709268B (zh) 2020-04-24 2020-04-24 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置

Publications (2)

Publication Number Publication Date
CN111709268A true CN111709268A (zh) 2020-09-25
CN111709268B CN111709268B (zh) 2022-10-14

Family

ID=72537097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010331826.1A Active CN111709268B (zh) 2020-04-24 2020-04-24 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置

Country Status (1)

Country Link
CN (1) CN111709268B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543936A (zh) * 2020-10-29 2021-03-23 香港应用科技研究院有限公司 用于动作识别的动作结构自注意力图卷积网络
CN112749512A (zh) * 2021-01-18 2021-05-04 杭州易现先进科技有限公司 手势估计优化的方法、系统和电子装置
CN113561172A (zh) * 2021-07-06 2021-10-29 北京航空航天大学 一种基于双目视觉采集的灵巧手控制方法及装置
WO2022088176A1 (en) * 2020-10-29 2022-05-05 Hong Kong Applied Science and Technology Research Institute Company Limited Actional-structural self-attention graph convolutional network for action recognition

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160132124A1 (en) * 2013-08-02 2016-05-12 Mitsubishi Electric Corporation Gesture determination apparatus and method, gesture operation apparatus, program, and recording medium
CN110363077A (zh) * 2019-06-05 2019-10-22 平安科技(深圳)有限公司 手语识别方法、装置、计算机装置及存储介质
CN110705487A (zh) * 2019-10-08 2020-01-17 清华大学深圳国际研究生院 掌纹采集设备、方法及其图像采集装置
US20200050268A1 (en) * 2018-07-30 2020-02-13 Htc Corporation Finger-gesture detection device, control assembly and correction method
CN110852311A (zh) * 2020-01-14 2020-02-28 长沙小钴科技有限公司 一种三维人手关键点定位方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160132124A1 (en) * 2013-08-02 2016-05-12 Mitsubishi Electric Corporation Gesture determination apparatus and method, gesture operation apparatus, program, and recording medium
US20200050268A1 (en) * 2018-07-30 2020-02-13 Htc Corporation Finger-gesture detection device, control assembly and correction method
CN110363077A (zh) * 2019-06-05 2019-10-22 平安科技(深圳)有限公司 手语识别方法、装置、计算机装置及存储介质
CN110705487A (zh) * 2019-10-08 2020-01-17 清华大学深圳国际研究生院 掌纹采集设备、方法及其图像采集装置
CN110852311A (zh) * 2020-01-14 2020-02-28 长沙小钴科技有限公司 一种三维人手关键点定位方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YIKUN DOU等: "CASCADED POINT NETWORK FOR 3D HAND POSE ESTIMATION", 《IEEE》 *
陶俐言 等: "人手抓取运动轨迹研究", 《机械科学与技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543936A (zh) * 2020-10-29 2021-03-23 香港应用科技研究院有限公司 用于动作识别的动作结构自注意力图卷积网络
CN112543936B (zh) * 2020-10-29 2021-09-28 香港应用科技研究院有限公司 用于动作识别的动作结构自注意力图卷积网络模型
WO2022088176A1 (en) * 2020-10-29 2022-05-05 Hong Kong Applied Science and Technology Research Institute Company Limited Actional-structural self-attention graph convolutional network for action recognition
CN112749512A (zh) * 2021-01-18 2021-05-04 杭州易现先进科技有限公司 手势估计优化的方法、系统和电子装置
CN112749512B (zh) * 2021-01-18 2024-01-26 杭州易现先进科技有限公司 手势估计优化的方法、系统和电子装置
CN113561172A (zh) * 2021-07-06 2021-10-29 北京航空航天大学 一种基于双目视觉采集的灵巧手控制方法及装置

Also Published As

Publication number Publication date
CN111709268B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
WO2021103648A1 (zh) 手部关键点检测方法、手势识别方法及相关装置
CN111709268B (zh) 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
CN110222580B (zh) 一种基于三维点云的人手三维姿态估计方法和装置
Hasan et al. RETRACTED ARTICLE: Static hand gesture recognition using neural networks
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
Zeng et al. Hand gesture recognition using leap motion via deterministic learning
CN113362382A (zh) 三维重建方法和三维重建装置
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN113449700B (zh) 视频分类模型的训练、视频分类方法、装置、设备及介质
WO2021098802A1 (en) Object detection device, method, and systerm
Santhalingam et al. Sign language recognition analysis using multimodal data
JP2019008571A (ja) 物体認識装置、物体認識方法、プログラム、及び学習済みモデル
CN114022900A (zh) 检测模型的训练方法、检测方法、装置、设备和介质
CN110738650B (zh) 一种传染病感染识别方法、终端设备及存储介质
WO2023165361A1 (zh) 一种数据处理方法及相关设备
WO2023083030A1 (zh) 一种姿态识别方法及其相关设备
CN111126249A (zh) 一种大数据和贝叶斯相结合的行人重识别方法及装置
CN111104911A (zh) 一种基于大数据训练的行人重识别方法及装置
Khan et al. 3D hand gestures segmentation and optimized classification using deep learning
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN111368733A (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
Senanayaka et al. Continuous American Sign Language Recognition Using Computer Vision And Deep Learning Technologies
Liu et al. Domain-generalized robotic picking via contrastive learning-based 6-d pose estimation
Khartheesvar et al. Automatic Indian sign language recognition using MediaPipe holistic and LSTM network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant