CN112836594B - 一种基于神经网络的三维手部姿态估计方法 - Google Patents

一种基于神经网络的三维手部姿态估计方法 Download PDF

Info

Publication number
CN112836594B
CN112836594B CN202110052293.8A CN202110052293A CN112836594B CN 112836594 B CN112836594 B CN 112836594B CN 202110052293 A CN202110052293 A CN 202110052293A CN 112836594 B CN112836594 B CN 112836594B
Authority
CN
China
Prior art keywords
dimensional
image
information
network
hand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110052293.8A
Other languages
English (en)
Other versions
CN112836594A (zh
Inventor
李斌
刘宇馨
彭进业
范建平
张薇
乐明楠
李红颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Yihui Zhichuang Information Technology Co ltd
Original Assignee
NORTHWEST UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NORTHWEST UNIVERSITY filed Critical NORTHWEST UNIVERSITY
Priority to CN202110052293.8A priority Critical patent/CN112836594B/zh
Publication of CN112836594A publication Critical patent/CN112836594A/zh
Application granted granted Critical
Publication of CN112836594B publication Critical patent/CN112836594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经网络的三维手部姿态估计方法,包括数据预处理、用VGG16网络前十层提取图像特征,并将提取的图像上采样至原图大小,网络用softmax+crossentropy的损失函数优化位置信息提取手部位置信息;将原始图像信息与Scoremap信息融合并以一定程度模糊去除图像背景;将结果输入实例分割网络中,以数据集中二维关键点为作为其真实值(groudtruth),得到其关键点的置信图;将置信图使用argmax处理后得到其二维关键点坐标,输入后续二维到三维映射网络中,用堆叠的方法映射出关键点在三维场景下的姿态。

Description

一种基于神经网络的三维手部姿态估计方法
技术领域
本发明属于人工智能技术领域的图像或视频信息处理技术,涉及手部姿态估计方法,具体是一种基于神经网络的三维手部姿态估计方法。
背景技术
手势识别、手势姿态估计指的是一种通过图像或视频信息,检测出手的形状以及关键点的技术。其主要目的以及作用是使人们通过简单的信息输入可以与硬件设备完成信息交换即人机交互需求。而随着手势姿态估计领域研究的深入,可以将交互任务简化。手部姿态估计任务性能的提升,可以使人机交互不再限于文字接口或者鼠标键盘控制的用户图像界面。
随着科学技术的不断发展与人民日益增长的美好生活需要,人们更倾向于在日常生活中通过简单物理外设如手机、手柄,随时随地通过手势交互完成简单的信息交换。
传统手势姿态估计大多是针对于有深度信息的图像,如RGB-D图像,采用生成法、判别方法或混合方法等传统算法对手部姿态进行估计。这些方法大多较为复杂、鲁棒性较低,不适应低分辨率或复杂有小部分遮盖的场景图像。
现如今较多方法为基于深度学习的方法来完成此项任务,人工智能技术的进步使得基于深度学习的手部姿态估计效果十分突出。基于此方法的输入信息大致可分为单目的RGB图像、带有深度信息的RGB-D图像以及双视角的图像信息。
由于手部的自由度很高,自遮挡严重,特征不明显,都使这项任务难度较大。同时应用场景的广泛,设备运算能力参差不起,使得现有许多基于神经网络的手部姿态估计方法不能普及落地。其次,很多工作通过图像的深度信息估计人的手部姿态,虽然在评价指标上取得了不错的效果,但深度相机在一定程度上,对光照、抖动等外因较为敏感,且深度信息较难采集,成本较高,不便于生活日常普及。
发明内容
本发明的目的在于,提供一种基于神经网络的三维手部姿态估计方法,该方法从单目二维图像中通过深度学习,得出图像中的手部21个关键点在三维空间中的姿态。
为了实现上述任务,本发明采用如下技术解决方案予以实现:
一种基于神经网络的三维手部姿态估计方法,其特征在于,按下列步骤进行:
步骤一,数据预处理:首先将数据集中所需要的手部位置信息(mask)、二维关键点坐标、三维关键点坐标等信息用matlab处理成二值化信息,以便于后续减少后续网络计算量与训练时间、运算成本;
步骤二,为了更好的估计图像中的手的三维姿态,需要先获得手部在图像中的位置信息,用VGG16网络前十层提取图像特征;
步骤三,将提取的图像上采样至原图大小,网络用softmax+crossentropy的损失函数优化位置信息提取手部位置信息,即Scoremap;
步骤四,为了降低图像背景对后续姿态估计任务性能的影响,将原始图像信息与Scoremap信息融合,以一定程度模糊去除图像背景;
步骤五,将步骤四的结果输入实例分割网络中,以数据集中二维关键点为作为其真实值(groudtruth),得到其关键点的置信图;
步骤六,将置信图使用argmax处理后得到其二维关键点坐标,输入后续二维到三维映射网络中,用堆叠的方法映射出关键点在三维场景下的姿态。
根据本发明,步骤二所述手部位置信息的获得方法是:
1)HandScore网络首先通过VGG-16网络的前十层提取图像特征其中的信息包括图像的颜色、纹理、形状和空间关系的特征。
2)将编码层提取到空间大小为W*H*512的信息进行上采样。通过一两通道步长为1的卷积层,得到图像手的热力图信息ScoremapW*H*2,其中通道一为背景信息得分图,通道二为手的位置信息。
本发明的基于神经网络的三维手部姿态估计方法,从二维图像中通过深度学习的方法,得出二维图像中的手部21个关键点在三维空间中的姿态。
附图说明
图1是本发明的基于神经网络的三维手部姿态估计方法框图。
图2是原图模糊背景图像,其中,(a)图、(b)图和(c)图为原图像,(d)图、(e)图和(f)图为模糊背景后的图像。
图3是三维姿态估计PoseLifting网络结构示意图;
图4是手部的三维姿态估计图,其中,(d)图、(e)图和(f)图为估计出的三维姿态,(a)图、(b)图和(c)图为三维姿态在原图像中的映射。
图5是PoseLifting网络8万次训练损失图。
以下结合附图和实施例对本发明作进一步地详细说明。
具体实施方式
在以下的实施例中,对设计的定义或概念内涵做以说明:
图像特征feature:图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。特征提取的主要目的是降维。特征抽取的主要思想是将原始样本投影到一个低维特征空间,得到最能反应样本本质或进行样本区分的低维样本特征。
批标准化处理(Batch Normalization):随着神经网络深度加深及为了训练过程中矫正其分布偏移变动的情况,通过一定规范化手段,将此神经元的输入值分布拉回均值为0方差为1的标准正态分布方法。
ReLU:指线性整流函数(Rectified Linear Unit),一种常用在神经网络的修正线性单元。
Dropout:指参数正则化法则。是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。
Argmax函数:是一个映射函数,其含义为,当x在取值范围内时,使得f(x)取得最大值x的点集。
argmaxf(x|y)={x,y|(xi max,yi max)i∈[0,20]
本申请的任务为输入的一张二维图像,通过深度学习的方法,得到图像中多个手的21个关键点的三维空间的信息,实现对二维图像中多手的分割、及每只手21个关键点(xi,yi)到(xi,yi,zi)的三维信息的姿态描述。
如图1所示,本实施例中给出一种基于神经网络的三维手部姿态估计方法,具体包括以下步骤:
步骤1:数据采集与预处理:数据集中包括图像原图信息,手部掩膜信息,手部21个关键点信息及图像的深度信息;为了增强网络性能,减少网络参数,优化网络计算时间,在数据预处理时,将数据集中每个样例信息读取为二进制帧结构信息,每一帧代表数据集中每组样例中不同的真实值(groundtruth)信息。
步骤2:首先将空间大小为W*H二维图像ImageW*H*3,输入如图2所示的HandScore网络中得到图像中手部位置的置信图ImageS W*H*3,得到手部定位信息。
步骤2.1:HandScore网络首先通过VGG-16网络的前十层提取图像特征其中的信息包括图像的颜色、纹理、形状和空间关系的特征。
步骤2.2:将编码层提取到空间大小为W*H*512的信息进行上采样,通过一两通道步长为1的卷积层,得到图像手的热力图信息ScoremapW*H*2,其中通道一为背景信息得分图,通道二为手的位置信息。
步骤3:提取热力图Scoremap里通道2的手部Mask信息,用ReLU激活处理后与原图相乘后得到如图2所示模糊背景后只有手部信息的图像Imagehand。图2中,(a)、(b)、(c)为原图像,(d)、(e)、(f)为模糊背景后的图像。
ImageW*H hand=max(0,x)W*H
步骤4:将处理过的模糊背景的大小为原图大小图像Imagehand送入KeyPointNet关键点检测网络,得到每只手的21个关键点,每个关键点坐标表示为:Kpi=(xi,yi,),其中,i为不同关键点,且i∈[0,20]。
步骤4.1:网络采用编解码思想的网络模型提取图像中手的部位的特征信息。在图像输入前,为了减少运算增加效率,将模糊背景提取手部信息后的图像输入四个Block层次的编码网络中进行上采样。每一模块中有两层卷积提取图像特征,随后附加一次BatchNormalization+ReLU处理。
在每一个模块最后将特征通过池化层,用以压缩图像高度和宽度层。同时,为了使手部的分割任务有更好的效果,提取不同尺度下的特征信息,每一个模块过滤器数量分别为[64,128,256,512],可以得到大小为的图像特征。
步骤4.2:将上采样后不同尺度下的信息通过四个解码网络上采样到原图像W*H的空间大小。可得到一输出为W*H*21大小的21个手部2D关键点热力图。
步骤4.3:随后通过argmax函数处理网络特征,得到手部21个关键点最大索引即关键点坐标,表示为(xi,yi)[0,20],即手部二维姿态关键点;其中i表示不同关键点,x、y为索引最大的坐标。
步骤5:将步骤4.2得到的2D关键点信息输入如图3所示三维姿态估计Pose Linear网络,通过该网络得到大小为21*3的手部三维关键点,也就是从二维坐标信息R2通过网络映射成三维信息R3。网络由一神经元个数为1024的全连接层及BN和ReLU及Dropout处理堆叠四次的线性结构组成。
步骤5.1,首先(21,2)大小的二维关键点信息通过全连接层堆叠成1维矩阵。
步骤5.2,将堆叠后的一位信息输入两个线性网络模块;该网络模块由FullyConnected全连接层、批标准化处理、ReLU激活处理,及Dropout处理组成,其中Dropout的参数为0.5。
步骤5.3,将通过两个线性模块的大小为1*1024的信息通过与步骤4.1得到的FC1信息融合后进行上采样,将输出通道数设置为21*3,得到如图3所示最终估计的21*3大小的手部三维姿态。图4中,(d)图、(e)图、(f)图为估计出的三维姿态,(a)图、(b)图、(c)图为三维姿态在原图像中的映射。
以下是具体实验例。
实验例:
本实验例采用两个公开的有标签的单张RGB图像作为数据集来验证所提方法有效性。其中,数据一为RHD(Rendered Hand Dataset)数据集,为合成手部图像,STB(StereoHand Tracking Benchmar)数据集为真实图像,数据均为320*240空间大小的的图像,且标签中包括受不得RGB图像及每只手21个关键点的笛卡尔坐标。
本实验例主要与传统方法在不同阶段下结果进行比较。网络采用GeForce RTX2080Ti显卡训练与测试。由图5可知,网络在训练8万次有较好的收敛。
本实施例将EPE(End Point Error)与AUC(Area Under the Curve)做为实验结果的评估标准。其中(xgt,ygt,zgt)为数据集内真实三维姿态估计点,(xpre,ypre,zpre)为采用此实施例估计出的三维姿态点。Auc曲线为ROC曲线下的面积,而作为一个数值,对应AUC更大效果更好。
AUC=∫||pre-gt||
在对三维姿态估计的评价标准中,采用上述实施例的基于神经网络的三维手部姿态估计方法在RHD数据集和STB数据集下训练7万次的结果如下表。其中hand3d是发表在2017 ICCV Zimmermann等人的结果。

Claims (1)

1.一种基于神经网络的三维手部姿态估计方法,其特征在于,按下列步骤进行:
步骤一,数据预处理:首先将数据集中所需要的手部位置信息、二维关键点坐标、三维关键点坐标等信息用matlab处理成二值化信息,以便于后续减少后续网络计算量与训练时间、运算成本;
步骤二,为了更好的估计图像中的手的三维姿态,需要先获得手部在图像中的位置信息,用VGG16网络前十层提取图像特征;
所述手部在图像中的位置信息的获得方法是:
1)HandScore网络首先通过VGG-16网络的前十层提取图像特征其中的信息包括图像的颜色、纹理、形状和空间关系的特征;
2)将编码层提取到空间大小为W*H*512的信息进行上采样;通过一两通道步长为1的卷积层,得到图像手的热力图信息ScoremapW*H*2,其中通道一为背景信息得分图,通道二为手的位置信息;
步骤三,将提取的图像上采样至原图大小,网络用softmax+crossentropy的损失函数优化位置信息提取手部位置信息,即Scoremap;
步骤四,为了降低图像背景对后续姿态估计任务性能的影响,将原始图像信息与Scoremap信息融合,以一定程度模糊去除图像背景;
步骤五,将步骤四的结果输入实例分割网络中,以数据集中二维关键点为作为其真实值,得到其关键点的置信图;
步骤六,将置信图使用argmax处理后得到其二维关键点坐标,输入后续二维到三维映射网络中,用堆叠的方法映射出关键点在三维场景下的姿态。
CN202110052293.8A 2021-01-15 2021-01-15 一种基于神经网络的三维手部姿态估计方法 Active CN112836594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110052293.8A CN112836594B (zh) 2021-01-15 2021-01-15 一种基于神经网络的三维手部姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110052293.8A CN112836594B (zh) 2021-01-15 2021-01-15 一种基于神经网络的三维手部姿态估计方法

Publications (2)

Publication Number Publication Date
CN112836594A CN112836594A (zh) 2021-05-25
CN112836594B true CN112836594B (zh) 2023-08-08

Family

ID=75928244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110052293.8A Active CN112836594B (zh) 2021-01-15 2021-01-15 一种基于神经网络的三维手部姿态估计方法

Country Status (1)

Country Link
CN (1) CN112836594B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830150A (zh) * 2018-05-07 2018-11-16 山东师范大学 一种基于三维人体姿态估计方法及装置
CN109214282A (zh) * 2018-08-01 2019-01-15 中南民族大学 一种基于神经网络的三维手势关键点检测方法和系统
CN109948453A (zh) * 2019-02-25 2019-06-28 华中科技大学 一种基于卷积神经网络的多人姿态估计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190214107A1 (en) * 2015-04-21 2019-07-11 The Trustees Of Colombia University In The City Of New York Engineering surface epitopes to improve protein crystallization
US11775836B2 (en) * 2019-05-21 2023-10-03 Magic Leap, Inc. Hand pose estimation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830150A (zh) * 2018-05-07 2018-11-16 山东师范大学 一种基于三维人体姿态估计方法及装置
CN109214282A (zh) * 2018-08-01 2019-01-15 中南民族大学 一种基于神经网络的三维手势关键点检测方法和系统
CN109948453A (zh) * 2019-02-25 2019-06-28 华中科技大学 一种基于卷积神经网络的多人姿态估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于级联卷积神经网络的彩色图像三维手势估计;刘玮;戴仕明;杨文姬;杨红云;钱文彬;;小型微型计算机系统(03);全文 *

Also Published As

Publication number Publication date
CN112836594A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN110287849B (zh) 一种适用于树莓派的轻量化深度网络图像目标检测方法
CN111401384B (zh) 一种变电设备缺陷图像匹配方法
Wang et al. Background-driven salient object detection
CN109086777B (zh) 一种基于全局像素特征的显著图精细化方法
CN109086405B (zh) 基于显著性和卷积神经网络的遥感图像检索方法及系统
CN111582044A (zh) 基于卷积神经网络和注意力模型的人脸识别方法
CN109299303B (zh) 基于可变形卷积与深度网络的手绘草图检索方法
CN107301643B (zh) 基于鲁棒稀疏表示与拉普拉斯正则项的显著目标检测方法
CN109344856B (zh) 一种基于多层判别式特征学习的脱机签名鉴别方法
CN105550641B (zh) 基于多尺度线性差分纹理特征的年龄估计方法和系统
CN111126240A (zh) 一种三通道特征融合人脸识别方法
CN112036511B (zh) 基于注意力机制图卷积神经网络的图像检索方法
CN111079514A (zh) 一种基于clbp和卷积神经网络的人脸识别方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN103336835A (zh) 基于权值color-sift特征字典的图像检索方法
CN113011253A (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN116385707A (zh) 基于多尺度特征与特征增强的深度学习场景识别方法
CN106203448A (zh) 一种基于非线性尺度空间的场景分类方法
CN110188646B (zh) 基于梯度方向直方图与局部二值模式融合的人耳识别方法
CN111339932A (zh) 一种掌纹图像预处理方法和系统
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN112836594B (zh) 一种基于神经网络的三维手部姿态估计方法
CN115423982B (zh) 基于图像和深度的桌面冰壶三维检测方法
CN108537855B (zh) 一种草图一致的陶瓷花纸图案生成方法及装置
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231211

Address after: Room 8495, 2nd Floor, Building 4, Free Trade Industrial Park, No. 2168 Zhenghe Fourth Road, Fengdong New City, Xixian New District, Xi'an City, Shaanxi Province, 710075

Patentee after: Shaanxi Yihui Zhichuang Information Technology Co.,Ltd.

Address before: 710069 No. 229 Taibai North Road, Shaanxi, Xi'an

Patentee before: NORTHWEST University