CN107220588A - 一种基于级联深度神经网络的实时手势追踪方法 - Google Patents
一种基于级联深度神经网络的实时手势追踪方法 Download PDFInfo
- Publication number
- CN107220588A CN107220588A CN201710261113.0A CN201710261113A CN107220588A CN 107220588 A CN107220588 A CN 107220588A CN 201710261113 A CN201710261113 A CN 201710261113A CN 107220588 A CN107220588 A CN 107220588A
- Authority
- CN
- China
- Prior art keywords
- feature
- data
- cascade
- real
- neutral net
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Abstract
本发明公开了一种基于级联深度神经网络的实时手势追踪方法,通过TOF摄像头及彩色摄像头获取图像数据,由图像预处理器对图像数据进行预处理操作,使用初级特征提取器将对预处理后的数据进行基本特征提取,再由级联人工神经网络系统进行进一步的高级特征抽象处理,经过模式匹配器根据特征抽象处理后的高级抽象特征进行模式匹配,最后通过姿态处理中心计算手部的二十六个节点的所有位置得出手部姿态和空间位置数据,并通过手势姿态数据流将其传递给计算机应用;通过本发明将人体手部的图像信息进行了快速的特征提取、匹配、姿态解算等过程,以此来保证计算出的手势姿态的稳定性、精确性及实时性。
Description
技术领域
本发明涉及高级计算机视觉及机器学习领域,尤其涉及一种基于级联深度神经网络的实时手势追踪方法。
背景技术
随着虚拟现实、增强现实等行业的飞速发展,解决用户的动作信息输入成为一个迫在眉睫的问题,而所有的人体动作信息中,手部的动作是最直观和方便的。因此,探索出一种快速、精准和实时级别的手势姿态追踪的方法,能够以最快的速度解决虚拟现实和增强现实的交互问题。
目前追踪手势姿态的方法主要有数据手套、图像数据分析,其中数据手套需要穿戴昂贵的设备,因此基于摄像头的图像数据分析成为首选。图像数据分析中,传统的方法一般是通过肤色区别手,探测手的各个节点,但会存在严重的遮挡问题,导致手势追踪极度不稳定、缓慢等问题,难以实用,并不能提供实时、稳定、精准的手势姿态。
发明内容
本发明的目的在于提供一种基于级联深度神经网络的实时手势追踪方法。
为实现上述目的,本发明提供如下技术方案:一种基于级联深度神经网络的实时手势追踪方法,包括以下步骤:
第一步,通过TOF摄像头及彩色摄像头获取图像数据,并通过图像数据流进入图像预处理器;
第二步,图像预处理器对图像数据进行预处理操作,然后将处理后的数据通过预处理数据流送入初级特征提取器;
第三步,初级特征提取器将对预处理后的数据进行基本特征提取,形成初级特征,并将初级特征通过初级特征流送入级联人工神经网络系统;
第四步,级联人工神经网络系统进行进一步的高级特征抽象处理,形成高级抽象特征,并通过高级抽象特征流传递至模式匹配器;
第五步,模式匹配器将会根据特征抽象处理后的高级抽象特征,进行模糊的模式匹配,并将模式匹配的相关数据通过手势模式数据流的方式传递至姿态处理中心;
第六步,最后通过姿态处理中心计算手部的二十六个节点的所有位置得出手部姿态和空间位置数据,并通过手势姿态数据流将其传递给计算机应用。
进一步,第二步中的预处理操作包括图像数据的接收、图像数据分块、提取边缘、提取角点、降采样和构建降采样数据的数据包,最后将构建的数据包通过数据包流,即预处理数据流送入初级特征提取器。
进一步,所述提取边缘具体为利用拉普拉斯边缘提取器提取边缘;提取角点具体为利用Harris角点提取器提取角点。
进一步,第三步中的基本特征提取包括解开数据包、尺度不变特征提取、特征筛选形成初级特征和构建初级特征数据包,最后将构建的初级特征数据包通过初级特征数据包流,即初级特征流送入级联人工神经网络系统。
进一步,所述尺度不变特征提取具体为使用SIFT算法进行提取。
进一步,第四步中的高级特征抽象处理包括解开初级特征数据包、级联人工神经网络系统抽取特征、高级抽象特征筛选形成高级抽象特征和构建高级特征数据包,最后将构建的高级特征数据包通过构建高级特征数据包流,即高级抽象特征流传递至模式匹配器。
进一步,所述级联人工神经网络系统抽取特征包括数据并行分解、最大池化处理、图像卷积处理、卷积图像层级化处理和数据正规化处理;最后通过完全链接层与高级抽象特征筛选交互。
与现有技术相比,本发明的有益效果是:本发明利用级联人工神经网络系统,将人体手部的图像信息进行了快速的特征提取、匹配、姿态解算等过程,确保能够实时获取人体手部的26个关节点的所有空间位置信息,具有实时性高、精准度高、稳定性强、易于复用等优点。
附图说明
下面结合附图对本发明进一步说明。
图1为本发明的工作系统架构图;
图2为本发明的技术方案流程图;
图3为本发明的图像预处理器运行流程图;
图4为本发明的初级特征提取器运行流程图;
图5为本发明的级联人工神经网络系统运行流程图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不限于此。
如图1、图2、图3、图4和图5所示的一种基于级联深度神经网络的实时手势追踪方法,包括以下步骤:
第一步,通过TOF摄像头及彩色摄像头获取手势的原始图像数据,并通过图像数据流进入图像预处理器;
第二步,图像预处理器对图像数据进行预处理操作,预处理操作包括图像数据的接收、图像数据分块、利用拉普拉斯边缘提取器提取边缘、利用Harris角点提取器提取角点、降采样和构建降采样数据的数据包,最后将构建的数据包通过数据包流,即预处理数据流送入初级特征提取器,这些操作可通过图像预处理器中包括数据分块线程、边缘提取线程、角点提取线程和降采样线程的显卡线程池实现并行运行,可以进行比CPU计算快20倍的运算,从而快速地获取图像的一些基本特征,并将基本特征传入初级特征提取器;
第三步,初级特征提取器将对预处理后的数据进行基本特征提取,形成初级特征,基本特征提取时先解开数据包,调度出降采样数据,再使用SIFT算法进行提取尺度不变特征,经过特征筛选形成初级特征,并构建初级特征数据包,最后将构建的初级特征数据包通过初级特征数据包流,即初级特征流送入级联人工神经网络系统;初级特征提取器的主要目的在于提取尺度不变特征,这些特征不会因为图像量度、大小、旋转角度等发生变化,主要使用SIFT算法进行提取,同时SIFT算法可以通过初级特征提取器中包括SIFT特征提取线程和特征筛选线程的显卡线程池进行并行化,速度比传统方法快10-20倍,最后将获取的尺度不变特征传入级联人工神经网络系统进行进一步高级特征抽象工作;
第四步,级联人工神经网络系统进行进一步的高级特征抽象处理,形成高级抽象特征,高级特征抽象处理时先解开初级特征数据包调度初级特征数据,再通过级联人工神经网络系统抽取特征,其中级联人工神经网络系统抽取特征过程包括数据并行分解、最大池化处理、图像卷积处理、卷积图像层级化处理和数据正规化处理,最后通过完全链接层与高级抽象特征筛选交互;再由高级抽象特征筛选形成高级抽象特征;将高级抽象特征构建成高级特征数据包,最后将构建的高级特征数据包通过构建高级特征数据包流,即高级抽象特征流传递至模式匹配器;级联人工神经网络系统是一个具有多层处理模块的复杂系统,与传统的人工神经网络系统不同的是,级联人工神经网络系统将原本一个权重层分为了多层权重层,同时将原本一张图像分解为多级图像,并行计算,从而更加快速地获取到高级的抽象特征,高级抽象特征包含了手部的姿态信息、位置信息等;
第五步,模式匹配器将会根据特征抽象处理后的高级抽象特征,进行模糊的模式匹配,并将模式匹配的相关数据通过手势模式数据流的方式传递至姿态处理中心,模式匹配器从级联人工神经网络系统获取到高级抽象特征,对手部的姿态信息进行更加精准的模式匹配,获取到精准的手势姿态数据及位置信息;
第六步,最后通过姿态处理中心计算手部的二十六个节点的所有位置得出手部姿态和空间位置数据,并通过手势姿态数据流将其传递给计算机应用手势姿态处理中心对模式匹配器处理后的数据进行进一步计算,将手势姿态数据、位置信息与计算机应用的坐标系进行匹配,同时解决手部翻转等问题。
上述图像预处理器、初级特征提取器和级联人工神经网络系统中都具有接收数据包的数据接收线程、构建数据包的数据包构建线程以及发送数据包的数据发送线程。
通过基于高级计算机视觉及级联人工神经网络系统的一系列的处理工作,用户可以实时、精准、稳定得获取到自己手部的26个关节点的姿态及位置信息,从而达到将手部所有动作映射到计算机应用中的目的。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于级联深度神经网络的实时手势追踪方法,其特征在于包括以下步骤:
第一步,通过TOF摄像头及彩色摄像头获取图像数据,并通过图像数据流进入图像预处理器;
第二步,图像预处理器对图像数据进行预处理操作,然后将预处理后的数据通过预处理数据流送入初级特征提取器;
第三步,初级特征提取器将对预处理后的数据进行基本特征提取,形成初级特征,并将初级特征通过初级特征流送入级联人工神经网络系统;
第四步,级联人工神经网络系统进行进一步的高级特征抽象处理,形成高级抽象特征,并通过高级抽象特征流传递至模式匹配器;
第五步,模式匹配器将会根据特征抽象处理后的高级抽象特征,进行模糊的模式匹配,并将模式匹配的相关数据通过手势模式数据流的方式传递至姿态处理中心;
第六步,最后通过姿态处理中心计算手部的二十六个节点的所有位置得出手部姿态和空间位置数据,并通过手势姿态数据流将其传递给计算机应用。
2.根据权利要求1所述的基于级联深度神经网络的实时手势追踪方法,其特征在于:第二步中的预处理操作包括图像数据的接收、图像数据分块、提取边缘、提取角点、降采样和构建数据包。
3.根据权利要求2所述的基于级联深度神经网络的实时手势追踪方法,其特征在于:所述提取边缘具体为利用拉普拉斯边缘提取器提取边缘;提取角点具体为利用Harris角点提取器提取角点。
4.根据权利要求1所述的基于级联深度神经网络的实时手势追踪方法,其特征在于:第三步中的基本特征提取包括解开数据包、尺度不变特征提取、特征筛选形成初级特征和构建初级特征数据包。
5.根据权利要求4所述的基于级联深度神经网络的实时手势追踪方法,其特征在于:所述尺度不变特征提取具体为使用SIFT算法进行提取。
6.根据权利要求1所述的基于级联深度神经网络的实时手势追踪方法,其特征在于:第四步中的高级特征抽象处理包括解开初级特征数据包、级联人工神经网络系统抽取特征、高级抽象特征筛选形成高级抽象特征和构建高级特征数据包。
7.根据权利要求6所述的基于级联深度神经网络的实时手势追踪方法,其特征在于:所述级联人工神经网络系统抽取特征包括数据并行分解、最大池化处理、图像卷积处理、卷积图像层级化处理和数据正规化处理;最后通过完全链接层与高级抽象特征筛选交互。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710261113.0A CN107220588A (zh) | 2017-04-20 | 2017-04-20 | 一种基于级联深度神经网络的实时手势追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710261113.0A CN107220588A (zh) | 2017-04-20 | 2017-04-20 | 一种基于级联深度神经网络的实时手势追踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107220588A true CN107220588A (zh) | 2017-09-29 |
Family
ID=59928213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710261113.0A Withdrawn CN107220588A (zh) | 2017-04-20 | 2017-04-20 | 一种基于级联深度神经网络的实时手势追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107220588A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107731233A (zh) * | 2017-11-03 | 2018-02-23 | 王华锋 | 一种基于rnn的声纹识别方法 |
CN111062969A (zh) * | 2019-12-06 | 2020-04-24 | Oppo广东移动通信有限公司 | 目标跟踪方法及相关产品 |
CN111722700A (zh) * | 2019-03-21 | 2020-09-29 | Tcl集团股份有限公司 | 一种人机交互方法及人机交互设备 |
CN111914595A (zh) * | 2019-05-09 | 2020-11-10 | 中国科学院软件研究所 | 一种基于彩色图像的人手三维姿态估计方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103824054A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于级联深度神经网络的人脸属性识别方法 |
CN105718878A (zh) * | 2016-01-19 | 2016-06-29 | 华南理工大学 | 基于级联卷积神经网络的第一视角空中手写和空中交互方法 |
CN106155327A (zh) * | 2016-08-01 | 2016-11-23 | 乐视控股(北京)有限公司 | 手势识别方法和系统 |
-
2017
- 2017-04-20 CN CN201710261113.0A patent/CN107220588A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103824054A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于级联深度神经网络的人脸属性识别方法 |
CN105718878A (zh) * | 2016-01-19 | 2016-06-29 | 华南理工大学 | 基于级联卷积神经网络的第一视角空中手写和空中交互方法 |
CN106155327A (zh) * | 2016-08-01 | 2016-11-23 | 乐视控股(北京)有限公司 | 手势识别方法和系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107731233A (zh) * | 2017-11-03 | 2018-02-23 | 王华锋 | 一种基于rnn的声纹识别方法 |
CN111722700A (zh) * | 2019-03-21 | 2020-09-29 | Tcl集团股份有限公司 | 一种人机交互方法及人机交互设备 |
CN111914595A (zh) * | 2019-05-09 | 2020-11-10 | 中国科学院软件研究所 | 一种基于彩色图像的人手三维姿态估计方法和装置 |
CN111062969A (zh) * | 2019-12-06 | 2020-04-24 | Oppo广东移动通信有限公司 | 目标跟踪方法及相关产品 |
CN111062969B (zh) * | 2019-12-06 | 2023-05-30 | Oppo广东移动通信有限公司 | 目标跟踪方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107688391B (zh) | 一种基于单目视觉的手势识别方法和装置 | |
Wang et al. | Action recognition from depth maps using deep convolutional neural networks | |
CN106251399B (zh) | 一种基于lsd-slam的实景三维重建方法及实施装置 | |
CN104317391B (zh) | 一种基于立体视觉的三维手掌姿态识别交互方法和系统 | |
CN111311666B (zh) | 一种融合边缘特征和深度学习的单目视觉里程计方法 | |
CN110555412B (zh) | 基于rgb和点云相结合的端到端人体姿态识别方法 | |
CN107220588A (zh) | 一种基于级联深度神经网络的实时手势追踪方法 | |
CN106845440A (zh) | 一种增强现实图像处理方法及系统 | |
CN103839277A (zh) | 一种户外大范围自然场景的移动增强现实注册方法 | |
CN106030610A (zh) | 移动设备的实时3d姿势识别和跟踪系统 | |
Ma et al. | Ppt: token-pruned pose transformer for monocular and multi-view human pose estimation | |
CN109389086A (zh) | 检测无人机影像目标的方法和系统 | |
CN110503686A (zh) | 基于深度学习的物体位姿估计方法及电子设备 | |
US20220262093A1 (en) | Object detection method and system, and non-transitory computer-readable medium | |
CN109359514A (zh) | 一种面向deskVR的手势跟踪识别联合策略方法 | |
Chalasani et al. | Egocentric gesture recognition for head-mounted ar devices | |
CN109948624A (zh) | 特征提取的方法、装置、电子设备和计算机存储介质 | |
Wang et al. | Deep learning based target detection algorithm for motion capture applications | |
Yan et al. | Human-object interaction recognition using multitask neural network | |
CN115482523A (zh) | 轻量级多尺度注意力机制的小物体目标检测方法及系统 | |
Cao et al. | Human posture recognition using skeleton and depth information | |
CN112861808B (zh) | 动态手势识别方法、装置、计算机设备及可读存储介质 | |
Chaudhary et al. | A vision-based method to find fingertips in a closed hand | |
Zhou et al. | Information-efficient 3-D visual SLAM for unstructured domains | |
Xu et al. | 3D joints estimation of the human body in single-frame point cloud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170929 |