CN106295531A - 一种手势识别方法和装置以及虚拟现实终端 - Google Patents
一种手势识别方法和装置以及虚拟现实终端 Download PDFInfo
- Publication number
- CN106295531A CN106295531A CN201610620796.XA CN201610620796A CN106295531A CN 106295531 A CN106295531 A CN 106295531A CN 201610620796 A CN201610620796 A CN 201610620796A CN 106295531 A CN106295531 A CN 106295531A
- Authority
- CN
- China
- Prior art keywords
- hands
- gesture
- grader
- random forest
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种手势识别方法和装置以及虚拟现实终端,所述方法包括:获取手势行为动作对应的多个手型图像;根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。本发明实施例的手势识别方法和装置以及虚拟现实终端,采用多类分类和随机森林,对获取的手势的行为动作的多个手型图像序列进行训练,得到与每个手型图像相对应的分类器,可以避免现有技术中单依赖手指尖或者手掌心的运动进行分析时的误判性,降低手势行为中相邻两种动作的识别的误检,以及提高准确度。
Description
技术领域
本发明实施例涉及人机交互技术领域,尤其涉及一种手势识别方法和装置以及虚拟现实终端。
背景技术
手势识别技术是人机交互的重要技术,例如,视觉机器人利用手型识别技术采集手势的动作而进行相应的处理。
手势识别是人机交互的重要技术,由简单粗略的到复杂精细的,大致可以分为三个等级:二维手型识别、二维手势识别、三维手势识别。
二维只是一个平面空间,可以用(X坐标,Y坐标)组成的坐标信息来表示一个物体在二维空间中的坐标位置,就像是一幅画出现在一面墙上的位置。三维则在此基础上增加了“深度”(Z坐标)的信息,这是二维所不包含的。
二维手型识别,也可称为静态二维手势识别,识别的是手势中最简单的一类。这种技术在获取二维信息输入之后,可以识别几个静态的手势,比如握拳或者五指张开。例如,用户可以用几个手型来控制播放器,例如,用户将手掌举起来放到摄像头前,视频就开始播放了;再把手掌放到摄像头前,视频又暂停了。
二维手势识别,比起二维手型识别来说稍难一些,但仍然基本不含深度信息,停留在二维的层面上。这种技术不仅可以识别手型,还可以识别一些简单的二维手势动作,比如对着摄像头挥挥手。二维手势识别拥有了动态的特征,可以追踪手势的运动,进而识别将手势和手部运动结合在一起的复杂动作。这样一来,就把手势识别的范围真正拓展到二维平面了,例如,不仅可以通过手势来控制计算机播放/暂停,还可以实现前进/后退/向上翻页/向下滚动这些需求二维坐标变更信息的复杂操作。
三维手势识别技术,是基于三维层面的,三维手势识别与二维手势识别的最根本区别就在于,三维手势识别需要的输入是包含有深度的信息,这就使得三维手势识别在硬件和软件两方面都比二维手势识别要复杂得多。对于一般的简单操作,比如只是想在播放视频的时候暂停或者继续放映,二维手势也就足够了。但是对于一些复杂的人机交互,比如玩游戏或者应用在VR(虚拟现实)上,三维手势是必须的。
自然的手势跟踪是真正的增强现实/虚拟现实(AR/VR)所必须的,需要能准确快速的识别复杂动作,并且作为软件开发工具包(SDK,Software Development Kit)提供给开发者只需要占用很少的资源。
手势识别,简单地说,这项技术是利用各类传感器对手部/手持工具的形态、位移等进行持续采集,每隔一段时间完成一次建模,形成一个模型信息的序列帧,再将这些信息序列转换为对应的指令,用来控制实现某些操作。
手势识别中,手的运动能有效表达人的意愿。但是人手在表达向上挥动时,并不是竖直向上的,而是向右倾斜(以右手为例),而人用右手表达向右的动作时,会有向上的倾斜,类似的情况也出现在用向左和向上的表达方式中,因此如何提高这种相邻两种动作的识别度成为有必要解决的问题。
在实现本发明的过程中,发明人发现现有技术采用点和轨迹,使用图像序列解决误差性,但是依然不能降低对相邻两种动作的识别的误差。
发明内容
本发明实施例的目的在于提供一种手势识别方法和装置以及虚拟现实终端,用以解决现有技术中手势行为中相邻两种动作的识别的误检和不够准确的问题。
本发明实施例采用的技术方案如下:
本发明的一实施例提供一种手势识别方法,包括:
获取手势行为动作对应的多个手型图像;
根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。
可选地,在所述获取手势行为动作对应的多个手型图像之前,所述方法还包括:
建立所述随机森林,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义;
所述将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义具体包括:
将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树;
根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
可选地,所述根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器具体包括:
对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
可选地,所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈。
可选地,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
本发明的另一实施例提供一种手势识别装置,包括:
获取单元,用于获取手势行为动作对应的多个手型图像;
确定单元,根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。
可选地,所述手势识别装置还包括:
随机森林建立单元,用于建立所述随机森林,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义;
存储单元,用于存储所述建立的随机森林;
所述确定单元还包括:比较子单元,用于将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树;根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
可选地,所述确定单元还包括:
训练子单元,用于对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
可选地,所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈。
可选地,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
本发明的另一实施例提供一种虚拟现实终端,包括:
硬件处理器,用于获取手势行为动作对应的多个手型图像;根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。
可选地,所述硬件处理器还用于建立所述随机森林,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义;
所述虚拟现实终端还包括:
存储器,用于存储所述建立的随机森林;
所述硬件处理器还用于将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树;根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
可选地,所述硬件处理器还用于对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
可选地,所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈。
可选地,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
本发明实施例的技术方案具有以下优点:
本发明实施例的手势识别方法和装置以及虚拟现实终端,采用多类分类和随机森林,对获取的手势行为动作的多个手型图像序列进行训练,得到与每个手型图像相对应的分类器,可以避免现有技术中单依赖手指尖或者手掌心(一个目标点)的运动进行分析时的误判性,降低手势行为中相邻两种动作的识别的误检,以及提高准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明另一实施例的一种手势识别方法的流程示意图;
图2为本发明一实施例的一种手势识别装置的结构示意图;
图3为本发明一实施例的一种虚拟现实终端的结构示意图;
图4为本发明另一实施例的一种手势识别装置的结构示意图;
图5为本发明实施例的一种完全二叉树的结构示意图;
图6为本发明实施例的一种偏二叉树的结构示意图;
图7为本发明另一实施例的一种手势识别方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明一实施例的一种手势识别方法的流程示意图,所述手势识别方法可以应用于机器人、计算机和电视等等各种视觉机器,所述手势识别方法可以如下所述。
步骤11,获取手势行为动作对应的多个手型图像。
步骤12,根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。
在本发明的另一实施例中,在所述获取手势行为动作对应的多个手型图像之前,所述手势识别方法还包括:
建立所述随机森林,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义;
所述将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义具体包括:
将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树;
根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
在本发明的另一实施例中,所述根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器具体包括:
对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
在本发明的另一实施例中,所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈。
在本发明的另一实施例中,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
本实施例提供的手势识别方法,采用多类分类和随机森林,对获取的手势的行为动作的多个手型图像序列进行训练,得到与每个手型图像相对应的分类器,可以避免现有技术中单依赖手指尖或者手掌心的运动进行分析时的误判性,降低手势行为中相邻两种动作的识别的误检,以及提高准确度。
如图2所示,为本发明一实施例的一种手势识别装置的结构示意图,所述手势识别装置可以设置于机器人、计算机和电视等等各种视觉机器中,所述手势识别装置包括:获取单元21和确定单元22。
所述获取单元21,用于获取手势行为动作对应的多个手型图像。
所述确定单元22,根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。
在本发明的另一实施例中,所述手势识别装置还包括:
随机森林建立单元,用于建立所述随机森林,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义;
存储单元,用于存储所述建立的随机森林;
所述确定单元还包括:比较子单元,用于将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树;根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
在本发明的另一实施例中,所述确定单元还包括:
训练子单元,用于对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
在本发明的另一实施例中,所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈。
在本发明的另一实施例中,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
本实施例提供的手势识别装置,采用多类分类和随机森林,对获取的手势的行为动作的多个手型图像序列进行训练,得到与每个手型图像相对应的分类器,可以避免现有技术中单依赖手指尖或者手掌心的运动进行分析时的误判性,降低手势行为中相邻两种动作的识别的误检,以及提高准确度。
如图3所示,为本发明一实施例的一种虚拟现实终端的结构示意图,所述虚拟现实终端可以设置于机器人、计算机和电视等等各种视觉机器中,所述虚拟现实终端包括:硬件处理器31。
所述硬件处理器31,用于获取手势行为动作对应的多个手型图像;根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。
在本发明的另一实施例中,所述硬件处理器31还用于建立所述随机森林,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义;
所述虚拟现实终端还包括存储器32,用于储存所述建立的随机森林;
所述硬件处理器31还用于将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树;根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
在本发明的另一实施例中,所述硬件处理器31还用于对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
在本发明的另一实施例中,所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈。
在本发明的另一实施例中,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
本实施例提供的虚拟现实终端,采用多类分类和随机森林,对获取的手势的行为动作的多个手型图像序列进行训练,得到与每个手型图像相对应的分类器,可以避免现有技术中单依赖手指尖或者手掌心的运动进行分析时的误判性,降低手势行为中相邻两种动作的识别的误检,以及提高准确度。
如图4所示,为本发明一实施例的一种手势识别装置的结构示意图,所述手势识别装置可以设置于机器人、计算机和电视等等各种视觉机器中,所述手势识别装置包括:获取单元41、确定单元42、随机森林建立单元43和存储单元44。
所述获取单元41,用于获取手势行为动作对应的多个手型图像并发送给所述确定单元42。
例如,所述获取单元41用于获取手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈的手势的行为动作中的任一种或多种的组合对应的多个手型图像。
所述获取单元41可以为摄像头,例如,可以为视觉传感器,有线摄像头和无线摄像头,例如,USB摄像头,wifi摄像头,ARM接摄像头和cmos摄像头。
所述确定单元42,用于根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。
在本发明的另一实施例中,所述确定单元42还包括:训练子单元421和比较子单元422。
例如,所述随机森林建立单元43用于建立所述随机森林,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义。
所述存储单元44,用于存储所述建立的随机森林。在本发明的另一实施例中,所述存储单元44还用于存储所述多类分类。
在本发明的另一实施例中,所述存储单元44还用于存储所述分类器和决策树的对应关系,以及所述决策树与手势行为动作含义的对应关系。
所述训练子单元421,用于对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
所述比较子单元422,用于将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树;根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈的行为动作图像。
本发明的另一实施例中,分类(Categorization or Classification),是指按照某种标准给对象贴标签(label),再根据标签来区分归类。例如,对获取的手势的行为动作对应的多个手型图像进行标签。
分类是数据挖掘的一种非常重要的方法,分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树(Decision Tree,DT)、逻辑回归、朴素贝叶斯、神经网络等算法。
分类器的构造和实施大体会经过以下几个步骤:
步骤1,选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。
步骤2,在训练样本上执行分类器算法,生成分类模型。
步骤3,在测试样本上执行分类模型,生成预测结果。
步骤4,根据预测结果,计算必要的评估指标,评估分类模型的性能。
决策树分类器,提供一个属性集合,决策树通过在属性集的基础上作出多个的决策,将数据分类。这个过程类似于通过一个植物的特征来辨认植物。可以应用这样的分类器来判定某人的信用程度,比如,一个决策树可能会断定“一个有家、拥有一辆价值在1.5万到2.3万美元之间的轿车、有两个孩子的人”拥有良好的信用。决策树生成器从一个“训练集”中生成决策树。例如一种可视化工具使用树图来显示决策树分类器的结构,在图中,每一个决策用树的一个节点来表示。图形化的表示方法可以帮助用户理解分类算法,提供对数据的有价值的观察视角。生成的分类器可用于对数据的分类。
例如,给定一组训练实例(X1,Y1),(X2,Y2),......(Xn,Yn),典型地,每个实例Xi,i=1,2,...,n是一个m维向量,Yi是一个有l(l>=1)个类别的向量,分类的任务是从训练实例中学习一个模型f:X->Y,从而对新的实例给出一个值得信赖的类别预测。
多类分类(multiclass classification)的分类器旨在对一个新的实例指定唯一的分类类别,常用的策略有两类:基于后验概率或距离一次给出所有类别的度量,选择度量值最大的类别作为预测类别;将多类分类分解为许多二元分类问题,然后组合所有二元分类的结果。
随机森林(Random Forest,RF),是用随机的方式建立一个森林,其中,所述随机森林由多个决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个输入样本应该属于那一类(对于分类算法),然后看看那一类被选择最多,就预测这个输入样本为那一类。
对于决策树,根据下列算法而建造每棵树:
1.用N来表示训练例子的个数,M表示变量的数目。
2.被告知一个数m,被用来决定当在一个节点上做决定时,会使用到多少个变量。m应小于M
3.从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样)。并使用这棵树来对剩余预测其类别,并评估其误差。
4.对于每一个节点,随机选择m个基于此点上的变量。根据这m个变量,计算其最佳的分割方式。
5.每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采用)。
在建立每一棵决策树的过程中,有两点需要注意-采样与完全分裂。首先是两个随机采样的过程,random forest对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为N个,那么采样的样本也为N个。这样使得在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现over-fitting。然后进行列采样,从M个特征feature中,选择m个(m<<M)。之后就是对采样之后的数据使用完全分裂的方式建立出决策树,这样决策树的某一个叶子节点要么是无法继续分裂的,要么里面的所有样本的都是指向的同一个分类。一般很多的决策树算法都一个重要的步骤-剪枝,但是由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting。
本实施例中,所述的训练例子或样本是所述获取的手势的行为动作对应的多个手型图像序列。
在本发明的另一实施例中,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
所述基于二叉树的多类分类,是指节点所包含的类别划分为两个子类,然后再对两个子类进一步划分,如此循环,直到子类中只包含一个类别为止,这样,就得到了一个倒立的二叉树。最后,在二叉树各决策节点训练支持向量机分类器,实现对识别样本的分类。决策树支持向量机多分类方法有很多种,不同方法的主要区别在于设计树结构的方法不同,例如完全二叉树结构和偏二叉树结构。决策树支持向量机多分类方法主要有5种:一类对余类法(OVR),一对一法(OVO),二叉树法(BT),纠错输出编码法和有向非循环图法。
如图5所示,为本发明实施例的一种完全二叉树的结构示意图,所述完全二叉树结构分类时使用的平均分类器数目为log2k,如图6所示,为本发明实施例的一种偏二叉树的结构示意图,偏二叉树使用的平均分类器数为(k+1)/2-1/k,具有其他层次结构的二叉树使用的分类器平均值介于二者之间。完全二叉树分类时所需要的分类器数目最少,因此具有较少支持向量的完全二叉树的分类器速度也是较快的。
一类对余类法(Oneversusrest,OVR),其步骤是构造k个两类分类机(设共有k个类别),其中第i个分类机把第i类同余下的各类划分开,训练时第i个分类机取训练集中第i类为正类,其余类别点为负类进行训练。判别时,输入信号分别经过k个分类机共得到k个输出值fi(x)=sgn(gi(x)),若只有一个+1出现,则其对应类别为输入信号类别;若输出不只一个+1(不只一类声称它属于自己),或者没有一个输出为+1(即没有一个类声称它属于自己),则比较g(x)输出值,最大者对应类别为输入的类别。
一对一分类法(Oneversusone,OVO)也称为成对分类法,在训练集T(共有k个不同类别)中找出所有不同类别的两两组合,共有P=k(k-1)/2个,分别用这两个类别样本点组成两类问题训练集T(i,j),然后用求解两类问题的SVM分别求得P个判别函数f(i,j)(x)=sgn(gi,j(x))。判别时将输入信号X分别送到P个判别函数f(i,j)(x),若f(i,j)(x)=+1,判X为i类,i类获得一票,否则判为j类,j类获得一票。分别统计k个类别在P个判别函数结果中的得票数,得票数最多的类别就是最终判定类别。
二叉树法(Binarytree,BT)先将所有类别划分为两个子类,每个子类又划分为两个子子类,以此类推,直到划分出最终类别,每次划分后两类分类问题的规模逐级下降。例如,设8类多类问题{1,2,3,4,5,6,7,8}。每个中间节点或者根节点代表一个二类分类机,8个终端节点(树叶)代表8个最终类别。首先将8类问题{1,2,3,4,5,6,7,8}划分为{1,3,5,7},{2,4,6,8}两个子集,然后对两个子集进行逐级划分,直到得到最终类别。
纠错输出编码法(Errorcorrectingoutputcode,ECOC)对k个类别的分类问题,可以建立M个不同的分类方法,如把奇数类看作正类,偶数类看作负类;把1、2类看作正类,剩下的k-2类看作负类等,这样就得到了多个(M个)两类问题,对每个两类问题建立一个决策函数,共有M个决策函数,每个决策函数的输出为+1或-1。若这些决策函数完全正确,k类中的每一个点输入M个决策函数后都对应一个长度为M的每个元素为+1或-1的数列。将这些数列按造类别顺序逐行排列起来,即可得到一个k行M列的矩阵A。相当于对每一类别进行长度为M的二进制编码,矩阵A的第i行对应第i类的编码,可以采用具有纠错能力的编码方式实现。
有效的ECOC法应满足两个条件:(1)编码矩阵A的行之间不相关;(2)编码矩阵A的列之间不相关且不互补。对于k类分类问题,编码长度M一般取:log2k<M≤2k-1-1。
判别时,将X依次输入M个决策函数,得到一个元素为+1或-1的长度为M的数列,然后把该数列与矩阵A比较。若决策函数准确,两类问题的选择合理,矩阵A中应有且仅有一行与该数列相同,这一行对应的类别即为所求类别。若矩阵A中没有一行与该数列相等,找出最接近的一行(如通过计算汉明距离),该行对应的类别即为所求类别。
有向非循环图法,对k个类别的多类问题,构造k(k-1)/2个OVO两类分类器,由于引入了图论中有向无环图(Directedacidicgraph,DAG)的思想,故被称为DAGSVM方法。每个节点代表一个OVO两类分类器,分布于k-1层结构中,其中顶层只有一个节点,称为根结点,底层(第k层)的k个点分别代表k个最终类别。第i层含有i个节点,第i层的第j个节点指向第i+1层的第j和第j+1个节点。区分第i类和第j类的子分类器对应节点位于拓扑图中第L-j+i层。分类时,将待判别点输入根结点,每次判别时排除掉最不可能的一个类别,经过k-1次判别后剩下的最后一个即为最终类别。
综上所述,本实施例的手势识别装置采用多类分类和随机森林,对获取的手势的行为动作的多个手型图像序列进行训练,得到与每个手型图像相对应的分类器,可以避免现有技术中单依赖手指尖或者手掌心(一个目标点)的运动进行分析时的误判性,降低手势行为中相邻两种动作的识别的误检,以及提高准确度。
如图7所示,为本发明一实施例的一种手势识别方法的流程示意图,所述手势识别方法可以用于机器人、计算机和电视等等各种视觉机器,所述手势识别方法主要如下所述。
步骤71,获取手势行为动作对应的多个手型图像。
例如,利用获取单元获取手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈的手势的行为动作中的任一种或多种的组合对应的多个手型图像。
所述获取单元可以为摄像头,例如,可以为视觉传感器,有线摄像头和无线摄像头,例如,USB摄像头,wifi摄像头,ARM接摄像头和cmos摄像头。
步骤72,对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器。
例如,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
步骤73,将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树。
步骤74,根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
例如,建立随机森林,其中,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义。
利用存储器存储所述建立的随机森林。在本发明的另一实施例中,所述存储器还存储所述多类分类。
在本发明的另一实施例中,所述存储器还存储所述分类器和决策树的对应关系,以及所述决策树与手势行为动作含义的对应关系。
所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈的行为动作图像。
在本发明的另一实施例中,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
关于多类分类和随机森林具体内容,可以如上述图4描述一种手势识别装置实施例的具体内容,在此不再赘述。
综上所述,本实施例的手势识别方法采用多类分类和随机森林,对获取的手势的行为动作的多个手型图像序列进行训练,得到与每个手型图像相对应的分类器,可以避免现有技术中单依赖手指尖或者手掌心(一个目标点)的运动进行分析时的误判性,降低手势行为中相邻两种动作的识别的误检,以及提高准确度。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (15)
1.一种手势识别方法,其特征在于,包括:
获取手势行为动作对应的多个手型图像;
根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。
2.如权利要求1所述的方法,其特征在于,在所述获取手势行为动作对应的多个手型图像之前,所述方法还包括:
建立所述随机森林,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义;
所述将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义具体包括:
将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树;
根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
3.如权利要求1所述的方法,其特征在于,所述根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器具体包括:
对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
4.如权利要求1所述的方法,其特征在于,所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈。
5.如权利要求1-4任意一项所述的方法,其特征在于,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
6.一种手势识别装置,其特征在于,包括:
获取单元,用于获取手势行为动作对应的多个手型图像;
确定单元,根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。
7.如权利要求6所述的装置,其特征在于,所述手势识别装置还包括:
随机森林建立单元,用于建立所述随机森林,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义;
存储单元,用于存储所述建立的随机森林;
所述确定单元还包括:比较子单元,用于将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树;根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
8.如权利要求6所述的装置,其特征在于,所述确定单元还包括:
训练子单元,用于对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
9.如权利要求6所述的装置,其特征在于,所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈。
10.如权利要求6-9任意一项所述的装置,其特征在于,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
11.一种虚拟现实终端,其特征在于,包括:
硬件处理器,用于获取手势行为动作对应的多个手型图像;根据多类分类对所述多个手型图像序列进行训练,得到与所述多个手型图像相对应的分类器,将所述相应的分类器与随机森林进行匹配以确定出手势行为动作的含义。
12.如权利要求11所述的虚拟现实终端,其特征在于,所述硬件处理器还用于建立所述随机森林,所述随机森林由多个决策树组成,所述随机森林的每一棵决策树对应一个手势行为动作含义;
所述虚拟现实终端还包括:
存储器,用于存储所述建立的随机森林;
所述硬件处理器还用于将所述得到的分类器与所述随机森林中的每一棵决策树分别进行比较,根据分类器和决策树的对应关系确定与所述分类器对应的决策树;根据决策树与手势行为动作含义的对应关系确定与所述确定的决策树对应的手势行为动作含义。
13.如权利要求11所述的虚拟现实终端,其特征在于,所述硬件处理器还用于对所述多个手型图像序列进行多类分类,每次分类结果得到一个分类器,所述多类分类的类别包括如下两个或多个:图像的灰度、图像的颜色、图像的纹理和图像的形状。
14.如权利要求11所述的虚拟现实终端,其特征在于,所述手势行为动作的含义包括如下任一种或多种的组合:手向上、手向下、手向左、手向右、手向前、手向后、手左右摇摆、手上下摇摆和手画圆圈。
15.如权利要求11-14任意一项所述的虚拟现实终端,其特征在于,所述多类分类包括一类对余类法、一对一分类法、二叉树法、纠错输出编码法和有向非循环图法的任意一个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610620796.XA CN106295531A (zh) | 2016-08-01 | 2016-08-01 | 一种手势识别方法和装置以及虚拟现实终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610620796.XA CN106295531A (zh) | 2016-08-01 | 2016-08-01 | 一种手势识别方法和装置以及虚拟现实终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106295531A true CN106295531A (zh) | 2017-01-04 |
Family
ID=57663971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610620796.XA Pending CN106295531A (zh) | 2016-08-01 | 2016-08-01 | 一种手势识别方法和装置以及虚拟现实终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106295531A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203204A (zh) * | 2017-05-23 | 2017-09-26 | 浙江大学 | 基于随机森林和二维码识别的农业移动机器人 |
CN107243141A (zh) * | 2017-05-05 | 2017-10-13 | 北京工业大学 | 一种基于运动识别的动作辅助训练系统 |
CN107526440A (zh) * | 2017-08-28 | 2017-12-29 | 四川长虹电器股份有限公司 | 基于决策树分类的手势识别的智能电器控制方法及系统 |
CN107885327A (zh) * | 2017-10-27 | 2018-04-06 | 长春理工大学 | 一种基于Kinect深度信息的指尖检测方法 |
WO2019023921A1 (zh) * | 2017-08-01 | 2019-02-07 | 华为技术有限公司 | 一种手势识别方法、装置及设备 |
WO2019071965A1 (zh) * | 2017-10-13 | 2019-04-18 | 平安科技(深圳)有限公司 | 数据处理的方法、数据处理装置及计算机可读存储介质 |
CN109902729A (zh) * | 2019-02-18 | 2019-06-18 | 清华大学 | 基于序列状态演进的行为预测方法及装置 |
CN110013197A (zh) * | 2019-04-16 | 2019-07-16 | 上海天诚通信技术股份有限公司 | 一种扫地机器人物体识别方法 |
CN110309743A (zh) * | 2019-06-21 | 2019-10-08 | 新疆铁道职业技术学院 | 基于行业标准动作的人体姿态判断方法及装置 |
CN111027416A (zh) * | 2019-11-21 | 2020-04-17 | 电子科技大学 | 一种基于商用WiFi的位置自适应动作识别方法 |
CN111898568A (zh) * | 2020-08-04 | 2020-11-06 | 深圳清华大学研究院 | 手势识别方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661556A (zh) * | 2009-09-25 | 2010-03-03 | 哈尔滨工业大学深圳研究生院 | 基于视觉的静态手势识别方法 |
CN102663364A (zh) * | 2012-04-10 | 2012-09-12 | 四川长虹电器股份有限公司 | 仿3d手势识别系统及方法 |
CN103105924A (zh) * | 2011-11-15 | 2013-05-15 | 中国科学院深圳先进技术研究院 | 人机交互方法和装置 |
CN103376890A (zh) * | 2012-04-16 | 2013-10-30 | 富士通株式会社 | 基于视觉的手势遥控系统 |
CN103971102A (zh) * | 2014-05-21 | 2014-08-06 | 南京大学 | 基于手指轮廓和决策树的静态手势识别方法 |
CN105205475A (zh) * | 2015-10-20 | 2015-12-30 | 北京工业大学 | 一种动态手势识别方法 |
-
2016
- 2016-08-01 CN CN201610620796.XA patent/CN106295531A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661556A (zh) * | 2009-09-25 | 2010-03-03 | 哈尔滨工业大学深圳研究生院 | 基于视觉的静态手势识别方法 |
CN103105924A (zh) * | 2011-11-15 | 2013-05-15 | 中国科学院深圳先进技术研究院 | 人机交互方法和装置 |
CN102663364A (zh) * | 2012-04-10 | 2012-09-12 | 四川长虹电器股份有限公司 | 仿3d手势识别系统及方法 |
CN103376890A (zh) * | 2012-04-16 | 2013-10-30 | 富士通株式会社 | 基于视觉的手势遥控系统 |
CN103971102A (zh) * | 2014-05-21 | 2014-08-06 | 南京大学 | 基于手指轮廓和决策树的静态手势识别方法 |
CN105205475A (zh) * | 2015-10-20 | 2015-12-30 | 北京工业大学 | 一种动态手势识别方法 |
Non-Patent Citations (1)
Title |
---|
赵显: ""基于随机森林的手势检测与识别系统的研究"", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107243141A (zh) * | 2017-05-05 | 2017-10-13 | 北京工业大学 | 一种基于运动识别的动作辅助训练系统 |
CN107203204A (zh) * | 2017-05-23 | 2017-09-26 | 浙江大学 | 基于随机森林和二维码识别的农业移动机器人 |
CN107203204B (zh) * | 2017-05-23 | 2019-05-07 | 浙江大学 | 基于随机森林和二维码识别的农业移动机器人 |
US11450146B2 (en) | 2017-08-01 | 2022-09-20 | Huawei Technologies Co., Ltd. | Gesture recognition method, apparatus, and device |
WO2019023921A1 (zh) * | 2017-08-01 | 2019-02-07 | 华为技术有限公司 | 一种手势识别方法、装置及设备 |
CN107526440A (zh) * | 2017-08-28 | 2017-12-29 | 四川长虹电器股份有限公司 | 基于决策树分类的手势识别的智能电器控制方法及系统 |
WO2019071965A1 (zh) * | 2017-10-13 | 2019-04-18 | 平安科技(深圳)有限公司 | 数据处理的方法、数据处理装置及计算机可读存储介质 |
CN107885327B (zh) * | 2017-10-27 | 2020-11-13 | 长春理工大学 | 一种基于Kinect深度信息的指尖检测方法 |
CN107885327A (zh) * | 2017-10-27 | 2018-04-06 | 长春理工大学 | 一种基于Kinect深度信息的指尖检测方法 |
CN109902729A (zh) * | 2019-02-18 | 2019-06-18 | 清华大学 | 基于序列状态演进的行为预测方法及装置 |
CN110013197A (zh) * | 2019-04-16 | 2019-07-16 | 上海天诚通信技术股份有限公司 | 一种扫地机器人物体识别方法 |
CN110309743A (zh) * | 2019-06-21 | 2019-10-08 | 新疆铁道职业技术学院 | 基于行业标准动作的人体姿态判断方法及装置 |
CN111027416A (zh) * | 2019-11-21 | 2020-04-17 | 电子科技大学 | 一种基于商用WiFi的位置自适应动作识别方法 |
CN111027416B (zh) * | 2019-11-21 | 2022-03-15 | 电子科技大学 | 一种基于商用WiFi的位置自适应动作识别方法 |
CN111898568A (zh) * | 2020-08-04 | 2020-11-06 | 深圳清华大学研究院 | 手势识别方法及相关设备 |
CN111898568B (zh) * | 2020-08-04 | 2023-06-23 | 深圳清华大学研究院 | 手势识别方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106295531A (zh) | 一种手势识别方法和装置以及虚拟现实终端 | |
Trott et al. | Interpretable counting for visual question answering | |
Li et al. | Adaptive RNN tree for large-scale human action recognition | |
CN110490177A (zh) | 一种人脸检测器训练方法及装置 | |
CN109918532A (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN113095415B (zh) | 一种基于多模态注意力机制的跨模态哈希方法及系统 | |
CN109934293A (zh) | 图像识别方法、装置、介质及混淆感知卷积神经网络 | |
CN107229904A (zh) | 一种基于深度学习的目标检测与识别方法 | |
CN106845430A (zh) | 基于加速区域卷积神经网络的行人检测与跟踪方法 | |
Wang et al. | MASD: A multimodal assembly skill decoding system for robot programming by demonstration | |
CN105051755A (zh) | 用于姿势识别的部位和状态检测 | |
Ibañez et al. | Approximate string matching: A lightweight approach to recognize gestures with Kinect | |
CN109829065B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN105917356A (zh) | 对象的基于轮廓的分类 | |
KR102154425B1 (ko) | 인공지능 학습을 위한 유사데이터 생성 방법 및 장치 | |
Park et al. | Fair-VQA: Fairness-aware visual question answering through sensitive attribute prediction | |
Heumer et al. | Grasp recognition for uncalibrated data gloves: A machine learning approach | |
Muhdalifah | Pooling comparison in CNN architecture for Javanese script classification | |
CA3106638A1 (en) | Relating complex data | |
CN112686300B (zh) | 一种数据处理方法、装置及设备 | |
Ilham et al. | Applying LSTM and GRU Methods to Recognize and Interpret Hand Gestures, Poses, and Face-Based Sign Language in Real Time | |
CN114067360A (zh) | 一种行人属性检测方法及装置 | |
CN113821610A (zh) | 信息匹配方法、装置、设备及存储介质 | |
Naydenov et al. | Clustering of non-annotated data | |
Bartolo et al. | Integrating Saliency Ranking and Reinforcement Learning for Enhanced Object Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170104 |
|
WD01 | Invention patent application deemed withdrawn after publication |