CN111695408A

CN111695408A - 一种智能手势信息识别系统及方法、信息数据处理终端

Info

Publication number: CN111695408A
Application number: CN202010329212.XA
Authority: CN
Inventors: 赵子懿; 武文瀚; 刘卓
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-09-22

Abstract

本发明属于数据处理技术领域，公开了一种智能手势信息识别系统及方法、信息数据处理终端，所述智能手势信息识别系统具体包括：目标确定模块用于使用鲁棒性较好的人脸来确定检测目标；区域划分模块用于对目标进行区域划分；目标识别模块用于在目标的区域进行手势识别；数据传输模块用于进行数据传输；数据处理模块用于将用户数据及识别图像进行初步处理压缩；服务器用于对手势进行处理、利用基于改进Fisher理论的识别算法进行识别匹配并将结果发送至显示模块；显示模块用于显示识别结果。本发明使用了服务器端与前端分离，以减少对硬件的压力并尽量满足其基本功能，扩大了相比其他手势识别的优势。

Description

一种智能手势信息识别系统及方法、信息数据处理终端

技术领域

本发明属于数据处理技术领域，尤其涉及一种智能手势信息识别系统及方法、信息数据处理终端。

背景技术

目前，随着机器人技术的发展，智能服务机器人开始成为人类未来改善生活质量的一大亮点。人机交互的研究方向主要有表情、声音和手势识别技术。其中，手势是一种自然直观的人机交流模式，在信息表达上比表情更明确、信息量更丰富。在人机交互中，基于视觉的手势识别是实现新一代人机交互的关键技术通过图像信息，让机器人获取人的手势姿态信息，对不同的手势信息进行分类，涵盖了硬件与软件，用户用手可直接进行操作，相比于触摸手机屏所实现的功能，使用方便快捷。

事实上，作为一种新兴的人机交互方式，手势识别技术在很多范围领域都有了应用的实例。比如，2008年，爱立信推出一款智能手机R520m，该手机通过其内置摄像头采集用户的手势信息，在手机界面充当键盘或触摸屏，从而实现对闹钟和来电的控制。再例如，在太空探索和军事研究领域，经常会遇到一些危险环境或不便于人直接接触控制的特殊环境，这时便可通过手势远程操控机器人进行交互获得相关信息。

但从目前的市场情况看，国内外的手势识别市场规模并不大，大多数公司都处于产品化、市场化的早期阶段，有些初创公司还处于技术研发阶段。这一技术之所以在全球发展呈现如此态势，除技术原因之外，更重要的因素是手势识别还未找到合适的、能够支撑其爆发的应用场景。

与此同时，手势识别交互技术也逐步在一些日常生活需求的智能设备上得以应用和普及，可以预见的是，它将成为未来智能生活的模式之一。

在智能汽车领域，汽车制造商越来越希望通过在汽车上实施功能性安全技术，来减少驾驶员的分神行为。虽然车载语音交互技术、产品的成熟度较高，但对持续性命令的执行如调节音量、进度等较难量化的命令，语音识别仍存在一定的局限性。而手势识别可通过不同的手势实现车内接听电话、调节音量、切歌、控制导航等功能的操作，实现包括主副驾驶、后排乘客交互的多种场景。手势识别+语音交互互补，成就最好的交互“拍档”。

在智能家居领域，各式各样的设备功能给用户带来交互体验不佳和操作繁琐的问题也更加明显。相比于传统人机交互系统使用鼠标、键盘等操作方式，更加简单、自然且人性化的手势识别技术在人机交互中的应用将更加广泛。

目前，手势识别广泛应用在手语识别，电脑游戏，虚拟现实等方面。手势是非语言的一种通信形式。其中可见身体动作可用于通信。它可分为静态和动态。识别和预测的过程手势被称为手势识别，标象识别是其应用之一。标象语言可能涉及方向和手，胳膊或身体，手的形状的移动，和面部表情来表达思想和单词，可用于聋哑人的通信。几十年过去了，手势识别变得越来越重要。有许多手势识别技术开发跟踪和识别各种手势，每一个他们都有自己的优点和缺点。以前的是有线技术，用户需要用连接自己与计算机系统的接口。但有线技术的用户不能自由在房间移动，因为它们用电线同电脑连接，受电线长度限制。仪表手套也被称为电子手套或数据手套是有线技术的例子。这些由一些传感器组成的仪器手套，提供用户与手的位置信息，手指位置方向等。通过使用传感器。这些数据手套提供良好的输出结果，但他们都非常昂贵。而现在，基于深度学习的手势识别通过数学算法来识别人的手势，目前大多数研究者均将注意力集中在手势的最终识别方面，通常会将手势背景简化，使人的轮廓变得明显，来增强摄像头对人脸，人手的识别，并以此在单一背景下利用所研究的算法将手势进行分割，然后采用常用的识别方法将手势表达的含义通过系统分析出来。但在现实应用中，安卓端手势通常处于复杂的环境下。

现在研究的手势识别方法主要包括三个部分：

(a)手势分割。将手部区域从场景中分割出来，并对手部的区域和轮廓进行提取。这里的手部区域主要根据c)跟踪的结果提供。

(b)手势图像的外接多边形拟合以及匹配部分。对a)提取出来的手势轮廓作多边形拟合，分析多边形的形状特点，并在特征库中查找与拟合的多边形特征相符合的对象，再映射到具体的手势。

(c)手势跟踪部分。根据颜色信息对手的区域进行定位，并对图像进行空间转换，利用统计原理对下一帧手可能出现的区域进行预测，并将预测的结果反馈给a)的手势分割部分。

手势识别的应用：

a.手势识别与辅助驾驶

在直视前方道路时，使用手势操控部分系统功能，简单易上手。手势控制的传感器位于车内后视镜前方的车顶部位，将手伸到档把上方，高度大约在出风口前方的时候，传感器就可识别手势。

b.基于数据手套的手势识别。

将集成传感器的可穿戴手势输入设备与用户肢体连接，可直接获取用户的肢体运动信息，然后将运动信息转化为数字信号传送到计算机中集中处理。数据手套是使用一种典型的手势输入设备，其中含有多个传感器件，能够准确获取用户手的位置和手指指向。由于获取信息准确，数据手套能够获得很好的识别效果。尽管基于可穿戴设备的手势识别数据获取简单、准确，识别率高，但是数据手套及其附属的连接线会给使用者带来不便，影响人与机器之间正常的交流同时手套的价格对普通消费者来说也较昂贵。

c.基于视觉的手势识别。

由于基于可穿戴设备的手势识别具有固有缺陷，学者开发了基于视觉的手势识别系统。在这类系统中，首先通过单目或双目摄像头获取手势图像顿序列，然后对图像序列进行一系列处理，分割出手势区域并获取手势的基本信息，最后将其与预先训练好的手势信息进行特征匹配，达到手势识别的目的。因此，基于视觉手势识别的研巧者们主要将精力放在手势分割、手势特征提取及手势特征的匹配与识别算法的改进上。

而目前关于手势识别的算法，国内外的研究人员已经提出了很多不同的解决方案。目前比较常用的有基于统计的HMM模型、基于遗传算法以及基于人工神经网络的手势识别等。基于统计的HMM方法，其优点是利用先验知识建立视觉特征之间的因果关系来处理视频处理中固有的不确定性问题，不但能够在每个时刻上对多个随机变量所对应的不同特征之间的依存关系进行概率建模，而且考虑了各个时刻间的转移概率，能够很好地反映特征之间的时序关系。但是它需要维护一个具有一定规模的样本库，而且在使用HMM进行手势识别时计算量大。当然，样本库的规模越大其分布越接近实际情况，手势识别的准确率就越高，而且还需要使用数据平滑的技术来扩大小概率的值。遗传算法对图像进行离散化处理，对图像离散点进行控制，把图像识别问题转换为一系列离散点的组合优化问题；但它不能够及时利用网络的反馈信息，搜索速度比较慢，所需训练样本大、训练时间长。人工神经网络通过把大量的简单处理单元 (神经元)广泛地连接起来构成一种复杂的信息处理网络，它在不同程度和层次上模仿人脑神经系统的信息处理、存储和检索功能，需要的样本少、效率高；但是需要人的参与训练，识别的正确率受主观因素的影响。

综上所述，现有技术存在的问题是：

(1)通过有线技术实现的手势识别，受电线长度限制用户不能自由在房间移动，且非常昂贵。

(2)基于统计的HMM识别方法需要维护一个具有一定规模的样本库，而且在使用HMM进行手势识别时计算量大；遗传手势算法不能够及时利用网络的反馈信息，搜索速度比较慢，所需训练样本大、训练时间长；人工神经网络需要人的参与训练，识别的正确率受主观因素的影响。

解决上述技术问题的难度：

(1)光线过亮或过暗有较多手势存在手势距采集设备距离不同等各种复杂背景因素，使完成准确的手势及人脸捕捉需要更加精密。手机的可移动性相对于稳定放置的计算机对图像的捕捉更加困难。

(2)现有算法在分割和识别这两个步骤通常都有计算量大、时间复杂度高的特点，而嵌入式设备又受到资源和计算能力的限制，要能够做到基于嵌入式系统的实时手势交互，就有必要对传统的手势识别算法进行改进。在安卓端进行识别操作会限制于手机运行内存，相比较于高性能计算机会有更严重延迟，需要对算法进行更严格的优化。

解决上述技术问题的意义：

手势识别作为人机交互的重要组成部分，其研究发展影响着人机交互的自然性和灵活性。它通过摄像机捕获用户的手势动作，并由计算机程序进行分析理解，再转换成计算机指令完成交互任务。这种交互方式摆脱传统键盘鼠标的束缚，使用手势识别的概念，可以将手指指向计算机屏幕，使得光标将相应地移动。这可能使常规输入设备(如鼠标，键盘甚至触摸屏)变得冗余。手势取代传统的敲击键盘或点击鼠标作为输入来控制自己的计算机，能够使人与机器之间的交互更加智能化、自然化，而且可将人们在日常生活中所获得的经验，直接运用到交互活动中，能够充分提高虚拟世界中的可操作性，并且可在虚拟世界中完成更加复杂的任务。近年来，电子游戏开始逐渐进入本发明的生活，并成为人们日常必不可少的一部分，尤其是虚拟现实技术的发展，如何将手势控制加入虚拟现实中，也是当前一个非常重要的研究方向，这种人机交互也提升了用户的游戏体验。

发明内容

针对现有技术存在的问题，本发明提供了一种智能手势信息识别系统及方法、信息数据处理终端。

本发明是这样实现的，一种智能手势信息识别方法，所述智能手势信息识别方法包括以下步骤：

步骤一，使用人脸确定检测目标，这个步骤首先要判断该图像是否是人脸，输出向量的形状，也就是两个值，分别为该图像是人脸的概率，以及该图像不是人脸的概率。这两个值加起来严格等于1。之所以使用两个值来表示，是为了方便定义交叉损失。人脸特征的5个关键点分别为：左眼、右眼、鼻子、左嘴角、右嘴角的位置。每个关键点又需要横坐标和纵坐标两维来表示，因此输出一共是10维(即1x1x10)。在实际计算中，通过P-Net中的第一卷积层的移动，会对图像中每一个12x12的区域都做一次人脸检测，判断这个图像中是否含有人脸，并且给出人脸框相关键点的位置，从而确定手的位置；

步骤二，对目标进行区域划分，手势分割包括2种方法：单目视觉和立体视觉。基于单目视觉的方法又分为基于徒手的表观特征(肤色，轮廓)；人为增加限制，如要求使用者戴上有色手套及各种光学标识；本发明使用基于肤色的收拾分割，构建了一种基于单目视觉的手势分割方法，可从视频图像序列中获取有意义的手势区域.针对确定的背景图像，以10帧的采样间隔采集手势图像，通过肤色信息特征来获得手势的肤色区域，同时通过差分法获得手势的运动区域，再将肤色区域与运动区域进行融合处理获得初始的手势区域，在此基础上，进一步研究了数学形态学的腐蚀和膨胀算法，实现了视频图像序列中的手势分割与定位.实验结果表明，该方法具有较好的手势分割效果和较高的定位准确度；

步骤三，将得到的初步手势识别图像及相关用户数据进行初步处理压缩并传送至服务器客户端发文件：首先建立和服务器的连接，然后本发明通过IO流来实现数据的传输，首先通过服务器的IP地址和端口号实现和服务器的连接，之后获取本地的文件的地址，建立java和文件的连接。接下来获取文件输入流和数据输出流，而服务器收文件，首先要接收客户端建立连接的申请，生成一个socket对象，之后赋予一个服务器端的文件地址，从而获取数据输入流和文件输出流。

步骤四，对手势进行处理，为了进一步提高BiLSTM的性能，本发明将fisher 准则加入到softmax损失函数中。首先，输入层由时间同步的三维加速度计和三维陀螺仪信号串接而成。根据传感器能够捕获的最大值，将传感器数据归一化为0到1之间。为了最小化类内变化，最大化手势数据的类间变化。本发明提出了基于Fisher线性判别的Fisher判据，利用基于改进Fisher准则的识别算法进行识别匹配并将反馈识别结果，利用显示设备进行结果显示。基于Fisher准则，预选出鉴别性能较强的特征子集，然后在预选所得到的特征子集上对特征进行分层聚类，从而最终达到去除不相关和冗余特征的目的.实验结果表明该方法是一种有效的特征选择方法.

进一步，所述步骤四中基于改进Fisher理论的识别算法具体包括：基于深度卷积神经网络，在利用深度卷积网络对权值进行训练时，引入Fisher判别准则，每次迭代训练更新权值，以保证实际输出值和标签误差尽量小，而且保证同类样本距离更近、非同类样本距离更远为目标进行每层参数的调整，不断更新迭代，训练出更有利于分类和识别的网络权值；建立不同手势以及其对应含义的模型，再根据实际情况，对服务器系统架构进行特化。

本发明的另一目的在于提供一种实施所述智能手势信息识别方法的智能手势信息识别系统，所述智能手势信息识别系统包括：

目标确定模块：用于通过人脸确定检测目标；

区域划分模块：用于对目标进行区域划分；

目标识别模块：用于在目标的区域进行手势识别；

数据传输模块：用于进行数据传输；

数据处理模块：用于将用户数据及识别图像进行初步处理压缩；

服务器：用于对手势进行处理、利用基于改进Fisher理论的识别算法进行识别匹配并将结果发送至显示模块；

显示模块：用于显示识别结果。

本发明的另一目的在于提供一种实现所述智能手势信息识别方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的智能手势信息识别方法。

综上所述，本发明的优点及积极效果为：本发明使用方便、计算简单，通过更优化的算法、更前沿的人机交互模式，实现更加智能、更加便捷的生活；本发明实时性好，避免对高维度特征矢量的计算，数据量大的数组处理以及复杂的搜索过程；有足够的鲁棒性，不受识别对象旋转、平移和比例改变以及摄像头视角改变的影响；本发明能够实现手势跟踪的连续性和自动初始化，能够在跟踪失败后自动恢复跟踪，尽量减少人的干预。

本发明使用了服务器端与前端分离，以减少对硬件的压力并尽量满足其基本功能，扩大了相比其他手势识别的优势；服务器端使用了Fisher准则进行优化，在深度神经网络的学习过程可有效减少其样本量并提高其学习效率；利用了OpenCV(OpenComputerVersion)的函数库，可以高效使用windows端、linux 端等服务器端的资源，减轻了开发压力。

附图说明

图1是本发明实施例提供的智能手势信息识别系统结构示意图；

图中：1、目标确定模块；2、区域划分模块；3、目标识别模块；4、数据传输模块；5、数据处理模块；6、服务器；7、显示模块。

图2是本发明实施例提供的智能手势信息识别方法流程图。

图3是本发明实施例提供的使用人脸确定检测目标示意图。

图4是本发明实施例提供的对手势进行处理示意图。

图5是本发明实施例提供的手势识别流程图。

图6是本发明实施例提供的手势识别装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种智能手势信息识别系统及方法、信息数据处理终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的智能手势信息识别系统具体包括：

目标确定模块1：用于使用鲁棒性较好的人脸来确定检测目标。

区域划分模块2：用于对目标进行区域划分。

目标识别模块3：用于在目标的区域进行手势识别。

数据传输模块4：用于进行数据传输。

数据处理模块5：用于将用户数据及识别图像进行初步处理压缩。

服务器6：用于对手势进行处理、利用基于改进Fisher理论的识别算法进行识别匹配并将结果发送至显示模块。

显示模块7：用于显示识别结果。

如图2所示，本发明实施例提供的智能手势信息识别方法包括：

S201，使用鲁棒性较好的人脸来确定检测目标。

S202，对目标进行区域划分，并在目标的区域进行初步手势识别。

S203，将得到的初步手势识别图像及相关用户数据进行初步处理压缩并传送至服务器。

S204，对手势进行处理，利用基于改进Fisher理论的识别算法进行识别匹配并将反馈识别结果，利用显示设备进行结果显示。

步骤S204中，本发明实施例提供的基于改进Fisher理论的识别算法具体包括：基于深度卷积神经网络，在利用深度卷积网络对权值进行训练时，引入Fisher 判别准则，每次迭代训练更新权值，以保证实际输出值和标签误差尽量小，而且保证同类样本距离更近、非同类样本距离更远为目标进行每层参数的调整，不断更新迭代，训练出更有利于分类和识别的网络权值；建立不同手势以及其对应含义的模型，再根据实际情况，对服务器系统架构进行特化。

本发明实施例提供的智能手势信息识别方法具体包括：

步骤一，使用人脸确定检测目标，这个步骤首先要判断该图像是否是人脸，输出向量的形状，也就是两个值，分别为该图像是人脸的概率，以及该图像不是人脸的概率。这两个值加起来严格等于1。之所以使用两个值来表示，是为了方便定义交叉损失。人脸特征的5个关键点分别为：左眼、右眼、鼻子、左嘴角、右嘴角的位置。每个关键点又需要横坐标和纵坐标两维来表示，因此输出一共是10维(即1x1x10)。在实际计算中，通过P-Net中的第一卷积层的移动，会对图像中每一个12x12的区域都做一次人脸检测，判断这个图像中是否含有人脸，并且给出人脸框相关键点的位置，从而确定手的位置；如图3所示。

步骤二，对目标进行区域划分，手势分割包括2种方法：单目视觉和立体视觉。基于单目视觉的方法又分为基于徒手的表观特征(肤色，轮廓)；人为增加限制，如要求使用者戴上有色手套及各种光学标识；本发明使用基于肤色的收拾分割，构建了一种基于单目视觉的手势分割方法，可从视频图像序列中获取有意义的手势区域。针对确定的背景图像，以10帧的采样间隔采集手势图像，通过肤色信息特征来获得手势的肤色区域，同时通过差分法获得手势的运动区域，再将肤色区域与运动区域进行融合处理获得初始的手势区域，在此基础上，进一步研究了数学形态学的腐蚀和膨胀算法，实现了视频图像序列中的手势分割与定位；实验结果表明，该方法具有较好的手势分割效果和较高的定位准确度；

步骤四，对手势进行处理，为了进一步提高BiLSTM的性能，本发明将fisher 准则加入到softmax损失函数中。首先，输入层由时间同步的三维加速度计和三维陀螺仪信号串接而成。根据传感器能够捕获的最大值，将传感器数据归一化为0到1之间。为了最小化类内变化，最大化手势数据的类间变化。本发明提出了基于Fisher线性判别的Fisher判据，利用基于改进Fisher准则的识别算法进行识别匹配并将反馈识别结果，利用显示设备进行结果显示。基于Fisher准则，预选出鉴别性能较强的特征子集，然后在预选所得到的特征子集上对特征进行分层聚类，从而最终达到去除不相关和冗余特征的目的(如图4所示)。实验结果表明该方法是一种有效的特征选择方法。

下面结合实验对本发明的技术效果作详细的描述。

图5是本发明实施例提供的手势的数据收集示意图。如图所示，手势数据库由两类:阿拉伯数字(1、2、3、4、5、6)和英文大写字母(a,B,C,D,E,F)。此外, 手势的笔划顺序提前设置,以确保一致性的手势捕捉到每个参与者的左或右手。每一类手势具有约460个不同执行速度的样本，带有异构加速度计和陀螺仪信号的手势序列共有5547个。加速度计和陀螺仪传感器的采样时间为5ms，频率为200Hz。这是迄今为止最大的基于移动手势识别的数据库，这对研究社区是有益的。

图6是本发明实施例提供的手势识别装置示意图。实验需要提供至少一个可以接收手势服务器中的传感器输入信息的远程控制设备,用于检测一个手势信息从至少一个传感器输入。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能手势信息识别方法，其特征在于，所述智能手势信息识别方法包括以下步骤：

步骤一，使用人脸确定检测目标；

步骤二，对目标进行区域划分，并在目标的区域进行初步手势识别；

步骤三，将得到的初步手势识别图像及相关用户数据进行初步处理压缩并传送至服务器；

步骤四，对手势进行处理，利用基于改进Fisher理论的识别算法进行识别匹配并将反馈识别结果，利用显示设备进行结果显示。

2.如权利要求1所述的智能手势信息识别方法，其特征在于，所述步骤四中基于改进Fisher理论的识别算法具体包括：基于深度卷积神经网络，在利用深度卷积网络对权值进行训练时，引入Fisher判别准则，每次迭代训练更新权值，以保证实际输出值和标签误差尽量小，而且保证同类样本距离更近、非同类样本距离更远为目标进行每层参数的调整，不断更新迭代，训练出更有利于分类和识别的网络权值；建立不同手势以及其对应含义的模型，再根据实际情况，对服务器系统架构进行特化。

3.一种实施权利要求1～2任意一项所述智能手势信息识别方法的智能手势信息识别系统，其特征在于，所述智能手势信息识别系统包括：

目标确定模块：用于通过人脸确定检测目标；

区域划分模块：用于对目标进行区域划分；

目标识别模块：用于在目标的区域进行手势识别；

数据传输模块：用于进行数据传输；

显示模块：用于显示识别结果。

4.一种实现权利要求1～2任意一项所述智能手势信息识别方法的信息数据处理终端。

5.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-2任意一项所述的智能手势信息识别方法。