CN105425964B

CN105425964B - 一种手势识别方法和系统

Info

Publication number: CN105425964B
Application number: CN201510862767.XA
Authority: CN
Inventors: 浠茬淮; 仲维
Original assignee: Qingdao Hisense Electronics Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2018-07-13
Anticipated expiration: 2035-11-30
Also published as: CN105425964A

Abstract

本发明实施例提供了一种手势识别方法和系统，涉及电子技术领域，用以弥补目前手势识别的精度低，类型少等技术缺陷，包括在预设时间内将第一摄像头和第二摄像头同一时刻分别拍摄的至少一张图像合成三维立体图像；提取第一图像中的手势操作轮廓及所述手势操作轮廓中每个像素的像素点信息；根据所述手势操作轮廓中每个像素的像素点信息，在与所述第一图像对应的三维立体图像上，获取像素点距离信息；将每张所述三维立体图像的手势变化信息和像素点距离信息与标准手势特征库中的手势变化信息以及像素点距离信息进行匹配，选取目标手势动作；根据所述目标手势动作执行所述目标手势动作对应的操作指令。本发明实施例可以用于电视识别中。

Description

一种手势识别方法和系统

技术领域

本发明涉及电子技术领域，尤其涉及一种手势识别方法和系统。

背景技术

随着智能化电视发展趋势，传统的通过控制设备(例如，鼠标，键盘以及遥控器等)来操控电视已经不能满足现代用户的需求。严重影响了智能化电视的发展与应用。在此背景下，手势操作，即在智能化电视中增加存储有用户的手势图像的手势识别功能，使用户可以通过手部动作(例如，挥手)来控制智能化电视等终端设备，例如，切换智能化电视频道、调节音量等，手势操作作为一种最为直观的操控方式，使人们可以更为便捷的实现了对智能化电视的灵活操控，大幅度提高了用户体验。

现有技术中，一方面，手势识别功能大多采用单一摄像头的方式进行用户的手势图像采集，并通过大量的图像分析及处理算法，识别用户的操控手势。青岛歌尔声学科技有限公司申请的公开号为CN103167340A的申请文件公开了“智能电视手势识别系统及其识别方法”，该申请文件首先通过摄像头采集用户的连续视频，并将所拍摄的连续视频传送到主控MCU(Microcontroller Unit，微控制单元)，同时，通过PIR传感器采集用户发出的远红外信号，并将所采集的远红外信号传送到主控MCU。主控MCU通过分析摄像头传送的连续视频中每帧图片的差异来判定用户的手势动作。同时，主控MCU分析PIR传感器传送的远红外信号来判定用户的手势运动轨迹，以修正用户的手势动作判定，从而对用户的手势运动轨迹进行精确的判定。最后，主控MCU根据对用户的手势动作分析判定结果来操作控制视频显示终端。

但是，PIR传感器通过晶体材料在红外线的辐射下产生电荷，辐射情况的变化导致电荷的变化，集成了高灵敏度FET元件的传感器可以感知这些变化。由于人体恒定温度一般在37度，会发出特定波长的红外线，PIR传感器探测人体发射的红外线而进行工作。但是，PIR传感器非常容易受到各种热源，光源的干扰。同时，由于红外线穿透力差，人体的红外辐射容易被遮挡，不易被PIR传感器接收。当环境温度和人体温度接近时，探测的灵敏度明显下降，会造成短时失灵。另外，由于PIR传感器对温度变化比较敏感，应远离空调，冰箱等安装，并且不得间隔家具，盆景等隔离物，否则会引起误报率。上述PIR传感器的应用局限极大限制了智能电视在家居环境中的摆放及使用，给用户造成了极大的不便，严重影响了用户体验。同时，由于该PIR传感器的信号只是用来进一步修正基于高清摄像头的手势识别结果，仍然无法解决手势识别精度低的问题，且识别的手势类型有限，严重影响了用户的操控体验。

另一方面，基于双目摄像头的手势识别技术也被一些厂商提出并加以运用。例如，公开号为CN103927016A的申请文件公开了“一种基于双目视觉的实时三维双手手势识别方法及其系统”。该申请文件提出了基于双目摄像头进行手势识别的相关技术，基于单摄像头识别手势操作轮廓，然后利用手势操作轮廓进行简单的三维匹配，获取手势质点的深度信息。由于该深度信息为单一距离数值，用于计算操控用户的左右双手间距离差，该做法无法充分利用深度信息，无法掌握用户手势操作的细微变化，无法弥补目前手势识别的精度低，识别类型少等技术缺陷。

发明内容

本发明的实施例提供一种手势识别方法和系统，用以弥补目前手势识别的精度低，识别类型少等技术缺陷。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供了一种手势识别方法，包括：

将预设时间内的N个拍摄时刻中的每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含手势操作的图像合成三维立体图像；

提取第一图像中的手势操作轮廓及所述手势操作轮廓中每个像素的像素点信息，其中，所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像；

根据所述手势操作轮廓中每个像素的像素点信息，在与所述第一图像对应的三维立体图像上，获取与所述手势操作轮廓中每个像素的像素点信息对应的像素点距离信息；

在预设时间内，将N个拍摄时刻所述第一摄像头和所述第二摄像头分别同时拍摄的包含手势操作的图像合成的N个三维立体图像的手势变化信息和像素点距离信息与标准手势特征库中的手势变化信息以及像素点距离信息进行匹配，选取目标手势动作；

根据所述目标手势动作执行所述目标手势动作对应的操作指令。

第二方面，本发明实施例提供了一种手势识别系统，包括终端，平行设置在终端上的第一摄像头和第二摄像头，运行在所述终端处理器上的图像处理系统、图像识别系统和执行系统；

其中，所述第一摄像头和第二摄像头处于同一水平线上；

所述第一摄像头和第二摄像头，用于在预设时间拍摄至少一张包含手势操作的图像；

所述图像处理系统，用于将预设时间内的N个拍摄时刻中的每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含手势操作的图像合成三维立体图像；

所述图像识别系统，用于提取第一图像中的手势操作轮廓及所述手势操作轮廓中每个像素的像素点信息，其中，所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像；

所述执行系统，用于根据所述目标手势动作执行所述目标手势动作对应的操作指令。

本发明实施例提供一种手势识别方法，通过将第一摄像头和第二摄像头同一时刻分别拍摄的至少一张包含手势操作的图像合成三维立体图像，并基于所述第一摄像头拍摄的二维图像，在所述二维图像对应的三维图像上获取与所述二维图像每个像素点的像素点信息对应的像素点距离信息，并将预设时间内，每张所述三维立体图像的手势变化信息和像素点距离信息与标准手势特征库中的手势变化信息以及像素点距离信息进行匹配，选取目标手势动作，该手势识别方法确保了高实时性，高精度的手势识别技术，大幅度提高用户的操控体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种手势识别方法的流程示意图一；

图2为本发明实施例一种手势识别方法的流程示意图二；

图3a为第二图像中任意一个像素点为中心像素点建立预设窗口的示意图；

图3b为第二图像中任意一个像素点为中心像素点建立预设窗口与第三图像进行匹配的示意图；

图3c为第二图像中任意一个像素点为中心像素点建立预设窗口与第三图像匹配结果示意图；

图4为本发明实施例一种手势识别方法的流程示意图三；

图5a为本发明实施例的手势操作轮廓提取示意图；

图5b为在第三图像中获取与第二图像提取的手势操作轮廓对应的手势操作；

图5c为本发明实施例的手势跟踪结果示意图；

图6为本发明实施例的一种手势识别系统的结构示意图一；

图7为本发明实施例的一种手势识别系统的结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种手势识别方法，如图1所示，包括：

S101、将预设时间内的N个拍摄时刻中的每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含手势操作的图像合成三维立体图像；

S102、提取第一图像中的手势操作轮廓及所述手势操作轮廓中每个像素的像素点信息，其中，所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像；

S103、根据所述手势操作轮廓中每个像素的像素点信息，在与所述第一图像对应的三维立体图像上，获取与所述手势操作轮廓中每个像素的像素点信息对应的像素点距离信息；

S104、在预设时间内，将N个拍摄时刻所述第一摄像头和所述第二摄像头分别同时拍摄的包含手势操作的图像合成的N个三维立体图像的手势变化信息和像素点距离信息与标准手势特征库中的手势变化信息以及像素点距离信息进行匹配，选取目标手势动作；

S105、根据所述目标手势动作执行所述目标手势动作对应的操作指令。

本发明实施例的一种手势识别方法的执行主体为终端的处理器，该终端可以为电视、电脑等，本发明实施例对此不作限定，该第一摄像头和第二摄像头用于获取手势操作的图像，该第一摄像头和第二摄像头可以是在终端上设置的摄像头。

本发明实施例中，该第一摄像头和第二摄像头感应用户是否在终端前进行手势操作，当第一摄像头和第二摄像头感应到用户进行手势操作时，获取预设时间内用户进行手势操作至少一张图像，另外，也可通过用户手动输入手势操作控制终端的开始信息，如用户按下在终端遥控器中设置启动手势识别技术的启动按键，再获取到所述启动按键触发的启动指令后，处理器控制所述第一摄像头和第二摄像头获取用户进行手势操作的至少一张图像。

其中，预设时间是指用户完成一个手势操作大概所需要的时间，可以是整个手势动作全部完成的时间，也可以是手势动作的主要部分的完成时间等，预设时间可以提前设定，如可将所述预设时间设置为200ms-500ms；具体可通过设置在所述处理器中的定时器以实现。在200ms-500ms的时间段内，将获取到的含手势操作的图像按获取的先后顺序缓存在终端的存储器中，在需要识别的时候，通过处理器从存储器中获取，由于第一摄像头和第二摄像头在1s内可以拍摄10～60个图像帧，优选的，是25～30个图像帧，由于第一摄像头和第二摄像头拍摄的手势操作是一个动态过程，故每一帧图像帧是有差异的，故在选择合成三维立体图像时，通过选取第一摄像头和第二摄像头在同一时刻拍摄的一帧图像，这样可以避免形成的三维立体图像与实际用户手势之间的差异，提高了识别精确性。

其中，根据摄像头的拍摄性能，在预设时间内总共包含M个拍摄时刻，每个拍摄时刻第一摄像头和第二摄像头都拍摄有照片，可以选取M个拍摄时刻所述第一摄像头和第二摄像头分别同时拍摄的包含手势操作的图像合成M张三维立体图像，也可以选取N个拍摄时刻拍摄的合成N张三维立体图像，其中M>N；

图像即为摄像头拍摄的一张图片，图像帧则为固定时间内连续拍摄的一系列图片，图像帧序列由一系列图像组成。

当然，在选择合成三维立体图像时，可以选择第一摄像头连续拍摄的几张图像以及第二摄像头连续拍摄的几张图像中每一张图像均合成三维立体图像(其中，第二摄像头拍摄的每张图像的时间均与第一摄像头中在同一时刻拍摄的照片对应)。

其中，对于将第一摄像头和第二摄像头在同一时刻分别拍摄的至少一张包含手势操作的图像合成三维立体图像的方式，本发明实施例对此不进行限定，由于对于第一摄像头和第二摄像头在预设时间内拍摄的每张图像合成三维立体图像的方式和原理均相同，本发明实施例仅以第二图像和第三图像为例进行说明，其中，第二图像和第三图像分别为在预设时间内由第一摄像头和第一摄像头在同一时刻分别拍摄的图像中的至少一张，并不具有任何指示性含义。

示例性的，如图2所示，步骤S101可以通过以下方式实现，

S1011、获取所述第二图像的每个像素点；

其中，对于获取第二图像的每个像素点的具体方式，本发明实施例在此不再赘述，可以通过现有技术来实现，例如，粒子滤波。

获取到第二图像的每个像素点以后，可以以所述第二图像和第三图像设置坐标系，则第二图像和第三图像上的每个像素点均可以用坐标的形式表示，如图3a所示和图3b所示，当然还可以存在其他方式用以唯一标记第二图像和第三图像上相应的像素点，本发明实施例在此不再赘述。

需要说明的是，在获取三维立体图像的时候，还可以先提取所述第二图像的手势操作轮廓，如图5a所示，在提取到手势操作轮廓以后，获取所述第二图像的手势操作轮廓中的每个像素点，基于每个所述手势操作轮廓中的每个像素点执行步骤S1012，这样可以进一步提高识别精度，避免在三维立体图像中引入背景或者干扰。

S1012、以所述第二图像的每个像素点为中心像素点建立预设窗口；其中，所述预设窗口包含按照预设距离，以所述中心像素点为中心的M个像素点；

图3a为第二图像中任意一个像素点为中心像素点建立预设窗口的示意图，其预设窗口可以通过以所述中线像素点为中心，在所述中心像素点四周(上、下、左、由)各延长L个长度单位所包含的区域，即所述预设距离为2L则上述M各像素点即为以所述中心像素点四周各延长L个长度单位所包含的区域内的所有像素点；本发明实施例对所述L的具体大小不进行限定，可以根据实际需要达到的精度进行设定。

S1013、获取所述预设窗口的像素值；

由于预设窗口内包含M个像素点，故所述预设窗口的像素值为M个像素点像素值的总和，对于计算每个像素值的具体方式本发明实施例在此不再赘述，例如，若所述预设窗口为以任意一个像素点为中心像素点向左向右各一个像素点，则该预设窗口内包含5个像素点，该预设窗口的像素值为5个像素点像素值的总和。

S1014、根据所述预设窗口的像素值，从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域，如图3b所示；

由于对于第二图像种每个像素点建立预设窗口，并根据预设窗口的像素值从所述第三图像中查到的目标区域的方式和原理均相同，故本发明实施例仅以第一像素点为例进行说明，该第一像素点为第二图像中的任意一个像素点，并不具有指示性含义。

示例性的，如图4所示，步骤S1014可以通过以下方式实现：

S10141、确定所述第一像素点在所述第二图像中的坐标，并以所述第一像素点为中心建立第一预设窗口；如图3a所示；

S10142、在保持所述第一像素点纵坐标不变的情况下，从所述第三图像中选取每个候选区域，所述候选区域的窗口距离与所述第一预设窗口大小相同，且所述候选区域为以所述第三图像中任意一个像素点为中心像素点建立的，所述候选区域内的每个像素点的纵坐标与所述第一像素点的纵坐标相同；

其中，所述候选区域的窗口距离是指候选区域内任意一个中心像素点，按照预设距离2L，以所述中心像素点为中心，在所述中心像素点四周(上、下、左、由)各延长L个长度单位所包含的区域；

S10143、计算每个所述候选区域的像素值，所述像素值是指候选区域内所有像素点的灰度值之和；

S10144、将所述候选区域的像素值与所述预设窗口的像素值的差异值最小的候选区域确定为目标区域。

其中，当获取到第一像素点的坐标时，可以将所述第一像素点从第三图像指向第二图像的方向，保持纵坐标不变的情况下，将第一像素点遍历所述第三图像中的任何一个像素点，并可以通过SAD(Sum of Absolute Difference)或SSD(Sum of SquaredDifference)算法matching方式从第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域，如图3c所示的d点。

当然，为了减少计算量，在获取到第一像素点的坐标以后，可以从所述第三图像中与所述第一像素点纵坐标相同，大于等于横坐标的候选区域中选取目标区域。

当然，本发明实施例也可以基于第三图像，在第二图像中选取与第三图像中任意一个像素点构建的预设窗口的像素值差异最小的区域为目标区域，此时，应按照第二图像指向第三图像的方向，保持纵坐标不变的情况下，将第三图像中的每个像素点构成的预设窗口遍历所述第二图像的候选区域，以获取目标区域。

S1015、确定每个所述目标区域的中心像素点；

S1016、将每个所述第二图像的中心像素点与所述目标区域的中心像素点进行匹配，获取与所述第二图像对应的三维立体图像。

优选的，为了提高识别精度，需要提取出所述第一图像中的手势操作轮廓，在此手势操作轮廓的基础上，获取每一个像素点的像素信息，并从三维立体图像中获取与之对应的像素点距离信息，由于用户的手势操作应处于同一平面，因而拥有相近的像素点距离信息，故在识别之前，可以对三维立体图像中手势操作对应的像素点距离进行均值操作，以便手势操作轮廓内的手势操作与背景等干扰信息进行分离，从而高精度的提取出用户的手势操作。

进一步的，所述提取第一图像中的手势操作轮廓，包括：

S1021、采用肤色分割算法对第一图像进行肤色分割；

S1022、对进行肤色分割后的第一图像进行边缘检测；

其中，对于边缘检测的方式有多种，本发明实施例在此不再赘述示例性的，可以通过边缘检测算法来实现，本发明实施例在此不再赘述。

S1023、提取经过边缘检测后的第一图像的手势操作轮廓，获得所述第一图像中的手势操作轮廓。

对于手势操作轮廓的方式有多种，本发明实施例在此不再赘述，示例性的，该方法可以通过采用八邻域搜索法来实现。

可选的，S104可以通过以下方式实现：

S1041、在预设时间内，逐帧分析所述第一摄像头N个拍摄时刻中相邻时刻拍摄的图像的手势变化信息、与所述N个拍摄时刻所述第一摄像头和所述第二摄像头分别同时拍摄的包含手势操作的图像合成的N个三维立体图像的手势变化信息及像素点距离信息；

S1042、将所述N个拍摄时刻中相邻时刻合成的三维立体图像的手势变化信息及像素点距离信息与标准手势特征库中手势变化信息以及用户手势的像素点距离信息进行比较；

S1043、从所述标准手势特征库中选取与所述相邻的三维立体图像的手势变化信息及像素点距离信息差异最小的为目标手势动作。

如图5a所示，经过步骤S102提取后的某一时刻第一摄像头拍摄的包含手势操作图像的手势操作轮廓，在进行手势操作轮廓提取后从该二维图像对应的三维立体图像上提取相应的手势操作如图5b所示，并根据预设时间内的手势变化信息以及像素点距离信息通过跟踪算法获取到目标手势，如图5c所示。

例如，该标准手势特征库中可以包含如下手势：如表1所示

预设手势	对应的操作指令	手势变化信息	像素点距离信息
				握拳	关机	X1	Y1
巴掌	音量增	X2	Y2
				v手势	音量减	X3	Y3
向侧曲腕	节目增加	X4	Y4
				向下曲腕	节目减小	X5	Y5
大拇指	菜单	X6	Y6

当然，表1所示的每种手势对应的操作指令可以由用户通过终端的处理器进行修改。

具体在识别用户的手势操作时，可根据获取到的多个相邻的三维立体图像之间的手势变化信息以及像素点距离信息通过跟踪算法，例如，联合概率数据关联滤波器(JPDAF)、多假设跟踪(MHT)算法、动态多位分配算法等与标准手势特征库中的手势变化信息以及像素点距离信息进行匹配，以识别当前的用户手势操作，并执行与所述手势操作对应的预设手势相应的操作指令。当手势操作与标准手势特征库中一致时，则可产生相应的控制信号。例如，系统识别出用户的用户手势操作为握拳，该预设握拳手势在标准手势特征库中对应的指令为关机，则系统识别后，根据所述手势操作执行关机键。

本发明实施例还提供了一种手势识别系统，如图6所示，该一种手势识别系统中的各个功能与本发明上述实施例中一种手势识别方法相对应，具体可以参考本发明上述实施例的描述，本发明实施例在此不再赘述。如图6所示，该一种手势识别系统，包括：终端60，平行设置在终端上的第一摄像头601和第二摄像头602，运行在所述终端处理器上的图像处理系统603、图像识别系统604和执行系统605；

其中，所述第一摄像头601和第二摄像602头处于同一水平线上；

所述第一摄像头601和第二摄像602，用于在预设时间拍摄至少一张图像；

所述图像处理系统603，用于将预设时间内的N个拍摄时刻中的每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含手势操作的图像合成三维立体图像；

所述图像识别系统604，用于提取第一图像中的手势操作轮廓及所述手势操作轮廓中每个像素的像素点信息，其中，所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像；

所述执行系统605，用于根据所述图像识别系统604选取的目标手势动作执行所述目标手势动作对应的操作指令。

本发明实施例提供一种手势识别系统，通过将第一摄像头和第二摄像头同一时刻分别拍摄的至少一张包含手势操作的图像合成三维立体图像，并基于所述第一摄像头拍摄的二维图像，在所述二维图像对应的三维图像上获取与所述二维图像每个像素点的像素点信息对应的像素点距离信息，并将预设时间内，每张所述三维立体图像的手势变化信息和像素点距离信息与标准手势特征库中的手势变化信息以及像素点距离信息进行匹配，选取目标手势动作，该手势识别方法确保了高实时性，高精度的手势识别技术，大幅度提高用户的操控体验。

可选的，如图7所示，所述图像处理系统603包括：

第一获取单元6031，用于获取所述第二图像的每个像素点；

建立单元6032，用于以所述第二图像的每个像素点为中心像素点建立预设窗口；其中，所述预设窗口包含按照预设距离，以所述中心像素点为中心的M个像素点；

第二获取单元6033，用于获取所述预设窗口的像素值

提取单元6034，用于根据所述预设窗口的像素值，从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域；

确定单元6035，用于确定每个所述目标区域的中心像素点；

生成单元6036，用于将每个所述第二图像的中心像素点与所述目标区域的中心像素点进行匹配，获取与所述第二图像对应的三维立体图像。

可选的，所述提取单元6034包括：

确定模块，用于确定所述第一像素点在所述第二图像中的坐标，并以所述第一像素点为中心建立第一预设窗口；

选取模块，用于在保持所述第一像素点纵坐标不变的情况下，从所述第三图像中选取出与所述第一预设窗口大小相同所有候选区域，所述候选区域为以所述第三图像中任意一个像素点为中心像素点建立的，且所述候选区域内的每个像素点的纵坐标与所述第一像素点的纵坐标相同；

计算模块，用于计算每个所述候选区域的像素值，所述像素值是指候选区域内所有像素点的灰度值；

判定模块，用于将所述所有候选区域的像素值中与所述第一预设窗口的像素值差异值最小的候选区域确定为目标区域。

可选的，所述图像识别系统604包括轮廓提取单元和像素点提取单元，所述轮廓提取单元具体用于：

采用肤色分割算法对第一图像进行肤色分割；

运用边缘检测算法对进行肤色分割后的第一图像进行边缘检测；

采用八邻域搜索法提取边缘检测后的第一图像的手势操作轮廓，获得所述第一图像中的手势操作轮廓。

可选的，所述图像识别系统604还包括识别单元，所述识别单元包括：

分析模块，用于在预设时间内，逐帧分析所述第一摄像头N个拍摄时刻中相邻时刻拍摄的图像的手势变化信息、与所述N个拍摄时刻所述第一摄像头和所述第二摄像头分别同时拍摄的包含手势操作的图像合成的N个三维立体图像的手势变化信息及像素点距离信息；

比较模块，用于将所述N个拍摄时刻中相邻时刻合成的三维立体图像的手势变化信息及像素点距离信息与标准手势特征库中手势变化信息以及用户手势的像素点距离信息进行比较；

选取模块，用于从所述标准手势特征库中选取与所述相邻图像对应的相邻的三维立体图像的手势变化信息及像素点距离信息差异最小的为目标手势动作。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种手势识别方法，其特征在于，包括：

将预设时间内的N个拍摄时刻中每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含手势操作的图像合成三维立体图像；

根据所述目标手势动作执行所述目标手势动作对应的操作指令；

其中，对于第二图像和第三图像，在预设时间内将第一摄像头和第一摄像头在同一时刻分别拍摄的包含手势操作的第二图像和第三图像合成三维立体图像，包括：

获取所述第二图像的每个像素点；

以所述第二图像的每个像素点为中心像素点建立预设窗口；其中，所述预设窗口包含按照预设距离，以所述中心像素点为中心的M个像素点；

获取所述预设窗口的像素值；

根据所述预设窗口的像素值，从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域；

确定每个所述目标区域的中心像素点；

将每个所述第二图像的中心像素点与所述目标区域的中心像素点进行匹配，获取与所述第二图像对应的三维立体图像。

2.根据权利要求1所述的方法，其特征在于，对于第一像素点，所述第一像素点为所述第二图像中所有像素点中的任意一个像素点，所述获取所述预设窗口的像素值，并根据所述预设窗口的像素值，从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域，包括：

确定所述第一像素点在所述第二图像中的坐标，并以所述第一像素点为中心建立第一预设窗口；

在保持所述第一像素点纵坐标不变的情况下，从所述第三图像中选取每个候选区域，所述候选区域的窗口距离与所述第一预设窗口大小相同，且所述候选区域为以所述第三图像中任意一个像素点为中心像素点建立的，所述候选区域内的每个像素点的纵坐标与所述第一像素点的纵坐标相同；

计算每个所述候选区域的像素值，所述像素值是指候选区域内所有像素点的灰度值之和；

将所述所有候选区域的像素值中与所述第一预设窗口的像素值差异值最小的候选区域确定为目标区域。

3.根据权利要求1所述的方法，其特征在于，所述提取第一图像中的手势操作轮廓，包括：

对第一图像进行肤色分割；

对进行肤色分割后的所述第一图像进行边缘检测；

提取经过边缘检测后的所述第一图像的手势操作轮廓，获得所述第一图像的手势操作轮廓。

4.根据权利要求1所述的方法，其特征在于，所述预设时间内，将N个拍摄时刻所述第一摄像头和所述第二摄像头分别同时拍摄的包含手势操作的图像合成的N个三维立体图像的手势变化信息和像素点距离信息与标准手势特征库中的手势变化信息以及像素点距离信息进行匹配，选取目标手势动作，包括：

在预设时间内，逐帧分析所述第一摄像头N个拍摄时刻中相邻时刻拍摄的图像的手势变化信息、与所述N个拍摄时刻所述第一摄像头和所述第二摄像头分别同时拍摄的包含手势操作的图像合成的N个三维立体图像的手势变化信息及像素点距离信息；

将所述N个拍摄时刻中相邻时刻合成的三维立体图像的手势变化信息及像素点距离信息与标准手势特征库中手势变化信息以及用户手势的像素点距离信息进行比较；

从所述标准手势特征库中选取与所述相邻时刻合成的三维立体图像的手势变化信息及像素点距离信息差异最小的为目标手势动作。

5.一种手势识别系统，其特征在于，包括：终端，平行设置在终端上的第一摄像头和第二摄像头，运行在所述终端处理器上的图像处理系统、图像识别系统和执行系统；

其中，所述第一摄像头和第二摄像头处于同一水平线上；

所述执行系统，用于根据所述目标手势动作执行所述目标手势动作对应的操作指令；

其中，第二图像和第三图像为在预设时间内由第一摄像头和第一摄像头在同一时刻分别拍摄的包含手势操作的图像中的至少一张，所述图像处理系统包括：

第一获取单元，用于获取所述第二图像的每个像素点；

建立单元，用于以所述第二图像的每个像素点为中心像素点建立预设窗口；其中，所述预设窗口包含按照预设距离，以所述中心像素点为中心的M个像素点；

第二获取单元，用于获取所述预设窗口的像素值

提取单元，用于根据所述预设窗口的像素值，从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域；

确定单元，用于确定每个所述目标区域的中心像素点；

生成单元，用于将每个所述第二图像的中心像素点与所述目标区域的中心像素点进行匹配，获取与所述第二图像对应的三维立体图像。

6.根据权利要求5所述系统，其特征在于，所述提取单元包括：

确定模块，用于确定第一像素点在所述第二图像中的坐标，并以所述第一像素点为中心建立第一预设窗口，所述第一像素点为所述第二图像中所有像素点中的任意一个像素点；

选取模块，用于在保持所述第一像素点纵坐标不变的情况下，从所述第三图像中选取每个候选区域，所述候选区域的窗口距离与所述第一预设窗口大小相同，且所述候选区域为以所述第三图像中任意一个像素点为中心像素点建立的，所述候选区域内的每个像素点的纵坐标与所述第一像素点的纵坐标相同；

计算模块，用于计算每个所述候选区域的像素值，所述像素值是指候选区域内所有像素点的灰度值之和；

7.根据权利要求5所述系统，其特征在于，所述图像识别系统包括轮廓提取单元和像素点提取单元，所述轮廓提取单元具体用于：

对第一图像进行肤色分割；

对进行肤色分割后的所述第一图像进行边缘检测；

8.根据权利要求5所述系统，其特征在于，所述图像识别系统还包括识别单元，所述识别单元包括：

选取模块，用于从所述标准手势特征库中选取与所述相邻时刻合成的三维立体图像的手势变化信息及像素点距离信息差异最小的为目标手势动作。