CN107239727A

CN107239727A - 手势识别方法和系统

Info

Publication number: CN107239727A
Application number: CN201611115801.8A
Authority: CN
Inventors: 姚颂; 倪剑桥
Original assignee: Beijing Deephi Intelligent Technology Co Ltd
Current assignee: Xilinx Technology Beijing Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2017-10-10

Abstract

本发明公开了一种手势识别方法和系统，用于从输入图像中识别手势。所述方法包括：通过对输入图像进行亮度和色彩分析，获取输入图像中的潜在人手区域；使用人手识别模型获取输入图像中各个潜在人手区域属于人手区域的概率值；选择概率值大于预定阈值的潜在人手区域作为人手区域；从输入图像中截取人手区域图像；以及将人手区域图像输入手势识别模型，以识别其对应的手势。由此，利用本发明能够快速、准确地识别出输入图像中的手势。

Description

手势识别方法和系统

技术领域

本发明涉及图像识别领域，特别是涉及一种手势识别方法和系统。

背景技术

神经网络是一种基于仿生设计的数学模型，近年来被广泛应用于图像识别，语音识别等任务。

神经元的积累的刺激是由其他神经元传递过来的刺激量和对应的权重之和，用Xj表示这种积累，Yi表示某个神经元传递过来的刺激量，Wi表示链接某个神经元刺激的权重，得到公式：Xj＝(y1*W1)+(y2*W2)+...+(yi*Wi)+...+(yn*Wn)，而当Xj完成积累后，完成积累的神经元本身对周围的一些神经元传播刺激，将其表示为yj得到如下所示：yj＝f(Xj)，神经元根据积累后Xj的结果进行处理后，对外传递刺激yj。用f函数映射来表示这种处理，将它称之为激活函数。

卷积神经网络是将人工神经网络和深度学习技术相结合而产生的新型人工神经网络方法，是为了识别二维形状而设计的多层感知器，具有局部感知区域、层次结构化、特征抽取和分类过程结合的全局训练的特点。Fukushima提出的基于神经元之间的局部连接型和层次结构组织的Neocogition模型是卷积神经网络的第一个实现网络。LeCun等人设计并采用基于误差梯度的算法训练了卷积神经网络，在一些模式识别领域取得非常好的性能，并且给出了卷积神经网络公式的推导和证明。

卷积神经网络已经成功地应用到了文档分析、人脸检测、语音检测、车牌识别、手写数字识别、视频中的人体动作识别等各个方面。

发明内容

本发明的主要目的是提供一种手势识别方法和系统，其能够准确、快速地识别出待检测图像中的手势。

根据本发明的一个方面，提供了一种手势识别方法，用于从输入图像中识别手势，该方法包括：通过对输入图像进行亮度和色彩分析，获取输入图像中的潜在人手区域；使用人手识别模型获取输入图像中各个潜在人手区域属于人手区域的概率值；选择概率值大于预定阈值的潜在人手区域作为人手区域；从输入图像中截取人手区域图像；以及将人手区域图像输入手势识别模型，以识别其对应的手势。

优选地，该方法还可以包括：根据人手区域的长宽比例，计算该人手区域图像到标准人手图像的仿射变换矩阵；使用仿射变换矩阵对人手区域图像进行仿射变换，得到标准化的人手区域图像，其中，将标准化的人手区域图像输入手势识别模型，以识别其所对应的手势。

优选地，通过对输入图像进行亮度和色彩分析获取输入图像中的潜在人手区域的步骤可以包括：选择输入图像中光流特征绝对值大于预设阈值且色彩属于预设肤色区间的区域为潜在人手区域。

优选地，该方法还可以包括：在确定人手区域后，计算后续一帧或多帧输入图像中对应于人手区域的图像区域的光流特征值，以确定后续一帧或多帧输入图像中的人手区域。

优选地，在对输入图像进行亮度和色彩分析之前，该方法还可以包括：对输入图像进行检测，以确定用户是否发出预定肢体动作；在检测到用户发出预定肢体动作的情况下，执行对输入图像进行亮度和色彩分析的步骤。

优选地，在获取输入图像中的潜在人手区域之后，该方法还可以包括：基于预定的模型或算法，识别出输入图像中的人脸潜在区域和/或人体潜在区域；根据识别出的人脸潜在区域和/或人体潜在区域，删除处于不合理范围的潜在人手区域。

优选地，该方法还可以包括：对输入图像进行多尺度缩放，以得到不同尺度的输入图像；对不同尺度的输入图像执行对输入图像进行亮度和色彩分析的步骤。

优选地，人手识别模型和手势识别模型均为卷积神经网络模型。

根据本发明的另一个方面，还提供了一种手势识别系统，用于从输入图像中识别手势，该系统包括：存储器，用于存储输入图像；CPU模块，用于控制FPGA模块，并对输入图像进行亮度和色彩分析，以获取输入图像中的潜在人手区域；FPGA模块，用于在其上实现人手识别模型和手势识别模型，其中，人手识别模型用于获取输入图像中各个潜在人手区域属于人手区域的概率值，以便选择概率值大于预定阈值的潜在人手区域作为人手区域，并从输入图像中截取人手区域图像，手势识别模型用于从人手区域图像中识别出对应的手势。

优选地，CPU模块根据人手区域的长宽比例，计算该人手区域图像到标准人手图像的仿射变换矩阵，该系统还可以包括：几何变换模块，用于使用仿射变换矩阵对人手区域图像进行仿射变换，得到标准化的人手区域图像，其中，手势识别模型从标准化的人手区域图像中识别出对应的手势。

优选地，CPU模块选择输入图像中光流特征绝对值大于预设阈值且色彩属于预设肤色区间的区域为潜在人手区域。

优选地，在确定人手区域后，CPU模块计算后续一帧或多帧输入图像中对应于人手区域的图像区域的光流特征值，以确定后续一帧或多帧输入图像中的人手区域。

优选地，在CPU模块对输入图像进行亮度和色彩分析之前，CPU模块对输入图像进行检测，以确定用户是否发出预定肢体动作，在检测到用户发出预定肢体动作的情况下，CPU模块检测对输入图像进行亮度和色彩分析，并控制FPGA模块，以从输入图像中识别手势。

优选地，FPGA模块上还用于实现人脸识别模型和/或人体识别模型，人脸识别模型和/或人体识别模型用于识别出输入图像中的人脸潜在区域和/或人体潜在区域，CPU模块根据识别出的人脸潜在区域和/或人体潜在区域，删除处于不合理范围的潜在人手区域，或者CPU模块基于预定的算法，识别出输入图像中人脸潜在区域和/或人体潜在区域，并根据识别出的人脸潜在区域和/或人体潜在区域，删除处于不合理范围的潜在人手区域。

优选地，CPU模块对输入图像进行多尺度缩放，以得到不同尺度的输入图像，CPU模块对不同尺度的输入图像进行亮度和色彩分析，并控制FPGA模块，以从不同尺度的输入图像中识别手势。

优选地，人手识别模型和手势识别模型均为卷积神经网络模型，CPU模块还用于执行卷积神经网络模型的全连接层的运算。

综上，本发明的手势识别方法首先对输入图像进行亮度和色彩分析，初步筛选出潜在人手区域，然后使用人手识别模型进一步筛选，以得到较为准确的人手区域，从而使得手势识别模型可以快速、准确识别出输入图像中的手势。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明一实施例的手势识别方法的示意性流程图。

图2示出了根据本发明另一实施例的手势识别方法的示意性流程图。

图3示出了根据本发明一实施例的手势识别系统的结构的示意性方框图。

图4示出了几何变换模块可以具有的功能模块的示意性方框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

随着智能硬件设备的发展，手势交互控制越来越多地应用于智能硬件设备中，手势交互控制使得用户可以通过在远处或近处做挥手或者摆手型等手势向智能硬件设备发出控制信号，智能硬件设备则识别用户的信号(即识别用户做出的手势)，根据内存中保存的该信号(即手势)的定义做出相应的反应。

针对于此，本发明提出了一种能够快速、准确地识别出待检测图像(即下文述及的输入图像)中的手势的识别方案。

本发明的识别方案可以实现为一种手势识别方法和系统。图1示出了根据本发明一实施例的手势识别方法的示意性流程图。

参见图1，在步骤S110，通过对输入图像进行亮度和色彩分析，获取输入图像中的潜在人手区域。

其中，输入图像为待检测图像，其可以是静态图像，也可以是动态图像。例如，输入图像可以是使用摄像装置拍摄得到的一幅或多幅照片，也可以是使用摄像装置拍摄得到的包含多帧图像的视频。

通过对输入图像进行亮度和色彩分析，可以得到输入图像中一个或多个可能属于人手的潜在人手区域。

其中，这里述及的亮度和色彩分析可以是分析输入图像的亮度、色调、饱和度等信息来识别出输入图像中可能属于人手的潜在人手区域。例如，可以根据大量人手图像的亮度、色调、饱和度等信息，得出一般化人手图像的亮度和色彩信息，然后再根据输入图像的亮度和色彩信息，从输入图像中找出与一般化人手图像的亮度和色彩信息相近的一个或多个区域作为潜在人手区域。

另外，这里述及的亮度和色彩分析还可以是使用光流算法来计算输入图像中一个或多个区块的光流特征值，初步筛选出输入图像中可能属于人手的区域，然后再对其进行色彩分析，从中进一步挑选出色彩属于预设肤色区间的区域为潜在人手区域。也就是说，可以通过光流计算和色彩分析，选择输入图像中光流特征绝对值大于预设阈值且色彩属于预设肤色区间的区域为潜在人手区域。其中，光流计算的原理为本领域技术人员公知，这里不再赘述。

需要说明的是，在计算输入图像中的一个或多个区块的光流特征值时，可以读取前后两帧图像，并对相同位置的像素值做差分，然后可以对原图像或者差分后的图像做低通滤波，根据光流算法的数学原理，对计算得到的数据进行乘累加操作，计算若干像素组成区域的位移速度向量，以得到光流特征值。其中，光流计算的具体过程为本领域技术人员所公知，这里不再详述。

由此，正如上文所述，本文述及的输入图像可以包含多帧图像，其可以是多帧静态图像，也可以是包含多帧图像的视频图像。这样，基于步骤S110，可以获取一帧或多帧输入图像中的潜在人手区域。

在步骤S120，使用人手识别模型获取输入图像中各个潜在人手区域属于人手区域的概率值。

在步骤S130，选择概率值大于预定阈值的潜在人手区域作为人手区域。

这里的人手识别模型可以是预先训练得到的卷积神经网络模型。人手识别模型可以识别出各个潜在人手区域属于人手区域的概率值。由此，对于步骤S110获取的潜在人手区域，可以使用人手识别模型进行进一步识别，以筛选出更为准确的潜在人手区域作为人手区域。

在使用人手识别模型对人手潜在区域进行筛选后，就可以执行步骤S140，从输入图像中截取人手区域图像。然后可以执行步骤S150，将人手区域图像输入手势识别模型，以识别其对应的手势。

其中，卷积神经网络具有高度非线性，因此手势识别模型可以是预先训练得到的卷积神经网络模型，其可以识别多种预设手势。其中，这里述及的预设手势可以是静态手势，也可以是动态手势。例如，手势识别模型可以是训练多张图片到手势类别的分类函数，以使得其可以识别动态手势。

作为一个示例，手势识别模型可以同时计算手势的类别索引和人手关键点的位置，通过类别和位置两种信息的融合，提高卷积神经网络对手势的表达性能。由此，手势识别模型的全连接层的输出可以是一个M+2K维向量，其中M维子向量的最大值所在的维度为M种不同手势的索引，另外2K维子向量为人手K个关键点的X轴和Y轴坐标。

参见图2，首先，可以执行步骤S210的激活步骤：对输入图像进行检测，以确定用户是否发出预定肢体动作，在检测到用户发出预定肢体动作的情况下，执行后续的步骤。

由此，可以利用用户的肢体动作作为本发明的人手识别方法的激活步骤。在将本发明的手势识别方法应用于智能硬件设备中时，从设备休眠到工作之间的转换过程，可以由用户保持人脸和/或人体在智能硬件设备的镜头中，并使用预定的肢体动作(例如挥手动作)激活算法。这样，在检测到用户执行了预定肢体动作后，就可以执行后续的算法步骤。

在步骤S220，获取潜在人手区域。其中，步骤S220的具体实现可以参照上文图1中步骤S110的相关描述，这里不再赘述。

在获取了潜在人手区域后，就可以执行步骤S230和步骤S240，对获取的潜在人手区域进行筛选，以筛选出更为准确的潜在人手区域作为人手区域。这里，步骤S230和步骤S240的先后执行顺序没有严格限定，即可以先执行步骤S230再执行步骤S240，也可以先执行步骤S240再执行步骤S230，还可以同时执行步骤S230和步骤S240。

其中，步骤S230的筛选过程可以参见上文图1中步骤S120、步骤S130的描述，这里不再赘述。

在步骤S240，基于人体几何属性进行筛选。

这里，可以基于预定的模型或算法，识别出输入图像中的人脸潜在区域和/或人体潜在区域。

例如，可以使用预先基于卷积神经网络的人脸识别模型和/或人体识别模型，识别出输入图像中的人脸潜在区域和/或人体潜在区域。再例如，还可以使用Adaboost算法，计算输入图像中人脸和/或人体的概率分布矩阵，将概率值大于预定阈值的区域确定为人脸潜在区域和/或人体潜在区域。

根据识别出的人脸潜在区域和/或人体潜在区域，删除处于不合理范围的潜在人手区域。这里主要是从人体的几何属性考虑，筛选出处于不合理范围的潜在人手区域，进行删除。例如，可以根据人脸/人体和人手可能具有的几何位置关系，删除明显处于不合理范围内的潜在人手区域。

在对潜在人手区域进行筛选后，可以从输入图像中截取人手区域图像。由于输入图像可能是在不同角度拍摄得到的，因此从输入图像中截取到的人手区域图像可能与标准图像差别较大。例如，在输入图像是从侧面拍摄或斜向拍摄得到的人手图像时，截取出的人手区域图像不便于识别。因此可以对筛选后的潜在人手区域图像进行仿射变换(步骤S250)，以得到标准化的人手区域图像。

具体地，可以根据人手区域的长宽比例，计算该人手区域图像到标准人手图像的仿射变换矩阵。

本发明的获取仿射变换矩阵的一种可行的实现方式为，可以根据人手区域的长宽比例，选取人手区域多个关键点，然后计算将这些关键点映射到标准人手图像中的相应多个标准关键点的仿射变换矩阵。其中，关键点标准位置是具有预定形状和尺寸的标准人手图像上的关键点位置，标准人手图像可以通过对大量的人手图像进行统计得出。

然后可以使用仿射变换矩阵对人手区域图像进行仿射变换，以得到标准化的人手区域图像。

具体地，设经过仿射变换后的人手区域图像(以下简称目标图像)为Q，原始人手区域图像(以下简称原图像)为I，仿射变换过程的数据表达式为Q[u(x,y),v(x,y)]＝I[x,y]，其中x,y为原图像的地址，u,v为目标图像的地址，且u(x,y)＝a*x+b*y+c,v(x,y)＝d*x+e*y+f,其中a,b,c,d,e,f均为仿射变换矩阵中的对应元素。

因此，可以根据仿射变换矩阵对原图像中的原始行坐标和原始列坐标进行计算，即计算u(x,y)＝a*x+b*y+c,得到目标图像的目标行坐标，将原始像素的像素值写入第二缓冲存储器中，作为中间图像中以目标行坐标为行坐标且以原始列坐标为列坐标的中间像素的像素值。

然后对第二缓冲存储器中存储的中间图像中的每个中间像素，根据仿射变换矩阵对其目标行坐标和原始列坐标进行计算，即计算v(u,y)＝d*u+e*y+f，得到目标图像的目标列坐标，并将中间像素的像素值写入第一缓冲存储器中作为目标图像中以目标行坐标为行坐标且以目标列坐标为列坐标的目标像素的像素值。由此，就可以计算得到经过仿射变换后的标准化的人手区域图像的像素分布。

使用上面的方法进行仿射变换时，由于目标图像的每一个像素可能依赖于原图像中的多个像素，并且原图像的每一个像素可能影响到目标图像中的多个像素，这些像素难以在一个行缓冲中全部存储。并且计算得出的目标行坐标、目标列坐标有可能不是整数，还需要进行插值计算。针对于此，本发明提出了两步变形方案。

具体地，可以对第一帧缓冲存储器中保存的人手区域图像逐列进行行变换，在行变换中，使用仿射变换矩阵对人手区域图像中具有相同原始列坐标的一列原始像素进行行变换，得到中间图像中具有相同原始列坐标和各个目标行坐标的各中间像素的像素值，并将其写入第二帧缓冲存储器中，然后清空第一帧缓冲存储器。至此，完成了两步变形方案中的第一步，行变换。

对第二帧缓冲存储器中保存的人手区域图像逐行进行列变换，在列变换中，从第一帧缓冲存储器读取人手区域图像的一行原始像素，使用仿射变换矩阵对中间图像中具有相同目标行坐标的一行中间像素进行列变换，得到标准化的人手区域图像中具有相同目标行坐标和各个目标列坐标的各目标像素的像素值，并将其写入第一帧缓冲存储器中，清空第二帧缓冲存储器。

由此，本发明将仿射变换步骤划分为行变换和列变换两步计算。行变形部分，数学表达式为T[u(x,y),y]＝I[x,y]，列变形部分，数学表达式为Q[u,v]＝P[u,v(u,y)]＝T[u(x,y),y]，其中P,T为中间计算结果，本发明中的两步变形框架很好地避免了生成目标图像时被迫多次读取内存的带宽瓶颈。

其中，本发明的行变换中的一行可以是具有同一横坐标的行，也可以是具有同一纵坐标的列。相应地，本发明的列变换中的一列可以是具有同一纵坐标的列，也可以是具有同一横坐标的行。

在得到标准化的人手区域图像后，就可以将标准化的人手区域图像输入手势识别模型，以识别其所对应的手势(步骤S260)。

作为本发明的一个可选实施例，在确定人手区域后，对于后续一帧或多帧输入图像来说，可以使用光流算法对上一帧输入图像中的人手区域图像进行跟踪，以确定后续一帧或多帧输入图像中的人手区域图像，这样可以减少运算量。

具体来说，在确定人手区域后，可以计算后续一帧或多帧输入图像中对应于人手区域的图像区域的光流特征值，以确定后续一帧或多帧输入图像中的人手区域。

由此，本发明的手势识别方法可以在单帧图像内检测人手的位置，并形成位置信息提供给后续帧，使得在后续帧计算光流并跟踪此区域，具有更快的处理速度。

另外，对于步骤S210的激活步骤来说，在预定肢体动作为挥手动作时，可以利用光流算法快速检测出人手所在位置，并在检测到人手后快速跟踪人手运动方向，这样也减少运算量，从而提高人手的定位速度。

作为本发明的另一个可选实施例，对于输入图像来说，还可以对输入图像进行多尺度缩放，以得到不同尺度的输入图像，然后对不同尺度的输入图像执行本发明的手势识别方法，以识别出不同尺度下的输入图像的手势，这样可以提高识别的准确度。

至此，结合图1、图2详细说明了本发明的手势识别方法。图3示出了根据本发明一实施例的手势识别系统的结构的示意性方框图。其中，图3所示的手势识别系统可以实现上文述及的手势识别方法，下面仅就对象识别系统的基本结构及功能进行说明，对于其中涉及的细节部分可以参见上文相关描述。

参见图3，本发明的手势识别系统300包括存储器310、CPU模块320以及FPGA模块330。

存储器310用于存储输入图像。

CPU模块320用于控制FPGA模块330，并对输入图像进行亮度和色彩分析，以获取输入图像中的潜在人手区域。

其中，CPU模块320可以选择输入图像中光流特征绝对值大于预设阈值且色彩属于预设肤色区间的区域为潜在人手区域。

在确定潜在人手区域后，CPU模块320可以计算后续一帧或多帧输入图像中对应于潜在人手区域的图像区域的光流特征值，以确定后续一帧或多帧输入图像中的潜在人手区域。

FPGA模块330用于在其上实现人手识别模型和手势识别模型。具体地，人手识别模型用于获取输入图像中各个潜在人手区域属于人手区域的概率值，以便选择概率值大于预定阈值的潜在人手区域作为人手区域，并从输入图像中截取人手区域图像，手势识别模型用于从人手区域图像中识别出对应的手势。

其中，人手识别模型和手势识别模型可以均为卷积神经网络模型，CPU模块320还可以执行卷积神经网络模型的全连接层的运算。使用CPU模块320计算得到的卷积神经网络模型的全连接层的输出可以是一个M+2K维向量，其中M维子向量的最大值所在的维度为M种不同手势的索引，另外2K维子向量为人手K个关键点的X轴和Y轴坐标。

另外，CPU模块320在对输入图像进行亮度和色彩分析之前，还可以对输入图像进行检测，以确定用户是否发出预定肢体动作，在检测到用户发出预定肢体动作的情况下，CPU模块320再对输入图像进行亮度和色彩分析，并控制FPGA模块，以从输入图像中识别手势。

如图3所示，作为本发明一个可选实施例，手势识别系统300还可以包括图中虚线框所示的几何变换模块340。

CPU模块320可以根据人手区域的长宽比例，计算该人手区域图像到标准人手图像的仿射变换矩阵。

几何变换模块340可以使用仿射变换矩阵对人手区域图像进行仿射变换，得到标准化的人手区域图像。

这样，手势识别模型可以从标准化的人手区域图像中识别出对应的手势。

图4示出了几何变换模块340可以具有的功能模块的示意性方框图。

参见图4，几何变换模块340可以包括第一帧缓冲存储器341、一维行变形模块343、第二帧缓冲存储器345以及一维列变形模块347。

第一帧缓冲存储器341和第二帧缓冲存储器345分别用于保存一帧图像。

一维行变形模块343用于对第一帧缓冲存储器341中保存的人手区域图像逐列进行行变换，在行变换中，使用仿射变换矩阵对人手区域图像中具有相同原始列坐标的一列原始像素进行行变换，得到中间图像中具有相同原始列坐标和各个目标行坐标的各中间像素的像素值，并将其写入第二帧缓冲存储器345中。

一维列变形模块347用于对第二帧缓冲存储器345中保存的人手区域图像逐行进行列变换，在列变换中，从第一帧缓冲存储器341读取人手区域图像的一行原始像素，使用仿射变换矩阵对中间图像中具有相同目标行坐标的一行中间像素进行列变换，得到对象标准化图像中具有相同目标行坐标和各个目标列坐标的各目标像素的像素值，并将其写入第一帧缓冲存储器341中，

其中，在开始向第二帧缓冲存储器345中写入中间像素的像素值之前，清空第二帧缓冲存储器345，在开始向第一帧缓冲存储器341中写入目标像素的像素值之前，清空第一帧缓冲存储器341。

作为本发明一个可选实施例，FPGA模块上还可以用于实现人脸识别模型和/或人体识别模型，人脸识别模型和/或人体识别模型用于识别出输入图像中的人脸潜在区域和/或人体潜在区域，CPU模块根据识别出的人脸潜在区域和/或人体潜在区域，删除处于不合理范围的潜在人手区域。

或者，CPU模块基于预定的算法，识别出输入图像中人脸潜在区域和/或人体潜在区域，并根据识别出的人脸潜在区域和/或人体潜在区域，删除处于不合理范围的潜在人手区域。

作为本发明另一个可选实施例，CPU模块320还可以对输入图像进行多尺度缩放，以得到不同尺度的输入图像，并且对不同尺度的输入图像进行亮度和色彩分析，并控制FPGA模块330，以从不同尺度的输入图像中识别手势。

上文中已经参考附图详细描述了根据本发明的手势识别方法和系统。

此外，根据本发明的方法还可以实现为一种计算机程序，该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者，根据本发明的方法还可以实现为一种计算机程序产品，该计算机程序产品包括计算机可读介质，在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种手势识别方法，用于从输入图像中识别手势，该方法包括：

通过对所述输入图像进行亮度和色彩分析，获取所述输入图像中的潜在人手区域；

使用人手识别模型获取所述输入图像中各个潜在人手区域属于人手区域的概率值；

选择所述概率值大于预定阈值的潜在人手区域作为人手区域；

从所述输入图像中截取人手区域图像；以及

将所述人手区域图像输入手势识别模型，以识别其对应的手势。

2.根据权利要求1所述的手势识别方法，还包括：

根据所述人手区域的长宽比例，计算该人手区域图像到标准人手图像的仿射变换矩阵；

使用所述仿射变换矩阵对所述人手区域图像进行仿射变换，得到标准化的人手区域图像，

其中，将所述标准化的人手区域图像输入手势识别模型，以识别其所对应的手势。

3.根据权利要求1所述的手势识别方法，其中，所述通过对所述输入图像进行亮度和色彩分析获取所述输入图像中的潜在人手区域的步骤包括：

选择所述输入图像中光流特征绝对值大于预设阈值且色彩属于预设肤色区间的区域为所述潜在人手区域。

4.根据权利要求3所述的手势识别方法，还包括：

在确定所述人手区域后，计算后续一帧或多帧输入图像中对应于所述人手区域的图像区域的光流特征值，以确定后续一帧或多帧输入图像中的人手区域。

5.根据权利要求1所述的手势识别方法，其中，在对所述输入图像进行亮度和色彩分析之前，该方法还包括：

对所述输入图像进行检测，以确定用户是否发出预定肢体动作；

在检测到用户发出预定肢体动作的情况下，执行所述对输入图像进行亮度和色彩分析的步骤。

6.根据权利要求1所述的手势识别方法，其中，在获取所述输入图像中的潜在人手区域之后，该方法还包括：

基于预定的模型或算法，识别出所述输入图像中的人脸潜在区域和/或人体潜在区域；

根据识别出的所述人脸潜在区域和/或人体潜在区域，删除处于不合理范围的潜在人手区域。

7.根据权利要求1所述的手势识别方法，还包括：

对所述输入图像进行多尺度缩放，以得到不同尺度的输入图像；

对不同尺度的输入图像执行所述对输入图像进行亮度和色彩分析的步骤。

8.根据权利要求1-7中任何一项所述的手势识别方法，其中，所述人手识别模型和所述手势识别模型均为卷积神经网络模型。

9.一种手势识别系统，用于从输入图像中识别手势，该系统包括：

存储器，用于存储所述输入图像；

CPU模块，用于控制FPGA模块，并对所述输入图像进行亮度和色彩分析，以获取所述输入图像中的潜在人手区域；

FPGA模块，用于在其上实现人手识别模型和手势识别模型，其中，所述人手识别模型用于获取所述输入图像中各个潜在人手区域属于人手区域的概率值，以便选择概率值大于预定阈值的潜在人手区域作为人手区域，并从所述输入图像中截取人手区域图像，所述手势识别模型用于从所述人手区域图像中识别出对应的手势。

10.根据权利要求9所述的手势识别系统，其中，所述CPU模块根据所述人手区域的长宽比例，计算该人手区域图像到标准人手图像的仿射变换矩阵，该系统还包括：

几何变换模块，用于使用所述仿射变换矩阵对所述人手区域图像进行仿射变换，得到标准化的人手区域图像，

其中，所述手势识别模型从所述标准化的人手区域图像中识别出对应的手势。

11.根据权利要求9所述的手势识别系统，其中，

所述CPU模块选择所述输入图像中光流特征绝对值大于预设阈值且色彩属于预设肤色区间的区域为所述潜在人手区域。

12.根据权利要求11所述的手势识别系统，其中，

在确定所述人手区域后，所述CPU模块计算后续一帧或多帧输入图像中对应于所述人手区域的图像区域的光流特征值，以确定后续一帧或多帧输入图像中的人手区域。

13.根据权利要求9所述的手势识别系统，其中，

在所述CPU模块对所述输入图像进行亮度和色彩分析之前，所述CPU模块对所述输入图像进行检测，以确定用户是否发出预定肢体动作，在检测到用户发出预定肢体动作的情况下，所述CPU模块检测对输入图像进行亮度和色彩分析，并控制所述FPGA模块，以从输入图像中识别手势。

14.根据权利要求9所述的手势识别系统，其中，

所述FPGA模块上还用于实现人脸识别模型和/或人体识别模型，所述人脸识别模型和/或人体识别模型用于识别出所述输入图像中的人脸潜在区域和/或人体潜在区域，所述CPU模块根据识别出的所述人脸潜在区域和/或人体潜在区域，删除处于不合理范围的潜在人手区域，或者

所述CPU模块基于预定的算法，识别出所述输入图像中人脸潜在区域和/或人体潜在区域，并根据识别出的所述人脸潜在区域和/或人体潜在区域，删除处于不合理范围的潜在人手区域。

15.根据权利要求9所述的手势识别系统，其中，

所述CPU模块对所述输入图像进行多尺度缩放，以得到不同尺度的输入图像；

所述CPU模块对不同尺度的输入图像进行亮度和色彩分析，并控制所述FPGA模块，以从不同尺度的输入图像中识别手势。

16.根据权利要求9至15中任何一项所述的手势识别系统，其中，所述人手识别模型和所述手势识别模型均为卷积神经网络模型，

所述CPU模块还用于执行所述卷积神经网络模型的全连接层的运算。