CN106296667A

CN106296667A - 手形检测方法和系统

Info

Publication number: CN106296667A
Application number: CN201610622170.2A
Authority: CN
Inventors: 公绪超
Original assignee: Le Holdings Beijing Co Ltd; LeTV Holding Beijing Co Ltd
Current assignee: Le Holdings Beijing Co Ltd; LeTV Holding Beijing Co Ltd
Priority date: 2016-08-01
Filing date: 2016-08-01
Publication date: 2017-01-04

Abstract

本发明提供一种手形检测方法和系统,涉及计算机视觉技术领域。通过对输入图像进行处理以形成多层图像金字塔，进而基于预先训练好的卷积神经网络对多层图像金字塔进行检测以生成初始结果集，其中卷积神经网络金字塔包括基于对多种不同分辨率的多种手形图像进行深度学习得到，对初始结果集进行融合和过滤得到最终的手形检测结果，可以实现对手形边缘更加有效地检测，并且还能提高检测精度。进一步地，由于采用多层图像金字塔可以使图像中明显和不明显的边缘或目标都能得到很好地表征。

Description

手形检测方法和系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种手形检测方法和系统。

背景技术

人机交互领域经历过两次革命，第一次是1983年鼠标的出现，让人们从基于键盘的一维命令行进入到了基于鼠标的二维图形界面。第二次是触摸屏技术的产生，将显示和输入融为一体，使人们逐渐熟悉多点触控的交互方式。触摸屏技术的发展，也带动了其他新型交互方式和设备的探索和研究。

手势作为一种人类基本的交互手段，使用手势进行人机交互也会更加自然、直观、友好、符合人类心理。目前，能识别手势的传感设备主要有：智能手环、智能手机、TOF摄像机、Kinect等。在人机交互应用中，手势动作也有很重要的应用，每个手势可以作为指令控制下位机执行相应的功能。而有效地检测手形可以作为手势识别的前期输入提高人机交互的灵敏度，带来良好的用户体验。

目前的手形检测往往是根据边缘检测获取初始的位置，至少存在以下问题：在外部环境与肤色相似的情况下往往会由于检测不到有效的手掌边缘部分，出现检测失败的情况。

发明内容

本发明提供一种手形检测方法和系统，用以解决现有技术中存在的一个或多个问题。

第一方面，本发明实施例提供一种手形检测方法，包括：对输入图像进行处理以形成多层图像金字塔；基于卷积神经网络金字塔对多层图像金字塔进行检测以生成初始结果集，其中，卷积神经网络金字塔包括基于对多种不同分辨率的多种手形图像进行深度学习得到；对初始结果集进行结果融合和过滤以生成手形最终检测结果。

第二方面，本发明实施例提供一种手形检测系统，包括：图像金字塔形成模块，配置用于对输入图像进行处理以形成多层图像金字塔；检测模块，配置用于基于卷积神经网络金字塔对多层图像金字塔进行检测以生成初始结果集，其中，卷积神经网络金字塔包括基于对多种不同分辨率的多种手形图像进行深度学习得到；以及结果融合模块，配置用于对初始结果集进行结果融合和过滤以生成手形最终检测结果。

第三方面，本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行本申请上述任一项手形检测方法。

第四方面，本申请实施例还提供了一种电子设备，包括：至少一个处理器；以及存储器；其中，所述存储器存储有可被所述至少一个处理器执行的程序，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项手形检测方法。

本发明实施例提供的手形检测方法和系统，通过对输入图像进行处理以形成多层图像金字塔，进而基于预先训练好的卷积神经网络对多层图像金字塔进行检测以生成初始结果集，对初始结果集进行融合和过滤得到最终的手形检测结果，可以实现对手形边缘更加有效地检测，并且能提高检测精度。进一步地，由于采用多层图像金字塔可以使图像中明显和不明显的边缘或目标都能得到很好地表征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明手形检测方法的一个实施例流程图；

图2为本发明手形检测方法的又一个实施例流程图；

图3为本发明手形检测方法的再一个实施例流程图；

图4为本发明手形检测方案的应用实例流程图；

图5为本发明手形检测方案的实施例应用场景效果示意图；

图6为本发明手形检测系统的实施例结构示意图；

图7是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“组件”、“装置”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，组件可以、但不限于是运行于处理器的过程、处理器、对象、可执行组件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是组件。一个或多个组件可在执行的过程和/或线程中，并且组件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。组件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一组件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中术语“包括”、“包含”，不仅包括那些已经给出要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明的实施例中，检测手形的过程中涉及多种算法和公式，下面先对可能用到的算法和公式进行解释和说明，以使本领域的技术人员能更好的理解本发明。

图像金字塔是以多分辨率来解释图像的一种结构。1987年，在一种全新而有效的信号处理与分析方法，即多分辨率理论中，小波首次作为分析基础出现了。多分辨率理论将多种学科的技术有效地统一在一起，如信号处理的子带编码、数字语音识别的积分镜像过滤以及金字塔图像处理。正如其名字所表达的，多分辨率理论与多种分辨率下的信号(或图像)表示和分析有关。其优势很明显，某种分辨率下无法发现的特性在另一种分辨率下将很容易被发现。以多分辨率来解释图像的一种有效但概念简单的结构就是图像金字塔。图像金字塔最初用于机器视觉和图像压缩，一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低的图像集合。金字塔的底部是待处理图像的高分辨率表示，而顶部是低分辨率的近似。当向金字塔的上层移动时，尺寸和分辨率就降低。

其中在图像金字塔的构建过程中，会用到插值法，可以采用拉格朗日插值法，能使结果更加精确。其中拉格朗日插值公式具体为：若求T_i和T_i+1中任意一点T，则可用T_i-1、T_i、T_i+1个点来求得，也可用T_i、T_i+1、T_i+2，其中，前三个的公式为：后三个的公式为：为提高插值结果准确性，可将前后三点内插值再进一步平均。

关于概率判别，在针对多分类问题时，给定一个样本，就能输出一个相应的概率值。比如总共有k个类别，则可能会同时输出多个概率值，那么计算公式可以为：

h_{θ} (x^{(i)}) = [\begin{matrix} p (y^{(i)} = 1 | x^{(i)}; θ) \\ p (y^{(i)} = 2 | x^{(i)}; θ) \\ . \\ . \\ . \\ p (y^{(i)} = k | x^{(i)}; θ) \end{matrix}] = \frac{1}{Σ_{j = 1}^{k} e^{θ_{j}^{T} x^{(i)}}} [\begin{matrix} e^{θ_{1}^{T} x^{(i)}} \\ e^{θ_{2}^{T} x^{(i)}} \\ . \\ . \\ . \\ e^{θ_{k}^{T} x^{(i)}} \end{matrix}]

其中，参数θ不再是列向量，而是一个矩阵，矩阵的每一行可以看做是一个类别所对应的分类器的参数，总共有k行，所以矩阵θ可以写成下面的形式：

非极大值抑制非极大值抑制(NMS)主要是为了更精确的定位某种特征，比如用梯度变化表征边缘时，梯度变化较大的区域通常比较宽，所以利用x和y方向的梯度确定一个法向arctan(y/x)，然后在法向上判断当前梯度测量是否是一个峰值(或局部极大值)，如果是就保留，不是极大值就抑制(如设置为0)。这样的话就能将边缘定位在1-2像素宽(相邻像素有时候求极大值的方向恰好互不干扰)。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

参考图1，其示出了本发明手形检测方法的一个实施例流程图。

如图1所示，步骤101中，对输入图像进行处理以形成多层图像金字塔。

在本实施例中，手形检测装置对输入的图像进行处理，将其转换成相应的多层图像金字塔。进一步地，可以按照预定的比例多输入图像进行降采样处理以形成多层图像金字塔，例如，原图为1680*1680的，可以对其进行两次降采样分别形成840*840的和420*420的图像，以形成三层金字塔。发明人在实现本发明的过程中发现，三层和四层金字塔是最合适的。具体的，在形成多层金字塔的过程中，可以采用拉格朗日插值法，分别按照设定好的缩放尺度形成图像金字塔。这样大目标与小目标都会在图中有合适的检测大小，可以提高检测结果的准确率。

需要说明的是，本发明中所指的手形检测是对相应的图像中检测出手的轮廓信息，手的轮廓信息例如当握拳的时候整个拳头的轮廓，当手平展时，手掌和无知的轮廓信息等。

继而，在步骤102中，基于卷积神经网络金字塔对多层图像金字塔进行检测以生成初始结果集。

在本实施例中，手形检测装置利用训练好的卷积神经网络金字塔对多层图像金字塔进行检测，并生成初始结果集。其中，卷积神经网络金字塔包括基于对多种不同分辨率的多种手形图像进行深度学习得到的，其中多种手形图像可以包括握拳、平展、拇指、食指、中指、无名指、小指、六、八等手形，图像还可以包括多种肤色、多种光照强度以及多种场景下的图像，以进一步提高检测的准确度。其中，卷积神经网络包括对已知图像进行检测，判别、矫正等深度学习的过程形成。例如卷积神经网络中可以包括多种手形的样本图像，之后检测其它图像时，先进行边缘检测，然后将检测到的边缘与模板匹配，找出其中手形的边缘。

之后，在步骤103中，对初始结果集进行结果融合和过滤以生成手形最终检测结果。

在本实施例中，手形检测装置卷积神经网络金字塔检测生成的对应于多层图像金字塔的多个结果进行融合和过滤以生成最终的检测结果。其中，融合和过滤的过程可以包括对其中误差较大的结果进行过滤，用已有的算法如支持向量机进行判别融合，或者还可以使用面积重叠的方法，或者还可以使用归一法等现有的或者未来开发的算法进行结果融合，本发明在此方面没有限制。

在本实施例中，通过对输入图像进行处理以形成多层图像金字塔，进而基于预先训练好的卷积神经网络对多层图像金字塔进行检测以生成初始结果集，对初始结果集进行融合和过滤得到最终的手形检测结果，可以实现对手形边缘更加有效地检测，并且能提高检测精度。进一步地，由于采用多层图像金字塔可以使图像中明显和不明显的边缘或大目标和小目标都能得到很好地表征，从而可以提高检测的成功率和准确度。

进一步参考图2，其示出了本发明手形检测方法的又一个实施例流程图。图2所示流程为图1中步骤102的一种可选实施例。

如图2所示，在步骤201中，对多层图像金字塔中的每一层图像采用卷积神经网络金字塔中相应分辨率的卷积神经网络进行检测以生成相应的初始结果。

在本实施例中，手形检测装置对多层图像金字塔中的每一层图像采用与该层图像相应的分辨率的卷积神经网络进行检测，然后生成相应的初始结果。其中，初始结果可以是一个，也可以是多个，具体和相应的卷积神经网络相关，也和图像中的具体场景有关，例如场景中可能存在多个手形。

之后，在步骤202中，基于多种不同分辨率的卷积神经网络金字塔对多层图像金字塔检测的多个初始结果形成初始结果集。

在本实施例中，手形检测装置可以根据不同分辨率的卷积神经网络金字塔对不同分辨率和尺寸的多个图像金字塔检测出的多个初始结果形成初始结果集。

在本实施例中，通过使用对应于不同分辨率进行深度学习的卷积神经网络对相应的某一层图像进行检测，可以进一步提高检测精度。产生多个对应于不同分辨率的检测结果也能更好地表征手形图像中的大目标和小目标，以实现更准确地检测。

进一步参考图3，其示出了本发明手形检测方法的再一个实施例流程图。其中，图3所示流程图为图1所示流程中步骤103的一个可选实施例。

首先，在步骤301中，将每一层图像金字塔对应的初始结果均缩放至同一尺度。

在本实施例中，手形检测装置将每一层图形金字塔对应的初始结果缩放至同一尺寸。其中，初始结果为根据卷积神经网络金字塔检测出来的各种可能的手形区域。通过将各种不同尺寸不同分辨率的初始结果缩放至同一尺度，可以方便之后对数据的处理。

然后，在步骤302中，当同一尺度下的某一初始结果与多个其他初始结果之间的重合面积大于阈值面积时，确定某一初始结果置信，否则丢弃。

在本实施例中，手形检测装置对其中一个初始结果进行判定，如果发现该初始结果与两个或者两个以上的其他初始结果有重合的地方，并且重合的面积大于阈值面积时，则可以确定上述的某一初始结果置信，如果没有与任何一个其他初始结果之间有重合，则丢弃该初始结果。其中，阈值面积可以设置为一个定值，也可以设置为此次检测的初始结果中的最小面积的二分之一，本发明在此方面没有限制。

最后，在步骤303中，选取同一区域范围内置信的初始结果中面积最大的初始结果作为手形最终检测结果。

在本实施例中，手形检测装置从之前确定的置信的初始结果中选择出面积最大的初始结果作为手形最终检测结果。由于之前经过神经网络之后，已经判定出可能的手形，但是有可能因为光线、肤色等原因导致检测出来的结果只是手形的一部分，所以从置信的结果中选择面积最大的即可以确定为是最终的手形检测结果。

在本实施例中，通过使用面积重叠的方式，可以排除其中的干扰结果，进一步采用极大值抑制的方法可以使检测的结果更接近预期的结果，提高检测的准确性和精确度。

在一些可选的实施例中，步骤101还进一步包括：根据预设缩放比例对输入图像进行一次或多次降采样处理以形成多层图像金字塔。通过采用降采样的方式形成图像金字塔，可以使构建金字塔的过程更加快速，提高效率。

在另一些可选的实施例中，在对输入图像进行处理以形成多层图像金字塔之前还包括：对原始图像进行双边滤波和图像均衡化处理以生成输入图像。通过对原始图片进行双边滤波和图像均衡化处理，可以改善原始图像存在的模糊、噪声、不清晰等情况，保证输入图像的有效性。

请参考图4，其示出了本发明手形检测方案的应用实例流程图。

如图4所示，在步骤401中，输入图像预处理。

在本实施例中，从视频或硬件设备采集的图像往往存在模糊、噪声不清晰等情况，因此需要对原始图像进行预处理，可以进行双边滤波与图像均衡化，保证输入图像的有效性。

接着，在步骤402中，构建图像金字塔。

在本实施例中，为提高检测准确率，可以按照线性插值的方法将输入图像缩放到固定比例，并分别按照设定好的缩放尺度进行降采样处理形成图像金字塔，例如可以形成图中所示的三层图像金字塔。这样大目标与小目标都会在图中有合适的检测大小。其中，大目标可以是当图像尺寸比较小，分辨率比较低时，可以对比较大的轮廓有很好的检测，小目标可以是当图片分辨率比较高，尺寸比较大时，可以对一些小的边缘和轮廓有很好的检测效果。

之后，在步骤403中，构建神经网络金字塔。

在本实施例中，为分别对不同图像金字塔中的目标进行检测，我们采取对每一级图像分别构建神经网络的方法，这样能够适应不同尺度图像下的检测范围。其中，每一级图像对应的神经网络都是使用相应的分辨率的图像进行深度学习得到。这样可以对每一级图像都能有很好地检测效果。当然，也可以不用区分分辨率，直接把多种分辨率的图像都放在同一个神经网络中进行训练，本发明在此方面没有限制。

接着，在步骤404中，产生初始结果集。

在本实施例中，通过采用不同的神经网络金字塔对不同尺度的图像分别进行检测，可以形成初始结果集；

然后，在步骤405中，进行结果融合。

在本实施例中，先将每一级检测结果缩放到统一尺度，再用结果间重合的面积进行结果确认，例如如果有两个以上的初始结果重合面积分别大于最小检测结果面积的二分之一，则判断当前结果置信，否则丢弃。

之后，在步骤406中，非极大值抑制操作。

在本实施例中，对之前结果融合步骤中所有确认后的结果进行非极大值抑制操作，即当同一区域范围内有多个结果时选取面积最大的那一个。

最后，在步骤407中，经过非极大值抑制之后，就能定位到最终的结果。具体的应用场景效果可以参见图5。

图5示出了本发明手形检测方案的实施例应用场景效果示意图。

图5中示出了从一张原始图像中检测出手形的部分流程。其中，501中示出了将一张图像变成图像金字塔的示意图，通过按照一定的比例对图像进行处理和缩放以形成多张不同尺寸不同分辨率的图像。之后，在502中示出了利用卷积神经网络金字塔处理图像金字塔后的图片，经过卷积神经网络之后，检测出了不同尺寸不同分辨率的手形区域。从图中可见，有些图片由于尺寸太小，分辨率太低，无法检测出某些手形。接着，在503中示出了最终的结果，通过对之前各种不同尺寸、不同分辨率的图像统一尺度，然后进行结果融合和非极大值抑制之后得到了如图中所示的最终的手形图像。其中，506中示出的第一层金字塔是输入图像及相关的处理过程，505中示出的第二层金字塔是经过降采样后的图像及后续处理过程，504中示出的第三层金字塔是经过两次降采样处理后的图像及后续的图像。

请参考图6，其示出了本发明手形检测系统的实施例结构示意图。

如图6所示，手形检测系统600包括图像金字塔形成模块601、检测模块602以及结果融合模块603。其中，图像金字塔形成模块601，配置用于对输入图像进行处理以形成多层图像金字塔；检测模块602，配置用于基于卷积神经网络金字塔对多层图像金字塔进行检测以生成初始结果集，其中，卷积神经网络金字塔包括基于对多种不同分辨率的多种手形图像进行深度学习得到；以及结果融合模块603，配置用于对初始结果集进行结果融合和过滤以生成手形最终检测结果。

在一些可选的实施例中，检测模块602还包括配置用于：对多层图像金字塔中的每一层图像采用卷积神经网络金字塔中相应分辨率的卷积神经网络进行检测以生成相应的初始结果；以及基于多种不同分辨率的卷积神经网络金字塔对多层图像金字塔检测的多个初始结果形成初始结果集。

在一些可选的实施例中，结果融合模块603包括配置用于将每一层图像金字塔对应的初始结果均缩放至同一尺度；当同一尺度下的某一初始结果与多个其他初始结果之间的重合面积大于阈值面积时，确定某一初始结果置信，否则丢弃；以及选取同一区域范围内置信的初始结果中面积最大的初始结果作为手形最终检测结果。

在一些可选的实施例中，图像金字塔形成模块601包括进一步配置用于根据预设缩放比例对输入图像进行一次或多次降采样处理以形成多层图像金字塔。

在另一些可选的实施例中，手形检测系统600还包括预处理模块(图中未示出)，配置用于对原始图像进行双边滤波和图像均衡化处理以生成输入图像。

应当理解，图6记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块，在此不再赘述。

以上的各个系统以及方法中涉及的系统和装置均可以为一个服务器或者服务器集群，其中上述每一个模块也可以是单独的服务器或者服务器集群，此时，上述模块之间的交互表现为各模块所对应的服务器之间的交互。

本申请实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的手形检测方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，所述计算机可执行指令设置为:

对输入图像进行处理以形成多层图像金字塔；

基于卷积神经网络金字塔对多层图像金字塔进行检测以生成初始结果集，其中，卷积神经网络金字塔包括基于对多种不同分辨率的多种手形图像进行深度学习得到；

对初始结果集进行结果融合和过滤以生成手形最终检测结果。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的手形检测方法对应的程序指令/模块(例如，附图6所示的图像金字塔形成模块601、检测模块602以及结果融合模块603)。所述一个或者多个模块存储在所述非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的手形检测方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据手形检测装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至存储器的手形检测装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图7是本申请一实施例提供的电子设备的结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。

存储器的手形检测方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例手形检测方法。

输入装置730可接收输入的数字或字符信息，以及产生与存储器的手形检测装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

作为一种实施方式，上述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

对输入图像进行处理以形成多层图像金字塔；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种手形检测方法，包括：

对输入图像进行处理以形成多层图像金字塔；

基于卷积神经网络金字塔对所述多层图像金字塔进行检测以生成初始结果集，其中，所述卷积神经网络金字塔包括基于对多种不同分辨率的多种手形图像进行深度学习得到；

对所述初始结果集进行结果融合和过滤以生成手形最终检测结果。

2.根据权利要求1所述的方法，所述基于卷积神经网络金字塔对所述多层图像金字塔进行检测以生成初始结果集包括：

对所述多层图像金字塔中的每一层图像采用卷积神经网络金字塔中相应分辨率的卷积神经网络进行检测以生成相应的初始结果；

基于多种不同分辨率的卷积神经网络金字塔对所述多层图像金字塔检测的多个初始结果形成初始结果集。

3.根据权利要求1或2所述的方法，所述对所述初始结果集进行结果融合和过滤以生成手形最终检测结果包括：

将每一层图像金字塔对应的初始结果均缩放至同一尺度；

当同一尺度下的某一初始结果与多个其他初始结果之间的重合面积大于阈值面积时，确定所述某一初始结果置信，否则丢弃；

选取同一区域范围内置信的初始结果中面积最大的初始结果作为手形最终检测结果。

4.根据权利要求1或2所述的方法，所述对输入图像进行处理以形成多层图像金字塔包括：

根据预设缩放比例对输入图像进行一次或多次降采样处理以形成多层图像金字塔。

5.根据权利要求1或2所述的方法，在对输入图像进行处理以形成多层图像金字塔之前还包括：

对原始图像进行双边滤波和图像均衡化处理以生成输入图像。

6.一种手形检测系统，包括：

图像金字塔形成模块，配置用于对输入图像进行处理以形成多层图像金字塔；

检测模块，配置用于基于卷积神经网络金字塔对所述多层图像金字塔进行检测以生成初始结果集，其中，所述卷积神经网络金字塔包括基于对多种不同分辨率的多种手形图像进行深度学习得到；

结果融合模块，配置用于对所述初始结果集进行结果融合和过滤以生成手形最终检测结果。

7.根据权利要求6所述的系统，所述检测模块包括配置用于：

8.根据权利要求6或7所述的系统，所述结果融合模块包括配置用于：

将每一层图像金字塔对应的初始结果均缩放至同一尺度；

9.根据权利要求6或7所述的系统，所述图像金字塔形成模块包括进一步配置用于：

10.根据权利要求6或7所述的系统，还包括：

预处理模块，配置用于对原始图像进行双边滤波和图像均衡化处理以生成输入图像。