CN108229277A

CN108229277A - 手势识别、控制及神经网络训练方法、装置及电子设备

Info

Publication number: CN108229277A
Application number: CN201710208528.1A
Authority: CN
Inventors: 王权; 刘文韬; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2018-06-29
Anticipated expiration: 2037-03-31
Also published as: US20200026910A1; US11170210B2; WO2018177379A1; CN108229277B

Abstract

本发明实施例提供了一种手势识别、手势控制及多层神经网络训练方法、装置及电子设备。其中，手势识别方法，包括：通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率；所述手势可能类别包括：无手势类别以及至少一种手势类别；如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别。通过本发明实施例，实现了手势的准确识别和跟踪。

Description

手势识别、控制及神经网络训练方法、装置及电子设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种手势识别方法、装置及电子设备，一种手势控制方法、装置及电子设备，以及，一种多层神经网络训练方法、装置及电子设备。

背景技术

随着计算机视觉技术的不断发展，出现了许多新的人机交互技术。其中，用手势控制机器最自然也最具应用价值，同时，用RGB摄像头作为交互媒介是最易普及的远程交互方式。基于RGB图像的手势交互提供了一种远程、非接触式的实时人机交互方式，一定程度上发挥了鼠标、键盘、遥控器、触摸屏这些传统的接触式交互输入设备的功效。

在使用手势进行人机交互过程中，如果高效、准确地进行手势识别成为本领域亟待解决的问题。

发明内容

本发明实施例提供了手势识别、手势控制及多层神经网络训练的技术方案。

根据本发明实施例的第一方面，提供了一种手势识别方法，包括：通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率；所述手势可能类别包括：无手势类别以及至少一种手势类别；如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别。

可选地，所述多层神经网络包括复用网络输入层和部分卷积层的第一神经网络和第二神经网络；所述通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率，包括：通过所述第一神经网络检测所述图像中的手可能区域；通过所述第二神经网络检测所述图像中的手势可能类别及其概率。

可选地，所述至少一种手势类别包括：至少一种预定具体手势类别；或者，所述至少一种手势类别包括：至少一种预定具体手势类别和其他手势类别。

可选地，所述手势可能类别包括第一手势可能类别和第二手势可能类别；所述第一手势可能类别包括：有手势类别和无手势类别；所述第二可能手势类别包括：至少两种预定具体手势类别，或者，至少一种预定具体手势类别和其他手势类别；所述如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别，包括：如果检测到的最大概率的第一手势可能类别为无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的第二手势可能类别。

可选地，所述第二神经网络包括复用所述网络输入层和部分卷积层的第一子神经网络和第二子神经网络；所述通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率，包括：通过所述第一神经网络检测所述图像中的手可能区域；通过所述第一子神经网络检测所述图像中的第一手势可能类别及其概率；通过所述第二子神经网络检测所述图像中的第二手势可能类别及其概率。

可选地，所述通过多层神经网络对图像进行手势信息检测之前，还包括：如果当前视频帧的前一视频帧检测得到的最大概率的手势可能类别不是无手势类别，则至少根据所述前一视频帧输出的手可能区域的位置信息，裁取所述当前视频帧的局部区域，裁取得到的局部区域为输入所述多层神经网络的所述图像。

可选地，所述至少根据所述前一视频帧输出的手可能区域的位置信息，裁取所述当前视频帧的局部区域，裁取得到的局部区域为输入所述多层神经网络的所述图像，包括：基于所述位置信息拉大所述前一视频帧输出的手可能区域；根据拉大后的手可能区域进行所述当前视频帧的局部区域裁取，裁取得到的局部区域为输入所述多层神经网络的所述图像。

可选地，所述至少根据所述前一视频帧输出的手可能区域的位置信息，裁取所述当前视频帧的局部区域，裁取得到的局部区域为输入所述多层神经网络的所述图像，包括：基于所述位置信息拉大所述前一视频帧输出的手可能区域；将拉大后的手可能区域相对所述位置信息的不同方向分别偏移一预定距离并分别进行裁取；对裁取得到的多个手可能区域分别进行手势信息检测，并确定手势可能类别为无手势类别的概率最小的手可能区域为输入所述多层神经网络的所述图像。

可选地，如果当前视频帧为初始化检测帧，所述通过多层神经网络对图像进行手势信息检测之前，还包括：在所述初始化检测帧中确定与多个预定初始化检测框分别对应的多个初始手可能区域；对多个初始手可能区域分别进行手势信息检测，并裁取手势可能类别为无手势类别的概率最小的初始手可能区域为输入所述多层神经网络的所述图像；其中，所述初始化检测帧为视频帧序列的首个视频帧，或者，所述初始化检测帧的前一视频帧检测得到的最大概率的手势可能类别是无手势类别。

可选地，所述多个预定初始检测框包括：预定的多个不同位置的初始检测框，多个所述初始检测框中至少二者大小相同或不同。

可选地，所述通过多层神经网络对图像进行手势信息检测之前，还包括：获取已标注手势信息的训练样本图像；对所述训练样本图像进行加扰处理；基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。

可选地，基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络，包括：基于所述训练样本集中的正样本训练所述第一神经网络；在所述第一神经网络训练完成之后，固定复用的所述网络输入层和部分卷积层的网络参数并基于所述训练样本集中的正样本和负样本，训练所述第二神经网络。

可选地，基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络，包括：基于所述训练样本集中的正样本训练所述第一神经网络；在所述第一神经网络训练完成之后，固定复用的所述网络输入层和部分卷积层的网络参数并基于所述训练样本集中的正样本和负样本，训练所述第一子神经网络和所述第二子神经网络。

可选地，所述加扰处理包括以下之一：平移处理、缩放处理、镜像处理。

可选地，所述至少一种手势类别包括：平托手、竖大拇指、手枪手、OK手、桃心手、V字手、五指张开手。

根据本发明实施例的第二方面，提供了一种手势控制方法，包括：采用如第一方面任一所述的方法对视频帧序列中的当前视频帧进行手势识别，得到所述当前视频帧的手区域的位置信息以及手势类别；至少根据所述当前视频帧的手区域的位置信息和/或手势类别执行对应的控制操作。

可选地，至少根据所述当前视频帧的手区域的位置信息和/或手势类别执行相应的控制操作，包括：确定所述当前视频帧的手区域的位置信息和/或手势类别与时序在先且连续的至少一视频帧的手区域的位置信息和/或手势类别的变化信息；根据所述变化信息执行对应的控制操作。

可选地，根据所述变化信息执行对应的控制操作，包括：响应于所述变化信息表示所述当前视频帧的手势类别与前一视频帧的手势类别不同，则将从所述前一视频帧的手势类别对应的控制操作切换到所述当前视频帧的手势类别对应的控制操作。

可选地，根据所述变化信息执行对应的控制操作，包括：响应于所述变化信息表示所述当前视频帧的手区域的位置信息与前一视频帧的手区域的位置信息不同，则执行位置信息变化对应的对象移动操作。

根据本发明实施例的第三方面，提供了一种多层神经网络训练方法，包括：获取已标注手势信息的训练样本图像；对所述训练样本图像进行加扰处理；基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。

根据本发明实施例的第四方面，提供了一种手势识别装置，包括：检测模块，用于通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率；所述手势可能类别包括：无手势类别以及至少一种手势类别；输出模块，用于如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别。

可选地，所述多层神经网络包括复用网络输入层和部分卷积层的第一神经网络和第二神经网络；所述检测模块，用于通过所述第一神经网络检测所述图像中的手可能区域；通过所述第二神经网络检测所述图像中的手势可能类别及其概率。

可选地，所述手势可能类别包括第一手势可能类别和第二手势可能类别；所述第一手势可能类别包括：有手势类别和无手势类别；所述第二可能手势类别包括：至少两种预定具体手势类别，或者，至少一种预定具体手势类别和其他手势类别；所述输出模块，用于如果检测到的最大概率的第一手势可能类别为无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的第二手势可能类别。

可选地，所述第二神经网络包括复用所述网络输入层和部分卷积层的第一子神经网络和第二子神经网络；所述检测模块，用于通过所述第一神经网络检测所述图像中的手可能区域；通过所述第一子神经网络检测所述图像中的第一手势可能类别及其概率；通过所述第二子神经网络检测所述图像中的第二手势可能类别及其概率。

可选地，所述装置还包括：裁取模块，用于在所述检测模块通过多层神经网络对图像进行手势信息检测之前，如果当前视频帧的前一视频帧检测得到的最大概率的手势可能类别不是无手势类别，则至少根据所述前一视频帧输出的手可能区域的位置信息，裁取所述当前视频帧的局部区域，裁取得到的局部区域为输入所述多层神经网络的所述图像。

可选地，所述裁取模块，用于如果当前视频帧的前一视频帧检测得到的最大概率的手势可能类别不是无手势类别，基于所述位置信息拉大所述前一视频帧输出的手可能区域；根据拉大后的手可能区域进行所述当前视频帧的局部区域裁取，裁取得到的局部区域为输入所述多层神经网络的所述图像。

可选地，所述裁取模块，用于如果当前视频帧的前一视频帧检测得到的最大概率的手势可能类别不是无手势类别，基于所述位置信息拉大所述前一视频帧输出的手可能区域；将拉大后的手可能区域相对所述位置信息的不同方向分别偏移一预定距离并分别进行裁取；对裁取得到的多个手可能区域分别进行手势信息检测，并确定手势可能类别为无手势类别的概率最小的手可能区域为输入所述多层神经网络的所述图像。

可选地，所述装置还包括：初始模块，用于如果当前视频帧为初始化检测帧，则在所述检测模块通过多层神经网络对图像进行手势信息检测之前，在所述初始化检测帧中确定与多个预定初始化检测框分别对应的多个初始手可能区域；对多个初始手可能区域分别进行手势信息检测，并裁取手势可能类别为无手势类别的概率最小的初始手可能区域为输入所述多层神经网络的所述图像；其中，所述初始化检测帧为视频帧序列的首个视频帧，或者，所述初始化检测帧的前一视频帧检测得到的最大概率的手势可能类别是无手势类别。

可选地，所述装置还包括：训练模块；所述训练模块包括：获取模块，用于在所述检测模块通过多层神经网络对图像进行手势信息检测之前，获取已标注手势信息的训练样本图像；加扰模块，用于对所述训练样本图像进行加扰处理；网络训练模块，用于基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。

可选地，所述网络训练模块，用于基于所述训练样本集中的正样本训练所述第一神经网络；在所述第一神经网络训练完成之后，固定复用的所述网络输入层和部分卷积层的网络参数并基于所述训练样本集中的正样本和负样本，训练所述第二神经网络。

可选地，所述网络训练模块，用于基于所述训练样本集中的正样本训练所述第一神经网络；在所述第一神经网络训练完成之后，固定复用的所述网络输入层和部分卷积层的网络参数并基于所述训练样本集中的正样本和负样本，训练所述第一子神经网络和所述第二子神经网络。

根据本发明实施例的第五方面，提供了一种手势控制装置，包括：识别模块，用于采用如第四方面任一所述的装置对视频帧序列中的当前视频帧进行手势识别，得到所述当前视频帧的手区域的位置信息以及手势类别；控制模块，用于至少根据所述当前视频帧的手区域的位置信息和/或手势类别执行对应的控制操作。

可选地，所述控制模块包括：确定模块，用于确定所述当前视频帧的手区域的位置信息和/或手势类别与时序在先且连续的至少一视频帧的手区域的位置信息和/或手势类别的变化信息；执行模块，用于根据所述变化信息执行对应的控制操作。

可选地，所述执行模块，用于响应于所述变化信息表示所述当前视频帧的手势类别与前一视频帧的手势类别不同，则将从所述前一视频帧的手势类别对应的控制操作切换到所述当前视频帧的手势类别对应的控制操作。

可选地，所述执行模块，用于响应于所述变化信息表示所述当前视频帧的手区域的位置信息与前一视频帧的手区域的位置信息不同，则执行位置信息变化对应的对象移动操作。

根据本发明实施例的第六方面，提供了一种多层神经网络训练装置，包括：样本获取模块，用于获取已标注手势信息的训练样本图像；样本加扰模块，用于对所述训练样本图像进行加扰处理；神经网络训练模块，用于基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。

可选地，所述神经网络训练模块包括：第一训练模块，用于基于所述训练样本集中的正样本训练所述第一神经网络；在所述第一神经网络训练完成之后，固定复用的所述网络输入层和部分卷积层的网络参数并基于所述训练样本集中的正样本和负样本，训练所述第二神经网络。

可选地，所述神经网络训练模块包括：第二训练模块，用于基于所述训练样本集中的正样本训练所述第一神经网络；在所述第一神经网络训练完成之后，固定复用的所述网络输入层和部分卷积层的网络参数并基于所述训练样本集中的正样本和负样本，训练所述第一子神经网络和所述第二子神经网络。

根据本发明实施例的第七方面，提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面任一项所述的手势识别方法对应的操作，或者，执行如第二方面任一项所述的手势控制方法对应的操作，或者，执行如第三方面任一项所述的多层神经网络训练方法对应的操作。

根据本发明实施例的第八方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率的可执行指令；所述手势可能类别包括：无手势类别以及至少一种手势类别；用于如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别的可执行指令。

根据本发明实施例的第九方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于采用如第一方面任一所述的方法对视频帧序列中的当前视频帧进行手势识别，得到所述当前视频帧的手区域的位置信息以及手势类别的可执行指令；用于至少根据所述当前视频帧的手区域的位置信息和/或手势类别执行对应的控制操作的可执行指令。

根据本发明实施例的第十方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于获取已标注手势信息的训练样本图像的可执行指令；用于对所述训练样本图像进行加扰处理的可执行指令；用于基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络的可执行指令。

根据本发明实施例提供的技术方案，通过多层神经网络对图像进行手势信息检测，以获得图像中手可能区域、手势可能类别及其概率；进而，从获得的上述信息确定最大概率的手势可能类别；若该手势可能类别为无手势类别，则可以判断图像无手，不需输出相关信息，否则，根据手可能区域属于各个手势可能类别的概率输出该手势的相关信息，包括该手势所在的手可能区域的位置信息以及手势可能类别的信息。可见，通过本发明实施例的方案，确定最像手的区域，缩小手势识别范围，不仅能够实现手势识别，而且以手势可能类别的最大概率为依据判断最像手的区域中包含的手势的位置和类别，从而实现手势的更为准确的识别，以在后续的人机交互过程中，实现手势对机器设备的精准控制和操作。

附图说明

图1是根据本发明实施例一的一种手势识别方法的步骤流程图；

图2是根据本发明实施例二的一种手势识别方法的步骤流程图；

图3是根据本发明实施例三的一种手势控制方法的步骤流程图；

图4是根据本发明实施例四的一种手势控制方法的步骤流程图；

图5是根据本发明实施例五的一种神经网络训练方法的步骤流程图；

图6是根据本发明实施例六的一种神经网络训练方法的步骤流程图；

图7是根据本发明实施例七的一种手势识别装置的结构框图；

图8是根据本发明实施例八的一种手势识别装置的结构框图；

图9是根据本发明实施例九的一种手势控制装置的结构框图；

图10是根据本发明实施例十的一种手势控制装置的结构框图；

图11是根据本发明实施例十一的一种多层神经网络训练装置的结构框图；

图12是根据本发明实施例十二的一种多层神经网络训练装置的结构框图；

图13是根据本发明实施例十三的一种电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

参照图1，示出了根据本发明实施例一的一种手势识别方法的步骤流程图。

本实施例的手势识别方法包括以下步骤：

步骤S102：通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率。

其中，手势可能类别包括：无手势类别以及至少一种手势类别。手势类别可以由本领域技术人员根据实际需要设定，如，OK手、桃心手、V字手等等。

多层神经网络可以是经过训练的适当的神经网络，包括但不限于经过训练的卷积神经网络；图像可以为视频序列中的视频帧图像，也可以为静态图像。一般来说，图像多为彩色图像，包括但不限于RGB图像，该彩色图像可以通过任意适当的设备如照相机或摄像头拍摄生成。

本发明实施例中，可以通过多层神经网络获得被检测的图像中的手可能区域、手势可能类别、以及手势可能类别概率等信息。

其中，通过多层神经网络在图像中选择一个最像手的区域，即手可能区域，该区域可以用矩形框框出来，也可以用其它形状示出。对于每张图像(无论图像中是否有手)，多层神经网络都会自动检测出一个最像手的区域，并在该区域中进行手势的识别，也就是对该区域判断是否有手或者手势属于哪一类别。多层神经网络在对手可能区域的检测或识别时，无需进行全图检测，只需要对手可能区域进行检测，该区域就是整个图像中最可能是手的区域，检测和识别结果也会更准确。

步骤S104：如果检测得到的最大概率的手势可能类别为无手势类别，不输出所述图像的手可能区域的位置信息；否则，输出所述图像的手可能区域的位置信息以及检测得到的最大概率的手势可能类别。

将无手势类别作为手势可能类别之一，根据手可能区域属于各个手势可能类别的概率进行判断，将最大概率对应的手势类别确定为最终的手势类别。

当手势可能类别为无手势类别，则说明图像中无手，因此，也无需输出手可能区域的位置信息。

根据本实施例，通过多层神经网络对图像进行手势信息检测，以获得图像中手可能区域、手势可能类别及其概率；进而，从获得的上述信息确定最大概率的手势可能类别；若该手势可能类别为无手势类别，则可以判断图像无手，不需输出相关信息，否则，根据手可能区域属于各个手势可能类别的概率输出该手势的相关信息，包括该手势所在的手可能区域的位置信息以及手势可能类别的信息。可见，通过本实施例的方案，确定最像手的区域，缩小手势识别范围，不仅能够实现手势识别，而且以手势可能类别的最大概率为依据判断最像手的区域中包含的手势的位置和类别，从而实现手势的更为准确的识别，以在后续的人机交互过程中，实现手势对机器设备的精准控制和操作。

实施例二

参照图2，示出了根据本发明实施例二的一种手势识别方法的步骤流程图。

本实施例中，进行手势识别使用的多层神经网络可以在进行手势识别之前先训练生成，也可以采用第三方提供的神经网络。本实施例以训练生成神经网络为例进行说明。

本实施例的手势识别方法包括以下步骤：

步骤S202：训练生成多层神经网络。

包括：获取已标注手势信息的训练样本图像；对训练样本图像进行加扰处理；基于训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练多层神经网络。

其中，训练样本图像中手势信息的标注可以由本领域技术人员根据实际需要确定，包括但不限于以下至少一种：无手势、有手势、具体手势类别、其他手势类别、手区域位置等等标注信息。对训练样本图像的加扰处理也可以由本领域技术人员根据实际需要采用适当的方式实现，包括但不限于以下之一：平移处理、缩放处理、镜像处理等等。通过加扰处理，可以扩充训练样本图像，以防止过拟合。因为在训练样本图像数量少的时候，可能出现卷积神经网络拟合的情况，不利于神经网络的训练和检测的准确度，所以在训练样本图像较少的时候，通过加扰扩充训练样本图像。

在一种实现方式中，多层神经网络包括复用网络输入层和部分卷积层的第一神经网络和第二神经网络；在另一种实现方式中，多层神经网络除包括复用网络输入层和部分卷积层的第一神经网络和第二神经网络外，第二神经网络包括复用网络输入层和部分卷积层的第一子神经网络和第二子神经网络。

相对应地，在基于训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练多层神经网络时，一种实现方式包括：基于训练样本集中的正样本训练第一神经网络；在第一神经网络训练完成之后，固定复用的网络输入层和部分卷积层的网络参数并基于训练样本集中的正样本和负样本，训练第二神经网络。用正样本训练第一神经网络，待第一神经网络训练好后，可以强制第一神经网络在各个图像中找到一个手可能区域，无论图像中是否有手。通过这种方式，缩小了需要识别的图像区域。而基于正样本和负样本训练第二神经网络，通过负样本将无手作为手势的一类，无需单独判断图像中是有手还是无手。

另一种实现方式包括：基于训练样本集中的正样本训练第一神经网络；在第一神经网络训练完成之后，固定复用的网络输入层和部分卷积层的网络参数并基于训练样本集中的正样本和负样本，训练第一子神经网络和第二子神经网络。该种方式中，第一子神经网络判断是否有手，如果无手，直接返回给手可能区域，无需输出；如果有手，第二子神经网络再进一步判断是哪种手势。通过这种方式，第一子神经网络和第二子神经网络中每一类的训练样本数量基本保持一致，不会产生某一类别训练的好，其它的效果很差的现象，例如：有手和无手的样本数是差不多的，有手中每一类的手势的样本数是差不多的，更容易使得对很多不同手势的样本与无手样本的训练持平。训练生成多层神经网络的实现细节可进一步参照本发明实施例五和六中的相关描述。

步骤S204：通过多层神经网络对图像进行手势信息检测，得到图像中的手可能区域、手势可能类别及其概率。

当多层神经网络包括复用网络输入层和部分卷积层的第一神经网络和第二神经网络时，本步骤可以实现为：通过第一神经网络检测图像中的手可能区域；通过第二神经网络检测图像中的手势可能类别及其概率。

其中，手势可能类别包括：无手势类别以及至少一种手势类别。进一步地，至少一种手势类别包括：至少一种预定具体手势类别，包括但不限于：平托手、竖大拇指、手枪手、OK手、桃心手、V字手、五指张开手。或者，至少一种手势类别包括：至少一种预定具体手势类别和其他手势类别(该手势类别不属于预定具体手势类别)。

在另一种实现方式中，手势可能类别也可以包括第一手势可能类别和第二手势可能类别；其中，第一手势可能类别包括：有手势类别和无手势类别；第二可能手势类别包括：至少两种预定具体手势类别，或者，至少一种预定具体手势类别和其他手势类别。在此情况下，进一步地，若第二神经网络包括复用网络输入层和部分卷积层的第一子神经网络和第二子神经网络时，通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率的实现包括：通过第一神经网络检测图像中的手可能区域；通过第一子神经网络检测图像中的第一手势可能类别及其概率；通过第二子神经网络检测图像中的第二手势可能类别及其概率。

此外，若当前图像为视频序列中的视频帧图像时，对当前视频帧的手势信息检测还可以借助于当前视频帧的前一视频帧的相关信息。例如，在进行通过多层神经网络对图像进行手势信息检测的操作之前，还可以对当前视频帧的前一视频帧的手势可能类别进行确定，如果当前视频帧的前一视频帧检测得到的最大概率的手势可能类别不是无手势类别，则至少根据前一视频帧输出的手可能区域的位置信息，裁取当前视频帧的局部区域，裁取得到的局部区域为输入多层神经网络的所述图像。

其中，在裁取当前视频帧的局部区域时，一种可行的实现方式包括：基于前一视频帧输出的手可能区域的位置信息，拉大前一视频帧输出的手可能区域；根据拉大后的手可能区域进行当前视频帧的局部区域裁取，裁取得到的局部区域为输入多层神经网络的图像。另一种可行的实现方式包括：基于前一视频帧输出的手可能区域的位置信息，拉大前一视频帧输出的手可能区域；将拉大后的手可能区域相对所述位置信息的不同方向分别偏移一预定距离并分别进行裁取；对裁取得到的多个手可能区域分别进行手势信息检测，并确定手势可能类别为无手势类别的概率最小的手可能区域为输入多层神经网络的图像。其中，拉大的比例可以由本领域技术人员根据实际情况适当设置，因为相邻两帧间手可能会移动，因此，拉大的范围能够使得手移动后仍然在框内即可，无需过大。例如，将拉大后的手可能区域相对所述位置信息的不同方向向前后左右四个方向分别进行一定距离的偏移，通过这种方式，实现了对图像的扰动，可以模拟人的视觉神经(人的视觉神经会针对之前看到的物体，先在其附近判断其运动趋势)，这样可以更加准确的确定手势位置的变化情况。

在连续的视频序列中，前后相邻的视频帧连贯且具有较大的关联性和连贯性，导致前后两帧的变化可能很小，因此，根据前一视频帧或当前帧之前的某一视频帧的手可能区域在当前视频帧中进行拉大和裁取，以提高检测效率。当结合当前帧之前连续的几个视频帧的信息进行拉大和裁取时，在提高检测效率的同时，也使得检测结果更为准确。

如果当前视频帧为初始化检测帧，即视频帧序列的首个视频帧，或者，初始化检测帧的前一视频帧检测得到的最大概率的手势可能类别是无手势类别的视频帧。则因当前视频帧的前一视频帧没有手可能区域的位置信息可供参考，此时，在通过多层神经网络对图像进行手势信息检测之前，可以在初始化检测帧中确定与多个预定初始化检测框分别对应的多个初始手可能区域；对多个初始手可能区域分别进行手势信息检测，并裁取手势可能类别为无手势类别的概率最小的初始手可能区域为输入多层神经网络的图像。其中，多个预定初始检测框包括：预定的多个不同位置的初始检测框，多个初始检测框中至少二者大小相同或不同。

例如，使用RGB摄像头进行拍摄，对于首帧，可以在首帧的视频图像上设置21个初始检测框(21个初始检测框是示例性设定，其包含四种不同位置区域且不同大小的框，基本覆盖全图，且满足两米内应用的需求；一旦某个框检测到一只手，就会进入跟踪状态；四个不同位置区域不同大小的框，尺寸由小到大的个数可以依次是2、4、6、9个，位置区域与大小都是与图像的大小成一定比例)，将每一个初始检测框内的图像裁取出来，进一步判断框内是否有手，如果有手，则可以进行后续的判断手势类别的操作，和判断手的位置区域的操作。

步骤S206：如果检测得到的最大概率的手势可能类别为无手势类别，不输出所述图像的手可能区域的位置信息；否则，输出所述图像的手可能区域的位置信息以及检测得到的最大概率的手势可能类别。

在手势可能类别包括第一手势可能类别和第二手势可能类别；第一手势可能类别包括：有手势类别和无手势类别；第二可能手势类别包括：至少两种预定具体手势类别，或者，至少一种预定具体手势类别和其他手势类别的情况下，本步骤可以实现为：如果检测到的最大概率的第一手势可能类别为无手势类别，不输出所述图像的手可能区域的位置信息；否则，输出所述图像的手可能区域的位置信息以及检测得到的最大概率的第二手势可能类别。

根据本实施例，提供了一种通过预先训练好的多层神经网络结构实现手势信息监测，并且提供了判断有手无手的两种网络结构，同时，还据此实现了手势的连续识别和跟踪。本实施例提供的方案不局限于静态图片，还可以应用于视频或者动态判断，通过前一帧或者前N帧来判断当前帧的输入图像，进行手的连续跟踪。本实施例的手势识别方法可以由任意适当的具有图像或数据处理能力的设备执行，包括但不限于：移动终端、PC机、服务器、车载设备、娱乐设备、广告设备等。

实施例三

参照图3，示出了根据本发明实施例三的一种手势控制方法的步骤流程图。

本实施例的手势控制方法包括以下步骤：

步骤S302：对视频帧序列中的当前视频帧进行手势识别，得到当前视频帧的手区域的位置信息以及手势类别。

本实施例用于人机交互中实现手势控制，因此，主要针对视频帧序列中的视频帧进行相应操作。

在实现本步骤时，可以采用如实施例一或实施例二中所述的手势识别方法对视频帧序列中的当前视频帧进行手势识别，得到当前视频帧的手区域的位置信息以及手势类别。

步骤S304：至少根据当前视频帧的手区域的位置信息和/或手势类别执行对应的控制操作。

例如，若检测到手势类别为OK手，则可以使处于打开状态的电器设备如智能电视关闭；或者，若检测到手区域的位置发生了从左到右的移动，则可以将PC上展示的图片也从左到右移动相应距离，等等。

通过本实施例，实现了对视频中手势或手区域的准确识别和检测，进而实现了对相应设备的控制操作，大大提高了人机交互效率，提升了人机交互的趣味性和可参与程度。

本实施例的手势控制方法可以由任意适当的具有图像或数据处理能力的设备执行，包括但不限于：移动终端、PC机、服务器、车载设备、娱乐设备、广告设备等。

实施例四

参照图4，示出了根据本发明实施例四的一种手势控制方法的步骤流程图。

本实施例的手势控制方法包括以下步骤：

步骤S402：对视频帧序列中的当前视频帧进行手势识别，得到当前视频帧的手区域的位置信息以及手势类别。

在实现本步骤时，可以采用如实施例一或实施例二中所述的手势识别方法对视频帧序列中的当前视频帧进行手势识别，得到当前视频帧的手区域的位置信息以及手势类别。手势类别也如实施例一或二中所述，在此不再赘述。

步骤S404：根据当前视频帧的手区域的位置信息和/或手势类别，确定对应的手区域的位置变化信息和/或手势类别变化信息，至少根据手区域的位置变化信息和/或手势类别变化信息执行对应的控制操作。

在一种实现方式中，确定当前视频帧的手区域的位置信息和/或手势类别与时序在先且连续的至少一视频帧的手区域的位置信息和/或手势类别的变化信息；根据所述变化信息执行对应的控制操作。

其中，在确定上述变化信息时，可以将当前视频帧与时序在先的相邻的前一视频帧进行比较，获取相应的变化信息，例如，通过比较，确定手势类别从OK手变化为了五指张开手，则可以将智能电视从当前显示界面返回至主页。此外，还可以将当前视频帧与时序在先且连续的多个视频帧进行比较，根据相邻帧间的变化信息形成连续的变化信息以进行相应的控制操作，例如，通过将当前视频帧与时序在其前的连续的三个视频帧进行比较，获取手区域的连续位置变化信息，形成手部的移动轨迹，根据该移动轨迹进行相应的电子设备的解锁等。

需要说明的是，上述视频帧可以是实际拍摄的视频帧序列中的视频帧，也可以是拍摄到的视频帧序列中的采样帧或者关键帧。

可见，当变化信息指示手势类别的变化时，根据所述变化信息执行对应的控制操作包括：响应于所述变化信息表示当前视频帧的手势类别与前一视频帧的手势类别不同，则将从前一视频帧的手势类别对应的控制操作切换到当前视频帧的手势类别对应的控制操作。当变化信息指示位置变化时，根据所述变化信息执行对应的控制操作包括：响应于所述变化信息表示当前视频帧的手区域的位置信息与前一视频帧的手区域的位置信息不同，则执行位置信息变化对应的对象移动操作。

此外，在某些情况下，手势类别和手区域位置会同时发生变化，针对这种同时发生的变化，可以由本领域技术人员根据实际情况设置如何进行控制操作，例如，可以设置为仅执行手势类别的变化对应的控制操作；或者，仅执行手区域位置的变化对应的控制操作；或者，既执行手势类别的变化对应的控制操作，也执行手区域位置的变化对应的控制操作；或者，执行手势类别和手区域位置变化对应的一个控制操作。比如，检测到手势类别从手枪手变化为五指张开手的同时，手区域位置还从左向右移动，则可以先放大当前显示的图片再将图像从左向右移动相应的距离；或者，先将图像从左向右移动相应的距离再进行放大；或者，执行将当前显示的图片放大到全屏的操作。

可见，通过本实施例，实现了对视频中手势或手区域的准确识别和检测，进而实现了对相应设备的控制操作，大大提高了人机交互效率，提升了人机交互的趣味性和可参与程度。

实施例五

参照图5，示出了根据本发明实施例五的一种神经网络训练方法的步骤流程图。

本实施例的神经网络训练方法包括以下步骤：

步骤S502：获取已标注手势信息的训练样本图像。

其中，训练样本图像中手势信息的标注可以由本领域技术人员根据实际需要确定，包括但不限于以下至少一种：无手势、有手势、具体手势类别、其他手势类别、手区域位置等等标注信息。其中，具体手势类别包括但不限于：平托手、竖大拇指、手枪手、OK手、桃心手、V字手、五指张开手等，而其他手势类别可以是除上述手势类别之外的手势类别。

步骤S504：对训练样本图像进行加扰处理。

例如，对训练样本图像进行平移、缩放、镜像等加扰处理。

通过加扰处理，可以扩充训练样本图像，以防止过拟合。因为在训练样本图像数量少的时候，可能出现卷积神经网络拟合的情况，不利于神经网络的训练和检测的准确度，所以在训练样本图像较少的时候，通过加扰扩充训练样本图像。

步骤S506：基于训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练多层神经网络。

对多层神经网络的训练是一个多次迭代的过程，在每一次训练中，可以根据多层神经网络对手势类别的识别信息与前述标注信息的差异，采用反向传播方式调整神经网络的训练参数，如，调整卷积神经网络的卷积核参数和/或卷积神经网络中的权重参数。直至训练结果满足训练终止条件。其中，训练终止条件可以由本领域技术人员根据实际情况适当设置，如设置适当的训练迭代次数或者设定相应的收敛条件等。

通过上述过程训练完成的多层神经网络可以有效地实现对手势的识别。

根据本实施例，通过对训练样本图像和加扰处理后的训练样本图像构成的训练样本集进行训练，实现了用于准确识别图像中手势的神经网络。将该神经网络应用于诸如手势识别或手势控制等场景，可以准确有效地实现相应的功能。

本实施例的神经网络训练方法可以由任意适当的具有图像或数据处理能力的设备执行，包括但不限于：移动终端、PC机、服务器、车载设备、娱乐设备、广告设备等。

实施例六

参照图6，示出了根据本发明实施例六的一种神经网络训练方法的步骤流程图。

本实施例的神经网络训练方法包括以下步骤：

步骤S602：获取已标注手势信息的训练样本图像。

本实施例中的训练样本图像可以包括静态图像，也可以包括视频帧序列中的视频帧图像。并且，本实施例中的训练样本图像既包括正样本图像也包括负样本图像。

在一种实现方式中，训练样本图像中可以包括包含有手势的第一原始图像，和不包含手势的第二原始图像。

对于采集的包含有手势的第一原始图像，对其中的手势进行标注，其中，该标注包括类别标注、位置标注和概率标注；然后，基于该标注的标注信息，对第一原始图像进行处理，获取手势的正样本图像，包括：获取第一原始图像中手势的标注信息；根据所述标注信息，从第一原始图像中裁取出手势图像作为手势的正样本图像。例如，以标注信息标示的矩形框为中心，裁取出尺寸为矩形框3倍尺寸的图像作为正样本图像。若3倍尺寸的图像超出了原图像范围，则可以灰色填充超出部分。

对于采集的不包含手势的第二原始图像，对其进行处理，可获取手势的负样本图像，包括：获取不包含手势的第二原始图像；从不包含手势的第二原始图像中裁取出图像区域作为手势的负样本图像。其中，不包含手势的第二原始图像可以是不包含手势的图像，也可以是虽然包含手势但不包含设定的手势类别的图像。对于不包含手势的第二原始图像，可以采用任意适当方式进行裁取，如进行随机裁取，将裁取出的图像区域的图像作为手势的负样本图像。

需要说明的是，为了表述简便，本发明实施例中仅使用第一原始图像和第二原始图像对采集的图像进行区分，但本领域技术人员应当明了，在实际使用中，采集到的第一原始图像和第二原始图像均为图像集，对图像集中的每一张图像都参照上述对第一原始图像和第二原始图像的处理进行相应处理。

通过对采集的第一和第二原始图像的裁取处理生成相应的正负样本图像，可以使得对图像中手势的识别的训练更有针对性，提高训练效率和准确性。

步骤S604：对训练样本图像进行加扰处理，获得加扰后的训练样本图像。

在获得了正负样本图像后，对正负样本图像进行加扰处理。

在本发明实施例中，可行的加扰处理方法包括但不限于：对正负样本图像进行平移处理、或者缩放处理、或者镜像处理。

通过加扰处理，可以扩充训练样本图像的数量，防止过拟合，影响神经网络训练的准确度。

步骤S606：基于训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练多层神经网络。

本实施例中，神经网络采用卷积神经网络的结构，其中，第一神经网络用于检测图像中的手可能区域，第二神经网络用于检测手势可能类别及其概率。

第一卷积神经网络和第二卷积神经网络可以是相互独立的两个神经网络，也可以采用同一卷积神经网络的两个分支的形式实现。当第一卷积神经网络和第二卷积神经网络为同一个卷积神经网络的两个分支时，两个分支共享同一个卷积神经网络的输入层和卷积层结构。采用同一卷积神经网络的两个分支的形式，一方面，降低了卷积神经网络的设计和实现成本；另一方面，两个分支可以共享相应结构的处理结果，提高了神经网络的训练速度和效率。

第一和第二卷积神经网络的输入层和卷积层部分可以采用常规设置，并且，如本领域技术人员所知，卷积层部分不仅包括卷积层，还包括其他常规设置的其他层，如池化层、ReLU层等，具体设置及各层功能在此不再赘述。

第一卷积神经网络和第二卷积神经网络采用相互独立的两个神经网络，可以基于训练样本集中的正样本训练第一神经网络；在第一神经网络训练完成之后，固定复用的网络输入层和部分卷积层的网络参数并基于训练样本集中的正样本和负样本，训练第二神经网络。用正样本训练第一神经网络，待第一神经网络训练好后，可以强制第一神经网络在各个图像中找到一个手可能区域，无论图像中是否有手。通过这种方式，缩小了需要识别的图像区域。而基于正样本和负样本训练第二神经网络，通过负样本将无手作为手势的一类，无需单独判断图像中是有手还是无手。

在训练时，需要先对第一卷积神经网络进行训练，获得具有检测图像中的手可能区域的网络；然后，训练第二卷积神经网络，获得具有识别手势可能类别及其概率功能的网络，其中，第二卷积神经网络训练过程中使用的监督信息(可以表现为损失函数中的参数)基于训练完成的第一卷积神经网络对原始图像中的手可能区域的检测结果确定。第一卷积神经网络的监督信息根据训练样本图像中的手势的标注信息确定。

具体地，可以首先获取手势的正样本图像，并对正样本图像进行加扰处理，获得加扰后的正样本图像；使用加扰后的正样本图像，将第一卷积神经网络训练为用于确定图像中的手可能区域的卷积神经网络。如前所述，实现获取手势的正样本图像，并对正样本图像进行加扰处理，获得加扰后的正样本图像的方式可以采用获取原始图像中手势的标注信息；根据所述标注信息，从原始图像中裁取出手势图像作为手势的正样本图像；对该正样本图像进行加扰处理，获得加扰后的正样本图像。其中，加扰处理可以包括平移处理、缩放处理、镜像处理等。

需要说明的是，在进行了第一卷积神经网络训练的情形下，训练第二卷积神经网络的正样本图像可以直接采用上述训练第一卷积神经网络的正样本图像。在此基础上，再获取手势的负样本图像，将上述正负样本图像作为第二卷积神经网络的训练样本图像。其中，可以采用获取不包含手势的原始图像，从不包含手势的原始图像中裁取出图像区域作为手势的负样本图像的方式，实现手势负样本图像的获取。当然，不限于此，对第二卷积神经网络进行训练的训练样本图像也可以采用全新的样本图像。全新的样本图像可以是包括正样本和负样本的样本图像，也可以全是正样本的样本图像。采用全是正样本的样本图像，则检测结果一定会输出一个手可能区域，即便没有手，也会输出一个手可能区域，通过这种方式增加了后续检测的鲁棒性，并且都是正样本训练只学习手的特征，不需要负样本辅助。

在确定了第二卷积神经网络的训练样本图像、监督信息等后，即可开始对第二卷积神经网络的训练。其中，需要将训练样本图像进行加扰处理，通过第二卷积神经网络的输入层输入加扰后的训练样本图像。因手势的正样本图像在训练第一卷积神经网络模型时，已进行过加扰处理，因此，无需再次进行加扰处理，直接使用即可。

加扰后的训练样本图像经过第二卷积神经网络模型的卷积层部分的处理后，获得相应的手势可能类别及其概率的信息，使用监督信息确定该手势可能类别及其概率与训练样本图像中的标注的手势的标注信息的差异，进而，可根据该差异训练第二卷积神经网络，如调整第二卷积神经网络的训练参数(如卷积核的值、层间输出线性变化的权重，等等)。

当第一卷积神经网络和第二卷积神经网络为同一个卷积神经网络的两个分支时，本步骤的实现可包括：基于训练样本集中的正样本训练第一神经网络；在第一神经网络训练完成之后，固定复用的网络输入层和部分卷积层的网络参数并基于训练样本集中的正样本和负样本，训练第一子神经网络和第二子神经网络。该种方式中，第一子神经网络判断是否有手，如果无手，直接返回给手可能区域，无需输出；如果有手，第二子神经网络再进一步判断是哪种手势。通过这种方式，第一子神经网络和第二子神经网络中每一类的训练样本数量基本保持一致，不会产生某一类别训练的好，其它的效果很差的现象，例如：有手和无手的样本数是差不多的，有手中每一类的手势的样本数是差不多的，更容易使得对很多不同手势的样本与无手样本的训练持平。

与独立的两个卷积神经网络不同的是，第一子神经网络和第二子神经网络共享第一神经网络的卷积结果，第一子神经网络用于手可能区域的检测训练，第二子神经网络用于手势可能类别及其概率的训练，第二子神经网络的训练依赖于第一子神经网络输出的检测结果。但就第一子神经网络和第二子神经网络的具体训练可参照前述训练两个独立的神经网络的相关部分实现，在此不再赘述。

第一卷积神经网络和第二卷积神经网络为同一个卷积神经网络的两个分支，其训练速度远快于两个神经网络的独立计算，使得卷积神经网络可以达到极快的运算速度。第一卷积神经网络和第二卷积神经网络基于RGB图像，可应用于市场上现有的全部RGB摄像头，如手机前后置摄像头、笔记本电脑摄像头等等，极具普适性。

以下，以一个具体实例，对本发明实施例的上述神经网络训练方法进行示例性说明。

本实例的神经网络训练包括以下过程：

(一)训练第一卷积神经网络。

包括：对采集的包含手势的每一张图像，用矩形框标注出手势的位置区域，作为监督信息；将手势附近的区域裁取出来，并缩放成指定大小(例如，保持原图像长宽比，长边放缩到320像素，根据指定长边大小和原图像长宽比，确定短边大小进行缩放)；对缩放后的区域图像进行加扰处理(平移、缩放、镜像等，加扰处理在实现手势预测外，还可以防止过拟合)；将加扰处理后的图像输入该第一卷积神经网络，使用梯度下降法和反向传播算法训练该卷积神经网络，优化网络中各个层的参数，其中，该卷积神经网络在训练过程中的输出是手势在裁取图像中的矩形框(手可能区域)，用标注出的矩形框作为监督信息；完成第一卷积神经网络的训练。

(二)训练第二卷积神经网络

采集添加另一批包含非手势和不包含手的图像，然后在这些图像中随机选取矩形框裁取，并对裁取出的图像进行加扰处理；在第一卷积神经网络的基础上建立第二卷积神经网络，例如，在第一卷积神经网络的倒数第二个卷积层之后，最后一个卷积层之前再加上一个卷积层和多个全连接层，同样使用梯度下降法和反向传播算法训练该卷积神经网络，优化其各个层的参数，但此时保持之前的第一卷积神经网络的参数不变(例如，通过设置训练系数的方式保持第一卷积神经网络的参数不变)，只训练第二卷积神经网络中的参数，第二卷积神经网络的输出是矩形框内手势可能类别，包括：非预定具体手势类别(其他手势类别)、矩形框内无手(无手势类别)、以及预定具体手势类别的几个类别(包括但不限于：平托手、竖大拇指、手枪手、OK手、桃心手、V字手、五指张开手)。其中，监督信息是由第一卷积神经网络得到的矩形框与标注矩形框的距离，以及标注的手势类别共同得到。一种第一卷积神经网络得到的矩形框与标注矩形框的距离可以通过以下方式确定：确定矩形框的左上角和右下角两个点，两个矩形框的距离可以是两个左上角的距离与两个右下角距离之和再除以两个矩形框的对角线之和。

在实际应用中，一种使用同一卷积神经网络的两个分支的形式实现上述卷积神经网络的结构如下所示。其中，第二子卷积神经网络分支建立在第一子卷积神经网络的基础上，在第一子卷积神经网络的倒数第二个卷积层之后，最后一个卷积层之前再加上一个卷积层和多个全连接层，使用梯度下降法和反向传播算法训练该第二子卷积神经网络，优化其各个层的参数，但同时保持之前的第一子卷积神经网络的参数不变，只训练第二卷积神经网络中的参数。具体结果如下：

//第一部分

1.数据输入层

//第二部分

2.<＝1卷积层(3x3x4/2)

3.<＝2非线性响应ReLU层

4.<＝3norm层//局部响应归一化层，对局部输入区域进行归一化

5.<＝4池化层

6.<＝5卷积层(3x3x6/2)

7.<＝6非线性响应ReLU层

8.<＝7norm层

9.<＝8池化层

10.<＝9卷积层(3x3x12/2)

11.<＝10非线性响应ReLU层

12.<＝11卷积层(3x3x12)

13.<＝12非线性响应ReLU层

//第三部分

//a分支：目标手势跟踪分支：

14.<＝13卷积层(3x3x12)

15.<＝14非线性响应ReLU层

16.<＝15池化层

17.<＝16全连接层

18.<＝17非线性响应ReLU层

19.<＝18drop层//dropout层，防止网络过拟合

20.<＝19全连接层

21.<＝20非线性响应ReLU层

22.<＝21drop层

23.<＝22全连接层

//b分支：目标手势识别分支：

24.<＝13卷积层(3x3x12)

25.<＝24非线性响应ReLU层

26.<＝25全连接层

27.<＝26非线性响应ReLU层

28.<＝27全连接层

29.<＝28非线性响应ReLU层

30.<＝29全连接层

需要说明的是：

第一，上述a分支和b分支共享前13层的结构，节省了卷积神经网络模型的设计和实现成本。

第二，上述a分支先执行，b分支后执行。

第三，本实施例中，上述a分支主要实现手可能区域的检测，b分支主要实现手势可能类别及其概率的检测。

第四，上述卷积网络结构的说明中，2.<＝1表明当前层为第二层，输入为第一层；卷积层后面括号为卷积层参数(3x3x16)表明卷积核大小为3x3,通道数为16。其它依此类推，不再赘述。

在上述卷积网络结构中，每个卷积层之后都有一个非线性响应单元。

将卷积层的卷积核设为3x3，能更好的综合局部信息；设定卷积层的间隔stride，可以让上层特征在不增加计算量的前提下获得更大的视野。

但本领域技术人员应当明了的是，上述卷积核的大小、通道数、以及卷积层的层数数量均为示例性说明，在实际应用中，本领域技术人员可以根据实际需要进行适应性调整，本发明实施例对此不作限制。此外，本实施例中的卷积网络模型中的所有层的组合及参数都是可选的，可以任意组合。

根据本实施例，通过对训练样本图像进行加扰处理，可以防止训练过拟合；而将第一卷积神经网络确定的手可能区域作为确定第二卷积神经网络的监督信息的依据，根据该监督信息确定第二卷积神经网络的训练效果，一方面，无需第二卷积神经网络进行手可能区域的确定，提高了第二卷积神经网络的训练速度和效率；另一方面，第一卷积神经网络为已经完成训练的神经网络，其可以精准地检测出图像中的手可能区域，更为有利于第二卷积神经网络后续对该区域中的手势可能类别及其概率的识别训练，进一步提高了第二卷积神经网络的训练速度和效率。

通过本发明实施例提供的方案，可以基于RGB图像实现目标手势跟踪和识别，作为跟踪和识别的基础，目标手势跟踪模型和目标手势识别模型实现了运算速度极快且普适性极强的人机交互系统。其中，

实施例七

参照图7，示出了根据本发明实施例七的一种手势识别装置的结构框图。

本实施例的手势识别装置包括：检测模块702，用于通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率；所述手势可能类别包括：无手势类别以及至少一种手势类别；输出模块704，用于如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别。

本实施例的手势识别装置用于实现前述多个方法实施例中相应的手势识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例八

参照图8，示出了根据本发明实施例八的一种手势识别装置的结构框图。

本实施例的手势识别装置包括：检测模块802，用于通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率；所述手势可能类别包括：无手势类别以及至少一种手势类别；输出模块804，用于如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别。

可选地，所述多层神经网络包括复用网络输入层和部分卷积层的第一神经网络和第二神经网络；所述检测模块802，用于通过所述第一神经网络检测所述图像中的手可能区域；通过所述第二神经网络检测所述图像中的手势可能类别及其概率。

可选地，所述手势可能类别包括第一手势可能类别和第二手势可能类别；所述第一手势可能类别包括：有手势类别和无手势类别；所述第二可能手势类别包括：至少两种预定具体手势类别，或者，至少一种预定具体手势类别和其他手势类别；所述输出模块804，用于如果检测到的最大概率的第一手势可能类别为无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的第二手势可能类别。

可选地，所述第二神经网络包括复用所述网络输入层和部分卷积层的第一子神经网络和第二子神经网络；所述检测模块802，用于通过所述第一神经网络检测所述图像中的手可能区域；通过所述第一子神经网络检测所述图像中的第一手势可能类别及其概率；通过所述第二子神经网络检测所述图像中的第二手势可能类别及其概率。

可选地，所述装置还包括：裁取模块806，用于在所述检测模块802通过多层神经网络对图像进行手势信息检测之前，如果当前视频帧的前一视频帧检测得到的最大概率的手势可能类别不是无手势类别，则至少根据所述前一视频帧输出的手可能区域的位置信息，裁取所述当前视频帧的局部区域，裁取得到的局部区域为输入所述多层神经网络的所述图像。

可选地，所述裁取模块806，用于如果当前视频帧的前一视频帧检测得到的最大概率的手势可能类别不是无手势类别，基于所述位置信息拉大所述前一视频帧输出的手可能区域；根据拉大后的手可能区域进行所述当前视频帧的局部区域裁取，裁取得到的局部区域为输入所述多层神经网络的所述图像。

可选地，所述裁取模块806，用于如果当前视频帧的前一视频帧检测得到的最大概率的手势可能类别不是无手势类别，基于所述位置信息拉大所述前一视频帧输出的手可能区域；将拉大后的手可能区域相对所述位置信息的不同方向分别偏移一预定距离并分别进行裁取；对裁取得到的多个手可能区域分别进行手势信息检测，并确定手势可能类别为无手势类别的概率最小的手可能区域为输入所述多层神经网络的所述图像。

可选地，所述装置还包括：初始模块808，用于如果当前视频帧为初始化检测帧，则在所述检测模块802通过多层神经网络对图像进行手势信息检测之前，在所述初始化检测帧中确定与多个预定初始化检测框分别对应的多个初始手可能区域；对多个初始手可能区域分别进行手势信息检测，并裁取手势可能类别为无手势类别的概率最小的初始手可能区域为输入所述多层神经网络的所述图像；其中，所述初始化检测帧为视频帧序列的首个视频帧，或者，所述初始化检测帧的前一视频帧检测得到的最大概率的手势可能类别是无手势类别。

可选地，所述装置还包括：训练模块810；所述训练模块810包括：获取模块8102，用于在所述检测模块通过多层神经网络对图像进行手势信息检测之前，获取已标注手势信息的训练样本图像；加扰模块8104，用于对所述训练样本图像进行加扰处理；网络训练模块8106，用于基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。

可选地，所述网络训练模块8106，用于基于所述训练样本集中的正样本训练所述第一神经网络；在所述第一神经网络训练完成之后，固定复用的所述网络输入层和部分卷积层的网络参数并基于所述训练样本集中的正样本和负样本，训练所述第二神经网络。

可选地，所述网络训练模块8106，用于基于所述训练样本集中的正样本训练所述第一神经网络；在所述第一神经网络训练完成之后，固定复用的所述网络输入层和部分卷积层的网络参数并基于所述训练样本集中的正样本和负样本，训练所述第一子神经网络和所述第二子神经网络。

实施例九

参照图9，示出了根据本发明实施例九的一种手势控制装置的结构框图。

本实施例的手势控制装置包括：识别模块902，用于采用如实施例七或八所述的装置对视频帧序列中的当前视频帧进行手势识别，得到所述当前视频帧的手区域的位置信息以及手势类别；控制模块904，用于至少根据所述当前视频帧的手区域的位置信息和/或手势类别执行对应的控制操作。

本实施例的手势控制装置用于实现前述多个方法实施例中相应的手势控制方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例十

参照图10，示出了根据本发明实施例十的一种手势控制装置的结构框图。

本实施例的手势控制装置包括：识别模块1002，用于采用如实施例七或八所述的手势识别装置对视频帧序列中的当前视频帧进行手势识别，得到所述当前视频帧的手区域的位置信息以及手势类别；控制模块1004，用于至少根据所述当前视频帧的手区域的位置信息和/或手势类别执行对应的控制操作。

可选地，所述控制模块1004包括：确定模块10042，用于确定所述当前视频帧的手区域的位置信息和/或手势类别与时序在先且连续的至少一视频帧的手区域的位置信息和/或手势类别的变化信息；执行模块10044，用于根据所述变化信息执行对应的控制操作。

可选地，所述执行模块10044用于响应于所述变化信息表示所述当前视频帧的手势类别与前一视频帧的手势类别不同，则将从所述前一视频帧的手势类别对应的控制操作切换到所述当前视频帧的手势类别对应的控制操作。

可选地，所述执行模块10044用于响应于所述变化信息表示所述当前视频帧的手区域的位置信息与前一视频帧的手区域的位置信息不同，则执行位置信息变化对应的对象移动操作。

实施例十一

参照图11，示出了根据本发明实施例十一的一种多层神经网络训练装置的结构框图。

本实施例的多层神经网络训练装置包括：样本获取模块1102，用于获取已标注手势信息的训练样本图像；样本加扰模块1104，用于对所述训练样本图像进行加扰处理；神经网络训练模块1106，用于基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。

本实施例的多层神经网络训练装置用于实现前述多个方法实施例中相应的多层神经网络训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例十二

参照图12，示出了根据本发明实施例十二的一种多层神经网络训练装置的结构框图。

本实施例的多层神经网络训练装置包括：样本获取模块1202，用于获取已标注手势信息的训练样本图像；样本加扰模块1204，用于对所述训练样本图像进行加扰处理；神经网络训练模块1206，用于基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。

可选地，所述神经网络训练模块1206包括：第一训练模块12062，用于基于所述训练样本集中的正样本训练所述第一神经网络；在所述第一神经网络训练完成之后，固定复用的所述网络输入层和部分卷积层的网络参数并基于所述训练样本集中的正样本和负样本，训练所述第二神经网络。

可选地，所述神经网络训练模块1206包括：第二训练模块12064，用于基于所述训练样本集中的正样本训练所述第一神经网络；在所述第一神经网络训练完成之后，固定复用的所述网络输入层和部分卷积层的网络参数并基于所述训练样本集中的正样本和负样本，训练所述第一子神经网络和所述第二子神经网络。

实施例十三

本发明实施例十三提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图13，其示出了适于用来实现本发明实施例的终端1300的结构示意图：如图13所示，电子设备1300包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)1301，和/或一个或多个图像处理器(GPU)1313等，处理器可以根据存储在只读存储器(ROM)1302中的可执行指令或者从存储部分1308加载到随机访问存储器(RAM)1303中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件1312和/或通信接口1309。其中，通信组件1312可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口1309包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口1309经由诸如因特网的网络执行通信处理。

处理器可与只读存储器1302和/或随机访问存储器1303中通信以执行可执行指令，通过通信总线1304与通信组件1312相连、并经通信组件1312与其他目标设备通信，从而完成本发明实施例提供的任一项方法对应的操作，例如，通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率；所述手势可能类别包括：无手势类别以及至少一种手势类别；如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别；或者，例如，采用如上所述的方法对视频帧序列中的当前视频帧进行手势识别，得到所述当前视频帧的手区域的位置信息以及手势类别；至少根据所述当前视频帧的手区域的位置信息和/或手势类别执行对应的控制操作；或者，例如，获取已标注手势信息的训练样本图像；对所述训练样本图像进行加扰处理；基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。

此外，在RAM 1303中，还可存储有装置操作所需的各种程序和数据。CPU1301或GPU1313、ROM1302以及RAM1303通过通信总线1304彼此相连。在有RAM1303的情况下，ROM1302为可选模块。RAM1303存储可执行指令，或在运行时向ROM1302中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1305也连接至通信总线1304。通信组件1312可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1309。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

需要说明的，如图13所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图13的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率；所述手势可能类别包括：无手势类别以及至少一种手势类别；如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别；或者，例如，采用如上所述的方法对视频帧序列中的当前视频帧进行手势识别，得到所述当前视频帧的手区域的位置信息以及手势类别；至少根据所述当前视频帧的手区域的位置信息和/或手势类别执行对应的控制操作；或者，例如，获取已标注手势信息的训练样本图像；对所述训练样本图像进行加扰处理；基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被处理器执行时，执行本发明实施例的方法中限定的上述功能。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种手势识别方法，包括：

通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率；所述手势可能类别包括：无手势类别以及至少一种手势类别；

如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别。

2.根据权利要求1所述的方法，其中，所述多层神经网络包括复用网络输入层和部分卷积层的第一神经网络和第二神经网络；

所述通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率，包括：

通过所述第一神经网络检测所述图像中的手可能区域；

通过所述第二神经网络检测所述图像中的手势可能类别及其概率。

3.根据权利要求1或2所述的方法，其中，

所述至少一种手势类别包括：至少一种预定具体手势类别；或者，

所述至少一种手势类别包括：至少一种预定具体手势类别和其他手势类别。

4.根据权利要求1或2所述的方法，其中，

所述手势可能类别包括第一手势可能类别和第二手势可能类别；所述第一手势可能类别包括：有手势类别和无手势类别；所述第二可能手势类别包括：至少两种预定具体手势类别，或者，至少一种预定具体手势类别和其他手势类别；

所述如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别，包括：如果检测到的最大概率的第一手势可能类别为无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的第二手势可能类别。

5.一种手势控制方法，包括：

采用如权利要求1-4任一所述的方法对视频帧序列中的当前视频帧进行手势识别，得到所述当前视频帧的手区域的位置信息以及手势类别；

至少根据所述当前视频帧的手区域的位置信息和/或手势类别执行对应的控制操作。

6.一种多层神经网络训练方法，包括：

获取已标注手势信息的训练样本图像；

对所述训练样本图像进行加扰处理；

基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。

7.一种手势识别装置，包括：

检测模块，用于通过多层神经网络对图像进行手势信息检测，得到所述图像中的手可能区域、手势可能类别及其概率；所述手势可能类别包括：无手势类别以及至少一种手势类别；

输出模块，用于如果检测得到的最大概率的手势可能类别为所述无手势类别，不输出所述图像的所述手可能区域的位置信息；否则，输出所述图像的所述手可能区域的位置信息以及检测得到的最大概率的手势可能类别。

8.一种手势控制装置，包括：

识别模块，用于采用如权利要求7所述的装置对视频帧序列中的当前视频帧进行手势识别，得到所述当前视频帧的手区域的位置信息以及手势类别；

控制模块，用于至少根据所述当前视频帧的手区域的位置信息和/或手势类别执行对应的控制操作。

9.一种多层神经网络训练装置，包括：

样本获取模块，用于获取已标注手势信息的训练样本图像；

样本加扰模块，用于对所述训练样本图像进行加扰处理；

神经网络训练模块，用于基于所述训练样本图像和加扰处理后的训练样本图像构成的训练样本集，训练所述多层神经网络。

10.一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-4任一项所述的手势识别方法对应的操作，或者，执行如权利要求5所述的手势控制方法对应的操作，或者，执行如6所述的多层神经网络训练方法对应的操作。