CN108229318A

CN108229318A - 手势识别和手势识别网络的训练方法及装置、设备、介质

Info

Publication number: CN108229318A
Application number: CN201711224479.7A
Authority: CN
Inventors: 杜天元; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2018-06-29

Abstract

本发明实施例公开了一种手势识别和手势识别网络的训练方法及装置、设备、介质，其中手势识别方法包括：基于获取的待处理图像获得所述待处理图像中的至少一个手势框图像；将所述手势框图像输入手势识别网络，经所述手势识别网络输出坐标信息、手势分类信息和背景信息；当所述手势识别网络输出的背景信息为前景图像时，根据所述手势分类信息输出坐标信息。基于本发明上述实施例的方法，实现通过一个手势识别网络对无论是否具有关键点的手势框图像进行识别，同时实现了对具有关键点的手势框图像进行关键点定位；将手势识别网络输出的各信息结合处理，得到更精准的识别结果，为人机交互提供了更准确的位置信息。

Description

手势识别和手势识别网络的训练方法及装置、设备、介质

技术领域

本发明涉及计算机视觉技术，尤其是一种手势识别和手势识别网络的训练方法及装置、设备、介质。

背景技术

现有技术中普及的人机交互方式，基本依赖于与机器的接触，如：通过鼠标、键盘、遥控器、触摸屏等实现人机交互。

随着计算机视觉技术的发展，人机交互的方式也渐渐由接触式交互转换为非接触式交互，目前主流的非接触式交互包括语音输入和视频输入。其中，视频输入的人机交互十分依赖图像识别和定位等计算机视觉任务。

发明内容

本发明实施例提供了一种手势识别和手势识别网络的训练技术。

本发明实施例提供的一种手势识别方法，包括：

基于获取的待处理图像获得所述待处理图像中的至少一个手势框图像；

将所述手势框图像输入手势识别网络，经所述手势识别网络输出坐标信息、手势分类信息和背景信息；所述手势识别网络经过待处理图像结合权重向量训练获得，所述坐标信息包括手势框坐标和/或关键点坐标，所述手势分类信息用于标示所述手势框图像中手势属于多种预设手势中一个预设手势，所述背景信息包括前景图像和背景图像；

响应于所述手势识别网络输出的背景信息为前景图像，根据所述手势分类信息输出所述坐标信息。

在基于本发明上述方法的另一个实施例中，还包括：

响应于所述手势识别网络输出的背景信息为背景图像，不输出坐标信息。

在基于本发明上述方法的另一个实施例中，所述基于获取的待处理图像获得所述待处理图像中的至少一个手势框图像，包括：

将所述待处理图像输入神经网络，经所述神经网络对所述待处理图像执行卷积操作，获得所述待处理图像中的手部图像的位置和大小；

基于所述手部图像的位置和大小将所述手部图像从所述待处理图像中分离，获得手势框图像。

利用预设大小的矩形框在所述待处理图像上移动，基于所述矩形框中手部图像的比例超出预设值的矩形框获得所述待处理图像中的手部图像的位置和大小；

在基于本发明上述方法的另一个实施例中，所述手势识别网络包括共享网络层、坐标检测网络层、手势分类网络层和背景判断网络层；

将所述手势框图像输入手势识别网络，经所述手势识别网络输出坐标信息、手势分类信息和背景信息，包括：

将所述手势框图像输入所述共享网络层，经所述共享网络层输出对应所述手势框图像的共享特征；

将所述共享特征输入所述坐标检测网络层，经所述坐标检测网络层输出坐标信息；

将所述共享特征输入所述手势分类网络层，经所述手势分类网络层输出手势分类信息；

将所述共享特征输入所述背景判断网络层，经所述共享网络层和背景判断网络层输出背景信息。

在基于本发明上述方法的另一个实施例中，将所述共享特征输入所述手势分类网络层，经所述手势分类网络层输出手势分类信息，包括：

将所述共享特征输入所述手势分类网络层，经所述手势分类网络层输出特征向量，基于所述特征向量中的最大值确定所述手势框输出的手势分类信息；所述特征向量中的每个值对应一种预设手势。

在基于本发明上述方法的另一个实施例中，所述预设手势包括关键点手势和开关手势；

响应于所述手势识别网络输出的背景信息为前景图像，根据所述手势分类信息输出坐标信息，包括：

响应于所述手势分类信息判断所述手势框中手势为关键点手势，输出的所述坐标信息包括手势框坐标和关键点坐标；所述手势框坐标包括手势框图像在所述待处理图像中的至少两个顶点的坐标，所述关键点坐标用于标示所述手势框图像中手势关键点的坐标；

响应于所述手势分类信息判断所述手势框中手势为开关手势，输出的所述坐标信息包括手势框坐标。

在基于本发明上述方法的另一个实施例中，所述基于获取的待处理图像获得所述待处理图像中的至少一个手势框图像之前，还包括：

通过摄像头采集视频，在所述视频中提取至少一个视频帧，作为所述待处理图像。

根据本发明实施例的一个方面，提供的一种手势识别网络的训练方法，包括：

基于待处理图像获得所述待处理图像中的手势框图像；所述手势框图像具有标注坐标信息、标注手势分类信息和标注背景信息；所述标注坐标信息包括手势框坐标和/或关键点坐标，所述标注手势分类信息用于标示所述手势框图像中手势属于多种预设手势中一个预设手势，所述标注背景信息包括所述手势框图像中包括手部图像的非背景图像和所述手势框图像中不包括手部图像的背景图像；

根据所述标注手势分类信息为所述标注坐标特征配置对应的权重向量；

将所述手势框图像输入手势识别网络，经所述手势识别网络输出预测坐标信息、预测手势分类信息和预测背景信息；基于预测坐标信息、预测手势分类信息、预测背景信息、标注坐标信息、标注手势分类信息和标注背景信息，及权重向量对所述手势识别网络进行训练，直到满足训练完成条件；所述预测坐标信息包括预测手势框坐标和预测关键点坐标。

在基于本发明上述方法的另一个实施例中，所述手势框坐标包括手势框图像在所述待处理图像中的至少两个顶点的坐标；

所述基于待处理图像获得所述待处理图像中的手势框图像，包括：

基于所述手势框图像在所述待处理图像中的至少两个顶点的坐标确定所述手势框图像的中心坐标；

以所述中心坐标为基准将所述手势框图像从所述待处理图像中分离出来，得到所述手势框图像。

在基于本发明上述方法的另一个实施例中，所述预设手势包括关键点手势和开关手势；所述权重向量包括至少两个坐标值、或至少两个坐标值和至少一个关键点值；

根据所述标注手势分类信息为所述标注坐标信息配置对应的权重向量，包括：

响应于所述标注手势分类信息判断所述手势框中手势为关键点手势，为所述标注坐标信息配置的权重向量包括至少两个坐标值和至少一个关键点值；

响应于所述标注手势分类信息判断所述手势框中手势为开关手势，为所述标注坐标信息配置的权重向量包括至少两个坐标值。

将所述手势框图像输入手势识别网络，经所述手势识别网络输出预测坐标信息、预测手势分类信息和预测背景信息，基于预测坐标信息、预测手势分类信息、预测背景信息、标注坐标信息、标注手势分类信息和标注背景信息，及权重向量对所述手势识别网络进行训练，直到满足训练完成条件，包括：

将所述手势框图像输入所述共享网络层获得第一共享特征，所述第一共享特征经所述坐标检测网络层获得预测坐标信息；基于所述预测坐标信息、标注坐标信息和权重向量训练所述共享网络层及坐标检测网络层，直到满足第一训练完成条件；

将所述手势框图像输入所述训练后的共享网络层获得第二共享特征，所述第二共享特征经所述手势分类网络层获得预测手势分类信息；基于所述预测手势分类信息和标注手势分类信息训练所述手势分类网络层，直到满足第二训练完成条件；

将所述手势框图像输入所述训练后的共享网络层获得第二共享特征，所述第二共享特征经所述背景判断网络层获得预测背景信息；基于所述预测背景信息和标注背景信息训练所述背景判断网络层，直到满足第三训练完成条件。

在基于本发明上述方法的另一个实施例中，基于所述预测坐标信息、标注坐标信息和权重向量对所述共享网络层和坐标检测网络层进行训练，直到满足第一训练完成条件，包括：

基于预测坐标信息和标注坐标信息获得误差向量；

基于所述获得的误差向量和权值向量计算得到坐标误差；

通过所述坐标误差对所述共享网络层和坐标检测网络层中的网络参数值进行调整；

迭代执行通过所述调整参数后的共享网络层和坐标检测网络层对待处理图像进行识别获得预测坐标信息，直至满足第一训练完成条件。

在基于本发明上述方法的另一个实施例中，所述基于预测坐标信息和标注坐标信息获得误差向量，包括：

通过计算所述预测坐标信息与标注坐标信息之间的距离，得到误差向量。

在基于本发明上述方法的另一个实施例中，基于所述获得的误差向量和权值向量计算得到坐标误差，包括：

将所述获得的误差向量和权值向量执行点乘操作，获得坐标误差。

在基于本发明上述方法的另一个实施例中，所述第一训练完成条件，包括：

所述预测坐标信息与标注坐标信息之间的坐标误差小于第一预设值；或迭代预测次数大于或等于第一预设次数。

在基于本发明上述方法的另一个实施例中，基于所述预测手势分类信息和标注手势分类信息对所述手势分类网络层进行训练，直到满足第二训练完成条件，包括：

基于预测手势分类信息和标注手势分类信息获得分类误差，通过所述分类误差对所述手势分类网络层中的网络参数值进行调整；

迭代执行通过所述调整参数后的手势分类网络层对待处理图像进行分类获得预测手势分类信息，直到满足第二训练完成条件。

在基于本发明上述方法的另一个实施例中，所述第二训练完成条件，包括：

所述预测手势分类信息与标注手势分类信息之间的分类误差小于第二预设值；或迭代预测次数大于或等于第二预设次数。

在基于本发明上述方法的另一个实施例中，基于所述预测背景信息和标注背景信息训练所述背景判断网络层，直到满足第三训练完成条件，包括：

基于预测背景信息和标注背景信息获得背景误差，通过所述背景误差对所述背景判断网络层中的网络参数值进行调整；

迭代执行通过所述调整参数后的背景判断网络层对待处理图像进行判断获得预测背景信息，直到满足第三训练完成条件。

在基于本发明上述方法的另一个实施例中，所述第三训练完成条件，包括：

所述预测背景信息与标注背景信息之间的背景误差小于第三预设值；或迭代预测次数大于或等于第三预设次数。

根据本发明实施例的一个方面，提供的一种手势识别装置，包括：

图像获取单元，用于基于获取的待处理图像获得所述待处理图像中的至少一个手势框图像；

手势识别单元，用于将所述手势框图像输入手势识别网络，经所述手势识别网络输出坐标信息、手势分类信息和背景信息；所述手势识别网络经过待处理图像结合权重向量训练获得，所述坐标信息包括手势框坐标和/或关键点坐标，所述手势分类信息用于表示所述手势框图像中手势属于多种预设手势中一个预设手势，所述背景信息用于表示所述手势框图像属于前景图像或背景图像；

输出单元，用于响应于所述手势识别网络输出的背景信息为前景图像，根据所述手势分类信息输出所述坐标信息。

在基于本发明上述装置的另一个实施例中，所述输出单元，还用于响应于所述手势识别网络输出的背景信息为背景图像，不输出坐标信息。

在基于本发明上述装置的另一个实施例中，所述图像获取单元，具体用于将所述待处理图像输入神经网络，经所述神经网络对所述待处理图像执行卷积操作，获得所述待处理图像中的手部图像的位置和大小；基于所述手部图像的位置和大小将所述手部图像从所述待处理图像中分离，获得手势框图像。

在基于本发明上述装置的另一个实施例中，所述图像获取单元，具体用于利用预设大小的矩形框在所述待处理图像上移动，基于所述矩形框中手部图像的比例超出预设值的矩形框获得所述待处理图像中的手部图像的位置和大小；基于所述手部图像的位置和大小将所述手部图像从所述待处理图像中分离，获得手势框图像。

在基于本发明上述装置的另一个实施例中，所述手势识别网络包括共享网络层、坐标检测网络层、手势分类网络层和背景判断网络层；

所述手势识别单元，包括：

共享识别模块，用于将所述手势框图像输入所述共享网络层，经所述共享网络层输出对应所述手势框图像的共享特征；

坐标识别模块，用于将所述共享特征输入所述坐标检测网络层，经所述坐标检测网络层输出坐标信息；

分类识别模块，用于将所述共享特征输入所述手势分类网络层，经所述手势分类网络层输出手势分类信息；

背景识别模块，用于将所述共享特征输入所述背景判断网络层，经所述共享网络层和背景判断网络层输出背景信息。

在基于本发明上述装置的另一个实施例中，所述坐标识别模块，具体用于将所述共享特征输入所述手势分类网络层，经所述手势分类网络层输出特征向量，基于所述特征向量中的最大值确定所述手势框输出的手势分类信息；所述特征向量中的每个值对应一种预设手势。

在基于本发明上述装置的另一个实施例中，所述预设手势包括关键点手势和开关手势；

所述输出单元，包括：

关键点输出模块，用于响应于所述手势分类信息判断所述手势框中手势为关键点手势，输出的所述坐标信息包括手势框坐标和关键点坐标；所述手势框坐标包括手势框图像在所述待处理图像中的至少两个顶点的坐标，所述关键点坐标用于标示所述手势框图像中手势关键点的坐标；

开关输出模块，用于响应于所述手势分类信息判断所述手势框中手势为开关手势，输出的所述坐标信息包括手势框坐标。

在基于本发明上述装置的另一个实施例中，还包括：

视频采集单元，用于通过摄像头采集视频，在所述视频中提取至少一个视频帧，作为所述待处理图像。

根据本发明实施例的一个方面，提供的一种手势识别网络的训练装置，包括：

图像识别单元，用于基于待处理图像获得所述待处理图像中的手势框图像；所述手势框图像具有标注坐标信息、标注手势分类信息和标注背景信息；所述标注坐标信息包括手势框坐标和/或关键点坐标，所述标注手势分类信息用于标示所述手势框图像中手势属于多种预设手势中一个预设手势，所述标注背景信息包括所述手势框图像中具有手部图像的非背景图像和所述手势框图像中不具有手部图像的背景图像；

权重配置单元，用于根据所述标注手势分类信息为所述标注坐标特征配置对应的权重向量；

网络训练单元，用于将所述手势框图像输入手势识别网络，经所述手势识别网络输出预测坐标信息、预测手势分类信息和预测背景信息；基于预测坐标信息、预测手势分类信息、预测背景信息、标注坐标信息、标注手势分类信息和标注背景信息，及权重向量对所述手势识别网络进行训练，直到满足训练完成条件；所述预测坐标信息包括预测手势框坐标和预测关键点坐标。

在基于本发明上述装置的另一个实施例中，所述手势框坐标包括手势框图像在所述待处理图像中的至少两个顶点的坐标；

所述图像识别单元，具体用于基于所述手势框图像在所述待处理图像中的至少两个顶点的坐标确定所述手势框图像的中心坐标；以所述中心坐标为基准将所述手势框图像从所述待处理图像中分离出来，得到所述手势框图像。

在基于本发明上述装置的另一个实施例中，所述预设手势包括关键点手势和开关手势；所述权重向量包括至少两个坐标值、或至少两个坐标值和至少一个关键点值；

所述权重配置单元，具体用于响应于所述标注手势分类信息判断所述手势框中手势为关键点手势，为所述标注坐标信息配置的权重向量包括至少两个坐标值和至少一个关键点值；响应于所述标注手势分类信息判断所述手势框中手势为开关手势，为所述标注坐标信息配置的权重向量包括至少两个坐标值。

所述网络训练单元，包括：

坐标训练模块，用于将所述手势框图像输入所述共享网络层获得第一共享特征，所述第一共享特征经所述坐标检测网络层获得预测坐标信息；基于所述预测坐标信息、标注坐标信息和权重向量训练所述共享网络层及坐标检测网络层，直到满足第一训练完成条件；

手势训练模块，用于将所述手势框图像输入所述训练后的共享网络层获得第二共享特征，所述第二共享特征经所述手势分类网络层获得预测手势分类信息；基于所述预测手势分类信息和标注手势分类信息训练所述手势分类网络层，直到满足第二训练完成条件；

背景训练模块，用于将所述手势框图像输入所述训练后的共享网络层获得第二共享特征，所述第二共享特征经所述背景判断网络层获得预测背景信息；基于所述预测背景信息和标注背景信息训练所述背景判断网络层，直到满足第三训练完成条件。

在基于本发明上述装置的另一个实施例中，所述坐标训练模块，包括：

误差向量模块，用于基于预测坐标信息和标注坐标信息获得误差向量；

坐标误差模块，用于基于所述获得的误差向量和权值向量计算得到坐标误差；

参数调整模块，用于通过所述坐标误差对所述共享网络层和坐标检测网络层中的网络参数值进行调整；

迭代模块，用于迭代执行通过所述调整参数后的共享网络层和坐标检测网络层对待处理图像进行识别获得预测坐标信息，直至满足第一训练完成条件。

在基于本发明上述装置的另一个实施例中，所述误差向量模块，具体用于通过计算所述预测坐标信息与标注坐标信息之间的距离，得到误差向量。

在基于本发明上述装置的另一个实施例中，所述坐标误差模块，具体用于将所述获得的误差向量和权值向量执行点乘操作，获得坐标误差。

在基于本发明上述装置的另一个实施例中，所述第一训练完成条件，包括：

在基于本发明上述装置的另一个实施例中，所述手势训练模块，具体用于基于预测手势分类信息和标注手势分类信息获得分类误差，通过所述分类误差对所述手势分类网络层中的网络参数值进行调整；迭代执行通过所述调整参数后的手势分类网络层对待处理图像进行分类获得预测手势分类信息，直到满足第二训练完成条件。

在基于本发明上述装置的另一个实施例中，所述第二训练完成条件，包括：

在基于本发明上述装置的另一个实施例中，所述背景训练模块，具体用于基于预测背景信息和标注背景信息获得背景误差，通过所述背景误差对所述背景判断网络层中的网络参数值进行调整；迭代执行通过所述调整参数后的背景判断网络层对待处理图像进行判断获得预测背景信息，直到满足第三训练完成条件。

在基于本发明上述装置的另一个实施例中，所述第三训练完成条件，包括：

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的手势识别装置或如上所述的手势识别网络的训练装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述手势识别网络的训练方法或如上所述手势识别网络的训练方法的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述的手势识别网络的训练方法或如上所述的手势识别网络的训练方法的操作。

基于本发明上述实施例提供的一种手势识别和手势识别网络的训练方法及装置、设备、介质，基于获取的待处理图像获得待处理图像中的至少一个手势框图像；通过将手势框图像输入手势识别网络，经手势识别网络输出坐标信息、手势分类信息和背景信息；实现通过一个手势识别网络对无论是否具有关键点的手势框图像进行识别，同时实现了对具有关键点的手势框图像进行关键点定位；当手势识别网络输出的背景信息为前景图像时，根据手势分类信息输出坐标信息，将手势识别网络输出的各信息结合处理，得到更精准的识别结果，为人机交互提供了更准确的位置信息。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明手势识别方法一个实施例的流程图。

图2a-k为本发明手势识别方法一个具体示例中的手势种类示意图。

图3为本发明手势识别装置一个实施例的结构示意图。

图4为本发明手势识别网络的训练方法一个实施例的流程图。

图5为本发明手势识别网络的训练装置一个实施例的结构示意图。

图6为用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

现有技术中的接触型交互媒介，由于需要依赖于与机器接触的设备，因此需要较大的使用空间，如：鼠标键盘需要在桌面上使用，不能很好地满足便携性；而其它非接触交互媒介，如深度摄像头、双目红外摄像头，价格昂贵且使用范围有限，不利于普及推广。

图1为本发明手势识别方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤101，基于获取的待处理图像获得待处理图像中的至少一个手势框图像。

具体地，获取待处理图像的方式可以采用普及程度最高的RGB摄像头进行获取或其他图像采集设备，RGB摄像头能够准确地定位并识别图像、视频中的手势，基本实现实时的人机交互。

步骤102，将手势框图像输入手势识别网络，经手势识别网络输出坐标信息、手势分类信息和背景信息。

其中，手势识别网络经过样本图像结合权重向量训练获得，坐标信息包括手势框坐标和/或关键点坐标，本实施例中权重向量用于区分手势框图像中是否包括关键点坐标，在本实施例中对于无论是否包括关键点的手势框图像都输出手势框坐标和关键点坐标，对于识别的关键点坐标，该关键点坐标结合手势分类信息判断是否真实有效，当手势分类信息判断该手势不具有关键点，那么该关键点坐标是无效的；手势分类信息用于表示手势框图像中手势属于多种预设手势中一个预设手势，在无接触人机交互中，能准确地识别每一种手势，可以让机器正确接收指令；背景信息用于表示手势框图像属于非背景图像或背景图像，其中，非背景图像指手势框图像中包括面积大小达到预设大小的手部图像，而背景图像指手势框图像中不包括手部图像后手部图像的面积大小未达到预设大小，例如：需要捕捉的是前台操作的人手，而此时，该人手后方有其他路人等无关人员的面积较小的手部图像，此时，将后方面积较小的手部图像识别为背景图像。

步骤103，响应于手势识别网络输出的背景信息为前景图像，根据手势分类信息输出坐标信息。

基于本发明上述实施例提供的一种手势识别方法，基于获取的待处理图像获得待处理图像中的至少一个手势框图像；通过将手势框图像输入手势识别网络，经手势识别网络输出坐标信息、手势分类信息和背景信息；实现通过一个手势识别网络对无论是否具有关键点的手势框图像进行识别，同时实现了对具有关键点的手势框图像进行关键点定位；响应于手势识别网络输出的背景信息为前景图像，根据手势分类信息输出坐标信息，将手势识别网络输出的各信息结合处理，得到更精准的识别结果，为人机交互提供了更准确的位置信息。

在本发明手势识别方法上述实施例的一个具体示例中，还包括：

响应于手势识别网络输出的背景信息为背景图像，不输出坐标信息。

本实施例中，基于手势识别网络输出的背景信息判断当前手势框图像中是否包含手部图像，当该手势框图像中不包括手部图像时，说明未捕捉到手势，无法获取正确的手势分类信息和手势框坐标，因此，不输出坐标信息。

本发明手势识别方法的另一个实施例，在上述各实施例的基础上，操作101包括：

将待处理图像输入神经网络，经神经网络对待处理图像执行卷积操作，获得待处理图像中的手部图像的位置和大小；

基于手部图像的位置和大小将手部图像从待处理图像中分离，获得手势框图像。

具体地，基于手部图像训练得到的神经网络可以准确的识别图像中哪些像素属于手部，哪些像素不属于手部，可以对图像中每个像素进行分类，基于分类结果获得手部图像的所有像素，基于这些像素可获得手部图像的位置和大小，基于手部图像的位置和大小即可获得手势框，将手势框从待处理图像中分离出来就得到了手势框图像，具体分离可采用透视变换等技术实现，本实施例对分离的具体技术不作限制。

利用预设大小的矩形框在待处理图像上移动，基于矩形框中手部图像的比例超出预设值的矩形框获得待处理图像中的手部图像的位置和大小；

具体地，通过预设大小的矩形框在待处理图像中移动的过程中，如果获得多个相邻的矩形框中都包含比例超出预设值的手部图像时，可将这些矩形框组合构成手势框；而当获得的所有矩形框中的手部图像的比例都小于预设比例时，可以缩小矩形框的大小，重新通过调整扣的矩形框在待处理图像上移动，直到获得一个以上的保护手部图像的比例超出预设值的矩形框；将手势框从待处理图像中分离出来就得到了手势框图像，具体分离可采用透视变换等技术实现，本实施例对分离的具体技术不作限制。

本发明手势识别方法的又一个实施例，在上述各实施例的基础上，手势识别网络包括共享网络层、坐标检测网络层、手势分类网络层和背景判断网络层；

操作102，包括：

将手势框图像输入共享网络层，经共享网络层输出对应手势框图像的共享特征；

将共享特征输入坐标检测网络层，经坐标检测网络层输出坐标信息；

将共享特征输入手势分类网络层，经手势分类网络层输出手势分类信息；

将共享特征输入背景判断网络层，经共享网络层和背景判断网络层输出背景信息。

本实施例中，通过设置共享网络层识别待处理图像中的共享特征，共享特征用于体现图像中的小物体纹理特征，边缘特征和细节特征，通过共享部分网络，减少重复的对图像的特征进行提取；分别通过坐标检测网络层、手势分类网络层和背景判断网络层输出手势框坐标、关键点坐标、手势分类信息和背景信息，实现了通过一个网络对手势的完整识别和坐标检测，缩小了网络模型的大小，简化了网络的训练过程。

具体地，坐标检测网络层输出的特征为6维向量，表示手势框的左上、右下以及手势关键点坐标；手势分类网络层是一个12类分类器，前11类表示手势的类别，最后一类表示其他手势；背景判断网络层输出两个值，分别表示当前手势框内容属于手势的概率和属于背景的概率。在实际使用的时候，可以根据手势分类网络层输出的分类结果，从坐标检测网络层的输出中手势框坐标，或手势框坐标和关键点坐标作为网络输出。

在本发明手势识别方法上述各实施例的一个具体示例中，将共享特征输入手势分类网络层，经手势分类网络层输出手势分类信息，包括：

将共享特征输入手势分类网络层，经手势分类网络层输出特征向量，基于特征向量中的最大值确定手势框输出的手势分类信息；特征向量中的每个值对应一种预设手势。

具体地，手势分类网络层作为一个分类网络，可以根据预设的手势种类对手势框图像中的手势进行识别，手势可以包括两大类：包括关键点的手势和不包括关键点的手势，其中不包括关键点的手势可以作为开关或按钮，包括关键点的手势可以模拟鼠标，图2a-k为本发明手势识别方法一个具体示例中的手势种类示意图。如图2a-k所示，将本实施例方法应用到电子相册时，可包括如图2a为“OK”手势，检测到该手势时，表示切换到下一张照片；图2b位“点赞”手势，检测到该手势时，可以表示用户喜欢这张照片；图2c为“五指张开”手势，具体表示可以进行自定义；图2d为“托举”手势；图2e为“握拳”手势，可以表示用户不喜欢这张照片；图2f为“双手抱拳”手势；图2g为“单指手枪”手势，可以表示切换到上一张照片；图2h为“双手比心”手势；图2i为“单手比心”手势，该手势为包含关键点的手势，可以表示使用橡皮擦，橡皮擦位置为关键点的坐标，且随着关键点的移动擦除画笔留下的痕迹；图2j为“食指”手势，该手势为包含关键点的手势，可以表示使用画笔操作，笔尖位置为关键点的坐标，且随着关键点的移动进行画笔画图的操作；图2k为“V型”手势；上述具体示例中的手势还可以通过自定义其具体操作，以增强人机交互体验。

当手势类别包括11种时，手势分类网络层输出的特征向量为12位特征向量，其中前11位分别对应一种手势，第12位对应其他手势；判断该12位的特征向量中的最大值，基于该最大值的位置即可确定手势框图像中的对应手势的类别，该对应手势的类别即为手势分类网络层输出的手势分类信息。

本发明手势识别方法的还一个实施例，在上述各实施例的基础上，预设手势包括关键点手势和开关手势；

操作103包括：

响应于手势分类信息判断手势框中手势为关键点手势，输出的坐标信息包括手势框坐标和关键点坐标；

响应于手势分类信息判断手势框中手势为开关手势，输出的坐标信息包括手势框坐标。

其中，手势框坐标包括手势框图像在待处理图像中的至少两个顶点的坐标，关键点坐标用于标示手势框图像中手势中关键点的坐标，精确的关键点定位也为更好地控制机器提供了可能；本实施例通过判断手势种类是否包括关键点，控制输出的坐标中关键点坐标是否为0，当手势为关键点手势时，输出手势框坐标和关键点坐标，具体地，可以为6维向量，表示手势框的左上、右下以及手势关键点坐标；而当手势为开关手势时，输出手势框坐标，具体可以包括4维向量，表示手势框的左上、右下坐标，或具体包括6维向量，表示手势框的左上、右下以及手势关键点坐标，其中手势关键点坐标为0。

在本发明手势识别方法上述各实施例的一个具体示例中，操作101之前，还包括：

通过摄像头采集视频，在视频中提取至少一个视频帧，作为待处理图像。

具体地，由于需要实现人机交互，那么待处理图像的获取必须是基于实时的人体动作，捕捉人体动作时，需要摄像头对人体动作进行采集，将采集到的视频分解为待处理图像，基于待处理图像中的手势实现人机交互；基于对从视频中获得的连续图像进行手势识别，实现手势追踪，达到更好的非接触型的人机交互的效果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图3为本发明手势识别装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图3所示，该实施例的装置包括：

图像获取单元31，用于基于获取的待处理图像获得待处理图像中的至少一个手势框图像。

手势识别单元32，用于将手势框图像输入手势识别网络，经手势识别网络输出坐标信息、手势分类信息和背景信息。

其中，手势识别网络经过待处理图像结合权重向量训练获得，坐标信息包括手势框坐标和/或关键点坐标，手势分类信息用于表示手势框图像中手势属于多种预设手势中一个预设手势，背景信息用于表示手势框图像属于前景图像或背景图像。

输出单元33，用于响应于手势识别网络输出的背景信息为前景图像，根据手势分类信息输出坐标信息。

基于本发明上述实施例提供的一种手势识别装置，基于获取的待处理图像获得待处理图像中的至少一个手势框图像；通过将手势框图像输入手势识别网络，经手势识别网络输出坐标信息、手势分类信息和背景信息；实现通过一个手势识别网络对无论是否具有关键点的手势框图像进行识别，同时实现了对具有关键点的手势框图像进行关键点定位；响应于手势识别网络输出的背景信息为前景图像，根据手势分类信息输出坐标信息，将手势识别网络输出的各信息结合处理，得到更精准的识别结果，为人机交互提供了更准确的位置信息。

在本发明手势识别装置上述实施例的一个具体示例中，输出单元，还用于响应于手势识别网络输出的背景信息为背景图像，不输出坐标信息。

本发明手势识别装置的另一个实施例，在上述各实施例的基础上，图像获取单元31，具体用于将待处理图像输入神经网络，经神经网络对待处理图像执行卷积操作，获得待处理图像中的手部图像的位置和大小；基于手部图像的位置和大小将手部图像从待处理图像中分离，获得手势框图像。

本发明手势识别装置的另一个实施例，在上述各实施例的基础上，图像获取单元31，具体用于利用预设大小的矩形框在待处理图像上移动，基于矩形框中手部图像的比例超出预设值的矩形框获得待处理图像中的手部图像的位置和大小；基于手部图像的位置和大小将手部图像从待处理图像中分离，获得手势框图像。

本发明手势识别装置的又一个实施例，在上述各实施例的基础上，手势识别网络包括共享网络层、坐标检测网络层、手势分类网络层和背景判断网络层；

手势识别单元32，包括：

共享识别模块，用于将手势框图像输入共享网络层，经共享网络层输出对应手势框图像的共享特征；

坐标识别模块，用于将共享特征输入坐标检测网络层，经坐标检测网络层输出坐标信息；

分类识别模块，用于将共享特征输入手势分类网络层，经手势分类网络层输出手势分类信息；

背景识别模块，用于将共享特征输入背景判断网络层，经共享网络层和背景判断网络层输出背景信息。

在本发明手势识别装置上述各实施例的一个具体示例中，坐标识别模块，具体用于将共享特征输入手势分类网络层，经手势分类网络层输出特征向量，基于特征向量中的最大值确定手势框输出的手势分类信息；特征向量中的每个值对应一种预设手势。

本发明手势识别装置的还一个实施例，在上述各实施例的基础上，预设手势包括关键点手势和开关手势；

输出单元33，包括：

关键点输出模块，用于响应于手势分类信息判断手势框中手势为关键点手势，输出的坐标信息包括手势框坐标和关键点坐标；手势框坐标包括手势框图像在待处理图像中的至少两个顶点的坐标，关键点坐标用于标示手势框图像中手势关键点的坐标；

开关输出模块，用于响应于手势分类信息判断手势框中手势为开关手势，输出的坐标信息包括手势框坐标。

本实施例通过判断手势种类是否包括关键点，控制输出的坐标中关键点坐标是否为0，当手势为关键点手势时，输出手势框坐标和关键点坐标，具体地，可以为6维向量，表示手势框的左上、右下以及手势关键点坐标；而当手势为开关手势时，输出手势框坐标，具体可以包括4维向量，表示手势框的左上、右下坐标，或具体包括6维向量，表示手势框的左上、右下以及手势关键点坐标，其中手势关键点坐标为0。

在本发明手势识别装置上述各实施例的一个具体示例中，还包括：

视频采集单元，用于通过摄像头采集视频，在视频中提取至少一个视频帧，作为待处理图像。

图4为本发明手势识别网络的训练方法一个实施例的流程图。如图4所示，该实施例方法包括：

步骤401，基于待处理图像获得待处理图像中的至少一个手势框图像。

具体地，手势框图像具有标注坐标信息、标注手势分类信息和标注背景信息；标注坐标信息包括手势框坐标和/或关键点坐标，标注手势分类信息用于标示手势框图像中手势属于多种预设手势中一个预设手势，预设手势可以根据需求预先设置，还可以根据不同用户个性化设置；标注背景信息包括手势框图像中具有手部图像的非背景图像和手势框图像中不具有手部图像的背景图像。

可选地，为了保证手势识别网络的鲁棒性，本实施例在训练过程中加入了大量其他检测列表外的手势和不含手势的常见图片，即负样本。正负样本共同训练大大减少了网络误检测的情况。

步骤402，根据标注手势分类信息为标注坐标特征配置对应的权重向量。

具体地，通过为不同种类的手势分配不同的权重向量，实现了同时通过具有关键点的手势和不具有关键点的手势对手势识别网络进行训练，训练的结果是通过一个手势识别网络即可实现对具有关键点的手势和不具有关键点的手势的识别和追踪。

步骤403，将手势框图像输入手势识别网络，经手势识别网络输出预测坐标信息、预测手势分类信息和预测背景信息；基于预测坐标信息、预测手势分类信息、预测背景信息、标注坐标信息、标注手势分类信息和标注背景信息，及权重向量对手势识别网络进行训练，直到满足训练完成条件。

预测坐标信息包括预测手势框坐标和预测关键点坐标。

本实施例提供的一种手势识别网络的训练方法，为不具有关键点的手势设置一个关键点坐标，通过根据标注手势分类信息为标注坐标信息配置对应的权重向量，实现了忽略设置的关键点坐标，使需要学习的坐标的误差保持不变，而不需要学习的坐标的误差为0，保证了训练不包含关键点的手势时，网络不会对关键点预测相关参数做出改变，而训练包含关键点的手势时，不会忽略关键点坐标的训练，使训练后的手势识别网络能同时对包含关键点的手势和不包含关键点的手势进行识别。

在本发明手势识别网络的训练方法上述实施例的一个具体示例中，手势框坐标包括手势框图像在待处理图像中的至少两个顶点的坐标；

操作401包括：

基于手势框图像在待处理图像中的至少两个顶点的坐标确定手势框图像的中心坐标；

以中心坐标为基准将手势框图像从待处理图像中分离出来，得到手势框图像。

具体地，手势框坐标包括的两个顶点的坐标应至少包括两个互呈对角的顶点，如：左上顶点和右下顶点为互呈对角的两个顶点，右上顶点和左下顶点为互呈对角的两个顶点；根据左上顶点坐标和右下顶点坐标(或右上顶点坐标和左下顶点坐标)的平均坐标即是检测框图像的中心坐标，以中心坐标为基准，将检测框图像从待处理图像中分离出来；分离的目的在于：一是待处理图像中可能包含大量的背景信息，这些背景信息无法对手势识别提供有效信息，且带来了巨大的计算冗余；二是为了加快前向传播的计算速度，分离得到的检测框图像(如：100*100大小)的输入使手势识别网络在CPU下能够达到更快的速度(如：2ms左右)。

本发明手势识别网络的训练方法的另一个实施例，在上述各实施例的基础上，预设手势包括关键点手势和开关手势；权重向量包括至少两个坐标值、或至少两个坐标值和至少一个关键点值；

操作402包括：

响应于标注手势分类信息判断手势框中手势为关键点手势，为标注坐标信息配置的权重向量包括至少两个坐标值和至少一个关键点值；

响应于标注手势分类信息判断手势框中手势为开关手势，为标注坐标信息配置的权重向量包括至少两个坐标值。

具体地，对于不包含关键点的开关手势，配置的权重向量与关键点手势配置的权重向量的位数相同，只是开关手势配置的权重向量在关键点坐标的位置上的值为0，权值向量只有0和1两种取值，通过与误差向量点乘来实现网络学习预测特定位置的参数的开关。坐标向量的第1至4位表示手势框的左上右下两个端点坐标，第5和第6位表示手势关键点的坐标，而与之长度相同的权值向量表示该位置的学习开关，1为开0为关。对于包含关键点的手势，其权值向量为(1,1,1,1,1,1)；对于不包含关键点的常规手势，其权值向量为(1,1,1,1,0,0)。手势识别网络在进行前向传播(预测)之后、反向传播(训练)之前，先计算了网络预测的6维向量与标注好的6维向量的欧式距离，作为误差向量，接着通过权值向量与误差向量点乘的操作，将不需要学习的位置的误差设为0，需要学习的位置的误差保持不变，再进行反向传播，此时有误差的位置能够产生梯度、更新参数，没有误差的位置不产生梯度，参数保持不变，从而保证了训练不包含关键点的手势时，网络不会对关键点预测相关参数做出改变。

本发明手势识别网络的训练方法的又一个实施例，在上述各实施例的基础上，手势识别网络包括共享网络层、坐标检测网络层、手势分类网络层和背景判断网络层；

操作403包括：

将手势框图像输入共享网络层获得第一共享特征，第一共享特征经坐标检测网络层获得预测坐标信息；基于预测坐标信息、标注坐标信息和权重向量训练共享网络层及坐标检测网络层，直到满足第一训练完成条件；

将手势框图像输入训练后的共享网络层获得第二共享特征，第二共享特征经手势分类网络层获得预测手势分类信息；基于预测手势分类信息和标注手势分类信息训练手势分类网络层，直到满足第二训练完成条件；

将手势框图像输入训练后的共享网络层获得第二共享特征，第二共享特征经背景判断网络层获得预测背景信息；基于预测背景信息和标注背景信息训练背景判断网络层，直到满足第三训练完成条件。

本实施例通过共享网络层获得共享特征，共享特征用于体现图像中的小物体纹理特征，边缘特征和细节特征，通过共享部分网络，减少重复的对图像的特征进行提取；分别通过坐标检测网络层、手势分类网络层和背景判断网络层输出手势框坐标、关键点坐标、手势分类信息和背景信息，实现了通过一个网络对手势的完整识别和坐标检测，缩小了网络模型的大小，简化了网络的训练过程；训练过程中，先对共享网络层和坐标检测网络层进行训练，得到训练后的共享网络层，在后续训练手势分类网络层和背景判断网络层的时候直接利用训练后的共享网络层即可，极大的简化了手势识别网络的训练过程。

在本发明手势识别网络的训练方法上述各实施例的一个具体示例中，基于所述预测坐标信息、标注坐标信息和权重向量对共享网络层和坐标检测网络层进行训练，直到满足第一训练完成条件，包括：

基于预测坐标信息和标注坐标信息获得误差向量；

基于获得的误差向量和权值向量计算得到坐标误差；

通过坐标误差对共享网络层和坐标检测网络层中的网络参数值进行调整；

迭代执行通过调整参数后的共享网络层和坐标检测网络层对待处理图像进行识别获得预测坐标信息，直至满足第一训练完成条件。

本实施例中，通过权重向量与误差向量进行计算，使需要学习的位置的误差得到保留，不需要学习的位置(不包含关键点的手势中的关键点坐标)的误差忽略不计，通过计算后的坐标误差进行训练，有误差的位置能够产生梯度、更新参数，没有误差的位置不产生梯度，参数保持不变。

在本发明手势识别网络的训练方法上述各实施例的一个具体示例中，基于预测坐标信息和标注坐标信息获得误差向量，包括：

通过计算预测坐标信息与标注坐标信息之间的距离，得到误差向量。

具体地，计算预测坐标信息与标注坐标信息之间的欧式距离，将该欧式距离作为误差向量，通过反向传播该误差向量对网络层中的参数进行调整即可实现对网络层的训练。

在本发明手势识别网络的训练方法上述各实施例的一个具体示例中，基于获得的误差向量和权值向量计算得到反向误差，包括：

将获得的误差向量和权值向量执行点乘操作，获得坐标误差。

具体地，由于权重向量中仅包括0和1，当误差向量和权值向量为6位时(包括两个顶点的坐标和关键点坐标，每个坐标对于两个值)，其中对于包含关键点的手势，其权值向量为(1,1,1,1,1,1)；对于不包含关键点的常规手势，其权值向量为(1,1,1,1,0,0)；通过点乘，可以将不包含关键点的手势对应的误差向量中的关键点坐标忽略。

在本发明手势识别网络的训练方法上述各实施例的一个具体示例中，第一训练完成条件，包括：

预测坐标信息与标注坐标信息之间的坐标误差小于第一预设值；或迭代预测次数大于或等于第一预设次数。

在网络训练中，对于网络训练的停止条件可以根据误差值进行判断，或根据迭代训练次数进行判断，或通过其他本领域技术人员认为可以停止训练的停止条件，本实施例仅用于方便本领域技术人员对本实施例方法的实现，不用于限制本实施例方法。

在本发明手势识别网络的训练方法上述各实施例的一个具体示例中，基于预测手势分类信息和标注手势分类信息对手势分类网络进行训练，直到满足第二训练完成条件，包括：

基于预测手势分类信息和标注手势分类信息获得分类误差，通过分类误差对手势分类网络层中的网络参数值进行调整；

迭代执行通过调整参数后的手势分类网络对待处理图像进行分类获得预测手势分类信息，直到满足第二训练完成条件。

在本实施例中，对于手势分类网络层中的参数也可以通过反向梯度方法进行训练，具体训练过程可以包括：将预测手势分类信息和标注手势分类信息之间的误差作为最大误差；将最大误差通过梯度反向传播，计算手势分类网络层(由于共享网络层已训练好，此时共享网络层的参数不需要再训练)中每一层的误差；根据每一层的误差计算出每一层参数的梯度，根据梯度修正检测网络层中对应层的参数；计算优化参数后的手势分类网络层输出的预测手势分类信息和标注手势分类信息之间的误差，将该误差作为最大误差；

迭代执行将最大误差通过梯度反向传播，计算手势分类网络层中每一层的误差；根据每一层的误差计算出每一层参数的梯度，根据梯度修正手势分类网络层中对应层的参数，直到满足预设第二训练完成条件。

在本发明手势识别网络的训练方法上述各实施例的一个具体示例中，第二训练完成条件，包括：

预测手势分类信息与标注手势分类信息之间的分类误差小于第二预设值；或迭代预测次数大于或等于第二预设次数。

在本发明手势识别网络的训练方法上述各实施例的一个具体示例中，基于预测背景信息和标注背景信息训练背景判断网络层，直到满足第三训练完成条件，包括：

基于预测背景信息和标注背景信息获得背景误差，通过背景误差对背景判断网络层中的网络参数值进行调整；

迭代执行通过调整参数后的背景判断网络层对待处理图像进行判断获得预测背景信息，直到满足第三训练完成条件。

本实施例中，可将共享网络层和背景判断网络层作为一个神经网络，此时共享网络层已经训练好，因此，在通过反向梯度方法训练该网络时，只需对背景判断网络层中的参数进行调整即可。

在本发明手势识别网络的训练方法上述各实施例的一个具体示例中，第三训练完成条件，包括：

预测背景信息与标注背景信息之间的背景误差小于第三预设值；或迭代预测次数大于或等于第三预设次数。

图5为本发明手势识别网络的训练装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图5所示，该实施例的装置包括：

图像识别单元51，用于基于待处理图像获得待处理图像中的手势框图像。

具体地，手势框图像具有标注坐标信息、标注手势分类信息和标注背景信息；所述标注坐标信息包括手势框坐标和/或关键点坐标，所述标注手势分类信息用于标示所述手势框图像中手势属于多种预设手势中一个预设手势，所述标注背景信息包括所述手势框图像中具有手部图像的非背景图像和所述手势框图像中不具有手部图像的背景图像；

权重配置单元52，用于根据标注手势分类信息为标注坐标特征配置对应的权重向量。

网络训练单元53，用于将手势框图像输入手势识别网络，经手势识别网络输出预测坐标信息、预测手势分类信息和预测背景信息；基于预测坐标信息、预测手势分类信息、预测背景信息、标注坐标信息、标注手势分类信息和标注背景信息，及权重向量对手势识别网络进行训练，直到满足训练完成条件。

预测坐标信息包括预测手势框坐标和预测关键点坐标。

本实施例提供的一种手势识别网络的训练装置，为不具有关键点的手势设置一个关键点坐标，通过根据标注手势分类信息为标注坐标信息配置对应的权重向量，实现了忽略设置的关键点坐标，使需要学习的坐标的误差保持不变，而不需要学习的坐标的误差为0，保证了训练不包含关键点的手势时，网络不会对关键点预测相关参数做出改变，而训练包含关键点的手势时，不会忽略关键点坐标的训练，使训练后的手势识别网络能同时对包含关键点的手势和不包含关键点的手势进行识别。

在本发明手势识别网络的训练装置上述实施例的一个具体示例中，手势框坐标包括手势框图像在待处理图像中的至少两个顶点的坐标；

图像识别单元51，具体用于基于手势框图像在待处理图像中的至少两个顶点的坐标确定手势框图像的中心坐标；以中心坐标为基准将手势框图像从待处理图像中分离出来，得到手势框图像。

本发明手势识别网络的训练装置的另一个实施例，在上述各实施例的基础上，预设手势包括关键点手势和开关手势；权重向量包括至少两个坐标值、或至少两个坐标值和至少一个关键点值；

权重配置单元52，具体用于响应于标注手势分类信息判断手势框中手势为关键点手势，为标注坐标信息配置的权重向量包括至少两个坐标值和至少一个关键点值；响应于标注手势分类信息判断手势框中手势为开关手势，为标注坐标信息配置的权重向量包括至少两个坐标值。

本发明手势识别网络的训练装置的又一个实施例，在上述各实施例的基础上，手势识别网络包括共享网络层、坐标检测网络层、手势分类网络层和背景判断网络层；

网络训练单元53，包括：

坐标训练模块，用于将手势框图像输入共享网络层获得第一共享特征，第一共享特征经坐标检测网络层获得预测坐标信息；基于预测坐标信息、标注坐标信息和权重向量训练共享网络层及坐标检测网络层，直到满足第一训练完成条件；

手势训练模块，用于将手势框图像输入训练后的共享网络层获得第二共享特征，第二共享特征经手势分类网络层获得预测手势分类信息；基于预测手势分类信息和标注手势分类信息训练手势分类网络层，直到满足第二训练完成条件；

背景训练模块，用于将手势框图像输入训练后的共享网络层获得第二共享特征，第二共享特征经背景判断网络层获得预测背景信息；基于预测背景信息和标注背景信息训练背景判断网络层，直到满足第三训练完成条件。

在本发明手势识别网络的训练装置上述各实施例的一个具体示例中，坐标训练模块，包括：

坐标误差模块，用于基于获得的误差向量和权值向量计算得到坐标误差；

参数调整模块，用于通过坐标误差对共享网络层和坐标检测网络层中的网络参数值进行调整；

迭代模块，用于迭代执行通过调整参数后的共享网络层和坐标检测网络层对待处理图像进行识别获得预测坐标信息，直至满足第一训练完成条件。

在本发明手势识别网络的训练装置上述各实施例的一个具体示例中，误差向量模块，具体用于通过计算所述预测坐标信息与标注坐标信息之间的距离，得到误差向量。

在本发明手势识别网络的训练装置上述各实施例的一个具体示例中，坐标误差模块，具体用于将获得的误差向量和权值向量执行点乘操作，获得坐标误差。

在本发明手势识别网络的训练装置上述各实施例的一个具体示例中，第一训练完成条件，包括：

在本发明手势识别网络的训练装置上述各实施例的一个具体示例中，手势训练模块，具体用于基于预测手势分类信息和标注手势分类信息获得分类误差，通过分类误差对手势分类网络层中的网络参数值进行调整；迭代执行通过调整参数后的手势分类网络层对待处理图像进行分类获得预测手势分类信息，直到满足第二训练完成条件。

在本发明手势识别网络的训练装置上述各实施例的一个具体示例中，第二训练完成条件，包括：

在本发明手势识别网络的训练装置上述各实施例的一个具体示例中，背景训练模块，具体用于基于预测背景信息和标注背景信息获得背景误差，通过背景误差对背景判断网络层中的网络参数值进行调整；迭代执行通过调整参数后的背景判断网络层对待处理图像进行判断获得预测背景信息，直到满足第三训练完成条件。

在本发明手势识别网络的训练装置上述各实施例的一个具体示例中，第三训练完成条件，包括：

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，处理器包括本发明上述任一实施例的手势识别装置或本发明上述任一实施例的手势识别网络的训练装置。

以及处理器，用于与存储器通信以执行可执行指令从而完成本发明手势识别方法或本发明手势识别网络的训练方法上述任一实施例的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行本发明手势识别方法或本发明手势识别网络的训练方法上述任一实施例的操作。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备600的结构示意图：如图6所示，计算机系统600包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)601，和/或一个或多个图像处理器(GPU)613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信部612可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，

处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执行指令，通过总线604与通信部612相连、并经通信部612与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，基于获取的待处理图像获得待处理图像中的至少一个手势框图像；将手势框图像输入手势识别网络，经手势识别网络输出坐标信息、手势分类信息和背景信息；响应于手势识别网络输出的背景信息为前景图像，根据手势分类信息输出坐标信息。

此外，在RAM 603中，还可存储有装置操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向ROM602中写入可执行指令，可执行指令使处理器601执行上述通信方法对应的操作。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

需要说明的，如图6所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，基于获取的待处理图像获得待处理图像中的至少一个手势框图像；将手势框图像输入手势识别网络，经手势识别网络输出坐标信息、手势分类信息和背景信息；响应于手势识别网络输出的背景信息为前景图像，根据手势分类信息输出坐标信息。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种手势识别方法，其特征在于，包括：

将所述手势框图像输入手势识别网络，经所述手势识别网络输出坐标信息、手势分类信息和背景信息；所述手势识别网络经过待处理图像结合权重向量训练获得，所述坐标信息包括手势框坐标和/或关键点坐标，所述手势分类信息用于表示所述手势框图像中手势属于多种预设手势中一个预设手势，所述背景信息用于表示所述手势框图像属于前景图像或背景图像；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于获取的待处理图像获得所述待处理图像中的至少一个手势框图像，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述基于获取的待处理图像获得所述待处理图像中的至少一个手势框图像，包括：

5.一种手势识别网络的训练方法，其特征在于，包括：

基于待处理图像获得所述待处理图像中的手势框图像；所述手势框图像具有标注坐标信息、标注手势分类信息和标注背景信息；所述标注坐标信息包括手势框坐标和/或关键点坐标，所述标注手势分类信息用于标示所述手势框图像中手势属于多种预设手势中一个预设手势，所述标注背景信息包括所述手势框图像中具有手部图像的非背景图像和所述手势框图像中不具有手部图像的背景图像；

将所述手势框图像输入手势识别网络，经所述手势识别网络输出预测坐标信息、预测手势分类信息和预测背景信息；

基于预测坐标信息、预测手势分类信息、预测背景信息、标注坐标信息、标注手势分类信息和标注背景信息，及权重向量对所述手势识别网络进行训练，直到满足训练完成条件；所述预测坐标信息包括预测手势框坐标和预测关键点坐标。

6.一种手势识别装置，其特征在于，包括：

7.一种手势识别网络的训练装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求6所述的手势识别装置或权利要求7所述的手势识别网络的训练装置。

9.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至4任意一项所述手势识别方法或权利要求5所述手势识别网络的训练方法的操作。

10.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至4任意一项所述的手势识别方法或权利要求5所述的手势识别网络的训练方法的操作。