CN114445864A

CN114445864A - 一种手势识别方法及装置、存储介质

Info

Publication number: CN114445864A
Application number: CN202210112744.7A
Authority: CN
Inventors: 张夏杰
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-06

Abstract

本申请实施例公开了一种手势识别方法及装置、存储介质，包括：在获取到待处理图像的情况下，按照多个预设图像缩小规则分别对待处理图像进行处理，得到多个缩小后的待处理图像；并对多个缩小后的待处理图像进行手部检测，得到手部检测框；从待处理图像中获取手部检测框中的图像，得到手部区域图像；根据手部区域图像，确定出待处理图像中的目标手势。

Description

一种手势识别方法及装置、存储介质

技术领域

本申请涉及信息存储技术领域，尤其涉及一种手势识别方法及装置、存储介质。

背景技术

静态手势识别技术是指通过传感器识别在某个特定时刻的手的姿态，比如识别用户的Victory手势、OK手势等。

现有技术中，在获取到包含手势的图片信息的情况下，就直接对图片中的手势进行识别，在获取到的图片中的手势部分区域占整个图片区域较小时，获取到的手势部分的信息就很少，从而降低了手势识别时的准确性。

发明内容

为解决上述技术问题，本申请实施例期望提供一种手势识别方法及装置、存储介质，能够提高了手势识别时的准确性。

本申请的技术方案是这样实现的：

本申请实施例提供一种手势识别方法，包括：

在获取到待处理图像的情况下，按照多个预设图像缩小规则分别对所述待处理图像进行处理，得到多个缩小后的待处理图像；并对所述多个缩小后的待处理图像进行手部检测，得到手部检测框；

从所述待处理图像中获取所述手部检测框中的图像，得到手部区域图像；

根据所述手部区域图像，确定出所述待处理图像中的目标手势。

本申请实施例提供了一种手势识别装置，所述装置包括：

处理单元，用于在获取到待处理图像的情况下，按照多个预设图像缩小规则分别对所述待处理图像进行处理，得到多个缩小后的待处理图像；

检测单元，用于对所述多个缩小后的待处理图像进行手部检测，得到手部检测框；

获取单元，用于从所述待处理图像中获取所述手部检测框中的图像，得到手部区域图像；

确定单元，用于根据所述手部区域图像，确定出所述待处理图像中的目标手势。

本申请实施例提供了一种手势识别装置，所述装置包括：

存储器、处理器和通信总线，所述存储器通过所述通信总线与所述处理器进行通信，所述存储器存储所述处理器可执行的手势识别的程序，当所述手势识别的程序被执行时，通过所述处理器执行上述所述的手势识别方法。

本申请实施例提供了一种存储介质，其上存储有计算机程序，应用于手势识别装置，其特征在于，该计算机程序被处理器执行时实现上述所述的手势识别方法。

本申请实施例提供了一种手势识别方法及装置、存储介质，手势识别方法包括：在获取到待处理图像的情况下，按照多个预设图像缩小规则分别对待处理图像进行处理，得到多个缩小后的待处理图像；并对多个缩小后的待处理图像进行手部检测，得到手部检测框；从待处理图像中获取手部检测框中的图像，得到手部区域图像；根据手部区域图像，确定出待处理图像中的目标手势。采用上述方法实现方案，手势识别装置在获取到待处理图像的情况下，手势识别装置通过按照多个预设图像缩小规则分别对待处理图像进行缩小处理，得到多个缩小后的待处理图像，根据多个缩小后的待处理图像得到手部检测框，利用手部检测框从待处理图像中确定出手部区域图像，而在手部区域图像中，手势部分区域占整个手部区域图像大，使得手势识别装置利用手势检测模型获取到的手势部分的信息就增加，以利用手势识别模型根据手部信息量大的手部区域图像可以准确的识别出待处理图像中的手势，从而提高了手势识别时的准确性。

附图说明

图1为本申请实施例提供的一种手势识别方法流程图；

图2为本申请实施例提供的一种示例性的手势检测模型检测手势时的检测框图；

图3为本申请实施例提供的一种示例性的样本手部区域图像示意图；

图4为本申请实施例提供的一种示例性的手势识别模型识别手势时的识别框图；

图5为本申请实施例提供的一种示例性的手势识别结构图；

图6为本申请实施例提供的一种手势识别装置的组成结构示意图一；

图7为本申请实施例提供的一种手势识别装置的组成结构示意图二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供了一种手势识别方法，图1为本申请实施例提供的一种手势识别方法流程图一，如图1所示，手势识别方法可以包括：

S101、在获取到待处理图像的情况下，按照多个预设图像缩小规则分别对待处理图像进行处理，得到多个缩小后的待处理图像；并对多个缩小后的待处理图像进行手部检测，得到手部检测框。

本申请实施例提供的一种手势识别方法适用于识别出待处理图像中的目标手势的场景下。

在本申请实施例中，手势识别装置可以以各种形式来实施。例如，本申请中描述的手势识别装置可以包括诸如手机、照相机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等装置，以及诸如数字TV、台式计算机等装置。

在本申请实施例中，待处理图像可以为RGB图像；待处理图像也可以为深度图像；待处理图像也可以为其他的图像；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，待处理图像的数量可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，待处理图像可以为手势识别装置接收到的其他设备传输的图像；待处理图像也可以为手势识别装置中的摄像机拍照得到的图像；待处理图像也可以为用户输入至手势识别装置中的图像；具体的手势识别装置获取到待处理图像的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，多个预设图像缩小规则可以为手势识别装置中配置的图像缩小规则；多个预设图像缩小规则也可以为手势识别模型接收到的其他装置传输的图像缩小规则；多个预设图像缩小规则还可以为手势识别模型以其他的方式获取到的图像缩小规则；具体的手势识别模型获取到多个预设图像缩小规则的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，多个预设图像缩小规则可以为多次下采样的规则；具体的一个预设图像缩小规则对应一次下采样的规则。示例性的，多个预设图像缩小规则的数量可以为5个；多个预设图像缩小规则的数量也可以为3个；多个预设图像缩小规则的数量还可以为10个；具体的多个预设图像缩小规则的数量可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，多个预设图像缩小规则的数量可以为5个，手势识别装置按照多个预设图像缩小规则分别对待处理图像进行处理，得到多个缩小后的待处理图像的过程，可以为手势识别装置对待处理图像进行五次下采样处理，得到多个缩小后的待处理图像。

需要说明的是，手势识别装置可以对待处理图像进行深度可分离卷积(depth-separable)来实现对待处理图像的多次下采样处理，从而得到多个缩小后的待处理图像。

示例性的，若待处理图像为256*256分辨率的图像，手势识别装置对待处理图像进行五次下采样处理，得到多个缩小后的待处理图像，则手势识别装置对待处理图像进行第一次下采样处理后，可以得到128*128分辨率的图像；然后势识别装置对128*128分辨率的图像进行一次下采样处理后，可以得到64*64分辨率的图像；然后势识别装置对64*64分辨率的图像进行一次下采样处理后，可以得到32*32分辨率的图像；然后势识别装置对32*32分辨率的图像进行一次下采样处理后，可以得到16*16分辨率的图像；最后势识别装置对16*16分辨率的图像进行一次下采样处理后，可以得到8*8分辨率的图像，从而得到多个缩小后的待处理图像，即为128*128分辨率的图像、64*64分辨率的图像、32*32分辨率的图像、16*16分辨率的图像8*8分辨率的图像。

在本申请实施例中，手势识别装置中包括手势检测模型，手部区域图像可以为手势识别装置利用手势检测模型从待处理图像中得到的手部区域的图像。具体的，手势识别装置按照多个预设图像缩小规则分别对待处理图像进行处理，得到多个缩小后的待处理图像，并对多个缩小后的待处理图像进行手部检测，得到手部检测框的方式，包括：手势识别装置将待处理图像输入手势检测模型中，以供手势检测模型按照多个预设图像缩小规则分别对待处理图像进行处理，得到多个缩小后的待处理图像；手势检测模型对多个缩小后的待处理图像进行手部检测，得到手部检测框。

在本申请实施例中，手势检测模型可以为手势识别装置接收到的其他设备传输的模型；手势检测模型也可以为手势识别装置通过训练得到的模型；手势检测模型还可以为手势识别装置通过其他的方式得到的模型；具体的手势识别装置获取到手势检测模型的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，手势检测模型可以为HandDetNet；手势检测模型也可以为其他的从待处理图像中检测出手部区域图像的模型；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，若手势检测模型为手势识别装置通过训练得到的模型，则手势识别装置可以先获取样本待处理图像和样本待处理图像对应的第一样本手部区域图像；手势识别装置利用样本待处理图像和第一样本手部区域图像训练初始手势检测模型，得到手势检测模型。

在本申请实施例中，样本待处理图像可以为CMU手部图像集、YouTube收集的手部图像集或者采集的包含手部的图像。

在本申请实施例中，待处理图像包括第一视角的待处理图像和/或第三视角的待处理图像。具体的，第一视角的待处理图像为用户以自身的角度查看自己的手时的图像；第三视角的待处理图像为用户以第三方的视角查看其他用户的手时的图像。

需要说明的是，样本待处理图像包含以用户角度查看用户的手的待处理图像(即第一视角的待处理图像)，和以他人角度查看用户的手的待处理图像(即和第三视角的待处理)。

在本申请实施例中，手势识别装置对多个缩小后的待处理图像进行手部检测，得到手部检测框的过程，包括：手势识别装置从多个缩小后的待处理图像中筛选满足预设分辨率的目标处理图像；手势识别装置对目标处理图像进行特征融合，得到融合后的图像；手势识别装置对融合后的图像进行多层手部检测，得到手部检测框。

在本申请实施例中，手势识别装置对融合后的图像进行多层手部检测，得到手部检测框的过程，可以为手势识别装置对融合后的图像和目标处理图像进行多层手部检测，得到手部检测框。

在本申请实施例中，预设分辨率可以为手势识别装置中配置的分辨率，预设分辨率也可以为其他装置传输至手势识别装置中的分辨率，预设分辨率也可以为手势识别装置以其他的方式获取到的分辨率；具体的手势识别装置获取到预设分辨率的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，预设分辨率可以为32*32分辨率；预设分辨率也可以为16*16分辨率；预设分辨率也可以为16*16分辨率；预设分辨率还可以为8*8分辨率；预设分辨率还可以为其他的分辨率；具体的预设分辨率可以根据实际情况进行确定，本申请实施例对此不作限定。

还需要说明的是，预设分辨率的种类可以为一种，预设分辨率的种类也可以为两种；预设分辨率的种类还可以为多种，示例性的：预设分辨率包括32*32分辨率、16*16分辨率和8*8分辨率；具体的预设分辨率的种类数量可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，目标处理图像的数量为多个，多个目标处理图像的像素不同，手势识别装置对目标处理图像进行特征融合，得到融合后的图像的过程，可以为手势识别装置根据特征金字塔网络(Feature Pyramid Network，FPN)、PAN技术，进行像素自下而上(Bottom-up)的融合方式和/或像素自上而下(Top-down)的融合方式对多个目标处理图像的像素特征进行融合，从而得到融合后的图像；也可以为手势识别装置对多个目标处理图像进行其他方式的特征融合，以得到融合后的图像；具体的手势识别装置对多个目标处理图像进行特征融合，得到融合后的图像的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，手势识别装置对融合后的图像进行多层手部检测，得到手部检测框的过程，包括：手势识别装置对融合后的图像进行多层手部检测，得到多个检测框；手势识别装置从多个检测框中筛选手部检测框。

在本申请实施例中，手势识别装置对融合后的图像进行多层手部检测，得到多个检测框的方式，可以为手势识别装置多尺度(MultiScale)的多层检测机制，用从分辨率负责大目标，用大分辨率负责小目标，以兼顾对远近手的检测，从而得到多个检测框。

示例性的，若融合后的图像包括32*32分辨率的图像、16*16分辨率的图像和8*8分辨率的图像，则可以设置32*32分辨率的图像的锚点数为2；可以设置16*16分辨率的图像的锚点数为2；可以设置8*8分辨率的图像的锚点数为6；最终可以得到的多个检测框的数量为32*32*2+16*16*2+8*8*6＝2944个。

在本申请实施例中，手势识别装置从多个检测框中筛选手部检测框的方式可以为手势识别装置利用非极大值抑制(Non-Maximum Suppression，NMS)方式从多个检测框中筛选手部检测框；也可以为手势识别装置随机从多个检测框中选择检测框作为手部检测框；还可以为手势识别装置利用其他的方式从多个检测框中筛选手部检测框；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，手势识别装置按照多个预设图像缩小规则分别对待处理图像进行处理，得到多个缩小后的待处理图像的过程，包括：手势识别装置对待处理图像进行预处理，得到预处理后的待处理图像；手势识别装置利用多个预设图像缩小规则分别对预处理后的待处理图像进行处理，得到多个缩小后的待处理图像。

在本申请实施例中，手势识别装置对待处理图像进行预处理，得到预处理后的待处理图像的过程，可以为手势识别装置调整待处理图像的分辨率，得到调整分辨率后的待处理图像，即为预处理后的待处理图像；也可以为手势识别装置对待处理图像去噪、滤波等处理，得到预处理后的待处理图像；还可以为手势识别装置对待处理图像进行其他的处理，从而得到预处理后的待处理图像；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，手势识别装置调整待处理图像的分辨率，得到调整分辨率后的待处理图像的过程，可以为手势识别装置利用手势检测模型配置的输入图像的分辨率，调整待处理图像的分辨率，从而得到满足手势检测模型的输入图像分辨率要求的图像，即得到了调整分辨率后的待处理图像。

在本申请实施例中，手势检测模型主要包含三个部分，分别为backbone、neck、head，具体的，手势检测模型的网络结构如图2所示：手势识别装置在获取到待处理图像的情况下，就对待处理图像进行预处理，得到预处理后的待处理图像输入的待处理图像；然后在backbone部分，手势识别装置就按照多个预设图像缩小规则分别对待处理图像进行处理，得到多个缩小后的待处理图像，分别为：128*128分辨率的图像、64*64分辨率的图像、32*32分辨率的图像、16*16分辨率的图像和8*8分辨率的图像。其中，预处理后的待处理图像为256*256的RGB图像。在Neck部分，手势识别装置利用手势检测模型从多个缩小后的待处理图像中筛选出满足预设分辨率的目标处理图像，分别为32*32分辨率的图像、16*16分辨率的图像和8*8分辨率的图像。在Head部分，手势识别装置利用手势检测模型对目标处理图像进行特征融合，得到融合后的图像，并对融合后的图像进行多层手部检测，得到多个检测框(Boxes)，利用NMS方式从多个检测框中筛选手部检测框；从待处理图像中获取手部检测框中的图像，得到手部区域图像。

S102、从待处理图像中获取手部检测框中的图像，得到手部区域图像。

在本申请实施例中，手势识别装置对多个缩小后的待处理图像进行手部检测，得到手部检测框之后，手势识别装置就可以从待处理图像中获取手部检测框中的图像，得到手部区域图像。

在本申请实施例中，手部区域图像可以为RGB图像；手部区域图像也可以为深度图像；手部区域图像还可以为其他的图像；具体的手部区域图像可以根据实际情况进行确定，本申请实施例对此不作限定。

S103、根据手部区域图像，确定出待处理图像中的目标手势。

在本申请实施例中，手势识别装置从待处理图像中获取手部检测框中的图像，得到手部区域图像之后，手势识别装置就可以根据手部区域图像，确定出待处理图像中的目标手势。

在本申请实施例中，手势识别装置中包括手势识别模型。手势识别装置根据手部区域图像，确定出待处理图像中的目标手势的过程，可以为手势识别装置将手部区域图像输入手势识别模型，利用手势识别模型输出待处理图像中的目标手势。

在本申请实施例中，手势识别模型可以为手势识别装置接收到的其他设备传输的模型；手势识别模型也可以为手势识别装置通过训练得到的模型；手势识别模型还可以为手势识别装置通过其他的方式得到的模型；具体的手势识别装置获取到手势识别模型的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，手势识别模型可以为HandClsNet；手势识别模型也可以为其他的从手部区域图像中确定出目标手势的模型；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，若手势识别模型为手势识别装置通过训练得到的模型，则手势识别模型可以先获取第二样本手部区域图像和第二样本手部区域图像对应的手势标签；然后手势识别装置利用第二样本手部区域图像和手势标签训练初始手势识别模型，得到手势识别模型。

在本申请实施例中，第二样本手部区域图像与第一样本手部区域图像可以相同；第二样本手部区域图像与第一样本手部区域图像也可以不同；第二样本手部区域图像与第一样本手部区域图像还可以部分相同；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，第二样本手部区域图像可以为拍摄得到的图像；第二样本手部区域图像也可以为从网络上收集得到的图像；具体的第二样本手部区域图像获取方式可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，第二样本手部区域图像的种类可以为21类；第二样本手部区域图像的种类也可以为50类；第二样本手部区域图像的种类可以为其他类别数量；具体的第二样本手部区域图像的类别数量可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，第二样本手部区域图像中也可以包含1类负样本，以在输入的图片为非手部区域图像的情况下，输出没有手势的提示信息。

示例性的，若第二样本手部区域图像的种类可以为21类，则具体的21类样本手部区域图像如图3所示，包括：数字二手势、示爱手势、数字六手势、数字八手势、OK手势、数字五手势、点赞手势、握拳手势、比心手势、中指手势、数字零手势、数字一手势、数字三手势、数字四手势、数字七手势、数字九手势、摇滚手势、鄙视手势、小指手势、手掌手势、交叉手指手势。

在本申请实施例中，目标手势可以为手势标签；目标手势也可以为手势图像；目标手势还可以为其他的用于解释手势类型的信息；具体的目标手势可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，手势识别装置根据手部区域图像，确定出待处理图像中的目标手势的过程，包括：手势识别装置按照多个预设图像缩小规则分别对手部区域图像进行处理，得到多个缩小后的手部图像；手势识别装置对多个缩小后的手部图像进行像素融合处理，得到融合后的手部图像；手势识别装置调整融合后的手部图像的图像分辨率，得到调整图像；手势识别装置根据调整图像确定目标手势。

在本申请实施例中，手势识别装置按照多个预设图像缩小规则分别对手部区域图像进行处理，得到多个缩小后的手部图像的方式，可以为手势识别装置利用手势识别模型对手部区域图像进行五次下采样处理，得到五个缩小后的手部图像，即得到多个缩小后的手部图像；也可以为手势识别装置利用手势识别模型对手部区域图像进行十次下采样处理，得到十个缩小后的手部图像，即得到多个缩小后的手部图像；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，手势识别装置可以利用手势识别模型对手部区域图像进行全卷积网络(Fully Convolutional Networks，FCN)来实现对手部区域图像的多次下采样处理，从而得到多个缩小后的手部图像。

示例性的，若手部区域图像为256*256分辨率的图像，手势识别装置利用手势识别模型对手部区域图像进行五次下采样处理，得到多个缩小后的手部图像，则手势识别装置利用手势识别模型对手部区域图像进行第一次下采样处理后，可以得到128*128分辨率的图像；然后势识别装置利用手势识别模型对128*128分辨率的图像进行一次下采样处理后，可以得到64*64分辨率的图像；然后势识别装置利用手势识别模型对64*64分辨率的图像进行一次下采样处理后，可以得到32*32分辨率的图像；然后势识别装置利用手势识别模型对32*32分辨率的图像进行一次下采样处理后，可以得到16*16分辨率的图像；最后势识别装置利用手势识别模型对16*16分辨率的图像进行一次下采样处理后，可以得到8*8分辨率的图像，从而得到多个缩小后的手部图像，即为128*128分辨率的图像、64*64分辨率的图像、32*32分辨率的图像、16*16分辨率的图像8*8分辨率的图像。

在本申请实施例中，手势识别装置对多个缩小后的手部图像进行像素融合处理得到融合后的手部图像的过程，可以为：手势识别装置按照预设筛选分辨率从多个缩小后的手部图像中筛选出多个筛选图像；手势识别装置将多个筛选图像的分辨率调整为第一预设调整分辨率，得到多个调整分辨率图像；然后，手势识别装置对多个调整分辨率图像进行像素融合处理，得到融合后的手部图像。

具体的，手势识别装置对多个调整分辨率图像进行像素融合处理，得到融合后的手部图像的过程，可以为手势识别装置对多个调整分辨率图像进行逐像素融合处理，得到融合后的手部图像；也可以为手势识别装置对多个调整分辨率图像进行其他的融合处理，得到融合后的手部图像；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，预设筛选分辨率可以为8*8的分辨率；预设筛选分辨率也可以为32*32的分辨率；预设筛选分辨率还可以为128*128的分辨率；具体的预设筛选分辨率可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，第一预设调整分辨率可以为8*8的分辨率。

在本申请实施例中，手势识别装置调整融合后的手部图像的图像分辨率，得到调整图像的方式，可以为手势识别装置利用取最大值(pooling)操作将融合后的手部图像的图像分辨率调整为第一预设分辨率，从而得到了调整图像。其中，第一预设分辨率可以为1*1的分辨率；第一预设分辨率也可以为其他分辨率值的分辨率；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，手势识别装置根据调整图像确定目标手势的过程，包括：手势识别装置按照预设通道数量调整调整图像的通道数，得到预设通道数量的调整图像；手势识别装置对预设通道数量的调整图像进行激活处理，得到预设数量的识别置信度；手势识别装置从预设数量的识别置信度中筛选出置信度值最大的目标置信度，并根据目标置信度对应的目标调整图像确定目标手势。

在本申请实施例中，预设通道数量可以为手势识别装置中配置的通道数量；预设通道数量还可以为手势识别装置接收到的其他装置传输的通道数量；具体的预设通道数量的获取方式可以根据实际情况进行确定，本申请实施例对此不作限定。

示例性的，预设通道数量可以为22；预设通道数量也可以为40；预设通道数量还可以为其他的数值；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，手势识别装置对预设通道数量的调整图像进行激活处理，得到预设数量的识别置信度的方式，可以为手势识别装置利用softmax激活函数对预设通道数量的调整图像进行激活处理，得到预设数量的识别置信度；还可以为手势识别装置利用其他的方式对预设通道数量的调整图像进行激活处理，得到预设数量的识别置信度；具体的可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，预设数量的识别置信度的值之和为1。

在本申请实施例中，手势识别装置利用手势识别模型对手部区域图像进行多次下采样处理，得到多个缩小后的手部图像的过程，包括：手势识别装置按照预设像素调整要求，调整对手部区域图像的像素，得到调整后的手部区域图像；手势识别装置利用多个预设图像缩小规则分别对调整后的手部区域图像进行处理，得到多个缩小后的手部图像。

在本申请实施例中，预设像素调整要求可以为配置的手势识别模型输入图像的像素要求。

示例性的，手势识别装置根据手部区域图像，确定出待处理图像中的目标手势的过程如图4所示：手势识别装置在得到手部区域图像之后，手势识别装置就按照预设像素调整要求(像素调整)，调整对手部区域图像的像素，得到调整后的手部区域图像；手势识别装置利用手势识别模型按照多个预设图像缩小规则分别对调整后的手部区域图像进行处理，得到多个缩小后的手部图像，分别为：128*128分辨率的图像、64*64分辨率的图像、32*32分辨率的图像、16*16分辨率的图像和8*8分辨率的图像。其中，调整后的手部区域图像为256*256的RGB图像。然后，手势识别装置利用手势识别模型对多个缩小后的手部图像(8*8分辨率的图像、32*32分辨率的图像调整为8*8分辨率的图像、128*128分辨率的图像调整为8*8分辨率的图像)进行像素融合处理，得到融合后的手部图像；手势识别装置调整融合后的手部图像的图像分辨率，得到调整图像；手势识别装置按照预设通道数量(22)调整调整图像的通道数，得到预设通道数量的调整图像；手势识别装置对预设通道数量的调整图像进行激活处理(softmax22)，得到预设数量的识别置信度；手势识别装置从预设数量的识别置信度中筛选出置信度值最大的目标置信度，并根据目标置信度对应的目标调整图像确定目标手势。

示例性的，手势识别装置包括手势检测模型和手势识别模型，具体的如图5所示：在训练阶段，手势识别装置利用检测数据集(样本待处理图像和第一样本手部区域图像)训练初始手势检测模型，得到手势检测模型；利用分类数据集(第二样本手部区域图像和手势标签)训练初始手势识别模型，得到手势识别模型。手势识别装置在获取到待处理图像的情况下，手势识别装置就对待处理图像进行预处理，得到预处理后的待处理图像；然后手势识别装置就将预处理后的待处理图像输入手势检测模型，利用手势检测模型检测待处理图像中的手部区域图像；之后，手势识别装置将手部区域图像按照预设像素调整要求，调整对手部区域图像的像素，得到调整后的手部区域图像；手势识别装置将调整后的手部区域图像输入手势识别模型中，得到待处理图像中的目标手势。

可以理解的是，手势识别装置在获取到待处理图像的情况下，手势识别装置通过按照多个预设图像缩小规则分别对待处理图像进行缩小处理，得到多个缩小后的待处理图像，根据多个缩小后的待处理图像得到手部检测框，利用手部检测框从待处理图像中确定出手部区域图像，而在手部区域图像中，手势部分区域占整个手部区域图像大，使得手势识别装置利用手势检测模型获取到的手势部分的信息就增加，以利用手势识别模型根据手部信息量大的手部区域图像可以准确的识别出待处理图像中的手势，从而提高了手势识别时的准确性。

基于一种手势识别方法的同一发明构思，本申请实施例提供了一种手势识别装置1，对应于一种手势识别方法；图6为本申请实施例提供的一种手势识别装置的组成结构示意图一，该手势识别装置1可以包括：

处理单元11，用于在获取到待处理图像的情况下，按照多个预设图像缩小规则分别对所述待处理图像进行处理，得到多个缩小后的待处理图像；

检测单元12，用于对所述多个缩小后的待处理图像进行手部检测，得到手部检测框；

获取单元13，用于从所述待处理图像中获取所述手部检测框中的图像，得到手部区域图像；

确定单元14，用于根据所述手部区域图像，确定出所述待处理图像中的目标手势。

在本申请的一些实施例中，所述装置还包括筛选单元和融合单元；

所述筛选单元，用于从所述多个缩小后的待处理图像中筛选满足预设分辨率的目标处理图像；

所述融合单元，用于对所述目标处理图像进行特征融合，得到融合后的图像；

所述检测单元12，用于对所述融合后的图像进行多层手部检测，得到所述手部检测框。

在本申请的一些实施例中，所述目标处理图像的数量为多个，多个目标处理图像的像素不同；

所述融合单元，用于按照像素自下而上的融合方式和/或像素自上而下的融合方式对所述多个目标处理图像的像素特征进行融合，得到所述融合后的图像。

在本申请的一些实施例中，所述检测单元12，用于对所述融合后的图像进行多层手部检测，得到多个检测框；

所述筛选单元，用于从所述多个检测框中筛选手部检测框。

在本申请的一些实施例中，所述处理单元11，用于对所述待处理图像进行预处理，得到预处理后的待处理图像；利用所述多个预设图像缩小规则分别对所述预处理后的待处理图像进行处理，得到所述多个缩小后的待处理图像。

在本申请的一些实施例中，所述装置还包括调整单元；

所述处理单元11，用于按照多个预设图像缩小规则分别对所述手部区域图像进行处理，得到多个缩小后的手部图像；

所述融合单元，用于对所述多个缩小后的手部图像进行像素融合处理，得到融合后的手部图像；

所述调整单元，用于调整所述融合后的手部图像的图像分辨率，得到调整图像；

所述确定单元14，用于根据所述调整图像确定所述目标手势。

在本申请的一些实施例中，所述装置还包括激活单元；

所述调整单元，用于按照预设通道数量调整所述调整图像的通道数，得到预设通道数量的调整图像；

所述激活单元，用于对所述预设通道数量的调整图像进行激活处理，得到预设数量的识别置信度；

所述筛选单元，用于从所述预设数量的识别置信度中筛选出置信度值最大的目标置信度；

所述确定单元14，用于根据所述目标置信度对应的目标调整图像确定所述目标手势。

在本申请的一些实施例中，所述调整单元，用于按照预设像素调整要求，调整所述对所述手部区域图像的像素，得到调整后的手部区域图像；

所述处理单元11，用于利用所述多个预设图像缩小规则分别对所述调整后的手部区域图像进行处理，得到所述多个缩小后的手部图像。

需要说明的是，在实际应用中，上述处理单元11、检测单元12、获取单元13和确定单元14可由手势识别装置1上的处理器15实现，具体为CPU(Central Processing Unit，中央处理器)、MPU(Microprocessor Unit，微处理器)、DSP(Digital Signal Processing，数字信号处理器)或现场可编程门阵列(FPGA，Field Programmable Gate Array)等实现；上述数据存储可由手势识别装置1上的存储器16实现。

本申请实施例还提供了一种手势识别装置1，如图7所示，所述手势识别装置1包括：处理器15、存储器16和通信总线17，所述存储器16通过所述通信总线17与所述处理器15进行通信，所述存储器16存储所述处理器15可执行的程序，当所述程序被执行时，通过所述处理器15执行如上述所述的手势识别方法。

在实际应用中，上述存储器16可以是易失性存储器(volatile memory)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard DiskDrive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器15提供指令和数据。

本申请实施例提供了一种计算机可读存储介质，其上有计算机程序，所述程序被处理器15执行时实现如上述所述的手势识别方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种手势识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述多个缩小后的待处理图像进行手部检测，得到手部检测框，包括：

从所述多个缩小后的待处理图像中筛选满足预设分辨率的目标处理图像；

对所述目标处理图像进行特征融合，得到融合后的图像；

对所述融合后的图像进行多层手部检测，得到所述手部检测框。

3.根据权利要求2所述的方法，其特征在于，所述目标处理图像的数量为多个，多个目标处理图像的像素不同，所述对所述目标处理图像进行特征融合，得到融合后的图像，包括：

按照像素自下而上的融合方式和/或像素自上而下的融合方式对所述多个目标处理图像的像素特征进行融合，得到所述融合后的图像。

4.根据权利要求2所述的方法，其特征在于，所述对所述融合后的图像进行多层手部检测，得到所述手部检测框，包括：

对所述融合后的图像进行多层手部检测，得到多个检测框；

从所述多个检测框中筛选手部检测框。

5.根据权利要求1所述的方法，其特征在于，所述按照多个预设图像缩小规则分别对所述待处理图像进行处理，得到多个缩小后的待处理图像，包括：

对所述待处理图像进行预处理，得到预处理后的待处理图像；

利用所述多个预设图像缩小规则分别对所述预处理后的待处理图像进行处理，得到所述多个缩小后的待处理图像。

6.根据权利要求1所述的方法，其特征在于，所述根据所述手部区域图像，确定出所述待处理图像中的目标手势，包括：

按照多个预设图像缩小规则分别对所述手部区域图像进行处理，得到多个缩小后的手部图像；

对所述多个缩小后的手部图像进行像素融合处理，得到融合后的手部图像；

调整所述融合后的手部图像的图像分辨率，得到调整图像；

根据所述调整图像确定所述目标手势。

7.根据权利要求6所述的方法，其特征在于，所述根据所述调整图像确定所述目标手势，包括：

按照预设通道数量调整所述调整图像的通道数，得到预设通道数量的调整图像；

对所述预设通道数量的调整图像进行激活处理，得到预设数量的识别置信度；

从所述预设数量的识别置信度中筛选出置信度值最大的目标置信度，并根据所述目标置信度对应的目标调整图像确定所述目标手势。

8.根据权利要求6所述的方法，其特征在于，所述按照多个预设图像缩小规则分别对所述手部区域图像进行处理，得到多个缩小后的手部图像，包括：

按照预设像素调整要求，调整所述对所述手部区域图像的像素，得到调整后的手部区域图像；

利用所述多个预设图像缩小规则分别对所述调整后的手部区域图像进行处理，得到所述多个缩小后的手部图像。

9.一种手势识别装置，其特征在于，所述装置包括：

10.一种手势识别装置，其特征在于，所述装置包括：

存储器、处理器和通信总线，所述存储器通过所述通信总线与所述处理器进行通信，所述存储器存储所述处理器可执行的手势识别的程序，当所述手势识别的程序被执行时，通过所述处理器执行如权利要求1至8任一项所述的方法。

11.一种存储介质，其上存储有计算机程序，应用于手势识别装置，其特征在于，该计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。