CN109902577A

CN109902577A - 一种轻量级手势检测卷积神经网络模型的构建方法及应用

Info

Publication number: CN109902577A
Application number: CN201910073274.6A
Authority: CN
Inventors: 彭刚; 任振宇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-06-18

Abstract

本发明涉及一种轻量级手势检测卷积神经网络模型的构建方法及应用，包括：基于SqueezeNet卷积神经网络架构和SSD多目标检测卷积神经网络架构，构建轻量级手势检测卷积神经网络框架；获取手势图片和背景图片，基于背景图片，对手势图片进行图像数据增强及图片合成处理，制得手势数据集；基于公开数据集和手势数据集，训练轻量级手势检测卷积神经网络框架，得到轻量级手势检测卷积神经网络模型。本发明将少量手势数据高速扩充为包含大量图片数据的手势数据集，解决了难以获取大量高质量手势图片数据的技术问题，另外，结合SqueezeNet卷积神经网络架构和SSD多目标检测卷积神经网络架构，构建的轻量级手势检测卷积神经网络模型占用计算资源少，可应用于多种检测平台。

Description

一种轻量级手势检测卷积神经网络模型的构建方法及应用

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种轻量级手势检测卷积神经网络模型的构建方法及应用。

背景技术

手势操作是实现人机交互的一种简单快捷的途径，传统手势检测算法大多基于SVM(Support Vector Machine，支持向量机)，这类方法首先会提取图片中的手势特征，然后通过SVM分类器对各类手势进行分类。这类方法通常难以提取各类手势的显著特征，导致训练所得手势检测模型的泛化能力较差。

近年来，随着硬件设备的计算能力大幅提升，深度卷积神经网络算法随着硬件资源的壮大也得到了快速的发展。基于卷积神经网络的手势检测算法拥有非常强大的特征提取能力，能够在各类复杂的环境中准确检测各种手势。现有的这种手势检测卷积神经网络算法部署于PC平台上，能够满足实时性和准确性的要求，但在嵌入式系统平台上部署现有的手势检测卷积神经网络算法，由于受到处理器频率、内存大小等计算资源的限制，很难满足实时手势检测的要求。

目前大部分卷积神经网络算法不仅对平台硬件资源有着很高的要求，而且对用于模型训练的数据集大小以及数据集质量同样有着很高的要求，制作大量的高质量手势图片数据集，以完成泛化能力较强的手势检测卷积神经网络模型的训练非常关键。然而，数据集的制作是一件非常耗时的工作，成为在嵌入式系统中部署手势检测卷积神经网络算法的一大技术壁垒。

发明内容

本发明提供一种轻量级手势检测卷积神经网络模型的构建方法及应用，用以解决现有手势检测卷积神经网络模型的因训练用图片数据制作耗时及计算量大导致的网络模型应用受限的问题。

本发明解决上述技术问题的技术方案如下：一种轻量级手势检测卷积神经网络模型的构建方法，包括：

步骤1、基于SqueezeNet卷积神经网络架构和SSD多目标检测卷积神经网络架构，构建轻量级手势检测卷积神经网络框架；

步骤2、获取预设数量的手势图片和背景图片，基于所述背景图片，对所述手势图片进行图像数据增强及图片合成处理，制得手势数据集；

步骤3、基于公开数据集和所述手势数据集，训练所述轻量级手势检测卷积神经网络框架，得到轻量级手势检测卷积神经网络模型。

本发明的有益效果是：本发明通过图片合成、数据增强等方法，将少量手势数据高速扩充为包含大量图片数据的手势数据集，解决了在轻量级手势检测卷积神经网络模型构建过程中难以获取大量高质量手势图片数据的技术问题，另外，本发明结合SqueezeNet卷积神经网络架构和SSD多目标检测卷积神经网络架构，构建的轻量级手势检测卷积神经网络模型，占用计算资源少，适用于多种检测平台。

进一步，所述步骤1包括：

构建特征提取模块，所述特征提取模块包括：按照预设顺序连接的多个第一卷积核、多个池化单元和多个SqueezeNet卷积神经网络架构的轻量级卷积模块，用于对待处理图片进行卷积以及池化操作，以得到多尺度下的多张特征图；

构建特征匹配模块，所述特征匹配模块包括：依次连接的先验框生成单元、卷积滤波器和融合单元，用于基于所述多张特征图，对所述待处理图片中的检测目标进行预测，其中，所述先验框生成单元为SSD多目标检测卷积神经网络架构的先验框生成单元。

本发明的进一步有益效果是：本发明利用SqueezeNet卷积神经网络架构中的轻量级卷积模块，作为特征提取模块，结合传统SSD多目标检测算法的先验框生成算法，构建一种轻量级的手势检测卷积神经网络框架SqueezeNet-SSD，整个网络框架在占用少量计算资源的同时具有很好的特征提取和特征匹配能力，即使手势在类肤色场景、过人脸场景等检测难度较大的复杂应用场景中，依然能够准确地检测视频流中的各类手势，可以满足实际应用场景中对手势检测准确性和适应性的要求。

进一步，所述卷积滤波器包括多个依次连接的第二卷积核；

所述特征匹配模块中，所述先验框生成单元，用于生成每张所述特征图对应的多个先验框；

所述卷积滤波器，用于基于所述多个第二卷积核对每个所述先验框所覆盖的区域进行卷积操作，得到第一预测信息，所述第一预测信息包括所述多张特征图中每个所述先验框对应的坐标、手势类型和置信度；

所述融合单元，用于根据每个所述特征图与所述待处理图片的尺寸关系以及每个所述先验框的坐标，将每个所述先验框映射到所述待处理图片中，得到位于所述待处理图片中的与每个所述先验框一一对应的候选框，并基于每个所述先验框对应的所述第一预测信息，得到该先验框对应的候选框的第二预测信息，完成对所述待处理图片中的检测目标的预测，所述第二预测信息包括每个所述候选框对应的坐标、手势类型和置信度。

本发明的进一步有益效果是：本发明中构建的轻量级的手势检测卷积神经网络框架与其他常见的卷积神经网络框架相比，网络层数少、参数少、计算量小，在占用少量计算资源的同时运行速度快，可以应用于计算资源受限的嵌入式系统平台上，满足实时手势检测的要求。

进一步，所述图像数据增强处理包括：图像水平翻转处理、图像缩放处理、图像旋转处理、图像拉伸处理、亮度调整处理、对比度调整处理、高斯模糊处理和/或添加椒盐噪声处理。

本发明的进一步有益效果是：对图像进行图像水平翻转处理、图像缩放处理、图像旋转处理、图像拉伸处理、亮度调整处理、对比度调整处理、高斯模糊处理和/或添加椒盐噪声处理等增强处理，可以基于小数量手势图片获取包含大量高质量图片的手势数据集，解决了在手势检测卷积神经网络框架训练过程中存在的图像数据量匮乏、图像数据处理速度慢等问题。

进一步，所述公开数据集包括手势图片数据和/或非手势图片数据。

本发明的进一步有益效果是：公开数据集可以为任意图像数据构成的数据集，用于训练轻量级手势检测神经网络框架，该公开数据集易于获得。

进一步，所述步骤3包括：

采用公开数据集对所述轻量级手势检测神经网络框架进行预训练，得到轻量级手势检测卷积神经网络模型及其基础权重；

采用所述手势数据集对所述基础权重进行调整，得到新的轻量级手势检测卷积神经网络模型。

本发明的进一步有益效果是：先使用大型的公开数据集对轻量级手势检测神经网络框架SqueezeNet-SSD进行预训练，得到神经网络模型的基础权重，使用自制的手势数据集对神经网络模型的基础权重进行微调，得到泛化能力更好的手势检测卷积神经网络模型。需要说明的是，当需要添加手势类型时，先进行数据集扩充，然后在原手势检测卷积神经网络模型权重的基础上再进行微调，从而在保证模型泛化能力的同时，快速训练适用于更多手势类型的新网络模型。

进一步，所述步骤2包括：

根据待检测的手势类型，获取预设数量的手势图片；

对所述手势图片进行剪裁，得到每张所述手势图片对应的手部区域图片；

对每张所述手部区域图片进行图像数据增强处理，得到该手部区域图片对应的多张手部区域增强图片；

获取背景图片并根据其尺寸，对每张所述手部区域增强图片进行缩放，并根据缩放后的手部区域增强图片中手部区域轮廓获取其对应的掩码图片；

根据所述掩码图片的尺寸及二值信息，将所述缩放后的手部区域增强图片与背景图片中的感兴趣区域进行合成，得到合成手势图片；

对所述合成手势图片进行图像数据增强处理，得到合成手势增强图片；

根据所述手部区域增强图片中的手势类型和所述感兴趣区域的坐标信息，得到所述合成手势增强图片的xml格式标注文件，完成手势数据集制作。

本发明的进一步有益效果：优化传统的数据采集和标注过程，通过图片合成、数据增强等方法制作手势数据集，能够将少量手势数据快速扩充为大型手势数据集。另外，在图片合成的过程中自动生成对应的xml格式标注文件，省去了图片标注过程，从而极大地降低了数据准备的工作量。该方法有效地解决了手势图片数据匮乏导致的卷积神经网络模型过拟合问题，大幅提高了训练所得手势检测卷积神经网络模型的准确率和鲁棒性。

本发明还提供一种基于如上所述的构建方法构建的轻量级手势检测卷积神经网络模型的手势检测方法，包括：

步骤1、获取待处理图像并对其进行缩放和均值处理，得到预处理图像；

步骤2、通过如上所述的构建方法构建得到的轻量级手势检测卷积神经网络模型，计算得到与所述预处理图像中每个手势区域匹配的多个候选框及其对应的坐标、手势类型和置信度；

步骤3、根据每个所述手势区域的所述多个候选框的坐标和置信度，基于非极大值抑制算法，对每个所述手势区域对应的多个候选框进行筛选，得到所述待处理图像中每个手势区域的坐标、手势类型和置信度。

本发明的有益效果是：将上述的轻量级手势检测神经网络模型应用于嵌入式系统中，进行手势检测，能够克服手势图片数据的匮乏导致的模型过拟合问题，同时还保证了实际应用场景中对算法模型准确率和实时性的要求，可以用于实时地检测视频流中的多个手势、多种手势以及不同手型的同一手势，并标注出各个手势的类别、位置以及置信度信息，具有很好的实际应用价值，解决了难以在计算资源受限的嵌入式系统平台上，进行实时手势检测的技术问题。

进一步，所述步骤2包括：

所述轻量级手势检测卷积神经网络模型获取所述预处理图像，并对所述预处理图像进行卷积和池化操作，得到多尺度下的多张特征图；

根据每张所述特征图的尺寸，生成每张所述特征图中每个手势区域对应的多个先验框；

对每个所述先验框所覆盖的区域进行卷积操作，得到第三预测信息，所述第三预测信息包括所述多张特征图中每个所述先验框对应的坐标、手势类型和置信度；

根据每个所述特征图与所述预处理图像的尺寸关系以及每个所述先验框的坐标，将每个所述先验框映射到所述预处理图像中，得到位于所述预处理图像中的与每个所述先验框一一对应的候选框，并基于每个所述先验框对应的所述第三预测信息，得到该先验框对应的候选框的第四预测信息，完成对所述预处理图像中的检测目标的预测，所述第四预测信息包括每个所述候选框对应的坐标、手势类型和置信度。

本发明的进一步有益效果：采用上述构建的轻量级的手势检测卷积神经网络框架，因为网络层数少、参数少、计算量小，在占用少量计算资源的同时运行速度快，可以应用于计算资源受限的嵌入式系统平台上，并能够准确定位和识别同一张图片中的多种手势以及多个手势。

本发明还提供一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上所述的轻量级手势检测卷积神经网络模型的构建方法和/或如上所述的手势检测方法。

附图说明

图1为本发明一个实施例提供的一种轻量级手势检测卷积神经网络模型的构建方法的流程示意图；

图2为本发明另一实施例提供的轻量级手势检测卷积神经网络框架SqueezeNet-SSD的结构图；

图3为本发明另一实施例提供的手势合成图片的制作流程图；

图4为本发明一个实施例提供的一种手势检测方法的流程示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例一

一种轻量级手势检测卷积神经网络模型的构建方法100，如图1所示，包括：

步骤110、基于SqueezeNet卷积神经网络架构和SSD多目标检测卷积神经网络架构，构建轻量级手势检测卷积神经网络框架；

步骤120、获取预设数量的手势图片和背景图片，基于背景图片，对手势图片进行图像数据增强及图片合成处理，制得手势数据集；

步骤130、基于公开数据集和手势数据集，训练轻量级手势检测卷积神经网络框架，得到轻量级手势检测卷积神经网络模型。

本实施例基于SqueezeNet卷积神经网络架构和SSD多目标检测卷积神经网络架构，构建的轻量级手势检测卷积神经网络框架，其占用计算资源少，可应用于计算资源受限的嵌入式系统平台，并进行实时手势检测；另外，步骤2中通过数据增强、图片合成等方法，将少量手势数据高速扩充为包含大量高质量图片数据的手势数据集，应用在轻量级手势检测卷积神经网络模型构建过程中，可提高轻量级手势检测卷积神经网络模型的构建速度、应用范围以及对检测目标的检测精度。

实施例二

在实施例一的基础上，步骤110包括：

构建特征提取模块，该特征提取模块包括：按照预设顺序连接的多个第一卷积核、多个池化单元和多个SqueezeNet卷积神经网络架构的轻量级卷积模块，用于对待处理图片进行卷积以及池化操作，以得到多尺度下的多张特征图；

构建特征匹配模块，该特征匹配模块包括：依次连接的先验框生成单元、卷积滤波器和融合单元，用于基于多张特征图，对待处理图片中的检测目标进行预测。

优选的，先验框生成单元采用SSD多目标检测卷积神经网络架构的先验框生成单元。

需要说明的是，轻量级卷积模块可以降低轻量级手势检测神经网络模型的参数量，从而提高网络模型的运行速度。训练后所得轻量级手势检测神经网络模型通过第一卷积核和轻量级卷积模块对图片进行多次卷积操作，每次卷积操作均会得到一张特征图，其中，随着卷积操作次数的增加，特征图的尺寸会缩小，最终得到的是多张不同尺寸的特征图，因而称其为多尺度下的多张特征图。第一卷积核可为3×3卷积核。

池化单元放在卷积操作之后，作用是降低卷积操作得到的特征图的尺度，目的为降低训练后所得模型的参数量，并防止过拟合，提高卷积神经网络模型的泛化能力。

另外，融合单元的作用是将多张特征图中的同一检测目标对应的每个先验框映射到待处理图像中，得到该先验框在待处理图像中的坐标、手势类型和置信度。

整个网络框架在占用少量计算资源的同时具有很好的特征提取能力，即使在类肤色场景、过人脸场景等检测难度较大的复杂应用场景中，依然能够准确地检测视频流中的各类手势，可以满足实际应用场景中对手势检测准确性的要求。

实施例三

在实施例一或实施例二的基础上，卷积滤波器包括多个依次连接的第二卷积核；则特征提取模块中，多个第一卷积核、多个池化单元、多个SqueezeNet卷积神经网络架构的轻量级卷积模块用于按照预设顺序对输入图片进行卷积和池化操作，以得到多尺度下的多张特征图。

特征匹配模块中，先验框生成单元采用SSD多目标检测卷积神经网络架构的先验框生成单元，用于生成每张特征图对应的多个先验框；卷积滤波器，用于基于多个第二卷积核对每个先验框所覆盖的区域进行卷积操作，得到第一预测信息，第一预测信息包括多张特征图中每个先验框对应的坐标、手势类型和置信度；融合单元，用于根据每个特征图与待处理图片的尺寸关系以及每个先验框的坐标，将每个先验框映射到待处理图片中，得到位于待处理图片中的与每个先验框一一对应的候选框，并基于每个先验框对应的第一预测信息，得到该先验框对应的候选框的第二预测信息，完成对待处理图片中的检测目标的预测，第二预测信息包括每个候选框对应的坐标、手势类型和置信度。

需要说明的是，融合单元根据各特征图与输入图片的尺寸关系以及先验框的坐标信息，将各特征图中的先验框映射到待处理图像中，先验框映射到待处理图像中后，称之为候选框。先验框处于特征图中，而候选框处于待处理图像中，它们是一一对应的，它们对应的手势类型和置信度也是一致的。

例如，接收一尺寸为300×300像素的图片，使用单层卷积层(包含一个3×3卷积核)、池化层、轻量级卷积层(包含一个轻量级卷积模块)构建特征提取模块，搭建该图片多尺度下的特征图，特征提取模块中各网络层的连接关系如附图2所示。其中，轻量级卷积层即附图2中所示fire1～fire11，轻量级卷积模块由1×1以及3×3的卷积核组成，目的为大幅降低网络参数量，加快网络运行速度。

需要说明的是，非轻量级卷积模块一般由3×3以及5×5的卷积核组成，由其构建的网络参数量较多，相比使用轻量级卷积模块构建的网络，运行速度慢。

具体的，多个第一卷积核和多个SqueezeNet卷积神经网络架构的轻量级卷积模块用于按照预设顺序对输入图片进行卷积操作，那么第一卷积核和轻量级卷积模块的连接顺序如图2所示，即连接顺序为input(image)→conv1→fire2→fire3→pool3→fire4→fire5→pool5→fire6→fire7→fire8→fire9→pool9→fire10→pool10→fire11→conv12→conv13→conv14→conv15→output。其中conv1、conv11、conv12、conv13、conv14是由3×3的卷积核构成的卷积层，每一个conv卷积层包含一个大小为3×3的卷积核。fire2、fire3、fire4、fire5、fire6、fire7、fire8、fire9、fire10、fire11为由轻量级卷积模块构成的卷积层(可称之为轻量级卷积层)，每一个fire卷积层包含一个轻量级卷积模块。

对pool(池化)层的说明：池化操作的作用是在保留图像主要特征的前提下，降低卷积操作得到的特征图的尺度，从而降低训练后所得模型参数量，并防止过拟合，提高模型的泛化能力。Pool层通常放在卷积操作后，起辅助作用。

使用先验框生成单元、卷积滤波器和融合单元构建特征匹配模块，用于fire5、fire9、fire10、fire11、conv13、conv15这六个网络层输出的特征图，对所述待处理图片中的检测目标进行预测。其中特征匹配模块即附图2中所示Multibox detector。

先验框生成单元采用SSD多目标检测卷积神经网络架构的先验框生成单元。

需要说明的是，轻量级卷积模块中的卷积核与conv层卷积核只有大小尺寸上的区别，前述conv层卷积核大小均为3×3，轻量级卷积模块中包含1×1以及3×3两种尺寸的卷积核。

本实施例中构建的轻量级手势检测卷积神经网络框架与其他常见的卷积神经网络框架相比，网络层数少、参数少、计算量小，且具有较强的图像特征提取能力，在占用少量计算资源的同时运行速度快，可以应用于计算资源受限的嵌入式系统平台上，满足实时手势检测的要求。因而能够在实际使用场景中实时地对图片中各目标进行准确的分类和定位。

实施例四

在实施例一至实施例三中任一实施例的基础上，图像数据增强处理包括：图像水平翻转处理、图像缩放处理、图像旋转处理、图像拉伸处理、亮度调整处理、对比度调整处理、高斯模糊处理和/或添加椒盐噪声处理。

对图像进行图像水平翻转处理、图像缩放处理、图像旋转处理、图像拉伸处理、亮度调整处理、对比度调整处理、高斯模糊处理和/或添加椒盐噪声处理等增强处理，可以基于小数量手势图片获取包含大量高质量图片的手势数据集，解决了在手势检测卷积神经网络框架训练过程中存在的图像数据量匮乏、图像数据处理速度慢等的问题。

实施例五

在实施例一至实施例四中任一实施例的基础上，公开数据集包括手势图片数据和/或非手势图片数据。

公开数据集可以为任意图像数据构成的数据集，用于训练轻量级手势检测神经网络框架，该公开数据集易于获得。

实施例六

在实施例一至实施例五中任一实施例的基础上，步骤130包括：

采用公开数据集对轻量级手势检测神经网络框架进行预训练，得到轻量级手势检测卷积神经网络模型及其基础权重；

采用手势数据集对基础权重进行调整，得到新的轻量级手势检测卷积神经网络模型。

本实施例先使用大型的公开数据集对轻量级手势检测神经网络框架SqueezeNet-SSD进行预训练，得到神经网络模型的基础权重，使用自制的手势数据集对神经网络模型的基础权重进行微调，得到泛化能力更好的手势检测卷积神经网络模型。

需要说明的是，当需要增加网络模型可检测的手势类型时，先进行手势数据集扩充，然后在原手势检测卷积神经网络模型权重的基础上再进行微调，从而在保证模型泛化能力的同时，快速训练适用于更多手势类型的新网络模型。

实施例七

在实施例一至实施例六中任一实施例的基础上，步骤120包括：

步骤121、根据待检测的手势类型，获取预设数量的手势图片；

步骤122、对手势图片进行剪裁，得到每张手势图片对应的手部区域图片；

步骤123、对每张手部区域图片进行图像数据增强处理，得到该手部区域图片对应的多张手部区域增强图片；

步骤124、获取背景图片并根据其尺寸，对每张手部区域增强图片进行缩放，并根据缩放后的手部区域增强图片中手部区域轮廓获取其对应的掩码图片；

步骤125、根据所述掩码图片的尺寸及二值信息，将所述缩放后的手部区域增强图片与背景图片中的感兴趣区域进行合成，得到合成手势图片；

步骤126、对合成手势图片进行图像数据增强处理，得到合成手势增强图片；

步骤127、根据手部区域增强图片中的手势类型和感兴趣区域的坐标信息，得到合成手势增强图片的xml格式标注文件，完成手势数据集制作。

需要说明的是，步骤124中，在获取背景图片时，可先对图片预处理，具体包括：根据实际需要，采集预设种类和数量的背景图数据，对背景图数据进行筛选、剪裁、缩放和/或重命名，得到用于手势数据集制作的背景图片。

另外，在步骤124中根据背景图片对手部区域增强图片进行缩放、图片合成等处理时，每一张手部增强图片可对应一张背景图片，即每张手部增强图片对应的背景图片不同。

因此，步骤124可具体为：获取每张手部区域增强图片对应的背景图片；根据该张手部区域增强图片的尺寸、该背景图片的尺寸和预设合并比例，对该张手部区域增强图片进行缩放，并根据该缩放后的手部区域增强图片中的手部区域最大轮廓，计算得到手部区域最大轮廓对应的掩码图片。则步骤125具体可为：根据手部区域增强图片的尺寸，随机提取出背景图片中的感兴趣区域；根据所述掩码图片的尺寸及二值信息，将缩放后的手部区域增强图片与背景图片中的感兴趣区域进行合成，得到合成手势图片。

例如，如图3所示，根据背景图片和手势图尺寸，对手势图1进行缩放得到手势图2，并对其进行各类图像数据增强处理。通过轮廓提取算法找到手势图2中的最大轮廓，并将其内部填充为白色像素外部填充为黑色像素，从而得到手势掩码1。再对手势掩码1进行取反操作，得到手势掩码2。根据掩码2尺寸随机扣取背景图片中的感兴趣区域，对手势掩码2和背景图片感兴趣区域进行与运算，抠去背景图感兴趣区域中的手势区域，再将手势图2与背景图感兴趣区域进行或运算，使用得到的合成感兴趣区域替换原始背景图中的感兴趣区域，并进行图像数据增强处理得到合成手势图片。

另外，步骤127中，根据各手部区域增强图片的手势类型以及对应的背景图感兴趣区域的坐标信息，生成合成手势增强图片的xml格式标注文件，最后将合成手势增强图片和对应的xml格式标注文件进行整理，得到自制的手势数据集，完成在小数据的基础上快速制作用于轻量级手势检测卷积神经网络框架训练的大型数据集。

优化传统的数据采集和标注过程，通过图片合成、数据增强等方法制作手势数据集，能够将少量手势数据快速扩充为大型手势数据集。其中，在图片合成的过程中自动生成对应的xml格式标注文件，省去了图片标注过程，从而极大地降低了数据准备的工作量。本实施例有效地解决了手势图片数据匮乏导致的卷积神经网络模型过拟合问题，大幅提高了训练所得手势检测卷积神经网络模型的准确率和鲁棒性。

在数据采集过程中，可以针对特定的场景添加手势图片数据，重复执行步骤121～步骤127，进行手势数据集更新，以满足不同的目标检测要求。

实施例八

一种基于实施例一至实施例七中任一实施例所述的构建方法构建得到的轻量级手势检测卷积神经网络模型，进行手势检测的方法流程200，如图4所示，包括：

步骤210、获取待处理图像并对其进行缩放和均值处理，得到预处理图像。

步骤220、通过如实施例一至实施例七中任一实施例所述的构建方法构建得到的轻量级手势检测卷积神经网络模型，计算得到与预处理图像中每个手势区域匹配的多个候选框及其对应的坐标、手势类型和置信度。

步骤230、根据每个手势区域的多个候选框的坐标和置信度，基于非极大值抑制算法，对每个手势区域对应的多个候选框进行筛选，得到待处理图像中每个手势区域的坐标、手势类型和置信度。

需要说明的是，具体的，在计算资源受限的嵌入式系统中，通过摄像头实时采集原始图像，并可将原始图像缩放到300×300像素，再将缩放后的图像减去一个固定的样本均值，得到预处理图像。

步骤230中，使用非极大抑制算法，对步骤220中得到的多个匹配的先验框，根据得分高低进行排序，计算每个手势对应的最高分预测框与该手势对应的其他预测框的重叠度，若重叠度超过一定阈值则去除此预测框，重复上述操作，对剩余预测框进行排序和筛选，最后得到该手势在原始图像中的坐标以及对应的手势类型和置信度。

例如，本实施例使用的轻量级手势检测卷积神经网络框架SqueezeNet-SSD的网络层数为158层，模型文件大小为：14.4MB。使用上述实施例训练所得的轻量级手势检测卷积神经网络模型，正向传播过程运算量非常小，在CPU主频为1.2GHZ，内存为1GB的基于ARMCortex A53的嵌入式系统平台上，方法运行速度不超过1秒，达到了手势检测算法在嵌入式系统平台中实时运行的要求，在测试集中获得了99.9％的检测准确率，并且在实际使用场景中能够准确、实时地检测视频流中的多种手势、多个手势以及不同手型的同一手势。

由此可见，使用实施例一至实施例七中任一实施例所述的轻量级手势检测神经网络模型，应用于嵌入式系统中，进行手势检测，能够克服手势图片数据的匮乏导致的模型过拟合问题，同时还保证了实际应用场景中对算法模型准确率和实时性的要求，具有很好的实际应用价值。可以用于实时地检测视频流中的多个手势、多种手势以及不同手型的同一手势，并标注出各个手势的类别、位置以及置信度信息。

实施例九

在实施例八的基础上，步骤220包括：

轻量级手势检测卷积神经网络模型获取所述预处理图像，并对预处理图像进行卷积和池化操作，得到多尺度下的多张特征图；

根据每张特征图的尺寸，生成每张特征图中每个手势区域对应的多个先验框；

对每个先验框所覆盖的区域进行卷积操作，得到第三预测信息，第三预测信息包括多张特征图中每个先验框对应的坐标、手势类型和置信度；

根据每个特征图与预处理图像的尺寸关系以及每个先验框的坐标，将每个先验框映射到预处理图像中，得到位于预处理图像中的与每个先验框一一对应的候选框，并基于每个先验框对应的第三预测信息，得到该先验框对应的候选框的第四预测信息，完成对预处理图像中的检测目标的预测，第四预测信息包括每个候选框对应的坐标、手势类型和置信度。

采用上述构建的轻量级的手势检测卷积神经网络框架，因为网络层数少、参数少、计算量小，在占用少量计算资源的同时运行速度快，可以应用于计算资源受限的嵌入式系统平台上，并能够准确定位和识别同一张图片中的多种手势以及多个手势。

实施例十

一种存储介质，该存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如实施例一至实施例七中任一实施例所述的轻量级手势检测卷积神经网络模型的构建方法和/或如实施例八或实施例九任一实施例所述的手势检测方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种轻量级手势检测卷积神经网络模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的一种轻量级手势检测卷积神经网络模型的构建方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的一种轻量级手势检测卷积神经网络模型的构建方法，其特征在于，所述卷积滤波器包括多个依次连接的第二卷积核；

所述特征匹配模块中，所述先验框生成单元用于生成每张所述特征图对应的多个先验框；

4.根据权利要求1所述的一种轻量级手势检测卷积神经网络模型的构建方法，其特征在于，所述图像数据增强处理包括：图像水平翻转处理、图像缩放处理、图像旋转处理、图像拉伸处理、亮度调整处理、对比度调整处理、高斯模糊处理和/或添加椒盐噪声处理。

5.根据权利要求1所述的一种轻量级手势检测卷积神经网络模型的构建方法，其特征在于，所述公开数据集包括手势图片数据和/或非手势图片数据。

6.根据权利要求1所述的一种轻量级手势检测卷积神经网络模型的构建方法，其特征在于，所述步骤3包括：

7.根据权利要求1至6任一项所述的一种轻量级手势检测卷积神经网络模型的构建方法，其特征在于，所述步骤2包括：

根据待检测的手势类型，获取预设数量的手势图片；

获取背景图片并根据其尺寸，对每张所述手部区域增强图片进行缩放，并根据缩放后的手部区域增强图片中手部区域轮廓计算得到其对应的掩码图片；

8.一种基于权利要求1至7任一项所述的构建方法构建得到的轻量级手势检测卷积神经网络模型的手势检测方法，其特征在于，包括：

步骤2、通过权利要求1至7任一项所述的构建方法构建得到的轻量级手势检测卷积神经网络模型，计算得到与所述预处理图像中每个手势区域匹配的多个候选框及其对应的坐标、手势类型和置信度；

9.根据权利要求8所述的手势检测方法，其特征在于，所述步骤2包括：

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至7中任一项所述的轻量级手势检测卷积神经网络模型的构建方法和/或如权利要求8至9任一项所述的手势检测方法。