CN111401293B

CN111401293B - 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法

Info

Publication number: CN111401293B
Application number: CN202010218568.6A
Authority: CN
Inventors: 徐好好; 单志勇; 徐超
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2022-06-24
Anticipated expiration: 2040-03-25
Also published as: CN111401293A

Abstract

本发明涉及一种基于Head轻量化Mask Scoring R‑CNN的手势识别方法，在原始Mask Scoring R‑CNN主干网络的输出特征图之后引入一个轻量化的位置敏感得分图和位置敏感RoIAlign，使得Head结构的输入RoI通道数变得很小，并且将Head结构中连续的两个全连接层改为单个全连接层来减少计算量。本发明以DetNet59结合FPN作为主干网络，使得提取的多尺度特征图能够同时包含丰富的语义信息和位置信息并且能够适应各种尺寸的物体进行检测。经本发明改进后的实例分割模型在平均精准度上得到明显提升，模型参数数量得到有效降低，模型的训练和检测速度得到了有效提高。

Description

一种基于Head轻量化Mask Scoring R-CNN的手势识别方法

技术领域

本发明涉及一种基于Head轻量化Mask Scoring R-CNN的手势识别方法，属于计算机视觉和深度学习领域。

背景技术

手势识别是计算机视觉领域的一个重要分支，其核心是使用‘机器眼’来代替人眼识别图像或视频采集装置中的手部姿势，将采集到的图像或视频输入到视觉算法中进行计算，最终得到手部信息。这里提到的视觉算法有很多种，例如，传统的图像处理方法以及近些年的深度学习方法等。在深度学习出现以前，传统的图像处理和机器学习方法并不能很好地完成一个简单的图像分类任务，而深度学习的出现使得计算机有了达到人类水平的可能。事实上，AlphaGo的出现已经证明了在一些领域，计算机有了超越人类的能力。

计算机视觉包含几类基础任务：图像分类，目标检测，语义分割，实例分割，目标跟踪等。基于深度学习的计算机视觉模型往往可以取得更高精度的预测结果，其主要包括以SSD，YOLO为代表的一阶段检测模型，和以R-CNN系列为代表的二阶段检测模型。一阶段的检测模型是直接对锚框进行预测的，而二阶段的检测模型首先通过RPN生成候选区域，然后对候选区域进行预测。

Girshick R，Donahue J等人提出的R-CNN模型首先通过选择性搜索生成2000个RoI，然后将全部的RoI通过主干网络提取特征，最后通过SVM分类器和回归模型进行分类和边界框预测，但是R-CNN的速度很慢，训练和预测过程都需要将上千个RoI全部通过主干网络获取特征，这个步骤将花费大量的时间，在实际应用中无法做到实时性检测，并且主干网络，分类器和回归模型均单独训练，主干网络的参数不会因训练SVM和回归模型而更新，这导致模型检测精度不够高。Girshick R提出的Fast R-CNN将RoI共享主干网络卷积计算，只需要将原图进行一次前向传播获取特征图，RoI在特征图对应位置上提取特征即可，引入RoI Pooling将RoI统一到相同尺寸使得分类和回归部分可以同主干网络一起训练，但是前期的选择性搜索仍然占用了大部分计算时间。何凯明等人提出的Faster R-CNN引入了RPN网络，将提取提议区域的过程设计为一个小型的全卷积网络放入整个模型与其他部分一起训练，真正做到了端到端的目标检测框架。何凯明等人基于Faster R-CNN提出了实例分割框架Mask R-CNN，在Head部分加入了Mask Head，用一个简易的FCN结构做到了掩码预测，同时用RoIAlign代替了RoI Pooling解决了RoI Pooling因两次量化导致的RoI提取不准确问题。Zhaojin Huang等人认为Mask R-CNN中衡量掩码质量的标准不应该是分类置信度，应该是预测掩码与真实掩码的像素级交并比，即MaskIoU，于是提出了Mask Scoring R-CNN，基于MaskHead添加了一个MaskIoU Head用于预测MaskIoU，最后通过分类置信度与MaskIoU的乘积作为Mask的得分值。

发明内容

本发明要解决的技术问题是：一阶段的手势检测器精度不够高，无法对手势掩码进行细致的预测；二阶段的手势检测器速度过慢。

为了解决上述技术问题，本发明的技术方案是提供了一种基于Head轻量化MaskScoring R-CNN的手势识别方法，其特征在于，包括以下步骤：

步骤1、建立改进的Mask Scoring R-CNN实例分割模型，该改进的MaskScoring R-CNN实例分割模型包括主干网络、RPN网络、PSRoI Align及Head结构，其中：

使用DetNet59-FPN作为主干网络，用于提取输入的手势图像的多尺度特征图，这些多尺度特征图通过1x1卷积生成392通道的轻量化位置敏感得分图；

不同于ResNet50的5个阶段，DetNet59包含6个阶段，前4个阶段和ResNet50保持一致，且第5，6两个阶段采用带有空洞卷积的bottleneck，尺寸较上一阶段不进行减半，输出特征图尺寸均为原图的1/16，通道数均为256。结合FPN后输出[P2,P3,P4,P5,P6]共5个特征图，其中，[P2,P3,P4,P5]用于生成轻量化位置敏感得分图，[P2,P3,P4,P5,P6]作为RPN的输入；

本发明在原有的Mask Scoring R-CNN中引入了轻量化的位置敏感得分图，做法是将主干网络取得的所有特征图进行1x1的卷积，仅改变其通道数；

RPN网络基于多尺度特征图生成锚框并生成提议区域，RPN网络将输出的提议区域对应到轻量化位置敏感得分图上截取RoI；

本发明将原有的Mask Scoring R-CNN中的RoIAlign替换为PSRoI Align，PSRoIAlign将RoI池化成统一大小后输入Head结构；

Head结构包括R-CNN Head、Mask Head、MaskIoU Head，本发明将原有的MaskScoring R-CNN中的R-CNN Head和MaskIoU Head连续的两个1024维全连接层改为单个1024维全连接层，R-CNN Head用于对池化后的RoI进行分类并预测边界框(即计算回归边界框偏移量)；Mask Head是一个简易的全卷积网络，用于结合R-CNN Head输出的分类结果输出RoI的预测掩码；MaskIoU Head对预测掩码与真实掩码的交并比进行回归输出MaskIoU，最后将分类置信度与MaskIoU的乘积作为实例分割的得分；

步骤2、定义目标任务，采集目标样本图及制作数据集，包括以下步骤：

步骤2-1、定义目标任务为手势数据，采集五类手势图像；

步骤2-2、制作数据集，准备适量目标任务的样本图像，为保证特征充分性，样本图像数量级设置为10³到10⁴，该范围内的任何数值M都可作为样本数量，五类手势图像的个数比例一致；

步骤2-3、将步骤2-2得到的样本图像进行标注，标注的内容包括图像内手势的类别、边界框、掩码；

步骤2-4、将步骤2-2得到的数据集按照一定的比例进行划分，得到训练集、测试集和验证集；

步骤3、模型训练：

步骤3-1、对步骤1中改进的Mask Scoring R-CNN实例分割模型进行初始化参数设置，利用DetNet59在ImageNet上预训练的参数作迁移学习，设置SGD优化器学习率为0.001，训练的batchsize为16，迭代次数为40000，利用步骤2得到的训练集对改进的Mask ScoringR-CNN实例分割模型进行训练，随后使用验证集进行验证；

训练时目标任务是五类手势，即K＝5，再加一个背景类，则输入数据类别数num_class＝5+1＝6；

步骤4、模型测试，包括以下步骤：

步骤4-1、选定步骤2-4得到的测试集中的样本图像输入训练好的改进的MaskScoring R-CNN实例分割模型；

步骤4-2、对输出边界框进行非极大值抑制，去除重复的边界框得到最终测试结果。

优选地，步骤1中，1x1卷积的卷积核个数为392，得到通道数为392的轻量化位置敏感得分图。

优选地，步骤1中，PSRoI Align所使用的池化窗口大小分别为7x7和14x14，分别生成形状为7x7x8以及14x14x2的RoI作为Head结构的输入，其中，7x7x8的RoI作为R-CNN Head的输入，14x14x2的RoI作为Mask Head的输入。

优选地，步骤2-2中样本数值M为1000张，五类手势数据各200张。

优选地，步骤2-4中按照训练集：验证集：测试集＝8：1：1的比例划分样本数M，得到训练集800张、验证集100张、测试集100张三部分。

本发明改进了Mask Scoring R-CNN实例分割模型并应用于手势识别，由于MaskScoring R-CNN本身Head部分过于复杂导致计算量过大，降低了检测速度，所以引入了一个轻量级的位置敏感得分图，通道数为392，通过两个不同池化窗口的PSRoI Align得到形状为7x 7x 8以及14x 14x 2的RoI作为Head部分的输入，相比Mask R-CNN中RoI的256个通道数大幅度减少，同时由于PSRoI Align池化后的特征图位置信息敏感，所以可以将Head部分的两个连续1024维全连接层改为单个1024维全连接层，做到了Head结构的轻量化。

本发明的有益效果在于：

DetNet59在ImageNet预训练上相比ResNet50多了一个阶段，原本ResNet50-FPN的结构输入RPN的P6是通过P5进行MaxPooling得来的，并没有和[P2,P3,P4,P5]一起预训练，本专利使用的DetNet59-FPN使得5个特征图的预训练得到统一；

DetNet59的第5，6两个阶段输出特征图相当于原图尺寸的1/16,从第四个阶段开始特征图尺寸不再减半，保留了较多的位置信息，同时使用带有空洞卷积的bottleneck增加了感受野，语义信息也较丰富，使得DetNet59-FPN的5输出特征图适合能够适应大部分尺寸物体的检测；

Head部分的输入RoI通道数为8和2，相比原来的256减少了很多，加快了训练和检测速度；

R-CNN Head和MaskIoU Head中原本连续的两个1024维全连接层改为单个的全连接层，减下了计算量，做到了Head结构轻量化，由于位置敏感得分图截取的RoI对位置敏感，不需要过多的全连接层来提高对边界框位置的预测精度；

轻量化的二阶段实例分割模型在保证精度的前提下提高了速度，可以对手势图像进行实时分割。

附图说明

图1为本发明模型执行检测的流程图；

图2为本发明模型的整体网络架构图；

图3为本发明模型的主干网络DetNet59中带空洞卷积的两种bottleneck结构图；

图4为本发明模型的主干网络DetNet59的网络结构图；

图5为本发明模型的主干网络DetNet59结合FPN的结构图；

图6为本发明模型的Head结构图；

图7为本发明模型在手势图像上的测试效果图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1所示为模型执行检测的流程图，输入图片首先经过DetNet59-FPN提取多尺度特征图，并进行1x1的卷积得到轻量化位置敏感得分图，RPN网络生成锚框并判断前后景以及判断偏移量，并将结果结合多尺度特征图形成RoI输入PSRoI Align，同一尺寸的RoI输入Head部分得到类别、分类置信度、边界框、掩码、MaskIoU，其中分类置信度会和MaskIoU相乘得到掩码分数显示在物体类别后面。

如图2所示，本发明提供了一种Head轻量化的Mask Scoring R-CNN实例分割模型，包括主干网络、RPN网络、轻量化位置敏感得分图、PSRoI Align、Head结构。虚线内为Head结构，包括R-CNN Head，Mask Head，MaskIoU Head。图片首先通过主干网络获取多尺度特征图，这些特征图通过1x1卷积生成392通道的轻量化位置敏感得分图。RPN网络将输出的提议区域对应到这些位置敏感特征图上截取RoI。PSRoI Align将RoI池化成统一大小作为Head结构输入。R-CNN Head对RoI进行分类和回归边界框偏移量，Mask Head结合分类结果输出预测掩码，MaskIoU Head输出MaskIoU，最后将分类置信度与MaskIoU的乘积作为实例分割的得分。

图3为DetNet59第5、第6阶段使用的带空洞卷积的bottleneck，分为A、B两种，使用A的情况下输入和输出通道数一致，使用B的情况下输入和输出通道数不一致，需要在右侧接入1x1的卷积使得两侧结果可以相加。

图4为DetNet59完整的网络结构，前4个阶段和ResNet50完全一致，第5、第6两个阶段使用的是图2中的bottleneck结构，均按B、A、A的顺序排列，第6个阶段后面接一个14x14的全局平均池化层，再接一个1000维全连接层，用Softmax激活，在ImageNet上预训练后除去第6阶段后的部分即可加入模型训练。

图5为DetNet59结合FPN的结构图，DetNet59中每个阶段的输出特征图分别为C1到C6，宽和高相对于原图分别缩小了2、4、8、16、16、16倍，横向连接部分使用1x1的卷积将C2到C6的通道数都变为256。C6进行1x1卷积后得到M6，由于M6的宽和高是C5的一半，所以需要进行一次上采样将尺寸乘2，使用的方法是最近邻上采样(nearest neighbour upsamping)，之后M6再和C5进行横向连接后的特征图进行逐元素求和得到M5，同理可以得到M4、M3、M2，为了消除上采样带来的混叠效应还需要将M2到M6分别进行一次步幅为1的3x3卷积，卷积核个数为256，最后得到P2到P6。[P2,P3,P4,P5]用于生成位置敏感得分图，[P2,P3,P4,P5,P6]作为RPN的输入。

图6为轻量化的Head结构图，其中，R-CNN Head的输入RoI的形状为7x7x8，后面接单个1024维全连接层，然后用C+1(包含背景类)维的全连接层加Softmax函数用于分类，4维的全连接层用于RoI到真实边界框偏移量的回归。Mask Head的输入RoI的形状为14x14x2包含4个连续的步幅为1的3x3卷积，卷积核个数为2，图中用x4省略，然后接一个转置卷积层将特征图尺寸改为28x28x2，最后接一个1x1的卷积将通道数转为类别数C，用Sigmoid函数激活预测掩码。预测掩码进行2x2最大池化后与Mask Head的输入按通道维连接得到MaskIoUHead的输入，包含3个连续的步幅为1的3x3卷积，卷积核个数为2，一个步幅为2的3x3卷积，卷积核个数为2将尺寸减半减少计算量，一个1024维全连接层，一个C维的全连接层用于回归MaskIoU。

图7为本发明改进后的模型在手势图像上的测试效果图，将轻量化Head的MaskScoring R-CNN在手势数据集上进行训练，测试时利用非极大值抑制进行后处理，得到检测结果。

Claims

1.一种基于Head轻量化Mask Scoring R-CNN的手势识别方法，其特征在于，包括以下步骤：

步骤1、建立改进的Mask Scoring R-CNN实例分割模型，该改进的Mask Scoring R-CNN实例分割模型包括主干网络、RPN网络、PSRoIAlign及Head结构，其中：

PSRoI Align将RoI池化成统一大小后输入Head结构；

Head结构包括R-CNN Head、Mask Head、MaskIoU Head，R-CNN Head和MaskIoU Head采用单个1024维全连接层，R-CNN Head用于对池化后的RoI进行分类并预测边界框；MaskHead用于结合R-CNN Head输出的分类结果输出RoI的预测掩码；MaskIoU Head对预测掩码与真实掩码的交并比进行回归输出MaskIoU，最后将分类置信度与MaskIoU的乘积作为实例分割的得分；

步骤2、定义目标任务，采集目标样本图及制作数据集，包括以下步骤：步骤2-1、定义目标任务为手势数据，采集五类手势图像；

步骤3、模型训练：

步骤4、模型测试，包括以下步骤：

步骤4-1、选定步骤2-4得到的测试集中的样本图像输入训练好的改进的Mask ScoringR-CNN实例分割模型；

2.如权利要求1所述的一种基于Head轻量化Mask Scoring R-CNN的手势识别方法，其特征在于：步骤1中，1x1卷积的卷积核个数为392，得到通道数为392的轻量化位置敏感得分图。

3.如权利要求1所述的一种基于Head轻量化Mask Scoring R-CNN的手势识别方法，其特征在于：步骤1中，PSRoI Align所使用的池化窗口大小分别为7x7和14x14，分别生成形状为7x7x8以及14x14x2的RoI作为Head结构的输入，其中，7x7x8的RoI作为R-CNN Head的输入，14x14x2的RoI作为Mask Head的输入。

4.如权利要求1所述的一种基于Head轻量化Mask Scoring R-CNN的手势识别方法，其特征在于：步骤2-2中样本数值M为1000张，五类手势数据各200张。

5.如权利要求4所述的一种基于Head轻量化Mask Scoring R-CNN的手势识别方法，其特征在于：步骤2-4中按照训练集：验证集：测试集＝8：1：1的比例划分样本数M，得到训练集800张、验证集100张、测试集100张三部分。