CN112183435A

CN112183435A - 一种两阶段的手部目标检测方法

Info

Publication number: CN112183435A
Application number: CN202011085890.2A
Authority: CN
Inventors: 卢丽; 闫超; 胡二建
Original assignee: Henan Weihu Intelligent Technology Co ltd
Current assignee: Henan Weihu Intelligent Technology Co ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-01-05

Abstract

本发明公开了一种两阶段的手部目标检测方法，获取包含手部目标的样本图像集；搭建手部目标检测网络模型；将包含手部目标的样本图像输入到手部目标检测网络模型，利用关键点检测生成候选框集合，并设定置信度阈值和非极大值抑制算法筛选候选框集合；提取候选框映射的特征信息和扩展候选框映射的上下文特征信息，采用拼接方式融合成特征块，最后利用特征块进行目标分类、定位；输出手部目标分类检测结果。与现有技术相比，本发明能更好地拟合手部目标的形态变化，大大提高候选区域框的质量；提高特征信息的表达能力，增加了更多位置细节信息，能更精准地定位目标。

Description

一种两阶段的手部目标检测方法

技术领域

本发明涉及手部目标检测领域，特别是一种两阶段的手部目标检测方法。

背景技术

现如今，各种智能设备走进家家户户，使人们的生活变得更加便捷。人们可以通过人机交互技术，将信息传送给智能设备，从而达到控制的目的。早期，人们通过键盘、鼠标、按钮等等外部设备和计算机或电子设备进行人机交互，随着人工智能技术的发展，出现面部识别、语音控制、手势识别等新型的人机交互技术，能提供更好的用户体验，有着更加广阔的应用场景和发展前景。

从古至今，手势在人与人之间的交流过程中都很普遍，有时候语言解释不清楚的时候，可以通过手势比划辅助，因此，手势在人机交互技术中扮演着比较重要的角色，具有广泛的使用价值。手部目标检测技术是手势识别的前提，该技术用来精准定位手部，为手势识别打下坚实的基础，是非常有意义的研究方向。

近几年，随着计算机硬件的更新换代和深度学习技术的快速发展，基于深度学习的目标检测算法以更优的精度和速度打败了传统的目标检测算法。基于深度学习的目标检测算法按目标定位的方式可以大致分为两类：基于锚框(anchor)的算法和无锚框的算法，前者代表算法有R-CNN、Faster R-CNN、Mask R-CNN等，其核心思路是利用锚框机制对目标进行类别分类和位置回归；后者代表算法有CornerNet、CenterNet等，这类算法采用回归关键点和几何形状的方式直接在特征图上定位目标，抛弃锚框机制。两类算法各有各的优势，无锚框的算法能更好适应不常见形状的目标，基于锚框的算法则更加容易训练和稳定。与此同时，还有另外一种分类方式，可以将目标检测算法分为：两阶段算法和单阶段算法，两阶段算法精度上优于单阶段算法，反之，单阶段算法速度上快于两阶段算法。

目前，基于深度学习的目标检测算法已经取得了很大的进展，但是，因手部的状态样式较为复杂，而且所处的应用场景也存在多样性，所以直接将检测普通目标的检测算法迁移到检测手部是行不通的。因此，急需提出一种能充分适应手部形状变化，而且在实现较高的检测精度的前提下不牺牲时间的目标检测网络构建方法。

发明内容

本发明的目的是要解决现有技术中存在的不足，提供一种能够提升检测模型的召回率和精度的两阶段的手部目标检测方法。

为达到上述目的，本发明是按照以下技术方案实施的：

一种两阶段的手部目标检测方法，该手部目标检测包括以下步骤：

S1、获取包含手部目标的样本图像集；

S2、搭建手部目标检测网络模型；

S3、将包含手部目标的样本图像输入到手部目标检测网络模型，手部目标检测网络模型对每个样本图像生成热力图并进行特征提取，然后分为两阶段实现检测任务：第一阶段是利用关键点检测生成候选框集合，并设定置信度阈值和非极大值抑制算法筛选候选框集合；第二阶段是提取候选框映射的特征信息和扩展候选框映射的上下文特征信息，采用拼接方式融合成特征块，最后利用特征块进行目标分类、定位；每个阶段都使用分类损失函数和位置回归损失函数计算损失值；

S4、输出手部目标分类检测结果。

进一步地，所述S2中，手部目标检测网络模型的网络结构依次包括：从前至后将卷积层、批归一化层、激活函数层、深度可分离卷积层、批归一化层、特征相加融合层封装成倒置残差模块；以及从前至后将深度可分离卷积层、特征拼接层、批归一化层、激活函数层组成混合深度可分离卷积模块；从前至后按卷积层、批归一化层、激活函数层、混合深度可分离卷积模块、倒置残差模块、拉平层、全连接层的规则依次堆叠组成手部目标检测网络模型的主干部分，所述手部目标检测网络模型的主干网络包含2个混合深度可分离卷积模块、3个倒置残差模块，其中混合深度可分离卷积模块的步长分别为1、2，倒置残差模块步长都为1。

更进一步地，所述S2中，第一阶段的具体步骤为：

对预测热力图进行分类、回归，通过坐标变化构成候选框集合，对候选框进行筛选，最后输出最优的候选框集合；输出候选框集合中需将预测得到的候选框与真实检测框计算交并比IOU值，

计算公式为：

其中，A表示预测得到的候选框，B表示真实检测框；

IOU值大于0.7的设为正样本，小于0.3设为负样本，并设置正样本和负样本比例为1：2，样本总数为256，设定置信度阈值为0.2。

优选地，所述S2中的损失函数中分类损失函数采用焦点损失函数，位置回归损失函数使用平滑L1损失函数，焦点损失函数中阿尔法参数设为0.7，伽马参数设为2.5。

优选地，所述S2中的激活函数层采用参数修正线性单元层。

优选地，使用分类损失函数和位置回归损失函数计算损失值之前，利用预先设定的优化策略优化损失值，并设置相关超参数，迭代计算，直至损失值收敛。

优选地，所述优化策略是将学习率初始化设为0.01，余弦学习率预热衰减法变化学习率的值，并且采用带动量参数的随机梯度下降法作为优化器，优化权重参数；相关超参数主要是将批处理大小设为256，批归一化层的动量参数设为0.95，L2惩罚项衰减率为0.001，总迭代次数设为100000。

与现有技术相比，本发明具有以下有益效果：

1.现有技术中采用现有的区域提取方法提取局部区域候选框，现有的区域提取方法如区域候选网络、卷积神经网络等，这类方法大多数都是采用不同尺度、不同面积比例的固定大小的锚框生成得到的，可以适用于大多数常见尺寸大小的目标，而手部的外貌特征较为复杂，用现有技术的方法会出现大量漏检、误检情况；而本发明提出使用基于关键点检测的方法来生成候选区域集合，能更好地拟合手部目标的形态变化，大大提高候选区域框的质量；

2.现有技术提出的方法任务目的是进行目标物体关键点检测，输出的是关键点的坐标，而本发明任务的目的是定位目标的位置，输出的是目标的定位矩形框位置，任务目的不同；

3.现有技术文档中进行目标物体关键点检测是基于单一的局部区域候选框特征信息，一定程度上限制了检测精度，而本发明提出的方法将候选框区域特征与上下文信息融合生成特征块，提高特征信息的表达能力，增加了更多位置细节信息，能更精准地定位目标。

附图说明

图1为手部目标检测网络模型的网络结构示意图。

图2为手部目标检测网络模型的网络结构中的倒置残差模块示意图。

图3为手部目标检测网络模型的网络结构中的混合深度可分离卷积模块示意图。

图4为手部目标检测效果展示图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明，并不用于限定发明。

本实施例的一种两阶段的手部目标检测方法，该手部目标检测包括以下步骤：

S1、获取包含手部目标的样本图像集；

S2、搭建手部目标检测网络模型，如图1所示，手部目标检测网络模型的网络结构依次包括：从前至后将卷积层、批归一化层、激活函数层、深度可分离卷积层、批归一化层、特征相加融合层封装成倒置残差模块，激活函数层采用参数修正线性单元层，倒置残差模块如图2所示，其目的是通过扩展特征图的通道，增加网络模型的宽度，提高特征信息的表达能力，从而提升精度；以及从前至后将深度可分离卷积层、特征拼接层、批归一化层、激活函数层组成混合深度可分离卷积模块，混合深度可分离卷积模块如图3所示，其目的主要用来混合不同大小卷积核提取的不同感受野的特征信息，进而提高模型的检测性能；从前至后按卷积层、批归一化层、激活函数层、混合深度可分离卷积模块、倒置残差模块、拉平层、全连接层的规则依次堆叠组成手部目标检测网络模型的主干部分，所述手部目标检测网络模型的主干网络包含2个混合深度可分离卷积模块、3个倒置残差模块，其中混合深度可分离卷积模块的步长分别为1、2，倒置残差模块步长都为1；如图1所示，手部目标检测网络模型的网络结构从主干部分之后就开始分为两个分支，一个分支主要用于预测候选框类别、候选框关键点以及候选框长宽，其结构是在主干网络后接三个并行的卷积层生成预测热力图，然后对预测热力图进行分类、回归，通过坐标变化构成候选框集合，然后用非极大值抑制算法去除冗余候选框，最后计算候选框与真实检测框之间的交并比IOU值；而另一个分支接收候选框集合，利用感兴趣区域对齐层提取候选框对应的特征信息和扩展候选框对应的上下文信息，并融合生成特征块，提高特征信息的表达能力，用于目标分类检测和定位目标。

S3、将包含手部目标的样本图像输入到手部目标检测网络模型，手部目标检测网络模型对每个样本图像生成热力图并进行特征提取，然后分为两阶段实现检测任务：第一阶段是利用关键点检测生成候选框集合，并设定置信度阈值和非极大值抑制算法筛选候选框集合，具体地：对预测热力图进行分类、回归，通过坐标变化构成候选框集合，对候选框进行筛选，最后输出最优的候选框集合；输出候选框集合中需将预测得到的候选框与真实检测框计算交并比IOU值，

计算公式为：

其中，A表示预测得到的候选框，B表示真实检测框；

IOU值大于0.7的设为正样本，小于0.3设为负样本，并设置正样本和负样本比例为1：2，样本总数为256，设定置信度阈值为0.2；第二阶段是提取候选框映射的特征信息和扩展候选框映射的上下文特征信息，采用拼接方式融合成特征块，最后利用特征块进行目标分类、定位；每个阶段都使用分类损失函数和位置回归损失函数计算损失值；使用分类损失函数和位置回归损失函数计算损失值之前，利用预先设定的优化策略优化损失值，并设置相关超参数，迭代计算，直至损失值收敛。所述优化策略是将学习率初始化设为0.01，余弦学习率预热衰减法变化学习率的值，并且采用带动量参数的随机梯度下降法作为优化器，优化权重参数；相关超参数主要是将批处理大小设为256，批归一化层的动量参数设为0.95，L2惩罚项衰减率为0.001，总迭代次数设为100000；总损失值计算公式如下：

其中，

为第一阶段计算的类别分类损失值，

为第一阶段计算的关键点坐标回归损失值，

为第一阶段计算的检测框长宽回归损失值，

为第二阶段计算的类别分类损失值，

为第二阶段计算的检测框坐标回归损失值。分类损失函数采用焦点损失函数，位置回归损失函数使用平滑L1损失函数，焦点损失函数中阿尔法参数设为0.7，伽马参数设为2.5。

S4、输出手部目标分类检测结果，输出的是分类后的目标的定位矩形框位置。

在使用本实施例的手部目标检测网络模型进行手部目标检测之前，首先需要对该手部目标检测网络模型进行训练，根据上述实施步骤以egohands数据集作为输入进行训练，该数据集分别包含48个不同场景，如室内、室外、下棋等，总共4800张已经标注的图像数据。由训练结果可得，利用本发明提出的手部目标检测方法能更好的拟合手部形状，减少误检率，而且利用两阶段的训练方式，针对目标的候选区域特征进行细分类，大大提高了召回率和精度。

如图4所示，为了进一步验证本发明的可行性，取图4所示的三张手部图片输入到训练后的手部目标检测网络模型，最终输出如图4所示的检测后的手部目标的定位矩形框位置。

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.一种两阶段的手部目标检测方法，其特征在于，该手部目标检测包括以下步骤：

S1、获取包含手部目标的样本图像集；

S2、搭建手部目标检测网络模型；

S3、将包含手部目标的样本图像输入到手部目标检测网络模型，手部目标检测网络模型对每个样本图像生成热力图并进行特征提取，然后分为两阶段实现检测任务：第一阶段是利用关键点检测生成候选框集合，并设定置信度阈值和非极大值抑制算法筛选候选框集合；第二阶段是提取候选框映射的特征信息和扩展候选框映射的上下文特征信息，采用拼接方式融合成特征块，最后利用特征块进行目标分类检测、定位；每个阶段都使用分类损失函数和位置回归损失函数计算损失值；

S4、输出手部目标分类检测结果。

2.根据权利要求1所述的两阶段的手部目标检测方法，其特征在于，所述S2中，手部目标检测网络模型的网络结构依次包括：从前至后将卷积层、批归一化层、激活函数层、深度可分离卷积层、批归一化层、特征相加融合层封装成倒置残差模块；以及从前至后将深度可分离卷积层、特征拼接层、批归一化层、激活函数层组成混合深度可分离卷积模块；从前至后按卷积层、批归一化层、激活函数层、混合深度可分离卷积模块、倒置残差模块、拉平层、全连接层的规则依次堆叠组成手部目标检测网络模型的主干部分，所述手部目标检测网络模型的主干网络包含2个混合深度可分离卷积模块、3个倒置残差模块，其中混合深度可分离卷积模块的步长分别为1、2，倒置残差模块步长都为1。

3.根据权利要求1所述的两阶段的手部目标检测方法，其特征在于，所述S2中，第一阶段的具体步骤为：

计算公式为：

其中，A表示预测得到的候选框，B表示真实检测框；

4.根据权利要求1所述的两阶段的手部目标检测方法，其特征在于，所述S2中的损失函数中分类损失函数采用焦点损失函数，位置回归损失函数使用平滑L1损失函数，焦点损失函数中阿尔法参数设为0.7，伽马参数设为2.5。

5.根据权利要求2所述的两阶段的手部目标检测方法，其特征在于，所述S2中的激活函数层采用参数修正线性单元层。

6.根据权利要求1所述的两阶段的手部目标检测方法，其特征在于，使用分类损失函数和位置回归损失函数计算损失值之前，利用预先设定的优化策略优化损失值，并设置相关超参数，迭代计算，直至损失值收敛。

7.根据权利要求6所述的两阶段的手部目标检测方法，其特征在于，所述优化策略是将学习率初始化设为0.01，余弦学习率预热衰减法变化学习率的值，并且采用带动量参数的随机梯度下降法作为优化器，优化权重参数；相关超参数主要是将批处理大小设为256，批归一化层的动量参数设为0.95，L2惩罚项衰减率为0.001，总迭代次数设为100000。