CN109325454A

CN109325454A - 一种基于YOLOv3的静态手势实时识别方法

Info

Publication number: CN109325454A
Application number: CN201811137932.5A
Authority: CN
Inventors: 张勇; 张强; 徐林嘉; 刘佳慧; 王鑫源
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-02-12
Anticipated expiration: 2038-09-28
Also published as: CN109325454B

Abstract

本发明公开了一种基于YOLOv3的静态手势实时识别方法，其过程包括制作训练集、生成迁移Darknet‑53模型、改进候选框参数和实时手势识别各步骤，是基于卷积神经网络YOLOv3模型，通过使用Kinect设备采集的四种类型的图像数据集代替常用的RGB图像数据集，融合四种类型Kinect测试图像的识别结果，有效提高识别准确率；采用K‑means聚类算法对初始候选框的参数进行改进，有效提高识别速度；以及采用迁移学习的方法，切实减少模型的训练时间。

Description

一种基于YOLOv3的静态手势实时识别方法

技术领域

本发明涉及深度学习和手势识别领域，具体是一种基于YOLOv3的静态手势实时识别方法。

背景技术

近年来随着人工智能技术的快速发展，人机交互的方式也得到了很大的改变，从打字、触屏到语音，交互方式的发展给人们的操作带来了便利和极佳的使用体验。然而更为高效、舒适的交互方式是让机器能够直接理解人的肢体语言，在各种肢体语言中手势最为简单、方便，因此可以将它作为一种简单、高效的人机交互方式，有着十分广阔的应用前景。

基于手势的人机交互中，一个很重要的过程是对手势进行识别。传统的手势识别包括基于模板匹配、基于数据手套和基于隐马尔科夫模型等方法；其中，基于模板匹配的方法需要手工设计一个标准手势库，将模板与输入图像进行匹配，工序复杂，迁移性差；基于数据手套的方法，其设备昂贵，一旦重新更换手套，需要重新训练，很不方便；基于隐马尔科夫模型的手势识别方法，其计算量大、速度慢、过程复杂；通过人工建模等方式设计手势描述特征的过程十分繁琐、无法深度挖掘更高层次、更多维度的特征信息，这就导致基于传统方法的模型范性差、很难达到实时检测目的。基于计算机视觉的手势识别方法可以有效克服传统方法的弊处。现有技术中已有一些基于计算机视觉的手势识别方法，比如借助Kinect设备进行手势识别的方法、基于CNN的静态手势识别方法、基于迁移学习的手势识别方法等，但是这些现有方法在识别精度和速度上都无法满足要求。

YOLO v3(You Only Look Once:version 3)的出现，在目标检测领域取得了最佳的检测效果。但是，关于YOLO v3在手势识别领域中的应用迄今天未有公开报导。

发明内容

本发明是为避免上述现有技术的不足，提供一种基于YOLOv3的静态手势实时识别方法，以提高手势识别精度和速度，并减少网络模型训练的时间。

本发明为解决技术问题采用如下技术方案：

本发明基于YOLOv3的静态手势实时识别方法的特点是包括：制作训练集、生成迁移Darknet-53模型、改进候选框参数和实时手势识别各步骤；

步骤1、按如下过程制作训练集

1.1、使用Kinect设备为每一个手势场景拍摄四种类型的Kinect图像，分别是：IR图像、Registration of RGB图像、RGB图像和Depth图像各一张；拍摄获得的图片的分辨率为640×480；

1.2、将每张拍摄获得的图片进行复制，并按比例分别调整分辨率为300×225、400×300、500×375和600×450，获得扩增四倍量的Kinect图像数据集；

1.3、针对所述扩增四倍量的Kinect图像数据集中的每张图片手工标记出手势区域框，并注释手势的类别信息和位置信息，生成手势标签文件；

1.4、由所述Kinect图像数据集和手势标签文件组合构成训练集；

步骤2、按如下过程生成迁移Darknet-53模型

2.1、从ASL数据集中选取x组样本组，每个样本组中包含y个样本，每个样本由一张RGB image手势图片和一张depth image手势图片组成，共获得2×x×y张样本手势图片；

2.2、将每张样本手势图片进行复制，并按比例分别调整分辨率为300×225、400×300、500×375和600×450，获得扩增四倍数量的样本手势图片；

2.3将所述扩增四倍数量的样本手势图片经过Darknet-53进行预训练，将完成预训练所获得的网络参数迁移到基础网络中并进行初始化，得到迁移Darknet-53模型；

步骤3、按如下过程改进YOLOv3的初始候选框参数

3.1、采用K-means聚类算法对训练集中手工标记的手势区域框进行聚类，设置不同的k值，统计对应的误差平方和SSE的值；

3.2、绘制SSE值和k值的关系图；根据SSE值和k值的关系图，用手肘法找到最优的k值，得到对应的k个聚类中心，将所述k个聚类中心作为YOLOv3的初始候选框参数写入配置文件，获得改进的YOLOv3；

步骤4、按如下过程进行实时手势识别

4.1、将步骤1所获得的训练集利用改进的YOLOv3进行训练，得到完成训练的参数模型；

4.2、调用Kinect摄像头同时输出四种类型的Kinect图像，采用经步骤4.1得到的参数模型进行实时识别，获得四种类型的Kinect图像的识别结果；所述四种类型的Kinect图像是指：IR图像、Registration of RGB图像、RGB图像和Depth图像；

4.3、通过融合所述四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别。

本发明基于YOLOv3的静态手势实时识别方法的特点也在于：在所述步骤3.1中，按如下方式获得误差平方和SSE的值：

YOLOv3在训练过程中将图像划分为S×S个的网格，按式(1)、式(2)和式(3)，针对每个网格预测获得B个检测框及其置信度Conf(Object)；

Conf(Object)＝Pr(Object)×IOU(1)，

其中：

Pr(Object)表示是否有目标物落入候选框对应的网格中，若有为1，反之为0；

IOU表示预测框与真实框的交集面积与并集面积之比；box(Pred)表示预测框；box(Truth)表示真实框；area(·)表示面积；

置信度Conf(Object)表示检测框对其检测出物体的自信程度；

每个检测框包含5个参数：x,y,w,h以及Conf(Object)；其中，(x,y)代表检测框中心相对网络位置的偏移，(w,h)代表检测框的宽和高；

每个网格预测C个类别概率Pr(Class_i|Object)，Pr(Class_i|Object)表示目标落入网格i的概率；最终输出S×S×[B×(4+1+C)]维的张量；YOLOv3的损失函数loss由式(4)表征：

其中，为坐标误差，为IOU误差，为分类误差，并有：

其中：

的权重参数，λ_coord＝5；λ_noobj为的修正参数λ_noobj＝0.5；

表示网格i对应的真实框的x参数值，表示网格i的x参数的误差；

表示网格i对应的真实框的y参数值，表示网格i的y参数的误差；

表示网格i对应的真实框的w参数值，表示网格i的w参数的误差；

表示网格i对应的真实框的h参数值，表示网格i的h参数的误差；

C_i表示网格i的置信度Conf(Object)预测值；表示网格i的置信度Conf(Object)真实值，表示网格i的置信度误差；

p_i(c)表示目标落入网格i的预测概；概率Pr(Class_i|Object)；表示目标落入网格i的真实概率，

表示目标落入网格i的概率误差；

表示是否有目标落入网格i中，若有为1，反之为0；

表示判断第j个预测框是否有物体落入网格i，若是则为1，反之为0；

YOLOv3在目标检测过程中引入一组固定尺寸和宽高比的初始候选框采用K-Means聚类算法对步骤1所得训练集中手工标记的目标框进行聚类分析，找到表征初始候选框的个数的最优k值，以及k个聚类中心的宽高维度作为网络配置文件中的候选框参数；

根据误差平方和SSE，并采用手肘法按式(8)确定k值：

其中Cl_i是第i个簇，p是Cl_i中的样本点，m_i是Cl_i的重心；

在K-means聚类中，采用欧式距离代表样本点和样本均值之间的误差，样本点为预测框，样本均值是真实框，采用IOU反映预测框和真实框的误差，IOU越大，表明误差越小；利用式(9)计算获得样本的聚类误差：

其中，IOU_p表示样本点p的IOU，用1-IOU_p表示样本点p的误差，从而得到SSE和k值。

本发明基于YOLOv3的静态手势实时识别方法的特点也在于：在所述步骤4.3中，通过融合所述四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别是按如下过程进行：

测试图像由四种类型的Kinect图像构成，m表示四种类型的测试图像，m∈{1,2,3,4}，以及m＝1,2,3,4一一对应表示IR图像、Registation of RGB图像、RGB图像和Depth图像；a_m表示m类型图像的识别结果的置信度，因Registation of RGB图像来源于RGB图像，将Registation of RGB图像设置的置信度权重为RGB图像的一半，IR图像和Depth图像由独立的传感器生成，其置信度权重与RGB图像相同；设置四类测试图像的置信度权重分别为：

用n表示识别成的手势，针对10组字母手势A、B、C、D、E、F、G、H、I和K，则有：n∈{1,2,3,4,5,6,7,8,9,10}，以n＝1，2，3，4，5，6，7，8，9，10一一对应表示字母手势A、B、C、D、E、F、G、H、I、K；P_m(n)表示m类型图像识别成字母手势n的概率，P_m(n)∈{1,0}，当识别成该字母手势时，P_m(n)＝1；当识别成其它字母手势时，P_m(n)＝0；以P(n)表示融合四类图像识别结果后识别为字母手势n的概率，所述概率P(n)由式(10)计算获得：

本发明基于YOLOv3的静态手势实时识别方法的特点也在于：在所述步骤4.2中调用Kinect摄像头同时输出四种类型的Kinect图像，可以是针对静态图片，或针对一段包含四种类型Kinect图像的动态视频信号进行实时识别。

与已有技术相比，本发明有益效果体现在：

1、本发明基于卷积神经网络YOLOv3模型，通过使用Kinect设备采集的四种类型的图像数据集代替常用的RGB图像数据集，融合四种类型Kinect测试图像的识别结果，有效提高了识别准确率；

2、本发明采用K-means聚类算法对初始候选框的参数进行改进，有效提高了识别速度；

3、本发明采用迁移学习的方法，切实减少模型的训练时间。

4、本发明方法对流式视频静态手势的识别准确率可达到99％以上，识别速度达到50frames/s以上；使用迁移学习的方法使得训练时间减少约25％。

附图说明

图1为本发明中所采用的方法总体流程图；

图2为本发明数据集制作过程示意图；

图3为本发明采用的聚类算法中SSE随k值变化折线图；

具体实施方式

参见图1和图2，本实施例中基于YOLOv3的静态手势实时识别方法包括：制作训练集、生成迁移Darknet-53模型、改进候选框参数和实时手势识别各步骤。

步骤1、按如下过程制作训练集

1.1、使用Kinect设备为每一个手势场景拍摄四种类型的Kinect图像，分别是：IR图像、Registration of RGB图像、RGB图像和Depth图像各一张；拍摄获得的图片的分辨率为640×480；为了提高识别方法的鲁棒性，在制作数据集时，图像分辨率、单张图片包含的手势个数、光线强度、拍摄的距离远近、背景、手势重叠情况不尽相同。按照单张图片包含的手势个数为1，2，3，4，5分别拍摄了7组不同条件下的手势图片，包括：正常情况、光线较暗、光线较亮、手势离摄像头较近、手势离摄像头较远、手势重叠和背景复杂情况。

1.2、将每张拍摄获得的图片进行复制，并按比例分别调整分辨率为300×225、400×300、500×375和600×450，获得扩增四倍量的Kinect图像数据集。

1.3、针对扩增四倍量的Kinect图像数据集中的每张图片手工标记出手势区域框，并注释手势的类别信息和位置信息，生成手势标签文件。

1.4、由Kinect图像数据集和手势标签文件组合构成训练集。

步骤2、按如下过程生成迁移Darknet-53模型

2.1、从ASL(American Sign Language)数据集中选取x组样本组，每个样本组中包含y个样本，每个样本由一张RGB image手势图片和一张depth image手势图片组成，共获得2×x×y张样本手势图片。

2.2、将每张样本手势图片进行复制，并按比例分别调整分辨率为300×225、400×300、500×375和600×450，获得扩增四倍数量的样本手势图片。

2.3将扩增四倍数量的样本手势图片经过Darknet-53进行预训练，将完成预训练所获得的网络参数迁移到基础网络中并进行初始化，得到迁移Darknet-53模型。

步骤3、按如下过程改进YOLOv3的初始候选框参数

3.1、采用K-means聚类算法对训练集中手工标记的手势区域框进行聚类，设置不同的k值，统计对应的误差平方和SSE(Sum of the Squared Errors)的值。

3.2、图3为本实例中绘制的SSE值和k值的关系图，用手肘法找到最优的k值，得到对应的k个聚类中心，将k个聚类中心作为YOLOv3的初始候选框参数写入配置文件，获得改进的YOLOv3。

步骤4、按如下过程进行实时手势识别

4.2、调用Kinect摄像头同时输出四种类型的Kinect图像，采用经步骤4.1得到的参数模型进行实时识别，获得四种类型的Kinect图像的识别结果；四种类型的Kinect图像是指：IR图像、Registration of RGB图像、RGB图像和Depth图像。

4.3、通过融合四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别。

具体实施中，步骤3.1是按如下方式获得误差平方和SSE的值：

Conf(Object)＝Pr(Object)×IOU (1)，

其中：

Pr(Object)表示是否有目标物落入候选框对应的网格中，若有为1，反之为0，如式(2)所示；

置信度Conf(Object)表示检测框对其检测出物体的自信程度；

每个网格预测C个类别概率Pr(Class_i|Object)，Pr(Class_i|Object)表示目标落入网格i的概率；最终输出S×S×[B×(4+1+C)]维的张量(tensor)；YOLOv3的损失函数loss由式(4)表征：

其中，为坐标误差，为IOU误差，为分类误差，并有：

其中：

λ_coord为的权重参数，λ_coord＝5；λ_noobj为的修正参数λ_noobj＝0.5；

p_i(c)表示目标落入网格i的预测概率Pr(Class_i|Object)；表示目标落入网格i的真实概率，

表示目标落入网格i的概率误差；

表示是否有目标落入网格i中，若有为1，反之为0；

根据误差平方和SSE，并采用手肘法按式(8)确定k值：

其中Cl_i是第i个簇，p是Cl_i中的样本点，m_i是Cl_i的重心，即为Cl_i中所有样本的均值，SSE是所有样本的聚类误差，代表聚类效果的好坏，手肘法的核心思想就是：随着k值增大，样本划分更加精细，SSE逐渐变小，当k达到最优聚类数时，继续增加k值对聚类程度回报会迅速变小，表现为SSE下降幅度骤减，SSE和k的关系图呈现出一个手肘的形状，肘部对应的k值就是我们所需要的最优聚类数；

具体实施中，步骤4.3中通过融合四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别是按如下过程进行：

用n表示识别成的手势，针对10组字母手势A、B、C、D、E、F、G、H、I和K，则有：n∈{1,2,3,4,5,6,7,8,9,10}，以n＝1，2，3，4，5，6，7，8，9，10一一对应表示字母手势A、B、C、D、E、F、G、H、I、K；P_m(n)表示m类型图像识别成字母手势n的概率，P_m(n)∈{1,0}，当识别成该字母手势时，P_m(n)＝1；当识别成其它字母手势时，P_m(n)＝0；以P(n)表示融合四类图像识别结果后识别为字母手势n的概率，概率P(n)由式(10)计算获得：

为了说明融合四种类型图像的识别结果，以一个实际场景为例，假设某个手势，被RGB图像识别为D，被其它三种类型的图像识别为E，根据式(10)，分别计算P(n)值，得到的结果为：P(1)＝P(2)＝P(3)＝P(6)＝P(7)＝P(8)＝P(9)＝P(10)＝0，P(5)最大，n＝5表示识别为字母手势E，由于该手势被识别为E的概率最大，因此认定该手势识别为E。

具体实施中，在步骤4.2中调用Kinect摄像头同时输出四种类型的Kinect图像，可以是针对静态图片，或针对一段包含四种类型Kinect图像的动态视频信号进行实时识别。

本发明方法对流式视频静态手势的识别准确率可达到99％以上，识别速度达到50frames/s以上，使用迁移学习的方法使得训练时间减少约25％。

Claims

1.一种基于YOLOv3的静态手势实时识别方法，其特征是包括：制作训练集、生成迁移Darknet-53模型、改进候选框参数和实时手势识别各步骤；

步骤1、按如下过程制作训练集

步骤2、按如下过程生成迁移Darknet-53模型

2.1、从ASL数据集中选取x组样本组，每个样本组中包含y个样本，每个样本由一张RGBimage手势图片和一张depth image手势图片组成，共获得2×x×y张样本手势图片；

步骤3、按如下过程改进YOLOv3的初始候选框参数

步骤4、按如下过程进行实时手势识别

2.根据权利要求1所述的基于YOLOv3的静态手势实时识别方法，其特征是：在所述步骤3.1中，按如下方式获得误差平方和SSE的值：

Conf(Object)＝Pr(Object)×IOU (1)，

其中：

置信度Conf(Object)表示检测框对其检测出物体的自信程度；

其中，为坐标误差，为IOU误差，为分类误差，并有：

其中：

表示目标落入网格i的概率误差；

表示是否有目标落入网格i中，若有为1，反之为0；

根据误差平方和SSE，并采用手肘法按式(8)确定k值：

其中Cl_i是第i个簇，p是Cl_i中的样本点，m_i是Cl_i的重心；

3.根据权利要求1所述的基于YOLOv3的静态手势实时识别方法，其特征是：在所述步骤4.3中，通过融合所述四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别是按如下过程进行：

4.根据权利要求1所述的基于YOLOv3的静态手势实时识别方法，其特征是：在所述步骤4.2中调用Kinect摄像头同时输出四种类型的Kinect图像，可以是针对静态图片，或针对一段包含四种类型Kinect图像的动态视频信号进行实时识别。