CN109325454A - 一种基于YOLOv3的静态手势实时识别方法 - Google Patents
一种基于YOLOv3的静态手势实时识别方法 Download PDFInfo
- Publication number
- CN109325454A CN109325454A CN201811137932.5A CN201811137932A CN109325454A CN 109325454 A CN109325454 A CN 109325454A CN 201811137932 A CN201811137932 A CN 201811137932A CN 109325454 A CN109325454 A CN 109325454A
- Authority
- CN
- China
- Prior art keywords
- gesture
- grid
- real
- kinect
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000003068 static effect Effects 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000003064 k means clustering Methods 0.000 claims abstract description 11
- 238000013508 migration Methods 0.000 claims abstract description 7
- 230000005012 migration Effects 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 14
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims 1
- 238000013526 transfer learning Methods 0.000 abstract description 5
- 238000013527 convolutional neural network Methods 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 238000013480 data collection Methods 0.000 abstract 1
- 230000003993 interaction Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/117—Biometrics derived from hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于YOLOv3的静态手势实时识别方法,其过程包括制作训练集、生成迁移Darknet‑53模型、改进候选框参数和实时手势识别各步骤,是基于卷积神经网络YOLOv3模型,通过使用Kinect设备采集的四种类型的图像数据集代替常用的RGB图像数据集,融合四种类型Kinect测试图像的识别结果,有效提高识别准确率;采用K‑means聚类算法对初始候选框的参数进行改进,有效提高识别速度;以及采用迁移学习的方法,切实减少模型的训练时间。
Description
技术领域
本发明涉及深度学习和手势识别领域,具体是一种基于YOLOv3的静态手势实时识别方法。
背景技术
近年来随着人工智能技术的快速发展,人机交互的方式也得到了很大的改变,从打字、触屏到语音,交互方式的发展给人们的操作带来了便利和极佳的使用体验。然而更为高效、舒适的交互方式是让机器能够直接理解人的肢体语言,在各种肢体语言中手势最为简单、方便,因此可以将它作为一种简单、高效的人机交互方式,有着十分广阔的应用前景。
基于手势的人机交互中,一个很重要的过程是对手势进行识别。传统的手势识别包括基于模板匹配、基于数据手套和基于隐马尔科夫模型等方法;其中,基于模板匹配的方法需要手工设计一个标准手势库,将模板与输入图像进行匹配,工序复杂,迁移性差;基于数据手套的方法,其设备昂贵,一旦重新更换手套,需要重新训练,很不方便;基于隐马尔科夫模型的手势识别方法,其计算量大、速度慢、过程复杂;通过人工建模等方式设计手势描述特征的过程十分繁琐、无法深度挖掘更高层次、更多维度的特征信息,这就导致基于传统方法的模型范性差、很难达到实时检测目的。基于计算机视觉的手势识别方法可以有效克服传统方法的弊处。现有技术中已有一些基于计算机视觉的手势识别方法,比如借助Kinect设备进行手势识别的方法、基于CNN的静态手势识别方法、基于迁移学习的手势识别方法等,但是这些现有方法在识别精度和速度上都无法满足要求。
YOLO v3(You Only Look Once:version 3)的出现,在目标检测领域取得了最佳的检测效果。但是,关于YOLO v3在手势识别领域中的应用迄今天未有公开报导。
发明内容
本发明是为避免上述现有技术的不足,提供一种基于YOLOv3的静态手势实时识别方法,以提高手势识别精度和速度,并减少网络模型训练的时间。
本发明为解决技术问题采用如下技术方案:
本发明基于YOLOv3的静态手势实时识别方法的特点是包括:制作训练集、生成迁移Darknet-53模型、改进候选框参数和实时手势识别各步骤;
步骤1、按如下过程制作训练集
1.1、使用Kinect设备为每一个手势场景拍摄四种类型的Kinect图像,分别是:IR图像、Registration of RGB图像、RGB图像和Depth图像各一张;拍摄获得的图片的分辨率为640×480;
1.2、将每张拍摄获得的图片进行复制,并按比例分别调整分辨率为300×225、400×300、500×375和600×450,获得扩增四倍量的Kinect图像数据集;
1.3、针对所述扩增四倍量的Kinect图像数据集中的每张图片手工标记出手势区域框,并注释手势的类别信息和位置信息,生成手势标签文件;
1.4、由所述Kinect图像数据集和手势标签文件组合构成训练集;
步骤2、按如下过程生成迁移Darknet-53模型
2.1、从ASL数据集中选取x组样本组,每个样本组中包含y个样本,每个样本由一张RGB image手势图片和一张depth image手势图片组成,共获得2×x×y张样本手势图片;
2.2、将每张样本手势图片进行复制,并按比例分别调整分辨率为300×225、400×300、500×375和600×450,获得扩增四倍数量的样本手势图片;
2.3将所述扩增四倍数量的样本手势图片经过Darknet-53进行预训练,将完成预训练所获得的网络参数迁移到基础网络中并进行初始化,得到迁移Darknet-53模型;
步骤3、按如下过程改进YOLOv3的初始候选框参数
3.1、采用K-means聚类算法对训练集中手工标记的手势区域框进行聚类,设置不同的k值,统计对应的误差平方和SSE的值;
3.2、绘制SSE值和k值的关系图;根据SSE值和k值的关系图,用手肘法找到最优的k值,得到对应的k个聚类中心,将所述k个聚类中心作为YOLOv3的初始候选框参数写入配置文件,获得改进的YOLOv3;
步骤4、按如下过程进行实时手势识别
4.1、将步骤1所获得的训练集利用改进的YOLOv3进行训练,得到完成训练的参数模型;
4.2、调用Kinect摄像头同时输出四种类型的Kinect图像,采用经步骤4.1得到的参数模型进行实时识别,获得四种类型的Kinect图像的识别结果;所述四种类型的Kinect图像是指:IR图像、Registration of RGB图像、RGB图像和Depth图像;
4.3、通过融合所述四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别。
本发明基于YOLOv3的静态手势实时识别方法的特点也在于:在所述步骤3.1中,按如下方式获得误差平方和SSE的值:
YOLOv3在训练过程中将图像划分为S×S个的网格,按式(1)、式(2)和式(3),针对每个网格预测获得B个检测框及其置信度Conf(Object);
Conf(Object)=Pr(Object)×IOU(1),
其中:
Pr(Object)表示是否有目标物落入候选框对应的网格中,若有为1,反之为0;
IOU表示预测框与真实框的交集面积与并集面积之比;box(Pred)表示预测框;box(Truth)表示真实框;area(·)表示面积;
置信度Conf(Object)表示检测框对其检测出物体的自信程度;
每个检测框包含5个参数:x,y,w,h以及Conf(Object);其中,(x,y)代表检测框中心相对网络位置的偏移,(w,h)代表检测框的宽和高;
每个网格预测C个类别概率Pr(Classi|Object),Pr(Classi|Object)表示目标落入网格i的概率;最终输出S×S×[B×(4+1+C)]维的张量;YOLOv3的损失函数loss由式(4)表征:
其中,为坐标误差,为IOU误差,为分类误差,并有:
其中:
的权重参数,λcoord=5;λnoobj为的修正参数λnoobj=0.5;
表示网格i对应的真实框的x参数值,表示网格i的x参数的误差;
表示网格i对应的真实框的y参数值,表示网格i的y参数的误差;
表示网格i对应的真实框的w参数值,表示网格i的w参数的误差;
表示网格i对应的真实框的h参数值,表示网格i的h参数的误差;
Ci表示网格i的置信度Conf(Object)预测值;表示网格i的置信度Conf(Object)真实值,表示网格i的置信度误差;
pi(c)表示目标落入网格i的预测概;概率Pr(Classi|Object);表示目标落入网格i的真实概率,
表示目标落入网格i的概率误差;
表示是否有目标落入网格i中,若有为1,反之为0;
表示判断第j个预测框是否有物体落入网格i,若是则为1,反之为0;
YOLOv3在目标检测过程中引入一组固定尺寸和宽高比的初始候选框采用K-Means聚类算法对步骤1所得训练集中手工标记的目标框进行聚类分析,找到表征初始候选框的个数的最优k值,以及k个聚类中心的宽高维度作为网络配置文件中的候选框参数;
根据误差平方和SSE,并采用手肘法按式(8)确定k值:
其中Cli是第i个簇,p是Cli中的样本点,mi是Cli的重心;
在K-means聚类中,采用欧式距离代表样本点和样本均值之间的误差,样本点为预测框,样本均值是真实框,采用IOU反映预测框和真实框的误差,IOU越大,表明误差越小;利用式(9)计算获得样本的聚类误差:
其中,IOUp表示样本点p的IOU,用1-IOUp表示样本点p的误差,从而得到SSE和k值。
本发明基于YOLOv3的静态手势实时识别方法的特点也在于:在所述步骤4.3中,通过融合所述四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别是按如下过程进行:
测试图像由四种类型的Kinect图像构成,m表示四种类型的测试图像,m∈{1,2,3,4},以及m=1,2,3,4一一对应表示IR图像、Registation of RGB图像、RGB图像和Depth图像;am表示m类型图像的识别结果的置信度,因Registation of RGB图像来源于RGB图像,将Registation of RGB图像设置的置信度权重为RGB图像的一半,IR图像和Depth图像由独立的传感器生成,其置信度权重与RGB图像相同;设置四类测试图像的置信度权重分别为:
用n表示识别成的手势,针对10组字母手势A、B、C、D、E、F、G、H、I和K,则有:n∈{1,2,3,4,5,6,7,8,9,10},以n=1,2,3,4,5,6,7,8,9,10一一对应表示字母手势A、B、C、D、E、F、G、H、I、K;Pm(n)表示m类型图像识别成字母手势n的概率,Pm(n)∈{1,0},当识别成该字母手势时,Pm(n)=1;当识别成其它字母手势时,Pm(n)=0;以P(n)表示融合四类图像识别结果后识别为字母手势n的概率,所述概率P(n)由式(10)计算获得:
本发明基于YOLOv3的静态手势实时识别方法的特点也在于:在所述步骤4.2中调用Kinect摄像头同时输出四种类型的Kinect图像,可以是针对静态图片,或针对一段包含四种类型Kinect图像的动态视频信号进行实时识别。
与已有技术相比,本发明有益效果体现在:
1、本发明基于卷积神经网络YOLOv3模型,通过使用Kinect设备采集的四种类型的图像数据集代替常用的RGB图像数据集,融合四种类型Kinect测试图像的识别结果,有效提高了识别准确率;
2、本发明采用K-means聚类算法对初始候选框的参数进行改进,有效提高了识别速度;
3、本发明采用迁移学习的方法,切实减少模型的训练时间。
4、本发明方法对流式视频静态手势的识别准确率可达到99%以上,识别速度达到50frames/s以上;使用迁移学习的方法使得训练时间减少约25%。
附图说明
图1为本发明中所采用的方法总体流程图;
图2为本发明数据集制作过程示意图;
图3为本发明采用的聚类算法中SSE随k值变化折线图;
具体实施方式
参见图1和图2,本实施例中基于YOLOv3的静态手势实时识别方法包括:制作训练集、生成迁移Darknet-53模型、改进候选框参数和实时手势识别各步骤。
步骤1、按如下过程制作训练集
1.1、使用Kinect设备为每一个手势场景拍摄四种类型的Kinect图像,分别是:IR图像、Registration of RGB图像、RGB图像和Depth图像各一张;拍摄获得的图片的分辨率为640×480;为了提高识别方法的鲁棒性,在制作数据集时,图像分辨率、单张图片包含的手势个数、光线强度、拍摄的距离远近、背景、手势重叠情况不尽相同。按照单张图片包含的手势个数为1,2,3,4,5分别拍摄了7组不同条件下的手势图片,包括:正常情况、光线较暗、光线较亮、手势离摄像头较近、手势离摄像头较远、手势重叠和背景复杂情况。
1.2、将每张拍摄获得的图片进行复制,并按比例分别调整分辨率为300×225、400×300、500×375和600×450,获得扩增四倍量的Kinect图像数据集。
1.3、针对扩增四倍量的Kinect图像数据集中的每张图片手工标记出手势区域框,并注释手势的类别信息和位置信息,生成手势标签文件。
1.4、由Kinect图像数据集和手势标签文件组合构成训练集。
步骤2、按如下过程生成迁移Darknet-53模型
2.1、从ASL(American Sign Language)数据集中选取x组样本组,每个样本组中包含y个样本,每个样本由一张RGB image手势图片和一张depth image手势图片组成,共获得2×x×y张样本手势图片。
2.2、将每张样本手势图片进行复制,并按比例分别调整分辨率为300×225、400×300、500×375和600×450,获得扩增四倍数量的样本手势图片。
2.3将扩增四倍数量的样本手势图片经过Darknet-53进行预训练,将完成预训练所获得的网络参数迁移到基础网络中并进行初始化,得到迁移Darknet-53模型。
步骤3、按如下过程改进YOLOv3的初始候选框参数
3.1、采用K-means聚类算法对训练集中手工标记的手势区域框进行聚类,设置不同的k值,统计对应的误差平方和SSE(Sum of the Squared Errors)的值。
3.2、图3为本实例中绘制的SSE值和k值的关系图,用手肘法找到最优的k值,得到对应的k个聚类中心,将k个聚类中心作为YOLOv3的初始候选框参数写入配置文件,获得改进的YOLOv3。
步骤4、按如下过程进行实时手势识别
4.1、将步骤1所获得的训练集利用改进的YOLOv3进行训练,得到完成训练的参数模型;
4.2、调用Kinect摄像头同时输出四种类型的Kinect图像,采用经步骤4.1得到的参数模型进行实时识别,获得四种类型的Kinect图像的识别结果;四种类型的Kinect图像是指:IR图像、Registration of RGB图像、RGB图像和Depth图像。
4.3、通过融合四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别。
具体实施中,步骤3.1是按如下方式获得误差平方和SSE的值:
YOLOv3在训练过程中将图像划分为S×S个的网格,按式(1)、式(2)和式(3),针对每个网格预测获得B个检测框及其置信度Conf(Object);
Conf(Object)=Pr(Object)×IOU (1),
其中:
Pr(Object)表示是否有目标物落入候选框对应的网格中,若有为1,反之为0,如式(2)所示;
IOU表示预测框与真实框的交集面积与并集面积之比;box(Pred)表示预测框;box(Truth)表示真实框;area(·)表示面积;
置信度Conf(Object)表示检测框对其检测出物体的自信程度;
每个检测框包含5个参数:x,y,w,h以及Conf(Object);其中,(x,y)代表检测框中心相对网络位置的偏移,(w,h)代表检测框的宽和高;
每个网格预测C个类别概率Pr(Classi|Object),Pr(Classi|Object)表示目标落入网格i的概率;最终输出S×S×[B×(4+1+C)]维的张量(tensor);YOLOv3的损失函数loss由式(4)表征:
其中,为坐标误差,为IOU误差,为分类误差,并有:
其中:
λcoord为的权重参数,λcoord=5;λnoobj为的修正参数λnoobj=0.5;
表示网格i对应的真实框的x参数值,表示网格i的x参数的误差;
表示网格i对应的真实框的y参数值,表示网格i的y参数的误差;
表示网格i对应的真实框的w参数值,表示网格i的w参数的误差;
表示网格i对应的真实框的h参数值,表示网格i的h参数的误差;
Ci表示网格i的置信度Conf(Object)预测值;表示网格i的置信度Conf(Object)真实值,表示网格i的置信度误差;
pi(c)表示目标落入网格i的预测概率Pr(Classi|Object);表示目标落入网格i的真实概率,
表示目标落入网格i的概率误差;
表示是否有目标落入网格i中,若有为1,反之为0;
表示判断第j个预测框是否有物体落入网格i,若是则为1,反之为0;
YOLOv3在目标检测过程中引入一组固定尺寸和宽高比的初始候选框采用K-Means聚类算法对步骤1所得训练集中手工标记的目标框进行聚类分析,找到表征初始候选框的个数的最优k值,以及k个聚类中心的宽高维度作为网络配置文件中的候选框参数;
根据误差平方和SSE,并采用手肘法按式(8)确定k值:
其中Cli是第i个簇,p是Cli中的样本点,mi是Cli的重心,即为Cli中所有样本的均值,SSE是所有样本的聚类误差,代表聚类效果的好坏,手肘法的核心思想就是:随着k值增大,样本划分更加精细,SSE逐渐变小,当k达到最优聚类数时,继续增加k值对聚类程度回报会迅速变小,表现为SSE下降幅度骤减,SSE和k的关系图呈现出一个手肘的形状,肘部对应的k值就是我们所需要的最优聚类数;
在K-means聚类中,采用欧式距离代表样本点和样本均值之间的误差,样本点为预测框,样本均值是真实框,采用IOU反映预测框和真实框的误差,IOU越大,表明误差越小;利用式(9)计算获得样本的聚类误差:
其中,IOUp表示样本点p的IOU,用1-IOUp表示样本点p的误差,从而得到SSE和k值。
具体实施中,步骤4.3中通过融合四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别是按如下过程进行:
测试图像由四种类型的Kinect图像构成,m表示四种类型的测试图像,m∈{1,2,3,4},以及m=1,2,3,4一一对应表示IR图像、Registation of RGB图像、RGB图像和Depth图像;am表示m类型图像的识别结果的置信度,因Registation of RGB图像来源于RGB图像,将Registation of RGB图像设置的置信度权重为RGB图像的一半,IR图像和Depth图像由独立的传感器生成,其置信度权重与RGB图像相同;设置四类测试图像的置信度权重分别为:
用n表示识别成的手势,针对10组字母手势A、B、C、D、E、F、G、H、I和K,则有:n∈{1,2,3,4,5,6,7,8,9,10},以n=1,2,3,4,5,6,7,8,9,10一一对应表示字母手势A、B、C、D、E、F、G、H、I、K;Pm(n)表示m类型图像识别成字母手势n的概率,Pm(n)∈{1,0},当识别成该字母手势时,Pm(n)=1;当识别成其它字母手势时,Pm(n)=0;以P(n)表示融合四类图像识别结果后识别为字母手势n的概率,概率P(n)由式(10)计算获得:
为了说明融合四种类型图像的识别结果,以一个实际场景为例,假设某个手势,被RGB图像识别为D,被其它三种类型的图像识别为E,根据式(10),分别计算P(n)值,得到的结果为:P(1)=P(2)=P(3)=P(6)=P(7)=P(8)=P(9)=P(10)=0,P(5)最大,n=5表示识别为字母手势E,由于该手势被识别为E的概率最大,因此认定该手势识别为E。
具体实施中,在步骤4.2中调用Kinect摄像头同时输出四种类型的Kinect图像,可以是针对静态图片,或针对一段包含四种类型Kinect图像的动态视频信号进行实时识别。
本发明方法对流式视频静态手势的识别准确率可达到99%以上,识别速度达到50frames/s以上,使用迁移学习的方法使得训练时间减少约25%。
Claims (4)
1.一种基于YOLOv3的静态手势实时识别方法,其特征是包括:制作训练集、生成迁移Darknet-53模型、改进候选框参数和实时手势识别各步骤;
步骤1、按如下过程制作训练集
1.1、使用Kinect设备为每一个手势场景拍摄四种类型的Kinect图像,分别是:IR图像、Registration of RGB图像、RGB图像和Depth图像各一张;拍摄获得的图片的分辨率为640×480;
1.2、将每张拍摄获得的图片进行复制,并按比例分别调整分辨率为300×225、400×300、500×375和600×450,获得扩增四倍量的Kinect图像数据集;
1.3、针对所述扩增四倍量的Kinect图像数据集中的每张图片手工标记出手势区域框,并注释手势的类别信息和位置信息,生成手势标签文件;
1.4、由所述Kinect图像数据集和手势标签文件组合构成训练集;
步骤2、按如下过程生成迁移Darknet-53模型
2.1、从ASL数据集中选取x组样本组,每个样本组中包含y个样本,每个样本由一张RGBimage手势图片和一张depth image手势图片组成,共获得2×x×y张样本手势图片;
2.2、将每张样本手势图片进行复制,并按比例分别调整分辨率为300×225、400×300、500×375和600×450,获得扩增四倍数量的样本手势图片;
2.3将所述扩增四倍数量的样本手势图片经过Darknet-53进行预训练,将完成预训练所获得的网络参数迁移到基础网络中并进行初始化,得到迁移Darknet-53模型;
步骤3、按如下过程改进YOLOv3的初始候选框参数
3.1、采用K-means聚类算法对训练集中手工标记的手势区域框进行聚类,设置不同的k值,统计对应的误差平方和SSE的值;
3.2、绘制SSE值和k值的关系图;根据SSE值和k值的关系图,用手肘法找到最优的k值,得到对应的k个聚类中心,将所述k个聚类中心作为YOLOv3的初始候选框参数写入配置文件,获得改进的YOLOv3;
步骤4、按如下过程进行实时手势识别
4.1、将步骤1所获得的训练集利用改进的YOLOv3进行训练,得到完成训练的参数模型;
4.2、调用Kinect摄像头同时输出四种类型的Kinect图像,采用经步骤4.1得到的参数模型进行实时识别,获得四种类型的Kinect图像的识别结果;所述四种类型的Kinect图像是指:IR图像、Registration of RGB图像、RGB图像和Depth图像;
4.3、通过融合所述四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别。
2.根据权利要求1所述的基于YOLOv3的静态手势实时识别方法,其特征是:在所述步骤3.1中,按如下方式获得误差平方和SSE的值:
YOLOv3在训练过程中将图像划分为S×S个的网格,按式(1)、式(2)和式(3),针对每个网格预测获得B个检测框及其置信度Conf(Object);
Conf(Object)=Pr(Object)×IOU (1),
其中:
Pr(Object)表示是否有目标物落入候选框对应的网格中,若有为1,反之为0;
IOU表示预测框与真实框的交集面积与并集面积之比;box(Pred)表示预测框;box(Truth)表示真实框;area(·)表示面积;
置信度Conf(Object)表示检测框对其检测出物体的自信程度;
每个检测框包含5个参数:x,y,w,h以及Conf(Object);其中,(x,y)代表检测框中心相对网络位置的偏移,(w,h)代表检测框的宽和高;
每个网格预测C个类别概率Pr(Classi|Object),Pr(Classi|Object)表示目标落入网格i的概率;最终输出S×S×[B×(4+1+C)]维的张量;YOLOv3的损失函数loss由式(4)表征:
其中,为坐标误差,为IOU误差,为分类误差,并有:
其中:
λcoord为的权重参数,λcoord=5;λnoobj为的修正参数λnoobj=0.5;
表示网格i对应的真实框的x参数值,表示网格i的x参数的误差;
表示网格i对应的真实框的y参数值,表示网格i的y参数的误差;
表示网格i对应的真实框的w参数值,表示网格i的w参数的误差;
表示网格i对应的真实框的h参数值,表示网格i的h参数的误差;
Ci表示网格i的置信度Conf(Object)预测值;表示网格i的置信度Conf(Object)真实值,表示网格i的置信度误差;
pi(c)表示目标落入网格i的预测概率Pr(Classi|Object);表示目标落入网格i的真实概率,
表示目标落入网格i的概率误差;
表示是否有目标落入网格i中,若有为1,反之为0;
表示判断第j个预测框是否有物体落入网格i,若是则为1,反之为0;
YOLOv3在目标检测过程中引入一组固定尺寸和宽高比的初始候选框采用K-Means聚类算法对步骤1所得训练集中手工标记的目标框进行聚类分析,找到表征初始候选框的个数的最优k值,以及k个聚类中心的宽高维度作为网络配置文件中的候选框参数;
根据误差平方和SSE,并采用手肘法按式(8)确定k值:
其中Cli是第i个簇,p是Cli中的样本点,mi是Cli的重心;
在K-means聚类中,采用欧式距离代表样本点和样本均值之间的误差,样本点为预测框,样本均值是真实框,采用IOU反映预测框和真实框的误差,IOU越大,表明误差越小;利用式(9)计算获得样本的聚类误差:
其中,IOUp表示样本点p的IOU,用1-IOUp表示样本点p的误差,从而得到SSE和k值。
3.根据权利要求1所述的基于YOLOv3的静态手势实时识别方法,其特征是:在所述步骤4.3中,通过融合所述四种类型的Kinect图像的识别结果实现对摄像头中一个或多个手势的识别是按如下过程进行:
测试图像由四种类型的Kinect图像构成,m表示四种类型的测试图像,m∈{1,2,3,4},以及m=1,2,3,4一一对应表示IR图像、Registation of RGB图像、RGB图像和Depth图像;am表示m类型图像的识别结果的置信度,因Registation of RGB图像来源于RGB图像,将Registation of RGB图像设置的置信度权重为RGB图像的一半,IR图像和Depth图像由独立的传感器生成,其置信度权重与RGB图像相同;设置四类测试图像的置信度权重分别为:
用n表示识别成的手势,针对10组字母手势A、B、C、D、E、F、G、H、I和K,则有:n∈{1,2,3,4,5,6,7,8,9,10},以n=1,2,3,4,5,6,7,8,9,10一一对应表示字母手势A、B、C、D、E、F、G、H、I、K;Pm(n)表示m类型图像识别成字母手势n的概率,Pm(n)∈{1,0},当识别成该字母手势时,Pm(n)=1;当识别成其它字母手势时,Pm(n)=0;以P(n)表示融合四类图像识别结果后识别为字母手势n的概率,所述概率P(n)由式(10)计算获得:
4.根据权利要求1所述的基于YOLOv3的静态手势实时识别方法,其特征是:在所述步骤4.2中调用Kinect摄像头同时输出四种类型的Kinect图像,可以是针对静态图片,或针对一段包含四种类型Kinect图像的动态视频信号进行实时识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811137932.5A CN109325454B (zh) | 2018-09-28 | 2018-09-28 | 一种基于YOLOv3的静态手势实时识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811137932.5A CN109325454B (zh) | 2018-09-28 | 2018-09-28 | 一种基于YOLOv3的静态手势实时识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325454A true CN109325454A (zh) | 2019-02-12 |
CN109325454B CN109325454B (zh) | 2020-05-22 |
Family
ID=65266075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811137932.5A Active CN109325454B (zh) | 2018-09-28 | 2018-09-28 | 一种基于YOLOv3的静态手势实时识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325454B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919058A (zh) * | 2019-02-26 | 2019-06-21 | 武汉大学 | 一种基于Yolo V3的多源视频影像重点目标快速检测方法 |
CN109977875A (zh) * | 2019-03-28 | 2019-07-05 | 北京易达图灵科技有限公司 | 基于深度学习的手势识别方法及设备 |
CN109977817A (zh) * | 2019-03-14 | 2019-07-05 | 南京邮电大学 | 基于深度学习的动车组车底板螺栓故障检测方法 |
CN110033453A (zh) * | 2019-04-18 | 2019-07-19 | 国网山西省电力公司电力科学研究院 | 基于改进YOLOv3的输变电线路绝缘子航拍图像故障检测方法 |
CN110084166A (zh) * | 2019-04-19 | 2019-08-02 | 山东大学 | 基于深度学习的变电站烟火智能识别监测方法 |
CN110084192A (zh) * | 2019-04-26 | 2019-08-02 | 南京大学 | 基于目标检测的快速动态手势识别系统及方法 |
CN110222764A (zh) * | 2019-06-10 | 2019-09-10 | 中南民族大学 | 遮挡目标检测方法、系统、设备及存储介质 |
CN110348323A (zh) * | 2019-06-19 | 2019-10-18 | 广东工业大学 | 一种基于神经网络优化的穿戴式设备手势识别方法 |
CN110378426A (zh) * | 2019-07-23 | 2019-10-25 | 安徽磐众信息科技有限公司 | 一种基于yolov3的乳腺结节辅助诊断方法及系统 |
CN110490165A (zh) * | 2019-08-26 | 2019-11-22 | 哈尔滨理工大学 | 一种基于卷积神经网络的动态手势跟踪方法 |
CN110796107A (zh) * | 2019-11-04 | 2020-02-14 | 南京北旨智能科技有限公司 | 电力巡检图像缺陷识别方法和系统、电力巡检无人机 |
CN110852164A (zh) * | 2019-10-10 | 2020-02-28 | 安徽磐众信息科技有限公司 | 一种基于YOLOv3的自动检测违章建筑方法及系统 |
CN110889399A (zh) * | 2019-12-23 | 2020-03-17 | 北京航天泰坦科技股份有限公司 | 基于深度学习的高分辨率遥感影像弱小目标检测方法 |
CN111024072A (zh) * | 2019-12-27 | 2020-04-17 | 浙江大学 | 一种基于深度学习的卫星地图辅助导航定位方法 |
CN111353544A (zh) * | 2020-03-05 | 2020-06-30 | 天津城建大学 | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 |
CN111382723A (zh) * | 2020-03-30 | 2020-07-07 | 北京云住养科技有限公司 | 求救识别的方法、装置及系统 |
CN111476756A (zh) * | 2020-03-09 | 2020-07-31 | 重庆大学 | 一种基于改进YOLOv3网络模型识别铸件DR图像疏松缺陷的方法 |
CN111489339A (zh) * | 2020-04-08 | 2020-08-04 | 北京交通大学 | 高速铁路定位器螺栓备母缺陷的检测方法 |
CN111598081A (zh) * | 2020-04-09 | 2020-08-28 | 浙江工业大学 | 一种七步洗手法操作规范性自动检测方法 |
CN111709310A (zh) * | 2020-05-26 | 2020-09-25 | 重庆大学 | 一种基于深度学习的手势跟踪与识别方法 |
CN111722700A (zh) * | 2019-03-21 | 2020-09-29 | Tcl集团股份有限公司 | 一种人机交互方法及人机交互设备 |
CN111932583A (zh) * | 2020-06-05 | 2020-11-13 | 西安羚控电子科技有限公司 | 一种基于复杂背景下的时空信息一体化智能跟踪方法 |
CN111986156A (zh) * | 2020-07-20 | 2020-11-24 | 华南理工大学 | 一种斧状利器检测方法、系统、装置和存储介质 |
CN112506342A (zh) * | 2020-12-04 | 2021-03-16 | 郑州中业科技股份有限公司 | 基于动态手势识别的人机交互方法及系统 |
WO2021056914A1 (zh) * | 2019-09-25 | 2021-04-01 | 苏州浪潮智能科技有限公司 | 一种目标检测模型的自动建模方法及装置 |
WO2021098796A1 (zh) * | 2019-11-20 | 2021-05-27 | Oppo广东移动通信有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN113158757A (zh) * | 2021-02-08 | 2021-07-23 | 海信视像科技股份有限公司 | 显示设备及手势控制方法 |
CN113205133A (zh) * | 2021-04-30 | 2021-08-03 | 成都国铁电气设备有限公司 | 一种基于多任务学习的隧道水渍智能识别方法 |
CN113988110A (zh) * | 2021-12-02 | 2022-01-28 | 深圳比特微电子科技有限公司 | 闯红灯行为检测方法、装置及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120119987A1 (en) * | 2010-11-12 | 2012-05-17 | Soungmin Im | Method and apparatus for performing gesture recognition using object in multimedia devices |
CN107766842A (zh) * | 2017-11-10 | 2018-03-06 | 济南大学 | 一种手势识别方法及其应用 |
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
US20180096457A1 (en) * | 2016-09-08 | 2018-04-05 | Carnegie Mellon University | Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network |
CN107909600A (zh) * | 2017-11-04 | 2018-04-13 | 南京奇蛙智能科技有限公司 | 一种基于视觉的无人机实时运动目标分类与检测方法 |
CN108509912A (zh) * | 2018-04-03 | 2018-09-07 | 深圳市智绘科技有限公司 | 多路网络视频流车牌识别方法及系统 |
-
2018
- 2018-09-28 CN CN201811137932.5A patent/CN109325454B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120119987A1 (en) * | 2010-11-12 | 2012-05-17 | Soungmin Im | Method and apparatus for performing gesture recognition using object in multimedia devices |
US20180096457A1 (en) * | 2016-09-08 | 2018-04-05 | Carnegie Mellon University | Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network |
CN107909600A (zh) * | 2017-11-04 | 2018-04-13 | 南京奇蛙智能科技有限公司 | 一种基于视觉的无人机实时运动目标分类与检测方法 |
CN107766842A (zh) * | 2017-11-10 | 2018-03-06 | 济南大学 | 一种手势识别方法及其应用 |
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN108509912A (zh) * | 2018-04-03 | 2018-09-07 | 深圳市智绘科技有限公司 | 多路网络视频流车牌识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
DAPENG MAN等: "PWiG: A Phase-based Wireless Gesture Recognition System", 《 2018 INTERNATIONAL CONFERENCE ON COMPUTING, NETWORKING AND COMMUNICATIONS (ICNC)》 * |
SHUXIN QIN等: "Real-time Hand Gesture Recognition from Depth Images Using Convex Shape Decomposition Method", 《SIGNAL PROCESSING SYSTEMS》 * |
凌晨: "基于Kinect的复杂手势识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黄小杭等: "基于YOLO v2的莲蓬快速识别研究", 《现代农业科技》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919058A (zh) * | 2019-02-26 | 2019-06-21 | 武汉大学 | 一种基于Yolo V3的多源视频影像重点目标快速检测方法 |
CN109977817A (zh) * | 2019-03-14 | 2019-07-05 | 南京邮电大学 | 基于深度学习的动车组车底板螺栓故障检测方法 |
CN109977817B (zh) * | 2019-03-14 | 2021-04-27 | 南京邮电大学 | 基于深度学习的动车组车底板螺栓故障检测方法 |
CN111722700A (zh) * | 2019-03-21 | 2020-09-29 | Tcl集团股份有限公司 | 一种人机交互方法及人机交互设备 |
CN109977875A (zh) * | 2019-03-28 | 2019-07-05 | 北京易达图灵科技有限公司 | 基于深度学习的手势识别方法及设备 |
CN110033453A (zh) * | 2019-04-18 | 2019-07-19 | 国网山西省电力公司电力科学研究院 | 基于改进YOLOv3的输变电线路绝缘子航拍图像故障检测方法 |
CN110033453B (zh) * | 2019-04-18 | 2023-02-24 | 国网山西省电力公司电力科学研究院 | 基于改进YOLOv3的输变电线路绝缘子航拍图像故障检测方法 |
CN110084166A (zh) * | 2019-04-19 | 2019-08-02 | 山东大学 | 基于深度学习的变电站烟火智能识别监测方法 |
CN110084192A (zh) * | 2019-04-26 | 2019-08-02 | 南京大学 | 基于目标检测的快速动态手势识别系统及方法 |
CN110222764A (zh) * | 2019-06-10 | 2019-09-10 | 中南民族大学 | 遮挡目标检测方法、系统、设备及存储介质 |
CN110348323A (zh) * | 2019-06-19 | 2019-10-18 | 广东工业大学 | 一种基于神经网络优化的穿戴式设备手势识别方法 |
CN110348323B (zh) * | 2019-06-19 | 2022-12-16 | 广东工业大学 | 一种基于神经网络优化的穿戴式设备手势识别方法 |
CN110378426A (zh) * | 2019-07-23 | 2019-10-25 | 安徽磐众信息科技有限公司 | 一种基于yolov3的乳腺结节辅助诊断方法及系统 |
CN110490165A (zh) * | 2019-08-26 | 2019-11-22 | 哈尔滨理工大学 | 一种基于卷积神经网络的动态手势跟踪方法 |
CN110490165B (zh) * | 2019-08-26 | 2021-05-25 | 哈尔滨理工大学 | 一种基于卷积神经网络的动态手势跟踪方法 |
WO2021056914A1 (zh) * | 2019-09-25 | 2021-04-01 | 苏州浪潮智能科技有限公司 | 一种目标检测模型的自动建模方法及装置 |
CN110852164A (zh) * | 2019-10-10 | 2020-02-28 | 安徽磐众信息科技有限公司 | 一种基于YOLOv3的自动检测违章建筑方法及系统 |
CN110796107A (zh) * | 2019-11-04 | 2020-02-14 | 南京北旨智能科技有限公司 | 电力巡检图像缺陷识别方法和系统、电力巡检无人机 |
WO2021098796A1 (zh) * | 2019-11-20 | 2021-05-27 | Oppo广东移动通信有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN110889399A (zh) * | 2019-12-23 | 2020-03-17 | 北京航天泰坦科技股份有限公司 | 基于深度学习的高分辨率遥感影像弱小目标检测方法 |
CN110889399B (zh) * | 2019-12-23 | 2023-03-31 | 北京航天泰坦科技股份有限公司 | 基于深度学习的高分辨率遥感影像弱小目标检测方法 |
CN111024072A (zh) * | 2019-12-27 | 2020-04-17 | 浙江大学 | 一种基于深度学习的卫星地图辅助导航定位方法 |
CN111353544B (zh) * | 2020-03-05 | 2023-07-25 | 天津城建大学 | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 |
CN111353544A (zh) * | 2020-03-05 | 2020-06-30 | 天津城建大学 | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 |
CN111476756A (zh) * | 2020-03-09 | 2020-07-31 | 重庆大学 | 一种基于改进YOLOv3网络模型识别铸件DR图像疏松缺陷的方法 |
CN111476756B (zh) * | 2020-03-09 | 2024-05-14 | 重庆大学 | 一种基于改进YOLOv3网络模型识别铸件DR图像疏松缺陷的方法 |
CN111382723A (zh) * | 2020-03-30 | 2020-07-07 | 北京云住养科技有限公司 | 求救识别的方法、装置及系统 |
CN111489339A (zh) * | 2020-04-08 | 2020-08-04 | 北京交通大学 | 高速铁路定位器螺栓备母缺陷的检测方法 |
CN111598081A (zh) * | 2020-04-09 | 2020-08-28 | 浙江工业大学 | 一种七步洗手法操作规范性自动检测方法 |
CN111709310B (zh) * | 2020-05-26 | 2024-02-02 | 重庆大学 | 一种基于深度学习的手势跟踪与识别方法 |
CN111709310A (zh) * | 2020-05-26 | 2020-09-25 | 重庆大学 | 一种基于深度学习的手势跟踪与识别方法 |
CN111932583A (zh) * | 2020-06-05 | 2020-11-13 | 西安羚控电子科技有限公司 | 一种基于复杂背景下的时空信息一体化智能跟踪方法 |
CN111986156A (zh) * | 2020-07-20 | 2020-11-24 | 华南理工大学 | 一种斧状利器检测方法、系统、装置和存储介质 |
CN112506342A (zh) * | 2020-12-04 | 2021-03-16 | 郑州中业科技股份有限公司 | 基于动态手势识别的人机交互方法及系统 |
CN112506342B (zh) * | 2020-12-04 | 2022-01-28 | 郑州中业科技股份有限公司 | 基于动态手势识别的人机交互方法及系统 |
CN113158757A (zh) * | 2021-02-08 | 2021-07-23 | 海信视像科技股份有限公司 | 显示设备及手势控制方法 |
CN113205133B (zh) * | 2021-04-30 | 2024-01-26 | 成都国铁电气设备有限公司 | 一种基于多任务学习的隧道水渍智能识别方法 |
CN113205133A (zh) * | 2021-04-30 | 2021-08-03 | 成都国铁电气设备有限公司 | 一种基于多任务学习的隧道水渍智能识别方法 |
CN113988110B (zh) * | 2021-12-02 | 2022-04-05 | 深圳比特微电子科技有限公司 | 闯红灯行为检测方法、装置及可读存储介质 |
CN113988110A (zh) * | 2021-12-02 | 2022-01-28 | 深圳比特微电子科技有限公司 | 闯红灯行为检测方法、装置及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109325454B (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325454B (zh) | 一种基于YOLOv3的静态手势实时识别方法 | |
CN107808143B (zh) | 基于计算机视觉的动态手势识别方法 | |
CN106682598B (zh) | 一种基于级联回归的多姿态的人脸特征点检测方法 | |
CN111709310B (zh) | 一种基于深度学习的手势跟踪与识别方法 | |
CN110070074B (zh) | 一种构建行人检测模型的方法 | |
CN105740823B (zh) | 基于深度卷积神经网络的动态手势轨迹识别方法 | |
CN111275688A (zh) | 基于注意力机制的上下文特征融合筛选的小目标检测方法 | |
Agrawal et al. | A survey on manual and non-manual sign language recognition for isolated and continuous sign | |
CN111563452B (zh) | 一种基于实例分割的多人体姿态检测及状态判别方法 | |
CN116226691B (zh) | 用于手势姿态感知的智能戒指数据处理方法 | |
CN110135237B (zh) | 一种手势识别方法 | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN110458022B (zh) | 一种基于域适应的可自主学习目标检测方法 | |
CN109284779A (zh) | 基于深度全卷积网络的物体检测方法 | |
Xu et al. | Robust hand gesture recognition based on RGB-D Data for natural human–computer interaction | |
CN111028319A (zh) | 一种基于面部运动单元的三维非真实感表情生成方法 | |
CN103105924A (zh) | 人机交互方法和装置 | |
CN110070106A (zh) | 烟雾检测方法、装置及电子设备 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN111652836A (zh) | 一种基于聚类算法和神经网络的多尺度目标检测方法 | |
Wu et al. | Location recognition algorithm for vision-based industrial sorting robot via deep learning | |
CN116469164A (zh) | 基于深度学习的人体手势识别人机交互方法及系统 | |
CN118279320A (zh) | 基于自动提示学习的目标实例分割模型建立方法及其应用 | |
CN110992301A (zh) | 一种气体轮廓识别方法 | |
CN114332711A (zh) | 面部动作识别及模型训练的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |