CN111709310A - 一种基于深度学习的手势跟踪与识别方法 - Google Patents

一种基于深度学习的手势跟踪与识别方法 Download PDF

Info

Publication number
CN111709310A
CN111709310A CN202010452860.4A CN202010452860A CN111709310A CN 111709310 A CN111709310 A CN 111709310A CN 202010452860 A CN202010452860 A CN 202010452860A CN 111709310 A CN111709310 A CN 111709310A
Authority
CN
China
Prior art keywords
gesture
box
network model
target
darknet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010452860.4A
Other languages
English (en)
Other versions
CN111709310B (zh
Inventor
刘礼
张玉浩
廖军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010452860.4A priority Critical patent/CN111709310B/zh
Publication of CN111709310A publication Critical patent/CN111709310A/zh
Application granted granted Critical
Publication of CN111709310B publication Critical patent/CN111709310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的手势跟踪与识别方法,主要步骤为:1)采集若干手势彩色图像;2)标记出手势彩色图像的手部区域框;对手势彩色图像进行分类;3)建立手势数据集;4)搭建Darknet‑53卷积神经网络模型;5)预训练;6)将训练后Darknet‑53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中;7)使用k‑means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框;8)得到训练后的YOLOv3网络模型;9)训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息。本发明对流式视频中手势的识别准确率可达到95%以上,识别速度达到50frames/s以上。

Description

一种基于深度学习的手势跟踪与识别方法
技术领域
本发明涉及目标检测与手势识别技术领域,具体是一种基于深度学习的手势跟踪与识别方法。
背景技术
人类能够很容易识别手势,经过一段时间的学习,人们可以快速地用手势进行交流。近年来,大量的研究致力于开发对手势图像进行识别并分类为预设类别的系统。这种系统已经在游戏和电子设备控制、机器人控制、虚拟现实环境和自然语言通信等领域中得到应用。
基于手势识别的人机交互中,最重要的是对手部进行快速、准确的跟踪定位,由于实时视频中的手部图像有光照强度、自遮挡、运动速度快以及尺度变化等问题,在实际应用中对人的手势进行实时追踪并进行识别是困难的。传统的手势识别方法中,有的使用了特定的传感设备,如数据手套、肌电传感器等,但这将应用限制在有限的场景内;同时,多个摄像头的使用也严重限制了应用场景;目前大多数研究都依赖于深度摄像头拍摄的深度图像,但深度摄像头并不像普通的摄像头那么普遍,且只能在室内环境稳定地使用。上述传统方法在识别时间和识别率上都有待提高。
发明内容
本发明的目的是解决现有技术中存在的问题。
为实现本发明目的而采用的技术方案是这样的,一种基于深度学习的手势跟踪与识别方法,主要包括以下步骤:
1)采集若干手势彩色图像,并对所述手势彩色图像进行预处理。
进一步,采集手势彩色图像的装置为摄像头。
进一步,对所述手势彩色图像进行预处理方法为:利用数据增强方法对手势彩色图像进行扩充。数据增强方法包括翻转、平移和添加噪声。
进一步,所述手势彩色图像在不同的场景、手部倾斜角度、手部尺度和光照条件下采集。
2)标记出手势彩色图像的手部区域框。对手势彩色图像进行分类,为每幅手势彩色图像打上唯一标签,并生产数据标签文件。
3)建立手势数据集。所述手势数据集包括手势彩色图像和对应的标签。
4)搭建Darknet-53卷积神经网络模型。
5)利用训练数据集对Darknet-53卷积神经网络模型进行预训练,得到训练后的Darknet-53卷积神经网络模型。
进一步,所述训练数据集为Egohands数据集。
进一步,对Darknet-53卷积神经网络模型进行预训练的方法为:将训练数据集中的手部图像和标签文件输入到Darknet-53卷积神经网络中,利用梯度下降算法不断更新Darknet-53卷积神经网络权重,直至Darknet-53卷积神经网络权重满足阈值,得到训练好的Darknet-53卷积神经网络模型。
6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中,并初始化。
7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框。将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数。
进一步,k-means聚类时,每个手部区域框和聚类中心的重合度满足下式:
d(box,centroid)=1-IOU(box,centroid)。 (1)
式中,d(box,centroid)为每个手部区域框中心和聚类中心centroid的最短距离。IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。IOU表示交并比。
8)将手势数据集输入到YOLOv3网络模型中,对YOLOv3网络模型进行训练,得到训练后的YOLOv3网络模型。
进一步,训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)。 (2)
式中,λ1、λ2和λ3分别表示置信度损失Lconf(o,c)、目标类别损失Lcla(O,C)和目标定位损失Lloc(l,g)的加权系数。
其中,置信度损失Lconf(o,c)如下所示:
Figure BDA0002508194620000021
式中,
Figure BDA0002508194620000031
表示预测目标边界框i内是否存在目标的Sigmoid概率。
Figure BDA0002508194620000032
oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1。
目标类别损失Lcla(O,C)如下所示:
Figure BDA0002508194620000033
式中,
Figure BDA0002508194620000034
表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。
Figure BDA0002508194620000035
Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在。
目标定位损失Lloc(l,g)如下所示:
Figure BDA0002508194620000036
式中,
Figure BDA0002508194620000037
表示预测边界框坐标的偏移量。
Figure BDA0002508194620000038
表示与之匹配的Ground Truth与默认框之间的坐标偏移量。(bx,by,bw,bh)为预测的目标边界框参数。(cx,cy,pw,ph)为默认框参数。(gx,gy,gw,gh)为与之匹配的真实目标边界框参数。(x,y)代表检测框中心相对网络位置的偏移。(w,h)表示检测框的宽和高。
其中,预测边界框横坐标偏移量
Figure BDA0002508194620000039
纵坐标偏移量
Figure BDA00025081946200000310
宽的偏移量
Figure BDA00025081946200000311
和高的
Figure BDA00025081946200000312
分别满足下式:
Figure BDA00025081946200000313
Figure BDA00025081946200000314
Figure BDA00025081946200000315
Figure BDA00025081946200000316
Ground Truth与默认框之间的横坐标偏移量
Figure BDA00025081946200000317
纵坐标偏移量
Figure BDA00025081946200000318
宽的偏移量
Figure BDA00025081946200000319
和高的偏移量
Figure BDA00025081946200000320
分别满足下式:
Figure BDA00025081946200000321
Figure BDA00025081946200000322
Figure BDA00025081946200000323
Figure BDA00025081946200000324
9)获取实时视频流,并以视频帧方式输入到训练后的YOLOv3网络模型中。训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息。
进一步,对实时视频图像进行识别的主要步骤如下:
9.1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中,得到三种不同尺度的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生r个建议框。
9.2)对特征图进行手势类别识别,主要步骤如下:
9.2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率pas,若概率pas1,则将第a个建议框置0。ε1为概率阈值。a初始值为1,s初始值为1。
9.2.2)令a=a+1,并返回步骤9.2.1),直至r*n*n个建议框的概率均计算完毕。
9.2.3)以概率大小对非0建议框进行降序排列。用非极大值抑制算法去掉重复率>重复率阈值ε2的建议框。
9.2.4)令s=s+1,并返回步骤9.2.1),直至k类手势类别均识别完毕。
9.2.5)保留每个手势类别中概率最大的建议框,将其余建议框置零。概率最大的建议框对应的手势类别即为视频帧的手势类别。建议框为手部区域框。
本发明的技术效果是毋庸置疑的。本发明可以通过普通彩色摄像头对复杂背景下的手势图像进行实时的跟踪定位与准确识别。本发明提供的一种基于深度学习的手势跟踪与识别方法,该方法与现有方法相比,实时性更好、识别率更高、鲁棒性更强。本发明对流式视频中手势的识别准确率可达到95%以上,识别速度达到50frames/s以上。
附图说明
图1为检测示意图;
图2为YOLOv3网络的结构图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
实施例1:
参见图1,一种基于深度学习的手势跟踪与识别方法,主要包括以下步骤:
1)采集若干手势彩色图像,并对所述手势彩色图像进行预处理。
进一步,采集手势彩色图像的装置为摄像头。
进一步,对所述手势彩色图像进行预处理方法为:利用数据增强方法对手势彩色图像进行扩充。数据增强方法包括翻转、平移和添加噪声。
进一步,所述手势彩色图像在不同的场景、手部倾斜角度、手部尺度和光照条件下采集。
2)标记出手势彩色图像的手部区域框。对手势彩色图像进行分类,为每幅手势彩色图像打上唯一标签,并生产数据标签文件。
3)建立手势数据集。所述手势数据集包括手势彩色图像和对应的标签。
4)搭建Darknet-53卷积神经网络模型。
5)利用训练数据集对Darknet-53卷积神经网络模型进行预训练,得到训练后的Darknet-53卷积神经网络模型。
进一步,所述训练数据集为Egohands数据集。
进一步,对Darknet-53卷积神经网络模型进行预训练的方法为:将训练数据集中的手部图像和标签文件输入到Darknet-53卷积神经网络中,利用梯度下降算法不断更新Darknet-53卷积神经网络权重,直至Darknet-53卷积神经网络权重满足阈值,得到训练好的Darknet-53卷积神经网络模型。
6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中,并初始化。Darknet-53为深度学习框架。
7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框。将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数。本实施例k=9。
进一步,k-means聚类时,每个手部区域框和聚类中心的重合度满足下式:
d(box,centroid)=1-IOU(box,centroid)。 (1)
式中,d(box,centroid)为每个手部区域框中心box和聚类中心centroid的最短距离。IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。IOU(Intersection over Union)表示交并比。
8)将手势数据集输入到YOLOv3网络模型中,对YOLOv3网络模型进行训练,改进候选框参数,得到训练后的YOLOv3网络模型。
进一步,训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)。 (2)
式中,λ1、λ2和λ3分别表示置信度损失Lconf(o,c)、目标类别损失Lcla(O,C)和目标定位损失Lloc(l,g)的加权系数。
其中,置信度损失Lconf(o,c)如下所示:
Figure BDA0002508194620000061
式中,
Figure BDA0002508194620000062
表示预测目标边界框i内是否存在目标的Sigmoid概率。
Figure BDA0002508194620000063
oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1。
目标类别损失Lcla(O,C)如下所示:
Figure BDA0002508194620000064
式中,
Figure BDA0002508194620000065
表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。
Figure BDA0002508194620000066
Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在。i表示任意预测目标边界框,j表示目标类型。
目标定位损失Lloc(l,g)如下所示:
Figure BDA0002508194620000067
式中,
Figure BDA0002508194620000068
表示预测边界框坐标的偏移量。
Figure BDA0002508194620000069
表示与之匹配的Ground Truth与默认框之间的坐标偏移量。(bx,by,bw,bh)为预测的目标边界框参数。(cx,cy,pw,ph)为默认框参数。(gx,gy,gw,gh)为与之匹配的真实目标边界框参数。(x,y)代表检测框中心相对网络位置的偏移。(w,h)表示检测框的宽和高。
其中,预测边界框横坐标偏移量
Figure BDA00025081946200000610
纵坐标偏移量
Figure BDA00025081946200000611
宽的偏移量
Figure BDA00025081946200000612
和高的
Figure BDA00025081946200000613
分别满足下式:
Figure BDA00025081946200000614
Figure BDA00025081946200000615
Figure BDA0002508194620000071
Figure BDA0002508194620000072
式中,
Figure BDA0002508194620000073
为预测目标边界框i边界框横坐标、纵坐标、宽和高。
Figure BDA0002508194620000074
为预测目标边界框i对应的默认框横纵坐标。
Figure BDA0002508194620000075
为预测目标边界框i对应的默认框宽和高。
Ground Truth(真实框)与默认框之间的横坐标偏移量
Figure BDA0002508194620000076
纵坐标偏移量
Figure BDA0002508194620000077
宽的偏移量
Figure BDA0002508194620000078
和高的偏移量
Figure BDA0002508194620000079
分别满足下式:
Figure BDA00025081946200000710
Figure BDA00025081946200000711
Figure BDA00025081946200000712
Figure BDA00025081946200000713
式中,
Figure BDA00025081946200000714
为与预测目标边界框i匹配的Ground Truth与默认框之间的横坐标、纵坐标、宽和高。
9)获取实时视频流,并以视频帧(例如RGB图像)方式输入到训练后的YOLOv3网络模型中。训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息。
进一步,对实时视频图像进行识别的主要步骤如下:
9.1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中,得到三种不同尺度的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生r个建议框。尺度分别为13*13,26*26,52*52。
9.2)对特征图进行手势类别识别,主要步骤如下:
9.2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率pas,若概率pas1,则将第a个建议框置0。ε1为概率阈值。a初始值为1,s初始值为1。
9.2.2)令a=a+1,并返回步骤9.2.1),直至r*n*n个建议框的概率均计算完毕。
9.2.3)以概率大小对非0建议框进行降序排列。用非极大值抑制算法去掉重复率>重复率阈值ε2的建议框。
9.2.4)令s=s+1,并返回步骤9.2.1),直至k类手势类别均识别完毕。
9.2.5)保留每个手势类别中概率最大的建议框,将其余建议框置零。概率最大的建议框对应的手势类别即为视频帧的手势类别。建议框为手部区域框。
实施例2:
一种基于深度学习的手势跟踪与识别方法,主要包括以下步骤:
1)采集若干手势彩色图像,并对所述手势彩色图像进行预处理。
2)标记出手势彩色图像的手部区域框。对手势彩色图像进行分类,为每幅手势彩色图像打上唯一标签,并生产数据标签文件。
3)建立手势数据集。所述手势数据集包括手势彩色图像和对应的标签。
4)搭建Darknet-53卷积神经网络模型。
5)利用训练数据集对Darknet-53卷积神经网络模型进行预训练,得到训练后的Darknet-53卷积神经网络模型。
6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中,并初始化。
7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框。将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数。
8)将手势数据集输入到YOLOv3网络模型中,对YOLOv3网络模型进行训练,得到训练后的YOLOv3网络模型。YOLOv3网络的结构图如图2所示。
9)获取实时视频流,并以视频帧方式输入到训练后的YOLOv3网络模型中。训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息。在调用彩色摄像头时,可以获取单张图片进行静态识别,或者对动态的视频流进行实时的手势跟踪与识别。
实施例3:
一种基于深度学习的手势跟踪与识别方法,主要步骤见实施例2,其中,训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)。 (1)
式中,λ1、λ2和λ3分别表示置信度损失Lconf(o,c)、目标类别损失Lcla(O,C)和目标定位损失Lloc(l,g)的加权系数。
其中,置信度损失Lconf(o,c)如下所示:
Figure BDA0002508194620000091
式中,
Figure BDA0002508194620000092
表示预测目标边界框i内是否存在目标的Sigmoid概率。
Figure BDA0002508194620000093
oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1。
目标类别损失Lcla(O,C)如下所示:
Figure BDA0002508194620000094
式中,
Figure BDA0002508194620000095
表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。
Figure BDA0002508194620000096
Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在。
目标定位损失Lloc(l,g)如下所示:
Figure BDA0002508194620000097
式中,
Figure BDA0002508194620000098
表示预测边界框坐标的偏移量。
Figure BDA0002508194620000099
表示与之匹配的Ground Truth与默认框之间的坐标偏移量。(bx,by,bw,bh)为预测的目标边界框参数。(cx,cy,pw,ph)为默认框参数。(gx,gy,gw,gh)为与之匹配的真实目标边界框参数。(x,y)代表检测框中心相对网络位置的偏移。(w,h)表示检测框的宽和高。
其中,预测边界框横坐标偏移量
Figure BDA00025081946200000910
纵坐标偏移量
Figure BDA00025081946200000911
宽的偏移量
Figure BDA00025081946200000912
和高的
Figure BDA00025081946200000913
分别满足下式:
Figure BDA00025081946200000914
Figure BDA00025081946200000915
Figure BDA00025081946200000916
Figure BDA00025081946200000917
Ground Truth与默认框之间的横坐标偏移量
Figure BDA00025081946200000918
纵坐标偏移量
Figure BDA00025081946200000919
宽的偏移量
Figure BDA00025081946200000920
和高的偏移量
Figure BDA00025081946200000921
分别满足下式:
Figure BDA00025081946200000922
Figure BDA00025081946200000923
Figure BDA00025081946200000924
实施例4:
一种基于深度学习的手势跟踪与识别方法,主要步骤见实施例2,其中,对实时视频图像进行识别的主要步骤如下:
1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中,得到三种不同尺度的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生r个建议框。尺度分别为13*13,26*26,52*52。
2)对特征图进行手势类别识别,主要步骤如下:
2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率pas,若概率pas1,则将第a个建议框置0。ε1为概率阈值。a初始值为1,s初始值为1。
2.2)令a=a+1,并返回步骤2.1),直至r*n*n个建议框的概率均计算完毕。
2.3)以概率大小对非0建议框进行降序排列。用非极大值抑制算法去掉重复率>重复率阈值ε2的建议框。
2.4)令s=s+1,并返回步骤2.1),直至k类手势类别均识别完毕。
2.5)保留每个手势类别中概率最大的建议框,将其余建议框置零。概率最大的建议框对应的手势类别即为视频帧的手势类别。
实施例5:
一种基于深度学习的手势跟踪与识别方法的实验,主要步骤如下:
1)搭建整个基于深度学习的手势跟踪与识别方法的实验环境:Windows10操作系统的计算机,CPU为Intel(R)Core(TM)i7-4790,GPU为INVDIA GTX 1070Ti,使用pytorch深度学习框架,采集图像的摄像头为Logitech C525。
2)图像的预处理。
3)手势图像的检测计算:
基础网络部分Darknet-53对图片进行特征提取,为了处理不同尺寸的图像,采取同一个网络,选取不同的卷积层的特征图进行包围框的回归。不同的卷积层的特征图具有不同的感受野,在同一个网络,不同的特征图上的特征值代表了原始图像上面不同尺寸的图像块。特定的卷积层负责处理特征尺寸的物体。YOLOv3模型进行手势识别是一个回归与分类的过程。预测目标边框是一个回归的过程,识别目标框中的手势所属类别是一个分类过程。总损失函数为定位偏移量损失、置信度损失和分类损失的加权和:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g) (2)
目标置信度预测目标矩形框内存在目标的概率,置信度损失Lconf(o,c)采用二值交叉熵损失,其中oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1,
Figure BDA0002508194620000111
表示预测目标边界框i内是否存在目标的Sigmoid概率:
Figure BDA0002508194620000112
其中
Figure BDA0002508194620000113
目标类别损失Lcla(O,C)同样采用二值交叉熵损失,其中Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在。
Figure BDA0002508194620000114
表示网络预测目标边界框i内存在第j类目标的Sigmoid概率:
Figure BDA0002508194620000115
其中
Figure BDA0002508194620000116
目标定位损失Lloc(l,g)采用真实偏差值与预测偏差值之差的平方和,其中
Figure BDA0002508194620000117
表示预测边界框坐标的偏移量,
Figure BDA0002508194620000118
表示与之匹配的Ground Truth与默认框之间的坐标偏移量,(bx,by,bw,bh)为预测的目标边界框参数,(cx,cy,pw,ph)为默认框参数,(gx,gy,gw,gh)为与之匹配的真实目标边界框参数。
Figure BDA0002508194620000119
4)判定机制的计算:
模型识别手势的具体过程如下:
将图像以416*416的分辨率输入网络,得到三种不同尺度(13*13,26*26,52*52)的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生3个建议框。
在某一手势类别中,将该类概率少于阈值(取0.5)的建议框设置为0,然后该类概率对剩余的建议框进行排序。最后用非极大值抑制算法(阈值取0.5)去掉重复率较高的建议框,对于筛选后的建议框,取所有类别中概率最高的值保留,其余置零。若保留的值不为0,则建议框中为此概率值对应类别的手势,若值为0,说明此建议框中没有手势图像,跳过即可。

Claims (9)

1.一种基于深度学习的手势跟踪与识别方法,其特征在于,主要包括以下步骤:
1)采集若干手势彩色图像,并对所述手势彩色图像进行预处理;
2)标记出手势彩色图像的所述手部区域框;对手势彩色图像进行分类,为每幅手势彩色图像打上唯一标签,并生产数据标签文件。
3)建立手势数据集;所述手势数据集包括手势彩色图像和对应的标签;
4)搭建Darknet-53卷积神经网络模型;
5)利用训练数据集对Darknet-53卷积神经网络模型进行预训练,得到训练后的Darknet-53卷积神经网络模型;
6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中,并初始化;
7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框;将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数;
8)将手势数据集输入到YOLOv3网络模型中,对YOLOv3网络模型进行训练,得到训练后的YOLOv3网络模型;
9)获取实时视频流,并以视频帧方式输入到训练后的YOLOv3网络模型中;利用训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息。
2.根据权利要求1或2所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,采集手势彩色图像的装置为摄像头。
3.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,对所述手势彩色图像进行预处理方法为:利用数据增强方法对手势彩色图像进行扩充;数据增强方法包括翻转、平移和添加噪声。
4.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,所述训练数据集为Egohands数据集。
5.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,所述手势彩色图像在不同的场景、手部倾斜角度、手部尺度和光照条件下采集。
6.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,对Darknet-53卷积神经网络模型进行预训练的方法为:将训练数据集中的手部图像和标签文件输入到Darknet-53卷积神经网络中,利用梯度下降算法不断更新Darknet-53卷积神经网络权重,直至Darknet-53卷积神经网络权重满足阈值,得到训练好的Darknet-53卷积神经网络模型。
7.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,k-means聚类时,每个手部区域框和聚类中心的重合度满足下式:
d(box,centroid)=1-IOU(box,centroid); (1)
式中,d(box,centroid)为每个手部区域框中心和聚类中心centroid的最短距离;IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。
8.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,对实时视频图像进行识别的主要步骤如下:
1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中,得到三种不同尺度的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生r个建议框;
2)对特征图进行手势类别识别,主要步骤如下:
2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率pas,若概率pas1,则将第a个建议框置0;ε1为概率阈值;a初始值为1,s初始值为1;
2.2)令a=a+1,并返回步骤2.1),直至r*n*n个建议框的概率均计算完毕;
2.3)以概率大小对非0建议框进行降序排列;用非极大值抑制算法去掉重复率>重复率阈值ε2的建议框;
2.4)令s=s+1,并返回步骤2.1),直至k类手势类别均识别完毕;
2.5)保留每个手势类别中概率最大的建议框,将其余建议框置零;概率最大的建议框对应的手势类别即为视频帧的手势类别;建议框为手部区域框。
9.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g); (2)
式中,λ1、λ2和λ3分别表示置信度损失Lconf(o,c)、目标类别损失Lcla(O,C)和目标定位损失Lloc(l,g)的加权系数;
其中,置信度损失Lconf(o,c)如下所示:
Figure FDA0002508194610000031
式中,
Figure FDA0002508194610000032
表示预测目标边界框i内是否存在目标的Sigmoid概率;
Figure FDA0002508194610000033
oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1;
目标类别损失Lcla(O,C)如下所示:
Figure FDA0002508194610000034
式中,
Figure FDA0002508194610000035
表示网络预测目标边界框i内存在第j类目标的Sigmoid概率;
Figure FDA0002508194610000036
Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在;
目标定位损失Lloc(l,g)如下所示:
Figure FDA0002508194610000037
式中,
Figure FDA0002508194610000038
表示预测边界框坐标的偏移量;
Figure FDA0002508194610000039
表示与之匹配的Ground Truth与默认框之间的坐标偏移量;(x,y)代表检测框中心相对网络位置的偏移;(w,h)表示检测框的宽和高;
其中,预测边界框横坐标偏移量
Figure FDA00025081946100000310
纵坐标偏移量
Figure FDA00025081946100000311
宽的偏移量
Figure FDA00025081946100000312
和高的
Figure FDA00025081946100000313
分别满足下式:
Figure FDA00025081946100000314
Figure FDA00025081946100000315
Figure FDA00025081946100000316
Figure FDA00025081946100000317
式中,(cx,cy,pw,ph)为默认框参数;(bx,by,bw,bh)为预测的目标边界框参数;下标i表示预测目标边界框i;
Ground Truth与默认框之间的横坐标偏移量
Figure FDA00025081946100000318
纵坐标偏移量
Figure FDA00025081946100000319
宽的偏移量
Figure FDA00025081946100000320
和高的偏移量
Figure FDA00025081946100000321
分别满足下式:
Figure FDA00025081946100000322
Figure FDA00025081946100000323
Figure FDA0002508194610000041
Figure FDA0002508194610000042
式中,(gx,gy,gw,gh)为与之匹配的真实目标边界框参数。
CN202010452860.4A 2020-05-26 2020-05-26 一种基于深度学习的手势跟踪与识别方法 Active CN111709310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010452860.4A CN111709310B (zh) 2020-05-26 2020-05-26 一种基于深度学习的手势跟踪与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010452860.4A CN111709310B (zh) 2020-05-26 2020-05-26 一种基于深度学习的手势跟踪与识别方法

Publications (2)

Publication Number Publication Date
CN111709310A true CN111709310A (zh) 2020-09-25
CN111709310B CN111709310B (zh) 2024-02-02

Family

ID=72538284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010452860.4A Active CN111709310B (zh) 2020-05-26 2020-05-26 一种基于深度学习的手势跟踪与识别方法

Country Status (1)

Country Link
CN (1) CN111709310B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132090A (zh) * 2020-09-28 2020-12-25 天地伟业技术有限公司 一种基于yolov3的烟火自动检测预警方法
CN112242002A (zh) * 2020-10-09 2021-01-19 同济大学 基于深度学习的物体识别和全景漫游方法
CN112396666A (zh) * 2020-12-09 2021-02-23 广西双英集团股份有限公司 基于手势识别的装配过程智能控制方法
CN112699967A (zh) * 2021-01-18 2021-04-23 武汉大学 一种基于改进深度神经网络的远距离机场目标检测方法
CN113158757A (zh) * 2021-02-08 2021-07-23 海信视像科技股份有限公司 显示设备及手势控制方法
CN113191335A (zh) * 2021-05-31 2021-07-30 景德镇陶瓷大学 基于深度学习的日用陶瓷类型识别方法
CN113297956A (zh) * 2021-05-22 2021-08-24 温州大学 一种基于视觉的手势识别方法及系统
CN113569656A (zh) * 2021-07-02 2021-10-29 广州大学 一种基于深度学习的考场监控方法
CN113627265A (zh) * 2021-07-13 2021-11-09 深圳市创客火科技有限公司 无人机控制方法、装置及计算机可读存储介质
CN114167978A (zh) * 2021-11-11 2022-03-11 广州大学 一种搭载于建筑机器人的人机交互系统
WO2022116282A1 (zh) * 2020-12-04 2022-06-09 郑州中业科技股份有限公司 基于动态手势识别的人机交互方法及系统
CN117523679A (zh) * 2024-01-08 2024-02-06 成都运达科技股份有限公司 一种驾驶员手势识别方法、系统及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241913A (zh) * 2018-09-10 2019-01-18 武汉大学 结合显著性检测和深度学习的船只检测方法及系统
CN109255375A (zh) * 2018-08-29 2019-01-22 长春博立电子科技有限公司 基于深度学习的全景图像对象检测方法
CN109325454A (zh) * 2018-09-28 2019-02-12 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法
CN109697407A (zh) * 2018-11-13 2019-04-30 北京物灵智能科技有限公司 一种图像处理方法及装置
CN109740454A (zh) * 2018-12-19 2019-05-10 贵州大学 一种基于yolo-v3的人体体态识别方法
CN110084313A (zh) * 2019-05-05 2019-08-02 厦门美图之家科技有限公司 一种生成物体检测模型的方法
CN110135398A (zh) * 2019-05-28 2019-08-16 厦门瑞为信息技术有限公司 基于计算机视觉的双手脱离方向盘检测方法
CN110796168A (zh) * 2019-09-26 2020-02-14 江苏大学 一种基于改进YOLOv3的车辆检测方法
CN110852190A (zh) * 2019-10-23 2020-02-28 华中科技大学 一种融合目标检测与手势识别的驾驶行为识别方法及系统
CN110852164A (zh) * 2019-10-10 2020-02-28 安徽磐众信息科技有限公司 一种基于YOLOv3的自动检测违章建筑方法及系统
CN110889332A (zh) * 2019-10-30 2020-03-17 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于面试中微表情的说谎检测方法
CN111104820A (zh) * 2018-10-25 2020-05-05 中车株洲电力机车研究所有限公司 一种基于深度学习的手势识别方法
US20210089841A1 (en) * 2018-02-21 2021-03-25 Robert Bosch Gmbh Real-Time Object Detection Using Depth Sensors

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089841A1 (en) * 2018-02-21 2021-03-25 Robert Bosch Gmbh Real-Time Object Detection Using Depth Sensors
CN109255375A (zh) * 2018-08-29 2019-01-22 长春博立电子科技有限公司 基于深度学习的全景图像对象检测方法
CN109241913A (zh) * 2018-09-10 2019-01-18 武汉大学 结合显著性检测和深度学习的船只检测方法及系统
CN109325454A (zh) * 2018-09-28 2019-02-12 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法
CN111104820A (zh) * 2018-10-25 2020-05-05 中车株洲电力机车研究所有限公司 一种基于深度学习的手势识别方法
CN109697407A (zh) * 2018-11-13 2019-04-30 北京物灵智能科技有限公司 一种图像处理方法及装置
CN109740454A (zh) * 2018-12-19 2019-05-10 贵州大学 一种基于yolo-v3的人体体态识别方法
CN110084313A (zh) * 2019-05-05 2019-08-02 厦门美图之家科技有限公司 一种生成物体检测模型的方法
CN110135398A (zh) * 2019-05-28 2019-08-16 厦门瑞为信息技术有限公司 基于计算机视觉的双手脱离方向盘检测方法
CN110796168A (zh) * 2019-09-26 2020-02-14 江苏大学 一种基于改进YOLOv3的车辆检测方法
CN110852164A (zh) * 2019-10-10 2020-02-28 安徽磐众信息科技有限公司 一种基于YOLOv3的自动检测违章建筑方法及系统
CN110852190A (zh) * 2019-10-23 2020-02-28 华中科技大学 一种融合目标检测与手势识别的驾驶行为识别方法及系统
CN110889332A (zh) * 2019-10-30 2020-03-17 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于面试中微表情的说谎检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MUJAHID, A等: "Real-Time Hand Gesture Recognition Based on Deep Learning YOLOv3 Model", APPLIED SCIENCES-BASEL, vol. 11, no. 9, pages 4164 *
YUBO ZHANG等: "Gesture-based bootstrapping for egocentric hand segmentation [arXiv]", ARXIV, pages 12 *
余春艳;徐小丹;钟诗俊;: "面向显著性目标检测的SSD改进模型", 电子与信息学报, no. 11, pages 19 - 26 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132090A (zh) * 2020-09-28 2020-12-25 天地伟业技术有限公司 一种基于yolov3的烟火自动检测预警方法
CN112242002A (zh) * 2020-10-09 2021-01-19 同济大学 基于深度学习的物体识别和全景漫游方法
WO2022116282A1 (zh) * 2020-12-04 2022-06-09 郑州中业科技股份有限公司 基于动态手势识别的人机交互方法及系统
CN112396666A (zh) * 2020-12-09 2021-02-23 广西双英集团股份有限公司 基于手势识别的装配过程智能控制方法
CN112699967A (zh) * 2021-01-18 2021-04-23 武汉大学 一种基于改进深度神经网络的远距离机场目标检测方法
CN112699967B (zh) * 2021-01-18 2024-03-12 武汉大学 一种基于改进深度神经网络的远距离机场目标检测方法
CN113158757A (zh) * 2021-02-08 2021-07-23 海信视像科技股份有限公司 显示设备及手势控制方法
CN113297956A (zh) * 2021-05-22 2021-08-24 温州大学 一种基于视觉的手势识别方法及系统
CN113297956B (zh) * 2021-05-22 2023-12-08 温州大学 一种基于视觉的手势识别方法及系统
CN113191335A (zh) * 2021-05-31 2021-07-30 景德镇陶瓷大学 基于深度学习的日用陶瓷类型识别方法
CN113569656A (zh) * 2021-07-02 2021-10-29 广州大学 一种基于深度学习的考场监控方法
CN113569656B (zh) * 2021-07-02 2023-08-29 广州大学 一种基于深度学习的考场监控方法
CN113627265A (zh) * 2021-07-13 2021-11-09 深圳市创客火科技有限公司 无人机控制方法、装置及计算机可读存储介质
CN114167978A (zh) * 2021-11-11 2022-03-11 广州大学 一种搭载于建筑机器人的人机交互系统
CN117523679A (zh) * 2024-01-08 2024-02-06 成都运达科技股份有限公司 一种驾驶员手势识别方法、系统及存储介质

Also Published As

Publication number Publication date
CN111709310B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN111709310B (zh) 一种基于深度学习的手势跟踪与识别方法
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN108710868B (zh) 一种基于复杂场景下的人体关键点检测系统及方法
CN106845487B (zh) 一种端到端的车牌识别方法
Frizzi et al. Convolutional neural network for video fire and smoke detection
Ibraheem et al. Survey on various gesture recognition technologies and techniques
EP3092619B1 (en) Information processing apparatus and information processing method
CN111666843B (zh) 一种基于全局特征和局部特征拼接的行人重识别方法
US20160259980A1 (en) Systems and methodologies for performing intelligent perception based real-time counting
CN110378281A (zh) 基于伪3d卷积神经网络的组群行为识别方法
CN108416394A (zh) 基于卷积神经网络的多目标检测模型构建方法
CN109583315B (zh) 一种面向智能视频监控的多通道快速人体姿态识别方法
KR102373753B1 (ko) 딥러닝 기반의 차량식별추적 방법, 및 시스템
CN111199220B (zh) 电梯内人员检测与人数统计的轻量化深度神经网络方法
CN110796018B (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN106529419A (zh) 视频显著性堆栈式聚合的对象自动检测方法
US20210319242A1 (en) Dense and Discriminative Neural Network Architectures for Improved Object Detection and Instance Segmentation
Jin et al. Real-time action detection in video surveillance using sub-action descriptor with multi-cnn
Ma et al. A survey of video-based crowd anomaly detection in dense scenes
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
Yang et al. Non-temporal lightweight fire detection network for intelligent surveillance systems
CN111444764A (zh) 一种基于深度残差网络的手势识别方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN116363738A (zh) 一种基于多移动目标的人脸识别方法、系统及存储介质
CN113781519A (zh) 目标跟踪方法和目标跟踪装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant