CN109977875A - 基于深度学习的手势识别方法及设备 - Google Patents

基于深度学习的手势识别方法及设备 Download PDF

Info

Publication number
CN109977875A
CN109977875A CN201910242356.9A CN201910242356A CN109977875A CN 109977875 A CN109977875 A CN 109977875A CN 201910242356 A CN201910242356 A CN 201910242356A CN 109977875 A CN109977875 A CN 109977875A
Authority
CN
China
Prior art keywords
gesture identification
image pattern
deep learning
identification model
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910242356.9A
Other languages
English (en)
Inventor
袁飞
华仁红
马向军
孙文凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yida Turing Technology Co Ltd
Original Assignee
Beijing Yida Turing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yida Turing Technology Co Ltd filed Critical Beijing Yida Turing Technology Co Ltd
Priority to CN201910242356.9A priority Critical patent/CN109977875A/zh
Publication of CN109977875A publication Critical patent/CN109977875A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种基于深度学习的手势识别方法及设备,所述方法包括:将待识别图像输入预先构建的手势识别模型;其中,所述手势识别模型基于预先标注的图像样本和YOLOv3深度学习网络训练获得;基于手势识别模型的输出结果,获得待识别图像中包含手势的子图像。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确进行手势识别的技术效果。

Description

基于深度学习的手势识别方法及设备
技术领域
本发明实施例涉及视频技术领域,尤其涉及一种基于深度学习的手势识别方法及设备。
背景技术
人机交互是人与计算机或其它机器以一定的方式完成信息交换的过程,因其设备简单、使用便捷等特点,成为近年来人机交互领域的研究热点。基于HOG、SIFT等传统特征的手势识别方法识别准确率不高,而且很难识别图片中的多个手势目标。目前对手势识别的研究中,多数是对单只人手的手势进行识别,在手势交互过程中很多时候会出现双手操作以及其他的手。
背景技术一首先通过摄像头来采集图像,利用背景差分法结合颜色直方图检测动态信息完成手势的检测。其次采用主流的非线性跟踪算法—粒子滤波算法来跟踪手势。背景技术二首先利用差分法缩小手势搜索区域,然后在多尺度下检测手的位置,进而实现跟踪,最后进行分类识别。背景技术三首先通过人工标注数据集,利用SSD网络中的VGG16来提取特征,然后利用softmax层输出每类手势的概率。
背景技术一和二采用传统的背景差分法和直方图信息来检测手势位置,背景图像的建模和模拟的准确程度,直接影响到检测的效果。不论任何运动目标检测算法,都要尽可能的满足任何图像场景的处理要求,但是由于场景的复杂性、不可预知性、以及各种环境干扰和噪声的存在,如光照的突然变化、实际背景图像中有些物体的波动、摄像机的抖动、运动物体进出场景对原场景的影响等,使得背景的建模和模拟变得比较困难。背景技术三利用深度学习SSD网络来识别手势,SSD算法一个比较大的缺点是对小目标不够鲁棒,目标集中时容易漏检和误检。
发明内容
本发明实施例提供一种基于深度学习的手势识别方法及设备,用以解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
本发明实施例提供一种基于深度学习的手势识别方法,包括:
将待识别图像输入预先构建的手势识别模型;其中,所述手势识别模型基于预先标注的图像样本和YOLOv3深度学习网络训练获得;
基于手势识别模型的输出结果,获得待识别图像中包含手势的子图像。
进一步,将待识别图像输入预先构建的手势识别模型,之前还包括:
获取第一图像样本集,并对第一图像样本集进行标注;
基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。
进一步,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:
调整YOLOv3网络层输入大小,使网络层提取到的手势特征信息增加;
修改最后一层拼接层route的参数;
修改上采样层upsampe层的参数。
进一步,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:
在YOLOv3深度学习网络上添加focus loss损失函数。
进一步,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,包括:
基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,直至loss不再下降为止。
进一步,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之后还包括:
获取真实场景中的图像样本,作为第二图像样本集;
对第二图像样本集进行标注;
基于标注后的第二图像样本集,对手势识别模型进行调整训练。
进一步,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之后还包括:
基于手势识别模型的识别准确率和速度,对手势识别模型的输入大小进行调整。
进一步,第一图像样本集包括摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。
本发明实施例提供一种基于深度学习的手势识别设备,包括:
输入模块,用于将待识别图像输入预先构建的手势识别模型;其中,所述手势识别模型基于预先标注的图像样本和YOLOv3深度学习网络训练获得;
获取模块,用于基于手势识别模型的输出结果,获得待识别图像中包含手势的子图像。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述任一项所述手势识别方法的步骤。
本发明实施例提供的基于深度学习的手势识别方法及设备,基于预先构建的手势识别模型实现对待识别图像中手势的识别,解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于深度学习的手势识别方法实施例整体流程示意图;
图2为本发明基于深度学习的手势识别设备实施例整体结构示意图;
图3为本发明电子设备实施例结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
人机交互是人与计算机或其它机器以一定的方式完成信息交换的过程,因其设备简单、使用便捷等特点,成为近年来人机交互领域的研究热点。基于HOG、SIFT等传统特征的手势识别方法识别准确率不高,而且很难识别图片中的多个手势目标。目前对手势识别的研究中,多数是对单只人手的手势进行识别,在手势交互过程中很多时候会出现双手操作以及其他的手。
背景技术一首先通过摄像头来采集图像,利用背景差分法结合颜色直方图检测动态信息完成手势的检测。其次采用主流的非线性跟踪算法—粒子滤波算法来跟踪手势。背景技术二首先利用差分法缩小手势搜索区域,然后在多尺度下检测手的位置,进而实现跟踪,最后进行分类识别。背景技术三首先通过人工标注数据集,利用SSD网络中的VGG16来提取特征,然后利用softmax层输出每类手势的概率。
背景技术一和二采用传统的背景差分法和直方图信息来检测手势位置,背景图像的建模和模拟的准确程度,直接影响到检测的效果。不论任何运动目标检测算法,都要尽可能的满足任何图像场景的处理要求,但是由于场景的复杂性、不可预知性、以及各种环境干扰和噪声的存在,如光照的突然变化、实际背景图像中有些物体的波动、摄像机的抖动、运动物体进出场景对原场景的影响等,使得背景的建模和模拟变得比较困难。背景技术三利用深度学习SSD网络来识别手势,SSD算法一个比较大的缺点是对小目标不够鲁棒,目标集中时容易漏检和误检。
如图1,示出本发明实施例一种基于深度学习的手势识别方法整体流程示意图,包括:
S1,将待识别图像输入预先构建的手势识别模型;其中,所述手势识别模型基于预先标注的图像样本和YOLOv3深度学习网络训练获得。
S2,基于手势识别模型的输出结果,获得待识别图像中包含手势的子图像。
需要说明的是,YOLOv3是目标检测网络的一种,YOLOv3对于大分辨率、小目标的检测鲁棒性较强,相比其他算法更符合工业界对目标检测算法实时性的要求,简单易实现,对于嵌入式很友好。YOLOv3使用Darknet-53网络来实现特征提取,DarkNet-53主要由3×3和1×1的卷积核以及类似残差网络(ResNet)中的跳过连接构成,相比其他特征提取网络速度更快、准确率更高。
进一步的,将待识别图像输入预先构建的手势识别模型,之前还包括:获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。
基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:调整YOLOv3网络层输入大小,使网络层提取到的手势特征信息增加;修改最后一层拼接层route的参数;修改上采样层upsampe层的参数。
基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:在YOLOv3深度学习网络上添加focus loss损失函数。
基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,包括:基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,直至loss不再下降为止。
基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之后还包括:获取真实场景中的图像样本,作为第二图像样本集;对第二图像样本集进行标注;基于标注后的第二图像样本集,对手势识别模型进行调整训练。
基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之后还包括:基于手势识别模型的识别准确率和速度,对手势识别模型的输入大小进行调整。
第一图像样本集包括摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。
本发明实施例提供的基于深度学习的手势识别方法,所述手势识别方法将待识别图像输入预先构建的手势识别模型;其中,所述手势识别模型基于预先标注的图像样本和YOLOv3深度学习网络训练获得;基于手势识别模型的输出结果,获得待识别图像中包含手势的子图像。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别方法,将待识别图像输入预先构建的手势识别模型,之前还包括:
获取第一图像样本集,并对第一图像样本集进行标注;
基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。
需要说明的是,第一图像样本集包括摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。
本发明实施例提供的基于深度学习的手势识别方法,所述手势识别方法获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别方法,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:
调整YOLOv3网络层输入大小,使网络层提取到的手势特征信息增加;
修改最后一层拼接层route的参数;
修改上采样层upsampe层的参数。
需要说明的是,作为本发明实施例的一种具体实现方式,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:修改YOLOv3网络层输入大小为608*608,使网络层提取到的手势特征信息比较多,能更好的提取小分辨率的手势特征,修改最后一层拼接层route的参数,-1,36改为-1,11,修改上采样层upsampe层的参数,将2改为4。
本发明实施例提供的基于深度学习的手势识别方法,所述手势识别方法基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:调整YOLOv3网络层输入大小,使网络层提取到的手势特征信息增加;修改最后一层拼接层route的参数;修改上采样层upsampe层的参数。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别方法,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:
在YOLOv3深度学习网络上添加focus loss损失函数。
focus loss是现有技术中一种处理深度学习中正负样本不均衡的损失函数,降低non-hard-sample的loss,提高hard-sample的loss。以二分类cross entropy loss为例。
L(y,y0)=-log(Py)
其中,
Py=P if y0=1
Py=1-P if y0=0
y0是truth label,Py是predicted probablity,Py∈[0,1];
focus loss的一个实现是修改loss为如下形式:
L(y,y0)=-(1-Py)2log(Py)
显然Py越接近1的样本,其分类效果越好,也说明这个样本属于non-hard-sample,观察下图,focus loss压制了较大的Py对应的loss值,降低在反向传播过程中的作用。
本发明实施例提供的基于深度学习的手势识别方法,所述手势识别方法基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:调整YOLOv3网络层输入大小,使网络层提取到的手势特征信息增加;修改最后一层拼接层route的参数;修改上采样层upsampe层的参数。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。并且添加focus loss解决正负样本比例严重失衡的问题。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别方法,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,包括:基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,直至loss不再下降为止。
需要说明的是,本发明实施例通过添加focus loss损失函数解决正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重。
本发明实施例提供的基于深度学习的手势识别方法,所述手势识别方法获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别方法,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之后还包括:
获取真实场景中的图像样本,作为第二图像样本集;
对第二图像样本集进行标注;
基于标注后的第二图像样本集,对手势识别模型进行调整训练。
需要说明的是,训练获得手势识别模型智之后,获取真实场景中的图像样本,标注真实使用场景下的图像,在前面训练好的手势识别模型上进行微调,使手势识别模型泛化能力更强。
本发明实施例提供的基于深度学习的手势识别方法,所述手势识别方法获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。获取真实场景中的图像样本,作为第二图像样本集;对第二图像样本集进行标注;基于标注后的第二图像样本集,对手势识别模型进行调整训练。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别方法,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之后还包括:基于手势识别模型的识别准确率和速度,对手势识别模型的输入大小进行调整。
本发明实施例提供的基于深度学习的手势识别方法,所述手势识别方法获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。基于手势识别模型的识别准确率和速度,对手势识别模型的输入大小进行调整。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别方法,第一图像样本集包括摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。
本发明实施例提供的基于深度学习的手势识别方法,所述手势识别方法获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
如图2,示出本发明实施例一种基于深度学习的手势识别设备整体结构示意图,包括:
输入模块A01,将待识别图像输入预先构建的手势识别模型;其中,所述手势识别模型基于预先标注的图像样本和YOLOv3深度学习网络训练获得。
获取模块A02,基于手势识别模型的输出结果,获得待识别图像中包含手势的子图像。
需要说明的是,YOLOv3是目标检测网络的一种,YOLOv3对于大分辨率、小目标的检测鲁棒性较强,相比其他算法更符合工业界对目标检测算法实时性的要求,简单易实现,对于嵌入式很友好。YOLOv3使用Darknet-53网络来实现特征提取,DarkNet-53主要由3×3和1×1的卷积核以及类似残差网络(ResNet)中的跳过连接构成,相比其他特征提取网络速度更快、准确率更高。
进一步的,还包括第一训练模块,用于在将待识别图像输入预先构建的手势识别模型之前,获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。
还包括调整模块,用于在基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型之前,调整YOLOv3网络层输入大小,使网络层提取到的手势特征信息增加;修改最后一层拼接层route的参数;修改上采样层upsampe层的参数。
添加模块,用于在基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型之前,在YOLOv3深度学习网络上添加focus loss损失函数。
还包括第一训练模块,还用于基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,直至loss不再下降为止。
还包括第二训练模块,用于获取真实场景中的图像样本,作为第二图像样本集;对第二图像样本集进行标注;基于标注后的第二图像样本集,对手势识别模型进行调整训练。
还包括第二调整模块,用于基于手势识别模型的识别准确率和速度,对手势识别模型的输入大小进行调整。
第一图像样本集包括摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。
本发明实施例提供的基于深度学习的手势识别设备,所述手势识别设备将待识别图像输入预先构建的手势识别模型;其中,所述手势识别模型基于预先标注的图像样本和YOLOv3深度学习网络训练获得;基于手势识别模型的输出结果,获得待识别图像中包含手势的子图像。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别设备,还包括第一训练模块,用于在将待识别图像输入预先构建的手势识别模型之前,获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。
需要说明的是,第一图像样本集包括摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。
本发明实施例提供的基于深度学习的手势识别设备,所述手势识别设备获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别设备,还包括调整模块,用于在基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型之前,调整YOLOv3网络层输入大小,使网络层提取到的手势特征信息增加;修改最后一层拼接层route的参数;修改上采样层upsampe层的参数。
需要说明的是,作为本发明实施例的一种具体实现方式,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括调整模块,用于修改YOLOv3网络层输入大小为608*608,使网络层提取到的手势特征信息比较多,能更好的提取小分辨率的手势特征,修改最后一层拼接层route的参数,-1.36改为-1.11,修改上采样层upsampe层的参数,将2改为4。
本发明实施例提供的基于深度学习的手势识别设备,所述手势识别设备基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:调整YOLOv3网络层输入大小,使网络层提取到的手势特征信息增加;修改最后一层拼接层route的参数;修改上采样层upsampe层的参数。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别设备,还包括添加模块,用于在基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型之前,在YOLOv3深度学习网络上添加focus loss损失函数。
focus loss是现有技术中一种处理深度学习中正负样本不均衡的损失函数,降低non-hard-sample的loss,提高hard-sample的loss。以二分类cross entropy loss为例。
L(y,y0)=-log(Py)
其中,
Py=P if y0=1
Py=1-P if y0=0
y0是truth label,Py是predicted probablity,Py∈[0,1];
focus loss的一个实现是修改loss为如下形式:
L(y,y0)=-(1-Py)2log(Py)
显然Py越接近1的样本,其分类效果越好,也说明这个样本属于non-hard-sample,观察下图,focus loss压制了较大的Py对应的loss值,降低在反向传播过程中的作用。
本发明实施例提供的基于深度学习的手势识别设备,所述手势识别设备基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:调整YOLOv3网络层输入大小,使网络层提取到的手势特征信息增加;修改最后一层拼接层route的参数;修改上采样层upsampe层的参数。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。并且添加focus loss解决正负样本比例严重失衡的问题。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别设备,第一训练模块,还用于基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,直至loss不再下降为止。
需要说明的是,本发明实施例通过添加focus loss解决正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重。
本发明实施例提供的基于深度学习的手势识别设备,所述手势识别设备获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别设备,还包括第二训练模块,用于获取真实场景中的图像样本,作为第二图像样本集;对第二图像样本集进行标注;基于标注后的第二图像样本集,对手势识别模型进行调整训练。
需要说明的是,训练获得手势识别模型智之后,获取真实场景中的图像样本,标注真实使用场景下的图像,在前面训练好的手势识别模型上进行微调,使手势识别模型泛化能力更强。
本发明实施例提供的基于深度学习的手势识别设备,所述手势识别设备获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。获取真实场景中的图像样本,作为第二图像样本集;对第二图像样本集进行标注;基于标注后的第二图像样本集,对手势识别模型进行调整训练。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别设备,还包括第二调整模块,用于基于手势识别模型的识别准确率和速度,对手势识别模型的输入大小进行调整。
本发明实施例提供的基于深度学习的手势识别设备,所述手势识别设备获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。基于手势识别模型的识别准确率和速度,对手势识别模型的输入大小进行调整。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
在本发明任一上述具体实施例的基础上,提供一种基于深度学习的手势识别设备,第一图像样本集包括摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。
本发明实施例提供的基于深度学习的手势识别设备,所述手势识别设备获取第一图像样本集,并对第一图像样本集进行标注;基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。解决现有技术中手势识别方法对小目标不够鲁棒,目标集中时容易漏检和误检的技术问题,实现快速和准确手势识别的技术效果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
举个例子如下:
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行如下方法:将待识别图像输入预先构建的手势识别模型;其中,所述手势识别模型基于预先标注的图像样本和YOLOv3深度学习网络训练获得;基于手势识别模型的输出结果,获得待识别图像中包含手势的子图像。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种基于深度学习的手势识别方法,其特征在于,包括:
将待识别图像输入预先构建的手势识别模型;其中,所述手势识别模型基于预先标注的图像样本和YOLOv3深度学习网络训练获得;
基于手势识别模型的输出结果,获得待识别图像中包含手势的子图像。
2.根据权利要求1所述的手势识别方法,其特征在于,将待识别图像输入预先构建的手势识别模型,之前还包括:
获取第一图像样本集,并对第一图像样本集进行标注;
基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型。
3.根据权利要求2所述的手势识别方法,其特征在于,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:
调整YOLOv3网络层输入大小,使网络层提取到的手势特征信息增加;
修改最后一层拼接层route的参数;
修改上采样层upsampe层的参数。
4.根据权利要求3所述的手势识别方法,其特征在于,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之前还包括:
在YOLOv3深度学习网络上添加focus loss损失函数。
5.根据权利要求4所述的手势识别方法,其特征在于,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,包括:
基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,直至loss不再下降为止。
6.根据权利要求5所述的手势识别方法,其特征在于,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之后还包括:
获取真实场景中的图像样本,作为第二图像样本集;
对第二图像样本集进行标注;
基于标注后的第二图像样本集,对手势识别模型进行调整训练。
7.根据权利要求5所述的手势识别方法,其特征在于,基于标注的第一图像样本集和YOLOv3深度学习网络训练获得手势识别模型,之后还包括:
基于手势识别模型的识别准确率和速度,对手势识别模型的输入大小进行调整。
8.根据权利要求2所述的手势识别方法,其特征在于,第一图像样本集包括摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。
9.一种基于深度学习的手势识别设备,其特征在于,包括:
输入模块,用于将待识别图像输入预先构建的手势识别模型;其中,所述手势识别模型基于预先标注的图像样本和YOLOv3深度学习网络训练获得;
获取模块,用于基于手势识别模型的输出结果,获得待识别图像中包含手势的子图像。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述手势识别方法的步骤。
CN201910242356.9A 2019-03-28 2019-03-28 基于深度学习的手势识别方法及设备 Pending CN109977875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910242356.9A CN109977875A (zh) 2019-03-28 2019-03-28 基于深度学习的手势识别方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910242356.9A CN109977875A (zh) 2019-03-28 2019-03-28 基于深度学习的手势识别方法及设备

Publications (1)

Publication Number Publication Date
CN109977875A true CN109977875A (zh) 2019-07-05

Family

ID=67081202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910242356.9A Pending CN109977875A (zh) 2019-03-28 2019-03-28 基于深度学习的手势识别方法及设备

Country Status (1)

Country Link
CN (1) CN109977875A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543238A (zh) * 2019-08-05 2019-12-06 上海纸上绝知智能科技有限公司 基于人工智能的桌面交互方法
CN112329544A (zh) * 2020-10-13 2021-02-05 香港光云科技有限公司 基于深度信息的手势识别机器学习方法及系统
CN112396666A (zh) * 2020-12-09 2021-02-23 广西双英集团股份有限公司 基于手势识别的装配过程智能控制方法
WO2021169473A1 (zh) * 2020-02-28 2021-09-02 深圳前海微众银行股份有限公司 模型性能优化方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255044A (zh) * 2018-08-31 2019-01-22 江苏大学 一种基于YOLOv3深度学习网络的图像智能标注方法
CN109325454A (zh) * 2018-09-28 2019-02-12 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法
CN109359552A (zh) * 2018-09-21 2019-02-19 中山大学 一种高效的跨摄像头行人双向跟踪方法
CN109376605A (zh) * 2018-09-26 2019-02-22 福州大学 一种电力巡检图像防鸟刺故障检测方法
CN109409215A (zh) * 2018-09-14 2019-03-01 广州大学 基于深度卷积神经网络的前方车辆半遮挡人体的检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255044A (zh) * 2018-08-31 2019-01-22 江苏大学 一种基于YOLOv3深度学习网络的图像智能标注方法
CN109409215A (zh) * 2018-09-14 2019-03-01 广州大学 基于深度卷积神经网络的前方车辆半遮挡人体的检测方法
CN109359552A (zh) * 2018-09-21 2019-02-19 中山大学 一种高效的跨摄像头行人双向跟踪方法
CN109376605A (zh) * 2018-09-26 2019-02-22 福州大学 一种电力巡检图像防鸟刺故障检测方法
CN109325454A (zh) * 2018-09-28 2019-02-12 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TSUNG-YI LIN ETAL.: ""Focal Loss for Dense Object Detection"", 《ARXIV》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543238A (zh) * 2019-08-05 2019-12-06 上海纸上绝知智能科技有限公司 基于人工智能的桌面交互方法
WO2021169473A1 (zh) * 2020-02-28 2021-09-02 深圳前海微众银行股份有限公司 模型性能优化方法、装置、设备及存储介质
CN112329544A (zh) * 2020-10-13 2021-02-05 香港光云科技有限公司 基于深度信息的手势识别机器学习方法及系统
CN112396666A (zh) * 2020-12-09 2021-02-23 广西双英集团股份有限公司 基于手势识别的装配过程智能控制方法

Similar Documents

Publication Publication Date Title
CN109977875A (zh) 基于深度学习的手势识别方法及设备
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
Kalsotra et al. Background subtraction for moving object detection: explorations of recent developments and challenges
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
CN109118504B (zh) 一种基于神经网络的图像边缘检测方法、装置及其设备
CN110689021A (zh) 一种基于深度学习的低可见度环境下实时目标检测方法
CN112418195B (zh) 一种人脸关键点检测方法、装置、电子设备及存储介质
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
Li et al. Multi-scale sparse network with cross-attention mechanism for image-based butterflies fine-grained classification
KR20230171966A (ko) 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체
CN109670517A (zh) 目标检测方法、装置、电子设备和目标检测模型
Albattah et al. Custom CornerNet: a drone-based improved deep learning technique for large-scale multiclass pest localization and classification
CN113743426A (zh) 一种训练方法、装置、设备以及计算机可读存储介质
CN116206334A (zh) 一种野生动物识别方法和装置
CN114168768A (zh) 图像检索方法及相关设备
Tong et al. A real-time detector of chicken healthy status based on modified YOLO
CN112085680B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN113191183A (zh) 人员重新识别中的无监督域纠正伪标签方法及装置
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
Batool et al. Ielmnet: An application for traffic sign recognition using cnn and elm
CN112434576A (zh) 一种基于深度相机的人脸识别方法及系统
CN113012030A (zh) 图像拼接方法、装置及设备
Ma et al. Local blur mapping: Exploiting high-level semantics by deep neural networks
Shashidhara et al. Sequence information channel concatenation for improving camera trap image burst classification
CN113837236A (zh) 图像中目标对象的识别方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705