CN109934184A - 手势识别方法及装置、存储介质、处理器 - Google Patents
手势识别方法及装置、存储介质、处理器 Download PDFInfo
- Publication number
- CN109934184A CN109934184A CN201910205950.0A CN201910205950A CN109934184A CN 109934184 A CN109934184 A CN 109934184A CN 201910205950 A CN201910205950 A CN 201910205950A CN 109934184 A CN109934184 A CN 109934184A
- Authority
- CN
- China
- Prior art keywords
- network model
- training sample
- gesture
- computation layer
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种手势识别方法及装置、存储介质、处理器。其中,该方法包括:通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,训练样本包括:多张包含不同手势信息的图片;将目标图片输入第一网络模型,输出第一识别结果,其中,第一识别结果用于指示以下信息至少之一:手势在目标图片中的位置,手势在目标图片中内容。本发明解决了相关技术中无法准确、实时、有效的进行手势识别的技术问题。
Description
技术领域
本发明涉及手势识别领域,具体而言,涉及一种手势识别方法及装置、存储介质、处理器。
背景技术
手势识别是视频和图像识别中的一个难点,而手部动作十分灵活,产生的形状繁多,不同手势之间难以区分,容易造成错误检测,目前的传统机器学习算法中网络设计较为庞大,计算量大,因此难以达到实时的效果。
目前的手势识别技术主要有:1)基于机器学习的方法:基于机器学习的方法常见的有使用级联分类器的方法和支持向量机的方法。其中,使用级联分类器的方法通过对Haar等特征采用多个级联的弱分类器来进行判别,达到一定阈值即可对特定手势得到“是”/“否”的结论。其特征通常采用常见的Haar、LBP等,如果想采用其他特征,则需要人为精心设计,且效果难以令人满意。而使用支持向量机的方法则通过对Hog等特征采用支持向量机进行分类,从而判别是否为检测目标,但其准确性也难以达到直播场景的要求。2)基于深度学习的方法:通过多层神经网络进行特征提取,得到特征图,对多个候选框的特征图进行分类,判断是否为想要检测的手势的类型。但目前已有的一些检测算法计算量大,计算耗时久,无法达到移动设备上实时检测的要求。
基于机器学习的方法准确率较差,容易出现错误的检测结果,且其使用的Haar、LBP、Hog等特征种类有限,也难以设计其他的特征种类来取得好的效果。已有的基于深度学习的方法目前存在计算量较大,难以达到视频直播中实时检测的要求。
针对相关技术中无法准确、实时、有效的进行手势识别的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种手势识别方法及装置、存储介质、处理器,以至少解决相关技术中无法准确、实时、有效的进行手势识别的技术问题。
根据本发明实施例的一个方面,提供了一种手势识别方法,包括:通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,所述训练样本包括:多张包含不同手势信息的图片;将目标图片输入第一网络模型,输出第一识别结果,其中,所述第一识别结果用于指示以下信息至少之一:手势在所述目标图片中的位置,手势在所述目标图片中内容。
进一步地,通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数包括:将所述训练样本输入至第二网络模型,输出第二识别结果;当所述训练样本与所述第二识别结果之间的相似度大于第一阈值时,根据所述第二网络模型所使用的参数调整所述第一网络模型,得到所述计算层的权重参数。
进一步地,通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数之前,获得所述待使用训练样本包括:获取初始训练样本;对所述初始训练样本进行预处理,得到所述待使用训练样本,其中,所述预处理包括以下至少之一:随机曝光处理,随机模糊处理。
进一步地,通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数还包括;对所述待使用训练样本中包含不同手势信息的图片进行网格划分;通过对划分后的所述图片进行训练,确定第一网络模型中计算层的权重参数。
进一步地,将目标图片输入第一网络模型,输出第一识别结果之后,所述方法包括;当所述识别结果与样本库中的样本相似度小于第二阈值时,通过调整所述第一网络模型中的权重系数获得识别精度高的第一网络模型。
进一步地,根据预设规则设置所述第一网络模型,其中,所述第一网络模型包括:计算层;所述计算层至少包括以下之一:卷积单元、批归一化单元、加权单元、线性整流单元、最大池化单元、通道重排单元。
根据本发明实施例的另一方面,还提供了一种手势识别装置,包括:确定单元,用于通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,所述训练样本包括:多张包含不同手势信息的图片;输出单元,用于将目标图片输入第一网络模型,输出第一识别结果,其中,所述第一识别结果用于指示以下信息至少之一:手势在所述目标图片中的位置,手势在所述目标图片中内容。
进一步地,所述确定单元包括:输出模块,用于将所述训练样本输入至第二网络模型,输出第二识别结果;第一得到模块,用于当所述训练样本与所述第二识别结果之间的相似度大于预定阈值时,根据所述第二网络模型所使用的参数调整所述第一网络模型,得到所述计算层的权重参数。
进一步地,所述装置包括:获得单元,用于获得所述训练样本,其中所述获得单元包括:获取模块,用于通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数之前,获取初始训练样本;第二得到模块,用于对所述初始训练样本进行预处理,得到所述待使用训练样本,其中,所述预处理包括以下至少之一:随机曝光处理,随机模糊处理。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述任一项所述的手势识别方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任一项所述的手势识别方法。
在本发明实施例中,通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,训练样本包括:多张包含不同手势信息的图片;将目标图片输入第一网络模型,输出第一识别结果,其中,第一识别结果用于指示以下信息至少之一:手势在目标图片中的位置,手势在目标图片中内容,进而解决了相关技术中无法准确、实时、有效的进行手势识别的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的手势识别方法的流程图;
图2是根据本发明优选实施例的网络模型中计算层的结构示意图;以及
图3是根据本发明实施例的手势识别装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
特征图:图像的每个通道可以称作一张特征图。例如普通彩色图片通常为RGB三个通道,可以称为三张特征图,这里图像是广义的,可以有多个通道。
计算层的参数分两种:一种是描述性参数,例如该计算层的类型(如卷积层、池化层、批归一化层,etc.),权重参数的尺寸等。另一种是权重参数,其数量及使用方法由描述性参数确定,但权重参数的值是通过不断迭代训练得到的。描述性参数是根据一些理论知识结合经验制定的,不会通过训练迭代调整。权重参数是使用训练样本,对网络进行迭代训练最终确定的。即:描述性参数是人为指定,不会随训练过程发生变更,权重参数是在迭代的训练过程中不断调整的。所谓训练,就是不断调整权重参数以获取最高识别率的过程,训练的目的就是获得合适的权重参数值。
根据本发明实施例,还提供了一种手势识别方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
下面将对本发明实施例的手势识别方法进行详细说明。
图1是根据本发明实施例的手势识别方法的流程图,如图1所示,该手势识别方法包括如下步骤:
步骤S102,通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,训练样本包括:多张包含不同手势信息的图片。
其中,根据预设规则设置第一网络模型,其中,第一网络模型包括:计算层;计算层包括以下之一:卷积单元、批归一化单元、加权单元、线性整流单元、最大池化单元、通道重排单元。
其中,在步骤S102中的待使用训练样本可以先获取初始训练样本;对初始训练样本进行预处理,得到待使用训练样本,其中,预处理包括以下至少之一:随机曝光处理,随机模糊处理。例如,先获取初始训练样本可以为1000张特定手势的图片,但是为了使训练数据获取精确度高的模型,可以通过对1000张特定手势的图片进行随机曝光处理,随机模糊处理获取数量较大的训练样本。还可以对训练样本进行左水平翻转、竖直翻转获取更多数据的训练样本。
使用训练样本对网络模型进行训练,样本是原料,被训练的对象是网络模型,进一步缩小范围,被训练的对象其实是各计算层的权重参数。
图片可知包括但不限于:包括多张包含不同手势信息的图片、文档等。
其中,第一网络模型可以是深度学习网络模型,其中,深度学习网络包括
需要说明的是,通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数可以包括:将训练样本输入至第二网络模型,输出第二识别结果;当训练样本与第二识别结果之间的相似度大于第一阈值时,根据第二网络模型所使用的参数调整第一网络模型,得到计算层的权重参数。也即是说,通过第二网络模型的对训练样本的训练获取第一网络模型计算层的权重参数。可以根据需要设计第一网络模型中的算法,训练出精确的参数作为第一网络模型的计算层的权重参数。
例如,当第二网络模型优于第一网络模型时,根据两者的权重参数之间的差(可以认为是一个维度非常大的矢量),获得一个调整方向,将网络模型的参数沿该方向调整,即训练迭代过程。
还需要说明的是,为了减少对图片的计算量,对待使用训练样本中包含不同手势信息的图片进行网格划分;通过对划分后的图片进行训练,确定第一网络模型中计算层的权重参数。
其中,网格划分方式可以根据经验人为指定的,描述性参数不需要训练,也是根据一些理论知识和经验,用户指定的。
步骤S104,将目标图片输入第一网络模型,输出第一识别结果,其中,第一识别结果用于指示以下信息至少之一:手势在目标图片中的位置,手势在目标图片中内容。
在步骤S104提供的方案中,通过第一网络模型识别图片中手势的具体内容。例如,识别出带有“OK”内容的手势出现在图片的中心位置。
通过上述步骤,可以通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,训练样本包括:多张包含不同手势信息的图片;将目标图片输入第一网络模型,输出第一识别结果,其中,第一识别结果用于指示以下信息至少之一:手势在目标图片中的位置,手势在目标图片中内容,进而解决了相关技术中无法准确、实时、有效的进行手势识别的技术问题。
作为一种可选的实施例,为了实现对精确的手势识别,将目标图片输入第一网络模型,输出第一识别结果之后,上述方法可以包括;当识别结果与样本库中的样本相似度小于第二阈值时,通过调整第一网络模型中的权重系数更新第一网络模型。
本发明还提供了一种优选实施例,该优选实施例提供了一种基于深度学习(对应于第一网络模型)的手势识别方法。
本优选实施例涉及一个深度学习网络,对训练的数据集进行针对性预处理,然后用来对我们设计的深度学习网络进行训练以得到模型。使用该模型,在使用CPU进行计算的情况下,达到较高的准确率的同时,达到实时(24fps以上)的手势识别的效果。该方法可以针对直播场景特点的样本预处理方法,最终得到了较高的准确率,并具有CPU计算情况下实时(24fps以上)进行手势识别的性能。针对直播场景的视频帧(即视频中的一张图像)的特点,进行了专门的预处理,使得最终的模型在视频直播场景下进行检测时准确率更高。
该方法具有如下操作:
1、数据收集与扩增、数据标注、数据预处理
收集了约1000张左右的特定手势的图片,这些图片有的是室外普通场景下拍摄的,有的是室内普通场景下拍摄的,有的是视频直播场景下拍摄的。通过人为进行标注(使用矩形框标注手势的区域,并标注其手势类型),这些标注过的图片称为训练样本。对于深度学习算法而言,这些数据量较小,难以训练出较好的模型,因此需要对数据进行扩增,本发明的做法可以对训练样本进行左、右以及任意角度的翻转、竖直翻转。此外,该方法可以针对视频直播场景,通过分析视频直播场景和室内室外普通场景的特点,发现视频直播场景的光照和美颜、滤镜等与室内室外普通场景有差异,该方法创新性地使用随机曝光调整、随机模糊的方法,使得室内室外样本经过调整之后更加接近视频直播场景的特点,从而提高样本与视频直播场景的相似程度,提高识别的准确率。
随机曝光调整的方法是选取合适的曝光因子(exposure_factor)范围,针对室内室外的样本,在范围内随机选取曝光因子,曝光调整公式为:
Valuenew=Valueold*2exposure_factor
随机模糊的方法是选取合适的模糊强度,针对室内室外的样本,在范围内随机选取模糊半径进行高斯模糊,模糊半径越大,模糊效果越强。
样本预处理的过程中,随机曝光调整和随机模糊是同时进行的,使得样本在接近视频直播场景的同时,也保持了一定的波动范围,从而保证训练得到的模型具有更好的泛化性。
2、深度学习网络设计
深度学习网络的设计很大程度地影响了算法的计算准确性和计算速度。好的网络可以更加高效准确地提取输入数据的信息,提供更加合理的数据流动和沟通的方式,最终给出更为准确的结果。该优选实施例中的网络的计算层设计如图2所示,网络模型中计算层的结构示意图。
图2中每个矩形表示一个计算层的单元,计算层的类型主要有卷积(Convolution)、批归一化(Batchnorm)、加权(Scale)、线性整流单元(Relu)、最大池化(MaxPoolings)、通道重排(Reorg)。其中,Convolution1x1、Convolution3x3、Convolution5x5分别为卷积核大小为1x1、3x3、5x5的卷积。每个计算层的输入输出均为三维数据,图2中Convolution输入(272,272,3)表示输入数据为宽度272,高度272,深度为3的尺寸,输出同理。
该优选实施例中计算层的具体计算流程如下:
向卷积计算3X3中输入(272,272,3),则输出(272,272,8),将卷积计算中输出的(272,272,8)输入批归一化计算,则输出(272,272,8),将输出的(272,272,8)输入加权计算中,则输出(272,272,8),将输出的(272,272,8)输入线性整流单元计算,则输出(272,272,8),进而将输出的(272,272,8)通过最大池化的计算,则输出(136,136,8);
将通过最大池化计算输出的(136,136,8)分别输入第一层的3个不同的流程计算的以及一个通道重排进行数据处理,其中,一个卷积是5X5,一个是3X3,一个是1X1,具体3个流程计算如下:
卷积5X5的计算为:将最大池化计算输出的(136,136,8)输入卷积5X5进行计算,输出(136,136,4),将输出的(136,136,4)通过批归一化计算输出(136,136,4),将输出的(136,136,4)进行加权计算,输出(136,136,4),将加权计算得到的(136,136,4)输入线性整流单元计算,则输出(136,136,4),通过该线性整流单元的输出(136,136,4)再进行卷积1X1的计算,输出(136,136,16),将输出的(136,136,16)通过批归一化计算输出(136,136,16),通过线性整流单元计算输出的(136,136,16)得到(136,136,16)。
卷积3X3的计算为:将最大池化计算输出的(136,136,8)输入卷积3X3进行计算,输出(136,136,4),将输出的(136,136,4)通过批归一化计算输出(136,136,4),将输出的(136,136,4)进行加权计算,输出(136,136,4),将加权计算得到的(136,136,4)输入线性整流单元计算,则输出(136,136,4),通过该线性整流单元的输出(136,136,4)再进行卷积1X1的计算,输出(136,136,16),在将输出的(136,136,16)通过批归一化计算输出(136,136,16),通过线性整流单元计算输出的(136,136,16)得到(136,136,16)。
卷积1X1的计算为:将最大池化计算输出的(136,136,8)输入卷积1X1进行计算,输出(136,136,16),将输出的(136,136,16)通过批归一化计算输出(136,136,16),将输出的(136,136,4)进行加权计算,输出(136,136,4),将加权计算得到的(136,136,4)输入线性整流单元计算,则输出(136,136,4)。
通道重排进行数据处理:将最大池化计算输出的(136,136,8)输入经过通道重排,输出(68,68,32)。
将通过第二层的3个不同流程的输出结果(136,136,16)输入最大池化计算输出(68,68,48),然后在进行3个流程的计算,其中3个流程的计算如下:
卷积5X5的计算为:将最大池化计算输出的(68,68,48)输入卷积5X5进行计算,输出(68,68,8),将输出的(68,68,8)通过批归一化计算输出(68,68,8),将输出的(68,68,8)进行加权计算,输出(68,68,8),将加权计算得到的(68,68,8)输入线性整流单元计算,则输出(68,68,8),通过该线性整流单元的输出(68,68,8)再进行卷积1X1的计算,输出(68,68,32),将(68,68,8)通过批归一化计算输出(68,68,32),通过线性整流单元计算输出的(68,68,8)得到(68,68,32)。
卷积3X3的计算为:将最大池化计算输出的(68,68,48)输入卷积3X3进行计算,输出(68,68,8),将输出的(68,68,8)通过批归一化计算输出(68,68,8),将输出的(68,68,8)进行加权计算,输出(68,68,8),将加权计算得到的(68,68,8)输入线性整流单元计算,则输出(68,68,8),通过该线性整流单元的输出(68,68,8)再进行卷积1X1的计算,输出(68,68,32),在将输出的(68,68,32)通过批归一化计算输出(68,68,32),通过加权计算输入的(68,68,32)得到(68,68,32),通过线性整流单元的输出(68,68,32)。
卷积1X1的计算为:将最大池化计算输出的(68,68,48)输入卷积1X1进行计算,输出(68,68,32),将输出的(68,68,32)通过批归一化计算输出(68,68,32),将输出的(68,68,32)进行加权计算,输出(68,68,32),将加权计算得到的(68,68,32)输入线性整流单元计算,则输出(68,68,32)。
然后,输入(68,68,128)输入最大池化计算输出(34,34,128),接着将(34,34,128)输入卷积计算输出(34,34,16),将输出的(34,34,16)通过线性整流单元计算输出(34,34,16),经过卷积1X1计算输出(34,34,256),加权计算输出(34,34,256),线性整理单元计算输出(34,34,256),最大池化计算输出(17,17,256),卷积1X1计算输出(17,17,40),加权计算输出(17,17,40),将(17,17,40)输入线性整理单元计算输出(17,17,40),将(17,17,40)通过通道重排计算输出(1,1,-1),进而完成技术层的计算。
该实施例中的网络通过对同一输入分别使用1x1、3x3、5x5大小的卷积核进行卷积计算,具有不同大小的感受野的信息,使得在同一个通道上能够获取不同粒度的信息。在3x3和5x5卷积后面使用1x1大小的卷积核进行卷积计算,则可以对前面的卷积层提取到的特征图在深度这一维度上进行整合,同时可以改变特征图的深度。
该实施例采用跨层连接的方式对不同层级的计算层进行了连接,这种连接使得不同尺度的特征信息以及不同层次的特征信息得以共同整合,避免因为深层级的计算层过多地丢失来自浅层级的信息而造成准确率下降。对于跨层级特征图尺寸不匹配的情况,使用Reorg层进行通道重排,将2n x 2n尺寸的特征图转化为4张n x n尺寸的特征图,在保留大量信息的情况下又达成了尺寸匹配。
该实施例通过将原始输入图像划分为17x17的网格,每个网格生成5个检测框,由网络本身对检测框进行调整,因此只需要对17x 17x 5个检测框进行判断,计算量较小。
该实施例的网络设计计算量小,可以在CPU计算的情况下达到实时的识别速度,且计算准确率较高,满足视频直播场景的手势识别要求。
3、深度学习网络训练
网络训练是确定各计算层权重参数的方法,最终的参数将很大程度地影响识别效果,而适当的训练方法则可以获得更好的权重参数,取得更好的识别效果。本优选实施例采用darknet框架进行训练,选取不同的学习率,训练得到不同的模型,最终选取检测准确率最高的模型。
根据本发明实施例,还提供了一种手势识别装置实施例,需要说明的是,该手势识别装置可以用于执行本发明实施例中的手势识别方法,也即本发明实施例中的手势识别方法可以在该手势识别装置中执行。
图3是根据本发明实施例的手势识别装置的示意图,如图3所示,该手势识别装置可以包括:确定单元31以及确定单元33。详细描述如下。
确定单元31,用于通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,训练样本包括:多张包含不同手势信息的图片。
其中,上述确定单元可以包括:输出模块,用于将训练样本输入至第二网络模型,输出第二识别结果;第一得到模块,用于当训练样本与第二识别结果之间的相似度大于预定阈值时,根据第二网络模型所使用的参数调整第一网络模型,得到计算层的权重参数。
还需要说明的是,上述确定单元还包括;划分模块,用于对所述待使用训练样本中包含不同手势信息的图片进行网格划分;确定模块,用于通过对划分后的所述图片进行训练,确定第一网络模型中计算层的权重参数。
输出单元33,用于将目标图片输入第一网络模型,输出第一识别结果,其中,第一识别结果用于指示以下信息至少之一:手势在目标图片中的位置,手势在目标图片中内容。
通过上述实施例,确定单元31通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,所述训练样本包括:多张包含不同手势信息的图片;输出单元33将目标图片输入第一网络模型,输出第一识别结果,其中,所述第一识别结果用于指示以下信息至少之一:手势在所述目标图片中的位置,手势在所述目标图片中内容。进而解决了相关技术中无法准确、实时、有效的进行手势识别的技术问题。
需要说明的是,该实施例中的确定单元31可以用于执行本发明实施例中的步骤S102,该实施例中的输出单元33可以用于执行本发明实施例中的步骤S104。上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。
可选地,上述装置可以包括:获得单元,用于获得训练样本,其中获得单元包括:获取模块,用于通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数之前,获取初始训练样本;第二得到模块,用于对初始训练样本进行预处理,得到待使用训练样本,其中,预处理包括以下至少之一:随机曝光处理,随机模糊处理。
可选地,上述装置还包括;调整单元,用于将目标图片输入第一网络模型,输出第一识别结果之后,当所述识别结果与样本库中的样本相似度小于第二阈值时,通过调整所述第一网络模型中的权重系数更新所述第一网络模型。
根据本发明实施例的另外一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,程序运行时控制存储介质所在设备执行以下操作:通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,训练样本包括:多张包含不同手势信息的图片;将目标图片输入第一网络模型,输出第一识别结果,其中,第一识别结果用于指示以下信息至少之一:手势在目标图片中的位置,手势在目标图片中内容。
通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数包括:将训练样本输入至第二网络模型,输出第二识别结果;当训练样本与第二识别结果之间的相似度大于第一阈值时,根据第二网络模型所使用的参数调整第一网络模型,得到计算层的权重参数。
通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数之前,获得待使用训练样本包括:获取初始训练样本;对初始训练样本进行预处理,得到待使用训练样本,其中,预处理包括以下至少之一:随机曝光处理,随机模糊处理。
通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数还包括;对待使用训练样本中包含不同手势信息的图片进行网格划分;通过对划分后的图片进行训练,确定第一网络模型中计算层的权重参数。
将目标图片输入第一网络模型,输出第一识别结果之后,上述方法包括;当识别结果与样本库中的样本相似度小于第二阈值时,通过调整第一网络模型中的权重系数更新第一网络模型。
根据本发明实施例的另外一个方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行以下操作:通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,训练样本包括:多张包含不同手势信息的图片;将目标图片输入第一网络模型,输出第一识别结果,其中,第一识别结果用于指示以下信息至少之一:手势在目标图片中的位置,手势在目标图片中内容。
通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数包括:将训练样本输入至第二网络模型,输出第二识别结果;当训练样本与第二识别结果之间的相似度大于第一阈值时,将第二网络模型所使用的参数移植至第一网络模型,得到计算层的权重参数。
通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数之前,获得待使用训练样本包括:获取初始训练样本;对初始训练样本进行预处理,得到待使用训练样本,其中,预处理包括以下至少之一:随机曝光处理,随机模糊处理。
通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数还包括;对待使用训练样本中包含不同手势信息的图片进行网格划分;通过对划分后的图片进行训练,确定第一网络模型中计算层的权重参数。
将目标图片输入第一网络模型,输出第一识别结果之后,上述方法包括;当识别结果与样本库中的样本相似度小于第二阈值时,通过调整第一网络模型中的权重系数更新第一网络模型。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种手势识别方法,其特征在于,包括:
通过对待使用的训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,所述训练样本包括:多张包含不同手势信息的图片;
将待识别的目标图片输入所述第一网络模型,输出第一识别结果,其中,所述第一识别结果用于指示以下信息至少之一:手势在所述目标图片中的位置,手势在所述目标图片中内容。
2.根据权利要求1所述的方法,其特征在于,通过对待使用训练样本进行训练,确定所述第一网络模型中计算层的权重参数包括:
将所述训练样本输入至第二网络模型,输出第二识别结果;
当所述训练样本与所述第二识别结果之间的相似度大于第一阈值时,根据所述第二网络模型所使用的参数调整所述第一网络模型,得到所述计算层的权重参数。
3.根据权利要求2所述的方法,其特征在于,通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数之前,获得所述待使用训练样本包括:
获取初始训练样本;
对所述初始训练样本进行预处理,得到所述待使用训练样本,其中,所述预处理包括以下至少之一:随机曝光处理,随机模糊处理。
4.根据权利要求1所述的方法,其特征在于,通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数还包括;
对所述待使用训练样本中包含不同手势信息的图片进行网格划分;
通过对划分后的所述图片进行训练,确定第一网络模型中计算层的权重参数。
5.根据权利要求1所述的方法,其特征在于,将目标图片输入第一网络模型,输出第一识别结果之后,所述方法包括;
当所述识别结果与样本库中的样本相似度小于第二阈值时,通过调整所述第一网络模型中的权重系数更新所述第一网络模型。
6.根据权利要求1所述的方法,其特征在于,根据预设规则设置所述第一网络模型,其中,所述第一网络模型包括:计算层;
所述计算层包括以下之一:卷积单元、批归一化单元、加权单元、线性整流单元、最大池化单元、通道重排单元。
7.一种手势识别装置,其特征在于,包括:
确定单元,用于通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数,其中,所述训练样本包括:多张包含不同手势信息的图片;
输出单元,用于将目标图片输入第一网络模型,输出第一识别结果,其中,所述第一识别结果用于指示以下信息至少之一:手势在所述目标图片中的位置,手势在所述目标图片中内容。
8.根据权利要求7所述的装置,其特征在于,所述确定单元包括:
输出模块,用于将所述训练样本输入至第二网络模型,输出第二识别结果;
第一得到模块,用于当所述训练样本与所述第二识别结果之间的相似度大于预定阈值时,根据所述第二网络模型所使用的参数调整所述第一网络模型,得到所述计算层的权重参数。
9.根据权利要求7所述的装置,其特征在于,所述装置包括:获得单元,用于获得所述训练样本,其中所述获得单元包括:
获取模块,用于通过对待使用训练样本进行训练,确定第一网络模型中计算层的权重参数之前,获取初始训练样本;
第二得到模块,用于对所述初始训练样本进行预处理,得到所述待使用训练样本,其中,所述预处理包括以下至少之一:随机曝光处理,随机模糊处理。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任一项所述的手势识别方法。
11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任一项所述的手势识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910205950.0A CN109934184A (zh) | 2019-03-19 | 2019-03-19 | 手势识别方法及装置、存储介质、处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910205950.0A CN109934184A (zh) | 2019-03-19 | 2019-03-19 | 手势识别方法及装置、存储介质、处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109934184A true CN109934184A (zh) | 2019-06-25 |
Family
ID=66987574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910205950.0A Pending CN109934184A (zh) | 2019-03-19 | 2019-03-19 | 手势识别方法及装置、存储介质、处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109934184A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619310A (zh) * | 2019-09-19 | 2019-12-27 | 北京达佳互联信息技术有限公司 | 一种人体骨骼关键点检测方法、装置、设备及介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160026914A1 (en) * | 2011-11-26 | 2016-01-28 | Microsoft Technology Licensing, Llc | Discriminative pretraining of deep neural networks |
CN106485230A (zh) * | 2016-10-18 | 2017-03-08 | 中国科学院重庆绿色智能技术研究院 | 基于神经网络的人脸检测模型的训练、人脸检测方法及系统 |
CN106709418A (zh) * | 2016-11-18 | 2017-05-24 | 北京智慧眼科技股份有限公司 | 基于现场照和证件照的人脸识别方法及识别装置 |
CN106778867A (zh) * | 2016-12-15 | 2017-05-31 | 北京旷视科技有限公司 | 目标检测方法和装置、神经网络训练方法和装置 |
CN106897746A (zh) * | 2017-02-28 | 2017-06-27 | 北京京东尚科信息技术有限公司 | 数据分类模型训练方法和装置 |
CN106960175A (zh) * | 2017-02-21 | 2017-07-18 | 华南理工大学 | 基于深度卷积神经网络的第一视角动态手势检测方法 |
CN107256423A (zh) * | 2017-05-05 | 2017-10-17 | 深圳市丰巨泰科电子有限公司 | 一种增广神经网架构及其训练方法、计算机可读存储介质 |
CN107341509A (zh) * | 2017-06-29 | 2017-11-10 | 北京小米移动软件有限公司 | 卷积神经网络的训练方法及装置 |
CN107463946A (zh) * | 2017-07-12 | 2017-12-12 | 浙江大学 | 一种结合模板匹配与深度学习的商品种类检测方法 |
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN107862694A (zh) * | 2017-12-19 | 2018-03-30 | 济南大象信息技术有限公司 | 一种基于深度学习的手足口病检测系统 |
CN108229318A (zh) * | 2017-11-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 手势识别和手势识别网络的训练方法及装置、设备、介质 |
-
2019
- 2019-03-19 CN CN201910205950.0A patent/CN109934184A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160026914A1 (en) * | 2011-11-26 | 2016-01-28 | Microsoft Technology Licensing, Llc | Discriminative pretraining of deep neural networks |
CN106485230A (zh) * | 2016-10-18 | 2017-03-08 | 中国科学院重庆绿色智能技术研究院 | 基于神经网络的人脸检测模型的训练、人脸检测方法及系统 |
CN106709418A (zh) * | 2016-11-18 | 2017-05-24 | 北京智慧眼科技股份有限公司 | 基于现场照和证件照的人脸识别方法及识别装置 |
CN106778867A (zh) * | 2016-12-15 | 2017-05-31 | 北京旷视科技有限公司 | 目标检测方法和装置、神经网络训练方法和装置 |
CN106960175A (zh) * | 2017-02-21 | 2017-07-18 | 华南理工大学 | 基于深度卷积神经网络的第一视角动态手势检测方法 |
CN106897746A (zh) * | 2017-02-28 | 2017-06-27 | 北京京东尚科信息技术有限公司 | 数据分类模型训练方法和装置 |
CN107256423A (zh) * | 2017-05-05 | 2017-10-17 | 深圳市丰巨泰科电子有限公司 | 一种增广神经网架构及其训练方法、计算机可读存储介质 |
CN107341509A (zh) * | 2017-06-29 | 2017-11-10 | 北京小米移动软件有限公司 | 卷积神经网络的训练方法及装置 |
CN107463946A (zh) * | 2017-07-12 | 2017-12-12 | 浙江大学 | 一种结合模板匹配与深度学习的商品种类检测方法 |
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN108229318A (zh) * | 2017-11-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 手势识别和手势识别网络的训练方法及装置、设备、介质 |
CN107862694A (zh) * | 2017-12-19 | 2018-03-30 | 济南大象信息技术有限公司 | 一种基于深度学习的手足口病检测系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619310A (zh) * | 2019-09-19 | 2019-12-27 | 北京达佳互联信息技术有限公司 | 一种人体骨骼关键点检测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897390B (zh) | 基于深度度量学习的目标精确检索方法 | |
CN107944431B (zh) | 一种基于运动变化的智能识别方法 | |
CN103942577B (zh) | 视频监控中基于自建立样本库及混合特征的身份识别方法 | |
CN105022982B (zh) | 手部运动识别方法和装置 | |
CN110837768B (zh) | 一种面向珍稀动物保护的在线检测与识别方法 | |
CN108470354A (zh) | 视频目标跟踪方法、装置和实现装置 | |
CN108921058A (zh) | 基于深度学习的鱼类识别方法、介质、终端设备及装置 | |
CN107808143A (zh) | 基于计算机视觉的动态手势识别方法 | |
CN105303150B (zh) | 实现图像处理的方法和系统 | |
CN109978918A (zh) | 一种轨迹追踪方法、装置和存储介质 | |
CN108009222B (zh) | 基于较优视图和深度卷积神经网络的三维模型检索方法 | |
CN106960214A (zh) | 基于图像的物体识别方法 | |
CN106649487A (zh) | 基于兴趣目标的图像检索方法 | |
CN106709453A (zh) | 一种基于深度学习的体育视频关键姿态提取方法 | |
CN109446889A (zh) | 基于孪生匹配网络的物体追踪方法及装置 | |
CN110991274B (zh) | 一种基于混合高斯模型和神经网络的行人摔倒检测方法 | |
CN107067413A (zh) | 一种时空域统计匹配局部特征的运动目标检测方法 | |
CN106600595A (zh) | 一种基于人工智能算法的人体特征尺寸自动测量方法 | |
CN108182447A (zh) | 一种基于深度学习的自适应粒子滤波目标跟踪方法 | |
CN110032925A (zh) | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 | |
CN109711401A (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
CN111723687A (zh) | 基于神经网路的人体动作识别方法和装置 | |
CN109800682A (zh) | 驾驶员属性识别方法及相关产品 | |
Nalla et al. | Image dehazing for object recognition using faster RCNN | |
JP2004062605A (ja) | シーン識別方法および装置ならびにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |
|
RJ01 | Rejection of invention patent application after publication |