CN111626364A - 手势图像分类方法、装置、计算机设备及存储介质 - Google Patents
手势图像分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111626364A CN111626364A CN202010467866.9A CN202010467866A CN111626364A CN 111626364 A CN111626364 A CN 111626364A CN 202010467866 A CN202010467866 A CN 202010467866A CN 111626364 A CN111626364 A CN 111626364A
- Authority
- CN
- China
- Prior art keywords
- gesture
- gesture image
- images
- image
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例提供一种手势图像分类方法、装置、计算机设备及存储介质,其中,所述方法包括:对输入的多幅手势图像分别进行检测以得到各幅手势图像中指尖的数量,并根据检测出的指尖数量将多幅手势图像划分为若干组别;将各个组别的手势图像分别进行分类训练,以得到各个组别的分类器函数;以及,利用各个组别的分类器函数分别对各个组别的手势图像进行计算,以得到各个组别的手势图像的手势类型分类结果。本公开实施例通过对手势图像进行指尖数量检测将手势图像划分为若干组别,实现了手势图像的初步分类,再基于初步分类结果实现手势图像的手势类型分类,相比于现有的手势图像分类算法,极大地降低了算法的运算量和复杂度,提高了算法处理速度。
Description
技术领域
本公开涉及通信技术领域,尤其涉及一种手势图像分类方法、一种手势图像分类装置、一种计算机设备以及一种计算机可读存储介质。
背景技术
手势图像分类拥有诸多应用场景,如游戏、IPTV(Internet ProtocolTelevision,网络协议电视)控制等。评价手势图像分类算法的优劣一般有两个指标:一是手势识别准确度,二是手势分类算法的实时性。尤其对于交互类游戏场景,需要在保障精确度的情况下,提升算法运行效率。
在相关技术中,手势图像分类算法一般采用Hu矩(几何不变矩)特征进行手势识别,并依据调测的分类器得到分类结果。然而,随着手势种类增多,单纯使用Hu矩分类器的方式进行手势图像分类会使得算法复杂度陡然增加,算法时延会大幅提高。一般情况下,工程中会使用优化的分类器算法(如使用BP(back propagation,反向传播)神经网络算法、隐马尔科夫算法)对算法复杂度进行优化,但仍不能较大程度降低分类算法运算量。可见,在手势种类较多的情况下,不论使用何种分类算法得到分类器,手势分类复杂程度均会有较大的增加,导致分类结果不能实时返回。
因此,提出一种能够降低手势图像分类算法的复杂度,提高算法处理速度的方案是目前亟待解决的问题。
发明内容
为了至少部分解决现有技术中存在的技术问题而完成了本公开。
根据本公开实施例的一方面,提供一种手势图像分类方法,所述方法包括:
对输入的多幅手势图像分别进行检测以得到各幅手势图像中指尖的数量,并根据检测出的指尖数量将多幅手势图像划分为若干组别;
将各个组别的手势图像分别进行分类训练,以得到各个组别的分类器函数;以及,
利用各个组别的分类器函数分别对各个组别的手势图像进行计算,以得到各个组别的手势图像的手势类型分类结果。
根据本公开实施例的另一方面,提供一种手势图像分类装置,所述装置包括:
指尖识别模块,其设置为对输入的多幅手势图像分别进行检测以得到各幅手势图像中指尖的数量,并根据检测出的指尖数量将多幅手势图像划分为若干组别;
手势库训练模块,其设置为将各个组别的手势图像分别进行分类训练,以得到各个组别的分类器函数;以及,
手势分类模块,其设置为利用各个组别的分类器函数分别对各个组别的手势图像进行计算,以得到各个组别的手势图像的手势类型分类结果。
根据本公开实施例的又一方面,提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行所述的手势图像分类方法。
根据本公开实施例的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行所述的手势图像分类方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例提供的手势图像分类方法,通过对手势图像进行指尖数量检测将手势图像划分为若干组别,实现了手势图像的初步分类,然后将经过初步分类的各个组别的手势图像分别进行分类训练得到各自的分类器函数,最后利用各个组别的分类器函数对各个组别的手势图像进行计算得到手势图像的手势类型的分类结果,相比于现有的手势图像分类算法,极大地降低了算法的运算量和复杂度,提高了算法处理速度。
本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。
图1为本公开实施例提供的一种手势图像分类方法的流程示意图;
图2为本公开实施例提供的另一种手势图像分类方法的流程示意图;
图3a为手势类型为S1的手势图像的轮廓检测示意图;
图3b为手势类型为S1的手势图像的凸包检测示意图;
图3c为手势类型为S1的手势图像的掌心提取示意图;
图3d为手势类型为S1的手势图像的阈值设定示意图;
图3e为手势类型为S1的手势图像的区间极值点寻找示意图;
图4为本公开实施例提供的三个组别的手势图像与指尖数量、手势类型的对应关系示意图;
图5为本公开实施例提供的手势图像分类装置的结构框图;
图6为本公开实施例提供的计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1为本公开实施例提供的一种手势图像分类方法的流程示意图。如图1所示,所述方法包括如下步骤S101至S103。
S101.对输入的多幅手势图像分别进行检测以得到各幅手势图像中指尖的数量,并根据检测出的指尖数量将多幅手势图像划分为若干组别;
S102.将各个组别的手势图像分别进行分类训练,以得到各个组别的分类器函数;
S103.利用各个组别的分类器函数分别对各个组别的手势图像进行计算,以得到各个组别的手势图像的手势类型分类结果。
在步骤S103中,手势图像的手势类型分类结果按照指尖数量可划分为六大类,分别为指尖数量为0的手势类型、指尖数量为1的手势类型、指尖数量为2的手势类型、指尖数量为3的手势类型、指尖数量为4的手势类型和指尖数量为5的手势类型。其中,指尖数量为0的手势类型为拳头类型的手势;指尖数量为1的手势类型为伸出任意一根手指类型的手势;指尖数量为2的手势类型为同时伸出任意两根手指类型的手势;指尖数量为3的手势类型为同时伸出任意三根手指类型的手势;指尖数量为4的手势类型为同时伸出任意四根手指类型的手势;指尖数量为5的手势类型为同时伸出五根手指类型的手势。可见,本步骤能够实现六种类别的静态手势的识别,在实际应用中可以更灵活的进行手势分组以识别更多手势图像。
本公开实施例中,通过对手势图像进行指尖数量检测将手势图像划分为若干组别,实现了手势图像的初步分类,然后将经过初步分类的各个组别的手势图像分别进行分类训练得到各自的分类器函数,最后利用各个组别的分类器函数对各个组别的手势图像进行计算得到手势图像的手势类型的分类结果,相比于现有的手势图像分类算法,极大地降低了算法的运算量和复杂度,提高了算法处理速度。
在一种实施方式中,步骤S101中,对输入的多幅手势图像分别进行检测以得到各幅手势图像中指尖的数量,包括如下步骤S01-1至S101-3。
S101-1.对输入的多幅手势图像分别进行轮廓检测以得到各幅手势图像的近似轮廓;
S101-2.对各幅手势图像的近似轮廓进行多边形拟合以得到各幅手势图像的近似轮廓的多边形拟合结果;
S101-3.根据各幅手势图像的近似轮廓的多边形拟合结果得到各幅手势图像中指尖的数量。
本公开实施例中,先对手势图像进行轮廓检测以得到手势图像的近似轮廓,再对手势图像的近似轮廓进行多边形拟合,经过这些初步处理后,手势图像已去除了背景干扰,此时再应用一些现有的图像处理技术,就可以得到手势图像中的指尖数量。
在一种实施方式中,步骤S101-3具体包括如下步骤S101-31和S101-32。
S101-31.对各幅手势图像的近似轮廓的多边形拟合结果进行凸包检测以得到各幅手势图像的凸形状;
S101-32.根据预设规则对各幅手势图像的凸形状上的各个点进行筛选,得到所述凸形状上的区间极值点,所述区间极值点的数量为对应手势图像的指尖数量。
本公开实施例中,先对手势图像的近似轮廓的多边形拟合结果进行凸包检测得到凸形状,再对凸形状上的点进行筛选就能得出代表指尖数量的区间极值点。其中,筛选规则可由本领域技术人员根据实际情况(如手势类型等)进行设定。
在一种实施方式中,步骤S101-32具体包括如下步骤Sa至Se。
Sa.获取各幅手势图像的凸形状上的各个点坐标;
Sb.对各幅手势图像的凸形状进行掌心提取以得到各幅手势图像的掌心坐标;
Sc.测量各幅手势图像的凸形状上的各个点坐标与对应手势图像的掌心坐标之间的距离,得到各幅手势图像的距离数组;
Sd.根据各幅手势图像的距离数组的平均值及手势类型分别设定与各幅手势图像对应的阈值;
Se.基于各幅手势图像的距离数组分别从各幅手势图像的凸形状上的各个点中筛选出比周围预设数量个点距离掌心都远且与掌心间距大于对应阈值的点,作为所述凸形状上的区间极值点。
本公开实施例中,根据手势图像的凸形状上的各个点与掌心之间的距离对凸形状上的点进行筛选,得出比周围预设数量个点(如左右两个点)距离掌心都远且与掌心间距大于对应阈值的点,作为所述凸形状上的区间极值点,从而得到手势图像的指尖数量。
在一种实施方式中,步骤Sb具体包括如下步骤Sb-1和Sb-2。
Sb-1.获取各幅手势图像的几何不变矩(Hu矩)特征;
Sb-2.根据各幅手势图像的几何不变矩特征得到各幅手势图像的0阶矩M00、1阶水平矩M10和1阶垂直矩M01,则各幅手势图像的掌心坐标为:X=M10/M00;Y=M01/M00。
本公开实施例中,利用几何不变矩特有的平移、旋转和缩放不变性提取出各幅手势图像的掌心坐标,结果准确。
在一种实施方式中,步骤S101中,根据检测出的指尖数量将多幅手势图像划分为若干组别,包括:将多幅手势图像划分为指尖数量检测为0的手势图像组别、指尖数量检测为1-2的手势图像组别,以及指尖数量检测为3-5的手势图像组别。
上述组别划分方式仅仅为一种可能的划分方式,本公开并不限定于此,具体的组别划分方式还可以包括:将多幅手势图像划分为指尖数量检测为1-5中任意一个的手势图像组别、指尖数量检测为0-5中任意连续两个(如0-1个)的手势图像组别、指尖数量检测为0-5中任意连续三个(如1-3个)的手势图像组别和指尖数量检测为0-5中任意连续四个(如1-4个)的手势图像组别等。例如,将多幅手势图像划分两个组别,分别为指尖数量检测为0-1的手势图像组别和指尖数量检测为2-5的手势图像组别。当然,组别的划分标准可由本领域技术人员根据手势图像的实际情况和系统实际需求进行设定。
在一种实施方式中,步骤S102具体包括如下步骤S102-1至S102-3。
S102-1.获取同一组别的各幅手势图像的五维几何不变矩特征数值和手势类型;
S102-2.对于同一组别的各幅手势图像,将每幅手势图像的五维几何不变矩特征数值与该幅手势图像的手势类型的识别标志组成向量,以得到同一组别的各幅手势图像的对应向量;
S102-3.将同一组别的各幅手势图像的对应向量作为待训练数据输入至预设分类训练器进行分类训练,以得到该组别的分类器函数。
本公开实施例中,基于手势图像的五维几何不变矩特征对各个组别的手势图像进行分类训练以得到各个组别的分类器函数,而通过不同组别的分类器函数就能计算出各个组别的手势图像的手势分类,运算速度快、运算结果准确。
图2为本公开实施例提供的另一种手势图像分类方法的流程示意图。图3a为手势类型为S1的手势图像的轮廓检测示意图;图3b为手势类型为S1的手势图像的多边形拟合示意图;图3c为手势类型为S1的手势图像的掌心提取示意图;图3d为手势类型为S1的手势图像的阈值设定示意图;图3e为手势类型为S1的手势图像的区间极值点寻找示意图。下面结合手势类型为S1(即伸出拇指类型的手势)的手势图像对所述方法进行详细描述。
如图2所示,所述方法包括如下步骤S201至S210。
S201.轮廓检测:对输入的多幅手势图像分别进行轮廓检测以得到各幅手势图像的近似轮廓。其中,输入的手势图像为归一化大小的手势图像。
具体地,利用OpenCV库中的凸轮廓检测函数findCounters得到手势图像的近似轮廓。findCounters函数定义如下:Contours=findContours(thresh,RETR_EXTERNAL,CHAIN_APPROX_SIMPLE)
其中,thresh表示轮廓检测阈值,可根据实际情况进行设定;RETR_EXTERNAL表示只检测外轮廓;CHAIN_APPROX_SIMPLE表示存储所有的轮廓点。轮廓检测结果如图3a所示。
S202.多边形拟合:对各幅手势图像的近似轮廓进行多边形拟合以得到各幅手势图像的近似轮廓的多边形拟合结果。
具体地,利用OpenCV库中的近似多边形拟合函数approxPloy得到手势图像的近似轮廓的多边形拟合结果。approxPloy函数定义如下:
approxPloy=approxPolyDP(cnt,ep,True)
其中,cnt表示返回轮廓,为步骤S201中Contours中的元素;ep表示原轮廓与多边形差值;True表示该多边形是否闭合。
S203.凸包检测:对各幅手势图像的近似轮廓的多边形拟合结果进行凸包检测以得到各幅手势图像的凸形状Hull。
具体地,利用OpenCV库中的凸包检测函数converHull得到各幅手势图像的凸形状。凸包检测结果如图3b所示。
S204.掌心提取:对各幅手势图像的凸形状Hull进行掌心提取以得到各幅手势图像的掌心坐标。
具体地,利用OpenCV库中的几何不变矩函数cvMoments(img,moment)得到各幅手势图像的几何不变矩特征。其中,img参数表示图像指针,即为待处理的手势图像;Moment参数表示CvMoments对象指针地址,用于存储该手势图像的几何不变矩特征。
根据手势图像的几何不变矩特征得出M00:0阶级矩;M10:1阶水平矩;M01:1阶垂直矩。故掌心坐标为:X=M10/M00;Y=M01/M00。掌心提取结果如图3c所示。
S205.距离检测:获取各幅手势图像的凸形状Hull上的各个点坐标,测量各幅手势图像的凸形状Hull上的各个点坐标与对应手势图像的掌心坐标之间的距离,得到各幅手势图像的距离数组。
具体地,根据步骤S203得到的凸形状Hull,设置合理步长,遍历该凸形状Hull上的各个点坐标与掌心坐标(X,Y)之间的距离,得到距离数组Distance。
S206.设定阈值:根据各幅手势图像的距离数组的平均值及手势类型分别设定与各幅手势图像对应的阈值。
例如,对于手势类型为S1的手势图像,其对应的阈值D可设定为距离数组的平均值的0.8倍,即D=0.8*average(Distance)。
在设定了阈值D之后,如图3d所示,在手势图像中以掌心为圆心,以阈值D为半径画圆,以备后续步骤使用。
S207.寻找区间极值点:基于各幅手势图像的距离数组分别从各幅手势图像的凸形状Hull上的各个点中筛选出比周围两个点距离掌心都远且与掌心间距大于对应阈值的点,作为所述凸形状Hull上的区间极值点。
具体地,遍历凸形状Hull上的各个点,找到区间极值点。区间极值点位于图3d所示的圆之外,比其周围两个点距离掌心都远且与掌心间距大于对应阈值D,寻找结果如图3e所示,寻找到的区间极值点的数量N即为指尖数量。
S208.组别划分:根据检测出的指尖数量将多幅手势图像划分为若干组别。
其中,根据手势图像的实际情况和系统实际需求进行组别划分,例如可划分2组,也可以划分为3、4组等。
下面结合图4,以多幅手势图像划分为N0、N1和N2共三个组别为例,详细描述这三个组别的手势图像与指尖数量、手势类型的对应关系。
N0组别手势图像表示本组别手势图像指尖数量检测为0,由于只有一个手势,可直接判断为如图4所示的拳头类型的手势S0;N1组别手势图像表示本组别手势图像指尖数量检测为1-2个,如图4所示的伸出拇指类型的手势S1和同时伸出拇指与食指类型的手势S2;N2组别手势图像表示本组别手势图像指尖数量检测为3个以及3个以上,如同时伸出5个手指类型的手势S3和同时伸出食指、中指和无名指类型的手势S4。
S209.手势库训练:将各个组别的手势图像分别进行分类训练,以得到各个组别的分类器函数。
具体地,获取同一组别的各幅手势图像的五维几何不变矩特征数值和手势类型;对于同一组别的各幅手势图像,将每幅手势图像的五维几何不变矩特征数值与该幅手势图像的手势类型的识别标志组成向量,以得到同一组别的各幅手势图像的对应向量;以及,将同一组别的各幅手势图像的对应向量作为待训练数据输入至预设分类训练器进行分类训练,以得到该组别的分类器函数。
以图4为例,将N0、N1、N2组别的手势图像按照组别分别进行分类训练,以得到N0、N1、N2组别的分类器函数。其中,分类训练输入的数值为手势图像的五维几何不变矩特征数值,分类训练器为支持向量机(SVM,Support Vector Machine)训练器。
下面以图4中N1组的S1类手势(只伸出拇指)和S2类手势(同时伸出拇指和食指)为例进行分类训练说明。至于N0组和N2组,与N1组的分类训练原理相似,此处不再赘述。
使用Opencv库中的函数cvGetHuMoments(&moments,&hu)得到手势图像的Hu矩,以获得同一组别手势图像五维几何不变矩。
将S1类手势的识别标志设为+1,与对应手势图像的五维几何不变矩组成向量;同理,将S2类手势的识别标志设为+2,与对应图像的五维几何不变矩组成向量。在实际应用中,可将S1类型的手势图像取500个,S2类型的手势图像取500个,做成一个1000个长度的数据集。
获得手势类型及五维几何不变矩阵实例如下(即构造出的待训练数据,输入至分类训练器中):
其中+1表示N1组别的手势图像的手势S1,+2表示N1组别的手势图像的手势S2。
利用支持向量机的训练包libsvm,使用RBF核函数进行分类训练,得到N1组的分类器函数SVMN1-S1S2参数及松弛因子。举例如下:SVMN1-S1S2=SUM(x from 0-60)a[x]*exp(-gamma*(|Sv[x]-Hx|))+b
其中,b表示松弛因子,gamma表示偏离参数(可取值为2),a[]表示参数,Sv[]表示五维向量,Hx为图像5维几何不变矩。例如,HX=[0.000742788,6.32759e-008,8.81797e-011,3.02593e-012,-2.94329e-023]
此时,向分类器函数SVMN1-S1S2输入S1类图像的五维几何不变矩特征,应得到识别标志为+1的分类;输入S2类图像的五维几何不变矩特征,应得到识别标志为+2的分类;通过将+1映射为S1类图像,+2映射为S2类图像,即可将两组图像进行准确分类。
S210.手势分类:利用各个组别的分类器函数分别对各个组别的手势图像进行计算,以得到各个组别的手势图像的手势类型分类结果。
通过不同组别的分类器函数,即可计算得到手势的分类。以N1组的分类器函数为例,S1类图像的五维几何不变矩特征向量输入N1组分类器函数,会得到识别标志为+1的手势分类结果;S2类图像的五维几何不变矩特征向量输入N1组分类器函数,会得到识别标志为+2的手势分类结果。由此可将N1组的两个手势区分开来。同理,N0组及N2组在训练出属于各自组的分类器函数后,也可得到手势类型的具体分类。
需要说明的是,上述步骤的顺序只是为了说明本公开实施例而提出的一个具体实例,本公开对上述步骤的顺序不做限定,本领域技术人员在实际应用中可按需对其进行调整。
图5为本公开实施例提供的手势图像分类装置的结构框图。如图5所示,所述装置50包括:指尖识别模块51、手势库训练模块52和手势分类模块53。
其中,指尖识别模块51设置为对输入的多幅手势图像分别进行检测以得到各幅手势图像中指尖的数量,并根据检测出的指尖数量将多幅手势图像划分为若干组别;手势库训练模块52设置为将各个组别的手势图像分别进行分类训练,以得到各个组别的分类器函数;手势分类模块53设置为利用各个组别的分类器函数分别对各个组别的手势图像进行计算,以得到各个组别的手势图像的手势类型分类结果。
在一种实施方式中,指尖识别模块51包括轮廓检测模块、多边形拟合模块和指尖数量提取模块。其中,轮廓检测模块设置为对输入的多幅手势图像分别进行轮廓检测以得到各幅手势图像的近似轮廓;多边形拟合模块设置为对各幅手势图像的近似轮廓进行多边形拟合以得到各幅手势图像的近似轮廓的多边形拟合结果;指尖数量提取模块设置为根据各幅手势图像的近似轮廓的多边形拟合结果得到各幅手势图像中指尖的数量。
在一种实施方式中,指尖数量提取模块包括:凸包检测模块和区间极值点寻找模块。其中,凸包检测模块设置为对各幅手势图像的近似轮廓的多边形拟合结果进行凸包检测以得到各幅手势图像的凸形状;区间极值点寻找模块设置为根据预设规则对各幅手势图像的凸形状上的各个点进行筛选,得到所述凸形状上的区间极值点,所述区间极值点的数量为对应手势图像的指尖数量。
在一种实施方式中,区间极值点寻找模块具体设置为:获取各幅手势图像的凸形状上的各个点坐标;对各幅手势图像的凸形状进行掌心提取以得到各幅手势图像的掌心坐标;测量各幅手势图像的凸形状上的各个点坐标与对应手势图像的掌心坐标之间的距离,得到各幅手势图像的距离数组;根据各幅手势图像的距离数组的平均值及手势类型分别设定与各幅手势图像对应的阈值;以及,基于各幅手势图像的距离数组分别从各幅手势图像的凸形状上的各个点中筛选出比周围预设数量个点距离掌心都远且与掌心间距大于对应阈值的点,作为所述凸形状上的区间极值点。其中,区间极值点寻找模块对各幅手势图像的凸形状进行掌心提取以得到各幅手势图像的掌心坐标具体为,获取各幅手势图像的几何不变矩特征;以及,根据各幅手势图像的几何不变矩特征得到各幅手势图像的0阶矩M00、1阶水平矩M10和1阶垂直矩M01,则各幅手势图像的掌心坐标为:X=M10/M00;Y=M01/M00。
在一种实施方式中,指尖识别模块51根据检测出的指尖数量将多幅手势图像划分为若干组别,至少包括:将多幅手势图像划分为指尖数量检测为0的手势图像组别、指尖数量检测为1-2的手势图像组别,以及指尖数量检测为3-5的手势图像组别。
在一种实施方式中,手势库训练模块52包括特征及类型提取模块、向量提取模块和分类器模块。其中,特征及类型提取模块设置为获取同一组别的各幅手势图像的五维几何不变矩特征数值和手势类型;向量提取模块设置为对于同一组别的各幅手势图像,将每幅手势图像的五维几何不变矩特征数值与该幅手势图像的手势类型的识别标志组成向量,以得到同一组别的各幅手势图像的对应向量;分类器模块设置为将同一组别的各幅手势图像的对应向量作为待训练数据输入至预设分类训练器进行分类训练,以得到该组别的分类器函数。
基于相同的技术构思,本公开实施例相应还提供一种计算机设备,如图6所示,所述计算机设备60包括存储器61和处理器62,所述存储器61中存储有计算机程序,当所述处理器62运行所述存储器61存储的计算机程序时,所述处理器62执行前述手势图像分类方法。
基于相同的技术构思,本公开实施例相应还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行前述手势图像分类方法。
综上所述,本公开实施例提供的手势图像分类方法、装置、计算机设备及存储介质,通过对手势图像进行指尖数量检测将手势图像划分为若干组别,实现了手势图像的初步分类,然后将经过初步分类的各个组别的手势图像分别进行分类训练得到各自的分类器函数,最后利用各个组别的分类器函数对各个组别的手势图像进行计算得到手势图像的手势类型的分类结果,相比于现有的手势图像分类算法,极大地降低了算法的运算量和复杂度,提高了算法处理速度。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。
Claims (10)
1.一种手势图像分类方法,其特征在于,包括:
对输入的多幅手势图像分别进行检测以得到各幅手势图像中指尖的数量,并根据检测出的指尖数量将多幅手势图像划分为若干组别;
将各个组别的手势图像分别进行分类训练,以得到各个组别的分类器函数;以及,
利用各个组别的分类器函数分别对各个组别的手势图像进行计算,以得到各个组别的手势图像的手势类型分类结果。
2.根据权利要求1所述的方法,其特征在于,所述对输入的多幅手势图像分别进行检测以得到各幅手势图像中指尖的数量,包括:
对输入的多幅手势图像分别进行轮廓检测以得到各幅手势图像的近似轮廓;
对各幅手势图像的近似轮廓进行多边形拟合以得到各幅手势图像的近似轮廓的多边形拟合结果;以及,
根据各幅手势图像的近似轮廓的多边形拟合结果得到各幅手势图像中指尖的数量。
3.根据权利要求2所述的方法,其特征在于,所述根据各幅手势图像的近似轮廓的多边形拟合结果得到各幅手势图像中指尖的数量,包括:
对各幅手势图像的近似轮廓的多边形拟合结果进行凸包检测以得到各幅手势图像的凸形状;以及,
根据预设规则对各幅手势图像的凸形状上的各个点进行筛选,得到所述凸形状上的区间极值点,所述区间极值点的数量为对应手势图像的指尖数量。
4.根据权利要求3所述的方法,其特征在于,所述根据预设规则对各幅手势图像的凸形状上的各个点进行筛选,得到所述凸形状上的区间极值点,包括:
获取各幅手势图像的凸形状上的各个点坐标;
对各幅手势图像的凸形状进行掌心提取以得到各幅手势图像的掌心坐标;
测量各幅手势图像的凸形状上的各个点坐标与对应手势图像的掌心坐标之间的距离,得到各幅手势图像的距离数组;
根据各幅手势图像的距离数组的平均值及手势类型分别设定与各幅手势图像对应的阈值;以及,
基于各幅手势图像的距离数组分别从各幅手势图像的凸形状上的各个点中筛选出比周围预设数量个点距离掌心都远且与掌心间距大于对应阈值的点,作为所述凸形状上的区间极值点。
5.根据权利要求4所述的方法,其特征在于,所述对各幅手势图像的凸形状进行掌心提取以得到各幅手势图像的掌心坐标,包括:
获取各幅手势图像的几何不变矩特征;以及,
根据各幅手势图像的几何不变矩特征得到各幅手势图像的0阶矩M00、1阶水平矩M10和1阶垂直矩M01,则各幅手势图像的掌心坐标为:X=M10/M00;Y=M01/M00。
6.根据权利要求1所述的方法,其特征在于,所述根据检测出的指尖数量将多幅手势图像划分为若干组别,至少包括:
将多幅手势图像划分为指尖数量检测为0的手势图像组别、指尖数量检测为1-2的手势图像组别,以及指尖数量检测为3-5的手势图像组别。
7.根据权利要求1所述的方法,其特征在于,所述将各个组别的手势图像分别进行分类训练,以得到各个组别的分类器函数,包括:
获取同一组别的各幅手势图像的五维几何不变矩特征数值和手势类型;
对于同一组别的各幅手势图像,将每幅手势图像的五维几何不变矩特征数值与该幅手势图像的手势类型的识别标志组成向量,以得到同一组别的各幅手势图像的对应向量;以及,
将同一组别的各幅手势图像的对应向量作为待训练数据输入至预设分类训练器进行分类训练,以得到该组别的分类器函数。
8.一种手势图像分类装置,其特征在于,包括:
指尖识别模块,其设置为对输入的多幅手势图像分别进行检测以得到各幅手势图像中指尖的数量,并根据检测出的指尖数量将多幅手势图像划分为若干组别;
手势库训练模块,其设置为将各个组别的手势图像分别进行分类训练,以得到各个组别的分类器函数;以及,
手势分类模块,其设置为利用各个组别的分类器函数分别对各个组别的手势图像进行计算,以得到各个组别的手势图像的手势类型分类结果。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1至7中任一项中所述的手势图像分类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,所述处理器执行根据权利要求1至7中任一项所述的手势图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010467866.9A CN111626364B (zh) | 2020-05-28 | 2020-05-28 | 手势图像分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010467866.9A CN111626364B (zh) | 2020-05-28 | 2020-05-28 | 手势图像分类方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626364A true CN111626364A (zh) | 2020-09-04 |
CN111626364B CN111626364B (zh) | 2023-09-01 |
Family
ID=72259178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010467866.9A Active CN111626364B (zh) | 2020-05-28 | 2020-05-28 | 手势图像分类方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626364B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101807114A (zh) * | 2010-04-02 | 2010-08-18 | 浙江大学 | 一种基于三维手势的自然交互方法 |
US20120113241A1 (en) * | 2010-11-09 | 2012-05-10 | Qualcomm Incorporated | Fingertip tracking for touchless user interface |
US20140253429A1 (en) * | 2013-03-08 | 2014-09-11 | Fastvdo Llc | Visual language for human computer interfaces |
CN104299004A (zh) * | 2014-10-23 | 2015-01-21 | 浙江大学 | 一种基于多特征融合和指尖检测的手势识别方法 |
WO2017191909A1 (ko) * | 2016-05-03 | 2017-11-09 | 가천대학교 산학협력단 | 제스처 인식 방법, 장치 및 비일시적 컴퓨터-판독가능 매체 |
CN109359566A (zh) * | 2018-09-29 | 2019-02-19 | 河南科技大学 | 利用手指特征进行层级分类的手势识别方法 |
CN109446950A (zh) * | 2018-10-16 | 2019-03-08 | 东南大学 | 一种基于热像仪摄像头的静态手势识别方法 |
US20200143154A1 (en) * | 2017-06-20 | 2020-05-07 | Volkswagen Aktiengesellschaft | Method and device for detecting a user input on the basis of a gesture |
-
2020
- 2020-05-28 CN CN202010467866.9A patent/CN111626364B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101807114A (zh) * | 2010-04-02 | 2010-08-18 | 浙江大学 | 一种基于三维手势的自然交互方法 |
US20120113241A1 (en) * | 2010-11-09 | 2012-05-10 | Qualcomm Incorporated | Fingertip tracking for touchless user interface |
US20140253429A1 (en) * | 2013-03-08 | 2014-09-11 | Fastvdo Llc | Visual language for human computer interfaces |
CN104299004A (zh) * | 2014-10-23 | 2015-01-21 | 浙江大学 | 一种基于多特征融合和指尖检测的手势识别方法 |
WO2017191909A1 (ko) * | 2016-05-03 | 2017-11-09 | 가천대학교 산학협력단 | 제스처 인식 방법, 장치 및 비일시적 컴퓨터-판독가능 매체 |
US20200143154A1 (en) * | 2017-06-20 | 2020-05-07 | Volkswagen Aktiengesellschaft | Method and device for detecting a user input on the basis of a gesture |
CN109359566A (zh) * | 2018-09-29 | 2019-02-19 | 河南科技大学 | 利用手指特征进行层级分类的手势识别方法 |
CN109446950A (zh) * | 2018-10-16 | 2019-03-08 | 东南大学 | 一种基于热像仪摄像头的静态手势识别方法 |
Non-Patent Citations (2)
Title |
---|
刘杨俊武;程春玲;: "基于关键帧和局部极值的手势特征提取算法", no. 03, pages 133 - 137 * |
黎明聪;吴逸畅;张锡斌;曾志远;王嘉辉;: "基于预分类处理的实时多手势识别算法", no. 04, pages 308 - 314 * |
Also Published As
Publication number | Publication date |
---|---|
CN111626364B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102424803B1 (ko) | 터치 분류 | |
CN107944020B (zh) | 人脸图像查找方法及装置、计算机装置和存储介质 | |
CN110647829A (zh) | 一种票据的文本识别方法及系统 | |
US10762373B2 (en) | Image recognition method and device | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
JP5944406B2 (ja) | 最近傍を見つけ出すための方法および装置 | |
JP2014215852A (ja) | 画像処理装置、プログラム及び画像処理方法 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN107784321B (zh) | 数字绘本快速识别方法、系统及计算机可读存储介质 | |
CN104268498A (zh) | 一种二维码的识别方法及终端 | |
CN111079785A (zh) | 一种图像识别方法、装置及终端设备 | |
CN110717366A (zh) | 文本信息的识别方法、装置、设备及存储介质 | |
US10438083B1 (en) | Method and system for processing candidate strings generated by an optical character recognition process | |
CN110443242B (zh) | 读数框检测方法、目标识别模型训练方法及相关装置 | |
CN111860494A (zh) | 图像目标检测的优化方法、装置、电子设备和存储介质 | |
CN107272899B (zh) | 一种基于动态手势的vr交互方法、装置及电子设备 | |
CN112085701A (zh) | 一种人脸模糊度检测方法、装置、终端设备及存储介质 | |
Cheng et al. | Urban road extraction via graph cuts based probability propagation | |
CN110942473A (zh) | 一种基于特征点网格化匹配的运动目标跟踪检测方法 | |
CN114168768A (zh) | 图像检索方法及相关设备 | |
CN112560856B (zh) | 车牌检测识别方法、装置、设备及存储介质 | |
CN114494823A (zh) | 零售场景下的商品识别检测计数方法及系统 | |
US8849050B2 (en) | Computer vision methods and systems to recognize and locate an object or objects in one or more images | |
CN111626364B (zh) | 手势图像分类方法、装置、计算机设备及存储介质 | |
CN116309643A (zh) | 人脸遮挡分确定方法、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |