CN113591764B - 手势识别方法、装置、存储介质和电子设备 - Google Patents
手势识别方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN113591764B CN113591764B CN202110908876.6A CN202110908876A CN113591764B CN 113591764 B CN113591764 B CN 113591764B CN 202110908876 A CN202110908876 A CN 202110908876A CN 113591764 B CN113591764 B CN 113591764B
- Authority
- CN
- China
- Prior art keywords
- convolution
- feature
- sub
- layer
- gesture recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012545 processing Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 abstract description 20
- 230000008569 process Effects 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种手势识别方法、装置、存储介质和电子设备,涉及计算机技术领域。该上述手势识别方法是先对所述待识别图像中的手势特征进行提取,得到多个第一特征图,然后对所述多个第一特征图进行卷积,得到宽度与高度均为1像素的第二特征图。也就是说,本公开实施例通过卷积代替传统方案中的池化步骤,在可以得到与传统池化相同输出的前提下,尽可能的保留更多的通道信息,避免了传统池化过程中损失部分通道信息的问题,进而提高通过全连接层对待识别图像中手势类型识别的准确性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种手势识别方法、装置、存储介质和电子设备。
背景技术
人机交互(Human-Computer Interaction,HCI)是指人和计算机之间的信息交换,主要包括人到计算机和计算机到人的信息交换两部分。在人到计算机的信息交换部分,需要人发出一些交互指令,例如图形、语音、手势、体式、触感等,其中,在移动终端最为常用的为手势指令,计算机通过读取手势指令进行信息处理。
因为移动终端的计算能力不如计算机设备,因此,在移动终端一般使用轻量级的手势识别模型来进行手势指令的识别。目前利用轻量级的手势识别模型进行手势识别的方式主要包括,第一种方式,对卷积网络的深度和宽度进行压缩,以来提高手势识别的效率,但是导致的结果便是因为压缩而导致识别准确性降低;第二种方式,通过增加特征提取层来提高手势识别的准确性,但是导致的结果就是降低识别的效率。
因此,目前的手势识别效果均不佳。
发明内容
本公开提供了一种手势识别方法、装置、存储介质和电子设备,进而提高手势识别的效率与识别准确性。
第一方面,本公开一个实施例提供了一种手势识别方法,该方法基于轻量级手势识别模型实现,轻量级手势识别模型至少包括:第一卷积层、第二卷积层和全连接层;该方法包括:
调用第一卷积层对待识别图像中的手势特征进行提取,得到多个第一特征图;
调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,直至得到多个第二特征图;其中,多个第二特征图的宽度与高度均为1像素;
调用全连接层对多个第二特征图进行预测处理,得到识别结果;
根据识别结果确定待识别图像中手势的类型。
在本公开一个可选实施例中,调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,直至得到多个第二特征图,包括:
调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,得到多个第一子特征图;
若多个第一子特征图的宽度与高度均为1像素,则确定第一子特征图为第二特征图。
在本公开一个可选实施例中,调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,直至得到多个第二特征图,还包括:
若第一子特征图的宽度与高度中至少一个不为1像素,则将多个第一子特征图作为多个第一特征图,继续对多个第一特征图进行卷积,直至得到的新的第一子特征图的宽度与高度均为1像素,则将得到的新的第一子特征图确定为第二特征图。
在本公开一个可选实施例中,第二卷积层至少包括:第一子卷积层与第二子卷积层;调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,直至得到多个第二特征图,包括:
调用第一子卷积层,基于第一卷积核对多个第一特征图进行卷积,得到多个第二子特征图;
调用第二子卷积层,基于第二卷积核对多个第二子特征图进行卷积,得到多个第二特征图;其中,第一卷积核与第二卷积核的大小根据第一特征图、第二子特征图与第二特征图的大小确定。
在本公开一个可选实施例中,第一卷积核与第二卷积核的大小满足如下关系:
W1-2W2=K1-K2-1
其中,W1表示第一特征图的尺寸,W2表示第二子特征图的尺寸,K1表示第一卷积核的尺寸,K2表示第二卷积核的尺寸。
在本公开一个可选实施例中,多个第二特征图的通道数小于多个第一特征图的通道数,且大于多个第一子特征图的通道数。
在本公开一个可选实施例中,调用全连接层对多个第二特征图进行预测处理,得到识别结果,包括:
调用全连接层将多个第二特征图转换为一维特征向量;
对一维特征向量进行分类预测处理,得到识别结果。
在本公开一个可选实施例中,对一维特征向量进行分类预测处理,得到识别结果,包括:
对一维特征向量进行识别处理,得到初始识别结果;
基于预设的交叉熵损失函数对初始识别结果进行优化处理,得到识别结果。
在本公开一个可选实施例中,对一维特征向量进行分类预测处理,得到识别结果,还包括:
基于预设的度量学习损失函数对初始识别结果进行优化处理,得到识别结果。
第二方面,本公开一个实施例提供了一种手势识别装置,基于轻量级手势识别模型实现,轻量级手势识别模型至少包括:第一卷积层、第二卷积层和全连接层;该装置包括:
第一卷积模块,用于调用第一卷积层对待识别图像中的手势特征进行提取,得到多个第一特征图;
第二卷积模块,用于调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,直至得到多个第二特征图;其中,多个第二特征图的宽度与高度均为1像素;
全连接模块,用于调用全连接层对多个第二特征图进行预测处理,得到识别结果;
确定模块,用于根据识别结果确定待识别图像中手势的类型。
第三方面,本公开一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上的方法。
第四方面,本公开一个实施例提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行如上的方法。
本公开的技术方案具有以下有益效果:
上述手势识别方法是先对待识别图像中的手势特征进行提取,得到多个第一特征图,然后对多个第一特征图进行卷积,得到宽度与高度均为1像素的第二特征图。也就是说,本公开实施例通过卷积代替传统方案中的池化步骤,在可以得到与传统池化相同输出的前提下,尽可能的保留更多的通道信息,避免了传统池化过程中损失部分通道信息的问题,进而提高通过全连接层对待识别图像中手势类型识别的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施方式,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本示例性实施方式中一种手势识别方法的应用场景示意图;
图2示出本示例性实施方式中一种手势识别方法的流程图;
图3示出本示例性实施方式中一种轻量级手势识别模型的结构示意图;
图4示出本示例性实施方式中一种手势识别方法的流程图;
图5示出本示例性实施方式中一种手势识别方法的流程图;
图6示出本示例性实施方式中一种手势识别方法的流程图;
图7示出本示例性实施方式中一种手势识别方法的流程图;
图8示出本示例性实施方式中一种手势识别装置结构示意图;
图9示出本示例性实施方式中一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例性实施方式。然而,示例性实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例性实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
相关技术中,人机交互(Human-Computer Interaction,HCI)是指人和计算机之间的信息交换,主要包括人到计算机和计算机到人的信息交换两部分。在人到计算机的信息交换部分,需要人发出一些交互指令,例如图形、语音、手势、体式、触感等,其中,在移动终端最为常用的为手势指令,计算机通过读取手势指令进行信息处理。因为移动终端的计算能力不如计算机设备,因此,在移动终端一般使用轻量级的轻量级手势识别模型来进行手势指令的识别。目前利用轻量级的轻量级手势识别模型进行手势识别的方式主要包括,第一种方式,对卷积网络的深度和宽度进行压缩,以来提高手势识别的效率,但是导致的结果便是因为压缩而导致识别准确性降低;第二种方式,通过增加特征提取层来提高手势识别的准确性,但是导致的结果就是降低识别的效率。因此,目前的手势识别效果均不佳。
鉴于上述问题,本公开实施例提供了一种手势识别方法,先对待识别图像中的手势特征进行提取,得到多个第一特征图,然后对多个第一特征图进行卷积,得到宽度与高度均为1像素的第二特征图。也就是说,本公开实施例通过卷积代替传统方案中的池化步骤,在可以得到与传统池化相同输出的前提下,尽可能的保留更多的通道信息,避免了传统池化过程中损失部分通道信息的问题,进而提高通过全连接层对待识别图像中手势类型识别的准确性。
以下对本公开实施例提供的手势识别方法的应用环境作简单介绍:
请参见图1,本公开实施例提供的手势识别方法的应用环境可以包括:移动终端101和服务器102。其中,移动终端101可以为智能手机、平板电脑、可穿戴智能设备等;服务器102泛指提供本公开实施例中手势识别相关服务的后台系统,可以是一台服务器或多台服务器形成的服务器集群。移动终端101与服务器102之间可以通过有线或无线的通信链路形成连接,以进行数据交互。
下面以上述移动终端101为执行主体,将该手势识别方法应用于上述的移动终端,对手势进行识别为例进行举例说明。请参见图2,本公开实施例提供的手势识别方法包括如下步骤201-步骤204。
步骤201、移动终端调用第一卷积层对待识别图像中的手势特征进行提取,得到多个第一特征图。
请参见图3,移动终端内部预先存储有一轻量级手势识别模型,该轻量级手势识别模型300至少包括:第一卷积层301、第二卷积层302和全连接层303;其中,第一卷积层301用于对待识别图像中的特征进行提取,并输出第一特征图;第二卷积层302用于对第一卷积层输出的第一特征图进行卷积,以得到宽度与高度均为1的第二特征图;全连接层303用于对第二卷积层输出的第二特征图进行预测处理,以得到识别结果。在本实施例中,将待识别图像输入至该轻量级手势识别模型,通过调用该轻量级手势识别模型中的第一卷积层便可获取得到多个第一特征图。
步骤202、移动终端调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,直至得到多个第二特征图。
其中,多个第二特征图的宽度与高度均为1个像素单元。通过步骤201得到多个第一特征图,然后调用上述轻量级手势识别模型中的第二卷积层,并将该多个第一特征图输入至该第二卷积层中,该第二卷积层通过内部的多个子卷积层依次对得到的多个第一特征图进行线性卷积,最终得到多个宽度与高度均为1个像素单元第二特征图。深度学习网络中一般包括:卷积层、池化层和全连接层,通过卷积层进行特征提取,然后通过池化层进行通道压缩,最后通过全连接层进行结果预测。本实施例通过包含有多个子卷积层的第二卷积层替换传统深度学习网络中的池化层,以避免在池化过程中因为通道压缩而造成部分通道信息丢失的问题,通过第二卷积层对得到的多个第一特征图进行线性卷积为宽度与高度均为1个像素单元的特征图,便可最大程度上保留通道信息,以提高信息的完整性,从而提高手势识别结果的准确性。
步骤203、移动终端调用全连接层对多个第二特征图进行预测处理,得到识别结果。
控制终端在得到长度与宽度均为1个像素单元的第二特征图后,将该第二特征图输入至全连接层,全连接层基于内部的全连接模块对该第二特征图中的特征手势进行识别,得到识别结果。该识别结果可以为不同手势可能出现的概率等。
步骤204、移动终端根据识别结果确定待识别图像中手势的类型。
移动终端在得到识别结果后判断多个手势出现的概率,然后将概率最大的一个手势类型确定为目标手势,也就得到了待识别图像中手势的类型。
本公开实施例提供的手势识别方法是先对待识别图像中的手势特征进行提取,得到多个第一特征图,然后对多个第一特征图进行卷积,得到宽度与高度均为1的第二特征图。也就是说,本公开实施例通过卷积代替传统方案中的池化步骤,在可以得到与传统池化相同输出的前提下,尽可能的保留更多的通道信息,避免了传统池化过程中损失部分通道信息的问题,进而提高通过全连接层对待识别图像中手势类型识别的准确性。
请参见图4,在本公开一个可选实施例中,步骤202移动终端调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,直至得到多个第二特征图,包括:如下步骤401-步骤403:
步骤401、移动终端调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,得到多个第一子特征图。
移动终端在通过步骤201得到多个第一特征图后,然后设定至少一个卷积核,通过该卷积核依次对第一特征图进行线性卷积。例如,第一特征图的尺寸为14×14×512,移动终端先基于32个3×3的卷积核对该第一特征图进行第一次卷积,得到多个尺寸为7×7×32的第一子特征图,然后再基于128个7×7的卷积核对该7×7×32的第一子特征图继续第二次卷积,便可得到尺寸为1×1×128的第一子特征图。需要指出的是,该卷积核的数量与大小可以根据实际情况具体选择,本实施例不作具体限定,只需要通过多个卷积核的多次卷积后可以得到宽度与高度均为1个像素单元的第一子特征图的目的即可。
步骤402、若多个第一子特征图的宽度与高度均为1像素,移动终端则确定第一子特征图为第二特征图。
基于如上步骤401中的例子,对应1×1×128的第一子特征图的宽度与高度均为1个像素单元,则意味着当前通过第二卷积层已经实现了传统池化层将特征图转换为1×1特征图的目的,移动终端则将该第一子特征图确定为第二特征图,作为全连接层的输入,以进一步进行预测处理。
步骤403、若第一子特征图的宽度与高度中至少一个不为1像素,移动终端则将多个第一子特征图作为多个第一特征图,继续对多个第一特征图进行卷积,直至得到的新的第一子特征图的宽度与高度均为1像素,则将得到的新的第一子特征图确定为第二特征图。
基于如上步骤401中的例子,对应7×7×32的第一子特征图的宽度与高度均为7个像素单元,而非1个像素单元,因此,移动终端则将第一子特征图作为第一特征图,继续对该多个第一特征图进行卷积,如上,将该7×7×32的第一子特征图作为第一特征图,继续采用基于128个7×7的卷积核对该7×7×32的第一特征图继续卷积,便可得到长度和宽度均为1个像素单元的1×1×128的第一子特征图。对应1×1×128的第一子特征图的宽度与高度均为1个像素单元,移动终端则将该第一子特征图确定为第二特征图。
本公开实施例基于多个卷积核依次对第一特征图进行多次卷积,直至多次卷积后形成宽度和高度均为1个像素单元的第二特征图。可以通过卷积保留更多的通道信息,同时又可以避免传统池化过程中损失部分通道信息的问题,进而提高对待识别图像中手势类型识别的准确性。
请参见图5,在本公开的一个可选实施例中,第二卷积层至少包括:第一子卷积层与第二子卷积层,步骤202移动终端调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,直至得到多个第二特征图,包括如下步骤501-步骤502:
步骤501、调用第一子卷积层,基于第一卷积核对多个第一特征图进行卷积,得到多个第二子特征图。
其中,第一卷积核的大小可以根据经验设定,也可以随机设定,本实施例不作具体限定。先基于第一卷积核,以一定的步长对多个第一特征图进行卷积后得到多个第二特征图,第二子特征图是指基于第一卷积核进行了至少一次卷积后输出的特征图。当然,在卷积过程中,还可以进行边缘填充等其他操作,以提高卷积效果以及最大程度保留信息通道,从而提高本公开实施例提供的手势识别方法的识别效果。
步骤502、调用第二子卷积层,基于第二卷积核对多个第二子特征图进行卷积,得到多个第二特征图。
其中,第一卷积核与第二卷积核的大小根据第一特征图、第二子特征图与第二特征图的大小确定。每次卷积后特征图的大小可以根据卷积输出尺寸计算公式来计算得到,对应的,在每次进行卷积时,我们在确定的待卷积特征图,也就是在确定的第一特征图尺寸,以及确定的卷积核尺寸、确定的步长和确定的边缘填充大小,便可计算得到输出特征图的尺寸大小,即计算得到第二子特征图的尺寸大小。对应的,在得到第二子特征图的尺寸大小的情况下,同样可以计算得到第二特征图的尺寸大小。因此,为保证最终输出的第二特征图的长度与宽度均为1个像素单元,我们设定第一次卷积与第二次卷积的步长和填充边缘的大小一致,然后便可以根据第二特征图的尺寸大小,以及预先设定的步长和边缘填充大小计算得到第一卷积核与第二卷积核的大小。需要指出的是,计算得到的第一卷积核与第二卷积核的大小并非只有一个绝对的确定数值,而是指满足一定的关系式即可,也就是说,第一卷积核与第二卷积核的尺寸大小只需要满足最终可以输出长度与宽度均为1个像素单元的第二特征图即可。
本公开实施例提供的手势识别方法是先调用第一子卷积层,并基于第一卷积核对第一特征图进行卷积后得到第二子特征图后,然后再调用第二子卷积层,并基于第二卷积核对第二子特征图进行继续卷积,同时,第一卷积核与第二卷积核的大小根据第一特征图、第二子特征图与第二特征图的大小确定,最终便可输出长度和宽度均为1个像素单元的第二特征图。本公开实施例提供的手势识别方法在保证每次卷积通信信息完整性的前提下,卷积次数较少,可以大大减小计算量,手势识别效率更高,从而增强本公开实施例提供的手势识别方法在移动终端的适用性。
在一个具体的实施例中,第一卷积核与第二卷积核的大小满足如下关系:
W1-2W2=K1-K2-1(1)
公式(1)中,W1表示第一特征图的尺寸,W2表示第二子特征图的尺寸,K1表示第一卷积核的尺寸,K2表示第二卷积核的尺寸。
需要补充的是,卷积输出尺寸的计算公式为:
输出特征图尺寸=(输出特征图尺寸-卷积核尺寸+2×边缘填充大小)/卷积步长+1。
对应的,基于第一卷积核进行第一次卷积后输出的第一特征图的尺寸为:
W2=(W1-K1+2×P1)/S1+1(2)
公式(2)中,W1表示第一特征图的尺寸,W2表示第二子特征图的尺寸,K1表示第一卷积核的尺寸,P1表示在进行第一次卷积时边缘填充的大小,S1表示在进行第一次卷积时卷积步长的大小。
第二卷积核进行第二次卷积后输出的第二特征图的尺寸为:
W3=(W2-K2+2×P2)/S2+1(3)
公式(3)中,W3表示第二特征图的尺寸,W2表示第二子特征图的尺寸,K2表示第二卷积核的尺寸,P2表示在进行第二次卷积时边缘填充的大小,S2表示在进行第二次卷积时卷积步长的大小。
已知,第二特征图的尺寸为1×1个像素单元,即W3=1,同时,设定两次卷积时的边缘填充大小P1=P1=0,两次卷积时的卷积步长S1=S2=1,则将如上公式(2)式与公式(3)结合,便可得到如上公式(1):
W1-2W2=K1-K2-1(1)
本公开实施例提供的手势识别方法中第一卷积核与第二卷积核的大小满足如上公式(1),设定基于第一卷积核进行第一次卷积时与基于第二卷积核进行第二次卷积时的卷积步长与边缘填充的大小均相等,可以快速的输出长度和宽度均为1个像素单元的第二特征图。本公开实施例提供的手势识别方法在保证每次卷积通信信息完整性的前提下,卷积次数较少,可以大大减小计算量,手势识别效率更高,从而增强本公开实施例提供的手势识别方法在移动终端的适用性。
在一个可选实施例中,多个第二特征图的通道数小于多个第一特征图的通道数,且大于多个第一子特征图的通道数。
第二特征图的通道数小于第一特征图的通道数,且大于第一子特征图的通道数,这样便可以使得替代传统池化层的新的第二卷积层形成卷积瓶颈结构。采用卷积瓶颈结构一方面可以避免全局池化时造成的信息损失,另一方面,通过第二卷积层可以通过卷积核等引入更多的训练参数,增强轻量级手势识别模型的识别能力,进一步提高手势识别的准确性。同时,由于瓶颈结构先在一定程度上先降低了通道数,最后再提高通道数,可以大大减小计算量,提高计算速度,从而使得本公开实施例提供的手势识别方法的识别时长相对于传统的手势识别方法具有更高的识别效率,进一步提高本公开实施例提供的手势识别方法在移动终端的适用性。
请参见图6,在一个可选的实施例中,步骤203移动终端调用全连接层对多个第二特征图进行预测处理,得到识别结果,包括:如下步骤601-步骤602:
步骤601、移动终端调用全连接层将多个第二特征图转换为一维特征向量。
移动终端将多个第二特征图转换为一维特征向量,以方便全连接层进行结果预测处理。例如上述步骤401中得到了尺寸为1×1×128的第一子特征图,然后将该第一特征图进行维度转换为1×128的特征图,将该1×128的特征图作为全连接层的输入。在本实施例中,可以通过填充边缘(padding)、增加步长(stride)等方式来讲第二特征图转化为一维特征向量。
步骤602、移动终端对一维特征向量进行分类预测处理,得到识别结果。
如上步骤203,移动终端通过全连接层对卷积层输出的一维特征向量进行类别区分,例如可以采用ReLU函数等进行输出,然后通过softmax层进行逻辑回归、分类等,从而确定得到当前的预测结果。
本公开实施例提供的手势识别方法先将第二特征图转换为一维特征向量,然后再对该一维特征向量进行分类预测处理,从而得到识别结果。基于一维特征向量进行分类预测处理相对于传统方法中基于多维度的特征图进行处理计算量更小,可以大大提高后续确定识别结果的效率,进一步提高本公开实施例提供的手势识别方法的识别效率。
请参见图7,在一个可选的实施例中,步骤602移动终端对一维特征向量进行分类预测处理,得到识别结果,包括如下步骤701-步骤703:
步骤701、移动终端对一维特征向量进行识别处理,得到初始识别结果。
如上步骤602,移动终端在对一维特征向量进行预测处理后,得到一个初始的识别结果。
步骤702、移动终端基于预设的交叉熵损失函数对初始识别结果进行优化处理,得到识别结果。
移动终端在得到该初始识别结果后,基于交叉熵损失函数对该初始识别结果进行优化处理,通过交叉熵衡量真实概率分布与预测概率分布之间的差异,通过交叉熵来计算损失,通过该损失不断对得到的识别结果进行优化,从而得到初始识别结果,交叉熵的值越小,损失函数越收敛,轻量级手势识别模型的预测效果就越好,所得到的手势识别越准确。其中,该交叉熵损失函数的具体函数内容可以根据实际情况具体设定,本实施例不作任何限定。
步骤703、移动终端基于预设的度量学习损失函数对初始识别结果进行优化处理,得到识别结果。
除步骤702中基于交叉熵损失函数对初始识别结果进行优化外,还可以通过度量学习损失函数对得到的初始识别结果进行优化,以进一步提高识别结果的准确性。其中,该度量学习损失函数的具体内容或显示可以根据实际情况具体设定,本实施例不作任何限定。
请参见图8,为了实现上述业务处理方法,本公开的一个实施例中提供一种手势识别装置800,基于上述的轻量级手势识别模型实现,该轻量级手势识别模型至少包括:第一卷积层、第二卷积层和全连接层。图8示出了手势识别装置800的示意性架构图。该手势识别装置800包括:第一卷积模块801、第二卷积模块802、全连接模块803和确定模块804。
第一卷积模块801,用于调用第一卷积层对待识别图像中的手势特征进行提取,得到多个第一特征图;
第二卷积模块802,用于调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,直至得到多个第二特征图;其中,多个第二特征图的宽度与高度均为1像素;
全连接模块803,用于调用全连接层对多个第二特征图进行预测处理,得到识别结果;
确定模块804,用于根据识别结果确定待识别图像中手势的类型。
在一个可选的实施例中,该第二卷积模块802具体用于,调用第二卷积层中包含的多个子卷积层依次对多个第一特征图进行卷积,得到多个第一子特征图;若多个第一子特征图的宽度与高度均为1像素,则确定第一子特征图为第二特征图。
在一个可选的实施例中,该第二卷积模块802还用于,若第一子特征图的宽度与高度中至少一个不为1像素,则将多个第一子特征图作为多个第一特征图,继续对多个第一特征图进行卷积,直至得到的新的第一子特征图的宽度与高度均为1像素,则将得到的新的第一子特征图确定为第二特征图。
在一个可选的实施例中,第二卷积层至少包括:第一子卷积层与第二子卷积层;该第二卷积模块802具体用于,调用第一子卷积层,基于第一卷积核对多个第一特征图进行卷积,得到多个第二子特征图;调用第二子卷积层,基于第二卷积核对多个第二子特征图进行卷积,得到多个第二特征图;其中,第一卷积核与第二卷积核的大小根据第一特征图、第二子特征图与第二特征图的大小确定。
在一个可选的实施例中,第一卷积核与第二卷积核的大小满足如下关系:W1-2W2=K1-K2-1,其中,W1表示第一特征图的尺寸,W2表示第二子特征图的尺寸,K1表示第一卷积核的尺寸,K2表示第二卷积核的尺寸。
在一个可选的实施例中,多个第二特征图的通道数小于多个第一特征图的通道数,且大于多个第一子特征图的通道数。
在一个可选的实施例中,该全连接模块803具体用于,调用全连接层将多个第二特征图转换为一维特征向量;对一维特征向量进行分类预测处理,得到识别结果。
在一个可选的实施例中,该全连接模块803还用于,对一维特征向量进行识别处理,得到初始识别结果;基于预设的交叉熵损失函数对初始识别结果进行优化处理,得到识别结果。
在一个可选的实施例中,该全连接模块803还用于,基于预设的度量学习损失函数对初始识别结果进行优化处理,得到识别结果。
本公开的示例性实施方式还提供了一种计算机可读存储介质,可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种实施方式中,该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本公开的示例性实施方式还提供了一种电子设备,可以是信息平台的后台服务器。下面参考图9对该电子设备进行说明。应当理解,图9显示的电子设备900仅仅是一个示例,不应对本公开实施方式的功能和使用范围带来任何限制。
如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:至少一个处理单元、至少一个存储单元、连接不同系统组件(包括存储单元和处理单元)的总线。
其中,存储单元存储有程序代码,程序代码可以被处理单元执行,使得处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元可以执行如图2所示的方法步骤等。
存储单元可以包括易失性存储单元,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元(ROM)。
存储单元还可以包括具有一组(至少一个)程序模块的程序/实用工具,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线可以包括数据总线、地址总线和控制总线。
电子设备900也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口进行。电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器通过总线与电子设备的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。
Claims (10)
1.一种手势识别方法,其特征在于,所述方法基于轻量级手势识别模型实现,所述轻量级手势识别模型至少包括:第一卷积层、第二卷积层和全连接层;所述方法包括:
调用所述第一卷积层对待识别图像中的手势特征进行提取,得到多个第一特征图;
调用所述第二卷积层中包含的多个子卷积层依次对所述多个第一特征图进行卷积,直至得到多个第二特征图;其中,所述多个第二特征图的宽度与高度均为1像素,所述第二卷积层至少包括:第一子卷积层与第二子卷积层,所述调用所述第二卷积层中包含的多个子卷积层依次对所述多个第一特征图进行卷积,直至得到多个第二特征图,包括:
调用所述第一子卷积层,基于第一卷积核对所述多个第一特征图进行卷积,得到多个第二子特征图;调用所述第二子卷积层,基于第二卷积核对所述多个第二子特征图进行卷积,得到多个第二特征图;其中,所述第一卷积核与所述第二卷积核的大小满足如下关系:
W1-2W2=K1-K2-1
其中,W1表示第一特征图的尺寸,W2表示第二子特征图的尺寸,K1表示第一卷积核的尺寸,K2表示第二卷积核的尺寸;
调用所述全连接层对所述多个第二特征图进行预测处理,得到识别结果;
根据所述识别结果确定所述待识别图像中手势的类型。
2.根据权利要求1所述的手势识别方法,其特征在于,所述调用所述第二卷积层中包含的多个子卷积层依次对所述多个第一特征图进行卷积,直至得到多个第二特征图,包括:
调用所述第二卷积层中包含的所述多个子卷积层依次对所述多个第一特征图进行卷积,得到多个第一子特征图;
若所述多个第一子特征图的宽度与高度均为1像素,则确定所述第一子特征图为所述第二特征图。
3.根据权利要求2所述的手势识别方法,其特征在于,所述调用所述第二卷积层中包含的多个子卷积层依次对所述多个第一特征图进行卷积,直至得到多个第二特征图,还包括:
若所述第一子特征图的宽度与高度中至少一个不为1像素,则将所述多个第一子特征图作为所述多个第一特征图,继续对所述多个第一特征图进行卷积,直至得到的新的第一子特征图的宽度与高度均为1像素,则将得到的所述新的第一子特征图确定为所述第二特征图。
4.根据权利要求2所述的手势识别方法,其特征在于,所述多个第二特征图的通道数小于所述多个第一特征图的通道数,且大于所述多个第一子特征图的通道数。
5.根据权利要求1所述的手势识别方法,其特征在于,所述调用所述全连接层对所述多个第二特征图进行预测处理,得到识别结果,包括:
调用所述全连接层将所述多个第二特征图转换为一维特征向量;
对所述一维特征向量进行分类预测处理,得到所述识别结果。
6.根据权利要求5所述的手势识别方法,其特征在于,所述对所述一维特征向量进行分类预测处理,得到所述识别结果,包括:
对所述一维特征向量进行识别处理,得到初始识别结果;
基于预设的交叉熵损失函数对所述初始识别结果进行优化处理,得到所述识别结果。
7.根据权利要求6所述的手势识别方法,其特征在于,所述对所述一维特征向量进行分类预测处理,得到所述识别结果,还包括:
基于预设的度量学习损失函数对所述初始识别结果进行优化处理,得到所述识别结果。
8.一种手势识别装置,其特征在于,基于轻量级手势识别模型实现,所述轻量级手势识别模型至少包括:第一卷积层、第二卷积层和全连接层;所述装置包括:
第一卷积模块,用于调用第一卷积层对待识别图像中的手势特征进行提取,得到多个第一特征图;
第二卷积模块,用于调用第二卷积层中包含的多个子卷积层依次对所述多个第一特征图进行卷积,直至得到多个第二特征图;其中,所述多个第二特征图的宽度与高度均为1像素,所述第二卷积层至少包括:第一子卷积层与第二子卷积层,所述调用所述第二卷积层中包含的多个子卷积层依次对所述多个第一特征图进行卷积,直至得到多个第二特征图,包括:
调用所述第一子卷积层,基于第一卷积核对所述多个第一特征图进行卷积,得到多个第二子特征图;调用所述第二子卷积层,基于第二卷积核对所述多个第二子特征图进行卷积,得到多个第二特征图;其中,所述第一卷积核与所述第二卷积核的大小满足如下关系:
W1-2W2=K1-K2-1
其中,W1表示第一特征图的尺寸,W2表示第二子特征图的尺寸,K1表示第一卷积核的尺寸,K2表示第二卷积核的尺寸;
全连接模块,用于调用全连接层对所述多个第二特征图进行预测处理,得到识别结果;
确定模块,用于根据所述识别结果确定所述待识别图像中手势的类型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110908876.6A CN113591764B (zh) | 2021-08-09 | 2021-08-09 | 手势识别方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110908876.6A CN113591764B (zh) | 2021-08-09 | 2021-08-09 | 手势识别方法、装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591764A CN113591764A (zh) | 2021-11-02 |
CN113591764B true CN113591764B (zh) | 2024-06-07 |
Family
ID=78256416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110908876.6A Active CN113591764B (zh) | 2021-08-09 | 2021-08-09 | 手势识别方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591764B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742095A (zh) * | 2017-09-23 | 2018-02-27 | 天津大学 | 基于卷积神经网络的汉语手语识别方法 |
CN110334584A (zh) * | 2019-05-20 | 2019-10-15 | 广东工业大学 | 一种基于区域全卷积网络的手势识别方法 |
CA3050025A1 (en) * | 2018-07-19 | 2020-01-19 | Tata Consultancy Services Limited | Systems and methods for end-to-end handwritten text recognition using neural networks |
CN111160114A (zh) * | 2019-12-10 | 2020-05-15 | 深圳数联天下智能科技有限公司 | 手势识别方法、装置、设备及计算机可读存储介质 |
CN111340089A (zh) * | 2020-02-21 | 2020-06-26 | 苏州工业园区服务外包职业学院 | 图像特征学习方法、模型、装置和计算机存储介质 |
CN112906833A (zh) * | 2021-05-08 | 2021-06-04 | 武汉大学 | 一种基于全卷积神经网络的等离子能量沉积图像识别方法 |
-
2021
- 2021-08-09 CN CN202110908876.6A patent/CN113591764B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742095A (zh) * | 2017-09-23 | 2018-02-27 | 天津大学 | 基于卷积神经网络的汉语手语识别方法 |
CA3050025A1 (en) * | 2018-07-19 | 2020-01-19 | Tata Consultancy Services Limited | Systems and methods for end-to-end handwritten text recognition using neural networks |
CN110334584A (zh) * | 2019-05-20 | 2019-10-15 | 广东工业大学 | 一种基于区域全卷积网络的手势识别方法 |
CN111160114A (zh) * | 2019-12-10 | 2020-05-15 | 深圳数联天下智能科技有限公司 | 手势识别方法、装置、设备及计算机可读存储介质 |
CN111340089A (zh) * | 2020-02-21 | 2020-06-26 | 苏州工业园区服务外包职业学院 | 图像特征学习方法、模型、装置和计算机存储介质 |
CN112906833A (zh) * | 2021-05-08 | 2021-06-04 | 武汉大学 | 一种基于全卷积神经网络的等离子能量沉积图像识别方法 |
Non-Patent Citations (3)
Title |
---|
Gradient-based learning applied to document recognition;Lecun, Y.等;《Proceedings of the IEEE》;19981130;第86卷(第11期);第2284页 * |
Striving for Simplicity:The All Convolutional Net;Jost Tobias Springenberg 等;《arXiv》;20150413;第2页 * |
基于深度卷积神经网络和支持向量机的手势识别算法;闫俊伢 等;《济南大学学报》;20210310;第35卷(第05期);446-451页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113591764A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9912349B1 (en) | Method and apparatus for processing floating point number matrix, an apparatus and computer-readable storage medium | |
CN112185352B (zh) | 语音识别方法、装置及电子设备 | |
US20220415072A1 (en) | Image processing method, text recognition method and apparatus | |
CN113869138A (zh) | 多尺度目标检测方法、装置及计算机可读存储介质 | |
US20220130495A1 (en) | Method and Device for Determining Correlation Between Drug and Target, and Electronic Device | |
CN112766284B (zh) | 图像识别方法和装置、存储介质和电子设备 | |
CN112634904B (zh) | 热词识别方法、装置、介质和电子设备 | |
CN112149699A (zh) | 用于生成模型的方法、装置和用于识别图像的方法、装置 | |
EP4123595A2 (en) | Method and apparatus of rectifying text image, training method and apparatus, electronic device, and medium | |
CN111062431A (zh) | 图像聚类方法、图像聚类装置、电子设备及存储介质 | |
US20220343512A1 (en) | Method and apparatus of processing image, electronic device, and storage medium | |
CN113780326A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
CN110717405B (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
CN113191565A (zh) | 安全性预测方法及装置、介质、设备 | |
CN110198473B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN110555861A (zh) | 光流计算方法、装置及电子设备 | |
CN111966473B (zh) | 一种线性回归任务的运行方法及装置、电子设备 | |
CN111312224B (zh) | 语音分割模型的训练方法、装置和电子设备 | |
CN113591764B (zh) | 手势识别方法、装置、存储介质和电子设备 | |
CN110348581B (zh) | 用户特征群中用户特征寻优方法、装置、介质及电子设备 | |
US20240303962A1 (en) | Method of determining image feature, electronic device, and storage medium | |
CN114092608B (zh) | 表情的处理方法及装置、计算机可读存储介质、电子设备 | |
CN113610856B (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN113139490B (zh) | 一种图像特征匹配方法、装置、计算机设备及存储介质 | |
CN110795424B (zh) | 特征工程变量数据请求处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |