CN117218717A - 一种基于时空网络的手势识别方法及系统 - Google Patents
一种基于时空网络的手势识别方法及系统 Download PDFInfo
- Publication number
- CN117218717A CN117218717A CN202311016646.4A CN202311016646A CN117218717A CN 117218717 A CN117218717 A CN 117218717A CN 202311016646 A CN202311016646 A CN 202311016646A CN 117218717 A CN117218717 A CN 117218717A
- Authority
- CN
- China
- Prior art keywords
- network
- feature
- time
- gesture recognition
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时空网络的手势识别方法及系统,该方法构建包括卷积神经网络模块、注意力模块和长短时记忆网络模块的时空网络用于手势识别,将手势图像输入卷积神经网络和注意力模块分别进行特征提取得到第一特征和第二特征;将所述第一特征和第二特征融合后输入长短时记忆网络模块,输出手势识别结果;本发明将卷积神经网络与长短时记忆网络结合,实现了手势的高效判断,响应时间较短,且可将模型部署于各类平台,扩展性较高;注意力机制将卷积操作应用于池化后的特征图,可以更加关注已经被池化聚合过的信息,有利于提取局部特征。
Description
技术领域
本发明涉及一种手势识别方法及系统,尤其是基于时空网络的手势识别方法及系统。
背景技术
手势识别技术作为一种自然、直观的交互方式,已经被广泛应用于智能家居、虚拟现实、人机交互、游戏等领域。计算机视觉技术是实现手势识别的基础技术之一,通过对手势图像进行分析和处理,可以提取出手势的特征信息,实现手势的识别和分类。机器学习技术则是实现手势识别的核心技术之一,通过对大量手势数据进行学习和训练,让计算机具备识别和理解手势的能力。传感器技术则是实现手势识别的重要手段之一,包括摄像头、红外传感器、陀螺仪、加速度计等技术,可以获取手势所包含的动态信息,实现更加精准和准确的手势识别。
现有的手势识别技术在实际应用时存在一些挑战,例如提取手势的特征信息的准确度和手势识别的实时性等方面,需进一步进行研究。
发明内容
发明目的:本发明的目的是提供一种响应时间短、识别准确度高的手势识别方法;本发明的第二目的是提供一种响应时间短、识别准确度高的手势识别系统。
技术方案:本发明所述的基于时空网络的手势识别方法,包括如下步骤:
构建时空网络,所述时空网络包括卷积神经网络模块、注意力模块和长短时记忆网络模块;
将手势图像输入卷积神经网络和注意力模块分别进行特征提取得到第一特征和第二特征;将所述第一特征和第二特征融合后输入长短时记忆网络模块,输出手势识别结果。
进一步地,手势图像输入注意力模块后分为两路,第一路经过平均池化层和卷积层得到第三特征,第二路经过最大池化层和卷积层得到第四特征,所述第三特征和第四特征进行特征融合后,经过激活函数处理得到所述第二特征。
进一步地,所述时空网络的损失函数为多类交叉熵损失函数。
进一步地,用于训练和验证所述时空网络的实验数据集为本地数据集和手部数据集的融合;所述本地数据集的构建方法为:通过图像采集设备采集手部图像,利用轻量级识别模型中的手部检测模型,对所述采集手部图像进行手部关键点标注并将各关键点的空间位置信息进行保存,得到所述本地数据集。
进一步地,所述长短时记忆网络模块包括两个级联的长短时记忆网络。
进一步地,所述将手势图像输入卷积神经网络和注意力模块分别进行特征提取得到第一特征和第二特征前还包括对所述手势图像进行预处理;
所述预处理包括进行图像增强、图像去噪和图像归一化,以及利用轻量级识别模型中的手部检测模型,对所述手势图像进行手部关键点检测,将手部关键点进行连接得到手部骨架。
基于同样的发明构思,本发明所述的基于时空网络的手势识别系统,包括时空网络模型,用于根据输入的手势图像,输出手势识别结果;
所述时空网络模型包括卷积神经网络模块、注意力模块和长短时记忆网络模块;手势图像经过卷积神经网络和注意力模块后得到第一特征和第二特征,第一特征和第二特征整合后作为长短时记忆网络模块的输入。
进一步地,所述注意力模块分为两路,第一路包括平均池化层和卷积层,第二路包括最大池化层和卷积层;手势图像经过平均池化层和卷积层得到第三特征,手势图像经过最大池化层和卷积层得到第四特征;第三特征和第四特征进行特征融合后,经过激活函数处理得到所述第二特征。
本发明所述的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于时空网络的手势识别方法。
本发明所述的计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于时空网络的手势识别方法。
有益效果:与现有技术相比,本发明的优点在于:(1)本发明将卷积神经网络与长短时记忆网络结合,增强了特征提取与数据处理能力,实现了手势的高效判断,同时具备实时判断的能力,响应时间较短,且可将模型部署于各类平台,扩展性较高;(2)本发明的注意力机制是平均池化/最大池化、卷积、特征融合,相比于均池化/最大池化、特征融合、卷积的注意力机制,本发明的卷积操作应用于池化后的特征图,可以更加关注已经被池化聚合过的信息,有利于提取一些更加抽象和局部的特征,然后再对不同池化操作得到的特征图进行特征融合,将不同类型的信息结合起来。
附图说明
图1为本发明的手势识别方法流程图;
图2为本发明实施例中利用轻量级识别模型实现手部关键点标注时涉及到的21个手部关键点示意图;
图3为本发明的注意力模块架构图;
图4为本发明的时空网络架构图;
图5为本发明实施例中手势识别结果为类别“3”的示意图;
图6为本发明实施例中手势识别结果为类别“10”的示意图;
图7为本发明实施例中手势识别结果为类别“右”的示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
定义手势语义的基本准则如下:首先,手势语义通过动作分类进行划分,每个手势类别应与一个明确的动作含义对应。其次,动作一致性要求相同类别的手势在动作上保持一致,以确保模型能够准确区分不同的动作。此外,空间位置也是一个重要的准则,因为不同手部位置或手指位置的手势可能具有不同的含义,模型需要能够识别并区分不同位置的手势。最后,时间序列提供了额外的语义信息,手势的不同动作顺序和持续时间等信息应该被模型捕捉到,以提高对手势序列的理解能力。
如图1所示,所述基于时空网络的手势识别方法,包括如下步骤:
步骤1,构建实验数据集。
在构建本地数据集的过程中,对采集到的图像数据进行调整,确保其符合主流数据集中的图像大小、标签等信息,使本地数据集与主流数据集的格式保持一致,让后续的数据处理和模型训练更加顺利。随后,将本地数据集与主流数据集进行融合,在引入更多种类和变化的样本的同时,使得模型能够更好地学习和理解不同的特征和模式,具体包括如下步骤:
步骤1.1,确定手势集中所要包含的手势类别;
步骤1.2,根据实际需要设置图像采集的相关参数(如每个动作采集多少张图像,一张图像包含多少帧数据);
步骤1.3,打开图像采集设备进行采集工作,采集过程中利用轻量级识别模型进行手部关键点标注,手部关键点如图2所示,同时将各个点的空间坐标信息进行保存;
步骤1.4,采集完毕后即本地数据集构建完毕,接着将本地数据集与目前主流的数据集进行结合,从而构成本发明的实验用数据集。
步骤2,构建卷积神经网络结构和注意力模块,将实验数据集作为输入。
构建卷积神经网络结构,将步骤1所得的实验数据集作为卷积神经网络模块和注意力模块的输入;利用卷积核进行自适应提取特征,提取后的特征经过最大池化层的池化操作,降低数据维度,并保留主要的特征信息,将降维后的特征数据与注意力模块的特征进行融合作为长短时记忆网络的输入,同时更新网络的权重并计算相关误差。
如图3所示,注意力模块(APAM),通过平均池化和最大池化的有机结合,改善了对手部特征信息的提取和理解能力,同时提高了模型在复杂任务上的性能,使模型的决策过程更加透明和可解释。具体包括如下步骤:
步骤2.1,构建出卷积神经网络结构;
步骤2.2,将步骤1中所得数据集作为卷积神经网络和注意力模块的输入;
步骤2.3,卷积神经网络与注意力模块同时进行特征提取,待执行完毕之后将特征提取所得数据进行整合,作为长短时记忆网络的输入;
步骤2.4,计算误差并更新网络权重。
步骤3,构建长短时记忆网络模块,网络输入为步骤2特征提取过后的数据。
长短时记忆网络模块包括两个级联的长短时记忆网络,对步骤2的特征进行时间序列建模,具体包括如下步骤:
步骤3.1,构建长短时记忆网络;
步骤3.2,将步骤2.3所得的经过卷积神经网络特征提取后的数据信息作为长短时记忆网络的输入;
步骤3.3,利用长短时记忆网络针对卷积神经网络提取到的特征进行时间序列建模;
步骤3.4,输出结果并计算相关误差;
步骤3.5,更新网络权重。
步骤4,获得时空网络识别模型。
传统的卷积神经网络结构通过多个卷积层和池化层的堆叠,最终通过全连接层输出预测结果。相比之下,如图4所示,时空网络在传统卷积神经网络结构的基础上引入了长短时记忆网络,其卷积神经网络部分包括输入层、卷积层和池化层,以及额外的卷积层和池化层,用于进一步提取重要的特征。而长短时记忆网络部分包括输入层、长短时记忆网络层以及额外的长短时记忆网络层,用于增加模型的深度和容量。最后,全连接层接收这些特征并输出结果;具体包括如下步骤:
步骤4.1,将步骤3.4所得结果利用多类交叉熵损失函数进行判断,多类交叉熵损失函数公式如下所示:
其中:h=[h0,…,hc-1]是概率分布,hi表示样本属于第i类的概率,y=[y0,…,yc-1],当样本分类正确属于第i类时yi=1,否则yi=0;
步骤4.2,满足准确率要求则将时空网络模型输出并用于手势识别;
步骤4.3,准确率不满足要求,更新网络权重并继续训练,直至达到准确度要求。
步骤5,利用获得的时空网络识别模型,进行手势识别。
打开图像采集设备(例如摄像头),待检测人员做出相关手势,摄像头捕捉到实时的图像流,并将其传输到识别模型进行处理,模型会对手势进行分类和识别,并输出相应的识别结果,过程自动进行。在进行图像采集时,可使用高清摄像头或者具有较高分辨率的单目相机。最低要求的分辨率应为800×600。将摄像头放置在稍高于被检测者头部水平位置的位置上(如固定在支架上,避免过度的俯视与仰视效果),摄像头倾斜的角度约为30至45度,提供较好视野的同时,确保摄像头能够捕捉足够的细节。在实际部署时,根据手势特点以及场景等因素,微调摄像头的角度。
在图像采集后,对采集到的手势图像进行预处理操作,如图像增强、去噪、归一化等,以消除图像中的噪声、模糊以及变形。这样可以提高图像特征的可靠性和一致性,使得后续的特征提取和建模过程更加准确和稳定。
具体包括如下步骤:
步骤5中,利用获得的时空网络识别模型,进行手势识别,包含以下步骤:
步骤5.1,结合获得的时空网络识别模型,编写手势识别程序;
步骤5.2,打开数据采集设备;
步骤5.3,对着数据采集设备做出手势,等待识别结果。
步骤6,输出识别结果。
步骤6.1,利用轻量级识别模型中的手势识别模块进行手部位置检测;
步骤6.2,利用步骤6.1提及的手势识别模块进行手部关键点检测,并将其连接显示出完整的手部骨架;
步骤6.3,等待手势识别程序的判定结果,结果显示窗口左侧会陈列出需要进行检测的手势类别名称;
步骤6.4,程序返回手势识别的判定结果,内容包括判定出的手势所属类别以及该类别的准确度,所属类别即步骤6.3中所提及的类别名,准确度会以进度条的形式在步骤6.3提及的各类别名称底层显示,进度条越长准确度越高。
如图5至图7所示为三个手势识别结果示意图,能够识别出数字0~10以及左右,如图5所示为识别手势结果为类别“3”,进度条表示识别的准确率;图6所示为识别结果为类别“10”;图7所示为识别结果为类别“右”。
本发明所述的基于时空网络的手势识别系统,包括时空网络模型,用于根据输入的手势图像,输出手势识别结果;
所述时空网络模型包括卷积神经网络模块、注意力模块和长短时记忆网络模块;手势图像经过卷积神经网络和注意力模块后得到第一特征和第二特征,第一特征和第二特征整合后作为长短时记忆网络模块的输入。
本发明所述的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于时空网络的手势识别方法。
所述计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。
处理器用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
Claims (10)
1.一种基于时空网络的手势识别方法,其特征在于,包括如下步骤:
构建时空网络,所述时空网络包括卷积神经网络模块、注意力模块和长短时记忆网络模块;
将手势图像输入卷积神经网络和注意力模块分别进行特征提取得到第一特征和第二特征;将所述第一特征和第二特征融合后输入长短时记忆网络模块,输出手势识别结果。
2.根据权利要求1所述的基于时空网络的手势识别方法,其特征在于,手势图像输入注意力模块后分为两路,第一路经过平均池化层和卷积层得到第三特征,第二路经过最大池化层和卷积层得到第四特征,所述第三特征和第四特征进行特征融合后,经过激活函数处理得到所述第二特征。
3.根据权利要求1所述的基于时空网络的手势识别方法,其特征在于,所述时空网络的损失函数为多类交叉熵损失函数。
4.根据权利要求1所述的基于时空网络的手势识别方法,其特征在于,用于训练和验证所述时空网络的实验数据集为本地数据集和手部数据集的融合;
所述本地数据集的构建方法为:通过图像采集设备采集手部图像,利用轻量级识别模型中的手部检测模型,对所述采集手部图像进行手部关键点标注并将各关键点的空间位置信息进行保存,得到所述本地数据集。
5.根据权利要求1所述的基于时空网络的手势识别方法,其特征在于,所述长短时记忆网络模块包括两个级联的长短时记忆网络。
6.根据权利要求1所述的基于时空网络的手势识别方法,其特征在于,所述将手势图像输入卷积神经网络和注意力模块分别进行特征提取得到第一特征和第二特征前还包括对所述手势图像进行预处理;
所述预处理包括进行图像增强、图像去噪和图像归一化,以及利用轻量级识别模型中的手部检测模型,对所述手势图像进行手部关键点检测,将手部关键点进行连接得到手部骨架。
7.一种基于时空网络的手势识别系统,其特征在于,包括时空网络模型,用于根据输入的手势图像,输出手势识别结果;
所述时空网络模型包括卷积神经网络模块、注意力模块和长短时记忆网络模块;手势图像经过卷积神经网络和注意力模块后得到第一特征和第二特征,第一特征和第二特征整合后作为长短时记忆网络模块的输入。
8.根据权利要求1所述的基于时空网络的手势识别系统,其特征在于,所述注意力模块分为两路,第一路包括平均池化层和卷积层,第二路包括最大池化层和卷积层;
手势图像经过平均池化层和卷积层得到第三特征,手势图像经过最大池化层和卷积层得到第四特征;
第三特征和第四特征进行特征融合后,经过激活函数处理得到所述第二特征。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于时空网络的手势识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1-6任一项所述的基于时空网络的手势识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311016646.4A CN117218717A (zh) | 2023-08-14 | 2023-08-14 | 一种基于时空网络的手势识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311016646.4A CN117218717A (zh) | 2023-08-14 | 2023-08-14 | 一种基于时空网络的手势识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117218717A true CN117218717A (zh) | 2023-12-12 |
Family
ID=89050156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311016646.4A Pending CN117218717A (zh) | 2023-08-14 | 2023-08-14 | 一种基于时空网络的手势识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218717A (zh) |
-
2023
- 2023-08-14 CN CN202311016646.4A patent/CN117218717A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427867B (zh) | 基于残差注意力机制的面部表情识别方法及系统 | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
WO2020078017A1 (zh) | 用于识别空中手写的方法、装置、设备以及计算机可读存储介质 | |
CN111160269A (zh) | 一种人脸关键点检测方法及装置 | |
CN106648078B (zh) | 应用于智能机器人的多模态交互方法及系统 | |
CN107808129A (zh) | 一种基于单个卷积神经网络的面部多特征点定位方法 | |
CN113011304A (zh) | 一种基于注意力多分辨率网络的人体姿态估计方法及系统 | |
CN109087337B (zh) | 基于分层卷积特征的长时间目标跟踪方法及系统 | |
WO2023151237A1 (zh) | 人脸位姿估计方法、装置、电子设备及存储介质 | |
CN110751232A (zh) | 一种中文复杂场景文本检测与识别方法 | |
CN115797736B (zh) | 目标检测模型的训练和目标检测方法、装置、设备和介质 | |
CN113269089A (zh) | 基于深度学习的实时手势识别方法及系统 | |
WO2023246921A1 (zh) | 目标属性识别方法、模型训练方法和装置 | |
CN113516113A (zh) | 一种图像内容识别方法、装置、设备及存储介质 | |
CN113435319B (zh) | 一种联合多目标跟踪和行人角度识别的分类方法 | |
CN113378675A (zh) | 一种同时检测和特征提取的人脸识别方法 | |
CN110599463A (zh) | 一种基于轻量级联神经网络的舌像检测及定位算法 | |
CN113487610A (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN108537109B (zh) | 基于OpenPose的单目相机手语识别方法 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN117854155B (zh) | 一种人体骨骼动作识别方法及系统 | |
CN113449548A (zh) | 更新物体识别模型的方法和装置 | |
CN115223239A (zh) | 一种手势识别方法、系统、计算机设备以及可读存储介质 | |
CN114937285A (zh) | 动态手势识别方法、装置、设备及存储介质 | |
CN111126358A (zh) | 人脸检测方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |