CN117523669A - 手势识别方法、装置、电子设备和存储介质 - Google Patents
手势识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117523669A CN117523669A CN202311542550.1A CN202311542550A CN117523669A CN 117523669 A CN117523669 A CN 117523669A CN 202311542550 A CN202311542550 A CN 202311542550A CN 117523669 A CN117523669 A CN 117523669A
- Authority
- CN
- China
- Prior art keywords
- video
- signal
- module
- time
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 230000004927 fusion Effects 0.000 claims abstract description 117
- 238000007781 pre-processing Methods 0.000 claims abstract description 87
- 238000010586 diagram Methods 0.000 claims abstract description 72
- 230000003287 optical effect Effects 0.000 claims abstract description 60
- 230000009471 action Effects 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims description 171
- 238000012545 processing Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000033001 locomotion Effects 0.000 abstract description 27
- 230000003993 interaction Effects 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 14
- 210000003205 muscle Anatomy 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000005065 mining Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 210000003491 skin Anatomy 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000002003 electrode paste Substances 0.000 description 3
- 230000003183 myoelectrical effect Effects 0.000 description 3
- 239000003245 coal Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 210000000245 forearm Anatomy 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000001087 myotubule Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 210000000434 stratum corneum Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/15—Biometric patterns based on physiological signals, e.g. heartbeat, blood flow
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
- G06F2218/04—Denoising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Social Psychology (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Heart & Thoracic Surgery (AREA)
- Cardiology (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及动作识别技术领域,提供一种手势识别方法、装置、电子设备和存储介质,其中方法包括:采集各手势动作对应的表面肌电信号和视频流;对表面肌电信号进行预处理,得到信号时频图,并从视频流中提取关键帧,应用关键帧确定视频光流信息;对信号时频图进行特征提取,得到信号时频特征,对关键帧和视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征;将信号时频特征、视频空间流特征和视频时间流特征进行融合,得到融合特征;应用融合特征进行手势分类,确定手势类别。本发明提供的方法、装置、电子设备和存储介质,可以有效识别应急救援手势,为远程人机交互奠定基础。
Description
技术领域
本发明涉及动作识别技术领域,尤其涉及一种手势识别方法、装置、电子设备和存储介质。
背景技术
煤矿开采大多为环境复杂的深井作业,事故发生时对工作人员有极大的安全危害。随着自动化设备被广泛使用在矿山开采领域,这在极大提高开采效率的同时,也增加了井下开采环境的复杂性。在这种复杂环境下,一旦发生事故,往往需要极具专业经验的工作人员来完成救援工作,但是由于井下的复杂环境,在处理故障时不能保障工作人员的人身安全。
传统的矿井应急救援机器人只能对环境信息进行采集,无法处理故障,而基于人机交互控制的机械臂可以在远程控制下处理故障,控制人员可以使用手臂控制机械臂来完成一些复杂而精巧的任务,同时又能保证控制人员的安全,因此可以借助机械臂等灵巧设备实现工作人员专业经验在矿井等复杂恶劣环境中的充分应用,从而最大程度地降低事故损失度,保障人员安全。
目前,如何准确快速地识别控制人员的手势,是完成人机交互控制的关键技术,也是应急救援领域亟需解决的技术问题。
发明内容
本发明提供一种手势识别方法、装置、电子设备和存储介质,用以解决现有技术中无法准确快速地识别控制人员的手势的缺陷。
本发明提供一种手势识别方法,包括:
采集各手势动作对应的表面肌电信号和视频流;
基于手势识别模型的预处理模块,对所述表面肌电信号进行预处理,得到信号时频图,以及从所述视频流中提取关键帧,并应用所述关键帧确定视频光流信息;
基于所述手势识别模型的特征提取模块,对所述信号时频图进行特征提取,得到信号时频特征,以及对所述关键帧和所述视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征;
基于所述手势识别模型的特征融合模块,对所述信号时频特征、所述视频空间流特征和所述视频时间流特征进行融合,得到融合特征;
基于所述手势识别模型的分类模块,应用所述融合特征进行手势分类,确定手势类别。
根据本发明提供的一种手势识别方法,所述表面肌电信号为多通道表面肌电信号,所述基于手势识别模型的预处理模块,对所述表面肌电信号进行预处理,得到信号时频图,以及从所述视频流中提取关键帧,并应用所述关键帧确定视频光流信息,包括:
基于所述预处理模块的信号预处理单元,对各通道表面肌电信号进行预处理,得到所述各通道表面肌电信号的信号时频图;
基于所述预处理模块的视频预处理单元,从所述视频流中提取关键帧,并基于所述关键帧确定视频光流信息。
根据本发明提供的一种手势识别方法,所述基于所述预处理模块的信号预处理单元,对各通道表面肌电信号进行预处理,得到所述各通道表面肌电信号的信号时频图,包括:
基于所述信号预处理单元的信号去噪模块,对任一通道表面肌电信号依次进行滤波处理和去噪处理,得到去噪表面肌电信号;
基于所述信号预处理单元的信号分割模块,对所述去噪表面肌电信号进行信号分割处理,得到活动段表面肌电信号;
基于所述信号预处理单元的信号变换模块,对所述活动段表面肌电信号进行信号变换处理,得到所述任一通道表面肌电信号的信号时频图。
根据本发明提供的一种手势识别方法,所述基于所述手势识别模型的特征提取模块,对所述信号时频图进行特征提取,得到信号时频特征,以及对所述关键帧和所述视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征,包括:
基于所述特征提取模块的信号特征提取单元,对各通道表面肌电信号的信号时频图进行特征提取,得到所述各通道表面肌电信号的信号时频特征;
基于所述特征提取模块的视频特征提取单元,对所述关键帧和所述视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征。
根据本发明提供的一种手势识别方法,所述基于所述特征提取模块的信号特征提取单元,对各通道表面肌电信号的信号时频图进行特征提取,得到所述各通道表面肌电信号的信号时频特征,包括:
基于所述信号特征提取单元的特征提取模块,对任一通道表面肌电信号的信号时频图进行特征提取,得到多个时频特征向量;所述信号特征提取单元中包括多个并列设置的所述特征提取模块,多个所述特征提取模块的卷积核尺寸不同;
融合所述多个时频特征向量,得到所述任一通道表面肌电信号的信号时频特征。
根据本发明提供的一种手势识别方法,所述基于所述特征提取模块的视频特征提取单元,对所述关键帧和所述视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征,包括:
基于所述视频特征提取单元的空间流卷积模块,对所述关键帧进行特征提取,得到所述视频空间流特征;
基于所述视频特征提取单元的时间流卷积模块,对所述视频光流信息进行特征提取,得到所述视频时间流特征。
根据本发明提供的一种手势识别方法,所述基于所述手势识别模型的特征融合模块,对所述信号时频特征、所述视频空间流特征和所述视频时间流特征进行融合,得到融合特征,包括:
基于所述特征融合模块的信号特征融合单元,对各通道表面肌电信号的信号时频特征进行融合,得到肌电信号特征;
基于所述特征融合模块的视频特征融合单元,对所述视频空间流特征和所述视频时间流特征进行融合,得到视频双流特征;
基于所述特征融合模块的多模态融合单元,将所述肌电信号特征和所述视频双流特征进行融合,得到所述融合特征。
本发明还提供一种手势识别装置,包括:
采集单元,用于采集各手势动作对应的表面肌电信号和视频流;
预处理单元,用于基于手势识别模型的预处理模块,对所述表面肌电信号进行预处理,得到信号时频图,以及从所述视频流中提取关键帧,并应用所述关键帧确定视频光流信息;
提取单元,用于基于所述手势识别模型的特征提取模块,对所述信号时频图进行特征提取,得到信号时频特征,以及对所述关键帧和所述视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征;
融合单元,用于基于所述手势识别模型的特征融合模块,对所述信号时频特征、所述视频空间流特征和所述视频时间流特征进行融合,得到融合特征;
识别单元,用于基于所述手势识别模型的分类模块,应用所述融合特征进行手势分类,确定手势类别。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述手势识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述手势识别方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述手势识别方法。
本发明提供的手势识别方法、装置、电子设备和存储介质,通过采集应急救援手势的表面肌电信号和相应的视频流数据,并对采集得到的表面肌电信号和视频流进行预处理、特征提取,再对提取得到的信号时频特征、视频空间流特征和视频时间流特征进行融合,得到融合特征,由此可以应用融合特征进行手势分类,确定得到准确的手势类别,本发明通过基于表面肌电信号和视频数据多模态融合的手势识别方法,能够有效识别应急救援手势,显著提高手势识别的精确度,从而为矿井等复杂恶劣工作环境中救援机械臂的人机交互提供精准输入信号,提高远程人机交互过程的准确性,进而达到改善工作人员的工作环境和充分利用操作人员的专业经验的目的。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的手势识别方法的流程示意图;
图2是本发明提供的表面肌电信号采集设备的结构示意图;
图3是本发明提供的表面肌电信号预处理方法的流程示意图;
图4是本发明提供的任一通道表面肌电信号的信号时频图的示意图;
图5是本发明提供的手势识别方法中步骤140的流程示意图;
图6是本发明提供的手势识别模型的结构示意图;
图7是本发明提供的手势识别装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
煤矿开采大多为环境复杂的深井作业,事故发生时对工作人员有极大的安全危害。随着自动化设备被广泛使用在矿山开采领域,这在极大提高开采效率的同时,也增加了井下开采环境的复杂性。在这种复杂环境下,一旦发生事故,往往需要极具专业经验的工作人员来完成救援工作,但是由于井下的复杂环境,在处理故障时不能保障工作人员的人身安全。
传统的矿井应急救援机器人完成的是故障现场的信息收集工作,如具有防水、防爆、定位功能的一款矿用救援机器人,可以采集井底数据进行实时传输,这些救援机器人只能对环境信息进行采集而无法处理故障。而基于人机交互控制的机械臂可以在远程控制下处理故障,控制人员可以使用手臂控制机械臂来完成一些复杂而精巧的任务,同时又能保证控制人员的安全。
依赖于手势动作识别来进行远程人机交互完成矿山井下等复杂环境的应急救援任务,已逐渐成为国内外普遍认可的应急救援发展趋势。对于手势识别任务,常用的方法包括基于传感器的方法、基于计算机视觉的方法等,其中基于传感器的方法依靠传感器提供手势执行过程中的运动和姿态信息,对于动态手势识别能够达到实时性和较好的效果,但是传感器数据通常会受到噪声和漂移的影响,导致识别精度下降,且传感器设备成本通常较高。基于计算机视觉的方法提供了一种非接触式的手势获取方式,在处理图像和视频方面表现出了优异的性能,但是这种方法更容易受到光照等因素的影响。
为了解决现有应急救援手势识别方法无法准确识别细微手部动作,以及传感器数据易发生漂移影响识别结果的问题,本发明实施例提供一种手势识别方法,设计了基于表面肌电信号和视频数据多模态融合的神经网络模型实现手势动作的精准识别,从而为机械臂等设备在复杂工作环境应急救援应用中的透明化主从控制奠定了重要技术基础。
图1是本发明提供的手势识别方法的流程示意图,如图1所示,该方法包括:
步骤110,采集各手势动作对应的表面肌电信号和视频流;
具体地,可以通过表面肌电信号采集设备对控制人员(或称为操作者、使用者等)执行应急救援手势动作过程中产生的表面肌电信号进行采集。此处,表面肌电信号采集设备是指一种用于测量和记录肌肉活动的设备,其通常包括采样电极,可以将电极粘贴在合适的肌肉区域上,以对控制人员执行应急救援手势动作过程中产生的表面肌电信号进行采集。表面肌电信号则是指通过表面肌电信号采集设备的电极接触肌肉表面采集到的电信号。
在控制人员执行应急救援手势的过程中,还可以通过视频采集设备采集获得各手势动作的视频流数据,此处,视频采集设备是一种用于捕捉和记录视频的设备,其通常由摄像头、图像传感器、图像处理器和数据输出接口等组成。视频采集设备可以通过摄像头实时捕捉控制人员执行应急救援手势场景中的图像,并将其转化为视频流。
步骤120,基于手势识别模型的预处理模块,对表面肌电信号进行预处理,得到信号时频图,以及从视频流中提取关键帧,并应用关键帧确定视频光流信息;
具体地,手势识别模型可以是多模态融合的卷积神经网络模型,其可以用于实现手势动作的识别分类任务。在采集获得表面肌电信号和视频流后,可以将表面肌电信号和视频流分别输入至手势识别模型,通过手势识别模型即可得到使用者所做的手势类别。
手势识别模型可以包括预处理模块,预处理模块用于对表面肌电信号进行预处理,以得到信号时频图。此处,信号时频图可以用于表征表面肌电信号在时域、频域和幅值上的变化特征。在获取到使用者的手势动作的表面肌电信号后,可以先对其进行数据预处理,例如,去除原始信号中的噪声、增强数据品质等,提高后续模型对手势识别的准确性。
预处理模块还用于从视频流中提取关键帧,并应用关键帧确定视频光流信息。在采集得到使用者的手势动作的视频流后,可以对采集的视频流进行解码,获取视频的原始图像序列,并基于特定的算法或规则,从原始图像序列中选择关键帧。应理解的是,关键帧通常是代表视频内容变化较大或者具有重要信息的帧。提取得到关键帧后,可以使用光流估计算法,通过比较相邻视频帧之间的像素位移,计算出每个像素点在时间上的运动信息,得到光流场。此处,光流场表示了图像中每个像素点的运动方向和速度。随后,可以将关键帧与光流场进行匹配,找到关键帧中的特征点在光流场中的对应点,将关键帧中的特征点的运动信息与光流场关联起来。根据关键帧中的特征点的运动信息和光流场的对应信息,可以计算出关键帧中的物体或者手势的运动轨迹、速度等光流信息,从而获得视频光流信息。
步骤130,基于手势识别模型的特征提取模块,对信号时频图进行特征提取,得到信号时频特征,以及对关键帧和视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征;
具体地,手势识别模型可以包括特征提取模块,特征提取模块和预处理模块连接,基于预处理模块得到信号时频图后,可以将信号时频图输入至特征提取模块,通过特征提取模块对信号时频图进行特征提取,从而得到信号时频特征。此处,信号时频特征即是指从信号时频图中提取出来的具有代表性的特征,时频特征可以反映信号的时域和频域特征,更全面地描述信号的频率分布和时序变化。通过提取信号时频特征,可以获取表面肌电信号的频率成分、能量分布、时域特性等信息,用于后续的特征分析、手势识别和分类等任务。
特征提取模块也可以用于对关键帧进行特征提取,此处,可以通过计算机视觉技术和图像处理算法对关键帧进行特征提取,从而得到视频空间流特征。视频空间流特征是指从关键帧中提取的描述视频空间分布的特征,视频空间流特征可以反映关键帧中物体的外观、纹理、颜色等空间信息,例如,视频空间流特征可以包括颜色直方图、纹理特征、边缘特征等。通过提取视频空间流特征,可以对关键帧进行表达和描述,为后续的手势识别、分类等任务提供重要的信息。
特征提取模块还可以用于对视频光流信息进行特征提取,从而得到视频时间流特征,此处,视频时间流特征是指从视频光流信息中提取的描述视频时间变化特征的特征。视频时间流特征可以反映视频中物体或场景的运动轨迹、速度、方向等时间变化信息,例如,视频时间流特征可以包括运动向量统计特征、运动速度特征、运动方向特征等。通过提取视频时间流特征,可以对视频的动态变化进行建模和描述,为后续的手势动作识别等任务提供重要的信息。
步骤140,基于手势识别模型的特征融合模块,对信号时频特征、视频空间流特征和视频时间流特征进行融合,得到融合特征;
具体地,手势识别模型可以包括特征融合模块,特征融合模块和特征提取模块连接,用于对信号时频特征、视频空间流特征和视频时间流特征进行融合。此处,可以对表面肌电信号和视频信息先各自进行内部的特征向量融合和压缩,再将两种不同类型的特征进行融合,从而得到表征对应手势的融合特征。
可以理解的是,在对各特征进行融合时,可以选择适合的特征融合方法,例如加权融合、特征拼接、特征映射等。对于不同类型的特征,可以根据其重要性和贡献度,确定相应的权重,权重可以根据经验设定,也可以通过学习方法自动学习得到。随后,可以根据选择的特征融合方法和特征权重,将不同类型的特征进行融合。例如,如果是加权融合,可以将不同特征按照权重进行加权求和;如果是特征拼接,可以将不同特征拼接成一个更长的特征向量;如果是特征映射,可以通过降维等方法将不同特征映射到同一空间。
此外,对融合得到的特征还可以进行归一化处理,以消除不同特征之间的尺度差异。通过对信号时频特征、视频空间流特征和视频时间流特征进行融合,可以充分利用不同类型特征的互补性和丰富性,提供更全面的手势信息,从而提高手势识别模型的准确性和鲁棒性。
步骤150,基于手势识别模型的分类模块,应用融合特征进行手势分类,确定手势类别。
具体地,手势识别模型还可以包括分类模块,分类模块与特征融合模块连接,用于应用融合特征进行手势分类,确定手势类别。此处,分类模块可以为全连接层,也可以为采用支持向量机(SVM)、随机森林(Random Forest)等进行特征分类的分类器,还可以为采用全卷积、循环连接结构的分类器,本发明实施例对此不作具体限定。
在得到融合特征后,可以将融合特征输入分类模块进行手势分类,分类模块将根据输入的融合特征,判断手势属于哪个类别,从而确定得到手势类别。此处,手势类别指的是在手势识别任务中,对手势进行分类时所定义的不同类型或类别。手势类别是根据手势的不同形态、动作或含义进行划分和分类的。每个手势类别代表了一种特定的手势动作或意义,可以用于控制机械臂执行特定操作。
可以理解的是,考虑到在矿井等复杂工作环境中救援机械臂需要应对紧急情况,如执行拉动电闸、点击按钮以及搬运电线上的碎石等任务,针对这些基本应急动作,本发明实施例对手势动作进行了详细拆分与分析。具体而言,可以将电闸的推拉和按钮的点击等操作,分解为九种基本手势动作,这些手势动作的类别包括:前臂的上下翻转运动、手臂的左右摆动运动、手腕的上下翻转运动、抓握运动、手掌的舒张运动、食指的伸出。这些手势动作的分解与识别,可以帮助清晰理解每种动作的执行方式和特点,为救援机械臂在复杂环境下的操作提供了更精细化的控制手段。应理解的是,手势类别和手势动作并不仅限于上述九种,也可以根据实际场景的需要针对其他手势类别和手势动作训练手势识别模型后用于手势动作的识别,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过采集应急救援手势的表面肌电信号和相应的视频流数据,并对采集得到的表面肌电信号和视频流进行预处理、特征提取,再对提取得到的信号时频特征、视频空间流特征和视频时间流特征进行融合,得到融合特征,由此可以应用融合特征进行手势分类,确定得到准确的手势类别,本发明通过基于表面肌电信号和视频数据多模态融合的手势识别方法,能够有效识别应急救援手势,显著提高手势识别的精确度,从而为矿井等复杂恶劣工作环境中救援机械臂的人机交互提供精准输入信号,提高远程人机交互过程的准确性,进而达到改善工作人员的工作环境和充分利用操作人员的专业经验的目的。
基于上述实施例,图2是本发明提供的表面肌电信号采集设备的结构示意图,如图2所示,本发明实施例提出一种可穿戴式的表面肌电信号采集设备,具有多通道、便携式、无线传输等特点,该表面肌电信号采集设备分为上位机和下位机两部分。其中,下位机主要包括电源模块、信号滤波放大电路、单片机(Microcontroller Unit,MCU)处理模块以及信号的无线发送电路等,此处的信号滤波放大电路主要包括差分放大电路、右腿驱动电路、高通滤波电路、低通滤波电路以及后级放大电路。该表面肌电信号采集设备具体的工作原理是:将多通道的电极贴放置在合适的肌肉位置上(一般为使用者的前臂),以捕捉活动肌肉的表面肌电信号,这些信号通过电极贴传输至单片机进行进一步处理;随后,单片机内部的数模转换模块将肌肉信号转换为数字信号,并结合无线传输模块,将处理后的信号发送至上位机中的无线接收模块,上位机通过无线接收模块接收来自下位机的表面肌电信号数据后,上位机在所设计的图形用户界面上显示并存储信号数据。
应理解的是,图2所示的表面肌电信号采集设备仅为一种示例,并不构成对本发明的限定,本发明的技术方案也可以基于其他的表面肌电信号采集设备实现。
为了获得稳定且具有较强幅度的表面肌电信号,在佩戴表面肌电电极贴之前,可以采取一系列措施来优化信号质量。下面对表面肌电信号采集设备的佩戴方式进行简要介绍:
(1)为了获取噪声少、幅度强的表面肌电信号,在佩戴表面肌电电极贴之前,可以使用酒精试剂擦拭皮肤,以去除皮肤角质层的汗液与其他杂质,从而降低皮肤的阻抗。
(2)可以将表面肌电电极贴片放置在主要受支配运动的肌肉区域,例如:可以选择桡侧腕屈肌、尺侧腕屈肌、旋前圆肌、拇长屈/展肌、指浅屈/展肌和指总伸肌等部位。
(3)可以将电极贴的放置方向与肌肉纤维方向保持平行,同时电极贴的大小和间距适宜,以避免深层生理电信号的交叉干扰。
(4)可以在电极贴安放位置处涂上一层导电凝胶,以降低皮肤的电阻并减少外界噪声的影响。
(5)为了增强所采集的表面肌电信号的电压强度,可以将电极贴紧紧贴附在皮肤上,并可以通过绷带等方式施加适度的压力。在选择电极贴的放置位置时,应避开皮肤褶皱和骨性突起,以最大程度地减少电极的极片与肌肉之间的组织层次,从而优化信号捕捉效果。
使用者在佩戴好表面肌电信号采集设备后,可以根据当前复杂工作环境中的应急救援需求,并结合自身专业经验,执行相应的手势动作,然后采集设备采集相应手势动作的表面肌电信号和视频流,通过手势识别模型对其进行手势分类,得到手势类别,从而救援机械臂可以根据手势类别执行相应的动作,完成救援任务。优选地,为了提高表面肌电信号采集的准确性,每一个手势动作作为一个动态动作可以持续三秒,不同的手势动作之间休息七秒钟,一个采样周期为十秒。
基于上述任一实施例,表面肌电信号为多通道表面肌电信号,相应地,步骤120具体包括:
步骤121,基于预处理模块的信号预处理单元,对各通道表面肌电信号进行预处理,得到各通道表面肌电信号的信号时频图;
步骤122,基于预处理模块的视频预处理单元,从视频流中提取关键帧,并基于关键帧确定视频光流信息。
具体地,通过表面肌电信号采集设备采集各手势动作的表面肌电信号时,可以对使用者执行应急救援手势动作过程中产生的多通道表面肌电信号进行采集,即同时从多个位置采集到表面肌电信号,相比于单通道采集,可以提供更丰富和全面的表面肌电信息,从而提高手势识别的性能和效果。
在获得到使用者手势动作的多通道表面肌电信号后,可以将多通道表面肌电信号输入信号预处理单元中,通过信号预处理单元对每个通道的表面肌电信号进行数据预处理,去除原始信号中的噪声、增强数据品质,以提升模型对手势动作的识别准确性。
在采集得到使用者手势动作的视频流后,可以将视频流输入视频预处理单元中,通过视频预处理单元对视频流进行数据预处理,从视频流中提取得到关键帧,并基于关键帧确定得到视频光流信息,从而将其传递到后续的神经网络中进行进一步处理分析。
本发明实施例中,手势识别模型的预处理模块包括信号预处理单元和视频预处理单元,可以分别对表面肌电信号和视频流进行数据预处理,有助于提升模型的运行效率和处理性能。
基于上述任一实施例,图3是本发明提供的表面肌电信号预处理方法的流程示意图,如图3所示,步骤121具体包括:
步骤1211,基于信号预处理单元的信号去噪模块,对任一通道表面肌电信号依次进行滤波处理和去噪处理,得到去噪表面肌电信号;
步骤1212,基于信号预处理单元的信号分割模块,对去噪表面肌电信号进行信号分割处理,得到活动段表面肌电信号;
步骤1213,基于信号预处理单元的信号变换模块,对活动段表面肌电信号进行信号变换处理,得到任一通道表面肌电信号的信号时频图。
具体地,在获取到使用者手势动作的多通道表面肌电信号后,可以对每个通道的表面肌电信号进行数据预处理,去除原始信号中的噪声,增强数据品质,以提升模型对手势动作的识别准确性。对任一通道的表面肌电信号进行数据预处理的步骤包括:
(1)信号去噪
表面肌电信号是一种低信噪比信号,容易受到干扰。本发明实施例应用中值滤波和小波阈值去噪来处理原始信号。在表面肌电信号的采集过程中,由于温度变化和电磁兼容干扰的影响,信号的零电位面会发生波动,即产生基线漂移现象。中值滤波的方法可以消除这种波动,使信号的零电位面稳定在零附近。计算公式如下:
yj=xj-med[xj-N,xj-N+1,…,xj+N,xj+N+1]
式中,xj和yj分别为每个通道表面肌电信号中的第j个采用中值滤波前与滤波后的样本点,med[x]函数输出信号x中所包含数值的中位数,N为滤波窗口的长度,窗口长度太小会导致有效信号被滤除,而太长则会增加计算量,优选地,可以将N的值设置为5。
为了进一步滤除噪声,中值滤波后可以采用小波阈值去噪方法。它利用Mallat算法将信号分解为不同的小波系数,然后,选择合理的阈值,低于阈值的小波系数被视为噪声而被消除。其公式如下所示:
式中,y表示经过基线漂移滤波处理后的每个通道的表面肌电信号,Ψ(y)表示经过dbN小波变换后的表面肌电信号。
(2)信号分割
考虑到每个使用者手势运动的开始时间和结束时间的差异,为了确保提取的表面肌电信号是由肌肉活动产生而不是肌肉静止状态产生的至关重要。本发明实施例中,可以使用平均标准差方式来检测时域多通道表面肌电信号,提取活动段的表面肌电信号。
平均标准差方法是通过对每个通路的表面肌电信号加一个一维的移动窗口,计算一个窗口内的平均标准差的阈值来判断这个窗口内是否有信号的起始段和结束段,计算公式如下所示:
式中,t代表手势执行过程中表面肌电信号采集设备所采集的表面肌电信号的时间步数,c是表面肌电信号的通道数,w代表窗口的长度,X[t,c]代表在t时间刻度上c信号通道上的数值,S1[t,c]表示相应的标准差,Nc表示总的信号通道数,S2[t]表示该窗口内所有信号通道的平均标准差。平均标准差方法对于经过上述预处理后的表面肌电信号的运动段的起始端和结束端的寻找具有很好的效果。优选地,可设置时间窗口的长度为10,窗口的移动步长为1,平均标准差阈值为0.04。
为了减少动作识别时间,保证机械臂能够实时控制,可以采用重叠滑动窗口的方法对每个通道的表面肌电信号进行分割,这样,控制系统只需判断一个小窗口的表面肌电信号即可决定是否有动作。优选地,滑动窗口的宽度和滑动步长可以分别为500毫秒和200毫秒。
(3)构造时频图
对每个通道的表面肌电信号进行数据预处理后,便可以提取表面肌电信号在时域、频域和幅值上的变化特征,构造表面肌电信号的时频图。为了有效表征非平稳的多变的表面肌电信号,可以使用连续小波变换的特征提取方法来构造时频图,从而对应急救援手势动作的表面肌电信号特征进行表征。连续小波变换的计算公式如下:
式中,WTψf(t)表示f(t)信号的连续小波变换结果,f(t)为经过滑动窗口分割后的一个通道的表面肌电信号,a>0为尺度因子,b为平移因子,为ψ(·)的复共轭,ψ(·)表示母小波函数。尺度因子决定了连续小波对不同频率的信号可以进行处理,而平移因子可以保证小波函数在时间轴上进行平移,以保证各个时间段信号的频域特征可以被提取。
图4是本发明提供的任一通道表面肌电信号的信号时频图的示意图,通过小波变换来提取表面肌电信号在时域、频域和幅值上的变化特征,具体表现在时频图上,如图4所示。在时频图上,横轴展示了信号在时域上的变化特征,纵轴表示信号在频域上的变化特征,通过颜色的深浅,可以直观地观察信号幅值的变化情况,较深的颜色表示幅值较高,较浅的颜色则对应幅值较低。
基于上述任一实施例,步骤130具体包括:
步骤131,基于特征提取模块的信号特征提取单元,对各通道表面肌电信号的信号时频图进行特征提取,得到各通道表面肌电信号的信号时频特征;
步骤132,基于特征提取模块的视频特征提取单元,对关键帧和视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征。
具体地,特征提取模块可以包括信号特征提取单元和视频特征提取单元,根据表面肌电信号和视频数据各自的特点,可以分别对表面肌电信号和视频数据进行特征提取,最后进行特征融合,从而实现手势分类。通过可穿戴式的多通道表面肌电信号采集设备获取的使用者手势动作的表面肌电信号,每个通道的表面肌电信号经过数据预处理后,得到信号时频图;通过视频采集设备采集的视频流数据则抽取关键帧,计算视频运动光流信息作为下一步特征提取的输入。在特征提取阶段,通过信号特征提取单元,从每个通道表面肌电信号的时频图中提取到代表对应通道表面肌电信号时频特征的特征向量;通过视频特征提取单元,提取到关键帧和视频光流信息中的特征向量,从而得到视频空间流特征和视频时间流特征。
可以理解的是,信号特征提取单元可以包括多个单流卷积层,每个单流卷积层对一个通道表面肌电信号的信号时频图进行特征提取,每个单流卷积层可以包括多个特征提取模块、一个特征融合层模块、一个展平层模块以及一个全连接层模块。考虑到不同尺寸的卷积核的感受野不同,尺寸大的卷积核能够提取到更好的全局特征,而小尺寸的卷积核能够捕捉到图像的局部特征,通过不同卷积核尺寸的卷积操作可以提高模型的特征提取效率和质量。因此,本发明实施例中每个单流卷积层可以包括多个卷积核尺寸不同的特征提取模块,通过多尺度卷积操作,模型可以获得更丰富的特征表示,从而提高模型的表达能力,改善模型的感受野,减少参数量和计算量,进而有助于提升模型的性能。
对于任一通道表面肌电信号的信号时频图,通过多个不同卷积核尺寸的特征提取模块,可以捕捉到不同尺度的特征,然后再将这些不同尺度的特征经过特征融合层模块进行融合,以综合利用不同尺度的信息,提高手势识别模型的性能和泛化能力。经过特征融合层模块融合得到的特征,将输入至展平层,通过展平层将转换为一维向量,以便输入到后续的全连接层进行处理。
针对视频数据的特征提取,视频特征提取单元可以分别对关键帧和视频光流信息进行特征提取,将多帧关键帧作为空间流输入到卷积神经网络中,提取得到视频空间流特征,以了解视频中描绘的场景和物体信息;将多帧视频光流信息作为时间流输入到卷积神经网络中,以提取连续帧之间的动态变化,从而得到视频时间流特征。
基于上述任一实施例,步骤131具体包括:
基于信号特征提取单元的特征提取模块,对任一通道表面肌电信号的信号时频图进行特征提取,得到多个时频特征向量;信号特征提取单元中包括多个并列设置的特征提取模块,多个特征提取模块的卷积核尺寸不同;
融合多个时频特征向量,得到任一通道表面肌电信号的信号时频特征。
具体地,不同尺寸的卷积核可以捕捉不同尺度的特征,较小尺寸的卷积核可以捕捉局部细节特征,而较大尺寸的卷积核可以捕捉更宽广的全局特征,从而使模型能够在不同层次上对输入数据进行特征提取。因此,本发明实施例中信号特征提取单元可以包括多个卷积核尺寸不同的特征提取模块。在对任一通道表面肌电信号的信号时频图进行特征提取时,通过多个不同卷积核尺寸的特征提取模块,可以捕捉到不同尺度的特征,从而得到对应的多个时频特征向量;然后再将这多个时频特征向量进行融合,即可得到该通道表面肌电信号的信号时频特征。
示例性地,本发明实施例可以设计卷积核尺寸分别为3×3、5×5和7×7的三个特征提取模块,每个特征提取模块可以由两个高效通道注意力层(Efficient ChannelAttention,ECA)、两个卷积层(Conv)和一个最大池化层(Maxpool)组成,其中,卷积层的深度均为48(此为优选的深度值,也可为其他深度值,本发明实施例对此并不限定),最大池化层的尺寸为3×3。
可以理解的是,上述ECA模块是一种用于增强卷积神经网络性能的模块,它通过引入通道注意机制,提供了一种有效的方式来捕捉输入特征图中的通道关系,可以通过对通道间的关联性进行建模,有选择性地放大或抑制特征图中的不同通道,从而提高网络的表达能力和性能。这种轻量级模块可以有效地提高网络性能,而不引入过多的复杂性。
本发明实施例提供的方法,通过设置多个卷积核尺寸不同的特征提取模块,可以使模型获得更丰富的特征表示,从而提高模型的特征提取效率和表达能力。
基于上述任一实施例,步骤132具体包括:
基于视频特征提取单元的空间流卷积模块,对关键帧进行特征提取,得到视频空间流特征;
基于视频特征提取单元的时间流卷积模块,对视频光流信息进行特征提取,得到视频时间流特征。
具体地,视频特征提取单元可以包括空间流卷积模块和时间流卷积模块,分别用于对关键帧和视频光流信息进行特征提取,将多帧关键帧作为空间流输入,以了解视频中描绘的场景和物体信息;将多帧视频光流信息作为时间流输入,以提取连续帧之间的动态变化。
视频特征提取单元可以是使用三维卷积作为卷积核的双流卷积神经网络,其中,空间流卷积模块可以是空间流卷积神经网络(Spatial stream ConvNet),其可以处理多通道数据中的通道相关性,不同通道之间的信息可能相互影响,通过分别处理每个通道的数据,模型可以更好地利用通道间的相关性。时间流卷积模块可以是时间流卷积神经网络(Temporal stream ConvNet),它是一种用于视频动作识别的深度学习模块,基于卷积神经网络的架构,可以处理视频中的时序数据,时间流卷积神经网络通过在时间维度上的卷积操作来捕捉视频中的动作信息,它可以对视频中的每一帧进行特征提取,并通过一系列卷积和池化层来学习时序特征。
空间流卷积模块和时间流卷积模块的结构均可以包括两个卷积层、两个最大池化层、两个展平层(Flatten)和一个随机失活层(Dropout),其中,卷积层的卷积核尺寸为3×3×3,最大池化层的核尺寸也为3×3×3。随机失活层应用正则化技术,可以有效减少过拟合,提高模型的泛化能力,它是在网络的训练过程中随机选择一些神经元,并将它们的输出设置为零,从而降低它们对其他神经元的依赖性,这样做的效果是,每次训练时,模型只能依靠一部分神经元进行预测,从而迫使网络学习更鲁棒和泛化的特征。
本发明实施例提供的方法,通过双流卷积神经网络进行特征提取,可以同时考虑空间和时间信息,捕捉动态变化,提高模型的鲁棒性和可靠性,并增强模型的特征表示能力,从而有助于模型更好地理解和分析视频中的手势动作,提高手势识别模型的性能和效果。
基于上述任一实施例,图5是本发明提供的手势识别方法中步骤140的流程示意图,如图5所示,步骤140具体包括:
步骤141,基于特征融合模块的信号特征融合单元,对各通道表面肌电信号的信号时频特征进行融合,得到肌电信号特征;
步骤142,基于特征融合模块的视频特征融合单元,对视频空间流特征和视频时间流特征进行融合,得到视频双流特征;
步骤143,基于特征融合模块的多模态融合单元,将肌电信号特征和视频双流特征进行融合,得到融合特征。
具体地,经过特征提取阶段,分别提取得到各通道表面肌电信号的信号时频特征以及视频数据中的视频空间流特征和视频时间流特征之后,即可进入特征融合阶段,对各特征进行融合,从而得到融合特征。此处,在特征融合阶段,可以先对表面肌电信号和视频数据各自进行内部的特征向量融合和压缩,即,通过信号特征融合单元对各通道表面肌电信号的信号时频特征进行融合,得到肌电信号特征,同时通过视频特征融合单元对视频空间流特征和视频时间流特征进行融合,得到视频双流特征;再将两种不同的数据进行融合,得到表征对应手势的特征,即通过多模态融合单元将肌电信号特征和视频双流特征进行融合,从而得到表征对应手势的融合特征。最后,可以根据特征融合阶段得到的融合特征进行手势分类,即可预测得到使用者所做的手势类别。
可以理解的是,特征融合模块可以包括信号特征融合单元、视频特征融合单元以及多模态融合单元,信号特征融合单元可以由特征融合层、展平层以及全连接层构成,视频特征融合单元可以包括特征融合层和展平层,多模态融合单元也可以包括特征融合层和展平层。
本发明实施例提供的方法,肌电信号特征可以提供肌肉活动的生物特征,视频双流特征可以提供动作的视觉信息,通过融合这两种信息,可以实现多源信息的融合,更全面地描述手势动作,从而提高手势分类的准确性、鲁棒性和可靠性。
基于上述任一实施例,图6是本发明提供的手势识别模型的结构示意图,如图6所示,本发明实施例提出的手势识别模型是基于表面肌电信号和视频数据多模态融合的卷积神经网络模型,其整体架构主要包括数据预处理阶段、特征提取阶段、特征融合阶段以及手势分类阶段,应用该手势识别模型可以有效识别应急救援手势并实现其分类。
具体地,通过可穿戴式的多通道表面肌电信号采集设备可以采集获取使用者手势动作的表面肌电信号,每个通道的表面肌电信号经过数据预处理阶段后成为时频图;视频数据则抽取关键帧,计算视频运动光流信息作为下一步特征提取的输入。接下来,特征提取阶段,可以从每个通道的时频图中提取到代表对应通道表面肌电信号时频特征的特征向量,以及关键帧和视频光流信息中的特征向量。接着,在特征融合阶段,肌电信号和视频信息先各自进行内部的特征向量融合和压缩,再将两种不同的数据进行融合,得到表征对应手势的特征。最后,手势分类阶段根据融合阶段得来的特征来推理使用者所做的手势类别。下面对模型的表面肌电信号和视频数据两个重要支流作详细介绍。
表面肌电信号:对于表面肌电信号的预处理,主是对原始信号进行基线漂移处理,小波阈值处理,活动段表面肌电信号提取,滑动窗口处理和时频域特征提取后得到对应的时频特征图。在特征提取阶段,通过多个单流卷积层对多通道表面肌电信号的时频图进行特征提取,每个单流卷积层主要由三个特征提取模块,一个特征融合层模块,一个展平层模块和一个全连接层模块组成。考虑到不同尺寸的卷积核的感受野不同,尺寸大的卷积核能够提取到更好的全局特征,而小尺寸的卷积核能够捕捉到图像的局部特征。通过不同卷积核尺寸的卷积操作可以提高模型的特征提取效率。因此,本发明实施例设计了卷积核尺寸为3×3、5×5和7×7的三个特征提取模块。每个特征提取模块可以由两个高效通道注意力层(ECA)、两个卷积层(Conv)和一个最大池化层(Maxpool)组成,其中,卷积层的深度均为48,最大池化层的尺寸为3×3。经过特征提取后,再进行特征融合,经由展平层以及全连接层后和视频数据的特征向量做融合。
视频数据:首先采集获取的视频流中提取关键帧并计算视频光流信息,完成数据的预处理,从而将其传递到神经网络中。然后,将多帧RGB图像(即关键帧)作为空间流输入,以了解视频中描绘的场景和物体信息;将多帧视频光流信息作为时间流输入到卷积神经网络中,以提取连续帧之间的动态变化。最后,将双流的数据特征进行特征融合和全连接网络,再和表面肌电信号的特征向量进行融合,接着激活softmax层后得到预测结果。可以理解的是,本发明实施例中采用三维卷积作为双流卷积神经网络的卷积核,替代原来的二维卷积核,三维卷积网络在视频中具有时间连续性的特征提取方面非常有效,这对于理解视频中的动作和行为有很大帮助。
本发明实施例提出的面向复杂工作环境的基于表面肌电信号和视频数据的多模态融合应急救援手势识别方法,可以解决现有识别方法易受背景环境干扰与无法识别细微手指动作的问题,为矿井等复杂恶劣工作环境中救援机械臂的主从控制提供精准输入信号,提高远程人机交互过程透明性,从而充分利用操作人员的专业经验完成对危险事故的紧急处置,极大的提高了应急效率与自动化等级。
下面对本发明提供的手势识别装置进行描述,下文描述的手势识别装置与上文描述的手势识别方法可相互对应参照。
基于上述任一实施例,图7是本发明提供的手势识别装置的结构示意图,如图7所示,该装置包括:
采集单元710,用于采集各手势动作对应的表面肌电信号和视频流;
预处理单元720,用于基于手势识别模型的预处理模块,对表面肌电信号进行预处理,得到信号时频图,以及从视频流中提取关键帧,并应用关键帧确定视频光流信息;
提取单元730,用于基于手势识别模型的特征提取模块,对信号时频图进行特征提取,得到信号时频特征,以及对关键帧和视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征;
融合单元740,用于基于手势识别模型的特征融合模块,对信号时频特征、视频空间流特征和视频时间流特征进行融合,得到融合特征;
识别单元750,用于基于手势识别模型的分类模块,应用融合特征进行手势分类,确定手势类别。
本发明实施例提供的装置,通过采集应急救援手势的表面肌电信号和相应的视频流数据,并对采集得到的表面肌电信号和视频流进行预处理、特征提取,再对提取得到的信号时频特征、视频空间流特征和视频时间流特征进行融合,得到融合特征,由此可以应用融合特征进行手势分类,确定得到准确的手势类别,本发明通过基于表面肌电信号和视频数据多模态融合的手势识别方法,能够有效识别应急救援手势,显著提高手势识别的精确度,从而为矿井等复杂恶劣工作环境中救援机械臂的人机交互提供精准输入信号,提高远程人机交互过程的准确性,进而达到改善工作人员的工作环境和充分利用操作人员的专业经验的目的。
基于上述任一实施例,预处理单元720具体包括:
信号处理子单元,用于基于预处理模块的信号预处理单元,对各通道表面肌电信号进行预处理,得到各通道表面肌电信号的信号时频图;
视频处理子单元,用于基于预处理模块的视频预处理单元,从视频流中提取关键帧,并基于关键帧确定视频光流信息。
基于上述任一实施例,信号处理子单元具体用于:
基于信号预处理单元的信号去噪模块,对任一通道表面肌电信号依次进行滤波处理和去噪处理,得到去噪表面肌电信号;
基于信号预处理单元的信号分割模块,对去噪表面肌电信号进行信号分割处理,得到活动段表面肌电信号;
基于信号预处理单元的信号变换模块,对活动段表面肌电信号进行信号变换处理,得到任一通道表面肌电信号的信号时频图。
基于上述任一实施例,提取单元730具体包括:
信号提取子单元,用于基于特征提取模块的信号特征提取单元,对各通道表面肌电信号的信号时频图进行特征提取,得到各通道表面肌电信号的信号时频特征;
视频提取子单元,用于基于特征提取模块的视频特征提取单元,对关键帧和视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征。
基于上述任一实施例,信号提取子单元具体用于:
基于信号特征提取单元的特征提取模块,对任一通道表面肌电信号的信号时频图进行特征提取,得到多个时频特征向量;信号特征提取单元中包括多个并列设置的特征提取模块,多个特征提取模块的卷积核尺寸不同;
融合多个时频特征向量,得到任一通道表面肌电信号的信号时频特征。
基于上述任一实施例,视频提取子单元具体用于:
基于视频特征提取单元的空间流卷积模块,对关键帧进行特征提取,得到视频空间流特征;
基于视频特征提取单元的时间流卷积模块,对视频光流信息进行特征提取,得到视频时间流特征。
基于上述任一实施例,融合单元740具体用于:
基于特征融合模块的信号特征融合单元,对各通道表面肌电信号的信号时频特征进行融合,得到肌电信号特征;
基于特征融合模块的视频特征融合单元,对视频空间流特征和视频时间流特征进行融合,得到视频双流特征;
基于特征融合模块的多模态融合单元,将肌电信号特征和视频双流特征进行融合,得到融合特征。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行手势识别方法,该方法包括:采集各手势动作对应的表面肌电信号和视频流;基于手势识别模型的预处理模块,对表面肌电信号进行预处理,得到信号时频图,以及从视频流中提取关键帧,并应用关键帧确定视频光流信息;基于手势识别模型的特征提取模块,对信号时频图进行特征提取,得到信号时频特征,以及对关键帧和视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征;基于手势识别模型的特征融合模块,对信号时频特征、视频空间流特征和视频时间流特征进行融合,得到融合特征;基于手势识别模型的分类模块,应用融合特征进行手势分类,确定手势类别。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的手势识别方法,该方法包括:采集各手势动作对应的表面肌电信号和视频流;基于手势识别模型的预处理模块,对表面肌电信号进行预处理,得到信号时频图,以及从视频流中提取关键帧,并应用关键帧确定视频光流信息;基于手势识别模型的特征提取模块,对信号时频图进行特征提取,得到信号时频特征,以及对关键帧和视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征;基于手势识别模型的特征融合模块,对信号时频特征、视频空间流特征和视频时间流特征进行融合,得到融合特征;基于手势识别模型的分类模块,应用融合特征进行手势分类,确定手势类别。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的手势识别方法,该方法包括:采集各手势动作对应的表面肌电信号和视频流;基于手势识别模型的预处理模块,对表面肌电信号进行预处理,得到信号时频图,以及从视频流中提取关键帧,并应用关键帧确定视频光流信息;基于手势识别模型的特征提取模块,对信号时频图进行特征提取,得到信号时频特征,以及对关键帧和视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征;基于手势识别模型的特征融合模块,对信号时频特征、视频空间流特征和视频时间流特征进行融合,得到融合特征;基于手势识别模型的分类模块,应用融合特征进行手势分类,确定手势类别。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种手势识别方法,其特征在于,包括:
采集各手势动作对应的表面肌电信号和视频流;
基于手势识别模型的预处理模块,对所述表面肌电信号进行预处理,得到信号时频图,以及从所述视频流中提取关键帧,并应用所述关键帧确定视频光流信息;
基于所述手势识别模型的特征提取模块,对所述信号时频图进行特征提取,得到信号时频特征,以及对所述关键帧和所述视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征;
基于所述手势识别模型的特征融合模块,对所述信号时频特征、所述视频空间流特征和所述视频时间流特征进行融合,得到融合特征;
基于所述手势识别模型的分类模块,应用所述融合特征进行手势分类,确定手势类别。
2.根据权利要求1所述的手势识别方法,其特征在于,所述表面肌电信号为多通道表面肌电信号,所述基于手势识别模型的预处理模块,对所述表面肌电信号进行预处理,得到信号时频图,以及从所述视频流中提取关键帧,并应用所述关键帧确定视频光流信息,包括:
基于所述预处理模块的信号预处理单元,对各通道表面肌电信号进行预处理,得到所述各通道表面肌电信号的信号时频图;
基于所述预处理模块的视频预处理单元,从所述视频流中提取关键帧,并基于所述关键帧确定视频光流信息。
3.根据权利要求2所述的手势识别方法,其特征在于,所述基于所述预处理模块的信号预处理单元,对各通道表面肌电信号进行预处理,得到所述各通道表面肌电信号的信号时频图,包括:
基于所述信号预处理单元的信号去噪模块,对任一通道表面肌电信号依次进行滤波处理和去噪处理,得到去噪表面肌电信号;
基于所述信号预处理单元的信号分割模块,对所述去噪表面肌电信号进行信号分割处理,得到活动段表面肌电信号;
基于所述信号预处理单元的信号变换模块,对所述活动段表面肌电信号进行信号变换处理,得到所述任一通道表面肌电信号的信号时频图。
4.根据权利要求1所述的手势识别方法,其特征在于,所述基于所述手势识别模型的特征提取模块,对所述信号时频图进行特征提取,得到信号时频特征,以及对所述关键帧和所述视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征,包括:
基于所述特征提取模块的信号特征提取单元,对各通道表面肌电信号的信号时频图进行特征提取,得到所述各通道表面肌电信号的信号时频特征;
基于所述特征提取模块的视频特征提取单元,对所述关键帧和所述视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征。
5.根据权利要求4所述的手势识别方法,其特征在于,所述基于所述特征提取模块的信号特征提取单元,对各通道表面肌电信号的信号时频图进行特征提取,得到所述各通道表面肌电信号的信号时频特征,包括:
基于所述信号特征提取单元的特征提取模块,对任一通道表面肌电信号的信号时频图进行特征提取,得到多个时频特征向量;所述信号特征提取单元中包括多个并列设置的所述特征提取模块,多个所述特征提取模块的卷积核尺寸不同;
融合所述多个时频特征向量,得到所述任一通道表面肌电信号的信号时频特征。
6.根据权利要求4所述的手势识别方法,其特征在于,所述基于所述特征提取模块的视频特征提取单元,对所述关键帧和所述视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征,包括:
基于所述视频特征提取单元的空间流卷积模块,对所述关键帧进行特征提取,得到所述视频空间流特征;
基于所述视频特征提取单元的时间流卷积模块,对所述视频光流信息进行特征提取,得到所述视频时间流特征。
7.根据权利要求1至6任一项所述的手势识别方法,其特征在于,所述基于所述手势识别模型的特征融合模块,对所述信号时频特征、所述视频空间流特征和所述视频时间流特征进行融合,得到融合特征,包括:
基于所述特征融合模块的信号特征融合单元,对各通道表面肌电信号的信号时频特征进行融合,得到肌电信号特征;
基于所述特征融合模块的视频特征融合单元,对所述视频空间流特征和所述视频时间流特征进行融合,得到视频双流特征;
基于所述特征融合模块的多模态融合单元,将所述肌电信号特征和所述视频双流特征进行融合,得到所述融合特征。
8.一种手势识别装置,其特征在于,包括:
采集单元,用于采集各手势动作对应的表面肌电信号和视频流;
预处理单元,用于基于手势识别模型的预处理模块,对所述表面肌电信号进行预处理,得到信号时频图,以及从所述视频流中提取关键帧,并应用所述关键帧确定视频光流信息;
提取单元,用于基于所述手势识别模型的特征提取模块,对所述信号时频图进行特征提取,得到信号时频特征,以及对所述关键帧和所述视频光流信息分别进行特征提取,得到视频空间流特征和视频时间流特征;
融合单元,用于基于所述手势识别模型的特征融合模块,对所述信号时频特征、所述视频空间流特征和所述视频时间流特征进行融合,得到融合特征;
识别单元,用于基于所述手势识别模型的分类模块,应用所述融合特征进行手势分类,确定手势类别。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述手势识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述手势识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311542550.1A CN117523669A (zh) | 2023-11-17 | 2023-11-17 | 手势识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311542550.1A CN117523669A (zh) | 2023-11-17 | 2023-11-17 | 手势识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117523669A true CN117523669A (zh) | 2024-02-06 |
Family
ID=89745174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311542550.1A Pending CN117523669A (zh) | 2023-11-17 | 2023-11-17 | 手势识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117523669A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239822A (zh) * | 2020-12-28 | 2021-08-10 | 武汉纺织大学 | 基于时空双流卷积神经网络的危险行为检测方法及系统 |
CN113378641A (zh) * | 2021-05-12 | 2021-09-10 | 北京工业大学 | 基于深度神经网络和注意力机制的手势识别方法 |
CN114373194A (zh) * | 2022-01-14 | 2022-04-19 | 南京邮电大学 | 基于关键帧与注意力机制的人体行为识别方法 |
CN114613006A (zh) * | 2022-03-09 | 2022-06-10 | 中国科学院软件研究所 | 一种远距离手势识别方法及装置 |
US20230042187A1 (en) * | 2020-03-09 | 2023-02-09 | Lynxi Technologies Co., Ltd. | Behavior recognition method and system, electronic device and computer-readable storage medium |
CN116400812A (zh) * | 2023-06-05 | 2023-07-07 | 中国科学院自动化研究所 | 基于表面肌电信号的应急救援手势识别方法及装置 |
-
2023
- 2023-11-17 CN CN202311542550.1A patent/CN117523669A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230042187A1 (en) * | 2020-03-09 | 2023-02-09 | Lynxi Technologies Co., Ltd. | Behavior recognition method and system, electronic device and computer-readable storage medium |
CN113239822A (zh) * | 2020-12-28 | 2021-08-10 | 武汉纺织大学 | 基于时空双流卷积神经网络的危险行为检测方法及系统 |
CN113378641A (zh) * | 2021-05-12 | 2021-09-10 | 北京工业大学 | 基于深度神经网络和注意力机制的手势识别方法 |
CN114373194A (zh) * | 2022-01-14 | 2022-04-19 | 南京邮电大学 | 基于关键帧与注意力机制的人体行为识别方法 |
CN114613006A (zh) * | 2022-03-09 | 2022-06-10 | 中国科学院软件研究所 | 一种远距离手势识别方法及装置 |
CN116400812A (zh) * | 2023-06-05 | 2023-07-07 | 中国科学院自动化研究所 | 基于表面肌电信号的应急救援手势识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
ENEA CEOLINI 等: "Sensor fusion using EMG and vision for hand gesture classification in mobile applications", IEEE, 31 December 2019 (2019-12-31), pages 1 - 4 * |
彭金柱 等: "基于视觉和肌电信息融合的手势识别方法", 郑州大学学报(工学版), vol. 42, no. 2, 31 March 2021 (2021-03-31), pages 67 - 73 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107886061B (zh) | 基于多模态深度玻尔兹曼机的人体行为识别方法及系统 | |
Cheng et al. | Visualization of activated muscle area based on sEMG | |
CN113589920B (zh) | 手势识别方法、人机交互方法、装置、设备及存储介质 | |
CN110658915A (zh) | 一种基于双流网络的肌电信号手势识别方法 | |
CN110333783B (zh) | 一种用于鲁棒肌电控制的无关手势处理方法及系统 | |
CN111523601A (zh) | 一种基于知识引导和生成对抗学习的潜在情绪识别方法 | |
CN105708587A (zh) | 一种运动想象模式脑机接口触发的下肢外骨骼训练方法及系统 | |
Liu et al. | A CNN-transformer hybrid recognition approach for sEMG-based dynamic gesture prediction | |
CN115050104B (zh) | 基于多通道表面肌电信号的连续手势动作识别方法 | |
CN110443113A (zh) | 一种虚拟现实书写方法、系统和存储介质 | |
CN113558644A (zh) | 一种3d矩阵与多维卷积网络的情感分类方法、介质和设备 | |
Zhang et al. | Real-time surface EMG pattern recognition for hand gestures based on support vector machine | |
CN112801009A (zh) | 基于双流网络的面部情感识别方法、装置、介质及设备 | |
CN113947815A (zh) | 一种基于肌电传感和视觉传感的人机手势协同控制方法 | |
CN116400812B (zh) | 基于表面肌电信号的应急救援手势识别方法及装置 | |
Zhang et al. | Movement recognition via channel-activation-wise sEMG attention | |
CN109498362A (zh) | 一种偏瘫患者手部运动功能康复训练装置及模型训练方法 | |
Wang et al. | Explainable deep learning for sEMG-based similar gesture recognition: A Shapley-value-based solution | |
Ren et al. | Extracting and supplementing method for EEG signal in manufacturing workshop based on deep learning of time–frequency correlation | |
CN117523669A (zh) | 手势识别方法、装置、电子设备和存储介质 | |
CN116524380A (zh) | 一种基于脑-机信号融合的目标检测方法 | |
Srisuphab et al. | Artificial neural networks for gesture classification with inertial motion sensing armbands | |
CN115937894A (zh) | 一种基于人体姿态识别的军事训练方法及系统 | |
Ling et al. | An Efficient Method for Identifying Lower Limb Behavior Intentions Based on Surface Electromyography. | |
Seddiqi et al. | Recognition of turkish sign language (TID) using sEMG sensor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |