CN115294658B - 一种面向多应用场景的个性化手势识别系统及其手势识别方法 - Google Patents
一种面向多应用场景的个性化手势识别系统及其手势识别方法 Download PDFInfo
- Publication number
- CN115294658B CN115294658B CN202211018160.XA CN202211018160A CN115294658B CN 115294658 B CN115294658 B CN 115294658B CN 202211018160 A CN202211018160 A CN 202211018160A CN 115294658 B CN115294658 B CN 115294658B
- Authority
- CN
- China
- Prior art keywords
- gesture
- data
- module
- model
- gesture recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 230000011218 segmentation Effects 0.000 claims abstract description 94
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000013508 migration Methods 0.000 claims abstract description 45
- 230000005012 migration Effects 0.000 claims abstract description 45
- 230000033001 locomotion Effects 0.000 claims abstract description 44
- 238000005452 bending Methods 0.000 claims abstract description 10
- 230000005540 biological transmission Effects 0.000 claims abstract description 8
- 238000007405 data analysis Methods 0.000 claims abstract description 4
- 238000013500 data storage Methods 0.000 claims abstract description 4
- 230000001133 acceleration Effects 0.000 claims description 41
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 230000005284 excitation Effects 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000005381 potential energy Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 17
- 238000002474 experimental method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000001788 irregular Effects 0.000 description 4
- 238000002898 library design Methods 0.000 description 4
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 3
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 3
- 230000003183 myoelectrical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000001145 finger joint Anatomy 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Abstract
一种面向多应用场景的个性化手势识别系统及其手势识别方法,属于人机交互技术领域。为解决手势分割不准确,无法更准确、更全面的识别手势信息的问题。本发明包括数据手套模块、移动设备模块、边缘设备模块、应用设备模块,数据手套模块连接移动设备模块,移动设备模块分别连接边缘设备模块、应用设备模块;数据手套模块为具有拉伸传感器和运动传感器的智能手套,智能手套通过拉伸传感器和运动传感器采集手势的运动信息和手指的弯曲信息,通过蓝牙发送至移动设备模块;移动设备模块用于进行手势识别、数据传输;边缘设备模块用于进行数据存储、模型训练、模型迁移、数据分析;应用设备模块为带有控制接口的智能设备。本发明准确性高。
Description
技术领域
本发明属于人机交互技术领域,具体涉及一种面向多应用场景的个性化手势识别系统及其手势识别方法。
背景技术
随着可穿戴技术和人工智能技术的飞速发展,手势识别技术被广泛的应用于游戏交互、智能驾驶、AR交互和手语交流等领域。基于配置多传感器数据手套的手势识别技术由于其使用场景不受限和交互特征明显等优点,在人机交互领域也取得了众多的应用。
基于惯性传感器的手势识别多采用六轴或九轴运动传感器采集用户的手部空间移动信息,并通过相关方法进行手势识别。Gaka等人基于在上肢、手腕和五根手指关节配置了七个加速度计的数据手套,使用并行隐马尔可夫方法用于传感器数据建模,实现了对手势99.75%的识别准确率。Shin等人使用低复杂度的递归神经网络(RNN)算法用以识别基于运动传感器的动态手势,并在基于硬件和软件的实现中,将大部分权重量化为两位的定点优化,优化用于权重存储的内存大小,并有效降低了功耗。但是基于惯性传感器的手势识别存在一些局限性,即无法捕捉到更细粒度的手指弯曲信息,导致在进行手势识别时,手势的分割存在较大难度,从而导致在各种控制场景下手势识别应用效果大打折扣。
现有的手势识别技术多关注实验环境下的模型准确性,而忽略了实用环境下对不同场景和不同用户的个性化适配。通用的手势识别模型对不同的用户识别准确率存在较大差异,不能满足实际使用要求,针对用户的个性化手势识别模型,存在每新增一个用户就需要耗时收集大量新用户数据以训练个性化模型的问题,无法实现实用角度的模型个性化。同时,手势分割作为手势识别的前置,其分割效果直接决定了手势识别的准确性,现有固定阈值分割算法对于具有不同操作习惯的新用户分割效果极差,难以实现对不同用户的个性化适配。
公开号为CN111782039A,发明名称为一种适用于手势识别的方法及系统,公开了一种适用于手势识别的方法,包括:通过感知单元(第一感知单元为加速度计;所述第二感知单元为陀螺仪;所述第三感知单元为磁力计;所述第四感知单元为肌电传感器。)获取手部活动信息;将手部活动信息传送至云服务平台;建立手势识别模型,并通过手势识别模型分析手部活动信息,得到手势识别结果;云服务平台将手势识别结果推送到用户端,用户端通过开放访问接口控制相应装置;本发明构建迁移学习与主动学习相结合的手势识别模型,以解决手势识别模型的个性化训练和冷启动问题,其能够将已有的手势识别模型的知识迁移到特定个体的手势识别模型中,提高模型在新用户、新环境、新场景中的快速适应能力及性能。但是存在以下技术问题:(1)肌电信号受用户身体状态影响较大从而导致识别状态不稳定,并且肌电传感器需要与皮肤紧密接触才能精确捕捉到肌电信号,在长时间使用的场景下缺乏舒适性。(2)磁力计受环境影响较大,信号不稳定,会影响识别率。(3)没有对手势分割算法进行优化,会导致手势分割失误,不能将连续手势准确分割为单独有效降的手势,会导致手势识别准确率低下且不稳定。
公开号为CN113269157A,发明名称为隐秘环境下融合IMU和sEMG的加密手势识别方法的专利,公开了一种隐秘环境下融合IMU和sEMG的加密手势识别方法,其步骤包括:在肌电手环的稀疏电极间加入一个压力传感器,使用肌电手环采集sEMG,并由压力传感器获得压力数据,同时使用数据手套采集IMU信号;将所采集的肌电信号传入压力补偿模块,根据获得的压力数据对所述采集的sEMG进行补偿;通过sEMG识别使用者身份后自动按照预先设定的加密融合方法对sEMG与IMU进行融合;然后将融合模块输出的融合图像传至手势识别模块进行手势的分类与识别,得到识别结果。本方法无需任何视觉信号,可以在隐秘环境下进行操控,并且通过sEMG信号加密与所提出的sEMG与IMU信号融合方法更加保证了控制的安全性。但是存在以下技术问题:(1)虽然考虑到了隐秘性,但是没有考虑到用户的舒适性,并且肌电信号受用户身体状态影响较大从而导致识别状态不稳定,会降低手势识别准确率。(2)没有考虑识别准确率,个性化手势识别,面向多场景的手势识别。
发明内容
本发明要解决的问题是手势分割不准确,无法更准确、更全面的识别手势信息的问题,本发明提出一种面向多应用场景的个性化手势识别系统及其手势识别方法。
为实现上述目的,本发明通过以下技术方案实现:
一种面向多应用场景的个性化手势识别系统,包括数据手套模块、移动设备模块、边缘设备模块、应用设备模块,所述数据手套模块连接移动设备模块,所述移动设备模块分别连接边缘设备模块、应用设备模块;
所述数据手套模块为具有拉伸传感器和运动传感器的智能手套,智能手套通过拉伸传感器和运动传感器采集手势的运动信息和手指的弯曲信息,通过蓝牙发送至移动设备模块;
所述移动设备模块用于进行手势识别、数据传输;
所述边缘设备模块用于进行数据存储、模型训练、模型迁移、数据分析;
所述应用设备模块为带有控制接口的智能设备,智能设备通过指定传输方式与移动设备模块相连,并在移动设备模块中注册对应的控制逻辑。
一种面向多应用场景的个性化手势识别系统的手势识别方法,依托于所述的一种面向多应用场景的个性化手势识别系统实现,包括如下步骤:
S2.1、移动设备模块采集数据手套模块发送的手势数据,包括拉伸数据、加速度数据;
S2.2、对采集到的手势数据通过滑动窗口平均滤波方法对手势数据进行去噪,并使用0-1标准化将拉伸数据、加速度数据规范化至同一数量级,得到手势段能量序列X={x1,x2,…,xN},其中xi为手势段能量序列X的第i帧数据;
S2.3、采用基于信息熵的最佳手势分割阈值方法对步骤S2.2得到的手势段能量序列进行分割,得到最佳手势分割阈值;
S2.4、采用基于多滑动窗口的迭代手势分割方法将步骤S2.3得到的最佳手势分割阈值进行处理,得到手势分割数据;
S2.5、将步骤S2.4得到的手势分割数据通过重采样和降采样方法,将手势分割数据的手势段长度规范为固定长度,得到有效手势段数据;
S2.6、采用手势识别模型将步骤S2.5得到的有效手势段数据进行识别,得到手势识别结果。
进一步的,移动设备模块将实时收到的手势数据发送至边缘设备模块保存,同时移动设备模块将得到的手势识别结果进行编码,得到手势结果编码通过控制接口传输给应用设备模块,应用设备模块接收到手势结果编码后,进行解码并在操作注册中心匹配指定的控制命令,驱动应用设备执行。
进一步的,步骤S2.3的具体实现方法包括如下步骤:
S2.3.1、定义加速度数据的能量函数以描述加速度数据的波动情况,Ei为第i帧加速度的能量值,公式如下:
其中,为第i帧加速度第j分量值,/>第i-1帧加速度第j分量值;
S2.3.2、通过步骤S2.3.1的公式计算手势段能量序列X={x1,x2,…,xN}的加速度信号的能量曲线,统计能量曲线中的能量最大值为阈值最大值,划分阈值上界,设置初始阈值最小值为Thstart,设置候选阈值为固定步长2从阈值最小值移动至阈值最大值,针对每个候选阈值运行分割算法,获取手势序列的下标集合;
S2.3.3、根据下标集合将手势段能量序列划分为有效手势段集合D、无效手势段集合V,定义手势段能量序列的能量信息熵Esum为:
其中,E(Di)为在第i帧有效手势的能量信息熵,E(Vi)为在第i帧无效手势的能量信息熵;
其中,E(X)为X段手势的能量信息熵,pi为第i帧能量峰值,min(X)代表最大手势能量值所在的帧数,max(X)为最小手势能量值所在的帧数;
pi=P(xi∈(i-0.5,i+0.5]),
其中,P为手势能量峰值;
S2.3.4、根据步骤S2.3.3进行运算,使得能量信息熵最小的候选阈值记为最佳分割阈值,运行手势分割算法对手势段进行分割,分割结束后,对于划分长度过长的手势段再次利用最佳手势分割阈值方法进行运算,直至所有手势段长度均在预设范围内,得到最佳手势分割阈值。
进一步的,步骤S2.4的具体实现方法包括如下步骤:
S2.4.1、设计第一层滑动窗口为波动滑动窗口,用来统计指定窗口内的各帧手势波动状态,单帧波动状态通过数据滑动窗口的差分能量值进行计算,判断计算单帧能量的差分值与最佳阈值大小关系,判断当前数据帧是否处于波动状态,判断为是记作T,否则记为F,通过平均滤波解决出现的小窗口波动问题;
S2.4.2、设计第二层滑动窗口从来解决出现的随机大幅波动问题,判断通过统计波动窗口内的波动状态数据帧个数与固定阈值间的关系,判断当前波动窗口所代表的数据帧是否为起止点,起始点标记为S,结束点标记为E,非起止点标记为‘\’,得到分割完成手势段;
S2.4.3、计算分割完成手势段的移动距离用于滤除无效手势段:
手势在空间范围内移动时,起始速度v0为0,其空间移动距离在任意x,y,z三轴上的分量表示为,其中si表示在i轴上的移动距离,计算公式为:
其中,ai为i轴上的加速度,t为时间,T为总时间,x为x轴;
由于收集到的加速度数据是离散的点值,因此将以数据帧检测作为积分单位对加速度离散数据进行求和,表征分割完成手势段在某一轴上的移动距离,计算公式为:
其中,为第k帧加速度第i分量值,k为第k帧,j为第j分量;
S2.4.4、对手势集中的所有类型手势计算其空间移动距离量,并将其最小空间移动距离的一半作为无效手势判别阈值thesholddis,对于获得到的所有手势段分割结果,比较其空间移动距离与thesholddis,小于thesholddis的为无效手势段。
进一步的,步骤S2.6中的手势识别模型包括模型训练、模型迁移,边缘设备模块接收到来自移动设备的模型训练或模型迁移命令后,从数据库中提取对应用户及批次手势数据,通过基于深度压缩和激发卷积神经网络双向门控循环单元模型DSECNN-BiGRU进行模型训练,或者使用基于深度卷积生成对抗网络微调模型DCGAN-Finetune进行模型迁移获取目标模型,同时边缘设备模块通过网络接收来自移动设备的实时手势数据并存储,边缘设备模块也提供接口供系统维护人员查看手势数据信息和系统日志信息,边缘设备模块同时也存储来自移动设备设计的自定义个性化手势库,并为移动设备模块提供登录认证功能。
进一步的,基于深度压缩和激发卷积神经网络双向门控循环单元模型DSECNN-BiGRU,进行模型训练的具体实现方法包括如下步骤:
S2.6.1、对于网络输入的拉伸传感器和运动传感器原始数据,通过数据预处理技术进行处理,分别执行数据滤波、标准化和长度归一化操作使得原始数据符合卷积神经网络输入规范,最终得到的指定长度为统一长度的8维的预处理手势特征数据;
S2.6.2、将预处理手势特征数据输入深度可分离卷积的二维卷积特征提取器进行前向传播,获取相应的特征输出向量;
S2.6.3、然后使用固定比率的SE模块对步骤S2.6.2获得的特征输出向量应用通道间注意力机制,获取带有权重的手势特征向量,其后使用1×1卷积对带权重手势特征向量在各通道上进行线性加权求和,随后再次使用DSECNN模块进行特征重提取;
S2.6.4、然后再使用添加了Dropout层的常规卷积进行常规三维卷积进行特征提取,其后通过添加了Dropout层的BiGRU网络提取手势时序特征向量的时间特征,获取输出后通过全连接层加Softmax作为分类层对手势数据分类,输出的类别设置为12个。
进一步的,基于深度卷积生成对抗网络微调模型DCGAN-Finetune,通过对抗生成网络使用小样本原始手势数据进行数据生成,并与原始数据集合并,其后通过Finetune对原始DSECNN-BiGRU模型微调迁移,以达到在少量收集时间下获取较高手势识别准确率的目的,所述基于深度卷积生成对抗网络微调模型DCGAN-Finetune分为四层:
第一层为输入层:输入层主要接收来自训练集的少量各手势样本数据,首针对于各个类型手势数据通过上述对抗生成网络训练生成模型,并通过指定噪声输入产生判别器无法分辨的伪造手势数据,最后将伪造数据作为扩充数据和原始数据进行合并获得最终训练数据集;
第二层为冻结层:由于源模型时由大量多人数据进行训练而得,其DSECNN模块可以提取动态手势数据的通用特征信息,因此冻结层是指在网络进行重训练时,将源模型DSECNN模块原有参数固定不变,对原始模型的进行参数共享,且在重训练的过程中该模块不参与参数更新;
第三层为微调层,在模型进行重训练时,对BiGRU数据进行参数微调以捕捉新用户的时序数据信息,同时对全连接层进行微调使分类器更适合当前用户;
第四层为输出层,即通过全连接网络获取到输出结果后,对batch内手势值进行统计,计算其概率最大值并给出输出。
进一步的,所述对抗生成网络包括生成器、判别器,在对抗生成网络中,生成器学习参考手势数据的分布通过输入噪声数据转化为伪造手势数据,判别器通过学习伪造手势数据和真实手势数据对手势数据真实性进行区分,当判别器无法辨认手势数据是真实数据还是来自生成器的伪造数据时,则网络停止训练达到收敛状态。
进一步的,所述生成器采用双层的全连接网络用以生成伪造手势数据,其中在全连接层中间加入了LeakyReLU层有效缓解了网络训练中遇到的0梯度问题和DeadReLU问题,最后通过reshape单元将模型输出更换为判别器神经网络输出的尺度;所述判别器采用卷积神经网络进行判别数据来源为真实数据或者为虚假数据,其中第一层卷积的卷积核大小kernel_size设置为3,之后经过LeakyReLU层以加速模型收敛,同时采用kernel_size为2的二维最大池化层以缓解卷积层对位置的过敏感性,第二层卷积的卷积核大小kernel_size设置为5以捕捉不同区域上的数据关联特征,随后采用相同的ReLu和池化层进行处理,并通过reshape模块将输出修改为二维尺寸送入全连接层,最后全连接层输出0/1表示数据的真伪标签。
本发明的有益效果:
本发明所述的一种面向多应用场景的个性化手势识别系统,提出了面向多场景的个性化手势识别框架。框架划分为数据手套模块、移动设备模块、边缘设备模块和应用设备模块,实现了框架应用场景的个性化、分割算法的阈值个性化和识别模型的用户个性化。通过手势库设计、受控设备控制接口定义和模型小样本迁移实现以获取适用新场景的手势识别系统。框架的个性化主要体现在分割算法的个性化,识别算法的个性化和应用场景的个性化。通过个性化手势识别框架,通过重定义指定场景的手势库,修改手势识别算法的输出规模,并定义受控设备的控制接口,即可获取适用于指定场景的手势识别系统。
本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法,提出了基于多滑动窗口最佳阈值的连续手势分割算法。通过基于信息熵的迭代最佳分割阈值获取算法,可以针对于每位用户的个性化手势分割最佳阈值,以实现不同用户的自适应有效分割,本文也引入了多滑动窗口理念和手势空间移动距离概念以进行更细粒度的手势分割和手势过滤。本文提出的性化手势分割算法在针对于不同的用户取得了94.5%的平均分割准确率和97.2%的平均分割精度。
本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法,提出了基于DSECNN-BiGRU的手势识别模型和基于DCGAN和微调的新用户手势识别算法。引入了可以提取手势空间特征也能减少网络计算量深度可分离卷积,并在其中嵌入SE网络通过通道注意力机制以更好的提取手势数据的空间特征,将提取到的空间特征输入至双向GRU网络中提取双向时序特征并通过全连接层获取手势分类结果,模型在识别准确率上得到了98.71%的识别率。针对于新用户手势识别,通过对抗生成网络生成各类型手势的生成数据,提出了DCGAN网络以生成小样本训练集的数据的增广数据集,在指定迁移数目为10的情况下得到了平均识别准确率95.00%的新模型,实现了小样本情况下的新用户个性化模型获取。
附图说明
图1为本发明所述的一种面向多应用场景的个性化手势识别系统的结构示意图;
图2为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中连续手势加速度波形图;
图3为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中连续手势划分图;
图4为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中多滑动窗口的迭代手势分割方法示意图;
图5为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中DSECNN-BiGRU网络结构;
图6为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中DCGAN网络结构;
图7为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中基于DCGAN+Finetune的新用户手势识别方法示意图;
图8为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中识别UserA用户的第一种手势的数据生成效果对比图;
图9为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中识别UserA用户的第二种手势的数据生成效果对比图;
图10为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中识别UserA用户的第三种手势的数据生成效果对比图;
图11为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中识别UserA用户的第四种手势的数据生成效果对比图;
图12为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中识别UserA用户的第五种手势的数据生成效果对比图;
图13为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中识别UserA用户的第六种手势的数据生成效果对比图;
图14为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中UserA用户微调迁移算法准确率对比图;
图15为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中UserB用户微调迁移算法准确率对比图;
图16为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别方法中基于DCGAN+Finetune的新用户手势识别算法准确率对比柱状图;
图17为本发明所述的一种面向多应用场景的个性化手势识别系统的手势识别系统的使用流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明,即所描述的具体实施方式仅仅是本发明一部分实施方式,而不是全部的具体实施方式。通常在此处附图中描述和展示的本发明具体实施方式的组件可以以各种不同的配置来布置和设计,本发明还可以具有其他实施方式。
因此,以下对在附图中提供的本发明的具体实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定具体实施方式。基于本发明的具体实施方式,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
为能进一步了解本发明的发明内容、特点及功效,兹例举以下具体实施方式,并配合附图1-15详细说明如下:
具体实施方式一:
一种面向多应用场景的个性化手势识别系统,包括数据手套模块1、移动设备模块2、边缘设备模块3、应用设备模块4,所述数据手套模块1连接移动设备模块2,所述移动设备模块2分别连接边缘设备模块3、应用设备模块4;
所述数据手套模块1为具有拉伸传感器和运动传感器的智能手套,智能手套通过拉伸传感器和运动传感器采集手势的运动信息和手指的弯曲信息,通过蓝牙发送至移动设备模块2;
所述移动设备模块2用于进行手势识别、数据传输;
所述边缘设备模块3用于进行数据存储、模型训练、模型迁移、数据分析;
所述应用设备模块4为带有控制接口的智能设备,智能设备通过指定传输方式与移动设备模块2相连,并在移动设备模块2中注册对应的控制逻辑,如附图1所示。
具体实施方式二:
一种面向多应用场景的个性化手势识别系统的手势识别方法,依托于所述的一种面向多应用场景的个性化手势识别系统实现,包括如下步骤:
S2.1、移动设备模块采集数据手套模块发送的手势数据,包括拉伸数据、加速度数据;
进一步的,移动设备模块将实时收到的手势数据发送至边缘设备模块保存,同时移动设备模块将得到的手势识别结果进行编码,得到手势结果编码通过控制接口传输给应用设备模块,应用设备模块接收到手势结果编码后,进行解码并在操作注册中心匹配指定的控制命令,驱动应用设备执行;
S2.2、对采集到的手势数据通过滑动窗口平均滤波方法对手势数据进行去噪,并使用0-1标准化将拉伸数据、加速度数据规范化至同一数量级,得到手势段能量序列X={x1,x2,…,xN},其中xi为手势段能量序列X的第i帧数据;
S2.3、采用基于信息熵的最佳手势分割阈值方法对步骤S2.2得到的手势段能量序列进行分割,得到最佳手势分割阈值;
手势分割是在接收到连续的手势数据段后,通过加速度数据变化获取有效手势的起止点,如图2所示为一段连续手势,其中包含有六个动态手势(D1-D6),在进行手势分割时,需要准确的寻找到每段手势的起止点。起始点偏前或终止点偏后会导致分割的手势段内包含有过多的无效过渡手势段,起始点偏后或终止点偏前会导致的手势段缺失了原有手势段的前后段信息。
进一步的,步骤S2.3的具体实现方法包括如下步骤:
S2.3.1、定义加速度数据的能量函数以描述加速度数据的波动情况,Ei为第i帧加速度的能量值,公式如下:
其中,为第i帧加速度第j分量值,/>第i-1帧加速度第j分量值;
则图2中的加速度信号的能量曲线如图3红色曲线所示,可以看出加速度能量函数的共有三个较大峰值区域段,每个峰值区域段代表了一个动态手势的信号剧烈波动段。传统的方法通过选定不同的能量函数加上固定阈值对能量曲线进行切分,从而获得切分后的手势段。但是对于不同的用户具有不同的操作习惯,其手势的速度快慢,动作幅度都存在有较大的差异,固定的阈值会导致对于不同的用户手势切分不准确,过大的阈值会导致漏分手势或划分的手势段过短损失部分信息,过小的阈值可能导致多个手势合并为一个手势或某一手势内包含有无效手势段影响识别。因此,本发明针对于固定阈值存在的问题,提出了基于信息熵的迭代最佳分割阈值方法;
S2.3.2、通过步骤S2.3.1的公式计算手势段能量序列X={x1,x2,…,xN}的加速度信号的能量曲线,统计能量曲线中的能量最大值为阈值最大值,划分阈值上界,设置初始阈值最小值为Thstart,设置候选阈值为固定步长2从阈值最小值移动至阈值最大值,针对每个候选阈值运行分割算法,获取手势序列的下标集合;
S2.3.3、根据下标集合将手势段能量序列划分为有效手势段集合D、无效手势段集合V,定义手势段能量序列的能量信息熵Esum为:
其中,E(Di)为在第i帧有效手势的能量信息熵,E(Vi)为在第i帧无效手势的能量信息熵;
其中,E(X)为X段手势的能量信息熵,pi为第i帧能量峰值,min(X)代表最大手势能量值所在的帧数,max(X)为最小手势能量值所在的帧数;
pi=P(xi∈(i-0.5,i+0.5]),
其中,P为手势能量峰值;
S2.3.4、根据步骤S2.3.3进行运算,使得能量信息熵最小的候选阈值记为最佳分割阈值,运行手势分割算法对手势段进行分割,分割结束后,对于划分长度过长的手势段再次利用最佳手势分割阈值方法进行运算,直至所有手势段长度均在预设范围内,得到最佳手势分割阈值;
进一步的,在获取到最佳手势分割阈值后,主要存在如下问题:
1、在数据手套使用过程中,其中的运动传感器会产生不规律噪声波动,在其影响下手势序列的加速度信号计算得到的能量信号会因为噪声产生较大数据跳跃点。基于阈值的手势分割算法都是单纯通过滑动窗口滤波处理原始信号后,但由于不同用户在操作时产生的噪声幅度有较大的差异,在滑动窗口大小的设定上,过大的窗口可能改变原有的能量波动趋势,过小的窗口大小无法滤除存在的波动。也即单纯对能量信号的滤波难以适应针对不同用户的个性化分割。
2、在使用手套过程中可能由于用户身体不规则抖动而产生的噪声,其波动持续时间有可能和真实动态手势持续时间相一致,使用基于阈值的分割方法也会将此手势作为有效手势段截取出来进行手势识别,造成错误手势段的产生,传统的手势分割方法,通过比较截取手势的持续时间和规定时间阈值进行手势过滤,虽然可以滤除较小时间范围内的噪声波动,但仍然无法避免上述问题。
针对上述问题,进一步设计了基于多滑动窗口的迭代手势分割方法以解决上述问题;
S2.4、采用基于多滑动窗口的迭代手势分割方法将步骤S2.3得到的最佳手势分割阈值进行处理,得到手势分割数据,如图4所示;
进一步的,步骤S2.4的具体实现方法包括如下步骤:
S2.4.1、设计第一层滑动窗口为波动滑动窗口,用来统计指定窗口内的各帧手势波动状态,单帧波动状态通过数据滑动窗口的差分能量值进行计算,判断计算单帧能量的差分值与最佳阈值大小关系,判断当前数据帧是否处于波动状态,判断为是记作T,否则记为F,通过平均滤波解决出现的小窗口波动问题;
S2.4.2、设计第二层滑动窗口从来解决出现的随机大幅波动问题,判断通过统计波动窗口内的波动状态数据帧个数与固定阈值间的关系,判断当前波动窗口所代表的数据帧是否为起止点,起始点标记为S,结束点标记为E,非起止点标记为‘\’,得到分割完成手势段;
S2.4.3、计算分割完成手势段的移动距离用于滤除无效手势段:
手势在空间范围内移动时,起始速度v0为0,其空间移动距离在任意x,y,z三轴上的分量表示为,其中si表示在i轴上的移动距离,计算公式为:
其中,ai为i轴上的加速度,t为时间,T为总时间,x为x轴;
由于收集到的加速度数据是离散的点值,因此将以数据帧检测作为积分单位对加速度离散数据进行求和,表征分割完成手势段在某一轴上的移动距离,计算公式为:
其中,为第k帧加速度第i分量值,k为第k帧,j为第j分量;
S2.4.4、对手势集中的所有类型手势计算其空间移动距离量,并将其最小空间移动距离的一半作为无效手势判别阈值thesholddis,对于获得到的所有手势段分割结果,比较其空间移动距离与thesholddis,小于thesholddis的为无效手势段;通过此方法可以有效过滤掉分割出的无效手势;
S2.5、将步骤S2.4得到的手势分割数据通过重采样和降采样方法,将手势分割数据的手势段长度规范为固定长度,得到有效手势段数据;
S2.6、采用手势识别模型将步骤S2.5得到的有效手势段数据进行识别,得到手势识别结果;
进一步的,使用手势识别模型将手势分割获取的有效手势段进行识别得到手势标签,同时移动端将得到的手势识别结果按照指定规则进行编码,应用设备端的控制接口收到手势结果编码后进行解码并在操作注册中心匹配指定的控制命令,驱动应用设备执行。另外在移动端手势识别流程运行的同时,数据传输模块将实时收到的手势数据同步转发至边缘端保存;
步骤S2.6中的手势识别模型包括模型训练、模型迁移,边缘设备模块接收到来自移动设备的模型训练或模型迁移命令后,从数据库中提取对应用户及批次手势数据,通过基于深度压缩和激发卷积神经网络双向门控循环单元模型DSECNN-BiGRU(DepthwiseSqueeze-and-Excitation Convolutional neural network bidirectional gatedrecurrent units,DSECNN-BiGRU)进行模型训练,或者使用基于深度卷积生成对抗网络微调模型DCGAN-Finetune(Deep Convolutional Generative Adversarial Network,DCGAN-Finetune)进行模型迁移获取目标模型,同时边缘设备模块通过网络接收来自移动设备的实时手势数据并存储,边缘设备模块也提供接口供系统维护人员查看手势数据信息和系统日志信息,边缘设备模块同时也存储来自移动设备设计的自定义个性化手势库,并为移动设备模块提供登录认证功能,如图5-图7所示;
进一步的,基于深度压缩和激发卷积神经网络双向门控循环单元模型DSECNN-BiGRU,进行模型训练的具体实现方法包括如下步骤:
S2.6.1、对于网络输入的拉伸传感器和运动传感器原始数据,通过数据预处理技术进行处理,分别执行数据滤波、标准化和长度归一化操作使得原始数据符合卷积神经网络输入规范,最终得到的指定长度为统一长度的8维的预处理手势特征数据;
S2.6.2、将预处理手势特征数据输入深度可分离卷积的二维卷积特征提取器进行前向传播,获取相应的特征输出向量;
S2.6.3、然后使用固定比率的SE模块对步骤S2.6.2获得的特征输出向量应用通道间注意力机制,获取带有权重的手势特征向量,其后使用1×1卷积对带权重手势特征向量在各通道上进行线性加权求和,随后再次使用DSECNN模块进行特征重提取;
S2.6.4、然后再使用添加了Dropout层的常规卷积进行常规三维卷积进行特征提取,其后通过添加了Dropout层的BiGRU网络提取手势时序特征向量的时间特征,获取输出后通过全连接层加Softmax作为分类层对手势数据分类,输出的类别设置为12个。
基于深度压缩和激发卷积神经网络双向门控循环单元模型DSECNN-BiGRU的网络各层输出如表1所示:
表1网络各层输出大小
进一步的,基于深度卷积生成对抗网络微调模型DCGAN-Finetune,通过对抗生成网络使用小样本原始手势数据进行数据生成,并与原始数据集合并,其后通过Finetune对原始DSECNN-BiGRU模型微调迁移,以达到在少量收集时间下获取较高手势识别准确率的目的,所述基于深度卷积生成对抗网络微调模型DCGAN-Finetune分为四层:
第一层为输入层:输入层主要接收来自训练集的少量各手势样本数据,首针对于各个类型手势数据通过上述对抗生成网络训练生成模型,并通过指定噪声输入产生判别器无法分辨的伪造手势数据,最后将伪造数据作为扩充数据和原始数据进行合并获得最终训练数据集;
第二层为冻结层:由于源模型时由大量多人数据进行训练而得,其DSECNN模块可以提取动态手势数据的通用特征信息,因此冻结层是指在网络进行重训练时,将源模型DSECNN模块原有参数固定不变,对原始模型的进行参数共享,且在重训练的过程中该模块不参与参数更新;
第三层为微调层,在模型进行重训练时,对BiGRU数据进行参数微调以捕捉新用户的时序数据信息,同时对全连接层进行微调使分类器更适合当前用户;
第四层为输出层,通过全连接网络获取到输出结果后,对batch内手势值进行统计,计算其概率最大值并给出输出。
进一步的,所述对抗生成网络包括生成器、判别器,在对抗生成网络中,生成器学习参考手势数据的分布通过输入噪声数据转化为伪造手势数据,判别器通过学习伪造手势数据和真实手势数据对手势数据真实性进行区分,当判别器无法辨认手势数据是真实数据还是来自生成器的伪造数据时,则网络停止训练达到收敛状态。
进一步的,所述生成器采用双层的全连接网络用以生成伪造手势数据,其中在全连接层中间加入了LeakyReLU层有效缓解了网络训练中遇到的0梯度问题和Dead ReLU问题,最后通过reshape单元将模型输出更换为判别器神经网络输出的尺度;所述判别器采用卷积神经网络进行判别数据来源为真实数据或者为虚假数据,其中第一层卷积的卷积核大小kernel_size设置为3,之后经过LeakyReLU层以加速模型收敛,同时采用kernel_size为2的二维最大池化层以缓解卷积层对位置的过敏感性,第二层卷积的卷积核大小kernel_size设置为5以捕捉不同区域上的数据关联特征,随后采用相同的ReLu和池化层进行处理,并通过reshape模块将输出修改为二维尺寸送入全连接层,最后全连接层输出0/1表示数据的真伪标签。
进一步的,所述生成器的网络各层输出如表2所示,所示判别器的网络各层输出如表3所示:
表2生成器网络各层输出大小
表3判别器网络各层输出大小
进一步的,对本发明进行实验验证,实验方法及实验效果如下所示:
本发明提出的基于DSECNN-BiGRU的手势识别模型展现出优越的识别性能,对比其他识别模型,表现最佳,其在准确率方面年分别高于双向门控循环单元模型(BiGRU)、多维度卷积神经网络(Multiscale-CNN)、DeepSense和CNN-LSTM模型6.12%、4.39%、2.74%和1.44%,且其在精度、召回率和F1-Score几方面也都高于其他模型。DSECNN-BiGRU模型在特征提取时使用了深度压缩激发(DSE)模块提取了手势数据的通道带权特征,比不加DSE模块的CNN-BiGRU网络在准确率上提高了1.03%。DSECNN-BiGRU模型考虑了手势数据不同通道特征的重要性,并考虑了双向时序特征对手势分类的作用,有效的提高了手势识别模型的性能。
本发明选取了两位用户的手势数据用来进行小样本迁移实验。实验通过对UserA(用户A)和UserB(用户B)使用DCGAN模型进行数据生成,为了避免生成数据和真实数据的数量差异导致模型出现偏差,针对于指定数目的源小样本数据,生成相同个数的手势数据作为补充。针对UserA,当每种手势的原始数量为10时,其生成手势数据如图8-图13所示,展示了UserA用户的前6种手势的数据生成效果,每个子图中左侧为当前手势的原始数据波形图,右侧为生成数据的波形图,从图8-图13可以看出,DCGAN生成的数据很好的保留了原始数据的波形特征,其在最大值、最小值和波动规律等方面基本保持和源数据的一致性。但其改变了手势的波峰和波谷的位置,相当于通过此方式调整了手势的操作速度、手指弯曲程度等,通过此方式实现了原始数据的有效扩充。
基于DSECNN-BIGRU源模型的新用户识别实验:
为了验证基于深度卷积生成对抗网络微调模型DCGAN+Finetune迁移的有效性,选取了CNN-BiGRU、Multiscale-CNN和直接小样本训练DSECNN-BiGRU模型进行对比。表4所示为使用16人数据大数据集分别训练CNN-BiGRU、Multiscale-CNN和DSECNN-BiGRU源模型,再使用不在16人中的用户A和用户B作为测试集进行测试,得到其针对于新用户的识别准确率,如表4所示。
表4各算法新用户实验效果
由表4可知,三个模型对于非训练用户的手势识别准确率都较差,实验通过添加Dropout、扩大训练数据集合和为损失函数添加正则化等方式验证了模型对新用户识别准确率较低不是由源模型过拟合导致的。由于手势数据针对于不同用户和不同数据手套,手势数据的差异性较大,源模型中未能提取新用户的手势相关特征,从而导致了识别准确率较低。但是相比较之下,本发明提出的基于深度卷积生成对抗网络微调模型DSECNN-BiGRU模型准确率比CNN-BiGRU和Multiscale-CNN高出12.94%和12.62%。而针对新用户手势识别准确率低的问题,本发明对算法进行了改进,提出了基于深度卷积生成对抗网络微调DCGAN+Finetune模型。
基于DCGAN+Finetune的模型迁移实验:
针对于新用户的手势数据,首先对小样本数据不使用DCGAN增广训练数据进行微调迁移。分别选取每种手势不同的迁移数目进行微调迁移,迁移数目是指选取每种类型手势的样本个数x,其中x=5,10,20,30,40,50。通过手势迁移获取到的针对于用户A的新模型识别准确率如图14所示,通过手势迁移获取到的针对于用户B的新模型识别准确率如图15所示,从图中可以直观的发现新模型的识别准确率和样本迁移数目呈现正相关。且DSECNN-BIGRU模型的迁移效果在大多数情况下都优于其他模型,只有在UserB实验x=5和x=50时,CNN-BIGRU模型迁移效果优于DSECNN-BIGRU模型。当迁移数目达到40后,各模型对新用户的识别准确率增速明显减缓。模型在UserA迁移实验中,当x=5准确率只达到了85.83%和89.23%,模型在UserB迁移实验中,当x=5和x=10准确率只达到了85.83%和89.23%,说明使用较小数据的样本直接进行模型微调难以获取到高识别准确率的新模型。
分别对在迁移数目为5与10进行DCGAN+Finetune迁移实验,在进行源样本手势预处理时,为保证GAN生成的数据和原始DSECNN-BiGRU模型一致,将生成手势的所有长度设置为70并在生成后通过窗口大小为5的滑动滤波将其转化为(65,8)大小的二维数据。最终将源样本手势数据和GAN生成数据进行合并并对源模型进行微调,实验结果如图16所示。由图可知,对于A、B两用户,在使用GAN进行数据生成后进行迁移的识别准确率相比只通过微调均有所提升。对于不同用户和不同的迁移数目,DSECNN-BiGRU模型的迁移效率均高于其他两种模型,当迁移数目为5时,由于样本过少难以拟合当前用户真实手势规律,各新模型的识别准确率均处于90%以下的较低水平。对于DSECNN-BiGRU模型,当迁移数目为10时对于用户生成的新模型准确率均达到95%左右,相比于传统的使用个人数据训练模型在收集数据环节时间缩短了90%,具有较强的实用价值。
具体实施方式三:
一种面向多应用场景的个性化手势识别系统的使用方法,如附图17所示,首先进行手势库设计、接口定义和网络地址注册,之后连接数据手套,由用户选择是否进行手势识别,如果进行手势识别则直接做出指定手势动作进行识别;如果不进行识别则根据界面提示收集设计的手势集的手势数据,将完整手势数据文件上传至服务器,根据文件的数目进行选择是否进行手势迁移。如果不迁移则直接进行模型训练,如果选择迁移则通过DCGAN+Finetune进行模型迁移,通过迁移或直接训练获取源模型后将模型回传至移动端用作手势识别模型。之后将接收自数据手套的实时手势数据流进行手势分割后供手势识别模型分类获取手势标签,进行编码后对受控设备进行控制。
主要完成了以下三个工作:
其一是在手势识别移动端注册可供受控设备接收手势数据的网络地址,移动设备在获取手势识别结果后依据注册中心配置的受控设备网络地址,将手势识别结果编码后发送至受控设备进行解码控制;
其二是针对于使用场景,依据手势库设计三原则完成手势库的设计,并依据手势库个数调整手势识别模型数据类别;
其三是完成受控设备的控制逻辑,在获取到移动设备发送的手势编码后,将指定手势的类型信息重定向为外部设备的控制命令信息。训练应用阶段首先需要完成对上述定义手势数据集的数据收集,将收集到的数据通过网络发送至服务器。完成手势收集后依据数据集大小指定模型生成方式,对手势数据进行模型训练或模型迁移获取手势识别模型。完成上述工作后手势识别系统处于可用状态,连接数据手套和受控设备后,可通过指定手势实现对外部设备的准确控制。
本发明欲保护的发明点为:
基于智能手套手势识别框架的是个性化的,即依据该框架可以实现与各种场景适用的手势识别系统,且该手势识别系统可适用不同用户使用。该框架的个性化主要体现在以下几个方面,技术途径上体现在如图2所示橙色模块,即手势分割手势识别、手势库设计和编码控制设计。
(1)个性化应用场景
手势识别框架的应用场景个性化是指依据该手势框架设计的手势系统,只需修改部分可配置模块后即可得适用于其他场景的手势识别系统。在目前现有的手势识别系统中,针对某种应用场景,手势库定义、手势识别算法在系统设计之初已经被固定,但是如果进行不同场景的切换则当前手势系统即会失效。针对于新应用场景,通过手势库设计规则设计新的手势库进行替代,根据场景下硬件环境和识别精度要求选择手势识别算法进行替换,即可得到新的手势识别系统。
(2)个性化手势分割
个性化手势分割是指针对不同用户的个性化手势分割。即针对于不同的用户,手势分割算法通过基于信息熵的最佳信息获取算法,均可通过手势分割算法完成对手势的高准确率分割。同时在复杂环境下,针对用户的不规则操作,手势分割算法可以实时更新手势分割阈值完成手势分割。
(3)个性化手势识别
个性化手势识别主要体现在针对于算法类型的个性化和针对用户个性化。针对于算法类型的个性化是指针对于不同的场景,可以根据场景的实时性要求、准确率要求和硬件环境要求进行手势识别算法的替换,依据需求选择合适的手势识别算法。针对用户的个性化是指在选定手势识别算法后,针对于不同的用户,通过小样本迁移技术获取针对用户识别准确率更高的手势识别模型。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然在上文中已经参考具体实施方式对本申请进行了描述,然而在不脱离本申请的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本申请所披露的具体实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本申请并不局限于文中公开的特定具体实施方式,而是包括落入权利要求的范围内的所有技术方案。
Claims (8)
1.一种面向多应用场景的个性化手势识别系统的手势识别方法,依托于一种面向多应用场景的个性化手势识别系统实现,包括数据手套模块(1)、移动设备模块(2)、边缘设备模块(3)、应用设备模块(4),所述数据手套模块(1)连接移动设备模块(2),所述移动设备模块(2)分别连接边缘设备模块(3)、应用设备模块(4);
所述数据手套模块(1)为具有拉伸传感器和运动传感器的智能手套,智能手套通过拉伸传感器和运动传感器采集手势的运动信息和手指的弯曲信息,通过蓝牙发送至移动设备模块(2);
所述移动设备模块(2)用于进行手势识别、数据传输;
所述边缘设备模块(3)用于进行数据存储、模型训练、模型迁移、数据分析;
所述应用设备模块(4)为带有控制接口的智能设备,智能设备通过指定传输方式与移动设备模块(2)相连,并在移动设备模块(2)中注册对应的控制逻辑;
其特征在于:包括如下步骤:
S2.1、移动设备模块采集数据手套模块发送的手势数据,包括拉伸数据、加速度数据;
S2.2、对采集到的手势数据通过滑动窗口平均滤波方法对手势数据进行去噪,并使用0-1标准化将拉伸数据、加速度数据规范化至同一数量级,得到手势段能量序列X={x1,x2,…,xN},其中xi为手势段能量序列X的第i帧数据;
S2.3、采用基于信息熵的最佳手势分割阈值方法对步骤S2.2得到的手势段能量序列进行分割,得到最佳手势分割阈值;
步骤S2.3的具体实现方法包括如下步骤:
S2.3.1、定义加速度数据的能量函数以描述加速度数据的波动情况,Ei为第i帧加速度的能量值,公式如下:
其中,为第i帧加速度第j分量值,/>第i-1帧加速度第j分量值;
S2.3.2、通过步骤S2.3.1的公式计算手势段能量序列X={x1,x2,…,xN}的加速度信号的能量曲线,统计能量曲线中的能量最大值为阈值最大值,划分阈值上界,设置初始阈值最小值为Thstart,设置候选阈值为固定步长2从阈值最小值移动至阈值最大值,针对每个候选阈值运行分割算法,获取手势序列的下标集合;
S2.3.3、根据下标集合将手势段能量序列划分为有效手势段集合D、无效手势段集合V,定义手势段能量序列的能量信息熵Esum为:
其中,E(Di)为在第i帧有效手势的能量信息熵,E(Vi)为在第i帧无效手势的能量信息熵;
其中,E(X)为X段手势的能量信息熵,pi为第i帧能量峰值,min(X)代表最大手势能量值所在的帧数,max(X)为最小手势能量值所在的帧数;
pi=P(xi∈(i-0.5,i+0.5]),
其中,P为手势能量峰值;
S2.3.4、根据步骤S2.3.3进行运算,使得能量信息熵最小的候选阈值记为最佳分割阈值,运行手势分割算法对手势段进行分割,分割结束后,对于划分长度过长的手势段再次利用最佳手势分割阈值方法进行运算,直至所有手势段长度均在预设范围内,得到最佳手势分割阈值;
S2.4、采用基于多滑动窗口的迭代手势分割方法将步骤S2.3得到的最佳手势分割阈值进行处理,得到手势分割数据;
S2.5、将步骤S2.4得到的手势分割数据通过重采样和降采样方法,将手势分割数据的手势段长度规范为固定长度,得到有效手势段数据;
S2.6、采用手势识别模型将步骤S2.5得到的有效手势段数据进行识别,得到手势识别结果。
2.根据权利要求1所述的一种面向多应用场景的个性化手势识别系统的手势识别方法,其特征在于:移动设备模块将实时收到的手势数据发送至边缘设备模块保存,同时移动设备模块将得到的手势识别结果进行编码,得到手势结果编码通过控制接口传输给应用设备模块,应用设备模块接收到手势结果编码后,进行解码并在操作注册中心匹配指定的控制命令,驱动应用设备执行。
3.根据权利要求2所述的一种面向多应用场景的个性化手势识别系统的手势识别方法,其特征在于:步骤S2.4的具体实现方法包括如下步骤:
S2.4.1、设计第一层滑动窗口为波动滑动窗口,用来统计指定窗口内的各帧手势波动状态,单帧波动状态通过数据滑动窗口的差分能量值进行计算,判断计算单帧能量的差分值与最佳阈值大小关系,判断当前数据帧是否处于波动状态,判断为是记作T,否则记为F,通过平均滤波解决出现的小窗口波动问题;
S2.4.2、设计第二层滑动窗口从来解决出现的随机大幅波动问题,判断通过统计波动窗口内的波动状态数据帧个数与固定阈值间的关系,判断当前波动窗口所代表的数据帧是否为起止点,起始点标记为S,结束点标记为E,非起止点标记为‘\’,得到分割完成手势段;
S2.4.3、计算分割完成手势段的移动距离用于滤除无效手势段:
手势在空间范围内移动时,起始速度v0为0,其空间移动距离在任意x,y,z三轴上的分量表示为,其中si表示在i轴上的移动距离,计算公式为:
其中,ai为i轴上的加速度,t为时间,T为总时间,x为x轴;
由于收集到的加速度数据是离散的点值,因此将以数据帧检测作为积分单位对加速度离散数据进行求和,表征分割完成手势段在某一轴上的移动距离,计算公式为:
其中,为第k帧加速度第i分量值,k为第k帧,j为第j分量;
S2.4.4、对手势集中的所有类型手势计算其空间移动距离量,并将其最小空间移动距离的一半作为无效手势判别阈值thesholddis,对于获得到的所有手势段分割结果,比较其空间移动距离与thesholddis,小于thesholddis的为无效手势段。
4.根据权利要求3所述的一种面向多应用场景的个性化手势识别系统的手势识别方法,其特征在于:步骤S2.6中的手势识别模型包括模型训练、模型迁移,边缘设备模块接收到来自移动设备的模型训练或模型迁移命令后,从数据库中提取对应用户及批次手势数据,通过基于深度压缩和激发卷积神经网络双向门控循环单元模型DSECNN-BiGRU进行模型训练,或者使用基于深度卷积生成对抗网络微调模型DCGAN-Finetune进行模型迁移获取目标模型,同时边缘设备模块通过网络接收来自移动设备的实时手势数据并存储,边缘设备模块也提供接口供系统维护人员查看手势数据信息和系统日志信息,边缘设备模块同时也存储来自移动设备设计的自定义个性化手势库,并为移动设备模块提供登录认证功能。
5.根据权利要求4所述的一种面向多应用场景的个性化手势识别系统的手势识别方法,其特征在于:基于深度压缩和激发卷积神经网络双向门控循环单元模型DSECNN-BiGRU,进行模型训练的具体实现方法包括如下步骤:
S2.6.1、对于网络输入的拉伸传感器和运动传感器原始数据,通过数据预处理技术进行处理,分别执行数据滤波、标准化和长度归一化操作使得原始数据符合卷积神经网络输入规范,最终得到的指定长度为统一长度的8维的预处理手势特征数据;
S2.6.2、将预处理手势特征数据输入深度可分离卷积的二维卷积特征提取器进行前向传播,获取相应的特征输出向量;
S2.6.3、然后使用固定比率的SE模块对步骤S2.6.2获得的特征输出向量应用通道间注意力机制,获取带有权重的手势特征向量,其后使用1×1卷积对带权重手势特征向量在各通道上进行线性加权求和,随后再次使用DSECNN模块进行特征重提取;
S2.6.4、然后再使用添加了Dropout层的常规卷积进行常规三维卷积进行特征提取,其后通过添加了Dropout层的BiGRU网络提取手势时序特征向量的时间特征,获取输出后通过全连接层加Softmax作为分类层对手势数据分类,输出的类别设置为12个。
6.根据权利要求5所述的一种面向多应用场景的个性化手势识别系统的手势识别方法,其特征在于:基于深度卷积生成对抗网络微调模型DCGAN-Finetune,通过对抗生成网络使用小样本原始手势数据进行数据生成,并与原始数据集合并,其后通过Finetune对原始DSECNN-BiGRU模型微调迁移,以达到在少量收集时间下获取手势识别准确率的目的,所述基于深度卷积生成对抗网络微调模型DCGAN-Finetune分为四层:
第一层为输入层:输入层接收来自训练集的少量各手势样本数据,首针对于各个类型手势数据通过上述对抗生成网络训练生成模型,并通过指定噪声输入产生判别器无法分辨的伪造手势数据,最后将伪造数据作为扩充数据和原始数据进行合并获得最终训练数据集;
第二层为冻结层:由于源模型时由大量多人数据进行训练而得,其DSECNN模块可以提取动态手势数据的通用特征信息,因此冻结层是指在网络进行重训练时,将源模型DSECNN模块原有参数固定不变,对原始模型的进行参数共享,且在重训练的过程中该模块不参与参数更新;
第三层为微调层,在模型进行重训练时,对BiGRU数据进行参数微调以捕捉新用户的时序数据信息,同时对全连接层进行微调使分类器更适合当前用户;
第四层为输出层,通过全连接网络获取到输出结果后,对batch内手势值进行统计,计算其概率最大值并给出输出。
7.根据权利要求6所述的一种面向多应用场景的个性化手势识别系统的手势识别方法,其特征在于:所述对抗生成网络包括生成器、判别器,在对抗生成网络中,生成器学习参考手势数据的分布通过输入噪声数据转化为伪造手势数据,判别器通过学习伪造手势数据和真实手势数据对手势数据真实性进行区分,当判别器无法辨认手势数据是真实数据还是来自生成器的伪造数据时,则网络停止训练达到收敛状态。
8.根据权利要求7所述的一种面向多应用场景的个性化手势识别系统的手势识别方法,其特征在于:所述生成器采用双层的全连接网络用以生成伪造手势数据,其中在全连接层中间加入了LeakyReLU层有效缓解了网络训练中遇到的0梯度问题和Dead ReLU问题,最后通过reshape单元将模型输出更换为判别器神经网络输出的尺度;所述判别器采用卷积神经网络进行判别数据来源为真实数据或者为虚假数据,其中第一层卷积的卷积核大小kernel_size设置为3,之后经过LeakyReLU层以加速模型收敛,同时采用kernel_size为2的二维最大池化层以缓解卷积层对位置的过敏感性,第二层卷积的卷积核大小kernel_size设置为5以捕捉不同区域上的数据关联特征,随后采用相同的ReLu和池化层进行处理,并通过reshape模块将输出修改为二维尺寸送入全连接层,最后全连接层输出0/1表示数据的真伪标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211018160.XA CN115294658B (zh) | 2022-08-24 | 一种面向多应用场景的个性化手势识别系统及其手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211018160.XA CN115294658B (zh) | 2022-08-24 | 一种面向多应用场景的个性化手势识别系统及其手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115294658A CN115294658A (zh) | 2022-11-04 |
CN115294658B true CN115294658B (zh) | 2024-06-07 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104536558A (zh) * | 2014-10-29 | 2015-04-22 | 三星电子(中国)研发中心 | 一种智能指环和控制智能设备的方法 |
WO2019051082A1 (en) * | 2017-09-06 | 2019-03-14 | Georgia Tech Research Corporation | SYSTEMS, METHODS AND DEVICES FOR GESTURE RECOGNITION |
CN111984119A (zh) * | 2020-08-18 | 2020-11-24 | 哈尔滨工业大学(深圳) | 手势识别模型建立方法、手势识别方法、装置及数据手套 |
CN112148128A (zh) * | 2020-10-16 | 2020-12-29 | 哈尔滨工业大学 | 一种实时手势识别方法、装置及人机交互系统 |
CN113408328A (zh) * | 2020-03-16 | 2021-09-17 | 哈尔滨工业大学(威海) | 基于毫米波雷达的手势分割与识别算法 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104536558A (zh) * | 2014-10-29 | 2015-04-22 | 三星电子(中国)研发中心 | 一种智能指环和控制智能设备的方法 |
WO2019051082A1 (en) * | 2017-09-06 | 2019-03-14 | Georgia Tech Research Corporation | SYSTEMS, METHODS AND DEVICES FOR GESTURE RECOGNITION |
CN113408328A (zh) * | 2020-03-16 | 2021-09-17 | 哈尔滨工业大学(威海) | 基于毫米波雷达的手势分割与识别算法 |
CN111984119A (zh) * | 2020-08-18 | 2020-11-24 | 哈尔滨工业大学(深圳) | 手势识别模型建立方法、手势识别方法、装置及数据手套 |
CN112148128A (zh) * | 2020-10-16 | 2020-12-29 | 哈尔滨工业大学 | 一种实时手势识别方法、装置及人机交互系统 |
Non-Patent Citations (5)
Title |
---|
Gesture recognition based on multiscale singular value entropy and deep belief network;wenguo li等;《Sensors》;20201231;1-15 * |
li w等.Continuous gesture recognition based on hidden markov model.《Internet and distributed computing systems,IDCS 2016》.2016,3-11. * |
基于加速度传感器的手势识别;代宏斌;《中国优秀硕士学位论文全文数据库信息科技辑》;20140915;I138-897 * |
基于多传感器数据手套的个性化手势识别技术研究;张园博;《万方学位论文》;20221114;1-69 * |
基于类别特征可分离性的肌电信号手势识别研究;周淑旺;《中国优秀硕士学位论文全文数据库信息科技辑》;20220315;I138-2378 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Deep Fisher discriminant learning for mobile hand gesture recognition | |
Du et al. | Hierarchical recurrent neural network for skeleton based action recognition | |
Várkonyi-Kóczy et al. | Human–computer interaction for smart environment applications using fuzzy hand posture and gesture models | |
Lu et al. | A method of face recognition based on fuzzy c-means clustering and associated sub-NNs | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN106599797A (zh) | 一种基于局部并行神经网络的红外人脸识别方法 | |
Qin et al. | A fuzzy authentication system based on neural network learning and extreme value statistics | |
CN104484644B (zh) | 一种手势识别方法和装置 | |
CN106529504B (zh) | 一种复合时空特征的双模态视频情感识别方法 | |
CN109670406B (zh) | 一种结合心率与面部表情面向游戏用户的非接触式情感识别方法 | |
CN110135244B (zh) | 一种基于脑-机协同智能的表情识别方法 | |
Rao et al. | Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera. | |
Su et al. | HDL: Hierarchical deep learning model based human activity recognition using smartphone sensors | |
CN110399846A (zh) | 一种基于多通道肌电信号相关性的手势识别方法 | |
CN111444488A (zh) | 一种基于动态手势的身份认证方法 | |
CN113946218A (zh) | 设备上的活动识别 | |
Li et al. | Adaptive deep feature fusion for continuous authentication with data augmentation | |
Lima et al. | Simple and efficient pose-based gait recognition method for challenging environments | |
Rajasekar et al. | Efficient multimodal biometric recognition for secure authentication based on deep learning approach | |
Geng | Research on athlete’s action recognition based on acceleration sensor and deep learning | |
CN113378691B (zh) | 基于实时用户行为分析的智能家居管理系统及方法 | |
CN111914724B (zh) | 基于滑动窗口分割的连续中国手语识别方法及其系统 | |
CN115294658B (zh) | 一种面向多应用场景的个性化手势识别系统及其手势识别方法 | |
Li et al. | Cross-people mobile-phone based airwriting character recognition | |
Monica et al. | Recognition of medicine using cnn for visually impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |