CN110413106A - 一种基于语音和手势的增强现实输入方法及系统 - Google Patents
一种基于语音和手势的增强现实输入方法及系统 Download PDFInfo
- Publication number
- CN110413106A CN110413106A CN201910524878.8A CN201910524878A CN110413106A CN 110413106 A CN110413106 A CN 110413106A CN 201910524878 A CN201910524878 A CN 201910524878A CN 110413106 A CN110413106 A CN 110413106A
- Authority
- CN
- China
- Prior art keywords
- gesture
- voice
- signal
- module
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003190 augmentative effect Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000002567 electromyography Methods 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000002618 waking effect Effects 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 26
- 239000011521 glass Substances 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 210000003205 muscle Anatomy 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 12
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 12
- 230000003993 interaction Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/014—Hand-worn input/output arrangements, e.g. data gloves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/015—Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/01—Indexing scheme relating to G06F3/01
- G06F2203/012—Walk-in-place systems for allowing a user to walk in a virtual environment while constraining him to a given position in the physical environment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Neurology (AREA)
- Dermatology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Neurosurgery (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及语音手势识别技术领域,特别涉及一种基于语音和手势的增强现实输入方法及系统。包括以下步骤:步骤一、采集EMG肌电信号,预处理;步骤二、特征提取;步骤三、判断有效性;步骤四、唤醒语音输入;步骤五、采集语音信号,对所述语音信号预处理;步骤六、特征提取;步骤七、语音识别出的文本显示;步骤八、采集MEMS手势信号;步骤九、预处理;步骤十、特征提取;步骤十一、对手势识别结果判断;步骤十二、对应文本完成输入。本发明在增强现实系统中通过手势和肌电实现虚拟输入界面的语音交互。
Description
技术领域
本发明涉及语音识别技术、手势识别技术、肌电信号技术以及增强现实技术领域,特别涉及一种基于语音和手势的增强现实输入方法及系统。
背景技术
在人际交往中,语言交流是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机设备能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注。随着移动互联网技术的不断发展,尤其是移动终端的小型化、多样化变化趋势,语音识别成为区别于键盘、触屏的人机交互手段之一,语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实,应用于许多领域。
增强现实技术在各个行业和领域应用的越来越广泛,它是一种将真实世界信息和虚拟世界信息“无缝”集成的新技术,是把原本在现实世界的一定时间空间范围内很难体验到的实体信息(视觉信息,声音,味道,触觉等),通过电脑等科学技术,模拟仿真后再叠加,将虚拟的信息应用到真实世界,被人类感官所感知,从而达到超越现实的感官体验。真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在。
目前与人互动的增强现实方案中,主要是通过人的手势指令输入,来实现与增强现实环境互动。基于手势指令互动的增强现实方案的缺陷十分明显,用户体验不够便捷,不够智能。例如有些方案采用的是手指分别对应固定的多个键盘字符的方式进行输入,这种方式不仅需要用户记忆每根手指所对应的字符,而且选择每根手指其中的某个字符时候很不方便,输入效率十分低,有些方案在输入文字等信息时虽然有虚拟键盘辅助输入,但是基于虚拟键盘的高复杂度,以及面对不同操作者按键习惯的幅度不同,造成多种复杂手势的较低识别率,使得这种方案可行度也不高。基于语音指令的增强现实方案在室内安静环境下适用性较好,通过唤醒词来唤醒设备,切换到工作状态来等待用户接下来的指令。但在较为嘈杂的环境中或者是室外复杂环境中,自然交谈过程中以及环境噪声都会引起设备的错误唤醒,造成不必要的困扰。仅基于人的手势或者语音输入的单模态增强现实交互方式单一,用户体验感较差。那么如何提高用户在多种复杂情况下输入方式的交互性、适应性以及鲁棒性是目前输入技术中的一项关键内容。
发明内容
本发明实施例提供了一种基于语音和手势的增强现实输入方法及系统,包括增强现实技术,并在增强现实系统中通过手势和肌电实现虚拟输入界面的语音交互。
为了解决上述技术问题,本发明一种基于语音和手势的增强现实输入方法,包括如下步骤:
步骤一、采集EMG肌电信号,对采集的EMG肌电信号进行预处理,得到预处理EMG肌电信号;
步骤二、对预处理EMG肌电信号进行特征提取,获取肌电信号;
步骤三、判断有效的肌电信号是否连续输入超过三次:如果是则进入步骤五;否则返回步骤一;
步骤四、唤醒语音输入;
步骤五、采集语音信号,对所述语音信号预处理;
步骤六、对预处理过后的语音信号进行特征提取;
步骤七、语音识别出的文本显示在增强现实眼镜上;
步骤八、采集MEMS手势信号;
步骤九、对所述MEMS手势信号预处理,得到预处理MEMS手势信号;
步骤十、对预处理后的手势信号进行特征提取,得到相应手势识别结果;
步骤十一、手势识别结果如果是取消选择指令,则返回步骤五,否则进入步骤十二;
步骤十二、选择与步骤十一中相应手势识别结果对应文本完成输入。
所述步骤二中,对EMG肌电信号的特征提取为按照最优决策函数f(x)进行特征提取:其中sgn为符号函数,为拉格朗日乘子,b*为偏置参数偏值b如下求解:
其中NNSV为标准支持向量数,JN为标准支持向量的合集,J为支持向量的合集,K(xj,xi)为内积函数;
其中可分数据集D={(xi,yi)|i=1,2,...,n},其中输入向量xi∈Rd,Rd为d维实数平面,目标数据为yi∈{-1,+1},如果xi∈Rd属于第1类,则标记为正,即yi=1,如果属于第2类,则标记为负,即yi=-1。
所述步骤六中,语音信号特征提取包括:
采用BP神经网络算法,用一定数量的样本对神经网络进行训练;
输入语音样本,使用反向传播算法对网络的权值和偏差进行反复的调整训练,使输出的向量与期望向量接近,当网络输出层的误差平方和小于误差阈值时训练完成,保存网络的权值和偏差。
所述步骤十中,具体子步骤包括:
选用Bakis类型HMM分别对各个手势动作进行建模,并初始化模型参数λi=(A,B,π),λi为第i个手势模型,A为隐含状态的转移概率矩阵,B为观测状态概率分布,π为初始状态概率分布向量;
分别反复采集各个手势动作信号的数据,并利用Baum-Welch算法来对手势模型λi进行训练,使模型参数趋于收敛,得出对应手势的最优λi;
选用Viterbi算法作为各个手势对应的HMM识别方法,将输入手势的加速度特征序列分别与训练好的λi进行计算评估,取其概率输出最大的λi为对应手势动作的识别结果。
所述步骤一、步骤五、步骤八中,采用异步控制的策略来输出控制指令。
一种基于语音和手势的增强现实输入系统,包括智能手环和增强现实眼镜,智能手环包括传感器模块、中央处理单元、手环无线通信模块、显示模块、电源模块,电源模块电连接于传感器模块、中央处理单元、手环无线通信模块、显示模块的供电端;所述中央处理单元输入端连接传感器模块的输出端;中央处理单元输出端连接于显示模块的输入端;中央处理单元的输入输出端连接手环无线通信模块输入输出端;所述传感器模块包括肌电采集模块、语音采集模块、手势采集模块,其中肌电采集模块输出端连接中央处理单元肌电信号输入端;语音采集模块输出端连接中央处理单元语音采集信号输入端;手势采集模块输出端连接中央处理单元手势采集信号输入端;增强现实眼镜包括增强现实模块和眼镜无线通信模块,眼镜无线通信模块与手环无线通信模块通过无线连接;眼镜无线通信模块输出端连接增强现实模块输入端。
肌电采集模块包括多对差分肌电电极,多对差分肌电电极依次串联,采集用户肌肉活动信息,并将肌电信号发送到中央处理单元。
本发明实施例提供的技术方案可以包括以下有益效果:健壮安全的肌电唤醒方式,并将语音的意图信息直接转化为文字信息实时显示在场景中,为用户提供立体视觉信息增强现实环境;简单手势的准确选择,更好的辅助用户在多种环境下完成需要的输入任务;智能语音联想,可以根据用户输入的关键词进行智能语义推荐,提高输入效率,增加在复杂环境的适应性。本发明提出了一种基于语音和手势的增强现实输入方法,其具有使用户在多种环境下输入更加符合人的感知、认知、理解、决策的特点。还提出了一种基于语音和手势的增强现实输入系统。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明一种基于语音和手势的增强现实输入方法流程图;
图2是本发明一种基于语音和手势的增强现实输入系统示意图;
图3为本发明手势识别指令示意图;
图4为增强眼镜增强现实模块显示示意图。
图中:1为增强现实眼镜,11为增强现实模块,12为眼镜无线通信模块,2为智能手环,21电源模块,22手环无线通信模块,23传感器模块,231为语音采集模块,232肌电采集模块,233手势采集模块,24显示模块25,中央处理单元。
具体实施方式
如图1所示,本发明提供了一种基于语音和手势的增强现实输入方法,包括:
本发明提供了一种,该系统智能语音联想融合了先进的自然语言处理技术,并通过MEMS和EMG手势交互信息加以辅助,提升了增强现实环境下的交互速率和用户体验。其包括如下步骤:
步骤一、通过智能手环的肌电采集模块采集EMG肌电信号,对采集的EMG肌电信号进行预处理,得到预处理EMG肌电信号;
采集到的肌电信号的原始信号,利用中央处理单元进行预处理,基于50Hz自适应高通滤波器对肌电信号进行滤波处理,然后用FIR滤波器对肌电信号进行滤波处理,根据信号的有效频段特征,选取肌电信号的截止频率为2Hz和80Hz;
步骤二、对预处理过后的EMG肌电信号进行特征提取;
对EMG肌电信号的特征提取基于下述过程实现:
设可分数据集D={(xi,yi)|i=1,2,...,n},其中输入向量xi∈Rd,Rd为d维实数平面,目标数据为yi∈{-1,+1},如果xi∈Rd属于第1类,则标记为正,即yi=1,如果属于第2类,则标记为负,即yi=-1,
最优决策函数为:其中sgn为符号函数,,ai为拉格朗日乘子,满足0<ai<C被称为界内支持向量,样本参数ai=C被称为界外支持向量,当ai=0被称为非支持向量,b为偏值,*表示所确定的最优决策函数中的最优参数,C为惩罚参数,C越大表示对错误分类的惩罚越大,C>0;b在求解中直接作为副产品被轻松求解:
其中NNSV为标准支持向量数,JN为标准支持向量的合集,J为支持向量的合集,K(xj,xi)为内积函数;
内积函数K(xi,x)可以通过下述三种算法进行求解:
多项式函数K(xi,x)=[1+(xi·x)]d
多层神经网络函数K(xi,x)=tanh(v(xi·x)+c)
径向基函数
步骤三、判断有效的肌电信号是否连续输入超过三次:如果是则进入步骤五;否则返回步骤一;
步骤四、唤醒语音输入;
步骤五、通过语音采集模块采集语音信号,对所述语音信号预处理,得到预处理语音信号;
采集到的语音信号利用中央处理单元进行预处理,基于自适应的高通滤波器语音信号进行滤波处理,然后用三角带通滤波器对语音信号进行滤波处理,根据信号的有效频段特征,选取语音信号的截止频率为200Hz和3400Hz;
步骤六、对预处理语音信号进行特征提取,得到语音识别出的文本;
特征提取基于下述过程实现:
语音信号特征参数的识别采用BP神经网络算法,而在语音识别前需要用一定数量的样本对神经网络进行训练,使网络具有联想记忆和预测能力;
输入语音样本,使用反向传播算法对网络的权值和偏差进行反复的调整训练,使输出的向量与期望向量尽可能地接近,当网络输出层的误差平方和小于指定的误差时训练完成,保存网络的权值和偏差;
步骤七、语音识别出的文本显示在增强现实眼镜上;
步骤八、通过智能手环的手势采集模块采集MEMS手势信号;
步骤九、对所述MEMS手势信号预处理,得到预处理MEMS手势信号;
利用中央处理单元进行手势信号预处理,基于50Hz自适应高通滤波器对手势信号进行滤波处理,然后用IIR滤波器对手势信号进行滤波处理,根据信号的有效频段特征,选取手势信号截止频率分别是2Hz和90Hz;
步骤十、对预处理后的手势信号进行特征提取,得到相应手势识别结果;
对步骤十中手势信号的提取基于下述过程实现:
本发明的手势识别选用HMM作为识别模型;一个HMM可由λ=(S,O,A,B,π)来描述,亦可简写为λ=(π,A,B),其中,λ为手势模型的集合;S为隐含状态集合,O为观测状态集合,A为隐含状态的转移概率矩阵,B为观测状态概率分布,π为初始状态概率分布向量;
具体子步骤包括:
鉴于加速度数据的时序性,选用Bakis类型HMM分别对各个手势动作进行建模,并初始化模型参数λi=(A,B,π);λi为第i个手势模型;
分别反复采集各个手势动作信号的数据,并利用Baum-Welch算法来对手势模型λi进行训练,使模型参数尽可能趋于收敛,得出对应手势的最优λi;
选用Viterbi算法作为各个手势对应的HMM识别方法,即将输入手势的加速度特征序列分别与训练好的λi进行计算评估,取其概率输出最大的λi为对应手势动作的识别结果;
如图3所示,相关指令包括取消选择、确认选择、光标移到下个词条、光标移到上个词条等指令;
步骤十一、对预处理后的手势信号进行特征提取,如果是取消选择指令,则返回步骤五,否则进入步骤十二;
步骤十二、选择与步骤十一中的手势信号对应文本完成输入。
优选地,所述步骤一、步骤五、步骤八中,采用异步控制的策略来输出控制指令,异步控制指各肌电信号之间、各语音信号之间、各手势信号之间,首先预设好步长和阈值,系统根据步长来截取数据并用于特征提取和分类,当得到的预测结果相关系数值达到阈值时将此数据片段记为一次有效数据。
当累计有三次相同的肌电信号,且有效的预测结果时,输出控制指令,唤醒语音输入;当有一次有效的语音输入预测结果时,输出控制指令;当有一次有效的手势识别结果时,输出控制指令。
具体地,本发明还提供了一种基于语音和手势的增强现实输入系统,包括智能手环2和增强现实眼镜1,智能手环2包括传感器模块23、中央处理单元25、手环无线通信模块22、显示模块24、电源模块21,电源模块21电连接于传感器模块23、中央处理单元25、手环无线通信模块22、显示模块24的供电端;所述中央处理单元25输入端连接传感器模块23的输出端;中央处理单元25输出端连接于显示模块24的输入端;中央处理单元25的输入输出端连接手环无线通信模块22输入输出端;所述传感器模块23包括肌电采集模块232、语音采集模块231、手势采集模块233,其中肌电采集模块232输出端连接中央处理单元25肌电信号输入端;语音采集模块231输出端连接中央处理单元25语音采集信号输入端;手势采集模块233输出端连接中央处理单元25手势采集信号输入端;增强现实眼镜1包括增强现实模块11和眼镜无线通信模块12,眼镜无线通信模块12与手环无线通信模块22通过无线连接;眼镜无线通信模块12输出端连接增强现实模块11输入端。
进一步地,肌电采集模块232是包括多对差分肌电电极,多对差分肌电电极串联连接,用于采集用户肌肉活动信息,并将肌电信号发送到中央处理单元。
进一步地,手势采集模块233是由MEMS传感器包括3轴加速度计、3轴陀螺仪、3轴磁力计;用于采集用户手腕部位的运动信息,并将手势信号发送到中央处理单元。
进一步地,语音采集模块231是由语音采集芯片组成,用于采集用户的语音输入信息,并将语音信号发送到中央处理单元。
进一步地,显示模块24是由三个LED阵列灯组成,用于显示手环语音输入已唤醒,提示用户进行后续输入。
进一步地,中央处理单元25用于接受肌电采集模块232、语音采集模块231、手势采集模块233的信号,并进行信号处理和特征提取,将识别结果通过显示模块、增强现实模块反馈给用户。
进一步地,如图4所示,增强现实模块11用于可视化的显示输入界面并将语音识别的结果呈现在用户面前。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (7)
1.一种基于语音和手势的增强现实输入方法,其特征在于,包括如下步骤:
步骤一、采集EMG肌电信号,对采集的EMG肌电信号进行预处理,得到预处理EMG肌电信号;
步骤二、对预处理EMG肌电信号进行特征提取,获取肌电信号;
步骤三、判断有效的肌电信号是否连续输入超过三次:如果是则进入步骤五;否则返回步骤一;
步骤四、唤醒语音输入;
步骤五、采集语音信号,对所述语音信号预处理;
步骤六、对预处理过后的语音信号进行特征提取;
步骤七、语音识别出的文本显示在增强现实眼镜上;
步骤八、采集MEMS手势信号;
步骤九、对所述MEMS手势信号预处理,得到预处理MEMS手势信号;
步骤十、对预处理后的手势信号进行特征提取,得到相应手势识别结果;
步骤十一、手势识别结果如果是取消选择指令,则返回步骤五,否则进入步骤十二;
步骤十二、选择与步骤十一中相应手势识别结果对应文本完成输入。
2.如权利要求1所述的一种基于语音和手势的增强现实输入方法,其特征在于,所述步骤二中,对EMG肌电信号的特征提取为按照最优决策函数f(x)进行特征提取:其中sgn为符号函数,为拉格朗日乘子,b*为偏置参数,*表示所确定的最优决策函数中的最优参数;偏值b如下求解:
其中NNSV为标准支持向量数,JN为标准支持向量的合集,J为支持向量的合集,K(xj,xi)为内积函数;
其中可分数据集D={(xi,yi)|i=1,2,…,n},其中输入向量xi∈Rd,Rd为d维实数平面,目标数据为yi∈{-1,+1},如果xi∈Rd属于第1类,则标记为正,即yi=1,如果属于第2类,则标记为负,即yi=-1。
3.如权利要求2所述的一种基于语音和手势的增强现实输入方法,其特征在于,所述步骤六中,语音信号特征提取包括:
采用BP神经网络算法,用一定数量的样本对神经网络进行训练;
输入语音样本,使用反向传播算法对网络的权值和偏差进行反复的调整训练,使输出的向量与期望向量接近,当网络输出层的误差平方和小于误差阈值时训练完成,保存网络的权值和偏差。
4.如权利要求3所述的一种基于语音和手势的增强现实输入方法,其特征在于,所述步骤十中,具体子步骤包括:
选用Bakis类型HMM分别对各个手势动作进行建模,并初始化模型参数λi=(A,B,π),λi为第i个手势模型,A为隐含状态的转移概率矩阵,B为观测状态概率分布,π为初始状态概率分布向量;
分别反复采集各个手势动作信号的数据,并利用Baum-Welch算法来对手势模型λi进行训练,使模型参数趋于收敛,得出对应手势的最优λi;
选用Viterbi算法作为各个手势对应的HMM识别方法,将输入手势的加速度特征序列分别与训练好的λi进行计算评估,取其概率输出最大的λi为对应手势动作的识别结果。
5.如权利要求4所述的一种基于语音和手势的增强现实输入方法,其特征在于,所述步骤一、步骤五、步骤八中,采用异步控制的策略来输出控制指令。
6.一种基于语音和手势的增强现实输入系统,其特征在于,包括智能手环(2)和增强现实眼镜(1),智能手环(2)包括传感器模块(23)、中央处理单元(25)、手环无线通信模块(22)、显示模块(24)、电源模块(21),电源模块(21)电连接于传感器模块(23)、中央处理单元(25)、手环无线通信模块(22)、显示模块(24)的供电端;所述中央处理单元(25)输入端连接传感器模块(23)的输出端;中央处理单元(25)输出端连接于显示模块(24)的输入端;中央处理单元(25)的输入输出端连接手环无线通信模块(22)输入输出端;所述传感器模块(23)包括肌电采集模块(231)、语音采集模块(232)、手势采集模块(233),其中肌电采集模块(232)输出端连接中央处理单元(25)肌电信号输入端;语音采集模块(231)输出端连接中央处理单元(25)语音采集信号输入端;手势采集模块(233)输出端连接中央处理单元(25)手势采集信号输入端;增强现实眼镜(1)包括增强现实模块(11)和眼镜无线通信模块(12),眼镜无线通信模块(12)与手环无线通信模块(22)通过无线连接;眼镜无线通信模块(12)输出端连接增强现实模块(11)输入端。
7.如权利要求6所述的一种基于语音和手势的增强现实输入系统,其特征在于,肌电采集模块(232)包括多对差分肌电电极,多对差分肌电电极依次串联,采集用户肌肉活动信息,并将肌电信号发送到中央处理单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524878.8A CN110413106B (zh) | 2019-06-18 | 2019-06-18 | 一种基于语音和手势的增强现实输入方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524878.8A CN110413106B (zh) | 2019-06-18 | 2019-06-18 | 一种基于语音和手势的增强现实输入方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413106A true CN110413106A (zh) | 2019-11-05 |
CN110413106B CN110413106B (zh) | 2024-02-09 |
Family
ID=68359197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910524878.8A Active CN110413106B (zh) | 2019-06-18 | 2019-06-18 | 一种基于语音和手势的增强现实输入方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413106B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111123851A (zh) * | 2019-11-11 | 2020-05-08 | 珠海格力电器股份有限公司 | 根据用户情绪控制电器设备的方法、装置和系统 |
CN112256827A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种手语翻译方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294199A (zh) * | 2013-06-09 | 2013-09-11 | 华东理工大学 | 一种基于脸部肌音信号的无声信息识别系统 |
US20170116987A1 (en) * | 2015-10-22 | 2017-04-27 | Samsung Electronics Co., Ltd. | Electronic device and method for executing function using speech recognition thereof |
CN108836368A (zh) * | 2018-05-10 | 2018-11-20 | 浙江神造科技有限公司 | 一种基于肌电和微压力信号的尿意预判方法及装置 |
CN109065055A (zh) * | 2018-09-13 | 2018-12-21 | 三星电子(中国)研发中心 | 基于声音生成ar内容的方法、存储介质和装置 |
CN109803109A (zh) * | 2018-12-17 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种可穿戴增强现实远程视频系统及视频通话方法 |
-
2019
- 2019-06-18 CN CN201910524878.8A patent/CN110413106B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294199A (zh) * | 2013-06-09 | 2013-09-11 | 华东理工大学 | 一种基于脸部肌音信号的无声信息识别系统 |
US20170116987A1 (en) * | 2015-10-22 | 2017-04-27 | Samsung Electronics Co., Ltd. | Electronic device and method for executing function using speech recognition thereof |
CN108836368A (zh) * | 2018-05-10 | 2018-11-20 | 浙江神造科技有限公司 | 一种基于肌电和微压力信号的尿意预判方法及装置 |
CN109065055A (zh) * | 2018-09-13 | 2018-12-21 | 三星电子(中国)研发中心 | 基于声音生成ar内容的方法、存储介质和装置 |
CN109803109A (zh) * | 2018-12-17 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种可穿戴增强现实远程视频系统及视频通话方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111123851A (zh) * | 2019-11-11 | 2020-05-08 | 珠海格力电器股份有限公司 | 根据用户情绪控制电器设备的方法、装置和系统 |
CN112256827A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种手语翻译方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110413106B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838286B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
CN108899050B (zh) | 基于多模态情绪识别系统的语音信号分析子系统 | |
EP3992845A1 (en) | Action identification method based on artificial intelligence and related apparatus | |
CN105843381B (zh) | 用于实现多模态交互的数据处理方法及多模态交互系统 | |
CN108227932A (zh) | 交互意图确定方法及装置、计算机设备及存储介质 | |
WO2017152531A1 (zh) | 一种基于超声波的凌空手势识别方法及系统 | |
CN110110169A (zh) | 人机交互方法及人机交互装置 | |
CN110853617B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN107221330A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN107291690A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN110008839B (zh) | 一种自适应手势识别的智能手语交互系统及方法 | |
CN107515900B (zh) | 智能机器人及其事件备忘系统和方法 | |
CN112820299B (zh) | 声纹识别模型训练方法、装置及相关设备 | |
CN108364662A (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
CN109634439B (zh) | 智能文本输入方法 | |
WO2022199500A1 (zh) | 一种模型训练方法、场景识别方法及相关设备 | |
CN110917613A (zh) | 一种基于振动触觉的游戏智能桌垫 | |
Luo et al. | Wearable air-writing recognition system employing dynamic time warping | |
CN110413106B (zh) | 一种基于语音和手势的增强现实输入方法及系统 | |
CN110972112A (zh) | 地铁运行方向的确定方法、装置、终端及存储介质 | |
CN111753683A (zh) | 一种基于多专家卷积神经网络的人体姿态识别方法 | |
Yang et al. | Proxitalk: Activate speech input by bringing smartphone to the mouth | |
CN111383138B (zh) | 餐饮数据处理方法、装置、计算机设备和存储介质 | |
WO2022227507A1 (zh) | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |