CN110413106A

CN110413106A - 一种基于语音和手势的增强现实输入方法及系统

Info

Publication number: CN110413106A
Application number: CN201910524878.8A
Authority: CN
Inventors: 邓宝松; 刘璇恒; 谢良; 邓徐韬; 闫野; 印二威
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-11-05
Anticipated expiration: 2039-06-18
Also published as: CN110413106B

Abstract

本发明涉及语音手势识别技术领域，特别涉及一种基于语音和手势的增强现实输入方法及系统。包括以下步骤：步骤一、采集EMG肌电信号，预处理；步骤二、特征提取；步骤三、判断有效性；步骤四、唤醒语音输入；步骤五、采集语音信号，对所述语音信号预处理；步骤六、特征提取；步骤七、语音识别出的文本显示；步骤八、采集MEMS手势信号；步骤九、预处理；步骤十、特征提取；步骤十一、对手势识别结果判断；步骤十二、对应文本完成输入。本发明在增强现实系统中通过手势和肌电实现虚拟输入界面的语音交互。

Description

一种基于语音和手势的增强现实输入方法及系统

技术领域

本发明涉及语音识别技术、手势识别技术、肌电信号技术以及增强现实技术领域，特别涉及一种基于语音和手势的增强现实输入方法及系统。

背景技术

在人际交往中，语言交流是最自然并且最直接的方式之一。随着技术的进步，越来越多的人们也期望计算机设备能够具备与人进行言语沟通的能力，因此，语音识别这一技术也越来越受到关注。随着移动互联网技术的不断发展，尤其是移动终端的小型化、多样化变化趋势，语音识别成为区别于键盘、触屏的人机交互手段之一，语音识别的性能得到了显著提升，也使得语音识别技术的普及成为了现实，应用于许多领域。

增强现实技术在各个行业和领域应用的越来越广泛，它是一种将真实世界信息和虚拟世界信息“无缝”集成的新技术，是把原本在现实世界的一定时间空间范围内很难体验到的实体信息(视觉信息，声音，味道，触觉等)，通过电脑等科学技术，模拟仿真后再叠加，将虚拟的信息应用到真实世界，被人类感官所感知，从而达到超越现实的感官体验。真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在。

目前与人互动的增强现实方案中，主要是通过人的手势指令输入，来实现与增强现实环境互动。基于手势指令互动的增强现实方案的缺陷十分明显，用户体验不够便捷，不够智能。例如有些方案采用的是手指分别对应固定的多个键盘字符的方式进行输入，这种方式不仅需要用户记忆每根手指所对应的字符，而且选择每根手指其中的某个字符时候很不方便，输入效率十分低，有些方案在输入文字等信息时虽然有虚拟键盘辅助输入，但是基于虚拟键盘的高复杂度，以及面对不同操作者按键习惯的幅度不同，造成多种复杂手势的较低识别率，使得这种方案可行度也不高。基于语音指令的增强现实方案在室内安静环境下适用性较好，通过唤醒词来唤醒设备，切换到工作状态来等待用户接下来的指令。但在较为嘈杂的环境中或者是室外复杂环境中，自然交谈过程中以及环境噪声都会引起设备的错误唤醒，造成不必要的困扰。仅基于人的手势或者语音输入的单模态增强现实交互方式单一，用户体验感较差。那么如何提高用户在多种复杂情况下输入方式的交互性、适应性以及鲁棒性是目前输入技术中的一项关键内容。

发明内容

本发明实施例提供了一种基于语音和手势的增强现实输入方法及系统，包括增强现实技术，并在增强现实系统中通过手势和肌电实现虚拟输入界面的语音交互。

为了解决上述技术问题，本发明一种基于语音和手势的增强现实输入方法，包括如下步骤：

步骤一、采集EMG肌电信号，对采集的EMG肌电信号进行预处理，得到预处理EMG肌电信号；

步骤二、对预处理EMG肌电信号进行特征提取，获取肌电信号；

步骤三、判断有效的肌电信号是否连续输入超过三次：如果是则进入步骤五；否则返回步骤一；

步骤四、唤醒语音输入；

步骤五、采集语音信号，对所述语音信号预处理；

步骤六、对预处理过后的语音信号进行特征提取；

步骤七、语音识别出的文本显示在增强现实眼镜上；

步骤八、采集MEMS手势信号；

步骤九、对所述MEMS手势信号预处理，得到预处理MEMS手势信号；

步骤十、对预处理后的手势信号进行特征提取，得到相应手势识别结果；

步骤十一、手势识别结果如果是取消选择指令，则返回步骤五，否则进入步骤十二；

步骤十二、选择与步骤十一中相应手势识别结果对应文本完成输入。

所述步骤二中，对EMG肌电信号的特征提取为按照最优决策函数f(x)进行特征提取：其中sgn为符号函数，为拉格朗日乘子，b^*为偏置参数偏值b如下求解：

其中N_NSV为标准支持向量数，JN为标准支持向量的合集，J为支持向量的合集，K(x_j，x_i)为内积函数；

其中可分数据集D＝{(x_i，y_i)|i＝1，2，...，n}，其中输入向量x_i∈Rd，Rd为d维实数平面，目标数据为y_i∈{-1，+1}，如果x_i∈Rd属于第1类，则标记为正，即y_i＝1，如果属于第2类，则标记为负，即y_i＝-1。

所述步骤六中，语音信号特征提取包括：

采用BP神经网络算法，用一定数量的样本对神经网络进行训练；

输入语音样本，使用反向传播算法对网络的权值和偏差进行反复的调整训练，使输出的向量与期望向量接近，当网络输出层的误差平方和小于误差阈值时训练完成，保存网络的权值和偏差。

所述步骤十中，具体子步骤包括：

选用Bakis类型HMM分别对各个手势动作进行建模，并初始化模型参数λ_i＝(A，B，π)，λ_i为第i个手势模型，A为隐含状态的转移概率矩阵，B为观测状态概率分布，π为初始状态概率分布向量；

分别反复采集各个手势动作信号的数据，并利用Baum-Welch算法来对手势模型λ_i进行训练，使模型参数趋于收敛，得出对应手势的最优λ_i；

选用Viterbi算法作为各个手势对应的HMM识别方法，将输入手势的加速度特征序列分别与训练好的λ_i进行计算评估，取其概率输出最大的λ_i为对应手势动作的识别结果。

所述步骤一、步骤五、步骤八中，采用异步控制的策略来输出控制指令。

一种基于语音和手势的增强现实输入系统，包括智能手环和增强现实眼镜，智能手环包括传感器模块、中央处理单元、手环无线通信模块、显示模块、电源模块，电源模块电连接于传感器模块、中央处理单元、手环无线通信模块、显示模块的供电端；所述中央处理单元输入端连接传感器模块的输出端；中央处理单元输出端连接于显示模块的输入端；中央处理单元的输入输出端连接手环无线通信模块输入输出端；所述传感器模块包括肌电采集模块、语音采集模块、手势采集模块，其中肌电采集模块输出端连接中央处理单元肌电信号输入端；语音采集模块输出端连接中央处理单元语音采集信号输入端；手势采集模块输出端连接中央处理单元手势采集信号输入端；增强现实眼镜包括增强现实模块和眼镜无线通信模块，眼镜无线通信模块与手环无线通信模块通过无线连接；眼镜无线通信模块输出端连接增强现实模块输入端。

肌电采集模块包括多对差分肌电电极，多对差分肌电电极依次串联，采集用户肌肉活动信息，并将肌电信号发送到中央处理单元。

本发明实施例提供的技术方案可以包括以下有益效果：健壮安全的肌电唤醒方式，并将语音的意图信息直接转化为文字信息实时显示在场景中，为用户提供立体视觉信息增强现实环境；简单手势的准确选择，更好的辅助用户在多种环境下完成需要的输入任务；智能语音联想，可以根据用户输入的关键词进行智能语义推荐，提高输入效率，增加在复杂环境的适应性。本发明提出了一种基于语音和手势的增强现实输入方法，其具有使用户在多种环境下输入更加符合人的感知、认知、理解、决策的特点。还提出了一种基于语音和手势的增强现实输入系统。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明一种基于语音和手势的增强现实输入方法流程图；

图2是本发明一种基于语音和手势的增强现实输入系统示意图；

图3为本发明手势识别指令示意图；

图4为增强眼镜增强现实模块显示示意图。

图中：1为增强现实眼镜，11为增强现实模块，12为眼镜无线通信模块，2为智能手环，21电源模块，22手环无线通信模块，23传感器模块，231为语音采集模块，232肌电采集模块，233手势采集模块，24显示模块25，中央处理单元。

具体实施方式

如图1所示，本发明提供了一种基于语音和手势的增强现实输入方法，包括：

本发明提供了一种，该系统智能语音联想融合了先进的自然语言处理技术，并通过MEMS和EMG手势交互信息加以辅助，提升了增强现实环境下的交互速率和用户体验。其包括如下步骤：

步骤一、通过智能手环的肌电采集模块采集EMG肌电信号，对采集的EMG肌电信号进行预处理，得到预处理EMG肌电信号；

采集到的肌电信号的原始信号，利用中央处理单元进行预处理，基于50Hz自适应高通滤波器对肌电信号进行滤波处理，然后用FIR滤波器对肌电信号进行滤波处理，根据信号的有效频段特征，选取肌电信号的截止频率为2Hz和80Hz；

步骤二、对预处理过后的EMG肌电信号进行特征提取；

对EMG肌电信号的特征提取基于下述过程实现：

设可分数据集D＝{(x_i，y_i)|i＝1，2，...，n}，其中输入向量x_i∈Rd，Rd为d维实数平面，目标数据为y_i∈{-1，+1}，如果x_i∈Rd属于第1类，则标记为正，即y_i＝1，如果属于第2类，则标记为负，即y_i＝-1，

最优决策函数为：其中sgn为符号函数，，a_i为拉格朗日乘子，满足0＜a_i＜C被称为界内支持向量，样本参数a_i＝C被称为界外支持向量，当a_i＝0被称为非支持向量，b为偏值，*表示所确定的最优决策函数中的最优参数，C为惩罚参数，C越大表示对错误分类的惩罚越大，C＞0；b在求解中直接作为副产品被轻松求解：

内积函数K(x_i，x)可以通过下述三种算法进行求解：

多项式函数K(x_i，x)＝[1+(x_i·x)]^d

多层神经网络函数K(x_i，x)＝tanh(v(x_i·x)+c)

径向基函数

步骤四、唤醒语音输入；

步骤五、通过语音采集模块采集语音信号，对所述语音信号预处理，得到预处理语音信号；

采集到的语音信号利用中央处理单元进行预处理，基于自适应的高通滤波器语音信号进行滤波处理，然后用三角带通滤波器对语音信号进行滤波处理，根据信号的有效频段特征，选取语音信号的截止频率为200Hz和3400Hz；

步骤六、对预处理语音信号进行特征提取，得到语音识别出的文本；

特征提取基于下述过程实现：

语音信号特征参数的识别采用BP神经网络算法，而在语音识别前需要用一定数量的样本对神经网络进行训练，使网络具有联想记忆和预测能力；

输入语音样本，使用反向传播算法对网络的权值和偏差进行反复的调整训练，使输出的向量与期望向量尽可能地接近，当网络输出层的误差平方和小于指定的误差时训练完成，保存网络的权值和偏差；

步骤七、语音识别出的文本显示在增强现实眼镜上；

步骤八、通过智能手环的手势采集模块采集MEMS手势信号；

利用中央处理单元进行手势信号预处理，基于50Hz自适应高通滤波器对手势信号进行滤波处理，然后用IIR滤波器对手势信号进行滤波处理，根据信号的有效频段特征，选取手势信号截止频率分别是2Hz和90Hz；

对步骤十中手势信号的提取基于下述过程实现：

本发明的手势识别选用HMM作为识别模型；一个HMM可由λ＝(S，O，A，B，π)来描述，亦可简写为λ＝(π，A，B)，其中，λ为手势模型的集合；S为隐含状态集合，O为观测状态集合，A为隐含状态的转移概率矩阵，B为观测状态概率分布，π为初始状态概率分布向量；

具体子步骤包括：

鉴于加速度数据的时序性，选用Bakis类型HMM分别对各个手势动作进行建模，并初始化模型参数λ_i＝(A，B，π)；λ_i为第i个手势模型；

分别反复采集各个手势动作信号的数据，并利用Baum-Welch算法来对手势模型λ_i进行训练，使模型参数尽可能趋于收敛，得出对应手势的最优λ_i；

选用Viterbi算法作为各个手势对应的HMM识别方法，即将输入手势的加速度特征序列分别与训练好的λ_i进行计算评估，取其概率输出最大的λ_i为对应手势动作的识别结果；

如图3所示，相关指令包括取消选择、确认选择、光标移到下个词条、光标移到上个词条等指令；

步骤十一、对预处理后的手势信号进行特征提取，如果是取消选择指令，则返回步骤五，否则进入步骤十二；

步骤十二、选择与步骤十一中的手势信号对应文本完成输入。

优选地，所述步骤一、步骤五、步骤八中，采用异步控制的策略来输出控制指令，异步控制指各肌电信号之间、各语音信号之间、各手势信号之间，首先预设好步长和阈值，系统根据步长来截取数据并用于特征提取和分类，当得到的预测结果相关系数值达到阈值时将此数据片段记为一次有效数据。

当累计有三次相同的肌电信号，且有效的预测结果时，输出控制指令，唤醒语音输入；当有一次有效的语音输入预测结果时，输出控制指令；当有一次有效的手势识别结果时，输出控制指令。

具体地，本发明还提供了一种基于语音和手势的增强现实输入系统，包括智能手环2和增强现实眼镜1，智能手环2包括传感器模块23、中央处理单元25、手环无线通信模块22、显示模块24、电源模块21，电源模块21电连接于传感器模块23、中央处理单元25、手环无线通信模块22、显示模块24的供电端；所述中央处理单元25输入端连接传感器模块23的输出端；中央处理单元25输出端连接于显示模块24的输入端；中央处理单元25的输入输出端连接手环无线通信模块22输入输出端；所述传感器模块23包括肌电采集模块232、语音采集模块231、手势采集模块233，其中肌电采集模块232输出端连接中央处理单元25肌电信号输入端；语音采集模块231输出端连接中央处理单元25语音采集信号输入端；手势采集模块233输出端连接中央处理单元25手势采集信号输入端；增强现实眼镜1包括增强现实模块11和眼镜无线通信模块12，眼镜无线通信模块12与手环无线通信模块22通过无线连接；眼镜无线通信模块12输出端连接增强现实模块11输入端。

进一步地，肌电采集模块232是包括多对差分肌电电极，多对差分肌电电极串联连接，用于采集用户肌肉活动信息，并将肌电信号发送到中央处理单元。

进一步地，手势采集模块233是由MEMS传感器包括3轴加速度计、3轴陀螺仪、3轴磁力计；用于采集用户手腕部位的运动信息，并将手势信号发送到中央处理单元。

进一步地，语音采集模块231是由语音采集芯片组成，用于采集用户的语音输入信息，并将语音信号发送到中央处理单元。

进一步地，显示模块24是由三个LED阵列灯组成，用于显示手环语音输入已唤醒，提示用户进行后续输入。

进一步地，中央处理单元25用于接受肌电采集模块232、语音采集模块231、手势采集模块233的信号，并进行信号处理和特征提取，将识别结果通过显示模块、增强现实模块反馈给用户。

进一步地，如图4所示，增强现实模块11用于可视化的显示输入界面并将语音识别的结果呈现在用户面前。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于语音和手势的增强现实输入方法，其特征在于，包括如下步骤：

步骤四、唤醒语音输入；

步骤五、采集语音信号，对所述语音信号预处理；

步骤六、对预处理过后的语音信号进行特征提取；

步骤七、语音识别出的文本显示在增强现实眼镜上；

步骤八、采集MEMS手势信号；

2.如权利要求1所述的一种基于语音和手势的增强现实输入方法，其特征在于，所述步骤二中，对EMG肌电信号的特征提取为按照最优决策函数f(x)进行特征提取：其中sgn为符号函数，为拉格朗日乘子，b^*为偏置参数，*表示所确定的最优决策函数中的最优参数；偏值b如下求解：

其中N_NSV为标准支持向量数，JN为标准支持向量的合集，J为支持向量的合集，K(x_j,x_i)为内积函数；

其中可分数据集D＝{(x_i,y_i)|i＝1,2,…,n}，其中输入向量x_i∈Rd,Rd为d维实数平面，目标数据为y_i∈{-1,+1}，如果x_i∈Rd属于第1类，则标记为正，即y_i＝1，如果属于第2类，则标记为负，即y_i＝-1。

3.如权利要求2所述的一种基于语音和手势的增强现实输入方法，其特征在于，所述步骤六中，语音信号特征提取包括：

4.如权利要求3所述的一种基于语音和手势的增强现实输入方法，其特征在于，所述步骤十中，具体子步骤包括:

选用Bakis类型HMM分别对各个手势动作进行建模，并初始化模型参数λ_i＝(A,B,π)，λ_i为第i个手势模型，A为隐含状态的转移概率矩阵，B为观测状态概率分布，π为初始状态概率分布向量；

5.如权利要求4所述的一种基于语音和手势的增强现实输入方法，其特征在于，所述步骤一、步骤五、步骤八中，采用异步控制的策略来输出控制指令。

6.一种基于语音和手势的增强现实输入系统，其特征在于，包括智能手环(2)和增强现实眼镜(1)，智能手环(2)包括传感器模块(23)、中央处理单元(25)、手环无线通信模块(22)、显示模块(24)、电源模块(21)，电源模块(21)电连接于传感器模块(23)、中央处理单元(25)、手环无线通信模块(22)、显示模块(24)的供电端；所述中央处理单元(25)输入端连接传感器模块(23)的输出端；中央处理单元(25)输出端连接于显示模块(24)的输入端；中央处理单元(25)的输入输出端连接手环无线通信模块(22)输入输出端；所述传感器模块(23)包括肌电采集模块(231)、语音采集模块(232)、手势采集模块(233)，其中肌电采集模块(232)输出端连接中央处理单元(25)肌电信号输入端；语音采集模块(231)输出端连接中央处理单元(25)语音采集信号输入端；手势采集模块(233)输出端连接中央处理单元(25)手势采集信号输入端；增强现实眼镜(1)包括增强现实模块(11)和眼镜无线通信模块(12)，眼镜无线通信模块(12)与手环无线通信模块(22)通过无线连接；眼镜无线通信模块(12)输出端连接增强现实模块(11)输入端。

7.如权利要求6所述的一种基于语音和手势的增强现实输入系统，其特征在于，肌电采集模块(232)包括多对差分肌电电极，多对差分肌电电极依次串联，采集用户肌肉活动信息，并将肌电信号发送到中央处理单元。