CN104090652A

CN104090652A - 一种语音输入方法和装置

Info

Publication number: CN104090652A
Application number: CN201410265882.4A
Authority: CN
Inventors: 王辉; 刘珏; 宋春伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2014-06-13
Filing date: 2014-06-13
Publication date: 2014-10-08
Anticipated expiration: 2034-06-13
Also published as: CN104090652B

Abstract

本发明实施例提供了一种语音输入方法和装置，所述方法包括：判断在非语音输入模式中是否监听到指定的操作事件；若是，则切换至语音输入模式；其中，所述指定的操作事件包括指定按键的长按事件；在所述语音输入模式中进行语音输入处理。本发明实施例通过复用已有的按键，一物多用，避免了用户进行点击语音输入按键/入口等操作，提高了用户操作的简便性，降低了语音输入模式的切换时间，降低了输入成本开销。

Description

一种语音输入方法和装置

技术领域

本发明涉及输入法的技术领域，特别是涉及一种语音输入方法和一种语音输入装置。

背景技术

目前，移动互联网的快速发展带动了移动智能设备如手机、平板电脑、穿戴式设备等的广泛普及，而作为移动设备上人机交互最方便自然的方式之一，语音输入正逐渐被广大用户所接受。

语音输入的过程，是一种典型的数据输入和数据输出过程。具体来说，涉及到录音，录音数据的存储和传送，录音数据被语音识别引擎加工处理，最后获取到语音识别结果等步骤。

而传统的键盘输入，首先需要绘制键盘和实现按键监听，然后通过响应按键事件，来完成文字输入。

上述语音输入和键盘输入的技术区别，决定了语音输入和键盘输入是两套独立的模块。

在某些环境，例如坐车比较颠簸，用户使用键盘输入不是很方便，此时用户可以通过切换到语音输入。但是，由于语音输入独立于键盘输入，因此，用户需要在键盘输入时点击语音输入按键/入口，将键盘输入切换至语音输入，然后在语音输入的界面中使用点击或长按等操作进行语音输入。使得语音切换操作繁琐，语音输入切换时间长。

发明内容

本发明实施例所要解决的技术问题是提供一种语音输入方法，以提高语音输入的操作简便性，减少语音输入的切换时间。

相应的，本发明实施例还提供了一种语音输入装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明公开了一种语音输入方法，包括：

判断在非语音输入模式中是否监听到指定的操作事件；

若是，则切换至语音输入模式；其中，所述指定的操作事件包括指定按键的长按事件、指定的滑动事件、指定的移动设备翻转事件、指定按键的双击事件、指定手势事件中的至少一种；

在所述语音输入模式中进行语音输入处理。

优选地，所述判断在非语音输入模式中是否监听到指定的操作事件的步骤包括：

在非语音输入模式中触发触控位置对应按键的按下事件；

判断是否监听到指定按键的按下事件；

若监听到指定按键的按下事件，则判断在预设的延迟时间内是否监听到指定按键的松开事件；

若未在预设的延迟时间内监听到指定按键的松开事件，则判断监听到指定按键的长按事件。

优选地，所述在非语音输入模式中触发屏幕点击位置对应按键的按下事件的步骤包括：

查找触控位置对应的实际按键位置；

触发所述实际按键位置对应按键的按下事件。

优选地，所述预设的延迟时间为N倍的按键时间；其中，所述按键时间为预先采集的，当前用户点击按键的平均按下时间，所述N为正数。

优选地，所述在所述语音输入模式中进行语音输入处理的步骤包括：

在切换至所述语音输入模式后预设的采集时间，采集语音数据；

获取根据所述语音数据所识别出的文本信息；

显示所述文本信息。

优选地，所述预设的采集时间为在预先采集当前用户的，从监测到触控位置至采集到语音数据之间的平均时间。

优选地，所述语音数据包括一个或多个语音子数据，所述识别文本包括由所述一个或多个语音子数据识别出的一个或多个第一文本信息，所述显示所述文本信息的步骤包括：

当检测到指定按键的按下事件时，在当前界面显示所述一个或多个第一文本信息。

优选地，所述识别文本还包括由所述一个或多个语音子数据识别出的，用于替换所述第一识别文本的一个或多个第二识别文本，所述显示所述文本信息的步骤还包括：

当所述第一识别文本被触发时，在当前界面显示所述第一文本信息对应的一个或多个第二文本信息。

输出所述语音数据。

优选地，还包括：

当监听到所述指定的操作事件结束时，切换至所述非语音输入模式。

优选地，所述当监听到所述指定的操作事件结束时，切换至所述非语音输入模式的步骤包括：

当监听到所述指定按键的松开事件时，切换至所述非语音输入模式。

优选地，还包括：

在非语音输入模式中未监听到指定的操作事件时，执行按键输入操作、信息发送操作、图像导入操作、拍摄操作、位置信息导入操作、记录操作、用户信息导入操作、界面滚动操作、界面翻转操作中的至少一种。

本发明实施例还公开了一种语音输入装置，包括：

操作事件判断模块，用于判断在非语音输入模式中是否监听到指定的操作事件；若是，则调用切换模块；其中，所述指定的操作事件包括指定按键的长按事件、指定的滑动事件、指定的移动设备翻转事件、指定按键的双击事件、指定手势事件中的至少一种；

语音输入模式切换模块，用于切换至语音输入模式；

语音输入处理模块，用于在所述语音输入模式中进行语音输入处理。

优选地，所述操作事件判断模块包括：

按键触发子模块，用于在非语音输入模块中触发触控位置对应按键的按下事件；

按下事件判断子模块，用于判断是否监听到指定按键的按下事件；若是，则调用松开事件判断子模块；

松开事件判断子模块，用于判断在预设的延迟时间内监听到指定按键的松开事件；若否，则调用长按事件判断子模块；

长按事件判断子模块，用于判断监听到指定按键的长按事件。

优选地，所述按键触发子模块包括：

实际按键位置查找子模块，用于查找触控位置对应的实际按键位置；

按下事件触发子模块，用于触发所述实际按键位置对应按键的按下事件。

优选地，所述预设的延迟时间为N倍的按键时间；其中，所述按键时间为在先采集的，当前用户点击按键的平均按下时间，所述N为正数。

优选地，所述语音输入处理模块包括：

语音数据采集子模块，用于在切换至所述语音输入模式后预设的采集时间，采集语音数据；

文本信息获取子模块，用于获取根据所述语音数据所识别出的文本信息；

文本信息显示子模块，用于显示所述文本信息。

优选地，所述预设的采集时间为在先采集当前用户的，从监测到触控位置至采集到语音数据之间的平均时间。

优选地，所述语音数据包括一个或多个语音子数据，所述识别文本包括由所述一个或多个语音子数据识别出的一个或多个第一文本信息，所述文本信息显示子模块包括：

第一显示子模块，用于在检测到指定按键的按下事件时，在当前界面显示所述一个或多个第一文本信息。

优选地，所述识别文本还包括由所述一个或多个语音子数据识别出的，用于替换所述第一识别文本的一个或多个第二识别文本，所述文本信息显示子模块还包括：

第二显示子模块，用于在所述第一识别文本被触发时，在当前界面显示所述第一文本信息对应的一个或多个第二文本信息。

优选地，所述语音输入处理模块包括：

语音数据输出子模块，用于输出所述语音数据。

优选地，还包括：

非语音输入模式切换模块，用于在监听到所述指定的操作事件结束时，切换至所述非语音输入模式。

优选地，所非语音输入模式切换模块包括：

指定按键切换子模块，用于在监听到所述指定按键的松开事件时，切换至所述非语音输入模式。

优选地，还包括：

原操作执行模块，用于在非语音输入模式中未监听到指定的操作事件时，执行按键输入操作、信息发送操作、图像导入操作、拍摄操作、位置信息导入操作、记录操作、用户信息导入操作、界面滚动操作、界面翻转操作中的至少一种。

与背景技术相比，本发明实施例包括以下优点：

本发明实施例中在非语音输入模式中监听到如指定按键的长按事件等指定的操作事件时，直接切换至语音输入模式，通过复用已有的按键，一物多用，避免了用户进行点击语音输入按键/入口等操作，提高了用户操作的简便性，降低了语音输入模式的切换时间，降低了输入成本开销，并且对输入法的修改少，开发成本低，使得可以直接在语音输入模式中进行语音输入处理，提高了语音输入的效率。

本发明实施例预先采集用户的按键习惯，通过查找触控位置对应的实际按键位置，触发该时间案件位置对应按键的按下事件，提高了按键的触发成功率，进而减少输入法对错误按键的响应，以及减少了用户重新按键的操作，大大提高了按键的效率。

本发明实施例可以根据用户点击按键的平均按下时间设置延迟时间，作为用户长按操作的判断标准，减少了默认延迟时间造成的长按操作失败错误等问题的出现，提高了长按操作的识别准确性。

本发明实施例可以根据用户的输入语音数据的习惯设定语音采集时间，即从监测到触控位置至采集到语音数据之间的平均时间，进行语音数据的采集，减少了默认采集时间造成的采集到空白的语音数据，或者未采集到开始部分的语音数据等问题的出现，提高了语音采集的效率。

本发明实施例在监听到诸如指定按键的长按事件等指定的操作事件结束时，可以直接切换至非语音输入模式，通过复用已有的按键，一物多用，避免了用户进行点击退回键等操作，提高了用户操作的简便性，降低了非语音输入模式的切换时间，降低了输入成本开销，并且对输入法的修改少，开发成本低，实现了非语音输入模式和语音输入模式之间的无痕切换。

附图说明

图1是本发明的一种语音输入方法实施例1的步骤流程图；

图2是本发明的一种九宫格键盘的示例图；

图3是本发明的一种全键盘的示例图；

图4是本发明的一种语音输入方法实施例2的步骤流程图；

图5是本发明的一种语音输入装置实施例1的结构框图；

图6是本发明的一种语音输入装置实施例2的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种语音输入方法实施例1的步骤流程图，具体可以包括如下步骤：

步骤101，判断在非语音输入模式中是否监听到指定的操作事件；若是，则执行步骤102；

需要说明的是，本发明实施例可以应用于输入法中，该输入法可以为一个APP(Application，第三方应用程序)，安装在具有触摸屏幕的设备中。该设备可以包括平板电脑、个人数字助理、手机等等，本发明实施例对此不作限制。

在该输入法中，可以存在至少两种输入模式，即语音输入模式和非语音输入模式。

语音输入模式，可以为采用语音的方式输入文本信息的模式。在语音输入模式中，输入法可以识别出用户输入的语音数据所对应的文本信息。

非语音输入模式，可以为采用非语音的方式输入文本信息的模式。

其中，非语音输入模式可以包括键盘输入模式、手写输入模式等等。

键盘输入模式，可以为采用键盘的方式输入文本信息的模式。在键盘输入模式中，输入法可以根据键盘中的按键，按照拼音、笔画、五笔等编码规则计算出文本信息。

其中，该键盘可以为如图2所示的九宫格键盘，即以1-9共9个数字按键作为输入键盘；该键盘也可以为如图3所示的全键盘，即以A-Z共26个字母按键作为输入键盘，等等。

手写输入模式，可以为采用手写的方式输入文本信息的模式。在手写模式中，输入法可以根据用户在触控屏幕中的滑动轨迹，识别出与该滑动轨迹相似或相同的文本信息。

当然，上述非语音输入模式只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他非语音输入模式，本发明实施例对此不加以限制。另外，除了上述非语音输入模式外，本领域技术人员还可以根据实际需要采用其它非语音输入模式，本发明实施例对此也不加以限制。

在具体实现中，所述指定的操作事件可以包括指定按键的长按事件，而该指定按键可以在非语音输入模式中，预设有除触发语音模式以外的功能。例如，空格键可以预设有输入空格的功能，删除键可以预设有删除文本信息的功能，等等。

所述指定的操作事件也可以包括指定的滑动事件，即本发明实施例可以根据指定的滑动方向和轨迹触发语音输入模式。

当然，所述指定的操作事件也可以包括其他操作事件，例如指定的移动设备翻转事件、指定按键的双击事件、指定手势事件等等，本发明实施例对此不加以限制。

为使本领域技术人员更好地理解本发明实施例，在本说明书中，将指定按键的长按事件作为指定的操作事件的一种示例进行说明。

在本发明的一种优选实施例中，步骤101可以包括如下子步骤：

子步骤S11，在非语音输入模块中触发触控位置对应按键的按下事件；

触控位置可以为用户在设备的触摸屏幕上按下的位置。

在本发明实施例的一种优选示例中，本发明实施例可以不对触控位置进行修正，即直接触发触控位置所在按键的按下事件。

在本发明实施例的另一种优选示例中，步骤S11可以包括如下子步骤：

子步骤S111，查找触控位置对应的实际按键位置；

子步骤S112，触发所述实际按键位置对应按键的按下事件。

在实际应用中，每个用户的按键习惯都可能有所不同。但是，同一个用户按键习惯一般会有一定的规律性。例如，某个用户习惯用右手拿着手机，再采用右手拇指点击按键，使得触控位置经常出现在按键偏右的位置。

因此，在本示例中，可以预先采集用户的按键习惯，即用户在使用输入法输入文本信息时，触控位置与实际按键位置之间的关系，再采用改按键习惯对触控位置进行修正。

则按键习惯可以决定触控位置是否触发按键的按下事件，如果用户的按键习惯是触控位置相对于实际按键位置整体偏右，则即使用户本次的触控位置相较于实际按键位置偏右，也会认为是需要点击相应的实际按键位置。

子步骤S12，判断是否监听到指定按键的按下事件；若是，则执行子步骤S13；

在具体实现中，可以预先在输入法的配置文件中定义指定按键的长按事件。

以下以空格键作为示例进行说明，该配置文件可以为如下设置：

[Key_Space_py9]

H＝0.232

W＝0.2833

S_KEYS＝Key_Space

L_KEY＝Key_Voice

TYPE＝2

S_FLAG＝0

其中，通过Key_Space_py9和L_KEY，可以看到在九空格键盘上，空格键的长按事件由Key_Voice对应的按键事件逻辑处理。

在本示例，可以通过覆盖ViewGroup类的onTouchEvent(MotionEvent me)方法来监听屏幕的触摸事件，如按键的按下、滑动和松开等事件。

子步骤S13，判断在预设的延迟时间内是否监听到指定按键的松开事件；若否，则执行子步骤S14；

子步骤S14，判断监听到指定按键的长按事件。

如果onTouchEvent方法监测到按下事件对应的按键是指定按键(例如空格键)，那么输入法将可以发送一个延迟消息。

以Android(安卓)系统的设备为例，输入法可以通过Handler机制发送一个延迟消息。

Android系统的Handler机制支持消息队列和消息调度，调用者可以指定消息发送的延迟时间，也可以随时删除已经在消息队列的消息。

Handler机制使用到的原型函数可以为：

sendEmptyMessageDelayed(int what,long delayMillis)；

removeMessages(int what)。

如果在指定的延迟时间内，没有监测到指定按键(例如空格键)的松开事件，即指定按键(例如空格键)没有被松开，那么可以认为监听到指定按键(例如空格键)的长按事件。

当然，上述指定按键只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他指定按键，例如删除键、数字键、字母键等等，本发明实施例对此不加以限制。另外，除了上述指定按键外，本领域技术人员还可以根据实际需要采用其它指定按键，本发明实施例对此也不加以限制。

在本发明实施例的一种优选示例中，该预设的采集时间可以为一个默认值，例如500ms。

在本发明实施例的另一种优选示例中，所述预设的延迟时间可以为N倍的按键时间；其中，所述按键时间可以为在先采集的，当前用户点击按键的平均按下时间，所述N为正数。

由于不同用户的输入速度有所不同，即按键时间间隔会有所不同，造成了不同用户按键的按下时间也有所不同。则在本示例中，可以根据用户按键的按下时间作为该用户长按操作的判断标准。

具体而言，可以预先收集用户按键的按下时间，然后计算平均值。如果某次点击按键的按下时间超过平均按下时间的N(例如2)倍，即可判断该操作为长按。

例如，某用户点击按键的平均按下时间为200ms，假设N为2，则在某次按下按键的按下时间超过400ms后，便可以响应该操作为长按操作。

步骤102，切换至语音输入模式；

在输入法中，非语音输入模式和语音输入模式均可具有对应的模块，当需要切换至语音输入模式时，启动该语音输入模式对应的模块即可。

较佳地，在切换至语音输入模式时，可以根据当前非语音输入模式的界面属性，例如键盘类型、键盘大小、屏幕尺寸等等等，绘制出语音交互视图，以提示用户输入法切换至语音输入模式。

步骤103，在所述语音输入模式中进行语音输入处理。

在切换至语音输入模式后，用户可以进行语音输入，输入法则可以进行语音输入处理。

在本发明的一种优选实施例中，步骤103可以包括如下子步骤：

子步骤S21，在切换至所述语音输入模式后预设的采集时间，采集语音数据；

在本发明实施例的一种优选示例中，该预设的采集时间可以为一个默认值。

在本发明实施例的另一种优选示例中，所述预设的采集时间可以为在先采集当前用户的，从监测到触控位置至采集到语音数据之间的平均时间。

则在本示例中，可以记录在先用户在按下按键(即监测到触控位置)后，到采集到语音数据的时间差，取该时间的平均值作为从按下后开始采集语音数据的采集时间。

子步骤S22，获取根据所述语音数据所识别出的文本信息；

语音识别技术，也可以称为自动语音识别(Automatic SpeechRecognition，ASR)，其任务是把用户所发出的语音数据中的词汇内容转换为计算机可读入的文本。语音识别技术是一种综合性的技术，它涉及到多个学科领域，如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等等。

在具体实现中，可以将语音数据发送至服务器，由服务器识别出该语音数据对应的文本信息。

应用本发明实施例，可以在服务器部署的语音识别系统，其可以在声学模型(Acoustic Model，AM)与语言模型(Language Model，LM)的指导下针对接收到的语音数据识别得到一个或多个文本信息，该文本信息可以具有对应的识别评分。

声学模型(Acoustic Model，AM)是自动语音识别系统的模型中最底层的部分，同时也是自动语音识别系统中最关键的组成单元，声学模型建模的好坏会直接从根本上影响语音识别系统的识别效果和鲁棒性。声学模型实验概率统计的模型对带有声学信息的语音基本单元建立模型，描述其统计特性。通过对声学模型的建模，可以较有效地衡量语音的特征矢量序列和每一个发音模板之间的相似度，可以有助于判断该段语音的声学信息，即语音的内容。语者的语音内容都是由一些基本的语音单元组成，这些基本的语音单元可以是句子、词组、词、音节(syllable)、子音节(Sub-syllable)或者音素等。

由于语音信号的时变性、噪声和其它一些不稳定因素，单纯靠声学模型无法达到较高的语音识别的准确率。在人类语言中，每一句话的单词直接有密切的联系，这些单词层面的信息可以减少声学模型上的搜索范围，有效地提高识别的准确性，要完成这项任务，语言模型是必不可少的，它提供了语言中词之间的上下文信息以及语义信息。语言模型(Language Model，LM)具体可以包括N-Gram模型、马尔可夫N元模型(Markov N-gram)、指数模型(Exponential Models)、决策树模型(Decision Tree Models)等等。而N-Gram模型是最常被使用的统计语言模型，特别是二元语言模型(bigram)、三元语言模型(trigram)。

当然，应用本发明实施例，也可以在设备本地部署语音识别系统针对接收到的语音数据识别得到一个或多个文本信息，该文本信息可以具有对应的识别评分。

子步骤S23，显示所述文本信息。

在本发明实施例中，当接收到文本信息后，可以进行输入法界面显示处理。

在本发明实施例的一种优选示例中，所述语音数据可以包括一个或多个语音子数据，所述识别文本可以包括由所述一个或多个语音子数据识别出的一个或多个第一文本信息，步骤S23可以包括如下子步骤：

子步骤S231，当检测到指定按键的按下事件时，在当前界面显示所述一个或多个第一文本信息。

本发明实施例中，可以采用连续语音识别技术，将语音数据通过静音检测被划分为多个语音子数据，对于每个语音子数据，都可以通过声学模型和通过语言模型识别出多个候选识别文本，然后再通过用户语言模型重排序，再分别计算置信度。

而静音检测会可以按照时间顺序检测语音数据中存在的静音，将输入的语音数据根据语音数据中一定长度的静音进行了切分，分为了很多语音子数据。比如，语音数据为“我今天想吃面条[0.2秒静音]但是食堂没有卖面食的[0.3秒静音]我们出去吃吧”，静音检测会判断语音数据中的静音长度，然后按照一定的阈值(上例中选用0.15秒作为判定是否要切分语音数据的阈值)将上述语音切为3段语音子数据“我今天想吃面条”、“但是食堂没有卖面食的”“我们出去吃吧”。

其中，该第一文本信息可以为识别语音数据时识别评分最高的文本信息，可以优先在输入法界面显示。

例如，用户输入的语音数据，原话可以为“今天天气很好”，进行语义识别后，可以分别识别为“今天”、“天气”和“很好”，在当前输入法界面显示。

当然，本发明实施例中，也可以不进行文本信息的切分，即第一文本信息可以为语音数据所识别出的文本信息本身。

在本发明实施例的另一种优选示例中，所述识别文本还可以包括用于替换所述第一识别文本的一个或多个第二识别文本，步骤S23还可以包括如下子步骤：

子步骤S232，当所述第一识别文本被触发时，在当前界面显示所述第一文本信息对应的一个或多个第二文本信息。

在具体实现中，该第二文本信息可以为识别语音数据时识别评分比第一文本信息低的文本信息。

当用户点击输入法界面显示的第一文本信息后，输入法可以判断出光标当前位于哪一个区间(即第一文本信息)，并展示出该区间的其他候选结果(即第二文本信息)供用户选择。

例如，用户输入的语音数据，原话可以为“今天天气很好”，进行语义识别后，可以分别识别为“今天”、“天气”和“很好”，在当前输入法界面显示。当用户点击“今天”时，可以显示用于替代“今天”的“金田”、“金天”等词语。当用户点击“金田”时，则可以用“金田”替代“今天”。

在本发明的另一种优选实施例中，步骤103可以包括如下子步骤：

子步骤S31，在切换至所述语音输入模式后预设的采集时间，采集语音数据；

子步骤S32，输出所述语音数据。

本发明实施例中，可以直接输出所采集到的语音数据。

例如，用户之间可以采用即时通讯工具中进行交流，输入法可以当前用户发出的语音数据发送至对方，使得用户双方可以基于语音数据进行交流。

参照图4，示出了本发明的一种语音输入方法实施例2的步骤流程图，具体可以包括如下步骤：

步骤401，判断在非语音输入模式中是否监听到指定的操作事件；若是，则执行步骤402；若否，则执行步骤405；其中，所述指定的操作事件包括指定按键的长按事件、指定的滑动事件、指定的移动设备翻转事件、指定按键的双击事件、指定手势事件中的至少一种；

步骤402，切换至语音输入模式；

步骤403，在所述语音输入模式中进行语音输入处理；

步骤404，当监听到所述指定的操作事件结束时，切换至所述非语音输入模式；

在传统的输入法中，用户若要在非语音输入模式时进行语音输入，首先需要点击语音输入按键启动语音输入模式，然后进行语音输入。在语音输入完成后，若要再切回到非语音输入模式，则还需要点击退回键才能回到非语音输入模式，同样操作繁琐复杂，输入成本开销高。

在本发明实施例的一种优选示例中，步骤404可以包括如下子步骤：

子步骤S41，当监听到所述指定按键的松开事件时，切换至所述非语音输入模式。

在本示例中，可以通过覆盖ViewGroup类的onTouchEvent(MotionEventme)方法来监听屏幕的触摸事件，如按键的按下、滑动和松开等事件。

如果onTouchEvent方法监测到松开事件对应的按键是指定按键(例如空格键)，则表明用户已经松开了指定按键，表示当次语音输入已经结束，可以切换回非语音输入模式。

步骤405，执行按键输入操作、信息发送操作、图像导入操作、拍摄操作、位置信息导入操作、记录操作、用户信息导入操作、界面滚动操作、界面翻转操作中的至少一种。

本发明实施例中，若指定的操作事件为指定按键的长按事件、指定按键的双击事件时，而指定按键可以在非语音输入模式中，预设有除触发语音模式以外的功能，若没有监听到该指定的操作事件，则可以触发该指定按键预设有除触发语音模式以外的功能。

对于键盘能按键，则可以执行按键输入操作，输入该指定按键，包括空格键、确定键、字母键、数字键、符号键等等。例如，如果在指定的延迟时间内，监测到指定按键(例如空格键)的松开事件，即指定按键(例如空格键)被松开，那么可以认为未监听到指定按键(例如空格键)的长按事件，输入法将响应指定按键(例如空格键)的松开事件，删除之前发送的延迟消息，并在文本框响应该指定按键原有的功能(例如空格键对应的输入空格)。

对于功能按键，则可以执行信息发送操作，以在通讯中发送信息；或者，可以执行图像导入操作，以导入用户指定的图像；或者，可以执行拍摄操作，以启动摄像设备拍摄照片/录像；或者，可以执行位置信息导入操作，以导入用户当前的位置信息；或者，可以执行记录操作，以标记当前信息；或者，可以执行用户信息导入操作，以导入用户需要的用户信息，可以是当前用户的用户信息，也可以其他用户的用户信息；等等。

若指定的操作事件为指定的滑动事件、指定的手势事件时，若没有监听到该指定的操作事件，例如滑动事件的持续时间少于预设时间阈值、手势的轨迹不符合预设的轨迹等等，则可以认为该操作为普通的滑动操作，可以在非语音输入模式中，触发界面滚动操作。

若指定的操作事件为指定的移动设备翻转事件时，若没有监听到该指定的操作事件，例如移动设备的翻转的角度少于预设角度阈值等等，则可以认为该操作为普通的移动设备翻转操作，可以在非语音输入模式中，触发界面翻转操作。

当然，上述操作只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他操作，本发明实施例对此不加以限制。另外，除了上述操作外，本领域技术人员还可以根据实际需要采用其它操作，本发明实施例对此也不加以限制。

特别地，步骤405中的按键输入操作、信息发送操作、图像导入操作、拍摄操作、位置信息导入操作、记录操作、用户信息导入操作、界面滚动操作、界面翻转操作中的至少一种，也可以在除输入法以外的情景中执行，例如，在通讯工具中执行信息发送操作，以转发信息到对方用户，本发明实施例对此不加以限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明一种语音输入装置实施例1的结构框图，具体可以包括如下模块：

操作事件判断模块501，用于判断在非语音输入模式中是否监听到指定的操作事件；若是，则调用切换模块502；其中，所述指定的操作事件可以包括指定按键的长按事件、指定的滑动事件、指定的移动设备翻转事件、指定按键的双击事件、指定手势事件中的至少一种；

语音输入模式切换模块502，用于切换至语音输入模式；

语音数据处理模块503，用于在所述语音输入模式中进行语音输入处理。

在本发明的一种优选实施例中，所述操作事件判断模块501可以包括如下子模块：

松开事件判断子模块，用于判断在预设的延迟时间内是否监听到指定按键的松开事件；若否，则调用长按事件判断子模块；

在本发明实施例的一种优选示例中，所述按键触发子模块包括：

在本发明实施例的一种优选示例中，所述预设的延迟时间可以为N倍的按键时间；其中，所述按键时间为在先采集的，当前用户点击按键的平均按下时间，所述N为正数。

在本发明的一种优选实施例中，所述语音输入处理模块503可以包括如下子模块：

文本信息显示子模块，用于显示所述文本信息。

在本发明实施例的一种优选示例中，所述预设的采集时间可以为在先采集当前用户的，从监测到触控位置至采集到语音数据之间的平均时间。

在本发明实施例的一种优选示例中，所述语音数据可以包括一个或多个语音子数据，所述识别文本可以包括由所述一个或多个语音子数据识别出的一个或多个第一文本信息，所述文本信息显示子模块可以包括如下子模块：

在本发明实施例的一种优选示例中，所述识别文本还可以包括由所述一个或多个语音子数据识别出的，用于替换所述第一识别文本的一个或多个第二识别文本，所述文本信息显示子模块还可以包括如下子模块：

语音数据输出子模块，用于输出所述语音数据。

参照图6，示出了本发明一种语音输入装置实施例2的结构框图，具体可以包括如下模块：

操作事件判断模块601，用于判断在非语音输入模式中是否监听到指定的操作事件；若是，则调用切换模块602，若否，则调用原操作执行模块605；其中，所述指定的操作事件可以包括指定按键的长按事件、指定的滑动事件、指定的移动设备翻转事件、指定按键的双击事件、指定手势事件中的至少一种；

语音输入模式切换模块602，用于切换至语音输入模式；

语音输入处理模块603，用于在所述语音输入模式中进行语音输入处理；

非语音输入模式切换模块604，用于在监听到所述指定的操作事件结束时，切换至所述非语音输入模式；

原操作执行模块605，用于在非语音输入模式中未监听到指定的操作事件时，执行按键输入操作、信息发送操作、图像导入操作、拍摄操作、位置信息导入操作、记录操作、用户信息导入操作、界面滚动操作、界面翻转操作中的至少一种。

在本发明实施例的一种优选示例中，所述非语音输入模式切换模块604可以包括如下子模块：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音输入方法和一种语音输入装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音输入方法，其特征在于，包括：

判断在非语音输入模式中是否监听到指定的操作事件；

在所述语音输入模式中进行语音输入处理。

2.根据权利要求1所述的方法，其特征在于，所述判断在非语音输入模式中是否监听到指定的操作事件的步骤包括：

在非语音输入模式中触发触控位置对应按键的按下事件；

判断是否监听到指定按键的按下事件；

3.根据权利要求2所述的方法，其特征在于，所述在非语音输入模式中触发屏幕点击位置对应按键的按下事件的步骤包括：

查找触控位置对应的实际按键位置；

触发所述实际按键位置对应按键的按下事件。

4.根据权利要求2所述的方法，其特征在于，所述预设的延迟时间为N倍的按键时间；其中，所述按键时间为预先采集的，当前用户点击按键的平均按下时间，所述N为正数。

5.根据权利要求1或2或3或4所述的方法，其特征在于，所述在所述语音输入模式中进行语音输入处理的步骤包括：

获取根据所述语音数据所识别出的文本信息；

显示所述文本信息。

6.根据权利要求5所述的方法，其特征在于，所述预设的采集时间为在预先采集当前用户的，从监测到触控位置至采集到语音数据之间的平均时间。

7.根据权利要求5所述的方法，其特征在于，所述语音数据包括一个或多个语音子数据，所述识别文本包括由所述一个或多个语音子数据识别出的一个或多个第一文本信息，所述显示所述文本信息的步骤包括：

8.根据权利要求7所述的方法，其特征在于，所述识别文本还包括由所述一个或多个语音子数据识别出的，用于替换所述第一识别文本的一个或多个第二识别文本，所述显示所述文本信息的步骤还包括：

9.根据权利要求1或2或3或4所述的方法，其特征在于，所述在所述语音输入模式中进行语音输入处理的步骤包括：

输出所述语音数据。

10.根据权利要求1或2或3或4或6或7或8所述的方法，其特征在于，还包括：

11.根据权利要求10所述的方法，其特征在于，所述当监听到所述指定的操作事件结束时，切换至所述非语音输入模式的步骤包括：

12.根据权利要求1所述的方法，其特征在于，还包括：

13.一种语音输入装置，其特征在于，包括：

语音输入模式切换模块，用于切换至语音输入模式；

14.根据权利要求13所述的装置，其特征在于，所述操作事件判断模块包括：

15.根据权利要求14所述的装置，其特征在于，所述按键触发子模块包括：

16.根据权利要求14所述的装置，其特征在于，所述预设的延迟时间为N倍的按键时间；其中，所述按键时间为在先采集的，当前用户点击按键的平均按下时间，所述N为正数。

17.根据权利要求13或14或15或16所述的装置，其特征在于，所述语音输入处理模块包括：

文本信息显示子模块，用于显示所述文本信息。

18.根据权利要求17所述的装置，其特征在于，所述预设的采集时间为在先采集当前用户的，从监测到触控位置至采集到语音数据之间的平均时间。

19.根据权利要求17所述的装置，其特征在于，所述语音数据包括一个或多个语音子数据，所述识别文本包括由所述一个或多个语音子数据识别出的一个或多个第一文本信息，所述文本信息显示子模块包括：

20.根据权利要求19所述的装置，其特征在于，所述识别文本还包括由所述一个或多个语音子数据识别出的，用于替换所述第一识别文本的一个或多个第二识别文本，所述文本信息显示子模块还包括：

21.根据权利要求13或14或15或16所述的装置，其特征在于，所述语音输入处理模块包括：

语音数据输出子模块，用于输出所述语音数据。

22.根据权利要求13或14或15或16或18或19或20所述的装置，其特征在于，还包括：

23.根据权利要求22所述的装置，其特征在于，所非语音输入模式切换模块包括：

24.根据权利要求13所述的装置，其特征在于，还包括：