CN101825953A

CN101825953A - 一种语音输入和拼音输入相结合的中文输入法产品

Info

Publication number: CN101825953A
Application number: CN201010140487A
Authority: CN
Inventors: 朱建政
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-04-06
Filing date: 2010-04-06
Publication date: 2010-09-08

Abstract

本发明提供了一种语音输入和拼音输入相结合的中文输入法产品。该产品包括双缓存音频存储方案，用于采集和存储音频信号；端点检测和特征提取，用于对采样后的音频信号进行端点检测，来确定有效语音信号的起止帧，同时提取每一帧的语音的特征参数：线性预测倒谱系数；语音识别引擎，用于计算征参数与语音模板的距离；语音模板，用于语音识别和训练；用户界面，用于人机交互；有限状态机，用于决定在不同的拼音按键消息下发生的状态转移；音字转换引擎，用于把拼音转换成汉字，并按照高频先见的原则排列；系统挂接模块，用于保证输入法软件与应用程序之间的良好的通信。在用户使用语音输入功能的过程中，用户可以单独使用拼音输入功能或单独使用语音输入功能。用户可以通过拼音输入来限制搜索语音模板的范围，从而提高语音输入的识别率；用户可以通过拼音输入给出期望的汉语拼音方案中的音节，并且无需再次录音即可直接训练与期望的汉语拼音方案中的音节相对应的语音模板，从而产生更加适应用户发音的语音模板来提高语音输入的识别率。

Description

一种语音输入和拼音输入相结合的中文输入法产品

技术领域

本发明涉及中文输入法，尤其涉及移动电话中的中文输入法。

背景技术

无论是在PC机上还是在移动电话上，由于拼音输入法的简单易学等特点，超过一半的中文输入法用户使用拼音输入法。

而中文语音输入法是更为自然的输入方法。它通过语音识别和中文文本信息处理等技术来实现语音到文本的转换。由于语音输入存在应用场合等限制，中文语音输入法不可能完全替代其他输入法。另外，目前的中文语音输入法的识别率并不完美，并且还没有能够很好地解决识别带方言口音的普通话的问题。

发明内容

本发明的目的是为了给用户同时提供语音输入和拼音输入功能的中文输入法，并且可以通过拼音输入功能提高语音输入的识别率，还可以通过拼音输入功能来帮助解决识别带方言口音的普通话的问题。

为了实现上述目的，本发明提供了一种语音输入和拼音输入相结合的中文输入法产品。该产品从外部接收信号进行相应的处理，从而最终将接收信号转换为汉字。

其特征在于包括：

同时具有语音输入功能和拼音输入功能。

用户可以单独使用拼音输入功能。

用户可以单独使用语音输入功能。

上述产品中，在用户使用语音输入功能的过程中，用户可以通过拼音输入来限制搜索语音模板的范围，从而提高语音输入的识别率。

上述产品中，在用户使用语音输入功能的过程中，用户可以通过拼音输入给出期望的汉语拼音方案中的音节，并且无需再次录音即可直接训练与期望的汉语拼音方案中的音节相对应的语音模板，从而产生更加适应用户发音的语音模板来提高语音输入的识别率。

由于用户可以单独使用拼音输入功能，因此，该产品能符合拼音输入法用户的使用习惯。

由于用户可以通过拼音输入功能训练语音模板来适应用户发音，因此，该产品可以通过训练来识别用户带方言口音的普通话。

附图说明

图1是本发明的实施方式用于语音输入和拼音输入相结合的中文输入法的产品的开发环境。

图2是本发明的实施方式用于语音输入和拼音输入相结合的中文输入法的产品的流程图。

图3是本发明的实施方式用于语音输入和拼音输入相结合的中文输入法的产品的用户界面。

图4是本发明的实施方式用于语音输入和拼音输入相结合的中文输入法的产品的示意结构图。

具体实施方式

下面将结合附图对本发明的实施方式进行详细描述。

移动电话解决方案101是采用TI公司的OMAP850-201MHz智能手机解决方案。

操作系统102是采用微软公司的Windows 6 Professional CE智能手机操作系统。

中文输入法103是本发明的实施方式用于语音输入和拼音输入相结合的中文输入法的产品。为了更清楚的反映本发明的原理和实质，语音输入仅涉及汉语拼音方案中的404个单音节的孤立词的语音识别，每个孤立词只对应一个单音节，每一个单音节对应一个语音模板；拼音输入仅涉及汉语拼音方案中的404个单音节的单字输入，不包括多音节短语和整句输入。

应用程序104是文本编辑控件，它可以直接演示本发明的实施方式的结果。

图2是本发明的实施方式用于语音输入和拼音输入相结合的中文输入法的产品的流程图。该流程开始于步骤201，即从操作系统捕捉键盘事件。然后，在步骤202，Windows核心库处理消息。

在步骤203，针对键盘事件，判断系统消息的类型。当消息类型是拼音按键消息，则流程进入步骤204；当消息类型是录音按键消息，则流程进入步骤210；当消息类型是功能按键消息，则流程进入步骤214。

在步骤204，有限状态机根据不同的拼音按键消息发生状态转移或者保持原来的状态。有限状态机的每一个状态可对应一个或多个的拼音组合。

这里的拼音组合只限于汉语拼音的单音节字符串或者不完整的单音节字符串。

参见图3本发明的实施方式用于语音输入和拼音输入相结合的中文输入法的产品的用户界面。用户界面包含8个拼音键，分别是abc，def，ghi，jkl，mno，pqrs，tuv，wxyz。

在步骤205，根据有限状态机的状态，输出一个或多个拼音组合。用户可以从图3中的拼音显示窗口中选择某一个拼音组合。

在步骤206，判断是否处于录音状态。如果是的话，则流程进入步骤213；否则进入步骤207。

在步骤207，字音转换引擎把拼音转换成汉字，并按照高频先见的原则排列。

在步骤208，在拼音输入的情况下，拼音显示窗口显示有限状态机的当前状态下的一个或多个拼音组合；在语音输入的情况下，拼音显示窗口显示排序后的单音节序列。汉字显示窗口显示上述某个拼音组合所对应的按照高频先见原则下的汉字。

由于拼音显示窗口既可以显示拼音输入的结果，又可以显示语音输入的结果，这样的用户界面设计可以将语音输入和拼音输入紧密的结合起来。

在步骤209，对汉字显示窗口中的汉字进行选择，直接输入汉字到应用程序。

在步骤210，双缓存音频存储方案是使用两块内存进行音频的采集和存储。当某个内存装满时，系统就会发出MM_WIM_DATA消息，该消息处理函数马上更换另一块内存。这种方案的优点在于无需指定固定的录音时间，只要该消息处理函数检测到停止录音的条件，就可以自动停止录音，参见宋坤，刘锐宁，马文强所著，“Visual C++视频技术方案宝典”。

当用户按下录音键时，系统就会发出录音键消息，然后消息处理函数就会打开录音设备，并开始启动双缓存音频存储方案。当某个内存装满时，系统就会发出MM_WIM_DATA消息，该消息处理函数马上更换另一块内存进行录音，然后把这一块内存的数据读入缓冲区，再进入步骤211。

在步骤211，对缓冲区内的音频采样数据进行端点检测和特征提取。端点检测可以设置语音结束的标志。当某个内存装满时，系统就会发出MM_WIM_DATA消息。如果该消息处理函数没有检测到语音结束的标志时，那么该消息处理函数马上更换另一块内存继续录音，即转回步骤210；否则进入步骤212。

关于端点检测，参见ITU-T Rec.G.729，Annex B，A silence compression scheme for G.729 optimized forterminals conforming to ITU-T V.70.关于特征提取，采用了线性预测倒谱系数(LPCC)，参见L.R.Rabiner和B.-H.Juang所著“Fundamentals of Speech Recognition.”。

在步骤212，语音识别引擎利用DTW算法得到特征参数与语音模板的距离，参见L.R.Rabiner和B.-H.Juang所著“Fundamentals of Speech Recognition.”。

在步骤213，利用排序算法对各个语音模板与特征参数的距离进行排序。当有限状态机的状态为初始状态，即该状态不对应任何拼音组合，排序范围包括404个单音节对应的模板；当有限状态机的状态对应一个或多个拼音组合时，先通过字符串匹配的方法筛选出以该状态对应的拼音组合的字符串开头的单音节，然后对匹配的单音节对应的模板进行排序。这样就有效地限制搜索语音模板的范围，从而提高了语音识别的识别率。

在步骤214，判断是否是训练按键消息，参见图3中训练按键在用户界面上的位置。如果是的话，则流程进入步骤215；否则进入步骤217。

在步骤215，判断是否指定单音节并且已录音。如果是的话，则流程进入步骤216；否则进入步骤201。

在步骤216，由于指定了单音节，从而指定了语音模板。由于已录音，从而提取了特征参数。由于描述的语音输入仅涉及404个汉语单音节的孤立词，从而可以用特征参数直接替换原来的汉语单音节的语音模板。因此，用户可以通过拼音输入给出期望的单音节，并可以使用户无需再次录音即可直接训练与期望的单音节相对应的语音模板，从而产生更加适应用户发音的语音模板来提高语音输入的识别率。如果采用HMM模型的话，可以将原来的语音模板作为HMM训练时的初始参数，用提取的特征参数对HMM模型进行训练并更新语音模板，参见L.R.Rabiner和B.-H.Juang所著“Fundamentals of Speech Recognition.”。

在步骤217，对拼音组合或字的翻页进行处理。由于有限状态机的某个状态可能对应多个拼音组合，因此，需要选择拼音显示窗口内的拼音组合。在语音输入的情况下，拼音显示窗口会显示排序后的单音节序列，由于语音识别率还不能达到100％，因此，有时需要选择拼音显示窗口内的单音节。如果拼音显示窗口不能容纳对应的多个拼音组合，那么可以对拼音显示进行翻页处理。另外，由于汉语拼音中普遍存在同音字的现象，因此，需要选择汉字显示窗口内的汉字。如果汉字显示窗口不能容纳对应的多音字，那么可以对汉字显示进行翻页处理。

由图3和本发明的实施方式可知，该产品同时具有语音输入功能和拼音输入功能。

如果用户不使用录音和训练按键，那么用户也可以只用拼音按键和功能按键使用拼音输入功能，从而用户可以单独使用拼音功能。

如果用户不使用拼音按键，那么用户也可以只用录音按键和功能按键使用语音输入功能，从而用户可以单独使用语音输入功能。

录音设备401用于采集和存储音频信号，该产品中采用了8K采样率，16位，单声道的参数设置。当用户按压录音按键时，录音设备开始录音。该产品采用了双缓存音频存储方案录制音频信号，参见宋坤，刘锐宁，马文强所著，“Visual C++视频技术方案宝典”。

端点检测和特征提取402用于对采样后的音频信号进行端点检测，来确定有效语音信号的起止帧，并通过设置语音结束的标志停止录音设备。它还用于提取每一帧的语音的特征参数：线性预测倒谱系数，参见L.R.Rabiner和B.-H.Juang所著“Fundamentals of Speech Recognition.”。提取的特征参数可以用于语音识别和语音模板的训练。

语音识别引擎403用于计算征参数与语音模板的距离，该产品运用了DTW算法，参见L.R.Rabiner和B.-H.Juang所著“Fundamentals of Speech Recognition.”。

语音模板404用于语音识别和训练。在用户初次使用语音输入功能的情况下，该产品含有非特定人的普通话的语音模板，从而可以使用户无需事先训练即可使用语音输入功能。在用户使用语音输入功能的过程中，用户可以通过拼音组合408给出期望的单音节，端点检测和特征提取402给出特征参数，对相应的语音模板进行训练，从而产生更加适应用户发音的语音模板来提高语音输入的识别率。

汉语单音节排序405用于对各个语音模板与特征参数的距离进行排序得到相对应的汉语单音节的有序序列。当有限状态机的状态为初始状态，即该状态不对应任何拼音组合，排序范围包括404个汉语单音节；当有限状态机的状态对应一个或多个拼音组合时，仅对状态对应的拼音组合的字符串开头的汉语单音节进行排序。这样就有效地限制搜索语音模板的范围，从而提高了语音识别的识别率。这些单音节序列可以在用户界面上显示，也可以作为音字转换引擎的输入。

用户界面406用于人机交互，参见图3本发明的实施方式用于语音输入和拼音输入相结合的中文输入法的产品的用户界面。用户可以从图3中的拼音显示窗口中选择某一个拼音组合。用户可以从图3中的汉字显示窗口中选择某一个汉字。

有限状态机407用于决定在不同的拼音按键消息下发生的状态转移。有限状态机的每一个状态可对应一个或多个的拼音组合。参见图3本发明的实施方式用于语音输入和拼音输入相结合的中文输入法的产品的用户界面。用户界面包含8个拼音键，分别是abc，def，ghi，jkl，mno，pqrs，tuv，wxyz。

拼音组合408用于输出有限状态机在不同的状态下对应的拼音组合。这些拼音组合可以在用户界面上显示，可以用来限制搜索语音模板的范围，可以作为音字转换引擎的输入，也可以用来给出语音模板训练时期望的单音节。

音字转换引擎409用于把拼音转换成汉字，并按照高频先见的原则排列。

系统挂接模块410用于保证输入法软件与应用程序之间的良好的通信。

应用程序411是需要中文输入的程序，并且可以显示中文文本。

虽然以上描述了本发明的具体实施方式，但是语音输入技术领域和拼音输入技术领域的熟练技术人员应当理解，这些仅是举例说明，可以对这些实施方式做出多种变更或修改，而不会背离本发明的原理和实质。本发明的范围仅由权利要求书限定。

Claims

1.一种语音输入和拼音输入相结合的中文输入法产品。该产品从外部接收信号进行相应的处理，从而最终将接收信号转换为汉字。

其特征在于包括：

同时具有语音输入功能和拼音输入功能。

用户可以单独使用拼音输入功能。

用户可以单独使用语音输入功能。

2.根据权利要求1的中文输入法产品，其特征包括在用户使用语音输入功能的过程中，用户可以通过拼音输入来限制搜索语音模板的范围，从而提高语音输入的识别率。

3.根据权利要求1的中文输入法产品，其特征包括在用户使用语音输入功能的过程中，用户可以通过拼音输入给出期望的汉语拼音方案中的音节，并且无需再次录音即可直接训练与期望的汉语拼音方案中的音节相对应的语音模板，从而产生更加适应用户发音的语音模板来提高语音输入的识别率。