CN101377726A

CN101377726A - 语音识别和笔划识别相结合的输入方法及其终端

Info

Publication number: CN101377726A
Application number: CNA2007101462718A
Authority: CN
Inventors: 王珩; 周卫
Original assignee: Siemens Ltd China
Current assignee: Siemens Ltd China; Siemens AG; Siemens Ltd India
Priority date: 2007-08-31
Filing date: 2007-08-31
Publication date: 2009-03-04

Abstract

本发明涉及字符输入法领域，具体的将是一种语音和笔划相结合的输入方法及其终端，步骤1，接收用户的语音输入；步骤2，对所述语音输入进行语音识别，将匹配的文字结果作为语音候选文字序列进行显示，将该语音候选文字序列存储于存储器中；步骤3，接收用户的笔划输入；步骤4，对所述笔划输入进行笔划识别，在所述语音候选文字序列的文字范围内匹配所述笔划输入的识别结果，显示该识别结果，存储所述笔划输入的识别结果；步骤5，选择所述识别结果中的某个候选文字结果，将该第一笔划候选文字结果显示于屏幕中，并结束输入。本发明的有益效果在于，通过语音识别和笔划识别两种方式的交叉模态提高在移动终端上的文字输入速度和准确性。

Description

语音识别和笔划识别相结合的输入方法及其终端

技术领域

本发明涉及字符输入领域，具体的讲是语音识别和笔划识别相结合的输入方法及其终端。

背景技术

目前，移动终端和移动通信终端都能够输入文字，随着社会生活节奏的加快，就更需要在移动终端和移动通信终端上进行更加快速的文字输入。通常，可以通过语音输入或者笔划识别来进行文字信息的输入。

但是目前有很多原因阻碍语音识别技术的发展，例如：说话者的第一语言对该说话者的第二语言有一定的不利影响，一般来说第一语言为当地带口音的语言，例如方言；第二语言为不带口音的语言，例如普通话。由于方言的影响，使说话者在说第二语言时会产生发音不准的问题。由于地域的不同和民族的不同，口音和方言的存在，使语音识别十分困难，在语音识别中构造数目庞大的识别单词库是一种解决办法，但是单词库的增大一方面对于嵌入式设备的存储能力是一种挑战，另一方面由于搜索网络过于庞大，导致系统效率下降，从而也会影响识别的准确性。近年来在语音识别技术上有了很大的发展，但是依然无法使操作者完全信任语音识别技术。

如果在现有语音识别系统中输入具有口音的普通话，那么就会使识别结果有很大的不确定性。现有技术中也具有一些能够部分克服上述不足的方案，可以通过例如中国专利95195955.7一种语音识别所述，通过记录使用者的发音特征来对语音信息进行识别。但是对于每个不同的使用者来说，在具有较重口音的情况下，使用上述语音识别方案的结果还不是很理想。

另一方面，噪音的干扰使得语音识别结果也不是十分的理想。在实验室开发的语音识别系统，在现实环境中例如，应用于移动通信终端，应用于火车站、汽车等，会比在实验室中的识别效果差很多。造成上述识别效果不佳的原因在于，真实环境中不可预测的噪音会使采集的语音数据与预先在语音识别系统中训练的语音数据不匹配。

目前的语音识别系统都是嵌入式的系统结构，作为终端输入的一种方式，例如在手机上增加语音识别系统用于文字输入，但是由于语音识别的效果并不够理想，所以候选文字结果太多，使得输入效率不高。

另一种移动终端的输入方式为手写或者通过键盘的笔划输入，其中中文字符的手写输入识别可以被分为两类，一类是在线的手写输入识别，另一种是线下手写输入识别(OCR：光学字符识别)，其中后一种主要用于扫描识别。对于第一种手写输入识别技术来说，需要一种特殊的界面用于文字的输入，该界面收集用户输入的笔划顺序，方向和形状信息，并将该信息传送给与其相联接的计算机，由计算机对用户的输入进行分析并最终输出与用户输入笔划相近的中文字符。目前有很多手写识别技术，例如中国专利98106953.3一种手写汉字识别方法及装置中所述，针对用户每一笔的输入进行识别和匹配，用户不需要输入文字的全部笔划就可以匹配出希望的文字。但是目前的笔划输入识别技术中存在以下问题：中文字符数量比较多，常用的大概3000-4000个，汉字编码的国家标准GB2312-80包括6763个字符；每个中文字符都有不同的字体，每个中文字符都有相对比较复杂的结构，平均每个字符都有很多笔划组成，最多的字符甚至具有36个笔划，完全按照笔划进行识别的识别率并不是很高，影响其广泛的应用。并且不同意义的中文字符可能具有相近的结构，例如，“”人、“入”，“已”、“己”、“巳”等等。书写中文字符时笔划的变形，例如笔划点写成笔划捺等；字体结构的扭曲，例如“曰”字写成“日”字等；草书等字体，都会影响字符的识别。

发明内容

本发明为了解决以上现有技术中的不足，提供了一种语音和笔划相结合的输入方法，避免了因为用户的读音错误或不准导致输入的效率低的问题，并且能够提高输入准确度。

本发明提供一种语音和笔划相结合的输入终端，使用户在移动终端上输入的速度和准确性得到很大提高。

语音输入和笔划输入相结合的文字输入方法，包括，

步骤1，接收用户的语音输入信息；还包括，

步骤2，对所述语音输入信息进行语音识别，在语音数据库中匹配所述语音输入信息的识别结果，将所有匹配的文字结果作为语音候选文字序列进行显示，将该语音候选文字序列存储于存储器中；

步骤3，接收用户的至少一个笔划输入信息；

步骤4，对所述笔划输入信息进行笔划识别，在所述语音候选文字序列的文字范围内用所述笔划来匹配所述笔划输入信息的识别结果，将匹配的文字结果作为笔划候选文字序列进行显示；

步骤5，如果用户选择所述笔划候选文字序列中的某个候选文字结果，则将该候选文字结果显示于屏幕中，并结束输入。

根据本发明方法一个进一步的方面，在所述步骤5中，如果笔划候选文字序列中没有用户想要的文字结果，则进行

步骤6，进行重新输入提示，并从存储器中调取所述语音候选文字序列，然后重复进行步骤3至5。

根据本发明方法另一个进一步的方面，在所述步骤4中，还包括对所述笔划输入信息的识别结果加以存储。

根据本发明方法另一个进一步的方面，在所述步骤5中，如果笔划候选文字序列中没有用户想要的文字结果，则进行重新输入提示，并从存储器中调取所述笔划输入信息的识别结果，用该识别结果在字形数据库内进行匹配，将所有匹配文字结果作为一个更新的笔划候选文字序列进行显示；然后，

接收用户的再次语音输入信息；接着，

对所述再次语音输入信息进行语音识别，在语音数据库中匹配所述再次语音输入信息的识别结果，然后，利用该识别结果在所述更新的笔划候选文字序列的范围内进行匹配，将相互匹配的文字显示出来，再次提供给用户选择。

根据本发明方法另一个进一步的方面，在所述步骤4中，在所述语音候选文字序列的文字范围内匹配所述笔划输入信息的识别结果包括，将所述语音候选文字序列中的文字转换成具有笔划特征的数据，并与所述笔划输入信息的识别结果相比较和匹配，从中筛出具有共同笔划特征的文字作为匹配结果。

根据本发明方法另一个进一步的方面，在所述更新的笔划候选文字序列的范围内匹配所述用户的再次语音输入信息的识别结果包括，将所述更新的笔划候选文字序列中的文字转换成具有语音特征的数据，并与所述再次语音输入信息的识别结果相比较和匹配，从中筛出具有共同语音特征的文字作为匹配结果。

语音输入和笔划输入相结合的文字输入方法，包括，

步骤1，接收用户的笔划输入信息；还包括，

步骤2，对所述笔划输入信息进行笔划识别，在字形数据库中匹配所述笔划输入信息的识别结果，将所有匹配的文字结果作为笔划候选文字序列进行显示，将该笔划候选文字序列存储于存储器中；

步骤3，接收用户的至少一个语音输入信息；

步骤4，对所述语音输入信息进行语音识别，在所述笔划候选文字序列的文字范围内匹配所述语音输入信息的识别结果，将所有匹配的文字结果作为语音候选文字序列进行显示，存储所述语音输入信息的识别结果；

步骤5，如果用户选择所述语音候选文字序列中的某个候选文字结果，则将该候选文字结果显示于屏幕中，并结束输入。

根据本发明方法一个进一步的方面，在所述步骤5中，如果候选文字结果中没有用户想要的文字结果，则进行步骤6，进行重新输入的提示，并从存储器中调取所述笔划候选文字序列，然后重复进行步骤3-5。

根据本发明方法一个进一步的方面，在所述步骤5中，如果候选文字结果中没有用户想要的文字结果，则进行重新输入的提示，并判断用户重新输入的方式，

如果选择重新进行语音输入，则从存储器中调取所述笔划候选文字序列，然后重复进行步骤3-5；

如果选择重新进行笔划输入，则从存储器中调取所述语音输入信息的识别结果，用该识别结果在语音数据库内进行匹配，将所有匹配文字结果作为一个更新的语音候选文字序列进行显示；然后，接收用户的再次笔划输入信息；接着，对所述再次笔划输入信息进行笔划识别，利用该识别结果在所述更新的语音候选文字序列的范围内进行匹配，将相互匹配的文字显示出来，再次提供给用户选择。

根据本发明方法另一个进一步的方面，在所述步骤4中，在所述笔划候选文字序列的文字范围内匹配所述语音输入信息的识别结果包括，将所述笔划候选文字序列中的文字转换成具有语音特征的数据，并与所述语音输入信息的识别结果相比较和匹配，从中筛选出具有共同语音特征的文字作为匹配结果。

根据本发明方法另一个进一步的方面，在所述更新的语音候选文字序列的范围内进行匹配包括，将所述更新的语音候选文字序列中的文字转换成具有笔划特征的数据，并与所述再次笔划输入信息的识别结果相比较和匹配，从中筛出具有共同笔划特征的文字作为匹配结果。

一种语音输入和笔划输入相结合的文字输入终端，包括，笔划输入单元；笔划识别模块，连接于所述笔划输入单元，识别用户的笔划输入信息；字形数据库，连接于所述笔划识别模块，用于存储文字的笔划识别特征；存储器；显示单元；还包括：

一语音输入单元，用于接收用户的语音输入信息；

一语音识别模块，连接于所述语音输入单元，用于将上述的语音输入信息转换成为相应的字符串并加以识别；

一语音数据库，连接于所述语音识别模块，用于存储文字的语音识别特征；

所述存储器与所述处理单元相连接，用于存储所有识别、匹配文字结果；

一处理单元，用于在语音候选文字序列的文字范围内对所述笔划输入信息的识别结果进行匹配；或者，在笔划候选文字序列的文字范围内对所述语音输入信息的识别结果进行匹配；所述处理单元将所有匹配的文字结果传送到所述显示单元。

根据本发明装置一个进一步的方面，所述语音输入单元为麦克风，所述笔划输入单元为手写板或键盘。

本发明的有益效果在于，通过语音识别和笔划识别两种方式的交叉模态提高在移动终端上的文字输入速度和准确性。

附图说明

图1为本发明先语音再笔划的输入方法流程图；

图2为本发明对输入的数据进行修改的方法流程图；

图3为本发明输入终端的结构示意图；

图4A、B为本发明先语音再笔划的输入方法实施例示意图。

具体实施方式

下面，结合附图对于本发明进行如下详细说明。

图1为本发明方法流程图，步骤1，用户通过语音输入单元进行语音输入步骤；步骤2，语音识别模块识别用户的语音输入，根据语音数据库进行匹配，生成语音候选文字序列，存储并显示出该语音候选文字序列；如果用户选择了某个候选文字结果(文字或句子)则将所述候选文字结果输出到屏幕中的文本框内，并结束本次输入，如果用户继续输入则进入步骤3；步骤3，用户通过笔划输入单元进行笔划输入；步骤4，笔划识别模块识别所述笔划输入，处理单元在所述语音候选文字序列的范围内对笔划输入进行匹配，显示作为匹配结果的笔划候选文字序列，优选的存储笔划输入的识别结果；步骤5，判断用户是否选择了笔划候选文字序列中的候选文字结果，如果选择了某个候选文字结果，则将该候选文字结果输出到屏幕中的文本框内，并结束本次输入，如果候选文字结果中没有用户想要的结果，则进入步骤6；步骤6，提示用户进行重新输入。

如图2所示为本发明对输入后的数据进行修改的方法流程图，如果用户选择重新输入，步骤7，判断用户选择，要求重新进行语音输入或者重新进行笔划输入。如果用户选择重新进行笔划输入，则进入步骤8，从存储器中获得所述语音候选文字序列，进行步骤3-5。如果用户选择重新进行语音输入，则进行步骤9；步骤9，从存储器中调取所述笔划输入的识别结果，所述笔划识别模块在笔划数据库内对所述笔划输入进行匹配，将匹配的文字结果作为更新的笔划候选文字序列，显示该更新的笔划候选文字序列，该更新的笔划候选序列与语音输入没有关系，是根据笔划输入生成的。步骤10，通过所述语音输入单元再次接收用户的输入。步骤11，所述语音识别模块识别所述再次输入，处理单元在所述更新的笔划候选文字序列的范围内对所述用户的再次输入的识别结果进行匹配，显示匹配的文字结果并结束本次输入步骤。

在本发明方法中，优选的首先进行手写输入，再进行语音输入。

如图3所示为本发明输入终端的结构示意图，以首先进行手写输入，再进行语音输入的过程为例进行说明。包括麦克风，用于采集语音数据；语音识别模块，用于识别语音数据；语音数据库，用于语音识别的数据库；存储器，与处理单元相连接，用于存储语音识别结果，和笔划识别结果；手写板，用于采集用户手写输入笔划数据；笔划识别模块，用于笔划的识别；字形数据库，用于笔划识别的数据库；显示单元，用于显示文本输入框，语音识别结果，笔划识别结果；处理单元，用于在语音候选文字序列的文字范围内对笔划输入信息的识别结果进行匹配；或者，在笔划候选文字序列的文字范围内对语音输入信息的识别结果进行匹配；处理单元将所有匹配的文字结果传送到显示单元。所述麦克风与所述语音识别模块相连接，语音识别模块与所述语音数据库相连接，所述语音识别模块与所述处理单元相连接，所述处理单元与所述存储器相连接，所述处理单元还与所述笔划识别模块相连接，所述笔划识别模块与所述手写板相连接，所述笔划识别模块与所述字形数据库相连接，所述处理单元还与显示单元相连接。当用户要在移动终端显示单元的文本框内进行文字输入时，用户通过手写板输入笔划信息，笔划识别模块对所述笔划识别，根据字形数据库进行匹配，筛选出有限个候选文字结果，构成笔划候选文字序列，将所述笔划候选文字序列存储于存储器中，并显示在移动终端显示屏上的文字候选区内；用户通过移动终端的键盘或者其它输入装置选择所述显示屏上的候选文字结果，如果选择了某个识别结果则将该结果显示到所述文本框内，并结束本次输入；当用户没有选择任何候选文字结果，还可以通过麦克风进行语音输入，移动终端的语音处理模块对所述语音信息进行识别，将所述语音输入的识别结果存储于存储器内，处理单元在存储器所述笔划候选文字序列的范围内匹配用户的语音识别结果，例如，处理单元利用语音识别模块将笔划候选文字序列中的文字转换成具有语音划识别特征的数据，将语音输入识别结果与具有语音识别特征的笔划候选文字序列中的文字进行匹配，找出首先形似再音似的最终候选文字结果；将经过语音识别后的第一语音候选文字序列显示在显示屏的候选文字区内，用户通过移动终端的键盘或者其它输入装置选择所述显示屏上的候选文字结果，如果选择了某个识别结果则将该结果显示到所述文本框内，如果候选文字结果中没有用户希望的数据则提示用户重新输入语音或者重新输入笔划。所述笔划识别模块可以是现有的笔划识别模块，也可以是现有按键输入笔划的笔划识别模块。

其中，手写输入可以是逐笔划的识别匹配，即，用户每输入一笔就在字形数据库中进行识别匹配，随着用户输入笔划的增多识别的结果就越接近用户希望的文字。

如果用户选择了重新输入笔划，则说明用户的语音输入可能是正确的。此时，语音识别模块重新根据存储器中的语音识别结果查找语音数据库生成多个候选文字结果，构成更新的语音候选文字序列，显示在屏幕上的文字候选区内，当用户再次输入笔划数据时，处理单元在所述语音识别产生的更新的语音候选文字序列范围内匹配用户的笔划识别结果，例如，处理单元利用笔划识别模块将所述更新的语音候选文字序列中的文字转换成具有笔划识别特征的数据，将再次笔划输入的识别结果与所述具有笔划识别特征的更新语音候选文字序列中的文字进行匹配，将匹配的文字组成笔划候选文字序列，将该新的笔划候选文字序列显示在显示屏上，以供用户选择输入到屏幕上的文本框内。

如果用户选择重新输入语音，则说明用户的笔划输入可能是正确的。此时，删除存储器中的语音信息，重新识别用户的语音输入，在由笔划识别出的原有笔划候选文字序列的范围内进行语音匹配，最后获得希望的文字。

如图4A-B所示为本发明按照先语音输入再笔划输入的顺序进行语音和笔划识别的实施例图。用户想要输入“我和你”，用户首先通过语音输入“我”的语音信息，麦克风接收到用户语音信息后再经过语音识别模块的识别，在语音数据库中进行匹配，找到如图4A所示的多个读音为“wo”的汉字，形成语音候选文字序列，并将所述语音候选文字序列存储于存储器内，如果“我”字没有出现在当前屏幕的候选文字中，例如出现在第二页的候选文字中，则用户继续通过手写板进行输入，用户输入“丿”，如图4B所示，存储该笔划数据，处理单元通过笔划识别模块结合字形数据库获得语音候选序列中文字的笔划特征数据，即在上述两页的语音候选文字序列的笔划特征数据中匹配第一笔划是“丿”的文字，可能选出几个开始笔划是“丿”的汉字，形成笔划候选文字序列，然后用户再输入一笔“一”，存储该笔划数据，在所述笔划候选文字序列范围内进一步匹配，将笔划候选文字序列中文字的第二笔划为“一”的文字列出，在本例中只有“我”字符合上述匹配，作为结果显示在屏幕的候选文字区域内，用户选择该文字显示到屏幕的文字区域内并结束本次文字输入，清空存储器中的关于语音候选序列和笔划的数据，回收存储器空间。下一个要输入“和”字的语音信息，语音识别模块从语音数据库中匹配出若干个识别结果，构成语音候选序列，并将所述语音候选文字序列存处于存储器中，如果“和”字已经出现在当前的屏幕上，则直接选择该文字的标号，将“和”字显示到屏幕的文字区域内，然后清空存储器中的关于语音候选序列和笔划的数据，回收存储器空间。下一个输入为“你”，用户通过麦克风输入“你”字的语音信息，在语音数据库中进行匹配产生语音候选文字序列，并将所述语音候选文字序列存储于存储器中，在本例中，用户输入的不是标准的语音，产生的语音候选文字序列与“你”字相差很远，用户再输入笔划时，输入“丿”后再输入“丨”等几个“你”字的笔划信息，将这些笔划信息存储于存储器中，在屏幕上的候选区内没有发现相应的“你”字出现，此时用户可以选择删除存储器中的语音候选文字序列，直接对笔划输入进行识别，在处理单元的控制下笔划识别模块从存储器中获得存储的笔划信息，在字形数据库中对所述笔划信息进行文字识别，在候选区列出新的候选序列；或者用户选择重新输入语音，此时删除所述存储器中的语音候选文字序列，并对所述存储的笔划信息在字形数据库中进行匹配，重新生成笔划候选文字序列，由用户再次输入语音信息，在所述新的笔划候选文字序列的范围内匹配读音，找出与读音相符的语音候选文字序列，显示在屏幕中的文字候选区中，以供用户选择确定。用户在屏幕上的所述文字候选区中选择一个本次识别结果的文字作为信息输入，即，将“你”字输入到文本框内，作为短信息或者其他应用的内容，然后清空存储器中的关于语音候选序列和笔划的数据，回收存储器空间。

以上具体实施方式仅用于说明本发明，而非用于限定本发明。

Claims

1.语音输入和笔划输入相结合的文字输入方法，包括，

步骤1，接收用户的语音输入信息；其特征在于还包括，

步骤3，接收用户的至少一个笔划输入信息；

2.根据权利要求1所述的文字输入方法，其特征在于，在所述步骤5中，如果笔划候选文字序列中没有用户想要的文字结果，则进行

3.根据权利要求1所述的文字输入方法，其特征在于，在所述步骤4中，还包括对所述笔划输入信息的识别结果加以存储。

4.根据权利要求3所述的文字输入方法，其特征在于，在所述步骤5中，如果笔划候选文字序列中没有用户想要的文字结果，则进行重新输入提示，并从存储器中调取所述笔划输入信息的识别结果，用该识别结果在字形数据库内进行匹配，将所有匹配文字结果作为一个更新的笔划候选文字序列进行显示；然后，

接收用户的再次语音输入信息；接着，

5.根据权利要求1或2所述的文字输入方法，其特征在于，在所述步骤4中，在所述语音候选文字序列的文字范围内匹配所述笔划输入信息的识别结果包括，将所述语音候选文字序列中的文字转换成具有笔划特征的数据，并与所述笔划输入信息的识别结果相比较和匹配，从中筛出具有共同笔划特征的文字作为匹配结果。

6.根据权利要求4所述的文字输入方法，其特征在于，在所述更新的笔划候选文字序列的范围内匹配所述用户的再次语音输入信息的识别结果包括，将所述更新的笔划候选文字序列中的文字转换成具有语音特征的数据，并与所述再次语音输入信息的识别结果相比较和匹配，从中筛出具有共同语音特征的文字作为匹配结果。

7.语音输入和笔划输入相结合的文字输入方法，包括，

步骤1，接收用户的笔划输入信息；其特征在于还包括，

步骤3，接收用户的至少一个语音输入信息；

8.根据权利要求7所述的文字输入方法，其特征在于，在所述步骤5中，如果候选文字结果中没有用户想要的文字结果，则进行步骤6，进行重新输入的提示，并从存储器中调取所述笔划候选文字序列，然后重复进行步骤3-5。

9.根据权利要求7所述的文字输入方法，其特征在于，在所述步骤5中，如果候选文字结果中没有用户想要的文字结果，则进行重新输入的提示，并判断用户重新输入的方式，

10.根据权利要求7或8所述的文字输入方法，其特征在于，在所述步骤4中，在所述笔划候选文字序列的文字范围内匹配所述语音输入信息的识别结果包括，将所述笔划候选文字序列中的文字转换成具有语音特征的数据，并与所述语音输入信息的识别结果相比较和匹配，从中筛选出具有共同语音特征的文字作为匹配结果。

11.根据权利要求9所述的文字输入方法，其特征在于，在所述更新的语音候选文字序列的范围内进行匹配包括，将所述更新的语音候选文字序列中的文字转换成具有笔划特征的数据，并与所述再次笔划输入信息的识别结果相比较和匹配，从中筛出具有共同笔划特征的文字作为匹配结果。

12.一种语音输入和笔划输入相结合的文字输入终端，包括，笔划输入单元；笔划识别模块，连接于所述笔划输入单元，识别用户的笔划输入信息；字形数据库，连接于所述笔划识别模块，用于存储文字的笔划识别特征；存储器；显示单元；其特征在于还包括：

一语音输入单元，用于接收用户的语音输入信息；

13.根据权利要求12所述的输入终端，其特征在于，所述语音输入单元为麦克风，所述笔划输入单元为手写板或键盘。