CN101577115A

CN101577115A - 语音输入系统及其方法

Info

Publication number: CN101577115A
Application number: CNA2008100961658A
Authority: CN
Inventors: 叶耿宏; 黄良声; 黄昭仁; 沈家麟
Original assignee: Delta Optoelectronics Inc
Current assignee: Delta Electronics Inc; Delta Optoelectronics Inc
Priority date: 2008-05-09
Filing date: 2008-05-09
Publication date: 2009-11-11

Abstract

本发明公开了一种语音输入系统及其方法。该语音输入方法包含下列步骤：通过多个输入键中的一个发送一输入值而启动一语音识别程序，其中该输入值与一语音识别对象中的一个参数相关联；提供一语音与一语音识别搜索空间，其中该语音识别搜索空间是由一语音识别模块建构的，而该语音识别对象与该语音识别模块相关联；根据该参数取得该语音识别搜索空间中的一个相应的子语音识别搜索空间；根据该语音识别程序从该子语音识别搜索空间中识别出与该语音相关联的至少一个候选语句；显示该候选语句。

Description

语音输入系统及其方法

技术领域

本发明涉及一种语音输入系统及其方法，尤其涉及一种应用在手持装置上的语音输入系统及其方法。

背景技术

利用语音识别来进行文字输入是当今手持装置上一个非常重要的功能，例如：行动搜索与口授(Dictation)等应用都可直接或间接地通过语音输入来完成。

图1所示为一种在手持装置上进行语音输入的常用流程图。现有的语音输入流程往往要由使用者先启动一语音输入法(步骤10)，接着必须按住某一特定的语音识别键(步骤11)，如一录音键，随后才可输入一语音(步骤12)以进行语音识别(步骤13)。该手持装置在由声学模块(AcousticModel)、词汇模块(Lexical Model)以及语言模块(Language Model)所构成的语音识别搜索空间中搜索出最适合的识别结果，并列出所有可能的候选字词(步骤14)以供该使用者通过上下键逐一选取(步骤15)。若所列出的候选字词确实有该使用者所需要的字词则可选取以显示该字词(步骤16)；否则，若其中所列的候选字词均无可选取的字词，则必须再次重新输入语音(步骤12)以再次进行语音识别(步骤13)。现在常用的进行语音识别的搜索算法是维特比搜索(Viterbi Search)。

此外，对于手持装置上的现行语音输入系统，由于技术瓶颈、环境嘈杂等使用环境变异性较大的原因，使得其语音识别率比起计算机要略低，因此语音输入系统多半会提供多个候选字词让使用者进行筛选。若候选字词过多或使用者所期望的结果排在很后面，则筛选过程往往会造成时间的浪费与不愉快的使用经历。

而一般语音识别的错误可分为插入型错误(Insertion)、删除型错误(Deletion)及替代型错误(Substitution)三种。如不能为语音输入系统提供更多的筛选搜索空间上的限制或其它有效提高识别率的方法以降低上述三种错误，则该系统筛选出的候选字词往往会含有许多错误的选项。例如要输入的是二字词，却出现一堆非二字词的候选字词，这将耗费使用者许多选取的时间。更有甚者，还会碰到连真正要选的选项都不在候选字词中的情况，此时只能要求使用者重新语音输入，徒然增加使用者的困扰。

发明内容

本发明的主要目的在于为手持装置提供一种语音输入系统及其方法，通过将一语音识别键与一筛选条件键结合，以在启动一语音识别程序的同时即提供了与语音识别模块中的一个参数相关联的初步筛选，可缩小语音识别搜索空间，并据此有效提升该语音识别程序的识别精确度，并可以降低插入型错误、删除型错误和替代型错误。

本发明的另一目的在于提供一种语音输入系统及其方法，其可提供一再筛选机制，以在经过语音识别程序产生适合的语音识别结果后，还可以采用多种不同的筛选条件对上述语音识别结果进行进一步筛选，从而使识别结果更准确，也能有效减少按键数，大幅缩短使用者所耗费的时间。

本发明的又一目的在于提供一种语音输入方法，其包含下列步骤：A、通过多个输入键中的一个发送一输入值而启动语音识别程序，所述输入值与语音识别对象中的一个参数相关联；B、提供一语音与一语音识别搜索空间，所述语音识别搜索空间由一语音识别模块建构，所述语音识别模块与所述语音识别对象相关联；C、根据所述参数得到所述语音识别搜索空间中一相应的子语音识别搜索空间；D、根据所述语音识别程序从所述子语音识别搜索空间中识别出与所述语音相关联的至少一个候选语句；E、显示所述候选语句。

进一步地，所述语音输入方法还可具有以下特征：

步骤E之后还包含一步骤F、发送另一输入值对所述候选语句进行进一步筛选。

进一步地，所述语音输入方法还可具有以下特征：

所述另一输入值与所述语音识别对象中的另一参数相关联，或者与不同于所述语音识别对象的另一语音识别对象中的一个参数相关联。

进一步地，所述语音输入方法还可具有以下特征：

所述语音识别模块中包含一声学模块、一词汇模块。此外，还可包括一语言模块。

进一步地，所述语音输入方法还可具有以下特征：

所述候选语句选自一单字、一词组或一句子；

本发明的又一目的为提供一种语音输入系统，其包含一输入模块，具有至少一输入键，通过所述输入键发送一第一输入值；一语音供应模块，用于提供一语音；一语音识别搜索空间，其由一语音识别模块建构；一对照表，其中含有多个输入值与对应于一语音识别对象的多个参数，其中所述语音识别对象关联于所述语音识别模块；一处理模块，用于根据所述第一输入值从所述对照表中选取所述语音识别对象中的一第一参数，并根据所述第一参数从所述语音识别搜索空间中取得一相应的子语音识别搜索空间，且通过语音识别从所述子语音识别搜索空间中识别出与所述语音对应的至少一个候选语句；以及一输出模块，用于显示所述候选语句。

进一步地，所述语音输入系统还可具有以下特征：

所述处理模块还用于接收一第二输入值，并根据其对所述候选语句进行进一步的筛选。

进一步地，所述语音输入系统还可具有以下特征：

所述第二输入值与所述语音识别对象中的一个第二参数相关联，而所述第一输入值与所述第二输入值相同或不同。此外，所述对照表中还具有与不同于所述语音识别对象的另一语音识别对象相对应的多个参数，而所述第二输入值与所述另一语音识别对象中的一个相应参数相关联。

进一步地，所述语音输入系统还可具有以下特征：

所述语音识别对象与特定字数、特定音节数或特定数目的连词相关联，所述多个参数为多个数字码。

进一步地，所述语音输入系统还可具有以下特征：

所述语音识别对象与输入法相关联，所述输入法包括注音输入法、拼音输入法、字根输入法、笔划输入法和声调输入法中的任意一个，所述多个参数为所述输入法中的多个对应代码。

进一步地，所述语音输入系统还可具有以下特征：

所述语音识别对象与男声或女声相关。

进一步地，所述语音输入系统还可具有以下特征：

所述语音识别对象与选自粗糙或精密声学模块或抗噪与否声学模块相关联。

进一步地，所述语音输入系统还可具有以下特征：

所述语音识别对象为与特定领域应用相关联的特定句型。

进一步地，所述语音输入系统还可具有以下特征：

所述处理模块还用于根据所述第一输入值而启动语音识别功能。

进一步地，所述语音输入系统还可具有以下特征：

所述输入模块为一键盘、一虚拟键盘或一触摸板。

进一步地，所述语音输入系统还可具有以下特征：

所述语音供应模块为一语音输入装置或一语音储存装置。

本发明的又一目的为提供一种应用在手持装置上的语音输入方法，包括下列步骤：A、提供基于一语音识别模块的一语音识别搜索空间；B、接收关联于所述语音识别模块的一输入参数，根据所述输入参数取得所述语音识别搜索空间中的一个相应子语音识别搜索空间；C、接收一语音，并通过语音识别从所述子语音识别搜索空间中识别出与所述语音相关联的至少一个候选语句；D、显示所述候选语句。

进一步地，所述语音输入方法还可具有以下特征：

所述语音识别模块中含有多个语音识别对象，而所述输入参数与所述多个语音识别对象中的一个特定语音识别对象相对应。

进一步地，所述语音输入方法还可具有以下特征：

步骤D之后还包括一步骤E、接收一另一输入参数，对所述候选语句进行进一步筛选。

进一步地，所述语音输入方法还可具有以下特征：

所述另一输入参数与所述特定语音识别对象相对应或与不同于所述特定语音识别对象的一个语音识别对象相对应。

本发明的又一目的为提供一种语音输入方法，用于在由一语音识别模块所建构出的一语音识别搜索空间中搜索出至少一个候选语句，包括下列步骤：A、接收关联于所述语音识别模块的一个输入参数，取得所述语音识别搜索空间中的一个相应子语音识别搜索空间；B、接收一语音，并通过语音识别从所述子语音识别搜索空间中识别出与所述语音关联的至少一个候选语句；C、显示所述候选语句。

进一步地，所述语音输入方法还可具有以下特征：

步骤C之后还包含一步骤D、接收一另一输入参数，并根据所述另一输入参数对所述候选语句进行进一步筛选。

综上所述，与现有技术相比，本发明提供了更直觉流畅的操作方式，有效地缩小了语音识别搜索空间并提升了语音识别率，同时也缩短使用者所耗费的时间。

附图说明

图1为现有技术中在手持装置上进行语音输入法的流程图；

图2为本发明实施例中语音输入系统的配置图；

图3为本发明实施例中语音输入法的流程图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行更详细的说明。

图2所示为本发明所提供的语音输入系统的架构示意图。该语音输入系统包含一输入模块20、一语音供应模块21、一语音识别搜索空间22、一对照表23、一处理模块24以及一输出模块25。

其中，输入模块20具有多个输入键，每一输入键对应一输入值。语音供应模块21用于为处理模块24提供一语音，而语音识别搜索空间22是由一语音识别模块而建构出来的。对照表23中有多个输入值及与一语音识别对象相对应的多个参数，而该语音识别对象与语音识别模块相关联。此外，处理模块24还与输入模块20、语音供应模块21、语音识别搜索空间22和对照表23相连。于是，使用者可以通过一个输入键发送一第一输入值至处理模块24中，而处理模块24可以根据该第一输入值从对照表23中选取该语音识别对象中的一第一参数，并根据该第一参数从语音识别搜索空间22中取得一相应的子语音识别搜索空间，且通过语音识别从该子语音识别搜索空间中识别出与该语音对应的至少一个候选语句，最后即可将该候选语句通过输出模块25显示，以供使用者进行选取。

处理模块24还可通过接收一第二输入值来对候选语句进行进一步的筛选。而该第二输入值可以与该语音识别对象中的第二参数相关联，其中该第一输入值可以与该第二输入值相同或不同。此外，由于对照表23中也可以包括与不同于该语音识别对象的另一语音识别对象对应的多个参数，于是，第二输入值也可以与另一语音识别对象中的一个相应参数相关联。

其中，输入模块20可为一键盘、一虚拟键盘或一触摸板(touch panel)，语音供应模块21则因语音的不同来源而可以是一语音输入装置或一语音储存装置。而处理模块24在进行语音识别时即可以从语音供应模块21中获得要进行识别的语音。此外，处理模块24还可以根据第一输入值而启动语音识别功能以进行上述语音识别流程。

此外，该语音识别模块中至少包括一声学模块(Acoustic Model)和一词汇模块(Lexical Model)，还可以包含一语言模块(Language Model)。该候选语句则选自一单字、一词组或一句子中。因此，与该语音识别模块的语音识别对象相关联的可以是下列中的任意一个因素：(1)特定字数、特定音节数或特定数目的连词；(2)输入法；(3)男声或女声；(4)选自于粗糙或精密和抗噪与否中的一声学模块；(5)特定领域应用(domain)下的特定句型。因而，基于上述语音识别对象中的特定参数的选取可以有效地将原语音识别搜索空间明确的缩小到一个相应的子语音识别搜索空间内。

其中，若该语音识别对象是相关于特定字数、特定音节数或特定数目的连词，则与该语音识别对象对应的多个参数则可以是多个数字码。若该语音识别对象相关于输入法，则与该语音识别对象对应的多个参数可以是该输入法中的多个对应代码，该输入法可以是注音输入法、拼音输入法、字根输入法、笔划输入法、声调输入法或是其它相似输入法。

以下则是一些对于语音识别对象的具体实例说明：

1、当该语音识别对象相关于特定字数、特定音节数或特定数目的连词时，则该多个参数可以是1～9的数字键，以代表所要输入的语句是1～9个字数、特定音节数或特定数目的连词。于是可能有下列情况：

(1)按数字键“2”，代表语句的字数为二字词，如：今天或LanguageModel。

该种表示方式由词汇模块加以限制。

(2)按数字键“3”，代表三连词的语句，如：“今天天气很好”、“台达电子得到第一名”、“I Love You”。

该种表示方式由词汇模块或语言模块加以限制。

2、当该语音识别对象相关于一输入法时。

(1)若采用注音输入法，则该多个参数就代表ㄅ～ㄩ的注音符号。因此，按注音符号“ㄐ”就代表语句中的第一个声母是“ㄐ”，如：今天的今“ㄐㄧㄣ”。

该种表示方式由声学模块或词汇模块加以限制。

(2)若采用拼音输入法，则该多个参数就代表A～Z的拼音符号。因此，按拼音符号“J”就代表语句的初始拼音是“J”，如：今天的今“Jin”。

该种表示方式由声学模块或词汇模块加以限制。

3、当该语音识别对象相关于男声或女声时。

按数字键“2”，代表使用女生的声学模块作为识别对象。如此，对女性使用者而言会比较准。

该种表示方式由声学模块加以限制。

4、当该语音识别对象相关于粗糙或精密、或是抗噪与否的声学模块时。

(1)粗糙或精密的声学模块。

按数字键“2”，代表使用比较粗糙的声学模块作为识别对象，牺牲识别率以求取快速。

该种表示方式由声学模块加以限制。

(2)抗噪与否的声学模块。

按数字键“2”，代表使用比较抗噪的声学模块作为识别对象，以便在嘈杂环境下能得到更好的识别率。

该种表示方式由声学模块加以限制。

5、当该语音识别对象相关于特定领域应用下的特定句型时，其会提供特定状况的常用句型。

(1)按键“x”，代表识别“到xxx找yyy”，如：到忠孝东路四段找小笼包。

(2)按键“y”，代表识别“打电话给zzz”，如：打电话给叶耿宏。

该种表示方式由声学模块、词汇模块或语言模块或其组合加以限制。

基于上述说明，本发明的对照表23中可以含有多个不同的语音识别对象，而这些语音识别对象各有与其对应的参数。于是，使用者即可根据第一次的筛选条件，即所选定的特定语音识别对象中的特定参数，取得在现有的由该语音识别模块所构建出的语音识别搜索空间中的一相应的子语音识别搜索空间，随后再通过一般的语音识别程序从该子语音识别搜索空间识别出与该语音对应的筛选结果。

于是，在识别出候选语句之后，使用者还可以采用第二次的筛选条件，即同一语音识别对象中的参数或不同语音识别对象中的参数，去对候选语句进行进一步的筛选而得到更精确的筛选结果。其中，第一次的筛选条件可以与第二次的筛选条件相同，这在实际操作中是有可能产生的。举例而言，对中文语句而言，可能会具有相同的韵母或声母的字词；对英文语句而言，也可能会有同样单字前缀。

进一步地，依照上述模式，使用者可以提供第三次的筛选条件甚至第四次的筛选条件到本发明的语音输入系统以对前一次筛选结果进行进一步筛选，直到使用者想选的语句出现为止。

图3所示为语音输入方法的实施流程示意图。

首先，提供由语音识别模块所构建出的一搜索空间(步骤30)。通过多个输入键中的一个发送一输入值(步骤31)。根据该输入值启动语音识别程序(步骤32)，由于该输入值与语音识别对象的参数相关联，且该语音识别对象与语音识别模块相关联，因此根据该输入值所关联的参数可以在该语音识别搜索空间中取得一相应的子语音识别搜索空间(步骤33)。提供一语音(步骤34)，而此语音可以由使用者实时输入或是已经预存其中。于是，根据在步骤32所启动的语音识别程序从该子语音识别搜索空间中识别出与该语音相关联的至少一个候选语句(步骤35)，以供使用者进行选取(步骤36)。最后，显示出所选取的语句(步骤37)。倘若在步骤35中的候选语句过多或是从中找不到想要的语句，则可以再发送另一输入值(步骤38)，以根据该值所关联的参数而对候选语句进行进一步的筛选(步骤39)。接着又可以回到步骤35显示出最后候选语句的筛选结果而进行再一次选取。

此外，若使用者进行上述步骤后仍是不满意其筛选结果，也可再次重复执行步骤38至步骤39而以不同的筛选条件(即提供不同的输入值，这些不同的输入值可以是关联于同一语音识别对象中的不同参数、相同参数或是分别关联于不同语音识别对象中的相应参数)而对候选语句再次筛选，如此可以不停的对筛选结果进行各种条件的限缩，以得到使用者所要选取的语句为止。

而在实际应用中，以输入“今天”为例：若是用现有技术实现，当使用者要输入一个二字词“今天”时，按下语音识别键以输入语音后，其识别的结果(经排序)可能是：晴天、星期天、前天、今天，因此其识别结果包含了其它非二字词的错误结果“星期天”，此时使用者若是按上下键选取则要按三次(星期天、前天、今天)。若是改用本发明所提供的方法，按住数字键“2”(限制字数)进行语音识别，其识别的结果(经排序)是：晴天、前天、今天，因为已经限制了要识别的字数，所以并不会出现其它非二字词的错误结果，此时使用者只需按两次上下键即可(前天、今天)，此外也可再搭配输入注音或是拼音来限制声母(起始拼音)，例如注音ㄐㄧㄣ的ㄐ或是拼音jin的j来做进一步的筛选。

此外，本发明也可用于英文输入环境中，以输入词组“free downloadmanager”为例，使用者可以按住数字键“3”进行语音识别(限制字数)，本发明即可识别出含有3个单词的候选语句以供使用者选取。倘若使用者需做进一步的筛选，可以随后采取依序输入每个单字的前缀(f，d，m)的方式来完成。

由于使用者按住数字键进行语音识别的同时也提供接下来要录的声音的字数。通过这种方式对语音输入的字数做限制，则语音识别搜索空间便可缩小到含有特定长度语句的子语音识别搜索空间，于是在现有技术中所提到的插入型错误与删除型错误便会消失，于是识别率得以有效提高。

此外，根据上述方式获得初步筛选的语音识别结果后，使用者可再通过再筛选机制，如输入声母(起始拼音)的方式，为候选语句做更精准的筛选。而该再筛选机制的输入方式除了可以通过使用者自己输入之外，也可由系统分析出这些已经产生初步筛选结果的候选语句的可能声母(起始拼音)，便可提供小范围有效且精准的候选声母以让使用者选择，同时，现有技术中的替代型错误也可以有效降低。

再者，根据前面描述，本发明可以采用各种语音识别对象中的多个参数作为筛选条件，而在目前的手持装置中(如移动通讯装置)，通常其上多个输入键除了是数字键以输入各种数字之外，同时也具有其它输入形式的对应输入参数，如：数字键“2”上通常有注音符号“ㄍ、ㄐ、ㄞ、一”及拼音符号“A、B、C”等输入参数。因此，当使用者按住数字键“2”进行语音识别的同时也可以提供接下来要进行语音识别的声音的开头可能是“ㄍ、ㄐ、ㄞ、一”或“A、B、C”。通过这种方式对语音输入的发音(pronunciation)或拼字(spelling)进行限制，则语音识别搜索空间便可缩小到含有特定语句的子语音识别搜索空间。

综上所述，本发明确实可提供一种语音输入系统及其方法，其可以提供“启动语音识别结合筛选条件”以及“后续的再筛选机制”，而筛选条件以及后续的再筛选机制可以采用各种属于声学模块、词汇模块或语言模块中的语音识别对象。据此，不但可以让识别的结果更准确，也能有效减少输入次数，大幅缩短使用者所耗费的时间。同时，本发明无须增加许多繁复的软硬件设备，且实施成本极为低廉。因此，使用本发明提供的语音输入系统及其方法，使用者无须特别训练或学习但却又能提供极高的便利性，可以有效增进产业的进步，本发明技术简单，可运用领域广泛，非常具有产业价值。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1、一种语音输入方法，包含下列步骤：

A、通过多个输入键中的一个发送一输入值而启动语音识别程序，所述输入值与语音识别对象中的一个参数相关联；

B、提供一语音与一语音识别搜索空间，所述语音识别搜索空间由一语音识别模块建构，所述语音识别模块与所述语音识别对象相关联；

C、根据所述参数得到所述语音识别搜索空间中一相应的子语音识别搜索空间；

D、根据所述语音识别程序从所述子语音识别搜索空间中识别出与所述语音相关联的至少一个候选语句；

E、显示所述候选语句。

2、如权利要求1所述的语音输入方法，其特征在于，

步骤E之后还包含一步骤F、发送另一输入值对所述候选语句进行进一步筛选，其中：

3、如权利要求1所述的语音输入方法，其特征在于，

所述语音识别模块中包含一声学模块、一词汇模块及一语言模块。

4、如权利要求1所述的语音输入方法，其特征在于，

所述候选语句选自一单字、一词组或一句子；或

所述语音识别对象为相关于特定字数、特定音节数或特定数目的连词。

5、如权利要求1所述的语音输入方法，其特征在于，

所述语音识别对象与输入法相关联，所述输入法包括注音输入法、拼音输入法、字根输入法、笔划输入法或声调输入法中的任意一个；或

所述语音识别对象与男声或女声相关。

6、如权利要求1或3所述的语音输入方法，其特征在于，

所述语音识别对象与选自粗糙或精密声学模块或抗噪与否声学模块相关联；或

所述语音识别对象为与特定领域应用相关联的特定句型。

7、一种语音输入系统，其特征在于：

一输入模块，具有至少一输入键，通过所述输入键发送一第一输入值；

一语音供应模块，用于提供一语音；

一语音识别搜索空间，其由一语音识别模块建构；

一对照表，其中含有多个输入值与对应于一语音识别对象的多个参数，其中所述语音识别对象关联于所述语音识别模块；

一处理模块，用于根据所述第一输入值从所述对照表中选取所述语音识别对象中的一第一参数，并根据所述第一参数从所述语音识别搜索空间中取得一相应的子语音识别搜索空间，且通过语音识别从所述子语音识别搜索空间中识别出与所述语音对应的至少一个候选语句；以及

一输出模块，用于显示所述候选语句。

8、如权利要求7所述的语音输入系统，其特征在于，

9、如权利要求8所述的语音输入系统，其特征在于，

所述第二输入值与所述语音识别对象中的一个第二参数相关联，而所述第一输入值与所述第二输入值相同或不同；或

所述对照表中还具有与不同于所述语音识别对象的另一语音识别对象相对应的多个参数，而所述第二输入值与所述另一语音识别对象中的一个相应参数相关联。

10、如权利要求7所述的语音输入系统，其特征在于，

11、如权利要求7所述的语音输入系统，其特征在于，

12、如权利要求7所述的语音输入系统，其特征在于，其中：

所述处理模块还用于根据所述第一输入值而启动语音识别功能；

所述输入模块为一键盘、一虚拟键盘或一触摸板；及/或

所述语音供应模块为一语音输入装置或一语音储存装置。

13、一种应用在手持装置上的语音输入方法，其特征在于，包括下列步骤：

A、提供基于一语音识别模块的一语音识别搜索空间；

B、接收关联于所述语音识别模块的一输入参数，根据所述输入参数取得所述语音识别搜索空间中的一个相应子语音识别搜索空间；

C、接收一语音，并通过语音识别从所述子语音识别搜索空间中识别出与所述语音相关联的至少一个候选语句；

D、显示所述候选语句。

14、如权利要求13所述的语音输入方法，其特征在于，

15、如权利要求14所述的语音输入方法，其特征在于，

步骤D之后还包括一步骤E、接收一另一输入参数，对所述候选语句进行进一步筛选，其中：

16、一种语音输入方法，用于在由一语音识别模块所建构出的一语音识别搜索空间中搜索出至少一个候选语句，其特征在于，包括下列步骤：

A、接收关联于所述语音识别模块的一个输入参数，取得所述语音识别搜索空间中的一个相应子语音识别搜索空间；

B、接收一语音，并通过语音识别从所述子语音识别搜索空间中识别出与所述语音关联的至少一个候选语句；

C、显示所述候选语句。

17、如权利要求16所述的语音输入方法，其特征在于，