CN1892817A

CN1892817A - 语音识别辅助的合成字符的自动完成

Info

Publication number: CN1892817A
Application number: CNA2006100844212A
Authority: CN
Inventors: 科林·布莱尔; 凯文·镡; 克里斯托弗·R.·金特尔; 尼尔·赫普沃斯; 安德鲁·W.·兰格
Original assignee: Avaya Technology LLC
Current assignee: Avaya Technology LLC
Priority date: 2005-06-28
Filing date: 2006-05-18
Publication date: 2007-01-10
Also published as: JP2007011358A; KR100790700B1; TWI296793B; US20060293890A1; KR20070001020A; TW200707404A; SG128545A1

Abstract

提供了语音识别辅助的文本合成单词或字符(即，包含多个成分的单词或字符)的自动完成。响应指定单词或字符成分的用户输入，产生候选单词或字符列表。响应用户说出期望的单词或字符，期望的单词或字符可以被选择，或者候选单词或字符列表可以被缩小。因此，由多个字母、笔画或单词形状构成的单词或字符的输入通过包括期望单词或字符成分的指定与对应于该期望单词或字符发音的语音的结合的用户输入而变方便。

Description

语音识别辅助的合成字符的自动完成

技术领域

本发明涉及合成字符的输入。特别地，通过结合手动用户输入与语音识别来缩小地定制候选单词或字符列表，本发明方便了将单词或字符输入到通信或计算设备中。

背景技术

现在可以获得能够执行多种功能的移动通信和计算设备。这种功能越来越需要文本的输入或能够从文本的输入获益。例如，结合蜂窝电话所使用的文本信息服务现在被广泛使用。作为另一例子，便携式设备越来越多地结合电子邮件应用程序使用。但是，便携式设备上键盘可用的空间是极其有限的。因此，将文本输入到这种设备是困难的。此外，即使结合更大的桌面通信或计算设备，由特定语言所使用的符号可能也是很难输入的。

为了方便单词或字符的输入，特别是利用便携式电话或其它设备有限的键盘，可以得到自动完成特征。这种特征可以响应从用户接收到初始输入集合而向用户显示候选单词或字符列表。这些输入可以包括单词的开始一些字母，或者如中文字符的字符的开始一些笔画的指定。但是，由于结果列表可能会非常长，因此对用户来说很难快速定位期望的单词或字符。

为了解决具有长的自动完成候选列表的问题，可以使用提供其中候选单词或字符根据其使用频率分级的列表的系统。根据其使用频率分级候选可以减少用户滚动整个候选列表的需要。但是，以切合实际的方式对候选单词或字符列表排序是困难的。此外，当用户寻找不常用的单词或字符时，很少或根本不能实现时间的节省。

作为从用户请求手动输入的替换方式，声音或语音识别系统可用于输入文本或触发命令。但是，即使在用户培训和校准以后，这种系统的精度常常也会留下许多可以期望的东西。此外，完全特征的声音识别系统常常需要一般在如蜂窝电话的移动通信或计算设备上找不到的处理和存储资源。因此，结合移动设备可用的语音识别功能常常是未充分发展的，而且通常适于识别语言中有限的口语单词子集。此外，移动设备上的语音识别常常限定到触发菜单命令，如访问地址本和拨所选号码。

发明内容

本发明旨在解决现有技术的这些和其它问题与不足。根据本发明的实施方式，语音识别用于过滤或缩小如单词(例如在英文文本的情况下)或字符(例如在中文文本的情况下)的候选合成字符的列表。特别地，在输入单词或字符的字母、笔画或单词形状的用户手动输入后，用户可以说出该字符。然后，语音识别软件尝试从候选列表中排除读音与所说单词或字符不同的单词或字符。因此，甚至是相对未充分发展的语音识别应用程序也对至少从候选列表排除一些单词或字符是有效的。此外，通过首先通过该成分的选择或输入提供单词或字符的字母、笔画或其它成分，可用或候选单词或字符的范围被更窄地定义了，这会降低语音识别应用程序所需的精度，以便进一步缩小该范围(即，缩小候选列表)或肯定地识别用户寻求要输入的单词或字符。

附图说明

图1是根据本发明实施方式的通信或计算设备成分的方框图。

图2描述了根据本发明实施方式的通信设备。

图3是描述根据本发明实施方式的语音识别辅助自动完成处理操作方面的流程图。

图4A-4D描述根据本发明实施方式的例子显示输出。

具体实施方式

根据本发明的实施方式，响应指示包括在期望字符中单词或字符特定成分的用户输入，如字母(例如在英文单词的情况下)或者笔画或单词形状(例如在中文字符的情况下)，单词或字符可以包括在可用于由用户选择的单词或字符(在此统称为“字符”)列表中。此外，字符列表可以响应用户的语音输入而缩小。特别地，响应从用户接收到可用于识别与所接收语音关联(或不关联)的候选列表中字符的语音输入，修改候选列表的内容。因此，通过结合使用用户输入的期望字符成分与接收用户对期望字符的发音作为输入的语音识别，字符的输入是通过提供更短的候选单词或字符列表或者通过确切字符的识别而变容易的。

现在参考图1，根据本发明实施方式的通信或计算设备100的成分以方框图的形式描述。该成分可以包括能够执行程序指令的处理器104。因此，处理器104可以包括用于执行应用程序的任何通用可编程处理器或控制器。可选地，处理器104可以包括专门配置的特定于应用程序的集成电路(ASIC)。处理器104通常是运行实现由通信或计算设备100执行的各种功能的程序代码，包括在此所述的单词或字符选择操作。

通信或计算设备100可以附加地包括与处理器104程序的执行结合使用并用于数据或程序指令临时或长期存储的存储器108。存储器108可以包括本质上固有的、可拆卸的或远端的固态存储器，如DRAM和SRDAM。在处理器104包括控制器的时候，存储器108可以集成到处理器104。

此外，通信或计算设备100可以包括一个或多个用户输入112和一个或多个用户输出116。用户输入112的例子包括键盘、小键盘、触摸屏输入和麦克风。用户输出116的例子包括扬声器、显示屏幕(包括触摸屏显示器)和指示灯。此外，本领域技术人员可以理解用户输入112可以与用户输出116结合或一起操作。这种集成的用户输入112和用户输出116的例子是既可以向用户呈现可见信息又可以从用户接收输入选择的触摸屏显示器。

通信或计算设备100还可以包括用于存储应用程序和/或数据的数据存储器120。此外，操作系统软件124可以存储到数据存储器120中。例如，数据存储器120可以包括磁存储设备、固态存储设备、光存储设备、逻辑电路或这种设备的任意组合。还应当理解，依赖于数据存储器120的特定实现，可以在数据存储器120中维护的程序和数据可以包括软件、固件或硬件逻辑。

可以存储在数据存储器120中的应用程序的例子包括语音识别应用程序128和单词或字符选择应用程序132。此外，数据存储器120可以包含候选单词或字符的表或数据库134。如在这里所描述的，语音识别应用程序128、字符选择应用程序132和/或候选单词或字符表134可以彼此集成和/或彼此合作运行。数据存储器120还可以包含结合通信或计算设备100的其它功能的执行所使用的应用程序和数据。例如，结合如蜂窝电话的通信或计算设备100，数据存储器可以包括通信应用软件。作为另一例子，如个人数字助理(PDA)的通信或计算设备100或通用计算机可以包括单词处理应用程序和数据存储器120。此外，根据本发明的实施方式，语音识别应用程序128和/或字符选择应用程序132可以与通信应用软件、单词处理软件或者可以接收由用户输入或选择的单词或字符作为输入的其它应用程序合作运行。

通信或计算设备100还可以包括一个或多个通信网络接口136。通信网络接口的例子包括蜂窝电话收发机、网络接口卡、调制解调器、有线电话端口、串联或并联数据端口或者其它有线或无线通信网络接口。

现在参考图2，描述包括蜂窝电话200的通信或计算设备100。蜂窝电话200通常包括包含数字键盘204、光标控制按钮208、输入按钮212和麦克风214的用户输入112。此外，蜂窝电话200还包括包含如彩色或单色液晶显示器(LCD)的可见显示器216和扬声器220的用户输出。

根据本发明的实施方式，当处于文本输入或选择模式时，响应由用户通过键盘204输入的包括指定字母、笔画或单词形状的输入，用户可以使包含一个或多个单词或字符的部分或完整列表显示在显示屏幕216中。如本领域技术人员可以理解的，包括在键盘中的每个键可以与多个字母或字符形状及其它符号关联。例如，图2例子中的键盘204将3个(有时候是4个)字母224与键2-9关联。此外，图2例子中的键盘204将3个(在一种情况下是4个)中文词根分类228与键2-9关联。如本领域技术人员可以理解的，这种词根可以结合指定包括完整中文字符的形状选择，例如使用用于连续中文字符的基于五笔字型的方法。此外，一个词根的选择可以使可用的相关词根允许用户具体地指定期望的单词形状。因此，通过多次按下或敲击与期望字母或单词形状关联的键，用户可以选择与包括在键盘204中的特定键关联的字母或单词形状。

作为字母或单词形状选择结果创建的候选字符列表至少部分地由可见显示器216显示。如果该列表长到不能方便地呈现在显示器216上，则光标按钮208或某种其它输入112可以用于滚动整个列表。光标按钮208或其它输入112还可以结合期望字符的选择使用，例如通过利用光标按钮208或其它输入112高亮所显示列表中期望的字符，然后通过例如按下输入按钮212选择该字符。此外，如在这里所描述的，候选字符列表可以基于由用户通过麦克风214提供给设备100的语音缩小，该语音随后由例如设备100通过语音识别应用程序128处理。此外，语音识别应用程序128与字符选择应用程序132一起工作，使得响应指定期望字符成分的手动或其它用户输入，语音识别应用程序128设法识别包括在由字符选择应用程序132产生的列表中的字符，而不是设法识别可以包括在语音识别应用程序128词汇表中的所有单词。

现在参考图3，说明根据本发明实施方式的提供如英文单词或中文字符的语音识别辅助的字符自动完成的通信或计算设备100的操作方面。最初，在步骤300，用户输入或选择文本输入模式。例如，在设备100包括蜂窝电话200的时候，文本输入模式可以包括启动文本信息应用程序或模式。在步骤304，确定用户输入是否以单词或字符成分(例如，字母、笔画或单词形状)的手动选择的形式接收。通常，本发明实施方式结合来自用户的创建候选字符初始列表的这种输入的接收运行。在接收到字符成分的选择后，创建包含所选成分的候选字符列表(步骤308)。然后，至少候选列表的一部分向用户显示(步骤312)。如本领域技术人员可以理解的，候选字符列表可以相当长，尤其是当只指定了单个成分的时候。因此，如蜂窝电话200的液晶显示器216的显示器可能只能显示候选列表的一小部分。当在任何时候只能显示候选列表一部分的时候，用户可以滚动该列表，搜索期望的字符。

然后，用户可以通过提供语音输入来缩小候选列表。因此，随后可以确定来自用户的语音输入是否被接收并识别为表示或与候选字符的发音关联(步骤320)。特别地，例如通过麦克风214接收到的语音被语音识别应用程序128分析，以确定是否可以进行与候选字符的匹配。如果可以进行匹配，则创建修正的候选字符列表(步骤324)。如本领域技术人员可以理解的，甚至未充分发展的语音识别应用程序128也能肯定地从列表识别单个字符，尤其是当列表已经通过包括在用户希望输入的字符中的一个或多个成分的接收限制的时候。同样如本领域技术人员可以理解的，即使特定的字符不能从该列表识别出来，语音识别应用程序128也能够减少候选字符列表的大小。例如，在语音识别应用程序128能够将用户的语音输入与候选字符列表子集关联的时候，修正的列表可以包括该字符子集。因此，语音识别应用程序128可以用于从候选列表排除读音与期望单词或字符读音不同的那些单词或字符。因此，用户必须(至少在这个时候)搜索以便找出期望单词或字符的候选个数可以减少。然后，至少一部分修正的列表向用户显示(步骤328)。如果修正的列表包含太多候选要由如液晶显示器216的用户输出116显示，则用户可以同时再次滚动该列表。

在步骤332，可以再次确定用户是否选择了候选字符中的一个。这种确定可以在确定用户没有提供语音以便产生候选字符列表后或者在步骤328创建候选列表的修正列表后作出。如果用户选择了列出的字符，则处理结束。然后，用户可以退出文本模式或者开始选择下一字符的处理。

如果用户还没有选择所列出的字符，则处理可以返回到步骤304，在这个时候用户可以输入附加成分，如附加字母、笔画或单词形状。然后可以在步骤308创建的字符列表包括反映现在由用户指定的附加成分的修正字符列表。例如，在用户指定了两个字母或单词形状的时候，那些字母或单词形状可以在每个候选字符中需要。然后，结果列表可以至少部分地被显示(步骤312)。在步骤312向用户显示修正列表后，用户可以另外尝试提供语音输入，以便进一步减少列表中候选字符的个数(步骤320)。可选地，如果在步骤332用户没有作出所列字符的选择，则用户可以决定不在步骤312以期望合成字符的附加成分的形式提供附加输入，而是可以前进到步骤320，通过提供语音输入作出缩小候选列表的另一尝试。如果提供了附加的语音输入，则该输入可以用于创建修正的候选字符列表(步骤324)，而且该修正列表可以至少部分地向用户显示(步骤328)。因此，可以理解可以执行指定单词或字符成分和/或提供语音来识别期望单词或字符或至少减小候选列表大小的多次迭代。

现在参考图4A-4C，描述了结合本发明实施方式的操作可以向用户提供的可见输出的例子。特别地，描述包括中文输入模式下蜂窝电话200的设备100的显示屏幕216。如图4A所示，用户可以选择期望字符的一个或多个笔画404。笔画404的选择可以通过按包括在键盘204中的与构成用户期望指定的字符的第一笔画关联的那些键来执行。

因为中文字符是由8个基本笔画构成的，而且因为有好几千中文字符被使用，因此指定期望字符的两个笔画一般将导致产生很长的候选字符列表。以在本例中指定的笔画404开始的候选字符408a-d的部分列表406a在图4B中说明。第一个字符408a的发音大致是“nin”，第二个字符408b的发音大致是“wo”，第三个字符的发音大致是“ngo”，而第四个字符的发音大致是“sanng”。从这个列表，用户可能期望第三个字符408c。根据本发明的实施方式，用户可以通过发出该期望字符的音来从候选列表中选择。因此，用户可以发出第三个字符408c的音，使该列表修改成只包含字符408c，如图4C所示。然后，用户可以通过点击输入键212或输入该字符的选择确认运行在蜂窝电话200上或与之关联的语音识别应用程序128正确地将列表缩小到该字符。因此，根据本发明的实施方式，可以理解字符成分的手动输入和语音识别结合工作方便了用户对由大量笔画构成的字符的选择。此外，这可以简单地通过输入至少一个那些笔画然后通过发出期望字符的音来完成。这种结合的好处在于即使语音识别应用程序128不足以仅从该字符的发音精确地认出期望的字符，也有可能区分看起来相似的非常不同的发音。

此外，即使语音识别软件128不能参考响应一个或多个手动输入笔画产生的候选字符列表从发音认出期望的字符，它也能够缩小候选字符列表。例如，语音识别软件128可能不能基于用户的语音输入区分第二个408b(“wo”)和第三个408c(“ngo”)，而图4B所示的候选字符列表是活动的。但是，该语音输入应当允许语音识别软件128排除作为候选的第一个408a(“nin”)和第四个408d(“sanng”)。因此，通过结合手动输入与本发明实施方式的语音识别，候选列表可以缩小到第二个408b和第三个408c字符，在图4D中示为列表406b。然后，用户可以通过例如利用光标控制按钮208并按下输入键212从缩小的列表406b选择期望的字符。

尽管在此描述的本发明实施方式的特定例子通过期望单词或字符一个或多个成分在键盘上的键利用手动输入和/或期望单词或字符的选择进行了讨论，但本发明的实施方式并不限于此。例如，手动输入可以通过从触摸屏显示器进行选择或者通过在触摸屏显示器的书写区域写期望成分来执行。作为另一例子，单词或字符成分的初始(或最后)选择不需要通过手动输入来执行。例如，用户可以发出期望成分的名字的音来产生随后通过发期望单词或字符的音来缩小的单词或字符列表。此外，本发明的实施方式具有结合任何语言中文本选择和/或输入的应用，其中单词或符号的“字母表”或成分部分超出了可以由一般通信或计算设备键盘容易表示的范围。

本发明上述讨论的给出是为了说明和描述。此外，该描述不是要将本发明限定到在此所公开的形式。因此，在相关技术的技能或知识内的与以上教义相当的变体和修改都在本发明范围之内。上述实施方式还用于解释实践本发明的目前已知的最佳模式并且能够使本领域其它技术人员以这种或其它实施方式并以其对本发明的特定应用或使用所需的各种修改使用本发明。所附权利要求打算被解释为在现有技术所允许的程度上包括可选实施方式。

Claims

1、一种用于指定书写字符的方法，包括：

接收至少第一字符成分的选择；

产生包含所述第一所选定成分的第一候选字符列表；

从用户接收第一语音输入；及

利用来自用户的所述第一语音输入修改所述第一候选字符列表，其中产生第二候选字符列表。

2、如权利要求1所述的方法，其中所述第一语音输入包括对应于期望字符的发音的语音。

3、如权利要求2所述的方法，其中对所述第一列表的所述修改包括除去不对应于所述期望字符的所述发音的字符。

4、如权利要求1所述的方法，还包括：

从用户接收第二语音输入，其中修改所述第二列表，其中产生第三候选字符列表。

5、如权利要求1所述的方法，还包括：

接收第二字符成分的选择；

利用所述第二所选定成分修改所述第二候选字符列表，其中产生第三候选字符列表。

6、如权利要求1所述的方法，还包括：

从所述第二列表接收所述字符中的一个的选择。

7、如权利要求1所述的方法，其中所述第一字符成分包括英文单词的第一个字母和中文字符的第一个笔画中的一个。

8、如权利要求7所述的方法，还包括：

接收中文字符的第二个笔画的选择，其中所述产生第一列表包括产生包含所述选定的第一和第二笔画的第一中文字符列表。

9、一种用于选择字符的设备，包括：

用于从用户接收输入的装置；

用于存储多个字符与一个或多个字符成分的关联性的装置；

用于对于包括在所述多个字符中的若干字符存储字符与所述字符的发音之间的关联性的装置；

用于响应至少包括第一字符成分的用户输入产生选自所述多个字符的第一候选字符列表的装置；

用于响应包括期望字符的发音的用户输入修改所述第一候选字符列表以形成第二候选字符列表的装置。

10、如权利要求9所述的设备，其中所述用于从用户接收输入的装置包括用于从用户接收手动输入的装置。

11、如权利要求9所述的设备，其中所述用于从用户接收输入的装置包括用于从用户接收语音输入的装置。

12、如权利要求9所述的设备，还包括：

用于向用户提供可见输出的装置，其中显示所述第一候选字符列表的至少一部分。