CN104813275A

CN104813275A - 用于预测文本的方法和系统

Info

Publication number: CN104813275A
Application number: CN201380061363.XA
Authority: CN
Inventors: 梁宇; 段小涛
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-09-27
Filing date: 2013-08-30
Publication date: 2015-07-29
Anticipated expiration: 2033-08-30
Also published as: WO2014051929A1; KR20150043512A; US8498864B1; CN104813275B; EP2901264A1; EP2901264A4; KR101522156B1

Abstract

描述了用于预测文本的方法和系统。在一个示例中，计算设备可以被配置为接收组成文本的部分的一个或多个键入字符；和接收与该文本的至少该部分的口头话语相对应的语音输入。该计算设备可以被配置为基于该一个或多个键入字符和该语音输入确定预测该文本的一个或多个候选文本。进一步，该计算设备可以被配置为提供该一个或多个候选文本。

Description

用于预测文本的方法和系统

相关申请的交叉引用

该申请要求2012年9月27日提交的美国申请No.13/628,138的优先权，其在此通过引用被全文并入。

背景技术

随着计算机科学领域的演进，各种数据录入技术也已发展，以增强个人体验并使计算机更加多样化。例如，典型的计算机系统，尤其使用用于用户交互的图形用户界面的计算机系统被优化，用于从一个或多个输入设备接受输入。这样，个人可以利用键盘录入文本，并利用诸如鼠标的指示设备控制显示屏幕上指示符图像的位置，所述指示设备具有用于激活与指示符的方位相关联的选择的一个或多个按钮。

最近，已经显示出了增强计算机易用性的兴趣。易用性可以被定义为人造对象的容易使用和易学性。对象可以是软件应用、网站、书本、工具、机器、过程，或者人类与之交互的任何东西。增强计算机的效率、准确性和优雅可改进其易用性。

发明内容

本申请公开了用于预测文本的系统和方法。在一个方面，描述了一种方法。该方法可以包括接收组成文本的部分的一个或多个键入字符。该方法还可以包括接收与至少该文本的该部分相对应的口头话语的语音输入。该方法可以进一步包括基于该一个或多个键入字符和语音输入，确定预测该文本的一个或多个候选文本。该方法还可以包括提供该一个或多个候选文本。

在另一个方面，描述了具有存储其上的指令的计算机可读介质，所述介质当通过计算设备执行时，使该计算设备执行功能。该功能可以包括接收组成文本的部分的一个或多个键入字符。该功能还可以包括接收与至少该文本的该部分相对应的口头话语的语音输入。该功能可以进一步包括基于该一个或多个键入字符和语音输入确定预测该文本的一个或多个候选文本。该功能还可以包括提供该一个或多个候选文本。

在又一方面，描述了一种系统。该系统可以包括音频捕捉设备。该系统还可以包括计算设备，所述计算设备耦接到该音频捕捉设备并被配置为接收组成文本的部分的一个或多个键入字符。该计算设备还可以被配置为从音频捕捉设备接收与至少该文本的该部分相对应的口头话语的语音输入。该计算设备可以进一步被配置为基于该一个或多个键入字符和语音输入确定一个或多个候选文本。该计算设备还可以被配置为对于该一个或多个候选文本的每一个，确定相应的候选文本预测该文本的相应的可能性。该计算机设备可以进一步被配置为基于对于该一个或多个候选文本确定的相应的可能性，提供该一个或多个候选文本。

前述发明内容仅仅是示意性的，并且不意在任何方式的限制。除了上述的示意性方面、实施例和特征，参照附图和下述具体实施方式，进一步方面、实施例和特征将变得显而易见。

附图说明

图1是根据一个实施例用于预测文本的示例方法的流程图。

图2A示出根据一个实施例利用与文本的口头话语相同语言的键入输入文本用于预测文本的示例计算设备。

图2B示出根据一个实施例利用与文本的口头话语的相应的语言不同语言的键入输入文本用于预测文本的示例计算设备。

图2C示出根据一个实施例用于预测文本的示例计算设备，该计算设备显示变化排名的候选文本。

图3示出根据一个示例实施例的示例分布式计算架构。

图4A是根据一个示例实施例示意的示例计算设备的框图。

图4B示出根据一个示例实施例的基于云的服务器系统。

图5是示出示例计算机程序产品的概念局部视图的示意图，该产品包括用于在根据至少本文中呈现的一些实施例安排的计算设备上执行计算机过程的计算机程序。

具体实施方式

参照附图，下述具体实施方式描述了所公开系统和方法的各种特征和功能。图中，类似的符号标识类似的组件，除非上下文另外规定。本文中所述示意性系统和方法实施例并不用于限制。容易理解，所公开系统和方法的某些方面可以本文中可以预见其全部的各种各样不同的配置来安排和组合。

诸如台式计算机、笔记本电脑或者手持设备的设备可以被配置为使用输入设备接收输入文本。在示例中，台式计算机的用户可以使用键盘将文本录入到文字处理程序或者其他软件应用中。在诸如蜂窝电话和平板计算机的具有触摸屏幕的设备中，例如，用户可以通过敲击屏幕上键来录入文本。设备可以被配置为接收文本(例如，单词或短语)的部分并被配置为基于所接收的该文本的该部分向用户提供预测该文本的剩余部分的候选文本。

在一些示例中，输入设备的一个键或按钮可以表示不止一个字母，诸如在移动电话上。每个键按压可以导致预测而不是重复地按顺序排列通过键按压可以表示的“字母”的相同组。在示例中，设备可以被配置为允许通过单个键按压输入整个单词。以这种方式，设备可以被配置为有效利用更少的设备键以将文本输入到文本消息、电子邮件、地址簿、日程表等中。

在一些示例中，输入文本不是精确的，特别是在用户使用小键的情况下或者当用户被干扰时。因此，用户录入的文本可能包含错误。当用户录入与已知单词不对应的字符序列时，设备可以被配置为预测并纠正字符序列。在一些示例中，误键入的单词可以被对应的正确单词替换。在其他示例中，设备可以被配置为向用户呈现从中选择正确的单词的可能备选的列表。然而，错误可以降低准确性，设备可利用其正确地预测该文本或者提供包含正确单词的列表。

在多个示例中，具有拉丁字母的输入设备被用于录入拼音字符。拼音输入方法被认为是将一些亚洲语言(例如，汉语、台湾汉语、日语、韩语、马来西亚语等)的字符转录为拉丁文字的官方输入方法。拼音意味着“拼写的声音”，并一般地指的是基于发音的亚洲语言输入。

作为一个示例，QWERTY键盘可以被用于拼音输入以录入发音上表示所期望的亚洲字符的拉丁字符和拉丁字符的组合。然后软件应用可以处理拉丁字符并将拉丁字符转换为对应的亚洲字符。

作为用于示意的一个示例，一个汉语单词可以由几个汉语字符组成。每个汉语字符可以由几个拼音字符表示。这样，输入拼音字符可能是耗时的并且是易出错的。另外，在一些示例中，形成短语的多个单词的拼音首字母(即，每个单词的第一个字母)可以被用于高效输入，而不是键入该多个单词的拼音字符；然而，该短语的预测准确性被降低。

因此，在很多实例中，基于任意语言的文本的部分预测该文本可能是不准确的。

在一些示例中，计算设备可以被配置为接收与文本的口头话语相对应的语音输入并利用语音识别技术来识别该文本，而不是使用该文本的部分来预测该文本。然而，由于不同的口音或背景噪音，例如，计算设备可能未准确地预测该文本。作为另一个示例，在汉语中，几个字符可以具有类似的读音(例如，不同的方言)，其降低了基于语音输入预测对应文本的准确性。

在一个示例中，如果文本的部分和该文本的口头话语在计算设备处被基本上同时接收并由该计算设备使用二者来预测该文本，那么预测文本的准确性将被改进。在该示例中，计算设备可以被配置为接收组成文本的部分的键入字符；和例如从音频捕捉设备接收与该文本的口头话语相对应的语音输入。因此，计算设备可以被配置为基于该文本的该部分和该语音输入，确定预测该文本的一个或多个候选文本。进一步，计算设备可以被配置为向用户提供该一个或多个候选文本。

图1示出了根据一个实施例用于预测文本的示例方法100的流程图。

方法100可以包括如块102-110中一个或多个所示的一个或多个操作、功能或者动作。虽然块以顺序次序示出，但是在一些实例中这些块可以并行，和/或以不同于本文中所述的次序执行。而且，各种块基于想要的实现，可被组合成更少的块，被划分成额外的块，和/或移除。

此外，对于方法100和本文中所公开的其他过程和方法，流程图示出了本示例的一个可能实现的功能和操作。就这一点而言，每个块可表示包括一个或多个指令的模块、片段或者部分程序代码，所述一个或多个指令可由处理器执行以用于在该过程中实现特定逻辑功能或者步骤。程序代码可存储在任意类型的计算机可读介质或者存储器上，例如，诸如包括盘或者硬盘驱动的存储设备。计算机可读介质可包括非暂时性计算机可读介质或者存储器，例如，诸如短时间内存储数据的计算机可读介质，比如寄存器存储器、处理器缓存和随机存取存储器(RAM)。计算机可读介质还包括非暂时性介质或者存储器，例如，诸如次级或者持久性长期存储，比如只读存储器(ROM)、光或者磁盘，紧凑盘只读存储器(CD-ROM)。计算机可读介质也可以是任意其他易失性或者非易失性存储系统。例如，计算机可读介质可以被认为是计算机可读存储介质、有形存储设备或者其他制造品。

此外，对于方法100和本文中所公开的其他过程和方法，图1中的每个块可表示有线的连接以在该过程中执行特定逻辑功能的电路。

在块102处，方法100包括接收组成文本的部分的一个或多个键入字符。计算设备(例如，移动电话、个人数字助理(PDA)、笔记本电脑、笔记本、或者上网本电脑、平板计算设备、可穿戴计算设备等)可以被配置为通过耦接到计算设备的输入设备接收键入字符，所述输入设备诸如键盘或触摸屏。这些输入设备仅仅用作示意的示例。任意类型的输入设备都可以使用。

如本文中所利用的，术语字符意在包含符号或者可由用户键入的其它数字。字符的示例包括字母表字符，例如，无论来自拉丁、斯拉夫、阿拉伯、希伯来或者希腊字母表。此外，字符可以是亚洲语言中利用的各种符号中的一个，诸如汉语、日语和韩语语言。文本可以包括形成单词或者单词类型单元的各种字符组。作为示例，文本可以是由一个或多个拼音字符表示的一个汉语字符，并且该汉语字符可以是一个汉语词的部分。从而，文本可以是指词素(书面语言的最小有意义单元)、单词、短语等。

在一个示例中，例如，该文本的该部分可以是形成一个单词的部分的一个或多个字母。在另一个示例中，该文本的该部分可包括形成一个短语的单词的拼音首字母。这些示例仅仅用于示意，以及其他示例是可能的。

在示例中，计算设备可包括输入方法编辑器(IME)模块，其被配置为方便在计算设备处接收该文本的该部分。IME可以是允许诸如键盘敲击、触摸屏输入、或者鼠标移动的任意数据作为输入而被接收的操作系统组件或者程序。以这种方式，用户可以录入输入设备中找不到的字符和符号。例如，耦接到计算设备的拉丁键盘的用户可输入汉语、日语、韩语和印度语字符等。在手持设备上，诸如移动电话，IME模块可以被配置为使利用数字键盘录入拉丁字母表字符(或者任意其他字母表字符)成为可能或者使屏幕显示器能够被触摸以录入字符。

在块104处，方法100包括接收与该文本的口头话语相对应的语音输入。计算设备可包括或被耦接到被可以配置为捕捉音频信号的音频捕捉设备(例如，麦克风)。在一个示例中，计算设备可以被配置为从音频捕捉设备接收音频信号，该音频信号表示与键入该文本的该部分的用户作出的该文本的口头话语相对应的语音输入。在示例中，该口头话语可以是该文本的全部，或者该文本的至少一部分(例如，该文本中的一个单词的第一个音节、整个句子、由键入字符组成的该文本的该部分等)。

图2A示出了根据一个实施例利用与文本的口头话语相同语言的键入输入文本用于预测该文本的示例计算设备200。作为示例，计算设备200可以被耦接到触摸屏202。计算设备200可以被配置为通过输入框204接收该文本的部分。作为示例，图2A示出了该文本的该部分是“Con”。

计算设备200可以被耦接到被配置为捕捉文本的口头话语208的麦克风206。作为一个示例，用户可以在与说出文本同时、或者在说出文本之前/之后很快，开始键入该文本(例如，单词)。在一些示例中，计算设备200可以被配置为基本上同时接收输入框204中键入的该文本的部分和与该文本的口头话语208(通过麦克风206捕捉)相对应的语音输入。例如，用户可键入形成一个单词的字母的子集，并通过在键入整个单词之前说出该单词来结束。然而，在其它示例中，该文本的该部分和与口头话语208相对应的语音输入不被同时接收，并且在接收该文本的该部分和该语音输入之间可能有延迟，例如，该文本的该部分可在口头话语208在麦克风206处被接收之前被接收，或者反过来。

在一些示例中，该文本的该部分和口头话语208可以是相同的语言。在其它示例中，然而，该文本的该部分和口头话语208可以是不同的语言。例如，计算设备200可以被配置为作为形成一个汉语词的一个或多个拼音字符(拉丁字符)、或者形成汉语短语的拼音首字母来接收该文本的该部分；并且接收与为汉语的口头话语208相对应的语音输入。

图2B示出了根据一个实施例利用与文本的口头话语的相应的语言不同语言的键入输入文本用于预测文本的示例计算设备200。图2B描述了计算设备200通过输入框204接收意思是“今天天气很好”的全部拼音短语“jin tian tian qi hen hao”的拼音首字母“jttqhh”。在该示例中，口头话语208可以是汉语。这里汉语语言被用作示例，但是可以使用任意其他语言。在一个示例中，语言设置(例如，键入语言和口头语言选项)可以由计算设备200的用户设定。

回到图1，在块106处，方法100包括基于该一个或多个键入字符和该语音输入，确定预测该文本的一个或多个候选文本。在一个示例中，参照图2A，计算设备200可以被配置为向服务器提供该文本的该部分和该语音输入，并且服务器可以被配置为确定预测该文本的候选文本。服务器可以进一步被配置为向计算设备200提供该候选文本。计算设备200和服务器可以是有线或者无线通信的。在另一个示例中，然而，计算设备200可以被配置为基于该文本的该部分和该语音输入确定候选文本。

在其它示例中，确定候选文本的任务可以被分布在计算设备200和服务器之间。作为用于示意的一个示例，计算设备200可以被配置为基于该文本的该部分确定候选文本，并可以被配置为向服务器提供该文本的该部分和该语音输入，所述服务器被配置为确定相应的候选文本。然后服务器可以被配置为将相应的候选文本传送到计算设备200。进一步，计算设备200可以被配置为比较由计算设备200确定的候选文本和由服务器确定的相应的候选文本以确定具有预测用户期望的文本的高可能性的候选文本集合。其他示例是可能的。本文中，计算设备200将被用于描述执行确定候选文本的任务；然而，应该理解这种功能可以由与计算设备200通信的服务器来执行、或者可以分布在计算设备200和服务器之间。

作为一个示例，为了基于该文本的该部分确定候选文本，计算设备200(或者服务器)可以被配置为可访问字典，该字典存储多个单词、短语或者其他词法单元(即，单个单词、一个单词的部分、或者形成语言词汇的基本元素的单词串)和对应的词汇标签。计算设备200可以被配置为使用字典以基于该文本的该部分生成候选文本。候选文本包含字典中与该文本的该部分最佳匹配的可能的单词或者短语。词汇标记将词汇单元与单词或者短语的特定分组或者类别关联。当在计算设备200处接收到该文本的该部分时，计算设备200可以被配置为识别搜索标记，所述搜索标记指示被录入的单词或者短语属于特定分组或者类别。当搜索标记被确定时，计算设备200可以被配置为比较搜索标记和字典中存储的词汇标记。计算设备200可以被配置为使用比较结果以过滤、排序或者另行处理候选文本。例如，候选文本可以被限制为具有匹配词汇标记的单词和/或短语。而且，计算设备200可以被配置为使用标记比较结果来排序候选文本使得具有匹配词汇标记的单词和/或短语出现在候选文本列表的顶端。

在示例中，为了基于语音输入确定候选文本集合，计算设备200(或者服务器)可以被配置为使用语音识别系统以确定候选文本集合。语音识别系统可以被配置为使用声学模型以根据输入的音节确定最可能的字符，并且还可以被配置为使用具有概率的字典和存储更高层次语言使用模式的语言模型以识别字符。

在一个示例中，计算设备200可以被配置为基于该文本的该部分确定候选文本并使用该语音输入以确认或者丢弃候选文本的子集。在另一个示例中，计算设备200可以被配置为基于该语音输入确定候选文本并使用该文本的该部分以确认或者丢弃候选文本的相应的子集。在又一个示例中，计算设备200可以被配置为，基于该文本的该部分确定第一集合的候选文本；和基本上同时基于该语音输入，确定第二集合的候选文本。例如，进一步计算设备200可以被配置为比较第一集合的候选文本和第二集合的候选文本以确定第一集合和第二集合之间共同的候选文本。

回到图1，在块108处，方法100包括对于一个或多个候选文本的每一个，确定相应的候选文本预测该文本的相应的可能性。例如，计算设备200可以被配置为基于所接收的该文本的该部分和该语音输入生成概率模型(例如，高斯分布)，以确定候选文本预测该文本的可能性。作为示例，候选文本预测该文本的可能性可以被确定为基于该文本的该部分和该语音输入确定的参数值集合的函数。在该示例中，可能性可以被定义为等于给定那些参数值的情况下所观察到的结果的概率(例如，该候选文本预测该文本)。本领域内技术人员将意识到确定可能性函数可以涉及在离散概率分布、连续概率分布和混合连续离散分布之间区分，以及存在几种类型的可能性，诸如对数可能性、相对可能性、条件可能性、边缘可能性、剖面(profile)可能性和局部可能性。

在再一示例中，计算设备200可以被配置为通过分类器处理该文本的该部分和该语音输入以确定可能性。该分类器可以被定义为由将输入信息(例如，该文本的该部分和该语音输入)映射到分类(例如，正确预测该文本的候选文本)的分类算法实现的算法或者数学函数。

分类可涉及基于包含具有已知分类的观察值(或者实例)的数据训练集合，识别新的观察值属于哪一个分类集合(例如，“该候选文本正确预测该文本”和“该候选文本未正确预测该文本”)。个体的观察值可以被分析到被称为各种解释性变量或者特征的可量化属性的集合中。作为示例，分类可以包括将相应的可能性分配给如所接收的信息(例如，该文本的该部分和该语音输入)所指示的“该候选文本正确预测该文本”或者“该候选文本未正确预测该文本”分类。

在一个示例中，该分类可以包括概率分类。概率分类算法可以输出作为每个可能分类的成员的实例的概率(例如，通过与对该文本的预测相关的所接收的信息所指示的键入实例或者观察值组)：“该候选文本正确预测该文本”或者“该候选文本未正确该预测文本”。确定候选文本正确预测该文本的可能性可基于分配给每个分类的概率。而且，概率分类可以输出与对该文本的预测相关联的置信值。

示例分类算法可包括线性分类器(例如，Fisher线性判别、逻辑回归、朴素贝叶斯和感知器)、支持向量机(例如，最小平方支持向量机)、二次分类器、核估计(例如，k最近邻)、提振(boosting)、决策树(例如，随机森林)、神经网络、基因表达编程、贝叶斯网络、隐马尔科夫模型、和学习向量量化。其他示例分类法器也是可能的。

作为用于示意的一个示例，线性分类器可以被表示为线性函数，其使用点积通过组合实例(例如，键入实例)的特征向量(与该文本的该部分和该语音输入相关联的参数向量)和权重向量将分数或者可能性分配给每个可能分类k(例如，“该候选文本正确预测该文本”或者“该候选文本未正确预测该文本”)。具有较高分数或者可能性的分类可以被选为所预测的分类。这种类型的分数函数被称为线性预测值函数并具有下述通式：

Score(X_i,k)＝β_k·X_i 方程(1)

其中，X_i是实例i的特征向量，β_k是对应于类别k的权重向量，并且分数(X_i,k)是与将实例i分配给类别k相关联的分数。

作为一个示例，训练计算设备可以被配置为接收用于多个键入实例的训练数据。例如，对于多个键入实例的每一个，相应的训练数据可以包括相应的键入字符和相应的语音输入。而且，训练计算设备可以被配置为对于多个键入实例的每一个的相应的文本，确定给定的候选文本；以及接收给定候选文本正确预测相应的文本的肯定或者否定指示。进一步地，训练计算设备可以被配置为对于每个键入实例，将肯定或者否定指示与相应的训练数据相互关联；以及基于用于多个键入实例的相互关联确定分类器的参数(例如，方程1的权重向量)。这些参数可以被提供给计算设备200并存储在计算设备200处，使得随着计算设备200接收任意键入实例中的该文本的该部分和该语音输入，计算设备200可以被配置为使用所确定的该分类器的参数通过该分类器来处理该文本的该部分和该语音输入，以确定候选文本正确预测该文本的可能性。

在一个示例中，例如，可能性可以是定性的，诸如“低”、“中”或者“高”，或者是数值的，诸如数值范围上的数字。其他示例是可能的。

在一个示例中，计算设备200可以被配置为确定与基于该文本的该部分确定候选文本相关联的第一可能性；以及确定与基于该语音输入确定候选文本相关联的第二可能性。进一步，计算设备200可以被配置为组合第一可能性和第二可能性以确定该候选文本预测该文本的总体可能性。例如，组合第一和第二可能性包括确定第一和第二可能性的数学函数(例如，求和等)。在另一个示例中，组合第一和第二可能性可以产生定性的总体可能性。下述表1示出了用于示意的对于示例候选文本组合第一可能性和第二可能性的示例。

第一可能性	第二可能性	总体可能性
			低	低	低
低	高	中
			高	高	高

表1

在示例中，除了确定候选文本预测该文本的相应的可能性，计算设备200还可以被配置为确定候选文本的相应的排名。作为示例，参考图2A，计算设备200可以被配置为基于该文本的部分“Con”和与口头话语208相对应的语音输入，确定三个候选文本：“Constitution”、“Contribution”和“Convolution。”计算设备可以被配置为确定三个候选文本的每一个的相应的可能性；和基于相应的可能性，确定三个候选文本的每一个的相应的排名。例如，相应的排名可以指示相应的候选文本预测该文本的置信程度。比如，基于“Constitution”和“Convolution”这两个候选文本的相应的可能性，“Constitution”可以排名最高，而“Convolution”可以排名最低。

回到图1，在块110处，方法100包括提供该一个或多个候选文本。例如，计算设备可以被配置为视觉上向计算设备的用户呈现所确定的候选文本。作为示例，参照图2A，计算设备200可以被配置为生成候选文本210A、210B和210C列表的显示。候选文本210A-C可以是用户可选择的，使得用户可选择匹配用户可能试图键入的文本的正确候选文本，并且因此，正确的候选文本可以被插入在计算设备200的触摸屏202上的输入框204中。

在一个示例中，计算设备200可以被配置为基于候选文本210A-C的相应的排名(在上述块108处确定的)呈现列表的显示。例如，最高排名的候选文本可以在列表的顶端。

在确定候选文本的任务被分布在计算设备200和服务器之间的示例中，计算设备200可以被配置为向用户呈现基于该文本的该部分确定或者预测的候选文本，同时向服务器提供该文本的该部分和该语音输入。一旦从服务器接收到候选文本结果，计算设备200可以被配置为修改显示的候选文本列表以包括从服务器接收的候选文本，或者基于从服务器接收的信息改变候选文本的排名。例如，参照图2B，计算设备基于对应于“今天天气很好”的拼音首字母“jttqhh”，已经确定三个候选文本212A“今天天气哈哈”，212B“今天天气很好”，和212C“今天天气”。而且，计算设备200可以已经将候选文本212B排名为第二。基于从服务器接收的信息，计算设备200可以被配置为改变排名。

在另一个示例中，计算设备200可以被配置为接收该文本的该部分和该输入语音以基于相应的可能性确定候选文本和将候选文本排名；以及随着用户继续键入，计算设备200可以被配置为接收再一个键入字符，并因此基于该再一个字符改变候选文本和/或候选文本的排名。这样，计算设备200可以被配置为更新候选文本和相应的可能性。更新候选文本包括确认或者丢弃候选文本的子集。例如，如果候选文本被呈现在列表中，则计算设备200可以被配置为执行下述中一个或多个：(i)从列表移除候选文本中的一个，(ii)向列表添加再一个候选文本，或者(iii)改变候选文本在列表上被显示的顺序。

图2C示出了根据一个实施例用于预测文本的示例计算设备200，该计算设备200显示改变排名的候选文本。图2C示出了改变的候选文本212A-C的排名(即，相对于图2B中描绘的排名)，使得候选文本212B在列表的顶端处，其指示候选文本212B具有预测该文本的最高可能性。如上所述，在示例中，通过在计算设备200处接收更多的键入字符，或者通过基于该文本的该部分和该语音输入接收(例如，从服务器)所更新的候选文本来使排名改变。

图3示出了根据示例实施例的示例分布式计算架构。图3示出了服务器设备302和304，其被配置为经由网络306与可编程设备308a、308b和308c通信。网络306可以对应于LAN、广域网(WAN)、公司内部网、公共互联网，或者被配置为在联网的计算设备之间提供通信路径的任意其它类型的网络。网络306还可以对应于一个或者更多LAN、WAN、公司内部网和/或公共互联网的组合。

虽然图3示出了三个可编程设备，分布式应用架构可服务数十、数百或者数千可编程设备。而且，可编程设备308a、308b和308c(或者任意附加可编程设备)可以是任意种类的计算设备，诸如普通笔记本计算机、台式计算机、网络终端、无线通信设备(例如，平板、蜂窝电话或者智能电话等)，等等。在一些示例中，可编程设备308a、308b和308c可以专用于软件应用的设计和使用。在其他示例中，可编程设备308a、308b和308c可以是被配置为执行许多任务的通用计算机，并可以不专用于软件开发工具。

服务器设备302和304可以被配置为执行如可编程设备308a、308b和/或308c请求的一个或多个服务。例如，服务器设备302和/或304可以向可编程设备308a-308c提供内容。内容可以包括，但不限于，网页、超文本、脚本、二进制数据，诸如汇编软件、图像、音频和/或视频。内容可以包括压缩的和/或未压缩的内容。内容可以是加密的和/或未加密的。其他类型的内容也是可能的。

作为另一个示例，服务器设备302和/或304可以向可编程设备308a-308c提供到用于数据库、搜索、计算、图形、音频、视频、万维网/互联网利用，和/或其他功能的软件的访问。服务器设备的很多其他示例也是可能的。

服务器设备302和/或304可以是存储程序逻辑和/或基于云的应用和/或服务的数据的基于云的设备。在一些示例中，服务器设备302和/或304可以是存在于单一计算中心中的单一计算设备。在其他示例中，服务器设备302和/或304可以包括单一计算中心中的多个计算设备，或者位于不同地理位置中多个计算中心中的多个计算设备。例如，图3描述了存在于不同物理位置中的服务器设备302和304的每一个。

在一些示例中，服务器设备302和/或304处的数据和服务可以被编码为计算机可读信息，其存储在非暂时性、有形计算机可读介质(或者计算机可读存储介质)中并可通过可编程设备308a、308b和308c，和/或其他计算设备来访问。在一些示例中，服务器设备302和/或304处的数据可以被存储在单一盘驱动或者其他有形存储介质上，或者可以被实现在位于一个或多个不同地理位置处的多个盘驱动或者其他有形存储介质上。

图4A是根据示例实施例的计算设备(例如，系统)的框图。具体来说，图4A中所示的计算设备400可以被配置为执行服务器设备302、304、网络306，和/或可编程设备308a、308b和308c中的一个或多个的一个或多个功能。计算设备400可包括用户接口模块402、网络通信接口模块404、一个或多个处理器406和数据存储408，以上所有可以经由系统总线、网络或者其他连接机制410链接在一起。

用户接口模块402可以被操作以将数据发送到外部用户输入/输出设备和/或从用户输入/输出设备接收数据。例如，用户接口模块402可以被配置为向用户输入设备发送数据和/或从用户输入设备接收数据，所述输入设备诸如键盘、小键盘、触摸屏、计算机鼠标、轨迹球、控制杆、照相机、语音识别/合成模块，和/或其他类似设备。用户接口模块402也可以被配置为向用户显示设备提供输出，所述用户显示设备诸如现在已知的或者以后开发的一个或多个阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、使用数字光处理(DLP)技术的显示器、打印机、电灯泡，和/或其他类似设备。用户接口模块402也可以被配置为生成音频输出，诸如扬声器、扬声器插孔、音频输出端口、音频输出设备、耳机，和/或其他类似设备。

网络通信接口模块404可以包括可配置为经由诸如图3中所示的网络306的网络通信的一个或多个无线接口412和/或一个或多个有线接口414。无线接口412可以包括一个或多个无线发送器、接收器和/或收发器，诸如蓝牙收发器、Zigbee收发器、Wi-Fi收发器、LTE收发器，和/或可配置为经由无线网络通信的其他类似类型的无线收发器。有线接口414可以包括一个或多个有线发送器、接收器，和/或收发器，诸如以太网收发器、通用串行总线(USB)收发器，或者可配置为经由双绞线、同轴电缆、光纤链路或者类似到有线网络的物理连接通信的类似收发器。

在一些示例中，网络通信接口模块404可以被配置为提供可靠的、安全的和/或认证的通信。对于本文中所述的每个通信，可以提供用于确保可靠通信(即，保证的消息分发)的信息，可能作为消息头部和/或尾部(例如，分组/消息序列信息，封装头部和/或尾部，大小/时间信息，和诸如CRC和/或奇偶校验值的传输验证信息)的一部分。使用一个或多个密码协议和/或算法，通信可以被确保安全(例如，编码或者加密)和/或解密/解码，诸如，但不限于DES、AES、RSA、Diffie-Hellman和/或DSA。除了本文中列出的那些，其他密码协议和/或算法也可以使用以使通信安全(并且然后解密/解码)。

处理器406可以包括一个或多个通用处理器和/或一个或多个专用处理器(例如，数字信号处理器、专用集成电路等)。处理器406可以被配置为执行数据存储408中所包含的计算机可读程序指令415和/或本文中所述的其他指令(例如，方法100)。

数据存储408可以包括可以由处理器406中的至少一个读取和/或访问的一个或多个计算机可读存储介质。一个或多个计算机可读存储介质可以包括易失性和/或非易失性存储组件，诸如光学、磁性、有机或者其他存储器或者盘存储，其可以全部或者部分与至少一个处理器406集成。在一些示例中，数据存储408可以使用单一物理设备(例如，一个光学、磁性、有机或其他存储器或者盘存储单元)来实现，而在其他示例中，数据存储408可以使用两个或更多物理设备来实现。

数据存储408可以包括计算机可读程序指令415以及可能附加数据，诸如但不限于由一个或多个处理使用数据和/或软件应用的线程。在一些示例中，数据存储408可以附加地包括被要求执行本文中所述方法(例如，方法100)和技术的至少一部分和/或本文中所述设备和网络的至少一部分功能的存储。

图4B描述了根据示例实施例的基于云的服务器系统。在图4B中，服务器设备302和/或304的功能可以被分布在三个计算集群416a、416b和416c中。计算集群416a可以包括一个或多个计算设备418a(例如，计算设备400)、集群存储阵列420a和通过本地集群网络424a连接的集群路由器422a。类似地，计算集群416b可以包括一个或多个计算设备418b、集群存储阵列420b和通过本地集群网络424b连接的集群路由器422b。同理，计算集群416c可以包括一个或多个计算设备418c、集群存储阵列420c和通过本地集群网络424c连接的集群路由器422c。

在一些示例中，计算集群416a、416b和416c的每一个均可以具有相等数量的计算设备、相等数量的集群存储阵列和相等数量的集群路由器。在其他示例中，然而，每个计算集群可以具有不同数量的计算设备、不同数量的集群存储阵列和不同数量的集群路由器。每个计算集群中计算设备、集群存储阵列和集群路由器的数量可以取决于分配给每个计算集群的计算任务。

在计算集群416a中，例如，计算设备418a可以被配置为执行服务器设备302的各种计算任务。在一个示例中，服务器设备302的各种功能可以被分布在计算设备418a、418b和418c中的一个或多个中。计算集群416b和416c中的计算设备418b和418c可以类似于计算集群416a中的计算设备418a被配置。另一方面，在一些示例中，计算设备418a、418b和418c可以被配置为执行不同的功能。

在一些示例中，至少部分基于服务器设备302和/或304的处理要求，计算设备418a、418b和418c的处理能力，每个计算集群中计算设备之间和计算集群自身之间网络链路的延迟，和/或可以导致成本、速度、容错、弹性、效率和/或整体系统架构的其他设计目标的其他因素，与服务器设备302和/或304相关联的计算任务和所存储的数据可以跨计算设备418a、418b和418c分布。

计算集群416a、416b和416c的集群存储阵列420a、420b和420c可以是数据存储阵列，所述数据存储阵列包括被配置为管理到硬盘驱动分组的读取和写入访问的盘阵列控制器。盘阵列控制器，单独或者与它们相应的的计算设备一起，也可以被配置为管理集群存储阵列中存储的数据的备份或者冗余拷贝，以避免阻止一个或多个计算设备访问一个或多个集群存储阵列的盘驱动或者其他集群存储阵列故障和/或网络故障。

类似于服务器设备302和/或304的功能可以跨计算集群416a、416b和416c的计算设备418a、418b和418c分布的方式，这些组件的各种活动部分和/或备份部分也可以跨集群存储阵列420a、420b和420c分布。例如，一些集群存储阵列可以被配置为存储服务器设备302的数据，而其他集群存储阵列可以存储服务器设备304的数据。附加地，一些集群存储阵列可以被配置为存储其他集群存储阵列中存储的数据的备份版本。

计算集群416a、416b和416c中的集群路由器422a、422b和422c可以包括联网装置，其被配置为向计算集群提供内部和外部通信。例如，计算集群416a中的集群路由器422a可以包括一个或多个互联网交换和路由设备，其被配置为提供(i)经由本地集群网络424a的计算设备418a和集群存储阵列420a之间的局域网通信，和(ii)经由到网络306的广域网连接426a的计算集群416a和计算集群416b和416c之间的广域网通信。集群路由器422b和422c可以包括类似于集群路由器422a的网络装置，以及集群路由器422b和422c可以对于计算集群416b和416c执行类似集群路由器422a对于计算集群416a执行的联网功能。

在一些示例中，集群路由器422a、422b和422c的配置可以至少部分基于计算设备和集群存储阵列的数据通信要求，集群路由器422a、422b和422c中的网络装置的数据通信能力，局域网424a、424b和424c的延迟和吞吐量，广域网链路426a、426b和426c的成本，和/或可以导致成本、速度、容错、弹性、效率和/或适当系统架构的其他设计目标的其他因素。

在一些示例中，所公开的方法(例如，方法100)可以被实现为以机器可读格式编码在非暂时性计算机可读存储介质上或者其他非暂时性介质或者制造品上的计算机程序指令。图5是示出示例计算机程序产品的概念局部视图的示意图，所述产品包括用于在根据本文中所呈现的至少一些实施例安排的计算设备上执行计算机过程的计算机程序。

在一个实施例中，使用信号承载介质501提供示例计算机程序产品500。信号承载介质501包括一个或多个编程指令502，所述指令502当通过一个或多个处理器执行时可以提供关于图1-4的上述的功能或者部分功能。在一些示例中，信号承载介质501可以包含计算机可读介质503，诸如但不限于，硬盘驱动、压缩盘(CD)、数字视频盘(DVD)、数字带、存储器等。在一些实现中，信号承载介质501可包含计算机可记录介质504，诸如但不限于，存储器、读取/写入(R/W)CD、R/WDVD等。在一些实现中，信号承载介质501可以包含通信介质505，诸如但不限于，数字和/或模拟通信介质(例如，光缆、波导、有线通信链路、无线通信链路等)。这样，例如，信号承载介质501可通过无线形式的通信介质505(例如，符合IEEE 802.11标准或其他传输协议的无线通信介质)来传达。

一个或多个编程指令502，例如，可以是计算机可执行和/或逻辑实现的指令。在一些示例中，诸如图3中的可编程设备308a-c或者图4B的计算设备418a-c的计算设备可以被配置为响应于通过计算机可读介质503、计算机可记录介质504和/或通信介质505中的一个或多个被传达到可编程设备308a-c或者计算设备418a-c的编程指令502，提供各种操作、功能或者动作。

应该理解本文中所述的安排仅仅用于示例。同样地，本领域内技术人员将领会到其他安排和其他元件(例如，机器、接口、功能、顺序和功能的分组等)可以被替代使用，并且根据想要的结果，一些元件可完全省略。进一步，所述的很多元件是在任意适当的组合和位置中可被实现为离散或者分布的组件或者与其他组件结合的功能实体。

虽然本文中已经公开各个方面和实施例，而其他方面和实施例对于本领域内技术人员将是显而易见的。本文中所公开的各个方面和实施例用于示意而不意在限制，所附权利要求连同该权利要求的授权等同的全部范围一起指出了真正的范围。还应该理解本文中所使用的术语仅仅用于描述特定实施例，并不意在限制。

Claims

1.一种方法，包括：

接收组成文本的部分的一个或多个键入字符；

接收与所述文本的至少所述部分的口头话语相对应的语音输入；

基于所述一个或多个键入字符和所述语音输入确定预测所述文本的一个或多个候选文本；和

提供所述一个或多个候选文本。

2.根据权利要求1所述的方法，其中所述文本是下述之一：(i)词素，(ii)单词，或者(iii)短语。

3.根据权利要求1所述的方法，其中所述文本和所述口头话语是相同语言。

4.根据权利要求1所述的方法，其中所述文本由第一语言中的一个或多个字母构成并且所述口头话语是不同于所述第一语言的第二语言。

5.根据权利要求4所述的方法，其中所述第一语言是英语以及所述一个或多个键入字符包括拼音字符，并且其中所述第二语言是汉语、日语或者韩语中的一个。

6.根据权利要求1所述的方法，其中接收所述文本的所述部分和所述语音输入包括在计算设备处接收所述文本的所述部分和所述语音输入。

7.根据权利要求1所述的方法，进一步包括，对于所述一个或多个候选文本的每一个，确定相应的候选文本预测所述文本的相应的可能性，其中提供所述一个或多个候选文本包括基于对于所述一个或多个候选文本确定的相应的可能性提供所述一个或多个候选文本。

8.根据权利要求7所述的方法，其中提供所述一个或多个候选文本包括：

基于相应的可能性对于所述一个或多个候选文本的每一个确定相应的排名；和

基于所述一个或多个候选文本的相应的排名生成所述一个或多个候选文本的列表的显示。

9.根据权利要求8所述的方法，进一步包括：

接收所述文本的再一个键入字符；

基于所述再一个键入字符更新所述一个或多个候选文本的相应的可能性；和

更新所述一个或多个候选文本的相应的排名和所述列表的显示。

10.根据权利要求9所述的方法，其中更新所述一个或多个候选文本的相应的排名和所述列表的显示包括下述中的一个或多个：(i)从所述列表移除所述一个或多个候选文本中的一个，(ii)将再一个候选文本添加到所述列表，或者(iii)改变所述列表上所述一个或多个候选文本的显示顺序。

11.根据权利要求7所述的方法，其中对于所述一个或多个候选文本的每一个，确定相应的可能性包括：

确定与基于所述一个或多个键入字符确定所述候选文本相关联的第一可能性；

确定与基于所述语音输入确定所述候选文本相关联的第二可能性；和

组合所述第一可能性和所述第二可能性以确定所述相应的可能性。

12.根据权利要求7所述的方法，其中确定相应的可能性包括通过分类器处理所述一个或多个键入字符和所述语音输入，所述分类器由先前收集的训练数据所训练，其中训练所述分类器包括：

接收用于多个键入实例的训练数据，其中用于所述多个键入实例的每一个的相应的训练数据包括(i)相应的键入字符，和(ii)相应的语音输入；

对于所述多个键入实例的每一个的相应的文本确定给定候选文本；

接收所述给定候选文本正确预测所述相应的文本的肯定或否定指示；

对于每个键入实例，将所述肯定或否定指示与相应的训练数据相互关联；和

基于所述多个键入实例的相互关联确定所述分类器的参数。

13.根据权利要求1所述的方法，其中确定所述一个或多个候选文本包括：

基于所述一个或多个键入字符确定第一集合的候选文本；

基于所述语音输入确定第二集合的候选文本；和

基于所述第一集合的候选文本与所述第二集合的候选文本的比较来选择所述一个或多个候选文本。

14.一种具有存储其上的指令的计算机可读介质，所述指令当通过计算设备执行时，使所述计算设备执行包括下述的功能：

接收组成文本的部分的一个或多个键入字符；

提供所述一个或多个候选文本。

15.根据权利要求14的所述计算机可读介质，其中所述功能进一步包括，对于所述一个或多个候选文本的每一个，确定指示相应的候选文本预测所述文本的置信程度的相应的排名，其中提供所述一个或多个候选文本的所述功能包括，基于所述一个或多个候选文本的相应的排名生成所述一个或多个候选文本的显示。

16.根据权利要求14所述的计算机可读介质，其中所述功能进一步包括：

接收所述文本的再一个键入字符；和

基于所述再一个键入字符更新所述一个或多个候选文本，其中提供所述一个或多个候选文本的所述功能包括基于所述更新提供所述一个或多个候选文本。

17.一种系统，包括：

音频捕捉设备；和

计算设备，所述计算设备耦接到所述音频捕捉设备并被配置为：

接收组成文本的部分的一个或多个键入字符；

从所述音频捕捉设备接收与所述文本的至少所述部分的口头话语相对应的语音输入；

基于所述一个或多个键入字符和所述语音输入确定一个或多个候选文本；

对于所述一个或多个候选文本的每一个，确定相应的候选文本预测所述文本的相应的可能性；和

基于对于所述一个或多个候选文本确定的相应的可能性提供所述一个或多个候选文本。

18.根据权利要求17所述的系统，其中所述文本是由多个单短语成的短语以及所述一个或多个键入字符是所述多个单词的拼音首字母，并且其中所述口头话语是汉语语言、日语语言或者韩语语言中的一个。

19.根据权利要求17所述的系统，其中为了确定所述一个或多个候选文本，所述计算设备被配置为：

基于所述一个或多个键入字符确定第一集合的候选文本；

基于所述语音输入确定第二集合的候选文本；和

选择所述第一集合和所述第二集合之间共同的所述一个或多个候选文本。

20.根据权利要求17所述的系统，进一步包括耦接到所述计算设备的显示设备，其中为了提供所述一个或多个候选文本，所述计算设备被配置为：

基于相应的可能性确定所述一个或多个候选文本的每一个的相应的排名；和

基于相应的排名生成所述一个或多个候选文本的显示，其中所显示的一个或多个候选文本是用户可选择的。