CN102893239B

CN102893239B - 电子设备的文本输入系统及文本输入方法

Info

Publication number: CN102893239B
Application number: CN201180019133.8A
Authority: CN
Inventors: 本杰明·德洛克; 乔纳森·雷诺兹
Original assignee: Touchtype Ltd
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-03-04
Filing date: 2011-03-04
Publication date: 2016-05-18
Anticipated expiration: 2031-03-04
Also published as: CN102893239A; US20130041857A1; EP2542951A2; GB201003628D0; WO2011107751A2; EP2542951B1; US9052748B2; WO2011107751A3

Abstract

本发明涉及一种文本预测重新排序的系统及方法。具体而言，涉及一种基于修正过的概率值为文本预测重新排序的系统及方法。其中，根据给定文本预测将要出现在用户输入文本中的可能性修正概率值。

Description

电子设备的文本输入系统及文本输入方法

技术领域

本发明涉及电子设备的文本输入系统及文本输入方法，特别是一种对供显示和用户选择的文本预测进行自适应重排序的系统和方法。重新排序文本预测，以便将更接近当前文本语境的文本预测置于列表顶部显示并供用户选择，由此辅助用户进行文本输入。

背景技术

目前，存在着许多电子设备使用的文本输入技术，例如，台式电脑或笔记本电脑使用的标准键盘（QWERTY-style）文本输入，个人数字助理（PDA）使用的手写识别，移动电话设备使用9位数字键盘的字母符号输入，标准电脑设备及移动电脑设备使用的语音识别文本输入系统，以及触屏装置。

在移动电话技术领域中，已有多种文本输入技术。其中比较有名的文本输入技术包括特捷通讯公司（TegicCommunications）的“T9”，摩托罗拉（Motorola）的“iTap”，Nuance通讯公司的“XT9”、“eZiType”和“eZiText”，黑莓的“SureType”，KeyPoint科技公司（KeyPointTechnology）的“AdapTxt”和上海汉翔信息技术有限公司（CooTek）的“TouchPal”。这些技术大多是基于字符的文本输入技术，并利用了一些文本预测（或歧义消除）技术。在不同的已知模型中，支持一本具有合法词条的词典（或多本词典），并且赋予词典特定的输入序列。文本输入系统从该词典中选择一条（或一组）合法的词条，并将该词条作为潜在填充的候选词条呈现给用户。可由用户输入新的词条来扩充上述基础词典，这一扩充受限于设备的可用内存容量。

在这些文本输入系统中，除了某些系统（诸如“eZiText”、“AdapTxt”、“TouchPal”）中根据即时的词汇语境，对潜在填充的候选词条进行排序，其余系统根据使用频率的统计，对潜在填充的候选词条进行排序。

发明内容

本发明对这种仅以使用时间或频率为依据进行文本预测排序的文本输入系统进行了显著的改进，并允许对会受到预测词条或短语属于当前文本语境（例如，由用户输入的当前文本序列）可能性影响的文本预测进行排序。本发明提供的文本输入系统允许使用“非本地”语境（Nonlocalcontext）。

由此，本发明提供了一种能够对其自身生产的文本预测进行更为准确排序的系统，用以减少用户的文本输入强度（因为，用户很少不得不靠翻动预测词条列表或输入额外字符来找出他们需要的词条）。

本发明提供了一种利用矢量空间技术和随机索引来评估给定词条或短语属于当前文本语境的可能性的文本输入系统及方法。由此，该系统可基于词条/短语属于当前文本语境的可能性，为给定的预测词条/短语生成一修正过的概率值。该系统使用这一修正过的概率值重新排序和/或选择由文本预测引擎生成的文本预测。之后，显示生成的文本预测，以供用户选择并输入电子设备。

利用文本预测输入当前文本的可能性重新排序文本预测，可带来如下有益效果：将与当前文本语境更为相关的文本预测置于列表顶部显示以供用户选择，由此辅助用户输入文本。这样非常有益的是可将呈献给用户的预测文本空间限制在该文本预测的子集上。由此，本发明所提供的系统能够根据用户输入的文本准确地预测出与用户意图最为接近的文本预测。

参照下列附图，详细介绍本发明。

附图说明

图1为本发明系统的结构示意图；

图2为图1示出的本发明系统结构中矢量空间相似度模块的细节示意图；

图3为本发明方法的流程图。

具体实施方式

本发明提供了一种基于语言模型的文本预测系统，用于文本预测成分的自适应重排序。该系统利用矢量空间技术，优选为随机索引，基于文本预测属于用户输入的文本片段的可能性修正分配给文本预测的概率值。

随机索引是一种用于生成表示矢量空间词条的语境矢量的矢量空间技术。为给定信息段中的每个语境（例如，在这种情况下为每个文档）分配一个唯一且随机生成的所谓索引矢量。随机索引是一种增量法，这意味着可使用语境矢量来进行相似度计算，即使是文本预测系统仅仅在体验若干语境之后。在本系统中，为每个文档分配一个唯一的索引矢量，而且每个词条具有一个与索引矢量相关的语境矢量。语境矢量包含出现该词条的所有文档的索引矢量。由于潜在的随机索引模型逐渐递增，故在用户创建新“文档”时本系统允许即时更新。

尽管用于生成语境矢量以及将一组文档中的词条映射入矢量空间的技术优选为随机索引，但本发明并不仅限于使用随机索引。作为非限制性实例，对于矢量空间/分布相似模型而言，可使用潜在语义分析（LatentSemanticAnalysis）、概率语义分析（ProbabilisticSemanticAnalysis）、或潜在狄利克雷分配模型（LatentDirichletAllocationmodel）。

在随机索引中，词条被映射入矢量空间。在该空间内，各点间距离（以距离度量或逆相似性度量估算）表示为这些点所代表的词条间的某种关系。本系统根据一组训练该系统所基于的已存在的文档，使用随机索引评估两条任意词条出现在同一文档中的可能性。文档包括明显的、具有清楚定义的首尾端点的文本段。作为非限制性实例，所述文档可以是电子邮件消息、新闻报道、博客条目（blogentry）、短信息（SMSmessage）、杂志文章或学术论文。可以预见，如果两个词条恰好出现在一组训练数据中的同一组文档中，则在矢量空间中这两个词条势必距离很近。相反，如果这两个词条出现在互不相交组别的文档中，则在矢量空间中这两个词条势必距离很远。

在本发明中，所述系统使用随机索引将一组文档中的词条映射入矢量空间。该系统用于确定矢量空间中表示预测词条的矢量与表示用户输入电子设备的当前词条的矢量之间的接近程度。该系统基于矢量空间中所述矢量之间的接近程度，生成对应于各个预测词条的修正过的概率值。由此，本系统生成预测词条与用户输入至设备的词条出现在同一用户输入文本段的可能性的评估。

如上所述，本系统使用文本预测成分的修正过的概率对其根据用户输入文本生成的文本预测成分进行重新排序。因此，本系统可以（基于可能存在的本地语境、非本地语境以及当前词条信息）将可能性最高的文本预测置于供显示和用户选择的文本预测列表的顶部，由此辅助用户选择及文本输入。

本系统可应用于多种电子设备中。作为非限制性实例，本系统可以用于移动电话的文本输入、个人数字助理的文本输入、或电脑的文本输入（例如，在可使用击键和滚轮机构选择相关文本预测的设备中使用，或者在使用触屏技术的设备中使用）。

图1示出了本发明系统。下面，参照图1详细介绍本系统的组成部分。

首先，本系统包括用于生成文本（或类似元素）预测的预测器1。预测器是一种根据某类文本语境（例如，当前文档2）生成一组文本预测3的装置。每个文本预测3由诸如词条或短语（表示为s_i）的文本字符串和表示为p_i的概率值构成。由此，文本预测3的集合的表示形式可以为{(s_1,p_1),(s_2,p_2)…(s_n,p_n),}，其中，在该集合中存在n个文本预测。如同本领域技术人员理解的那样，在文本预测系统中可以使用任意类型预测器和任意个预测器来生成文本预测3。优选地，预测器基于用户输入文本的语境生成文本预测，即：预测器基于之前n-1个词条的语境生成第n个词条。此处的“语境”表示之前出现在文本序列中的词条，以及该系统对于当前词条的所有认识（即，以特定字符或字符串开头，或者已表明为某一类主题）。根据特定语境，该系统使用概率评估预测出随即最可能出现的词条。既可以使用多语言模型，又可以使用单语言模型来生成文本预测。在英国专利申请号为0905457.8、国际公开号为WO2010/112841、名称为“电子设备的文本输入系统及文本输入方法”专利文献中，有使用预测器（单语言模型和多语言模型）生成文本预测的完整描述，在此，可参照该专利文献的全文。此外，在英国专利申请号为0917753.6、国际申请号为PCT/GB2010/001898、名称为“电子设备的文本输入系统及文本输入方法”的专利文献中，有使用自适应预测器（单语言模型和多语言模型）生成分类加权文本预测的完整描述，在此可参照该专利文献的全文。

当前文档2由一系列表示当前文档的词条构成，例如，部分完成的电子邮件消息、新闻报道等。当前文档2提供输入至预测器1的文本语境，以使预测器1生成文本预测3。

文本预测3可以是由预测器1生成的单词、短语或标点符号或类似字符。优选地，文本预测为语境化文本预测。这些文本预测可显示给用户，以供用户选择，并允许用户发展或完成句子/文档。

本发明系统还包括文档限定文本源4。该文档限定文本源4是被组织成“文档”的文本数据集合。该“文档”为多个内容同属一类的文本段（例如，某一主题的文章或者发送给某人的电子邮件）。利用该文档限定文本源4中包含的文本数据来训练上述预测器1。

该系统还包括矢量空间相似度模块5。作为该系统的一个组成部分，矢量空间相似度模块5用于根据给定文本预测出现在当先文档中的可能性的评估，调整与预测器1输出的词条或短语预测相关的概率。结果得到了一个经（潜在）重新排序的预测集合6。矢量空间相似度模块5以当前文档2、文档限定文本源4以及文本预测为其输入，而以重新排序的预测集合6为其输出。

根据本发明，当用户向电子设备中输入文本时，被输入的文本（即，当前文档2）经过至少一个预测器1和矢量空间相似度模块5。利用本领域已知的分词器（tokeniser）将用户输入文本划分成多个词条。预测器1使用分词化的用户输入文本生成词条或短语（或类似成分）预测3。文本预测3被转至矢量空间相似度模块。该矢量空间相似度模块5使用来自于当前文档2和文档限定文本源4的分词化信息对文本预测3进行重新排序，并通过修正与生成的文本预测3相关的概率生成一组（潜在）重新排序的预测6。在下文中将详细介绍这一过程。

图2示出了矢量空间相似度模块5的具体构成。该矢量空间相似度模块5用于根据每个预测词条出现在当前文档（假设为当前已输入的词条）中的可能性，修正与生成的预测词条相关的概率，并相应地对预测词条重新排序。

该矢量空间相似度模块5包括随机索引词条矢量映射7、余弦相似度模块10和加权模块12。

通过向目标矢量空间分配维度D，构建该随机索引词条矢量映射7。可向目标矢量空间分配任意维度，但通常选择在1000~3000之间的维度D。该随机索引词条矢量映射7用于为训练数据中的每个文档（也就是文档限定文本源4中的每个文档）生成D-维索引矢量。该随机索引词条矢量映射7为所有出现该词条的文档分配由索引矢量构成的语境矢量。索引矢量是稀少且随机地投射入矢量空间，并由随机索引词条矢量映射7通过在维度范围内随机分配较小数量（<<D）个±1以及为其他维度分配一0值，来生成所述索引矢量。举例来说，给定目标数量个非“0”词条，n<<D，随机索引词条矢量映射7通过在所有矢量单元上迭代而生成随机事件，其中矢量单元的总数等于维度D。对于任意给定的矢量单元，随机索引词条矢量映射7根据如下概率，随机为矢量单元分配0、+1或-1值。

对于概率~n/2D，随机索引词条矢量映射分配+1值；

对于概率~n/2D，随机索引词条矢量映射分配-1值；

对于概率~(D-N)/D，随机索引词条矢量映射分配0值。

从随机索引词条矢量映射7中过滤出一些词条，因为这些词条被认定为只能增加“噪音”而非有用信息。一组过滤掉的词条取决于域/应用，但作为例子，词条“the”在大多数情况下会经常出现，如果不是所有文档都存在于基于英语的域中，则在判断预测词条是否会出现在当前文档中时，做出词条“the”很少被使用的判断。其中一个途径是过滤掉在整个训练数据集合（即，文档限定文本源4）中具有较高出现率的词条。过滤阀值取决于语言种类、训练数据量等。作为非限制性实例，对于英语来说，出现概率大于0.01的词条会被过滤掉。另一实例是删除一些“忽略词”（stopwords），例如主要目的是提供语法结构但没有太多实际语义的词条。可过滤掉的某些忽略词的实例如下：“a”、“an”、“the”、“this”、“those”、“then”、“of”、“in”、“at”、“about”、“by”。忽略词并不仅限于上文所列出的那些词条，其他忽略词同样会被过滤掉。

在建成各个新文档时，由随机索引词条矢量映射7为新文档分配新的索引矢量，之后将该索引矢量加入至该包含在该文档内的所有词条的语境矢量。每个词条的语境矢量由出现有该词条的所有文档的索引矢量构成。因此，在建成新文档时，该文档中每个词条的全部索引矢量还包括与该文档对应的新的索引矢量。这样，在获得新数据时，可以持续更新随机索引词条矢量映射7。

配置随机索引词条矢量映射7，从而在以特定词条表示随机索引词条矢量映射7时，该随机索引词条矢量映射7返回与该词条相关的矢量。在实现过程中，随机索引词条矢量映射7包含以实值矢量（即：存在于多维实数空间中的矢量）与词条关联的数据结构。

从随机索引词条矢量映射7中，找回一组对应于每个文本预测3的语境矢量，以生成预测矢量8。如果文本预测是短语而非词条，则生成作为短语中每个词条语境矢量的算术平均值且与该文本预测相关的预测矢量8。某些预测词条并未存在于随机索引词条矢量映射7中，因为这些预测词条被当成“噪音”过滤掉了。在这种情况下，矢量空间相似度模块5并未改动概率值。

所述随机索引词条矢量映射7还用于生成平均文档矢量9。从随机索引词条矢量映射7中，找回一组对应于当前文档2（即：用户输入文本）中每个词条的语境矢量。通过计算当前文档2的词条语境矢量的算术平均值，生成平均文档矢量9。优选地，该算术平均值为平均数（meanvalue）。如上所述，存在着在随机索引词条矢量映射7中找不到当前文档中某些词条的可能性，因为这些词条例如已被过滤掉了。因此，平均文档矢量9是出现在当前文档2和随机索引词条矢量映射7中的词条交集的语境矢量算术平均值。

矢量空间相似度模块5还包括上文提到的余弦相似度模块10。该余弦相似度模块10用于确定由随机索引词条矢量映射7生成的平均文档矢量9与随机索引词条矢量映射7生成的每个预测矢量8之间的余弦相似度。余弦相似度值的范围介于-1（最不相似）和+1（最相似）之间。将求得的相似度值与其各自对应的预测文本相映射，以提供一组带有相应相似度11的文本预测，并将这组文本预测转至加权模块12。

尽管余弦相似度度量是优选的，但还可以选择诸如欧几里德距离（Euclideandistance）和点积（dotproduct）等矢量相似性度量。还可选择其他相似性度量，例如Jaccard指数（Jaccardindex）和Dice系数（Dice’scoefficient）。然而，余弦相似度度量还是首选的，因为余弦相似度度量的长度经过标准化处理，且适用于矢量运算。

加权模块12用于根据相似度值11修正每个文本预测3的概率。该加权模块12根据余弦相似度和概率值加权预测概率，由此生成修正过的概率值。该加权模块执行一加权函数w(p,s)=p’，其中，p和p’为概率，s为余弦相似度值。该函数有多种表示方式，其中，作为非限制性实例，下面列出三种表示形式：

假设，最简单的表示形式为：

w(p,s)=max(s,k)·p(1)

其中，0≤k≤1。余弦相似度值的范围在-1和+1之间。参数k将这一范围限定在k和+1之间。由此，常量k表示为该余弦相似度值s能够影响预测概率p的值域下限。在这种情况下通过限定余弦值范围，可防止得到的修正过的概率值降到0以下。此外，这一限定能够控制相似度值对概率值的影响程度。举例来说，如果k=1，则相似度值不会影响到概率值。

有益的是，在加工资源严格受限的情况下，这一公式非常便于计算。然而，这一公式为非标准化公式，而且除了在对于所有相似度值而言k=1ors=1的那些基本不会发生的情况下分配给文本预测的总体概率质量维持不变之外，总是引起所述总体概率质量的下降。

因为可将由本系统输出的修正过的概率值与其他系统输出的概率值进行比较，所以使用标准化公式是有益的。所述其他系统可以是诸如包括多个预测器的层次系统或者除本发明中描述的系统之外的系统等。如果较大地改动了判断尺度，则将会破坏这一比较。

下列一可供选择的公式维持了与文本预测相关的总体概率的质量，但会重新分配总体概率的质量以使其与初始概率的相似度评量表相称。

w (p, s) = [\frac{\max (s, k) \cdot p}{Σ [\max (s, k) \cdot p]}] \cdot Σp

其中，0≤k≤1。

求和过程遍及该组文本预测，并且该公式的直观释义为相似度值未提供能够证明预测给定词条或短语可能性的独立证据，而是用于评量现有的概率。因此，如果相似度值相等，则概率保持不变。

下列的第三个公式维持了与文本预测相关的总体概率的质量，但会重新分配总体概率的质量以使其与概率和相似度值之间的加权平均值相称。

w (p, s) = [λ \frac{\max (s, 0)}{S} + (1 - λ) \frac{p}{P}] \cdot P

其中，0≤λ≤1，S=∑max(s,0)，P=∑p。

在该公式中，可以看出来自于相似度值的证据以及文本预测概率各自带有根据λ参数分配而来的权重。该λ参数调整相似度值贡献与概率值贡献之间的权重。如果将λ的值设为0.5，则表示要为两种不同类型的值分配相同的权重。如果将λ的值设为0，则表示相似度值未带来任何贡献，初始概率由此未发生变化。因此，如果将λ的值设为1，则根据相似度值完全支配最终概率，并忽视掉初始概率。∑max(s,0)确保产生的值大于等于0。这种方法非常适合那些需要明确控制概率贡献和相似度值贡献的情况。

对于那些无需严格限定文本源的情况，可在生成文本预测准确性的试验验证基础上，选择使用哪种公式。

对于量值稠密的矢量空间而言，余弦相似度值可以趋于值域上限，占据接近于1的相当小的一段。在这种情况下，需要将相似度值映射到一段较广的范围内。在此，可使用简单的线性函数来实现这一映射。

加权模块12的输出为一组（潜在）重新排序的文本预测6。优选地，该加权模块用于将文本预测的修正过的概率值插入至有序相联结构（现有技术），以便返回p个最可能的文本预测，进而生成重新排序的文本预测6。该结构包括映射至修正过的概率值的文本预测。

举例来说，假设修正过的文本预测“a”→0.2，“the”→0.3，“an”→0.1，“these”→0.2，加权模块将这些加权文本预测插入至有序相联结构后得到下列元素排序：((0.1→“an”),(0.2→“a”),(0.3→“the”))。然后，反向读取该结构以获得一组最终的“最可能的”文本预测。

由用户从重新排序的列表6中选出的预测词条可被输入至本系统。之后，被输入的词成为当前文档2中的词条。被输入的词为传递给预测器1的一部分信息，用来生成新的文本预测3。此外，该被输入的词还被用来（同上一条用户文本输入一起）生成下一个平均文档矢量9。该平均文档矢量9用来重新排序下一组文本预测3，以便生成下一个显示给用户和/或供用户选择的重新排序的文本预测集合。一旦由用户完成当前文档（例如，用户完成并发送一条文本消息或电子邮件），便使用该文档来更新用于训练预测器1的文档限定文本源4和用来生成语境矢量以重新排序文本预测的随机索引词条矢量映射7。为了将已完成的文档加入至随机索引词条矢量映射7，为其分配一个新的索引矢量，该索引矢量随后被加入至该文档所包含的全部词条的语境矢量。在这种情况下，随着新数据的获取，将不断更新随机索引词条矢量映射7，使本系统可随时间流逝或不断的使用来进化（或者适应用户）。

如上文所述，本系统的预测器1可由包含多个按层级排列的子预测器的预测器（也就是如英国专利申请号为0917753.6或国际专利申请号为PCT/GB2010/001898的专利申请所示出的用于生成分类加权文本预测的自适应预测器）构成。每个子预测器可由其所属的预测器所专用的文本源来训练。如图1所示，文档限定文本源4可以为包含多个用于训练对应子预测器的子文本源的主文本源。

用来训练本系统预测器1的文本源不必是文本限定文本源4。然而，为了获得最佳结果，优选使用文本限定文本源4来训练该预测器1。

借助于一非限制性实例，如果用户已向本系统输入文档，则该文档被加入至文档限定文本源4，并且更新了随机索引词条矢量映射7，使随机索引词条矢量映射7包含了该文档。然而，并不需要使用该文档来进一步训练预测器1，而且不需要将该文档加入至与图1示出的预测器1的多个子预测器相对应的文本源中。在这种情况下，如果用户想要开始输入与之前输入的文档相同的词序列，则由预测器1生成的文本预测将与为之前输入的文档生成的文本预测相同（因为，之前输入的文档的词序列没有被用来训练预测器）。然而，由本系统生成的最终文本预测被（潜在地）重新排序，由于随机索引词条矢量映射7的更新而包含了加入至文档限定文本源4的文档，因此随机索引词条矢量映射7生成的预测文本矢量8和平均文档矢量9将发生变化（不同于那些为之前输入的文档文本序列生成的预测文本矢量8和平均文档矢量9）。

可选地，已输入的文档被加入至一个或多个用于训练多个预测器的多重文本源。在这种情况下，新文档被加入至用于训练预测器的所有文本源。可选地，可使用分类技术来预测该新文档实际属于哪个文本源，例如，如果用户输入关于足球的消息，并由分类器确定该文本是具有高可信度（精确阀值形成的“高可信度”依赖于有问题的应用）的足球类消息，则该新文档被加入至多重文本源中关于足球的文本源。很显然，在某一情况下，基于分类的结果，适于将文档加入至多个文本源。

正如本领域技术人员会意识到的那样，这一操作可被应用于包含有本发明描述的多重系统的层次系统。在这种情况下，会存在多个预测器和多个文档限定文本源4。通过将由每个系统（如图1所示）生成的被重新排序的文本预测6插入至有序相联结构并读取p个最可能值，将所述文本预测6结合在一起构成一个最终的重新排序文本预测集合。

然后，由用户输入的文档被加入至所有的文档限定文本源4，或者未被加入至任何一个文档限定文本源4，或者仅被加入至最相关的文档限定文本源4。此外，为了确定最相关的文档限定文本源4，本系统使用分类器将文档划分至特定主题。然后，本系统根据分类结果将该文档加入至一个或多个文档限定文本源。

作为一种相对安全的选择，该文档被加入至所有多重文本源或文档限定文本源4，或者未被加入至任何一个多重文本源或文档限定文本源4。然而，理想化地，在（人工核查）确认该文档确实属于某一文本源之前，并不永久地将该文档加入至该文本源。这一确认步骤与在其中使用文档限定文本源4训练其预测器1的系统最为相关。在这种情况下，新文档除了被用来训练文本预测重新排序的方法之外，还被用来训练其他预测器。然而，在用来训练预测器的文本源为非文档限定文本源4的另一种情况下，可忽略掉用来确认文档是否已被修正分类的步骤。将输入文档加入至最相关文本源或文档限定文本源4被论证为最佳选择，但其取决于相对精确的分类器。

下面结合图3详细介绍本发明方法。图3为处理用户文本输入及生成文本预测重新排序集合的方法流程图，其中，对于文本预测的重新排序是基于预测词条或短语属于用户输入文本序列的可能性来完成的。具体方法为：包括在电子设备中接收用户文本输入20的第一步骤。该用户文本输入被用于步骤21，即：使用一个或多个预测器，根据用户文本输入生成文本预测3。该方法还包括使用具有随机索引词条矢量映射7的矢量空间相似度模块5为每个文本预测3生成一预测矢量8的步骤22。该用户文本输入还被用于步骤23，即：使用具有随机索引词条矢量映射7的矢量空间相似度模块5为用户输入文本2中的每个词条生成语境矢量。该方法还包括使用矢量空间相似度模块5求出语境矢量的平均值来生成平均文档矢量9的步骤24。该方法还包括使用余弦相似度模块10求出平均文档矢量9与每个预测矢量8之间的余弦相似度来生成相似度值11的步骤25。该方法还包括由加权模块12使用相似度值11修正与每个文本预测相关的概率的步骤26。最后，（如果需要的话）该方法包括使用矢量空间相似度模块5重新排序文本预测3，并将经重新排序的文本预测26输出显示给电子设备用户以供用户选择输入电子设备的文本预测的步骤27。

下面参考图2及特定实例，详细介绍用于生成一组重新排序的输出文本预测的方法。出于非限制性举例为目的，假设应用领域为电子邮件，并且矢量空间相似度模块5已经过一组电子邮件消息（文档限定文本源）4的训练。随着训练文档（消息）数量的增加，将提高预测词条6的准确性。

在该实例中，当前用户输入文本，即：当前文档2由下列文本序列构成：

“DearMartha,

HowlovelytohearaboutyourworkattheKampalaChildren’sCentre.Ispentsometimein”

并且预测器1已生成下列文本预测集合3：

(the,0.1)

(Cambridge,0.095)

(Switzerland，0.08)

(my,0.08)

(a,0.075)

(Uganda,0.06)

(China,0.06)

(August,0.05)

(Kampala,0.04)

(their,0.03)

在实际应用中，预测器用于生成更大的预测集合。然而，以举例为目的，限定文本预测集合3的文本预测条数为10。

以来自于文本预测集合3的每个词条询问已经由电子邮件消息训练集合4训练的随机索引词条矢量映射7，从而生成一组预测矢量8。由于文本预测集合3中的某些词条已被过滤掉（如上文所述），因此这些词条不会存在于随机索引词条矢量映射7中。在本实例中，假设存在下列词条：“Cambridge”、“Switzerland”、“Uganda”、“China”、“August”、“Kampala”，而其他词条“the”、“my”、“a”、“their”已被过滤掉。由此，预测矢量集合8将包含6个矢量。同样以来自于当前文档2的每个词条（也就是用户输入的序列中的每个词条）询问随机索引词条矢量映射7。此外，这些词条中的某些不会存在于随机索引词条矢量映射7中。假设存在下列词条：“Dear”、“Martha”、“lovely”、“hear”、“work”、“Kampala”、“Children’s”、“Centre”、“spent”、“time”。计算每个所述词条的矢量算术平均值，以生成表示当前文档2的单一平均文档矢量9。

余弦相似度模块12依次接受上述6个预测矢量8，并为它们生成带有平均文档矢量9的余弦相似度。假设由此生成的文本预测/相似度映射11如下：

(Cambridge,0.4)

(Switzerland，0.2)

(Uganda,0.75)

(China,0.3)

(August，0.4)

(Kampala,0.85)

之后，这些值被送进加权模块12。尽管可以使用上文讨论过的多种方式来计算经修正的概率，但在本实例中，假设加权模块12使用如下方程式：

w (p, s) = [\frac{\max (s, k) \cdot p}{Σ [\max (s, k) \cdot p]}] \cdot Σp

其中，0≤k≤1。在此，假设k=0。

对于文本预测“Cambridge”而言，加权模块计算w(0.095,0.4)，由此得到值0.086。求出值的完整列表如下：

Cambridgew(0.095,0.4)=0.086

Switzerlandw(0.08,0.2)=0.036

Ugandaw(0.06,0.75)=0.101

Chinaw(0.06,0.3)=0.041

Augustw(0.05,0.4)=0.045

Kampalaw(0.04,0.85)=0.077

那些不具有相似度值的概率保持不变。加权模块12将这些概率值插入至有序相联结构，并返回p个（在这种情况下p=10）最可能的文本预测以生成下列重新排序的文本预测集合6：

(Uganda,0.101)

(the,0.1)

(Cambridge,0.086)

(my,0.08)

(Kampala,0.077)

(a,0.075)

(August,0.045)

(China,0.041)

(Switzerland，0.036)

(their,0.03)

分配给完整文本预测集合的总体概率质量（0.67）保持不变。此外，分配给一组存在于随机索引词条矢量映射7中的预测词条的概率质量保持不变。

在生成一些文本预测3的情况下，被重新排序的文本预测集合6的p个最可能的文本预测不必包含由用户输入文本3生成的p个最可能词条，也就是说，文本预测集合的重新排序可改变p个最可能词条中的词条以及这些词条出现的顺序。

可选地，如果假设加权函数给定如下：

w (p, s) = [λ \frac{\max (s, 0)}{S} + (1 - λ) \frac{p}{P}] \cdot P

其中，0≤λ≤1，S=∑max(s,0)，P=∑p，设λ＝0.5（表示预测文本概率和相似度值之间的相等平衡关系），得到下列各值：

Cambridgew(0.095,0.4)=0.074

Switzerlandw(0.08,0.2)=0.053

Ugandaw(0.06,0.75)=0.080

Chinaw(0.06，0.3)=0.050

Augustw(0.05,0.4)=0.052

Kampalaw(0.04,0.85)=0.076

由此，重新排序过的文本预测集合如下：

(the,0.1)

(Uganda,0.08)

(my,0.08)

(Kampala,0.076)

(a,0.075)

(Cambridge,0.074)

(Switzerland，0.053)

(August,0.052)

(China,0.050)

(their,0.03)

总体概率质量再次在0.67上保持不变。

然后，可将具有新顺序的列表6呈现给用户，以供用户选择。在本发明实例中，假设用户想要输入词条“the”，由此可选择该词条输入至所述系统。词条“the”随着在先文本序列中的词条被送进预测器1，以生成新的文本预测3。此外，词条“the”被列入在用于生成对新的预测文本3重新排序的平均文档矢量9的当前文档词条中。

一旦该电子邮件由用户完成，便被加入至用于进一步训练预测器1的文档限定文本源4。此外，该电子邮件还被分配给一个新的索引矢量，之后，该索引矢量被加入至文档中包含的所有词条的语境矢量中，以便更新索引词条矢量映射7。

由此，本发明的系统及方法提供了一种改进的电子设备输入文本机制。本发明的系统及方法提供了一种基于预测词条属于用户输入文本或文本序列片段的可能性、为系统生成文本预测重新排序的机制。文本预测的重新排序将最可能的预测候选置于呈献给用户以供用户选择的列表的顶部。这样，通过减少输入文本的劳动量对用户输入文本提供了一定的帮助，由此，减少/消除了用户翻遍预测词条以找到其要输入的词条的需要。本系统及方法由此提供了更为精确的文本预测生成机制。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。例如，如上所述，可使用多个矢量或分布相似性模型生成语境矢量和矢量空间映射词条。本发明的系统及方法由此未限定随机索引的使用。

Claims

1.一种电脑设备的文本输入生成系统，其特征在于，包括：

预测器，用于接收由用户输入至所述电脑设备的文本，并生成具有概率值的文本预测；

一种机构，用于接收所述文本预测及用户文本输入，并使用矢量空间技术判断一个或多个所述文本预测属于所述用户文本输入的可能性，以及基于所述文本预测属于所述用户文本输入的可能性生成一个或多个所述文本预测的修正过的概率值。

2.根据权利要求1所述的系统，其特征在于，所述机构用于将呈献给用户的所述文本预测重新排序。

3.根据权利要求1或2所述的系统，其特征在于，所述机构包括矢量映射，该矢量映射包含一组文档中的每个词条的语境矢量；其中，所述语境矢量包含该组文档中出现有该词条的所有文档的索引矢量。

4.根据权利要求3所述的系统，其特征在于，所述矢量映射为随机索引词条矢量映射。

5.根据权利要求3所述的系统，其特征在于，所述机构用于生成一组预测矢量，该预测矢量包含从所述矢量映射中找回的对应于每个在所述矢量映射中具有对等性的所述文本预测的语境矢量。

6.根据权利要求5所述的系统，其特征在于，如果所述文本预测为短语，则所述机构用于生成包含对应于该短语中每个词条的语境矢量平均值的预测矢量。

7.根据权利要求3所述的系统，其特征在于，所述用户文本输入包含两个或更多的词条；所述机构用于从所述矢量映射中找回用户输入文本中的、在所述矢量映射中具有对等性的所述两个或更多的词条中的每个词条的语境矢量，并通过所述语境矢量的平均值生成平均文档矢量。

8.根据权利要求7所述的系统，其特征在于，所述机构还包括：

相似度模块，用于确定所述平均文档矢量和每个所述预测矢量之间的相似性，以生成与每个文本预测相关的相似度值。

9.根据权利要求8所述的系统，其特征在于，所述相似度模块用于确定所述平均文档矢量和每个所述预测矢量之间的余弦相似度。

10.根据权利要求8或9所述的系统，其特征在于，所述机构还包括：

加权模块，用于基于所述相似度值修正与在所述矢量映射中具有对等性的每个文本预测相关的概率值。

11.根据权利要求10所述的系统，其特征在于，所述加权模块用于将修正过的概率值插入至有序相联结构中，并返回p个最可能的文本预测呈献给用户，该结构包括与修正过的概率值相映射的文本预测。

12.根据权利要求3所述的系统，其特征在于，所述机构用于通过向由用户输入的完整文本序列分配一新的索引矢量，并将该新的索引矢量加入至包含在所述完整文本序列中的每个词条的索引矢量，来更新所述矢量映射。

13.根据权利要求1或2所述的系统，其特征在于，包括多个预测器。

14.根据权利要求3所述的系统，其特征在于，所述预测器的训练数据来自于该组文档中的文本数据。

15.根据权利要求3所述的系统，其特征在于，该组文档中的每个文档包括明确定义有起首、尾端点的清楚的文本段。

16.根据权利要求15所述的系统，其特征在于，所述文档为电子邮件消息、新闻报道、博客条目、短信息、杂志文章和学术论文之一。

17.根据权利要求1或2所述的系统，其特征在于，所述电脑设备为移动电话、个人数字助理、台式电脑、笔记本电脑、平板电脑、移动网络设备、超级移动电脑、游戏机或车载系统。

18.一种由用户输入生成电脑设备文本输入的方法，其特征在于，包括：

基于用户文本输入生成文本预测；

使用矢量空间技术判断一个或多个所述文本预测属于所述用户文本输入的可能性；

基于所述文本预测属于所述用户文本输入的可能性生成一个或多个所述文本预测的修正过的概率值；以及

将p个最可能的所述文本预测呈献给用户以供用户选择。

19.根据权利要求18所述的方法，其特征在于，还包括：

基于所述修正过的概率值重新排序所述文本预测；

其中，将所述文本预测呈献给用户以供用户选择的步骤包括：将重新排序过的文本预测呈现给用户以供用户选择。

20.根据权利要求18或19所述的方法，其特征在于，为所述文本预测生成概率值的修正值的步骤包括：

生成包含有一组文档中的每个词条的语境矢量的矢量映射，其中，所述语境矢量包括该组文档中出现有该词条的所有文档的索引矢量。

21.根据权利要求20所述的方法，其特征在于，生成矢量映射的步骤还包括：

从所述矢量映射中过滤掉在该组文档中出现率大于过滤阈值的词条或无用词，所述过滤阈值取决于语言种类、训练数据量。

22.根据权利要求20所述的方法，其特征在于，所述矢量映射为随机索引词条矢量映射，并且生成矢量映射的步骤包括：使用随机索引生成语境矢量。

23.根据权利要求20所述的方法，其特征在于，还包括：通过从所述矢量映射中找回对应于每个在所述矢量映射中具有对等性的文本预测的语境矢量，生成一组预测矢量。

24.根据权利要求23所述的方法，其特征在于，如果所述文本预测为短语，则生成所述预测矢量的步骤包括：求得对应于该短语中每个词条的语境矢量的平均值。

25.根据权利要求20所述的方法，其特征在于，所述用户文本输入包含两个或更多的词条，所述方法还包括：从所述矢量映射中找回在所述矢量映射中具有对等性的两个或更多的所述词条的每个词条的语境矢量，并通过计算找回的用户文本输入中每个词条的语境矢量的平均值生成平均文档矢量。

26.根据权利要求25所述的方法，其特征在于，还包括：计算所述平均文档矢量和每个所述预测矢量之间的相似性，并提供与每个文本预测相关的相似度值。

27.根据权利要求26所述的方法，其特征在于，包括：计算所述平均文档矢量和每个所述预测矢量之间的余弦相似度。

28.根据权利要求26或27所述的方法，其特征在于，还包括：基于相似度值修正与在所述矢量映射中具有对等性的每个文本预测相关的概率。

29.根据权利要求28所述的方法，其特征在于，还包括：将修正过的概率值插入至有序相联结构，并返回p个最可能的新的文本预测，该结构包括与修正过的概率值相映射的文本预测。

30.根据权利要求20所述的方法，其特征在于，当用户输入完整的文本序列时，所述方法还包括：将该文本序列插入至该组文档中。

31.根据权利要求30所述的方法，其特征在于，还包括：通过向完整的文本序列分配一新的索引矢量，并将该新的索引矢量加入至包含在所述完整文本序列中的每个词条的索引矢量，来更新所述矢量映射。

32.根据权利要求18或19所述的方法，其特征在于，所述文本预测由一个或多个预测器生成。

33.根据权利要求32所述的方法，其特征在于，所述预测器的训练数据来自于一组文档的文本数据。