CN101815996A

CN101815996A - 检测名称实体和新词

Info

Publication number: CN101815996A
Application number: CN200780100123A
Authority: CN
Inventors: 吴军; 黄峥; 郑欣; 林德康; 叶航军; 万颖瑜; 张钋
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2007-06-01
Filing date: 2007-06-01
Publication date: 2010-08-25
Also published as: WO2008144964A8; KR20100029221A; US20100180199A1; TW201015348A; WO2008144964A1

Abstract

可以实现各个方面以用于从输入条目检测名称实体和/或新词。通常，一个方面可以是一种方法，该方法包括接收包含文本串的输入条目。该方法还包括从输入条目识别分割信息。该方法还包括基于分割信息从输入条目的文本串生成候选文本串。该方面的其它实现方式包括相应的系统、装置和处理引擎。

Description

检测名称实体和新词

技术领域

本发明一般涉及从输入条目(input entry)检测名称实体(name entity)和/或新词。

背景技术

检测(例如，识别和提取)名称实体和/或新词(下文中用“NENW”表示)可能对于许多应用是有用的，例如：拼写纠正、表意字符输入、机器翻译、网页搜索、语音识别、光学字符识别(OCR)等。名称实体(或命名实体)可以包括指代人、地点、组织或其他唯一实体的俗语、习惯用语或专有名词。新词可以是不包括在当前字典中的语义上有意义的字符序列，例如从另一种语言借用的词，或者从科学领域采用的词。例如，术语“blu-ray”(蓝光)是描述用于数字媒体存储的基于蓝色激光的高密度光盘格式的新词。一旦新词被普遍接受，它就可以变成词汇(lexicon)的一部分并被包括在字典中。

发明内容

本说明书描述了涉及从诸如搜索查询和用户输入文档之类的输入条目检测名称实体和/或新词的各个方面。通常，一个方面可以是一种方法，该方法包括接收包含文本串的输入条目。该方法还包括从输入条目识别分割信息。该方法还包括基于分割信息从输入条目的文本串生成候选文本串。本方面的其它实现方式包括相应的系统、装置和处理引擎。

另一一般方面可以是一种系统，该系统包括被配置为允许用户输入文本串的输入条目组件。该系统还包括用于从输入文本串生成候选文本串的装置。该系统还包括数据库，该数据库被配置为确定候选文本串是否已经在数据库中，并且当候选文本串还没被存储在字典或数据库中时，将候选文本串存储到数据库中。

这些和其它一般方面可以可选地包括下面的特定方面中的一个或多个。所述方法可以包括当无法获得分割信息时，将整个文本串与候选文本串相关联。该方法也可以包括生成候选文本串的归一化计数，以及将候选文本串与字典相比较。该方法还可以包括当所述比较确定候选文本串还没被存储在字典中时，将候选文本串作为典型(canonic)文本串存储在数据库中。该方法附加地可以包括将候选文本串与数据库相比较，基于比较确定候选文本串是否拼写错误，以及当候选文本串拼写错误时生成替代文本串。

输入条目可以包括搜索引擎的用户查询、即时消息的脚本(script)或输入法编辑器的用户输入。文本串可以包括非罗马语言中的一个或多个词。非罗马语言可以是中文、日文或韩文语言。分割信息可以包括能够用于在文本串中的词或短语之间进行强调或区分的用户生成的分割。候选文本串可以包括一个或多个名称实体或新词。字典可以包括专有名词字典。用户生成的分割可以包括空格、制表符、引号、括号或标点符号。名称实体可以包括习惯用语、俗语以及人名、组织名或地名。新词可以包括当前没有被包括在字典中的词。

可以实施特定方面来实现下面的有益效果中的一个或多个。可以基于例如一个或多个用户生成的分割，从输入条目(例如，搜索查询、即时消息“IM”脚本、用户在诸如Microsoft Word之类的编辑器中键入的句子)检测(例如，提取和识别)非罗马语言中的NENW(名称实体和/或新词)。用户生成的分割可以是由空格、制表符、引号、括号或任意标点符号显式或隐式划界的一个或多个用户键入的字符的序列。

可以基于所检测的NENW来增加对输入条目的拼写纠正的覆盖范围。另外，可以自动检测新的名称实体/词，而无需依赖于人工注释的数据。可以使用可扩展的拼写错误纠正数据库来合并新检测的名称实体/词。从而，可以实现拼写纠正的高准确度。而且，可以实现用于非罗马字符例如中文、日文和韩文(CJK)字符输入法编辑器(IME)的更好的词语建议。改善的IME可以用于区分具有相同或相似发音的词。例如，中文IME可以根据所给出的不同的姓向用户建议“遇春”或“宇春”。从而，NENW的检测还可用于构建自适应的CJK语言IME字典。

还可以实现潜在更有针对性的搜索查询结果，因为可以避免使用基于关键字的搜索所带来的误判结果。例如，当用户在搜索引擎的输入查询中输入短语“New York Traveling”(纽约旅游)时，可以检测出名称实体“New York”。从而不会返回误判的搜索结果，例如单独包含单词“New”和“York”的网页，相反可以向用户提供所期望的关于游览纽约市的信息。另外，提供有针对性的搜索查询结果的能力对于使用手持设备生成搜索查询而言是所期望的，所述手持设备例如移动电话、个人数字助理(PDA)、双向寻呼机或智能电话。

可以使用系统、方法或者计算机程序或者系统、方法和计算机程序的任意组合来实现上述一般和特定方面。在附图和下面的描述中阐述了一个或多个实现方式的细节。从所述描述、附图和权利要求中，其他特征、方面和优点将变得清楚。

附图说明

现在将参考下面的附图来详细描述这些和其他方面。

图1是通过从输入条目检测NENW来生成数据库的系统的示意图。

图2A示出了在输入条目中的各种候选NENW。

图2B示出了来自图2A的输入条目的候选NENW和它们所关联的出现次数/计数的列表。

图2C示出了来自图2A的输入条目的候选NENW和它们所关联的归一化计数的列表。

图3是图示从输入条目检测名称实体/新词的过程的流程图。

图4是图示将从输入条目检测的名称实体/新词用于拼写纠正的过程的流程图。

图5是计算设备和系统的框图。

在不同附图中的相同参考标记表示相同的元素。

具体实施方式

图1是从输入条目检测名称实体和/或新词(NENW)的系统100的示意图。系统100具有输入条目组件110，其可以例如包括允许用户输入搜索查询(search query)的搜索引擎(例如，谷歌搜索引擎)中的查询框。系统100还具有NENW检测组件120，其可以例如从输入条目组件110识别和提取潜在的NENW。如将在下面更详细讨论的，可以基于例如搜索查询中由用户生成的分割(segmentation)来检测潜在的NENW。这些分割可以是空格、引号、括号或用户为了强调NENW而可能使用的其他标点符号。

系统100还包括数据库130，其可以是例如包括典型NENW的拼写纠正数据库和/或IME数据库。如将在下面更详细讨论的，不是所有由NENW检测组件120识别出的潜在NENW都会成为典型NENW。可以基于搜索查询的归一化计数和会话日志(session log)来确定所识别出的名称实体/新词是否真的是名称实体/新词。以这种方式，NENW检测组件120可以检测出(例如识别和提取)用户在输入条目组件110中提交的潜在NENW。

还可以将所检测的NENW添加到数据库130(例如，拼写纠正/IME数据库)中。从而，因为可以检测新的名称实体/词(例如，新的音乐家或新歌的名称，以及新的习惯用语或俗语)并将其存储到数据库中，所以数据库130可以是可扩展的。而且，因为数据库可以容易地合并新的名称实体/词，所以可以实现拼写错误纠正和/或IME建议的高覆盖范围。

在一些罗马语言中，例如在英文中，大写信息可以在NENW检测中起到关键作用。在一些非罗马语言中，特别是在像中文、日文和韩文(CJK)这样的象形语言中，字符没有大写和小写形式，而是只有一种书写形式。而且，在这些CJK语言的书写形式中一般不在词之间使用空格。从而，在这些CJK语言中检测NENW可能是困难的。

另外，诸如CJK语言的非罗马语言的拼写纠正可能是复杂和富有挑战性的。拼写纠正通常包括检测错误的词和确定对错误的词的适当替代。在诸如英文的字母语言也即基于罗马语的语言中，大部分拼写错误或者是非词汇(拼写错误)的词，例如“thna”而非“than”，或者是在上下文中使用不当的有效词，例如“stranger then”而非“stranger than”。用于检测和纠正基于罗马语的语言中的非词汇拼写错误的拼写检查器是公知的。

然而，诸如CJK语言的不是以罗马语为基础的语言不具有以任何计算机字符集(例如中文GB2312和UTF-8字符集)编码的无效字符，从而使大部分拼写错误都是在上下文中使用不当的有效字符，而不是非词汇拼写错误。在中文、日文和韩文中，通常只能在上下文中确定字符/词的正确使用。例如，在中文中，“遇春”和“宇春”两者都可以用作名字。然而，包括它们的最广为人知的全名分别是“常遇春”(一位将军的名字)和“李宇春”(一位歌手的名字)。从而，针对不是以罗马语为基础的语言的有效的拼写检查器应该利用上下文信息来确定哪些字符和/或词在上下文中是不合适的。

除了拼写纠正外，系统100还可用于构造CJK语言的自适应的IME字典。例如，在计算机上输入和处理中文语言文本可能非常困难。这一部分是由于中文字符的绝对数量以及中文语言中的文本标准化、多同音异义字和不可见(或隐藏)的词语界限的内在问题，这些问题造成了模糊性，从而使中文文本处理困难。

一种用于向计算机系统输入中文语言文本的常用方法是使用语音学输入，例如拼音。拼音使用罗马字符并具有以多音节词的形式列出的词汇。然而，拼音输入法可能导致中文语言处理中的同音异义字问题。具体来说，因为仅仅存在大约1300个不同的具有音调的语音音节(可以用拼音表示)以及大约410个不具有音调的语音音节来代表成千上万的中文字符(汉字)，所以一个具有或不具有音调的语音音节可能对应于许多不同的汉字。例如，在普通话中“yi”的发音可以对应于超过100个汉字。在将语音音节翻译成汉字时这会造成模糊性。

许多语音学输入系统使用多选方法来处理这种同音异义字问题。一旦用户输入了语音音节，就向用户显示和建议具有相同发音的可能汉字字符的列表。然而，为每个音节输入和选择相应汉字的过程可能是缓慢、冗长和耗时的。另一些语音学输入系统以根据相邻汉字字符确定每个可能汉字字符的可能性为基础。概率方法还可以与语法约束相结合。

然而，当将这样的方法应用到文学(例如，具有许多描述性的句子和习惯用语)和/或如在网页上的用户查询和/或电子布告栏系统(BBS)发文中所使用的口语或非正式语言时，这样的方法将语音转换为汉字的准确性往往是有限的。另外，字典覆盖范围低通常是口语转换质量差的原因之一。因此，使用系统100，可以构造自适应的IME字典，并且可以实现在IME中针对诸如CJK字符的非罗马字符提供更好的词语建议。

除了拼写纠正和IME之外，系统100还可以使用所检测的命名实体来提供更有针对性的搜索结果。这可以使用下面的例子来解释。假设用户的兴趣在于查出更多关于纽约旅游的信息。然后她在搜索引擎的输入查询中输入短语“New York Traveling”(纽约旅游)。使用传统的基于关键字的搜索，搜索引擎可能返回误判(false positive)的搜索结果，例如，返回包括单词“New”和“York”的网页，而不是将“New York”识别为名称实体。相反，系统100能够将“New York”检测为名称实体，并且返回针对用户期望信息的搜索结果。

另外，提供有针对性的搜索查询结果的能力可能是使用诸如手机、PDA、双向寻呼机或智能手机之类的手持设备生成的搜索查询所期望的。与从台式计算机进行的传统网页搜索相比，从手持设备生成的搜索查询可能更多地针对于供下载的特定文件或供购买的商品。例如，手持设备的用户一般会提交基于NENW的搜索查询，例如以下载某个音乐家的歌曲或图片、请求关于某个电影或某个人的信息或者请求关于新产品的信息。

可以用下面图2A-2C中示出的例子来图示系统100检测NENW的操作概览。图2A示出了在输入条目中由用户输入的各种各样的文本串。图2A中的例子假设存在八个输入条目，每个输入条目包含非罗马语言(例如中文)中的六个字符/词的序列。例如，文本串中的六个中文字符/词的序列可以是“上海市长韩正”，其含义是上海市的市长韩正。在中文中，每个字符也可能代表一个词；例如，“市”(是作为例子的文本串中的六个字符之一)这个中文字符具有词语“city”(城市)的意思。

如上所述，不是以罗马语为基础的CJK语言不具有大写字符。而且，中文和日文在词和句子之间一般没有空格，并且在这些语言中检测候选NENW可能是困难的。然而，有时用户在输入条目中输入分割(例如空格、制表符、引号或其他标点符号)来指示他们想要强调的NENW或将NENW与输入文本串的其他部分相区分。图2A中示出的输入条目显示了由用户输入的用作输入条目的各种文本串，每个文本串包含六个字符/词的序列。从这些文本串中可以识别出分割信息并且可以生成可能的候选NENW。

例如，在第一输入条目(在8个输入条目中其出现3次，因此给予该输入条目计数3)中，用户输入了分割205来将包含词#1、词#2、词#3和词#4的子串(例如，“上海市长”)与包含词#5和词#6的另一子串(例如，“韩正”)分开。在一种实现方式中，系统100可以识别第一输入文本串中的这个用户生成的分割205。进一步地，使用所识别的分割205，系统100可以生成两个候选NENW，即候选名称实体/新词210和候选名称实体/新词215。分割205可能是用户有意或无意输入的。如下面将进一步讨论的，不管分割205是有意的还是无意的，系统100都可以基于例如具有高归一化计数的实体或词来生成典型名称实体/新词。

进一步地，在第二输入条目(在8个输入条目中其出现两次，因此给予该输入条目计数2)中，用户输入了分割220来将包含词#1和词#2的子串(例如，“上海”)与包含词#3和词#4的另一子串(例如，“市长”)分开。另外，用户输入了另一分割225来将包含词#3和词#4的子串(例如，“市长”)与包含词#5和词#6的另一子串(例如，“韩正”)分开。在一种实现方式中，系统100可以识别第二输入文本串中的用户生成的分割220和225两者。进一步地，使用所识别的分割220和225，系统100可以生成三个候选NENW，即候选NENW 230、235和215。

在第三输入条目(在8个输入条目中其出现一次，从而给予该输入条目计数1)中，用户输入了分割245来将包含词#1、词#2和词#3的子串(例如，“上海市”)与包含词#4的另一子串(例如，“长”)分开。另外，用户输入了另一分割255来将包含词#4的子串(例如，“长”)与包含词#5和词#6的另一子串(例如，“韩正”)分开。在一种实现方式中，系统100可以识别第三输入文本串中用户生成的分割245和255两者。进一步地，使用所识别的分割245和255，系统100可以生成三个候选NENW，即候选NENW 250、260和215。

在第四输入条目(在8个输入条目中其出现两次，因此给予该输入条目计数2)中，用户没有输入分割。在一种实现方式中，系统100可以确定不存在用户生成的分割。这样，不基于用户生成的分割生成候选名称实体/新词。然而，在这种情况下，系统100可以将第四输入条目的整个短语或字符串关联到包含词#1、词#2、词#3、词#4、词#5和词#6的候选名称实体/新词265(例如，“上海市长韩正”)。

对于给定的文本串中的字符/词的序列，可以用数学方式表示可能的候选NENW的数量。假设具有N个字符的序列(例如，“ABC”，N＝3)可以生成G(N)个候选词，并且新字符(例如，“D”)被添加到该序列。该新字符可以与之前序列中的N个候选词中的任意一个组合以生成N个新的候选词。进一步地，该新字符本身可能是单字符词。例如，当将新字符“D”添加到序列“ABC”时，可以有四个新的候选词：“ABCD”、“BCD”、“CD”和“D”本身。因此，当向N个字符的序列再添加一个字符时，可以生成N+1个新的候选词。

换言之，可以从N个字符的序列得到G(N+1)＝G(N)+(N+1)并且G(1)＝1的递归关系。可以从该递归关系推出等式G(N)＝N*(N+1)/2。这样，在包含N个字符的条目中可以有N*(N+1)/2(其中N是正整数)个可能的候选NENW。例如，如果在输入条目中存在四个词(N＝4)，则可能的候选NENW的数量是10。类似地，在图2A中示出的例子中，在输入条目中存在6个字符/词(N＝6)。从而，可以有21个可能的候选NENW。

图2B示出了来自图2A的输入条目的候选NENW和它们所关联的出现次数/计数。如图2B所示，存在从4个不同的输入文本串、总共8个输入条目(每个条目包含6个字符/词的序列)生成的7个候选NENW。这7个候选NENW包含候选名称实体/新词210，其具有计数3，因为它在8个输入条目中出现了3次。候选名称实体/新词215具有计数6，因为它在8个输入条目中出现了6次。候选名称实体/新词230具有计数2，因为它在8个输入条目中出现了2次。

此外，候选名称实体/新词235具有计数2，因为它在8个输入条目中出现了2次。候选名称实体/新词250具有计数1，因为它在8个输入条目中出现了1次。候选名称实体/新词255也具有计数1，因为它在8个输入条目中出现了1次。最后，候选名称实体/新词260具有计数2，因为它在8个输入条目中出现了2次。

这样，系统100能够累积在输入条目中这些候选NENW的出现次数或计数，并且确定哪些候选NENW可以成为典型NENW并被存储在数据库130中。在一种实现方式中，系统100具有计数的阈值数，从而当候选名称实体/新词的计数在阈值数之上时，候选名称实体/新词成为典型名称实体/新词。出现次数可以是来自用户输入的原始数量，也可以是根据每个单独字符或字符序列的出现(appearance)所归一化/推导出的数量。

例如，尽管“我是”在用户输入中具有极高的出现次数，但是当用字符“我”和“是”的出现次数单独归一化时，它仍可以具有低归一化频率。在一种实现方式中，可以使用下面的公式来计算用于确定典型NENW的归一化频率：h(c1，c2)×log{f(c1，c2)/[f(c1)×f(c2)]}；其中f()是表示特定词或短语的相对频率的函数(关于出现次数的线性函数)；并且h()是关于出现次数的单调递增函数。例如，h()可以是任意函数，只要它随着f()单调增加即可，例如h(c1，c2)＝f(c1，c2)或者h(c1，c2)＝log f(c1，c2)。通过这种方式，可以选择h()函数，以使得最常见的字符组合被生成为候选名称实体/新词。

或者，系统100可以使用用户输入条目的查询日志(log)来确定候选名称实体/新词是否应该变为典型名称实体/新词。例如，当名称实体/新词没被识别出来并且在搜索查询中被用户拼写错时，会提供错误的查询结果(或没有查询结果)。然而，在这种情况下，用户可以手动纠正名称实体/新词的拼写以获得期望的搜索结果。在一种实现方式中，系统100可以使用这种成功查询结果和/或用户纠正的历史来生成可能的候选NENW并扩大数据库130。

图2C示出了来自图2A的输入条目的候选NENW和它们所关联的归一化计数的列表。在一种实现方式中，系统100可以使用候选名称实体/新词的归一化计数来避免生成语义上无意义的普通字符序列。可以通过计算候选名称实体/新词的计数与输入条目的给定数量的比率来生成归一化计数。以这种方式，系统100可以将具有高归一化计数的候选名称实体/新词关联为典型NENW。

如图2C所示，候选名称实体/新词210具有3/8或0.375的归一化计数，因为它在8个输入条目中出现了3次。候选名称实体/新词215具有6/8或0.75的归一化计数，因为它在8个输入条目中出现了6次。候选名称实体/新词230具有2/8或0.25的归一化计数，因为它在8个输入条目中出现了2次。候选名称实体/新词235具有2/8或0.25的归一化计数，因为它在8个输入条目中出现了2次。候选名称实体/新词250具有1/8或0.125的归一化计数，因为它在8个输入条目中出现了一次。候选名称实体/新词255也具有1/8或0.125的归一化计数，因为它在8个输入条目中出现了一次。最后，候选名称实体/新词260具有2/8或0.25的归一化计数，因为它在8个输入条目中出现了2次。

如上所述，具有高归一化计数的候选名称实体/新词可以变为典型名称实体/新词。在一种实现方式中，可以配置系统100，以使得所有归一化计数大于0.5的候选NENW都可以变为典型NENW，并被存储在数据库130中。在图2C中示出的候选NENW的情况下，系统100基于归一化计数为0.75的候选名称实体/新词215生成典型名称实体/新词。

而且，上述使用阈值归一化计数生成的典型名称实体/新词可能不总是代表名称实体/新词的正确拼写。例如，假设较高数量的搜索查询包含术语“blue-ray”(蓝光)，并且基于例如输入文本串中用户生成的分割生成了候选新词。另外，假设由于候选新词“blue-ray”出现频率高，因此该候选新词“blue-ray”的归一化计数是0.8。候选新词“blue-ray”将具有高于阈值(例如0.5)的归一化计数，并变为可以存储在数据库(例如图1的数据库130)中的典型新词。尽管事实上正确的拼写应该是“blu-ray”，只不过大部分用户将其误拼写为“blue-ray”，但情况仍是如此。这样，即使NENW经常被用户拼写错，系统100仍可以检测到NENW。

图3是图示从输入条目检测NENW的过程300的流程图。在305处，过程300接收输入条目，该输入条目可以是如上所述的用于在线搜索引擎(例如谷歌搜索引擎)或者输入法编辑器的搜索查询。在310处，过程300识别输入条目中的分割信息，例如用户生成的分割。如上所述，输入条目中的用户生成的分割可以是标点符号、空格或任何其他可以用来在两个词或短语之间进行区分或强调的符号。

在315处，如果可以获得分割信息(例如，可以获得一个或多个用户生成的分割)，则在325处，基于分割信息生成候选NENW。在上面的图2A-2C中示出和详细描述了如何生成候选NENW的例子。另一方面，如果在输入条目中不能获得分割信息，则过程300将整个输入条目文本串与候选名称实体/新词相关联。例如，这类似于图2A中示出的第四输入条目，该条目不具有任何用户生成的分割。

在330处，过程300为每个候选名称实体/新词生成归一化计数，不管NENW是来自具有用户生成的分割的条目还是不具有用户生成的分割的条目。如上面图2C中所述，可以通过计算候选名称实体/新词的计数与包含该字符/词序列的输入条目的给定数量的比率来生成每个候选名称实体/新词的归一化计数。

在332处，过程300确定候选名称实体/新词的归一化计数是否大于预定阈值。如果归一化计数没有超过阈值，则在345处，不将候选名称实体/新词存储为典型名称实体/新词。例如，如上所述，候选名称实体/新词可能是语义上无意义的普通字符序列。

另一方面，如果归一化计数超过阈值，则在335处，过程300确定候选名称实体/新词是否已经包括在字典中，例如，专有名词字典，其可以包括预定和/或已知的NENW列表。这是因为许多候选NENW可能已经是已知的且已经被包含在一些字典中。例如，“飞利浦”或“索尼”是已知的专有名词，这些词不需要被添加到典型NENW数据库中。

如果候选名称实体/新词已经在字典(例如，专有名词字典)中已知或者已经被存储在数据库中，则在345处，不需要更新典型NENW的数据库(例如，图1的数据库130)。然而，如果候选名称实体/新词不是在字典中已知或没有被存储在数据库中，则过程300在340处将该候选名称实体/新词作为典型名称实体/新词存储到数据库中。以这种方式，数据库可以是可扩展的，因为可以检测新的NENW(例如，新音乐艺术家或新歌的名称)并将其存储在数据库中。而且，可以实现拼写错误纠正或输入法建议的高覆盖范围，因为数据库可以容易地合并新的名称实体/新词。

图4是图示将所提取的来自输入条目的NENW用于拼写纠正的过程400的流程图。在405处，过程400接收原始输入条目(OIE)，其可以是例如使用谷歌搜索引擎的搜索查询。在410处，过程400生成原始输入条目中可能的NENW。在415处，过程400将可能的NENW与典型NENW的数据库相比较，该数据库可以是例如图3中示出的340中提到的数据库。

在420处，过程400确定该可能的NENW是否与典型数据库中的NENW相似。在一种实现方式中，相似性测量可以被配置为允许编辑预定数量文本子串(例如字符)的距离。例如，假设典型实体是“超级女声”，而一些用户在输入条目中打出了“超级女生”。在这样的情况下，过程400可以对文本串中的所有四个字符进行比较以进行相似性测量。

如果可能的名称实体/新词与典型数据库中的任何NENW都不相似，则在425处，过程400不执行任何拼写纠正。例如，如果可能的名称实体/新词是中文短语“高年级女生”，则当与数据库中的典型实体“超级女声”相比较时，不会执行拼写纠正。然而，如果可能的名称实体/新词与典型数据库中的NENW相似，则在430处，过程400确定该可能的名称实体/新词是否不同于数据库中的任意典型NENW。如果不是，则在425处，过程400不执行任何拼写纠正，因为该可能的名称实体/新词已经包括在典型NENW数据库中，因此它已经具有了正确的拼写。

然而，如果可能的名称实体/新词相似但不同于典型NENW数据库，则在435处，过程400通过用从数据库获得的相似的典型名称实体/新词代替该可能的名称实体/新词，来生成用作替代输入条目(alternative input entry，AIE)的替代文本串(alternative text string)。在440处，过程400确定AIE是否比OIE更可能出现在搜索查询中。例如，根据来自用户输入数据的统计数据，查询“超级女声预赛”的可能性可能比查询“超级女生预赛”的可能性高一个数量级。如果不是，则在425处，过程400不执行任何拼写纠正。另一方面，如果AIE比OIE更可能出现，则在445处，过程400接受拼写纠正。在450处，过程400将AIE作为用于纠正搜索查询中的拼写错误的建议提供给用户。

图5是可以用来例如实现系统100的计算设备和系统500、550的框图。计算设备500旨在代表各种形式的数字计算机，例如便携式计算机、台式计算机、工作站、个人数字助理、服务器、刀片式服务器、主机以及其他适当的计算机。计算设备550旨在代表各种形式的移动设备，例如个人数字助理、蜂窝电话、智能电话以及其他类似的计算设备。在这里示出的组件、它们的连接和关系以及它们的功能仅仅是示范性的，而不是要限制本文件中描述和/或要求保护的发明的实现方式。

计算设备500包括处理器502、存储器504、存储设备506、连接到存储器504和高速扩展端口510的高速接口508、以及连接到低速总线514和存储设备506的低速接口512。使用各种总线来互连每个组件502、504、506、508、510和512，并且可以将它们安装在共同的主板上或者以其他恰当的方式来安装。处理器502可以处理用于在计算设备500内执行的指令，包括存储在存储器504中的指令或存储在存储设备506上的、用于将GUI的图形信息显示在外部输入/输出设备上的指令，所述外部输入/输出设备例如耦接到高速接口508的显示器516。在其他实现方式中，可以与多个存储器和多种类型的存储器一起适当地使用多个处理器和/或多个总线。而且，可以连接多个计算设备500，使每个设备提供部分必要操作(例如，作为服务器阵列(server bank)、刀片式服务器组或多处理器系统)。

存储器504将信息存储在计算设备500内。在一种实现方式中，存储器504是计算机可读介质。在一种实现方式中，存储器504是易失性存储单元或多个易失性存储单元。在另一实现方式中，存储器504是非易失性存储单元或多个非易失性存储单元。

存储设备506可以为计算设备500提供大容量存储。在一种实现方式中，存储设备506是计算机可读介质。在各种不同的实现方式中，存储设备506可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存存储器或其他类似的固态存储器设备、或者包括存储区域网络或其他配置的设备的设备阵列。在一种实现方式中，计算机程序产品被有形地包含在信息载体中。计算机程序产品包含指令，当指令被执行时，执行一种或多种方法，例如上述的那些方法。信息载体是计算机或机器可读介质，例如存储器504、存储设备506、处理器502上的存储器或者传播的信号。

高速控制器508管理计算设备500的带宽密集型操作，而低速控制器512管理带宽密集性较低的操作。这样的职责分配仅仅是示范性的。在一种实现方式中，高速控制器508耦接到存储器504、显示器516(例如，通过图形处理器或加速器)，并耦接到可以接受各种的扩展卡(未示出)的高速扩展端口510。在该实现方式中，低速控制器512耦接到存储设备506和低速扩展端口514。低速扩展端口可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)，低速扩展端口可以耦接到一个或多个输入/输出设备，例如键盘、指示设备、扫描仪，或者例如通过网络适配器耦接到诸如交换机或路由器之类的网络设备。

如图所示，可以以许多不同的形式来实现计算设备500。例如，它可以被实现为标准服务器520，或实现为一组这样的服务器中的多个服务器。它也可以被实现为机架式服务器系统524的一部分。此外，它可以在诸如便携式计算机522之类的个人计算机中实现。或者，来自计算设备500的组件可以与诸如设备550之类的移动设备中的其它组件相组合(未示出)。每个这样的设备可以包含一个或多个计算设备500、550，并且整个系统可以由互相通信的多个计算设备500、550组成。

计算设备550包括处理器552、存储器564、诸如显示器554之类的输入/输出设备、通信接口566、收发器568以及其他组件。设备550也可以配备存储设备，例如微型硬盘或其他设备，以提供额外的存储空间。使用各种总线来互连每个组件550、552、564、554、566和568，并且可以将多个组件安装在共同的主板上或以其他适当的方式安装。

处理器552可以处理用于在计算设备550内执行的指令，包括存储在存储器564中的指令。处理器也可以包括分离的模拟和数字处理器。例如，处理器可以用于协调设备550的其他组件，例如控制用户接口，支持由设备550运行的应用和由设备550进行的无线通信。

处理器552可以通过耦接到显示器554的控制接口558和显示接口556与用户通信。显示器554可以是例如TFT LCD显示器或OLED显示器、或者其他适当的显示技术。显示接口556可以包括适当的电路以用于驱动显示器554向用户呈现图形和其他信息。控制接口558可以从用户接收命令，并对命令进行转换以提交给处理器552。另外，可以提供外部接口562来与处理器552通信，以使设备550可以与其他设备进行近范围通信(near areacommunication)。例如，外部接口562可以支持有线通信(例如，经由对接(docking)过程)或无线通信(例如，通过蓝牙或其他这样的技术)。

存储器564在计算设备550内存储信息。在一种实现方式中，存储器564是计算机可读介质。在一种实现方式中，存储器564是易失性存储单元。在另一种实现方式中，存储器564是非易失性存储单元。也可以提供扩展存储器554，并且该扩展存储器554可以通过扩展接口552连接到设备550，所述扩展接口552可以包括例如SIMM卡接口。这样，扩展存储器574可以为设备550提供额外的存储空间，或者也可以为设备550存储应用或其他信息。具体地，扩展存储器574可以包括指令来执行或补充上述过程，并且也可以包括安全信息。从而，例如，扩展存储器574可以作为设备550的安全模块来提供，并且可以用许可安全使用设备550的指令来编程。另外，可以经由SIMM卡提供安全应用以及附加信息，例如以非可攻击(non-hackable)的方式将识别信息放置在SIMM卡上。

如下面所讨论的，存储器可以包括例如闪存存储器和/或MRAM存储器。在一种实现方式中，计算机程序产品被有形地包含在信息载体中。计算机程序产品包含指令，当指令被执行时，执行一种或多种方法，例如上述的那些方法。信息载体是计算机或机器可读介质，例如存储器564、扩展存储器574、处理器552上的存储器或者传播的信号。

设备550可以通过通信接口566进行无线通信，通信接口566可以根据需要包括数字信号处理电路。通信接口566可以支持各种模式或协议的通信，例如GSM语音呼叫、SMS、EMS或者MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或者GPRS等等。这样的通信可以例如通过射频收发器568进行。另外，可以例如使用蓝牙、WiFi或其他这样的收发器(未示出)进行短距离通信。另外，GPS接收机模块570可以向设备550提供额外的无线数据，这些无线数据可以由运行在设备550上的应用适当地使用。

设备550还可以使用音频编解码器560可进行听见地通信，音频编解码器560可以从用户接收话音信息并将其转换为可用的数字信息。音频编解码器560还可以为用户生成可听见的声音，如通过例如设备550的电话听筒的扬声器生成可听见的声音。这样的声音可以包括来自语音电话呼叫的声音，可以包括被记录的声音(例如，语音消息、音乐文件等)，并且还可以包括由在设备550上运行的应用生成的声音。

如图所示，可以以许多不同的形式来实现计算设备550。例如，它可以被实现为蜂窝电话580。它还可以被实现为智能电话582、个人数字助理或其他类似的移动设备的一部分。

根据第一方面，本申请提供了一种计算机实现的方法，包括：接收包括文本串的输入条目；从输入条目中识别分割信息；以及基于分割信息从输入条目的文本串生成候选文本串。

根据第二方面，该方法还包括：当不能获得所述分割信息时，将整个文本串与候选文本串相关联。

根据第三方面，第二方面的方法还包括：生成候选文本串的归一化计数；以及将归一化计数与预定阈值相比较。

根据第四方面，第二方面的方法还包括：将候选文本串与字典相比较；以及当候选者的归一化计数超过阈值并且所述比较确定候选文本串还没被存储在字典中时，将候选文本串作为典型文本串存储在数据库中。

根据第五方面，第三或第四方面的方法还包括：将候选文本串与数据库相比较；基于所述比较确定候选文本串是否拼写错误；以及当候选文本串拼写错误时生成替代文本串。

根据第六方面，输入条目包括搜索引擎的用户查询，即时消息的脚本或输入法编辑器的用户输入。

根据第七方面，文本串包括非罗马语言中的一个或多个词。

根据第八方面，分割信息包括用户生成的分割，该用户生成的分割可以用于在文本串中的词或短语之间进行区分。

根据第九方面，候选文本串包括一个或多个名称实体或新词。

根据第十方面，字典包括专有名词字典。

根据第十一方面，非罗马语言是中文、日文或韩文语言。

根据第十二方面，用户生成的分割包括空格、制表符、引号、括号或标点符号。

根据第十三方面，名称实体包括习惯用语、俗语以及人、组织或地点的名称。

根据第十四方面，新词包括当前没有包括在字典中的词。

根据第十五方面，本申请提供了一种处理引擎来使处理设备执行功能，包括：接收包括文本串的输入条目；从输入条目中识别分割信息；以及基于分割信息从输入条目的文本串生成候选文本串。

根据第十六方面，第十六方面的处理引擎还使该处理设备执行功能，包括：当不能获得分割信息时，将整个文本串与候选文本串相关联。

根据第十七方面，第十六方面的处理引擎还使该处理设备执行功能，包括：生成候选文本串的归一化计数；以及将归一化计数与预定阈值相比较。

根据第十八方面，第十六方面的处理引擎还使该处理设备执行功能，包括：将候选文本串与字典相比较；以及当候选者的归一化计数超过阈值并且所述比较确定候选文本串还没被存储在字典中时，将候选文本串作为典型文本串存储在数据库中。

根据第十九方面，第十七或第十八方面的处理引擎还使该处理设备执行功能，包括：将候选文本串与数据库相比较；基于比较确定候选文本串是否拼写错误；以及当候选文本串拼写错误时生成替代文本串。

根据第二十方面，本申请提供了一种系统，包括：被配置为允许用户输入文本串的输入条目组件；用于从输入文本串生成候选文本串的装置；以及数据库。该数据库被配置为确定候选文本串是否已经在数据库中，并且当候选文本串还没被存储在数据库中时将候选文本串存储在数据库中。

根据第二十一方面，本申请提供了一种系统，包括：用于接收包括文本串的输入条目的装置；用于从输入条目识别分割信息的装置；以及用于基于分割信息从输入条目的文本串生成候选文本串的装置。

根据第二十二方面，本申请提供了一种处理引擎，包括：用于接收包括文本串的输入条目的装置；用于从输入条目识别分割信息的装置；以及用于基于分割信息从输入条目的文本串生成候选文本串的装置。

根据第二十三方面，本申请提供了一种计算机程序产品，其有形地编码在程序载体上并且可操作用于使数据处理设备执行操作，包括：接收包括文本串的输入条目的步骤；从输入条目识别分割信息的步骤；以及基于分割信息从输入条目的文本串生成候选文本串的步骤。

本说明书中描述的系统和功能操作可以被适当地以数字电子电路实现，或者以计算机软件、固件或硬件实现，包括在本书明书中公开的结构装置及其结构等价物，或者以它们的组合实现。这里的技术可以被实现为一个或多个计算机程序产品，也就是有形地包含在信息载体中(例如，在机器可读存储设备中或在传播信号中)的一个或多个计算机程序，以用于由数据处理装置执行或者控制数据处理装置的操作，该数据处理装置例如可编程处理器、计算机或多个计算机。计算机程序(也被称为程序、软件、软件应用或代码)可以以包括汇编语言或解释语言的编程语言来编写，并且可以以任意形式被部署，包括作为独立程序或作为模块、组件、子例程或其它适于在计算环境中使用的单元。计算机程序并非必须对应于文件。可以将程序存储在含有其它程序或数据的文件的一部分中、存储在专用于所讨论的程序的单一文件中或存储在多个协作的文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可以被部署为在一个计算机上或多个计算机上执行，所述多个计算机可以位于一个地点，或者也可以分布于多个地点并通过通信网络互联。

可以由一个或多个可编程处理器来执行本说明书中描述的过程和逻辑流程，所述一个或多个可编程处理器执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行所描述的功能。还可以通过专用逻辑电路来执行过程和逻辑流程，并且可以将装置实现为专用逻辑电路，所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(特定用途集成电路)。

举例来说，适于执行计算机程序的处理器包括通用和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机读取存储器或它们两者接收指令和数据。计算机的必要元件是用于执行指令的处理器以及一个或多个用于存储指令和数据的存储器设备。通常，计算机还将包括一个或多个用于存储数据的海量存储设备，或被可操作地耦接到一个或多个海量存储设备，以从其接收数据或向其传送数据，或两者，所述海量存储设备例如磁盘、磁光盘或光盘。适于包含计算机程序指令和数据的信息载体包括所有形式的非易失性存储器，举例来说包括半导体存储器件，例如EPROM、EEPROM和闪存存储器器件；磁盘，例如内置硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。可以由专用逻辑电路作为处理器和存储器的补充，或者将处理器和存储器合并在专用逻辑电路中。

为了提供与用户的交互，所描述的技术的方面可以在计算机上实现，该计算机具有显示设备，例如CRT(阴极射线管)或LCD(液晶显示器)监视器，用于向用户显示信息；以及具有键盘和指示设备，例如鼠标或跟踪球，用户可以通过它们向计算机提供输入。其它类型的设备也可以用来提供与用户的交互；例如，向用户提供的反馈可以是任意形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；来自用户的输入可以以任意形式接收，包括声学、语音或触觉输入。

可以在计算系统中实现此处的技术，所述计算系统包括后端组件，例如作为数据服务器；或者包括中间件组件，例如应用服务器；或者包括前端组件，例如客户端计算机，该客户端计算机具有图形用户接口或网页浏览器，通过图形用户接口或网页浏览器用户可以与实现方式进行交互；或者所述计算系统可以包括这样的后端组件、中间件组件或前端组件的任意组合。系统的这些组件可以通过任意形式或介质的数字数据通信互连，所述数字数据通信例如通信网络。通信网络的例子包括局域网(“LAN”)和广域网(“WAN”)，例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此相距遥远，并且一般通过通信网络交互。依靠在各自的计算机上运行并且彼此之间具有客户端-服务器关系的计算机程序形成客户端和服务器的关系。

尽管本说明书包含许多特定的实现细节，但是这些不应该被解释为对任何发明或可能要求保护的范围的限制，而是应当解释为对可能特定于特定发明的特定实施例的特征的描述。在本说明书中，在不同实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。反之，在单个实施例的上下文中描述的不同特征也可以在多个实施例中分别实现或者以任意适当的子组合形式实现。而且，尽管上面可能将特征描述为以特定组合的形式工作，甚至最初所要求保护的也是如此，但是所要求保护的组合中的一个或多个特征在一些情况下可以从组合中去除，并且所要求保护的组合可能指向子组合或子组合的变种。

类似地，尽管操作在附图中是以特定的顺序绘出，但是这不应该被理解为要求这些操作必须以所示的具体顺序执行或顺序执行，或者要求必须执行示出的所有操作，才能达到期望的结果。在某些情况下，多任务和并行处理可能是有益的。而且，在上述实施例中各种系统组件的划分不应该被理解为在所有实施例中都必须要求这样的划分，而是应该理解为通常可以将所描述的程序组件和系统一起集成在单个软件产品中或者打包到多个软件产品中。

以上描述了许多实现方式。然而，需要理解的是，可以进行各种修改而不脱离所描述的实现方式的精神和范围。例如，系统和方法可以在服务器站点上实现，例如在搜索引擎上实现，或者可以在客户端站点上实现，例如在计算机上实现，例如，被下载以提供对文档中文本条目的拼写纠正，或者与诸如搜索引擎之类的远程服务器的接口。而且，客户机和服务器可以在一台机器上实现，例如，当用户在她自己的机器上执行桌面搜索时。

而且，如上所述，系统和方法可以在不是以罗马语为基础的语言(例如CJK语言)的输入法编辑器中实现。可以使用所检测的名称实体/新词列表来提供对输入词序列中的下一个字符/词的建议。例如，假设短语“超级女声”和“超级女生”两者都被检测为名称实体/新词数据库的一部分。在中文输入法编辑器中，当用户输入了前三个字符“超级女”时，编辑器可以自动提供“声”和“生”作为对下一字符的建议。这样，用户就可以简单地挑选一个期望的字符，而不需要手动输入下一字符。因此，其它实现方式也在权利要求的范围内。

Claims

1.一种计算机实现的方法，包括：

接收包括文本串的输入条目；

从所述输入条目识别分割信息；以及

基于所述分割信息从所述输入条目的文本串生成候选文本串。

2.根据权利要求1所述的方法，还包括：

当不能获得所述分割信息时，将整个文本串与候选文本串相关联。

3.根据权利要求2所述的方法，还包括：

生成候选文本串的归一化计数；以及

将所述归一化计数与预定阈值相比较。

4.根据权利要求3所述的方法，还包括：

将候选文本串与字典相比较；以及

当候选文本串的归一化计数超过所述阈值并且所述比较确定该候选文本串还没被存储在所述字典中时，将该候选文本串作为典型文本串存储在数据库中。

5.根据权利要求4所述的方法，还包括：

将候选文本串与数据库相比较；

基于所述比较确定候选文本串是否拼写错误；以及

当候选文本串拼写错误时生成替代文本串。

6.根据权利要求1所述的方法，其中所述输入条目包括搜索引擎的用户查询、即时消息的脚本或者输入法编辑器的用户输入。

7.根据权利要求1所述的方法，其中所述文本串包括非罗马语言的一个或多个词。

8.根据权利要求1所述的方法，其中所述分割信息包括用户生成的分割，该用户生成的分割能够用于在文本串中的词或短语之间进行区分。

9.根据权利要求1所述的方法，其中所述候选文本串包括一个或多个名称实体或新词。

10.根据权利要求3所述的方法，其中所述字典包括专有名词字典。

11.根据权利要求7所述的方法，其中所述非罗马语言是中文、日文或韩文语言。

12.根据权利要求8所述的方法，其中所述用户生成的分割包括空格、制表符、引号、括号或标点符号。

13.根据权利要求9所述的方法，其中所述名称实体包括习惯用语、俗语以及人名、组织名或地名。

14.根据权利要求9所述的方法，其中所述新词包括当前没被包括在字典中的词。

15.一种处理引擎，其使处理设备执行功能，包括：

接收包括文本串的输入条目；

从所述输入条目识别分割信息；以及

16.根据权利要求15所述的处理引擎，还使所述处理设备执行功能，包括：

17.根据权利要求16所述的处理引擎，还使所述处理设备执行功能，包括：

生成候选文本串的归一化计数；以及

将所述归一化计数与预定阈值相比较。

18.根据权利要求17所述的处理引擎，还使所述处理设备执行功能，包括：

将候选文本串与字典相比较；以及

当候选文本串的归一化计数超过所述阈值并且所述比较确定该候选文本串还没被存储在字典中时，将所述候选文本串作为典型文本串存储在数据库中。

19.根据权利要求18所述的处理引擎，还使所述处理设备执行功能，包括：

将候选文本串与数据库相比较；

基于所述比较确定候选文本串是否拼写错误；以及

当候选文本串拼写错误时生成替代文本串。

20.一种系统，包括：

被配置为允许用户输入文本串的输入条目组件；

用于从输入文本串生成候选文本串的装置；以及

数据库，被配置为：

确定候选文本串是否已经在数据库中；以及

当候选文本串还没被存储在数据库中时，将所述候选文本串存储在数据库中。

21.一种系统，包括：

用于接收包括文本串的输入条目的装置；

用于从所述输入条目识别分割信息的装置；以及

用于基于所述分割信息从所述输入条目的文本串生成候选文本串的装置。

22.一种处理引擎，包括：

用于接收包括文本串的输入条目的装置；

用于从所述输入条目识别分割信息的装置；以及