Connect public, paid and private patent data with Google Patents Public Datasets

选择用于文本分割的语言的方法和系统

Info

Publication number
CN102831107A
CN102831107A CN 201210288916 CN201210288916A CN102831107A CN 102831107 A CN102831107 A CN 102831107A CN 201210288916 CN201210288916 CN 201210288916 CN 201210288916 A CN201210288916 A CN 201210288916A CN 102831107 A CN102831107 A CN 102831107A
Authority
CN
Grant status
Application
Patent type
Prior art keywords
language
candidate
frequency
occurrence
segmented
Prior art date
Application number
CN 201210288916
Other languages
English (en)
Other versions
CN102831107B (zh )
Inventor
杰拉德·以色列·埃尔巴兹
雅各布·L·曼德尔森
Original Assignee
谷歌公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/27Automatic analysis, e.g. parsing
    • G06F17/273Orthographic correction, e.g. spelling checkers, vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/27Automatic analysis, e.g. parsing
    • G06F17/275Language Identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/27Automatic analysis, e.g. parsing
    • G06F17/2765Recognition
    • G06F17/277Lexical analysis, e.g. tokenisation, collocates

Abstract

公开了用于选择文本分割的语言的方法和系统。在一个实施例中,识别出与字符串相关联的至少第一备选语言和第二备选语言;至少确定与第一备选语言相关联的第一分割结果和与第二备选语言相关联的第二分割结果;确定第一分割结果出现的第一频率和第二分割结果出现的第二频率;以及至少部分地基于所述出现的第一频率和所述出现的第二频率,从第一备选语言和第二备选语言识别可行的语言。

Description

选择用于文本分割的语言的方法和系统

[0001] 本申请是2005年9月28日提交的申请号为200580041137. O的题为“选择用于文本分割的语言的方法和系统”的发明专利申请的分案申请。

技术领域 [0002] 本发明涉及文本分割,更具体地讲,涉及对文本分割的语言进行选择。

背景技术

[0003] 已经存在了试图解译表示文本的数据的文本处理方法和系统。在接收到没有指示单词或其它分割段(token)的分隔符的、由字符串组成的文本时,进行文本处理更加困难。当使用现有方法和系统处理这种字符串时,为了解译字符串,可以将字符分割为分割段。分割段可以是单词、首字母缩写、缩略语、适当名称、地理名称、股票市场交易符号或其它分割段。通常,可以使用现有的方法和系统,将字符串分割为分割字符串的多个组合。在对文本进行分割时选择使用正确的语言可以产生更加有意义的结果。

发明内容

[0004] 本发明的实施例包括选择用于文本分割的语言的方法和系统。本发明的一个实施例包括识别与字符串相关联的至少第一备选语言和第二备选语言;从该字符串确定与第一备选语言相关联的第一分割结果,并从该字符串确定与第二备选语言相关联的第二分割结果•’为兎一分割结果确定弟一出现频率,和为弟~■分割结果确定弟~■出现频率;以及至少部分地基于第一出现频率和第二出现频率,从第一备选语言和第二备选语言来识别可行的

;五古

P口口 ο

[0005] 所提到的该示例性实施例并不限制或限定本发明,而是提供了有助于理解本发明实施例的示例。在具体实施方式中对示例性实施例进行了讨论,并提供了对本发明进一步的描述。通过核对说明书,可以进一步理解本发明的各个实施例所提供的优点。

附图说明

[0006] 当参照附图阅读以下具体实施方式时,可以更好地理解本发明的这些和其它特征、方面和优点,其中:

[0007] 图I示出了根据本发明一个实施例的系统示意图;以及

[0008] 图2示出了由本发明执行的方法的一个实施例的流程图。

具体实施方式

[0009] 引言

[0010] 本发明的实施例包括选择用于文本分割的语言的方法和系统。本发明具有多个实施例。通过引言和示例,本发明的一个示例性实施例提供了通过为字符串选择正确的语言,来改进将诸如域名之类的字符串分割为多个分割段或单词的方法。可以基于各种信号,例如,与该字符串相关联的语言、与用户相关联的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与该字符串相关联的任何最高层域,来选择用于该字符串的多种潜在或备选语言。可以使用每种备选语言将字符串分割为许多分割结果。每个分割结果可以是单词或其它分割段的特定组合。例如,可以针对英语语言将字符串“usedrugs”分割为以下分割结果:“used rugs”,“use drugs”,“us edrugs”等。根据针对每种备选语言的分割结果的数目,可以根据包含可行的分割后结果的可行语言中的文档或搜索疑问的数目来识别可行的分割结果和可行的语言。

[0011] 例如,可以为每种备选语言选择成为最可行分割结果的可能性最高的分割结果。搜索引擎可以确定包含所选择的分割结果的文档或搜索疑问的数目,并且可以为每种备选语言的每个所选分割结果都这样做。在一个实施例中,可以将在特定语言的文档或搜索疑问中以出现频率最大分割结果识别为最可行的分割结果。可以将与最可行的分割结果相关联的语言识别为最可行的语言。用于确定备选语言的语言信号也可以用于选择可行的语言。可行的分割结果和可行的语言可以被用于各种功能,包括基于语言和结果选择广告。

[0012] 给出该引言以将读者引导至该申请的一般技术主题。这并不意味着将本发明限制 于该技术主题。以下对示例性实施例进行描述。系统架构

[0013] 可以构造根据本发明的各种系统。图I是示出了可以在其中执行本发明示例性实施例的示例性系统的示意图。本发明同样可以操作并体现于其它系统。

[0014] 现在参照附图,在所有多个附图中,类似的数字指示类似的单元,图I是示出了实施本发明实施例的示例性环境的示意图。图I中所示的系统100包括通过网络106与服务器设备104和服务器设备150通信的多个客户机设备102a-n。在一个实施例中,所示的网络106包括因特网。在其它实施例中,可以使用诸如内联网、WAN或LAN之类的其它网络。此外,根据本发明的方法可以在单个计算机内工作。

[0015] 图I中所示的客户机设备102a_n各包括计算机可读介质,例如,与处理器110连接的随机存取存储器(RAM) 108。处理器110执行存储器108中存储的计算机可执行程序指令。这种处理器可以包括微处理器、ASIC,和状态机。这种处理器包括或可以与像例如计算机可读介质这样的、存储了指令的介质通信,在处理器执行指令时,使处理器执行这里所描述步骤。计算机可读介质的实施例包括,但不局限于能够向诸如客户机102a的处理器110之类的处理器提供计算机可读指令的电、光、磁或其它存储或传输设备。其它适合介质的示例包括,但不局限于软盘、CD-ROM、DVD、磁盘、存储器芯片、ROM、RAM、ASIC、配置的处理器、所有光介质、所有磁带或其它磁介质、或计算机处理器可以从中读取指令的任何其它适合的介质。此外,各种其它形式的计算机可读介质可以将指令传输或携带至计算机,包括路由器、专用或公共网络、或其它传输设备或信道(有线和无线)。指令可以包括来自任何适合的计算机编程语言的代码,包括例如,C、C++、C#、Visual Basic、Java、Python、Perl和JavaScript。

[0016] 客户机设备102a_n还可以包括多个外部或内部设备,如,鼠标、⑶-ROM、DVD、键盘、显示器、或其它输入或输出设备。客户机设备102a-n的示例是个人计算机、数字助理、个人数字助理、蜂窝电话、移动电话、智能电话、寻呼机、数字书写板、膝上型计算机、因特网设备和其它基于处理器的设备。通常,客户机设备102a可以是与网络106连接并与一个或多个应用程序交互的任何适合类型的基于处理器的平台。客户机设备102a-n可以在能够支持浏览器或浏览器支持的应用程序的任何操作系统,例如,Microsoft ©Windows ®或Linux,上操作。例如,所示的客户机设备102a-n包括执行诸如微软公司的因特网Explorer™、Netscape通信公司的Netscape Navigator™、以及苹果计算机公司的Safari™之类的浏览器应用程序的个人计算机。

[0017] 通过客户机设备102a_n,用户112a_n可以通过网络106彼此通信,并与同网络106连接的其它系统和设备通信。如图I中所示,服务器设备104和服务器设备150也可以与网络106连接。

[0018] 服务器设备104可以包括执行分割引擎应用程序的服务器,服务器设备150可以包括执行搜索引擎应用程序的服务器。与客户机设备102a-n类似,图I中示出的服务器设备104和服务器设备150分别包括与计算机可读存储器118连接的处理器116、以及与计算机可读存储器154连接的处理器152。作为单个计算机系统来描述的服务器设备104和150可以作为计算机处理器网络来实施。服务器设备104、150的示例是服务器、大型计算 机、联网计算机、基于处理器的设备、以及类似类型的系统和设备。客户机处理器110和服务器处理器116、152可以是如以上描述的多种计算机处理器中的任何一个,例如,来自加利福尼亚的圣克拉拉的英特尔公司的处理器、以及伊利诺斯州的绍姆堡的摩托罗拉公司。

[0019] 存储器118包含分割应用程序,也称为分割引擎120。服务器设备104或相关设备可以接入网络106,以接收来自与网络106连接的其它设备或系统的字符串。例如,字符可以包括用于书写系统中的标记或符号,包括表示诸如ASCII、Unicode、ISO 8859-1、Shift-JIS、以及EB⑶IC之类的字符,或任何其它适合的字符集的数据。在一个实施例中,分割引擎120可以在用户112a试图将网络浏览器应用程序指引至未接入的域名时,从网络106上的服务器设备接收诸如域名之类的字符串。

[0020] 在一个实施例中,分割引擎120为字符串识别备选语言;针对每种备选语言将字符串分割为分割段的潜在组合;以及选择特定语言和组合与字符串相关联。分割段可以包括单词、适当名称、地理名称、缩略语、首字母缩写、股票市场市场交易符号或其它分割段。分割引擎120可以包括分割处理器122、频率处理器124、以及语言处理器126。在图I中所示的实施例中,每个均包括驻留在存储器118中的计算机代码。

[0021] 语言处理器126可以识别备选语言或用于字符串的语言。在一个实施例中,语言处理器126可以使用信号来识别用于该字符串的多种备选语言。例如,语言处理器可以使用语言学、用户的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与该字符串相关联的任何最高层域来确定用于该字符串的备选语言。

[0022] 分割处理器122可以从每种备选语言的字符串中来确定分割段的潜在组合或分割结果的列表。在一个实施例中,分割段处理器124确定列表中每个分割结果的概率,并基于该概率为每种语言选择最高分割结果。分割结果的概率可以基于与结果中的各个分割段相关联的频率值。在一个实施例中,可以包括未分割的字符串作为分割结果。

[0023] 频率处理器124可以执行频率搜索或对每种备选语言的首选分割结果执行频率搜索。频率处理器124可以包括拼写检查功能,或可以调用驻留在别处的拼写检查功能,以便对所选分割结果执行拼写检查。在频率搜索中可以包括任何拼写修正后结果。在一个实施例中,频率处理器将所选的分割结果发送至服务器设备150,以便对所选的分割结果执行频率搜索。如以下所述,频率搜索可以确定每个特定的分割结果的出现频率。分割处理器122可以基于频率搜索识别最佳或可行的分割结果。分割处理器122可以将与可行结果相关联的语言识别为该字符串的可行语言。在一个实施例中,可以将可行的分割结果和可行的语言发送至广告服务器,该广告服务器可以以可行语言和分割结果中的一个或二者为来选择目标广告。下面进一步描述分割处理器122、频率处理器124、以及语言处理器126的其它功能和特性。

[0024] 服务器设备104还提供了对其它存储元件的访问,如,分割段存储元件,在示出的示例中为分割段数据库120。分割段数据库120可以用于存储与每个分割段相关联的分割段和频率信息。分割段数据库120还可以存储与每个分割段相关联的一种语言或多种语言。数据存储元件可以包括用于存储数据的任何一种方法或多种方法的组合,所述数据包括但不局限于阵列、散列表、列表和对。服务器设备104可以访问其它类似类型的数据存储设备。

[0025] 服务器设备150可以包括执行搜索引擎应用程序,例如,Google™搜索引擎的服务器。在其它实施例中,服务器设备150可以包括相关信息服务器或广告服务器。在另一实施例中,可以有多个服务器设备150。

[0026] 存储器154包括搜索引擎应用程序,也被称为搜索引擎156。搜索引擎156可以响应来自用户112a的搜索疑问,从网络106中定位相关信息,并可以保持搜索疑问的搜索日志。搜索引擎156还可以响应来自频率处理器124的频率搜索请求来执行频率搜索。搜索引擎156可以经由网络106,向用户112a提供搜索结果集或向分割引擎120提供频率信

肩、O

[0027] 在一个实施例中,服务器设备150或相关设备已经在先前执行了网络106的缓行(crawl)以定位在与网络106连接的其它设备或系统处存储的诸如网页之类的项目(article)。例如,项目包括文档、电子邮件、即时消息收发器消息、数据库条目、各种格式的网页,例如,HTML、XML、XHTML、便携文档格式(HF)文档,以及媒体文档,例如,图像文档、音频文档和视频文档,或任何适合类型的无论什么的样文档或文档组或信息。索引器158可以用于对存储器154中或在诸如索引160之类的另一数据存储设备上的项目编索引。索引器还可以包括与每个项目相关联的语言或多种语言。在一个实施例中,存在多个索引,每个索引包含编索引后的总项目的一部分。应当理解,可以使用代替缓行或与缓行结合的用于对项目编索引的任何其它适合的方法,如,手动提交。

[0028] 搜索引擎156可以以多种适合的方式来执行频率搜索。在一个实施例中,搜索引擎156可以使用每个首选分割结果作为搜索疑问来执行网络搜索,并可以以分割结果的备选语言来搜索包含搜索疑问的项目。在该实施例中,可以生成频率搜索结果集,并且可以包括一个或多个项目标识符。例如,项目标识符可以是统一资源定位器(URL)、文件名、链接、图标、本地文件的路径、或者识别项目的其它。在一个实施例中,项目标识符可以包括与项目相关联的URL。频率处理器124可以使用每个频率搜索结果集中的项目标识符的数目作为相应分割结果的出现数目的表示。

[0029] 在另一实施例中,频率处理器124可以直接与索引器158相接口。针对每个首选分割结果,索引器158可以确定在其中出现了分割结果的关联备选语言的项目数。可以将该信息发送至频率处理器124。在另一实施例中,针对每个所选分割结果,搜索引擎156和/或频率处理器124可以根据搜索日志来确定关联备选语言中的搜索疑问的出现次数,频率处理器124能够根据该搜索日志信息来确定出现的频率。在一个实施例中,可以基于关联语言中的项目或搜索疑问的总数来对与分割结果关联的频率搜索中的项目或搜索询问数目进行归一化。

[0030] 应当注意,本发明可以包括具有与图I所示不同架构的系统。例如,在根据本发明的一些系统中,服务器设备104可以包括单个物理或逻辑服务 器。图I中示出的系统100仅是示例性的,并用于帮助解释图2中所示的方法。

[0031] 处理

[0032] 可以执行根据本发明实施例的不同方法。根据本发明的一个示例性方法包括识别与字符串相关联的至少第一备选语言和第二备选语言;至少根据该字符串确定与第一备选语言相关联的第一分割结果,和根据该字符串确定与第二备选语言相关联的第二分割结果;确定第一分割结果出现的第一频率,和第二分割结果出现的第二频率;以及至少部分地基于出现的第一频率和出现的第二频率,从第一备选语言和第二备选语言来识别可行的语言。可以识别两种以上的备选语言,并确定两个以上的分割结果。例如,可以识别三种备选语言,并对于每种备选语言来确定四个分割结果。

[0033] 可以至少部分地基于出现的第一频率和出现的第二频率,根据从第一分割结果和第二分割结果至少部分地识别可行的分割结果来对可行语言进行识别。可以至少部分地基于一种或多种语言信号来识别第一备选语言和第二备选语言。语言信号可以包括与字符串相关联的语言学、与字符串相关联的用户的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与字符串相关联的最高层域中的至少一个。在一个实施例中,对可行语言的识别可以至少部分地基于语言信号。

[0034] 在一个实施例中,至少部分地基于出现的第一频率和出现的第二频率,从第一备选语言和第二备选语言识别可行语言可以包括:如果所述出现的第一频率大于所述出现的第二频率,则选择第一备选语言。字符串可以包括域名。第一分割结果可以包括分割段的第一组合,以及第二分割结果包括分割段的第二组合。

[0035] 在一个实施例中,确定第一分割结果出现的第一频率可以包括:确定包含第一分割结果的第一备选语言中的项目数,并基于第一备选语言中的项目总数来对项目数进行归一化;以及确定包含第一分割结果的第一备选语言中的项目数可以包括:确定响应包括第一分割结果的搜索疑问所生成的搜索结果集中的项目标识符数。

[0036] 在一个实施例中,确定包含第一分割结果的第一语言的项目数可以包括访问项目索引。在另一实施例中,确定出现的第一频率可以包括确定第一备选语言中的多个搜索疑问中的第一分割结果的出现数目,并基于第一备选语言中的搜索疑问的总数来对出现数目进行归一化。

[0037] 该方法还可以包括至少部分地基于可行语言或可行的分割结果(或二者)来选择项目,以及该项目可以包括广告。在一个实施例中,确定第一分割结果可以包括从字符串确定第一备选语言中的多个分割结果,以及从第一备选语言中的多个分割结果来识别第一分割结果。识别第一分割结果可以包括计算多个分割结果中的每一个的概率值。与第一分割结果相关联的第一概率值可以至少部分地基于第一分割结果内的每个分割段的频率。

[0038] 另一示例性方法包括:从域名来确定第一备选语言中的第一分割结果,以及第二备选语言中的第二分割结果;确定项目索引、文本索引和搜索结果集中的至少一个中的第一分割结果出现的第一频率;确定第二分割结果出现的第二频率;如果所述出现的第一频率大于所述出现的第二频率,则将第一备选语言选择作为可行语言;如果所述出现的第二频率大于所述出现的第一频率,则将第二备选语言选择作为可行语言;至少部分地基于可行语言来选择广告,其中,广告包括可行语言中的文本以及使广告的显示与同域名相关联的网页相关联。

[0039] 图2示出了根据本发明一个实施例的选择用于文本分割的语言的示例性方法200。作为示例来提供该示例性方法,根据本发明,存在着多种执行该方法的方式。图2中示出的方法200可以通过一个系统来执行,和提供各种系统的组合来进行。以下将由图I所示的系统100所执行的方法200作为示例进行描述,在解释图2的示例方法的过程中,弓丨用了系统100的各种元件。

[0040] 参照图2,在方框202中开始该示例方法。方框204跟随方框202,在方框204中,分割引擎120可以访问字符串。可以从例如与网络106连接的设备、或从另一设备中接收或访问字符串。在一个实施例中,字符串可以是与现在未用的或不存在的网站相关的域名,其中,从与该域名相关联的广告服务器中接收所述现在未用的或不存在的网站。

[0041 ] 方框206跟随方框204,在方框206中,识别字符串的备选语言。在一个实施例中,语言处理器126可以使用一种或多种语言信号来确定该字符串的多种备选语言。例如,语言处理器可以基于语言信号,将英语、法语和西班牙语识别为该字符串的三种备选语言。

[0042] 例如,使用的语言信号中的一些可以是与字符串相关联的语言学、与字符串相关联的用户的IP地址、用于字符串的字符集、与同字符串相关联的用户相关联的浏览器应用程序的浏览器设置、以及与字符串相关联的最高层域。例如,可以使用语言学来确定字符串的结构或性质是否指示它使用的是特定语言。例如,特定语言具有以特定字符组开始或结束、并使用一般图案的趋势。用户的IP地址可以指示用户的位置和国家。从国家信息中,可以用与国家相关联的一种语言或多种语言作未备选语言。字符串的字符集可以指示与字符串相关联的一种语言或多种语言。例如,西里尔字母字符集可以指示俄语或一些其它斯拉夫语言。与字符串相关联的用户的浏览器应用程序的浏览器设置可以指示与字符串相关联的语言和/或字符集。例如,可以在HTTP报头中与字符串一起传输用户的浏览器应用程序的语言和字符集设置。与字符串相关联的最高层域可以指示国家。最高层域可以是根之后层级的最高等级。在域名中,最高层域是最靠右边出现的域名部分。例如,对于域名“usedrugs. co. uk”,最高层域是uk”,可以指示英国。最高层域ru”可以指示俄国。与最高层域相关联的国家可以用于确定备选语言,如,“ru”指示俄国,它指示关联字符串可以是俄语的。一些最高层域可以指示多于一种语言。例如,“.ch”可以指示瑞士,以及可以指示可与法语、德语或意大利语相关联的字符串。可以使用识别字符串的备选语言的其它适合的信号和方法。

[0043] 方框208跟随方框206,在方框208中,通过针对每种备选语言对字符串进行分割,从字符串中生成多个分割结果。分割字符串可以包括将串中的字符解析为分割段的多种组合,并且可以由分割处理器122来执行。分割处理器122可以针对每种备选语言开发分割结果的列表。每个分割结果可以是分割段的多个组合或单个分割段。例如,在意大利语中,可以将字符串“assocomunicazioni ”分割为“asso comunicazioni ”和其它分割后的结果,以及在法语中,可以分割为“asso com uni cazioni”和其它分割后的结果。在另一示例中,字符串“maisonblanche”可以在法语中分割为“maison blanche”和其它分割后的结果,以及在英语中,可以分割为“mai son blanc he”和其它分割后的结果。在另一示例中,字符串 “usedrugs” 可以在英语中分割为包括“used rugs”、“use drugs”、“us ed rugs”、“u sed rugs”、“usedrugs”等的分割后的结果。还可以针对其它备选语言(如上例中的法语和西班牙语)生成分割结果。可以包括未分割的字符串作为分割结果。

[0044] 在分割处理中,分割处理器122可以利用来自分割段数据库126中的分割段。可以使用不同的方法来对字符串进行分割,如,在2003年12月30日提交的名为“Methods andSystems for Text Segmentation”的 PCT 国际专利申请No. PCT/US03/41609 中所描述的分割技术,在此一并引入作为参考。

[0045] 方框210跟随方框208,在方框210中,为每种备选语言确定最高分割结果。可以通过分割处理器122来确定最高分割结果,以及最高分割结果可以是最佳或可行的分割结果的概率最高的结果。在一个实施例中,可以基于为每个分割结果所确定的概率值来排列分割结果。在一个实施例中,可以通过将与每个单独的分割结果内的单独的分割段相关联的频率值相加来确定概率值。在另一实施例中,可以通过包括将与每个单独的分割结果内的单独的分割段相关联的频率值的对数相加的复合函数来确定概率值。然后可以选择多个 最高级别的分割结果。例如,可以排列每个备选语言的分割结果,以及可以选择每种备选语言的前三个结果。

[0046] 方框212跟随方框210,在方框212中,针对每种备选语言的首选分割结果来执行频率搜索。可以由频率处理器124结合搜索引擎156来进行频率搜索。在一个实施例中,分割处理器122可以将所选的分割结果传递至频率处理器124,频率处理器124可以确定在项目或搜索疑问的语料库中每个分割结果的出现频率。

[0047] 在一个实施例中,频率处理器124可以基于由搜索引擎156编索引的项目来确定分割结果的出现频率。在一个实施例中,频率处理器124可以经由网络106,将首选的分割结果发送至搜索引擎156。搜索引擎156可以利用每个分割结果作作搜索疑问,来对编索引项目中的每个分割结果进行搜索。例如,频率处理器124可以将由引号标注的每种备选语言的每个备选结果作为搜索疑问发送至搜索引擎156,从而搜索引擎156针对特定语言的项目中的确切的分割词组来执行搜索。在一个实施例中,对于每个分割结果,搜索引擎156可以生成包含响应搜索疑问的多个项目标识符的搜索结果集。搜索引擎156可以将每个分割结果的搜索结果集经由网络106发送回频率处理器124。频率处理器124可以基于项目标识符的数目,从每个搜索结果集中确定每个分割结果所出现的频率。

[0048] 在另一实施例中,频率处理器124可以经由网络106,将首选分割结果发送至索引器158。索引器158可以访问索引160,以确定出现分割结果的特定语言中的项目数目,并且可以针对每个所选分割结果来这样做。在一个实施例中,索引160可以是多个索引,以及索引器158可以为每个分割结果检查总索引的一部分。然后,索引器158可以将与每个分割结果相关联的出现次数经由网络106传递至频率处理器124。

[0049] 在另一个实施例中,频率处理器124可以经由网络106将首选的分割结果发送至搜索引擎156,以确定搜索疑问中的分割结果的出现次数。例如,针对关联语言中的每个分割结果,搜索引擎156可以确定该分割结果被用作搜索疑问或部分搜索疑问的次数。可以通过搜索引擎156,将每个分割结果在搜索疑问中的出现次数经由网络106发送至频率处理器124。

[0050] 例如,如果分割处理器122确定了在英语中,字符串“usedrugs”的所选分割结果是“used rugs”、“use drugs”和“us ed rugs”,则频率处理器124可以将这些分割结果和与其它备选语言相关联的分割结果发送至搜索引擎156。例如,搜索引擎156可以将这些结果使用作为搜索疑问,并针对每个分割结果生成搜索结果集。例如,搜索引擎156可以使用“used rugs”作为搜索疑问,并为包含与含有词组“used rugs”的英语项目相关联的项目标识符的搜索疑问确定搜索结果集。搜索引擎156可以针对与其它备选语言相关联的分割结果执行同样的动作。在另一个实施例中,搜索引擎156可以从包含先前接收到的搜索引擎的关联搜索日志中确定接收到包含分割结果的搜索询问的次数。例如,搜索引擎156可以为接收到包含词组“used rugs”的搜索询问的次数来搜索它的搜索日志。在另一个实施例中,搜索引擎156的索引器158可以接收搜索结果,并确定包含分割结果的索引160或索引160的一部分中的项目数目。例如,索引器158可以通过索引160或索引160的一部分来搜索包含“used rugs”的英语项目的数目。 [0051] 可以在频率搜索中包括拼写检查功能。例如,频率处理器124可以包括或可以调用拼写检查功能,从而可以对首选分割结果进行拼写检查。拼写检查功能可以为每个分割结果中的单独的分割段确定正确或优选的拼写。频率处理器124可以针对最高分割结果以及任何拼写修正后的分割结果来执行频率搜索,以确定两个结果的出现频率。例如,如果分害1J结果是“basebal game”,以及拼写修正后的结果是“baseball game”,贝U可以针对这两个结果均执行频率搜索。

[0052] 在一个实施例中,每个分割结果的出现频率是基于特定语言的项目或搜索询问总数的归一化值。例如,如果在70个英语项目或搜索询问中出现英语的分割结果,以及存在总数1000的英语项目或搜索询问,则该英语分割结果的出现频率是O. 07 (70/1000)。类似地,如果在60个法语项目或搜索询问中出现法语的分割结果,以及存在总数400的法语项目或搜索询问,则该法语分割结果的出现频率是O. 15 (60/400)。这样,出现频率考虑了项目或搜索结果的语料库中的特定语言的流行性,以及并不固有地加权至更加流行的语言。

[0053] 方框214跟随方框212,在方框214中,对可操作语言和可操作的分割结果进行识另O。在一个实施例中,频率处理器124可以识别可操作语言和可操作的分割结果。例如,频率处理器124可以选择具有最高关联出现频率的分割结果。如上所述,出现频率可以是基于包含分割结果的项目或搜索询问数目、以及特定语言的项目或搜索询问的总数的归一化值。附加信号还可以用于确定可行的分割结果。例如,频率处理器124可以考虑包含每个分割结果的项目的客观排序(如,用于网络项目的PageRank™排序算法),并使用目标排序来对包含每个分割结果的项目进行加权。出现于项目中的分割结果的次数和项目中的分割结果的位置还可以用于对包含分割结果的项目进行加权。可以选择与可行的分割结果关联的备选语言作为可行语言。

[0054] 在一个实施例中,在方框206中用于识别备选语言的语言信号可以用于确定可操作语言。如果语言信号指示该字符串最可能是特定语言,则这些信号可以用于对该语言进行更加重的加权。例如,诸如语言学、与用户关联的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与字符串相关联的最高层域之类的语言信号可以指示域字符串相关联的语言是特定语言,例如,法语。另一种语言,例如,英语的分割结果的出现频率信息可以接近或超过法语的另一分割结果的出现频率信息。语言信号可以用于对法语进行加权,以便使得在该示例中选择法语作为操作语言。在216中,结束该方法200。

[0055] 可以以各种方式来使用可行语言和可行的分割结果。可以在选择广告的过程中使用可行语言和/或可下的分割结果。例如,用户112a可以通过将字符串“usedrugs. com”输入浏览器应用程序,尝试将他的浏览器应用程序导航至网站“usedrugs. com”。如果在域名“usedrugs. com”处不存在这种网站,则可以将用户浏览器应用程序重定向为第三方网站。第三方网站会期望将与用户输入的域名相关的广告和/或链接放置在用户正在浏览的网页上。第三方网站可以将域名“usedrugs. com”发送至分割引擎120。分割引擎120可以使用以上描述的方法和系统,将可行语言和可行的分割结果返回第三方网站或与网站相关联的广告服务器。例如,可行的分割结果可以是“used rugs”,以及可行语言可以是英语。第三方网站或广告服务器可以使与英语的词组“used rugs”相关的广告和/或链接显示在用户正在浏览的网页上,并可以确保用于网站上的语言是英语。在选择显示给用户的状态消息中使用的语言中也可以使用可行语言。 [0056] 综述

[0057] 尽管以上的描述包含了许多特例,但是这些特例不应当构成为对本发明范围的限制,而是仅作为所公开的实施例的范例。本领域技术人员可以预见在本发明范围内的任何其它可能的变化。这里使用的术语第一和第二仅用于区分一个项目与另一个项目。除非特别示出,术语第一和第二并不用于指示时间上的第一或第二、列表中的第一或第二、或其它顺序。例如,除非特别指出,“第二”可以在时间上或列表中在“第一”之前。

Claims (15)

1. 一种计算机实现的方法,包括: 在计算设备处接收字符串; 识别针对所述字符串的至少第一备选语言和第二备选语言; 通过计算设备将所述字符串至少分割为针对第一备选语言的第一分割结果和针对第二备选语言的第二分割结果,其中所述第一分割结果包括第一多个分割段,所述第二分割结果包括第二多个分割段; 使用确定一个或多个第一分割段的正确或优选拼写的拼写检查功能,来确定至少第一分割结果的拼写修正后的分割结果; 确定第一分割结果在与第一备选语言相关联的第一语料库中的第一出现频率、第二分割结果在与第二备选语言相关联的第二语料库中的第二出现频率、和拼写修正后的分割结果在与第一备选语言相关联的第一语料库中的第三出现频率;以及 通过计算设备至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作的分割结果。
2.根据权利要求I所述的计算机实现的方法,其中第一语料库包括与第一备选语言相关联的多个项目。
3.根据权利要求I所述的计算机实现的方法,其中第一语料库包括与第一备选语言相关联的多个先前接收的搜索询问。
4.根据权利要求I所述的计算机实现的方法,其中确定第一出现频率包括: 将第一分割结果作为搜索询问发送到搜索引擎;以及 响应于发送所述搜索询问,接收包括响应于所述搜索询问的项目标识符的搜索结果集。
5.根据权利要求I所述的计算机实现的方法,还包括至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作语言。
6. 一种计算机系统,包括: 一个或多个计算机服务器设备,用于接收字符串; 所述一个或多个计算机服务器设备的语言处理器,用于识别针对所述字符串的至少第一备选语目和第二备选语目; 所述一个或多个计算机服务器设备的分割处理器,用于将所述字符串至少分割为针对第一备选语言的第一分割结果和针对第二备选语言的第二分割结果,其中所述第一分割结果包括第一多个分割段,所述第二分割结果包括第二多个分割段;以及所述一个或多个计算机服务器设备的频率处理器,用于: 使用确定一个或多个第一分割段的正确或优选拼写的拼写检查功能,来确定至少第一分割结果的拼写修正后的分割结果; 确定第一分割结果在与第一备选语言相关联的第一语料库中的第一出现频率、第二分割结果在与第二备选语言相关联的第二语料库中的第二出现频率、和拼写修正后的分割结果在与第一备选语言相关联的第一语料库中的第三出现频率;以及 至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作的分割结果。
7.根据权利要求6所述的计算机系统,其中第一语料库包括与第一备选语言相关联的多个项目。
8.根据权利要求6所述的计算机系统,其中第一语料库包括与第一备选语言相关联的多个先前接收的搜索询问。
9.根据权利要求6所述的计算机系统,其中频率处理器被配置为通过执行以下功能来确定第一出现频率: 将第一分割结果作为搜索询问发送到搜索引擎;以及 响应于发送所述搜索询问,接收包括响应于所述搜索询问的项目标识符的搜索结果集。
10.根据权利要求6所述的计算机系统,其中频率处理器还被配置为至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作语言。
11. 一种计算机程序产品,包括存储有指令的计算机可读介质,当所述指令被处理器执行时,使得处理器执行以下操作: 接收字符串; 识别针对所述字符串的至少第一备选语言和第二备选语言; 将所述字符串至少分割为针对第一备选语言的第一分割结果和针对第二备选语言的第二分割结果,其中所述第一分割结果包括第一多个分割段,所述第二分割结果包括第二多个分割段; 使用确定一个或多个第一分割段的正确或优选拼写的拼写检查功能,来确定至少第一分割结果的拼写修正后的分割结果; 确定第一分割结果在与第一备选语言相关联的第一语料库中的第一出现频率、第二分割结果在与第二备选语言相关联的第二语料库中的第二出现频率、和拼写修正后的分割结果在与第一备选语言相关联的第一语料库中的第三出现频率;以及 至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作的分割结果。
12.根据权利要求11所述的计算机程序产品,其中第一语料库包括与第一备选语言相关联的多个项目。
13.根据权利要求11所述的计算机程序产品,其中第一语料库包括与第一备选语言相关联的多个先前接收的搜索询问。
14.根据权利要求11所述的计算机程序产品,其中确定第一出现频率包括: 将第一分割结果作为搜索询问发送到搜索引擎;以及 响应于发送所述搜索询问,接收包括响应于所述搜索询问的项目标识符的搜索结果集。
15.根据权利要求11所述的计算机程序产品,还包括至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作语言。
CN 201210288916 2004-09-30 2005-09-28 选择用于文本分割的语言的方法和系统 CN102831107B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US10955660 US7996208B2 (en) 2004-09-30 2004-09-30 Methods and systems for selecting a language for text segmentation
US10/955,660 2004-09-30
CN200580041137.02005.09.28 2005-09-28
CN 200580041137 CN101095138B (zh) 2004-09-30 2005-09-29 选择用于文本分割的语言的方法和系统

Publications (2)

Publication Number Publication Date
CN102831107A true true CN102831107A (zh) 2012-12-19
CN102831107B CN102831107B (zh) 2016-01-20

Family

ID=35985934

Family Applications (3)

Application Number Title Priority Date Filing Date
CN 201210288916 CN102831107B (zh) 2004-09-30 2005-09-28 选择用于文本分割的语言的方法和系统
CN 201210063033 CN102708095B (zh) 2004-09-30 2005-09-28 选择用于文本分割的语言的方法
CN 200580041137 CN101095138B (zh) 2004-09-30 2005-09-29 选择用于文本分割的语言的方法和系统

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN 201210063033 CN102708095B (zh) 2004-09-30 2005-09-28 选择用于文本分割的语言的方法
CN 200580041137 CN101095138B (zh) 2004-09-30 2005-09-29 选择用于文本分割的语言的方法和系统

Country Status (8)

Country Link
US (4) US7996208B2 (zh)
JP (1) JP5148278B2 (zh)
CN (3) CN102831107B (zh)
CA (1) CA2581902C (zh)
DK (1) DK1800224T3 (zh)
EP (2) EP2511832B1 (zh)
ES (1) ES2395168T3 (zh)
WO (1) WO2006039398A8 (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6805048B2 (en) 2002-08-30 2004-10-19 3M Innovative Properties Company Method of marking a substrate using an electret stencil
US7680648B2 (en) 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
US8255376B2 (en) 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
GB2454147B (en) * 2006-09-01 2014-03-12 Research In Motion Ltd Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
US8423908B2 (en) * 2006-09-08 2013-04-16 Research In Motion Limited Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
EP1901534B1 (en) * 2006-09-18 2010-09-01 LG Electronics Inc. Method of managing a language information for a text input and method of inputting a text and a mobile terminal
US20100153862A1 (en) * 2007-03-09 2010-06-17 Ghost, Inc. General Object Graph for Web Users
US9754022B2 (en) * 2007-10-30 2017-09-05 At&T Intellectual Property I, L.P. System and method for language sensitive contextual searching
US8165869B2 (en) * 2007-12-10 2012-04-24 International Business Machines Corporation Learning word segmentation from non-white space languages corpora
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8464150B2 (en) * 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
KR101083455B1 (ko) * 2009-07-17 2011-11-16 엔에이치엔(주) 통계 데이터에 기초한 사용자 질의 교정 시스템 및 방법
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8635205B1 (en) * 2010-06-18 2014-01-21 Google Inc. Displaying local site name information with search results
CN101882226B (zh) * 2010-06-24 2013-07-24 汉王科技股份有限公司 提高字符间语言区分度的方法及装置
US20120004899A1 (en) * 2010-07-04 2012-01-05 Taymoor Arshi Dynamic ad selection for ad delivery systems
CN102455997A (zh) * 2010-10-27 2012-05-16 鸿富锦精密工业(深圳)有限公司 元件名称提取系统及方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9218335B2 (en) * 2012-10-10 2015-12-22 Verisign, Inc. Automated language detection for domain names
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A3 (en) 2013-06-07 2015-01-29 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
US9213910B2 (en) 2013-11-06 2015-12-15 Xerox Corporation Reinforcement learning approach to character level segmentation of license plate images
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US20160321245A1 (en) * 2015-04-30 2016-11-03 HeyWire, Inc. Call center sms-mms language router
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks

Family Cites Families (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
US5325298A (en) 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5423032A (en) 1991-10-31 1995-06-06 International Business Machines Corporation Method for extracting multi-word technical terms from text
EP0846950A3 (en) * 1992-07-24 1999-08-25 THE UNITED STATES GOVERNMENT as represented by THE DEPARTMENT OF HEALTH AND HUMAN SERVICES Peptides useful as internal standards for microsequencing and method for their use
US5377280A (en) 1993-04-19 1994-12-27 Xerox Corporation Method and apparatus for automatic language determination of European script documents
US5454046A (en) 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5619709A (en) 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5499360A (en) 1994-02-28 1996-03-12 Panasonic Technolgies, Inc. Method for proximity searching with range testing and range adjustment
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5794177A (en) 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US6067552A (en) 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US5913040A (en) 1995-08-22 1999-06-15 Backweb Ltd. Method and apparatus for transmitting and displaying information between a remote network and a local computer
US5778364A (en) 1996-01-02 1998-07-07 Verity, Inc. Evaluation of content of a data set using multiple and/or complex queries
US5966686A (en) 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
EP0822502A1 (en) 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US6002998A (en) * 1996-09-30 1999-12-14 International Business Machines Corporation Fast, efficient hardware mechanism for natural language determination
US5778363A (en) 1996-12-30 1998-07-07 Intel Corporation Method for measuring thresholded relevance of a document to a specified topic
US7437351B2 (en) 1997-01-10 2008-10-14 Google Inc. Method for searching media
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6119164A (en) 1997-04-15 2000-09-12 Full Circle Software, Inc. Method and apparatus for distributing over a network unsolicited information to a targeted audience
US6006222A (en) 1997-04-25 1999-12-21 Culliss; Gary Method for organizing information
US6078916A (en) 1997-08-01 2000-06-20 Culliss; Gary Method for organizing information
US6014665A (en) 1997-08-01 2000-01-11 Culliss; Gary Method for organizing information
US6182068B1 (en) 1997-08-01 2001-01-30 Ask Jeeves, Inc. Personalized search methods
US6185559B1 (en) 1997-05-09 2001-02-06 Hitachi America, Ltd. Method and apparatus for dynamically counting large itemsets
US6233575B1 (en) 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6505150B2 (en) 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5845278A (en) 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US5974412A (en) 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
US6134532A (en) 1997-11-14 2000-10-17 Aptex Software, Inc. System and method for optimal adaptive matching of users to most relevant entity and information in real-time
US6230168B1 (en) * 1997-11-26 2001-05-08 International Business Machines Corp. Method for automatically constructing contexts in a hypertext collection
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6640006B2 (en) 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6272456B1 (en) 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6044375A (en) 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
US6334131B2 (en) 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6466901B1 (en) * 1998-11-30 2002-10-15 Apple Computer, Inc. Multi-language document search and retrieval system
US6298348B1 (en) 1998-12-03 2001-10-02 Expanse Networks, Inc. Consumer profiling system
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6269189B1 (en) 1998-12-29 2001-07-31 Xerox Corporation Finding selected character strings in text and providing information relating to the selected character strings
US6678681B1 (en) 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
US6324519B1 (en) 1999-03-12 2001-11-27 Expanse Networks, Inc. Advertisement auction system
US6760746B1 (en) 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
US6826559B1 (en) 1999-03-31 2004-11-30 Verizon Laboratories Inc. Hybrid category mapping for on-line query tool
US6493702B1 (en) 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
US6493703B1 (en) * 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
US7065500B2 (en) 1999-05-28 2006-06-20 Overture Services, Inc. Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6314419B1 (en) 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
WO2000079436A3 (en) 1999-06-24 2003-12-04 Simpli Com Search engine interface
US6601026B2 (en) 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6754873B1 (en) 1999-09-20 2004-06-22 Google Inc. Techniques for finding related hyperlinked documents using link-based analysis
US6816857B1 (en) 1999-11-01 2004-11-09 Applied Semantics, Inc. Meaning-based advertising and document relevance determination
US6453315B1 (en) 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
JP2001101186A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 機械翻訳装置
WO2001031500A1 (en) 1999-10-29 2001-05-03 British Telecommunications Public Limited Company Method and apparatus for processing queries
US6968308B1 (en) 1999-11-17 2005-11-22 Microsoft Corporation Method for segmenting non-segmented text using syntactic parse
JP3803219B2 (ja) * 1999-12-14 2006-08-02 三菱電機株式会社 全文検索装置及び全文検索方法
US6691108B2 (en) 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US6678409B1 (en) 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
US20020002452A1 (en) * 2000-03-28 2002-01-03 Christy Samuel T. Network-based text composition, translation, and document searching
US6754872B2 (en) * 2000-05-22 2004-06-22 Sarnoff Corporation Method and apparatus for reducing channel distortion in a wireless communications network
GB2362971B (en) 2000-05-30 2004-03-24 Com Nation Ltd A method of searching the internet and an internet search engine
US6810375B1 (en) 2000-05-31 2004-10-26 Hapax Limited Method for segmentation of text
US6529903B2 (en) 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US7136854B2 (en) 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US6654993B2 (en) * 2000-07-28 2003-12-02 The Penn State Research Foundation Process for fabricating hollow electroactive devices
US6766320B1 (en) 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
CA2323883C (en) 2000-10-19 2016-02-16 Patrick Ryan Morin Method and device for classifying internet objects and objects stored oncomputer-readable media
US6917937B1 (en) 2000-11-01 2005-07-12 Sas Institute Inc. Server-side object filtering
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US6714939B2 (en) 2001-01-08 2004-03-30 Softface, Inc. Creation of structured data from plain text
US6658423B1 (en) 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US6526440B1 (en) 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
JP3408525B2 (ja) 2001-02-08 2003-05-19 松下電器産業株式会社 Sram装置
JP2002245470A (ja) * 2001-02-16 2002-08-30 Merukomu Service Kk 言語特定装置及び翻訳装置及び言語特定方法
US8001118B2 (en) 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US6738764B2 (en) 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
JPWO2002095614A1 (ja) * 2001-05-24 2004-11-25 鈴木 泉 言語・文字コード系識別処理方法
JP2003186789A (ja) * 2001-12-18 2003-07-04 Logo Vista Corp 電子メール翻訳システム
US6978264B2 (en) 2002-01-03 2005-12-20 Microsoft Corporation System and method for performing a search and a browse on a query
US7716161B2 (en) 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
JP4184344B2 (ja) 2002-11-06 2008-11-19 株式会社野村鍍金 真空用部材の表面処理方法
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
FR2848688A1 (fr) * 2002-12-17 2004-06-18 France Telecom Identification de langue d'un texte
US20040119740A1 (en) 2002-12-24 2004-06-24 Google, Inc., A Corporation Of The State Of California Methods and apparatus for displaying and replying to electronic messages
ES2369665T3 (es) 2003-05-28 2011-12-02 Loquendo Spa Segmentación automática de textos que comprenden fragmentos sin separadores.
US7370034B2 (en) 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US20050086065A1 (en) 2003-10-16 2005-04-21 Nokia Corporation Automatic field completion in capacity-constrained media
US20050131872A1 (en) 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
US8392249B2 (en) 2003-12-31 2013-03-05 Google Inc. Suggesting and/or providing targeting criteria for advertisements
US7359851B2 (en) * 2004-01-14 2008-04-15 Clairvoyance Corporation Method of identifying the language of a textual passage using short word and/or n-gram comparisons
US20050289473A1 (en) 2004-03-17 2005-12-29 Carl Gustafson Method and system for providing search information via a communications network
US7409334B1 (en) * 2004-07-22 2008-08-05 The United States Of America As Represented By The Director, National Security Agency Method of text processing
US7792814B2 (en) 2005-09-30 2010-09-07 Sap, Ag Apparatus and method for parsing unstructured data
US7761458B1 (en) 2006-02-01 2010-07-20 Hewlett-Packard Development Company, L.P. Segmentation of a data sequence
US7747633B2 (en) 2007-07-23 2010-06-29 Microsoft Corporation Incremental parsing of hierarchical files

Also Published As

Publication number Publication date Type
EP2511832A3 (en) 2013-03-20 application
JP5148278B2 (ja) 2013-02-20 grant
EP1800224A2 (en) 2007-06-27 application
CA2581902A1 (en) 2006-04-13 application
WO2006039398A2 (en) 2006-04-13 application
DK1800224T3 (da) 2012-11-19 grant
CA2581902C (en) 2013-05-07 grant
CN102831107B (zh) 2016-01-20 grant
US8489387B2 (en) 2013-07-16 grant
EP2511832A2 (en) 2012-10-17 application
WO2006039398A8 (en) 2007-03-22 application
US7996208B2 (en) 2011-08-09 grant
EP1800224B1 (en) 2012-08-29 grant
CN101095138A (zh) 2007-12-26 application
WO2006039398A3 (en) 2006-07-06 application
US8306808B2 (en) 2012-11-06 grant
EP2511832B1 (en) 2014-05-14 grant
US20130013288A1 (en) 2013-01-10 application
CN101095138B (zh) 2012-08-29 grant
CN102708095B (zh) 2015-09-30 grant
JP2008515107A (ja) 2008-05-08 application
ES2395168T3 (es) 2013-02-08 grant
US20130018648A1 (en) 2013-01-17 application
CN102708095A (zh) 2012-10-03 application
US20060074628A1 (en) 2006-04-06 application
US20110301939A1 (en) 2011-12-08 application

Similar Documents

Publication Publication Date Title
Resnik et al. The web as a parallel corpus
Brandow et al. Automatic condensation of electronic publications by sentence selection
US5303150A (en) Wild-card word replacement system using a word dictionary
US6401060B1 (en) Method for typographical detection and replacement in Japanese text
US6578032B1 (en) Method and system for performing phrase/word clustering and cluster merging
US6519557B1 (en) Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
US6167369A (en) Automatic language identification using both N-gram and word information
US6415250B1 (en) System and method for identifying language using morphologically-based techniques
US20080077859A1 (en) Spelling and grammar checking system
US20080208567A1 (en) Web-based proofing and usage guidance
US8041730B1 (en) Using geographic data to identify correlated geographic synonyms
US6219665B1 (en) Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program
US7194684B1 (en) Method of spell-checking search queries
US20100011016A1 (en) Dictionary compilations
US20020091509A1 (en) Method and system for translating text
US7376752B1 (en) Method to resolve an incorrectly entered uniform resource locator (URL)
US20020174196A1 (en) Methods and systems for creating a multilingual web application
US20060047691A1 (en) Creating a document index from a flex- and Yacc-generated named entity recognizer
US7092871B2 (en) Tokenizer for a natural language processing system
US7711550B1 (en) Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US20050119875A1 (en) Identifying related names
US20060282414A1 (en) Question answering system, data search method, and computer program
US20020152258A1 (en) Method and system of intelligent information processing in a network
US20020069059A1 (en) Grammar generation for voice-based searches
US20070100890A1 (en) System and method of providing autocomplete recommended word which interoperate with plurality of languages

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
C14 Grant of patent or utility model