CN102831107A - 选择用于文本分割的语言的方法和系统 - Google Patents
选择用于文本分割的语言的方法和系统 Download PDFInfo
- Publication number
- CN102831107A CN102831107A CN2012102889162A CN201210288916A CN102831107A CN 102831107 A CN102831107 A CN 102831107A CN 2012102889162 A CN2012102889162 A CN 2012102889162A CN 201210288916 A CN201210288916 A CN 201210288916A CN 102831107 A CN102831107 A CN 102831107A
- Authority
- CN
- China
- Prior art keywords
- frequency
- segmentation result
- occurrences
- language
- alternate language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了用于选择文本分割的语言的方法和系统。在一个实施例中,识别出与字符串相关联的至少第一备选语言和第二备选语言;至少确定与第一备选语言相关联的第一分割结果和与第二备选语言相关联的第二分割结果;确定第一分割结果出现的第一频率和第二分割结果出现的第二频率;以及至少部分地基于所述出现的第一频率和所述出现的第二频率,从第一备选语言和第二备选语言识别可行的语言。
Description
本申请是2005年9月28日提交的申请号为200580041137.0的题为“选择用于文本分割的语言的方法和系统”的发明专利申请的分案申请。
技术领域
本发明涉及文本分割,更具体地讲,涉及对文本分割的语言进行选择。
背景技术
已经存在了试图解译表示文本的数据的文本处理方法和系统。在接收到没有指示单词或其它分割段(token)的分隔符的、由字符串组成的文本时,进行文本处理更加困难。当使用现有方法和系统处理这种字符串时,为了解译字符串,可以将字符分割为分割段。分割段可以是单词、首字母缩写、缩略语、适当名称、地理名称、股票市场交易符号或其它分割段。通常,可以使用现有的方法和系统,将字符串分割为分割字符串的多个组合。在对文本进行分割时选择使用正确的语言可以产生更加有意义的结果。
发明内容
本发明的实施例包括选择用于文本分割的语言的方法和系统。本发明的一个实施例包括识别与字符串相关联的至少第一备选语言和第二备选语言;从该字符串确定与第一备选语言相关联的第一分割结果,并从该字符串确定与第二备选语言相关联的第二分割结果;为第一分割结果确定第一出现频率,和为第二分割结果确定第二出现频率;以及至少部分地基于第一出现频率和第二出现频率,从第一备选语言和第二备选语言来识别可行的语言。
所提到的该示例性实施例并不限制或限定本发明,而是提供了有助于理解本发明实施例的示例。在具体实施方式中对示例性实施例进行了讨论,并提供了对本发明进一步的描述。通过核对说明书,可以进一步理解本发明的各个实施例所提供的优点。
附图说明
当参照附图阅读以下具体实施方式时,可以更好地理解本发明的这些和其它特征、方面和优点,其中:
图1示出了根据本发明一个实施例的系统示意图;以及
图2示出了由本发明执行的方法的一个实施例的流程图。
具体实施方式
引言
本发明的实施例包括选择用于文本分割的语言的方法和系统。本发明具有多个实施例。通过引言和示例,本发明的一个示例性实施例提供了通过为字符串选择正确的语言,来改进将诸如域名之类的字符串分割为多个分割段或单词的方法。可以基于各种信号,例如,与该字符串相关联的语言、与用户相关联的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与该字符串相关联的任何最高层域,来选择用于该字符串的多种潜在或备选语言。可以使用每种备选语言将字符串分割为许多分割结果。每个分割结果可以是单词或其它分割段的特定组合。例如,可以针对英语语言将字符串“usedrugs”分割为以下分割结果:“used rugs”,“use drugs”,“us edrugs”等。根据针对每种备选语言的分割结果的数目,可以根据包含可行的分割后结果的可行语言中的文档或搜索疑问的数目来识别可行的分割结果和可行的语言。
例如,可以为每种备选语言选择成为最可行分割结果的可能性最高的分割结果。搜索引擎可以确定包含所选择的分割结果的文档或搜索疑问的数目,并且可以为每种备选语言的每个所选分割结果都这样做。在一个实施例中,可以将在特定语言的文档或搜索疑问中以出现频率最大分割结果识别为最可行的分割结果。可以将与最可行的分割结果相关联的语言识别为最可行的语言。用于确定备选语言的语言信号也可以用于选择可行的语言。可行的分割结果和可行的语言可以被用于各种功能,包括基于语言和结果选择广告。
给出该引言以将读者引导至该申请的一般技术主题。这并不意味着将本发明限制于该技术主题。以下对示例性实施例进行描述。系统架构
可以构造根据本发明的各种系统。图1是示出了可以在其中执行本发明示例性实施例的示例性系统的示意图。本发明同样可以操作并体现于其它系统。
现在参照附图,在所有多个附图中,类似的数字指示类似的单元,图1是示出了实施本发明实施例的示例性环境的示意图。图1中所示的系统100包括通过网络106与服务器设备104和服务器设备150通信的多个客户机设备102a-n。在一个实施例中,所示的网络106包括因特网。在其它实施例中,可以使用诸如内联网、WAN或LAN之类的其它网络。此外,根据本发明的方法可以在单个计算机内工作。
图1中所示的客户机设备102a-n各包括计算机可读介质,例如,与处理器110连接的随机存取存储器(RAM)108。处理器110执行存储器108中存储的计算机可执行程序指令。这种处理器可以包括微处理器、ASIC,和状态机。这种处理器包括或可以与像例如计算机可读介质这样的、存储了指令的介质通信,在处理器执行指令时,使处理器执行这里所描述步骤。计算机可读介质的实施例包括,但不局限于能够向诸如客户机102a的处理器110之类的处理器提供计算机可读指令的电、光、磁或其它存储或传输设备。其它适合介质的示例包括,但不局限于软盘、CD-ROM、DVD、磁盘、存储器芯片、ROM、RAM、ASIC、配置的处理器、所有光介质、所有磁带或其它磁介质、或计算机处理器可以从中读取指令的任何其它适合的介质。此外,各种其它形式的计算机可读介质可以将指令传输或携带至计算机,包括路由器、专用或公共网络、或其它传输设备或信道(有线和无线)。指令可以包括来自任何适合的计算机编程语言的代码,包括例如,C、C++、C#、Visual Basic、Java、Python、Perl和JavaScript。
客户机设备102a-n还可以包括多个外部或内部设备,如,鼠标、CD-ROM、DVD、键盘、显示器、或其它输入或输出设备。客户机设备102a-n的示例是个人计算机、数字助理、个人数字助理、蜂窝电话、移动电话、智能电话、寻呼机、数字书写板、膝上型计算机、因特网设备和其它基于处理器的设备。通常,客户机设备102a可以是与网络106连接并与一个或多个应用程序交互的任何适合类型的基于处理器的平台。客户机设备102a-n可以在能够支持浏览器或浏览器支持的应用程序的任何操作系统,例如,或Linux,上操作。例如,所示的客户机设备102a-n包括执行诸如微软公司的因特网ExplorerTM、Netscape通信公司的Netscape NavigatorTM、以及苹果计算机公司的SafariTM之类的浏览器应用程序的个人计算机。
通过客户机设备102a-n,用户112a-n可以通过网络106彼此通信,并与同网络106连接的其它系统和设备通信。如图1中所示,服务器设备104和服务器设备150也可以与网络106连接。
服务器设备104可以包括执行分割引擎应用程序的服务器,服务器设备150可以包括执行搜索引擎应用程序的服务器。与客户机设备102a-n类似,图1中示出的服务器设备104和服务器设备150分别包括与计算机可读存储器118连接的处理器116、以及与计算机可读存储器154连接的处理器152。作为单个计算机系统来描述的服务器设备104和150可以作为计算机处理器网络来实施。服务器设备104、150的示例是服务器、大型计算机、联网计算机、基于处理器的设备、以及类似类型的系统和设备。客户机处理器110和服务器处理器116、152可以是如以上描述的多种计算机处理器中的任何一个,例如,来自加利福尼亚的圣克拉拉的英特尔公司的处理器、以及伊利诺斯州的绍姆堡的摩托罗拉公司。
存储器118包含分割应用程序,也称为分割引擎120。服务器设备104或相关设备可以接入网络106,以接收来自与网络106连接的其它设备或系统的字符串。例如,字符可以包括用于书写系统中的标记或符号,包括表示诸如ASCII、Unicode、ISO 8859-1、Shift-JIS、以及EBCDIC之类的字符,或任何其它适合的字符集的数据。在一个实施例中,分割引擎120可以在用户112a试图将网络浏览器应用程序指引至未接入的域名时,从网络106上的服务器设备接收诸如域名之类的字符串。
在一个实施例中,分割引擎120为字符串识别备选语言;针对每种备选语言将字符串分割为分割段的潜在组合;以及选择特定语言和组合与字符串相关联。分割段可以包括单词、适当名称、地理名称、缩略语、首字母缩写、股票市场市场交易符号或其它分割段。分割引擎120可以包括分割处理器122、频率处理器124、以及语言处理器126。在图1中所示的实施例中,每个均包括驻留在存储器118中的计算机代码。
语言处理器126可以识别备选语言或用于字符串的语言。在一个实施例中,语言处理器126可以使用信号来识别用于该字符串的多种备选语言。例如,语言处理器可以使用语言学、用户的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与该字符串相关联的任何最高层域来确定用于该字符串的备选语言。
分割处理器122可以从每种备选语言的字符串中来确定分割段的潜在组合或分割结果的列表。在一个实施例中,分割段处理器124确定列表中每个分割结果的概率,并基于该概率为每种语言选择最高分割结果。分割结果的概率可以基于与结果中的各个分割段相关联的频率值。在一个实施例中,可以包括未分割的字符串作为分割结果。
频率处理器124可以执行频率搜索或对每种备选语言的首选分割结果执行频率搜索。频率处理器124可以包括拼写检查功能,或可以调用驻留在别处的拼写检查功能,以便对所选分割结果执行拼写检查。在频率搜索中可以包括任何拼写修正后结果。在一个实施例中,频率处理器将所选的分割结果发送至服务器设备150,以便对所选的分割结果执行频率搜索。如以下所述,频率搜索可以确定每个特定的分割结果的出现频率。分割处理器122可以基于频率搜索识别最佳或可行的分割结果。分割处理器122可以将与可行结果相关联的语言识别为该字符串的可行语言。在一个实施例中,可以将可行的分割结果和可行的语言发送至广告服务器,该广告服务器可以以可行语言和分割结果中的一个或二者为来选择目标广告。下面进一步描述分割处理器122、频率处理器124、以及语言处理器126的其它功能和特性。
服务器设备104还提供了对其它存储元件的访问,如,分割段存储元件,在示出的示例中为分割段数据库120。分割段数据库120可以用于存储与每个分割段相关联的分割段和频率信息。分割段数据库120还可以存储与每个分割段相关联的一种语言或多种语言。数据存储元件可以包括用于存储数据的任何一种方法或多种方法的组合,所述数据包括但不局限于阵列、散列表、列表和对。服务器设备104可以访问其它类似类型的数据存储设备。
服务器设备150可以包括执行搜索引擎应用程序,例如,GoogleTM搜索引擎的服务器。在其它实施例中,服务器设备150可以包括相关信息服务器或广告服务器。在另一实施例中,可以有多个服务器设备150。
存储器154包括搜索引擎应用程序,也被称为搜索引擎156。搜索引擎156可以响应来自用户112a的搜索疑问,从网络106中定位相关信息,并可以保持搜索疑问的搜索日志。搜索引擎156还可以响应来自频率处理器124的频率搜索请求来执行频率搜索。搜索引擎156可以经由网络106,向用户112a提供搜索结果集或向分割引擎120提供频率信息。
在一个实施例中,服务器设备150或相关设备已经在先前执行了网络106的缓行(crawl)以定位在与网络106连接的其它设备或系统处存储的诸如网页之类的项目(article)。例如,项目包括文档、电子邮件、即时消息收发器消息、数据库条目、各种格式的网页,例如,HTML、XML、XHTML、便携文档格式(PDF)文档,以及媒体文档,例如,图像文档、音频文档和视频文档,或任何适合类型的无论什么的样文档或文档组或信息。索引器158可以用于对存储器154中或在诸如索引160之类的另一数据存储设备上的项目编索引。索引器还可以包括与每个项目相关联的语言或多种语言。在一个实施例中,存在多个索引,每个索引包含编索引后的总项目的一部分。应当理解,可以使用代替缓行或与缓行结合的用于对项目编索引的任何其它适合的方法,如,手动提交。
搜索引擎156可以以多种适合的方式来执行频率搜索。在一个实施例中,搜索引擎156可以使用每个首选分割结果作为搜索疑问来执行网络搜索,并可以以分割结果的备选语言来搜索包含搜索疑问的项目。在该实施例中,可以生成频率搜索结果集,并且可以包括一个或多个项目标识符。例如,项目标识符可以是统一资源定位器(URL)、文件名、链接、图标、本地文件的路径、或者识别项目的其它。在一个实施例中,项目标识符可以包括与项目相关联的URL。频率处理器124可以使用每个频率搜索结果集中的项目标识符的数目作为相应分割结果的出现数目的表示。
在另一实施例中,频率处理器124可以直接与索引器158相接口。针对每个首选分割结果,索引器158可以确定在其中出现了分割结果的关联备选语言的项目数。可以将该信息发送至频率处理器124。在另一实施例中,针对每个所选分割结果,搜索引擎156和/或频率处理器124可以根据搜索日志来确定关联备选语言中的搜索疑问的出现次数,频率处理器124能够根据该搜索日志信息来确定出现的频率。在一个实施例中,可以基于关联语言中的项目或搜索疑问的总数来对与分割结果关联的频率搜索中的项目或搜索询问数目进行归一化。
应当注意,本发明可以包括具有与图1所示不同架构的系统。例如,在根据本发明的一些系统中,服务器设备104可以包括单个物理或逻辑服务器。图1中示出的系统100仅是示例性的,并用于帮助解释图2中所示的方法。
处理
可以执行根据本发明实施例的不同方法。根据本发明的一个示例性方法包括识别与字符串相关联的至少第一备选语言和第二备选语言;至少根据该字符串确定与第一备选语言相关联的第一分割结果,和根据该字符串确定与第二备选语言相关联的第二分割结果;确定第一分割结果出现的第一频率,和第二分割结果出现的第二频率;以及至少部分地基于出现的第一频率和出现的第二频率,从第一备选语言和第二备选语言来识别可行的语言。可以识别两种以上的备选语言,并确定两个以上的分割结果。例如,可以识别三种备选语言,并对于每种备选语言来确定四个分割结果。
可以至少部分地基于出现的第一频率和出现的第二频率,根据从第一分割结果和第二分割结果至少部分地识别可行的分割结果来对可行语言进行识别。可以至少部分地基于一种或多种语言信号来识别第一备选语言和第二备选语言。语言信号可以包括与字符串相关联的语言学、与字符串相关联的用户的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与字符串相关联的最高层域中的至少一个。在一个实施例中,对可行语言的识别可以至少部分地基于语言信号。
在一个实施例中,至少部分地基于出现的第一频率和出现的第二频率,从第一备选语言和第二备选语言识别可行语言可以包括:如果所述出现的第一频率大于所述出现的第二频率,则选择第一备选语言。字符串可以包括域名。第一分割结果可以包括分割段的第一组合,以及第二分割结果包括分割段的第二组合。
在一个实施例中,确定第一分割结果出现的第一频率可以包括:确定包含第一分割结果的第一备选语言中的项目数,并基于第一备选语言中的项目总数来对项目数进行归一化;以及确定包含第一分割结果的第一备选语言中的项目数可以包括:确定响应包括第一分割结果的搜索疑问所生成的搜索结果集中的项目标识符数。
在一个实施例中,确定包含第一分割结果的第一语言的项目数可以包括访问项目索引。在另一实施例中,确定出现的第一频率可以包括确定第一备选语言中的多个搜索疑问中的第一分割结果的出现数目,并基于第一备选语言中的搜索疑问的总数来对出现数目进行归一化。
该方法还可以包括至少部分地基于可行语言或可行的分割结果(或二者)来选择项目,以及该项目可以包括广告。在一个实施例中,确定第一分割结果可以包括从字符串确定第一备选语言中的多个分割结果,以及从第一备选语言中的多个分割结果来识别第一分割结果。识别第一分割结果可以包括计算多个分割结果中的每一个的概率值。与第一分割结果相关联的第一概率值可以至少部分地基于第一分割结果内的每个分割段的频率。
另一示例性方法包括:从域名来确定第一备选语言中的第一分割结果,以及第二备选语言中的第二分割结果;确定项目索引、文本索引和搜索结果集中的至少一个中的第一分割结果出现的第一频率;确定第二分割结果出现的第二频率;如果所述出现的第一频率大于所述出现的第二频率,则将第一备选语言选择作为可行语言;如果所述出现的第二频率大于所述出现的第一频率,则将第二备选语言选择作为可行语言;至少部分地基于可行语言来选择广告,其中,广告包括可行语言中的文本以及使广告的显示与同域名相关联的网页相关联。
图2示出了根据本发明一个实施例的选择用于文本分割的语言的示例性方法200。作为示例来提供该示例性方法,根据本发明,存在着多种执行该方法的方式。图2中示出的方法200可以通过一个系统来执行,和提供各种系统的组合来进行。以下将由图1所示的系统100所执行的方法200作为示例进行描述,在解释图2的示例方法的过程中,引用了系统100的各种元件。
参照图2,在方框202中开始该示例方法。方框204跟随方框202,在方框204中,分割引擎120可以访问字符串。可以从例如与网络106连接的设备、或从另一设备中接收或访问字符串。在一个实施例中,字符串可以是与现在未用的或不存在的网站相关的域名,其中,从与该域名相关联的广告服务器中接收所述现在未用的或不存在的网站。
方框206跟随方框204,在方框206中,识别字符串的备选语言。在一个实施例中,语言处理器126可以使用一种或多种语言信号来确定该字符串的多种备选语言。例如,语言处理器可以基于语言信号,将英语、法语和西班牙语识别为该字符串的三种备选语言。
例如,使用的语言信号中的一些可以是与字符串相关联的语言学、与字符串相关联的用户的IP地址、用于字符串的字符集、与同字符串相关联的用户相关联的浏览器应用程序的浏览器设置、以及与字符串相关联的最高层域。例如,可以使用语言学来确定字符串的结构或性质是否指示它使用的是特定语言。例如,特定语言具有以特定字符组开始或结束、并使用一般图案的趋势。用户的IP地址可以指示用户的位置和国家。从国家信息中,可以用与国家相关联的一种语言或多种语言作未备选语言。字符串的字符集可以指示与字符串相关联的一种语言或多种语言。例如,西里尔字母字符集可以指示俄语或一些其它斯拉夫语言。与字符串相关联的用户的浏览器应用程序的浏览器设置可以指示与字符串相关联的语言和/或字符集。例如,可以在HTTP报头中与字符串一起传输用户的浏览器应用程序的语言和字符集设置。与字符串相关联的最高层域可以指示国家。最高层域可以是根之后层级的最高等级。在域名中,最高层域是最靠右边出现的域名部分。例如,对于域名“usedrugs.co.uk”,最高层域是“.uk”,可以指示英国。最高层域“.ru”可以指示俄国。与最高层域相关联的国家可以用于确定备选语言,如,“ru”指示俄国,它指示关联字符串可以是俄语的。一些最高层域可以指示多于一种语言。例如,“.ch”可以指示瑞士,以及可以指示可与法语、德语或意大利语相关联的字符串。可以使用识别字符串的备选语言的其它适合的信号和方法。
方框208跟随方框206,在方框208中,通过针对每种备选语言对字符串进行分割,从字符串中生成多个分割结果。分割字符串可以包括将串中的字符解析为分割段的多种组合,并且可以由分割处理器122来执行。分割处理器122可以针对每种备选语言开发分割结果的列表。每个分割结果可以是分割段的多个组合或单个分割段。例如,在意大利语中,可以将字符串“assocomunicazioni”分割为“assocomunicazioni”和其它分割后的结果,以及在法语中,可以分割为“assocom uni cazioni”和其它分割后的结果。在另一示例中,字符串“maisonblanche”可以在法语中分割为“maison blanche”和其它分割后的结果,以及在英语中,可以分割为“mai son blanc he”和其它分割后的结果。在另一示例中,字符串“usedrugs”可以在英语中分割为包括“used rugs”、“use drugs”、“us ed rugs”、“u sed rugs”、“usedrugs”等的分割后的结果。还可以针对其它备选语言(如上例中的法语和西班牙语)生成分割结果。可以包括未分割的字符串作为分割结果。
在分割处理中,分割处理器122可以利用来自分割段数据库126中的分割段。可以使用不同的方法来对字符串进行分割,如,在2003年12月30日提交的名为“Methods and Systems for Text Segmentation”的PCT国际专利申请No.PCT/US03/41609中所描述的分割技术,在此一并引入作为参考。
方框210跟随方框208,在方框210中,为每种备选语言确定最高分割结果。可以通过分割处理器122来确定最高分割结果,以及最高分割结果可以是最佳或可行的分割结果的概率最高的结果。在一个实施例中,可以基于为每个分割结果所确定的概率值来排列分割结果。在一个实施例中,可以通过将与每个单独的分割结果内的单独的分割段相关联的频率值相加来确定概率值。在另一实施例中,可以通过包括将与每个单独的分割结果内的单独的分割段相关联的频率值的对数相加的复合函数来确定概率值。然后可以选择多个最高级别的分割结果。例如,可以排列每个备选语言的分割结果,以及可以选择每种备选语言的前三个结果。
方框212跟随方框210,在方框212中,针对每种备选语言的首选分割结果来执行频率搜索。可以由频率处理器124结合搜索引擎156来进行频率搜索。在一个实施例中,分割处理器122可以将所选的分割结果传递至频率处理器124,频率处理器124可以确定在项目或搜索疑问的语料库中每个分割结果的出现频率。
在一个实施例中,频率处理器124可以基于由搜索引擎156编索引的项目来确定分割结果的出现频率。在一个实施例中,频率处理器124可以经由网络106,将首选的分割结果发送至搜索引擎156。搜索引擎156可以利用每个分割结果作作搜索疑问,来对编索引项目中的每个分割结果进行搜索。例如,频率处理器124可以将由引号标注的每种备选语言的每个备选结果作为搜索疑问发送至搜索引擎156,从而搜索引擎156针对特定语言的项目中的确切的分割词组来执行搜索。在一个实施例中,对于每个分割结果,搜索引擎156可以生成包含响应搜索疑问的多个项目标识符的搜索结果集。搜索引擎156可以将每个分割结果的搜索结果集经由网络106发送回频率处理器124。频率处理器124可以基于项目标识符的数目,从每个搜索结果集中确定每个分割结果所出现的频率。
在另一实施例中,频率处理器124可以经由网络106,将首选分割结果发送至索引器158。索引器158可以访问索引160,以确定出现分割结果的特定语言中的项目数目,并且可以针对每个所选分割结果来这样做。在一个实施例中,索引160可以是多个索引,以及索引器158可以为每个分割结果检查总索引的一部分。然后,索引器158可以将与每个分割结果相关联的出现次数经由网络106传递至频率处理器124。
在另一个实施例中,频率处理器124可以经由网络106将首选的分割结果发送至搜索引擎156,以确定搜索疑问中的分割结果的出现次数。例如,针对关联语言中的每个分割结果,搜索引擎156可以确定该分割结果被用作搜索疑问或部分搜索疑问的次数。可以通过搜索引擎156,将每个分割结果在搜索疑问中的出现次数经由网络106发送至频率处理器124。
例如,如果分割处理器122确定了在英语中,字符串“usedrugs”的所选分割结果是“used rugs”、“use drugs”和“us ed rugs”,则频率处理器124可以将这些分割结果和与其它备选语言相关联的分割结果发送至搜索引擎156。例如,搜索引擎156可以将这些结果使用作为搜索疑问,并针对每个分割结果生成搜索结果集。例如,搜索引擎156可以使用“used rugs”作为搜索疑问,并为包含与含有词组“used rugs”的英语项目相关联的项目标识符的搜索疑问确定搜索结果集。搜索引擎156可以针对与其它备选语言相关联的分割结果执行同样的动作。在另一个实施例中,搜索引擎156可以从包含先前接收到的搜索引擎的关联搜索日志中确定接收到包含分割结果的搜索询问的次数。例如,搜索引擎156可以为接收到包含词组“used rugs”的搜索询问的次数来搜索它的搜索日志。在另一个实施例中,搜索引擎156的索引器158可以接收搜索结果,并确定包含分割结果的索引160或索引160的一部分中的项目数目。例如,索引器158可以通过索引160或索引160的一部分来搜索包含“used rugs”的英语项目的数目。
可以在频率搜索中包括拼写检查功能。例如,频率处理器124可以包括或可以调用拼写检查功能,从而可以对首选分割结果进行拼写检查。拼写检查功能可以为每个分割结果中的单独的分割段确定正确或优选的拼写。频率处理器124可以针对最高分割结果以及任何拼写修正后的分割结果来执行频率搜索,以确定两个结果的出现频率。例如,如果分割结果是“basebal game”,以及拼写修正后的结果是“baseball game”,则可以针对这两个结果均执行频率搜索。
在一个实施例中,每个分割结果的出现频率是基于特定语言的项目或搜索询问总数的归一化值。例如,如果在70个英语项目或搜索询问中出现英语的分割结果,以及存在总数1000的英语项目或搜索询问,则该英语分割结果的出现频率是0.07(70/1000)。类似地,如果在60个法语项目或搜索询问中出现法语的分割结果,以及存在总数400的法语项目或搜索询问,则该法语分割结果的出现频率是0.15(60/400)。这样,出现频率考虑了项目或搜索结果的语料库中的特定语言的流行性,以及并不固有地加权至更加流行的语言。
方框214跟随方框212,在方框214中,对可操作语言和可操作的分割结果进行识别。在一个实施例中,频率处理器124可以识别可操作语言和可操作的分割结果。例如,频率处理器124可以选择具有最高关联出现频率的分割结果。如上所述,出现频率可以是基于包含分割结果的项目或搜索询问数目、以及特定语言的项目或搜索询问的总数的归一化值。附加信号还可以用于确定可行的分割结果。例如,频率处理器124可以考虑包含每个分割结果的项目的客观排序(如,用于网络项目的PageRankTM排序算法),并使用目标排序来对包含每个分割结果的项目进行加权。出现于项目中的分割结果的次数和项目中的分割结果的位置还可以用于对包含分割结果的项目进行加权。可以选择与可行的分割结果关联的备选语言作为可行语言。
在一个实施例中,在方框206中用于识别备选语言的语言信号可以用于确定可操作语言。如果语言信号指示该字符串最可能是特定语言,则这些信号可以用于对该语言进行更加重的加权。例如,诸如语言学、与用户关联的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与字符串相关联的最高层域之类的语言信号可以指示域字符串相关联的语言是特定语言,例如,法语。另一种语言,例如,英语的分割结果的出现频率信息可以接近或超过法语的另一分割结果的出现频率信息。语言信号可以用于对法语进行加权,以便使得在该示例中选择法语作为操作语言。在216中,结束该方法200。
可以以各种方式来使用可行语言和可行的分割结果。可以在选择广告的过程中使用可行语言和/或可下的分割结果。例如,用户112a可以通过将字符串“usedrugs.com”输入浏览器应用程序,尝试将他的浏览器应用程序导航至网站“usedrugs.com”。如果在域名“usedrugs.com”处不存在这种网站,则可以将用户浏览器应用程序重定向为第三方网站。第三方网站会期望将与用户输入的域名相关的广告和/或链接放置在用户正在浏览的网页上。第三方网站可以将域名“usedrugs.com”发送至分割引擎120。分割引擎120可以使用以上描述的方法和系统,将可行语言和可行的分割结果返回第三方网站或与网站相关联的广告服务器。例如,可行的分割结果可以是“used rugs”,以及可行语言可以是英语。第三方网站或广告服务器可以使与英语的词组“used rugs”相关的广告和/或链接显示在用户正在浏览的网页上,并可以确保用于网站上的语言是英语。在选择显示给用户的状态消息中使用的语言中也可以使用可行语言。
综述
尽管以上的描述包含了许多特例,但是这些特例不应当构成为对本发明范围的限制,而是仅作为所公开的实施例的范例。本领域技术人员可以预见在本发明范围内的任何其它可能的变化。这里使用的术语第一和第二仅用于区分一个项目与另一个项目。除非特别示出,术语第一和第二并不用于指示时间上的第一或第二、列表中的第一或第二、或其它顺序。例如,除非特别指出,“第二”可以在时间上或列表中在“第一”之前。
Claims (15)
1.一种计算机实现的方法,包括:
在计算设备处接收字符串;
识别针对所述字符串的至少第一备选语言和第二备选语言;
通过计算设备将所述字符串至少分割为针对第一备选语言的第一分割结果和针对第二备选语言的第二分割结果,其中所述第一分割结果包括第一多个分割段,所述第二分割结果包括第二多个分割段;
使用确定一个或多个第一分割段的正确或优选拼写的拼写检查功能,来确定至少第一分割结果的拼写修正后的分割结果;
确定第一分割结果在与第一备选语言相关联的第一语料库中的第一出现频率、第二分割结果在与第二备选语言相关联的第二语料库中的第二出现频率、和拼写修正后的分割结果在与第一备选语言相关联的第一语料库中的第三出现频率;以及
通过计算设备至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作的分割结果。
2.根据权利要求1所述的计算机实现的方法,其中第一语料库包括与第一备选语言相关联的多个项目。
3.根据权利要求1所述的计算机实现的方法,其中第一语料库包括与第一备选语言相关联的多个先前接收的搜索询问。
4.根据权利要求1所述的计算机实现的方法,其中确定第一出现频率包括:
将第一分割结果作为搜索询问发送到搜索引擎;以及
响应于发送所述搜索询问,接收包括响应于所述搜索询问的项目标识符的搜索结果集。
5.根据权利要求1所述的计算机实现的方法,还包括至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作语言。
6.一种计算机系统,包括:
一个或多个计算机服务器设备,用于接收字符串;
所述一个或多个计算机服务器设备的语言处理器,用于识别针对所述字符串的至少第一备选语言和第二备选语言;
所述一个或多个计算机服务器设备的分割处理器,用于将所述字符串至少分割为针对第一备选语言的第一分割结果和针对第二备选语言的第二分割结果,其中所述第一分割结果包括第一多个分割段,所述第二分割结果包括第二多个分割段;以及
所述一个或多个计算机服务器设备的频率处理器,用于:
使用确定一个或多个第一分割段的正确或优选拼写的拼写检查功能,来确定至少第一分割结果的拼写修正后的分割结果;
确定第一分割结果在与第一备选语言相关联的第一语料库中的第一出现频率、第二分割结果在与第二备选语言相关联的第二语料库中的第二出现频率、和拼写修正后的分割结果在与第一备选语言相关联的第一语料库中的第三出现频率;以及
至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作的分割结果。
7.根据权利要求6所述的计算机系统,其中第一语料库包括与第一备选语言相关联的多个项目。
8.根据权利要求6所述的计算机系统,其中第一语料库包括与第一备选语言相关联的多个先前接收的搜索询问。
9.根据权利要求6所述的计算机系统,其中频率处理器被配置为通过执行以下功能来确定第一出现频率:
将第一分割结果作为搜索询问发送到搜索引擎;以及
响应于发送所述搜索询问,接收包括响应于所述搜索询问的项目标识符的搜索结果集。
10.根据权利要求6所述的计算机系统,其中频率处理器还被配置为至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作语言。
11.一种计算机程序产品,包括存储有指令的计算机可读介质,当所述指令被处理器执行时,使得处理器执行以下操作:
接收字符串;
识别针对所述字符串的至少第一备选语言和第二备选语言;
将所述字符串至少分割为针对第一备选语言的第一分割结果和针对第二备选语言的第二分割结果,其中所述第一分割结果包括第一多个分割段,所述第二分割结果包括第二多个分割段;
使用确定一个或多个第一分割段的正确或优选拼写的拼写检查功能,来确定至少第一分割结果的拼写修正后的分割结果;
确定第一分割结果在与第一备选语言相关联的第一语料库中的第一出现频率、第二分割结果在与第二备选语言相关联的第二语料库中的第二出现频率、和拼写修正后的分割结果在与第一备选语言相关联的第一语料库中的第三出现频率;以及
至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作的分割结果。
12.根据权利要求11所述的计算机程序产品,其中第一语料库包括与第一备选语言相关联的多个项目。
13.根据权利要求11所述的计算机程序产品,其中第一语料库包括与第一备选语言相关联的多个先前接收的搜索询问。
14.根据权利要求11所述的计算机程序产品,其中确定第一出现频率包括:
将第一分割结果作为搜索询问发送到搜索引擎;以及
响应于发送所述搜索询问,接收包括响应于所述搜索询问的项目标识符的搜索结果集。
15.根据权利要求11所述的计算机程序产品,还包括至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作语言。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/955,660 | 2004-09-30 | ||
US10/955,660 US7996208B2 (en) | 2004-09-30 | 2004-09-30 | Methods and systems for selecting a language for text segmentation |
CN2005800411370A CN101095138B (zh) | 2004-09-30 | 2005-09-29 | 选择用于文本分割的语言的方法和系统 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800411370A Division CN101095138B (zh) | 2004-09-30 | 2005-09-29 | 选择用于文本分割的语言的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102831107A true CN102831107A (zh) | 2012-12-19 |
CN102831107B CN102831107B (zh) | 2016-01-20 |
Family
ID=35985934
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210063033.1A Active CN102708095B (zh) | 2004-09-30 | 2005-09-28 | 选择用于文本分割的语言的方法 |
CN201210288916.2A Active CN102831107B (zh) | 2004-09-30 | 2005-09-28 | 选择用于文本分割的语言的方法和系统 |
CN2005800411370A Active CN101095138B (zh) | 2004-09-30 | 2005-09-29 | 选择用于文本分割的语言的方法和系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210063033.1A Active CN102708095B (zh) | 2004-09-30 | 2005-09-28 | 选择用于文本分割的语言的方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800411370A Active CN101095138B (zh) | 2004-09-30 | 2005-09-29 | 选择用于文本分割的语言的方法和系统 |
Country Status (8)
Country | Link |
---|---|
US (4) | US7996208B2 (zh) |
EP (2) | EP2511832B1 (zh) |
JP (1) | JP5148278B2 (zh) |
CN (3) | CN102708095B (zh) |
CA (1) | CA2581902C (zh) |
DK (1) | DK1800224T3 (zh) |
ES (1) | ES2395168T3 (zh) |
WO (1) | WO2006039398A2 (zh) |
Families Citing this family (141)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7680648B2 (en) | 2004-09-30 | 2010-03-16 | Google Inc. | Methods and systems for improving text segmentation |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
US8442965B2 (en) | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8255376B2 (en) | 2006-04-19 | 2012-08-28 | Google Inc. | Augmenting queries with synonyms from synonyms map |
US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
WO2008025123A1 (en) * | 2006-09-01 | 2008-03-06 | Research In Motion Limited | Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same |
US7689408B2 (en) * | 2006-09-01 | 2010-03-30 | Microsoft Corporation | Identifying language of origin for words using estimates of normalized appearance frequency |
US8423908B2 (en) * | 2006-09-08 | 2013-04-16 | Research In Motion Limited | Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
ATE480090T1 (de) * | 2006-09-18 | 2010-09-15 | Lg Electronics Inc | Verfahren zur verwaltung von sprachinformation für texteingabe, verfahren für texteingabe und mobiles endgerät |
US20100153569A1 (en) * | 2007-03-09 | 2010-06-17 | Ghost, Inc. | System and Method for a Virtual Hosted Operating System |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9754022B2 (en) * | 2007-10-30 | 2017-09-05 | At&T Intellectual Property I, L.P. | System and method for language sensitive contextual searching |
US8165869B2 (en) * | 2007-12-10 | 2012-04-24 | International Business Machines Corporation | Learning word segmentation from non-white space languages corpora |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) * | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
AU2009279724B2 (en) | 2008-08-05 | 2015-08-20 | Mediafriends, Inc. | SMS technology for computerized devices |
US9356907B2 (en) | 2008-08-05 | 2016-05-31 | HeyWire, Inc. | Messaging system having multiple number, dual mode phone support |
US11172067B1 (en) | 2008-08-05 | 2021-11-09 | HeyWire, Inc. | Call center mobile messaging |
US20120221962A1 (en) | 2008-08-05 | 2012-08-30 | Eugene Lee Lew | Social messaging hub system |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR101083455B1 (ko) * | 2009-07-17 | 2011-11-16 | 엔에이치엔(주) | 통계 데이터에 기초한 사용자 질의 교정 시스템 및 방법 |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8635205B1 (en) * | 2010-06-18 | 2014-01-21 | Google Inc. | Displaying local site name information with search results |
CN101882226B (zh) * | 2010-06-24 | 2013-07-24 | 汉王科技股份有限公司 | 提高字符间语言区分度的方法及装置 |
US20120004899A1 (en) * | 2010-07-04 | 2012-01-05 | Taymoor Arshi | Dynamic ad selection for ad delivery systems |
CN102455997A (zh) * | 2010-10-27 | 2012-05-16 | 鸿富锦精密工业(深圳)有限公司 | 元件名称提取系统及方法 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
CN103631802B (zh) * | 2012-08-24 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 歌曲信息检索方法、装置及相应的服务器 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9218335B2 (en) * | 2012-10-10 | 2015-12-22 | Verisign, Inc. | Automated language detection for domain names |
US8713433B1 (en) * | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9213910B2 (en) | 2013-11-06 | 2015-12-15 | Xerox Corporation | Reinforcement learning approach to character level segmentation of license plate images |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9740687B2 (en) | 2014-06-11 | 2017-08-22 | Facebook, Inc. | Classifying languages for objects and entities |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10360309B2 (en) * | 2015-04-30 | 2019-07-23 | Salesforce.Com, Inc. | Call center SMS-MMS language router |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9734142B2 (en) | 2015-09-22 | 2017-08-15 | Facebook, Inc. | Universal translation |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN105224682B (zh) * | 2015-10-27 | 2018-06-05 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10430485B2 (en) | 2016-05-10 | 2019-10-01 | Go Daddy Operating Company, LLC | Verifying character sets in domain name requests |
US10180930B2 (en) | 2016-05-10 | 2019-01-15 | Go Daddy Operating Company, Inc. | Auto completing domain names comprising multiple languages |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10348671B2 (en) | 2016-07-11 | 2019-07-09 | Salesforce.Com, Inc. | System and method to use a mobile number in conjunction with a non-telephony internet connected device |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10380247B2 (en) | 2016-10-28 | 2019-08-13 | Microsoft Technology Licensing, Llc | Language-based acronym generation for strings |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10180935B2 (en) * | 2016-12-30 | 2019-01-15 | Facebook, Inc. | Identifying multiple languages in a content item |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN109492225A (zh) * | 2018-11-08 | 2019-03-19 | 大连瀚闻资讯有限公司 | 一种小语种国家的舆情信息文本处理方法 |
CN111079408B (zh) * | 2019-12-26 | 2023-05-30 | 北京锐安科技有限公司 | 一种语种识别方法、装置、设备及存储介质 |
US11915167B2 (en) | 2020-08-12 | 2024-02-27 | State Farm Mutual Automobile Insurance Company | Claim analysis based on candidate functions |
Family Cites Families (104)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4839853A (en) * | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
US5325298A (en) * | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
US5423032A (en) * | 1991-10-31 | 1995-06-06 | International Business Machines Corporation | Method for extracting multi-word technical terms from text |
ATE166158T1 (de) * | 1992-07-24 | 1998-05-15 | Us Health | Peptide brauchbar als microsequezierungsstandard und verfahren zu ihrer anwendung |
US5377280A (en) | 1993-04-19 | 1994-12-27 | Xerox Corporation | Method and apparatus for automatic language determination of European script documents |
US5454046A (en) * | 1993-09-17 | 1995-09-26 | Penkey Corporation | Universal symbolic handwriting recognition system |
US5619709A (en) | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
US5499360A (en) * | 1994-02-28 | 1996-03-12 | Panasonic Technolgies, Inc. | Method for proximity searching with range testing and range adjustment |
US5548507A (en) * | 1994-03-14 | 1996-08-20 | International Business Machines Corporation | Language identification process using coded language words |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US6067552A (en) * | 1995-08-21 | 2000-05-23 | Cnet, Inc. | User interface system and method for browsing a hypertext database |
US5913040A (en) * | 1995-08-22 | 1999-06-15 | Backweb Ltd. | Method and apparatus for transmitting and displaying information between a remote network and a local computer |
US5778364A (en) * | 1996-01-02 | 1998-07-07 | Verity, Inc. | Evaluation of content of a data set using multiple and/or complex queries |
US5966686A (en) * | 1996-06-28 | 1999-10-12 | Microsoft Corporation | Method and system for computing semantic logical forms from syntax trees |
EP0822502A1 (en) * | 1996-07-31 | 1998-02-04 | BRITISH TELECOMMUNICATIONS public limited company | Data access system |
US6009382A (en) * | 1996-08-19 | 1999-12-28 | International Business Machines Corporation | Word storage table for natural language determination |
US6002998A (en) * | 1996-09-30 | 1999-12-14 | International Business Machines Corporation | Fast, efficient hardware mechanism for natural language determination |
US5778363A (en) * | 1996-12-30 | 1998-07-07 | Intel Corporation | Method for measuring thresholded relevance of a document to a specified topic |
US6285999B1 (en) * | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US7437351B2 (en) * | 1997-01-10 | 2008-10-14 | Google Inc. | Method for searching media |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6119164A (en) * | 1997-04-15 | 2000-09-12 | Full Circle Software, Inc. | Method and apparatus for distributing over a network unsolicited information to a targeted audience |
US6006222A (en) * | 1997-04-25 | 1999-12-21 | Culliss; Gary | Method for organizing information |
US6185559B1 (en) * | 1997-05-09 | 2001-02-06 | Hitachi America, Ltd. | Method and apparatus for dynamically counting large itemsets |
US6233575B1 (en) * | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US6505150B2 (en) * | 1997-07-02 | 2003-01-07 | Xerox Corporation | Article and method of automatically filtering information retrieval results using test genre |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US6760746B1 (en) * | 1999-09-01 | 2004-07-06 | Eric Schneider | Method, product, and apparatus for processing a data request |
US6078916A (en) * | 1997-08-01 | 2000-06-20 | Culliss; Gary | Method for organizing information |
US6014665A (en) * | 1997-08-01 | 2000-01-11 | Culliss; Gary | Method for organizing information |
US6182068B1 (en) * | 1997-08-01 | 2001-01-30 | Ask Jeeves, Inc. | Personalized search methods |
US5845278A (en) * | 1997-09-12 | 1998-12-01 | Inioseek Corporation | Method for automatically selecting collections to search in full text searches |
US5974412A (en) * | 1997-09-24 | 1999-10-26 | Sapient Health Network | Intelligent query system for automatically indexing information in a database and automatically categorizing users |
US6134532A (en) * | 1997-11-14 | 2000-10-17 | Aptex Software, Inc. | System and method for optimal adaptive matching of users to most relevant entity and information in real-time |
US6230168B1 (en) * | 1997-11-26 | 2001-05-08 | International Business Machines Corp. | Method for automatically constructing contexts in a hypertext collection |
US6289342B1 (en) * | 1998-01-05 | 2001-09-11 | Nec Research Institute, Inc. | Autonomous citation indexing and literature browsing using citation context |
US6640006B2 (en) * | 1998-02-13 | 2003-10-28 | Microsoft Corporation | Word segmentation in chinese text |
US6421675B1 (en) * | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6272456B1 (en) * | 1998-03-19 | 2001-08-07 | Microsoft Corporation | System and method for identifying the language of written text having a plurality of different length n-gram profiles |
GB9806085D0 (en) * | 1998-03-23 | 1998-05-20 | Xerox Corp | Text summarisation using light syntactic parsing |
US6044375A (en) * | 1998-04-30 | 2000-03-28 | Hewlett-Packard Company | Automatic extraction of metadata using a neural network |
US6334131B2 (en) * | 1998-08-29 | 2001-12-25 | International Business Machines Corporation | Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures |
US6466901B1 (en) * | 1998-11-30 | 2002-10-15 | Apple Computer, Inc. | Multi-language document search and retrieval system |
US6324519B1 (en) * | 1999-03-12 | 2001-11-27 | Expanse Networks, Inc. | Advertisement auction system |
US6298348B1 (en) * | 1998-12-03 | 2001-10-02 | Expanse Networks, Inc. | Consumer profiling system |
US6167369A (en) | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US6269189B1 (en) * | 1998-12-29 | 2001-07-31 | Xerox Corporation | Finding selected character strings in text and providing information relating to the selected character strings |
US6678681B1 (en) * | 1999-03-10 | 2004-01-13 | Google Inc. | Information extraction from a database |
US6826559B1 (en) * | 1999-03-31 | 2004-11-30 | Verizon Laboratories Inc. | Hybrid category mapping for on-line query tool |
US6493702B1 (en) | 1999-05-05 | 2002-12-10 | Xerox Corporation | System and method for searching and recommending documents in a collection using share bookmarks |
US6493703B1 (en) * | 1999-05-11 | 2002-12-10 | Prophet Financial Systems | System and method for implementing intelligent online community message board |
US6269361B1 (en) * | 1999-05-28 | 2001-07-31 | Goto.Com | System and method for influencing a position on a search result list generated by a computer network search engine |
US7065500B2 (en) * | 1999-05-28 | 2006-06-20 | Overture Services, Inc. | Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine |
US6314419B1 (en) * | 1999-06-04 | 2001-11-06 | Oracle Corporation | Methods and apparatus for generating query feedback based on co-occurrence patterns |
AU6200300A (en) | 1999-06-24 | 2001-01-09 | Simpli.Com | Search engine interface |
US6601026B2 (en) * | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
US6754873B1 (en) | 1999-09-20 | 2004-06-22 | Google Inc. | Techniques for finding related hyperlinked documents using link-based analysis |
US6453315B1 (en) * | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
US6816857B1 (en) | 1999-11-01 | 2004-11-09 | Applied Semantics, Inc. | Meaning-based advertising and document relevance determination |
JP2001101186A (ja) * | 1999-09-30 | 2001-04-13 | Oki Electric Ind Co Ltd | 機械翻訳装置 |
AU1039301A (en) * | 1999-10-29 | 2001-05-08 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
US6968308B1 (en) * | 1999-11-17 | 2005-11-22 | Microsoft Corporation | Method for segmenting non-segmented text using syntactic parse |
JP3803219B2 (ja) * | 1999-12-14 | 2006-08-02 | 三菱電機株式会社 | 全文検索装置及び全文検索方法 |
US6691108B2 (en) * | 1999-12-14 | 2004-02-10 | Nec Corporation | Focused search engine and method |
US6678409B1 (en) * | 2000-01-14 | 2004-01-13 | Microsoft Corporation | Parameterized word segmentation of unsegmented text |
US6615209B1 (en) * | 2000-02-22 | 2003-09-02 | Google, Inc. | Detecting query-specific duplicate documents |
US20020002452A1 (en) * | 2000-03-28 | 2002-01-03 | Christy Samuel T. | Network-based text composition, translation, and document searching |
US6754872B2 (en) * | 2000-05-22 | 2004-06-22 | Sarnoff Corporation | Method and apparatus for reducing channel distortion in a wireless communications network |
GB2362971B (en) | 2000-05-30 | 2004-03-24 | Com Nation Ltd | A method of searching the internet and an internet search engine |
SE517005C2 (sv) * | 2000-05-31 | 2002-04-02 | Hapax Information Systems Ab | Segmentering av text |
US7136854B2 (en) * | 2000-07-06 | 2006-11-14 | Google, Inc. | Methods and apparatus for providing search results in response to an ambiguous search query |
US6529903B2 (en) * | 2000-07-06 | 2003-03-04 | Google, Inc. | Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query |
US6654993B2 (en) * | 2000-07-28 | 2003-12-02 | The Penn State Research Foundation | Process for fabricating hollow electroactive devices |
US6766320B1 (en) * | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
CA2323883C (en) * | 2000-10-19 | 2016-02-16 | Patrick Ryan Morin | Method and device for classifying internet objects and objects stored oncomputer-readable media |
US6917937B1 (en) | 2000-11-01 | 2005-07-12 | Sas Institute Inc. | Server-side object filtering |
US7054803B2 (en) * | 2000-12-19 | 2006-05-30 | Xerox Corporation | Extracting sentence translations from translated documents |
US6714939B2 (en) * | 2001-01-08 | 2004-03-30 | Softface, Inc. | Creation of structured data from plain text |
US6658423B1 (en) * | 2001-01-24 | 2003-12-02 | Google, Inc. | Detecting duplicate and near-duplicate files |
US6526440B1 (en) * | 2001-01-30 | 2003-02-25 | Google, Inc. | Ranking search results by reranking the results based on local inter-connectivity |
JP3408525B2 (ja) * | 2001-02-08 | 2003-05-19 | 松下電器産業株式会社 | Sram装置 |
JP2002245470A (ja) * | 2001-02-16 | 2002-08-30 | Merukomu Service Kk | 言語特定装置及び翻訳装置及び言語特定方法 |
US8001118B2 (en) * | 2001-03-02 | 2011-08-16 | Google Inc. | Methods and apparatus for employing usage statistics in document retrieval |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US6738764B2 (en) * | 2001-05-08 | 2004-05-18 | Verity, Inc. | Apparatus and method for adaptively ranking search results |
WO2002095614A1 (fr) * | 2001-05-24 | 2002-11-28 | Izumi Suzuki | Procede d'identification d'un systeme de code de type langage ou par caracteres |
JP2003186789A (ja) * | 2001-12-18 | 2003-07-04 | Logo Vista Corp | 電子メール翻訳システム |
US6978264B2 (en) * | 2002-01-03 | 2005-12-20 | Microsoft Corporation | System and method for performing a search and a browse on a query |
US7716161B2 (en) | 2002-09-24 | 2010-05-11 | Google, Inc, | Methods and apparatus for serving relevant advertisements |
AU2003301858A1 (en) * | 2002-11-06 | 2004-06-07 | Nomura Plating Co., Ltd. | Surface treatment method for vacuum member |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
FR2848688A1 (fr) * | 2002-12-17 | 2004-06-18 | France Telecom | Identification de langue d'un texte |
US20040119740A1 (en) * | 2002-12-24 | 2004-06-24 | Google, Inc., A Corporation Of The State Of California | Methods and apparatus for displaying and replying to electronic messages |
AU2003232839A1 (en) * | 2003-05-28 | 2005-01-21 | Leonardo Badino | Automatic segmentation of texts comprising chunsks without separators |
US7493322B2 (en) * | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
US20050086065A1 (en) * | 2003-10-16 | 2005-04-21 | Nokia Corporation | Automatic field completion in capacity-constrained media |
US20050131872A1 (en) * | 2003-12-16 | 2005-06-16 | Microsoft Corporation | Query recognizer |
US8392249B2 (en) * | 2003-12-31 | 2013-03-05 | Google Inc. | Suggesting and/or providing targeting criteria for advertisements |
US7359851B2 (en) * | 2004-01-14 | 2008-04-15 | Clairvoyance Corporation | Method of identifying the language of a textual passage using short word and/or n-gram comparisons |
US20050289473A1 (en) | 2004-03-17 | 2005-12-29 | Carl Gustafson | Method and system for providing search information via a communications network |
US7409334B1 (en) * | 2004-07-22 | 2008-08-05 | The United States Of America As Represented By The Director, National Security Agency | Method of text processing |
US7792814B2 (en) | 2005-09-30 | 2010-09-07 | Sap, Ag | Apparatus and method for parsing unstructured data |
US7761458B1 (en) | 2006-02-01 | 2010-07-20 | Hewlett-Packard Development Company, L.P. | Segmentation of a data sequence |
US7747633B2 (en) | 2007-07-23 | 2010-06-29 | Microsoft Corporation | Incremental parsing of hierarchical files |
-
2004
- 2004-09-30 US US10/955,660 patent/US7996208B2/en active Active
-
2005
- 2005-09-28 JP JP2007534758A patent/JP5148278B2/ja active Active
- 2005-09-28 EP EP12175207.5A patent/EP2511832B1/en active Active
- 2005-09-28 CA CA2581902A patent/CA2581902C/en not_active Expired - Fee Related
- 2005-09-28 WO PCT/US2005/035010 patent/WO2006039398A2/en active Application Filing
- 2005-09-28 ES ES05802157T patent/ES2395168T3/es active Active
- 2005-09-28 CN CN201210063033.1A patent/CN102708095B/zh active Active
- 2005-09-28 EP EP05802157A patent/EP1800224B1/en active Active
- 2005-09-28 DK DK05802157.7T patent/DK1800224T3/da active
- 2005-09-28 CN CN201210288916.2A patent/CN102831107B/zh active Active
- 2005-09-29 CN CN2005800411370A patent/CN101095138B/zh active Active
-
2011
- 2011-08-08 US US13/205,087 patent/US8306808B2/en not_active Expired - Fee Related
-
2012
- 2012-09-15 US US13/620,752 patent/US20130018648A1/en not_active Abandoned
- 2012-09-15 US US13/620,821 patent/US8489387B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CN102708095B (zh) | 2015-09-30 |
EP2511832A2 (en) | 2012-10-17 |
EP1800224B1 (en) | 2012-08-29 |
CA2581902C (en) | 2013-05-07 |
ES2395168T3 (es) | 2013-02-08 |
CN102708095A (zh) | 2012-10-03 |
EP1800224A2 (en) | 2007-06-27 |
CN101095138A (zh) | 2007-12-26 |
CN102831107B (zh) | 2016-01-20 |
US20130018648A1 (en) | 2013-01-17 |
US20110301939A1 (en) | 2011-12-08 |
DK1800224T3 (da) | 2012-11-19 |
JP5148278B2 (ja) | 2013-02-20 |
US8489387B2 (en) | 2013-07-16 |
EP2511832B1 (en) | 2014-05-14 |
US7996208B2 (en) | 2011-08-09 |
US20060074628A1 (en) | 2006-04-06 |
US8306808B2 (en) | 2012-11-06 |
EP2511832A3 (en) | 2013-03-20 |
JP2008515107A (ja) | 2008-05-08 |
CA2581902A1 (en) | 2006-04-13 |
US20130013288A1 (en) | 2013-01-10 |
WO2006039398A8 (en) | 2007-03-22 |
WO2006039398A3 (en) | 2006-07-06 |
WO2006039398A2 (en) | 2006-04-13 |
CN101095138B (zh) | 2012-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101095138B (zh) | 选择用于文本分割的语言的方法和系统 | |
US8849852B2 (en) | Text segmentation | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
JP4960461B2 (ja) | ウェブベースのコロケーション誤りの校正 | |
US8290963B1 (en) | Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments | |
AU2004304285B2 (en) | Methods and systems for information extraction | |
US20120109974A1 (en) | Acronym Extraction | |
JP2007122732A (ja) | ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム、およびサービス方法(ウェブドキュメントの集合において効率的に日付を検索するシステムおよび方法) | |
US20120323905A1 (en) | Ranking data utilizing attributes associated with semantic sub-keys | |
US9652529B1 (en) | Methods and systems for augmenting a token lexicon | |
JP2006268751A (ja) | 情報提示装置、情報提示方法、プログラム | |
US20100153365A1 (en) | Phrase identification using break points | |
US20120317103A1 (en) | Ranking data utilizing multiple semantic keys in a search query | |
Miyazaki et al. | Using Web page layout for extraction of sender names | |
JPH10105578A (ja) | 点数を利用した類似単語検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |
|
CP01 | Change in the name or title of a patent holder |