CN102236702A - 计算机执行的方法和使用查询执行搜索的系统及设备 - Google Patents

计算机执行的方法和使用查询执行搜索的系统及设备 Download PDF

Info

Publication number
CN102236702A
CN102236702A CN2011101331474A CN201110133147A CN102236702A CN 102236702 A CN102236702 A CN 102236702A CN 2011101331474 A CN2011101331474 A CN 2011101331474A CN 201110133147 A CN201110133147 A CN 201110133147A CN 102236702 A CN102236702 A CN 102236702A
Authority
CN
China
Prior art keywords
anchor text
several
text strings
separately
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101331474A
Other languages
English (en)
Other versions
CN102236702B (zh
Inventor
维巴休·米塔尔
热·M·蓬特
迈赫兰·萨哈米
桑贾伊·格马瓦特
约翰·A·鲍尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN102236702A publication Critical patent/CN102236702A/zh
Application granted granted Critical
Publication of CN102236702B publication Critical patent/CN102236702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Abstract

本发明提供了计算机执行的方法和使用查询执行搜索的系统及设备,该方法包括:接收第一格式的第一搜索查询,第一搜索查询包含第一格式的第一项;从已知网页的集合中识别分别包含第一、第二锚文本串的第一、第二集合,每个第一锚文本串包含第一项,每个第二锚文本串包含第二格式的第二项,每个第一、第二锚文本串分别是一个各自的第一超链接的被显示部分,所有各自第一超链接指向第一文档;至少部分基于唯一项中的每一个在数个第二锚文本串中出现的频率,得出第一项以第二格式写成的候选翻译;响应于第一格式的搜索查询,提供搜索结果,搜索结果是由搜索引擎使用第二搜索查询识别的,该第二搜索查询包含第二格式的一个或多个候选翻译中的至少一个。

Description

计算机执行的方法和使用查询执行搜索的系统及设备
本申请是分案申请,其原案申请的申请号为200480028535.4,申请日为2004年9月13日,发明名称为“计算机执行的方法和使用查询执行搜索的系统及设备”。 
技术领域
本申请整体涉及信息搜索和检索。更具体地,披露了一种用于使用以字符集或与该字符集不同的语言或被搜索的文档的至少一些的语言写成的查询执行搜索的系统和方法。 
背景技术
大多数搜索引擎在终端用户使用类似于传统键盘的东西(其中字母数字串的输入不难)输入搜索查询的设想下工作。然而,随着小型装置变得越来越普及,这种设想并不总是有效的。例如,用户可使用支持WAP(无线应用协议)标准的无线电话查询搜索引擎。例如无线电话等装置通常具有数据输入界面,其中用户的特定动作(例如,按键)可对应于多于一个的字母数字字符。WAP  架构的详细描述可在http://www1.wapforum.org/tech/documents/SPEC-WAPArch-19980439.pdf(“WAP 100无线应用协议架构规范”)处得到。 
在通常的情形下,WAP用户导航到搜索查询页面,并且呈现给他们输入其搜索查询的形式。利用传统方法,可要求用户按多个键来选择特定字母。在标准电话键盘上,例如,用户可通过按“2”键两次选择字母“b”,或通过按“7”键四次选择字母“s”。因此,为了输入对“ben smith”的查询,用户通常需要输入以下按键串:223366077776444844,它们映射到如下字母: 
22→b 
33→e 
66→n 
0→空格 
7777→s 
6→m 
444→i 
8→t 
44→h 
在用户输入其搜索请求后,搜索引擎收到来自用户的词,并且以与它们收到来自桌面浏览器(其中用户使用传统键盘)的请求几乎相同的方式继续。 
如可从上述实例看到的,这种数据输入形式效率不高,因为,它要求十八次击键来输入对应于“ben smith”的九个字母数字字符(包括空格)。 
类似的困难可发生在使用非目标语言键盘敲出查询时。例如,可使用包括hiragana、katakana、和kanji的多个不同的字符集表示日文文本,但均不容易使用基于罗马字母表的典型的ASCII键盘输入这些字符集。在这样的情形下,用户常常使用例如由日本德岛市(Tokushima City)的JustSystemg公司生产的Ichitaro等字处理器,这种字处理器能将以romaji(日文的表示语音的罗马字母表表示)写成的文本转换成katakana、hiragana、和kanji。使用该字处理器,用户能以romaji键入查询,接着将翻译的文本从字处理器的屏幕剪切粘贴进浏览器上的搜索框中。这种方法的缺点在于,其相对较慢且冗长,并且要求用户访问字处理器的副本,但由于成本和/或存储器限制,这可能不是可行的。 
因此,仍需要提供响应于模糊的搜索查询的相关搜索结果的方法和设备。 
发明内容
如本文中体现和广泛描述的,根据本发明的方法和设备提供响应于模糊的搜索查询的相关搜索结果。根据本发明,这样的方法包括接收来自用户的模糊信息构件序列。该方法获得将模糊信息构件映射到较不模糊的信息构件的映射信息。这种映射信息用于将模糊信息构件序列映射成一个或多个相应的较不模糊的信息构件序列。这些较不模糊的信息构件序列的一个或多个作为输入提供给搜索引擎。从搜索引擎获得搜索结果,并且将该结果呈现给用户。 
另外,本发明披露了用于使用查询执行搜索的系统和方法,其中所述查询以不同于将被搜索的文档的至少一些的字符集或语言的语言或字符集表示。本发明的实施例允许用户使用标准输入装置(例如,ASCII键盘)敲出查询,使得查询在服务器处被翻译成相关形式(例如将以romaji写成的查询翻译成katakana、hiragana、和/或kanji),并且接收基于转换形式的搜索结果。 
应理解,本发明可以多种方式实现,包括程序、设备、系统、装置、方法、或例如计算机可读存储介质等计算机可读介质、载波、或其中程序指令通过光或电子通信线路发送的计算机网络。下面描述几个本发明的实施例。 
在一个实施例中,描述了将查询项自动从一种语言和/或字符集翻译到另一语言和/或字符集的方法。将包含给定查询项的第一组锚文本识别为锚文本指向的一组文档(例如网页)。接着识别以第二格式写成并且指向同组文档的第二组锚文本。接着分析第二组锚文本,以获得给定查询项以第一格式呈现对应于给定查询项以第二格式呈现的概率。 
在另一实施例中,创建将以第一格式(例如,语言和/或字符集)写成的项映射到第二格式(例如,另一语言和/或字符集)的概率词典。该概率词典用于将以第一格式写成的查询翻译成第二格式。接着将所翻译的查询用于执行搜索,所搜索的结果被返回用户。在一些实施例中,用户与搜索结果的交互可被监控,并且用于更新概率词典中的概率。并且,在一些 实施例中,查询自身在搜索之前可被扩展,以包括可选语言和/或字符集映射。 
在又一实施例中,描述了创建概率词典的方法。该概率词典可用于将具有第一格式的项翻译成第二格式。优选通过识别包含该项的锚文本或其它数据,逐项创建该词典。接着,分析与该锚文本或其它数据对齐的数据,以确定具有第一格式的给定项映射到具有第二格式的一个或多个项上的概率。 
在又一实施例中,通过将包含查询项的一个或多个且以第一语言或字符集写成的锚文本与对应于第一锚文本且以第二语言或字符集写成的锚文本进行比较,将以第一语言或字符集提供的查询翻译成第二语言或字符集。 
在另一实施例中,提供用于将以第一格式写成的项翻译成第二格式的计算机程序产品。该计算机程序产品用于使计算机系统识别对齐的锚文本和确定给定项以第一格式呈现对应于一个或多个项以第二格式呈现的概率。 
在另一实施例中,提供了使用潜在模糊的查询执行搜索的方法。当用户输入具有第一格式的查询时,该查询被翻译成一组以第二格式写成的一个或多个变异体。接着使用被翻译的变异体执行搜索,并且将响应信息返回用户。例如,第一格式可包括使用电话键盘输入的数字序列,且第二格式可包括字母数字文本(例如,英语、romaji、romaja、拼音等)。在一些实施例中,通过丢弃不出现在预定索引词表中的被翻译的变异体和/或包含预定低概率字符组合的被翻译的变异体,选择该组一个或多个变异体。在一些实施例中,概率词典用于在执行搜索之前将该组一个或多个变异体进一步翻译成第三格式。例如,该概率词典可用于将该组一个或多个变异体从romaji、romaja、或拼音翻译成kanji、katakana、hiragana、hangul、hanja、或传统汉字,接着使用被翻译的变异体执行搜索。 
本发明的这些和其它特性和优点将更详细地呈现在以下的详细描述和附图中,其中所述附图借助于实例图示本发明的原理。 
附图说明
附图整合进说明书并且构成说明书的部分,图示本发明的实施例,并且与描述一起用以说明本发明的优点和原理。在附图中: 
图1示出其中实现根据本发明的方法和设备的系统的框图; 
图2示出根据本发明的客户机装置的框图; 
图3示出描述三个文档的图示; 
图4a示出传统字母数字索引表; 
图4b示出提供响应传统的字母数字搜索查询的搜索结果的流程图; 
图5a示出根据本发明的用于提供响应模糊搜索查询的搜索结果的流程图; 
图5b示出用于将字母数字信息映射到数字信息的图示; 
图5c示出一实例数字索引;以及 
图6示出根据本发明的用于提供响应模糊搜索查询的搜索结果的另一流程图。 
图7示出用于根据本发明的实施例执行搜索的方法。 
图8示出字符集翻译的概率词典。 
图9示出使用平行锚文本构造概率词典的图示。 
图10示出使用锚文本链接的文档集合。 
图11A和11B示出基于图10中所示的锚文本计算可能的翻译的图示。 
图12示出与所示出的词翻译有关的概率分布。 
具体实施方式
现在将详细参看如附图中示出的本发明的实施例。在附图中始终使用相同参考标号,并且以下描述是指相同或相似部分。以下描述的呈现使得本领域中的任何技术人员都能制造和使用发明的工作主体。对具体实施例和应用的描述仅作为实例而提供,且各种修改对本领域的技术人员来说是 显然的。例如,尽管以互联网网页为背景描述了多个实例,但应理解,本发明的实施例可用于搜索其它类型的文档和/或信息,例如书、报纸、杂志等。类似地,尽管为了例示目的,许多实例描述了日文文本从romaji到katakana、hiragana、和/或kanji的翻译,但本领域的技术人员将理解,本发明的系统和方法可应用于任何适合的翻译。例如,非限制性地,本发明的实施例可用于基于以某一其它格式(例如,拼音或romaja)接收的查询搜索以例如传统汉字或韩文hangul或hanja字符写成的文本。本文中描述的一般性原理可应用于其它实施例和应用,而不偏离本发明的精神和范围。因此,本发明被给与最宽的范围,涵盖众多与这里披露的原理和特性一致的可选物、修改、和等同物。为了简洁起见,没有描述与本发明相关的本领域中已知的技术材料的细节,以免不必要地模糊本发明。 
A.概述 
根据本发明的方法和设备允许用户提交模糊搜索查询和接收潜在消除歧义的搜索结果。在一个实施例中,将从具有标准电话键盘的用户接收的数字序列翻译成一组潜在对应的字母数字序列。使用布尔“或(OR)”表达式,将这些潜在对应的字母数字序列作为输入提供给传统搜索引擎。这样,该搜索引擎用于帮助限定用户可能感兴趣的搜索结果。 
B.架构 
图1示出其中可实现根据本发明的方法和设备的系统100。系统100可包括经由网络140连接至多个服务器120和130的多个客户机装置110。网络140可包括局域网(LAN)、广域网(WAN)、例如公共开关电话网络(PSTN)等电话网络、内联网、互联网、或这些网络的组合。为了简洁起见,示出连接至网络140的两个客户机装置110和三个服务器120和130。实际上,可以有更多或更少的客户机装置和服务器。并且,在一些情况下,客户机装置可执行服务器的功能,且服务器可执行客户机装置的功能。 
客户机装置110可包括例如大型机、小型计算机、个人计算机、膝上型电脑、个人数字助理等能连接至网络140的装置。客户机装置110可通 过网络140传输数据,或经由有线、无线、或光连接接收来自网络140的数据。 
图2示出根据本发明的示范性客户机装置110。客户机装置110可包括总线210、处理器220、主存储器230、只读存储器(ROM)240、存储装置250、输入装置260、输出装置270、和通信接口280。 
总线210可包括一个或多个允许在客户机装置110的构件之间通信的传统总线。处理器220可包括任何类型的用于理解并执行指令的传统处理器或微处理器。主存储器230可包括用于储存由处理器220执行的信息和指令的随机存取存储器(RAM)或另一类型的动态存储装置。ROM 240可包括储存处理器220使用的静态信息和指令的传统ROM装置或另一类型的静态存储装置。存储装置250可包括磁和/或光记录介质及其相应驱动器。 
输入装置260可包括允许用户输入信息给客户机装置110的一个或多个传统机构,例如键盘、鼠标、笔、语音识别和/或生物测定机构等。输入装置270可包括输出信息给用户的一个或多个传统机构,包括显示器、打印机、扬声器等。通信接口280可包括使得客户机装置110能与其它装置和/或系统通信的任何收发器类型的机构。例如,通信接口280可包括用于经由网络(例如,网络140)与另一装置或系统通信的机构。 
如将在下面详细描述的,根据本发明的客户机装置110执行某些(certain)与搜索相关的操作。客户机装置110可响应于处理器220执行包含在计算机可读介质(例如存储器230等)中的软件指令执行这些操作。计算机可读介质可被限定为一个或多个存储器装置和/或载波。可从另一计算机可读介质(例如,数据存储装置250等)或从经由通信接口280的另一装置将软件指令读进存储器230。包含在存储器230中的软件指令使得处理器220能执行下述与搜索相关的活动。可选地,硬连线电路可用于代替软件指令或与软件指令结合使用,以执行根据本发明的进程。因此,本发明不限于硬连线电路和软件的任何特定组合。 
服务器120和130可包括能连接至网络140使得服务器120和130与客户机装置110通信的一种或多种类型的计算机系统,例如大型机、小型计算机或个人计算机等。在可选实施方式中,服务器120和130可包括用于直接连接至一个或多个客户机装置110的机构。服务器120和130可通过网络140传输数据,或经由有线、无线、或光连接接收来自网络140的数据。 
可以类似于上面参看图2对于客户机装置110描述的方式配置服务器。在根据本发明的实施方式中,服务器120可包括可由客户机装置110使用的搜索引擎125。服务器130可储存可由客户机装置110访问的文档(或网页)。 
C.架构操作 
图3示出描述三个文档的图示,这三个文档举例来说可被储存在服务器130的其中之一上。 
第一文档(文档1)包括两个条目-“car repair(汽车维修)”和“car rental(汽车出租)”--,并且在其底部标以号码“3”。第二文档(文档2)包括条目“video rental(视频出租)”。第三文档(文档3)包括三个条目-“wine(酒)”、“champagne(香槟)”、和“bar item(酒吧项目)”--,并且包括至文档2的链接(或引用)。 
为了图示简洁起见,图3中所示的文档仅包含信息的字母数字串(例如,“car”、“repair”、“wine”等)。然而,本领域的技术人员将认识到,在其它情形下,文档可包括其它类型的信息,例如语音、或视听信息等。 
图4a示出基于图3中所示的文档的传统的字母数字索引表。该索引表的第一列包括一列字母数字项,且第二列包括一列对应于这些项的文档。例如字母数字项“3”等一些项仅对应于一个文档(例如出现在一个文档中),在此情形下,是文档1。例如“rental”等其它项对应于多个文档,在此情形下,是文档1和2。 
图4b示出例如搜索引擎125等传统搜索引擎如何使用图4a中所示的索引表提供响应于字母数字搜索查询的搜索结果。可使用任何传统技术产生该字母数字查询。为了例示目的,图4b描述了两个字母数字查询:“car”和“wine”。在传统方法下,搜索引擎125收到例如“car”等字母数字查询(步骤410),并且使用该字母数字索引表确定哪些文档对应于该查询(步骤420)。在该实例中,传统搜索引擎125使用图4a中所示的索引表确定“car”对应于文档1,并且将文档1(或对文档1的引用)作为搜索结果返回用户。类似地,传统搜索引擎确定“wine”对应于文档3,并且将文档3(或对文档3的引用)作为搜索结果返回用户(步骤430)。 
图5a示出根据本发明的用于基于分别在图3和4a中示出的文档和索引表提供响应于数字搜索查询的搜索结果的优选技术的流程图。为了使得图示容易,图5a描述了用于基于标准电话手机(telephone handset)的映射处理数字查询的特定技术;但是本领域的技术人员将认识到,也可使用根据本发明的其它技术。 
在步骤510,收到来自用户的序列“227”(包括数字构件“2”、“2”、和“7”)。在步骤520,获得有关数字构件如何映射到字母的信息。假定用户从标准电话键盘输入信息,在图5b中示出该映射信息。如图5b中所示,字母“a”、“b”、和“c”的每个都映射到数字“1”,字母“p”、“q”、“r”、和“s”的每个都映射到数字“7”等。 
在步骤530,使用该映射信息,将序列“227”翻译成其潜在的字母数字等同物。根据图5b中所示的信息,存在36个对应于序列“227”的可能的字母组合,包括下述:aap、bap、cap、abp、bbp、…、bar…car…ccs。如果数字包含在可能的组合中(例如,“aa7”),则存在80个可能的组合。不是生成所有可能的字母数字等同物,可希望根据一些索引词表限定所生成的等同物。例如,可希望仅产生出现在词典、先前的搜索查询的搜索引擎日志中的那些字母数字等同物;或通过使用已知统计技术(例如一起出现的某些词的概率)以其它方式限定字母数字等同物。 
在步骤540,使用逻辑“OR”操作,将这些字母数字等同物作为输入提供给传统搜索引擎(例如参看图4a和4b描述的)。例如,提供给搜索引擎的搜索查询可以是“app OR bap OR cap OR abp…OR bar…OR car”。尽管可将所有可能的字母数字等同物提供给搜索引擎,但代之以,通过使用传统技术消除不可能想要的等同物,使用子集。例如,通过使用(drawupon)利用有关字母或词的使用的概率信息的技术,可产生可能组合的较窄列表:可忽略从“qt”开始的组合,但包括(和喜欢)从“qu”开始的组合。 
在步骤550,从搜索引擎获得搜索结果。由于例如“aap”和“abp”等项不出现在搜索引擎的索引表中,所以它们被有效地忽略。实际上,包含在图4b中所示的索引表中的项仅为“car”和“bar”,从而所返回的唯一的搜索结果是引用文档1和3的搜索结果。在步骤560,将这些搜索结果呈现给用户。可以以搜索引擎提供的相同顺序呈现搜索结果,或可根据例如用户语言等考虑对搜索结果重新排序。假定用户仅对包含项“bar”的文档感兴趣,则除了想要的结果(文档1)外,用户还接收不想要的结果(文档3)。然而,为了用户仅需按三个键来形成搜索查询打算,这是可接受的付费价格。 
图6示出根据本发明的用于基于分别在图3和4a中示出的文档和索引表提供响应于数字搜索查询的搜索结果的优选技术的另一流程图。该流程图示出如何增加所接收的序列尺寸可有助于限定搜索结果到用户想要的搜索结果。为了图示容易起见,图6再次描述了基于标准电话手机的映射处理数字查询的特定技术;但是本领域的技术人员将认识到,也可使用根据本发明的其它技术。 
在步骤610,收到来自用户的序列“22748367”(包括数字构件“2”、“2”、“7”、“4”、“8”、“3”、“6”、“7”)。为了说明目的,将序列“227”称为“数字词”,将整个序列“22748367”称为“数字短语”。将数字词的可能的字母数字等同物称为“字母词”,将数字短语的可能的字母数字等同物称为“字母短语”。 
在步骤620,获得有关数字构件如何映射到字母的信息。假定如图5b中所示使用相同的映射信息,则在步骤630,将数字短语“22748367”翻译成潜在对应的字母短语。根据图5b中所示的信息,存在11664个对应于序列“22748367”的字母短语。 
在步骤640,使用逻辑“OR”操作,将这些字母短语作为输入提供给传统搜索引擎(例如参看图4a和4b描述的)。例如,提供给搜索引擎的搜索查询可以是“’‘aap gtdmp’OR‘aap htdmp’…OR’bar item’…OR‘car item’”。尽管可将所有可能的字母短语提供给搜索引擎,但代之以,通过使用传统技术消除不可能想要的字母短语,使用子集。 
在步骤650,从搜索引擎获得搜索结果。由于许多搜索引擎被设计为使那些搜索的包含精确短语的文档级别很高(rank highly),所以文档3可能是级别最高的搜索结果(即,由于它包含精确短语“bar items”)。该实例中没有其它文档包含在步骤620生成的其它字母短语的任何一个。并且,许多搜索引擎使包含短语的单独部分但不包含整个短语的搜索结果权重下降或消除。例如,使得文档1权重下降或消除,因为它包含对应于字母短语的第一部分的字母词“car”,但不包含对应于字母短语的第二部分的任何字母词。最终,例如“aap htdmp”等字母短语被有效忽略,因为它们不包含出现在搜索引擎索引表中的字母词。 
在步骤660,将搜索结果呈现给用户。在所示的实例中,显示给用户的第一结果是可能与用户查询最相关的文档3。文档1可被完全消除,因为它不包含可能的字母短语的任何一个。这样,将最相关的搜索结果提供给用户。 
尽管参考收到数字信息并将其映射到字母数字信息做出上面参看图5和6的描述,但本领域的技术人员将认识到,根据本发明其它实施方式也是可能的。例如,代替收到对应于用户按的键的数字序列,所收到的序列可包括对应于用户按的键的第一字母。换言之,代替接收“227”,所收到的序列可以是“aap”。根据本发明,在步骤530或630中产生的等同字母序列可以是对应于“aap”的其它字母序列(例如,“bar”)。实际上,收到的序列可以包含语音、视听、或任何其它类型的信息构件。 
无论接收序列的形式如何,都通常优选的是,收到的序列被翻译成对应于信息储存在搜索引擎的索引表中的格式的序列。例如,如果搜索引擎的索引表被以字母数字格式储存,则应将收到的序列翻译成字母数字序列。 
并且,通常优选的是,用于翻译收到的信息序列的映射技术可以是与在用户装置处采用的用于将用户输入映射到装置产生的信息的技术相同的技术。然而,也存在优选使用与用于用户输入的映射技术不同的映射技术的实例。 
本发明的实施例也可使得用户能执行使用非目标语言键盘输入的搜索。例如,包含日文文本的网页可以kanji写成,同时试图搜索该网页的用户可仅访问基于罗马字母表的ASCII键盘(或手机)。 
图7示出用于执行这样的搜索的方法。如图7中所示,用户使用标准输入装置(例如,ASCII键盘、电话手机等)敲出查询,并且发送该查询给搜索引擎。该查询可被以与写成响应文档的一些的字符集(例如,kanji)不同的字符集(例如,romaji)写成。搜索引擎收到该查询(框702),将其翻译成相关形式(框704),并且使用例如传统搜索技术对响应于翻译的查询的文档执行搜索(框706)。接着该搜索引擎返回一列响应文档(和/或文档自身的副本)给用户(框708)。例如,以类似于上面结合图6描述的方式将结果返回给用户。 
如图7中所示,优选在与客户机相对的搜索引擎的服务器处翻译用户查询,从而使得用户不再需要获得专用目的软件来执行该翻译。然而,将理解,在其它实施例中,翻译的全部或一些可在客户机处执行。另外,在一些实施例中,可使用例如电话键盘等装置输入查询。在这样的实施例中,使用上面结合图5和6描述的映射技术(例如,包括索引词表和/概率技术的应用)丢弃低概率映射(例如,包括不以romaji出现的字母组合的映射),可首先将最初的数字查询转换成字母数字形式(例如romaji)。一旦已经获得查询的字母数字翻译,则可执行图7中所示的步骤的剩余部分(即,704、706、和708)。 
可以多种方式执行查询从一种字符集或语言到另一字符集或语言的翻译(即,图7中的框704)。一项技术是使用具有词义或翻译的传统静态词典将查询中的每个项映射到目标语言或字符集中的对应项。然而,该方法的问题是,它将常常产生不精确的结果,因为词常常是模糊的,并且查询过短,从而不能提供充分多的上下文线索来解决此模糊问题。例如,词“bank”可以指river bank、financial institution、或a maneuver by an airplane,从而使得难以理论上精确地翻译。另外,如果该词典相对不大,和/或没有被频繁更新,则它可能不包含用于搜索引擎可能遇到的所有项的条目,例如很少使用的词、俚语、成语、固有名称等。 
本发明的实施例可用于通过使用概率词典将查询项从一种语言或字符集(例如,ASCII)翻译到另一语言或字符集(例如,kanji)克服或改善这些问题的一些或全部。在优选实施例中,概率词典将一组项映射到另一组项,并且使概率与每个映射相关。为了方便起见,“项”或“语言符号(token)”是指词、短语、和/或(更一般地)可包括空格的一个或多个字符序列。 
图8示出例如上述等概率词典800的实例。图8中所示的实例概率词典800将以romaji(日文的罗马字母表表示)写成的词映射到以kanji(非罗马的基于表意文字的日文字符集)写成的词。为了便于解释,图8将罗马项描述为<项>romaji,将kanji项描述为<项>kanji。将理解,在实际的romaji到kanji词典中,使用实际的romaji和kanji项,而不是图8中所示的英文翻译。因此,将理解,图8用于方便本发明的实施例的说明,而不是图示日文文本的实际特征和意思。 
词典800包括用于多个romaji项802的条目808、810、812、814。该词典也包括以kanji写成的这些项的每个的潜在呈现(representation,表示)804以及每个这样的呈现正确的对应概率806。例如,romaji项“bank”可以概率0.3映射到kanji项意思“steep slope”,以概率0.4映射到项意思“financial institution”,以概率0.2映射到项意思“airplane maneuver”。该 项可以概率0.1映射到“其它”,这仅是允许每个项映射到可能不在词典中的项的一般方式。 
再者,将理解,图8中所示的实例已经被构造为例示以第一字符集或语言写成的给定项(例如,词“bank”)可映射到以另一字符集或语言写成的多于一个的项。然而,本领域的技术人员将理解,为了简洁起见,图8中的具体实例使用英文词和意思例示该原理,例如,词“bank”的实际的romaji呈现可能不比其英文等同物模糊(例如,在用于financial institution的词和用于airplane maneuver的词之间romaji不存在模糊)。也应理解,为了便于解释,图8中所示的词典也已经在其它方面得以简化。例如,实际的概率词典可包含用于每个项的多得多的潜在映射,或可仅包含超过预定概率阈值的映射。 
本发明的优选实施例使用这样的概率词典将以一种语言和/或字符集写成的查询翻译成另一语言和/或字符集,从而使得用户能找到以与其原始查询不同的字符集和/或语言写成的文档。例如,如果用户输入以romaji写成的对“cars”的查询,则该概率词典可被用于将用于“cars”的romaji项映射到例如用于“cars”的kanji项。这样,用户可找到与其查询有关的文档,即使该查询的字符集(例如,romaji)和匹配文档的字符集(例如,kanji)不同。注意,在本具体实例中,查询的实际语言没有改变(romaji和kanji均被用于表示日文),仅字符编码改变。 
作为另一实例,以ASCII英文写成的项“tired”可使用拉丁1字符编码映射到项“müde”,因为该字符变元音u在ASCII中不存在。注意,在本实例中,该词典提供了翻译成另一语言(英文到德文)和翻译成另一字符编码(ASCII到拉丁1)两种方式。 
在优选实施例中,使用可在网络上得到的信息以及统计技术,以自动方式构造上述映射词典。优选实施例使用平行对齐的双语语料库(例如以不同语言和/或字符集写成的锚文本)达到精确翻译。使用这种数据,优选实施例可构造潜在词映射词典。这举例来说可通过简单地对以语言Si(源语言)写成的语言符号与在对齐的文本对(例如,锚、句子等)中的语言 符号Tj(目标语言)同时出现的次数计数完成。然而,将理解,可使用任何适合的技术。 
在缺少充分大并且正确对齐的数据集时,该方法可产生较模糊的多对多的映射。因此,例如,可仅确定S1以某些频率映射到T2、T3、T7、和T8。然而,这是可接受的,并且,如下面更详细地描述的,在一些实施例中,可做出另外的改进,以提高每个映射的相应可能性,例如,通过检查先前的用户查询、用户对结果网页上的项目的选择等实现。 
图9示出将平行锚文本用于构造概率词典。锚文本包括与网页(或给定网页内的地址)之间的超链接相关的文本。例如,在超文本标识语言(HTML)中,命令:“<A href=″http://www.abc.com″>Banks and Savings and Loans</A>”使得文本“Banks and Savings and Loans”作为指向在http://www.abc.com发现的网页的超链接显示。该文本“Banks and Savings and Loans”被称为“锚文本”,通常提供了对其指向的网页(例如,www.abc.com)的简短描述。实际上,锚文本将常常对网页提供比网页自身更精确的描述,因此在确定它指向的网页的性质中是特别有用的。另外,锚文本中的词使用量(用法,usage)和分布常常在精神和长度上与在用户查询中发现的接近。也有这样的情形,指向给定页的许多锚将包含相同或高度相似的文本。例如,指向www.google.com的锚将常常简称为“Google”,或将至少与其它文本一起使用该项。因此,通过检查全部指向www.google.com的锚,例如,katakana,仅通过查找以最高频率出现的项(可能在丢弃某些预定低信息-内容锚,例如简称为“click here”的信息-内容锚),可以较高的信任度推断出用于“Google”的katakana翻译。本发明的优选实施例利用锚文本的这些特征提供精确翻译。 
参看图9,在收到包含以第一字符集(例如,ASCII)写成的项的查询时(框902),服务器识别其中该项出现的一组锚文本(框904)。例如,该服务器可检查所有已知锚的索引表,以识别包含该项的那些锚。接着,那些锚点指向的网页被识别(框906),之后识别指向这些网页的以目标语言或目标字符集(例如,hiragana,katakana,和/或kanji)写成的任何锚 (框908)。现在该系统将具有两组文档(其中锚文本被认为是文档形式)。接着将一个文档集(例如,包含原始ASCII查询的锚)中的查询项的分布用于识别另一文档集(例如,平行锚)中的翻译的短语的最可能的候选对象。可对锚文本项出现的频率计算出统计数字,并且将这些统计数字用于确定在为原始查询的正确翻译的锚文本中发现的项的相对频率或概率(框910)。对于具有多个词的查询,可对每个词重复上述过程,或仅将整个查询认为是单个项,或使用词的一些其它适合的分组。例如,如果查询是“big houses”,则可通过找到包含该短语(或短语中的至少一个词)的对齐的锚文本构造可能翻译词典。类似地,如果该查询包含多于两个的项,则通过拾取该查询项的适当子集并且产生那些项的结果,可建立确定合适映射的实验。 
以图9中所示的方式执行翻译的一个优点是,该翻译系统不需要具有在以一种语言或字符集写成的项和以目标集写成的项之间映射的现有知识。相反,可基于可用于执行统计分析的数据体动态确定映射。因此,例如,可能发现对于俚语项、成语、固有名称等的精确翻译,而不需要维护传统的静态词典的努力或代价(例如,双语分析和搜索)。 
现在将结合图10至图12描述前述翻译技术的例示性实施例。在本实例中,将假定用户已输入查询项“house”,并且希望获得以西班牙语写成的搜索结果(或仅为查询项的翻译)。服务器将尝试将英文项“house”翻译成其西班牙语等同物。 
参看图10,多个网页959、961、963、965经由锚文本960、962、964、966链接到网页972和974。网页中的一些及其相关锚文本以英文写成(即,网页959a-e和963a-t),一些以西班牙语写成(即,网页961a-e和965a-j))。服务器首先定位使用项“house”的所有锚。举例来说可通过搜索储存在服务器处的锚文本的索引表定位这些锚。使用这样的索引表,服务器可首先找到每个都使用短语“big house”并且指向网页972的五个锚960。该服务器接着确定也存在五个指向网页972的目标语言(即,西班牙语)锚962。在图10中所示的实例中,这些锚包含文本“casa grande”。指向相同 网页(例如锚960和锚962)的锚或承载与之的预定关系的网页的锚被称为是“对齐的”,其中,就更一般的意义而言,对齐通常是指被对齐的项的等同物(或可能的等同物)。 
图11A示出每个目标语言项出现在目标语言锚962中的频率。如图11A中所示,项“casa”和“grande”的每个都出现五次(即,每个锚962中一次)。因此,在出现在目标锚962中的十个总项中(即,在五个锚的每个中,每个锚两个项),“casa”占一半,“grande”占一半。因此,如图11A中所示,此时,项“house”以相等的概率映射到“casa”或“grande”,因为这两个项以相等的频率出现。 
然而,如图10中所示,该系统也找到二十个包含项“house”并且指向网页974的英文锚964和十个包含项“casa”并且也指向网页974的西班牙语锚966。如图11B中所示,项“house”现在将以概率0.75(即,15/20)映射到“casa”,以概率0.25(即,5/20)映射到“grande”。仅通过用目标语言锚(即,二十个项:包含在锚962中的十个,包含在锚964中的十个)中项的总数(包括重复的项)除目标语言锚中每个项的出现总数(即,在“casa”的情形下,为十五个),计算这些概率。可选地,或另外,也可将其它技术用于计算和/或改进给定翻译或映射的概率。例如,本领域中的技术人员将理解,多种已知技术中的任何一种(例如,贝叶斯方法、直方图平滑、核平滑、收缩估算量、和/或其它估计技术)都可用于减少概率估计的方差误差(variance error)。 
如果更多的锚文本可得到,则甚至可进一步改进概率。例如,最终的概率分布可类似于图12中所示的概率分布,在图12中,“house”以较高概率映射到“casa”及其小形式(diminutive form)“casita”,以稍小的概率映射得到类似于“casino”和“mansión”(mansion的西班牙语词)等项,以可忽略的概率映射到类似于“grande”等项。因此,无需正在被翻译的语言和/或字符集的知识,就可获得正确翻译以及类似同义词的识别。 
已经翻译了查询项,现在服务器可使用该翻译进行搜索。例如,如果用户将输入对“hotels in Kyoto”的romaji查询,则上述技术可用于使该服 务器能推断该查询的katakana、hiragana、和kanji形式,使用那些查询执行搜索,接着在适当的用户界面内将那些查询的每个的组合结果呈现给用户。 
应理解,结合图10-12描述的实例仅为例示目的而提供,而非限制,并且可对这里描述的方法做出许多改变。例如,可将不同的统计技术用于得到概率,和/或可对上述的基本技术做出修改。类似地,应理解,上述翻译技术可仅用于执行对用户输入的词或短语的翻译,而不需要用于执行相关的互联网搜索或创建概率词典。另外,尽管前述实例描述了在收到用户查询后进行的翻译过程,但应理解,在其它实施例中,可在收到用户查询之前执行映射过程。这样的预计算的映射可被储存在例如图8中描述的词典中,接着可将该词典应用于在收到用户查询后翻译用户查询。最终,应理解,与对齐的锚文本不同的文本可用于执行该翻译。例如,可以类似方式使用对齐的句子或其它数据。在许多国家中,存在多于一种的官方或正式语言,且报纸和期刊常常包含以这些语言的每种写成的相同文章。这些平行翻译可以类似于前述锚文本的方式被使用,以准备词翻译的概率词典。 
因此,优选实施例有利地使用户能以传统方式(例如,使用ASCII键盘)输入搜索查询和/或翻译请求,并且提供精确和自动的翻译和搜索。在一些实施例中,可对上述基本模型做出另外的改进。例如,在一些实施例中,可将优先级(权重)给与包含类似于原始查询和/或其它对齐的锚中的多个项的多个项的锚。例如,在图10中所示的系统中,可将优先级给与指向网页974的锚,因为,类似于原始查询,它们的每个都包含单个项。类似地,如果包含文本“la casa grande”的锚也指向网页972,则其权重将被减少适当因子,因为它包含比其对齐的其它锚多的项(即,3)。通过用适当因子乘与这些锚的项相关的频率,这样的权重方案可反映在图11B中所示的概率计算中。 
上述翻译过程也可用于提高搜索自身的有效性。例如,该概率词典可用于在空中(on the fly)扩展查询,以包括例如原始查询项的各种翻译和 同义词。通过在文档检索之前扩展用户查询,可对相同“概念”同时执行检索,从而提高搜索结果包含用户查找的项的可能性。可选地,或另外,通过提供文档项的扩展,该概率词典可用于补充正常的文档索引过程。例如,可利用来自该概率词典的翻译在文档索引表中补充在文档中找到的项,从而提高文档甚至通过不精确使用在原始文档中找到的相同项的搜索定位的概率。 
在使用上述翻译技术时产生的一个问题是,由于数据稀疏(例如,没有充分多的锚来最后确定“casa”映射到“house”)或缺少多样性(例如,所有锚说的是相同事情),则该系统不能获得充分精确的概率映射。因此,在一些实施例中,通过检查用户行为,可进一步提高概率映射。下面描述了几个例示性技术。 
例如,再次假定服务器希望获得对“house”的翻译。然而,假定可仅找到一个锚文本包含短语“big house”或短语“casa grande”。由于在该锚文本中缺少多样性,所以该概率词典可得到以下映射: 
house→casa,具有0.5的概率 
house→grande,具有0.5的概率 
big→casa,具有0.5的概率 
big→grande,具有0.5的概率 
grande→house,具有0.5的概率 
grande→big,具有0.5的概率 
casa→house,具有0.5的概率 
casa→big,具有0.5的概率 
想象用户现在用项“casa”查询该搜索引擎。同时,该搜索引擎返回包含项“casa”的网页,并且也混合在仅包含项“house”的N个结果和仅包含项“big”的M个结果中。实际上,N和M可被调整,以考虑进映射的基础概率,从而,较不可能的映射将导致较少结果被显示。如果发现用户点击仅包含项“house”的结果多于他们点击仅包含项“big”的结果十次,则举例来说可将映射概率调整如下: 
house→casa,具有0.9的概率 
house→grande,具有0.1的概率 
big→casa,具有0.1的概率 
big→grande,具有0.9的概率 
grande→house,具有0.1的概率 
grande→big,具有0.9的概率 
casa→house,具有0.9的概率 
casa→big,具有0.1的概率 
注意,实际数目取决于多个其它因子,例如点击被考虑进来的用户数量、点击包含这两项的网页数量、包含正在讨论的项的结果在结果集中的放置等。也应理解,在该实例中给出的调整的概率(即,0.1和0.9)仅为例示性目的。本领域的技术人员将理解,可以任何适当的方式执行例如上述等给与用户反馈的实际权重。 
也应注意到,为了便于对用户反馈使用的说明,简化了前述实例。例如,在一些系统中,将可能使用从其它翻译获得的信息帮助执行给定翻译。例如,在刚呈现的实例中,即使项“house”仅出现在称为“big house”的锚文本中,仍可能确定与“house”映射到“grande”相比,“house”更恰 当地映射到“casa”。例如,如果已经确定在充分大的数据集中(如果假定锚文本几乎不包含一列同义词),则“big”以非常大的概率映射到“grande”,接着house到casa映射仍比house到grande映射优先,即使包含“house”或“casa”的锚文本是不确定的也是如此。 
通过检查用户查询会话历史,也可提高翻译精度和/或搜索结果的有用性。例如,在许多情形下,该系统将知道(例如,通过储存在服务器处的用户帐户中的cookie或信息知道)用户已输入的先前的查询。该历史数据可用于对来自该用户的查询的可能感觉(sense)分级,从而从与飞行相关的查询潜在消除用于与捕鱼有关的查询的“bank”。因此,该过程可用于缩小可能的翻译集合。在一些实施例中,通过在用户界面中结合例如“Did you mean to search for X”(这里“X”是指预算的翻译优先级)显示它们,该系统可建议这些,同时也在结果的第一网页中潜在显示来自每个可能的再阐述(reformulation)的少量结果。当用户选择由“Did you mean”显示建议的可选对象或呈现在结果网页上的结果的其中之一时,该系统将获得有关查询词的可能翻译以及用户的可能搜索偏爱的另外的证据(evidence)。接着这两种信号都可被系统使用来更新项映射(例如,在该概率词典中)的可能分数,二者均在一般的情形下以及用户专用的情形下。 
D.结论 
如上面详细描述的,根据本发明的方法和系统可用于提供响应于模糊搜索查询的搜索结果和/或将项翻译成其它字符集合/或语言。已经描述了多种翻译和搜索技术。然而,将理解,为了例示目的呈现前面的描述,且根据上面的描述或通过实施本发明,多种修改和改变都是可能的。例如,尽管上面的描述基于客户机-服务器架构,但本领域的技术人员将认识到,根据本发明也可使用对等式架构。此外,尽管所描述的实施方式包括软件,但本发明可作为硬件和软件的组合或硬件自身实现。另外,尽管以储存在存储器中为例描述了本发明的各方面,但本领域的技术人员将理解,这些方面也可储存在其它类型的计算机可读介质上,例如像硬盘、软盘、或CD-ROM等辅助存储装置;来自互联网的载波;或其它RAM或ROM形式。因此,本发明的范围由权利要求书及其等同物限定。 

Claims (10)

1.一种计算机执行的方法,包括:
接收以第一格式表示的第一搜索查询,其中,所述第一搜索查询包含以所述第一格式写成的第一项;
从已知网页的集合中识别包含数个第一锚文本串的第一集合和包含数个第二锚文本串的第二集合,其中,所述数个第一锚文本串中的每一个包含所述第一项,所述数个第二锚文本串中的每一个包含以不同于所述第一格式的第二格式写成的一个或多个第二项,并且所述数个第一锚文本串中的每一个和所述数个第二锚文本串中的每一个是一个各自的第一超链接的被显示部分,其中,所有的所述各自的第一超链接指向第一文档;
至少部分基于一个或多个唯一项中的每一个在所述数个第二锚文本串中出现的频率,得出所述第一项的以所述第二格式写成的一个或多个候选翻译;以及
响应于以所述第一格式表示的所述搜索查询,提供搜索结果,其中,所述搜索结果是由搜索引擎使用第二搜索查询识别的,该第二搜索查询包含以所述第二格式写成的一个或多个候选翻译中的至少一个。
2.根据权利要求1所述的方法,其中,得出所述一个或多个候选翻译进一步包括:
对于所述包含数个第二锚文本串的第二集合中的一个或多个唯一项中的每一个,
确定所述包含数个第二锚文本串的第二集合中所述唯一项的各自计数;以及
相对于所有唯一项在所述包含数个第二锚文本串的第二集合中出现的总数,基于所述唯一项的各自计数,计算所述唯一项是所述第一项的准确翻译的各自概率;以及
基于为所述一个或多个唯一项计算的各自概率,识别所述一个或多个候选翻译。
3.根据权利要求1所述的方法,其中:
所述方法进一步包括从所述已知网页的集合中识别包含数个第三锚文本串的第三集合和包含数个第四锚文本串的第四集合,其中,所述数个第三锚文本串中的每一个包含所述第一项,所述数个第四锚文本串中的每一个包含以所述第二格式写成的一个或多个第四项,所述数个第三锚文本串中的每一个和所述数个第四锚文本串中的每一个是一个各自的第二超链接的被显示部分,其中,所有各自第二超链接指向不同于所述第一文档的第二文档;以及
基于一个或多个唯一项中的每一个在包括所述第二和所述第四集合的组合集合中的所有锚文本串中出现的各自频率,得出所述第一项的以所述第二格式写成的一个或多个候选翻译。
4.根据权利要求3所述的方法,其中,得出所述一个或多个候选翻译进一步包括:
对于所述锚文本串的组合集合中的一个或多个唯一项中的每一个,
确定所述锚文本串的组合集合中的所述唯一项的各自计数;以及
相对于所有唯一项在所述锚文本串的组合集合中出现的总数,基于所述唯一项的所述各自计数,计算所述唯一项是所述第一项的以所述第二格式写成的准确翻译的各自概率;以及
基于为所述锚文本串的所述组合集合中的所述一个或多个唯一项计算的各自概率,识别所述一个或多个候选翻译。
5.一种使用查询执行搜索的系统,包括:
一个或多个处理器;以及
存储器,其上存储有指令,当所述一个或多个处理器执行所述指令时,使得所述处理器执行以下操作:
接收以第一格式表示的第一搜索查询,其中,所述第一搜索查询包含以所述第一格式写成的第一项;
从已知网页的集合中识别包含数个第一锚文本串的第一集合和包含数个第二锚文本串的第二集合,其中,所述数个第一锚文本串中的每一个包含所述第一项,所述数个第二锚文本串中的每一个包含以不同于所述第一格式的第二格式写成的一个或多个第二项,并且所述数个第一锚文本串中的每一个和所述数个第二锚文本串中的每一个是一个各自的第一超链接的被显示部分,其中,所有的所述各自的第一超链接指向第一文档;
至少部分基于一个或多个唯一项中的每一个在所述数个第二锚文本串中出现的频率,得出所述第一项的以所述第二格式写成的一个或多个候选翻译;以及
响应于以所述第一格式表示的所述搜索查询,提供搜索结果,其中,所述搜索结果是由搜索引擎使用第二搜索查询识别的,该第二搜索查询包含以所述第二格式写成的一个或多个候选翻译中的至少一个。
6.根据权利要求5所述的系统,其中,得出所述一个或多个候选翻译进一步包括:
对于所述包含数个第二锚文本串的第二集合中的一个或多个唯一项中的每一个,
确定所述包含数个第二锚文本串的第二集合中所述唯一项的各自计数;以及
相对于所有唯一项在所述包含数个第二锚文本串的第二集合中出现的总数,基于所述唯一项的各自计数,计算所述唯一项是所述第一项的准确翻译的各自概率;以及
基于为所述一个或多个唯一项计算的各自概率,识别所述一个或多个候选翻译。
7.根据权利要求5所述的系统,其中:
所述操作进一步包括从所述已知网页的集合中识别包含数个第三锚文本串的第三集合和包含数个第四锚文本串的第四集合,其中,所述数个第三锚文本串中的每一个包含所述第一项,所述数个第四锚文本串中的每一个包含以所述第二格式写成的一个或多个第四项,所述数个第三锚文本串中的每一个和所述数个第四锚文本串中的每一个是一个各自的第二超链接的被显示部分,其中,所有各自第二超链接指向不同于所述第一文档的第二文档;以及
基于一个或多个唯一项中的每一个在包括所述第二和所述第四集合的组合集合中的所有锚文本串中出现的各自频率,得出所述第一项的以所述第二格式写成的一个或多个候选翻译。
8.根据权利要求7所述的系统,其中,得出所述一个或多个候选翻译进一步包括:
对于所述锚文本串的组合集合中的一个或多个唯一项中的每一个,
确定所述锚文本串的组合集合中的所述唯一项的各自计数;以及
相对于所有唯一项在所述锚文本串的组合集合中出现的总数,基于所述唯一项的所述各自计数,计算所述唯一项是所述第一项的以所述第二格式写成的准确翻译的各自概率;以及
基于为所述锚文本串的所述组合集合中的所述一个或多个唯一项计算的各自概率,识别所述一个或多个候选翻译。
9.一种用于执行搜索查询的设备,包括:
输入装置,用于接收以第一格式表示的第一搜索查询,并将所述第一搜索查询提供给处理器,其中,所述第一搜索查询包含以所述第一格式写成的第一项;
所述处理器,用于从已知网页的集合中识别包含数个第一锚文本串的第一集合和包含数个第二锚文本串的第二集合,其中,所述数个第一锚文本串中的每一个包含所述第一项,所述数个第二锚文本串中的每一个包含以不同于所述第一格式的第二格式写成的一个或多个第二项,并且所述数个第一锚文本串中的每一个和所述数个第二锚文本串中的每一个是一个各自的第一超链接的被显示部分,其中,所有的所述各自的第一超链接指向第一文档;以及至少部分基于一个或多个唯一项中的每一个在所述数个第二锚文本串中出现的频率,得出所述第一项的以所述第二格式写成的一个或多个候选翻译;以及
输出装置,用于响应于以所述第一格式表示的所述搜索查询,提供搜索结果,其中,所述搜索结果是由搜索引擎使用第二搜索查询识别的,该第二搜索查询包含以所述第二格式写成的一个或多个候选翻译中的至少一个。
10.根据权利要求9所述的设备,其中,得出所述一个或多个候选翻译进一步包括:
对于所述包含数个第二锚文本串的第二集合中的一个或多个唯一项中的每一个,
确定所述包含数个第二锚文本串的第二集合中所述唯一项的各自计数;以及
相对于所有唯一项在所述包含数个第二锚文本串的第二集合中出现的总数,基于所述唯一项的各自计数,计算所述唯一项是所述第一项的准确翻译的各自概率;以及
基于为所述一个或多个唯一项计算的各自概率,识别所述一个或多个候选翻译。
CN2011101331474A 2003-09-30 2004-09-13 计算机执行的方法和使用查询执行搜索的系统及设备 Active CN102236702B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/676,724 2003-09-30
US10/676,724 US8706747B2 (en) 2000-07-06 2003-09-30 Systems and methods for searching using queries written in a different character-set and/or language from the target pages

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800285354A Division CN1860473A (zh) 2003-09-30 2004-09-13 使用以不同的字符集和/或来自目标页面的语言写成的查询进行搜索的系统和方法

Publications (2)

Publication Number Publication Date
CN102236702A true CN102236702A (zh) 2011-11-09
CN102236702B CN102236702B (zh) 2013-08-14

Family

ID=34422117

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2011101331474A Active CN102236702B (zh) 2003-09-30 2004-09-13 计算机执行的方法和使用查询执行搜索的系统及设备
CNA2004800285354A Pending CN1860473A (zh) 2003-09-30 2004-09-13 使用以不同的字符集和/或来自目标页面的语言写成的查询进行搜索的系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNA2004800285354A Pending CN1860473A (zh) 2003-09-30 2004-09-13 使用以不同的字符集和/或来自目标页面的语言写成的查询进行搜索的系统和方法

Country Status (13)

Country Link
US (3) US8706747B2 (zh)
EP (3) EP2388709B1 (zh)
JP (4) JP4717821B2 (zh)
KR (4) KR101140187B1 (zh)
CN (2) CN102236702B (zh)
AT (1) ATE426206T1 (zh)
DE (1) DE602004020086D1 (zh)
ES (1) ES2323786T3 (zh)
HK (1) HK1163846A1 (zh)
PL (1) PL2388709T3 (zh)
RU (1) RU2363983C2 (zh)
TR (1) TR201816343T4 (zh)
WO (1) WO2005033967A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368557A (zh) * 2020-03-06 2020-07-03 北京字节跳动网络技术有限公司 视频内容的翻译方法、装置、设备及计算机可读介质

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136854B2 (en) * 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
CA2371731A1 (en) * 2002-02-12 2003-08-12 Cognos Incorporated Database join disambiguation by grouping
US8055669B1 (en) * 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
JP2007514249A (ja) * 2003-12-16 2007-05-31 スピーチギア,インコーポレイティド 翻訳機データベース
US20050138007A1 (en) * 2003-12-22 2005-06-23 International Business Machines Corporation Document enhancement method
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US8825591B1 (en) * 2003-12-31 2014-09-02 Symantec Operating Corporation Dynamic storage mechanism
US8655904B2 (en) * 2004-02-11 2014-02-18 Ebay, Inc. Method and system to enhance data integrity in a database
US7487145B1 (en) 2004-06-22 2009-02-03 Google Inc. Method and system for autocompletion using ranked results
US7836044B2 (en) 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US8392453B2 (en) 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
CN101091155B (zh) * 2004-06-29 2012-11-28 布莱克·布克斯塔夫 用于自动智能电子广告的方法和系统
US7895218B2 (en) 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
US7499940B1 (en) 2004-11-11 2009-03-03 Google Inc. Method and system for URL autocompletion using ranked results
US20060106769A1 (en) * 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US8122034B2 (en) 2005-06-30 2012-02-21 Veveo, Inc. Method and system for incremental search with reduced text entry where the relevance of results is a dynamically computed function of user input search string character count
US10735576B1 (en) * 2005-07-14 2020-08-04 Binj Laboratories, Inc. Systems and methods for detecting and controlling transmission devices
US7788266B2 (en) 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7737999B2 (en) 2005-08-26 2010-06-15 Veveo, Inc. User interface for visual cooperation between text input and display device
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US7805455B2 (en) * 2005-11-14 2010-09-28 Invention Machine Corporation System and method for problem analysis
US7644054B2 (en) 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
US7895223B2 (en) * 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
US7729901B2 (en) * 2005-12-13 2010-06-01 Yahoo! Inc. System for classifying words
US8010523B2 (en) 2005-12-30 2011-08-30 Google Inc. Dynamic search box for web browser
US7849144B2 (en) 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
US7657526B2 (en) 2006-03-06 2010-02-02 Veveo, Inc. Methods and systems for selecting and presenting content based on activity level spikes associated with the content
JP5057546B2 (ja) * 2006-03-24 2012-10-24 キヤノン株式会社 文書検索装置および文書検索方法
US8073860B2 (en) 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8442965B2 (en) * 2006-04-19 2013-05-14 Google Inc. Query language identification
US8255376B2 (en) 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
EP3822819A1 (en) 2006-04-20 2021-05-19 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
US8732314B2 (en) * 2006-08-21 2014-05-20 Cisco Technology, Inc. Generation of contact information based on associating browsed content to user actions
US7536384B2 (en) 2006-09-14 2009-05-19 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US7925986B2 (en) 2006-10-06 2011-04-12 Veveo, Inc. Methods and systems for a linear character selection display interface for ambiguous text input
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
WO2008063987A2 (en) 2006-11-13 2008-05-29 Veveo, Inc. Method of and system for selecting and presenting content based on user identification
US8549424B2 (en) 2007-05-25 2013-10-01 Veveo, Inc. System and method for text disambiguation and context designation in incremental search
US8296294B2 (en) 2007-05-25 2012-10-23 Veveo, Inc. Method and system for unified searching across and within multiple documents
ITTO20070508A1 (it) * 2007-07-11 2009-01-12 Selex Communications Spa Procedimento per la codifica di dati numerici in un elaboratore e procedimento per la codifica di strutture dati per la trasmissione in un sistema di telecomunicazioni, basato su detto procedimento di codifica di dati numerici
EP2570945A1 (en) * 2007-09-21 2013-03-20 Google Inc. Cross-language search
US8725756B1 (en) 2007-11-12 2014-05-13 Google Inc. Session-based query suggestions
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US20090287474A1 (en) * 2008-05-16 2009-11-19 Yahoo! Inc. Web embedded language input arrangement
US8312032B2 (en) 2008-07-10 2012-11-13 Google Inc. Dictionary suggestions for partial user entries
KR20120009446A (ko) * 2009-03-13 2012-01-31 인벤션 머신 코포레이션 자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법
US8275604B2 (en) * 2009-03-18 2012-09-25 Microsoft Corporation Adaptive pattern learning for bilingual data mining
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
WO2010139277A1 (en) 2009-06-03 2010-12-09 Google Inc. Autocompletion for partially entered query
US9870572B2 (en) 2009-06-29 2018-01-16 Google Llc System and method of providing information based on street address
US20150261858A1 (en) * 2009-06-29 2015-09-17 Google Inc. System and method of providing information based on street address
KR101083540B1 (ko) * 2009-07-08 2011-11-14 엔에이치엔(주) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
US9166714B2 (en) 2009-09-11 2015-10-20 Veveo, Inc. Method of and system for presenting enriched video viewing analytics
US20110191332A1 (en) 2010-02-04 2011-08-04 Veveo, Inc. Method of and System for Updating Locally Cached Content Descriptor Information
US8577915B2 (en) 2010-09-10 2013-11-05 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
US20140379680A1 (en) * 2010-09-21 2014-12-25 Qiliang Chen Generating search query suggestions
US20120167009A1 (en) * 2010-12-22 2012-06-28 Apple Inc. Combining timing and geometry information for typing correction
CN102737015A (zh) * 2011-04-07 2012-10-17 英业达股份有限公司 具即时翻译的写作系统及其写作方法
US20140310585A1 (en) * 2011-04-28 2014-10-16 Rakuten, Inc. Browsing system, terminal, image server, program, computer-readable recording medium storing program, and method
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US9313219B1 (en) * 2014-09-03 2016-04-12 Trend Micro Incorporated Detection of repackaged mobile applications
RU2580432C1 (ru) 2014-10-31 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ для обработки запроса от потенциального несанкционированного пользователя на доступ к ресурсу и серверу, используемый в нем
RU2610280C2 (ru) 2014-10-31 2017-02-08 Общество С Ограниченной Ответственностью "Яндекс" Способ авторизации пользователя в сети и сервер, используемый в нем
KR102244110B1 (ko) 2015-02-17 2021-04-26 삼성전자주식회사 이종 언어간 동일성을 판단하는 전자 장치 및 방법
US9762385B1 (en) 2015-07-20 2017-09-12 Trend Micro Incorporated Protection of program code of apps of mobile computing devices
CN105069171B (zh) * 2015-08-31 2018-07-13 百度在线网络技术(北京)有限公司 汉字查询方法和系统
CN105335357B (zh) * 2015-11-18 2018-07-06 成都优译信息技术有限公司 翻译系统中语料推荐方法
US9916448B1 (en) 2016-01-21 2018-03-13 Trend Micro Incorporated Detection of malicious mobile apps
US10169414B2 (en) 2016-04-26 2019-01-01 International Business Machines Corporation Character matching in text processing
US9760627B1 (en) * 2016-05-13 2017-09-12 International Business Machines Corporation Private-public context analysis for natural language content disambiguation
US10375576B1 (en) 2016-09-09 2019-08-06 Trend Micro Incorporated Detection of malware apps that hijack app user interfaces
US10614109B2 (en) * 2017-03-29 2020-04-07 International Business Machines Corporation Natural language processing keyword analysis
US11509794B2 (en) * 2017-04-25 2022-11-22 Hewlett-Packard Development Company, L.P. Machine-learning command interaction
US10831801B2 (en) 2017-05-12 2020-11-10 International Business Machines Corporation Contextual-based high precision search for mail systems
US10387576B2 (en) * 2017-11-30 2019-08-20 International Business Machines Corporation Document preparation with argumentation support from a deep question answering system
CN110111793B (zh) 2018-02-01 2023-07-14 腾讯科技(深圳)有限公司 音频信息的处理方法、装置、存储介质及电子装置
JP7247460B2 (ja) * 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
KR102637340B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 문장 매핑 방법 및 장치
US11250221B2 (en) * 2019-03-14 2022-02-15 Sap Se Learning system for contextual interpretation of Japanese words
US11308096B2 (en) * 2019-03-29 2022-04-19 Rovi Guides, Inc. Bias quotient measurement and debiasing for recommendation engines
JP7238199B2 (ja) 2019-07-04 2023-03-13 キヤノン株式会社 テレコンバータレンズ、レンズ装置、および、撮像装置
JP7171519B2 (ja) 2019-07-04 2022-11-15 キヤノン株式会社 テレコンバータレンズ、レンズ装置、および、撮像装置
US11227101B2 (en) * 2019-07-05 2022-01-18 Open Text Sa Ulc System and method for document translation in a format agnostic document viewer
US11458409B2 (en) * 2020-05-27 2022-10-04 Nvidia Corporation Automatic classification and reporting of inappropriate language in online applications

Family Cites Families (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674112A (en) * 1985-09-06 1987-06-16 Board Of Regents, The University Of Texas System Character pattern recognition and communications apparatus
US4754474A (en) * 1985-10-21 1988-06-28 Feinson Roy W Interpretive tone telecommunication method and apparatus
DE69032576T2 (de) * 1990-02-27 1999-04-15 Oracle Corp Dynamische Optimierung eines einzelnen relationalen Zugriffs
KR950008022B1 (ko) * 1991-06-19 1995-07-24 가부시끼가이샤 히다찌세이사꾸쇼 문자처리방법 및 장치와 문자입력방법 및 장치
RU2039376C1 (ru) 1991-11-01 1995-07-09 Сергей Станиславович Ковалевский Устройство для информационного поиска
US5535119A (en) 1992-06-11 1996-07-09 Hitachi, Ltd. Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same
US5337347A (en) * 1992-06-25 1994-08-09 International Business Machines Corporation Method and system for progressive database search termination and dynamic information presentation utilizing telephone keypad input
US6760695B1 (en) * 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
GB2272091B (en) 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
JP3919237B2 (ja) * 1994-05-20 2007-05-23 キヤノン株式会社 画像記録再生装置、画像再生装置、及びその方法
US5543789A (en) * 1994-06-24 1996-08-06 Shields Enterprises, Inc. Computerized navigation system
AU3734395A (en) * 1994-10-03 1996-04-26 Helfgott & Karas, P.C. A database accessing system
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US5758145A (en) * 1995-02-24 1998-05-26 International Business Machines Corporation Method and apparatus for generating dynamic and hybrid sparse indices for workfiles used in SQL queries
JP3571408B2 (ja) 1995-03-31 2004-09-29 株式会社日立製作所 文書加工方法および装置
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US5701469A (en) 1995-06-07 1997-12-23 Microsoft Corporation Method and system for generating accurate search results using a content-index
AU5969896A (en) * 1995-06-07 1996-12-30 International Language Engineering Corporation Machine assisted translation tools
US5818437A (en) * 1995-07-26 1998-10-06 Tegic Communications, Inc. Reduced keyboard disambiguating computer
CN1154910C (zh) * 1995-07-26 2004-06-23 蒂吉通信系统公司 压缩键盘的明义系统
US5634053A (en) * 1995-08-29 1997-05-27 Hughes Aircraft Company Federated information management (FIM) system and method for providing data site filtering and translation for heterogeneous databases
JP3819959B2 (ja) * 1996-03-27 2006-09-13 シャープ株式会社 音声による情報検索装置
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5778157A (en) * 1996-06-17 1998-07-07 Yy Software Corporation System and method for expert system analysis using quiescent and parallel reasoning and set structured knowledge representation
US5845273A (en) 1996-06-27 1998-12-01 Microsoft Corporation Method and apparatus for integrating multiple indexed files
US5878386A (en) * 1996-06-28 1999-03-02 Microsoft Corporation Natural language parser with dictionary-based part-of-speech probabilities
US5832480A (en) * 1996-07-12 1998-11-03 International Business Machines Corporation Using canonical forms to develop a dictionary of names in a text
US5953073A (en) * 1996-07-29 1999-09-14 International Business Machines Corp. Method for relating indexing information associated with at least two indexing schemes to facilitate the play-back of user-specified digital video data and a video client incorporating the same
US5745894A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Method for generating and searching a range-based index of word-locations
US5987446A (en) * 1996-11-12 1999-11-16 U.S. West, Inc. Searching large collections of text using multiple search engines concurrently
US5953541A (en) * 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
JPH10247201A (ja) * 1997-03-05 1998-09-14 Nippon Telegr & Teleph Corp <Ntt> 情報評価値付き情報案内システム
US6278992B1 (en) * 1997-03-19 2001-08-21 John Andrew Curtis Search engine using indexing method for storing and retrieving data
JP3143079B2 (ja) * 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
US6061718A (en) * 1997-07-23 2000-05-09 Ericsson Inc. Electronic mail delivery system in wired or wireless communications system
US6055528A (en) 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
JP2965010B2 (ja) * 1997-08-30 1999-10-18 日本電気株式会社 関連情報検索方法及び装置並びにプログラムを記録した機械読み取り可能な記録媒体
KR100552085B1 (ko) * 1997-09-25 2006-02-20 테직 커뮤니케이션 인코포레이티드 감소된 키보드 명확화 시스템
US6026411A (en) * 1997-11-06 2000-02-15 International Business Machines Corporation Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors
US6377965B1 (en) * 1997-11-07 2002-04-23 Microsoft Corporation Automatic word completion system for partially entered data
US5945928A (en) * 1998-01-20 1999-08-31 Tegic Communication, Inc. Reduced keyboard disambiguating system for the Korean language
KR100313462B1 (ko) * 1998-01-23 2001-12-31 윤종용 웹검색엔진에서검색된정보를지역적으로근접한순서대로표시하는방법
US6185558B1 (en) * 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US5974121A (en) * 1998-05-14 1999-10-26 Motorola, Inc. Alphanumeric message composing method using telephone keypad
GB2337611A (en) * 1998-05-20 1999-11-24 Sharp Kk Multilingual document retrieval system
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US6470333B1 (en) * 1998-07-24 2002-10-22 Jarg Corporation Knowledge extraction system and method
US6226635B1 (en) * 1998-08-14 2001-05-01 Microsoft Corporation Layered query management
US6370518B1 (en) * 1998-10-05 2002-04-09 Openwave Systems Inc. Method and apparatus for displaying a record from a structured database with minimum keystrokes
US7194679B1 (en) * 1998-10-20 2007-03-20 International Business Machines Corporation Web-based file review system utilizing source and comment files
IE980941A1 (en) * 1998-11-16 2000-05-17 Buy Tel Innovations Ltd A transaction processings system
JP2000163441A (ja) 1998-11-30 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
JP3842913B2 (ja) * 1998-12-18 2006-11-08 富士通株式会社 文字通信方法及び文字通信システム
GB2347247A (en) * 1999-02-22 2000-08-30 Nokia Mobile Phones Ltd Communication terminal with predictive editor
US20020038308A1 (en) * 1999-05-27 2002-03-28 Michael Cappi System and method for creating a virtual data warehouse
US6421662B1 (en) * 1999-06-04 2002-07-16 Oracle Corporation Generating and implementing indexes based on criteria set forth in queries
US6598039B1 (en) 1999-06-08 2003-07-22 Albert-Inc. S.A. Natural language interface for searching database
US20010003184A1 (en) * 1999-07-16 2001-06-07 Ching Jamison K. Methods and articles of manufacture for interfacing, advertising and navigating with internet television
CN1176432C (zh) 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
US6606486B1 (en) * 1999-07-29 2003-08-12 Ericsson Inc. Word entry method for mobile originated short messages
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6453315B1 (en) * 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6353820B1 (en) * 1999-09-29 2002-03-05 Bull Hn Information Systems Inc. Method and system for using dynamically generated code to perform index record retrieval in certain circumstances in a relational database manager
US6484179B1 (en) 1999-10-25 2002-11-19 Oracle Corporation Storing multidimensional data in a relational database management system
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6675165B1 (en) 2000-02-28 2004-01-06 Barpoint.Com, Inc. Method for linking a billboard or signage to information on a global computer network through manual information input or a global positioning system
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7177798B2 (en) * 2000-04-07 2007-02-13 Rensselaer Polytechnic Institute Natural language interface using constrained intermediate dictionary of results
US6564213B1 (en) 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6604101B1 (en) * 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US6714905B1 (en) * 2000-05-02 2004-03-30 Iphrase.Com, Inc. Parsing ambiguous grammar
JP2001325252A (ja) 2000-05-12 2001-11-22 Sony Corp 携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体
US6456234B1 (en) 2000-06-07 2002-09-24 William J. Johnson System and method for proactive content delivery by situation location
JP3686312B2 (ja) * 2000-07-05 2005-08-24 日本電信電話株式会社 訳語検索方法、訳語検索装置及び訳語検索プログラムを記録した記録媒体
US6529903B2 (en) * 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US7136854B2 (en) * 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
WO2002009302A1 (en) 2000-07-25 2002-01-31 Cypus Communication terminal capable for searching internet domain name, system and method for searching internet domain name using the same
US6968179B1 (en) 2000-07-27 2005-11-22 Microsoft Corporation Place specific buddy list services
US20020021311A1 (en) * 2000-08-14 2002-02-21 Approximatch Ltd. Data entry using a reduced keyboard
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
GB2366698A (en) * 2000-09-01 2002-03-13 Nokia Mobile Phones Ltd Insertion of pre-stored text strings
JP2002092018A (ja) 2000-09-18 2002-03-29 Nec Software Hokkaido Ltd 片仮名平仮名も含めた検索システム
CA2323856A1 (en) * 2000-10-18 2002-04-18 602531 British Columbia Ltd. Method, system and media for entering data in a personal computing device
US20060149686A1 (en) * 2000-11-30 2006-07-06 Allison Debonnett Method of payment and settlement of goods and services via the INTERNET
US7028306B2 (en) 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
EP1215659A1 (en) * 2000-12-14 2002-06-19 Nokia Corporation Locally distibuted speech recognition system and method of its operation
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
JP2002215660A (ja) * 2001-01-16 2002-08-02 Mitsubishi Heavy Ind Ltd 検索システム及びこれに用いられるソフトウェア
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
GB0103053D0 (en) * 2001-02-07 2001-03-21 Nokia Mobile Phones Ltd A communication terminal having a predictive text editor application
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
JP2002251410A (ja) 2001-02-26 2002-09-06 Sharp Corp 情報検索装置、情報検索プログラムおよび情報検索プログラムを記録したコンピュータ読取可能な記録媒体
JP3764058B2 (ja) * 2001-03-01 2006-04-05 株式会社東芝 翻訳装置、翻訳方法及び翻訳プログラム
JP3379090B2 (ja) * 2001-03-02 2003-02-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム
US7231381B2 (en) * 2001-03-13 2007-06-12 Microsoft Corporation Media content search engine incorporating text content and user log mining
US8744835B2 (en) * 2001-03-16 2014-06-03 Meaningful Machines Llc Content conversion method and apparatus
US7103534B2 (en) * 2001-03-31 2006-09-05 Microsoft Corporation Machine learning contextual approach to word determination for text input via reduced keypad keys
KR20020084739A (ko) 2001-05-02 2002-11-11 이재원 숫자입력을 이용한 인터넷 검색 및 접속 방법
GB0111012D0 (en) * 2001-05-04 2001-06-27 Nokia Corp A communication terminal having a predictive text editor application
US7366712B2 (en) 2001-05-31 2008-04-29 Intel Corporation Information retrieval center gateway
US6947770B2 (en) * 2001-06-22 2005-09-20 Ericsson, Inc. Convenient dialing of names and numbers from a phone without alpha keypad
US20030035519A1 (en) * 2001-08-15 2003-02-20 Warmus James L. Methods and apparatus for accessing web content from a wireless telephone
JP3895955B2 (ja) * 2001-08-24 2007-03-22 株式会社東芝 情報検索方法および情報検索システム
US20030054830A1 (en) * 2001-09-04 2003-03-20 Zi Corporation Navigation system for mobile communication devices
US6944609B2 (en) * 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
KR100501079B1 (ko) 2001-11-12 2005-07-18 주식회사 아이니드 네트워크 기반의 유사어 검색기술 응용시스템 및 방법
US7533093B2 (en) 2001-11-13 2009-05-12 Koninklijke Philips Electronics N.V. Method and apparatus for evaluating the closeness of items in a recommender of such items
US7149550B2 (en) * 2001-11-27 2006-12-12 Nokia Corporation Communication terminal having a text editor application with a word completion feature
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US7283992B2 (en) * 2001-11-30 2007-10-16 Microsoft Corporation Media agent to suggest contextually related media content
US20030125947A1 (en) * 2002-01-03 2003-07-03 Yudkowsky Michael Allen Network-accessible speaker-dependent voice models of multiple persons
US7565367B2 (en) * 2002-01-15 2009-07-21 Iac Search & Media, Inc. Enhanced popularity ranking
US6952691B2 (en) 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7167831B2 (en) * 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
EP1347362B1 (en) 2002-03-22 2005-05-11 Sony Ericsson Mobile Communications AB Entering text into an electronic communications device
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
JP2004054918A (ja) * 2002-05-30 2004-02-19 Osaka Industrial Promotion Organization 情報処理システム、情報表示装置、コンピュータプログラム、及び記録媒体
US7013154B2 (en) * 2002-06-27 2006-03-14 Motorola, Inc. Mapping text and audio information in text messaging devices and methods therefor
US7103854B2 (en) * 2002-06-27 2006-09-05 Tele Atlas North America, Inc. System and method for associating text and graphical views of map information
US7380724B2 (en) * 2002-07-01 2008-06-03 Sony Ericsson Mobile Communications Ab Entering text into an electronic communication device
US7016895B2 (en) * 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US7386442B2 (en) * 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
EP2154613A1 (en) 2002-07-23 2010-02-17 Research in Motion Limited Systems and methods of building and using custom word lists
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US20040163032A1 (en) 2002-12-17 2004-08-19 Jin Guo Ambiguity resolution for predictive text entry
GB2396529B (en) * 2002-12-20 2005-08-10 Motorola Inc Location-based mobile service provision
EP1584023A1 (en) * 2002-12-27 2005-10-12 Nokia Corporation Predictive text entry and data compression method for a mobile communication terminal
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7369988B1 (en) * 2003-02-24 2008-05-06 Sprint Spectrum L.P. Method and system for voice-enabled text entry
FI116168B (fi) * 2003-03-03 2005-09-30 Flextronics Odm Luxembourg Sa Datan syöttö
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
KR100563787B1 (ko) 2003-04-03 2006-03-30 주식회사 시티기술단 단위 옹벽판넬에 설치된 고강도 철근을 커플러로상호연결하여 단면력에 저항토록하면서, 프리스트레스를도입한 단위 옹벽판넬로 이루어진 옹벽조립체 및 이의조립시공방법
KR100515641B1 (ko) 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US8200865B2 (en) * 2003-09-11 2012-06-12 Eatoni Ergonomics, Inc. Efficient method and apparatus for text entry based on trigger sequences
GB2433002A (en) * 2003-09-25 2007-06-06 Canon Europa Nv Processing of Text Data involving an Ambiguous Keyboard and Method thereof.
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US20050114312A1 (en) * 2003-11-26 2005-05-26 Microsoft Corporation Efficient string searches using numeric keypad
US20050188330A1 (en) * 2004-02-20 2005-08-25 Griffin Jason T. Predictive text input system for a mobile communication device
US7293019B2 (en) 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US8676830B2 (en) 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US7218249B2 (en) 2004-06-08 2007-05-15 Siemens Communications, Inc. Hand-held communication device having navigation key-based predictive text entry
US8595687B2 (en) 2004-06-23 2013-11-26 Broadcom Corporation Method and system for providing text information in an application framework for a wireless device
US8392453B2 (en) 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
WO2006047654A2 (en) * 2004-10-25 2006-05-04 Yuanhua Tang Full text query and search systems and methods of use
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7788266B2 (en) * 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7737999B2 (en) 2005-08-26 2010-06-15 Veveo, Inc. User interface for visual cooperation between text input and display device
US20070061211A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Preventing mobile communication facility click fraud
US9471925B2 (en) * 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US7647228B2 (en) 2005-11-03 2010-01-12 Apptera, Inc. Method and apparatus for speech processing incorporating user intent
JP2007141123A (ja) * 2005-11-22 2007-06-07 Internatl Business Mach Corp <Ibm> 異なるファイルの同一文字列のリンク
US7644054B2 (en) * 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
AU2006318417B2 (en) * 2005-11-23 2012-01-19 Dun And Bradstreet Corporation System and method for searching and matching data having ideogrammatic content
US20070195063A1 (en) * 2006-02-21 2007-08-23 Wagner Paul T Alphanumeric data processing in a telephone
US7657526B2 (en) 2006-03-06 2010-02-02 Veveo, Inc. Methods and systems for selecting and presenting content based on activity level spikes associated with the content
EP3822819A1 (en) 2006-04-20 2021-05-19 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
US7536384B2 (en) * 2006-09-14 2009-05-19 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
KR20100041145A (ko) * 2008-10-13 2010-04-22 삼성전자주식회사 쿼티 키패드를 갖는 휴대 단말기의 발신 방법 및 전화번호 저장 방법
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
US20130304818A1 (en) * 2009-12-01 2013-11-14 Topsy Labs, Inc. Systems and methods for discovery of related terms for social media content collection over social networks

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368557A (zh) * 2020-03-06 2020-07-03 北京字节跳动网络技术有限公司 视频内容的翻译方法、装置、设备及计算机可读介质

Also Published As

Publication number Publication date
KR101242961B1 (ko) 2013-03-12
JP2011090718A (ja) 2011-05-06
EP2043003A3 (en) 2009-06-03
US20040261021A1 (en) 2004-12-23
RU2006114696A (ru) 2007-11-10
EP2388709A1 (en) 2011-11-23
CN1860473A (zh) 2006-11-08
KR20060090689A (ko) 2006-08-14
PL2388709T3 (pl) 2018-12-31
WO2005033967A2 (en) 2005-04-14
US20170351673A1 (en) 2017-12-07
CN102236702B (zh) 2013-08-14
JP2013084306A (ja) 2013-05-09
KR20110117218A (ko) 2011-10-26
KR101261158B1 (ko) 2013-05-09
JP2010282639A (ja) 2010-12-16
JP5425820B2 (ja) 2014-02-26
DE602004020086D1 (de) 2009-04-30
KR20110117219A (ko) 2011-10-26
WO2005033967A3 (en) 2005-10-13
HK1163846A1 (en) 2012-09-14
US20140188454A1 (en) 2014-07-03
KR101140187B1 (ko) 2012-05-02
EP1676211B1 (en) 2009-03-18
US8706747B2 (en) 2014-04-22
JP2007507796A (ja) 2007-03-29
TR201816343T4 (tr) 2018-11-21
JP4717821B2 (ja) 2011-07-06
KR20120039755A (ko) 2012-04-25
RU2363983C2 (ru) 2009-08-10
ES2323786T3 (es) 2009-07-24
JP5608766B2 (ja) 2014-10-15
EP2043003A2 (en) 2009-04-01
JP5231491B2 (ja) 2013-07-10
EP2388709B1 (en) 2018-08-08
EP1676211A2 (en) 2006-07-05
US9734197B2 (en) 2017-08-15
ATE426206T1 (de) 2009-04-15

Similar Documents

Publication Publication Date Title
CN102236702B (zh) 计算机执行的方法和使用查询执行搜索的系统及设备
CN101520786B (zh) 一种输入法词典的实现方法和输入法系统
US8745051B2 (en) Resource locator suggestions from input character sequence
KR101465769B1 (ko) 사전 단어 및 어구 판정
US8959084B2 (en) Identifying locations
US7917355B2 (en) Word detection
WO2019229769A1 (en) An auto-disambiguation bot engine for dynamic corpus selection per query
WO2009000103A1 (en) Word probability determination
KR20070086055A (ko) 표의 문자 및 표음 문자를 갖는 언어들에 대한 자동 완성을위한 시스템 및 방법
CN100422987C (zh) 网络中智能信息处理的方法和系统
EP1221082B1 (en) Use of english phonetics to write non-roman characters
CN110825864A (zh) 一种获取问题答案的方法及装置
Henrich et al. LISGrammarChecker: Language Independent Statistical Grammar Checking
JPH07319909A (ja) 文書検索装置、文書検索方法、文字認識装置及び辞書作成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1163846

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1163846

Country of ref document: HK

C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google Inc.

Address before: American California

Patentee before: GOOGLE Inc.

CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder