CN101868797B - 跨语言搜索 - Google Patents

跨语言搜索 Download PDF

Info

Publication number
CN101868797B
CN101868797B CN2008801170835A CN200880117083A CN101868797B CN 101868797 B CN101868797 B CN 101868797B CN 2008801170835 A CN2008801170835 A CN 2008801170835A CN 200880117083 A CN200880117083 A CN 200880117083A CN 101868797 B CN101868797 B CN 101868797B
Authority
CN
China
Prior art keywords
search
translation
inquiry
relevance score
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008801170835A
Other languages
English (en)
Other versions
CN101868797A (zh
Inventor
莫琳·海曼斯
亚历山德拉·科约乌霍夫
檀慧
沙-梅恩·特赫
秦家豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101868797A publication Critical patent/CN101868797A/zh
Application granted granted Critical
Publication of CN101868797B publication Critical patent/CN101868797B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English

Abstract

在其中可以执行跨语言搜索的方法、系统和装置,包括计算机程序产品。可以检查搜索查询以确定其是否是用于跨语言搜索的候选。在识别候选后,可以使用与搜索查询相关联的翻译的搜索查询来执行搜索。可以将翻译的搜索查询的结果派发给提交搜索查询的客户端设备。

Description

跨语言搜索
交叉引用
根据美国专利法第35号第119条(e)款(35U.S.C.§119(e)),本申请要求于2007年9月21日提交的美国临时申请序列号60/974,332之优先权。
技术领域
本公开涉及跨语言搜索。
背景技术
以某些语言(例如,英语)写的网页的数量可能远大于以其它语言写的网页的数量。这种差异在很大程度上应归于说某些语言的人的数量以及在说那些语言的国家中技术的宽泛可用性。此外,与其它语言的页面相比,这样的页面通常被更好地维护,并且能够提供与许多主题有关的更精确和最新的信息。因此,说在web上未广泛使用的语言的人仍然可能对在其它语言(例如,英语)可用的网页上找到的信息感兴趣。因此,由于相关结果甚至可能不存在于搜索者的语言中,所以搜索以用来提交搜索查询的语言写的网页可能不一定满足搜索者的查询。
例如,在埃及的人有时对与到中东以外的地方旅游、在国外大学学习或了解著名的非埃及的人有关的信息感兴趣。然而,可能没有多少以用来提交查询的语言的即用户的本国语的与这些主题有关的页面。此外,由于页面的作者对这样的主题可能没有充足的访问,所以以用户的本国语的页面可能是相对低质量的。额外地,由于用户不会说另一种语言,所以这样的用户可能不能以另一种语言发出查询。因此,这些用户可能不能找到相关和/或优质内容。
发明内容
总的来说,在本说明书中描述的主题的一个方面可以被实现在包括输入模块、评估模块和输出模块的系统中。输入模块可以接收第一语言的原始搜索查询,原始搜索查询是对与原始搜索相关的文档的请求。评估模块可以接收与来自原始搜索查询的结果相关联的相关性分值的第一集合和与来自第二语言的翻译的搜索查询的结果相关联的相关性分值的第二集合。评估模块可以对相关性分值的第一和第二集合进行比较以确定是原始搜索查询还是翻译的搜索查询产生最相关的结果。输出模块可以基于是原始搜索查询还是翻译的查询具有最相关的结果,向用户提供包括来自原始搜索查询的结果或来自翻译的搜索查询的结果中的一个或两者中的至少部分的搜索结果。本方面的其它实施例包括对应的方法、装置和计算机程序产品。
用于执行跨语言搜索的示例方法可以包括:接收第一语言的原始搜索查询;获取与原始搜索查询相关联的翻译的搜索查询,翻译的搜索查询以第二语言形式;基于与翻译的搜索查询的结果相关联的相关性分值、与翻译相关联的翻译置信分值、或包括与第一或第二语言相关联的实体的搜索查询,评估翻译的搜索查询来确定翻译的搜索查询是否是用于跨语言搜索的候选;以及基于评估的结果来派发搜索结果页面。
将在下面的附图和描述中阐述本说明书中描述的主题的一个或多个实施例的细节。主题的其它特征、方面和优势从描述、附图和权利要求中将变得显而易见。
附图说明
图1A是描述跨语言搜索系统的体系结构的框图。
图1B是图示示例跨语言搜索系统的框图。
图1C是图示查询评估模块的示例实施方式的框图。
图2是图示查询评估模块的框图。
图3是图示另一个示例跨语言搜索系统的框图。
图4-7是图示评估模块的一些实施方式的框图。
图8-10是图示提供跨语言搜索的示例过程的流程图。
在各附图中相同的参考数字和符号指示相同的元素。
具体实施方式
在本说明书的一些实施方式中,实现从客户端设备接收搜索查询并且确定外语的网页是否是对查询的良好匹配的系统和方法。例如,如果在埃及的用户输入关于诸如美式足球的主题的阿拉伯语的查询,则可能没有多少查询语言的为该查询提供相关结果的网页。然而,可能存在其它语言的相关页面。例如,可以将来自先前示例的阿拉伯语的查询翻译成英语的查询,并且与网页的英语索引进行比较。如果在该示例中存在在英语的网页中找到的更相关的结果,则相关页面的列表可以被翻译并且提供给用户。在一些实施方式中,基于用户从相关页面的列表中选择网页,相关网页可以被翻译并且提供给用户。在一些实施方式中,相关结果的列表可以包括翻译的结果和未翻译的结果两者。
图1A是描述跨语言搜索系统100的体系结构的框图。跨语言搜索系统100可以接收第一语言的搜索查询(Q)10a。在一些实施方式中,第一语言(例如,搜索语言)可以基于与客户端设备相关联的输入模式来识别。在其它实施方式中,第一语言可以基于正被访问的特定国家代码顶级域名来识别。例如,加州山景城的谷歌向许多不同的国家提供许多不同的网页,以及国家代码顶级域名可以被用来识别客户端期望接收来自何种语言(或哪些语言)的输入。在这样的示例中,如果用户正在访问“google.ru”国家代码顶级域名,则客户端期望接收俄语的输入。在又一些实施方式中,用户可以使用客户端来指定第一语言。例如,用户可以使用下拉菜单来选择多个所支持的语言中的一个,其中用户意欲以该语言输入搜索查询。
在一些实施方式中,跨语言搜索系统100可以将搜索查询发送到搜索引擎20。搜索引擎20可以接收查询并且识别搜索结果。例如,搜索引擎20可以从文档的索引(例如,从网页的索引)检索相关搜索结果。搜索结果可以包括例如网页标题的列表、从那些网页提取的文本的摘录以及指向那些网页的超文本链接,以及可以被分组成预定数量(例如10)的搜索结果。
在一些实施方式中,搜索引擎20可以将搜索查询(Q)10a解析成组分标志(Q1、Q2、...、Qn)10b。在一些实施方式中,标志是形成查询的单词(或单词组,其中单词组形成单个概念,诸如“New YorkCity”)。组分标志(Q1、Q2、...、Qn)10b可以被用来识别第一语言的与搜索查询(Q)10a相关的网页。在一些实施方式中,相关网页是第一语言的包括多于组分标志(Q1、Q2、...、Qn)10b中的一个的那些网页。这样的网页可以例如在被限制在第一语言的网页的索引30中找到。在一些实施方式中,搜索引擎20可以导出与最相关页面相关联的相关性分值。在又一些实施方式中,搜索引擎20可以导出与如由链接到页面的其它站点的数量测量的网页的质量相关联的页面排名分值。搜索引擎20还可以导出与搜索结果有关的分值(例如,信息检索(IR)分值)。在一些实施方式中,IR分值可以从例如与查询和文档相关性相对应的特征向量的点积、页面排名分值和/或IR分值和页面排名分值的组合等来计算。
在一些实施方式中,跨语言搜索系统100确定组分标志(Q1、Q2、...、Qn)10b中的任何一些是否是本地实体40,并且从跨语言搜索中排除包括本地实体的任何搜索查询(Q)10a。实体是识别人、地方或事物的那些单词或词组。本地实体是与输入查询的语言相关联的那些实体,并且人、地方或事物指示其中主要说该语言的发源地。可以存在其中主要说该语言的发源地的物理指示、发源地的逻辑指示或发源地的历史指示。例如,埃菲尔铁塔位于法国,因此查询“la Tour Eiffel”是关于法语的本地实体。在另一个示例中,大陆军在美国具有发源地的逻辑和历史指示两者,因此其是关于英语的本地实体。在又一些示例中,由于词语“Мосκва”识别位于俄罗斯的城市莫斯科,所以其是关于俄语的本地实体。
这样的实体的列表可以从百科全书、位置服务器、公共归档等导出,或可以从第三方提供。本地实体的列表典型地排除单独的通用词语,即使通用词语是在商标名称中的构成单词。然而,包括通用词语的多单词商标名称可以被包括在本地实体的列表中(例如,“AuburnUniversity(奥本大学)”)。
本地实体的列表还典型地排除包括外来实体。在一个实施方式中,外来实体是对于输入查询的语言不是本地实体的那些实体。在其它实施方式中,外来实体可以是对于另一种语言是本地的实体和那些实体的翻译。实体对于一种语言可以是本地的,而对于另一种语言可以是外来的。例如,标志“Vladimir Putin”定义了俄语的本地实体,而相同的标志将定义英语的外来实体。因此,如果俄罗斯用户将(俄语的)“Vladimir Putin”作为搜索查询20a的一部分输入,则将在俄语的本地实体中找到实体“Vladimir Putin”,并且可以将搜索排除在执行跨语言搜索之外。在另一个示例中,“Мосκва”(例如“莫斯科”)是俄语的本地实体。
在一些实施方式中,包括与本地实体相匹配的标志的搜索查询不适合跨语言搜索,因此搜索可以以用来提交搜索查询的语言提供。例如,如果接收搜索“Al-Qahira”(例如,与埃及实体“Cairo”相互关联),则由于标志“Al-Qahira”与阿拉伯语的本地实体相匹配,所以可以从阿拉伯语的网页的索引提供搜索查询。因此,可以假设与以另一种语言写的网页(例如,翻译的英语搜索查询“Cairo”产生的网页)相比,以阿拉伯语创作的网页与搜索查询更相关。此外,以另一种语言写的网页在翻译后可能很难理解。例如,与以阿拉伯语写的网页相比,被翻译成阿拉伯语的以英语写的网页对于天生说阿拉伯语的人来说可能更难阅读。
在一些实施方式中,可以将组分标志(Q1、Q2、...、Qn)10b与本地实体40进行比较来确定组分标志(Q1、Q2、...、Qn)10b的集合与本地实体40的聚集的任何相交的程度。在组分标志10b和本地实体40的聚集之间相交的程度可以被用来确定是否执行跨语言搜索。
在其它实施方式中,可以将搜索查询的子集(例如,n元)与本地实体40的聚集进行比较。在这样的实施方式中,跨语言搜索系统100可以将搜索查询的子集中的每一个与本地实体40的聚集进行比较以确定包括在搜索查询中的子集中的任何子集是否与来自本地实体60的聚集的本地实体相匹配。例如,如果跨语言搜索系统100接收了搜索查询“vacation homes finger lakes”,则跨语言搜索系统100可以对本地实体40的聚集搜索包括以下任何集合:“vacation”、“vacation homes”、“vacation homes finger”、“vacation homes finger lakes”、“homes”、“homes finger”、“homes finger lakes”、“finger”以及“finger lakes”。在一些实施方式中,如果子部分字符串的第一单词不包含在本地实体40的聚集中的匹配,则跨语言搜索系统100可以停止搜索子部分字符串。在额外的实施方式中,跨语言搜索系统100可以在找到与来自本地实体40的聚集的实体相匹配的子集后中止搜索。例如,如果跨语言搜索系统100接收了查询“Manhattan gourmet restaurants”,则跨语言搜索系统100可能立即找到与来自本地实体40的聚集的本地实体相匹配的词语“Manhattan”。因此,可以认为搜索进一步匹配是不必要的。
在待执行跨语言搜索的那些情况下,跨语言搜索系统100可以将搜索查询(Q)10a发送到翻译器25。翻译器25使用搜索查询(Q)10a来导出第二语言的翻译的搜索查询(Q’)50a。在一些实施方式中,翻译器可以是可操作来接收第一语言的搜索查询(Q)10a并且输出第二语言的翻译的查询(Q’)50a的自动机器翻译器。
翻译的搜索查询(Q’)50a可以由搜索引擎20分成组分标志(Q1’、Q2’、...、Qn’)50b。在一些实施方式中,搜索引擎20或跨语言搜索系统100可以将组分标志(Q1’、Q2’、...、Qn’)50b与外来实体60的聚集进行比较。外来实体60的聚集可以包括与第二语言相关联的那些实体。例如,如果第二语言是俄语,则外来实体可以包括位置(例如,红场、克里姆林宫、莫斯科或西伯利亚)以及人(例如,列宁、斯大林、戈尔巴乔夫或叶利钦)、或与俄语相关联的俄罗斯商标名称、产品和公司。在第二语言的组分标志(Q1’、Q2’、...、Qn’)50b的集合包括与外来实体60的一些相交的那些情况下,翻译的查询(Q’)50a可以被认为是执行跨语言搜索的良好候选。在其它实施方式中,翻译的查询(Q’)可以被分成子集并且与外来实体60的聚集中的实体进行比较以确定包括在搜索查询中的词语是否与外来实体相匹配。
在又一些实施方式中,翻译器可以产生与翻译的搜索查询(Q’)50a相关联的翻译置信分值70。与翻译的查询(Q’)50a相关联的翻译置信分值70可以被用来确定翻译是否可能产生相关结果。在这样的实施方式中,可以将翻译置信70与翻译置信阈值进行比较以确定翻译的查询(Q’)50a是否是用于跨语言搜索的候选。例如,搜索查询(Q)10a可以潜在地具有一百或更多的翻译。更大数量的潜在翻译关于从可能的翻译中选择的翻译的搜索查询(Q’)可以产生更大的不确定性。因此,存在下述的某种可能性:所选择的翻译是不正确的;使用这样的搜索查询生成的任何结果将与原始搜索查询10a不相关。因此,翻译置信分值70不满足翻译置信阈值的翻译的搜索查询(Q’)50a可以被认为是用于执行跨语言搜索的不良候选。
在一些实施方式中,翻译器25基于超过翻译置信阈值的多个翻译可以将多个翻译提供给搜索引擎20。在其它实施方式中,翻译器25可以将单个翻译(例如,翻译的搜索查询(Q’)50a)提供给跨语言搜索系统100,并且跨语言系统可以确定与该翻译的搜索查询(Q’)50a相关联的翻译置信分值是否满足翻译置信阈值。从跨语言搜索排除不满足翻译置信阈值的翻译的搜索查询(Q’)50a。
如果翻译的搜索查询(Q’)满足置信阈值,则可以将翻译的搜索查询(Q’)50a发送给搜索引擎20以搜索与翻译的搜索查询(Q’)50a相关的文档(例如,网页)。搜索引擎20可以使用翻译的搜索查询(Q’)50a的组分标志(Q’1、Q’2、...、Q’n)50b来找寻第二语言的相关网页80。如前所述,搜索引擎20可以向跨语言搜索系统100提供与第二语言的相关网页相关联的IR分值。
在一些实施方式中,可以将与翻译的搜索查询(Q’)50a的结果相关联的相应相关性分值与相关性分值阈值进行比较以确定是否将翻译的网页用作为搜索查询(Q)20a的结果。例如,在一些情况下,翻译的查询(Q’)50a的结果可能具有如此低的相关性分值,使得其不会被派发给搜索者,即使翻译的搜索查询(Q’)50a的结果具有比搜索查询(Q)20a的结果更高的相关性分值。
在一些实施方式中,可以将用于翻译的搜索查询(Q’)50a的结果的相关性分值与用于搜索查询(Q)10a的结果的相关性分值进行比较。可以将更相关的结果作为结果90派发给用户。在翻译的搜索查询(Q’)50a的结果具有比搜索查询(Q)10a的结果的相关性分值更高的相关性分值的那些情况下,第二语言的相关网页可以被翻译成第一语言并且作为结果90派发。在一些实施方式中,基于翻译的网页比以第一语言原始创作的网页更难阅读的可能性,相关性分值可以偏向于喜好来自搜索查询(Q)10a的结果。
在一些实施方式中,翻译的搜索查询的翻译的网页结果可以包括翻译置信分值。在这样的实施方式中,可以将与翻译的网页的翻译相关联的翻译置信分值或质量与翻译置信阈值进行比较以确定是否应当将翻译的网页用作为搜索查询10a的结果90。例如,在一些情况下,可以确定第二语言的相关网页或相关联的部分或摘录的翻译对于搜索者来说几乎是不可阅读的。在这样的示例中,跨语言搜索系统100可能仅派发比本地结果更相关并且满足翻译置信阈值的那些结果。
图1B是图示示例跨语言搜索系统100的框图。在一些实施方式中,系统100可以包括输入模块110、查询评估模块120、实体数据存储130以及输出模块140。输入模块110可以从客户端设备接收搜索查询。在一些实施方式中,输入模块110可以包括提供给例如计算机设备的用户设备的搜索引擎网页代码,其在用户设备上呈现使用户能够输入搜索查询的网页。在其它实施方式中,输入模块110可以包括使系统能够从客户端设备接收查询的通信接口。
在一些实施方式中,查询评估模块120可以从输入模块110接收搜索查询,并且可以评估搜索查询以确定搜索查询是否是用于执行跨语言搜索的候选。在这些实施方式中,查询评估模块120可以过滤搜索查询以识别那些查询:与在以用来输入查询的语言创作的网页上找到的相比,更可能具有来自另一种语言的网页的更相关的结果。
在一些实施方式中,查询评估模块120可以与翻译服务122通信。翻译服务122可以接收第一语言的搜索查询,以及可以将搜索查询翻译成第二语言并且生成与翻译的搜索查询相关联的翻译置信分值。可以将翻译的搜索查询和翻译置信分值提供给查询评估模块120。
在一些实施方式中,来自搜索查询的同与第一语言(例如,搜索查询语言)相关联的实体(例如,本地实体)相匹配的标志可以由查询评估模块120协同实体数据存储130识别。在一些实施方式中,本地实体可以是与对于用来输入搜索查询的语言是本地的区域相关联的专有名词(例如,城市、地方等)。
在其它实施方式中,包括与本地实体相匹配的标志的搜索查询基于第一语言的网页的相关性可以仍然适合跨语言搜索。在这样的实施方式中,在搜索查询包括与本地实体相匹配的标志时,可以将查询的语言的与本地实体相关联的结果与阈值相关性分值进行比较以确定第一语言的结果是否是劣质的。例如,搜索查询可能包括与本地实体相匹配的标志;然而,与该本地实体相关联的语言的网页可能是稀少的。因此,确定另一种语言的网页是否可能具有更相关的结果可以是有用的。
在一些实施方式中,跨语言搜索系统100可以识别何时来自翻译的搜索查询的标志匹配外来实体。外来实体是与除第一语言外的语言相关联的任何实体(例如,“Cairo,Egypt”是英语的外来实体)。在一些示例中,用于第一或第二语言的百科全书可以被用来确定翻译的查询是否是用于跨语言搜索的良好候选。在这些示例中,包括在搜索查询或翻译的搜索查询中的与实体(例如,本地或外来)相匹配的标志可以分别使用与第一语言或第二语言相关联的百科全书网站来识别。在其它示例中,位置服务器可以被用来识别与搜索查询或翻译的搜索查询相关联的位置。
在一些实施方式中,在编辑实体数据存储130时,通用单词可以被识别并且从实体数据存储130移除,即使在单词表示与第一或第二语言相关联的商标或城市的情况下。例如,通用单词是与该语言不具有任何特定关联的那些单词。还使城市或商标与之相关联的通用单词的一个示例是“auburn”。在一些情况下,“auburn”通常是指颜色,在其它情况下,其可以指城市亚拉巴马州奥本或商标“AuburnUniversity”。在另一个示例中,词语“apple”通常可以指水果,而在其它情况下其可以指公司。由于如果用户正试图输入通用词语,而不是城市或商标,则这些单词可以导致不相关的结果,所以从实体数据存储130移除这些单词。
在一些实施方式中,查询评估模块120可以检索与包括在百科全书中的实体有关的历史统计。基于与实体相关联的统计,查询评估模块120可以确定与实体的在先前接收的搜索查询中的包括相关联的频率。例如,实体在搜索查询中出现越频繁,与该实体有关的主题越受欢迎。由于如由用户查询所指示的兴趣通常由来自发布者的兴趣反映,所以更受欢迎的主题更可能具有与主题相关联的相关网页。此外,当不存在关于查询的相关内容时,由于该查询没有产生相关结果,所以该查询可以变得不受欢迎。以阈值频率查询的实体可以被包括在实体数据存储130中,因为可以假设这样的实体具有在相关联的网页方面的相关主题语料库。
在又一些实施方式中,查询评估模块120可以确定搜索查询的翻译的质量。翻译的质量可以被用来确定搜索查询是否是用于跨语言搜索的良好候选。例如,如果翻译是低劣的,例如翻译置信指示该翻译具有为不正确的相对高的可能性,则来自低劣翻译的查询的结果也可能是低劣的,或可能与原始搜索查询完全不相关。各种翻译服务为翻译提供置信分值以确定惯用法最可能涉及哪个单词。在一些实施方式中,翻译服务可以基于与搜索查询中的每一个单词的翻译相关联的置信来为搜索查询的整体翻译提供置信分值。因此,搜索查询可能很难精确翻译,以及置信值或质量值可以被用来过滤使用这样的单词的搜索查询而不被用于跨语言搜索。例如,特定单词可能具有翻译成外语的多个翻译或可能根本不具有翻译。这样的单词很难翻译,并且导致与翻译有关的较低置信分值。
在一些实施方式中,可以测试翻译的搜索查询以确定翻译的搜索查询是否产生相关网页匹配。在这样的实施方式中,查询评估模块120可以将翻译的搜索查询发送到搜索引擎124。搜索引擎124可以使用翻译的搜索查询来识别文档语料库126(例如,第二语言的索引)中的相关文档。所识别的文档和翻译的搜索查询可以被用来导出与翻译的搜索查询的结果相关联的相关性分值。在一些实施方式中,相关性分值可以包括相关性组分和质量组分两者。在接收与从搜索引擎124接收的来自翻译的搜索查询的结果相关联的相关性分值后,查询评估模块120可以将与搜索查询的结果相关联的相关性分值与相关性阈值进行比较以确定翻译的搜索查询是否可能与搜索查询相关。例如,在一些情况下,来自翻译的搜索查询的结果可能如此不相关,使得甚至不向搜索者提供所述结果。
在又一些实施方式中,用户关于与翻译的查询相匹配的先前查询的结果的活动可以被用来确定来自相似查询的结果对于其他用户来说是否是满意的,从而指示相似搜索查询产生了相关结果。例如,搜索引擎124可以在客户端设备请求结果,例如在搜索结果上点击并且到达与该结果相关联的登陆页面时记入日志。如果客户端设备在访问登陆页面后立即返回到搜索页面来输入新的查询,则结果可能是不相关的。相反,如果客户端设备驻留在结果页面中的一个或多个上一段时间,则结果更可能与搜索查询相关。因此,查询评估模块120可以基于使用与翻译的查询相匹配的搜索查询的其他用户的活动,来确定翻译的搜索查询是否可能产生优质结果。
在又一些实施方式中,查询评估模块120可以确定第一语言的搜索查询是否比第二语言的翻译的搜索查询具有更相关的结果。在这样的实施方式中,查询评估模块120可以将搜索查询和翻译的搜索查询两者发送到搜索引擎124。搜索引擎124可以导出与来自原始搜索查询的结果的第一集合相关联的相关性分值的第一集合,以及与来自翻译的搜索查询的结果的第二集合相关联的相关性分值的第二集合。在一些实施方式中,如果如分别由第一和第二相关性分值所指示的,搜索查询产生比来自翻译的搜索查询的结果中的任何结果更好的结果,则可以将来自搜索查询的结果派发给搜索者。替选地,如果如由各自相关性分值所指示的,来自翻译的搜索查询的结果比来自搜索查询的结果更相关,则可以将来自翻译的搜索查询的结果派发给搜索者。这样的比较假设对不同语言的相关性测量跨各个语料库是可公度的。
在一些实施方式中,可以对第二语言的网页(或多个网页)进行翻译以产生该第一语言的网页的翻译版本。例如,可以将第一语言的网页的翻译版本与第一语言的搜索查询进行比较以导出相关性分值。例如,可以将接收的西班牙语的搜索查询翻译成英语。如果与最高排名的西班牙语的网页与西班牙语的查询的相关程度相比,最高排名的英语的网页与翻译的英语查询更相关,则可以将英语网页翻译成西班牙语。在该示例中,在将英语网页翻译成西班牙语后,可以将西班牙语查询与翻译的英语网页进行比较。如果与西班牙语网页与西班牙语查询的相关程度相比,翻译的英语网页与西班牙语查询仍然更相关,则可以将翻译的英语网页作为结果提供。如果与西班牙语网页与西班牙语查询的相关程度相比,翻译的英语网页与西班牙语查询不更相关,则可以将西班牙语网页作为结果提供给搜索者。因此,可以将翻译的搜索页面对于原始查询的相关性分值与以第一语言写的网页对于原始搜索查询的相关性分值进行比较。
在一些实施方式中,基于与相应结果相关联的相关性分值,派发给客户端设备的结果可以包括翻译的网页和以第一语言写的网页两者。例如,如果来自英语查询的结果具有10、9和2的相关性分值,而来自西班牙语查询的结果具有8、8和6的相关性分值,则跨语言搜索系统可以提供来自英语查询的两个最相关的结果,后跟西班牙语查询的结果,并且以来自英语查询的最不相关的结果结束。在其它实施方式中,可以将原始搜索查询的结果的相关性分值聚合来产生第一聚合相关性分值,以及可以将原始搜索查询的相关性分值聚合来产生第二聚合相关性分值。在一些实施方式中,聚合可以包括对相应相关性分值求和来产生第一和第二聚合相关性分值。可以将第一聚合相关性分值与第二聚合相关性分值进行比较以确定是否派发与翻译的搜索查询相关联的结果。
输出模块140可操作来从查询评估模块120接收结果并且将结果派发给客户端设备。在一些实施方式中,输出模块140可以调集包含搜索结果的网页用于传送到客户端设备。在其它实施方式中,输出模块140可以将结果派发到可操作来将结果格式化并传送到客户端设备的另一个模块。
图1C是图示查询评估模块120的示例实施方式的框图。查询评估模块120可以接收第一语言的搜索查询(Q)。查询评估模块120可以将搜索查询(Q)发送给搜索引擎124。搜索引擎124可以基于搜索查询(Q)执行对与第一语言相关联的文档语料库126的搜索以产生搜索结果(RQ)的集合。
查询评估模块120还可以将接收的搜索查询提供给实体过滤器154。实体过滤器154可以将标志(例如,形成单个概念的单词或单词组)与本地实体数据存储156中的实体以及与外来实体数据存储158中的实体进行比较。如果实体过滤器154确定搜索查询(Q)包括与来自本地实体数据存储156的实体相匹配的标志,则查询评估模块120可以确定搜索查询(Q)不适合跨语言搜索。因此,仅向搜索者派发搜索结果(RQ)152的集合。
如果搜索查询(Q)不包括与来自本地实体数据存储156的实体相匹配的标志,则可以将来自搜索查询(Q)的标志与外来实体数据存储158中的外来实体的列表进行比较。如果实体过滤器154确定搜索查询(Q)包括与外来实体相匹配的标志,则查询评估模块120可以如由路径159和163所指示的使用翻译服务122和搜索引擎124来以来自翻译的搜索查询(Q’)162的结果对接收的搜索查询(Q)作出响应,从而避免查询评估过滤器120进一步评估。然而,如果实体过滤器154确定搜索查询(Q)不包括与来自外来实体数据存储158的外来实体相匹配的标志,则实体过滤器154可以确定查询应当经历进一步评估并且指示翻译服务122翻译搜索查询(Q)以产生翻译的搜索查询(Q’)。
虽然本申请描述本地实体的列表从百科全书以及其它参考源导出,并且排除某些通用词语以及对其它语言而言是本地的词语,但是本地实体的列表和外来实体的列表在一些实施方式中可以由另一个系统生成,并且可以被提供给跨语言搜索系统以在确定搜索词语是否包括与来自由这样的其它系统提供的列表的本地或外来实体相匹配的标志时使用。
翻译评估过滤器160可以从翻译服务122接收翻译的搜索查询(Q’)。翻译评估过滤器160还可以从翻译服务122接收翻译置信分值。翻译评估过滤器160可以将来自翻译服务122的翻译置信分值与阈值置信分值进行比较以确定翻译是否是足够高质量来成为用于执行跨语言搜索的良好候选。如果翻译的搜索查询(Q’)满足置信阈值,则翻译评估过滤器160可以将翻译的搜索查询(Q’)传送给搜索引擎124。在一些实施方式中,可以将原始搜索查询的最可能的翻译返回给查询评估模块120,并且可以将与该翻译相关联的翻译置信分值与翻译置信阈值进行比较。在其它实施方式中,可以将超过翻译置信阈值的原始搜索查询的所有翻译返回给查询评估模块120。
搜索引擎124可以基于翻译的搜索查询(Q’)执行对与第二语言相关联的文档语料库126的搜索以产生第二语言的搜索结果(RQ’)162的集合。搜索引擎124可以将翻译的搜索查询(Q’)的结果(RQ’)162提供给相关性结果过滤器164。搜索引擎124还可以将与翻译的搜索查询(Q’)的结果(RQ’)162相关联的相关性分值(例如,IR分值)提供给相关性结果过滤器164。
相关性结果过滤器164可以确定翻译的搜索查询(Q’)的结果(RQ’)162是否相关得足以被派发给搜索者。相关性结果过滤器164可以将翻译的搜索查询(Q’)的结果(RQ’)162与阈值相关性进行比较以确保翻译的搜索查询(Q’)的结果(RQ’)162相关得足以被派发给搜索者。在其它示例中,相关性结果过滤器164可以检索与翻译的搜索查询(Q’)相关联的统计并且基于与结果(RQ’)162相关联的点击分析来确定结果的相关性。在确定结果(RQ’)162不满足阈值相关性的那些情况下,仅向搜索者派发原始查询(Q)的结果(RQ)152。如果确定翻译的搜索查询(Q’)的结果(RQ’)162满足阈值相关性,则将翻译的搜索查询(Q’)的结果(RQ’)162提供给相关性比较过滤器168。
相关性比较过滤器168可以接收原始搜索查询(Q)的结果(RQ)152和翻译的搜索查询(Q’)的结果(RQ’)162。相关性比较过滤器168还可以接收原始搜索查询(Q)的结果(RQ)152的第一相关性分值(例如,IR分值)和翻译的搜索查询(Q’)的结果(RQ’)162的第二相关性分值。相关性比较过滤器168可以比较第一和第二相关性分值以确定是否派发原始搜索查询的结果(RQ)152和/或翻译的搜索查询的结果(RQ’)162。例如,如果翻译的搜索查询(Q’)的结果(RQ’)162具有比原始搜索查询的结果(RQ)152更高的聚合相关性分值,则可以将翻译的搜索查询的结果(RQ’)162作为搜索结果170提供给搜索者。否则,将原始搜索查询的结果(RQ)152作为搜索结果170派发给用户。也可以使用基于相关性的其它派发方案。
可以以各种方式将搜索结果170派发给客户端。在一些实施方式中,如果查询评估模块120执行了跨语言搜索,则搜索结果170可以包括指向由查询评估模块120识别的替选结果页面(例如,包括翻译的网页结果)的链接。在其它实施方式中,搜索结果170可以包括由查询评估模块120识别的结果的聚合。例如,搜索结果170可以包括原始搜索查询(Q)的结果(RQ)152和翻译的搜索查询(Q’)的结果(RQ’)162两者。在又其它实施方式中,搜索结果170可以包括分割的结果176。例如,搜索结果170可以仅包括原始搜索查询的结果(RQ)152或翻译的搜索查询的结果(RQ’)162、或指向来自展示另一个的页面的结果的一个集合的链接。在又一些实施方式中,搜索结果170可以包括翻译的结果178。例如,如果搜索结果170包括翻译的查询的结果(RQ’)162,则结果(RQ’)可以在向搜索者展示之前被翻译。
图2是图示查询评估模块120的框图。在一些实施方式中,查询评估模块120可以包括本地实体过滤器210。本地实体过滤器210可以确定搜索查询是否与本地实体有关。本地实体过滤器210可以将包括在搜索查询中的标志与本地实体数据存储130a进行比较以确定搜索查询是否与本地实体有关(例如,包括与本地实体相匹配的标志)。在搜索查询与本地实体有关的那些情况下,可能的是,来自以第一语言写的网页的结果将与搜索查询相关。在这样的情况下,查询评估模块120可以从跨语言搜索排除该搜索查询。
在一些实施方式中,查询评估模块120可以包括外来实体过滤器220。外来实体过滤器220可以确定搜索查询或翻译的搜索查询是否与外来实体有关(例如,包括与外来实体相匹配的标志)。在一些实施方式中,外来实体过滤器220可以包括外来实体的数据库,可以将与搜索查询或翻译的查询相关联的标志与该外来实体的数据库进行比较。在搜索查询与外来实体有关(例如,包括与外来实体相匹配的标志)的那些情况下,可能的是,来自以第二语言写的网页的结果将与搜索查询相关。在这样的情况下,查询评估模块120可以基于来自与原始搜索查询相关联的翻译的搜索查询的搜索引擎结果124来派发搜索结果。
在一些示例中,本地实体数据存储130a和外来实体数据存储130b可以被编辑来包括分别与第一语言(例如,查询语言)或第二语言(例如,翻译的查询语言)相关联的专有名词。例如,本地实体和外来实体可以包括在相应语言中使用的商标名称、与语言相关联的位置、名人、电视节目、产品等。可以假设这样的实体在其相应语言中具有比这样的实体在另一种语言中具有更好的结果。在一些实施方式中,例如可以使用百科全书(例如,电子百科全书)和/或诸如用来提供地图的那些的位置服务器,来编辑本地实体数据存储130a和外来实体数据存储130b。在一些实施方式中,可以从本地实体数据存储130a和/或外来实体数据存储130b移除对于用来提交查询的语言而言是本地的通用词语和/或位置。
在一些实施方式中,可以将包括在数据库中的外来和本地实体与查询统计(例如,实体先前被查询过多少次)进行比较以确保来自百科全书的每一个外来或本地实体应当被包括在实体的列表中。例如,基于如果没有搜索者对实体感兴趣,则同样极少有发布者对该实体感兴趣的暗示,在许多先前查询中没有出现的实体可能不会致使找到相关网页。替选地,实体在许多先前查询中没有出现的事实可以是对该实体是拼写或语法错误并且应当从考虑中排除的指示。
在一些实施方式中,可以将查询评估模块120耦接到翻译服务122。在一些示例中,翻译服务122可以接收搜索查询并且翻译搜索查询以产生翻译的搜索查询。在一些实施方式中,翻译服务122还可以产生与翻译的查询相关联的置信值。例如,置信值可以提供与搜索查询的翻译相关联的置信。
在一些实施方式中,查询评估模块120可以包括翻译质量过滤器230。翻译质量过滤器230可以确定翻译的搜索查询是否被精确翻译的可能性。例如,如果第一语言(例如,查询语言)的单词具有第二语言的许多翻译,则可能很难确定多个单词中的哪个是在翻译中使用的适当单词。与单词相关联的潜在翻译越多,所选择的翻译是正确的可能越小。因此,在翻译的web查询不满足置信/质量阈值的那些情况下,翻译质量过滤器230可以确定从翻译服务122接收的翻译的搜索查询不会产生关于原始查询的相关结果。在这样的情况下,查询评估模块120可以将翻译的搜索查询排除于适合跨语言搜索之外,并且派发原始搜索查询的结果。
在一些实施方式中,查询评估模块120可以包括阈值相关性过滤器240。阈值相关性过滤器240可以将翻译的搜索查询发送给搜索引擎124。搜索引擎可以从文档语料库126识别相关网页,并且提供相关网页和与相关网页相关联的相关性分值。阈值相关性过滤器240可以将从搜索引擎124接收的与翻译的搜索查询相关联的结果的相关性分值与阈值相关性分值进行比较以确定翻译的搜索查询是否产生相关得足以向用户派发的结果。例如,用户可以输入德语搜索查询。可以翻译该德语搜索查询以产生英语搜索查询。英语搜索查询可以被用来基于与英语网页中的每一个相关联的相关性分值,识别与英语搜索查询有关的英语网页。可以将英语网页的相关性分值与阈值相关性分值进行比较以确定英语网页是否相关得足以向搜索者返回。例如,如果英语页面相对不相关,则不会翻译英语页面来作为德语搜索查询的结果展示。在与英语网页相关联的相关性分值不满足阈值相关性分值的那些情况下,可以将产生自德语搜索查询的德语网页派发给搜索者。
在一些实施方式中,查询评估模块120可以包括相关性比较过滤器250。相关性比较过滤器250将原始搜索查询和翻译的查询传送给搜索引擎124。搜索引擎124可以从文档语料库126识别相关网页,并且提供针对搜索查询和翻译的搜索查询的相关网页。搜索引擎124还可以提供与原始搜索查询的相关网页相关联的第一相关性分值和与翻译的搜索查询的相关网页相关联的第二相关性分值。在一些实施方式中,相关性比较过滤器250可以将第一相关性分值与第二相关性分值进行比较。如果第二相关性分值高于第一相关性分值,则可以使用翻译的搜索查询。否则,可以使用原始搜索查询。在一些实施方式中,可以不考虑与来自翻译的搜索查询的结果相关联的第二相关性分值。例如,可以将英语的网页翻译成德语,但是其可能很难阅读。因此,在这些实施方式中,可以在比较时考虑与翻译的网页相关联的可读性因素,因而喜好提交搜索查询的语言的网页。
在一些实施方式中,诸如图2中所示,对于适合跨语言搜索的搜索查询,必须满足过滤器中的每一个。在其它实施方式中,对于适合跨语言搜索的搜索查询,可以满足过滤器中的任何过滤器。
也可以使用除图1A-C和2的实施方式外的其它实施方式来帮助跨语言搜索。例如,图3-7概述其中只有单个过滤器可以被包括在查询评估模块中的不同的实施方式。也可以使用过滤器的任何子集的组合。
图3是图示另一个示例跨语言搜索系统300的框图。在图3的实施方式中,实体数据库340、350可以由远离跨语言搜索系统300的系统提供。跨语言搜索系统300可以包括输入模块310。输入模块310可以可操作来接收搜索查询。在一些实施方式中,输入模块310可以从客户端设备接收搜索查询。在其它实施方式中,输入模块310可以通过搜索引擎接口接收搜索查询。
跨语言搜索系统300与翻译服务320通信。翻译服务320可以从输入模块310接收搜索查询。在一些实施方式中,翻译服务320可以翻译来自第一语言的搜索查询以产生第二语言的翻译搜索查询。在一些实施方式中,翻译模块可以翻译搜索查询以产生可以被用来执行跨语言搜索的多个翻译的搜索查询。在一些实施方式中,翻译模块320还可以产生与翻译相关联的翻译置信分值。翻译置信分值可以识别与翻译的搜索查询相关联的置信。
在一些实施方式中,跨语言搜索系统可以包括查询评估模块330。查询评估模块330可以评估搜索查询以确定搜索查询是否是用于执行跨语言搜索的候选。在一些实施方式中,查询评估模块可以识别在翻译成语言时会产生相关结果的那些查询。例如,查询评估模块330可以将与翻译相关联的置信分值与阈值置信分值进行比较。在这样的示例中,由于翻译置信分值低于阈值的翻译的搜索查询可能不会产生相关结果,所以查询评估模块330可以从跨语言搜索排除具有低于阈值的置信分值的翻译的搜索查询。
在其它示例中,查询评估模块330可以确定翻译的搜索查询是否与对于与翻译的搜索查询相关联的语言是本地的实体相关联。在这样的示例中,用户可能输入“Al Qahira”,以及查询评估模块可以确定“Al Qahira”是阿拉伯语的本地实体。因此,查询评估模块可以确定阿拉伯语的结果可能比来自英语网页的结果与搜索查询更相关。
在又一些示例中,查询评估模块330可以确定来自翻译的搜索查询的结果是否满足最小相关性阈值。在这样的示例中,查询评估模块330可以将翻译的搜索查询传送给搜索服务360。搜索服务360可以向查询评估模块330提供与翻译的搜索查询相关的结果和与来自翻译的搜索查询的结果相关联的相关性分值。
在一些示例中,查询评估模块330可以将原始搜索查询和翻译的搜索查询传送给搜索服务360。搜索服务360可以将与原始搜索查询相关的结果的第一集合和与翻译的搜索查询相关的结果的第二集合提供给查询评估模块360。搜索服务360还可以提供与结果的第一集合相关联的第一相关性分值和与结果的第二集合相关联的第二相关性分值。查询评估模块可以确定第一相关性分值是否高于第二相关性分值。在一些实施方式中,可以相似地计算第一相关性分值和第二相关性分值,使得来自不同语言的相似相对结果的分值是可比较的。在其它实施方式中,第一相关性分值或第二相关性分值可以经历到统一相关性标度的变换。
图4是图示查询评估模块330a的实施方式的框图。在一些实施方式中,查询评估模块330a可以包括本地实体过滤器模块410,其可操作来确定原始搜索查询是否与对于原始搜索查询的语言是本地的实体有关。在这些实施方式中,本地实体过滤器模块410可以确定包括在原始搜索查询中的标志中的任何标志是否与包括在本地实体数据存储340中的任何实体相匹配。如果搜索查询的标志中的一个或多个对于原始搜索查询的语言是本地的,则查询评估模块可以将原始搜索查询(和/或来自原始搜索查询的结果)发送给输出模块(例如,图3的输出模块370)。
替选地,在一些实施方式中,如果原始搜索查询的标志对于原始搜索查询的语言不是本地的,则查询评估模块可以包括外来实体过滤器模块430。外来实体过滤器模块430可以确定搜索查询是否与外来实体(例如,对于原始搜索查询的语言是外来的实体)有关。例如,如果搜索者输入了阿拉伯语的“Yankee Stadium”的等价物,则可以假设来自英语网页的结果比来自阿拉伯语网页的结果与搜索查询更相关。在这些实施方式中,外来实体过滤器模块430可以识别包括在搜索查询中的标志中的任何标志是否与包括在外来实体数据存储350中的实体中的任何实体相匹配。在一些实施方式中,如果搜索查询不与包括在外来实体数据库440中的外来实体中的任何外来实体有关,则可以将原始搜索查询传送给输出模块(例如,图3的输出模块370)。在其它实施方式中,如果搜索查询不与本地实体340中的任何本地实体有关并且搜索查询不与外来实体350中的任何外来实体有关,则查询评估模块330可以执行对搜索查询和/或翻译的搜索查询的进一步评估。
在一些实施方式中,在搜索查询与外来实体350中的一个相关联时,查询评估模块330a可以包括查询频率模块450,其可操作来确定翻译的搜索查询是否使用频繁得足以可能产生相关结果。例如,如果翻译的搜索查询不以某一频率被使用,则可能搜索者或发布者对主题没有什么兴趣。因此,可能不存在许多与翻译的搜索查询相关的网页,以及翻译的搜索查询不可能产生比原始搜索查询更好的结果。在一些实施方式中,查询频率模块450可以基于从搜索服务360检索的查询统计来导出搜索查询的受欢迎度。查询统计可以包括搜索查询由客户端先前发出的次数。如果与翻译的搜索查询相关联的查询统计满足阈值频率,则可以将翻译的搜索查询发送给输出模块(例如,图3的输出模块370)。如果与翻译的搜索查询相关联的查询统计不满足阈值频率,则可以将原始搜索查询发送给输出模块。在其它实施方式中,如果查询频率模块450没有找到阈值频率,则查询评估模块330a可以执行对搜索查询和/或翻译的搜索查询的进一步评估。
图5是图示另一个查询评估模块330b的实施方式的框图。在一些实施方式中,查询评估模块330b可以包括翻译评估模块510。翻译评估模块510可以从翻译服务320接收与翻译的搜索查询相关联的置信分值。翻译服务320可以基于与翻译相关联的置信来导出翻译置信分值。置信可以基于翻译是正确的可能性,例如,基于可用于搜索查询的替选翻译的数量。
在一些实施方式中,翻译评估模块510可以将与翻译的搜索查询相关联的置信分值与阈值置信分值进行比较。在这样的实施方式中,阈值置信分值可以识别与可能产生相关结果的翻译的搜索查询相关联的最小置信。如果翻译置信分值低于阈值置信分值,则可以将原始搜索查询发送给输出模块(例如,图3的输出模块370)。否则可以将翻译的搜索查询发送给输出模块。
图6是图示另一个查询评估模块330c的实施方式的框图。在一些实施方式中,查询评估模块330c可以包括相关性模块610,其可操作来将翻译的搜索查询传送给搜索引擎360。搜索引擎360可以导出与识别与翻译的搜索查询相关的网页的结果相关联的相关性分值并且将结果的相关性分值提供给相关性模块610。
在一些实施方式中,查询评估模块330c可以包括比较模块620,其可操作来将通过相关性模块610从搜索引擎360接收的相关性分值与阈值相关性分值进行比较。阈值相关性分值可以是对可能产生搜索者感兴趣的结果的翻译的搜索查询的最小相关性的测量。如果与翻译的查询相关联的相关性分值低于阈值相关性分值,则查询评估模块330c可以将原始搜索查询发送给输出模块(例如,图3的输出模块370)。替选地,如果与翻译的搜索查询的相关联的相关性分值高于阈值相关性分值,则查询评估模块330c可以将翻译的搜索查询发送给输出模块。
图7是图示另一个查询评估模块330d的实施方式的框图。在一些实施方式中,查询评估模块330d可以包括第一相关性模块710和第二相关性模块720。第一相关性模块710可以将原始搜索查询发送给搜索服务360。搜索服务360可以识别与原始搜索查询相关联的相关性分值的第一集合并且将相关性分值的第一集合和包括第一语言的相关网页的结果的第一集合提供给第一相关性模块710。
第二相关性模块720可以将翻译的搜索查询传送给搜索服务360。搜索服务360可以识别与翻译的搜索查询相关联的相关性分值的第二集合。搜索服务360可以将相关性分值的第二集合和包括第二语言的相关网页的结果的第二集合提供给第二相关性模块720。
在一些实施方式中,查询评估模块330d可以包括比较模块730。比较模块730可以比较相关性分值的第一集合和第二相关性分值以确定是原始搜索查询还是翻译的搜索查询产生更相关的搜索结果。在一些实施方式中,如果第一相关性分值高于第二相关性分值,则可以将与原始搜索查询相关联的结果的第一集合发送给输出模块(例如,图3的输出模块370)。如果第二相关性分值高于第一相关性分值,则可以将与翻译的搜索查询相关联的结果的第二集合发送给输出模块。在一些实施方式中,如果第二相关性分值不显著高于第一相关性分值,则比较模块可以偏向于选择与原始搜索查询相关联的结果。
在一些实施方式中,关于图4-7公开的查询评估模块330a-d的实施方式中的任何实施方式可以与其它查询评估模块330a-d中的任何一个或多个组合。
图8是图示提供跨语言搜索的示例过程800的流程图。过程800接收搜索查询(805)。搜索查询可以例如由输入模块(例如,图1B的输入模块110)接收。在一些实施方式中,搜索查询可以从搜索引擎接收。例如,跨语言搜索系统可以是可操作来通过应用编程接口(API)接收搜索查询的外接式组件或第三方搜索组件。在其它实施方式中,跨语言搜索系统可以被集成到搜索引擎中,使得输入模块为搜索引擎接口网页。在又一些实施方式中,输入模块可以包括在客户端设备上操作的客户端软件组件,其可操作来截取搜索查询。
过程获取翻译的搜索查询(810)。翻译的搜索查询可以例如由查询评估模块(例如,图1B的查询评估模块120)从翻译服务(例如,图1B的翻译服务122)获取。在一些实施方式中,翻译服务可以产生翻译的搜索查询和与翻译的搜索查询相关联的置信分值。置信分值可以指示翻译是正确的置信。
过程将搜索查询和翻译的搜索查询传送给搜索引擎(815)。搜索查询和翻译的搜索查询可以例如由查询评估模块(例如,图1B的查询评估模块120)传送给搜索引擎。在一些实施方式中,翻译的搜索查询可以包括原始搜索查询的多个翻译,其中每一个是原始搜索查询的不同翻译(例如,同一语言或不同语言的)。
过程接收结果和相关性分值(820)。结果和相关性分值可以例如由查询评估模块(例如,图1B的查询评估模块120)从搜索引擎(例如,图1B的搜索引擎124)接收。结果和相关性分值可以包括与原始搜索查询相关联的结果的第一集合和相关性分值的第一集合。结果和相关性分值还可以包括与翻译的搜索查询相关联的结果的第二集合和相关性分值的第二集合。
过程评估来自搜索查询和翻译的搜索查询的结果和相关性分值(825)。结果和相关性分值可以例如由查询评估模块(例如,图1B的查询评估模块120)评估。在一些实施方式中,可以将搜索查询与本地和外来实体的列表进行比较、可以使用置信分值来测试翻译质量、可以针对最小相关性阈值测试翻译的搜索查询结果的相关性分值、和/或可以基于分别与查询的结果相关联的第一和第二相关性分值将原始搜索查询结果与来自翻译的搜索查询的结果进行比较。
过程基于评估的结果来派发结果(830)。结果可以例如由输出模块(例如,图1B的输出模块140)派发。在一些实施方式中,结果可以包括来自原始搜索查询和/或翻译的搜索查询的结果。在其它实施方式中,结果可以包括与原始搜索查询或与翻译的搜索查询最相关的网页的列表。
图9是图示提供跨语言搜索的示例过程900的流程图。过程接收搜索查询(905)。搜索查询可以例如由输入模块(例如,图1B的输入模块110)接收。在一些实施方式中,搜索查询可以从搜索引擎接口接收。例如,跨语言搜索系统可以是可操作来从搜索引擎接口接收搜索查询的外接式组件或第三方搜索组件。在其它实施方式中,跨语言搜索系统可以被集成到搜索引擎中,使得输入模块为搜索引擎接口网页。在又一些实施方式中,输入模块可以包括在客户端设备上操作的客户端软件组件,其可操作来截取搜索查询。
过程获取翻译的搜索查询(910)。翻译的搜索查询可以例如由查询评估模块(例如,图1B的查询评估模块120)从翻译服务(例如,图1B的翻译服务122)获取。在一些实施方式中,翻译服务可以产生翻译的搜索查询和与翻译的搜索查询相关联的置信分值。置信分值可以指示翻译是正确的置信。
过程获取来自原始搜索查询和翻译的搜索查询的结果的相关性分值(915)。对于原始搜索查询和翻译的搜索查询结果的相关性分值可以例如由查询评估模块(例如,图1B的查询评估模块120)从搜索引擎(例如,图1B的搜索引擎124)获取。在一些实施方式中,可以将原始搜索查询和翻译的搜索查询传送给搜索引擎。搜索引擎可以提供与原始搜索查询相关联的结果的第一集合和相关性分值的第一集合,以及与翻译的搜索查询相关联的结果的第二集合和相关性分值的第二集合。
过程可以比较搜索查询和翻译的搜索查询的结果(920)。搜索查询和翻译的搜索查询的结果可以例如由查询评估模块(例如,图1B的查询评估模块120)比较。在一些实施方式中,比较原始搜索查询和翻译的搜索查询的结果可以包括将相关性分值的第一集合与相关性分值的第二集合进行比较。在一些实施方式中,可以比较相关性分值的第一集合与相关性分值的第二集合以基于如由相应的相关性分值所指示的哪个搜索查询具有更相关的结果来确定是使用原始搜索查询还是翻译的搜索查询。
如果过程确定原始搜索查询产生更相关的结果,则过程派发原始搜索查询的结果(925)。原始搜索查询结果可以例如由输出模块(例如,图1B的输出模块140)协同查询评估模块(例如,图1B的查询评估模块120)来派发。在一些实施方式中,可以将搜索查询的结果派发给提交该搜索查询的客户端设备。
如果过程确定翻译的搜索查询产生更相关的结果,则过程派发翻译的搜索查询的结果(930)。翻译的搜索查询结果可以例如由输出模块(例如,图1B的输出模块140)协同查询评估模块(例如,图1B的查询评估模块120)来派发。在一些实施方式中,可以将翻译的搜索查询的结果派发给提交搜索查询的客户端设备。
图10是图示提供跨语言搜索的另一个示例方法的流程图。过程接收搜索查询(1005)。搜索查询可以例如由输入模块(例如,图1B的输入模块110)接收。在一些实施方式中,搜索查询可以从搜索引擎接口接收。例如,跨语言搜索系统可以是可操作来从搜索引擎接口接收搜索查询的外接式组件或第三方搜索组件。在其它实施方式中,跨语言搜索系统可以被集成到搜索引擎中,使得输入模块为搜索引擎接口网页。在又一些实施方式中,输入模块可以包括在客户端设备上操作的客户端软件组件,其可操作来截取搜索查询。
过程获取翻译的搜索查询(1010)。翻译的搜索查询可以例如由查询评估模块(例如,图1B的查询评估模块120)从翻译模块(例如,图1B的翻译服务122)获取。在一些实施方式中,翻译服务可以提供翻译的搜索查询和与翻译的搜索查询相关联的置信分值。置信分值可以指示翻译是正确的置信。
过程获取来自翻译的搜索查询的结果(1015)。翻译的搜索查询结果可以例如由查询评估模块(例如,图1B的查询评估模块120)获取。在一些实施方式中,可以将翻译的搜索查询传送给搜索引擎(例如,图1B的搜索引擎124)。搜索引擎可以识别与翻译的搜索查询相关的网页的集合以及与相关网页的集合相关联的相关性分值的集合。搜索引擎可以将结果(例如,相关网页和相关联的相关性分值)提供给查询评估模块。
过程确定翻译的搜索查询的结果是否是令人满意的(1020)。对翻译的搜索查询结果是否是令人满意的确定例如可以由查询评估模块(例如,图1B的查询评估模块120)执行。在一些实施方式中,对来自翻译的搜索查询的结果是否是令人满意的确定可以基于相关性分值的集合(例如,单个地或聚合地)满足最小相关性分值阈值、与翻译的搜索查询相关联的结果的相关性分值好于与原始搜索查询相关联的结果的相关性分值、与翻译的搜索查询相关联的翻译置信分值满足最小置信阈值、或来自搜索查询或翻译的搜索查询的标志与来自实体数据存储的实体相匹配。
如果过程确定翻译的搜索查询的结果不是令人满意的,则过程派发原始搜索查询的结果(1025)。原始搜索查询的结果可以例如由查询评估模块(例如,图1B的查询评估模块120)协同输出模块(例如,图1B的输出模块140)来派发。在一些实施方式中,可以将搜索查询的结果派发给提交该搜索查询的客户端设备。
如果过程确定翻译的搜索查询的结果是令人满意的,则过程派发翻译的搜索查询的结果(1030)。翻译的搜索查询的结果可以例如由查询评估模块(例如,图1B的查询评估模块120)协同输出模块(例如,图1B的输出模块140)来派发。在一些实施方式中,可以将翻译的搜索查询的结果派发给提交搜索查询的客户端设备。
在本说明书中描述的主题和功能性操作的实施例可以在数字电子电路,或者在计算机软件、固件或硬件,包括在本说明书中公开的结构以及其结构等价物,或者在以上的一个或多个的组合中实现。可以将在本说明书中描述的主题的实施例实现为一个或多个计算机程序产品,即编码在有形的程序载体上的、由数据处理装置执行或控制数据处理装置的操作的计算机程序指令的一个或多个模块。有形的程序载体可以是传播信号或计算机可读介质。传播信号是非自然生成的信号,例如机器生成的电的、光学或电磁的信号,其被生成以编码用于传输到适当接收器装置的信息以供计算机执行。计算机可读介质可以是机器可读存储设备、机器可读存储基片、存储器设备、形成机器可读传播信号的物质成分或以上的一个或多个的组合。
术语“数据处理装置”包含用于处理数据的所有装置、设备以及机器,包括例如可编程处理器、计算机或多个处理器或计算机。除硬件外所述装置可以包括创建用于讨论中的计算机程序的执行环境的代码,例如构成处理器固件、协议堆栈、数据库管理系统、操作系统或以上一个或多个的组合的代码。
计算机程序(也称作程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写,所述编程语言包括编译或解释语言,或者说明性或过程性语言,并且其可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序或适于在计算环境中使用的其它单元。计算机程序没有必要对应于文件系统中的文件。程序可以被存储在保持其它程序或数据的文件(例如,存储在标记语言文档中的一个或多个脚本)的一部分、专用于讨论中的程序的单个文件或者多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以被部署为在一个计算机上或者在位于一个地点或跨多个地点分布并且由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行以通过操作输入数据并生成输出来执行功能。过程和逻辑流还可以通过专用逻辑电路执行,以及装置还可以被实现为专用逻辑电路,专用逻辑电路例如FPGA(场可编程门阵列)或ASIC(专用集成电路)。
适于执行计算机程序的处理器包括例如通用和专用微处理器两者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的主要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还包括用于存储数据的一个或多个海量存储设备,例如磁盘、磁光盘或光盘,或可操作地耦接到所述一个或多个海量存储设备以从其接收数据或向其传送数据,或者两者。然而,计算机不必具有这样的设备。此外,计算机能够被嵌入另一个设备中,所述设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器,仅列出一些。
适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒体和存储器设备,例如包括:半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或活动盘;磁光盘;以及CD ROM和DVD ROM盘。处理器和存储器可以由专用逻辑电路补充,或合并入专用逻辑电路。
为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有下述的计算机上实现:用于向用户显示信息的显示设备,例如CRT(阴极射线管)或LCD(液晶显示)监视器,以及用户通过其可以向计算机提供输入的键盘和指示设备,例如鼠标或跟踪球。也可以使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感知反馈,例如视觉反馈、听觉反馈或触觉反馈;以及可以以任何形式,包括声学的、话语或触觉的输入,接收来自用户的输入。
本说明书中描述的主题的实施例可以在包括例如作为数据服务器的后端组件、或包括例如应用服务器的中间件组件、或包括例如具有用户通过其可以与在本说明书中描述的主题的实施方式交互的图形用户界面或Web浏览器的客户端计算机的前端组件、或者一个或多个这样的后端、中间件或前端组件的任何组合的计算系统中实现。系统的组件可以通过例如通信网络的任何形式或介质的数字数据通信互连。通信网络的示例包括局域网(″LAN″)和例如因特网的广域网(″WAN″)。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系依靠在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。
虽然本说明书包含许多具体实施方式细节,但是这些细节不应当被解释为对任何发明或者所主张的内容的范围的限定,而应当被解释为针对特定发明的特定实施例的特征的描述。在本说明书中在分离的实施例的语境中描述的某些特征也可以在以单个实施例的组合中实现。相反地,在单个实施例的语境中描述的各种特征也可以分离地在多个实施例中实现或者在任何适当的子组合中实现。此外,尽管特征可能在上面被描述为在某些组合中起作用,甚至最初主张如此,但是来自所主张的组合的一个或多个特征在一些情况下可以从组合中删去,并且所主张的组合可以指向子组合或者子组合的变体。
类似地,虽然在附图中以特定顺序描述了操作,但是不应当理解为需要这样的操作以所示的特定顺序被执行或者以连续顺序被执行、或者需要全部图示的操作均被执行才能实现所期望的结果。在某些环境中,多任务以及并行处理可以是有利的。此外,在如上所述实施例中的各种系统组件的分离不应当被理解为在全部实施例中均需要这样的分离,而应当理解的是,描述的程序组件和系统通常可以被集成到一起成为单个软件产品或封装为多个软件产品。
已描述了本说明书中描述的主题的特定实施例。其它实施例在所附权利要求的范围内。例如,权利要求中记载的行为可以以不同的顺序来执行并且仍然实现所期望的结果。作为一个示例,在附图中描述的过程不必需要所示出的特定顺序或者连续顺序才能实现所期望的结果。在某些实施方式中,多任务以及并行处理可以是有利的。

Claims (11)

1.一种用于执行跨语言搜索的方法,包括:
从客户端设备接收搜索查询,所述搜索查询是以第一语言提交的;
获取翻译的搜索查询,所述翻译的搜索查询是所述搜索查询到第二语言的翻译;
接收对所述搜索查询作出响应的结果的第一集合以及对所述翻译的搜索查询作出响应的结果的第二集合,所述结果的第一集合包括网页的第一集合和相关性分值的第一集合以及所述结果的第二集合包括网页的第二集合和相关性分值的第二集合;
聚合所述相关性分值的第一集合;
聚合所述相关性分值的第二集合;
将所述相关性分值的第二集合的所述聚合与所述相关性分值的第一集合的所述聚合进行比较以及将来自更相关集合的相关性分值的聚合与阈值相关性值进行比较;以及
派发包括来自所述结果的第一集合或所述结果的第二集合中的一个或两者的至少部分的结果页面,其中当所述相关性分值的第二集合的所述聚合超过所述相关性分值的第一集合的所述聚合并且超过所述阈值相关性值时,所述结果页面被生成为包括来自所述搜索结果的第二集合的搜索结果,并且其中当所述相关性分值的第一集合的所述聚合等于或超过所述相关性分值的第二集合的所述聚合并且超过所述阈值相关性值时,所述结果页面被生成为包括来自所述搜索结果的第一集合的搜索结果。
2.如权利要求1所述的方法,进一步包括:如果所述相关性分值的第二集合的所述聚合超过所述相关性分值的第一集合的所述聚合,则获取翻译的网页,并且基于从所述客户端设备接收对所述网页的选择来提供所述翻译的网页。
3.如权利要求1所述的方法,进一步包括:
获取与所述翻译的搜索查询相对应的先前查询的数量;
将所述先前查询的数量与查询的阈值数量进行比较;以及
其中,派发所述结果页面进一步基于对所述先前查询的数量与所述查询的阈值数量的所述比较。
4.如权利要求1所述的方法,其中所述相关性分值的第一集合和所述相关性分值的第二集合每一个包括相关性因素和排名因素,所述相关性因素测量来自所述搜索查询或所述翻译的搜索查询的所述结果与所述搜索查询相匹配的程度,以及所述排名因素测量网页被其它网页链接的频率。
5.如权利要求1所述的方法,其中所述相关性分值的第一集合基于对来自所述搜索查询的结果的第一点进率的分析,以及所述相关性分值的第二集合基于对来自所述翻译的搜索查询的结果的第二点进率的分析。
6.一种用于执行跨语言搜索的系统,包括:
用于从客户端设备接收搜索查询的装置,所述搜索查询是以第一语言提交的;
用于获取翻译的搜索查询的装置,所述翻译的搜索查询是所述搜索查询到第二语言的翻译;
用于接收对所述搜索查询作出响应的结果的第一集合以及对所述翻译的搜索查询作出响应的结果的第二集合的装置,所述结果的第一集合包括网页的第一集合和相关性分值的第一集合以及所述结果的第二集合包括网页的第二集合和相关性分值的第二集合;
用于聚合所述相关性分值的第一集合的装置;
用于聚合所述相关性分值的第二集合的装置;
用于将所述相关性分值的第二集合的所述聚合与所述相关性分值的第一集合的所述聚合进行比较以及将来自更相关集合的相关性分值的聚合与阈值相关性值进行比较的装置;以及
用于派发包括来自所述结果的第一集合或所述结果的第二集合中的一个或两者的至少部分的结果页面的装置,其中当所述相关性分值的第二集合的所述聚合超过所述相关性分值的第一集合的所述聚合并且超过所述阈值相关性值时,所述结果页面被生成为包括来自所述搜索结果的第二集合的搜索结果,并且其中当所述相关性分值的第一集合的所述聚合等于或超过所述相关性分值的第二集合的所述聚合并且超过所述阈值相关性值时,所述结果页面被生成为包括来自所述搜索结果的第一集合的搜索结果。
7.如权利要求6所述的系统,进一步包括:用于如果所述相关性分值的第二集合的所述聚合超过所述相关性分值的第一集合的所述聚合,则获取翻译的网页,并且基于从所述客户端设备接收对所述网页的选择来提供所述翻译的网页的装置。
8.如权利要求6所述的系统,进一步包括:
用于获取与所述翻译的搜索查询相对应的先前查询的数量的装置;
用于将所述先前查询的数量与查询的阈值数量进行比较的装置;以及
其中,用于派发所述结果页面的装置进一步基于对所述先前查询的数量与所述查询的阈值数量的所述比较。
9.如权利要求6所述的系统,其中所述相关性分值的第一集合和所述相关性分值的第二集合每一个包括相关性因素和排名因素,所述相关性因素测量来自所述搜索查询或所述翻译的搜索查询的所述结果与所述搜索查询相匹配的程度,以及所述排名因素测量网页被其它网页链接的频率。
10.如权利要求6所述的系统,其中所述相关性分值的第一集合基于对来自所述搜索查询的结果的第一点进率的分析,以及所述相关性分值的第二集合基于对来自所述翻译的搜索查询的结果的第二点进率的分析。
11.一种用于执行跨语言搜索的方法,包括:
接收第一语言的原始搜索查询;
获取与所述原始搜索查询相关联的翻译的搜索查询,所述翻译的搜索查询为第二语言;
评估所述翻译的搜索查询以确定所述翻译的搜索查询是否是用于跨语言搜索的候选;以及
如果所述翻译的搜索查询是用于所述跨语言搜索的候选,则:
接收对所述搜索查询作出响应的结果的第一集合以及对所述翻译的搜索查询作出响应的结果的第二集合,所述结果的第一集合包括网页的第一集合和相关性分值的第一集合以及所述结果的第二集合包括网页的第二集合和相关性分值的第二集合;
聚合所述相关性分值的第一集合;
聚合所述相关性分值的第二集合;
将所述相关性分值的第二集合的所述聚合与所述相关性分值的第一集合的所述聚合进行比较以及将来自更相关集合的相关性分值的聚合与阈值相关性值进行比较;以及
派发包括来自所述结果的第一集合或所述结果的第二集合中的一个或两者的至少部分的结果页面,当所述相关性分值的第二集合的所述聚合超过所述相关性分值的第一集合的所述聚合并且超过所述阈值相关性值时,所述结果页面被生成为包括来自所述搜索结果的第二集合的搜索结果,当所述相关性分值的第一集合的所述聚合等于或超过所述相关性分值的第二集合的所述聚合并且超过所述阈值相关性值时,所述结果页面被生成为包括来自所述搜索结果的第一集合的搜索结果;以及
如果所述翻译的搜索查询不是用于所述跨语言搜索的候选,则生成包括关于所述原始搜索查询的搜索结果的结果页面。
CN2008801170835A 2007-09-21 2008-09-22 跨语言搜索 Expired - Fee Related CN101868797B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US97433207P 2007-09-21 2007-09-21
US60/974,332 2007-09-21
PCT/US2008/077283 WO2009039524A1 (en) 2007-09-21 2008-09-22 Cross-language search

Publications (2)

Publication Number Publication Date
CN101868797A CN101868797A (zh) 2010-10-20
CN101868797B true CN101868797B (zh) 2013-05-01

Family

ID=40468453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801170835A Expired - Fee Related CN101868797B (zh) 2007-09-21 2008-09-22 跨语言搜索

Country Status (4)

Country Link
US (2) US20090083243A1 (zh)
EP (2) EP2570945A1 (zh)
CN (1) CN101868797B (zh)
WO (1) WO2009039524A1 (zh)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7921375B2 (en) * 2005-12-16 2011-04-05 Microsoft Corporation Integrating user interfaces from one application into another
US7720856B2 (en) * 2007-04-09 2010-05-18 Sap Ag Cross-language searching
US8209164B2 (en) * 2007-11-21 2012-06-26 University Of Washington Use of lexical translations for facilitating searches
KR100978581B1 (ko) * 2008-05-08 2010-08-27 엔에이치엔(주) 웹 페이지 열람 중에 편리하게 사전 서비스를 제공하기위한 방법 및 시스템
US9798720B2 (en) 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
US8577910B1 (en) * 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8572109B1 (en) * 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8538957B1 (en) * 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
EP2341450A1 (en) 2009-08-21 2011-07-06 Mikko Kalervo Väänänen Method and means for data searching and language translation
US8364463B2 (en) * 2009-09-25 2013-01-29 International Business Machines Corporation Optimizing a language/media translation map
CN102063432A (zh) 2009-11-12 2011-05-18 阿里巴巴集团控股有限公司 一种检索方法和系统
CA2781321C (en) 2009-11-20 2017-07-11 Google Inc. Cross-language search options
US8543598B2 (en) * 2010-03-01 2013-09-24 Microsoft Corporation Semantic object characterization and search
US20110282647A1 (en) * 2010-05-12 2011-11-17 IQTRANSLATE.COM S.r.l. Translation System and Method
US8635205B1 (en) * 2010-06-18 2014-01-21 Google Inc. Displaying local site name information with search results
US8756050B1 (en) * 2010-09-14 2014-06-17 Amazon Technologies, Inc. Techniques for translating content
US9355179B2 (en) * 2010-09-24 2016-05-31 Microsoft Technology Licensing, Llc Visual-cue refinement of user query results
US8862595B1 (en) * 2010-11-23 2014-10-14 Google Inc. Language selection for information retrieval
CN102651003B (zh) * 2011-02-28 2014-08-13 北京百度网讯科技有限公司 一种跨语言搜索的方法和装置
CN102654867B (zh) * 2011-03-02 2013-12-11 北京百度网讯科技有限公司 一种跨语言搜索中的网页排序方法和系统
CN102779135B (zh) * 2011-05-13 2015-07-01 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
US8914400B2 (en) * 2011-05-17 2014-12-16 International Business Machines Corporation Adjusting results based on a drop point
EP2535822A3 (en) * 2011-06-13 2013-12-25 The Provost, Fellows, Foundation Scholars, & the other members of Board, of the College of the Holy & Undiv. Trinity of Queen Elizabeth near Dublin Data processing system and method for assessing quality of a translation
US8713037B2 (en) * 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
US8914277B1 (en) * 2011-09-20 2014-12-16 Nuance Communications, Inc. Speech and language translation of an utterance
US8538946B1 (en) * 2011-10-28 2013-09-17 Google Inc. Creating model or list to identify queries
US9569429B2 (en) * 2012-02-03 2017-02-14 Google Inc. Translated news
CN103294682A (zh) * 2012-02-24 2013-09-11 摩根全球购物有限公司 多语言检索方法、计算机可读储存媒体及网络搜寻系统
CN103377240B (zh) 2012-04-26 2017-03-01 阿里巴巴集团控股有限公司 信息提供方法、处理服务器及合并服务器
US9070303B2 (en) * 2012-06-01 2015-06-30 Microsoft Technology Licensing, Llc Language learning opportunities and general search engines
CN103488648B (zh) * 2012-06-13 2018-03-20 阿里巴巴集团控股有限公司 一种多语种混合检索方法和系统
US8639698B1 (en) 2012-07-16 2014-01-28 Google Inc. Multi-language document clustering
CN102955853B (zh) * 2012-11-02 2019-05-28 北京百度网讯科技有限公司 一种跨语言文摘的生成方法及装置
US8914395B2 (en) * 2013-01-03 2014-12-16 Uptodate, Inc. Database query translation system
US20140280295A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Multi-language information retrieval and advertising
US9734820B2 (en) * 2013-11-14 2017-08-15 Nuance Communications, Inc. System and method for translating real-time speech using segmentation based on conjunction locations
US9940658B2 (en) * 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
US9569526B2 (en) * 2014-02-28 2017-02-14 Ebay Inc. Automatic machine translation using user feedback
US9530161B2 (en) 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US10452786B2 (en) * 2014-12-29 2019-10-22 Paypal, Inc. Use of statistical flow data for machine translations between different languages
CN104850610A (zh) * 2015-05-11 2015-08-19 均康(上海)信息科技有限公司 一种网络搜索引擎系统
CN105095512A (zh) * 2015-09-09 2015-11-25 四川省科技交流中心 基于桥梁语的跨语种专用数据检索系统及方法
US9830384B2 (en) * 2015-10-29 2017-11-28 International Business Machines Corporation Foreign organization name matching
US9875740B1 (en) 2016-06-20 2018-01-23 A9.Com, Inc. Using voice information to influence importance of search result categories
US11829428B2 (en) * 2016-07-06 2023-11-28 Vimio Co. Ltd App name search method and system
CN107665218B (zh) * 2016-07-29 2022-12-23 北京搜狗科技发展有限公司 一种搜索方法、装置及电子设备
US10116898B2 (en) 2016-11-18 2018-10-30 Facebook, Inc. Interface for a video call
US10079994B2 (en) * 2016-11-18 2018-09-18 Facebook, Inc. Methods and systems for displaying relevant participants in a video communication
WO2018189352A1 (en) * 2017-04-14 2018-10-18 Koninklijke Kpn N.V. Transmitting and receiving an interest message specifying an aggregation parameter
US10769210B2 (en) 2017-09-29 2020-09-08 Rovi Guides, Inc. Recommending results in multiple languages for search queries based on user profile
US10747817B2 (en) 2017-09-29 2020-08-18 Rovi Guides, Inc. Recommending language models for search queries based on user profile
US10387576B2 (en) * 2017-11-30 2019-08-20 International Business Machines Corporation Document preparation with argumentation support from a deep question answering system
US10915183B2 (en) 2018-03-30 2021-02-09 AVAST Software s.r.o. Automatic language selection in messaging application
US11386131B2 (en) * 2018-05-29 2022-07-12 Microsoft Technology Licensing, Llc System and method for multi-language search
CN111737550B (zh) * 2019-03-25 2024-01-23 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
US20210295410A1 (en) * 2020-03-23 2021-09-23 Oath Inc. Computerized system and method for applying transfer learning for generating a multi-variable based unified recommendation
US20240037102A1 (en) * 2022-08-01 2024-02-01 Motorola Solutions, Inc. Method and apparatus for securing databases

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685341A (zh) * 2002-09-30 2005-10-19 陈宁萍 跨语言搜索结果的闪烁注释标注加亮
CN1954321A (zh) * 2004-03-31 2007-04-25 Google公司 具有实体检测的查询改写

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114703B2 (ja) * 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
CN1176432C (zh) * 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
US6963867B2 (en) * 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US6604101B1 (en) * 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US20040006560A1 (en) * 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
US7516154B2 (en) * 2000-06-28 2009-04-07 Qnaturally Systems Inc. Cross language advertising
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7113935B2 (en) * 2000-12-06 2006-09-26 Epicrealm Operating Inc. Method and system for adaptive prefetching
WO2003005168A2 (en) * 2001-07-06 2003-01-16 Clickfox, Llc Use of various methods to reconstruct experiences of web site visitors
US7146358B1 (en) * 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US7346606B2 (en) * 2003-06-30 2008-03-18 Google, Inc. Rendering advertisements with documents having one or more topics using user topic interest
US7519595B2 (en) * 2004-07-14 2009-04-14 Microsoft Corporation Method and system for adaptive categorial presentation of search results
CN100568230C (zh) * 2004-07-30 2009-12-09 国际商业机器公司 基于超文本的多语言网络信息搜索方法和系统
US7783633B2 (en) * 2004-11-19 2010-08-24 International Business Machines Corporation Display of results of cross language search
US20060112091A1 (en) * 2004-11-24 2006-05-25 Harbinger Associates, Llc Method and system for obtaining collection of variants of search query subjects
CN100492364C (zh) * 2005-01-04 2009-05-27 汤姆森环球资源公司 用于多语言信息检索的系统、方法、软件和界面
US20060173829A1 (en) * 2005-01-10 2006-08-03 Neeman Yoni M Embedded translation-enhanced search
US20070022134A1 (en) * 2005-07-22 2007-01-25 Microsoft Corporation Cross-language related keyword suggestion
US20070027905A1 (en) * 2005-07-29 2007-02-01 Microsoft Corporation Intelligent SQL generation for persistent object retrieval
US7475069B2 (en) * 2006-03-29 2009-01-06 International Business Machines Corporation System and method for prioritizing websites during a webcrawling process
WO2008011526A2 (en) * 2006-07-19 2008-01-24 Chacha Search, Inc. Method, apparatus, and computer readable storage for training human searchers
US20080177528A1 (en) * 2007-01-18 2008-07-24 William Drewes Method of enabling any-directional translation of selected languages
US20080189257A1 (en) * 2007-02-01 2008-08-07 Microsoft Corporation World-wide classified listing search with translation
US7912847B2 (en) * 2007-02-20 2011-03-22 Wright State University Comparative web search system and method
US8015175B2 (en) * 2007-03-16 2011-09-06 John Fairweather Language independent stemming
US7720856B2 (en) * 2007-04-09 2010-05-18 Sap Ag Cross-language searching
US7890493B2 (en) * 2007-07-20 2011-02-15 Google Inc. Translating a search query into multiple languages
US8209164B2 (en) * 2007-11-21 2012-06-26 University Of Washington Use of lexical translations for facilitating searches

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685341A (zh) * 2002-09-30 2005-10-19 陈宁萍 跨语言搜索结果的闪烁注释标注加亮
CN1954321A (zh) * 2004-03-31 2007-04-25 Google公司 具有实体检测的查询改写

Also Published As

Publication number Publication date
CN101868797A (zh) 2010-10-20
EP2570945A1 (en) 2013-03-20
US20090193003A1 (en) 2009-07-30
US8250046B2 (en) 2012-08-21
WO2009039524A1 (en) 2009-03-26
EP2201484A1 (en) 2010-06-30
EP2201484A4 (en) 2010-09-22
US20090083243A1 (en) 2009-03-26

Similar Documents

Publication Publication Date Title
CN101868797B (zh) 跨语言搜索
KR101579551B1 (ko) 자동적 확장 언어 검색
CN102349072B (zh) 识别查询方面
US8606739B2 (en) Using computational engines to improve search relevance
US9542476B1 (en) Refining search queries
US7672932B2 (en) Speculative search result based on a not-yet-submitted search query
CN101878476B (zh) 用于查询扩展的机器翻译
CN101495955B (zh) 移动设备检索与导航
US20130060769A1 (en) System and method for identifying social media interactions
US20170300562A1 (en) Method for matching queries with answer items in a knowledge base
US9411886B2 (en) Ranking advertisements with pseudo-relevance feedback and translation models
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN102203774B (zh) 使用概括的句子搭配的检索
US20130110839A1 (en) Constructing an analysis of a document
US20070219986A1 (en) Method and apparatus for extracting terms based on a displayed text
WO2019217096A1 (en) System and method for automatically responding to user requests
CN104428767A (zh) 相关实体
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
US9424353B2 (en) Related entities
US20200159765A1 (en) Performing image search using content labels
EP3485394A1 (en) Contextual based image search results
CN105488096A (zh) 动态概要生成器
Zhang et al. Semantic table retrieval using keyword and table queries
US9336317B2 (en) System and method for searching aliases associated with an entity
US9305103B2 (en) Method or system for semantic categorization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130501

Termination date: 20170922

CF01 Termination of patent right due to non-payment of annual fee