CN102693267B - 扩大搜索结果 - Google Patents

扩大搜索结果 Download PDF

Info

Publication number
CN102693267B
CN102693267B CN201210043354.5A CN201210043354A CN102693267B CN 102693267 B CN102693267 B CN 102693267B CN 201210043354 A CN201210043354 A CN 201210043354A CN 102693267 B CN102693267 B CN 102693267B
Authority
CN
China
Prior art keywords
website
content
search
url
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210043354.5A
Other languages
English (en)
Other versions
CN102693267A (zh
Inventor
L.里普谢尔
S.劳尔特
J.奥利斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN102693267A publication Critical patent/CN102693267A/zh
Application granted granted Critical
Publication of CN102693267B publication Critical patent/CN102693267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

通过在另一数据体上执行相同的搜索或相关的搜索,可以增强一个数据体上的搜索的结果。在一个示例中,第一数据体是网站上的页面(或其它内容),而第二数据体是另一个网站上的页面(或其它内容)。当用户在第一网站上输入查询以执行站点特定搜索时,该网站可以随后在第二网站上执行相关的搜索。当从第二网站中获得结果时,可以确定第一网站是否具有与接收到的结果相对应的任何页面。第一网站随后可以使用它提供给用户的结果中的其对应页面。

Description

扩大搜索结果
背景技术
内容提供商经常使得其内容是可供搜索的。具有能够被部署以使得特别提供商的内容是可供搜索的各种搜索技术。例如,谷歌站点搜索(Google Site Search)可以被用来使得特定网站是可供搜索的,并且类似地可以使用微软公司(Microsoft Corporation)提供的BING搜索引擎。当使用这些产品之一时,网站可以提供允许用户进行搜索的搜索框,并从那个网站返回结果。
当内容提供商以这种方式使其内容是可供搜索的时,用户能够基于如何对内容提供商的文件进行索引(index)来找到内容提供商的文件。例如,如果文件基于其包含的项进行索引的话,则站点特定的搜索可以打开包含查询项的文件。或者,如果这些文件利用某种类型的元数据进行索引的话,则与满足查询项的元数据相关联的文件可以出现在搜索结果中。然而,可能存在与没有反映在索引中的文件有关的相关信息。当搜索查询使用这样的信息时,如果文件没有利用出现查询中的信息类型进行索引的话,则站点特定的搜索不太可能识别该文件。
发明内容
站点特定的搜索(或其它类型的搜索)可以通过使用来自各种内容提供商的信息来扩大(augment)。一个内容提供商知道的文件可能与另一个内容提供商知道(或通用网络搜索引擎知道)的文件相关联。当用户在第一网站上输入站点特定的查询时,该查询(或另一衍生查询)可以由一个或多个其它的搜索服务提供商(其可以包括提供站点特定搜索的另一个内容提供商的站点或可以包括通用网络搜索引擎)来执行。当该查询在其它搜索引擎上被执行时,结果被检查,并确定是否任何结果对应于由第一网站保持(或知道)的文件。如果是这样的话,则可以返回第一网站上的文件作为第一网站的站点特定搜索的结果。
例如,第一网站可能提供餐馆的目录,其中该目录中的每一页面对应于一个餐馆。每个餐馆在该目录中的页面可能利用商户的名称、地址、邮编以及食物类型来索引,而可能没有利用该餐馆中的座位数量来索引。因而,使用该网站的页面的索引,无法回答对于“在西雅图具有至少150个座位的餐馆”的查询。然而,第二网站可能保持有关在给定餐馆中有多少个座位的信息。因而,为了回答对于“在西雅图具有至少150个座位的餐馆”的查询,能够在第二网站的站点特定搜索中执行那个查询(或衍生查询)。当在第二网站上执行该查询时,这些结果可以包括特别餐馆。在第一网站的服务器上的软件随后能够确定第一网站是否具有对应于那个餐馆的目录页面。如果这样的页面确实存在的话,则第一网站能够基于该餐馆已通过第二网站的站点特定搜索进行识别而返回它自己的用于那个餐馆的页面。这样,第一网站提供商能够提供比它自己的索引将提供的结果更为丰富的结果,同时仍然利用它自己的内容来回答用户的查询(而不是将用户引导至另一个提供商的内容)。
提供这个发明内容部分来以简化的形式介绍下面在具体实施方式中进一步描述的概念的选择。这个发明内容并不打算标识所请求保护的主题的关键特征或基本特征,也不打算用来限制所请求保护的主题的范围。
附图说明
图1是其中可以执行搜索的示例场景的框图。
图2是其中通过搜索另一实体的内容来扩大网站上的搜索的示例场景的框图。
图3是允许站点使用从另一个搜索服务提供商接收的信息来提供站点特定搜索结果的示例处理的流程图。
图4是在页面之间建立对应关系(correspondence)的示例处理的流程图。
图5是可以与此处描述的主题的实现方式相结合使用的示例组件的框图。
具体实施方式
内容提供商经常使得其内容是可供搜索的。一些内容提供商可以使得其内容通过网站而可用于用户。虽然内容提供商能够在其网站上安装通用网络搜索引擎,但是许多内容提供商喜欢使得站点特定搜索可用于其网站上。在内容提供商的网站上提供站点特定搜索有助于将用户引导至该提供商自己的内容。如果该内容以某种方式(例如,通过付费广告)被货币化了,则将用户引导至该内容提供商自己的内容可以增加该内容提供商的收入。
对于内容提供商提供站点特定搜索而言,具有各种方式。例如,提供商可以在该提供商的网站上安装站点特定版本的Google搜索引擎或BING搜索引擎。当用户在站点特定搜索框中输入查询时,搜索引擎根据该网站自己的内容返回页面(例如,与该网站相同的域内的网页)。这些结果基于用于该内容提供商的内容的索引条目。如果该提供商的内容以使得该内容从用户的查询中可找到的方式进行索引的话,则该提供商的内容将出现在搜索结果中。否则,该提供商的内容并不出现在搜索结果中。包含在文件中的项的索引只是提供商的内容能够被索引的一种方式。在另一示例中,能够基于与文件相关联的元数据、基于实体关系模型或基于一些其它信息来索引内容。
这种方案具有的问题是:提供商可能具有与特别用户查询相关但是从索引中却不能找到的内容。当用户在该提供商的网站上无法找到他或她想要的内容时,用户可能随后到别处搜索。或者,该内容提供商可以提供更广泛的搜索(例如,广义网络搜索),其能够识别回答用户的查询却不在该提供商的网站上的内容。在任何一种情况下,用户可能被带离该提供商的网站。由于网站经常直接地或间接地基于用户在该网站上消磨多少时间来货币化,所以引导用户远离特定内容提供商的网站可能导致该内容提供商的收入的损失。即使将用户带离该网站并不直接导致该内容提供商的收入的损失,无法回答特别查询也趋向于使得该网站贬值,因为这暗示该网站不能提供用户正在寻找的内容。网站提供商可能具有与用户的查询高度相关的内容,但是那个内容由于该内容被索引的限制方式而可能是无法找到的。
此处描述的主题提供利用(leverage)一个文集(corpus)的内容以便从另一文集的内容中返回相关材料的方式。例如,两个不同的网站可能保持有关餐馆的可搜索记录。然而,一个站点中针对餐馆的记录可能包含与另一站点中针对同一餐馆的记录不同的信息。例如,站点A的记录可能列出该餐馆的地址、电话号码以及一系列评论,而站点B的记录可能具有诸如餐馆中的座位数量、餐馆的氛围以及提供的食物类型之类的数据。因而,如果某个人在站点A上对具有150个座位的餐馆进行站点特定搜索的话,则该搜索可能不返回结果,因为站点A的记录没有说明该餐馆具有多少个座位。在站点B上对具有150个座位的餐馆进行的搜索将返回记录,但是站点A可能并不想将其用户引导至站点B的记录。如果使用此处描述的主题,站点A可以导致“150个座位”搜索相对于站点B的记录来执行。然后,在使用站点B搜索结果识别具有150个座位的餐馆之后,站点A可以给用户提供它自己的对于该餐馆的记录。这样,各种不同的内容提供商可以利用对方的知识基础,以便增强针对它们自己内容的搜索结果。此外,搜索服务提供商可以提供允许内容提供商以这种方式利用对方内容的工具。
可以在站点A上的记录和站点B上的记录之间建立对应关系。建立这种对应关系的一种方式是利用记录与之相关的商户的统一资源定位符(URL)。例如,餐馆可能具有位于特定URL上的网站。站点A中针对那个餐馆的记录可以包括该餐馆的URL。站点B中针对同一餐馆的记录也可以包括该餐馆的URL。因而,当从站点B上的站点特定搜索中获得结果时,有可能利用结果中所列出的餐馆的URL来确定哪些站点A的记录涉及与站点B所返回的结果相同的餐馆。尽管上述示例讨论对于餐馆的搜索,但是此处的主题适用于任何类型的能够被搜索的信息,例如旅店、航空公司、科学文献、图像等。
现在转到附图,图1显示其中可以执行搜索的示例场景。在图1的示例中,网站102是使得内容可用于用户的网站。任何类型的内容能够通过网站102来提供,例如商户的目录、科学文章的数据库、被买卖的项的市场等。在随后的讨论中,将被使用的运行示例是提供餐馆目录的站点的示例。然而,将明白:此处描述的主题并不限于这个示例。
因而,在其中网站102提供餐馆目录的非限制示例中,网站102可以保持一组页面(页面集合104),其中该集合中的每个页面是涉及特别餐馆的条目。因而,这些页面中的一个页面可能是对于名为“El Groucho”的餐馆的列表,并且那个页面可能包含该餐馆的地址、其电话号码、所提供的菜肴的类型、接受的付款方式、该餐馆的客户评论等。页面集合104可以存储在由网站102维护的数据库106中。(页面集合104仅是一种类型内容的示例;一般而言,能够保持包括任何类型的内容项的“内容集合”)。
网站102可以包含搜索组件108,其允许网站102的用户搜索页面集合104以查找满足某些标准的内容。因而,用户可以向网站102的搜索组件108提交查询110,其中该查询包含搜索标准。在一个示例中,搜索组件108提供允许用户输入文本查询的搜索框,在这种情况下,搜索标准是页面集合104中的特定页面是否包含查询110中的(一个或多个)项。然而,查询110能够采用其它的形式,并且能够使用其它的搜索技术。例如,可能具有有关页面集合104中的页面的元数据,其中元数据描述除了这些页面包含的文本之外的这些页面的特征,并且搜索能够确定适用于特定页面的元数据是否满足查询110。或者,如果页面集合104中的基础数据支持它的话,查询110能够基于更复杂的范例,而不仅仅是有关页面的内容或元数据的文本查询。例如,如果页面集合104中的页面被组织在关系数据库中,则查询110可以是关系(例如,SQL)查询。或者,如果页面集合104中的页面遵循实体关系(E-R)模型,则查询110可以是SPARQL查询。能够由搜索组件108处理任何类型的查询。
在一个示例中,数据库106包含页面集合104中的页面的索引112。索引112可以识别出现在页面集合104的页面中的项,或可以识别适用于那些页面的元数据,或可以包含有关页面集合104中的页面的任何其它类型的信息。搜索组件108可以使用索引112来确定页面集合104中的哪个页面满足特定查询。数据库106并不一定包含索引。在一个示例中,通用搜索引擎通过使用它自己的索引找到搜索结果来为特定网站提供网站特定的搜索服务,同时将这些结果限于为该网站的一部分的那些页面。在那种情况下,索引可以由搜索引擎提供商来维护。
使用上述的图1的组件,有可能在页面集合104中搜索信息。然而,有可能页面集合104中的一个或多个页面响应该查询,但是基于已知的有关页面集合104的信息而将不被发现。因而,这样的页面可能通过搜索没有被发现。此处描述的主题可以用来使用页面集合104之外的信息来增强页面集合104的搜索的结果。
页面集合104中的页面可以与特定URL相关联。虽然页面集合104中的页面可以位于特定URL,但是为了增强搜索结果,它可以是相关的不同URL而非描述该页面的位置的URL。下面是具体的示例。如上所述,网站102可以是提供餐馆目录的站点,因此页面集合104中的每个页面是用于特定餐馆的目录条目。网站102可能被命名为“restaurantsearch.example.com”,并且名为“El Groucho”的餐馆可能是在目录中列出的餐馆之一。包含El Groucho的目录条目的页面可能具有URLrestaurantsearch.example.com/elgroucho,但是为了增强页面集合104的搜索的目的,这个URL可能不是相关的URL。相反,El Groucho可能具有它自己的利用URL“elgroucho.example.com”标识的网站。即,虽然“restaurantsearch.example.com/elgroucho”是在restaurantsearch.example.com网站上用于El Groucho的目录条目,但是“elgroucho.example.com”是El Groucho自己的网站。这后一URL与增强页面集合104的搜索相关,这是因为知道El Groucho餐馆的任何文集信息很可能知道其网站的URL。因而,如果存在具有有关餐馆的信息并且知道El Groucho餐馆的任何网站(或其它源),那些站点(或其它源)很可能在某处涉及“elgroucho.example.com”URL。换句话说,可以假定包含有关餐馆El Groucho的信息的各种知识基础将知道该餐馆的网站的URL,并且这个假定可以用于链接来自不同知识基础的信息。
因而,在其中数据库106包含页面集合104的索引的示例中,该索引可能包含的一条信息是URL信息113,其指示页面集合104中的每个页面与之相关的URL。例如,索引116可以包含出现在页面“restaurantsearch.example.com/elgroucho”中的项的列表,并且也可以包含表明页面“restaurantsearch.example.com/elgroucho”涉及其网站位于“elgroucho.example.com”上的餐馆的信息。另一个搜索服务提供商114可以具有它自己的某组页面(页面集合118)的索引116。(将明白:页面集合118不与页面集合104共生(coextensive),即,在理论上,这两个页面集合可能具有共同的一些页面,但除此之外并不是相同的集合)。索引116可以包括URL信息120,其标识页面集合118中的页面与之相关的URL。由于页面集合104中的页面与特定URL相关联,并且由于页面集合118中的页面也与特定URL相关联,所以通过这些URL在页面集合104和118中的页面之间建立对应关系是可能的。例如,如果页面A位于页面集合104中并且包含对于URL“elgroucho.example.com”的引用,而页面B位于页面集合118中并且包含对于URL“elgroucho.example.com”的引用,则有可能确定页面A对应于页面B,这是因为这两个页面涉及相同的URL。在高水平上,总体思路是页面A和页面B二者涉及同一餐馆的网页,并因而很可能页面A和页面B二者涉及同一餐馆。
由于对应关系能够在网站102的页面(页面集合104)和搜索服务提供商114的页面(页面集合118)之间进行建立,所以有可能使用这个信息来扩大网站102在它自己的网页上提供的搜索结果。假设:例如,网站102是餐馆目录,并且搜索服务提供商114是(或操作)餐馆预订系统。(将明白:“搜索服务提供商”并不一定是传统意义上的通用网络搜索引擎。提供一些能力来搜索某信息体的任何网站或其它实体可以被认为是用于此处目的的“搜索服务提供商”)。因此,搜索服务提供商114可以具有有关餐馆的座位容量的信息,即使这个信息可能不可用于网站102。为此,如果用户在网站102的搜索组件108中输入诸如“在西雅图具有至少150个座位的餐馆”之类的查询,使用网站102的页面集合的索引112,这个查询可能是无法回答的。情况可能是El Groucho是查询中指定的确切标准,并且网站102的经营商希望能够响应于该查询而返回其自己的有关El Groucho的页面。但是,由于网站102的页面(即,在“restaurantsearch.example.com/elgroucho”上的页面)不包含有关座位容量的信息,所以页面集合104的搜索将那个页面识别为结果是不可能的。
然而,网站102能够使用搜索组件124(其由搜索服务提供商114来提供)来搜索页面集合118。因而,网站102生成将由搜索服务提供商114执行的查询126。查询126可能实际上与查询110相同。或者,查询126可以是以某种方式从查询110中导出的单独的查询128。例如,搜索服务提供商114可能提供结构化搜索,其中餐馆的位置利用邮编范围来指定,并且餐馆的座位容量被指定为数字字段。因而,查询“在西雅图具有至少150个座位的餐馆”可能被转换为“98100-98199”(包括西雅图的邮编的范围),并且文本短语“至少150个座位”可能被转换为“规模>=150”(其中“规模”在这个示例中是代表座位容量的字段的名称)。
不管查询126采用的形式如何,该查询可以通过搜索组件124被提交给搜索服务提供商114。搜索组件124随后导致页面集合118的搜索使用查询126来执行。这个搜索可以从页面集合118之中生成一些结果。
一旦生成了结果,可以使用在页面集合118中的页面与页面集合104中的页面之间的对应关系122来确定网站102是否具有对应于这些结果的任何页面(即,页面集合104中的任何页面)。例如,如果搜索服务提供商114是餐馆预订系统,则它可能具有页面“restaurantreservations.example.com/elgroucho”(其涉及El Groucho 餐馆),并且那个页面可能是页面集合118的搜索的结果之一。如果那个页面引用“elgroucho.example.com”网站,则能够确定:“restaurantreservations.example.com/elgroucho”涉及与“restaurantsearch.example.com/elgroucho”相同的餐馆,这是因为(如上所述)这两个页面涉及用于同一餐馆的网站的URL。因此,即使网站102对它自己的页面集合的搜索可能没有将它自己的有关El Groucho的页面识别为与该查询相关,有关ElGroucho餐馆的页面通过对搜索服务提供商114的页面的搜索来识别的事实表明:ElGroucho餐馆与(或可能与)用户输入的原始查询110(即,“在西雅图具有至少150个座位的餐馆”)相关。在确定El Groucho是对于那个查询的相关响应之后,网站10不返回搜索服务提供商114的结果而可以反而给请求用户返回它自己的有关El Groucho的页面作为结果。即,即使涉及El Groucho的搜索引擎结果是搜索服务提供商114自己的有关那个餐馆的页面(即,“restaurantreservations.example.com/elgroucho”),网站102也反而可以返回它自己的有关El Groucho的页面(即,“restaurantsearch.example.com/elgroucho”)。这样,网站102能够将用户引导至它自己的相关内容,即使对于网站102自己的内容的站点特定搜索并没有直接地将网站102的内容识别为相关的。
图2显示其中通过搜索另一实体的内容来扩大网站上的搜索的示例场景。在图2的示例中,网站102是上面结合图1所述的“restaurantsearch.example.com”网站。网站102提供搜索框202,其允许网站102的访问者输入搜索查询,以便搜索为网站102的一部分的页面(或其它内容项)。一个这样的页面204是用于El Groucho餐馆的目录条目。那个目录条目列出该餐馆的名称206、该餐馆的网站的URL 208以及其它数据210,诸如该餐馆的地址、电话号码、菜肴的类型等。
网站102的访问者在搜索框202中输入的查询是“餐馆98104 150+座位”。当查询处理器处理这个查询时,它由于该餐馆具有至少150个座位的附加标准而可能将该查询理解为对98104邮编(其位于西雅图)内或附近的餐馆的搜索。该查询的位置标准(即,邮编=98104)能够相对于网站102的页面来回答。如页面204所演示的,由网站102维护的餐馆的目录条目具有邮编信息。然而,这些页面可能没有有关座位容量的信息。(至少在这个示例中,用于El Groucho的条目没有那个信息)。因而,El Groucho餐馆可能实际上具有150个座位,但是因为El Groucho具有150个座位的事实不能从页面204中的信息中进行确定,所以用于El Groucho的页面可能没有作为搜索结果而被返回(并且,因此,用于页面204的索引条目大概不包含有关El Grouch是否具有150个座位的信息)。
因而,为了尝试回答完整的查询,网站102制定查询126,并将该查询发送到网站restaurantreservations.example.com。如上所讨论的,restaurantreservations.example.com可以保持操作在线预订系统,并因而可能具有有关在它处理其预订的那些餐馆中存在多少座位的数据。restaurantreservations.example.com是(如上面结合图1所讨论的)搜索服务提供商114的示例。因而,网站102将查询126转发到restaurantreservations.example.com,其中查询126指定在邮编98104内或附近的餐馆以及具有至少150个座位的餐馆。利用restaurantreservations.example.com维护的数据库213可能包括用于El Groucho餐馆的页面214,并且也可能包括与那个页面相关的索引信息216。在这个示例中,索引信息识别在El Groucho的座位数量、氛围以及是否El Groucho接受在线预订。这种类型的信息可以是网站102所没有的有关El Groucho的信息,但是此信息中的一些信息碰巧与处理用户输入的查询相关。当restaurantreservations.example.com网站响应查询126时,它可以将其有关El Groucho的页面214包括在结果中。
如在图2中能够看到的,页面214列出El Groucho网站的URL。(再一次,不是有关ElGroucho的restaurantreservations.example.com的页面的URL,而是El Groucho自己的网站的URL)。当操作网站102的服务器接收到列出页面214的结果时,它们能够使用那个URL来确定网站102自己的页面中的哪一个与该结果相对应。如上所述,确定网站102的页面中的哪一个与结果相对应的一种方式是将这些结果中列出的URL与在网站102自己的页面中列出的URL进行匹配。由于网站102具有也包含El Groucho的网站(elgroucho.example.com)的URL的页面204,所以网站102可以确定该页面204对应于与页面214相同的餐馆,这在restaurantreservations.example.com的搜索结果中被返回。因而,网站102可以将它自己的有关El Groucho的页面204呈现在它提供给网站102的访问者的结果中,即使页面204可能从访问者输入的查询中是无法找到的。
图3显示允许站点使用从另一搜索服务提供商接收到的信息来提供站点特定搜索结果的示例处理。在转到图3的描述之前,注意:此处包含的流程图(二者在图3和图4中)参考图1和图2所示的组件通过示例来描述,但是这些处理可以在任何系统中完成并且不限于图1和图2所示的场景。此外,图3-4的流程图中的每一个显示其中处理的各阶段以特定顺序来完成的示例,如利用连接框的线条所示的,但是这些图中所示的各个阶段能够以任何顺序或以任何组合或子组合来执行。
在302,提供可搜索内容的实体接收到来自访问者的访问。例如,如果提供可搜索内容的实体是网站,用户可以使用浏览器来访问该网站。如上面结合图1和图2所描述的,该站点可以提供站点特定搜索功能,其中用户输入查询,以便在那个站点上搜索页面(或其它内容)。在304,可以接收这样的对于站点特定搜索的查询。
在306,该站点对它自己的内容执行站点特定搜索。这样的搜索可以例如使用通过通用网络搜索引擎所提供的站点特定搜索功能来执行。例如,通用网络搜索引擎诸如Google或BING可以向站点提供商提供执行搜索的能力,其中搜索的结果限于在那个站点上的页面。站点特定搜索可以生成第一组结果。
在提供第一组结果给访问者之前,该站点可以尝试利用来自其他搜索服务提供商的信息来扩大那些结果。如上所述,这些其他搜索服务提供商可以是搜索引擎、数据库、提供站点特定搜索的其它网站等。为了以这种方式来扩大这些结果,该站点可以制定将由另一个搜索服务提供商执行的查询(在308)。该查询随后被发送到其它搜索服务提供商(在310)。
其它搜索服务提供商随后可以生成第二组结果,并且这个第二组结果由用户请求对其进行原始搜索的网站来接收回来(在312)。该网站随后可以确定第二结果中的哪些结果与该站点上的页面相对应(在314)。如上所述,确定这种对应关系的一种方式是确定是否与第二组结果中的结果之一相关联的URL对应于与该网站上的任一页面相关联的URL。如果这样的对应关系存在的话,则该网站可能希望返回有关那个项的它自己的网页而不是在其它搜索服务提供商的结果中识别的页面。
因而,该网站创建第三组结果,其基于第一组搜索结果和基于已被确定为对应于出现在第二组结果中的结果的网站上的那些页面(或其它内容)二者。该网站可以通过将第一组结果与识别的对应页面组合在一起来创建这个第三组结果,或者它可以选择以某种方式修改这种组合,以便创建第三组结果。可以在316提供第三组结果给站点访问者。
如上所述,站点特定搜索利用来自另一个搜索服务提供商的结果的能力可以基于在该网站上可用的内容与在其它提供商的搜索结果中出现的内容之间建立对应关系。也如上所述,这种对应关系可以通过确定该网站上的页面和由其它搜索服务提供商返回的页面二者涉及相同的第三方URL(其可以是这两个页面所涉及的实体的URL)来建立。因而,图4显示在页面之间建立对应关系的示例处理。
在402,各个网站上的页面可以被找到。找到页面的处理可以例如通过探测网站以确定在那些站点上什么内容是可用的网络搜索器(crawler)来执行。在404,从那些页面中提取相关URL信息。参考上面的示例,restaurantreservations.example.com/elgroucho可能是涉及El Groucho餐馆的页面,并且那个页面可能涉及El Groucho自己网站(elgroucho.example.com)的URL。在这种情况下,elgroucho.example.com是将提取的相关URL,因为那个URL与底层实体相关联,而有关El Groucho的restaurantreservations.example.com页面与该底层实体相关。
在406,从中提取相关URL的页面与那个页面相关联。这样,所提取的URL充当所提取的URL与之相关的实体的代理,从而允许确定:如果两个页面涉及同一URL的话,这两个页面互相对应。
注意:上述的技术和方法可以被用来提供站点搜索。即,这些技术可以由搜索服务提供商提供来在网站上实现站点特定搜索;在这样的部署中,这些技术给网站提供价值,因为它们允许网站通过利用在别处找到的信息而从它自己的网站提供健壮且准确的结果。然而,这些技术和机制也可以被通用搜索服务提供商(例如,网络搜索引擎)用来通过利用利基(niche)提供商所提供的可搜索内容来增强通用网络搜索结果。(例如,通用网络搜索引擎能够通过利用在餐馆评论或餐馆预订站点上找到的信息来增强其找到餐馆的能力,如上所述)。
图5显示其中可以部署此处描述的主题的各方面的示例环境。
计算机500包括一个或多个处理器502以及一个或多个数据记忆组件504。(一个或多个)处理器502通常是诸如那些在个人台式或膝上型计算机、服务器、手持式计算机或另一类型计算设备中找到的微处理器。(一个或多个)数据记忆组件504是能够或短期或长期存储数据的组件。(一个或多个)数据记忆组件504的示例包括硬盘、可移动盘(包括光盘和磁盘)、易失性和非易失性随机存取存储器(RAM)、只读存储器(ROM)、闪存、磁带等。(一个或多个)数据记忆组件是计算机可读存储媒体的示例。计算机500可以包括显示器512或与显示器512相关联,其中显示器512可以是阴极射线管(CRT)监视器、液晶显示(LCD)监视器或任何其它类型的监视器。
软件可以存储在(一个或多个)数据记忆组件504中,并且可以在一个或多个处理器502上执行。这样的软件的示例是站点特定搜索软件506,其可以实现上面结合图1-4所述的功能中的一些或全部,但是能够使用任何类型的软件。软件506可以例如通过一个或多个组件来实现,这些组件可以是分布式系统中的组件、单独的文件、单独的功能、单独的对象、单独的代码行等。其中程序被存储在硬盘上、被装载到RAM中并在计算机的(一个或多个)处理器上执行的计算机(例如个人计算机、服务器计算机、手持式计算机等)代表图5中所描绘的场景,尽管此处所描述的主题并不限于这个示例。
此处所描述的主题能够被实现为存储在一个或多个数据记忆组件504中并在一个或多个处理器502上执行的软件。作为另一个示例,该主题可以被实现为存储在一个或多个计算机可读存储媒体上的指令。有形媒体诸如光盘和磁盘是存储媒体的示例。这些指令可以存在于非暂时性媒体上。这样的指令当由计算机或其它机器执行时可以导致计算机或其它机器执行方法的一个或多个动作。执行这些动作的指令能够存储在一个介质上,或能够遍布于多个媒体上,以致这些指令可能共同地出现在一个或多个计算机可读存储媒体上,而不管所有的这些指令是否碰巧位于同一介质上。注意:在其上“存储”信号的媒体(其可以被称为“存储媒体”)和截然不同的包含或发送传播信号的媒体之间是有区别的。DVD、闪存、磁盘等是存储媒体的示例。另一方面,信号短暂存在于其上的导线或光纤是暂时性信号媒体的示例。因而,将明白:存储媒体是非暂时性的。
此外,此处描述的任何动作(无论是否在图中显示)可以由处理器(例如,一个或多个处理器502)作为方法的一部分来执行。因而,如果此处描述动作A、B和C,则可以执行包括A、B和C的动作的方法。此外,如果此处描述A、B和C的动作,则可以执行包括使用处理器来执行A、B和C的动作的方法。
在一个示例环境中,计算机500可以通过网络508通信连接到一个或多个其它设备。在结构上可以与计算机500类似的计算机510是能够连接到计算机500的设备的示例,尽管其它类型的设备也可以如此进行连接。
注意:权利要求书中的各个项可以被描述为相互不同的,例如,一个网站可以被描述为“不同”于另一个网站。当两个项是不同的时,将明白它们不是相同的项。例如,如果a.example.com和b.example.com由不同的服务器主办和/或提供不同的内容,则a.example.com和b.example.com是两个不同网站的URL。也将明白:“网络”涉及在表面World Wide Web(万维网)上可用的页面的文集。
虽然该主题以结构特征和/或方法动作特定的语言进行描述了,但是将明白:在所附的权利要求书中定义的主题并不一定限于上述的具体特征或动作。相反,上述的具体特征和动作被披露为实现这些权利要求的示例形式。

Claims (11)

1.一种提供搜索结果的方法,该方法包括:
接收(304)包括第一查询(110)的搜索请求;
搜索(306)第一内容集合(104),以找到满足所述第一查询(110)的所述第一内容集合(104)中的内容项的第一组结果;
创建(308)包括所述第一查询(110)或从所述第一查询(110)中导出的第二查询(126);
发送(310)所述第二查询(126)给搜索服务提供商(114),所述搜索服务提供商搜索不与所述第一内容集合(104)共生的第二内容集合(118);
从所述搜索服务提供商(114)接收(312)基于所述第二查询(126)的第二组结果;
确定(314)所述第一内容集合(104)中的第一内容项对应于所述第二组结果中的第二内容项,其中所述第一内容项涉及不是所述第一内容项的统一资源定位符(URL)的第一URL,其中所述第二内容项涉及不是所述第二内容项的URL的第二URL,并且其中所述确定(314)所述第一内容集合(104)中的第一内容项对应于所述第二组结果中的第二内容项是通过发现所述第一URL与所述第二URL是相同的URL来发现所述第一内容项对应于所述第二内容项;
创建(316)包括所述第一内容项的第三组结果;以及
提供(316)所述第三组结果给用户,其中从所述用户接收到所述搜索请求。
2.如权利要求1所述的方法,其中所述第一内容集合包括由网站提供的内容,并且其中所述第一内容集合的所述搜索是所述网站的站点特定搜索。
3.如权利要求2所述的方法,其中所述第一内容集合包括所述网站,并且其中所述搜索服务提供商是提供内容的利基搜索并用于扩大网络搜索的结果的网站。
4.一种提供搜索结果的装置,该装置包括:
用于接收(304)包括第一查询(110)的搜索请求的单元;
用于搜索(306)第一内容集合(104),以找到满足所述第一查询(110)的所述第一内容集合(104)中的内容项的第一组结果的单元;
用于创建(308)包括所述第一查询(110)或从所述第一查询(110)中导出的第二查询(126)的单元;
用于发送(310)所述第二查询(126)给搜索服务提供商(114)的单元,所述搜索服务提供商搜索不与所述第一内容集合(104)共生的第二内容集合(118);
用于从所述搜索服务提供商(114)接收(312)基于所述第二查询(126)的第二组结果的单元;
用于确定(314)所述第一内容集合(104)中的第一内容项对应于所述第二组结果中的第二内容项的单元,其中所述第一内容项涉及不是所述第一内容项的统一资源定位符(URL)的第一URL,其中所述第二内容项涉及不是所述第二内容项的URL的第二URL,并且其中所述确定(314)所述第一内容集合(104)中的第一内容项对应于所述第二组结果中的第二内容项的单元是通过发现所述第一URL与所述第二URL是相同的URL来发现所述第一内容项对应于所述第二内容项;
用于创建(316)包括所述第一内容项的第三组结果的单元;以及
用于提供(316)所述第三组结果给用户的单元,其中从所述用户接收到所述搜索请求。
5.如权利要求4所述的装置,其中所述第一内容集合包括由网站提供的内容,并且其中所述第一内容集合的所述搜索是所述网站的站点特定搜索。
6.如权利要求4所述的装置,其中所述第一内容集合包括所述网站,并且其中所述搜索服务提供商是提供内容的利基搜索并用于扩大网络搜索的结果的网站。
7.一种用于扩大搜索结果的系统,该系统包括:
存储器(504);
处理器(502);以及
存储在所述存储器(504)中并在所述处理器(502)上执行的组件(506),其中所述组件(506)接收搜索第一内容集合(104)的请求,其中所述请求包括第一查询(110),其中所述组件(506)基于所述第一查询(110)来创建第二查询(126)并发送所述第二查询(126)给搜索第二内容集合(118)的搜索服务提供商(114),其中所述第二内容集合(118)不同于所述第一内容集合(104),其中所述组件(506)从所述搜索服务提供商(114)接收第一组结果,其中所述第一组结果包括不在所述第一内容集合(104)中的第一内容项,其中所述组件(506)确定所述第一内容项对应于在所述第一内容集合(104)中的第二内容项,其中所述组件(506)创建包括所述第二内容项的第二组结果,并且其中所述组件提供所述第二组结果给用户,
其中所述组件基于二者都涉及第一统一资源定位符(URL)的所述第一内容项与所述第二内容项来确定所述第一内容项对应于所述第二内容项,其中所述第一内容项位于不是所述第一URL的第二URL,并且其中所述第二内容项位于不是所述URL的第三URL。
8.如权利要求7所述的系统,其中组件在从所述第一内容集合中提供内容的网站上执行站点特定搜索。
9.如权利要求7所述的系统,其中所述第一内容集合包括网页,其中所述组件被安装在通用搜索引擎中。
10.如权利要求7所述的系统,其中所述第一内容集合包括第一网站中的页面集合,其中所述搜索服务提供商是不同于所述第一网站的第二网站,其中所述第二内容集合包括由所述第二网站提供的内容,并且其中所述组件被安装在主办所述第一网站的服务器上。
11.一种计算机可读介质,具有计算机可读指令来执行权利要求1-3之中任一权利要求的方法。
CN201210043354.5A 2011-02-24 2012-02-24 扩大搜索结果 Active CN102693267B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/034,658 US9898533B2 (en) 2011-02-24 2011-02-24 Augmenting search results
US13/034658 2011-02-24
US13/034,658 2011-02-24

Publications (2)

Publication Number Publication Date
CN102693267A CN102693267A (zh) 2012-09-26
CN102693267B true CN102693267B (zh) 2018-03-30

Family

ID=46719706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210043354.5A Active CN102693267B (zh) 2011-02-24 2012-02-24 扩大搜索结果

Country Status (5)

Country Link
US (1) US9898533B2 (zh)
EP (1) EP2678788A4 (zh)
CN (1) CN102693267B (zh)
TW (1) TW201237659A (zh)
WO (1) WO2012116222A2 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881100B2 (en) * 2013-01-14 2018-01-30 International Business Machines Corporation Scoping searches within websites
US9384286B2 (en) * 2013-03-15 2016-07-05 Paypal, Inc. Composite search results
CN104866483B (zh) * 2014-02-21 2020-02-07 腾讯科技(深圳)有限公司 一种信息检索的方法及装置
CN104834698A (zh) * 2015-04-27 2015-08-12 百度在线网络技术(北京)有限公司 信息推送方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1421011A (zh) * 1999-11-06 2003-05-28 林克普拉斯株式会社 在因特网上的搜索专用网站和搜索方法
US7412442B1 (en) * 2004-10-15 2008-08-12 Amazon Technologies, Inc. Augmenting search query results with behaviorally related items

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913214A (en) 1996-05-30 1999-06-15 Massachusetts Inst Technology Data extraction from world wide web pages
US6321228B1 (en) 1999-08-31 2001-11-20 Powercast Media, Inc. Internet search system for retrieving selected results from a previous search
US6778986B1 (en) 2000-07-31 2004-08-17 Eliyon Technologies Corporation Computer method and apparatus for determining site type of a web site
US7085736B2 (en) 2001-02-27 2006-08-01 Alexa Internet Rules-based identification of items represented on web pages
US7840888B2 (en) 2004-09-16 2010-11-23 Jimmy Jong-Yuan Lin Architecture and methodology of redirection for dynamic new URL links
US7849090B2 (en) 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
CN100442283C (zh) 2005-10-20 2008-12-10 关涛 面向领域基于样本的互联网结构化数据抽取方法及其系统
US7933900B2 (en) 2005-10-23 2011-04-26 Google Inc. Search over structured data
US8832097B2 (en) * 2006-03-06 2014-09-09 Yahoo! Inc. Vertical search expansion, disambiguation, and optimization of search queries
US20080250010A1 (en) 2007-04-05 2008-10-09 Samsung Electronics Co., Ltd. Method and system for determining and pre-processing potential user queries related to content in a network
US20070214119A1 (en) 2006-03-07 2007-09-13 Microsoft Corporation Searching within a Site of a Search Result
US7487144B2 (en) * 2006-05-24 2009-02-03 Microsoft Corporation Inline search results from user-created search verticals
ITBG20070012A1 (it) 2007-02-13 2008-08-14 Web Lion Sas Metodo di ricerca e selezione di siti web
KR20070090858A (ko) 2007-03-15 2007-09-06 세창인스트루먼트(주) 접근 웹사이트에 연동된 인터넷 서비스 시스템 및 그 방법
US7698344B2 (en) * 2007-04-02 2010-04-13 Microsoft Corporation Search macro suggestions relevant to search queries
US8972434B2 (en) * 2007-12-05 2015-03-03 Kayak Software Corporation Multi-phase search and presentation for vertical search websites
US20090254512A1 (en) 2008-04-03 2009-10-08 Yahoo! Inc. Ad matching by augmenting a search query with knowledge obtained through search engine results
US8442974B2 (en) 2008-06-27 2013-05-14 Wal-Mart Stores, Inc. Method and system for ranking web pages in a search engine based on direct evidence of interest to end users
US20100010987A1 (en) * 2008-07-01 2010-01-14 Barry Smyth Searching system having a server which automatically generates search data sets for shared searching
US20100146012A1 (en) * 2008-12-04 2010-06-10 Microsoft Corporation Previewing search results for suggested refinement terms and vertical searches
US20100332491A1 (en) 2009-06-25 2010-12-30 Yahoo!, Inc., a Delaware corporation Method and system for utilizing user selection data to determine relevance of a web document for a search query
US9009135B2 (en) * 2010-01-29 2015-04-14 Oracle International Corporation Method and apparatus for satisfying a search request using multiple search engines
US8832056B2 (en) * 2011-04-21 2014-09-09 Microsoft Corporation Content insertion elements to combine search results
US9275152B2 (en) * 2012-02-22 2016-03-01 Google Inc. Related entities

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1421011A (zh) * 1999-11-06 2003-05-28 林克普拉斯株式会社 在因特网上的搜索专用网站和搜索方法
US7412442B1 (en) * 2004-10-15 2008-08-12 Amazon Technologies, Inc. Augmenting search query results with behaviorally related items

Also Published As

Publication number Publication date
CN102693267A (zh) 2012-09-26
EP2678788A4 (en) 2016-06-01
TW201237659A (en) 2012-09-16
US9898533B2 (en) 2018-02-20
WO2012116222A3 (en) 2012-12-27
WO2012116222A2 (en) 2012-08-30
US20120221551A1 (en) 2012-08-30
EP2678788A2 (en) 2014-01-01

Similar Documents

Publication Publication Date Title
US9773055B2 (en) Query rewriting with entity detection
JP5275238B2 (ja) ユーザの意図の分析に基づきクエリ結果を提供するための方法
KR101037144B1 (ko) 검색 결과의 향상
KR101016683B1 (ko) 검색 결과를 제공하기 위한 시스템 및 방법
US7917489B2 (en) Implicit name searching
CN103235776B (zh) 呈现搜索结果信息
CN104715069B (zh) 一种搜索推荐词的处理方法和装置
US8332426B2 (en) Indentifying referring expressions for concepts
US7720721B1 (en) Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms
JP2013505503A (ja) 高度な検索結果ページコンテンツを提供するためのシステム及び方法
KR101520194B1 (ko) 조사 세션 탐지에 기초한 조사 도구 액세스
CN102693267B (zh) 扩大搜索结果
US9015166B2 (en) Methods and systems for annotation of digital information
US20130173521A1 (en) Knowledge base for service ticketing system
JP2011108034A (ja) 複数の属性を利用したWebページ推薦方法
KR100960709B1 (ko) 키워드 검색 시스템에서 자동화된 온톨로지를 이용한 쇼핑 키워드 출력 시스템 및 방법
WO2023278682A1 (en) Multi-bot digital content retrieval and generation systems
JP2017117022A (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150624

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150624

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

GR01 Patent grant
GR01 Patent grant