CN1716255A - 通过使用页类别信息分散搜索引擎结果 - Google Patents

通过使用页类别信息分散搜索引擎结果 Download PDF

Info

Publication number
CN1716255A
CN1716255A CNA2005100818675A CN200510081867A CN1716255A CN 1716255 A CN1716255 A CN 1716255A CN A2005100818675 A CNA2005100818675 A CN A2005100818675A CN 200510081867 A CN200510081867 A CN 200510081867A CN 1716255 A CN1716255 A CN 1716255A
Authority
CN
China
Prior art keywords
electronic document
data
index
document
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100818675A
Other languages
English (en)
Other versions
CN1716255B (zh
Inventor
B·拉马拉斯纳姆
D·A·沙基博
G·N·赫兰德
N·A·哈米尔顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1716255A publication Critical patent/CN1716255A/zh
Application granted granted Critical
Publication of CN1716255B publication Critical patent/CN1716255B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种用于按类别分散搜索引擎结果的系统和方法。搜索引擎应用程序响应于搜索请求,查询与多个电子文档相关联的文档数据的可搜索索引,以识别具有与包含在该搜索请求中的数据相匹配的文档数据的一个或多个电子文档。该搜索引擎应用程序根据包含在文档数据内的类别数据来分散所识别的电子文档,以向用户显示。

Description

通过使用页类别信息分散搜索引擎结果
(1)技术领域
本发明涉及在数据通信网络上搜索电子文档形式的有关数据的领域。更具体而言,本发明的实施例涉及根据在搜索中找到的电子文档的类别来分散搜索结果。
(2)背景技术
因特网有分布在大量计算机上的大量信息,因而向用户提供大量各种主题的信息。对于诸如内联网和外联网等许多其它通信网络来说这也是真实的。尽管在网络上有大量信息可用,然而找到期望的信息可能并不简单或快捷。
已开发了搜索引擎,来解决在网络上寻找期望信息的问题。一种常规搜索引擎包括爬虫软件(crawler)(也称为蜘蛛软件(spider)或蝇蛆软件(bot)),它在网络上访问电子文档、“阅读”它、随后沿着链接到网站内的其它电子文档。爬虫软件定期返回到该网站以寻找变化。索引是搜索引擎的另一个部分,它存储关于爬虫软件所找到的电子文档的信息。响应于一个或多个用户指定的搜索词,搜索引擎返回该搜索引擎判定为包括涉及用户所指定的搜索词的电子文档的网络位置(例如,统一资源定位器(URL))列表。某些搜索引擎提供信息的类别(例如新闻,web,图像,等等)以及在那些类别内的类别供用户选择,因而用户可集中在这些类别中某关注的区域。
搜索引擎软件通常根据察觉到的相关性,对满足所提交的搜索请求的电子文档进行分级,并提供了依照其等级向用户显示搜索结果的手段。一种典型的相关性分级是对位于一给定网络位置的电子文档与其它电子文档相比,涉及用户指定搜索词的似然性的相对估算。例如,常规搜索引擎可基于特定搜索词在电子文档中出现的次数,及其在该电子文档中的位置(例如,通常认为出现在标题中的词比出现在电子文档结尾处的词更重要)来提供相关性分级。链接分析、锚一文本分析、网页结构分析、使用关键词列表,以及URL文本是对网页及其它超链接文档进行分级的其它已知技术。
当前可用的搜索引擎通常局限于根据觉察到的等级来显示搜索结果。不幸的是,这可能向用户提供了不足的信息,因为等级最高的结果可能全部落入单个信息类别中。例如,许多产品的名称具有一个以上的意思(以行星命名汽车、以水果命名个人计算机等等)。对于用户来说,第一页搜索结果的价值可能取决于该用户是对例如土星还是同名的汽车的信息感兴趣。结果是,用户常常需要细化查询或阅读数页搜索结果,因为在第一页上显示的结果中太多涉及单个主题或类别。
因而,存在对于独立于常规分级在单页搜索结果上显示涉及各种主题或类别的搜索结果的搜索引擎的需求。通过显示这一分散的搜索结果,用户能在第一页结果上查看各种结果。
(3)发明内容
本发明的实施例通过提供对数据通信网络上相关数据的改进搜索等等,克服了现有技术的一个或多个不足。通过响应于搜索请求在第一页搜索结果上向用户显示各种搜索结果,本发明使用户能更容易地在网络上定位相关文档。具体地,本发明的一个实施例按类别分散搜索结果,使得用户可在第一页搜索结果上容易地查看不同类别的搜索结果。通过按类别分散搜索结果,用户无须滚动或转到下一页搜索结果,即可查看各种类别中的结果。并且,通过在第一页搜索结果上按类别分散搜索结果,用户将能够更容易地识别相关结果,并且因而将有更愉快和高产出的搜索体验。此外,此处所描述的本发明的各特征比起当前可用的技术来说,较不艰巨并更易于实现,且在经济上是可行的,在商业上是实际的。
根据本发明的一个方面,提供了一种生成搜索结果的方法。该方法包括从用户接收搜索请求。该方法还包括根据接收到的搜索请求查询可搜索的索引,来识别可能与该搜索请求相关的电子文档。该索引包含与多个电子文档相关联的数据。该文档数据指定与每个电子文档相关联的一个或多个类别。该方法包括根据与所识别的电子文档相关联的一个或多个类别对所述查询的结果进行分类。该方法还包括向用户显示所分类的结果,从而在单页上向用户显示不同类别的一个或多个所识别的电子文档。
根据本发明的另一方面,一种计算机可读介质包括用于生成搜索结果的计算机可执行指令。搜索形式组件从用户接收搜索请求。搜索引擎组件根据接收到的搜索请求查询可搜索的索引,来识别可能与搜索请求相关联的电子文档,并用于对所述查询的结果进行分类。该索引包含与多个电子文档相关联的文档数据。该文档数据指定与每个电子文档相关联的一个或多个类别。结果根据与所识别的电子文档相关联的一个或多个类别来分类。用户界面组件向用户显示经分类的结果,从而在单页上向用户显示不同类别中的一个或多个所识别的电子文档。
根据本发明的另一方面,提供了一种响应于经由客户机计算机从用户接收到的搜索请求来生成搜索结果的系统。该系统包括用于经由客户机从用户接收搜索请求的第一服务器。该第一服务器经由通信网络耦合至客户机。该系统还包括一索引,该索引包含与多个电子文档相关联的文档数据。该文档数据指定与每个电子文档相关联的一个或多个类别。所述第一服务器被配置成根据所接收的搜索请求查询该索引,来识别可能与该搜索请求相关的电子文档,并对所述查询的结果进行分类。结果根据与所识别的电子文档相关联的一个或多个类别来分类,用于向位于客户机处的用户显示,从而在单页上向用户显示不同类别中的一个或多个所识别的电子文档。
根据本发明又一方面,提供了其上存储了可搜索数据结构的一个或多个计算机可读介质。第一字段用于存储表示与位于网络上的电子文档相关联的搜索引擎索引词的数据。该索引词被包括在该电子文档内。第二字段用于存储表示与该电子文档相关联的类别的数据。第三字段用于存储表示该电子文档在网络上的位置的数据。包括在第二字段中的文档数据是根据第一字段来索引的,从而将一个或多个类别与该索引词相关联,且包括在第三字段中的文档数据是根据第二字段来索引的,从而将电子文档的一个或多个位置与一个或多个类别的每一个相关联。
(4)附图说明
图1所示是其中可使用本发明的示例性网络环境的框图。
图2所示是根据本发明的一个实施例用于填充索引的系统的组件的框图。
图3所示是根据本发明的一个实施例的系统的组件的框图,该系统用于按照类别分散搜索结果,以供在第一页上搜索结果上显示。
图4示出搜索结果页的示例性屏幕截图。
图5所示是根据本发明的一个实施例的方法的示例性流程图,该方法用于按类别分散搜索结果,以供在第一页搜索结果上向用户显示。
图6所示是其中可实现本发明的适当的计算系统环境的示例性实施例的框图。
在全部附图中,相应参考字符指相应部分。
(5)具体实施方式
现参考附图,图1示出其中可使用本发明的示例性网络环境100。客户机102被耦合至诸如因特网(或万维网)的数据通信网络104。一个或多个服务器用诸如超文本传输协议(HTTP)等协议,经由网络104与客户机102通信,HTTP是一种在因特网上常用的,用于交换信息的协议。在示出的实施例中,前端服务器106及后端服务器108(例如web服务器或网络服务器)被耦合至网络104。客户机102使用网络104、前端服务器106及后端服务器108来访问例如存储在一个或多个服务器节点110上的网页数据。以此方式,客户机102可经由网络104,来请求对由一个或多个服务器节点110维护的网页数据的访问。
本发明的实施例通过允许响应于用户指定的搜索请求在单页搜索结果上向用户114显示各种搜索结果,提供了对于数据通信网络上相关数据的改进搜索。具体地,本发明的一个实施例按类别分散搜索结果,从而用户114能容易地在第一页搜索结果上查看不同类别的搜索结果。通过按类别分散搜索结果,用户114无须滚动或转到下一页搜索结果,即可查看各种类别内的结果。并且,通过在单页(例如,第一页)搜索结果上按类别分散搜索结果,用户将能够更容易地识别相关结果,并因而将有更愉快和高产出的搜索体验。
在此实施例中,用户114用客户机102来输入搜索请求,该请求包括一个或多个关于特定关注主题的词,用户114想要识别讨论和/或涉及该特定关注主题的电子文档(例如网页)。例如,前端服务器106响应于客户机102,以认证用户114及将来自经认证用户的请求重定向到后端服务器108。
后端服务器108响应于经重定向的搜索请求等,以向一个或多个附属节点服务器110提交查询(每个附属节点服务器链接到包含关于诸如网页等可经由因特网获得的电子文档的信息的中央数据索引(索引)116),来检索可能与用户有关的电子文档(即搜索结果)的数据。并且,每个节点服务器110可包括高速缓冲存储器(未示出),用于存储之前检索的文档数据(即网页数据112)。如在下面参考图2详细解释的,索引116包括关于电子文档的数据,诸如位置(例如链接或URL)、元标签、文本及文档类别。在图1的例子中,在按类别分散从一个或多个附属节点服务器110检索到的搜索结果,及经由客户机102向用户114显示经分散的搜索结果的上下文中描述本发明。值得注意的是,尽管前端服务器106和后端服务器108被描述为网络环境中的不同组件,然而可以理解,单个服务器可以执行两者的功能。
本发明使用搜索引擎应用程序(应用程序)118,该应用程序由后端服务器108执行,以响应于从客户机102接收的搜索请求识别各类别内的网页等(即电子文档)。更具体地,应用程序118从对应于包括在搜索请求中的一个或多个词的索引116,识别各类别内的相关网页,并每个所识别的类别识别最相关网页,以经由客户机102向用户114显示。例如,如果用户输入(即搜索请求)定义词“apple(苹果)”,搜索引擎应用程序118可在水果类别和Apple计算机类别中分散结果。通过经由归类来分散结果,并从每个类别中选择若干最好结果(即,最相关)来显示,允许用户114在单页搜索结果上查看与各种不同类别相关联的最相关网页。
现参考图2,框图示出示例性计算机网络200的组件,该网络用于填充索引116,本发明访问该索引来检索各类别内的搜索结果,以在单页搜索结果上显示。
在一个实施例中,取数服务器(fetching server)204响应于种子数据206来执行取数模块208,以从各个可经由因特网(或万维网)104访问的web服务器210检索诸如网页等HTML文档。如本领域技术人员所知的,种子数据206可包括一URL列表,其每一个都标识维护一个或多个HTML文档的特定web服务器210的位置。取数模块208用种子数据206(即种子URL)来启动网络104(例如万维网)爬行(crawl)。如本文中所使用的,术语“爬行”指检索和分析由种子数据206标识的网页上的内容的过程。例如,在爬行过程中,包括在每个检索到的网页中的URL由取数模块208识别,并用于访问及分析附加网页上的内容。
由于可经由因特网获得的网页的庞大数量,可使用执行取数模块208的多个取数服务器204来检索和分析web网页的内容。例如,可通过域散列来将一组取数服务器204分区。域散列指URL的归一化形式。例如,URL“ http://www.a.com/services”被转换为“http:www.a.com:80”。例如,随即可取此串的10字节散列,且散列串内的特定字节(例如80)用于确定哪个取数服务器将处理散列的该特定分区。换言之,每个取数服务器205负责域散列空间的一个分区。例如,如果有四(4)个取数服务器204,且整个域散列空间的值范围是1-400,则分区可如下分解:
取数服务器1:
低散列:1
高散列:100
取数服务器2:
低散列:101
高散列:200
取数服务器3:
低散列:201
高散列:300
取数服务器4:
低散列:301
高散列:400
因而,在URL转换为“http:www.a.com:80”的情况下,将此特定URL重新分配给取数服务器#1。其后,取数模块208将检索到的电子文档传递给索引构造器模块214。
索引构造器模块214响应于接收到的网页,并可由取数服务器204执行,以对每个检索到的网页的内容进行语法分析来识别文档数据,并为每个接收到的电子文档创建和维护经所识别的文档数据的索引116。在此实施例中,索引116存储于服务器204的存储器216内,且包括各类所识别的数据结构及其模式的有组织的列表。例如,索引构造器214包括特征提取工具217,用于对所获的电子文档进行语法分析以检测结构化数据(例如URL、单词、元标签等等),并向存储器216内的索引116增量地添加表示检测到的结构化数据的索引词。值得注意的是,尽管索引116在上文被描述为在服务器204上的存储器216中维护,然而可构想,索引可在与远程服务器相关联的外部存储介质上维护。
类别工具218被链接到索引116,并根据经语法分析的内容(即所识别的文档数据)及诸如开放式目录项目(ODP)之类的一个或多个外部数据源或关于之前已归类的网页的索引数据,为每个检索到的网页标识一个或多个类别。
如本领域技术人员所知,ODP是最广泛分布的人工分类内容数据库。例如,假设ODP将具有URL www.gs.com的网页分类到商业→金融之下,并将具有URLwww.gs.com/venturecapital/的网页分类到商业→金融→企业家之下。如果给予类别工具218 URL www.gs.com/venturecapital/foo/bar.html进行分类,它将先查询外部数据源和/或索引来寻找匹配URL。如果未找到URLwww.gs.com/venturecapital/foo/bar.html,类别工具218将随即查询外部数据源和/或索引来寻找www.gs.com/venturecapital/foo。最后,如果未找到www.gs.com/venturecapital/foo,类别工具218将检查www.gs.com/venturecapital,并向该网页(即www.gs.com/venturecapital/foo/bar.html)分配类别商业→金融→企业家。www.gs.com自己有一个类别是可能的。较短URL有不同类别也是可能的。例如,www.gs.com可能只是商业→金融。在一特定页被归类后,在索引116内维护为该特定页所标识的类别信息。在索引中指定的所标识数据的类型还可包括:文档来源(即URL)、单词、元标签、超文本传输协议(HTTP)报头中返回的文档数据、资源描述框架(RDF)数据。随同所标识类别一起的可以有分配给该类别的置信度级别。例如,关于夏威夷的旅行页可能有置信度为80%的类别“娱乐\旅行”,及置信度为75%的类别“美国\州\夏威夷”。
分级工具220为特定类别内的文档计算相关性等级。在一个实施例中,分级引擎使用一个或多个基于学习的分类器来确定文档相对于选定类别或主题(诸如汽车)的一个或多个等级,随后将各结果组合以生成总分类和/或等级。各种基于学习的分类器可用于对文档进行分级。此类分类器的例子包括,但不限于,决策树、神经网络、贝叶斯网络、及诸如在共同转让的美国专利第6,192,360中所描述的支持矢量机,该申请的全部公开内容通过引用结合于此。特定文档相对于特定类别所确定的等级可用于在索引内组织文档。
索引116可遍及许多附属服务器224(例如数以百计的附属节点服务器110)而分布,因为单个计算机可能没有足够的存储器来存储大索引。因而,索引116可作为一个或多个文件(例如文档)存储在多个计算机上。此外,每个服务器224(或服务器110)可包括索引116的一个子集。例如,索引116可列出10亿个网络位置,其中网络位置1-1000列在存储于第一附属服务器上的子索引222中,网络位置1001-2000列在存储于另一附属服务器上的第二子索引222中,依此类推。这些文件随后可被串接或链接成一网络位置的长列表,从而这些文件可被当作单个大文件。响应于搜索请求,搜索处理器随即在包括索引116的子集的计算机上发布查询。
在本发明的一个实施例中,索引构造器214例如基于列出的索引词将索引116分区以向各服务器224分发。从而,如果已知索引词在这些文件内的分区,即可确定特定索引词出现的特定文件,即使此索引词出现在一个以上文件中。在本发明的一替换实施例中,索引构造器214可随机或半随机地将索引116分发到各服务器224。对索引116的随机或半随机的分发可提供各查询处理器间的有效负载平衡。可防止特定查询处理器因为例如常用词搭配而比其它查询处理器处理多很多的查询。因而,通过随机或半随机地分发索引116,可在各查询处理器间更平均且可预测地划分查询处理。
为遍及多个服务器而分布索引116,索引构造器214将索引116划分成块。特别地,索引构造器214通过将从检测到的结构化数据确定的索引词编译为索引块,并将各块分发到各计算机,来创建索引116。索引构造器214周期性地将新索引块堆栈到索引116中。即,索引构造器214周期性地(例如1分钟5次)将较小的、增量索引片段并入较大的索引116中。
在本发明的一个实施例中,为了将表示更新的数据(即,早先获得并经语法分析的电子文档可包括新的或更新的结构化数据)的新索引块并入索引116中,索引构造器214首先提取新块。随后,索引构造器214在该组新块内检测到第一索引词。索引构造器再将该组新块上与此索引词相关联的各网络位置及属性组合成单个列表。索引构造器214随后将此列表插入到新的索引文件中。并且,当其将新索引块并入索引116时,索引构造器214周期性地从可更新索引116中移除旧的索引块。此外,在索引构造器214并入新索引块前,这些新块可能无法用于查询处理器的查询。但在索引构造器214将新块并入索引116后,新合并的索引116可用于查询。为了在查询时帮助确定两个页是否等同并消除重复,将使用卵石纹(shingle print)。卵石纹是由6个16位无符号值组成。每个16位值表达两个文档间的实质句法相似性。例如,当两个文档间底层的相似性大于95%时,6个卵石中的4个总会匹配。
现参考表格1,示出包括在示例性索引116中的文档数据。
  C1   C2   C3   C4   C5
  词   类别ID   文档ID   等级   摘要描述
 R1   APPLE   2   168   90   苹果和更多苹果脯
 R2   2   402   85   苹果与苹果的营养烹饪
 R3   2   302   80   简单水果色拉
 R4   4   102   90   MC计算机
 R5   4   202   88   个人计算机
 R6   4   205   75   比较APPLETM
 R7   WASHINGTON_STATE   5   307   95   欢迎来华盛顿州观光
 R8   5   308   90   华盛顿州立大学
 R9   5   315   30   华盛顿州APPLE代理
 R10   SATURN   7   218   100   Saturn.com展厅
 R11   7   225   98   SATURN汽车经销商
 R12   7   250   80   汽车评论
 R13   12   405   99   土星-从太阳起第六颗行星
 R14   12   410   95   土星-行星
 R15   12   412   90   土星事件
                                         表1
如上面参考图1和2所描述的,索引116包含关于在爬行过程中识别的多个电子文档的文档数据。每一列(C1-C5)对应于特定电子文档的各个数据字段的值。每一行(R1-R5)对应于一特定电子文档。在此例中,索引包括一唯一索引词(即单词)列表。接着该唯一索引词后面的是一类别标识符(类别ID)列表,其每一个都代表一特定类别,具有该唯一索引词的电子文档被分配到该类别。类别ID是唯一地标识特定类别的指定字节值(例如4字节)。唯一类别ID可用于查询或聚合目的。例如,由诸如ODP等类别数据源分配的每一类别也被分配唯一类别ID。例如,表1中所列出的值为2的类别ID对应于水果类别(例如,见位于表1中R1和C2的单元格;以下称作R1C2)。在一个实施例中,索引116被链接到包含类别名及其对应类别ID的列表的查找表。因而,给定类别ID,索引构造器214响应于搜索请求来查询该表,并快速检索特定类别ID的类别名。此外,给定类别ID,索引构造器214能识别该类别的所有父类别及该类别的所有子类别。例如,参考上面参考图1所讨论的例子,如果用户输入对应于属类别“商业→金融→”的网页的搜索词,则搜索引擎应能显示诸如商业→金融→抵押等所有来自此类别的各子类别的结果。
作为另一个例子,如果响应于初始搜索词所检索到的搜索结果在类别汽车→Saturn内,则用户可选择查看类别汽车→Saturn下的更多结果的选项。在此例中,分散在Saturn下的子类别层上发生。子类别可包括二手车、经销商、维修、型号细节等。相反,当用户输入Saturn作为初始搜索词,分散在顶层发生,并且因为类别在顶层不同,所以检索到不同的搜索结果。例如,结果可以在类别汽车→Saturn、科学→行星→土星或娱乐→星相→星座等之下。换言之,取决于查询词,用户能看到顶层类别或子类别的搜索结果。结果是,允许用户缩小搜索结果或滤出类别,从而以分散的格式向用户示出各关注类别内的搜索结果。
类别ID之后可以是出现唯一索引词的具有类别ID的电子文档的文档ID列表。文档ID可以是URL或代表该URL的域散列的形式。此外,文档ID之后可以是由该文档ID代表的电子文档的索引词的属性列表。此类属性可用于确定搜索结果中电子文档的相关性等级。例如,相关性等级可对应于特定文档相对于特定类别的相关性等级属性,如由分级工具220所确定的。此外,文档ID属性之后可以是内容块数据,该数据对应于由索引116维护的每一特定文档ID的上下文描述或摘录。即,内容块数据包括又文档ID标识的每一网页的摘要描述信息,以通过显示器向用户显示。
如表1所示,索引116的示例性部分包括索引词“Apples”(见R1C1)。此索引词之后是存在对应于索引词“Apples”的文档数据的类别ID的列表。在此例中,类别ID值2和4(分别见R1-R3C2及R4-R6C2)对应于词“Apple”。每个类别ID之后是具有特定类别ID的电子文档的文档ID列表,对应于该特定索引词的文档数据存在于该电子文档中。结果是,可根据对应于在索引中列出的特定词的每一类别ID来对文档ID进行分组。例如,对应于索引词“State-Washington”的文档数据存在于具有文档ID 307、308和315的电子文档中。表1中还示出,索引116的示例性部分包括后面跟着类别ID列表的索引词“Saturn”,每个类别ID后都跟着出现对应于此索引的文档数据的电子文档的文档ID列表。
接下来参考图3,示例性框图示出根据本发明的一个实施例的客户机102、应用程序服务器304(例如后端服务器108)及一个或多个附属服务器110的组件。
客户机应用程序306允许用户114经由通信网络104从服务器304检索HTML文档。客户机应用程序306可由客户机102执行,并响应于要初始化对此类HTML文档(即web表单)310的检索的用户输入数据。本领域技术人员应当理解,客户机应用程序306可以是诸如由微软公司提供的Internet Explorer浏览器等的web浏览器。用户114通常使用客户机应用程序306来联系服务器304,以检索接受来自用户114的数据的web表单310。
链接到客户机102的用户界面(UI)314允许用户114与检索到的web表单310交互。例如,UI314可包括诸如计算机监视器等用于查看web表单310的显示器316,及诸如键盘或定位设备(例如,鼠标、跟踪球、笔或触摸垫)等用于如319所示将数据输入到web表单310中的输入设备318。换言之,UI314允许用户114在家里的客户机上定义搜索数据,并允许用户114向服务器304递交请求,以在由每个附属服务器110维护的索引数据112(或子索引数据222)中搜索所定义的数据。
在此示例性实施例中,应用程序服务器304既认证用户请求,又向经认证用户提供web资源和/或服务(例如,担当前端服务器106和后端服务器108)。搜索引擎应用程序322响应于用户搜索请求,并可由应用程序服务器304执行以向由每个附属服务器110维护的索引数据112查询匹配所定义的搜索数据的文档数据。例如,使用客户计算机102的用户将词“apples”输入到web表单,并向服务器304提交对词“apple”的搜索请求。搜索引擎应用程序322包括用于查询在索引数据112中列出的索引词的查询指令324,以识别与由用户定义的搜索数据相匹配的索引词。如果找到匹配的索引词,则搜索引擎应用程序322执行检索指令325,以从该索引中检索相应类别ID数据、文档ID数据、属性数据及内容块数据。搜索引擎322包括用于在显示器316上向用户显示诸如图4中所示的搜索结果表单的分散指令326。所显示的搜索结果包括关于由对应于匹配的索引词的特定文档ID标识的电子文档的摘要描述信息(即内容块数据)
在一个实施例中,分散指令326生成搜索结果表单,其中显示了在接近匹配索引词的索引中列出的每一类别ID的预定数量的文档ID的内容块数据。举例来说,对于搜索词“apple”,分散指令326可为下面与词“apple”相关联各类别的每一个生成最多显示5个链接的表单328:商业或制造业(例如Apple计算机)、烹饪食谱、科学/健康、及农业。再次参考表1,所生成的搜索结果表单可包括诸如在图1中所示的索引中列出的摘要描述数据之类的内容块数据。此外,为被识别为具有匹配词的每个电子文档所显示的链接和/或内容数据可根据特定类别在列表中分组,并根据与列出的接近对应于该特定类别的类别ID的每个文档ID相关联的相关性等级来组织。例如,对于搜索词“apple”,具有摘要描述“苹果和更多苹果脯”的电子文档将出现在涉及水果类别(即类别ID=2)的分组列表的顶部,具有摘要描述“苹果与苹果的营养烹饪”的电子文档将在此特定分组中下一个出现,具有摘要描述“简单水果色拉”的电子文档将出现在此特定分组的底部。因而,即使用户114定义的搜索词与各种各样的类别相关联,来自不同类别的最佳结果会在搜索结果的第一页上提供给用户,从而用户可容易地识别期望的结果。
在另一实施例中,在搜索结果表单上向用户114显示的搜索结果的数量是在接近匹配索引词的索引数据112中列出的类别ID(即类别)的数量的函数。例如,如果共列出3个接近匹配索引词的类别ID,将经由搜索结果表单向用户114显示对应于具有前1/3(33.33%)相关性等级值的文档ID的内容块数据。换言之,即使由用户定义的搜索词与各种各样的主题(即类别)相关联,在单页搜索结果上向用户114提供来自不同类别的结果,从而用户可容易地识别期望的结果。
在又一实施例中,搜索引擎应用程序322包括广告检索指令330。广告检索指令330响应于检索到的类别ID数据,并可由应用程序服务器304执行,以向第三方数据源322查询涉及一个或多个所识别类别的广告信息,以在搜索结果表单上向用户显示。例如,如果类别ID数据指定汽车类别,则广告指令330查询第三方数据源,并显示涉及汽车制造商的广告标题。作为另一例子,再次参考表1,如果匹配索引词为“Saturn”(见R1:C10),对应类别ID数据字段之一的值为“7”(见R2:C10),在此例中,该值指示汽车类别。广告指令330可显示Saturn汽车经销商的广告信息。
接下来参考图5,示例性流程图示出一种按类别分散搜索结果以在单页搜索结果上向用户显示的方法。在502,诸如搜索引擎应用程序118等应用程序从用户114接收搜索请求。该搜索请求由用户定义,并指定可能出现,或可期望出现在可经由因特网获得的一个或多个期望网页中的一个或多个词(例如,单个单词、多个单词)。在504,搜索引擎应用程序118查询存储包括多个已知网页的索引词的文档数据的索引116,以识别具有匹配指定索引词的索引词的一个或多个已知网页。在506,搜索引擎应用程序118为经识别的一个或多个网页的每一个,从所存储的文档数据中识别类别和文档位置。在508,搜索引擎应用程序118为所识别的一个或多个文档的每一个,从所存储的文档数据中确定分级或等级值。该分级,或等级值,表示特定的所识别文档与特定的所识别类别的相关性。在510,该过程从所存储的文档数据中识别摘要描述,以作为每个所识别文档的搜索结果来显示。在512,搜索引擎应用程序118分散搜索结果,使得例如,在第一页搜索结果上向用户显示每个所识别类别的预定数量的搜索结果。换言之,在第一页搜索结果上,为每个所识别类别显示一组搜索结果。搜索结果还可包括根据一公共识别类别分组的所识别文档位置(例如文档ID),以随摘要描述一起呈现给用户。在一个较佳实施例中,分组的搜索结果被组织,使得以按照其相应等级值的序列来组织在特定类别分组中显示的每一文档ID和/或摘要描述。
现参考图6,示出计算机130形式的通用计算设备的一个例子。在本发明的一个实施例中,诸如计算机130等的计算机适用于本文示出及描述的其它图。计算机130有一个或多个处理器或处理单元132及系统存储器134。在示出的实施例中,系统总线136将包括系统存储器134在内的各种系统组件耦合到处理器132。总线136代表若干类型总线结构的任意一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口、及使用各种总线体系结构的任一种的处理器或局部总线。作为示例,而非限制,此类体系结构包括工业标准体系结构(ISA)、微通道体系结构(MSA)、增强ISA(EISA)、视频电子技术标准协会(VESA)局部总线、外围部件互联(PCI)总线(但也称Mezzanine总线)。
计算机130通常有至少某种形式的计算机可读介质。包括易失性和非易失性介质、可移动和不可移动介质的计算机可读介质可以是可由计算机130访问的任何可用介质。作为例子而非限制,计算机可读介质包含计算机存储介质与通信介质。计算机存储介质包括以任何方法或技术实现的、用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等的信息的易失性和非易失性、可移动和不可移动介质。例如,计算机存储介质包括RAM、ROM、EEPROM、闪存或其它存储器技术,CD-ROM、数字多功能盘(DVD)或其它光盘存储,磁带盒、磁带、磁盘存储或其它磁存储设备,或可用于存储期望信息、并可由计算机130访问的任何其它介质。通信介质通常在诸如载波或其它传输机制等的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,还包括任何信息传输介质。本领域的技术人员熟悉已调制信号,其一个或多个特性按在信号中编码信息的方式设置或改变。诸如有限网络或直线链接的有线介质,及诸如声学、RF、红外及其它无线介质的无线介质是通信介质的例子。以上任何的组合也包括在计算机可读介质的范畴之内。
系统存储器134包括可移动和/或不可移动、易失性和/或非易失性形式的计算机存储介质。在示出的实施例中,系统存储器134包括只读存储器(ROM)138和随机存取存储器(RAM)140。包含诸如在启动时帮助在个人计算机130内部各元件间传递信息的基本例程的基本输入/输出系统142(BIOS)储存在ROM 138中。RAM 140通常包含可由处理单元132立即访问和/或当前正在操作的数据和/或程序模块。作为例子,而非限制,图6示出了操作系统144、应用程序146、其它程序模块148,及程序数据150。
计算机130还可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。例如,图6示出读或写不可移动、非易失性磁介质的硬盘驱动器154。图6还示出读或写可移动、非易失性磁盘158的磁盘驱动器156,以及读或写诸如CD-ROM或其它光介质等的可移动、非易失性光盘162的光盘驱动器162。可用于示例性操作环境的其它可移动/不可移动、易失性/非易失性计算机存储介质包括,但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM、等等。硬盘驱动器154、磁盘驱动器156和光盘驱动器160通常由诸如接口166等的非易失性存储器接口连到系统总线136。
上面讨论并在图6中示出的驱动器或其它大容量存储设备及其相关联的计算机存储介质为计算机130提供了计算机可读指令、数据结构、程序模块及其它数据的存储。例如,在图6中,示出硬盘驱动器154存储了操作系统170、应用程序172、其它程序模块174、及程序数据176。注意这些组件与操作系统144、应用程序146、其它程序模块148、及程序数据150可以相同或相异。这里给操作系统170、应用程序172、其它程序模块174、及程序数据176不同的标号来示意它们至少是不同的副本。
用户可通过诸如键盘180和定位设备182(例如鼠标、追踪球、笔或触摸垫)等的输入设备或用户界面选择设备将命令和信息输入到计算机130内。其它输入设备(未示出)可包括话筒、操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些及其它输入设备通过耦合到系统总线136的用户输入接口184连到处理单元132,但也可通过诸如并行端口、游戏端口、或通用串行总线(USB)等其它接口和总线结构连接。监视器188或其它类型的显示设备也经由诸如视频接口190等的接口连到系统总线136。除了监视器188之外,计算机常包括诸如打印机或扬声器等的其它外围输出设备(未示出),它们可通过输出外围接口(未示出)连接。
计算机130可使用到诸如漫游客户机194等的一个或多个漫游客户机的逻辑连接在联网环境中操作。漫游客户机194可以是个人计算机、服务器、路由器、网络PC、对等设备或其它普通网络节点,且通常包括对于计算机130所描述的许多或全部元件。图6中描绘的逻辑连接包括局域网(LAN)196和广域网(WAN)198,但还可包括其它网络。诸如此类的网络环境常见于办公室、企业范围计算机网络、内联网及全球计算机网络(例如因特网)。
当用于局域网环境中时,计算机130通过网络接口或适配器186连到LAN196。当用于广域网环境中时,计算机130通常包括调制解调器178或通过诸如因特网等的WAN198建立通信的其它装置。可以为内置或外置的调制解调器178经由用户输入接口184或其它适当机制连到系统总线136。在联网环境中,对于计算机130所描绘的程序模块或其部分,可存储在远程记忆存储设备中(未示出)。作为例子,而非限制,图6将远程应用程序192示为驻留在存储器设备上。应当理解,所示网络连接是示例性的,且可使用在各计算机间建立通信链路的其它装置。
一般而言,计算机130的数据处理器是通过指令来编程的,这些指令在不同时刻存储在计算机的各种计算机可读存储介质内。程序和操作系统通常分布在例如磁盘或CD-ROM上。从那里,它们被安装或加载到计算机的次级存储器中。在执行时,它们至少被部分地加载到计算机的主电子存储器中。当这些及其它各种类型的计算机可读存储介质包含用于实现在下面联合微处理器或其它数据处理器描述的步骤的指令或程序时,本文描述的发明包括此类介质。当根据本文描述的方法和技术编程时,本发明还包括计算机本身。
出于示意的目的,诸如操作系统等的程序或其它可执行程序组件在此被示为分离的框。然而应当理解,此类程序及组件在各个时间驻留在计算机的不同存储组件内,并由计算机的数据处理器执行。
尽管联合包括计算机130的示例性计算系统环境描述,但本发明可配合许多其它通用或专用计算系统环境或配置来运行。该计算系统环境并不试图对本发明的使用范围或功能提出任何限制。并且,该计算系统环境不应被解释为对于在该示例性操作环境中示出的任一组件或其组合有任何依赖性或要求。可适用于本发明的众所周知的计算系统、环境、和/或配置的例子包括,但不限于,个人计算机、服务器计算机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型主机、包括任何上述系统与设备的分布式计算环境,等等。
可以在诸如由一个或多个计算机或其它设备执行的程序模块等的计算机可执行指令的通用环境中描述本发明。一般而言,程序模块包括,但不限于,执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、及数据结构。还可在分布式计算环境中实施本发明,其中任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可同时位于包括记忆存储设备的本地及漫游客户机存储介质内。
在运行时,计算机130执行诸如那些示于图5中的计算机可执行指令来生成搜索结果。
当介绍本发明或其实施例的元素时,冠词“一”、“一个”、“该”、“所述”旨在意味着有一个或多个元素。术语“包含”、“包括”、“具有”旨在为包含性的,并意味着可能有除列出元素之外的其它元素。
考虑到上文,可看到,达到了本发明的若干目的,并获得了其它有利结果。
因为可在结构和方法中作各种改变而不会脱离本发明的范畴,包含在上面描述及在附图中示出的所有内容旨在被解释为包容性的,而非限制性的。

Claims (23)

1.一种生成搜索结果的方法,其特征在于,包含:
从用户接收搜索请求;
根据接收到的搜索请求查询可搜索索引,以识别可能与所述搜索请求相关的电子文档,所述索引包含与多个电子文档相关联的文档数据,所述文档数据指定与每个电子文档相关联的一个或多个类别;以及
根据与所识别的文档相关联的一个或多个类别对所述查询的结果进行分类;
向用户显示经分类的结果,从而在单页上向用户显示不同类别中的一个或多个所识别的电子文档。
2.如权利要求1所述的方法,其特征在于,所述文档数据包括与每个电子文档相关联的、相对于一个或多个类别等级值,所述等级值存储在所述索引内,并表示特定电子文档与特定类别的相关性,且其中,所述显示包括根据所述等级值显示每个不同类别中预定数量的的所识别的电子文档。
3.如权利要求2所述的方法,其特征在于,所述显示包括根据不同类别的总数以及每个不同类别中每个所识别的电子文档的等级值的来显示经分类的结果。
4.如权利要求2所述的方法,其特征在于,所述显示包括按组显示经分类的结果,每个组对应于一特定类别,且每个组基于与该特定类别中每个所识别的电子文档相关联的等级值,按降序列出该特定类别中所识别的电子文档的描述。
5.如权利要求2所述的方法,其特征在于,每个电子文档包含以下的一个或多个下列:网页和多媒体文件。
6.如权利要求1所述的方法,其特征在于,查询可搜索索引还包括查询第三方数据源,以检索与不同类别有关的广告数据,且其中,显示经分类的结果还包括相对于所识别的电子文档的不同类别来显示所检索的广告数据。
7.一种包含用于生成搜索结果的计算机可执行指令的计算机可读介质,其特征在于,包含:
搜索表单组件,用于从用户接收搜索请求;
搜索引擎组件,用于根据所接收的搜索请求查询可搜索索引,以识别可能与搜索请求相关的电子文档,并用于对所述查询的结果进行分类,所述索引包含与多个电子文档相关联的文档数据,所述文档数据指定与每个电子文档相关联的一个或多个类别,所述结果是根据与所识别的电子文档相关联的一个或多个类别来分类的;以及
用户界面组件,用于向用户显示经分类的结果,从而在单页上向用户显示不同类别内的一个或多个所识别的电子文档。
8.如权利要求7所述的计算机可读介质,其特征在于,所述文档数据包括与每个电子文档相关联的、相对于一个或多个类别等级值,所述等级值存储在所述索引内,并表示特定电子文档与特定类别的相关性,且其中,所述用户界面组件被配置成根据所述等级值来显示每个不同类别中的预定数量的的所识别的电子文档。
9.如权利要求8所述的计算机可读介质,其特征在于,所述用户界面组件还被配置成根据不同类别的总数以及每个不同类别中的每个所识别的电子文档的等级值来显示经分类的结果。
10.如权利要求8所述的计算机可读介质,其特征在于,所述用户界面组件还被配置成按组显示经分类的结果,每个组对应于一特定类别,且每个组基于与该特定类别中每个所识别的电子文档相关联的等级值,以降序列出该特定类别中所识别的电子文档的描述。
11.如权利要求7所述的计算机可读介质,其特征在于,所述搜索引擎组件还被配置成查询第三方数据源以检索与不同类别有关的广告数据,且其中,所述用户界面组件还被配置成相对于所识别的电子文档的不同类别来显示所检索的广告数据。
12.一种用于响应于从用户接收到搜索请求生成搜索结果的系统,所述用户经由客户机生成所述搜索请求,所述系统包含:
用于经由客户机从用户接收搜索请求的第一服务器,所述第一服务器经由通信网络耦合到所述客户机;
包含与多个电子文档相关联的文档数据的索引,所述文档数据指定与每个电子文档相关联的一个或多个类别;以及
其中,所述第一服务器被配置成根据接收到的搜索请求查询所述索引,以识别可能与搜索请求相关的电子文档,并对所述查询的结果进行分类,所述结果是根据与所识别的电子文档相关联的一个或多个类别来分类的,以在客户机处向用户显示,从而在单页上向用户显示不同类别中的一个或多个所识别的电子文档。
13.如权利要求12所述的系统,其特征在于,所述文档数据包括与每个电子文档相关联的、相对于一个或多个类别等级值,所述等级值存储在所述索引内,并表示特定电子文档与特定类别的相关性,并且其中,根据所述等级值来显示每个不同类别中预定数量的所识别的电子文档。
14.如权利要求13所述的系统,其特征在于,所述经分类的结果是根据不同类别的总数以及每个不同类别中每个所识别的电子文档的等级值来显示的。
15.如权利要求13所述的系统,其特征在于,所述经分类的结果是按组显示的,每组对应于一特定类别,且每个组基于与该特定类别中每个所识别的电子文档相关联的等级值,以降序列出该特定类别中的所识别的电子文档的描述。
16.如权利要求12所述的系统,其特征在于,所述第一服务器被配置成向客户机提供web表单,用于从用户接收搜索请求。
17.如权利要求12所述的系统,其特征在于,所述第一服务器还被配置成查询第三方数据源以检索与不同类别有关的广告数据,且其中,相对于所识别的电子文档的不同类别来显示检索到的广告数据。
18.如权利要求12所述的系统,其特征在于,包含在所述索引内的文档数据被分区并被传输到多个子索引用于存储,所述多个子索引的每一个在多个附属服务器上维护,且其中,所述第一服务器响应于接收到的搜索请求,来查询所述多个子索引中的至少一个,以识别不同类别中的一个或多个电子文档。
19.一个或多个其上存储有可搜索数据结构的计算机可读介质,所述数据结构包含:
第一字段,用于存储表示与位于网络上的电子文档相关联的搜索引擎索引词的数据,所述索引词包括在所述电子文档内;
第二字段,用于存储表示与所述电子文档相关联的类别的数据;
第三字段,用于存储表示所述电子文档在网络上的位置;以及
其中,根据第一字段来索引包括在第二字段内的文档数据,使得一个或多个类别与该索引词相关联,并且其中,根据第二字段来索引包括在第三字段内的文档数据,使得一个或多个电子文档的位置与一个或多个类别的每一个相关联。
20.如权利要求19所述的计算机可读介质,其特征在于,所述数据结构还包括表示与所述电子文档相关联的等级值的第四字段,所述等级值表示特定电子文档与特定类别的相关性,且其中,根据第三字段来索引包括在第四字段中的文档数据,使得一个或多个等级与每个和特定类别相关联的电子文档相关联。
21.如权利要求19所述的计算机可读介质,其特征在于,一应用程序被配置成接收搜索所述索引的搜索请求,以确定存储在第一字段中的索引词是否与所接收的搜索请求内指定的查询数据相匹配,其中,如果存储在第一字段内的索引词与所述查询数据相匹配,所述应用程序还被配置成识别在第二字段内指定的对应类别,并识别存储在第三字段内的对应文档位置,且其中,所述应用程序向用户提供包括所识别的文档位置的搜索结果,且其中,所述搜索结果按类别分组。
22.如权利要求21所述的计算机可读介质,其特征在于,所述数据结构还包括表示与已知电子文档相关联的摘要描述的第五字段,且其中,由所述应用程序向用户提供的分组搜索结果包括与该电子文档相关联的摘要描述。
23.如权利要求19所述的计算机可读介质,其特征在于,所述文档数据还包括下列的一个或多个:超文本传输协议(HTTP)报头中的数据、元标签、可扩展标记语言(XML)数据、及资源描述框架(RDF)数据。
CN2005100818675A 2004-07-01 2005-07-01 通过使用页类别信息分散搜索引擎结果 Expired - Fee Related CN1716255B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/883,460 2004-07-01
US10/883,460 US7428530B2 (en) 2004-07-01 2004-07-01 Dispersing search engine results by using page category information

Publications (2)

Publication Number Publication Date
CN1716255A true CN1716255A (zh) 2006-01-04
CN1716255B CN1716255B (zh) 2012-01-11

Family

ID=34979176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100818675A Expired - Fee Related CN1716255B (zh) 2004-07-01 2005-07-01 通过使用页类别信息分散搜索引擎结果

Country Status (8)

Country Link
US (1) US7428530B2 (zh)
EP (1) EP1612704A1 (zh)
JP (1) JP2006018843A (zh)
KR (1) KR101183312B1 (zh)
CN (1) CN1716255B (zh)
BR (1) BRPI0502537A (zh)
CA (1) CA2511098C (zh)
MX (1) MXPA05007079A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207963A (zh) * 2011-05-30 2011-10-05 何吴迪 一种云计算视窗平台的搜索后即时智能导航技术方法
CN102236719A (zh) * 2011-07-25 2011-11-09 西交利物浦大学 基于网页分类的网页搜索引擎及快速查找方法
CN102426511A (zh) * 2010-11-16 2012-04-25 微软公司 系统级搜索的用户界面
CN102480524A (zh) * 2010-11-26 2012-05-30 中国科学院声学研究所 一种网页爬虫协作方法
CN101770481B (zh) * 2008-12-31 2013-12-25 北京联想软件有限公司 搜索终端装置、搜索方法
CN103995881A (zh) * 2014-05-28 2014-08-20 百度在线网络技术(北京)有限公司 搜索结果的展现方法及装置
CN104021125A (zh) * 2013-02-28 2014-09-03 阿里巴巴集团控股有限公司 一种搜索引擎排序的方法、系统以及一种搜索引擎
CN104424233A (zh) * 2013-08-26 2015-03-18 联想(北京)有限公司 一种信息处理方法和装置
CN104462138A (zh) * 2013-09-24 2015-03-25 腾讯科技(深圳)有限公司 一种媒介交互方法、装置和系统
CN106294436A (zh) * 2015-05-27 2017-01-04 富泰华工业(深圳)有限公司 网页评论分类方法、系统及网页管理装置
CN107256275A (zh) * 2011-11-02 2017-10-17 微软技术许可有限责任公司 路由查询结果
US10073927B2 (en) 2010-11-16 2018-09-11 Microsoft Technology Licensing, Llc Registration for system level search user interface
CN108780440A (zh) * 2016-03-15 2018-11-09 电子湾有限公司 类别管理
CN109284460A (zh) * 2018-11-02 2019-01-29 张康德 两种类型第三级的搜索方法及淘宝京东等改革
CN109446445A (zh) * 2018-10-23 2019-03-08 乐蜜有限公司 一种资源获取方法及装置
US10346479B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Facilitating interaction with system level search user interface
US10346478B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Extensible search term suggestion engine
CN111580881A (zh) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 文件加载方法、装置和电子设备
CN111666369A (zh) * 2020-05-22 2020-09-15 安徽省交通控股集团有限公司 一种基于桥梁的三维模型构件索引文档的方法
US11281846B2 (en) 2011-11-02 2022-03-22 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396824B2 (en) 1998-05-28 2013-03-12 Qps Tech. Limited Liability Company Automatic data categorization with optimally spaced semantic seed terms
US7711672B2 (en) 1998-05-28 2010-05-04 Lawrence Au Semantic network methods to disambiguate natural language meaning
US6883135B1 (en) * 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US20080189408A1 (en) 2002-10-09 2008-08-07 David Cancel Presenting web site analytics
US10296919B2 (en) 2002-03-07 2019-05-21 Comscore, Inc. System and method of a click event data collection platform
US8095589B2 (en) * 2002-03-07 2012-01-10 Compete, Inc. Clickstream analysis methods and systems
US7640267B2 (en) 2002-11-20 2009-12-29 Radar Networks, Inc. Methods and systems for managing entities in a computing device using semantic objects
US7403939B1 (en) 2003-05-30 2008-07-22 Aol Llc Resolving queries based on automatic determination of requestor geographic location
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US8775436B1 (en) * 2004-03-19 2014-07-08 Google Inc. Image selection for news search
US7716216B1 (en) 2004-03-31 2010-05-11 Google Inc. Document ranking based on semantic distance between terms in a document
EP1754146A4 (en) 2004-04-26 2009-04-22 Google Inc METHOD AND SYSTEMS FOR DYNAMICALLY CREATING DISTRIBUTED INTERACTIVE APPLICATIONS FROM HIGH PROGRAMMING LANGUAGES
US7562069B1 (en) * 2004-07-01 2009-07-14 Aol Llc Query disambiguation
US7519595B2 (en) * 2004-07-14 2009-04-14 Microsoft Corporation Method and system for adaptive categorial presentation of search results
US7921226B2 (en) * 2004-07-20 2011-04-05 Alcatel-Lucent Usa Inc. User specific request redirection in a content delivery network
US7873622B1 (en) 2004-09-02 2011-01-18 A9.Com, Inc. Multi-column search results interface
US8341143B1 (en) 2004-09-02 2012-12-25 A9.Com, Inc. Multi-category searching
GB2418037B (en) * 2004-09-09 2007-02-28 Surfcontrol Plc System, method and apparatus for use in monitoring or controlling internet access
GB2418108B (en) 2004-09-09 2007-06-27 Surfcontrol Plc System, method and apparatus for use in monitoring or controlling internet access
GB2418999A (en) * 2004-09-09 2006-04-12 Surfcontrol Plc Categorizing uniform resource locators
US20060059225A1 (en) * 2004-09-14 2006-03-16 A9.Com, Inc. Methods and apparatus for automatic generation of recommended links
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7716198B2 (en) * 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US9760629B1 (en) * 2004-12-29 2017-09-12 Google Inc. Systems and methods for implementing a news round table
US7818314B2 (en) * 2004-12-29 2010-10-19 Aol Inc. Search fusion
US7349896B2 (en) * 2004-12-29 2008-03-25 Aol Llc Query routing
US7272597B2 (en) 2004-12-29 2007-09-18 Aol Llc Domain expert search
US8510325B1 (en) * 2004-12-30 2013-08-13 Google Inc. Supplementing search results with information of interest
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
WO2006107141A1 (en) * 2005-03-04 2006-10-12 Chutnoon Inc. Server, method and system for providing information search service by using sheaf of pages
US8019749B2 (en) * 2005-03-17 2011-09-13 Roy Leban System, method, and user interface for organizing and searching information
JP4368336B2 (ja) * 2005-07-13 2009-11-18 富士通株式会社 カテゴリ設定支援方法及び装置
US9105028B2 (en) 2005-08-10 2015-08-11 Compete, Inc. Monitoring clickstream behavior of viewers of online advertisements and search results
US8849830B1 (en) * 2005-10-14 2014-09-30 Wal-Mart Stores, Inc. Delivering search results
US20070094242A1 (en) * 2005-10-26 2007-04-26 John Dove System and method for returning search results
WO2007084852A2 (en) * 2006-01-18 2007-07-26 Roxse, Llc Systems and methods for providing sorted search results
US7584183B2 (en) * 2006-02-01 2009-09-01 Yahoo! Inc. Method for node classification and scoring by combining parallel iterative scoring calculation
US8615800B2 (en) 2006-07-10 2013-12-24 Websense, Inc. System and method for analyzing web content
US8020206B2 (en) 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
JP2010506308A (ja) * 2006-10-03 2010-02-25 キューピーエス テック. リミテッド ライアビリティ カンパニー カテゴリ化によるホスト・コンテンツとゲスト・コンテンツの自動マッチングのための機構
US9654495B2 (en) * 2006-12-01 2017-05-16 Websense, Llc System and method of analyzing web addresses
US7822734B2 (en) * 2006-12-12 2010-10-26 Yahoo! Inc. Selecting and presenting user search results based on an environment taxonomy
US20080147578A1 (en) * 2006-12-14 2008-06-19 Dean Leffingwell System for prioritizing search results retrieved in response to a computerized search query
US20080147641A1 (en) * 2006-12-14 2008-06-19 Dean Leffingwell Method for prioritizing search results retrieved in response to a computerized search query
US20080147631A1 (en) * 2006-12-14 2008-06-19 Dean Leffingwell Method and system for collecting and retrieving information from web sites
US20080155426A1 (en) * 2006-12-21 2008-06-26 Microsoft Corporation Visualization and navigation of search results
GB2445764A (en) * 2007-01-22 2008-07-23 Surfcontrol Plc Resource access filtering system and database structure for use therewith
KR100771577B1 (ko) * 2007-02-16 2007-10-30 드림아이 커뮤니케이션즈(주) 웹페이지 접속 이력정보 관리방법
US8015174B2 (en) * 2007-02-28 2011-09-06 Websense, Inc. System and method of controlling access to the internet
US7698344B2 (en) * 2007-04-02 2010-04-13 Microsoft Corporation Search macro suggestions relevant to search queries
US8768932B1 (en) * 2007-05-14 2014-07-01 Google Inc. Method and apparatus for ranking search results
GB0709527D0 (en) 2007-05-18 2007-06-27 Surfcontrol Plc Electronic messaging system, message processing apparatus and message processing method
US8019760B2 (en) * 2007-07-09 2011-09-13 Vivisimo, Inc. Clustering system and method
US9268856B2 (en) * 2007-09-28 2016-02-23 Yahoo! Inc. System and method for inclusion of interactive elements on a search results page
US20090094211A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Implementing an expanded search and providing expanded search results
US8145660B2 (en) 2007-10-05 2012-03-27 Fujitsu Limited Implementing an expanded search and providing expanded search results
US20090094210A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Intelligently sorted search results
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US20090199115A1 (en) * 2008-01-31 2009-08-06 Vik Singh System and method for utilizing tiles in a search results page
US8219544B2 (en) * 2008-03-17 2012-07-10 International Business Machines Corporation Method and a computer program product for indexing files and searching files
US20090248669A1 (en) * 2008-04-01 2009-10-01 Nitin Mangesh Shetti Method and system for organizing information
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8051083B2 (en) * 2008-04-16 2011-11-01 Microsoft Corporation Forum web page clustering based on repetitive regions
US9405831B2 (en) * 2008-04-16 2016-08-02 Gary Stephen Shuster Avoiding masked web page content indexing errors for search engines
US7949643B2 (en) * 2008-04-29 2011-05-24 Yahoo! Inc. Method and apparatus for rating user generated content in search results
US8112404B2 (en) * 2008-05-08 2012-02-07 Microsoft Corporation Providing search results for mobile computing devices
US20090300012A1 (en) * 2008-05-28 2009-12-03 Barracuda Inc. Multilevel intent analysis method for email filtration
US8364693B2 (en) * 2008-06-13 2013-01-29 News Distribution Network, Inc. Searching, sorting, and displaying video clips and sound files by relevance
US9378282B2 (en) 2008-06-30 2016-06-28 Raytheon Company System and method for dynamic and real-time categorization of webpages
CN101661594A (zh) * 2008-08-28 2010-03-03 阿里巴巴集团控股有限公司 一种在互联网上提供对象信息的方法及系统
US8407202B2 (en) * 2008-10-06 2013-03-26 At&T Intellectual Property I, L.P. Embedded business metadata
US20100121842A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for presenting categorized search results
US20100121790A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for categorizing web content
KR101020007B1 (ko) * 2009-03-27 2011-03-09 조광현 시맨틱 정보를 활용한 직답형 검색 시스템 및 검색 방법
US8185544B2 (en) * 2009-04-08 2012-05-22 Google Inc. Generating improved document classification data using historical search results
US8862579B2 (en) * 2009-04-15 2014-10-14 Vcvc Iii Llc Search and search optimization using a pattern of a location identifier
US8200617B2 (en) 2009-04-15 2012-06-12 Evri, Inc. Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
WO2010120934A2 (en) 2009-04-15 2010-10-21 Evri Inc. Search enhanced semantic advertising
US9069808B2 (en) * 2009-05-20 2015-06-30 International Business Machines Corporation Indexing provenance data and evaluating provenance data queries in data processing systems
EP2443580A1 (en) 2009-05-26 2012-04-25 Websense, Inc. Systems and methods for efficeint detection of fingerprinted data and information
US8583673B2 (en) * 2009-08-17 2013-11-12 Microsoft Corporation Progressive filtering of search results
WO2011075854A1 (en) * 2009-12-23 2011-06-30 Craig Richard Warren Method, system, and article of manufacture for generating ad groups for on-line advertising
JP2011138197A (ja) * 2009-12-25 2011-07-14 Sony Corp 情報処理装置、関連度評価方法及びプログラム
US8421766B2 (en) * 2010-02-12 2013-04-16 Acer Incorporated Visualized information conveying system
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8306964B2 (en) * 2010-07-20 2012-11-06 Microsoft Corporation Extraction of rich search information from index servers via an alternative asynchronous data path
US9043306B2 (en) * 2010-08-23 2015-05-26 Microsoft Technology Licensing, Llc Content signature notification
US9262474B2 (en) * 2010-09-30 2016-02-16 Microsoft Technology Licensing, Llc Dynamic domain query and query translation
US8843507B2 (en) 2011-03-28 2014-09-23 Microsoft Corporation Serving multiple search indexes
US9589056B2 (en) 2011-04-05 2017-03-07 Microsoft Technology Licensing Llc User information needs based data selection
US8560509B2 (en) * 2011-07-08 2013-10-15 Microsoft Corporation Incremental computing for web search
US8799263B2 (en) * 2011-09-04 2014-08-05 Leigh M Rothschild Systems, devices, and methods for providing multidimensional search results
US8954580B2 (en) 2012-01-27 2015-02-10 Compete, Inc. Hybrid internet traffic measurement using site-centric and panel data
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US9900395B2 (en) 2012-01-27 2018-02-20 Comscore, Inc. Dynamic normalization of internet traffic
US20130212089A1 (en) * 2012-02-10 2013-08-15 Google Inc. Search Result Categorization
JP5942508B2 (ja) * 2012-03-16 2016-06-29 株式会社リコー サーバ装置、検索方法及びプログラム
EP2657893A1 (en) * 2012-04-26 2013-10-30 Amadeus S.A.S. System and method of categorizing and ranking travel option search results
US9934224B2 (en) * 2012-05-15 2018-04-03 Google Llc Document editor with research citation insertion tool
CN103577476B (zh) * 2012-08-06 2016-06-08 腾讯科技(深圳)有限公司 网页浏览记录的处理方法及网页浏览装置
US8965880B2 (en) * 2012-10-05 2015-02-24 Google Inc. Transcoding and serving resources
US20140109137A1 (en) * 2012-10-11 2014-04-17 Faisal Mushtaq Method and apparatus for user interaction with programs utilizing closed captioning data content
US9536001B2 (en) * 2012-11-13 2017-01-03 Microsoft Technology Licensing, Llc Intent-based presentation of search results
US9117054B2 (en) 2012-12-21 2015-08-25 Websense, Inc. Method and aparatus for presence based resource management
CN104468940B (zh) * 2013-09-15 2018-10-12 联想(北京)有限公司 电子设备的显示方法、显示装置及电子设备
US9507751B2 (en) * 2013-09-19 2016-11-29 Oracle International Corporation Managing seed data
JP2017505936A (ja) * 2013-12-02 2017-02-23 キューベース リミテッド ライアビリティ カンパニー インメモリデータベースをホストするシステム及び方法
US9996588B2 (en) 2013-12-09 2018-06-12 International Business Machines Corporation Managing a search
US10817519B2 (en) * 2016-06-06 2020-10-27 Baidu Usa Llc Automatic conversion stage discovery
US10346457B2 (en) 2016-07-27 2019-07-09 Microsoft Technology Licensing, Llc Platform support clusters from computer application metadata
US10387435B2 (en) 2016-07-27 2019-08-20 Microsoft Technology Licensing, Llc Computer application query suggestions
US10339148B2 (en) 2016-07-27 2019-07-02 Microsoft Technology Licensing, Llc Cross-platform computer application query categories
JP2018041428A (ja) 2016-08-31 2018-03-15 株式会社ぐるなび サーバ、情報提供方法、及び情報提供プログラム
US11232166B2 (en) * 2019-01-17 2022-01-25 Salesforce.Com, Inc. Networked page access and addressing based on partial categorization indexing
KR102300185B1 (ko) * 2019-10-21 2021-09-09 주식회사 알에스엔 실시간 통합분석검색 시스템
US11750371B1 (en) 2023-04-14 2023-09-05 Morgan Stanley Services Group Inc. Web domain correlation hashing method

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4991094A (en) 1989-04-26 1991-02-05 International Business Machines Corporation Method for language-independent text tokenization using a character categorization
CA2175187A1 (en) * 1993-10-28 1995-05-04 William K. Thomson Database search summary with user determined characteristics
JPH08235160A (ja) * 1995-02-22 1996-09-13 Canon Inc 文書検索方法及び装置
US5752025A (en) 1996-07-12 1998-05-12 Microsoft Corporation Method, computer program product, and system for creating and displaying a categorization table
EP0822502A1 (en) 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US6233575B1 (en) 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6389436B1 (en) 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
JPH11249938A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および同装置のデータ表示方法
US6334131B2 (en) 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
JP3693514B2 (ja) 1999-02-26 2005-09-07 松下電器産業株式会社 文書検索・分類方法および装置
US6678681B1 (en) 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
US20030195872A1 (en) 1999-04-12 2003-10-16 Paul Senn Web-based information content analyzer and information dimension dictionary
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6516337B1 (en) * 1999-10-14 2003-02-04 Arcessa, Inc. Sending to a central indexing site meta data or signatures from objects on a computer network
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
US6963867B2 (en) * 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
WO2001046870A1 (en) 1999-12-08 2001-06-28 Amazon.Com, Inc. System and method for locating and displaying web-based product offerings
US6701314B1 (en) 2000-01-21 2004-03-02 Science Applications International Corporation System and method for cataloguing digital information for searching and retrieval
AU2000234758A1 (en) 2000-01-28 2001-08-07 Websense, Inc. Automated categorization of internet data
US6910029B1 (en) * 2000-02-22 2005-06-21 International Business Machines Corporation System for weighted indexing of hierarchical documents
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
US6631365B1 (en) * 2000-03-14 2003-10-07 Requisite Technology, Inc. Method and apparatus for analyzing the quality of the content of a database
US6529903B2 (en) 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US7136854B2 (en) 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US6687696B2 (en) 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
AU2002220172A1 (en) 2000-11-15 2002-05-27 David M. Holbrook Apparatus and method for organizing and/or presenting data
US6658423B1 (en) 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US6526440B1 (en) 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US8001118B2 (en) 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7188106B2 (en) 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
JP4453229B2 (ja) * 2001-07-03 2010-04-21 日本電気株式会社 情報検索システム及び情報検索方法並びに情報検索プログラム
US6944609B2 (en) * 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
US8117072B2 (en) 2001-11-13 2012-02-14 International Business Machines Corporation Promoting strategic documents by bias ranking of search results on a web browser
CN1360267A (zh) * 2002-01-30 2002-07-24 北京大学 文件分类查找方法
US6993534B2 (en) 2002-05-08 2006-01-31 International Business Machines Corporation Data store for knowledge-based data mining system
US20040003097A1 (en) * 2002-05-17 2004-01-01 Brian Willis Content delivery system
ATE392667T1 (de) 2002-05-27 2008-05-15 Sap Ag Verfahren und computersystem zum indexieren strukturierter dokumente
US20040049514A1 (en) 2002-09-11 2004-03-11 Sergei Burkov System and method of searching data utilizing automatic categorization
US20040249824A1 (en) 2003-06-05 2004-12-09 International Business Machines Corporation Semantics-bases indexing in a distributed data processing system
US7424469B2 (en) 2004-01-07 2008-09-09 Microsoft Corporation System and method for blending the results of a classifier and a search engine

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770481B (zh) * 2008-12-31 2013-12-25 北京联想软件有限公司 搜索终端装置、搜索方法
CN102426511A (zh) * 2010-11-16 2012-04-25 微软公司 系统级搜索的用户界面
US10346478B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Extensible search term suggestion engine
US10346479B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Facilitating interaction with system level search user interface
US9037565B2 (en) 2010-11-16 2015-05-19 Microsoft Technology Licensing, Llc System level search user interface
US10073927B2 (en) 2010-11-16 2018-09-11 Microsoft Technology Licensing, Llc Registration for system level search user interface
CN102480524A (zh) * 2010-11-26 2012-05-30 中国科学院声学研究所 一种网页爬虫协作方法
CN102480524B (zh) * 2010-11-26 2014-09-10 中国科学院声学研究所 一种网页爬虫协作方法
CN102207963A (zh) * 2011-05-30 2011-10-05 何吴迪 一种云计算视窗平台的搜索后即时智能导航技术方法
CN102236719A (zh) * 2011-07-25 2011-11-09 西交利物浦大学 基于网页分类的网页搜索引擎及快速查找方法
CN107256275A (zh) * 2011-11-02 2017-10-17 微软技术许可有限责任公司 路由查询结果
US11281846B2 (en) 2011-11-02 2022-03-22 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels
CN104021125A (zh) * 2013-02-28 2014-09-03 阿里巴巴集团控股有限公司 一种搜索引擎排序的方法、系统以及一种搜索引擎
CN104021125B (zh) * 2013-02-28 2018-04-06 阿里巴巴集团控股有限公司 一种搜索引擎排序的方法、系统以及一种搜索引擎
CN104424233A (zh) * 2013-08-26 2015-03-18 联想(北京)有限公司 一种信息处理方法和装置
CN104462138B (zh) * 2013-09-24 2018-10-26 腾讯科技(深圳)有限公司 一种媒介交互方法、装置和系统
CN104462138A (zh) * 2013-09-24 2015-03-25 腾讯科技(深圳)有限公司 一种媒介交互方法、装置和系统
CN103995881B (zh) * 2014-05-28 2018-04-13 百度在线网络技术(北京)有限公司 搜索结果的展现方法及装置
CN103995881A (zh) * 2014-05-28 2014-08-20 百度在线网络技术(北京)有限公司 搜索结果的展现方法及装置
CN106294436A (zh) * 2015-05-27 2017-01-04 富泰华工业(深圳)有限公司 网页评论分类方法、系统及网页管理装置
CN108780440A (zh) * 2016-03-15 2018-11-09 电子湾有限公司 类别管理
CN109446445A (zh) * 2018-10-23 2019-03-08 乐蜜有限公司 一种资源获取方法及装置
CN109284460A (zh) * 2018-11-02 2019-01-29 张康德 两种类型第三级的搜索方法及淘宝京东等改革
CN111580881A (zh) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 文件加载方法、装置和电子设备
CN111580881B (zh) * 2020-04-30 2023-06-16 支付宝(杭州)信息技术有限公司 文件加载方法、装置和电子设备
CN111666369A (zh) * 2020-05-22 2020-09-15 安徽省交通控股集团有限公司 一种基于桥梁的三维模型构件索引文档的方法

Also Published As

Publication number Publication date
CN1716255B (zh) 2012-01-11
CA2511098A1 (en) 2006-01-01
US7428530B2 (en) 2008-09-23
KR20060048765A (ko) 2006-05-18
MXPA05007079A (es) 2006-02-13
JP2006018843A (ja) 2006-01-19
KR101183312B1 (ko) 2012-09-17
EP1612704A1 (en) 2006-01-04
US20060004717A1 (en) 2006-01-05
CA2511098C (en) 2014-09-02
BRPI0502537A (pt) 2006-02-14

Similar Documents

Publication Publication Date Title
CN1716255B (zh) 通过使用页类别信息分散搜索引擎结果
US11238066B2 (en) Generating personalized clusters of multimedia content elements based on user interests
US7966337B2 (en) System and method for prioritizing websites during a webcrawling process
He et al. Crawling deep web entity pages
TWI454944B (zh) 提供進階搜尋結果頁面內容之系統與方法
CN1882943B (zh) 使用超单元的搜索处理的系统和方法
US8402021B2 (en) Providing posts to discussion threads in response to a search query
US8341157B2 (en) System and method for intent-driven search result presentation
US9584580B2 (en) URL rescue by identifying information related to an item referenced in an invalid URL
US20050004941A1 (en) Fingerprint database updating method, client and server
US20030120653A1 (en) Trainable internet search engine and methods of using
US8307073B1 (en) URL rescue by correction of encoding errors
CN104077377A (zh) 基于网络文章属性的网络舆情热点发现方法和装置
AU2011293716B2 (en) Methods for semantics-based citation-pairing information
CN101075259A (zh) 使用公众网站获取元数据
CN106709073A (zh) 一种浏览器中进行消息推送的方法和一种浏览器终端
CN1330330A (zh) 基于万维网共享搜索引擎查询的系统和方法
US7962523B2 (en) System and method for detecting templates of a website using hyperlink analysis
US20170185690A1 (en) System and method for providing content recommendations based on personalized multimedia content element clusters
US20210109945A1 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN107851114A (zh) 自动信息检索
Ambika et al. Web mining: The demystification of multifarious aspects
Rajan et al. Features and Challenges of web mining systems in emerging technology
Hassan et al. An efficient and scalable ranking technique for mashups involving RSS data sources
CN103180846B (zh) 图像搜索

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150429

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150429

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120111

Termination date: 20200701

CF01 Termination of patent right due to non-payment of annual fee