CN101211365A - 用于建立搜索索引的方法和系统 - Google Patents

用于建立搜索索引的方法和系统 Download PDF

Info

Publication number
CN101211365A
CN101211365A CNA2007101927560A CN200710192756A CN101211365A CN 101211365 A CN101211365 A CN 101211365A CN A2007101927560 A CNA2007101927560 A CN A2007101927560A CN 200710192756 A CN200710192756 A CN 200710192756A CN 101211365 A CN101211365 A CN 101211365A
Authority
CN
China
Prior art keywords
document
subclauses
clauses
point information
anchor point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101927560A
Other languages
English (en)
Inventor
F·S·格伦南
R·伦珀利
A·诺伊曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101211365A publication Critical patent/CN101211365A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了用于建立搜索索引的技术。当建立搜索索引并使用搜索索引以响应一个或多个搜索请求时,维护锚点信息库,其中锚点信息库的每个条目标识参考文档、目标文档和与从参考文档到目标文档的链接相关联的锚文本;接收用于处理的文档;在锚点信息库中定位一个或多个如下条目,对于该条目,要处理的文档被标识为目标文档;从所标识的条目中的每个条目检索锚文本;以及将检索的锚文本存储到文档的搜索索引的条目中。

Description

用于建立搜索索引的方法和系统
技术领域
本发明涉及全局锚文本处理。
背景技术
万维网(也称为WWW或“Web”)是一些支持网页的因特网服务器的集合,该网页可以包括到其他网页的链接。统一资源定位符(URL)表明了网页的位置。另外,每个网页可以包含例如文本、图形、音频和/或视频内容。例如,第一个网页可以包含到第二个网页的链接。当在第一个网页中选定该链接时,典型地显示第二个网页。
Web浏览器是一种用于定位并显示网页的软件应用。目前,在网络上有数以亿计的网页。
Web搜索引擎用于基于一些标准检索网络上的网页(例如通过Web浏览器进入)。也就是说,Web搜索引擎设计为返回给定关键字查询的相关网页。例如,针对公司内网搜索引擎而发起的查询“HR”期望返回内网中与人力资源(HR)相关的相关页面。Web搜索引擎使用使得搜索词(例如关键字)与网页产生联系的索引技术。
锚点可以描述为到文档的链接或路径(例如URL)。锚文本可以描述为与指向文档的路径或链接(例如URL)相关联的文本。例如,锚文本可以是Web文档中标注或封装超文本的文本链接的文本。锚文本由Web搜索引擎收集并与目标文档相关联。另外,锚文本和目标文档一起进行索引。
锚文本也可以描述为在超文本标记语言(HTML)文档(“参考”文档)中找到的用以注释到另一个文档(“目标”文档)的链接的内容。锚文本在词法上包含在锚标签(<A>...</A>)内部。锚文本可以改善搜索质量,因为它对人类编辑者的关于目标文档的相关区域的判断进行编码。虽然为要使锚文本可搜索,就必须对锚文本进行索引从而使得该锚文本就像是目标文档内容的一部分一样,但该锚文本实际上是作为其他内容,即参考文档的一部分而进入搜索系统的。
当Web搜索引擎处理全体文档时(例如对文档进行检索并进行索引),不可能在存储器中保留所有文档直到知道所有交叉链接。这样,传统的解决方案是分别对文档内容和锚文本进行编目,然后运行离线全局整合过程以对用于索引的锚文本和文档内容进行组合。
如果整合推迟直到搜集到全体文档的所有内容(也就是检索),那么所有的锚文本都是可用的,并且组合索引只需要建立一次。但是如果这样做了,则直到搜集整个全体文档之后才能建立仅内容索引(content-only index)。作为替代,仅内容索引是可写并且可用的,但是直到整合阶段之后才可能进行锚文本搜索。
这样,在本领域中需要改善全局锚文本处理。
发明内容
本发明提供了一种用于建立搜索索引的方法、计算机程序产品和系统。当建立搜索索引并使用搜索索引以响应一个或多个搜索请求时,维护锚点信息库,其中锚点信息库的每个条目标识参考文档、目标文档和与从参考文档到目标文档的链接相关联的锚文本;接收用于处理的文档;在锚点信息库中定位一个或多个如下条目,对于该条目,要处理的文档被标识为目标文档;从所标识的条目中的每个条目检索锚文本。将检索的锚文本存储到文档的搜索索引的条目中。
附图说明
现在参考附图,其中贯穿整个附图,同样的参考标号表示对应的部分:
图1以框图示出了根据本发明某些实施例的计算环境。
图2示出了根据本发明某些实施例的实现为为处理准备锚点的逻辑。
图3示出了根据某些实施例的在同步上下文中执行的逻辑。
图4示出了根据某些实施例的在异步上下文中执行的逻辑。
图5示出了根据某些实施例的数据流。
图6示出了根据本发明某些实施例的用于执行文档搜索的逻辑。
图7示出了根据某些实施例的可以使用的系统体系结构。
具体实施方式
在以下描述中参考附图,附图形成描述的一部分,并且示出了本发明的多个实施例。应当理解,在不偏离本发明范围的情况下,可以利用其它实施例并且可以进行结构上和操作上的改变。
图1以框图示出了根据本发明某些实施例的计算环境。客户端计算机100通过网络190连接到服务器计算机120。客户端计算机100可以包括任意本领域已知的计算设备,诸如服务器、大型机、工作站、个人计算机、手持计算机、膝上型电话设备、网络装置等等。网络190可以包括任意类型的网络,诸如局域网(LAN)、广域网(WAN)、因特网、内网等等。客户端计算机100包括系统存储器104,该存储器可以在易失性和/或非易失性设备中实现。可以在系统存储器104中执行一个或多个客户端应用110和查看器应用112。查看器应用112提供了启动对一组文档的搜索的接口。在某些实施例中,查看器应用112是Web浏览器,数据存储装置170存储令牌(而不是所搜集的原始文档),并且查看器应用112显示概览(从令牌创建)和指向原始位置中的原始文档的URL。令牌可以描述为出现在文档中的项(例如,词、数字、语标顺序或其他相近的符号串)。
服务器计算机120包括系统存储器122,该存储器可以在易失性和/或非易失性设备中实现。在系统存储器122中执行搜索引擎130。在某些实施例中,搜索引擎包括搜集器组件132、静态分级组件134、文档分析组件136、副本检测组件138、锚文本组件140和索引组件142。尽管组件132、134、136、138、140和142作为分立组件示出,但是组件132、134、136、138、140和142的功能可以在比示出的更少或更多的组件或与示出的组件不同的组件中实现。另外,组件132、134、136、138、140和142的功能可以在Web应用服务器计算机或其他连接到服务器计算机120上的服务器计算机上实现。另外,在系统存储器122中执行一个或多个服务器应用160。
在某些实施例中,使用文档分析组件136、锚文本组件140和索引组件142实现全局锚文本处理150。
服务器计算机120使得客户端计算机100可以对至少一个数据存储装置170(例如数据库)中的数据进行访问。尽管示出了单个的数据存储装置170,但为了容易理解,数据存储装置170中的数据可以存储在连接到服务器计算机120的其他计算机的数据存储装置中。一个或多个数据存储装置包括锚点信息库152、重建议程表154和搜索索引156。
在某些实施例中,锚点信息库152中的每个条目包括至少一个三元组:(D、Ti和锚文本),其中D是参考文档,Ti是目标文档,锚文本是包含在从参考文档到目标文档的链接的链接标签中的文本。锚点信息库152中的每个条目可以包含附加的信息,诸如静态分值(score)、参考文档的语言或参考文档的指纹/校验和,其可以帮助避免使用来自于相同参考文档的同样副本的链接。
在某些实施例中,重建议程表154中的每个条目包含文档的标识符(例如文档的URL),其锚文本将在搜索索引156中用异步处理更新。对于每个标识的文档,有至少一个新的或更新的指向该文档的链接。
在某些实施例中,搜索索引156包含文档内容和与指向该文档的链接相关的锚文本。在这种实施例中,文档内容和锚文本可以独立更新。在某些实施例中,锚文本不独立更新(例如在其中锚文本更新需要对整个文档重新进行索引的系统)。在某些实施例中,搜索索引156可一直用于搜索,但是进行了新的索引的文档可能会在稍有延迟之后才出现在搜索结果中,这是因为为得到更好的性能而对磁盘的写入进行了缓冲。
另外,操作者控制台180执行一个或多个应用182并且用于访问服务器计算机120和数据存储装置170。
数据存储装置170可以包括大量存储设备,诸如直接访问存储设备(DASD)、简单磁盘捆绑(JBOD)、独立冗余磁盘阵列(RAID)、虚拟化设备等等。数据存储装置170包括结合本发明某些实施例而使用的数据。
图2示出了根据本发明某些实施例的实现为为处理准备锚点的逻辑。控制在方框200开始,锚文本与每个锚点相关联。这可以通过例如每个创建锚点的用户完成。锚点可以描述为从源(或“参考”)文档到目标文档的路径或链接(例如URL)。
在方框202中,获得将由搜索引擎130索引的文档。在某些实施例中,将文档发布或推送(例如,报纸上的文章就有可能是这种情况)到索引组件142。在某些实施例中,搜集器组件132发现、获取并存储文档。在某些实施例中,搜集器组件132可以基于例如某个标准(例如在上个月内访问的文档)发现文档。另外,搜集器组件132可以发现一个或多个直接(例如数据存储装置170)或间接(例如通过另一个计算设备(没有示出)连接到服务器计算机120)连接的数据存储中的文档。在某些实施例中,搜集器组件132发现、获取并存储数据存储装置170中的令牌和URL。所搜集的文档可以称为“文档集合”。
在方框204中,文档分析组件136执行针对每个文档的分析。特别地,文档分析组件136解析并用令牌表示文档,并对每个文档确定书写每个文档所用的语言、提取锚文本并执行诸如文档编目和分类之类的其他任务。存储语言信息用于以后使用。例如,文档分析组件136确定文档中使用的基本语言是否为英语、日语、德语等等。作为提取锚文本的一部分,文档分析组件136也将邻近的类与每个锚点相关联。邻近的类可以描述为指定源文档与目标文档如何接近(例如,它们是否在同一服务器上,以及如果是的话,它们是否在同一目录中)。另外,所提取的锚文本准备好由锚文本组件140处理。
在方框206中,静态分级组件134检查存储的文档并给这些文档分配等级。等级可以描述为源文档相对于已经由搜集器组件132存储的其他文档的重要性。可以使用任意类型的分级技术。例如,更频繁访问的文档可以得到更高的等级。在方框208中,锚文本组件140处理锚文本。
在某些实施例中,搜索索引156增量式地连续更新。锚文本处理在两种上下文中发生:同步和异步。
在某些包括副本检测的实施例中,只要添加了新的从参考文档(“R”)到目标文档(“T”)(R->T)的锚点,锚文本组件140就重新计算目标文档T和任何副本的锚文本。在某些实施例中,当计算目标文档T的目标锚文本时,也可以包括指向T的副本的链接。
在某些包括静态分级的实施例中,如果页面有大量指向锚文本的链接,则静态分级信息可以用于对锚文本区分优先级,因此,不是将来自这些链接的全部锚文本合并成目标锚文本,而是将来自可配置数量的最有意义的参考文档的锚文本合并成目标锚文本。
在某些包括语言识别的实施例中,用于参考文档的语言识别可以帮助判断目标文档的语言。也就是说,如果目标文档主要具有来自一种语言的文档的链接,那么目标文档很可能使用了相同的语言。
图3示出了根据某些实施例的在同步上下文中执行的逻辑。图3的逻辑在建立搜索索引156并使用该搜索索引156以响应一个或多个搜索请求时执行。控制在方框300开始,文档分析组件136接收用于首次处理的文档。在方框302中,对于文档中指向其他文档的链接(“导出”链接),将数据添加到锚点信息库152中。特别地,由于文档分析组件136正在解析该文档,因此当文档分析组件136找到导出链接时,文档分析组件136将数据添加到锚点信息库。例如,当对文档D(例如HTML文档)进行索引时,文档D包含的指向其他文档的任何锚文本在锚点信息库152中都被记录为一个三元组:(D,Ti,文本)。
在方框304中,对于文档中指向其他文档的链接,将数据添加到重建议程表154。例如,如果文档包括三个导出链接,每个导出链接指向一个目标文档,就用这三个目标文档的URL更新重建议程表154。
在方框306中,对于从参考文档指向锚点信息库152中正在处理的文档的链接,从锚点信息库152中检索锚文本并添加到搜索索引156。特别地,文档分析组件136在锚点信息库152中定位如下条目,对于该条目,正在处理的文档被列为目标文档,从那些来自锚点信息库152的条目检索锚文本,并将该锚文本转发到索引组件142以添加到搜索索引156。
对于文档D,除非该文档是“种子”URL,否则文档D就会被搜集,这是因为文档D被较早处理的文档中的链接所参考。“种子”URL可以描述为由管理员手工输入的URL,而不是由搜集器组件132作为另一个文档中的链接发现的。在搜集开始时,搜集器组件132不具有链接,必须用用以开始搜集的一些URL来进行“种子化”。当首次搜集这些文档时,没有其他的文档参考它们,但是随着搜集的进行,搜集器组件132可能找到指向种子URL的其他文档。这样,到处理文档D时,可能有来自多个这种对文档D进行参考的文档的锚文本。因此,在首次索引文档D之前,查询锚文本锚点信息库152,并且当在搜索索引156中首次对文档D进行索引时,包括了任何已知的文档D锚文本。
图4示出了根据某些实施例的在异步上下文中执行的逻辑。控制在方框400开始,搜索引擎130开始对重建议程表154进行异步处理。在某些实施例中,当负载(也就是等待进行索引的文档)足够低(例如几乎为零)时,为异步锚文本重建循环给定一个固定的时间分片。在某些可选择的实施例中,重建可以周期性地(例如每四个小时一次)或基于一些事件的发生(例如正在处理100个新文档)发生。实施例用增量式方式建立锚文本,而不需要同时大容量重建全部锚文本。这样,在任意给定的时间,可能有一个或多个如下目标文档,对于该目标文本,自从最后计算该目标文档以来已经发现了新链接。在某些实施例中,不是连续运行异步锚文本重建循环(这有可能产生过高的系统负载),图4的逻辑一次计算针对多个目标的锚文本。在可选择的实施例中,异步锚文本重建循环可以连续运行。这样,实施例增量式地建立目标文档的锚文本,将变化反映为新链接并发现相关联的锚文本,而不是全局地进行该过程,在全局情况下,不管链接是否改变,都要周期性地重新计算全部锚文本。
在方框402中,从第一个文档开始,锚文本组件140选择重建议程表154中下一个文档(也就是通过选择表示该文档的URL)。在方框404中,锚文本组件140确定重建议程表154中的所有文档是否都已经被选定或者所分配的时间分片是否已经过期。如果是,则处理继续到方框410,否则,处理继续到方框406。这样,如果没有更多需要重建的目标或如果由搜索引擎130分配的时间分片已经过期(即使在重建议程表154中有更多的URL),异步锚文本重建循环就停止。
如果在方框410中已经选定所有的文档,那么搜索引擎130等待直到它确定系统负载允许花费一些时间重建一些锚文本,此时处理继续到方框400。
在方框406中,锚文本组件140使用锚点信息库152来找到选定文档的锚文本。特别地,锚文本组件140识别其中选定文档是目标的锚点信息库150中的条目,并且检索这些条目中的锚文本。在方框408中,锚文本组件140更新选定文档的搜索索引156中的锚文本。在某些实施例中,独立更新搜索索引156中的文档内容的锚文本。在某些实施例中,不独立更新锚文本(例如在其中锚文本更新需要对整个文档重新进行索引的系统)。处理从方框406继续到方框402。
这样,在异步上下文中,当对文档D(例如HTML文档)进行索引时,将文档D的导出链接添加到锚点信息库152。添加到锚点信息库152的每个条目包含属于针对某个目标文档T的已索引内容的锚文本片段。因此,每个新的锚点信息库条目都使得文档T的当前已索引内容过时。这样,实施例周期性地重建索引条目的锚文本。另外,因为重建议程表154保持了已知需要更新的目标文档的列表,所以通过只更新这些目标文档的锚文本,可获得更高的效率。
在某些实施例中,在背景处理中,与搜索并行地,锚文本组件140从重建议程表154中依次拉取目标文档,查询锚点信息库152以找到每个目标文档的所有锚文本参考,并且更新搜索索引156中的每个目标文档的索引条目以反映锚文本。每当更新搜索索引156中的目标文档的索引条目时,都会改善该目标文档的搜索质量和已索引项,得到在搜索质量上的连续改善。
在某些实施例中,锚点信息库152实现为具有三列的关系表并且自然地映射成关系数据库。在一些情况下,对属于给定参考文档的所有条目都搜索这个表,并且在一些情况下,对属于给定目标文档的那些条目搜索这个表,因此使用了两个索引。
在某些实施例中,锚点信息库152实现为如下索引,该索引可以配置为存储可再次使用的数据(也就是锚文本)的完整副本,而不是存储在检索时不需要其原始形式(也就是对于参考URL)的已进行索引(用令牌表示)的字符串的副本。就速度而言,关系表和索引实施例都执行得很好。
在某些实施例中,锚点信息库152实现为一个或多个平面文件。通过这种实施例,由于条目可以附加到平面文件的末尾,所以插入非常快。另外,通过这种实施例,检索可能需要进行磁盘分级以将数据缩减为唯一的条目,并且在参考和目标URL上的重复顺序由分级顺序表示。
在某些实施例中,抽象的“存储”应用程序接口(API)将索引和关系数据库实施例隐藏在更高级别的锚文本组件140所需要的一组常用操作后面。存储API通过移除包含已移除文档的锚点信息库条目和对受影响的目标文档进行标记以便进行更新,来处理对文档的删除。
当不是删除参考文档,而是用新版本来进行更新时,移除包含该文档作为锚点信息库152中的参考文档的旧条目,并且将该文档的新版本中的锚点添加到锚点信息库152。这与对该参考文档的锚文本的删除和插入操作等同。
也就是说,当已经用新内容更新文档时,将该文档是其参考文档的锚点信息库152中的现有条目与该文档中当前一组锚点进行比较。从锚点信息库152删除不再与文档内容匹配的每个条目(例如,包括在更新的文档中不存在的锚点的条目)。对于文档中的每个新锚点,将一个新条目添加到锚点信息库152(也就是将源自文档内容的当前状态的任意新条目添加到锚点信息库152)。将从锚点信息库152删除或添加到锚点信息库152的任意条目的目标文档添加到重建议程表154。
在某些实施例中,重建议程表154可以描述为对先入先出(FIFO)语义和设定语义(也就是没有重复)进行组合的列表,并用于跟踪哪些目标文档需要更新。
在某些实施例中,在进行集中索引期间,锚文本组件140可能需要将大量未处理的更新记忆一段时间,比采用存储器内解决方案所期望的数量更大,时间更长。这样,重建议程表154可以实现为受可扩展为存储数以亿计的条目的具有层级结构的磁盘存储支持的保留顺序的哈希组。将条目(例如URL)添加到存储器内的表中直到达到一个可配置的限度,此时将表转储到磁盘。首先从最旧的磁盘文件返回所要获取的内容,就好像从持久型环缓冲器一样。副本不会出现在表中或在已保存的一个批次中,但是两个单独的批处理可以包含共同的条目。为了节省存储器,这些实施例会接受一些副本,并且性能良好。
图5示出了根据某些实施例的数据流。文档500可以是另一个参考文档502的目标文档,也可以是目标文档(T1,T2)的参考文档(R1)。目标文档T1具有锚文本a1,而目标文档T2具有锚文本a2。当处理文档500时,更新锚点信息库510以包括从参考文档R1到每个目标文档T1和T2的条目。由于锚点信息库152包括目标文档T1和T2的锚文本,更新重建议程表520以包括目标文档T1和T2的标识符(例如URL)。当异步锚文本循环开始时,将更新目标文档T1和T2的锚文本。
实施例能够支持其他形式的链接分析。也就是说,在任意实施例中,整合到搜索系统中的锚点信息库152和重建议程表154可以支持文档(例如HTML文档)集合中其他类型的链接分析。例如,实施例支持对包含“断开”的链接的页面(例如参考了丢失的或不可用的文档)的搜索。特别地,对于在其中搜集文档的实施例,可以扫描搜索索引156以找到下载状态为“错误”的文档,而对于在其中推送文档的实施例,可能会处理“已推送的删除文档命令”。在参考了丢失的或不可用的文档的任意实施例中,则搜索锚点信息库152以找到并报告(例如向搜索引擎管理员或向内容拥有者,诸如网站拥有者)指向丢失的或不可用的文档的参考文档(也就是,该参考文档是具有断开的链接的参考文档)。作为示例,然后网站拥有者能够更新参考文档。特别地,当文档丢失或者不可用时(例如,该文档的下载状态是“错误”或者存在针对该文档的“已推送的删除文档命令”),定位该文档是其目标文档的锚点信息库中的一个或多个条目,并且将每个标识的条目中的参考文档报告给搜索引擎管理员和/或参考文档的内容拥有者。另外,当文档丢失或者不可用时(例如,该文档的下载状态是“错误”或者存在针对该文档的“已推送的删除文档命令”),定位并删除该文档是其参考文档的锚点信息库152中的条目,并且在重建议程表154中注册这些条目的目标文档。
作为另一个示例,实施例通过生成图形来支持对站点连通性的研究,该图形示出了使用锚点信息库152的节点的连接。另外,实施例支持基于通过计算锚点信息库152中文档的参考文档(例如入链接(in-link))数量而得到的入链接计数来根据页面或站点的重要性/普及性调节搜索结果权重。实施例也支持带不同标签的“标签”和“社会书签”的形式。此上下文中的标签是不同形式的锚文本。在支持进行附加的环境中,标签在外部“附加”到文档(例如用户可以用作为标签的关键字来注释文档),而不是嵌入到文档的内容中。这样,标签与锚文本类似,因为标签表示文档主题的用户概览。因此,锚点信息库152可以作为锚文本的替代或补充而存储标签。通过这种标签,实施例能够在这些附件(“社会网络”环境)中找到使用关键字的文档。
另外,实施例适用于任意种类的可以附加到文档的反馈,包括表明用户喜欢该页面的投票或点击率数据(例如用户点击搜索结果的事实可以被认为是对该页面的“投票”)。可以在锚点信息库152中包括任意这种信息。
这些分析中的一些改善了搜索系统本身的功能,而有些有益于内容管理员和用户。
图6示出了根据本发明某些实施例的用于执行文档搜索的逻辑。控制在方框600开始,用户通过查看器应用112提交搜索请求。在方框602中,搜索引擎130执行该搜索请求。在方框604中,搜索引擎返回包括锚文本处理的针对搜索请求的搜索结果。在方框606中,查看器应用112显示该搜索结果。
这样,实施例在对全体文档进行处理的早期将锚点添加到搜索索引156,而不是使用户等待对要添加到搜索索引的锚文本的离线整合过程。这样,通过某些实施例,与搜索并行地,锚文本处理连续发生。这提供了增量式锚文本处理。在某些实施例中,因为更新的锚文本变得可用,所以有时可以对文档内容和锚文本进行多次索引。但是,通过某些实施例,可以提高搜索质量和搜索索引156中锚文本的早期可用性。
JAVA是一个注册商标,或Sun微系统公司在美国和/或其他国家的普通法标记(common law mark)。
附加实施例细节
可以使用标准编程和/或工程技术将所述操作实现为方法、计算机程序产品或装置以生产软件、固件、硬件及其任意组合。
每个实施例可以采取完全硬件实施例、完全软件实施例或既包含硬件单元又包含软件单元的实施例的形式。实施例可以用软件实现,其包括但不限于固件、驻留软件、微码等等。
进一步地,实施例可以采取可以从计算机可用或计算机可读的介质访问的计算机程序产品的形式,该介质提供了由计算机或任意指令执行系统使用或结合计算机或任意指令执行系统而使用的程序代码。出于本描述的目的,计算机可用或计算机可读的介质可以是可以包含、存储、传送、传播或传输由指令执行系统、装置或设备使用或结合指令执行系统、装置或设备而使用的程序的任意装置。
所述操作可以实现为在计算机可用或计算机可读的介质中维护的代码,其中处理器可以从计算机可读介质读取并执行代码。该介质可以是电子的、磁的、光学的、电磁的、红外的或半导体的系统(或装置或设备)或传播媒介。计算机可读介质的示例包括半导体或固态存储器、磁带、可移动计算机磁盘、硬盘、光盘、磁存储介质(例如硬盘驱动器、软盘、磁带等等)、易失性和非易失性存储器设备(例如随机访问存储器(RAM)、DRAM、SRAM、只读存储器(ROM)、PROM、EEPROM、闪速存储器、固件、可编程逻辑阵列(PLA)等等)。光盘的当前示例包括压缩光盘-只读存储器(CD-ROM)、光盘-读/写(CD-R/W)和DVD。
实现所述操作的代码可以进一步在硬件逻辑(例如集成电路芯片、可编程门阵列(PGA)、专用集成电路(ASIC)等等)中实现。更进一步地,实现所述操作的代码可以在“传输信号”中实现,其中传输信号可以通过空间或通过诸如光纤、铜线之类的传输媒介传播。在其中对代码或逻辑进行编码的传输信号可以进一步包括无线信号、卫星传输、无线电波、红外信号、蓝牙等等。在其中对代码或逻辑进行编码的传输信号能够由发射台发送并由接收台接收,其中编码在传输信号中的代码或逻辑可以在接收台和发射台或接收设备和发射设备上被解码并存储在硬件或计算机可读介质中。
计算机程序产品可以包括计算机可用或计算机可读的介质、硬件逻辑和/或可以在其中实现代码的传输信号。当然,本领域的普通技术人员应当认识到,在不偏离实施例范围的情况下,可以对这一配置进行很多修改,并且该计算机程序产品可以包括本领域中已知的任意合适的信息承载介质。
以示例的方式,术语“逻辑”可以包括软件、硬件、固件和/或软件和硬件的组合。
某些实施例可以针对用于由人来部署计算基础设施或自动地处理将计算机可读代码整合到计算系统的方法,其中代码与计算系统相结合,能够执行所述实施例的操作。
图2、图3、图4和图6的逻辑描述了按照特定顺序发生的特定操作。在可选择的实施例中,某些逻辑操作可以按不同的顺序执行,可以被修改或移除。而且,可以将操作添加到上述逻辑并且仍然遵循上述实施例。进一步地,此处所述的操作可以顺序发生或某些操作可以被并行处理,或者被描述为由单个过程执行的操作可以由分布式过程来执行。
所示出的图2、图3、图4和图6的逻辑可以用软件、硬件、可编程和不可编程门阵列逻辑或用硬件、软件或门阵列逻辑的一些组合来实现。
图7示出了根据某些实施例的可以使用的系统体系结构700。客户端计算机100和/或服务器计算机120可以实现系统体系结构700。系统体系结构700适合于存储和/或执行程序代码,并且包括至少一个直接地或通过系统总线720间接地与存储器单元704连接的处理器702。存储器单元704可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储以及高速缓冲存储器,该高速缓冲存储器为了减少在执行期间必须从大容量存储获取代码的次数而提供了对至少部分程序代码的临时存储。存储器单元704包括操作系统705和一个或多个计算机程序706。
输入/输出(I/O)设备712、714(包括但不限于键盘、显示器、指示设备等等)可以直接地或通过中间I/O控制器710连接到系统。
网络适配器708也可以连接到系统以使数据处理系统能够通过中间专用网络或公共网络来与其他数据处理系统或者远程打印机或存储设备连接。调制解调器、电缆调制解调器和以太网卡只是几种当前可用类型的网络适配器708。
系统体系结构700可以连接到存储装置716(例如非易失性存储区域,诸如磁盘驱动器、光盘驱动器、磁带驱动器等等)。存储装置716可以包括内部存储设备或附接的或网络可访问的存储装置。以本领域中已知的方式,存储716中的计算机程序706可以被加载进存储器单元704并由处理器702执行。
系统体系结构700可以包括比示出的更少的组件、此处没有示出的附加组件,或者示出的组件和附加组件的一些组合。系统体系结构700可以包括任意本领域已知的计算设备,诸如大型机、服务器、个人计算机、工作站、笔记本电脑、手持计算机、电话设备、网络装置、虚拟设备、存储控制器等等。
已经为了说明和描述的目的而提出了对本发明实施例的前述描述。该描述并非旨在穷举或将实施例限制为所公开的精确形式。根据上述内容,很多修改和变更都是可能的。实施例的范围不应受到这一详细描述的限制,而应由所附权利要求书来限制。上面的描述、示例和数据提供了对制造过程的详细描述和对实施例组成部分的使用。由于在不偏离实施例的本质和范围的情况下,可以得到很多实施例,因此这些实施例均在所附权利要求书或任意以后提交的权利要求书以及与之等同的技术方案的范围内。

Claims (26)

1.一种用于建立搜索索引的计算机实现的方法,包括:
当建立所述搜索索引并使用所述搜索索引以响应一个或多个搜索请求时,
维护锚点信息库,其中所述锚点信息库的每个条目标识参考文档、目标文档和与从所述参考文档到所述目标文档的链接相关联的锚文本;
接收用于处理的文档;
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述要处理的文档被标识为目标文档;
从所述标识的条目中的每个条目检索锚文本;以及
将所述检索的锚文本存储到所述文档的所述搜索索引的条目中。
2.根据权利要求1所述的计算机实现的方法,其中所述文档包括一个或多个导出链接,每个导出链接指向一个目标文档,所述方法进一步包括:
对于每个所述导出链接,向所述锚点信息库添加一个条目,其中所述要处理的文档是每个目标文档的参考文档。
3.根据权利要求1所述的计算机实现的方法,其中所述文档包括一个或多个导出链接,每个导出链接指向一个目标文档,所述方法进一步包括:
向重建议程表中添加一个条目,其中所述条目标识所述目标文档。
4.根据权利要求3所述的计算机实现的方法,进一步包括:
对于在所述重建议程表中的每个条目中标识的每个目标文档,异步地,
使用所述锚点信息库找到所述目标文档的锚文本;以及
更新所述目标文档的搜索索引的条目中的锚文本,其中所述目标文档的锚文本增量式地更新。
5.根据权利要求1所述的计算机实现的方法,进一步包括:
当文档丢失或不可用时,
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述文档是参考文档;
对于所述一个或多个条目中的每个条目,在重建议程表中注册该条目的目标文档;以及
从所述锚点信息库删除所述一个或多个条目。
6.根据权利要求1所述的计算机实现的方法,进一步包括:
当文档丢失或不可用时,
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述文档是目标文档;以及
向搜索引擎管理员和所述参考文档的内容拥有者中的一个报告每个所述标识的条目中的所述参考文档。
7.根据权利要求1所述的计算机实现的方法,进一步包括:
生成图形以便能够研究站点连通性,所述图形示出了使用所述锚点信息库的节点的连接。
8.根据权利要求1所述的计算机实现的方法,进一步包括:
基于通过计算所述锚点信息库中文档的参考文档的数量而确定的入链接计数来调节与所述文档相关联的搜索结果权重。
9.根据权利要求1所述的计算机实现的方法,其中所述锚点信息库包括标签,该标签是文档的用户注释。
10.根据权利要求1所述的计算机实现的方法,进一步包括:
当已经用新内容更新所述文档时,
将所述文档是其参考文档的所述锚点信息库中的现有条目与所述文档中当前的一组锚点进行比较;
从所述锚点信息库中删除每个不再与所述文档内容匹配的条目;
对于所述文档中的每个新锚点,向所述锚点信息库中添加一个新条目;以及
在重建议程表中注册从所述锚点信息库中删除的或者添加到所述锚点信息库中的任意条目的目标文档。
11.一种用于维护搜索索引的计算机实现的方法,包括:
维护锚点信息库,其中所述锚点信息库的每个条目标识参考文档、目标文档和与从所述参考文档到所述目标文档的链接相关联的锚文本;
维护重建议程表,其中所述重建议程表中的每个条目标识一个目标文档;以及
对于在所述重建议程表中的每个条目中标识的每个目标文档,异步地,
使用所述锚点信息库找到所述目标文档的锚文本;以及
更新所述目标文档的搜索索引的条目中的锚文本,其中所述目标文档的锚文本增量式地更新。
12.根据权利要求11所述的计算机实现的方法,进一步包括:
接收用于处理的文档;
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述要处理的文档被标识为目标文档;
从所述标识的条目中的每个条目检索锚文本;以及
将所述检索的锚文本存储到所述文档的所述搜索索引的条目中。
13.一种用于建立搜索索引的系统,包括:
能够执行操作的逻辑,所述操作包括:
当建立所述搜索索引并使用所述搜索索引以响应一个或多个搜索请求时,
维护锚点信息库,其中所述锚点信息库的每个条目标识参考文档、目标文档和与从所述参考文档到所述目标文档的链接相关联的锚文本;
接收用于处理的文档;
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述要处理的文档被标识为目标文档;
从所述标识的条目中的每个条目检索锚文本;以及
将所述检索的锚文本存储到所述文档的所述搜索索引的条目中。
14.根据权利要求13所述的系统,其中所述文档包括一个或多个导出链接,每个导出链接指向一个目标文档,并且其中所述操作进一步包括:
对于每个所述导出链接,向所述锚点信息库添加一个条目,其中所述要处理的文档是每个目标文档的参考文档。
15.根据权利要求13所述的系统,其中所述文档包括一个或多个导出链接,每个导出链接指向一个目标文档,并且其中所述操作进一步包括:
向重建议程表中添加一个条目,其中所述条目标识所述目标文档。
16.根据权利要求15所述的系统,其中所述操作进一步包括:
对于在所述重建议程表中的每个条目中标识的每个目标文档,异步地,
使用所述锚点信息库找到所述目标文档的锚文本;以及
更新所述目标文档的搜索索引的条目中的锚文本,其中所述目标文档的锚文本增量式地更新。
17.根据权利要求13所述的系统,其中所述操作进一步包括:
当文档丢失或不可用时,
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述文档是参考文档;
对于所述一个或多个条目中的每个条目,在重建议程表中注册该条目的目标文档;以及
从所述锚点信息库删除所述一个或多个条目。
18.根据权利要求13所述的系统,其中所述操作进一步包括:
当文档丢失或不可用时,
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述文档是目标文档;以及
向搜索引擎管理员和所述参考文档的内容拥有者中的一个报告每个所述标识的条目中的所述参考文档。
19.根据权利要求13所述的系统,其中所述操作进一步包括:
生成图形以便能够研究站点连通性,所述图形示出了使用所述锚点信息库的节点的连接。
20.根据权利要求13所述的系统,其中所述操作进一步包括:
基于通过计算所述锚点信息库中文档的参考文档的数量而确定的入链接计数来调节与所述文档相关联的搜索结果权重。
21.根据权利要求13所述的系统,其中所述锚点信息库包括标签,该标签是文档的用户注释。
22.根据权利要求13所述的系统,其中所述操作进一步包括:
当已经用新内容更新所述文档时,
将所述文档是其参考文档的所述锚点信息库中的现有条目与所述文档中当前的一组锚点进行比较;
从所述锚点信息库中删除每个不再与所述文档内容匹配的条目;
对于所述文档中的每个新锚点,向所述锚点信息库中添加一个新条目;以及
在重建议程表中注册从所述锚点信息库中删除的或者添加到所述锚点信息库中的任意条目的目标文档。
23.一种用于建立搜索索引的系统,包括:
能够执行操作的逻辑,所述操作包括:
维护锚点信息库,其中所述锚点信息库的每个条目标识参
考文档、目标文档和与从所述参考文档到所述目标文档的链接相关联的锚文本;
维护重建议程表,其中所述重建议程表中的每个条目标识一个目标文档;以及
对于在所述重建议程表中的每个条目中标识的每个目标文档,异步地,
使用所述锚点信息库找到所述目标文档的锚文本;以及
更新所述目标文档的搜索索引的条目中的锚文本,其中所述目标文档的锚文本增量式地更新。
24.根据权利要求23所述的系统,其中所述操作进一步包括:
接收用于处理的文档;
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述要处理的文档被标识为目标文档;
从所述标识的条目中的每个条目检索锚文本;以及
将所述检索的锚文本存储到所述文档的所述搜索索引的条目中。
25.一种计算机程序产品,包括含有计算机可读程序的计算机可用介质,其中所述计算机可读程序在计算机上执行时使得所述计算机:
当建立所述搜索索引并使用所述搜索索引以响应一个或多个搜索请求时,
维护锚点信息库,其中所述锚点信息库的每个条目标识参考文档、目标文档和与从所述参考文档到所述目标文档的链接相关联的锚文本;
接收用于处理的文档;
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述要处理的文档被标识为目标文档;
从所述标识的条目中的每个条目检索锚文本;以及
将所述检索的锚文本存储到所述文档的所述搜索索引的条目中。
26.一种计算机程序产品,包括含有计算机可读程序的计算机可用介质,其中所述计算机可读程序在计算机上执行时使得所述计算机:
维护锚点信息库,其中所述锚点信息库的每个条目标识参考文档、目标文档和与从所述参考文档到所述目标文档的链接相关联的锚文本;
维护重建议程表,其中所述重建议程表中的每个条目标识一个目标文档;以及
对于在所述重建议程表中的每个条目中标识的每个目标文档,异步地,
使用所述锚点信息库找到所述目标文档的锚文本;以及
更新所述目标文档的搜索索引的条目中的锚文本,其中所述目标文档的锚文本增量式地更新。
CNA2007101927560A 2006-12-28 2007-11-16 用于建立搜索索引的方法和系统 Pending CN101211365A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/617,401 US7788253B2 (en) 2006-12-28 2006-12-28 Global anchor text processing
US11/617,401 2006-12-28

Publications (1)

Publication Number Publication Date
CN101211365A true CN101211365A (zh) 2008-07-02

Family

ID=39585388

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101927560A Pending CN101211365A (zh) 2006-12-28 2007-11-16 用于建立搜索索引的方法和系统

Country Status (2)

Country Link
US (1) US7788253B2 (zh)
CN (1) CN101211365A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193935A (zh) * 2010-03-08 2011-09-21 英业达股份有限公司 嵌入式的搜寻系统及其方法
CN102708136A (zh) * 2011-03-11 2012-10-03 微软公司 包括使用可重用索引字段的对特征的索引和搜索
CN111200623A (zh) * 2018-11-19 2020-05-26 福建天泉教育科技有限公司 基于分布式存储实现终端数据同步的方法及其系统
CN111580881A (zh) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 文件加载方法、装置和电子设备
CN111931010A (zh) * 2020-09-16 2020-11-13 杭州城市大数据运营有限公司 一种锚点与线条的动态绑定方法、装置、设备和存储介质
CN112579727A (zh) * 2020-12-16 2021-03-30 北京百度网讯科技有限公司 文档内容的提取方法、装置、电子设备及存储介质
CN112805978A (zh) * 2018-09-28 2021-05-14 微软技术许可有限责任公司 针对事件流处理的增强型锚协议
CN112836077A (zh) * 2021-01-21 2021-05-25 携程旅游网络技术(上海)有限公司 特定人物检索方法、系统、设备及存储介质
CN112836008A (zh) * 2021-02-07 2021-05-25 中国科学院新疆理化技术研究所 基于去中心化存储数据的索引建立方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962462B1 (en) 2005-05-31 2011-06-14 Google Inc. Deriving and using document and site quality signals from search query streams
JP5437557B2 (ja) * 2006-10-19 2014-03-12 富士通株式会社 検索処理方法及び検索システム
JP5040396B2 (ja) * 2007-03-28 2012-10-03 富士通株式会社 Webページ検索プログラム、方法、及び装置
KR101103766B1 (ko) * 2007-07-03 2012-01-12 성균관대학교산학협력단 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체
US8682859B2 (en) * 2007-10-19 2014-03-25 Oracle International Corporation Transferring records between tables using a change transaction log
US9418154B2 (en) * 2007-10-19 2016-08-16 Oracle International Corporation Push-model based index updating
US9594794B2 (en) * 2007-10-19 2017-03-14 Oracle International Corporation Restoring records using a change transaction log
US9594784B2 (en) * 2007-10-19 2017-03-14 Oracle International Corporation Push-model based index deletion
US20090119572A1 (en) * 2007-11-02 2009-05-07 Marja-Riitta Koivunen Systems and methods for finding information resources
US7953731B2 (en) * 2007-11-19 2011-05-31 Cisco Technology, Inc. Enhancing and optimizing enterprise search
US8510262B2 (en) * 2008-05-21 2013-08-13 Microsoft Corporation Promoting websites based on location
US8185528B2 (en) * 2008-06-23 2012-05-22 Yahoo! Inc. Assigning human-understandable labels to web pages
US8271869B2 (en) * 2010-10-08 2012-09-18 Microsoft Corporation Identifying language translations for source documents using links
JP6405790B2 (ja) * 2014-08-25 2018-10-17 株式会社リコー 会議管理装置、資料登録方法、プログラム及び会議システム
US9460344B2 (en) * 2014-10-13 2016-10-04 Lenovo (Singapore) Pte. Ltd. Generating multi-logogram phrases from logogram radicals
CN104331458B (zh) * 2014-10-31 2018-06-19 北京奇虎科技有限公司 以锚文本作为网页标题的方法和装置
CN109977935B (zh) * 2019-02-27 2024-04-12 平安科技(深圳)有限公司 一种文本识别方法及装置
CN113033149B (zh) * 2021-04-20 2023-12-19 平安科技(深圳)有限公司 用户故事文档质量检查方法、装置、设备及存储介质
CN113094508A (zh) * 2021-04-27 2021-07-09 平安普惠企业管理有限公司 数据检测方法、装置、计算机设备和存储介质
CN113127058B (zh) * 2021-04-28 2024-01-16 北京百度网讯科技有限公司 数据标注方法、相关装置及计算机程序产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
AU2002318380A1 (en) * 2001-06-21 2003-01-08 Isc, Inc. Database indexing method and apparatus
US7308643B1 (en) * 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system
US7693827B2 (en) * 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7480667B2 (en) * 2004-12-24 2009-01-20 Microsoft Corporation System and method for using anchor text as training data for classifier-based search systems

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193935B (zh) * 2010-03-08 2013-04-10 英业达股份有限公司 嵌入式的搜寻系统及其方法
CN102193935A (zh) * 2010-03-08 2011-09-21 英业达股份有限公司 嵌入式的搜寻系统及其方法
CN102708136A (zh) * 2011-03-11 2012-10-03 微软公司 包括使用可重用索引字段的对特征的索引和搜索
CN112805978A (zh) * 2018-09-28 2021-05-14 微软技术许可有限责任公司 针对事件流处理的增强型锚协议
CN112805978B (zh) * 2018-09-28 2023-05-26 微软技术许可有限责任公司 针对事件流处理的增强型锚协议
CN111200623B (zh) * 2018-11-19 2022-03-29 福建天泉教育科技有限公司 基于分布式存储实现终端数据同步的方法及其系统
CN111200623A (zh) * 2018-11-19 2020-05-26 福建天泉教育科技有限公司 基于分布式存储实现终端数据同步的方法及其系统
CN111580881A (zh) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 文件加载方法、装置和电子设备
CN111931010A (zh) * 2020-09-16 2020-11-13 杭州城市大数据运营有限公司 一种锚点与线条的动态绑定方法、装置、设备和存储介质
CN112579727A (zh) * 2020-12-16 2021-03-30 北京百度网讯科技有限公司 文档内容的提取方法、装置、电子设备及存储介质
CN112836077A (zh) * 2021-01-21 2021-05-25 携程旅游网络技术(上海)有限公司 特定人物检索方法、系统、设备及存储介质
CN112836077B (zh) * 2021-01-21 2024-03-12 携程旅游网络技术(上海)有限公司 特定人物检索方法、系统、设备及存储介质
CN112836008A (zh) * 2021-02-07 2021-05-25 中国科学院新疆理化技术研究所 基于去中心化存储数据的索引建立方法
CN112836008B (zh) * 2021-02-07 2023-03-21 中国科学院新疆理化技术研究所 基于去中心化存储数据的索引建立方法

Also Published As

Publication number Publication date
US20080162425A1 (en) 2008-07-03
US7788253B2 (en) 2010-08-31

Similar Documents

Publication Publication Date Title
CN101211365A (zh) 用于建立搜索索引的方法和系统
US9652483B1 (en) Index server architecture using tiered and sharded phrase posting lists
US10152535B1 (en) Query phrasification
US7783626B2 (en) Pipelined architecture for global analysis and index building
US8166045B1 (en) Phrase extraction using subphrase scoring
US7925655B1 (en) Query scheduling using hierarchical tiers of index servers
US7953745B2 (en) Intelligent container index and search
US9836541B2 (en) System and method of managing capacity of search index partitions
US7702614B1 (en) Index updating using segment swapping
KR101443475B1 (ko) 검색 제안 클러스터링 및 프리젠테이션
US8086594B1 (en) Bifurcated document relevance scoring
US7769792B1 (en) Low overhead thread synchronization system and method for garbage collecting stale data in a document repository without interrupting concurrent querying
US7827172B2 (en) “Query-log match” relevance features
US7634517B1 (en) System and method for dynamically updating a document repository without interrupting concurrent querying
CN101361065A (zh) 分布式模型的编码和自适应、可扩展访问
CN105279213A (zh) 一种日志数据库检索装置及检索方法
CN102955792A (zh) 一种实时全文搜索引擎事务处理的实现方法
CN107851108A (zh) 使用位向量搜索索引的匹配文档
CN102722499A (zh) 搜索引擎及其实现方法
CN102737021A (zh) 搜索引擎及其实现方法
JPWO2004111876A1 (ja) 検索条件を再利用する検索システムおよび方法
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
US7617226B1 (en) Document treadmilling system and method for updating documents in a document repository and recovering storage space from invalidated documents
US20080189262A1 (en) Word pluralization handling in query for web search
US20060143242A1 (en) Content management device

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080702