CN1652108A - 具有二维线性可缩放并行结构的搜索引擎 - Google Patents

具有二维线性可缩放并行结构的搜索引擎 Download PDF

Info

Publication number
CN1652108A
CN1652108A CNA2004100368058A CN200410036805A CN1652108A CN 1652108 A CN1652108 A CN 1652108A CN A2004100368058 A CNA2004100368058 A CN A2004100368058A CN 200410036805 A CN200410036805 A CN 200410036805A CN 1652108 A CN1652108 A CN 1652108A
Authority
CN
China
Prior art keywords
search
node
nodes
document
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100368058A
Other languages
English (en)
Other versions
CN100394424C (zh
Inventor
B·斯文根
K·M·里斯维克
A·哈拉尔斯
T·埃格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fly Upward Management Co Ltd
Original Assignee
Overture Services Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Overture Services Inc filed Critical Overture Services Inc
Publication of CN1652108A publication Critical patent/CN1652108A/zh
Application granted granted Critical
Publication of CN100394424C publication Critical patent/CN100394424C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/956Hierarchical
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Error Detection And Correction (AREA)
  • Image Processing (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)

Abstract

用具有二维线性可缩放并行结构的搜索引擎搜索文档集(D),搜索引擎包含用于形成连接在网络中的节点(N)组的数据处理单元,第一组节点包含发送节点(Nα),第二组节点包含搜索节点(Nβ)以及第三组节点包含索引节点(Nγ)。搜索节点(Nβ)成组为列,这些列处于发送节点(Nα)和索引节点(Nγ)之间,并行连接在网络中。发送节点(Nα)用来处理搜索请求和搜索结果,搜索节点(Nβ)包含搜索软件,至少部分搜索节点还包含至少一个搜索处理模块(M),索引节点(Nγ)通常用来给搜索软件生成索引I。还可已有第四组节点即采集节点(Nδ),采集节点用来处理搜索结果,这就可以分离搜索任务中的发送节点。通过采用各自的结构匹配来实现数据容量缩放和搜索引擎性能缩放,从而实现了二维缩放。

Description

具有二维线性可缩放并行结构的搜索引擎
技术领域
本发明涉及具有二维线性可缩放并行结构的搜索引擎。
背景技术
现有的绝大多数搜索引擎技术需要处理大量的数据,它借助具有强大计算能力的计算机来实现搜索。而搜索问题是数据可分割处理问题,可利用这个特点把搜索问题分解成大量的细节查询,并把每个不同的查询交给并行联接在网络中的同量级的处理器同时处理。特定的搜索问题可以看作二进制数据分割处理问题。因此可用二进制树形网络建立一个多处理器结构,如已公开的美国专利No.4860201(Stolfo等人)和国际专利申请,PCT/NO99/00308专利属于本申请人,在此一并引用作为参考。该专利申请人开发了用于在普通索引文本中搜索的专利技术。这些技术尤其建立在上述国际专利申请PCT/NO99/00308中论述的用于搜索的搜索系统和搜索方法上的,这些技术属于本申请人,在此一并引用。按照本发明,搜索系统基于有效的核心搜索算法,该算法可用在搜索引擎中。
然而,搜索不断增大的文档、处理不断增加的业务量负荷即由搜索系统处理的每秒钟的查询数,变得越来越重要了。这就要求除了在处理器层面上能够同时处理大量的查询之外,还应该使搜索引擎优选地具有二维可线性缩放的结构。即,既考虑数据容量和性能,又考虑每秒钟需处理大量查询的能力。纵观万维网(WWW)的发展,由于目前的因特网中文献资料和用户的数量以巨大的增长率增加,搜索引擎结构中的可缩放性变得尤为重要。
现有的解决因特网搜索问题的搜索引擎技术能够缩放到一定的水平,但是几乎所有的这种缩放总是需要付出高昂的成本来扩容搜索引擎系统,以增加数据容量和数据通信。通常,系统的成本与数据容量或流量的平方成比例,因而数据容量每提高一倍将导致系统成本提高四倍。而且,目前所有主要的因特网搜索引擎都基于非常昂贵的服务器技术,并常常伴有粗暴的计算机强行访问(brutecomputing force-approaches)和其他的如服务器缓慢处理、需要附加特定的具有容错能力的硬件等缺点。比如,系统成本能够用建立一个搜索引擎所需的硬件成本来计算或者以实际的系统总成本来计算。
发明内容
因此本发明的主要目标是提供一个具有多级数据和并行处理功能的搜索引擎。它允许大量用户同时、快速搜索大量数据。
特别地,本发明的另一目标是提供用于建立一个具有多级数据和并行处理功能的搜索引擎的并行结构。
而本发明还有一个目标是提供一个并行结构,它是二维线性可缩放的,即数据容量和性能,即查询速度。
本发明涉及具有二维线性可缩放并行结构的搜索引擎,该搜索引擎用来搜索文本文档集D,其中,文档可以分成多个文档分区d1,d2,...dn,其中,文档集D在文本过滤系统中经预处理后可以获得预处理文档集Dp以及相应的预处理文档分区dp1,dp2,...dpn,其中可以从文档集D生成索引I,也就为每个以前的预处理文档分区dp1,dp2,...dpn生成相应的索引i1,i2,...in,其中利用文档分区相关的数据组dp.k进行对文档集D的文档分区d的搜索,其中1≤k≤n,且其中搜索引擎包含数据处理单元,该数据处理单元形成联接在网络中的节点组。
本发明的搜索引擎能够满足上述目标并具有其他特点和优点,其特点在于第一组节点包括a个发送节点,第二组节点包括b个搜索节点,第三组节点包括g个索引节点,以及可选的第四组节点包括了e个采集节点,发送节点联接在网络中的多级结构上。搜索节点按列分成组,这些列处于发送节点和索引节点之间,并行连接在网络中;发送节点用来处理搜索请求和搜索结果;搜索请求还要分配给所有搜索节点,如果没有采集节点,则搜索结果返回到发送节点并在此综合为最终的搜索结果,每个搜索节点都包含搜索软件,索引节点用于生成搜索软件的索引i,并针对包括搜索处理器模块的搜索节点可选地生成文档分区相关的数据组dp.k,如果有采集节点,则这些节点类似于发送节点,连接在多级网络结构上,用于汇集搜索请求的结果并输出最终的查询结果,这样发送节点就不再执行该项任务,用文档分区d的数目n对搜索节点列的数目υ进行比例缩放,就可以实现对数据容量的缩放;用估计或预期的通信量对每个搜索节点列中的搜索节点进行缩放,可以实现缩放性能,这样,在任何情况下,对文档集D的搜索发生在包含一个文档分区相关的数据组dp.k的单个搜索节点以及含有相同的文档分区相关数据组dp.k的搜索节点的列中的所有搜索节点。
按照本发明,分层树结构用来实现发送节点的多级结构和可选采集节点网络。因而,可选采集节点的多级结构就可以作为发送节点的多级结构的镜像,分层树结构用来实现二进制树结构。
按照本发明,其优点是每个搜索节点包含一个搜索软件模块。
还有,按照本发明,至少部分搜索节点包含至少一个专用的搜索处理器模块,每个专用搜索处理器模块由一个或多个专用处理器芯片实现,这些芯片用来并行处理大量的搜索请求。在这方面,专用的搜索处理器芯片位于搜索处理器模块的y个处理器组中。每个处理器组有z个搜索处理器芯片,每个芯片与处理器组中的存储器相连并从存储器中接收数据。
按照本发明,可以通过增加搜索节点组或节点列来较好地增加数据容量缩放中的文档分区数目。在这方面,文档分区数目的增加相应伴随发送节点数的增加,以及如果有采集节点则伴随采集节点数的增加和伴随索引节点数的增加。
按照本发明,文档分区数的增加能够通过相应增加发送节点和,若有采集节点则增加采集节点,以及通过可选地增加索引节点的数目来很好的实现。
最后,按照本发明的优点,每个独立节点组由一个或多个连接在数据通讯网络中的工作站来实现。
附图说明
根据本发明,搜索引擎可以由非限制性典型实施方案和参考附图来加以说明,其中
图1示出了按照本发明的搜索引擎的第1个实施方案中的结构的概要,
图2示出了按照本发明的搜索引擎的第2个实施方案中的结构的概要,
图3示出了一个包含搜索软件和专用搜索芯片硬件的搜索节点的示意图,
图4示出了搜索芯片的单模块设计方案,
图5示出了在专用搜索芯片中处理查询信息的示意图,
图6示出了性能缩放原理的示意图,
图7示出了基于二进制树结构的多级发送节点结构的示意图
图8示出了基于本发明的搜索引擎的第1个实施方案中的结构的概要及其二维缩放原理,以及
图9示出了按照本发明的搜索引擎的第2个实施方案中的结构的概要及其二维缩放原理。
具体实施方式
搜索大型的独立文档集是一项高度并行的任务。按照本发明,搜索引擎采取不同等级的并行处理,在下文中展开详细论述。
按照本发明的搜索引擎搜索文档D的文档集。文档可以分解成n个文档分区d1,d2,...dn,每个文档集D或文档分区集的文档分区d能用硬件文本过滤系统进行预处理,比如,可由专用的硬件如所谓的模式匹配芯片(Pattern Matching Chip,PMC)来处理,该模式匹配芯片已经在国际专利申请No.PCT/NO99/00344中公开,在此一并引用。经预处理的文档集用Dp表示,而相应的经预处理的文档分区分别用dp1,dp1,...dpn表示。
基于软件的搜索系统要求从文档集中生成索引,用I表示,相应的文档集的文档分区d1,d2,...dn用i1,i2,...in表示。
搜索文档集D的分割文文档d所需的数据组叫做文档分区所需数据组或者文档分区相关数据组。在只含软件的系统(SW system)中数据组就是索引ik,而在具有硬件的系统(SW/HW system)中数据组还包括经预处理的相应索引为ik的文档分区dpk,其中1≤k≤n
本质上,由软件实现的文档分割和预处理操作,其步骤如下所示
*(D)→*(d1....dn)→*(dp1....dpn)→dpk,其中*(D)表示对输入文档集D的进行分割操作,*(d1....dn)代表过滤操作,比如给d1....dn添加索引,而dpk无疑就是文档分区相关的数据组。该数据组在只有软件的系统(SW)中就是索引ik,1≤k≤n。
搜索引擎用一组由高性能互联总线连接起来的工作站来实现。图中未显示的工作站组成了搜索服务器系统。工作站作为搜索服务器的节点。不通节点执行不同的搜索任务,按照本发明,在下文中进行陈述。
节点可以认为是分布在各个工作站上的虚拟节点,但是为实现基于硬件的搜索节点,具有硬件系统的搜索引擎,其专用的搜索处理硬件必须是放置在某些工作站上的物理实体。尽管部分具有硬件系统的搜索引擎中地搜索节点可能只含有软件,并任意分布在多个工作站上,但搜索节点软件仍然可以是分布式的。
·发送节点Nα1,...Nα.a处理输入的搜索请求并把搜索请求发送给所有的搜索节点。发送节点还可以设置成采集节点以便汇集搜索答案和搜索结果并返回给查询者。一旦接收到搜索答案,处于采集模式的发送节点把搜索答案综合为最终的搜索结果。
·搜索节点Nβ1,...Nβ.b拥有整个数据组dp的一部分。搜索节点包含专用的搜索软件和大量上文提到的用于硬件搜索的PMC模块。
·索引节点Nγ1,...Nγ.g负责为大量搜索节点上的专用搜索软件生成索引。对于PMC模块,索引节点Nγ还对原始数据进行过滤和预处理。
·采集节点Nδ1,...Nδ.e可以任选地用于汇集结果并把搜索结果综合为最终结果,这种情况无疑可以分离该任务中的发送节点。
按照本发明的第一个实施方案图示在图1中,其中搜索节点Nβ形成节点组或列S,搜索节点组或列S并行连接在发送节点Nα和索引节点Nγ之间。图中还图示了发送节点的排列原理图。而实际上,这些节点形成了多级分层结构。
按照本发明的第二个实施方案图示在图2中,其中采集节点Nδ的排列与发送节点的排列类似,这样就分离了该任务中的发送节点。
可以理解,单个工作站可能只作为某一特定类型的节点,或者多种其他类型的节点。换句话说不同类型的节点可能分布在工作站组中的各个工作站中。因此,图1和2所示的结构由整个组中的工作站来组成,而这些图中既不显示工作站也不显示互联总线。
接下来需要对节点进行更为详细的说明。根据本发明,处于起始位置的搜索节点是搜索引擎的关键节点。
搜索节点Nβ包含上文提到的整个数据组dp中的一部分。搜索节点具有软件搜索引擎(SW)和大量可选的PMC模块M,如图3所示。随后,在索引节点Nγ中生成搜索节点Nβ的数据组。
为能快速搜索,搜索节点可以配备x个PMC模块M,如图3所示。每个PMC模块M具有y组合有z个PMC模块的G,如图4所示,其中每组G从单个存储芯片RAM中接收数据。这些A模块M通常具有独立的电路板。每个PMC芯片能够同时处理q个查询,如图5所示。
模式匹配芯片PMC一秒钟能够处理tc字节的数据容量。若存储模块每秒钟能够向典型匹配芯片PMCs传送ty字节的数据,则PMC就能够在给定的时间内搜索Tc字节的数据容量,Tc=min{tc,ty}t。
如图4所示,典型匹配芯片组PMC置于模块M中,模块M含有y组G,每组G又含有z个PMC芯片。其中,每组G从单个存储芯片RAM中接收数据。存储芯片的容量是Tc。模块能够搜索的总的数据量为Ty,Ty=Tc乘以zq个不同查询。
若每个搜索节点Nβ含有x个模块M,由于没有任何PMC模块搜索相同的数据;同时查询数目仍是zq,则这些PMC模块M能够搜索相当于Tr的数据量,Tr=Ty*x=min{tc,ty}txy。
PMC模块在搜索节点上的总的搜索速度可表大为:
r HW zq T r min { t c , t y } txy - - - ( 1 )
其中Tr代表一个节点总的数据容量。接下来就可以计算搜索节点的性能。
给定的PMC模块M(或者任何硬件设备)具有rHW的查询速度,也就是说搜索节点Nβ上的搜索软件具有rHW的查询速度,则搜索节点Ns的总的查询速度可表示为
r=rt.HW(1-SW)+rt.SWSW    (2)
其中SW代表在软件中执行的查询数q的百分比。SW的实际值在运行中动态变化。
发送节点Nα接收所有的查询,并把查询发送给所有的搜索节点Nβ。从不同搜索节点Nβ得到的结果进行综合,并且,如果发送节点具备采集节点的功能,就可返回一个完整的结果。
索引节点Nγ汇集文档并为不同搜索节点Nβ上的搜索软件建立预索引。因此索引节点Nγ能够与含有合适的索引软件的搜索节点Nβ合并。硬件是基于对全部原始数据的扫描,但是部分原始数据的预处理和过虑可由索引节点Nγ完成。
关于节点互联和数据通信,可以在下文中得到大体的了解。
不同类型的互联可以用于节点的连接。比如,在低端系统中,通常用100M字节带宽的快速以太网来处理通信。
互联节点中的通信可以分成两类:
·查询通信-发送节点Nα和搜索节点Nβ之间的通信,查询通信在整个搜索期内都在进行,查询通信的特点在于小到中等的数据容量和较高的通信频率。
·数据通信-索引节点Nγ和搜索节点Nβ之间的通信,数据通信的特点是较高的数据容量和较低的通信频率(一般每天一批)。
通常,查询从发送节点Nα向搜索节点Nβ传送一个查询字符串,然后搜索节点Nβ作出响应并用一系列文档与查询字符串相匹配。可选节点Nα也可以查询搜索节点,查询文档的URL字符串,但这不是本发明的关键内容。
按照本发明,搜索引擎的结构能够根据上述条件,很容易对数据容量和性能两个维独自进行二维缩放。
增加文档分区d的数据组来实现数据容量的缩放,换句话说,可以向搜索节点Nβ增加更多的节点组或列S。为处理更多的文档分区d的数据组,还可以增加索引节点Nγ和发送节点Nα
性能缩放可以在搜索引擎结构中通过复制文档分区的数据组并相应增加搜索节点Nβ的数目来实现,即如图6所示增加Nβ数目。当采用复制文档分区的数据组来缩放性能时,每个搜索节点Nβ都是搜索节点组S的一部分。这样,就把搜索节点Nβ1....NβS连接到组Sβ1...Sβ.S中,其中 v = s h s , ,hs代表缩放因子。节点组Sβ.j包含搜索节点Nβ.j,Nβ.j+1,Nβ.j+2和Nβ.j+3,如图8所示。
数据容量的缩放可能引起搜索节点Nβ接收到的来自发送节点Nα的查询数的大量增加。本结构通过使用发送节点Nα的层数λ如图7所示来解决该问题。这个结构使发送节点Nα形成二进制数据分布树中的一部分节点。二进制数据分布树允许较容易地对其线性缩放。类似的二进制数据分布树已经在上述提到的国际专利申请PCT/NO99/00344中公开,该专利公开了一个典型匹配芯片PMC的实际实现方案的结构。规则二进制树中发送节点Nα的数目是第λ层为2λ-1个,λ=1,2,3...,发送节点中的根节点在树结构中的第一层,从顶层到λ层,树中全部的发送节点数是2λ-1。如果发送节点还作为采集节点使用,以及用于汇集从搜索节点返回的结果,则在发送节点上综合成搜索结果,并由发送节点中的根节点向查询用户输出最后的查询结果。然而,这并没有违背按照本发明的搜索引擎:它建立的是独立的与搜索节点相连接的数据采集树,包含采集节点Nδ,这些采集节点从数据汇集树以及数据采集节点树的根节点上汇集和输出查询的最终结果。因而采集节点树可以作为发送节点的一个镜像。
图8中给出了按照本发明的一个可缩放搜索引擎结构的设计原理图,该引擎结构具有二维缩放原理的插图。可以看出,发送节点Nα组成了搜索引擎的前端结束部分,向搜索节点Nβ发送查询并从搜索节点接收查询结果,在搜索节点中对索引数据进行了实际的搜索。如果使用了专用采集节点Nδ,如图9所示,而其它部分跟图8相似,则搜索结果无疑将返回给这些专用采集节点。随着发送节点Nα加入到树形结构,如图9所示,作为搜索引擎的后端结束部分的采集节点网络形成一个发送节点网络的镜像。索引(蛛网状)节点Nγ组成了搜索引擎的后端结束部分,并从,如,因特网中汇集数据以及检索数据以生成一个可搜索目录。通过水平增加搜索节点Nβ或者搜索节点组S,可以线性缩放搜索引擎的数据容量。每个增加的搜索节点或搜索节点组容纳不同的数据。通常的搜索引擎容量参数可以从下文的一个非限制性例子中给出。通常一个搜索节点Nβ每天能够在5,000,000文档目录中处理8,000,000页示图。可缩放搜索引擎中,每个搜索节点Nβ通常能够容纳5,000,000不同的索引文档,一个具有40个搜索节点的节点行足够用于维护200,000,000个文档目录。性能缩放以及通信能力的增加需要增加更多行具有相同数据容量的搜索节点Nβ,它使每个搜索节点组或列S中的搜索节点能容纳相同数量的数据。因此一个具有10个Nβ搜索节点的节点组或列S每天能够处理80,000,000页示图,则40个这样的节点列S每天能处理3,200,000,000页示图。
按照本发明的具有可缩放结构的搜索引擎的另一个重要优点是查询响应时间跟目录的大小完全无关,因为每个查询是在所有搜索节点Nβ中并行处理的,而且该结构具有固有的容错能力,它确保了个别节点中的错误不会导致系统的崩溃,而只是暂时的在错误纠正之前减低了性能。
而且,按照本发明的数据容量和通行容量的无限线性缩放原理,可以应用于搜索引擎中。与现有的搜索引擎技术相比,后者的搜索成本通常随数据或通信容量的增加成指数增加,并且现有的搜索引擎技术的最大容量通常只能达到较低到中等水平。而按照本发明的搜索引擎,其成本随容量的增加最多成线性增加,事实上它只决定于容量的增加是否仅仅通过增加SW搜索节点还是通过另增SW/HW搜索节点来实现。最后,按照本发明的搜索引擎还具有以下优点,即实际中的每个节点可以由标准的低成本的商用PCs来实现,当然也可以由更昂贵的基于UNIX的服务器比如现有的Sun或Alpha计算机来实现。

Claims (9)

1.一种具有二维线性可缩放并行结构的搜索引擎,用于搜索文本文档集D,其中,文档可以分解成大量的文档分区d1,d2,...dn,其中,文档集D在文本过滤系统中经预处理后可以获得预处理文档集Dp以及相应的预处理文档分区dp1,dp2,...dpn,其中从文档集D中可以生成索引I,这就为每个预处理文档分区dp1,dp2,...dpn生成对应的索引i1,i2,...in,其中对文档集D的文档分区d的搜索发生在文档分区相关的数据组dp.k中,它包含预处理文档分区dpk和相应的索引ik,l≤k≤n,其中搜索引擎包含形成联接在网络中的节点组(N)的数据处理单元,其特征在于:
第一组节点,包含a个发送节点(Nα1...Nαa),第二组节点,包含b个搜索节点(Nβ1...Nβ.b),第三组节点,包含g个索引节点(Nγ1...Nγg),以及一个可选的第四组节点,包含e个采集节点(Nδ1...Nδ.e),
发送节点(Nα),联接在网络的多级结构中,
搜索节点(Nβ),按v列(S)分成组,这些列处于发送节点Nα和索引节点Nγ之间,并行连接在网络中,发送节点(Nα)用来处理搜索查询和搜索结果,搜索查询被发送给所有的搜索节点(Nβ),如果没有采集节点(Nδ),搜索结果就返回给发送节点(Nα)并在此综合成最终的搜索结果,
每个搜索节点(Nβ)用来存放搜索软件,
索引节点(Nγ)通常用来为搜索软件生成索引i以及为每一个包含一个搜索处理器的搜索节点(Nβ)可选地生成文档分区相关的数据组dp.k
如果有采集节点(Nδ),这些节点联接在网络的多级结构中,与发送节点(Nα)类似用来为搜索查询汇集查询答案并输出一个最终搜索结果,这样发送节点不再执行该项任务,
用文档分区d的数目n对搜索节点列(S)的数目υ进行比例缩放,就可以实现对数据容量的缩放;用估计或预期的通信量对每个搜索节点列(Sβ)中的搜索节点(Nβ)进行缩放,可以实现缩放性能,这样,在任何情况下,对文档集D的搜索发生在包含一个文档分区相关的数据组dp.k的单个搜索节点(Nβ)以及含有相同的文档分区相关数据组dp.k的搜索节点的列(Sβ)中的所有搜索节点。
2.按照权利要求1的搜索引擎,其特征在于网络中发送节点(Nα)和可选采集节点(Nδ)的多级结构由分层树结构提供。
3.按照权利要求2的搜索引擎,其特征在于可选采集节点(Nδ)的多级结构是发送节点(Nα)的多级结构的一个镜像。
4.按照权利要求2的搜索引擎,其特征在于分层数结构是二进制树结构。
5.按照权利要求1的搜索引擎,其特征在于每个搜索节点包含一个搜索软件模块(SM)。
6.按照权利要求5的搜索引擎,其特征在于至少部分搜索节点(Nβ)包含至少一个专用搜索处理器模块(M),每个专用搜索处理器模块(M)由一个或多个专用搜索处理器芯片(PMC)实现,每个芯片用于并行处理多个q搜索查询。
7.按照权利要求6的搜索引擎,其特征在于专用搜索处理器芯片(PMC)由具有y组处理器组(G)的处理器模块(M)提供,每组处理器含有z个搜索处理器芯片(PMC),它与分配给处理器组的存储器(RAM)相连,并从中接收数据。
8.按照权利要求1的搜索引擎,其特点在于数据容量缩放中的文档分区d的数目的增加伴随相应的发送节点(Nα)的增加,和若有采集节点则伴随采集节点Nδ的增加,以及还伴随可选的索引节点(Nγ)的增加。
9.按照权利要求1的搜索引擎,其特点在于每个独立的节点组(Nα,Nβ,Nγ,Nδ)由一个或多个联接在数据通信网络中的工作站来实现。
CNB2004100368058A 1999-05-10 2000-05-10 具有二维线性可缩放并行结构的搜索引擎 Expired - Lifetime CN100394424C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NO992269A NO992269D0 (no) 1999-05-10 1999-05-10 S°kemotor med todimensjonalt skalerbart, parallell arkitektur
NO19992269 1999-05-10

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CNB008101248A Division CN1153162C (zh) 1999-05-10 2000-05-10 具有二维线性可缩放并行结构的搜索引擎

Publications (2)

Publication Number Publication Date
CN1652108A true CN1652108A (zh) 2005-08-10
CN100394424C CN100394424C (zh) 2008-06-11

Family

ID=19903319

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB2004100368058A Expired - Lifetime CN100394424C (zh) 1999-05-10 2000-05-10 具有二维线性可缩放并行结构的搜索引擎
CNB008101248A Expired - Lifetime CN1153162C (zh) 1999-05-10 2000-05-10 具有二维线性可缩放并行结构的搜索引擎

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNB008101248A Expired - Lifetime CN1153162C (zh) 1999-05-10 2000-05-10 具有二维线性可缩放并行结构的搜索引擎

Country Status (15)

Country Link
US (1) US7330857B1 (zh)
EP (1) EP1208465B1 (zh)
JP (1) JP3586429B2 (zh)
KR (1) KR100457830B1 (zh)
CN (2) CN100394424C (zh)
AT (1) ATE439639T1 (zh)
AU (1) AU761169B2 (zh)
BR (1) BR0010427B8 (zh)
CA (1) CA2373453C (zh)
CZ (1) CZ20014002A3 (zh)
DE (1) DE60042745D1 (zh)
HK (1) HK1047178A1 (zh)
NO (1) NO992269D0 (zh)
RU (1) RU2226713C2 (zh)
WO (1) WO2000068834A1 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359951B2 (en) * 2000-08-08 2008-04-15 Aol Llc, A Delaware Limited Liability Company Displaying search results
NO315887B1 (no) * 2001-01-04 2003-11-03 Fast Search & Transfer As Fremgangsmater ved overforing og soking av videoinformasjon
US7379983B2 (en) 2003-06-25 2008-05-27 International Business Machines Corporation Merging scalable nodes into single-partition merged system using service processors of nodes
US7240064B2 (en) * 2003-11-10 2007-07-03 Overture Services, Inc. Search engine with hierarchically stored indices
US7672930B2 (en) * 2005-04-05 2010-03-02 Wal-Mart Stores, Inc. System and methods for facilitating a linear grid database with data organization by dimension
CN101369268B (zh) * 2007-08-15 2011-08-24 北京书生国际信息技术有限公司 一种文档库系统中文档数据的存储方法
US9015197B2 (en) 2006-08-07 2015-04-21 Oracle International Corporation Dynamic repartitioning for changing a number of nodes or partitions in a distributed search system
US20080033925A1 (en) * 2006-08-07 2008-02-07 Bea Systems, Inc. Distributed search analysis
US7725470B2 (en) * 2006-08-07 2010-05-25 Bea Systems, Inc. Distributed query search using partition nodes
US8321376B2 (en) * 2007-03-29 2012-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Address resolving database
WO2009078729A1 (en) * 2007-12-14 2009-06-25 Fast Search & Transfer As A method for improving search engine efficiency
KR101009444B1 (ko) * 2008-01-29 2011-01-19 김운현 연속 가공형 앵글 헤드
US20090254523A1 (en) * 2008-04-04 2009-10-08 Yahoo! Inc. Hybrid term and document-based indexing for search query resolution
US8825646B1 (en) * 2008-08-08 2014-09-02 Google Inc. Scalable system for determining short paths within web link network
US8392394B1 (en) * 2010-05-04 2013-03-05 Google Inc. Merging search results
EP2423830A1 (de) 2010-08-25 2012-02-29 Omikron Data Quality GmbH Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
US8478704B2 (en) 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US9342582B2 (en) 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US8620907B2 (en) 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
CN102436513B (zh) * 2012-01-18 2014-11-05 中国电子科技集团公司第十五研究所 分布式检索方法和系统
US20150120844A1 (en) * 2013-10-31 2015-04-30 International Business Machines Corporation Hierarchical response-enabled notification system
US10120938B2 (en) * 2015-08-01 2018-11-06 MapScallion LLC Systems and methods for automating the transmission of partitionable search results from a search engine
US10380207B2 (en) * 2015-11-10 2019-08-13 International Business Machines Corporation Ordering search results based on a knowledge level of a user performing the search

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4860201A (en) * 1986-09-02 1989-08-22 The Trustees Of Columbia University In The City Of New York Binary tree parallel processor
EP0552288A1 (en) * 1990-10-03 1993-07-28 Thinking Machines Corporation Parallel computer system
US5701459A (en) 1993-01-13 1997-12-23 Novell, Inc. Method and apparatus for rapid full text index creation
JP3266351B2 (ja) * 1993-01-20 2002-03-18 株式会社日立製作所 データベース管理システムおよび問合せの処理方法
US7599910B1 (en) * 1993-11-16 2009-10-06 Hitachi, Ltd. Method and system of database divisional management for parallel database system
US5742806A (en) * 1994-01-31 1998-04-21 Sun Microsystems, Inc. Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system
US5694593A (en) * 1994-10-05 1997-12-02 Northeastern University Distributed computer database system and method
EP2270687A2 (en) * 1995-04-11 2011-01-05 Kinetech, Inc. Identifying data in a data processing system
CA2150745C (en) * 1995-06-01 2001-05-01 Chaitanya K. Baru Method and apparatus for implementing partial declustering in a parallel database system
US5960194A (en) * 1995-09-11 1999-09-28 International Business Machines Corporation Method for generating a multi-tiered index for partitioned data
JP2888188B2 (ja) * 1996-03-12 1999-05-10 松下電器産業株式会社 情報検索装置
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US6112198A (en) * 1997-06-30 2000-08-29 International Business Machines Corporation Optimization of data repartitioning during parallel query optimization
US6549519B1 (en) * 1998-01-23 2003-04-15 Alcatel Internetworking (Pe), Inc. Network switching device with pipelined search engines
JP3564999B2 (ja) * 1998-03-17 2004-09-15 松下電器産業株式会社 情報検索装置
JP2000010980A (ja) * 1998-06-24 2000-01-14 Nec Corp データベース検索システム、データベース検索方法、および記録媒体
JP3774324B2 (ja) * 1998-08-03 2006-05-10 株式会社日立製作所 ソート処理システムおよびソート処理の方法
US6370527B1 (en) * 1998-12-29 2002-04-09 At&T Corp. Method and apparatus for searching distributed networks using a plurality of search devices

Also Published As

Publication number Publication date
WO2000068834A1 (en) 2000-11-16
AU761169B2 (en) 2003-05-29
JP3586429B2 (ja) 2004-11-10
ATE439639T1 (de) 2009-08-15
BR0010427B8 (pt) 2013-02-19
DE60042745D1 (de) 2009-09-24
KR100457830B1 (ko) 2004-11-18
CA2373453C (en) 2005-08-16
CN1360701A (zh) 2002-07-24
CN1153162C (zh) 2004-06-09
CA2373453A1 (en) 2000-11-16
CZ20014002A3 (cs) 2002-04-17
US7330857B1 (en) 2008-02-12
EP1208465A1 (en) 2002-05-29
EP1208465B1 (en) 2009-08-12
HK1047178A1 (zh) 2003-02-07
CN100394424C (zh) 2008-06-11
JP2002544598A (ja) 2002-12-24
RU2226713C2 (ru) 2004-04-10
BR0010427A (pt) 2002-02-19
AU4321400A (en) 2000-11-21
KR20020006715A (ko) 2002-01-24
NO992269D0 (no) 1999-05-10
BR0010427B1 (pt) 2013-01-08

Similar Documents

Publication Publication Date Title
CN1153162C (zh) 具有二维线性可缩放并行结构的搜索引擎
US8799264B2 (en) Method for improving search engine efficiency
Tzouramanis et al. Overlapping linear quadtrees: a spatio-temporal access method
CN1838124A (zh) 海量数据内存数据库中快速定位的网格+t树索引的方法
RU2001133092A (ru) Механизм поиска с двумерной линейно расширяемой параллельной архитектурой
CN101051309A (zh) 在数字图书馆中所采用的检索系统和检索方法
Xin et al. Computing iceberg cubes by top-down and bottom-up integration: The starcubing approach
CN1588358A (zh) 对mdx多维数据查询语句的处理方法和系统
Sheng et al. Dynamic top-k range reporting in external memory
CN1889080A (zh) 一种用于检索字符串的方法
Sharma A generic machine for parallel information retrieval
CN1315074C (zh) 具有在线信息搜索功能的信息处理互助式计算机网络系统
Abdullahi et al. Indexing in big data mining and analytics
Thi-To-Quyen et al. Optimization for large-scale fuzzy joins using fuzzy filters in mapreduce
Wu et al. New algorithm for computing cube on very large compressed data sets
WO2009078729A1 (en) A method for improving search engine efficiency
Borici et al. Semantic graph compression with hypergraphs
Qadah Filter-based join algorithms on uniprocessor and distributed-memory multiprocessor database machines
CN112685399B (zh) 一种mes系统的标识数据库去重方法及系统
CN1276369C (zh) 具有智能型在线信息搜寻功能的随机转连接式计算机网络信息系统
CN1435777A (zh) 地理信息系统联机分析数据模型与属性数据集成型关联方法
CN1499401A (zh) 一种提供即时个性化动态专题服务的方法
CN103810277A (zh) 一种面向快速服务的大数据聚合方法
Lo et al. Hash-Based Indexing for Cloud Databases
Daoud Perfect Hash Functions for Large Web Repositories.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090306

Address after: American California

Patentee after: Yahoo Corp.

Address before: American California

Patentee before: Overture Services Inc.

ASS Succession or assignment of patent right

Owner name: YAHOO| CO.,LTD.

Free format text: FORMER OWNER: WAFUL TOURS SERVICES

Effective date: 20090306

ASS Succession or assignment of patent right

Owner name: FEIYANG MANAGEMENT CO., LTD.

Free format text: FORMER OWNER: YAHOO CORP.

Effective date: 20150331

TR01 Transfer of patent right

Effective date of registration: 20150331

Address after: The British Virgin Islands of Tortola

Patentee after: Fly upward Management Co., Ltd

Address before: American California

Patentee before: Yahoo Corp.

Effective date of registration: 20150331

Address after: The British Virgin Islands of Tortola

Patentee after: Fly upward Management Co., Ltd

Address before: American California

Patentee before: Yahoo Corp.

CX01 Expiry of patent term

Granted publication date: 20080611

CX01 Expiry of patent term