CN101882142A - 索引合并方法和索引合并装置 - Google Patents

索引合并方法和索引合并装置 Download PDF

Info

Publication number
CN101882142A
CN101882142A CN 200910140421 CN200910140421A CN101882142A CN 101882142 A CN101882142 A CN 101882142A CN 200910140421 CN200910140421 CN 200910140421 CN 200910140421 A CN200910140421 A CN 200910140421A CN 101882142 A CN101882142 A CN 101882142A
Authority
CN
China
Prior art keywords
subindex
size
index
predetermined
benchmark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200910140421
Other languages
English (en)
Other versions
CN101882142B (zh
Inventor
葛付江
王主龙
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN 200910140421 priority Critical patent/CN101882142B/zh
Publication of CN101882142A publication Critical patent/CN101882142A/zh
Application granted granted Critical
Publication of CN101882142B publication Critical patent/CN101882142B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了索引合并方法及装置。索引合并方法包括:确定索引库中是否存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,n为整数且大于等于2,预定基准与预定子索引的尺寸相关;如果确定存在则将确定的子索引作为子索引集;计算如果合并子索引集中的子索引将获得的新子索引的尺寸;在剩余的子索引中查找不少于m个的、尺寸符合基于与新子索引尺寸相关的基准的预定条件的子索引,m为整数且大于等于1;如果找到了则将找到的子索引加入子索引集中并对新的子索引集执行计算步骤和查找步骤;如果未找到则对子索引集中的子索引进行合并。利用根据本发明的方法和/或装置,能够在动态文本集环境下获得较稳定的优化的系统性能。

Description

索引合并方法和索引合并装置
技术领域
本发明总体上涉及信息处理领域,尤其是涉及利用索引技术的索引合并方法和索引合并装置。
背景技术
在动态文档集环境中通常需要频繁且高效地更新索引。由于实时检索系统要求支持动态文档集以及并发的索引和查询,即,要求允许用户在进行索引更新的同时进行查询。然而,频繁的索引更新非常消耗系统性能。在动态文档集环境中,对索引更新的主要要求是使索引更新的性能和查询的性能相折衷以达到更加优化的整体性能。在例如Strohman,T.所著的“Dynamic Collections in Indri.CIIR Technical Report(2005)”中,分析了动态文档集环境对于索引更新技术的要求。
关于如何在动态文档集环境中进行索引更新,在现有的许多专利、专利申请或者论文等中公开了多种方法。例如:在N.Lester、J.Zobel和H.E.Williams所著的“In-place versus re-build versus re-merge:Indexmaintenance strategies for text retrieval systems”(Proc.Twenty-SeventhAustralasian Computer Science Conference(ACSC2004),第15-22页)中列举了目前三种主要的索引更新方法。第一种方法是重建索引,即,在添加新文档时丢弃所有旧索引,对整个文档集和新的文档一起重新建立新索引。这种方法对于大规模文档集的效率很低。第二种方法是原地索引,即,在建索引时给每个索引项的倒排项预留一定的空间,当有新文档加入索引时,如果预留的空间足够,就将新文档的索引信息直接写入预留的空间,如果预留的空间不足,则将这些新的索引信息写到新的位置,同时在原来的索引中添加一个指向新的存储区域的指针,从而将同一索引项的倒排项通过指针串连起来。第三种方法是重新合并,即,在每次新加入文档时,首先对新加入的文档建立一个子索引,然后将该子索引和磁盘上的索引进行合并,并将合并结果写至新的磁盘位置。这种方法能够保证索引库中每个索引项的索引信息在磁盘上连续存放,在查询时仅需一次磁盘定位操作,但是在使用重新合并方法时会在磁盘上形成多个子索引,在查询时需要逐个访问这些子索引以获取查询项的倒排列表。这意味着要进行多次磁盘访问,从而降低了查询效率。因此,需要在合适的时机进行索引合并,将多个子索引合并为单个索引,以降低查询时的磁盘访问次数。在实际系统中绝大多数情况下重新合并方法的效果要优于原地索引方法和重建索引方法。
在现有的许多文章或专利中对第三种方法即重新合并方法进行了不同程度的改进,减少了读取和写入次数,使效率得到一定的提高。
索引重新合并的方式包括立即合并方式和按策略合并方式。立即合并是指在每次将索引从内存写入磁盘时都进行合并,这种方式的合并频率过高,因此非常消耗系统资源并将降低系统速度。在现有的许多专利或论文等中公开了多种按策略合并的方法,例如,提出了如下的对数合并策略:对子索引进行分代,每次从内存中形成的索引为0代,经过一次合并之后的索引为1代,依次类推;假设第i代触发一次合并,则生成第i+1代子索引;同一代中不允许出现超过两个索引,如果超过两个索引就对其进行合并。另一种类似的合并策略的核心思想是将待索引的数据集分为多个数目可控的划分,对划分的数目进行限制可以有策略地控制索引合并,最终达到减少索引和检索总代价的目的。此外还提出了根据词的倒排项的长短对其实施不同的索引及合并策略。
然而,从目前公开的诸多文章、专利和专利申请来看,大多数的索引合并方案都关注于对新加入的索引的直接合并或根据加入的时间顺序进行合并,而没有考虑索引的尺寸对合并代价的影响,并且无法对索引合并过程进行动态调节,因此在动态文本集环境下导致了不稳定的尚需优化的系统性能。因此,目前仍然需要一种能够在动态文本集环境下获得较为稳定的优化的系统性能的索引合并方法和/或装置。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
为了解决现有技术的上述问题,本发明的一个目的是提供一种索引合并方法以及相应的索引合并装置,它们能够在动态文本集环境下获得较为稳定的优化的系统性能。
本发明的另一个目的是提供相应的计算机程序产品和/或计算机可读存储介质。
为了实现上述目的,根据本发明的一个方面,提供了一种索引合并方法,该索引合并方法包括以下步骤:确定在索引库中是否存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,其中n为整数且n大于等于2,并且所述预定基准与预定子索引的尺寸相关;在确定索引库中存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下,将所确定的子索引作为子索引集;计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,其中m为整数且m大于等于1;如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则将所找到的子索引加入所述子索引集中,然后对新的子索引集执行所述计算的步骤和所述查找的步骤;以及如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则对所述子索引集中的子索引进行合并。
根据本发明的另一个方面,还提供了一种索引合并装置,包括:确定单元,被配置用于:确定在索引库中是否存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,其中n为整数且n大于等于2,并且所述预定基准与预定子索引的尺寸相关,以及在确定索引库中存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下,将所确定的子索引作为子索引集;合并控制单元,被配置用于:计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引。其中m为整数且m大于等于1;如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则将所找到的子索引加入所述子索引集中,然后对新的子索引集执行所述计算的操作和所述查找的操作;如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则输出指示对所述子索引集中的子索引进行合并的信息;以及合并单元,被配置用于对所述合并控制单元输出的信息所指示的子索引集中的子索引进行合并。
依据本发明的其它方面,还提供了相应的计算机可读存储介质和计算机程序产品。
本发明的一个优点在于,在根据本发明实施例的索引合并方法和/或索引合并装置中,通过在所选择的要进行合并的子索引集还能够与索引库中剩余的子索引进行合并的情况下将可以进行合并的子索引加入该子索引集中,并且只在索引库中剩余的子索引中不存在能够合并的子索引的情况下才真正地对子索引集执行合并操作,从而能够根据索引库中实时存在的子索引的情况而动态地调节对子索引的合并操作,使得每次合并操作对尽可能多的子索引进行合并,减少了合并次数和对索引的读写次数。因此,通过对索引合并过程的所述动态调节,能够在动态文档集环境下大大降低索引合并的性能代价,获得较为稳定的优化的系统性能,同时也实现了索引合并与索引检索之间的更好的平衡,有利于改善索引检索的性能。
本发明的另一个优点在于,在根据本发明实施例的索引合并方法和/或索引合并装置中,通过根据影响索引合并效率的主要因素,即,索引尺寸来选择要进行合并的子索引,可以大大降低索引尺寸对索引合并代价的影响,从而进一步改善了索引合并的性能,同时也实现了索引合并与索引检索之间的更好的平衡,有利于改善索引检索的性能。
本发明的又一个优点在于,通过根据本发明实施例的索引合并方法和/或索引合并装置对索引合并过程的所述动态调节,能够在动态文档集环境下增强系统的规模可扩展性。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了索引库的简单示意图;
图2示出了根据本发明的实施例的索引合并装置所应用于的信息检索系统的示意图;
图3示出了根据本发明的一个实施例的、在图2所示的信息检索系统中进行索引合并的方法的流程图;
图4示出了根据本发明的另一实施例的、在图2所示的信息检索系统中进行索引合并的方法的流程图;
图5示出了根据本发明的索引合并方法流程的示例一的示意图;
图6示出了根据本发明的索引合并方法流程的示例二的示意图;
图7示出了根据本发明的索引合并方法流程的示例三的示意图;
图8示出了根据本发明的索引合并方法流程的示例四的示意图;以及
图9示出了根据本发明的实施例的索引合并装置的结构示意图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
图1示出了包括一个或多个子索引的索引库的示意图。加入索引库的子索引被依次编号,其中,子索引I1是基于第一动态文档数据集创建的子索引,子索引I2是基于第二动态文档数据集创建的子索引,......,子索引In是基于第n个动态文档数据集创建的子索引,等等。
图2示出了根据本发明的实施例的索引合并装置所应用于的信息检索系统的示意图。该信息检索系统包括:包括一个或多个子索引的索引库204;索引添加装置201,用于根据动态文档集中的数据产生相应的子索引,并将产生的子索引添加到索引库204中;索引检索装置202,用于根据用户的查询指令对索引库204中的子索引进行检索并输出检索结果;以及根据本发明的实施例的索引合并装置203,用于对索引库204中的子索引进行合并。
为了便于说明本发明的原理,在下文中以图1所示的索引库和图2所示的信息检索系统作为应用的场景来对本发明的实施例进行描述,但是本领域的技术人员应当明白,本发明并不仅仅局限于应用在图1所示的索引库和图2所示的信息检索系统中。
下面结合图1、2和3来说明根据本发明的索引合并方法的实施例。
图3示出了根据本发明的实施例的索引合并方法的流程图。首先,在步骤S301中,确定在索引库204中是否存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,其中n为整数且n大于等于2,并且所述预定基准与预定子索引的尺寸相关。然后,在步骤S302中,在确定索引库204中存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下,将所确定的子索引作为子索引集。这里,如上文所述地通过根据影响索引合并效率的主要因素,即,索引尺寸来选择要进行合并的子索引,可以大大降低索引尺寸对索引合并代价的影响,从而进一步改善了索引合并的性能,同时也实现了索引合并与索引检索之间的更好的平衡,有利于改善索引检索的性能。
此外,对于动态文档集而言,由于文档不断被加入,因此索引库中也不断地有新的子索引被加入。因此,在实时动态文档集环境中,可以循环执行根据本发明的实施例的索引合并方法。本领域的技术人员可以根据实际系统的性能需求来选择该索引合并方法的执行时机。例如,可以以预定的时间间隔而定期地开始执行所述确定的步骤,或者也可以在索引库中新加入至少一个子索引时开始执行所述确定的步骤。
优选地,所述预定基准可以是所述预定子索引的尺寸,所述预定子索引可以是具有预先设定的尺寸的子索引,也可以是索引库中的某个尺寸的子索引,例如最小尺寸的子索引。所述第一预定合并条件可以是预定的子索引尺寸的范围。相应地,所述预定合并条件可以是:子索引尺寸在所述预定基准的1-k倍到所述预定基准的1+k倍的范围之内,其中0<k<1。在此,根据实际情况而可以设定k=0.1。本领域的技术人员应当理解,可以根据实际系统的性能需求来灵活地选择所述预定基准和所述预定合并条件。
例如,在步骤S301中,可以先从索引库204中选出尺寸最小的子索引Rmin,以其尺寸s作为预定基准,并预先设定范围选择参数k(0<k<1),其中k的值为根据本发明的实施例的索引合并装置的可调节参数。然后针对索引库204中的每个子索引i,计算其尺寸ri是否符合下面的公式(1):
(1-k)×s≤ri≤(1+k)×s,(0<k<1)                (1)
对于从索引库204中找到的所有符合公式(1)的子索引,计算所有这些子索引的个数|α|。如果所有这些子索引的个数|α|满足下面的公式(2),则在步骤S302中,将所有这些子索引作为子索引集α,并继续执行后续操作。否则,重新对索引库204中剩余的子索引进行步骤S301的操作。在公式(2)中,n为整数且n大于等于2:
|α|≥n                (2)
本领域的技术人员可以根据实际系统的性能需求来选择n的具体值,例如,在希望一次合并尽可能多的子索引以尽量减少合并次数的情况下可以将n选择为适当的较大的值,而在系统性能需求相对较低的情况下,可以适当减小n的值以缩短合并反应时间。例如,n可以在10到15的范围之内,但n也可以取其它的值,例如3甚至是2。
优选地,如果在步骤S301中确定了索引库204中不存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,则可以执行以下步骤:判定在索引库204中是否存在不少于n个的、尺寸符合基于与已使用过的基准不相同的基准的合并条件的子索引;如果存在,则将所判定的子索引作为子索引集,并对所述子索引集执行所述计算的步骤和所述查找的步骤;如果不存在,则重新执行所述判定的步骤。其中,优选地,所述与已使用过的基准不相同的基准为:索引库204中的尺寸与和已使用过的基准相关的尺寸不相同的子索引的尺寸。
现在回到步骤S302,在执行了步骤S302之后,在步骤S303中,计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸。此时,并不真正对所述子索引集中的子索引进行合并操作。
然后,在步骤S304中,在索引库204中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,其中m为整数且m大于等于1。
同样地,本领域的技术人员可以根据实际系统的性能需求来选择m的具体值,例如,在希望一次合并尽可能多的子索引以尽量减少合并次数的情况下可以将m选择为适当的较大的值,而在系统性能需求相对较低的情况下,可以适当减小m的值以缩短合并反应时间。例如,优选地,n可以等于m+1,这样可以使得在步骤S301和步骤S304中的每次确定或查找都需要确定不少于相同个数的子索引,以保持系统性能的稳定。
优选地,所述与所计算的新子索引的尺寸相关的基准可以是所述新子索引的尺寸。相应地,步骤S304可以具体包括:在索引库204中剩余的子索引中查找不少于m个的、尺寸在所述新子索引的尺寸的1-k倍到所述新子索引的尺寸的1+k倍的范围之内的子索引,其中0<k<1。本领域的技术人员应当理解,可以根据实际系统的性能需求来灵活地选择所述与所计算的新子索引的尺寸相关的基准以及所述预定条件。
然后,如果在步骤S304中在索引库204中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则在步骤S305中将所找到的子索引加入所述子索引集中,并随后对新的子索引集执行步骤S303和步骤S304。
如果在步骤S304中在索引库204中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则在步骤S306中对所述子索引集中的子索引进行合并。也就是说,此时才真正地对最终的子索引集执行合并操作。
例如,在步骤S303中,可以计算对所述子索引集α进行合并将得到的子索引mα的尺寸rα(并不真正进行合并操作)。然后在步骤S304中可以以rα为基准尺寸,根据公式(1)在索引集204中剩余的子索引中查找不少于m个的符合公式(1)的子索引。如果未找到则继续执行步骤S306,即,对子索引集α中的子索引执行一次合并操作,并将合并后得到的子索引放入索引库204中。如果找到了则执行步骤S305。在步骤S305中,将所找到的不少于m个的子索引加入所述子索引集α中,得到新的子索引集γ,然后处理转到步骤S303,即,对该子索引集γ执行步骤S303和步骤S304,以此类推,直至最终得到子索引集δ。然后在步骤S306中对该子索引集δ中的子索引执行一次合并操作,并将合并后得到的子索引放入索引库204中。
如上文所述,通过上述操作,在所确定的要进行合并的子索引集还能够与索引库中剩余的子索引进行合并的情况下,又将仍可进行合并的子索引加入该子索引集中,并且只在索引库中剩余的子索引中不存在能够合并的子索引的情况下才真正地对子索引集执行合并操作,从而能够根据索引库中实时存在的子索引的情况而动态地调节对子索引的合并操作,使得每次合并操作对尽可能多的子索引进行合并,减少了合并次数和对索引的读写次数。
因此,通过对索引合并过程的上述动态调节操作,能够在动态文档集环境下大大降低索引合并的性能代价,获得较为稳定的优化的系统性能,同时也实现了索引合并与索引检索之间的更好的平衡,有利于改善索引检索的性能。
此外,需要说明的是,虽然以上结合图3所示的流程图对根据本发明的索引合并方法进行了描述,但是本领域技术人员应当理解,图3所示的流程图仅仅是示例性的,而不是对本发明的范围的限制,本领域技术人员完全可以根据实际需要对图3所示的流程图进行修改。例如,本领域的技术人员完全可以根据实际系统的便利性的需要,用子索引描述信息来描述索引库204中的相应的子索引的尺寸、位置等,和/或用子索引集描述信息来描述所述子索引集中包括的子索引的尺寸、位置等,并根据所述子索引描述信息和子索引集描述信息来执行图3所示的操作。
例如,图4示出了根据本发明的另一实施例的、利用所述子索引描述信息和子索引集描述信息在图2所示的信息检索系统中进行索引合并的方法的流程图。
如图4所示,首先在步骤S401中,针对索引库204中的每个子索引,创建指示该子索引的尺寸和位置的、对应的子索引描述信息。
然后在步骤S402中,确定在索引库204中是否存在不少于n个的、其对应的子索引描述信息所指示的尺寸符合基于预定基准的预定合并条件的子索引,并且所述预定基准与预定子索引的尺寸相关。
接着在步骤S403中,根据所述不少于n个的、其对应的子索引描述信息所指示的尺寸符合基于预定基准的预定合并条件的子索引所对应的子索引描述信息,创建指示所述子索引集中包括的每个子索引的尺寸和位置的子索引集描述信息。
然后在步骤S404中,根据步骤S403中创建的子索引集描述信息,计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸。此时,并不真正对所述子索引集中的子索引进行合并。
随后在步骤S405中,在所述索引库中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,如果找到则执行步骤S406,如果未找到则执行步骤S407。
在步骤S406中,根据所找到的子索引中的每个子索引所对应的子索引描述信息,更新所述子索引集描述信息,然后根据所述子索引集描述信息来重新执行步骤S404和步骤S405。
在步骤S407中,根据所述子索引集描述信息,对对应的子索引进行合并。此时才真正对最终的子索引集中的子索引进行合并操作。
虽然以上结合图4所示的流程图对根据本发明的索引合并方法进行了描述,但是本领域技术人员同样应当理解,图4所示的流程图仅仅是示例性的,而不是对本发明的范围的限制,本领域技术人员完全可以根据实际需要对图4所示的流程图进行修改。例如,本领域的技术人员可以根据实际应用的需求来设定所述子索引描述信息和/或所述子索引集描述信息所包括的内容。
另外,在图3所示的步骤S306和/或图4所示的步骤S407中对所述子索引集中的子索引执行合并操作时,显然可以根据实际情况和需要使用任何已知的具体的索引合并操作方法,因此,为了说明书的简洁起见,在此就不再对上述步骤的具体处理过程进行描述了。
下面将结合表1-8和图5-8来举例说明根据本发明的实施例的子索引合并的过程。在表1-8和图5-8中示出了如上文所述地根据公式(1)和(2)来选择子索引集的四个示例。在这四个示例中均预设k=0.3,n=3,m=2。
<示例一>
在第一个示例中,如表1所示,索引库中包括4个依次编号的子索引,其尺寸分别为1、1、1、3。
表1
  子索引编号   1   2   3   4
  索引尺寸   1   1   1   3
从表1可以看出,索引库中最小的子索引尺寸s为1。如图5所示,可以将s=1作为所述基准尺寸,然后可以针对每个子索引计算其尺寸是否符合公式(1),并判断所有符合公式(1)的子索引的总的个数是否符合公式(2)。由表1可以看出符合公式(1)的子索引为子索引1、子索引2和子索引3,其总个数为3,符合公式(2)。因此,将这些子索引确定为子索引集:{子索引1,子索引2,子索引3}。如果对该子索引集中的子索引进行合并将会得到尺寸为3的子索引m1。但是,由于m取2,而索引库中只剩下一个子索引4,因此不能在子索引库中剩余的子索引中找到不少于m个的、尺寸符合基于与子索引m1的尺寸3相关的基准的预定条件的子索引。因此,子索引m1不能与索引库中剩余的子索引4相合并。因此,最终的子索引集为{子索引1,子索引2,子索引3}。
如表2所示,在对该最终的子索引集中的子索引进行合并且将合并后的子索引放入索引库中后,索引库中将包括尺寸为3的子索引m1和尺寸为3的子索引4。
表2
  子索引编号   m1   4
  索引尺寸   3   3
<示例二>
在第二个示例中,如表3所示,索引库中包括5个依次编号的子索引,其尺寸分别为1、1、1、1、2。
表3
  子索引编号   1   2   3   4   5
  索引尺寸   1   1   1   1   2
从表3可以看出,索引库中最小的子索引尺寸s为1。如图6所示,可以将s=1作为所述基准尺寸,然后可以针对每个子索引计算其尺寸是否符合公式(1),并判断所有符合公式(1)的子索引的总的个数是否符合公式(2)。由表3可以看出符合公式(1)的子索引为子索引1、子索引2、子索引3和子索引4,其总个数为4,符合公式(2)。因此,将这些子索引确定为子索引集:{子索引1,子索引2,子索引3,子索引4}。如果对该子索引集中的子索引进行合并将得到尺寸为4的子索引m2。但是,由于m取2,而索引库中只剩下一个子索引5,因此不能在子索引库中剩余的子索引中找到不少于m个的、尺寸符合基于与子索引m2的尺寸3相关的基准的预定条件的子索引。因此,子索引m2不能与索引库中剩余的子索引5相合并。因此,最终的子索引集为{子索引1,子索引2,子索引3,子索引4}。
如表4所示,在对该子索引集中的子索引进行合并且将合并后的子索引放入索引库中后,索引库中将包括两个子索引,即,子索引m2和子索引5,其尺寸分别为4和2。
表4
  子索引编号   m2   5
  索引尺寸   4   2
<示例三>
在第三个示例中,如表5所示,索引库中包括5个依次编号的子索引,其尺寸分别为1、1、1、3、3。
表5
  子索引编号   1   2   3   4   5
  索引尺寸   1   1   1   3   3
从表5可以看出,索引库中最小的子索引尺寸s为1。如图7所示,可以将s=1作为所述基准尺寸,然后可以针对每个子索引计算其尺寸是否符合公式(1),,并判断所有符合公式(1)的子索引的总的个数是否符合公式(2)。由表5可以看出符合公式(1)的子索引为子索引1、子索引2和子索引3,其总个数为3,符合公式(2)。因此,将这些子索引确定为子索引集:{子索引1,子索引2,子索引3}。如果对该子索引集中的子索引进行合并将会得到尺寸为3的子索引m3。在与子索引m3的尺寸3相关的基准s被设定为子索引m3的尺寸3、且基于该基准s的预定条件为公式(1)的情况下,由于m取2,且索引库中剩余的子索引4和5的个数为2,因此索引库中剩余的子索引4和5符合基于该基准s的该预定条件且个数满足不少于m个,因而子索引m3可以与索引库中剩余的子索引4和5相合并。因此,最终的子索引集将为{子索引1,子索引2,子索引3,子索引4,子索引5}。
如表6所示,在对该最终的子索引集中的子索引进行合并且将合并后的子索引放入索引库中后,索引库中将包括一个子索引m4,其尺寸为9。
表6
  子索引编号   m4
  索引尺寸   9
<示例四>
在第四个示例中,如表7所示,索引库中包括4个依次编号的子索引,其尺寸分别为1、3、3、3。
表7
  子索引编号   1   2   3   4
  索引尺寸   1   3   3   3
从表7可以看出,索引库中最小的子索引尺寸s为1。如图8所示,可以将s=1作为所述基准尺寸,然后可以针对每个子索引计算其尺寸是否符合公式(1),并判断所有符合公式(1)的子索引的总的个数是否符合公式(2)。由表7可以看出符合公式(1)的子索引为子索引1,但是其总个数为1,不符合公式(2)。因此,重新从索引库中剩余的子索引中选择最小的子索引尺寸s=3作为基准尺寸,然后针对索引库中剩余的每个子索引计算其尺寸是否符合公式(1),并判断所有符合公式(1)的子索引的总的个数是否符合公式(2)。由表7可以看出索引库中剩余的子索引中符合公式(1)的子索引为子索引2、子索引3和子索引4,其总个数为3,符合公式(2)。因此,将这些子索引确定为子索引集:{子索引2,子索引3,子索引4}。如果对该子索引集中的子索引进行合并将会得到尺寸为3的子索引m5,并且由于m取2,因此子索引m5不能与索引库中剩余的子索引1相合并。因此,最终的子索引集为{子索引2,子索引3,子索引4}。
如表8所示,在对该子索引集中的子索引进行合并且将合并后的子索引放入索引库中后,索引库中将包括两个子索引,即,子索引m5和子索引1,其尺寸分别为9和1。
表8
  子索引编号   m5   1
  索引尺寸   9   1
虽然以上结合表1-8描述了根据本发明的实施例的、利用公式(1)和(2)的索引合并的过程,但是,对于本领域技术人员而言,显然完全可以依照与上述示例相类似的方式,根据实际系统的需要来设定公式(1)和/或公式(2)和/或其系数,以及决定是否应用公式(1)和/或公式(2),从而实现在动态文本集环境下对索引合并过程的动态调节。
上述根据本发明的实施例的索引合并方法是由图2中的索引合并装置203来完成的。图9示出了根据本发明的实施例的索引合并装置的结构示意图。
图9所示的索引合并装置包括确定单元901,该确定单元901被配置用于:确定在索引库中是否存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,其中n为整数且n大于等于2,并且所述预定基准与预定子索引的尺寸相关,以及在确定索引库中存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下,将所确定的子索引作为子索引集。
图9所示的索引合并装置还包括合并控制单元902,该合并控制单元902被配置用于:计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,其中m为整数且m大于等于1;如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则将所找到的子索引加入所述子索引集中,然后对新的子索引集执行所述计算的操作和所述查找的操作;如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则输出指示对所述子索引集中的子索引进行合并的信息。
图9所示的索引合并装置还包括合并单元903,该合并单元903被配置用于对合并控制单元902输出的信息所指示的子索引集中的子索引进行合并。
优选地,确定单元901可以以预定的时间间隔定期地或者在索引库中新加入至少一个子索引时开始执行所述确定的操作。所述预定基准可以是所述预定子索引的尺寸,所述预定子索引可以是具有预先设定的尺寸的子索引,也可以是索引库中的某个尺寸的子索引,例如最小尺寸的子索引。所述预定合并条件可以为子索引尺寸在所述预定基准的1-k倍到所述预定基准的1+k倍的范围之内,其中0<k<1。优选地,n可以在10到15的范围之内,n可以等于m+1。
优选地,所述与所计算的新子索引的尺寸相关的基准可以是所述新子索引的尺寸。相应地,合并控制单元902被配置用于:计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查找尺寸在所述新子索引的尺寸的1-k倍到所述新子索引的尺寸的1+k倍的范围之内的子索引,其中0<k<1;如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则将所找到的子索引加入所述子索引集中,然后对更新后的子索引集执行所述计算的操作和所述查找的操作;如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则输出指示对所述子索引集中的子索引进行合并的信息。
优选地,确定单元901还可被配置用于:在确定了索引库中不存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下,判定在所述索引库中是否存在不少于n个的、尺寸符合基于与已使用过的基准不相同的基准的合并条件的子索引;如果存在,则将所判定的子索引作为子索引集;如果不存在,则重新执行所述判定的操作。其中,所述与已使用过的基准不相同的基准可以为:所述索引库中的、尺寸与和已使用过的基准相关的尺寸不相同的子索引的尺寸。
优选地,所述索引合并装置还可包括子索引描述信息创建单元,该子索引描述信息创建单元被配置用于在确定单元901执行所述确定的操作之前,针对所述索引库中的每个子索引,创建指示该子索引的尺寸和位置的、对应的子索引描述信息。相应地,确定单元901被配置用于:确定在索引库中是否存在不少于n个的、其对应的子索引描述信息所指示的尺寸符合基于预定基准的预定合并条件的子索引,并且所述预定基准与预定子索引的尺寸相关;根据所述不少于n个的、其对应的子索引描述信息所指示的尺寸符合基于预定基准的预定合并条件的子索引所对应的子索引描述信息,创建指示所述子索引集中包括的每个子索引的尺寸和位置的子索引集描述信息。合并控制单元902被配置用于:根据所述子索引集描述信息,计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引;如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则根据所找到的子索引中的每个子索引对应的子索引描述信息,更新所述子索引集描述信息,然后根据更新后的子索引集描述信息而对所述子索引集执行所述计算的操作和所述查找的操作;如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则输出所述子索引集描述信息。合并单元903被配置用于:根据合并控制单元902输出的子索引集描述信息,对对应的子索引进行合并。
通过阅读上文所描述的根据本发明的实施例的索引合并方法的操作过程,图9所示的索引合并装置的上述各个部件的功能如何实现就变得非常清楚了,因此,为了说明书的简洁起见,在此就不再对上述各个部件的功能如何实现进行详细描述了。
在以上所描述的、根据本发明实施例的索引合并方法和/或索引合并装置中,通过在所选择的要进行合并的子索引集还能够与索引库中剩余的子索引进行合并的情况下将可以进行合并的子索引加入该子索引集中,并且只在索引库中剩余的子索引中不存在能够合并的子索引的情况下才真正地对子索引集执行合并操作,从而能够根据索引库中实时存在的子索引的情况而动态地调节对子索引的合并操作,使得每次合并操作对尽可能多的子索引进行合并,减少了合并次数和对索引的读写次数。因此,通过对索引合并过程的所述动态调节,能够在动态文档集环境下大大降低索引合并的性能代价,获得较为稳定的优化的系统性能,同时也实现了索引合并与索引检索之间的更好的平衡,有利于改善索引检索的性能。
此外,在以上所描述的、根据本发明实施例的索引合并方法和/或索引合并装置中,通过根据影响索引合并效率的主要因素,即,索引尺寸来选择要进行合并的子索引,可以大大降低索引尺寸对索引合并代价的影响,从而进一步改善了索引合并的性能,同时也实现了索引合并与索引检索之间的更好的平衡,有利于改善索引检索的性能。
另外,在以上所描述的、根据本发明实施例的索引合并方法和/或索引合并装置中,通过根据本发明实施例的索引合并方法和/或索引合并装置对索引合并过程的所述动态调节,能够在动态文档集环境下增强系统的规模可扩展性。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
而且,所述实施本发明的程序也可以例如采用一个或多个信号的形式。所述信号可以是可从互联网站点下载的数据信号,或是在载波信号上提供的数据信号,或是以任何其它形式的数据信号。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以在不偏离本发明的精神和范围的情况下对上述实施方式作出各种修改和变更。因此,本发明的范围仅由所附的权利要求及其等效内容来限定。

Claims (21)

1.一种索引合并方法,包括以下步骤:
确定在索引库中是否存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,其中n为整数且n大于等于2,并且所述预定基准与预定子索引的尺寸相关;
在确定索引库中存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下,将所确定的子索引作为子索引集;
计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;
在所述索引库中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,其中m为整数且m大于等于1;
如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则将所找到的子索引加入所述子索引集中,然后对新的子索引集执行所述计算的步骤和所述查找的步骤;以及
如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则对所述子索引集中的子索引进行合并。
2.如权利要求1所述的索引合并方法,其中以预定的时间间隔定期地或者在所述索引库中新加入至少一个子索引时,开始执行所述确定的步骤。
3.如权利要求1所述的索引合并方法,其中所述预定基准是所述预定子索引的尺寸,所述预定子索引是索引库中的尺寸最小的子索引。
4.如权利要求3所述的索引合并方法,其中所述预定合并条件为子索引尺寸在所述预定基准的1-k倍到所述预定基准的1+k倍的范围之内,其中0<k<1。
5.如权利要求1所述的索引合并方法,其中所述n在10到15的范围之内。
6.如权利要求1所述的索引合并方法,其中n=m+1。
7.如权利要求1所述的索引合并方法,其中所述与所计算的新子索引的尺寸相关的基准是所述新子索引的尺寸。
8.如权利要求7所述的索引合并方法,其中所述在所述索引库中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引的步骤包括:
在所述索引库中剩余的子索引中查找不少于m个的、尺寸在所述新子索引的尺寸的1-k倍到所述新子索引的尺寸的1+k倍的范围之内的子索引,其中0<k<1。
9.如权利要求1所述的索引合并方法,其中在所述确定的步骤中确定了索引库中不存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下,还包括以下步骤:
判定在所述索引库中是否存在不少于n个的、尺寸符合基于与已使用过的基准不相同的基准的合并条件的子索引;
如果存在,则将所判定的子索引作为子索引集,并对所述子索引集执行所述计算的步骤和所述查找的步骤;以及
如果不存在,则重新执行所述判定的步骤。
10.如权利要求9所述的索引合并方法,其中所述与已使用过的基准不相同的基准为:所述索引库中的、尺寸与和已使用过的基准相关的尺寸不相同的子索引的尺寸。
11.如权利要求1所述的索引合并方法,其中:
在所述确定的步骤之前还包括:针对所述索引库中的每个子索引,创建指示该子索引的尺寸和位置的、对应的子索引描述信息;
所述确定的步骤包括:确定在索引库中是否存在不少于n个的、其对应的子索引描述信息所指示的尺寸符合基于预定基准的预定合并条件的子索引,并且所述预定基准与所述索引库中的预定子索引的尺寸相关;
所述将所确定的子索引作为子索引集的步骤包括:根据所述不少于n个的、其对应的子索引描述信息所指示的尺寸符合基于预定基准的预定合并条件的子索引所对应的子索引描述信息,创建指示所述子索引集中包括的每个子索引的尺寸和位置的子索引集描述信息;
所述计算的步骤包括:根据所述子索引集描述信息,计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;
所述将所找到的子索引加入所述子索引集中的步骤包括:根据所找到的子索引中的每个子索引所对应的子索引描述信息,更新所述子索引集描述信息;以及
所述对所述子索引集中的子索引进行合并的步骤包括:根据所述子索引集描述信息,对对应的子索引进行合并。
12.一种索引合并装置,包括:
确定单元,被配置用于:确定在索引库中是否存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,其中n为整数且n大于等于2,并且所述预定基准与预定子索引的尺寸相关,以及在确定索引库中存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下,将所确定的子索引作为子索引集;
合并控制单元,被配置用于:计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,其中m为整数且m大于等于1;如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则将所找到的子索引加入所述子索引集中,然后对新的子索引集执行所述计算的操作和所述查找的操作;如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则输出指示对所述子索引集中的子索引进行合并的信息;以及
合并单元,被配置用于对所述合并控制单元输出的信息所指示的子索引集中的子索引进行合并。
13.如权利要求12所述的索引合并装置,其中所述确定单元以预定的时间间隔定期地或者在所述索引库中新加入至少一个子索引时开始执行所述确定的操作。
14.如权利要求12所述的索引合并装置,其中所述预定基准是所述预定子索引的尺寸,所述预定子索引是索引库中的尺寸最小的子索引。
15.如权利要求14所述的索引合并装置,其中所述预定合并条件为子索引尺寸在所述预定基准的1-k倍到所述预定基准的1+k倍的范围之内,其中0<k<1。
16.如权利要求1所述的索引合并装置,其中n=m+1。
17.如权利要求1所述的索引合并装置,其中所述与所计算的新子索引的尺寸相关的基准是所述新子索引的尺寸。
18.如权利要求17所述的索引合并装置,其中所述合并控制单元被配置用于:计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查找尺寸在所述新子索引的尺寸的1-k倍到所述新子索引的尺寸的1+k倍的范围之内的子索引,其中0<k<1;如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则将所找到的子索引加入所述子索引集中,然后对新的子索引集执行所述计算的操作和所述查找的操作;如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则输出指示对所述子索引集中的子索引进行合并的信息。
19.如权利要求12所述的索引合并装置,其中所述确定单元还被配置用于:在确定了索引库中不存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下,判定在所述索引库中是否存在不少于n个的、尺寸符合基于与已使用过的基准不相同的基准的合并条件的子索引;如果存在,则将所判定的子索引作为子索引集;如果不存在,则重新执行所述判定的操作。
20.如权利要求19所述的索引合并装置,其中所述与已使用过的基准不相同的基准为:所述索引库中的、尺寸与和已使用过的基准相关的尺寸不相同的子索引的尺寸。
21.如权利要求12所述的索引合并装置,其中还包括子索引描述信息创建单元,被配置用于在所述确定单元执行所述确定的操作之前,针对所述索引库中的每个子索引,创建指示该子索引的尺寸和位置的、对应的子索引描述信息;
所述确定单元被配置用于:确定在索引库中是否存在不少于n个的、其对应的子索引描述信息所指示的尺寸符合基于预定基准的预定合并条件的子索引,并且所述预定基准与预定子索引的尺寸相关;根据所述不少于n个的、其对应的子索引描述信息所指示的尺寸符合基于预定基准的预定合并条件的子索引所对应的子索引描述信息,创建指示所述子索引集中包括的每个子索引的尺寸和位置的子索引集描述信息;
所述合并控制单元被配置用于:根据所述子索引集描述信息,计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引;如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则根据所找到的子索引中的每个子索引对应的子索引描述信息,更新所述子索引集描述信息,然后根据更新后的子索引集描述信息而对所述子索引集执行所述计算的操作和所述查找的操作;如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则输出所述子索引集描述信息;以及
所述合并单元被配置用于:根据所述合并控制单元输出的子索引集描述信息,对对应的子索引进行合并。
CN 200910140421 2009-05-08 2009-05-08 索引合并方法和索引合并装置 Expired - Fee Related CN101882142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910140421 CN101882142B (zh) 2009-05-08 2009-05-08 索引合并方法和索引合并装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910140421 CN101882142B (zh) 2009-05-08 2009-05-08 索引合并方法和索引合并装置

Publications (2)

Publication Number Publication Date
CN101882142A true CN101882142A (zh) 2010-11-10
CN101882142B CN101882142B (zh) 2012-12-26

Family

ID=43054158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910140421 Expired - Fee Related CN101882142B (zh) 2009-05-08 2009-05-08 索引合并方法和索引合并装置

Country Status (1)

Country Link
CN (1) CN101882142B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207907A (zh) * 2013-03-28 2013-07-17 新浪网技术(中国)有限公司 一种索引文件合并方法及装置
CN104376013A (zh) * 2013-08-12 2015-02-25 北京千橡网景科技发展有限公司 用于检索与用户相关联的数据的方法和设备
CN104820692A (zh) * 2015-04-28 2015-08-05 广东小天才科技有限公司 一种建立索引的方法及装置
CN104834726A (zh) * 2015-05-13 2015-08-12 华中科技大学 一种面向微博实时搜索的自适应索引方法
CN105468758A (zh) * 2015-11-30 2016-04-06 北京金山安全软件有限公司 数据检索方法及装置
CN112639762A (zh) * 2018-06-22 2021-04-09 高利得有限公司 数字文档管理系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1292371C (zh) * 2003-04-11 2006-12-27 国际商业机器公司 倒排索引存储方法、倒排索引机制以及在线更新的方法
CN100458779C (zh) * 2005-11-29 2009-02-04 国际商业机器公司 扩展索引的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207907A (zh) * 2013-03-28 2013-07-17 新浪网技术(中国)有限公司 一种索引文件合并方法及装置
CN103207907B (zh) * 2013-03-28 2016-06-29 新浪网技术(中国)有限公司 一种索引文件合并方法及装置
CN104376013A (zh) * 2013-08-12 2015-02-25 北京千橡网景科技发展有限公司 用于检索与用户相关联的数据的方法和设备
CN104820692A (zh) * 2015-04-28 2015-08-05 广东小天才科技有限公司 一种建立索引的方法及装置
CN104820692B (zh) * 2015-04-28 2018-06-08 广东小天才科技有限公司 一种建立索引的方法及装置
CN104834726A (zh) * 2015-05-13 2015-08-12 华中科技大学 一种面向微博实时搜索的自适应索引方法
CN104834726B (zh) * 2015-05-13 2017-12-08 华中科技大学 一种面向微博实时搜索的自适应索引方法
CN105468758A (zh) * 2015-11-30 2016-04-06 北京金山安全软件有限公司 数据检索方法及装置
CN105468758B (zh) * 2015-11-30 2019-08-09 北京金山安全软件有限公司 数据检索方法及装置
CN112639762A (zh) * 2018-06-22 2021-04-09 高利得有限公司 数字文档管理系统

Also Published As

Publication number Publication date
CN101882142B (zh) 2012-12-26

Similar Documents

Publication Publication Date Title
CN110321344B (zh) 关联数据的信息查询方法、装置、计算机设备及存储介质
CN101882142B (zh) 索引合并方法和索引合并装置
US9262458B2 (en) Method and system for dynamically partitioning very large database indices on write-once tables
CN101727466A (zh) 一种业务对象数据的验证方法及其装置
CN103164408B (zh) 基于垂直搜索引擎的信息存储、查询方法及其装置
CN104685498A (zh) 聚合/分组操作的硬件实现方式:散列表方法
CN101452487B (zh) 一种数据加载的方法、系统及数据加载装置
CN101681377A (zh) 用于搜索的用户定义的相关性排序
CN103518190A (zh) 对于动态语言的散列表的硬件支持
CN101661481A (zh) 存储xml数据的方法、执行xml查询的方法及其装置
CN108475266B (zh) 用来移除匹配文档的匹配修复
CN103488780A (zh) 应用程序搜索方法和装置
CN102902763A (zh) 关联、检索信息处理数据和处理信息任务的方法及装置
CN102207935A (zh) 用于创建索引的方法和系统
CN104484392A (zh) 数据库查询语句生成方法及装置
CN102270201B (zh) 用于网络文件的多维索引的方法和设备
CN110580255A (zh) 一种存储并检索数据的方法以及系统
CN114297204A (zh) 一种异构数据源的数据存储、检索方法及装置
US8463799B2 (en) System and method for consolidating search engine results
CN107810474B (zh) 大规模源代码存储库中的自动导入及依赖性
CN101702180B (zh) 一种关联字段值的查找方法及系统
CN102135969A (zh) 构造索引库的方法和设备以及查询方法
KR102325249B1 (ko) 문서단위 검색과 패시지단위 검색을 통합하여 향상된 검색결과를 제공하는 방법
CN113625967B (zh) 数据存储方法、数据查询方法及服务器
CN112380256B (zh) 能源系统数据存取的方法、数据库、计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121226

Termination date: 20180508