CN1483169A - 有损索引压缩 - Google Patents

有损索引压缩 Download PDF

Info

Publication number
CN1483169A
CN1483169A CNA018212808A CN01821280A CN1483169A CN 1483169 A CN1483169 A CN 1483169A CN A018212808 A CNA018212808 A CN A018212808A CN 01821280 A CN01821280 A CN 01821280A CN 1483169 A CN1483169 A CN 1483169A
Authority
CN
China
Prior art keywords
index
document
ordering
record
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA018212808A
Other languages
English (en)
Other versions
CN1191540C (zh
Inventor
D・卡梅尔
D·卡梅尔
D·科亨
什科维奇
R·费金
�卓
E·法尔基
M.赫尔什科维奇
Y·马雷克
A·索弗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1483169A publication Critical patent/CN1483169A/zh
Application granted granted Critical
Publication of CN1191540C publication Critical patent/CN1191540C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种用于实现一种方法(图2)以修剪一个文本文档语料库的索引的装置,其中该方法包括以下步骤:对索引中的显出记录进行排序(50)和从该索引中修剪掉(48)排序中低于给定水平的显出记录。本发明的这些修剪方法是有损的,因为一些文档显出记录被从完全的索引中去掉;然而,用户无法区别该有损索引和完全索引。

Description

有损索引压缩
技术领域
本发明一般地涉及在大的文本数据体中进行计算机化搜索的方法和系统,具体地涉及建立搜索索引。
背景技术
快速和精确的文本搜索引擎被广泛地用于网络和桌面应用。正在出现的手持设备,如Palm PilotTM,具有足够的存储能力,允许在设备上存储完整的中等大小的文档集以供快速引用和浏览。希望以高级的基于索引的搜索引擎装备这些设备,但手持设备上的存储能力仍然相当有限。
大多数高级信息检索(IR)应用创建倒排索引,以支持对给定文档集的高质量搜索服务。这类系统的一个实例是Guru搜索引擎,它由Maarek和Smadja在“基于词法关系的全文本索引,一个应用:软件库”(关于信息检索的研究与开发的第12届国际ACM-SIGIR年会文集,第198-206页,1989)一文中予以描述,这里以引用方式将全文纳入。对文档集内的每个文档进行分析并根据该文档的内容由索引单元或索引项的向量简表来表示。一个索引项可以是一个词(word)、一对紧密相关的词(词法结合体)或一个短语。在一个文档中的每个索引项与它所关联的显出表(postinglist)一起存储在索引中。
显出表包含显出记录,这里每个显出记录包括含有该索引项的文档的标识符,该索引项在那个文档中的评分,还可能有关于该索引项在该文档中出现情况的附加信息,如出现次数和出现位置的偏移量。在许多信息检索系统中使用的一个典型评分模型是tf-idf公式,由Salton和McGill在“现代信息检索引论”(McGraw-Hill出版社,1983)中描述,该文在这里以引用方式将全文纳入。项t对文档d的评分依赖于t在d中的项频度(tf)、文档d的长度以及在该集合中含t的文档个的倒数(idf)。
Chris Buckley等在“使用SMART的新检索途径:TREC 4”一文(第四届文本检索会议(TREC 4)文集,第25-48页,Gaithersberg,Maryland,1995年11月)中描述了一个tf-idf公式示例,该文在这里以引用方式将全文纳入。该公式给出,文档d对项t的评分A(t,d)是
A ( t , d ) = log ( 1 + tf ) log ( 1 + avg tf ) × log ( N / Nt ) / | d | 这里avgtf是文档d中的平均项频度,N是在该集合中的文档数,Nt是含有项t的文档数,|d|是文档d的长度。通常,|d|是由d中(唯一)项的数量的平方根来近似的。
在搜索时,从用户查询中提取出项,从倒排索引中检索出这些项各自的显出表。通过对从属于同一文档的显出记录的评分求和,积累该文档的显出评分以形成文档评分。在这一过程结束时,这些文档按它们的评分排队,并返回具有顶级评分的那些文档。
对大的文档集合建立索引造成难于维护的巨大的索引文件。在索引压缩领域已做了大量工作,以便得到较小的索引文件。在本领域存在两种互补的途径。一种途径是在数据结构层进行压缩,即保留所有索引数据而同时试图得到显出表的更紧凑表示。另一种途径是通过删除或组合项,例如省去无用词(stop-word),以及潜在语义索引(LSI)来修剪索引。这类索引修剪的主要目的是通过从索引项中去掉可能降低搜索精度的那些项来降低索引系统中的“噪声”,但它对减小索引尺寸的实际作用使它与索引压缩这一主题密切相关。
在省去无用词时,使用语言统计找出在语言中出现如此频繁以致在大多数文档中不可避免地会出现的那些词。在构成倒排索引时,在该语言中很频繁出现的那些词(无用词)被忽略。诸如“the”和“is”等词对检索任务没有贡献。如在“第七届文本检索会议(TREC-7)概述”(第七届文本检索会议(TREC-7)文集,国家标准和技术研究所,1999)中呈现的那样,TREC集合列举了在一般性文本文档中的词频度。该文在此以引入方式纳入。通过忽略TREC集合中的135个最频繁出现的词,发现有大约25%显出记录被去掉(Witten等,“管理数千兆字节”,Morgan KaufmanPublishers,San Francisco,California,1999,该文在此以引用方式纳入)。
潜在语义索引(LSI)由例如Deerweester等在“利用潜在语义分析建立索引”(美国信息科学杂志,第41卷第1期(1990)第391-407页)一文中做了描述,该文在这里以引用方式纳入。LSI使用称作“奇异值分解”(SVD)的统计技术把倒排索引表示成三个矩阵的乘积。这一表达式通过保留最有意义的那些项去掉所有其他项来减少索引中的项数。LSI和省去无用词都是以项为粒度进行操作。换言之,它们只能从索引中修剪掉整个项,于是,如果某项一旦被修剪掉,该项便根本不出现在索引中。当一项被修剪时,它的整个显出表被从索引中去掉。
动态修剪技术在索引已被建成之后在文档排序过程中确定某些项或文档显出记录是否值得加入到累积文档评分中以及该排序过程应该继续还是停止。Persin在“用于快速排序的文档过滤”(关于信息检索的研究与开发的第17届国际ACM-SIGIR年会文集,Dublin,Ireland,1994,SIGIR论坛专集,第339-348页)一文中描述了这类技术的示例,该文在这里以引用方式纳入。动态技术应用于给定的查询,从而减少查询时间。动态技术对索引的大小没有影响,因为它们应用于已经存储的索引。
发明内容
在本发明的优选实施例中,把一个集合中的项与文档关联起来的倒排索引是在文档显出记录粒度级进行修剪的,而不是像在本领域已知的系统中那样在项级粒度上进行修剪。如下文中描述的那样,通过对给定项适当选择要修剪的显出记录,索引的大小能被显著地减少而从用户的观点看又不会显著地影响索引的搜索精度。
优选地,为文档的显出记录确定矩阵,然后将矩阵用于选择要从倒排索引中去掉的显出记录。应用这些矩阵的方式是要使得当用户以给定的查询来搜索被压缩的倒排索引时,返回的文档列表与在未被修剪的索引中由同样查询返回的顶级文档列表基本相同。本发明的修剪方法是有损的,因为某些文档显出记录被从索引中去掉了,这与本领域已知的方法不同,那些方法通过使用紧凑的数据结构和表示把数据存储在显出表中来压缩索引。有损和无损方法能彼此互补。在以有损方式修剪索引后,该索引能进一步以无损方式压缩,从而得到比单独使用这两种方法中任何一种可能得到的还要小的索引。
所以,根据本发明的一个优选实施例,提供了一种装置用于实现对文本文档语料库建立索引的方法,包括如下步骤:
建立文档中出现的项的倒排索引,该索引包括这些项在文档中的显出记录;
对索引中的显出记录排序;以及
从索引中修剪掉排序中低于给定水平的显出记录。
对显出记录排序可以包括对至少是一些项的每一项分别确定单独的排序,而对索引的修剪可以包括对这至少是一些项的每一项修剪其单独的排序。
优选地,修剪该索引包括从用户接收至少一个参数并根据该参数和单独的索引排序来设置给定的水平。
再有,这至少一个参数优选地包括要从索引中检索出的文档数k和在一个查询中允许的项数γ,而设置给定水平包括根据从排序顶点算起排序为k的一个文档的评分来设置该水平。
根据一个实施例,设置给定水平优选地包括以γ除这一个文档的评分。
在另一个实施例中,这至少一个参数包括从该排序中检索出的部分文档的个数δ以及在一个查询中允许的项数γ,而设置给定水平包括根据该排序中的那些文档中的第一个文档的评分、δ以及γ来设置该水平。
优选地,设置给定水平包括将此第一个文档的评分乘以δ和除以γ。
在另一个实施例中,修剪索引包括根据搜索空间中查询对于文档显示记录的统计分布信息来选择要修剪的显出记录。
修剪索引可以包括从用户接收至少一个参数和根据该参数以及索引排序来设置给定水平。
这至少一个参数可以包括:在修剪过的倒排索引中要保留的评分个数M。
优选地,选择显出记录包括确定至少是一些项的概率并将这至少是一些项的每一项的显出评分乘以该项的概率,而对索引排序包括以乘过的显出评分对所有显出记录排序,而给定的水平包括从排序顶端算起的文档M的评分。
在一个优选实施例中,建立索引包括在具有大存储容量的计算机上建立索引并将修剪后的索引传送到具有有限存储容量的设备。
优选地,该有限存储容量的设备包括手持计算设备。
附图说明
由下文中结合附图对其优选实施例的详细描述,将会更充分地理解本发明。这些附图是:
图1是根据本发明的优选实施例建立搜索索引的系统的示意性图示说明;
图2是示意性说明根据本发明优选实施例的压缩索引方法的流程图;以及
图3是示意性显示根据本发明优选实施例的方法(图2)中所用输入修剪参数技术的详细情况。
具体实施方式
图1是根据本发明的优选实施例建立压缩的搜索索引的系统的示意性说明。用户10使用一个索引处理设备12访问一文档档案14,从文档档案14中检索出的文档可以与设备12上现存的文档档案组合在一起。设备12使用下文中详细描述的方法建立压缩的倒排索引22。通常,被压缩的索引或档案22被传送到计算设备24。设备24与设备12的区别在于它存储大索引的能力有限,优选地,用于建立索引的文档档案也被传送到设备24。于是用户能使用设备24构成进入该文档档案的查询并检索出适当文档的列表,尽管装置24的存储能力有限。
通常,设备12包含一台桌面计算机或服务器,而设备24是一台便携式普及运算设备,如掌上设备或手持计算机,如图中所示。然而,设备24也可以包含桌面计算机或其他计算机工作站。
图2是流程图,示意性说明根据本发明优选实施例的建立压缩索引22的方法。这一方法的步骤优选地由设备12上运行的适当软件来实现。该软件可以以电子形式提供给设备12,通过网络下载,或者在有形介质,如CD-ROM或非易失存储器上提供。
在文档添加步骤44,用户10建立文档档案14或向已存在的档案添加文档。在索引准备步骤46,如本领域已知的那样,索引压缩软件通过从每个文档中提取项,为每个文档中的每一项建立文档显出记录以及在索引中列出文档显出记录来建立初始索引A。
每个文档显出记录带有一个评分,如在背景技术部分中描述的那样。在本领域已知计算评分的各种方式,而选择哪种方式对本发明不是至关重要的。相反,采用“如果t不在d中则A(t,d)=0,否则A(t,d)>0”就足够了。
然后,在参数输入步骤48,用户输入修剪参数。这些参数用于在索引排序步骤50中对索引A中的显出记录排序。
确定显示记录排序中的截断水平,它满足修剪参数的条件。对于给定项,所有在排序中低于截断水平的显出记录被从索引A中删除。在显出记录去掉步骤52中,以这种方式建立压缩后的索引,称作索引A*。利用本领域已知的项修剪和数据结构压缩方法,如在背景技术中描述的那些方法,这一索引可被进一步缩小。在索引存储步骤54,索引的压缩版本A*被作为压缩索引22存储。
从用户的观点看,压缩索引A*与原始索引A是完全相同的。当用户查询索引A或A*时,他收到一个文档列表,这些文档按照它们与查询项的关系排序,这种关系是以这些项的显出表确定的。通过在步骤48适当地选择修剪参数和在步骤50和52应用这些参数,可以保证响应该查询由A*返回的文档列表以及该列表中的文档顺序将与由A返回的列表的顶部基本相同。这通常是列表中用户感兴趣的那部分。在这个意义上,本发明的方法类似于图像和声音的有损压缩方法,这里数据量的显著减少是通过牺牲细节来实现的,这些细节大部分是用户察觉不到的。
现在将描述指定输入参数(步骤48)和应用这些参数(步骤50和52)的三种优选的方法。前两种方法删除尽可能多的文档显出记录,而保持为响应查询由修剪后索引返回的顶级回答尽可能地接近于由原始索引返回的顶级回答。该接近度由使用顶级回答矩阵来测量,而顶级回答矩阵是由原始索引返回的顶级结果组与修剪后的索引返回的顶级结果组之间的相似性确定的。
第三种方法是均一文档显出记录修剪法,它去掉为达到给定索引大小必须去掉的那么多文档显出记录,而又保持预期误差尽可能小。预期误差是用一个矩阵测量的,该矩阵定义为由原始的和压缩后的索引为每个查询返回的文档评分之差对所有可能的查询求和。
如果对任何给定的查询,由压缩索引和原始索引返回的对该查询的“顶级回答”完全相同,则该压缩索引被定义为与原始索引完全相同。本发明的两个优选实施例从两种可能的测量导出“顶级回答”。
·“k顶级回答”法把“项级回答”定义为对一个查询有最高评分的k个文档,这里k是在步骤48输入的。定义γ为任何查询中允许的最多项数。对每一项t,值A(t,d0),A(t,d1),...根据它们的大小在步骤50排序。设Zt为该排序中第k项的大小。于是在步骤52,如果A(t,d)<Zt/γ,则A*(t,d)设为0,否则A*(t,d)=A(t,d)。A*(t,d)=0的显出记录当然从索引中被去掉。
·“δ顶级回答”法利用对一给定查询在从评分函数的顶级评分算起的距离上的一个阈值来定义“顶级回答”,这里δ是在步骤48的输入。例如,如果δ=0.9,则其评分高于顶级评分90%的任何文档被认为是一个顶级回答。这里也是在步骤50对A(t,d)排序。在步骤52,对每一项t,找出最大值max(A(t,d))。设Zt=δ×max(A(t,d))。于是,如果A(t,d)<Zt/γ,则A*(t,d)=0,否则A*(t,d)=A(t,d)。A*(t,d)=0的显出记录当然从索引中被去掉。
图3扩展修剪参数输入步骤48,以用于上文提到的第三种方法,即均一显出记录修剪法。在修剪参数输入步骤55,由一个外部过程确定全部可能查询集合的概率分布Distq作为输入到系统中的一个分布。Distq可以从例如该语言中各项的分布、从一个搜索引擎的查询日志文件或从任何其他适当的方法中得到。在索引中项的分布Distt是在确定步骤56从查询和Distq导出的。项分布反映一个项t将在提交给搜索引擎的一个查询中出现的概率。一项出现的概率可用查询概率表示为Pr(t)=∑qinQ,tinqPr(q),这里Q是全部可能查询集合。在输入步骤58,用户输入希望在索引A*中保留的显出记录的个数M。然后,索引压缩的第三优选实施例在步骤50对A的值排序,并在步骤52按如下步骤建立A*:首先,根据A和Distt建立评分索引A,A(t,d)=Pr(t)A(t,d)。在A中对所有评分排序,并且确定z以便在A中刚好有M个评分大于z。请注意,在这一方法中,z是在A上的全局参数,而不是如上述前两个方法中那样对每项t有一个z。于是,如果A(t,d)<z,则A*(t,d)=0,否则A*(t,d)=A(t,d)。
本发明的发明者们已使用TREC中给出的洛杉矾时报(Los-AnglesTimes)数据作为经验数据对这三种方法进行了测试,这组数据包含约132,000个文档。为了改善方法性能,原始索引被修改。对每一项,在对那项的所有文档显出记录中的最小评分被从所有其他评分中减掉。对上述方法进行这一校正之后,顶级k修剪法允许修剪掉多达25%的文档显出记录,在对每项使用顶级10个评分和不超过10项的查询时不会明显降低搜索结果的质量。顶级δ修剪法允许修剪掉多达20%的文档显出记录,在对每项使用顶级70%评分和不超过10项的查询时不会明显降低搜索结果的质量。对于所选择的文档档案,顶级K和顶级δ两种方法的表现都优于均一显出记录修剪法。
产业上的可应用性
本发明能通过提供例如用于索引文本文档语料库的装置使其在产业界得到利用,该装置包括一个索引处理器,它被安排成建立文档中出现的项的倒排索引,该索引包括文档中那些项的显出记录,该处理器进一步被安装成建立该索引中显出记录的排序,并从该索引中修剪掉排序中低于给定水平的显出记录。
还可以根据本发明的优选实施例通过提供计算机软件产品来实现和使用本发明,该计算机软件产品用于索引文本文档语料库,该软件产品包括一个计算机可读介质,其中存储程序指令,当由计算机读取这些指令时,这些指令使计算机建立文档中出现的项的倒排索引,该索引包括文档中那些项的显出记录,这些指令进一步使计算机对索引中的显出记录排序并从索引中修剪掉排序中低于给定水平的显出记录。
应该理解,上文描述的实施例是以举例方式列举的,而且本发明不限于上文中已具体显示和描述的内容。相反,本发明的范围包括上文描述的各种特征的组合和次级组合及其各种改变和修改,对于阅读过上文的本领域技术人员而言,这些都是会发生的,而且没有在现有技术中公开说明过。

Claims (14)

1.一种用于为文本文档语料库建立索引的装置,其特点在于一个索引处理器,它被安排成建立文档中出现的项的倒排索引,该索引包含文档中那些项的显出记录,该处理器进一步被安排成建立该索引中显出记录的排序,并从该索引中修剪掉排序中低于给定水平的显出记录。
2.根据权利要求1的装置,其中处理器被安排成对至少是一些项的每一项分别确定单独的排序,并对这至少是一些项的每一项修剪其单独的排序。
3.根据权利要求2的装置,其特点还在于一个用户界面用于接收至少一个参数,其中该处理器被安排成根据该参数和该单独索引排序设置给定水平。
4.根据权利要求3的装置,其中该至少一个参数包含要从索引中检索出的文档数k和在一个查询中允许的项数γ,而且其中该处理器被安排成根据从排序顶点算起排序为k的一个文档的评分来设置该水平。
5.根据权利要求4的装置,其中该处理器被安排成通过以γ除这一文档的评分来设置给定水平。
6.根据权利要求3的装置,其中该至少一个参数包含从该排序中检索的部分文档的个数δ以及在一个查询中允许的项数γ,而且其中该处理器被安排成根据该排序中的那些文档中的第一个文档的评分、δ以及γ来设置给定水平。
7.根据权利要求6的装置,其中处理器被安排成将此第一个文档的评分乘以δ和除以γ。
8.根据权利要求1的装置,其中处理器被安排成根据搜索空间中查询对于文档显出记录的统计分布信息来选择要修剪的显出记录。
9.根据权利要求8的装置,其特点还在于一个用户界面用于接收至少一个参数,其中该处理器被安排成根据该参数和索引排序来设置给定水平。
10.根据权利要求9的装置,其中该至少一个参数包含:在修剪过的倒排索引中要保留的评分个数M。
11.根据权利要求10的装置,其中处理器被安排成确定至少是一些项的概率并将这至少是一些项的每一项的显出评分乘以该项的概率,并且以乘过的显出评分对所有显出记录排序,其中给定水平包含从排序顶端算起的文档M的评分。
12.根据权利要求1的装置,其中该索引处理器的特点在于一个具有大存储容量的计算机并包含用于将修剪后的索引传送到具有有限存储容量的设备的装置。
13.根据权利要求12的装置,其中具有有限存储容量的设备包括手持计算设备。
14.一种用于实现对文本文档语料库建立索引的方法,其中该方法的特点在于如下步骤:
建立文档中出现的项的倒排索引,该索引包含这些项在文档中的显出记录;
对索引中的显出记录排序;以及
从索引中修剪掉排序中低于给定水平的显出记录。
CNB018212808A 2000-12-29 2001-12-19 为文本文档语料库建立索引的方法和装置 Expired - Lifetime CN1191540C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25899100P 2000-12-29 2000-12-29
US60/258,991 2000-12-29

Publications (2)

Publication Number Publication Date
CN1483169A true CN1483169A (zh) 2004-03-17
CN1191540C CN1191540C (zh) 2005-03-02

Family

ID=22983032

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018212808A Expired - Lifetime CN1191540C (zh) 2000-12-29 2001-12-19 为文本文档语料库建立索引的方法和装置

Country Status (5)

Country Link
EP (1) EP1346296B1 (zh)
JP (2) JP4080878B2 (zh)
CN (1) CN1191540C (zh)
CA (1) CA2432357A1 (zh)
WO (1) WO2002054289A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100423005C (zh) * 2005-09-30 2008-10-01 国际商业机器公司 索引实体的方法和系统
CN101218590B (zh) * 2005-07-14 2012-05-23 国际商业机器公司 处理源自不同后台仓库的对文档的搜索请求的方法和系统
CN102929988A (zh) * 2012-10-19 2013-02-13 中国科学院计算技术研究所 用于对倒排索引进行压缩的文档序号重排方法及其系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7689559B2 (en) 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product
JP5741577B2 (ja) 2010-05-28 2015-07-01 富士通株式会社 情報生成プログラム、情報生成装置、および情報生成方法
CN108804477A (zh) * 2017-05-05 2018-11-13 广东神马搜索科技有限公司 动态截断方法、装置及服务器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257774A (ja) * 1992-03-10 1993-10-08 Fujitsu Ltd インデックス・レコード番号を圧縮・格納した情報検索装置
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
US5915249A (en) * 1996-06-14 1999-06-22 Excite, Inc. System and method for accelerated query evaluation of very large full-text databases
WO1997049048A1 (en) 1996-06-17 1997-12-24 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6163782A (en) * 1997-11-19 2000-12-19 At&T Corp. Efficient and effective distributed information management
JPH11306203A (ja) * 1998-04-20 1999-11-05 Intec Inc インデックス作成方法及び文書検索処理方法
JP2000285116A (ja) * 1999-03-31 2000-10-13 Just Syst Corp 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
AU6233800A (en) * 1999-07-23 2001-02-13 Merck & Co., Inc. Text influenced molecular indexing system and computer-implemented and/or computer-assisted method for same

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101218590B (zh) * 2005-07-14 2012-05-23 国际商业机器公司 处理源自不同后台仓库的对文档的搜索请求的方法和系统
CN100423005C (zh) * 2005-09-30 2008-10-01 国际商业机器公司 索引实体的方法和系统
CN102929988A (zh) * 2012-10-19 2013-02-13 中国科学院计算技术研究所 用于对倒排索引进行压缩的文档序号重排方法及其系统
CN102929988B (zh) * 2012-10-19 2015-07-08 中国科学院计算技术研究所 用于对倒排索引进行压缩的文档序号重排方法及其系统

Also Published As

Publication number Publication date
JP4808697B2 (ja) 2011-11-02
EP1346296A4 (en) 2008-07-02
EP1346296A1 (en) 2003-09-24
JP2004525442A (ja) 2004-08-19
EP1346296B1 (en) 2012-09-19
CN1191540C (zh) 2005-03-02
JP4080878B2 (ja) 2008-04-23
WO2002054289A1 (en) 2002-07-11
JP2008117407A (ja) 2008-05-22
CA2432357A1 (en) 2002-07-11

Similar Documents

Publication Publication Date Title
US7356527B2 (en) Lossy index compression
US8290975B2 (en) Graph-based keyword expansion
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
Turpin et al. Fast generation of result snippets in web search
Fang et al. Computing Iceberg Queries E ciently
US20040205044A1 (en) Method for storing inverted index, method for on-line updating the same and inverted index mechanism
CN100433018C (zh) 电子文档与某一领域相关程度的判别方法及其应用
EP1844391A2 (en) Multiple index based information retrieval system
WO2005083593A1 (en) A method for providing search results list based on importance information and system thereof
US20080288483A1 (en) Efficient retrieval algorithm by query term discrimination
US9529908B2 (en) Tiering of posting lists in search engine index
Ottaviano et al. Optimal space-time tradeoffs for inverted indexes
CN101859424A (zh) 一种通过互联网实现手机显示商品购物比较状态信息的方法
Altingovde et al. Static index pruning in web search engines: Combining term and document popularities with query views
JP4808697B2 (ja) 有損失インデックス圧縮装置
CN101088082A (zh) 全文查询和搜索系统及其使用方法
Altingovde et al. Incremental cluster-based retrieval using compressed cluster-skipping inverted files
CN115080684B (zh) 网盘文档索引方法、装置、网盘及存储介质
Hawking et al. Reordering an index to speed query processing without loss of effectiveness
Büttcher Multi-user file system search
Li et al. iva-file: Efficiently indexing sparse wide tables in community systems
Buranasaksee Optimization of textual attribute support in generic location-aware rank query
CN116775828A (zh) 基于动态词典的搜索方法、装置、设备及存储介质
Attardi et al. Using Clustering and Blade Clusters in the Terabyte Task.
Altıngövde et al. Static index pruning in web search engines

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20050302