New! View global litigation for patent families

CN100423005C - 索引实体的方法和系统 - Google Patents

索引实体的方法和系统 Download PDF

Info

Publication number
CN100423005C
CN100423005C CN 200610141342 CN200610141342A CN100423005C CN 100423005 C CN100423005 C CN 100423005C CN 200610141342 CN200610141342 CN 200610141342 CN 200610141342 A CN200610141342 A CN 200610141342A CN 100423005 C CN100423005 C CN 100423005C
Authority
CN
Grant status
Grant
Patent type
Prior art keywords
method
system
indexing
entity
indexing entity
Prior art date
Application number
CN 200610141342
Other languages
English (en)
Other versions
CN1940930A (zh )
Inventor
丹尼尔·H.·梅里蒂斯
乔尔格·梅尔
安德鲁·S.·托姆金斯
简·H.·派博
纳达维·埃洛恩
Original Assignee
国际商业机器公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/3061Information retrieval; Database structures therefor ; File system structures therefor of unstructured textual data
    • G06F17/30731Creation of semantic tools
    • G06F17/30734Ontology

Abstract

一种索引位于分类体系中的多个实体的系统和方法,所述实体包括项的集合,所述方法包括:在索引结构中接收项;为实体建立关于定义实体的项的集合的位置和与各个项关联的数据的记录列表;以及索引包括组内的位于实体位置的实体的组的名称,所述组的数据包括在每个位置的各个实体的名称。记录列表的建立包括将项的位置以及与项关联的数据存储在该项的记录列表的条目中。该方法包括索引包括所述项的组的名称的别名,并使用倒排表索引以将数据与索引项的每个出现关联。

Description

索引实体的方法和系统技术领域本发明的实施例总的来说涉及信息检索系统,更具体地说,涉及用于在全文倒排表(full text inverted list)信息检索系统中的数据搜 索的技术。背景技术分类体系(taxonomy)是对亊物的分类。例如,大多数橾作系统 中的公知目录结构是用于将单独的文件组织成组的方法。在全文索引 中,索引利用的是许多文档共享相同的标记(token)(例如,单词或 字符)的亊实。尽管每个独特的标记在文档的原始集合中会出现多次, 但是倒排表索引通常仅将该标记存储一次。因此,通常,可将倒排表 索引看作压缩文档的集合的一种形式。典型地,压缩率依赖于索引的范围。通常,基本的倒排索引仅记录某个项(term)是否出现在文档 之内,而并不记录它出现了多少次或者它出现在哪里。全倒排索引通 常记录每个标记在每个文档之内的每次出现(occurrence)。尽管基 本的倒排索引在存储方面更加紧凑,但是它通常不能支持搜索标记的 序列,或在标记的特定窗之内搜索标记的存在。然而,全倒排索引通 常允许这样的复杂搜索。在基本的倒排索引和全倒排索引之间,存在 可以存储在某个项的倒排表之内的各种级别的信息。关于倒排表, 一种最众所周知的索引形式是书本中的索引。几乎 每本书都在书的末尾具有单词或单词序列(例如,段落和章节标题) 的通常按字母顺序排列的列表,连同论述它们的页码。使用索引,人 们可避免为了找到包含特定单词的页面而逐页地浏览。类似地,在例上述内容。抽象地^说:可将网络看^一本书,各个网络文档代表书中的页面。通过扫描要被索引的所有文档并将它们分成标记来执行建立倒排表索引的处理。这一处理称作分析(parsing)或标记化 (tokenization ),它产生可以是英文文档中的单词、中文字符、4字 节数字等的标记。对全文索引的查询与所有查询项的倒排表的交集/结合(取决于 查询操作符,例如,OR、 AND)相同。因此,查询结果本身是一个 倒排表。对于查询的每个项,通常必须访问倒排表。数据挖掘( mining ) 的处理涉及从较大的数据集合中提取诸如模式、关系等信息。数据挖 掘者(所谓的注解者)通常逐文档地操作所述集合,并将元数据添加 到所述集合。可将实体(entity)理解为人们用许多名称或描述来引用 的内容。实体可以是个人、机构、组织、建筑或国家。所有这些具有 的共同点在于可以用不同的语言、不同的名称或别名、或者其名称的 变化的简称来描述同一个事物。因此,通常也可将实体表示为搜索查 询。上述概念允许用户搜索多个单词或挖掘的实体。然而,通常这是 不够的。计算机用户通常趋于想要把亊物组织和集中到一起。这种例 子包括使用用于集中相关文件的目录或将电子邮件地址集中到一起的 寄送列表的文件系统。基本的想法在于可通过引用单个别名(alias) (即,目录名称或寄送列表的名称)对一组事物执行操作。在搜索应用中,期望相似的功能。并不是搜索包含一组特定项的 文档,使用别名来索引和搜索所述组通常更加高效。例如,可使用单 个的项"政治家,,将文档中出现的所有政治家的名字集中。这样,人们 可以高效地搜索文档的集合,而不必单独地列出所有政治家。当搜索 一组亊物时,其通常不仅有助于找到匹配所述组的文档,还有助于了 解组名称的出现的背后"隐藏"着哪个实体。针对这一问题的第一种传统解决方案为通过分别查询例如"政治 家"的组中的每个政治家来查询该组。然而,由于该组会包含数千、数 百万或者某些情况下数亿的条目(例如,所有人名的组),并且在这 种情况下的处理速度会从几分之一秒到数日,所以这通常是不可接受的。第二种传统解决方案为创建与该组相对应的新标记。然而,这种 解决方案通常无法提供重要的功能。用户知道结果集合中的文档涉及 政治家,但是并不知道涉及哪个政治家。对于特定的分析应用,这一 方法也是不可接受的。关系数据库是用于存储关系数据的比较成熟的 工具。在组中包含实体也是一种关系。然而,关系数据库通常不适于 建立大规模的文本索引。因此,需要一种新型的索引技术,其能够找 到包含属于组的实体的文档,并且能够找出在组名称的出现的背后"隐 藏"着哪个实体。发明内容考虑到以上内容,本发明的实施例提供一种索引位于分类体系中的多个实体的方法,所述实体包括项(term)的集合。在另一实施例 中,由计算机可读的计算机存储设备,有形地包含由计算机可执行的 指令的程序,所述程序用于执行索引位于分类体系中的多个实体的方 法,其中,该方法包括:在索引结构中接收项;为实体建立关于项的 位置以及与从索引结构接收的项关联的数据的记录列表(posting list);以及将组的名称索引到实体的位置,组的数据包括实体的名称。 优选的是,建立记录列表的处理包括:将所述实体的位置以及与所述 实体关联的数据存储在用于该组的记录列表的条目中。此外,该方法 还包括:使用倒排表索引将数据与索引项的每次出现相关联,并搜索 倒排表索引以允许在文档命中的集合中进行统计聚集,其中,统计聚 集指示哪些单独的实体存在于文档集合中。此外,该方法还包括:对 于索引器找到的每个文档提取某个项的所有出现的数据字段。本发明的另一方面提供一种索引位于分类体系中的多个实体的 系统,所述实体包括项的集合,所述系统包括:用于在索引结构中接 收所述项的集合的装置;用于为实体建立关于所述项的集合的位置和 与所述项的集合关联的数据的记录列表的装置;以及用于索引包括位 于所述项的集合的所述位置的所述实体的组的名称的装置,所述组的数据包括所述实体的名称。优选的是,记录列表适于将项的位置以及 与项关联的数据存储在用于该项的记录列表的条目中。该系统还包括 适于将数据与索引项的每个出现相关联的倒排表索引结构,此外,该 系统还包括查询机制,其适于搜索倒排表索引结构以允许在文档命中的集合中进行统计聚集(aggregation),其中,统计聚集指示哪些单 独的实体存在于文档集合中。此外,该系统还包括索引器:,适于对于 该索引器找到的每个文档提取某个项的所有出现的数据字段.当结合下面的描述以及附图进行考虑时,将更好地认识和理解本 发明的实施例的这些和其它方面。然而,应理解,以下描述在表示本 发明的优选实施例以及其许多特定细节的同时,仅作为示例示出,而 并不是限制性的。在不脱离本发明的精神的情况下,在本发明的实施 例的范围之内可进行各种改变和修改,本发明的实施例包括所有这样 的修改。附图说明通过下面参照附图进行的详细描述,将更好地理解本发明的实施 例,其中:图1是示出本发明实施例的优选方法的流程图; 图2示出分类体系顺序的示意图; 图3是根据本发明实施例的系统图;以及 图4是根据本发明实施例的计算机结构图。具体实施方式参照在附图中示出并在下面的描述中详细说明的非限制性实施 例,将更加全面地解释本发明的实施例及其各种特征和有利细节。应 注意到,并不一定按照比例来绘制附图所示的特征。将公知部件和处 理技术的描述省略,以便避免不必要地模糊本发明的实施例。这里使 用的示例仅仅是为了有助于理解可实施本发明实施例的方式,并进而 使得本领域的技术人员能够实施本发明的实施例,因此,不应将示例解释为限制本发明实施例的范围。如上所述,需要一种新型的索引技术,其能够找到包含属于组的 实体的文档,并且能够找出在组名称的出现的背后"隐藏"着哪个实体。 本发明的实施例通过提供一种在大规模全文索引中支持索引和搜索分 类体系的方法和构架来实现上述目的。更具体地说,本发明的实施例 提供一种用于索引包括多个成员的集合的技术,其中,索引提供允许 对引用所述集合的成员的文档的顺序访问的数据结构,其中,以用于 确定引用了哪个特定成员的信息来扩充所述数据结构。现在参照附图,特别是图1到图4,其示出了本发明的优选实施例。图1示出索引位于分类体系中的多个实体的方法的流程图,所述 实体包括项的集合,其中,该方法包括:在索引结构中接收项(101); 为实体建立关于项的集合的位置以及与项有关的数据的记录列表 (103);以及索引包括组内的实体的位置的组的名称,每个位置的数 据包括每个位置的相应实体的名称(105)。优选的是,记录列表的建 立(103)包括:将项的位置以及与项关联的数据存储在该项的记录列 表的条目中。此外,该方法还包括:使用倒排表索引将数据与索引项 的每次出现相关联;以及搜索倒排表索引以允许在文档命中的集合中 进行统计聚集,其中,统计聚集指示哪些单独的实体存在于文档集合 中。此外,该方法还包括:对于由索引器发现的每个文档提取某个项 的所有出现的数据字段。总地来说,本发明的实施例提供一种实现分类体系的积累 (roll-叩)的索引建立处理,即,当索引文档中某位置上的特定实体 时,将组的名称用作索引项,直接或间接(通过子组)地索引包含所 述实体的所有组。接着,本发明的实施体提出一种允许将数据与索引 项的每次出现关联的倒排表索引格式。此后,如以下进一步所描述的, 本发明的实施例提供一种搜索倒排表以允许在文档命中的集合中进行 统计聚集并向用户提供关于哪些实体存在于页面上的信息的方法。在分类体系中定义实体,即,实体是关于何种文本序列表示这种 实体的出现的描述。在图1中示出简单的一个分类体系。可将单独的实体集中成组,并可将组进一步集中,这类似于文件系统中目录的概念。诸如可扩展标记语言(XML)的树状文档结构允许分类体系的表 示。当索引实体,代表实体的项(别名),以及包含所述实体的组的 所有别名的出现时,每个组别名的出现与实际实体的名称关联。搜索 文档可使用单词、实体别名或实体组别名的任意组合。此外,可通过搜索结果。这是基础索引的功能。本发明的实施例支持使用组中的项 的关联数据提供关于文档命中的组的统计信息的应用。返回带有组别 名的数据的能力可用于基于文档命中的集合聚集信息并收集统计。例 如,查找包含任何人的文档(使用该人的组别名),可以根据"人,,的 出现的数据字段选择使所有个人连同文档被返回。所述应用随后可使 用这一数据并对其进行聚集,并显示n个最频繁的个人。此外,本发明的实施例提供使用组别名以基础搜地索项的集合的 能力,这简化了查询结构,减少了查询长度和查询之内项的数量。允有条目的情况中解脱出来。通常,查询中的每个单独的项需要项查找 并可能需要盘寻找(disk-seek)。在这种情况下,当以多个项(例如, 单词)进行查询时,"项查找"是找出该项是否存在于索引中,即,任 何被索引的文档是否包含该给定的项至少一次的处理。术语"盘寻找" 指的是在例如硬盘的辅助存储设备上执行的任何操作。在这种情况下, 当之前从未看到某个项和它的倒排表并且需要从盘上加载它们时,有 必要进行盘寻找。因为CPU和内部存储器(RAM)以及CPU和例如 硬盘的外部存储器之间的速度差为多个数量级,所以在进行较大集合 中的搜索时减少盘寻找是主要目的之一。通过减少项查找和盘寻找的 数量,输入/输出(1/0)操作更加连续,这对于实时性能起到积极作 用。根据本发明的实施例,因为增长的集合被自动处理,所以简化了 查询再使用。换言之,在下一索引建立中获得对分类体系的更新,即, 将新的人添加到人的组中。如果将一个成员添加到组,则自动将其索引为組的一部分并随着索引更新来获得所述成员。因此,当组成员发 生改变的时候,使用组别名的查询不需要改变。此外,根据本发明的实施例,利用每个记录(posting)存储数据允i午对于由查询返回的结 果集合的仅索引(index-only )数据分析。如果人们仅知道某个人存在 于页面上以及存在于哪里(单词或字节偏移),则不得不加载所有满 足查询的文档,并从所述页面提取信息,以得到实际名称。使得数据 可通过索引获得对于实时性能是有利的。利用使用本发明的实施例建 立的索引,仅访问一个记录列表,可以对于匹配该查询的任何文档, 返回分类体系中任何实体的所有出现。因为组的倒排表包括它的孩子 的所有出现,所以上迷处理可以实现。这实现了仅索引数据检索,其 在传统的解决方案中通常需要包含文档的元数据的外部数据存储。如 先前所述,检索文档、分析文档和提取数据的传统技术方案是在运行 时间方面是不可行的。由本发明的实施例提供的好处能够减少网络或 盘往返。通常,本发明的实施例如下工作。首先,进行索引建立处理。这 里,索引处理检索项(单词、实体别名等)。优选的是,将所述索引 具体化为文件的集合,所述文件存储在例如硬盘的辅助存储介质上。 某个项的每个出现可以具有与其关联的数据。对于每个独特的项建立 记录列表。记录的格式是l位置l数据l。对于分类体系中的项,建立处 理进行以下操作:(l)利用其在文档中出现的位置x插入实体叶;(2) 对于包含(直接或间接)所述实体的每个组,本发明的实施例将组的 名称索引到相同的位置x,并将实体别名的名称置于数据字段中。例 如,假设存在两个实体,JohnKerry和GeorgeBush,它们在美国政治 家的组中,而该组又包含在组"人"中。假设实体JohnKerry出现在 某文档的位置x,而实体GeorgeBush出现在某文档的位置y。索引建 立处理产生三个别名(一个用于实体,两个用于组名称:)的三个记录 列表,如表1所示:表l:记录列表项名称 记录列表人/美国政治家/GeorgeBush ...1 lyl无数据l 1...人/美国政治家/JohnKerry ...1 [xl无数据l人/美国政治家 …j |x|JohnKerryl [y|GeorgeBush]| 1…人 ...1【xl美国政治家IJohnKerryl【yl美国政治家 IGeorgeBush】【…处理的下一步骤涉及查询处理。这里,使用上述方法建立的索引 随后可用于搜索包含任何组成员的出现的文档。通过搜索引擎来促进 搜索,所述搜索引擎使用索引来查找项并访问所述项的倒排表。所述 查询引擎逐个查询记录列表的所有出现。索引包括文件的集合,所述 文件包括所有项和它们各自的记录列表,搜索引擎确定项是否存在, 然后使用索引文件中的信息以找到所述项的倒排表(记录)。使用如 任何搮作系统中使用的传统文件访问方法从盘加载记录。将分类体系 之内的实体的记录列表当作普通索引项,并且所述记录列表可与例如 页面上的单词的常规索引项进行组合。接着,进行查询项的数据字段 的提取。这里,当处理寻找包含项的集合的文档的查询时,索引器对 于它找到的每个文档返回某个项的所有出现信息。由于对于每个查询 项能够逐个查询所述记录,所以搜索引擎从每个记录返回信息,其为 文档之内的位置以及关联的数据。通过提取落入文档的所有出现的所 有数据字段来实现上述处理。图3示出根据本发明实施例的系统框图。索引位于分类体系内的 包括项的集合的多个实体的系统200包括:索引结构201,适于接收 项;以及记录列表203,包括项的位置和与项的每个位置关联的数据; 其中,索引结构201包括组的名称和它的记录列表203,其包括所述 组之内所有实体的位置,以及包括在每个位置的各个实体名称的每个 数据字段。优选的是,记录列表203适于将项的位置和与项关联的数 据存储在项的记录列表203的条目中》系统200还可包括倒排表索引结构205,其适于将数据与索引项的每个出现关联。此外,系统200 还可包括查询机制207,其适于搜索倒排表索引结构205以允许在文 档命中的集合中进行统计聚集,其中,统计聚集指示哪些单独的实体 存在于文档集合中。此外,系统200还可包括索引器209,其适于对 于由索引器209找到的每个文档提取某个项的所有出现的数据字段。本发明的实施例可采用全部硬件实施例、全部软件实施例或包括 硬件和软件部件两者的实施例的形式。在优选实施例中,以软件来实 现本发明,所述软件包括但不限于固件、驻留软件、微代码等。此外,本发明的实施例可采用通过计算机可用或计算机可读介质 可访问的计算机程序产品的形式,所述计算机产品提供程序代码以由 计算机或任何指令执行系统使用或结合计算机或任何指令执行系统使 用。为了描述的目的,计算机可用或计算机可读介质可以是任何可包 括、存储、通信、传播或传输程序以由指令执行系统、装置或设备使 用或结合指令执行系统、装置或设备使用的装置。介质可以是电、磁、光、电磁、红外或半导体系统(或装置或设 备)或传播介质。计算机可读介质的示例包括:半导体或固态存储器、 磁带、可移动计算机磁盘、随机存取存储器(RAM),只读存储器 (ROM)、刚性磁盘和光盘。光盘的当前示例包括压缩盘-只读存储 器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。适于存储和/或执行程序代码的数据处理系统将包括至少一个直 接或间接通过系统总线连接到存储部件的处理器。存储部件可包括在 程序代码的实际执行期间使用的本地存储器、海量存储器、提供至少 某些程序代码的临时存储以便减少必须在执行期间从海量存储器检索 代码的次数的高速緩冲存储器。输入/输出(I/O)设备(包括但不限于鍵盘、显示器、指引设备 等)可直接或通过中间1/0控制器连接到系统。也可将网络适配器连其它数据处理系统或远程打印机或存储设备。调制解调器、有线调制 解调器和以太网卡仅是一些当前可用的网络适配器。在图4中示出用于实施本发明的实施例的代表性硬件环境。这一 示意图示出根据本发明的实施例的信息处理/计算机系统的硬件配置。 所述系统包括至少一个处理器或中央处理单元(CPU) 10。 CPU 10 通过系统总线12与诸如随机访问存储器(RAM) 14、只读存储器 (ROM) 16和输入/输出(I/O)适配器18的各种设备相互连接。I/O 适配器18可连接到外围设备,诸如盘单元11和带驱动器13、或系统 可读的其它程序存储设备。所述系统可读取程序存储设备上的本发明 指令,依照这些指令以执行本发明的实施例的方法。所述系统还包括 用户接口适配器19,其将键盘15、鼠标17、扬声器24、麦克风22 和/或诸如触摸屏设备(未示出)的其它用户接口设备连接到总线12 以收集用户输入。此外,通信适配器20将总线12连接到数据处理网 络25,显示器适配器21将总线连接到显示设备23,所述显示设备23 可具体化为诸如以监视器、打印机或发送器为例的输出设备。以上对于特定实施例的描述将充分揭示本发明的总体特性,从而 其他人可在不脱离总体概念的情况下,通过应用当前知识容易地修改 和/或改变这些特定实施例的各种应用,因此,这种改变和修改应该并 试图理解为在公开的实施例的等同物的含义和范围之内u要理解到, 这里使用的措辞或术语是为了描迷的目的,而不是限制性的。因此, 尽管以优选实施例描迷了本发明的实施例,但是本领域的技术人员将 认识到,在实施本发明的实施例时可以在所附权利要求的精神和范围 之内进行修改。

Claims (10)

1. 一种索引位于分类体系中的多个实体的方法,所述实体包括项的集合,所述方法包括: 在索引结构中接收所述项的集合; 为实体建立关于所述项的集合的位置和与所述项的集合关联的数据的记录列表;以及 索引包括位于所述项的集合的所述位置的所述实体的组的名称,所述组的数据包括所述实体的名称。
2、 如权利要求1所述的方法,其中,记录列表的建立包括:将 所述实体的所述位置以及与所述实体关联的数据存储在所述实体的所 迷记录列表的条目中。
3、 如权利要求1所述的方法,还包括:使用倒排表索引将与所 述项的集合关联的数据与索引项的每次出现相关联。
4、 如权利要求3所述的方法,还包括:搜索所述倒排表索引以 允许在文档命中的集合中进行统计聚集,其中,所述统计聚集指示哪 些单独的实体存在于文档集合中。
5、 如权利要求1所述的方法,还包括:对于由索引器找到的每 个文档提取某个项的所有出现的数据字段。
6、 一种索引位于分类体系中的多个实体的系统,所述实体包括 项的集合,所述系统包括:用于在索引结构中接收所述项的集合的装置;用于为实体建立关于所述项的集合的位置和与所述项的集合关联的数据的记录列表的装置;以及用于索引包括位于所述项的集合的所述位置的所述实体的组的 名称的装置,所述组的数据包括所述实体的名称。
7、 如权利要求6所述的系统,其中,所述记录列表适于将所述 项的位置以及与所述项关联的数据存储在所述项的所述记录列表的条 目中。
8、 如权利要求6所述的系统,还包括:用于使用倒排表索引结 构将与所述项的集合关联的数据与索引项的每次出现相关联的装置。
9、 如权利要求8所述的系统,还包括:用于搜索所述倒排表索 引结构以允许在文档命中的集合中进行统计聚集的装置,其中,所述 统计聚集指示哪些单独的实体存在于文档集合中。
10、 如权利要求6所述的系统,还包括:用于对于由索引器找到 的每个文档提取某个项的所有出现的数据字段的装置。
CN 200610141342 2005-09-30 2006-09-29 索引实体的方法和系统 CN100423005C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/241,687 2005-09-30
US11241687 US8600997B2 (en) 2005-09-30 2005-09-30 Method and framework to support indexing and searching taxonomies in large scale full text indexes

Publications (2)

Publication Number Publication Date
CN1940930A true CN1940930A (zh) 2007-04-04
CN100423005C true CN100423005C (zh) 2008-10-01

Family

ID=37903089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610141342 CN100423005C (zh) 2005-09-30 2006-09-29 索引实体的方法和系统

Country Status (3)

Country Link
US (1) US8600997B2 (zh)
JP (1) JP5128101B2 (zh)
CN (1) CN100423005C (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080072134A1 (en) * 2006-09-19 2008-03-20 Sreeram Viswanath Balakrishnan Annotating token sequences within documents
US7974976B2 (en) * 2006-11-09 2011-07-05 Yahoo! Inc. Deriving user intent from a user query
US8108390B2 (en) * 2006-12-21 2012-01-31 Yahoo! Inc. System for targeting data to sites referenced on a page
US7720837B2 (en) * 2007-03-15 2010-05-18 International Business Machines Corporation System and method for multi-dimensional aggregation over large text corpora
US20080270228A1 (en) * 2007-04-24 2008-10-30 Yahoo! Inc. System for displaying advertisements associated with search results
US9396261B2 (en) * 2007-04-25 2016-07-19 Yahoo! Inc. System for serving data that matches content related to a search results page
US8099401B1 (en) * 2007-07-18 2012-01-17 Emc Corporation Efficiently indexing and searching similar data
US8782061B2 (en) * 2008-06-24 2014-07-15 Microsoft Corporation Scalable lookup-driven entity extraction from indexed document collections
JP2011065546A (ja) * 2009-09-18 2011-03-31 Hitachi Solutions Ltd ファイル検索システム及びプログラム
WO2011117655A3 (en) 2010-03-25 2014-03-13 The University Of Manchester Refrigeration process
CN102262632B (zh) * 2010-05-28 2014-03-19 国际商业机器公司 进行文本处理的方法和系统
US9600565B2 (en) 2010-10-15 2017-03-21 Nec Corporation Data structure, index creation device, data search device, index creation method, data search method, and computer-readable recording medium
CN102780652A (zh) * 2012-07-23 2012-11-14 上海量明科技发展有限公司 即时通信中对信息进行归类采集的方法及系统
US9576007B1 (en) * 2012-12-21 2017-02-21 Google Inc. Index and query serving for low latency search of large graphs
WO2014137381A1 (en) * 2013-03-07 2014-09-12 Thomson Licensing Top-k search using randomly obtained pairwise comparisons
KR101757124B1 (ko) 2016-09-01 2017-07-26 인하대학교 산학협력단 시공간 키워드 질의를 위한 셀 기반 역리스트 인덱싱 기법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832500A (en) 1996-08-09 1998-11-03 Digital Equipment Corporation Method for searching an index
US6349308B1 (en) 1998-02-25 2002-02-19 Korea Advanced Institute Of Science & Technology Inverted index storage structure using subindexes and large objects for tight coupling of information retrieval with database management systems
CN1483169A (zh) 2000-12-29 2004-03-17 国际商业机器公司 有损索引压缩
CN1536509A (zh) 2003-04-11 2004-10-13 国际商业机器公司 倒排索引存储方法、倒排索引机制以及在线更新的方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4606002A (en) * 1983-05-02 1986-08-12 Wang Laboratories, Inc. B-tree structured data base using sparse array bit maps to store inverted lists
JPH07249045A (ja) 1994-03-08 1995-09-26 Oki Electric Ind Co Ltd 情報検索方法および情報検索装置
JPH08115340A (ja) 1994-10-19 1996-05-07 Fuji Xerox Co Ltd 文書検索装置およびそれに用いるインデックスファイルの作成装置
JP2929963B2 (ja) 1995-03-15 1999-08-03 松下電器産業株式会社 文書検索装置および単語索引作成方法および文書検索方法
US5701469A (en) * 1995-06-07 1997-12-23 Microsoft Corporation Method and system for generating accurate search results using a content-index
US5778378A (en) * 1996-04-30 1998-07-07 International Business Machines Corporation Object oriented information retrieval framework mechanism
US5893094A (en) * 1997-07-25 1999-04-06 Claritech Corporation Method and apparatus using run length encoding to evaluate a database
US5848410A (en) * 1997-10-08 1998-12-08 Hewlett Packard Company System and method for selective and continuous index generation
US6192374B1 (en) * 1998-10-10 2001-02-20 Lawrence Technologies, Llc Efficient implementations of constructs such as feature tables
JP2001043236A (ja) 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
US6732087B1 (en) * 1999-10-01 2004-05-04 Trialsmith, Inc. Information storage, retrieval and delivery system and method operable with a computer network
US6643639B2 (en) * 2001-02-07 2003-11-04 International Business Machines Corporation Customer self service subsystem for adaptive indexing of resource solutions and resource lookup
US7243092B2 (en) * 2001-12-28 2007-07-10 Sap Ag Taxonomy generation for electronic documents
US6947924B2 (en) * 2002-01-07 2005-09-20 International Business Machines Corporation Group based search engine generating search results ranking based on at least one nomination previously made by member of the user group where nomination system is independent from visitation system
US7149748B1 (en) * 2003-05-06 2006-12-12 Sap Ag Expanded inverted index
US7630963B2 (en) * 2003-06-30 2009-12-08 Microsoft Corporation Fast ranked full-text searching
US7337165B2 (en) * 2003-12-29 2008-02-26 International Business Machines Corporation Method and system for processing a text search query in a collection of documents
US7266548B2 (en) * 2004-06-30 2007-09-04 Microsoft Corporation Automated taxonomy generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832500A (en) 1996-08-09 1998-11-03 Digital Equipment Corporation Method for searching an index
US6349308B1 (en) 1998-02-25 2002-02-19 Korea Advanced Institute Of Science & Technology Inverted index storage structure using subindexes and large objects for tight coupling of information retrieval with database management systems
CN1483169A (zh) 2000-12-29 2004-03-17 国际商业机器公司 有损索引压缩
CN1536509A (zh) 2003-04-11 2004-10-13 国际商业机器公司 倒排索引存储方法、倒排索引机制以及在线更新的方法

Also Published As

Publication number Publication date Type
US20070078880A1 (en) 2007-04-05 application
US8600997B2 (en) 2013-12-03 grant
JP5128101B2 (ja) 2013-01-23 grant
JP2007102786A (ja) 2007-04-19 application
CN1940930A (zh) 2007-04-04 application

Similar Documents

Publication Publication Date Title
Berendt et al. Analysis of navigation behaviour in web sites integrating multiple information systems
Chowdhury Introduction to modern information retrieval
Kowalski et al. Information storage and retrieval systems: theory and implementation
Gravano et al. Text joins in an RDBMS for web data integration
Carpineto et al. A survey of web clustering engines
Liu et al. Special issue on web content mining
Dong et al. Indexing dataspaces
US6286000B1 (en) Light weight document matcher
Domenig et al. An overview and classification of mediated query systems
US20020116402A1 (en) Information component based data storage and management
US7783644B1 (en) Query-independent entity importance in books
US20040044659A1 (en) Apparatus and method for searching and retrieving structured, semi-structured and unstructured content
US20060253476A1 (en) Technique for relationship discovery in schemas using semantic name indexing
US20060213976A1 (en) Article reader program, article management method and article reader
US20060271524A1 (en) Methods of and systems for searching by incorporating user-entered information
US20050149538A1 (en) Systems and methods for creating and publishing relational data bases
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
US20060230033A1 (en) Searching through content which is accessible through web-based forms
US20110113047A1 (en) System and method for publishing aggregated content on mobile devices
Pu et al. Subject categorization of query terms for exploring Web users' search interests
US20070198480A1 (en) Query language
US20090265338A1 (en) Contextual ranking of keywords using click data
US20020099685A1 (en) Document retrieval system; method of document retrieval; and search server
US20070198481A1 (en) Automatic object reference identification and linking in a browseable fact repository
Sacks-Davis et al. Database systems for structured documents

Legal Events

Date Code Title Description
C06 Publication
C10 Request of examination as to substance
C14 Granted