CN1710561A - 用于索引和检索文档的方法、计算机程序及数据载体 - Google Patents

用于索引和检索文档的方法、计算机程序及数据载体 Download PDF

Info

Publication number
CN1710561A
CN1710561A CNA200510078916XA CN200510078916A CN1710561A CN 1710561 A CN1710561 A CN 1710561A CN A200510078916X A CNA200510078916X A CN A200510078916XA CN 200510078916 A CN200510078916 A CN 200510078916A CN 1710561 A CN1710561 A CN 1710561A
Authority
CN
China
Prior art keywords
document
index
mentioned
several
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200510078916XA
Other languages
English (en)
Other versions
CN100498773C (zh
Inventor
迈克·凡代姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WALTERCK CO Ltd
Original Assignee
WALTERCK CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WALTERCK CO Ltd filed Critical WALTERCK CO Ltd
Publication of CN1710561A publication Critical patent/CN1710561A/zh
Application granted granted Critical
Publication of CN100498773C publication Critical patent/CN100498773C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种用于索引和检索文档的方法,其特征在于,为了索引文档(1),其包括下列操作步骤的组合:通过一个或几个特定于域的主题词表标识该文档(1)中的核心概念;通过一个或几个关系寄存器(4)标识核心概念(1)之间的关系;以及根据所标识的核心概念以及关系索引该文档(1)。

Description

用于索引和检索文档的方法、 计算机程序及数据载体
技术领域
本发明涉及一种用于索引和检索文档的方法,更具体地,涉及一种以数字方式索引和检索文档的方法、其中文档指的是所有包含在文本文档、声音片段、图像拼贴等中的数据。
背景技术
已知基于文本文档的内容借助于一个或几个所谓的主题词表对它们进行索引。
由此通过软件程序对所要索引的文本文档进行文本分析,软件程序从文本文档中的一个或多个主题词表中查找所谓的核心概念。
以所发现的不同核心概念在文本文档中出现的频率和位置为基础,该文本文档接收其中包括不同的核心概念的特定索引。
为了检索被索引的文档,用户可以使用已知的电子搜索功能,由此他/她引入核心概念,然后,给出所有包含该核心概念的文档作为结果,基于所涉及的核心概念在文档中出现的频率排序或不排序。
这样的基于主题词表索引和检索文档的已知方法的缺点就是,其不允许检索以一种方式或其它方式与所引入的核心概念相关、但是其中并没有出现核心概念本身或包括在主题词表中的其同义词的文档,使得可能不将具有相关信息的那个文档提供给用户。
另一种用于索引和检索文档的已知方法是通过描述基于本体论的域,由此用户能够基于核心概念之间的关系索引文档,从而在搜索的情况下,选择应用上述关系的所有文档。
这种已知方法的缺点就是,对所要索引的文档进行的索引相对较费力,并且文档的检索可能相对用时较长,因为随着核心概念数量的增加,不同核心概念之间的关系的数目迅速变得非常大。
发明内容
本发明的目的是弥补上述以及其它缺点。
为此,本发明涉及一种用于索引和检索文档的方法,该方法包括下列操作步骤的组合:通过一个或几个特定于域的主题词表标识文档中的核心概念;通过一个或几个关系寄存器标识核心概念之间的关系;以及根据所标识的核心概念以及关系索引文档。
根据本发明的这种方法的优点就是,用户可以以快速简单的方式检索文档,这是因为核心概念之间的关系的数目被限制到特定于域的主题词表中核心概念之间的关系,可以选择这个关系数目为所应用的主题词表以及关系寄存器的范围的函数,并且因为结果可能相对较小。
本发明还涉及一种计算机程序,其能够应用上述方法。
本发明还涉及一种数据载体,其具有上述计算机程序。
附图说明
为了更好地解释本发明的特征,参考附图将根据本发明的、用于索引和检索文档的方法描述为不以任何方式限制的例子,其中:
图1示意性地表示根据本发明的用于索引文档的方法;
图2表示图1的一种变体;
图3示意性地表示根据本发明用于检索被索引文档的方法;
图4表示当检索被索引文档时,结果表示的一个实际范例。
具体实施方式
图1示例性地表示为了索引文档1所实施的不同操作步骤的概况,根据索引2可以检索和应用该文档1。
根据本发明,分析所要索引的每一个文档1中核心概念的存在,将该核心概念存储在一个或几个主题词表3中,并且还分析每一个文档1的、包含在文档1中的不同核心概念之间存在的可能关系,将该关系存储在所谓的关系寄存器4中。
可以通过人员手动地、或者通过特定的计算机程序自动地完成这种分析。
通过这种方式创建被索引文档1的集合,其一起形成信息源或知识云6。
因此,文档1可以是文本文档或附图或声音片段、视频拼贴等形式的视听文档的附图集合。
因此,主题词表3优选地以分层方式构建,从而对于特定研究领域,一个或几个主题词表包含大量基本检索词,其每一个形成用于放置在多个子主题词表中的大量子检索词的集体检索词,从而创建大量特定于域的主题词表3。
这种本体主题词表7的分层结构的优点在于,不同的基本检索词可以说是分层构建的,并且因此以某种程度的隐含性彼此链接。其范例有,例如检索词“叶绿体”在第一特定级与“叶肉”链接;在后面更一般的级与“树叶”链接;在还更加一般的级与“植物”链接;并且在终级与非常一般的检索词“植物群”链接。
关系寄存器4包括分别在子寄存器中进一步指定的关系的集合。因此,上述寄存器4可以包含语言或符号属性的关系,其中语言关系包括例如固定的句子结构,例如用于描述原因和效果的固定句子结构,从而在索引时,可以以适当的方式将原因和效果的核心概念彼此链接。
如图2中示意性所示,可以选择性地和可选地将主题词表3与关系寄存器4集成在一起,从而一起形成所谓的本体主题词表7,其中前缀“本体”表示本体性的。
这种本体主题词表7由一个或多个基本检索词的一般主题词表3构成,其从现存的本体中导出或不是从其中导出,从而将关系链接到一个或多个这些基本检索词,例如作为特定目标、任务等的函数。
于是,每一个基本检索词和所涉及的关系的特定组合提供所谓的子本体的原因,子本体包含根据上述关系与上述基本检索词相关的检索词。
当然,可以进一步在特定于域的下层子本体中结合关系或不结合关系地指定该子本体的检索词。
借助于上述分析的结果,认为索引2是每一个文档的属性,这是基于例如核心概念在文档1中出现的频率、它们在文档1中出现的位置、它们与其它核心概念的已知关系、所使用的主题词表的结构以及发展程度等而统计地确定的。
在该索引2中也可以包括在文档1中并没有明确出现、但是作为明确出现的核心概念的同义词而包括在主题词表3中的核心概念,其在该主题词表3中表示为明确出现的核心概念的更一般或更具体的检索词,和/或其根据在文档1中所发现的关系而与这些明确出现的核心概念中的一个或多个相关。
于是,例如如果在文档1中出现“铁”,假定词语铁和金属在一个或多个所涉及的主题词表3中相关,则词语“金属”将作为核心概念被包括在文档1的索引2中。
而且,优选地通过上述关系寄存器4,在索引2中归纳不同核心概念之间的关系。
使用关系寄存器4或使用如上所述的、作为主题词表3和关系寄存器4的组合的本体主题词表7,也使得可能将所发现的核心概念放在特定上下文中。于是,例如可以区分同形异义词。
实际上,如果分别参照特定域的两个或多个主题词表3都包含以相同方式书写或发音的核心概念,则它们都可以识别相同的核心概念,在此之后,关系寄存器4可以通过例如文档中的其它核心概念将该核心概念放在正确的上下文中,并因此将所涉及的核心概念链接到对应于文档1内容的域的主题词表3。
其一个范例就是,词语“树”可能指植物以及信息技术领域中的数据结构。
为了在文档的索引2中通过适当的方式处理这种同形异义词,在索引时将它们当作隐含词语,虽然它们明确地出现在该文档中。
通过将它们当作隐含词,它们通过关系寄存器4或本体主题词表7将总是链接到来自文档1的正确的明确核心概念。
如图3中所表示,可以通过链接到上述主题词表3或关系寄存器4的搜索程序8对上述信息源或知识云6进行查阅。
该搜索程序8的使用可以相对较简单,搜索程序8优选地是计算机程序,由此用户在一个或几个特定于域的主题词表3中直接选择一个或几个搜索词语,和/或指示关系寄存器4中的一个或多个关系,然后,搜索程序8在知识云6中不同文档1的索引2中查找,并将那些在其索引2中包含所选择的搜索词语和/或所指示的关系的文档1表示为结果9。
当然,用户可以进一步使用该结果9作为知识云来进行新的搜索。
优选地,在两个不同阶段中表示上述搜索的结果9。
在第一阶段,给出所发现的与一个或几个搜索词相关的不同文档1的概况,由此根据它们的相关性将这些文档进行排序,可以根据搜索词与所涉及的文档1的索引2之间的对应关系而统计地确定它们的相关性。
除了所发现的文档1的相关性之外,也可以涉及文档的类型,如文本文档、视频片段、音频记录等,以及文档1的内容概况和出现在文档1中的主要核心概念的概况。
当概括主要核心概念时,优选地使用颜色码,其使用户能够快速有效地在所发现的文档1之间做出选择,并显示文档1、或更具体地将文档1的索引2的核心概念的上述隐含级别。
在表示所发现的文档1的第二阶段中,显示已经由用户从所发现的文档1的列表中选择的单个文档1,其中每一单个文档1的表示可以附有出现在所涉及文档1中的索引词的概况,以及这些不同索引词之间的关系,由此为用户提供了基于所表示的索引词和关系进一步搜索的可能性。
图4表示计算机屏幕10上的结果9的实际范例,其中将该屏幕10细分成不同的窗口11至17。
根据该范例,将查询必须执行的搜索词引入屏幕10顶部的窗口11中,然后,在窗口12中总结在上述第一阶段中作为该查询的结果9而出现的不同文档1,根据其相关性排序或不排序。
在第二阶段中,当用户已经选择了其中一个所发现的文档1时,分别在窗口13至15中表示明确出现在该文档1中的核心概念、隐含出现在该文档1中的核心概念、以及不同的隐含和明确核心概念之间的关系。
与窗口13至15相邻设置有窗口16,其中指示有用于每一核心概念的上述颜色码,并且在窗口17中,最终显示整个文档1。
当使用本体主题词表7时,用户具有的优势就是,他或她能够将查询中的一个或几个搜索词与一个或几个关系组合起来,由此,搜索程序8将只查找所选择的搜索词所属于的特定于域的主题词表3的词语之间所选择的关系,并且由此关系的数目就相对较小,使得该搜索程序8需要更少的时间得到结果9。
应该注意到的是,上述知识云6也可以用来排列文档,由此用户可以通过简单的方式找到上述关系寄存器4中不同词之间的关系,并且由此用户借助于上述主题词表3肯定能够选择适当的词语。
本发明并不限于作为范例所给出的方法,相反,可以根据不同的变化实现用于索引和检索文档的方法,同时仍然保留在本发明的范围内。

Claims (13)

1.一种用于索引和检索文档的方法,其特征在于,为了索引文档(1),其包括下列操作步骤的组合:通过一个或几个特定于域的主题词表标识所述文档(1)中的核心概念;通过一个或几个关系寄存器(4)标识所述文档(1)中核心概念之间的关系;以及根据所标识的核心概念以及关系索引所述文档(1)。
2.根据权利要求1的方法,其特征在于,上述主题词表(3)是分层构建的。
3.根据权利要求1的方法,其特征在于,上述关系寄存器(4)包括语言关系。
4.根据权利要求1的方法,其特征在于,上述关系寄存器(4)是分层构建的。
5.根据权利要求1的方法,其特征在于,集成上述主题词表(3)和关系寄存器(4),以形成所谓的本体主题词表(7)。
6.根据权利要求1的方法,其特征在于,为了检索被索引的文档,其包括下列操作步骤:
由用户从一个或几个上述主题词表(3)中引入一个或几个搜索词;选择其索引包括这些搜索词中一个或几个搜索词的文档(1);由用户从所述关系寄存器(4)中引入一个或几个关系;从上述已经被选择的文档(1)中选择其索引(2)包括上述关系的文档(1);并且将最后选择的文档(1)作为结果显示。
7.根据权利要求1的方法,其特征在于,为了检索被索引的文档,其包括下列操作步骤:
由用户从一个或几个上述关系寄存器(4)中引入一个或几个关系;选择其索引包括这些关系中一个或几个关系的文档(1);由用户从所述主题词表(3)中引入一个或几个搜索词;从上述已经被选择的文档(1)中选择其索引(2)包括上述搜索词的文档(1);并且将最后选择的文档(1)作为结果显示。
8.根据权利要求5的方法,其特征在于,为了检索被索引的文档,其包括:引入上述本体主题词表(7)中的一个或几个搜索词;选择其索引(2)分别包含上述搜索词的文档(1);并且显示所选择的这些文档(1)。
9.根据权利要求6、7或8的方法,其特征在于,在两个阶段中显示所发现的文档(1),其中在第一阶段中,给出所发现的不同文档(1)的概况,根据它们的相关性排列,以及在第二阶段中,在选择之后,可以表示各个文档(1)。
10.根据权利要求9的方法,其特征在于,在上述显示所发现的文档(1)的第一阶段和/或第二阶段中,使用指示在不同的文档(1)中出现哪些核心概念的颜色码,并且所述颜色码使得能够显示所述文档(1)的索引(2)中核心概念的隐含程度。
11.根据权利要求1的方法,其特征在于,为了索引和检索所述文档(1),使用计算机程序(5,8)。
12.一种用于索引和检索文档的计算机程序,其特征在于,其能够应用上述根据权利要求1至11其中一个或几个的方法。
13.一种数据载体,其特征在于,其具有根据权利要求12的计算机程序(5,8)。
CNB200510078916XA 2004-06-17 2005-06-16 用于索引和检索文档的方法、计算机程序及数据载体 Expired - Fee Related CN100498773C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
BE2004/0297A BE1016079A6 (nl) 2004-06-17 2004-06-17 Werkwijze voor het indexeren en terugvinden van documenten, computerprogramma daarbij toegepast en informatiedrager die is voorzien van het voornoemde computerprogramma.
BE2004/0297 2004-06-17

Publications (2)

Publication Number Publication Date
CN1710561A true CN1710561A (zh) 2005-12-21
CN100498773C CN100498773C (zh) 2009-06-10

Family

ID=34938262

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200510078916XA Expired - Fee Related CN100498773C (zh) 2004-06-17 2005-06-16 用于索引和检索文档的方法、计算机程序及数据载体

Country Status (4)

Country Link
US (1) US20050283491A1 (zh)
EP (1) EP1607885A3 (zh)
CN (1) CN100498773C (zh)
BE (1) BE1016079A6 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005203250A1 (en) * 2005-07-26 2007-02-15 Victoria Lesley Redfern Online contemporary and natural language core concept subject specific semantic thesaurus
US9710570B2 (en) 2014-07-14 2017-07-18 International Business Machines Corporation Computing the relevance of a document to concepts not specified in the document
US9703858B2 (en) 2014-07-14 2017-07-11 International Business Machines Corporation Inverted table for storing and querying conceptual indices
US9576023B2 (en) 2014-07-14 2017-02-21 International Business Machines Corporation User interface for summarizing the relevance of a document to a query
US10437869B2 (en) 2014-07-14 2019-10-08 International Business Machines Corporation Automatic new concept definition
US10503761B2 (en) 2014-07-14 2019-12-10 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
US10162882B2 (en) 2014-07-14 2018-12-25 Nternational Business Machines Corporation Automatically linking text to concepts in a knowledge base

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5056021A (en) * 1989-06-08 1991-10-08 Carolyn Ausborn Method and apparatus for abstracting concepts from natural language
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5940821A (en) * 1997-05-21 1999-08-17 Oracle Corporation Information presentation in a knowledge base search and retrieval system
BE1012981A3 (nl) * 1998-04-22 2001-07-03 Het Babbage Inst Voor Kennis E Werkwijze en systeem voor het weervinden van documenten via een elektronisch databestand.
US6594673B1 (en) * 1998-09-15 2003-07-15 Microsoft Corporation Visualizations for collaborative information
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
CN1102273C (zh) * 1999-08-06 2003-02-26 英业达集团(上海)电子技术有限公司 数据库检索方法及系统
US6477524B1 (en) * 1999-08-18 2002-11-05 Sharp Laboratories Of America, Incorporated Method for statistical text analysis
US6636853B1 (en) * 1999-08-30 2003-10-21 Morphism, Llc Method and apparatus for representing and navigating search results
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
AU2001288469A1 (en) * 2000-08-28 2002-03-13 Emotion, Inc. Method and apparatus for digital media management, retrieval, and collaboration
US20020147578A1 (en) * 2000-09-29 2002-10-10 Lingomotors, Inc. Method and system for query reformulation for searching of information
US6678677B2 (en) * 2000-12-19 2004-01-13 Xerox Corporation Apparatus and method for information retrieval using self-appending semantic lattice
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US7099885B2 (en) * 2001-05-25 2006-08-29 Unicorn Solutions Method and system for collaborative ontology modeling
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US20030093580A1 (en) * 2001-11-09 2003-05-15 Koninklijke Philips Electronics N.V. Method and system for information alerts
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7929951B2 (en) * 2001-12-20 2011-04-19 Stevens Lawrence A Systems and methods for storage of user information and for verifying user identity
US7225183B2 (en) * 2002-01-28 2007-05-29 Ipxl, Inc. Ontology-based information management system and method
GB0209563D0 (en) * 2002-04-26 2002-06-05 Univ Edinburgh Text processing method and system
US20040034665A1 (en) * 2002-06-17 2004-02-19 Kenneth Haase Extensible structured controlled vocabularies
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US20040064447A1 (en) * 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
AU2002368316A1 (en) * 2002-10-24 2004-06-07 Agency For Science, Technology And Research Method and system for discovering knowledge from text documents
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US20090132345A1 (en) * 2004-02-13 2009-05-21 Bahram Meyssami Method and system for determining relevant matches based on attributes
US20060020465A1 (en) * 2004-07-26 2006-01-26 Cousineau Leo E Ontology based system for data capture and knowledge representation
US7685118B2 (en) * 2004-08-12 2010-03-23 Iwint International Holdings Inc. Method using ontology and user query processing to solve inventor problems and user problems
US7401077B2 (en) * 2004-12-21 2008-07-15 Palo Alto Research Center Incorporated Systems and methods for using and constructing user-interest sensitive indicators of search results

Also Published As

Publication number Publication date
EP1607885A3 (en) 2007-01-31
BE1016079A6 (nl) 2006-02-07
US20050283491A1 (en) 2005-12-22
EP1607885A2 (en) 2005-12-21
CN100498773C (zh) 2009-06-10

Similar Documents

Publication Publication Date Title
CN109344230B (zh) 代码库文件生成、代码搜索、联结、优化以及移植方法
CN1710561A (zh) 用于索引和检索文档的方法、计算机程序及数据载体
US8565526B2 (en) Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text
US9020811B2 (en) Method and system for converting text files searchable text and for processing the searchable text
CN1581170A (zh) 用来比较两个计算机文件的方法及系统
KR20060043381A (ko) 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템
US8620944B2 (en) Systems and methods for keyword analyzer
CN1755696A (zh) 用于创建文档摘要的系统和方法
CN1362681A (zh) 信息检索处理装置和方法,记录信息检索程序的记录媒体
Penev et al. XML schemas and mark-up practices of taxonomic literature
JP2005025525A (ja) 情報検索システム、情報検索方法及び情報検索プログラム
US20090171945A1 (en) Method for searching data
Aula et al. Understanding Expert Search Strategies for Designing User-Friendly Search Interfaces.
Remsen et al. From text to structured data: Converting a word-processed floristic checklist into Darwin Core Archive format
Shi et al. An optimized full-text retrieval system based on lucene in oracle database
Strobel et al. Metadata for scientific audiovisual media: current practices and perspectives of the TIB| AV-Portal
King et al. Towards the bibliography of life
Belotti et al. Translation from narrative text to standard codes variables with Stata
CN1220971C (zh) 一种自然语言的组织和识别方法
CN1193309C (zh) 搜索引擎关键字的关联建立系统及方法
KR20000036758A (ko) 문서자료 검색 데이터베이스화 및 이를 이용한 문서자료검색 방법
Li et al. Study on efficiency of full-text retrieval based on lucene
CN113626642B (zh) 视频化脚本语义结构的组装方法、系统和电子装置
KR101142062B1 (ko) 멀티미디어 데이터의 문자 기반 메타데이터 검색을수행하는 데이터 베이스 장치 및 방법
Roy et al. Designing unicode-compliant Indic-script based institutional digital repository with special reference to Bengali

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090610

Termination date: 20110616