CN100399334C - 搜索结构化文档的设备和方法 - Google Patents

搜索结构化文档的设备和方法 Download PDF

Info

Publication number
CN100399334C
CN100399334C CNB2005101165695A CN200510116569A CN100399334C CN 100399334 C CN100399334 C CN 100399334C CN B2005101165695 A CNB2005101165695 A CN B2005101165695A CN 200510116569 A CN200510116569 A CN 200510116569A CN 100399334 C CN100399334 C CN 100399334C
Authority
CN
China
Prior art keywords
synonym
stay
place form
sign
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005101165695A
Other languages
English (en)
Other versions
CN1752980A (zh
Inventor
谷川均
幸田和久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN1752980A publication Critical patent/CN1752980A/zh
Application granted granted Critical
Publication of CN100399334C publication Critical patent/CN100399334C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

同义词搜索部件(131a)在同义词词典(14)中搜索指示了来自终端(30)的指定结构的第一信息中包括的标志所属的同义词组的同义词组标识符。基于搜索结果,指定结构的信息产生部件(131b)产生指定结构的第二信息,在所述的指定结构的第二信息中将在指定结构的第一信息中包括的标志替换为指示同义词组的各自的同义词组标识符。同义词结构模板搜索部件(131c)在同义词结构模板管理块(152)中搜索匹配指定结构的第二信息的同义词结构模板。获取部件(132a)从数据库(15)获得由对应于所检测的同义词结构模板的结构模板指示的结构化文档中的文档结构。

Description

搜索结构化文档的设备和方法
背景技术
本发明涉及一种使用标志的同义词在结构化文档中搜索包含于其中的文档结构的设备和方法。
可扩展标记语言(XML)广泛地用作描述数据的方法。使用XML写成的文档称作XML文档。XML文档通称为在使用标志的逻辑树结构中所表示的结构化文档。XML文档包含文档结构(逻辑结构)。在搜索这样的文档结构的文档搜索中,可能通过基于文档结构的搜索请求进行详细搜索。该搜索可以实现比关键字搜索更高精度的搜索,并仅仅提供用户想要使用的数据。此外,近年来已经提出了一种使用结构索引的在XML文档中高速搜索想要的结构部分的技术(现有技术)(例如参见日本专利申请KOKAI公开号2001 147933)。
假定这里的情况是被称为XPath模式的使用指定结构的信息同时搜索用不同的方式表示并且具有相同意义的多个标志,用于指定任意的文档结构。在这种情况下,必须使用运算符“|”或逻辑操作符“或”连接多个具有相同意义的表达式。因此,除非精确地确定作为搜索目标的全部标志的同义词并且将其包含在指定结构的信息中,否则就会发生搜索遗漏。此外,如果全部的同义词包含在指定结构的信息中,那么这个信息(XPath模式)就会变得很复杂。
发明内容
本发明的目的是无需用于连接标志的操作符而使用指定结构的信息启用全部标志作为要搜索的同义词。
按照本发明的实施例,提供一种用于响应于包含指定结构的第一信息并且由客户终端发布的搜索请求而在多个存储在数据库中的结构化文档中搜索结构文件中的对应指定结构的第一信息的文档结构的结构化文档搜索设备。指定结构的第一信息指定包括标志的任意文档结构。该结构化文档查找设备包括:用于存储多个结构模板作为与指定到该结构模板的标识符相关的标志结构的模板的结构模板存储装置,该结构模板对应于在数据库中存储的结构化文档中包括的文档结构;储存指示同义词组的同义词组标识符和属于该同义词组的标志的同义词词典,每个同义词组都是一组具有公共概念的标志;用于在同义词词典中搜索指出了包括在指定结构的第一信息中的标志所属的同义词组的同义词组标识符的搜索处理的同义词搜索装置;用于根据用于搜索处理的同义词搜索装置的搜索结果产生指定结构的第二信息的指定结构的信息产生装置,在所述的指定结构的第二信息中将在指定结构的第一信息中包括的标志替换为指出了标志所属的同义词组的各自的同义词组标识符;用于存储同义词结构模板的同义词结构模板存储装置,在所述的同义词结构模板中将保存在结构模板存储装置的结构模板中包括的所有标志替换为指出了全部标志所属的同义词组的同义词组标识符;用于在同义词结构模板存储装置中搜索对应于指定结构的第二信息的同义词结构模板的同义词结构模板搜索装置;以及用于从数据库获得通过同义词结构模板搜索装置搜索的结构模板所指出的结构化文档中的文档结构的获取装置。
附图说明
被并入和组成本说明书的一部分的附图说明了本发明的实施例,并连同以上给出的概述以及以下给出的实施例的详细说明共同用来解释本发明的原理。
图1是说明根据本发明实施例的结构化文档搜索系统的配置的框图;
图2A、2B、2C和2D是说明存储于图1中出现的数据库15中的四个XML文档41、42、43和44的示例的视图;
图3A和3B是说明包括在结构索引管理块151中并出现在图1中的结构模板管理块151a和结构记录区域151b的各自数据结构示例的视图,所述的数据结构示例对应于图2A至2D的XML文档41至44;
图4是说明用于产生同义词结构模板过程的程序流程图;
图5A和5B是对解释用于同义词结构模板产生过程的目标有用的视图;
图6是说明出现在图1中的同义词词典15的示例的视图;
图7是说明出现在图1中同义词结构模板管理块152的示例的视图;
图8是说明在实施例中执行的用于搜索标志的同义词的过程的程序流程图;以及
图9是说明在修改的实施例中执行的用于搜索所指定标志的同义词的过程的程序流程图。
具体实施方式
参考附图将描述本发明的实施例。图1是说明根据本实施例的结构化文档搜索系统的配置的结构框图。图1的结构化文档搜索系统包括结构化文档搜索设备10、网络20以及客户终端30。客户终端30经由网络20连接到结构化文档搜索设备10。图1中,为了简化该图,仅一个客户终端30经由网络20连接到结构化文档搜索设备10。然而通常是多个客户终端30经由网络20连接到结构化文档搜索设备10。
所述的结构化文档搜索设备10包括请求处理部件11、储存处理部件12、搜索处理部件13、同义词词典14以及数据库15。该同义词词典14以及数据库15存储在例如硬盘的计算机可读存储介质中。并不总要求用于存储同义词词典14的存储介质是可重写的,而要求用于存储数据库15的存储介质是可重写的。
所述的请求处理部件11用作结构化文档搜索设备10和客户终端30之间的接口处理部件。请求处理部件11从客户终端30接收指向数据库15的请求,例如搜索请求或存储请求。请求处理部件11确定所接收请求的类型,并按照确定结果将其提供给存储处理部件12或搜索处理部件13。在本实施例中将存储请求提供给存储处理部件12,并将搜索请求提供给搜索处理部件13。
存储处理部件12分析存储请求,并将所请求的结构化文档存储到数据库15中。存储处理部件12包括同义词处理部件121和文件输入/输出部件122。同义词处理部件121主要产生用于根据同义词词典14的同义词搜索的结构索引(同义词结构模板),后面会详细描述所述的同义词搜索。文件输入/输出部件122将由同义词处理部件121产生的结构索引(同义词结构模板)和由客户终端30请求的结构化文档(结构化文档数据)存储到数据库15中。这里假定结构化文档是XML文档。
同义词处理部件121包括:用于存储处理的同义词搜索部件121a、同义词结构模板产生部件121b、同义词结构模板添加部件121c和询问部件121d。当将对应在结构模板管理块151a中不存在的新的文档结构的结构模板添加到结构模板管理块151a时,运行同义词搜索部件121a,稍后描述所述的结构模板。同义词搜索部件121a在同义词词典14中搜索唯一地指定在所添加的结构模板中包括的全部标志所属的同义词组的同义词组ID。当将结构文档按照来自客户终端30的请求存储到数据库15中时,或当更新数据库15中的结构化文档时,执行结构模板的添加。
同义词结构模板产生部件121b产生同义词结构模板,在所述同义词结构模板中将在所添加结构模板中包括的全部标志替换为对应于这些标志的同义词组的同义词组ID,同义词组ID是由同义词搜索部件121a检测到的。该同义词结构模板添加部件121c向同义词结构模板管理块152添加由同义词结构模板产生部件121b产生的同义词结构模板。当同义词搜索部件121a已经检测到对于特定标志的多个同义词组ID时,询问部件121d询问客户终端30的用户应该选择由同义词组ID指示的哪个同义词组以处理该特定标志。
搜索处理部件13分析搜索请求并产生满足该搜索请求的搜索结果。搜索请求(XPath搜索请求)包括作为指定结构的信息(指定结构的第一信息)的XPath模式。该XPath模式包括一个或多个标志。搜索处理部件13包括同义词处理部件131和文件输入/输出部件132。该同义词处理部件131主要根据同义词词典14产生用于同义词搜索的搜索表达式,其在后面进行详细描述。文档输入/输出部件132基于由该同义词处理部件131产生的搜索表达式访问数据库15,从而获得搜索结果。该搜索结果被作为请求者传送到请求处理部件11然后传送到客户终端30。
该同义词处理部件131包括:用于搜索处理的同义词搜索部件131a、指定结构的信息产生部件131b、同义词结构模板搜索部件131c、询问部件131d和确定部件131e。同义词搜索部件131a在同义词词典14搜索唯一指定到由搜索请求指定的XPath模式中包括的全部标志所属的同义词组的同义词组ID。
该指定结构的信息产生部件131b产生XPath模式(指定结构的第二信息),在所述的XPath模式中,将在上述XPath模式中包括的全部标志(指定结构的第一信息)替换为对应这些标志的同义词组的同义词组ID,通过同义词搜索部件131a检测同义词组ID。该同义词结构模板搜索部件131c在同义词结构模板管理块152中搜索符合通过指定结构的信息产生部件131b产生的XPath模式(指定结构的第二信息)的同义词结构模板。当同义词搜索部件131a已经检测到多个对于特定标志的同义词组ID时,询问部件131d询问客户终端30的用户应该选择由同义词组ID指示的哪个同义词组以处理该特定的标志。当XPath模式(指定结构的第一信息)包含通过搜索请求指定作为用于同义词搜索的目标的标志时,该确定部件131e执行通过同义词结构模板搜索部件131c检索的同义词结构模板单元中的如下确定。即,该确定部件131e确定通过XPath模式所指定的文档结构除了用于同义词搜索的标志之外是否与包括在对应于每个同义词模板结构的结构模板中的相应文档结构相同。
文档输入/输出部件132包括获取部件132a。该获取部件132a从数据库15获得由对应于由同义词结构模板搜索部件131c检索的同义词结构模板的结构模板所指出的结构化文档中的文档结构。
通过计算机读取安装在其中并对应于部件12和13的特定程序并执行该已读取程序而实现结构化文档搜索设备10中的请求处理部件11、存储处理部件12和搜索处理部件13。这些程序可以被分发并存储在计算机可读的存储介质中、或可能经由网络下载(分发)。
现在给出用于同义词搜索的结构索引的描述。在该实施例中,使用结构索引用于由客户终端30产生的搜索请求。结构索引已知为用于在数据库(在该实施例中的数据库15)中高速搜索XML文档的技术。更准确地说,结构索引是一种将XML文档存储于数据库中用于提取关于文档的结构信息、将其结构信息转换为结构模板、并使用唯一指定到该模板的模板标识符(模板ID)将所述的模板与指出它在数据库中的实际位置的记录相关联的技术。为此,该数据库15存储结构索引文件。用于该实施例的结构索引文件由图1所示的结构索引管理块151和同义词结构模板管理块152构建。此外,如图1所示,该结构索引管理块151包括结构模板管理块151a和结构记录区域151b。后面将描述这些块。
图2A、2B、2C和2D分别示出四个XML文档41、42、43和44的示例。图3A和3B分别示出结构模板管理块151a和结构记录区域151b的数据结构的示例,所述的数据结构示例对应于图2A至2D的XML文档41至44。
如图3A所示,结构模板管理块151a是用于存储模板标识符(模板ID)和指出了模板ID指定到的XML文档的标志结构的模板的结构模板的列表的存储器(结构模板存储器)。如图3B所示,结构记录区域151b是用于存储模板ID和指出了具有数据库15中的模板ID的结构模板的位置的位置信息的列表的存储器(结构模板位置存储器)。位置信息包括页数信息和指出每个结构模板在对应页中的位置的信息。
“页”是XML文档在数据库15中的存储单元。在图3B的示例中,图2A中所示的XML文档41存储在第一页上,且图2B中所示的XML文档42存储在第二页上。此外,图2C中所示的XML文档43存储在第三页上,且图2D中所示的XML文档44存储在第四页上。在该实施例中,以始于开始模板的顺序将页上的位置指定给模板,XML文档的结构模板存储在所述位置。然而事实上,位置指定的顺序不局限于此。
在该实施例中,对于在其中指定了用例如“/金属/黄金”格式表示的标志结构的搜索,使用图3A所示的结构模板管理块151a和图3B所示的结构记录区域151b所构建的结构索引管理块151(结构索引)。使用该结构索引管理块151使指定了标志结构的搜索能够简单地通过扫描模板高速地执行,而无需访问实际数据。具体地,在该实施例中,使用结构索引实现使用标志的同义词的搜索。即,在该实施例中,使用执行同义词搜索所需的同义词结构模板实现使用标志同义词的搜索(XPath搜索)。基于在结构索引中包含的结构模板产生同义词结构模板。
通过将结构模板中包括的标志替换为同义词组ID获得同义词结构模板。该同义词结构模板和结构模板是1∶1的关系。为了产生同义词结构模板,同义词处理部件121的同义词结构模板产生部件121b使用同义词词典14用于将结构模板指出的标志结构中包括的标志替换为模板ID。结果,产生同义词结构模板,其中在标志结构中的所有标志被替换为对应标志的唯一指定到同义词组的同义词组标识符(同义词组ID)。如此产生的同义词结构模板与模板ID相关联。后面将描述同义词词典14、同义词组和同义词组ID的结构。
参考图4的流程图,现在给出通过同义词处理部件121的同义词结构模板产生部件121b产生同义词结构模板的过程的描述。首先,假定存储处理部件12的文件输入/输出部件122响应于来自客户终端30的请求,将XML文档存储在数据库15中或更新存储在数据库15中的XML文档(步骤S1)。在这种情况下,存储处理部件12的同义词处理部件121访问存储在数据库15中的结构模板管理块151a,从而确定还没有存储在结构模板管理块151a中的新的标志结构是否包含在通过文件输入/输出部件122存储或更新的XML文档中(步骤S2)。
如果没有包含新的标志结构,同义词处理部件121确定已经产生对应全部结构模板的同义词结构模板并结束该处理。相反,如果包含新的标志结构,则同义词处理部件121将关于该新标志结构的信息即结构模板添加到结构模板管理块151a(步骤S2a)。同义词处理部件121检测存在于所添加的结构模板中的标志(或多个标志)(步骤S3)。这个添加的结构模板是同义词结构模板产生处理的目标。
参考图5A和5B,将描述同义词结构模板产生处理的目标。图5A示出了用于同义词结构模板产生处理的第一结构模板示例。在这种情况下,假定关于新的标志结构的信息(结构模板)首次被存储在结构模板管理块151a中。在这种状态下,没有同义词结构模板被包含在同义词结构模板管理块152中,而且在结构模板管理块151a中的全部结构模板(就图5A来说,具有模板ID1至4的结构模板)被认为是同义词结构模板产生处理的目标。
图5B示出用于同义词结构模板产生处理的第二结构模板示例。在这种情况下,假定一些结构模板(就图5B而言,具有模板ID1至4的结构模板)已经存储在该结构模板管理块151a中。也假定将对应于已经存储在结构模板管理块151a中的结构模板的同义词结构模板添加到同义词结构模板管理块152。再假定在添加了同义词结构模板之后,将关于新结构的信息(就图5B来说,关于具有模板ID 5至8的结构模板的信息)添加到结构模板管理块151a。在这种状态下,所添加的结构模板(即具有模板ID5至8的结构模板)被认为是同义词结构模板产生处理的目标。
在检测存在于所添加的结构模板中的全部标志之后(步骤S3),同义词处理部件121用作同义词搜索部件121a。该同义词搜索部件121a检索所检测的标志之一(步骤S4),从而在同义词词典14中搜索包含所检索标志的同义词组(或多个组)的ID(或多个ID)(步骤S4)。该搜索被称作同义词搜索。
图6示出同义词词典14的示例。在图6的同义词词典14中,将具有共同概念的表达的列表管理为同义词组(概念组)。注意在该实施例中,通过同义词词典14管理的同义词更可能被认为是“共同概念的术语”而不是“具有相同含义的术语”。当然,可以使用在其中同义词被用作原始术语即“具有相同含义的术语”的同义词词典,并管理这样的同义词组。图6的同义词词典14包含同义词组名(概念组名)、同义词组ID以及对应于预置同义词组(概念组)的具体的同义词。包括在属于每个同义词组的同义词中的典型同义词被用作每个同义词组的同义词组名。每个组ID是唯一指定到相应同义词组的标识符。
如果基于所检索的标志从同义词搜索中获得单个同义词组ID,也就是如果该同义词组ID是唯一确定的(即,如果在步骤S5的回答是“N=1”),则同义词处理部件121用作同义词结构模板产生部件121b。同义词结构模板产生部件121b将所检索的标志转换为(替换成)所确定的同义词组ID(步骤S7)。
相反,如果基于所检索的标志从同义词搜索中获得多个同义词组ID(即,如果步骤S5的回答是“N>1”),则同义词处理部件121进行到步骤S6,在步骤S6其用作询问部件121d。询问部件121d使用请求处理部件11询问客户终端30的用户用于同义词搜索的标志属于通过获得的同义词组ID指示的同义词组中的哪一个。通过将获得的同义词组ID列表由请求处理部件11发送到客户终端30并将其显示在客户终端30上实现该询问。当用户选择(指定)同义词组ID之一时,同义词处理部件121再次用作该同义词结构模板产生部件121b。该同义词结构模板产生部件121b将用于同义词搜索的标志转换为(替换成)所选择的同义词组ID(步骤S7)。此外,如果在同义词词典14中没有检测到同义词组,并由此没有从同义词搜索中获得同义词组ID(即,如果步骤S5的回答是“N=0”),则同义词处理部件121按照原样保留用于同义词搜索的标志。
如果在步骤S3获得多个标志,则同义词处理部件121对每一标志执行步骤S4至S7的过程(步骤S8)。通过如此重复步骤S4至S7的过程,产生同义词结构模板,其中将包括在被添加到结构模板管理块151a的结构模板中的标志替换为唯一指定到对应所述标志的同义词组的同义词组ID。此后,同义词处理部件121用作同义词结构模板添加部件121c,并将包括同义词组ID并通过重复处理产生(获得)的全部同义词结构模板添加到同义词结构模板管理块152(步骤S9)。因此,同义词结构模板管理块152用作存储同义词结构模板的同义词结构模板存储器。如图5B所示,通过将结构模板中的标志替换为指定到所述标志所属的同义词组的同义词组ID而获得同义词结构模板。
图7示出了同义词结构模板管理块152的示例。在这个同义词结构模板管理块示例中,添加了由图3A的结构模板管理块151a中的结构模板产生的同义词结构模板。为了产生同义词结构模板,使用图6的同义词词典14。从图6的同义词词典14明显可见,图3A中的标志“黄金”属于两个同义词组,即“金钱”组(ID3)和“黄金”组(ID5)。因此,如果在同义词词典14执行关于标志“黄金”的同义词搜索,则获得两个同义词组ID(步骤S4)。在这种情况下,询问用户标志“黄金”应属于哪个组。在图7的示例中,假定该用户已经指定了标志“黄金”应属于“黄金”组(ID5)。此外,在图7的同义词结构模板管理块示例中,存在没有被组ID指定的标志“技术期刊”。这意味着同义词词典14没有存储标志“技术期刊”所属的同义词组,并由此在包括标志“技术期刊”的全部结构模板中,将标志“技术期刊”替换为无同义词组ID。
现在参考图8的流程图,将给出使用存储了根据图4的流程图产生的同义词结构模板的同义词结构模板管理块152而执行的用于搜索标志的同义词的过程的描述。首先,假定由客户终端30经由网络20向结构化文档搜索设备10产生XPath搜索请求,在所述的搜索请求中,标志的同义词也被认为是搜索目标。该搜索请求包括作为指定结构的信息的XPath模式。结构化文档搜索设备10的请求处理部件11接收来自客户终端30的搜索请求(步骤S11)。从请求处理部件11向搜索处理部件13传送该请求。搜索处理部件13的同义词处理部件131检测包括在搜索请求中的XPath模式中指定的全部标志(步骤S12)。此后,同义词处理部件131用作同义词搜索部件131a。同义词搜索部件131a检索所检测标志之一并在同义词词典14中搜索指定到所检测的标志所属的一个或多个同义词组的一个ID或多个ID(一个或多个同义词组ID)(步骤S13)。
如果在关于所检索标志(XPath模式中的标志)的同义词搜索中确定了单个同义词组ID(即如果步骤S14的回答是“N=1”),则同义词处理部件131用作指定结构的信息产生部件131b。为了产生指定结构的信息(即,为了产生用于同义词搜索的XPath模式),该指定结构的信息产生部件131b将由上述XPath模式(用于同义词搜索)检索到的标志转换为(替换成)同义词组ID(步骤S16)。
相反,如果在同义词搜索中获得多个同义词组ID(即,如果步骤S14的回答是“N>1”),则该同义词处理部件131进行到步骤S15,在这里其用作询问部件131d。询问部件131d使用请求处理部件11询问客户终端30的用户应该搜索通过获得的同义词组ID指示的同义词组中的哪一个。通过从请求处理部件11向客户终端30发送获得的同义词组ID列表并将其显示在客户终端30上而实现该查询。当用户选择(指定)一个同义词组ID时,同义词处理部件131再次用作同义词结构模板产生部件131b。该同义词结构模板产生部件131b将用于同义词搜索的标志转换为(替换成)所选择的同义词组ID(步骤S16)。此外,如果在同义词词典14中没有检测到同义词组,由此没有在同义词搜索中获得同义词组ID(即如果步骤S14的回答是“N=0”),则同义词处理部件131按照原样保留用于同义词搜索的标志。
如果在步骤S12获得多个标志,则同义词处理部件131对在步骤S12获得的全部标志中的每个执行步骤S13至S16的过程(步骤S17)。通过如此重复步骤S13至S16的过程,产生新的用于同义词搜索的XPath模式,在所述的XPath模式中将包括在来自客户终端30的搜索请求中的XPath模式的标志替换为同义词组ID。即,产生使用同义词组ID的搜索条件。然后,同义词处理部件131用作同义词结构模板搜索部件131c。基于新的XPath模式,也就是使用同义词组ID的搜索条件,同义词结构模板搜索部件131c在同义词结构模板管理块152中搜索相应的同义词结构模板(步骤S18)。如果通过搜索检测到匹配搜索条件的同义词结构模板,则文件输入/输出部件132用作获取部件132a。该获取部件132a使用与通过同义词结构模板搜索部件131c检测的同义词结构模板相关联的模板ID从数据库15获得实际资料(步骤S19)。获取部件132a使用与匹配搜索条件的同义词结构模板相关联的模板ID访问数据库15中的结构索引管理块151的结构记录区域151b(参见图3B),从而获得存储在结构记录区域151b并与模板ID相关联的信息(位置信息)。基于如此获得的位置信息(指示页码和相应页上的位置),获取部件132a访问数据库15中的实际数据。
将使用具体的示例描述上述关于标志的同义词的搜索过程。在这个示例中,假定由客户终端30向结构化文档搜索设备10产生执行基于包括在XPath模式“/书/黄金/标题”中的标志的同义词的XPath搜索的请求。此外,假定图6的同义词词典14和图7的同义词结构模板管理块152用于该搜索。
XPath模式“/书/黄金/标题”包括标志“书”、“黄金”和“标题”。首先,对图6所示的同义词词典14执行关于XPath模式“/书/黄金/标题”的每个标志的同义词搜索。然后,获得关于标志“书”的组“书”的ID(ID1)。类似地,获得关于标志“黄金”的组“金钱”和“黄金”的各自的ID(ID3和ID5)。此外,获得关于标志“标题”的组“标题”的ID (ID7)。从而获得了关于标志“黄金”的多个组ID。因此,询问用户标志“黄金”应该属于哪个组。这里假定用户已经为标志“黄金”指定了组“金钱”(ID3)。在这种情况下,包括在XPath模式“/书/黄金/标题”中的标志“书”、“黄金”和“标题”分别被替换为组“书”、“金钱”和“标题”的ID(ID1、ID3和ID7)。即,使用这些同义词组ID从XPath模式“/书/黄金/标题”中产生新的XPath模式“/ID1/ID3/ID7”。使用新的XPath模式和图7的同义词结构模板管理块152执行搜索能够确认具有模板ID:3的同义词结构模板匹配XPath模式“/书/黄金/标题”。文件输入/输出部件132的获取部件132a使用模板ID:3访问图3B所示的结构索引管理块151的结构记录区域151b。结果,获取部件132a获得对应模板ID:3的结构记录区域151b中的信息,即(页码=1,页1上的位置=3)和(页码=1,页1上的位置=5)。基于该信息,获取部件132a访问实际数据,从而获得如下包含在图2A的XML文档41中的两个数据项作为搜索结果:
<标题>有效的资产管理</标题>
<标题>说明!外汇汇率</标题>
这个搜索结果由请求处理部件11提供给客户终端30,并且显示在客户终端30上。注意,如果使用XPath模式“/书/黄金/标题”执行常规的搜索,则无法获得数据作为搜索结果。
如上所述,在该实施例中,通过使用同义词词典14,分别从结构模板管理块151a中的一个或多个结构模板和初始XPath模式(指定结构的第一信息)中产生一个或多个同义词结构模板以及新的XPath模式(指定结构的第二信息)。通过将包括在一个或多个结构模板和初始XPath模式(指定结构的第一信息)中的标志(标志名)替换为与其对应的同义词组ID产生一个或多个同义词结构模板以及新的XPath模式。使用包括了所产生的一个或多个同义词结构模板和所产生的新的XPath模式的同义词结构模板管理块152执行搜索。换句话说,搜索一个匹配新XPath模式(指定结构的第二信息)的同义词结构模板,也就是匹配唯一地指定到包括在初始XPath模式(指定结构的第一信息)中的标志所属的同义词组的一个同义词结构模板。结果,在该实施例中,能够执行使用了包括在初始XPath模式中的标志的同义词的XPath搜索而不必通过运算符连接这些标志。此外,即使在初始XPath模式中指定了存储在数据库15里的XML文档中不存在的标志名,也能够使用该标志名的同义词检测对应该标志名的文档结构。这样可以兼容文档中的标志名变化。此外,当结构模板或XPath模式包含属于多个同义词组的标志时,可以通过询问用户应该使用哪个同义词组而有效地获得缩减了命中数量的搜索结果。
<修改>
上述实施例中,假定XPath模式中的全部标志都用作使用标志同义词的XPath搜索的目标。将给出该实施例的修改的描述,其中,在XPath搜索期间,用户能够使用该标志的同义词指定任何他们想要搜索的标志。在这个修改中,假定数据库15存储了包括根据图4的流程图产生的同义词结构模板的图7的同义词结构模板管理块152。
参考图9的流程图,将给出使用图7的同义词结构模板管理块152搜索由用户指定的标志同义词的搜索过程的描述。首先,假定从客户终端30经由网络20向结构化文档搜索设备10产生XPath搜索的请求,在所述的XPath搜索中,标志的同义词也被认为是搜索目标。该XPath搜索请求包括用于设置标志作为XPath模式中的搜索条件的方法,所述标志的同义词也应该搜索。例如,假定仅将包括在XPath模式“/圣经/书/库”的标志“书”用于同义词搜索。在这种情况下,在XPath模式中设置消息,所述消息例如指出应该搜索该标志“书”的同义词的“/圣经/同义词(书)/库”。可选地,可以通过从客户终端30向结构化文档搜索设备10传送另一个参数而指定进行同义词搜索的标志。
结构化文档搜索设备10的请求处理部件11接收来自客户终端30的搜索请求(步骤S21)。从请求处理部件11向搜索处理部件13传送该请求。如上述的实施例,搜索处理部件13的同义词处理部件131将包括在来自请求处理部件11的搜索请求中的XPath模式中的全部标志转换为(替换成)同义词组ID(步骤S22)。按照图7所示流程图的步骤S12至S17的相同程序,由同义词搜索部件131a、指定结构的信息产生部件131b和询问部件131d实现步骤S22的过程。
在执行步骤S22之后,如实施例中所示,同义词处理部件131用作同义词结构模板搜索部件131c。同义词结构模板搜索部件131c基于其中将初始XPath模式(指定结构的第一信息)中的每个标志替换为相应的同义词组ID的新的搜索条件(指定结构的第二信息)在同义词结构模板管理块152中搜索相应的同义词结构模板(步骤S23)。在步骤S23,同义词结构模板搜索部件131c获得与匹配搜索条件的同义词结构模板相关联的模板ID。
然后,同义词处理部件131仅对由来自客户终端30的XPath搜索请求所指定的标志执行如下的同义词搜索过程。首先,同义词处理部件131检索通过同义词结构模板搜索部件131c在步骤S23获得的一个模板ID(步骤S24)。在步骤S24,同义词处理部件131从图3的结构索引管理块151中获得所检索的模板ID指向的结构模板。
在执行步骤S24以后,该同义词处理部件131用作确定部件131e。确定部件131e确定除了用于同义词搜索的包括在来自客户终端30的搜索请求所指定的搜索条件(即初始搜索条件)中的标志之外的文档结构(其不是同义词搜索目标)是否与在步骤S24获得的结构模板中的相应文档结构相同(步骤S25)。如果它们彼此相同(步骤S26),则确定部件131e确定结构模板匹配了搜索条件,并存储结构模板的ID(模板ID)(步骤S27)。相反,如果它们彼此不同,则确定部件131e确定结构模板不匹配搜索条件。如果所述的两个文档结构包含不同的标志,则确定它们是不同的。如果所述的两个文档结构是不同的,则不选择该结构模板。此后,如果确定剩余了任何未经处理的模板ID(步骤S28),则同义词处理部件131执行关于未处理模板ID的上述过程(步骤S24)。
因此,同义词处理部件131重复地执行始于步骤S24并关于在步骤S23获得的全部模板ID的步骤(步骤S28)。此后,同义词处理部件131使用所存储的所有模板ID获得来自数据库15的数据(步骤S29)。
将描述基于指定标志的同义词的搜索过程的示例。这里假定从客户终端30向结构化文档搜索设备10产生执行XPath搜索的请求,在所述的XPath搜索中,仅将包括在XPath模式“/杂志/金钱/标题”中的“标题”指定为同义词搜索的目标。也假定图6的同义词词典14和图7的同义词结构模板管理块152被用于搜索。再假定使用了用于将XPath模式中的任何标志直接设置为同义词搜索的目标的方法。在这种情况下,使用XPath模式“/杂志/金钱/同义词(标题)”而不是XPath模式“杂志/金钱/标题”。
XPath模式“/杂志/金钱/同义词(标题)”包括标志“杂志”、“金钱”和“标题”。首先,执行关于XPath模式“/杂志/金钱/同义词(标题)”的每个标志的同义词搜索。然后,获得关于标志“杂志”的组“杂志”的ID(ID2)。类似地,获得关于标志“金钱”的组“金钱”的ID(ID3)。此外,获得关于标志“标题”的组“标题”的ID(ID7)。在这种情况下,将包括在XPath模式“/杂志/金钱/同义词(标题)”中的标志“杂志”、“金钱”和“标题”分别替换为组“杂志”、“金钱”和“标题”的ID(ID2、ID3和ID7)。即,通过使用这些通过同义词搜索获得的同义词组ID,从XPath模式″杂志/金钱/同义词(标题)”中产生新的搜索条件“/ID2/ID3/ID7”。使用新的搜索条件“/ID2/ID3/ID7”执行如下搜索过程。
首先,使用搜索条件“/ID2/ID3/ID7”搜索图7的同义词结构模块管理块152以检测同义词结构模板。在这种情况下,搜索条件“/ID2/ID3/ID7”命中具有模板ID:7的同义词结构模板和具有模板ID:16的同义词结构模板。同义词处理部件131存储指示了模板ID:7和模板ID:16匹配搜索条件“/ID2/ID3/ID7”的信息。
随后,同义词处理部件131从图3A所示的结构模板管理块151a中获得具有模板ID:7的结构模板。具有模板ID:7的结构模板是“/期刊/货币/标题”。在这种情况下,同义词处理部件131确认包括在“/期刊/货币/标题”中的“期刊”和“货币”不匹配包括在初始XPath模式“/杂志/金钱/同义词(标题)”中的“杂志”和“金钱”,对于这种情况,不指定同义词搜索。因此,不选择具有模板ID:7的结构模板。
随后,同义词处理部件131从图3A所示的结构模板管理块151a中获得具有模板ID:16的结构模板。具有模板ID:16的结构模板是“/杂志/金钱/标题”。在这种情况下,同义词处理部件131确认具有模板ID:16的结构模板即“/杂志/金钱/标题”匹配了包括在初始XPath模式中而且没有指定为同义词搜索目标的标志“杂志”和“金钱”。
在这时候,文件输入/输出部件132的获取部件132a使用模板ID:16访问结构索引管理块151的结构记录区域151b(参见图3B),从而获得存储在结构记录区域151b且与模板ID:16相关联的信息(位置信息)。基于该位置信息,获取部件132a访问数据库15中的实际数据,从而获得包含在图2D的XML文档44中的如下数据项作为搜索结果:
<标题>股票方法</标题>
注意,如果使用XPath模式“/杂志/金钱/标题”执行常规的搜索,则不会获得数据作为搜索结果。因此,在所述的实施例的修改中,能够通过启用用户想要使用其同义词搜索的、将在XPath搜索期间指定的标志而实现比所述实施例更高效的搜索。
在所述实施例中,结构化文档搜索设备10结合同义词词典14和数据库15。然而,同义词词典14和数据库15可能与结构化文档搜索设备10分离,而设备10中的存储处理部件12和搜索处理部件13能够经由例如网络访问它们。在这种情况下,可由多个结构化文档搜索设备10使用同义词词典14和数据库15。
本领域技术人员将容易实现另外的优点和修改。因此,本发明在广义上并不局限于这里所示出和描述的具体细节和典型实施例。因此,不脱离所附权利要求及其等同物所定义的本发明的精神或范围可以做出多种修改。

Claims (10)

1.一种结构化文档搜索设备,用于响应包含指定结构的第一信息并由客户终端产生的搜索请求在存储于数据库中的多个结构化文档中搜索对应于指定结构的第一信息的结构化文档中的文档结构,所述的指定结构的第一信息指定了包括标志的任意文档结构,所述的结构化文档搜索设备的特征在于包括:
结构模板存储装置,用于存储关于指定到结构模板的标识符的作为标志结构模板的多个结构模板,所述的结构模板对应包括在存储在数据库中的结构化文档中的文档结构;
同义词词典存储装置,用于存储同义词词典,所述同义词词典存储指出同义词组的同义词组标识符和属于所述同义词组的标志,所述每个同义词组都是一组具有共同概念的标志;
第一同义词搜索装置,用于在同义词词典中搜索指明了在指定结构的第一信息中包括的标志所属的同义词组的同义词组标识符的搜索处理;
指定结构的信息产生装置,用于基于用于搜索处理的第一同义词搜索装置的搜索结果产生指定结构的第二信息,在所述的指定结构的第二信息中将包括在指定结构的第一信息中的标志替换为指明所述标志所属的同义词组的各自的同义词组标识符;
同义词结构模板存储装置,用于存储同义词结构模板,在所述的同义词结构模板中将存储在结构模板存储装置中的结构模板中包括的全部标志替换为指明所述全部标志所属的同义词组的同义词组标识符;
同义词结构模板搜索装置,用于在同义词结构模板存储装置中搜索对应指定结构的第二信息的同义词结构模板;和
获取装置,用于从数据库获得由同义词结构模板搜索装置搜索的结构模板所指示的结构化文档中的文档结构。
2.根据权利要求1的结构化文档搜索设备,其特征在于还包括询问装置,用于当用于搜索处理的第一同义词搜索装置检测到对于包括在指定结构的第一信息中的标志之一的多个同义词组标识符时询问客户终端的用户应该选择由对于所述标志的多个同义词组标识符所指示的同义词组中的哪个;
以及其中,所述的指定结构的信息产生装置将包括在指定结构的第一信息中的所述标志替换为指示了用户选择的同义词组的同义词组标识符,所述标志包括在对应于所检测的同义词组标识符的指定结构的第一信息中。
3.根据权利要求1的结构化文档搜索设备,其特征在于还包括:
第二同义词搜索装置,用于当同义词结构模板存储装置添加对应于在同义词结构模板存储装置中不存在的新的文档结构的结构模板时存储处理操作,第二同义词搜索装置在同义词词典中搜索指示了包括在所添加的结构模板中的全部标志所属的同义词组的同义词组标识符,当将结构化文档存储到数据库中或更新数据库中的结构化文档时,根据来自客户终端的请求执行所述的结构模板的添加;
同义词结构模板产生装置,用于产生同义词结构模板,在所述的同义词结构模板中,将所述的在所添加的结构模板中包括的全部标志替换为指示了对应于所述全部标志的同义词组的同义词组标识符,并通过用于存储处理的第二同义词搜索装置来检测所述标志;以及
同义词结构模板添加装置,用于将由同义词结构模板产生装置产生的同义词结构模板添加到同义词结构模板存储装置。
4.根据权利要求3的结构化文档搜索设备,其特征在于还包括询问装置,用于当用于搜索处理的第一同义词搜索装置检测到对于包括在所添加的结构模板中的所述全部标志之一的多个同义词组标识符时询问客户终端的用户应该选择由对于所述标志的多个同义词组标识符指示的同义词组中的哪个;
以及其中,所述的同义词结构模板产生装置将包括在所添加的结构模板中的所述标志替换为指示了由用户选择的同义词组的同义词组标识符,所述标志包括在对应于检测到的同义词组标识符的所添加的结构模板中。
5.根据权利要求1的结构化文档搜索设备,其特征在于还包括确定装置,当指定结构的第一信息包括由搜索请求指定作为用于同义词搜索的目标的标志时运行所述的确定装置,所述确定装置确定由指定结构的第一信息指定的文档结构除了用于同义词搜索的标志之外是否与包括在对应于由同义词结构模板搜索装置检测的同义词结构模板的每个结构模板中的相应文档结构相同,
以及其中,所述获取装置仅从数据库中获得由所述确定装置确定为相同的结构模板所指示的结构化文档中的文档结构。
6.一种搜索方法,其响应于包含指定结构的第一信息并由客户终端产生的搜索请求,在存储于数据库中的多个结构化文档中搜索对应于指定结构的第一信息的结构化文档中的文档结构,所述的指定结构的第一信息指示包括标志的任意文档结构,所述方法的特征在于包括:
在存储于同义词词典并指示同义词组的同义词组标识符中搜索指示了包括在指定结构的第一信息中的标志所属的同义词组的同义词组标识符,所述的同义词词典存储唯一指定到包含标志同义词的同义词组的同义词组标识符,并存储属于所述同义词组的标志;
基于所述搜索步骤的搜索结果产生指定结构的第二信息,在所述的指定结构的第二信息中将包括在指定结构的第一信息中的标志替换为指示了指定结构的第一信息的标志所属的同义词组的各自的同义词组标识符;
在同义词结构模板存储装置中搜索对应于指定结构的第二信息的同义词结构模板,所述的同义词结构模板存储装置存储同义词结构模板,在所述的同义词结构模板中将包括在结构模板中作为标志结构的模板的全部标志替换为指示了所述的包括在结构模板中的全部标志所属的同义词组的同义词组标识符,结构模板存储在结构模板存储装置中并与指定到结构模板的标识符的结构模板有关,所述的结构模板对应于包括在存储于数据库中的结构化文档的文档结构;以及
从数据库获得通过对应于搜索到的同义词结构模板的结构模板所指示的结构化文档中的文档结构。
7.根据权利要求6的方法,其特征在于还包括当检测到对于包括在指定结构的第一信息中的标志之一的多个同义词组标识符时使客户终端的用户选择由对于所述标志的多个同义词组标识符所指示的同义词组中的一个;
以及其中,在所述的产生指定结构的第二信息的步骤中,将所述的包括在指定结构的第一信息并对应于检测到的同义词组标识符的标志替换为指示了由用户选择的同义词组的同义词组标识符。
8.根据权利要求6的方法,其特征在于还包括:
当响应于来自客户终端的请求将结构化文档存储到数据库中或更新数据库中的结构化文档时,确定所存储或更新的结构化文档是否包括没有保存在结构模板存储装置中的新的标志结构;
当所存储或更新的结构化文档包括新的标志结构时,将对应于新的标志结构的结构模板添加到结构模板存储装置中;
在同义词词典中搜索指示了包括在所添加的结构模板中的全部标志所属的同义词组的同义词组标识符;
产生同义词结构模板,在所述的同义词结构模板中将所述的包括在所添加的结构模板中的全部标志替换为指示了检测到的对应于所述标志的同义词组的同义词组标识符;以及
将产生的同义词结构模板添加到同义词结构模板存储装置。
9.根据权利要求8的方法,其特征在于还包括,当执行搜索关于所述的包括在所添加的结构模板中的全部标志的同义词组标识符以及检测到对于所述全部标志之一的多个同义词组标识符时,使客户终端的用户选择由多个同义词组标识符指示的同义词组中的一个,以处理包括在所添加的结构模板中的全部标志之一,
以及其中,在所述的产生同义词结构模板的步骤中,将所述的包括在所添加的结构模板中的全部标志之一替换为指示了由用户选择的同义词组的同义词组标识符。
10.根据权利要求6的方法,其特征在于还包括,当指定结构的第一信息包括由搜索请求指定作为用于同义词搜索的目标的标志时确定包括在指定结构的第一信息中的文档结构除了所指定标志之外是否与包括在对应于在同义词结构模板存储装置中检测到的同义词结构模板的每个结构模板中的相应文档结构相同,
以及其中,在所述获取步骤中,仅从数据库获得在由通过所述确定步骤确定为相同的结构模板所指示的结构化文档中的文档结构。
CNB2005101165695A 2004-09-24 2005-09-23 搜索结构化文档的设备和方法 Expired - Fee Related CN100399334C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004277888A JP4189369B2 (ja) 2004-09-24 2004-09-24 構造化文書検索装置及び構造化文書検索方法
JP277888/2004 2004-09-24

Publications (2)

Publication Number Publication Date
CN1752980A CN1752980A (zh) 2006-03-29
CN100399334C true CN100399334C (zh) 2008-07-02

Family

ID=36100437

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101165695A Expired - Fee Related CN100399334C (zh) 2004-09-24 2005-09-23 搜索结构化文档的设备和方法

Country Status (3)

Country Link
US (1) US7523104B2 (zh)
JP (1) JP4189369B2 (zh)
CN (1) CN100399334C (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865519B2 (en) * 2004-11-17 2011-01-04 Sap Aktiengesellschaft Using a controlled vocabulary library to generate business data component names
US7600186B2 (en) * 2005-10-07 2009-10-06 Oracle International Corporation Generating a synonym dictionary representing a mapping of elements in different data models
US7856597B2 (en) * 2006-06-01 2010-12-21 Sap Ag Adding tag name to collection
US20080033967A1 (en) * 2006-07-18 2008-02-07 Ravi Murthy Semantic aware processing of XML documents
US7788254B2 (en) * 2007-05-04 2010-08-31 Microsoft Corporation Web page analysis using multiple graphs
US7917840B2 (en) * 2007-06-05 2011-03-29 Aol Inc. Dynamic aggregation and display of contextually relevant content
JP4550876B2 (ja) * 2007-10-01 2010-09-22 株式会社東芝 構造化文書検索システム及びプログラム
GB2458309A (en) * 2008-03-13 2009-09-16 Business Partners Ltd Search engine
JP4843656B2 (ja) * 2008-09-29 2011-12-21 株式会社東芝 構造化データ検索プログラム及び構造化データ検索装置
US8150676B1 (en) * 2008-11-25 2012-04-03 Yseop Sa Methods and apparatus for processing grammatical tags in a template to generate text
US9218418B2 (en) * 2009-06-15 2015-12-22 Nec Corporation Search expression generation system
US9418150B2 (en) * 2011-01-11 2016-08-16 Intelligent Medical Objects, Inc. System and process for concept tagging and content retrieval
US8879112B2 (en) * 2012-09-28 2014-11-04 Interactive Memories, Inc. Method for optimizing printing quality for image-laden PDF files at lower file sizes
CN103235784A (zh) * 2013-03-28 2013-08-07 百度在线网络技术(北京)有限公司 一种用于获取搜索结果的方法与设备
US11488690B2 (en) 2014-02-21 2022-11-01 Intelligent Medical Objects, Inc. System and method for problem list reconciliation in an electronic medical record
US11521717B2 (en) 2014-02-21 2022-12-06 Intelligent Medical Objects, Inc. System and method for generating and updating a user interface to evaluate an electronic medical record
US10909176B1 (en) 2014-10-28 2021-02-02 Intelligent Medical Objects, Inc. System and method for facilitating migration between electronic terminologies
US10885148B2 (en) 2015-03-24 2021-01-05 Intelligent Medical Objects, Inc. System and method for medical classification code modeling
US10878010B2 (en) 2015-10-19 2020-12-29 Intelligent Medical Objects, Inc. System and method for clinical trial candidate matching
CN105740358B (zh) * 2016-01-26 2019-04-19 华为技术有限公司 一种冲突检验方法以及计算机系统
US11915803B2 (en) 2016-10-28 2024-02-27 Intelligent Medical Objects, Inc. Method and system for extracting data from a plurality of electronic data stores of patient data to provide provider and patient data similarity scoring
JP6938228B2 (ja) * 2017-05-31 2021-09-22 株式会社日立製作所 計算機、文書識別方法、及びシステム
CN110191450B (zh) * 2019-04-02 2021-02-26 华为技术有限公司 业务连接建立方法、蓝牙主设备、芯片及蓝牙系统
JP7457531B2 (ja) * 2020-02-28 2024-03-28 株式会社Screenホールディングス 類似度算出装置、類似度算出プログラム、および、類似度算出方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207761A (ja) * 2001-01-10 2002-07-26 Just Syst Corp 検索装置、検索方法、プログラム、ならびに、記録媒体
WO2003012679A1 (en) * 2001-07-26 2003-02-13 International Business Machines Corporation Data processing method, data processing system, and program
JP2003216634A (ja) * 2002-01-28 2003-07-31 Ricoh Techno Systems Co Ltd 情報検索システム
WO2004053735A1 (ja) * 2002-12-12 2004-06-24 Honda Motor Co., Ltd. 情報処理装置および情報処理方法、並びに情報処理プログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5740425A (en) * 1995-09-26 1998-04-14 Povilus; David S. Data structure and method for publishing electronic and printed product catalogs
US5819260A (en) * 1996-01-22 1998-10-06 Lexis-Nexis Phrase recognition method and apparatus
JP3696731B2 (ja) * 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3715444B2 (ja) * 1998-06-30 2005-11-09 株式会社東芝 構造化文書保存方法及び構造化文書保存装置
JP3754253B2 (ja) * 1999-11-19 2006-03-08 株式会社東芝 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム
AU2001281111A1 (en) * 2000-08-04 2002-02-18 Infoglide Corporation System and method for comparing heterogeneous data sources
US6804662B1 (en) * 2000-10-27 2004-10-12 Plumtree Software, Inc. Method and apparatus for query and analysis
US7290061B2 (en) * 2000-12-05 2007-10-30 Citrix Systems, Inc. System and method for internet content collaboration
US6804677B2 (en) * 2001-02-26 2004-10-12 Ori Software Development Ltd. Encoding semi-structured data for efficient search and browsing
JP3842577B2 (ja) * 2001-03-30 2006-11-08 株式会社東芝 構造化文書検索方法および構造化文書検索装置およびプログラム
US20050108200A1 (en) * 2001-07-04 2005-05-19 Frank Meik Category based, extensible and interactive system for document retrieval
US7120869B2 (en) * 2001-08-16 2006-10-10 Sun Microsystems, Inc. Enhanced mechanism for automatically generating a transformation document
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US20050154690A1 (en) * 2002-02-04 2005-07-14 Celestar Lexico-Sciences, Inc Document knowledge management apparatus and method
US20040064447A1 (en) * 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
US20040098380A1 (en) * 2002-11-19 2004-05-20 Dentel Stephen D. Method, system and apparatus for providing a search system
US20040123233A1 (en) * 2002-12-23 2004-06-24 Cleary Daniel Joseph System and method for automatic tagging of ducuments
JP2004295674A (ja) * 2003-03-27 2004-10-21 Fujitsu Ltd Xml文書解析方法、xml文書検索方法、xml文書解析プログラム、xml文書検索プログラムおよびxml文書検索装置
TWI290687B (en) * 2003-09-19 2007-12-01 Hon Hai Prec Ind Co Ltd System and method for search information based on classifications of synonymous words
US20050289182A1 (en) * 2004-06-15 2005-12-29 Sand Hill Systems Inc. Document management system with enhanced intelligent document recognition capabilities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207761A (ja) * 2001-01-10 2002-07-26 Just Syst Corp 検索装置、検索方法、プログラム、ならびに、記録媒体
WO2003012679A1 (en) * 2001-07-26 2003-02-13 International Business Machines Corporation Data processing method, data processing system, and program
JP2003216634A (ja) * 2002-01-28 2003-07-31 Ricoh Techno Systems Co Ltd 情報検索システム
WO2004053735A1 (ja) * 2002-12-12 2004-06-24 Honda Motor Co., Ltd. 情報処理装置および情報処理方法、並びに情報処理プログラム

Also Published As

Publication number Publication date
JP2006092316A (ja) 2006-04-06
CN1752980A (zh) 2006-03-29
US20060069677A1 (en) 2006-03-30
JP4189369B2 (ja) 2008-12-03
US7523104B2 (en) 2009-04-21

Similar Documents

Publication Publication Date Title
CN100399334C (zh) 搜索结构化文档的设备和方法
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
US8630972B2 (en) Providing context for web articles
KR101298334B1 (ko) 검색 결과에 컬렉션 아이템을 포함시키기 위한 기술
CN101201843B (zh) 用于搜索的方法和计算机系统
US7502810B2 (en) Tagging of facet elements in a facet tree
US20070162546A1 (en) Sharing tags among individual user media libraries
US20180004850A1 (en) Method for inputting and processing feature word of file content
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US20090248674A1 (en) Search keyword improvement apparatus, server and method
CN101490675A (zh) 用于重用数据访问和呈现元素的方法和装置
CN101136018A (zh) 为检索对多个文档进行预处理及呈现检索结果的方法和装置
WO1997045800A1 (en) Querying heterogeneous data sources distributed over a network using context interchange and data extraction
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN106484815B (zh) 一种基于海量数据类sql检索场景的自动识别优化方法
US8645315B2 (en) Bookmark extracting apparatus, method and computer program
JP5221664B2 (ja) 情報マップ管理システムおよび情報マップ管理方法
US20220147575A1 (en) Digital data processing systems and methods for digital content retrieval and generation
US20080065682A1 (en) Search index generation apparatus
CN112307318A (zh) 一种内容发布方法、系统及装置
US20050138028A1 (en) Processing, browsing and searching an electronic document
JP2007004240A (ja) 情報処理装置、情報処理システム、およびプログラム
KR100501079B1 (ko) 네트워크 기반의 유사어 검색기술 응용시스템 및 방법
JPH11143885A (ja) 情報検索方法及び装置及び情報検索プログラムを格納した記憶媒体及び情報発信方法及び装置及び情報発信プログラムを格納した記憶媒体
CN115328945A (zh) 数据资产的检索方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080702