CN1914613A - 数据库构筑装置、数据库检索装置、数据库装置、数据库构筑方法、以及数据库检索方法 - Google Patents

数据库构筑装置、数据库检索装置、数据库装置、数据库构筑方法、以及数据库检索方法 Download PDF

Info

Publication number
CN1914613A
CN1914613A CN 200580003630 CN200580003630A CN1914613A CN 1914613 A CN1914613 A CN 1914613A CN 200580003630 CN200580003630 CN 200580003630 CN 200580003630 A CN200580003630 A CN 200580003630A CN 1914613 A CN1914613 A CN 1914613A
Authority
CN
China
Prior art keywords
ancestors
information
pathname
masurium
occurs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200580003630
Other languages
English (en)
Inventor
稻叶光昭
菅野佑司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1914613A publication Critical patent/CN1914613A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据库装置,包括:元素出现信息存储部,其以元素名ID为关键字,存储元素的出现信息;祖先路径出现信息存储部,其以元素的祖先路径名ID为关键字,存储元素的出现信息;属性出现信息存储部,其以属性名ID为关键字,存储属性的出现信息;以及文本出现信息存储部,其以部分字符串为关键字,存储与元素实体的文本字符串和元素具有的属性的属性值相关的出现信息。由此,本发明的数据库装置仅通过构造条件就可检索在各种检索条件下的结构化文档,并可以对属性值进行字符串检索。

Description

数据库构筑装置、数据库检索装置、数据库装置、数据库构筑方法、以及数 据库检索方法
技术领域
本发明涉及管理XML等具有逻辑结构的结构化文档的数据库装置,尤其涉及贮存并管理大量结构化文档的数据库构筑装置以及高效地检索贮存在其中的结构化文档的数据库检索装置。
背景技术
特开2002-202973号公报公开了一种结构化文档管理装置,其基于逻辑结构对结构化文档进行登记、指定逻辑结构来进行全文检索。
图33是现有的结构化文档管理装置的结构图。结构化文档输入部2402输入登记对象的结构化文档。结构解析部2407将所输入的结构化文档解析为树结构。在搜索引擎2405内,结构信息生成部2408分配名称ID给各元素的标签名(元素名),并存储在数据存储部2406内的名称ID表存储部2418中。此外,对各元素的路径名、即从最高层次开始按顺序排列标签名来描述的字符串,分配路径名称ID,并存储在路径名称索引存储部2416中。对各元素的路径层次、即以路径名称的各阶层出现顺序描述的字符串,分配路径阶层ID,并存储在路径阶层索引存储部2417中。另外,路径名称的各阶层的出现顺序,表示在具有相同父元素的相同标签名的元素中是第几个出现的元素。在具有实体(文本)的元素(以下记载为“元素实体”)的情形下,对各元素实体分配唯一表示检索单位的代码(以下记载为“检索单位标识符”),并存储在元素管理表存储部2415中。图34是表示现有的结构化文档管理装置中的元素管理表的例子的图。在图34中,元素管理表2501由文档号2503、路径名称ID 2504、路径阶层ID 2505、名称ID 2506的组构成,并将检索单位标识符2502作为关键字。
接下来,字符串索引生成部2409,对作为各元素实体的内容的字符串,提取预定字符数的字符链。然后,字符串索引生成部2409,将相应于该字符链的检索单位标识符和表示该字符链的第一个字符是元素内容中的第几个字符的序号(以下记载为“字符位置序号”)存储在字符串索引存储部2419中。图35A表示结构化文档的例子。此外,图35B是表示现有的结构化文档管理装置中的字符串索引的例子的图。在图35B中,字符串索引2602的记录2606表示“在检索单位标识符2604为‘1’的元素的字符串中,‘構造’字符链2603存在于字符位置序号2605为‘1’的位置,即从元素开始第‘1’个字符的位置”。
接下来,对使用这样存储的数据的检索的概要进行说明。用图36A~36C,说明现有的结构化文档管理装置中检索处理的动作。图36A是表示检索条件的设定例的图。在图36A中,指定了结构的检索条件2701表示“在路径名称是‘/論文/書誌/タイトル’的元素中包含字符串‘構造化’的文本”。检索条件解析部2410参照路径名称索引存储部2416,将检索条件的路径名称变换成路径名称ID“N2”(2702)。接下来,字符串索引检索部2411从“構造化”中提取两个字符链“構造”和“造化”。而且,参照字符串索引,求连续出现“構造”和“造化”、且检索单位标识符是同一条目的检索单位标识符(2703)。这里说明了作为字符串索引检索结果群,如图36C所示求得了检索单位标识符“1”和“8”的情况。
接下来,结构校勘部2412求取满足检索条件2702、2703的指定结构的检索结果。这里,结构校勘部2412将作为字符串索引检索结果群得到的检索单位标识符作为关键字,检索图36B所示的元素管理表2501。然后,将路径名称ID与“N2”一致的条目确定为检索结果。在图36C中表示检索结果。若在检索条件是指定了标签名的条件时,结构校勘部2412将元素管理表的名称ID与指定标签名的名称ID一致的条目作为检索结果。此外,在检索条件是指定了路径名称和路径阶层的情形下,结构校勘部2412将元素管理表的路径名称ID与指定的路径名称的路径名称ID一致、且路径阶层ID与指定的路径阶层的路径阶层ID一致的条目作为检索结果。
另外,特开2004-310607号公报公开了一种文档管理装置,其生成将包含在结构化文档中的元素与阶层结构上的位置相联系的索引。即使是直至阶层构造上的位置的探索路径相同的元素、即对于一个父节点存在多个子节点这样的结构的元素,该文档管理装置也可以识别并管理多个元素的每一个。
上述现有的结构化文档管理装置首先参照字符串索引,求得指定的字符串出现的检索单位标识符,然后,参照元素管理表判定检索单位标识符是否满足指定的结构条件。因此,进行文档检索时需要指定字符串检索条件,而无法进行仅指定了结构条件的检索。即,为了仅指定结构条件而进行检索,要检索元素管理表全体来判定关于全部检索单位标识符是否满足结构条件。因此,存在效率非常差的问题。
另外,贮存结构化文档数据时,进行将逻辑结构数据付加在用于全文检索的检索索引数据上的数据构造。因此,对于仅指定了结构条件的检索,不能构筑可高效率检索的结构的检索用数据。
此外,由于只对元素实体的内容字符串生成字符串索引,所以对于元素的属性值不能进行字符串检索。
发明内容
本发明的数据库构筑装置具有:输入文档解析部,其向结构化文档分配唯一的文档序号且解析结构;元素名登记部,其根据输入文档解析部的解析结果,对出现在结构化文档中的各元素名分配唯一的元素名ID并登记在元素名词典中;祖先路径名登记部,其根据输入文档解析部的解析结果,对出现在结构化文档中的各祖先路径名分配唯一的祖先路径名ID且登记在祖先路径名词典中;以及出现信息登记部,其根据输入文档解析部的解析结果,以元素名ID作为关键字登记至少包含目标元素(element of interest)出现的文档序号、字符位置、祖先路径名ID、分支顺序(order of branches)的信息的元素出现信息到元素出现信息存储部,并将祖先路径名ID作为关键字登记至少包含文档序号、字符位置、元素名ID、分支顺序的信息的祖先路径出现信息到祖先路径出现信息存储部。
在该数据库构筑装置中,在登记贮存结构化文档时,根据元素的出现信息生成适当的出现信息索引。因此,不仅在字符串检索条件与结构条件都被指定的情形下、而且即使对于仅指定结构条件而没有伴随字符串检索条件的各种检索条件,本发明的数据库构筑装置也可以构筑能够高效率地检索所要文档的结构的检索用数据。
附图说明
图1是表示本发明的实施方式1的数据库装置的构成的方框图。
图2是表示本发明的实施方式1的文本登记处理的步骤的流程图。
图3是表示成为本发明的实施方式1的登记检索对象的结构化文档的例子的图。
图4是表示解析本发明的实施方式1中的结构化文档的逻辑结构的结果的例子的图。
图5是说明本发明的实施方式1的祖先路径名的图。
图6是表示本发明的实施方式1的元素名词典的内容的例子的图。
图7是表示本发明的实施方式1的祖先路径名词典的内容的例子的图。
图8是表示本发明的实施方式1的属性名词典的内容的例子的图。
图9是说明本发明的实施方式1中的字符位置的图。
图10A是说明本发明的实施方式1中的元素出现信息的图。
图10B是说明本发明的实施方式1中的元素出现信息的图。
图11是说明在本发明的实施方式1中的祖先路径出现信息的图。
图12A是说明在本发明的实施方式1中的属性出现信息的图。
图12B是说明在本发明的实施方式1中的属性出现信息的图。
图13是说明本发明的实施方式1中文本出现信息的图。
图14是表示本发明实施方式1的检索式的例子的图。
图15是表示本发明实施方式1的数据库装置的检索处理的步骤的流程图。
图16A是说明本发明实施方式1的检索条件的例子的图。
图16B是说明本发明实施方式1的数据库装置的检索动作的图。
图16C是说明本发明实施方式1的检索结果的图。
图17A是说明本发明实施方式1的检索条件的例子的图。
图17B是说明本发明实施方式1的数据库装置的检索动作的图。
图17C是说明本发明实施方式1的检索结果的图。
图18A是说明本发明实施方式1的检索条件的例子的图。
图18B是说明本发明实施方式1的数据库装置的检索动作的图。
图18C是说明本发明实施方式1的检索结果的图。
图19A是说明本发明实施方式1的检索条件的例子的图。
图19B是说明本发明实施方式1的数据库装置的检索动作的图。
图19C是说明本发明实施方式1的检索结果的图。
图20A是说明本发明实施方式1的检索条件的例子的图。
图20B是说明本发明实施方式1的数据库装置的检索动作的图。
图20C是说明本发明实施方式1的检索结果的图。
图21A是说明本发明实施方式1的检索条件的例子的图。
图21B是说明本发明实施方式1的数据库装置的检索动作的图。
图21C是说明本发明实施方式1的检索结果的图。
图22A是说明本发明实施方式1的检索条件的例子的图。
图22B是说明本发明实施方式1的数据库装置的检索动作的图。
图22C是说明本发明实施方式1的检索结果的图。
图23A是说明本发明实施方式1的检索条件的例子的图。
图23B是说明本发明实施方式1的数据库装置的检索动作的图。
图23C是说明本发明实施方式1的检索结果的图。
图24是用于说明本发明的实施方式2的空元素顺序的图。
图25A是说明本发明实施方式2的部分祖先路径名的图。
图25B是表示本发明实施方式2的祖先路径名词典的内容的图。
图25C是说明本发明实施方式2的祖先路径名ID列的图。
图26是说明本发明实施方式2的元素出现信息的图。
图27是说明本发明实施方式2的祖先路径出现信息的图。
图28是表示本发明的实施方式2的检索式的例子的图。
图29A是说明本发明实施方式2的检索动作的图。
图29B是说明本发明实施方式2的检索结果的图。
图30是表示本发明的实施方式3的数据库装置的构成的方框图。
图31是表示本发明的实施方式3的数据库装置的文档登记处理的步骤的流程图。
图32是说明本发明的实施方式3的分组化的元素出现信息的图。
图33是现有的结构化文档管理装置的结构图。
图34是表示现有的结构化文档管理装置中的元素管理表的例子的图。
图35A是表示用现有的结构化文档管理装置处理的结构化文档的例子的图。
图35B是表示现有的结构化文档管理装置中的字符串索引的例子的图。
图36A是说明现有的结构化文档管理装置中的检索条件的例子的图。
图36B是说明现有的结构化文档管理装置中的检索动作的图。
图36C是说明现有的结构化文档管理装置中的检索结果的图。
附图标记说明
101结构化文档群
102输入文档解析部
103元素名登记部
104祖先路径名登记部
105属性名登记部
106出现信息登记部
107元素名词典
108祖先路径名词典
109属性名词典
110出现位置索引
111元素出现信息存储部
112祖先路径出现信息存储部
113属性出现信息存储部
114文本出现信息存储部
115检索式
116检索条件输入部
117检索条件解析部
118出现信息取得部
119检索结果输出部
120检索结果
2101,2102,2103,2104,2105,2106,2107,3201检索式
3401出现信息分组部
具体实施方式
(实施方式1)
图1是表示本发明的实施方式1的数据库装置的构成的方框图。在图1中,本实施方式的数据库装置具备:输入文档解析部102,其输入在数据库登记的结构化文档群101,对于所输入的结构化文档群101的各文档分配唯一的文档序号且解析逻辑结构;元素名登记部103,其根据输入文档解析部102的解析结果,对出现在文档中的元素名分配唯一的标识符(以下记载为“元素名ID”)且登记在元素名词典107中;祖先路径名登记部104,其根据输入文档解析部102的解析结果,对出现在文档中的祖先路径名(将目标元素的祖先元素(ancestral element)的元素名从最高层开始依次用斜线号标记区分排列的字符串,不包含目标元素本身的元素名)分配唯一的标识符(以下记载为“祖先路径名ID”)且登记在祖先路径名词典108中;属性名登记部105,其根据输入文档解析部102的解析结果,对于出现在文档中的属性名,分配唯一的标识符(以下记载为“属性名ID”)且登记在属性名词典109中;出现信息登记部106,其根据输入文档解析部102的解析结果,将4种出现信息登记在出现位置索引110的元素出现信息存储部111、祖先路径出现信息存储部112、属性出现信息存储部113、文本出现信息存储部114中。而且数据库装置具有:记录上述元素名ID和与其对应的元素名的元素名词典107、记录祖先路径名ID及与其对应的祖先路径名的祖先路径名词典108、记录属性名ID及与其对应的属性名的属性名词典109、分别存储4种出现信息的出现位置索引110。该出现位置索引110具有元素出现信息存储部111、祖先路径出现信息存储部112、属性出现信息存储部113、文本出现信息存储部114。元素出现信息存储部111将元素名ID作为关键字,存储各元素出现的文档序号、字符位置、字符数、祖先路径名ID、分支顺序的信息;祖先路径出现信息存储部112将各元素的祖先路径名ID作为关键字,存储这些元素出现的文档序号、字符位置、字符数、元素名ID、分支顺序的信息;属性出现信息存储部113将属性名ID作为关键字,存储各属性出现的文档序号、字符位置、字符数、元素名ID、祖先路径名ID、分支顺序的信息;关于从元素内的文本提取出的部分字符串及从元素具有的属性的值提取出的部分字符串,文本出现信息存储部114将部分字符串作为关键字,存储出现的文档序号、字符位置、字符、祖先路径名ID、元素名ID、属性名ID、分支顺序的信息。另外,数据库装置具有:接受检索式115的检索条件输入部116;检索条件解析部117,其解析给与检索条件输入部116的检索式、并将检索式转换成内部条件且输出给出现信息取得部118;出现信息取得部118,其根据检索条件解析部117输出的内部条件,从存储在出现位置索引110中的4种出现信息中选择并取得适当的信息,求得符合检索条件的结果数据集合;检索结果输出部119,其将结果数据集合以适当的形式作为检索结果120输出。
下面说明本实施方式的数据库装置的动作。
首先说明文档登记的数据库构筑处理。图2是表示本发明的实施方式1中的文档登记处理的步骤的流程图。
在步骤2201,输入文档解析部102从结构化文档群101读入一个结构化文档,并给每一文档分配唯一的文档序号。
在步骤2202,输入文档解析部102解析该文档的逻辑结构。图3是表示成为本发明的实施方式1的登记检索对象的结构化文档的例子的图。图3所示的结构化文档101a具有在最高阶层的书(book)元素、而且书元素包含标题(title)元素和两个章(chapter)元素。标题元素包含元素实体的字符串“文書検索”,而且第1章元素具有另一标题元素和2个节(section)元素及属性值是“歴史”的关键字(keyword)属性。另外,在图4中表示输入文档解析部102将结构化文档101a解析成树结构的结果。图4是表示解析本发明的实施方式1中的结构化文档的逻辑结构的结果的图。在图4中,树结构300的直角框表示元素301~303,记在框内的字符串表示元素名304。另外,椭圆的虚线框表示属性305,记在框内的字符串表示属性名306(更新(updata))。
将存在于从树结构300的最高阶层的元素301至目标元素的路径的途中的元素(以下记载为“祖先元素”)的元素名用斜线号“/”区分并按顺序排列的字符串称为“路径名”。将路径名的末尾部分,即,除了目标元素本身的元素名的部分称为“祖先路径名”。图5是说明本发明的实施方式1的祖先路径名的图。在图5中,在图4中画了阴影线的元素302的路径名701由祖先路径名702和元素名703构成。
另外,在图4中,将记在各元素的右上方的字符串称为“分支顺序”。例如,元素302的分支顺序307是“1/2/3”。分支顺序是表示按顺序表示关于路径名中的各元素具有相同的父元素的相同元素名的元素中在第几出现。在图4中画阴影线的元素302与其左边相邻的元素303虽然路径名相同,但是分支顺序307、308不同。另外,分支顺序的标记方法不限于此。例如,也可以用排列具有1以外的值的阶层的深度及其值的方法。如果通过该方法标记分支顺序307,则为“2:2,3:3”。这是由于深度1的值是“1”而省略,深度2的值是“2”,深度3的值是“3”。在存储几乎没有出现相同元素名的兄弟元素的文档,即存储分支顺序的值几乎都是“1”的文档的情形下,这种标记方法可以减小出现位置索引文件的大小。
在步骤2203,元素名登记部103检查目标元素的元素名是否已登记到元素名词典107中了。如果其已登记完毕,则获取对应的元素名ID,如果没有登记,则重新分配元素名ID(>0),并将元素名与元素名ID登记在元素名词典107中。在图6中,表示对图3中所示的结构化文档101a进行登记处理后的元素名词典107的内容的例子(407)。
在步骤2204,祖先路径名登记部104检查目标元素的祖先路径名是否已登记到祖先路径名词典108中了。如果其已登记完毕,则获取对应的祖先路径名ID,如果没有登记,则重新分配祖先路径名ID(>0),并将祖先路径名登记在祖先路径名词典108中。在图7中,表示对图3中所示的结构化文档101a进行登记处理后的祖先路径名词典108的内容的例子(408)。
在步骤2205,如果目标元素具有属性,则进入步骤2206,如果不具有属性,则进入步骤2207。
在步骤2206,属性名登记部105检查目标元素的属性名是否已登记到属性名词典109中了。如果其已登记完毕,则获取对应的属性名ID,如果没有登记,则重新分配属性名ID(>0),并将属性名登记在属性名词典109中。在图8中,表示对图3中所示的结构化文档101a进行登记处理后的属性名词典109的内容的例子(409)。
在步骤2207,出现信息登记部106以元素名ID作为关键字,将关于目标元素的元素出现信息登记到元素出现信息存储部111中。元素出现信息由下面5种类型的值的组构成,即,文档序号、包含于目标元素(也包含子孙元素)中的(标签以外的)文本的最开始字符位置及字符数、祖先路径名ID、分支顺序。图9是说明在本实施方式中的数据库装置的字符位置的计数方式的图。在图9中,表410表示在连接除了标签之外的对应文档内的全部文本的字符串中,各字符411的字符位置412。另外,假设最前部的字符位置为“0”。图10A~10B是说明本发明的实施方式1中的元素出现信息的图。在图10B中,关于在图4中画阴影线的节元素302的元素实体304,最前部字符321的字符位置是“115”,元素实体322全体的字符数是“40”。在图10A中表示关于节元素302的元素出现信息501。在图10A中,节元素302的元素名ID(502)是“4”,文档序号(503)是“1”。而且,节元素302包含从第“115”字符(字符位置504)开始的长度“40”字符(字符数505)的元素实体。节元素302的祖先路径名ID(506)是“3”,分支顺序(507)是“1/2/3”。另外,祖先路径名ID 506是“3”的祖先路径名是“/book/chapter”。
在步骤2208,出现信息登记部106以祖先路径名ID作为关键字,而将关于目标元素的祖先路径出现信息登记到祖先路径出现信息存储部112中。该祖先路径出现信息由下面5种类型的值的组构成,即,文档序号、包含于目标元素(也包含子孙元素)中的(标签以外的)文本的最开始字符位置及字符数、元素名ID、分支顺序。图11是说明在本发明的实施方式1中的祖先路径出现信息的图。在图11中,表示与在图4中画阴影线的元素302有关的祖先路径出现信息的内容511。如图10A与图11中所示,关于相同元素的元素出现信息与祖先路径出现信息,不同之处仅在于成为关键字的项目是元素名ID502还是祖先路径名ID506。
在步骤2209,如果目标元素具有属性,则进入步骤2210,如果目标元素不具有属性,则进入步骤2211。
在步骤2210,出现信息登记部106以属性名ID作为关键字,而将与目标元素的各属性相关的属性出现信息登记到属性出现信息存储部113中。属性出现信息由下面6种类型的值的组构成,即,文档序号、属性值的最开始字符位置及字符数、祖先路径名ID、元素名ID、分支顺序。图12A~12B是说明在本发明的实施方式1中的属性出现信息的图。在图12B中,在图4中画阴影线的节元素302包含更新属性305,关于该更新属性305的属性值350,最前部字符351的字符位置351是“115”,属性值305全体的字符数352是“6”。另外,在属性出现信息中,如图12B所示,假设属性值的最开始字符的字符位置与包含于目标元素322(也包含子孙元素)中的(标签以外的)文本的最开始字符321的字符位置具有相同的值。在图12A中表示与节元素302的更新属性305相关的属性出现信息521。在图12A中,属性名ID(522)是“2”,文档序号(503)是“1”。而且,更新属性305具有从第“115”字符(字符位置504)开始的长度为“6”字符(字符数505)的属性值。更新属性305所属的元素的祖先路径名ID(506)是“3”,元素名ID(502)为“4”,分支顺序(507)是“1/2/3”。另外,属性名ID是“2”属性名是“update”,祖先路径名ID 506是“3”的祖先路径名是“/book/section”。另外,元素名ID 502为“4”的元素名是“section”。
在步骤2211,出现信息登记部106从目标元素的实体内容的文本中提取部分字符串。而且,文本出现信息将所提取的部分字符串作为关键字登记在文本出现信息存储部114中。这时,为了与属性值进行区分,在属性名ID中总是存储0。文本出现信息由下面的6种类型的值的组构成,即,文档序号、所提取的部分字符串的最开始字符位置、祖先路径名ID、元素名ID、属性名ID、分支顺序。
在步骤2212,如果目标元素具有属性,则进入步骤2213,如果目标元素不具有属性,则进入步骤2214。
在步骤2213,出现信息登记部106从目标元素具有的各属性的属性值字符串中提取部分字符串。而且,将部分字符串作为关键字登记在文本出现信息存储部114中。另外,假设属性值出现在图11中所示的位置,与属性出现信息同样地算出字符位置。另外,在步骤2213中,与在步骤2211中的处理不同,将所关注的属性的属性名ID(>0)存储在属性名ID中。图13是说明本发明的实施方式1中的文本出现信息的图。在图13中,文本出现信息531(一部分)包含在图4中画阴影线的节元素302的元素实体(文本)和关于节元素302的更新属性305的属性值的文本出现信息。出现信息记录1201表示节元素302的元素实体的例子。节元素302的元素实体的部分字符串(532)“極大”出现在文档序号(503)为“1”的文档的第“118”个字符(字符位置504)。而且,包含部分字符串的元素,即节元素302的祖先路径名ID(506)是“3”,元素名ID(502)为“4”,分支顺序(507)为“1/2/3”。另外,祖先路径名ID506为3的祖先路径名为“/book/section”,元素名ID 502为“4”的元素名是“chapter”。这里,可以根据属性名ID522来判别部分字符串532是否为属性值。这里,如果属性名ID是“0”,则判断为部分字符串532是属性值。此外,出现信息记录1202表示节元素302中的更新属性305的属性值的例子。更新属性305的属性值的部分字符串(532)“00”出现在文档序号(503)为“1”的文档的第“116”字符(字符位置504)处。而且,包含部分字符串的属性的元素,即节元素302的祖先路径名是“3”,元素名ID(502)为“4”,分支顺序(507)为“1/2/3”。此外,属于该元素的属性名ID(522)是“2”。另外,祖先路径名ID 506是“3”的祖先路径名是“/book/section”,元素名ID为“4”的元素名是“chapter”,属性名ID是“2”属性名是“update”。
在步骤2214,检查对于出现在该文档中的全部元素是否已完成处理,如果还残留有未处理的元素,则返回步骤2203并重复处理。
在步骤2215,检查对全部的输入文档是否已完成处理,如果还残留有未处理的文档,则返回步骤2201并重复处理。
如上所述,本实施方式的数据库装置完成了文档登记、数据库构筑处理。
接下来,对关于本实施方式的数据库装置检索已登记完的文档群的处理进行说明。
图14是表示本发明实施方式1的检索式的例子的图。这些检索式2101~2107是用作为W3C(World Wide Web Consortium)的建议而公开的Xpath语言记述的。另外,Xpath语言的详细说明记载在URL http://www.w3.org/TR/xpath
检索式2101表示“作为最高阶层的书元素的孩子的章元素的孩子的标题元素”。检索式2102表示“作为最高阶层的书元素的孩子的章元素的任何一个子元素”。检索式2103表示“位于任一阶层的标题元素”。检索式2104表示“作为最高阶层的书元素的孩子的章元素的孩子的第2节元素”。检索式2105表示“作为最高阶层的书元素的孩子的章元素的孩子的节元素的更新属性”。检索式2106表示“最高阶层的书元素的孩子的章元素的孩子的节元素,且在元素实体内容中包含‘極大単語’的字符串的元素”。检索式2107表示“最高阶层的书元素的孩子的章元素的孩子的节元素的更新属性,且在其属性值中包含‘2004’的字符串的属性”。
下面,对于各检索式,依次说明本实施方式的数据库装置进行检索处理的动作。
(检索式2101的情形)
首先,说明给定检索式2101作为检索条件的情形的动作。图15是表示本发明实施方式1的数据库装置的检索处理的步骤的流程图。
在步骤2301,检索条件输入部116输入检索式2101。
在步骤2302,检索条件解析部117,如图16A所示,解析所输入的检索式2101,参照元素名词典107和祖先路径名词典108,将其转换成内部条件“祖先路径名ID=3且元素名ID=2”。然后将结果输出到出现信息取得部118。
在步骤2303,出现信息取得部118参照出现位置索引110,获得元素出现信息存储部111中的元素名ID=2的条目数N。
在步骤2304,出现信息取得部118参照出现位置索引110,获得祖先路径出现信息存储部112中的祖先路径名ID=3的条目数M。
在步骤2305,出现信息取得部118,比较所获得的条目数N和条目数M。如果N<M则进入步骤2306,否则进入步骤2310。图16B表示元素出现信息存储部111中的元素名ID=2的条目1301的例子,图17B表示祖先路径出现信息存储部112中的祖先路径名ID=3的条目1401的例子。在图16A中所示的例子中,N=8,M=12。在这种情形下,N<M,进入步骤2306。选择图16B的元素出现信息存储部111。
在步骤2306,出现信息取得部118从元素出现信息存储部111的元素名ID=2的条目1301获得1个条目。
在步骤2307,出现信息取得部118检查该条目的祖先路径名ID是否是3。而且,如果祖先路径名ID是3,则进入步骤2308,否则进入步骤2309。
在步骤2308,出现信息取得部118将该条目的数据追加到结果数据集合1302中。在图16C中表示结果数据集合。结果数据集合1302的各数据,例如,以(文档序号、祖先路径名ID、元素名ID、属性名ID、分支顺序)的形式存储。
在步骤2309,出现信息取得部118检查N条目全体是否已被处理。如果仍然存在没有处理的条目,则返回步骤2306,重复处理。
接下来,在步骤2305,出现信息取得部118在判定为不是N<M的情形下,进入步骤2310。然后,出现信息取得部118,如图17B所示,检查祖先路径出现信息存储部112中的祖先路径名ID=3的各条目1401。然后,出现信息取得部118求元素名ID为2的条目,并追加到如图17C所示的结果数据集合1402中(步骤2310~步骤2313)。
在步骤2314,出现信息取得部118,将所求得的结果数据集合输出到检索结果输出部119中。检索结果输出部119以适当的形式输出检索结果,例如,通过获取所求得的结果数据集合的文档实体。
这样,本实施方式的数据库装置,关于检索式2101,对于从元素出现信息存储部111中指定的元素名ID的条目中选择具有指定的祖先路径名ID的条目的处理,和从祖先路径出现信息存储部112中指定的祖先路径名ID的条目中选择具有指定的元素名ID的条目的处理,选择条目数少的处理。因此,可以根据检索对象结构化文档群的逻辑结构特性抑制处理量,可以高效率地检索所想要的文档。
(检索式2102的情形)
接下来说明将检索式2102输入到检索条件输入部116中的情形下的动作。检索条件解析部117,如图18A所示,解析检索式2102,并参照祖先路径名词典108将其转换为内部条件“祖先路径名ID=3”。而且,将结果输出到出现信息取得部118。出现信息取得部118,参照出现位置索引110,求如图18B所示的祖先路径出现信息存储部112中的祖先路径名ID=3的全部条目1501。而且,例如以(文档序号、祖先路径名ID、元素名ID、属性名ID、分支顺序)的形式,如图18C所示,作为结果数据集合1502输出到检索结果输出部119。检索结果输出部119以适当的形式输出检索结果,例如,通过获取所求得的结果数据集合1502的文档实体。
这样,本实施方式的数据库装置,关于检索式2102,由于可以只取得祖先路径出现信息存储部112中指定的祖先路径名ID的条目,所以可以高效率地检索所想要的文档。
(检索式2103的情形)
接下来,说明将检索式2103输入到检索条件输入部116中的情形下的动作。检索条件解析部117,如图19A所示,解析检索式2103,并参照元素名词典107将其转换为内部条件“元素名ID=2”。而且,将结果输出到出现信息取得部118。出现信息取得部118,参照出现位置索引110,求如图19B所示的元素出现信息存储部111中的元素名ID=2的全部条目1601。而且,例如以(文档序号、祖先路径名ID、元素名ID、属性名ID、分支顺序)的形式,如图19C所示,将结果数据集合1602输出到检索结果输出部119。检索结果输出部119以适当的形式输出检索结果,例如,通过获取所求得的结果数据集合1602的文档实体。
这样,本实施方式的数据库装置,关于检索式2103,由于可以只取得元素出现信息存储部111中指定的元素名ID的条目,所以可以高效率地检索所想要的文档。
(检索式2104的情形)
接下来,说明将检索式2104输入到检索条件输入部116的情形下的动作。检索条件解析部117,如图20A所示,解析检索式2104,并参照元素名词典107、祖先路径名词典108将其转换为内部条件“祖先路径名ID=3且元素名ID=4且分支顺序=*/*/2”。而且,将结果输出到出现信息取得部118。分支顺序的星号“*”的部分表示即使是任何数字都匹配。出现信息取得部118,参照出现位置索引110,求元素出现信息存储部111中的元素名ID=4的条目数N和祖先路径出现信息存储部112中的祖先路径名ID=3的条目数M。而且,比较条目数N和M,选择少的一方。如果不是N<M,则检查如图20B所示的祖先路径出现信息存储部112中的祖先路径名ID=3的各条目1701。求元素名ID为4且分支顺序为“*/*/2”的条目的数据。而且,作为结果数据集合1702,如图20C所示,例如以(文档序号、祖先路径名ID、元素名ID、属性名ID、分支顺序)的形式,输出到检索结果输出部119。如果N<M,则检查图中未示出的元素出现信息存储部111中的元素名ID=4的各条目。而且,求祖先路径名ID为3且分支顺序为“*/*/2”的条目的数据,且作为结果数据集合1702输出到检索结果输出部119。检索结果输出部119以适当的形式输出检索结果,例如,通过获取所求得的结果数据集合的文档实体。
这样,本实施方式的数据库装置,关于检索式2104,对于从元素出现信息存储部111中指定的元素名ID的条目中选择具有指定的祖先路径名ID与分支顺序的条目的处理,和从祖先路径出现信息存储部112中指定的祖先路径名ID的条目中选择具有指定的元素名ID与分支顺序的条目的处理中的任何一个,选择条目数少的处理。因此,可以减少检索的处理量,可以高效率地检索所想要的文档。
(检索式2105的情形)
接下来,说明将检索式2105输入到检索条件输入部116的情形下的动作。检索条件解析部117,如图21A所示,解析检索式2105,并参照元素名词典107、祖先路径名词典108、属性名词典109将其转换为内部条件“祖先路径名ID=3且元素名ID=4且属性名ID=2”。而且,将结果输出到出现信息取得部118。出现信息取得部118,参照出现位置索引110,检查图21B中所示的属性出现信息存储部113中的元素名ID=2的各条目1801。而且,求得祖先路径名ID为3、元素名ID为4的条目的数据。而且,出现信息取得部118,如图21C所示,例如以(文档序号、祖先路径名ID、元素名ID、属性名ID、分支顺序)的形式,作为结果数据集合1802输出到检索结果输出部119。检索结果输出部119以适当的形式输出检索结果,例如,通过获取所求得的结果数据集合的文档实体。
这样,本实施方式的数据库装置,可以对于检索式2105,从属性出现信息存储部113中指定的属性名ID的条目中选择具有指定的祖先路径名ID和元素名ID的条目,检索所想要的文档。
(检索式2106的情形)
接下来,说明将检索式2106输入到检索条件输入部116的情形下的动作。检索条件解析部117,如图22A所示,解析检索式2106,并参照元素名词典107、祖先路径名词典108将其转换为内部条件“祖先路径名ID=3且元素名ID=4且在元素内包含‘極大単語’”。而且,将结果输出到出现信息取得部118。出现信息取得部118,参照出现位置索引110,如图22B中所示,对文本出现信息存储部114中“極大”的条目1901和“単語”的条目1902进行连接运算。这时,不仅检索文档序号是否相同,“単語”是否位于“極大”这2个字符之后,而且检索祖先路径名ID是否是3,且元素名ID是否为4,且属性名ID是否是0,且分支顺序是否相同,并找到满足条件的条目。而且,出现信息取得部118,如图22C所示,例如以(文档序号、祖先路径名ID、元素名ID、属性名ID、分支顺序)的形式,作为结果数据集合1903输出到检索结果输出部119。检索结果输出部119以适当的形式输出检索结果,例如,通过获取所取得的结果数据集合的文档实体。
这样,本实施方式的数据库装置,对于检索式2106,对文本出现信息存储部114中的部分字符串的条目进行连接运算时,选择祖先路径名ID和元素名ID是指定的值,且分支顺序相同,且属性名ID是0的条目(1904,1905),可以检索所想要的文档。
(检索式2107的情形)
接下来,说明将检索式2107输入到检索条件输入部116的情形下的动作。检索条件解析部117,如图23A所示,解析检索式2107,并参照元素名词典107、祖先路径名词典108、属性名词典109将其转换为内部条件“祖先路径名ID=3且元素名ID=4且属性名ID=2且属性值中包含字符串‘2004’”。而且,将结果输出到出现信息取得部118。出现信息取得部118,参照出现位置索引110,如图23B所示,在文本出现信息存储部114中“20”的条目2001与“04”的条目2002之间,进行连接运算。这时,出现信息取得部118,不仅检索文档序号是否相同,“20”是否位于“04”这2个字符之后,而且检索祖先路径名ID是否是3,元素名ID是否为4,属性名ID是否是2,且分支顺序是否相同,并找到满足条件的条目。而且,出现信息取得部118,如图23C所示,例如以(文档序号、祖先路径名ID、元素名ID、属性名ID、分支顺序)的形式,作为结果数据集合2003输出到检索结果输出部119。检索结果输出部119以适当的形式输出检索结果,例如,通过获取所求得的结果数据集合的文档实体。
这样,本实施方式的数据库装置,对于检索式2107,在对文本出现信息存储部114中的部分字符串的条目进行连接运算时,选择祖先路径名ID和元素名ID是指定的值,分支顺序相同,且属性名ID是指定的值(>0)的条目(2004,2005),可以检索所想要的文档。
如以上说明,本实施方式的数据库装置设置有将元素名ID作为关键字而存储元素的出现信息的元素出现信息存储部、将元素的祖先路径名ID作为关键字存储元素的出现信息的祖先路径出现信息存储部、和将属性名ID作为关键字存储属性的出现信息的属性出现信息存储部。因此,该数据库装置即使对于仅指定结构条件的检索式也可以高效率地检索所想要的文档。
另外,本实施方式的数据库装置还设置有,对从元素实体的文本字符串及元素具有的属性的属性值中提取出的部分字符串的出现信息进行存储的文本出现信息存储部。因此,该数据库装置不仅对元素实体的文本而且对属性值也可以进行字符串检索。
另外,本实施方式的数据库装置,在数据库构筑处理中,虽然说明从元素实体或属性值中以固定长的2字符连接在一起的方式提取部分字符串,但其它的提取方法,例如特开平8-249354号公报“文档检索装置及单词索引生成方法及文档检索方法”中记载的方法也可以使用。
另外,本实施方式的数据库装置,在数据库检索处理中,虽然作为以Xpath式给出检索条件式进行了说明,但是,即使用表示同样意思的其它查询语言给出,也可以应用本发明。
这样,在本实施方式的数据库装置中,在登记结构化文档时,生成一个由表示包含于结构化文档的文档结构的元素名、祖先路径名、和属性名构成的列表、以及这些结构化文档中的出现位置信息的索引。因此,该数据库装置不仅对于指定字符串检索条件与结构条件的检索条件,而且对于仅指定结构的各种检索条件,也可以构筑高效率检索具有所要的逻辑结构的文档的数据库。
此外,不仅可以对元素实体的文本字符串进行字符串检索,而且对属性值也可以进行字符串检索。
另外,在本实施方式的数据库装置中,在登记结构化文档时,可以同时实现解析文档结构以构筑词典数据及出现位置索引数据并登记结构化文档的构成,以及关于用表示所接受的文档结构的检索式所表示的文档,基于词典数据及出现位置索引数据高效率地检索登记文档的构成。但是,可以将仅具有登记的功能的构成实现为数据库构筑装置,或者将仅具有检索功能的构成实现为数据库检索装置。
另外,在本实施方式的数据库装置中,登记结构化文档时,可以同时实现第一、第二、第三构成。在第一构成中,生成并登记关于元素和祖先路径的词典数据及出现位置索引数据;在第二构成中,在第一构成中生成并登记关于属性的词典数据及出现位置索引数据;在第三构成中,在第二构成中生成并登记关于元素或属性值文本的出现位置索引数据。但是,也可以实现仅将元素和祖先路径作为对象进行登记的第四构成,或者实现在第四构成中除了对象之外还登记属性的第五构成,或者实现在第五构成中除了对象之外还登记文本的第六构成。
(实施方式2)
接下来说明本实施方式2的数据库装置的构成与动作。本实施方式的数据库装置与图1中所示的实施方式1几乎是相同的构成。但是,该数据库装置在下面几点与实施方式1不同。该数据库装置的祖先路径名登记部104,不仅对出现在文档中的各祖先路径名分配唯一的祖先路径名ID,而且对将祖先路径名分割成几个的各部分祖先路径名也分配唯一的祖先路径名ID,且登记在祖先路径名词典108中。另外,该数据库装置的出现信息登记部106,将元素名ID作为关键字向元素出现信息存储部111存储各元素出现的文档序号、字符位置、字符数、祖先路径名ID列、分支顺序、空元素顺序的信息。另外,该数据库装置将祖先路径名ID列作为关键字向祖先路径出现信息存储部112存储各元素出现的文档序号、字符位置、字符数、元素名ID、分支顺序、空元素顺序的信息。另外,该数据库装置将属性名ID作为关键字向属性出现信息存储部113存储各属性出现的文档序号、字符位置、字符数、元素名ID、祖先路径名ID列、分支顺序、空元素顺序的信息。另外,关于从元素内文本中提取的部分字符串及从元素具有的属性的值中提取出的部分字符串,该数据库装置将部分字符串作为关键字向文本出现信息存储部114存储出现的文档序号、字符位置、祖先路径名ID列、元素名ID、属性名ID、分支顺序、空元素顺序的信息。
关于本实施方式的数据库装置进行文本登记,并进行数据库构筑的处理的动作,用图2进行说明。另外,省略说明与实施方式1同样的处理。
在步骤2201,输入文档解析部102读取一个结构化文档,并分配唯一的文档序号。
在步骤2202,解析该结构化文档的逻辑结构。这时,除了在实施方式1的情形下的处理之外,还找到与各元素有关的“空元素顺序”的信息。这里,所谓“空元素”是包含子孙元素且完全不具有元素实体的文本的元素。所谓“空元素顺序”,是从最高阶层至相应元素的各阶层中如下求得并排列的值:在具有相同的父元素的兄弟元素中,当是最前部的元素或其前方紧邻的兄弟元素不是空元素的元素情形下,值是1,在除此之外的情形下,即前方紧邻的兄弟元素是空元素的情形下,在该空元素顺序的值上加1。
图24是说明本发明的实施方式2的空元素顺序的图。在图24中,表示文档的树结构310和空元素顺序的一例。斜线模样的直角框表示包含元素实体的文本的元素2801、2804、2805;没有纹路的直角框表示不包含元素实体的空元素2802、2803;在各元素右上方以“1/2/3”的形式标记的字符串表示各元素的空元素顺序2806的信息。
兄弟元素2801~2804的空元素顺序表示的最初的2个数字“1/2”指出祖先元素的空元素顺序。这些在兄弟元素中是共同(common)的,末尾的数字n随着每个兄弟元素而不同。由于元素2801是兄弟元素中的最前面的元素,所以n=1。关于元素2802,由于紧邻前方的元素2801不是空元素,所以n=1。关于元素2803,由于紧邻前方的元素2802是空元素所以增加1,n=2。关于元素2804,由于紧邻前方的元素2803是空元素所以再增加1,n=3。因此,兄弟元素2801~2804的空元素顺序分别是“1/2/1”、“1/2/1”、“1/2/2”、“1/2/3”。
另外,空元素顺序的标记方法不限于此。例如,也可以是排列并表示具有除1以外的值的阶层的深度及其值的方法。若用该方法中标记空元素顺序2806(“1/2/3”),则为“2:2,3:3”。这里,由于深度1的值是“1”所以省略,深度2的值是“2”深度3的值是“3”。因此,处理几乎不出现空元素的文档,即,空元素顺序的值几乎都是“1”的文档的情况下,后者的标记方法可以减小出现位置索引文件的大小。
在步骤2203,与实施方式1相同,元素名登记部103,关于目标元素的元素名,进行向元素名词典107的登记处理。
在步骤2204,祖先路径名登记部104每3阶层分割目标元素的祖先路径名,检查分割后的各部分祖先路径名是否已经登记在祖先路径名词典108中。如果其已登记完毕,则获取对应的祖先路径名ID,如果其没有被登记,则重新分配祖先路径名ID(>0),并登记在祖先路径名词典108中。另外,如果祖先路径名的深度是3阶层以下,则祖先路径名ID列成为与实施方式1的情形相同的单个的祖先路径名ID。
图25A是说明本实施方式2的部分祖先路径名的图,图25B是表示祖先路径名词典的内容的图,图25C是说明祖先路径名ID列的图。在图25A中,从路径名2900除去元素名2911以外的祖先路径名2901“/A/B/C/A/B/C/A/B/C”还可以分解成部分路径名“/A/B/C”(2913、2914)和“/A/B/”(2915)。这里,如图25B所示,在祖先路径名词典108的内容2903中,祖先路径名2905“/A/B/C”、“/A/B”的祖先路径ID2904分别被登记为“83”、“25”。在这种情形下,如图25C所示,祖先路径名2901可以用表示分解了的各祖先路径名2905的祖先路径ID2904和记号“:”,表现成祖先路径ID列2902“83:83:25”。
这样,当分割祖先路径名2901且分配祖先路径ID2904给各部分祖先路径名2905时,在该元素的祖先元素和其它的元素之间,可以共同使用登记完毕的祖先路径ID2904。另外,可以减小祖先路径ID的重叠数,可以减小祖先路径名词典108的大小。
另外,在本实施例中,虽然表示了每3个阶层分割祖先路径名的例子,但分割的方法不限于此。例如,也可以每4个阶层分割,且也可以根据阶层的深度变化分割的宽度。还有,虽然用符号“:”作为祖先路径ID列的区分字符字符,但也可以用其它的区分字符。
如果目标元素具有属性,在步骤2205~步骤2206,属性名登记部105与实施方式1相同地,进行向目标元素的各属性的属性名词典109的登记处理。
在步骤2207,出现信息登记部106将元素名ID作为关键字将关于目标元素的元素出现信息登记在元素出现信息存储部111。元素出现信息由下面的6类型的值的组构成:文档序号、包含于目标元素(也包含子孙元素)中的(标签以外的)文本的最开始字符位置及字符数、祖先路径名ID列、分支顺序、空元素顺序。另外,“字符位置”表示在连接不包括标签的相应文档内的全部文本所得到字符串中从最前面开始是第几个字符。还有,在目标元素是空元素的情形下,在目标元素之后最先出现(标签以外的)文本的最前面字符位置视为目标元素的最前面字符位置。在图26中显示了元素出现信息的一个例子。图26是说明本发明实施方式2的元素出现信息的图。与实施方式1不同的是,在元素出现信息541的祖先路径名506中,记录用区分字符将一个以上祖先路径名连接在一起的祖先路径名ID列而不是单个的祖先路径名ID,且包含空元素顺序548的信息。
在步骤2208,出现信息登记部106以祖先路径名ID作为关键字,将关于目标元素的祖先路径出现信息登记到祖先路径出现信息存储部112中。祖先路径出现信息由下面6种类型的值的组构成,即,文档序号、包含于目标元素(也包含子孙元素)中的(标签以外的)文本的最开始字符位置及字符数、元素名ID、分支顺序、空元素顺序。在图27中表示了祖先路径出现信息的一个例子。图27是说明本发明实施方式2的祖先路径出现信息的图。与实施方式1不同的是,在祖先路径出现信息551中包含空元素顺序548的信息,将用区分字符字符把一个以上祖先路径名ID连接在一起的祖先路径名ID列而不是单个的祖先路径名ID作为关键字登记在祖先路径名ID506中。
如果目标元素具有属性,则在步骤2209~步骤2210中,出现信息登记部106将属性名ID作为关键字将关于目标元素的各属性的属性出现信息登记到属性出现信息存储部113中。属性出现信息由下面7种类型的值的组构成,即,文档序号、属性值的最开始字符位置及字符数、祖先路径名ID列、元素名ID、分支顺序、空元素顺序。与实施方式1不同的是,在属性出现信息的祖先路径名ID中记录用区分字符把一个以上祖先路径名ID连接在一起的祖先路径名ID列而不是单个的祖先路径名ID,且包含空元素顺序的信息。
在步骤2211,出现信息登记部106从目标元素的实体内容的文本中提取部分字符串,且将所提取的部分字符串作为关键字登记文本出现信息于文本出现信息存储部114中。但是,由于文本出现信息不是属性值,所以在属性名ID中存储的总是“0”。文本出现信息由下面的7种类型的值的组构成,即,文档序号、所提取的部分字符串的最开始字符位置、祖先路径名ID列、元素名ID、属性名ID、分支顺序、空元素顺序。与实施方式1不同的是,在文本出现信息的祖先路径名ID中记录用区分字符把一个以上祖先路径名ID连接在一起的祖先路径名ID列而不是单个的祖先路径名ID,且包含空元素顺序的信息。
如果目标元素具有属性,则在步骤2212~步骤2213中,出现信息登记部106从目标元素具有的各属性的属性值字符串中提取部分字符串,且将部分字符串作为关键字登记其于文本出现信息存储部114中。与步骤2211同样,与实施方式1不同的是,在文本出现信息中记录用区分字符把一个以上祖先路径名ID连接在一起的祖先路径名ID列而不是单个的祖先路径名ID,且包含空元素顺序的信息。
随后与实施方式1同样进行步骤2214~2215,进行文档登记并构筑数据库。
接下来,说明检索登记完毕的文档群的处理。关于基于与实施方式1中所示的检索式相同形式的检索式进行的检索处理,在检索条件解析部117,可以实现将从祖先路径名找到祖先路径名ID并将其转换为内部条件的处理变更为从祖先路径名找到祖先路径名ID列的处理。即,检索条件解析部117,每3阶层分割祖先路径名,参照祖先路径名词典108,找到与分割后的各部分祖先路径名对应的祖先路径名ID,并找到用区分字符依次区分那些祖先路径名ID并排列的祖先路径名ID列。祖先路径名ID列的形式与在文档登记处理的说明中在图25A~25C所示的例子相同,在祖先路径名的深度是3阶层以下的情形下是单个的祖先路径名ID。将在实施方式1中出现信息取得部118中以祖先路径名ID进行校勘的各处理变更为以祖先路径名ID列进行校勘,由此可以得到检索结果。
(检索式3201的情形)
图28是表示本发明的实施方式2的检索式的例子的图。在图28中所示的检索式3201表示“是最高阶层的A元素的孩子的B元素的孩子的X元素的兄弟元素、且出现在X元素之后的Y元素”。由检索条件输入部116输入检索式3201。检索条件解析部117解析检索式3201,参照元素名词典107、祖先路径名词典108将其转换为内部条件,并输出到出现信息取得部118。但是,内部条件是“C1且(C2或C3)”,其中,Cx:{祖先路径名ID=25且元素名ID=10},Cy:{祖先路径名ID=25且元素名ID=14},C1:{Cx与Cy的文档序号相同且分支顺序除了末尾之外是相同的},C2:{在字符位置的值方面,Cy比Cx大},C3:{Cx与Cy的字符位置的值相等,且在空元素顺序的末尾的值方面,Cy比Cx大}。这里,与祖先路径名“/A/B”对应的祖先路径名ID是25,与元素名“X”对应的元素名ID是“10”,与元素名“Y”对应的元素名ID是“14”。这里,在内部条件中需要条件C3的理由是,由于空元素和紧跟其后的元素在字符位置上是相同的,所以为了判断前后关系必须比较空元素顺序的值。
下面说明本发明的实施方式2的检索动作。出现信息取得部118,参照出现位置索引110,如图29A所示,在祖先路径出现信息存储部112中祖先路径名ID是25的条目中,找到元素名ID是10的条目(Cx),及元素名ID是14的条目(Cy)。接着,找到满足C1且(C2或C3)的条件的Cx、Cy的条目的组3301、3302。而且,出现信息取得部118,如图29B所示,例如,以(文档序号、祖先路径名ID、元素名ID、属性名ID、分支顺序、空元素顺序)的形式作为结果数据集合3303输出到检索结果输出部119。检索结果输出部119以适当的形式输出检索结果,例如,通过获取所找到的结果数据集合的文档实体。
另外,在找到Cx及Cy的条目时,可以比较祖先路径出现信息存储部112中的指定祖先路径名ID的条目数与元素出现信息存储部111中的指定元素名ID的条目数,选择并找到条目数少的一方。
这样,本实施方式的数据库装置,对于检索式3201,即使在参照祖先路径出现信息存储部112或元素出现信息存储部111找到的两个元素的出现位置相同的情形下,即,2个元素具有空元素与紧跟其后的元素的关系的情形下,可以比较空元素顺序的信息,排除前后关系的模糊性,正确地找到检索结果。
如上所述,本实施方式的数据库装置,祖先路径名登记部104分割祖先路径名,对于分割后的各部分祖先路径名分配唯一的祖先路径名ID并登记在祖先路径名词典108中。因此,可以减小祖先路径名词典的大小。
另外,出现信息登记部106在元素出现信息存储部111、祖先路径出现信息存储部112、属性出现信息存储部113、文本出现信息存储部114中还存储空元素顺序的信息。因此,本实施方式的数据库装置,可以排除空元素与紧跟其后的元素的开始字符位置相同时的前后关系的模糊性,找到正确的检索结果。
由此,本实施方式的数据库装置,在是结构化文档的元素中根本不包含文本的空元素的情形下,将目标元素后最开始出现的文本的最前面字符位置视为目标元素的最前面字符位置。因此,将空元素的出现顺序生成成出现位置索引,不仅结构化文档中包含空元素的情形而且即使在连续包含空元素的情形下,不仅可以高效率地进行结构化文档结构的全文检索,而且可以高效率地检索在表示包含空元素的文档结构的检索式中所示的文档。
还有,本实施方式的数据库装置,基于在一定的条件下分割所得到的部分路径名,登记祖先路径名为祖先路径列。因此,本实施方式的数据库装置不重复存储部分路径,所以可以减小祖先路径词典的大小,还有,即使是包含很多结构化对象的结构文档,也可以高效率地检索在表示文档结构的检索式中所示的文档。
另外,本实施方式的数据库装置,在登记结构化文档时,可以同时实现解析文档结构并构筑词典数据及出现位置索引数据,且登记结构化文档的构成,以及关于表示接受了的文档结构的检索式中所示的文档,基于词典数据及出现位置索引数据,高效率地检索登记文档的构成。但是,也可以实现仅仅具有登记结构化文档的功能的构成,或者仅仅具有检索功能的构成。
另外,本实施方式的数据库装置,在登记结构化文档时,可以同时实现生成并登记与不具有文本元素的空元素对应的出现位置索引数据的构成、和生成并登记与祖先路径名被分割成几个而得到的各部分祖先路径名相对的词典数据以及出现位置索引数据的构成。但是,也可以实现仅以空元素作为对象进行登记的构成,或者仅以祖先路径名作为对象进行登记的构成。
(实施方式3)
接下来,说明本实施方式3的数据库装置的构成与动作。图30是表示本发明的实施方式3的数据库装置的构成的方框图。在图30中,本实施方式3的数据库装置与实施方式2的结构几乎相同。但是,该数据库装置与实施方式2在如下的方面不同。追加了出现信息分组部3401,该出现信息分组部3401将存储在元素出现信息存储部111、祖先路径出现信息存储部112、属性出现信息存储部113、文本出现信息存储部114中的信息进行分组。
下面说明文档登记的数据库构筑处理的动作。图31是表示本发明的实施方式3的数据库装置的文档登记处理的步骤的流程图。在图31中,由于至步骤2201~2215的处理与实施方式2的情形相同,所以省略说明。
在最后的步骤3501,出现信息分组部3401,在以相同的元素名ID作为关键字登记在元素出现信息存储部111中的条目群中,收集除了文档序号与字符位置之外的4种类型的信息项目(字符数、祖先路径名ID、分支顺序、空元素顺序)的值全部共同的条目,并且如果那些条目的数目超过阈值(例如,10条目)就将那些条目进行分组。接下来,出现信息分组化部3401,对于剩下的条目群,在除了文档序号与字符位置之外的4种类型的信息项目(字符数、祖先路径名ID、分支顺序、空元素顺序)中,找出任何3种类型的信息项目的值共同的条目群,如果那些条目的数目超过阈值则进行分组。另外,有可能属于多个组的条目包含于条目数最多的组中。而且,同样,出现信息分组部3401生成任何2种类型的信息项目的值共同的条目的组。而且,出现信息分组部3401生成任何1种类型的信息项目的值共同的条目的组,最后剩下的条目登记为没有共同信息项目的组。
图32是说明本发明的实施方式3的分组化了的元素出现信息的图。在图32中,元素名ID为14的元素出现信息被分组,且由组信息与各个条目构成。在组信息3601~3604中,存储有属于各组的条目3605~3608中共同的信息项目的值,和向各个条目的链接信息3615~3618。各个条目3605~3608中仅存储不共同的信息项目的值。
关于第1组信息3601,属于该组的元素出现信息的条目都共同具有这样的值:(字符数=10,祖先路径名ID=100,分支顺序=“1/1/1”,空元素顺序=“1/1/1”)。属于该组的各个条目3605只存储各自的文档序号与字符位置。关于第2组信息3602,虽然属于相应组的元素出现信息的条目都共同具有这样的值:(祖先路径名ID=200,分支顺序=“1/2/1”,空元素顺序=“1/2/3”),但用符号“*”表示的字符数的信息项目表示不具有共同的值。各个条目3606存储文档序号、字符位置及字符数。关于第3组信息3603,属于该组的元素出现信息的条目共同具有这样的值:(字符数=8,祖先路径名ID=150,空元素顺序=“1/2”),用符号“*”表示的分支顺序的信息项目表示不具有共同的值。各个条目3607存储文档序号、字符位置及分支顺序。第4组信息3604不是具有共同的信息项目的组,且存储全部的信息项目于各条目3608中。
即使关于祖先路径出现信息存储部112、属性出现信息存储部113、文本出现信息存储部114中存储的各信息也是同样的,对具有文档序号与字符位置以外的共同的值的信息项目的条目进行分组,结束文档登记的数据库的构筑处理。
因此,本实施方式的数据库装置的出现信息取得部118,作为对登记完毕的文档群进行检索的处理,基于被分组的各条目的内容与组信息,恢复全部的信息项目的值,得到与实施方式2相同的检索结果。
这样,本实施方式的数据库装置的出现信息分组部3401将存储于出现位置索引110中的条目群进行分组,在该组内共同的信息项目的值打包,不存储在各个条目中。因此,本实施方式的数据库装置可以减少索引大小。
这样,本实施方式的数据库装置,关于各元素、祖先路径等的出现位置信息,在某种条件下将信息项目的值为共同的部分进行分组,以与没有共同化的部分不同的结构进行存储。因此,可以不重复存储共同的部分,减小索引的大小。
产业上的可应用性
本发明的数据库构筑装置可以构筑能够高效率检索结构化文档的结构的检索用数据,并可以用于能够高效率检索的数据库装置等。

Claims (19)

1.一种数据库构筑装置,用于对结构化文档进行管理,其中,具有:
输入文档解析部,其向结构化文档分配唯一的文档序号且解析结构;
元素名登记部,其根据所述输入文档解析部的解析结果,对出现在所述结构化文档中的各元素名分配唯一的元素名ID并登记在元素名词典中;
祖先路径名登记部,其根据所述输入文档解析部的解析结果,对出现在所述结构化文档中的各祖先路径名分配唯一的祖先路径名ID并登记在祖先路径名词典中;和
出现信息登记部,其根据所述输入文档解析部的解析结果,以元素名ID作为关键字,将至少包含目标元素出现的文档序号、字符位置、祖先路径名ID、分支顺序的信息的元素出现信息登记到元素出现信息存储部,并且,以祖先路径名ID作为关键字,将至少包含目标元素出现的文档序号、字符位置、元素名ID、分支顺序的信息的祖先路径出现信息登记到祖先路径出现信息存储部。
2.根据权利要求1所述的数据库构筑装置,其中,
具有:属性名登记部,其根据所述输入文档解析部的解析结果,对出现在结构化文档中的各属性名分配唯一的属性名ID并登记在属性名词典中,
所述出现信息登记部,根据所述输入文档解析部的解析结果,以属性名ID作为关键字,将至少包含目标属性出现的文档序号、字符位置、祖先路径名ID、元素名ID、分支顺序的信息的属性出现信息记录到属性出现信息存储部。
3.根据权利要求1所述的数据库构筑装置,其中,
所述出现信息登记部,根据所述输入文档解析部的解析结果,关于从元素实体文本及属性值中提取出的部分字符串,以所提取出的部分字符串作为关键字,将至少包含出现的文档序号、字符位置、祖先路径名ID、元素名ID、属性名ID、分支顺序的信息的文本出现信息记录到文本出现信息存储部。
4.根据权利要求1所述的数据库构筑装置,其中,
所述元素出现信息至少包含目标元素出现的文档序号、字符位置、祖先路径名ID、分支顺序、空元素顺序的信息,
所述祖先路径出现信息至少包含目标元素出现的文档序号、字符位置、元素名ID、分支顺序、空元素顺序的信息。
5.根据权利要求2所述的数据库构筑装置,其中,
所述元素出现信息至少包含目标元素出现的文档序号、字符位置、祖先路径名ID、分支顺序、空元素顺序的信息,
所述祖先路径出现信息至少包含目标元素出现的文档序号、字符位置、元素名ID、分支顺序、空元素顺序的信息,
所述属性出现信息至少包含目标属性出现的文档序号、字符位置、祖先路径名ID、元素名ID、分支顺序、空元素顺序的信息。
6.根据权利要求3所述的数据库构筑装置,其中,
所述元素出现信息至少包含目标元素出现的文档序号、字符位置、祖先路径名ID、分支顺序、空元素顺序的信息,
所述祖先路径出现信息至少包含目标元素出现的文档序号、字符位置、元素名ID、分支顺序、空元素顺序的信息,
所述文本出现信息,关于从元素实体文本及属性值中提取出的部分字符串,至少包含出现的文档序号、字符位置、祖先路径名ID、元素名ID、属性名ID、分支顺序、空元素顺序的信息。
7.根据权利要求1所述的数据库构筑装置,其中,
所述祖先路径名登记部,对将出现在所述结构化文档中的各祖先路径名分割成大于等于1个而得到的各个部分祖先路径名,分配唯一的祖先路径名ID并登记在所述祖先路径名词典中。
8.根据权利要求1所述的数据库构筑装置,其中,
具有:出现信息分组部,其对于以相同的元素名ID作为关键字登记在所述元素出现信息存储部中的所述元素出现信息的条目群、和以相同的祖先路径名ID作为关键字登记在所述祖先路径出现信息存储部中的所述祖先路径出现信息的条目群,对文档序号与字符位置以外的大于等于1个的信息项目的值为共同的条目进行分组。
9.一种数据库检索装置,用于对结构化文档进行管理,其中,具有:
元素名词典,其对出现在结构化文档中的各元素名登记唯一的元素名ID;
祖先路径名词典,其对出现在所述结构化文档中的各祖先路径名登记唯一的祖先路径名ID;
元素出现信息存储部,其根据所述结构化文档的解析结果,以元素名ID作为关键字,存储至少包含目标元素出现的文档序号、字符位置、祖先路径名ID、分支顺序的信息的元素出现信息;
祖先路径出现信息存储部,其根据所述结构化文档的解析结果,以祖先路径名ID作为关键字,存储至少包含目标元素出现的文档序号、字符位置、元素名ID、分支顺序的信息的祖先路径出现信息;
检索条件输入部,其用于输入检索式;
检索条件解析部,其参照所述元素名词典与所述祖先路径名词典,将所述输入的检索式转换成内部条件式;和
出现信息取得部,其根据所述检索条件解析部输出的内部条件式,从来自所述元素出现信息存储部的元素出现信息、及来自所述祖先路径出现信息存储部的祖先路径出现信息中得到检索结果群。
10.根据权利要求9所述的数据库检索装置,其中,具有:
属性名词典,其记录与属性名ID对应的属性名;和
属性出现信息存储部,其以属性名ID作为关键字,存储至少包含目标属性出现的文档序号、字符位置、祖先路径名ID、元素名ID、分支顺序的信息的属性出现信息,
所述检索条件解析部,参照所述元素名词典、所述祖先路径名词典和所述属性名词典,将从所述检索条件输入部输入的检索式变成内部条件式;
所述出现信息取得部根据所述检索条件解析部输出的内部条件式,从来自所述元素出现信息存储部的元素出现信息、来自所述祖先路径出现信息存储部的祖先路径出现信息、及来自所述属性出现信息存储部的属性出现信息中得到检索结果群。
11.根据权利要求9所述的数据库检索装置,其中,
具有:文本出现信息存储部,关于从元素实体文本及属性值中所提取出的部分字符串,将所提取的部分字符串作为关键字,存储至少包含出现的文档序号、字符位置、祖先路径名ID、元素名ID、属性名ID、分支顺序的信息的文本出现信息,
所述出现信息取得部,根据所述检索条件解析部输出的内部条件式,从来自所述元素出现信息存储部的元素出现信息、来自所述祖先路径出现信息存储部的祖先路径出现信息、及来自所述文本出现信息存储部的文本出现信息中得到检索结果群。
12.根据权利要求9至11中任意一项所述的数据库检索装置,其中,
所述出现信息取得部,比较所述元素出现信息存储部中指定元素名ID的条目数与所述祖先路径出现信息存储部中指定祖先路径名ID的条目数的大小,参照条目数少的出现信息得到检索结果群。
13.一种数据库构筑方法,用于对结构化文档进行管理,其中,具有如下步骤:
向结构化文档分配唯一的文档序号并解析结构的步骤;
根据所述解析结果,对出现在结构化文档中的各元素名分配唯一的元素名ID并登记在元素名词典中的步骤;
根据所述解析结果,对出现在结构化文档中的祖先路径名分配唯一的祖先路径名ID并登记在祖先路径名词典中的步骤;和
根据所述解析结果,以元素名ID作为关键字,将至少包含目标元素出现的文档序号、字符位置、祖先路径名ID、分支顺序的信息的元素出现信息登记到元素出现信息存储部,并以祖先路径名ID作为关键字,将至少包含目标元素出现的文档序号、字符位置、元素名ID、分支顺序的信息的祖先路径出现信息登记到祖先路径出现信息存储部的步骤。
14.根据权利要求13所述的数据库构筑方法,
所述元素出现信息至少包含目标元素出现的文档序号、字符位置、祖先路径名ID、分支顺序、空元素顺序的信息,
所述祖先路径出现信息至少包含目标元素出现的文档序号、字符位置、元素名ID、分支顺序、空元素顺序的信息。
15.根据权利要求13所述的数据库构筑方法,其中,
在所述祖先路径名词典中进行登记的步骤是如下一种步骤:对将出现在结构化文档中的各祖先路径名分割成大于等于1个的各个部分祖先路径名,分配唯一的祖先路径名ID并进行登记的步骤,
在所述元素出现信息中,包含替代单个祖先路径名ID的、大于等于1个的祖先路径名ID的列,
在所述祖先路径出现信息存储部中,以替代单个祖先路径名ID的、大于等于1个的祖先路径名ID的列作为关键字,登记所述祖先路径出现信息。
16.根据权利要求13所述的数据库构筑方法,其中,具有如下的步骤:
将文档序号与字符位置以外的信息项目的值为共同的所述元素出现信息的条目进行分组,所述条目以相同的元素名ID作为关键字被登记在所述元素出现信息存储部中;将文档序号与字符位置以外的信息项目的值为共同的所述祖先路径出现信息的条目进行分组,所述条目以相同的祖先路径名ID作为关键字被登记在所述祖先路径出现信息存储部中。
17.一种数据库检索方法,用于通过数据库检索装置对结构化文档进行管理,其中,该数据库检索装置具有:
元素名词典,其对出现在结构化文档中的各元素名登记唯一的元素名ID;
祖先路径名词典,其对出现在所述结构化文档中的各祖先路径名登记唯一的祖先路径名ID;
元素出现信息存储部,其根据所述结构化文档的解析结果,以元素名ID作为关键字,存储至少包含目标元素出现的文档序号、字符位置、祖先路径名ID、分支顺序的信息的元素出现信息;和
祖先路径出现信息存储部,其根据所述结构化文档的解析结果,以祖先路径名ID作为关键字,存储至少包含目标元素出现的文档序号、字符位置、元素名ID、分支顺序的信息的祖先路径出现信息,
该数据库检索方法具有如下步骤:
用于输入检索式的步骤;
参照所述元素名词典与所述祖先路径名词典,将所述输入的检索式转换成内部条件式的步骤;和
根据所述内部条件式,从来自所述元素出现信息存储部的元素出现信息及从来自所述祖先路径出现信息存储部的祖先路径出现信息中得到检索结果群的步骤。
18.一种数据库装置,用于对结构化文档进行管理,其中,
所述数据库装置具有数据库构筑装置和数据库检索装置,
所述数据库构筑装置具备:
元素名词典,其对出现在结构化文档中的各元素名存储唯一的元素名ID;
祖先路径名词典,其对出现在所述结构化文档中的各祖先路径名存储唯一的祖先路径名ID;
输入文档解析部,其向结构化文档分配唯一的文档序号并解析结构;
元素名登记部,其根据所述输入文档解析部的解析结果,对出现在所述结构化文档中的各元素名分配唯一的元素名ID并登记在所述元素名词典中;
祖先路径名登记部,其根据所述输入文档解析部的解析结果,对出现在所述结构化文档中的各祖先路径名分配唯一的祖先路径名ID并登记在所述祖先路径名词典中;
元素出现信息存储部,其以元素名ID作为关键字存储至少包含文档序号、字符位置、祖先路径名ID、分支顺序的信息的元素出现信息;
祖先路径出现信息存储部,其以祖先路径名ID作为关键字存储至少包含文档序号、字符位置、元素名ID、分支顺序的信息的祖先路径出现信息;和
出现信息登记部,其根据所述输入文档解析部的解析结果,以目标元素的元素名ID作为关键字,在所述元素出现信息存储部中登记至少包含所述目标元素出现的文档序号、字符位置、祖先路径名ID、分支顺序的信息的元素出现信息,并且,以所述目标元素的祖先路径名ID作为关键字,在所述祖先路径出现信息存储部中登记至少包含所述目标元素出现的文档序号、字符位置、元素名ID、分支顺序的信息的祖先路径出现信息,
所述数据库检索装置具备:
检索条件输入部,其用于输入检索式;
检索条件解析部,其参照所述元素名词典与所述祖先路径名词典,将由所述检索条件输入部输入的检索式转换成分別用元素名ID和祖先路径名ID来表现元素名和祖先路径名的内部条件式;和
出现信息取得部,其从所述元素出现信息存储部中存储的元素出现信息及所述祖先路径出现信息存储部中存储的祖先路径出现信息中,提取符合由所述检索条件解析部生成的所述内部条件式的检索结果群数据。
19.根据权利要求18所述的数据库装置,其中,还具有:
属性名词典,其存储与属性名ID对应的属性名;
属性名登记部,其根据所述输入文档解析部的解析结果,对出现在所述结构化文档中的各属性名,分配唯一的属性名ID并登记在所述属性名词典中;和
属性出现信息存储部,其以属性名ID作为关键字,存储至少包含文档序号、字符位置、祖先路径名ID、元素名ID、分支顺序的信息的属性出现信息,
所述出现信息登记部,还根据所述输入文档解析部的解析结果,以属性名ID作为关键字,在属性出现信息存储部中,登记至少包含目标属性出现的文档序号、字符位置、祖先路径名ID、元素名ID、分支顺序的信息的属性出现信息,
所述检索条件解析部,还参照所述属性名词典,将由所述检索条件输入部输入的检索式转换成用属性名ID来表现属性名的内部条件式,
所述出现信息取得部,还从存储在所述元素出现信息存储部中的元素出现信息、存储在所述祖先路径出现信息存储部中的祖先路径出现信息、及存储在所述属性出现信息存储部中的属性出现信息中,提取符合所述检索条件解析部所输出的所述内部条件式的检索结果群数据。
CN 200580003630 2004-11-30 2005-09-27 数据库构筑装置、数据库检索装置、数据库装置、数据库构筑方法、以及数据库检索方法 Pending CN1914613A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP345392/2004 2004-11-30
JP2004345392 2004-11-30
JP131992/2005 2005-04-28

Publications (1)

Publication Number Publication Date
CN1914613A true CN1914613A (zh) 2007-02-14

Family

ID=37722638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200580003630 Pending CN1914613A (zh) 2004-11-30 2005-09-27 数据库构筑装置、数据库检索装置、数据库装置、数据库构筑方法、以及数据库检索方法

Country Status (1)

Country Link
CN (1) CN1914613A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290614B (zh) * 2007-04-17 2010-06-02 株式会社Pfu 字符管理系统
CN101271474B (zh) * 2007-03-20 2012-09-19 株式会社东芝 利用索引来搜索结构化文档的系统和方法
CN101446498B (zh) * 2007-11-30 2012-10-24 爱信艾达株式会社 设施信息输出装置、设施信息输出方法
CN107992292A (zh) * 2017-11-29 2018-05-04 商派软件有限公司 一种通过schema格式进行数据库定义的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271474B (zh) * 2007-03-20 2012-09-19 株式会社东芝 利用索引来搜索结构化文档的系统和方法
CN101290614B (zh) * 2007-04-17 2010-06-02 株式会社Pfu 字符管理系统
CN101446498B (zh) * 2007-11-30 2012-10-24 爱信艾达株式会社 设施信息输出装置、设施信息输出方法
CN107992292A (zh) * 2017-11-29 2018-05-04 商派软件有限公司 一种通过schema格式进行数据库定义的方法

Similar Documents

Publication Publication Date Title
CN1174332C (zh) 转换表达方式的方法和装置
CN1625740A (zh) 元数据的索引结构、提供元数据索引的方法、以及使用元数据的索引的元数据搜索方法和装置
CN1158627C (zh) 用于字符识别的方法和装置
CN1155906C (zh) 数据处理方法、系统、处理程序及记录媒体
CN1904896A (zh) 结构化文档处理装置、搜索装置及结构化文档系统和方法
CN1171162C (zh) 基于字符分类检索字符串的装置和方法
CN1248138C (zh) 图像处理方法与图像处理系统
CN1096036C (zh) 以格阵作关键字的字典检索装置和方法
CN1117160A (zh) 产生未知字母之字模的方法与系统
CN1707476A (zh) 辅助翻译搜索引擎系统及其方法
CN1533163A (zh) 电子节目指南数据的自由文本和属性搜索
CN1924858A (zh) 一种获取新词的方法、装置以及一种输入法系统
CN1368693A (zh) 用于全球化软件的方法和设备
CN1728140A (zh) 信息检索系统中基于短语的索引编制
CN1728142A (zh) 信息检索系统中的短语识别
CN1728141A (zh) 信息检索系统中基于短语的搜索
CN1728143A (zh) 基于短语产生文献说明
CN1315017A (zh) 包含内部引用的两种版本数据表格之间的差别提取
CN1942877A (zh) 信息提取系统
CN1217512A (zh) 文件图象处理设备及其方法
CN1682217A (zh) 媒体资料合成
CN101080927A (zh) 内容推荐装置
CN1313561A (zh) 信息结构化及应用产生的方法及其装置
CN1786947A (zh) 基于网页页面布局提取网页核心内容的系统、方法和程序
CN1156779C (zh) 文献检索的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication