JP2002007439A - 文書情報を管理するidテーブル作成方法 - Google Patents

文書情報を管理するidテーブル作成方法

Info

Publication number
JP2002007439A
JP2002007439A JP2000189735A JP2000189735A JP2002007439A JP 2002007439 A JP2002007439 A JP 2002007439A JP 2000189735 A JP2000189735 A JP 2000189735A JP 2000189735 A JP2000189735 A JP 2000189735A JP 2002007439 A JP2002007439 A JP 2002007439A
Authority
JP
Japan
Prior art keywords
attribute
update
new
dtd
check
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000189735A
Other languages
English (en)
Inventor
Takehiko Saito
武彦 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000189735A priority Critical patent/JP2002007439A/ja
Publication of JP2002007439A publication Critical patent/JP2002007439A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 DTDを持たない文書にも対応可能な文書情
報を管理するIDテーブル作成方法を得る。 【解決手段】 IDテーブルの名称データによりDTD
に関係付けられていないXML文書からの要素・属性を
自動抽出し(S1)と、ON/OFFのフラグの設定を
可能とし、DTDの修正にともなう要素・属性の追加、
更新の有無のチェックを行い(S2)、更新のあった場
合に新規追加か否かのチェックを行い(S3)、チェッ
クの結果が新規追加である場合にテーブルを拡大する
(S4)。さらに、同一要素名の属性更新か否かのチェ
ックを行い(S5)、チェック結果が属性更新である場
合には「OFF」を設定し(S6)、新規にIDを割り
振る(S7)。この要素・属性自動抽出工程(S1)か
ら新規ID割り振り工程(S7)までの工程を、ターゲ
ットとなる全文書終了まで繰り返し実行し(S8)、新
たなIDテーブルを作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書情報を管理す
るIDテーブル作成方法(ID table)に関する。更に詳
述すると、本発明は、DTD(Document Type Definitio
n/文書型定義)を利用し、要素・属性のID(identifica
tion) tableを作成することでコンパクト化の利点を持
つXML(eXtensible Markup Language)文書インデック
スに対して、DTDに関係づけられていないXML文書
からの要素・属性の自動抽出、およびDTD修正にとも
なう要素・属性の追加、更新に関する、文書情報を管理
するIDテーブル作成方法に関する。
【0002】
【従来の技術】従来、文書情報を管理するIDテーブル
作成方法は、例えば、XML文書からの要素・属性の自
動抽出および、DTD修正にともなう要素・属性の追
加、更新に関する方法として適用される。
【0003】上記XMLは、データベースやアプリケー
ション間のデータ交換を行うためのWWW 上の共通データ
交換形式として広まり始めている。XML文書の格納や
検索処理の向上のためインデックスに関する研究も多
く、NECのPERCIO/MMDCL(参考;北野
拓哉、波内 みさ、“半構造化データモデルに基づくX
ML文書の格納と検索及びその実装方法”、情報処理学
会研究報告、99-DBS-117,Vol.99, No6,pp.31-38Janu.19
99. )では、XML文書の要素や属性など定義を記述す
るDTDを利用することで、要素や属性をIDで整列さ
せインデックスの小メモリ化を可能にしている。よっ
て、本工夫は有効である。
【0004】図6に示す従来例1の手順のXMLParser
により、XML文書1をデータベース2に格納時に、解
析処理により要素・属性情報を抽出する。XMLParse
・解析により解析された文書要素3aおよび解析された
要素属性3bが得られる。これらの抽出された解析結果
3は、文書中の要素間の親子関係(ネストした要素)
や、兄弟関係(要素の並び)を表現する木形式の構造を
持つ。この解析結果情報(別称;解析木)を基に、イン
デックスを作成する。従来のDTDを利用した場合で
は、既に解析済みのDTD情報を基にIDテーブルが作
成され、このように解析された解析木のデータにそっ
て、インデックスデータとなるIDが割り振られてゆ
く。
【0005】本発明と技術分野の類似する先願発明例1
として、構造化文書に対する曖昧な条件指定からの文書
要素検索を可能とし、また曖昧な構造条件指定によって
も検索性能を劣化させない検索の実現を課題とした、特
開2000−57163号公報の「構造化文書データベ
ースシステム」がある。
【0006】また、先願発明例2として、目的とする理
論構造だけを対象に指定する構造指定検索を高速に実現
可能とすることを課題とした、特開2000−3366
号公報の「文書登録方法と文書検索方法及びその実施装
置並びにその処理プログラムを記録した媒体」がある。
【0007】
【発明が解決しようとする課題】しかしながら、上記の
従来技術が有効的に適用されるためには、XML文書が
必ず対応するDTDを持つということが活用上に条件付
けられるという問題点を伴う。例えば、上記従来例1の
DTDに関係づけられていないXML文書に対しては、
あらかじめIDテーブルを準備することはできない。
【0008】完全なSGML(Standard Generalized Ma
rkup Language)文法解釈のDTDは求められるものの、
現在、W3C(The World Wide Web Consortium /WW
Wコンソーシアム)により定められつつあるXMLSche
maなどの利用により、あらかじめ定義された文書要素型
を参照利用するなど、今後はDTDを改めて規定しない
で文書が作成される場合が増えると予想される。
【0009】本発明は、DTDを持たない文書にも対応
可能な文書情報を管理するIDテーブル作成方法を提供
することを目的とする。
【0010】
【課題を解決するための手段】かかる目的を達成するた
め、本発明の文書情報を管理するIDテーブル作成方法
は、IDテーブルの名称データによりDTDに関係づけ
られていないXML文書からの要素・属性を自動抽出す
る要素・属性自動抽出工程(S1)と、ON/OFFの
フラグの設定を可能としDTDの修正にともなう要素・
属性の追加、更新の有無のチェックを行う更新チェック
工程(S2)と、更新チェック工程において更新のあっ
た場合に新規追加か否かのチェックを行う新規追加チェ
ック工程(S3)と、新規追加チェック工程でのチェッ
クの結果が新規追加である場合にテーブルを拡大するテ
ーブル拡大工程(S4)と、同一要素名の属性更新か否
かのチェックを行う属性更新チェック工程(S5)と、
属性更新チェック工程でのチェック結果が属性更新であ
る場合には「OFF」を設定するOFF設定工程(S
6)と、新規にIDを割り振る新規ID割り振り工程
(S7)と、要素・属性自動抽出工程(S1)から新規
ID割り振り工程(S7)までの工程を、ターゲットと
なる全文書終了まで繰り返し実行し(S8)、新たなI
Dテーブルを作成することを特徴としている。
【0011】また、上記の更新チェック工程は、チェッ
クの結果が属性更新である場合にこの属性更新の状態を
記憶する工程を含み、この属性更新に伴う「OFF」の
設定は、当該設定前に設定された有効の削除と新規ID
の追加として解釈され、属性更新チェック工程における
同一要素名の属性更新による修正でない場合は、OFF
設定工程の「OFF」の設定および新規ID割り振り工
程における新規IDの割り振りは、実行されないとする
とよい。
【0012】さらに、上記の要素・属性自動抽出工程
(S1)において、自動抽出された要素が既に登録され
ている要素であるか否かが確認され、DTD修正にとも
なう要素・属性の追加、更新時に更新のなかった場合、
または更新があっても新規追加でない場合は、テーブル
拡大は実行されないこととするとよい。
【0013】
【発明の実施の形態】次に、添付図面を参照して本発明
による文書情報を管理するIDテーブル作成方法の実施
の形態を詳細に説明する。図1から図5を参照すると、
本発明の文書情報を管理するIDテーブル作成方法の一
実施形態が示されている。
【0014】図1は、解析された各文書要素情報E1、
E2、・・、Enについて、対応するIDテーブルを作成
する手順を概念的に表している。また、図2のIDテー
ブルが、図1の手順の文書情報を管理するIDテーブル
作成方法に基づき得られるIDテーブルの概要図であ
る。
【0015】図1のステップS1において、図2のID
テーブルの名称データにより、DTDに関係付けられて
いないXML文書からの要素・属性を自動抽出してい
く。この過程で、既に登録されている要素であるかを確
認する(S1)。
【0016】更に、ON/OFFのフラグの設定を可能
とし、DTD修正にともなう要素・属性の追加、更新時
に更新のあった場合であり(S2/YES)、新規追加
の場合は(S3/YES)、そのままテーブルを拡大す
る(S4)。なお、上記において、DTD修正にともな
う要素・属性の追加、更新時に更新のなかった場合(S
2/NO)、および更新があっても(S3/YES)、
新規追加でない場合は(S3/NO)、テーブル拡大は
実行されない。
【0017】同一要素名の属性更新による修正において
は(S5/YES)、「OFF」を設定し(S6)、新
規にIDを割り振ることで(S7)、更新状態を記憶す
る。なお、本実施形態においては、更新は、有効の削除
(OFF)と追加として解釈される。また、同一要素名
の属性更新による修正でない場合は(S5/NO)、
「OFF」の設定(S6)および新規IDの割り振り
(S7)は、実行されない。
【0018】なお、上記の要素・属性を抽出して既登録
要素であるか否かの確認(S1)から新規にIDの割り
振り(S7)までは、ターゲットとなる全文書終了まで
(S8/YES)繰り返し実行される。
【0019】上記実施形態の手順によれば、IDテーブ
ルを生成しながら解析木のデータに沿って、インデック
スデータとなるIDを割り振るという処理が実行され
る。この処理において、テーブルの情報に既にIDが登
録されていればIDテーブルを変更せず、登録済みでな
ければ新規にIDを割り振ってIDテーブルを作成して
いく。
【0020】これを図3で示すと、解析結果である解析
木を構成する要素(N1、N2)に対して、IDテーブ
ルに登録のない初期状態の場合、N1をIDテーブルに
新規登録する。解析木の次の要素となるN2に対して、
IDテーブルをN2の要素名により検索する。既に登録
済みのN1の要素名と、N2の要素名が異なる場合は、
IDテーブルにN1を新規登録する。但し、同一である
場合は、登録しない。
【0021】このIDテーブルを生成しながらインデッ
クスデータを作っていくという操作は、上述した従来の
方法に比べて、新規にIDテーブルが追加される場合の
処理のみのオーバーヘッドであり、またIDテーブル自
体は単調な構造である。このため、生成時の性能劣化を
最小限度に押さえることができる。
【0022】次に、XML文書の定義情報が更新された
場合について本発明の適用を説明する。図4のように、
DTD更新にともない、新しい要素の追加(図4のEn
+1)や、要素属性が更新された場合(図4のE2)に
ついて説明する。本実施形態においては、ある要素の属
性が追加されたり削除された場合など要素の定義が更新
された場合は、更新前に割り当てられたIDテーブル上
のIDは既に有効ではない(OFF)とし、更新後の要
素に対応する新しいIDテーブル上のIDを割り当て
る。
【0023】上記の操作を図5を用いて説明する。更新
された要素E2に対して、更新前のIDテーブルで、要
素E2のID2で、ONを設定していたカラムをOFF
とし、IDテーブルに新規にIDn+2を割り振ってこ
れを要素E2のIDとし管理する。新規に追加された要
素En+1については、新しいIDテーブル上のIDを
割り当てる。従って、更新や新要素追加の場合は、イン
デックス再作成の必要もない。
【0024】しかし、更新が極端に度重なる場合に、I
Dテーブルの大きさが増大し続けるため、この場合性能
上、再度インデックスの更新をする必要が生じる。しか
し、極端に更新される場合は、文書自体の構成や種類が
大きく変更されることを意味する。このため、インデッ
クス再作成は妥当である。
【0025】(効果)本実施形態の効果は、従来工夫さ
れてきた要素や属性のID化によるインデックスの構造
を継承して、同インデックスの効果はそのまま適用さ
れ、しかも、DTDに関係づけられていないXML文書
を取り扱うことができる。また、検索性能を保持したま
ま扱えるXML文書の幅を広げることができる。
【0026】更に、この自動抽出の方法を利用し、DT
Dの要素、属性定義が追加されたり更新された場合に応
用し、更新によるインデックスの再作成を最小限度にす
ることができ、マイナーな更新が頻繁に行われる状態に
適用することができる。
【0027】(他の実施例)本発明では、DTDを利用
し、要素・属性のIDテーブルを作成することでコンパ
クト化の利点を持つXML文書インデックスに対して適
用される方法である。よって、XMLのような半構造の
データについて、随時基本情報を追加更新してゆく場合
に適用が可能である。例えば、基本情報が与えられて、
試行錯誤的に、情報を記憶していく場合など、パターン
認識の場合に、本実施形態の更新の方式を適用できる。
【0028】上記の実施形態によれば、NEC PER
CIO/MMDCLの構造化文書インデックスのように
DTDを利用し、要素・属性のIDテーブルを作成す
る。このDTDを利用した要素・属性のIDテーブルの
作成において、コンパクト化の利点を持つXML文書イ
ンデックスに対して、現在あるインデックス構造を利用
して、DTDを持たない文書にも対応可能な文書情報を
管理するIDテーブル作成方法を得る。
【0029】更に、この自動抽出の方法を利用し、XM
Lへ関係づけられているDTDに対して、要素、属性定
義が追加されたり更新された場合にも、インデックスデ
ータ作成時にIDテーブルを同時に更新してゆき、従来
のインデックスを保持したまま新規に登録されたXML
文書を取り扱うことができる。
【0030】尚、上述の実施形態は本発明の好適な実施
の一例である。但し、これに限定されるものではなく、
本発明の要旨を逸脱しない範囲内において種々変形実施
が可能である。
【0031】
【発明の効果】以上の説明より明らかなように、本発明
の文書情報を管理するIDテーブル作成方法は、IDテ
ーブルの名称データによりDTDに関係づけられていな
いXML文書からの要素・属性を自動抽出し、ON/O
FFのフラグの設定を可能としDTDの修正にともなう
要素・属性の追加、更新の有無のチェックを行う。この
チェックの結果が新規追加である場合にテーブルを拡大
し、同一要素名の属性更新である場合には「OFF」を
設定し、新規にIDを割り振る。これらの要素・属性自
動抽出から新規ID割り振りまでの工程を、ターゲット
となる全文書終了まで繰り返し実行し、新たなIDテー
ブルを作成する。
【0032】上記の手順によれば、コンパクト化の利点
を持つXML文書インデックスに対し、現在あるインデ
ックス構造を利用して、DTDを持たない文書にも対応
可能な文書情報を管理するIDテーブルが作成される。
【図面の簡単な説明】
【図1】本発明の文書情報を管理するIDテーブル作成
方法の実施形態を示すフローチャートである。
【図2】図1の手順に基づき得られるIDテーブルの概
要図である。
【図3】解析手順を説明するための図である。
【図4】DTD更新にともなう新しい要素の追加手順を
説明するための図である。
【図5】更新後の要素に対応する新しいIDテーブル上
のIDを割り当てる手順を説明するための図である。
【図6】従来の解析処理により要素・属性情報を抽出す
る手順を説明するための図である。
【符号の説明】
1 XML文書 2 データベース 3 解析結果 3a 文書要素 3b 要素属性 E 文書要素情報

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 IDテーブルの名称データによりDTD
    に関係づけられていないXML文書からの要素・属性を
    自動抽出する要素・属性自動抽出工程(S1)と、 ON/OFFのフラグの設定を可能としDTDの修正に
    ともなう要素・属性の追加、更新の有無のチェックを行
    う更新チェック工程(S2)と、 前記更新チェック工程において更新のあった場合に新規
    追加か否かのチェックを行う新規追加チェック工程(S
    3)と、 前記新規追加チェック工程でのチェックの結果が新規追
    加である場合にテーブルを拡大するテーブル拡大工程
    (S4)と、 同一要素名の属性更新か否かのチェックを行う属性更新
    チェック工程(S5)と、 前記属性更新チェック工程でのチェック結果が属性更新
    である場合には「OFF」を設定するOFF設定工程
    (S6)と、 新規にIDを割り振る新規ID割り振り工程(S7)
    と、 前記要素・属性自動抽出工程(S1)から新規ID割り
    振り工程(S7)までの工程を、ターゲットとなる全文
    書終了まで繰り返し実行し(S8)、 新たなIDテーブルを作成することを特徴とする文書情
    報を管理するIDテーブル作成方法。
  2. 【請求項2】 前記更新チェック工程は、チェックの結
    果が属性更新である場合に該属性更新の状態を記憶する
    工程を含むことを特徴とする請求項1記載の文書情報を
    管理するIDテーブル作成方法。
  3. 【請求項3】 前記属性更新に伴う「OFF」の設定
    は、当該設定前に設定された有効の削除と新規IDの追
    加として解釈されることを特徴とする請求項1または2
    に記載の文書情報を管理するIDテーブル作成方法。
  4. 【請求項4】 前記属性更新チェック工程における同一
    要素名の属性更新による修正でない場合は、前記OFF
    設定工程の「OFF」の設定および前記新規ID割り振
    り工程における新規IDの割り振りは、実行されないこ
    とを特徴とする請求項1から3の何れかに記載の文書情
    報を管理するIDテーブル作成方法。
  5. 【請求項5】 前記要素・属性自動抽出工程(S1)に
    おいて、自動抽出された要素が既に登録されている要素
    であるか否かが確認されることを特徴とする請求項1か
    ら4の何れかに記載の文書情報を管理するIDテーブル
    作成方法。
  6. 【請求項6】 前記DTD修正にともなう要素・属性の
    追加、更新時に更新のなかった場合、または更新があっ
    ても新規追加でない場合は、テーブル拡大は実行されな
    いことを特徴とする請求項1から5の何れかに記載の文
    書情報を管理するIDテーブル作成方法。
JP2000189735A 2000-06-20 2000-06-20 文書情報を管理するidテーブル作成方法 Pending JP2002007439A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000189735A JP2002007439A (ja) 2000-06-20 2000-06-20 文書情報を管理するidテーブル作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000189735A JP2002007439A (ja) 2000-06-20 2000-06-20 文書情報を管理するidテーブル作成方法

Publications (1)

Publication Number Publication Date
JP2002007439A true JP2002007439A (ja) 2002-01-11

Family

ID=18689326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000189735A Pending JP2002007439A (ja) 2000-06-20 2000-06-20 文書情報を管理するidテーブル作成方法

Country Status (1)

Country Link
JP (1) JP2002007439A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100493882B1 (ko) * 2002-10-23 2005-06-10 삼성전자주식회사 Xml 데이터 검색을 위한 질의 처리 방법
JP2007234050A (ja) * 2002-05-08 2007-09-13 Overture Services Inc コンピュータネットワークサーチエンジンにより発生されるサーチ結果リスト上の位置に作用するシステム及び方法における拡張可能なマークアップ言語の使用
KR100762712B1 (ko) 2005-12-13 2007-10-02 한국과학기술정보연구원 규칙기반의 전자문서 변환방법 및 그 시스템
CN100354822C (zh) * 2004-07-09 2007-12-12 中国电子技术标准化研究所 不同语种xml文档转换的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003366A (ja) * 1998-06-11 2000-01-07 Hitachi Ltd 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003366A (ja) * 1998-06-11 2000-01-07 Hitachi Ltd 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007234050A (ja) * 2002-05-08 2007-09-13 Overture Services Inc コンピュータネットワークサーチエンジンにより発生されるサーチ結果リスト上の位置に作用するシステム及び方法における拡張可能なマークアップ言語の使用
US7698281B2 (en) 2002-05-08 2010-04-13 Yahoo! Inc. Use of extensible markup language in a system and method for influencing a position on a search result list generated by a computer network search engine
JP4689641B2 (ja) * 2002-05-08 2011-05-25 ヤフー! インコーポレイテッド コンピュータネットワークサーチエンジンにより発生されるサーチ結果リスト上の位置に作用するシステム及び方法における拡張可能なマークアップ言語の使用
KR100493882B1 (ko) * 2002-10-23 2005-06-10 삼성전자주식회사 Xml 데이터 검색을 위한 질의 처리 방법
CN100354822C (zh) * 2004-07-09 2007-12-12 中国电子技术标准化研究所 不同语种xml文档转换的方法
KR100762712B1 (ko) 2005-12-13 2007-10-02 한국과학기술정보연구원 규칙기반의 전자문서 변환방법 및 그 시스템

Similar Documents

Publication Publication Date Title
JP4189416B2 (ja) 構造化文書管理システム及びプログラム
US7281206B2 (en) Maintenance of a markup language document in a database
US7870163B2 (en) Implementation of backward compatible XML schema evolution in a relational database system
US7386567B2 (en) Techniques for changing XML content in a relational database
US7440954B2 (en) Index maintenance for operations involving indexed XML data
US7664773B2 (en) Structured data storage method, structured data storage apparatus, and retrieval method
US8495085B2 (en) Supporting efficient partial update of hierarchically structured documents based on record storage
US6449620B1 (en) Method and apparatus for generating information pages using semi-structured data stored in a structured manner
US7627615B2 (en) Copy-on-write versioning of documents
US8924837B2 (en) Text file interface support in an object oriented application
US20040163041A1 (en) Relational database structures for structured documents
JP5152877B2 (ja) 文書ベースシステムにおける文書データ記憶方法およびその装置
JP2007226452A (ja) 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法
US7457812B2 (en) System and method for managing structured document
US20060007464A1 (en) Structured data update and transformation system
US20040225963A1 (en) Dynamic maintenance of web indices using landmarks
JP4247108B2 (ja) 構造化文書検索方法、構造化文書検索装置、及びプログラム
US7159171B2 (en) Structured document management system, structured document management method, search device and search method
CN113704575A (zh) 解析XML与Java文件的SQL方法、装置、设备及存储介质
JP2010079646A (ja) 構造化文書検索装置、方法及びプログラム
US8001110B2 (en) Apparatus, method, and computer program product for processing databases
JP4724177B2 (ja) Xmlデータにアクセスするためのインデックス
JP2002007439A (ja) 文書情報を管理するidテーブル作成方法
JP4866844B2 (ja) Lobに格納されたxml内容の効率的な抽出
JP4289022B2 (ja) 構造化文書処理方法及び装置及び構造化文書処理プログラム及び構造化文書処理プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040802

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040907