JP2002007439A

JP2002007439A - 文書情報を管理するｉｄテーブル作成方法

Info

Publication number: JP2002007439A
Application number: JP2000189735A
Authority: JP
Inventors: Takehiko Saito; 武彦齋藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2000-06-20
Filing date: 2000-06-20
Publication date: 2002-01-11

Abstract

(57)【要約】【課題】ＤＴＤを持たない文書にも対応可能な文書情
報を管理するＩＤテーブル作成方法を得る。【解決手段】ＩＤテーブルの名称データによりＤＴＤ
に関係付けられていないＸＭＬ文書からの要素・属性を
自動抽出し（Ｓ１）と、ＯＮ／ＯＦＦのフラグの設定を
可能とし、ＤＴＤの修正にともなう要素・属性の追加、
更新の有無のチェックを行い（Ｓ２）、更新のあった場
合に新規追加か否かのチェックを行い（Ｓ３）、チェッ
クの結果が新規追加である場合にテーブルを拡大する
（Ｓ４）。さらに、同一要素名の属性更新か否かのチェ
ックを行い（Ｓ５）、チェック結果が属性更新である場
合には「ＯＦＦ」を設定し（Ｓ６）、新規にＩＤを割り
振る（Ｓ７）。この要素・属性自動抽出工程（Ｓ１）か
ら新規ＩＤ割り振り工程（Ｓ７）までの工程を、ターゲ
ットとなる全文書終了まで繰り返し実行し（Ｓ８）、新
たなＩＤテーブルを作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書情報を管理す
るＩＤテーブル作成方法（ID table）に関する。更に詳
述すると、本発明は、ＤＴＤ(Document Type Definitio
n/文書型定義)を利用し、要素・属性のＩＤ(identifica
tion) tableを作成することでコンパクト化の利点を持
つＸＭＬ(eXtensible Markup Language)文書インデック
スに対して、ＤＴＤに関係づけられていないＸＭＬ文書
からの要素・属性の自動抽出、およびＤＴＤ修正にとも
なう要素・属性の追加、更新に関する、文書情報を管理
するＩＤテーブル作成方法に関する。

【０００２】

【従来の技術】従来、文書情報を管理するＩＤテーブル
作成方法は、例えば、ＸＭＬ文書からの要素・属性の自
動抽出および、ＤＴＤ修正にともなう要素・属性の追
加、更新に関する方法として適用される。

【０００３】上記ＸＭＬは、データベースやアプリケー
ション間のデータ交換を行うためのWWW 上の共通データ
交換形式として広まり始めている。ＸＭＬ文書の格納や
検索処理の向上のためインデックスに関する研究も多
く、ＮＥＣのＰＥＲＣＩＯ／ＭＭＤＣＬ（参考；北野
拓哉、波内みさ、“半構造化データモデルに基づくＸ
ＭＬ文書の格納と検索及びその実装方法”、情報処理学
会研究報告、99-DBS-117,Vol.99, No6,pp.31-38Janu.19
99. ）では、ＸＭＬ文書の要素や属性など定義を記述す
るＤＴＤを利用することで、要素や属性をＩＤで整列さ
せインデックスの小メモリ化を可能にしている。よっ
て、本工夫は有効である。

【０００４】図６に示す従来例１の手順のＸＭＬParser
により、ＸＭＬ文書１をデータベース２に格納時に、解
析処理により要素・属性情報を抽出する。ＸＭＬParse
・解析により解析された文書要素３ａおよび解析された
要素属性３ｂが得られる。これらの抽出された解析結果
３は、文書中の要素間の親子関係（ネストした要素）
や、兄弟関係（要素の並び）を表現する木形式の構造を
持つ。この解析結果情報（別称；解析木）を基に、イン
デックスを作成する。従来のＤＴＤを利用した場合で
は、既に解析済みのＤＴＤ情報を基にＩＤテーブルが作
成され、このように解析された解析木のデータにそっ
て、インデックスデータとなるＩＤが割り振られてゆ
く。

【０００５】本発明と技術分野の類似する先願発明例１
として、構造化文書に対する曖昧な条件指定からの文書
要素検索を可能とし、また曖昧な構造条件指定によって
も検索性能を劣化させない検索の実現を課題とした、特
開２０００−５７１６３号公報の「構造化文書データベ
ースシステム」がある。

【０００６】また、先願発明例２として、目的とする理
論構造だけを対象に指定する構造指定検索を高速に実現
可能とすることを課題とした、特開２０００−３３６６
号公報の「文書登録方法と文書検索方法及びその実施装
置並びにその処理プログラムを記録した媒体」がある。

【０００７】

【発明が解決しようとする課題】しかしながら、上記の
従来技術が有効的に適用されるためには、ＸＭＬ文書が
必ず対応するＤＴＤを持つということが活用上に条件付
けられるという問題点を伴う。例えば、上記従来例１の
ＤＴＤに関係づけられていないＸＭＬ文書に対しては、
あらかじめＩＤテーブルを準備することはできない。

【０００８】完全なＳＧＭＬ(Standard Generalized Ma
rkup Language)文法解釈のＤＴＤは求められるものの、
現在、Ｗ３Ｃ（The World Wide Web Consortium ／ＷＷ
Ｗコンソーシアム）により定められつつあるＸＭＬSche
maなどの利用により、あらかじめ定義された文書要素型
を参照利用するなど、今後はＤＴＤを改めて規定しない
で文書が作成される場合が増えると予想される。

【０００９】本発明は、ＤＴＤを持たない文書にも対応
可能な文書情報を管理するＩＤテーブル作成方法を提供
することを目的とする。

【００１０】

【課題を解決するための手段】かかる目的を達成するた
め、本発明の文書情報を管理するＩＤテーブル作成方法
は、ＩＤテーブルの名称データによりＤＴＤに関係づけ
られていないＸＭＬ文書からの要素・属性を自動抽出す
る要素・属性自動抽出工程（Ｓ１）と、ＯＮ／ＯＦＦの
フラグの設定を可能としＤＴＤの修正にともなう要素・
属性の追加、更新の有無のチェックを行う更新チェック
工程（Ｓ２）と、更新チェック工程において更新のあっ
た場合に新規追加か否かのチェックを行う新規追加チェ
ック工程（Ｓ３）と、新規追加チェック工程でのチェッ
クの結果が新規追加である場合にテーブルを拡大するテ
ーブル拡大工程（Ｓ４）と、同一要素名の属性更新か否
かのチェックを行う属性更新チェック工程（Ｓ５）と、
属性更新チェック工程でのチェック結果が属性更新であ
る場合には「ＯＦＦ」を設定するＯＦＦ設定工程（Ｓ
６）と、新規にＩＤを割り振る新規ＩＤ割り振り工程
（Ｓ７）と、要素・属性自動抽出工程（Ｓ１）から新規
ＩＤ割り振り工程（Ｓ７）までの工程を、ターゲットと
なる全文書終了まで繰り返し実行し（Ｓ８）、新たなＩ
Ｄテーブルを作成することを特徴としている。

【００１１】また、上記の更新チェック工程は、チェッ
クの結果が属性更新である場合にこの属性更新の状態を
記憶する工程を含み、この属性更新に伴う「ＯＦＦ」の
設定は、当該設定前に設定された有効の削除と新規ＩＤ
の追加として解釈され、属性更新チェック工程における
同一要素名の属性更新による修正でない場合は、ＯＦＦ
設定工程の「ＯＦＦ」の設定および新規ＩＤ割り振り工
程における新規ＩＤの割り振りは、実行されないとする
とよい。

【００１２】さらに、上記の要素・属性自動抽出工程
（Ｓ１）において、自動抽出された要素が既に登録され
ている要素であるか否かが確認され、ＤＴＤ修正にとも
なう要素・属性の追加、更新時に更新のなかった場合、
または更新があっても新規追加でない場合は、テーブル
拡大は実行されないこととするとよい。

【００１３】

【発明の実施の形態】次に、添付図面を参照して本発明
による文書情報を管理するＩＤテーブル作成方法の実施
の形態を詳細に説明する。図１から図５を参照すると、
本発明の文書情報を管理するＩＤテーブル作成方法の一
実施形態が示されている。

【００１４】図１は、解析された各文書要素情報Ｅ１、
Ｅ２、・・、Ｅｎについて、対応するＩＤテーブルを作成
する手順を概念的に表している。また、図２のＩＤテー
ブルが、図１の手順の文書情報を管理するＩＤテーブル
作成方法に基づき得られるＩＤテーブルの概要図であ
る。

【００１５】図１のステップＳ１において、図２のＩＤ
テーブルの名称データにより、ＤＴＤに関係付けられて
いないＸＭＬ文書からの要素・属性を自動抽出してい
く。この過程で、既に登録されている要素であるかを確
認する（Ｓ１）。

【００１６】更に、ＯＮ／ＯＦＦのフラグの設定を可能
とし、ＤＴＤ修正にともなう要素・属性の追加、更新時
に更新のあった場合であり（Ｓ２／ＹＥＳ）、新規追加
の場合は（Ｓ３／ＹＥＳ）、そのままテーブルを拡大す
る（Ｓ４）。なお、上記において、ＤＴＤ修正にともな
う要素・属性の追加、更新時に更新のなかった場合（Ｓ
２／ＮＯ）、および更新があっても（Ｓ３／ＹＥＳ）、
新規追加でない場合は（Ｓ３／ＮＯ）、テーブル拡大は
実行されない。

【００１７】同一要素名の属性更新による修正において
は（Ｓ５／ＹＥＳ）、「ＯＦＦ」を設定し（Ｓ６）、新
規にＩＤを割り振ることで（Ｓ７）、更新状態を記憶す
る。なお、本実施形態においては、更新は、有効の削除
（ＯＦＦ）と追加として解釈される。また、同一要素名
の属性更新による修正でない場合は（Ｓ５／ＮＯ）、
「ＯＦＦ」の設定（Ｓ６）および新規ＩＤの割り振り
（Ｓ７）は、実行されない。

【００１８】なお、上記の要素・属性を抽出して既登録
要素であるか否かの確認（Ｓ１）から新規にＩＤの割り
振り（Ｓ７）までは、ターゲットとなる全文書終了まで
（Ｓ８／ＹＥＳ）繰り返し実行される。

【００１９】上記実施形態の手順によれば、ＩＤテーブ
ルを生成しながら解析木のデータに沿って、インデック
スデータとなるＩＤを割り振るという処理が実行され
る。この処理において、テーブルの情報に既にＩＤが登
録されていればＩＤテーブルを変更せず、登録済みでな
ければ新規にＩＤを割り振ってＩＤテーブルを作成して
いく。

【００２０】これを図３で示すと、解析結果である解析
木を構成する要素（Ｎ１、Ｎ２）に対して、ＩＤテーブ
ルに登録のない初期状態の場合、Ｎ１をＩＤテーブルに
新規登録する。解析木の次の要素となるＮ２に対して、
ＩＤテーブルをＮ２の要素名により検索する。既に登録
済みのＮ１の要素名と、Ｎ２の要素名が異なる場合は、
ＩＤテーブルにＮ１を新規登録する。但し、同一である
場合は、登録しない。

【００２１】このＩＤテーブルを生成しながらインデッ
クスデータを作っていくという操作は、上述した従来の
方法に比べて、新規にＩＤテーブルが追加される場合の
処理のみのオーバーヘッドであり、またＩＤテーブル自
体は単調な構造である。このため、生成時の性能劣化を
最小限度に押さえることができる。

【００２２】次に、ＸＭＬ文書の定義情報が更新された
場合について本発明の適用を説明する。図４のように、
ＤＴＤ更新にともない、新しい要素の追加（図４のＥｎ
＋１）や、要素属性が更新された場合（図４のＥ２）に
ついて説明する。本実施形態においては、ある要素の属
性が追加されたり削除された場合など要素の定義が更新
された場合は、更新前に割り当てられたＩＤテーブル上
のＩＤは既に有効ではない（ＯＦＦ）とし、更新後の要
素に対応する新しいＩＤテーブル上のＩＤを割り当て
る。

【００２３】上記の操作を図５を用いて説明する。更新
された要素Ｅ２に対して、更新前のＩＤテーブルで、要
素Ｅ２のＩＤ２で、ＯＮを設定していたカラムをＯＦＦ
とし、ＩＤテーブルに新規にＩＤｎ＋２を割り振ってこ
れを要素Ｅ２のＩＤとし管理する。新規に追加された要
素Ｅｎ＋１については、新しいＩＤテーブル上のＩＤを
割り当てる。従って、更新や新要素追加の場合は、イン
デックス再作成の必要もない。

【００２４】しかし、更新が極端に度重なる場合に、Ｉ
Ｄテーブルの大きさが増大し続けるため、この場合性能
上、再度インデックスの更新をする必要が生じる。しか
し、極端に更新される場合は、文書自体の構成や種類が
大きく変更されることを意味する。このため、インデッ
クス再作成は妥当である。

【００２５】（効果）本実施形態の効果は、従来工夫さ
れてきた要素や属性のＩＤ化によるインデックスの構造
を継承して、同インデックスの効果はそのまま適用さ
れ、しかも、ＤＴＤに関係づけられていないＸＭＬ文書
を取り扱うことができる。また、検索性能を保持したま
ま扱えるＸＭＬ文書の幅を広げることができる。

【００２６】更に、この自動抽出の方法を利用し、ＤＴ
Ｄの要素、属性定義が追加されたり更新された場合に応
用し、更新によるインデックスの再作成を最小限度にす
ることができ、マイナーな更新が頻繁に行われる状態に
適用することができる。

【００２７】（他の実施例）本発明では、ＤＴＤを利用
し、要素・属性のＩＤテーブルを作成することでコンパ
クト化の利点を持つＸＭＬ文書インデックスに対して適
用される方法である。よって、ＸＭＬのような半構造の
データについて、随時基本情報を追加更新してゆく場合
に適用が可能である。例えば、基本情報が与えられて、
試行錯誤的に、情報を記憶していく場合など、パターン
認識の場合に、本実施形態の更新の方式を適用できる。

【００２８】上記の実施形態によれば、ＮＥＣＰＥＲ
ＣＩＯ／ＭＭＤＣＬの構造化文書インデックスのように
ＤＴＤを利用し、要素・属性のＩＤテーブルを作成す
る。このＤＴＤを利用した要素・属性のＩＤテーブルの
作成において、コンパクト化の利点を持つＸＭＬ文書イ
ンデックスに対して、現在あるインデックス構造を利用
して、ＤＴＤを持たない文書にも対応可能な文書情報を
管理するＩＤテーブル作成方法を得る。

【００２９】更に、この自動抽出の方法を利用し、ＸＭ
Ｌへ関係づけられているＤＴＤに対して、要素、属性定
義が追加されたり更新された場合にも、インデックスデ
ータ作成時にＩＤテーブルを同時に更新してゆき、従来
のインデックスを保持したまま新規に登録されたＸＭＬ
文書を取り扱うことができる。

【００３０】尚、上述の実施形態は本発明の好適な実施
の一例である。但し、これに限定されるものではなく、
本発明の要旨を逸脱しない範囲内において種々変形実施
が可能である。

【００３１】

【発明の効果】以上の説明より明らかなように、本発明
の文書情報を管理するＩＤテーブル作成方法は、ＩＤテ
ーブルの名称データによりＤＴＤに関係づけられていな
いＸＭＬ文書からの要素・属性を自動抽出し、ＯＮ／Ｏ
ＦＦのフラグの設定を可能としＤＴＤの修正にともなう
要素・属性の追加、更新の有無のチェックを行う。この
チェックの結果が新規追加である場合にテーブルを拡大
し、同一要素名の属性更新である場合には「ＯＦＦ」を
設定し、新規にＩＤを割り振る。これらの要素・属性自
動抽出から新規ＩＤ割り振りまでの工程を、ターゲット
となる全文書終了まで繰り返し実行し、新たなＩＤテー
ブルを作成する。

【００３２】上記の手順によれば、コンパクト化の利点
を持つＸＭＬ文書インデックスに対し、現在あるインデ
ックス構造を利用して、ＤＴＤを持たない文書にも対応
可能な文書情報を管理するＩＤテーブルが作成される。

【図面の簡単な説明】

【図１】本発明の文書情報を管理するＩＤテーブル作成
方法の実施形態を示すフローチャートである。

【図２】図１の手順に基づき得られるＩＤテーブルの概
要図である。

【図３】解析手順を説明するための図である。

【図４】ＤＴＤ更新にともなう新しい要素の追加手順を
説明するための図である。

【図５】更新後の要素に対応する新しいＩＤテーブル上
のＩＤを割り当てる手順を説明するための図である。

【図６】従来の解析処理により要素・属性情報を抽出す
る手順を説明するための図である。

【符号の説明】

１ＸＭＬ文書２データベース３解析結果３ａ文書要素３ｂ要素属性Ｅ文書要素情報

Claims

【特許請求の範囲】

【請求項１】ＩＤテーブルの名称データによりＤＴＤ
に関係づけられていないＸＭＬ文書からの要素・属性を
自動抽出する要素・属性自動抽出工程（Ｓ１）と、ＯＮ／ＯＦＦのフラグの設定を可能としＤＴＤの修正に
ともなう要素・属性の追加、更新の有無のチェックを行
う更新チェック工程（Ｓ２）と、前記更新チェック工程において更新のあった場合に新規
追加か否かのチェックを行う新規追加チェック工程（Ｓ
３）と、前記新規追加チェック工程でのチェックの結果が新規追
加である場合にテーブルを拡大するテーブル拡大工程
（Ｓ４）と、同一要素名の属性更新か否かのチェックを行う属性更新
チェック工程（Ｓ５）と、前記属性更新チェック工程でのチェック結果が属性更新
である場合には「ＯＦＦ」を設定するＯＦＦ設定工程
（Ｓ６）と、新規にＩＤを割り振る新規ＩＤ割り振り工程（Ｓ７）
と、前記要素・属性自動抽出工程（Ｓ１）から新規ＩＤ割り
振り工程（Ｓ７）までの工程を、ターゲットとなる全文
書終了まで繰り返し実行し（Ｓ８）、新たなＩＤテーブルを作成することを特徴とする文書情
報を管理するＩＤテーブル作成方法。
【請求項２】前記更新チェック工程は、チェックの結
果が属性更新である場合に該属性更新の状態を記憶する
工程を含むことを特徴とする請求項１記載の文書情報を
管理するＩＤテーブル作成方法。
【請求項３】前記属性更新に伴う「ＯＦＦ」の設定
は、当該設定前に設定された有効の削除と新規ＩＤの追
加として解釈されることを特徴とする請求項１または２
に記載の文書情報を管理するＩＤテーブル作成方法。
【請求項４】前記属性更新チェック工程における同一
要素名の属性更新による修正でない場合は、前記ＯＦＦ
設定工程の「ＯＦＦ」の設定および前記新規ＩＤ割り振
り工程における新規ＩＤの割り振りは、実行されないこ
とを特徴とする請求項１から３の何れかに記載の文書情
報を管理するＩＤテーブル作成方法。
【請求項５】前記要素・属性自動抽出工程（Ｓ１）に
おいて、自動抽出された要素が既に登録されている要素
であるか否かが確認されることを特徴とする請求項１か
ら４の何れかに記載の文書情報を管理するＩＤテーブル
作成方法。
【請求項６】前記ＤＴＤ修正にともなう要素・属性の
追加、更新時に更新のなかった場合、または更新があっ
ても新規追加でない場合は、テーブル拡大は実行されな
いことを特徴とする請求項１から５の何れかに記載の文
書情報を管理するＩＤテーブル作成方法。