JP3492246B2

JP3492246B2 - Ｘｍｌデータ検索処理方法および検索処理システム

Info

Publication number: JP3492246B2
Application number: JP20390799A
Authority: JP
Inventors: 和己久保田; 泰彦金政; 博石川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-07-16
Filing date: 1999-07-16
Publication date: 2004-02-03
Anticipated expiration: 2019-07-16
Also published as: JP2001034618A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】ＸＭＬデータはＷＥＢ情報
システムやＥＣ／ＥＤＩ応用で広く使われることが期待
されている。そのような応用は通常大量のＸＭＬデー
タを利用する。このため、第１にユーザがそのような応
用の柔軟な記述のために検索条件を指定してＸＭＬデー
タの必要な部分だけを検索できるようにする必要があ
る。また、第２に異なるデータソースのＸＭＬデータを
組み合わせて、新たなＸＭＬデータを生成できるように
する必要がある。本発明は、ＸＭＬデータのデータベー
スへの格納、検索のための格納構造、検索インデックス
の利用、検索言語の設計、実行最適化を含めた検索処理
を実現するＸＭＬデータ検索処理方法および検索処理シ
ステムに関する。

【０００２】

【従来の技術】従来のデータベースシステムではすべて
のデータを明示的で厳密なスキーマに当てはめることを
強制している。このことは多くの新しいＤＢアプリケー
ションに大きな負担となっている。たとえば、データは
不規則かもしれないので厳密なスキーマを受け入れない
かもしれない。たとえばリレーショナルシステムではnu
ll値は不正なデータを表現するのに用いる。ＯＤＢのコ
ンプレツクスデータ型や継承はその表現をより柔軟には
するが、不規則なデータを入れる適当なＯＯスキーマを
設計するのは依然として困難である。単一の正しいスキ
ーマを決めるのは難しい。データの構造はすぐに変わ
る。データは型を変えたり、あるいは以前の構造にあわ
ないようなデータが追加されるかもしれない。ＸＭＬで
記述されるデータは後で述べるように、あらかじめ回数
が厳密にさまつていないような繰り返し項目や欠損のあ
るデータを含んでいる。したがってＸＭＬデータの検索
に用いるシステムはここで述べたような不規則なデータ
を扱えるようなシステムである必要がある。

【０００３】図１０にＸＭＬデータの例を示す。これは
ある文献に関するデータをＸＭＬで表現したものであ
る。説明のために構造が比較的単純なものであるが、伝
票などのデータや技術文書などのデータも似たようなも
のになる。ここで説明に用いるＸＭＬデータのＤＴＤ
（Data type difinition: 文書型宣言）は図１１に示す
ようなものである。book等の後ろに付した＋は複数であ
ることを示し、このＸＭＬデータは、同図の〈!ELEMNT
〜〉で示すように、bib の中に複数のbookがあり、book
の中にtitle,複数のauthor,publisherがあり、title の
中に文字列からなる要素CMTAがある、…、というような
構造を持つ。

【０００４】図１０に示すようにＸＭＬデータは、タグ
で前後をはさまれた階層構造によって構成されている。
「<>」で囲まれた文字列がタグの名前である。タグには
タグ名を「< > 」で囲った開始タグとタグ名の前に「/
」がついている終了タグがある。開始タグと終了タグ
にはさまれたものをエレメント（要素）という。エレメ
ントは文字列であってもよいし、ほかのエレメントを入
れ子にしたものでもかまわない。エレメントのなかの文
字列をそのエレメントの値という。この例のＸＭＬで書
かれた文献情報には３つの本に関するデータが含まれて
いる。それぞれには１つのタイトル、１人以上の複数の
著者、１つの出版社に関する情報が記述されている。本
によって、著者の数は異なっており、その最大数はあら
かじめ規定されていない。このようなデータをたとえば
関係データベース（ＲＤＢ）に格納しようと考える場
合、例えば著者の最大数を決めて、著者１、著者２…と
いったようなフィールドをもつスキーマを定義すること
になる。しかしながら、その最大数を超える著者がいる
場合はそのデータを格納することができない。また、最
大数を多めに設定しておくと格納効率がわるくなってし
まうかもしれない。

【０００５】図１２はＸＭＬデータのインスタンスの全
体の構造を示している。なお、この図はＤＴＤの構造
（クラス階層）を示している図ではないことに注意され
たい。このモデルでは、ノードはエレメントの値を保持
するために用いられ、ノード間のリンクはエレメントを
囲っているタグの名前に相当する。いちばん下のリーフ
ノードにはエレメントの値が書かれている。この図は図
１０に示したＸＭＬデータを表現を変えて書いたもので
ある。たとえば、木の一番上にはノード番号０番のノー
ドがあるが、そこから、木を左下にたどっていくと、bi
b とラベルされたリンクを通って一番下のノードに至。
さらにたどるとbookとラベルされたリンクを経て２番の
ノードに、さらにはtitle とラベルされたリンクを経て
６番のノードに至る。６番のノードには" Ａ"という値
が記されている。これは、以下のＸＭＬの構造に対応し
ている。

【０００６】もちろん、これ以外の表現方法をとることも可能であ
り、たとえばこれとは双対になるが、ノードにタグ名を
保持するようなモデルも考えることができる。ここで示
したようなデータ構造を我々は半構造データと呼んでい
る。それに対して、あらかじめ厳密なスキーマを決定で
きるようなデータを構造データと考える。

【０００７】

【発明が解決しようとする課題】ところでＸＭＬで記述
された、ここで取り扱うようなデータ構造は、入れ子に
よる繰り返しや、データそのものが無いというような性
質をもっているので、いわゆるＲＤＢのスキーマではう
まく表現することができない。これはテーブルにすると
領域が無駄になるというような話ではなく、たとえばい
くつ繰り返されるかわからないような属性値をもつよう
な構造は、ふつうはＲＤＢの表形式ではそのまま表現で
きない。ところが世の中のデータ構造はおそらくテーブ
ルで表現できるものよりも木構造、さらには閉路のある
ようなグラフ構造で表現できるもののほうが当然多い。
このことをＸＭＬで記述されたデータについて考えてみ
ると、あらっぽい言い方であるがＸＭＬではＤＴＤのあ
るものと無いものにわけて考えることができる。

【０００８】ＤＴＤの無い物はノードとリンクというレ
ベルでしかクラスが既知ではなく、対象データの論理構
造はインスタンス間の物理構造を意味的に解釈すること
でしか得ることはできない。このようなものを非構造デ
ータと考える。ＤＴＤのあるＸＭＬデータは、これに比
べてデータの論理構造はＤＴＤによってあらかじめ規定
されているが、論理構造がきまれば全体の物理構造が１
つ決まるというものではなくて、繰り返しや値の欠損、
あるいはデータ型の解釈など依然として自由度の高いも
のである。そういう意味で、論理構造はあるが厳密でな
いことから構造データと非構造データの中間に位置する
ものとして半構造データと呼ぶ。我々が格納や検索の対
象として考えているのはこのような半構造データであ
る。ＸＭＬデータの構造は、このような半構造データの
一種と考えることができる。

【０００９】ところで、ＸＭＬデータに対して、ユーザ
が行いたいと考える検索処理にはどんなものが考えられ
るであろうか。ＸＭＬデータに対する検索要求のパター
ンを考えてみると、「指定したエレメントに特定の値を
もっているエレメントを見つけたい」、言い換えると
「あるパターンに適合する部分を取り出したい」という
ことになる。さて、そうやって見つけたあと、ユーザは
どうしたいであろうか。例えば、先ほど示したような木
構造のノードで条件を満たすノードのＩＤを得る。その
ノードから木の上を移動して別のノードに至る。そし
て、到達したノード（エレメント）の値を得る。という
ようなインタフェースを提供して、見つけた後はアプリ
ケーションで好きなような処理を行ってくださいという
のも１つの方法である。

【００１０】あるいは、パターンに適合したエレメント
から下のサブエレメントをまとめて得たいと考えるかも
しれない、あるいはもつと複雑な場合として、前記図１
０の例でいうと、著者が同じであるような本のタイトル
を組にして得たいというような複雑な検索要求もあり得
る。この場合も、木の上をたどるオペレーションの組み
あわせで実現することができる。しかしながら、効率よ
くそれを組み合わせるにはどうすればよいであろう図１
２の例ではbookが４つしかないが、例えば、これが数メ
ガ個になって、著者がその平均３倍いれば著者の組み合
わせの数はどうなるであろうか。

【００１１】上記した検索要求を図で示すと、例えば図
１３の太線に示すように、以下の○○の部分に”ＡＷ”
という値を持っているようなノードを枝に持っているbo
okノードを含む部分木を取り出すという要求として考え
ることができる。

【００１２】このような要求に対して条件を満たすもの
を効率的に見つけたりたどったりするにはどのようなイ
ンデックスを用意しておけばよいであろうか。また、検
索とは少し話がそれるが、そのような巨大なものをメモ
リ上で取り扱うのもなかなか大変である。自前でファイ
ルシステムをつかって管理するあるいは永続プログラミ
ング言語型のＯＯＤＢなども使えるかもしれない。しか
し、結局はユーザの検索要求から、実際に目的のデータ
を得るまでの実行最適化戦略をアプリケーションが立て
なくてはならない。以上のようにＸＭＬデータの検索処
理は、種々の問題があり、これらの問題に対処できる検
索システムが要望される。

【００１３】本発明は上記した事情に鑑みなされたもの
であって、本発明の目的は、蓄積されたＸＭＬデータの
中から指定された条件に適合する部分を検索し抽出する
処理を最適な手順で実行することにより、ＸＭＬデータ
の検索処理の性能を向上させることである。

【００１４】

【課題を解決するための手段】図１は本発明の概略構成
図である。同図に示すように、本発明は、検索要求の記
述手段１と、記述された検索要求を解析する解析手段２
と、検索要求の最適化を行う問い合わせ最適化手段３
と、基本操作列からなる検索処理手順を生成する検索手
順生成手段４と、生成された基本操作列を実行する実行
手段５と、実行の最適化を図る実行最適化手段６と、検
索を実行し検索結果を生成する結果生成手段７と、検索
結果の出力手段８と、ＸＭＬデータの格納手段９とを備
えている。上記問い合わせ最適化手段３は、検索実行の
前に、上記解析手段２により解析された検索要求の冗長
性を排除や、検索要求を副検索条件指定に分解し副検索
条件指定の入れ替え等の問い合わせの最適化を図る。上
記実行最適化手段６は、実行時にすでに行われた処理中
間結果を再利用する等の最適化を図る。また、上記検索
手順生成手段４は、検索要求に基づき、次のような基本
操作列からなる検索手順を生成する。（イ) ＸＭＬ木構造のルートからのパス記述と要素の値
の組から、それに該当する要素の識別子の集合を得る操
作。（ロ) ある要素の識別子を指定して、その要素の親関係
にあたる要素の識別子を得る操作。（ハ) ある要素の識別子を指定して、その要素の子関係
にあたる要素の識別子の集合を得る操作。（ニ) ある要素の識別子を指定して、その要素の値を得
る操作（ホ) ＸＭＬ木構造のルートからのパス記述から、それ
に該当する要素の識別子の集合を得る操作。本発明においては、上記のように、ＸＭＬ検索処理要求
として、検索すべきＸＭＬデータの適合条件と抽出項目
の指定からなる検索要求の記述をおこなうだけで、その
検索要求を満たすような検索処理の手順を自動的に生成
し実行するようにしたので、従来においては、複雑な検
索処理の手順を利用者が自分で記述しなければならなか
った作業を軽減することができ、また、検索抽出処理の
性能を向上させることができる。また、本発明は、次の
ように構成することもできる。（１) 検索を実行するに際し、あらかじめ構成された索
引を用いてＸＭＬの木構造をたどることにより、蓄積さ
れたＸＭＬデータのなかから指定された条件に適合する
部分を検索する。（２) 検索要求の記述を解析し、結果が空集合になるこ
とが予知できるような検索要求の部分については処理を
省略し、あるいは２つ以上の冗長な検索要求記述を１つ
の検索要求記述にまとめることにより検索処理を最適化
する。（３) 基本操作の実行にかかる平均的な実行時間をあら
かじめ収集しておき、検索要求から検索処理実行手順を
生成するに際し、同一な結果を得るための複数の実行手
順が存在する場合に、検索要求の全体の実行にかかる時
間を予測し、そのなかでもっとも実行時間の速い検索処
理実行手順を選択することにより最適化を図る。

【００１５】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。（１) 検索言語：ＸＱＬ本発明の実施例のシステムの説明の前に、まず、ＸＭＬ
データの検索言語であるＸＱＬについて説明する。ＲＤ
ＢにＳＱＬという検索言語がある。これをそのまま使っ
てアプリケーションを書いている人は少なく、通常はも
っと低レベルのＡＰＩ（アプリケーションプログラミン
グインタフェース) も組み合わせて使っている。これ
は、想定するアプリケーションにもよるし、使用目的
（使い方) にもよる。

【００１６】ＸＭＬについても同様のことがいえる。す
なわち、ＸＭＬのための検索言語として、１つはＸＳＬ
（スタイルシート) のパターン記述を拡張した条件指定
が可能な言語があり、また、もう１つはＲＤＢで言うと
ころのＳＱＬに相当するような検索言語ＸＱＬがある。
ここでは上記ＸＱＬを採用した場合の実施例について述
べる。なお、以下で述べるＸＱＬ検索言語(http://www.
w3.org/TandS/QL/98/pp/flab.doc) はＷ３Ｃのワークシ
ョップ(http://www.w3.org/TandS/QL/QL98/)で提案され
た公知の技術である。

【００１７】(a) ＸＭＬ問い合わせ言語ＸＱＬと検索結
果の例以下に、ＸＭＬ問い合わせ言語ＸＱＬと検索結果の例を
示す。

【００１８】この問い合わせの意味は「bib.paper.auth
or.position が良大工業大学であるような bib.paperに
ついて、bib.paper.title,bib.paper.author.name,bib.
paper.author.position を検索結果として得たい」とい
う意味である。ここで、bib.paper.author.position の
ように“."( ドット) で区切って表記したものをパス表
記と呼ぶ。この意味は、先に述べたＸＭＬデータを木構
造で表現した場合の特定のエレメントを示すノードの、
ルートノードからの絶対パスを指している。

【００１９】上記問い合わせ言語ＸＱＬについて簡単に
説明する。上記に示すように、問い合わせ文は大きく、
SELECT、FROM、WHERE の３つの部分に別れている。SELE
CTの部分では検索結果として得たいエレメントのプロジ
ェクションを指定する。FROMの部分では検索の対象とな
るエレメントを指定している。WHERE の部分では検索の
条件のセレクションを指定する。まず、FROMについて説
明する。FROMでは、問い合わせで用いる範囲変数を定義
している。ここで、範囲変数とは、問い合わせ中で用い
る変数で、WHERE の検索条件のセレクション記述やSELE
CTの検索結果として得たいエレメントのプロジェクショ
ンの指定に用いる。ここでは bib.paperが検索の対象と
なるエレメントで、それに対して $paper という範囲変
数名を割り当てている。

【００２０】この意味は、以下のWHERE の部分で条件指
定する際に、例えば、ここでは$paper. aUthor.positio
n = ″良大工業大学〃となっているが、paper.author.p
osition が" 良大工業大学" であるような $paper つま
り bib.paperが検索の対象となることを示している。つ
まり、WHERE で指定しているのは bib.paperを限定する
ための条件であり、bib.paper.author.position という
エレメントが検索の対象ではないということである。こ
のことは、WHERE で２つの条件がAND で結ばれて記述さ
れていたとして、例えば、下記のように記述されている
場合は以下に説明することを示していることとなる。

【００２１】 WHERE paper.author.position ＝ "良大工業大学" AND $paper.author.name:"久保田";

【００２２】すなわち、$paper.author.positionが”良
大工業大学”であるエレメントをサブエレメントとして
もつ $paper(つまり bib.paper) の集合と $paper.auth
or.name が“久保田" であるエレメントをサブエレメン
トとしてもつ $paper の集合の集合積を示していること
になる。なお、$paper.author.positionが”良大工業大
学”であるエレメントの集合とpaper.author.name が
“久保田" であるエレメントの集合の集合積ではないこ
とに注意されたい。上で述べたように、WHERE の部分で
はFROMで割り当てた範囲変数を用いて、検索対象となる
エレメントの集合を選択するための条件が言及されてい
る。ここの条件はAND やORを用いて複数の条件を指定す
ることができる。最後にSELECTの部分について説明す
る。SELECTは条件に適合したエレメントの集合に対し
て、その結果を得る際に出力するサブエレメントの選択
( プロジェクション) を指定する。

【００２３】上記の場合、SELECT result:<$paper.titl
e,$paper.author.name,$paper.author.position>となっ
ているのは、条件に適合した $paper(つまり bib.pape
r）のエレメント集合のサブエレメントのうち、$paper.
title,$paper.author.name,$paper.author.positionに
ついて選択して出力することを指定している。例えば、
bib.paper のサブエレメントに bib.paper.publisher.n
ame というサブエレメントがあったとしても、このサブ
エレメントは検索の結果出力には含まれない。この例で
はSELECTの一番はじめの部分に result:<paper.title ・
・・となっている。このresultを結果出力タグと呼ぶ。こ
のタグは検索結果をＸＭＬ形式で出力する際に、個々の
検索結果を囲むいちばん外側のエレメントとして用いら
れる。検索条件に適合するものが複数あれば、そのそれ
ぞれが結果出力タグによって囲まれることになる。これ
は、たとえば後で述べるようなセルフジョイン演算など
によって、エレメントの組の集合が検索結果となった場
合にどのエレメントが組みになっているかを示すのにも
用いられる。

【００２４】この問い合わせの例を実行した場合の結果
出力の例を図２に示す。この場合、図２に示すように、
条件を満たす bib.paperは１つでそれが result で囲ま
れて出力され、bib.paper.authorは３人いて、それぞれ
についてbib.paper.nameとbib.paper.positionが出力さ
れている。$paper.author.position＝”良大工業大学”
を満たしているのは最初に出力されているauthorの「田
金次彦」であるが、ここではこの条件を満たすようなサ
ブエレメントを含むbib.paper の集合を求めてそのサブ
エレメントを出力する問い合わせであるために、それ以
外のauthorについても結果として出力される。

【００２５】(ii)セルフジョインの例このセルフジョインはこの発明で提案するＸＱＬの機能
の特徴にもなっている。以下にセルフジョインの例を示
す。

【００２６】 SELECT result:<$paper1.title,$paper2.title> FROM paper1:bib.paper,paper2:bib.paper WHERE $paper1.author.name = $paper2.author.name;

【００２７】先に示した値による選択の例と比較して、
セルフジョインの例ではFROMで指定されている範囲変数
が２つになっていることに注意してほしい。ここでは$p
aper1 とpaper2の２つの変数が指定されている。両方と
も変数の動く範囲は bib.paperを指しているが、２つの
範囲変数は別々のものである。この２つの変数を用いて
WHERE では $paper1.author.name=paper2.author.name
という条件が記述されている。これが意味するところは
「ある bib.paper.author.nameともうひとつのbib.ppae
r.auther.nameが等しいような bib.paperの組をみつけ
て、それぞれ$paper1,$paper2 とする」ということであ
る。これによって、著者が同じである論文の組みを検索
することができる。

【００２８】この検索が値による検索と異なっている点
は、前者が特定の値を指定して、エレメントの値がそれ
に等しいものを検索するのに対して、後者は２つのエレ
メントの間で値が等しいようなエレメントの組を検索す
ることである。その結果、得られる結果も、前者がエレ
メントの集合であるのに対して、後者はエレメントの組
みの集合となる。この問い合わせの例を実行した場合の
結果出力の例を図３に示す。ここでは、図３に示すよう
に条件を満たす２組の検索結果が表示されている。ま
た、それぞれの組みごとに結果出力タグ(result)で囲ま
れている。

【００２９】(b) ＸＱＬの構文規則以上、例を用いてＸＱＬとその検索結果について簡単に
説明してきたが、次に、ＸＱＬのＢＭＦ形式での文法を
示す。図４、図５、図６にＢＭＦ（バッカス・ノーマル
・フォーム）形式での上記ＸＭＬ検索言語ＸＱＬの構文
規則を示す。同図において、list,quety,body,…等の小
文字は書き換え可能なものであり、下に書かれるものが
代入される。大文字は書き換えできない固定の文字列で
ある。また、"/^*"," ^*/"で囲まれた部分はコメントを
示し、" ｜”はORを表し、"SM"はセミコロンを表し、"・
LT"," GT" はそれぞれ" < " ，">" を表している。例え
ば、同図において、６行目の"xql" の後ろの"query" に
は、１１行目の"bodySM が代入され、"body " には、１
３行目の"selclose fromclose whereclose" または"sel
close whereclose" が代入される。さらに、"selclos"
には１６行目の"SELECT sel"が代入される。以下同様に
各小文字には下の行のものが代入される。図４、図５に
示した文法規則は、後述するように、ＸＱＬ文の構文チ
ェックに使用される。すなわち、本実施例のシステムに
入力されたＸＱＬ文は上記構文規則に基づき、文法が正
しいかがチェックされる。

【００３０】（２) システム構成以下、上記したＸＱＬにより検索処理を実施する場合の
本発明の実施例のシステムの構成について説明する。 (a) システムの基本構成図７に本発明の実施例のシステムの基本構成を示す。本
実施例のシステムは、同図に示すように、大きくわけ
て、テキストインタフェースなどのユーザインタフェー
ス部１０、ＸＱＬ処理系として、ＡＰＩ１１、ＸＱＬの
構文解析や問い合わせ実行計画生成などを行うＸＱＬ言
語処理部１２、生成された実行計画をもとに問い合わせ
を実行する実行エンジン１３、および、ＸＭＬデータや
ＸＭＬデータの検索インデックスを格納しているデータ
ベース１５に対してアクセスをおこなうための問い合わ
せ基本関数などからなる問い合わせオペレータ１４から
構成されている。以下、上記各構成要素について説明す
る。

【００３１】(i) ユーザインタフェース部ユーザインタフェース部１０は、テキストインタフェー
ス１０a 、ＨＴＭＬＧＵ１１０ｂ等を備えており、ＡＰ
Ｉ（アプリケーション・プログラミング・インタフェー
ス) １１を介してＸＱＬ言語処理部１２にアクセスす
る。テキストインタフェース１０ａは、ＸＱＬを入力し
ＸＭＬを結果として返すコマンドラインインタフェース
である。また、ＨＴＭＬＧＵＩ１０ｂは、テキストイン
タフェースにＧＵＩをかぶせたものであり、ＷＥＢから
のアクセスに対して、検索結果等をＷＥＢ画面上に表示
する。また、ユーザインタフェース部１０はＸＱＬを利
用するアプリケーション１０ｃとのインタフェース機能
を持つ。

【００３２】(ii)ＸＱＬ言語処理部ＸＱＬ言語処理部１２は、ＸＱＬパーザ１２a 、問い合
わせ実行計画生成部１２b 、問い合わせ最適化部１２c
を備えている。ＸＱＬパーザ１２ａは、前記図４〜図６
に示した構文規則により入力されたＸＱＬ文の構文チェ
ックを行い、問い合わせＸＱＬ構文木を生成する。問い
合わせ実行計画生成部１２ｂは、上記ＸＱＬ構文木をも
とに、問い合わせの実行プランを生成する。また、問い
合わせ最適化部１２ｃは、問い合わせの実行プランに対
して、後述するように実行順序の最適化などの静的な最
適化を行う。

【００３３】(iii) 実行エンジン実行エンジン１３は、問い合わせ実行部１３ａ、実行最
適化部１３b 、検索結果生成部１３ｃを備えている。問
い合わせ実行部１３ａは、生成された実行プランを実行
する。具体的には後述するように問い合わせ基本関数群
を呼び出し、実行プランを実行する。実行最適化部１３
ｂは、後述するように実行時にすでに手元にある中間結
果などを再利用したり、統計的な方法を用いてネステツ
ドループの内外を決めたりするなどの問い合わせの動的
な最適化を行う。検索結果生成部１３ｃは、検索結果に
もとづいて出力のためのＸＭＬデータを生成する。

【００３４】(iv)問い合わせオペレータ問い合わせオペレータ１４はＤＢ操作基本関数、問い合
わせ基本関数によりＸＭＬデータの検索インデックスを
格納しているデータベース１５に対してアクセスを行
う。問い合わせ基本関数は、ＸＭＬインデックスに対し
て操作を行う次の６種類のコマンド群からなる。なお、
各コマンドについては後述する。

【００３５】 GetNode IDbyPathAndVal GetParentIDbyChild GetChildIDbyParent GetValuebyID GetNodeIDbyPath GetlabelIDbylabeltext

【００３６】また、ＤＢ操作基本関数は、インデックス
が格納されているデータベースに対してセッションのオ
ープンクローズなどの制御を行う。なお、検索用インデ
ックスを複数用意し、問い合わせに応じて検索用インデ
ックスを使い分けるようにしてもよい。

【００３７】図８は上記システムの全体処理フローを示
す図である。同図において、ユーザインタフェース部１
０からＸＱＬによる検索要求があると（ステップＳ
１）、ＸＱＬ言語処理部１２のＸＱＬパーザ１２ａで
は、入力された検索要求を構文解析し、問い合わせ解析
木を生成する（ステップＳ２) 。ＸＱＬ言語処理部１２
の問い合わせ実行計画生成部１２ｂは、上記問い合わせ
解析木に基づき、問い合わせ実行計画を生成する（ステ
ップＳ３) 。ＸＱＬ言語処理部１２の問い合わせ最適化
部１２ｃでは、実行順序の最適化、結果が空集合になる
ような処理要求の省略等の静的な実行計画の最適化を行
う（ステップＳ４) 。

【００３８】次いで、実行エンジン１３は実行すべき実
行計画を読み出し（ステップＳ５)、まず、すでに実行
した中間結果の再利用が可能であるか判定する（ステッ
プＳ６) 。すでに実行した中間結果の再利用が可能でな
い場合には、実行エンジン１２の問い合わせ実行部１３
ａは後述するようにＸＭＬの木構造をたどる基本操作単
位で問い合わせを実行する（ステップＳ７) 。また、す
でに実行した中間結果の再利用が可能な場合には、すで
にある中間結果を再利用する（ステップＳ９)。次に上
記問い合わせの中間結果を保存し（ステップＳ８) 、ス
テップＳ１０において、実行計画を全て実行したかを調
べ、全ての実行計画を実行していない場合にはステップ
Ｓ５に戻り上記処理を繰り返す。全ての実行計画が実行
されると、検索結果生成部１３ｃは中間結果を統合し、
検索結果をＸＭＬデータ形式で生成する（ステップＳ１
１）。そして、生成した検索結果を、ユーザインタフェ
ース１１よりＸＭＬデータ形式で出力する（ステップＳ
１２) 。

【００３９】以下、上記システムの各部の処理について
さらに詳細に説明する。 (b) ＸＭＬデータの格納と問い合わせ基本関数先に説明したように、本発明ではＸＭＬデータを木構造
のモデルで表現している。実際の格納状況は可変長文字
列とインデックスのかたまりになるので、もとのＸＭＬ
データのサイズが大きければ、非常に大きなものにな
る。このサイズは、例えば、３ＭバイトのＸＭＬデータ
をパーズして木をつくると仮想メモリ上に１００Ｍバイ
トの領域を使ってしまうというような場合もある。この
ようなものを自前のファイルシステム管理でやるのは並
大抵のことではない。そうなると既存のＤＢのうえにイ
ンデックス格納用のスキーマを構築しインデックスを格
納するという方法が開発を効率化するためにもうまいや
り方かもしれない。もちろん、専用のＤＢＭＳを作ると
いう方法もある。

【００４０】ＸＭＬデータを格納するスキーマについて
ポイントを説明すると、方法としてはつぎの２つの方法
が考えられる。繰り返し項目について回数の上限を設定してＲＤＢの
テーブル構造で表現し格納する方法木構造をノードとリンク２つのテーブルで格納する方
法本実施例では、ＸＭＬの木構造をたどる操作を含む検索
処理要求を実行するのに有利であるという理由で上記
の木構造を格納する方法を用いる。上記の木構造を格
納する方法としては、例えば、ＸＭＬの木構造をノード
とリンクに分解し、ＲＤＢに該ノードとリンクを関係付
けたテーブルを格納する方法を探ることができる。具体
的には、上記木構造の中間ノードの情報を格納する中間
ノードテーブル、リンクの情報を格納するためのリンク
テーブル、葉ノードの情報を格納する葉ノードテーブル
等を設け、これらのテーブルに検索用インデックスを用
意し、該検索用インデックスを利用して木構造を辿る問
い合わせを実行する方法が考えられる。

【００４１】データベース１５に格納された検索用イン
デックスは、各データベースごとに実装された問い合わ
せ基本関数を通じて実行エンジン１３からアクセスす
る。つまりＸＱＬ処理系は、ユーザからのＸＱＬで記述
された検索要求を以下に示す問い合わせ基本関数の列に
置き換えて処理するという動作をする。その際に、後述
するように、どの順序で実行するのが効率的であるかを
考慮した実行最適化やどのインデックスを用いて目的と
するエレメント集合を得るかを判断して問い合わせ実行
計画を作成することになる。

【００４２】問い合わせ基本関数は前記したように、つ
ぎの６つの関数である。これらの関数は、先に述べたＸ
ＭＬデータを木構造で表現するモデルにおいて、木に沿
ってノードをたどる動作を関数化したものである。その
際にデータベースに格納されているノードにはすべてユ
ニークな識別子(ＩＤ) がつけられている。また、エレ
メントのタグはラベルという形で格納されていて、ラベ
ルにも識別子がつけられている。 GetNodeIDbyPathAndVal パス記述と値を指定して、それに該当するノードＩＤの
集合を得る。 GetParentIDbyChild 子のノードＩＤを指定して、その親ノードＩＤの集合を
得る（親ノードはこの場合１つである) 。 GetChildIDbyParent 親のノードＩＤを指定して、その子ノードＩＤの集合を
得る。 GetValuebyID ノードＩＤを指定してそのエレメントがもつ値を得る。 GetNodeIDbyPath パス記述を指定して、それに該当するノードＩＤの集合
を得る。 GetLabelIDbyLabeltext ラベルの名前を指定してラベルＩＤを得る。

【００４３】(c) 検索用インデックスＸＭＬデータの格納構造にもよるが、本実施例の場合で
は大まかに次の４つのインデックスを構築している。Ｖインデックス：エレメントの値からノードＩＤを得る
インデックスＰインデックス：ＸＭＬデータのルートからのパスから
ノードＩＤを得るインデックス親インデックス：エレメントの親エレメントのノードＩ
Ｄを得るインデックス子インデックス：エレメントの子
エレメントのノードＩＤを得るインデックスまた、これ以外にＤＢ内に定義されたテーブルの上に張
られるインデックスがある。

【００４４】(d) ＸＱＬによる問い合わせとその実行 (i) 問い合わせ演算のパターン先に（１) でＸＱＬによる問い合わせとその結果の例に
ついて説明したが、ＸＱＬの問い合わせ演算のパターン
についてもう一度整理して説明すると次のようになる。
ＸＱＬによる問い合わせ演算は次に示す３つの演算の組
み合わせとなる。値によるノードの選択（ＶＳ） SELECT result:<$book.author,$book.publisher.name> FROM book:bib.book WHERE $boook.tltle = " B"; この場合 $book.titleが" B"であるような $bookをすべ
ての bib.book の中から選択して $bookにバインドす
る。

【００４５】セルフジョイン（ＳＪ） SELECT result:<$book1.title,$book1.author> FROM book1:bib.book,book2:bib.book WHERE $book1.title= $book2.title; この場合、２つの範囲変数を用いて $book1.title と$b
ook2.titleが等しくなるような$book1と$book2の組みを
求める。

【００４６】プロジェクション演算は単独で用いられることはなく、
値による選択やプロジェクション演算とともにSELECTの
部分で出力結果形式の指定の際に用いられる。この場
合、WHERE の部分に記述された条件を満たすような bi
b.book が$book にバインドされているときに、$book
がバインドされた各エレメントに対して、$book.autho
r,$book.publisher.name に相当するサブエレメントの
値がこの演算の結果となる。ここで指定されたサブエレ
メント以外のサブエレメントをもつ bib.book があった
としてもそれは結果から取り除かれる。

【００４７】(ii) 実行計画の生成実際の問い合わせを例にしてセレクションとプロジェク
ション演算を含むようなＸＱＬ問い合わせに対して、前
記図７の問い合わせ実行計画生成部１２ｂにおいて作成
される実行計画について説明する。以下では、上記(i)
で示した３つの演算パターンを、それぞれ、ＶＳ：値に
よるノードの選択、ＳＪ：セルフジョイン、ＰＲＯＪ：
プロジュクション、という省略形を用いて表記する。実
行計画は、演算パターンとそれに続く引数の列からなる
１つの処理単位を複数ならべたものである。引数の並び
はＶＳとＳＪの場合、演算子、左辺値、右辺値であり、
ＰＲＯＪの場合、範囲変数とパス名の並びである。

【００４８】以下、生成される実行手順を前記図１２に
示した木構造の例により説明する。値による選択の例 SELBCT result:<$book.author,$book.publisher.name> FROM book:bib.book WHERE $book.title="B"; この問い合わせに対して作成される実行計画は次の通り
である。ここで、以下のＯＰ＿ＥＱは演算子であり、左
辺値 $book.title= 右辺値"B" であることを意味してい
る。ＶＳＯＰ＿ＥＱ $book.title "B" ＰＲＯＪ $book $book.author $book.publisher.name

【００４９】生成された実行計画はそのまま順に実行さ
れ、中間結果はスタツクに詰まれる。この実行計画を実
行する際に呼び出される問い合わせ基本関数の列は次の
ようになる。なお、以下の１. 〜２. は上記ＶＳの処理
に相当し、３. 〜７. はＰＲＯＪの処理に相当する。１.GetNodeIDbyPathAndValを用いてパス記述が bib.boo
k.title で値が"B" であるノード集合を得る。２. 上記１. で得られたノード集合に対してそれぞれGe
tParentIDbyChildを適用してbib.bookとなるノード集合
を得る。これが $bookにバインドされる。３. 上記２. で得られたノード集合に対してそれぞれGe
tChildIDbyParentを適用して$book.authorとなるノード
集合を得る。４. 上記２. で得られたノード集合に対してそれぞれGe
tChildIDbyParentを適用して$book.publisher となるノ
ード集合を得る。５. 上記４. で得られたノード集合に対してそれぞれGe
tChlldIDbyParentを適用して$book.publisher.nameとな
るノード集合を得る。６. 上記３. で得られたノード集合に対してそれぞれGe
tValuebyIDを適用してエレメントの値を得る。７. 上記３. で得られたノード集合に対してそれぞれGe
tValuebyIDを適用してエレメントの値を得る。以上がこの問い合わせに対する実行計画と実際に実行計
画が実行される際の問い合わせ基本関数の呼び出しシー
ケンスである。

【００５０】セルフジョイン次に、同様にセルフジョインの場合について説明する。 SELECT result:<$book1.title,$book1.author> FROM book1:bib.book,book2.bib.book WHERE $book1.title=$book2.title; この問い合わせに対して作成される実行計画は次の通り
である。ＳＪＯＰ＿ＥＱ $book1.title $book2.title ＰＲＯＪ $book1 $book1.title $book2.author 生成された実行計画はそのまま順に実行され、中間結果
はスタツクに詰まれる。この実行計画を実行する際に呼
び出される問い合わせ基本関数の列は次のようになる。
なお、以下の１. 〜６. は上記ＳＪの処理に相当し、
７. 〜１０. はＰＲＯＪの処理に相当する。

【００５１】１.SJ の右辺について GetNodeIDbyPathを
用いてパス記述が bib.book.title となるノード集合を
得る。２. 上記１. で得られたノード集合に対してそれぞれGe
tValuebyIDを適用してエレメントの値を得る。３.SJ の左辺についてGetNodeIDbyParentAnDVal を用い
てパス記述が bib.book.title で値が上記２. で得られ
たそれぞれの値であるノード集合を得る。４. 上記１. で得られたノード集合と３. で得られたノ
ード集合の組をつくる。５. 上記３. で得られたノード集合の組の右辺分に対し
てそれぞれ GetParentIDbyChild を適用してbib.bookと
なるノード集合を得る。これが $book2 にバインドされ
る。６. 上記１. で得られたノード集合の組の左辺分に対し
てそれぞれ GetParentIDbyChild を適用してbib.bookと
なるノード集合を得る。これが $book1 にバインドされ
る。７. 上記６. で得られたノード集合に対してそれぞれ G
etChildIDbyParent を適用して$book1.titleとなるノー
ド集合を得る。８. 上記６. で得られたノード集合に対してそれぞれ G
etChildIDbyParent を適用して$book1.author となるノ
ード集合を得る。９. 上記７. で得られたノード集合に対してそれぞれGe
tValuebyIDを適用してエレメントの値を得る。１０. 上記８．で得られたノード集合に対してそれぞれ
GetValuebyIDを適用してエレメントの値を得る。

【００５２】この演算の結果はノードの組の集合として
得られる。ここでは、セルフジョインの右辺について先
に値を求めて、その値に対応する左辺のノード集合を得
た。これは反対に左辺について値をもとめて行ってもか
まわない。結果として、$book1と$book2が同じノードを
指している場合の組も解に含まれる。したがって、この
場合は bib.book がとりうるすべてのノード集合に対し
て、$book1と等しい $book2 の組みが解に含まれること
になる。

【００５３】(ii)問い合わせ演算の組み合わせ実際には上述した値による選択とセルフジョイン演算は
単独で用いられるだけでなくＡＮＤなどを用いて組み合
わせて条件指定されることもある。この場合、その組み
合わせは次の６つに分類することができる。ここで、同
種とはＡＮＤで結ばれている範囲変数に対する条件指定
が同じ範囲変数に対して言及されているものか、別の範
囲変数に対して言及されているものであるかという意味
である。以下、前記図１２に示した例を用いて説明す
る。

【００５４】

【００５５】この場合、１つめの条件指定も２つめの条
件指定もともに同一の範囲変数 $bookを限定する言及で
ある。したがって、これらをAND で結んだものは、１つ
めの条件指定によって選択された $bookを満たすノード
集合と２つめの条件指定によって選択された $bookを満
たすノード集合の集合積となる。したがって、前記図１
２の例の場合、著者＝”金政" でかつtitle="B" のauth
or,publisher.name （図１２のノード３, ５のauthor,p
ublisher.name ）が得られる。

【００５６】異種のＶＳ同士のＡＮＤ SELECT result:<$book1.author,$book1.publisher.name
> FROM book1:bib.book,book2 :bib.book WHBRE $bood1.title ="B" AND $book2.title="C";

【００５７】この場合、１つめの条件指定と２つめの条
件指定は異なる範囲変数を限定する言及である。これら
をAND で結んだものは、１つめの条件指定によって選択
された $book1 を満たすノード集合と２つめの条件指定
によって選択された $book2を満たすノード集合の直積
となる。この演算によって得られる解はノード集合の組
の集合となる。この演算の数学的な意味を説明すると、
$book1と$book2は直交した空間の値をとる変数である。
$book1のとりうるすべてのノード集合をＳ１とし、$boo
k2のとりうるすべてのノード集合をＳ２として、１つめ
の条件によって言及された結果$book1 がとるノード集
合をＳ１’、２つめの条件によって言及された結果 $bo
ok２がとるノード集合をＳ２’とするとＳ１’⊆Ｓ１、
Ｓ２’⊆Ｓ２のとき、求めるＡＮＤ演算の解となるノー
ドの組は、◎を直積をあらわす演算記号とすると、Ｓ１
◎Ｓ２’ＡＮＤＳ１’◎Ｓ２となる。これはＳ１’◎
Ｓ２’に等しい。したがって、$book1が実際にとるノー
ド集合、$book2が実際にとるノード集合の直積が求める
解となる。

【００５８】同種のＶＳとＳＪのＡＮＤ SELECT result:<$book1.author,$book1.publisher.name> FROM book1:bib.book,book2:bib.book WHERE $book1.title="B" AND $book1.author = $book2.author;

【００５９】この場合、１つめの条件を満たす$book1に
バインドされたノード集合と２つめの条件を満たすノー
ドの組の集合との間の集合積となる。したがって、求め
る演算結果は２つめの条件を満たすノードの組みの集合
のうち、１つめの条件を満たすノード集合を$book1にと
るようなノードの組みの集合となる。

【００６０】異種のＶＳとＳＪのＡＮＤ SELECT result:<$book1.author,$book1.publisher.name> FROM book1:bib.book,book2:bib.book,book3:bib.book WHERE $book3.title="B" AND $book1.author:$book2.author;

【００６１】この場合、１つ目の条件指定と２つ目の条
件指定は異なる範囲変数を限定する言及である。したが
って、この演算の結果は１つ目の条件指定によって得ら
れるノード集合と２つ目の条件指定によって得られるノ
ードの組みの集合の直積となる。この解はノードの３つ
組の集合となる。

【００６２】同種のＳＪ同士のＡＮＤ SELECT result:<$book1.author,$book1.publisher.name> FROM book1:bib.book,book2:bib.book WHERE $book1.title=$book2.title AND $book1.author=$book2.author;

【００６３】この場合、１つ目の条件指定の結果のノー
ドの組の集合と２つ目の条件指定の結果のノードの組の
集合はともに条件を満たす$book1と$book2の組みの集合
である。したがってそれらをAND で結んだ結果は２つの
ノードの組みの集合の集合積となる。

【００６４】異種のＳＪ同士のＡＮＤ SELECT result:<$book1.author,$book1.publisher.name> FROM book1:bib.book,book2:bib.book,book3:bib.book WHERE $book1.title=$book2.title AND $book2.author=$book3.author;

【００６５】この場合、１つ目の条件指定の結果のノー
ドの組の集合は条件を満たす$book1と$book2の組みで、
２つめの条件指定の結果のノードの組の集合は条件を満
たす$book2と$book3の組みの集合である。したがって、
これらをＡＮＤで結んだ結果はこれらの直積となる。こ
の場合、解はノードの３つ組の集合となる。実際には、
これらをさらにＡＮＤなどで結んだもっと複数の条件指
定が考えられるが、これについては定められた順番で演
算を処理していくことで上記のいずれかの場合と同様に
処理することができる。ここではＡＮＤについて説明し
た。ＯＲの場合については、同種のノード集合同士の演
算の場合は集合和になる。ここで示した方法は各演算の
意味を説明したもので、実際には処理の順序や方法を工
夫することで、さまざまな最適化を行うことができる。
これについては後述する。

【００６６】(iii) 問い合わせの最適化とインデキシン
グ以上で、ＸＱＬ言語処理部における問い合わせ実行計画
生成と、実行エンジンでの各演算パターンにおける基本
的な実行について説明した。次に、いままでの説明を基
にして、最適化の実施例について説明する。言語処理部での最適化言語処理部１２では、WHERE の条件で指定された条件節
を解くためのインデックスの選択等の最適化を行う。実行エンジンでの最適化実行エンジン１３においては、次のような最適化を行
う。・ネステツドループをまわす場合の内外の入れ替え。例
えば、前記した下記の問い合わせにおいては、WHERE の
第１行目を先に実行して絞り込んだのち、２行目を実行
した方が処理が速い。このような場合には、より速く処
理を行うことができる検索対象を選定し、問い合わせを
実行する。

【００６７】

【００６８】・セルフジョインを処理する際の右辺と左
辺の入れ替え。例えば前記した下記の問い合わせにおい
て、左辺$book1.titleと右辺 $book2.title を入れ替え
るた方が処理が速くなる場合には、左辺と右辺を入れ替
える。

【００６９】 SELECT result:<$book1.title,$book1.author> FROM book1:bib.book.book2:bib.book WHERE $book1.title=$book2.title

【００７０】・同種のＶＳとＳＪのＡＮＤ演算の際にVS
の結果でSJの結果を絞る。・中間結果が空集合となった場合の処理の打ち切り。問い合わせの処理中に、中間結果が空集合になることが
分かったらその時点で処理を打ち切る。

【００７１】また、問い合わせ実行プランレベルでの処
理の入れ替えなど、複数の処理にまたがる最適化とし
て、全体的な最適化、各処理単位での実行性能を向上さ
せるための局所的な最適化があり、このようにものとし
て次のように最適化を探ることができる。全体的な最適化・実行順序の入れ替え問い合わせ実行計画を立てる際に、値による選択を先に
処理しセルフジョインをあとで処理するような実行計画
を生成する。また、同一の範囲変数に対する処理はまと
まって処理するように順序を入れ替える。・構文解析による処理の省略入力されたＸＱＬ文を静的に評価して、結果が空集合に
なることが予知できるような部分については処理を省略
する。また冗長な演算をまとめる。

【００７２】局所的な最適化・すでに得た検索結果の再利用ＶＳの結果を用いてＳＪの処理を行う。たとえばＶＳと
ＳＪのＡＮＤの際に、ＶＳの結果を用いてＳＪを行うこ
とでループ数を削減する。・統計的な処理の選択問い合わせ基本関数の平均的な実行時間をもとにして処
理を選択する。例えば、GetNodeIDbypath の実行時間
は、GetNodeIDbyPathAndVal に比較して約１５倍もかか
ってしまう。したがって、GetNodeIDbyPath を使わずに
すむところではなるべくほかの方法を用いたり、GetNod
eIDbyPath の結果を保存して再利用することで処理時間
を短縮する。

【００７３】（３) ＸＭＬ検索システムの具体的構成例以上説明したＸＭＬ検索処理システムの具体的な構成例
を図９に示す。この例では、同図に示すように、データ
を格納するＤＢＭＳとして、ＲＤＢ２１はＯＲＡＣＬＥ
８（商標名) 、および、ＯＯＤＢ２２はSymfoware （商
標名)のＯＯＤＢを用いている。実際には各ＤＢＭＳご
とに問い合わせ基本関数などを準備することでＤＢＭＳ
を選ばずにインデックス格納部として用いることができ
る。

【００７４】ＸＱＬ処理系２０自身の動作としては、Ｘ
ＱＬで記述された問い合わせを解釈し、問い合わせ基本
関数群を呼び出す問い合わせ実行計画を生成し、それを
実行エンジンで実行する。上記問い合わせ実行計画は、
問い合わせ基本関数の実装により、データが格納されて
いるデータベースへの問い合わせ言語（ＳＱＬなど) に
変換され、各ＤＢＭＳに送信される。そして、ＸＱＬ処
理系２０は検索結果を受け取り、ユーザが指定したＸＭ
Ｌの形式で出力する。また、検索インデックス作成の対
象となるＸＭＬデータは外部のファイル２４からロー
ダ、インデクサ２３を通して、本システムのインデック
ス格納部に格納される。これとは別に、ＸＭＬデータを
生成するＸＭＬデータ生成プログラムからＸＭＬデータ
を入力することもできる。

【００７５】

【発明の効果】以上説明したように、本発明において
は、検索すべきＸＭＬデータの適合条件と抽出項目の指
定からなる検索要求の記述をおこなうだけで、その検索
要求を満たすような検索処理の手順を自動的に生成し実
行するようにしたので、複雑な検索処理の手順を利用者
が自分で記述する必要がなく作業を軽減することがで
き、また、検索抽出処理の性能を向上させることができ
る。

【図面の簡単な説明】

【図１】本発明の基本構成を示す図である。

【図２】値による選択の問い合わせを実行した場合の結
果出力の１例を示す図である。

【図３】セルフジョインの問い合わせを実行した場合の
結果出力の１例を示す図である。

【図４】ＸＭＬ検索言語ＸＱＬの構文規則を示す図
（１) である。

【図５】ＸＭＬ検索言語ＸＱＬの構文規則を示す図
（２) である。

【図６】ＸＭＬ検索言語ＸＱＬの構文規則を示す図
（３) である。

【図７】本発明の実施例のシステムの基本構成を示す図
である。

【図８】本発明の実施例のシステムにおける全体処理フ
ローを示す図である。

【図９】ＸＭＬ検索処理システムの具体的な構成例を示
す図である。

【図１０】ＸＭＬデータの例を示す図である。

【図１１】図１０のＸＭＬデータのＤＴＤを示す図であ
る。

【図１２】ＸＭＬデータの木構造表現の一例を示す図で
ある。

【図１３】木構造表現されたＸＭＬデータの検索の例を
示す図である。

【符号の説明】

１検索要求の記述手段２解析手段３最適化手段４検索手順生成手段５実行手段６実行最適化手段７検索結果生成手段８検索結果の出力手段９ＸＭＬデータの格納手段１０ユーザインタフェース部１１ＡＰＩ１２ＸＱＬ言語処理部１３実行エンジン１４問い合わせオペレータ１５データベース

フロントページの続き (56)参考文献志村壮是，吉川正俊，オブジェクト的関係を用いたＸＭＬ文書の汎用的な格納と検索，情報処理学会第58回（平成11年前期）全国大会講演論文集（３），1999 年３月９日，第265〜266頁田島敬史，半構造データのためのデータモデルと操作言語，情報処理学会論文誌，1999年２月15日，第40巻，第ＳＩＧ３（ＴＯＤ１）号，第152〜170頁ＪｏｎａｔｈａｎＲｏｂｉｅ（Ｔｅｘｃｅｌ），ＪｏｅＬａｐｐ（ｗｅｂＭｅｔｈｏｄｓＩｎｃ．）, ＤａｖｉｄＳｃｈａｃｈ（Ｍｉｃｒｏｓｏｆｔ），”ＸＭＬＱｕｅｒｙＬａｎｇｕａｇｅ（ＸＱＬ）”，ＱＬ’98 − ＱｕｅｒｙＬａｎｇｕａｇｅｓ 1998，ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｓｏｒｔｉｕｍ（Ｗ３Ｃ），1998年12月３日，ＵＲＬ，ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＴａｎｄＳ／ＱＬ／ＱＬ98／ｐｐ．ｈｔｍｌＡｌｉｎＤｅｕｔｓｃｈ（ＵｎｉｖｅｒｓｉｔｙｏｆＰｅｎｎｓｙｌｖａｎｉａ），ＭａｒｙＦｅｒｎａｎｄｅｚ（ＡＴ＆ＴＬａｂｓ），ＤａｎｉｅｌａＦｌｏｒｅｓｃｕ（ＩＮＲＩＡ），Ａｌｏ，”ＸＭＬ− ＱＬ” ，ＱＬ’98 − ＱｕｅｒｙＬａｎｇｕａｇｅｓ 1998，ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｓｏｒｔｉｕｍ（Ｗ３Ｃ），1998年12月３日, ＵＲＬ，ｈｔｔｐ：／／ｗｗｗ．ｗ３. ｏｒｇ／ＴａｎｄＳ／ＱＬ／ＱＬ98／ｐｐ．ｈｔｍｌＪ．ＭｃＨｕｇｈａｎｄＪ．Ｗｉｄｏｍ，ＱｕｅｒｙＯｐｔｉｍｉｚａｔｉｏｎｆｏｒＳｅｍｉｓｔｒｕｃｔｕｒｅｄＤａｔａ，ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，1997年11月, ＵＲＬ，ｈｔｔｐ：／／ｗｗｗ−ｄｂ. ｓｔａｎｆｏｒｄ．ｅｄｕ／ｌｏｒｅ／ｐｕｂｓ／ｉｎｄｅｘ．ｈｔｍｌ (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06F 12/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】ＸＭＬデータの検索処理方法であって、
ＸＭＬデータから指定された条件に適合する部分を検索
するに際し、検索処理を、検索要求に基づきＸＭＬの木
構造の操作にもとづいた少なくとも次の（イ）〜（ホ）
の基本操作に分解し、（イ）ＸＭＬ木構造のルートからのパス記述と要素の値
の組から、それに該当する要素の識別子の集合を得る操
作（ロ）ある要素の識別子を指定して、その要素の親関係
にあたる要素の識別子を得る操作（ハ）ある要素の識別子を指定して、その要素の子関係
にあたる要素の識別子の集合を得る操作（ニ）ある要素の識別子を指定して、その要素の値を得
る操作（ホ）ＸＭＬ木構造のルートからのパス記述から、それ
に該当する要素の識別子の集合を得る操作上記分解した各基本操作を、検索要求を満たすような手
順で実行することにより、蓄積されたＸＭＬデータのな
かから指定された条件に適合する部分を検索することを
特徴とするＸＭＬデータ検索処理方法。
【請求項２】ＸＭＬデータから指定された条件に適合
する部分を検索するに際し、検索実行前に、問い合わせ
の最適化を図るとともに、検索実行時、処理順序の入れ
替え、すでに得た処理結果の再利用をすることによる実
行最適化を図ることを特徴とする請求項１の検索処理方
法。
【請求項３】ＸＭＬデータから指定された条件に適合
する部分を検索するＸＭＬデータ検索処理システムであ
って、検索すべきＸＭＬデータの適合条件と抽出項目を指定す
るための検索要求の記述手段と、記述された検索要求を解析する手段と、検索要求に基づきＸＭＬの木構造の操作にもとづいた少
なくとも次の（イ）〜（ホ）の基本操作に分解し、検索
要求を満たすような検索処理の手順を生成するための手
段と、（イ）ＸＭＬ木構造のルートからのパス記述と要素の値
の組から、それに該当する要素の識別子の集合を得る操
作（ロ）ある要素の識別子を指定して、その要素の親関係
にあたる要素の識別子を得る操作（ハ）ある要素の識別子を指定して、その要素の子関係
にあたる要素の識別子の集合を得る操作（ニ）ある要素の識別子を指定して、その要素の値を得
る操作（ホ）ＸＭＬ木構造のルートからのパス記述から、それ
に該当する要素の識別子の集合を得る操作生成された検索処理手順にもとづいて基本操作列を実行
する手段と、検索条件に適合したＸＭＬデータを検索要求にもとづい
て構成し、生成する結果生成手段と、検索結果の出力手
段と、ＸＭＬデータの格納手段とを備え、蓄積されたＸＭＬデータのなかから指定された条件に適
合する部分を検索することを特徴とするＸＭＬデータ検
索処理システム。
【請求項４】ＸＭＬデータから指定された条件に適合
する部分を検索するＸＭＬデータ検索処理システムであ
って、検索すべきＸＭＬデータの適合条件と抽出項目を指定す
るための検索要求の記述手段と、記述された検索要求を
解析する手段と、解析された検索要求の冗長性を排除や
検索要求を副検索条件指定に分解し、副検索条件指定の
入れ替えを行なう問い合わせ最適化手段と、検索要求に基づきＸＭＬの木構造の操作にもとづいた少
なくとも次の（イ）〜（ホ）の基本操作に分解し、検索
要求を満たすような検索処理の手順を生成するための手
段と、（イ）ＸＭＬ木構造のルートからのパス記述と要素の値
の組から、それに該当する要素の識別子の集合を得る操
作（ロ）ある要素の識別子を指定して、その要素の親関係
にあたる要素の識別子を得る操作（ハ）ある要素の識別子を指定して、その要素の子関係
にあたる要素の識別子の集合を得る操作（ニ）ある要素の識別子を指定して、その要素の値を得
る操作（ホ）ＸＭＬ木構造のルートからのパス記述から、それ
に該当する要素の識別子の集合を得る操作生成された検索処理手順にもとづいて基本操作列を実行
する手段と、実行時にすでに行われた処理の中間結果等を再利用する
実行最適化手段と、検索条件に適合したＸＭＬデータを検索要求にもとづい
て構成し、生成する結果生成手段と、検索結果の出力手
段と、ＸＭＬデータの格納手段とを備え、蓄積されたＸＭＬデータのなかから指定された条件に適
合する部分を検索することを特徴とするＸＭＬデータ検
索処理システム。