JP2004348484A - 部分文書取得方法、システム、プログラム、および記録媒体 - Google Patents

部分文書取得方法、システム、プログラム、および記録媒体 Download PDF

Info

Publication number
JP2004348484A
JP2004348484A JP2003145404A JP2003145404A JP2004348484A JP 2004348484 A JP2004348484 A JP 2004348484A JP 2003145404 A JP2003145404 A JP 2003145404A JP 2003145404 A JP2003145404 A JP 2003145404A JP 2004348484 A JP2004348484 A JP 2004348484A
Authority
JP
Japan
Prior art keywords
schema
document
acquisition
metadata
schema element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003145404A
Other languages
English (en)
Inventor
Kazuya Konishi
一也 小西
Takashi Hayashi
孝志 林
Mitsuaki Tsunakawa
光明 綱川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003145404A priority Critical patent/JP2004348484A/ja
Publication of JP2004348484A publication Critical patent/JP2004348484A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ネットワーク上の膨大かつ多様なXML文書から所望の部分文書を探索し所望の構造に変換して取得すること。
【解決手段】各XML文書から独立した単一の照会文を利用者から受け付け、メタデータとして登録された各XML文書の構造に基づいて、動的に各XML文書に対応する部分文書取得のための照会文を展開することにより、構造の異なる複数のXML文書から、所望の部分文書を探索し、所望の構造で取得する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワーク上の膨大かつ多様なXML文書を対象とし、XML文書ごとに異なる各構造から、利用者の要求する意味を表す部分構造を探索して、XML文書からその部分構造に該当する部分文書を抽出し、利用者の要求する構造に変換して取得する部分文書取得方法、部分文書取得システム、部分文書取得プログラム、および該部分文書取得プログラムを記録したコンピュータ読取可能な記録媒体に関する。
【0002】
【従来の技術】
部分文書取得を指定する照会文には、対象となるXML文書の構造に対する、所望の意味を表す部分構造の指定と、その構造に対する、所望の構造への変換の指定が含まれる。しかし、XML文書には、特定の意味を様々な構造で表現できるという特徴があるため、構造の異なる複数のXML文書を対象とする部分文書取得では、意味が同一な構造で構成される部分文書の取得を要求する場合にも、異なる複数の照会文が必要になる。これは、対象となるXML文書の構造の種類の増加に比例して、照会文の指定が煩雑化することを意味する。
【0003】
これに対して、従来、構造の異なる複数のXML文書から、所望の部分文書を取得する手法としては、▲1▼各対象XML文書をアルゴリズムに従って分割し、すべての分割部分文書を対象とする全文検索を実行する手法(非特許文献1)、▲2▼複数のXML文書の構造を論理的に1つに統合した構造を、管理者が定義し、利用者が指定する統合構造を対象とする部分文書取得のための照会文を、管理者の定義に基づいて各XML文書の構造に対応する照会文に展開する手法(非特許文献2)がある。これらの手法により、利用者はキーワード群、又は単一の照会文を指定することで、構造の異なる複数のXML文書から、所望の部分文書を取得できる。
【0004】
【非特許文献1】絹谷弘子、波多野賢治、吉川正俊、植村俊亮 著、「XML文書の文書構造と内容を用いた部分文書の抽出手法」、情報処理学会論文誌、データベースVol.43,No.SIG2(TOD13)、80−93頁、2002年)
【非特許文献2】Vassilis Christophides,Sophie Cluet,Jerome Simeon “On Wrapping Query Languages and Efficient XML Integration” In Proceedings of ACM SIGMOD Conference on Management of Data,Dallas,Texas(2000))。
【0005】
【発明が解決しようとする課題】
▲1▼の全文検索に基づく手法では、取得される各部分文書が、取得元のXML文書の構造を保持する。したがって、取得結果の部分文書の構造は不定であり、また各部分文書ごとに異なるため、アプリケーションプログラムによる取得部分文書の再利用性が低いという問題がある。
【0006】
▲2▼の統合構造定義に基づく手法では、対象となるXML文書の構造と管理者が定義する統合構造が一対一の関係である。したがって、ネットワーク上の膨大かつ多様なXML文書を対象とする場合、管理者による統合構造の定義は煩雑化し、現実的に不可能になるという問題がある。
【0007】
本発明は、上記の点に鑑みてなされたもので、ネットワーク上の膨大かつ多様なXML文書を対象とする場合を想定し、利用者および管理者による、対象XML文書の構造や、定義される統合構造の参照を必要としない、部分文書取得の実現を目的とする。また、アプリケーションプログラムでの再利用を考慮し、指定構造に統一化した部分文書の取得の実現を目的とする。
【0008】
【課題を解決するための手段】
請求項1にかかる発明は、部分文書取得の対象となる複数の各XML文書のそれぞれのスキーマをメタデータとして登録し、取得するスキーマ要素の要素名、フィルタリング条件、結果構造から成る単一の照会文を受け付け、メタデータとして登録された前記各XML文書のスキーマを参照し、照会対象となるXML文書と該XML文書のスキーマ上の取得するスキーマ要素を決定し、該決定した取得対象スキーマ要素と、フィルタリング条件、結果構造、およびメタデータとして登録された前記各XML文書のスキーマから、前記各XML文書に対応する部分文書取得のための各照会文を動的に展開し、該展開された各照会文を処理し、前記各XML文書から所望の部分文書を所望の統一構造で取得する、ことを特徴とする部分文書取得方法とした。
【0009】
請求項2にかかる発明は、部分文書取得の対象となる複数の各XML文書のそれぞれのスキーマをメタデータとして登録するメタデータ登録部10と、取得するスキーマ要素の要素名、フィルタリング条件、結果構造から成る単一の照会文を受け付け、前記メタデータ登録部10にメタデータとして登録された前記各XML文書のスキーマを参照し、照会対象となるXML文書と該XML文書のスキーマ上の取得するスキーマ要素を決定する取得スキーマ要素決定部20と、該取得スキーマ要素決定部20により決定した取得対象スキーマ要素と、フィルタリング条件、結果構造、および前記メタデータ登録部10にメタデータとして登録された前記各XML文書のスキーマから、前記各XML文書に対応する部分文書取得のための照会文を動的に展開する照会文展開部30と、該照会文展開部30により展開された各照会文を処理し、前記各XML文書から所望の部分文書を所望の統一構造で取得する照会文処理部40と、を備えることを特徴とする部分文書取得システムとした。
【0010】
請求項3にかかる発明は、請求項2にかかる発明において、前記取得スキーマ要素決定部20は、前記部分文書に対する併合・整列指定が含まれる単一照会文を受け付け、さらに前記照会文処理部40で取得される各部分文書を、該併合・整列指定にしたがって併合・整列する部分文書併合・整列部50を備える、ことを特徴とする部分文書取得システムとした。
【0011】
請求項4にかかる発明は、請求項2にかかる発明において、前記取得スキーマ要素決定部20は、前記単一の照会文を構成する取得するスキーマ要素の要素名、フィルタリング条件、結果構造をそれぞれ抽出する指定情報抽出手段21と、該指定情報抽出手段21により抽出された取得スキーマ要素名について、前記メタデータ登録部10にメタデータとして登録された前記各XML文書のスキーマ上で名前が合致するスキーマ要素を探索し、取得するスキーマ要素として決定する取得スキーマ要素探索手段22と、を備えることを特徴とする部分文書取得システムとした。
【0012】
請求項5にかかる発明は、請求項3にかかる発明において、前記取得スキーマ要素決定部20は、前記単一の照会文を構成する取得するスキーマ要素の要素名、フィルタリング条件、結果構造、併合・整列指定をそれぞれ抽出する指定情報抽出手段21と、該指定情報抽出手段21により抽出された取得スキーマ要素名について、前記メタデータ登録部10にメタデータとして登録された前記各XML文書のスキーマ上で名前が合致するスキーマ要素を探索し、取得するスキーマ要素として決定する取得スキーマ要素探索手段22と、を備えることを特徴とする部分文書取得システムとした。
【0013】
請求項6にかかる発明は、請求項4又は5にかかる発明において、前記取得スキーマ要素決定部20は、前記指定情報抽出手段21が抽出する取得スキーマ要素名をさらに同義語に展開する同義語展開手段23を備え、前記取得スキーマ要素探索手段22は、該同義語展開手段23により展開された同義語に合致するスキーマ要素を前記メタデータ登録部10にメタデータとして登録された前記各XML文書のスキーマから探索する、ことを特徴とする部分文書取得システムとした。
【0014】
請求項7にかかる発明は、請求項6にかかる発明において、前記取得スキーマ要素決定部20は、前記取得スキーマ要素探索手段22が探索する取得スキーマ要素をさらに取得スキーマ要素の候補として利用者に提示する候補提示手段24と、該候補提示手段24により提示された候補から利用者が選択した候補を取得スキーマ要素として決定する候補決定手段25と、を備えることを特徴とする部分文書取得システムとした。
【0015】
請求項8にかかる発明は、請求項4、5、6、又は7にかかる発明において、前記照会文展開部30は、取得スキーマ要素を対象となるXML文書のスキーマごとに分類して要素取得優先順に従って整列する取得スキーマ要素整理手段31と、該取得スキーマ要素整理手段31により整理された取得スキーマ要素について、前記メタデータ登録部10にメタデータとして登録された前記各XML文書のスキーマを参照して、関係付ける取得スキーマ要素同士を決定する関係付け対象スキーマ要素決定手段32と、該関係付け対象スキーマ要素決定手段32により関係付け対象として決定した取得スキーマ要素について、前記メタデータ登録部10にメタデータとして登録された前記各XML文書のスキーマを参照して、関係付ける取得スキーマ要素要素間の相対パスを導出する相対パス導出手段33と、前記メタデータ登録部10にメタデータとして登録された前記各XML文書のスキーマを参照して、前記関係付け対象スキーマ要素決定手段32で関係付けを決定された取得スキーマ要素とフィルタリング条件の判定対象となる取得スキーマ要素間の相対パスを導出し、フィルタリング条件式と合わせて、フィルタリング条件を展開するフィルタリング条件展開手段34と、該フィルタリング条件展開手段34で取得された各取得スキーマ要素と、前記相対パス導出手段33で導出された取得スキーマ要素間の相対パス、フィルタリング条件、および結果構造から、前記各XML文書に対応した照会文を生成する照会文生成手段35と、を備えることを特徴とする部分文書取得システムとした。
【0016】
請求項9にかかる発明は、請求項8にかかる発明において、前記照会文展開部30は、前記フィルタリング条件展開手段34が展開するフィルタリング条件を、前記メタデータ登録部にメタデータとして登録された、前記各XML文書のスキーマにおいて各スキーマ要素に定義された値表現形式と、本部分文書取得システムが入力を許す値表現形式と、各値表現形式間の変換方法とを参照し、フィルタリング条件式に指定された条件値を、前記各XML文書に適した表現形式の値に変換する条件値表現形式変換手段36を備える、ことを特徴とする部分文書取得システムとした。
【0017】
請求項10にかかる発明は、請求項9にかかる発明において、前記照会文展開部30は、展開した照会文に基づき、前記照会文処理部40により取得される照会処理結果の結果部分文書に対し、前記メタデータ登録部にメタデータとして登録された、前記各XML文書のスキーマにおいて各スキーマ要素に定義された値表現形式と、本部分文書取得システムが出力に用いる値表現形式と、各値表現形式間の変換方法とを参照し、前記各結果部分文書に含まれる値の表現形式を、本部分文書取得システムの出力形式に変換する、値表現形式変換手段37を備える、ことを特徴とする部分文書取得システムとした。
【0018】
請求項11にかかる発明は、請求項8、9、又は10にかかる発明において、前記関係付け対象スキーマ要素決定手段32は、各取得スキーマ要素について、それより要素取得優先順の早い取得スキーマ要素の中から、間のパスが最も短いものを探索し、それを関係付ける取得スキーマ要素として決定する、ことを特徴とする部分文書取得システムとした。
【0019】
請求項12にかかる発明は、請求項3、5、6、7、8、9、10又は11にかかる発明において、前記部分文書併合・整列部50は、前記単一の照会文において、結果構造に対する併合・整列処理対象スキーマ要素と、比較判定対象スキーマ要素と、比較判定を行う方法と、で構成される併合・整列指定を受け取り、前記併合・整列処理対象スキーマ要素の親スキーマ要素に該当する要素をルートとする部分文書を、併合・整列処理対象部分文書として抽出し、該抽出した各併合・整列処理対象部分文書について、前記併合・整列処理対象スキーマ要素に該当するすべてのスキーマ要素を切り取り、該切り取った各処理対象スキーマ要素を関係する比較判定対象スキーマ要素に基づいて平坦化し、平坦化したすべて処理対象スキーマ要素から任意の2つを選択し、関係する比較判定スキーマ要素の値について、前記比較判定方法に従って比較し、比較結果に応じて該処理対象スキーマ要素同士を併合・整列し、併合・整列した結果を併合・整列処理対象部分文書に接続する、ことを特徴とする部分文書取得システムとした。
【0020】
請求項13にかかる発明は、部分文書取得の対象となる複数の各XML文書のそれぞれのスキーマをメタデータとして登録する手順と、取得するスキーマ要素の要素名、フィルタリング条件、結果構造から成る単一の照会文を受け付け、メタデータとして登録された前記各XML文書のスキーマを参照し、照会対象となるXML文書と該XML文書のスキーマ上の取得するスキーマ要素を決定する手順と、該決定した取得対象スキーマ要素と、フィルタリング条件、結果構造、およびメタデータとして登録された前記各XML文書のスキーマから、前記各XML文書に対応する部分文書取得のための各照会文を動的に展開する手順と、該展開された各照会文を処理し、前記各XML文書から所望の部分文書を所望の統一構造で取得する手順と、をコンピュータに実行させるための部分文書取得プログラムとした。
【0021】
請求項14にかかる発明は、請求項13に記載の各手順を実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体とした。
【0022】
【発明の実施の形態】
本発明における照会文展開手法は以下の手段を備える。本発明は、HTMLなどの半構造化文書から、文書内に複数回出現するパターンを自動的に抽出する。本発明は、半構造化文書におけるデータ記述部を変数化し、一行ずつ比較することにより、行単位でタグの要素や出現順序が同一であるパターンを抽出する。本発明は、半構造化文書から行単位で同一であるパターンを抽出し、行単位で同一である複数のパターンを先頭行から一行ずつ順次比較することにより、複数行に跨るパターンを抽出する。本発明は、半構造化文書から行単位で同一であるパターンを抽出した後、比較元が比較先の先頭行になるまで(A行目とB行目(A,Bは整数、B>A)が行単位で同一パターンである場合、A+m(mは整数)行目がB行目(A+m=B)になった場合まで)先頭行から1行ずつ順次比較することにより、複数行に跨るパターンを抽出する。本発明は、半構造化文書から行単位で同一であるパターンを抽出した後、比較元の先頭行と同一なパターンの行が出現した場合(A行目とB行目(A,Bは整数、B>A)が行単位で同一パターンである場合、A+P(pは整数)行目の行単位のパターンがA行目の行単位のパターンと等しい場合)を終了条件として、先頭行から一行ずつ順次比較することにより、複数行に跨るパターンを抽出する。本発明は、半構造化文書から複数行に跨るパターンを抽出し、先頭行が同一パターンである複数の複数行に跨るパターンが、文書内で連続して出現している場合に、それらを連結することにより複数行に跨るパターンを抽出する。
【0023】
上記により、本発明は、単一の照会文の指定により、構造の異なる複数のXML文書から、利用者の要求する意味を表す部分構造を探索して、XML文書からその部分構造に該当する部分文書を抽出し、利用者の要求する構造に変換して取得することを可能にする。
【0024】
以下、図面を用いて、本発明の実施例を説明する。まず、本発明の技術課題を明確化する。
【0025】
図8に示すXML文書と図9に示すXML文書は、共に著者、書籍、執筆年に関する情報が記述されているが、構造が異なる。これらのXML文書から、「著者の名前と、その著者が2001年以降に執筆した書籍のタイトル」を検索することを考える。この場合、図8、図9に示すように、各XML文書に対して、それぞれ異なる照会文を指定する必要がある(本発明では、W3Cで開発され標準化が進んでいるXQueryを照会文の書式とする)(参考:http://www.w3.org/TR/xquery/)。これは、照会対象となるXML文書の構造の増加に比例して、照会文指定が煩雑化することを示している。
【0026】
この問題に対して、本発明は、図10に示すような、対象XML文書の構造を全く意識しない単一の照会文を指定することにより、構造の異なる複数のXML文書から、所望の情報を、所望の構造で表される部分文書として取得することを、可能にする。図10に示す単一照会文は、construk句とoption句の2つから成っており、construct句は部分文書取得を指定する必須の句であり、option句は取得部分文書の併合・整列処理を指定する随意の句である。
【0027】
construk句では、取得する部分文書の構造を宣言し、構造を構成する各スキーマ要素に、照会対象XML文書から取得するスキーマ要素の名前(接頭辞「$」で表す)を指定する。この指定に従って取得された要素が、宣言された構造の指定位置に出力される。また、取得スキーマ要素には、フィルタリング条件式を指定する(大括弧に、条件判定の対象となるスキーマ要素と、条件式を指定)。これらの宣言や指定は、照会対象XML文書の構造から独立していることに特徴がある。本発明は、この単一照会文から、各照会対象XML文書の構造を参照して、それぞれに対応した照会文を動的に展開する。
【0028】
また、option句では、宣言した構造における、併合又は整列処理を適用するスキーマ要素(target)と、処理を実施する際の比較判定の対象となるスキーマ要素(id)と、比較判定を行う方法(method)の組で表される併合・整列処理を、処理を実施する順で複数指定する。本発明は、これらの指定に従って処理を実施することで、異なるXML文書から取得された部分文書について、併合又は整列処理を適用した結果を得る。
【0029】
図1は、本発明の原理を示すシステム構成図である。メタデータ登録部10は、あらかじめ、各照会対象XML文書のスキーマ情報を収集し、メタデータに登録しておく。取得スキーマ要素決定部20は、まず、利用者が指定する単一照会文を受け付け、メタデータに登録された各照会対象XML文書のスキーマ情報に基づき、利用者が要求する取得スキーマ要素を特定し、単一照会文におけるフィルタリング条件指定や結果構造指定とともに、照会文展開部30に引き渡す。また、照会文展開部30から受け取る照会処理結果を、利用者に返却する。照会文展開部30は、取得スキーマ要素決定部20から引き受けた各指定情報と、メタデータに登録された各照会対象XML文書のスキーマ情報に基づき、各照会対象XML文書に対応した照会文を展開し、照会文処理部40に引き渡す。また、照会文処理部40が返却する照会処理結果を、取得スキーマ要素決定部20に引き渡す。これにより、利用者は単一照会文を指定するだけで、照会文処理部40に、各照会対象XML文書に対応した照会文を発行することができ、各照会対象XML文書から、要求に合致する各部分文書を、要求に合致する構造に統一化して、取得することができる。
【0030】
また、部分文書併合・整列部50を設けることが可能である。部分文書併合・整列部50は、利用者が単一照会文に指定する、取得部分文書に対する併合・整列処理を、取得スキーマ要素決定部20から引き受け、照会文展開部30から返却される照会処理結果に適用し、その結果を取得スキーマ要素決定部20に返却する。これにより、利用者は、複数のXML文書から取得される部分文書を、併合・整列して扱うことができる。
【0031】
図2は、取得スキーマ要素決定部20の構成を示す。指定情報抽出手段21は、単一照会文を受け付け、単一照会文に指定される各指定情報(取得スキーマ要素名、フィルタリング条件式、結果構造、併合・整列指定)を抽出する。フィルタリング条件式と結果構造はそのまま出力し、取得スキーマ要素名は取得スキーマ要素探索手段22に引き渡す。取得スキーマ要素探索手段22は、抽出された取得スキーマ要素名と合致する取得スキーマ要素を、メタデータに登録されたすべての照会対象XML文書のスキーマから探索し、出力する。これにより、利用者は単一照会文において、取得スキーマ要素名を指定するだけで、すべての照会対象XML文書のスキーマから、要求に合致する取得スキーマ要素を特定できる。
【0032】
また、同義語展開手段23を設けることが可能である。同義語展開手段23は、取得スキーマ要素名・フィルタリング条件式・結果構造抽出手段から取得スキーマ要素名を引き受け、その同義語を展開し、取得スキーマ要素探索手段22に引き渡す。これにより、利用者が単一照会文に指定する取得スキーマ要素名とは異なる、同義の名前を持った取得スキーマ要素を、探索することが可能になる。
【0033】
また、候補提示手段24および候補決定手段25を設けることが可能である。候補提示手段24は、取得スキーマ要素探索手段22から、探索されたすべての取得スキーマ要素を引き受け、特定する取得スキーマ要素の候補として利用者に引き渡す。また、候補決定手段25は、利用者が選択した取得スキーマ要素の候補を、特定された取得スキーマ要素として、出力する。これにより、利用者は要求に合致する取得スキーマ要素を、確実に指定可能になる。
【0034】
図3は、照会文展開部30の構成を示す。取得スキーマ要素整理手段31は、取得スキーマ要素を引き受け、各対象XML文書のスキーマごとに分類し、各分類の中で、利用者の要求する要素取得優先順に従って整列する。ここで、要素取得優先順は、各要素をどの要素に基づいて取得するかを表すもので、例えば取得スキーマ要素Aが取得スキーマ要素Bよりも要素取得優先傾が早い場合、スキーマ要素Bに対応する要素は、スキーマ要素Aに対応する特定の要素に関係するものだけが取得される。単一照会文では、construct句に宣言される取得部分文書の構造に関する文書順に従い、取得スキーマ要素の出力指定されている順を、要素取得優先順とする(図10の例では、$name、$title、$yearの順)。関係付け対象スキーマ要素決定手段32は、整理された取得スキーマ要素を、メタデータに登録されたその分類が対応する対象XML文書のスキーマを参照し、どの取得スキーマ要素同士を関係付けるかを決定する。なお、フィルタリング条件の判定対象となるスキーマ要素は、フィルタリングを適用する取得スキーマ要素に関係付ける(図10の例では、$yearは$titleに関係付ける)。どの取得スキーマ要素同士を関係付けるかについては、後で図4を用いて説明する。相対パス導出手段33は、関係付け対象として決定した2つの取得スキーマ要素について、要素取得優先順の早い方から遅い方への相対パスを、取得スキーマ要素間の関係として導出する。また、フィルタリング条件展開手段34は、フィルタリングを適用する取得スキーマ要素からフィルタリング条件の判定対象となるスキーマ要素への相対パスを導出し、フィルタリング条件式と合わせて、フィルタリング条件を展開する。照会文生成手段35は、各取得スキーマ要素およびフィルタリング条件を、他の取得スキーマ要素からの相対パスで表すことで、各照会対象XML文書からの要素取得を指定し、それぞれ取得部分文書構造上の指定位置に出力を指定することで、各照会対象XML文書に対応した照会文を展開する。ここで、取得部分文書構造において親子関係を構成する部分ごとに、XQueryのFLWOR式を展開するという規則を設けることで、図8および図9に示すXQuery照会文を展開できる。
【0035】
また、条件値表現形式変換手段36を設けることが可能である。この条件値表現形式変換手段36を設ける場合は、メタデータに登録された照会対象XML文書のスキーマ情報に、各スキーマ要素の値表現形式、値表現形式間の変換方法が、管理者により定義されており、また、システムが条件値として入力を許す値表現形式と、出力に用いる値表現形式も定義されていることを前提とする。条件値表現形式変換手段36は、展開されたフィルタリング条件について、条件値の表現形式をシステムが許容する表現形式と解釈し、メタデータに定義された値表現形式に変換し、照会文に反映する。これにより、単一照会文に指定される条件式が、照会対象XML文書ごとの値表現形式に対応した条件式に変換される。
【0036】
また、値表現形式変換手段37を設けることが可能である。この値表現形式変換手段手段37を設ける場合も、管理者によりメタデータに値表現形式に関する定義がされていることを前提とする。値表現形式変換手段37は、各照会対象XML文書から取得した部分文書について、その部分文書に含まれる取得要素の値を、メタデータに定義された表現形式から、システムが出力に用いる表現形式に変換する。これにより、異なるXML文書から取得した部分文書について、要素の値の表現形式を統一化することができる。
【0037】
図4は、照会文展開部30の関係付け対象スキーマ要素決定手段32の処理を表すフローチャートである。まず、特定の照会対象XML文書について分類され、要素取得優先順に整列された取得スキーマ要素のリストを受け付ける。そして、各取得スキーマ要素について、それより要素取得順の早い取得スキーマ要素の中から、最も近い(相対パスが最も短い)ものを探索し、それを関係付ける取得スキーマ要素として決定する。最後に、関係付ける取得スキーマ要素のリストを出力する。
【0038】
図5は、関係付け対象スキーマ要素決定手段32の効果を説明する具体例を示す。単一照会文に指定された取得スキーマ要素が「$D」「$B」「$E」であり、要素取得優先傾がこの順であるとき、図5に示すように、照会対象XML文書のスキーマから、各取得スキーマ要素に関係付けられる取得スキーマ要素が決定する。この例では、「$B」「$E」ともに「$D」に関係付けられる。この結果、対象XML文書から取得される要素の組は、図5に示すようになり、各組が単一照会文で宣言された取得部分文書構造に構造化される。ここでは、特定の要素Dに関係する要素Eが、同一の要素Cを共通親要素とするものに限定されていることがわかる。しかし、関係付け対象スキーマ要素決定手段32を用いず、例えば要素取得優先順に直接従って、「$B」を「$D」に関係付け、「$E」を「$B」に関係付け、要素を取得すると、特定の要素Dに関係する要素Eが、同一の要素Aを共通先祖要素とするものになり、親要素Cが異なるものも取得される(値d11を持つ要素Dに関係する要素Eとして、値e12をもつものも取得される)。これは、要素Bが特定の要素Dに基づいて取得されているにも関わらず、要素Eは要素Dを無視して取得されていると捉えられる。関係付け対象スキーマ要素決定手段32は、各取得スキーマ要素を、それより要素取得順の早い取得スキーマ要素の中から、最も近い(相対パスが最も短い)ものに関係付けることで、他の要素との関係付けが無視されないようにする。
【0039】
図6は、部分文書併合・整列部50の処理を表すフローチャートである。この図に示す処理に入る前に、すべての取得部分文書から、単一照会文に指定される併合・整列処理対象スキーマ要素(target)の親要素をルートとする部分文書を抽出し、それを併合・整列処理対象の部分文書とする。なお、併合・整列処理対象スキーマ要素が取得部分文書構造のルートである場合には、すべての取得部分文書を括る単一の要素を仮定し、この仮定要素をルートとする部分文書を、併合・整列処理対象部分文書とする。また、処理を実施する際の比較判定の対象となるスキーマ要素(id)は、併合・整列処理対象スキーマ要素の、それ自身を含む子孫要素のいずれかであることを前提とする。
【0040】
以下に、フローチャートに示した処理を説明する。各処理対象部分文書に対する処理として、まず、ステップ1として、処理対象スキーマ要素に該当する要素を処理対象要素として、処理対象部分文書から切り取る。次に、ステップ2として、比較判定対象スキーマ要素に該当する比較判定対象要素に基づき、切り取った各処理対象要素を平坦化する。これは、各処理対象要素を、関係する比較判定対象要素が非重複で高々1つになるように、分割する処理である。これは、比較判定の際に対象とする要素を限定するための処理である。次に、ステップ3として、平坦化した各処理対象要素の任意の2つの組について、関係する比較判定対象要素を、指定された比較方式を用いて比較し、その比較結果に応じて併合又は整列する。併合は、一方の処理対象要素の子要素として、他方の処理対象要素のすべての子要素を接続する。整列は、比較結果の大小関係に応じて、処理対象要素を並べ替える。最後に、ステップ4として、すべての処理対象要素についてこれら処理を実施した結果を、処理対象部分文書に接続する。
【0041】
図7は、部分文書併合・整列部50の処理イメージを示す。まず、ステップ1で、要素Xをルートとする処理対象部分文書から、処理対象要素である2つの要素Aを切り取る。次に、ステップ2で、切り取った各処理対象要素Aを、関係する比較判定対象要素Bに基づいて平坦化する。これにより、各処理対象要素Aについて、関係する比較対象要素Bは高々1つになる。次に、ステップ3で、関係する比較対象要素Bの値が同一な処理対象要素A同士を併合する。また、この例では、比較判定対象要素が処理対象要素の直接の子要素であるため、併合により生じる比較対照要素Bの重複を排除する処理が、ここでは特別に行われているとする。最後に、ステップ4で、併合処理が実施された各処理対象要素を、処理対象部分文書に接続する。これにより、異なるXML文書から抽出した部分文書を対象とした、併合・整列処理の実施が可能になる。
【0042】
以下では、本発明により展開される照会文と、その照会文に従って取得される部分文書、そして取得部分文書に対する併合・整列処理適用結果の、具体例を示す。図8および図9に示すXML文書を対象として、図10に示す単一照会文が指定した場合、単一照会文のconstruct句の指定に基づき、本発明を実施することで、図8および図9に示すXQuery照会文が、それぞれのXML文書に対して展開される。図11は、これらの照会文に基づいて取得される部分文書を示す。この結果は、対象XML文書から独立した単一照会文を指定することで、構造の異なる複数のXML文書から、要求に合致する部分文書を抽出し、それぞれを宣言した統一構造で取得できることを表している。また、図12は、図11に示す取得部分文書に対して、図10に示す単一照会文のoption句の指定に基づき、併合・整列処理を実施した結果を示す。この結果は、対象XML文書から独立した単一照会文を指定することで、異なるXML文書から取得された部分文書の併合や整列が可能なことを示している。
【0043】
なお、以上の実施形態の説明においては、図1〜図4、図6の処理を実行するプログラムを作成して、これをコンピュータ読取可能な記録媒体に記録して、この記録媒体をコンピュータに読み込ませ実行することより、ネットワーク上の膨大かつ多様なXML文書から所望の部分文書を探索し所望の構造に変換して取得することができる。また、本発明は上記実施例に限定されるものではなく、特許請求項の範囲を逸脱しない範囲で変更可能である。
【0043】
【発明の効果】
上述のように、本発明によれば、対象XML文書から独立した単一照会文を指定することで、ネットワーク上の膨大かつ多様なXML文書から、動的に各XML文書に対応する照会文を展開し、各XML文書から要求に合致する部分文書を取得することができる。これにより、従来手法で発生していた、利用者による照会文指定の負担、又は管理者による統合構造定義の負担を低減できる。また、部分文書は指定した統一構造で取得できるため、従来手法で発生していたアプリケーションプログラムによる再利用性低下の問題も解決できる。
【図面の簡単な説明】
【図1】本発明の原理を示す部分文書取得システムの構成を示すブロック図である。
【図2】各XML文書から独立した単一照会文の指定から、実際に取得を指定する各XML文書スキーマ上のスキーマ要素を決定するための、取得スキーマ要素決定部20の構成を示すブロック図である。
【図3】取得スキーマ要素や結果構造などから、取得スキーマ要素間の関係を導出し、各XML文書に対応した照会文を展開するための、照会文展開部30の構成を示すブロック図である。
【図4】照会文展開部30において、取得スキーマ要素間の関係が失われないように、関係付ける取得スキーマ要素の組を決定するための、関係付け対象スキーマ要素決定手段32の処理のフローチャートである。
【図5】関係付け対象スキーマ要素決定手段32の効果を表す具体例を示す説明図である。
【図6】異なるXML文書から取得される部分文書に対して併合・整列処理を実施するための、部分文書併合・整列部50の処理のフローチャートである。
【図7】部分文書併合・整列部50の処理を具体的に示す説明図である。
【図8】本発明の効果を示すための、照会対象XML文書と、該XML文書を対象とするXQuery照会文の例を示す図である。
【図9】本発明の効果を示すための、照会対象XML文書と、該XML文書を対象とするXQuery照会文の別の例を示す図である。
【図10】本発明の入力となる単一照会文の例を示す図である。
【図11】本発明の効果を示すための、展開照会文の実行により取得される部分文書の例を示す図である。
【図12】本発明の効果を示すための、取得部分文書に対する併合・整列処理の適用結果の例を示す図である。
【符号の説明】
10:メタデータ登録部
20:取得スキーマ要素決定部、21:指定情報抽出手段、22:取得スキーマ要素探索手段、23:同義語展開手段、24:候補提示手段、25:候補決定手段
30:照会文展開部、31:取得スキーマ要素整理手段、32:関係付け対象スキーマ要素決定手段、33:相対パス導出手段、34:フィルタリング条件展開手段、35:照会文生成手段、36:条件値表現形式変換手段、37:値表現形式変換手段
40:照会文処理部
50:部分文書併合・整列部

Claims (14)

  1. 部分文書取得の対象となる複数の各XML文書のそれぞれのスキーマをメタデータとして登録し、
    取得するスキーマ要素の要素名、フィルタリング条件、結果構造から成る単一の照会文を受け付け、メタデータとして登録された前記各XML文書のスキーマを参照し、照会対象となるXML文書と該XML文書のスキーマ上の取得するスキーマ要素を決定し、
    該決定した取得対象スキーマ要素と、フィルタリング条件、結果構造、およびメタデータとして登録された前記各XML文書のスキーマから、前記各XML文書に対応する部分文書取得のための各照会文を動的に展開し、
    該展開された各照会文を処理し、前記各XML文書から所望の部分文書を所望の統一構造で取得する、
    ことを特徴とする部分文書取得方法。
  2. 部分文書取得の対象となる複数の各XML文書のそれぞれのスキーマをメタデータとして登録するメタデータ登録部と、
    取得するスキーマ要素の要素名、フィルタリング条件、結果構造から成る単一の照会文を受け付け、前記メタデータ登録部にメタデータとして登録された前記各XML文書のスキーマを参照し、照会対象となるXML文書と該XML文書のスキーマ上の取得するスキーマ要素を決定する取得スキーマ要素決定部と、
    該取得スキーマ要素決定部により決定した取得対象スキーマ要素と、フィルタリング条件、結果構造、および前記メタデータ登録部にメタデータとして登録された前記各XML文書のスキーマから、前記各XML文書に対応する部分文書取得のための照会文を動的に展開する照会文展開部と、
    該照会文展開部により展開された各照会文を処理し、前記各XML文書から所望の部分文書を所望の統一構造で取得する照会文処理部と、
    を備えることを特徴とする部分文書取得システム。
  3. 前記取得スキーマ要素決定部は、前記部分文書に対する併合・整列指定が含まれる単一照会文を受け付け、
    さらに前記照会文処理部で取得される各部分文書を、該併合・整列指定にしたがって併合・整列する部分文書併合・整列部を備える、
    ことを特徴とする請求項2記載の部分文書取得システム。
  4. 前記取得スキーマ要素決定部は、
    前記単一の照会文を構成する取得するスキーマ要素の要素名、フィルタリング条件、結果構造をそれぞれ抽出する指定情報抽出手段と、
    該指定情報抽出手段により抽出された取得スキーマ要素名について、前記メタデータ登録部にメタデータとして登録された前記各XML文書のスキーマ上で名前が合致するスキーマ要素を探索し、取得するスキーマ要素として決定する取得スキーマ要素探索手段と、
    を備えることを特徴とする請求項2記載の部分文書取得システム。
  5. 前記取得スキーマ要素決定部は、
    前記単一の照会文を構成する取得するスキーマ要素の要素名、フィルタリング条件、結果構造、併合・整列指定をそれぞれ抽出する指定情報抽出手段と、
    該指定情報抽出手段により抽出された取得スキーマ要素名について、前記メタデータ登録部にメタデータとして登録された前記各XML文書のスキーマ上で名前が合致するスキーマ要素を探索し、取得するスキーマ要素として決定する取得スキーマ要素探索手段と、
    を備えることを特徴とする請求項3記載の部分文書取得システム。
  6. 前記取得スキーマ要素決定部は、前記指定情報抽出手段が抽出する取得スキーマ要素名をさらに同義語に展開する同義語展開手段を備え、
    前記取得スキーマ要素探索手段は、該同義語展開手段により展開された同義語に合致するスキーマ要素を前記メタデータ登録部にメタデータとして登録された前記各XML文書のスキーマから探索する、
    ことを特徴とする請求項4又は5記載の部分文書取得システム。
  7. 前記取得スキーマ要素決定部は、
    前記取得スキーマ要素探索手段が探索する取得スキーマ要素をさらに取得スキーマ要素の候補として利用者に提示する候補提示手段と、
    該候補提示手段により提示された候補から利用者が選択した候補を取得スキーマ要素として決定する候補決定手段と、
    を備えることを特徴とする請求項6記載の部分文書取得システム。
  8. 前記照会文展開部は、
    取得スキーマ要素を対象となるXML文書のスキーマごとに分類して要素取得優先順に従って整列する取得スキーマ要素整理手段と、
    該取得スキーマ要素整理手段により整理された取得スキーマ要素について、前記メタデータ登録部にメタデータとして登録された前記各XML文書のスキーマを参照して、関係付ける取得スキーマ要素同士を決定する関係付け対象スキーマ要素決定手段と、
    該関係付け対象スキーマ要素決定手段により関係付け対象として決定した取得スキーマ要素について、前記メタデータ登録部にメタデータとして登録された前記各XML文書のスキーマを参照して、関係付ける取得スキーマ要素要素間の相対パスを導出する相対パス導出手段と、
    前記メタデータ登録部にメタデータとして登録された前記各XML文書のスキーマを参照して、前記関係付け対象スキーマ要素決定手段で関係付けを決定された取得スキーマ要素とフィルタリング条件の判定対象となる取得スキーマ要素間の相対パスを導出し、フィルタリング条件式と合わせて、フィルタリング条件を展開するフィルタリング条件展開手段と、
    該フィルタリング条件展開手段で取得された各取得スキーマ要素と、前記相対パス導出手段で導出された取得スキーマ要素間の相対パス、フィルタリング条件、および結果構造から、前記各XML文書に対応した照会文を生成する照会文生成手段と、
    を備えることを特徴とする請求項4、5、6、又は7記載の部分文書取得システム。
  9. 前記照会文展開部は、
    前記フィルタリング条件展開手段が展開するフィルタリング条件を、前記メタデータ登録部にメタデータとして登録された、前記各XML文書のスキーマにおいて各スキーマ要素に定義された値表現形式と、本部分文書取得システムが入力を許す値表現形式と、各値表現形式間の変換方法とを参照し、フィルタリング条件式に指定された条件値を、前記各XML文書に適した表現形式の値に変換する条件値表現形式変換手段を備える、
    ことを特徴とする請求項8記載の部分文書取得システム。
  10. 前記照会文展開部は、
    展開した照会文に基づき、前記照会文処理部により取得される照会処理結果の結果部分文書に対し、前記メタデータ登録部にメタデータとして登録された、前記各XML文書のスキーマにおいて各スキーマ要素に定義された値表現形式と、本部分文書取得システムが出力に用いる値表現形式と、各値表現形式間の変換方法とを参照し、前記各結果部分文書に含まれる値の表現形式を、本部分文書取得システムの出力形式に変換する、値表現形式変換手段を備える、
    ことを特徴とする請求項9記載の部分文書取得システム。
  11. 前記関係付け対象スキーマ要素決定手段は、
    各取得スキーマ要素について、それより要素取得優先順の早い取得スキーマ要素の中から、間のパスが最も短いものを探索し、それを関係付ける取得スキーマ要素として決定する、
    ことを特徴とする、請求項8、9、又は10記載の部分文書取得システム。
  12. 前記部分文書併合・整列部は、
    前記単一の照会文において、結果構造に対する併合・整列処理対象スキーマ要素と、比較判定対象スキーマ要素と、比較判定を行う方法と、で構成される併合・整列指定を受け取り、
    前記併合・整列処理対象スキーマ要素の親スキーマ要素に該当する要素をルートとする部分文書を、併合・整列処理対象部分文書として抽出し、
    該抽出した各併合・整列処理対象部分文書について、前記併合・整列処理対象スキーマ要素に該当するすべてのスキーマ要素を切り取り、該切り取った各処理対象スキーマ要素を関係する比較判定対象スキーマ要素に基づいて平坦化し、平坦化したすべて処理対象スキーマ要素から任意の2つを選択し、関係する比較判定スキーマ要素の値について、前記比較判定方法に従って比較し、比較結果に応じて該処理対象スキーマ要素同士を併合・整列し、併合・整列した結果を併合・整列処理対象部分文書に接続する、
    ことを特徴とする請求項3、5、6、7、8、9、10又は11記載の部分文書取得システム。
  13. 部分文書取得の対象となる複数の各XML文書のそれぞれのスキーマをメタデータとして登録する手順と、
    取得するスキーマ要素の要素名、フィルタリング条件、結果構造から成る単一の照会文を受け付け、メタデータとして登録された前記各XML文書のスキーマを参照し、照会対象となるXML文書と該XML文書のスキーマ上の取得するスキーマ要素を決定する手順と、
    該決定した取得対象スキーマ要素と、フィルタリング条件、結果構造、およびメタデータとして登録された前記各XML文書のスキーマから、前記各XML文書に対応する部分文書取得のための各照会文を動的に展開する手順と、
    該展開された各照会文を処理し、前記各XML文書から所望の部分文書を所望の統一構造で取得する手順と、
    をコンピュータに実行させるための部分文書取得プログラム。
  14. 請求項13に記載の部分文書取得プログラムを記録したコンピュータ読取可能な記録媒体。
JP2003145404A 2003-05-22 2003-05-22 部分文書取得方法、システム、プログラム、および記録媒体 Withdrawn JP2004348484A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003145404A JP2004348484A (ja) 2003-05-22 2003-05-22 部分文書取得方法、システム、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003145404A JP2004348484A (ja) 2003-05-22 2003-05-22 部分文書取得方法、システム、プログラム、および記録媒体

Publications (1)

Publication Number Publication Date
JP2004348484A true JP2004348484A (ja) 2004-12-09

Family

ID=33532593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003145404A Withdrawn JP2004348484A (ja) 2003-05-22 2003-05-22 部分文書取得方法、システム、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP2004348484A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7225411B1 (en) * 2003-06-30 2007-05-29 Tibco Software Inc. Efficient transformation of information between a source schema and a target schema
CN111958431A (zh) * 2018-03-21 2020-11-20 盖多·瓦伦蒂尼 砂磨或抛光工件并实现两种作业运动的手持式机械工具

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7225411B1 (en) * 2003-06-30 2007-05-29 Tibco Software Inc. Efficient transformation of information between a source schema and a target schema
CN111958431A (zh) * 2018-03-21 2020-11-20 盖多·瓦伦蒂尼 砂磨或抛光工件并实现两种作业运动的手持式机械工具

Similar Documents

Publication Publication Date Title
JP4189416B2 (ja) 構造化文書管理システム及びプログラム
KR101450358B1 (ko) 구조형 지리적 데이터 검색
JP4644420B2 (ja) ネットワークを介してデータを検索及び提示する方法及びマシン可読記憶装置
US20050060306A1 (en) Apparatus, method, and program for retrieving structured documents
JP2004030569A (ja) 関係型データベースにおいて正規経路式質疑を処理するxmlインデックス方法と資料構造
JPH11242676A (ja) 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
JP4207438B2 (ja) Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム
US7401071B2 (en) Structured data retrieval apparatus, method, and computer readable medium
JP2005227851A (ja) 構造化データ記憶方法および装置
Moh et al. Re-engineering structures from Web documents
US20110252313A1 (en) Document information selection method and computer program product
JP2010250449A (ja) 情報処理装置、情報処理方法
Elmasri et al. Conceptual modeling for customized XML schemas
JP2004348484A (ja) 部分文書取得方法、システム、プログラム、および記録媒体
JP4649339B2 (ja) XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体
JP2000003366A (ja) 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
JP2010267081A (ja) 情報検索方法及び装置及びプログラム
JP2008140157A (ja) 構造化文書処理装置
JP3937944B2 (ja) 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体
Zwol et al. Using webspaces to model document collections on the web
KR100555982B1 (ko) 확장 마크업 언어로 작성된 문서를 위한 정보검색 시스템및 그 방법과 그 방법을 실행시키기 위한 프로그램을기록한 컴퓨터로 읽을 수 있는 기록매체
Suzuki et al. Path Set Operations for Clipping of Parts of Web Pages and Information Extraction from Web pages.
JP2004348485A (ja) 構造化文書処理方法及び装置及び構造化文書処理プログラム及び構造化文書処理プログラムを格納した記憶媒体
Abbaci et al. Index and Search XML Documents by Combining Content and Structure.
JP2006163723A (ja) ドキュメント検索方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060801