JP2008084113A - 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 - Google Patents

構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 Download PDF

Info

Publication number
JP2008084113A
JP2008084113A JP2006264836A JP2006264836A JP2008084113A JP 2008084113 A JP2008084113 A JP 2008084113A JP 2006264836 A JP2006264836 A JP 2006264836A JP 2006264836 A JP2006264836 A JP 2006264836A JP 2008084113 A JP2008084113 A JP 2008084113A
Authority
JP
Japan
Prior art keywords
search
structured document
plan
document
execution plan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006264836A
Other languages
English (en)
Other versions
JP4212615B2 (ja
Inventor
Katsuhiko Nonomura
克彦 野々村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006264836A priority Critical patent/JP4212615B2/ja
Priority to US11/846,042 priority patent/US7953761B2/en
Publication of JP2008084113A publication Critical patent/JP2008084113A/ja
Application granted granted Critical
Publication of JP4212615B2 publication Critical patent/JP4212615B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing

Abstract

【課題】文字列生成・データ転送の処理負担を軽減する構造化文書検索システムを提供する。
【解決手段】構造化文書内の構造要素と値に関する統計情報を記憶する構造情報記憶部130と、統計情報の条件と構造要素と値から構成される文字列の表現形式とを対応づけた規則を記憶する規則記憶部140と、検索要求に基づいて実行プランを生成するプラン生成部122と、検索対象となる論理構造に対応する統計情報を構造情報記憶部130から取得する取得部123と、取得した統計情報が満たす条件に対応する表現形式を規則記憶部140から取得して実行プランに対応づける対応づけ部124と、を備えた検索装置100と、検索装置100から受信した実行プランを実行して得られた検索結果を、実行プランに対応づけられた表現形式で表すプラン実行部225と、検索結果を検索装置に送信する結果送信部229と、を備えた文書管理装置200と、を備えた。
【選択図】 図1

Description

この発明は、大量の構造化文書を、階層化された論理構造を持つ構造化文書データベース群で分散配置して格納、管理する構造化文書管理システム、構造化文書検索方法、検索装置、および文書管理装置に関する。
近年、IT(Information Technology)の進化により、莫大な量の情報が容易に入手できるようになった。その一方で、必要な情報が大量のデータに埋没し、十分に活用できないという弊害も発生している。情報が大量に存在していても、それをうまく活用できなければ意味がない。
情報には、1つの書式に統一された情報もあれば、全く書式のない自由書式の情報も数多く存在する。これらの情報を統一的に扱うための中核技術として期待されている技術がXML(Extensible Markup Language)である。XMLは、柔軟な拡張性と連携性を備えた標準のドキュメント記述言語であり、主要ベンダーからのサポートも約束されている。
XMLのような構造化文書は、(1)階層的な構造を有する、(2)同じパスの構造要素が文書内に繰り返し発生する場合もあるし、存在しない場合もある、(3)部分文書の文字列は長大データになりうる、といった特徴を有する。
一方、格納された文書を取り出す技術として問合せ言語が存在する。RDB(relational database)の分野では、問合せ言語として、SQL(Structured Query Language)が知られている。また、XMLに対しては、XQuery(XML Query Language)が策定されている。
XQueryは、XMLデータをデータベースのように扱うための言語である。XQueryでは、構造要素の値に関する条件や階層構造に関する条件に合致するデータ集合の取り出しができる。また、パスの正規表現により、「「文書」タグの子孫のどこかに存在する「コメント」タグ」を取得するなどのような階層構造に関する曖昧な条件も指定できる。
XMLのような構造化文書に対する検索では、構造化文書を検索結果として取得することが多い。また、検索処理の中間結果で構造化文書が生成される場合もある。このような検索処理の検索結果または中間結果として構造化文書を生成する単純な手法としては、階層化された結果データをプリオーダで辿って文字列化する手法が挙げられるが、データ量が多くなるという問題がある。
ところで、構造化文書を格納するとき、複数の文書格納装置に構造化文書を分散配置して格納する技術が広く知られている。また、このように分散配置して格納された構造化文書に対する検索処理では、一般に検索の中間結果データなどを装置間で転送する必要が生じる。検索処理の中に占める転送処理の負荷は大きいため、データサイズを小さくして転送量を削減することなどにより、データ転送の処理負担を軽減することが求められる。
特許文献1では、生成するXMLデータを圧縮する技術が提案されている。すなわち、特許文献1の方法では、構造化文書のスキーマ(データ定義)を利用して、構造化文書を構造に関する部分と値に関する部分とに分け、タグ名や属性名をデータ定義として凝縮して構造に関する部分で保持することにより、データサイズを削減している。
例えば、同一パスのタグ名はデータ定義部分に1つだけ保持すればよいため、データサイズが削減される。また、繰り返しのあるデータについては、値部分に繰り返し数を保持する必要があるが、繰り返しのないデータについては、構造部分で「繰り返しなし」という情報を保持することにより、値部分に繰り返し数を保持する必要がなくなる。
特開2005−18672号公報
しかしながら、特許文献1の方法では、データの表現形式を工夫することによりデータサイズを圧縮することはできるが、検索結果または中間結果でデータの重複等が発生することを考慮していないため、無駄な文字列生成処理が発生する場合があるという問題があった。
例えば、構造化文書の検索では、検索条件によって、構造化文書が格納されている格納ページなどの共通のデータエリアから、複数の構造化文書または部分構造化文書の文字列を生成する場合がある。このような場合、特許文献1の方法では、全く同じ文字列であっても複数の文字列を個々に生成する。このため、不要な文字列生成処理が行われるとともに、重複して生成された文字列を転送することによる転送量の増大という問題も生じる。
本発明は、上記に鑑みてなされたものであって、文字列生成およびデータ転送の処理負担を軽減することができる構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、階層化された論理構造を有している複数の構造化文書を前記構造化文書ごとに分散して格納する複数の文書管理装置と、前記文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置と、を備えた構造化文書検索システムであって、前記検索装置は、前記論理構造ごとに、前記論理構造に対応する前記構造化文書内の構造要素と値に関する統計情報を記憶する構造情報記憶手段と、前記統計情報に関する条件と、構造要素と値から構成される文字列を表現する表現形式とを対応づけた規則を記憶する規則記憶手段と、ネットワークに接続されたクライアント端末からの前記構造化文書の検索要求に基づいて、前記構造化文書に対する検索処理の実行プランを生成するプラン生成手段と、生成した前記実行プランの検索対象となる前記論理構造に対応する前記統計情報を前記構造情報記憶手段から取得する取得手段と、取得した前記統計情報が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得して前記実行プランに対応づける対応づけ手段と、前記表現形式を対応づけた前記実行プランを前記文書管理装置に送信するプラン送信手段と、前記実行プランの実行結果である検索結果を前記文書管理装置から受信する結果受信手段と、前記検索結果を前記クライアント端末に送信する第1結果送信手段と、を備え、前記文書管理装置は、前記表現形式を対応づけた前記実行プランを前記検索装置から受信するプラン受信手段と、受信した前記実行プランを実行し、実行して得られた検索結果を、前記実行プランに対応づけられた前記表現形式で出力するプラン実行手段と、 前記表現形式で表された前記検索結果を前記検索装置に送信する第2結果送信手段と、を備えたこと、を特徴とする。
また、本発明は、上記装置を実行することができる構造化文書検索方法である。
また、本発明は、階層化された論理構造を有している複数の構造化文書を前記構造化文書ごとに分散して格納する複数の文書管理装置とネットワークを介して接続された検索装置であって、前記論理構造ごとに、前記論理構造に対応する前記構造化文書内の構造要素と値に関する統計情報を記憶する構造情報記憶手段と、前記統計情報に関する条件と、構造要素と値から構成される文字列を表現する表現形式とを対応づけた規則を記憶する規則記憶手段と、ネットワークに接続されたクライアント端末からの前記構造化文書の検索要求に基づいて、前記構造化文書に対する検索処理の実行プランを生成するプラン生成手段と、生成した前記実行プランの検索対象となる前記論理構造の前記統計情報が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づける対応づけ手段と、前記表現形式を対応づけた前記実行プランを前記文書管理装置に送信するプラン送信手段と、前記実行プランの実行結果である検索結果を前記文書管理装置から受信する結果受信手段と、前記検索結果を前記クライアント端末に送信する結果送信手段と、を備えたこと、を特徴とする。
また、本発明は、階層化された論理構造を有している複数の構造化文書を検索する検索装置とネットワークを介して接続された文書管理装置であって、前記構造化文書を前記構造化文書格納する文書格納手段と、前記構造化文書に対する検索処理を実行するプランであって、構造要素と値から構成される文字列を表現する表現形式が対応づけられた実行プランを前記検索装置から受信するプラン受信手段と、受信した前記実行プランを実行し、実行して得られた検索結果を、前記実行プランに対応づけられた前記表現形式で出力するプラン実行手段と、前記表現形式で表された前記検索結果を前記検索装置に送信する結果送信手段と、を備えたこと、を特徴とする。
本発明によれば、検索要求の特徴に従って検索結果となる構造化文書の表現形式を選択し、選択された表現形式のデータ形式で文字列を生成してデータ転送するため、文字列生成およびデータ転送の処理負担を軽減し、高速な検索が可能になるという効果を奏する。
以下に添付図面を参照して、この発明にかかる構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置の最良な実施の形態を詳細に説明する。
本実施の形態にかかる構造化文書検索システムは、構造化文書のデータ表現に利用される複数の表現形式の集合の中から、検索要求の特徴に従って表現形式を選択し、検索処理に実行される各オペレータに対して表現形式を割当てた実行プランを生成し、選択された表現形式のデータ形式で文字列を生成し、選択された表現形式のデータ形式でデータを転送するものである。
図1は、本実施の形態にかかる構造化文書検索システムの構成を示すブロック図である。同図に示すように、本実施の形態の構造化文書検索システムでは、検索装置100と、複数の文書管理装置200a、200bと、ネットワーク300と、クライアント400と、を備えている。
クライアント400は、格納する構造化文書や、構造化文書の検索要求を検索装置100に送信するものであり、通常のPC(Personal Computer)などにより構成される。本実施の形態では、クライアント400は、XQueryで記述された検索要求を検索装置100に送信する。
ネットワーク300は、検索装置100と、文書管理装置200と、クライアント400とを接続するネットワークであり、インターネットやVPNなどのあらゆるネットワーク形態により構成することができる。
また、クライアント400と検索装置100とを接続するネットワークと、文書管理装置200と検索装置100とを接続するネットワークを別のネットワークで構成してもよい。
検索装置100は、文書管理装置200から構造化文書を検索するものである。以下では、同図に示すように、検索装置100の名称を装置X、文書管理装置200a、200bの名称をそれぞれ装置A、装置Bと呼ぶ場合がある。また、文書管理装置200a、200bは同様の構成を有するため、以下では単に文書管理装置200と呼ぶ場合がある。
なお、本実施の形態の構造化文書検索システムは、少なくとも2つの文書管理装置200を備えていればよい。また、文書管理装置200の個数は2つに限られるものではない。
検索装置100は、格納処理部110と、検索処理部120と、構造情報記憶部130と、規則記憶部140とを備えている。
構造情報記憶部130は、XML形式の構造化文書から抽出された構造情報を格納するものである。
ここで、本実施の形態で扱われるXML形式の構造化文書について説明する。図2は、XML形式の構造化文書の一例を示した説明図である。
同図に示すように、XML形式の構造化文書は、<header>タグ内の書誌情報と、<body>タグ内の本体情報とに分けられる場合が多い。また、同図の<section>タグのように、同一文書内に繰り返し格納される情報も含まれる。
なお、XMLでは、タグを使って定義したデータの単位をエレメントという。例えば、<document>タグと</document>タグとを含み、両タグで囲まれたデータが1つのエレメントを構成する。
また、エレメントには、省略可能か、繰り返しが可能かなどの付加的な情報を追加するための属性を指定することができる。同図では、authorエレメントの属性としてid属性が指定された例が示されている。
また、エレメントの中の開始タグと終了タグで囲まれた情報の内容を、以下ではテキストという。例えば、同図のdateエレメントのうち、“20050711”がテキストに該当する。
構造情報はこのようなXML形式の構造化文書から、各タグの名称や階層関係、繰り返しの個数などを抽出した情報である。なお、本実施の形態では、上述のエレメント、属性、テキストが、構造化文書の構造情報を構成する要素を示す構造要素となる。
図3は、XML形式の構造化文書の別の例を示した説明図である。同図は、本システムを利用するユーザに関するユーザ情報を格納したXML文書を示した例である。なお、図2は、各ユーザが作成した報告書を格納したXML文書を示した例を表している。
図4は、図2に示す構造化文書から抽出された構造情報の一例を示す説明図である。図4は、構造情報を木構造で表したものであり、楕円形のノードはエレメントに対応するノード(以下、エレメントノードという)、四角形のノードは属性に対応するノード(以下、属性ノードという。)、六角形のノードはテキストに対応するノード(以下、テキストノードという)を意味する。
なお、以下では、ノードとは、一般的な木構造における節を表す用語として用いる。したがって、図4のように構造情報を木構造で表した場合には、構造要素がノードとなる。また、後述するように構造化文書を木構造で表した場合には、構造化文書の一部である部分文字列がノードとなる。
同図に示すように、構造要素には構造要素を一意に識別する識別子であるTIDが割当てられる。同図では、例えば、パス「/document」の「document」タグに対応した構造要素にTID1、パス「/document/header」の「header」タグに対応した構造要素にTID2、パス「/document/header/title」の「title」タグに対応した構造要素にTID3が割り当てられている。
パス「/document/body/section」の「section」タグは構造化文書に複数含まれうるが、同一パスの構造要素は1つに縮約されてTID11が割当てられる。また、構造が異なる複数の構造化文書については、構造情報の重ね合わせにより、すべての構造化文書を包含する、汎化した構造情報を形成する。
図5は、図3に示す構造化文書から抽出された構造情報の一例を示す説明図である。図5に示すように、ユーザごとに識別子(id)、ユーザ名(name)、部署(office)、電話番号(tel)が格納されることを示す構造情報が定義されている。
次に、構造情報記憶部130に格納された構造情報について説明する。図6は、構造情報記憶部130に格納された構造情報のデータ構造の一例を示す説明図である。同図の例は、図3に示す構造化文書から抽出された構造情報を表している。
図6では、ツリーの親子関係、兄弟関係などの木構造における構造要素間の関係の他に、構造化文書を格納した文書管理装置200に関する情報と、構造化文書に関する統計情報を保持した例が示されている。
同図に示すように、構造情報は、構造要素間の関係に関する情報として、TIDと、ノードの種類を表すノードタイプと、構造要素の名称を表すシンボル名と、長男に相当する構造要素のTIDと、次弟に相当する構造要素のTIDと、文書ルートフラグと、を格納している。また、構造情報は、構造化文書を格納した文書管理装置200に関する情報として、配置位置を格納している。さらに、構造情報は、構造化文書に関する統計情報として、平均文書サイズと、平均格納ページ数と、文書数と、平均テキストサイズと、テーブルフラグと、平均子孫ノード数と、を格納している。
文書ルートフラグとは、構造化文書の木構造のルートノードであるか否かを表す情報をいい、ルートノードである場合は1を、それ以外は0を設定する。統計情報のうち、平均文書サイズ、平均格納ページ数、および文書数は、ルートノードに対応するTIDのみに設定される。
平均文書サイズとは、構造化文書のサイズの平均値を表す。平均格納ページ数とは、構造化文書を、格納ページ形式で表したときの格納ページの平均ページ数を表す。格納ページ形式の詳細については後述する。文書数とは、構造情報に対応する構造化文書の個数をいう。本実施の形態では、図3に示すような1つのXML文書内にすべてのユーザ情報を格納するため、図6に示すように文書数は1が設定される。
統計情報のうち、平均テキストサイズ、テーブルフラグ、平均子孫ノード数は、各ノードに対応するTIDに対して設定される。平均テキストサイズとは、ノードに含まれる文字列(テキスト)のサイズの平均値を表す。テーブルフラグとは、対応するノードの個数に関するフラグであり、すべての文書について、対応するエレメントノードが重複した名前の子ノードを持たない場合に1を設定し、それ以外のエレメントノードには0を設定する。属性ノード、およびテキストノードはテーブルフラグを未定義とする。平均子孫ノード数とは、対応するノードより下に存在するノードの数の平均値を表す。
なお、構造情報は文書情報や索引情報に比べ更新頻度はかなり少ないと考えられる。したがって、オンラインで更新されるようなシステムであっても、構造情報を各装置のメモリ上に格納し、一貫性を保ちながら共有することが可能である。
図1に戻り、規則記憶部140は、構造情報の統計情報に関する条件に対して、当該条件を満たす場合に検索結果として生成する文字列を表現する表現形式を決定する規則を記憶するものである。
なお、構造情報記憶部130および規則記憶部140は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
図7は、規則記憶部140に記憶された規則のデータ構造の一例を示す説明図である。同図に示すように、規則記憶部140の規則は、規則を識別する規則IDと、規則を適用するための条件と、データの生成元となる装置を表す生成元と、データの転送先となる装置を表す転送先と、選択される表現形式と、を対応づけて格納している。
規則を適用するための条件は、問合せデータに関する情報、格納されている構造化文書群に関する情報、および検索処理の中間結果に関する情報を用いて定義される。例えば、同図の規則ID=1の条件に含まれる「文書数」および「文書サイズ」や、規則ID=2の条件に含まれる「平均テキストサイズ」および「平均格納ページ数」は、格納されている構造化文書群に関する情報である。また、規則ID=2の条件に含まれる「ヒット件数」は、検索処理の中間結果に関する情報である。
表現形式には、XMLデータを表すために用いられるあらゆる表現形式を指定できる。本実施の形態では、主な表現形式として、文字列形式、バイナリ形式、テーブル形式、および格納ページ形式を指定可能である。以下、図3のユーザ情報を例に各表現形式について説明する。
図8は、文字列形式の表現形式の一例を示す説明図である。文字列形式とは、構造化文書に含まれる文字列をそのまま表した形式をいう。同図では、図3のユーザ情報に対応し、XMLの文字列形式でユーザ2名分のデータが表現されている。XMLの文字列形式では、開始タグ名は文字「<」と文字「>」で囲む、開始タグと終了タグは対になる、などの規定が存在するため、サイズが大きくなりやすい。
図9は、バイナリ形式の表現形式の一例を示す説明図である。バイナリ形式とは、文字列以外のデータを用いて文字列の情報を表した形式をいう。同図は、タグ名や属性名を所定のIDで表す方法を用いたバイナリ形式の例を表している。
具体的には、同図のバイナリ形式では、構造化文書を構造に関する部分と値に関する部分とに分け、タグ名や属性名はTIDで表現し、XMLデータの構造要素をプリオーダで辿って得られる順に、当該IDと値とを並べる。また、終了タグ名については、終了タグの位置だけが分かるように文字「/」を並べている。また、同じパスの構造要素ごとに値をグループ分けし、グループごとにテキスト圧縮ツールを指定して圧縮を行う。なお、説明のため、同図では圧縮前のデータを記載している。
バイナリ形式は、文字列形式と比べサイズが小さくなるが、部分データへのアクセスや更新が扱いにくいという問題がある。
図10は、テーブル形式の表現形式の一例を示す説明図である。テーブル形式とは、一般的なRDBのように、各列に保持されるデータ型の定義情報と、当該定義情報に対応する値を各行に設定したテーブル状の形式をいう。
同図では、「userタグのID」、「id属性の値」などを定義情報とし、対応する2名分のユーザ情報が各行に指定された例が示されている。
テーブル形式は、ある構造要素の子要素として同じタグ名の構造要素が複数個存在する、すなわち、繰り返し性のあるXMLデータの場合には、その構造要素に関する値を重複して保持しなければならないという問題がある。
図11は、格納ページ形式の表現形式の一例を示す説明図である。格納ページ形式とは、固定長サイズの格納ページに文字列を格納する形式をいう。同図に示すように、格納ページはデータ部とオフセット部とから構成され、構造要素や値に関するデータはデータ部に配置する。また、オフセット部には、各データの配置された位置(ページ先頭からのオフセット)を、各データに割当てられたIDであるEIDの順にページの末尾から配置する。
検索処理に利用されるデータにはいくつかのアクセスパターンが存在するため、当該アクセスパターンに対応する条件と、当該アクセスパターンに適した表現形式を、規則記憶部140の規則として指定する。以下に、データのアクセスパターンについて説明する。
(1)検索結果の共通構造のデータ
構造化文書の検索では、上述のように構造化文書の形式で検索結果を求めるような問合せデータを指定できる。例えば、検索結果のうち報告書のタイトルを「<タイトル>」タグ、ユーザのIDを「<報告者情報>」タグで囲み、全体を「<結果>」タグで囲んだ検索結果を求める問合せデータを指定可能である。このような場合、上記タグの部分は、すべての検索結果について共通構造のデータとなる。このような検索結果の共通構造のデータについては、1回だけデータを作成しておき、各検索結果を作成する際に参照すれば無駄な文字列生成処理を回避できる。
(2)文書全体または文書内の特定箇所のデータ
特定の構造要素以下のデータが検索結果になる場合が該当する。例として、XPathを使った検索が挙げられる。このようなパターンのデータについて装置間でデータ転送が発生する場合には、文字列形式でなく、バイナリ形式でデータ転送を行うと、転送サイズを小さくすることができる。
(3)文書内の非特定箇所のデータ
検索結果が複数存在する場合であって、各検索結果で構造化文書内の利用箇所が異なる場合が該当する。例えば、本実施の形態のようにユーザ情報を格納した1つのXML文書(図3)からユーザ情報を検索する場合、問合せデータによっては重複したユーザ情報が検索される場合がある。
RDBはテーブル単位でデータが管理され、オブジェクト指向データベースはオブジェクト単位でデータが管理されるが、構造化文書検索システムでは文書単位で管理されることが多い。そのため、同じ文書内のデータに対するアクセスが多い場合には、格納されているページ(格納ページ)を直接参照すれば、効率的である。
以上より、検索処理に利用されるデータのアクセスパターンやデータサイズの観点でデータ形式の表現形式を選択し、選択したデータ形式でデータのバッファ管理や、データ転送を行うことで、文字列生成やデータ転送の重複処理、冗長処理を削減できると考えられる。
図1に戻り、格納処理部110は、構造化文書を構造化文書記憶部250へ格納する処理を行うものであり、構造抽出部111と、文書送信部112と、を備えている。
構造化文書の格納処理は2つのフェーズに分けられる。第1フェーズでは、入力された構造化文書から文書の構造情報を抽出して構造情報記憶部130に記憶するとともに、構造情報を参照して構造化文書を各文書管理装置200に送信する処理が実行される。第1フェーズは、構造抽出部111と、文書送信部112とにより実行される。
第2フェーズは、各文書管理装置200上の文書格納部210で実行されるものである。第2フェーズでは、送信された構造化文書を構造化文書記憶部250に格納する処理が実行される。
構造抽出部111は、構造化文書から文書を構成する構造要素を抽出するものであり、XMLの場合は、例えばDOM(Document Object Model)にしたがってオブジェクトツリーを作成する方法などの従来から用いられているあらゆる方法を適用することができる。
また、構造抽出部111は、構造情報記憶部130に既に記憶されている構造情報に含まれない新規の構造情報を抽出した場合は、当該新規構造情報を構造情報記憶部130に格納する。
文書送信部112は、構造化文書を構造情報記憶部130に記憶されている構造情報に含まれる配置位置の情報に従い、各文書管理装置200に送信するものである。
なお、入力された構造化文書を格納する文書管理装置200を決定する方法としては、値レンジ分割、ラウンドロビン、容量分散などの従来から用いられているあらゆる方法を適用できる。また、高速な検索を実現するために、索引情報を生成し、図示しない索引記憶部に格納するように構成してもよい。
検索処理部120は、文書管理装置200の構造化文書記憶部250に格納された構造化文書の検索処理を行うものであり、要求受信部121と、プラン生成部122と、取得部123と、対応づけ部124と、プラン実行部125と、プラン送信部126と、結果受信部127と、結果送信部128と、を備えている。
要求受信部121は、クライアント400から送信された問合せデータを受信するものである。図12は、問合せデータの一例を示す説明図である。同図は、XQueryに基づいた問合せ記述方法に則した問合せデータの例を表している。
ここで、図3に示すような報告書が構造化文書DB「db1」に格納され、図4に示すようなユーザ情報が構造化文書DB「db2」に格納されていると仮定する。この場合、図12に示した問合せデータは、「構造化文書DB「db1」の文書内のいずれかに文字列「データベース」を含む報告書について、パス「//author/@id」の属性値と等しいユーザ情報を、別の構造化文書DB「db2」の階層木のパス「/users/user」から求め、報告書のタイトルと報告者の情報の一覧を求める」ことを意味する。
なお、このような問合せデータによる検索処理では、「document」タグの構造要素のIDと1個以上の「user」タグの構造要素のIDとの組が0個以上求まり、結果データとして出力される。図13は、結果データの一例を示す説明図である。同図では、図3に示したようなユーザ情報から取得された2名のユーザ情報を含む結果データの例が示されている。
XQueryのような問合せ言語を利用すると、構造化文書単位や部分文書単位で結果データを取得したり、1個以上の部分文書を寄せ集めて新たな形式の構造化文書を生成したりすることが可能となる。
図1に戻り、プラン生成部122は、要求受信部121により受信された問合せデータに従い、各文書管理装置200に対するデータの検索を要求するプラン、および返信されたデータから問合せデータに対する検索結果を取得するプランを含む、検索処理の実行プランを生成するものである。
図14は、生成された実行プランの一例を示す説明図である。同図に示すように、実行プランは1個以上のコードの列で表現される。各コードには、コードを識別するIDと、実行されるオペレータ名と、パラメータと、データ生成の有無と、表現形式とが含まれる。実行プランの詳細については後述する。なお、表現形式は後述する対応づけ部124によって設定されるため、プラン生成部122が実行プランを生成した時点では、表現形式は未定義とされる。
なお、プラン生成部122は、検索処理の中間結果を生成する実行プランを生成し、中間結果を取得したあとに、さらに中間結果の内容を参照して後続の実行プランを生成するように構成してもよい。これにより、検索処理の中間結果を利用した動的なプラン生成や表現形式の割当てが可能となる。
図1に戻り、取得部123は、プラン生成部122により生成された実行プラン内の各コードに対し、当該コードで検索対象とする構造要素に対応する統計情報を構造情報記憶部130から取得するものである。
例えば、図14のID=2のコードについては、検索対象となる構造要素のTID=102であるため、取得部123は、図6に示すような構造情報から平均テキストサイズ=94等を取得する。なお、取得部123は、TID=102が含まれる構造化文書全体の統計情報(文書数=1等)も取得する。
対応づけ部124は、取得部123により取得された統計情報を用いて、規則記憶部140に記憶されている規則の条件を満たすか否かを判定し、条件を満たす場合に、当該条件に対応する表現形式を規則記憶部140から取得し、実行プランの各コードに対応づけるものである。
プラン実行部125は、実行プラン内の各コードに対応するオペレータを順に実行することにより、各文書管理装置200からのデータの検索、およびクライアント400に返信する検索結果の作成などを行うものである。
プラン送信部126は、実行プランが各文書管理装置200上に記憶された構造化文書の検索処理である場合に、当該文書管理装置200に対して実行プランを送信するものである。
結果受信部127は、各文書管理装置200で実行された実行プランによるデータの検索結果を各文書管理装置200から受信するものである。
結果送信部128は、プラン実行部125が作成したクライアント400に返信する検索結果を、検索要求を送信したクライアント400に対して送信するものである。
文書管理装置200は、構造化文書を構造化文書ごとに分散して格納し、検索装置100からの要求に応じて格納した構造化文書の検索を行って検索結果を検索装置100に返信するものである。文書管理装置200は、文書格納部210と、検索処理部220と、構造化文書記憶部250と、を備えている。
構造化文書記憶部250は、図2または図3に示すようなXML形式の構造化文書を記憶するものである。文書格納部210は、検索装置100の文書送信部112により送信された構造化文書を構造化文書記憶部250に格納するものである。
なお、構造化文書記憶部250は、HDD、光ディスク、メモリカード、RAMなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
検索処理部220は、検索装置100から送信された検索の実行プランに従い、構造化文書記憶部250に格納された構造化文書の検索処理を行うものであり、プラン受信部221と、プラン実行部225と、結果送信部229と、を備えている。
プラン受信部221は、自装置上に格納された構造化文書を検索する実行プランを検索装置100から受信するものである。
プラン実行部225は、受信した実行プランを実行し、その結果得られた検索結果を、当該実行プランに対応づけられている表現形式で表すように文字列生成処理を実行するものである。
結果送信部229は、対応づけられた表現形式で生成された検索結果を検索装置100に送信するものである。このように、他の装置に対しデータのやり取りを行う場合は、様々な表現形式のデータが転送されうる。そのため、転送される文書管理装置200でも各表現形式のデータを参照することが可能なアクセス機能を利用する。例えば、格納ページ形式のデータが転送先の文書管理装置200でも参照できるインタフェースが提供されるものとする。
次に、このように構成された本実施の形態にかかる構造化文書検索システムによる構造化文書検索処理について説明する。図15は、本実施の形態における構造化文書検索処理の全体の流れを示すフローチャートである。
まず、要求受信部121が、クライアント400から送信された問合せデータを受信する(ステップS1501)。次に、プラン生成部122が、受信した問合せデータから検索のための実行プランを作成する(ステップS1502)。
次に、取得部123は、実行プランの各コードについて、データ生成ありのコードか否か、すなわち、「データ生成の有無」欄が「有り」となっているか否かを判断する(ステップS1503)。
データ生成ありの場合は(ステップS1503:YES)、取得部123は、実行プランの検索対象となる構造要素に関する統計情報を取得する(ステップS1504)。例えば、取得部123は、図14のID=2のコードについて、検索対象となる構造要素のTID=102に対応する統計情報として、図6に示すような構造情報から、平均テキストサイズ=94、テーブルフラグ=1、平均子孫ノード数=6を取得する。また、対応するルートノードに関する統計情報として、取得部123は、平均文書サイズ=21800、平均格納ページ数=5、文書数=1を取得する。
次に、対応づけ部124は、規則記憶部140に記憶された規則を参照し、取得した統計情報に対応する表現形式を実行プランに対応づける(ステップS1505)。なお、条件が一致する規則が存在しない場合は、対応づけ部124は、デフォルトの表現形式としてテーブル形式を対応づける。
次に、取得部123は、すべてのコードを処理したか否かを判断し(ステップS1506)、すべてのコードを処理していない場合は(ステップS1506:NO)、次のコードに対して処理を繰り返す(ステップS1503)。
すべてのコードを処理した場合は(ステップS1506:YES)、プラン実行部125は、生成された実行プランを実行する(ステップS1507)。文書管理装置200で構造化文書の検索を行う実行プランの場合は、プラン送信部126が、検索の対象となる文書管理装置200に実行プランを送信する(ステップS1508)。
文書管理装置200では、プラン受信部221が、実行プランを受信し(ステップS1509)、プラン実行部225が受信した実行プランを実行する(ステップS1510)。このとき、プラン実行部225は、実行プランに対応づけられた表現形式で検索結果を生成する(ステップS1511)。次に、結果送信部229が、生成された検索結果を検索装置100に送信する(ステップS1512)。
検索装置100の結果受信部127は、文書管理装置200から送信された検索結果を受信する(ステップS1513)。次に、プラン生成部122が、受信した検索結果が検索処理の中間結果であるか否かを判断する(ステップS1514)。中間結果である場合は(ステップS1514:YES)、プラン生成部122は、当該中間結果に応じた残りの実行プランを生成する(ステップS1515)。なお、このステップは必須ではなく、事前に生成された実行プランに従って中間結果を処理する場合もある。
ステップS1514で、検索結果が中間結果でない場合は(ステップS1514:NO)、結果送信部128が、クライアント400に検索結果を送信し(ステップS1516)、構造化文書検索処理を終了する。
なお、クライアント400に送信する検索結果は、実行プランにしたがって、クライアント400に送信する形式(XML形式等)でプラン実行部125が作成する。
次に、このように構成された本実施の形態における構造化文書検索システムによる構造化文書検索処理の具体例について説明する。以下では、2つの文書管理装置200a、200bに分散配置された構造化文書に対する構造化文書検索処理を例として説明する。
図16は、この例における構造化文書の分散配置の一例を示した説明図である。同図に示すように、装置Xがメインの検索装置100であり、装置A、Bがサブの検索装置に相当する文書管理装置200a、200bであり、装置Aに1000件の報告書が格納されている構造化文書DB「db1」が存在し、装置Bにユーザ情報が格納されている構造化文書DB「db2」が存在すると仮定する。
また、図12に示すような問合せデータが入力され、検索結果のヒット件数が200件、各報告書の報告者が2名ずつ含まれる中間結果が得られていることを前提とする。また、格納ページのサイズは4096バイトとする。
図17は、このときの中間結果を表すテーブルの一例を示す説明図である。同図に示すように、この中間結果を格納したテーブルには、テーブルID=10が付与されている。また、当該テーブルのカラム0には、検索結果として出力する項目のうち「$rep//title/text」に該当するノードのIDが保持され、カラム1には「$userinfo」に該当するノードのIDが保持されている。
まず、装置Xのプラン生成部122が、結果データを出力するための実行プランとして、図14に示すような実行プランを生成したとする(ステップS1515)。この実行プランの意味は以下の通りである。
ID=1のコード:オペレータ「LoadText」を実行して、テーブルID10のカラムID0に格納されている構造要素ID(TID)=1の値を装置Aで取得し、装置Xに転送する。
ID=2のコード:オペレータ「LoadText」を実行して、テーブルID10のカラムID1に格納されている構造要素ID(TID)=102の値を装置Bで取得し、装置Xに転送する。
ID=3のコード:オペレータ「createXML」を実行して、取得された値から結果データを生成する。
次に、取得部123が、上記実行プランの各コードのうち、データ生成の有無が「有り」であるコードについて、検索対象となる構造要素の統計情報を取得する(ステップS1504)。例えば、上述のように、図14のID=2のコードについて、取得部123は平均テキストサイズ=94、テーブルフラグ=1、平均子孫ノード数=6、平均文書サイズ=21800、平均格納ページ数=5、文書数=1を統計情報として取得する。
続いて、対応づけ部124が、問合せデータに関する情報、取得した統計情報、中間結果に関する情報を利用して、規則記憶部140の規則に従って表現形式の対応づけを行う(ステップS1505)。
例としてID=2のコードについて考える。転送対象となる構造要素のTIDは102である。まず、規則ID=1の規則では、TID=102の構造要素が含まれる文書数は1個であるが、平均文書サイズは「4000バイト未満」の条件を満たさないので、適用されない。
続いて規則ID=2の規則では、TID=102の構造要素が含まれる文書数は1個であり、平均文書サイズは「40000バイト未満」を満たす。また、TID=102の構造要素が含まれる文書の平均格納ページ数は5個、平均テキストサイズは94バイトであるので、平均テキストサイズ×ヒット件数=94×(200×2)=37600(バイト)、格納ページ数×ページサイズ=5×4096=20480(バイト)となる。
したがって、当該規則のうち、「平均テキストサイズ×ヒット件数>格納ページ数×ページサイズ」を満たす。従って、規則ID=2の規則のすべての条件を満たすため、この規則が適用される。すなわち、規則ID=2の規則の表現形式である格納ページ形式が、表現形式として対応づけられる。
図18は、表現形式を対応づけた後の実行プランの一例を示す説明図である。なお、ID=1のコードは、適合する規則が存在しなかったため、デフォルトの表現形式であるテーブル形式が設定されている。ID=2のコードは規則ID=2の規則が適用されるため、格納ページ形式が設定されている。
図19は、従来の手法により表現形式を対応づけた場合の実行プランの一例を示す説明図である。従来の手法では、すべての表現形式はテーブル形式が利用されるため、同図に示すような実行プランとなる。
最後に、プラン実行部125で、表現形式を対応づけ済みの実行プランを利用して、各コードを実行し、結果データを生成する(ステップS1507)。
ここで、従来の手法におけるデータ転送量と、本実施の形態の手法におけるデータ転送量について比較する。従来の手法では、テーブル形式によりデータを生成して転送するため、(200×2)人分のユーザ情報を文字列化したデータを保持するテーブルを転送する。ユーザ情報は平均94バイトのデータであるので、少なくとも(200×2)×94=37600バイトのデータ転送が必要となる。
一方、本実施の形態の手法によれば、5ページ分の格納ページを転送することになるため、4096×5=20480バイトのデータ転送で済む。このように、本実施の形態の手法によれば、従来の手法と比べてデータ転送量を削減することが可能となる。
なお、ユーザ情報のテキストデータのサイズがさらに大きい場合、または、報告書に含まれる報告者の重複がさらに多い場合には、データ転送量のさらに高い削減率が得られる。
このように、本実施の形態にかかる構造化文書検索システムでは、複数の表現形式の集合の中から、検索対象の統計情報等を参照して表現形式を選択し、検索処理に実行される各オペレータに対して選択した表現形式を対応づけた実行プランを生成し、選択した表現形式のデータ形式で文字列を生成およびデータの転送を行うことができる。このため、文字列生成回数やデータ転送サイズを削減することができ、その結果、高速な検索が可能となる。
以上のように、本発明にかかる構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置は、XMLなどの構造化文書を複数の装置に分散配置して管理するシステムに適している。
本実施の形態にかかる構造化文書検索システムの構成を示すブロック図である。 XML形式の構造化文書の一例を示した説明図である。 XML形式の構造化文書の別の例を示した説明図である。 抽出された構造情報の一例を示す説明図である。 抽出された構造情報の一例を示す説明図である。 構造情報のデータ構造の一例を示す説明図である。 規則記憶部に記憶された規則のデータ構造の一例を示す説明図である。 文字列形式の表現形式の一例を示す説明図である。 バイナリ形式の表現形式の一例を示す説明図である。 テーブル形式の表現形式の一例を示す説明図である。 格納ページ形式の表現形式の一例を示す説明図である。 問合せデータの一例を示す説明図である。 結果データの一例を示す説明図である。 実行プランの一例を示す説明図である。 本実施の形態における構造化文書検索処理の全体の流れを示すフローチャートである。 構造化文書の分散配置の一例を示した説明図である。 中間結果を表すテーブルの一例を示す説明図である。 実行プランの一例を示す説明図である。 実行プランの一例を示す説明図である。
符号の説明
100 検索装置
110 格納処理部
111 構造抽出部
112 文書送信部
120 検索処理部
121 要求受信部
122 プラン生成部
123 取得部
124 対応づけ部
125 プラン実行部
126 プラン送信部
127 結果受信部
128 結果送信部
130 構造情報記憶部
140 規則記憶部
200 文書管理装置
210 文書格納部
220 検索処理部
221 プラン受信部
225 プラン実行部
229 結果送信部
250 構造化文書記憶部
300 ネットワーク
400 クライアント

Claims (11)

  1. 階層化された論理構造を有している複数の構造化文書を前記構造化文書ごとに分散して格納する複数の文書管理装置と、前記文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置と、を備えた構造化文書検索システムであって、
    前記検索装置は、
    前記論理構造ごとに、前記論理構造に対応する前記構造化文書内の構造要素と値に関する統計情報を記憶する構造情報記憶手段と、
    前記統計情報に関する条件と、構造要素と値から構成される文字列を表現する表現形式とを対応づけた規則を記憶する規則記憶手段と、
    ネットワークに接続されたクライアント端末からの前記構造化文書の検索要求に基づいて、前記構造化文書に対する検索処理の実行プランを生成するプラン生成手段と、
    生成した前記実行プランの検索対象となる前記論理構造に対応する前記統計情報を前記構造情報記憶手段から取得する取得手段と、
    取得した前記統計情報が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得して前記実行プランに対応づける対応づけ手段と、
    前記表現形式を対応づけた前記実行プランを前記文書管理装置に送信するプラン送信手段と、
    前記実行プランの実行結果である検索結果を前記文書管理装置から受信する結果受信手段と、
    前記検索結果を前記クライアント端末に送信する第1結果送信手段と、を備え、
    前記文書管理装置は、
    前記表現形式を対応づけた前記実行プランを前記検索装置から受信するプラン受信手段と、
    受信した前記実行プランを実行し、実行して得られた検索結果を、前記実行プランに対応づけられた前記表現形式で出力するプラン実行手段と、
    前記表現形式で表された前記検索結果を前記検索装置に送信する第2結果送信手段と、を備えたこと、
    を特徴とする構造化文書検索システム。
  2. 前記規則記憶手段は、前記構造化文書を格納した前記文書管理装置の識別情報と、前記条件と、前記表現形式とを対応づけた前記規則を記憶し、
    前記プラン生成手段は、検索対象である前記構造化文書を格納した前記文書管理装置の前記識別情報を含む前記実行プランを生成し、
    前記対応づけ手段は、生成した前記実行プランに含まれる前記識別情報と、生成した前記実行プランの検索対象となる前記論理構造の前記統計情報が満たす前記条件と、に対応する前記表現形式を前記規則記憶手段から取得して前記実行プランに対応づけ、
    前記プラン送信手段は、前記実行プランに含まれる前記識別情報で識別される前記文書管理装置に、前記表現形式を対応づけた前記実行プランを送信すること、
    を特徴とする請求項1に記載の構造化文書検索システム。
  3. 前記構造情報記憶手段は、前記論理構造ごとに前記文字列の平均文字列長を前記統計情報として記憶し、
    前記規則記憶手段は、前記平均文字列長に関する前記条件と、前記表現形式とを対応づけた前記規則を記憶し、
    前記対応づけ手段は、検索対象となる前記論理構造に対応する前記平均文字列長が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づけること、
    を特徴とする請求項1に記載の構造化文書検索システム。
  4. 前記構造情報記憶手段は、前記構造化文書内の前記論理構造の平均数を前記統計情報として記憶し、
    前記規則記憶手段は、前記論理構造の平均数に関する前記条件と、前記表現形式とを対応づけた前記規則を記憶し、
    前記対応づけ手段は、検索対象となる前記論理構造の平均数が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づけること、
    を特徴とする請求項1に記載の構造化文書検索システム。
  5. 前記構造情報記憶手段は、前記論理構造ごとに、前記論理構造の下位階層に存在する前記論理構造である下位構造の平均数を前記統計情報として記憶し、
    前記規則記憶手段は、前記下位構造の平均数に関する前記条件と、前記表現形式とを対応づけた前記規則を記憶し、
    前記対応づけ手段は、検索対象となる前記論理構造に対する前記下位構造の平均数が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づけること、
    を特徴とする請求項1に記載の構造化文書検索システム。
  6. 前記構造情報記憶手段は、固定長の情報を格納する格納ページ内に前記文字列を格納する格納ページ形式で前記構造化文書を表したときの前記格納ページの平均数を前記統計情報として記憶し、
    前記規則記憶手段は、前記格納ページの平均数に関する前記条件と、前記表現形式とを対応づけた規則を記憶し、
    前記対応づけ手段は、検索対象となる前記論理構造が含まれる前記構造化文書の前記格納ページの平均数が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づけること、
    を特徴とする請求項1に記載の構造化文書検索システム。
  7. 前記プラン生成手段は、受信した前記検索結果が検索処理の途中で得られる中間結果である場合に、受信した前記中間結果に基づいてさらに前記実行プランを生成すること、
    を特徴とする請求項1に記載の構造化文書検索システム。
  8. 前記規則記憶手段は、前記中間結果の件数に関する前記条件と、前記表現形式とを対応づけた前記規則をさらに記憶し、
    前記対応づけ手段は、前記中間結果の件数が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得して前記実行プランに対応づけること、
    を特徴とする請求項7に記載の構造化文書検索システム。
  9. 階層化された論理構造を有している複数の構造化文書を前記構造化文書ごとに分散して格納する複数の文書管理装置と、前記文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置と、を備えた構造化文書検索システムにおける構造化文書検索方法であって、
    前記検索装置によって、前記構造化文書の検索要求に基づいて、前記構造化文書に対する検索処理の実行プランを生成するプラン生成ステップと、
    前記検索装置によって、前記論理構造ごとに前記論理構造に対応する前記構造化文書内の構造要素と値に関する統計情報を記憶する構造情報記憶手段から、生成した前記実行プランの検索対象となる前記論理構造に対応する前記統計情報を取得する取得ステップと、
    前記検索装置によって、前記統計情報に関する条件と、構造要素と値から構成される文字列を表現する表現形式とを対応づけた規則を記憶する規則記憶手段から、取得した前記統計情報が満たす前記条件に対応する前記表現形式を取得して前記実行プランに対応づける対応づけステップと、
    前記検索装置によって、前記表現形式を対応づけた前記実行プランを前記文書管理装置に送信するプラン送信ステップと、
    前記文書管理装置によって、前記表現形式を対応づけた前記実行プランを前記検索装置から受信するプラン受信ステップと、
    前記文書管理装置によって、受信した前記実行プランを実行して得られた検索結果を、前記実行プランに対応づけられた前記表現形式で表すプラン実行ステップと、
    前記文書管理装置によって、前記表現形式で表された前記検索結果を前記検索装置に送信する結果送信ステップと、
    前記検索装置によって、前記実行プランの実行結果である検索結果を前記文書管理装置から受信する結果受信ステップと、
    前記検索装置によって、前記検索結果を前記クライアント端末に送信する結果送信ステップと、
    を備えたことを特徴とする構造化文書検索方法。
  10. 階層化された論理構造を有している複数の構造化文書を前記構造化文書ごとに分散して格納する複数の文書管理装置とネットワークを介して接続された検索装置であって、
    前記論理構造ごとに、前記論理構造に対応する前記構造化文書内の構造要素と値に関する統計情報を記憶する構造情報記憶手段と、
    前記統計情報に関する条件と、構造要素と値から構成される文字列を表現する表現形式とを対応づけた規則を記憶する規則記憶手段と、
    ネットワークに接続されたクライアント端末からの前記構造化文書の検索要求に基づいて、前記構造化文書に対する検索処理の実行プランを生成するプラン生成手段と、
    生成した前記実行プランの検索対象となる前記論理構造の前記統計情報が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づける対応づけ手段と、
    前記表現形式を対応づけた前記実行プランを前記文書管理装置に送信するプラン送信手段と、
    前記実行プランの実行結果である検索結果を前記文書管理装置から受信する結果受信手段と、
    前記検索結果を前記クライアント端末に送信する結果送信手段と、を備えたこと、
    を特徴とする検索装置。
  11. 階層化された論理構造を有している複数の構造化文書を検索する検索装置とネットワークを介して接続された文書管理装置であって、
    前記構造化文書を前記構造化文書格納する文書格納手段と、
    前記構造化文書に対する検索処理を実行するプランであって、構造要素と値から構成される文字列を表現する表現形式が対応づけられた実行プランを前記検索装置から受信するプラン受信手段と、
    受信した前記実行プランを実行し、実行して得られた検索結果を、前記実行プランに対応づけられた前記表現形式で出力するプラン実行手段と、
    前記表現形式で表された前記検索結果を前記検索装置に送信する結果送信手段と、を備えたこと、
    を特徴とする文書管理装置。
JP2006264836A 2006-09-28 2006-09-28 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 Expired - Fee Related JP4212615B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006264836A JP4212615B2 (ja) 2006-09-28 2006-09-28 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置
US11/846,042 US7953761B2 (en) 2006-09-28 2007-08-28 System, method, and apparatus for retrieving structured document and apparatus for managing structured document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006264836A JP4212615B2 (ja) 2006-09-28 2006-09-28 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置

Publications (2)

Publication Number Publication Date
JP2008084113A true JP2008084113A (ja) 2008-04-10
JP4212615B2 JP4212615B2 (ja) 2009-01-21

Family

ID=39262179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006264836A Expired - Fee Related JP4212615B2 (ja) 2006-09-28 2006-09-28 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置

Country Status (2)

Country Link
US (1) US7953761B2 (ja)
JP (1) JP4212615B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8914370B2 (en) 2010-10-29 2014-12-16 International Business Machines Corporation Generating rules for classifying structured documents
US9160771B2 (en) 2009-07-22 2015-10-13 International Business Machines Corporation Method and apparatus for dynamic destination address control in a computer network

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571859B (zh) * 2008-04-28 2013-01-02 国际商业机器公司 用于对文档进行标注的方法和设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305615A (ja) 1995-05-10 1996-11-22 Oki Electric Ind Co Ltd データベース問い合わせシステム
JP3754253B2 (ja) * 1999-11-19 2006-03-08 株式会社東芝 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム
JP2005018672A (ja) 2003-06-30 2005-01-20 Hitachi Ltd 構造化文書の圧縮方法
KR100803285B1 (ko) * 2003-10-21 2008-02-13 한국과학기술원 역 산술 부호화와 타입 추론 엔진을 이용한 질의 가능 엑스-엠-엘 압축 방법
JP4227033B2 (ja) 2004-01-20 2009-02-18 富士通株式会社 データベース統合参照装置、データベース統合参照方法およびデータベース統合参照プログラム
JP4247135B2 (ja) * 2004-02-10 2009-04-02 株式会社東芝 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法
JP4562130B2 (ja) 2005-02-21 2010-10-13 日本電信電話株式会社 Xmlデータ処理装置、xmlデータ処理方法、xmlデータ処理プログラムおよびxmlデータ処理プログラムを記録した記憶媒体
JP4489029B2 (ja) 2006-02-01 2010-06-23 株式会社東芝 構造化文書検索システムおよび構造化文書検索方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9160771B2 (en) 2009-07-22 2015-10-13 International Business Machines Corporation Method and apparatus for dynamic destination address control in a computer network
US10079894B2 (en) 2009-07-22 2018-09-18 International Business Machines Corporation Method and apparatus for dynamic destination address control in a computer network
US10469596B2 (en) 2009-07-22 2019-11-05 International Business Machines Corporation Method and apparatus for dynamic destination address control in a computer network
US11165869B2 (en) 2009-07-22 2021-11-02 International Business Machines Corporation Method and apparatus for dynamic destination address control in a computer network
US8914370B2 (en) 2010-10-29 2014-12-16 International Business Machines Corporation Generating rules for classifying structured documents

Also Published As

Publication number Publication date
US20080082478A1 (en) 2008-04-03
JP4212615B2 (ja) 2009-01-21
US7953761B2 (en) 2011-05-31

Similar Documents

Publication Publication Date Title
CA2522309C (en) Retaining hierarchical information in mapping between xml documents and relational data
US7386567B2 (en) Techniques for changing XML content in a relational database
US7024425B2 (en) Method and apparatus for flexible storage and uniform manipulation of XML data in a relational database system
JP5699381B2 (ja) バイナリにエンコードされたxmlデータの効率的な区分的アップデート
US7558791B2 (en) System and method for ontology-based translation between directory schemas
US7181680B2 (en) Method and mechanism for processing queries for XML documents using an index
JP5509596B2 (ja) データ管理装置
JP4489029B2 (ja) 構造化文書検索システムおよび構造化文書検索方法
US20100325169A1 (en) Representing Markup Language Document Data in a Searchable Format in a Database System
US20050055343A1 (en) Storing XML documents efficiently in an RDBMS
JP2005182835A (ja) 異種のデータソースのためのデータサーバを生成する方法
JPH11213014A (ja) データベースシステム、データベース検索方法及び記録媒体
WO2001033433A1 (en) Method and apparatus for establishing and using an xml database
JP4212615B2 (ja) 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置
JP4681555B2 (ja) ノード挿入方法、情報処理装置、および、ノード挿入プログラム
JP2001325290A (ja) 文書ファイル検索システム
JP4854542B2 (ja) 文書検索システム及び文書検索方法
JP4724177B2 (ja) Xmlデータにアクセスするためのインデックス
JP2006031377A (ja) 構造化文書管理装置、検索装置、記憶方法、検索方法及びプログラム
KR100660028B1 (ko) 데이터베이스 개념 구조에 기반한 xml 트리의 색인 및질의 방법
Spertus et al. Just-in-time databases and the World-Wide Web
Myaeng et al. A Digital Library System for Easy Creation/Manipulation of New Documents from Existing Resources.
JP2004126804A (ja) 文書管理方法および装置
JP2004348485A (ja) 構造化文書処理方法及び装置及び構造化文書処理プログラム及び構造化文書処理プログラムを格納した記憶媒体
WO2003042873A1 (en) Method and system for indexing and searching of semi-structured data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081021

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081028

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4212615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131107

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees