JP2006099181A

JP2006099181A - データ検索システム及びデータ格納方法

Info

Publication number: JP2006099181A
Application number: JP2004281269A
Authority: JP
Inventors: Kanji Nakamura; 寛爾中村
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2004-09-28
Filing date: 2004-09-28
Publication date: 2006-04-13

Abstract

【課題】構造化文書を少ないアクセス数で迅速に検索可能に格納し検索する。
【解決手段】構造化文書から構造情報とテキスト情報を抽出し、データベース５の異なるページに集中的に記録されているデータ検索システムであって、入力される検索条件情報の各検索文字情報から構造情報による検索かを判断する検索条件解析手段３１と、構造情報による検索である場合、データベース５の構造情報記録ページから対象とする構造情報を検索する構造情報検索処理手段３２と、テキスト情報による検索である場合、データベース５の各テキスト情報記録ページから少なくとも１つ以上の候補情報を見つけ出し、各候補情報が当該候補情報をもつテキスト情報に規定するレコードに連なる構造情報記録ページの構造と一致するとき、該当候補情報に対応する対象とするテキスト情報を検索するテキスト情報検索処理手段とを有するデータ検索システムである。
【選択図】図６

Description

本発明は、検索しやすい状態でデータを格納するデータ検索システム及びデータ格納方法に関する。

一般に、コンピュータを用いて文書の入力及び入力された文書を保存する処理を行っているが、文書の構造を認識しながらコンピュータで検索可能な状態に文書を管理するためには、文書中に文書の構造を表すタグを埋め込んだ文書が用いられている。文書中にタグを埋め込んだ文書を構造化文書と呼んでいる。

従来、この構造化文書には、例えばＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）やＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）などのマークアップ言語で記述された文書が挙げられる。

以下、拡張可能なマークアップ言語で記述されたＸＭＬの文書を例に挙げて文書の格納方法を説明する。

従来、ＸＭＬ文書をデータベースに格納する場合、幾つかのデータ格納方法が考えられている。

（１）その１つのデータ格納方法は、ＸＭＬ文書を２次元で表現される表であるリレーションの形式でデータベースに格納し、各リレーションのある属性と関連付けることにより、必要な文書情報を検索可能にする方法である。

（２）他のデータ格納方法は、ＸＭＬ文書の構造情報と文字列データ（以下、テキスト情報と呼ぶ）とに分けずに、タグを含んだ状態のＸＭＬ文書をそのままデータベースに格納する方法である。

（３）さらに、他のデータ格納方法は、Ｗ３Ｃ（ＷＷＷコンソーシアム）で規定される仕様に従い、ＸＭＬ文書を遠近的な表現で表すＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ）ツリー形式に変換し、構造情報及びテキスト情報を格納する方法である。

これらのデータ格納方法は一般的に知られており、そのうち前記（１）のデータ格納方法は、ＸＭＬスキーマを２次元の表形式で表現可能なリレーションスキーマに変換する必要がある。その結果、ＸＭＬ文書を格納する際に煩雑なデータ変換処理が必要である。なお、ここで、リレーションスキーマとは、ＸＭＬ文書の多数の属性の集合である定義域から、意味のある属性を組み合わせた集合であるリレーションの記述を行うことである。例えば多数の属性の中から社員名簿のリレーションスキーマを作成する場合、例えば社員コード、氏名、住所、電話番号、部署コード等のリレーションの記述を行う必要がある。

また、前記（２）のデータ格納方法は、ＸＭＬ文書の構造情報とテキスト情報とに分けずにタグを含んだ状態のＸＭＬ文書を、当該文書の書込み順序に従ってデータベースに格納するので、文書間の親子関係が整理されておらず、ＸＭＬ文書を効率よく格納・検索することができない。

一方、（３）のデータ格納方法は、（１）のデータ格納方法のようにＸＭＬスキーマをリレーショナルスキーマに変換する必要がなく、また（２）のデータ格納方法に比べてツリー形式に変換して親子関係を考慮して格納するので、ＸＭＬ文書を効率よく格納・検索できる。

ところで、（３）のデータ格納方法は、図８に記述されているＸＭＬ文書中の構造情報の記述位置に従い、各タグで囲まれた構造情報及びテキスト情報を図９に示すようにＤＯＭツリー形式に変換した後、図１０に示すごとくデータベース（磁気ディスク等）５１に格納している。図９において、○は構造情報を表すノード（要素名）、□はテキスト情報を表すノード（値）であって、これらノード間を結ぶ直線はアークと呼ばれている。

このデータベース５１へのＸＭＬ文書の格納は、検索によるＸＭＬ文書の再利用を考慮し、一般にページという単位に区切られ、これらページ領域に構造情報及びテキスト情報（以下、必要に応じてこれら構造情報及びテキスト情報を総称して文書情報と呼ぶ）を格納し管理している。

すなわち、データベース５１の各ページＰ１，Ｐ２，Ｐ３，…への文書情報の格納は、ＸＭＬ文書の記述順序に従い、２つのタグで囲まれている文書情報を取り出し、ページＰ１には「特許」，「名称」、「構造化文書格納」，「方式」，「概要」の順序で格納し、次のページＰ２には「構造化文書の…」，「……」，「実現する」，「出願者」の順序で格納し、ページＰ３には「名」，「寛爾」，「姓」，「中村」の順序で格納されている。

このようにＸＭＬ文書中の文書情報を記述順序に従って格納する理由は、ＸＭＬ文書にとっては前後の関係が非常に重要であること、また記述順序に従ってデータベース５１に迅速にＸＭＬ文書を格納できる為である。

そして、データベース５１の各ページＰ１，Ｐ２，…に格納される各文書情報には自己の文書情報の親が何ページの何番目に格納されているかを表す親子関係等を表す情報を付加することもある。従って、各文書情報の親子関係情報から図９に示すＸＭＬ文書のＤＯＭツリー表現形式を再現することができる。

なお、前述したページの概念について説明する。一般に、データベースシステムやファイルシステムでは、物理ディスクであるデータベース５１へのＩ／Ｏ制御の最小単位がブロックと呼んでおり、通常３〜４Ｋバイトのサイズとなっている。この場合、上位のアプリケーションから直接物理ディスクに書込み制御を行った場合には高速化が図れないので、上位のアプリケーションと物理ディスクとの間にキャッシュメモリを用意し、物理ディスクと同様にキャッシュメモリをブロックサイズに分割し、物理ディスクと同様のブロックサイズの文書情報をキャッシュメモリに書込んでいる。つまり、物理ディスクとキャッシュメモリとは１対１の関係を有している。このブロックサイズの格納領域をページと呼んでいる。従って、各ページは４Ｋバイトの固定長をもっているので、仮に１ＫバイトのＸＭＬ文書の文書情報を書込む場合、予め定められたブロックサイズの書込み処理に従って該当ページに書込むので、当該ページには３Ｋバイトの空き領域を有する状態で文書データが格納されることになる。

従って、前述した（３）のデータ格納方法は、記述順序に従ってＸＭＬ文書をキャッシュメモリないしデータベースに格納するが、この格納された文書情報を検索する場合には次のような問題が指摘されている。

現在、データベースに格納されたＸＭＬ文書の検索のための問い合わせ言語は、Ｗ３Ｃ（ＷＷＷコンソーシアム）機関で勧告されているＸＰａｔｈ（ＸＭＬＰａｔｈＬａｎｇｕａｇｅ）や同機関により標準化が進められているＸＱｕｅｒｙが用いられている。このＷ３Ｃで規定される仕様に基づく場合、例えば／特許／出願者／姓／ｔｅｘｔ（）＝”中村”というパスを指定して検索を行うことになる。つまり、ＸＭＬ文書の文書情報の検索は、何という語彙であるかという語彙条件（ここでは、ｔｅｘｔ（）＝”中村”）と、その語彙がどこにあるかという構造条件（ここでは、／特許／出願者／姓）との組み合わせを用いて行われる。

しかし、図１０に示すデータ格納形式では、要素名である構造情報がデータベース５１のさまざまなページ例えばＰ１，Ｐ２，Ｐ３に散在した状態で格納されているので、ページＰ１，Ｐ２、Ｐ３の順序でアクセスし、テキスト情報である「中村」を見つけ出し、引き続き、各ページをアクセスし、構造情報となる「特許」，「出願者」，「姓」を検索する必要がある。

これに対し、ＸＭＬ文書の各文書情報に語彙索引が付加されている場合、構造情報及びテキスト情報がデータベース５１の各ページ例えばＰ１，Ｐ２，Ｐ３に分散して格納されているので、ページＰ１，Ｐ２、Ｐ３の順序でアクセスし、「中村」を見つけ出し、この「中村」の親子関係情報から同一ページＰ３の「姓」を見つけ出し、さらに「姓」に付加される親子関係情報からページＰ２をアクセスし、引き続き、ページＰ１をアクセスし、「特許」を検索している。

その結果、ＸＭＬ文書の文書情報を検索する場合、データベース５１のあらゆるページを参照しながら所望の文書情報を検索する必要があるので、データベース５１へのアクセス量が増えてしまう問題がある。その結果、このデータ格納方法では、高速検索が難しいうえ、データ検索のヒット率が低くなって検索性能を低下させる問題がある。

本発明は以上のような事情に鑑みてなされたもので、少ないアクセス量で迅速に所望とする文書データを検索可能に構造化文書を格納するデータ検索システム及びデータ格納方法を提供することを目的とする。

上記課題を解決するために、本発明に係るデータ検索システムは、構造化文書から構造情報とテキスト情報を抽出し、各構造情報には親子・兄弟に関するレコードを規定し、前記テキスト情報には構造情報側と連なるレコードを規定し、それぞれデータベースの異なるページに集中的に記録されているデータ検索システムであって、
入力される検索条件情報の各検索文字情報から前記構造情報による検索か否かを判断する検索条件解析手段と、この解析手段で構造情報による検索であると判断された場合、前記データベースの構造情報記録ページから対象とする構造情報を検索する構造情報検索処理手段と、前記解析手段で前記テキスト情報による検索であると判断された場合、前記データベースの各テキスト情報記録ページから少なくとも１つ以上の候補情報を見つけ出し、各候補情報が当該候補情報をもつ前記テキスト情報に規定するレコードに連なる構造情報記録ページの構造と一致するとき、該当候補情報に対応するテキスト情報を検索するテキスト情報検索処理手段とを備えた構成である。

本発明は以上のような構成とすることにより、データベースの異なるページに構造化文書の構造情報とテキスト情報とを集中的に格納するので、少ないアクセス数で効率よく検索することができる。

また、本発明による構造化文書を検索可能に格納するデータ格納方法は、構造化文書からタグの有無に基づいて構造情報とテキスト情報とを抽出すると共に、前記構造化文書を表現するツリー形式に基づき、前記各構造情報のタグ位置から親子・兄弟の関係を見出す文書構造分析ステップと、この文書構造分析ステップの分析結果によって抽出される構造情報は、前記ツリー形式の親子・兄弟の序列に従って各タグ名に親子・兄弟に関するレコードを規定してデータベースのあるページに集中的に配置する構造情報レコード作成ステップと、前記文書構造分析ステップの分析結果によって抽出されるテキスト情報としては、該当する構造情報のレコードとして規定する親子・兄弟と連なるレコードを規定し、前記構造情報を配置するデータベースのページとは異なるページに集中的に配置するテキスト情報レコード作成ステップとを有する方法である。

この発明は以上のような方法とすることにより、構造化文書を検索時に少ないアクセス数で迅速に検索可能に格納することができる。

本発明は、構造化文書から構造情報とテキスト情報とを抽出し、親子・兄弟関係を規定してそれぞれ異なるページに集中的に配置するので、少ないアクセス量で所望とする文書データを迅速に検索可能に構造化文書を格納できるデータ検索システム及びデータ格納方法を提供できる。

以下、本発明の実施の形態について図面を参照して説明する。
図１は検索しやすい状態でデータを格納する本発明に係るデータ格納方法を適用したデータ格納システムの一実施の形態を示す構成図である。

このデータ格納システムは、ＸＭＬ文書，ＳＧＭＬ文書等、いわゆるマークアップ言語で記述された構造化文書を入力する文書入力部１と、この文書入力部１から入力される構造化文書を分析して構造情報とテキスト情報とを抽出し、これら情報を検索可能に格納する例えばＣＰＵで構成された情報格納処理部２と、文書入力部１から入力される構造化文書を一時的に格納する入力文書格納メモリ３と、前記情報格納処理部２で分析された構造化文書の構造情報、テキスト情報を検索可能に格納する例えばキャッシュメモリなどの処理情報格納メモリ４と、この処理情報格納メモリ４に格納されている構造化文書の全ての構造情報及びテキスト情報をデータ検索システムで適用可能に格納するデータベース５とによって構成されている。

文書入力部１は、一般にキーボード，マウスが用いられ、各種の制御用コマンドの他、キーボードの入力操作によって作成される構造化文書を入力する。また、文書入力部１としては、フロッピー（登録商標）ディスク，磁気テープ，磁気ディスクその他の記録媒体に保存される構造化文書の入力、さらにはインターネット上から構造化文書を取り込んで入力する処理を含むものである。

情報格納処理部２は、文書入力部１から入力される構造化文書を入力文書格納メモリ３に一時的に格納する機能の他、この入力文書格納メモリ３から構造化文書を読み出し、構造化文書を解析する構造化文書解析部２１が設けられている。この構造化文書解析部２１は、構造化文書に埋め込んでいるタグの有無から”＜特許＞”や”＜名称＞”等の構造情報と”構造化格納方式”のようなテキスト情報とに分け、これら構造情報及びテキスト情報とタグの記述位置からＤＯＭツリー表現形式に基づく親子，兄弟の序列の情報をレコード情報作成部２２に渡す。

このレコード情報作成部２２は、構造化文書解析部２２から構造情報、テキスト情報、親子，兄弟の序列に関する情報を受け取ると、構造情報としては、タグ名に対し、自分の親子や兄弟関係情報及び自分の親子や兄弟に当たる他の構造情報の格納位置などのレコード情報を作成し、メモリ書込み操作部２３に出力する。テキスト情報については、実際のテキストの値の他、構造情報の親子や兄弟関係に連なるレコード情報を作成し、同様にメモリ書込み操作部２３に出力する。

このメモリ書込み操作部２３は、レコード情報作成部２２から出力される自分の親子や兄弟関係情報，格納位置を含む構造情報及びテキスト情報をブロックサイズに基づく書込み制御に従って処理情報格納メモリ４に格納する。すなわち、メモリ書込み操作部２３は、処理情報格納メモリ４に構造化文書を格納する際、ブロックサイズに基づく書込み制御に従い、図２に示すように処理情報格納メモリ４の異なるページに構造情報とテキスト情報とを分けて格納する。例えば処理情報格納メモリ４のページＰ１には構造情報だけを集中的に格納し、ページＰ２，Ｐ３にはテキスト情報を集中的に格納する。各ページＰ１，Ｐ２，Ｐ３はそれぞれ固定長サイズであり、比較的文字数の少ない構造情報をまとめて格納するのに好適であり、一方、テキスト情報はその文字情報数が随時変化するものであって、ページＰ２以降に可変長サイズのメモリと考えて順次格納する。

２４は外部からの書込み指示に基づき、処理情報格納メモリ４から構造情報及びテキスト情報データを読み出し、検索システムに適用するためにデータベース５に格納するデータベース書込み操作部である。この構造情報及びテキスト情報の書込み制御もメモリ書込み操作部２３と同様であり、図２に示すように構造情報とテキスト情報とをページ分けして格納される。

次に、以上のようなデータ格納システムを用いたデータ格納方法について図３のフローチャートに従って説明する。

先ず、文書入力部１から構造化文書を入力すると、情報格納処理部２は、その入力された構造化文書を入力文書格納メモリ３に一時的に記憶する。

この状態において、文書入力部１から構造化文書を検索可能に格納する指示を受けると、構造化文書解析部２１を実行する。この構造化文書解析部２１は、入力文書格納メモリ３から構造化文書を順次読み出して分析処理するが、このとき文書全文を読み出したか否かを判断し（Ｓ１）、未だ読み出していない文書があれば未読文書を読み出し（Ｓ２）、その読み出した文書にタグが有るか否かを判断し（Ｓ３）。タグがあれば構造情報と認識し、タグがなければテキスト情報と認識し、構造情報であると認識された場合にはＤＯＭツリー形式に基づいてタグの親子・兄弟の序列から自分の親子や兄弟関係の情報を取り出す。これらステップＳ１〜Ｓ３は文書構造分析ステップに相当する。

ステップＳ３において、構造情報であると認識された場合、レコード情報作成部２２を実行する。レコード情報作成部２２は、例えば図８に記述されたＸＭＬ文書から表現される図４に示すツリー形式から親子・兄弟の序列関係に基づくレコードを作成し、図５の左側に示すページに構造情報にレコードを付加して格納する（Ｓ４：構造情報レコード作成ステップ）。

この構造情報のレコード作成は、ページの先頭エリアに構造情報の識別情報である例えば「Ａ××」、特許文書に関するヘッダを表すドキュメントＩＤ＝１を書込んだ後、ツリー形式で表現された序列番号「１」から「１０」に従って各行の先頭列にタグ名、次列に親の関係、次次列以降に子・兄弟の関係を表すレコードを作成する。具体的には、第１行のタグ名＝「１」（特許）に関し、親＝なし、第一子＝「２」、弟＝なしの親子・兄弟のレコードを作成し、第２行のタグ名＝「２」（特許）に関し、親＝「１」、第一子＝「５」、弟＝「３」の親子・兄弟のレコードを作成し、以後、全てのタグ名について作成する。また、序列番号「５」、「６」、「９」、「１０」はタグ名がないので、序列番号に上下位のタグ名の親子・兄弟の関係のつながりを作成する。なお、特許文書に関するヘッダを表す構造情報のドキュメントが２ページにまたがる場合、ドキュメントＩＤ＝１にリンクして別の所望とするページにも格納することができる。

以上のようにして構造情報のレコードを作成した後、メモリ書込み操作部２３は、レコードが付加された構造情報を処理情報格納メモリ４の該当ページの最後尾に格納する（Ｓ５：書込み操作ステップ）。

一方、ステップＳ３において、タグ無しと判断された場合、テキスト情報であると認識し、同様にレコード情報作成部２２を実行する。このレコード情報作成部２２は、図８に記述されたＸＭＬ文書から図４のように表現されたツリー形式に基づき、図５に示す構造情報格納ページとは別の右側ページにテキスト情報及び構造情報格納ページに規定する親子・兄弟の関係に連なるレコードを作成し、テキスト情報に付加する（Ｓ６：テキスト情報レコード作成ステップ）。すなわち、このテキスト情報のレコード作成は、構造情報側と関連をもつ序列番号にダッシュ´を付し、この関連付け番号にテキスト情報を添付することによりレコードを作成する。なお、このとき、テキスト情報が２ページ以上にまたがる場合には次ページとリンクによって接続される。そして、テキスト情報のレコードを作成した後、メモリ書込み操作部２３によって処理情報格納メモリ４の該当ページの最後尾に格納する（Ｓ７：書込み操作ステップ）。

そして、テキスト情報を書き込んだ後、ステップＳ１に戻り、文書全文の書込み処理が終了した場合、データベース書込み操作部２５は、処理情報格納メモリ４に格納されている情報を読み出してデータベース５に図５と同様なデータ格納形式で格納する。

従って、以上のような実施の形態によれば、ＸＭＬ文書などの構造化文書を検索可能に格納するに際し、ＸＭＬ文書から表現されるツリー形式に基づき、ツリー形式の所定の序列に従って構造情報となる各タグ名及びテキスト情報の空白エリアにそれぞれ親子・兄弟の関係を規定し、データベース５の一方のページ側に局所的に格納し、データベース５の他方のページ側には当該一方のページに規定する親子・兄弟関係と関連付けながら前記テキスト情報を順次格納することにより、所望とする情報を検索する際、その検索に伴う構造条件チェックのために同じページから複数の構造情報を容易に取り出すことができる。

次に、以上のようなデータベース５に格納された構造化文書に対する本発明に係るデータ検索システムについて図６を参照して説明する。

このデータ検索システムは、構造化文書の検索条件情報を入力する検索条件入力部６と、この検索条件入力部６から入力される検索条件情報に基づいて、前記データベース５から所望の文字情報を検索する情報検索処理部７と、前記検索条件入力部６から入力される検索条件情報を一時記憶する検索条件情報格納メモリ８と、前記情報検索処理部７で検索され文字情報を出力する表示装置及びプリンタなどの検索結果出力部９とによって構成されている。

情報検索処理部７には、検索条件入力部６から入力される検索条件情報を検索条件情報格納メモリ８に一時的に格納する機能の他、検索条件情報格納メモリ８から検索条件情報を読み出し、当該検索条件情報を構成する各検索文字情報が構造情報による検索か否かを判断する検索条件解析部（検索条件解析手段）３１と、この検索条件解析部３１で構造情報の検索であると判断された場合、予め管理テーブル（図示せず）に記録されている構造情報識別情報及びドキュメントＩＤに基づき、データベース５の中の該当するページをアクセスし構造情報を検索する構造情報検索処理部（構造情報検索処理手段）３２と、前記検索条件解析部３１で構造情報の検索でないと判断された場合、データベース５中のテキスト情報を格納する各ページをアクセスし、語彙検索によって該当するテキスト情報の候補を選択し、かつ前記構造情報格納ページに格納されている該当序列番号に規定される親子・兄弟関係のもとに最適な１つの候補情報をもつテキスト情報を検索するテキスト情報検索処理部（テキスト情報検索処理手段）３３と、これら検索処理部３２，３３で検索された検索結果を出力する検索結果出力制御部３４とが設けられている。

以上のようなデータ検索システムの動作について図７を参照して説明する。

検索条件入力部６からＷ３Ｃ（ＷＷＷコンソーシアム）機関で勧告されているＸＰａｔｈ（ＸＭＬＰａｔｈＬａｎｇｕａｇｅ）に基づく検索条件情報を伴う検索指示を入力すると、情報検索処理部７では、検索条件入力有りと判断し（Ｓ１１）、当該検索条件情報を検索条件情報格納メモリ８に記憶する（Ｓ１２）。

この状態において、情報検索処理部７は検索条件解析部３１を実行する。この検索条件解析部３１は、パス指定に従って検索条件情報の各検索文字情報が構造情報の検索であるか否かを判断する。ここで、検索条件情報のある検索文字情報が構造情報の検索であると判断すると、構造情報検索処理部３２を実行する。この構造情報検索処理部３２は、既に管理されている図示しない管理テーブルから該当する構造情報識別情報及びドキュメントＩＤを取り出し、この構造情報識別情報及びドキュメントＩＤのもとにデータベース５の中の該当する構造情報格納ページをアクセスし（Ｓ１４）、所望の構造情報が該当するページにあるか否かを判断する（Ｓ１５）。

ここで、検索の結果、所望の構造情報が見つかった場合、検索結果として出力し（Ｓ１６）、所望の構造情報が見つからない場合には検索結果として該当情報が見つからない旨を出力する（Ｓ１７）。何れの場合にも検索結果を出力した後、以後検索を継続するか否かを判断し（Ｓ１８）、継続する場合にはステップＳ１３に戻って検索処理を繰り返す。

ところで、ステップＳ１３において、構造情報の検索でないと判断された場合、テキスト情報検索処理部３３を実行する。

このテキスト情報検索処理部３３は、データベース５の中の該当する複数のテキスト情報格納ページをアクセスし、検索条件情報のある検索文字情報に対する語彙による検索処理を行う（Ｓ２１）。この語彙による検索処理において、テキスト情報の中にある検索文字情報に該当する候補があるか否かを判断し（Ｓ２２）、候補情報があればそれを抽出し、リンク付けされている構造情報格納ページを検索し（Ｓ２３）、親子・兄弟関係の構造が一致するか否かを判断する（Ｓ２４）。ここで、構造が一致すれば、検索ヒットと判断し検索結果を出力する（Ｓ２５）。

候補情報の構造が一致しない場合、該当ページの全部を検索したかを判断し（Ｓ２６）、該当ページの全部を検索が終わっていない場合にはステップＳ２２に移行し、同様の処理を繰り返し実行する。最終的に見つからない場合にはＮＧを出力し（Ｓ２７）、ここで終了するか、或いはステップＳ１８に移行し、検索処理を継続する。

従って、以上のような検索処理を実行すれば、例えは゛／特許／出願者／姓／ｔｅｘｔ（）＝”中村”というパスを指定して検索する場合、構造条件（ここでは、／特許／出願者／姓）となる情報が１つのページに集中的に配置されているので、図２に示すようにテキスト情報を格納するページをアクセスして例えば語彙条件（ここでは、ｔｅｘｔ（）＝”中村”）を検索した後、構造情報を格納するページをアクセスし、構造条件（ここでは、／特許／出願者／姓）に関連する構造情報を検索すれば、少ないページをアクセスして迅速に必要な情報を検索できる。

以上のような実施の形態によれば、一般に構造化文書の構造情報は短く、テキスト情報は長く、かつ可変長となるのが特徴であるが、それぞれの特徴を有効に生かすために、それぞれ異なるページに集中的に配置すれば、検索時にデータベース５のアクセス数を大幅に削減できるように構造化文書を格納することができる。また、検索時の検索ヒット率も高くなり、検索性能を大幅に向上させることができる。

なお、上記実施の形態では、構造化文書に記述されるタグの有無から構造情報とテキスト情報とに分離したが、例えばあるコメント文に対して、コメント文の記述される位置の情報を構造情報、コメント本文をテキスト情報として、別々のページに格納することができる。

なお、本発明は、上記実施の形態に限定されるものでなく、その要旨を逸脱しない範囲で種々変形して実施できる。また、各実施の形態は組み合わせて実施することが可能であり、その場合には組み合わせによる効果が得られる。

本発明に係るデータ検索システムに構造化文書を検索可能に格納するためのデータ格納システムの一例を示す構成図。図１に示すデータ格納システムにより格納する構造化文書の格納形式を示す図。図１に示すデータ格納システムにより構造化文書を検索可能に格納するデータ格納方法の一実施の形態を説明するフローチャート。構造化文書をツリー形式で表現した図。本発明に係るデータ格納システムによって構造化文書の構造情報とテキスト情報とをデータベースにページ分けして配置した図。本発明に係るデータ検索システムの一実施の形態を示す構成図。本発明に係るデータ検索システムの動作を説明するフローチャート。構造化文書であるＸＭＬ文書の一例を示す図。図８に示すＸＭＬ文書をツリー形式で表現した図。従来の構造化文書を検索可能に格納した図。

符号の説明

５…構造化文書を検索可能に格納したデータベース、６…検索条件入力部、７…情報検索処理部、９…検索結果出力部、３１…検索条件解析部、３２…構造情報検索処理部、３３…テキスト情報検索処理部、３４…検索結果出力制御部。

Claims

構造化文書から構造情報とテキスト情報を抽出し、各構造情報には親子・兄弟に関するレコードを規定し、前記テキスト情報には構造情報側と連なるレコードを規定し、それぞれデータベースの異なるページに集中的に記録されているデータ検索システムであって、
入力される検索条件情報の各検索文字情報から前記構造情報による検索か否かを判断する検索条件解析手段と、
この解析手段で構造情報による検索であると判断された場合、前記データベースの構造情報記録ページから対象とする構造情報を検索する構造情報検索処理手段と、
前記解析手段で前記テキスト情報による検索であると判断された場合、前記データベースの各テキスト情報記録ページから少なくとも１つ以上の候補情報を見つけ出し、各候補情報が当該候補情報をもつ前記テキスト情報に規定するレコードに連なる前記構造情報記録ページの構造と一致するとき、該当候補情報に対応するテキスト情報を検索するテキスト情報検索処理手段とを備えたことを特徴とするデータ検索システム。
構造化文書を検索可能に格納するデータ格納方法において、
前記構造化文書からタグの有無に基づいて構造情報とテキスト情報とを抽出すると共に、前記構造化文書を表現するツリー形式の序列番号から前記各構造情報の親子・兄弟の関係を見出す文書構造分析ステップと、
この文書構造分析ステップの分析結果によって抽出される構造情報を含む前記序列番号に親子・兄弟に関するレコードを規定してデータベースのあるページに集中的に配置する構造情報レコード作成ステップと、
前記文書構造分析ステップの分析結果によって抽出されるテキスト情報は、前記構造情報格納ページ側の親子・兄弟に関するレコードと連なるレコードを規定し、前記データベースの前記構造情報配置ページとは異なるページに配置するテキスト情報レコード作成ステップとを有することを特徴とするデータ格納方法。