JP2006099181A - データ検索システム及びデータ格納方法 - Google Patents

データ検索システム及びデータ格納方法 Download PDF

Info

Publication number
JP2006099181A
JP2006099181A JP2004281269A JP2004281269A JP2006099181A JP 2006099181 A JP2006099181 A JP 2006099181A JP 2004281269 A JP2004281269 A JP 2004281269A JP 2004281269 A JP2004281269 A JP 2004281269A JP 2006099181 A JP2006099181 A JP 2006099181A
Authority
JP
Japan
Prior art keywords
information
search
document
structure information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004281269A
Other languages
English (en)
Inventor
Kanji Nakamura
寛爾 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2004281269A priority Critical patent/JP2006099181A/ja
Publication of JP2006099181A publication Critical patent/JP2006099181A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】構造化文書を少ないアクセス数で迅速に検索可能に格納し検索する。
【解決手段】 構造化文書から構造情報とテキスト情報を抽出し、データベース5の異なるページに集中的に記録されているデータ検索システムであって、入力される検索条件情報の各検索文字情報から構造情報による検索かを判断する検索条件解析手段31と、構造情報による検索である場合、データベース5の構造情報記録ページから対象とする構造情報を検索する構造情報検索処理手段32と、テキスト情報による検索である場合、データベース5の各テキスト情報記録ページから少なくとも1つ以上の候補情報を見つけ出し、各候補情報が当該候補情報をもつテキスト情報に規定するレコードに連なる構造情報記録ページの構造と一致するとき、該当候補情報に対応する対象とするテキスト情報を検索するテキスト情報検索処理手段とを有するデータ検索システムである。
【選択図】図6

Description

本発明は、検索しやすい状態でデータを格納するデータ検索システム及びデータ格納方法に関する。
一般に、コンピュータを用いて文書の入力及び入力された文書を保存する処理を行っているが、文書の構造を認識しながらコンピュータで検索可能な状態に文書を管理するためには、文書中に文書の構造を表すタグを埋め込んだ文書が用いられている。文書中にタグを埋め込んだ文書を構造化文書と呼んでいる。
従来、この構造化文書には、例えばXML(Extensible Markup Language)やSGML(Standard Generalized Markup Language)などのマークアップ言語で記述された文書が挙げられる。
以下、拡張可能なマークアップ言語で記述されたXMLの文書を例に挙げて文書の格納方法を説明する。
従来、XML文書をデータベースに格納する場合、幾つかのデータ格納方法が考えられている。
(1) その1つのデータ格納方法は、XML文書を2次元で表現される表であるリレーションの形式でデータベースに格納し、各リレーションのある属性と関連付けることにより、必要な文書情報を検索可能にする方法である。
(2) 他のデータ格納方法は、XML文書の構造情報と文字列データ(以下、テキスト情報と呼ぶ)とに分けずに、タグを含んだ状態のXML文書をそのままデータベースに格納する方法である。
(3) さらに、他のデータ格納方法は、W3C(WWWコンソーシアム)で規定される仕様に従い、XML文書を遠近的な表現で表すDOM(Document Object Model)ツリー形式に変換し、構造情報及びテキスト情報を格納する方法である。
これらのデータ格納方法は一般的に知られており、そのうち前記(1)のデータ格納方法は、XMLスキーマを2次元の表形式で表現可能なリレーションスキーマに変換する必要がある。その結果、XML文書を格納する際に煩雑なデータ変換処理が必要である。なお、ここで、リレーションスキーマとは、XML文書の多数の属性の集合である定義域から、意味のある属性を組み合わせた集合であるリレーションの記述を行うことである。例えば多数の属性の中から社員名簿のリレーションスキーマを作成する場合、例えば社員コード、氏名、住所、電話番号、部署コード等のリレーションの記述を行う必要がある。
また、前記(2)のデータ格納方法は、XML文書の構造情報とテキスト情報とに分けずにタグを含んだ状態のXML文書を、当該文書の書込み順序に従ってデータベースに格納するので、文書間の親子関係が整理されておらず、XML文書を効率よく格納・検索することができない。
一方、(3)のデータ格納方法は、(1)のデータ格納方法のようにXMLスキーマをリレーショナルスキーマに変換する必要がなく、また(2)のデータ格納方法に比べてツリー形式に変換して親子関係を考慮して格納するので、XML文書を効率よく格納・検索できる。
ところで、(3)のデータ格納方法は、図8に記述されているXML文書中の構造情報の記述位置に従い、各タグで囲まれた構造情報及びテキスト情報を図9に示すようにDOMツリー形式に変換した後、図10に示すごとくデータベース(磁気ディスク等)51に格納している。図9において、○は構造情報を表すノード(要素名)、□はテキスト情報を表すノード(値)であって、これらノード間を結ぶ直線はアークと呼ばれている。
このデータベース51へのXML文書の格納は、検索によるXML文書の再利用を考慮し、一般にページという単位に区切られ、これらページ領域に構造情報及びテキスト情報(以下、必要に応じてこれら構造情報及びテキスト情報を総称して文書情報と呼ぶ)を格納し管理している。
すなわち、データベース51の各ページP1,P2,P3,…への文書情報の格納は、XML文書の記述順序に従い、2つのタグで囲まれている文書情報を取り出し、ページP1には「特許」,「名称」、「構造化文書格納」,「方式」,「概要」の順序で格納し、次のページP2には「構造化文書の…」,「……」,「実現する」,「出願者」の順序で格納し、ページP3には「名」,「寛爾」,「姓」,「中村」の順序で格納されている。
このようにXML文書中の文書情報を記述順序に従って格納する理由は、XML文書にとっては前後の関係が非常に重要であること、また記述順序に従ってデータベース51に迅速にXML文書を格納できる為である。
そして、データベース51の各ページP1,P2,…に格納される各文書情報には自己の文書情報の親が何ページの何番目に格納されているかを表す親子関係等を表す情報を付加することもある。従って、各文書情報の親子関係情報から図9に示すXML文書のDOMツリー表現形式を再現することができる。
なお、前述したページの概念について説明する。一般に、データベースシステムやファイルシステムでは、物理ディスクであるデータベース51へのI/O制御の最小単位がブロックと呼んでおり、通常3〜4Kバイトのサイズとなっている。この場合、上位のアプリケーションから直接物理ディスクに書込み制御を行った場合には高速化が図れないので、上位のアプリケーションと物理ディスクとの間にキャッシュメモリを用意し、物理ディスクと同様にキャッシュメモリをブロックサイズに分割し、物理ディスクと同様のブロックサイズの文書情報をキャッシュメモリに書込んでいる。つまり、物理ディスクとキャッシュメモリとは1対1の関係を有している。このブロックサイズの格納領域をページと呼んでいる。従って、各ページは4Kバイトの固定長をもっているので、仮に1KバイトのXML文書の文書情報を書込む場合、予め定められたブロックサイズの書込み処理に従って該当ページに書込むので、当該ページには3Kバイトの空き領域を有する状態で文書データが格納されることになる。
従って、前述した(3)のデータ格納方法は、記述順序に従ってXML文書をキャッシュメモリないしデータベースに格納するが、この格納された文書情報を検索する場合には次のような問題が指摘されている。
現在、データベースに格納されたXML文書の検索のための問い合わせ言語は、W3C(WWWコンソーシアム)機関で勧告されているXPath(XML Path Language)や同機関により標準化が進められているXQueryが用いられている。このW3Cで規定される仕様に基づく場合、例えば/特許/出願者/姓/text()=”中村”というパスを指定して検索を行うことになる。つまり、XML文書の文書情報の検索は、何という語彙であるかという語彙条件(ここでは、text()=”中村”)と、その語彙がどこにあるかという構造条件(ここでは、/特許/出願者/姓)との組み合わせを用いて行われる。
しかし、図10に示すデータ格納形式では、要素名である構造情報がデータベース51のさまざまなページ例えばP1,P2,P3に散在した状態で格納されているので、ページP1,P2、P3の順序でアクセスし、テキスト情報である「中村」を見つけ出し、引き続き、各ページをアクセスし、構造情報となる「特許」,「出願者」,「姓」を検索する必要がある。
これに対し、XML文書の各文書情報に語彙索引が付加されている場合、構造情報及びテキスト情報がデータベース51の各ページ例えばP1,P2,P3に分散して格納されているので、ページP1,P2、P3の順序でアクセスし、「中村」を見つけ出し、この「中村」の親子関係情報から同一ページP3の「姓」を見つけ出し、さらに「姓」に付加される親子関係情報からページP2をアクセスし、引き続き、ページP1をアクセスし、「特許」を検索している。
その結果、XML文書の文書情報を検索する場合、データベース51のあらゆるページを参照しながら所望の文書情報を検索する必要があるので、データベース51へのアクセス量が増えてしまう問題がある。その結果、このデータ格納方法では、高速検索が難しいうえ、データ検索のヒット率が低くなって検索性能を低下させる問題がある。
本発明は以上のような事情に鑑みてなされたもので、少ないアクセス量で迅速に所望とする文書データを検索可能に構造化文書を格納するデータ検索システム及びデータ格納方法を提供することを目的とする。
上記課題を解決するために、本発明に係るデータ検索システムは、構造化文書から構造情報とテキスト情報を抽出し、各構造情報には親子・兄弟に関するレコードを規定し、前記テキスト情報には構造情報側と連なるレコードを規定し、それぞれデータベースの異なるページに集中的に記録されているデータ検索システムであって、
入力される検索条件情報の各検索文字情報から前記構造情報による検索か否かを判断する検索条件解析手段と、この解析手段で構造情報による検索であると判断された場合、前記データベースの構造情報記録ページから対象とする構造情報を検索する構造情報検索処理手段と、前記解析手段で前記テキスト情報による検索であると判断された場合、前記データベースの各テキスト情報記録ページから少なくとも1つ以上の候補情報を見つけ出し、各候補情報が当該候補情報をもつ前記テキスト情報に規定するレコードに連なる構造情報記録ページの構造と一致するとき、該当候補情報に対応するテキスト情報を検索するテキスト情報検索処理手段とを備えた構成である。
本発明は以上のような構成とすることにより、データベースの異なるページに構造化文書の構造情報とテキスト情報とを集中的に格納するので、少ないアクセス数で効率よく検索することができる。
また、本発明による構造化文書を検索可能に格納するデータ格納方法は、構造化文書からタグの有無に基づいて構造情報とテキスト情報とを抽出すると共に、前記構造化文書を表現するツリー形式に基づき、前記各構造情報のタグ位置から親子・兄弟の関係を見出す文書構造分析ステップと、この文書構造分析ステップの分析結果によって抽出される構造情報は、前記ツリー形式の親子・兄弟の序列に従って各タグ名に親子・兄弟に関するレコードを規定してデータベースのあるページに集中的に配置する構造情報レコード作成ステップと、前記文書構造分析ステップの分析結果によって抽出されるテキスト情報としては、該当する構造情報のレコードとして規定する親子・兄弟と連なるレコードを規定し、前記構造情報を配置するデータベースのページとは異なるページに集中的に配置するテキスト情報レコード作成ステップとを有する方法である。
この発明は以上のような方法とすることにより、構造化文書を検索時に少ないアクセス数で迅速に検索可能に格納することができる。
本発明は、構造化文書から構造情報とテキスト情報とを抽出し、親子・兄弟関係を規定してそれぞれ異なるページに集中的に配置するので、少ないアクセス量で所望とする文書データを迅速に検索可能に構造化文書を格納できるデータ検索システム及びデータ格納方法を提供できる。
以下、本発明の実施の形態について図面を参照して説明する。
図1は検索しやすい状態でデータを格納する本発明に係るデータ格納方法を適用したデータ格納システムの一実施の形態を示す構成図である。
このデータ格納システムは、XML文書,SGML文書等、いわゆるマークアップ言語で記述された構造化文書を入力する文書入力部1と、この文書入力部1から入力される構造化文書を分析して構造情報とテキスト情報とを抽出し、これら情報を検索可能に格納する例えばCPUで構成された情報格納処理部2と、文書入力部1から入力される構造化文書を一時的に格納する入力文書格納メモリ3と、前記情報格納処理部2で分析された構造化文書の構造情報、テキスト情報を検索可能に格納する例えばキャッシュメモリなどの処理情報格納メモリ4と、この処理情報格納メモリ4に格納されている構造化文書の全ての構造情報及びテキスト情報をデータ検索システムで適用可能に格納するデータベース5とによって構成されている。
文書入力部1は、一般にキーボード,マウスが用いられ、各種の制御用コマンドの他、キーボードの入力操作によって作成される構造化文書を入力する。また、文書入力部1としては、フロッピー(登録商標)ディスク,磁気テープ,磁気ディスクその他の記録媒体に保存される構造化文書の入力、さらにはインターネット上から構造化文書を取り込んで入力する処理を含むものである。
情報格納処理部2は、文書入力部1から入力される構造化文書を入力文書格納メモリ3に一時的に格納する機能の他、この入力文書格納メモリ3から構造化文書を読み出し、構造化文書を解析する構造化文書解析部21が設けられている。この構造化文書解析部21は、構造化文書に埋め込んでいるタグの有無から”<特許>”や”<名称>”等の構造情報と”構造化格納方式”のようなテキスト情報とに分け、これら構造情報及びテキスト情報とタグの記述位置からDOMツリー表現形式に基づく親子,兄弟の序列の情報をレコード情報作成部22に渡す。
このレコード情報作成部22は、構造化文書解析部22から構造情報、テキスト情報、親子,兄弟の序列に関する情報を受け取ると、構造情報としては、タグ名に対し、自分の親子や兄弟関係情報及び自分の親子や兄弟に当たる他の構造情報の格納位置などのレコード情報を作成し、メモリ書込み操作部23に出力する。テキスト情報については、実際のテキストの値の他、構造情報の親子や兄弟関係に連なるレコード情報を作成し、同様にメモリ書込み操作部23に出力する。
このメモリ書込み操作部23は、レコード情報作成部22から出力される自分の親子や兄弟関係情報,格納位置を含む構造情報及びテキスト情報をブロックサイズに基づく書込み制御に従って処理情報格納メモリ4に格納する。すなわち、メモリ書込み操作部23は、処理情報格納メモリ4に構造化文書を格納する際、ブロックサイズに基づく書込み制御に従い、図2に示すように処理情報格納メモリ4の異なるページに構造情報とテキスト情報とを分けて格納する。例えば処理情報格納メモリ4のページP1には構造情報だけを集中的に格納し、ページP2,P3にはテキスト情報を集中的に格納する。各ページP1,P2,P3はそれぞれ固定長サイズであり、比較的文字数の少ない構造情報をまとめて格納するのに好適であり、一方、テキスト情報はその文字情報数が随時変化するものであって、ページP2以降に可変長サイズのメモリと考えて順次格納する。
24は外部からの書込み指示に基づき、処理情報格納メモリ4から構造情報及びテキスト情報データを読み出し、検索システムに適用するためにデータベース5に格納するデータベース書込み操作部である。この構造情報及びテキスト情報の書込み制御もメモリ書込み操作部23と同様であり、図2に示すように構造情報とテキスト情報とをページ分けして格納される。
次に、以上のようなデータ格納システムを用いたデータ格納方法について図3のフローチャートに従って説明する。
先ず、文書入力部1から構造化文書を入力すると、情報格納処理部2は、その入力された構造化文書を入力文書格納メモリ3に一時的に記憶する。
この状態において、文書入力部1から構造化文書を検索可能に格納する指示を受けると、構造化文書解析部21を実行する。この構造化文書解析部21は、入力文書格納メモリ3から構造化文書を順次読み出して分析処理するが、このとき文書全文を読み出したか否かを判断し(S1)、未だ読み出していない文書があれば未読文書を読み出し(S2)、その読み出した文書にタグが有るか否かを判断し(S3)。タグがあれば構造情報と認識し、タグがなければテキスト情報と認識し、構造情報であると認識された場合にはDOMツリー形式に基づいてタグの親子・兄弟の序列から自分の親子や兄弟関係の情報を取り出す。これらステップS1〜S3は文書構造分析ステップに相当する。
ステップS3において、構造情報であると認識された場合、レコード情報作成部22を実行する。レコード情報作成部22は、例えば図8に記述されたXML文書から表現される図4に示すツリー形式から親子・兄弟の序列関係に基づくレコードを作成し、図5の左側に示すページに構造情報にレコードを付加して格納する(S4:構造情報レコード作成ステップ)。
この構造情報のレコード作成は、ページの先頭エリアに構造情報の識別情報である例えば「A××」、特許文書に関するヘッダを表すドキュメントID=1を書込んだ後、ツリー形式で表現された序列番号「1」から「10」に従って各行の先頭列にタグ名、次列に親の関係、次次列以降に子・兄弟の関係を表すレコードを作成する。具体的には、第1行のタグ名=「1」(特許)に関し、親=なし、第一子=「2」、弟=なしの親子・兄弟のレコードを作成し、第2行のタグ名=「2」(特許)に関し、親=「1」、第一子=「5」、弟=「3」の親子・兄弟のレコードを作成し、以後、全てのタグ名について作成する。また、序列番号「5」、「6」、「9」、「10」はタグ名がないので、序列番号に上下位のタグ名の親子・兄弟の関係のつながりを作成する。なお、特許文書に関するヘッダを表す構造情報のドキュメントが2ページにまたがる場合、ドキュメントID=1にリンクして別の所望とするページにも格納することができる。
以上のようにして構造情報のレコードを作成した後、メモリ書込み操作部23は、レコードが付加された構造情報を処理情報格納メモリ4の該当ページの最後尾に格納する(S5:書込み操作ステップ)。
一方、ステップS3において、タグ無しと判断された場合、テキスト情報であると認識し、同様にレコード情報作成部22を実行する。このレコード情報作成部22は、図8に記述されたXML文書から図4のように表現されたツリー形式に基づき、図5に示す構造情報格納ページとは別の右側ページにテキスト情報及び構造情報格納ページに規定する親子・兄弟の関係に連なるレコードを作成し、テキスト情報に付加する(S6:テキスト情報レコード作成ステップ)。すなわち、このテキスト情報のレコード作成は、構造情報側と関連をもつ序列番号にダッシュ´を付し、この関連付け番号にテキスト情報を添付することによりレコードを作成する。なお、このとき、テキスト情報が2ページ以上にまたがる場合には次ページとリンクによって接続される。そして、テキスト情報のレコードを作成した後、メモリ書込み操作部23によって処理情報格納メモリ4の該当ページの最後尾に格納する(S7:書込み操作ステップ)。
そして、テキスト情報を書き込んだ後、ステップS1に戻り、文書全文の書込み処理が終了した場合、データベース書込み操作部25は、処理情報格納メモリ4に格納されている情報を読み出してデータベース5に図5と同様なデータ格納形式で格納する。
従って、以上のような実施の形態によれば、XML文書などの構造化文書を検索可能に格納するに際し、XML文書から表現されるツリー形式に基づき、ツリー形式の所定の序列に従って構造情報となる各タグ名及びテキスト情報の空白エリアにそれぞれ親子・兄弟の関係を規定し、データベース5の一方のページ側に局所的に格納し、データベース5の他方のページ側には当該一方のページに規定する親子・兄弟関係と関連付けながら前記テキスト情報を順次格納することにより、所望とする情報を検索する際、その検索に伴う構造条件チェックのために同じページから複数の構造情報を容易に取り出すことができる。
次に、以上のようなデータベース5に格納された構造化文書に対する本発明に係るデータ検索システムについて図6を参照して説明する。
このデータ検索システムは、構造化文書の検索条件情報を入力する検索条件入力部6と、この検索条件入力部6から入力される検索条件情報に基づいて、前記データベース5から所望の文字情報を検索する情報検索処理部7と、前記検索条件入力部6から入力される検索条件情報を一時記憶する検索条件情報格納メモリ8と、前記情報検索処理部7で検索され文字情報を出力する表示装置及びプリンタなどの検索結果出力部9とによって構成されている。
情報検索処理部7には、検索条件入力部6から入力される検索条件情報を検索条件情報格納メモリ8に一時的に格納する機能の他、検索条件情報格納メモリ8から検索条件情報を読み出し、当該検索条件情報を構成する各検索文字情報が構造情報による検索か否かを判断する検索条件解析部(検索条件解析手段)31と、この検索条件解析部31で構造情報の検索であると判断された場合、予め管理テーブル(図示せず)に記録されている構造情報識別情報及びドキュメントIDに基づき、データベース5の中の該当するページをアクセスし構造情報を検索する構造情報検索処理部(構造情報検索処理手段)32と、前記検索条件解析部31で構造情報の検索でないと判断された場合、データベース5中のテキスト情報を格納する各ページをアクセスし、語彙検索によって該当するテキスト情報の候補を選択し、かつ前記構造情報格納ページに格納されている該当序列番号に規定される親子・兄弟関係のもとに最適な1つの候補情報をもつテキスト情報を検索するテキスト情報検索処理部(テキスト情報検索処理手段)33と、これら検索処理部32,33で検索された検索結果を出力する検索結果出力制御部34とが設けられている。
以上のようなデータ検索システムの動作について図7を参照して説明する。
検索条件入力部6からW3C(WWWコンソーシアム)機関で勧告されているXPath(XML Path Language)に基づく検索条件情報を伴う検索指示を入力すると、情報検索処理部7では、検索条件入力有りと判断し(S11)、当該検索条件情報を検索条件情報格納メモリ8に記憶する(S12)。
この状態において、情報検索処理部7は検索条件解析部31を実行する。この検索条件解析部31は、パス指定に従って検索条件情報の各検索文字情報が構造情報の検索であるか否かを判断する。ここで、検索条件情報のある検索文字情報が構造情報の検索であると判断すると、構造情報検索処理部32を実行する。この構造情報検索処理部32は、既に管理されている図示しない管理テーブルから該当する構造情報識別情報及びドキュメントIDを取り出し、この構造情報識別情報及びドキュメントIDのもとにデータベース5の中の該当する構造情報格納ページをアクセスし(S14)、所望の構造情報が該当するページにあるか否かを判断する(S15)。
ここで、検索の結果、所望の構造情報が見つかった場合、検索結果として出力し(S16)、所望の構造情報が見つからない場合には検索結果として該当情報が見つからない旨を出力する(S17)。何れの場合にも検索結果を出力した後、以後検索を継続するか否かを判断し(S18)、継続する場合にはステップS13に戻って検索処理を繰り返す。
ところで、ステップS13において、構造情報の検索でないと判断された場合、テキスト情報検索処理部33を実行する。
このテキスト情報検索処理部33は、データベース5の中の該当する複数のテキスト情報格納ページをアクセスし、検索条件情報のある検索文字情報に対する語彙による検索処理を行う(S21)。この語彙による検索処理において、テキスト情報の中にある検索文字情報に該当する候補があるか否かを判断し(S22)、候補情報があればそれを抽出し、リンク付けされている構造情報格納ページを検索し(S23)、親子・兄弟関係の構造が一致するか否かを判断する(S24)。ここで、構造が一致すれば、検索ヒットと判断し検索結果を出力する(S25)。
候補情報の構造が一致しない場合、該当ページの全部を検索したかを判断し(S26)、該当ページの全部を検索が終わっていない場合にはステップS22に移行し、同様の処理を繰り返し実行する。最終的に見つからない場合にはNGを出力し(S27)、ここで終了するか、或いはステップS18に移行し、検索処理を継続する。
従って、以上のような検索処理を実行すれば、例えは゛/特許/出願者/姓/text()=”中村”というパスを指定して検索する場合、構造条件(ここでは、/特許/出願者/姓)となる情報が1つのページに集中的に配置されているので、図2に示すようにテキスト情報を格納するページをアクセスして例えば語彙条件(ここでは、text()=”中村”)を検索した後、構造情報を格納するページをアクセスし、構造条件(ここでは、/特許/出願者/姓)に関連する構造情報を検索すれば、少ないページをアクセスして迅速に必要な情報を検索できる。
以上のような実施の形態によれば、一般に構造化文書の構造情報は短く、テキスト情報は長く、かつ可変長となるのが特徴であるが、それぞれの特徴を有効に生かすために、それぞれ異なるページに集中的に配置すれば、検索時にデータベース5のアクセス数を大幅に削減できるように構造化文書を格納することができる。また、検索時の検索ヒット率も高くなり、検索性能を大幅に向上させることができる。
なお、上記実施の形態では、構造化文書に記述されるタグの有無から構造情報とテキスト情報とに分離したが、例えばあるコメント文に対して、コメント文の記述される位置の情報を構造情報、コメント本文をテキスト情報として、別々のページに格納することができる。
なお、本発明は、上記実施の形態に限定されるものでなく、その要旨を逸脱しない範囲で種々変形して実施できる。また、各実施の形態は組み合わせて実施することが可能であり、その場合には組み合わせによる効果が得られる。
本発明に係るデータ検索システムに構造化文書を検索可能に格納するためのデータ格納システムの一例を示す構成図。 図1に示すデータ格納システムにより格納する構造化文書の格納形式を示す図。 図1に示すデータ格納システムにより構造化文書を検索可能に格納するデータ格納方法の一実施の形態を説明するフローチャート。 構造化文書をツリー形式で表現した図。 本発明に係るデータ格納システムによって構造化文書の構造情報とテキスト情報とをデータベースにページ分けして配置した図。 本発明に係るデータ検索システムの一実施の形態を示す構成図。 本発明に係るデータ検索システムの動作を説明するフローチャート。 構造化文書であるXML文書の一例を示す図。 図8に示すXML文書をツリー形式で表現した図。 従来の構造化文書を検索可能に格納した図。
符号の説明
5…構造化文書を検索可能に格納したデータベース、6…検索条件入力部、7…情報検索処理部、9…検索結果出力部、31…検索条件解析部、32…構造情報検索処理部、33…テキスト情報検索処理部、34…検索結果出力制御部。

Claims (2)

  1. 構造化文書から構造情報とテキスト情報を抽出し、各構造情報には親子・兄弟に関するレコードを規定し、前記テキスト情報には構造情報側と連なるレコードを規定し、それぞれデータベースの異なるページに集中的に記録されているデータ検索システムであって、
    入力される検索条件情報の各検索文字情報から前記構造情報による検索か否かを判断する検索条件解析手段と、
    この解析手段で構造情報による検索であると判断された場合、前記データベースの構造情報記録ページから対象とする構造情報を検索する構造情報検索処理手段と、
    前記解析手段で前記テキスト情報による検索であると判断された場合、前記データベースの各テキスト情報記録ページから少なくとも1つ以上の候補情報を見つけ出し、各候補情報が当該候補情報をもつ前記テキスト情報に規定するレコードに連なる前記構造情報記録ページの構造と一致するとき、該当候補情報に対応するテキスト情報を検索するテキスト情報検索処理手段とを備えたことを特徴とするデータ検索システム。
  2. 構造化文書を検索可能に格納するデータ格納方法において、
    前記構造化文書からタグの有無に基づいて構造情報とテキスト情報とを抽出すると共に、前記構造化文書を表現するツリー形式の序列番号から前記各構造情報の親子・兄弟の関係を見出す文書構造分析ステップと、
    この文書構造分析ステップの分析結果によって抽出される構造情報を含む前記序列番号に親子・兄弟に関するレコードを規定してデータベースのあるページに集中的に配置する構造情報レコード作成ステップと、
    前記文書構造分析ステップの分析結果によって抽出されるテキスト情報は、前記構造情報格納ページ側の親子・兄弟に関するレコードと連なるレコードを規定し、前記データベースの前記構造情報配置ページとは異なるページに配置するテキスト情報レコード作成ステップとを有することを特徴とするデータ格納方法。
JP2004281269A 2004-09-28 2004-09-28 データ検索システム及びデータ格納方法 Pending JP2006099181A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004281269A JP2006099181A (ja) 2004-09-28 2004-09-28 データ検索システム及びデータ格納方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004281269A JP2006099181A (ja) 2004-09-28 2004-09-28 データ検索システム及びデータ格納方法

Publications (1)

Publication Number Publication Date
JP2006099181A true JP2006099181A (ja) 2006-04-13

Family

ID=36238963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004281269A Pending JP2006099181A (ja) 2004-09-28 2004-09-28 データ検索システム及びデータ格納方法

Country Status (1)

Country Link
JP (1) JP2006099181A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8898555B2 (en) 2007-03-26 2014-11-25 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for managing structured documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8898555B2 (en) 2007-03-26 2014-11-25 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for managing structured documents

Similar Documents

Publication Publication Date Title
US7703009B2 (en) Extensible stylesheet designs using meta-tag information
US7353222B2 (en) System and method for the storage, indexing and retrieval of XML documents using relational databases
JP5209235B2 (ja) ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること
JP4189416B2 (ja) 構造化文書管理システム及びプログラム
JP4755427B2 (ja) データベース・アクセス・システム、データベース・アクセス方法
US7844642B2 (en) Method and structure for storing data of an XML-document in a relational database
US6131098A (en) Method and apparatus for a database management system content menu
JP4365162B2 (ja) 構造化文書のデータを検索する装置および方法
US8447785B2 (en) Providing context aware search adaptively
US20070208769A1 (en) System and method for generating an XPath expression
JP4343206B2 (ja) 構造化文書検索支援装置およびプログラム
WO2007071181A1 (fr) Procede d'acces de donnees dans un fichier xml
JP2001034618A (ja) Xmlデータ検索処理方法および検索処理システム
JP4247108B2 (ja) 構造化文書検索方法、構造化文書検索装置、及びプログラム
JP2005234837A (ja) 構造化文書処理方法、構造化文書処理システム及びそのプログラム
JP2008084070A (ja) 構造化文書検索装置およびプログラム
US20070055682A1 (en) Rhetorical content management system and methods
JP2006099181A (ja) データ検索システム及びデータ格納方法
EP1377917A2 (en) Extensible stylesheet designs using meta-tag information
JP4568267B2 (ja) 構造化文書検索システム及びデータベース管理プログラム
TWI764491B (zh) 文字資訊自動探勘方法及文字資訊自動探勘系統
JP4388092B2 (ja) 構造化文書データベース管理システム及びプログラム
JP4242701B2 (ja) 格納検索装置、格納検索プログラム、および格納検索プログラム記録媒体
Marin-Castro et al. VR-Tree: A novel tree-based approach for modeling Web Query Interfaces
JP2005346537A (ja) Xml異体字検索システムおよびxml異体字検索方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080930