JP3999093B2 - Structured document search method and structured document search system - Google Patents

Structured document search method and structured document search system Download PDF

Info

Publication number
JP3999093B2
JP3999093B2 JP2002287324A JP2002287324A JP3999093B2 JP 3999093 B2 JP3999093 B2 JP 3999093B2 JP 2002287324 A JP2002287324 A JP 2002287324A JP 2002287324 A JP2002287324 A JP 2002287324A JP 3999093 B2 JP3999093 B2 JP 3999093B2
Authority
JP
Japan
Prior art keywords
component
search
structured document
document
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002287324A
Other languages
Japanese (ja)
Other versions
JP2004126770A (en
Inventor
克彦 野々村
洋介 黒田
雅一 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002287324A priority Critical patent/JP3999093B2/en
Publication of JP2004126770A publication Critical patent/JP2004126770A/en
Application granted granted Critical
Publication of JP3999093B2 publication Critical patent/JP3999093B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、異なる文書構造の複数の構造化文書を、階層化された論理構造を持つ構造化文書データベースを検索する構造化文書検索方法、システム及び構造化文書データベース管理装置に関する。ここで構造化文書とは、XML(Extensible Markup Language)など、文書の構成要素(章、節、段落、要約、著者、題名など)を示す情報を,テキストの形式で文書の中に明示的に記載した電子文書のことをいう。
【0002】
【従来の技術】
現在、インターネットなどの情報技術の進化により、莫大な量の電子データを容易に入手することができるようになった。一方で、情報量が莫大なため、必要な情報がその莫大なデータの中に埋没してしまい、思うように検索が出来ない結果、十分に活用できないという弊害も発生している。情報が大量に存在していても、それをうまく活用できなければ意味がない。
【0003】
こうした弊害を解消するため、電子データを構造化文書とし、これにより情報の共有化を容易にしたり、情報の検索をより効率のよいものにしたりする研究がなされ、その有効性が確認されている。例えば、HTMLでは、文書の構成要素、例えば文書のタイトル、見出し、段落、著者名などタグ(tag)により記載している。また、近年注目されているXML(Extensible Markup Language)では、このタグを独自に作成することができるため、HTMLよりも柔軟な拡張性に優れており、また、XSL(eXtensible Stylesheet Language)などの書式情報を利用することにより、様々なメディアに対応することができるなどの利点がある。
【0004】
このように構造化された文書にしても、複数の文書間では文書の構造はそれぞれ異なっている。こうした異なる文書構造の膨大な数の構造化文書を格納した構造化文書データベースにおける検索において、文書構造が検索結果として表示されてば、検索結果の各構造化文書の概要を即座に把握することが出来て便利である。
例えば、特許文献1では、検索対象文字列を含む構成要素を表示し、ユーザ要求により、この構成要素を含む上位の構成要素(親要素)を順次表示するようにしている。
【0005】
また、非特許文献1では、特定のDTD(Document Type Definition 文書型定義)、スキーマに対応したXML文書については部分文書のルートとなる構成要素を予め指定し、特定のDTD、スキーマとの対応のないXML文書については兄弟に同じ名前の構成要素名が存在する構成要素を部分文書のルートとなる構成要素とみなし、検索キーワードを含む部分文書だけを表示している。
【0006】
さらに、非特許文献2では、HTMLデータにおける各固定タグの重み付けと単語の重要度の評価法の1つであるtf-idf(term frequency × inverse document frequency)を用いた検索キーワードの重要度に基づいて、各構成要素に対し点数づけを行い、その点数に基づき文書内情報の表示/非表示を決めている。
【0007】
【特許文献1】
特許第3143345号公報(第4頁、第5図、第6図)
【非特許文献1】
論文「XML文書の文書構造と内容を用いた部分文書の抽出手法」情報処理学会論文誌:データベース Vol.43 No.SIG2(TOD13)、2002年3月発行
【非特許文献2】
論文「Dynamic Generation and Browsing of Virtual WWW Space Based on User Profiles」、第5回国際コンピュータサイエンス会議(ICSC)「Internet Applications」の議事録93−108頁(1999年12月13−15日香港で開催、Springer社発行)
【0008】
【発明が解決しようとする課題】
異なる文書構造の膨大な数の構造化文書が格納されている構造化データベースにおいては、前記3つの文献の手法では以下の課題がある。
まず特許文献1の手法では、検索結果一覧の初期段階では検索条件に一致した部分だけが表示されるに過ぎず、構造化文書の全体の構造が判るような表示はなされない。このため、それぞれの構造化文書の概要を把握したい場合には、その構造化文書のツリー構造を辿る必要がある。
【0009】
次に非特許文献1の手法では、指定又は決定された構成要素(根ノード)以下の部分木を単純に部分文書として表示するものであり、部分木が大きい場合にはデータ量の制約からそのままのデータを表示するわけにはいかず、一方、前記部分木が小さい場合には、ユーザが期待する情報が欠落する虞が大きい。
【0010】
さらに非特許文献2の手法は、文書構造がほぼ固定であることを前提としており、文書構造が膨大な構造化文書間で大きく異なる場合には適用できない。
【0011】
そこで本発明は、上記問題点に鑑み、異なる文書構造の膨大な数の構造化文書が格納されている構造化データベースに対する検索において、構造化文書の概要を表わす部分文書のデータ量を最小限に押さえながら、検索の手がかりとなる構成要素名を容易につかむことが可能な構造化文書検索方法、構造化文書検索システム、構造化文書データベース管理装置を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記目的達成のため、本発明に係る構造化文書検索方法は、異なる文書構造の複数の構造化文書を格納した構造化文書データベースに対しユーザ端末側から検索要求を送信して検索を行う、コンピュータによる構造化文書検索方法において、前記構造化文書の構成要素の名前および前記構成要素の値を検索条件に含む検索要求に該当する前記構造化文書を前記構造化文書データベースの中から検索する検索ステップと、前記検索ステップで検索された前記構造化文書から、前記検索条件に一致する一致部分を抽出すると共に前記構造化文書に含まれる構成要素のうち前記一致部分を含む構成要素及びその周辺の構成要素を抽出する抽出ステップと、前記検索ステップで検索された前記構造化文書を、前記抽出ステップで抽出された前記一致部分及び前記構成要素の名前により表示する表示ステップと、を備えたことを特徴とする。
【0013】
この発明によれば、構造化文書の構成要素の名前および前記構成要素の値を検索条件に含む検索要求が入力され、この検索要求に該当する前記構造化文書が構造化文書データベースの中から検索される。そして、検索された前記構造化文書から、前記検索条件に一致する一致部分が抽出されると共に前記構造化文書に含まれる構成要素のうち前記一致部分を含む構成要素及びその周辺の構成要素が抽出される。そして、検索された前記構造化文書を、抽出された前記一致部分及び前記構成要素名により表示する。
従って、異なる文書構造の膨大な数の構造化文書が格納されている構造化データベースに対する検索において、構造化文書の概要を表わす部分文書のデータ量を最小限に押さえながら、検索の手がかりとなる構成要素名を容易につかむことが可能となる。
【0014】
本発明において、前記表示ステップは、前記構成要素が前記複数の構造化文書中に共通して存在する度合を示す要素名生起情報を用いて、前記度合が低い構成要素名を優先的に検索結果として表示することができる。これにより、ユーザが入力した値および要素名を含む部分だけでなく、前記度合の低い要素名も表示されるため、埋もれがちな情報が含まれている構成要素の獲得が容易となる。
【0015】
また、本発明の前記検索要求入力ステップにおいて、前記要素名生起情報を用いて前記度合が高い構成要素の一覧をユーザに提示し、これにより検索条件としてユーザが与える構成要素の入力を支援することもできる。
また、前記表示ステップにおいて表示された前記構成要素をユーザに選択させる選択ステップと、この選択ステップで選択された前記構成要素と前記検索要求入力ステップで入力された検索条件に該当する前記構造化文書を前記構造化文書データベースの中から再検索する再検索ステップとを更に備えるようにすることもできる。これにより、検索結果の絞込みを効率的に実行することができる。
【0016】
さらに、前記表示ステップにおいて表示された前記構造化文書の中から所望のものをユーザに選択させる構造化文書選択ステップと、前記前記構造化文書選択ステップで選択された前記構造化文書の詳細を前記構造化文書データベースから取得して表示する詳細表示ステップとを更に備えるようにすることもできる。
また、この詳細表示ステップにおいて表示された前記詳細における構成要素をユーザに選択させるステップと、このステップで選択された前記構成要素を表示するステップとを更に備えるようにすることもできる。
【0017】
また、検索要求入力ステップにおいて、前記構成要素の名前の類似関係を定義した類似構成要素辞書を用いて、入力された前記構成要素と類似の前記構成要素とをまとめて検索条件とすることもできる。
【0018】
上記目的達成のため、本発明に係る構造化文書検索システムは、異なる文書構造の複数の構造化文書を格納した構造化文書データベースに対し検索要求を送信して検索を行う構造化文書検索システムにおいて、前記構造化文書の構成要素の名前および前記構成要素の値を検索条件に含む検索要求を入力する検索要求入力部と、この入力された検索要求に該当する前記構造化文書を前記構造化文書データベースの中から検索する検索部と、前記検索部で検索された前記構造化文書から、前記検索条件に一致する一致部分を抽出すると共に前記構造化文書に含まれる構成要素のうち前記一致部分を含む前記構成要素及びその周辺の構成要素を抽出する抽出部と、前記検索部で検索された前記構造化文書を、前記抽出部で抽出された前記一致部分及び前記構成要素とにより表示する表示部と、を備えたことを特徴とする。
【0019】
上記目的達成のため、本発明に係る構造化文書データベース管理装置は、異なる文書構造の複数の構造化文書を格納した構造化文書データベースと接続され、検索要求をユーザ端末から受領し前記データベースを検索すると共に検索結果を前記ユーザ端末に送信する構造化文書データベース管理装置において、検索しようとする前記構造化文書の構成要素の名前および前記構成要素の値を検索条件に含む検索要求を受け付ける検索要求受付部と、前記検索要求に該当する前記構造化文書を前記構造化文書データベースの中から検索する検索部と、前記検索部で検索された前記構造化文書から、前記検索条件に一致する一致部分を抽出すると共に前記構造化文書に含まれる構成要素のうち前記一致部分を含む構成要素及びその周辺の構成要素を抽出する抽出部と、前記抽出部で抽出された前記一致部分及び前記構成要素を、前記構造化文書の構造及びその構造における前記一致部分の位置が理解できるような形式で表示するデータ形式に変更し、前記ユーザ端末に送信する結果処理部とを備えたことを特徴とする。
【0020】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。図1は本発明の構造化文書検索システムの構成を示す図である。この実施の形態では、構造化文書はXML文書であるものとして説明するが、本発明をこれに限る趣旨ではない。
構造化文書検索システムは、GUI部1、要求制御部2、アクセス要求処理部3、データアクセス部4、文書記憶部5、検索要求処理部6、要素名生起情報記憶部7とから大略構成されている。文書記憶部5はXML文書を記憶するための構造化文書データベースであり、具体的にはハードディスクドライブなどの外部記憶装置を用いて構成される。図1のシステム構成は、LAN(Local Area Network)、WAN(Wide Area Network)等のネットワークに接続されたコンピュータ(サーバとクライアント(ユーザ端末))とソフトウェアを用いて実現可能である。
【0021】
GUI部1は、ユーザ(データベース利用者)のXML文書の新規格納要求、変更要求、削除要求及び検索要求の入力並びに検索結果の出力をするための入出力インタフェースをグラフィカルに提供する部分であり、登録部11、検索条件入力部12、結果一覧表示部13、詳細表示部14から構成される。
登録部11はユーザからのXML文書格納や変更、削除の要求を受け付けて、要求制御部2を呼び出す機能を有する。検索条件入力部12はユーザからの検索要求を受け付けて、要求制御部2を呼び出す機能を有する。結果一覧表示部13は検索結果一覧を要求制御部2から受け付けて表示する機能を有する。
詳細表示部14は結果一覧表示部13に表示された検索結果一覧のうち、ユーザが詳細情報を要求したXML文書に関し、その詳細情報を表示する部分である。
【0022】
要求制御部2は、要求受付部21と結果処理部22から構成されている。要求受付部21は、GUI部1からのXML文書格納/変更/削除の要求、検索要求等を受け付けて、アクセス要求処理部2又は検索要求処理部6を呼び出す部分である。結果処理部22はアクセス要求処理部3および検索要求処理部6が処理した結果をGUI部1に返す処理を行う部分である。
【0023】
アクセス要求処理部3は、ユーザからのXML文書格納や文書変更、文書削除等の要求に対応した処理を行う。
データアクセス部4は、文書記憶部5にアクセスするための基本インタフェースの集合である。データアクセス部4は、文書オブジェクトツリー格納部41、文書オブジェクトツリー削除部42、文書オブジェクトツリー取得部43、文書文字列取得部44から構成される。文書オブジェクトツリー格納部41は、登録部11からのXML文書格納指令に基づき、文書記憶部5中の物理的な指定エリアに文書オブジェクトツリーを格納する処理を行う。文書オブジェクトツリー削除部42は、登録部11からのXML文書削除指令に基づき、文書記憶部5中の物理的な指定エリアに存在する文書オブジェクトツリーを削除する処理を行う。文書オブジェクトツリー取得部43は、登録部11からのXML文書取得指令に基づき、文書記憶部5中の物理的な指定エリアに存在する文書オブジェクトツリーを取得する処理を行う。文書文字列取得部44は、文書オブジェクトツリーをXML文書に変換する処理を行う。
【0024】
文書記憶部5は、例えば、図2に示すように、XML文書をUNIXのディレクトリ構造のように階層的にツリー構造状に格納する。図2では、パス/製品情報群(ルートノードの下の「製品情報群」)というフォルダに図3や図4に示すようなXML文書が多数格納され、パス/最新情報/カタログ集(ルートノードの下の「最新情報」の下の「カタログ集」)というフォルダに図5に示すようなXML文書が多数格納されていることを示している。これら多数のXML文書は、図3〜5に示されるように、その文書構造が異なっている。
【0025】
図1に戻って、検索要求処理部6は、検索結果抽出部61、要素名一覧抽出部62から構成され、GUI部1からの検索要求に対応した処理を行う。
検索結果抽出部61はデータアクセス部4を呼び出すことで、検索条件入力部12より入力された検索要求を満たす構成要素の集合を求める。
【0026】
要素名一覧抽出部62はこの検索結果抽出部61により求められた構成要素の集合の周辺に位置する構成要素(子要素、親要素、兄弟要素など)の一覧を抽出する。
また、要素名一覧抽出部62は、図6に示すような要素名生起情報を用いて、これら抽出された各構成要素が登場する頻度を示す度(カウント/文書数。以下これを共通度という)をチェックし、その共通度がある閾値より小さい構成要素名とその構成要素のIDの一覧を求める。
図6に示す要素名生起情報は要素名生起情報記憶部7に格納される。要素名生起情報は、文書記憶部5に登録されているXML化文書の数201(図6中では3209)、各構成要素を含むXML文書の数202から構成される。フラグ200の役割については後述する。
【0027】
この要素名生起情報記憶部7の記憶内容は、新しいXML文書が文書記憶部5に登録されるごとに更新される。この更新動作の手順を図7に示すフローチャートを用いて説明する。
まずステップ100において、登録しようとするXML文書の構成要素名や構成要素の値、構成要素の親子関係(上下関係)、兄弟関係の情報が文書記憶部5に登録される。
続いてステップ101において要素名生起情報のフラグ200をすべて0に設定する。
【0028】
続くステップ102において、文書数の値201をインクリメントする。
次にステップ103において、登録されたXML文書内の構成要素の名前を順次取得し、続くステップ104においてその構成要素名が要素名生起情報記憶部7にデータとして存在するか否かチェックを行う。YESの場合には、ステップ105においてその構成要素名に該当するフラグ200の値をチェックする。フラグ200の値が0であるならば、ステップ106においてその構成要素名に該当するカウント202の値をインクリメントとともに、フラグの値を1に変更する。フラグ200の値が0でない場合には、ステップ106はスキップする。
【0029】
ステップ104の判定がNOの場合には、ステップ107へ移行し、要素名生起情報にその構成要素名に関する情報を保持するエリアを確保し、カウント202の値を1に設定する。
以上のステップ104から107までの手順を、すべての構成要素について繰り返す。
【0030】
図1に戻って、類似構成要素辞書記憶部8は、構成要素名の類似関係を定義した辞書を記憶する部分である。これにより、検索条件入力部12で入力された構成要素名と類似の構成要素名に関連する構成要素も検索結果抽出部61により抽出される。
【0031】
次に、この構造化文書検索システムによる検索の処理手順を、図8及び図9を用いて説明する。
まず図8に示すように、検索条件入力部12に表示される検索画面において、ユーザは検索要求301を入力する。検索条件として入力する項目としては、図9に例示されるように、「キーワード」と「タグ名」とがある。「キーワード」には、検索対象としてのXML文書内のいずれかの構成要素の値に含んでほしい文字列等を入力し、「タグ名」には、XML文書内に含んでほしい構成要素名を入力する。「キーワード」又は「タグ名」の欄のいずれか一方だけに検索条件を入力してもよい。また、図9に示すように、1つの欄に複数の文字列を入力してもよい。
なお、図9に示すプルダウンメニューT1「タグ名一覧」をクリックすると、共通度の高い構成要素の一覧が表示されるので、検索条件入力の参考にしてもよい。
【0032】
例えば、図9に示すように、ユーザが「価格が安いパソコンに関して何か有益な情報を得たい。」と考え、検索条件入力部12において、「キーワード」欄に「パソコン」と「低価格」の文字を、「タグ名」欄に「価格」の文字を検索要求301として入力したとする。
すると検索条件入力部12は、クエリ並びに検索要求入力部12の「キーワード」欄及び「タグ名」欄に入力された文字の列から構成される指示データ302を要求制御部2に送る。
要求制御部2の要求受付部21は、この指示データ302を検索要求処理部6に送る。
検索結果抽出部61は、この指示データ302に合致するXML文書を、類似構成要素辞書記憶部8を参照しつつ文書記憶部5から抽出し、そのXML文書中から指示データの上記条件に合致する一致部分、及びこの一致部分を含む構成要素の名前の集合を抽出する(図8の303)。そして、要素名一覧抽出部62は、この抽出されたXML文書内の構成要素の名称一覧をXML文書単位で抽出する(図8の304)。
【0033】
このようにして抽出された検索結果及びその構成要素名一覧データは、要求制御部22の結果処理部において、検索結果一覧データ305としてXML文書ごとに1つにまとめられ、検索要求処理部6から要求制御部2の結果処理部22に送信される。
検索結果一覧データ305は、例えば図10に図示されるような構成のデータを、検索結果としてのXML文書ごとに作成したものとなっている。このデータは、以下の3つのものを含んでいる。
(1)検索されたXML文書のルート構成要素(文書中の一番外側の構成要素、図10では<製品情報>)
(2)検索条件入力部12において、検索条件として「キーワード」欄及び「タグ名」欄に与えられた文字列に合致する一致部分(文字列)と、その一致部分を含む構成要素名。図10では、構成要素<タイプ><特徴><価格>とその中の値がこれに該当する。図10に示すように、それぞれの構成要素の値には、キーワードとして入力された「パソコン」「低価格」、及びこれと類似する「〇〇円」が含まれている。
(3)共通度が低いとされた構成要素名。図10では、構成要素<お得情報> がこれに該当する。
【0034】
結果一覧表示部13は、この検索結果一覧データ305に基づき、例えば図11に示すような検索結果画面を表示する(図8の検索結果一覧表示306)。図11では、検索結果としての複数のXML文書のうち、3件のみを表示した形式となっている。別の検索結果を表示したい場合には、「前」「次」のアイコンをクリックすることにより前又は次の3件の検索結果を表示させることができる。
【0035】
ユーザは、図11に示すような検索結果画面を見て、詳細を見たいと思うXML文書を発見した場合には、そのXML文書のルートの構成要素名をマウスでクリックする(図8の文書獲得要求307)。これにより、そのXML文書の指定された構成要素のIDを含む指示データ307が要求制御部2に送信される。要求制御部2は文書獲得処理309を実行し、獲得された文書データ310をGUI部1に返送する。この文書データ310により、GUI部1は詳細結果表示311を実行し、図12に示すように、文書の詳細内容を表示させることができる。表示された詳細内容のうち、さらに詳細に見たい部分がある場合にはその部分をマウスでクリックすることにより、表示位置移動要求312を要求制御部2に送信することができる。また、別の部分文書を見たい場合に詳細結果表示更新要求313を送信することができる。これらの操作により、選択した部分を含む位置を中心とする表示に切り替え、個々の構成要素の情報を即座に見ることが可能となる。
【0036】
また、ユーザが、図11に示す検索結果画面を見て、再検索を望む場合には、再検索要求315を入力し、再検索を実行することもできる。このとき、図11に示す構成要素(例えば検索結果1の「タグ名一覧」に表示されている「お得情報」)をマウスで右クリックし、表示されるメニュー選択画面(図示せず)において「再検索」を指定することにより、これを先に入力した検索条件の一部に含めることができる。この実施例の場合、図9に示す「パソコン」「低価格」「価格」に加え、例えば「お得情報」を検索条件に加えて再度の検索を実行することができる。これにより、埋もれがちな情報(共通度が小さい構成要素に係る情報)が含まれている構成要素を基準として条件検索が可能となる。再検索要求315は、指示データ316に変換される。指示データ316を受けた要求制御部2は、この指示データ316に基づき、検索結果抽出処理317を実行すると共に、検索結果から構成要素名の一覧を抽出する要素名一覧抽出処理318を実行する。検索結果一覧319は305と同様にGUI部1に送信され、これに基づきGUI部1において検索結果一覧表示処理320が実行される。
【0037】
次に、図13に示すフローチャートを用いて、要素名一覧抽出部62での要素名一覧抽出処理304(図8)の詳細について説明する。
まず、検索結果抽出303(図8)にて抽出されたXML文書内の構成要素の子や親、兄弟を辿ることで周辺構成要素の名称データを取得する(ステップ401)。取得された名称データは、要素名一覧抽出部62において、検索結果として得られたXML文書の数だけ用意され予め初期化されたメモリ領域に記憶される。
続くステップ402では、図8の検索結果抽出303で抽出された構成要素、及びステップ401で取得された周辺構成要素について、各構成要素の共通度が閾値Xより小さいかどうかをチェックする。具体的には各構成要素の名前に該当する要素生起情報記憶部7のデータ「カウント」を用いて、(カウント/文書数)の値(共通度)がある閾値X以下であるかチェックし、YESの場合には、その構成要素名を要素名一覧抽出部62のメモリ領域に記憶させる。NOの場合には、その構成要素名はメモリ領域に記憶させず、ステップ402へ戻り、別の構成要素の共通度のチェックの手順へ移行する。このステップ402,403の手順を、全構成要素について繰り返す。
【0038】
以上の結果一覧により、ユーザが入力した値および要素名を含む部分だけでなく、その部分周辺で共通度の低い要素名も表示されるため、埋もれがちな情報が含まれている構成要素の獲得が容易となる。
【0039】
以上、発明の実施の形態について説明したが、本発明はこれに限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々の変更、置換、追加等が可能である。
【0040】
【発明の効果】
以上説明したように、本発明によれば、異なる文書構造の膨大な数の構造化文書が格納されている構造化データベースに対する検索結果一覧において、構造化文書の概要を表わす部分文書のデータ量を最小限に押さえながら、検索の手がかりとなる構成要素名を容易につかむことが可能となる。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る構造化文書検索システムの全体構成を示したブロック図である。
【図2】 図1に示す文書記憶部5に記憶される、階層的にツリー構造状に格納されるXML文書の内容を示す。
【図3】 文書記憶部5に記憶されるXML文書の例を示す。
【図4】 文書記憶部5に記憶されるXML文書の例を示す。
【図5】 文書記憶部5に記憶されるXML文書の例を示す。
【図6】 図1に示す要素名生起情報記憶部7に記憶される要素名生起情報の一例を示す。
【図7】 要素名生起情報の更新の手順を示すフローチャートである。
【図8】図1に示す構造化文書検索システムの検索処理動作を説明する概念図である。
【図9】 検索条件入力部12の検索条件入力画面の一例を示す。
【図10】 検索結果一覧データ305のデータ構造の一例を示す。
【図11】 検索結果画面の一例を示す。
【図12】 詳細表示画面の一例を示す。
【図13】 要素名一覧抽出部62での要素名一覧抽出処理を説明するフローチャートである。
【符号の説明】
1…GUI部、 2…要求制御部 、3…アクセス要求処理部、 4…データアクセス部、 5…文書記憶部、 6…検索要求処理部、 7…要素名生起情報記憶部、 8…類似構成要素辞書記憶部、 11…登録部、12…検索条件入力部、 13…結果一覧表示部、 14…詳細表示部、21…要求受付部、 22…結果処理部、 41…文書オブジェクトツリー格納部、 42…文書オブジェクトツリー削除部、43…文書オブジェクトツリー取得部、44…文書文字列取得部、 61…検索結果抽出部、 62…要素名一覧抽出部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a structured document search method, system, and structured document database management apparatus for searching a structured document database having a hierarchical logical structure for a plurality of structured documents having different document structures. Here, a structured document is information such as XML (Extensible Markup Language) that expresses the components of a document (chapters, sections, paragraphs, abstracts, authors, titles, etc.) in a text format. Refers to the described electronic document.
[0002]
[Prior art]
Currently, with the advancement of information technology such as the Internet, a huge amount of electronic data can be easily obtained. On the other hand, since the amount of information is enormous, necessary information is buried in the enormous data, and as a result of being unable to perform a search as expected, there is a problem that it cannot be fully utilized. Even if a large amount of information exists, it is meaningless if it cannot be used successfully.
[0003]
In order to eliminate these harmful effects, research has been conducted to make electronic data structured documents, which facilitates information sharing and makes information retrieval more efficient, and its effectiveness has been confirmed. . For example, in HTML, a document component, for example, a document title, headline, paragraph, author name, etc. is used for description. In addition, XML (Extensible Markup Language), which has been attracting attention in recent years, is capable of creating this tag independently, so it is more flexible and flexible than HTML. Formats such as XSL (eXtensible Stylesheet Language) By using information, there are advantages such as being able to deal with various media.
[0004]
Even in such a structured document, the document structure is different among a plurality of documents. In a search in a structured document database that stores a large number of structured documents of different document structures, if the document structure is displayed as a search result, an overview of each structured document in the search result can be immediately grasped. It is possible and convenient.
For example, in Patent Document 1, a constituent element including a search target character string is displayed, and an upper constituent element (parent element) including the constituent element is sequentially displayed according to a user request.
[0005]
Further, in Non-Patent Document 1, for a XML document corresponding to a specific DTD (Document Type Definition) and schema, a component serving as a root of a partial document is designated in advance, and the correspondence with a specific DTD and schema is specified. For an XML document that does not exist, a component having the same component name as a sibling is regarded as a component serving as a root of the partial document, and only the partial document including the search keyword is displayed.
[0006]
Furthermore, in Non-Patent Document 2, based on the importance of a search keyword using tf-idf (term frequency × inverse document frequency), which is one of the evaluation methods of the weight of each fixed tag and the importance of a word in HTML data. Each component is scored, and display / non-display of information in the document is determined based on the score.
[0007]
[Patent Document 1]
Japanese Patent No. 3143345 (4th page, FIG. 5, FIG. 6)
[Non-Patent Document 1]
Paper “A method for extracting partial documents using document structure and contents of XML documents” Transactions of Information Processing Society of Japan: Database Vol.43 No.SIG2 (TOD13), published in March 2002
[Non-Patent Document 2]
The paper “Dynamic Generation and Browsing of Virtual WWW Space Based on User Profiles”, Proceedings of the 5th International Computer Science Conference (ICSC) “Internet Applications” pages 93-108 (held in Hong Kong on December 13-15, 1999, Published by Springer)
[0008]
[Problems to be solved by the invention]
In a structured database in which an enormous number of structured documents having different document structures are stored, the above three document methods have the following problems.
First, in the method of Patent Document 1, only the portion that matches the search condition is displayed at the initial stage of the search result list, and the display that shows the entire structure of the structured document is not made. For this reason, in order to grasp the outline of each structured document, it is necessary to trace the tree structure of the structured document.
[0009]
Next, in the method of Non-Patent Document 1, a subtree below a designated or determined component (root node) is simply displayed as a partial document. On the other hand, when the subtree is small, there is a high possibility that information expected by the user is lost.
[0010]
Further, the method of Non-Patent Document 2 is based on the premise that the document structure is almost fixed, and cannot be applied when the document structure is greatly different between a large number of structured documents.
[0011]
In view of the above problems, the present invention minimizes the data amount of a partial document that represents an outline of a structured document in a search for a structured database in which a large number of structured documents having different document structures are stored. It is an object of the present invention to provide a structured document search method, a structured document search system, and a structured document database management apparatus that can easily grasp a component name that is a clue of a search while holding down.
[0012]
[Means for Solving the Problems]
In order to achieve the above object, the structured document search method according to the present invention performs a search by transmitting a search request from the user terminal side to a structured document database storing a plurality of structured documents having different document structures. By computer In the structured document search method, a search request including a name of a component of the structured document and a value of the component as search conditions. Asking A search step for searching the corresponding structured document from the structured document database, and a matching portion that matches the search condition is extracted from the structured document searched in the search step, and the structured document is extracted. An extraction step for extracting a component including the matching portion and its surrounding components from among the components included in the component, and the matching portion extracted in the extraction step by extracting the structured document searched in the search step And a display step of displaying by the name of the component.
[0013]
According to the present invention, a search request including the name of a component of a structured document and the value of the component as a search condition is input, and the structured document corresponding to the search request is searched from the structured document database. Is done. Then, a matching part that matches the search condition is extracted from the searched structured document, and among the constituent elements included in the structured document, the constituent element including the matching part and the surrounding constituent elements are extracted. Is done. Then, the searched structured document is displayed by the extracted matching part and the component name.
Therefore, in a search for a structured database in which an enormous number of structured documents of different document structures are stored, a configuration that serves as a clue to the search while minimizing the data amount of a partial document that represents the outline of the structured document The element name can be easily grasped.
[0014]
In the present invention, the display step uses the element name occurrence information indicating the degree to which the constituent elements exist in common in the plurality of structured documents, and preferentially searches the constituent element names with the low degree. Can be displayed as Thereby, not only the part including the value and the element name input by the user but also the element name with a low degree is displayed, so that it is easy to acquire the component including the information that tends to be buried.
[0015]
Further, in the search request input step of the present invention, the element name occurrence information is used to present a list of components having a high degree to the user, thereby supporting the input of the components given by the user as a search condition. You can also.
In addition, a selection step that allows the user to select the component displayed in the display step, the component selected in the selection step, and the structured document corresponding to the search condition input in the search request input step And a re-search step for re-searching from the structured document database. As a result, the search results can be narrowed down efficiently.
[0016]
Further, a structured document selection step for allowing a user to select a desired one of the structured documents displayed in the display step, and details of the structured document selected in the structured document selection step are It is also possible to further include a detailed display step for obtaining and displaying from the structured document database.
Further, it is possible to further comprise a step of causing the user to select a component in the details displayed in the detail display step and a step of displaying the component selected in this step.
[0017]
Further, in the search request input step, it is also possible to use the similar component dictionary that defines the similar relationship between the names of the components as a search condition by combining the input components and the similar components. .
[0018]
To achieve the above object, a structured document search system according to the present invention is a structured document search system that performs a search by sending a search request to a structured document database that stores a plurality of structured documents having different document structures. A search request input unit for inputting a search request including a name of a component of the structured document and a value of the component in a search condition; and the structured document corresponding to the input search request is input to the structured document. A search unit that searches from a database, and a matching part that matches the search condition is extracted from the structured document searched by the search unit, and the matching part among the components included in the structured document is extracted. An extractor for extracting the constituent element and its peripheral constituent elements, and the structured document searched by the search part for the matching part and the extracted extracted part by the extractor. Characterized by comprising a display unit for displaying the said components.
[0019]
To achieve the above object, a structured document database management apparatus according to the present invention is connected to a structured document database storing a plurality of structured documents having different document structures, and receives a search request from a user terminal and searches the database. In the structured document database management apparatus that transmits a search result to the user terminal, a search request acceptance that accepts a search request that includes the name of the component of the structured document to be searched and the value of the component as a search condition A search unit that searches the structured document database for the structured document corresponding to the search request, and a matching part that matches the search condition from the structured document searched by the search unit. Among the constituent elements extracted and included in the structured document, the constituent elements including the matching portion and the peripheral constituent elements are included. The extraction unit to be output, and the matching part and the component extracted by the extraction unit are changed to a data format for displaying the structure of the structured document and the position of the matching part in the structure. And a result processing unit for transmission to the user terminal.
[0020]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing a configuration of a structured document search system according to the present invention. In this embodiment, the structured document is described as an XML document, but the present invention is not limited to this.
The structured document search system is roughly composed of a GUI unit 1, a request control unit 2, an access request processing unit 3, a data access unit 4, a document storage unit 5, a search request processing unit 6, and an element name occurrence information storage unit 7. ing. The document storage unit 5 is a structured document database for storing XML documents, and is specifically configured using an external storage device such as a hard disk drive. The system configuration of FIG. 1 can be realized by using a computer (server and client (user terminal)) connected to a network such as a LAN (Local Area Network) and a WAN (Wide Area Network) and software.
[0021]
The GUI unit 1 is a part that graphically provides an input / output interface for inputting a new storage request, a change request, a deletion request, a search request, and a search request of a user (database user) XML document, and outputting a search result. It comprises a registration unit 11, a search condition input unit 12, a result list display unit 13, and a detail display unit 14.
The registration unit 11 has a function of receiving a request for storing, changing, or deleting an XML document from a user and calling the request control unit 2. The search condition input unit 12 has a function of receiving a search request from a user and calling the request control unit 2. The result list display unit 13 has a function of accepting and displaying the search result list from the request control unit 2.
The detail display unit 14 is a part that displays the detailed information regarding the XML document requested by the user for the detailed information in the search result list displayed in the result list display unit 13.
[0022]
The request control unit 2 includes a request reception unit 21 and a result processing unit 22. The request reception unit 21 is a part that receives an XML document storage / change / deletion request, a search request, and the like from the GUI unit 1 and calls the access request processing unit 2 or the search request processing unit 6. The result processing unit 22 is a part that performs processing for returning the results processed by the access request processing unit 3 and the search request processing unit 6 to the GUI unit 1.
[0023]
The access request processing unit 3 performs processing corresponding to requests from the user such as XML document storage, document change, and document deletion.
The data access unit 4 is a set of basic interfaces for accessing the document storage unit 5. The data access unit 4 includes a document object tree storage unit 41, a document object tree deletion unit 42, a document object tree acquisition unit 43, and a document character string acquisition unit 44. The document object tree storage unit 41 performs a process of storing the document object tree in a physical designated area in the document storage unit 5 based on an XML document storage command from the registration unit 11. The document object tree deletion unit 42 performs a process of deleting the document object tree existing in the physical designated area in the document storage unit 5 based on the XML document deletion command from the registration unit 11. The document object tree acquisition unit 43 performs a process of acquiring a document object tree existing in a physical designated area in the document storage unit 5 based on an XML document acquisition command from the registration unit 11. The document character string acquisition unit 44 performs processing for converting the document object tree into an XML document.
[0024]
For example, as shown in FIG. 2, the document storage unit 5 stores XML documents in a hierarchical tree structure like a UNIX directory structure. In FIG. 2, many XML documents as shown in FIG. 3 and FIG. 4 are stored in a folder called “path / product information group” (“product information group” below the root node), and the path / latest information / catalog collection (root node 5 indicates that a large number of XML documents as shown in FIG. 5 are stored in a folder “catalog collection” under “latest information” below. Many of these XML documents have different document structures as shown in FIGS.
[0025]
Returning to FIG. 1, the search request processing unit 6 includes a search result extraction unit 61 and an element name list extraction unit 62, and performs processing corresponding to the search request from the GUI unit 1.
The search result extraction unit 61 calls the data access unit 4 to obtain a set of components that satisfy the search request input from the search condition input unit 12.
[0026]
The element name list extraction unit 62 extracts a list of component elements (child elements, parent elements, sibling elements, etc.) located around the set of component elements obtained by the search result extraction unit 61.
Further, the element name list extraction unit 62 uses the element name occurrence information as shown in FIG. 6 to indicate the frequency of appearance of each extracted component (count / number of documents. This is hereinafter referred to as common degree). ) Is checked, and a list of component element names and IDs of the component elements whose degree of commonality is smaller than a certain threshold is obtained.
The element name occurrence information shown in FIG. 6 is stored in the element name occurrence information storage unit 7. The element name occurrence information is composed of the number of XML documents 201 (3209 in FIG. 6) registered in the document storage unit 5 and the number 202 of XML documents including each component. The role of the flag 200 will be described later.
[0027]
The contents stored in the element name occurrence information storage unit 7 are updated each time a new XML document is registered in the document storage unit 5. The procedure of this update operation will be described using the flowchart shown in FIG.
First, in step 100, the component name, component value, parent-child relationship (upper and lower relationship), and sibling relationship information of the XML document to be registered are registered in the document storage unit 5.
In step 101, all element name occurrence information flags 200 are set to zero.
[0028]
In the following step 102, the document number value 201 is incremented.
Next, in step 103, the names of the constituent elements in the registered XML document are sequentially obtained, and in the subsequent step 104, it is checked whether or not the constituent element names exist as data in the element name occurrence information storage unit 7. If YES, in step 105, the value of the flag 200 corresponding to the component name is checked. If the value of the flag 200 is 0, in step 106, the value of the count 202 corresponding to the component name is incremented and the value of the flag is changed to 1. If the value of the flag 200 is not 0, step 106 is skipped.
[0029]
When the determination in step 104 is NO, the process proceeds to step 107, where an area for storing information related to the component name is secured in the element name occurrence information, and the value of the count 202 is set to 1.
The above steps 104 to 107 are repeated for all the components.
[0030]
Returning to FIG. 1, the similar component dictionary storage unit 8 is a part that stores a dictionary that defines similar relationships between component names. Thereby, the search result extraction unit 61 also extracts the component related to the component name similar to the component name input by the search condition input unit 12.
[0031]
Next, a search processing procedure by the structured document search system will be described with reference to FIGS.
First, as shown in FIG. 8, the user inputs a search request 301 on the search screen displayed on the search condition input unit 12. Items to be input as search conditions include “keyword” and “tag name” as illustrated in FIG. In “Keyword”, enter a character string or the like that you want to include in the value of any component in the XML document that you want to search. In “Tag Name”, enter the component name that you want to include in the XML document. input. The search condition may be input in only one of the “keyword” and “tag name” fields. In addition, as shown in FIG. 9, a plurality of character strings may be input in one column.
When a pull-down menu T1 “tag name list” shown in FIG. 9 is clicked, a list of components having a high degree of commonness is displayed, which may be used as a reference for inputting search conditions.
[0032]
For example, as shown in FIG. 9, the user thinks “I want to get some useful information about a low-priced personal computer.” Is entered as a search request 301 in the “tag name” field.
Then, the search condition input unit 12 sends to the request control unit 2 instruction data 302 composed of the query and the character string input in the “keyword” field and “tag name” field of the search request input unit 12.
The request receiving unit 21 of the request control unit 2 sends the instruction data 302 to the search request processing unit 6.
The search result extraction unit 61 extracts an XML document that matches the instruction data 302 from the document storage unit 5 while referring to the similar component dictionary storage unit 8, and matches the above condition of the instruction data from the XML document. A set of matching parts and names of components including the matching parts are extracted (303 in FIG. 8). Then, the element name list extraction unit 62 extracts the name list of the constituent elements in the extracted XML document for each XML document (304 in FIG. 8).
[0033]
The search results and the component name list data extracted in this way are collected as one search result list data 305 for each XML document in the result processing unit of the request control unit 22. It is transmitted to the result processing unit 22 of the request control unit 2.
The search result list data 305 is created, for example, for each XML document as a search result with data configured as shown in FIG. This data includes the following three items.
(1) The root component of the retrieved XML document (the outermost component in the document, in FIG. <Product information>)
(2) In the search condition input unit 12, a matching part (character string) that matches the character string given in the “keyword” field and “tag name” field as a search condition, and a component name that includes the matching part. In FIG. 10, the components <Type><Features><Price> and the value in it correspond to this. As shown in FIG. 10, the value of each component includes “personal computer” and “low price” inputted as keywords, and “00 yen” similar thereto.
(3) A component name that has a low degree of commonality. In FIG. 10, the components <Profit Information> corresponds to this.
[0034]
The result list display unit 13 displays, for example, a search result screen as shown in FIG. 11 based on the search result list data 305 (search result list display 306 in FIG. 8). In FIG. 11, only three documents are displayed among a plurality of XML documents as search results. If another search result is to be displayed, the previous or next three search results can be displayed by clicking the “previous” and “next” icons.
[0035]
When the user sees the search result screen as shown in FIG. 11 and finds an XML document for which details are desired, the user clicks the name of the component of the root of the XML document with the mouse (the document in FIG. 8). Acquisition request 307). As a result, the instruction data 307 including the ID of the designated component of the XML document is transmitted to the request control unit 2. The request control unit 2 executes a document acquisition process 309 and returns the acquired document data 310 to the GUI unit 1. Based on the document data 310, the GUI unit 1 can execute the detailed result display 311 and display the detailed contents of the document as shown in FIG. If there is a part to be viewed in more detail in the displayed detailed contents, the display position movement request 312 can be transmitted to the request control unit 2 by clicking on the part with the mouse. Further, when it is desired to view another partial document, a detailed result display update request 313 can be transmitted. By these operations, it is possible to switch to the display centering on the position including the selected portion, and to immediately see the information on the individual components.
[0036]
In addition, when the user looks at the search result screen shown in FIG. 11 and desires a re-search, the user can input a re-search request 315 and execute the re-search. At this time, on the menu selection screen (not shown) displayed by right-clicking the component shown in FIG. 11 (for example, “discount information” displayed in the “tag name list” of the search result 1) with a mouse. By designating “re-search”, it can be included in a part of the search condition inputted earlier. In this embodiment, in addition to “personal computer”, “low price”, and “price” shown in FIG. 9, for example, “profit information” can be added to the search condition to perform another search. This makes it possible to perform a condition search based on a component that includes information that tends to be buried (information related to a component having a low degree of commonality). The re-search request 315 is converted into instruction data 316. Upon receiving the instruction data 316, the request control unit 2 executes a search result extraction process 317 based on the instruction data 316 and an element name list extraction process 318 that extracts a list of component element names from the search result. The search result list 319 is transmitted to the GUI unit 1 in the same manner as 305, and the search result list display process 320 is executed in the GUI unit 1 based on this.
[0037]
Next, the details of the element name list extraction process 304 (FIG. 8) in the element name list extraction unit 62 will be described using the flowchart shown in FIG.
First, name data of peripheral components is obtained by tracing the children, parents, and siblings of the components in the XML document extracted by the search result extraction 303 (FIG. 8) (step 401). In the element name list extraction unit 62, the acquired name data is prepared for the number of XML documents obtained as a search result and stored in a memory area that has been initialized in advance.
In the subsequent step 402, it is checked whether or not the commonality of each component is smaller than the threshold value X for the component extracted by the search result extraction 303 in FIG. 8 and the peripheral component acquired in step 401. Specifically, using the data “count” of the element occurrence information storage unit 7 corresponding to the name of each component, it is checked whether the value (commonness) of (count / number of documents) is less than or equal to a certain threshold value X, In the case of YES, the component name is stored in the memory area of the element name list extraction unit 62. In the case of NO, the component name is not stored in the memory area, and the process returns to step 402 to shift to the procedure for checking the commonality of another component. The procedure of steps 402 and 403 is repeated for all components.
[0038]
From the above list of results, not only the part containing the value and element name entered by the user, but also the element name with low commonality around that part is displayed, so acquisition of components that are likely to be buried Becomes easy.
[0039]
Although the embodiments of the invention have been described above, the present invention is not limited thereto, and various changes, substitutions, additions, and the like are possible without departing from the spirit of the present invention.
[0040]
【The invention's effect】
As described above, according to the present invention, in the search result list for the structured database in which a large number of structured documents having different document structures are stored, the data amount of the partial document representing the outline of the structured document is reduced. It is possible to easily grasp the component name that is a clue to the search while keeping it to a minimum.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an overall configuration of a structured document search system according to an embodiment of the present invention.
FIG. 2 shows the contents of an XML document stored in the document storage unit 5 shown in FIG. 1 and stored hierarchically in a tree structure.
FIG. 3 shows an example of an XML document stored in the document storage unit 5.
FIG. 4 shows an example of an XML document stored in the document storage unit 5;
FIG. 5 shows an example of an XML document stored in the document storage unit 5;
6 shows an example of element name occurrence information stored in an element name occurrence information storage unit 7 shown in FIG.
FIG. 7 is a flowchart showing a procedure for updating element name occurrence information.
FIG. 8 is a conceptual diagram illustrating a search processing operation of the structured document search system shown in FIG.
9 shows an example of a search condition input screen of the search condition input unit 12. FIG.
10 shows an example of the data structure of search result list data 305. FIG.
FIG. 11 shows an example of a search result screen.
FIG. 12 shows an example of a detail display screen.
FIG. 13 is a flowchart for explaining element name list extraction processing in an element name list extraction unit 62;
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... GUI part, 2 ... Request control part, 3 ... Access request process part, 4 ... Data access part, 5 ... Document storage part, 6 ... Search request process part, 7 ... Element name occurrence information storage part, 8 ... Similar structure Element dictionary storage unit 11 ... Registration unit 12 Search condition input unit 13 Result list display unit 14 Detail display unit 21 Request acceptance unit 22 Result processing unit 41 Document object tree storage unit 42 ... Document object tree deletion unit, 43 ... Document object tree acquisition unit, 44 ... Document character string acquisition unit, 61 ... Search result extraction unit, 62 ... Element name list extraction unit

Claims (2)

異なる文書構造の複数の構造化文書を格納した構造化文書データベースに対しユーザ端末側から検索要求を送信して検索を行う、コンピュータによる構造化文書検索方法において、
前記構造化文書の構成要素の名前および前記構成要素の値を検索条件に含む検索要求に、前記構成要素の名前の類似関係を定義した類似構成要素辞書を用いて、前記構成要素の名前と類似の前記構成要素の名前を検索条件として更に加え、当該加えた検索要求に該当する前記構造化文書を前記構造化文書データベースの中から検索する検索ステップと、
前記検索ステップで検索された前記構造化文書から、前記検索条件に一致する一致部分を抽出すると共に前記構造化文書に含まれる構成要素のうち前記一致部分を含む構成要素及び一番外側の構成要素を少なくとも含むその周辺に位置する構成要素を抽出する抽出ステップと、
前記検索ステップで検索された前記構造化文書を、前記抽出ステップで抽出された前記一致部分、前記一致部分を含む構成要素、及び、前記一番外側の構成要素を少なくとも含むその周辺に位置する構成要素の名前により表示する際に、前記構成要素が前記複数の構造化文書中に共通して存在する度合を示す要素名生起情報を用いて、前記度合が低い構成要素名を優先的に検索結果として表示する表示ステップと、
を備えたことを特徴とする構造化文書検索方法。
In a structured document search method by a computer that performs a search by transmitting a search request from a user terminal side to a structured document database storing a plurality of structured documents having different document structures,
Similar to the name of the component by using a similar component dictionary that defines the similarity of the component name in a search request that includes the component name of the structured document and the value of the component in a search condition A search step of further adding the name of the component as a search condition, and searching the structured document database for the structured document corresponding to the added search request ;
A component that matches the search condition is extracted from the structured document searched in the search step, and the component and the outermost component that include the matching portion among the components included in the structured document An extraction step for extracting a component located in the vicinity thereof including at least
A configuration in which the structured document searched in the search step is positioned in the vicinity including at least the matching part , the component including the matching part, and the outermost component extracted in the extraction step. when displaying the name of the element, the component with the element name occurrence information indicating the degree to commonly present in said plurality of structured document, preferentially results the degree lower component name Display step to display as ,
A structured document search method characterized by comprising:
異なる文書構造の複数の構造化文書を格納した構造化文書データベースに対し検索要求を送信して検索を行う構造化文書検索システムにおいて、
前記構造化文書の構成要素の名前および前記構成要素の値を検索条件に含む検索要求を入力する検索要求入力部と、
この入力された検索要求に、前記構成要素の名前の類似関係を定義した類似構成要素辞書を用いて、前記構成要素の名前と類似の前記構成要素の名前を検索条件として更に加え、当該加えた検索要求に該当する前記構造化文書を前記構造化文書データベースの中から検索する検索部と、
前記検索部で検索された前記構造化文書から、前記検索条件に一致する一致部分を抽出すると共に前記構造化文書に含まれる構成要素のうち前記一致部分を含む構成要素及び一番外側の構成要素を少なくとも含むその周辺に位置する構成要素を抽出する抽出部と、
前記検索部で検索された前記構造化文書を、前記抽出部で抽出された前記一致部分、並びに、前記一致部分を含む構成要素、及び、前記一番外側の構成要素を少なくとも含むその周辺に位置する構成要素の名前により表示する際に、前記構成要素が前記複数の構造化文書中に共通して存在する度合を示す要素名生起情報を用いて、前記度合が低い構成要素名を優先的に検索結果として表示する表示部と、
を備えたことを特徴とする構造化文書検索システム。
In a structured document search system for performing a search by sending a search request to a structured document database storing a plurality of structured documents having different document structures,
A search request input unit for inputting a search request including a name of a component of the structured document and a value of the component in a search condition;
To this input search request, using the similar component dictionary defining the similar relationship between the component names, the component name similar to the component name is further added as a search condition, and the added A search unit for searching the structured document database corresponding to the search request from the structured document database;
A component that matches the search condition is extracted from the structured document searched by the search unit, and the component including the matching portion and the outermost component among the components included in the structured document An extraction unit for extracting a component located in the vicinity thereof including at least
The structured document searched by the search unit is positioned around the matching portion extracted by the extraction unit, the component including the matching portion, and the periphery including at least the outermost component. When displaying by the name of the constituent element to be used, the element name occurrence information indicating the degree to which the constituent element exists in common in the plurality of structured documents is used, and the constituent element name having the low degree is preferentially used. A display to display as a search result ;
A structured document retrieval system characterized by comprising:
JP2002287324A 2002-09-30 2002-09-30 Structured document search method and structured document search system Expired - Fee Related JP3999093B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002287324A JP3999093B2 (en) 2002-09-30 2002-09-30 Structured document search method and structured document search system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002287324A JP3999093B2 (en) 2002-09-30 2002-09-30 Structured document search method and structured document search system

Publications (2)

Publication Number Publication Date
JP2004126770A JP2004126770A (en) 2004-04-22
JP3999093B2 true JP3999093B2 (en) 2007-10-31

Family

ID=32280165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002287324A Expired - Fee Related JP3999093B2 (en) 2002-09-30 2002-09-30 Structured document search method and structured document search system

Country Status (1)

Country Link
JP (1) JP3999093B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4801555B2 (en) * 2006-09-29 2011-10-26 株式会社ジャストシステム Document processing apparatus, document processing method, and document processing program
US7836396B2 (en) 2007-01-05 2010-11-16 International Business Machines Corporation Automatically collecting and compressing style attributes within a web document
JP5103051B2 (en) * 2007-04-17 2012-12-19 株式会社日立製作所 Information processing system and information processing method
JP2008287607A (en) * 2007-05-18 2008-11-27 Toshiba Corp Information processor and program
JP5417471B2 (en) * 2012-03-14 2014-02-12 株式会社東芝 Structured document management apparatus and structured document search method
KR102099881B1 (en) 2013-09-03 2020-05-15 삼성전자 주식회사 Semiconductor device and method of fabricating the same
KR102251811B1 (en) 2015-01-02 2021-05-13 삼성전자주식회사 Data storage device having internal hardware filter, and data processing system having the data storage device

Also Published As

Publication number Publication date
JP2004126770A (en) 2004-04-22

Similar Documents

Publication Publication Date Title
US6604099B1 (en) Majority schema in semi-structured data
JP6376569B2 (en) Search method and search system
US7370061B2 (en) Method for querying XML documents using a weighted navigational index
JP3842573B2 (en) Structured document search method, structured document management apparatus and program
AU2004237062B2 (en) Retaining hierarchical information in mapping between XML documents and relational data
US7299221B2 (en) Progressive relaxation of search criteria
US7428705B2 (en) Web map tool
US7555480B2 (en) Comparatively crawling web page data records relative to a template
US7548912B2 (en) Simplified search interface for querying a relational database
US20070078889A1 (en) Method and system for automated knowledge extraction and organization
US20140222808A1 (en) Methods and apparatus for facilitating delivery of a service associated with a product
US20050060306A1 (en) Apparatus, method, and program for retrieving structured documents
US20100228738A1 (en) Adaptive document sampling for information extraction
JP2001117948A (en) Application program interface document interface for internet base
JP2003016089A (en) Information retrieval system and server
WO2007105759A1 (en) Mathematical expression structured language object search system and search method
JP3999093B2 (en) Structured document search method and structured document search system
JP3786233B2 (en) Information search method and information search system
JPH09153060A (en) Method and device for information retrieval
KR19990055219A (en) HTML (TM) document storage and retrieval system
JP2006031377A (en) Structured document management apparatus, retrieval apparatus, storage method, retrieval method, and program
KR20050066790A (en) Apparatus and method for searching and browsing of multimedia contents
JPH09218880A (en) Document data retrieval system
JP2005011175A (en) Link information delivery system and link information delivery method
US20240354318A1 (en) System and method for searching tree based organizational hierarchies, including topic hierarchies, and generating and presenting search interfaces for same

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061024

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070808

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees