JP2008065543A

JP2008065543A - 構造化文書検索装置及び構造化文書検索方法

Info

Publication number: JP2008065543A
Application number: JP2006241765A
Authority: JP
Inventors: Koji Aida; 浩二合田
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2006-09-06
Filing date: 2006-09-06
Publication date: 2008-03-21

Abstract

【課題】複数の文字列を入力するだけで当該文字列間の階層関係を考慮して構造化文書の検索を実行し、適切な検索結果を得ることを可能とする。
【解決手段】語彙階層関係グラフ格納部１３２は、検索対象データ格納部１３１に格納されている検索対象データ（構造化文書）毎に対して、構造化文書の各々に含まれる語彙間の階層関係を示す語彙階層関係グラフを格納する。クエリ作成部１２１は、語彙階層関係グラフ格納部１３２を参照して、検索者２０からの検索条件に含まれる複数の文字列を語彙として含む語彙階層関係グラフによって示される当該複数の文字列間の階層関係に基づいて、語彙間の階層関係に適合する構造化文書を検索するための検索式を作成する。記憶部１３は、クエリ作成部１２１によって作成された検索式に基づいて、当該検索式に合致する検索対象データを検索対象データ格納部１３１から検索する。
【選択図】図１

Description

本発明は、構造化文書を検索する構造化文書検索装置及び構造化文書検索方法に関する。

一般に、論理構造を持つ文書は構造化文書と呼ばれる。構造化文書において、当該文書の論理構造は、当該文書中に記述されたタグによって示される場合がある。このタグを用いて論理構造が表現された構造化文書は、計算機で各種目的に合わせて解釈ないし加工して利用する処理に適している。構造化文書の代表として、ＸＭＬ(Extensible Markup Language)形式で記述されたＸＭＬ文書が知られている。

近年、非常に多くのアプリケーションでＸＭＬが用いられるようになり、様々なデータがＸＭＬ形式で記述されるようになってきている。これにより、ＸＭＬ形式で記述されたＸＭＬ文書を検索する技術が、重要となっている。

ここで、上記したＸＭＬ文書の検索の条件指定では、
１．XPathやXQueryといった問合せ言語による条件指定
２．要素名、属性名とその値の組による条件指定
３．キーワード（文字列）による条件指定
４．自然言語による条件指定
のいずれかの方法が用いられている。

上記の条件指定方法のうち、１及び２に関しては、利用者（ユーザ）が問合せ言語などの専門的知識を有し、または予め検索したいＸＭＬ文書の構造を把握した上で、条件指定を行うため、利用者にとって所望のＸＭＬ文書を検索できる可能性が高い。

ところで、全ての構造化文書に対して、様々な構造条件を指定して検索することができる技術が開示されている（例えば、特許文献１を参照）。また、この技術によれば、構造化文書の論理構造及び文書型を意識した構造化文書の検索が可能となる。

また、検索結果に対するユーザの意志を検索処理や検索結果の表示に適切に反映可能な技術が開示されている（例えば、特許文献２を参照）。

更に、キーワードを利用したＸＭＬ文書検索に関する技術が開示されている（例えば、非特許文献１を参照）。また、非特許文献１には、XPathまたはXQueryに関する技術についても開示されている。

また、検索対象データ及びそのスキーマを解析することによる検索の高速化に関する技術もある。
特開２０００−２５０９３０号公報特開２００５−３１６５７３号公報絹谷弘子、外３名、"キーワードを利用したＸＭＬ文書検索"、情報処理学会論文誌（トランザクション）２００４年６月Ｖｏｌ．４５Ｎｏ．ＳＩＧ０７（ＴＯＤ２２）、ｐ．２５５−２７３

しかしながら、上記した問合せ言語による条件指定及び要素名、属性名とその値の組による条件指定では、XPathまたはXQueryのような問合せ言語の専門的知識や、利用者が予め検索したいＸＭＬ文書の構造を把握した上で条件指定を行う必要がある。よって、そのような知識を持たない利用者は用いることができないため、利便性にかける。

一方、上記したキーワードによる条件指定または自然言語による条件指定では、必要としているデータを特定するための情報（例えば、ＸＭＬ文書の構造）を表すことができない。また、自然言語による条件指定に関しては、自然言語におけるあいまいさが残ってしまう。このため、利用者が必要としているデータ以外にも多量のデータが検索結果として返ってきてしまう。

また、上記したように、検索の高速化などのために検索対象データやそのスキーマを解析する技術はあるが、この技術では、ＸＭＬ文書の階層関係を意識した検索処理を行うことについては考慮されていない。

本発明の目的は、複数のキーワード（文字列）を入力するだけで当該キーワード間の階層関係を考慮して構造化文書の検索を実行し、適切な検索結果を得ることが可能な構造化文書検索装置及び構造化文書検索方法を提供することにある。

本発明の１つの態様によれば、検索対象となる複数の構造化文書が格納されている検索対象データ格納手段に対して、ユーザによって指定される複数の文字列を含む検索条件に応じて検索を実行する構造化文書検索装置が提供される。この構造化文書検索装置は、前記検索対象データ格納手段に格納されている複数の構造化文書の各々に含まれる語彙間の階層関係を示す語彙階層関係グラフを、当該構造化文書毎に格納する語彙階層関係グラフ格納手段と、前記語彙階層関係グラフ格納手段を参照して、前記検索条件に含まれる複数の文字列から構造化文書を検索するための検索式を作成するクエリ作成手段と、前記作成された検索式に合致する検索対象データを前記検索対象データ格納手段から検索する検索手段とを具備する。

本発明によれば、複数のキーワードを入力するだけで当該キーワード間の階層関係を考慮して構造化文書の検索を実行し、適切な検索結果を得ることが可能となる。

以下、図面を参照して、本発明の実施形態について説明する。図１は、本実施形態に係る構造化文書検索装置の構成を示すブロック図である。図１に示す構造化文書検索装置１０は、データ解析部１１、検索実行部１２及び記憶部１３を備える。

データ解析部１１は、管理者３０からの語彙階層関係グラフ作成要求に従って、語彙階層関係グラフを作成する。語彙階層関係グラフは、検索対象となるデータ（以下、検索対象データと称する）に含まれる語彙間の階層関係を示す。なお、この語彙階層関係グラフの詳細については後述する。

データ解析部１１は、データ解析制御部１１１及び語彙階層関係グラフ作成部１１２を含む。データ解析制御部１１１は、記憶部１３から検索対象データを取得し、当該検索対象データを解析する。語彙階層関係グラフ作成部１１２は、データ解析制御部１１１によって解析された結果に基づいて、語彙階層関係グラフを作成する。また、語彙階層関係グラフ作成部１１２は、作成された語彙階層関係グラフを記憶部１３に登録する。

検索実行部１２は、検索者２０からの検索要求に従って、検索処理を実行する。また、検索実行部１２は、検索結果を検索者２０に返す。検索実行部１２は、クエリ作成部１２１及び検索制御部１２２を含む。

クエリ作成部１２１は、検索者２０によって指定される検索条件のリストを作成する。クエリ作成部１２１は、作成されたリストから検索対象データに対する検索式を作成する。または、クエリ作成部１２１は、語彙階層関係グラフ格納部１３２を参照して検索式を作成する。このとき、クエリ作成部１２１は、後述する変換データに基づいて、検索式を作成する。なお、検索者２０によって指定される検索条件は、パス形式で示される。以下、パス形式で示される検索条件を検索条件パス式と称する。この検索条件パス式には、例えば検索者２０によって指定される複数の文字列が含まれる。

検索制御部１２２は、クエリ作成部１２１によって作成された検索式により、記憶部１３に対して検索処理を実行するための制御を行う。また、検索制御部１２２は、記憶部１３から受け取った検索結果を検索者２０に通知する。

記憶部１３は、各種データを格納する。記憶部１３は、検索対象データ格納部１３１、語彙階層関係グラフ格納部１３２及び変換データ格納部１３３を有する。記憶部１３は、検索対象データ格納部１３１、語彙階層関係グラフ格納部１３２または変換データ格納部１３３に対して、適宜各種データの格納または取り出しを行う。

検索対象データ格納部１３１には、構造化文書検索装置１０による検索の対象となる検索対象データ（構造化文書）が格納されている。なお、検索対象データ格納部１３１は、構造化文書検索装置１０とは別の、例えば外部の記憶装置に管理（格納）される構成であっても良い。語彙階層関係グラフ格納部１３２には、データ解析部１１の語彙階層グラフ作成部１１２によって作成された語彙階層グラフが格納（登録）されている。変換データ格納部１３３には、前述した変換データが格納されている。この変換データは、上記した検索条件パス式から検索式を作成（変換）するためのデータである。

次に、図２のフローチャートを参照して、語彙階層関係グラフが作成される際の処理手順について説明する。まず、管理者３０は、例えばデータ解析部１１に対して、語彙階層関係グラフを作成させるための語彙階層関係グラフ作成要求を出す（ステップＳ１）。このとき、例えば作成される語彙階層関係グラフに含まれる語彙を指定する等の条件が、管理者３０によって与えられる構成であっても構わない。この場合、作成される語彙階層関係グラフが、例えば管理者３０によって指定された語彙を必ず保持する構成でも良いし、または当該指定された語彙を優先的に保持する構成でも良い。

データ解析部１１のデータ解析制御部１１１は、管理者３０からの語彙階層関係グラフ作成要求に応じて、記憶部１３に対して解析の対象となるデータ（以下、解析対象データと称する）の取得要求を出力する（ステップＳ２）。

記憶部１３は、データ解析制御部１１１によって出力された取得要求に応じて、検索対象データ格納部１３１に格納されている解析対象データを検索する（ステップＳ３）。記憶部１３は、検索された解析対象データをデータ解析制御部１１１に渡す。これにより、データ解析制御部１１１は、解析対象データを取得する。

なお、データ解析制御部１１１は、検索対象データ格納部１３１に格納されている検索対象データの全てを解析対象データとして取得することを基本とするが、ステップＳ１において、管理者３０によって条件が指定されている場合には、当該条件に合致する検索対象データのみを解析対象データとして取得する構成であっても良い。例えば前回の解析時からの差分、つまり、まだ解析を行っていないデータのみを解析対象とすることも可能である。

データ解析制御部１１１は、取得された解析対象データの解析を行う（ステップＳ４）。語彙階層関係グラフ作成部１１２は、データ解析制御部１１１によって解析された結果を元に、語彙階層関係グラフを作成する（ステップＳ５）。語彙階層関係グラフ作成部１１２は、作成された語彙階層関係グラフを登録するために、語彙階層関係グラフ格納部１３２に登録する（ステップＳ６）。

次に、図３のフローチャートを参照して、検索者２０からの検索要求に応じた検索が実行される際の処理手順について説明する。まず、検索者２０は、検索実行部１２に対して、例えば検索条件パス式を指定して検索要求を出す（ステップＳ１１）。

検索実行部１２のクエリ作成部１２１は、検索者２０からの検索条件パス式に応じて、検索対象データ格納部１３１に対して検索を実行するための検索式を作成する（ステップＳ１２）。すなわち、クエリ作成部１２１は、語彙階層関係グラフ格納部１３２を参照して、検索条件パス式に含まれる複数の文字列を語彙として含む語彙階層関係グラフによって示される当該複数の文字列間の階層関係に基づいて、検索式を作成する。あるいは、クエリ作成部１２１は、語彙階層関係グラフ格納部１３２の文字列間の階層関係及び変換データ格納部１３３に格納されている変換データに基づいて、検索式を作成する。

検索実行部１２の検索制御部１２２は、クエリ作成部１２１によって作成された検索式を指定して、記憶部１３に対して検索要求する（ステップＳ１３）。

記憶部１３は、検索制御部１２２からの検索要求に応じて、検索制御部１２２の制御の下、検索対象データ格納部１３１から当該検索要求に合致する検索対象データを検索する（ステップＳ１４）。記憶部１３は、検索結果を検索制御部１２２に渡す。これにより、検索制御部１２２は、検索式に基づく検索結果データを取得する。

検索制御部１２２は、取得した検索結果データを、検索者２０からの検索要求に対する検索結果として検索者２０に対して返す（ステップＳ１５）。これにより、検索者２０は、検索要求に対する検索結果を取得する（ステップＳ１６）。

なお、検索実行部１２において、記憶部１３からの検索結果を評価し、その評価結果に基づいて、当該検索結果を加工することも可能である。例えば個々の検索結果に対して、指定された検索条件パス式とのマッチングをスコアリングし、その結果に応じてソートまたはクラスタリングなどの処理が実行される構成があっても構わない。

図４は、検索対象データの一具体例を示す図である。図４に示す検索対象データは、例えばＸＭＬ形式で記述された天気予報データ１００である。図４に示す天気予報データ１００は、例えばルート要素名として「天気予報」を有する。また、天気予報データ１００は、例えば要素名として「場所」、「予報」、「天気」、「気温」、「最高」、「最低」及び「降水確率」を有する。

また、天気予報データ１００は、例えば要素名が「場所」である要素に指定されている属性の属性名として「都道府県」及び「地域」を有する。また、要素名が「降水確率」である要素に指定されている属性の属性名として「単位」を有する。

さらに、天気予報データ１００は、例えば属性名が「都道府県」である属性の値である属性値として「東京都」、「神奈川県」及び「埼玉県」を有する。また、例えば属性名が「地域」である属性の値である属性値として「東京地方」、「伊豆諸島北部」、「伊豆諸島南部」、「小笠原諸島」、「東部」、「西部」、「北部」及び「南部」を有する。また、例えば属性名が「単位」である属性の値である属性値として「％」を有する。

ここで、上記した検索対象データに含まれる要素には、単純型と複合型が存在する。単純型は、属性を持たない要素であって、内容にテキスト（文字列）のみを持つ要素である。天気予報データ１００では、例えば要素名が「天気」、「最高」及び「最低」である要素が単純型である。

また、複合型には、単純型内容を持つ複合型と単純型内容を持たない複合型が存在する。単純型内容を持つ複合型は、属性を有する要素であって、内容にテキストのみを持つ要素である。天気予報データ１００では、例えば要素名が「降水確率」である要素が挙げられる。一方、単純型内容を持たない複合型は、内容にテキスト以外のものを持つ複合型である。天気予報データ１００では、例えば要素名が「場所」及び「気温」である要素等が挙げられる。

次に、図５及び図７を参照して、前述した図２のステップＳ４及びＳ５の処理について、詳細に説明する。まず、図５のフローチャートを参照して、上記した解析対象データの階層構造を示す構造グラフを作成する処理手順について説明する。なお、この構造グラフは、語彙階層関係グラフを作成するために用いられる。

データ解析部１１は、構造グラフを初期化する（ステップＳ２１）。この処理により、データ解析部１１は、構造グラフを頂点及び辺を持たないグラフとする。

次に、データ解析部１１のデータ解析制御部１１１は、前述した図２のステップＳ３で検索された解析対象データのルート要素を対象要素として取得する（ステップＳ２２）。なお、ルート要素は、例えば構造化文書（ＸＭＬデータ）の要素を全て包含する要素である。

データ解析制御部１１１は、取得された対象要素の要素名を取得し（ステップＳ２３）、対象要素に属性が指定されているか否かを判定する（ステップＳ２４）。さらに、対象要素に属性が指定されていると判定されると（ステップＳ２４のＹＥＳ）、当該対象要素に指定されている属性の属性名及び属性値を取得する（ステップＳ２５）。取得された属性値に対して形態素解析を実行し、その結果により、属性値に含まれる名詞を抽出する（ステップＳ２６）。

なお、ステップＳ２４において、対象要素に属性が指定されていないと判定されると、上記したステップＳ２５及びＳ２６の処理は実行されない。

次に、データ解析制御部１１１は、対象要素が前述した単純型または単純型内容を持つ複合型であるか否かを判定する（ステップＳ２７）。対象要素が単純型または単純型内容を持つ複合型であると判定された場合（ステップＳ２７のＹＥＳ）、当該対象要素の内容を取得する（ステップＳ２８）。取得された対象要素の内容に対して形態素解析を実行し、その結果により、対象要素の内容に含まれる名詞を抽出する（ステップＳ２９）。

なお、ステップＳ２７において、対象要素が単純型または単純型内容を持つ複合型でないと判定された場合、上記したステップＳ２８及びＳ２９の処理は実行されない。

次に、語彙階層関係グラフ作成部１１２は、取得された要素名、属性名またはステップＳ２６またはＳ２８で抽出された名詞（語彙）に対して、スコアリングを行う（ステップＳ３０）。語彙階層関係グラフ作成部１１２は、例えば評価値を用いてスコアリング処理を実行する。

ここで、評価値の例について具体的に説明する。語彙階層関係グラフ作成部１１２は、以下の例えば第１の評価値から第７の評価値のうち複数の評価値を用いてスコアリング処理を実行する。まず、要素名または属性名の場合の評価値の例について説明する。

第１の評価値は、例えば解析対象データ内における例えば要素名または属性名の出現回数に応じて算出される。例えば出現回数が多いものに対しては、評価値は高くなる。第２の評価値は、出現位置に応じて算出される。この場合、出現位置（階層）が深いものほど、評価値は小さくなる。例えば階層の深さをdepthとすると、評価式１／depthまたは１／（log depth）＋１によって第２の評価値は算出される。なお、階層の深さは、ルート要素を１とする。

また、例えば管理者３０によって条件として指定された語彙が要素名であれば、要素名が当該指定された語彙である要素以下の要素または属性の深さについては、要素名が当該指定された語彙である要素の深さは０として扱い、これに基づいて、上記した第２の評価値が求められる構成であっても良い。

第３の評価値は、子ノード（子要素、属性）に応じて算出される。この場合、子ノード数が多いほど、評価値は大きくなる。例えば子ノード数をcountとすると、評価式count／全ノード数によって第３の評価値は算出される。なお、ノードとは、要素、要素の内容、属性名、属性値を総称したものである。第４の評価値は、要素名であるか属性名であるかに応じて算出される。この場合、例えば要素名または属性名によって、評価値を算出する際に用いる係数を変更する。第５の評価値は、要素名または属性名に関係するテキストの内容に応じて算出される。例えば管理者３０によって条件として指定された語彙が要素の内容または属性値に含まれている場合には、要素の内容に当該指定された語彙を含む要素の要素名、または属性値に当該指定された語彙を含む属性の属性名に対する評価値は大きくなる。

要素名または属性名（に含まれる語彙）の場合、例えば上記した第１から第５の評価値を含む複数の評価値の合計によって、スコアリングされる。

次に、要素の内容または属性値の場合の評価値の例について説明する。第６の評価値は、形態素解析を行った結果、取得された名詞または固有名詞などの出現回数に応じて算出される。例えば出現回数が多いものに対しては、評価値は大きくなる。第７の評価値は、要素の内容または属性値に関係するノード名に応じて算出される。なお、ノード名は、ここでは要素名または属性名を示す。例えば管理者３０によって条件として指定された語彙が要素名または属性名である場合、要素名が当該指定された要素の内容または属性名画当該指定された語彙の属性値の評価値は大きくなる。要素の内容または属性値の場合、例えば上記した第６または第７の評価値を含む複数の評価値の合計によって、スコアリングされる。

次に、語彙階層関係グラフ作成部１１２は、取得された要素名、属性名またはステップＳ２６またはＳ２８で抽出された語彙をラベル（名称）として持ち、それぞれノードタイプを保持する頂点として構造グラフに追加する（ステップＳ３１）。ノードタイプは、要素名、要素の内容、属性名または属性値を示す。

語彙階層関係グラフ作成部１１２は、定義に従って、構造グラフに辺を追加する（ステップＳ３２）。辺は、構造グラフ上の要素名、属性名またはステップＳ２６またはＳ２８で抽出された語彙相互間の階層関係を表す。ここで、上記した定義には、例えば矢印（辺）の向きにより「親要素名から子要素名」、「要素名からその属性名」、「属性名から属性値」、「要素名からのその要素の内容に含まれる文字列」、「親要素の属性名から子要素名」、「親要素の属性値に含まれる文字列から子要素名」等が含まれる。

語彙階層関係グラフ作成部１１２は、解析対象データに基づいて、対象要素が子要素を持つか否かを判定する（ステップＳ３３）。対象要素が子要素を持つと判定された場合（ステップＳ３３のＹＥＳ）、データ解析制御部１１１は、当該子要素を取得し（ステップＳ３４）、そして、取得された子要素を対象要素として、上記したステップＳ２３に戻って処理が繰り返される。

一方、ステップＳ３３において対象要素が子要素を持たないと判定された場合、語彙階層関係グラフ作成部１１２は、ステップＳ３０においてスコアリングされた結果を元に語彙を抽出する（ステップＳ３５）。このとき、語彙階層関係グラフ作成部１１２は、語彙（ここでは、取得された要素名、属性名、またはステップＳ２６またはＳ２８で抽出された語彙）のうち、スコア（評価値の合計）が所定の値以上の語彙を抽出する。なお、この所定の値は、予め設定されていても良いし、処理の度に例えば管理者３０によって設定される構成でも良い。また、語彙階層関係グラフ作成部１１２は、例えば管理者３０によって指定された語数の語彙を評価値の大きい順に抽出する構成でも良い。

語彙階層関係グラフ１１２は、ステップＳ３５において抽出された語彙でもなく、管理者３０によって指定された語彙でもない語彙をラベルとして持つ頂点及びその頂点に隣接する辺を削除する（ステップＳ３６）。ステップＳ３６において削除処理を終えたグラフが、解析対象データの階層構造を示す構造グラフとなる。

図６は、図５のフローチャートに示す処理によって作成された天気予報データ１００の構造グラフ２００の一例を示す図である。なお、この構造グラフ２００は、例えば管理者３０によって条件として、「天気」の語彙が指定されて作成されたものとする。

図６に示すように、構造グラフ２００には、要素名として「場所」、「予報」、「天気」、「気温」及び「降水確率」が示されている。構造グラフ２００には、属性名として「都道府県」が示され、属性値に含まれる文字列として「東京都」、「神奈川県」及び「埼玉県」が示されている。また、構造化グラフ２００には、要素名が「天気」である要素の内容に含まれる文字列として「晴れ」、「くもり」及び「雨」が示されている。なお、図６では、グラフの表記においてＸＭＬ上でのノードタイプによって頂点の表記を変えている。また、構造グラフ２００には、例えば要素名「場所」から要素名「予報」に向かって辺が示される。この辺は、前述したような定義に従って追加されたものである。

なお、図４に示す天気予報データ１００が有する要素名、属性名、属性値または要素の内容のうち、構造がグラフ２００に示されていない語彙については、前述した図５のステップＳ３６において削除されたものとする。削除された語彙は、例えばスコアリングされた結果、所定の値より評価値が小さく、かつ管理者３０によって指定されていない語彙である。

次に、図７のフローチャートを参照して、構造グラフを用いて語彙階層関係グラフを作成する処理手順について説明する。なお、ここで用いられる構造化グラフは、上記した構造化グラフ２００であるものとして説明する。

まず、語彙階層関係グラフ作成部１１２は、作成された構造グラフ２００を参照して、当該構造グラフ２００に示される頂点と同一のラベルを持つ頂点を語彙階層関係グラフに追加する（ステップＳ４１）。このとき、構造グラフ２００に同一のラベルを持つ頂点が複数存在する場合には、当該頂点が重複しないように頂点を追加する。

語彙階層関係グラフ作成部１１２は、構造グラフ２００を参照して、特定の距離以内にある任意の２頂点を取得する（ステップＳ４２）。ここで、構造グラフ２００上の１階層の距離を１とすると、特定の距離は２以上が好ましい。また、この特定の距離は、例えば管理者３０によって事前に指定されても良いし、処理の度に例えば管理者３０によって指定される構成であっても良い。

語彙階層関係グラフ１１２は、取得された任意の２頂点に対応する語彙階層関係グラフ上の２頂点間に、辺を追加する（ステップＳ４３）。ここで、追加される辺は、ラベルを持つ。辺のラベルは、取得された任意の２頂点の構造グラフ２００上でのノードタイプの組を示す。

なお、語彙階層関係グラフ格納部１３２を更新する場合には、語彙階層関係グラフ作成部１１２は、語彙階層関係グラフを初期化してから図７のフローチャートを実行する。

図８は、図７に示す処理によって作成された語彙階層関係グラフの概略図である。図８に示す語彙階層関係グラフ３００は、上記した特定の距離を２として作成された語彙階層関係グラフである。なお、図８は、便宜的に「東京都」をラベルとして持つ頂点（以下、単に「東京都」と称する）を中心とした部分のみを示す。「東京都」以外のラベルを持つ頂点間の辺は、点線で示されており、当該辺のラベルは省略されている。また、「東京都」以外の頂点については、例えば辺等の一部が省略されている。

図６に示す構造グラフ２００の「東京都」から距離が２以内に存在する頂点は、「場所」、「都道府県」、「予報」、「天気」、「気温」及び「降水確率」である。以下、この頂点を特定距離内頂点と称する。

また、図８に示す語彙階層関係グラフ３００では、「東京都」及び特定距離内頂点の各々が辺で結ばれ、辺の各々にはラベルが付されている。例えば「場所」及び「東京都」においては、「場所」から「東京都」に辺が結ばれており、当該辺のラベルは、「要素名、属性値」である。これは、「場所」のノードタイプが要素名であり、「東京都」のノードタイプが属性値であることを示す。なお、図８に示す語彙階層関係グラフ３００では省略されているが、「東京都」以外の頂点についても同様に、特定距離内頂点と辺で結ばれており、その辺の各々にはラベルが付されている。

次に、図９のフローチャートを参照して、図３のステップＳ１２の処理について詳細に説明する。例えば検索者２０は、複数の語彙を含む検索条件パス式（ここでは、例えば「天気／東京都」）を指定して、検索要求を出す（ステップＳ５１）。以下、検索者２０によって指定された検索条件パス式を指定パス式と称する。

検索実行部１２のクエリ作成部１２１は、検索者２０からの指定パス式を展開する（ステップＳ５２）。クエリ作成部１２１は、指定パス式に含まれる語彙（文字列）を並び替えることによって、当該指定パス式を複数の検索条件パス式に展開する。このとき、クエリ作成部１２１は、検索条件パス式に含まれる全ての語彙の順列（並び順）毎に展開する。具体的には、指定パス式が「天気／東京都」であれば、当該検索条件パス式は、「天気／東京都」及び「東京都／天気」に展開される。以下、クエリ作成部１２１によって展開された複数の検索条件パス式の各々を展開パス式と称する。

なお、展開パス式の各々によって示される語彙の順列は、当該順列の語彙の順によって階層関係を示す。例えば展開パス式が「天気／東京都」である場合には、「天気」から「東京都」に階層関係を有する旨を示す。以下、この階層関係を展開パス式の階層関係と称する。

また、上記したステップＳ５２において、検索条件パス式に含まれる全ての語彙の順列毎に展開する場合について説明したが、例えば語彙階層関係グラフ格納部１３２を参照して、上記した展開パス式の階層関係を含む語彙階層関係グラフが存在する展開パス式のみが展開される構成でも良い。これにより、以下のステップにおいて処理される展開パス式の数が少なくなるため、処理量を減少させることが可能となる。

また、指定パス式に含まれる語彙を形態素解析し、その結果により抽出された語彙により当該指定パス式を展開する構成でも良い。この場合、例えば指定パス式が「天気／くもり時々晴れ」である場合、「くもり時々晴れ」を形態素解析し、展開パス式を「天気／くもり／晴れ」「天気／くもり」「天気／晴れ」と展開することが可能となる。

次に、クエリ作成部１２１は、展開パス式の各々に対して、スコアリングを行う（ステップＳ５３）。例えば評価値を用いてスコアリング処理を実行する。また、クエリ作成部１２１は、必要に応じて語彙階層関係グラフ格納部１３２に格納されている語彙階層関係グラフを利用して、評価値を算出する。

ここで、評価値の例について具体的に説明する。クエリ作成部１２１は、以下の例えば第８の評価値から第１０の評価値を含む複数の評価値を用いてスコアリング処理を実行する。

第８の評価値は、指定パス式と展開パス式の各々とを比較して、両者の語彙の順序の違いに応じて算出される。この場合、指定パス式の語彙の順序と比較して、順序が異なる語彙が多く含まれる展開パス式に対しては、評価値は小さくなる。例えばｎ＝指定パス式と順序の異なる語彙の数、Ｎ＝指定パス式または展開パス式に含まれる語彙の数とすると、例えば評価式Ｎ／（log a ｎ）＋Ｎによって第８の評価値は算出される。ただし、評価式Ｎ／（log a ｎ）＋Ｎにおいて、指定パス式と順序の異なる語彙がない場合、つまりｎ＝０の場合には、評価値１が算出されるものとする。なお、評価式において、「a」は底とし、任意に設定可能である。以下の、評価値においても同様である。

第９の評価値は、指定パス式と展開パス式の各々とを比較して、両者の語彙の種類の違いに応じて算出される。この場合、指定パス式に含まれる語彙の種類と異なる種類の語彙が多く含まれる展開パス式に対しては、評価値は小さくなる。ここで、例えば展開パス式に含まれる語彙が、上記した指定パス式に含まれる語彙そのものでなく、形態素解析して抽出された語彙である場合には、語彙の種類が異なるものとして扱われる。例えばｎ＝指定パス式に含まれる語彙の種類と異なる種類の語彙の数、Ｎ＝指定パス式または展開パス式に含まれる語彙の数とすると、例えば評価式Ｎ／（log a ｎ）＋Ｎによって第９の評価値は算出される。ただし、評価式Ｎ／（log a ｎ）＋Ｎにおいて指定パス式に含まれる語彙の種類と異なる種類の語彙がない場合、つまりｎ＝０の場合には、評価値１が算出されるものとする。

第１０の評価値は、展開パス式内で隣接されている語彙間の関係に応じて算出される。この場合、展開パス式の階層関係の各々のうち、例えば親子関係として設定されていない階層関係の数が多い場合には、評価値は小さくなる。例えばＮ＝親子関係として設定されていない階層関係の数とすると、例えば評価式１／（log a Ｎ）＋１によって第１０の評価値は算出される。ただし、評価式１／（log a Ｎ）＋１において、設定されていない階層関係がない場合、つまりＮ＝０の場合には、評価値１が算出されるものとする。なお、第１０の評価値は、例えば語彙階層関係グラフ格納部１３２に格納されている語彙階層関係グラフの各々について上記した評価式で評価値を求め、当該語彙階層関係グラフの各々について求められた評価値を合計することによって求められる。

展開パス式の各々は、例えば上記した第８から第１０の評価値を含む複数の評価値の合計によってスコアリングされる。クエリ作成部１２１は、スコアリングされた結果を元に、スコア（評価値の合計）が上位の展開パス式を選択する（ステップＳ５４）。以下、スコアが上位の展開パス式を選択パス式と称する。

クエリ作成部１２１は、語彙階層関係グラフ格納部１３２を参照して、選択パス式の階層関係を例えば親子関係として含む語彙階層関係グラフを取得する（ステップＳ５５）。なお、クエリ作成部１２１は、例えば選択パス式の階層関係の全てを親子関係として含む語彙階層関係グラフが語彙階層関係グラフ格納部１３２に存在しない場合には、当該選択パス式の階層関係の一部を親子関係として含む語彙階層関係グラフを取得する。例えば選択パス式がＡ／Ｂ／Ｃ（当該展開パス式の階層関係がＡからＢ、ＢからＣ）である場合に、当該階層関係を完全に含む語彙階層関係グラフが語彙階層関係グラフ格納部１３２に存在しない場合を想定すると、クエリ作成部１２１は、例えばＡからＢの階層関係のみを親子関係として含む語彙階層関係グラフ、またはＢからＣの階層関係のみを親子関係として有する語彙階層関係グラフを取得する。

クエリ作成部１２１は、取得された語彙階層関係グラフに基づいて、選択パス式に含まれる語彙の各々のノードタイプを判別する（ステップＳ５６）。クエリ作成部１２１は、選択パス式の階層関係及び判別されたノードタイプに基づいて、当該選択パス式に含まれる語彙（文字列）間の階層関係を有する検索対象データを検索するための検索式、例えばXPath式を作成する。つまり、クエリ作成部１２１は、選択パス式をXPath式に変換する（ステップＳ５７）。または、クエリ作成部１２１は、変換データ格納部１３３に格納されている変換データに基づいてXPath式に変換する。

なお、ステップＳ５５において、クエリ作成部１２１によって複数の語彙階層関係グラフが取得された場合は、取得された語彙階層関係グラフの各々についてステップＳ５６及びＳ５７の処理が実行される。これにより、複数のXPath式が作成（変換）された場合は、当該複数のXPath式を互いにＯＲ（論理和）の関係として、検索対象データ格納部１３１に対して検索処理が実行される。

ここで、図１０は、変換データ格納部１３３に格納されている変換データのデータ構造の一例を示す図である。なお、この変換データは、事前に語彙階層関係グラフにおける各関係に対するXPath式への変換方法として定義されている。図１０に示すように、変換データは、関係情報及び当該情報に対応付けられているXPath式情報を含む。

関係情報は、語彙（文字列）間の階層関係を示す。図１０に示す例では、例えば親子（要素名、要素名）の関係がある。これは、当該語彙のそれぞれのノードタイプが要素名であることを示す。また同様に、親子（要素名、要素の内容）は、親となる語彙のノードタイプが要素名であり、異なる語彙（子）のノードタイプが要素の内容（に含まれる文字列）であることを示す。また例えば兄弟（要素名、要素名、…）の関係は、語彙間の関係が同じ階層、同じノードタイプであることを示している。

また、XPath式情報は、対応付けられている関係を示す情報によって示される語彙間の関係に適合する検索対象データ（構造化文書）を検索するために適当なXPath式を示す。例えば親子（要素名、要素の内容）の関係情報に対応付けられているXPath式情報は、XPath式「//element1[.//element2]」を示す。また同様に、例えば親子（要素名、要素の内容）の関係情報に対応付けられているXPath式情報は、XPath式「//element1[.//text()=”context”]」を示す。なお、上記したXPath式において、element1及びelement2は要素名を示し、contextは要素の内容を示す。また、これ以外にattriは属性名を示し、valueは属性値を示す。

なお、図１０に示す変換データに含まれる関係情報には、２つの語彙の階層関係が定義されているが、これらを複数組み合わせることにより、３つ以上の語彙の階層関係を定義することも可能である。また、これに対応するXPath式を定義することも可能である。これにより、３つ以上の語彙を含む展開パス式をXPath式に変換することも可能である。

図９のステップＳ５７に戻ると、クエリ作成部１２１は、ステップＳ５６において判別されたノードタイプ及び選択パス式の階層関係から、適合する関係情報を特定する。クエリ作成部１２１は、特定された関係情報に対応付けられたXPath式情報に基づいて、XPath式に変換する。

例えば上記したステップＳ５４において選択パス式として「東京都／天気」が選択され、ステップＳ５５において語彙階層関係グラフ３００が取得された場合を説明する。語彙階層関係グラフ３００において、「東京都」は属性値であり、「天気」は要素名である。また、「東京都」から「天気」に辺が結ばれていることから、「東京都」及び「天気」は親子の関係である。よって、クエリ作成部１２１は、例えば図１０に示す変換データに基づいて、親子（属性値、要素名）を示す関係情報に対応するXPath式情報によって示されるXPath式を作成する。つまり、クエリ作成部１２１は、展開パス式「東京都／天気」をXPath式「//*[./@*=”東京都”and.//天気]」に変換する。このXPath式に基づいて、検索対象データ格納部１３１に対して検索処理が実行される。XPath式「//*[./@*=”東京都”and.//天気]」は、「東京都」及び「天気」が親子関係であり、かつ「東京都」のノードタイプが属性値であり、「天気」のノードタイプが要素名であるＸＭＬデータ（構造化文書）を検索するための検索式である。なお、「東京都」及び「天気」は直接親子関係を有する必要はなく、例えば孫またはひ孫の関係であっても検索可能である。

ここでは、変換データはXPath式情報を含み、選択パス式をXPath式に変換する例を示したが、例えばXQueryまたはSQL等の任意のデータソースに対する任意の問い合わせ言語へ変換する構成でも良い。

図１１は、図４の天気予報データ１００に対し、上記したクエリ作成部１２１によって作成されたXPath式「//*[./@*=”東京都”and.//天気]」による検索結果４００を示す。検索結果４００は、属性値「東京都」及びその親子関係（ここでは、孫関係）である要素名「天気」を含むＸＭＬデータとなる。

ところで、例えば選択パス式の階層関係が複数存在する場合において、当該複数の階層関係のうち、語彙階層関係グラフ格納部１３２内の語彙階層関係グラフに設定されていない階層関係（未設定階層関係）が指定された場合を想定する。この場合、未設定階層関係に対する設定（設定レベル）を予め定義しておく構成であっても構わない。予めレベルを設定しておくことにより、所望の検索結果範囲を得ることができる。

図１２は、予め定義された設定レベルの一例を示す。図１２の例では、未設定階層関係を構成する２つの語彙に設定するノードタイプと、未設定階層関係を構成する２つの語彙に設定する階層関係についてレベル１から３が定義されている。なお、レベルの段階は、例えば検索者２０によって適宜設定される。

例えばレベル１では、選択パス式に含まれる未設定階層関係については、無視することが定義されている。例えば選択パス式が、Ａ／Ｂ／Ｃである場合を想定する。この場合、語彙階層関係グラフ格納部１３２に格納されている１つの語彙階層関係グラフにおいて、ＡからＢの階層関係は存在するが、ＢからＣの階層関係が存在しない場合、当該ＢからＣの階層関係は無視し、ＡからＢの階層関係のみからXPath式に変換することを示す。

また、例えばレベル２では、タイプは「要素名」を示し、動作内容は「未設定階層関係を親子関係に設定」を示す。つまり、未設定階層関係を構成する２つの語彙のノードタイプをそれぞれ要素名に設定し、当該２つの語彙の階層関係を親子関係として、選択パス式がXPath式に変換される。

また、例えばレベル３では、タイプは「すべて」を示し、動作内容は「未設定階層関係を親子関係または兄弟関係に設定」を示す。つまり、未設定階層関係を構成する２つの語彙の各々のノードタイプは、要素名、属性名、属性値または要素の内容のそれぞれに設定される。また、設定された全ての組み合わせ毎に、語彙間の階層関係に親子関係または兄弟関係が設定される。設定された全ての組み合わせ及び階層関係に基づいて、選択パス式がXPath式に変換される。

上記したように本実施形態においては、検索対象データ格納部１３１に格納されている検索対象データを解析することによって、語彙階層関係グラフを作成することが可能となる。本実施形態においては、検索者２０から指定された複数の語彙（文字列）を含むパス形式の検索条件を展開し、語彙階層関係グラフ格納部１３２に格納されている語彙階層関係グラフ及び変換データ格納部１３３に格納されている変換データに基づいて、当該検索条件に含まれる語彙間の階層関係に適合する構造化文書を検索するためのXPath式が作成される。この作成されたXPath式に基づいて検索対象データ格納部１３１に対して検索が実行される。これにより、検索者２０は、検索対象となる構造化文書のデータ構造を意識することなく、例えばキーワード（文字列）を指定するような簡便さで、構造化文書の階層関係を考慮した検索を実行することが可能となる。

また、本実施形態においては、構造化文書の階層構造を示す構造グラフ上で、例えば任意の２頂点の特定の距離に基づいて、語彙階層関係グラフが作成される。これにより、この語彙階層関係グラフを用いて検索処理が実行される際、検索対象となる構造化文書上で、検索者２０によって指定された語彙が直接階層関係にない構造化文書であっても考慮して検索することが可能となる。

また、本実施形態においては、予め定義されたレベルを設定しておくことで、未設定階層関係が選択パス式に指定された場合であっても、当該設定されたレベルに応じて、当該未設定階層関係を静的または動的に設定することが可能となる。

なお、上記した本実施形態においては、検索者２０によって検索実行部１２に検索要求が出され、管理者３０によってデータ解析部１１に語彙階層関係グラフ作成要求が出される構成としているが、全ての要求を入力する要求制御部を設ける構成でも構わない。この場合、要求制御部は、入力された要求を解釈し、データ解析部１１または検索実行部１２に処理を自動で振り分けることが可能となる。

また、本実施形態に係る構造化文書検索装置１０は、上記したように検索装置として説明したが、検索対象データを検索対象データ格納部１３１に登録する機能を有する構成であっても良い。また、構造化文書検索装置１０は、検索対象データを更新または削除する機能を含む管理装置として利用される構成であっても構わない。

また、本実施形態において、検索結果に対して例えば検索者２０によって入力された当該検索結果に対する評価を取得する構成であっても構わない。この場合、検索者２０によって入力された評価に基づいて、例えば語彙階層関係グラフを自動的に修正する構成とすると良い。修正された語彙階層関係グラフに基づいて検索処理が実行されることにより、より検索者２０の所望の構造化文書を検索することが可能となる。

同様に、上記した予め定義されたレベルに対して例えば検索者２０によって入力された評価を取得する構成であっても良い。この場合であっても、検索者２０によって入力された評価に基づいて、例えばレベルに対応付けられているタイプまたは動作内容を自動的に変更することも可能である。

なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。

本発明の実施形態に係る構造化文書検索装置１０の構成を示すブロック図。語彙階層関係グラフが作成される際の処理手順を示すフローチャート。検索者２０からの検索要求に応じた検索が実行される際の処理手順を示すフローチャート。検索対象データの具体例を示す図。解析対象データの階層構造を示す構造グラフを作成する処理手順を示すフローチャート。図４に示す天気予報データ１００の階層構造を示す構造グラフ２００の一例を示す図。構造グラフを用いて語彙階層関係グラフを作成する処理手順を示すフローチャート。語彙階層関係グラフ作成部１１２によって作成された語彙階層関係グラフ３００の省略図。検索式を作成する処理手順を示すフローチャート。変換データ格納部１３３に格納されている変換データのデータ構造の一例を示す図。クエリ作成部１２１によって作成されたXPath式による検索結果の一例を示す図。予め定義された設定レベルを示す情報のデータ構造の一例を示す。

符号の説明

１０…構造化文書検索装置、１１…データ解析部、１２…検索実行部、１３…記憶部、１１１…データ解析制御部、１１２…語彙階層関係グラフ作成部、１２１…クエリ作成部、１２２…検索制御部、１３１…検索対象データ格納部、１３２…語彙階層関係グラフ格納部、１３３…変換データ格納部。

Claims

検索対象となる複数の構造化文書が格納されている検索対象データ格納手段に対して、ユーザによって指定される複数の文字列を含む検索条件に応じて検索を実行する構造化文書検索装置において、
前記検索対象データ格納手段に格納されている複数の構造化文書の各々に含まれる語彙間の階層関係を示す語彙階層関係グラフを、当該構造化文書毎に格納する語彙階層関係グラフ格納手段と、
前記語彙階層関係グラフ格納手段を参照して、前記検索条件に含まれる複数の文字列から構造化文書を検索するための検索式を作成するクエリ作成手段と、
前記作成された検索式に合致する検索対象データを前記検索対象データ格納手段から検索する検索手段と
を具備することを特徴とする構造化文書検索装置。
検索対象となる複数の構造化文書が格納されている検索対象データ格納手段に対して、ユーザによって指定される複数の文字列を含む検索条件に応じて検索を実行する構造化文書検索装置において、
前記検索対象データ格納手段に格納されている構造化文書を取得する文書取得手段と、
前記取得された構造化文書を解析した結果に基づいて、前記構造化文書に含まれる語彙を頂点として、当該構造化文書の階層構造を示す構造グラフを作成する構造グラフ作成手段と、
前記作成された構造グラフ上で、特定の距離以内に存在する任意の２頂点及び当該任意の２頂点間の階層関係を表す辺に基づいて、前記文書取得手段によって取得された構造化文書に含まれる語彙間の階層関係を示す語彙階層関係グラフを作成する語彙階層関係グラフ作成手段と、
前記作成された語彙階層関係グラフを格納する語彙階層関係グラフ格納手段と、
前記語彙階層関係グラフ格納手段を参照して、前記検索条件に含まれる複数の文字列から構造化文書を検索するための検索式を作成するクエリ作成手段と、
前記作成された検索式に合致する検索対象データを前記検索対象データ格納手段から検索する検索手段と
を具備することを特徴とする構造化文書検索装置。
文字列間の階層関係を示す関係情報及び当該文字列間の階層関係を有する構造化文書を検索するための検索式を示す検索式情報が予め対応付けて格納されている変換データ格納手段を更に具備し、
前記クエリ作成手段は、
前記検索条件に含まれる文字列を並び替えることによって、当該検索条件を複数の検索条件に展開する展開手段と、
前記展開された複数の検索条件の各々に含まれる複数の文字列の並び順または前記語彙階層関係グラフ格納手段に格納されている語彙階層関係グラフによって示される語彙間の階層関係に基づいて、前記複数の検索条件の各々に対してスコアリングする評価手段と、
前記スコアリングされた結果、スコアが所定の値以上である検索条件に含まれる複数の文字列を語彙として含む語彙階層関係グラフを取得する取得手段と、
前記取得された語彙階層関係グラフによって示される前記複数の文字列間の階層関係を示す関係情報に対応付けて前記変換データ格納手段に格納されている検索式情報によって示される検索式を作成する検索式作成手段とを含む
ことを特徴とする請求項１または２のいずれか１項に記載の構造化文書検索装置。
前記構造グラフ作成手段は、
前記取得された構造化文書を解析した結果に基づいて、前記文書取得手段によって取得された構造化文書に含まれる語彙を取得する語彙取得手段と、
前記取得された語彙に対して、構造化文書内での出現回数、出現箇所または当該構造化文書の階層構造に応じて、スコアリングする評価手段と、
前記スコアリングされた結果、スコアが所定の値以上である語彙を抽出する抽出手段とを含み、
前記取得された構造化文書の前記抽出された語彙から構造グラフを作成する
ことを特徴とする請求項２記載の構造化文書検索装置。
複数の構造化文書の各々に含まれる語彙間の階層関係を示す語彙階層関係グラフを、当該構造化文書毎に格納する語彙階層関係グラフ格納手段を有し、検索対象となる前記複数の構造化文書が格納されている検索対象データ格納手段に対して、ユーザによって指定される複数の文字列を含む検索条件に応じて検索を実行する構造化文書検索方法において、
前記語彙階層関係グラフ格納手段を参照して、前記検索条件に含まれる複数の文字列から構造化文書を検索するための検索式を作成するステップと、
前記作成された検索式に合致する検索対象データを前記検索対象データ格納手段から検索するステップと
を具備することを特徴とする構造化文書検索方法。