JP2013186766A

JP2013186766A - 情報検索方法、プログラムおよび情報検索装置

Info

Publication number: JP2013186766A
Application number: JP2012052465A
Authority: JP
Inventors: Seiji Okura; 清司大倉; Akira Shioda; 明潮田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-03-09
Filing date: 2012-03-09
Publication date: 2013-09-19
Anticipated expiration: 2032-03-09
Also published as: JP5915274B2

Abstract

【課題】情報検索方法は、検索しようとするユーザが意図した文を抽出することを課題とする。
【解決手段】自然言語文の検索クエリーを受け付け、その自然言語文を意味解析し、意味解析結果から、検索キーとなる意味最小単位を特定する。意味最小単位は、２つの単語間の意味関係あるいは単語の役割を含む。予め検索対象文に含まれる意味最小単位が格納されている検索用インデックスから、検索キーと一致する意味最小単位を含む検索対象文を検索し、意味最小単位の評価値から文の評価値と文書の評価値を算出し、評価値によりランキングされた検索結果を出力する。
【選択図】図１

Description

本技術は、テキスト文書の検索技術に関する。

よく知られたキーワードによる検索では、キーワード単位のクエリーを用いるため、キーワード間の関係を検索条件に含めることができない。例えば、ユーザが「熱の放出を低減することにより、環境負荷を減らす技術」を検索したい場合に、キーワード「熱の放出、環境負荷、低減」を入力する。しかし、このキーワードのクエリーには、あいまい性が含まれている。この場合、「熱の放出を低減する」と「環境負荷を低減する」の両方の意味を含み、一方の意味に限定していない。また、熱の放出と環境負荷との関係も特定していない。

このようにクエリーにあいまい性が含まれているキーワード検索には、以下の問題がある。
（１）ユーザが意図した通りに検索されない。
（２）キーワードを含んでいても意図しない文書が検索される。

特に、（２）の問題は、抽出された文書中から、ユーザが意図した部分を見つけ出す手間が煩雑であるという欠点を含んでいる。例えば、３つのキーワードで検索してすべてのキーワードを含む文が検出された場合でも、その文は意図しない関係を含んでいるかもしれない。つまり、キーワードにヒットした部分を出力しても、必ずしもユーザが欲しい情報ではないことがある。従って、有用な文を抽出する判断に、ユーザは時間を費やすことになる。

特開平０５−１９７７５８号公報

田中穗積、辻井潤一共編『自然言語理解』（オーム社、1988年） Steven Bird, Ewan Klein, Edward Loper著萩原正人、中山敬広、水貴明訳『入門自然言語処理』 O'Reilly Japan, 2010. ＷＥＢサイト『Pythonによる日本語自然言語処理』（http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html）

本技術の目的は、一側面では、検索しようとするユーザが意図した文を抽出することである。

本技術の一側面に係る情報検索方法は、（Ａ）２つの単語及び当該単語間の意味関係の各要素又は１つの単語と当該１つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定し、（Ｂ）検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部から、検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定し、特定した検索対象文についての検索結果を出力する処理を含む。

ユーザが意図した文を抽出できるようになる。

図１は、情報検索装置のモジュール構成の例を示す図である。図２Ａは、有効グラフの例を示す図である。図２Ｂは、意味最小単位の例を示す図である。図３Ａは、原文の位置の例を示す図である。図３Ｂは、検索インデックスの例を示す図である。図４は、検索対象文書の準備処理のフローの例を示す図である。図５は、検索対象文書の例を示す図である。図６は、検索対象文書の例を示す図である。図７は、検索対象文書の例を示す図である。図８は、検索対象文書の例を示す図である。図９は、評価値テーブルの例を示す図である。図１０Ａは、検索処理のフローの例を示す図である。図１０Ｂは、検索処理のフローの例を示す図である。図１１は、クエリーと意味最小単位の例を示す図である。図１２は、コンピュータの機能ブロック図である。

図１は、情報検索装置のモジュール構成の例を示す。情報検索装置は、検索対象文書データベース１１と検索用インデックス１３と評価値テーブル１５と入力部３１と意味解析部３３と意味最小単位生成部３５と検索部３７と評価値計算部３９とランキング部４１と出力部４３とを有する。入力部３１は、ユーザの操作により自然言語文の検索クエリーを受け付ける。意味解析部３３は、入力部３１により受け付けられた検索クエリーの意味解析を実施する。この処理は、自然言語文を解析し、その中の概念（単語の意味）間の関係を有向グラフで表現する。意味最小単位生成部３５は、意味解析部３３により出力された有向グラフから、意味最小単位を生成する。意味最小単位については、後述する。

検索用インデックス１３は、検索対象文書に含まれる各文の意味最小単位を格納しているデータベースである。予め行う準備処理では、複数の検索対象文書に対して意味解析を行い、それらの文書中の各文について意味最小単位を生成し、検索用インデックス１３を生成する。また、準備処理では、検索用インデックス１３に含まれる各意味最小単位の文書頻度を計算する。文書頻度は、その意味最小単位が出現する検索対象文書の数である。準備処理は、更にこれらの文書頻度を用いて各意味最小単位のidf値を計算する。意味最小単位毎のidf値は、評価値テーブル１５に格納される。

各意味最小単位のidf値は、log(総文書数/その意味最小単位を含む文書数)である。意味最小単位を含む検索対象文書の数がより少ない場合に、そのidf値はより大きい。idf値は、意味最小単位の評価値の一例である。意味最小単位の評価値は、他の値でもよい。その評価値は、意味最小単位の有用性を示すことが望ましい。

検索部３７は、検索クエリーから生成された意味最小単位を条件として、検索用インデックス１３を検索する。例えば、複数の意味最小単位はＯＲ条件で用いられる。マッチした意味最小単位に対応する文書が、検索用インデックス１３から選び出される。評価値計算部３９は、評価値テーブル１５と検索用インデックス１３を参照し、マッチした意味最小単位に基づいて抽出した各文を含む文書の評価値を計算する。ランキング部４１は、抽出した各文書をランク付けする。つまり、ランキング部４１は、評価値計算部３９により計算された文書の評価値をソートキーとしてソートする。出力部４３は、ランク付けされた結果を出力する。出力の形態は、例えば表示、印刷、又は送信である。抽出された文書は、有用な順に並べられ、ユーザに提示される。例えば、抽出された文が表示される。

次に、有向グラフと意味最小単位について説明する。意味最小単位は、意味解析の結果として得られる有向グラフの部分構造を表す。有向グラフは、ノードとアークとを含む。図２Ａは、有効グラフの例を示し、図２Ｂは、意味最小単位の例を示す。原文は、「太郎は花子に本をあげた。」である。図中の有向グラフは、この原文対して意味解析を行った結果である。

有向グラフについては、以下の文献などが参考になる。
・田中穗積、辻井潤一共編『自然言語理解』（オーム社、1988年）
・Steven Bird, Ewan Klein, Edward Loper著萩原正人、中山敬広、水貴明訳『入門自然言語処理』 O'Reilly Japan, 2010.
・ＷＥＢサイト『Pythonによる日本語自然言語処理』（http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html）

ノードは、入力文中の単語の概念（意味）を表す。「あげる」、「本」、「太郎」、及び「花子」は、ノードの例である。それぞれのノードには、その概念を表す記号（概念記号という。）が付加される。「GIVE」、「BOOK」、「TARO」、及び「HANAKO」は、概念記号の例である。

アークは、ノード間の関係又はノードの役割を表す。アークが２つのノード間にある場合には、そのアークは２つのノード間の関係を表す。例えば、図中「GIVE」ノードから「BOOK」ノードに引かれているアークは、「対象」と名付けられている。この表示は、「BOOK」は「GIVE」の対象であることを意味している。一方、終点のノードがないアークは、起点のノードが有する役割を表す。例えば、図中起点のノードが「GIVE」であり、かつ終点がノードのないアークの一方は、「過去」と名付けられている。「GIVE」は、過去の役割であることを意味している。

意味最小単位の生成では、有向グラフからアークを抽出し、以下のように処理する。
（１）アークが２つのノードをつないでいる場合には、意味最小単位として、それぞれのアークに対して、（アークが出る始点ノード、アークが向かう終点ノード、アークの名前）を出力する。
（２）アークが出る起点ノードがない場合には、意味最小単位として、（「NIL」、アークが向かう終点ノード、アークの名前）を出力する。
（３）アークが向かう終点ノードがない場合には、意味最小単位として、（アークが出る起点ノード,"NIL",アークの名前）を出力する。

このように、意味最小単位は、文中の２つの概念間の関係または概念の役割を表すものである。これを検索キーにしてデータベースを検索することにより、自然言語文に込められた検索者の意図を反映した検索が可能となる。

意味最小単位は、有向グラフの部分構造に基づくので、意味最小単位のマッチングによる検索は、有向グラフのマッチングによる検索に比べて、より柔軟である。また、検索対象文書に含まれる意味最小単位のidf値を予め準備し、マッチした意味最小単位のidf値を特定し、そのidf値を用いて、マッチした意味最小単位についての文を含む文書の評価値を計算することができる。文書の評価値は、ランク付けに役立つ。

以下、処理フローの例について説明する。この処理の特徴は、クエリー及び各検索対象文書に含まれる各文に関して意味解析を行い、それぞれの意味最小単位を得て、意味最小単位を検索キーとして検索することである。更に、意味最小単位のidf値を使って、抽出された文書の評価値を計算してランキングを行うことである。

この実施例では、自然言語文のクエリーを受け付け、自然言語文から自動的に意味最小単位を生成する。但し、意味最小単位のクエリーを受け付けることにより、意味最小単位を特定することもできる。

この実施例では、「翻訳家によって修正された単語を辞書に登録する手段をもつ。」というクエリー文で、特許データベースを検索する場合を想定している。この例の目的は、クエリー文と深い関係を持つ特許明細書を検索することである。

検索段階の前に、予め検索用インデックス１３のデータベースを生成する。図３Ａは、原文の位置の例を示し、図３Ｂは、検索インデックスの例を示す。検索インデックス１３は、意味最小単位毎に、意味最小単位の内容と、元文書の文書ＩＤと、元文の文ＩＤと、始点ノードの位置と、始点ノードの文字列長と、終点ノードの位置と、終点ノードの文字列長を対応付けるレコードを記憶している。始点ノードの位置は、当該ノードに相当する文字列の文中開始位置である。終点ノードの位置も同様である。

図４は、検索対象文書の準備処理のフローの例を示す図である。この処理は、図示しない準備部により実行される。準備部は、検索対象文書データベース１１に含まれる各検索対象文書について（Ｓ１０１）、文書を複数の文に分割する（Ｓ１０３）。準備部は、各文について（Ｓ１０５）、意味解析を行い、意味最小単位を生成し、新たなレコードを検索用インデックスに追加する（Ｓ１０７）。

図５乃至図８は、検索対象文書の例を示す図である。図５は、検索対象文書Ａに含まれる文ｍ「本発明による機械翻訳システムは，翻訳家が修正した単語あるいは修正または作成した翻訳文をそれぞれ前記辞書および例文データベースに登録する登録手段を持つ。」の例を示している。更に、図５は、文ｍの意味解析により生成された意味最小単位の例を示している。図中の意味最小単位が表す意味は、参考である。生成された意味最小単位は、元の文書Ａと文ｍと関連付けて記憶される。この関連付けの情報は、例えば評価値の計算に使われる。図６は、同様に検索対象文書Ｂに含まれる文ｎと、その意味最小単位と意味最小単位が表す意味を示している。図７は、同様に検索対象文書Ｃに含まれる文ｐと、その意味最小単位と意味最小単位が表す意味を示している。図８は、同様に検索対象文書Ｄに含まれる文ｑと、その意味最小単位と意味最小単位が表す意味を示している。

図４の処理の説明に戻り、準備部は、意味最小単位の生成と検索インデックスの登録をすべて終了すると（Ｓ１０９，Ｓ１１１）、生成されたそれぞれの意味最小単位についてidf値を計算し、評価値テーブル１５に格納する（Ｓ１１３）。図中のｄｆは、文書頻度を示す。図９は、評価値テーブルの例である。意味最小単位とidf値は、対応付けられる。

続いて、文書の検索について説明する。図１０Ａと図１０Ｂは、検索処理のフローの例を示す図である。入力部３１は、自然言語文のクエリーを受け付ける（Ｓ１２１）。例えば、クエリーは、文字入力装置から入力され、あるいはネットワークを介して受信される。複数の文を含むクエリーを受け付けた場合には、クエリーは一文ずつに分割される（Ｓ１２３）。この分割処理は、入力部３１あるいは図示しない分割部により実行される。それぞれの文について（Ｓ１２５）、意味解析部３３が意味解析を行い、意味最小単位生成部３５が意味最小単位を生成する。意味解析部３３は、生成した意味最小単位を検索キーの集合に追加する（Ｓ１２７）。クエリー内の全ての文について、上で述べたＳ１２５及びＳ１２７の処理が繰り返される（Ｓ１２９）。

図１１は、クエリーと意味最小単位の例を示す図である。クエリーの原文「翻訳家によって修正された単語を辞書に登録する手段をもつ。」の例を示している。更に、図１１は、クエリー文の意味解析により生成された意味最小単位の例を示している。図中の意味最小単位が表す意味は、参考である。

意味解析部３３は、一又は複数の意味最小単位を含む検索キーを特定する（Ｓ１３１）。検索部３７は、それぞれの意味最小単位について、以下の処理を行う（Ｓ１３３）。検索部３７は、検索用インデックス１３から一致する意味最小単位を抽出する。意味最小単位のマッチングは、ここでは完全一致か否かで判断される。つまり、意味最小単位に含まれる始点ノードと終点ノードとアークの名前のすべてが同じ場合のみ、一致したと判定する。この例では、図５乃至図８の文ｍ、文ｎ、文ｐ、及び文ｑのいずれもマッチする。そして、意味解析部３３は、一致した意味最小単位に対応する文を識別する情報（文書ＩＤと文ＩＤ）を読み取り、マッチした文についてのデータとして一時的に記憶する（Ｓ１３５）。検索部３７が、検索キー中のすべての意味最小単位について処理すると（Ｓ１３７）、文書の評価の処理に移る。

まず、評価値計算部３９は、全文書の評価値を０に設定する（Ｓ１３９）。そして、評価値計算部３９は、マッチした文毎に、以下の処理を繰り返す（Ｓ１４１）。評価値計算部３９は、その文の評価値を算出する（Ｓ１４３）。そして、評価値計算部３９は、その文を含む文書の評価値にその文の評価値を足す（Ｓ１４５）。評価値計算部３９がマッチした文のすべてを処理することにより、文書の評価値が得られる（Ｓ１４７）。文書の評価値は、その文書に含まれる文の評価値の総和である。ランキング部４１は、文書の評価値をソートキーとして文書をソートする（Ｓ１４９）。文書が、評価が高い順に並び替えられる。そして、出力部４３は、並び替えられた文書のデータを出力する（Ｓ１４９）。例えば、出力部４３は、文書に含まれるマッチした文を表示する。この場合、文書のランク付けは、間接的に文のランク付けとなる。出力部４３は、文書ＩＤに対応する文書を検索対象文書データベース１１から取得し、マッチした文ＩＤに対応する文を検索対象文書データベース１１から取得する。

抽出された文の評価値をソートキーとして、抽出された文をソートして、ソート順に抽出された文を表示する形態も、有効である。

文の評価値の算出について説明する。文の評価値は、以下の式で表される。

文nの評価値(Sn)＝[クエリーの意味最小単位の集合(K1,K2,…Ki,…)のうち、(文nに出現する Kiのidf値×文ｎにおけるKiの出現回数)の総和]×Mの二乗

ただし、M=文nに同時に出現するKの種類数

Mは、クエリーの全体を網羅していることを評価することに役立つ。また、Mの二乗値を用いることにより、その評価の程度が増す。

文ｎにおけるKiの出現回数は、一つの検索対象文に含まれる意味最小単位のうち、検索キーとして特定された意味最小単位と一致した意味最小単位の数である。また、Mは、一つの検索対象文に含まれる意味最小単位のうちのいずれかと一致し且つ検索キーとして特定された意味最小単位の種類数である。

具体的な評価値算出の処理を説明する。まず、評価値計算部３９は、クエリーの意味最小単位が算出対象の文に出現する場合に、その意味最小単位のidf値を評価値テーブル１５から取得する。評価値計算部３９は、更に検索用インデックス１３からその文ＩＤとその意味最小単位を含むレコード数をカウントして、前述の出現回数を得る。そして、評価値計算部３９は、idf値と出現回数の積を算出する。評価値計算部３９は、出現したすべての意味最小単位で得た積の総和を算出する。そして、評価値計算部３９は、算出対象の文に出現した異なる意味最小単位の数をカウントし、Mを得る。更に、評価値計算部３９は、Mの二乗を求めて、算出した積の総和に乗ずる。このようにして、評価値計算部３９は、文の評価値を算出する。

評価値計算部３９が、積を求める意味最小単位及びMにカウントする意味最小単位を特定の条件で選択してもよい。評価値計算部３９は、例えば、ｉdf値が閾値に満たない場合には、その意味最小単位に関する積は総和に加えないように処理してもよい。同様に、idf値が閾値に満たない意味最小単位については、Mの計数に入れないようにしてもよい。

このように、文の評価値は、その文に出現した意味最小単位（又はその一部）のその文における評価値の総和と、クエリーに対するその文に出現した意味最小単位（又はその一部）の網羅度との積として表される。

文書の評価値は、以下の式で表される。

文書の評価値(D)＝文nの評価値(Sn)の総計

評価値計算部３９は、図１０Ｂに示した通り、文書に含まれる文の評価値を合算することにより文書の評価値を求める。

評価値の算出の例を示す。説明を簡略化するために、全ての意味最小単位のidf値を２．０と仮定する。例えば、文ｍは、６つの意味最小単位にマッチしている。各意味最小単位の文ｍ中の出現回数は、すべて１回である。また、文ｍに出現する意味最小単位の数は６である。従って、文mの評価値は、
(2.0*1+2.0*1+2.0*1+2.0*1+2.0*1+2.0*1) * (6^2) = 432.0
となる。文ｎの評価値は、
(2.0*1+2.0*1) * (2^2) = 16.0
となる。文ｑの評価値は、
(2.0*1+2.0*1+2.0*1) * (3^2) = 54.0
となる。文ｐの評価値は、
(2.0*1) * (2^1) = 4.0
となる。このように、検索クエリーに係る意味最小単位をより多く含む文ほど、Ｍ²が大きくなり、高評価となる。

次に、文書の評価値を計算する。文書Ａの評価値は、文書Ａに含まれる全ての文の評価値の総和である。文書Ａが文iと文mの２文からなると仮定する。文iの評価値が18.0であれば、文書Ａの評価値は18.0+432.0=450.0となる。

文書Ｂ、文書Ｃ、文書Ｄの評価値も同様に算出し、それぞれ106.0, 253.0, 90.0であると仮定する。評価値で文書を降順にランキングする。結果は、以下のようになる。
検索結果１位：文書Ａ（評価値＝450.0）
検索結果２位：文書Ｃ（評価値＝253.0）
検索結果３位：文書Ｂ（評価値＝106.0）
検索結果４位：文書Ｄ（評価値＝90.0）

この例では、表現が違う場合、あるいは単語間に別の表現が含まれる場合でも、同じ意味の情報を含む文書を上位にランキングする。

以下のように、同じ意味を持つ文同士は、表現が違う場合でもマッチする。また、文中の２つの単語が他の単語列によって切り離されていても、本来の意味を失わないので、そのような場合でもマッチングは成功する。

例えば、文mの「翻訳家が修正」の表現が、クエリーの「翻訳家によって修正」の表現にマッチする。意味最小単位は、共に（修正、翻訳家、動作主）である。文mの「単語あるいは修正または…をそれぞれ前記辞書および例文データベースに登録」の表現から導かれる意味最小単位は、 (登録,単語,目的語)である。従って、この場合も、クエリーにマッチする。文qの「単語は辞書３に登録してもよい」の表現から導かれる意味最小単位は、(登録,単語,目的語)である。この場合、「単語」は「登録」の主語ではなく、目的語として解釈される。従って、この場合も、クエリーにマッチする。

例えば、ユーザが文書を選択した場合に、出力部４３は、その文書に含まれる評価値の高い文をハイライト表示してもよい。文ごとの評価値が計算されているため、このような表示も可能である。

本実施例は、例えば、以下の効果を奏する。
１．語の意味と意味の関係を指定して検索できる。
２．抽出された文書をクエリーに関係の深い順にランキングし、出力できる。

尚、文書の評価値の算出方法には、例えば、以下のバリエーションがある。
１．文nの評価値(Sn)の総計：上述の算出方法
２．文書Dに含まれる文を評価値順にソートし、評価値が高いものから上位m件の評価値を総計する。
３．ある値k以上の文の評価値のみを総計する。
４．文番号i〜i+hの評価値ｘをかけあわせたものを総計する（Σ_i(x_i・x_i+1・…・x_i+h)）。
この値は、複数の文による相乗的な価値を評価することに役立つ。
５．上記４．のバリエーションとして、文番号i〜i+hの評価値の平均値のh乗を総計する。
この値は、文書全体の価値の密度を強調して評価することに役立つ。
６．上記４．のバリエーションとして、文番号i〜i+hの評価値に関して、評価値がk以下のものは掛け合わせる対象外とし、i〜i+hの評価値を掛け合わせたものを総計する。
この値は、重要度の低い情報の集積による過大評価を防ぐことに役立つ。

更に、文の評価値の算出方法には、例えば、以下のバリエーションがある。
１．文nの評価値(Sn)＝[クエリーの意味最小単位の集合(K1,K2,…Ki,…)のうち、(文nに出現する Kiのidf値×文nにおけるKiの出現回数)の総和] Ｘ Mの二乗
ただし、M=文nに同時に出現するKの数：上述の算出方法
２．上記１．に関して、意味最小単位の集合の中で、特定の条件（1つまたは複数）にあてはまる意味最小単位は計算の対象外とする。例えば、アークが「中心」である、アークが「過去」である、idf値が閾値以下の意味最小単位である、ＮＩＬを含む、などの条件が考えられる。
３．上記１．の「M=文nに同時に出現する意味最小単位Kの数」に関して、特定の条件（1つまたは複数）にあてはまる意味最小単位は、数にカウントしない。
４．上記１．の「Mの二乗」のバリエーション：Mのべき乗（log(M)）
５．上記１．の「意味最小単位」を「分割した意味最小単位」に置き換え
６．上記１．の「意味最小単位」を「意味最小単位と形態素」に置き換え
７．上記１．の「意味最小単位」を「意味最小単位と分割した意味最小単位」に置き換え
８．上記１．の「意味最小単位」を「意味最小単位と形態素と分割した意味最小単位」に置き換え
９．上記１．の「意味最小単位」を「分割した意味最小単位と形態素」に置き換え
１０．上記２．乃至９．の任意の組み合わせ

上述の「分割した意味最小単位」について説明する。分割した意味最小単位は、意味最小単位（ノード１,ノード２,アーク）を、(ノード１,アーク)及び(アーク,ノード２)のように分割した単位である。ただし、アークがNILのものは、（ノード１,ノード２,アーク）とする。

例えば、意味最小単位(GIVE, BOOK, 対象)の分割した意味最小単位は、(GIVE,対象)および(対象,BOOK)である。また、意味最小単位(GIVE, NIL, 述語)の分割した意味最小単位は、 (GIVE, NIL, 述語)である。

「分割した意味最小単位」による検索は、「意味最小単位」による所定部分の一致検索に相当する。所定部分は、意味最小単位を構成するノード１とノード２とアークの要素のうち、(ノード１,アーク)及び(アーク,ノード２)のように所定の要素の組み合わせを意味する。

情報検索装置の機能は、１台のコンピュータではなく複数台のコンピュータで実現するようにしてもよい。

また、処理フローは一例であって、処理結果が変化しない限り変更してもよい。図１の機能ブロック分けは一例であり、実際のプログラムモジュール構成と一致していない場合もある。

なお、上で述べた情報検索装置は、コンピュータ装置であって、図１２に示すように、メモリ１５０１とＣＰＵ（Central Processing Unit）１５０３とハードディスク・ドライブ（ＨＤＤ：Hard Disk Drive）１５０５と表示装置１５０９に接続される表示制御部１５０７とリムーバブル・ディスク１５１１用のドライブ装置１５１３と入力装置１５１５とネットワークに接続するための通信制御部１５１７とがバス１５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ１５０５に格納されており、ＣＰＵ１５０３により実行される際にはＨＤＤ１５０５からメモリ１５０１に読み出される。ＣＰＵ１５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部１５０７、通信制御部１５１７、ドライブ装置１５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ１５０１に格納されるが、ＨＤＤ１５０５に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク１５１１に格納されて頒布され、ドライブ装置１５１３からＨＤＤ１５０５にインストールされる。インターネットなどのネットワーク及び通信制御部１５１７を経由して、ＨＤＤ１５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ１５０３、メモリ１５０１などのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

以上述べた本技術の実施の形態をまとめると、以下のようになる。

本実施の形態に係る情報検索方法は、（A）２つの単語と当該２つの単語間の意味関係の各要素又は１つの単語と当該１つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第１の特定処理と、（B）検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部から、検索キーの意味最小単位と一致する又は部分一致する意味最小単位を含む検索対象文を特定する第２の特定処理と、（C）特定した検索対象文についての検索結果を出力する出力処理とを含む。このように、キーワード検索では抽出できないようなユーザの意図に沿った検索結果が得られる。すなわち、単語以外の意味要素も、マッチングの対象となる。

また、データ格納部は、意味最小単位に関連付けて検索対象文の識別情報を格納するようにしてもよい。この場合、出力処理は、（ｃ１）特定した検索対象文の当該識別情報に対応する検索対象文を、検索対象文を格納したデータベースから取得するようにしてもよい。このようにすれば、検索用インデックスを小さくし、検索処理負荷を軽減するとともに、確実に抽出した文を出力することができる。

また、第２の特定処理は、（ｂ１）検索キーの意味最小単位に含まれるすべての要素が、検索対象文に含まれる意味最小単位に含まれるすべての要素と同一であるか判定する処理を含むようにしてもよい。このようにすれば、意味最小単位による概念が完全に担保されるので、検索の精度が向上する。

また、第２の特定処理は、（ｂ２）検索キーの意味最小単位に含まれる一部の要素が、検索対象文に含まれる意味最小単位に含まれる一部の要素と同一であるか判定する処理を含むようにしてもよい。このようにすれば、意味最小単位による概念を生かして、類似の範疇の情報を抽出できるようになる。

また、更に、（D）自然言語文の検索クエリーを受け付け、（E）自然言語文を意味解析し、（F）自然言語文の意味解析結果から、検索キーとなる意味最小単位を生成するようにしてもよい。このようにすれば、自然言語文に込められた検索者の意図を反映した検索結果を、効率良く抽出することができる。

また、第１の特定処理で、検索キーとなる意味最小単位が複数特定された場合に、第２の特定処理は、当該複数の意味最小単位のうち少なくともいずれかと一致する意味最小単位を含む検索対象文を抽出する処理を含むようにしてもよい。このようにすれば、すべての意味最小単位が一致する文以外でも、部分的に関連の強い文を柔軟に検索することができる。

また、更に、（G）検索対象文に含まれる意味最小単位の評価値が格納されている評価値格納部から、検索キーの意味最小単位と一致した意味最小単位の評価値を取得し、当該評価値に基づいて特定した検索対象文の評価値を算出するようにしてもよい。このようにすれば、評価の高い意味最小単位を含む文を優先することができる。例えば、希少な情報が抽出されやすい。

また、算出処理は、（ｇ１）一つの検索対象文に含まれる意味最小単位のうち、検索キーとして特定された意味最小単位と一致した意味最小単位の数に基づいて、特定した検索対象文の評価値を算出する処理を含むようにしてもよい。このようにすれば、同一文内で繰り返される意味最小単位に着目した優先付けができる。例えば、特定のテーマに専門化した文が抽出されやすい。

また、算出処理は、（ｇ２）一つの検索対象文に含まれる意味最小単位のうちのいずれかと一致し且つ検索キーとして特定された意味最小単位の種類数に基づいて、特定した検索対象文の評価値を算出する処理を含むようにしてもよい。このようにすれば、クエリー全体としての一致度に着目した優先付けができる。例えば、同じ論調の文章を探すことに役立つ。

また、算出処理では、（ｇ３）以下の式に従って、文の評価値を算出するようにしてもよい。

文の評価値＝[検索キーの意味最小単位（Ｋ１，Ｋ２，・・・Ｋｉ,・・・）のうち、（文に含まれる意味最小単位と一致する又は文に含まれる意味最小単位と一致し且つ所定の条件を満たす意味最小単位Ｋｉの評価値×文における当該意味最小単位Ｋｉの出現回数）の総和］×（文に含まれる意味最小単位と一致する意味最小単位Ｋｉの種類数に応じた値）

このようにすれば、検索対象文書全体に対する意味最小単位の評価と、意味最小単位の文中の出現態様を、総合的に加味した重み付けができる。

また、更に、（I）特定した検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算し、（J）当該検索対象文書の評価値をソートキーとして、特定した検索対象文を含む検索対象文書を順序付けるようにしてもよい。この場合、出力処理は、（ｃ１）当該検索対象文書の順序に従って検索結果を出力する処理を含むようにしてもよい。このようにすれば、抽出された文のみならず、近傍の文も含む文書全体から所望の情報を読み取る場合に、有用性の高い文書を優先することができる。

また、（i１）検索対象文書の評価値は、特定した検索対象文の評価値の総和であるようにしてもよい。このようにすれば、全体としての適合度が高い文書を抽出することができる。

なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）
２つの単語と当該２つの単語間の意味関係の各要素又は１つの単語と当該１つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第１の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第２の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータが実行する情報検索方法。

（付記２）
前記データ格納部は、前記意味最小単位に関連付けて前記検索対象文の識別情報を格納しており、
前記出力処理は、特定した前記検索対象文の当該識別情報に対応する検索対象文を、前記検索対象文を格納したデータベースから取得する
処理を含む付記１記載の情報検索方法。

（付記３）
前記第２の特定処理は、前記検索キーの前記意味最小単位に含まれるすべての要素が、前記検索対象文に含まれる前記意味最小単位に含まれるすべての要素と同一であるか判定する処理を含む
付記１又は２記載の情報検索方法。

（付記４）
前記第２の特定処理は、前記検索キーの前記意味最小単位に含まれる一部の要素が、前記検索対象文に含まれる前記意味最小単位に含まれる一部の要素と同一であるか判定する処理を含む
付記１又は２記載の情報検索方法。

（付記５）
自然言語文の検索クエリーを受け付け、
前記自然言語文を意味解析し、
前記自然言語文の意味解析結果から、前記検索キーとなる前記意味最小単位を生成する
処理を、前記コンピュータが更に実行する付記１乃至４のいずれか１つ記載の情報検索方法。

（付記６）
前記第１の特定処理で、前記検索キーとなる意味最小単位が複数特定された場合に、
前記第２の特定処理は、当該複数の意味最小単位のうち少なくともいずれかと一致する前記意味最小単位を含む前記検索対象文を抽出する処理を含む
付記１乃至５のいずれか１つ記載の情報検索方法。

（付記７）
前記検索対象文に含まれる前記意味最小単位の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて特定した前記検索対象文の評価値を算出する
処理を、前記コンピュータが更に実行する付記１乃至６のいずれか１つ記載の情報検索方法。

（付記８）
前記算出処理は、一つの前記検索対象文に含まれる前記意味最小単位のうち、前記検索キーとして特定された前記意味最小単位と一致した前記意味最小単位の数に基づいて、特定した前記検索対象文の評価値を算出する処理である
付記７記載の情報検索方法。

（付記９）
前記算出処理は、一つの前記検索対象文に含まれる前記意味最小単位のうちのいずれかと一致し且つ前記検索キーとして特定された前記意味最小単位の種類数に基づいて、特定した前記検索対象文の評価値を算出する処理である
付記７記載の情報検索方法。

（付記１０）
前記算出処理は、以下の式に従って、文の評価値を算出する処理である
前記文の評価値＝[前記検索キーの前記意味最小単位（Ｋ１，Ｋ２，・・・Ｋｉ,・・・）のうち、（前記文に含まれる前記意味最小単位と一致する又は前記文に含まれる前記意味最小単位と一致し且つ所定の条件を満たす前記意味最小単位Ｋｉの評価値×前記文における当該意味最小単位Ｋｉの出現回数）の総和］×（前記文に含まれる前記意味最小単位と一致する意味最小単位Ｋｉの種類数に応じた値）
付記７記載の情報検索方法。

（付記１１）
特定した前記検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算し、
当該検索対象文書の評価値をソートキーとして、特定した前記検索対象文を含む検索対象文書を順序付ける
処理を、前記コンピュータが更に実行し、
前記出力処理は、当該検索対象文書の順序に従って検索結果を出力する処理を含む
付記１乃至１０のいずれか１つ記載の情報検索方法。

（付記１２）
前記検索対象文書の評価値は、特定した前記検索対象文の評価値の総和である
付記１１記載の情報検索方法。

（付記１３）
２つの単語と当該２つの単語間の意味関係の各要素又は１つの単語と当該１つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第１の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第２の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータに実行させるためのプログラム。

（付記１４）
２つの単語と当該２つの単語間の意味関係の各要素又は１つの単語と当該１つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第１の特定部と、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第２の特定部と、
特定した前記検索対象文についての検索結果を出力する出力部と、
を有する情報検索装置。

１１検索対象文書データベース
１３検索用インデックス
１５評価値テーブル
３１入力部
３３意味解析部
３５意味最小単位生成部
３７検索部
３９評価値計算部
４１ランキング部
４３出力部
１５０１メモリ
１５０３ＣＰＵ（Central Processing Unit）
１５０５ハードディスク・ドライブ（ＨＤＤ：Hard Disk Drive）
１５０７表示制御部
１５０９表示装置
１５１１リムーバブル・ディスク
１５１３ドライブ装置
１５１５入力装置
１５１７通信制御部
１５１９バス

Claims

２つの単語と当該２つの単語間の意味関係の各要素又は１つの単語と当該１つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第１の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第２の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータが実行する情報検索方法。
前記第２の特定処理は、前記検索キーの前記意味最小単位に含まれるすべての要素が、前記検索対象文に含まれる前記意味最小単位に含まれるすべての要素と同一であるか判定する処理を含む
請求項１記載の情報検索方法。
前記第２の特定処理は、前記検索キーの前記意味最小単位に含まれる一部の要素が、前記検索対象文に含まれる前記意味最小単位に含まれる一部の要素と同一であるか判定する処理を含む
請求項１記載の情報検索方法。
自然言語文の検索クエリーを受け付け、
前記自然言語文を意味解析し、
前記自然言語文の意味解析結果から、前記検索キーとなる前記意味最小単位を生成する
処理を、前記コンピュータが更に実行する請求項１乃至３のいずれか１つ記載の情報検索方法。
前記検索対象文に含まれる前記意味最小単位の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて特定した前記検索対象文の評価値を算出する
処理を、前記コンピュータが更に実行する請求項１乃至４のいずれか１つ記載の情報検索方法。
前記算出処理は、以下の式に従って、文の評価値を算出する処理である
前記文の評価値＝[前記検索キーの前記意味最小単位（Ｋ１，Ｋ２，・・・Ｋｉ,・・・）のうち、（前記文に含まれる前記意味最小単位と一致する又は前記文に含まれる前記意味最小単位と一致し且つ所定の条件を満たす前記意味最小単位Ｋｉの評価値×前記文における当該意味最小単位Ｋｉの出現回数）の総和］×（前記文に含まれる前記意味最小単位と一致する意味最小単位Ｋｉの種類数に応じた値）
請求項５記載の情報検索方法。
特定した前記検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算し、
当該検索対象文書の評価値をソートキーとして、特定した前記検索対象文を含む検索対象文書を順序付ける
処理を、前記コンピュータが更に実行し、
前記出力処理は、当該検索対象文書の順序に従って検索結果を出力する処理を含む
請求項１乃至６のいずれか１つ記載の情報検索方法。
前記検索対象文書の評価値は、特定した前記検索対象文の評価値の総和である
請求項７記載の情報検索方法。
２つの単語と当該２つの単語間の意味関係の各要素又は１つの単語と当該１つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第１の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第２の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータに実行させるためのプログラム。
２つの単語と当該２つの単語間の意味関係の各要素又は１つの単語と当該１つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第１の特定部と、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第２の特定部と、
特定した前記検索対象文についての検索結果を出力する出力部と、
を有する情報検索装置。