JP4774019B2

JP4774019B2 - ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置

Info

Publication number: JP4774019B2
Application number: JP2007150417A
Authority: JP
Inventors: 一生青山; 和巳斉藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-06-06
Filing date: 2007-06-06
Publication date: 2011-09-14
Anticipated expiration: 2027-06-06
Also published as: JP2008305072A

Description

本発明は、ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置に関する。

情報である要素の間の関係が距離、非類似度または類似度により定義される集合を情報空間Ωとする。情報空間Ωの任意の２つの要素ｘ，ｙ∈Ωの距離を距離関数ｄ（ｘ，ｙ）により定義する。情報空間Ωにおける距離関数は、次の式を充足する。
ｄ（ｘ，ｙ）≧０・・・式（１）
ｄ（ｘ，ｙ）＝ｄ（ｙ，ｘ）・・・式（２）
ｄ（ｘ，ｙ）＝０ｉｆｘ＝ｙ・・・式（３）
式（１）を非負数条件、式（２）を対称性条件という。情報空間の部分集合でもある情報探索集合（被探索集合、探索対象集合とも呼ぶ）Ｘ⊂Ωにおいて、当該情報空間の要素であるクエリｑ∈Ωと最も距離の小さい要素の集合Ｒ（ｑ）⊂Ｘは、式（４）により表される。

情報空間のうち要素間の距離が、非負数条件および対称条件に加えて、次の式（５）および式（６）を充足するものを距離空間Ωｄとする。
ｄ（ｘ，ｙ）＝０ｉｆｆｘ＝ｙ・・・式（５）
ｄ（ｘ，ｙ）＋ｄ（ｙ，ｚ）≧ｄ（ｘ，ｙ）・・・式（６）
式（５）を反射条件とよび、式（６）を三角不等式とよぶ。

従来、距離空間の要素（情報）であるクエリに類似する要素を情報探索集合から、入力されたクエリに類似する情報を探索する情報探索方法として、ＴＬＡＥＳＡ（Tree Linear Approximating and Eliminating Search Algorithm）がある（例えば、非特許文献１）。ＴＬＡＥＳＡは、クエリが入力される前の事前処理と、クエリが入力された後の事後処理とを行うことで、情報の探索を行う。事前処理は、情報探索集合（被探索集合）における複数の要素（ベースプロトタイプと呼ぶ）を選択し、それらと他の全て要素との距離を算出する工程と、情報探索集合の全ての要素からなる二分木を構築する工程とからなる。事後処理は、クエリが入力された直後に、当該クエリと、選択されたベースプロトタイプとの距離を算出する工程、距離空間の性質の１つである３つの要素間の距離の大小関係を表す三角不等式と二分木とを利用し、探索空間を削減しながら探索する工程とからなる。ＴＬＡＥＳＡは、三角不等式を有効利用し探索空間を削減し、探索コストを低減している。ここで、探索コストとは、情報探索の効率を評価する際に用いられる値であり、クエリと探索対象集合の要素との類似度計算または距離計算の回数である。

このように、三角不等式を用いて、探索空間を削減する情報探索方法としては、ＴＬＡＥＳＡの他に、ＬＡＥＳＡ（Linear Approximating and Eliminating Search Algorithm：例えば、非特許文献２参照）や、ＡＥＳＡ（Approximating and Eliminating Search Algorithm：例えば、非特許文献３参照）などが提案されている。
「A fast branch & bound nearest neighbour classifier in metric space」,Luisa Mico,Jose Oncina, Rafael C. Carrasco, Pattern Recognition Letters vol.17,p.731-p.739 1996年「A new version of the Nearest-Neighbour Approximating and Eliminating Search Algorithm(AESA) with linear preprocessing time and memory requirements」,Luisa Mico,Jose Oncina, Pattern Recognition Letters vol.15,p.9-p.7 1994年1月「An algorithm for finding nearest neighbours in (approximately) constant average time」,E. Vidal, Pattern Recognition Letters vol.4,p.145-p.157 1986年7月

ところで、例えば、入力された文書に類似の文書を文書ファイル群から探索する場合、すなわち、文書を被探索集合とした場合、文書間の関係性を規定する類似度や、距離を算出する際に用いられる文書から抽出される特徴量が高次元になる場合がある。これは、文書の特徴量として、文書中に出現する異なる単語からなる単語ベクトルを用い、その単語ベクトルの１要素を１次元とするため、情報探索集合（探索対象集合または被探索集合とも呼ぶ）中の全文書ファイルに生じる単語の異なり数だけ次元が生じるためである。

次に、図２２および図２３に沿って、ＴＬＡＥＳＡにおける問題点を説明する。
なお、図２２および図２３における情報探索集合は、１０年分の新聞記事の文書ファイルを要素（情報）とする集合である。
ここで、情報探索集合における要素間の距離は、以下の手順で算出される。まず、各文書ファイル中に記載されている文書を形態素解析し、不要なストップワードを削除した上で、単語を文書（文書ファイル）から抽出する。ここで、ストップワードとは、情報探索において、ありふれた単語であるため検索語としては不適切なため、検索語としては無視される語である。日本語では、ひらがなやカタカナの１文字の語などがストップワードとなる。そして、抽出された単語に対し、ｔｆ−ｉｄｆ（term frequency-inverted document frequency）法で各単語に対し、重み付けを行う。この結果、生じる重み付け単語ベクトルを、該文書ファイルの特徴量とする。その上で、情報探索集合の文書ファイルを要素とし、特徴量に対するコサイン距離を用いて、要素間の距離を規定する。単語ベクトルを特徴量とした場合に用いられるコサイン類似度は、類似または非類似の尺度として広く用いられている。
この例で用いた要素数（文書ファイル数）は、６４５８５個であり、特徴量である重み付け単語ベクトルは、５１０３０次元となった。これは距離空間の次元が５１０３０であるとも言える。

図２２は、この情報探索空間から、無作為に１×１０^６個のペア要素（２つの要素）を選択し、このペア要素間の距離の累積分布を示す図である。
図２２において、横軸は、ペア要素間の距離を示し、縦軸は、対応する距離を有するペア要素の全体のペア要素に対する割合の累積値である。
なお、距離は、コサイン距離を用い、かつ情報探索集合内で最も遠い要素間の距離が１．０となるよう規格化されている。
図２２では、距離が０．８以下である要素数は、非常に少なく、１．０付近にほとんどのペア要素が存在することが示されている。詳細には、距離が０．９８以上のペア要素の割合は、全体の９０％であることが示されている（図２２の太線）。
すなわち、図２２から、この１０年分の新聞記事の文書ファイルを要素とする情報探索集合では、各要素間が疎になっていることがわかる。

図２３は、図２２と同様の条件下における距離の下界の累積分布を示す図である。
距離の下界は、図２２と同じペア要素と、ランダムに選択した２００個の要素（ＴＬＡＥＳＡのベースプロトタイプに相当）とを用いて、距離の下界を算出した。
図２３において、横軸は、このような方法で算出した距離の下界の値を示し、縦軸は、距離の下界の値が、算出したすべての距離の下界に対する割合の累積値である。
図２３では、０．４以下に、距離の下界のほとんどが入っていることが示されている。特に、０．１３８以下の距離の下界が、全体の９０％を占めている。探索空間の削減は、情報探索過程のある時点でのクエリとある要素との距離と比較して、距離の下界が大きい要素を探索対象集合、すなわち、クエリとの距離を計算する対象の要素の集合から除くことによりなされる。情報探索過程のある時点でのクエリとある要素との距離が０．９８であったと仮定する。図２３より、距離の下界が０．９８よりも大きい要素はほとんど存在しないので、この時点で削減される要素はほとんどない。このように、要素における特徴量が高次元になる場合、情報探索集合におけるある要素とクエリとの距離を計算し、距離の下界が比較対象の距離より大きい要素を情報探索集合から除き、探索空間を削減する方法は有効に機能しない。

このように、文書ファイルなど距離空間の次元数が大きくなる情報探索集合では、三角不等式から算出される距離の下界を用いた探索空間の削減が有効に機能しない。
すなわち、文書ファイルなど距離空間の次元数が大きくなる情報探索集合に対し、ＴＬＡＥＳＡや、ＬＡＥＳＡや、ＡＥＳＡなどを適用しても、探索空間の削減がほとんどなされず、結果として、１つ１つの要素ごとにクエリとの距離を算出することになり、効率的な情報探索が行われないという問題が生じる。
さらに、ＴＬＡＥＳＡなどでは、前述の通り三角不等式を用いるが、これは距離空間が情報探索集合であることが前提となる。従って、距離空間ではない情報に関して、ＴＬＡＥＳＡなどの三角不等式を利用し探索空間を削減する枝刈り方法に基づくアルゴリズムを、直接適用することは困難である。

本発明は、情報探索集合が高次元距離空間である場合または情報空間である場合であっても、情報を探索できることを目的とする。

本発明は、前記課題を解決するために創案されたものであり、本発明に係るネットワーク生成方法は、記憶部に格納されている情報探索集合の情報に対応する要素における前記要素間の類似度に基づき要素間ネットワークを生成するネットワーク生成装置におけるネットワーク生成方法であって、前記ネットワーク生成装置が、各要素を前記記憶部から取得し、（ａ１）前記取得した要素それぞれを、前記情報探索集合の他の１以上の前記要素と直接的にリンク結合し、（ａ２）前記取得した各要素から、前記情報探索集合の任意の前記要素である第１の要素を抽出し、当該第１の要素からｋ番目（ただし、ｋは１より大きい整数）に類似度の大きい要素である第２の要素を、前記取得した各要素から抽出し、（ａ３）前記第２の要素に直接的にリンク結合している前記要素である第３の要素を、前記取得した各要素から抽出し、（ａ４）前記第１の要素と前記第３の要素との類似度、および前記第１の要素と前記第２の要素との類似度を比較し、（ａ５）前記（ａ４）の結果、前記第１の要素と前記第３の要素との類似度が、前記第１の要素と前記第２の要素との類似度以上である場合、前記第３の要素を、新たな前記第２の要素として、前記新たな第２の要素を用いて前記（ａ４）の処理を行い、（ａ６）前記（ａ４）の結果、前記第１の要素と前記第２の要素との類似度が、前記第１の要素と前記第３の要素との類似度より大きい場合、前記第１の要素と前記第２の要素とを、直接的、または、前記第１の要素および前記第２の要素以外の要素を介することにより間接的にリンク結合し、前記（ａ１）から前記（ａ６）の処理をｋが２から所定の値になるまで、前記情報探索集合の前記要素それぞれに対して繰り返すことにより、ネットワークを生成し、前記生成したネットワークを前記記憶部に格納する方法とした。

このような方法によれば、情報探索集合中の任意の要素が、直接的または間接的にリンク結合した１コンポーネントのネットワークを生成することができる。このような、１コンポーネントのネットワークを用いて探索を行い、距離空間の性質である三角不等式を用いていないため、情報探索集合が、高次元距離空間である場合や、情報探索集合が、距離空間でない場合であっても、情報探索を行うことができる。
また、リンクの生成条件を設けているため、リンク数の少ないネットワークを生成することができる。
さらに、このような方法によって、生成されたネットワークを使用して情報探索を行うと、探索コストの削減が可能となる。

また、本発明に係るネットワーク生成方法は、前記第２の要素と、前記第１の要素に直接的にリンク結合している前記第１の要素以外の要素とを、直接的にリンク結合する方法とした。

このような方法によれば、第１の要素から外れた要素にリンクを生成するため、第１の要素にリンクが集中することを避けることが可能となる。

さらに、本発明に係るネットワーク生成方法は、前記第２の要素と、前記第１の要素とを、直接的にリンク結合する方法とした。

このような方法によれば、少ないアルゴリズムのステップ数で１コンポーネントのネットワークを生成することが可能となる。また、任意の要素に対し、類似度の大きい順に所定数の要素とリンク結合させる手順によって生成した近傍要素ネットワークのリンクを削減したネットワークを生成することができる。

また、本発明に係る情報探索方法は、記憶部に保持されている情報探索集合の情報に対応する複数の要素からクエリと類似した情報を探索する情報探索装置における情報探索方法であって、探索処理部が、（ｂ１）請求項１から請求項３のいずれか一項に記載のネットワーク生成方法によって、生成されたネットワークにおいて、所定の第４の要素に直接的にリンク結合された前記要素を前記記憶部から取得し、前記取得した要素のうち、前記クエリとの類似度が最も大きい要素を第５の要素として選択し、（ｂ２）当該第５の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第５の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、（ｂ３）前記第５の要素を第６の要素とし、前記ネットワークにおいて、当該第６の要素に直接的にリンク結合された要素を、前記記憶部から取得し、（ｂ４）前記第６の要素に直接的にリンク結合された要素のうち、過去に前記第５の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第５の要素とし、当該新たな第５の要素に対して、前記（ｂ２）の処理を行うことにより、前記クエリと類似した要素を探索する方法とした。

このような方法によれば、探索コストの小さい情報探索を実現することができる。

また、本発明に係るプログラムは、前記したネットワーク生成方法をコンピュータに実行させるプログラムとした。

このようなプログラムによれば、情報探索集合中の任意の要素が、直接的または間接的にリンク結合した１コンポーネントのネットワークを生成することができる。このような、１コンポーネントのネットワークを用いて探索を行い、距離空間の性質である三角不等式を用いていないため、情報探索集合が、高次元距離空間である場合や、情報探索集合が、距離空間でない場合であっても、情報探索を行うことができる。
また、リンクの生成に対して、制限を設けているため、リンク数の少ないネットワークを生成することができる。
さらに、このようなプログラムによって、生成されたネットワークを使用して情報探索を行うと、探索コストの削減が可能となる。

さらに、本発明に係るプログラムは、前記した情報探索方法をコンピュータに実行させるプログラムとした。

このようなプログラムによれば、探索コストの小さい情報探索を実現することができる。

また、本発明に係るネットワーク生成装置は、記憶部に格納されている情報探索集合の情報に対応する要素における前記要素間の類似度に基づき要素間ネットワークを生成するネットワーク生成装置であって、各要素を前記記憶部から取得し、（ａ１）前記取得した要素それぞれを、前記情報探索集合の他の１以上の前記要素と直接的にリンク結合し、（ａ２）前記取得した各要素から、前記情報探索集合の任意の前記要素である第１の要素を抽出し、当該第１の要素からｋ番目（ただし、ｋは１より大きい整数）に類似度の大きい要素である第２の要素を、前記取得した各要素から抽出し、（ａ３）前記第２の要素に直接的にリンク結合している前記要素である第３の要素を、前記取得した各要素から抽出し、（ａ４）前記第１の要素と前記第３の要素との類似度、および前記第１の要素と前記第２の要素との類似度を比較し、（ａ５）前記（ａ４）の結果、前記第１の要素と前記第３の要素との類似度が、前記第１の要素と前記第２の要素との類似度以上である場合、前記第３の要素を、新たな前記第２の要素として、前記新たな第２の要素を用いて前記（ａ４）の処理を行い、（ａ６）前記（ａ４）の結果、前記第１の要素と前記第２の要素との類似度が、前記第１の要素と前記第３の要素との類似度より大きい場合、前記第１の要素と前記第２の要素とを、直接的、または、前記第１の要素および前記第２の要素以外の要素を介することにより間接的にリンク結合し、前記（ａ１）から前記（ａ６）の処理をｋが２から所定の値になるまで、前記情報探索集合の前記要素それぞれに対して繰り返すことにより、ネットワークを生成し、前記生成したネットワークを前記記憶部に格納するネットワーク生成部を有する構成とした。

このような構成によれば、情報探索集合中の任意の要素が、直接的または間接的にリンク結合した１コンポーネントのネットワークを生成することができる。このような、１コンポーネントのネットワークを用いて探索を行い、距離空間の性質である三角不等式を用いていないため、情報探索集合が、高次元距離空間である場合や、情報探索集合が、距離空間でない場合であっても、情報探索を行うことができる。
また、リンクの生成に対して、制限を設けているため、リンク数の少ないネットワークを生成することができる。
さらに、このような構成によって、生成されたネットワークを使用して情報探索を行うと、探索コストの削減が可能となる。

さらに、本発明に係る情報探索装置は、記憶部に保持されている情報探索集合の情報に対応する複数の要素からクエリと類似した情報を探索する情報探索装置であって、（ｂ１）前記したネットワーク生成装置によって、生成されたネットワークにおいて、所定の第４の要素に直接的にリンク結合された前記要素を前記記憶部から取得し、前記取得した要素のうち、前記クエリとの類似度が最も大きい要素を第５の要素として選択し、（ｂ２）当該第５の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第５の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、（ｂ３）前記第５の要素を第６の要素とし、前記ネットワークにおいて、当該第６の要素に直接的にリンク結合された要素を、前記記憶部から取得し、（ｂ４）前記第６の要素に直接的にリンク結合された要素のうち、過去に前記第５の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第５の要素とし、当該新たな第５の要素に対して、前記（ｂ２）の処理を行うことにより、前記クエリと類似した要素を探索する探索処理部を有する構成とした。

このような構成によれば、探索コストの小さい情報探索を実現することができる。

本発明によれば、情報探索集合が高次元距離空間である場合または情報空間である場合であっても、情報を探索することが可能となる。

以下、図面を参照して、本発明を実施するための最良の形態（以下、「実施形態」という）について詳細に説明する。

（第１実施形態：システム構成）
まず、図１〜図８を参照して、本発明に係る第１実施形態について説明する。
図１は、第１実施形態に係る情報探索システムの構成例を示す図である。
情報探索システム１２は、情報の探索を行う情報探索装置１と、情報探索装置１に対してクエリを送信する端末１１とが、ＷＡＮ（Wide Area Network）や、ＬＡＮ（Local Area Network）などの物理的ネットワーク１０を介して接続している。

情報探索装置１は、情報の処理を行う処理部２と、探索対象の情報などが格納されている記憶部３と、情報が入力される入力部４と、情報探索の結果などを出力する出力部５とを含んでなる。記憶部３は、ＨＤ（Hard Disk）、不揮発性メモリ、ＲＡＭ（Random Access Memory）などの種々の記憶媒体の少なくとも１つから構成され、プログラムが実装される計算機の構成形態に依存した前記記憶媒体の組合せで構成される。
端末１１から送信されたクエリは、物理的ネットワーク１０および入力部４を介して、処理部２へと送られる。また、ユーザが、入力部４を介して直接処理部２へクエリを入力してもよい。
処理部２は、ネットワーク生成処理を行うネットワーク生成部２１（ネットワーク生成装置）と、情報探索処理を行う探索処理部２２とを含んでなる。ここで、ネットワークとは、情報探索集合内における要素が、リンクによって結合しているときの、要素間のネットワークを指す。

処理部２と、処理部２内のネットワーク生成部２１および探索処理部２２とは、図示しないＨＤや、ＲＯＭ（Read Only Memory）や、ＲＡＭや、不揮発性メモリなどを記録媒体とする記憶装置に格納されているプログラムが、図示しないＲＡＭに展開され、図示しないＣＰＵ（Central Processing Unit）によって実行されることで具現化する。
なお、本実施形態では、ネットワーク生成部２１と、探索処理部２２と、記憶部３とが同一の情報探索装置１に設けられている例を示しているが、これに限らず、ネットワーク生成部２１と、探索処理部２２と、記憶部３とのうち、少なくとも１つを有している装置を複数設け、互いにＬＡＮなどの物理的ネットワークで接続してもよい。

（ＧＲ（Greedy Reachable）ネットワークの生成処理）
まず、図１を参照しつつ、図２および図３に沿って、ネットワーク生成処理の概要を説明する。
図２および図３は、第１実施形態に係るネットワーク生成処理の概要を示す図である。
図２および図３において、符号１００は、情報探索集合の情報に対応する要素である。ここで、情報とは、具体的には、例えば、新聞、特許公報などのテキストファイル、または、ＸＭＬ（Extensive Markup Language）による文書ファイルなどである。また、情報探索集合の情報に対応する要素とは、当該情報から抽出された特徴量、または、当該情報自体である。後者の意味で用いる場合は、類似度算出する際に、計算に適した量（スカラー量、ベクトル量など）に適宜変換される。なお、本実施形態における要素は、後者の意味で用いているが、前者の意味で用いてもよいことは当然である。

まず、ネットワーク生成部２１は、図２に示す手順によって、１−ＧＲネットワークを生成する。
まず、ネットワーク生成部２１は、情報探索集合中の任意の要素ｘを取得する。
そして、ネットワーク生成部２１は、要素ｘ（ｘ∈Ｘ：以降の式において、Ｘは、情報探索集合）との類似度が最も大きい近傍要素Ｎ１（ｘ）を、情報探索集合中から求め、この近傍要素Ｎ１（ｘ）との間に無向リンクを生成する（図２（ａ））。以降、無向リンクのことを単にリンクとも呼ぶ。本実施形態において、類似度は、コサイン類似度を指すものとするが、これに限らず、ミンコフスキー距離に代表される一般的な距離定義に基づく計算式や、コサイン類似度以外の類似度に基づく計算式を用いてもよい。ただし、類似度の代わりに距離を用いる場合には、大小関係が反転することを考慮し、以降の手続を適宜変更する必要がある。
次に、ネットワーク生成部２１は、要素ｘ以外の要素ｘ’について、同様の処理を行い、要素ｘ’との類似度が最も大きい近傍要素Ｎ１（ｘ’）に、要素ｘが含まれているか否かを判定し、含まれていない場合、この要素ｘ’と要素ｘとの間に新たな無向リンクを生成し（図２（ｂ））、含まれている場合には、既に無向リンクが存在しているので、ネットワーク生成部２１は、新たなリンクを生成しない。
近傍要素Ｎ１（ｘ）と、要素ｘ’とは、共に要素ｘに対する１−ＧＲネットワークΓ（ｘ）を構成する要素となる（図２（ｃ））。

次に、図３（ａ）に沿って、ネットワーク生成処理において新たなリンクが生成されない場合の処理の概要を説明する。
図３において、説明する生成処理は、ｋ（図４を参照して後記）＝２における処理の例である。ここで、ｋとは仮の出次数のことである。ただし、ここでは無向リンクを扱うため、リンクが有向リンクであったと仮定した場合、出次数に相当する仮の最小近傍要素数である。ここで、「仮の」とは、本来出次数であるが、後記する貪欲戦略に基づく探索処理におけるリンク生成過程でリンク生成不要と判定された場合は、その生成されなかったリンク分だけ出次数より数が減るためである。本実施形態では、仮の出次数ｋを、出次数ｋと記載する。
なお、図３に示す処理を行う前に、ネットワーク生成部２１は、図２で説明した１−ＧＲネットワークを、情報探索集合中のすべての要素に対して生成しているものとする。
図３（ａ）において、１−ＧＲネットワークを構成するリンクを図中の太線２０１〜２０３で示す。
すなわち、要素１０１に対する１−ＧＲネットワークを構成する要素は、要素１０２である。要素１０２に対する１−ＧＲネットワークを構成する要素は、要素１０１および要素１０３である。要素１０３に対する１−ＧＲネットワークを構成する要素は、要素１０２および要素１０４である。要素１０４に対する１−ＧＲネットワークを構成する要素は、要素１０３である。

まず、要素１０１に注目した際の処理を説明する。
要素１０１を要素ｘとする。ネットワーク生成部２１は、最も自身に近い近傍要素Ｎ１（ｘ）と、最も自身に近い２つの近傍要素Ｎ２（ｘ）を、情報探索集合から求める。
図３（ａ）では、近傍要素Ｎ１（ｘ）として要素１０２が求められ、近傍要素Ｎ２（ｘ）として要素１０２および要素１０３が求められる。
次に、ネットワーク生成部２１は、Ｎ２（ｘ）−Ｎ１（ｘ）である要素ｙを求める。図３（ａ）では、要素１０３が、要素ｙとなる。ここで、要素ｙは、要素ｘから２番目に類似度の大きい要素である。
次に、ネットワーク生成部２１は、貪欲戦略による探索処理を行う。
貪欲戦略による探索処理の詳細については、後記するが、図３（ａ）に対して、この探索処理を適用すると、要素ｙは、図３（ａ）における矢印の方向へ移動し、最後に要素ｘに到達し、要素ｘを貪欲戦略による探索処理の結果として出力する。

そして、ネットワーク生成部２１は、貪欲戦略による探索処理の結果、出力された要素が、要素ｘと等しいか否かを判定する。図３（ａ）では、当該出力された要素は、要素ｘに等しい。本実施形態では、貪欲戦略による探索処理の結果、出力された要素が要素ｘであった場合、すなわち、貪欲戦略による探索処理の結果、要素ｙが、要素ｘに到達した場合、新たなリンクを生成する処理は行わないという制限を設けている。従って、図３（ａ）の例では、新たなリンク結合を生成する処理は、行わない。

次に、図３（ａ）に沿って、貪欲戦略による探索処理の手順の概要を説明する。
まず、ネットワーク生成部２１は、要素ｙに対する１−ＧＲネットワークΓ（ｙ）のうち、要素ｘに近い要素ｙ＊を求める。図３（ａ）では、１−ＧＲネットワークΓ（ｙ）は、要素１０４および要素１０２であり、要素ｙ＊は、要素１０２となる。

そして、ネットワーク生成部２１は、要素ｘと要素ｙ＊との類似度ρ（ｙ＊，ｘ）と、要素ｘと要素ｙとの類似度ρ（ｙ，ｘ）を求め、ρ（ｙ＊，ｘ）＜ρ（ｙ，ｘ）であるか否かを判定する。図３（ａ）では、要素ｙ＊の方が、要素ｙより、要素ｘに近い（類似度が大きい）ので、前記不等式を満たしていないことになる。
次に、ネットワーク生成部２１は、要素ｙ＊を新たな要素ｙとする。図３（ａ）では、要素１０２が新たな要素ｙとなる（図示せず）。
そして、ネットワーク生成部２１は、要素ｙに対する１−ＧＲネットワークΓ（ｙ）のうち、要素ｘに近い要素ｙ＊を求める。要素１０２を要素ｙとしたときのΓ（ｙ）は、要素１０１であるため、図３（ａ）では、要素ｙ＊として、要素１０１が選択される。
そして、要素ｘと要素ｙ＊との類似度ρ（ｙ＊，ｘ）と、要素ｘと要素ｙとの類似度ρ（ｙ，ｘ）を求め、ρ（ｙ＊，ｘ）＜ρ（ｙ，ｘ）であるか否かを判定する。この段階では、要素ｙ＊（要素１０１；要素ｘ自身）の方が、要素ｙ（要素１０２）より、要素ｘに近いので、前記不等式を満たしていないことになる。従って、この時点で、要素ｙ＊である要素１０１（要素ｘ自身）が要素ｙとなる。

ネットワーク生成部２１が、この時点で要素ｙである要素１０１に対する１−ＧＲネットワークΓ（ｙ）は、要素１０２を取得する。この時点で、要素ｙが要素ｘ自身となるため、ρ（ｙ＊，ｘ）＜ρ（ｙ，ｘ）の不等式を満たすこととなる。
貪欲戦略による探索処理では、前記不等式を満たしたときの要素ｙを出力することになっている。従って、要素１０１（要素ｘ）が、要素ｘ＊として出力される。
すなわち、図３（ａ）に示す要素ｘおよび要素ｙに、貪欲戦略による探索処理を適用すると、要素ｙは、図３（ａ）の方向へと移動していき、最後に要素ｘに到達する。ネットワーク生成部２１は、この要素ｘを貪欲戦略による探索処理の結果として出力する。

次に、図３（ｂ）に沿って、ネットワーク生成処理においてリンク生成される場合の処理の概要を説明する。
図３（ｂ）でも、１−ＧＲネットワークを構成するリンク２０４〜２０７を図中の太線で示す。
すなわち、要素１０５に対する１−ＧＲネットワークを構成する要素は、要素１０６である。要素１０６に対する１−ＧＲネットワークを構成する要素は、要素１０５である。要素１０７に対する１−ＧＲネットワークを構成する要素は、要素１０９である。要素１０９に対する１−ＧＲネットワークを構成する要素は、要素１０７、要素１０８および要素１１０である。要素１１０に対する１−ＧＲネットワークを構成する要素は、要素１０９である。この時点では、要素１０６と、要素１０７との間には、リンクが存在していない。

図３（ｂ）では、要素１０５に注目した例を示す。
すなわち、ネットワーク生成部２１は、要素１０５を要素ｘとして求める。
次に、ネットワーク生成部２１は、要素ｘに対する近傍要素Ｎ１（ｘ）および近傍要素Ｎ２（ｘ）を求める。図３（ｂ）では、近傍要素Ｎ１（ｘ）は、要素１０６であり、近傍要素群Ｎ２（ｘ）は、要素１０６および要素１０７である。
次に、ネットワーク生成部２１が、ｙ＝Ｎ２（ｘ）−Ｎ１（ｘ）（要素ｘから２番目に類似度の大きい要素）を求めると、要素１０７が要素ｙとして求められる。

次に、要素ｘおよび要素ｙに対して、ネットワーク生成部２１が、貪欲戦略による探索処理を適用する。
ネットワーク生成部２１が、要素ｙに対する１−ＧＲネットワークΓ（ｙ）のうちで、最も要素ｘに近い要素ｙ＊を求める。要素１０７に対する１−ＧＲネットワークは、要素１０９であるので、ネットワーク生成部２１は、要素１０９を要素ｙ＊として求める。

そして、ネットワーク生成部２１が、ρ（ｙ＊，ｘ）＜ρ（ｙ，ｘ）を満たしているか否かを判定すると、要素ｙ（要素１０７）の方が、要素ｙ＊（要素１０９）より、要素ｘ（要素１０５）に近い（類似度が大きい）ため、ネットワーク生成部２１は、貪欲戦略による探索処理の結果として、要素ｙ（要素１０７）を出力する。
そして、ネットワーク生成部２１が、貪欲戦略による探索処理の結果、出力された要素が、要素ｘに等しいか否かを判定すると、出力された要素は、要素ｙであり、要素ｘとは等しくないため、ネットワーク生成部２１は、新たなリンクを生成する処理を行う。

ネットワーク生成部２１は、近傍要素Ｎ１（ｘ）と、要素ｘとの和集合（図３（ｂ）では、要素１０５および要素１０６）のうち、要素ｙ（要素１０７）との類似度が大きい要素ｚを求める。図３（ｂ）では、要素ｚとして、要素１０６が求められる。そして、ネットワーク生成部２１は、要素ｚと、要素ｙとの間に新たなリンクを生成する（図３（ｂ）におけるリンク３０１）。

ネットワーク生成部２１は、図３で説明した処理を、情報探索集合中のすべての要素に対して行う。図３で説明したように、ｋ＝２において生成されたリンクによるネットワークΓ（ｘ）は、２−ＧＲネットワークである。そして、情報探索中のすべての要素について、当該処理を行った後、ｋを１加算して、同様の処理を行う。これを、ｋが所定の値ｎとなるまで繰り返すことによって、情報探索集合中のすべての要素が、直接的または間接的にリンク結合したネットワークであるＧＲネットワークが生成される。ここで、直接的にリンク結合しているとは、図３（ｂ）における要素１０７と要素１０９のようにリンク２０５によって、直接リンク結合していることをいう。また、間接的にリンク結合しているとは、図３（ｂ）における要素１０７と、要素１０８のように、他の要素１０９を介してリンク結合していることをいう。このとき、ＧＲネットワークは、各要素ｘに対するｎ−ＧＲネットワークΓ（ｘ）の集合となっており、１コンポーネントのネットワークとなっている。

ここで、コンポーネントとは、情報探索集合の部分集合であり、ある集合の任意の２つの要素間が少なくとも１つのリンクまたはリンクの連結により接続されているものである。ただし、リンクの連結とは、第１の要素と第２の要素との間のリンク、第２の要素と第３の要素との間のリンク、…、第（ｍ−１）の要素と第ｍの要素との間のリンクのように、リンクの連なりのことをいう。このような場合、第１の要素と第ｍの要素とはリンクの連結により、間接的に接続されている。
例えば、「ネットワークが１コンポーネントである」とは、「任意の２つの要素間がリンクまたはリンクの連結により互いに接続されているネットワーク」であることをいう。

図４は、第１実施形態に係るネットワーク生成処理の流れを示すフローチャートである。
予め、ネットワーク生成部２１は、記憶部３から、情報探索集合中における各要素を取得し、情報探索集合中におけるすべての要素ｘに対する１−ＧＲネットワークΓ（ｘ）を求める。１−ＧＲネットワークΓ（ｘ）は、式（７）で示される要素であり、図２に例示したような方法で生成される。

ここで、Ｎ１（ｘ）は、任意の要素ｘに対して、最も類似度が大きい要素である。

そして、ネットワーク生成部２１は、任意の要素ｘに対する１−ＧＲネットワークΓ（ｘ）を、取得している各要素から抽出する（Ｓ１０１）。
次に、ネットワーク生成部２１は、出次数ｋ（以下、適宜ｋと記載）を２に設定する（ｋ←２）（Ｓ１０２）。
そして、ネットワーク生成部２１は、ｋが予め設定してある値ｎと等しいか否かを判定する（Ｓ１０３）。ｎは、ネットワーク生成のパラメータであり、テストデータなどを用いて、探索コストを評価関数として最適化することによって求められる。ｎの決定の方法は、図１１、図１２、図１６および図１７を参照して後記する。
ステップＳ１０４の結果、ｋがｎと等しい場合（Ｓ１０３→Ｙｅｓ）、ネットワーク生成部２１は、取得した各要素ｘに対するｋ−ＧＲネットワークΓ（ｘ）を記憶部３に記憶する（Ｓ１０４）。

ステップＳ１０４の結果、ｋがｎと等しくない場合（Ｓ１０３→Ｎｏ）、ネットワーク生成部２１は、要素ｘに対する近傍要素群Ｎｋ（ｘ）および近傍要素群Ｎｋ−１（ｘ）を求める（Ｓ１０５）。
そして、ネットワーク生成部２１は、求めた近傍要素群Ｎｋ（ｘ）と、近傍要素群Ｎｋ−１（ｘ）との差集合である要素ｙを求める（ｙ＝Ｎｋ（ｘ）−Ｎｋ−１（ｘ））（Ｓ１０６）。すなわち、ネットワーク生成部２１は、要素ｘからｋ番目に類似度の大きい要素ｙを、処理のはじめに取得した要素の中から抽出する。
そして、ネットワーク生成部２１は、貪欲戦略に基づく探索処理を行う（Ｓ１０７）。ステップＳ１０７の処理は、図５を参照して後記する。

ネットワーク生成部２１は、ステップＳ１０７における貪欲戦略に基づく探索処理の結果、出力された要素ｘ＊が、要素ｘと等しい（ｘ＝ｘ＊）か否かを判定する（Ｓ１０８）。すなわち、ＧＲネットワークΓにおいて、要素ｘおよび要素ｙに対して貪欲戦略による探索処理を行うことをＧＳ（ｘ，ｙ，Γ）で表すと、ステップＳ１０８は、ｘ＝ＧＳ（ｘ，ｙ，Γ）が、真であるか否かを判定することになる。
ステップＳ１０８の結果、要素ｘ＊が、要素ｘと等しい場合（Ｓ１０８→Ｙｅｓ）、ネットワーク生成部２１は、ステップＳ１１１の処理へ進む。すなわち、ネットワーク生成部２１は、新たなリンクを生成しない。
ステップＳ１０８の結果、要素ｘ＊が、要素ｘと等しくない場合（Ｓ１０８→Ｎｏ）、ネットワーク生成部２１は、式（８）を満たす要素ｚを求める（Ｓ１０９）。すなわち、ネットワーク生成部２１は、近傍要素群Ｎｋ−１（ｘ）と、要素ｘとの和集合のうちで、最も要素ｙとの類似度が大きい要素ｚを求める。

そして、ネットワーク生成部２１は、式（９）を実行する（Ｓ１１０）ことによって、要素ｚと要素ｙとの間に新しいリンクを生成する。

すなわち、ネットワーク生成部２１は、要素ｚを要素ｙに対する（ｋ−１）−ＧＲネットワークΓ（ｙ）に加え、要素ｙを要素ｚに対する（ｋ−１）−ＧＲネットワークΓ（ｚ）に加えることで、要素ｙと要素ｚとの間に、無向リンクを生成する。これにより、ネットワーク生成部は、要素ｙと、要素ｘに直接的にリンク結合している要素ｘ以外の要素ｚとを、直接的にリンク結合する。
そして、ネットワーク生成部２１は、情報探索集合におけるすべての要素ｘに対して、ステップＳ１０６からステップＳ１１１の処理を行ったか否かを判定する（Ｓ１１１）。
ステップＳ１１１の結果、すべての要素ｘに対して、処理を行っていない場合（Ｓ１１１→Ｎｏ）、ネットワーク生成部２１は、新たな要素ｘを取得し、ステップＳ１０５の処理へ戻る。
ステップＳ１１１の結果、すべての要素ｘに対して、処理を行った場合（Ｓ１１１→Ｙｅｓ）、ネットワーク生成部２１は、ｋを１加算し（ｋ←ｋ＋１：Ｓ１１２）、ステップＳ１０３の処理へ戻る。
この時点におけるネットワークΓ（ｘ）は、ステップＳ１０９およびステップＳ１１０の処理の実行の有無にかかわらずｋ−ＧＲネットワークとする。

なお、第１実施形態では、ｋ−ＧＲネットワークΓ（ｘ）の更新（Ｓ１１０）を、ステップＳ１０７の後に行ったが、ステップＳ１１２の後に、すべての要素ｘに対し、一斉に更新してもよい。これは、後記する第２実施形態でも同様である。

図５は、第１実施形態に係る貪欲戦略に基づく探索処理の流れを示すフローチャートである。
ネットワーク生成部２１は、式（１０）を実行する（Ｓ２０１）。

すなわち、ネットワーク生成部２１は、要素ｙに対するｋ−ＧＲネットワークΓ（ｙ）のなかで、要素ｘに最も近い要素ｙ＊を求める。
そして、ネットワーク生成部２１は、要素ｙ＊と、要素ｘとの類似度ρ（ｙ＊，ｘ）および要素ｙと、要素ｘとの類似度ρ（ｙ，ｘ）を求め、ρ（ｙ＊，ｘ）＜ρ（ｙ，ｘ）の不等式が満たされているか否かを判定する（Ｓ２０２）。
ステップＳ２０２の結果、ρ（ｙ＊，ｘ）＜ρ（ｙ，ｘ）の不等式が満たされていない場合（Ｓ２０２→Ｎｏ）、ネットワーク生成部２１は、要素ｙを要素ｙ＊とした（ｙ←ｙ＊：Ｓ２０３）、後、ステップＳ２０１の処理へ戻る。
ステップＳ２０２の結果、ρ（ｙ＊，ｘ）＜ρ（ｙ，ｘ）の不等式が満たされていた場合（Ｓ２０２→Ｙｅｓ）、ネットワーク生成部２１は、要素ｘ＊として、要素ｙを代入し（ｘ＊←ｙ：Ｓ２０４）、要素ｘ＊を出力する。

このように、貪欲戦略による探索方法を実行することにより、新たなリンクの生成に制限を設けるため、小さなリンク数を有する１コンポーネントのネットワークを生成することができる。すなわち、少ないリンク数の１コンポーネントのネットワークを生成することができる。また、生成したＧＲネットワークを後記する情報探索処理に用いることで、探索コストの小さい情報探索を実現することができる。

図６は、ネットワーク生成部によって算出されたＧＲネットワークの記憶部での記憶状態を示す図である。
図６において、符号５００は、ｎ−ＧＲネットワークの中心となる要素（中心要素：図３（ｂ）において、中心要素を要素１０９とすると、この要素１０９を中心要素とするｋ−ＧＲネットワークは、要素１０７，１０８，１１０となる。ただし、中心要素自身は、ｎ−ＧＲネットワークに含まれない）の要素番号であり、符号５０１は、この中心要素に対してｎ−ＧＲネットワークを構成している要素の要素番号である。なお、ここでは、要素毎に一意の要素番号を予め付されているものとする。
例えば、要素番号「１」の要素に対してｎ−ＧＲネットワークを構成している要素は、要素番号「３」である。そして、要素番号「２」の要素に対してｎ−ＧＲネットワークを構成している要素は、要素番号「３」，「６」である。また、要素番号「３」の要素に対してｎ−ＧＲネットワークを形成している要素は、要素番号「１」，「２」である。

このようなネットワーク生成処理によれば、所定数の近傍要素の集合であるｎ−ＧＲネットワークの集合として、ＧＲネットワークを生成するため、平均最短パス長の小さいネットワークの生成が可能となる。ここで、パス長とは、情報探索集合内における任意の２つのノード間のリンクの数である。また、このようなネットワーク生成処理によれば、情報探索集合内のすべての要素に対し、各要素を中心要素としたｎ−ＧＲネットワークが存在するため、任意の要素を中心要素とする最近傍ネットワークを取得していくことで、情報探索集合内のすべての要素がリンクによって結合しているＧＲネットワークを生成することができる。

また、ネットワーク生成部２１が、式（９）を実行することにより、要素ｙと要素ｚとの間に無向リンクが設定される。この無向リンクが設定されることにより、要素ｚが、要素ｙに対するｋ−ＧＲネットワークに含まれるが、要素ｚに対するｋ−ＧＲネットワークに、要素ｙが含まれない状態となることを避けることができ、確実に情報探索集合内のすべての要素がリンクによって結合しているＧＲネットワークを生成することができる。

（情報探索処理）
次に、図１を参照しつつ、図７に沿って、情報探索処理の概要について説明する。
図７は、第１実施形態に係る情報探索処理の概要を示す図である。
図７において、情報探索集合における要素を白丸または黒丸にて表現する。すなわち、図７における白丸または黒丸は、記憶部３に格納され、探索対象となる情報である。
また、図７における破線で示すリンクによって全要素が連結した１コンポーネントのＧＲネットワークがネットワーク生成部２１によって生成されているものとする。
探索処理部２２は、予め定められている要素、または、任意の要素を起点要素ｘ０とする。そして、当該起点要素ｘ０に対するｎ−ＧＲネットワークΓ（ｘ０）（図７における実線で示す）を記憶部３から取得する。
続いて、探索処理部２２は、起点要素ｘ０を展開要素集合Ｂの要素とし（Ｂ＝｛ｘ０｝）、取得したｎ−ＧＲネットワークΓ（ｘ０）と展開要素集合Ｂとの和集合を類似度計算要素集合Ａ（Ａ＝Γ（ｘ０）∪｛ｘ０｝）として求める。ここで、展開要素集合とは、ある要素ｘに対するｎ−ＧＲネットワークΓ（ｘ）の要素とクエリとの類似度計算を実行する場合の要素ｘから構成される集合である。要素ｘから直接リンク結合されている要素を要素ｘの子要素と表現するときは、子要素とクエリとの類似度が計算される要素の集合である。一方、類似度計算要素集合とは、クエリとの類似度計算が実行される要素の集合である。以降、展開要素集合Ａを集合Ａと、類似度計算要素集合Ｂを集合Ｂと簡略し表現する。
そして、探索処理部２２は、集合Ａと集合Ｂとの差集合を構成する要素のうち、図示しないクエリとの類似度が最も大きい要素を抽出する。前記差集合は、すでにクエリとの類似度計算を実行された要素であって、未だ展開されていない（子要素とクエリとの類似度計算が実行されていない）要素からなる集合である。
この場合、図７（ｂ）に示すように、要素ｘ１が、探索処理部２２によって抽出されたとする。

次に、類似度ρ（ｘ１，ｑ）＞類似度ρ（ｘｍａｘ，ｑ）を満たしているとしたとき、探索処理部２２は、図７（ｃ）に示すように、要素ｘ１を要素ｘｍａｘ（図示せず）とし、要素ｘｍａｘを更新し保持する。また、要素ｘ１が前記条件を充足しない場合は、要素ｘｍａｘの更新は行われない。探索処理部２２は、要素ｘ１に対してｎ−ＧＲネットワークΓ（ｘ１）（図７（ｃ）において実線で示されるリンクで結合している要素）を記憶部３から取得する。ここで、類似度ρ（ｘｍａｘ，ｑ）が、請求項における設定類似度であり、情報探索部が、要素ｘｍａｘを保持することにより、設定類似度も保持することになる。
そして、探索処理部２２は、要素ｘ１に対するｎ−ＧＲネットワークを構成する要素群Γ（ｘ１）の要素からなる集合と集合Ａとの和集合を新たな集合Ａとする。さらに、探索処理部２２は、要素ｘ１を、図７（ａ）に示す集合Ｂの要素に加え、新たな集合Ｂとする。そして、探索処理部２２は、新たな集合Ａと、集合Ｂとの差集合を構成する要素の中で、クエリとの類似度が最も大きい要素を抽出し、当該要素を新たな要素ｘ１とする（図７（ｃ）：Γ（ｘ１）→ｘ１）。すなわち、図７（ｃ）に示すように、探索処理部２２は、新たな要素ｘ１を抽出する。

そして、類似度ρ（ｘ１，ｑ）＞類似度ρ（ｘｍａｘ，ｑ）を満たしているとしたとき、探索処理部２２は、この要素ｘ１を新たな要素ｘｍａｘ（図示せず）として保持する。、探索処理部２２は、要素ｘ１に対するｎ−ＧＲネットワークΓ（ｘ１）の要素（図７（ｄ）中、実線で示されるリンクで結合している要素）からなる集合と集合Ａとの和集合を新たな集合Ａとし、要素ｘ１を、図７（ｃ）に示す集合Ｂの要素に加え、新たな集合Ｂとする。そして、新たな集合Ａと、集合Ｂとの差集合を構成する要素の中で、クエリとの類似度が最も大きい要素を抽出する（図７（ｄ））。
このような処理を繰り返し、集合Ａの要素数が上限コストβを超えたとき（第１終了条件）、または、要素ｘ１とクエリとの類似度が１となった（クエリと一致する要素を抽出した：第２終了条件）とき、要素ｘｍａｘを最終出力要素とする。ただし、第２終了条件の設定の有無は情報探索集合に依存する。

次に、図１および図７を参照しつつ、図８に沿って、情報探索処理の流れを説明する。
図８は、第１実施形態に係る情報探索処理の流れを示すフローチャートである。
情報探索装置１の記憶部３には、予め入力部４を介して入力されたコスト上限βと、要素と、要素の特徴量のリストと、起点要素ｘ０と、ネットワーク生成処理で算出されたｎ−ＧＲネットワークΓ（ｘ）が要素ごとに格納されている。
まず、探索処理部２２は、起点要素ｘ０（ｘ０∈Ｘ）を記憶部３から取得し、この起点要素ｘ０に対するｎ−ＧＲネットワークΓ（ｘ０）を記憶部３から取得する（Ｓ３０１）。すなわち、情報探索装置１は、ｎ−ＧＲネットワークΓ（ｘ０）をＲＡＭなどのメモリ上に常駐させている。
次に、入力部４を介して、クエリｑが情報探索装置１に入力される（Ｓ３０２）。クエリの入力は、端末１１から物理的ネットワーク１０を介することによって、入力されてもよいし、直接入力部４から入力されてもよい。また、本実施形態では、探索処理部２２が、起点要素ｘ０を対するｎ−ＧＲネットワークΓ（ｘ０）を記憶部３から取得した後に、クエリｑが入力されたが、これに限らず、クエリｑが入力されてから、探索処理部２２が、起点要素ｘ０に対するｎ−ＧＲネットワークΓ（ｘ０）を記憶部３から取得してもよい。
次に、探索処理部２２は、起点要素ｘ０とクエリｑとの類似度ρ（ｘ０，ｑ）を算出し（Ｓ３０３）、記憶部３に格納する。なお、探索処理部２２は、この時点で、起点要素ｘ０に対するｎ−ＧＲネットワークΓ（ｘ０）を記憶部３から取得してもよい。ここで、ρ（・）は、例えば、コサイン類似度関数などの類似度関数であり、ρ（ａ，ｂ）＝ρ（ｂ，ａ）∈［０，１］、ａ，ｂ∈Ｘの性質を有する。ただし、任意の要素ａは、自分自身との類似度が最も大きくρ（ａ，ａ）＝１である。

そして、探索処理部２２は、集合Ａ＝Γ（ｘ０）∪｛ｘ０｝および集合Ｂ＝｛ｘ０｝を算出する（Ｓ３０４：図７（ａ））。
次に、探索処理部２２は、集合Ａの要素の数｜Ａ｜を算出し、｜Ａ｜＞上限コストβ、または、クエリｑと要素ｘｍａｘとの類似度（設定類似度）が１であること、すなわちρ（ｘｍａｘ，ｑ）＝１（クエリと要素とが一致していること）を満たしているか否かを判定する（Ｓ３０５）。ここで、｜・｜は、該当する集合の要素の数である。なお、要素ｘｍａｘの初期要素は、特に限定しないが、要素ｘ０などを代入しておいてもよい。ここで、算出されたρ（ｘｍａｘ，ｑ）は、記憶部３に格納される。
ステップＳ３０５の結果、｜Ａ｜＞β、または、ρ（ｘｍａｘ，ｑ）＝１を満たしている場合（Ｓ３０５→Ｙｅｓ）、探索処理部２２は、要素ｘｍａｘを最終出力要素ｘ２として出力し（Ｓ３０６）、処理を終了する。なお、本実施形態では、ステップＳ３０４の処理において、｜Ａ｜＞上限コストβ、または、クエリｑと要素ｘｍａｘとの類似度が１であることを判定しているが、これに加え、探索処理部２２が、図示しないタイマなどを監視し、所定の計算時間を越えているか否かを判定してもよい。

ステップＳ３０５の結果、条件を満たしていない場合（Ｓ３０５→Ｎｏ）、探索処理部２２は、集合Ａと集合Ｂとの差集合を算出し（Ｓ３０７）、当該差集合の要素ｙとクエリｑとの類似度ρ（ｙ，ｑ）を算出する（Ｓ３０８）。
そして、探索処理部２２は、集合Ａと、集合Ｂとの差集合におけるすべての要素ｙ（ｙ∈Ｘ）に対して、ステップＳ３０８の処理を行ったか否かを判定する（Ｓ３０９）。判定は、例えば、ステップＳ３０８の後に、要素ｙにフラグを付し、このフラグがすべての要素に対し付されているか否かを、探索処理部２２が判定することによって行われる。

ステップＳ３０９の結果、すべての要素ｙについて、ステップＳ３０８の処理を行っていないと判定された場合（Ｓ３０９→Ｎｏ）、探索処理部２２は、ステップＳ３０８の処理へ戻る。
ステップＳ３０９の結果、すべての要素ｙについて、ステップＳ３０８の処理を行っていると判定された場合（Ｓ３０９→Ｙｅｓ）、探索処理部２２は、ステップＳ３１０の処理へ進む。

次に、探索処理部２２は、式（１１）の要素ｘ１を求める（Ｓ３１０：図７（ｂ））。

すなわち、探索処理部２２は、最大の類似度ρ（ｗ，ｑ）を有する要素ｗを算出し、この要素ｙを要素ｘ１（ｘ１∈Ｘ）とする。同時に、探索処理部２２は、ステップＳ３１０における式（１１）で求めた要素ｘ１に係るρ（ｘ１，ｑ）を記憶部３に格納する。
そして、探索処理部２２は、記憶部３から類似度ρ（ｘｍａｘ，ｑ）および類似度ρ（ｘ１，ｑ）を取得し、類似度ρ（ｘ１，ｑ）＞類似度ρ（ｘｍａｘ，ｑ）であるか否かを判定する（Ｓ３１１）。
ステップＳ３１１の結果、類似度ρ（ｘ１，ｑ）＞類似度ρ（ｘｍａｘ，ｑ）ではない場合（Ｓ３１１→Ｎｏ）、探索処理部２２は、ステップＳ３１３の処理へ進む。
ステップＳ３１１の結果、類似度ρ（ｘ１，ｑ）＞類似度ρ（ｘｍａｘ，ｑ）である場合（Ｓ３１１→Ｙｅｓ）、探索処理部２２は、探索処理部２２は、要素ｘ１を、新たな要素ｘｍａｘとして保持する（Ｓ３１２：図７（ｃ））。前記したように、類似度ρ（ｘｍａｘ，ｑ）が、請求項における設定類似度であり、情報探索部が、要素ｘｍａｘを保持することにより、設定類似度も保持することになる。
次に、探索処理部２２は、要素ｘ１に対するｎ−ＧＲネットワークΓ（ｘ１）を記憶部３から取得すると、集合Ａ’＝Ａ∪Γ（ｘ１）および集合Ｂ’＝Ｂ∪｛ｘ１｝を算出し、集合Ａ’を新たなＡとし、Ｂ’を新たなＢとする（Ａ←Ａ’、Ｂ←Ｂ’：Ｓ３１３：図７（ｃ））。すなわち、集合Ａに集合Ａ’を代入し、集合Ｂに集合Ｂ’を代入する。
そして、探索処理部２２は、ステップＳ３０５の処理へ戻る。

なお、本実施形態において、情報探索集合の要素内に同一の情報が存在するようなクエリを入力してもよいし、情報探索集合の要素内に同一の情報が存在しないようなクエリを入力してもよい。

本実施形態に係る情報探索処理は、要素間の平均最短パス長が小さいスモールワールドネットワーク（詳細は、後記）を使用して情報探索を行うため、情報探索集合に対して距離空間を定義すると、要素間の距離が大きい、すなわち要素同士が疎となり、三角不等式などによる探索空間の削減が不可能な情報探索集合に対しても、探索コストの小さい情報探索を行うことができる。すなわち、探索空間を小さくすることができる。
また、要素間における距離の定義を前提としていないため、距離空間を定義不可能な情報探索集合に対しても効率的な情報探索を行うことが可能となる。例えば、任意の２つの要素間の類似度を、コサイン類似度で定義した情報探索集合は、距離空間ではない。さらに、局所的な要素の集合であるｎ−ＧＲネットワークを連結したＧＲネットワークを用いており、全体の情報探索を、処理の軽いｎ−ＧＲネットワークにおける探索の集まりとすることができ、全体的な処理の負担を軽減することができる。
そして、１度探索した要素は、次回以降の探索対象から外した情報探索を行うため、効率的な情報探索を行うことができる。
また、ＧＲネットワークを用いて、情報探索を行うことにより、探索コストの小さい情報探索を行うことができる。

（第２実施形態）
次に、図９および図１０を参照して、本発明の第２実施形態について説明する。
第２実施形態では、情報探索システム１２の構成については、図１に示す構成と同様であり、情報探索方法については、図７および図８に示す方法と同様であるため、図面および説明を省略する。

図９は、第２実施形態に係るｋ−ＧＲネットワーク生成の概要を示す図である。
図９において、図３（ｂ）と同様の構成に対しては、同一の符号を付して、説明を省略する。
図９では、要素ｙ（要素１０７）と、要素ｘ（要素１０５）との間に新しいリンク３０２が生成されている。図３（ｂ）と、図９とを比較すると、リンクの生成先が異なっていることが分かる。

次に、図１を参照しつつ、図１０に沿って第２実施形態に係るネットワーク生成処理の流れを説明する。
図１０は、第２実施形態に係るネットワーク生成処理の流れを示すフローチャートである。
図１０において、図４と同様の処理には、同一の番号を付して、説明を省略する。
図１０が、図４と異なる点は、図４におけるステップＳ１０９およびステップＳ１１０が、ステップＳ１１０ａに置き換わっている点である。
すなわち、ステップＳ１０８において、要素ｘが、要素ｘ＊ではないと判定された場合（Ｓ１０８→Ｎｏ）、ネットワーク生成部２１は、式（１２）を実行する（Ｓ１１０ａ）。

すなわち、ネットワーク生成部２１は、要素ｘを要素ｙに対するｋ−ＧＲネットワークΓ（ｙ）に加え、要素ｙを要素ｘに対するｋ−ＧＲネットワークΓ（ｘ）に加えることで、要素ｙと要素ｘとの間に、無向リンクを生成する。これにより、ネットワーク生成部２１は、要素ｙと、要素ｘとを、直接的にリンク結合する。

第２実施形態によれば、第１実施形態で示すネットワーク生成処理よりも、少ないステップ数のアルゴリズムで、ネットワーク生成処理を行うことができる。

（ネットワークの特性）
ここで、本実施形態に好適なネットワークの性質について説明する。
まず、本実施形態におけるネットワークは、情報探索を効率よく行うため、出次数ｋと強い相関を有する値である次数が、比較的小さいネットワークであることが望ましい。本実施形態に好適なネットワークは、情報探索集合内の全要素が結合した１コンポーネントのネットワークであり、次数が比較的小さいことが望ましい。本実施形態で用いたＧＲネットワークΓにおける平均次数は、式（１３）で定義される。

さらに、本実施形態におけるネットワークは、任意の起点要素と、最終出力要素との間に、比較的短いリンクで連結されていることが必要である。探索コストの小さい情報探索を行うためである。
本実施形態で用いたＧＲネットワークΓ全体における平均値である平均最短パス長は、式（１４）で定義される。

ここで、ｄΓ（ｘ，ｙ）は、ネットワークにおける任意の要素における最短パス長である。

また、最終出力要素ｘ２における近傍の要素群ｙ∈Γ（ｘ２）のそれぞれと、クエリｑとの類似度が比較的低い場合、情報探索が困難になる。なぜならば、起点要素ｘ０から最終出力要素ｘ２へ到達するためには、最終出力要素ｘ２における近傍の要素ｙを経由することが必須となるためである。すなわち、類似度ρ（ｘ２，ｑ）と類似度ρ（ｘ２，ｙ）が大きい値を示すときには、類似度ρ（ｙ，ｑ）もまた大きい値を示すことが望ましい。これを一般化すると、３つの要素ｘ，ｙ，ｚにおいて、ｙ∈Γ（ｘ）かつｚ∈Γ（ｙ）において、類似度ρ（ｘ，ｙ）と類似度ρ（ｙ，ｚ）が大きい値を示すとき、ｘ∈Γ（ｚ）となるような大きい値の類似度ρ（ｚ，ｘ）（ｘ∈Γ（ｚ））が大きい値を示すこと好ましい。すなわち、３つの要素ｘ，ｙ，ｚにおける任意のペア要素間にリンクが存在することが望ましい。
このような、３つの要素間の関係を定量的に評価する尺度であるネットワークのクラスタ係数は、式（１５）で定義される。クラスタ係数が大きい値であるほど、任意の３つの要素間における任意のペア要素間にリンクが存在する率が大きい。

本実施形態に好適なネットワークの特性として、１．式（１３）で示される平均次数が小さく、かつ１コンポーネントのネットワークであること、２．平均最短パス長が比較的小さいネットワークであること、３．クラスタ係数が比較的大きいネットワークであることが望ましい。
このような特性を備えるネットワークをスモールワールドネットワークと記載する。スモールワールドネットワークには、本実施形態で記載したＧＲネットワークが含まれる。本実施形態で使用するＧＲネットワークにおける平均最短パス長と、クラスタ係数とに関する考察は、図１９から図２１を参照して後記する。

次に、図１１から図１８に沿って、本実施形態における実施形態例を示す。
なお、図１１から図１５は、クエリと同一の情報が情報探索集合の要素に含まれている探索問題に対する図であり、図１６から図１８は、クエリと同一の情報が情報探索集合の要素に含まれていない探索問題に対する図である。

図１１は、出次数ｋに対するコンポーネント数の変化を示す図である。
図１１において、横軸は、出次数ｋの値を示し、縦軸は、コンポーネント数である。なお、図１１において、縦軸は、対数表示となっている。
なお、図１１における情報探索集合は、１０年分の新聞の記事における文書ファイルを要素とする集合である。そして、要素間の類似度は、以下の手順によって算出した。すなわち、各文書ファイルを形態素解析し、不要なストップワードを削除した上で、単語を抽出する。そして、抽出された単語に対し、ｔｆ−ｉｄｆ法で各単語に対し、重み付けを行う。この結果、生じる重み付け単語ベクトルを、該文書ファイルの特徴量とする。
その上で、文書ファイルを要素とし、コサイン類似度関数を用いて、要素間の類似度を規定する。
この例で用いた要素数（文書ファイル数）は、６４５８５個であり、距離空間の次元数は、５１０３０となった。
図１１において示されるようにｋ＝６において、コンポーネント数は、１となる。すなわち、ｋ＝６で、１コンポーネントのＧＲネットワークの生成が可能となる。すなわち、ｋ≧６以上であれば、１コンポーネントのＧＲネットワークを生成することができる。

図１２は、出次数ｋに対する平均探索コストの変化を示す図である。
図１２において、横軸は、出次数ｋの値を示し、縦軸は、平均探索コストである。
図１２では、前記した１０年分の新聞記事の文書ファイルの要素から、ランダムに１０００００個のペア要素（クエリと、起点要素のペア）を選択し、前記した情報探索集合に対して、本実施形態における情報探索処理を行った結果を示す。
コスト上限値は、無限大に設定されている。また、平均探索コストとは、同一の情報探索集合に対し、クエリと、起点要素とを変化させて、情報探索をおこなったときの探索コストの平均値である。
図１２で示されるように出次数ｋ＝６０において、平均探索コストは、最小の２１６．７２となった。この値は、全要素を探索した場合の探索コストの０．３４％である。

平均コストが、最小値をもつ理由として、次の理由が考えられる。本実施形態における探索コストは、平均次数と平均ステップ数との積にほぼ近い値となる。ここで、ステップ数とは、最終出力要素を算出するまでにたどった起点要素ｘ０と要素ｘ１（図７参照）との数である。すなわち、図７における黒丸の数である。
一般に、出次数ｋは、図１１および図１２の手順によって、決定される。

図１３は、出次数ｋに対する平均次数の変化を示す図であり、図１４は、出次数ｋに対するステップ数の変化を示す図である。
図１３において、横軸は、出次数ｋを示し、縦軸は、平均次数を示す。
また、図１４において、横軸は、出次数ｋを示し、縦軸は、ステップ数の平均値（Ａｖｅｒａｇｅ）または中央値（Ｍｅｄｉａｎ）を示す。
図１３および図１４の各ｋにおいて、平均次数の値と、ステップ数の平均値または中央値を乗算すると、ｋ＝６０において、平均探索コストが最小となることがわかる。

図１５は、探索コストと、クエリへの到達率を示す図である。
図１５において、横軸は、探索コストを示し、縦軸は、到達率を示す。なお、図１５において、横軸は、対数表示となっている。
到達率とは、前記したようなペア要素（クエリと、起点要素のペア）を１０００００個選択したとき、そのうち、該当する探索コストでクエリに到達したペア要素の割合である。
図１２において、最も平均探索コストが小さかったｋ＝６０に注目すると、５０％のペア要素で探索コストが、１９０以下であり、９０％のペア要素で探索コストが３６６以下である。すなわち、選択したペア要素のうち、探索コストが１９０以下でクエリへ到達したペア要素は、選択したペア要素のうちの５０％であり、探索コストが３６６以下でクエリへ到達したペア要素は、選択したペア要素のうちの９０％であることを示す。

本実施形態例における全要素数は、前記したように６４５８５個であり、そのうちの０．６％がほぼ３８８個である。すなわち、本実施形態の情報探索処理に、本実施形態例の情報探索空間に、本実施形態の情報探索処理を適用すると、上限コストβ（図８参照）を全要素数の０．６％程度の値に設定したとしても、９０％の確率で探索が成功することがわかる。

次に、図１６から図１８に沿って、本実施形態をクエリと同一の情報が情報探索集合の要素に含まれていない探索問題に適用した際の実施形態例を説明する。
なお、図１６から図１８における各用語の定義は、図１１から図１５における用語と同様である。
図１６は、出次数ｋに対するコンポーネント数の変化を示す図である。
図１６における条件は、以下の通りである。
図１１から図１５において、用いた情報探索集合（要素数：６４５８５個）の中から、一様ランダムに６４５８要素を選択し、これをクエリとした。そして、残りの５８１２７個の要素を情報探索集合とした。
図１６において、横軸は、出次数ｋの値を示し、縦軸は、コンポーネント数である。なお、図１６において、横軸は、対数表示となっている。
図１６において示されるようにｋ＝７において、コンポーネント数は、１となる。すなわち、ｋ＝７で、１コンポーネントのＧＲネットワークの生成が可能となる。すなわち、ｋ≧７以上であれば、１コンポーネントのＧＲネットワークを生成することができる。

図１７は、出次数ｋに対する平均探索コストの変化を示す図である。
図１７において、横軸は、出次数ｋの値を示し、縦軸は、平均探索コストである。
なお、図１７における条件は、図１２における条件と同様である。
平均探索コストとは、同一の情報探索集合に対し、クエリと、起点要素とを変化させて、情報探索をおこなったときの探索コストの平均値である。ここでは、クエリとして選択した６４５８個の要素の各々に対して、一様ランダムに選択した１０個の起点要素を用いて、本実施形態に係る情報探索を行い、平均探索コストを算出した。
図１７で示されるようにｋ＝９０において、平均探索コストは、最小の６４６．１１となった。この値は、全要素を探索した場合の探索コストの１．１１％である。
一般に、出次数ｋは、図１６および図１７の手順によって、決定される。

図１８は、探索コストと、クエリへの到達率を示す図である。
図１８において、横軸は、探索コストを示し、縦軸は、到達率を示す。なお、図１８において、横軸は、対数表示となっている。
到達率とは、現在探索中の要素とクエリとの距離を起点要素と、クエリとの距離で除算したものである。
図１７において、最も平均探索コストが小さいｋ＝９０に注目すると、５０％のペア要素で探索コストが、２７２以下であり、９０％のペア要素で探索コストが９１７以下である。

本実施形態例における全要素数は、５８１２７個であり、この１．６％がほぼ９３０個である。すなわち、本実施形態の情報探索処理に、本実施形態例の情報探索空間に、本実施形態の情報探索処理を適用すると、上限コストβ（図８参照）を全要素数の１．６％程度の値に設定したとしても、９０％の確率で探索が成功することがわかる。

次に、図１９から図２１に沿って、本実施形態で用いたＧＲネットワークの特性を説明する。
図１９は、ランダムネットワークおよびＧＲネットワークにおける出次数ｋに対する平均最短パス長の変化を示す図であり、図２０は、ランダムネットワーク、ＧＲネットワークおよびレギュラーネットワークにおける出次数ｋに対する平均最短パス長の変化を示す図である。
ここで、ランダムネットワークとは、情報探索集合中の任意の要素と、要素との結合をランダムに行ったネットワークである。レギュラーネットワークとは、情報探索集合中の要素間の結合を、所定の規則に従って結合したネットワークである。
図１９および図２０の横軸は、出次数ｋを示し、縦軸は、平均最短パス長を示す。ただし、図２０において、縦軸は、対数表示となっている。
図１９および図２０に示すように、各出次数ｋにおけるＧＲネットワーク（ＧＲＮＷ）の平均最短パス長は、レギュラーネットワーク（ＲｅｇｕｌａｒＮＷ）の平均最短パス長よりかなり小さく、ランダムネットワーク（ＲａｎｄｏｍＮＷ）の平均最短パス長に近い値を有する。
一般に、スモールワールドネットワークにおける平均最短パス長は、式（１６）を満たすオーダであることが望ましい。
ｌｏｇ_１０（スモールワールドネットワークの平均最短パス長／ランダムネットワークの平均最短パス長）＜１・・・式（１６）

図２１は、ランダムネットワーク、ＧＲネットワークおよびレギュラーネットワークにおける出次数ｋに対するクラスタ係数の変化を示す図である。
図２１の横軸は、出次数ｋを示し、縦軸は、クラスタ係数を示す。なお、図２１において、縦軸は、対数表示となっている。
図２１に示すように、各ｋにおけるＧＲネットワーク（ＧＲＮＷ）のクラスタ係数は、ランダムネットワーク（ＲａｎｄｏｍＮＷ）のクラスタ係数より大きく、レギュラーネットワーク（ＲｅｇｕｌａｒＮＷ）のクラスタ係数に近い値を有する。

第１実施形態に係る情報探索システムの構成例を示す図である。第１実施形態に係るネットワーク生成処理の概要を示す図である（その１）。第１実施形態に係るネットワーク生成処理の概要を示す図である（その２）。第１実施形態に係るネットワーク生成処理の流れを示すフローチャートである。第１実施形態に係る貪欲戦略に基づく探索処理の流れを示すフローチャートである。ネットワーク生成部によって算出されたＧＲネットワークの記憶部での記憶状態を示す図である。第１実施形態に係る情報探索処理の概要を示す図である。第１実施形態に係る情報探索処理の流れを示すフローチャートである。第２実施形態に係るｋ−ＧＲネットワーク生成の概要を示す図である。第２実施形態に係るネットワーク生成処理の流れを示すフローチャートである。出次数ｋに対するコンポーネント数の変化を示す図である。出次数ｋに対する平均探索コストの変化を示す図である。出次数ｋに対する平均次数の変化を示す図である。出次数ｋに対するステップ数の変化を示す図である。探索コストと、クエリへの到達率を示す図である。出次数ｋに対するコンポーネント数の変化を示す図である。出次数ｋに対する平均探索コストの変化を示す図である。探索コストと、クエリへの到達率を示す図である。ランダムネットワークおよびＧＲネットワークにおける出次数ｋに対する平均最短パス長の変化を示す図である。ランダムネットワーク、ＧＲネットワークおよびレギュラーネットワークにおける出次数ｋに対する平均最短パス長の変化を示す図である。ランダムネットワーク、ＧＲネットワークおよびレギュラーネットワークにおける出次数ｋに対するクラスタ係数の変化を示す図である。情報探索空間から、無作為に１×１０^６個のペア要素（２つの要素）を選択し、このペア要素間の距離の累積分布を示す図である。図２２と同様の条件下における距離の下界の累積分布を示す図である。

符号の説明

１情報探索装置
２処理部
３記憶部
４入力部
５出力部
１０物理的ネットワーク
１１端末
１２情報探索システム
２１ネットワーク生成部
２２探索処理部

Claims

記憶部に格納されている情報探索集合の情報に対応する要素における前記要素間の類似度に基づき要素間ネットワークを生成するネットワーク生成装置におけるネットワーク生成方法であって、
前記ネットワーク生成装置が、
各要素を前記記憶部から取得し、
（ａ１）前記取得した要素それぞれを、前記情報探索集合の他の１以上の前記要素と直接的にリンク結合し、
（ａ２）前記取得した各要素から、前記情報探索集合の任意の前記要素である第１の要素を抽出し、当該第１の要素からｋ番目（ただし、ｋは１より大きい整数）に類似度の大きい要素である第２の要素を、前記取得した各要素から抽出し、
（ａ３）前記第２の要素に直接的にリンク結合している前記要素である第３の要素を、前記取得した各要素から抽出し、
（ａ４）前記第１の要素と前記第３の要素との類似度、および前記第１の要素と前記第２の要素との類似度を比較し、
（ａ５）前記（ａ４）の結果、前記第１の要素と前記第３の要素との類似度が、前記第１の要素と前記第２の要素との類似度以上である場合、前記第３の要素を、新たな前記第２の要素として、前記新たな第２の要素を用いて前記（ａ４）の処理を行い、
（ａ６）前記（ａ４）の結果、前記第１の要素と前記第２の要素との類似度が、前記第１の要素と前記第３の要素との類似度より大きい場合、前記第１の要素と前記第２の要素とを、直接的、または、前記第１の要素および前記第２の要素以外の要素を介することにより間接的にリンク結合し、前記（ａ１）から前記（ａ６）の処理をｋが２から所定の値になるまで、前記情報探索集合の前記要素それぞれに対して繰り返すことにより、ネットワークを生成し、前記生成したネットワークを前記記憶部に格納することを特徴とするネットワーク生成方法。
前記第２の要素と、前記第１の要素に直接的にリンク結合している前記第１の要素以外の要素とを、直接的にリンク結合することを特徴とする請求項１に記載のネットワーク生成方法。
前記第２の要素と、前記第１の要素とを、直接的にリンク結合することを特徴とする請求項１に記載のネットワーク生成方法。
記憶部に保持されている情報探索集合の情報に対応する複数の要素からクエリと類似した情報を探索する情報探索装置における情報探索方法であって、
探索処理部が、
（ｂ１）請求項１から請求項３のいずれか一項に記載のネットワーク生成方法によって、生成されたネットワークにおいて、所定の第４の要素に直接的にリンク結合された前記要素を前記記憶部から取得し、前記取得した要素のうち、前記クエリとの類似度が最も大きい要素を第５の要素として選択し、
（ｂ２）当該第５の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第５の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、
（ｂ３）前記第５の要素を第６の要素とし、前記ネットワークにおいて、当該第６の要素に直接的にリンク結合された要素を、前記記憶部から取得し、
（ｂ４）前記第６の要素に直接的にリンク結合された要素のうち、過去に前記第５の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第５の要素とし、当該新たな第５の要素に対して、前記（ｂ２）の処理を行うことにより、前記クエリと類似した要素を探索することを特徴とする情報探索方法。
請求項１に記載のネットワーク生成方法を、コンピュータに実行させることを特徴とするプログラム。
請求項４に記載の情報探索方法を、コンピュータに実行させることを特徴とするプログラム。
記憶部に格納されている情報探索集合の情報に対応する要素における前記要素間の類似度に基づき要素間ネットワークを生成するネットワーク生成装置であって、
各要素を前記記憶部から取得し、（ａ１）前記取得した要素それぞれを、前記情報探索集合の他の１以上の前記要素と直接的にリンク結合し、（ａ２）前記取得した各要素から、前記情報探索集合の任意の前記要素である第１の要素を抽出し、当該第１の要素からｋ番目（ただし、ｋは１より大きい整数）に類似度の大きい要素である第２の要素を、前記取得した各要素から抽出し、（ａ３）前記第２の要素に直接的にリンク結合している前記要素である第３の要素を、前記取得した各要素から抽出し、（ａ４）前記第１の要素と前記第３の要素との類似度、および前記第１の要素と前記第２の要素との類似度を比較し、（ａ５）前記（ａ４）の結果、前記第１の要素と前記第３の要素との類似度が、前記第１の要素と前記第２の要素との類似度以上である場合、前記第３の要素を、新たな前記第２の要素として、前記新たな第２の要素を用いて前記（ａ４）の処理を行い、（ａ６）前記（ａ４）の結果、前記第１の要素と前記第２の要素との類似度が、前記第１の要素と前記第３の要素との類似度より大きい場合、前記第１の要素と前記第２の要素とを、直接的、または、前記第１の要素および前記第２の要素以外の要素を介することにより間接的にリンク結合し、前記（ａ１）から前記（ａ６）の処理をｋが２から所定の値になるまで、前記情報探索集合の前記要素それぞれに対して繰り返すことにより、ネットワークを生成し、前記生成したネットワークを前記記憶部に格納するネットワーク生成部を有することを特徴とするネットワーク生成装置。
記憶部に保持されている情報探索集合の情報に対応する複数の要素からクエリと類似した情報を探索する情報探索装置であって、
（ｂ１）請求項７に記載のネットワーク生成装置によって、生成されたネットワークにおいて、所定の第４の要素に直接的にリンク結合された前記要素を前記記憶部から取得し、前記取得した要素のうち、前記クエリとの類似度が最も大きい要素を第５の要素として選択し、（ｂ２）当該第５の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第５の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、（ｂ３）前記第５の要素を第６の要素とし、前記ネットワークにおいて、当該第６の要素に直接的にリンク結合された要素を、前記記憶部から取得し、（ｂ４）前記第６の要素に直接的にリンク結合された要素のうち、過去に前記第５の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第５の要素とし、当該新たな第５の要素に対して、前記（ｂ２）の処理を行うことにより、前記クエリと類似した要素を探索する探索処理部を有することを特徴とする情報探索装置。