JP4774019B2 - ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置 - Google Patents

ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置 Download PDF

Info

Publication number
JP4774019B2
JP4774019B2 JP2007150417A JP2007150417A JP4774019B2 JP 4774019 B2 JP4774019 B2 JP 4774019B2 JP 2007150417 A JP2007150417 A JP 2007150417A JP 2007150417 A JP2007150417 A JP 2007150417A JP 4774019 B2 JP4774019 B2 JP 4774019B2
Authority
JP
Japan
Prior art keywords
network
similarity
elements
information search
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007150417A
Other languages
English (en)
Other versions
JP2008305072A (ja
Inventor
一生 青山
和巳 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007150417A priority Critical patent/JP4774019B2/ja
Publication of JP2008305072A publication Critical patent/JP2008305072A/ja
Application granted granted Critical
Publication of JP4774019B2 publication Critical patent/JP4774019B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置に関する。
情報である要素の間の関係が距離、非類似度または類似度により定義される集合を情報空間Ωとする。情報空間Ωの任意の2つの要素x,y∈Ωの距離を距離関数d(x,y)により定義する。情報空間Ωにおける距離関数は、次の式を充足する。
d(x,y)≧0・・・式(1)
d(x,y)=d(y,x)・・・式(2)
d(x,y)=0 if x=y・・・式(3)
式(1)を非負数条件、式(2)を対称性条件という。情報空間の部分集合でもある情報探索集合(被探索集合、探索対象集合とも呼ぶ)X⊂Ωにおいて、当該情報空間の要素であるクエリq∈Ωと最も距離の小さい要素の集合R(q)⊂Xは、式(4)により表される。
Figure 0004774019
情報空間のうち要素間の距離が、非負数条件および対称条件に加えて、次の式(5)および式(6)を充足するものを距離空間Ωdとする。
d(x,y)=0 iff x=y・・・式(5)
d(x,y)+d(y,z)≧d(x,y)・・・式(6)
式(5)を反射条件とよび、式(6)を三角不等式とよぶ。
従来、距離空間の要素(情報)であるクエリに類似する要素を情報探索集合から、入力されたクエリに類似する情報を探索する情報探索方法として、TLAESA(Tree Linear Approximating and Eliminating Search Algorithm)がある(例えば、非特許文献1)。TLAESAは、クエリが入力される前の事前処理と、クエリが入力された後の事後処理とを行うことで、情報の探索を行う。事前処理は、情報探索集合(被探索集合)における複数の要素(ベースプロトタイプと呼ぶ)を選択し、それらと他の全て要素との距離を算出する工程と、情報探索集合の全ての要素からなる二分木を構築する工程とからなる。事後処理は、クエリが入力された直後に、当該クエリと、選択されたベースプロトタイプとの距離を算出する工程、距離空間の性質の1つである3つの要素間の距離の大小関係を表す三角不等式と二分木とを利用し、探索空間を削減しながら探索する工程とからなる。TLAESAは、三角不等式を有効利用し探索空間を削減し、探索コストを低減している。ここで、探索コストとは、情報探索の効率を評価する際に用いられる値であり、クエリと探索対象集合の要素との類似度計算または距離計算の回数である。
このように、三角不等式を用いて、探索空間を削減する情報探索方法としては、TLAESAの他に、LAESA(Linear Approximating and Eliminating Search Algorithm:例えば、非特許文献2参照)や、AESA(Approximating and Eliminating Search Algorithm:例えば、非特許文献3参照)などが提案されている。
「A fast branch & bound nearest neighbour classifier in metric space」,Luisa Mico,Jose Oncina, Rafael C. Carrasco, Pattern Recognition Letters vol.17,p.731-p.739 1996年 「A new version of the Nearest-Neighbour Approximating and Eliminating Search Algorithm(AESA) with linear preprocessing time and memory requirements」,Luisa Mico,Jose Oncina, Pattern Recognition Letters vol.15,p.9-p.7 1994年1月 「An algorithm for finding nearest neighbours in (approximately) constant average time」,E. Vidal, Pattern Recognition Letters vol.4,p.145-p.157 1986年7月
ところで、例えば、入力された文書に類似の文書を文書ファイル群から探索する場合、すなわち、文書を被探索集合とした場合、文書間の関係性を規定する類似度や、距離を算出する際に用いられる文書から抽出される特徴量が高次元になる場合がある。これは、文書の特徴量として、文書中に出現する異なる単語からなる単語ベクトルを用い、その単語ベクトルの1要素を1次元とするため、情報探索集合(探索対象集合または被探索集合とも呼ぶ)中の全文書ファイルに生じる単語の異なり数だけ次元が生じるためである。
次に、図22および図23に沿って、TLAESAにおける問題点を説明する。
なお、図22および図23における情報探索集合は、10年分の新聞記事の文書ファイルを要素(情報)とする集合である。
ここで、情報探索集合における要素間の距離は、以下の手順で算出される。まず、各文書ファイル中に記載されている文書を形態素解析し、不要なストップワードを削除した上で、単語を文書(文書ファイル)から抽出する。ここで、ストップワードとは、情報探索において、ありふれた単語であるため検索語としては不適切なため、検索語としては無視される語である。日本語では、ひらがなやカタカナの1文字の語などがストップワードとなる。そして、抽出された単語に対し、tf−idf(term frequency-inverted document frequency)法で各単語に対し、重み付けを行う。この結果、生じる重み付け単語ベクトルを、該文書ファイルの特徴量とする。その上で、情報探索集合の文書ファイルを要素とし、特徴量に対するコサイン距離を用いて、要素間の距離を規定する。単語ベクトルを特徴量とした場合に用いられるコサイン類似度は、類似または非類似の尺度として広く用いられている。
この例で用いた要素数(文書ファイル数)は、64585個であり、特徴量である重み付け単語ベクトルは、51030次元となった。これは距離空間の次元が51030であるとも言える。
図22は、この情報探索空間から、無作為に1×10個のペア要素(2つの要素)を選択し、このペア要素間の距離の累積分布を示す図である。
図22において、横軸は、ペア要素間の距離を示し、縦軸は、対応する距離を有するペア要素の全体のペア要素に対する割合の累積値である。
なお、距離は、コサイン距離を用い、かつ情報探索集合内で最も遠い要素間の距離が1.0となるよう規格化されている。
図22では、距離が0.8以下である要素数は、非常に少なく、1.0付近にほとんどのペア要素が存在することが示されている。詳細には、距離が0.98以上のペア要素の割合は、全体の90%であることが示されている(図22の太線)。
すなわち、図22から、この10年分の新聞記事の文書ファイルを要素とする情報探索集合では、各要素間が疎になっていることがわかる。
図23は、図22と同様の条件下における距離の下界の累積分布を示す図である。
距離の下界は、図22と同じペア要素と、ランダムに選択した200個の要素(TLAESAのベースプロトタイプに相当)とを用いて、距離の下界を算出した。
図23において、横軸は、このような方法で算出した距離の下界の値を示し、縦軸は、距離の下界の値が、算出したすべての距離の下界に対する割合の累積値である。
図23では、0.4以下に、距離の下界のほとんどが入っていることが示されている。特に、0.138以下の距離の下界が、全体の90%を占めている。探索空間の削減は、情報探索過程のある時点でのクエリとある要素との距離と比較して、距離の下界が大きい要素を探索対象集合、すなわち、クエリとの距離を計算する対象の要素の集合から除くことによりなされる。情報探索過程のある時点でのクエリとある要素との距離が0.98であったと仮定する。図23より、距離の下界が0.98よりも大きい要素はほとんど存在しないので、この時点で削減される要素はほとんどない。このように、要素における特徴量が高次元になる場合、情報探索集合におけるある要素とクエリとの距離を計算し、距離の下界が比較対象の距離より大きい要素を情報探索集合から除き、探索空間を削減する方法は有効に機能しない。
このように、文書ファイルなど距離空間の次元数が大きくなる情報探索集合では、三角不等式から算出される距離の下界を用いた探索空間の削減が有効に機能しない。
すなわち、文書ファイルなど距離空間の次元数が大きくなる情報探索集合に対し、TLAESAや、LAESAや、AESAなどを適用しても、探索空間の削減がほとんどなされず、結果として、1つ1つの要素ごとにクエリとの距離を算出することになり、効率的な情報探索が行われないという問題が生じる。
さらに、TLAESAなどでは、前述の通り三角不等式を用いるが、これは距離空間が情報探索集合であることが前提となる。従って、距離空間ではない情報に関して、TLAESAなどの三角不等式を利用し探索空間を削減する枝刈り方法に基づくアルゴリズムを、直接適用することは困難である。
本発明は、情報探索集合が高次元距離空間である場合または情報空間である場合であっても、情報を探索できることを目的とする。
本発明は、前記課題を解決するために創案されたものであり、本発明に係るネットワーク生成方法は、記憶部に格納されている情報探索集合の情報に対応する要素における前記要素間の類似度に基づき要素間ネットワークを生成するネットワーク生成装置におけるネットワーク生成方法であって、前記ネットワーク生成装置が、各要素を前記記憶部から取得し、(a1)前記取得した要素それぞれを、前記情報探索集合の他の1以上の前記要素と直接的にリンク結合し、(a2)前記取得した各要素から、前記情報探索集合の任意の前記要素である第1の要素を抽出し、当該第1の要素からk番目(ただし、kは1より大きい整数)に類似度の大きい要素である第2の要素を、前記取得した各要素から抽出し、(a3)前記第2の要素に直接的にリンク結合している前記要素である第3の要素を、前記取得した各要素から抽出し、(a4)前記第1の要素と前記第3の要素との類似度、および前記第1の要素と前記第2の要素との類似度を比較し、(a5)前記(a4)の結果、前記第1の要素と前記第3の要素との類似度が、前記第1の要素と前記第2の要素との類似度以上である場合、前記第3の要素を、新たな前記第2の要素として、前記新たな第2の要素を用いて前記(a4)の処理を行い、(a6)前記(a4)の結果、前記第1の要素と前記第2の要素との類似度が、前記第1の要素と前記第3の要素との類似度より大きい場合、前記第1の要素と前記第2の要素とを、直接的、または、前記第1の要素および前記第2の要素以外の要素を介することにより間接的にリンク結合し、前記(a1)から前記(a6)の処理をkが2から所定の値になるまで、前記情報探索集合の前記要素それぞれに対して繰り返すことにより、ネットワークを生成し、前記生成したネットワークを前記記憶部に格納する方法とした。
このような方法によれば、情報探索集合中の任意の要素が、直接的または間接的にリンク結合した1コンポーネントのネットワークを生成することができる。このような、1コンポーネントのネットワークを用いて探索を行い、距離空間の性質である三角不等式を用いていないため、情報探索集合が、高次元距離空間である場合や、情報探索集合が、距離空間でない場合であっても、情報探索を行うことができる。
また、リンクの生成条件を設けているため、リンク数の少ないネットワークを生成することができる。
さらに、このような方法によって、生成されたネットワークを使用して情報探索を行うと、探索コストの削減が可能となる。
また、本発明に係るネットワーク生成方法は、前記第2の要素と、前記第1の要素に直接的にリンク結合している前記第1の要素以外の要素とを、直接的にリンク結合する方法とした。
このような方法によれば、第1の要素から外れた要素にリンクを生成するため、第1の要素にリンクが集中することを避けることが可能となる。
さらに、本発明に係るネットワーク生成方法は、前記第2の要素と、前記第1の要素とを、直接的にリンク結合する方法とした。
このような方法によれば、少ないアルゴリズムのステップ数で1コンポーネントのネットワークを生成することが可能となる。また、任意の要素に対し、類似度の大きい順に所定数の要素とリンク結合させる手順によって生成した近傍要素ネットワークのリンクを削減したネットワークを生成することができる。
また、本発明に係る情報探索方法は、記憶部に保持されている情報探索集合の情報に対応する複数の要素からクエリと類似した情報を探索する情報探索装置における情報探索方法であって、探索処理部が、(b1)請求項1から請求項3のいずれか一項に記載のネットワーク生成方法によって、生成されたネットワークにおいて、所定の第4の要素に直接的にリンク結合された前記要素を前記記憶部から取得し、前記取得した要素のうち、前記クエリとの類似度が最も大きい要素を第5の要素として選択し、(b2)当該第5の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第5の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、(b3)前記第5の要素を第6の要素とし、前記ネットワークにおいて、当該第6の要素に直接的にリンク結合された要素を、前記記憶部から取得し、(b4)前記第6の要素に直接的にリンク結合された要素のうち、過去に前記第5の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第5の要素とし、当該新たな第5の要素に対して、前記(b2)の処理を行うことにより、前記クエリと類似した要素を探索する方法とした。
このような方法によれば、探索コストの小さい情報探索を実現することができる。
また、本発明に係るプログラムは、前記したネットワーク生成方法をコンピュータに実行させるプログラムとした。
このようなプログラムによれば、情報探索集合中の任意の要素が、直接的または間接的にリンク結合した1コンポーネントのネットワークを生成することができる。このような、1コンポーネントのネットワークを用いて探索を行い、距離空間の性質である三角不等式を用いていないため、情報探索集合が、高次元距離空間である場合や、情報探索集合が、距離空間でない場合であっても、情報探索を行うことができる。
また、リンクの生成に対して、制限を設けているため、リンク数の少ないネットワークを生成することができる。
さらに、このようなプログラムによって、生成されたネットワークを使用して情報探索を行うと、探索コストの削減が可能となる。
さらに、本発明に係るプログラムは、前記した情報探索方法をコンピュータに実行させるプログラムとした。
このようなプログラムによれば、探索コストの小さい情報探索を実現することができる。
また、本発明に係るネットワーク生成装置は、記憶部に格納されている情報探索集合の情報に対応する要素における前記要素間の類似度に基づき要素間ネットワークを生成するネットワーク生成装置であって、各要素を前記記憶部から取得し、(a1)前記取得した要素それぞれを、前記情報探索集合の他の1以上の前記要素と直接的にリンク結合し、(a2)前記取得した各要素から、前記情報探索集合の任意の前記要素である第1の要素を抽出し、当該第1の要素からk番目(ただし、kは1より大きい整数)に類似度の大きい要素である第2の要素を、前記取得した各要素から抽出し、(a3)前記第2の要素に直接的にリンク結合している前記要素である第3の要素を、前記取得した各要素から抽出し、(a4)前記第1の要素と前記第3の要素との類似度、および前記第1の要素と前記第2の要素との類似度を比較し、(a5)前記(a4)の結果、前記第1の要素と前記第3の要素との類似度が、前記第1の要素と前記第2の要素との類似度以上である場合、前記第3の要素を、新たな前記第2の要素として、前記新たな第2の要素を用いて前記(a4)の処理を行い、(a6)前記(a4)の結果、前記第1の要素と前記第2の要素との類似度が、前記第1の要素と前記第3の要素との類似度より大きい場合、前記第1の要素と前記第2の要素とを、直接的、または、前記第1の要素および前記第2の要素以外の要素を介することにより間接的にリンク結合し、前記(a1)から前記(a6)の処理をkが2から所定の値になるまで、前記情報探索集合の前記要素それぞれに対して繰り返すことにより、ネットワークを生成し、前記生成したネットワークを前記記憶部に格納するネットワーク生成部を有する構成とした。
このような構成によれば、情報探索集合中の任意の要素が、直接的または間接的にリンク結合した1コンポーネントのネットワークを生成することができる。このような、1コンポーネントのネットワークを用いて探索を行い、距離空間の性質である三角不等式を用いていないため、情報探索集合が、高次元距離空間である場合や、情報探索集合が、距離空間でない場合であっても、情報探索を行うことができる。
また、リンクの生成に対して、制限を設けているため、リンク数の少ないネットワークを生成することができる。
さらに、このような構成によって、生成されたネットワークを使用して情報探索を行うと、探索コストの削減が可能となる。
さらに、本発明に係る情報探索装置は、記憶部に保持されている情報探索集合の情報に対応する複数の要素からクエリと類似した情報を探索する情報探索装置であって、(b1)前記したネットワーク生成装置によって、生成されたネットワークにおいて、所定の第4の要素に直接的にリンク結合された前記要素を前記記憶部から取得し、前記取得した要素のうち、前記クエリとの類似度が最も大きい要素を第5の要素として選択し、(b2)当該第5の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第5の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、(b3)前記第5の要素を第6の要素とし、前記ネットワークにおいて、当該第6の要素に直接的にリンク結合された要素を、前記記憶部から取得し、(b4)前記第6の要素に直接的にリンク結合された要素のうち、過去に前記第5の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第5の要素とし、当該新たな第5の要素に対して、前記(b2)の処理を行うことにより、前記クエリと類似した要素を探索する探索処理部を有する構成とした。
このような構成によれば、探索コストの小さい情報探索を実現することができる。
本発明によれば、情報探索集合が高次元距離空間である場合または情報空間である場合であっても、情報を探索することが可能となる。
以下、図面を参照して、本発明を実施するための最良の形態(以下、「実施形態」という)について詳細に説明する。
(第1実施形態:システム構成)
まず、図1〜図8を参照して、本発明に係る第1実施形態について説明する。
図1は、第1実施形態に係る情報探索システムの構成例を示す図である。
情報探索システム12は、情報の探索を行う情報探索装置1と、情報探索装置1に対してクエリを送信する端末11とが、WAN(Wide Area Network)や、LAN(Local Area Network)などの物理的ネットワーク10を介して接続している。
情報探索装置1は、情報の処理を行う処理部2と、探索対象の情報などが格納されている記憶部3と、情報が入力される入力部4と、情報探索の結果などを出力する出力部5とを含んでなる。記憶部3は、HD(Hard Disk)、不揮発性メモリ、RAM(Random Access Memory)などの種々の記憶媒体の少なくとも1つから構成され、プログラムが実装される計算機の構成形態に依存した前記記憶媒体の組合せで構成される。
端末11から送信されたクエリは、物理的ネットワーク10および入力部4を介して、処理部2へと送られる。また、ユーザが、入力部4を介して直接処理部2へクエリを入力してもよい。
処理部2は、ネットワーク生成処理を行うネットワーク生成部21(ネットワーク生成装置)と、情報探索処理を行う探索処理部22とを含んでなる。ここで、ネットワークとは、情報探索集合内における要素が、リンクによって結合しているときの、要素間のネットワークを指す。
処理部2と、処理部2内のネットワーク生成部21および探索処理部22とは、図示しないHDや、ROM(Read Only Memory)や、RAMや、不揮発性メモリなどを記録媒体とする記憶装置に格納されているプログラムが、図示しないRAMに展開され、図示しないCPU(Central Processing Unit)によって実行されることで具現化する。
なお、本実施形態では、ネットワーク生成部21と、探索処理部22と、記憶部3とが同一の情報探索装置1に設けられている例を示しているが、これに限らず、ネットワーク生成部21と、探索処理部22と、記憶部3とのうち、少なくとも1つを有している装置を複数設け、互いにLANなどの物理的ネットワークで接続してもよい。
(GR(Greedy Reachable)ネットワークの生成処理)
まず、図1を参照しつつ、図2および図3に沿って、ネットワーク生成処理の概要を説明する。
図2および図3は、第1実施形態に係るネットワーク生成処理の概要を示す図である。
図2および図3において、符号100は、情報探索集合の情報に対応する要素である。ここで、情報とは、具体的には、例えば、新聞、特許公報などのテキストファイル、または、XML(Extensive Markup Language)による文書ファイルなどである。また、情報探索集合の情報に対応する要素とは、当該情報から抽出された特徴量、または、当該情報自体である。後者の意味で用いる場合は、類似度算出する際に、計算に適した量(スカラー量、ベクトル量など)に適宜変換される。なお、本実施形態における要素は、後者の意味で用いているが、前者の意味で用いてもよいことは当然である。
まず、ネットワーク生成部21は、図2に示す手順によって、1−GRネットワークを生成する。
まず、ネットワーク生成部21は、情報探索集合中の任意の要素xを取得する。
そして、ネットワーク生成部21は、要素x(x∈X:以降の式において、Xは、情報探索集合)との類似度が最も大きい近傍要素N1(x)を、情報探索集合中から求め、この近傍要素N1(x)との間に無向リンクを生成する(図2(a))。以降、無向リンクのことを単にリンクとも呼ぶ。本実施形態において、類似度は、コサイン類似度を指すものとするが、これに限らず、ミンコフスキー距離に代表される一般的な距離定義に基づく計算式や、コサイン類似度以外の類似度に基づく計算式を用いてもよい。ただし、類似度の代わりに距離を用いる場合には、大小関係が反転することを考慮し、以降の手続を適宜変更する必要がある。
次に、ネットワーク生成部21は、要素x以外の要素x’について、同様の処理を行い、要素x’との類似度が最も大きい近傍要素N1(x’)に、要素xが含まれているか否かを判定し、含まれていない場合、この要素x’と要素xとの間に新たな無向リンクを生成し(図2(b))、含まれている場合には、既に無向リンクが存在しているので、ネットワーク生成部21は、新たなリンクを生成しない。
近傍要素N1(x)と、要素x’とは、共に要素xに対する1−GRネットワークΓ(x)を構成する要素となる(図2(c))。
次に、図3(a)に沿って、ネットワーク生成処理において新たなリンクが生成されない場合の処理の概要を説明する。
図3において、説明する生成処理は、k(図4を参照して後記)=2における処理の例である。ここで、kとは仮の出次数のことである。ただし、ここでは無向リンクを扱うため、リンクが有向リンクであったと仮定した場合、出次数に相当する仮の最小近傍要素数である。ここで、「仮の」とは、本来出次数であるが、後記する貪欲戦略に基づく探索処理におけるリンク生成過程でリンク生成不要と判定された場合は、その生成されなかったリンク分だけ出次数より数が減るためである。本実施形態では、仮の出次数kを、出次数kと記載する。
なお、図3に示す処理を行う前に、ネットワーク生成部21は、図2で説明した1−GRネットワークを、情報探索集合中のすべての要素に対して生成しているものとする。
図3(a)において、1−GRネットワークを構成するリンクを図中の太線201〜203で示す。
すなわち、要素101に対する1−GRネットワークを構成する要素は、要素102である。要素102に対する1−GRネットワークを構成する要素は、要素101および要素103である。要素103に対する1−GRネットワークを構成する要素は、要素102および要素104である。要素104に対する1−GRネットワークを構成する要素は、要素103である。
まず、要素101に注目した際の処理を説明する。
要素101を要素xとする。ネットワーク生成部21は、最も自身に近い近傍要素N1(x)と、最も自身に近い2つの近傍要素N2(x)を、情報探索集合から求める。
図3(a)では、近傍要素N1(x)として要素102が求められ、近傍要素N2(x)として要素102および要素103が求められる。
次に、ネットワーク生成部21は、N2(x)−N1(x)である要素yを求める。図3(a)では、要素103が、要素yとなる。ここで、要素yは、要素xから2番目に類似度の大きい要素である。
次に、ネットワーク生成部21は、貪欲戦略による探索処理を行う。
貪欲戦略による探索処理の詳細については、後記するが、図3(a)に対して、この探索処理を適用すると、要素yは、図3(a)における矢印の方向へ移動し、最後に要素xに到達し、要素xを貪欲戦略による探索処理の結果として出力する。
そして、ネットワーク生成部21は、貪欲戦略による探索処理の結果、出力された要素が、要素xと等しいか否かを判定する。図3(a)では、当該出力された要素は、要素xに等しい。本実施形態では、貪欲戦略による探索処理の結果、出力された要素が要素xであった場合、すなわち、貪欲戦略による探索処理の結果、要素yが、要素xに到達した場合、新たなリンクを生成する処理は行わないという制限を設けている。従って、図3(a)の例では、新たなリンク結合を生成する処理は、行わない。
次に、図3(a)に沿って、貪欲戦略による探索処理の手順の概要を説明する。
まず、ネットワーク生成部21は、要素yに対する1−GRネットワークΓ(y)のうち、要素xに近い要素y*を求める。図3(a)では、1−GRネットワークΓ(y)は、要素104および要素102であり、要素y*は、要素102となる。
そして、ネットワーク生成部21は、要素xと要素y*との類似度ρ(y*,x)と、要素xと要素yとの類似度ρ(y,x)を求め、ρ(y*,x)<ρ(y,x)であるか否かを判定する。図3(a)では、要素y*の方が、要素yより、要素xに近い(類似度が大きい)ので、前記不等式を満たしていないことになる。
次に、ネットワーク生成部21は、要素y*を新たな要素yとする。図3(a)では、要素102が新たな要素yとなる(図示せず)。
そして、ネットワーク生成部21は、要素yに対する1−GRネットワークΓ(y)のうち、要素xに近い要素y*を求める。要素102を要素yとしたときのΓ(y)は、要素101であるため、図3(a)では、要素y*として、要素101が選択される。
そして、要素xと要素y*との類似度ρ(y*,x)と、要素xと要素yとの類似度ρ(y,x)を求め、ρ(y*,x)<ρ(y,x)であるか否かを判定する。この段階では、要素y*(要素101;要素x自身)の方が、要素y(要素102)より、要素xに近いので、前記不等式を満たしていないことになる。従って、この時点で、要素y*である要素101(要素x自身)が要素yとなる。
ネットワーク生成部21が、この時点で要素yである要素101に対する1−GRネットワークΓ(y)は、要素102を取得する。この時点で、要素yが要素x自身となるため、ρ(y*,x)<ρ(y,x)の不等式を満たすこととなる。
貪欲戦略による探索処理では、前記不等式を満たしたときの要素yを出力することになっている。従って、要素101(要素x)が、要素x*として出力される。
すなわち、図3(a)に示す要素xおよび要素yに、貪欲戦略による探索処理を適用すると、要素yは、図3(a)の方向へと移動していき、最後に要素xに到達する。ネットワーク生成部21は、この要素xを貪欲戦略による探索処理の結果として出力する。
次に、図3(b)に沿って、ネットワーク生成処理においてリンク生成される場合の処理の概要を説明する。
図3(b)でも、1−GRネットワークを構成するリンク204〜207を図中の太線で示す。
すなわち、要素105に対する1−GRネットワークを構成する要素は、要素106である。要素106に対する1−GRネットワークを構成する要素は、要素105である。要素107に対する1−GRネットワークを構成する要素は、要素109である。要素109に対する1−GRネットワークを構成する要素は、要素107、要素108および要素110である。要素110に対する1−GRネットワークを構成する要素は、要素109である。この時点では、要素106と、要素107との間には、リンクが存在していない。
図3(b)では、要素105に注目した例を示す。
すなわち、ネットワーク生成部21は、要素105を要素xとして求める。
次に、ネットワーク生成部21は、要素xに対する近傍要素N1(x)および近傍要素N2(x)を求める。図3(b)では、近傍要素N1(x)は、要素106であり、近傍要素群N2(x)は、要素106および要素107である。
次に、ネットワーク生成部21が、y=N2(x)−N1(x)(要素xから2番目に類似度の大きい要素)を求めると、要素107が要素yとして求められる。
次に、要素xおよび要素yに対して、ネットワーク生成部21が、貪欲戦略による探索処理を適用する。
ネットワーク生成部21が、要素yに対する1−GRネットワークΓ(y)のうちで、最も要素xに近い要素y*を求める。要素107に対する1−GRネットワークは、要素109であるので、ネットワーク生成部21は、要素109を要素y*として求める。
そして、ネットワーク生成部21が、ρ(y*,x)<ρ(y,x)を満たしているか否かを判定すると、要素y(要素107)の方が、要素y*(要素109)より、要素x(要素105)に近い(類似度が大きい)ため、ネットワーク生成部21は、貪欲戦略による探索処理の結果として、要素y(要素107)を出力する。
そして、ネットワーク生成部21が、貪欲戦略による探索処理の結果、出力された要素が、要素xに等しいか否かを判定すると、出力された要素は、要素yであり、要素xとは等しくないため、ネットワーク生成部21は、新たなリンクを生成する処理を行う。
ネットワーク生成部21は、近傍要素N1(x)と、要素xとの和集合(図3(b)では、要素105および要素106)のうち、要素y(要素107)との類似度が大きい要素zを求める。図3(b)では、要素zとして、要素106が求められる。そして、ネットワーク生成部21は、要素zと、要素yとの間に新たなリンクを生成する(図3(b)におけるリンク301)。
ネットワーク生成部21は、図3で説明した処理を、情報探索集合中のすべての要素に対して行う。図3で説明したように、k=2において生成されたリンクによるネットワークΓ(x)は、2−GRネットワークである。そして、情報探索中のすべての要素について、当該処理を行った後、kを1加算して、同様の処理を行う。これを、kが所定の値nとなるまで繰り返すことによって、情報探索集合中のすべての要素が、直接的または間接的にリンク結合したネットワークであるGRネットワークが生成される。ここで、直接的にリンク結合しているとは、図3(b)における要素107と要素109のようにリンク205によって、直接リンク結合していることをいう。また、間接的にリンク結合しているとは、図3(b)における要素107と、要素108のように、他の要素109を介してリンク結合していることをいう。このとき、GRネットワークは、各要素xに対するn−GRネットワークΓ(x)の集合となっており、1コンポーネントのネットワークとなっている。
ここで、コンポーネントとは、情報探索集合の部分集合であり、ある集合の任意の2つの要素間が少なくとも1つのリンクまたはリンクの連結により接続されているものである。ただし、リンクの連結とは、第1の要素と第2の要素との間のリンク、第2の要素と第3の要素との間のリンク、…、第(m−1)の要素と第mの要素との間のリンクのように、リンクの連なりのことをいう。このような場合、第1の要素と第mの要素とはリンクの連結により、間接的に接続されている。
例えば、「ネットワークが1コンポーネントである」とは、「任意の2つの要素間がリンクまたはリンクの連結により互いに接続されているネットワーク」であることをいう。
図4は、第1実施形態に係るネットワーク生成処理の流れを示すフローチャートである。
予め、ネットワーク生成部21は、記憶部3から、情報探索集合中における各要素を取得し、情報探索集合中におけるすべての要素xに対する1−GRネットワークΓ(x)を求める。1−GRネットワークΓ(x)は、式(7)で示される要素であり、図2に例示したような方法で生成される。
Figure 0004774019
ここで、N1(x)は、任意の要素xに対して、最も類似度が大きい要素である。
そして、ネットワーク生成部21は、任意の要素xに対する1−GRネットワークΓ(x)を、取得している各要素から抽出する(S101)。
次に、ネットワーク生成部21は、出次数k(以下、適宜kと記載)を2に設定する(k←2)(S102)。
そして、ネットワーク生成部21は、kが予め設定してある値nと等しいか否かを判定する(S103)。nは、ネットワーク生成のパラメータであり、テストデータなどを用いて、探索コストを評価関数として最適化することによって求められる。nの決定の方法は、図11、図12、図16および図17を参照して後記する。
ステップS104の結果、kがnと等しい場合(S103→Yes)、ネットワーク生成部21は、取得した各要素xに対するk−GRネットワークΓ(x)を記憶部3に記憶する(S104)。
ステップS104の結果、kがnと等しくない場合(S103→No)、ネットワーク生成部21は、要素xに対する近傍要素群Nk(x)および近傍要素群Nk−1(x)を求める(S105)。
そして、ネットワーク生成部21は、求めた近傍要素群Nk(x)と、近傍要素群Nk−1(x)との差集合である要素yを求める(y=Nk(x)−Nk−1(x))(S106)。すなわち、ネットワーク生成部21は、要素xからk番目に類似度の大きい要素yを、処理のはじめに取得した要素の中から抽出する。
そして、ネットワーク生成部21は、貪欲戦略に基づく探索処理を行う(S107)。ステップS107の処理は、図5を参照して後記する。
ネットワーク生成部21は、ステップS107における貪欲戦略に基づく探索処理の結果、出力された要素x*が、要素xと等しい(x=x*)か否かを判定する(S108)。すなわち、GRネットワークΓにおいて、要素xおよび要素yに対して貪欲戦略による探索処理を行うことをGS(x,y,Γ)で表すと、ステップS108は、x=GS(x,y,Γ)が、真であるか否かを判定することになる。
ステップS108の結果、要素x*が、要素xと等しい場合(S108→Yes)、ネットワーク生成部21は、ステップS111の処理へ進む。すなわち、ネットワーク生成部21は、新たなリンクを生成しない。
ステップS108の結果、要素x*が、要素xと等しくない場合(S108→No)、ネットワーク生成部21は、式(8)を満たす要素zを求める(S109)。すなわち、ネットワーク生成部21は、近傍要素群Nk−1(x)と、要素xとの和集合のうちで、最も要素yとの類似度が大きい要素zを求める。
Figure 0004774019
そして、ネットワーク生成部21は、式(9)を実行する(S110)ことによって、要素zと要素yとの間に新しいリンクを生成する。
Figure 0004774019
すなわち、ネットワーク生成部21は、要素zを要素yに対する(k−1)−GRネットワークΓ(y)に加え、要素yを要素zに対する(k−1)−GRネットワークΓ(z)に加えることで、要素yと要素zとの間に、無向リンクを生成する。これにより、ネットワーク生成部は、要素yと、要素xに直接的にリンク結合している要素x以外の要素zとを、直接的にリンク結合する。
そして、ネットワーク生成部21は、情報探索集合におけるすべての要素xに対して、ステップS106からステップS111の処理を行ったか否かを判定する(S111)。
ステップS111の結果、すべての要素xに対して、処理を行っていない場合(S111→No)、ネットワーク生成部21は、新たな要素xを取得し、ステップS105の処理へ戻る。
ステップS111の結果、すべての要素xに対して、処理を行った場合(S111→Yes)、ネットワーク生成部21は、kを1加算し(k←k+1:S112)、ステップS103の処理へ戻る。
この時点におけるネットワークΓ(x)は、ステップS109およびステップS110の処理の実行の有無にかかわらずk−GRネットワークとする。
なお、第1実施形態では、k−GRネットワークΓ(x)の更新(S110)を、ステップS107の後に行ったが、ステップS112の後に、すべての要素xに対し、一斉に更新してもよい。これは、後記する第2実施形態でも同様である。
図5は、第1実施形態に係る貪欲戦略に基づく探索処理の流れを示すフローチャートである。
ネットワーク生成部21は、式(10)を実行する(S201)。
Figure 0004774019
すなわち、ネットワーク生成部21は、要素yに対するk−GRネットワークΓ(y)のなかで、要素xに最も近い要素y*を求める。
そして、ネットワーク生成部21は、要素y*と、要素xとの類似度ρ(y*,x)および要素yと、要素xとの類似度ρ(y,x)を求め、ρ(y*,x)<ρ(y,x)の不等式が満たされているか否かを判定する(S202)。
ステップS202の結果、ρ(y*,x)<ρ(y,x)の不等式が満たされていない場合(S202→No)、ネットワーク生成部21は、要素yを要素y*とした(y←y*:S203)、後、ステップS201の処理へ戻る。
ステップS202の結果、ρ(y*,x)<ρ(y,x)の不等式が満たされていた場合(S202→Yes)、ネットワーク生成部21は、要素x*として、要素yを代入し(x*←y:S204)、要素x*を出力する。
このように、貪欲戦略による探索方法を実行することにより、新たなリンクの生成に制限を設けるため、小さなリンク数を有する1コンポーネントのネットワークを生成することができる。すなわち、少ないリンク数の1コンポーネントのネットワークを生成することができる。また、生成したGRネットワークを後記する情報探索処理に用いることで、探索コストの小さい情報探索を実現することができる。
図6は、ネットワーク生成部によって算出されたGRネットワークの記憶部での記憶状態を示す図である。
図6において、符号500は、n−GRネットワークの中心となる要素(中心要素:図3(b)において、中心要素を要素109とすると、この要素109を中心要素とするk−GRネットワークは、要素107,108,110となる。ただし、中心要素自身は、n−GRネットワークに含まれない)の要素番号であり、符号501は、この中心要素に対してn−GRネットワークを構成している要素の要素番号である。なお、ここでは、要素毎に一意の要素番号を予め付されているものとする。
例えば、要素番号「1」の要素に対してn−GRネットワークを構成している要素は、要素番号「3」である。そして、要素番号「2」の要素に対してn−GRネットワークを構成している要素は、要素番号「3」,「6」である。また、要素番号「3」の要素に対してn−GRネットワークを形成している要素は、要素番号「1」,「2」である。
このようなネットワーク生成処理によれば、所定数の近傍要素の集合であるn−GRネットワークの集合として、GRネットワークを生成するため、平均最短パス長の小さいネットワークの生成が可能となる。ここで、パス長とは、情報探索集合内における任意の2つのノード間のリンクの数である。また、このようなネットワーク生成処理によれば、情報探索集合内のすべての要素に対し、各要素を中心要素としたn−GRネットワークが存在するため、任意の要素を中心要素とする最近傍ネットワークを取得していくことで、情報探索集合内のすべての要素がリンクによって結合しているGRネットワークを生成することができる。
また、ネットワーク生成部21が、式(9)を実行することにより、要素yと要素zとの間に無向リンクが設定される。この無向リンクが設定されることにより、要素zが、要素yに対するk−GRネットワークに含まれるが、要素zに対するk−GRネットワークに、要素yが含まれない状態となることを避けることができ、確実に情報探索集合内のすべての要素がリンクによって結合しているGRネットワークを生成することができる。
(情報探索処理)
次に、図1を参照しつつ、図7に沿って、情報探索処理の概要について説明する。
図7は、第1実施形態に係る情報探索処理の概要を示す図である。
図7において、情報探索集合における要素を白丸または黒丸にて表現する。すなわち、図7における白丸または黒丸は、記憶部3に格納され、探索対象となる情報である。
また、図7における破線で示すリンクによって全要素が連結した1コンポーネントのGRネットワークがネットワーク生成部21によって生成されているものとする。
探索処理部22は、予め定められている要素、または、任意の要素を起点要素x0とする。そして、当該起点要素x0に対するn−GRネットワークΓ(x0)(図7における実線で示す)を記憶部3から取得する。
続いて、探索処理部22は、起点要素x0を展開要素集合Bの要素とし(B={x0})、取得したn−GRネットワークΓ(x0)と展開要素集合Bとの和集合を類似度計算要素集合A(A=Γ(x0)∪{x0})として求める。ここで、展開要素集合とは、ある要素xに対するn−GRネットワークΓ(x)の要素とクエリとの類似度計算を実行する場合の要素xから構成される集合である。要素xから直接リンク結合されている要素を要素xの子要素と表現するときは、子要素とクエリとの類似度が計算される要素の集合である。一方、類似度計算要素集合とは、クエリとの類似度計算が実行される要素の集合である。以降、展開要素集合Aを集合Aと、類似度計算要素集合Bを集合Bと簡略し表現する。
そして、探索処理部22は、集合Aと集合Bとの差集合を構成する要素のうち、図示しないクエリとの類似度が最も大きい要素を抽出する。前記差集合は、すでにクエリとの類似度計算を実行された要素であって、未だ展開されていない(子要素とクエリとの類似度計算が実行されていない)要素からなる集合である。
この場合、図7(b)に示すように、要素x1が、探索処理部22によって抽出されたとする。
次に、類似度ρ(x1,q)>類似度ρ(xmax,q)を満たしているとしたとき、探索処理部22は、図7(c)に示すように、要素x1を要素xmax(図示せず)とし、要素xmaxを更新し保持する。また、要素x1が前記条件を充足しない場合は、要素xmaxの更新は行われない。探索処理部22は、要素x1に対してn−GRネットワークΓ(x1)(図7(c)において実線で示されるリンクで結合している要素)を記憶部3から取得する。ここで、類似度ρ(xmax,q)が、請求項における設定類似度であり、情報探索部が、要素xmaxを保持することにより、設定類似度も保持することになる。
そして、探索処理部22は、要素x1に対するn−GRネットワークを構成する要素群Γ(x1)の要素からなる集合と集合Aとの和集合を新たな集合Aとする。さらに、探索処理部22は、要素x1を、図7(a)に示す集合Bの要素に加え、新たな集合Bとする。そして、探索処理部22は、新たな集合Aと、集合Bとの差集合を構成する要素の中で、クエリとの類似度が最も大きい要素を抽出し、当該要素を新たな要素x1とする(図7(c):Γ(x1)→x1)。すなわち、図7(c)に示すように、探索処理部22は、新たな要素x1を抽出する。
そして、類似度ρ(x1,q)>類似度ρ(xmax,q)を満たしているとしたとき、探索処理部22は、この要素x1を新たな要素xmax(図示せず)として保持する。、探索処理部22は、要素x1に対するn−GRネットワークΓ(x1)の要素(図7(d)中、実線で示されるリンクで結合している要素)からなる集合と集合Aとの和集合を新たな集合Aとし、要素x1を、図7(c)に示す集合Bの要素に加え、新たな集合Bとする。そして、新たな集合Aと、集合Bとの差集合を構成する要素の中で、クエリとの類似度が最も大きい要素を抽出する(図7(d))。
このような処理を繰り返し、集合Aの要素数が上限コストβを超えたとき(第1終了条件)、または、要素x1とクエリとの類似度が1となった(クエリと一致する要素を抽出した:第2終了条件)とき、要素xmaxを最終出力要素とする。ただし、第2終了条件の設定の有無は情報探索集合に依存する。
次に、図1および図7を参照しつつ、図8に沿って、情報探索処理の流れを説明する。
図8は、第1実施形態に係る情報探索処理の流れを示すフローチャートである。
情報探索装置1の記憶部3には、予め入力部4を介して入力されたコスト上限βと、要素と、要素の特徴量のリストと、起点要素x0と、ネットワーク生成処理で算出されたn−GRネットワークΓ(x)が要素ごとに格納されている。
まず、探索処理部22は、起点要素x0(x0∈X)を記憶部3から取得し、この起点要素x0に対するn−GRネットワークΓ(x0)を記憶部3から取得する(S301)。すなわち、情報探索装置1は、n−GRネットワークΓ(x0)をRAMなどのメモリ上に常駐させている。
次に、入力部4を介して、クエリqが情報探索装置1に入力される(S302)。クエリの入力は、端末11から物理的ネットワーク10を介することによって、入力されてもよいし、直接入力部4から入力されてもよい。また、本実施形態では、探索処理部22が、起点要素x0を対するn−GRネットワークΓ(x0)を記憶部3から取得した後に、クエリqが入力されたが、これに限らず、クエリqが入力されてから、探索処理部22が、起点要素x0に対するn−GRネットワークΓ(x0)を記憶部3から取得してもよい。
次に、探索処理部22は、起点要素x0とクエリqとの類似度ρ(x0,q)を算出し(S303)、記憶部3に格納する。なお、探索処理部22は、この時点で、起点要素x0に対するn−GRネットワークΓ(x0)を記憶部3から取得してもよい。ここで、ρ(・)は、例えば、コサイン類似度関数などの類似度関数であり、ρ(a,b)=ρ(b,a)∈[0,1]、a,b∈Xの性質を有する。ただし、任意の要素aは、自分自身との類似度が最も大きくρ(a,a)=1である。
そして、探索処理部22は、集合A=Γ(x0)∪{x0}および集合B={x0}を算出する(S304:図7(a))。
次に、探索処理部22は、集合Aの要素の数|A|を算出し、|A|>上限コストβ、または、クエリqと要素xmaxとの類似度(設定類似度)が1であること、すなわちρ(xmax,q)=1(クエリと要素とが一致していること)を満たしているか否かを判定する(S305)。ここで、|・|は、該当する集合の要素の数である。なお、要素xmaxの初期要素は、特に限定しないが、要素x0などを代入しておいてもよい。ここで、算出されたρ(xmax,q)は、記憶部3に格納される。
ステップS305の結果、|A|>β、または、ρ(xmax,q)=1を満たしている場合(S305→Yes)、探索処理部22は、要素xmaxを最終出力要素x2として出力し(S306)、処理を終了する。なお、本実施形態では、ステップS304の処理において、|A|>上限コストβ、または、クエリqと要素xmaxとの類似度が1であることを判定しているが、これに加え、探索処理部22が、図示しないタイマなどを監視し、所定の計算時間を越えているか否かを判定してもよい。
ステップS305の結果、条件を満たしていない場合(S305→No)、探索処理部22は、集合Aと集合Bとの差集合を算出し(S307)、当該差集合の要素yとクエリqとの類似度ρ(y,q)を算出する(S308)。
そして、探索処理部22は、集合Aと、集合Bとの差集合におけるすべての要素y(y∈X)に対して、ステップS308の処理を行ったか否かを判定する(S309)。判定は、例えば、ステップS308の後に、要素yにフラグを付し、このフラグがすべての要素に対し付されているか否かを、探索処理部22が判定することによって行われる。
ステップS309の結果、すべての要素yについて、ステップS308の処理を行っていないと判定された場合(S309→No)、探索処理部22は、ステップS308の処理へ戻る。
ステップS309の結果、すべての要素yについて、ステップS308の処理を行っていると判定された場合(S309→Yes)、探索処理部22は、ステップS310の処理へ進む。
次に、探索処理部22は、式(11)の要素x1を求める(S310:図7(b))。
Figure 0004774019
すなわち、探索処理部22は、最大の類似度ρ(w,q)を有する要素wを算出し、この要素yを要素x1(x1∈X)とする。同時に、探索処理部22は、ステップS310における式(11)で求めた要素x1に係るρ(x1,q)を記憶部3に格納する。
そして、探索処理部22は、記憶部3から類似度ρ(xmax,q)および類似度ρ(x1,q)を取得し、類似度ρ(x1,q)>類似度ρ(xmax,q)であるか否かを判定する(S311)。
ステップS311の結果、類似度ρ(x1,q)>類似度ρ(xmax,q)ではない場合(S311→No)、探索処理部22は、ステップS313の処理へ進む。
ステップS311の結果、類似度ρ(x1,q)>類似度ρ(xmax,q)である場合(S311→Yes)、探索処理部22は、探索処理部22は、要素x1を、新たな要素xmaxとして保持する(S312:図7(c))。前記したように、類似度ρ(xmax,q)が、請求項における設定類似度であり、情報探索部が、要素xmaxを保持することにより、設定類似度も保持することになる。
次に、探索処理部22は、要素x1に対するn−GRネットワークΓ(x1)を記憶部3から取得すると、集合A’=A∪Γ(x1)および集合B’=B∪{x1}を算出し、集合A’を新たなAとし、B’を新たなBとする(A←A’、B←B’:S313:図7(c))。すなわち、集合Aに集合A’を代入し、集合Bに集合B’を代入する。
そして、探索処理部22は、ステップS305の処理へ戻る。
なお、本実施形態において、情報探索集合の要素内に同一の情報が存在するようなクエリを入力してもよいし、情報探索集合の要素内に同一の情報が存在しないようなクエリを入力してもよい。
本実施形態に係る情報探索処理は、要素間の平均最短パス長が小さいスモールワールドネットワーク(詳細は、後記)を使用して情報探索を行うため、情報探索集合に対して距離空間を定義すると、要素間の距離が大きい、すなわち要素同士が疎となり、三角不等式などによる探索空間の削減が不可能な情報探索集合に対しても、探索コストの小さい情報探索を行うことができる。すなわち、探索空間を小さくすることができる。
また、要素間における距離の定義を前提としていないため、距離空間を定義不可能な情報探索集合に対しても効率的な情報探索を行うことが可能となる。例えば、任意の2つの要素間の類似度を、コサイン類似度で定義した情報探索集合は、距離空間ではない。さらに、局所的な要素の集合であるn−GRネットワークを連結したGRネットワークを用いており、全体の情報探索を、処理の軽いn−GRネットワークにおける探索の集まりとすることができ、全体的な処理の負担を軽減することができる。
そして、1度探索した要素は、次回以降の探索対象から外した情報探索を行うため、効率的な情報探索を行うことができる。
また、GRネットワークを用いて、情報探索を行うことにより、探索コストの小さい情報探索を行うことができる。
(第2実施形態)
次に、図9および図10を参照して、本発明の第2実施形態について説明する。
第2実施形態では、情報探索システム12の構成については、図1に示す構成と同様であり、情報探索方法については、図7および図8に示す方法と同様であるため、図面および説明を省略する。
図9は、第2実施形態に係るk−GRネットワーク生成の概要を示す図である。
図9において、図3(b)と同様の構成に対しては、同一の符号を付して、説明を省略する。
図9では、要素y(要素107)と、要素x(要素105)との間に新しいリンク302が生成されている。図3(b)と、図9とを比較すると、リンクの生成先が異なっていることが分かる。
次に、図1を参照しつつ、図10に沿って第2実施形態に係るネットワーク生成処理の流れを説明する。
図10は、第2実施形態に係るネットワーク生成処理の流れを示すフローチャートである。
図10において、図4と同様の処理には、同一の番号を付して、説明を省略する。
図10が、図4と異なる点は、図4におけるステップS109およびステップS110が、ステップS110aに置き換わっている点である。
すなわち、ステップS108において、要素xが、要素x*ではないと判定された場合(S108→No)、ネットワーク生成部21は、式(12)を実行する(S110a)。
Figure 0004774019
すなわち、ネットワーク生成部21は、要素xを要素yに対するk−GRネットワークΓ(y)に加え、要素yを要素xに対するk−GRネットワークΓ(x)に加えることで、要素yと要素xとの間に、無向リンクを生成する。これにより、ネットワーク生成部21は、要素yと、要素xとを、直接的にリンク結合する。
第2実施形態によれば、第1実施形態で示すネットワーク生成処理よりも、少ないステップ数のアルゴリズムで、ネットワーク生成処理を行うことができる。
(ネットワークの特性)
ここで、本実施形態に好適なネットワークの性質について説明する。
まず、本実施形態におけるネットワークは、情報探索を効率よく行うため、出次数kと強い相関を有する値である次数が、比較的小さいネットワークであることが望ましい。本実施形態に好適なネットワークは、情報探索集合内の全要素が結合した1コンポーネントのネットワークであり、次数が比較的小さいことが望ましい。本実施形態で用いたGRネットワークΓにおける平均次数は、式(13)で定義される。
Figure 0004774019
さらに、本実施形態におけるネットワークは、任意の起点要素と、最終出力要素との間に、比較的短いリンクで連結されていることが必要である。探索コストの小さい情報探索を行うためである。
本実施形態で用いたGRネットワークΓ全体における平均値である平均最短パス長は、式(14)で定義される。
Figure 0004774019
ここで、dΓ(x,y)は、ネットワークにおける任意の要素における最短パス長である。
また、最終出力要素x2における近傍の要素群y∈Γ(x2)のそれぞれと、クエリqとの類似度が比較的低い場合、情報探索が困難になる。なぜならば、起点要素x0から最終出力要素x2へ到達するためには、最終出力要素x2における近傍の要素yを経由することが必須となるためである。すなわち、類似度ρ(x2,q)と類似度ρ(x2,y)が大きい値を示すときには、類似度ρ(y,q)もまた大きい値を示すことが望ましい。これを一般化すると、3つの要素x,y,zにおいて、y∈Γ(x)かつz∈Γ(y)において、類似度ρ(x,y)と類似度ρ(y,z)が大きい値を示すとき、x∈Γ(z)となるような大きい値の類似度ρ(z,x)(x∈Γ(z))が大きい値を示すこと好ましい。すなわち、3つの要素x,y,zにおける任意のペア要素間にリンクが存在することが望ましい。
このような、3つの要素間の関係を定量的に評価する尺度であるネットワークのクラスタ係数は、式(15)で定義される。クラスタ係数が大きい値であるほど、任意の3つの要素間における任意のペア要素間にリンクが存在する率が大きい。
Figure 0004774019
本実施形態に好適なネットワークの特性として、1.式(13)で示される平均次数が小さく、かつ1コンポーネントのネットワークであること、2.平均最短パス長が比較的小さいネットワークであること、3.クラスタ係数が比較的大きいネットワークであることが望ましい。
このような特性を備えるネットワークをスモールワールドネットワークと記載する。スモールワールドネットワークには、本実施形態で記載したGRネットワークが含まれる。本実施形態で使用するGRネットワークにおける平均最短パス長と、クラスタ係数とに関する考察は、図19から図21を参照して後記する。
次に、図11から図18に沿って、本実施形態における実施形態例を示す。
なお、図11から図15は、クエリと同一の情報が情報探索集合の要素に含まれている探索問題に対する図であり、図16から図18は、クエリと同一の情報が情報探索集合の要素に含まれていない探索問題に対する図である。
図11は、出次数kに対するコンポーネント数の変化を示す図である。
図11において、横軸は、出次数kの値を示し、縦軸は、コンポーネント数である。なお、図11において、縦軸は、対数表示となっている。
なお、図11における情報探索集合は、10年分の新聞の記事における文書ファイルを要素とする集合である。そして、要素間の類似度は、以下の手順によって算出した。すなわち、各文書ファイルを形態素解析し、不要なストップワードを削除した上で、単語を抽出する。そして、抽出された単語に対し、tf−idf法で各単語に対し、重み付けを行う。この結果、生じる重み付け単語ベクトルを、該文書ファイルの特徴量とする。
その上で、文書ファイルを要素とし、コサイン類似度関数を用いて、要素間の類似度を規定する。
この例で用いた要素数(文書ファイル数)は、64585個であり、距離空間の次元数は、51030となった。
図11において示されるようにk=6において、コンポーネント数は、1となる。すなわち、k=6で、1コンポーネントのGRネットワークの生成が可能となる。すなわち、k≧6以上であれば、1コンポーネントのGRネットワークを生成することができる。
図12は、出次数kに対する平均探索コストの変化を示す図である。
図12において、横軸は、出次数kの値を示し、縦軸は、平均探索コストである。
図12では、前記した10年分の新聞記事の文書ファイルの要素から、ランダムに100000個のペア要素(クエリと、起点要素のペア)を選択し、前記した情報探索集合に対して、本実施形態における情報探索処理を行った結果を示す。
コスト上限値は、無限大に設定されている。また、平均探索コストとは、同一の情報探索集合に対し、クエリと、起点要素とを変化させて、情報探索をおこなったときの探索コストの平均値である。
図12で示されるように出次数k=60において、平均探索コストは、最小の216.72となった。この値は、全要素を探索した場合の探索コストの0.34%である。
平均コストが、最小値をもつ理由として、次の理由が考えられる。本実施形態における探索コストは、平均次数と平均ステップ数との積にほぼ近い値となる。ここで、ステップ数とは、最終出力要素を算出するまでにたどった起点要素x0と要素x1(図7参照)との数である。すなわち、図7における黒丸の数である。
一般に、出次数kは、図11および図12の手順によって、決定される。
図13は、出次数kに対する平均次数の変化を示す図であり、図14は、出次数kに対するステップ数の変化を示す図である。
図13において、横軸は、出次数kを示し、縦軸は、平均次数を示す。
また、図14において、横軸は、出次数kを示し、縦軸は、ステップ数の平均値(Average)または中央値(Median)を示す。
図13および図14の各kにおいて、平均次数の値と、ステップ数の平均値または中央値を乗算すると、k=60において、平均探索コストが最小となることがわかる。
図15は、探索コストと、クエリへの到達率を示す図である。
図15において、横軸は、探索コストを示し、縦軸は、到達率を示す。なお、図15において、横軸は、対数表示となっている。
到達率とは、前記したようなペア要素(クエリと、起点要素のペア)を100000個選択したとき、そのうち、該当する探索コストでクエリに到達したペア要素の割合である。
図12において、最も平均探索コストが小さかったk=60に注目すると、50%のペア要素で探索コストが、190以下であり、90%のペア要素で探索コストが366以下である。すなわち、選択したペア要素のうち、探索コストが190以下でクエリへ到達したペア要素は、選択したペア要素のうちの50%であり、探索コストが366以下でクエリへ到達したペア要素は、選択したペア要素のうちの90%であることを示す。
本実施形態例における全要素数は、前記したように64585個であり、そのうちの0.6%がほぼ388個である。すなわち、本実施形態の情報探索処理に、本実施形態例の情報探索空間に、本実施形態の情報探索処理を適用すると、上限コストβ(図8参照)を全要素数の0.6%程度の値に設定したとしても、90%の確率で探索が成功することがわかる。
次に、図16から図18に沿って、本実施形態をクエリと同一の情報が情報探索集合の要素に含まれていない探索問題に適用した際の実施形態例を説明する。
なお、図16から図18における各用語の定義は、図11から図15における用語と同様である。
図16は、出次数kに対するコンポーネント数の変化を示す図である。
図16における条件は、以下の通りである。
図11から図15において、用いた情報探索集合(要素数:64585個)の中から、一様ランダムに6458要素を選択し、これをクエリとした。そして、残りの58127個の要素を情報探索集合とした。
図16において、横軸は、出次数kの値を示し、縦軸は、コンポーネント数である。なお、図16において、横軸は、対数表示となっている。
図16において示されるようにk=7において、コンポーネント数は、1となる。すなわち、k=7で、1コンポーネントのGRネットワークの生成が可能となる。すなわち、k≧7以上であれば、1コンポーネントのGRネットワークを生成することができる。
図17は、出次数kに対する平均探索コストの変化を示す図である。
図17において、横軸は、出次数kの値を示し、縦軸は、平均探索コストである。
なお、図17における条件は、図12における条件と同様である。
平均探索コストとは、同一の情報探索集合に対し、クエリと、起点要素とを変化させて、情報探索をおこなったときの探索コストの平均値である。ここでは、クエリとして選択した6458個の要素の各々に対して、一様ランダムに選択した10個の起点要素を用いて、本実施形態に係る情報探索を行い、平均探索コストを算出した。
図17で示されるようにk=90において、平均探索コストは、最小の646.11となった。この値は、全要素を探索した場合の探索コストの1.11%である。
一般に、出次数kは、図16および図17の手順によって、決定される。
図18は、探索コストと、クエリへの到達率を示す図である。
図18において、横軸は、探索コストを示し、縦軸は、到達率を示す。なお、図18において、横軸は、対数表示となっている。
到達率とは、現在探索中の要素とクエリとの距離を起点要素と、クエリとの距離で除算したものである。
図17において、最も平均探索コストが小さいk=90に注目すると、50%のペア要素で探索コストが、272以下であり、90%のペア要素で探索コストが917以下である。
本実施形態例における全要素数は、58127個であり、この1.6%がほぼ930個である。すなわち、本実施形態の情報探索処理に、本実施形態例の情報探索空間に、本実施形態の情報探索処理を適用すると、上限コストβ(図8参照)を全要素数の1.6%程度の値に設定したとしても、90%の確率で探索が成功することがわかる。
次に、図19から図21に沿って、本実施形態で用いたGRネットワークの特性を説明する。
図19は、ランダムネットワークおよびGRネットワークにおける出次数kに対する平均最短パス長の変化を示す図であり、図20は、ランダムネットワーク、GRネットワークおよびレギュラーネットワークにおける出次数kに対する平均最短パス長の変化を示す図である。
ここで、ランダムネットワークとは、情報探索集合中の任意の要素と、要素との結合をランダムに行ったネットワークである。レギュラーネットワークとは、情報探索集合中の要素間の結合を、所定の規則に従って結合したネットワークである。
図19および図20の横軸は、出次数kを示し、縦軸は、平均最短パス長を示す。ただし、図20において、縦軸は、対数表示となっている。
図19および図20に示すように、各出次数kにおけるGRネットワーク(GR NW)の平均最短パス長は、レギュラーネットワーク(Regular NW)の平均最短パス長よりかなり小さく、ランダムネットワーク(Random NW)の平均最短パス長に近い値を有する。
一般に、スモールワールドネットワークにおける平均最短パス長は、式(16)を満たすオーダであることが望ましい。
log10(スモールワールドネットワークの平均最短パス長/ランダムネットワークの平均最短パス長)<1 ・・・式(16)
図21は、ランダムネットワーク、GRネットワークおよびレギュラーネットワークにおける出次数kに対するクラスタ係数の変化を示す図である。
図21の横軸は、出次数kを示し、縦軸は、クラスタ係数を示す。なお、図21において、縦軸は、対数表示となっている。
図21に示すように、各kにおけるGRネットワーク(GR NW)のクラスタ係数は、ランダムネットワーク(Random NW)のクラスタ係数より大きく、レギュラーネットワーク(Regular NW)のクラスタ係数に近い値を有する。
第1実施形態に係る情報探索システムの構成例を示す図である。 第1実施形態に係るネットワーク生成処理の概要を示す図である(その1)。 第1実施形態に係るネットワーク生成処理の概要を示す図である(その2)。 第1実施形態に係るネットワーク生成処理の流れを示すフローチャートである。 第1実施形態に係る貪欲戦略に基づく探索処理の流れを示すフローチャートである。 ネットワーク生成部によって算出されたGRネットワークの記憶部での記憶状態を示す図である。 第1実施形態に係る情報探索処理の概要を示す図である。 第1実施形態に係る情報探索処理の流れを示すフローチャートである。 第2実施形態に係るk−GRネットワーク生成の概要を示す図である。 第2実施形態に係るネットワーク生成処理の流れを示すフローチャートである。 出次数kに対するコンポーネント数の変化を示す図である。 出次数kに対する平均探索コストの変化を示す図である。 出次数kに対する平均次数の変化を示す図である。 出次数kに対するステップ数の変化を示す図である。 探索コストと、クエリへの到達率を示す図である。 出次数kに対するコンポーネント数の変化を示す図である。 出次数kに対する平均探索コストの変化を示す図である。 探索コストと、クエリへの到達率を示す図である。 ランダムネットワークおよびGRネットワークにおける出次数kに対する平均最短パス長の変化を示す図である。 ランダムネットワーク、GRネットワークおよびレギュラーネットワークにおける出次数kに対する平均最短パス長の変化を示す図である。 ランダムネットワーク、GRネットワークおよびレギュラーネットワークにおける出次数kに対するクラスタ係数の変化を示す図である。 情報探索空間から、無作為に1×10個のペア要素(2つの要素)を選択し、このペア要素間の距離の累積分布を示す図である。 図22と同様の条件下における距離の下界の累積分布を示す図である。
符号の説明
1 情報探索装置
2 処理部
3 記憶部
4 入力部
5 出力部
10 物理的ネットワーク
11 端末
12 情報探索システム
21 ネットワーク生成部
22 探索処理部

Claims (8)

  1. 記憶部に格納されている情報探索集合の情報に対応する要素における前記要素間の類似度に基づき要素間ネットワークを生成するネットワーク生成装置におけるネットワーク生成方法であって、
    前記ネットワーク生成装置が、
    各要素を前記記憶部から取得し、
    (a1)前記取得した要素それぞれを、前記情報探索集合の他の1以上の前記要素と直接的にリンク結合し、
    (a2)前記取得した各要素から、前記情報探索集合の任意の前記要素である第1の要素を抽出し、当該第1の要素からk番目(ただし、kは1より大きい整数)に類似度の大きい要素である第2の要素を、前記取得した各要素から抽出し、
    (a3)前記第2の要素に直接的にリンク結合している前記要素である第3の要素を、前記取得した各要素から抽出し、
    (a4)前記第1の要素と前記第3の要素との類似度、および前記第1の要素と前記第2の要素との類似度を比較し、
    (a5)前記(a4)の結果、前記第1の要素と前記第3の要素との類似度が、前記第1の要素と前記第2の要素との類似度以上である場合、前記第3の要素を、新たな前記第2の要素として、前記新たな第2の要素を用いて前記(a4)の処理を行い、
    (a6)前記(a4)の結果、前記第1の要素と前記第2の要素との類似度が、前記第1の要素と前記第3の要素との類似度より大きい場合、前記第1の要素と前記第2の要素とを、直接的、または、前記第1の要素および前記第2の要素以外の要素を介することにより間接的にリンク結合し、前記(a1)から前記(a6)の処理をkが2から所定の値になるまで、前記情報探索集合の前記要素それぞれに対して繰り返すことにより、ネットワークを生成し、前記生成したネットワークを前記記憶部に格納することを特徴とするネットワーク生成方法。
  2. 前記第2の要素と、前記第1の要素に直接的にリンク結合している前記第1の要素以外の要素とを、直接的にリンク結合することを特徴とする請求項1に記載のネットワーク生成方法。
  3. 前記第2の要素と、前記第1の要素とを、直接的にリンク結合することを特徴とする請求項1に記載のネットワーク生成方法。
  4. 記憶部に保持されている情報探索集合の情報に対応する複数の要素からクエリと類似した情報を探索する情報探索装置における情報探索方法であって、
    探索処理部が、
    (b1)請求項1から請求項3のいずれか一項に記載のネットワーク生成方法によって、生成されたネットワークにおいて、所定の第4の要素に直接的にリンク結合された前記要素を前記記憶部から取得し、前記取得した要素のうち、前記クエリとの類似度が最も大きい要素を第5の要素として選択し、
    (b2)当該第5の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第5の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、
    (b3)前記第5の要素を第6の要素とし、前記ネットワークにおいて、当該第6の要素に直接的にリンク結合された要素を、前記記憶部から取得し、
    (b4)前記第6の要素に直接的にリンク結合された要素のうち、過去に前記第5の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第5の要素とし、当該新たな第5の要素に対して、前記(b2)の処理を行うことにより、前記クエリと類似した要素を探索することを特徴とする情報探索方法。
  5. 請求項1に記載のネットワーク生成方法を、コンピュータに実行させることを特徴とするプログラム。
  6. 請求項4に記載の情報探索方法を、コンピュータに実行させることを特徴とするプログラム。
  7. 記憶部に格納されている情報探索集合の情報に対応する要素における前記要素間の類似度に基づき要素間ネットワークを生成するネットワーク生成装置であって、
    各要素を前記記憶部から取得し、(a1)前記取得した要素それぞれを、前記情報探索集合の他の1以上の前記要素と直接的にリンク結合し、(a2)前記取得した各要素から、前記情報探索集合の任意の前記要素である第1の要素を抽出し、当該第1の要素からk番目(ただし、kは1より大きい整数)に類似度の大きい要素である第2の要素を、前記取得した各要素から抽出し、(a3)前記第2の要素に直接的にリンク結合している前記要素である第3の要素を、前記取得した各要素から抽出し、(a4)前記第1の要素と前記第3の要素との類似度、および前記第1の要素と前記第2の要素との類似度を比較し、(a5)前記(a4)の結果、前記第1の要素と前記第3の要素との類似度が、前記第1の要素と前記第2の要素との類似度以上である場合、前記第3の要素を、新たな前記第2の要素として、前記新たな第2の要素を用いて前記(a4)の処理を行い、(a6)前記(a4)の結果、前記第1の要素と前記第2の要素との類似度が、前記第1の要素と前記第3の要素との類似度より大きい場合、前記第1の要素と前記第2の要素とを、直接的、または、前記第1の要素および前記第2の要素以外の要素を介することにより間接的にリンク結合し、前記(a1)から前記(a6)の処理をkが2から所定の値になるまで、前記情報探索集合の前記要素それぞれに対して繰り返すことにより、ネットワークを生成し、前記生成したネットワークを前記記憶部に格納するネットワーク生成部を有することを特徴とするネットワーク生成装置。
  8. 記憶部に保持されている情報探索集合の情報に対応する複数の要素からクエリと類似した情報を探索する情報探索装置であって、
    (b1)請求項7に記載のネットワーク生成装置によって、生成されたネットワークにおいて、所定の第4の要素に直接的にリンク結合された前記要素を前記記憶部から取得し、前記取得した要素のうち、前記クエリとの類似度が最も大きい要素を第5の要素として選択し、(b2)当該第5の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第5の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、(b3)前記第5の要素を第6の要素とし、前記ネットワークにおいて、当該第6の要素に直接的にリンク結合された要素を、前記記憶部から取得し、(b4)前記第6の要素に直接的にリンク結合された要素のうち、過去に前記第5の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第5の要素とし、当該新たな第5の要素に対して、前記(b2)の処理を行うことにより、前記クエリと類似した要素を探索する探索処理部を有することを特徴とする情報探索装置。
JP2007150417A 2007-06-06 2007-06-06 ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置 Active JP4774019B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007150417A JP4774019B2 (ja) 2007-06-06 2007-06-06 ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007150417A JP4774019B2 (ja) 2007-06-06 2007-06-06 ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置

Publications (2)

Publication Number Publication Date
JP2008305072A JP2008305072A (ja) 2008-12-18
JP4774019B2 true JP4774019B2 (ja) 2011-09-14

Family

ID=40233767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007150417A Active JP4774019B2 (ja) 2007-06-06 2007-06-06 ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置

Country Status (1)

Country Link
JP (1) JP4774019B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013222388A (ja) * 2012-04-18 2013-10-28 Nippon Telegr & Teleph Corp <Ntt> グラフ生成装置、方法、及びプログラム
US11416552B2 (en) 2018-05-10 2022-08-16 Nippon Telegraph And Telephone Corporation Graph updating apparatus, graph updating method and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5737510B2 (ja) * 2011-06-13 2015-06-17 日本電気株式会社 ネットワーク可視化システム、ネットワーク可視化方法、および、ネットワーク可視化プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013222388A (ja) * 2012-04-18 2013-10-28 Nippon Telegr & Teleph Corp <Ntt> グラフ生成装置、方法、及びプログラム
US11416552B2 (en) 2018-05-10 2022-08-16 Nippon Telegraph And Telephone Corporation Graph updating apparatus, graph updating method and program

Also Published As

Publication number Publication date
JP2008305072A (ja) 2008-12-18

Similar Documents

Publication Publication Date Title
TWI360754B (en) Web page analysis using multiple graphs
US8700548B2 (en) Optimization technique using evolutionary algorithms
US10713229B2 (en) Index generating device and method, and search device and search method
US20140193077A1 (en) Image retrieval apparatus, image retrieval method, query image providing apparatus, query image providing method, and program
EP3333770A1 (en) Matching graph entities in graph data
US20220414131A1 (en) Text search method, device, server, and storage medium
US9690969B2 (en) Information processing apparatus, non-transitory computer readable medium, and information processing method
CN110705245A (zh) 一种获取参考处理方案的方法及装置、存储介质
Li et al. An extended depth-first search algorithm for optimal triangulation of Bayesian networks
JP2018185771A (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
JP4774019B2 (ja) ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置
JP4774016B2 (ja) 情報探索方法、情報探索プログラムおよび情報探索装置
CN113553399B (zh) 基于模糊语言近似概念格的文本搜索方法及系统
CN103218419A (zh) 网络标签聚类方法和系统
JP2014081841A (ja) 時系列データ探索方法、装置、及びプログラム
CN107944045B (zh) 基于t分布哈希的图像检索方法及系统
CN116187754A (zh) 生产线故障定位方法、设备及可读存储介质
RU2435214C2 (ru) Способ быстрого поиска в кодовой книге при векторном квантовании
CN114357219A (zh) 一种面向移动端实例级图像检索方法及装置
JPWO2009151002A1 (ja) パターン識別方法、装置およびプログラム
JP5545063B2 (ja) プログラム及び情報分析装置
JP4821135B2 (ja) データ分析装置
JP6333306B2 (ja) 検索データ管理装置、検索データ管理方法、および検索データ管理プログラム
Aldahmani et al. Unbiased estimation for linear regression when n< v
Li et al. A Depth First Search Algorithm for Optimal Triangulation of Bayesian Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110621

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110624

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4774019

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350