JP4774019B2 - ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置 - Google Patents
ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置 Download PDFInfo
- Publication number
- JP4774019B2 JP4774019B2 JP2007150417A JP2007150417A JP4774019B2 JP 4774019 B2 JP4774019 B2 JP 4774019B2 JP 2007150417 A JP2007150417 A JP 2007150417A JP 2007150417 A JP2007150417 A JP 2007150417A JP 4774019 B2 JP4774019 B2 JP 4774019B2
- Authority
- JP
- Japan
- Prior art keywords
- network
- similarity
- elements
- information search
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
d(x,y)≧0・・・式(1)
d(x,y)=d(y,x)・・・式(2)
d(x,y)=0 if x=y・・・式(3)
式(1)を非負数条件、式(2)を対称性条件という。情報空間の部分集合でもある情報探索集合(被探索集合、探索対象集合とも呼ぶ)X⊂Ωにおいて、当該情報空間の要素であるクエリq∈Ωと最も距離の小さい要素の集合R(q)⊂Xは、式(4)により表される。
d(x,y)=0 iff x=y・・・式(5)
d(x,y)+d(y,z)≧d(x,y)・・・式(6)
式(5)を反射条件とよび、式(6)を三角不等式とよぶ。
「A fast branch & bound nearest neighbour classifier in metric space」,Luisa Mico,Jose Oncina, Rafael C. Carrasco, Pattern Recognition Letters vol.17,p.731-p.739 1996年 「A new version of the Nearest-Neighbour Approximating and Eliminating Search Algorithm(AESA) with linear preprocessing time and memory requirements」,Luisa Mico,Jose Oncina, Pattern Recognition Letters vol.15,p.9-p.7 1994年1月 「An algorithm for finding nearest neighbours in (approximately) constant average time」,E. Vidal, Pattern Recognition Letters vol.4,p.145-p.157 1986年7月
なお、図22および図23における情報探索集合は、10年分の新聞記事の文書ファイルを要素(情報)とする集合である。
ここで、情報探索集合における要素間の距離は、以下の手順で算出される。まず、各文書ファイル中に記載されている文書を形態素解析し、不要なストップワードを削除した上で、単語を文書(文書ファイル)から抽出する。ここで、ストップワードとは、情報探索において、ありふれた単語であるため検索語としては不適切なため、検索語としては無視される語である。日本語では、ひらがなやカタカナの1文字の語などがストップワードとなる。そして、抽出された単語に対し、tf−idf(term frequency-inverted document frequency)法で各単語に対し、重み付けを行う。この結果、生じる重み付け単語ベクトルを、該文書ファイルの特徴量とする。その上で、情報探索集合の文書ファイルを要素とし、特徴量に対するコサイン距離を用いて、要素間の距離を規定する。単語ベクトルを特徴量とした場合に用いられるコサイン類似度は、類似または非類似の尺度として広く用いられている。
この例で用いた要素数(文書ファイル数)は、64585個であり、特徴量である重み付け単語ベクトルは、51030次元となった。これは距離空間の次元が51030であるとも言える。
図22において、横軸は、ペア要素間の距離を示し、縦軸は、対応する距離を有するペア要素の全体のペア要素に対する割合の累積値である。
なお、距離は、コサイン距離を用い、かつ情報探索集合内で最も遠い要素間の距離が1.0となるよう規格化されている。
図22では、距離が0.8以下である要素数は、非常に少なく、1.0付近にほとんどのペア要素が存在することが示されている。詳細には、距離が0.98以上のペア要素の割合は、全体の90%であることが示されている(図22の太線)。
すなわち、図22から、この10年分の新聞記事の文書ファイルを要素とする情報探索集合では、各要素間が疎になっていることがわかる。
距離の下界は、図22と同じペア要素と、ランダムに選択した200個の要素(TLAESAのベースプロトタイプに相当)とを用いて、距離の下界を算出した。
図23において、横軸は、このような方法で算出した距離の下界の値を示し、縦軸は、距離の下界の値が、算出したすべての距離の下界に対する割合の累積値である。
図23では、0.4以下に、距離の下界のほとんどが入っていることが示されている。特に、0.138以下の距離の下界が、全体の90%を占めている。探索空間の削減は、情報探索過程のある時点でのクエリとある要素との距離と比較して、距離の下界が大きい要素を探索対象集合、すなわち、クエリとの距離を計算する対象の要素の集合から除くことによりなされる。情報探索過程のある時点でのクエリとある要素との距離が0.98であったと仮定する。図23より、距離の下界が0.98よりも大きい要素はほとんど存在しないので、この時点で削減される要素はほとんどない。このように、要素における特徴量が高次元になる場合、情報探索集合におけるある要素とクエリとの距離を計算し、距離の下界が比較対象の距離より大きい要素を情報探索集合から除き、探索空間を削減する方法は有効に機能しない。
すなわち、文書ファイルなど距離空間の次元数が大きくなる情報探索集合に対し、TLAESAや、LAESAや、AESAなどを適用しても、探索空間の削減がほとんどなされず、結果として、1つ1つの要素ごとにクエリとの距離を算出することになり、効率的な情報探索が行われないという問題が生じる。
さらに、TLAESAなどでは、前述の通り三角不等式を用いるが、これは距離空間が情報探索集合であることが前提となる。従って、距離空間ではない情報に関して、TLAESAなどの三角不等式を利用し探索空間を削減する枝刈り方法に基づくアルゴリズムを、直接適用することは困難である。
また、リンクの生成条件を設けているため、リンク数の少ないネットワークを生成することができる。
さらに、このような方法によって、生成されたネットワークを使用して情報探索を行うと、探索コストの削減が可能となる。
また、リンクの生成に対して、制限を設けているため、リンク数の少ないネットワークを生成することができる。
さらに、このようなプログラムによって、生成されたネットワークを使用して情報探索を行うと、探索コストの削減が可能となる。
また、リンクの生成に対して、制限を設けているため、リンク数の少ないネットワークを生成することができる。
さらに、このような構成によって、生成されたネットワークを使用して情報探索を行うと、探索コストの削減が可能となる。
まず、図1〜図8を参照して、本発明に係る第1実施形態について説明する。
図1は、第1実施形態に係る情報探索システムの構成例を示す図である。
情報探索システム12は、情報の探索を行う情報探索装置1と、情報探索装置1に対してクエリを送信する端末11とが、WAN(Wide Area Network)や、LAN(Local Area Network)などの物理的ネットワーク10を介して接続している。
端末11から送信されたクエリは、物理的ネットワーク10および入力部4を介して、処理部2へと送られる。また、ユーザが、入力部4を介して直接処理部2へクエリを入力してもよい。
処理部2は、ネットワーク生成処理を行うネットワーク生成部21(ネットワーク生成装置)と、情報探索処理を行う探索処理部22とを含んでなる。ここで、ネットワークとは、情報探索集合内における要素が、リンクによって結合しているときの、要素間のネットワークを指す。
なお、本実施形態では、ネットワーク生成部21と、探索処理部22と、記憶部3とが同一の情報探索装置1に設けられている例を示しているが、これに限らず、ネットワーク生成部21と、探索処理部22と、記憶部3とのうち、少なくとも1つを有している装置を複数設け、互いにLANなどの物理的ネットワークで接続してもよい。
まず、図1を参照しつつ、図2および図3に沿って、ネットワーク生成処理の概要を説明する。
図2および図3は、第1実施形態に係るネットワーク生成処理の概要を示す図である。
図2および図3において、符号100は、情報探索集合の情報に対応する要素である。ここで、情報とは、具体的には、例えば、新聞、特許公報などのテキストファイル、または、XML(Extensive Markup Language)による文書ファイルなどである。また、情報探索集合の情報に対応する要素とは、当該情報から抽出された特徴量、または、当該情報自体である。後者の意味で用いる場合は、類似度算出する際に、計算に適した量(スカラー量、ベクトル量など)に適宜変換される。なお、本実施形態における要素は、後者の意味で用いているが、前者の意味で用いてもよいことは当然である。
まず、ネットワーク生成部21は、情報探索集合中の任意の要素xを取得する。
そして、ネットワーク生成部21は、要素x(x∈X:以降の式において、Xは、情報探索集合)との類似度が最も大きい近傍要素N1(x)を、情報探索集合中から求め、この近傍要素N1(x)との間に無向リンクを生成する(図2(a))。以降、無向リンクのことを単にリンクとも呼ぶ。本実施形態において、類似度は、コサイン類似度を指すものとするが、これに限らず、ミンコフスキー距離に代表される一般的な距離定義に基づく計算式や、コサイン類似度以外の類似度に基づく計算式を用いてもよい。ただし、類似度の代わりに距離を用いる場合には、大小関係が反転することを考慮し、以降の手続を適宜変更する必要がある。
次に、ネットワーク生成部21は、要素x以外の要素x’について、同様の処理を行い、要素x’との類似度が最も大きい近傍要素N1(x’)に、要素xが含まれているか否かを判定し、含まれていない場合、この要素x’と要素xとの間に新たな無向リンクを生成し(図2(b))、含まれている場合には、既に無向リンクが存在しているので、ネットワーク生成部21は、新たなリンクを生成しない。
近傍要素N1(x)と、要素x’とは、共に要素xに対する1−GRネットワークΓ(x)を構成する要素となる(図2(c))。
図3において、説明する生成処理は、k(図4を参照して後記)=2における処理の例である。ここで、kとは仮の出次数のことである。ただし、ここでは無向リンクを扱うため、リンクが有向リンクであったと仮定した場合、出次数に相当する仮の最小近傍要素数である。ここで、「仮の」とは、本来出次数であるが、後記する貪欲戦略に基づく探索処理におけるリンク生成過程でリンク生成不要と判定された場合は、その生成されなかったリンク分だけ出次数より数が減るためである。本実施形態では、仮の出次数kを、出次数kと記載する。
なお、図3に示す処理を行う前に、ネットワーク生成部21は、図2で説明した1−GRネットワークを、情報探索集合中のすべての要素に対して生成しているものとする。
図3(a)において、1−GRネットワークを構成するリンクを図中の太線201〜203で示す。
すなわち、要素101に対する1−GRネットワークを構成する要素は、要素102である。要素102に対する1−GRネットワークを構成する要素は、要素101および要素103である。要素103に対する1−GRネットワークを構成する要素は、要素102および要素104である。要素104に対する1−GRネットワークを構成する要素は、要素103である。
要素101を要素xとする。ネットワーク生成部21は、最も自身に近い近傍要素N1(x)と、最も自身に近い2つの近傍要素N2(x)を、情報探索集合から求める。
図3(a)では、近傍要素N1(x)として要素102が求められ、近傍要素N2(x)として要素102および要素103が求められる。
次に、ネットワーク生成部21は、N2(x)−N1(x)である要素yを求める。図3(a)では、要素103が、要素yとなる。ここで、要素yは、要素xから2番目に類似度の大きい要素である。
次に、ネットワーク生成部21は、貪欲戦略による探索処理を行う。
貪欲戦略による探索処理の詳細については、後記するが、図3(a)に対して、この探索処理を適用すると、要素yは、図3(a)における矢印の方向へ移動し、最後に要素xに到達し、要素xを貪欲戦略による探索処理の結果として出力する。
まず、ネットワーク生成部21は、要素yに対する1−GRネットワークΓ(y)のうち、要素xに近い要素y*を求める。図3(a)では、1−GRネットワークΓ(y)は、要素104および要素102であり、要素y*は、要素102となる。
次に、ネットワーク生成部21は、要素y*を新たな要素yとする。図3(a)では、要素102が新たな要素yとなる(図示せず)。
そして、ネットワーク生成部21は、要素yに対する1−GRネットワークΓ(y)のうち、要素xに近い要素y*を求める。要素102を要素yとしたときのΓ(y)は、要素101であるため、図3(a)では、要素y*として、要素101が選択される。
そして、要素xと要素y*との類似度ρ(y*,x)と、要素xと要素yとの類似度ρ(y,x)を求め、ρ(y*,x)<ρ(y,x)であるか否かを判定する。この段階では、要素y*(要素101;要素x自身)の方が、要素y(要素102)より、要素xに近いので、前記不等式を満たしていないことになる。従って、この時点で、要素y*である要素101(要素x自身)が要素yとなる。
貪欲戦略による探索処理では、前記不等式を満たしたときの要素yを出力することになっている。従って、要素101(要素x)が、要素x*として出力される。
すなわち、図3(a)に示す要素xおよび要素yに、貪欲戦略による探索処理を適用すると、要素yは、図3(a)の方向へと移動していき、最後に要素xに到達する。ネットワーク生成部21は、この要素xを貪欲戦略による探索処理の結果として出力する。
図3(b)でも、1−GRネットワークを構成するリンク204〜207を図中の太線で示す。
すなわち、要素105に対する1−GRネットワークを構成する要素は、要素106である。要素106に対する1−GRネットワークを構成する要素は、要素105である。要素107に対する1−GRネットワークを構成する要素は、要素109である。要素109に対する1−GRネットワークを構成する要素は、要素107、要素108および要素110である。要素110に対する1−GRネットワークを構成する要素は、要素109である。この時点では、要素106と、要素107との間には、リンクが存在していない。
すなわち、ネットワーク生成部21は、要素105を要素xとして求める。
次に、ネットワーク生成部21は、要素xに対する近傍要素N1(x)および近傍要素N2(x)を求める。図3(b)では、近傍要素N1(x)は、要素106であり、近傍要素群N2(x)は、要素106および要素107である。
次に、ネットワーク生成部21が、y=N2(x)−N1(x)(要素xから2番目に類似度の大きい要素)を求めると、要素107が要素yとして求められる。
ネットワーク生成部21が、要素yに対する1−GRネットワークΓ(y)のうちで、最も要素xに近い要素y*を求める。要素107に対する1−GRネットワークは、要素109であるので、ネットワーク生成部21は、要素109を要素y*として求める。
そして、ネットワーク生成部21が、貪欲戦略による探索処理の結果、出力された要素が、要素xに等しいか否かを判定すると、出力された要素は、要素yであり、要素xとは等しくないため、ネットワーク生成部21は、新たなリンクを生成する処理を行う。
例えば、「ネットワークが1コンポーネントである」とは、「任意の2つの要素間がリンクまたはリンクの連結により互いに接続されているネットワーク」であることをいう。
予め、ネットワーク生成部21は、記憶部3から、情報探索集合中における各要素を取得し、情報探索集合中におけるすべての要素xに対する1−GRネットワークΓ(x)を求める。1−GRネットワークΓ(x)は、式(7)で示される要素であり、図2に例示したような方法で生成される。
次に、ネットワーク生成部21は、出次数k(以下、適宜kと記載)を2に設定する(k←2)(S102)。
そして、ネットワーク生成部21は、kが予め設定してある値nと等しいか否かを判定する(S103)。nは、ネットワーク生成のパラメータであり、テストデータなどを用いて、探索コストを評価関数として最適化することによって求められる。nの決定の方法は、図11、図12、図16および図17を参照して後記する。
ステップS104の結果、kがnと等しい場合(S103→Yes)、ネットワーク生成部21は、取得した各要素xに対するk−GRネットワークΓ(x)を記憶部3に記憶する(S104)。
そして、ネットワーク生成部21は、求めた近傍要素群Nk(x)と、近傍要素群Nk−1(x)との差集合である要素yを求める(y=Nk(x)−Nk−1(x))(S106)。すなわち、ネットワーク生成部21は、要素xからk番目に類似度の大きい要素yを、処理のはじめに取得した要素の中から抽出する。
そして、ネットワーク生成部21は、貪欲戦略に基づく探索処理を行う(S107)。ステップS107の処理は、図5を参照して後記する。
ステップS108の結果、要素x*が、要素xと等しい場合(S108→Yes)、ネットワーク生成部21は、ステップS111の処理へ進む。すなわち、ネットワーク生成部21は、新たなリンクを生成しない。
ステップS108の結果、要素x*が、要素xと等しくない場合(S108→No)、ネットワーク生成部21は、式(8)を満たす要素zを求める(S109)。すなわち、ネットワーク生成部21は、近傍要素群Nk−1(x)と、要素xとの和集合のうちで、最も要素yとの類似度が大きい要素zを求める。
そして、ネットワーク生成部21は、情報探索集合におけるすべての要素xに対して、ステップS106からステップS111の処理を行ったか否かを判定する(S111)。
ステップS111の結果、すべての要素xに対して、処理を行っていない場合(S111→No)、ネットワーク生成部21は、新たな要素xを取得し、ステップS105の処理へ戻る。
ステップS111の結果、すべての要素xに対して、処理を行った場合(S111→Yes)、ネットワーク生成部21は、kを1加算し(k←k+1:S112)、ステップS103の処理へ戻る。
この時点におけるネットワークΓ(x)は、ステップS109およびステップS110の処理の実行の有無にかかわらずk−GRネットワークとする。
ネットワーク生成部21は、式(10)を実行する(S201)。
そして、ネットワーク生成部21は、要素y*と、要素xとの類似度ρ(y*,x)および要素yと、要素xとの類似度ρ(y,x)を求め、ρ(y*,x)<ρ(y,x)の不等式が満たされているか否かを判定する(S202)。
ステップS202の結果、ρ(y*,x)<ρ(y,x)の不等式が満たされていない場合(S202→No)、ネットワーク生成部21は、要素yを要素y*とした(y←y*:S203)、後、ステップS201の処理へ戻る。
ステップS202の結果、ρ(y*,x)<ρ(y,x)の不等式が満たされていた場合(S202→Yes)、ネットワーク生成部21は、要素x*として、要素yを代入し(x*←y:S204)、要素x*を出力する。
図6において、符号500は、n−GRネットワークの中心となる要素(中心要素:図3(b)において、中心要素を要素109とすると、この要素109を中心要素とするk−GRネットワークは、要素107,108,110となる。ただし、中心要素自身は、n−GRネットワークに含まれない)の要素番号であり、符号501は、この中心要素に対してn−GRネットワークを構成している要素の要素番号である。なお、ここでは、要素毎に一意の要素番号を予め付されているものとする。
例えば、要素番号「1」の要素に対してn−GRネットワークを構成している要素は、要素番号「3」である。そして、要素番号「2」の要素に対してn−GRネットワークを構成している要素は、要素番号「3」,「6」である。また、要素番号「3」の要素に対してn−GRネットワークを形成している要素は、要素番号「1」,「2」である。
次に、図1を参照しつつ、図7に沿って、情報探索処理の概要について説明する。
図7は、第1実施形態に係る情報探索処理の概要を示す図である。
図7において、情報探索集合における要素を白丸または黒丸にて表現する。すなわち、図7における白丸または黒丸は、記憶部3に格納され、探索対象となる情報である。
また、図7における破線で示すリンクによって全要素が連結した1コンポーネントのGRネットワークがネットワーク生成部21によって生成されているものとする。
探索処理部22は、予め定められている要素、または、任意の要素を起点要素x0とする。そして、当該起点要素x0に対するn−GRネットワークΓ(x0)(図7における実線で示す)を記憶部3から取得する。
続いて、探索処理部22は、起点要素x0を展開要素集合Bの要素とし(B={x0})、取得したn−GRネットワークΓ(x0)と展開要素集合Bとの和集合を類似度計算要素集合A(A=Γ(x0)∪{x0})として求める。ここで、展開要素集合とは、ある要素xに対するn−GRネットワークΓ(x)の要素とクエリとの類似度計算を実行する場合の要素xから構成される集合である。要素xから直接リンク結合されている要素を要素xの子要素と表現するときは、子要素とクエリとの類似度が計算される要素の集合である。一方、類似度計算要素集合とは、クエリとの類似度計算が実行される要素の集合である。以降、展開要素集合Aを集合Aと、類似度計算要素集合Bを集合Bと簡略し表現する。
そして、探索処理部22は、集合Aと集合Bとの差集合を構成する要素のうち、図示しないクエリとの類似度が最も大きい要素を抽出する。前記差集合は、すでにクエリとの類似度計算を実行された要素であって、未だ展開されていない(子要素とクエリとの類似度計算が実行されていない)要素からなる集合である。
この場合、図7(b)に示すように、要素x1が、探索処理部22によって抽出されたとする。
そして、探索処理部22は、要素x1に対するn−GRネットワークを構成する要素群Γ(x1)の要素からなる集合と集合Aとの和集合を新たな集合Aとする。さらに、探索処理部22は、要素x1を、図7(a)に示す集合Bの要素に加え、新たな集合Bとする。そして、探索処理部22は、新たな集合Aと、集合Bとの差集合を構成する要素の中で、クエリとの類似度が最も大きい要素を抽出し、当該要素を新たな要素x1とする(図7(c):Γ(x1)→x1)。すなわち、図7(c)に示すように、探索処理部22は、新たな要素x1を抽出する。
このような処理を繰り返し、集合Aの要素数が上限コストβを超えたとき(第1終了条件)、または、要素x1とクエリとの類似度が1となった(クエリと一致する要素を抽出した:第2終了条件)とき、要素xmaxを最終出力要素とする。ただし、第2終了条件の設定の有無は情報探索集合に依存する。
図8は、第1実施形態に係る情報探索処理の流れを示すフローチャートである。
情報探索装置1の記憶部3には、予め入力部4を介して入力されたコスト上限βと、要素と、要素の特徴量のリストと、起点要素x0と、ネットワーク生成処理で算出されたn−GRネットワークΓ(x)が要素ごとに格納されている。
まず、探索処理部22は、起点要素x0(x0∈X)を記憶部3から取得し、この起点要素x0に対するn−GRネットワークΓ(x0)を記憶部3から取得する(S301)。すなわち、情報探索装置1は、n−GRネットワークΓ(x0)をRAMなどのメモリ上に常駐させている。
次に、入力部4を介して、クエリqが情報探索装置1に入力される(S302)。クエリの入力は、端末11から物理的ネットワーク10を介することによって、入力されてもよいし、直接入力部4から入力されてもよい。また、本実施形態では、探索処理部22が、起点要素x0を対するn−GRネットワークΓ(x0)を記憶部3から取得した後に、クエリqが入力されたが、これに限らず、クエリqが入力されてから、探索処理部22が、起点要素x0に対するn−GRネットワークΓ(x0)を記憶部3から取得してもよい。
次に、探索処理部22は、起点要素x0とクエリqとの類似度ρ(x0,q)を算出し(S303)、記憶部3に格納する。なお、探索処理部22は、この時点で、起点要素x0に対するn−GRネットワークΓ(x0)を記憶部3から取得してもよい。ここで、ρ(・)は、例えば、コサイン類似度関数などの類似度関数であり、ρ(a,b)=ρ(b,a)∈[0,1]、a,b∈Xの性質を有する。ただし、任意の要素aは、自分自身との類似度が最も大きくρ(a,a)=1である。
次に、探索処理部22は、集合Aの要素の数|A|を算出し、|A|>上限コストβ、または、クエリqと要素xmaxとの類似度(設定類似度)が1であること、すなわちρ(xmax,q)=1(クエリと要素とが一致していること)を満たしているか否かを判定する(S305)。ここで、|・|は、該当する集合の要素の数である。なお、要素xmaxの初期要素は、特に限定しないが、要素x0などを代入しておいてもよい。ここで、算出されたρ(xmax,q)は、記憶部3に格納される。
ステップS305の結果、|A|>β、または、ρ(xmax,q)=1を満たしている場合(S305→Yes)、探索処理部22は、要素xmaxを最終出力要素x2として出力し(S306)、処理を終了する。なお、本実施形態では、ステップS304の処理において、|A|>上限コストβ、または、クエリqと要素xmaxとの類似度が1であることを判定しているが、これに加え、探索処理部22が、図示しないタイマなどを監視し、所定の計算時間を越えているか否かを判定してもよい。
そして、探索処理部22は、集合Aと、集合Bとの差集合におけるすべての要素y(y∈X)に対して、ステップS308の処理を行ったか否かを判定する(S309)。判定は、例えば、ステップS308の後に、要素yにフラグを付し、このフラグがすべての要素に対し付されているか否かを、探索処理部22が判定することによって行われる。
ステップS309の結果、すべての要素yについて、ステップS308の処理を行っていると判定された場合(S309→Yes)、探索処理部22は、ステップS310の処理へ進む。
そして、探索処理部22は、記憶部3から類似度ρ(xmax,q)および類似度ρ(x1,q)を取得し、類似度ρ(x1,q)>類似度ρ(xmax,q)であるか否かを判定する(S311)。
ステップS311の結果、類似度ρ(x1,q)>類似度ρ(xmax,q)ではない場合(S311→No)、探索処理部22は、ステップS313の処理へ進む。
ステップS311の結果、類似度ρ(x1,q)>類似度ρ(xmax,q)である場合(S311→Yes)、探索処理部22は、探索処理部22は、要素x1を、新たな要素xmaxとして保持する(S312:図7(c))。前記したように、類似度ρ(xmax,q)が、請求項における設定類似度であり、情報探索部が、要素xmaxを保持することにより、設定類似度も保持することになる。
次に、探索処理部22は、要素x1に対するn−GRネットワークΓ(x1)を記憶部3から取得すると、集合A’=A∪Γ(x1)および集合B’=B∪{x1}を算出し、集合A’を新たなAとし、B’を新たなBとする(A←A’、B←B’:S313:図7(c))。すなわち、集合Aに集合A’を代入し、集合Bに集合B’を代入する。
そして、探索処理部22は、ステップS305の処理へ戻る。
また、要素間における距離の定義を前提としていないため、距離空間を定義不可能な情報探索集合に対しても効率的な情報探索を行うことが可能となる。例えば、任意の2つの要素間の類似度を、コサイン類似度で定義した情報探索集合は、距離空間ではない。さらに、局所的な要素の集合であるn−GRネットワークを連結したGRネットワークを用いており、全体の情報探索を、処理の軽いn−GRネットワークにおける探索の集まりとすることができ、全体的な処理の負担を軽減することができる。
そして、1度探索した要素は、次回以降の探索対象から外した情報探索を行うため、効率的な情報探索を行うことができる。
また、GRネットワークを用いて、情報探索を行うことにより、探索コストの小さい情報探索を行うことができる。
次に、図9および図10を参照して、本発明の第2実施形態について説明する。
第2実施形態では、情報探索システム12の構成については、図1に示す構成と同様であり、情報探索方法については、図7および図8に示す方法と同様であるため、図面および説明を省略する。
図9において、図3(b)と同様の構成に対しては、同一の符号を付して、説明を省略する。
図9では、要素y(要素107)と、要素x(要素105)との間に新しいリンク302が生成されている。図3(b)と、図9とを比較すると、リンクの生成先が異なっていることが分かる。
図10は、第2実施形態に係るネットワーク生成処理の流れを示すフローチャートである。
図10において、図4と同様の処理には、同一の番号を付して、説明を省略する。
図10が、図4と異なる点は、図4におけるステップS109およびステップS110が、ステップS110aに置き換わっている点である。
すなわち、ステップS108において、要素xが、要素x*ではないと判定された場合(S108→No)、ネットワーク生成部21は、式(12)を実行する(S110a)。
ここで、本実施形態に好適なネットワークの性質について説明する。
まず、本実施形態におけるネットワークは、情報探索を効率よく行うため、出次数kと強い相関を有する値である次数が、比較的小さいネットワークであることが望ましい。本実施形態に好適なネットワークは、情報探索集合内の全要素が結合した1コンポーネントのネットワークであり、次数が比較的小さいことが望ましい。本実施形態で用いたGRネットワークΓにおける平均次数は、式(13)で定義される。
本実施形態で用いたGRネットワークΓ全体における平均値である平均最短パス長は、式(14)で定義される。
このような、3つの要素間の関係を定量的に評価する尺度であるネットワークのクラスタ係数は、式(15)で定義される。クラスタ係数が大きい値であるほど、任意の3つの要素間における任意のペア要素間にリンクが存在する率が大きい。
このような特性を備えるネットワークをスモールワールドネットワークと記載する。スモールワールドネットワークには、本実施形態で記載したGRネットワークが含まれる。本実施形態で使用するGRネットワークにおける平均最短パス長と、クラスタ係数とに関する考察は、図19から図21を参照して後記する。
なお、図11から図15は、クエリと同一の情報が情報探索集合の要素に含まれている探索問題に対する図であり、図16から図18は、クエリと同一の情報が情報探索集合の要素に含まれていない探索問題に対する図である。
図11において、横軸は、出次数kの値を示し、縦軸は、コンポーネント数である。なお、図11において、縦軸は、対数表示となっている。
なお、図11における情報探索集合は、10年分の新聞の記事における文書ファイルを要素とする集合である。そして、要素間の類似度は、以下の手順によって算出した。すなわち、各文書ファイルを形態素解析し、不要なストップワードを削除した上で、単語を抽出する。そして、抽出された単語に対し、tf−idf法で各単語に対し、重み付けを行う。この結果、生じる重み付け単語ベクトルを、該文書ファイルの特徴量とする。
その上で、文書ファイルを要素とし、コサイン類似度関数を用いて、要素間の類似度を規定する。
この例で用いた要素数(文書ファイル数)は、64585個であり、距離空間の次元数は、51030となった。
図11において示されるようにk=6において、コンポーネント数は、1となる。すなわち、k=6で、1コンポーネントのGRネットワークの生成が可能となる。すなわち、k≧6以上であれば、1コンポーネントのGRネットワークを生成することができる。
図12において、横軸は、出次数kの値を示し、縦軸は、平均探索コストである。
図12では、前記した10年分の新聞記事の文書ファイルの要素から、ランダムに100000個のペア要素(クエリと、起点要素のペア)を選択し、前記した情報探索集合に対して、本実施形態における情報探索処理を行った結果を示す。
コスト上限値は、無限大に設定されている。また、平均探索コストとは、同一の情報探索集合に対し、クエリと、起点要素とを変化させて、情報探索をおこなったときの探索コストの平均値である。
図12で示されるように出次数k=60において、平均探索コストは、最小の216.72となった。この値は、全要素を探索した場合の探索コストの0.34%である。
一般に、出次数kは、図11および図12の手順によって、決定される。
図13において、横軸は、出次数kを示し、縦軸は、平均次数を示す。
また、図14において、横軸は、出次数kを示し、縦軸は、ステップ数の平均値(Average)または中央値(Median)を示す。
図13および図14の各kにおいて、平均次数の値と、ステップ数の平均値または中央値を乗算すると、k=60において、平均探索コストが最小となることがわかる。
図15において、横軸は、探索コストを示し、縦軸は、到達率を示す。なお、図15において、横軸は、対数表示となっている。
到達率とは、前記したようなペア要素(クエリと、起点要素のペア)を100000個選択したとき、そのうち、該当する探索コストでクエリに到達したペア要素の割合である。
図12において、最も平均探索コストが小さかったk=60に注目すると、50%のペア要素で探索コストが、190以下であり、90%のペア要素で探索コストが366以下である。すなわち、選択したペア要素のうち、探索コストが190以下でクエリへ到達したペア要素は、選択したペア要素のうちの50%であり、探索コストが366以下でクエリへ到達したペア要素は、選択したペア要素のうちの90%であることを示す。
なお、図16から図18における各用語の定義は、図11から図15における用語と同様である。
図16は、出次数kに対するコンポーネント数の変化を示す図である。
図16における条件は、以下の通りである。
図11から図15において、用いた情報探索集合(要素数:64585個)の中から、一様ランダムに6458要素を選択し、これをクエリとした。そして、残りの58127個の要素を情報探索集合とした。
図16において、横軸は、出次数kの値を示し、縦軸は、コンポーネント数である。なお、図16において、横軸は、対数表示となっている。
図16において示されるようにk=7において、コンポーネント数は、1となる。すなわち、k=7で、1コンポーネントのGRネットワークの生成が可能となる。すなわち、k≧7以上であれば、1コンポーネントのGRネットワークを生成することができる。
図17において、横軸は、出次数kの値を示し、縦軸は、平均探索コストである。
なお、図17における条件は、図12における条件と同様である。
平均探索コストとは、同一の情報探索集合に対し、クエリと、起点要素とを変化させて、情報探索をおこなったときの探索コストの平均値である。ここでは、クエリとして選択した6458個の要素の各々に対して、一様ランダムに選択した10個の起点要素を用いて、本実施形態に係る情報探索を行い、平均探索コストを算出した。
図17で示されるようにk=90において、平均探索コストは、最小の646.11となった。この値は、全要素を探索した場合の探索コストの1.11%である。
一般に、出次数kは、図16および図17の手順によって、決定される。
図18において、横軸は、探索コストを示し、縦軸は、到達率を示す。なお、図18において、横軸は、対数表示となっている。
到達率とは、現在探索中の要素とクエリとの距離を起点要素と、クエリとの距離で除算したものである。
図17において、最も平均探索コストが小さいk=90に注目すると、50%のペア要素で探索コストが、272以下であり、90%のペア要素で探索コストが917以下である。
図19は、ランダムネットワークおよびGRネットワークにおける出次数kに対する平均最短パス長の変化を示す図であり、図20は、ランダムネットワーク、GRネットワークおよびレギュラーネットワークにおける出次数kに対する平均最短パス長の変化を示す図である。
ここで、ランダムネットワークとは、情報探索集合中の任意の要素と、要素との結合をランダムに行ったネットワークである。レギュラーネットワークとは、情報探索集合中の要素間の結合を、所定の規則に従って結合したネットワークである。
図19および図20の横軸は、出次数kを示し、縦軸は、平均最短パス長を示す。ただし、図20において、縦軸は、対数表示となっている。
図19および図20に示すように、各出次数kにおけるGRネットワーク(GR NW)の平均最短パス長は、レギュラーネットワーク(Regular NW)の平均最短パス長よりかなり小さく、ランダムネットワーク(Random NW)の平均最短パス長に近い値を有する。
一般に、スモールワールドネットワークにおける平均最短パス長は、式(16)を満たすオーダであることが望ましい。
log10(スモールワールドネットワークの平均最短パス長/ランダムネットワークの平均最短パス長)<1 ・・・式(16)
図21の横軸は、出次数kを示し、縦軸は、クラスタ係数を示す。なお、図21において、縦軸は、対数表示となっている。
図21に示すように、各kにおけるGRネットワーク(GR NW)のクラスタ係数は、ランダムネットワーク(Random NW)のクラスタ係数より大きく、レギュラーネットワーク(Regular NW)のクラスタ係数に近い値を有する。
2 処理部
3 記憶部
4 入力部
5 出力部
10 物理的ネットワーク
11 端末
12 情報探索システム
21 ネットワーク生成部
22 探索処理部
Claims (8)
- 記憶部に格納されている情報探索集合の情報に対応する要素における前記要素間の類似度に基づき要素間ネットワークを生成するネットワーク生成装置におけるネットワーク生成方法であって、
前記ネットワーク生成装置が、
各要素を前記記憶部から取得し、
(a1)前記取得した要素それぞれを、前記情報探索集合の他の1以上の前記要素と直接的にリンク結合し、
(a2)前記取得した各要素から、前記情報探索集合の任意の前記要素である第1の要素を抽出し、当該第1の要素からk番目(ただし、kは1より大きい整数)に類似度の大きい要素である第2の要素を、前記取得した各要素から抽出し、
(a3)前記第2の要素に直接的にリンク結合している前記要素である第3の要素を、前記取得した各要素から抽出し、
(a4)前記第1の要素と前記第3の要素との類似度、および前記第1の要素と前記第2の要素との類似度を比較し、
(a5)前記(a4)の結果、前記第1の要素と前記第3の要素との類似度が、前記第1の要素と前記第2の要素との類似度以上である場合、前記第3の要素を、新たな前記第2の要素として、前記新たな第2の要素を用いて前記(a4)の処理を行い、
(a6)前記(a4)の結果、前記第1の要素と前記第2の要素との類似度が、前記第1の要素と前記第3の要素との類似度より大きい場合、前記第1の要素と前記第2の要素とを、直接的、または、前記第1の要素および前記第2の要素以外の要素を介することにより間接的にリンク結合し、前記(a1)から前記(a6)の処理をkが2から所定の値になるまで、前記情報探索集合の前記要素それぞれに対して繰り返すことにより、ネットワークを生成し、前記生成したネットワークを前記記憶部に格納することを特徴とするネットワーク生成方法。 - 前記第2の要素と、前記第1の要素に直接的にリンク結合している前記第1の要素以外の要素とを、直接的にリンク結合することを特徴とする請求項1に記載のネットワーク生成方法。
- 前記第2の要素と、前記第1の要素とを、直接的にリンク結合することを特徴とする請求項1に記載のネットワーク生成方法。
- 記憶部に保持されている情報探索集合の情報に対応する複数の要素からクエリと類似した情報を探索する情報探索装置における情報探索方法であって、
探索処理部が、
(b1)請求項1から請求項3のいずれか一項に記載のネットワーク生成方法によって、生成されたネットワークにおいて、所定の第4の要素に直接的にリンク結合された前記要素を前記記憶部から取得し、前記取得した要素のうち、前記クエリとの類似度が最も大きい要素を第5の要素として選択し、
(b2)当該第5の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第5の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、
(b3)前記第5の要素を第6の要素とし、前記ネットワークにおいて、当該第6の要素に直接的にリンク結合された要素を、前記記憶部から取得し、
(b4)前記第6の要素に直接的にリンク結合された要素のうち、過去に前記第5の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第5の要素とし、当該新たな第5の要素に対して、前記(b2)の処理を行うことにより、前記クエリと類似した要素を探索することを特徴とする情報探索方法。 - 請求項1に記載のネットワーク生成方法を、コンピュータに実行させることを特徴とするプログラム。
- 請求項4に記載の情報探索方法を、コンピュータに実行させることを特徴とするプログラム。
- 記憶部に格納されている情報探索集合の情報に対応する要素における前記要素間の類似度に基づき要素間ネットワークを生成するネットワーク生成装置であって、
各要素を前記記憶部から取得し、(a1)前記取得した要素それぞれを、前記情報探索集合の他の1以上の前記要素と直接的にリンク結合し、(a2)前記取得した各要素から、前記情報探索集合の任意の前記要素である第1の要素を抽出し、当該第1の要素からk番目(ただし、kは1より大きい整数)に類似度の大きい要素である第2の要素を、前記取得した各要素から抽出し、(a3)前記第2の要素に直接的にリンク結合している前記要素である第3の要素を、前記取得した各要素から抽出し、(a4)前記第1の要素と前記第3の要素との類似度、および前記第1の要素と前記第2の要素との類似度を比較し、(a5)前記(a4)の結果、前記第1の要素と前記第3の要素との類似度が、前記第1の要素と前記第2の要素との類似度以上である場合、前記第3の要素を、新たな前記第2の要素として、前記新たな第2の要素を用いて前記(a4)の処理を行い、(a6)前記(a4)の結果、前記第1の要素と前記第2の要素との類似度が、前記第1の要素と前記第3の要素との類似度より大きい場合、前記第1の要素と前記第2の要素とを、直接的、または、前記第1の要素および前記第2の要素以外の要素を介することにより間接的にリンク結合し、前記(a1)から前記(a6)の処理をkが2から所定の値になるまで、前記情報探索集合の前記要素それぞれに対して繰り返すことにより、ネットワークを生成し、前記生成したネットワークを前記記憶部に格納するネットワーク生成部を有することを特徴とするネットワーク生成装置。 - 記憶部に保持されている情報探索集合の情報に対応する複数の要素からクエリと類似した情報を探索する情報探索装置であって、
(b1)請求項7に記載のネットワーク生成装置によって、生成されたネットワークにおいて、所定の第4の要素に直接的にリンク結合された前記要素を前記記憶部から取得し、前記取得した要素のうち、前記クエリとの類似度が最も大きい要素を第5の要素として選択し、(b2)当該第5の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第5の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、(b3)前記第5の要素を第6の要素とし、前記ネットワークにおいて、当該第6の要素に直接的にリンク結合された要素を、前記記憶部から取得し、(b4)前記第6の要素に直接的にリンク結合された要素のうち、過去に前記第5の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第5の要素とし、当該新たな第5の要素に対して、前記(b2)の処理を行うことにより、前記クエリと類似した要素を探索する探索処理部を有することを特徴とする情報探索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007150417A JP4774019B2 (ja) | 2007-06-06 | 2007-06-06 | ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007150417A JP4774019B2 (ja) | 2007-06-06 | 2007-06-06 | ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008305072A JP2008305072A (ja) | 2008-12-18 |
JP4774019B2 true JP4774019B2 (ja) | 2011-09-14 |
Family
ID=40233767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007150417A Active JP4774019B2 (ja) | 2007-06-06 | 2007-06-06 | ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4774019B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013222388A (ja) * | 2012-04-18 | 2013-10-28 | Nippon Telegr & Teleph Corp <Ntt> | グラフ生成装置、方法、及びプログラム |
US11416552B2 (en) | 2018-05-10 | 2022-08-16 | Nippon Telegraph And Telephone Corporation | Graph updating apparatus, graph updating method and program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5737510B2 (ja) * | 2011-06-13 | 2015-06-17 | 日本電気株式会社 | ネットワーク可視化システム、ネットワーク可視化方法、および、ネットワーク可視化プログラム |
-
2007
- 2007-06-06 JP JP2007150417A patent/JP4774019B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013222388A (ja) * | 2012-04-18 | 2013-10-28 | Nippon Telegr & Teleph Corp <Ntt> | グラフ生成装置、方法、及びプログラム |
US11416552B2 (en) | 2018-05-10 | 2022-08-16 | Nippon Telegraph And Telephone Corporation | Graph updating apparatus, graph updating method and program |
Also Published As
Publication number | Publication date |
---|---|
JP2008305072A (ja) | 2008-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI360754B (en) | Web page analysis using multiple graphs | |
US8700548B2 (en) | Optimization technique using evolutionary algorithms | |
US10713229B2 (en) | Index generating device and method, and search device and search method | |
US20140193077A1 (en) | Image retrieval apparatus, image retrieval method, query image providing apparatus, query image providing method, and program | |
EP3333770A1 (en) | Matching graph entities in graph data | |
US20220414131A1 (en) | Text search method, device, server, and storage medium | |
US9690969B2 (en) | Information processing apparatus, non-transitory computer readable medium, and information processing method | |
CN110705245A (zh) | 一种获取参考处理方案的方法及装置、存储介质 | |
Li et al. | An extended depth-first search algorithm for optimal triangulation of Bayesian networks | |
JP2018185771A (ja) | 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム | |
JP4774019B2 (ja) | ネットワーク生成方法、情報探索方法、プログラム、ネットワーク生成装置および情報探索装置 | |
JP4774016B2 (ja) | 情報探索方法、情報探索プログラムおよび情報探索装置 | |
CN113553399B (zh) | 基于模糊语言近似概念格的文本搜索方法及系统 | |
CN103218419A (zh) | 网络标签聚类方法和系统 | |
JP2014081841A (ja) | 時系列データ探索方法、装置、及びプログラム | |
CN107944045B (zh) | 基于t分布哈希的图像检索方法及系统 | |
CN116187754A (zh) | 生产线故障定位方法、设备及可读存储介质 | |
RU2435214C2 (ru) | Способ быстрого поиска в кодовой книге при векторном квантовании | |
CN114357219A (zh) | 一种面向移动端实例级图像检索方法及装置 | |
JPWO2009151002A1 (ja) | パターン識別方法、装置およびプログラム | |
JP5545063B2 (ja) | プログラム及び情報分析装置 | |
JP4821135B2 (ja) | データ分析装置 | |
JP6333306B2 (ja) | 検索データ管理装置、検索データ管理方法、および検索データ管理プログラム | |
Aldahmani et al. | Unbiased estimation for linear regression when n< v | |
Li et al. | A Depth First Search Algorithm for Optimal Triangulation of Bayesian Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110621 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110624 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140701 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4774019 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |