JP5472110B2

JP5472110B2 - 関係性発見装置、関係性発見方法および関係性発見プログラム

Info

Publication number: JP5472110B2
Application number: JP2010527759A
Authority: JP
Inventors: 英紀河合
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-09-03
Filing date: 2009-08-26
Publication date: 2014-04-16
Anticipated expiration: 2029-08-26
Also published as: WO2010026900A1; JPWO2010026900A1; US20120030161A1; US8676738B2

Description

本発明は、関係性発見装置、関係性発見方法および関係性発見プログラムに関し、特に意外性のある単語間の関係や人間関係を検出可能な関係性発見装置に関する。

近年、大量の文書データから有用な知識を発見するための技術として、関係性マイニングが重要になってきている。関係性マイニングにおいては、マイニングの対象同士の類似度や距離の計算が必須である。関係性マイニングの対象としては、例えば、文書中に出現するキーワード同士の関係性や、人物名や組織名などの固有表現同士の関係性、文書とキーワードの関係性、文書同士の関係性などが挙げられる。以下、関係性マイニングの対象を一般化してマイニング対象と呼ぶ。

例えば、特許文献１は、人名をマイニング対象として、Ｗｅｂサーチエンジンを用いて各人名が同一文書に出現する割合を共起度として計算することによって、人間関係を重み付ネットワークとして可視化する技術を開示している。また、特許文献２は、文書をマイニング対象として、コサイン類似度を用いてユーザの嗜好に類似した文書を検索する技術を開示している。

特許文献３は、単語間の類似度を計算する際に、字句情報の一致性を表す類似度として、後方一致した文字列の長さを用いる技術を開示している。また、特許文献３は、単語間の係り受け関係における共起度を基にした第１の類似度、単語の属する意味カテゴリの一致性を基にした第２の類似度という、複数の類似度の線形和を計算することによって、単語間の類似度を判断する技術を開示している。

特開２００４−３４８１７９号公報特開平１１−５３３９４号公報特開２００７−０７９７３０号公報

関連する関係性マイニング技術の問題点は、異なる観点の関係性における差分を考慮した意外な関係を検索することができないことである。

例えば、事象間の因果関係として、「サッカーのワールドカップが開催される→サッカーが盛んになる→スポーツメーカーの売上げが上がる」と、「サッカーのワールドカップが開催される→深夜放送の視聴者の数が増える→栄養ドリンクのメーカーの売上げが上がる」は、どちらもグラフ構造上では、２ホップの関係にある。しかし、誰もが思いつく前者の因果関係よりも、意外な関係性を持つ後者の因果関係を検索できることは重要である。

また、例えば、人間関係を使って類似の興味を有する人物が検索される場合、「人物Ａとグラフ構造上での関係で近くに位置し、かつ、興味範囲が類似の人物」を探すよりも、「人物Ａとグラフ構造上での関係で遠くに位置し、かつ、興味範囲が類似の人物」を探す方が、意外な発見やセレンディピティ（掘り出し物）につながることが多い。なぜなら、「人物Ａとグラフ構造上での関係で近くに位置し、かつ、興味範囲が類似の人物」は既に人物Ａと知り合いであったり、人物Ａと似たような経験や知識を持っている可能性が高い。これに対し、「人物Ａとグラフ構造上での関係で遠くに位置し、かつ、興味範囲が類似の人物」は、人物Ａとは周囲の人間関係や環境が異なるため、異なる経験や知識をもっている可能性が高いからである。

しかしながら、特許文献１や特許文献２が開示している技術では、このように、複数の観点の関係性を同時に用いて、「あるマイニング対象に対し、一方の観点の関係性が強いにも拘わらず、他方の観点の関係性が弱い別のマイニング対象」を検索することは不可能である。その理由は、特許文献１や特許文献２が開示している技術は、それぞれ単独の関係性を使っているのみであり、複数の関係性を同時に利用する仕組みを持たないからである。

また、特許文献３が開示している技術は、単語を検索する際に、複数の関係性の線形和を使っているため、より類似度の高い単語を検索できる。しかし、特許文献３が開示している技術は、複数の関係性を比較する仕組みがないため、関係性の相互比較を考慮した検索はできない。

本発明の目的は、異なる観点から見た要素間の関係性の相互比較を考慮した意外な関係を検索することができる、関係性発見装置、関係性発見方法および関係性発見プログラムを提供することにある。

本発明の第１の観点に係る関係性発見装置は、
第１の観点から互いに関連付けられた、集合に属する複数の要素について、該第１の観点から見た該複数の要素の間の第１の関係を示す第１データを記憶する第１データ記憶手段から、前記第１データを取得し、取得した前記第１データが示す前記第１の関係において、前記集合に属する２つの要素が関連する度合を表す第１の距離を算出する第１の距離計算手段と、
前記第１の観点とは異なる第２の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第２の観点から見た該複数の要素の間の第２の関係を示す第２データを記憶する第２データ記憶手段から、前記第２データを取得し、取得した前記第２データが示す前記第２の関係において、前記集合に属する２つの要素が関連する度合を表す第２の距離を算出する第２の距離計算手段と、
前記集合に属する２つの要素の間の前記第１の距離と前記第２の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性計算手段と、
を備えることを特徴とする。

本発明の第２の観点に係る関係性発見方法は、
第１の距離計算手段と、第２の距離計算手段と、意外性計算手段と、を備える関係性発見装置が実行する関係性発見方法であって、
前記第１の距離計算手段が、第１の観点から互いに関連付けられた、集合に属する複数の要素について、該第１の観点から見た該複数の要素の間の第１の関係を示す第１データを記憶する第１データ記憶手段から、前記第１データを取得し、取得した前記第１データが示す前記第１の関係において、前記集合に属する２つの要素が関連する度合を表す第１の距離を算出する第１の距離計算ステップと、
前記第２の距離計算手段が、前記第１の観点とは異なる第２の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第２の観点から見た該複数の要素の間の第２の関係を示す第２データを記憶する第２データ記憶手段から、前記第２データを取得し、取得した前記第２データが示す前記第２の関係において、前記集合に属する２つの要素の間が関連する度合を表す第２の距離を算出する第２の距離計算ステップと、
前記意外性計算手段が、前記集合に属する２つの要素の間の前記第１の距離と前記第２の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性計算ステップと、
を備えることを特徴とする。

本発明の第３の観点に係る関係性発見プログラムは、
コンピュータを、
第１の観点から互いに関連付けられた、集合に属する複数の要素について、該第１の観点から見た該複数の要素の間の第１の関係を示す第１データを記憶する第１データ記憶手段から、前記第１データを取得し、取得した前記第１データが示す前記第１の関係において、前記集合に属する２つの要素が関連する度合を表す第１の距離を算出する第１の距離計算手段と、
前記第１の観点とは異なる第２の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第２の観点から見た該複数の要素の間の第２の関係を示す第２データを記憶する第２データ記憶手段から、前記第２データを取得し、取得した前記第２データが示す前記第２の関係において、前記集合に属する２つの要素が関連する度合を表す第２の距離を算出する第２の距離計算手段と、
前記集合に属する２つの要素の間の前記第１の距離と前記第２の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性算出手段、
として機能させることを特徴とする。

本発明の効果は、ある観点の関係性の距離尺度では遠くにあるにも拘わらず、異なる他の観点の関係性の距離尺度では近くにあるマイニング対象の組合せを、意外な関係として抽出することができる。その理由は、異なる２つの観点の関係性の距離尺度の比を意外性スコアとして計算し、意外性スコアが大きいマイニング対象の組合せほど上位に表示させるからである。

本発明の実施の形態１に係る関係性発見装置の構成例を示すブロック図である。実施の形態１における第１のデータの例を示す図である。実施の形態１における第２のデータの例を示す図である。実施の形態１における意外性計算の出力結果の例を示す図である。実施の形態１に係る関係性発見装置の動作の一例を示す流れ図である。実施の形態１における意外性計算の出力結果の例を示す図である。本発明の実施の形態２に係る関係性発見装置の構成例を示すブロック図である。実施の形態２における２つの関係性の距離の分布図の例を示す図である。実施の形態２における第２の意外性計算の出力結果の例を示す図である。実施の形態２に係る関係性発見の動作の一例を示す流れ図である。関係性発見装置のハードウェア構成の一例を示すブロック図である。

本発明では、関係性を定量的に把握するために、関係性を一般化した距離という概念が導入される。関係性を表す距離尺度としては、共起度による距離尺度、グラフ構造上での距離尺度、ベクトル空間上での距離尺度、編集的距離尺度などが挙げられる。

共起度による距離尺度とは、同じ文書内に同時に出現するキーワード同士ほど関係性が深いという考え方に基づく距離尺度である。この距離尺度は、Jaccard係数、Simpson係数、相互情報量などを用いて計算することができる。

グラフ構造とは、グラフ理論の用語を用いて、要素を表すノードを要素間の関係を表すエッジで接続するグラフで表現された構造をいう。グラフ構造は、ネットワーク構造とも呼ばれる。グラフ構造上での距離尺度は、ノード間の関係をノード間の最短パス長や、重み付パス長として計算される。例えば、特許文献１に記載の方法によって得られたグラフ構造上で、任意の２名の人物間の関係性の距離はその２名の間の最短パス長で表現できる。

編集的距離尺度とは、字句情報の一致度に着目した距離尺度である。この距離尺度は、前方一致文字列数、後方一致文字列数、ハミング距離、およびレーベンシュタイン距離などが例として挙げられる。

（実施の形態１）
図１は、本発明の実施の形態１に係る関係性発見装置の構成例を示すブロック図である。図１を参照すると、関係性発見装置１００は、記憶装置１と、処理装置２と、キーボード等の入力部３と、ディスプレイやプリンタ等の出力部４を含む。

記憶装置１は、さらに、第１のデータ記憶部１１と、第２のデータ記憶部１２と、を含む。また、処理装置２は、さらに、第１の距離計算部２１と、第２の距離計算部２２と、意外性計算部２３と、表示処理部２５とを含む。

記憶装置１は図示しないネットワークを介して、処理装置２と接続されてもよい。記憶装置１と処理装置２は、例えば、１つのコンピュータ上に実現されてもよいし、通信ネットワークを介して接続される別の装置であってもよい。記憶装置１と処理装置２が別の装置である場合、狭義には、処理装置２が関係性発見装置である。

第１のデータ記憶部１１には、マイニング対象の関係性を示す第１のデータが格納されている。図２に、第１のデータの例を示す。図２では、マイニング対象として事象表現を使用して、第１のデータとして、事象間の因果関係が示されている。図２を見ると、事象Ａと事象Ｂ、事象Ｃ、事象Ｄは直接的な因果関係にあるが、事象Ａと事象Ｅとは間接的な因果関係であることが分かる。事象表現の具体例としては、「サッカーのワールドカップ開催」、「サッカー人口増加」、「スポーツメーカーの売上げ増加」、「深夜放送の視聴者の数の増加」、「栄養ドリンクメーカーの売上げ増加」などが挙げられる。

第２のデータ記憶部１２には、マイニング対象の関係性を示す第２のデータが格納されている。図３に第２のデータの例を示す。図３では、マイニング対象として事象表現を使用し、第２のデータとして、事象表現が出現する文書のリストが示されている。図３を見ると、事象Ａを表す事象表現が文書Ｄ０１、Ｄ０２、Ｄ０３、Ｄ０５、Ｄ１０、Ｄ１２、Ｄ１４、Ｄ１５に出現していることが分かる。

第１の距離計算部２１は、入力部３によって指定されたクエリに適合する要素を起点として、第１のデータ記憶部１１に格納されたデータを対象に、あらかじめ決められた距離尺度によってマイニング対象間の第１の距離を計算する。要素Ｘと要素Ｙの第１の距離はＤ１（Ｘ，Ｙ）と記される。例えば、第１のデータ記憶部１１に格納されたデータが、図２のように、事象表現のグラフ構造であり、あらかじめ決められた距離尺度がグラフ上の最短パス長（最短経路のエッジ数）であるとする。入力部３によって指定されたクエリが「事象Ａ」である場合、図２の関係では、事象Ａと事象Ｃの間の距離Ｄ１（事象Ａ，事象Ｃ）＝１、事象Ａと事象Ｅの間の距離Ｄ１（事象Ａ，事象Ｅ）＝２、事象Ａと事象Ｆの間の距離Ｄ１（事象Ａ，事象Ｆ）＝３、であることが分かる。

第２の距離計算部２２は、入力部３によって指定されたクエリに適合する要素を起点として、第２のデータ記憶部１２に格納されたデータを対象に、あらかじめ決められた距離尺度によってマイニング対象間の第２の距離を計算する。要素Ｘと要素Ｙの第２の距離はＤ２（Ｘ，Ｙ）と記される。例えば、第２のデータ記憶部１２に格納されたデータが、図３のように、事象表現の出現する文書リストであるとする。文書リストを元に、事象表現が出現した文書の値を１、出現しなかった文書の値を０として、ある事象に対して全文書の値を並べて、その事象をベクトルで表現することができる。この事象を表すベクトルは文書ベクトルと呼ばれる。従って、事象の間の距離は、例えば、文書ベクトルのユークリッド距離で定義される。

今、図３のように、Ｄ０１〜Ｄ１５のＩＤを有する１５の文書があり、あらかじめ決められた距離尺度が文書ベクトルのユークリッド距離であるとする。入力部３によって指定されたクエリが「事象Ａ」である場合、事象Ａが出現する文書ベクトルＶａは、
Va ＝ (1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1)
事象Ｂが出現する文書ベクトルＶｂは、
Vb ＝ (1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0)
と表現される。したがって、事象Ａと事象Ｂの距離Ｄ２(事象Ａ，事象Ｂ) は、
Ｄ２(事象Ａ, 事象Ｂ) ＝｜Va - Vb｜
＝｜(1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1)
− (1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0)｜
＝ SQRT(0 +0 +0 +0 +1 +0 +1 +0 +0 +0 +0 +0 +0 +0 +1)
＝ SQRT（３）＝ 1.73
と求めることができる。ただし、SQRTは（正の）平方根を表す。この場合、第２の距離は、事象が属するトピック間の関連度の逆、いわば無関連度を表している。

上述したように、第２の距離は、ユークリッド距離として算出可能である。しかし、文書ベクトルを真偽の２値のビット列とみなすことにより、Ｄ２はハミング距離として定義可能である。文書ベクトルの場合、ユークリッド距離はハミング距離の平方根である。

意外性計算部２３は、意外性スコアとして、第２の距離計算部２２が計算した第２の距離Ｄ２と、第１の距離計算部２１が計算した第１の距離Ｄ１の比の値Ｄ２／Ｄ１を計算する。表示処理部２５は、第１の距離が同じマイニング対象の組合せを、意外性スコアＤ２/Ｄ１が高い順に並べ替えて、出力部４に表示する。

次に、図１〜図５を参照して、本実施の形態の動作について説明する。図５は、本実施の形態に係る関係性発見装置の動作の一例を示す流れ図である。

まず、入力部３によってクエリが入力されると、第１の距離計算部２１は、第１のデータ記憶部１１に格納されたデータを対象に、クエリに適合する要素を起点としてあらかじめ決められた距離尺度によってマイニング対象間の第１の距離を計算する（図５のステップＳ１１）。例えば、第１のデータ記憶部１１に格納されたデータが、図２のように、事象表現のグラフ構造であり、あらかじめ決められた距離尺度がネットワーク上の最短パス長であるとする。入力部３によって指定されたクエリが「事象Ａ」の場合、図２を見ると、事象Ａから他の事象までの第１の距離Ｄ１はそれぞれ、
Ｄ１(事象Ａ，事象Ｃ) ＝１、
Ｄ１(事象Ａ，事象Ｄ) ＝１、
Ｄ１(事象Ａ，事象Ｅ) ＝２、
Ｄ１(事象Ａ，事象Ｆ) ＝３、
Ｄ１(事象Ａ，事象Ｇ) ＝３、
Ｄ１(事象Ａ，事象Ｈ) ＝２、
である。

次に、第２の距離計算部２２は、入力部３によって指定されたクエリに適合する要素を起点として、第２のデータ記憶部１２に格納されたデータを対象に、あらかじめ決められた距離尺度によってマイニング対象間の第２の距離を計算する（図５のステップＳ１２）。例えば、第２のデータ記憶部１２に格納されたデータが、図３のように、事象名の出現する文書リストであり、あらかじめ決められた距離尺度が文書ベクトルのユークリッド距離であるとする。そして、図３のように、Ｄ０１〜Ｄ１５のＩＤを有する１５の文書があり、事象名が出現した文書を１、出現しなかった文書を０としてベクトル表現する。

入力部３によって指定されたクエリが「事象Ａ」を例に説明する。前述のとおり、事象Ａが出現する文書ベクトルは、
Va ＝ (1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1)
事象Ｂが出現する文書ベクトルは、
Vb ＝ (1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0)
と表現される。したがって、事象Ａと事象Ｂの距離Ｄ２(事象Ａ，事象Ｂ) は、
Ｄ２(事象Ａ，事象Ｂ) ＝｜Va - Vb｜
＝｜(1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1)
− (1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0)｜
＝ SQRT(0 +0 +0 +0 +1 +0 +1 +0 +0 +0 +0 +0 +0 +0 +1)
＝ SQRT（３）＝ 1.73
である。
同様に、事象Ａから他の事象までの第２の距離Ｄ２は、図３を参照して、
Ｄ２(事象Ａ，事象Ｃ) ＝ SQRT（５）＝ 2.24
Ｄ２(事象Ａ，事象Ｄ) ＝ SQRT（４）＝ 2.00
Ｄ２(事象Ａ，事象Ｅ) ＝ SQRT（５）＝ 2.24
Ｄ２(事象Ａ，事象Ｆ) ＝ SQRT（１０）＝ 3.16
Ｄ２(事象Ａ，事象Ｇ) ＝ SQRT（１２）＝ 3.46
Ｄ２(事象Ａ，事象Ｈ) ＝ SQRT（１１）＝ 3.32
である。

次に、意外性計算部２３は、意外性スコアとして、第２の距離計算部２２が計算した第２の距離Ｄ２と、第１の距離計算部２１が計算した第１の距離Ｄ１の比の値Ｄ２/Ｄ１を計算する（図５のステップＳ１３）。

例えば、事象Ａを起点とした他の事象との第１の距離と第２の距離の比は、
Ｄ２(事象Ａ，事象Ｂ) ／Ｄ１(事象Ａ，事象Ｂ) ＝ 1.73 ／ 1 ＝ 1.73
Ｄ２(事象Ａ，事象Ｃ) ／Ｄ１(事象Ａ，事象Ｃ) ＝ 2.24 ／ 1 ＝ 2.24
Ｄ２(事象Ａ，事象Ｄ) ／Ｄ１(事象Ａ，事象Ｄ) ＝ 2.00 ／ 1 ＝ 2.00
Ｄ２(事象Ａ，事象Ｅ) ／Ｄ１(事象Ａ，事象Ｅ) ＝ 2.24 ／ 2 ＝ 1.12
Ｄ２(事象Ａ，事象Ｆ) ／Ｄ１(事象Ａ，事象Ｆ) ＝ 3.16 ／ 3 ＝ 1.05
Ｄ２(事象Ａ，事象Ｇ) ／Ｄ１(事象Ａ，事象Ｇ) ＝ 3.46 ／ 3 ＝ 1.15
Ｄ２(事象Ａ，事象Ｈ) ／Ｄ１(事象Ａ，事象Ｈ) ＝ 3.32 ／ 2 ＝ 1.66
である。事象同士の出現する文書の傾向が大きく異なっているにも拘わらず、グラフ上では近くに位置している事象同士ほど、高い意外性スコアをもつ。

表示処理部２５は、第１の距離が同じマイニング対象の組合せを、意外性スコアＤ２/Ｄ１が高い順に表示する（ステップＳ１４）。図４は、図２および図３の例の場合に、第１の距離が同じマイニング対象の組合せを表示した結果を表す。図４では、事象Ａから１ホップ先の因果関係の中では、事象Ｃが事象Ａと共通して出現する文書の数が一番少ない。従って、事象Ａと事象Ｃとの関係が、一番意外な関係ということが分かる。また、事象Ａから２ホップ先の因果関係の中では、事象Ｈが事象Ａと共通して出現する文書の数が、事象Ｅが事象Ａと共通して出現する文書の数よりも少ない。従って、事象Ａと事象Ｈの関係が、事象Ａと事象Ｅとの関係よりも、意外な関係であることが分かる。さらに、事象Ａから３ホップ先の因果関係の中では、事象Ｇが事象Ａと共通して出現する文書の数が、事象Ｆが事象Ａと共通して出現する文書の数よりも少ない。従って、事象Ａと事象Ｇの関係が、事象Ａと事象Ｆとの関係よりも、意外な関係であることが分かる。

なお、ここでは、理解を容易にするため、第１の距離計算部２１が求める第１の距離Ｄ１が、ネットワーク上の最短パス長であるとして説明した。しかし、第１の距離Ｄ１を求める方法は、例えば、ノードを結ぶエッジに重みを付与し、ノード間に存在するエッジの重みの合計のうち、最小のものを第１の距離Ｄ１として求める方法でもよく、本実施の形態に述べた方法に限定されない。

上述した実施の形態では、理解を容易にするため、第２の距離計算部２２が求める第２の距離Ｄ２を、文書ベクトルのユークリッド距離として説明した。しかし、第２の距離Ｄ２を求める方法は、前述のハミング距離や、例えば、文書ベクトルのコサイン類似度の逆数、またはマハラノビス距離などを用いる方法でもよく、本実施の形態に述べた方法に限定されない。

また、図４では理解を容易にするため、表示処理部２５が、第１の距離が同じマイニング対象の組合せを、意外性スコアＤ２／Ｄ１が高い順に表示する方法を説明した。しかし、表示処理部２５は、例えば、「第１の距離が１以上３未満のマイニング対象の組合せを、意外性スコアＤ２／Ｄ１が高い順に表示する」など、あらかじめ決められたある一定の範囲毎にある対象の組合せを、意外性スコアＤ２／Ｄ１が高い順に表示してもよく、本実施の形態に述べた方法に限定されない。

上述した実施の形態では、第１のデータ記憶部１１に図２のようなネットワークデータが格納されており、第１の距離計算部２１は、第１の距離Ｄ１を、ネットワーク上の最短パス長として計算する。そして、第２のデータ記憶部１２に図３のような文書リストデータが格納されており、第２の距離計算部２２は、第２の距離Ｄ２を、文書ベクトルのユークリッド距離として計算する。しかし、第１の関係と第１の距離、および、第２の関係と第２の距離の組合せは、他にも様々な組合せが考えられ、本実施の形態に述べた方法に限定されない。

例えば、本実施の形態に述べた例の逆の場合として、単純に第１のデータ記憶部１１に図３のような文書リストデータが格納され、第１の距離計算部２１が、第１の距離Ｄ１を文書ベクトルのユークリッド距離として計算してもよい。そして、第２のデータ記憶部１２に図２のようなネットワークデータが格納されており、第２の距離計算部２２が、第２の距離Ｄ２をネットワーク上の最短パス長として計算してもよい。この場合、図５のステップＳ１３で計算される意外性スコアＤ２／Ｄ１は以下のようになる。
Ｄ２(事象Ａ，事象Ｂ) ／Ｄ１(事象Ａ，事象Ｂ) ＝ 1 ／ 1.73 ＝ 0.59
Ｄ２(事象Ａ，事象Ｃ) ／Ｄ１(事象Ａ，事象Ｃ) ＝ 1 ／ 2.24 ＝ 0.45
Ｄ２(事象Ａ，事象Ｄ) ／Ｄ１(事象Ａ，事象Ｄ) ＝ 1 ／ 2.00 ＝ 0.50
Ｄ２(事象Ａ，事象Ｅ) ／Ｄ１(事象Ａ，事象Ｅ) ＝ 2 ／ 2.24 ＝ 0.89
Ｄ２(事象Ａ，事象Ｆ) ／Ｄ１(事象Ａ，事象Ｆ) ＝ 3 ／ 3.16 ＝ 0.95
Ｄ２(事象Ａ，事象Ｇ) ／Ｄ１(事象Ａ，事象Ｇ) ＝ 3 ／ 3.46 ＝ 0.87
Ｄ２(事象Ａ，事象Ｈ) ／Ｄ１(事象Ａ，事象Ｈ) ＝ 2 ／ 3.32 ＝ 0.60

この場合、グラフ構造上では遠くに位置しているにも拘わらず、事象同士の出現する文書の傾向が似ている事象同士ほど高い意外性スコアをもつことになる。図６は、これらの意外性スコアを、第１の距離を「１以上３未満」と「３以上５未満」の２つの範囲に区切ってマイニング対象の組合せを表示した結果を示す。図６では、事象Ａの出現する文書ベクトルとユークリッド距離が「１以上３未満」の文書ベクトル内に出現する事象の中では、事象Ｅがグラフ構造上事象Ａから最も遠くに位置している。従って、事象Ａと事象Ｅは意外な関係であることが分かる。また、事象Ａの出現する文書ベクトルとユークリッド距離が「３以上５未満」の文書ベクトル内に出現する事象の中では、事象Ｆがグラフ構造上事象Ａから最も遠くに位置している。従って、事象Ａと事象Ｆは意外な関係であることが分かる。

また、第１のデータ記憶部１１に図２のような第１のネットワークデータが格納されており、第１の距離計算部２１が、第１の距離Ｄ１を第１のネットワーク上の最短パス長として計算してもよい。そして、第２のデータ記憶部１２にも第１のネットワークデータとは別の観点で作成された第２のネットワークデータが格納されており、第２の距離計算部２２が、第２の距離Ｄ２を第２のネットワーク上の最短パス長として計算してもよく、本実施の形態に述べた方法に限定されない。例えば、マイニング対象が論文であり、第１のデータを引用関係のネットワークとし、第２のデータを同一共著者をリンクとする共著関係のネットワークとしてもよい。

また、ここでは理解を容易にするため、マイニング対象として因果関係を構成する事象同士の意外な関係性を求める方法について述べた。事象同士の他に、単語同士、文書同士、単語と文書同士など、様々な関係の意外性を判定してもよく、本実施の形態に述べた対象に限定されない。

例えば、論文をマイニング対象とする場合、第１の距離は、論文の引用関係によるグラフ構造上のパス長であり、第２の距離は、論文の出現単語により求められるキーワードベクトルのコサイン類似度の逆数であってもよい。その場合、本発明の方法によって、異なる分野に属する論文間での引用関係を抽出することができるため、意外な技術の組合せが発見されることが期待できる。また、遺伝子名をマイニング対象とし、第１の距離は、遺伝子の塩基配列情報の編集距離であり、第２の距離は、遺伝子が影響する他の遺伝子群のコサイン類似度の逆数であってもよい。本発明の方法によって、塩基配列構造が似ているにも拘わらず、全く異なる遺伝子群に作用する遺伝子同士の組合せを抽出することが期待できる。

本発明の方法において、意外性スコアは、要素間の関係の第１の距離の分布におけるある要素間の第１の距離の位置づけと、要素間の関係の第２の距離の分布におけるその要素間の第２の距離の位置づけとを比較し、それぞれの分布におけるその関係の位置づけが異なる度合いを表す。この２つの距離のそれぞれの分布における位置づけが異なる度合いは、乖離の度合いまたは乖離度と呼ばれる。

標準偏差を使って、乖離度は概念的に以下のように説明される。第１の距離の分布の標準偏差を用いて、要素Ｘと要素Ｙの間の第１の距離の偏差値１を計算する。また、第２の距離の分布の標準偏差を用いて、要素Ｘと要素Ｙの間の第２の距離の偏差値２を計算したとする。偏差値１と偏差値２の違いが乖離度に相当する。

例えば、乖離度は偏差値１と偏差値２の差で表される。その場合、偏差値の差が大きいほど、乖離度すなわち意外性スコアが大きい。または、乖離度を偏差値１と偏差値２の比で表すことができる。その場合、比の値が１から離れるほど（対数の絶対値が大きいほど）、乖離度が大きい。

ここで、それぞれが２つの要素間の関係である２つの関係を比較する場合に、乖離度の絶対値ではなく、相対的に乖離度の大きさが比較できればよい。そこで、標準偏差を計算せずに、第２の距離と第１の距離の比の値を計算すればよい。これにより、第１の距離の位置づけに基づいて標準化した位置づけの違い（乖離度＝意外性スコア）の大きさを比較することができる。これが、実施の形態１で用いた意外性スコアに他ならない。

したがって、意外性スコアは、上述の乖離度であるから、第２の距離と第１の距離の比の値以外に、いろいろな方法で計算できる。例えば、前述のように、意外性スコアは、標準偏差で正規化された偏差値として計算されてもよい。また、意外性スコアは、第1の距離と第2の距離それぞれの距離の分布の大きさに基づいて正規化された値として計算されてもよい。

以上説明したように、本実施の形態１の関係性発見装置は、異なる２つの距離の比を意外性スコアとして計算し、意外性スコアが大きいマイニング対象ほど上位に表示させる。これにより、利用者は一方の関係の観点から見ると遠くにあるにも拘わらず、他方の関係の観点から見ると近くにあるマイニング対象の組合せを、意外な関係として抽出することができる。

（実施の形態２）
図７は、本発明の実施の形態２に係る関係性発見装置の構成例を示すブロック図である。実施の形態２の関係性発見装置１００は、図１に示す実施の形態１の意外性計算部２３に代えて、第２の意外性計算部２４を備える。

第２の意外性計算部２４は、第１の距離と第２の距離を座標軸として要素間の関係を二次元平面上にプロットした散布図を計算する。そして、第２の意外性計算部２４は、その二次元平面上のある関係の点が、その散布図の分布の中央を表す標準的な線から離れる度合いを、その関係の意外性スコアとして計算する。

散布図の分布の中央を表す標準的な線として、分布の回帰曲線を採用することができる。実施の形態２では、散布図の分布の中央を表す標準的な線として、特に、回帰直線が用いられる。すなわち、第１の距離と第２の距離を座標軸とする二次元平面上の要素間の関係の分布について、回帰直線が計算される。そして、各関係の点と回帰直線との距離が意外性スコアである。関係の点と回帰直線との距離は、その点から回帰直線に下ろした垂線の長さである。一般的には、関係の点を通る回帰曲線の法線の、その点から回帰曲線までの長さが意外性スコアである。この意外性スコアは、前述の乖離度の一例である。

図１０は実施の形態２に係る関係性発見装置の動作の一例を示す流れ図である。図１０における第１の距離計算処理（ステップＳ１１）と第２の距離計算処理（ステップＳ１２）は、実施の形態１における第１の距離計算処理（図５のステップＳ１１）と第２の距離計算処理（図５のステップＳ１２）と同一である。

以下では、実施の形態１の説明で用いたものと同じデータを例にして説明する。第１のデータ記憶部１１に図２のようなネットワークデータが格納されており、第１の距離計算部２１が求める第１の距離Ｄ１をネットワーク上の最短パス長とする。また、第２のデータ記憶部１２に図３のような文書リストデータが格納されており、第２の距離計算部２２が求める第２の距離Ｄ２を、文書ベクトルのユークリッド距離とする。入力部３によって指定されたクエリが「事象Ａ」であるとする。

第２の意外性計算部２４は、第１の距離と第２の距離を座標として、各関係の点を二次元平面上にプロットし、その散布図の回帰直線を最小二乗法によって求める。そして、第２の意外性計算部２４は、プロットされた各関係の点から回帰直線に対して垂直に下ろされた垂線の長さを意外性スコアとして計算する（図１０のステップＳ２３）。散布図の例を図８に示す。

図８における各プロットの座標は、
点Ｂの座標は、(Ｄ２(事象Ａ，事象Ｂ) ，Ｄ１(事象Ａ，事象Ｂ)) ＝ (1.73，1)
点Ｃの座標は、(Ｄ２(事象Ａ，事象Ｃ) ，Ｄ１(事象Ａ，事象Ｃ)) ＝ (2.24，1)
点Ｄの座標は、(Ｄ２(事象Ａ，事象Ｄ) ，Ｄ１(事象Ａ，事象Ｄ)) ＝ (2.00，1)
点Ｅの座標は、(Ｄ２(事象Ａ，事象Ｅ) ，Ｄ１(事象Ａ，事象Ｅ)) ＝ (2.24，2)
点Ｆの座標は、(Ｄ２(事象Ａ，事象Ｆ) ，Ｄ１(事象Ａ，事象Ｆ)) ＝ (3.16，3)
点Ｇの座標は、(Ｄ２(事象Ａ，事象Ｇ) ，Ｄ１(事象Ａ，事象Ｇ)) ＝ (3.46，3)
点Ｈの座標は、(Ｄ２(事象Ａ，事象Ｈ) ，Ｄ１(事象Ａ，事象Ｈ)) ＝ (3.32，2)
である。

これらの点に対して最小二乗法によって回帰直線を計算して、
y ＝ 1.1003x − 0.9957
が求まる。点Ｂ〜Ｈからそれぞれ、この回帰直線に対して垂線を下ろした時の交点までの距離が、以下のように求められる。事象Ｘと事象Ｙの間の第２の意外性スコアを、ＳＶ（事象Ｘ，事象Ｙ）と表す。
ＳＶ（事象Ａ，事象Ｂ）＝点Ｂから回帰直線に対するの垂線の長さ＝ 0.062
ＳＶ（事象Ａ，事象Ｃ）＝点Ｃから回帰直線に対するの垂線の長さ＝ 0.32
ＳＶ（事象Ａ，事象Ｄ）＝点Ｄから回帰直線に対するの垂線の長さ＝ 0.14
ＳＶ（事象Ａ，事象Ｅ）＝点Ｅから回帰直線に対するの垂線の長さ＝ 0.36
ＳＶ（事象Ａ，事象Ｆ）＝点Ｆから回帰直線に対するの垂線の長さ＝ 0.35
ＳＶ（事象Ａ，事象Ｇ）＝点Ｇから回帰直線に対するの垂線の長さ＝ 0.13
ＳＶ（事象Ａ，事象Ｈ）＝点Ｈから回帰直線に対するの垂線の長さ＝ 0.44

表示処理部２５は、第２の意外性スコアの順に各関係を並べ替えて表示する（ステップＳ１４）。このとき、あらかじめ「第１の距離が１以上３未満のマイニング対象の組合せと、第１の距離が３以上５未満のマイニング対象の組合せを、第２の意外性スコアが高い順に表示する」と定められていた場合、出力結果は図９のようになる。

図９を見ると、第１の距離が１以上３未満の範囲では、事象Ａと事象Ｈの関係が最も回帰直線から外れた意外な組合せとして抽出される。また、第１の距離が３以上５未満の範囲では、事象Ａと事象Ｆの関係が回帰直線から外れた最も意外な組合せとして抽出される。

表示処理部２５は、図９のような表形式に代えて、または表形式に加えて、関係の分布図にその回帰直線を重ねた図を表示してもよい。図８に示すような画面表示を参照することによって、視覚的に意外な組合せを把握できる。

なお、実施の形態１の関係性発見装置は、意外性計算部２３に加えて、第２の意外性計算部２４を備えてもよい。関係性発見装置が、２つの意外性スコアを計算して、それぞれ表示することにより、異なる観点の意外性スコアを比較することができる。

以上説明したように、本実施の形態２に係る関係性発見装置は、異なる２つの距離を座標軸とする二次元平面上にマイニング対象の組合せをプロットして、その分布の回帰直線を求める。そして、関係性発見装置は、プロットされた点と回帰直線との距離を第２の意外性スコアとして計算している。これにより、利用者は一方の関係の距離では遠くにあるにも拘わらず、他方の関係の距離では近くにあるマイニング対象の組合せを、意外な関係として抽出することができる。

図１１は、図１または図７に示す関係性発見装置１００のハードウェア構成の一例を示すブロック図である。関係性発見装置１００は、図１１に示すように、制御部３１、主記憶部３２、外部記憶部３３、操作部３４および表示部３５を備える。主記憶部３２、外部記憶部３３、操作部３４および表示部３５はいずれも内部バス３０を介して制御部３１に接続されている。

制御部３１はＣＰＵ（Central Processing Unit）等から構成され、外部記憶部３３に記憶されている関係性発見プログラム５００に従って、前述の関係性発見装置１００の処理を実行する。

主記憶部３２はＲＡＭ（Random-Access Memory）等から構成され、外部記憶部３３に記憶されている関係性発見プログラム５００をロードし、制御部３１の作業領域として用いられる。

外部記憶部３３は、フラッシュメモリ、ハードディスク、ＤＶＤ−ＲＡＭ（Digital Versatile Disc Random-Access Memory）、ＤＶＤ−ＲＷ（Digital Versatile Disc ReWritable）等の不揮発性メモリから構成される。外部記憶部３３は、前記の処理を制御部３１に行わせるための関係性発見プログラム５００を予め記憶する。また、外部記憶部３３は、制御部３１の指示に従って、このプログラムが記憶するデータを制御部３１に供給し、制御部３１から供給されたデータを記憶する。図１または図７の第１のデータ記憶部１１および第２のデータ記憶部１２は、外部記憶部３３に構成される。制御部３１が要素集団抽出処理を行っているときは、それらのデータの一部は主記憶部３２に記憶されて制御部３１の作業に用いられる。

操作部３４は、キーボード及びマウスなどのポインティングデバイス等と、キーボード及びポインティングデバイス等を内部バス３０に接続するインターフェース装置から構成されている。操作部３４を介して、分析する要素集合のデータと、その関係性の基点となるクエリを指定する情報が入力され、制御部３１に供給される。操作部３４は、図１または図７の入力部３に相当する。

表示部３５は、ＣＲＴ（Cathode Ray Tube）又はＬＣＤ（Liquid Crystal Display）などから構成され、意外性スコア、要素間の関係の散布図などを表示する。表示部３５は、図１または図７の出力部４の例である。その他、関係性発見装置１００は、出力部４として、プリンタなどを備えてもよい。

その他、関係性発見装置１００は、ネットワークに接続する送受信部（図示せず）を備えて、ネットワークを経由して要素集合に関するデータを検索、収集してもよい。その場合、図１１のハードウェアとしての関係性発見装置１００は、図１または図２の処理装置２に相当する。

図１または図７の第１の距離計算部２１、第２の距離計算部２２、意外性計算部２３、第２の意外性計算部２４および表示処理部２５の処理は、関係性発見プログラム５００が、制御部３１、主記憶部３２、外部記憶部３３、操作部３４および表示部３５などを資源として用いて処理することによって実行される。

その他、本発明の好適な変形として、以下の構成が含まれる。

本発明の第１の観点に係る関係性発見装置について、
好ましくは、前記集合に属する２つの要素の関係を、前記意外性計算手段で算出された乖離の度合いの順に表示する表示手段を備えることを特徴とする。

好ましくは、前記意外性計算手段は、前記第２の距離と前記第１の距離の比の値を、前記乖離の度合いとして算出する。

または、あるいはそれに加えて、前記意外性計算手段は、前記２つの要素の関係を前記第１の距離と前記第２の距離の散布図にプロットしたときの、前記２つの要素の関係の分布の回帰曲線からの距離を、前記乖離の度合いとして算出してもよい。

本発明の関係性発見装置は、要素の間に第１の関係と、前記第１の関係とは異なる第２の関係とが定義された要素の集合は、文書、単語、事象名、組織名、製品名、技術名、遺伝子名のうち、いずれか一つもしくは複数の組合せの集合を対象にすることができる。

なお、前記第１の距離または前記第２の距離は、２つの要素の共起の度合いを関係とする距離、要素の関係を表すグラフ構造における距離、要素の属性をベクトルで表した場合のベクトル空間における距離、もしくは、要素を文字列で表した場合の編集的距離、またはそれらの組合せであってもよい。

本発明の第２の観点に係る関係性発見方法について、
好ましくは、前記集合に属する２つの要素の関係を、前記意外性計算ステップで算出された乖離の度合いの順に表示する表示ステップを備えることを特徴とする。

好ましくは、前記意外性計算ステップは、前記第２の距離と前記第１の距離の比の値を、前記乖離の度合いとして算出する。

または、あるいはそれに加えて、前記意外性計算ステップは、前記２つの要素の関係を前記第１の距離と前記第２の距離の散布図にプロットしたときの、前記２つの要素の関係の分布の回帰曲線からの距離を、前記乖離の度合いとして算出してもよい。

本発明の関係性発見方法は、要素の間に第１の関係と、前記第１の関係とは異なる第２の関係とが定義された要素の集合は、文書、単語、事象名、組織名、製品名、技術名、遺伝子名のうち、いずれか一つもしくは複数の組合せの集合を対象にすることができる。

その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更及び修正が可能である。

制御部３１、主記憶部３２、外部記憶部３３、操作部３４及び内部バス３０などから構成される関係性発見装置１００の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するための関係性発見プログラム５００が、コンピュータが読み取り可能な記録媒体（フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等）に格納されて配布され、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する関係性発見装置１００が構成されてもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムが格納されており、通常のコンピュータシステムがそのプログラムをダウンロード等することにより関係性発見装置１００が構成されてもよい。

また、関係性発見装置１００の機能が、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現される場合などには、そのアプリケーションプログラム部分のみが、記録媒体や記憶装置に格納されてもよい。

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(ＢＢＳ：Bulletin Board System)に関係性発見プログラム５００が掲示され、ネットワークを介して関係性発見プログラム５００が配信されてもよい。そして、関係性発見プログラム５００を起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理が実行されてもよい。

本出願は、２００８年９月３日に出願された日本国特許出願特願２００８−２２５５８５号に基づく。本明細書中に、それらの明細書、特許請求の範囲、図面全体を参照として取り込むものとする。

本発明によれば、グラフ構造上では近くに位置しているにも拘わらず、トピックの異なる意外な事象同士の因果関係を検索することができる。

１記憶装置
２処理装置
３入力部
４出力部
１１第１のデータ記憶部
１２第２のデータ記憶部
２１第１の距離計算部
２２第２の距離計算部
２３意外性計算部
２４第２の意外性計算部
２５表示処理部

Claims

第１の観点から互いに関連付けられた、集合に属する複数の要素について、該第１の観点から見た該複数の要素の間の第１の関係を示す第１データを記憶する第１データ記憶手段から、前記第１データを取得し、取得した前記第１データが示す前記第１の関係において、前記集合に属する２つの要素が関連する度合を表す第１の距離を算出する第１の距離計算手段と、
前記第１の観点とは異なる第２の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第２の観点から見た該複数の要素の間の第２の関係を示す第２データを記憶する第２データ記憶手段から、前記第２データを取得し、取得した前記第２データが示す前記第２の関係において、前記集合に属する２つの要素が関連する度合を表す第２の距離を算出する第２の距離計算手段と、
前記集合に属する２つの要素の間の前記第１の距離と前記第２の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性計算手段と、
を備えることを特徴とする関係性発見装置。
前記集合に属する２つの要素の関係を、前記意外性計算手段で算出された乖離の度合いの順に表示する表示手段を備えることを特徴とする請求項１に記載の関係性発見装置。
前記意外性計算手段は、前記第２の距離と前記第１の距離の比の値を、前記乖離の度合いとして算出することを特徴とする請求項１または２に記載の関係性発見装置。
前記意外性計算手段は、前記２つの要素の関係を前記第１の距離と前記第２の距離の散布図にプロットしたときの、前記２つの要素の関係の分布の回帰曲線からの距離を、前記乖離の度合いとして算出することを特徴とする請求項１または２に記載の関係性発見装置。
要素の間に第１の関係と、前記第１の関係とは異なる第２の関係とが定義された要素の集合は、文書、単語、事象名、組織名、製品名、技術名、遺伝子名のうち、いずれか一つもしくは複数の組合せの集合であることを特徴とする請求項１または２に記載の関係性発見装置。
前記第１の距離または前記第２の距離は、２つの要素の共起の度合いを関係とする距離、要素の関係を表すグラフ構造における距離、要素の属性をベクトルで表した場合のベクトル空間における距離、もしくは、要素を文字列で表した場合の編集的距離、またはそれらの組合せであることを特徴とする請求項１または２に記載の関係性発見装置。
第１の距離計算手段と、第２の距離計算手段と、意外性計算手段と、を備える関係性発見装置が実行する関係性発見方法であって、
前記第１の距離計算手段が、第１の観点から互いに関連付けられた、集合に属する複数の要素について、該第１の観点から見た該複数の要素の間の第１の関係を示す第１データを記憶する第１データ記憶手段から、前記第１データを取得し、取得した前記第１データが示す前記第１の関係において、前記集合に属する２つの要素が関連する度合を表す第１の距離を算出する第１の距離計算ステップと、
前記第２の距離計算手段が、前記第１の観点とは異なる第２の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第２の観点から見た該複数の要素の間の第２の関係を示す第２データを記憶する第２データ記憶手段から、前記第２データを取得し、取得した前記第２データが示す前記第２の関係において、前記集合に属する２つの要素の間が関連する度合を表す第２の距離を算出する第２の距離計算ステップと、
前記意外性計算手段が、前記集合に属する２つの要素の間の前記第１の距離と前記第２の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性計算ステップと、
を備えることを特徴とする関係性発見方法。
前記関係性発見装置は、表示手段をさらに備え、
前記表示手段が、前記集合に属する２つの要素の関係を、前記意外性計算ステップで算出された乖離の度合いの順に表示する表示ステップを備えることを特徴とする請求項７に記載の関係性発見方法。
前記意外性計算手段は、前記意外性計算ステップにおいて、前記第２の距離と前記第１の距離の比の値を、前記乖離の度合いとして算出することを特徴とする請求項７または８に記載の関係性発見方法。
前記意外性計算手段は、前記意外性計算ステップにおいて、前記２つの要素の関係を前記第１の距離と前記第２の距離の散布図にプロットしたときの、前記２つの要素の関係の分布の回帰曲線からの距離を、前記乖離の度合いとして算出することを特徴とする請求項７または８に記載の関係性発見方法。
要素の間に第１の関係と、前記第１の関係とは異なる第２の関係とが定義された要素の集合は、文書、単語、事象名、組織名、製品名、技術名、遺伝子名のうち、いずれか一つもしくは複数の組合せの集合であることを特徴とする請求項７または８に記載の関係性発見方法。
前記第１の距離または前記第２の距離は、２つの要素の共起の度合いを関係とする距離、要素の関係を表すグラフ構造における距離、要素の属性をベクトルで表した場合のベクトル空間における距離、もしくは、要素を文字列で表した場合の編集的距離、またはそれらの組合せであることを特徴とする請求項７または８に記載の関係性発見方法。
コンピュータを、
第１の観点から互いに関連付けられた、集合に属する複数の要素について、該第１の観点から見た該複数の要素の間の第１の関係を示す第１データを記憶する第１データ記憶手段から、前記第１データを取得し、取得した前記第１データが示す前記第１の関係において、前記集合に属する２つの要素が関連する度合を表す第１の距離を算出する第１の距離計算手段と、
前記第１の観点とは異なる第２の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第２の観点から見た該複数の要素の間の第２の関係を示す第２データを記憶する第２データ記憶手段から、前記第２データを取得し、取得した前記第２データが示す前記第２の関係において、前記集合に属する２つの要素が関連する度合を表す第２の距離を算出する第２の距離計算手段と、
前記集合に属する２つの要素の間の前記第１の距離と前記第２の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性算出手段、
として機能させることを特徴とする関係性発見プログラム。