JP5472110B2 - 関係性発見装置、関係性発見方法および関係性発見プログラム - Google Patents

関係性発見装置、関係性発見方法および関係性発見プログラム Download PDF

Info

Publication number
JP5472110B2
JP5472110B2 JP2010527759A JP2010527759A JP5472110B2 JP 5472110 B2 JP5472110 B2 JP 5472110B2 JP 2010527759 A JP2010527759 A JP 2010527759A JP 2010527759 A JP2010527759 A JP 2010527759A JP 5472110 B2 JP5472110 B2 JP 5472110B2
Authority
JP
Japan
Prior art keywords
distance
relationship
event
elements
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010527759A
Other languages
English (en)
Other versions
JPWO2010026900A1 (ja
Inventor
英紀 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010527759A priority Critical patent/JP5472110B2/ja
Publication of JPWO2010026900A1 publication Critical patent/JPWO2010026900A1/ja
Application granted granted Critical
Publication of JP5472110B2 publication Critical patent/JP5472110B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Description

本発明は、関係性発見装置、関係性発見方法および関係性発見プログラムに関し、特に意外性のある単語間の関係や人間関係を検出可能な関係性発見装置に関する。
近年、大量の文書データから有用な知識を発見するための技術として、関係性マイニングが重要になってきている。関係性マイニングにおいては、マイニングの対象同士の類似度や距離の計算が必須である。関係性マイニングの対象としては、例えば、文書中に出現するキーワード同士の関係性や、人物名や組織名などの固有表現同士の関係性、文書とキーワードの関係性、文書同士の関係性などが挙げられる。以下、関係性マイニングの対象を一般化してマイニング対象と呼ぶ。
例えば、特許文献1は、人名をマイニング対象として、Webサーチエンジンを用いて各人名が同一文書に出現する割合を共起度として計算することによって、人間関係を重み付ネットワークとして可視化する技術を開示している。また、特許文献2は、文書をマイニング対象として、コサイン類似度を用いてユーザの嗜好に類似した文書を検索する技術を開示している。
特許文献3は、単語間の類似度を計算する際に、字句情報の一致性を表す類似度として、後方一致した文字列の長さを用いる技術を開示している。また、特許文献3は、単語間の係り受け関係における共起度を基にした第1の類似度、単語の属する意味カテゴリの一致性を基にした第2の類似度という、複数の類似度の線形和を計算することによって、単語間の類似度を判断する技術を開示している。
特開2004−348179号公報 特開平11−53394号公報 特開2007−079730号公報
関連する関係性マイニング技術の問題点は、異なる観点の関係性における差分を考慮した意外な関係を検索することができないことである。
例えば、事象間の因果関係として、「サッカーのワールドカップが開催される→サッカーが盛んになる→スポーツメーカーの売上げが上がる」と、「サッカーのワールドカップが開催される→深夜放送の視聴者の数が増える→栄養ドリンクのメーカーの売上げが上がる」は、どちらもグラフ構造上では、2ホップの関係にある。しかし、誰もが思いつく前者の因果関係よりも、意外な関係性を持つ後者の因果関係を検索できることは重要である。
また、例えば、人間関係を使って類似の興味を有する人物が検索される場合、「人物Aとグラフ構造上での関係で近くに位置し、かつ、興味範囲が類似の人物」を探すよりも、「人物Aとグラフ構造上での関係で遠くに位置し、かつ、興味範囲が類似の人物」を探す方が、意外な発見やセレンディピティ(掘り出し物)につながることが多い。なぜなら、「人物Aとグラフ構造上での関係で近くに位置し、かつ、興味範囲が類似の人物」は既に人物Aと知り合いであったり、人物Aと似たような経験や知識を持っている可能性が高い。これに対し、「人物Aとグラフ構造上での関係で遠くに位置し、かつ、興味範囲が類似の人物」は、人物Aとは周囲の人間関係や環境が異なるため、異なる経験や知識をもっている可能性が高いからである。
しかしながら、特許文献1や特許文献2が開示している技術では、このように、複数の観点の関係性を同時に用いて、「あるマイニング対象に対し、一方の観点の関係性が強いにも拘わらず、他方の観点の関係性が弱い別のマイニング対象」を検索することは不可能である。その理由は、特許文献1や特許文献2が開示している技術は、それぞれ単独の関係性を使っているのみであり、複数の関係性を同時に利用する仕組みを持たないからである。
また、特許文献3が開示している技術は、単語を検索する際に、複数の関係性の線形和を使っているため、より類似度の高い単語を検索できる。しかし、特許文献3が開示している技術は、複数の関係性を比較する仕組みがないため、関係性の相互比較を考慮した検索はできない。
本発明の目的は、異なる観点から見た要素間の関係性の相互比較を考慮した意外な関係を検索することができる、関係性発見装置、関係性発見方法および関係性発見プログラムを提供することにある。
本発明の第1の観点に係る関係性発見装置は、
第1の観点から互いに関連付けられた、集合に属する複数の要素について、該第1の観点から見た該複数の要素の間の第1の関係を示す第1データを記憶する第1データ記憶手段から、前記第1データを取得し、取得した前記第1データが示す前記第1の関係において前記集合に属する2つの要素が関連する度合を表す第1の距離を算出する第1の距離計算手段と、
前記第1の観点とは異なる第2の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第2の観点から見た該複数の要素の間の第2の関係を示す第2データを記憶する第2データ記憶手段から、前記第2データを取得し、取得した前記第2データが示す前記第2の関係において前記集合に属する2つの要素が関連する度合を表す第2の距離を算出する第2の距離計算手段と、
前記集合に属する2つの要素の間の前記第1の距離と前記第2の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性計算手段と、
を備えることを特徴とする。
本発明の第2の観点に係る関係性発見方法は、
第1の距離計算手段と、第2の距離計算手段と、意外性計算手段と、を備える関係性発見装置が実行する関係性発見方法であって、
前記第1の距離計算手段が、第1の観点から互いに関連付けられた、集合に属する複数の要素について、該第1の観点から見た該複数の要素の間の第1の関係を示す第1データを記憶する第1データ記憶手段から、前記第1データを取得し、取得した前記第1データが示す前記第1の関係において前記集合に属する2つの要素が関連する度合を表す第1の距離を算出する第1の距離計算ステップと、
前記第2の距離計算手段が、前記第1の観点とは異なる第2の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第2の観点から見た該複数の要素の間の第2の関係を示す第2データを記憶する第2データ記憶手段から、前記第2データを取得し、取得した前記第2データが示す前記第2の関係において前記集合に属する2つの要素の間が関連する度合を表す第2の距離を算出する第2の距離計算ステップと、
前記意外性計算手段が、前記集合に属する2つの要素の間の前記第1の距離と前記第2の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性計算ステップと、
を備えることを特徴とする。
本発明の第3の観点に係る関係性発見プログラムは、
コンピュータを、
第1の観点から互いに関連付けられた、集合に属する複数の要素について、該第1の観点から見た該複数の要素の間の第1の関係を示す第1データを記憶する第1データ記憶手段から、前記第1データを取得し、取得した前記第1データが示す前記第1の関係において前記集合に属する2つの要素が関連する度合を表す第1の距離を算出する第1の距離計算手段と、
前記第1の観点とは異なる第2の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第2の観点から見た該複数の要素の間の第2の関係を示す第2データを記憶する第2データ記憶手段から、前記第2データを取得し、取得した前記第2データが示す前記第2の関係において前記集合に属する2つの要素が関連する度合を表す第2の距離を算出する第2の距離計算手段と、
前記集合に属する2つの要素の間の前記第1の距離と前記第2の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性算出手段、
として機能させることを特徴とする。
本発明の効果は、ある観点の関係性の距離尺度では遠くにあるにも拘わらず、異なる他の観点の関係性の距離尺度では近くにあるマイニング対象の組合せを、意外な関係として抽出することができる。その理由は、異なる2つの観点の関係性の距離尺度の比を意外性スコアとして計算し、意外性スコアが大きいマイニング対象の組合せほど上位に表示させるからである。
本発明の実施の形態1に係る関係性発見装置の構成例を示すブロック図である。 実施の形態1における第1のデータの例を示す図である。 実施の形態1における第2のデータの例を示す図である。 実施の形態1における意外性計算の出力結果の例を示す図である。 実施の形態1に係る関係性発見装置の動作の一例を示す流れ図である。 実施の形態1における意外性計算の出力結果の例を示す図である。 本発明の実施の形態2に係る関係性発見装置の構成例を示すブロック図である。 実施の形態2における2つの関係性の距離の分布図の例を示す図である。 実施の形態2における第2の意外性計算の出力結果の例を示す図である。 実施の形態2に係る関係性発見の動作の一例を示す流れ図である。 関係性発見装置のハードウェア構成の一例を示すブロック図である。
本発明では、関係性を定量的に把握するために、関係性を一般化した距離という概念が導入される。関係性を表す距離尺度としては、共起度による距離尺度、グラフ構造上での距離尺度、ベクトル空間上での距離尺度、編集的距離尺度などが挙げられる。
共起度による距離尺度とは、同じ文書内に同時に出現するキーワード同士ほど関係性が深いという考え方に基づく距離尺度である。この距離尺度は、Jaccard係数、Simpson係数、相互情報量などを用いて計算することができる。
グラフ構造とは、グラフ理論の用語を用いて、要素を表すノードを要素間の関係を表すエッジで接続するグラフで表現された構造をいう。グラフ構造は、ネットワーク構造とも呼ばれる。グラフ構造上での距離尺度は、ノード間の関係をノード間の最短パス長や、重み付パス長として計算される。例えば、特許文献1に記載の方法によって得られたグラフ構造上で、任意の2名の人物間の関係性の距離はその2名の間の最短パス長で表現できる。
編集的距離尺度とは、字句情報の一致度に着目した距離尺度である。この距離尺度は、前方一致文字列数、後方一致文字列数、ハミング距離、およびレーベンシュタイン距離などが例として挙げられる。
(実施の形態1)
図1は、本発明の実施の形態1に係る関係性発見装置の構成例を示すブロック図である。図1を参照すると、関係性発見装置100は、記憶装置1と、処理装置2と、キーボード等の入力部3と、ディスプレイやプリンタ等の出力部4を含む。
記憶装置1は、さらに、第1のデータ記憶部11と、第2のデータ記憶部12と、を含む。また、処理装置2は、さらに、第1の距離計算部21と、第2の距離計算部22と、意外性計算部23と、表示処理部25とを含む。
記憶装置1は図示しないネットワークを介して、処理装置2と接続されてもよい。記憶装置1と処理装置2は、例えば、1つのコンピュータ上に実現されてもよいし、通信ネットワークを介して接続される別の装置であってもよい。記憶装置1と処理装置2が別の装置である場合、狭義には、処理装置2が関係性発見装置である。
第1のデータ記憶部11には、マイニング対象の関係性を示す第1のデータが格納されている。図2に、第1のデータの例を示す。図2では、マイニング対象として事象表現を使用して、第1のデータとして、事象間の因果関係が示されている。図2を見ると、事象Aと事象B、事象C、事象Dは直接的な因果関係にあるが、事象A と事象Eとは間接的な因果関係であることが分かる。事象表現の具体例としては、「サッカーのワールドカップ開催」、「サッカー人口増加」、「スポーツメーカーの売上げ増加」、「深夜放送の視聴者の数の増加」、「栄養ドリンクメーカーの売上げ増加」などが挙げられる。
第2のデータ記憶部12には、マイニング対象の関係性を示す第2のデータが格納されている。図3に第2のデータの例を示す。図3では、マイニング対象として事象表現を使用し、第2のデータとして、事象表現が出現する文書のリストが示されている。図3を見ると、事象Aを表す事象表現が文書D01、D02、 D03、 D05、 D10、 D12、 D14、 D15に出現していることが分かる。
第1の距離計算部21は、入力部3によって指定されたクエリに適合する要素を起点として、第1のデータ記憶部11に格納されたデータを対象に、あらかじめ決められた距離尺度によってマイニング対象間の第1の距離を計算する。要素Xと要素Yの第1の距離はD1(X,Y)と記される。例えば、第1のデータ記憶部11に格納されたデータが、図2のように、事象表現のグラフ構造であり、あらかじめ決められた距離尺度がグラフ上の最短パス長(最短経路のエッジ数)であるとする。入力部3によって指定されたクエリが「事象A」である場合、図2の関係では、事象Aと事象Cの間の距離D1(事象A,事象C)=1、事象Aと事象Eの間の距離D1(事象A,事象E)=2、事象Aと事象Fの間の距離D1(事象A,事象F)=3、であることが分かる。
第2の距離計算部22は、入力部3によって指定されたクエリに適合する要素を起点として、第2のデータ記憶部12に格納されたデータを対象に、あらかじめ決められた距離尺度によってマイニング対象間の第2の距離を計算する。要素Xと要素Yの第2の距離はD2(X,Y)と記される。例えば、第2のデータ記憶部12に格納されたデータが、図3のように、事象表現の出現する文書リストであるとする。文書リストを元に、事象表現が出現した文書の値を1、出現しなかった文書の値を0として、ある事象に対して全文書の値を並べて、その事象をベクトルで表現することができる。この事象を表すベクトルは文書ベクトルと呼ばれる。従って、事象の間の距離は、例えば、文書ベクトルのユークリッド距離で定義される。
今、図3のように、D01〜D15のIDを有する15の文書があり、あらかじめ決められた距離尺度が文書ベクトルのユークリッド距離であるとする。入力部3によって指定されたクエリが「事象A」である場合、事象Aが出現する文書ベクトルVaは、
Va = (1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1)
事象Bが出現する文書ベクトルVbは、
Vb = (1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0)
と表現される。したがって、事象Aと事象Bの距離D2(事象A,事象B) は、
D2(事象A, 事象B) = |Va - Vb|
= |(1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1)
− (1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0)|
= SQRT(0 +0 +0 +0 +1 +0 +1 +0 +0 +0 +0 +0 +0 +0 +1)
= SQRT(3) = 1.73
と求めることができる。ただし、SQRTは(正の)平方根を表す。この場合、第2の距離は、事象が属するトピック間の関連度の逆、いわば無関連度を表している。
上述したように、第2の距離は、ユークリッド距離として算出可能である。しかし、文書ベクトルを真偽の2値のビット列とみなすことにより、D2はハミング距離として定義可能である。文書ベクトルの場合、ユークリッド距離はハミング距離の平方根である。
意外性計算部23は、意外性スコアとして、第2の距離計算部22が計算した第2の距離D2と、第1の距離計算部21が計算した第1の距離D1の比の値D2/D1を計算する。表示処理部25は、第1の距離が同じマイニング対象の組合せを、意外性スコアD2/D1が高い順に並べ替えて、出力部4に表示する。
次に、図1〜図5を参照して、本実施の形態の動作について説明する。図5は、本実施の形態に係る関係性発見装置の動作の一例を示す流れ図である。
まず、入力部3によってクエリが入力されると、第1の距離計算部21は、第1のデータ記憶部11に格納されたデータを対象に、クエリに適合する要素を起点としてあらかじめ決められた距離尺度によってマイニング対象間の第1の距離を計算する(図5のステップS11)。例えば、第1のデータ記憶部11に格納されたデータが、図2のように、事象表現のグラフ構造であり、あらかじめ決められた距離尺度がネットワーク上の最短パス長であるとする。入力部3によって指定されたクエリが「事象A」の場合、図2を見ると、事象Aから他の事象までの第1の距離D1はそれぞれ、
D1(事象A,事象C) = 1、
D1(事象A,事象D) = 1、
D1(事象A,事象E) = 2、
D1(事象A,事象F) = 3、
D1(事象A,事象G) = 3、
D1(事象A,事象H) = 2、
である。
次に、第2の距離計算部22は、入力部3によって指定されたクエリに適合する要素を起点として、第2のデータ記憶部12に格納されたデータを対象に、あらかじめ決められた距離尺度によってマイニング対象間の第2の距離を計算する(図5のステップS12)。例えば、第2のデータ記憶部12に格納されたデータが、図3のように、事象名の出現する文書リストであり、あらかじめ決められた距離尺度が文書ベクトルのユークリッド距離であるとする。そして、図3のように、D01〜D15のIDを有する15の文書があり、事象名が出現した文書を1、出現しなかった文書を0としてベクトル表現する。
入力部3によって指定されたクエリが「事象A」を例に説明する。前述のとおり、事象Aが出現する文書ベクトルは、
Va = (1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1)
事象Bが出現する文書ベクトルは、
Vb = (1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0)
と表現される。したがって、事象Aと事象Bの距離D2(事象A,事象B) は、
D2(事象A,事象B) = |Va - Vb|
= |(1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1)
− (1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0)|
= SQRT(0 +0 +0 +0 +1 +0 +1 +0 +0 +0 +0 +0 +0 +0 +1)
= SQRT(3) = 1.73
である。
同様に、事象Aから他の事象までの第2の距離D2は、図3を参照して、
D2(事象A,事象C) = SQRT(5) = 2.24
D2(事象A,事象D) = SQRT(4) = 2.00
D2(事象A,事象E) = SQRT(5) = 2.24
D2(事象A,事象F) = SQRT(10) = 3.16
D2(事象A,事象G) = SQRT(12) = 3.46
D2(事象A,事象H) = SQRT(11) = 3.32
である。
次に、意外性計算部23は、意外性スコアとして、第2の距離計算部22が計算した第2の距離D2と、第1の距離計算部21が計算した第1の距離D1の比の値D2/D1を計算する(図5のステップS13)。
例えば、事象Aを起点とした他の事象との第1の距離と第2の距離の比は、
D2(事象A,事象B) / D1(事象A,事象B) = 1.73 / 1 = 1.73
D2(事象A,事象C) / D1(事象A,事象C) = 2.24 / 1 = 2.24
D2(事象A,事象D) / D1(事象A,事象D) = 2.00 / 1 = 2.00
D2(事象A,事象E) / D1(事象A,事象E) = 2.24 / 2 = 1.12
D2(事象A,事象F) / D1(事象A,事象F) = 3.16 / 3 = 1.05
D2(事象A,事象G) / D1(事象A,事象G) = 3.46 / 3 = 1.15
D2(事象A,事象H) / D1(事象A,事象H) = 3.32 / 2 = 1.66
である。事象同士の出現する文書の傾向が大きく異なっているにも拘わらず、グラフ上では近くに位置している事象同士ほど、高い意外性スコアをもつ。
表示処理部25は、第1の距離が同じマイニング対象の組合せを、意外性スコアD2/D1が高い順に表示する(ステップS14)。図4は、図2および図3の例の場合に、第1の距離が同じマイニング対象の組合せを表示した結果を表す。図4では、事象Aから1ホップ先の因果関係の中では、事象Cが事象Aと共通して出現する文書の数が一番少ない。従って、事象Aと事象Cとの関係が、一番意外な関係ということが分かる。また、事象Aから2ホップ先の因果関係の中では、事象Hが事象Aと共通して出現する文書の数が、事象Eが事象Aと共通して出現する文書の数よりも少ない。従って、事象Aと事象Hの関係が、事象Aと事象Eとの関係よりも、意外な関係であることが分かる。さらに、事象Aから3ホップ先の因果関係の中では、事象Gが事象Aと共通して出現する文書の数が、事象Fが事象Aと共通して出現する文書の数よりも少ない。従って、事象Aと事象Gの関係が、事象Aと事象Fとの関係よりも、意外な関係であることが分かる。
なお、ここでは、理解を容易にするため、第1の距離計算部21が求める第1の距離D1が、ネットワーク上の最短パス長であるとして説明した。しかし、第1の距離D1を求める方法は、例えば、ノードを結ぶエッジに重みを付与し、ノード間に存在するエッジの重みの合計のうち、最小のものを第1の距離D1として求める方法でもよく、本実施の形態に述べた方法に限定されない。
上述した実施の形態では、理解を容易にするため、第2の距離計算部22が求める第2の距離D2を、文書ベクトルのユークリッド距離として説明した。しかし、第2の距離D2を求める方法は、前述のハミング距離や、例えば、文書ベクトルのコサイン類似度の逆数、またはマハラノビス距離などを用いる方法でもよく、本実施の形態に述べた方法に限定されない。
また、図4では理解を容易にするため、表示処理部25が、第1の距離が同じマイニング対象の組合せを、意外性スコアD2/D1が高い順に表示する方法を説明した。しかし、表示処理部25は、例えば、「第1の距離が1以上3未満のマイニング対象の組合せを、意外性スコアD2/D1が高い順に表示する」など、あらかじめ決められたある一定の範囲毎にある対象の組合せを、意外性スコアD2/D1が高い順に表示してもよく、本実施の形態に述べた方法に限定されない。
上述した実施の形態では、第1のデータ記憶部11に図2のようなネットワークデータが格納されており、第1の距離計算部21は、第1の距離D1を、ネットワーク上の最短パス長として計算する。そして、第2のデータ記憶部12に図3のような文書リストデータが格納されており、第2の距離計算部22は、第2の距離D2を、文書ベクトルのユークリッド距離として計算する。しかし、第1の関係と第1の距離、および、第2の関係と第2の距離の組合せは、他にも様々な組合せが考えられ、本実施の形態に述べた方法に限定されない。
例えば、本実施の形態に述べた例の逆の場合として、単純に第1のデータ記憶部11に図3のような文書リストデータが格納され、第1の距離計算部21が、第1の距離D1を文書ベクトルのユークリッド距離として計算してもよい。そして、第2のデータ記憶部12に図2のようなネットワークデータが格納されており、第2の距離計算部22が、第の距離D2をネットワーク上の最短パス長として計算してもよい。この場合、図5のステップS13で計算される意外性スコアD2/D1は以下のようになる。
D2(事象A,事象B) / D1(事象A,事象B) = 1 / 1.73 = 0.59
D2(事象A,事象C) / D1(事象A,事象C) = 1 / 2.24 = 0.45
D2(事象A,事象D) / D1(事象A,事象D) = 1 / 2.00 = 0.50
D2(事象A,事象E) / D1(事象A,事象E) = 2 / 2.24 = 0.89
D2(事象A,事象F) / D1(事象A,事象F) = 3 / 3.16 = 0.95
D2(事象A,事象G) / D1(事象A,事象G) = 3 / 3.46 = 0.87
D2(事象A,事象H) / D1(事象A,事象H) = 2 / 3.32 = 0.60
この場合、グラフ構造上では遠くに位置しているにも拘わらず、事象同士の出現する文書の傾向が似ている事象同士ほど高い意外性スコアをもつことになる。図6は、これらの意外性スコアを、第1の距離を「1以上3未満」と「3以上5未満」の2つの範囲に区切ってマイニング対象の組合せを表示した結果を示す。図6では、事象Aの出現する文書ベクトルとユークリッド距離が「1以上3未満」の文書ベクトル内に出現する事象の中では、事象Eがグラフ構造上事象Aから最も遠くに位置している。従って、事象Aと事象Eは意外な関係であることが分かる。また、事象Aの出現する文書ベクトルとユークリッド距離が「3以上5未満」の文書ベクトル内に出現する事象の中では、事象Fがグラフ構造上事象Aから最も遠くに位置している。従って、事象Aと事象Fは意外な関係であることが分かる。
また、第1のデータ記憶部11に図2のような第1のネットワークデータが格納されており、第1の距離計算部21が、第1の距離D1を第1のネットワーク上の最短パス長として計算してもよい。そして、第2のデータ記憶部12にも第1のネットワークデータとは別の観点で作成された第2のネットワークデータが格納されており、第2の距離計算部22が、第2の距離D2を第2のネットワーク上の最短パス長として計算してもよく、本実施の形態に述べた方法に限定されない。例えば、マイニング対象が論文であり、第1のデータを引用関係のネットワークとし、第2のデータを同一共著者をリンクとする共著関係のネットワークとしてもよい。
また、ここでは理解を容易にするため、マイニング対象として因果関係を構成する事象同士の意外な関係性を求める方法について述べた。事象同士の他に、単語同士、文書同士、単語と文書同士など、様々な関係の意外性を判定してもよく、本実施の形態に述べた対象に限定されない。
例えば、論文をマイニング対象とする場合、第1の距離は、論文の引用関係によるグラフ構造上のパス長であり、第2の距離は、論文の出現単語により求められるキーワードベクトルのコサイン類似度の逆数であってもよい。その場合、本発明の方法によって、異なる分野に属する論文間での引用関係を抽出することができるため、意外な技術の組合せが発見されることが期待できる。また、遺伝子名をマイニング対象とし、第1の距離は、遺伝子の塩基配列情報の編集距離であり、第2の距離は、遺伝子が影響する他の遺伝子群のコサイン類似度の逆数であってもよい。本発明の方法によって、塩基配列構造が似ているにも拘わらず、全く異なる遺伝子群に作用する遺伝子同士の組合せを抽出することが期待できる。
本発明の方法において、意外性スコアは、要素間の関係の第1の距離の分布におけるある要素間の第1の距離の位置づけと、要素間の関係の第2の距離の分布におけるその要素間の第2の距離の位置づけとを比較し、それぞれの分布におけるその関係の位置づけが異なる度合いを表す。この2つの距離のそれぞれの分布における位置づけが異なる度合いは、乖離の度合いまたは乖離度と呼ばれる。
標準偏差を使って、乖離度は概念的に以下のように説明される。第1の距離の分布の標準偏差を用いて、要素Xと要素Yの間の第1の距離の偏差値1を計算する。また、第2の距離の分布の標準偏差を用いて、要素Xと要素Yの間の第2の距離の偏差値2を計算したとする。偏差値1と偏差値2の違いが乖離度に相当する。
例えば、乖離度は偏差値1と偏差値2の差で表される。その場合、偏差値の差が大きいほど、乖離度すなわち意外性スコアが大きい。または、乖離度を偏差値1と偏差値2の比で表すことができる。その場合、比の値が1から離れるほど(対数の絶対値が大きいほど)、乖離度が大きい。
ここで、それぞれが2つの要素間の関係である2つの関係を比較する場合に、乖離度の絶対値ではなく、相対的に乖離度の大きさが比較できればよい。そこで、標準偏差を計算せずに、第2の距離と第1の距離の比の値を計算すればよい。これにより、第1の距離の位置づけに基づいて標準化した位置づけの違い(乖離度=意外性スコア)の大きさを比較することができる。これが、実施の形態1で用いた意外性スコアに他ならない。
したがって、意外性スコアは、上述の乖離度であるから、第2の距離と第1の距離の比の値以外に、いろいろな方法で計算できる。例えば、前述のように、意外性スコアは、標準偏差で正規化された偏差値として計算されてもよい。また、意外性スコアは、第1の距離と第2の距離それぞれの距離の分布の大きさに基づいて正規化された値として計算されてもよい。
以上説明したように、本実施の形態1の関係性発見装置は、異なる2つの距離の比を意外性スコアとして計算し、意外性スコアが大きいマイニング対象ほど上位に表示させる。これにより、利用者は一方の関係の観点から見ると遠くにあるにも拘わらず、他方の関係の観点から見ると近くにあるマイニング対象の組合せを、意外な関係として抽出することができる。
(実施の形態2)
図7は、本発明の実施の形態2に係る関係性発見装置の構成例を示すブロック図である。実施の形態2の関係性発見装置100は、図1に示す実施の形態1の意外性計算部23に代えて、第2の意外性計算部24を備える。
第2の意外性計算部24は、第1の距離と第2の距離を座標軸として要素間の関係を二次元平面上にプロットした散布図を計算する。そして、第2の意外性計算部24は、その二次元平面上のある関係の点が、その散布図の分布の中央を表す標準的な線から離れる度合いを、その関係の意外性スコアとして計算する。
散布図の分布の中央を表す標準的な線として、分布の回帰曲線を採用することができる。実施の形態2では、散布図の分布の中央を表す標準的な線として、特に、回帰直線が用いられる。すなわち、第1の距離と第2の距離を座標軸とする二次元平面上の要素間の関係の分布について、回帰直線が計算される。そして、各関係の点と回帰直線との距離が意外性スコアである。関係の点と回帰直線との距離は、その点から回帰直線に下ろした垂線の長さである。一般的には、関係の点を通る回帰曲線の法線の、その点から回帰曲線までの長さが意外性スコアである。この意外性スコアは、前述の乖離度の一例である。
図10は実施の形態2に係る関係性発見装置の動作の一例を示す流れ図である。図10における第1の距離計算処理(ステップS11)と第2の距離計算処理(ステップS12)は、実施の形態1における第1の距離計算処理(図5のステップS11)と第2の距離計算処理(図5のステップS12)と同一である。
以下では、実施の形態1の説明で用いたものと同じデータを例にして説明する。第1のデータ記憶部11に図2のようなネットワークデータが格納されており、第1の距離計算部21が求める第1の距離D1をネットワーク上の最短パス長とする。また、第2のデータ記憶部12に図3のような文書リストデータが格納されており、第2の距離計算部22が求める第2の距離D2を、文書ベクトルのユークリッド距離とする。入力部3によって指定されたクエリが「事象A」であるとする。
第2の意外性計算部24は、第1の距離と第2の距離を座標として、各関係の点を二次元平面上にプロットし、その散布図の回帰直線を最小二乗法によって求める。そして、第2の意外性計算部24は、プロットされた各関係の点から回帰直線に対して垂直に下ろされた垂線の長さを意外性スコアとして計算する(図10のステップS23)。散布図の例を図8に示す。
図8における各プロットの座標は、
点Bの座標は、(D2(事象A,事象B) ,D1(事象A,事象B)) = (1.73,1)
点Cの座標は、(D2(事象A,事象C) ,D1(事象A,事象C)) = (2.24,1)
点Dの座標は、(D2(事象A,事象D) ,D1(事象A,事象D)) = (2.00,1)
点Eの座標は、(D2(事象A,事象E) ,D1(事象A,事象E)) = (2.24,2)
点Fの座標は、(D2(事象A,事象F) ,D1(事象A,事象F)) = (3.16,3)
点Gの座標は、(D2(事象A,事象G) ,D1(事象A,事象G)) = (3.46,3)
点Hの座標は、(D2(事象A,事象H) ,D1(事象A,事象H)) = (3.32,2)
である。
これらの点に対して最小二乗法によって回帰直線を計算して、
y = 1.1003x − 0.9957
が求まる。点B〜Hからそれぞれ、この回帰直線に対して垂線を下ろした時の交点までの距離が、以下のように求められる。事象Xと事象Yの間の第2の意外性スコアを、SV(事象X,事象Y)と表す。
SV(事象A,事象B) = 点Bから回帰直線に対するの垂線の長さ = 0.062
SV(事象A,事象C) = 点Cから回帰直線に対するの垂線の長さ = 0.32
SV(事象A,事象D) = 点Dから回帰直線に対するの垂線の長さ = 0.14
SV(事象A,事象E) = 点Eから回帰直線に対するの垂線の長さ = 0.36
SV(事象A,事象F) = 点Fから回帰直線に対するの垂線の長さ = 0.35
SV(事象A,事象G) = 点Gから回帰直線に対するの垂線の長さ = 0.13
SV(事象A,事象H) = 点Hから回帰直線に対するの垂線の長さ = 0.44
表示処理部25は、第2の意外性スコアの順に各関係を並べ替えて表示する(ステップS14)。このとき、あらかじめ「第1の距離が1以上3未満のマイニング対象の組合せと、第1の距離が3以上5未満のマイニング対象の組合せを、第2の意外性スコアが高い順に表示する」と定められていた場合、出力結果は図9のようになる。
図9を見ると、第1の距離が1以上3未満の範囲では、事象Aと事象Hの関係が最も回帰直線から外れた意外な組合せとして抽出される。また、第1の距離が3以上5未満の範囲では、事象Aと事象Fの関係が回帰直線から外れた最も意外な組合せとして抽出される。
表示処理部25は、図9のような表形式に代えて、または表形式に加えて、関係の分布図にその回帰直線を重ねた図を表示してもよい。図8に示すような画面表示を参照することによって、視覚的に意外な組合せを把握できる。
なお、実施の形態1の関係性発見装置は、意外性計算部23に加えて、第2の意外性計算部24を備えてもよい。関係性発見装置が、2つの意外性スコアを計算して、それぞれ表示することにより、異なる観点の意外性スコアを比較することができる。
以上説明したように、本実施の形態2に係る関係性発見装置は、異なる2つの距離を座標軸とする二次元平面上にマイニング対象の組合せをプロットして、その分布の回帰直線を求める。そして、関係性発見装置は、プロットされた点と回帰直線との距離を第2の意外性スコアとして計算している。これにより、利用者は一方の関係の距離では遠くにあるにも拘わらず、他方の関係の距離では近くにあるマイニング対象の組合せを、意外な関係として抽出することができる。
図11は、図1または図7に示す関係性発見装置100のハードウェア構成の一例を示すブロック図である。関係性発見装置100は、図11に示すように、制御部31、主記憶部32、外部記憶部33、操作部34および表示部35を備える。主記憶部32、外部記憶部33、操作部34および表示部35はいずれも内部バス30を介して制御部31に接続されている。
制御部31はCPU(Central Processing Unit)等から構成され、外部記憶部33に記憶されている関係性発見プログラム500に従って、前述の関係性発見装置100の処理を実行する。
主記憶部32はRAM(Random-Access Memory)等から構成され、外部記憶部33に記憶されている関係性発見プログラム500をロードし、制御部31の作業領域として用いられる。
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成される。外部記憶部33は、前記の処理を制御部31に行わせるための関係性発見プログラム500を予め記憶する。また、外部記憶部33は、制御部31の指示に従って、このプログラムが記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。図1または図7の第1のデータ記憶部11および第2のデータ記憶部12は、外部記憶部33に構成される。制御部31が要素集団抽出処理を行っているときは、それらのデータの一部は主記憶部32に記憶されて制御部31の作業に用いられる。
操作部34は、キーボード及びマウスなどのポインティングデバイス等と、キーボード及びポインティングデバイス等を内部バス30に接続するインターフェース装置から構成されている。操作部34を介して、分析する要素集合のデータと、その関係性の基点となるクエリを指定する情報が入力され、制御部31に供給される。操作部34は、図1または図7の入力部3に相当する。
表示部35は、CRT(Cathode Ray Tube)又はLCD(Liquid Crystal Display)などから構成され、意外性スコア、要素間の関係の散布図などを表示する。表示部35は、図1または図7の出力部4の例である。その他、関係性発見装置100は、出力部4として、プリンタなどを備えてもよい。
その他、関係性発見装置100は、ネットワークに接続する送受信部(図示せず)を備えて、ネットワークを経由して要素集合に関するデータを検索、収集してもよい。その場合、図11のハードウェアとしての関係性発見装置100は、図1または図2の処理装置2に相当する。
図1または図7の第1の距離計算部21、第2の距離計算部22、意外性計算部23、第2の意外性計算部24および表示処理部25の処理は、関係性発見プログラム500が、制御部31、主記憶部32、外部記憶部33、操作部34および表示部35などを資源として用いて処理することによって実行される。
その他、本発明の好適な変形として、以下の構成が含まれる。
本発明の第1の観点に係る関係性発見装置について、
好ましくは、前記集合に属する2つの要素の関係を、前記意外性計算手段で算出された乖離の度合いの順に表示する表示手段を備えることを特徴とする。
好ましくは、前記意外性計算手段は、前記第2の距離と前記第1の距離の比の値を、前記乖離の度合いとして算出する。
または、あるいはそれに加えて、前記意外性計算手段は、前記2つの要素の関係を前記第1の距離と前記第2の距離の散布図にプロットしたときの、前記2つの要素の関係の分布の回帰曲線からの距離を、前記乖離の度合いとして算出してもよい。
本発明の関係性発見装置は、要素の間に第1の関係と、前記第1の関係とは異なる第2の関係とが定義された要素の集合は、文書、単語、事象名、組織名、製品名、技術名、遺伝子名のうち、いずれか一つもしくは複数の組合せの集合を対象にすることができる。
なお、前記第1の距離または前記第2の距離は、2つの要素の共起の度合いを関係とする距離、要素の関係を表すグラフ構造における距離、要素の属性をベクトルで表した場合のベクトル空間における距離、もしくは、要素を文字列で表した場合の編集的距離、またはそれらの組合せであってもよい。
本発明の第2の観点に係る関係性発見方法について、
好ましくは、前記集合に属する2つの要素の関係を、前記意外性計算ステップで算出された乖離の度合いの順に表示する表示ステップを備えることを特徴とする。
好ましくは、前記意外性計算ステップは、前記第2の距離と前記第1の距離の比の値を、前記乖離の度合いとして算出する。
または、あるいはそれに加えて、前記意外性計算ステップは、前記2つの要素の関係を前記第1の距離と前記第2の距離の散布図にプロットしたときの、前記2つの要素の関係の分布の回帰曲線からの距離を、前記乖離の度合いとして算出してもよい。
本発明の関係性発見方法は、要素の間に第1の関係と、前記第1の関係とは異なる第2の関係とが定義された要素の集合は、文書、単語、事象名、組織名、製品名、技術名、遺伝子名のうち、いずれか一つもしくは複数の組合せの集合を対象にすることができる。
なお、前記第1の距離または前記第2の距離は、2つの要素の共起の度合いを関係とする距離、要素の関係を表すグラフ構造における距離、要素の属性をベクトルで表した場合のベクトル空間における距離、もしくは、要素を文字列で表した場合の編集的距離、またはそれらの組合せであってもよい。
その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更及び修正が可能である。
制御部31、主記憶部32、外部記憶部33、操作部34及び内部バス30などから構成される関係性発見装置100の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するための関係性発見プログラム500が、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納されて配布され、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する関係性発見装置100が構成されてもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムが格納されており、通常のコンピュータシステムがそのプログラムをダウンロード等することにより関係性発見装置100が構成されてもよい。
また、関係性発見装置100の機能が、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現される場合などには、そのアプリケーションプログラム部分のみが、記録媒体や記憶装置に格納されてもよい。
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)に関係性発見プログラム500が掲示され、ネットワークを介して関係性発見プログラム500が配信されてもよい。そして、関係性発見プログラム500を起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理が実行されてもよい。
本出願は、2008年9月3日に出願された日本国特許出願特願2008−225585号に基づく。本明細書中に、それらの明細書、特許請求の範囲、図面全体を参照として取り込むものとする。
本発明によれば、グラフ構造上では近くに位置しているにも拘わらず、トピックの異なる意外な事象同士の因果関係を検索することができる。
1 記憶装置
2 処理装置
3 入力部
4 出力部
11 第1のデータ記憶部
12 第2のデータ記憶部
21 第1の距離計算部
22 第2の距離計算部
23 意外性計算部
24 第2の意外性計算部
25 表示処理部

Claims (13)

  1. 第1の観点から互いに関連付けられた、集合に属する複数の要素について、該第1の観点から見た該複数の要素の間の第1の関係を示す第1データを記憶する第1データ記憶手段から、前記第1データを取得し、取得した前記第1データが示す前記第1の関係において前記集合に属する2つの要素が関連する度合を表す第1の距離を算出する第1の距離計算手段と、
    前記第1の観点とは異なる第2の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第2の観点から見た該複数の要素の間の第2の関係を示す第2データを記憶する第2データ記憶手段から、前記第2データを取得し、取得した前記第2データが示す前記第2の関係において前記集合に属する2つの要素が関連する度合を表す第2の距離を算出する第2の距離計算手段と、
    前記集合に属する2つの要素の間の前記第1の距離と前記第2の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性計算手段と、
    を備えることを特徴とする関係性発見装置。
  2. 前記集合に属する2つの要素の関係を、前記意外性計算手段で算出された乖離の度合いの順に表示する表示手段を備えることを特徴とする請求項1に記載の関係性発見装置。
  3. 前記意外性計算手段は、前記第2の距離と前記第1の距離の比の値を、前記乖離の度合いとして算出することを特徴とする請求項1または2に記載の関係性発見装置。
  4. 前記意外性計算手段は、前記2つの要素の関係を前記第1の距離と前記第2の距離の散布図にプロットしたときの、前記2つの要素の関係の分布の回帰曲線からの距離を、前記乖離の度合いとして算出することを特徴とする請求項1または2に記載の関係性発見装置。
  5. 要素の間に第1の関係と、前記第1の関係とは異なる第2の関係とが定義された要素の集合は、文書、単語、事象名、組織名、製品名、技術名、遺伝子名のうち、いずれか一つもしくは複数の組合せの集合であることを特徴とする請求項1または2に記載の関係性発見装置。
  6. 前記第1の距離または前記第2の距離は、2つの要素の共起の度合いを関係とする距離、要素の関係を表すグラフ構造における距離、要素の属性をベクトルで表した場合のベクトル空間における距離、もしくは、要素を文字列で表した場合の編集的距離、またはそれらの組合せであることを特徴とする請求項1または2に記載の関係性発見装置。
  7. 第1の距離計算手段と、第2の距離計算手段と、意外性計算手段と、を備える関係性発見装置が実行する関係性発見方法であって、
    前記第1の距離計算手段が、第1の観点から互いに関連付けられた、集合に属する複数の要素について、該第1の観点から見た該複数の要素の間の第1の関係を示す第1データを記憶する第1データ記憶手段から、前記第1データを取得し、取得した前記第1データが示す前記第1の関係において前記集合に属する2つの要素が関連する度合を表す第1の距離を算出する第1の距離計算ステップと、
    前記第2の距離計算手段が、前記第1の観点とは異なる第2の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第2の観点から見た該複数の要素の間の第2の関係を示す第2データを記憶する第2データ記憶手段から、前記第2データを取得し、取得した前記第2データが示す前記第2の関係において前記集合に属する2つの要素の間が関連する度合を表す第2の距離を算出する第2の距離計算ステップと、
    前記意外性計算手段が、前記集合に属する2つの要素の間の前記第1の距離と前記第2の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性計算ステップと、
    を備えることを特徴とする関係性発見方法。
  8. 前記関係性発見装置は、表示手段をさらに備え、
    前記表示手段が、前記集合に属する2つの要素の関係を、前記意外性計算ステップで算出された乖離の度合いの順に表示する表示ステップを備えることを特徴とする請求項7に記載の関係性発見方法。
  9. 前記意外性計算手段は、前記意外性計算ステップにおいて、前記第2の距離と前記第1の距離の比の値を、前記乖離の度合いとして算出することを特徴とする請求項7または8に記載の関係性発見方法。
  10. 前記意外性計算手段は、前記意外性計算ステップにおいて、前記2つの要素の関係を前記第1の距離と前記第2の距離の散布図にプロットしたときの、前記2つの要素の関係の分布の回帰曲線からの距離を、前記乖離の度合いとして算出することを特徴とする請求項7または8に記載の関係性発見方法。
  11. 要素の間に第1の関係と、前記第1の関係とは異なる第2の関係とが定義された要素の集合は、文書、単語、事象名、組織名、製品名、技術名、遺伝子名のうち、いずれか一つもしくは複数の組合せの集合であることを特徴とする請求項7または8に記載の関係性発見方法。
  12. 前記第1の距離または前記第2の距離は、2つの要素の共起の度合いを関係とする距離、要素の関係を表すグラフ構造における距離、要素の属性をベクトルで表した場合のベクトル空間における距離、もしくは、要素を文字列で表した場合の編集的距離、またはそれらの組合せであることを特徴とする請求項7または8に記載の関係性発見方法。
  13. コンピュータを、
    第1の観点から互いに関連付けられた、集合に属する複数の要素について、該第1の観点から見た該複数の要素の間の第1の関係を示す第1データを記憶する第1データ記憶手段から、前記第1データを取得し、取得した前記第1データが示す前記第1の関係において前記集合に属する2つの要素が関連する度合を表す第1の距離を算出する第1の距離計算手段と、
    前記第1の観点とは異なる第2の観点から互いに関連付けられた、前記集合に属する複数の要素について、該第2の観点から見た該複数の要素の間の第2の関係を示す第2データを記憶する第2データ記憶手段から、前記第2データを取得し、取得した前記第2データが示す前記第2の関係において前記集合に属する2つの要素が関連する度合を表す第2の距離を算出する第2の距離計算手段と、
    前記集合に属する2つの要素の間の前記第1の距離と前記第2の距離の乖離の度合いを、意外性スコアとして、所定の規則で算出する意外性算出手段、
    として機能させることを特徴とする関係性発見プログラム。
JP2010527759A 2008-09-03 2009-08-26 関係性発見装置、関係性発見方法および関係性発見プログラム Active JP5472110B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010527759A JP5472110B2 (ja) 2008-09-03 2009-08-26 関係性発見装置、関係性発見方法および関係性発見プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008225585 2008-09-03
JP2008225585 2008-09-03
JP2010527759A JP5472110B2 (ja) 2008-09-03 2009-08-26 関係性発見装置、関係性発見方法および関係性発見プログラム
PCT/JP2009/064865 WO2010026900A1 (ja) 2008-09-03 2009-08-26 関係性発見装置、関係性発見方法および記録媒体

Publications (2)

Publication Number Publication Date
JPWO2010026900A1 JPWO2010026900A1 (ja) 2012-02-02
JP5472110B2 true JP5472110B2 (ja) 2014-04-16

Family

ID=41797069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010527759A Active JP5472110B2 (ja) 2008-09-03 2009-08-26 関係性発見装置、関係性発見方法および関係性発見プログラム

Country Status (3)

Country Link
US (1) US8676738B2 (ja)
JP (1) JP5472110B2 (ja)
WO (1) WO2010026900A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9696803B2 (en) 2009-03-12 2017-07-04 Immersion Corporation Systems and methods for friction displays and additional haptic effects
JP5605730B2 (ja) * 2011-02-17 2014-10-15 学校法人明治大学 抽出装置、抽出方法および抽出プログラム
JP5730798B2 (ja) * 2012-02-22 2015-06-10 株式会社デンソーアイティーラボラトリ 情報検索装置、情報検索方法、およびプログラム
JP6171816B2 (ja) * 2013-10-04 2017-08-02 富士通株式会社 データ管理プログラム、データ管理装置およびデータ管理方法
US10318572B2 (en) * 2014-02-10 2019-06-11 Microsoft Technology Licensing, Llc Structured labeling to facilitate concept evolution in machine learning
JP6552353B2 (ja) * 2015-09-18 2019-07-31 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
JP7122120B2 (ja) * 2018-02-27 2022-08-19 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2022122029A (ja) * 2021-02-09 2022-08-22 株式会社東芝 データ処理装置、データ処理方法及びデータ処理プログラム
JPWO2022172445A1 (ja) * 2021-02-15 2022-08-18
JPWO2023021658A1 (ja) * 2021-08-19 2023-02-23

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003173355A (ja) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 文書間関連度計算方法及び装置並びに記録媒体及びソフトウェア
JP2005242454A (ja) * 2004-02-24 2005-09-08 Seiko Epson Corp 文書情報検索装置および文書情報検索方法ならびにそのプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528516A (en) * 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
JPH1153394A (ja) 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
KR100509276B1 (ko) 2001-08-20 2005-08-22 엔에이치엔(주) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
JP4021681B2 (ja) 2002-02-22 2007-12-12 日本電信電話株式会社 ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体
JP2004086352A (ja) 2002-08-23 2004-03-18 Toshiba Corp テキスト情報分析システム、分析結果の格納方法および提示方法
JP2004178515A (ja) 2002-11-29 2004-06-24 Fujitsu Ltd 意外性に基づく状態列パターンの評価装置
JP4482680B2 (ja) 2003-05-19 2010-06-16 独立行政法人産業技術総合研究所 人間関係データの作成方法、人間関係データの作成プログラム及び人間関係データの作成プログラムを記録したコンピュータ読取可能な記録媒体
JP2005018689A (ja) 2003-06-30 2005-01-20 Web Intelligence Lab:Kk データマイニング方法
JP2005092442A (ja) 2003-09-16 2005-04-07 Mitsubishi Research Institute Inc 多次元空間モデル表現装置および多次元空間モデル表現方法
JP2007079730A (ja) 2005-09-12 2007-03-29 Oki Electric Ind Co Ltd 単語類似判断装置、方法及びプログラム
JP4876692B2 (ja) 2006-04-26 2012-02-15 三菱電機株式会社 テキストマイニング装置、テキストマイニングプログラム、及びテキストマイニング方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003173355A (ja) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 文書間関連度計算方法及び装置並びに記録媒体及びソフトウェア
JP2005242454A (ja) * 2004-02-24 2005-09-08 Seiko Epson Corp 文書情報検索装置および文書情報検索方法ならびにそのプログラム

Also Published As

Publication number Publication date
WO2010026900A1 (ja) 2010-03-11
JPWO2010026900A1 (ja) 2012-02-02
US20120030161A1 (en) 2012-02-02
US8676738B2 (en) 2014-03-18

Similar Documents

Publication Publication Date Title
JP5472110B2 (ja) 関係性発見装置、関係性発見方法および関係性発見プログラム
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
US8260664B2 (en) Semantic advertising selection from lateral concepts and topics
US10248732B2 (en) Identifying related entities
CN106095738B (zh) 推荐表单片段
US10795938B2 (en) Spell checker
JP5968744B2 (ja) コンセプトキーワード拡張データセットを利用した検索方法、装置、及びコンピュータ読み取り可能な記録媒体
JP2011081478A (ja) 業務フロー検索システム、業務フロー検索方法、および業務フロー検索プログラム
JP6664599B2 (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
CN109952571A (zh) 基于上下文的图像搜索结果
JP6003637B2 (ja) 情報処理装置、ノード抽出プログラムおよびノード抽出方法
JP4973503B2 (ja) ファイル検索プログラム、方法及び装置
JP5048852B2 (ja) 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
US11475081B2 (en) Combining catalog search results from multiple package repositories
JP5256273B2 (ja) 意図抽出装置、方法及びプログラム
JP5568195B1 (ja) 検索システム、検索条件設定装置、検索条件設定装置の制御方法、プログラム、及び情報記憶媒体
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
US10255246B1 (en) Systems and methods for providing a searchable concept network
JP2019148859A (ja) フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法
JP4749242B2 (ja) 類似キャラクタデータ検索方法、サーバおよびプログラム
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2011138512A (ja) 重複画像除去時の代表画像の選択方法及びシステム
JP2010244341A (ja) 属性表現獲得方法及び装置及びプログラム
JP5966686B2 (ja) 書籍販売システム、書籍販売方法、サーバ、及びプログラム
JP6488399B2 (ja) 情報提示システム、及び情報提示方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130723

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140120

R150 Certificate of patent or registration of utility model

Ref document number: 5472110

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150