JP2006285419A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2006285419A
JP2006285419A JP2005101964A JP2005101964A JP2006285419A JP 2006285419 A JP2006285419 A JP 2006285419A JP 2005101964 A JP2005101964 A JP 2005101964A JP 2005101964 A JP2005101964 A JP 2005101964A JP 2006285419 A JP2006285419 A JP 2006285419A
Authority
JP
Japan
Prior art keywords
item
word
items
distance
target item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2005101964A
Other languages
English (en)
Inventor
Hiroshi Tateno
啓 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005101964A priority Critical patent/JP2006285419A/ja
Priority to US11/909,960 priority patent/US20090132229A1/en
Priority to EP06730433A priority patent/EP1868117A1/en
Priority to CNA2006800182766A priority patent/CN101185073A/zh
Priority to KR1020077025062A priority patent/KR20070118154A/ko
Priority to PCT/JP2006/306485 priority patent/WO2006106740A1/ja
Publication of JP2006285419A publication Critical patent/JP2006285419A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 クラスタ数やクラスタの代表が人間の認知モデルに即して決定されるように、クラスタリングするようにする
【解決手段】 プロトタイプ意味論における「典型的な例」と「周辺的な例」(図2A)の考え方を発展させると、2つのアイテム間の認知におけるこのような方向性を、図2Bに示すように、「典型的な例」から「周辺的な例」へ向かう距離は、「周辺的な例」から「典型的な例」へ向かう距離よりも長いという非対称な距離尺度で表すことができる。2つのアイテム間に、2つのアイテム間の非対称な数理的な距離を対応付けて、2つアイテムを「典型的な例」と「周辺的な例」との関係で連結させるようにすることで、人間の認知モデルに即してクラスタ数やクラスタの代表が決定されるクラスタリングが実現する。
【選択図】 図2

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、クラスタリングを適切に行うことができるようにする情報処理装置および方法、並びにプログラムに関する。
クラスタリング技術は、機械学習やデータマイニングの分野で非常に重要な役割をもっている。例えば、画像認識、圧縮におけるベクトル量子化や、自然言語処理における単語シソーラスの自動生成などでは、クラスタリングの能力がその精度に直結する。
従来のクラスタリング技術は、大きく分けて階層型、分割最適化型に分類される。
階層型クラスタリングは、アイテム間の距離が定義できる場合に、1つのアイテムからなるクラスタから始まり、クラスタ同士をマージして徐々に大きなクラスタを生成する手法である。
分割最適化型クラスタリング(非特許文献1および2参照)は、距離と絶対位置が定義される空間上に配置されたアイテムが、事前に決めたクラスタ中心にどの程度帰属するかを求め、それに基づいてクラスタ中心を繰り返し計算する手法である。
MacQueen, J., "Some Methods for Classification and Analysis of Multivariate Observations," Proc. of the 5th Berkeley Symposium on Mathematical Statistics and Probability, pp.281-297, 1967. Zhang, B. et al., "K-Harmonic Means - a Data Clustering Algorithm," Hewlett-Packard Labs Technical Report HPL-1999-124, 1999.
しかしながら、階層型クラスタリングでは、クラスタ間の距離の定義(例えば、最短距離法、最長距離法、群平均法によって定義された距離)によって様々な形態のクラスタが生成され、その選択基準は明確ではない。
また、通常、クラスタが1個になるまでマージが行われるが、所定の数のクラスタが生成された時点で停止したい場合、通常、予めアドホックに決めたクラスタ数や距離の閾値で停止するようになされている。MDL基準やAICなどが利用されることもあるが、実際上有用であるという報告は得られていない。
分割最適化型クラスタリングも、やはりクラスタ数は事前に決定しておかなければならない。
また、階層型クラスタリングおよび分割最適化型クラスタリングのいずれにおいても、生成された各クラスタにおいてそれを代表するアイテムを取り出す基準は存在しない。例えば分割最適化型クラスタリングであれば、通常、最終的なクラスタ中心に最も近いアイテムがそのクラスタの代表とされるが、それが人間の認知おいて意味するところは明らかではない。
本発明は、このような状況に鑑みてなされたものであり、人間の認知モデルに即してクラスタの数やクラスタの代表が決定されるようにクラスタリングするものである。
本発明の情報処理装置は、クラスタリングを行うアイテムを、注目アイテムとして順次選択する第1の選択手段と、クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムを対象アイテムとして選択する第2の選択手段と、注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出手段と、算出手段より算出された距離に基づいて、注目アイテムと対象アイテムを連結する連結手段とを備えることを特徴とする。
連結手段は、算出手段により算出された距離に基づいて、注目アイテムと対象アイテムの一方を親とし、他方を子として、注目アイテムと対象アイテムを親子関係で連結することができる。
第2の選択手段は、注目アイテムに最も近接する1個のアイテムを対象アイテムとして選択することができる。
第2の選択手段は、注目アイテムに近接する所定の数のアイテムを対象アイテムとして選択することができる。
連結手段は、注目アイテムが複数の親を有することを認めて、注目アイテムと対象アイテムを親子関係で連結することができる。
連結手段により、クラスタリングを行うアイテムの全てについての連結が行われた結果得られたクラスタのルートノードをクラスタの代表アイテムとすることができる。
本発明の情報処理方法は、クラスタリングを行うアイテムを、注目アイテムとして順次選択する第1の選択ステップと、クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムを対象アイテムとして選択する第2の選択ステップと、注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出ステップと、算出ステップより算出された距離に基づいて、注目アイテムと対象アイテムを連結する連結ステップとを含むことを特徴とする。
本発明のプログラムは、クラスタリングを行うアイテムを、注目アイテムとして順次選択する第1の選択ステップと、クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムを対象アイテムとして選択する第2の選択ステップと、注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出ステップと、算出ステップより算出された距離に基づいて、注目アイテムと対象アイテムを連結する連結ステップとを含むことを特徴とする。
本発明の情報処理装置および方法、並びにプログラムにおいては、クラスタリングを行うアイテムが、注目アイテムとして順次選択され、クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムが対象アイテムとして選択され、注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離が算出され、算出された距離に基づいて、注目アイテムと対象アイテムが連結される。
本発明によれば、人間の認知モデルに即してクラスタの数やクラスタの代表が決定されるクラスタリングを実現することができる。
以下に本発明の最良の形態を説明するが、開示される発明と実施の形態との対応関係を例示すると、次のようになる。明細書中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。
さらに、この記載は、明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現し、追加される発明の存在を否定するものではない。
請求項1の情報処理装置は、
クラスタリングを行うアイテムを、注目アイテムとして順次選択する第1の選択手段(例えば、図1のクラスタリング部26)と、
クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムを対象アイテムとして選択する第2の選択手段(例えば、図1のクラスタリング部26)と、
注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出手段(例えば、図1のクラスタリング部26)と、
算出手段より算出された距離に基づいて、注目アイテムと対象アイテムを連結する連結手段(例えば、図1のクラスタリング部26)と
を備えることを特徴とする。
請求項2の情報処理装置は、
連結手段は、算出手段により算出された距離に基づいて、注目アイテムと対象アイテムの一方を親とし、他方を子として、注目アイテムと対象アイテムを親子関係で連結する(例えば、図4のステップS8またはステップS9)
ことを特徴とする。
請求項3の情報処理装置は、
第2の選択手段は、注目アイテムに最も近接する1個のアイテムを対象アイテムとして選択する(例えば、図4のステップS2)
ことを特徴とする
請求項4の情報処理装置は、
第2の選択手段は、注目アイテムに近接する所定の数のアイテムを対象アイテムとして選択する(例えば、図4のステップS2)
ことを特徴とする。
請求項5の情報処理装置は、
連結手段は、注目アイテムが複数の親を有することを認めて、注目アイテムと対象アイテムを親子関係で連結する(例えば、ステップS8またはステップS9)
ことを特徴とする。
請求項6の情報処理装置は、
連結手段により、クラスタリングを行うアイテムの全てについての連結が行われた結果得られたクラスタ(例えば、図8)のルートノード(例えば、「温かい」および「ワイルド」)をクラスタの代表アイテムとする(例えば、図4のステップS11)
ことを特徴とする。
請求項7の情報処理方法は、
クラスタリングを行うアイテムを、注目アイテムとして順次選択する第1の選択ステップ(例えば、図4のステップS1)と、
クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムを対象アイテムとして選択する第2の選択ステップ(例えば、図4のステップS2)と、
注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出ステップ(例えば、図4のステップS4)と、
算出ステップより算出された距離に基づいて、注目アイテムと対象アイテムを連結する連結ステップ(例えば、図4のステップS8またはステップS9)と
を含むことを特徴とする。
請求項8に記載のプログラムの各ステップの具体例も、請求項7に記載の情報処理方法の各ステップの発明の実施の形態における具体例と同様である。
図1は、本発明の情報処理装置1の構成例を示している。この情報処理装置1は、人間の認知モデルに即してクラスタ数やクラスタの代表が決定されるように、与えられたアイテムをクラスタリングする。
はじめに本発明におけるクラスタリングの原理について説明する。本発明におけるクラスタリングは、認知心理学におけるプロトタイプ意味論に基づく認知モデルを利用して行われる。
プロトタイプ意味論とは、人間によるあるカテゴリー内にある概念(例えば、あるカテゴリー内の単語)の認知においては、「典型的な例」と「周辺的な例」が存在するというものである。
例えば鳥類というカテゴリー内にある「スズメ」、「ダチョウ」、「ペンギン」を例にとり、
質問1:「スズメ」は「ダチョウ」に似ているか
質問2:「ダチョウ」は「スズメ」に似ているか
という、似ているかを問う対象を入れ替えた2つの質問をすると、
図2Aに示すように、質問1に対しては、「似ていない」、質問2に対しては、「似ている」という結果が得られる。「スズメ」と「ペンギン」についても同様に、質問1(「スズメ」は「ペンギン」に似ているか)に対しては、「似ていない」、質問2(「ペンギン」は「スズメ」に似ているか)に対しては、「似ている」という結果が得られる。
すなわち「スズメ」は、鳥類において「典型的な例」であり、「ダチョウ」と「ペンギン」は、「周辺的な例」となる。
ここでこのプロトタイプ意味論における「典型的な例」と「周辺的な例」の考え方を発展させると、2つのアイテム間の認知におけるこのような方向性(似ているか否かの対象を入れ替えることによってその回答が異なるような性質)を、図2Bに示すように、「典型的な例」から「周辺的な例」へ向かう距離(「典型例な例」が「周辺的な例」に似ているという度合い)は、「周辺的な例」から「典型的な例」へ向かう距離(「周辺的な例」が「典型的な例」に似ているという度合い)よりも長い(小さい)という非対称な距離尺度で表すことができる。
アイテム間のこのような方向性に対応する非対称な距離尺度として、Kullback-Leibler Divergence(以下、KL距離と称する)が存在する。
KL距離では、アイテムaiとajが確率分布pi (x)とpj (x)で表現される場合において、距離D(ai ||aj)が、式(1)に示すように定義されるスカラー量となるが、「なでらかな確率分布」から「偏った確率分布」への距離の方が、「偏った確率分布」から「なでらかな確率分布」への距離よりも長くなる傾向がある。一般的なアイテムの確率分布は「なでらかなもの」となり、特殊なアイテムの確率分布は「偏ったもの」となる。
Figure 2006285419
例えば、アイテムaiとajに対して、確率変数zk (k=0,1,2)が定義される場合であって、確率分布p(zk|ai)= (0.3, 0.3, 0.4) で、確率分布p(zk|aj)= (0.1, 0.2, 0.7)であり、確率分布p(zk|ai)の方が確率分布p(zk|aj)よりなでらかなとき(アイテムaiとアイテムajの対比において、アイテムaiが一般的なアイテム(典型的な例)で、アイテムajが特殊なアイテム(周辺的な例)であるとき)、KL(pi||pj)=0.0987>KL(pj||pi)=0.0872とうい結果が得られる。
このようにKL距離は、「一般性の高いアイテム(典型的な例)」から「一般性の低いアイテム(周辺的な例)」への距離D(一般的なアイテム||周辺的なアイテム)の方が、その逆の距離D(周辺的なアイテム||一般的なアイテム)よりも大きくなるという、プロトタイプ意味論の認知モデルにおける「典型的な例」と「周辺的な例」の非対称の距離関係に対応している。
すなわち本発明は、2つのアイテム間に、2つのアイテム間の、非対称な数理的な距離(例えば、KL距離)を対応付けて、2つアイテムを「典型的な例」と「周辺的な例」との関係で連結させるようにすることで、人間の認知モデルに即してクラスタ数やクラスタの代表が決定されるクラスタリングを実現するものである。
KL距離は、任意の分布p,qに対してKL(p||q)≧0であるが、一般にKL(p||q)≠KL(q||p)で、また一般の距離で成り立つ三角不等式も成り立たないため、厳密な意味での距離ではない。
なおこのKL距離を利用して、方向性のあるアイテム間の類似度を定義することができる。例えばexp(-KL(pi||pj))や、KL(pi||pj)-1など、距離に対して単調減少するものであれば、任意である。
また2つのアイテムに対応付ける距離の条件は、「一般性の高いアイテム(典型的な例)」から「一般性の低いアイテム(周辺的な例)」への距離の方が、その逆の距離よりも大きくなるという、プロトタイプ意味論の認知モデルに一致する非対称性を持つものであれば、KL距離以外でも、他の情報論的なスカラー量や、ベクトル空間上でのベクトルの大きさを重みとした方向性を持つ修正Euclid距離(式(2))などでも良い。
Figure 2006285419
図1に戻り情報処理装置1の構成例を説明する。
なおこの例の場合、単語のクラスタリングを行うものとする。確率変数zk(k=0,1,...,M-1)を、たとえば共起単語の出現確率やPLSA(Probabilistic Latent Semantic Analysis)の潜在変数とした場合、特殊な単語(周辺的な例)の確率分布は「偏りが大きいもの」となり、一般的な単語(典型的な例)の確率分布は「なだらかなもの」となる傾向があるので、対比する2つの単語の数理的な距離(例えば、KL距離)に応じて、一方を「典型的な例」(この例のでは親)とし、他方を「周辺的な例」(子)として連結することができる。
例えば単語wi、wjに対してKL距離によって定義される距離Dにおいて、D(wi||wj)(=KL(pi||pj))>D(wj||wi) (=KL(pj ||pi))となれば単語wiが「典型的な例」で、単語wjが「周辺的で例」あるので、単語wiは親とされ、単語wjは子とされて、両者が連結される。
文書記憶部21には、クラスタリングされるアイテム(この例の場合、単語)を含む元データとしての文章(テキストデータ)が記憶されている。
形態素解析部22は、文書記憶部21に記憶されているテキストデータ(文書)を、単語(例えば、「温かい」、「優しい」、「ぬくもり」、「ワイルド」、「荒々しい」、「ガッツ」、「荒削り」など)に切り分けて、単語モデル生成部23に供給する。
単語モデル生成部23は、形態素解析部22から供給された各単語を、単語間の関連性(距離)を見るために数理モデル化し、その結果得られた単語モデルを、単語モデル記憶部24に記憶する。
単語モデルとしては、PLSAやSAM(Semantic Aggregate Model)などの確率モデルがある。これらは、文章と単語または単語と単語の共起の背後に潜在的な変数が存在し、その確率的な生起によって個々の表出が決定される。
PLSAは、「Hofmann, T., “Probabilistic Latent Semantic Analysis,” Proc. of Uncertainty in Artificial Intelligence, 1999.」に、SAMは、「持橋大地, 松本裕治, “意味の確率的表現,” 情処研報2002-NL-147, pp.77-84, 2002.」に紹介されている。
例えばSAMの場合、単語wiと単語wjの共起確率は、潜在的な確率変数c(予め決められたk個のc0,c1,・・・ck-1の値を取りうる変数)を用いて、式(3)で表され、式(3)から式(4)に示すように、単語wに対する確率分布P(c|w)を定義することができ、それが単語モデルとなる。式(3)中、確率変数cは潜在的な変数であり、確率分布P(w|c)および確率分布P(c)は、EMアルゴリズムによって求められる。
Figure 2006285419
Figure 2006285419
図3には、k=4の場合の単語「温かい」、「優しい」、「ぬくもり」、「ワイルド」、「荒々しい」、「ガッツ」、および「荒削り」の単語モデル(PLSA等を利用した潜在変数の確率分布)の例が示されている。
単語モデルとしては、PLSAやSAMなどの確率モデルの他、文書ベクトルや共起ベクトル、LSA(Latent Semantic Analysis)などで次元圧縮された意味ベクトルなどがあり、いずれを採用するかは任意である。なおPLSAやSAMは、このように潜在的な確率変数の空間で単語が表現されるので、通常の共起ベクトルなどを利用するよりも、意味的な傾向を把握しやすいとされている。
図1に戻りクラスタリング部25は、上述した原理に基づいて単語のクラスタリングを行い、クラスタリング結果を、クラスタリング結果記憶部26に記憶する。
処理部27は、クラスタリング結果記憶部26に記憶されたクラスタリング結果を利用して所定の処理を実行する(後述)。
次に、本発明におけるクラスタリング処理を説明するが、はじめに、図4のフローチャートを参照してその概略を説明し、その後、具体例に基づいて再度説明する。
ステップS1において、クラスタリング部25は、単語モデル記憶部24に単語モデルが記憶されている単語の1つに注目し、その単語wiの単語モデルを選択する。
ステップS2において、クラスタリング部25は、単語モデル記憶部24に記憶されている単語モデルを利用して、単語wiに対してもっとも近接する(例えば共起しやすいまたは意味的に類似する)単語を、以下の処理で単語wiと連結する単語wj(対象単語)として選択する。
具体的には、クラスタリング部25は、例えば、式(5)に示すように、単語wiから単語wjへの距離(例えば、KL距離)が最も小さい単語、または式(6)に示すように、単語wiから単語wjへの距離と、単語wjから単語wiへの距離との合計が最小となる単語を単語wjとする。
Figure 2006285419
Figure 2006285419
ステップS3において、クラスタリング部25は、単語wjが単語wiの親または子であるか否かを判定する。
後述するステップS8またはステップS9で、2つの単語の距離関係から「典型的な例」となる単語が親とされ、「周辺的な例」となる単語が子とされるので、ここでは、単語wjが、先に行われたその処理で、既に、単語wiの親または子とされているかが判定される。
ステップS3で、単語wjが単語wiの親でも子でもないと判定された場合、ステップS4に進む。
ステップS4において、クラスタリング部25は、相互の、距離D(wi|| wj)(=KL (pi||pj))と距離D(wj|| wi)(=KL (pj ||pi))を求めるとともに、距離D(wi||wj)>距離D(wj||wi)であるか否かを判定する。
ステップS4で、距離D(wi ||wj)>距離D(wj ||wi)であると判定された場合、すなわち、単語wiと単語wjとの対比において、単語wiが「典型的な例」で、単語wjが「周辺的な例」であるとき(図2)、ステップS5に進む。
ステップS5において、クラスタリング部25は、単語wj(いまの場合子となり得る単語)に親が存在するか(単語wjが他の単語wkの子になっているか)否かを判定し、親が存在すると判定した場合、ステップS6に進む。
ステップS6において、クラスタリング部25は、単語wjから単語wiへの距離D(wj||wi)と、単語wjから単語wkへの距離D(wj||wk)をそれぞれ求めるとともに、距離D(wj||wi)<距離D(wj||wk)であるか否かを判定し、その式が成り立つと判定した場合(単語wiへの距離の方が、単語wkへの距離より短い場合)、ステップS7に進み、 単語wjと単語wkの親子関係を解消する。
ステップS5で、単語wjに親が存在しないと判定されたとき、またはステップS7で単語wjと単語wkとの親子関係が解消されたとき、ステップS8に進み、クラスタリング部25は、単語wiを単語wjの親とし、単語wjを単語wiの子として、単語wiと単語wjを連結する。
ステップS4で、距離D(wi||wj)>距離D(wj||wi)ではないと判定されたとき、ステップS9に進み、クラスタリング部25は、単語wiを単語wjの子とし、単語wjを単語wiの親として、単語wiと単語wjを連結する。
ステップS3で、単語wjが単語wiの親または子である場合(すでに単語wiと単語wjが連結されている場合)、ステップS6で距離D(wj||wi)<距離(wj||wk)でないと判定されたとき(単語wkへの距離の方が、単語wiへの距離より短い場合)、またはステップS8若しくはステップS9で、単語wiと単語wjとが連結されたとき、すなわち単語wiが単語wjまたは単語wkと連結された場合、ステップS10に進む。
ステップS10において、クラスタリング部25は、単語モデル記憶部24に記憶されている全単語モデル(単語)を選択したか否かを判定し、選択していない単語が残っていると判定した場合、ステップS1に戻り、次の単語を選択して、ステップS2以降の処理を同様に実行する。
ステップS10で、全単語を選択したと判定された場合、ステップS11に進み、ステップS1乃至ステップS10の処理を繰り返すことで形成されたクラスタのルートノードのアイテム(単語)をそのクラスタの代表アイテム(単語)として抽出し、形成されたクラスタとともに、クラスタ結果記憶部26に記憶する。
次に、単語モデル記憶部24に記憶されている、図3に示したような、「温かい」等の単語モデルを例として、クラスタリング処理を具体的に説明する。なお「温かい」、「優しい」、「ぬくもり」、「ワイルド」、「荒々しい」、「ガッツ」、および「荒削り」の単語のそれぞれに対するKL距離は、図5に示すようになっているものとする。図5中、各セルに示される数値が、表中の行要素から列要素へのKL距離である。
はじめに単語「温かい」が単語wiして選択される(その単語モデルが選択される)(ステップS1)。なおステップS1では、「温かい」、「優しい」、「ぬくもり」、「ワイルド」、「荒々しい」、「ガッツ」、そして「荒削り」の順で各単語の単語モデルが選択されるものとする。
「温かい」wiが選択されると、「温かい」wiの最近接単語wjが選択される(ステップS2)。なお、ここで最近接単語は、距離D(=KL(単語wi ||単語wj))(式(5))が最も短い単語が単語wjとして選択されるものとする。
図5に示す、「温かい」wiと、他の単語との距離から、「ぬくもり」への距離D(=KL(「温かい」||「ぬくもり」))が0.0125で最小であるので、「ぬくもり」が単語wjとして選択される。
いまの場合、「ぬくもり」wjは、単語「温かい」wiの親でもなく子でもないので(ステップS3)、次に両者の親子関係が判定される(ステップS4)。
距離D(=KL(「温かい」wi ||「ぬくもり」wj))が0.0125で、距離D(=KL(「ぬくもり」wj||「温かい」wi))が0.0114で、距離D(「温かい」wi ||「ぬくもり」wj)>距離D(「ぬくもり」wj||「温かい」wi)となるので(図6A)、次に「ぬくもり」wjに親があるか否かが判定される(ステップS5)。
いまの場合、「ぬくもり」wjに親はいないので、「温かい」wiが「ぬくもり」wjの親とされ、「ぬくもり」wjが「温かい」wiの子とされて、「温かい」と「ぬくもり」が連結される(図6B)(ステップS8)。図6に示す矢印の根元が「子」となる単語を、矢印の先が「親」となる単語を示している。図7Bにおいても同様である。
次に「優しい」(図3)が単語wiとして選択され(ステップS1)、「優しい」wiの最近接単語wjが選択される(ステップS2)。
図5に示す、「優しい」wiと、他の単語との距離から、「温かい」への距離D(=KL(「優しい」||「温かい」)が0.0169で最小となるので、「温かい」が単語wjとして選択される。
いまの場合、「温かい」wjは「優しい」wiの親でもなく子でもないので(ステップS3)、次に親子関係が判定される(ステップS4)。
距離D(「優しい」wi ||「温かい」wj)が0.0169で、距離D(「温かい」wj ||「優しい」wi)が0.0174で、距離D(「優しい」wi ||「温かい」wj)<距離D(「温かい」wj ||「優しい」wi)となるので(図7A)、「優しい」wiが「温かい」wjの子とされ、「温かい」wjが「優しい」wiの親とされて、「優しい」と「温かい」が連結される(図7B)(ステップS9)。
次に「ぬくもり」(図3)が単語wiとして選択され(ステップS1)、「ぬくもり」wiの最近接単語wjが選択される。
図5に示す、「ぬくもり」wiと、他の単語との距離から、「温かい」への距離Dが0.0114で最小となるので、「温かい」が単語wjとして選択される。
しかしいまの場合、「温かい」wjは、先の処理で「ぬくもり」wiの親されているので(親子関係が成立しているので)(図6B)、その親子関係はそのまま維持され、次の「ワイルド」が単語wiとして選択される(ステップS1)。
「ワイルド」、並びにその後に選択される「荒々しい」、「ガッツ」、および「荒削り」(図3)に対しても同様な処理が行われる。
以上のように、「温かい」乃至「荒削り」(図3)に対してクラスタリング処理が行われると、図8に示すような、「温かい」、「ぬくもり」、および「優しい」からなるクラスタと、「ワイルド」、「荒々しい」、「ガッツ」、および「荒削り」からなるクラスタが形成される。すなわちこの7個の単語からは2個のクラスタが形成され、それぞれのクラスタの代表語は「温かい」と「ワイルド」となる。
クラスタのルートノードの単語(「温かい」、「ワイルド」)は、その単語に近接する単語(1個以上の単語)は自分の子にしかならず、かつ親も持っていないという状態になり、ルートノード周辺の空間において子方向以外に疎になるので、クラスタが自動的に区切られる。
また、抽象度(一般性)の高い単語ほど親になりやすいので、ルートノードをクラスタの代表とすることで、そのクラスタの中でもっとも抽象度(一般性)の高い単語をクラスタの代表とすることができる。
このように人間の認知に即してクラスタ数やクラスタの代表が決定される。
なお以上においては、アイテムwiと親子関係を結ぶアイテムwjを、最近接アイテムの1個にしたが(図4のステップS2)、上位N個(Nは全アイテム数より小さい)をアイテムwjとして選択することができる。このように複数のアイテムをアイテムwjとし、アイテムwiとそれらとの親子関係を成立させれば、クラスタの裾を広げることができる(換言すれば、その数によりクラスタの広がりを調整することができる)。なお、Nを大きくとりすぎると全てのアイテムが1つのクラスタに含まれるような結果が得られてしまう場合がある。
また、複数の近接アイテムwjに対する関係を見るときに、注目しているアイテムwiが複数のアイテムの子になる(即ちアイテムwiが複数の親を持つ)ことを許せば(例えば、図4のステップS5乃至ステップS7の処理を省略すれば)、ひとつのアイテムが複数のクラスタにまたがって所属することになる。この場合、ルートノード以外での親子関係の接続はクラスタ同士の接続とはせずに、ルートから子方向へたどれるアイテムをそのルートノードを代表アイテムとするクラスタの成員とすることができる(例えば、図4のステップS11)。これにより、あるアイテムが複数のクラスタへの帰属を持つソフトクラスタリングが実現される。その帰属度は、等価、直上の単語への類似度、またはルートとなる単語への類似度などで定義できる。
さらに上述したクラスタリング処理において以下のような制約条件を加えることができる。
全く類似しないアイテム同士が親子関係を結ばないように、アイテムwjを選択する際に(図4のステップS2)、距離の閾値を決め、それ以上の距離となるアイテムをアイテムwjとして選択しないようにすることもできる。
また類似性をより確実なものとするために、アイテム内の最大成分が同じ要素となるなどの制約を加えることもできる。
例えば、アイテムwikをアイテムwiのk番目の要素(単語ベクトルのk番目の要素やp(zk|wi))として、それが一致することを(式(7))、アイテムwjの選択の条件とすることもできる。
Figure 2006285419
また親子関係を確実なものにするために、例えばアイテムが確率分布で表現される場合、エントロピー(式(8))を一般性の指標とし、かならずエントロピーの大きいアイテムを親とするなどの制約も加えることができる(図4のステップS8およびステップS9)。
Figure 2006285419
例えばp(zk|wi)=(0.3, 0.3, 0.4)、p(zk|wj)=(0.1, 0.2, 0.7)の場合、エントロピーはそれぞれ0.473と0.348となり、一般的な分布を持つアイテムwiの方が、エントロピーが大きくなる。この場合、この2個の単語が親子関係を結べるとき(いずれかの最近接単語がもう片方となるとき)、アイテムwiが必ず親となる。
またアイテムをベクトル表現した場合は、一般性の尺度として例えば単語なら総出現頻度や、文書に対するχ2値の逆数などを利用することができる。
なおχ2値は、「長尾 et al, “日本語文献における重要語の自動抽出,” 情報処理, Vol.17, No.2, 1976.」に紹介されている。
次に、図1の処理部27の、以上のようにして得られたクラスタリング結果に基づく処理の具体例を説明する。
例えば、文書記憶部21に音楽CDのレビュー文が記憶され、レビュー文を構成する単語についてクラスタリングされて、その結果がクラスタリング結果記憶部26に記憶されている場合、処理部27は、クラスタリング結果記憶部26に記憶されているクラスタを利用して、ユーザより入力されたキーワードに応じたCDを検索する処理を行う。
具体的には、処理部27は、入力されたキーワードが属するクラスタを検出し、そのクラスタに属する単語を、レビュー文の特徴的な単語(CDの内容を端的に表す単語)とするCDを検索する。なおレビュー文のCDの内容を端的に表す単語は予め決められているものとする。
レビュー文の筆者の違い、または微妙な表記や表現の揺れによって同じような内容の音楽CDであっても、そのCDの内容を端的に表す単語が異なる場合があるが、本発明によるクラスタリング結果を利用すれば、同じような内容の音楽CDの内容を端的に表す単語は通常同じクラスタに属するものと考えられるので、同じような内容の音楽CDを適切に検索することができる。
なお検索したCDを紹介する際に、キーワードが属するクラスタの代表単語をユーザに提供することもできる。
また文書記憶部21にコンテンツのメタデータ(コンテンツに関連する文書)が記憶され、そのメタデータを構成する単語についてクラスタリングされて、その結果がクラスタリング結果記憶部26に記憶されている場合、処理部27は、ユーザの嗜好情報とメタデータのマッチングを行って、そのマッチング結果に基づいて、ユーザが好むと思われるコンテンツを推薦する処理を行う。
具体的には、処理部27は、マッチングをとる際に、意味的に類似した単語(同じクラスタに属する単語)を1種類のメタデータとして扱ってマッチングを行う。
メタデータに出現する単語をそのまま利用すると非常にスパースになってアイテム同士のマッチングが上手くいかない場合が生じるが、このように、意味的に類似した単語を1種類のメタデータとして扱えば、そのようなスパースネスが解消される。さらにアイテム同士のマッチングに強く寄与したメタデータをユーザに提示するような場合でも、代表的な(一般性の高い)単語(クラスタの代表単語)を提示するようにすれば、ユーザは直感的にアイテムを把握できるようになる。
上述したクラスタリング処理などの一連の処理は、専用のハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアによって行う場合、例えば、その一連の処理は、図9に示されるような(パーソナル)コンピュータにプログラムを実行させることにより実現することができる。
図9において、CPU(Central Processing Unit)111は、ROM(Read Only Memory)112に記憶されているプログラム、またはハードディスク114からRAM(Random Access Memory)113にロードされたプログラムに従って各種の処理を実行する。RAM113にはまた、CPU111が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU111、ROM112、およびRAM113は、バス115を介して相互に接続されている。このバス115にはまた、入出力インタフェース116も接続されている。
入出力インタフェース116には、キーボード、マウス、入力端子などよりなる入力部118、CRT(Cathode Ray Tube),LCD(Liquid Crystal display)などよりなるディスプレイ、出力端子、並びにスピーカなどよりなる出力部117、ターミナルアダプタ、ADSL(Asymmetric Digital Subscriber Line)モデムや、LAN (Local Area Network)カード等より構成される通信部119が接続されている。通信部119は、インターネットなどの各種のネットワークを介しての通信処理を行う。
入出力インタフェース116にはまた、ドライブ120が接続され、磁気ディスク(フロッピディスクを含む)131、光ディスク(CD-ROM(Compact Disk-Read Only Memory) DVD Digital Versatile Disk)を含む)132、光磁気ディスク(MD(Mini-Disk)を含む)133、或いは半導体メモリなどのリムーバブルメディア(記録媒体)134が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じてハードディスク114にインストールされる。
なお、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
本発明の情報処理装置1の構成例を示すブロック図である。 本発明におけるクラスタリング処理の原理を説明する図である。 単語モデルの例を示す図である。 本発明におけるクラスタリング処理を説明するフローチャートである。 単語間のKL距離の例を示す図である。 親子関係を示す図である。 他の親子関係を示す図である。 クラスタリング結果を示す図である。 パーソナルコンピュータの構成例を示す図である。
符号の説明
21 文書記憶部, 22 形態素解析部, 23 単語モデル生成部, 24 単語モデル記憶部, 25 クラスタリング部, 26 クラスタ結果記憶部, 27 処理部

Claims (8)

  1. クラスタリングを行うアイテムを、注目アイテムとして順次選択する第1の選択手段と、
    クラスタリングを行うアイテムの中から、前記注目アイテムに近接するアイテムを対象アイテムとして選択する第2の選択手段と、
    前記注目アイテムと前記対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出手段と、
    前記算出手段より算出された前記距離に基づいて、前記注目アイテムと前記対象アイテムを連結する連結手段と
    を備えることを特徴とする情報処理装置。
  2. 前記連結手段は、前記算出手段により算出された前記距離に基づいて、前記注目アイテムと前記対象アイテムの一方を親とし、他方を子として、前記注目アイテムと前記対象アイテムを親子関係で連結する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記第2の選択手段は、前記注目アイテムに最も近接する1個のアイテムを前記対象アイテムとして選択する
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 前記第2の選択手段は、前記注目アイテムに近接する所定の数のアイテムを前記対象アイテムとして選択する
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記連結手段は、前記注目アイテムが複数の親を有することを認めて、前記注目アイテムと前記対象アイテムを親子関係で連結する
    ことを特徴とする請求項1に記載の情報処理装置。
  6. 前記連結手段により、前記クラスタリングを行うアイテムの全てについての連結が行われた結果得られたクラスタのルートノードをクラスタの代表アイテムとする
    ことを特徴とする請求項1に記載の情報処理装置。
  7. クラスタリングを行うアイテムを、注目アイテムとして順次選択する第1の選択ステップと、
    クラスタリングを行うアイテムの中から、前記注目アイテムに近接するアイテムを対象アイテムとして選択する第2の選択ステップと、
    前記注目アイテムと前記対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出ステップと、
    前記算出ステップより算出された前記距離に基づいて、前記注目アイテムと前記対象アイテムを連結する連結ステップと
    を含むことを特徴とする情報処理方法。
  8. クラスタリング処理を行うプロセッサに実行させるプログラムにおいて、
    クラスタリングを行うアイテムを、注目アイテムとして順次選択する第1の選択ステップと、
    クラスタリングを行うアイテムの中から、前記注目アイテムに近接するアイテムを対象アイテムとして選択する第2の選択ステップと、
    前記注目アイテムと前記対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出ステップと、
    前記算出ステップより算出された前記距離に基づいて、前記注目アイテムと前記対象アイテムを連結する連結ステップと
    を含むことを特徴とするプログラム。
JP2005101964A 2005-03-31 2005-03-31 情報処理装置および方法、並びにプログラム Abandoned JP2006285419A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2005101964A JP2006285419A (ja) 2005-03-31 2005-03-31 情報処理装置および方法、並びにプログラム
US11/909,960 US20090132229A1 (en) 2005-03-31 2006-03-29 Information processing apparatus and method, and program storage medium
EP06730433A EP1868117A1 (en) 2005-03-31 2006-03-29 Information processing device and method, and program recording medium
CNA2006800182766A CN101185073A (zh) 2005-03-31 2006-03-29 信息处理装置和方法,以及程序存储介质
KR1020077025062A KR20070118154A (ko) 2005-03-31 2006-03-29 정보 처리 장치 및 방법, 및 프로그램 기록 매체
PCT/JP2006/306485 WO2006106740A1 (ja) 2005-03-31 2006-03-29 情報処理装置および方法、並びにプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005101964A JP2006285419A (ja) 2005-03-31 2005-03-31 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2006285419A true JP2006285419A (ja) 2006-10-19

Family

ID=37073303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005101964A Abandoned JP2006285419A (ja) 2005-03-31 2005-03-31 情報処理装置および方法、並びにプログラム

Country Status (6)

Country Link
US (1) US20090132229A1 (ja)
EP (1) EP1868117A1 (ja)
JP (1) JP2006285419A (ja)
KR (1) KR20070118154A (ja)
CN (1) CN101185073A (ja)
WO (1) WO2006106740A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5500070B2 (ja) * 2008-07-30 2014-05-21 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
JP5423676B2 (ja) * 2008-07-30 2014-02-19 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
US20150227505A1 (en) * 2012-08-27 2015-08-13 Hitachi, Ltd. Word meaning relationship extraction device
CN108133407B (zh) * 2017-12-21 2021-12-24 湘南学院 一种基于软集决策规则分析的电子商务推荐技术及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442545B1 (en) * 1999-06-01 2002-08-27 Clearforest Ltd. Term-level text with mining with taxonomies
JP2004005337A (ja) * 2002-03-28 2004-01-08 Nippon Telegr & Teleph Corp <Ntt> 単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法
WO2005017698A2 (en) * 2003-08-11 2005-02-24 Educational Testing Service Cooccurrence and constructions
US20050144162A1 (en) * 2003-12-29 2005-06-30 Ping Liang Advanced search, file system, and intelligent assistant agent
US20060136245A1 (en) * 2004-12-22 2006-06-22 Mikhail Denissov Methods and systems for applying attention strength, activation scores and co-occurrence statistics in information management

Also Published As

Publication number Publication date
US20090132229A1 (en) 2009-05-21
WO2006106740A1 (ja) 2006-10-12
CN101185073A (zh) 2008-05-21
EP1868117A1 (en) 2007-12-19
KR20070118154A (ko) 2007-12-13

Similar Documents

Publication Publication Date Title
Hua et al. Short text understanding through lexical-semantic analysis
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
Sonawane et al. Graph based representation and analysis of text document: A survey of techniques
CN103150382A (zh) 基于开放知识库的短文本语义概念自动化扩展方法及系统
JP2007241888A (ja) 情報処理装置および方法、並びにプログラム
US9501569B2 (en) Automatic taxonomy construction from keywords
ElRafey et al. Recent advances in scaling‐down sampling methods in machine learning
US20140047089A1 (en) System and method for supervised network clustering
WO2016015267A1 (en) Rank aggregation based on markov model
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
KR101545050B1 (ko) 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템
JP2007219947A (ja) 因果関係知識抽出装置及びプログラム
Li et al. Integrating semantic information into multiple kernels for protein-protein interaction extraction from biomedical literatures
Udupa et al. An exploratory analysis of GSDMM and BERTopic on short text topic modelling
CN110309355B (zh) 内容标签的生成方法、装置、设备及存储介质
Consoli et al. A quartet method based on variable neighborhood search for biomedical literature extraction and clustering
JP2006285419A (ja) 情報処理装置および方法、並びにプログラム
Basha et al. An improved similarity matching based clustering framework for short and sentence level text
Godara et al. Support vector machine classifier with principal component analysis and k mean for sarcasm detection
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
US11468078B2 (en) Hierarchical data searching using tensor searching, fuzzy searching, and Bayesian networks
Maylawati et al. Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization
Akhgari et al. Sem-TED: semantic twitter event detection and adapting with news stories
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
CN116361470B (zh) 一种基于话题描述的文本聚类清洗和合并方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070703

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20090818