JP2014063343A - クラスタリング品質改善方法 - Google Patents

クラスタリング品質改善方法 Download PDF

Info

Publication number
JP2014063343A
JP2014063343A JP2012207943A JP2012207943A JP2014063343A JP 2014063343 A JP2014063343 A JP 2014063343A JP 2012207943 A JP2012207943 A JP 2012207943A JP 2012207943 A JP2012207943 A JP 2012207943A JP 2014063343 A JP2014063343 A JP 2014063343A
Authority
JP
Japan
Prior art keywords
data
clustering
extracted
common
new set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012207943A
Other languages
English (en)
Other versions
JP5746118B2 (ja
Inventor
Shinya Sato
進也 佐藤
Masami Takahashi
公海 高橋
Masato Matsuo
真人 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012207943A priority Critical patent/JP5746118B2/ja
Publication of JP2014063343A publication Critical patent/JP2014063343A/ja
Application granted granted Critical
Publication of JP5746118B2 publication Critical patent/JP5746118B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は、クラスタ内の一貫性を損なう要素を除去することによって、クラスタリング品質を向上させることを目的とする。
【解決手段】本発明は、データの集合を第1のクラスタリング手法によって構成された第1のクラスタCiの集合{Ci}と、第1のクラスタリング手法とは異なる第2のクラスタリング手法によって構成された第2のクラスタQiの集合{Qi}とを求め、第1のクラスタCiの各々に対して、第2のクラスタの集合{Qi}から、Ciと共通の要素が最も多いクラスタQkを選択し、第1のクラスタCiとこれに対応する第2のクラスタQkとの積集合Iiを第3のクラスタとして求め、得られた第3のクラスタの集合{Ii}を出力する。
【選択図】図3

Description

本発明は、情報の検索、抽出、マイニング、整理などの処理を行うクラスタリング装置に関し、特に当該装置においてクラスタリング品質を改善する方法に関する。
(クラスタリング)
クラスタリングは、データの集合をデータ間に定義される距離尺度(以降、データ間尺度と呼ぶ)に基づき分類する(クラスタに分割する)データ解析の重要な一手法であり、データマイニング、情報検索など様々な分野で使われている(非特許文献1)。具体的なクラスタリング手法も、凝集型の階層的手法や分割最適化手法、確率モデルに基づいた手法など、様々なものが開発されてきている。
一般に、同一のデータ集合に対して異なるデータ間尺度を導入したり、異なるクラスタリング手法を適用したりすると、その結果も異なってくる。つまり、クラスタリングの結果は当然データの特徴を反映したものであるが、データ間尺度やクラスタリング手法にも依存する。それゆえ、データ間尺度やクラスタリング手法がデータの特徴をうまく捉えきれず、不適切な結果が得られてしまうこともある。そこで、データ間尺度、クラスタリング手法に関する改善方法や、複数のクラスタリング結果を統合してより妥当な結果を導出する手法などが検討されてきた(非特許文献2)。
(クラスタリングの適用例)
本発明が解こうとする問題を分かり易くするため、ここで、クラスタリングの適用例として多義語の曖昧性解消を取り上げる。多義語とは「マウス」のように文字通り複数の意味(動物の「マウス」とコンピュータのポインティングデバイスである「マウス」)を有する語である。文書集合の中にそのような語が複数箇所で出現した時、それらは同一の意味で用いられているのか否か、さらには、複数の意味のうちどれを意図してその語が用いられたのかを明らかにするのが曖昧性解消である。
この問題を解く手法として、クラスタリングが以下のように使われることがある。
まず、それぞれの多義語(の出現)に対して、その周辺(例えば、同一文内、あるいは同一文書内)に出現する語を抜き出す。これを周辺語群と呼ぶことにする。周辺語群の集合にクラスタリングを施すと、一般に、複数のクラスタが得られる。このそれぞれのクラスタが個別の意味に対応すると見なす。「マウス」の例で言えば、この手法により動物とポインティングデバイスに対応する2つのクラスタが得られることが期待される。この手法は、語が文脈を与えられることで特定の意味を帯びるようになる、つまり、語の意味と文脈との間に対応関係があるという仮定に基づいたものと考えることができる。周辺語群が文脈を表すものであり、そのクラスタリングにより文脈が分類される。
(語義抽出とクラスタリング)
上記の曖昧性解消と類似した問題として、『「マウス」という言葉の意味にどのような種類のものがあるか』という知識を文書集合から抽出するものが考えられる。これを語義抽出と呼ぶことにする。曖昧性解消が個々の語の出現と意味(文脈)との対応関係を把握することを目的としているのに対し、語義抽出の目的は文字通り語義そのものの種類の把握である。クラスタリング適用の例で言えば、曖昧性解消では各周辺語群がどのクラスタに属するかという対応関係を把握することが目的であるのに対し、語義抽出ではクラスタの種類やそれぞれの特徴が興味の対象である。よって、語義抽出においては、各クラスタの特徴を知るためには、それぞれがどのようなデータ(周辺語群)から構成されているかを把握する必要があるが、周辺語群とクラスタの対応を全て把握することは必ずしも必要ではない。例えば、「マウス」の例で、クラスタリングにより以下のようなC,Cという2つのクラスタが得られたとする。ここで、<>で括られた語は周辺語群を表す。
(数1)
={<ヒト,動物,移植>,<飼育,餌,動物>,<がん,遺伝子,移植>}
={<USB,設定,識別>,<デバイス,USB,PC>,<投薬,実験,識別>}
この結果から、Cは動物の「マウス」に関する記述の集まりであり、Cはデバイスの「マウス」に関わるものであることが推察される。より詳しく見ると、Cの最後の周辺語群<投薬,実験,識別>は間違って分類されたもの(ノイズ)と考えられる。しかし、クラスタ内において周辺語群に意味的な一貫性がおおむね認められるため、<投薬,実験,識別>はノイズとして捉えられ、クラスタに適切な意味付けがなされていると考えられる。
語義抽出の次のステップとして、このクラスタリングの結果を応用可能な知識に変換したい。そのための基本的手段としてクラスタの特徴抽出がある。たとえば、それぞれに高頻度で出現する語を抽出すると次のようになる。
(数2)
:{動物,移植}
:{USB,識別}
この結果から、次の知識(仮説)を作り出すことができる。
(i)「マウス」の周辺に「動物」や「移植」という語が出現した場合には、それは動物の「マウス」に関する記述である可能性が高い。
(ii) 「マウス」の周辺に「USB」や「識別」という語が出現した場合にはデバイスに関する記述である確率が高い。
ただし、正確には、この手法では『「マウス」の周辺に「動物」や「移植」という語が出現した場合には、それは動物の「マウス」に関する記述である』ということまでは分からず、『「USB」という語が出現した場合とは異なった意味で使われている』らしいということが分かるだけである。
このうち、(i)は妥当な知識と考えられる。(ii)については、Cにおける「識別」の出現回数は2回であり、そのうちの半分はノイズによるものであることから、「識別」をデバイスとしてのマウスの判断基準とするのは適切ではない。この例が示すように、知識の質(信頼性、適用可能性など)はクラスタリングの品質(クラスタを構成する要素の一貫性など)の影響を受ける。クラスタリング品質を向上させるためには、前述のとおり、クラスタリング手法単体の改善や複数のクラスタリング結果の統合などにより、分類をより正確する方法、例えば上記例で言えば、<投薬,実験,識別>をCではなくCに帰属させるアルゴリズムが検討・開発されてきた。
(クラスタリング品質の定量的評価方法)
ここで、クラスタリング品質を定量的に評価するためによく用いられている尺度について触れておく。クラスタリング品質を評価するうえで、クラスタ内の一貫性は重要であるが、同種のデータが1つのクラスタに集中しているという、いわば凝集性もまた重要な因子である。上の例と同じデータが次のように分類されたとしよう。
(数3)
={<ヒト,動物,移植>,<飼育,餌,動物>}
={<がん,遺伝子,移植>,<投薬,実験,識別>}
={<USB,設定,識別>,<デバイス,USB,PC>}
このとき、いずれのクラスタの一貫性も高いが、動物としての「マウス」に関するデータが、CとCに分かれてしまっている。よって、このクラスタリング結果は、一貫性については優れているが凝集性に関しては改善の余地があると言える。いま、分類の正解を{A}とする。この正解に対するクラスタ{C}の一貫性P(Purity)と凝集性IP(Inverse Purity)、そしてそれらを併せて総合的に評価する尺度であるF値(purityとinverse purityの調和平均)は以下のように定義されている(例えば、非特許文献4参照。)。
Figure 2014063343
ここで、
Figure 2014063343
Jain, A.K., Murty, M.N., Flynn, P.J.:"Data clustering: a review", ACM Computing Surveys, Vol. 31, No. 3, pp. 264−323 (1999). Ghaemi, R., Sulaiman, M. N., Ibrahim, H., Mustapha, N.:"A Survey: Clustering Ensembles Techniques", World Academy of Science, Engineering and Technology, Issue 26, pp. 636−645 (2009). Blei, D.M., Ng, A.Y., Jordan, M.I.:"Latent dirichlet allocation", The Journal of Machine Learning Research, Vol. 3. pp. 993−1022 (2003). Artiles, J., Gonzalo, J., Sekine, S.,: "The SemEval−2007 WePS evaluation: Establishing a benchmark for the Web People Search task.", In Proceedings of Semeval 2007, Association for Computational Linguistics (2007).
本発明は、クラスタ内の一貫性を損なう要素を除去することによって、クラスタリング品質を向上させることを目的とする。
本願発明のクラスタリング品質改善方法は、複数種類のクラスタリング方式を用いてデータの集合の分類を行うクラスタリング手順と、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する抽出手順と、を有する。
本願発明のクラスタリング品質改善方法では、前記抽出手順において、前記新たな集合に含まれるデータについて、前記新たな集合における出現頻度と、前記クラスタリング手順で分類した集合の補集合における出現頻度と、を比較し、前記新たな集合におけるデータのなかから出現頻度の高いデータを抽出してもよい。
本願発明のクラスタリング品質改善方法では、前記データの集合は文書群であり、前記クラスタリング手順において、特徴語の共通する文書群を抽出し、前記抽出手順において、クラスタリング方式が異なりかつ特徴語の共通する複数の文書群を抽出し、当該文書群で共通する特徴語を抽出し、抽出した特徴語に基づいて新たな集合を生成してもよい。
本願発明のクラスタリング装置は、異なるクラスタリング方式を用いてデータの集合の分類を行う複数の文書分類部と、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する一貫性阻害要因除去部と、を備える。
本願発明のクラスタリング装置では、前記新たな集合に含まれるデータについて、前記新たな集合における出現頻度と、前記文書分類部で分類した集合の補集合における出現頻度と、を比較し、前記新たな集合におけるデータのなかから出現頻度の高いデータを抽出するデータ抽出部を、さらに備えてもよい。
本願発明のクラスタリング品質改善プログラムは、複数の文書分類部が、複数種類のクラスタリング方式を用いてデータの集合の分類を行うクラスタリング手順と、一貫性阻害要因除去部が、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する抽出手順と、をコンピュータに実行させる。
本発明によれば、クラスタ内の一貫性を損なう要素を除去することによって、クラスタリング品質を向上させることができる。
文書集合D、あるクラスタリング手法によりDを分類して得られたクラスタC、Cの一貫性を阻害する要素を除いて得られたIの関係を模式的に表したものである。 実施形態の装置構成を表したものである。 実施形態のフローチャートで表したものである。 実施形態における一貫性向上に関する効果を示すグラフである。
添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施の例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
本発明は、データの集合を第1のクラスタリング手法によって構成された第1のクラスタCiの集合{Ci}と、第1のクラスタリング手法とは異なる第2のクラスタリング手法によって構成された第2のクラスタQiの集合{Qi}とを求め、第1のクラスタCiの各々に対して、第2のクラスタの集合{Qi}から、Ciと共通の要素が最も多いクラスタQkを選択し、第1のクラスタCiとこれに対応する第2のクラスタQkとの積集合Iiを第3のクラスタとして求め、得られた第3のクラスタの集合{Ii}を出力する。
(一貫性阻害要素の除去)
本発明の原理について、具体例を用いて説明する。
いま、ある観点から次に示すような4つのグループA〜Aに分類されるべき18個の文書d,...,d18からなる文書集合があるとする。2つの文書が同一のグループに属する場合、これらは同種であると言うことにする。
(数6)
={d,d,d,d,d
={d,d,d,d,d10,d11
={d12,d13,d14,d15,d16,d17
={d18
この文書集合に対して、前節で述べたような知識を得る目的であるクラスタリング手法を適用した結果、以下のようなクラスタ{C}を得たとする。
(数7)
={d,d,d,d,d10,d15
={d,d,d,d,d16,d17
={d,d11,d12,d13,d14,d18
それぞれのクラスタにおいて、そのほぼ半分は同種の文書で占められており(例えば、Cでは、その半分がAの文書である)、残りの半分によりクラスタ内の一貫性が阻害されている。この阻害要素を除去することで一貫性を向上させるというのが本発明のポイントである。一貫性阻害要素を除去する方法としては、例えば、
Figure 2014063343

Figure 2014063343
と定義すれば、
Figure 2014063343
という一貫性の高いクラスタを得ることができる。
(補助的クラスタリングを利用した一貫性阻害要素の除去)
式(1)にはAが使われているが、実際にはこれを予め知ることはできない。既知であればクラスタリングの必要がない。そこで、本発明では、{C}を導き出したクラスタリング手法とは異なる、もう一つのクラスタリング手法(補助的クラスタリング手法)により別なクラスタ{Q}を作り出し、これを{A}の代わりに用いる。すなわち、次の式により一貫性の高いクラスタ{I}の導出を狙う。
Figure 2014063343
ここで、この方法の効果を具体的に示すため、以下に示す例を用いて一貫性阻害要因の除去を実際に行ってみる。いま、ある補助的クラスタリング手法により次のような{Q}が得られたとする。
(数12)
={d,d,d,d
={d,d
={d10,d12,d13,d14
={d,d,d,d16,d18
={d11,d15
={d17
このとき、式(2)に基づいてIを計算すると次のようになり、
(数13)
=C∩Q={d,d,d,d
=C∩Q={d,d,d,d16
=C∩Q={d12,d13,d14
各クラスタの一貫性が向上しているのが分かる。
定量的に比較すると、{I}の一貫性P、凝集性IP及びF値は等しく0.82となった。これは、{C}の一貫性P、凝集性IP及びF値がそれぞれ0.5、0.56及び0.53であったのに対して、いずれも1に近い数値となっており、より適切な分類がなされていることが分かる。
なお、どのような補助的クラスタリング手法でも必ず一貫性を向上させられるわけではない。つまり、一般に、それぞれのクラスタリングの結果に対して、一貫性を向上のために適切な補助的クラスタリング手法を選ぶことが好ましい。そのような補助的クラスタリング手法としては、例えば、Latent Dirichlet Allocation(LDA)、階層的凝集型クラスタリング手法(Hierarchical Agglomerative Clustering)、k−means法、ネットワークコミュニティ分割法を応用したものがある。
(一貫性向上の効果と応用)
文書集合をDとしたとき、D、CとIの関係は図1のように模式的に表すことができる。図において、Dは3種類のデータからなり、それぞれが異なる形で表されている。もともとCでは三角形で表されるデータの占める割合が高いが、一貫性阻害要素除去を経て得られたIでは、その割合がさらに高くなっている。この状況を利用し、Iに属するデータどうしの共通性ともに、Iに属するデータとD−C(DからCiの要素を除いたもの)に属するデータとの差異を明らかにすることにより、三角形で表されるデータの特徴をより高い精度で抽出できる。
(実施形態1)
実施形態として、本発明を使ったQ&Aサイトからの知識抽出方法について説明する。
Q&Aサイトとは、ユーザ同士がお互いの質問に答え、疑問を解決するウェブサイトのことであり、それぞれの質問に対する(多くの場合複数の)回答が1つのページにまとめられている(これをQAページと呼ぶことにする)。QAページ自体、有用な知識を提供するものであるが、その知識を必要とする状況ごとに整理しておけば、その知識をより有効に活用できるようになると考えられる。具体的に言えば、それぞれのページを状況ごとにまとめ、それぞれの状況の特徴(たとえば、時間、場所、モノ、人など)を抽出しておけば、状況の特徴から発生し得る問題とその対処方法を(事前に)見つけ出すことが可能になる。
この具体例としては次のようなシステムが考えられる。本システムに、たとえば「かぼちゃ」を入力すると、システムはかぼちゃが何らかのかたちで関わっている問題・解決方法を、その問題が起こりえる場所ごとに整理して示す。さらに具体的に言えば、本システムは、「台所」「畑」「舞台」という場所ごとに、家庭における調理に関わる問題、栽培関係の問題、そして人前で極度に緊張するという問題と解決策を提示する。(緊張を和らげる目的で「目の前の人をかぼちゃと思え」とよく言われることから、人前で緊張するという問題とかぼちゃが結びつけられる。)このような、特徴語候補y,y,...(例では場所を表す語「台所」などの語の集まり)と興味の対象x(例では「かぼちゃ」)を入力とし、特徴語ごとに問題と解決方法を整理して提示するシステムを以下に実施形態として示す。
(処理の流れ)
図2に、本実施形態に係るクラスタリング品質改善装置の一例を示す。本実施形態に係るクラスタリング品質改善装置100は、演算処理部10及び記憶部20を備える。演算処理部10は、変数設定部11と、文書収集部12と、第1文書分類部13と、第2文書分類部14と、一貫性阻害要因除去部15と、特徴語抽出部16と、通信部17と、を備える。記憶部20は、特徴語候補格納領域21と、入力語格納領域22と、文書格納領域23と、分類結果格納領域24−1,24−2,24−3と、特徴語格納領域25を備える。
図3に、本実施形態に係るクラスタリング品質改善方法の一例を示す。本実施形態に係るクラスタリング品質改善方法は、クラスタリング手順と、抽出手順と、を有する。
クラスタリング手順では、ステップS101〜S104を実行し、複数種類のクラスタリング方式を用いてデータの集合の分類を行う。
ステップS101では、特徴語候補y,y,...とxを入力として受け付ける。
ステップS102では、xに関連するQAページを収集する(これをDとする)。
ステップS103では、主たるクラスタリング手法によりDを分類し、クラスタ{C}を得る。
ステップS104では、補助的クラスタリング手法によりDを分類し、クラスタ{Q}を得る。
なお、本実施形態では、2種類のクラスタリング方式を用いて分類を行ったが、3種類以上のクラスタリング方式を用いてもよい。
抽出手順では、ステップS105を実行し、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する。
ステップS105では、{Q}を用いて{C}の一貫性阻害要素を除去し{I}を得る。
本実施形態では、抽出手順において、ステップS106〜S108を実行し、新たな集合に含まれるデータについて、新たな集合におけるデータのなかから出現頻度の高いデータを抽出する。
ステップS106では、各Iに属するページの集合から、その特徴語を抽出する。
ステップS107では、各Iごとに、その特徴語やページを提示する。
ステップS108では、グルーピングされた文書群を出力する。
ステップS102では、まず、xに関連するQAページの(URLの)リストを取得する。そのために検索エンジンを利用する。具体的には、xとともに検索対象とするサイトを指定するオプション(たとえば、“site:”)をクエリに用いて指定Q&Aサイト内でxに関連するページを検索する。その後、検索結果に含まれるそれぞれのページを取得する。
ステップS103では、クラスタリング手法を1つ選び、それをDに適用する。様々な既存のクラスタリング手法のうち、Latent Dirichlet Allocation(LDA)(非特許文献3)を用いると比較的良好な結果を得られることが実データを使った実験の結果から分かっている。本実施形態でもLDAの使用を仮定して以降の説明を進める。
ここで、一貫性向上の必要性について事実をもとに明らかにしておきたい。実データを用いて計算した結果、LDAを使用した場合でも、その一貫性は、Pの値が0.5を若干越えた程度であった。つまり、クラスタの半分近くはノイズで占められているということであり、一貫性向上の余地はおおいにある。そこで、本発明では、複数のクラスタリング手法を用いて分類を行う。
ステップS104では、もう一つのクラスタリング手法を選び、Dに適用する。ここでも選択肢は複数あるが、本実施形態では階層的凝集型クラスタリング手法(Hierarchical Agglomerative Clustering;以下、HACと略記する)を用いた場合を示す。HACにおけるクラスタリングは段階的に行われる。ステップ1では、Dの各要素のみからなる|D|個のクラスタを生成する。ステップkでは、ステップk−1で得られたクラスタの中から最も関連性の高い2つを選び出し、それらをマージして新しいクラスタを生成する。各ステップkにおいて得られるクラスタの集合をHAC(k)と書く事にする。本実施形態では、このHAC(k)を補助的クラスタリング手法として用いる。
ステップS105では、ステップS103及びS104それぞれで得られたクラスタをもとに、前述の式(2)に従って計算する。
本発明の装置はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。
図4は、ステップS103〜S105を実際に行い、この一貫性改善手法を定量的に評価した結果である。本評価では、x=「かぼちゃ」として728文書を収集した。この文書集合に対し、ステップS103〜S105として示した通り、LDAを適用してクラスタリングを行い、HAC(k)を補助的クラスタリング手法として用いて一貫性改善を試みた。図は、その結果の一貫性の度合いP、F(縦軸左目盛り)、それに一貫性改善後の文書数(縦軸右目盛り)をkごとにプロットしたものである。評価に必要な正解(A)は人手により作成した。
本実施形態に係る発明は、クラスタ内の一貫性を損なう要素を除去するという点が特徴的であった。いわば、データの量を犠牲にして質の向上を狙う手法であると言える。図4では実際に、kの値が小さくなるのに従い、文書数は減少し一貫性Pは増加していることが見て取れる。先にも述べたように、LDAによるクラスタリングでは一貫性Pはおよそ0.5であったが、一貫性向上によりPの値が増加している。たとえば、補助的クラスタリングとしてk=500の場合を採用すると、Pの値がおよそ0.8である約200文書からなるデータが得られる。
また、本実施形態に係る発明は、Pの増加に伴いFの値も増加しているのがわかる。これは、本手法により一貫性Pと凝集性IPが総合的に改善されていることを示している。なお、ここで得られた「かぼちゃ」に関する状況としては、ハロウィンや冬至などのイベントに加え、離乳食やダイエットなど食品としての利用に関するもの、かぼちゃの切り方などの調理方法に関するもの、農作物として栽培に関するもの、小動物の飼育に関するもの(種が餌になる)などを挙げることができる。
ステップS106〜S108では、新たな集合における出現頻度と、クラスタリング手順で分類した集合の補集合における出現頻度と、を比較し、新たな集合におけるデータのなかから出現頻度の高いデータを抽出してもよい。この場合、ステップS101与えられた特徴語の集合y,y,...の中から文書集合Iの特徴を示す語を選出する既存手法を用いる。たとえば、ある語yのIとD−Cそれぞれにおける出現頻度の違いを調べ、統計的に有意差がある場合にyを特徴語として採用する。
なお、特徴語候補の集合を選ぶ方法は様々あり、目的に応じて適切なものを選択すればよい。たとえば、場所を表す語を特徴語候補としたい場合には、辞書やシソーラスなどから「場所を表す」という条件を満たすものを抜き出すという方法がある。具体的には、シソーラスにおける「区域」や「地域」の下位語を抜き出し、特徴語候補とする。また、本実施形態のバリエーションとして、yを予め用意する代わりに、Iに含まれるすべて(あるいは、その一部)の語を特徴語候補とする方法も考えられる。
以上、実施形態において、「かぼちゃ」が何らかのかたちで関わる問題を状況ごとに分類する場合を紹介した。単一のクラスタリング手法による分類では、50%近くがノイズで占められているという結果であった。これは、たとえば、あるクラスタCを構成する文書のうちほぼ半分は「バーベキュー」に関するものであるが、残りの半分は「離乳食」や「栽培」あるいは「小動物の飼育」など複数種類の文書が混在しているという結果である。このクラスタに本発明を適用するとノイズが除去され、ほとんどが「バーベキュー」に関する文書からなるクラスタIを得ることができる。「バーベキュー」に関する文書の集まりから「バーベキュー」に関する知識(どのような場所で、どのような時期に、どのようなものを用いて行われることが多いか)を抽出するのにあたり、文書集合としてノイズが多く含まれるCを使う代わりにIを使うことにより、より正確な知識の抽出が可能となる。
特徴語候補として場所を表す語を用い、実際に実施形態を適用してみると、「バーベキュー」に関するクラスタCの特徴語としては「神社」「100円ショップ」「公園」「酒屋」「肉屋」「魚屋」が得られた。ここに「神社」が含まれているのは、「バーベキュー」とは関連しない文書(具体的にはお食い初めなどに関するもの)の影響である。一方、一貫性を向上させたIから抽出された特徴語は「100円ショップ」「公園」「酒屋」「肉屋」「魚屋」であり、ノイズに由来する「神社」が取り除かれている。
本発明は情報通信産業に適用することができる。
10:演算処理部
11:変数設定部
12:文書収集部
13:第1文書分類部
14:第2文書分類部
15:一貫性阻害要因除去部
16:特徴語抽出部
17:通信部
20:記憶部
21:特徴語候補格納領域
22:入力語格納領域
23:文書格納領域
24−1,24−2,24−3:分類結果格納領域
25:特徴語格納領域
100:クラスタリング品質改善装置

Claims (6)

  1. 複数種類のクラスタリング方式を用いてデータの集合の分類を行うクラスタリング手順と、
    各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する抽出手順と、
    を有するクラスタリング品質改善方法。
  2. 前記抽出手順において、前記新たな集合に含まれるデータについて、前記新たな集合における出現頻度と、前記クラスタリング手順で分類した集合の補集合における出現頻度と、を比較し、前記新たな集合におけるデータのなかから出現頻度の高いデータを抽出することを特徴とする請求項1に記載のクラスタリング品質改善方法。
  3. 前記データの集合は文書群であり、
    前記クラスタリング手順において、特徴語の共通する文書群を抽出し、
    前記抽出手順において、クラスタリング方式が異なりかつ特徴語の共通する複数の文書群を抽出し、当該文書群で共通する特徴語を抽出し、抽出した特徴語に基づいて新たな集合を生成することを特徴とする請求項1又は2に記載のクラスタリング品質改善方法。
  4. 異なるクラスタリング方式を用いてデータの集合の分類を行う複数の文書分類部と、
    各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する一貫性阻害要因除去部と、
    を備えるクラスタリング装置。
  5. 前記新たな集合に含まれるデータについて、前記新たな集合における出現頻度と、前記文書分類部で分類した集合の補集合における出現頻度と、を比較し、前記新たな集合におけるデータのなかから出現頻度の高いデータを抽出するデータ抽出部を、
    さらに備えることを特徴とする請求項4に記載のクラスタリング装置。
  6. 複数の文書分類部が、複数種類のクラスタリング方式を用いてデータの集合の分類を行うクラスタリング手順と、
    一貫性阻害要因除去部が、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する抽出手順と、
    をコンピュータに実行させることを特徴とするクラスタリング品質改善プログラム。
JP2012207943A 2012-09-21 2012-09-21 クラスタリング品質改善方法 Expired - Fee Related JP5746118B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012207943A JP5746118B2 (ja) 2012-09-21 2012-09-21 クラスタリング品質改善方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012207943A JP5746118B2 (ja) 2012-09-21 2012-09-21 クラスタリング品質改善方法

Publications (2)

Publication Number Publication Date
JP2014063343A true JP2014063343A (ja) 2014-04-10
JP5746118B2 JP5746118B2 (ja) 2015-07-08

Family

ID=50618519

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012207943A Expired - Fee Related JP5746118B2 (ja) 2012-09-21 2012-09-21 クラスタリング品質改善方法

Country Status (1)

Country Link
JP (1) JP5746118B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017084368A (ja) * 2015-10-28 2017-05-18 富士通株式会社 トピック表現の精緻化
US10020481B2 (en) 2013-11-21 2018-07-10 Samsung Sdi Co., Ltd. Separator and secondary battery using same
JP2020181309A (ja) * 2019-04-24 2020-11-05 富士通株式会社 検索支援方法及び情報処理装置
WO2023166578A1 (ja) * 2022-03-02 2023-09-07 日本電気株式会社 ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117930A (ja) * 1999-10-15 2001-04-27 Ricoh Co Ltd 文書分類装置、文書分類方法および記録媒体
JP2007512607A (ja) * 2003-11-25 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データ記憶手段からの情報アイテム検索
JP2008084151A (ja) * 2006-09-28 2008-04-10 Just Syst Corp 情報表示装置および情報表示方法
JP2011128705A (ja) * 2009-12-15 2011-06-30 Toshiba Corp 情報処理装置およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117930A (ja) * 1999-10-15 2001-04-27 Ricoh Co Ltd 文書分類装置、文書分類方法および記録媒体
JP2007512607A (ja) * 2003-11-25 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データ記憶手段からの情報アイテム検索
JP2008084151A (ja) * 2006-09-28 2008-04-10 Just Syst Corp 情報表示装置および情報表示方法
JP2011128705A (ja) * 2009-12-15 2011-06-30 Toshiba Corp 情報処理装置およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10020481B2 (en) 2013-11-21 2018-07-10 Samsung Sdi Co., Ltd. Separator and secondary battery using same
US10658641B2 (en) 2013-11-21 2020-05-19 Samsung Sdi Co., Ltd. Separator comprising coating layer, and battery using same
JP2017084368A (ja) * 2015-10-28 2017-05-18 富士通株式会社 トピック表現の精緻化
JP2020181309A (ja) * 2019-04-24 2020-11-05 富士通株式会社 検索支援方法及び情報処理装置
JP7260769B2 (ja) 2019-04-24 2023-04-19 富士通株式会社 検索支援方法及び情報処理装置
WO2023166578A1 (ja) * 2022-03-02 2023-09-07 日本電気株式会社 ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

Also Published As

Publication number Publication date
JP5746118B2 (ja) 2015-07-08

Similar Documents

Publication Publication Date Title
JP5746118B2 (ja) クラスタリング品質改善方法
JP6316844B2 (ja) 予測モデル生成のためのユーザーインタフェース
Eickhoff Crowd-powered experts: Helping surgeons interpret breast cancer images
Groen et al. Is there Really a Need for Using NLP to Elicit Requirements? A Benchmarking Study to Assess Scalability of Manual Analysis.
Vogelgesang et al. PMCube: a data-warehouse-based approach for multidimensional process mining
Yousef Big data analytics in health care: a review paper
Kumar Knowledge discovery practices and emerging applications of data mining: Trends and new domains: Trends and new domains
Whatford et al. A systematic literature review on the economic impact of endemic disease in UK sheep and cattle using a One Health conceptualisation
Bonkra et al. Scientific landscape and the road ahead for deep learning: apple leaves disease detection
KR101839572B1 (ko) 질병 관련 유전자 관계 분석 장치 및 방법
Altarturi et al. Review of knowledge framework and conceptual structure of Islamic Banking
Tayebati et al. Process mining case study approach: Extraction of unconventional event logs to improve performance in Hospital Information Systems (HIS)
Lee et al. Benchmarking community detection methods on social media data
Schnell Web of Science: The first citation index for data analytics and scientometrics
Geetha et al. Early Recognition of Herb Sickness Using SVM
Karthikeyan et al. Text mining
CN111986815A (zh) 基于共现关系的项目组合挖掘方法及相关设备
Rana et al. A framework for selecting features using various soft computing algorithms
Gamal et al. A new proposed model for plant diseases monitoring based on data mining techniques
CN108920726A (zh) 一种审计分析系统及方法
Priyanga et al. The Multiple Time Series Clinical Data Processing with Modified Artificial Bee Colony Algorithm and Artificial Neural Network
Srikanth et al. Design and Development of Image Based Plant Leaf Disease Monitoring System Using Deep Learning Algorithms
Shah et al. A translational clinical assessment workflow for the validation of external artificial intelligence models
JP2015014993A (ja) 検索意図辞書作成装置、検索意図辞書作成方法及び検索意図辞書作成プログラム
Mahurkar et al. Revealing leaf species through specific contour and region-based features extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150507

R150 Certificate of patent or registration of utility model

Ref document number: 5746118

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees