JP4041081B2 - 分割クラスタリング装置及び分割データ数決定方法 - Google Patents

分割クラスタリング装置及び分割データ数決定方法 Download PDF

Info

Publication number
JP4041081B2
JP4041081B2 JP2004084711A JP2004084711A JP4041081B2 JP 4041081 B2 JP4041081 B2 JP 4041081B2 JP 2004084711 A JP2004084711 A JP 2004084711A JP 2004084711 A JP2004084711 A JP 2004084711A JP 4041081 B2 JP4041081 B2 JP 4041081B2
Authority
JP
Japan
Prior art keywords
data
clustering
divided
sample
subsets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004084711A
Other languages
English (en)
Other versions
JP2005275556A (ja
Inventor
俊彦 小林
晶 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2004084711A priority Critical patent/JP4041081B2/ja
Publication of JP2005275556A publication Critical patent/JP2005275556A/ja
Application granted granted Critical
Publication of JP4041081B2 publication Critical patent/JP4041081B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データベースに格納されているデータの集合を分割してクラスタリングする分割クラスタリング装置に係り、特に分割データ数を決定するのに好適な分割クラスタリング装置及び分割データ数決定方法に関する。
データの集合に対して一定の基準に従ってクラスタリングし、データ集合の傾向を分析することがある。このような分析方法をクラスタリング分析と呼んでいる。例えば、文書データの集合において、それぞれのデータに対して形態素解析を行い、単語の出現頻度や共起頻度などの一定の基準に従ってクラスタリングを行うことで、単語のクラスタ(グルーピング)を作成することができる。更にデータをそれぞれのクラスタに振り分け、データの分類を行い、データ集合の傾向を掴むことができる。
ところが大規模データに対してクラスタリングを行うと、データを特徴付ける単語が曖昧になるため、クラスタが作成されにくくなる。また作成されるクラスタが少ないため、クラスタにデータを分類しようとすると、どこにも分類されないデータ(分類不能のデータ)が多数できてしまう。
そこで、クラスタリングを実行する前に前処理として、全データを複数のグループに分割し、分割したグループ毎にクラスタリングを行うと、分類不能のデータを少なくすることができる。これを分割クラスタリングと呼ぶ(例えば、特許文献1参照)。
特開2003−271620(段落0010乃至0015、図1)
上記した従来の分割クラスタリング技術においては、分類不能のデータの数を減らすことはできるものの、分割するデータ数が固定であることから、全データで分割せずにクラスタリングを行った場合に比べてクラスタの精度(まとまり)が悪くなったり、良い結果が出るまで何度もやり直す必要があった。
本発明は上記事情を考慮してなされたものでその目的は、原データの持つ特徴を生かした分割クラスタリングを実現することにより、分類不能のデータの数を減らすと共に、クラスタの精度が向上できる、分割クラスタリング装置及び分割データ数決定方法を提供することにある。
本発明の1つの観点によれば、データベースに格納されているデータの集合を分割してクラスタリングする分割クラスタリング装置が提供される。この分割クラスタリング装置は、上記データベースに格納されているデータの集合の一部分をサンプルデータとして当該サンプルデータのクラスタリングを行うサンプルクラスタリング手段と、このサンプルクラスタリング手段によるクラスタリング結果を評価する評価手段と、この評価手段の評価結果をもとに、上記データベースに格納されているデータの集合を分割してクラスタリングするのに必要な分割データ数を決定する分割データ数決定手段と、この分割データ数決定手段によって決定された分割データ数で、上記データベースに格納されているデータの集合を分割するデータ分割手段と、このデータ分割手段によって分割されたデータの集合毎にクラスタリングを実行するクラスタリング実行手段とを備えている。
上記の構成の分割クラスタリング装置においては、データベースに格納されているデータの集合を幾つかに分割してクラスリング(分割クラスタリング)を行う前に、その分割クラスタリングの前処理として、当該データの集合の一部分だけを対象とするクラスタリング(サンプルクラスタリング)が行われる。このサンプルクラスタリングの結果は、データベースに格納されているデータの集合全体の特徴を反映している。そこで、上記の構成の分割クラスタリング装置においては、サンプルクラスタリングの結果を評価することにより、その評価結果から、上記データの集合を分割してクラスタリングするのに必要な、当該データの集合の特徴に適した分割データ数を決定することが可能となる。したがって、決定された分割データ数で、上記データベースに格納されているデータの集合を分割し、この分割されたデータの集合毎にクラスタリングを実行するならば、分類不能のデータ数を減らすと共に、当該データの集合を特徴付けるまとまりのあるクラスタを生成することが可能な、効果的なクラスタリングを実現できる。
ここで、分割データ数を決定するための指標となる評価値として、サンプルクラスタリングで分類不能となったデータの数、或いはサンプルクラスタリングによって作成されるクラスタ各々のまとまりの程度を表す有効度、更には両者の組み合わせを適用するならば、より最適な分割データ数を決定できる。
また、上記データベースに格納されているデータの集合から、上記データの集合の上記一部分をなす上記サンプルデータとして、データ数が異なる複数の部分集合を抽出し、抽出された複数の部分集合各々のサンプルクラスタリングを行うならば、そのサンプルクラスタリング結果から、複数の部分集合各々のデータ数のうちの1つを最適な分割データ数として決定することも可能である。
本発明によれば、分割クラスリングを実行する前の前処理として、分割クラスリングの対象となるデータの集合の一部分だけクラスタリングを行い、その一部分だけのクラスタリングの結果を評価して分割データ数を決定することにより、原データの持つ特徴を生かした分割クラスタリングを実現することができる。これにより、分割クラスリングにおける分類不能のデータの数を減らすと共に、分割クラスタリングによって作成されるクラスタの精度を向上することができる。
以下、本発明の実施の形態につき図面を参照して説明する。
図1は本発明の一実施形態に係る分割クラスタリング装置の構成を示すブロック図である。図1の分割クラスタリング装置は、文書データベース(以下、文書DBと称する)11と、クラスタリング結果データベース(以下、クラスタリング結果DBと称する)12と、データ登録部13と、分割データ数決定処理部14と、データ分割部15と、クラスタリング実行部16と、クラスタリング結果マージ部17と、クラスタリング結果表示部18とから構成される。
文書DB11は、クラスタリングの対象となる文書データの集合を格納するのに用いられる。クラスタリング結果DB12は、クラスタリングの結果を格納するのに用いられる。
データ登録部13は、クラスタリングの対象となる文書データの集合に対して、形態素解析(単語に分割する)を行い、その結果を文書DB11に登録する。
分割データ数決定処理部14は、文書DB11に登録された文書データの集合を対象とする分割クラスタリングに最適な分割データ数を決定するための処理を行う。図2は分割データ数決定処理部14の構成を示す。分割データ数決定処理部14は、サンプル抽出部141と、サンプルクラスタリング部142と、評価部143と、分割データ数決定部144とから構成される。
サンプル抽出部141は、上記文書データの集合から上記分割データ数を決定するのに必要なサンプル(サンプルデータ)を抽出する。サンプルクラスタリング部142は、サンプル抽出部141により抽出されたサンプルに対してクラスタリングを行う。評価部143は、サンプルクラスタリング部142によるクラスタリング結果を評価する。クラスタリング結果の評価値としては、サンプルクラスタリング部142によるクラスタリングで作成された各クラスタのまとまりの程度を表す有効度、及び当該クラスタリングで分類不能となったデータの数(分類不能データ数)の少なくとも一方が適用される。分割データ数決定部144は、算出された各クラスタの有効度をもとに分割データ数を決定する。
再び図1を参照すると、データ分割部15は、上記文書データの集合を、分割データ数決定処理部14で決定された分割データ数を単位に複数のグループに分割する。クラスタリング実行部16は、分割されたグループ毎のデータに対して、個別にクラスタリングを実行する。クラスタリング実行部16による、分割データ数に応じたクラスタリングの結果(クラスタリングによって作成されたクラスタと当該クラスタに分類されたデータ)は、クラスタリング結果DB12に格納される。
クラスタリング結果マージ部17は、クラスタリング結果DB12に格納された、クラスタリング実行部16によるクラスタリング結果をマージ(統合)する。クラスタリング結果表示部18は、クラスタリング結果マージ部17によりマージされた(またはマージされる前の)クラスタリング結果を表示する。
本実施形態において、図1の分割クラスタリング装置はパーソナルコンピュータによって実現され、データ登録部13、分割データ数決定処理部14、データ分割部15、クラスタリング実行部16及びクラスタリング結果マージ部17は、対応する処理を記述したプログラム(分割クラスタリングプログラム)を、当該コンピュータが読み取って実行することにより実現される。このプログラムは、コンピュータで読み取り可能な記憶媒体(フロッピー(登録商標)ディスクに代表される磁気ディスク、CD−ROM、DVDに代表される光ディスク、フラッシュメモリに代表される半導体メモリ等)に予め格納して頒布可能である。このプログラムが、ネットワークを介してダウンロード(頒布)されても構わない。
また本実施形態では、文書DB11及びクラスタリング結果DB12が、上記コンピュータの外部記憶装置、例えばハードディスク装置(HDD)上に置かれる構成を適用している。しかし、文書DB11及びクラスタリング結果DB12が、分割クラスタリング装置から独立に設けられる構成、例えば分割クラスタリング装置(を実現するコンピュータ)とネットワーク接続されたデータベースサーバコンピュータ上に置かれる構成であっても構わない。また、クラスタリング結果表示部18が、分割クラスタリング装置から独立に設けられる構成であっても構わない。
次に、図1の分割クラスタリング装置の動作について説明する。
<動作の概要>
まず、分割クラスタリング装置の動作の概要について、図3のフローチャートを参照して説明する。
データ登録部13は、クラスタリングの対象となる文書データの集合を文書DB11に登録するための処理を行う(ステップS1)。この登録処理では、データ登録部13は文書データの形態素解析を行い、単語単位に分割する。データ登録部13は、この単語単位に分割された文書データの集合を文書DB11に登録する。データ登録部13によって登録される文書データの集合が、磁気ディスク、光ディスク等の可搬型の記憶媒体から読み込まれるものであっても、或いはネットワークを介して転送されるものであっても構わない。
分割データ数決定処理部14は、データ登録部13によって文書DB11に登録されたデータの特徴を解析することにより、当該データを対象とする分割クラスタリングに最適な分割データ数を決定する(ステップS2)。この最適な分割データ数を決定する処理については後述する。データ分割部15は、文書DB11に登録されたデータを、分割データ数決定処理部14によって決定された分割データ数で複数のグループに分割する(ステップS3)。このステップS2の分割データ数決定と、ステップS3のデータ分割とは、次に述べるクラスタリング(分割クラスタリング)の前処理として位置付けられている。
クラスタリング実行部16は、分割データ数決定処理部14によって分割されたグループ毎にクラスタリング(つまり分割クラスタリング)を実行する(ステップS4)。これにより、分割されたグループの数だけクラスタリングの結果が作成される。クラスタリング実行部16は、このグループ毎のクラスタリング結果をクラスタリング結果DB12に格納する(ステップS5)。
グループ毎のクラスタリング結果には、類似したクラスタが含まれている可能性がある。そこでクラスタリング結果マージ部17は、クラスタリング結果(分割クラスタリング結果)をマージする(ステップS6)。このクラスタリング結果をマージする処理については後述する。クラスタリング結果表示部18は、クラスタリング結果マージ部17によりマージされたクラスタリング結果をディスプレイ装置(図示せず)に表示する(ステップS7)。
<最適な分割データ数を決定する処理>
次に、分割データ数決定処理部14において実行される、最適な分割データ数を決定する処理について、図4のフローチャートを参照して説明する。ここでの処理の特徴は、一定割合のデータをサンプリングしてデータの傾向を調査し、その傾向から分割データ数を決定する点にある。
分割データ数決定処理部14内のサンプル抽出部141は、文書DB11に登録されている文書データの集合から一定割合をサンプルデータとして抽出する(ステップS11)。ここでは、サンプル抽出部141は、全データから20個に1個の割合でサンプルデータを抽出する。つまり本実施形態では、全体のデータ数の5%がサンプルデータとして抜粋されるものとする。なお、この割合は一例であり、他の割合でも良い。また抽出の方法も、一定個数毎に限らず、例えばランダムに抽出しても構わない。
分割データ数決定処理部14内のサンプルクラスタリング部142は、サンプル抽出部141によって抽出されたサンプルデータ(文書データ)から特徴ベクトルを抽出し、当該特徴ベクトルに基づいてクラスタリングを行う(ステップS12)。この文書データからの特徴ベクトル(特徴量)の抽出の詳細については後述する。サンプルクラスタリング部142によるクラスタリングでは、類似の特徴ベクトルをまとめてクラスタが作成される。この特徴ベクトルに基づくクラスタリングの概要を、図5に示す。図5には、5つの特徴ベクトルが、2つの特徴ベクトルの集合と3つの特徴ベクトルの集合とに分類されることにより、2つのクラスタC1及びC2が作成された例が示されている。
分割データ数決定処理部14内の評価部143は、サンプルクラスタリング部142によるサンプルデータに対するクラスタリングの結果を評価(解析)して有効度Aを算出する(ステップS13)。このクラスタリング結果の有効度Aは、サンプルクラスタリング部142にるクラスタリングによって作成された各クラスタの有効度Acの平均値である。各クラスタの有効度Acは、次のように求められる。
まず評価部143は、サンプルクラスタリング部142によって作成されたクラスタ毎に、以下の処理を行う。即ち評価部143は、クラスタ内の特徴ベクトルの分布の重心(つまりクラスタの重心)を求め、各特徴ベクトルと当該重心との距離を求める。距離の定義は種々知られている。ここでは特徴ベクトル毎の距離の差を特徴付けるため、L3距離と呼ばれる距離を用いる。重心のベクトルを(X,Y)、各特徴ベクトルを(Xi,Yi)とすると、L3距離は、次式(1)
(|(Xi−X)3|+|(Yi−Y)3|)1/3 …(1)
ただし、i=1,2,…,データ数
で表される。なお、特徴ベクトルと重心との距離を表す指標であれば、例えばL2距離など、L3距離以外の距離を用いても構わない。上記の例において、L2距離は、
(|(Xi−X)2|+|(Yi−Y)2|)1/2
のように表される。
評価部143は、クラスタ内の全ての特徴ベクトルに関する上記距離の平均値を算出し、その平均値の例えば逆数を当該クラスタの有効度Acとする。明らかなように、特徴ベクトルの分布が広がっているクラスタでは、上記距離の平均値の逆数、つまり有効度Acは低くなる。このように、「有効度Acが低い」クラスタは、まとまりが悪いクラスタである。一方、特徴ベクトルの分布が集中しているクラスタでは、上記距離の平均値の逆数、つまり有効度Acは高くなる。このように「有効度Acが高い」クラスタは、まとまりが良いクラスタである。図6(a)に有効度Acが低いクラスタの例を、図6(b)に有効度Acが高いクラスタの例を、それぞれ示す。
評価部143は、各クラスタの有効度Acを算出すると、更に当該各クラスタの有効度Acの平均値を算出し、この平均値(有効度平均値)を、サンプルクラスタリング部142によるサンプルデータに対するクラスタリングの結果の有効度Aとする。
分割データ数決定処理部14内の分割データ数決定部144は、評価部143によって算出された、サンプルクラスタリング部142によるクラスタリングの結果の有効度(有効度平均値)Aに基づいて分割データ数を決定する(ステップS14)。ここでは、分割データ数は次のように決定される。
まず分割データ数決定部144は、クラスタリングの結果の有効度Aが、予め定められている標準の有効度AS以上の場合、分割をしないでクラスタリングを行っても、分類不能データは少ないと判断し、分割データ数を、分割が行われない数、つまり全データ数NTに決定する。標準有効度ASは、予め求められている良好な標準的なクラスタリング結果の有効度(有効度平均値)である。
一方、クラスタリング結果の有効度Aが標準有効度ASより低い場合、当該有効度Aが低くなるほど分割クラスタリングにおいて分類不能データが増加することが予測される。この場合、分割データ数決定部144は、有効度Aが低くなるほど分割データ数が少なくなるように、当該分割データ数を決定する。ここでは、分割データ数は、次式(2)
分割データ数=max(データ数N1,データ数N2) …(2)
但し、N1=全データ数NT×(有効度A/標準有効度AS)
N2=1000
に従って決定される。この(2)式は、N1=全データ数NT×(有効度A/標準有効度AS)の値(つまり有効度Aに比例した値)がN2(=1000件)を超えていれば、N1が分割データ数として決定され、N2(=1000件)以下であれば、N2(=1000件)が分割データ数として決定されることを示す。このN2は最小の分割データ数である。N2には、これ以上分割データ数を少なくするとクラスタの意味がなくなるデータ数が用いられる。本実施形態では、N2=1000であるが、これに限るものではない。
なお、分割データ数の決定に、必ずしもクラスタリング結果の有効度(有効度平均値)Aを用いる必要はない。例えば、サンプルクラスタリング部142によるクラスタリングでクラスタに分類できなかったデータ数(つまり分類不能データ数)NIを用いても良い。つまり、評価部143は、有効度Aを算出する代わりに、分類不能データ数NIを求めても良い。この場合、分割データ数決定部144は、評価部143によって求められたNIに基づいて、次のように分割データ数を決定することができる。
まず、分類不能データ数NIが全データ数NTの一定割合以下、例えば10%以下の場合、分割データ数決定部144は、分割をしないでクラスタリングを行っても、分類不能データは少ないと判断する。この場合、分割データ数決定部144は、分割データ数を全データ数NTに決定する。
一方、分類不能データ数NIが全データ数NTの一定割合(10%)を超えている場合、分類不能データ数NIが増えるほど、分割クラスタリングにおいて分類不能データが増加することが予測される。この場合、分割データ数決定部144は、分類不能データ数NIが増えるほど分割データ数が少なくなるように、当該分割データ数を決定する。ここでは、分割データ数は、次式(3)
分割データ数=max(データ数N3,データ数N2) …(3)
但し、N3=全データ数NT/(分割不能データ数NI/全データ数NTの10%)
N2=1000
に従って決定される。この(3)式は、N3=全データ数NT/(分割不能データ数NI/全データ数NTの10%)の値(つまり分割不能データ数NIに反比例した値)がN2(=1000件)を超えていれば、N3が分割データ数として決定され、N2(=1000件)以下であれば、上記(2)式の場合と同様に、N2(=1000件)が分割データ数として決定されることを示す。
また、上記(2)式と(3)式とを組み合わせ、次式(4)
分割データ数=max(データ数αN1,データ数βN3,データ数N2)
…(4)
に従い、有効度A及び分類不能データ数NIの双方に基づいて分割データ数を決定するようにしても良い。ここで、α,βは、有効度Aまたは分類不能データ数NIのいずれの要素を優先させるかを示す一種の重みである。
要するに、クラスタリング結果の有効度Aが低くなるほど、或いは分類不能データ数NIが増えるほど、分割データ数が少なくなるように、当該分割データ数が決定されるものであれば良い。
<最適な分割データ数を決定する処理の変形例>
次に、最適な分割データ数を決定する処理の変形例について、図7のフローチャートを参照して説明する。この変形例の特徴は、文書DB11に登録された文書データの集合からデータ数が異なる複数の部分集合を抜粋して、その部分集合毎にクラスタリングを行うことで分割データ数を決定する点にある。
分割データ数決定処理部14内のサンプル抽出部141は、文書DB11に登録されている文書データの集合から、全体の一定割合を占める部分集合をサンプルデータとして抽出する動作を、予め定められた複数の異なる割合について繰り返す(ステップS21)。ここでは、図8(a)に示すように、いずれも文書データの集合の先頭から、0.5%、1%、2.5%及び5%の部分集合80-1,80-2,80-3,80-4がサンプルデータとして抽出される。この場合、文書データの集合が10万件のデータ(単語)の集合であるものとすると、500件、1,000件、2,500件及び5,000件のデータの集合である部分集合80-1,80-2,80-3,80-4が、いずれも文書データの集合の先頭から抽出される。なお、図8(b)に示すように、部分集合80-1,80-2,80-3,80-4が、文書データの集合から順番に抽出されるものであっても構わない。また、全データから、それぞれ200個に1個の割合、100個に1個の割合、40個に1個の割合、20に1個の割合でサンプルデータが抽出されても良い。また、全データ数に対してそれぞれ0.5%、1%、2.5%及び5%の割合の数のデータがサンプルデータとして、全データからランダムに抽出されても良い。
分割データ数決定処理部14内のサンプルクラスタリング部142は、サンプル抽出部141によって抽出された、データ数の異なる部分集合毎に、クラスタリングを行う(ステップS22)。
分割データ数決定処理部14内の評価部143は、サンプルクラスタリング部142による部分集合(ここでは、部分集合80-i(i=1〜4))毎のクラスタリング結果の有効度Aiを求める(ステップS23)。このクラスタリング結果の有効度Aiは、上記実施形態においてクラスタリング結果の有効度Aを求めるのに適用されたのと同様の手順で求められる。したがって、有効度Aiの求め方については、説明を省略する。上記実施形態と異なる点は、部分集合80-i毎に、当該部分集合80-iのクラスタリング結果の有効度が求められる点である。
評価部143は、ステップS23で求められた、部分集合毎のクラスタリング結果の有効度Aiと対応する部分集合のデータ数とに基づいて、分割データ数を決定する(ステップS24)。ここでは、評価部143は、部分集合80-i毎のクラスタリング結果の有効度Ai(i=1〜4)を比較して最大の有効度を求め、その最大の有効度に対応する部分集合のデータ数を分割データ数と決定する。
なお、分割データ数の決定に、必ずしも部分集合80-i毎のクラスタリング結果の有効度(有効度平均値)Aiを用いる必要はない。例えば、サンプルクラスタリング部142による部分集合80-i毎のクラスタリングでクラスタに分類できなかったデータ数(つまり分類不能データ数)NIiを用いても良い。つまり、評価部143は、部分集合80-i毎の有効度Aiを算出する代わりに、部分集合80-i毎の分類不能データ数NIiを求めても良い。この場合、評価部143が、部分集合80-i毎に、NIiの当該部分集合80-iのデータ数に占める割合、つまり分類不能データ発生率RNIiを算出するならば、分割データ数決定部144は、そのRNIiに基づいて、次のように分割データ数を決定することができる。即ち分割データ数決定部144は、部分集合80-i毎の分類不能データ発生率RNIiを比較して最小の分類不能データ発生率を求め、その最小の分類不能データ発生率に対応する部分集合のデータ数を分割データ数と決定する。
また、部分集合80-i毎の分類不能データ数NIi及び有効度Aiの双方に基づいて分割データ数を決定するようにしても良い。そのためには、評価部143が、例えば次式
指標値Ii
=α’(分類不能データ数NIi/データ数の一定割合)
+β’(標準有効度AS/有効度Ai)
に示す値(指標値)Iiを算出すると良い。この指標値Iiは、部分集合80-i毎のクラスタリング結果の良否を判断するための指標となる。α’,β’は、有効度Aiまたは分類不能データ数NIiのいずれの要素を優先させるかを示す一種の重みである。
この場合、分割データ数決定部144は、評価部143によって算出された部分集合80-i毎の指標値Iiを比較して最小の指標値を求め、その最小の指標値に対応する部分集合のデータ数を分割データ数と決定する。
<特徴ベクトルの抽出>
次に、文書データからの特徴ベクトルの抽出について説明する。一般に、特徴ベクトルは、例えば(3,1,5)のように、多次元の成分を表す数値の組で表現される。文書データから特徴ベクトルを抽出(作成)するには、当該データから当該特徴ベクトルを表す数値の組を作成するためのデータ変換が必要となる。このデータ変換のための方法は、クラスタリングの対象となる全てのデータに対して特徴ベクトルが作成可能で、且つ特徴ベクトル同士の距離が定義可能でなければならない。
このようなデータ変換による特徴ベクトルの作成は、サンプルクラスタリング部142及びクラスタリング実行部16によるクラスタリング時に、次のようして行うことができる。ここでは、サンプルクラスタリング部142が、次の文書(文書データ)A
文書A:「日本の総理大臣は○△。総理は○△。○△。」
から特徴ベクトルを作成する場合を例に述べる。
まずサンプルクラスタリング部142は、データから特徴量を算出するための準備を行う。特徴量とは、データの特徴を表す数値のことである。本実施形態のように、文書データから特徴量を算出する場合、当該文書データを単語単位に区切ることが上記の準備となる。ここでは、文書Aを2グラムで単語に区切るものとする。2グラムとは、文字列を単語に区切るための単純な方法で、先頭から1文字ずつずらしながら、2文字の文字列を取り出していく方法である。文書Aを2グラムで単語に区切った結果は、
「日本/本の/の総/総理/理大/大臣/臣は/は○/○△/総理/理は/は○/○△/○△」
となる。ここでは、「、」と「。」は無視される。なお、本実施形態では、文書DB11に登録されている文書データの集合は既にデータ登録部13によって単語単位に区切られていることから、上記の準備は必要ない。また、この準備は、データの種類によっては必ずしも必要としない。
サンプルクラスタリング部142は、文書データの特徴ベクトルの次元を決定する。ここでは、文書データから求められる1つ以上の特徴量をベクトルの各次元とみなし、特徴ベクトルを全特徴量分の次元を持つベクトルとする。上記文書Aの例では、当該文書Aの特徴ベクトルの次元は、
特徴ベクトル=(日本,本の,の総,総理,理大,大臣,臣は,は○,○△,理は)
のように決定される。実際は、全ての文書に出現する単語をベクトルの次元とする必要がある。
次にサンプルクラスタリング部142は、文書データから、決定された各次元の特徴量を求める。ここでは、各次元の特徴量に、当該次元として決定されている単語が文書内に出現する回数を用いるものとする。この場合、各次元の特徴量として、
日本=1, 本の=1, の総=1, 総理=2, 理大=1
大臣=1, 臣は=1, は○=2, ○△=3, 理は=1
が求められる。
次にサンプルクラスタリング部142は、上記のようにして求められた各次元の特徴量を、ベクトルの対応する次元に代入することにより、文書Aの特徴ベクトルAを作成する。この例では、文書Aの特徴ベクトルAは、
ベクトルA=(1,1,1,2,1,1,1,2,3,1)
のように表される。他の文書に対しても、同様の方法で特徴ベクトルを求めることができる。
なお、本実施形態では、クラスタリングの対象となるデータが文書データであることを前提としている。しかし、上述した文書データのように、特徴ベクトルの作成(特徴ベクトルの抽出または特徴ベクトルへの変換)が可能なデータであれば、文書データ以外のデータでもクラスタリング可能である。例えば画像データ、音楽データ、或いは数値データも、クラスタリング可能である。ここでは、ビットマップ形式の画像データから特徴ベクトルを作成する例について、図9を参照して説明する。
まず、図9(a)に示す画像IMを、n×mに分割、例えば図9(b)に示すように4×4に分割する。次に、この分割によって得られる16個の部分画像#1〜#16を順番に並べて、特徴ベクトルの次元とする。図9(b)の例では、画像IMの特徴ベクトルの次元は16であり、
特徴ベクトル=(部分画像#1の特徴量,部分画像#2の特徴量,…,部分画像#16の特徴量)
のように決定される。
次に、画像IMから各次元の特徴量を求める。ここでは、画像IMが多値画像であるとして、各部分画像#1〜#16の平均の濃度を求める。図9(c)には、各部分画像#1〜#16の平均の濃度が示されている。この部分画像#1〜#16の平均の濃度を、ベクトルの対応する次元に代入することにより、画像IMの特徴ベクトルBを作成する。図9(c)の例では、画像IMの特徴ベクトルBは、
ベクトルB=(2,10,10,2,0,50,50,0,0,5,5,0,0,10,10,0)
のように表される。
このように、文書データや画像データなど、種々のデータから特徴ベクトルを抽出することが可能である。
上記の説明から明らかなように、本実施形態においてクラスタリングの対象となるデータから抽出される特徴ベクトルは、数値の組である特徴量の組を多次元の成分として持つ。このため、この特徴量の組を多次元空間上の点の座標と考えると、上述した特徴ベクトルと重心との距離の算出に、ユークリッド距離の算出方法を用いることができる。
<クラスタリング結果をマージする処理>
次に、クラスタリング結果マージ部17による分割クラスタリングで作成されたクラスタリング結果をマージする処理について、図10のフローチャートを参照して説明する。
まずクラスタリング結果マージ部17は、分割クラスタリングで作成された複数のクラスタのうちの1つのクラスタを選択し、当該選択されたクラスタ内の各データの特徴ベクトルを求める(ステップS31,S32)。次にクラスタリング結果マージ部17は、クラスタ内の特徴ベクトルの分布の重心を求めて、当該クラスタの重心とする(ステップSS33)。クラスタリング結果マージ部17は、上記ステップS31〜S33を、分割クラスタリングで作成された全てのクラスタについて実行する(ステップS34)。これにより、全てのクラスタの重心が求められる。クラスタリング結果マージ部17は、全てのクラスタの重心間の距離を、クラスタ間の距離(クラスタ間距離)として算出する(ステップS35)。
クラスタリング結果マージ部17は、クラスタ間距離の最も短いもの同士を、データの特徴が最も類似したクラスタ対であるとして、1つの新たなクラスタにマージ(統合)する(ステップS36)。クラスタリング結果マージ部17は、マージ後のクラスタの重心を求める(ステップS37)。そしてクラスタリング結果マージ部17は、マージ後のクラスタと、他の全てのクラスタとの重心間の距離(つまりクラスタ間距離)を計算する(ステップS38)。
クラスタリング結果マージ部17は、以上のステップS36〜S38を、全てのクラスタ間距離が一定距離以上となり(つまり、一定レベル以上類似したクラスタが存在しなくなり)、且つクラスタ数が一定数以下となるまで繰り返す(ステップS39,S40)。ここで、全てのクラスタ間距離が一定距離以上となるか、或いはクラスタ数が一定数以下となった段階で、マージ処理を終了しても良い。
上述したクラスタリング結果マージ部17によるマージ処理の結果、たとえクラスタリング実行部16による分割クラスタリングで、非常に多くのクラスタが作成され、しかもその中に重複(類似)したクラスタが存在していても、クラスタ間の距離の近いもの同士をマージすることで、有効性の高いクラスタにまとめて、クラスタ数を適切な数に絞ることができる。また、重複クラスタが1つにまとめられるため、データ集合の全体的な傾向を容易に把握できるようになる。
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
本発明の一実施形態に係る分割クラスタリング装置の構成を示すブロック図。 図1中の分割データ数決定処理部14の構成を示すブロック図。 図1の分割クラスタリング装置の動作の概要を説明するためのフローチャート。 分割データ数決定処理部14において実行される、最適な分割データ数を決定する処理の手順を示すフローチャート。 特徴ベクトルに基づくクラスタリングの概要を示す図。 有効度が低いクラスタと有効度が高いクラスタとを示す模式図。 最適な分割データ数を決定する処理の変形例を示すフローチャート。 文書データの集合から異なるデータ数の4つの部分集合を抜粋する2つの例を示す図。 画像データから特徴ベクトルを作成する例を示す図。 クラスタリング結果マージ部17により実行される、クラスタリング結果をマージする処理の手順を示す図。
符号の説明
11…文書DB、12…クラスタリング結果DB、13…データ登録部、14…分割データ数決定処理部14、15…データ分割部、16…クラスタリング実行部、17…クラスタリング結果マージ部、18…クラスタリング結果表示部、141…サンプル抽出部、142…サンプルクラスタリング部、143…評価部、144…分割データ数決定部。

Claims (4)

  1. データベースに格納されているデータの集合の一部分をサンプルデータとして抽出するサンプル抽出手段と、
    前記サンプル抽出手段によって抽出されたサンプルデータのクラスタリングを行うサンプルクラスタリング手段と、
    前記サンプルクラスタリング手段によるクラスタリング結果を評価する評価手段と、
    前記評価手段の評価結果をもとに、前記データベースに格納されているデータの集合を分割してクラスタリングするのに必要な分割データ数を決定する分割データ数決定手段と、
    前記分割データ数決定手段によって決定された分割データ数で、前記データベースに格納されているデータの集合を分割するデータ分割手段と、
    前記データ分割手段によって分割されたデータの集合毎にクラスタリングを実行するクラスタリング実行手段と
    を具備し、
    前記サンプル抽出手段は、前記データベースに格納されているデータの集合から、データ数が異なる複数の部分集合を、前記データの集合の前記一部分をなす前記サンプルデータとして抽出し、
    前記サンプルクラスタリング手段は、前記サンプル抽出手段によって抽出された前記複数の部分集合各々のクラスタリングを行い、
    前記評価手段は、前記サンプルクラスタリング手段による前記複数の部分集合各々のクラスタリング毎に、当該クラスタリングで分類不能となったデータの数を表す分類不能データ数を取得し、
    前記分割データ数決定手段は、前記複数の部分集合各々のクラスタリング毎の分類不能データ数をもとに、当該複数の部分集合各々のデータ数のうちの1つを前記分割データ数として決定する
    ことを特徴とする分割クラスタリング装置。
  2. データベースに格納されているデータの集合の一部分をサンプルデータとして抽出するサンプル抽出手段と、
    前記サンプル抽出手段によって抽出されたサンプルデータのクラスタリングを行うサンプルクラスタリング手段と、
    前記サンプルクラスタリング手段によるクラスタリング結果を評価する評価手段と、
    前記評価手段の評価結果をもとに、前記データベースに格納されているデータの集合を分割してクラスタリングするのに必要な分割データ数を決定する分割データ数決定手段と、
    前記分割データ数決定手段によって決定された分割データ数で、前記データベースに格納されているデータの集合を分割するデータ分割手段と、
    前記データ分割手段によって分割されたデータの集合毎にクラスタリングを実行するクラスタリング実行手段と
    を具備し、
    前記サンプル抽出手段は、前記データベースに格納されているデータの集合から、データ数が異なる複数の部分集合を、前記データの集合の前記一部分をなす前記サンプルデータとして抽出し、
    前記サンプルクラスタリング手段は、前記サンプル抽出手段によって抽出された前記複数の部分集合各々のクラスタリングを行い、
    前記評価手段は、前記サンプルクラスタリング手段によるクラスタリングによって前記複数の部分集合毎に作成されるクラスタ毎に当該クラスタのまとまりの程度を表す有効度を算出し、
    前記分割データ数決定手段は、前記評価手段によって算出された前記複数の部分集合毎で且つ前記クラスタ毎の有効度の平均値をもとに、当該複数の部分集合各々のデータ数のうちの1つを前記分割データ数として決定する
    ことを特徴とする分割クラスタリング装置。
  3. サンプル抽出手段と、サンプルクラスタリング手段と、評価手段と、分割データ数決定手段とを備え、データベースに格納されているデータの集合を分割してクラスタリングする分割クラスタリング装置において、前記データの集合を分割してクラスタリングするのに必要な分割データ数を決定する分割データ数決定方法であって、
    前記データの集合を分割してクラスタリングする前に、前記サンプル抽出手段が、前記データの集合から、データ数が異なる複数の部分集合を、前記データの集合の一部分をなすサンプルデータとして抽出するステップと、
    前記サンプルクラスタリング手段が、前記抽出された前記複数の部分集合各々のクラスタリングを行うステップと、
    前記評価手段が、前記抽出された前記複数の部分集合各々のクラスタリング結果を評価して、前記複数の部分集合各々のクラスタリング毎に、当該クラスタリングで分類不能となったデータの数を表す分類不能データ数を取得するステップと、
    前記分割データ数決定手段が、前記抽出された前記複数の部分集合各々のクラスタリング毎の前記取得された分類不能データ数をもとに、当該複数の部分集合各々のデータ数のうちの1つを、前記データの集合を分割してクラスタリングするのに必要な分割データ数として決定するステップと
    を具備することを特徴とする分割データ数決定方法。
  4. サンプル抽出手段と、サンプルクラスタリング手段と、評価手段と、分割データ数決定手段とを備え、データベースに格納されているデータの集合を分割してクラスタリングする分割クラスタリング装置において、前記データの集合を分割してクラスタリングするのに必要な分割データ数を決定する分割データ数決定方法であって、
    前記データの集合を分割してクラスタリングする前に、前記サンプル抽出手段が、前記データの集合から、データ数が異なる複数の部分集合を、前記データの集合の一部分をなすサンプルデータとして抽出するステップと、
    前記サンプルクラスタリング手段が、前記抽出された前記複数の部分集合各々のクラスタリングを行うステップと、
    前記評価手段が、前記抽出された前記複数の部分集合各々のクラスタリング結果を評価して、前記複数の部分集合毎に作成されるクラスタ毎に、当該クラスタのまとまりの程度を表す有効度を算出するステップと、
    前記分割データ数決定手段が、前記複数の部分集合毎で且つ前記クラスタ毎の前記算出された有効度の平均値をもとに、当該複数の部分集合各々のデータ数のうちの1つを、前記データベースに格納されているデータの集合を分割してクラスタリングするのに必要な分割データ数として決定するステップと
    を具備することを特徴とする分割データ数決定方法。
JP2004084711A 2004-03-23 2004-03-23 分割クラスタリング装置及び分割データ数決定方法 Expired - Fee Related JP4041081B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004084711A JP4041081B2 (ja) 2004-03-23 2004-03-23 分割クラスタリング装置及び分割データ数決定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004084711A JP4041081B2 (ja) 2004-03-23 2004-03-23 分割クラスタリング装置及び分割データ数決定方法

Publications (2)

Publication Number Publication Date
JP2005275556A JP2005275556A (ja) 2005-10-06
JP4041081B2 true JP4041081B2 (ja) 2008-01-30

Family

ID=35175199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004084711A Expired - Fee Related JP4041081B2 (ja) 2004-03-23 2004-03-23 分割クラスタリング装置及び分割データ数決定方法

Country Status (1)

Country Link
JP (1) JP4041081B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241745A (zh) * 2018-01-08 2018-07-03 阿里巴巴集团控股有限公司 样本集的处理方法及装置、样本的查询方法及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4531733B2 (ja) 2006-09-14 2010-08-25 シャープ株式会社 薄型画像表示装置の装飾品固定構造
EP2063370A1 (en) * 2006-09-14 2009-05-27 Olympus Corporation Sample data reliability evaluation method and sample data reliability evaluation device
JP5391637B2 (ja) * 2008-10-10 2014-01-15 日本電気株式会社 データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム
JP5209438B2 (ja) * 2008-10-29 2013-06-12 株式会社東芝 文書処理装置
JP5410741B2 (ja) * 2008-12-03 2014-02-05 パナソニックヘルスケア株式会社 データ処理システム及びデータ処理プログラム
WO2010125781A1 (ja) * 2009-04-27 2010-11-04 パナソニック株式会社 データ処理装置、データ処理方法、プログラム、及び集積回路
JP7068106B2 (ja) * 2018-08-28 2022-05-16 株式会社日立製作所 試験計画策定支援装置、試験計画策定支援方法及びプログラム
CN109471717B (zh) * 2018-10-11 2024-06-18 平安科技(深圳)有限公司 样本库拆分方法、装置、计算机设备及存储介质
JP7392411B2 (ja) * 2018-11-16 2023-12-06 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241745A (zh) * 2018-01-08 2018-07-03 阿里巴巴集团控股有限公司 样本集的处理方法及装置、样本的查询方法及装置
CN108241745B (zh) * 2018-01-08 2020-04-28 阿里巴巴集团控股有限公司 样本集的处理方法及装置、样本的查询方法及装置

Also Published As

Publication number Publication date
JP2005275556A (ja) 2005-10-06

Similar Documents

Publication Publication Date Title
JP4011906B2 (ja) プロファイル情報の情報検索方法、プログラム、記録媒体及び装置
JP4545641B2 (ja) 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体
JP5521881B2 (ja) 画像識別情報付与プログラム及び画像識別情報付与装置
JP2002014816A (ja) 判別式で決定木を生成し、それをデータ分類に使用するための方法および装置
JP2009093655A (ja) 単語親和度による単語クラスタの識別
JP2003167914A (ja) マルチメディア情報検索方法、プログラム、記録媒体及びシステム
US20150039538A1 (en) Method for processing a large-scale data set, and associated apparatus
WO2002015122A2 (en) A system and method for a greedy pairwise clustering
JP2002109536A (ja) データクラスタリング方法とアプリケーション
JPWO2019102533A1 (ja) 文献分類装置
JP4041081B2 (ja) 分割クラスタリング装置及び分割データ数決定方法
JP4374902B2 (ja) 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
JP2019067191A (ja) 情報処理装置、情報処理方法およびプログラム
JP5014479B2 (ja) 画像検索装置、画像検索方法及びプログラム
CN111797267A (zh) 一种医学图像检索方法及系统、电子设备、存储介质
JP2023015340A (ja) ノード情報推定方法、ノード情報推定プログラムおよび情報処理装置
KR101710010B1 (ko) 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
JP3773888B2 (ja) データ検索システム、データ検索方法、コンピュータに対してデータ検索を実行させるためのプログラム、該プログラムを記憶したコンピュータ可読な記憶媒体、検索されたドキュメントを表示するためのグラフィカル・ユーザ・インタフェイス・システム、グラフィカル・ユーザ・インタフェイスを実現するためのコンピュータ実行可能なプログラムおよび該プログラムを記憶した記憶媒体
JP2004086262A (ja) 視覚的情報分類方法、視覚的情報分類装置、視覚的情報分類プログラムおよびそのプログラムを記録した記録媒体
US20130262470A1 (en) Data structure, index creation device, data search device, index creation method, data search method, and computer-readable recording medium
JP2006251975A (ja) テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JP2004046612A (ja) データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体
JP2005122509A (ja) 階層構造データ分析方法、分析装置および分析プログラム
JP4324123B2 (ja) モデルデータ表示プログラム、モデルデータ表示装置およびモデルデータ表示方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131116

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees