JP5522044B2

JP5522044B2 - クラスタリング装置、パターン判定方法、およびプログラム

Info

Publication number: JP5522044B2
Application number: JP2010523794A
Authority: JP
Inventors: 誠司吉本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-08-08
Filing date: 2009-05-29
Publication date: 2014-06-18
Anticipated expiration: 2029-05-29
Also published as: US20110131169A1; JPWO2010016313A1; US8560488B2; WO2010016313A1

Description

本発明は、パターン間の類似度を判定する技術に関する。

パターン間の類似度に基づいてパターンを分類するクラスタリングという技術がある。このクラスタリングは、画像認識、音声認識、スペクトルパターンの分類、データマイニングなど幅広い分野に応用される技術である。これらの応用分野では、必ずしも、容易に比較できるようなパターンが入力されるとは限らない。例えば、パターンの次元が高く、また入力されるパターンの一部が欠けている場合や、データに外れ値が含まれる場合が多い。そのためクラスタリングでは、データ欠損や外れ値に対してロバスト性を高め、また高次元のパターンにも対応できるようにすることが求められる。

上述したように、クラスタリングにおけるひとつの課題はデータ欠損や外れ値などのノイズである。良好なクラスタリングを行うために、通常、前処理として入力パターンに対してノイズ除去が施される。しかし、比較すべき特徴の一部のデータが欠けている場合や、データに外れ値が含まれている場合、それらのノイズを除去することは容易では無い。

例えば、指紋分類では、比較すべき部分に対応する特徴量が必ずしも検出できるとは限らない。そのような場合には一部の特徴量が欠損した状態でパターンの分類を行うことが必要となる。また、画像認識においてオクルージョンがあれば、本来比較すべき対象ではない部分画像が混入した画像パターンを比較に用いなければならなくなる。また、音声認識において、突発的な短時間ノイズが重畳された音声パターンを比較に用いなければならない場合がある。

ノイズを含むパターンに対するクラスタリングのロバスト性を高める方法の１つとして、順序尺度を使うというアプローチがある。特許文献１には、順序尺度を使うことによって照明強度の変化などに対するロバスト性を高める方法が記載されている。また、特許文献２には、同じカテゴリー間の類似度として距離の逆数を用いる投票法によって、外れ値に対処する方法が示されている。

クラスタリングにおけるもうひとつの課題は、パターンの次元が高くなるに従ってパターンの識別精度が低下するということである。この原因は、高次元空間における球面集中現象によって近傍判定が不安定になることである。これは「次元の呪い」として知られている（非特許文献１参照）。

この問題を回避する１つの方法は、次元を削減することである。次元を削減する手法としては主成分分析や多次元尺度法などがよく使われるが、それらの他にも数多くの次元削減手法が提案されている。非特許文献２には効率的に次元を削減するための代表的な方法が解説されている。

しかしながら、次元を削減する際に、必ずしもパターンの識別に適した特徴が選ばれるとは限らない。そのため、パターンの類似度あるいは非類似度を変えることによってクラスタリング性能の向上を図る方法も提案されている。

非特許文献３には、Ｄ次元空間における距離尺度として、Ｌ_２ノルムの代わりにＬ_１／ｋノルム（ｋは２以上の整数）を用いることによって、近傍判定精度が改善することが示されている。また、非特許文献３には、このＬ_１／ｋノルムを用いることによってノイズに対するロバスト性も向上することが報告されている。

特開２００６−３９６５８号公報特開２００４−３４１９３０号公報

Ｋ．Ｓ．Ｂｅｙｅｒ，Ｊ．Ｇｏｌｄｓｔｅｉｎ，Ｒ．Ｒａｍａｋｒｉｓｈｎａｎ，Ｕ．Ｓｈａｆｔ：ＷｈｅｎＩｓ "ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ" Ｍｅａｎｉｎｇｆｕｌ？，ｉｎＰｒｏｃｅｅｄｉｎｇｏｆｔｈｅ７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａｂａｓｅＴｈｅｏｒｙ，ＬｅｃｔｕｒｅＮｏｔｅｓＩｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ｖｏｌ．１５４０，ｐｐ．２１７−２３５，Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，Ｌｏｎｄｏｎ，１９９９．神嶌：データマイニング分野のクラスタリング手法（２）−大規模データへの挑戦と次元の呪いの克服−，人工知能学会誌，１８，Ｎｏ．２，ｐｐ．１７０−１７６，２００３．Ｃ．Ｃ．Ａｇｇａｒｗａｌ，Ａ．Ｈｉｎｎｅｂｕｒｇ，Ｄ．Ａ．Ｋｅｉｍ：ＯｎｔｈｅＳｕｒｐｒｉｓｉｎｇＢｅｈａｖｉｏｒｏｆＤｉｓｔａｎｃｅＭｅｔｒｉｃｓｉｎＨｉｇｈＤｉｍｅｎｓｉｏｎａｌＳｐａｃｅ，ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｖｏｌ．１９７３，Ｓｐｒｉｎｇｅｒ，２００１．

特許文献１の方法は、非類似度を順序尺度に変換することにより照明強度の変化などに対するロバスト性を得ている。しかし、外れ値を含む高次元パターンでは、球面集中現象によって距離の大小関係による順序関係が不安定になるため、この方法は高次元パターンに適さない。

特許文献２に示されている方法は、距離の逆数を用いることによって、あらかじめ外れ値を含むデータを検出しておくアプローチである。この方法は、学習パターンのカテゴリーが予め与えられている、教師あり学習に適用される方法である。しかしながら、距離の逆数は同一カテゴリーに属するパターンを比較するための評価基準としては使えるが、異なるカテゴリーに属するパターンの比較には使えない。そのため、この方法は、クラスタリングのような教師なし学習には適用できない。

非特許文献３に示されている方法では、Ｄ次元パターンＸ^（１）＝（ｘ^（１） _１，・・・，ｘ^（１） _Ｄ）と、Ｘ^（２）＝（ｘ^（２） _１，・・・，ｘ^（２） _Ｄ）との距離として、Ｌ_２ノルム

の代わりに、Ｌ_１／ｋノルム（ｋは２以上の整数）

を用いている。そのことにより、高次元パターンの近傍判定精度およびノイズに対するロバスト性を改善する方法が示されている。

外れ値に対するロバスト性を高めるためによく使われるのは、Ｌ_１ノルムを用いる方法であるが、一般にＬ_αノルム（αは正の実数）ではαが小さいほどロバスト性が高くなる。これは、αが小さくなるに従って距離が大きいデータの寄与が小さくなり、外れ値の影響が相対的に小さくなるという性質のためである。

この性質は、Ｌ_１／ｋノルムによって高次元における近傍判定精度が改善する理由でもあると考えられる。

Ｌ_２ノルムの近傍判定が不安定になる原因は、Ｄ次元パターンの各成分のうち、距離が小さい成分の寄与が、距離が大きい成分の寄与に比べてはるかに小さくなることである。このため、距離が小さい成分の寄与よりも、外れ値のような距離が大きい成分の微小変化の影響の方が大きくなり、近傍判定の不安定性を引き起こしている。次元Ｄが大きくなると距離が大きい成分が現れる確率が高くなる。そのため、高次元パターンでは近傍判定の不安定性が生じる確率が高くなる。

Ｌ_１／ｋノルムによって近傍判定の精度が改善する理由は、距離が大きい成分のノルムへの寄与を低減しているためであると考えられる。

しかしながら、この方法は欠損値を含むパターンのクラスタリングには適さないという問題がある。この方法で同じカテゴリーに属するＤ次元パターンＸ^（１）＝（ｘ^（１） _１，・・・，ｘ^（１） _Ｄ）とＸ^（２）＝（ｘ^（２） _１，・・・，ｘ^（２） _Ｄ）の距離ｄ_１／ｋ ^（Ｄ）（Ｘ^（１），Ｘ^（２））と、これらの成分のうちｄ個の成分を欠損値として除いたＤ−ｄ次元パターンＸ^（１）’とＸ^（２）’の距離ｄ_１／ｋ ^{（Ｄ−ｄ）}（Ｘ^（１）’，Ｘ^（２）’）と、を比較すると、ｄ_１／ｋ ^{（Ｄ−ｄ）}（Ｘ^（１）’，Ｘ^（２）’）≦ｄ_１／ｋ ^（Ｄ）（Ｘ^（１），Ｘ^（２））となる。つまり、データ欠損がある場合のほうが距離が小さくなる。

欠損値が含まれるデータにも適用可能な距離尺度あるいは非類似度であるためには、距離尺度あるいは非類似度は、欠損値を含まないデータよりも、欠損値を含むデータの方が類似度が小さいと判定されるものであることが望ましい。しかしながら、この評価基準では、欠損値を含むデータの方が、欠損値を含まないデータよりも類似度が高いと判定されてしまう。

上述のように、パターン間の類似度の判定においては、良好なクラスタリングの結果を得ることを阻害する様々な課題がある。そのため、より良好にパターン間の類似度を判定する技術が求められている。

本発明の目的は、パターン間の類似度を良好に判定する技術を提供することである。

上記目的を達成するため本発明の一態様によるクラスタリング装置は、
入力パターンが格納される外部記憶装置と、
計算機と、
前記計算機の処理結果を表示する表示装置と、
を有し、
前記計算機は、
前記外部記憶装置から処理対象となる入力パターンを取得する入力手段と、
前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンＸ（１）の前記所定成分の値とパターンＸ（２）の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
前記確率算出手段によって算出された前記内部確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を決定する非類似度決定手段と、を有する。

本発明の一態様によるパターン判定方法は、
コンピュータが、
外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得し、
入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンＸ（１）の前記所定成分の値とパターンＸ（２）の前記所定成分の値の間の範囲に入る確率である内部確率を算出し、
算出した前記内部確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を決定する、方法である。

本発明の一態様によるプログラムは、
コンピュータに実行させるためのパターン判定プログラムであって、
前記コンピュータを、
外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得する入力手段と、
前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンＸ（１）の前記所定成分の値とパターンＸ（２）の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
前記確率算出手段によって算出された前記内部確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を決定する非類似度決定手段と、として機能させるためのパターン判定プログラムである。

図１は、第１の実施形態によるパターン判定装置の構成を示すブロック図である。第２の実施形態によるクラスタリング装置の構成を示すブロック図である。第２の実施形態によるクラスタリング装置の動作を示すフローチャートである。本実施例によるクラスタリング装置の構成を示すブロック図である。

本発明を実施形態について図面を参照して詳細に説明する。

（第１の実施形態）
第１の実施形態では、パターン間の非類似度を算出するパターン判定装置を例示する。算出された非類似度を用いて、複数のパターンに対するクラスタリングが行われる。クラスタリングを行う装置には上記パターン判定装置が包含される。

図１は、第１の実施形態によるパターン判定装置の構成を示すブロック図である。図１を参照すると、パターン判定装置１１は確率算出部１１Ａおよび非類似度決定部１１Ｂを有している。

確率算出部１１Ａは、入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンＸ^（１）の所定成分の値とパターンＸ^（２）の所定成分の値の間の範囲に入る確率である内部確率を算出する。

その際、確率算出部１１Ａは、定義域内におけるパターンの所定成分の値が発生する確率密度分布に従って仮想的にパターンＸ^（３）を発生させ、そのパターンＸ^（３）の所定成分の値が、パターンＸ^（１）の所定成分の値とパターンＸ^（２）の所定成分の値の間の範囲に入っているか否か判定し、複数の判定結果から内部確率を算出する。

また、パターンＸ^（１）、Ｘ^（２）、Ｘ^（３）は複数次元のパターンであり、確率算出部１１Ａは、複数の成分のそれぞれについて内部確率を算出する。

非類似度決定部１１Ｂは、確率算出部１１Ａによって算出された内部確率を基にして、パターンＸ^（１）とパターンＸ^（２）との非類似度を決定する。その際、非類似決定部１１Ｂは、例えば、各成分に対応する複数の内部確率の対数の和を非類似度としてもよく、あるいは複数の内部確率の積を非類似度としてもよい。

なお、確率算出部１１Ａは、パターンＸ^（１）またはパターンＸ^（２）のある成分が欠損値である場合、その成分の内部確率を所定値１としてもよい。また、確率算出部１１Ａは、確率密度分布として一様乱数を用いてもよい。

パターンＸ^（１）、Ｘ^（２）がＤ次元であるとすると、パターンＸ^（１）＝（ｘ^（１） _１，・・・，ｘ^（１） _Ｄ）、Ｘ^（２）＝（ｘ^（２） _１，・・・，ｘ^（２） _Ｄ）と表すことができる。また、確率密度分布はｑ_１（ｘ_１），・・・，ｑ_ｄ（ｘ_Ｄ）と表すことができる。

仮想的に発生させたパターンＸ^（３）＝（ｘ^（３） _１，・・・，ｘ^（３） _Ｄ）と表すと、パターンＸ^（３）の各成分がｘ^（１） _ｉ≦ｘ^（３） _ｉ≦ｘ^（２） _ｉ：ｉ＝１，・・・，Ｄの範囲内に入る確率ｐ（ｘ^（１） _ｉ，ｘ^（２） _ｉ）が内部確率である。そして、例えば、各成分の内部確率の対数の和を非類似度とする場合、非類似度Ｅ^（Ｄ）（Ｘ^（１），Ｘ^（２））＝Σ_ｉ＝１ ^Ｄｌｎｐ（ｘ^（１） _ｉ，ｘ^（２） _ｉ）となる。また、ｘ^（１） _ｉまたはｘ^（２） _ｉが欠損値の場合は、確率ｐ（ｘ^（１） _ｉ，ｘ^（２） _ｉ）は所定値１とされる。

以下、さらに詳細に説明する。

本実施形態では、２つのＤ次元パターンＸ^（１）とＸ^（２）に対して、確率密度分布ｑ_ｉ（ｘ）：ｉ＝１，・・・，Ｄに従って仮想的に発生させたパターンＸ^（３）＝（ｘ^（３） _１，・・・，ｘ^（３） _Ｄ）の各成分ｘ^（３） _ｉがｘ^（１） _ｉ≦ｘ^（３） _ｉ≦ｘ^（２） _ｉの範囲に入る確率Ｐ（Ｘ^（１），Ｘ^（２））を計算し、この確率に基づいてＸ^（１）とＸ^（２）の非類似度を定義する。ｘ^（３） _ｉがｘ^（１） _ｉ≦ｘ^（３） _ｉ≦ｘ^（２） _ｉとなる確率ｐ（ｘ^（１） _ｉ，ｘ^（２） _ｉ）は

によって算出される。この計算結果から、Ｘ^（３）の全ての成分がＸ^（１）とＸ^（２）の対応する成分の値の間に入る確率Ｐ（Ｘ^（１），Ｘ^（２））は

で与えられる。Ｘ^（１）とＸ^（２）の非類似度Ｅ^（Ｄ）（Ｘ^（１），Ｘ^（２））は、Ｐ（Ｘ^（１），Ｘ^（２））の対数

によって定義される。ここで、Ｅ_ｉ（Ｘ^（１），Ｘ^（２））はｉ番目の成分の非類似度への寄与

を表す。

式（４）により、入力データの定義域内にランダムに与えたデータが、偶然Ｘ^（１）とＸ^（２）の間に入る確率が得られる。この確率が小さいほどＸ^（１）とＸ^（２）の間の相違が小さい、すなわちＸ^（１）とＸ^（２）が類似していると考えられる。逆に式（４）で得られる確率が大きければ、Ｘ^（１）とＸ^（２）の類似度は小さいと考えられる。そこで、本実施形態では、式（４）の確率の対数（式（５））を２つのパターンＸ^（１）、Ｘ^（２）の非類似度としてクラスタリングに用いる。また、ここでは、非類似度として式（４）によって定義される確率の対数（式（５））を用いる例で説明したが、式（４）の確率を非類似度として用いてもかまわない。

本実施形態によれば、パターン間の類似度を良好に判定することが可能となる。また、それによりクラスタリングにおいて、欠損値や外れ値に対してロバストとなり、また高次元パターンにも対応可能となる。

以下、本実施形態によればクラスタリングが欠損値や外れ値に対してロバストとなり、また高次元パターンにも対応可能となることについて説明する。

まず第１に、本実施形態によれば、欠損値を含むデータに対して、良好なクラスタリングを行うことができる。

本実施形態の方法では、非類似度に対する各成分の寄与（式（６））は常に０または負の値をとる。すなわち

となる。また、欠損した成分の確率を１とすることにより、欠損した成分の非類似度（式（５））への寄与は０になる。従って、欠損値を含まない２つのＤ次元パターンＸ^（１）とＸ^（２）の非類似度Ｅ^（Ｄ）（Ｘ^（１），Ｘ^（２））は、Ｘ^（１）とＸ^（２）からｄ個の成分を欠損値として除いた（Ｄ−ｄ）次元パターンＸ^（１）’とＸ^（２）’の非類似度Ｅ^{（Ｄ−ｄ）}（Ｘ^（１）’，Ｘ^（２）’）より常に小さくなる。従って、本実施形態によれば、非類似度はデータ欠損がある場合の方がデータ欠損が無い場合よりも類似度が小さくなる。すなわち、Ｅ^{（Ｄ−ｄ）}（Ｘ^（１）’，Ｘ^（２）’）≧Ｅ^（Ｄ）（Ｘ^（１），Ｘ^（２））という所望の性質が得られる。

この性質によって、例えば指紋分類のように一部の特徴量が欠損した状態でパターンの分類を行う場合でも、データ欠損がない方が類似しているというような正しい判定が可能となる。

第２に、本実施形態によれば、外れ値に対してロバストなクラスタリングが可能となる。

本実施形態の非類似度（式（５））は、２つのパターンの類似度が高いほど小さい値をとる。この点では、本実施形態は、非特許文献３のＬ_１／ｋノルムｄ_１／ｋ（Ｘ^（１），Ｘ^（２））を用いるものと同じである。しかし、Ｌ_１／ｋノルムが非負の値をとるのに対して、本実施形態の非類似度Ｅ^（Ｄ）（Ｘ^（１），Ｘ^（２））は非正の値をとるという点で、本実施形態は非特許文献３のものと相違する。

Ｌ_１／ｋは、値が遠い成分に対してペナルティを課すことによって２つのパターンの類似度を評価している。それに対して、本実施形態の非類似度は、値が近い成分に対して加点することによって類似度を評価している。従って、Ｌ_１／ｋノルム（式（２））では、全ての成分の中で外れ値の寄与が最も大きくなるのに対して、本実施形態の非類似度（式（５））では、式（３）および式（６）により、全ての成分の中で外れ値の成分が寄与が最も小さくなる。この性質から、本実施形態の非類似度を用いることによって外れ値の影響が小さいクラスタリングが実現できる。

この性質によって、例えばオクルージョンがある場合の画像認識においても、本来比較すべき対象ではないオクルージョン部分の寄与を小さくすることが可能となる。

第３に、本実施形態によれば、高次元パターンに対して良好なクラスタリングが可能となる。

高次元における近傍判定精度の低下は、距離が小さい成分の類似度評価に対する寄与が、距離が大きい成分の寄与よりはるかに小さいことに起因する。本実施形態の非類似度（式（５））では、距離が小さい成分ほど非類似度への寄与が大きくなるため、球面集中現象による近傍判定の不安定性を回避できる。

従って、本実施形態の非類似度を用いることにより、例えばスペクトルパターンのような高次元パターンのクラスタリングも可能である。

（第２の実施形態）
第２の実施形態では、非類似度を算出し、それを基にクラスタリングを行うクラスタリング装置を例示する。非類似度を用いたクラスタリングの方法は特に限定されるものではないが、ここでは一例として、与えられたデータから最短距離法を用いてクラスターツリーを作成し、クラスターツリーを出力する実施形態を示す。

図２は、第２の実施形態によるクラスタリング装置の構成を示すブロック図である。図２を参照すると、クラスタリング装置２１は、パターン入力部２１Ａ、クラスターツリー作成部２１Ｂ、および非類似度計算部２１Ｃを有している。

パターン入力部２１Ａは、例えばＤ次元入力データが格納されたファイルから入力データがなくなるまで入力データを読み込み、クラスターツリー作成部２１Ｂに引き渡す。

クラスターツリー作成部２１Ｂは、パターン入力部２１Ａから得た入力データから初期クラスターを作成し、非類似度計算部２１Ｃを用いてクラスター間の非類似度を設定する。初期クラスターは、クラスターツリーを作成する初期段階において設定するクラスターである。初期クラスターは、例えば個々の入力データそのものであってもよい。次に、クラスターツリー作成部２１Ｂは、最近傍法によってクラスター対を順次マージすることによりクラスターツリーを作成する。そして、クラスターツリー作成部２１Ｂは、得られたクラスターツリーを出力する。

非類似度計算部２１Ｃは、クラスターツリー作成部２１Ｂから渡されたデータ対（Ｘ^（ｍ），Ｘ^（ｎ））から、それらの非類似度Ｅ_Ｄ（Ｘ^（ｍ），Ｘ^（ｎ））を、式(５)に従って計算する。この非類似度計算部２１Ｃは、第１の実施形態に示したパターン判定装置１１に相当する機能を備えている。

図３は、第２の実施形態によるクラスタリング装置の動作を示すフローチャートである。図３を参照すると、パターン入力部２１Ａは、Ｄ次元入力データを１つずつ読み込み、クラスターツリー作成部２１Ｂに引き渡す（ステップ１０１）。クラスターツリー作成部２１Ｂは、読み込まれた入力データＸ^（ｎ）：ｎ＝１，・・・，Ｎに対して、１つのクラスターＣ^（ｎ）を作成する（ステップ１０２）。そして、ステップ１０１〜１０２の処理が、Ｎ個の入力データが無くなるまで繰り返される（ステップ１０３）。ここで、ｊ個のデータ（Ｘ^（ｎ _１ ^），・・・，Ｘ^（ｎ _ｊ ^））を含むクラスターをＣ^（ｎ _１ ^{，・・・，ｎ} _ｊ ^）と表記することにする。

データ入力が終了すると、クラスターツリー作成部２１Ｂは、_ＮＣ_２組のクラスター対（Ｃ^（ｍ），Ｃ^（ｎ））：１≦ｍ＜ｎ≦Ｎを、順次、非類似度計算部２１Ｃに引き渡す。非類似度計算部２１Ｃは、クラスターツリー作成部２１Ｂから渡されたクラスター対（Ｃ^（ｍ），Ｃ^（ｎ））の間の非類似度Ｆ（Ｃ^（ｍ _１ ^{，・・・，ｍ} _ｉ ^），Ｃ^（ｎ _１ ^{，・・・，ｎ} _ｊ ^））を計算し、クラスターツリー作成部２１Ｂに非類似度の値を返す（ステップ１０４）。この非類似度の計算は、全てのデータ対について順次行われる（ステップ１０５）。

ここでは、一例としてクラスター間の非類似度の計算に最短距離法を使うものとする。最短距離法では、クラスター対の非類似度が

によって計算される。その際、各データ間の非類似度Ｅ^（Ｄ）（Ｘ，Ｙ）は式（５）によって計算される。

次に、クラスターツリー作成部２１Ｂは、クラスターの集合から非類似度が最も小さいクラスター対を選び出し、それらのクラスターを１つのクラスターにマージする（ステップ１０６）。
ここで、非類似度は式（５）によって算出したものであるので、非類似度が最も小さいクラスター対を選択する際に、データ欠損や外れ値に対してロバストな選択結果が得られる。また、高次元パターンにおける近傍判定の不安定性も回避できる。

クラスターツリー作成部２１Ｂは、新たなクラスター集合の各クラスター間の非類似度を非類似度計算部２１Ｃによって再計算し、非類似度が最も小さいクラスター対を選び出してマージするという操作をクラスター数が１になるまで繰り返す（ステップ１０７）。クラスター数が１になると、最後に、クラスターツリー作成部２１Ｂは得られたクラスターツリーを出力して処理を終了する。

（第３の実施形態）
第２の実施形態では、式（５）によって得られる値を非類似度として用いたが、第３の実施形態では、式（４）によって得られる値を非類似度として用いる。この点で第３の実施形態は第２の実施形態と異なる。本実施形態においても、第１の実施形態と同様に、欠損値や外れ値に対してロバストで、また高次元パターンにも対応したクラスタリングが可能である。

（第４の実施形態）
第４の実施形態は第２あるいは第３の実施形態の変形であり、式（６）のｘ^（１） _ｉまたはｘ^（２） _ｉが欠損値の場合に、

すなわち

とするという点で、第２あるいは第３の実施形態と異なる。本実施形態においても、第２の実施形態と同様に、欠損値や外れ値に対してロバストで、また高次元パターンにも対応したクラスタリングが可能である。

（第５の実施形態）
第５の実施形態は第２〜４の実施形態の変形であり、式（３）によってｐ（ｘ^（１） _ｉ，ｘ^（２） _ｉ）を計算するときに用いる確率密度分布ｑ_ｉ（ｘ）がｘ_ｉの定義域上の一様分布である。本実施形態においても、第２〜４の実施形態と同様に、欠損値や外れ値に対してロバストで、また高次元パターンにも対応したクラスタリングが可能である。

（第１の実施例）
次に、上述した実施形態について具体的な実施例を用いて更に説明する。第１の実施例は第２の実施形態に対応している。

本実施例では、Ｄ次元ベクトルとして与えられたＮ個のデータのクラスターツリーを作成する場合を例示する。クラスター間の非類似度の計算には、例えば最短距離法や最長距離法のように距離尺度を使う方法を適用できる。本実施例では最短距離法を用いた例を示す。また、本実施例では計算機によってクラスタリング装置を構成する例を示す。

図４は、本実施例によるクラスタリング装置の構成を示すブロック図である。図４を参照すると、クラスタリング装置は計算機３２で構成されており、計算機３２は、入力装置３２Ａ、クラスターツリー作成装置３２Ｂ、および非類似度計算装置３２Ｃを有している。

入力装置３２Ａは図２のパターン入力部２１Ａに相当する。入力装置３２Ａは、外部記憶装置１０から入力データを読み込んでクラスターツリー作成装置３２Ｂに引き渡す。

クラスターツリー作成装置３２Ｂは図２のクラスターツリー作成部２１Ｂに相当する。クラスターツリー作成装置３２Ｂは、入力装置Ａから得た入力データから初期クラスターを作成し、非類似度計算装置３２Ｃを用いてクラスター間の非類似度を設定し、非類似度に基づいてクラスターをマージすることによりクラスターツリーを作成する。そして、クラスターツリー作成装置３２Ｂは、作成したクラスターツリーを表示装置３３に表示する。

非類似度計算装置３２Ｃは、図２の非類似度計算部２１Ｃに相当する。非類似度計算装置３２Ｃは、クラスターツリー作成装置３２Ｂから渡されたデータ対から、それらの非類似度を計算する。

以下、計算機３２の一連の動作について説明する。

計算機３２は、外部記憶装置３１にＤ次元ベクトルとして格納されているＮ個のデータを入力装置３２Ａによってクラスターツリー作成装置３２Ｂに読み込む。クラスターツリー作成装置３２ＢはＮ個の各データＸ^（ｎ）：ｎ＝１，・・・，Ｎに対して１つずつクラスターＣ^（ｎ）を作成する。

次に、クラスターツリー作成装置３２Ｂは、クラスターの集合からクラスター間の非類似度Ｆ（Ｃ^（ｍ _１ ^{，・・・，ｍ} _ｉ ^），Ｃ^（ｎ _１ ^{，・・・，ｎ} _ｊ ^））が最も小さいクラスター対Ｃ^（ｍ _１ ^{，・・・，ｍ} _ｉ ^）とＣ^（ｎ _１ ^{，・・・，ｎ} _ｊ ^）をマージして、新たなクラスターＣ^（ｍ _１ ^{，・・・，ｍ} _ｉ ^，ｎ _１ ^{，・・・，ｎ} _ｊ ^）を作成する。クラスターツリー作成装置３２Ｂは、このマージ操作をクラスター数が１になるまで繰り返す。最後に、クラスターツリー作成装置３２Ｂは、得られたクラスターツリーを表示装置３３に出力して処理を終了する。

（第２の実施例）
第２の実施例は第３の実施形態に対応している。第１の実施例では、式（５）によって得られる値を非類似度として用いたが、第２の実施例では、式（４）によって得られる値を非類似度として用いる。この点で第２の実施例は第１の実施例と異なる。

（第３の実施例）
第３の実施形態は第１あるいは第２の実施例の変形であり、式（６）のｘ^（１） _ｉまたはｘ^（２） _ｉが欠損値の場合に、

すなわち

とするという点で、第１あるいは第２の実施例と異なる。

（第４の実施例）
第４の実施例は第１〜３の実施例の変形であり、式（３）によってｐ（ｘ^（１） _ｉ，ｘ^（２） _ｉ）を計算するときに用いる確率密度分布ｑ_ｉ（ｘ）がｘ_ｉの定義域上の一様分布である。

以上、本発明の実施形態について述べてきたが、本発明は、これらの実施形態だけに限定されるものではなく、本発明の技術思想の範囲内において、これらの実施形態を組み合わせて使用したり、一部の構成を変更したりしてもよい。

この出願は、２００８年８月８日に出願された日本出願特願２００８−２０５４５６を基礎として優先権の利益を主張するものであり、その開示の全てを引用によってここに取り込む。

Claims

入力パターンが格納される外部記憶装置と、
計算機と、
前記計算機の処理結果を表示する表示装置と、
を有し、
前記計算機は、
前記外部記憶装置から処理対象となる入力パターンを取得する入力手段と、
前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンＸ（１）の前記所定成分の値とパターンＸ（２）の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
前記確率算出手段によって算出された前記内部確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を決定する非類似度決定手段と、を有するクラスタリング装置。
前記確率算出手段は、前記定義域内におけるパターンの前記所定成分の値が発生する確率の分布を示す確率密度分布に従って仮想的にパターンＸ（３）を発生させ、該パターンＸ（３）の前記所定成分の値が、前記パターンＸ（１）の前記所定成分の値と前記パターンＸ（２）の前記所定成分の値の間の範囲に入っているか否か判定し、複数の判定結果から前記内部確率を算出する、請求項１に記載のクラスタリング装置。
前記確率算出手段は、複数の前記所定成分について内部確率を算出し、
前記非類似決定手段は、複数の前記内部確率の対数の和を前記非類似度とする、請求項１または２に記載のクラスタリング装置。
前記確率算出手段は、複数の前記所定成分について内部確率を算出し、
前記非類似決定手段は、複数の前記内部確率の積を前記非類似度とする、請求項１または２に記載のクラスタリング装置。
前記確率算出手段は、前記パターンＸ（１）または前記パターンＸ（２）のある成分が欠損値である場合、該成分の内部確率を所定値とする、請求項１から４のいずれか１項に記載のクラスタリング装置。
前記確率算出手段は前記所定値を１とする、請求項５に記載のクラスタリング装置。
前記確率算出手段は、前記確率密度分布として一様乱数を用いる、請求項１から６のいずれか１項に記載のクラスタリング装置。
前記非類似度決定手段で算出された前記非類似度を用いて、パターンのクラスタリングを行うクラスタリング手段を更に有する、請求項１から７のいずれか１項に記載のクラスタリング装置。
コンピュータが、
外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得し、
入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンＸ（１）の前記所定成分の値とパターンＸ（２）の前記所定成分の値の間の範囲に入る確率である内部確率を算出し、
算出した前記内部確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を決定する、パターン判定方法。
前記定義域内におけるパターンの前記所定成分の値が発生する確率の分布を示す確率密度分布に従って仮想的にパターンＸ（３）を発生させ、該パターンＸ（３）の前記所定成分の値が、前記パターンＸ（１）の前記所定成分の値と前記パターンＸ（２）の前記所定成分の値の間の範囲に入っているか否か判定し、複数の判定結果から前記内部確率を算出する、請求項９に記載のパターン判定方法。
複数の前記所定成分について内部確率を算出し、
複数の前記内部確率の対数の和を前記非類似度とする、請求項９または１０に記載のパターン判定方法。
複数の前記所定成分について内部確率を算出し、
複数の前記内部確率の積を前記非類似度とする、請求項９または１０に記載のパターン判定方法。
前記パターンＸ（１）または前記パターンＸ（２）のある成分が欠損値である場合、該成分の内部確率を所定値とする、請求項９から１２のいずれか１項に記載のパターン判定方法。
前記確率密度分布として一様乱数を用いる、請求項９から１３のいずれか１項に記載のパターン判定方法。
コンピュータに実行させるためのパターン判定プログラムであって、
前記コンピュータを、
外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得する入力手段と、
前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンＸ（１）の前記所定成分の値とパターンＸ（２）の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
前記確率算出手段によって算出された前記内部確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を決定する非類似度決定手段と、として機能させるためのパターン判定プログラム。