JP5522044B2 - クラスタリング装置、パターン判定方法、およびプログラム - Google Patents

クラスタリング装置、パターン判定方法、およびプログラム Download PDF

Info

Publication number
JP5522044B2
JP5522044B2 JP2010523794A JP2010523794A JP5522044B2 JP 5522044 B2 JP5522044 B2 JP 5522044B2 JP 2010523794 A JP2010523794 A JP 2010523794A JP 2010523794 A JP2010523794 A JP 2010523794A JP 5522044 B2 JP5522044 B2 JP 5522044B2
Authority
JP
Japan
Prior art keywords
pattern
probability
value
dissimilarity
internal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010523794A
Other languages
English (en)
Other versions
JPWO2010016313A1 (ja
Inventor
誠司 吉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010523794A priority Critical patent/JP5522044B2/ja
Publication of JPWO2010016313A1 publication Critical patent/JPWO2010016313A1/ja
Application granted granted Critical
Publication of JP5522044B2 publication Critical patent/JP5522044B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、パターン間の類似度を判定する技術に関する。
パターン間の類似度に基づいてパターンを分類するクラスタリングという技術がある。このクラスタリングは、画像認識、音声認識、スペクトルパターンの分類、データマイニングなど幅広い分野に応用される技術である。これらの応用分野では、必ずしも、容易に比較できるようなパターンが入力されるとは限らない。例えば、パターンの次元が高く、また入力されるパターンの一部が欠けている場合や、データに外れ値が含まれる場合が多い。そのためクラスタリングでは、データ欠損や外れ値に対してロバスト性を高め、また高次元のパターンにも対応できるようにすることが求められる。
上述したように、クラスタリングにおけるひとつの課題はデータ欠損や外れ値などのノイズである。良好なクラスタリングを行うために、通常、前処理として入力パターンに対してノイズ除去が施される。しかし、比較すべき特徴の一部のデータが欠けている場合や、データに外れ値が含まれている場合、それらのノイズを除去することは容易では無い。
例えば、指紋分類では、比較すべき部分に対応する特徴量が必ずしも検出できるとは限らない。そのような場合には一部の特徴量が欠損した状態でパターンの分類を行うことが必要となる。また、画像認識においてオクルージョンがあれば、本来比較すべき対象ではない部分画像が混入した画像パターンを比較に用いなければならなくなる。また、音声認識において、突発的な短時間ノイズが重畳された音声パターンを比較に用いなければならない場合がある。
ノイズを含むパターンに対するクラスタリングのロバスト性を高める方法の1つとして、順序尺度を使うというアプローチがある。特許文献1には、順序尺度を使うことによって照明強度の変化などに対するロバスト性を高める方法が記載されている。また、特許文献2には、同じカテゴリー間の類似度として距離の逆数を用いる投票法によって、外れ値に対処する方法が示されている。
クラスタリングにおけるもうひとつの課題は、パターンの次元が高くなるに従ってパターンの識別精度が低下するということである。この原因は、高次元空間における球面集中現象によって近傍判定が不安定になることである。これは「次元の呪い」として知られている(非特許文献1参照)。
この問題を回避する1つの方法は、次元を削減することである。次元を削減する手法としては主成分分析や多次元尺度法などがよく使われるが、それらの他にも数多くの次元削減手法が提案されている。非特許文献2には効率的に次元を削減するための代表的な方法が解説されている。
しかしながら、次元を削減する際に、必ずしもパターンの識別に適した特徴が選ばれるとは限らない。そのため、パターンの類似度あるいは非類似度を変えることによってクラスタリング性能の向上を図る方法も提案されている。
非特許文献3には、D次元空間における距離尺度として、Lノルムの代わりにL1/kノルム(kは2以上の整数)を用いることによって、近傍判定精度が改善することが示されている。また、非特許文献3には、このL1/kノルムを用いることによってノイズに対するロバスト性も向上することが報告されている。
特開2006−39658号公報 特開2004−341930号公報
K.S.Beyer, J.Goldstein, R.Ramakrishnan, U.Shaft:When Is "Nearest Neighbor" Meaningful?, in Proceeding of the 7th International Conference on Database Theory, Lecture Notes In Computer Science, vol.1540, pp.217−235, Springer−Verlag, London, 1999. 神嶌:データマイニング分野のクラスタリング手法(2)−大規模データへの挑戦と次元の呪いの克服−, 人工知能学会誌,18, No.2, pp.170−176, 2003. C.C.Aggarwal, A.Hinneburg, D.A.Keim:On the Surprising Behavior of Distance Metrics in High Dimensional Space, Lecture Notes in Computer Science, Vol.1973, Springer, 2001.
特許文献1の方法は、非類似度を順序尺度に変換することにより照明強度の変化などに対するロバスト性を得ている。しかし、外れ値を含む高次元パターンでは、球面集中現象によって距離の大小関係による順序関係が不安定になるため、この方法は高次元パターンに適さない。
特許文献2に示されている方法は、距離の逆数を用いることによって、あらかじめ外れ値を含むデータを検出しておくアプローチである。この方法は、学習パターンのカテゴリーが予め与えられている、教師あり学習に適用される方法である。しかしながら、距離の逆数は同一カテゴリーに属するパターンを比較するための評価基準としては使えるが、異なるカテゴリーに属するパターンの比較には使えない。そのため、この方法は、クラスタリングのような教師なし学習には適用できない。
非特許文献3に示されている方法では、D次元パターンX(1)=(x(1) ,・・・,x(1) )と、X(2)=(x(2) ,・・・,x(2) )との距離として、Lノルム
Figure 0005522044
の代わりに、L1/kノルム(kは2以上の整数)
Figure 0005522044
を用いている。そのことにより、高次元パターンの近傍判定精度およびノイズに対するロバスト性を改善する方法が示されている。
外れ値に対するロバスト性を高めるためによく使われるのは、Lノルムを用いる方法であるが、一般にLαノルム(αは正の実数)ではαが小さいほどロバスト性が高くなる。これは、αが小さくなるに従って距離が大きいデータの寄与が小さくなり、外れ値の影響が相対的に小さくなるという性質のためである。
この性質は、L1/kノルムによって高次元における近傍判定精度が改善する理由でもあると考えられる。
ノルムの近傍判定が不安定になる原因は、D次元パターンの各成分のうち、距離が小さい成分の寄与が、距離が大きい成分の寄与に比べてはるかに小さくなることである。このため、距離が小さい成分の寄与よりも、外れ値のような距離が大きい成分の微小変化の影響の方が大きくなり、近傍判定の不安定性を引き起こしている。次元Dが大きくなると距離が大きい成分が現れる確率が高くなる。そのため、高次元パターンでは近傍判定の不安定性が生じる確率が高くなる。
1/kノルムによって近傍判定の精度が改善する理由は、距離が大きい成分のノルムへの寄与を低減しているためであると考えられる。
しかしながら、この方法は欠損値を含むパターンのクラスタリングには適さないという問題がある。この方法で同じカテゴリーに属するD次元パターンX(1)=(x(1) ,・・・,x(1) )とX(2)=(x(2) ,・・・,x(2) )の距離d1/k (D)(X(1),X(2))と、これらの成分のうちd個の成分を欠損値として除いたD−d次元パターンX(1)’とX(2)’の距離d1/k (D−d)(X(1)’,X(2)’)と、を比較すると、d1/k (D−d)(X(1)’,X(2)’)≦d1/k (D)(X(1),X(2))となる。つまり、データ欠損がある場合のほうが距離が小さくなる。
欠損値が含まれるデータにも適用可能な距離尺度あるいは非類似度であるためには、距離尺度あるいは非類似度は、欠損値を含まないデータよりも、欠損値を含むデータの方が類似度が小さいと判定されるものであることが望ましい。しかしながら、この評価基準では、欠損値を含むデータの方が、欠損値を含まないデータよりも類似度が高いと判定されてしまう。
上述のように、パターン間の類似度の判定においては、良好なクラスタリングの結果を得ることを阻害する様々な課題がある。そのため、より良好にパターン間の類似度を判定する技術が求められている。
本発明の目的は、パターン間の類似度を良好に判定する技術を提供することである。
上記目的を達成するため本発明の一態様によるクラスタリング装置は、
入力パターンが格納される外部記憶装置と、
計算機と、
前記計算機の処理結果を表示する表示装置と、
を有し、
前記計算機は、
前記外部記憶装置から処理対象となる入力パターンを取得する入力手段と、
前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
前記確率算出手段によって算出された前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する非類似度決定手段と、を有する。
本発明の一態様によるパターン判定方法は、
コンピュータが、
外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得し、
入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出し、
算出した前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する、方法である
本発明の一態様によるプログラムは、
コンピュータに実行させるためのパターン判定プログラムであって、
前記コンピュータを、
外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得する入力手段と、
前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
前記確率算出手段によって算出された前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する非類似度決定手段と、として機能させるためのパターン判定プログラムである。
図1は、第1の実施形態によるパターン判定装置の構成を示すブロック図である。 第2の実施形態によるクラスタリング装置の構成を示すブロック図である。 第2の実施形態によるクラスタリング装置の動作を示すフローチャートである。 本実施例によるクラスタリング装置の構成を示すブロック図である。
本発明を実施形態について図面を参照して詳細に説明する。
(第1の実施形態)
第1の実施形態では、パターン間の非類似度を算出するパターン判定装置を例示する。算出された非類似度を用いて、複数のパターンに対するクラスタリングが行われる。クラスタリングを行う装置には上記パターン判定装置が包含される。
図1は、第1の実施形態によるパターン判定装置の構成を示すブロック図である。図1を参照すると、パターン判定装置11は確率算出部11Aおよび非類似度決定部11Bを有している。
確率算出部11Aは、入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の所定成分の値とパターンX(2)の所定成分の値の間の範囲に入る確率である内部確率を算出する。
その際、確率算出部11Aは、定義域内におけるパターンの所定成分の値が発生する確率密度分布に従って仮想的にパターンX(3)を発生させ、そのパターンX(3)の所定成分の値が、パターンX(1)の所定成分の値とパターンX(2)の所定成分の値の間の範囲に入っているか否か判定し、複数の判定結果から内部確率を算出する。
また、パターンX(1)、X(2)、X(3)は複数次元のパターンであり、確率算出部11Aは、複数の成分のそれぞれについて内部確率を算出する。
非類似度決定部11Bは、確率算出部11Aによって算出された内部確率を基にして、パターンX(1)とパターンX(2)との非類似度を決定する。その際、非類似決定部11Bは、例えば、各成分に対応する複数の内部確率の対数の和を非類似度としてもよく、あるいは複数の内部確率の積を非類似度としてもよい。
なお、確率算出部11Aは、パターンX(1)またはパターンX(2)のある成分が欠損値である場合、その成分の内部確率を所定値1としてもよい。また、確率算出部11Aは、確率密度分布として一様乱数を用いてもよい。
パターンX(1)、X(2)がD次元であるとすると、パターンX(1)=(x(1) ,・・・,x(1) )、X(2)=(x(2) ,・・・,x(2) )と表すことができる。また、確率密度分布はq(x),・・・,q(x)と表すことができる。
仮想的に発生させたパターンX(3)=(x(3) ,・・・,x(3) )と表すと、パターンX(3)の各成分がx(1) ≦x(3) ≦x(2) :i=1,・・・,Dの範囲内に入る確率p(x(1) ,x(2) )が内部確率である。そして、例えば、各成分の内部確率の対数の和を非類似度とする場合、非類似度E(D)(X(1),X(2))=Σi=1 lnp(x(1) ,x(2) )となる。また、x(1) またはx(2) が欠損値の場合は、確率p(x(1) ,x(2) )は所定値1とされる。
以下、さらに詳細に説明する。
本実施形態では、2つのD次元パターンX(1)とX(2)に対して、確率密度分布q(x):i=1,・・・,Dに従って仮想的に発生させたパターンX(3)=(x(3) ,・・・,x(3) )の各成分x(3) がx(1) ≦x(3) ≦x(2) の範囲に入る確率P(X(1),X(2))を計算し、この確率に基づいてX(1)とX(2)の非類似度を定義する。x(3) がx(1) ≦x(3) ≦x(2) となる確率p(x(1) ,x(2) )は
Figure 0005522044
によって算出される。この計算結果から、X(3)の全ての成分がX(1)とX(2)の対応する成分の値の間に入る確率P(X(1),X(2))は
Figure 0005522044
で与えられる。X(1)とX(2)の非類似度E(D)(X(1),X(2))は、P(X(1),X(2))の対数
Figure 0005522044
によって定義される。ここで、E(X(1),X(2))はi番目の成分の非類似度への寄与
Figure 0005522044
を表す。
式(4)により、入力データの定義域内にランダムに与えたデータが、偶然X(1)とX(2)の間に入る確率が得られる。この確率が小さいほどX(1)とX(2)の間の相違が小さい、すなわちX(1)とX(2)が類似していると考えられる。逆に式(4)で得られる確率が大きければ、X(1)とX(2)の類似度は小さいと考えられる。そこで、本実施形態では、式(4)の確率の対数(式(5))を2つのパターンX(1)、X(2)の非類似度としてクラスタリングに用いる。また、ここでは、非類似度として式(4)によって定義される確率の対数(式(5))を用いる例で説明したが、式(4)の確率を非類似度として用いてもかまわない。
本実施形態によれば、パターン間の類似度を良好に判定することが可能となる。また、それによりクラスタリングにおいて、欠損値や外れ値に対してロバストとなり、また高次元パターンにも対応可能となる。
以下、本実施形態によればクラスタリングが欠損値や外れ値に対してロバストとなり、また高次元パターンにも対応可能となることについて説明する。
まず第1に、本実施形態によれば、欠損値を含むデータに対して、良好なクラスタリングを行うことができる。
本実施形態の方法では、非類似度に対する各成分の寄与(式(6))は常に0または負の値をとる。すなわち
Figure 0005522044
となる。また、欠損した成分の確率を1とすることにより、欠損した成分の非類似度(式(5))への寄与は0になる。従って、欠損値を含まない2つのD次元パターンX(1)とX(2)の非類似度E(D)(X(1),X(2))は、X(1)とX(2)からd個の成分を欠損値として除いた(D−d)次元パターンX(1)’とX(2)’の非類似度E(D−d)(X(1)’,X(2)’)より常に小さくなる。従って、本実施形態によれば、非類似度はデータ欠損がある場合の方がデータ欠損が無い場合よりも類似度が小さくなる。すなわち、E(D−d)(X(1)’,X(2)’)≧E(D)(X(1),X(2))という所望の性質が得られる。
この性質によって、例えば指紋分類のように一部の特徴量が欠損した状態でパターンの分類を行う場合でも、データ欠損がない方が類似しているというような正しい判定が可能となる。
第2に、本実施形態によれば、外れ値に対してロバストなクラスタリングが可能となる。
本実施形態の非類似度(式(5))は、2つのパターンの類似度が高いほど小さい値をとる。この点では、本実施形態は、非特許文献3のL1/kノルムd1/k(X(1),X(2))を用いるものと同じである。しかし、L1/kノルムが非負の値をとるのに対して、本実施形態の非類似度E(D)(X(1),X(2))は非正の値をとるという点で、本実施形態は非特許文献3のものと相違する。
1/kは、値が遠い成分に対してペナルティを課すことによって2つのパターンの類似度を評価している。それに対して、本実施形態の非類似度は、値が近い成分に対して加点することによって類似度を評価している。従って、L1/kノルム(式(2))では、全ての成分の中で外れ値の寄与が最も大きくなるのに対して、本実施形態の非類似度(式(5))では、式(3)および式(6)により、全ての成分の中で外れ値の成分が寄与が最も小さくなる。この性質から、本実施形態の非類似度を用いることによって外れ値の影響が小さいクラスタリングが実現できる。
この性質によって、例えばオクルージョンがある場合の画像認識においても、本来比較すべき対象ではないオクルージョン部分の寄与を小さくすることが可能となる。
第3に、本実施形態によれば、高次元パターンに対して良好なクラスタリングが可能となる。
高次元における近傍判定精度の低下は、距離が小さい成分の類似度評価に対する寄与が、距離が大きい成分の寄与よりはるかに小さいことに起因する。本実施形態の非類似度(式(5))では、距離が小さい成分ほど非類似度への寄与が大きくなるため、球面集中現象による近傍判定の不安定性を回避できる。
従って、本実施形態の非類似度を用いることにより、例えばスペクトルパターンのような高次元パターンのクラスタリングも可能である。
(第2の実施形態)
第2の実施形態では、非類似度を算出し、それを基にクラスタリングを行うクラスタリング装置を例示する。非類似度を用いたクラスタリングの方法は特に限定されるものではないが、ここでは一例として、与えられたデータから最短距離法を用いてクラスターツリーを作成し、クラスターツリーを出力する実施形態を示す。
図2は、第2の実施形態によるクラスタリング装置の構成を示すブロック図である。図2を参照すると、クラスタリング装置21は、パターン入力部21A、クラスターツリー作成部21B、および非類似度計算部21Cを有している。
パターン入力部21Aは、例えばD次元入力データが格納されたファイルから入力データがなくなるまで入力データを読み込み、クラスターツリー作成部21Bに引き渡す。
クラスターツリー作成部21Bは、パターン入力部21Aから得た入力データから初期クラスターを作成し、非類似度計算部21Cを用いてクラスター間の非類似度を設定する。初期クラスターは、クラスターツリーを作成する初期段階において設定するクラスターである。初期クラスターは、例えば個々の入力データそのものであってもよい。次に、クラスターツリー作成部21Bは、最近傍法によってクラスター対を順次マージすることによりクラスターツリーを作成する。そして、クラスターツリー作成部21Bは、得られたクラスターツリーを出力する。
非類似度計算部21Cは、クラスターツリー作成部21Bから渡されたデータ対(X(m),X(n))から、それらの非類似度E(X(m),X(n))を、式(5)に従って計算する。この非類似度計算部21Cは、第1の実施形態に示したパターン判定装置11に相当する機能を備えている。
図3は、第2の実施形態によるクラスタリング装置の動作を示すフローチャートである。図3を参照すると、パターン入力部21Aは、D次元入力データを1つずつ読み込み、クラスターツリー作成部21Bに引き渡す(ステップ101)。クラスターツリー作成部21Bは、読み込まれた入力データX(n):n=1,・・・,Nに対して、1つのクラスターC(n)を作成する(ステップ102)。そして、ステップ101〜102の処理が、N個の入力データが無くなるまで繰り返される(ステップ103)。ここで、j個のデータ(X(n ,・・・,X(n )を含むクラスターをC(n ,・・・,n と表記することにする。
データ入力が終了すると、クラスターツリー作成部21Bは、組のクラスター対(C(m),C(n)):1≦m<n≦Nを、順次、非類似度計算部21Cに引き渡す。非類似度計算部21Cは、クラスターツリー作成部21Bから渡されたクラスター対(C(m),C(n))の間の非類似度F(C(m ,・・・,m ,C(n ,・・・,n )を計算し、クラスターツリー作成部21Bに非類似度の値を返す(ステップ104)。この非類似度の計算は、全てのデータ対について順次行われる(ステップ105)。
ここでは、一例としてクラスター間の非類似度の計算に最短距離法を使うものとする。最短距離法では、クラスター対の非類似度が
Figure 0005522044
によって計算される。その際、各データ間の非類似度E(D)(X,Y)は式(5)によって計算される。
次に、クラスターツリー作成部21Bは、クラスターの集合から非類似度が最も小さいクラスター対を選び出し、それらのクラスターを1つのクラスターにマージする(ステップ106)。
ここで、非類似度は式(5)によって算出したものであるので、非類似度が最も小さいクラスター対を選択する際に、データ欠損や外れ値に対してロバストな選択結果が得られる。また、高次元パターンにおける近傍判定の不安定性も回避できる。
クラスターツリー作成部21Bは、新たなクラスター集合の各クラスター間の非類似度を非類似度計算部21Cによって再計算し、非類似度が最も小さいクラスター対を選び出してマージするという操作をクラスター数が1になるまで繰り返す(ステップ107)。クラスター数が1になると、最後に、クラスターツリー作成部21Bは得られたクラスターツリーを出力して処理を終了する。
(第3の実施形態)
第2の実施形態では、式(5)によって得られる値を非類似度として用いたが、第3の実施形態では、式(4)によって得られる値を非類似度として用いる。この点で第3の実施形態は第2の実施形態と異なる。本実施形態においても、第1の実施形態と同様に、欠損値や外れ値に対してロバストで、また高次元パターンにも対応したクラスタリングが可能である。
(第4の実施形態)
第4の実施形態は第2あるいは第3の実施形態の変形であり、式(6)のx(1) またはx(2) が欠損値の場合に、
Figure 0005522044
すなわち
Figure 0005522044
とするという点で、第2あるいは第3の実施形態と異なる。本実施形態においても、第2の実施形態と同様に、欠損値や外れ値に対してロバストで、また高次元パターンにも対応したクラスタリングが可能である。
(第5の実施形態)
第5の実施形態は第2〜4の実施形態の変形であり、式(3)によってp(x(1) ,x(2) )を計算するときに用いる確率密度分布q(x)がxの定義域上の一様分布である。本実施形態においても、第2〜4の実施形態と同様に、欠損値や外れ値に対してロバストで、また高次元パターンにも対応したクラスタリングが可能である。
(第1の実施例)
次に、上述した実施形態について具体的な実施例を用いて更に説明する。第1の実施例は第2の実施形態に対応している。
本実施例では、D次元ベクトルとして与えられたN個のデータのクラスターツリーを作成する場合を例示する。クラスター間の非類似度の計算には、例えば最短距離法や最長距離法のように距離尺度を使う方法を適用できる。本実施例では最短距離法を用いた例を示す。また、本実施例では計算機によってクラスタリング装置を構成する例を示す。
図4は、本実施例によるクラスタリング装置の構成を示すブロック図である。図4を参照すると、クラスタリング装置は計算機32で構成されており、計算機32は、入力装置32A、クラスターツリー作成装置32B、および非類似度計算装置32Cを有している。
入力装置32Aは図2のパターン入力部21Aに相当する。入力装置32Aは、外部記憶装置10から入力データを読み込んでクラスターツリー作成装置32Bに引き渡す。
クラスターツリー作成装置32Bは図2のクラスターツリー作成部21Bに相当する。クラスターツリー作成装置32Bは、入力装置Aから得た入力データから初期クラスターを作成し、非類似度計算装置32Cを用いてクラスター間の非類似度を設定し、非類似度に基づいてクラスターをマージすることによりクラスターツリーを作成する。そして、クラスターツリー作成装置32Bは、作成したクラスターツリーを表示装置33に表示する。
非類似度計算装置32Cは、図2の非類似度計算部21Cに相当する。非類似度計算装置32Cは、クラスターツリー作成装置32Bから渡されたデータ対から、それらの非類似度を計算する。
以下、計算機32の一連の動作について説明する。
計算機32は、外部記憶装置31にD次元ベクトルとして格納されているN個のデータを入力装置32Aによってクラスターツリー作成装置32Bに読み込む。クラスターツリー作成装置32BはN個の各データX(n):n=1,・・・,Nに対して1つずつクラスターC(n)を作成する。
次に、クラスターツリー作成装置32Bは、クラスターの集合からクラスター間の非類似度F(C(m ,・・・,m ,C(n ,・・・,n )が最も小さいクラスター対C(m ,・・・,m とC(n ,・・・,n をマージして、新たなクラスターC(m ,・・・,m ,n ,・・・,n を作成する。クラスターツリー作成装置32Bは、このマージ操作をクラスター数が1になるまで繰り返す。最後に、クラスターツリー作成装置32Bは、得られたクラスターツリーを表示装置33に出力して処理を終了する。
(第2の実施例)
第2の実施例は第3の実施形態に対応している。第1の実施例では、式(5)によって得られる値を非類似度として用いたが、第2の実施例では、式(4)によって得られる値を非類似度として用いる。この点で第2の実施例は第1の実施例と異なる。
(第3の実施例)
第3の実施形態は第1あるいは第2の実施例の変形であり、式(6)のx(1) またはx(2) が欠損値の場合に、
Figure 0005522044
すなわち
Figure 0005522044
とするという点で、第1あるいは第2の実施例と異なる。
(第4の実施例)
第4の実施例は第1〜3の実施例の変形であり、式(3)によってp(x(1) ,x(2) )を計算するときに用いる確率密度分布q(x)がxの定義域上の一様分布である。
以上、本発明の実施形態について述べてきたが、本発明は、これらの実施形態だけに限定されるものではなく、本発明の技術思想の範囲内において、これらの実施形態を組み合わせて使用したり、一部の構成を変更したりしてもよい。
この出願は、2008年8月8日に出願された日本出願特願2008−205456を基礎として優先権の利益を主張するものであり、その開示の全てを引用によってここに取り込む。

Claims (15)

  1. 入力パターンが格納される外部記憶装置と、
    計算機と、
    前記計算機の処理結果を表示する表示装置と、
    を有し、
    前記計算機は、
    前記外部記憶装置から処理対象となる入力パターンを取得する入力手段と、
    前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
    前記確率算出手段によって算出された前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する非類似度決定手段と、を有するクラスタリング装置
  2. 前記確率算出手段は、前記定義域内におけるパターンの前記所定成分の値が発生する確率の分布を示す確率密度分布に従って仮想的にパターンX(3)を発生させ、該パターンX(3)の前記所定成分の値が、前記パターンX(1)の前記所定成分の値と前記パターンX(2)の前記所定成分の値の間の範囲に入っているか否か判定し、複数の判定結果から前記内部確率を算出する、請求項1に記載のクラスタリング装置
  3. 前記確率算出手段は、複数の前記所定成分について内部確率を算出し、
    前記非類似決定手段は、複数の前記内部確率の対数の和を前記非類似度とする、請求項1または2に記載のクラスタリング装置
  4. 前記確率算出手段は、複数の前記所定成分について内部確率を算出し、
    前記非類似決定手段は、複数の前記内部確率の積を前記非類似度とする、請求項1または2に記載のクラスタリング装置
  5. 前記確率算出手段は、前記パターンX(1)または前記パターンX(2)のある成分が欠損値である場合、該成分の内部確率を所定値とする、請求項1から4のいずれか1項に記載のクラスタリング装置
  6. 前記確率算出手段は前記所定値を1とする、請求項5に記載のクラスタリング装置
  7. 前記確率算出手段は、前記確率密度分布として一様乱数を用いる、請求項1から6のいずれか1項に記載のクラスタリング装置
  8. 前記非類似度決定手段で算出された前記非類似度を用いて、パターンのクラスタリングを行うクラスタリング手段を更に有する、請求項1から7のいずれか1項に記載のクラスタリング装置
  9. コンピュータが、
    外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得し、
    入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出し、
    算出した前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する、パターン判定方法。
  10. 前記定義域内におけるパターンの前記所定成分の値が発生する確率の分布を示す確率密度分布に従って仮想的にパターンX(3)を発生させ、該パターンX(3)の前記所定成分の値が、前記パターンX(1)の前記所定成分の値と前記パターンX(2)の前記所定成分の値の間の範囲に入っているか否か判定し、複数の判定結果から前記内部確率を算出する、請求項9に記載のパターン判定方法。
  11. 複数の前記所定成分について内部確率を算出し、
    複数の前記内部確率の対数の和を前記非類似度とする、請求項9または10に記載のパターン判定方法。
  12. 複数の前記所定成分について内部確率を算出し、
    複数の前記内部確率の積を前記非類似度とする、請求項9または10に記載のパターン判定方法。
  13. 前記パターンX(1)または前記パターンX(2)のある成分が欠損値である場合、該成分の内部確率を所定値とする、請求項9から12のいずれか1項に記載のパターン判定方法。
  14. 前記確率密度分布として一様乱数を用いる、請求項9から13のいずれか1項に記載のパターン判定方法。
  15. コンピュータに実行させるためのパターン判定プログラムであって、
    前記コンピュータを、
    外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得する入力手段と、
    前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
    前記確率算出手段によって算出された前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する非類似度決定手段と、として機能させるためのパターン判定プログラム。
JP2010523794A 2008-08-08 2009-05-29 クラスタリング装置、パターン判定方法、およびプログラム Active JP5522044B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010523794A JP5522044B2 (ja) 2008-08-08 2009-05-29 クラスタリング装置、パターン判定方法、およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008205456 2008-08-08
JP2008205456 2008-08-08
JP2010523794A JP5522044B2 (ja) 2008-08-08 2009-05-29 クラスタリング装置、パターン判定方法、およびプログラム
PCT/JP2009/059850 WO2010016313A1 (ja) 2008-08-08 2009-05-29 パターン判定装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2010016313A1 JPWO2010016313A1 (ja) 2012-01-19
JP5522044B2 true JP5522044B2 (ja) 2014-06-18

Family

ID=41663538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010523794A Active JP5522044B2 (ja) 2008-08-08 2009-05-29 クラスタリング装置、パターン判定方法、およびプログラム

Country Status (3)

Country Link
US (1) US8560488B2 (ja)
JP (1) JP5522044B2 (ja)
WO (1) WO2010016313A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9026536B2 (en) * 2010-10-17 2015-05-05 Canon Kabushiki Kaisha Systems and methods for cluster comparison
US9249287B2 (en) 2012-02-24 2016-02-02 Nec Corporation Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns
US9946959B2 (en) * 2014-04-30 2018-04-17 Entit Software Llc Facilitating interpretation of high-dimensional data clusters
KR20200137219A (ko) * 2019-05-29 2020-12-09 삼성에스디에스 주식회사 비지도 학습 기반 웨이퍼 불량 패턴 검출 방법 및 그 장치
US11556848B2 (en) * 2019-10-21 2023-01-17 International Business Machines Corporation Resolving conflicts between experts' intuition and data-driven artificial intelligence models

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2979711B2 (ja) * 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
US6236749B1 (en) * 1998-03-23 2001-05-22 Matsushita Electronics Corporation Image recognition method
JP2000276459A (ja) 1999-03-26 2000-10-06 Fujitsu Ltd 学習による変換関数を用いた乱数発生装置,乱数発生方法および乱数発生システム
US7003509B2 (en) * 2003-07-21 2006-02-21 Leonid Andreev High-dimensional data clustering with the use of hybrid similarity matrices
US7577297B2 (en) * 2002-12-16 2009-08-18 Canon Kabushiki Kaisha Pattern identification method, device thereof, and program thereof
US7449967B2 (en) * 2003-02-28 2008-11-11 Panasonic Corporation Probabilistic pulse generator and differential absolute value computing element and manhattan distance arithmetic unit using this
JP2004341930A (ja) 2003-05-16 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> パタン認識方法および装置
US7680330B2 (en) * 2003-11-14 2010-03-16 Fujifilm Corporation Methods and apparatus for object recognition using textons
KR100837002B1 (ko) * 2004-01-15 2008-06-10 닛본 덴끼 가부시끼가이샤 패턴 식별 시스템, 패턴 식별 방법, 및 패턴 식별 프로그램을 기록한 기록매체
JP2005301789A (ja) 2004-04-14 2005-10-27 Nara Institute Of Science & Technology クラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラム
JP4477439B2 (ja) 2004-07-12 2010-06-09 日立ソフトウエアエンジニアリング株式会社 画像分割処理システム
JP4376145B2 (ja) 2004-07-22 2009-12-02 日立ソフトウエアエンジニアリング株式会社 画像分類学習処理システム及び画像識別処理システム
JP4372051B2 (ja) * 2005-06-13 2009-11-25 株式会社東芝 手形状認識装置及びその方法
JP2007026068A (ja) 2005-07-15 2007-02-01 Toshiba Corp 紙葉類判別方法および紙葉類判別装置
US7539653B2 (en) * 2005-10-07 2009-05-26 Xerox Corporation Document clustering
US7567960B2 (en) * 2006-01-31 2009-07-28 Xerox Corporation System and method for clustering, categorizing and selecting documents
US20080086493A1 (en) * 2006-10-09 2008-04-10 Board Of Regents Of University Of Nebraska Apparatus and method for organization, segmentation, characterization, and discrimination of complex data sets from multi-heterogeneous sources
US20110093419A1 (en) * 2008-06-11 2011-04-21 Lei Huang Pattern identifying method, device, and program

Also Published As

Publication number Publication date
US20110131169A1 (en) 2011-06-02
JPWO2010016313A1 (ja) 2012-01-19
US8560488B2 (en) 2013-10-15
WO2010016313A1 (ja) 2010-02-11

Similar Documents

Publication Publication Date Title
Du et al. Robust graph-based semisupervised learning for noisy labeled data via maximum correntropy criterion
Hernández-Orallo ROC curves for regression
US8108324B2 (en) Forward feature selection for support vector machines
Fumera et al. A theoretical and experimental analysis of linear combiners for multiple classifier systems
WO2010035659A1 (ja) 入力データの分類に用いる特徴を選択するための情報処理装置
Antunes et al. Knee/elbow estimation based on first derivative threshold
Sharabiani et al. Efficient classification of long time series by 3-d dynamic time warping
JP5214760B2 (ja) 学習装置、方法及びプログラム
US9842279B2 (en) Data processing method for learning discriminator, and data processing apparatus therefor
JP5522044B2 (ja) クラスタリング装置、パターン判定方法、およびプログラム
Uemura et al. A multivariate causal discovery based on post-nonlinear model
US11972552B2 (en) Abnormal wafer image classification
US20210042550A1 (en) Information processing device, information processing method, and computer-readable recording medium recording information processing program
US8494986B2 (en) Information processing apparatus, information processing method, and program
Akkaya The Effect of Recursive Feature Elimination with Cross-Validation Method on Classification Performance with Different Sizes of Datasets
Singh et al. Dimensionality reduction for classification and clustering
Bajwa et al. A multifaceted independent performance analysis of facial subspace recognition algorithms
WO2009151002A2 (ja) パターン識別方法、装置およびプログラム
CN114742155A (zh) 基于随机采样聚类的带噪音数据分类方法及用户分类方法
JP2010205043A (ja) パターン学習方法、装置、およびプログラム
Harsh et al. Onion-peeling outlier detection in 2-d data sets
TWI705340B (zh) 相位圖像生成器的訓練方法及相位圖像分類器的訓練方法
Azam et al. Spatial image segmentation based on beta-liouville mixture models and markov random field
JP2021111097A (ja) ノイズ推定方法、ノイズ推定プログラム及びノイズ推定装置
Sangeetha et al. Preprocessing using attribute selection in data stream mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140324

R150 Certificate of patent or registration of utility model

Ref document number: 5522044

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150