JP5522044B2 - クラスタリング装置、パターン判定方法、およびプログラム - Google Patents
クラスタリング装置、パターン判定方法、およびプログラム Download PDFInfo
- Publication number
- JP5522044B2 JP5522044B2 JP2010523794A JP2010523794A JP5522044B2 JP 5522044 B2 JP5522044 B2 JP 5522044B2 JP 2010523794 A JP2010523794 A JP 2010523794A JP 2010523794 A JP2010523794 A JP 2010523794A JP 5522044 B2 JP5522044 B2 JP 5522044B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- probability
- value
- dissimilarity
- internal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000009826 distribution Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 3
- 235000012571 Ficus glomerata Nutrition 0.000 description 36
- 244000153665 Ficus glomerata Species 0.000 description 36
- 238000010586 diagram Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
入力パターンが格納される外部記憶装置と、
計算機と、
前記計算機の処理結果を表示する表示装置と、
を有し、
前記計算機は、
前記外部記憶装置から処理対象となる入力パターンを取得する入力手段と、
前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
前記確率算出手段によって算出された前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する非類似度決定手段と、を有する。
コンピュータが、
外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得し、
入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出し、
算出した前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する、方法である。
コンピュータに実行させるためのパターン判定プログラムであって、
前記コンピュータを、
外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得する入力手段と、
前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
前記確率算出手段によって算出された前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する非類似度決定手段と、として機能させるためのパターン判定プログラムである。
第1の実施形態では、パターン間の非類似度を算出するパターン判定装置を例示する。算出された非類似度を用いて、複数のパターンに対するクラスタリングが行われる。クラスタリングを行う装置には上記パターン判定装置が包含される。
第2の実施形態では、非類似度を算出し、それを基にクラスタリングを行うクラスタリング装置を例示する。非類似度を用いたクラスタリングの方法は特に限定されるものではないが、ここでは一例として、与えられたデータから最短距離法を用いてクラスターツリーを作成し、クラスターツリーを出力する実施形態を示す。
ここで、非類似度は式(5)によって算出したものであるので、非類似度が最も小さいクラスター対を選択する際に、データ欠損や外れ値に対してロバストな選択結果が得られる。また、高次元パターンにおける近傍判定の不安定性も回避できる。
第2の実施形態では、式(5)によって得られる値を非類似度として用いたが、第3の実施形態では、式(4)によって得られる値を非類似度として用いる。この点で第3の実施形態は第2の実施形態と異なる。本実施形態においても、第1の実施形態と同様に、欠損値や外れ値に対してロバストで、また高次元パターンにも対応したクラスタリングが可能である。
第4の実施形態は第2あるいは第3の実施形態の変形であり、式(6)のx(1) iまたはx(2) iが欠損値の場合に、
第5の実施形態は第2〜4の実施形態の変形であり、式(3)によってp(x(1) i,x(2) i)を計算するときに用いる確率密度分布qi(x)がxiの定義域上の一様分布である。本実施形態においても、第2〜4の実施形態と同様に、欠損値や外れ値に対してロバストで、また高次元パターンにも対応したクラスタリングが可能である。
次に、上述した実施形態について具体的な実施例を用いて更に説明する。第1の実施例は第2の実施形態に対応している。
第2の実施例は第3の実施形態に対応している。第1の実施例では、式(5)によって得られる値を非類似度として用いたが、第2の実施例では、式(4)によって得られる値を非類似度として用いる。この点で第2の実施例は第1の実施例と異なる。
第3の実施形態は第1あるいは第2の実施例の変形であり、式(6)のx(1) iまたはx(2) iが欠損値の場合に、
第4の実施例は第1〜3の実施例の変形であり、式(3)によってp(x(1) i,x(2) i)を計算するときに用いる確率密度分布qi(x)がxiの定義域上の一様分布である。
Claims (15)
- 入力パターンが格納される外部記憶装置と、
計算機と、
前記計算機の処理結果を表示する表示装置と、
を有し、
前記計算機は、
前記外部記憶装置から処理対象となる入力パターンを取得する入力手段と、
前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
前記確率算出手段によって算出された前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する非類似度決定手段と、を有するクラスタリング装置。 - 前記確率算出手段は、前記定義域内におけるパターンの前記所定成分の値が発生する確率の分布を示す確率密度分布に従って仮想的にパターンX(3)を発生させ、該パターンX(3)の前記所定成分の値が、前記パターンX(1)の前記所定成分の値と前記パターンX(2)の前記所定成分の値の間の範囲に入っているか否か判定し、複数の判定結果から前記内部確率を算出する、請求項1に記載のクラスタリング装置。
- 前記確率算出手段は、複数の前記所定成分について内部確率を算出し、
前記非類似決定手段は、複数の前記内部確率の対数の和を前記非類似度とする、請求項1または2に記載のクラスタリング装置。 - 前記確率算出手段は、複数の前記所定成分について内部確率を算出し、
前記非類似決定手段は、複数の前記内部確率の積を前記非類似度とする、請求項1または2に記載のクラスタリング装置。 - 前記確率算出手段は、前記パターンX(1)または前記パターンX(2)のある成分が欠損値である場合、該成分の内部確率を所定値とする、請求項1から4のいずれか1項に記載のクラスタリング装置。
- 前記確率算出手段は前記所定値を1とする、請求項5に記載のクラスタリング装置。
- 前記確率算出手段は、前記確率密度分布として一様乱数を用いる、請求項1から6のいずれか1項に記載のクラスタリング装置。
- 前記非類似度決定手段で算出された前記非類似度を用いて、パターンのクラスタリングを行うクラスタリング手段を更に有する、請求項1から7のいずれか1項に記載のクラスタリング装置。
- コンピュータが、
外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得し、
入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出し、
算出した前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する、パターン判定方法。 - 前記定義域内におけるパターンの前記所定成分の値が発生する確率の分布を示す確率密度分布に従って仮想的にパターンX(3)を発生させ、該パターンX(3)の前記所定成分の値が、前記パターンX(1)の前記所定成分の値と前記パターンX(2)の前記所定成分の値の間の範囲に入っているか否か判定し、複数の判定結果から前記内部確率を算出する、請求項9に記載のパターン判定方法。
- 複数の前記所定成分について内部確率を算出し、
複数の前記内部確率の対数の和を前記非類似度とする、請求項9または10に記載のパターン判定方法。 - 複数の前記所定成分について内部確率を算出し、
複数の前記内部確率の積を前記非類似度とする、請求項9または10に記載のパターン判定方法。 - 前記パターンX(1)または前記パターンX(2)のある成分が欠損値である場合、該成分の内部確率を所定値とする、請求項9から12のいずれか1項に記載のパターン判定方法。
- 前記確率密度分布として一様乱数を用いる、請求項9から13のいずれか1項に記載のパターン判定方法。
- コンピュータに実行させるためのパターン判定プログラムであって、
前記コンピュータを、
外部記憶装置に予め格納された入力パターンから処理対象となる入力パターンを取得する入力手段と、
前記入力手段で取得した入力パターンの定義域内において確率密度分布に従って発生するパターンの所定成分の値が、パターンX(1)の前記所定成分の値とパターンX(2)の前記所定成分の値の間の範囲に入る確率である内部確率を算出する確率算出手段と、
前記確率算出手段によって算出された前記内部確率を基にして、前記パターンX(1)と前記パターンX(2)との非類似度を決定する非類似度決定手段と、として機能させるためのパターン判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010523794A JP5522044B2 (ja) | 2008-08-08 | 2009-05-29 | クラスタリング装置、パターン判定方法、およびプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205456 | 2008-08-08 | ||
JP2008205456 | 2008-08-08 | ||
JP2010523794A JP5522044B2 (ja) | 2008-08-08 | 2009-05-29 | クラスタリング装置、パターン判定方法、およびプログラム |
PCT/JP2009/059850 WO2010016313A1 (ja) | 2008-08-08 | 2009-05-29 | パターン判定装置、方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010016313A1 JPWO2010016313A1 (ja) | 2012-01-19 |
JP5522044B2 true JP5522044B2 (ja) | 2014-06-18 |
Family
ID=41663538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010523794A Active JP5522044B2 (ja) | 2008-08-08 | 2009-05-29 | クラスタリング装置、パターン判定方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8560488B2 (ja) |
JP (1) | JP5522044B2 (ja) |
WO (1) | WO2010016313A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9026536B2 (en) * | 2010-10-17 | 2015-05-05 | Canon Kabushiki Kaisha | Systems and methods for cluster comparison |
US9249287B2 (en) | 2012-02-24 | 2016-02-02 | Nec Corporation | Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns |
US9946959B2 (en) * | 2014-04-30 | 2018-04-17 | Entit Software Llc | Facilitating interpretation of high-dimensional data clusters |
KR20200137219A (ko) * | 2019-05-29 | 2020-12-09 | 삼성에스디에스 주식회사 | 비지도 학습 기반 웨이퍼 불량 패턴 검출 방법 및 그 장치 |
US11556848B2 (en) * | 2019-10-21 | 2023-01-17 | International Business Machines Corporation | Resolving conflicts between experts' intuition and data-driven artificial intelligence models |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2979711B2 (ja) * | 1991-04-24 | 1999-11-15 | 日本電気株式会社 | パターン認識方式および標準パターン学習方式 |
US6236749B1 (en) * | 1998-03-23 | 2001-05-22 | Matsushita Electronics Corporation | Image recognition method |
JP2000276459A (ja) | 1999-03-26 | 2000-10-06 | Fujitsu Ltd | 学習による変換関数を用いた乱数発生装置,乱数発生方法および乱数発生システム |
US7003509B2 (en) * | 2003-07-21 | 2006-02-21 | Leonid Andreev | High-dimensional data clustering with the use of hybrid similarity matrices |
US7577297B2 (en) * | 2002-12-16 | 2009-08-18 | Canon Kabushiki Kaisha | Pattern identification method, device thereof, and program thereof |
US7449967B2 (en) * | 2003-02-28 | 2008-11-11 | Panasonic Corporation | Probabilistic pulse generator and differential absolute value computing element and manhattan distance arithmetic unit using this |
JP2004341930A (ja) | 2003-05-16 | 2004-12-02 | Nippon Telegr & Teleph Corp <Ntt> | パタン認識方法および装置 |
US7680330B2 (en) * | 2003-11-14 | 2010-03-16 | Fujifilm Corporation | Methods and apparatus for object recognition using textons |
KR100837002B1 (ko) * | 2004-01-15 | 2008-06-10 | 닛본 덴끼 가부시끼가이샤 | 패턴 식별 시스템, 패턴 식별 방법, 및 패턴 식별 프로그램을 기록한 기록매체 |
JP2005301789A (ja) | 2004-04-14 | 2005-10-27 | Nara Institute Of Science & Technology | クラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラム |
JP4477439B2 (ja) | 2004-07-12 | 2010-06-09 | 日立ソフトウエアエンジニアリング株式会社 | 画像分割処理システム |
JP4376145B2 (ja) | 2004-07-22 | 2009-12-02 | 日立ソフトウエアエンジニアリング株式会社 | 画像分類学習処理システム及び画像識別処理システム |
JP4372051B2 (ja) * | 2005-06-13 | 2009-11-25 | 株式会社東芝 | 手形状認識装置及びその方法 |
JP2007026068A (ja) | 2005-07-15 | 2007-02-01 | Toshiba Corp | 紙葉類判別方法および紙葉類判別装置 |
US7539653B2 (en) * | 2005-10-07 | 2009-05-26 | Xerox Corporation | Document clustering |
US7567960B2 (en) * | 2006-01-31 | 2009-07-28 | Xerox Corporation | System and method for clustering, categorizing and selecting documents |
US20080086493A1 (en) * | 2006-10-09 | 2008-04-10 | Board Of Regents Of University Of Nebraska | Apparatus and method for organization, segmentation, characterization, and discrimination of complex data sets from multi-heterogeneous sources |
US20110093419A1 (en) * | 2008-06-11 | 2011-04-21 | Lei Huang | Pattern identifying method, device, and program |
-
2009
- 2009-05-29 WO PCT/JP2009/059850 patent/WO2010016313A1/ja active Application Filing
- 2009-05-29 US US13/055,105 patent/US8560488B2/en active Active
- 2009-05-29 JP JP2010523794A patent/JP5522044B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20110131169A1 (en) | 2011-06-02 |
JPWO2010016313A1 (ja) | 2012-01-19 |
US8560488B2 (en) | 2013-10-15 |
WO2010016313A1 (ja) | 2010-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Du et al. | Robust graph-based semisupervised learning for noisy labeled data via maximum correntropy criterion | |
Hernández-Orallo | ROC curves for regression | |
US8108324B2 (en) | Forward feature selection for support vector machines | |
Fumera et al. | A theoretical and experimental analysis of linear combiners for multiple classifier systems | |
WO2010035659A1 (ja) | 入力データの分類に用いる特徴を選択するための情報処理装置 | |
Antunes et al. | Knee/elbow estimation based on first derivative threshold | |
Sharabiani et al. | Efficient classification of long time series by 3-d dynamic time warping | |
JP5214760B2 (ja) | 学習装置、方法及びプログラム | |
US9842279B2 (en) | Data processing method for learning discriminator, and data processing apparatus therefor | |
JP5522044B2 (ja) | クラスタリング装置、パターン判定方法、およびプログラム | |
Uemura et al. | A multivariate causal discovery based on post-nonlinear model | |
US11972552B2 (en) | Abnormal wafer image classification | |
US20210042550A1 (en) | Information processing device, information processing method, and computer-readable recording medium recording information processing program | |
US8494986B2 (en) | Information processing apparatus, information processing method, and program | |
Akkaya | The Effect of Recursive Feature Elimination with Cross-Validation Method on Classification Performance with Different Sizes of Datasets | |
Singh et al. | Dimensionality reduction for classification and clustering | |
Bajwa et al. | A multifaceted independent performance analysis of facial subspace recognition algorithms | |
WO2009151002A2 (ja) | パターン識別方法、装置およびプログラム | |
CN114742155A (zh) | 基于随机采样聚类的带噪音数据分类方法及用户分类方法 | |
JP2010205043A (ja) | パターン学習方法、装置、およびプログラム | |
Harsh et al. | Onion-peeling outlier detection in 2-d data sets | |
TWI705340B (zh) | 相位圖像生成器的訓練方法及相位圖像分類器的訓練方法 | |
Azam et al. | Spatial image segmentation based on beta-liouville mixture models and markov random field | |
JP2021111097A (ja) | ノイズ推定方法、ノイズ推定プログラム及びノイズ推定装置 | |
Sangeetha et al. | Preprocessing using attribute selection in data stream mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140324 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5522044 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |