JP5552023B2 - クラスタリング・システム、方法及びプログラム - Google Patents
クラスタリング・システム、方法及びプログラム Download PDFInfo
- Publication number
- JP5552023B2 JP5552023B2 JP2010241065A JP2010241065A JP5552023B2 JP 5552023 B2 JP5552023 B2 JP 5552023B2 JP 2010241065 A JP2010241065 A JP 2010241065A JP 2010241065 A JP2010241065 A JP 2010241065A JP 5552023 B2 JP5552023 B2 JP 5552023B2
- Authority
- JP
- Japan
- Prior art keywords
- kernel
- weight
- distribution
- data
- zero
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
- 先ず、入力データ群の各データ要素間の類似度を与える分布に基づき計算された固定中心、固定バンド幅の多数のカーネル要素を用意し、各カーネル要素には、非負の混合重みが割り当てられる。そして、混合重みが数値的に最適化される。
- カーネル要素の添え字に等しい初期値をもつ、活性要素(active component)の集合が用意される。
- 従来技術のEMアルゴリズムを、刈り込み(pruning)を行う、活性要素毎の(element-wise)最適化の反復に置き換える。
- 1つのカーネルiを選ぶ。より大きい重みをもつカーネルには、選択のより高い優先順位が与えられる。
- 重みが正で、カーネルiのあらわす分布に近い分布をもつ別のカーネルi'を選ぶ。すなわち、
カーネルiの固定中心と固定バンド幅とカーネルi'の固定中心と固定バンド幅とが近くなるようにカーネルi'を選ぶ。
- カーネルiとカーネルi'の重みの和を計算する。
- 対数尤度関数の単調性を調べる。もし対数尤度関数が単調であるなら、カーネルiとカーネルi'の一方が刈り込まれ、他方のカーネルには、カーネルiとカーネルi'の重みの和が割り当てられる。
対数尤度関数の単調性を調べるには、例えば、次のようにする。すなわち先ず、負の対数尤度関数の1次導関数を評価する。
そして、もしその1次導関数が、カーネルiが重みゼロをもつ点で正であるなら、負の対数尤度関数はカーネルiの重みに対して単調増加であり、活性要素から要素iを刈り込む。
一方、その1次導関数が、カーネルi'が重みゼロをもつ点で負であるなら、負の対数尤度関数はカーネルiの重みに対して単調減少であり、活性要素から要素i'を刈り込む。
もし対数尤度関数が単調でないなら、カーネルiにつき、混合重みの一方向最適化を実行する。この一方向最適化とは例えば、要素毎のニュートン・ラフソン法による更新である。
- カーネルiの混合重みの現在の値において、負の対数尤度関数の1次導関数及び2次導関数を評価する。
そして、反復ステップにより混合重みが収束すると、処理は完了する。
xi = (xi1,xi2,...,xid)T
ki ≡ (p(x1|θi),p(x2|θi),...,p(xn|θi))T
すなわち、kij ≡ p(xj|θi)である。
すると、kij ≡ p(xj|xi,σi 2)
ここで、ε(i,j)は、iのj最近傍、すなわち、i番目のデータ要素の、j番目に近いデータ要素のインデックスをあらわす。また、||...||2は、ユークリッド・ノルムをあらわす。さらに、最近傍というときのデータ要素間のノルムも、データ要素のベクトル・データのユークリッド・ノルムであると考えてよい。
λ ≡ (λ1 = 1/m, ..., λm = 1/m)
S = {1,2,...,m}
(ε(i,1),...,ε(i,m-1))をソートし、キャッシュする。
v = (v1,v2,...,vn)T
z = (z1,z2,...,zn)T
K = (k1,k2,...,km)をカーネル行列と呼ぶ。これは一般に、n×mの行列となる。
そこで、z ← Kλ(0)とセットする。
i' ← mink ε(i,k)、但しε(i,k)∈ Sによって、iに基づきi'を選ぶ。
λi (t+1) ← 0
λi' (t+1) ← λi (t) + λi' (t)
z ← v
Sからiを取り除く。
インデックスi,jの使い方が、ステップ310と少し異なることに留意されたい。メイン・ルーチン204は、ステップ318で、その結果得られる、f'ii'0という値が負かどうか判断し、もしそうなら、ステップ320で、刈り込みモジュール212を呼び出して、Sからiを刈り込む。より具体的には、次のような処理を行う。
λi' (t+1) ← 0
λi (t+1) ← λi (t) + λi' (t)
z ← v
Sからi'を取り除く。
||λ(t) - λ(t-1)|| < εであることを以って収束とみなす。ここでのノルム||...||は、ユークリッド・ノルム、マンハッタン・ノルムなど任意のものでよい。
そこで、μikは次のように与えられる。
加法的スムージングの場合:
減法的スムージングの場合:
これらの式で、α,β,δは、割引係数(discounting factor)であり、||...||1は、マンハッタン・ノルムをあらわす。
106 RAM
108 ハードディスク・ドライブ
202 データ
206 データ取込みモジュール
208 予備計算モジュール
210 対数尤度関数の単調性判別モジュール
212 刈り込みモジュール
214 ニュートン・ラフソン法計算モジュール
216 クラスタリング・モジュール
Claims (25)
- コンピュータの処理により、該コンピュータの記憶手段に記憶された複数のデータをクラタリングする方法であって、
前記コンピュータが、
前記複数のデータの間の類似度を与える分布に基づき複数のカーネル要素を計算するステップであって、該各カーネル要素には、非負の混合重みが割り当てられるステップと、
前記混合重みの添え字からなる活性要素の集合を用意するステップと、
以下のステップ(a) - (g)を前記活性要素の集合に適用するステップと、
(a) 前記複数のカーネル要素のうち1つのカーネルiを選ぶステップ、
(b) 重みが正で、カーネルiのあらわす分布に近い分布をもつ別のカーネルi'を選ぶステップ、
(c) カーネルiとカーネルi'の重みの和を計算するステップ、
(d) 前記混合重みの尤度関数について、負の該尤度関数の1次導関数を評価するステップ、
(e) もしその前記1次導関数が、前記カーネルiが重みゼロをもつ点で正であるなら、カーネルiとカーネルi'の重みの和を用いてカーネルi'の重みを更新し、前記カーネルiの重みをゼロにするとともに、前記活性要素の集合から要素iを刈り込むステップ、
(f) 一方、その1次導関数が、前記カーネルi'が重みゼロをもつ点で負であるなら、カーネルiとカーネルi'の重みの和を用いてカーネルiの重みを更新し、前記カーネルi'の重みをゼロにするとともに、前記活性要素の集合から要素i'を刈り込むステップ、及び
(g) もし前記尤度関数が単調でないなら、前記カーネルiにつき、混合重みの一方向最適化を実行するステップ。
前記混合重みの収束を判定し、まだ収束していないなら前記ステップ(a) - (g)を前記要素の集合に適用するステップに戻り、収束しているなら前記混合重みに基づき、前記複数のデータをクラタリングするステップを実行する、
クラタリング方法。 - 前記クラタリングするステップが、前記収束した前記混合重みの非ゼロ成分に前記カーネル要素を掛けた値が最大値をとる添え字に基づき、所属するクラスタを決定する、請求項1に記載の方法。
- 前記複数のデータの間の類似度を与える分布がガウス分布である、請求項1に記載の方法。
- 前記複数のデータの間の類似度を与える分布がディリクレ複合多項分布である、請求項1に記載の方法。
- 前記一方向最適化が、ニュートン・ラフソン法である、請求項1に記載の方法。
- コンピュータの処理により、該コンピュータの記憶手段に記憶された複数のデータをクラタリングするプログラムであって、
前記コンピュータに、
前記複数のデータの間の類似度を与える分布に基づき複数のカーネル要素を計算するステップであって、該各カーネル要素には、非負の混合重みが割り当てられるステップと、
前記混合重みの添え字からなる活性要素の集合を用意するステップと、
以下のステップ(a) - (g)を前記活性要素の集合に適用するステップと、
(a) 前記複数のカーネル要素のうち1つのカーネルiを選ぶステップ、
(b) 重みが正で、カーネルiのあらわす分布に近い分布をもつ別のカーネルi'を選ぶステップ、
(c) カーネルiとカーネルi'の重みの和を計算するステップ、
(d) 前記混合重みの尤度関数について、負の該尤度関数の1次導関数を評価するステップ、
(e) もしその前記1次導関数が、前記カーネルiが重みゼロをもつ点で正であるなら、カーネルiとカーネルi'の重みの和を用いてカーネルi'の重みを更新し、前記カーネルiの重みをゼロにするとともに、前記活性要素の集合から要素iを刈り込むステップ、
(f) 一方、その1次導関数が、前記カーネルi'が重みゼロをもつ点で負であるなら、カーネルiとカーネルi'の重みの和を用いてカーネルiの重みを更新し、前記カーネルi'の重みをゼロにするとともに、前記活性要素の集合から要素i'を刈り込むステップ、及び
(g) もし前記尤度関数が単調でないなら、前記カーネルiにつき、混合重みの一方向最適化を実行するステップ。
前記混合重みの収束を判定し、まだ収束していないなら前記ステップ(a) - (g)を前記要素の集合に適用する手段を実行し、収束しているなら前記混合重みに基づき、前記複数のデータをクラタリングするステップを実行させる、
クラタリング・プログラム。 - 前記クラタリングするステップが、前記収束した前記混合重みの非ゼロ成分に前記カーネル要素を掛けた値が最大値をとる添え字に基づき、所属するクラスタを決定する、請求項6に記載のプログラム。
- 前記複数のデータの間の類似度を与える分布がガウス分布である、請求項6に記載のプログラム。
- 前記複数のデータの間の類似度を与える分布がディリクレ複合多項分布である、請求項6に記載のプログラム。
- 前記一方向最適化が、ニュートン・ラフソン法である、請求項6に記載のプログラム。
- コンピュータの処理により、該コンピュータの記憶手段に記憶された複数のデータをクラタリングするシステムであって、
前記複数のデータの間の類似度を与える分布に基づき複数のカーネル要素を計算する手段であって、該各カーネル要素には、非負の混合重みが割り当てられる手段と、
前記混合重みの添え字からなる活性要素の集合を用意する手段と、
以下のステップ(a) - (g)を前記活性要素の集合に適用する手段と、
(a) 前記複数のカーネル要素のうち1つのカーネルiを選ぶステップ、
(b) 重みが正で、カーネルiのあらわす分布に近い分布をもつ別のカーネルi'を選ぶステップ、
(c) カーネルiとカーネルi'の重みの和を計算するステップ、
(d) 前記混合重みの尤度関数について、負の該尤度関数の1次導関数を評価するステップ、
(e) もしその前記1次導関数が、前記カーネルiが重みゼロをもつ点で正であるなら、カーネルiとカーネルi'の重みの和を用いてカーネルi'の重みを更新し、前記カーネルiの重みをゼロにするとともに、前記活性要素の集合から要素iを刈り込むステップ、
(f) 一方、その1次導関数が、前記カーネルi'が重みゼロをもつ点で負であるなら、カーネルiとカーネルi'の重みの和を用いてカーネルiの重みを更新し、前記カーネルi'の重みをゼロにするとともに、前記活性要素の集合から要素i'を刈り込むステップ、及び
(g) もし前記尤度関数が単調でないなら、前記カーネルiにつき、混合重みの一方向最適化を実行するステップ。
前記混合重みの収束を判定し、まだ収束していないなら前記ステップ(a) - (g)を前記要素の集合に適用するステップに戻り、収束しているなら前記混合重みに基づき、前記複数のデータをクラタリングする手段を有する、
クラタリング・システム。 - 前記クラタリングする手段が、前記収束した前記混合重みの非ゼロ成分に前記カーネル要素を掛けた値が最大値をとる添え字に基づき、所属するクラスタを決定する、請求項11に記載のシステム。
- 前記複数のデータの間の類似度を与える分布がガウス分布である、請求項11に記載のシステム。
- 前記複数のデータの間の類似度を与える分布がディリクレ複合多項分布である、請求項11に記載のシステム。
- 前記一方向最適化が、ニュートン・ラフソン法である、請求項11に記載のシステム。
- コンピュータの処理により、該コンピュータの記憶手段に記憶された複数のデータをクラタリングする方法であって、
前記コンピュータが、
前記複数のデータの間の類似度を与える分布に基づき複数のカーネル要素を計算するステップであって、該各カーネル要素には、非負の混合重みが割り当てられるステップと、
前記混合重みの添え字からなる活性要素の集合を用意するステップと、
所与のカーネル要素と、該所与のカーネル要素のあらわす分布に近い分布をもつカーネル要素の添え字を前記活性要素の集合から選ぶステップと、
前記混合重みの尤度関数の単調性の判定に基づき、一方のカーネル要素に対応する活性配列要素からの刈り込み及び対応する混合重みを0とおくこと、他方のカーネル要素に対応する活性配列要素の刈り込み及び対応する混合重みを0とおくこと、または、一方のカーネル要素に対する一方向最適化を実行するステップと、
混合重みの収束を判定するステップと、
収束判定に応答して、混合重みに基づき、入力データ群のデータをクラスタリングするステップを実行する、
クラスタリング方法。 - 前記クラタリングするステップが、前記収束した前記混合重みの非ゼロ成分に前記カーネル要素を掛けた値が最大値をとる添え字に基づき、所属するクラスタを決定する、請求項16に記載の方法。
- 前記複数のデータの間の類似度を与える分布がガウス分布である、請求項16に記載の方法。
- 前記複数のデータの間の類似度を与える分布がディリクレ複合多項分布である、請求項16に記載の方法。
- 前記一方向最適化が、ニュートン・ラフソン法である、請求項16に記載の方法。
- コンピュータの処理により、該コンピュータの記憶手段に記憶された複数のデータをクラタリングするプログラムであって、
前記コンピュータに、
前記複数のデータの間の類似度を与える分布に基づき複数のカーネル要素を計算するステップであって、該各カーネル要素には、非負の混合重みが割り当てられるステップと、
前記混合重みの添え字からなる活性要素の集合を用意するステップと、
所与のカーネル要素と、該所与のカーネル要素のあらわす分布に近い分布をもつカーネル要素の添え字を前記活性要素の集合から選ぶステップと、
前記混合重みの尤度関数の単調性の判定に基づき、一方のカーネル要素に対応する活性配列要素からの刈り込み及び対応する混合重みを0とおくこと、他方のカーネル要素に対応する活性配列要素の刈り込み及び対応する混合重みを0とおくこと、または、一方のカーネル要素に対する一方向最適化を実行するステップと、
混合重みの収束を判定するステップと、
収束判定に応答して、混合重みに基づき、入力データ群のデータをクラスタリングするステップを実行させる、
クラスタリング・プログラム。 - 前記クラタリングするステップが、前記収束した前記混合重みの非ゼロ成分に前記カーネル要素を掛けた値が最大値をとる添え字に基づき、所属するクラスタを決定する、請求項21に記載のプログラム。
- 前記複数のデータの間の類似度を与える分布がガウス分布である、請求項21に記載のプログラム。
- 前記複数のデータの間の類似度を与える分布がディリクレ複合多項分布である、請求項21に記載のプログラム。
- 前記一方向最適化が、ニュートン・ラフソン法である、請求項21に記載のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010241065A JP5552023B2 (ja) | 2010-10-27 | 2010-10-27 | クラスタリング・システム、方法及びプログラム |
US13/271,820 US8805841B2 (en) | 2010-10-27 | 2011-10-12 | Clustering system, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010241065A JP5552023B2 (ja) | 2010-10-27 | 2010-10-27 | クラスタリング・システム、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012093976A JP2012093976A (ja) | 2012-05-17 |
JP5552023B2 true JP5552023B2 (ja) | 2014-07-16 |
Family
ID=45997824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010241065A Expired - Fee Related JP5552023B2 (ja) | 2010-10-27 | 2010-10-27 | クラスタリング・システム、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8805841B2 (ja) |
JP (1) | JP5552023B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015004996A (ja) * | 2012-02-14 | 2015-01-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 複数の文書をクラスタリングする装置 |
CN103632303A (zh) * | 2012-08-21 | 2014-03-12 | 北京友友天宇系统技术有限公司 | 多重属性关联的磁性对象网络服务方法及系统 |
WO2018069973A1 (ja) | 2016-10-11 | 2018-04-19 | 富士通株式会社 | 集計プログラム、集計装置、及び集計方法 |
EP3367261A1 (de) * | 2017-02-28 | 2018-08-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum klassifizieren von information und klassifizierungsprozessor |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0204474D0 (en) | 2002-02-26 | 2002-04-10 | Canon Kk | Speech recognition system |
JP3889663B2 (ja) * | 2002-05-13 | 2007-03-07 | 日本電信電話株式会社 | 分類装置、分類方法、分類プログラム及びそのプログラムを記録した記録媒体 |
US20040086185A1 (en) * | 2002-10-31 | 2004-05-06 | Eastman Kodak Company | Method and system for multiple cue integration |
JP4376145B2 (ja) * | 2004-07-22 | 2009-12-02 | 日立ソフトウエアエンジニアリング株式会社 | 画像分類学習処理システム及び画像識別処理システム |
JP4812661B2 (ja) * | 2006-03-27 | 2011-11-09 | 株式会社デンソーアイティーラボラトリ | 地図表示システムおよび地図表示方法 |
US7680664B2 (en) | 2006-08-16 | 2010-03-16 | Microsoft Corporation | Parsimonious modeling by non-uniform kernel allocation |
JP5164209B2 (ja) * | 2008-06-20 | 2013-03-21 | 日本電信電話株式会社 | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 |
-
2010
- 2010-10-27 JP JP2010241065A patent/JP5552023B2/ja not_active Expired - Fee Related
-
2011
- 2011-10-12 US US13/271,820 patent/US8805841B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012093976A (ja) | 2012-05-17 |
US8805841B2 (en) | 2014-08-12 |
US20120109975A1 (en) | 2012-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11720822B2 (en) | Gradient-based auto-tuning for machine learning and deep learning models | |
US11645493B2 (en) | Flow for quantized neural networks | |
Das et al. | A group incremental feature selection for classification using rough set theory based genetic algorithm | |
WO2020143321A1 (zh) | 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 | |
US20190340499A1 (en) | Quantization for dnn accelerators | |
US10579922B2 (en) | Deep learning using alternating direction method of multipliers | |
US20220076150A1 (en) | Method, apparatus and system for estimating causality among observed variables | |
EP3467723A1 (en) | Machine learning based network model construction method and apparatus | |
Wang et al. | Insensitive stochastic gradient twin support vector machines for large scale problems | |
JP5552023B2 (ja) | クラスタリング・システム、方法及びプログラム | |
CN116629352A (zh) | 一种亿级参数寻优平台 | |
WO2022188711A1 (zh) | Svm模型的训练方法、装置、设备和计算机可读存储介质 | |
Murphy et al. | A multiscale environment for learning by diffusion | |
CN113516019B (zh) | 高光谱图像解混方法、装置及电子设备 | |
WO2022031561A1 (en) | Memory usage prediction for machine learning and deep learning models | |
CN116541006A (zh) | 一种计算机人机交互界面的图形处理方法和装置 | |
Wu et al. | BVDT: A boosted vector decision tree algorithm for multi-class classification problems | |
US20230229570A1 (en) | Graph machine learning for case similarity | |
WO2020167156A1 (ru) | Способ отладки обученной рекуррентной нейронной сети | |
CN114399653A (zh) | 一种基于锚点图的快速多视图离散聚类方法及系统 | |
Wit | Big data and biostatistics: The death of the asymptotic Valhalla | |
Wu et al. | Node Importance-Based Semi-supervised Nonnegative Matrix Factorization for Image Clustering | |
US20230195842A1 (en) | Automated feature engineering for predictive modeling using deep reinforcement learning | |
Ivannikova | Scalable implementation of dependence clustering in Apache Spark | |
Karrar et al. | Comparing EM clustering algorithm with density based clustering algorithm using weka tool |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140523 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5552023 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |