JP6824872B2 - クラスタリング装置、クラスタリング方法及びプログラム - Google Patents
クラスタリング装置、クラスタリング方法及びプログラム Download PDFInfo
- Publication number
- JP6824872B2 JP6824872B2 JP2017253902A JP2017253902A JP6824872B2 JP 6824872 B2 JP6824872 B2 JP 6824872B2 JP 2017253902 A JP2017253902 A JP 2017253902A JP 2017253902 A JP2017253902 A JP 2017253902A JP 6824872 B2 JP6824872 B2 JP 6824872B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- vector
- time
- feature vector
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
通常のk-means clusteringでは、クラスタメンバ(すなわち、当該クラスタに属する特徴ベクトル)の平均をクラスタの代表ベクトル(代表ベクトルは、「平均ベクトル」とも称される。)とする。一方、SPKMでは、クラスタの代表ベクトルの長さを調整し、単位超球上の点(長さ1のベクトル)を新たな代表ベクトルとする。例えば、非特許文献1に開示されているSPKMを実施する方法は、クラスタの代表ベクトルとして、クラスタメンバである特徴ベクトルの平均ベクトルを求め、当該平均ベクトルの長さをL2ノルムで正規化し、代表ベクトル(すなわち、新たな平均ベクトル)とする。SPKMでは代表ベクトルも単位超球上のベクトルとするため、誤解を招くような場合を除き、このような新たな平均ベクトルのことを「平均ベクトル」と呼ぶ。
通常のk-means clusteringでは関係性の尺度として、ユークリッド距離(又はユークリッド距離の二乗)が用いられるのに対して、SPKMでは、コサイン類似度(cosine similarity)、すなわち、2つの特徴ベクトルの内積が用いられる。或るオブジェクトの特徴ベクトルxi(xiは列ベクトル表現)と、或るクラスタの代表ベクトル(平均ベクトル)μj(μjは列ベクトル表現)とを用いると、2つの尺度の関係は、以下の式1の通りである。
まず、本発明の実施の形態におけるクラスタリング装置10の機能構成について、図1を参照しながら説明する。図1は、本発明の実施の形態におけるクラスタリング装置10の機能構成の一例を示す図である。
次に、本発明の実施の形態におけるクラスタリング装置10のハードウェア構成について、図2を参照しながら説明する。図2は、本発明の実施の形態におけるクラスタリング装置10のハードウェア構成の一例を示す図である。
次に、本発明の実施の形態におけるクラスタリング装置10が実行する全体処理について、図3を参照しながら説明する。図3は、本発明の実施の形態におけるクラスタリング装置10が実行する全体処理の一例を示すフローチャートである。
以降では、本発明の効果について説明する。
本発明による手法(これを「BND法(similarity-based bounding method(類似度に基づく上下限法)」と呼ぶ。)と従来法との比較例を図10に示す。図10は、同一の或る計算環境下で、SPKMを用いたクラスタリングを行った場合における繰り返し回数と経過時間との関係をプロットした図である。
コサイン類似度を用いた場合(すなわち、本発明による手法(BND法)を用いた場合)と、コサイン類似度の代わりにL2ノルム(ユークリッド距離)を用いた場合との比較例を図11に示す。図11は、同一の或る計算環境下で、SPKMを用いたクラスタリングを行った場合における初期状態(Seed(initial state))と、計算回数の平均削減率(Average reduction rate)との関係をプロットした図である。なお、初期状態(Seed)には、0から20までの21通りを用いた。
J. Drake and G. Hamerly, "Accelerated k-means with adaptive distance bounds," Proc. 5th NIPS Workshop on Optimization for Machine Learning, 2012.
非特許文献3に開示されている方法は、ユークリッド距離を用いた一般的なk-meansクラスタリング法において、或るデータ点を表す特徴ベクトルが所属するクラスタ以外のクラスタの平均ベクトルのうち、最も近い平均ベクトル(すなわち、2番目に近い平均ベクトル)までの距離から、(t−1)回目からt回目のiteration(繰り返し)で最も移動した平均ベクトルの最大変化距離を減算することにより、下限値を算出する。
101 入力部
102 初期設定部
103 割当部
104 更新部
105 終了判定部
106 出力部
107 記憶部
Claims (6)
- 球面上にそれぞれ配置された複数の特徴ベクトルを繰り返し手続きにより複数のクラスタに割り当てるクラスタリング装置であって、
繰り返しの回数を表す変数をtとして、t回目において、前記特徴ベクトル毎に、前記特徴ベクトルと、前記複数のクラスタそれぞれの代表ベクトルとの類似度を計算する類似度計算手段と、
t回目において各特徴ベクトルに対して前記類似度の計算を行うか否かをそれぞれ判定する判定手段と、
t回目において各特徴ベクトルに対して前記類似度の上限値をそれぞれ算出する上限算出手段と、
を有し、
前記上限算出手段は、
前記代表ベクトルのうち、前記特徴ベクトルと2番目に類似する代表ベクトルを第二類似代表ベクトルとして、
前記第二類似代表ベクトルと同一クラスタのt−1回目における代表ベクトルと前記特徴ベクトルとの第一の成す角と、前記t−1回目における代表ベクトルと前記第二類似代表ベクトルとの第二の成す角との2つの成す角を用いて、前記第二類似代表ベクトルが前記特徴ベクトルに仮想的に最も近づいたときの類似度を、t回目における上限値として算出し、
前記判定手段は、
t−1回目における前記上限値を少なくとも用いて、t回目において各特徴ベクトルに対して前記類似度の計算を行うか否かを判定し、
前記類似度計算手段は、
前記判定手段により前記類似度の計算を行わないと判定された特徴ベクトルについては、t回目において前記類似度の計算を行わない、ことを特徴とするクラスタリング装置。 - 前記判定手段によりt回目において類似度の計算を行うと判定された特徴ベクトルについて、前記類似度計算手段により計算された類似度に基づいて、前記特徴ベクトルを前記複数のクラスタのうちのいずれかのクラスタに割り当てる割当手段と、
t回目において、前記クラスタ毎に、前記割当手段により前記クラスタに割り当てられた特徴ベクトルから、t+1回目における各クラスタの代表ベクトルを計算する代表ベクトル計算手段と、
を有することを特徴とする請求項1に記載のクラスタリング装置。 - t回目において各特徴ベクトルに対して前記類似度の下限値をそれぞれ算出する下限算出手段を有し、
前記下限算出手段は、
前記代表ベクトルのうち、前記特徴ベクトルが属するクラスタの代表ベクトルを所属代表ベクトルとして、
前記所属代表ベクトルと同一クラスタのt−1回目における代表ベクトルと前記特徴ベクトルとの第一の成す角と、前記t−1回目における代表ベクトルと前記所属代表ベクトルとの第二の成す角との2つの成す角を用いて、前記所属代表ベクトルが前記特徴ベクトルに仮想的に最も遠ざかったときの類似度を、t回目における下限値として算出し、
前記判定手段は、
t−1回目における前記上限値が、t−1回目における前記下限値以下でなく、かつ、t−1回目における前記上限値が、前記特徴ベクトルと該特徴ベクトルが所属する代表ベクトルとの類似度以下でない場合、t回目において前記類似度の計算を行うと判定し、
t−1回目における前記上限値が、t−1回目における前記下限値以下の場合、又は、t−1回目における前記上限値が、前記特徴ベクトルと該特徴ベクトルが所属する代表ベクトルとの類似度以下の場合、のいずれか一方を満たす場合、t回目において前記類似度の計算を行わないと判定する、ことを特徴とする請求項1又は2に記載のクラスタリング装置。 - 前記類似度計算手段は、
前記類似度として、コサイン類似度又はL2ノルムを計算する、ことを特徴とする請求項1乃至3の何れか一項に記載のクラスタリング装置。 - 球面上にそれぞれ配置された複数の特徴ベクトルを繰り返し手続きにより複数のクラスタに割り当てるコンピュータが、
繰り返しの回数を表す変数をtとして、t回目において、前記特徴ベクトル毎に、前記特徴ベクトルと、前記複数のクラスタそれぞれの代表ベクトルとの類似度を計算する類似度計算手順と、
t回目において各特徴ベクトルに対して前記類似度の計算を行うか否かをそれぞれ判定する判定手順と、
t回目において各特徴ベクトルに対して前記類似度の上限値をそれぞれ算出する上限算出手順と、
を実行し、
前記上限算出手順は、
前記代表ベクトルのうち、前記特徴ベクトルと2番目に類似する代表ベクトルを第二類似代表ベクトルとして、
前記第二類似代表ベクトルと同一クラスタのt−1回目における代表ベクトルと前記特徴ベクトルとの第一の成す角と、前記t−1回目における代表ベクトルと前記第二類似代表ベクトルとの第二の成す角との2つの成す角を用いて、前記第二類似代表ベクトルが前記特徴ベクトルに仮想的に最も近づいたときの類似度を、t回目における上限値として算出し、
前記判定手順は、
t−1回目における前記上限値を少なくとも用いて、t回目において各特徴ベクトルに対して前記類似度の計算を行うか否かを判定し、
前記類似度計算手順は、
前記判定手順により前記類似度の計算を行わないと判定された特徴ベクトルについては、t回目において前記類似度の計算を行わない、ことを特徴とするクラスタリング方法。 - コンピュータを、請求項1乃至4の何れか一項に記載のクラスタリング装置における各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017253902A JP6824872B2 (ja) | 2017-12-28 | 2017-12-28 | クラスタリング装置、クラスタリング方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017253902A JP6824872B2 (ja) | 2017-12-28 | 2017-12-28 | クラスタリング装置、クラスタリング方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019121044A JP2019121044A (ja) | 2019-07-22 |
JP6824872B2 true JP6824872B2 (ja) | 2021-02-03 |
Family
ID=67307857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017253902A Active JP6824872B2 (ja) | 2017-12-28 | 2017-12-28 | クラスタリング装置、クラスタリング方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6824872B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342168B (zh) * | 2023-05-23 | 2023-08-04 | 山东灵动电子商务有限公司 | 一种信息大数据智能采集管理系统 |
-
2017
- 2017-12-28 JP JP2017253902A patent/JP6824872B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019121044A (ja) | 2019-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sevakula et al. | Transfer learning for molecular cancer classification using deep neural networks | |
ling Chen et al. | Towards an optimal support vector machine classifier using a parallel particle swarm optimization strategy | |
Wei et al. | A BPSO-SVM algorithm based on memory renewal and enhanced mutation mechanisms for feature selection | |
Xie et al. | Comparison among dimensionality reduction techniques based on Random Projection for cancer classification | |
JP7293498B2 (ja) | サンプル一致度評価による能動学習 | |
CN109313720B (zh) | 具有稀疏访问的外部存储器的增强神经网络 | |
US10579922B2 (en) | Deep learning using alternating direction method of multipliers | |
Wang et al. | Insensitive stochastic gradient twin support vector machines for large scale problems | |
JP7342242B2 (ja) | 学習を転移させるための学習のためのフレームワーク | |
Baldán et al. | Distributed fastshapelet transform: a big data time series classification algorithm | |
US11971906B2 (en) | Clustering apparatus, clustering method, program and data structure | |
Do | Parallel multiclass stochastic gradient descent algorithms for classifying million images with very-high-dimensional signatures into thousands classes | |
Sharifai et al. | Multiple filter-based rankers to guide hybrid grasshopper optimization algorithm and simulated annealing for feature selection with high dimensional multi-class imbalanced datasets | |
Saeedi et al. | Quantum sparse support vector machines | |
Bertrand et al. | Beyond l1: Faster and better sparse models with skglm | |
JP6824872B2 (ja) | クラスタリング装置、クラスタリング方法及びプログラム | |
Sahito et al. | Semi-supervised learning using Siamese networks | |
US20200301997A1 (en) | Fuzzy Cohorts for Provenance Chain Exploration | |
JP5017941B2 (ja) | モデル作成装置および識別装置 | |
Doan et al. | Large scale classifiers for visual classification tasks | |
US20230267175A1 (en) | Systems and methods for sample efficient training of machine learning models | |
Mor et al. | A genetic algorithm approach for clustering | |
Rossignol et al. | Efficient similarity-based data clustering by optimal object to cluster reallocation | |
JP6831307B2 (ja) | 解算出装置、解算出方法及び解算出プログラム | |
Zabashta et al. | NDSE: Instance Generation for Classification by Given Meta-Feature Description. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6824872 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |