JP6965206B2 - クラスタリング装置、クラスタリング方法およびプログラム - Google Patents

クラスタリング装置、クラスタリング方法およびプログラム Download PDF

Info

Publication number
JP6965206B2
JP6965206B2 JP2018090495A JP2018090495A JP6965206B2 JP 6965206 B2 JP6965206 B2 JP 6965206B2 JP 2018090495 A JP2018090495 A JP 2018090495A JP 2018090495 A JP2018090495 A JP 2018090495A JP 6965206 B2 JP6965206 B2 JP 6965206B2
Authority
JP
Japan
Prior art keywords
data
parameter
distribution
guess
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018090495A
Other languages
English (en)
Other versions
JP2019197355A (ja
Inventor
亜玲 陶
健太郎 高木
康太 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018090495A priority Critical patent/JP6965206B2/ja
Priority to US16/296,458 priority patent/US10970313B2/en
Publication of JP2019197355A publication Critical patent/JP2019197355A/ja
Application granted granted Critical
Publication of JP6965206B2 publication Critical patent/JP6965206B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、クラスタリング装置、クラスタリング方法およびプログラムに関する。
クラスタリングは、データセットに含まれる各データを複数のクラスに分類する技術である。クラスタリングの例として、ディープニューラルネットワークを利用したDEC(Deep Embedded Clustering)と呼ばれる技術が提案されている。
Takeru Miyato et al., "Distributional Smoothing with Virtual Adversarial Training",arXiv:1507.00677, 11 Jun 2016 Junyuan Xie et al., "Unsupervised Deep Embedding for Clustering Analysis",arXiv:1511.06335, 24 May 2016
しかしながら、DECなどの従来技術では、サンプル数の少ないクラスを正確に分類することが難しく、不均衡データセットに対する分類性能が低下する場合があった。
実施形態のクラスタリング装置は、決定部と、算出部と、更新部と、分類部と、を備える。決定部は、入力データを第1変換データに変換する変換処理のパラメータである第1パラメータを決定する。算出部は、複数のクラスタそれぞれのパラメータである複数の第2パラメータを用いて、第1変換データがクラスタに属する確率を表す複数の第1推測分布を算出する。更新部は、第1推測分布と目標分布との差異を示す第1差異、および、第1推測分布と、入力データを拡張したデータを変換した第2変換データがクラスタに属する確率を表す第2推測分布との差異を表す第2差異、を最適化するように、第1パラメータおよび第2パラメータを更新する。分類部は、更新された第2パラメータを用いて算出される第1推測分布に基づいて入力データを複数のクラスタに分類する。
本実施形態のネットワークモデルの例を示す図。 本実施形態にかかるクラスタリング装置の機能ブロック図。 本実施形態におけるクラスタリング処理のフローチャート。 従来手法および本実施形態によるクラスタリングの精度を示す図。 DECによる学習過程を示す図。 RDECによる学習過程を示す図。 重みγとACCとの関係を示す図。 本実施形態にかかるクラスタリング装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかるクラスタリング装置の好適な実施形態を詳細に説明する。
最初に、DECの概要と問題点について説明する。DECは、例えば以下のような特徴を有する。
・推測分布の初期値が、ある程度、正確に推測されることを前提とする。
・クラスタ内でセントロイドに近いデータがセントロイドに集まる。
・境界付近のデータは、個数が少ないクラスタのセントロイドに近づく。
以上の特徴から、DECでは、セントロイドの配置が悪くなると性能が劣化する。このような状況は、特に不均衡データセットが処理対象となる場合に発生する。不均衡データセットは、例えば、各クラスに属するデータの個数が不均衡となっているデータセットである。不均衡データセットは、例えば以下のような状況で生じうる。
・まれな病気を示すデータを含む、医療診断に用いるデータセット
・まれに発生する欠陥品のデータを含む、製品テストに用いるデータセット
データセットには例えば製品テストのプロセスで記録したデータなども含まれる。
そこで本実施形態のクラスタリング装置は、データ拡張技術とDECとを組み合わせることにより、不均衡データセットに対してもクラスタリングの精度を向上させることを可能とする。データ拡張技術は、例えば、VAT(Virtual Adversarial Training)である。VATは、クラスタリング処理の対象となるデータに微小な変化(摂動)を加えてデータを拡張し、ディープニューラルネットワークを学習する技術である。処理の対象となるデータに摂動を加えたデータは潜在空間において同じ分布になるように学習される。VATでは、推測分布の変化量が他の方向より大きい方向(例えば変化量が最大となる方向)に摂動が加えられる。
なお、VAT以外の方法でデータを拡張してもよい。例えば固定の摂動を入力データに加える方法、および、入力データが画像の場合は入力データに回転などの変換処理を加える方法を適用してもよい。
VATは、ニューラルネットワークを正則化するための学習手法と解釈することができる。VATでは、例えばあるデータの周辺のデータは、いずれも同じ分布に含まれるように学習される。またVATでは、類似する複数のデータは、潜在空間上で近くに位置するように学習される。
本実施形態では、VATとDECとを組み合わせることにより、相互に類似したデータの分布をまとめながら(VAT)、かつ、対応する各クラスタのセントロイドを遠ざけつつ凝縮する(DEC)ことができる。以下では、本実施形態の手法をRDECと呼ぶ場合がある。
本実施形態で処理対象とするデータ(入力データ)は、どのような種類であってもよい。例えば入力データは、画像データ、テキストデータ、および、センサデータなどである。データの形式は、例えばベクトル形式であるが、どのような形式であってもよい。
次に、本実施形態で用いる用語について説明する。
本実施形態では、処理対象とする複数のデータをデータセットXとする。データセットXは、n個(nは2以上の整数)のデータ(サンプルデータ)を含む。n個のデータは、それぞれd次元(dは2以上の整数)のデータとする。x∈Rは、データセットXに含まれる、インデックスi(0≦i≦n−1)で識別されるデータを表す。区別する必要がない場合は、インデックスiを省略して、単にデータxという場合がある。
Kは、分類するクラスタの個数を表す。クラスタは、インデックスj(0≦j≦K−1)で識別される。各クラスタは、セントロイドuにより表現される。セントロイドは、クラスタパラメータ(第2パラメータ)の一例である。クラスタリングでは、同じクラスタに属するすべてのサンプル(データ)は相互に類似し、異なるクラスタに属するサンプル(データ)は相互に類似しないように、各データxがK個のクラスタに分類される。
DECと同様に、本実施形態(RDEC)では、データセットXを含む空間で直接クラスタリングは実行されない。各データは、非線形写像fθ:X→Zにより潜在空間(潜在特徴空間)Z上のデータ(変換データ)に変換される。DECと同様に、fθは、例えばディープニューラルネットワークとすることができる。θは、例えばディープニューラルネットワークの学習可能なパラメータ(第1パラメータ)を表す。パラメータθは、例えば、重みおよびバイアスなどである。
潜在空間Zで表されたデータを、以下では潜在空間特徴量z(または潜在空間特徴量z)という場合がある。潜在空間特徴量zは、データxを非線形写像fθにより変換したデータである。非線形写像fθはディープニューラルネットワークを用いた写像に限られず、どのような写像であってもよい。
パラメータθの初期値は、例えば自己符号化器(オートエンコーダ)により学習される。初期値の学習方法は、例えばDECと同じ方法を適用できる。
次に、本実施形態の処理の概要について説明する。図1は、本実施形態のネットワークモデル(RDECモデル)の例を示す図である。RDECモデルは、ニューラルネットワーク層11、12、および、クラスタリング層13の3つの層を含む。
ニューラルネットワーク層11は、データセットXを潜在空間Zのデータに変換する。ニューラルネットワーク層12は、潜在空間Zのデータを、データセットXと同じ次元のデータセットX’の空間のデータに変換する。クラスタリング層13は、潜在空間ZのデータをK個のクラスタに分類する。例えば各データは、各クラスタに属する確率を表す推測分布Q(第1推測分布)により、各クラスタに割り当てられる。
RDECモデルでは、データxを拡張した拡張データx+radvが用いられる。Q(x+radv)は、拡張データに対して割り当てられた推測分布(第2推測分布)を表す。入力データに対するクラスタリングの結果としては、Q(x+radv)を出力する必要はない。
RDECモデルは、クラスタリングモデル、オートエンコーダモデル、および、VATモデルの3つのサブモデルを含む。
クラスタリングモデルは、データxを潜在空間特徴量zに変換し、潜在空間特徴量zをクラスタリングして推測分布Qを出力する経路1に相当する。
オートエンコーダモデルは、データxを潜在空間特徴量zに変換し、潜在空間特徴量zを、データセットX’の空間のデータに再構成したデータx’に変換する経路2に相当する。オートエンコーダモデルは、ニューラルネットワーク層11、12で用いるニューラルネットワークのパラメータの初期値を求めるための機能である。
VATモデルは、データxを潜在空間特徴量zに変換し、潜在空間特徴量zをクラスタリングして推測分布Q(x+radv)を出力する経路3に相当する。
次に、クラスタリングモデル、VATモデル、および、両者を組み合わせたRDECモデルの構成例の詳細について説明する。
(クラスタリングモデル)
上述のように、クラスタリングは潜在空間Z上のデータに対して実行される。最初に、潜在空間特徴量zが、以下の(1)式に示す確率qij(qij∈Q)によって、セントロイドuにより表現されるクラスタに割り当てられる。確率qijは、スチューデントのt分布によって測定される、確率qijは、潜在空間特徴量zとセントロイドuとの類似度(距離)を表すと解釈することもできる。
Figure 0006965206
αは、自由度であり、例えば1が設定される。セントロイドuは、例えば、K平均法などのクラスタリング手法により潜在空間Z上で初期化される。
推測分布Qに対応する目標分布Pに含まれる各pij∈Pは、以下の(2)式により表される。fは以下の(3)式で表される確率重み付きクラスタサイズである。
Figure 0006965206
Figure 0006965206
(2)式に示すように、目標分布は、推測分布をべき乗(s乗)した値、および、複数のクラスタに対する複数の推測分布の和を用いて算出される。sは、データに対するクラスタの割り当ての確信度が高いほど、推測分布と目標分布とが近くなるように定められる定数である。通常のDECではs=2が用いられるが、RDECモデルではsは調整可能である。例えばsは1以上の実数とすることができる。
クラスタリングモデルは、推測分布と目標分布とをマッチングすることにより学習される。クラスタリングモデルの目的関数Lは、以下の(4)式に示すように、推測分布Qと目標分布Pとの間のKLダイバージェンスロス(Kullback-Leibler divergence loss)で定義される。
Figure 0006965206
(VATモデル)
VATモデルの目的関数Lは、以下の(5)式に示すように、データxの推測分布Qと、データxに対応する拡張データ(x+radv)の推測分布Q(x+radv)との間のKLダイバージェンスロスで定義される。
Figure 0006965206
advは、敵対的摂動である。radvは、例えば以下の(6)式により算出される。rは、データの平均を変更しない摂動である。εは摂動のサイズを示すハイパーパラメータであり、例えば1が設定される。
Figure 0006965206
(RDECモデル)
RDECモデルの目的関数Lは、以下の(7)式に示すように、目的関数Lと目的関数Lとの重み付け和により表される。γ(>0)は、正則化ロスの程度を制御するための重みを表す。
Figure 0006965206
(7)式の目的関数Lは、例えば、ミニバッチ確率勾配降下法および誤差逆伝播法(バックプロパゲーション)を用いて最適化(学習)される。潜在空間特徴量z、セントロイドu、および、推測分布Qは、学習の各繰り返しで更新される。一方、目標分布Pは、更新間隔τごとに更新される。最適化処理は、例えば、連続する2回の繰り返し処理間の変更率が閾値σより小さくなった、または、繰り返し回数が最大値Itrに達した、などの終了条件が満たされたときに終了する。
次に、本実施形態の機能構成例について説明する。図2は、本実施形態にかかるクラスタリング装置100の機能構成の一例を示すブロック図である。図2に示すように、クラスタリング装置100は、決定部101と、算出部102と、更新部103と、分類部104と、出力制御部105と、記憶部121と、を備えている。
決定部101は、クラスタリングの対象とする入力データを変換データに変換する変換処理のパラメータ(第1パラメータ)の初期値を決定する。上記のように、変換処理をディープニューラルネットワークによる非線形写像fθとする場合、決定部101は、例えば自己符号化器を用いてパラメータθを決定する。決定部101は、上記のように例えばK平均法によりセントロイドuの初期値を決定してもよい。
算出部102は、クラスタリングで用いられるデータおよび分布などを算出する。例えば算出部102は、入力データを変換写像により変換データに変換する。また算出部102は、複数のクラスタそれぞれのクラスタパラメータ(セントロイド)を用いて、変換データが各クラスタに属する確率を表す推測分布を算出する。例えば算出部102は、上記(1)式を用いて推測分布Qを算出する。また算出部102は、上記(2)〜(7)式を用いた算出処理を行う。
更新部103は、RDECモデルの目的関数を最適化するように、変換処理のパラメータ(例えばパラメータθ)およびクラスタパラメータ(例えばセントロイド)を更新する。例えば更新部103は、上記(7)式で表される目的関数Lを、ミニバッチ確率勾配降下法および誤差逆伝播法を用いて学習し、各パラメータを更新する。
分類部104は、更新されたクラスタパラメータを用いて算出される推測分布に基づいて、入力データを複数のクラスタのいずれかに分類する。例えば分類部104は、入力データを、その入力データが属する確率が最大となるクラスタに分類する。
出力制御部105は、各種データの出力処理を制御する。例えば出力制御部105は、分類部104による処理結果を出力する。処理結果は、例えば、分類したクラスタに付与されたラベルなどである。出力方法はどのような方法であってもよいが、例えば、以下のような方法を適用できる。
・クラスタリング装置100または他の装置に備えられたディスプレイに出力
・他の装置にネットワークを介して送信
上記各部(決定部101、算出部102、更新部103、分類部104、および、出力制御部105)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
記憶部121は、各種処理で用いられる各種データを記憶する。例えば記憶部121は、学習に用いる学習データ、および、学習するパラメータ(クラスタパラメータ、パラメータθ)などを記憶する。
記憶部121は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
クラスタリング装置100は、例えば、CPUなどのプロセッサを備えるコンピュータであるサーバ装置などにより実現してもよい。サーバ装置は、クラウド上で処理を実行するクラウドサーバであってもよい。
次に、このように構成された本実施形態にかかるクラスタリング装置100によるクラスタリング処理について説明する。図3は、本実施形態におけるクラスタリング処理の一例を示すフローチャートである。
まず決定部101は、クラスタリングの対象となる入力データのデータセットを取得する(ステップS101)。データセットは、記憶部121から取得する方法、および、他の装置からネットワークを介して取得する方法などの、どのような方法で取得してもよい。
決定部101は、変換処理のパラメータの初期値を決定する(ステップS102)。例えば決定部101は、ディープニューラルネットワークによる非線形写像fθのパラメータθを、自己符号化器を用いて決定する。
ステップS103〜ステップS105では、決定されたパラメータθの初期値などを用いて、パラメータθおよびクラスタパラメータを最適化するように、学習処理が繰り返し実行される。
まず算出部102は、例えば上記(7)式により、RDECの目的関数の値を算出する(ステップS103)。更新部103は、算出された目的関数を最適化するように、パラメータθおよびクラスタパラメータを更新する(ステップS104)。更新部103は、更新が終了したか否かを判定する(ステップS105)。例えば更新部103は、上記のように、連続する繰り返し処理間の変更率が閾値σより小さくなった場合、または、繰り返し回数が最大値Itrに達した場合に、更新が終了したと判定する。
更新が終了していない場合(ステップS105:No)、ステップS103に戻り処理が繰り返される。更新が終了した場合(ステップS105:Yes)、分類部104は、最適化されたパラメータを用いて算出される推測分布に基づいて、入力データをクラスタに分類する(ステップS106)。出力制御部105は、分類の結果を出力し(ステップS107)、クラスタリング処理を終了する。
次に、本実施形態と従来手法の分類性能について説明する。図4は、6種類のデータセットに対する、従来手法および本実施形態によるクラスタリングの精度を示す図である。従来手法は、K平均法(K−means)、および、DECである。精度の評価尺度としては、非特許文献2に記載されたAccuracy(ACC)を用いた。
6種類のデータセットは、以下のように、公開されているデータセット、または、公開されているデータセットに基づいて不均衡データセットとなるようにサンプリングされたデータセットを用いた。
(D1)MNIST:7万の手書き数字(0〜9)のデータセット。各クラスは、ほぼ同数のサンプルを有する。
(D2)MNIST_Imb_0:MNISTから不均衡データセットとなるようにサンプリングされた手書き数字画像のデータセット。本実施形態では、数字「0」に対応するクラス0のデータのうち10%をサンプリングし、他の数字はすべてのデータを用いた。
(D3)Reuters:約81万のテキストを含むオリジナルのReutersデータセットから抽出したデータセット。非特許文献2と同様に、“corporate/industrial”、“government/social”、“markets”、および、“economics”の4つのカテゴリに属するデータを抽出した。
(D4)Reuters_Imb:Reutersから不均衡データセットとなるようにサンプリングされたテキストのデータセット。あるクラスのデータの個数が、他のクラスのデータの個数の10%となるようにサンプリングしたデータセットである。
(D5)STL_VGG:飛行機、鳥、および、車両などのラベルが付された10クラスの画像のデータセットであるSTLに基づき生成されるデータセット。畳み込みニューラルネットワークモデルであるvgg−16を用いてSTLから抽出された2048次元の特徴ベクトルのデータセットである。各クラスは1300個のデータを含む。
(D6)STL_VGG_Imb:STL_VGGから不均衡データセットとなるようにサンプリングされた画像のデータセット。ある1つのクラスが130個のデータとなるようにSTL_VGGからサンプリングされたデータセットである。
本実施形態のRDECモデルとしては、重みγ、および、目標分布Pの算出((2)式)で用いられる定数sの組み合わせを変更した以下の3パターンでACCを算出した。
(P1)γ=2、s=2
(P2)γ=5、s=2
(P3)γ=5、s=4
各手法についてそれぞれ5回ACCを算出し、5回のACCの平均値および標準偏差を算出した。図4では、上段の数値が平均値を表し、下段の括弧内の数値が標準偏差を表す。
図4に示すように、ほとんどのデータセットについて、RDECは従来手法より高い分類性能を得られた。特に、MNISTに対してパターン(P2)のRDECを用いた場合、ACCは98.43%(標準偏差0.03)となった。また図4に示すように、不均衡データセットである(D2)および(D4)については、定数sを2から4に変更すると、より大きいACCが得られた。
図5および図6は、それぞれ従来のDECおよびRDECによる学習過程を示す図である。図5および図6の例では、10%をサンプリングしたクラス0のデータ、および、クラス6の全データを含む、minstに基づく不均衡データセットを用いた。
図5および図6は、初期状態、並びに、繰り返し回数が140、280、420、560、700、840、および、980となったときの各状態に対応するグラフを表す。各グラフは、2次元に次元圧縮した潜在空間上での各データを表す。
図5の領域501a〜501h、および、図6の領域601a〜601hは、クラス0のデータが多く分布する領域を表す。図5の511および図6の611のような白丸は、2つのクラスに対応するセントロイドを表す。図5に示すように、DECでは2つのクラスが適切に分類されていない。一方、図6に示すように、RDECによれば、クラス0のデータおよびクラス6のデータがより高精度に分類されている。
DECの分類精度が低いのは、上述のように、セントロイドの配置が悪いことが原因の1つであると考えられる。不均衡データセットではセントロイドの配置が悪くなる場合が多い。これに対してRDECは、セントロイドの初期値に対して頑健性を有することを示している。
次に、重みγの値の設定について説明する。上記(7)式に含まれるパラメータである重みγは、クラスタリングの結果に影響する。図7は、重みγと、ACCとの関係を示す図で、重みγがACCに与えた影響を示す。図7では、MNISTと、MNISTに基づきサンプリングした不均衡データセット(imbalanced MNIST)とについて、重みγを0、1、2、3、4、5、6、7、8、9、10に設定し、それぞれ5回のクラスタリング処理を実行したときのACCの平均値および標準偏差が示されている。もう1つのパラメータである定数sは2を設定した。なおγ=0のとき、RDECはDECと同等の機能となる。
図7に示すように、MNISTについては、γが2以上の場合に、ACCが高くかつ偏差が小さい安定した分類精度が得られる。不均衡データセットについては、γの値に応じてACCは増加するが、いくつかの値では分類精度が安定していない。図7の結果からは、重みγの値は、2〜6に設定することが推奨される。
以上のように、本実施形態にかかるクラスタリング装置では、サンプル数の少ないデータを含むデータセットに対しても、クラスタリング処理をより高精度に実行可能となる。
次に、本実施形態にかかるクラスタリング装置のハードウェア構成について図8を用いて説明する。図8は、本実施形態にかかるクラスタリング装置のハードウェア構成例を示す説明図である。
本実施形態にかかるクラスタリング装置は、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
本実施形態にかかるクラスタリング装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
本実施形態にかかるクラスタリング装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、本実施形態にかかるクラスタリング装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかるクラスタリング装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
本実施形態にかかるクラスタリング装置で実行されるプログラムは、コンピュータを上述したクラスタリング装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
11、12ニューラルネットワーク層
13 クラスタリング層
100 クラスタリング装置
101 決定部
102 算出部
103 更新部
104 分類部
105 出力制御部
121 記憶部

Claims (12)

  1. データを複数のクラスタに分類するクラスタリングの対象とする入力データを第1変換データに変換する変換処理のパラメータである第1パラメータを決定する決定部と、
    複数の前記クラスタそれぞれのパラメータである複数の第2パラメータを用いて、前記第1変換データが前記クラスタに属する確率を表す複数の第1推測分布を算出する算出部と、
    前記第1推測分布と前記第1推測分布を用いて算出される目標分布との差異を示す第1差異、および、前記第1推測分布と、前記入力データを拡張したデータを前記第1パラメータにより変換した第2変換データが前記クラスタに属する確率を表す第2推測分布との差異を表す第2差異、を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する更新部と、
    更新された前記第2パラメータを用いて算出される前記第1推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類部と、
    を備えるクラスタリング装置。
  2. 前記第2推測分布は、前記入力データに摂動が加えられたデータを前記第1パラメータにより変換した前記第2変換データが前記クラスタに属する確率を表す、
    請求項1に記載のクラスタリング装置。
  3. 前記第2推測分布は、前記入力データに対して、変化量が他の方向より大きい方向に摂動が加えられたデータを前記第1パラメータにより変換した前記第2変換データが前記クラスタに属する確率を表す、
    請求項2に記載のクラスタリング装置。
  4. 前記更新部は、前記第1差異と前記第2差異との重み付け和を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する、
    請求項1に記載のクラスタリング装置。
  5. 前記決定部は、自己符号化器を用いて前記第1パラメータを決定する、
    請求項1に記載のクラスタリング装置。
  6. 前記変換処理は、ニューラルネットワークを用いた変換処理である、
    請求項1に記載のクラスタリング装置。
  7. 前記算出部は、前記第1変換データをクラスタリングすることにより、前記第2パラメータの初期値を算出する、
    請求項1に記載のクラスタリング装置。
  8. 前記算出部は、前記第1推測分布をべき乗した値を用いて前記目標分布を算出する、
    請求項1に記載のクラスタリング装置。
  9. 前記算出部は、前記第1推測分布をs乗(sは1以上の実数)した値を用いて前記目標分布を算出する、
    請求項8に記載のクラスタリング装置。
  10. 前記算出部は、複数の前記クラスタに対する複数の前記第1推測分布の和を用いて前記目標分布を算出する、
    請求項1に記載のクラスタリング装置。
  11. データを複数のクラスタに分類するクラスタリングの対象とする入力データを第1変換データに変換する変換処理のパラメータである第1パラメータを決定する決定ステップと、
    複数の前記クラスタそれぞれのパラメータである複数の第2パラメータを用いて、前記第1変換データが前記クラスタに属する確率を表す複数の第1推測分布を算出する算出ステップと、
    前記第1推測分布と前記第1推測分布を用いて算出される目標分布との差異を示す第1差異、および、前記第1推測分布と、前記入力データを拡張したデータを前記第1パラメータにより変換した第2変換データが前記クラスタに属する確率を表す第2推測分布との差異を表す第2差異、を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する更新ステップと、
    更新された前記第2パラメータを用いて算出される前記第1推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類ステップと、
    を含むクラスタリング方法。
  12. コンピュータを、
    データを複数のクラスタに分類するクラスタリングの対象とする入力データを第1変換データに変換する変換処理のパラメータである第1パラメータを決定する決定部と、
    複数の前記クラスタそれぞれのパラメータである複数の第2パラメータを用いて、前記第1変換データが前記クラスタに属する確率を表す複数の第1推測分布を算出する算出部と、
    前記第1推測分布と前記第1推測分布を用いて算出される目標分布との差異を示す第1差異、および、前記第1推測分布と、前記入力データを拡張したデータを前記第1パラメータにより変換した第2変換データが前記クラスタに属する確率を表す第2推測分布との差異を表す第2差異、を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する更新部と、
    更新された前記第2パラメータを用いて算出される前記第1推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類部と、
    として機能させるためのプログラム。
JP2018090495A 2018-05-09 2018-05-09 クラスタリング装置、クラスタリング方法およびプログラム Active JP6965206B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018090495A JP6965206B2 (ja) 2018-05-09 2018-05-09 クラスタリング装置、クラスタリング方法およびプログラム
US16/296,458 US10970313B2 (en) 2018-05-09 2019-03-08 Clustering device, clustering method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018090495A JP6965206B2 (ja) 2018-05-09 2018-05-09 クラスタリング装置、クラスタリング方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2019197355A JP2019197355A (ja) 2019-11-14
JP6965206B2 true JP6965206B2 (ja) 2021-11-10

Family

ID=68465236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018090495A Active JP6965206B2 (ja) 2018-05-09 2018-05-09 クラスタリング装置、クラスタリング方法およびプログラム

Country Status (2)

Country Link
US (1) US10970313B2 (ja)
JP (1) JP6965206B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3825796A1 (de) * 2019-11-22 2021-05-26 Siemens Aktiengesellschaft Verfahren und vorrichtung zum ki-basierten betreiben eines automatisierungssystems
JP7428233B2 (ja) * 2020-02-25 2024-02-06 日本電信電話株式会社 クラスタリング装置、クラスタリング方法、および、クラスタリングプログラム
CN112132727B (zh) * 2020-09-23 2023-08-18 长三角信息智能创新研究院 基于城市大数据的情境大数据的政务服务推送方法
US20220129712A1 (en) * 2020-10-27 2022-04-28 Raytheon Company Deep neural network hardener
JP2022122029A (ja) 2021-02-09 2022-08-22 株式会社東芝 データ処理装置、データ処理方法及びデータ処理プログラム
CN113516205B (zh) * 2021-09-03 2021-12-14 平安科技(深圳)有限公司 基于人工智能的员工稳定性分类方法及相关设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336302B1 (en) * 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US10460347B2 (en) * 2012-12-30 2019-10-29 Certona Corporation Extracting predictive segments from sampled data
JP6208552B2 (ja) * 2013-11-14 2017-10-04 株式会社デンソーアイティーラボラトリ 識別器、識別プログラム、及び識別方法
US10318674B2 (en) * 2016-08-30 2019-06-11 Sas Institute Inc. Comparison and selection of experiment designs
JP6773618B2 (ja) 2017-09-04 2020-10-21 株式会社東芝 学習装置、情報処理装置、学習方法およびプログラム

Also Published As

Publication number Publication date
US10970313B2 (en) 2021-04-06
JP2019197355A (ja) 2019-11-14
US20190347277A1 (en) 2019-11-14

Similar Documents

Publication Publication Date Title
JP6965206B2 (ja) クラスタリング装置、クラスタリング方法およびプログラム
TWI769754B (zh) 基於隱私保護確定目標業務模型的方法及裝置
US10223615B2 (en) Learning based defect classification
JP6208552B2 (ja) 識別器、識別プログラム、及び識別方法
JP2925435B2 (ja) 入力分類方法、トレーニング方法、調整方法、及び装置
US20220067588A1 (en) Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model
CN113850281B (zh) 一种基于meanshift优化的数据处理方法和装置
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
JP7028322B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
EP3745309A1 (en) Training a generative adversarial network
WO2014118978A1 (ja) 学習方法、情報処理装置および学習プログラム
JP6172317B2 (ja) 混合モデル選択の方法及び装置
Zhu et al. Solar filament recognition based on deep learning
CN112446888A (zh) 图像分割模型的处理方法和处理装置
CN115358305A (zh) 一种基于边界样本迭代生成的增量学习鲁棒性提升方法
JP2019207561A (ja) 情報処理装置、情報処理方法及びプログラム
JP2019067299A (ja) ラベル推定装置及びラベル推定プログラム
JP6988995B2 (ja) 画像生成装置、画像生成方法および画像生成プログラム
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN113255752A (zh) 基于特征聚类的固体材料一致性分选方法
CN111062406B (zh) 一种面向异构领域适应的半监督最优传输方法
CN115812210A (zh) 用于增强机器学习分类任务的性能的方法和设备
WO2022191073A1 (en) Distributionally robust model training
US20220366242A1 (en) Information processing apparatus, information processing method, and storage medium
Shimoji et al. Data clustering with entropical scheduling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210921

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211020

R151 Written notification of patent or utility model registration

Ref document number: 6965206

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151