JP6965206B2

JP6965206B2 - クラスタリング装置、クラスタリング方法およびプログラム

Info

Publication number: JP6965206B2
Application number: JP2018090495A
Authority: JP
Inventors: 亜玲陶; 健太郎高木; 康太中田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2021-11-10
Anticipated expiration: 2038-05-09
Also published as: US10970313B2; JP2019197355A; US20190347277A1

Description

本発明の実施形態は、クラスタリング装置、クラスタリング方法およびプログラムに関する。

クラスタリングは、データセットに含まれる各データを複数のクラスに分類する技術である。クラスタリングの例として、ディープニューラルネットワークを利用したＤＥＣ（Deep Embedded Clustering）と呼ばれる技術が提案されている。

Takeru Miyato et al.， "Distributional Smoothing with Virtual Adversarial Training"，arXiv:1507.00677, 11 Jun 2016 Junyuan Xie et al., "Unsupervised Deep Embedding for Clustering Analysis"，arXiv:1511.06335, 24 May 2016

しかしながら、ＤＥＣなどの従来技術では、サンプル数の少ないクラスを正確に分類することが難しく、不均衡データセットに対する分類性能が低下する場合があった。

実施形態のクラスタリング装置は、決定部と、算出部と、更新部と、分類部と、を備える。決定部は、入力データを第１変換データに変換する変換処理のパラメータである第１パラメータを決定する。算出部は、複数のクラスタそれぞれのパラメータである複数の第２パラメータを用いて、第１変換データがクラスタに属する確率を表す複数の第１推測分布を算出する。更新部は、第１推測分布と目標分布との差異を示す第１差異、および、第１推測分布と、入力データを拡張したデータを変換した第２変換データがクラスタに属する確率を表す第２推測分布との差異を表す第２差異、を最適化するように、第１パラメータおよび第２パラメータを更新する。分類部は、更新された第２パラメータを用いて算出される第１推測分布に基づいて入力データを複数のクラスタに分類する。

本実施形態のネットワークモデルの例を示す図。本実施形態にかかるクラスタリング装置の機能ブロック図。本実施形態におけるクラスタリング処理のフローチャート。従来手法および本実施形態によるクラスタリングの精度を示す図。ＤＥＣによる学習過程を示す図。ＲＤＥＣによる学習過程を示す図。重みγとＡＣＣとの関係を示す図。本実施形態にかかるクラスタリング装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかるクラスタリング装置の好適な実施形態を詳細に説明する。

最初に、ＤＥＣの概要と問題点について説明する。ＤＥＣは、例えば以下のような特徴を有する。
・推測分布の初期値が、ある程度、正確に推測されることを前提とする。
・クラスタ内でセントロイドに近いデータがセントロイドに集まる。
・境界付近のデータは、個数が少ないクラスタのセントロイドに近づく。

以上の特徴から、ＤＥＣでは、セントロイドの配置が悪くなると性能が劣化する。このような状況は、特に不均衡データセットが処理対象となる場合に発生する。不均衡データセットは、例えば、各クラスに属するデータの個数が不均衡となっているデータセットである。不均衡データセットは、例えば以下のような状況で生じうる。
・まれな病気を示すデータを含む、医療診断に用いるデータセット
・まれに発生する欠陥品のデータを含む、製品テストに用いるデータセット
データセットには例えば製品テストのプロセスで記録したデータなども含まれる。

そこで本実施形態のクラスタリング装置は、データ拡張技術とＤＥＣとを組み合わせることにより、不均衡データセットに対してもクラスタリングの精度を向上させることを可能とする。データ拡張技術は、例えば、ＶＡＴ（Virtual Adversarial Training）である。ＶＡＴは、クラスタリング処理の対象となるデータに微小な変化（摂動）を加えてデータを拡張し、ディープニューラルネットワークを学習する技術である。処理の対象となるデータに摂動を加えたデータは潜在空間において同じ分布になるように学習される。ＶＡＴでは、推測分布の変化量が他の方向より大きい方向（例えば変化量が最大となる方向）に摂動が加えられる。

なお、ＶＡＴ以外の方法でデータを拡張してもよい。例えば固定の摂動を入力データに加える方法、および、入力データが画像の場合は入力データに回転などの変換処理を加える方法を適用してもよい。

ＶＡＴは、ニューラルネットワークを正則化するための学習手法と解釈することができる。ＶＡＴでは、例えばあるデータの周辺のデータは、いずれも同じ分布に含まれるように学習される。またＶＡＴでは、類似する複数のデータは、潜在空間上で近くに位置するように学習される。

本実施形態では、ＶＡＴとＤＥＣとを組み合わせることにより、相互に類似したデータの分布をまとめながら（ＶＡＴ）、かつ、対応する各クラスタのセントロイドを遠ざけつつ凝縮する（ＤＥＣ）ことができる。以下では、本実施形態の手法をＲＤＥＣと呼ぶ場合がある。

本実施形態で処理対象とするデータ（入力データ）は、どのような種類であってもよい。例えば入力データは、画像データ、テキストデータ、および、センサデータなどである。データの形式は、例えばベクトル形式であるが、どのような形式であってもよい。

次に、本実施形態で用いる用語について説明する。

本実施形態では、処理対象とする複数のデータをデータセットＸとする。データセットＸは、ｎ個（ｎは２以上の整数）のデータ（サンプルデータ）を含む。ｎ個のデータは、それぞれｄ次元（ｄは２以上の整数）のデータとする。ｘ_ｉ∈Ｒ^ｄは、データセットＸに含まれる、インデックスｉ（０≦ｉ≦ｎ−１）で識別されるデータを表す。区別する必要がない場合は、インデックスｉを省略して、単にデータｘという場合がある。

Ｋは、分類するクラスタの個数を表す。クラスタは、インデックスｊ（０≦ｊ≦Ｋ−１）で識別される。各クラスタは、セントロイドｕ_ｊにより表現される。セントロイドは、クラスタパラメータ（第２パラメータ）の一例である。クラスタリングでは、同じクラスタに属するすべてのサンプル（データ）は相互に類似し、異なるクラスタに属するサンプル（データ）は相互に類似しないように、各データｘがＫ個のクラスタに分類される。

ＤＥＣと同様に、本実施形態（ＲＤＥＣ）では、データセットＸを含む空間で直接クラスタリングは実行されない。各データは、非線形写像ｆ_θ：Ｘ→Ｚにより潜在空間（潜在特徴空間）Ｚ上のデータ（変換データ）に変換される。ＤＥＣと同様に、ｆ_θは、例えばディープニューラルネットワークとすることができる。θは、例えばディープニューラルネットワークの学習可能なパラメータ（第１パラメータ）を表す。パラメータθは、例えば、重みおよびバイアスなどである。

潜在空間Ｚで表されたデータを、以下では潜在空間特徴量ｚ（または潜在空間特徴量ｚ_ｉ）という場合がある。潜在空間特徴量ｚは、データｘを非線形写像ｆ_θにより変換したデータである。非線形写像ｆ_θはディープニューラルネットワークを用いた写像に限られず、どのような写像であってもよい。

パラメータθの初期値は、例えば自己符号化器（オートエンコーダ）により学習される。初期値の学習方法は、例えばＤＥＣと同じ方法を適用できる。

次に、本実施形態の処理の概要について説明する。図１は、本実施形態のネットワークモデル（ＲＤＥＣモデル）の例を示す図である。ＲＤＥＣモデルは、ニューラルネットワーク層１１、１２、および、クラスタリング層１３の３つの層を含む。

ニューラルネットワーク層１１は、データセットＸを潜在空間Ｚのデータに変換する。ニューラルネットワーク層１２は、潜在空間Ｚのデータを、データセットＸと同じ次元のデータセットＸ’の空間のデータに変換する。クラスタリング層１３は、潜在空間ＺのデータをＫ個のクラスタに分類する。例えば各データは、各クラスタに属する確率を表す推測分布Ｑ（第１推測分布）により、各クラスタに割り当てられる。

ＲＤＥＣモデルでは、データｘを拡張した拡張データｘ＋ｒ_ａｄｖが用いられる。Ｑ（ｘ＋ｒ_ａｄｖ）は、拡張データに対して割り当てられた推測分布（第２推測分布）を表す。入力データに対するクラスタリングの結果としては、Ｑ（ｘ＋ｒ_ａｄｖ）を出力する必要はない。

ＲＤＥＣモデルは、クラスタリングモデル、オートエンコーダモデル、および、ＶＡＴモデルの３つのサブモデルを含む。

クラスタリングモデルは、データｘを潜在空間特徴量ｚに変換し、潜在空間特徴量ｚをクラスタリングして推測分布Ｑを出力する経路１に相当する。

オートエンコーダモデルは、データｘを潜在空間特徴量ｚに変換し、潜在空間特徴量ｚを、データセットＸ’の空間のデータに再構成したデータｘ’に変換する経路２に相当する。オートエンコーダモデルは、ニューラルネットワーク層１１、１２で用いるニューラルネットワークのパラメータの初期値を求めるための機能である。

ＶＡＴモデルは、データｘを潜在空間特徴量ｚに変換し、潜在空間特徴量ｚをクラスタリングして推測分布Ｑ（ｘ＋ｒ_ａｄｖ）を出力する経路３に相当する。

次に、クラスタリングモデル、ＶＡＴモデル、および、両者を組み合わせたＲＤＥＣモデルの構成例の詳細について説明する。

（クラスタリングモデル）
上述のように、クラスタリングは潜在空間Ｚ上のデータに対して実行される。最初に、潜在空間特徴量ｚ_ｉが、以下の（１）式に示す確率ｑ_ｉｊ（ｑ_ｉｊ∈Ｑ）によって、セントロイドｕ_ｊにより表現されるクラスタに割り当てられる。確率ｑ_ｉｊは、スチューデントのｔ分布によって測定される、確率ｑ_ｉｊは、潜在空間特徴量ｚ_ｉとセントロイドｕ_ｊとの類似度（距離）を表すと解釈することもできる。

αは、自由度であり、例えば１が設定される。セントロイドｕ_ｊは、例えば、Ｋ平均法などのクラスタリング手法により潜在空間Ｚ上で初期化される。

推測分布Ｑに対応する目標分布Ｐに含まれる各ｐ_ｉｊ∈Ｐは、以下の（２）式により表される。ｆ_ｊは以下の（３）式で表される確率重み付きクラスタサイズである。

（２）式に示すように、目標分布は、推測分布をべき乗（ｓ乗）した値、および、複数のクラスタに対する複数の推測分布の和を用いて算出される。ｓは、データに対するクラスタの割り当ての確信度が高いほど、推測分布と目標分布とが近くなるように定められる定数である。通常のＤＥＣではｓ＝２が用いられるが、ＲＤＥＣモデルではｓは調整可能である。例えばｓは１以上の実数とすることができる。

クラスタリングモデルは、推測分布と目標分布とをマッチングすることにより学習される。クラスタリングモデルの目的関数Ｌ_Ｄは、以下の（４）式に示すように、推測分布Ｑと目標分布Ｐとの間のＫＬダイバージェンスロス（Kullback-Leibler divergence loss）で定義される。

（ＶＡＴモデル）
ＶＡＴモデルの目的関数Ｌ_Ｖは、以下の（５）式に示すように、データｘの推測分布Ｑと、データｘに対応する拡張データ（ｘ＋ｒ_ａｄｖ）の推測分布Ｑ（ｘ＋ｒ_ａｄｖ）との間のＫＬダイバージェンスロスで定義される。

ｒ_ａｄｖは、敵対的摂動である。ｒ_ａｄｖは、例えば以下の（６）式により算出される。ｒは、データの平均を変更しない摂動である。εは摂動のサイズを示すハイパーパラメータであり、例えば１が設定される。

（ＲＤＥＣモデル）
ＲＤＥＣモデルの目的関数Ｌは、以下の（７）式に示すように、目的関数Ｌ_Ｄと目的関数Ｌ_Ｖとの重み付け和により表される。γ（＞０）は、正則化ロスの程度を制御するための重みを表す。

（７）式の目的関数Ｌは、例えば、ミニバッチ確率勾配降下法および誤差逆伝播法（バックプロパゲーション）を用いて最適化（学習）される。潜在空間特徴量ｚ_ｉ、セントロイドｕ_ｊ、および、推測分布Ｑは、学習の各繰り返しで更新される。一方、目標分布Ｐは、更新間隔τごとに更新される。最適化処理は、例えば、連続する２回の繰り返し処理間の変更率が閾値σより小さくなった、または、繰り返し回数が最大値Ｉｔｒに達した、などの終了条件が満たされたときに終了する。

次に、本実施形態の機能構成例について説明する。図２は、本実施形態にかかるクラスタリング装置１００の機能構成の一例を示すブロック図である。図２に示すように、クラスタリング装置１００は、決定部１０１と、算出部１０２と、更新部１０３と、分類部１０４と、出力制御部１０５と、記憶部１２１と、を備えている。

決定部１０１は、クラスタリングの対象とする入力データを変換データに変換する変換処理のパラメータ（第１パラメータ）の初期値を決定する。上記のように、変換処理をディープニューラルネットワークによる非線形写像ｆ_θとする場合、決定部１０１は、例えば自己符号化器を用いてパラメータθを決定する。決定部１０１は、上記のように例えばＫ平均法によりセントロイドｕ_ｊの初期値を決定してもよい。

算出部１０２は、クラスタリングで用いられるデータおよび分布などを算出する。例えば算出部１０２は、入力データを変換写像により変換データに変換する。また算出部１０２は、複数のクラスタそれぞれのクラスタパラメータ（セントロイド）を用いて、変換データが各クラスタに属する確率を表す推測分布を算出する。例えば算出部１０２は、上記（１）式を用いて推測分布Ｑを算出する。また算出部１０２は、上記（２）〜（７）式を用いた算出処理を行う。

更新部１０３は、ＲＤＥＣモデルの目的関数を最適化するように、変換処理のパラメータ（例えばパラメータθ）およびクラスタパラメータ（例えばセントロイド）を更新する。例えば更新部１０３は、上記（７）式で表される目的関数Ｌを、ミニバッチ確率勾配降下法および誤差逆伝播法を用いて学習し、各パラメータを更新する。

分類部１０４は、更新されたクラスタパラメータを用いて算出される推測分布に基づいて、入力データを複数のクラスタのいずれかに分類する。例えば分類部１０４は、入力データを、その入力データが属する確率が最大となるクラスタに分類する。

出力制御部１０５は、各種データの出力処理を制御する。例えば出力制御部１０５は、分類部１０４による処理結果を出力する。処理結果は、例えば、分類したクラスタに付与されたラベルなどである。出力方法はどのような方法であってもよいが、例えば、以下のような方法を適用できる。
・クラスタリング装置１００または他の装置に備えられたディスプレイに出力
・他の装置にネットワークを介して送信

上記各部（決定部１０１、算出部１０２、更新部１０３、分類部１０４、および、出力制御部１０５）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

記憶部１２１は、各種処理で用いられる各種データを記憶する。例えば記憶部１２１は、学習に用いる学習データ、および、学習するパラメータ（クラスタパラメータ、パラメータθ）などを記憶する。

記憶部１２１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

クラスタリング装置１００は、例えば、ＣＰＵなどのプロセッサを備えるコンピュータであるサーバ装置などにより実現してもよい。サーバ装置は、クラウド上で処理を実行するクラウドサーバであってもよい。

次に、このように構成された本実施形態にかかるクラスタリング装置１００によるクラスタリング処理について説明する。図３は、本実施形態におけるクラスタリング処理の一例を示すフローチャートである。

まず決定部１０１は、クラスタリングの対象となる入力データのデータセットを取得する（ステップＳ１０１）。データセットは、記憶部１２１から取得する方法、および、他の装置からネットワークを介して取得する方法などの、どのような方法で取得してもよい。

決定部１０１は、変換処理のパラメータの初期値を決定する（ステップＳ１０２）。例えば決定部１０１は、ディープニューラルネットワークによる非線形写像ｆ_θのパラメータθを、自己符号化器を用いて決定する。

ステップＳ１０３〜ステップＳ１０５では、決定されたパラメータθの初期値などを用いて、パラメータθおよびクラスタパラメータを最適化するように、学習処理が繰り返し実行される。

まず算出部１０２は、例えば上記（７）式により、ＲＤＥＣの目的関数の値を算出する（ステップＳ１０３）。更新部１０３は、算出された目的関数を最適化するように、パラメータθおよびクラスタパラメータを更新する（ステップＳ１０４）。更新部１０３は、更新が終了したか否かを判定する（ステップＳ１０５）。例えば更新部１０３は、上記のように、連続する繰り返し処理間の変更率が閾値σより小さくなった場合、または、繰り返し回数が最大値Ｉｔｒに達した場合に、更新が終了したと判定する。

更新が終了していない場合（ステップＳ１０５：Ｎｏ）、ステップＳ１０３に戻り処理が繰り返される。更新が終了した場合（ステップＳ１０５：Ｙｅｓ）、分類部１０４は、最適化されたパラメータを用いて算出される推測分布に基づいて、入力データをクラスタに分類する（ステップＳ１０６）。出力制御部１０５は、分類の結果を出力し（ステップＳ１０７）、クラスタリング処理を終了する。

次に、本実施形態と従来手法の分類性能について説明する。図４は、６種類のデータセットに対する、従来手法および本実施形態によるクラスタリングの精度を示す図である。従来手法は、Ｋ平均法（K−means）、および、ＤＥＣである。精度の評価尺度としては、非特許文献２に記載されたＡｃｃｕｒａｃｙ（ＡＣＣ）を用いた。

６種類のデータセットは、以下のように、公開されているデータセット、または、公開されているデータセットに基づいて不均衡データセットとなるようにサンプリングされたデータセットを用いた。
（Ｄ１）ＭＮＩＳＴ：７万の手書き数字（０〜９）のデータセット。各クラスは、ほぼ同数のサンプルを有する。
（Ｄ２）ＭＮＩＳＴ＿Ｉｍｂ＿０：ＭＮＩＳＴから不均衡データセットとなるようにサンプリングされた手書き数字画像のデータセット。本実施形態では、数字「０」に対応するクラス０のデータのうち１０％をサンプリングし、他の数字はすべてのデータを用いた。
（Ｄ３）Ｒｅｕｔｅｒｓ：約８１万のテキストを含むオリジナルのＲｅｕｔｅｒｓデータセットから抽出したデータセット。非特許文献２と同様に、“corporate／industrial”、“government／social”、“markets”、および、“economics”の４つのカテゴリに属するデータを抽出した。
（Ｄ４）Ｒｅｕｔｅｒｓ＿Ｉｍｂ：Ｒｅｕｔｅｒｓから不均衡データセットとなるようにサンプリングされたテキストのデータセット。あるクラスのデータの個数が、他のクラスのデータの個数の１０％となるようにサンプリングしたデータセットである。
（Ｄ５）ＳＴＬ_ＶＧＧ：飛行機、鳥、および、車両などのラベルが付された１０クラスの画像のデータセットであるＳＴＬに基づき生成されるデータセット。畳み込みニューラルネットワークモデルであるｖｇｇ−１６を用いてＳＴＬから抽出された２０４８次元の特徴ベクトルのデータセットである。各クラスは１３００個のデータを含む。
（Ｄ６）ＳＴＬ＿ＶＧＧ＿Ｉｍｂ：ＳＴＬ＿ＶＧＧから不均衡データセットとなるようにサンプリングされた画像のデータセット。ある１つのクラスが１３０個のデータとなるようにＳＴＬ＿ＶＧＧからサンプリングされたデータセットである。

本実施形態のＲＤＥＣモデルとしては、重みγ、および、目標分布Ｐの算出（（２）式）で用いられる定数ｓの組み合わせを変更した以下の３パターンでＡＣＣを算出した。
（Ｐ１）γ＝２、ｓ＝２
（Ｐ２）γ＝５、ｓ＝２
（Ｐ３）γ＝５、ｓ＝４

各手法についてそれぞれ５回ＡＣＣを算出し、５回のＡＣＣの平均値および標準偏差を算出した。図４では、上段の数値が平均値を表し、下段の括弧内の数値が標準偏差を表す。

図４に示すように、ほとんどのデータセットについて、ＲＤＥＣは従来手法より高い分類性能を得られた。特に、ＭＮＩＳＴに対してパターン（Ｐ２）のＲＤＥＣを用いた場合、ＡＣＣは９８．４３％（標準偏差０．０３）となった。また図４に示すように、不均衡データセットである（Ｄ２）および（Ｄ４）については、定数ｓを２から４に変更すると、より大きいＡＣＣが得られた。

図５および図６は、それぞれ従来のＤＥＣおよびＲＤＥＣによる学習過程を示す図である。図５および図６の例では、１０％をサンプリングしたクラス０のデータ、および、クラス６の全データを含む、ｍｉｎｓｔに基づく不均衡データセットを用いた。

図５および図６は、初期状態、並びに、繰り返し回数が１４０、２８０、４２０、５６０、７００、８４０、および、９８０となったときの各状態に対応するグラフを表す。各グラフは、２次元に次元圧縮した潜在空間上での各データを表す。

図５の領域５０１ａ〜５０１ｈ、および、図６の領域６０１ａ〜６０１ｈは、クラス０のデータが多く分布する領域を表す。図５の５１１および図６の６１１のような白丸は、２つのクラスに対応するセントロイドを表す。図５に示すように、ＤＥＣでは２つのクラスが適切に分類されていない。一方、図６に示すように、ＲＤＥＣによれば、クラス０のデータおよびクラス６のデータがより高精度に分類されている。

ＤＥＣの分類精度が低いのは、上述のように、セントロイドの配置が悪いことが原因の１つであると考えられる。不均衡データセットではセントロイドの配置が悪くなる場合が多い。これに対してＲＤＥＣは、セントロイドの初期値に対して頑健性を有することを示している。

次に、重みγの値の設定について説明する。上記（７）式に含まれるパラメータである重みγは、クラスタリングの結果に影響する。図７は、重みγと、ＡＣＣとの関係を示す図で、重みγがＡＣＣに与えた影響を示す。図７では、ＭＮＩＳＴと、ＭＮＩＳＴに基づきサンプリングした不均衡データセット（ｉｍｂａｌａｎｃｅｄＭＮＩＳＴ）とについて、重みγを０、１、２、３、４、５、６、７、８、９、１０に設定し、それぞれ５回のクラスタリング処理を実行したときのＡＣＣの平均値および標準偏差が示されている。もう１つのパラメータである定数ｓは２を設定した。なおγ＝０のとき、ＲＤＥＣはＤＥＣと同等の機能となる。

図７に示すように、ＭＮＩＳＴについては、γが２以上の場合に、ＡＣＣが高くかつ偏差が小さい安定した分類精度が得られる。不均衡データセットについては、γの値に応じてＡＣＣは増加するが、いくつかの値では分類精度が安定していない。図７の結果からは、重みγの値は、２〜６に設定することが推奨される。

以上のように、本実施形態にかかるクラスタリング装置では、サンプル数の少ないデータを含むデータセットに対しても、クラスタリング処理をより高精度に実行可能となる。

次に、本実施形態にかかるクラスタリング装置のハードウェア構成について図８を用いて説明する。図８は、本実施形態にかかるクラスタリング装置のハードウェア構成例を示す説明図である。

本実施形態にかかるクラスタリング装置は、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

本実施形態にかかるクラスタリング装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

本実施形態にかかるクラスタリング装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、本実施形態にかかるクラスタリング装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかるクラスタリング装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施形態にかかるクラスタリング装置で実行されるプログラムは、コンピュータを上述したクラスタリング装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１１、１２ニューラルネットワーク層
１３クラスタリング層
１００クラスタリング装置
１０１決定部
１０２算出部
１０３更新部
１０４分類部
１０５出力制御部
１２１記憶部

Claims

データを複数のクラスタに分類するクラスタリングの対象とする入力データを第１変換データに変換する変換処理のパラメータである第１パラメータを決定する決定部と、
複数の前記クラスタそれぞれのパラメータである複数の第２パラメータを用いて、前記第１変換データが前記クラスタに属する確率を表す複数の第１推測分布を算出する算出部と、
前記第１推測分布と前記第１推測分布を用いて算出される目標分布との差異を示す第１差異、および、前記第１推測分布と、前記入力データを拡張したデータを前記第１パラメータにより変換した第２変換データが前記クラスタに属する確率を表す第２推測分布との差異を表す第２差異、を最適化するように、前記第１パラメータおよび前記第２パラメータを更新する更新部と、
更新された前記第２パラメータを用いて算出される前記第１推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類部と、
を備えるクラスタリング装置。
前記第２推測分布は、前記入力データに摂動が加えられたデータを前記第１パラメータにより変換した前記第２変換データが前記クラスタに属する確率を表す、
請求項１に記載のクラスタリング装置。
前記第２推測分布は、前記入力データに対して、変化量が他の方向より大きい方向に摂動が加えられたデータを前記第１パラメータにより変換した前記第２変換データが前記クラスタに属する確率を表す、
請求項２に記載のクラスタリング装置。
前記更新部は、前記第１差異と前記第２差異との重み付け和を最適化するように、前記第１パラメータおよび前記第２パラメータを更新する、
請求項１に記載のクラスタリング装置。
前記決定部は、自己符号化器を用いて前記第１パラメータを決定する、
請求項１に記載のクラスタリング装置。
前記変換処理は、ニューラルネットワークを用いた変換処理である、
請求項１に記載のクラスタリング装置。
前記算出部は、前記第１変換データをクラスタリングすることにより、前記第２パラメータの初期値を算出する、
請求項１に記載のクラスタリング装置。
前記算出部は、前記第１推測分布をべき乗した値を用いて前記目標分布を算出する、
請求項１に記載のクラスタリング装置。
前記算出部は、前記第１推測分布をｓ乗（ｓは１以上の実数）した値を用いて前記目標分布を算出する、
請求項８に記載のクラスタリング装置。
前記算出部は、複数の前記クラスタに対する複数の前記第１推測分布の和を用いて前記目標分布を算出する、
請求項１に記載のクラスタリング装置。
データを複数のクラスタに分類するクラスタリングの対象とする入力データを第１変換データに変換する変換処理のパラメータである第１パラメータを決定する決定ステップと、
複数の前記クラスタそれぞれのパラメータである複数の第２パラメータを用いて、前記第１変換データが前記クラスタに属する確率を表す複数の第１推測分布を算出する算出ステップと、
前記第１推測分布と前記第１推測分布を用いて算出される目標分布との差異を示す第１差異、および、前記第１推測分布と、前記入力データを拡張したデータを前記第１パラメータにより変換した第２変換データが前記クラスタに属する確率を表す第２推測分布との差異を表す第２差異、を最適化するように、前記第１パラメータおよび前記第２パラメータを更新する更新ステップと、
更新された前記第２パラメータを用いて算出される前記第１推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類ステップと、
を含むクラスタリング方法。
コンピュータを、
データを複数のクラスタに分類するクラスタリングの対象とする入力データを第１変換データに変換する変換処理のパラメータである第１パラメータを決定する決定部と、
複数の前記クラスタそれぞれのパラメータである複数の第２パラメータを用いて、前記第１変換データが前記クラスタに属する確率を表す複数の第１推測分布を算出する算出部と、
前記第１推測分布と前記第１推測分布を用いて算出される目標分布との差異を示す第１差異、および、前記第１推測分布と、前記入力データを拡張したデータを前記第１パラメータにより変換した第２変換データが前記クラスタに属する確率を表す第２推測分布との差異を表す第２差異、を最適化するように、前記第１パラメータおよび前記第２パラメータを更新する更新部と、
更新された前記第２パラメータを用いて算出される前記第１推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類部と、
として機能させるためのプログラム。