JP6965206B2 - クラスタリング装置、クラスタリング方法およびプログラム - Google Patents
クラスタリング装置、クラスタリング方法およびプログラム Download PDFInfo
- Publication number
- JP6965206B2 JP6965206B2 JP2018090495A JP2018090495A JP6965206B2 JP 6965206 B2 JP6965206 B2 JP 6965206B2 JP 2018090495 A JP2018090495 A JP 2018090495A JP 2018090495 A JP2018090495 A JP 2018090495A JP 6965206 B2 JP6965206 B2 JP 6965206B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- parameter
- distribution
- guess
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
・推測分布の初期値が、ある程度、正確に推測されることを前提とする。
・クラスタ内でセントロイドに近いデータがセントロイドに集まる。
・境界付近のデータは、個数が少ないクラスタのセントロイドに近づく。
・まれな病気を示すデータを含む、医療診断に用いるデータセット
・まれに発生する欠陥品のデータを含む、製品テストに用いるデータセット
データセットには例えば製品テストのプロセスで記録したデータなども含まれる。
上述のように、クラスタリングは潜在空間Z上のデータに対して実行される。最初に、潜在空間特徴量ziが、以下の(1)式に示す確率qij(qij∈Q)によって、セントロイドujにより表現されるクラスタに割り当てられる。確率qijは、スチューデントのt分布によって測定される、確率qijは、潜在空間特徴量ziとセントロイドujとの類似度(距離)を表すと解釈することもできる。
VATモデルの目的関数LVは、以下の(5)式に示すように、データxの推測分布Qと、データxに対応する拡張データ(x+radv)の推測分布Q(x+radv)との間のKLダイバージェンスロスで定義される。
・クラスタリング装置100または他の装置に備えられたディスプレイに出力
・他の装置にネットワークを介して送信
(D1)MNIST:7万の手書き数字(0〜9)のデータセット。各クラスは、ほぼ同数のサンプルを有する。
(D2)MNIST_Imb_0:MNISTから不均衡データセットとなるようにサンプリングされた手書き数字画像のデータセット。本実施形態では、数字「0」に対応するクラス0のデータのうち10%をサンプリングし、他の数字はすべてのデータを用いた。
(D3)Reuters:約81万のテキストを含むオリジナルのReutersデータセットから抽出したデータセット。非特許文献2と同様に、“corporate/industrial”、“government/social”、“markets”、および、“economics”の4つのカテゴリに属するデータを抽出した。
(D4)Reuters_Imb:Reutersから不均衡データセットとなるようにサンプリングされたテキストのデータセット。あるクラスのデータの個数が、他のクラスのデータの個数の10%となるようにサンプリングしたデータセットである。
(D5)STL_VGG:飛行機、鳥、および、車両などのラベルが付された10クラスの画像のデータセットであるSTLに基づき生成されるデータセット。畳み込みニューラルネットワークモデルであるvgg−16を用いてSTLから抽出された2048次元の特徴ベクトルのデータセットである。各クラスは1300個のデータを含む。
(D6)STL_VGG_Imb:STL_VGGから不均衡データセットとなるようにサンプリングされた画像のデータセット。ある1つのクラスが130個のデータとなるようにSTL_VGGからサンプリングされたデータセットである。
(P1)γ=2、s=2
(P2)γ=5、s=2
(P3)γ=5、s=4
13 クラスタリング層
100 クラスタリング装置
101 決定部
102 算出部
103 更新部
104 分類部
105 出力制御部
121 記憶部
Claims (12)
- データを複数のクラスタに分類するクラスタリングの対象とする入力データを第1変換データに変換する変換処理のパラメータである第1パラメータを決定する決定部と、
複数の前記クラスタそれぞれのパラメータである複数の第2パラメータを用いて、前記第1変換データが前記クラスタに属する確率を表す複数の第1推測分布を算出する算出部と、
前記第1推測分布と前記第1推測分布を用いて算出される目標分布との差異を示す第1差異、および、前記第1推測分布と、前記入力データを拡張したデータを前記第1パラメータにより変換した第2変換データが前記クラスタに属する確率を表す第2推測分布との差異を表す第2差異、を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する更新部と、
更新された前記第2パラメータを用いて算出される前記第1推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類部と、
を備えるクラスタリング装置。 - 前記第2推測分布は、前記入力データに摂動が加えられたデータを前記第1パラメータにより変換した前記第2変換データが前記クラスタに属する確率を表す、
請求項1に記載のクラスタリング装置。 - 前記第2推測分布は、前記入力データに対して、変化量が他の方向より大きい方向に摂動が加えられたデータを前記第1パラメータにより変換した前記第2変換データが前記クラスタに属する確率を表す、
請求項2に記載のクラスタリング装置。 - 前記更新部は、前記第1差異と前記第2差異との重み付け和を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する、
請求項1に記載のクラスタリング装置。 - 前記決定部は、自己符号化器を用いて前記第1パラメータを決定する、
請求項1に記載のクラスタリング装置。 - 前記変換処理は、ニューラルネットワークを用いた変換処理である、
請求項1に記載のクラスタリング装置。 - 前記算出部は、前記第1変換データをクラスタリングすることにより、前記第2パラメータの初期値を算出する、
請求項1に記載のクラスタリング装置。 - 前記算出部は、前記第1推測分布をべき乗した値を用いて前記目標分布を算出する、
請求項1に記載のクラスタリング装置。 - 前記算出部は、前記第1推測分布をs乗(sは1以上の実数)した値を用いて前記目標分布を算出する、
請求項8に記載のクラスタリング装置。 - 前記算出部は、複数の前記クラスタに対する複数の前記第1推測分布の和を用いて前記目標分布を算出する、
請求項1に記載のクラスタリング装置。 - データを複数のクラスタに分類するクラスタリングの対象とする入力データを第1変換データに変換する変換処理のパラメータである第1パラメータを決定する決定ステップと、
複数の前記クラスタそれぞれのパラメータである複数の第2パラメータを用いて、前記第1変換データが前記クラスタに属する確率を表す複数の第1推測分布を算出する算出ステップと、
前記第1推測分布と前記第1推測分布を用いて算出される目標分布との差異を示す第1差異、および、前記第1推測分布と、前記入力データを拡張したデータを前記第1パラメータにより変換した第2変換データが前記クラスタに属する確率を表す第2推測分布との差異を表す第2差異、を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する更新ステップと、
更新された前記第2パラメータを用いて算出される前記第1推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類ステップと、
を含むクラスタリング方法。 - コンピュータを、
データを複数のクラスタに分類するクラスタリングの対象とする入力データを第1変換データに変換する変換処理のパラメータである第1パラメータを決定する決定部と、
複数の前記クラスタそれぞれのパラメータである複数の第2パラメータを用いて、前記第1変換データが前記クラスタに属する確率を表す複数の第1推測分布を算出する算出部と、
前記第1推測分布と前記第1推測分布を用いて算出される目標分布との差異を示す第1差異、および、前記第1推測分布と、前記入力データを拡張したデータを前記第1パラメータにより変換した第2変換データが前記クラスタに属する確率を表す第2推測分布との差異を表す第2差異、を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する更新部と、
更新された前記第2パラメータを用いて算出される前記第1推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類部と、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018090495A JP6965206B2 (ja) | 2018-05-09 | 2018-05-09 | クラスタリング装置、クラスタリング方法およびプログラム |
US16/296,458 US10970313B2 (en) | 2018-05-09 | 2019-03-08 | Clustering device, clustering method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018090495A JP6965206B2 (ja) | 2018-05-09 | 2018-05-09 | クラスタリング装置、クラスタリング方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019197355A JP2019197355A (ja) | 2019-11-14 |
JP6965206B2 true JP6965206B2 (ja) | 2021-11-10 |
Family
ID=68465236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018090495A Active JP6965206B2 (ja) | 2018-05-09 | 2018-05-09 | クラスタリング装置、クラスタリング方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10970313B2 (ja) |
JP (1) | JP6965206B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3825796A1 (de) * | 2019-11-22 | 2021-05-26 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zum ki-basierten betreiben eines automatisierungssystems |
JP7428233B2 (ja) * | 2020-02-25 | 2024-02-06 | 日本電信電話株式会社 | クラスタリング装置、クラスタリング方法、および、クラスタリングプログラム |
CN112132727B (zh) * | 2020-09-23 | 2023-08-18 | 长三角信息智能创新研究院 | 基于城市大数据的情境大数据的政务服务推送方法 |
US20220129712A1 (en) * | 2020-10-27 | 2022-04-28 | Raytheon Company | Deep neural network hardener |
JP2022122029A (ja) | 2021-02-09 | 2022-08-22 | 株式会社東芝 | データ処理装置、データ処理方法及びデータ処理プログラム |
CN113516205B (zh) * | 2021-09-03 | 2021-12-14 | 平安科技(深圳)有限公司 | 基于人工智能的员工稳定性分类方法及相关设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9336302B1 (en) * | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US10460347B2 (en) * | 2012-12-30 | 2019-10-29 | Certona Corporation | Extracting predictive segments from sampled data |
JP6208552B2 (ja) * | 2013-11-14 | 2017-10-04 | 株式会社デンソーアイティーラボラトリ | 識別器、識別プログラム、及び識別方法 |
US10318674B2 (en) * | 2016-08-30 | 2019-06-11 | Sas Institute Inc. | Comparison and selection of experiment designs |
JP6773618B2 (ja) | 2017-09-04 | 2020-10-21 | 株式会社東芝 | 学習装置、情報処理装置、学習方法およびプログラム |
-
2018
- 2018-05-09 JP JP2018090495A patent/JP6965206B2/ja active Active
-
2019
- 2019-03-08 US US16/296,458 patent/US10970313B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10970313B2 (en) | 2021-04-06 |
JP2019197355A (ja) | 2019-11-14 |
US20190347277A1 (en) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6965206B2 (ja) | クラスタリング装置、クラスタリング方法およびプログラム | |
TWI769754B (zh) | 基於隱私保護確定目標業務模型的方法及裝置 | |
US10223615B2 (en) | Learning based defect classification | |
JP6208552B2 (ja) | 識別器、識別プログラム、及び識別方法 | |
JP2925435B2 (ja) | 入力分類方法、トレーニング方法、調整方法、及び装置 | |
US20220067588A1 (en) | Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model | |
CN113850281B (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
JP6897749B2 (ja) | 学習方法、学習システム、および学習プログラム | |
JP7028322B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
EP3745309A1 (en) | Training a generative adversarial network | |
WO2014118978A1 (ja) | 学習方法、情報処理装置および学習プログラム | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
Zhu et al. | Solar filament recognition based on deep learning | |
CN112446888A (zh) | 图像分割模型的处理方法和处理装置 | |
CN115358305A (zh) | 一种基于边界样本迭代生成的增量学习鲁棒性提升方法 | |
JP2019207561A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2019067299A (ja) | ラベル推定装置及びラベル推定プログラム | |
JP6988995B2 (ja) | 画像生成装置、画像生成方法および画像生成プログラム | |
CN111783088B (zh) | 一种恶意代码家族聚类方法、装置和计算机设备 | |
CN113255752A (zh) | 基于特征聚类的固体材料一致性分选方法 | |
CN111062406B (zh) | 一种面向异构领域适应的半监督最优传输方法 | |
CN115812210A (zh) | 用于增强机器学习分类任务的性能的方法和设备 | |
WO2022191073A1 (en) | Distributionally robust model training | |
US20220366242A1 (en) | Information processing apparatus, information processing method, and storage medium | |
Shimoji et al. | Data clustering with entropical scheduling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200618 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210921 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211020 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6965206 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |