JP2019197355A - クラスタリング装置、クラスタリング方法およびプログラム - Google Patents
クラスタリング装置、クラスタリング方法およびプログラム Download PDFInfo
- Publication number
- JP2019197355A JP2019197355A JP2018090495A JP2018090495A JP2019197355A JP 2019197355 A JP2019197355 A JP 2019197355A JP 2018090495 A JP2018090495 A JP 2018090495A JP 2018090495 A JP2018090495 A JP 2018090495A JP 2019197355 A JP2019197355 A JP 2019197355A
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- data
- clustering
- difference
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
・推測分布の初期値が、ある程度、正確に推測されることを前提とする。
・クラスタ内でセントロイドに近いデータがセントロイドに集まる。
・境界付近のデータは、個数が少ないクラスタのセントロイドに近づく。
・まれな病気を示すデータを含む、医療診断に用いるデータセット
・まれに発生する欠陥品のデータを含む、製品テストに用いるデータセット
データセットには例えば製品テストのプロセスで記録したデータなども含まれる。
上述のように、クラスタリングは潜在空間Z上のデータに対して実行される。最初に、潜在空間特徴量ziが、以下の(1)式に示す確率qij(qij∈Q)によって、セントロイドujにより表現されるクラスタに割り当てられる。確率qijは、スチューデントのt分布によって測定される、確率qijは、潜在空間特徴量ziとセントロイドujとの類似度(距離)を表すと解釈することもできる。
VATモデルの目的関数LVは、以下の(5)式に示すように、データxの推測分布Qと、データxに対応する拡張データ(x+radv)の推測分布Q(x+radv)との間のKLダイバージェンスロスで定義される。
RDECモデルの目的関数Lは、以下の(7)式に示すように、目的関数LDと目的関数LVとの重み付け和により表される。γ(>0)は、正則化ロスの程度を制御するための重みを表す。
・クラスタリング装置100または他の装置に備えられたディスプレイに出力
・他の装置にネットワークを介して送信
(D1)MNIST:7万の手書き数字(0〜9)のデータセット。各クラスは、ほぼ同数のサンプルを有する。
(D2)MNIST_Imb_0:MNISTから不均衡データセットとなるようにサンプリングされた手書き数字画像のデータセット。本実施形態では、数字「0」に対応するクラス0のデータのうち10%をサンプリングし、他の数字はすべてのデータを用いた。
(D3)Reuters:約81万のテキストを含むオリジナルのReutersデータセットから抽出したデータセット。非特許文献2と同様に、“corporate/industrial”、“government/social”、“markets”、および、“economics”の4つのカテゴリに属するデータを抽出した。
(D4)Reuters_Imb:Reutersから不均衡データセットとなるようにサンプリングされたテキストのデータセット。あるクラスのデータの個数が、他のクラスのデータの個数の10%となるようにサンプリングしたデータセットである。
(D5)STL_VGG:飛行機、鳥、および、車両などのラベルが付された10クラスの画像のデータセットであるSTLに基づき生成されるデータセット。畳み込みニューラルネットワークモデルであるvgg−16を用いてSTLから抽出された2048次元の特徴ベクトルのデータセットである。各クラスは1300個のデータを含む。
(D6)STL_VGG_Imb:STL_VGGから不均衡データセットとなるようにサンプリングされた画像のデータセット。ある1つのクラスが130個のデータとなるようにSTL_VGGからサンプリングされたデータセットである。
(P1)γ=2、s=2
(P2)γ=5、s=2
(P3)γ=5、s=4
13 クラスタリング層
100 クラスタリング装置
101 決定部
102 算出部
103 更新部
104 分類部
105 出力制御部
121 記憶部
Claims (12)
- データを複数のクラスタに分類するクラスタリングの対象とする入力データを第1変換データに変換する変換処理のパラメータである第1パラメータを決定する決定部と、
複数の前記クラスタそれぞれのパラメータである複数の第2パラメータを用いて、前記第1変換データが前記クラスタに属する確率を表す複数の第1推測分布を算出する算出部と、
前記第1推測分布と目標分布との差異を示す第1差異、および、前記第1推測分布と、前記入力データを拡張したデータを前記第1パラメータにより変換した第2変換データが前記クラスタに属する確率を表す第2推測分布との差異を表す第2差異、を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する更新部と、
更新された前記第2パラメータを用いて算出される前記第1推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類部と、
を備えるクラスタリング装置。 - 前記第2推測分布は、前記入力データに摂動が加えられたデータを前記第1パラメータにより変換した前記第2変換データが前記クラスタに属する確率を表す、
請求項1に記載のクラスタリング装置。 - 前記第2推測分布は、前記入力データに対して、変化量が他の方向より大きい方向に摂動が加えられたデータを前記第1パラメータにより変換した前記第2変換データが前記クラスタに属する確率を表す、
請求項2に記載のクラスタリング装置。 - 前記更新部は、前記第1差異と前記第2差異との重み付け和を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する、
請求項1に記載のクラスタリング装置。 - 前記決定部は、自己符号化器を用いて前記第1パラメータを決定する、
請求項1に記載のクラスタリング装置。 - 前記変換処理は、ニューラルネットワークを用いた変換処理である、
請求項1に記載のクラスタリング装置。 - 前記算出部は、前記第1変換データをクラスタリングすることにより、前記第2パラメータの初期値を算出する、
請求項1に記載のクラスタリング装置。 - 前記算出部は、前記第1推測分布をべき乗した値を用いて前記目標分布を算出する、
請求項1に記載のクラスタリング装置。 - 前記算出部は、前記第1推測分布をs乗(sは1以上の実数)した値を用いて前記目標分布を算出する、
請求項8に記載のクラスタリング装置。 - 前記算出部は、複数の前記クラスタに対する複数の前記第1推測分布の和を用いて前記目標分布を算出する、
請求項1に記載のクラスタリング装置。 - データを複数のクラスタに分類するクラスタリングの対象とする入力データを第1変換データに変換する変換処理のパラメータである第1パラメータを決定する決定ステップと、
複数の前記クラスタそれぞれのパラメータである複数の第2パラメータを用いて、前記第1変換データが前記クラスタに属する確率を表す複数の第1推測分布を算出する算出ステップと、
前記第1推測分布と目標分布との差異を示す第1差異、および、前記第1推測分布と、前記入力データを拡張したデータを前記第1パラメータにより変換した第2変換データが前記クラスタに属する確率を表す第2推測分布との差異を表す第2差異、を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する更新ステップと、
更新された前記第2パラメータを用いて算出される前記第1推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類ステップと、
を含むクラスタリング方法。 - コンピュータを、
データを複数のクラスタに分類するクラスタリングの対象とする入力データを第1変換データに変換する変換処理のパラメータである第1パラメータを決定する決定部と、
複数の前記クラスタそれぞれのパラメータである複数の第2パラメータを用いて、前記第1変換データが前記クラスタに属する確率を表す複数の第1推測分布を算出する算出部と、
前記第1推測分布と目標分布との差異を示す第1差異、および、前記第1推測分布と、前記入力データを拡張したデータを前記第1パラメータにより変換した第2変換データが前記クラスタに属する確率を表す第2推測分布との差異を表す第2差異、を最適化するように、前記第1パラメータおよび前記第2パラメータを更新する更新部と、
更新された前記第2パラメータを用いて算出される前記第1推測分布に基づいて前記入力データを複数の前記クラスタに分類する分類部と、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018090495A JP6965206B2 (ja) | 2018-05-09 | 2018-05-09 | クラスタリング装置、クラスタリング方法およびプログラム |
US16/296,458 US10970313B2 (en) | 2018-05-09 | 2019-03-08 | Clustering device, clustering method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018090495A JP6965206B2 (ja) | 2018-05-09 | 2018-05-09 | クラスタリング装置、クラスタリング方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019197355A true JP2019197355A (ja) | 2019-11-14 |
JP6965206B2 JP6965206B2 (ja) | 2021-11-10 |
Family
ID=68465236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018090495A Active JP6965206B2 (ja) | 2018-05-09 | 2018-05-09 | クラスタリング装置、クラスタリング方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10970313B2 (ja) |
JP (1) | JP6965206B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021171384A1 (ja) * | 2020-02-25 | 2021-09-02 | 日本電信電話株式会社 | クラスタリング装置、クラスタリング方法、および、クラスタリングプログラム |
US11886936B2 (en) | 2021-02-09 | 2024-01-30 | Kabushiki Kaisha Toshiba | Data processing apparatus, data processing method, and storage medium storing therein data processing program |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3825796A1 (de) * | 2019-11-22 | 2021-05-26 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zum ki-basierten betreiben eines automatisierungssystems |
CN112132727B (zh) * | 2020-09-23 | 2023-08-18 | 长三角信息智能创新研究院 | 基于城市大数据的情境大数据的政务服务推送方法 |
US20220129712A1 (en) * | 2020-10-27 | 2022-04-28 | Raytheon Company | Deep neural network hardener |
CN113516205B (zh) * | 2021-09-03 | 2021-12-14 | 平安科技(深圳)有限公司 | 基于人工智能的员工稳定性分类方法及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015095212A (ja) * | 2013-11-14 | 2015-05-18 | 株式会社デンソーアイティーラボラトリ | 識別器、識別プログラム、及び識別方法 |
US20160019587A1 (en) * | 2012-12-30 | 2016-01-21 | Certona Corporation | Extracting predictive segments from sampled data |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9336302B1 (en) * | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US10296680B2 (en) * | 2016-08-30 | 2019-05-21 | Sas Institute Inc. | Comparison and selection of experiment designs |
JP6773618B2 (ja) | 2017-09-04 | 2020-10-21 | 株式会社東芝 | 学習装置、情報処理装置、学習方法およびプログラム |
-
2018
- 2018-05-09 JP JP2018090495A patent/JP6965206B2/ja active Active
-
2019
- 2019-03-08 US US16/296,458 patent/US10970313B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160019587A1 (en) * | 2012-12-30 | 2016-01-21 | Certona Corporation | Extracting predictive segments from sampled data |
JP2015095212A (ja) * | 2013-11-14 | 2015-05-18 | 株式会社デンソーアイティーラボラトリ | 識別器、識別プログラム、及び識別方法 |
Non-Patent Citations (1)
Title |
---|
JUNYUAN XIE ET AL.: "Unsupervised Deep Embedding for Clustering Analysis", ARXIV:1511.06335, JPN6021021188, 24 May 2016 (2016-05-24), ISSN: 0004519428 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021171384A1 (ja) * | 2020-02-25 | 2021-09-02 | 日本電信電話株式会社 | クラスタリング装置、クラスタリング方法、および、クラスタリングプログラム |
JPWO2021171384A1 (ja) * | 2020-02-25 | 2021-09-02 | ||
JP7428233B2 (ja) | 2020-02-25 | 2024-02-06 | 日本電信電話株式会社 | クラスタリング装置、クラスタリング方法、および、クラスタリングプログラム |
US11886936B2 (en) | 2021-02-09 | 2024-01-30 | Kabushiki Kaisha Toshiba | Data processing apparatus, data processing method, and storage medium storing therein data processing program |
Also Published As
Publication number | Publication date |
---|---|
JP6965206B2 (ja) | 2021-11-10 |
US20190347277A1 (en) | 2019-11-14 |
US10970313B2 (en) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6965206B2 (ja) | クラスタリング装置、クラスタリング方法およびプログラム | |
US11023806B2 (en) | Learning apparatus, identifying apparatus, learning and identifying system, and recording medium | |
US10223615B2 (en) | Learning based defect classification | |
US11886990B2 (en) | Classification device, classification method, and computer program product | |
KR20160143548A (ko) | 인공 신경 네트워크를 자동으로 조정하는 방법 및 장치 | |
US20220067588A1 (en) | Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model | |
US20110029469A1 (en) | Information processing apparatus, information processing method and program | |
EP3745309A1 (en) | Training a generative adversarial network | |
EP3822872A1 (en) | Information processing device, information processing method, and information processing program | |
JP6004015B2 (ja) | 学習方法、情報処理装置および学習プログラム | |
US11748600B2 (en) | Quantization parameter optimization method and quantization parameter optimization device | |
JP2019067299A (ja) | ラベル推定装置及びラベル推定プログラム | |
JP6988995B2 (ja) | 画像生成装置、画像生成方法および画像生成プログラム | |
JP2020177582A (ja) | 学習装置、学習方法、プログラムおよび認識装置 | |
WO2021095509A1 (ja) | 推定システム、推定装置および推定方法 | |
US20220366242A1 (en) | Information processing apparatus, information processing method, and storage medium | |
KR101949448B1 (ko) | 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치 | |
US20240020531A1 (en) | System and Method for Transforming a Trained Artificial Intelligence Model Into a Trustworthy Artificial Intelligence Model | |
WO2022162839A1 (ja) | 学習装置、学習方法、及び、記録媒体 | |
WO2020026395A1 (ja) | モデル作成装置、モデル作成方法、及び、モデル作成プログラムが記録された記録媒体 | |
KR20190078710A (ko) | 이미지 분류 시스템 및 방법 | |
US20240095520A1 (en) | Representation learning apparatus, method, and non-transitory computer readable medium | |
US20240104915A1 (en) | Long duration structured video action segmentation | |
JP7395396B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2019057024A (ja) | 分類器構築方法、画像分類方法、分類器構築装置および画像分類装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200618 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210921 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211020 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6965206 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |