JP6176730B2 - クラスタリング装置、方法及びプログラム - Google Patents
クラスタリング装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6176730B2 JP6176730B2 JP2014029495A JP2014029495A JP6176730B2 JP 6176730 B2 JP6176730 B2 JP 6176730B2 JP 2014029495 A JP2014029495 A JP 2014029495A JP 2014029495 A JP2014029495 A JP 2014029495A JP 6176730 B2 JP6176730 B2 JP 6176730B2
- Authority
- JP
- Japan
- Prior art keywords
- clustering
- clusters
- result
- value
- criterion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
[手順2]区間D_kを中点で区切って区間D_k_a及び区間D_k_bとし、それぞれの中点におけるAIC値を求め、[手順3]へ進む。
Claims (15)
- 対象データをクラスタリングするに際して、そのクラスタリング結果のうち、当該対象データの各サンプルにつき予め与えられた評価指標に関して最適結果と判定されるクラスタ数におけるものを求めるクラスタリング装置であって、
クラスタ数を設定する指示判定部と、
対象データを前記設定されたクラスタ数へ分類してクラスタリング結果を求めるクラスタリング部と、
前記クラスタリング結果における、前記評価指標に関しての分類の適切さを、情報量基準として算出する基準量算出部と、を備え、
クラスタリングにおいて、クラスタ数を変化させたときの情報量基準が、クラスタ数に応じて一定期間のみ増加傾向を示した後に概ね一定値に到達する最大対数尤度の項に負号を付したものと、クラスタ数に応じて単調増加するペナルティ項と、を加算したものであることに基づき、
前記指示判定部は、クラスタ数を断続的に設定して、当該断続的に設定されたクラスタ数のクラスタリング結果において逐次的に得られる情報量基準を参照して、前記クラスタ数に応じて変化する情報量基準の最小値に該当する箇所を見出すことにより、当該箇所におけるクラスタリング結果を最適結果として判定し、
前記指示判定部は、クラスタ数を第一値及び第一値より大きい第二値に設定し、当該両値で挟まれる区間を初期区間として、区間の両端及び中点における情報量基準を逐次的に参照しながら、情報量基準の最小値を与える片側の区間を選別していくことにより、前記クラスタ数に応じて変化する情報量基準が減少傾向から増加傾向へと転ずる箇所を最小値に該当する箇所として見出すことによって、前記最適結果へと到達し、
前記指示判定部は、前記区間を選別していく際に、区間の両端及び中点のそれぞれにおいて、周辺所定範囲の情報量基準を参照して、最小の情報量基準を与える点を、区間の両端及び中点のそれぞれに代わる点として採用することを特徴とするクラスタリング装置。 - 対象データをクラスタリングするに際して、そのクラスタリング結果のうち、当該対象データの各サンプルにつき予め与えられた評価指標に関して最適結果と判定されるクラスタ数におけるものを求めるクラスタリング装置であって、
クラスタ数を設定する指示判定部と、
対象データを前記設定されたクラスタ数へ分類してクラスタリング結果を求めるクラスタリング部と、
前記クラスタリング結果における、前記評価指標に関しての分類の適切さを、情報量基準として算出する基準量算出部と、を備え、
クラスタリングにおいて、クラスタ数を変化させたときの情報量基準が、クラスタ数に応じて一定期間のみ増加傾向を示した後に概ね一定値に到達する最大対数尤度の項に負号を付したものと、クラスタ数に応じて単調増加するペナルティ項と、を加算したものであることに基づき、
前記指示判定部は、クラスタ数を断続的に設定して、当該断続的に設定されたクラスタ数のクラスタリング結果において逐次的に得られる情報量基準を参照して、前記クラスタ数に応じて変化する情報量基準の最小値に該当する箇所を見出すことにより、当該箇所におけるクラスタリング結果を最適結果として判定し、
前記指示判定部は、クラスタ数を第一値及び第一値より大きい第二値に設定し、当該両値で挟まれる区間を初期区間として、区間の両端及び中点における情報量基準を逐次的に参照しながら、情報量基準の最小値を与える片側の区間を選別していくことにより、前記クラスタ数に応じて変化する情報量基準が減少傾向から増加傾向へと転ずる箇所を最小値に該当する箇所として見出すことによって、前記最適結果へと到達し、
前記指示判定部は、前記区間を選別していく際に、区間の両端のそれぞれにおいて、周辺所定範囲の情報量基準を参照してフィッティング直線を求め、当該両端のフィッティング直線が交わる点を、区間の中点に代わる点として採用することを特徴とするクラスタリング装置。 - 前記指示判定部は、前記第一値の周辺所定範囲の情報量基準を参照して、当該一連の情報量基準が増加傾向にある場合は、前記クラスタ数に応じて変化する情報量基準は常に単調増加の傾向を示すものと判断して、当該所定範囲のうち、最小の情報量基準を与えるクラスタ数を、前記最適結果を与えるものとして判定することを特徴とする請求項1または2に記載のクラスタリング装置。
- 前記指示判定部は、前記第二値の周辺所定範囲の情報量基準を参照して、当該一連の情報量基準が減少傾向にある場合は、当該第二値をより大きな値へと修正することを特徴とする請求項1ないし3のいずれかに記載のクラスタリング装置。
- 対象データをクラスタリングするに際して、そのクラスタリング結果のうち、当該対象データの各サンプルにつき予め与えられた評価指標に関して最適結果と判定されるクラスタ数におけるものを求めるクラスタリング装置であって、
クラスタ数を設定する指示判定部と、
対象データを前記設定されたクラスタ数へ分類してクラスタリング結果を求めるクラスタリング部と、
前記クラスタリング結果における、前記評価指標に関しての分類の適切さを、情報量基準として算出する基準量算出部と、を備え、
クラスタリングにおいて、クラスタ数を変化させたときの情報量基準が、クラスタ数に応じて一定期間のみ増加傾向を示した後に概ね一定値に到達する最大対数尤度の項に負号を付したものと、クラスタ数に応じて単調増加するペナルティ項と、を加算したものであることに基づき、
前記指示判定部は、クラスタ数を断続的に設定して、当該断続的に設定されたクラスタ数のクラスタリング結果において逐次的に得られる情報量基準を参照して、前記クラスタ数に応じて変化する情報量基準の最小値に該当する箇所を見出すことにより、当該箇所におけるクラスタリング結果を最適結果として判定し、
前記指示判定部は、
前記クラスタリング部に対して、前記最適結果を得る際に用いる第二クラスタリング手法よりも計算負荷の低い第一クラスタリング手法を指定したうえで、一連のクラスタ数についての情報量基準を参照して、第一クラスタリング手法における最適結果を与えるクラスタ数を初期クラスタ数として求めた後に、
前記クラスタリング部に対して、前記第二クラスタリング手法を指定したうえで、前記初期クラスタ数から逐次的にクラスタ数を増加または減少させた際の情報量基準を参照して、最小値に該当する箇所を見出すことにより、当該最小値に該当する箇所におけるクラスタリング結果を最適結果として判定することを特徴とするクラスタリング装置。 - 前記第二クラスタリング手法が、潜在的ディリクレ配分法であり、
前記第一クラスタリング手法が、前記潜在的ディリクレ配分法における精度パラメータを低精度の側に設定したもの、または、単一のトピックを仮定したクラスタリング手法であることを特徴とする請求項5に記載のクラスタリング装置。 - 前記第一クラスタリング手法が、前記潜在的ディリクレ配分法における精度パラメータを低精度の側に設定したものであって、次元数及び/又は総単語数を下げることにより、当該低精度の側に設定されていることを特徴とする請求項6に記載のクラスタリング装置。
- 前記第一クラスタリング手法が、単一のトピックを仮定したクラスタリング手法であって、当該単一のトピックを仮定したクラスタリング手法が、k-means法またはユニグラム混合であることを特徴とする請求項6に記載のクラスタリング装置。
- 前記対象データが医療関係のデータであることを特徴とする請求項1ないし8のいずれかに記載のクラスタリング装置。
- 前記各サンプルにつき予め与えられた評価指標が2値属性に関するものであることを特徴とする請求項1ないし9のいずれかに記載のクラスタリング装置。
- 前記基準量算出部は、赤池情報量基準として、前記情報量基準を算出することを特徴とする請求項1ないし10のいずれかに記載のクラスタリング装置。
- 対象データをクラスタリングするに際して、そのクラスタリング結果のうち、当該対象データの各サンプルにつき予め与えられた評価指標に関して最適結果と判定されるクラスタ数におけるものを求めるクラスタリング方法であって、
クラスタ数を設定する指示判定ステップと、
対象データを前記設定されたクラスタ数へ分類してクラスタリング結果を求めるクラスタリングステップと、
前記クラスタリング結果における、前記評価指標に関しての分類の適切さを、情報量基準として算出する基準量算出ステップと、を備え、
クラスタリングにおいて、クラスタ数を変化させたときの情報量基準が、クラスタ数に応じて一定期間のみ増加傾向を示した後に概ね一定値に到達する最大対数尤度の項に負号を付したものと、クラスタ数に応じて単調増加するペナルティ項と、を加算したものであることに基づき、
前記指示判定ステップでは、前記クラスタ数を断続的に設定して、当該断続的に設定されたクラスタ数のクラスタリング結果において逐次的に得られる情報量基準を参照して、前記クラスタ数に応じて変化する情報量基準の最小値に該当する箇所を見出すことにより、当該箇所におけるクラスタリング結果を最適結果として判定し、
前記指示判定ステップでは、クラスタ数を第一値及び第一値より大きい第二値に設定し、当該両値で挟まれる区間を初期区間として、区間の両端及び中点における情報量基準を逐次的に参照しながら、情報量基準の最小値を与える片側の区間を選別していくことにより、前記クラスタ数に応じて変化する情報量基準が減少傾向から増加傾向へと転ずる箇所を最小値に該当する箇所として見出すことによって、前記最適結果へと到達し、
前記指示判定ステップでは、前記区間を選別していく際に、区間の両端及び中点のそれぞれにおいて、周辺所定範囲の情報量基準を参照して、最小の情報量基準を与える点を、区間の両端及び中点のそれぞれに代わる点として採用することを特徴とするクラスタリング方法。 - 対象データをクラスタリングするに際して、そのクラスタリング結果のうち、当該対象データの各サンプルにつき予め与えられた評価指標に関して最適結果と判定されるクラスタ数におけるものを求めるクラスタリング方法であって、
クラスタ数を設定する指示判定ステップと、
対象データを前記設定されたクラスタ数へ分類してクラスタリング結果を求めるクラスタリングステップと、
前記クラスタリング結果における、前記評価指標に関しての分類の適切さを、情報量基準として算出する基準量算出ステップと、を備え、
クラスタリングにおいて、クラスタ数を変化させたときの情報量基準が、クラスタ数に応じて一定期間のみ増加傾向を示した後に概ね一定値に到達する最大対数尤度の項に負号を付したものと、クラスタ数に応じて単調増加するペナルティ項と、を加算したものであることに基づき、
前記指示判定ステップでは、前記クラスタ数を断続的に設定して、当該断続的に設定されたクラスタ数のクラスタリング結果において逐次的に得られる情報量基準を参照して、前記クラスタ数に応じて変化する情報量基準の最小値に該当する箇所を見出すことにより、当該箇所におけるクラスタリング結果を最適結果として判定し、
前記指示判定ステップでは、クラスタ数を第一値及び第一値より大きい第二値に設定し、当該両値で挟まれる区間を初期区間として、区間の両端及び中点における情報量基準を逐次的に参照しながら、情報量基準の最小値を与える片側の区間を選別していくことにより、前記クラスタ数に応じて変化する情報量基準が減少傾向から増加傾向へと転ずる箇所を最小値に該当する箇所として見出すことによって、前記最適結果へと到達し、
前記指示判定ステップでは、前記区間を選別していく際に、区間の両端のそれぞれにおいて、周辺所定範囲の情報量基準を参照してフィッティング直線を求め、当該両端のフィッティング直線が交わる点を、区間の中点に代わる点として採用することを特徴とするクラスタリング方法。 - 対象データをクラスタリングするに際して、そのクラスタリング結果のうち、当該対象データの各サンプルにつき予め与えられた評価指標に関して最適結果と判定されるクラスタ数におけるものを求めるクラスタリング方法であって、
クラスタ数を設定する指示判定ステップと、
対象データを前記設定されたクラスタ数へ分類してクラスタリング結果を求めるクラスタリングステップと、
前記クラスタリング結果における、前記評価指標に関しての分類の適切さを、情報量基準として算出する基準量算出ステップと、を備え、
クラスタリングにおいて、クラスタ数を変化させたときの情報量基準が、クラスタ数に応じて一定期間のみ増加傾向を示した後に概ね一定値に到達する最大対数尤度の項に負号を付したものと、クラスタ数に応じて単調増加するペナルティ項と、を加算したものであることに基づき、
前記指示判定ステップでは、前記クラスタ数を断続的に設定して、当該断続的に設定されたクラスタ数のクラスタリング結果において逐次的に得られる情報量基準を参照して、前記クラスタ数に応じて変化する情報量基準の最小値に該当する箇所を見出すことにより、当該箇所におけるクラスタリング結果を最適結果として判定し、
前記指示判定ステップは、
前記クラスタリングステップに対して、前記最適結果を得る際に用いる第二クラスタリング手法よりも計算負荷の低い第一クラスタリング手法を指定したうえで、一連のクラスタ数についての情報量基準を参照して、第一クラスタリング手法における最適結果を与えるクラスタ数を初期クラスタ数として求めた後に、
前記クラスタリングステップに対して、前記第二クラスタリング手法を指定したうえで、前記初期クラスタ数から逐次的にクラスタ数を増加または減少させた際の情報量基準を参照して、最小値に該当する箇所を見出すことにより、当該最小値に該当する箇所におけるクラスタリング結果を最適結果として判定することを特徴とするクラスタリング方法。 - コンピュータを請求項1ないし11のいずれかに記載のクラスタリング装置として機能させることを特徴とするクラスタリングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014029495A JP6176730B2 (ja) | 2014-02-19 | 2014-02-19 | クラスタリング装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014029495A JP6176730B2 (ja) | 2014-02-19 | 2014-02-19 | クラスタリング装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015153381A JP2015153381A (ja) | 2015-08-24 |
JP6176730B2 true JP6176730B2 (ja) | 2017-08-09 |
Family
ID=53895495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014029495A Active JP6176730B2 (ja) | 2014-02-19 | 2014-02-19 | クラスタリング装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6176730B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6296610B2 (ja) * | 2014-08-05 | 2018-03-20 | Kddi株式会社 | 予測モデル構築装置及び予測装置 |
JP6395261B2 (ja) * | 2014-11-14 | 2018-09-26 | Kddi株式会社 | 予測モデル構築装置及びプログラム |
CN106844424B (zh) * | 2016-12-09 | 2020-11-03 | 宁波大学 | 一种基于lda的文本分类方法 |
JP2021135676A (ja) | 2020-02-26 | 2021-09-13 | 本田技研工業株式会社 | 文書分析システム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2764932B1 (en) * | 2012-12-06 | 2018-02-07 | Nippon Steel & Sumitomo Metal Corporation | Method for cooling hot-rolled steel sheet |
-
2014
- 2014-02-19 JP JP2014029495A patent/JP6176730B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015153381A (ja) | 2015-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Selection of additive manufacturing processes | |
Minhas et al. | Inferential approaches for network analysis: Amen for latent factor models | |
US20210049503A1 (en) | Meaningfully explaining black-box machine learning models | |
US10360303B2 (en) | Learning document embeddings with convolutional neural network architectures | |
CN107463701B (zh) | 基于人工智能推送信息流的方法和装置 | |
Fogués et al. | BFF: A tool for eliciting tie strength and user communities in social networking services | |
US9141966B2 (en) | Opinion aggregation system | |
US20150356571A1 (en) | Trending Topics Tracking | |
US20180150607A1 (en) | Synthetic ground truth expansion | |
US20170323268A1 (en) | Scalable response prediction using personalized recommendation models | |
JP6176730B2 (ja) | クラスタリング装置、方法及びプログラム | |
EP2960849A1 (en) | Method and system for recommending an item to a user | |
US10042944B2 (en) | Suggested keywords | |
JP2007317068A (ja) | リコメンド装置およびリコメンドシステム | |
WO2020220757A1 (zh) | 基于强化学习模型向用户推送对象的方法和装置 | |
CN112487283A (zh) | 训练模型的方法、装置、电子设备及可读存储介质 | |
Komkhao et al. | Incremental collaborative filtering based on Mahalanobis distance and fuzzy membership for recommender systems | |
Lee et al. | Adaptive collaborative filtering based on scalable clustering for big recommender systems | |
CN106663210B (zh) | 基于感受的多媒体处理 | |
US20190164083A1 (en) | Categorical Data Transformation and Clustering for Machine Learning using Natural Language Processing | |
JP2011086043A (ja) | 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 | |
Knock et al. | Bayesian model choice for epidemic models with two levels of mixing | |
JP5973935B2 (ja) | 閲覧行動予測装置、閲覧行動予測方法及びプログラム | |
CN110083766B (zh) | 一种基于元路径引导嵌入的查询推荐方法及装置 | |
Boutemedjet et al. | Long-term relevance feedback and feature selection for adaptive content based image suggestion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160729 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170510 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170706 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6176730 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |