JP2015153381A - クラスタリング装置、方法及びプログラム - Google Patents
クラスタリング装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2015153381A JP2015153381A JP2014029495A JP2014029495A JP2015153381A JP 2015153381 A JP2015153381 A JP 2015153381A JP 2014029495 A JP2014029495 A JP 2014029495A JP 2014029495 A JP2014029495 A JP 2014029495A JP 2015153381 A JP2015153381 A JP 2015153381A
- Authority
- JP
- Japan
- Prior art keywords
- clustering
- clusters
- result
- value
- aic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】クラスタリング部1は指定されたクラスタ数にてクラスタリングを行い、その結果の、評価指標についての分類の適切さをAIC(赤池情報量基準)値として基準量算出部2が算出する。AIC値はクラスタ数の関数として減少の後に増加に転ずる、または単調増加するという性質を利用して、指示判定部3はクラスタ数を断続的に指定し、一連の得られたAIC値を参照して前者又は後者のいずれの性質かを判断し、前者の場合は当該転ずる箇所を、後者の場合は最小クラスタ数を見出し、最適結果を与えるものであるとして判定する。
【選択図】図1
Description
[手順2]区間D_kを中点で区切って区間D_k_a及び区間D_k_bとし、それぞれの中点におけるAIC値を求め、[手順3]へ進む。
Claims (15)
- 対象データをクラスタリングするに際して、そのクラスタリング結果のうち、当該対象データの各サンプルにつき予め与えられた評価指標に関して最適結果と判定されるクラスタ数におけるものを求めるクラスタリング装置であって、
クラスタ数を設定する指示判定部と、
対象データを前記設定されたクラスタ数へ分類してクラスタリング結果を求めるクラスタリング部と、
前記クラスタリング結果における、前記評価指標に関しての分類の適切さを、情報量基準として算出する基準量算出部と、を備え、
クラスタリングにおいて、クラスタ数を変化させたときの情報量基準が、クラスタ数に応じて一定期間のみ増加傾向を示した後に概ね一定値に到達する最大対数尤度の項に負号を付したものと、クラスタ数に応じて単調増加するペナルティ項と、を加算したものであることに基づき、
前記指示判定部は、クラスタ数を断続的に設定して、当該断続的に設定されたクラスタ数のクラスタリング結果において逐次的に得られる情報量基準を参照して、前記クラスタ数に応じて変化する情報量基準の最小値に該当する箇所を見出すことにより、当該箇所におけるクラスタリング結果を最適結果として判定することを特徴とするクラスタリング装置。 - 前記指示判定部は、クラスタ数を第一値及び第一値より大きい第二値に設定し、当該両値で挟まれる区間を初期区間として、区間の両端及び中点における情報量基準を逐次的に参照しながら、情報量基準の最小値を与える片側の区間を選別していくことにより、前記クラスタ数に応じて変化する情報量基準が減少傾向から増加傾向へと転ずる箇所を最小値に該当する箇所として見出すことによって、前記最適結果へと到達することを特徴とする請求項1に記載のクラスタリング装置。
- 前記指示判定部は、前記区間を選別していく際に、区間の両端及び中点のそれぞれにおいて、周辺所定範囲の情報量基準を参照して、最小の情報量基準を与える点を、区間の両端及び中点のそれぞれに代わる点として採用することを特徴とする請求項2に記載のクラスタリング装置。
- 前記指示判定部は、前記区間を選別していく際に、区間の両端のそれぞれにおいて、周辺所定範囲の情報量基準を参照してフィッティング直線を求め、当該両端のフィッティング直線が交わる点を、区間の中点に代わる点として採用することを特徴とする請求項2または3に記載のクラスタリング装置。
- 前記指示判定部は、前記第一値の周辺所定範囲の情報量基準を参照して、当該一連の情報量基準が増加傾向にある場合は、前記クラスタ数に応じて変化する情報量基準は常に単調増加の傾向を示すものと判断して、当該所定範囲のうち、最小の情報量基準を与えるクラスタ数を、前記最適結果を与えるものとして判定することを特徴とする請求項2ないし4のいずれかに記載のクラスタリング装置。
- 前記指示判定部は、前記第二値の周辺所定範囲の情報量基準を参照して、当該一連の情報量基準が減少傾向にある場合は、当該第二値をより大きな値へと修正することを特徴とする請求項2ないし5のいずれかに記載のクラスタリング装置。
- 前記指示判定部は、
前記クラスタリング部に対して、前記最適結果を得る際に用いる第二クラスタリング手法よりも計算負荷の低い第一クラスタリング手法を指定したうえで、一連のクラスタ数についての情報量基準を参照して、第一クラスタリング手法における最適結果を与えるクラスタ数を初期クラスタ数として求めた後に、
前記クラスタリング部に対して、前記第二クラスタリング手法を指定したうえで、前記初期クラスタ数から逐次的にクラスタ数を増加または減少させた際の情報量基準を参照して、最小値に該当する箇所を見出すことにより、当該最小値に該当する箇所におけるクラスタリング結果を最適結果として判定することを特徴とする請求項1に記載のクラスタリング装置。 - 前記第二クラスタリング手法が、潜在的ディリクレ配分法であり、
前記第一クラスタリング手法が、前記潜在的ディリクレ配分法における精度パラメータを低精度の側に設定したもの、または、単一のトピックを仮定したクラスタリング手法であることを特徴とする請求項7に記載のクラスタリング装置。 - 前記第一クラスタリング手法が、前記潜在的ディリクレ配分法における精度パラメータを低精度の側に設定したものであって、次元数及び/又は総単語数を下げることにより、当該低精度の側に設定されていることを特徴とする請求項8に記載のクラスタリング装置。
- 前記第一クラスタリング手法が、単一のトピックを仮定したクラスタリング手法であって、当該単一のトピックを仮定したクラスタリング手法が、k-means法またはユニグラム混合であることを特徴とする請求項8に記載のクラスタリング装置。
- 前記対象データが医療関係のデータであることを特徴とする請求項1ないし10のいずれかに記載のクラスタリング装置。
- 前記各サンプルにつき予め与えられた評価指標が2値属性に関するものであることを特徴とする請求項1ないし11のいずれかに記載のクラスタリング装置。
- 前記基準量算出部は、赤池情報量基準として、前記情報量基準を算出することを特徴とする請求項1ないし12のいずれかに記載のクラスタリング装置。
- 対象データをクラスタリングするに際して、そのクラスタリング結果のうち、当該対象データの各サンプルにつき予め与えられた評価指標に関して最適結果と判定されるクラスタ数におけるものを求めるクラスタリング方法であって、
クラスタ数を設定する指示判定ステップと、
対象データを前記設定されたクラスタ数へ分類してクラスタリング結果を求めるクラスタリングステップと、
前記クラスタリング結果における、前記評価指標に関しての分類の適切さを、情報量基準として算出する基準量算出ステップと、を備え、
クラスタリングにおいて、クラスタ数を変化させたときの情報量基準が、クラスタ数に応じて一定期間のみ増加傾向を示した後に概ね一定値に到達する最大対数尤度の項に負号を付したものと、クラスタ数に応じて単調増加するペナルティ項と、を加算したものであることに基づき、
前記指示判定ステップでは、前記クラスタ数を断続的に設定して、当該断続的に設定されたクラスタ数のクラスタリング結果において逐次的に得られる情報量基準を参照して、前記クラスタ数に応じて変化する情報量基準の最小値に該当する箇所を見出すことにより、当該箇所におけるクラスタリング結果を最適結果として判定することを特徴とするクラスタリング方法。 - コンピュータを請求項1ないし13のいずれかに記載のクラスタリング装置として機能させることを特徴とするクラスタリングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014029495A JP6176730B2 (ja) | 2014-02-19 | 2014-02-19 | クラスタリング装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014029495A JP6176730B2 (ja) | 2014-02-19 | 2014-02-19 | クラスタリング装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015153381A true JP2015153381A (ja) | 2015-08-24 |
JP6176730B2 JP6176730B2 (ja) | 2017-08-09 |
Family
ID=53895495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014029495A Active JP6176730B2 (ja) | 2014-02-19 | 2014-02-19 | クラスタリング装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6176730B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016038626A (ja) * | 2014-08-05 | 2016-03-22 | Kddi株式会社 | 予測モデル構築装置及び予測装置 |
JP2016095684A (ja) * | 2014-11-14 | 2016-05-26 | Kddi株式会社 | 予測モデル構築装置及びプログラム |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
US11847142B2 (en) | 2020-02-26 | 2023-12-19 | Honda Motor Co., Ltd. | Document analysis system |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5310965B1 (ja) * | 2012-12-06 | 2013-10-09 | 新日鐵住金株式会社 | 熱延鋼板冷却方法 |
-
2014
- 2014-02-19 JP JP2014029495A patent/JP6176730B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5310965B1 (ja) * | 2012-12-06 | 2013-10-09 | 新日鐵住金株式会社 | 熱延鋼板冷却方法 |
Non-Patent Citations (1)
Title |
---|
岡野原 大輔: "ClassModelを用いた単語分類の拡張及び高速化", 情報処理学会研究報告 VOL.2004 NO.93, JPN6017015466, 17 September 2004 (2004-09-17) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016038626A (ja) * | 2014-08-05 | 2016-03-22 | Kddi株式会社 | 予測モデル構築装置及び予測装置 |
JP2016095684A (ja) * | 2014-11-14 | 2016-05-26 | Kddi株式会社 | 予測モデル構築装置及びプログラム |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
US11847142B2 (en) | 2020-02-26 | 2023-12-19 | Honda Motor Co., Ltd. | Document analysis system |
Also Published As
Publication number | Publication date |
---|---|
JP6176730B2 (ja) | 2017-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210049503A1 (en) | Meaningfully explaining black-box machine learning models | |
Minhas et al. | Inferential approaches for network analysis: Amen for latent factor models | |
US9811765B2 (en) | Image captioning with weak supervision | |
US20190278787A1 (en) | Personalized content delivery system | |
US9792534B2 (en) | Semantic natural language vector space | |
CN107463701B (zh) | 基于人工智能推送信息流的方法和装置 | |
Fogués et al. | BFF: A tool for eliciting tie strength and user communities in social networking services | |
US20150278706A1 (en) | Method, Predictive Analytics System, and Computer Program Product for Performing Online and Offline Learning | |
Bhaskaran et al. | An efficient personalized trust based hybrid recommendation (tbhr) strategy for e-learning system in cloud computing | |
US11055471B1 (en) | Automatic placement of electronic media content items within an online document | |
US10042944B2 (en) | Suggested keywords | |
Fazeli et al. | Which recommender system can best fit social learning platforms? | |
JP6176730B2 (ja) | クラスタリング装置、方法及びプログラム | |
Burdisso et al. | τ-SS3: A text classifier with dynamic n-grams for early risk detection over text streams | |
WO2020220757A1 (zh) | 基于强化学习模型向用户推送对象的方法和装置 | |
US20210374681A1 (en) | System and method for providing job recommendations based on users' latent skills | |
US20200364765A1 (en) | Method for managing item recommendation using degree of association between language unit and usage history | |
CN106663210B (zh) | 基于感受的多媒体处理 | |
CN112487283A (zh) | 训练模型的方法、装置、电子设备及可读存储介质 | |
Lee et al. | Adaptive collaborative filtering based on scalable clustering for big recommender systems | |
US20190164083A1 (en) | Categorical Data Transformation and Clustering for Machine Learning using Natural Language Processing | |
US9875443B2 (en) | Unified attractiveness prediction framework based on content impact factor | |
Knock et al. | Bayesian model choice for epidemic models with two levels of mixing | |
JP5813052B2 (ja) | 情報処理装置、方法及びプログラム | |
Rezaeenour et al. | Developing a new hybrid intelligent approach for prediction online news popularity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160729 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170706 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6176730 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |