JP5912667B2 - クラスタリング装置およびクラスタリング方法 - Google Patents
クラスタリング装置およびクラスタリング方法 Download PDFInfo
- Publication number
- JP5912667B2 JP5912667B2 JP2012044540A JP2012044540A JP5912667B2 JP 5912667 B2 JP5912667 B2 JP 5912667B2 JP 2012044540 A JP2012044540 A JP 2012044540A JP 2012044540 A JP2012044540 A JP 2012044540A JP 5912667 B2 JP5912667 B2 JP 5912667B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- cluster
- representative value
- new
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
実施の形態にかかるクラスタリング装置1を用いて、二次元乱数データのクラスタリングを行った。クラスタリング装置1に入力するデータとしては、(式2)
(x,y)=(−50≦x,y≦50)(式2)
のデータ範囲の100個のランダムデータを用いた。データ距離閾値(Dp)は、50に設定した。図8−1にクラスタリング装置1によるデータ範囲内のランダムデータに対するクラスタリング結果を示す。
実施例1と同一のデータを用い、従来法としての群平均化法を用いて、クラスタリングを行った。図8−2に群平均化法のクラスタリング結果を示す。
クラスタリング装置1を用いて、(式2)のデータ範囲の100個のランダムデータに加え、(式2)のデータ範囲外の3個のデータ(特異データと称する)を追加した103個のデータのクラスタリングを行った。データ距離閾値(Dp)は、50に設定した。図9−1にクラスタリング装置1によるクラスタリング結果を示す。
実施例2と同一のデータを用い、群平均化法を用いて、クラスタリングを行った。図9−2に群平均化法のクラスタリング結果を示す。
実施の形態にかかるクラスタリング装置1を用いて、図10に示すデータ範囲の二次元データのクラスタリングを行った。なお、クラスタリング装置1に入力されるデータは、図10に示すようにグループA〜Dの異なるデータ範囲のランダムデータであり、各グループのデータ数は、図10に示す通りである。図11は、データの入力順、データ番号とデータ数、データ範囲およびクラスタの遷移を示している。なお、クラスタの遷移の欄のうち各入力順に対応する上段は距離閾値(Dp)70の場合、下段は距離閾値(Dp)80の場合のクラスタ遷移を示している。図11に示す入力順の通り、各データ範囲のデータを順次、クラスタリング装置1に入力した。
10 データ取得部
20 特徴パラメータ算出部
30 逐次クラスタリング部
31 データ距離算出部
32 クラスタ決定部
33 セントロイド算出部
40 データ記憶部
50 セントロイド記憶部
60 データ更新部
Claims (5)
- 取得データを逐次クラスタリングするクラスタリング装置であって、
既にクラスタリングされたデータと、前記データが属するクラスタと、前記データが取得された取得順とを対応付けて記憶するデータ記憶部と、
前記クラスタと、前記クラスタに属する前記データの特徴量を代表する代表値とを対応付けて記憶する代表値記憶部と、
クラスタリングの対象となる新データを取得するデータ取得部と、
前記データ取得部が取得した前記新データの前記特徴量と前記代表値記憶部に記憶されている前記代表値の間のデータ距離を算出するデータ距離算出部と、
前記データ距離に基づいて、前記新データが属するクラスタを決定するクラスタ決定部と、
前記新データの前記特徴量を少なくとも用いて、前記新データに対して決定された前記クラスタの前記代表値を算出する代表値算出部と、
前記新データと、前記新データに対して決定された前記クラスタとを対応付けて、前記データ記憶部に書き込み、前記新データに対して決定された前記クラスタに対応付けて、前記代表値算出部で算出された、前記新データに対して決定された前記クラスタの前記代表値を、前記代表値記憶部に書き込むデータ更新部と、
前記データ取得部が前記新データを取得した場合に、前記新データと前記データ記憶部に記憶されている前記データとを合わせたデータ総数と、予め設定されたデータ数閾値とを比較し、前記データ総数が前記データ数閾値よりも大きい場合に、前記データ記憶部に記憶されている前記データのうち取得順の最も早い前記データを削除する削除部と
を備え、
前記代表値算出部は、さらに、前記削除部による削除後に前記データ記憶部に記憶されている前記データの前記特徴量に基づいて、削除された前記データが属していた前記クラスタの前記代表値を算出し、
前記データ更新部は、さらに、前記代表値記憶部に記憶されている、削除された前記データが属していた前記クラスタの前記代表値を、前記代表値算出部で算出された、削除された前記データが属していた前記クラスタの前記代表値に更新することを特徴とするクラスタリング装置。 - 前記クラスタ決定部は、さらに、前記データ距離算出部により算出された前記データ距離と、距離閾値とを比較し、前記データ距離が前記距離閾値よりも大きい場合に、前記データ記憶部に記憶されているクラスタ以外の新たなクラスタを、前記新データが属するクラスタとして決定し、
前記代表値算出部は、さらに、前記新データの前記特徴量に基づいて、前記新たなクラスタの前記代表値を算出することを特徴とする請求項1に記載のクラスタリング装置。 - 前記クラスタ決定部は、さらに、前記データ距離算出部により算出された前記データ距離と、距離閾値とを比較し、前記データ距離が前記距離閾値以下である場合に、前記距離閾値以下の前記データ距離が算出された前記代表値に対する前記クラスタを前記新データの属するクラスタとして決定し、
前記代表値算出部は、さらに、前記データ記憶部を参照し、前記新データに対して決定された前記クラスタに属する前記データの前記特徴量及び前記新データの前記特徴量に基づいて、前記新データが属するクラスタの前記代表値を算出し、
前記データ更新部は、さらに、前記代表値記憶部に記憶されている、前記新データに対して決定された前記クラスタの前記代表値を、前記代表値算出部により算出された、前記新データに対して決定された前記クラスタの前記代表値に更新することを特徴とする請求項1または2に記載のクラスタリング装置。 - 前記代表値は、前記クラスタに属する前記データの前記特徴量の重心位置であることを特徴とする請求項1から3のいずれか一項に記載のクラスタリング装置。
- 取得データを逐次クラスタリングするクラスタリング装置で実行されるクラスタリング方法であって、
前記クラスタリング装置は、既にクラスタリングされたデータと、前記データが属するクラスタと、前記データが取得された取得順とを対応付けて記憶するデータ記憶部と、
前記クラスタと、前記クラスタに属する前記データの特徴量を代表する代表値とを対応付けて記憶する代表値記憶部と
を備え、
クラスタリングの対象となる新データを取得するデータ取得工程と、
前記データ取得工程において取得した前記新データの前記特徴量と前記代表値記憶部に記憶されている前記代表値の間のデータ距離を算出するデータ距離算出工程と、
前記データ距離に基づいて、前記新データが属するクラスタを決定するクラスタ決定工程と、
前記新データの前記特徴量を少なくとも用いて、前記新データに対して決定された前記クラスタの前記代表値を算出する代表値算出工程と、
前記新データと、前記新データに対して決定された前記クラスタとを対応付けて、前記データ記憶部に書き込み、前記新データに対して決定された前記クラスタに対応付けて、前記代表値算出工程で算出された、前記新データに対して決定された前記クラスタの前記代表値を、前記代表値記憶部に書き込むデータ更新工程と、
前記データ取得工程で前記新データを取得した場合に、前記新データと前記データ記憶部に記憶されている前記データとを合わせたデータ総数と、予め設定されたデータ数閾値とを比較し、前記データ総数が前記データ数閾値よりも大きい場合に、前記データ記憶部に記憶されている前記データのうち取得順の最も早い前記データを削除する削除工程と
を含み、
前記代表値算出工程では、さらに、前記削除工程による削除後に前記データ記憶部に記憶されている前記データの前記特徴量に基づいて、削除された前記データが属していた前記クラスタの前記代表値を算出し、
前記データ更新工程では、さらに、前記代表値記憶部に記憶されている、削除された前記データが属していた前記クラスタの前記代表値を、前記代表値算出工程で算出された、削除された前記データが属していた前記クラスタの前記代表値に更新することを特徴とするクラスタリング方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012044540A JP5912667B2 (ja) | 2012-02-29 | 2012-02-29 | クラスタリング装置およびクラスタリング方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012044540A JP5912667B2 (ja) | 2012-02-29 | 2012-02-29 | クラスタリング装置およびクラスタリング方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013182341A JP2013182341A (ja) | 2013-09-12 |
JP5912667B2 true JP5912667B2 (ja) | 2016-04-27 |
Family
ID=49272958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012044540A Active JP5912667B2 (ja) | 2012-02-29 | 2012-02-29 | クラスタリング装置およびクラスタリング方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5912667B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6247613B2 (ja) * | 2014-08-14 | 2017-12-13 | 日本電信電話株式会社 | クラスタリング装置、方法、及びプログラム |
US10360276B2 (en) * | 2015-07-28 | 2019-07-23 | Expedia, Inc. | Disambiguating search queries |
JP6829603B2 (ja) * | 2017-01-05 | 2021-02-10 | 綜合警備保障株式会社 | クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
JP6862969B2 (ja) * | 2017-03-21 | 2021-04-21 | 日本電気株式会社 | データ種別を推定するための情報処理方法、情報処理装置および情報処理プログラム |
CN111339210B (zh) * | 2018-12-18 | 2023-04-28 | 杭州海康威视数字技术股份有限公司 | 数据聚类方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002041544A (ja) * | 2000-07-25 | 2002-02-08 | Toshiba Corp | テキスト情報分析装置 |
JP2002140350A (ja) * | 2000-11-02 | 2002-05-17 | Toshiba Corp | 入力データの履歴管理装置及び管理方法及び該管理方法が記憶された情報記憶媒体 |
JP5127738B2 (ja) * | 2009-02-06 | 2013-01-23 | キヤノン株式会社 | 画像処理方法および画像処理装置およびプログラム |
-
2012
- 2012-02-29 JP JP2012044540A patent/JP5912667B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013182341A (ja) | 2013-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5912667B2 (ja) | クラスタリング装置およびクラスタリング方法 | |
JP5427640B2 (ja) | 決定木生成装置、決定木生成方法、及びプログラム | |
WO2017076154A1 (zh) | 网络事件预测以及建立网络事件预测模型的方法和装置 | |
CN112699623A (zh) | 基于非结构网格规则化重构技术的高精度热流计算方法 | |
CN104679834A (zh) | 一种时序数据清洗方法及系统 | |
KR101544457B1 (ko) | 최적 설계 파라미터 탐색을 위한 최적화 방법 | |
US10600501B2 (en) | System and methods for identifying a base call included in a target sequence | |
CN108197708A (zh) | 一种基于Spark的并行化遗传算法 | |
CN111967696A (zh) | 基于神经网络的电动汽车充电需求预测方法、系统及装置 | |
JP2019152567A (ja) | 算出プログラム、算出方法、算出装置、及び表示プログラム | |
CN107361396A (zh) | 基于大数据的烟草烘丝水分预测与控制系统 | |
KR101463492B1 (ko) | 비정상성 분위 사상을 적용한 전지구 기후모델의 오차보정방법 | |
CN109299778A (zh) | 一种基于布谷鸟搜索算法的rcrss救援地图分区的计算方法 | |
CN109460608A (zh) | 一种基于模糊时间序列的高陡边坡形变预测的方法 | |
JP5977958B2 (ja) | 特異データ検出装置および特異データ検出方法 | |
CN107506572B (zh) | 获取目标点的高度的方法和装置 | |
TWI617422B (zh) | 塑膠押出製程控制方法及參數調整系統 | |
CN109858816A (zh) | 一种采用蚁狮算法进行生产调度的方法 | |
CN110275895B (zh) | 一种缺失交通数据的填充设备、装置及方法 | |
CN115665174B (zh) | 一种梯度数据的同步方法、系统、设备及存储介质 | |
Pagès et al. | Potential and actual root growth variations in root systems: modeling them with a two-step stochastic approach | |
CN115292971B (zh) | 基于贝叶斯的裂缝属性分析方法、装置及存储介质 | |
CN104537279A (zh) | 一种序列聚类方法及装置 | |
JP7214672B2 (ja) | 情報処理装置、情報処理方法及びコンピュータプログラム | |
CN114492206A (zh) | 一种基于破碎岩体节理模型确定隧道开挖进尺量的计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160105 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5912667 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |