JP7026653B2 - クラスタリング装置、クラスタリング方法及びクラスタリングプログラム - Google Patents
クラスタリング装置、クラスタリング方法及びクラスタリングプログラム Download PDFInfo
- Publication number
- JP7026653B2 JP7026653B2 JP2019035244A JP2019035244A JP7026653B2 JP 7026653 B2 JP7026653 B2 JP 7026653B2 JP 2019035244 A JP2019035244 A JP 2019035244A JP 2019035244 A JP2019035244 A JP 2019035244A JP 7026653 B2 JP7026653 B2 JP 7026653B2
- Authority
- JP
- Japan
- Prior art keywords
- outliers
- correlation
- attributes
- records
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
しかしながら、データセットの一部の属性には、例えば「身長と体重」又は「家の広さと家族構成」等、相関関係のある組み合わせが存在する。この場合、例えば、「50kg、180cm」のように、それぞれの属性単独では一般的な値であっても、組み合わせることで外れ値となるデータが存在しうる。
図1は、本実施形態に係るクラスタリング装置1の機能構成を示すブロック図である。
クラスタリング装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部10は、これらの機能部により、処理対象のデータセットを複数のクラスタに分割する。また、制御部10は、データセットの各レコードをデータ点とし、分割された各クラスタに所属する点を重心等の代表点に変更することでk-匿名化を実現する。
相関関係を定量的に計測する手法は様々あり、線形の相関を示す相関係数の他、非線形の相関を算出可能なMIC(Maximal Information Coefficient)、高次元の外れ値を検出するCOP(Coherence Pursuit)、HiCS(High Contrast Subspaces)、SOD(Subspace Outlier Degree)等がある。
これらの手法のいずれを採用するかは限定されず、データセットに含まれるデータの分布によって適宜選択されてよい。
なお、相関係数Rは、
外れ値の検出には、例えば、スミルノフ・グラブス検定方法、又は四分位範囲を用いた方法等が利用可能である。また、前述のように相関係数を用いた場合には、外れ値は、回帰直線を用いた信頼区間等によって検出可能である。
なお、分割処理は、例えば、レコード(データ点)間の距離に基づく既存の手法が利用可能である。
具体的には、生成部15は、外れ値同士をクラスタにできるかを判定する。例えば、外れ値の検出に回帰直線を用いた場合、検出された外れ値は、上振れした値と下振れした値とに分けられる。分けられたそれぞれのレコード数がk以上の場合、k-匿名化できるため、クラスタとしてデータセットに結合する。一方、レコード数がk未満であれば、外れ値としてレコードは削除される。
図2は、本実施形態に係るクラスタリング装置1の処理手順を示すフローチャートである。
ここでは、クラスタリング装置1は、データセットをクラスタリングし、クラスタ内のレコードが識別されないように属性値を加工して匿名化する。
したがって、クラスタリング装置1は、属性それぞれ単独では判別されない組み合わせでの外れ値を、相関を考慮することにより除外できる。これにより、データセットの属性間に相関がある場合に、クラスタリングの精度が向上し、この結果、適切な匿名化が可能となる。
したがって、クラスタリング装置1は、外れ値のレコードが一定数以上ある場合に、これらをデータセットから削除することなく、外れ値からなるクラスタとして適切に利用できる。
したがって、クラスタリング装置1は、外れ値をさらにクラスタに分割することができ、より適切なクラスタを提供できる。
10 制御部
11 第1検出部
12 相関評価部
13 第2検出部
14 分割部
15 生成部
16 匿名化処理部
20 記憶部
Claims (6)
- データセットのレコードを構成する複数の属性それぞれについて、当該属性の単独での外れ値を検出し、当該外れ値を有するレコードを除外又は加工する第1検出部と、
前記複数の属性について、属性間の相関を評価し、最大の相関を有する組み合わせを抽出する相関評価部と、
抽出された前記組み合わせの相関に基づいて、当該組み合わせにおける外れ値を検出し、当該外れ値を有するレコードを除外する第2検出部と、
前記第1検出部及び前記第2検出部により外れ値が除外又は加工されたデータセットをクラスタに分割する分割部と、を備えるクラスタリング装置。 - 前記第2検出部により除外されたレコードから新たなクラスタを生成する生成部を備える請求項1に記載のクラスタリング装置。
- 前記生成部は、前記組み合わせの相関からの乖離方向に基づいて、前記新たなクラスタを生成する請求項2に記載のクラスタリング装置。
- 前記クラスタのそれぞれについて、各属性値を匿名化する匿名化処理部を備える請求項1から請求項3のいずれかに記載のクラスタリング装置。
- データセットのレコードを構成する複数の属性それぞれについて、当該属性の単独での外れ値を検出し、当該外れ値を有するレコードを除外又は加工する第1検出ステップと、
前記複数の属性について、属性間の相関を評価し、最大の相関を有する組み合わせを抽出する相関評価ステップと、
抽出された前記組み合わせの相関に基づいて、当該組み合わせにおける外れ値を検出し、当該外れ値を有するレコードを除外する第2検出ステップと、
前記第1検出ステップ及び前記第2検出ステップにおいて外れ値が除外又は加工されたデータセットをクラスタに分割する分割ステップと、をコンピュータが実行するクラスタリング方法。 - データセットのレコードを構成する複数の属性それぞれについて、当該属性の単独での外れ値を検出し、当該外れ値を有するレコードを除外又は加工する第1検出ステップと、
前記複数の属性について、属性間の相関を評価し、最大の相関を有する組み合わせを抽出する相関評価ステップと、
抽出された前記組み合わせの相関に基づいて、当該組み合わせにおける外れ値を検出し、当該外れ値を有するレコードを除外する第2検出ステップと、
前記第1検出ステップ及び前記第2検出ステップにおいて外れ値が除外又は加工されたデータセットをクラスタに分割する分割ステップと、をコンピュータに実行させるためのクラスタリングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019035244A JP7026653B2 (ja) | 2019-02-28 | 2019-02-28 | クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019035244A JP7026653B2 (ja) | 2019-02-28 | 2019-02-28 | クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020140423A JP2020140423A (ja) | 2020-09-03 |
JP7026653B2 true JP7026653B2 (ja) | 2022-02-28 |
Family
ID=72265188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019035244A Active JP7026653B2 (ja) | 2019-02-28 | 2019-02-28 | クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7026653B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711665B (zh) * | 2021-01-18 | 2022-04-15 | 武汉大学 | 一种基于密度加权集成规则的日志异常检测方法 |
CN112836747A (zh) * | 2021-02-02 | 2021-05-25 | 首都师范大学 | 眼动数据的离群处理方法及装置、计算机设备、存储介质 |
CN114443921B (zh) * | 2022-02-09 | 2023-06-27 | 吉林农业科技学院 | 一种用于计算机大数据的处理方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070055477A1 (en) | 2005-09-02 | 2007-03-08 | Microsoft Corporation | Web data outlier detection and mitigation |
JP2013210759A (ja) | 2012-03-30 | 2013-10-10 | Mitsubishi Electric Information Systems Corp | 特異データ検出方法、特異データ検出プログラムおよび特異データ検出装置 |
JP2014204155A (ja) | 2013-04-01 | 2014-10-27 | 株式会社Nttドコモ | 外れ値原因判定装置及び外れ値原因判定方法 |
US20160092516A1 (en) | 2014-09-26 | 2016-03-31 | Oracle International Corporation | Metric time series correlation by outlier removal based on maximum concentration interval |
JP2016197406A (ja) | 2015-04-06 | 2016-11-24 | 国立研究開発法人産業技術総合研究所 | 情報処理装置、情報処理システム、情報処理方法、プログラム、及び記録媒体 |
EP3163463A1 (en) | 2015-10-26 | 2017-05-03 | Aphilion BVBA | A correlation estimating device and the related method |
US20170300504A1 (en) | 2015-01-07 | 2017-10-19 | Alibaba Group Holding Limited | Method and apparatus for managing region tag |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3651550B2 (ja) * | 1998-02-23 | 2005-05-25 | 三菱電機株式会社 | 属性圧縮装置および方法 |
-
2019
- 2019-02-28 JP JP2019035244A patent/JP7026653B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070055477A1 (en) | 2005-09-02 | 2007-03-08 | Microsoft Corporation | Web data outlier detection and mitigation |
JP2013210759A (ja) | 2012-03-30 | 2013-10-10 | Mitsubishi Electric Information Systems Corp | 特異データ検出方法、特異データ検出プログラムおよび特異データ検出装置 |
JP2014204155A (ja) | 2013-04-01 | 2014-10-27 | 株式会社Nttドコモ | 外れ値原因判定装置及び外れ値原因判定方法 |
US20160092516A1 (en) | 2014-09-26 | 2016-03-31 | Oracle International Corporation | Metric time series correlation by outlier removal based on maximum concentration interval |
US20170300504A1 (en) | 2015-01-07 | 2017-10-19 | Alibaba Group Holding Limited | Method and apparatus for managing region tag |
JP2016197406A (ja) | 2015-04-06 | 2016-11-24 | 国立研究開発法人産業技術総合研究所 | 情報処理装置、情報処理システム、情報処理方法、プログラム、及び記録媒体 |
EP3163463A1 (en) | 2015-10-26 | 2017-05-03 | Aphilion BVBA | A correlation estimating device and the related method |
Non-Patent Citations (2)
Title |
---|
成田 和世、外1名,カテゴリ型レコードデータからの属性値間の相関性を利用した外れ値検出手法,情報処理学会論文誌 論文誌トランザクション 平成20年度(1),日本,社団法人情報処理学会,2018年11月15日,第1巻,第2号,p.38-53 |
柿澤 美穂、外3名,Pk-匿名化手法の精度改良に関する諸検討,第7回データ工学と情報マネージメントに関するフォーラム[online],日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2015年03月04日,p.1-7 |
Also Published As
Publication number | Publication date |
---|---|
JP2020140423A (ja) | 2020-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734233B2 (en) | Method for classifying an unmanaged dataset | |
Rana et al. | Differentially private random forest with high utility | |
JP7026653B2 (ja) | クラスタリング装置、クラスタリング方法及びクラスタリングプログラム | |
US10820296B2 (en) | Generating wireless network access point models using clustering techniques | |
US20100287160A1 (en) | Method and system for clustering datasets | |
JP6398724B2 (ja) | 情報処理装置、および、情報処理方法 | |
JP6584861B2 (ja) | プライバシ保護装置、方法及びプログラム | |
JP2013239118A (ja) | データ匿名化クラスタリング方法、装置およびプログラム | |
JP6293003B2 (ja) | プライバシー保護装置、方法及びプログラム | |
JP7103496B2 (ja) | 関連スコア算出システム、方法およびプログラム | |
JP6079270B2 (ja) | 情報提供装置 | |
CN114092729A (zh) | 基于聚类匿名化与差分隐私保护的异构用电数据发布方法 | |
JP2014211730A (ja) | 画像検索システム、画像検索装置および画像検索方法 | |
JP5698167B2 (ja) | データ検定装置、データ検定方法、およびプログラム | |
Wu et al. | DPBA-WGAN: A Vector-Valued Differential Private Bilateral Alternative Scheme on WGAN for Image Generation | |
Chhinkaniwala et al. | Tuple value based multiplicative data perturbation approach to preserve privacy in data stream mining | |
Qu et al. | Privacy preserving in big data sets through multiple shuffle | |
Liu et al. | Lsdh: a hashing approach for large-scale link prediction in microblogs | |
JP2016148993A (ja) | プライバシー保護装置、方法及びプログラム | |
Yadav et al. | Privacy preserving data mining with abridge time using vertical partition decision tree | |
WO2019019711A1 (zh) | 行为模式数据的发布方法、装置、终端设备及介质 | |
Helal et al. | An efficient algorithm for community detection in attributed social networks | |
Kaliappan | A Hybrid Clustering Approach and Random Rotation Perturbation (RRP) for Privacy Preserving Data Mining. | |
Mendonça et al. | DiPCoDing: a differentially private approach for correlated data with clustering | |
Ba et al. | Protecting data privacy from being inferred from high dimensional correlated data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7026653 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |