JP7026653B2 - クラスタリング装置、クラスタリング方法及びクラスタリングプログラム - Google Patents

クラスタリング装置、クラスタリング方法及びクラスタリングプログラム Download PDF

Info

Publication number
JP7026653B2
JP7026653B2 JP2019035244A JP2019035244A JP7026653B2 JP 7026653 B2 JP7026653 B2 JP 7026653B2 JP 2019035244 A JP2019035244 A JP 2019035244A JP 2019035244 A JP2019035244 A JP 2019035244A JP 7026653 B2 JP7026653 B2 JP 7026653B2
Authority
JP
Japan
Prior art keywords
outliers
correlation
attributes
records
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019035244A
Other languages
English (en)
Other versions
JP2020140423A (ja
Inventor
知明 三本
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019035244A priority Critical patent/JP7026653B2/ja
Publication of JP2020140423A publication Critical patent/JP2020140423A/ja
Application granted granted Critical
Publication of JP7026653B2 publication Critical patent/JP7026653B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データセットをクラスタリングする装置、方法及びプログラムに関する。
従来、個人情報の保護のため、データセットを匿名化するための様々な技術が提案されている。特にk-匿名化に関して、例えば非特許文献1~5のように、様々なアルゴリズムが提案されている。
K. LeFevre, D. J. DeWitt, and R. Ramakrishnan, "Mondrian multidimensional k-anonymity," In Proc. of the 22nd International Conference on Data Engineering (ICDE ’06), pp. 25-35. IEEE, 2006. P. Samarati and L. Sweeney, "Generalizing data to provide anonymity when disclosing information," in Proc. of PODS 1998, 1998, p. 188. P. Samarati, "Protecting respondents’ identities in microdata release," IEEE Trans. on Knowledge and Data Engineering, vol. 13, no. 6, pp. 1010-1027, 2001. L. Sweeney, "Achieving k-anonymity privacy protection using generalization and suppression," in J. Uncertainty, Fuzziness, and Knowledge-Base Systems, vol. 10(5), 2002, pp. 571-588. J. Byun, A. Kamra, E. Bertino, and N. Li, "Efficient k-anonymization using clustering techniques," International Conference on Database Systems for Advanced Applications, 188-200, 2007, Springer.
ところで、従来の匿名化アルゴリズムは、外れ値を考慮していないため、データセットを匿名化する際、外れ値については除外、あるいはトップ・ボトムコーディングにより大幅に丸めるといった処理が施されていた。
しかしながら、データセットの一部の属性には、例えば「身長と体重」又は「家の広さと家族構成」等、相関関係のある組み合わせが存在する。この場合、例えば、「50kg、180cm」のように、それぞれの属性単独では一般的な値であっても、組み合わせることで外れ値となるデータが存在しうる。
従来の匿名化アルゴリズムでは、このような属性間に相関があるデータを外れ値として扱わない場合、クラスタに特異なデータが含まれてしまう恐れがある。先の例では、体重50kg周辺のクラスタが作成されたとすると、その殆どのレコードは身長160cm前後の女性であると考えられるが、このクラスタに身長180cmの男性のレコードが含まれることになる。仮に体重50kg程度で高身長のレコードがk個以上存在すれば、そのようなクラスタが生成されるが、数が少ない場合には、女性が大半を占めるクラスタに痩せ型かつ高身長の男性のレコードが含まれてしまい、精度の低いクラスタが作られてしまう。
本発明は、データセットの属性間に相関がある場合に、精度良くクラスタリングできるクラスタリング装置、クラスタリング方法及びクラスタリングプログラムを提供することを目的とする。
本発明に係るクラスタリング装置は、データセットのレコードを構成する複数の属性それぞれについて、当該属性の単独での外れ値を検出し、当該外れ値を有するレコードを除外又は加工する第1検出部と、前記複数の属性について、属性間の相関を評価し、最大の相関を有する組み合わせを抽出する相関評価部と、抽出された前記組み合わせの相関に基づいて、当該組み合わせにおける外れ値を検出し、当該外れ値を有するレコードを除外する第2検出部と、前記第1検出部及び前記第2検出部により外れ値が除外又は加工されたデータセットをクラスタに分割する分割部と、を備える。
前記クラスタリング装置は、前記第2検出部により除外されたレコードから新たなクラスタを生成する生成部を備えてもよい。
前記生成部は、前記組み合わせの相関からの乖離方向に基づいて、前記新たなクラスタを生成してもよい。
前記クラスタリング装置は、前記クラスタのそれぞれについて、各属性値を匿名化する匿名化処理部を備えてもよい。
本発明に係るクラスタリング方法は、データセットのレコードを構成する複数の属性それぞれについて、当該属性の単独での外れ値を検出し、当該外れ値を有するレコードを除外又は加工する第1検出ステップと、前記複数の属性について、属性間の相関を評価し、最大の相関を有する組み合わせを抽出する相関評価ステップと、抽出された前記組み合わせの相関に基づいて、当該組み合わせにおける外れ値を検出し、当該外れ値を有するレコードを除外する第2検出ステップと、前記第1検出ステップ及び前記第2検出ステップにおいて外れ値が除外又は加工されたデータセットをクラスタに分割する分割ステップと、をコンピュータが実行する。
本発明に係るクラスタリングプログラムは、データセットのレコードを構成する複数の属性それぞれについて、当該属性の単独での外れ値を検出し、当該外れ値を有するレコードを除外又は加工する第1検出ステップと、前記複数の属性について、属性間の相関を評価し、最大の相関を有する組み合わせを抽出する相関評価ステップと、抽出された前記組み合わせの相関に基づいて、当該組み合わせにおける外れ値を検出し、当該外れ値を有するレコードを除外する第2検出ステップと、前記第1検出ステップ及び前記第2検出ステップにおいて外れ値が除外又は加工されたデータセットをクラスタに分割する分割ステップと、をコンピュータに実行させるためのものである。
本発明によれば、データセットの属性間に相関がある場合に、精度良くクラスタリングできる。
実施形態に係るクラスタリング装置の機能構成を示すブロック図である。 実施形態に係るクラスタリング装置の処理手順を示すフローチャートである。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係るクラスタリング装置1の機能構成を示すブロック図である。
クラスタリング装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部10は、クラスタリング装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群をクラスタリング装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(クラスタリングプログラム)、及びこのプログラムが処理対象とするデータセット、処理途中のデータ、処理結果のクラスタデータ等を記憶する。
制御部10は、第1検出部11と、相関評価部12と、第2検出部13と、分割部14と、生成部15と、匿名化処理部16とを備える。
制御部10は、これらの機能部により、処理対象のデータセットを複数のクラスタに分割する。また、制御部10は、データセットの各レコードをデータ点とし、分割された各クラスタに所属する点を重心等の代表点に変更することでk-匿名化を実現する。
第1検出部11は、データセットのレコードを構成する複数の属性それぞれについて、各属性の単独での外れ値(例えば、年齢110歳、身長200cm等)を検出し、外れ値を有するレコードを、クラスタリングの対象外として除外、又はトップ・ボトムコーディング等により加工する。
相関評価部12は、複数の属性について、属性間の相関を評価し、最大の相関を有する組み合わせを抽出する。
相関関係を定量的に計測する手法は様々あり、線形の相関を示す相関係数の他、非線形の相関を算出可能なMIC(Maximal Information Coefficient)、高次元の外れ値を検出するCOP(Coherence Pursuit)、HiCS(High Contrast Subspaces)、SOD(Subspace Outlier Degree)等がある。
これらの手法のいずれを採用するかは限定されず、データセットに含まれるデータの分布によって適宜選択されてよい。
例えば、相関係数を用いた場合、相関値|R|が閾値(例えば、0.4)以上の属性X,Yを選択する。
なお、相関係数Rは、
Figure 0007026653000001
と求められ、回帰直線は、
Figure 0007026653000002
と表される。ここで、σ,σ,σXYは、属性X,Yそれぞれの標準偏差、及びX,Yの共分散を表す。
第2検出部13は、抽出された属性の組み合わせの相関に基づいて、この組み合わせにおける外れ値を検出し、外れ値を有するレコードを除外する。
外れ値の検出には、例えば、スミルノフ・グラブス検定方法、又は四分位範囲を用いた方法等が利用可能である。また、前述のように相関係数を用いた場合には、外れ値は、回帰直線を用いた信頼区間等によって検出可能である。
分割部14は、第1検出部11及び第2検出部13により外れ値が除外又は加工されたデータセットをクラスタに分割する。
なお、分割処理は、例えば、レコード(データ点)間の距離に基づく既存の手法が利用可能である。
生成部15は、第2検出部13により除外されたレコードから新たなクラスタを生成する。例えば、生成部15は、組み合わせの相関からの乖離方向に基づいて、新たなクラスタを生成する。
具体的には、生成部15は、外れ値同士をクラスタにできるかを判定する。例えば、外れ値の検出に回帰直線を用いた場合、検出された外れ値は、上振れした値と下振れした値とに分けられる。分けられたそれぞれのレコード数がk以上の場合、k-匿名化できるため、クラスタとしてデータセットに結合する。一方、レコード数がk未満であれば、外れ値としてレコードは削除される。
匿名化処理部16は、分割部14又は生成部15により生成されたクラスタのそれぞれについて、各属性値をk-匿名化等の手法により匿名化する。なお、匿名化の手法は限定されない。
次に、クラスタリング方法の手順を詳述する。
図2は、本実施形態に係るクラスタリング装置1の処理手順を示すフローチャートである。
ここでは、クラスタリング装置1は、データセットをクラスタリングし、クラスタ内のレコードが識別されないように属性値を加工して匿名化する。
ステップS1において、第1検出部11は、データセットの属性それぞれ単独での外れ値を検出する。
ステップS2において、第1検出部11は、ステップS1で検出された外れ値を有するレコードを削除、又はトップ・ボトムコーディング等の処理により加工する。
ステップS3において、相関評価部12は、データセットの属性間の相関(例えば、前述の相関係数R)を、属性の組み合わせそれぞれについて計算する。
ステップS4において、相関評価部12は、最大の相関を有する属性の組み合わせ、又は所定以上の相関を有する複数の組み合わせを抽出する。
ステップS5において、第2検出部13は、ステップS4で抽出した属性の組み合わせによる外れ値を検出し、データセットから一旦除外する。
ステップS6において、分割部14は、外れ値を除いたデータセットをクラスタに分割する。
ステップS7において、生成部15は、ステップS5で除外された外れ値を有するレコードからなるデータセットから、1つのクラスタ、又は所定のルールに従って複数のクラスタを生成する。
ステップS8において、匿名化処理部16は、ステップS6及びステップS7で生成されたクラスタに従って、それぞれのデータセットを匿名化し、両者を結合して出力する。
本実施形態によれば、クラスタリング装置1は、データセットのレコードを構成する複数の属性の単独での外れ値を検出し、外れ値を有するレコードを除外又は加工した後、最大の相関を有する属性の組み合わせにおける外れ値を検出し、外れ値を有するレコードを除外してクラスタに分割する。
したがって、クラスタリング装置1は、属性それぞれ単独では判別されない組み合わせでの外れ値を、相関を考慮することにより除外できる。これにより、データセットの属性間に相関がある場合に、クラスタリングの精度が向上し、この結果、適切な匿名化が可能となる。
さらに、クラスタリング装置1は、属性の組み合わせにより除外された外れ値のレコードから、新たなクラスタを生成する。
したがって、クラスタリング装置1は、外れ値のレコードが一定数以上ある場合に、これらをデータセットから削除することなく、外れ値からなるクラスタとして適切に利用できる。
また、クラスタリング装置1は、計算された組み合わせの相関からの乖離方向、例えば回帰直線の上方か下方かの分類等に基づいて、新たなクラスタを生成する。
したがって、クラスタリング装置1は、外れ値をさらにクラスタに分割することができ、より適切なクラスタを提供できる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
クラスタリング装置1によるクラスタリング方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 クラスタリング装置
10 制御部
11 第1検出部
12 相関評価部
13 第2検出部
14 分割部
15 生成部
16 匿名化処理部
20 記憶部

Claims (6)

  1. データセットのレコードを構成する複数の属性それぞれについて、当該属性の単独での外れ値を検出し、当該外れ値を有するレコードを除外又は加工する第1検出部と、
    前記複数の属性について、属性間の相関を評価し、最大の相関を有する組み合わせを抽出する相関評価部と、
    抽出された前記組み合わせの相関に基づいて、当該組み合わせにおける外れ値を検出し、当該外れ値を有するレコードを除外する第2検出部と、
    前記第1検出部及び前記第2検出部により外れ値が除外又は加工されたデータセットをクラスタに分割する分割部と、を備えるクラスタリング装置。
  2. 前記第2検出部により除外されたレコードから新たなクラスタを生成する生成部を備える請求項1に記載のクラスタリング装置。
  3. 前記生成部は、前記組み合わせの相関からの乖離方向に基づいて、前記新たなクラスタを生成する請求項2に記載のクラスタリング装置。
  4. 前記クラスタのそれぞれについて、各属性値を匿名化する匿名化処理部を備える請求項1から請求項3のいずれかに記載のクラスタリング装置。
  5. データセットのレコードを構成する複数の属性それぞれについて、当該属性の単独での外れ値を検出し、当該外れ値を有するレコードを除外又は加工する第1検出ステップと、
    前記複数の属性について、属性間の相関を評価し、最大の相関を有する組み合わせを抽出する相関評価ステップと、
    抽出された前記組み合わせの相関に基づいて、当該組み合わせにおける外れ値を検出し、当該外れ値を有するレコードを除外する第2検出ステップと、
    前記第1検出ステップ及び前記第2検出ステップにおいて外れ値が除外又は加工されたデータセットをクラスタに分割する分割ステップと、をコンピュータが実行するクラスタリング方法。
  6. データセットのレコードを構成する複数の属性それぞれについて、当該属性の単独での外れ値を検出し、当該外れ値を有するレコードを除外又は加工する第1検出ステップと、
    前記複数の属性について、属性間の相関を評価し、最大の相関を有する組み合わせを抽出する相関評価ステップと、
    抽出された前記組み合わせの相関に基づいて、当該組み合わせにおける外れ値を検出し、当該外れ値を有するレコードを除外する第2検出ステップと、
    前記第1検出ステップ及び前記第2検出ステップにおいて外れ値が除外又は加工されたデータセットをクラスタに分割する分割ステップと、をコンピュータに実行させるためのクラスタリングプログラム。
JP2019035244A 2019-02-28 2019-02-28 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム Active JP7026653B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019035244A JP7026653B2 (ja) 2019-02-28 2019-02-28 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019035244A JP7026653B2 (ja) 2019-02-28 2019-02-28 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Publications (2)

Publication Number Publication Date
JP2020140423A JP2020140423A (ja) 2020-09-03
JP7026653B2 true JP7026653B2 (ja) 2022-02-28

Family

ID=72265188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019035244A Active JP7026653B2 (ja) 2019-02-28 2019-02-28 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Country Status (1)

Country Link
JP (1) JP7026653B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711665B (zh) * 2021-01-18 2022-04-15 武汉大学 一种基于密度加权集成规则的日志异常检测方法
CN112836747A (zh) * 2021-02-02 2021-05-25 首都师范大学 眼动数据的离群处理方法及装置、计算机设备、存储介质
CN114443921B (zh) * 2022-02-09 2023-06-27 吉林农业科技学院 一种用于计算机大数据的处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055477A1 (en) 2005-09-02 2007-03-08 Microsoft Corporation Web data outlier detection and mitigation
JP2013210759A (ja) 2012-03-30 2013-10-10 Mitsubishi Electric Information Systems Corp 特異データ検出方法、特異データ検出プログラムおよび特異データ検出装置
JP2014204155A (ja) 2013-04-01 2014-10-27 株式会社Nttドコモ 外れ値原因判定装置及び外れ値原因判定方法
US20160092516A1 (en) 2014-09-26 2016-03-31 Oracle International Corporation Metric time series correlation by outlier removal based on maximum concentration interval
JP2016197406A (ja) 2015-04-06 2016-11-24 国立研究開発法人産業技術総合研究所 情報処理装置、情報処理システム、情報処理方法、プログラム、及び記録媒体
EP3163463A1 (en) 2015-10-26 2017-05-03 Aphilion BVBA A correlation estimating device and the related method
US20170300504A1 (en) 2015-01-07 2017-10-19 Alibaba Group Holding Limited Method and apparatus for managing region tag

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3651550B2 (ja) * 1998-02-23 2005-05-25 三菱電機株式会社 属性圧縮装置および方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055477A1 (en) 2005-09-02 2007-03-08 Microsoft Corporation Web data outlier detection and mitigation
JP2013210759A (ja) 2012-03-30 2013-10-10 Mitsubishi Electric Information Systems Corp 特異データ検出方法、特異データ検出プログラムおよび特異データ検出装置
JP2014204155A (ja) 2013-04-01 2014-10-27 株式会社Nttドコモ 外れ値原因判定装置及び外れ値原因判定方法
US20160092516A1 (en) 2014-09-26 2016-03-31 Oracle International Corporation Metric time series correlation by outlier removal based on maximum concentration interval
US20170300504A1 (en) 2015-01-07 2017-10-19 Alibaba Group Holding Limited Method and apparatus for managing region tag
JP2016197406A (ja) 2015-04-06 2016-11-24 国立研究開発法人産業技術総合研究所 情報処理装置、情報処理システム、情報処理方法、プログラム、及び記録媒体
EP3163463A1 (en) 2015-10-26 2017-05-03 Aphilion BVBA A correlation estimating device and the related method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
成田 和世、外1名,カテゴリ型レコードデータからの属性値間の相関性を利用した外れ値検出手法,情報処理学会論文誌 論文誌トランザクション 平成20年度(1),日本,社団法人情報処理学会,2018年11月15日,第1巻,第2号,p.38-53
柿澤 美穂、外3名,Pk-匿名化手法の精度改良に関する諸検討,第7回データ工学と情報マネージメントに関するフォーラム[online],日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2015年03月04日,p.1-7

Also Published As

Publication number Publication date
JP2020140423A (ja) 2020-09-03

Similar Documents

Publication Publication Date Title
US11734233B2 (en) Method for classifying an unmanaged dataset
Rana et al. Differentially private random forest with high utility
JP7026653B2 (ja) クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
US10820296B2 (en) Generating wireless network access point models using clustering techniques
US20100287160A1 (en) Method and system for clustering datasets
JP6398724B2 (ja) 情報処理装置、および、情報処理方法
JP6584861B2 (ja) プライバシ保護装置、方法及びプログラム
JP2013239118A (ja) データ匿名化クラスタリング方法、装置およびプログラム
JP6293003B2 (ja) プライバシー保護装置、方法及びプログラム
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
JP6079270B2 (ja) 情報提供装置
CN114092729A (zh) 基于聚类匿名化与差分隐私保护的异构用电数据发布方法
JP2014211730A (ja) 画像検索システム、画像検索装置および画像検索方法
JP5698167B2 (ja) データ検定装置、データ検定方法、およびプログラム
Wu et al. DPBA-WGAN: A Vector-Valued Differential Private Bilateral Alternative Scheme on WGAN for Image Generation
Chhinkaniwala et al. Tuple value based multiplicative data perturbation approach to preserve privacy in data stream mining
Qu et al. Privacy preserving in big data sets through multiple shuffle
Liu et al. Lsdh: a hashing approach for large-scale link prediction in microblogs
JP2016148993A (ja) プライバシー保護装置、方法及びプログラム
Yadav et al. Privacy preserving data mining with abridge time using vertical partition decision tree
WO2019019711A1 (zh) 行为模式数据的发布方法、装置、终端设备及介质
Helal et al. An efficient algorithm for community detection in attributed social networks
Kaliappan A Hybrid Clustering Approach and Random Rotation Perturbation (RRP) for Privacy Preserving Data Mining.
Mendonça et al. DiPCoDing: a differentially private approach for correlated data with clustering
Ba et al. Protecting data privacy from being inferred from high dimensional correlated data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220215

R150 Certificate of patent or registration of utility model

Ref document number: 7026653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150