JP7219734B2 - 評価装置、評価方法及び評価プログラム - Google Patents

評価装置、評価方法及び評価プログラム Download PDF

Info

Publication number
JP7219734B2
JP7219734B2 JP2020054303A JP2020054303A JP7219734B2 JP 7219734 B2 JP7219734 B2 JP 7219734B2 JP 2020054303 A JP2020054303 A JP 2020054303A JP 2020054303 A JP2020054303 A JP 2020054303A JP 7219734 B2 JP7219734 B2 JP 7219734B2
Authority
JP
Japan
Prior art keywords
evaluation
data
post
index
processed data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020054303A
Other languages
English (en)
Other versions
JP2021157265A (ja
Inventor
知明 三本
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020054303A priority Critical patent/JP7219734B2/ja
Publication of JP2021157265A publication Critical patent/JP2021157265A/ja
Application granted granted Critical
Publication of JP7219734B2 publication Critical patent/JP7219734B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、匿名化データの有用性を評価するための装置、方法及びプログラムに関する。
従来、プライバシ保護の観点から、データセットは匿名化後に利用されることが多いが、匿名化の度合いによって有用性が損なわれる場合があるため、匿名化データの有用性評価が必要とされる。
匿名化データの有用性評価の手法には、匿名化前後のデータ間の距離又は情報量に基づくものがある(例えば、非特許文献1~6参照)。
K. LeFevre, D. J. DeWitt, and R. Ramakrishnan, "Mondrian multidimensional k-anonymity," in Proc. of the 22nd International Conference on Data Engineering (ICDE ’06), pp. 25-35. IEEE, 2006. P. Samarati and L. Sweeney, "Generalizing data to provide anonymity when disclosing information," in Proc. of PODS 1998, 1998, p. 188. P. Samarati, "Protecting respondents’ identities in microdata release," IEEE Trans. on Knowledge and Data Engineering, vol. 13, no. 6, pp. 1010-1027, 2001. L. Sweeney, "Achieving k-anonymity privacy protection using generalization and suppression," in J. Uncertainty, Fuzziness, and Knowledge-Base Systems, vol. 10(5), 2002, pp. 571-588. J. W. Byun, A. Kamra, E. Bertino, and N. Li, "Efficient k-anonymization using clustering techniques," International Conference on Database Systems for Advanced Applications, 188-200, 2007, Springer. T. Iwuchukwu, and J. F. Naughton, "k-anonymization as spatial indexing: Toward scarable and incremental anonymization," in Proceeding of the 33rd International Conference on Very Large Data Bases, VLDB, pages 746-757, 2007.
しかしながら、従来の手法では、実際の利用シーンにおけるデータの有用性を適切に評価できない可能性があった。
本発明は、ユースケースに応じて匿名化データの有用性を評価できる評価装置、評価方法及び評価プログラムを提供することを目的とする。
本発明に係る評価装置は、匿名化処理を施す前後の処理前データ及び処理後データの入力を受け付けるデータ入力部と、前記処理前データ及び前記処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得する結果取得部と、前記分析結果、又は当該分析結果の評価値を、前記処理前データ及び前記処理後データの間で比較し、類似度合いを前記処理前データに対する前記処理後データの有用性の評価指標として算出する指標算出部と、を備える。
前記指標算出部は、前記評価指標を、所定の値域に正規化してもよい。
前記結果取得部は、複数のユースケースそれぞれに応じた複数の分析結果を取得し、前記指標算出部は、前記複数の分析結果それぞれに基づく前記評価指標を加重平均してもよい。
前記分析結果は、前記処理前データ及び前記処理後データそれぞれに基づく教師あり学習による推定結果であり、前記指標算出部は、前記推定結果の精度を前記評価値として前記評価指標を算出してもよい。
前記分析結果は、前記処理前データ及び前記処理後データそれぞれに基づく統計値であり、前記指標算出部は、前記処理前データ及び前記処理後データの間での前記統計値の差を前記評価指標として算出してもよい。
前記分析結果は、一般化階層木におけるノードの値であり、前記指標算出部は、前記ノードの詳細度合いを前記評価値として前記評価指標を算出してもよい。
本発明に係る評価方法は、匿名化処理を施す前後の処理前データ及び処理後データの入力を受け付けるデータ入力ステップと、前記処理前データ及び前記処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得する結果取得ステップと、前記分析結果、又は当該分析結果の評価値を、前記処理前データ及び前記処理後データの間で比較し、類似度合いを前記処理前データに対する前記処理後データの有用性の評価指標として算出する指標算出ステップと、をコンピュータが実行する。
本発明に係る評価プログラムは、前記評価装置としてコンピュータを機能させるためのものである。
本発明によれば、ユースケースに応じて匿名化データの有用性が評価される。
実施形態における評価装置の機能構成を示す図である。 実施形態における一般化階層木を用いた評価方法を例示する図である。 実施形態における有用性の評価方法を示すフローチャートである。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態における評価装置1の機能構成を示す図である。
評価装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部10は、評価装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群を評価装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(評価プログラム)、評価対象のデータセット等を記憶する。
制御部10は、データ入力部11と、結果取得部12と、指標算出部13とを備える。
制御部10は、これらの機能部により、ユースケースに応じて匿名化データの有用性評価する。
データ入力部11は、匿名化処理を施す前後の処理前データ及び処理後データの入力を受け付ける。
結果取得部12は、処理前データ及び処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得する。
分析結果は、例えば、次のようなユースケースに応じた対象データ(処理前データ及び前記処理後データ)の処理結果である。
・対象データそれぞれに基づく教師あり学習による推定結果。
・対象データそれぞれに基づく平均値、分散値等の統計値。
・一般化階層木におけるノードの値。
結果取得部12は、複数のユースケース(例えば、複数の機械学習モデル、複数の統計値等)それぞれに応じた複数の分析結果を取得してもよい。
指標算出部13は、分析結果、又は分析結果の評価値を、処理前データ及び処理後データの間で比較し、類似度合いを処理前データに対する処理後データの有用性の評価指標として算出する。
このとき、指標算出部13は、評価指標を所定の値域に、例えば0~1に正規化してもよい。
また、指標算出部13は、複数の分析結果それぞれに基づく評価指標を加重平均して出力してもよい。
例えば、A、B、Cの3種類のユースケースに対してそれぞれ分析結果の評価を行った場合に、A:0.8、B:0.2、C:0.5という評価値が得られたとする。このとき、指標算出部13は、各評価値を評価指標として出力する他、実際の利用方法としてCが頻繁に使われる場合には、(0.8×1+0.2×1+0.5×2)/(1+1+2)=0.5のように、各評価値に対して重み付けをして、総合評価として評価指標を出力してもよい。
ここで、前述のユースケースの例について、評価指標の算出方法を例示する。
[機械学習による推定]
機械学習による分類をユースケースとした場合、評価装置1は、匿名化前後の処理前データ及び処理後データをそれぞれ教師データとして、共通する属性Xを推定する機械学習モデルをそれぞれ生成する。このとき、属性X及び学習モデルは複数であってもよい。
結果取得部12は、生成した学習モデルの評価用のデータとして、匿名化前後と同じ属性を持つデータセットをそれぞれの学習モデルに入力し、評価用データにおける属性Xの推定を行う。なお、評価用データは、半数が匿名化前のデータ、半数は匿名化処理を施した後のデータとするが、全てが匿名化前、あるいは匿名化後のデータでも構わない。
指標算出部13は、処理前データ及び前記処理後データそれぞれに基づく学習モデルによる評価データの推定結果を取得すると、F値等で表される推定精度を推定結果の評価値として用いて評価指標を算出する。
評価指標としては、例えば、「処理後データに基づく学習モデルの精度/処理前データに基づく学習モデルの精度」といった劣化割合に関する値が用いられてよい。
[統計値]
データの統計値をユースケースとした場合、指標算出部13は、匿名化前後での分析結果の距離、すなわち処理前データ及び処理後データの間での統計値の差を評価指標として算出する。
例えば、値域が0~100の属性に対して、処理前データの平均値が50、処理後データの平均値が60だったとすると、評価指標は、1-(|50-60|/(100-0))=0.9のように、値域に対する分析結果の距離の割合に基づく値として算出される。
[階層木におけるノードの値]
分析結果が数値データ以外の場合、木構造を用いて、ノードの詳細度合いを示す評価値が適用可能である。
図2は、本実施形態における一般化階層木を用いた評価方法を例示する図である。
この例では、最下層の5種類の種目の評価値は1である。また、「球技」の評価値は、3種目のいずれかに特定されたことから1/3となり、同様に「非球技」の評価値は1/2である。そして、「スポーツ」の評価値は1/5となる。
すると、例示した木構造を持つ属性に対して、処理前データの分析結果として「野球」が、処理後データの分析結果として「球技」が得られた場合、評価指標は、評価値の割合として、(1/3)/1=1/3のように算出される。
このように、評価装置1は、匿名化データに対するユースケースに応じて、匿名化の前後における分析結果の精度の劣化割合、距離等を用いて評価指標を算出する。
図3は、本実施形態における有用性の評価方法を示すフローチャートである。
ステップS1において、データ入力部11は、匿名化前後の処理前データ及び処理後データの入力を受け付ける。
ステップS2において、結果取得部12は、処理前データ及び処理後データのそれぞれを用いて、ユースケースに基づいた分析を実施し、分析結果を指標算出部13に提供する。
ステップS3において、指標算出部13は、処理前データに対する分析結果と処理後データに対する分析結果とを比較し、割合又は距離等に基づく有用性の評価指標を算出する。
本実施形態によれば、評価装置1は、匿名化処理を施す前後の処理前データ及び処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得し、この分析結果、又は分析結果の評価値を、処理前データ及び処理後データの間で比較し、両者の類似度合いを処理前データに対する処理後データの有用性の評価指標として算出する。
したがって、評価装置1は、ユースケースに応じた分析結果を比較することで、処理前データと処理後データとを比較する従来の手法に比べて、データの使い道に焦点を当て、匿名化データのユースケースに応じた有用性評価を適切に行うことができる。
このとき、評価装置1は、評価指標を、所定の値域に正規化するので、匿名化データの有用性を客観的な指標として定量的に示すことができる。
また、評価装置1は、複数のユースケースそれぞれに応じた複数の分析結果それぞれに基づく評価指標を加重平均して出力することにより、匿名化データの利用方法が限定されない場合に、総合的な有用性を適切に評価できる。
評価装置1は、ユースケースとして、匿名化データを用いた教師あり学習に対応できる。この場合、評価装置1は、学習モデルによる推定結果の精度を処理前データによる学習と処理後データによる学習とで比較することにより、評価指標を適切に算出できる。
また、評価装置1は、ユースケースとして、統計値の演算に対応できる。この場合、評価装置1は、処理前データ及び処理後データの間での統計値の差を用いて、評価指標を適切に算出できる。
また、評価装置1は、ユースケースとして、一般化階層木におけるノードの値を求める場合に対応できる。この場合、評価装置1は、木構造におけるノードの詳細度合いを評価値として、この評価値を処理前データ及び処理後データの間で比較することにより、評価指標を適切に算出できる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
評価装置1による評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 評価装置
10 制御部
11 データ入力部
12 結果取得部
13 指標算出部
20 記憶部

Claims (5)

  1. 匿名化処理を施す前後の処理前データ及び処理後データの入力を受け付けるデータ入力部と、
    前記処理前データ及び前記処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得する結果取得部と、
    前記分析結果、又は当該分析結果の評価値を、前記処理前データ及び前記処理後データの間で比較し、類似度合いを前記処理前データに対する前記処理後データの有用性の評価指標として算出する指標算出部と、を備え
    前記分析結果は、一般化階層木におけるノードの値であり、
    前記指標算出部は、前記ノードの詳細度合いを前記評価値として前記評価指標を算出する評価装置。
  2. 前記指標算出部は、前記評価指標を、所定の値域に正規化する請求項1に記載の評価装置。
  3. 前記結果取得部は、複数のユースケースそれぞれに応じた複数の分析結果を取得し、
    前記指標算出部は、前記複数の分析結果それぞれに基づく前記評価指標を加重平均する請求項1又は請求項2に記載の評価装置。
  4. 匿名化処理を施す前後の処理前データ及び処理後データの入力を受け付けるデータ入力ステップと、
    前記処理前データ及び前記処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得する結果取得ステップと、
    前記分析結果、又は当該分析結果の評価値を、前記処理前データ及び前記処理後データの間で比較し、類似度合いを前記処理前データに対する前記処理後データの有用性の評価指標として算出する指標算出ステップと、をコンピュータが実行し、
    前記分析結果は、一般化階層木におけるノードの値であり、
    前記指標算出ステップにおいて、前記ノードの詳細度合いを前記評価値として前記評価指標を算出する評価方法。

  5. 請求項1から請求項のいずれかに記載の評価装置としてコンピュータを機能させるための評価プログラム。
JP2020054303A 2020-03-25 2020-03-25 評価装置、評価方法及び評価プログラム Active JP7219734B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020054303A JP7219734B2 (ja) 2020-03-25 2020-03-25 評価装置、評価方法及び評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020054303A JP7219734B2 (ja) 2020-03-25 2020-03-25 評価装置、評価方法及び評価プログラム

Publications (2)

Publication Number Publication Date
JP2021157265A JP2021157265A (ja) 2021-10-07
JP7219734B2 true JP7219734B2 (ja) 2023-02-08

Family

ID=77918350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020054303A Active JP7219734B2 (ja) 2020-03-25 2020-03-25 評価装置、評価方法及び評価プログラム

Country Status (1)

Country Link
JP (1) JP7219734B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015046030A (ja) 2013-08-28 2015-03-12 株式会社日立ソリューションズ パーソナル情報匿名化システム
JP2018156427A (ja) 2017-03-17 2018-10-04 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
WO2019168144A1 (ja) 2018-03-02 2019-09-06 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015046030A (ja) 2013-08-28 2015-03-12 株式会社日立ソリューションズ パーソナル情報匿名化システム
JP2018156427A (ja) 2017-03-17 2018-10-04 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
WO2019168144A1 (ja) 2018-03-02 2019-09-06 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体

Also Published As

Publication number Publication date
JP2021157265A (ja) 2021-10-07

Similar Documents

Publication Publication Date Title
McKenna et al. Graphical-model based estimation and inference for differential privacy
Luo et al. Correlating events with time series for incident diagnosis
Chen et al. Geometric data perturbation for privacy preserving outsourced data mining
US7676454B2 (en) Private clustering and statistical queries while analyzing a large database
US8954910B1 (en) Device mismatch contribution computation with nonlinear effects
Aggarwal On unifying privacy and uncertain data models
CN108959961B (zh) 一种查询平均成绩的隐私保护方法
Yang et al. Nonnegative adaptive lasso for ultra-high dimensional regression models and a two-stage method applied in financial modeling
JP3845553B2 (ja) データベースにおけるドキュメントのリトリーブ・ランク付けを実行するコンピュータ・システム、およびプログラム
Liseo et al. Bayesian estimation of population size via linkage of multivariate normal data sets
Wang et al. Locally private high-dimensional crowdsourced data release based on copula functions
CN108459965B (zh) 一种结合用户反馈和代码依赖的软件可追踪生成方法
JP7026653B2 (ja) クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
Dufour et al. Exact inference and optimal invariant estimation for the stability parameter of symmetric α-stable distributions
Zhao et al. Variable selection for recurrent event data with broken adaptive ridge regression
JP5698167B2 (ja) データ検定装置、データ検定方法、およびプログラム
Reuben Towards a differential privacy theory for edge-labeled directed graphs
Tong et al. Learning fractional white noises in neural stochastic differential equations
JP7219734B2 (ja) 評価装置、評価方法及び評価プログラム
Aggarwal et al. A survey of randomization methods for privacy-preserving data mining
Gündüz et al. A poisson model for user accesses to web pages
Chhinkaniwala et al. Tuple value based multiplicative data perturbation approach to preserve privacy in data stream mining
da Costa Filho et al. FELIP: A local Differentially Private approach to frequency estimation on multidimensional datasets.
WO2019073913A1 (ja) 擬似データ生成装置、その方法、及びプログラム
Lin et al. Network change detection based on random walk in latent space

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230127

R150 Certificate of patent or registration of utility model

Ref document number: 7219734

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150