JP7219726B2 - リスク評価装置、リスク評価方法及びリスク評価プログラム - Google Patents

リスク評価装置、リスク評価方法及びリスク評価プログラム Download PDF

Info

Publication number
JP7219726B2
JP7219726B2 JP2020002099A JP2020002099A JP7219726B2 JP 7219726 B2 JP7219726 B2 JP 7219726B2 JP 2020002099 A JP2020002099 A JP 2020002099A JP 2020002099 A JP2020002099 A JP 2020002099A JP 7219726 B2 JP7219726 B2 JP 7219726B2
Authority
JP
Japan
Prior art keywords
risk
data set
combination
quasi
risk assessment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020002099A
Other languages
English (en)
Other versions
JP2021111085A (ja
Inventor
知明 三本
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020002099A priority Critical patent/JP7219726B2/ja
Publication of JP2021111085A publication Critical patent/JP2021111085A/ja
Application granted granted Critical
Publication of JP7219726B2 publication Critical patent/JP7219726B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、匿名化されたデータセットのリスクを評価する装置、方法及びプログラムに関する。
従来、プライバシ保護の観点から、データセットを匿名化するための様々なアルゴリズムが提案されている。例えば、非特許文献1及び2では、対象のデータセットにおけるデータの分布に基づいて機械的に匿名化を行う手法が提案されている。
また、非特許文献1及び3では、匿名化の対象である準識別子だけでなく、機微情報に関してプライバシリスクを考慮するため、l-多様性の指標が紹介されている。
V. Ciriani, S. De Capitani di Vimercati, S. Foresti, and P. Samarati, "k-Anonymous data mining: A survey," Privacy-preserving data mining, pp. 105-136, 2008, Springer. L. Sweeney, "Achieving k-anonymity privacy protection using generalization and suppression," International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10, 05, pp. 571-588, 2002, World Scientific. Charu C. Aggarwal, Philip S. Yu, "A general survey of privacy-preserving data mining models and algorithms," Privacy-preserving data mining, pp. 11-52, 2008, Springer.
しかしながら、従来のリスク評価手法は、準識別子の重複度(k-匿名性)又は機微情報のばらつき(l-多様性)等、特定の属性の分布に基づくものであった。このため、複数の属性を組み合わせた際の機微情報に対するプライバシリスクは、十分に考慮されていなかった。
本発明は、匿名化されたデータセットのプライバシリスクを詳細に評価できるリスク評価装置、リスク評価方法及びリスク評価プログラムを提供することを目的とする。
本発明に係るリスク評価装置は、準識別子の属性値が匿名化されたデータセットのプライバシリスクを評価する装置であって、前記データセットから、前記準識別子のいずれかの属性値と当該準識別子以外の機微情報のいずれかの属性値との組み合わせが同一であるレコードの数が閾値未満のレコードを検索する第1検索部と、前記第1検索部により検索されたレコードにおける属性値の前記組み合わせをリスクとして出力する出力部と、を備える。
前記データセットは、前記機微情報を用いた評価指標により匿名化されたものであってもよい。
前記リスク評価装置は、属性値の前記組み合わせを総当たりで選択する選択部を備えてもよい。
前記選択部は、前記データセットの各属性に予め付与された前記準識別子と前記機微情報とを区別するフラグによって、各フラグ値が付与された属性からそれぞれ属性値を選択してもよい。
前記リスク評価装置は、前記機微情報における外れ値を検索する第2検索部を備え、前記出力部は、前記外れ値をリスクとして出力してもよい。
前記リスク評価装置は、前記リスクとして出力された前記機微情報における属性値を加工する加工部を備えてもよい。
本発明に係るリスク評価方法は、準識別子の属性値が匿名化されたデータセットのプライバシリスクを評価する方法であって、前記データセットから、前記準識別子のいずれかの属性値と当該準識別子以外の機微情報のいずれかの属性値との組み合わせが同一であるレコードの数が閾値未満のレコードを検索する第1検索ステップと、前記第1検索ステップにおいて検索されたレコードにおける属性値の前記組み合わせをリスクとして出力する出力ステップと、をコンピュータが実行する。
本発明に係るリスク評価プログラムは、前記リスク評価装置としてコンピュータを機能させるためのものである。
本発明によれば、匿名化されたデータセットのプライバシリスクを詳細に評価できる。
実施形態におけるリスク評価装置の機能構成を示す図である。 実施形態におけるデータセットの属性及びフラグを例示する図である。 実施形態における匿名化されたデータセットを例示する図である。 実施形態におけるリスク評価装置における処理を示すフローチャートである。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態におけるリスク評価装置1の機能構成を示す図である。
リスク評価装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部10は、リスク評価装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群をリスク評価装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(リスク評価プログラム)、評価対象のデータセット等を記憶する。
制御部10は、選択部11と、第1検索部12と、第2検索部13と、出力部14と、加工部15とを備える。
制御部10は、これらの機能部により、匿名化されたデータセットのプライバシリスクを評価する。
ここで、データセットは、複数の属性のうち、第三者が入手可能で組み合わせると個人を特定できる情報である準識別子の属性値を汎化することで、準識別子以外の第三者が容易に入手できない情報である機微情報が個人と紐付けられるプライバシリスクが低減される。
このような加工により匿名化されたデータセットは、実際に提供される前に、リスク評価が行われ、その結果に応じて、必要であれば再加工が行われる。
図2は、本実施形態におけるデータセットの属性及びフラグを例示する図である。
この例では、対象のデータセットには、量的属性である年齢及び口座残高、質的属性である性別、コード型属性である郵便番号、複数のデータを含む集合型属性である病歴が含まれる。
また、各属性には、準識別子であることを示す評価対象フラグ(1)、又は機微情報であることを示す非評価対象フラグ(0)が付与されている。
制御部10は、評価対象フラグ(1)が立っている準識別子の属性値、又は属性値を符号化した値を結合して文字列検索を行い、データセットのレコードをクラスタ化する。制御部10は、各クラスタのレコード数、すなわち重複数をカウントし、この最小値によりk-匿名性を評価できる。
また、制御部10は、各クラスタ内で、非評価対象である機微情報の重複数をカウントすることにより、l-多様性を評価できる。
図3は、本実施形態における匿名化されたデータセットを例示する図である。
ここでは、図2の属性を含むデータセットのうち、評価対象フラグ(1)が立っている準識別子の属性値が汎化され匿名化されている。
また、管理情報として、クラスタ番号、クラスタの大きさである重複数(1)、及びクラスタ内での機微情報の重複数(0)が設けられている。
例えば、クラスタ番号1は、文字列「20代|F|123-4567」により検索されたレコードであり、仮IDが001及び002のレコードが該当する。したがって、重複数(1)は2となり、それぞれ機微情報が異なるため、重複数(0)は1となる。
選択部11は、データセットから、準識別子のいずれかの属性値と、機微情報のいずれかの属性値との組み合わせを総当たりで順に選択する。
このとき、選択部11は、データセットの各属性に予め付与された準識別子と機微情報とを区別するフラグによって、各フラグ値(評価対象フラグ、又は非評価対象フラグ)が付与された属性からそれぞれ属性値を選択する。
第1検索部12は、データセットから、選択部11により選択された属性値の組み合わせが同一であるレコードの数(重複数)が閾値未満となっているレコードを検索する。
例えば、図3のデータセットにおいて、年齢「20代」及び病歴「ガン」の組み合わせが希少である場合、攻撃者に大きな情報を与えることになるため、このレコード(仮ID=002)の該当の属性について、プライバシリスクが高いと判断される。
第2検索部13は、非評価対象フラグ(0)が立っている機微情報における外れ値を検索する。
例えば、図3のデータセットにおいて、機微情報の属性値のみで検索した結果、口座残高「1億円」が外れ値として存在している。他人がいくら所有しているかは通常は知り得ない情報であるが、数少ない大金持ちであることは予想が付くことから、機微情報であっても公開することには大きなリスクがある。
出力部14は、第1検索部により検索されたレコードにおける属性値の組み合わせと、第2検索部により検索された外れ値とを、リスクとして出力する。
加工部15は、リスクとして出力された機微情報における属性値を加工する。
例えば、機微情報における該当の属性値を削除、又はトップ・ボトムコーディング等によって汎化するといった加工が自動で施されてよい。
なお、加工部15により自動で属性値の加工が施された場合、この結果についても、出力部14により出力される。また、加工後のデータセットに対して、選択部11、第1検索部12及び第2検索部13により再評価が行われてもよい。
図4は、本実施形態におけるリスク評価装置1における処理を示すフローチャートである。
なお、対象とするデータセットは、評価対象フラグ及び非評価対象フラグにより属性が準識別子及び機微情報に区別され、準識別子を用いて匿名化処理がされたものとする。準識別子を用いた匿名化は、例えば、k-匿名性等を評価指標とした匿名化である。
また、対象とするデータセットは、非評価対象フラグにより区別される機微情報を用いた評価指標により匿名化処理がされてもよい。機微情報を用いた匿名化処理は、例えば、l-多様性等を評価指標とした匿名化である。
ステップS1において、選択部11は、評価対象フラグにより示される準識別子から属性値を1つ、非評価対象フラグにより示される同一レコードの機微情報から属性値を1つ選択する。
ステップS2において、第1検索部12は、ステップS1で選択された属性値の組み合わせでデータセットを検索し、属性値の組み合わせが同一のレコード数をカウントする。
ステップS3において、第1検索部12は、レコード数が閾値未満か否かを判定する。この判定がYESの場合、処理はステップS4に移り、判定がNOの場合、処理はステップS5に移る。
ステップS4において、第1検索部12は、レコード数が閾値未満である属性値の組み合わせを希少な情報として記録する。
ステップS5において、選択部11は、対象のデータセットに含まれる全ての組み合わせを選択したか否かを判定する。この判定がYESの場合、処理はステップS6に移り、判定がNOの場合、処理はステップS1に移る。
ステップS6において、第2検索部13は、非評価対象フラグにより示される機微情報から、属性を順に選択する。
ステップS7において、第2検索部13は、選択された属性における値の分布に基づいて、所定の基準を超える外れ値を検索し、希少な情報として記録する。
ステップS8において、第2検索部13は、機微情報の全ての属性を選択したか否かを判定する。この判定がYESの場合、処理はステップS9に移り、判定がNOの場合、処理はステップS6に移る。
ステップS9において、出力部14は、ステップS4及びステップS7において記録された情報を、所定の基準を超えるプライバシリスクとして出力する。
さらに、出力部14は、基準を超えるプライバシリスクがある場合に、対象とするデータセットに施した匿名化よりも更に高い匿名化を施す処理をユーザに促す通知を行ってもよい。更に高い匿名化処理とは、例えば、準識別子に対してはk-匿名性のk値が高くなる処理であり、機微情報に対してはl-多様性のl値が高くなる処理であるが、高い匿名性が得られる処理であれば、これに限らない。また、このような匿名化処理は、予め設定されたk値及びl値等のパラメータを用いて自動で実行されてもよい。
本実施形態によれば、リスク評価装置1は、データセットから、準識別子のいずれかの属性値と機微情報のいずれかの属性値との組み合わせが同一であるレコードの数が閾値未満のレコードを検索し、プライバシリスクとして出力する。
したがって、リスク評価装置1は、k-匿名性のような準識別子を対象とした評価、又はl-多様性のように機微情報のみを対象とした評価だけでなく、準識別子と機微情報とを組み合わせた場合にプライバシリスクがある属性値を検出できる。これにより、リスク評価装置1は、匿名化されたデータセットのプライバシリスクを詳細に評価できる。
リスク評価装置1は、属性値の組み合わせを総当たりで選択するので、データセットに含まれている、プライバシリスクのある属性値の組み合わせを適切に検出できる。
リスク評価装置1は、データセットの各属性に予め付与されたフラグによって準識別子と機微情報とを区別するので、準識別子による評価、機微情報による評価、及び準識別子と機微情報との組み合わせによる評価を、容易に自動化できる。さらに、属性が変更されたデータセットに対しても、リスク評価装置1は、フラグにより準識別子と機微情報とを区別できるため、アルゴリズムの変更が不要となり、効率的にプライバシリスクを評価できる。
また、リスク評価装置1は、機微情報における外れ値を検索し、プライバシリスクとして出力する。
したがって、リスク評価装置1は、機微情報の属性値自体のプライバシリスクを検出でき、より詳細にデータセットを評価できる。
さらに、リスク評価装置1は、プライバシリスクとして検出された属性値を自動的に加工することにより、プライバシリスクを解消でき、利便性が向上する。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
リスク評価装置1によるリスク評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 リスク評価装置
10 制御部
11 選択部
12 第1検索部
13 第2検索部
14 出力部
15 加工部
20 記憶部

Claims (8)

  1. 準識別子の属性値が匿名化されたデータセットのプライバシリスクを評価するリスク評価装置であって、
    前記データセットの同一レコードから、前記準識別子のいずれか1つの属性値と当該準識別子以外の機微情報のいずれか1つの属性値との組み合わせを選択する選択部と、
    前記選択部により選択された組み合わせで前記データセットを検索し、当該組み合わせが同一であるレコードの数が閾値未満の場合に、当該組み合わせを記録する第1検索部と、
    前記第1検索部により記録された属性値の組み合わせをリスクとして出力する出力部と、を備えるリスク評価装置。
  2. 前記データセットは、前記機微情報を用いた評価指標により匿名化されたものである請求項1に記載のリスク評価装置。
  3. 前記選択部は、属性値の前記組み合わせを総当たりで選択する請求項1又は請求項2に記載のリスク評価装置。
  4. 前記選択部は、前記データセットの各属性に予め付与された前記準識別子と前記機微情報とを区別するフラグによって、各フラグ値が付与された属性からそれぞれ属性値を選択する請求項3に記載のリスク評価装置。
  5. 前記機微情報における外れ値を検索する第2検索部を備え、
    前記出力部は、前記外れ値をリスクとして出力する請求項1から請求項4のいずれかに記載のリスク評価装置。
  6. 前記リスクとして出力された前記機微情報における属性値を加工する加工部を備える請求項1から請求項5のいずれかに記載のリスク評価装置。
  7. 準識別子の属性値が匿名化されたデータセットのプライバシリスクを評価するリスク評価方法であって、
    前記データセットの同一レコードから、前記準識別子のいずれか1つの属性値と当該準識別子以外の機微情報のいずれか1つの属性値との組み合わせを選択する選択ステップと、
    前記選択ステップにおいて選択された組み合わせで前記データセットを検索し、当該組み合わせが同一であるレコードの数が閾値未満の場合に、当該組み合わせを記録する第1検索ステップと、
    前記第1検索ステップにおいて記録された属性値の組み合わせをリスクとして出力する出力ステップと、をコンピュータが実行するリスク評価方法。
  8. 請求項1から請求項6のいずれかに記載のリスク評価装置としてコンピュータを機能させるためのリスク評価プログラム。
JP2020002099A 2020-01-09 2020-01-09 リスク評価装置、リスク評価方法及びリスク評価プログラム Active JP7219726B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020002099A JP7219726B2 (ja) 2020-01-09 2020-01-09 リスク評価装置、リスク評価方法及びリスク評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020002099A JP7219726B2 (ja) 2020-01-09 2020-01-09 リスク評価装置、リスク評価方法及びリスク評価プログラム

Publications (2)

Publication Number Publication Date
JP2021111085A JP2021111085A (ja) 2021-08-02
JP7219726B2 true JP7219726B2 (ja) 2023-02-08

Family

ID=77059864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020002099A Active JP7219726B2 (ja) 2020-01-09 2020-01-09 リスク評価装置、リスク評価方法及びリスク評価プログラム

Country Status (1)

Country Link
JP (1) JP7219726B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013041536A (ja) 2011-08-19 2013-02-28 Fujitsu Ltd 情報処理方法及び装置
JP2013084027A (ja) 2011-10-06 2013-05-09 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
WO2013121739A1 (ja) 2012-02-17 2013-08-22 日本電気株式会社 匿名化装置及び匿名化方法
JP2014013479A (ja) 2012-07-04 2014-01-23 Sony Corp 情報処理装置、情報処理方法、プログラム、及び情報処理システム
WO2014109277A1 (ja) 2013-01-10 2014-07-17 日本電気株式会社 情報処理装置、および、情報処理方法
JP2017156878A (ja) 2016-02-29 2017-09-07 富士通株式会社 漏洩リスク提供装置、漏洩リスク提供方法および漏洩リスク提供プログラム
JP2019211899A (ja) 2018-06-01 2019-12-12 日本電気株式会社 処理装置、処理方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013041536A (ja) 2011-08-19 2013-02-28 Fujitsu Ltd 情報処理方法及び装置
JP2013084027A (ja) 2011-10-06 2013-05-09 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
WO2013121739A1 (ja) 2012-02-17 2013-08-22 日本電気株式会社 匿名化装置及び匿名化方法
JP2014013479A (ja) 2012-07-04 2014-01-23 Sony Corp 情報処理装置、情報処理方法、プログラム、及び情報処理システム
WO2014109277A1 (ja) 2013-01-10 2014-07-17 日本電気株式会社 情報処理装置、および、情報処理方法
JP2017156878A (ja) 2016-02-29 2017-09-07 富士通株式会社 漏洩リスク提供装置、漏洩リスク提供方法および漏洩リスク提供プログラム
JP2019211899A (ja) 2018-06-01 2019-12-12 日本電気株式会社 処理装置、処理方法及びプログラム

Also Published As

Publication number Publication date
JP2021111085A (ja) 2021-08-02

Similar Documents

Publication Publication Date Title
JP6814017B2 (ja) 匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法
US9904798B2 (en) Focused personal identifying information redaction
US10817621B2 (en) Anonymization processing device, anonymization processing method, and program
JP6007969B2 (ja) 匿名化装置及び匿名化方法
CN109614238B (zh) 一种目标对象识别方法、装置、系统及可读存储介质
US10176340B2 (en) Abstracted graphs from social relationship graph
US20140317756A1 (en) Anonymization apparatus, anonymization method, and computer program
JP6413769B2 (ja) データ秘匿装置、データ秘匿プログラムおよびデータ秘匿方法
JP6584861B2 (ja) プライバシ保護装置、方法及びプログラム
CN114270391A (zh) 量化隐私影响
US20180137149A1 (en) De-identification data generation apparatus, method, and non-transitory computer readable storage medium thereof
JP6079270B2 (ja) 情報提供装置
JP7026653B2 (ja) クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP7219726B2 (ja) リスク評価装置、リスク評価方法及びリスク評価プログラム
JP6370236B2 (ja) プライバシー保護装置、方法及びプログラム
JP2016115112A (ja) データ匿名化装置、プログラム、及び方法
JP5875536B2 (ja) 匿名化装置、匿名化方法、プログラム
JP5875535B2 (ja) 匿名化装置、匿名化方法、プログラム
JP6437842B2 (ja) プライバシー保護装置、方法及びプログラム
JP7179795B2 (ja) 匿名化装置、匿名化方法及び匿名化プログラム
JP5639094B2 (ja) データベース撹乱パラメータ決定装置、データベース撹乱システム及び方法並びにデータベース撹乱装置
JP6627328B2 (ja) 匿名処理装置及び匿名処理方法
JP7175255B2 (ja) 匿名化装置、匿名化方法及び匿名化プログラム
WO2021255841A1 (ja) 情報検索装置、情報検索方法、及びコンピュータ読み取り可能な記録媒体
Chetty Privacy preserving data anonymisation: an experimental examination of customer data for POPI compliance in South Africa

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230127

R150 Certificate of patent or registration of utility model

Ref document number: 7219726

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150