JP6584861B2 - プライバシ保護装置、方法及びプログラム - Google Patents
プライバシ保護装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6584861B2 JP6584861B2 JP2015161720A JP2015161720A JP6584861B2 JP 6584861 B2 JP6584861 B2 JP 6584861B2 JP 2015161720 A JP2015161720 A JP 2015161720A JP 2015161720 A JP2015161720 A JP 2015161720A JP 6584861 B2 JP6584861 B2 JP 6584861B2
- Authority
- JP
- Japan
- Prior art keywords
- records
- anonymization
- anonymity
- privacy protection
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、匿名化技術を用いて、1つの元データからk−匿名性を満たす複数の匿名化データを生成することが可能である。提供者は、この特性を利用して、匿名化データを提供する際に、利用者ごとに異なる匿名化データを提供することで、匿名化データの漏洩元を特定することも可能である。
図1は、本実施形態に係るプライバシ保護装置10の構成を示すブロック図である。
プライバシ保護装置10は、GUI部11と、読込処理部12と、出力処理部13と、木構造データ管理部14と、パラメータ管理部15と、事前処理部16と、匿名化処理部17と、類似度評価部18と、リスク評価部19とを備える。
例えば、レコードは、匿名化のための加工をしない重要情報(sensitive information)と、準識別子(quasi−identifier)と、匿名化のために削除すべき情報とを含む(後述する図4参照)。
匿名化処理部17は、テーブルが所定の匿名性を有しているか否かを判定する匿名性条件判定部171と、テーブルの属性値を一般化するアルゴリズムを実行する一般化アルゴリズム処理部172と、テーブルの一部のレコードを詳細化する部分匿名化部173と、匿名化されたテーブルの情報量を評価する評価ポイント算出部174とを備える。
次に、上述の各部の機能の詳細と共に、匿名テーブルの作成処理の実施例について説明する。
プライバシ保護装置10は、テーブルの加工のときに、このテーブルを構成する各属性に対して重み(重要度)を設定し、所定の関数を用いて加工したテーブルを評価することで、利用者が求める情報を可能な限り保持すると共に匿名化されたテーブルを生成する。
なお、評価ポイントについては、2種類の評価関数が用意され、選択制とすることにより異なる特性を持つテーブルの出力が可能である。
属性値の一般化又は詳細化のために木構造データ管理部14において管理される木構造データについて説明する。
図3は、本実施形態に係るプライバシ保護装置10による属性値の階層化の例を示す図である。
図3の例では、年齢の匿名化レベルの階層がレベル0(L0)からレベル3(L3)まで設定されており、それぞれのレベルでの属性値の取り得る値を示している。例えば、年齢が「6」歳というレベル0のデータが1レベルだけ一般化されると、年齢が「6〜9」に匿名化され、さらに1レベルだけ一般化されると、年齢が「少年」に匿名化される。
なお、このような数値データに関しては、一定の値ごとに階層化できるため、木構造データは必ずしも必要ではない。
なお、木構造データの構成に関しては、既存のソフトウェアを使用してもよい。また、木構造データは、各レベルのノード数を情報として含んでもよい。
初期設定処理は、以下の(1−1)「重要度の設定処理」、及び(1−2)「評価ポイントの設定処理」を含む。
匿名テーブルの作成は、利用者により要求された各属性の重要度(重み付け)に基づいて行われる。重要度は、属性の優先順位を表し、利用者が最も重視する属性を最上位とする。提供者は、各優先順位に対して、重要度ポイント(数値)を設定する。この値は、一般化を行う属性を選択する際に使用される。
元テーブルは、重要情報と準識別子と削除すべき情報とのいずれかに設定された複数の属性項目を含む複数のレコードから構成される。準識別子のそれぞれには、重要度が設定され、また、一般化の限界を示すレベルが設定される。
プライバシ保護装置10は、評価ポイントを算出するための評価関数として、以下の2種類の関数(数式1及び数式2)を選択的に用いる。
数式1の評価関数は、匿名化による1つの属性項目の属性値の種類数の変化と重要度とに依存するので、プライバシ保護装置10は、ある属性に偏った匿名化が可能である。
数式2の評価関数は、準識別子の全ての項目における属性値の種類数に依存するので、プライバシ保護装置10は、数式1の評価関数に比べて、属性に偏りなく匿名化が可能である。
事前処理部16は、匿名化処理に先立って、事前処理により元テーブルの一部のレコードを削除する。事前処理は、以下の(2−1)「ランダム削除処理」及び(2−2)「事前サンプリング処理」を含む。
事前処理部16は、匿名化対象の元テーブルに対して、設定値に従いいくつかのレコードを削除することにより、匿名化処理への複数の入力データを作成する。
設定値は、削除するレコードの割合を表し、例えば0.1であれば、事前処理部16は、全体の10%のレコードをランダムに削除する。
事前処理部16は、ランダム削除処理後のテーブルに対して、準識別子ごとに、所定の段階まで一般化を行った後、全ての準識別子の属性値の組み合わせが一致するレコードを集めたグループを作成し、作成したグループに含まれるレコード数が所定の数未満である場合、これらのグループをランダム削除処理後のテーブルから削除する。
なお、このように事前サンプリング処理において利用者ごとに異なる複数のテーブルを作成する場合、ランダム削除処理による複数テーブルの作成は省略してもよい。
匿名化処理部17は、事前処理を行った元テーブルのそれぞれを加工し、匿名化処理を行う。なお、匿名化処理の前に、事前処理によって元テーブルから十分に大きな数の入力データが生成されているものとする。
匿名化処理部17は、入力されたテーブルの属性ごとに、準識別子か重要情報かを決め、全ての準識別子からなるテーブルと、全ての重要情報からなるテーブルとに分割する。
匿名化処理部17は、前処理において、それぞれの属性単体を、単体で(k+l)−匿名性を満たすように一般化する。lは、パラメータとして適宜設定される。なお、匿名化処理部17は、提供者が一般化の限界レベルを設定している属性については、この限界レベルを超えて一般化しない。
また、匿名化処理部17は、属性単体で(k+l)−匿名性を満たすように一般化したレコードが全体としてk−匿名性を満たさなければ、各属性を1レベルだけ、さらに一般化して再度チェックを行う。この場合も、匿名化処理部17は、提供者が設定した限界レベルを超えて一般化はせず、他の属性を一般化することでk−匿名性を達成する。
まず、匿名化処理部17は、処理対象のテーブルをソートし、全ての準識別子の属性値が一致するレコードを集めてグループ化を行う。
次に、匿名化処理部17は、利用者又は提供者によって入力された属性の優先順位情報と、匿名性条件判定処理からのフィードバック結果とを基に、詳細化を行う属性を選択する。
具体的には、匿名化処理部17は、各属性に対して、詳細化を行った場合に取り得る属性値の数と、提供者によって入力された優先順位(例えば、重要度が大きい順)情報とから、詳細化による評価ポイントの増加分を概算する。匿名化処理部17は、この概算結果が大きい順に、詳細化の対象とする属性を決定する。
匿名化処理部17は、トップダウン候補テーブルのうち、最も評価ポイントが大きいものを次の処理対象テーブルとして、トップダウン処理を繰り返す。
まず、匿名化処理部17は、処理対象のテーブルをソートし、全ての準識別子の属性値が一致するレコードを集めてグループ化を行う。
次に、匿名化処理部17は、利用者又は提供者によって入力された属性の優先順位情報と、匿名性条件判定処理からのフィードバック結果とを基に、一般化を行う属性を選択する。
匿名性条件を満たす場合、匿名化処理部17は、ボトムアップ候補テーブルについて、各属性における同じ属性値の個数を算出し、評価ポイントを導出する。匿名化処理部17は、導出した評価ポイントを比較し、トップダウン処理において保存された匿名性条件を満たすトップダウン候補テーブルの評価ポイントも含めて最大の評価ポイントを得た候補テーブルを保存する。そして、ボトムアップ処理は、この候補テーブルを再トップダウン処理に受け渡す。
なお、提供者が属性に対して一般化の限界レベルを設定していた場合には、匿名化処理部17は、ボトムアップ処理において、限界レベルを超えて一般化を行わない。
匿名化処理部17(部分匿名化部173)は、部分匿名化処理において、各属性の詳細化(トップダウン)を一律に行うのではなく、細かいクラスタに分割し、各クラスタが匿名性条件を満たすように詳細化を行う。具体的には、匿名化処理部17は、準識別子から構成される属性値の組をグループ化し、クラスタとする。そして、匿名化処理部17は、このクラスタ単位で、匿名性条件を満たすように詳細化処理を実行する。
各属性が単純木で構成されている場合、互いのクラスタは独立集合であることが保証されるので、各クラスタが匿名性条件を満たす限り、部分匿名化処理によって、全体の匿名性が失われることはない。
また、匿名化処理部17は、部分匿名化処理では、詳細化のみを行うので、本処理の実行によって、評価ポイントは必ず増加する。したがって、匿名化処理部17は、評価ポイントの算出を省略することにより、高速化が可能である。また、部分匿名化処理はオプションとし、提供者又は利用者が望まない場合には省略してもよい。匿名化処理部17は、最終的に得られたテーブルを匿名テーブル出力処理に渡す。
匿名化処理部17(匿名性条件判定部171)は、匿名性条件として、入力されたテーブルの全ての準識別子から構成される情報がk−匿名性を満たし、かつ、全ての重要情報から構成される情報がl−多様性(l−Diversity若しくは(c,l)−Diversity)又はt−近似性(t−Closeness)を満たすか否かを判定する。また、匿名化処理部17は、テーブルがこれらの条件を満たさない場合、満たさなかったグループをフィードバック情報としてトップダウン処理又はボトムアップ処理に返す。
以下の表1に各判定条件を示す。なお、k−匿名性(k−Anonymity)と共に判定する条件は、これらのうち、いずれか1つ又は複数であってもよい。
匿名化処理部17は、受け取ったテーブルを成形して出力する。受け取ったテーブルのデータは属性値そのものではなく、各属性の一般化のレベルで与えられている場合がある。このときには、匿名化処理部17は、元テーブルも読み込み、各属性について与えられたレベルによる一般化を行った後出力する。
図10は、本実施形態に係るプライバシ保護装置10によるトップダウン処理及びボトムアップ処理を説明するための図である。
ここで、準識別子の属性の種類は(A,B,C)の3種類である。それぞれの属性は、一般化又は詳細化のための木構造データを有し、一般化の限界レベルは、それぞれAがレベル2、Bがレベル3、Cがレベル1であるとする。
図11は、本実施形態に係るプライバシ保護装置10によるトップダウン処理とボトムアップ処理との繰り返しを説明するための図である。
そして、詳細化が行き過ぎて、匿名性条件を満たさなくなった場合、匿名化処理部17は、匿名性条件を満たさなくなったトップダウン候補テーブル631及び632の中から評価ポイントが最も大きいトップダウン候補テーブル632をボトムアップ処理に受け渡す。
そして、匿名性条件を満たすようになった場合、匿名化処理部17は、トップダウン処理において保存されたトップダウン候補テーブルの評価ポイントよりも大きい最大の評価ポイントを得たボトムアップ候補テーブル641を再トップダウン処理に渡す。
類似度評価部18は、匿名化処理によって生成された匿名テーブル同士の全ての組み合わせごとにおける、匿名テーブル間の類似度を計測する。類似度は、属性値が一致する属性の割合が所定の割合以上であるレコードの総数と、匿名テーブルに含まれるレコードの総数との比率で表される。
すなわち、類似度は、属性値が一致する属性の個数と、準識別子を構成する属性の全個数との割合が所定の割合以上である場合にレコード同士が一致しているとみなされ、例えば、次の式で計算される。
匿名テーブルT1とT2との類似度:=一致しているレコードの総数/レコードの総数
ここで、匿名テーブルT1とT2とのレコードの総数は同一であると仮定している。なお、同一でない場合、レコードの総数は、大きい方、小さい方、又は両者の平均等、適宜決定されてよい。
具体的には、類似度評価部18は、一の匿名テーブルと他の匿名テーブルとの全ての組み合わせにおいて、最高の類似度が閾値以上である場合に、最高の類似度の組み合わせにおける一方の匿名テーブルを削除する。
例えば、類似度評価部18は、匿名テーブル1と匿名テーブル2との組み合わせ、・・・、匿名テーブル1と匿名テーブルnとの組み合わせにおいて、匿名テーブル1と匿名テーブル2との組み合わせが最高の類似度であり、かつ、類似度が閾値以上である場合に、匿名テーブル2を削除する。次に、類似度評価部18は、匿名テーブル3と匿名テーブル1との組み合わせ、匿名テーブル3と匿名テーブル4との組み合わせ、・・・、匿名テーブル3と匿名テーブルnとの組み合わせにおいて、匿名テーブル3と匿名テーブル4との組み合わせが最高の類似度であり、かつ、類似度が閾値以上である場合に、匿名テーブル4を削除する。
この例のように、類似度評価部18は、最高の類似度が閾値以上である組み合わせにおける一方の匿名テーブルを削除することを繰り返し、残った匿名テーブルの組み合わせにおいて、類似度がいずれも閾値未満となるようにする。
具体的には、類似度評価部18は、匿名テーブル同士の類似度がいずれも閾値未満の組み合わせのみからなるような匿名テーブルの組み合わせのうち、類似度の最も低い匿名テーブルの組み合わせから順に選択し、選択した匿名テーブルの個数が所定の個数以内になるようにする。
リスク評価部19は、匿名テーブルを取得した攻撃者の前提知識量を設定することにより、テーブルの各レコード(個人)が特定又は絞り込まれるリスクの分布を作成する。
ここで、前提知識量とは、あるユーザの準識別子の全体に対して知識を有する割合であり、例えば、前提知識量が0.3と設定された場合、攻撃者は、3割の属性値を知っていることが想定される。なお、前提知識量の設定方法はこれには限られず、属性自体が指定されてもよい。
ここで、リスク値は、全体の何割のレコードの実k値が所定の閾値を上回っているべきかを示す値である。例えば、リスク値が0.8と設定された場合、全体の80%のレコードが実k値の閾値を上回っていなければ、匿名テーブルを提供することはリスクが高いと判定される。
リスク評価部19は、リスク値の条件を満たしていない、すなわちリスクの高い匿名テーブルを削除する。
12 読込処理部
13 出力処理部
14 木構造データ管理部
15 パラメータ管理部
16 事前処理部
17 匿名化処理部
18 類似度評価部
19 リスク評価部
Claims (7)
- 組み合わせると個人を特定され得る準識別子を含んだ複数の属性からなる複数のレコードで構成されるテーブルを匿名化するプライバシ保護装置であって、
前記準識別子の少なくともいずれかについて、属性値を一般化し、匿名テーブルを生成する匿名化処理部と、
前記準識別子の全体に対して設定された前提知識量に基づいて、前記レコードごとの匿名性の度合いを算出し、前記匿名性の度合いが所定の閾値を超えているレコード数の全レコード数に対する割合を、設定されたリスク値と比較することにより、前記匿名テーブルを提供することのリスクを評価するリスク評価部と、を備えるプライバシ保護装置。 - 前記前提知識量は、前記準識別子の全体に対する割合で設定される請求項1に記載のプライバシ保護装置。
- 前記匿名性の度合いは、前記前提知識量に基づき特定される前記準識別子の属性値の組み合わせが同一であるレコードの数で示される請求項1又は請求項2に記載のプライバシ保護装置。
- 前記リスク評価部は、前記匿名性の度合いが前記所定の閾値を超えているレコード数の全レコード数に対する割合が前記リスク値に満たない場合に、リスクが高いと判定する請求項1から請求項3のいずれかに記載のプライバシ保護装置。
- 前記匿名化処理部による匿名化の前に、前記テーブルから、指定された割合でランダムにレコードを削除する事前処理部を備える請求項1から請求項4のいずれかに記載のプライバシ保護装置。
- 組み合わせると個人を特定され得る準識別子を含んだ複数の属性からなる複数のレコードで構成されるテーブルを匿名化するプライバシ保護方法であって、コンピュータが、
前記準識別子の少なくともいずれかについて、属性値を一般化し、匿名テーブルを生成する匿名化処理ステップと、
前記準識別子の全体に対して設定された前提知識量に基づいて、前記レコードごとの匿名性の度合いを算出し、前記匿名性の度合いが所定の閾値を超えているレコード数の全レコード数に対する割合を、設定されたリスク値と比較することにより、前記匿名テーブルを提供することのリスクを評価するリスク評価ステップと、を実行するプライバシ保護方法。 - コンピュータに、請求項6に記載の方法の各ステップを実行させるためのプライバシ保護プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015161720A JP6584861B2 (ja) | 2015-08-19 | 2015-08-19 | プライバシ保護装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015161720A JP6584861B2 (ja) | 2015-08-19 | 2015-08-19 | プライバシ保護装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017041048A JP2017041048A (ja) | 2017-02-23 |
JP6584861B2 true JP6584861B2 (ja) | 2019-10-02 |
Family
ID=58203081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015161720A Active JP6584861B2 (ja) | 2015-08-19 | 2015-08-19 | プライバシ保護装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6584861B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10915662B2 (en) * | 2017-12-15 | 2021-02-09 | International Business Machines Corporation | Data de-identification based on detection of allowable configurations for data de-identification processes |
US11132453B2 (en) * | 2017-12-18 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | Data-driven privacy-preserving communication |
WO2020175305A1 (ja) * | 2019-02-26 | 2020-09-03 | 日本電信電話株式会社 | 匿名性評価装置、匿名性評価方法、プログラム |
US11914740B2 (en) * | 2019-03-11 | 2024-02-27 | Nippon Telegraph And Telephone Corporation | Data generalization apparatus, data generalization method, and program |
JP7149905B2 (ja) * | 2019-08-02 | 2022-10-07 | ミサワホーム株式会社 | 匿名化システム |
CN113886886A (zh) * | 2020-09-04 | 2022-01-04 | 支付宝(杭州)信息技术有限公司 | 隐私保护算法的验证方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5042667B2 (ja) * | 2007-03-05 | 2012-10-03 | 株式会社日立製作所 | 情報出力装置、情報出力方法、及び、情報出力プログラム |
US8316054B2 (en) * | 2008-09-22 | 2012-11-20 | University Of Ottawa | Re-identification risk in de-identified databases containing personal information |
JP5611852B2 (ja) * | 2011-01-31 | 2014-10-22 | Kddi株式会社 | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
WO2014136422A1 (ja) * | 2013-03-06 | 2014-09-12 | 日本電気株式会社 | 匿名化処理を行う情報処理装置及び匿名化方法 |
JP6300588B2 (ja) * | 2014-03-17 | 2018-03-28 | Kddi株式会社 | 匿名化データにおけるリスク分析装置、方法及びプログラム |
-
2015
- 2015-08-19 JP JP2015161720A patent/JP6584861B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017041048A (ja) | 2017-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6584861B2 (ja) | プライバシ保護装置、方法及びプログラム | |
US10817621B2 (en) | Anonymization processing device, anonymization processing method, and program | |
JP6007969B2 (ja) | 匿名化装置及び匿名化方法 | |
JP5611852B2 (ja) | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム | |
JP6293003B2 (ja) | プライバシー保護装置、方法及びプログラム | |
JP5511532B2 (ja) | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム | |
CN109983467B (zh) | 用于匿名化数据集的系统和方法 | |
JP6413769B2 (ja) | データ秘匿装置、データ秘匿プログラムおよびデータ秘匿方法 | |
JP2015114871A (ja) | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム | |
Prasser et al. | A benchmark of globally-optimal anonymization methods for biomedical data | |
JP6079270B2 (ja) | 情報提供装置 | |
JP2019184852A (ja) | データ分析サーバ、データ分析システム、及びデータ分析方法 | |
JP7026653B2 (ja) | クラスタリング装置、クラスタリング方法及びクラスタリングプログラム | |
Liu et al. | Induction of modular classification rules by information entropy based rule generation | |
JP2019204246A (ja) | 学習データ作成方法及び学習データ作成装置 | |
JP6370236B2 (ja) | プライバシー保護装置、方法及びプログラム | |
JP6450098B2 (ja) | 匿名化装置、匿名化方法及び匿名化プログラム | |
KR101958555B1 (ko) | 검색 결과 제공 장치 및 방법 | |
JP2017076170A (ja) | リスク評価装置、リスク評価方法及びリスク評価プログラム | |
JP6437842B2 (ja) | プライバシー保護装置、方法及びプログラム | |
CN109614542B (zh) | 公众号推荐方法、装置、计算机设备及存储介质 | |
KR101815968B1 (ko) | 그룹 분리 기능을 제공하기 위한 악성코드 분류 시스템 및 그 방법 | |
JP7219726B2 (ja) | リスク評価装置、リスク評価方法及びリスク評価プログラム | |
JP2016184213A (ja) | 数値データを匿名化する方法及び数値データ匿名化サーバ | |
CN109918488A (zh) | 用于相似文档检索的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190611 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6584861 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |