JP5511532B2 - 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム - Google Patents

公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム Download PDF

Info

Publication number
JP5511532B2
JP5511532B2 JP2010136751A JP2010136751A JP5511532B2 JP 5511532 B2 JP5511532 B2 JP 5511532B2 JP 2010136751 A JP2010136751 A JP 2010136751A JP 2010136751 A JP2010136751 A JP 2010136751A JP 5511532 B2 JP5511532 B2 JP 5511532B2
Authority
JP
Japan
Prior art keywords
data
attribute
anonymity
data processing
public information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010136751A
Other languages
English (en)
Other versions
JP2012003440A (ja
Inventor
晋作 清本
俊昭 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2010136751A priority Critical patent/JP5511532B2/ja
Publication of JP2012003440A publication Critical patent/JP2012003440A/ja
Application granted granted Critical
Publication of JP5511532B2 publication Critical patent/JP5511532B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Storage Device Security (AREA)

Description

本発明は、医療情報等の公開情報に対するプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムに関する。
従来より、多くのデータに基づいて、統計処理を行って、例えば、特定の病気にかかりやすい年代、性別、地域、人種といった情報を広く公開して、その傾向分析を行い、その対策に用いる場合がある。
ところが、データを公開する場合には、そのデータの所有者が特定されないように、プライバシーを慎重に保護する必要があるため、データの変形処理を行う必要がある。そのため、今までにも、プライバシーを保護するためのデータの変形処理に関する技術が多く開示されている(例えば、非特許文献1参照。)。
B.Fung and K.Wang and P.Yu, "Top−down specialization for information and privacy preservation"Proc of ICDE 2005 pp.205−216
しかしながら、これまでの手法においては、最適k−匿名性を満たすためにすべてのデータを平等に扱っていたが、データ利用者が求める情報が欠落してしまうという問題点があった。また、データの加工時に各データに対して優先順位を設定し、特殊な関数を用いて変形したデータを評価することにより、データ利用者が求める情報を可能な限り保持する方法も考えられるが、早期に枝刈りを実施するため、必ずしも最適な表が導出されるとは限らないという問題があった。
また、l−多様性という新しい指標も提案され高いレベルのプライバシー保護を求められるようになった。
そこで、本発明は、上述の課題に鑑みてなされたものであり、処理負荷の軽減や不要な処理の削減を行い、可能な限り最適な表を高速に導き出す公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムを提供することを目的とする。
発明者は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
(1)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、入力されたデータを属性ごとに準識別子あるいは重要情報に分類し入力データからすべてが準識別子からなる表とすべてが重要情報からなる表とを生成する表生成手段(例えば、図1のユーザ設定パラメータ管理部500に相当)と、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する設定手段(例えば、図1のユーザ設定パラメータ管理部500に相当)と、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する算出手段(例えば、図1の評価ポイント算出処理部410に相当)と、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う処理手段(例えば、図1の一般化アルゴリズム処理部420に相当)と、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第1のデータ加工手段(例えば、図1の一般化アルゴリズム処理部420に相当)と、該第1のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第2のデータ加工手段(例えば、図1の一般化アルゴリズム処理部420に相当)と、を備え、前記第1のデータ加工手段による処理と前記第2のデータ加工手段による処理とを繰り返し、すべての前記準識別子から構成される表に対しては、k−匿名性を満たすことを判定し(例えば、図1のk−匿名性判定処理部430に相当)、すべての重要情報から構成される表に対しては、l−多様性を満たすことを判定(例えば、図1のl−多様性判定処理部430に相当)した上で、最適なデータセットを出力することを特徴とする公開情報のプライバシー保護装置を提案している。
この発明によれば、したがって、表生成手段は、入力されたデータを属性ごとに準識別子あるいは重要情報に分類し入力データからすべてが準識別子からなる表とすべてが重要情報からなる表とを生成する。設定手段は、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する。算出手段は、設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。処理手段は、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う。第1のデータ加工手段は、一般化されたデータについて、算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う。第2のデータ加工手段は、第1のデータ加工手段において加工されたデータについて、算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う。そして、第1のデータ加工手段による処理と第2のデータ加工手段による処理とを繰り返し、すべての準識別子から構成される表に対しては、k−匿名性を満たすことを判定し、すべての重要情報から構成される表に対しては、l−多様性を満たすことを判定した上で、最適なデータセットを出力する。したがって、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。さらに、k−匿名性とl−多様性の両方をみたした最適な表を高速に導出することができる。
(2)本発明は、(1)の公開情報のプライバシー保護装置について、前記第1のデータ加工手段が、各属性に対して、一般化を行った場合に取り得る属性の種類数と前記利用者が入力した優先順位情報とに基づいて、一般化による評価ポイントの増加分を概算することを特徴とする公開情報のプライバシー保護装置を提案している。
この発明によれば、第1のデータ加工手段が、各属性に対して、一般化を行った場合に取り得る属性の種類数と前記利用者が入力した優先順位情報とに基づいて、一般化による評価ポイントの増加分を概算する。したがって、以降、無駄な計算処理を省略できるため、全体の処理の高速化を図ることができる。
(3)本発明は、(2)の公開情報のプライバシー保護装置について、前記第1のデータ加工手段が、前記評価ポイントの増加分の概算結果が大きい順番に一般化を行うことを特徴とする公開情報のプライバシー保護装置を提案している。
この発明によれば、第1のデータ加工手段が、前記評価ポイントの増加分の概算結果が大きい順番に一般化を行う。したがって、より高速に最適な表を導出することができる。
(4)本発明は、(2)または(3)の公開情報のプライバシー保護装置について、前記第1のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性およびl−多様性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性およびl−多様性を満たさなくなった場合に、k−匿名性およびl−多様性を満たさなくなったデータの中から最も評価ポイントが高いものを前記第2の加工手段に出力することを特徴とする公開情報のプライバシー保護装置を提案している。
この発明によれば、第1のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性およびl−多様性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性およびl−多様性を満たさなくなった場合に、k−匿名性およびl−多様性を満たさなくなったデータの中から最も評価ポイントが高いものを前記第2の加工手段に出力する。したがって、k−匿名性およびl−多様性を満たし、より高速に最適な表を導出することができる。
(5)本発明は、(4)の公開情報のプライバシー保護装置について、前記第2のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性およびl−多様性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性およびl−多様性を満たさなくなった場合に、k−匿名性およびl−多様性を満たさなくなったデータの評価ポイントを比較し、前記第1のデータ加工手段において、最も評価ポイントが高いものを含めて、最大の評価ポイントであるデータを前記第1の加工手段に出力することを特徴とする公開情報のプライバシー保護装置を提案している。
この発明によれば、第2のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性およびl−多様性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性およびl−多様性を満たさなくなった場合に、k−匿名性およびl−多様性を満たさなくなったデータの評価ポイントを比較し、第1のデータ加工手段において、最も評価ポイントが高いものを含めて、最大の評価ポイントであるデータを第1の加工手段に出力する。したがって、k−匿名性およびl−多様性を満たし、より高速に最適な表を導出することができる。
(6)本発明は、(1)の公開情報のプライバシー保護装置について、前記属性の値が数値データでない場合に、木構造のデータとして扱うことを特徴とする公開情報のプライバシー保護装置を提案している。
この発明によれば、属性の値が数値データでない場合に、木構造のデータとして扱うことにより、属性値の上下関係を明確にできる。
(7)本発明は、(1)の公開情報のプライバシー保護装置について、前記第1のデータ加工方法が、ボトムアップ処理を用いたデータの加工方法であることを特徴とする公開情報のプライバシー保護装置を提案している。
この発明によれば、第1のデータ加工方法が、ボトムアップ処理を用いたデータの加工方法である。つまり、ボトムアップ処理においては、各属性について同一データを集めてソート処理およびグループ化処理を行い、各属性の属性値の数を算出し、評価ポイントを算出する。そして、設定された優先順位情報(重み付け)とk−匿名性判定およびl−多様性判定に基づいて、加工処理を行う属性およびグループを選択し、加工処理による評価ポイントの減少分を算出して、選択したグループにおいて加工処理を行い、データセット全体の処理結果に基づいて、k−匿名性の判定を行うため、データ利用者が求める情報を可能な限り保持するとともに、データの欠落を防止する。
(8)本発明は、(1)の公開情報のプライバシー保護装置について、前記第2のデータ加工方法が、トップダウン処理を用いたデータの加工方法であることを特徴とする公開情報のプライバシー保護装置を提案している。
この発明によれば、第2のデータ加工方法が、トップダウン処理を用いたデータの加工方法である。つまり、トップダウン処理においては、各属性について同一データを集めてソート処理およびグループ化処理を行い、各属性の属性値の数を算出し、評価ポイントを算出する。そして、設定された優先順位情報(重み付け)とk−匿名性判定およびl−多様性判定に基づいて、加工処理を行う属性およびグループを選択し、加工処理による評価ポイントの増加分を算出して、選択したグループにおいて加工処理を行い、データセット全体の処理結果に基づいて、k−匿名性の判定を行うため、データ利用者が求める情報を可能な限り保持するとともに、データの欠落を防止する。
(9)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護方法であって、入力されたデータを属性ごとに準識別子あるいは重要情報に分類し、入力データからすべてが準識別子からなる表とすべてが重要情報からなる表とを生成する第1のステップ(例えば、図5のステップS101に相当)と、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する第2のステップ(例えば、図5のステップS101に相当)と、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する第3のステップと(例えば、図5のステップS101に相当)、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う第4のステップ(例えば、図5のステップS102に相当)と、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第5のステップ(例えば、図5のステップS103およびS104に相当)と、該第1のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第6のステップ(例えば、図5のステップS105およびS106に相当)と、前記第5のステップによる処理と前記第6のステップによる処理とを繰り返し、すべての前記準識別子から構成される表に対しては、k−匿名性を満たすことを判定し、すべての重要情報から構成される表に対しては、l−多様性を満たすことを判定した上で、最適なデータセットを出力する第7のステップ(例えば、図5のステップS107に相当)と、を備えることを特徴とする公開情報のプライバシー保護方法を提案している。
この発明によれば、入力されたデータを属性ごとに準識別子あるいは重要情報に分類し、入力データからすべてが準識別子からなる表とすべてが重要情報からなる表とを生成し、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する。そして、設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出し、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う。また、一般化されたデータについて、算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行い、第1のデータ加工手段において加工されたデータについて、算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う。そして、第5のステップによる処理と第6のステップによる処理とを繰り返し、すべての準識別子から構成される表に対しては、k−匿名性を満たすことを判定し、すべての重要情報から構成される表に対しては、l−多様性を満たすことを判定した上で、最適なデータセットを出力する。したがって、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。さらに、k−匿名性とl−多様性の両方をみたした最適な表を高速に導出することができる。
(10)本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、入力されたデータを属性ごとに準識別子あるいは重要情報に分類し、入力データからすべてが準識別子からなる表とすべてが重要情報からなる表とを生成する第1のステップ(例えば、図5のステップS101に相当)と、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する第2のステップ(例えば、図5のステップS101に相当)と、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する第3のステップと(例えば、図5のステップS101に相当)、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う第4のステップ(例えば、図5のステップS102に相当)と、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第5のステップ(例えば、図5のステップS103およびS104に相当)と、該第1のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第6のステップ(例えば、図5のステップS105およびS106に相当)と、前記第5のステップによる処理と前記第6のステップによる処理とを繰り返し、すべての前記準識別子から構成される表に対しては、k−匿名性を満たすことを判定し、すべての重要情報から構成される表に対しては、l−多様性を満たすことを判定した上で、最適なデータセットを出力する第7のステップ(例えば、図5のステップS107に相当)と、をコンピュータに実行させるためのプログラムを提案している。
この発明によれば、入力されたデータを属性ごとに準識別子あるいは重要情報に分類し、入力データからすべてが準識別子からなる表とすべてが重要情報からなる表とを生成し、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する。そして、設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出し、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う。また、一般化されたデータについて、算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行い、第1のデータ加工手段において加工されたデータについて、算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う。そして、第5のステップによる処理と第6のステップによる処理とを繰り返し、すべての準識別子から構成される表に対しては、k−匿名性を満たすことを判定し、すべての重要情報から構成される表に対しては、l−多様性を満たすことを判定した上で、最適なデータセットを出力する。したがって、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。さらに、k−匿名性とl−多様性の両方をみたした最適な表を高速に導出することができる。
本発明によれば、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できるという効果がある。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できるという効果がある。さらに、k−匿名性とl−多様性の両方をみたした最適な表を高速に導出することができるという効果がある。
本実施形態に係る公開情報のプライバシー保護装置の構成図である。 本実施形態に係る加工処理前のデータを例示した図である。 属性値の持つ意味の包含関係を木構造で示した図である。 本実施形態に係るボトムアップ処理およびトップダウン処理を示したイメージ図である。 本実施形態に係る公開情報のプライバシー保護装置の処理フローである。
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
<公開情報のプライバシー保護装置の構成>
図1を用いて、本実施形態に係る公開情報のプライバシー保護装置の構成について説明する。本実施形態に係る公開情報のプライバシー保護装置は、図1に示すように、制御部100と、データ読込処理部200と、データ出力処理部300と、匿名化アルゴリズム処理部400と、ユーザ設定パラメータ管理部500と、木構造データ管理部600と、k−匿名性判定モジュール700と、l−多様性判定モジュール800とから構成されている。また、匿名化アルゴリズム処理部400は、評価ポイント算出処理部410と、一般化アルゴリズム処理部420と、k−匿名性およびl−多様性判定処理部430とから構成されている。
制御部100は、予め格納された制御プログラムによって、公開情報のプライバシー保護装置の全体を制御する。特に、利用者がデータを入力するデータ読込処理部200のデータを例えば、GUI(Graphical User Interface)等を用いて、コンピュータ上のグラフィックス表示をマウス等でポインティングすることにより、利用者が分類を行う。
データ読込処理部200は、利用者が入力するデータを読込このデータをそのデータの各属性に応じて、重要情報(Sensitive Information)、準識別子(Quasi−Identifier)、削除すべき情報に分類する。なお、実際には、また、重要情報(Sensitive Information)に指定された属性の変更は行われない。さらに、削除すべき情報に指定された情報は加工処理の際に自動的に削除される。これにより、ユーザを直接的に特定できる情報を排除してプライバシーを保護するとともに、重要な情報を公開することができる。また、データ読込処理部200において処理されたデータ例については、図2を用いて、後述する。
データ出力処理部300は、各部で処理された匿名データセットの出力処理を行う。
匿名化アルゴリズム処理部400は、データ読込処理部200により処理されたデータに匿名化処理を行い、匿名データセットを生成する。具体的には、ユーザ設定パラメータ管理部500に格納されたパラメータにしたがって、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する。具体的には、各属性の重み付けは、利用者の入力により行われる。重み付けは、属性の優先順位を表わし、利用者が最も重視する属性を最上位とする。また、加工処理においては、優先順位が最下位の属性から順に加工処理を行い、k−匿名性を満たした段階で終了する。したがって、最上位の属性ほど元の情報が保持される確率が高くなる。また、これにより、直接的には、ユーザとの関連性の低い複数の情報を組合せることによりユーザを特定することも防止することにより、データ利用者が求める情報を可能な限り保持することができる。利用者は、GUI(Graphical User Interface)等を利用して各属性に対して優先順位を入力する。利用者は、各優先順位に対して、重み付けポイント(数値)を設定する。この値は、加工処理を行う属性を選択する際に使用する。
評価ポイント算出処理部410は、設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。具体的には、評価ポイントは、以下の数式を用いて、算出される。
評価ポイント=(属性値の数)*(重み付けポイント)
ここで、(属性値の数)とは、その属性が持つ属性値の種類の数を表す。ボトムアップ処理においては、一般化によって、この評価ポイントの減少が最小になる属性を一般化を行う属性として選択する。また、トップダウン処理においては、この値の増加が最大になる属性を一般化を行う属性として選択する。
一般化アルゴリズム処理部420は、k−匿名性およびl−多様性判定処理部430とともに、それぞれの属性単体を単体でk−匿名性を満たすように一般化する。また、属性によってユーザが一般化の限界レベルを設定しているものについては、それを超えて一般化はしない。さらに、生成したデータがk−匿名性を満たさなければ、各属性を1レベルだけ一般化して再度チェックを行う。この場合も、ユーザが設定した限界レベルを超えて一般化はせず、他の属性を一般化することで、k―匿名性を達成する。
一般化に用いられるトップダウン処理は、算出した評価ポイントの増加分が最大となるようなデータ加工方法により、データの加工を行う。また、ボトムアップ処理は、算出した評価ポイントの減少分が最小となるようなデータ加工方法により、データの加工を行う。
ユーザ設定パラメータ管理部500は、利用者が設定した重み付けポイント等のパラメータを管理する。また、属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である。例えば、図3にように、Country、State、City、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。数値データに関しては、一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用しても良い。また、木構造データは各レベルのノード数を情報として含む。木構造データ管理部600は、図3に示すような木構造データを管理する。
k−匿名性判定モジュール700は、入力されたデータセットのすべての準識別子から構成される表がk−匿名性を満たすことを判定する。l−多様性判定モジュール800は、入力されたデータセットのすべての重要情報から構成される表がl−多様性を満たすことを判定する。
つまり、本実施形態においては、例えば、図4に示すように、ボトムアップ処理を行って、一般化を実施した後に、トップダウン処理により逆方向の変形を行い、この処理を繰り返して最適な表を導出する。
<加工処理前のデータ>
図2を用いて、加工処理前のデータについて、説明する。
図2は、加工処理前のデータとして医療情報を例示したものであり、本例では、データの属性として、「名前」、「年齢」、「性別」、「出身地」、「人種」、「病名」等が例示されている。
本例では、女性である25歳のAが東京出身の日本人であって、肥満という病気を持っており、男性である37歳のBが北海道出身の日本人であって、糖尿病という病気を持っており、男性である55歳のCが沖縄出身の日本人であって、高血圧症という病気を持っていることが示されている。
このうち、「名前」という属性は、個人を直接的に特定できるものであるため、「削除すべき情報」に分類される。また、「病名」という属性は、プライバシー情報であるため、「重要情報(Sensitive Information)」に分類される。さらに、「年齢」、「性別」、「出身地」、「人種」という属性は、直接的に個人を特定できる情報ではないため、「準識別子(Quasi−Identifier)」に分類され、利用者の利用目的に応じて、重み付けが行われる。
なお、属性が数値データではない場合、例えば、「Country」、「State」、「City」のような場合、属性値の持つ意味の包含関係によって構築された木構造を用いて、上位ノードを探索する。したがって、各属性に対してこのような木構造データを利用者が設定可能とする。
<公開情報のプライバシー保護装置の処理>
図5を用いて、本実施形態に係る公開情報のプライバシー保護装置の処理について説明する。
まず、利用者が属性ごとに、データが、準識別子か重要情報かを決定し、入力されたデータをすべての準識別子からなる表と、すべての重要情報からなる表に分割する(ステップS101)。
前処理では、それぞれの属性単体を単体で(k+l)−匿名性を満たすように一般化する。ここで、lは、システムのパラメータとする。また、属性によって利用者が一般化の限界レベルを設定しているものについては、それを超えて一般化を行わない。また、生成したデータがk−匿名性を満たさなければ、各属性を1レベルだけ一般化して再度チェックを行う。この場合も、利用者が設定した限界レベルを超えて一般化は行わず、他の属性を一般化することでk−匿名性を達成する(ステップS102)。なお、この前処理工程を導入することにより、検索を高速化することができる。
次に、トップダウン処理では、トップダウンにより匿名データを生成する処理を行う。まず、当該データに対してすべての属性が一致するデータを集めてソートおよびグループ化を行う。次に、ユーザの入力した優先順位情報とk−匿名性判定およびl−多様性判定からのフィードバック結果を基に、一般化を行う属性およびグループを選択する。その際には、各属性に対して、一般化を行った場合に取り得る属性の種類の数と利用者の入力した優先順位情報から、一般化による評価ポイントの増加分を概算する。このように、評価ポイントの概算を導入することにより、無駄な計算を省略することができる。
そして、この概算結果が大きい順から一般化の対象とする。また、可能性のある一般化を順番に行って候補データを作成していくわけであるが、直前の一般化を行ったデータの評価ポイントに対して、概算した評価ポイントの増加を考慮しても次に行う一般化が評価ポイントの上で上回れない場合には、残りの一般化手順による候補データの作成は行わない(ステップS103)。
次に、選択したグループの一般化を行い、実施結果(データセット全体)をk−匿名性判定およびl−多様性判定に入力する。k−匿名性判定およびl−多様性判定に合格したデータについては、各属性の属性値の数を算出し、評価ポイントを導出する(ステップS104)。
なお、候補データのうち、最も評価ポイントの高いものを次の処理対象データとする。そして、k―匿名性およびl−多様性を満たさなくなるまで、トップダウン処理を繰り返す。k−匿名性およびl−多様性を満たさなくなった場合、k―匿名性およびl−多様性を満たしたデータおよびその評価ポイントを保存しておくとともに、k―匿名性およびl−多様性を満たさなくなったデータの中からもっとも評価ポイントが高いものをボトムアップ処理に受け渡す。
次に、ボトムアップ処理では、ボトムアップにより匿名データを生成する処理を行う。まず、当該データに対してすべての属性が一致するデータを集めてソートおよびグループ化を行う。次に、利用者の入力した優先順位情報とk−匿名性判定およびl−多様性判定からのフィードバック結果を基に、一般化を行う属性およびグループを選択する。具体的には、利用者が入力した優先順位が高い属性から順に一般化して候補データを作成する。
そして、選択したグループの一般化を行い、実施結果(データセット全体)をk−匿名性判定およびl−多様性判定に入力する。k―匿名性判定およびl−多様性判定に合格したデータについては、各属性の属性値の数を算出し、評価ポイントを導出する。さらに、評価ポイントを比較し、トップダウン処理において保存されたデータの評価ポイントも含めて最大の評価ポイントを得たデータを匿名データセットとして保存し、そのデータを再Top-Down処理に受け渡す(ステップS105、S106)。
また、すべてのk―匿名性判定およびl−多様性判定に合格しなかった場合には、候補データの中から左記の匿名データセットよりも評価ポイントが高くかつ評価ポイントが高いものを選択し、再度ボトムアップ処理を行い同様の判定を行う。すべての候補データがk−匿名性およびl−多様性を満たさず、かつ、現在保存されている匿名データセットの評価ポイントを上回ることができない場合には、保存されている匿名データセットを匿名データセット出力に渡して終了する。なお、利用者が属性に対して一般化レベル限界を設定していた場合には、それを超えて一般化は行わない。
再トップダウン処理は、トップダウン処理とほぼ同様の手順で行う。k−匿名性判定およびl−多様性判定に合格したデータについては、各属性の属性値の数を算出し、評価ポイントを導出する。候補データのうち、最も評価ポイントの高いものを次の処理対象データとする。そして、k―匿名性およびl−多様性を満たさなくなるまで、トップダウン処理を繰り返す。
k―匿名性およびl−多様性を満たさなくなった場合、k―匿名性およびl−多様性を満たしたデータおよびその評価ポイントを保存しておくとともに、k―匿名性およびl−多様性を満たさなくなったデータの中からもっとも評価ポイントが高いものをボトムアップ処理に受け渡す。なお、この場合も、評価ポイントの最も高い候補データは、現在保存されている匿名データセットの評価ポイントよりも評価ポイントが高くなければならない。また、現在保存されている匿名データセットの評価ポイントを上回ることができない場合には、保存されている匿名データセットを匿名データセット出力に渡して終了する。
k−匿名性判定およびl−多様性判定では、入力されたデータセットのすべての準識別子から構成される表がk−匿名性を満たし、かつ、すべての重要情報から構成される情報がl―多様性を満たすかどうか判定し、満たす場合は、データを匿名データセット出力に受け渡す。満たさない場合、満たさなかったグループをフィードバック情報としてトップダウン処理、ボトムアップ処理、再トップダウン処理に返す(ステップS104、S106)。
匿名データセット出力は、受け取ったデータを成形して出力する。受け取ったデータはデータそのものではなく、各属性の一般化レベルで与えられている場合がある。このときには、元データも読込、一般化を行った後出力する(ステップS107)。
また、評価ポイントが一致した場合は、利用者の優先順位が高い順から属性を見ていき、優先順位が高い属性の一般化レベルが低いデータを採用する。
したがって、本実施形態によれば、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。さらに、k−匿名性とl−多様性の両方をみたした最適な表を高速に導出することができる。
なお、公開情報のプライバシー保護装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを公開情報のプライバシー保護装置に読み込ませ、実行することによって本発明の公開情報のプライバシー保護装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100;制御部
200;データ読込処理部
300;データ出力処理部
400;匿名化アルゴリズム処理部
410;評価ポイント算出処理部
420;一般化アルゴリズム処理部
430;k−匿名性およびl−多様性判定処理部
500;ユーザ設定パラメータ管理部
600;木構造データ管理部
700;k−匿名性判定モジュール
800;l−多様性判定モジュール

Claims (10)

  1. データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、
    入力されたデータを属性ごとに準識別子あるいは重要情報に分類し入力データからすべてが準識別子からなる表とすべてが重要情報からなる表とを生成する表生成手段と、
    公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する設定手段と、
    該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する算出手段と、
    それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う処理手段と、
    該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第1のデータ加工手段と、
    該第1のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第2のデータ加工手段と、
    を備え、
    前記第1のデータ加工手段による処理と前記第2のデータ加工手段による処理とを繰り返し、すべての前記準識別子から構成される表に対しては、k−匿名性を満たすことを判定し、すべての重要情報から構成される表に対しては、l−多様性を満たすことを判定した上で、最適なデータセットを出力することを特徴とする公開情報のプライバシー保護装置。
  2. 前記第1のデータ加工手段が、各属性に対して、一般化を行った場合に取り得る属性の種類数と前記利用者が入力した優先順位情報とに基づいて、一般化による評価ポイントの増加分を概算することを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
  3. 前記第1のデータ加工手段が、前記評価ポイントの増加分の概算結果が大きい順番に一般化を行うことを特徴とする請求項2に記載の公開情報のプライバシー保護装置。
  4. 前記第1のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性およびl−多様性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性およびl−多様性を満たさなくなった場合に、k−匿名性およびl−多様性を満たさなくなったデータの中から最も評価ポイントが高いものを前記第2の加工手段に出力することを特徴とする請求項2または3に記載の公開情報のプライバシー保護装置。
  5. 前記第2のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、k−匿名性およびl−多様性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、k−匿名性およびl−多様性を満たさなくなった場合に、k−匿名性およびl−多様性を満たさなくなったデータの評価ポイントを比較し、前記第1のデータ加工手段において、最も評価ポイントが高いものを含めて、最大の評価ポイントであるデータを前記第1の加工手段に出力することを特徴とする請求項4に記載の公開情報のプライバシー保護装置。
  6. 前記属性の値が数値データでない場合に、木構造のデータとして扱うことを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
  7. 前記第1のデータ加工方法が、ボトムアップ処理を用いたデータの加工方法であることを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
  8. 前記第2のデータ加工方法が、トップダウン処理を用いたデータの加工方法であることを特徴とする請求項1に記載の公開情報のプライバシー保護装置。
  9. 表作成手段と、設定手段と、算出手段と、処理手段と、第1のデータ加工手段と、第2のデータ加工手段と、制御手段とを備えた公開情報のプライバシー保護装置において、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護方法であって、
    前記表作成手段が、入力されたデータを属性ごとに準識別子あるいは重要情報に分類し、入力データからすべてが準識別子からなる表とすべてが重要情報からなる表とを生成する第1のステップと、
    前記設定手段が、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する第2のステップと、
    前記算出手段が、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する第3のステップと、
    前記処理手段が、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う第4のステップと、
    前記第1のデータ加工手段が、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第5のステップと、
    前記第2のデータ加工手段が、該第5のステップにおいて加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第6のステップと、
    前記制御手段が、前記第5のステップによる処理と前記第6のステップによる処理とを繰り返し、すべての前記準識別子から構成される表に対しては、k−匿名性を満たすことを判定し、すべての重要情報から構成される表に対しては、l−多様性を満たすことを判定した上で、最適なデータセットを出力する第7のステップと、
    を備えることを特徴とする公開情報のプライバシー保護方法。
  10. 表作成手段と、設定手段と、算出手段と、処理手段と、第1のデータ加工手段と、第2のデータ加工手段と、制御手段とを備えた公開情報のプライバシー保護装置において、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、
    前記表作成手段が、入力されたデータを属性ごとに準識別子あるいは重要情報に分類し、入力データからすべてが準識別子からなる表とすべてが重要情報からなる表とを生成する第1のステップと、
    前記設定手段が、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位(重み付け)を設定する第2のステップと、
    前記算出手段が、該設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する第3のステップと、
    前記処理手段が、それぞれの属性において、属性単体でk−匿名性を満たすようにデータの一般化を行う第4のステップと、
    前記第1のデータ加工手段が、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第1のデータ加工方法により、データの加工を行う第5のステップと、
    前記第2のデータ加工手段が、該第5のステップにおいて加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第2のデータ加工方法により、データの加工を行う第6のステップと、
    前記制御手段が、前記第5のステップによる処理と前記第6のステップによる処理とを繰り返し、すべての前記準識別子から構成される表に対しては、k−匿名性を満たすことを判定し、すべての重要情報から構成される表に対しては、l−多様性を満たすことを判定した上で、最適なデータセットを出力する第7のステップと、
    をコンピュータに実行させるためのプログラム。
JP2010136751A 2010-06-16 2010-06-16 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム Active JP5511532B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010136751A JP5511532B2 (ja) 2010-06-16 2010-06-16 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010136751A JP5511532B2 (ja) 2010-06-16 2010-06-16 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2012003440A JP2012003440A (ja) 2012-01-05
JP5511532B2 true JP5511532B2 (ja) 2014-06-04

Family

ID=45535354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010136751A Active JP5511532B2 (ja) 2010-06-16 2010-06-16 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5511532B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013128879A1 (ja) * 2012-03-01 2013-09-06 日本電気株式会社 匿名化処理を実行する情報処理装置、匿名化方法、及びそのためのプログラム
JPWO2014030302A1 (ja) * 2012-08-20 2016-07-28 日本電気株式会社 匿名化を実行する情報処理装置及び匿名化処理方法
JP6214150B2 (ja) * 2012-11-19 2017-10-18 富士通クラウドテクノロジーズ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US9940473B2 (en) 2013-01-10 2018-04-10 Nec Corporation Information processing device, information processing method and medium
JP6015777B2 (ja) 2013-01-16 2016-10-26 富士通株式会社 秘匿化データ生成方法及び装置
JP6177536B2 (ja) * 2013-02-08 2017-08-09 富士通クラウドテクノロジーズ株式会社 情報処理装置
WO2014181541A1 (ja) 2013-05-09 2014-11-13 日本電気株式会社 匿名性を検証する情報処理装置及び匿名性検証方法
JP6127774B2 (ja) * 2013-06-25 2017-05-17 日本電気株式会社 情報処理装置、及び、データ処理方法
JP6313944B2 (ja) * 2013-09-30 2018-04-18 富士通クラウドテクノロジーズ株式会社 匿名化システム、匿名化方法及び匿名化プログラム
JP6223853B2 (ja) 2014-02-13 2017-11-01 株式会社東芝 匿名化指標算出システム
JP2017182508A (ja) * 2016-03-30 2017-10-05 西日本電信電話株式会社 匿名化装置、匿名化方法及びコンピュータプログラム
CN107317801A (zh) * 2017-06-05 2017-11-03 中南大学 非完全可信用户协作无匿名区域的位置隐私保护方法
US10565399B2 (en) * 2017-10-26 2020-02-18 Sap Se Bottom up data anonymization in an in-memory database
CN110990869B (zh) * 2019-11-29 2022-11-18 国家电网有限公司客户服务中心 一种应用于隐私保护的电力大数据脱敏方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3866210B2 (ja) * 2003-03-20 2007-01-10 株式会社エヌ・ティ・ティ・データ 個人特定防止装置、個人特定防止方法、および、プログラム
JP5042667B2 (ja) * 2007-03-05 2012-10-03 株式会社日立製作所 情報出力装置、情報出力方法、及び、情報出力プログラム
JP2010086179A (ja) * 2008-09-30 2010-04-15 Oki Electric Ind Co Ltd 情報処理装置、コンピュータプログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2012003440A (ja) 2012-01-05

Similar Documents

Publication Publication Date Title
JP5511532B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
JP5611852B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
JP4950444B2 (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
JP5525864B2 (ja) プライバシー情報評価サーバ、データ管理方法およびプログラム
JP5452187B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
JP6015658B2 (ja) 匿名化装置、及び、匿名化方法
JP5626964B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
CN106874253A (zh) 识别敏感信息的方法及装置
Kamran et al. A formal usability constraints model for watermarking of outsourced datasets
WO2012154348A1 (en) Generation of topic-based language models for an app search engine
JP2013206187A (ja) 情報変換装置、情報検索装置、情報変換方法、情報検索方法、情報変換プログラム、情報検索プログラム
JP6661754B2 (ja) コンテンツ配信方法および装置
JP2016207141A (ja) 要約生成装置、要約生成方法、及び要約生成プログラム
JP5974858B2 (ja) 匿名化処理方法及び装置
de Sousa et al. Logical design of graph databases from an entity-relationship conceptual model
JP6584861B2 (ja) プライバシ保護装置、方法及びプログラム
JP2016012074A (ja) プライバシー保護装置、プライバシー保護方法及びデータベース作成方法
JP5366786B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
CN106682258A (zh) 一种高层次综合工具中的多操作数加法优化方法及系统
JP5839460B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
JP6450098B2 (ja) 匿名化装置、匿名化方法及び匿名化プログラム
JP2014164499A (ja) 画像分類装置及び画像分類プログラム
JP5416614B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
CN112182638B (zh) 一种基于本地化差分隐私模型的直方图数据发布方法及系统
CN109614542B (zh) 公众号推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140325

R150 Certificate of patent or registration of utility model

Ref document number: 5511532

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150