JP2011209800A

JP2011209800A - 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム

Info

Publication number: JP2011209800A
Application number: JP2010074318A
Authority: JP
Inventors: Shinsaku Kiyomoto; 晋作清本; Toshiaki Tanaka; 俊昭田中
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2010-03-29
Filing date: 2010-03-29
Publication date: 2011-10-20
Anticipated expiration: 2030-03-29
Also published as: JP5626964B2

Abstract

【課題】処理負荷の軽減や不要な処理の削減を行い、可能な限り最適な表を高速に導き出す。
【解決手段】公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定し、該設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する。次に、それぞれの属性において、属性単体でｋ−匿名性を満たすようにデータの一般化を行い、一般化されたデータについて、算出した評価ポイントの増加分が最大となるような第１のデータ加工方法により、データの加工を行う。次いで、第１のデータ加工手段において加工されたデータについて、算出した評価ポイントの減少分が最小となるような第２のデータ加工方法により、データの加工を行い、第４のステップと第５のステップとを繰り返して、最適なデータセットを出力する。
【選択図】図４

Description

本発明は、医療情報等の公開情報に対するプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムに関する。

従来より、多くのデータに基づいて、統計処理を行って、例えば、特定の病気にかかりやすい年代、性別、地域、人種といった情報を広く公開して、その傾向分析を行い、その対策に用いる場合がある。

ところが、データを公開する場合には、そのデータの所有者が特定されないように、プライバシーを慎重に保護する必要があるため、データの変形処理を行う必要がある。そのため、今までにも、プライバシーを保護するためのデータの変形処理に関する技術が多く開示されている（例えば、非特許文献１参照。）。

Ｂ．ＦｕｎｇａｎｄＫ．ＷａｎｇａｎｄＰ．Ｙｕ， "Ｔｏｐ−ｄｏｗｎｓｐｅｃｉａｌｉｚａｔｉｏｎｆｏｒｉｎｆｏｒｍａｔｉｏｎａｎｄｐｒｉｖａｃｙｐｒｅｓｅｒｖａｔｉｏｎ"ＰｒｏｃｏｆＩＣＤＥ２００５ｐｐ．２０５−２１６

しかしながら、これまでの手法においては、最適k−匿名性を満たすためにすべてのデータを平等に扱っていたが、データ利用者が求める情報が欠落してしまうという問題点があった。また、データの加工時に各データに対して優先順位を設定し、特殊な関数を用いて変形したデータを評価することにより、データ利用者が求める情報を可能な限り保持する方法も考えられるが、早期に枝刈りを実施するため、必ずしも最適な表が導出されるとは限らないという問題があった。

そこで、本発明は、上述の課題に鑑みてなされたものであり、処理負荷の軽減や不要な処理の削減を行い、可能な限り最適な表を高速に導き出す公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラムを提供することを目的とする。

発明者は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。

（１）本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する設定手段（例えば、図１の設定部２に相当）と、該設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する算出手段（例えば、図１の算出部３に相当）と、それぞれの属性において、属性単体でｋ−匿名性を満たすようにデータの一般化を行う処理手段（例えば、図１の前処理部４に相当）と、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第１のデータ加工方法により、データの加工を行う第１のデータ加工手段（例えば、図１の第１のデータ加工部５に相当）と、該第１のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第２のデータ加工方法により、データの加工を行う第２のデータ加工手段（例えば、図１の第２のデータ加工部６に相当）と、を備え、前記第１のデータ加工手段による処理と前記第２のデータ加工手段による処理とを繰り返して、最適なデータセットを出力することを特徴とする公開情報のプライバシー保護装置を提案している。

この発明によれば、設定手段は、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する。算出手段は、設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する。処理手段は、それぞれの属性において、属性単体でｋ−匿名性を満たすようにデータの一般化を行う。第１のデータ加工手段は、一般化されたデータについて、算出した評価ポイントの増加分が最大となるような第１のデータ加工方法により、データの加工を行う。第２のデータ加工手段は、第１のデータ加工手段において加工されたデータについて、算出した評価ポイントの減少分が最小となるような第２のデータ加工方法により、データの加工を行う。そして、第１のデータ加工手段による処理と第２のデータ加工手段による処理とを繰り返して、最適なデータセットを出力する。したがって、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。

（２）本発明は、（１）の公開情報のプライバシー保護装置について、前記第１のデータ加工手段が、各属性に対して、一般化を行った場合に取り得る属性の種類数と前記利用者が入力した優先順位情報とに基づいて、一般化による評価ポイントの増加分を概算することを特徴とする公開情報のプライバシー保護装置を提案している。

この発明によれば、第１のデータ加工手段が、各属性に対して、一般化を行った場合に取り得る属性の種類数と前記利用者が入力した優先順位情報とに基づいて、一般化による評価ポイントの増加分を概算する。したがって、以降、無駄な計算処理を省略できるため、全体の処理の高速化を図ることができる。

（３）本発明は、（２）の公開情報のプライバシー保護装置について、前記第１のデータ加工手段が、前記評価ポイントの増加分の概算結果が大きい順番に一般化を行うことを特徴とする公開情報のプライバシー保護装置を提案している。

この発明によれば、第１のデータ加工手段が、前記評価ポイントの増加分の概算結果が大きい順番に一般化を行う。したがって、より高速に最適な表を導出することができる。

（４）本発明は、（２）または（３）の公開情報のプライバシー保護装置について、前記第１のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、ｋ−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、ｋ−匿名性を満たさなくなった場合に、ｋ−匿名性を満たさなくなったデータの中から最も評価ポイントが高いものを前記第２の加工手段に出力することを特徴とする公開情報のプライバシー保護装置を提案している。

この発明によれば、第１のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、ｋ−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、ｋ−匿名性を満たさなくなった場合に、ｋ−匿名性を満たさなくなったデータの中から最も評価ポイントが高いものを前記第２の加工手段に出力する。したがって、より高速に最適な表を導出することができる。

（５）本発明は、（４）の公開情報のプライバシー保護装置について、前記第２のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、ｋ−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、ｋ−匿名性を満たさなくなった場合に、ｋ−匿名性を満たさなくなったデータの評価ポイントを比較し、前記第１のデータ加工手段において、最も評価ポイントが高いものを含めて、最大の評価ポイントであるデータを前記第１の加工手段に出力することを特徴とする公開情報のプライバシー保護装置を提案している。

この発明によれば、第２のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、ｋ−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、ｋ−匿名性を満たさなくなった場合に、ｋ−匿名性を満たさなくなったデータの評価ポイントを比較し、第１のデータ加工手段において、最も評価ポイントが高いものを含めて、最大の評価ポイントであるデータを第１の加工手段に出力する。したがって、より高速に最適な表を導出することができる。

（６）本発明は、（１）の公開情報のプライバシー保護装置について、前記属性の値が数値データでない場合に、木構造のデータとして扱うことを特徴とする公開情報のプライバシー保護装置を提案している。

この発明によれば、属性の値が数値データでない場合に、木構造のデータとして扱うことにより、属性値の上下関係を明確にできる。

（７）本発明は、（１）の公開情報のプライバシー保護装置について、前記第１のデータ加工方法が、ボトムアップ処理を用いたデータの加工方法であることを特徴とする公開情報のプライバシー保護装置を提案している。

この発明によれば、第１のデータ加工方法が、ボトムアップ処理を用いたデータの加工方法である。つまり、ボトムアップ処理においては、各属性について同一データを集めてソート処理およびグループ化処理を行い、各属性の属性値の数を算出し、評価ポイントを算出する。そして、設定された優先順位情報（重み付け）とｋ−匿名性判定からに基づいて、加工処理を行う属性およびグループを選択し、加工処理による評価ポイントの減少分を算出して、選択したグループにおいて加工処理を行い、データセット全体の処理結果に基づいて、ｋ−匿名性の判定を行うため、データ利用者が求める情報を可能な限り保持するとともに、データの欠落を防止する。

（８）本発明は、（１）の公開情報のプライバシー保護装置について、前記第２のデータ加工方法が、トップダウン処理を用いたデータの加工方法であることを特徴とする公開情報のプライバシー保護装置を提案している。

この発明によれば、第２のデータ加工方法が、トップダウン処理を用いたデータの加工方法である。つまり、トップダウン処理においては、各属性について同一データを集めてソート処理およびグループ化処理を行い、各属性の属性値の数を算出し、評価ポイントを算出する。そして、設定された優先順位情報（重み付け）とｋ−匿名性判定からに基づいて、加工処理を行う属性およびグループを選択し、加工処理による評価ポイントの増加分を算出して、選択したグループにおいて加工処理を行い、データセット全体の処理結果に基づいて、ｋ−匿名性の判定を行うため、データ利用者が求める情報を可能な限り保持するとともに、データの欠落を防止する。

（９）本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する第１のステップと、該設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する第２のステップと、それぞれの属性において、属性単体でｋ−匿名性を満たすようにデータの一般化を行う第３のステップ（例えば、図４のステップＳ１００に相当）と、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第１のデータ加工方法により、データの加工を行う第４のステップ（例えば、図４のステップＳ３００に相当）と、該第１のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第２のデータ加工方法により、データの加工を行う第５のステップ（例えば、図４のステップＳ６００に相当）と、前記第４のステップと前記第５のステップとを繰り返して、最適なデータセットを出力する第６のステップと、を備えることを特徴とする公開情報のプライバシー保護方法を提案している。

この発明によれば、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定し、該設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する。次に、それぞれの属性において、属性単体でｋ−匿名性を満たすようにデータの一般化を行い、一般化されたデータについて、算出した評価ポイントの増加分が最大となるような第１のデータ加工方法により、データの加工を行う。次いで、第１のデータ加工手段において加工されたデータについて、算出した評価ポイントの減少分が最小となるような第２のデータ加工方法により、データの加工を行い、第４のステップと第５のステップとを繰り返して、最適なデータセットを出力する。したがって、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。

（１０）本発明は、データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する第１のステップと、該設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する第２のステップと、それぞれの属性において、属性単体でｋ−匿名性を満たすようにデータの一般化を行う第３のステップ（例えば、図４のステップＳ１００に相当）と、該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第１のデータ加工方法により、データの加工を行う第４のステップ（例えば、図４のステップＳ３００に相当）と、該第１のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第２のデータ加工方法により、データの加工を行う第５のステップ（例えば、図４のステップＳ６００に相当）と、前記第４のステップと前記第５のステップとを繰り返して、最適なデータセットを出力する第６のステップと、をコンピュータに実行させるためのプログラムを提案している。

本発明によれば、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できるという効果がある。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できるという効果がある。

本実施形態に係る公開情報のプライバシー保護装置の構成図である。本実施形態に係る加工処理前のデータを例示した図である。本実施形態に係るボトムアップ処理およびトップダウン処理を示したイメージ図である。本実施形態に係る公開情報のプライバシー保護装置の処理フローである。

以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。

＜公開情報のプライバシー保護装置の構成＞
図１を用いて、本実施形態に係る公開情報のプライバシー保護装置の構成について説明する。本実施形態に係る公開情報のプライバシー保護装置は、図１に示すように、分類部１と、設定部２と、算出部３と、前処理部４と、第１のデータ加工部５と、第２のデータ加工部６とから構成されている。

分類部１は、元データをそのデータの各属性に応じて、重要情報（ＳｅｎｓｉｔｉｖｅＩｎｆｏｒｍａｔｉｏｎ）、準識別子（Ｑｕａｓｉ−Ｉｄｅｎｔｉｆｉｅｒ）、削除すべき情報に分類する。なお、実際には、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を用いて、コンピュータ上のグラフィックス表示をマウス等でポインティングすることにより、利用者が分類を行う。また、重要情報（ＳｅｎｓｉｔｉｖｅＩｎｆｏｒｍａｔｉｏｎ）に指定された属性の変更は行われない。さらに、削除すべき情報に指定された情報は加工処理の際に自動的に削除される。これにより、ユーザを直接的に特定できる情報を排除してプライバシーを保護するとともに、重要な情報を公開することができる。

設定部２は、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する。具体的には、各属性の重み付けは、利用者の入力により行われる。重み付けは、属性の優先順位を表わし、利用者が最も重視する属性を最上位とする。また、加工処理においては、優先順位が最下位の属性から順に加工処理を行い、ｋ−匿名性を満たした段階で終了する。したがって、最上位の属性ほど元の情報が保持される確率が高くなる。また、これにより、直接的には、ユーザとの関連性の低い複数の情報を組み合わせることによりユーザを特定することも防止することにより、データ利用者が求める情報を可能な限り保持することができる。利用者は、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を利用して各属性に対して優先順位を入力する。利用者は、各優先順位に対して、重み付けポイント（数値）を設定する。この値は、加工処理を行う属性を選択する際に使用する。

算出部３は、設定部２において設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する。具体的には、評価ポイントは、以下の数式を用いて、算出される。
評価ポイント＝（属性値の数）＊（重み付けポイント）
ここで、（属性値の数）とは、その属性が持つ属性値の種類の数を表す。第１のデータ加工部５の処理においては、一般化によって、この評価ポイントの減少が最小になる属性を一般化を行う属性として選択する。また、第２のデータ加工部６の処理においては、この値の増加が最大になる属性を一般化を行う属性として選択する。

前処理部４は、それぞれの属性単体を単体でｋ−匿名性を満たすように一般化する。また、属性によってユーザが一般化の限界レベルを設定しているものについては、それを超えて一般化はしない。さらに、生成したデータがｋ−匿名性を満たさなければ、各属性を１レベルだけ一般化して再度チェックを行う。この場合も、ユーザが設定した限界レベルを超えて一般化はせず、他の属性を一般化することで、ｋ―匿名性を達成する。

第１のデータ加工部５は、算出した評価ポイントの増加分が最大となるようなデータ加工方法（トップダウン処理）により、データの加工を行う。第２のデータ加工部６は、算出した評価ポイントの減少分が最小となるようなデータ加工方法（ボトムアップ処理）により、データの加工を行う。

つまり、本実施形態においては、例えば、図３に示すように、ボトムアップ処理を行って、一般化を実施した後に、トップダウン処理により逆方向の変形を行い、この処理を繰り返して最適な表を導出する。

＜加工処理前のデータ＞
図２を用いて、加工処理前のデータについて、説明する。
図２は、加工処理前のデータとして医療情報を例示したものであり、本例では、データの属性として、「名前」、「年齢」、「性別」、「出身地」、「人種」、「病名」等が例示されている。

本例では、女性である２５歳のＡが東京出身の日本人であって、肥満症という病気を持っており、男性である３７歳のＢが北海道出身の日本人であって、糖尿病という病気を持っており、男性である５５歳のＣが沖縄出身の日本人であって、高血圧症という病気を持っていることが示されている。

このうち、「名前」という属性は、個人を直接的に特定できるものであるため、「削除すべき情報」に分類される。また、「病名」という属性は、プライバシー情報であるため、「重要情報（ＳｅｎｓｉｔｉｖｅＩｎｆｏｒｍａｔｉｏｎ）」に分類される。さらに、「年齢」、「性別」、「出身地」、「人種」という属性は、直接的に個人を特定できる情報ではないため、「準識別子（Ｑｕａｓｉ−Ｉｄｅｎｔｉｆｉｅｒ）」に分類され、利用者の利用目的に応じて、重み付けが行われる。

なお、属性が数値データではない場合、例えば、「Ｃｏｕｎｔｒｙ」、「Ｓｔａｔｅ」、「Ｃｉｔｙ」のような場合、属性値の持つ意味の包含関係によって構築された木構造を用いて、上位ノードを探索する。従って、各属性に対してこのような木構造データを利用者が設定可能とする。

＜公開情報のプライバシー保護装置の処理＞
図４を用いて、本実施形態に係る公開情報のプライバシー保護装置の処理について説明する。

まず、オリジナルデータに対して、分類部１、設定部２、算出部３の処理を行ったオリジナルデータセットを前処理部４に入力する。前処理部４では、それぞれの属性単体を単体でｋ−匿名性を満たすように一般化する。また、属性によってユーザが一般化の限界レベルを設定しているものについては、それを超えて一般化はしない。さらに、生成したデータがｋ−匿名性を満たさなければ、各属性を１レベルだけ一般化して再度チェックを行う。この場合も、ユーザが設定した限界レベルを超えて一般化はせず、他の属性を一般化することで、ｋ―匿名性を達成する（ステップＳ１００、Ｓ２００）。したがって、ｋ−匿名性を満足するまで、繰り返し処理が行われる。

トップダウン処理（ステップＳ３００、Ｓ４００）では、当該データに対してすべての属性が一致するデータを集めてソートおよびグループ化を行う。次に、ユーザの入力した優先順位情報とｋ−匿名性判定からのフィードバック結果を基に、一般化を行う属性およびグループを選択する。その際には、各属性に対して、一般化を行った場合に取り得る属性の種類の数とユーザの入力した優先順位情報から、一般化による評価ポイントの増加分を概算する。そして、この概算結果が大きい順から一般化の対象とする。

また、可能性のある一般化を順番に行って候補データを作成していくわけであるが、直前の一般化を行ったデータの評価ポイントに対して、概算した評価ポイントの増加を考慮しても、次に行う一般化が評価ポイントの上で上回れない場合には、残りの一般化手順による候補データの作成は行わない。

次に、選択したグループの一般化を行い、実施結果（データセット全体）をｋ−匿名性判定（ステップＳ４００）に入力する。ｋ−匿名性判定に合格したデータについては、各属性の属性値の数を算出し、評価ポイントを導出する。候補データのうち、最も評価ポイントの高いものを次の処理対象データとする。そしてｋ−匿名性を満たさなくなるまで、トップダウン処理（ステップＳ３００）を繰り返し、ｋ−匿名性を満たさなくなった場合、ｋ−匿名性を満たしたデータおよびその評価ポイントを保存しておくとともに、ｋ−匿名性を満たさなくなったデータの中からもっとも評価ポイントが高いものをボトムアップ処理に受け渡す。

最適データ判定（ステップＳ５００）では、ステップＳ１００からステップＳ３００までの処理により、ｋ−匿名性判定（ステップＳ４００）に入力されたデータセットがｋ−匿名性を満たすと判定されたデータセット、ｋ−匿名性判定（ステップＳ７００）においてｋ−匿名性を満たすと判定されたデータセット、再トップダウン処理を行って、ｋ−匿名性判定（ステップＳ４００）においてｋ−匿名性を満たすと判定されたデータセットが最適データであるか否かの判定を行い、最適データである場合には、このデータセットを匿名データセットとして出力する。一方で、最適データでないと判定した場合には、このデータセットをボトムダウン処理（ステップＳ６００）やトップダウン処理（ステップＳ３００）に戻して、再度、処理を行う。

ボトムアップ処理（ステップＳ６００、Ｓ７００）では、当該データに対してすべての属性が一致するデータを集めてソートおよびグループ化を行う。次に、ユーザの入力した優先順位情報とｋ−匿名性判定からのフィードバック結果を基に、一般化を行う属性およびグループを選択する。具体的には、利用者が入力した優先順位が高い属性から順に一般化して候補データを作成する。

次に、選択したグループの一般化を行い、実施結果（データセット全体）をｋ−匿名性判定に入力する。ｋ−匿名性判定に合格したデータについては、各属性の属性値の数を算出し、評価ポイントを導出する。そして、評価ポイントを比較し、トップダウン処理（ステップＳ３００）において保存されたデータの評価ポイントも含めて最大の評価ポイントを得たデータを匿名データセットとして保存する。さらに、そのデータを再びトップダウン処理（ステップＳ３００）に受け渡す。

また、すべてのｋ−匿名性判定に合格しなかった場合には、候補データの中から前記の匿名データセットよりも評価ポイントが高くかつ評価ポイントが高いものを選択し、再度ボトムアップ処理（ステップＳ６００）を行い同様の判定を行う。すべての候補データがｋ−匿名性を満たさず、かつ、現在保存されている匿名データセットの評価ポイントを上回ることができない場合には、保存されている匿名データセットを匿名データセット出力に渡して終了する、なお、ユーザが属性に対して一般化レベル限界を設定していた場合には、それを超えて一般化は行わない。

再度のトップダウン処理では、前回のトップダウン処理とほぼ同様の手順で行う。ｋ−匿名性判定に合格したデータについては、各属性の属性値の数を算出し、評価ポイントを導出する。候補データのうち、最も評価ポイントの高いものを次の処理対象データとする。そして、ｋ−匿名性を満たさなくなるまで、トップダウン理を繰り返す。

ｋ―匿名性を満たさなくなった場合、ｋ―匿名性を満たしたデータおよびその評価ポイントを保存しておくとともに、ｋ−匿名性を満たさなくなったデータの中からもっとも評価ポイントが高いものをボトムアップ処理（ステップＳ６００）に受け渡す。

なお、この場合も、評価ポイントの最も高い候補データは、現在保存されている匿名データセットの評価ポイントよりも評価ポイントが高くなければならない。現在保存されている匿名データセットの評価ポイントを上回ることができない場合には、保存されている匿名データセットを匿名データセットの出力に渡して終了する。

匿名データセット出力は、受け取ったデータを成形して出力する。受け取ったデータは、データそのものではなく、各属性の一般化レベルで与えられている場合がある。このときには、元データも読み込み、一般化を行った後出力する。

また、評価ポイントが一致した場合は、ユーザの優先順位が高い順から属性を見ていき、優先順位が高い属性のうち、一般化レベルが低いデータを採用する。

したがって、本実施形態によれば、データ利用者が求めるデータが欠落することなく、データの加工によるプライバシー保護を実現できる。また、処理手段により前処理を実行するため可能な限り最適な表を高速に導出できる。

なお、公開情報のプライバシー保護装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを公開情報のプライバシー保護装置に読み込ませ、実行することによって本発明の公開情報のプライバシー保護装置を実現することができる。ここでいうコンピュータシステムとは、ＯＳや周辺装置等のハードウェアを含む。

また、「コンピュータシステム」は、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）システムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１；分類部
２；設定部
３；算出部
４；前処理部
５；第１のデータ加工部
６；第２のデータ加工部

Claims

データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置であって、
公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する設定手段と、
該設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する算出手段と、
それぞれの属性において、属性単体でｋ−匿名性を満たすようにデータの一般化を行う処理手段と、
該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第１のデータ加工方法により、データの加工を行う第１のデータ加工手段と、
該第１のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第２のデータ加工方法により、データの加工を行う第２のデータ加工手段と、
を備え、
前記第１のデータ加工手段による処理と前記第２のデータ加工手段による処理とを繰り返して、最適なデータセットを出力することを特徴とする公開情報のプライバシー保護装置。
前記第１のデータ加工手段が、各属性に対して、一般化を行った場合に取り得る属性の種類数と前記利用者が入力した優先順位情報とに基づいて、一般化による評価ポイントの増加分を概算することを特徴とする請求項１に記載の公開情報のプライバシー保護装置。
前記第１のデータ加工手段が、前記評価ポイントの増加分の概算結果が大きい順番に一般化を行うことを特徴とする請求項２に記載の公開情報のプライバシー保護装置。
前記第１のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、ｋ−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、ｋ−匿名性を満たさなくなった場合に、ｋ−匿名性を満たさなくなったデータの中から最も評価ポイントが高いものを前記第２の加工手段に出力することを特徴とする請求項２または３に記載の公開情報のプライバシー保護装置。
前記第２のデータ加工手段が、属性およびすべての属性が一致するデータからなるグループに対して一般化を行い、ｋ−匿名性を満たすデータについて、各属性の属性値の数を算出して、評価ポイントを導出し、最も評価ポイントの高いものについて、処理を繰り返し、ｋ−匿名性を満たさなくなった場合に、ｋ−匿名性を満たさなくなったデータの評価ポイントを比較し、前記第１のデータ加工手段において、最も評価ポイントが高いものを含めて、最大の評価ポイントであるデータを前記第１の加工手段に出力することを特徴とする請求項４に記載の公開情報のプライバシー保護装置。
前記属性の値が数値データでない場合に、木構造のデータとして扱うことを特徴とする請求項１に記載の公開情報のプライバシー保護装置。
前記第１のデータ加工方法が、ボトムアップ処理を用いたデータの加工方法であることを特徴とする請求項１に記載の公開情報のプライバシー保護装置。
前記第２のデータ加工方法が、トップダウン処理を用いたデータの加工方法であることを特徴とする請求項１に記載の公開情報のプライバシー保護装置。
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法であって、
公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する第１のステップと、
該設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する第２のステップと、
それぞれの属性において、属性単体でｋ−匿名性を満たすようにデータの一般化を行う第３のステップと、
該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第１のデータ加工方法により、データの加工を行う第４のステップと、
該第１のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第２のデータ加工方法により、データの加工を行う第５のステップと、
前記第４のステップと前記第５のステップとを繰り返して、最適なデータセットを出力する第６のステップと、
を備えることを特徴とする公開情報のプライバシー保護方法。
データを加工して、公開する情報に対するプライバシーを保護するための公開情報のプライバシー保護装置における公開情報のプライバシー保護方法をコンピュータに実行させるためのプログラムであって、
公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する第１のステップと、
該設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する第２のステップと、
それぞれの属性において、属性単体でｋ−匿名性を満たすようにデータの一般化を行う第３のステップと、
該一般化されたデータについて、前記算出した評価ポイントの増加分が最大となるような第１のデータ加工方法により、データの加工を行う第４のステップと、
該第１のデータ加工手段において加工されたデータについて、前記算出した評価ポイントの減少分が最小となるような第２のデータ加工方法により、データの加工を行う第５のステップと、
前記第４のステップと前記第５のステップとを繰り返して、最適なデータセットを出力する第６のステップと、
をコンピュータに実行させるためのプログラム。