JP2016045535A - 情報処理システム、匿名化方法、及びそのためのプログラム - Google Patents

情報処理システム、匿名化方法、及びそのためのプログラム Download PDF

Info

Publication number
JP2016045535A
JP2016045535A JP2014167037A JP2014167037A JP2016045535A JP 2016045535 A JP2016045535 A JP 2016045535A JP 2014167037 A JP2014167037 A JP 2014167037A JP 2014167037 A JP2014167037 A JP 2014167037A JP 2016045535 A JP2016045535 A JP 2016045535A
Authority
JP
Japan
Prior art keywords
attribute
value
data set
estimated
anonymity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014167037A
Other languages
English (en)
Inventor
由起 豊田
Yuki Toyoda
由起 豊田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014167037A priority Critical patent/JP2016045535A/ja
Publication of JP2016045535A publication Critical patent/JP2016045535A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 準識別子に関するk−匿名性が保証されているにもかかわらず、属性間の関係により実質的なk−匿名性が保たれていないデータセットを検出する。
【解決手段】 被検証匿名化データセットについて、第1乃至3の属性間の依存関係と、その第2の属性の属性値が加工された抽象化属性値およびその第3の属性の属性値とに基づいて、その第1の属性の推定属性値を導出する手段と、その被検証匿名化データセットに含まれる等価クラス毎の推定属性値の集合が、所定の匿名性を満たすか否かを検証する手段と、を含む。
【選択図】 図1

Description

本発明は、パーソナルデータを匿名化する匿名化装置、匿名化処理方法及びプログラムに関する。
診療情報の電子化が進み、各医療機関や健康保険組合等においては診療情報が蓄積されつつある。これらの診療情報を広く活用することは、疫学研究の発展、医療技術及び新薬開発に繋がると考えられている。そこで、その蓄積された診療情報のプライバシーを確保した上で、その診療情報を研究機関等において利用できることが期待されている。
情報の利用においてプライバシーを確保するための手法の一つに匿名化がある。この匿名化とは、例えば上述の診療情報のように、他人には知られたくない情報を含むパーソナルデータに対して、個人が一意に識別されることを防ぐための、加工を施す技術である。以後、上述のような処理対象のデータの一塊をデータセットと呼ぶ。また、そのデータセットを構成する、個人ごとに対応するデータの塊をレコードと呼ぶ。また、そのレコードを構成する、個人の年齢、その個人が罹患した疾病名などの最小単位の情報を、属性と呼ぶ。このようなパーソナルデータの匿名化については、さまざまな関連技術が知られている。
非特許文献1は、匿名化の代表的な技術の一つであるk−匿名化を示す。このk−匿名化は、データセット(パーソナルデータ)に含まれる個人ごとのレコードのそれぞれを、個人の識別確率が1/k以下(k−匿名化のk)となるように加工し、ある一定の匿名性を保証する技術である。k−匿名化における加工は、例えば、それらのレコード間で、特定の属性の値が同じになるように、その値を曖昧に(汎化や、一般化、抽象化などとも呼ばれる)するなどの加工である。
特許文献1は、プライバシー保護装置を開示する。そのプライバシー保護装置は、属性名(属性の種類)ごとに設定された、データ利用者にとっての重要度を示す優先順位に基づいて、属性値(準識別子)を一般化(抽象化)する。即ち、このプライバシー保護装置は、優先順位の低い属性の属性値から先に一般化することで、優先順位の高い属性ほど元の情報が保持されるように抽象化する。
特許文献2は、データ匿名化装置を開示する。そのデータ匿名化装置は、データセットを構成する全ての個人データレコードを辺で結んだ完全グラフを生成し、この完全グラフをクラスタに分割し、分割したクラスタ単位で属性を汎化する。こうして、そのデータ匿名化装置は、トップダウンアプローチによるk−匿名化を実現する。
特開2011−128862号公報 特開2012−022315号公報
L. Sweeney, "Achieving k-anonymity privacy protection using generalization and suppression", International Journal on Uncertainty, Fuzziness and Knowledge based Systems, 10(5), pp.571-588, 2002.
パーソナルデータの匿名化においては、個人が一意に識別されることを防止するために、所望の匿名性を満足しなければならないという課題がある。しかしながら、上述した先行技術文献に記載された技術においては、準識別子に関するk−匿名性が保証されているにもかかわらず、属性間の関係により実質的なk−匿名性が保たれていないデータセットを検出できない場合があるという問題点がある。
その理由は、上述した先行技術文献のいずれにおいても、パーソナルデータに含まれる複数の属性間に存在する、依存関係を考慮していないからである。その依存関係は、ある属性の属性値が、他の複数の属性の属性値から導出できるような関係である。
上述の問題点を、具体的に説明する。
まず、第1の前提として、属性の種類を、以下のように分類する。
ID(Identifier、識別子)は、個人を識別する属性である。例えば、IDは、氏名である。
QI(Quasi−Identifier、準識別子)は、組み合わせることにより個人を識別する可能性がある属性である。例えば、QIは、生年月日や住所などである。
SA(Sensitive Attribute、センシティブ情報)は、他人には知られたくない情報である。例えば、SAは、病名である。
一般情報は、ID、QI、SAのいずれにも該当しない情報である。例えば、医療機関を受診した年である。
第2の前提として、パーソナルデータに含まれる属性間において、複数の属性の属性値を組み合わせて他の属性の属性値を求めることができる依存関係が存在する、ものとする。以下、属性Bの属性値と属性Cの属性値とを用いて、属性Aの属性値を求めることができる場合、その依存関係をA=f(B、C)と記載する。例えば、「属性Aの属性値=f(属性Bの属性値、属性Cの属性値)」の1つの例は、「属性Aの属性値=属性Bの属性値−属性Cの属性値」である。例えば、それは、「患者の受診年年齢=受診年−患者生年」である。
上記の前提において、QIである属性A及びB、一般情報である属性C及びSAである属性Dを含むパーソナルデータが匿名化される。そして、その匿名化されたパーソナルデータは、属性Cに関して分析される。
この場合、一般的にその匿名化は、属性A、属性Bについて、k−匿名性を満足するように、属性A及び属性Bを抽象化する匿名化である。こうした場合、属性Cと抽象化済みの属性B(以後B’と表記する)とから導出される属性Aの推定属性値の集合が、そのk−匿名性を満たさない場合がある。これが、上述した先行技術文献に記載された技術における、準識別子に関するk−匿名性が保証されているにもかかわらず、属性間の関係により実質的なk−匿名性が保たれていないデータセットを検出できない場合があるという問題点である。
本発明の目的は、上述した問題点を解決できる情報処理システム、匿名化方法、及びそのためのプログラムを提供することにある。
本発明の一様態における情報処理システムは、複数の属性を含む被検証匿名化データセットについて、第1の前記属性の、第2の前記属性及び第3の前記属性に対する、依存関係と、前記第2の属性の属性値が加工された抽象化属性値と、前記第3の属性の属性値と、に基づいて、前記第1の属性の推定属性値を導出する推定手段と、前記被検証匿名化データセットに含まれる、k−匿名性を満足する等価クラスのそれぞれにおいて、前記等価クラスに対応する前記推定属性値の集合が所定の匿名性を満たすか否かを検証し、前記検証した結果を示す検証結果情報を出力する検証手段と、を含む。
本発明の一様態における匿名化方法は、コンピュータが、複数の属性を含む被検証匿名化データセットについて、第1の前記属性の、第2の前記属性及び第3の前記属性に対する、依存関係と、前記第2の属性の属性値が加工された抽象化属性値と、前記第3の属性の属性値と、に基づいて、前記第1の属性の推定属性値を導出し、前記被検証匿名化データセットに含まれる、k−匿名性を満足する等価クラスのそれぞれにおいて、前記等価クラスに対応する前記推定属性値の集合が所定の匿名性を満たすか否かを検証し、前記検証した結果を示す検証結果情報を出力する。
本発明の一様態におけるプログラムは、複数の属性を含む被検証匿名化データセットについて、第1の前記属性の、第2の前記属性及び第3の前記属性に対する、依存関係と、前記第2の属性の属性値が加工された抽象化属性値と、前記第3の属性の属性値と、に基づいて、前記第1の属性の推定属性値を導出し、前記被検証匿名化データセットに含まれる、k−匿名性を満足する等価クラスのそれぞれにおいて、前記等価クラスに対応する前記推定属性値の集合が所定の匿名性を満たすか否かを検証し、前記検証した結果を示す検証結果情報を出力する処理をコンピュータに実行させる。
本発明は、準識別子に関するk−匿名性が保証されているデータセットであっても、属性間の関係により実質的なk−匿名性が保たれていないデータセットを検出することが可能になるという効果がある。
図1は、本発明の第1の実施形態に係る匿名性検証システムの構成を示すブロック図である。 図2は、第1の実施形態におけるパーソナルデータセットの一例を示す図である。 図3は、第1の実施形態における被検証匿名化データセットの一例を示す図である。 図4は、第1の実施形態における依存関係テーブルの一例を示す図である。 図5は、第1の実施形態における推定値付加データセットの一例を示す図である。 図6は、第1の実施形態における検証結果情報の一例を示す図である。 図7は、第1の実施形態に係る匿名性検証システムを実現するコンピュータのハードウエア構成を示すブロック図である。 図8は、第1の実施形態における匿名性検証システムの動作を示すフローチャートである。 図9は、第1の実施形態の変形例における匿名化システムの構成を示すブロック図である。 図10は、本発明の第2の実施形態に係る匿名性検証システムの構成を示すブロック図である。 図11は、第2の実施形態における変更推定値データセットの一例を示す図である。 図12は、第2の実施形態における分析対象属性変更情報の一例を示す図である。 図13は、第2の実施形態における分析対象属性変更データセットの一例を示す図である。 図14は、第2の実施形態における匿名性検証システムの動作を示すフローチャートである。 図15は、本発明の第3の実施形態に係る匿名性検証システムの構成を示すブロック図である。
本発明を実施するための形態について図面を参照して詳細に説明する。尚、各図面及び明細書記載の各実施形態において、同様の構成要素には同様の符号を付与し、適宜説明を省略する。
<<<第1の実施形態>>>
図1は、本発明の第1の実施形態に係る匿名性検証システム(情報処理システムとも呼ばれる)100の構成を示すブロック図である。
図1に示すように、本実施形態に係る匿名性検証システム100は、推定部110と、検証部120とを含む。尚、図1に示す各構成要素は、ハードウエア単位の回路でも、コンピュータ装置の機能単位に分割された構成要素でもよい。ここでは、図1に示す構成要素は、コンピュータ装置の機能単位に分割された構成要素として説明する。
===推定部110===
推定部110は、第1の属性の第2の属性及び第3の属性に対する依存関係と、その第2の属性の属性値が加工された抽象化属性値と、その第3の属性の属性値と、に基づいて、その第1の属性の推定属性値を導出する。その第1の属性、その第2の属性及びその第3の属性は、被検証匿名化データセット820含まれる属性である。
例えば、その第1の属性及びその第2の属性は、被検証匿名化データセット820において、準識別子である。その第3の属性は、被検証匿名化データセット820において、準識別子以外の属性である。
その依存関係は、その第1の属性の属性値が、その第2の属性の属性値とその第3の属性の属性値とに基づいて、導出され得る関係である。
===検証部120===
検証部120は、等価クラスのそれぞれにおいて、その等価クラスに対応するその第1の属性の推定属性値の集合が所定の匿名性を満たすか否かを検証し、その検証した結果を示す検証結果情報840を出力する。その等価クラスは、被検証匿名化データセット820に含まれる、k−匿名性を満足する等価クラスである。
例えば、その所定の匿名性は、被検証匿名化データセット820における、k−匿名性を満足する等価クラスのそれぞれに含まれる、その第1の属性の属性値のそれぞれが、その等価クラスに対応するk個以上のその推定属性値に含まれることである。
換言すると、その所定の匿名性は、その第1の属性の推定属性値を属性値とする属性を、準識別子の1つと考えた場合に、その等価クラスがk−匿名性を満足することである。
ここで、等価クラス(Equivalent Class)は、例えば被検証匿名化データセット820において、全ての準識別子に対して同一の値の組を持つそのレコードの集合を示す。ある等価クラスのレコード数(またはユニークなユーザ識別子の種類数)がk以上である場合、その等価クラスに含まれるレコード集合は、k−匿名性を充足していると判断される。
===パーソナルデータセット810===
図2は、本実施形態におけるパーソナルデータセット810の一例を示す図である。パーソナルデータセット810は、匿名性検証システム100の処理対象である被検証匿名化データセット820に対応する、元のオリジナルデータである。
図2に示すように、パーソナルデータセット810は、レコード811を含む。レコード811は、例えば、レコードIDの値、個人IDの属性値、生年の属性値、受診年の属性値、受診年年齢の属性値及び病名の属性値を含む。以後、生年の属性値を「生年値」、受診年の属性値を「受診年値」及び受診年年齢の属性値を「受診年年齢値」とも呼ぶ。
そのレコードIDは、レコード811のそれぞれを識別する識別子を値とする。
その個人IDは、ID属性であり、特定の個人を識別する識別子を属性値とする。
その生年は、QI属性であり、その個人の生年を属性値とする。本実施形態において、その生年は、第2の属性に相当する。
その受診年は、一般属性であり、その個人が医療機関で受診した、年を属性値とする。本実施形態において、その受診年は、第3の属性に相当する。
その受診年年齢は、QI属性であり、その受診年で示される年に対応する、その個人の年齢を属性値とする。その受診年で示される年に対応するその個人の年齢は、例えば、その受診年の所定の月日(例えば、4月1日)における、その個人の年齢である。本実施形態において、その受診年年齢は、第1の属性に相当する。
その病名は、SA属性であり、その個人の病気を示す識別子(病名や病名コードなど)を属性値とする。例えば、その病名は、その受診によってその個人が罹患していることが判明した病気を示す。例えば、その病名は、その個人がその受診年以前に罹患した病気を示してもよい。
パーソナルデータセット810は、図2に示す例に係わらず、任意の数のレコード811を含んでよい。パーソナルデータセット810は、任意の属性を含んでよい。例えば、パーソナルデータセット810は、生年、受診年及び受診年年齢のそれぞれに替えて、生年月、受診年月及び受診年月年齢を含んでもよい。
例えば、パーソナルデータセット810は、レコードIDを含まなくてもよい。この場合、レコード811は、パーソナルデータセット810中の並び順で管理されてよい。また、パーソナルデータセット810は、個人IDや病名を含まなくてもよい。
===被検証匿名化データセット820===
図3は、本実施形態における被検証匿名化データセット820の一例を示す図である。図3は、図2に示すパーソナルデータセット810が、k=3のk−匿名性を満足するように匿名化された場合の、被検証匿名化データセット820を示す。具体的には、レコードIDが「r1」、「r2」及び「r3」のレコード821の組が、抽象化生年及び抽象化受診年年齢について、k=3のk−匿名性を満足する等価クラス(以下、第1の等価クラスと呼ぶ)を成す。同じく、レコードIDが「r4」、「r5」及び「r6」のレコード821の組が、同様の等価クラス(以下、第2の等価クラスと呼ぶ)を成す。
図3に示すように、被検証匿名化データセット820は、レコード821を含む。レコード821は、レコードIDの値、オリジナル受診年年齢の属性値、抽象化生年の属性値、受診年の属性値及び抽象化受診年年齢の属性値を含む。以後、オリジナル受診年年齢の属性値を「オリジナル受診年年齢値」、抽象化生年の属性値を「抽象化生年値」及び抽象化受診年年齢の属性値を「抽象化受診年年齢値」とも呼ぶ。
そのレコードIDは、レコード821のそれぞれを識別する識別子である。レコード821のレコードIDと、図2に示すレコード811のレコードIDとは、互いに同じ値を持つ場合に、それらが識別するレコード821とレコード811とが対応することを示す。
オリジナル受診年年齢は、パーソナルデータセット810の受診年年齢のコピーである。
抽象化生年は、レコード821に対応する、パーソナルデータセット810のレコード811に含まれる生年が加工(抽象化)された値を属性値(第2の属性の抽象化属性値)とする。
受診年は、パーソナルデータセット810の受診年のコピーである。
抽象化受診年年齢は、レコード821に対応する、パーソナルデータセット810のレコード811に含まれる生年が加工(抽象化)された値を属性値(第1の属性の抽象化属性値)とする。
被検証匿名化データセット820は、図3に示す例に係わらず、任意の数のレコード821を含んでよい。被検証匿名化データセット820は、任意の属性を含んでよい。例えば、被検証匿名化データセット820は、パーソナルデータセット810に含まれる、個人ID及び病名を含んでもよい。
また、被検証匿名化データセット820は、パーソナルデータセット810の場合と同様に、レコードIDを含まなくてもよい。
===依存関係テーブル800===
図4は、本実施形態における依存関係テーブル800の一例を示す図である。図4に示すように、依存関係テーブル800は、前述の依存関係を示すレコード801を含む。
図4に示すレコード801は、受診年年齢値(第1の属性の属性値)が、受診年値(第3の属性の属性値)から生年値(第2の属性の属性値)を減算することで算出(導出)されることを示す。即ち、レコード801は、第1の属性の、第2の属性及び第3の属性に対する、その依存関係を示す。
依存関係テーブル800は、図4の例に係わらず、任意の数のレコード801を含んでよい。レコード801が複数の場合、推定部110は、レコード801のそれぞれに対応する推定属性値を導出する。
===推定値付加データセット830===
図5は、本実施形態における推定値付加データセット830の一例を示す図である。図5は、図3に示す被検証匿名化データセット820に対応する、推定部110が生成する推定属性値を含む、推定値付加データセット830を示す。
図5に示すように、推定値付加データセット830は、レコード831を含む。レコード831は、レコードIDの値、オリジナル受診年年齢の属性値、抽象化生年の属性値、受診年の属性値、抽象化受診年年齢の属性値、及び推定受診年年齢の属性値を含む。その推定受診年年齢の属性値が、その推定属性値である。以後、推定受診年年齢の属性値を「推定受診年年齢値」とも呼ぶ。
そのレコードIDは、レコード831のそれぞれを識別する識別子である。レコード831のレコードIDと、図3に示すレコード821のレコードIDとは、互いに同じ値を持つ場合に、それらが識別するレコード831とレコード821とが対応することを示す。
推定値付加データセット830のオリジナル受診年年齢、抽象化生年、受診年及び抽象化受診年年齢は、被検証匿名化データセット820のオリジナル受診年年齢、抽象化生年、受診年及び抽象化受診年年齢のコピーである。
推定受診年年齢は、受診年年齢(第1の属性)の属性値のそれぞれに対応する推定属性値を属性値(推定受診年年齢値)とする。その推定受診年年齢値は、図4に示す依存関係と、図3に示す抽象化生年値(第2の属性の抽象化属性値)及び受診年値(第3の属性)とに基づいて、推定部110によって導出される。
例えば、推定部110は、レコードIDが「r1」のレコード831について、推定受診年年齢値「62〜63歳」を、以下のように算出(導出)する。2013(受診年値)−1950(抽象化生年値の最小値)=63(推定受診年年齢値の最大値)、2013(受診年値)−1951(抽象化生年値の最大値)=62(推定受診年年齢値の最小値)。
===検証結果情報840===
図6は、本実施形態における検証結果情報840の一例を示す図である。図6に示す検証結果情報840は、受診年年齢に関し、レコードIDが「r2」の推定受診年年齢値が、受診年年齢値(第1の属性の属性値)の「63」を、及びレコードIDが「r4」の推定受診年年齢値が、受診年年齢値の「59」を含んでいないことを示す。
換言すると、第1に、検証結果情報840は、第1の等価クラス及び第2の等価クラスのそれぞれに対応するその推定属性値の集合が、k=3のk−匿名性(前述の所定の匿名性)を満たさないことを示す。第2に、検証結果情報840は、そのk−匿名性が満たされない理由が、第1の等価クラスにおいては、レコードIDが「r2」の推定受診年年齢値が受診年年齢値の「63」を含んでいないことであることを示す。同様に、検証結果情報840は、そのk−匿名性が満たされない理由が、第2の等価クラスにおいては、レコードIDが「r4」の推定受診年年齢値が受診年年齢値の「59」を含んでいないことであることを示す。
検証部120は、図6に示す検証結果情報840を、例えば、以下のようにして生成する。
第1に、検証部120は、検証対象の属性(第1の属性)の属性名(ここでは、受診年年齢)を含む、検証結果情報840を生成する。
第2に、検証部120は、推定値付加データセット830の1つのレコード831からオリジナル受診年年齢値を一つ読み込む。
第3に、検証部120は、そのレコード831を含む等価クラスについて、推定受診年年齢値の内、そのオリジナル受診年年齢値を含む推定受診年年齢値を計数する。
第4に、検証部120は、そのオリジナル受診年年齢値を含むその推定受診年年齢の数がk個未満である場合、そのオリジナル受診年年齢値を含まない推定受診年年齢を含むレコードIDと、そのオリジナル受診年年齢値とを検証結果情報840に追加する。
検証部120は、第2乃至4の処理を、全てのレコード831について実行する。
以上が、匿名性検証システム100の機能単位の各構成要素についての説明である。
次に、匿名性検証システム100のハードウエア単位の構成要素について説明する。
図7は、本実施形態における匿名性検証システム100を実現するコンピュータ700のハードウエア構成を示す図である。
図7に示すように、コンピュータ700は、CPU(Central Processing Unit)701、記憶部702、記憶装置703、入力部704、出力部705及び通信部706を含む。更に、コンピュータ700は、外部から供給される記録媒体(または記憶媒体)707を含む。例えば、記録媒体707は、情報を非一時的に記憶する不揮発性記録媒体(非一時的記録媒体)である。また、記録媒体707は、情報を信号として保持する、一時的記録媒体であってもよい。
CPU701は、オペレーティングシステム(不図示)を動作させて、コンピュータ700の全体の動作を制御する。例えば、CPU701は、記憶装置703に装着された記録媒体707から、そのプログラムやデータを読み込み、読み込んだそのプログラムやそのデータを記憶部702に書き込む。ここで、そのプログラムは、例えば、後述の図8に示すフローチャートの動作をコンピュータ700に実行させるためのプログラムである。
そして、CPU701は、その読み込んだプログラムに従って、またその読み込んだデータに基づいて、図1に示す推定部110及び検証部120として各種の処理を実行する。
尚、CPU701は、通信網(不図示)に接続される外部コンピュータ(不図示)から、記憶部702にそのプログラムやそのデータをダウンロードしてもよい。
記憶部702は、そのプログラムやそのデータを記憶する。記憶部702は、依存関係テーブル800、被検証匿名化データセット820及び推定値付加データセット830を記憶してよい。記憶部702は、推定部110及び検証部120の一部として含まれてよい。
記憶装置703は、例えば、光ディスクや、フレキシブルディスク、磁気光ディスク、外付けハードディスク半導体メモリなどであって、記録媒体707を含む。記憶装置703(記録媒体707)は、そのプログラムをコンピュータ読み取り可能に記憶する。また、記憶装置703は、そのデータを記憶してもよい。記憶装置703は、依存関係テーブル800、被検証匿名化データセット820及び推定値付加データセット830を記憶してよい。記憶装置703は、推定部110及び検証部120の一部として含まれてよい。
入力部704は、オペレータによる操作の入力や外部からの情報の入力を受け付ける。入力操作に用いられるデバイスは、例えば、マウスや、キーボード、内蔵のキーボタン及びタッチパネルなどである。入力部704は、推定部110及び検証部120の一部として含まれてよい。
出力部705は、例えばディスプレイで実現される。出力部705は、例えばGUI(Graphical User Interface)によるオペレータへの入力要求や、オペレータに対する出力提示などのために用いられる。出力部705は、推定部110及び検証部120の一部として含まれてよい。
通信部706は、図示しない外部装置及び外部システムとのインタフェースを実現する。通信部706は、推定部110及び検証部120の一部として含まれてよい。
以上説明したように、図1に示す匿名性検証システム100の機能単位のブロックは、図7に示すハードウエア構成のコンピュータ700によって実現される。但し、コンピュータ700が備える各部の実現手段は、上記に限定されない。すなわち、コンピュータ700は、物理的に結合した1つの装置により実現されてもよいし、物理的に分離した2つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。
尚、上述のプログラムのコードを記録した記録媒体707が、コンピュータ700に供給される場合、CPU701は、記録媒体707に格納されたそのプログラムのコードを読み出して実行してもよい。或いは、CPU701は、記録媒体707に格納されたそのプログラムのコードを、記憶部702、記憶装置703またはその両方に格納してもよい。すなわち、本実施形態は、コンピュータ700(CPU701)が実行するそのプログラム(ソフトウエア)を、一時的にまたは非一時的に、記憶する記録媒体707の実施形態を含む。尚、情報を非一時的に記憶する記憶媒体は、不揮発性記憶媒体とも呼ばれる。
以上が、本実施形態における匿名性検証システム100を実現するコンピュータ700の、ハードウエア単位の各構成要素についての説明である。
次に本実施形態の動作について、図面を参照して詳細に説明する。
図8は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したCPU701によるプログラム制御に基づいて、実行されてよい。また、処理のステップ名については、S601のように、記号で記載する。
例えば、匿名性検証システム100は、図7に示す入力部704を介して操作者から処理開始の指示を受けたことを契機に、図8に示すフローチャートの動作を開始する。匿名性検証システム100は、図7に示す通信部706を介して、外部から処理開始の要求を受信したことを契機に、図8に示すフローチャートの動作を開始してもよい。
推定部110は、被検証匿名化データセット820を取得する(ステップS601)。
例えば、被検証匿名化データセット820は、図7に示す記憶部702或いは記憶装置703に、予め記憶されていてよい。また、推定部110は、図7に示す入力部704を介して操作者が入力した、被検証匿名化データセット820を取得してもよい。尚、この操作者による被検証匿名化データセット820の入力が、操作者からの処理開始の指示であってもよい。また、推定部110は、図7に示す通信部706を介して図示しない機器から、被検証匿名化データセット820を受信してもよい。尚、この被検証匿名化データセット820の受信が、外部からの処理開始の要求の指示であってもよい。また、推定部110は、図7に示す記憶装置703を介して、記録媒体707に記録された被検証匿名化データセット820を取得してもよい。
次に、推定部110は、依存関係テーブル800と被検証匿名化データセット820とに基づいて、推定属性値(本実施形態では、推定受診年年齢値)を導出し、その推定属性値を含む推定値付加データセット830を生成する(ステップS602)。
次に、検証部120は、推定値付加データセット830に基づいて、その推定属性値が前述の所定の匿名性を満たすか否かを検証する(ステップS603)。
次に、検証部120は、その検証した結果を示す検証結果情報840を出力する(ステップS604)。例えば、検証部120は、検証結果情報840を図7に示す出力部705を介して出力する。また、検証部120は、図7に示す通信部706を介して、図示しない機器に検証結果情報840を送信してもよい。また、検証部120は、図7に示す記憶装置703を介して、記録媒体707に検証結果情報840を記録してもよい。
以上が、本実施形態の匿名性検証システム100の動作の説明である。
上述した本実施形態における第1の効果は、準識別子に関するk−匿名性が保証されているデータセットであっても、属性間の関係により実質的なk−匿名性が保たれていないデータセットを検出することを可能にする点である。
その理由は、以下のような構成を含むからである。即ち、第1に推定部110が前述の依存関係と、加工されたその第2の属性の抽象化属性値と、その第3の属性の属性値と、に基づいて、その第1の属性の推定属性値を導出する。第2に、検証部120が、その推定属性値の集合が前述のk−匿名性を満たすか否かを検証し、その検証した結果を示す検証結果情報840を出力する。
<<<第1の実施形態の変形例>>>
図9は、第1の実施形態の変形例である匿名化システム101を示す図である。図に示すように、匿名化システム101は、図1に示す匿名性検証システム100と、匿名化装置102と、パーソナルデータセット記憶装置103と、匿名化済データセット記憶装置104と、を含む。匿名性検証システム100と、匿名化装置102と、パーソナルデータセット記憶装置103と、匿名化済データセット記憶装置104とは、ネットワーク109を介して接続されている。尚、匿名性検証システム100、匿名化装置102、パーソナルデータセット記憶装置103及び匿名化済データセット記憶装置104の任意の組み合わせは、1台の図7に示すようなコンピュータ700であってよい。また、匿名性検証システム100、匿名化装置102、パーソナルデータセット記憶装置103及び匿名化済データセット記憶装置104の任意のいずれかどうしは、ネットワークを介することなく直接接続されてもよい。即ち、匿名性検証システム100と、匿名化装置102と、パーソナルデータセット記憶装置103と、匿名化済データセット記憶装置104とは、任意に、ネットワーク109を介して接続されてよい。
===匿名化装置102==
匿名化装置102は、パーソナルデータセット記憶装置103からパーソナルデータセット810を取得する。次に、匿名化装置102は、そのパーソナルデータセット810を匿名化した匿名化済データセットを生成する。次に、匿名化装置102は、その匿名化済データセットを匿名化済データセット記憶装置104へ出力する。
匿名化装置102は、その匿名化済データセットの生成において、第1に、パーソナルデータセット810に基づいて、被検証匿名化データセット820を生成する。第2に、匿名化装置102は、被検証匿名化データセット820を匿名性検証システム100へ送信し、前述の所定の匿名性を満足するか否かの検証を要求する。第3に、匿名化装置102は、匿名性検証システム100から、その検証結果を受信する。第4に、匿名化装置102は、その検証結果に基づいて、匿名化済みのデータセットを生成する。
===パーソナルデータセット記憶装置103===
パーソナルデータセット記憶装置103は、パーソナルデータセット810を記憶する。
===匿名化済データセット記憶装置104===
匿名化済データセット記憶装置104は、匿名化済みのデータセットを記憶する。
本変形例において、匿名性検証システム100は、匿名化装置102から被検証匿名化データセット820を取得し、被検証匿名化データセット820がその所定の匿名性を満足するか否かを検証し、その検証結果を匿名化装置102へ送信する。
上述した本実施形態における変形例の効果は、匿名化システム101の構築を柔軟に実現することが可能になる点である。
その理由は、匿名性検証システム100と、匿名化装置102と、パーソナルデータセット記憶装置103と、匿名化済データセット記憶装置104とを、任意に、ネットワーク109を介して接続するからである。
<<<第2の実施形態>>>
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
図10は、本発明の第2の実施形態に係る匿名性検証システム200の構成を示すブロック図である。
図10に示すように、本実施形態における匿名性検証システム200は、図1に示す匿名性検証システム100と比べて、変更部230を更に含む点が異なる。
===変更部230===
第1に、変更部230は、検証結果情報840に基づいて、各等価クラスに対応する推定受診年年齢値(第1の属性の推定属性値)の集合が前述の所定の匿名性を満たすように、その推定受診年年齢値を加工した、加工推定受診年年齢値を導出する。第2に、変更部230は、その加工推定受診年年齢値と前述の依存関係とに基づいて、受診年(第3の属性)の属性値を加工し、その受診年の加工の内容を示す分析対象属性変更情報860を出力する。
===変更推定値データセット850===
図11は、本実施形態における加工推定受診年年齢値を含む変更推定値データセット850の一例を示す図である。
図11に示す変更推定値データセット850は、図5に示す推定値付加データセット830の推定受診年齢が加工された加工推定受診年齢を含む。即ち、加工推定受診年齢は、推定受診年齢の推定受診年年齢値が加工された、加工推定受診年年齢値を属性値として含む。
図11に示すように、レコードIDが「r2」のレコード831の推定受診年年齢値の「61〜62歳」が、レコードIDが「r2」のレコード851の加工推定受診年年齢値の「61〜63歳」に加工されている。また、レコードIDが「r4」のレコード831の推定受診年年齢値の「60〜64歳」が、レコードIDが「r4」のレコード851の加工推定受診年年齢値の「59〜64歳」に加工されている。
図11に示す加工推定受診年年齢値は、変更部230が図6に示す検証結果情報840に基づいて、推定値付加データセット830の推定受診年年齢値を加工したものである。
具体的には、変更部230は、レコードIDが「r2」の推定受診年年齢値が、受診年年齢値の「63」を含んでいないことを示す情報に基づいて、その推定受診年年齢値を加工し、「63」を含む加工推定受診年年齢値を導出する。また、変更部230は、レコードIDが「r4」の推定受診年年齢値が、受診年年齢値の「59」を含んでいないことを示す情報に基づいて、その推定受診年年齢値を加工し、「59」を含む加工推定受診年年齢値を導出する。
===分析対象属性変更情報860===
図12は、本実施形態における、その変更情報である、分析対象属性変更情報860の一例を示す図である。図12に示す分析対象属性変更情報860は、受診年(第3の属性)に関し、レコードIDが「r2」の受診年の属性値を「2011〜2014年」に、及びレコードIDが「r4」の受診年の属性値を「2007〜2016年」に変更することを示す。
変更部230は、図12に示す分析対象属性変更情報860を例えば、以下のようにして生成する。
第1に、変更部230は、変更対象の属性の属性名(ここでは、受診年)を含む、分析対象属性変更情報860を生成する。
第2に、変更部230は、変更推定値データセット850の1つのレコード851から、加工された加工推定受診年年齢値を取得する。
第3に、変更部230は、その加工推定受診年年齢値を含むレコード851の抽象化生年値を取得する。
第4に、変更部230は、その加工推定受診年年齢値とその抽象化生年値と依存関係テーブル800とに基づいて、加工受診年の属性値(以後、加工受診年値とも呼ぶ)を算出する。
具体的には、変更部230は、以下のようにして、その加工受診年値を算出する。
変更部230は、レコードIDが「r2」のレコード851において、加工受診年値の最大値=加工推定受診年年齢値の最大値(63)+抽象化生年値の最大値(1951)=2014を算出する。更に、変更部230は、加工受診年値の最小値=加工推定受診年年齢値の最小値(61)+抽象化生年値の最小値(1950)=2011を算出する。
また、変更部230は、レコードIDが「r4」のレコード851において、加工受診年値の最大値=加工推定受診年年齢値の最大値(64)+抽象化生年値の最大値(1952)=2016を算出する。更に、変更部230は、加工受診年値の最小値=加工推定受診年年齢値の最小値(59)+抽象化生年値の最小値(1948)=2007を算出する。
第5に、変更部230は、そのレコード851のレコードIDとその加工受診年値とを分析対象属性変更情報860に追加する。
変更部230は、第2乃至5の処理を、全ての加工された加工推定受診年年齢値を含むレコード851について実行する。
===分析対象属性変更データセット870===
図13は、本実施形態における分析対象属性変更データセット870の一例を示す図である。図13に示す分析対象属性変更データセット870は、図11に示す変更推定値データセット850の受診年に替えて、その受診年の属性値が加工された加工受診年値を属性値とする、加工受診年を含む。分析対象属性変更データセット870のオリジナル受診年年齢、抽象化生年及び抽象化受診年年齢は、変更推定値データセット850のオリジナル受診年年齢、抽象化生年及び抽象化受診年年齢のコピーである。
図13に示すように、レコードIDが「r2」のレコード851の受診年値の「2012年」が、レコードIDが「r2」のレコード871の加工受診年値の「2011〜2014年」に加工されている。また、レコードIDが「r4」のレコード851の受診年値の「2012年」が、レコードIDが「r4」のレコード871の加工受診年値の「2007〜2016年」に加工されている。
変更部230は、図12に示す分析対象属性変更情報860に替えて、図13に示す分析対象属性変更データセット870を変更情報として生成してもよい。
以上が、匿名性検証システム200の機能単位の各構成要素についての説明である。
匿名性検証システム200は、匿名性検証システム100と同様に、図7に示すコンピュータ700によって実現されてよい。
この場合、CPU701は、その読み込んだプログラムに従って、またその読み込んだデータに基づいて、更に、図10に示す変更部230としても、各種の処理を実行する。ここで、そのプログラムは、例えば、後述の図14に示すフローチャートの動作をコンピュータ700に実行させるためのプログラムである。
記憶部702は、更に変更推定値データセット850、分析対象属性変更情報860及び分析対象属性変更データセット870を記憶してよい。記憶部702は、更に変更部230の一部としても含まれてよい。
記憶装置703は、更に変更推定値データセット850、分析対象属性変更情報860及び分析対象属性変更データセット870を記憶してよい。記憶装置703は、更に変更部230の一部としても含まれてよい。
入力部704は、更に変更部230の一部としても含まれてよい。
出力部705は、更に変更部230の一部としても含まれてよい。
通信部706は、更に変更部230の一部としても含まれてよい。
次に本実施形態の動作について、図面を参照して詳細に説明する。
図14は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したCPU701によるプログラム制御に基づいて、実行されてよい。また、処理のステップ名については、S601のように、記号で記載する。
図14に示すフローチャートの動作開始の契機、及びステップS601からステップS604までの動作は、図8に示すフローチャートの動作開始の契機、及びステップS601からステップS604までの動作と同じである。
ステップS604の次に、変更部230は、検証結果情報840に基づいて、各等価クラスに対応する推定受診年年齢値の集合が前述の所定の匿名性を満たすように、その推定受診年年齢値を加工した、加工推定受診年年齢値を導出する(ステップS605)。
次に、変更部230は、その加工推定受診年年齢値と前述の依存関係とに基づいて、受診年値を加工し、その受診年値の加工の内容を示す分析対象属性変更情報860を出力する(ステップS606)。
例えば、変更部230は、分析対象属性変更情報860を図7に示す出力部705を介して出力する。また、変更部230は、図7に示す通信部706を介して、図示しない機器に分析対象属性変更情報860を送信してもよい。また、変更部230は、図7に示す記憶装置703を介して、記録媒体707に分析対象属性変更情報860を記録してもよい。
以上が、本実施形態の匿名性検証システム200の動作の説明である。
本実施形態の変形例として、本実施形態の匿名性検証システム200は、匿名性検証システム100に替えて、図9に示す匿名化システム101に含まれてもよい。
発明が解決しようとする課題において説明した、属性間の関係により実質的なk−匿名性が保たれていないデータセットを検出できない場合があるという問題点に対する、最も単純な解決策として、以下の匿名化が考えられる。
その匿名化は、準識別子である属性A及び属性Bと、一般情報である属性Cとについて、k−匿名性を満足するように、属性A、属性B及び属性Cを抽象化する匿名化である。
しかしながら、こうした場合、その抽象化により属性Cの情報損失量が所望の値より大きく、所望の粒度の属性Cのごとの分析ができない場合がある。
即ち、このような解決策では、所望の匿名性を満足し、かつ利用目的に合致するように、匿名化された情報のデータ損失量が抑えられた匿名化を実現することはできない
一方、本実施形態の分析対象属性変更情報860或いは分析対象属性変更データセット870は、例えば図9に示す匿名化装置102がそのような匿名化を実現することを可能にする。
上述した本実施形態における効果は、第1の実施形態の効果に加えて、属性間の関係が存在する場合であっても所望の匿名性を満足し、かつ利用目的に合致するように、匿名化された情報のデータ損失量が抑えられた匿名化を実現することを可能にする点である。ここで、その所望の匿名性は、属性間の関係が存在しても、データセット全体の実質的なk−匿名性が保証される匿名性である。
その理由は、以下のような構成を含むからである。即ち、第1に、変更部230が、検証結果情報840に基づいて、等価クラスに対応する推定属性値の集合が前述の所定の匿名性を満たすように、その推定属性値を加工する。第2に、変更部230が、その加工した推定属性値と前述の依存関係とに基づいて、第3の属性を加工し、その第3の属性の加工の内容を示す変更情報を出力する。
<<<第3の実施形態>>>
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
図15は、本発明の第3の実施形態に係る匿名性検証システム300の構成を示すブロック図である。
図15に示すように、本実施形態における匿名性検証システム300は、図10に示す匿名性検証システム200と比べて、匿名化部340を更に含む点が異なる。
===匿名化部340===
匿名化部340は、パーソナルデータセット810に基づいて、被検証匿名化データセット820を生成する。
匿名化部340は、分析対象属性変更情報860を受信し、分析対象属性変更情報860に基づいてパーソナルデータセット810を匿名化した匿名化済データセット880を生成し、出力する。尚、匿名化部340は、分析対象属性変更データセット870を受信し、分析対象属性変更データセット870に基づいてパーソナルデータセット810を匿名化した匿名化済データセット880を生成してもよい。
例えば、パーソナルデータセット810は、図7に示す記憶部702或いは記憶装置703に、予め記憶されていてよい。また、匿名化部340は、図7に示す入力部704を介して操作者が入力した、パーソナルデータセット810を取得してもよい。また、匿名化部340は、図7に示す通信部706を介して図示しない機器から、パーソナルデータセット810を受信してもよい。また、匿名化部340は、図7に示す記憶装置703を介して、記録媒体707に記録されたパーソナルデータセット810を取得してもよい。
例えば、匿名化部340は、匿名化済データセット880を図7に示す出力部705を介して出力する。また、匿名化部340は、図7に示す通信部706を介して、図示しない機器に匿名化済データセット880を送信してもよい。また、匿名化部340は、図7に示す記憶装置703を介して、記録媒体707に匿名化済データセット880を記録してもよい。
例えば、匿名化部340は、パーソナルデータセット810を匿名化したデータセットから、その推定属性値の集合が前述の所定の匿名性を満たさない等価クラスを削除し、匿名化済データセット880を生成する。具体的には、匿名化部340は、例えば、分析対象属性変更情報860に含まれるレコードIDに対応する、レコードを含む等価クラスを削除する。また、匿名化部340は、検証結果情報840に含まれるレコードIDに対応する、レコードを含む等価クラスを削除してもよい。
匿名化部340は、分析対象属性変更情報860に基づいて、パーソナルデータセット810を匿名化したデータセットを以下のように加工し、匿名化済データセット880を生成してもよい。即ち、匿名化部340は、パーソナルデータセット810を匿名化したデータセットの、その特定のレコードの受診年を、分析対象属性変更情報860に含まれる変更後属性値(加工受診年)で置き換える。
更に、匿名化部340は、その置き換えた変更後属性値に対して、その変更後属性値の粒度ができるだけ小さくなるように、具体化処理実行し、匿名化済データセット880を生成してもよい。
更に、匿名化部340は、その置き換えた変更後属性値に対して、その変更後属性値の粒度が所望の粒度になるように、或いは所望の粒度にできるだけ近づくように、具体化処理実行し、匿名化済データセット880を生成してもよい。この場合、その所望の粒度は、図7に示す記憶部702或いは記憶装置703に、予め記憶されていてよい。また、匿名化部340は、図7に示す入力部704を介して操作者が入力した、その所望の粒度を取得してもよい。また、匿名化部340は、図7に示す通信部706を介して図示しない機器から、その所望の粒度を受信してもよい。また、匿名化部340は、図7に示す記憶装置703を介して、記録媒体707に記録されたその所望の粒度を取得してもよい。
上述の例に係わらず、匿名化部340は、分析対象属性変更情報860及び分析対象属性変更データセット870を利用して、任意の手法で匿名化を実施してよい。この場合、その手法の指定は、図7に示す記憶部702或いは記憶装置703に、予め記憶されていてよい。また、匿名化部340は、図7に示す入力部704を介して操作者が入力した、その手法の指定に基づいて、匿名化を実施してよい。また、匿名化部340は、図7に示す通信部706を介して図示しない機器から、受信したその手法の指定に基づいて、匿名化を実施してよい。また、匿名化部340は、図7に示す、記録媒体707に記録されたその手法の指定に基づいて、匿名化を実施してよい。
匿名性検証システム300は、匿名性検証システム200と同様に、図7に示すコンピュータ700によって実現されてよい。
この場合、CPU701は、その読み込んだプログラムに従って、またその読み込んだデータに基づいて、更に、図15に示す匿名化部340としても、各種の処理を実行する。
記憶部702は、更に匿名化済データセット880を記憶してよい。記憶部702は、更に匿名化部340の一部としても含まれてよい。
記憶装置703は、更に匿名化済データセット880を記憶してよい。記憶装置703は、更に匿名化部340の一部としても含まれてよい。
入力部704は、更に匿名化部340の一部としても含まれてよい。
出力部705は、更に匿名化部340の一部としても含まれてよい。
通信部706は、更に匿名化部340の一部としても含まれてよい。
本実施形態の変形例として、本実施形態の匿名性検証システム300は、匿名性検証システム100に替えて、図9に示す匿名化システム101に含まれてもよい。この場合、匿名化システム101は、匿名化装置102を含まなくてもよい。
上述した本実施形態における第1の効果は、第2の実施形態の効果に加えて、前述の所望の匿名性を満足し、かつ利用目的に合致するように匿名化された情報のデータ損失量が抑えられた匿名化を施された、匿名化済データセット880を得ることが可能になる点である。
その理由は、匿名化部340が分析対象属性変更情報860或いは分析対象属性変更データセット870に基づいて、匿名化済データセット880を生成するからである。
上述した本実施形態における第2の効果は、利用目的に応じた匿名化済データセット880を得ることが可能になる点である。
その理由は、匿名化部340が、与えられた任意の手法及び所望の粒度に基づいて匿名化を実行するからである。
以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、複数個の任意のその構成要素が1個のモジュールとして実現されてよい。また、その構成要素の内の任意の一つが複数のモジュールで実現されてもよい。また、その構成要素の内の任意の一つがその構成要素の内の任意の他の一つであってよい。また、その構成要素の内の任意の一つの一部と、その構成要素の内の任意の他の一つの一部とが重複してもよい。
以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、必要に応じ、可能であれば、ハードウエア的に実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、コンピュータ及びプログラムで実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、ハードウエア的なモジュールとコンピュータ及びプログラムとの混在により実現されてもよい。
そのプログラムは、例えば、磁気ディスクや半導体メモリなど、コンピュータが読み取り可能な非一時的記録媒体に記録され、コンピュータに提供される。そして、そのプログラムは、コンピュータの立ち上げ時などに、非一時的記録媒体からコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施形態における構成要素として機能させる。
また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障のない範囲で変更することができる。
更に、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行されることに限定されない。例えば、ある動作の実行中に他の動作が発生してよい。また、ある動作と他の動作との実行タイミングが部分的に乃至全部において重複してもよい。
更に、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載しているが、その記載はある動作と他の動作との関係を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施する上で機能的、性能的、その他の特性に対して支障を来さない範囲内で変更されてよい。
以上、各実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得るさまざまな変更をすることができる。
100 匿名性検証システム
101 匿名化システム
102 匿名化装置
103 パーソナルデータセット記憶装置
104 匿名化済データセット記憶装置
109 ネットワーク
110 推定部
120 検証部
200 匿名性検証システム
230 変更部
300 匿名性検証システム
340 匿名化部
700 コンピュータ
701 CPU
702 記憶部
703 記憶装置
704 入力部
705 出力部
706 通信部
707 記録媒体
800 依存関係テーブル
801 レコード
810 パーソナルデータセット
811 レコード
820 被検証匿名化データセット
821 レコード
830 推定値付加データセット
831 レコード
840 検証結果情報
850 変更推定値データセット
851 レコード
860 分析対象属性変更情報
870 分析対象属性変更データセット
871 レコード
880 匿名化済データセット

Claims (10)

  1. 複数の属性を含む被検証匿名化データセットについて、第1の前記属性の、第2の前記属性及び第3の前記属性に対する、依存関係と、前記第2の属性の属性値が加工された抽象化属性値と、前記第3の属性の属性値と、に基づいて、前記第1の属性の推定属性値を導出する推定手段と、
    前記被検証匿名化データセットに含まれる、k−匿名性を満足する等価クラスのそれぞれにおいて、前記等価クラスに対応する前記推定属性値の集合が所定の匿名性を満たすか否かを検証し、前記検証した結果を示す検証結果情報を出力する検証手段と、を含む
    情報処理システム。
  2. 前記検証結果情報に基づいて、前記等価クラスに対応する前記推定属性値の集合が前記所定の匿名性を満たすように、前記推定属性値を加工し、前記加工した推定属性値と前記依存関係とに基づいて、前記第3の属性を加工し、前記第3の属性の加工の内容を示す変更情報を出力する変更手段を、更に含む
    ことを特徴とする請求項1記載の情報処理システム。
  3. 前記変更情報に基づいて、前記被検証匿名化データセットに対応するパーソナルデータを匿名化する匿名化手段を更に含む、
    ことを特徴とする請求項2記載の情報処理システム。
  4. 前記匿名化手段は、前記推定属性値の集合が所定の匿名性を満たさない等価クラスを削除する
    ことを特徴とする請求項3記載の情報処理システム。
  5. 前記匿名化手段は、前記第3の属性を、粒度が最小となるように抽象化する
    ことを特徴とする請求項3または4記載の情報処理システム。
  6. 前記匿名化手段は前記第3の属性を、粒度が所定の値になるように抽象化する
    ことを特徴とする請求項3乃至5のいずれか1項に記載の情報処理システム。
  7. 前記所定の値を入力する入力手段を更に含む、
    ことを特徴とする請求項6記載の情報処理システム。
  8. 前記依存関係を入力する入力手段を更に含む、
    ことを特徴とする請求項1乃至7のいずれか1項に記載の情報処理システム。
  9. コンピュータが、
    複数の属性を含む被検証匿名化データセットについて、第1の前記属性の、第2の前記属性及び第3の前記属性に対する、依存関係と、前記第2の属性の属性値が加工された抽象化属性値と、前記第3の属性の属性値と、に基づいて、前記第1の属性の推定属性値を導出し、
    前記被検証匿名化データセットに含まれる、k−匿名性を満足する等価クラスのそれぞれにおいて、前記等価クラスに対応する前記推定属性値の集合が所定の匿名性を満たすか否かを検証し、
    前記検証した結果を示す検証結果情報を出力する
    匿名化方法。
  10. 複数の属性を含む被検証匿名化データセットについて、第1の前記属性の、第2の前記属性及び第3の前記属性に対する、依存関係と、前記第2の属性の属性値が加工された抽象化属性値と、前記第3の属性の属性値と、に基づいて、前記第1の属性の推定属性値を導出し、
    前記被検証匿名化データセットに含まれる、k−匿名性を満足する等価クラスのそれぞれにおいて、前記等価クラスに対応する前記推定属性値の集合が所定の匿名性を満たすか否かを検証し、
    前記検証した結果を示す検証結果情報を出力する処理をコンピュータに実行させる
    プログラム。
JP2014167037A 2014-08-20 2014-08-20 情報処理システム、匿名化方法、及びそのためのプログラム Pending JP2016045535A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014167037A JP2016045535A (ja) 2014-08-20 2014-08-20 情報処理システム、匿名化方法、及びそのためのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014167037A JP2016045535A (ja) 2014-08-20 2014-08-20 情報処理システム、匿名化方法、及びそのためのプログラム

Publications (1)

Publication Number Publication Date
JP2016045535A true JP2016045535A (ja) 2016-04-04

Family

ID=55636090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014167037A Pending JP2016045535A (ja) 2014-08-20 2014-08-20 情報処理システム、匿名化方法、及びそのためのプログラム

Country Status (1)

Country Link
JP (1) JP2016045535A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148789A (zh) * 2020-09-03 2020-12-29 京东数字科技控股股份有限公司 一种对多媒体播放进行控制的处理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148789A (zh) * 2020-09-03 2020-12-29 京东数字科技控股股份有限公司 一种对多媒体播放进行控制的处理方法及系统

Similar Documents

Publication Publication Date Title
EP3637673B1 (en) Secure data sharing
JP6381776B2 (ja) コンテンツアイテムの共有のための未登録ユーザアカウントの生成
US9294485B2 (en) Controlling access to shared content in an online content management system
US10958421B2 (en) User access control in blockchain
WO2015084689A1 (en) Managing sensitive production data
JP6471699B2 (ja) 情報判定装置、情報判定方法及びプログラム
US20160306999A1 (en) Systems, methods, and computer-readable media for de-identifying information
WO2014181541A1 (ja) 匿名性を検証する情報処理装置及び匿名性検証方法
US10657273B2 (en) Systems and methods for automatic and customizable data minimization of electronic data stores
US11048668B2 (en) Sensitive data management
JP7413406B2 (ja) 共通個人情報に関する同意
JP6429962B1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US20210295956A1 (en) Systems and Methods for Hashing-Based Assessment of Electronic Clinical Trial Outcomes
JP2014011503A (ja) 秘匿化装置、秘匿化プログラムおよび秘匿化方法
Alnssayan et al. VacChain: A Blockchain-Based EMR System to Manage Child Vaccination Records.
JP6558126B2 (ja) 情報処理システム及び情報処理方法
JP2016045535A (ja) 情報処理システム、匿名化方法、及びそのためのプログラム
WO2014136422A1 (ja) 匿名化処理を行う情報処理装置及び匿名化方法
US20200265928A1 (en) Management and tracking solution for specific patient consent attributes and permissions
US20200250336A1 (en) Data aggregation based on disparate local processing of requests
JP2017162142A (ja) 情報処理装置及び情報処理プログラム
JP2016157394A (ja) データ管理システム及びid管理方法
JP6716929B2 (ja) 情報処理装置及び情報処理プログラム
JP2018097826A (ja) サーバ装置、通信システム、情報処理方法、および、情報処理プログラム
WO2013128879A1 (ja) 匿名化処理を実行する情報処理装置、匿名化方法、及びそのためのプログラム