JP6223853B2 - 匿名化指標算出システム - Google Patents
匿名化指標算出システム Download PDFInfo
- Publication number
- JP6223853B2 JP6223853B2 JP2014025891A JP2014025891A JP6223853B2 JP 6223853 B2 JP6223853 B2 JP 6223853B2 JP 2014025891 A JP2014025891 A JP 2014025891A JP 2014025891 A JP2014025891 A JP 2014025891A JP 6223853 B2 JP6223853 B2 JP 6223853B2
- Authority
- JP
- Japan
- Prior art keywords
- anonymization
- data
- degree
- anonymized
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Description
本発明の実施形態は、匿名化指標算出システムに関する。
企業や個人といったデータ所有者が所有するデータは、増大化・複雑化する一方である。また、データ所有者は、大量のデータを所有する反面、大量のデータに対する分析スキルや分析システムを持たない場合が多い。ここでいう分析スキルは、統計学及び分析ツールの専門的な知識等を意味する。分析システムは、分析ツール、及び大量のデータを高速に分析可能な分散システム等を意味する。
従って、大量のデータを分析して有効活用を図る場合、分析スキルや分析システムを持つ外部の専門家等のデータ分析者にデータの分析を委託する形態が広まりつつある。
その反面、分析対象のデータには個人情報が含まれる場合があるので、プライバシー保護の観点から、安易にデータ分析者にデータを提供することは望ましくない。
ここで、プライバシを保護しつつ、データ分析者にデータを提供可能な技術の一つに、匿名化技術がある(例えば、非特許文献1参照)。匿名化技術は、分析対象のデータから個人を特定できないように、分析対象のデータの一部に変更を加える技術の総称である。
"個人情報匿名化基盤"、[online]、経済産業省、情報大航海プロジェクト、[平成25年8月13日検索]、インターネット<URL:http://www.meti.go.jp/policy/it_policy/daikoukai/igvp/cp2_jp/common/024/010/post-9.html>
"パーソナル情報保護・解析基盤の開発・改良と検証 個人情報匿名化基盤 外部仕様書"、[online]、経済産業省、情報大航海プロジェクト、[平成25年8月13日検索]、インターネット<http://www.meti.go.jp/policy/it_policy/daikoukai/igvp/cp2_jp/common/personal/2009_infra_A_1_External_specifications.pdf>、3.10.3節
以上のような匿名化技術は、通常は特に問題ないが、本発明者の検討によれば、以下に述べるように、元データを匿名化する場合に、匿名化度を維持しつつデータを追加できる度合を評価できない点で改良の余地がある。
始めに、本発明者の検討によれば、データ所有者は2つの要求をもっている。
第1の要求は、データ分析者に提供する匿名化されたデータ(匿名化データ)を必要最小限にしてプライバシー情報の漏えいを防ぐという要求である。
第2の要求は、分析結果の精度を上げたいという要求である。
一般的に、匿名化データの情報量は、元データの情報量よりも小さい。また、データ分析者に提供する匿名化データの情報量が小さい場合、分析結果の精度が下がる。このため、第1及び第2の要求は、二律背反の関係となる。
この第1又は第2の要求を満たす度合を定量的に評価する指標がいくつか提案されている。第1の要求については、匿名化された度合を定量的に評価する指標が提案されている。以下、この指標を「匿名化度」と呼ぶ。匿名化度の一例として、k−匿名性がある。データの各属性の組合せにおいて、どの値の組合せもkレコード以上存在する場合、k−匿名性を満たすという。一般に、kの値が大きい方がプライバシー情報の漏えいが少ない。
一方、第2の要求については、匿名化によって情報量が失われた度合を評価する指標が提案されている。以下、この指標を「情報損失度」と呼ぶ。情報損失度の一例は、非特許文献2の3.10.3節に記載されている。
第1及び第2の要求を満たすには、匿名化度を可能な限り大きくし、情報損失度を可能な限り小さくすることが必要である。
また、第2の要求を満たすためには、データ量が多い方が好ましい。従って、データを後から追加(増加)できることが望ましい。特許文献1には、データを追加した際に、匿名化度の喪失を回避する度合を評価し、当該度合がデータ所有者が定めた基準を下回った場合に警告を発するシステムが開示されている。
ここで、第1の要求を満たすためには、上記の基準を下回った場合に、追加したデータをデータ分析者に提供しないことが望ましい。従って、従来技術では、匿名化度を下げないデータのみしか追加できず、データ量を多くして分析結果の精度を上げることができないという不都合がある。
次に、この不都合について、図15〜図21に示す具体的なデータを用いて説明する。
データ所有者が元々所有するデータ(元データ)Dは、図15に示すように、年齢、性別、住所、病名、の4つの項目を持つテーブルに記憶されている。このデータを用いた分析は、年齢、性別、住所ごとの病名の分布確率を求めるものとする。また、匿名化の対象とする項目は、年齢、性別、住所であるものとする。すなわち、病名は個人の特定につながらないものとする。
プライバシー情報の漏えいを防ぐために(第1の要求)、元データDを匿名化度がk=2となるように匿名化し、図16に示すように、匿名化データDA1を得る。実際、k=2であることは、匿名化データDA1の匿名化対象の項目である、年齢、性別、住所の値の組合せにおいて、どの値の組合せも2つ以上の行が存在することから分かる。元データDから匿名化データDA1を導出する際には、2つの匿名化手法を用いている。
1つ目は年齢のグルーピング(5歳刻み)である。年齢のグルーピング手法では、匿名化データDA1の年齢欄に示すように、元データDの年齢の値を、当該年齢の値を含む5歳の幅に置き換える。これにより、例えば、元データDの一番上のデータの年齢の値“25”は、当該年齢の値“25”を含む5歳の幅“25−29”に置き換えられる。
2つ目は住所の一般化(都道府県)である。住所は、図17に示すように階層構造を有している。住所の一般化手法では、元データDの最下層の市町村レベルLa3の値を、1つ上の階層の都道府県レベルLa2の値に置き換えている。これにより、例えば、元データDの一番上のデータの住所の値“横浜市”は、1つ上の階層の値“神奈川”という県名に置き換えられる。
匿名化データDA1を分析すると、以下のような結果が得られる。
(25−29、女、神奈川)の人は、病名がかぜである確率が50%であり、インフルエンザである確率が50%である。
(30−34、男、神奈川)の人は、病名が風しんである確率が100%である。
ここで、(25−29、女、神奈川)は、年齢が25−29、性別が女、住所が神奈川のレコードを指している。
しかしながら、匿名化データDA1の分析結果は、それぞれ母集団が2、3人であるため、精度が低い可能性がある。そこで、分析結果の精度を上げるために(第2の要求)、図18に示すように、新規データD’が追加されたものとする。
前述同様に、プライバシー情報の漏えいを防ぐために(第1の要求)、新規データD’を匿名化度k=2となるように匿名化し、図19に示すように、匿名化データDA3を得る。新規データD’から匿名化データDA3を導出する際には、2つの匿名化手法を用いている。
1つ目は、前述同様に、年齢のグルーピング(5歳刻み)である。但し、前述した匿名化データDA1では25歳から5歳刻みとしたのに対し、今回の匿名化データDA3では23歳からの5歳刻みとしている。
2つ目は性別の一般化(任意)である。性別は、図20に示すように階層構造を有している。性別の一般化手法では、新規データD’の最下層の男女レベルLs2の値を、1つ上の階層の任意(Any)レベルLs1の値に置き換えている。
新規データD’の匿名化データDA3を分析すると、以下のような結果が得られる。
(23−27、任意、神奈川)の人は、病名が骨折である確率が50%であり、インフルエンザである確率が50%である。
(28−32、任意、神奈川)の人は、病名が風しんである確率が67%であり、かぜである確率が33%である。
しかしながら、匿名化データDA3の分析結果は、新規データD’のみの分析結果であり、新規データD’を元データDに合併させたデータの分析結果になっていない。理由は、新規データD’及び元データDの両者の匿名化方法が互いに異なり、両者を合併して分析することが困難なためである。このため、新規データD’を追加したにもかかわらず、母集団が増えず、分析結果の精度が上がっていない(第2の要求を満たしていない)。
これに対し、新規データD’を元データの匿名化データDA1と同じ方法で匿名化し、図21に示すように、匿名化データDA1’を得たとする。匿名化データDA1’のデータのうち、破線DL1で示す行の5個のデータを匿名化データDA1に合併した場合、匿名化データDA1にも同じデータが存在しているので、合併後の匿名化データの匿名化度はk=2に維持される。
しかしながら、匿名化データDA1’のうち、他の行の10個のデータを匿名化データDA1に合併した場合、匿名化データDA1には同じデータが存在しないため、合併後の匿名化データの匿名化度はk=1に低下する。このような匿名化度の低下は、第1の要求の観点から好ましくない。
すなわち、合併前の匿名化度を合併後に維持するには、匿名化データDA1’のうち、破線DL1で示す行の5個のデータしか追加できない。これは、15個の匿名化データDA1’の1/3の5個のデータしか追加できないことになり、分析結果の精度を上げるために(第2の要求)、より多くのデータを追加したいという観点で望ましくない。
本発明者の検討によれば、匿名化度を維持しつつ、多くのデータを追加できるか否かは、元データの匿名化方法に依存すると推測される。上述した例では、新規データD’を匿名化データDA1と同じ方法で匿名化した場合、匿名化度が維持されない。しかし、他の方法で匿名化した場合には、合併前の匿名化度を合併後にも維持させるデータの個数が5個を超える可能性がある。従って、元データを匿名化する場合に、匿名化度を維持しつつデータを追加できる度合を評価したい要望がある。
本発明が解決しようとする課題は、元データを匿名化する場合に、匿名化度を維持しつつデータを追加できる度合を評価し得る匿名化指標算出システムを提供することである。
実施形態の匿名化指標算出システムは、匿名化度及びデータ追加度を含む匿名化指標を算出する。前記匿名化指標算出システムは、データ記憶手段、匿名化手段、匿名化度算出手段及び追加度算出手段を備えている。
前記データ記憶手段は、各個人に関し、各項目毎に値を含む元データを記憶している。
前記匿名化手段は、前記元データのうちの一部の項目の値を匿名化する処理により、当該元データから匿名化データを生成する。
前記匿名化度算出手段は、前記匿名化データに基づいて、前記匿名化した度合いを示す前記匿名化度を算出する。
前記追加度算出手段は、前記元データから前記匿名化データが生成される確率に相当する前記データ追加度を算出する。
以下、各実施形態について図面を用いて説明する。なお、以下の各装置は、それぞれハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。
<第1の実施形態>
図1は第1の実施形態に係る匿名化指標算出システムの構成を示す模式図である。この匿名化指標算出システム100は、匿名化度及びデータ追加度を含む匿名化指標を算出する。このため、匿名化指標算出システム100は、元データ格納データベース装置110、匿名化装置120、匿名化度算出部130及びデータ追加度算出装置150を備えている。なお、匿名化指標算出システム100は、装置の集合体として実施する場合に限定されない。例えば、「…システム100」の語を「…装置100」と読み替え、「…装置110」、「…装置120」及び「…装置150」の語を「…部110」、「…部120」及び「…部150」と読み替えることにより、単一の装置としても実施可能である。このことは以下の各実施形態でも同様である。
図1は第1の実施形態に係る匿名化指標算出システムの構成を示す模式図である。この匿名化指標算出システム100は、匿名化度及びデータ追加度を含む匿名化指標を算出する。このため、匿名化指標算出システム100は、元データ格納データベース装置110、匿名化装置120、匿名化度算出部130及びデータ追加度算出装置150を備えている。なお、匿名化指標算出システム100は、装置の集合体として実施する場合に限定されない。例えば、「…システム100」の語を「…装置100」と読み替え、「…装置110」、「…装置120」及び「…装置150」の語を「…部110」、「…部120」及び「…部150」と読み替えることにより、単一の装置としても実施可能である。このことは以下の各実施形態でも同様である。
元データ格納データベース装置(データ記憶手段)110は、図15に示したように、データ所有者が所有する匿名化前の元データDを保持する機能と、保持している元データDを匿名化装置120に渡す機能と、を有する。「元データ」は、「匿名化前のデータ」と呼んでもよく、または、単に「データ」と呼んでもよい。
ここで、元データDは、各個人に関し、各項目毎に値を含んでいる。ここで、各項目としては、例えば、身長、性別、年齢を用いている。なお、元データDとしては、例えば、年齢、性別、住所及び病名を個人毎に含むレセプト情報などを使用してもよい。この場合、病名を匿名化せず、年齢、性別、住所などを適宜、匿名化して使用することが、特定の病名に関する分析結果を得る点と、個人の特定を防ぐ点から好ましい。また、元データDとしては、各列(属性)の情報と、各行(レコード)の情報とからなるテーブルを用いてもよい。ここで、各列は各属性に対応し、各行は各個人に対応する。
匿名化装置(匿名化手段)120は、元データDのうちの一部の項目の値を匿名化する処理により、当該元データDから匿名化データを生成する装置である。匿名化装置120は、例えば、データ項目抽出部121、匿名化部122、匿名化方法決定部123及び匿名化ポリシ格納部124を備えている。
なお、各部は、受けた情報をそのまま送出する場合などには、適宜、省略してもよい。例えば、データ項目抽出部121は、受けた情報をそのまま送出する場合などには省略してもよい。また、受けた情報をそのまま送出する機能部を省略してもよいことは、他の各部及び以下の各実施形態でも同様である。
ここで、データ項目抽出部121、匿名化部122及び匿名化方法決定部123は、例えば、図示しないCPUが、後述する各ステップを含むプログラムを実行することにより実現される機能ブロックとなっている。
匿名化ポリシ格納部124は、図2に示すように、匿名化ポリシPAを保持する機能と、匿名化ポリシPAを匿名化方法決定部123に渡す機能と、を有する。ここで、匿名化ポリシPAは、適用順位、匿名化する項目、匿名化方法、の3つの項目を持つテーブルである。適用順位は、例えば分析精度を維持し易い順序に相当する。例えば、最も分析精度を維持し易い匿名化方法が適用順位1位に関連付けられる。匿名化ポリシPA内の匿名化する項目は、データDの各項目のうち、匿名化する項目を示している。例えば、匿名化ポリシPA内の適用順位“1位”の匿名化する項目“グルーピング(5歳刻み)”及び“一般化(都道府県)”に基づいて、データDの項目の値が匿名化されることにより、図16に示した如き、匿名化データDA1が生成される。また、匿名化ポリシPA内の適用順位“2位”の匿名化する項目“グルーピング(10歳刻み)”の匿名化する項目に基づいて、データDの項目の値が匿名化されることにより、図3に示す如き、匿名化データDA2が生成される。
匿名化度算出部(匿名化度算出手段)130は、匿名化装置120により生成された匿名化データ及び元データDに基づいて、匿名化部122により匿名化した度合いを示す匿名化度を算出する機能をもっている。算出された匿名化度は、匿名化度算出部130からデータ追加度判定部153に送出される。
データ追加度算出装置150は、データ追加度算出部151、データ追加度ポリシ格納部152及びデータ追加度判定部153を備えている。
ここで、データ追加度算出部(追加度算出手段)151及びデータ追加度判定部(判定手段、第1制御手段)153は、例えば、図示しないCPUが、後述する各ステップを含むプログラムを実行することにより実現される機能ブロックとなっている。
データ追加度ポリシ格納部(匿名化指標ポリシ格納手段)152は、図4に示すように、匿名化指標の条件を含むデータ追加度ポリシPDを保持する機能と、データ追加度判定部153の要求に応じてデータ追加度ポリシPDを渡す機能と、を有する。ここで、データ追加度ポリシ(匿名化指標ポリシ)PDは、匿名化指標、それぞれの匿名化指標が満たすべき条件、の2つの項目を持つテーブルである。匿名化指標としては、例えば、匿名化度及びデータ追加度が適宜、使用可能となっている。匿名化指標は、これに限らず、後述する情報損失度を含んでもよい。条件としては、例えば、匿名化指標の範囲、匿名化指標の上限値又は下限値などが適宜、使用可能となっている。なお、「匿名化指標」は「匿名化評価指標」又は「評価指標」等と読み替えてもよい。
データ追加度ポリシ格納部(匿名化指標ポリシ格納手段)152は、図4に示すように、匿名化指標の条件を含むデータ追加度ポリシPDを保持する機能と、データ追加度判定部153の要求に応じてデータ追加度ポリシPDを渡す機能と、を有する。ここで、データ追加度ポリシ(匿名化指標ポリシ)PDは、匿名化指標、それぞれの匿名化指標が満たすべき条件、の2つの項目を持つテーブルである。匿名化指標としては、例えば、匿名化度及びデータ追加度が適宜、使用可能となっている。匿名化指標は、これに限らず、後述する情報損失度を含んでもよい。条件としては、例えば、匿名化指標の範囲、匿名化指標の上限値又は下限値などが適宜、使用可能となっている。なお、「匿名化指標」は「匿名化評価指標」又は「評価指標」等と読み替えてもよい。
次に、以上のように構成された匿名化指標算出システムの動作について図5のフローチャートを用いて説明する。
データ項目抽出部121は、元データ格納データベース装置110から、全ての項目の元データDを抽出し、当該元データを匿名化部122に送出する(ST1)。なお、データ項目抽出部121は、図示しない入力部から指示された項目に基づいて、当該項目に一致する項目及び値を含む元データDを元データ格納データベース装置110から抽出してもよい。
匿名化部122は、ステップST1で送出された元データDを匿名化方法決定部123に送出し、匿名化方法を匿名化方法決定部123に問い合わせる(ST2)。
匿名化方法決定部123は、匿名化ポリシPAを参照し、ステップST2で送出された元データD内の項目に一致する匿名化ポリシPA内の匿名化する項目に関連付けられた匿名化方法であって未適用の匿名化方法を読み出す。また、匿名化方法決定部123は、未適用の匿名化方法のうち、最高の適用順位に関連付けられた匿名化方法を決定し、当該決定した匿名化方法を匿名化部122に通知する(ST3)。また、匿名化方法決定部123は、当該決定した匿名化方法を示す情報をメモリ(図示せず)に保持する。決定した匿名化情報を示す情報としては、例えば、決定した匿名化方法を用いてもよく、あるいは、決定した匿名化方法に関連付けられた適用順位を用いてもよい。
匿名化部122は、ステップST1で送出された元データのうち、ステップST3で決定された匿名化方法に関連付けられた匿名化ポリシPA内の匿名化する項目に一致する項目の値を匿名化することにより、当該元データDから匿名化データを生成する(ST4)。しかる後、匿名化部122は、生成した匿名化データを匿名化度算出部130及びデータ追加度算出部151に送信する。また、匿名化部122は、生成した匿名化データを保持する。
匿名化度算出部130は、匿名化部122から匿名化データに基づいて、匿名化した度合いを示す匿名化度を算出する(ST5)。
データ追加度算出部151は、元データDから匿名化データが生成される確率に相当するデータ追加度を算出する。この例では、データ追加度算出部151は、元データDの各項目の値の取り得る範囲と、匿名化データの各項目の値が取っている範囲とに基づいて、匿名化度を下げずに新たな匿名化データを追加可能な度合いを示すデータ追加度を算出する(ST6)。
データ追加度判定部153は、匿名化度の条件及びデータ追加度の条件を含むデータ追加度ポリシPDをデータ追加度ポリシ格納部152から読み出す。また、データ追加度判定部153は、当該データ追加度ポリシPDに基づいて、ステップST5で算出された匿名化度及びステップST6で算出されたデータ追加度の受け入れを許可するか否かを判定する(ST7)。判定した結果が許可を示す場合には、データ追加度判定部153は処理を終了する。ステップST7で判定した結果が否を示す場合には、データ追加度判定部153は、ステップST8に進む。
データ追加度判定部153は、ステップST2〜ST7の処理を再試行(リトライ)するように、匿名化装置120、匿名化度算出部130及びデータ追加度算出装置150を制御する。例えば、データ追加度判定部153は、再度匿名化方法を問い合わせるための再試行要求を匿名化装置120に送出する(ST8)。これにより、ステップST2〜ST7の処理が再試行される。
以下、図2〜図4、図15〜図17に示す具体的なデータを用いて、各ステップの処理を説明する。
ステップST1において、データ項目抽出部121は、元データ格納データベース装置110から、図15に示すように、全ての元データDを抽出し、当該元データDを匿名化部122に送出する。送出した元データDは「項目(年齢、性別、住所、病名)」の全行である。
ステップST2において、匿名化部122は、匿名化方法を匿名化方法決定部123に問い合わせる。ここで問い合わせる内容は「項目(年齢、性別、住所)に関する匿名化方法」とする。
ステップST3において、匿名化方法決定部123は、図2に示す如き、匿名化ポリシ格納部124内の匿名化ポリシPAに基づいて匿名化方法を決定し、当該匿名化方法を匿名化部122に通知する。ここで、匿名化方法決定部123は、匿名化ポリシPA内の匿名化方法のうち、未適用の匿名化方法であって、最高の適用順位に関連付けられた匿名化方法「年齢のグルーピング(5歳刻み)」及び「住所の一般化(都道府県)」を匿名化部122に通知する。同時に、匿名化方法決定部123は、今回適用した適用順位「1位」の適用済みを示す情報を保持する。
ステップST4において、匿名化部122は、通知された匿名化方法に基づいて、元データを匿名化処理し、匿名化データDA1を生成する。年齢のグルーピング(5歳刻み)では、図16の匿名化データDA1の年齢欄に示すように、年齢の値をそれが含まれる5歳の幅に置き換える。住所の一般化(都道府県)では、図17に示す住所の階層構造のうち、住所の値をそれが含まれる都道府県レベルLa2の値に置き換える。例えば、市町村レベルLa3の住所の値が「港区」の場合には、住所の値「港区」をその一般化要素である「東京」に置き換える。しかる後、匿名化部122は、匿名化データDA1を匿名化度算出部130及びデータ追加度算出部151に送出する。また、匿名化部122は、匿名化データDA1を保持する。なお、匿名化度算出部130及びデータ追加度算出部151に送出されるデータ項目は、匿名化ポリシPA内の匿名化する項目「年齢、性別、住所」である。
ステップST5において、匿名化度算出部130は、ステップST4で受けた匿名化データDA1から匿名化度を算出する。ここでは、匿名化度として、k−匿名性のkの値を採用したものとする。匿名化データDA1から分かるように、匿名化する項目「年齢、性別、住所」のどの値の組合せも2通り以上存在するので、k=2である。
ステップST6において、データ追加度算出部151は、ステップST4で受けた匿名化データDA1からデータ追加度を算出する。後述するように、データ追加度は0.225、すなわち22.5%となる。
ステップST7において、データ追加度判定部153は、図4に示す如き、匿名化度の条件「k=2以上」及びデータ追加度の条件「40%以上」を含むデータ追加度ポリシPDを参照する。データ追加度判定部153は、当該データ追加度ポリシPDに基づいて、算出された匿名化度「k=2」及び算出されたデータ追加度「22.5%」の受け入れを許可するか否かを判定する。データ追加度ポリシPDのうち、匿名化度は条件を満たすが、データ追加度は条件を満たさない。このため、判定した結果は否を示す。
ステップST8において、判定した結果が否を示す場合にはステップST2〜ST7の処理を再試行するように再試行要求が送出される。
ステップST2において、匿名化部122は、匿名化方法決定部123に匿名化方法を問い合わせる。問い合わせの内容は「適用順位を下げた匿名化方法」である。
ステップST3において、匿名化方法決定部123は、匿名化ポリシPAを参照して匿名化方法を決定し、匿名化方法を匿名化部122に通知する。ここで、匿名化方法決定部123は、匿名化ポリシPAのうち、記録していた適用済みの匿名化方法(適用順位1位)を除いて最高の適用順位に関連付けられた匿名化方法「グルーピング(10歳刻み)」を匿名化部122に通知する。同時に、匿名化方法決定部123は、今回適用した適用順位「2位」の適用済みを示す情報を保持する。
ステップST4において、匿名化部122は、通知された匿名化方法に基づいて、元データDを匿名化処理し、図3に示すように、匿名化データDA2を生成する。匿名化部122は、生成した匿名化データDA2を、匿名化度算出部130及びデータ追加度算出部151に送出する。また、匿名化部122は、送出した匿名化データDA2を保持する。なお、匿名化度算出部130、データ追加度算出部151に送出されるデータ項目は、匿名化ポリシPA内の匿名化する項目「年齢、性別、住所」でもよく、匿名化し直した項目「年齢」のみであってもよい。
ステップST5において、匿名化度算出部130は、ステップST4で受けた匿名化データDA2から匿名化度を算出する。匿名化データDA2から分かるように、匿名化する項目「年齢、性別、住所」のどの値の組合せも2通り以上存在するので、k=2である。
ステップST6において、データ追加度算出部151は、ステップST4で受けた匿名化データDA2からデータ追加度を算出する。後述するように、データ追加度は0.45、すなわち45%となる。
ステップST7において、データ追加度判定部153は、前述同様に、匿名化度の条件「k=2以上」及びデータ追加度の条件「40%以上」を含むデータ追加度ポリシPDを参照する。データ追加度判定部153は、当該データ追加度ポリシPDに基づいて、算出された匿名化度「k=2」及び算出されたデータ追加度「45%」の受け入れを許可するか否かを判定する。データ追加度ポリシPDのうち、匿名化度及びデータ追加度の両者が条件を満たすので、判定した結果は、許可を示す。
従って、データ追加度判定部153は、処理を終了する。
次に、ステップST7におけるデータ追加度の算出方法の一例について説明する。
始めに、元データDの取りうる範囲の「体積」を計算する。これは各項目の取りうる範囲の積とする。元データDの各項目の取り得る範囲は、以下の通りとする。
年齢の取り得る範囲は、20歳から59歳までの40通りである。
性別の取り得る範囲は、男又は女の2通りである。
住所の取り得る範囲は、港区、府中市、青梅市、横浜市、又は川崎市の5通りである。
元データの取りうる範囲の体積は、各項目の取り得る範囲の積「40×2×5」から、「400」となる。
次に、データ追加度の算出対象の匿名化データが取っている範囲の「体積」を計算する。
1回目のステップST6に用いる匿名化データDA1は、以下の値をとる。ここで、(25−29、男、東京)は、年齢が25歳から29歳、性別が男、住所が東京という値であることを示している。
(25−29、男、東京)、
(25−29、女、神奈川)、
(30−34、男、神奈川)、
(35−39、女、東京)、
(40−44、女、神奈川)、
(45−49、男、東京)、
(50−54、男、東京)
例えば一番上の行(25−29、男、東京)では、年齢が25歳から29歳までの5通り、性別が男の1通り、住所が図17に示すように港区、府中市、青梅市の3通りであるので、各項目の取り得る範囲の積「5×1×3」から体積「15」が得られる。同様に、他の6個の行の体積は、上から順に10、10、15、10、15、15と得られる。なお、これら7個の行は、互いに取っている範囲の値に重複がない。従って、匿名化データDA1が取っている範囲の体積は、7個の体積の和15+10+10+15+10+15+15=90として得られる。
(25−29、女、神奈川)、
(30−34、男、神奈川)、
(35−39、女、東京)、
(40−44、女、神奈川)、
(45−49、男、東京)、
(50−54、男、東京)
例えば一番上の行(25−29、男、東京)では、年齢が25歳から29歳までの5通り、性別が男の1通り、住所が図17に示すように港区、府中市、青梅市の3通りであるので、各項目の取り得る範囲の積「5×1×3」から体積「15」が得られる。同様に、他の6個の行の体積は、上から順に10、10、15、10、15、15と得られる。なお、これら7個の行は、互いに取っている範囲の値に重複がない。従って、匿名化データDA1が取っている範囲の体積は、7個の体積の和15+10+10+15+10+15+15=90として得られる。
新たに元データを追加したとき、追加した元データの匿名化結果が匿名化データDA1の取る範囲に収まると、匿名化度はk=2を維持する。逆に、追加した元データの匿名化結果が匿名化データDA1の取る範囲から逸脱すると、匿名化度が下がる。従って、匿名化度を下げずに新たなデータを匿名化データDA1に追加できる確率は、匿名化データDA1が取っている値の範囲(=体積)を元データが取りうる値の範囲(=体積)で割った値で評価することができる。上述した例では、この確率が90/400=0.225となる。この確率が1回目のステップST6でのデータ追加度である。
同様に、2回目のステップST6での匿名化データDA2が取る値を、以下に示す。
(20代、男、東京)、
(20代、女、神奈川)、
(30代、男、神奈川)、
(30代、女、東京)、
(40代、男、東京)、
(40代、女、神奈川)、
(50代、男、東京)
各行の値の体積は、上から順に30、20、20、30、30、20、30である。よって、匿名化データDA2が取る範囲の体積は、各行の値の体積の和30+20+20+30+30+20+30=180として得られる。
(20代、女、神奈川)、
(30代、男、神奈川)、
(30代、女、東京)、
(40代、男、東京)、
(40代、女、神奈川)、
(50代、男、東京)
各行の値の体積は、上から順に30、20、20、30、30、20、30である。よって、匿名化データDA2が取る範囲の体積は、各行の値の体積の和30+20+20+30+30+20+30=180として得られる。
従って、匿名化データDA2のデータ追加度は、180/400=0.45となる。
データ追加度の効果を見るために、図6、図18及び図21を用いて説明する。
図18に示すように、新規データD’が追加されたものとする。追加された新規データD’を元データDの匿名化データDA1と同じ方法で匿名化すると、図21に示すように、匿名化データDA1’が得られる。元データDの匿名化データDA1の匿名化度を下げないように匿名化データDA1’を追加するには、破線DL1で示す5行のデータのみを匿名化データDA1に追加すればよい。この5行のデータは、新規データD’の5/15=33%にあたる。
一方、新規データD’を匿名化データDA2と同じ方法で匿名化すると、図6に示すように、匿名化データDA2’となる。元データDの匿名化データDA2の匿名化度を下げないように匿名化データDA2’のデータを追加するには、破線DL2で示す13行のデータを匿名化データDA2に追加すればよい。この13行のデータは、新規データD’の13/15=87%にあたる。
本実施形態で求めたデータ追加度22.5%及び45%は、実際に追加できたデータの割合とは異なる。しかしながら、低いデータ追加度22.5%の場合には、より少ないデータしか追加できず、高いデータ追加度45%の場合には、より多くのデータを追加できることが相対的に分かる。
上述したように本実施形態によれば、元データから匿名化データが生成される確率に相当するデータ追加度を算出する構成により、元データを匿名化する場合に、匿名化度を維持しつつデータを追加できる度合を評価することができる。
補足すると、データ所有者がデータ分析者に提供する匿名化データは、匿名化度がデータ追加度ポリシPDに定めた値以上であるため、必要最小限となる。また、将来、追加できるデータの度合いを示すデータ追加度を算出する構成により、多くのデータを追加できる匿名化方法を選択することができる。
また、本実施形態によれば、データ追加度判定部153が、匿名化指標ポリシに基づいて、算出された匿名化度及び算出されたデータ追加度の受け入れを許可するか否かを判定する場合には、作業者による判定の手間や労力を削減することができる。
さらに、本実施形態によれば、当該判定した結果が許可を示す場合には処理を終了する。また、当該判定した結果が否を示す場合には匿名化装置120、匿名化度算出部130及びデータ追加度算出装置150を再試行するように、当該各装置及び各部を制御するので、匿名化指標ポリシを満たす匿名化データを容易に生成することができる。
<第2の実施形態>
図7は第2の実施形態に係る匿名化指標算出システムの構成を示す模式図であり、図1と同一部分には同一符号を付してその詳しい説明を省略し、ここでは異なる部分について主に述べる。なお、以下の各実施形態も同様にして重複した説明を省略する。
図7は第2の実施形態に係る匿名化指標算出システムの構成を示す模式図であり、図1と同一部分には同一符号を付してその詳しい説明を省略し、ここでは異なる部分について主に述べる。なお、以下の各実施形態も同様にして重複した説明を省略する。
第2の実施形態は、匿名化度及びデータ追加度を含む匿名化指標を用いた第1の実施形態の変形例であり、匿名化指標が情報損失度を更に含む場合に対応している。
具体的には、匿名化指標算出システム100は、匿名化指標が情報損失度を含む場合には、図1に示した構成に比べ、情報損失度算出部140を更に備えている。
情報損失度算出部(情報損失度算出手段)140は、匿名化データ及び元データに基づいて、匿名化によって情報が失われた度合いを示す情報損失度を算出する機能をもっている。
これに伴い、図8に示すように、データ追加度ポリシ(匿名化指標ポリシ)PD’は、情報損失度の条件を更に含んでいる。当該情報損失度の条件は、情報損失度が満たすべき条件を示している。
データ追加度判定部(判定手段)153は、当該データ追加度ポリシPD’に基づいて、算出された匿名化度、算出されたデータ追加度及び算出された情報損失度の受け入れを許可するか否かを判定する機能をもっている。
また、データ追加度判定部(第2制御手段)153は、判定した結果が当該許可を示す場合には処理を終了する。データ追加度判定部153は、判定した結果が当該否を示す場合には匿名化装置120、匿名化度算出部130、データ追加度算出装置150及び情報損失度算出部140を再試行するように、当該各装置120,150及び各部130,140を制御する。
次に、以上のように構成された匿名化指標算出システムの動作について図9のフローチャートを用いて説明する。
ステップST1〜ST3は、第1の実施形態のステップST1〜ST3と同様に実行される。
ステップST4aにおいて、匿名化部122は、第1の実施形態のステップST4に加え、生成した匿名化データを情報損失度算出部140にも送出する。
ステップST5は、第1の実施形態のステップST5と同様に実行される。
ステップST5aにおいて、情報損失度算出部140は、ステップST4aで送出された匿名化データに基づいて、情報損失度を算出する。
ステップST6は、第1の実施形態のステップST6と同様に実行される。
ステップST7aにおいて、データ追加度判定部153は、匿名化度の条件、データ追加度の条件及び情報損失度の条件を含むデータ追加度ポリシPD’をデータ追加度ポリシ格納部152から読み出す。また、データ追加度判定部153は、当該データ追加度ポリシPD’に基づいて、ステップST5で算出された匿名化度、ステップST6で算出されたデータ追加度及びステップST5aで算出された情報損失度の受け入れを許可するか否かを判定する。判定した結果が許可を示す場合には、データ追加度判定部153は処理を終了する。ステップST7aで判定した結果が否を示す場合には、データ追加度判定部153は、ステップST8aに進む。
データ追加度判定部153は、ステップST2〜ST7aの処理を再試行(リトライ)するように、匿名化装置120、匿名化度算出部130、情報損失度算出部140及びデータ追加度算出装置150を制御する。例えば、データ追加度判定部153は、再度匿名化方法を問い合わせるための再試行要求を匿名化装置120に送出する(ST8a)。これにより、ステップST2〜ST7aの処理が再試行される。
以下、図2〜図3、図8、図10〜図11、図15〜図16に示す具体的なデータを用いて、各ステップの処理を説明する。
元データ格納データベース装置110内の元データD及び匿名化ポリシ格納部124内の匿名化ポリシPAは、図15及び図2に示すように、第1の実施形態と同じである。データ追加度ポリシ格納部152は、第1の実施形態とは異なり、図8に示すように、情報損失度の条件を更に含むデータ追加度ポリシPD’を有するものとする。
ステップST1〜ST3、ST4a、ST5は、前述同様に実行される。
ステップST5aにおいて、情報損失度算出部140は、図16に示す如き、ステップST4aで送出された匿名化データDA1に基づいて、情報損失度を算出する。ここでは情報損失度として、非特許文献2の3.10.3節記載の方法を採用したものとする。年齢は数値型の情報であるので、年齢の情報損失は、非特許文献2の3.10.3節(1)記載の方法に従って算出される。
すなわち、数値型の情報損失は、対象項目の匿名化前の値v1と匿名化後の値v2の差分|v1−v2|を、匿名化前の最大値と最小値の差分値で表される値域Niで除算した値(|v1−v2|/Ni)として得られる。
例えば、匿名化前の最大値と最小値の差分値で表される値域Niは、元データD内の年齢の値より54−25=29である。この場合、匿名化データDA1の年齢の情報損失は、|v1−v2|/29として計算され、図10の計算結果テーブルT1の年齢の列に示すように得られる。
性別は文字列型(一般化階層情報有)の情報であるので、性別の情報損失は、非特許文献2の3.10.3節(3)記載の方法に従って算出される。すなわち、文字列型の情報損失は、匿名化前と匿名化後の階層の差分を、一般化階層の高さで除算した値として得られる。最下層(男、女)の高さを0としたとき、一般化階層(任意(Any))の高さは1である。匿名化前と匿名化後の階層の差分はすべての行ともに0である。この場合、匿名化データDA1の性別の情報損失は、図10の計算結果テーブルT1内に「0/1」と示すように、計算される。
住所は文字列型(一般化階層情報有)の情報であるので、住所の情報損失は、非特許文献2の3.10.3節(3)記載の方法に従って算出される。文字列型の情報損失は、前述同様に、匿名化前と匿名化後の階層の差分を、一般化階層の高さで除算した値となる。最下層(港区、府中市、青梅市、川崎市、横浜市)の高さを0としたとき、一般化階層(日本)の高さは2である。匿名化前と匿名化後の階層の差分はすべての行ともに1である。この場合、匿名化データDA1の住所の情報損失は、図10の計算結果テーブルT1内に「1/2」と示すように、計算される。
最後に、計算結果テーブルT1から情報損失の平均値を算出する。非特許文献2の3.10.3節(4)記載の方法に基づき、計算結果テーブルT1の全ての値の合計値を、匿名化する項目の数(3)×行数(15)=45で割ると、0.20という平均値が得られる。従って、情報損失度は0.20、すなわち20%となる。
ステップST6は、前述同様に実行される。
ステップST7aにおいて、データ追加度判定部153は、匿名化度の条件「k=2以上」、データ追加度の条件「40%以上」及び情報損失度の条件「30%以下」を含むデータ追加度ポリシPD’をデータ追加度ポリシ格納部152から読み出す。また、データ追加度判定部153は、当該データ追加度ポリシPD’に基づいて、ステップST5で算出された匿名化度「k=2」、ステップST6で算出されたデータ追加度「22.5%」及びステップST5aで算出された情報損失度「20%」の受け入れを許可するか否かを判定する。データ追加度ポリシPD’のうち、匿名化度と情報損失度は条件を満たすが、データ追加度は条件を満たさないため、判定結果が否を示す。
ステップST8aにおいて、前述した通り、ステップST2〜ST7aの処理が再試行される。
ステップST1〜ST3、ST4a、ST5は、前述同様に実行される。
ステップST5aにおいて、情報損失度算出部140は、図8に示す如き、ステップST4aで送出された匿名化データDA2に基づいて、情報損失度を算出する。匿名化データDA2に関し、年齢の情報損失を前述同様に|v1−v2|/Niの式から計算し、性別の情報損失と住所の情報損失を前述同様に計算した計算結果を図11の計算結果テーブルT2に示す。また同様に、計算結果テーブルT2から情報損失の平均値を算出する。計算結果テーブルT2の全ての値の合計値を45(=15×3)で割ると、0.23という結果が得られる。従って、情報損失度は0.23、すなわち23%となる。
ステップST6は、前述同様に実行される。
ステップST7aにおいて、データ追加度判定部153は、匿名化度の条件「k=2以上」、データ追加度の条件「40%以上」及び情報損失度の条件「30%以下」を含むデータ追加度ポリシPD’をデータ追加度ポリシ格納部152から読み出す。また、データ追加度判定部153は、当該データ追加度ポリシPD’に基づいて、ステップST5で算出された匿名化度「k=2」、ステップST6で算出されたデータ追加度「45%」及びステップST5aで算出された情報損失度「23%」の受け入れを許可するか否かを判定する。データ追加度ポリシPD’の全ての条件を満たすため、判定結果が許可を示す。
従って、データ追加度判定部153は、処理を終了する。
上述したように本実施形態によれば、匿名化によって情報が失われた度合いを示す情報損失度を算出する構成により、第1の実施形態の効果に加え、匿名化による情報損失を所定範囲内に抑制することができる。
補足すると、データ所有者がデータ分析者に提供するデータは、匿名化度がポリシに定めた値以上であることから必要最小限となる。データ所有者は、情報損失度がポリシに定めた値以下であることから所望する分析精度を得ることができ、かつ将来、どの程度のデータが追加できるのかのデータ追加度を考慮することにより、より多くのデータを追加できる匿名化方法を選択することができる。
また、本実施形態によれば、データ追加度判定部153が、匿名化指標ポリシに基づいて、算出された匿名化度、算出されたデータ追加度及び算出された情報損失度の受け入れを許可するか否かを判定する場合には、作業者による判定の手間や労力を削減できる。
さらに、本実施形態によれば、当該判定した結果が許可を示す場合には処理を終了する。また、当該判定した結果が否を示す場合には匿名化装置120、匿名化度算出部130、情報損失度算出部140及びデータ追加度算出装置150を再試行するように、当該各装置及び各部を制御するので、匿名化指標ポリシを満たす匿名化データを容易に生成できる。
<第3の実施形態>
図12は第3の実施形態に係る匿名化指標算出システムの構成を示す模式図である。
図12は第3の実施形態に係る匿名化指標算出システムの構成を示す模式図である。
第3の実施形態は、一様分布した値をもつ元データを仮定していた第1の実施形態の変形例であり、既知の確率密度関数に対応して分布した値をもつ元データを仮定した例である。
具体的には、匿名化指標算出システム100は、図1に示した構成に比べ、データ分布格納部160を更に備えている。
データ分布格納部160は、図13に示すように、元データ格納データベース装置110内の元データDの確率密度関数を表すテーブルT3を格納している。
テーブルT3は、各行で定義される年齢、性別、住所の範囲での確率密度の値が「値」列に書かれている。例えば、年齢が20−22、性別が「任意」、住所が「任意」の場合の確率密度の値は0である。年齢が23−24、性別が「任意」、住所が「任意」の場合の確率密度の値は0.05である。テーブルT3の各行の範囲内では一様分布しているものとする。例えばテーブルT3の上から3行目の、年齢が25−29、性別が男、住所が「任意」の確率密度の値は0.10であるが、この範囲内には5×1×5=25通りの値が含まれている。これら25通りの各値(例えば、年齢が26歳、性別が男、住所が横浜市)の確率密度の値は、0.10/25=0.004であるものとする。
これに伴い、データ追加度算出部151は、匿名化装置120により生成された匿名化データと、データ分布格納部160内のテーブルT3とに基づいて、元データDから匿名化データが生成される確率に相当するデータ追加度を算出する機能をもっている。
次に、以上のように構成された匿名化指標算出システムの動作について図14のフローチャートを用いて説明する。以下の説明では、図3,図15〜図16に示す具体的なデータを用いて、各ステップの処理を述べる。
ステップST1〜ST5は、第1の実施形態のステップST1〜ST5と同様に実行される。
ステップST6bにおいて、データ追加度算出部151は、元データDから匿名化データDA1が生成される確率に相当するデータ追加度を算出する。この例では、データ追加度算出部151は、図16に示す如き、ステップST4で受けた匿名化データDA1と、図13に示す如き、データ分布格納部160から読み出したテーブルT3とに基づいて、データ追加度を算出する。後述するように、データ追加度は0.3025、すなわち30.25%となる。
ステップST7による判定の結果、第1の実施形態と同様に、匿名化度は条件を満たすが、データ追加度は条件「40%以上」を満たさない。このため、判定した結果は否を示す。このため、第1の実施形態と同様にステップST8からステップST2に戻り、ステップST2〜ST7を再試行する。再試行中、2回目のステップST2〜ST5は、第1の実施形態と同様に実行される。
ステップST6bにおいて、データ追加度算出部151は、元データDから匿名化データDA2が生成される確率に相当するデータ追加度を算出する。この例では、データ追加度算出部151は、図3に示す如き、ステップST4で受けた匿名化データDA2と、図13に示す如き、データ分布格納部160から読み出したテーブルT3とに基づいて、データ追加度を算出する。後述するように、データ追加度は0.49、すなわち49%となる。
ステップST7による判定の結果、第1の実施形態と同様に、匿名化度及びデータ追加度の両者が条件を満たすので、判定した結果は許可を示す。
従って、データ追加度判定部153は、処理を終了する。
次に、ステップST6bにおけるデータ追加度の算出方法について説明する。
データ追加度算出部151は、匿名化データが取っている範囲の確率をテーブルT3に表される確率密度関数fから算出し、当該算出した確率をデータ追加度とする。
1回目のステップST6bに用いる匿名化データDA1は、以下の値を取っている。
(25−29、男、東京)、
(25−29、女、神奈川)、
(30−34、男、神奈川)、
(35−39、女、東京)、
(40−44、女、神奈川)、
(45−49、男、東京)、
(50−54、男、東京)
例えば一番上の行(25−29、男、東京)に対し、テーブルT3では、年齢が25−29、性別が男、住所が「任意」の確率密度の値が0.10である。このため、確率は0.10×3/5=0.06である。ここで3/5を乗じた理由は、確率密度関数fの住所が「任意」であるのに対し、一番上の行の住所が東京であるため、東京に含まれる市町村数3を「任意」に含まれる市町村数5で割る必要があるためである。また3番目の(30−34、男、神奈川)では、年齢が30−39、性別が「任意」、住所が「任意」の確率密度の値は0.35であることから、確率は0.35×5/10×1/2×2/5=0.035である。ここで、5/10、1/2、2/5を乗じた理由は、確率密度関数fの年齢、性別、住所の範囲に対し、3番目の行の年齢、性別、住所の範囲が小さいためである。例えば、確率密度関数fの年齢が30−39、性別が「任意」、住所が「任意」である。また、3番目の行の年齢が30−34、性別が男、住所が神奈川である。このため、3番目の行の年齢の取りうる範囲が5/10、性別の取りうる範囲が1/2、住所の取りうる範囲が2/5と小さくなる。他の値も同様にすると、確率は上の行から順に、以下のように算出される。
(25−29、女、神奈川)、
(30−34、男、神奈川)、
(35−39、女、東京)、
(40−44、女、神奈川)、
(45−49、男、東京)、
(50−54、男、東京)
例えば一番上の行(25−29、男、東京)に対し、テーブルT3では、年齢が25−29、性別が男、住所が「任意」の確率密度の値が0.10である。このため、確率は0.10×3/5=0.06である。ここで3/5を乗じた理由は、確率密度関数fの住所が「任意」であるのに対し、一番上の行の住所が東京であるため、東京に含まれる市町村数3を「任意」に含まれる市町村数5で割る必要があるためである。また3番目の(30−34、男、神奈川)では、年齢が30−39、性別が「任意」、住所が「任意」の確率密度の値は0.35であることから、確率は0.35×5/10×1/2×2/5=0.035である。ここで、5/10、1/2、2/5を乗じた理由は、確率密度関数fの年齢、性別、住所の範囲に対し、3番目の行の年齢、性別、住所の範囲が小さいためである。例えば、確率密度関数fの年齢が30−39、性別が「任意」、住所が「任意」である。また、3番目の行の年齢が30−34、性別が男、住所が神奈川である。このため、3番目の行の年齢の取りうる範囲が5/10、性別の取りうる範囲が1/2、住所の取りうる範囲が2/5と小さくなる。他の値も同様にすると、確率は上の行から順に、以下のように算出される。
0.10×3/5=0.06
0.05×2/5=0.02
0.35×5/10×1/2×2/5=0.035
0.35×5/10×1/2×3/5=0.0525
0.30×5/10×1/2×2/5=0.03
0.30×5/10×1/2×3/5=0.045
0.10×3/5=0.06
匿名化データDA1が取っている範囲の確率は、これら7行の確率の和であり、0.06+0.02+0.035+0.0525+0.03+0.045+0.06=0.3025と算出される。当該算出された確率が匿名化データDA1のデータ追加度である。
0.05×2/5=0.02
0.35×5/10×1/2×2/5=0.035
0.35×5/10×1/2×3/5=0.0525
0.30×5/10×1/2×2/5=0.03
0.30×5/10×1/2×3/5=0.045
0.10×3/5=0.06
匿名化データDA1が取っている範囲の確率は、これら7行の確率の和であり、0.06+0.02+0.035+0.0525+0.03+0.045+0.06=0.3025と算出される。当該算出された確率が匿名化データDA1のデータ追加度である。
同様に、2回目のステップST6bに用いる匿名化データDA2は、以下の値を取っている。
(20代、男、東京)、
(20代、女、神奈川)、
(30代、男、神奈川)、
(30代、女、東京)、
(40代、男、東京)、
(40代、女、神奈川)、
(50代、男、東京)、
各行の確率は、上の行から順に、以下のように算出される。
(20代、女、神奈川)、
(30代、男、神奈川)、
(30代、女、東京)、
(40代、男、東京)、
(40代、女、神奈川)、
(50代、男、東京)、
各行の確率は、上の行から順に、以下のように算出される。
(0.05×1/2+0.10)×3/5=0.075
(0.05×1/2+0.05)×2/5=0.03
0.35×1/2×2/5=0.07
0.35×1/2×3/5=0.105
0.30×1/2×3/5=0.09
0.30×1/2×2/5=0.06
0.10×3/5=0.06
匿名化データDA2が取っている範囲の確率は、これら7行の和であり、0.075+0.03+0.07+0.105+0.09+0.06+0.06=0.49と算出される。この算出された確率が匿名化データDA2のデータ追加度である。
(0.05×1/2+0.05)×2/5=0.03
0.35×1/2×2/5=0.07
0.35×1/2×3/5=0.105
0.30×1/2×3/5=0.09
0.30×1/2×2/5=0.06
0.10×3/5=0.06
匿名化データDA2が取っている範囲の確率は、これら7行の和であり、0.075+0.03+0.07+0.105+0.09+0.06+0.06=0.49と算出される。この算出された確率が匿名化データDA2のデータ追加度である。
第1の実施形態と同様に、新規データD’が追加された場合を再び考える。追加された新規データD’を元データの匿名化データDA1と同じ方法で匿名化した場合、実際に追加できる割合は33%であり、追加データを匿名化データDA2と同じ方法で匿名化すると、87%であった。
第1の実施形態で算出したデータ追加度はそれぞれ22.5%、45%であったのに対し、第3の実施形態で算出したデータ追加度はそれぞれ30.25%、49%である。従って、第3の実施形態で算出したデータ追加度(30.25%、49%)は、第1の実施形態で算出したデータ追加度(22.5%、45%)に比べ、実際に追加できる割合(33%、87%)に近い値となっている。
上述したように本実施形態によれば、元データの確率密度関数に基づいて、元データDから匿名化データが生成される確率に相当するデータ追加度を算出する構成により、第1の実施形態に比べ、より正確なデータ追加度を算出することができる。
また、第3の実施形態は、第1の実施形態の変形例として説明したが、これに限らず、第2の実施形態の変形例として実施することもできる。
以上説明した少なくとも一つの実施形態によれば、元データDから匿名化データが生成される確率に相当するデータ追加度を算出する構成により、元データを匿名化する場合に、匿名化度を維持しつつデータを追加できる度合を評価することができる。
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100…匿名化指標算出システム、110…元データ格納データベース装置、120…匿名化装置、121…データ項目抽出部、122…匿名化部、123…匿名化方法決定部、124…匿名化ポリシ格納部、130…匿名化度算出部、140…情報損失度算出部、150…データ追加度算出装置、151…データ追加度算出部、152…データ追加度ポリシ格納部、153…データ追加度判定部、160…データ分布格納部。
Claims (5)
- 匿名化度及びデータ追加度を含む匿名化指標を算出する匿名化指標算出システムであって、
各個人に関し、各項目毎に値を含む元データを記憶したデータ記憶手段と、
前記元データのうちの一部の項目の値を匿名化する処理により、当該元データから匿名化データを生成する匿名化手段と、
前記匿名化データに基づいて、前記匿名化した度合いを示す前記匿名化度を算出する匿名化度算出手段と、
前記元データから前記匿名化データが生成される確率に相当する前記データ追加度を算出する追加度算出手段と、
を備えたことを特徴とする匿名化指標算出システム。 - 請求項1に記載の匿名化指標算出システムにおいて、
前記匿名化度の条件及び前記データ追加度の条件を含む匿名化指標ポリシを格納する匿名化指標ポリシ格納手段と、
前記匿名化指標ポリシに基づいて、前記算出された匿名化度及び前記算出されたデータ追加度の受け入れを許可するか否かを判定する判定手段と、
を備えたことを特徴とする匿名化指標算出システム。 - 請求項2に記載の匿名化指標算出システムにおいて、
前記判定した結果が前記許可を示す場合には処理を終了し、前記判定した結果が前記否を示す場合には前記匿名化手段、前記匿名化度算出手段、前記追加度算出手段及び前記判定手段を再試行するように、当該各手段を制御する第1制御手段と、
を備えたことを特徴とする匿名化指標算出システム。 - 請求項2に記載の匿名化指標算出システムにおいて、
前記匿名化指標が情報損失度を含む場合には、前記匿名化データ及び前記元データに基づいて、前記匿名化によって情報が失われた度合いを示す前記情報損失度を算出する情報損失度算出手段を更に備え、
前記匿名化指標ポリシは、前記情報損失度の条件を更に含んでおり、
前記判定手段は、前記匿名化指標ポリシに基づいて、前記算出された匿名化度、前記算出されたデータ追加度及び前記算出された情報損失度の受け入れを許可するか否かを判定することを特徴とした匿名化指標算出システム。 - 請求項4に記載の匿名化指標算出システムにおいて、
前記判定した結果が前記許可を示す場合には処理を終了し、前記判定した結果が前記否を示す場合には前記匿名化手段、前記匿名化度算出手段、前記追加度算出手段、前記情報損失度算出手段及び前記判定手段を再試行するように、当該各手段を制御する第2制御手段と、
を備えたことを特徴とする匿名化指標算出システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014025891A JP6223853B2 (ja) | 2014-02-13 | 2014-02-13 | 匿名化指標算出システム |
PCT/JP2015/053627 WO2015122403A1 (ja) | 2014-02-13 | 2015-02-10 | 匿名化指標算出システム |
US15/235,887 US10346639B2 (en) | 2014-02-13 | 2016-08-12 | Anonymization identifier computing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014025891A JP6223853B2 (ja) | 2014-02-13 | 2014-02-13 | 匿名化指標算出システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015153106A JP2015153106A (ja) | 2015-08-24 |
JP6223853B2 true JP6223853B2 (ja) | 2017-11-01 |
Family
ID=53800146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014025891A Active JP6223853B2 (ja) | 2014-02-13 | 2014-02-13 | 匿名化指標算出システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10346639B2 (ja) |
JP (1) | JP6223853B2 (ja) |
WO (1) | WO2015122403A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017222475A1 (en) * | 2016-02-22 | 2018-10-04 | Tata Consultancy Services Limited | Systems and methods for computing data privacy-utility tradeoff |
KR102490529B1 (ko) * | 2017-11-03 | 2023-01-20 | 한국전자통신연구원 | 전주기적 비식별화 관리 장치 및 방법 |
JP6715816B2 (ja) * | 2017-11-20 | 2020-07-01 | 株式会社日立製作所 | 匿名化データ評価システム及び方法、並びに匿名レベル判定サーバ |
US11188678B2 (en) * | 2018-05-09 | 2021-11-30 | Fujitsu Limited | Detection and prevention of privacy violation due to database release |
JP7164333B2 (ja) * | 2018-06-27 | 2022-11-01 | 株式会社日立製作所 | 個人情報分析システム |
US11386216B2 (en) * | 2018-11-13 | 2022-07-12 | International Business Machines Corporation | Verification of privacy in a shared resource environment |
JP7088404B2 (ja) * | 2019-02-26 | 2022-06-21 | 日本電信電話株式会社 | 匿名性評価装置、匿名性評価方法、プログラム |
US11972021B2 (en) * | 2019-02-26 | 2024-04-30 | Nippon Telegraph And Telephone Corporation | Anonymization apparatus, anonymization method, and program |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4417132B2 (ja) | 2004-02-19 | 2010-02-17 | 日本電信電話株式会社 | プライバシ情報管理サーバ及び方法並びにプログラム |
JP2007219636A (ja) | 2006-02-14 | 2007-08-30 | Nippon Telegr & Teleph Corp <Ntt> | データ開示方法およびデータ開示装置 |
EP1950684A1 (en) * | 2007-01-29 | 2008-07-30 | Accenture Global Services GmbH | Anonymity measuring device |
JP4956455B2 (ja) | 2008-01-29 | 2012-06-20 | 株式会社日立製作所 | 情報管理装置、プログラム及び情報管理方法。 |
JP5008633B2 (ja) | 2008-10-15 | 2012-08-22 | 日本電信電話株式会社 | プライバシー侵害監視装置、プライバシー侵害監視方法及びプログラム |
US8326849B2 (en) * | 2009-06-25 | 2012-12-04 | University Of Ottawa | System and method for optimizing the de-identification of data sets |
JP2011133958A (ja) * | 2009-12-22 | 2011-07-07 | Michio Kimura | 匿名度の指標値を算出する情報処理システムおよび匿名度の指標値の算出方法 |
JP5626964B2 (ja) | 2010-03-29 | 2014-11-19 | Kddi株式会社 | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
JP5511532B2 (ja) | 2010-06-16 | 2014-06-04 | Kddi株式会社 | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
JP5611852B2 (ja) | 2011-01-31 | 2014-10-22 | Kddi株式会社 | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
JP6015658B2 (ja) | 2011-09-02 | 2016-10-26 | 日本電気株式会社 | 匿名化装置、及び、匿名化方法 |
US9782075B2 (en) * | 2013-03-15 | 2017-10-10 | I2Dx, Inc. | Electronic delivery of information in personalized medicine |
-
2014
- 2014-02-13 JP JP2014025891A patent/JP6223853B2/ja active Active
-
2015
- 2015-02-10 WO PCT/JP2015/053627 patent/WO2015122403A1/ja active Application Filing
-
2016
- 2016-08-12 US US15/235,887 patent/US10346639B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20160350558A1 (en) | 2016-12-01 |
US10346639B2 (en) | 2019-07-09 |
JP2015153106A (ja) | 2015-08-24 |
WO2015122403A1 (ja) | 2015-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6223853B2 (ja) | 匿名化指標算出システム | |
US11188791B2 (en) | Anonymizing data for preserving privacy during use for federated machine learning | |
Prasser et al. | Putting statistical disclosure control into practice: The ARX data anonymization tool | |
US10055430B2 (en) | Method for classifying an unmanaged dataset | |
Schneeweiss | Improving therapeutic effectiveness and safety through big healthcare data | |
US20220101969A1 (en) | Performing Analytics on Protected Health Information | |
JP5747012B2 (ja) | 匿名化データ変更システム | |
US11630853B2 (en) | Metadata classification | |
US10803466B2 (en) | Analytic modeling of protected health information | |
US10990689B1 (en) | Data governance through policies and attributes | |
US11748382B2 (en) | Data classification | |
Kläs et al. | Quality evaluation for big data: a scalable assessment approach and first evaluation results | |
Cordero et al. | Assessing Panamanian hospitals' performance with alternative frontier methods | |
US9130949B2 (en) | Anonymizing apparatus and anonymizing method | |
Sadki et al. | Resolving conflicting privacy policies in m-health based on prioritization | |
US11868613B1 (en) | Selection of health care data storage policy based on historical data storage patterns and/or patient characteristics using an artificial intelligence engine | |
Belo et al. | A process mining approach for discovering ETL black points | |
Huang et al. | Towards a unified framework for data cleaning and data privacy | |
JP5639094B2 (ja) | データベース撹乱パラメータ決定装置、データベース撹乱システム及び方法並びにデータベース撹乱装置 | |
Monteiro et al. | Data Anonymization: Techniques and Models | |
US20230334176A1 (en) | Data treatment apparatus and methods | |
US20230195921A1 (en) | Systems and methods for dynamic k-anonymization | |
US20240046012A1 (en) | Systems and methods for advanced synthetic data training and generation | |
Popova et al. | Statistical Approaches To Studying Economic Growth In Agricultural Sector Of The Region | |
Eswararaj | Developing a Data Quality Framework on Azure Cloud: Ensuring Accuracy, Completeness, and Consistency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171004 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6223853 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |