JP6223853B2

JP6223853B2 - 匿名化指標算出システム

Info

Publication number: JP6223853B2
Application number: JP2014025891A
Authority: JP
Inventors: 小池　正修; 正修小池; パキンオソトクラパヌン; 佐野　文彦; 文彦佐野; 美千代池上; 佑樹綛田
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2014-02-13
Filing date: 2014-02-13
Publication date: 2017-11-01
Anticipated expiration: 2034-02-13
Also published as: US20160350558A1; US10346639B2; JP2015153106A; WO2015122403A1

Description

本発明の実施形態は、匿名化指標算出システムに関する。

企業や個人といったデータ所有者が所有するデータは、増大化・複雑化する一方である。また、データ所有者は、大量のデータを所有する反面、大量のデータに対する分析スキルや分析システムを持たない場合が多い。ここでいう分析スキルは、統計学及び分析ツールの専門的な知識等を意味する。分析システムは、分析ツール、及び大量のデータを高速に分析可能な分散システム等を意味する。

従って、大量のデータを分析して有効活用を図る場合、分析スキルや分析システムを持つ外部の専門家等のデータ分析者にデータの分析を委託する形態が広まりつつある。

その反面、分析対象のデータには個人情報が含まれる場合があるので、プライバシー保護の観点から、安易にデータ分析者にデータを提供することは望ましくない。

ここで、プライバシを保護しつつ、データ分析者にデータを提供可能な技術の一つに、匿名化技術がある（例えば、非特許文献１参照）。匿名化技術は、分析対象のデータから個人を特定できないように、分析対象のデータの一部に変更を加える技術の総称である。

特開２０１０−９７３３６号公報

"個人情報匿名化基盤"、［online］、経済産業省、情報大航海プロジェクト、［平成２５年８月１３日検索］、インターネット＜URL：http://www.meti.go.jp/policy/it_policy/daikoukai/igvp/cp2_jp/common/024/010/post-9.html＞ "パーソナル情報保護・解析基盤の開発・改良と検証個人情報匿名化基盤外部仕様書"、［online］、経済産業省、情報大航海プロジェクト、［平成２５年８月１３日検索］、インターネット＜http://www.meti.go.jp/policy/it_policy/daikoukai/igvp/cp2_jp/common/personal/2009_infra_A_1_External_specifications.pdf＞、３．１０．３節

以上のような匿名化技術は、通常は特に問題ないが、本発明者の検討によれば、以下に述べるように、元データを匿名化する場合に、匿名化度を維持しつつデータを追加できる度合を評価できない点で改良の余地がある。

始めに、本発明者の検討によれば、データ所有者は２つの要求をもっている。

第１の要求は、データ分析者に提供する匿名化されたデータ（匿名化データ）を必要最小限にしてプライバシー情報の漏えいを防ぐという要求である。

第２の要求は、分析結果の精度を上げたいという要求である。

一般的に、匿名化データの情報量は、元データの情報量よりも小さい。また、データ分析者に提供する匿名化データの情報量が小さい場合、分析結果の精度が下がる。このため、第１及び第２の要求は、二律背反の関係となる。

この第１又は第２の要求を満たす度合を定量的に評価する指標がいくつか提案されている。第１の要求については、匿名化された度合を定量的に評価する指標が提案されている。以下、この指標を「匿名化度」と呼ぶ。匿名化度の一例として、ｋ−匿名性がある。データの各属性の組合せにおいて、どの値の組合せもｋレコード以上存在する場合、ｋ−匿名性を満たすという。一般に、ｋの値が大きい方がプライバシー情報の漏えいが少ない。

一方、第２の要求については、匿名化によって情報量が失われた度合を評価する指標が提案されている。以下、この指標を「情報損失度」と呼ぶ。情報損失度の一例は、非特許文献２の３．１０．３節に記載されている。

第１及び第２の要求を満たすには、匿名化度を可能な限り大きくし、情報損失度を可能な限り小さくすることが必要である。

また、第２の要求を満たすためには、データ量が多い方が好ましい。従って、データを後から追加（増加）できることが望ましい。特許文献１には、データを追加した際に、匿名化度の喪失を回避する度合を評価し、当該度合がデータ所有者が定めた基準を下回った場合に警告を発するシステムが開示されている。

ここで、第１の要求を満たすためには、上記の基準を下回った場合に、追加したデータをデータ分析者に提供しないことが望ましい。従って、従来技術では、匿名化度を下げないデータのみしか追加できず、データ量を多くして分析結果の精度を上げることができないという不都合がある。

次に、この不都合について、図１５〜図２１に示す具体的なデータを用いて説明する。

データ所有者が元々所有するデータ（元データ）Ｄは、図１５に示すように、年齢、性別、住所、病名、の４つの項目を持つテーブルに記憶されている。このデータを用いた分析は、年齢、性別、住所ごとの病名の分布確率を求めるものとする。また、匿名化の対象とする項目は、年齢、性別、住所であるものとする。すなわち、病名は個人の特定につながらないものとする。

プライバシー情報の漏えいを防ぐために（第１の要求）、元データＤを匿名化度がｋ＝２となるように匿名化し、図１６に示すように、匿名化データＤＡ１を得る。実際、ｋ＝２であることは、匿名化データＤＡ１の匿名化対象の項目である、年齢、性別、住所の値の組合せにおいて、どの値の組合せも２つ以上の行が存在することから分かる。元データＤから匿名化データＤＡ１を導出する際には、２つの匿名化手法を用いている。

１つ目は年齢のグルーピング（５歳刻み）である。年齢のグルーピング手法では、匿名化データＤＡ１の年齢欄に示すように、元データＤの年齢の値を、当該年齢の値を含む５歳の幅に置き換える。これにより、例えば、元データＤの一番上のデータの年齢の値“２５”は、当該年齢の値“２５”を含む５歳の幅“２５−２９”に置き換えられる。

２つ目は住所の一般化（都道府県）である。住所は、図１７に示すように階層構造を有している。住所の一般化手法では、元データＤの最下層の市町村レベルＬａ３の値を、１つ上の階層の都道府県レベルＬａ２の値に置き換えている。これにより、例えば、元データＤの一番上のデータの住所の値“横浜市”は、１つ上の階層の値“神奈川”という県名に置き換えられる。

匿名化データＤＡ１を分析すると、以下のような結果が得られる。

（２５−２９、女、神奈川）の人は、病名がかぜである確率が５０％であり、インフルエンザである確率が５０％である。

（３０−３４、男、神奈川）の人は、病名が風しんである確率が１００％である。

ここで、（２５−２９、女、神奈川）は、年齢が２５−２９、性別が女、住所が神奈川のレコードを指している。

しかしながら、匿名化データＤＡ１の分析結果は、それぞれ母集団が２、３人であるため、精度が低い可能性がある。そこで、分析結果の精度を上げるために（第２の要求）、図１８に示すように、新規データＤ’が追加されたものとする。

前述同様に、プライバシー情報の漏えいを防ぐために（第１の要求）、新規データＤ’を匿名化度ｋ＝２となるように匿名化し、図１９に示すように、匿名化データＤＡ３を得る。新規データＤ’から匿名化データＤＡ３を導出する際には、２つの匿名化手法を用いている。

１つ目は、前述同様に、年齢のグルーピング（５歳刻み）である。但し、前述した匿名化データＤＡ１では２５歳から５歳刻みとしたのに対し、今回の匿名化データＤＡ３では２３歳からの５歳刻みとしている。

２つ目は性別の一般化（任意）である。性別は、図２０に示すように階層構造を有している。性別の一般化手法では、新規データＤ’の最下層の男女レベルＬｓ２の値を、１つ上の階層の任意（Ａｎｙ）レベルＬｓ１の値に置き換えている。

新規データＤ’の匿名化データＤＡ３を分析すると、以下のような結果が得られる。

（２３−２７、任意、神奈川）の人は、病名が骨折である確率が５０％であり、インフルエンザである確率が５０％である。

（２８−３２、任意、神奈川）の人は、病名が風しんである確率が６７％であり、かぜである確率が３３％である。

しかしながら、匿名化データＤＡ３の分析結果は、新規データＤ’のみの分析結果であり、新規データＤ’を元データＤに合併させたデータの分析結果になっていない。理由は、新規データＤ’及び元データＤの両者の匿名化方法が互いに異なり、両者を合併して分析することが困難なためである。このため、新規データＤ’を追加したにもかかわらず、母集団が増えず、分析結果の精度が上がっていない（第２の要求を満たしていない）。

これに対し、新規データＤ’を元データの匿名化データＤＡ１と同じ方法で匿名化し、図２１に示すように、匿名化データＤＡ１’を得たとする。匿名化データＤＡ１’のデータのうち、破線ＤＬ１で示す行の５個のデータを匿名化データＤＡ１に合併した場合、匿名化データＤＡ１にも同じデータが存在しているので、合併後の匿名化データの匿名化度はｋ＝２に維持される。

しかしながら、匿名化データＤＡ１’のうち、他の行の１０個のデータを匿名化データＤＡ１に合併した場合、匿名化データＤＡ１には同じデータが存在しないため、合併後の匿名化データの匿名化度はｋ＝１に低下する。このような匿名化度の低下は、第１の要求の観点から好ましくない。

すなわち、合併前の匿名化度を合併後に維持するには、匿名化データＤＡ１’のうち、破線ＤＬ１で示す行の５個のデータしか追加できない。これは、１５個の匿名化データＤＡ１’の１／３の５個のデータしか追加できないことになり、分析結果の精度を上げるために（第２の要求）、より多くのデータを追加したいという観点で望ましくない。

本発明者の検討によれば、匿名化度を維持しつつ、多くのデータを追加できるか否かは、元データの匿名化方法に依存すると推測される。上述した例では、新規データＤ’を匿名化データＤＡ１と同じ方法で匿名化した場合、匿名化度が維持されない。しかし、他の方法で匿名化した場合には、合併前の匿名化度を合併後にも維持させるデータの個数が５個を超える可能性がある。従って、元データを匿名化する場合に、匿名化度を維持しつつデータを追加できる度合を評価したい要望がある。

本発明が解決しようとする課題は、元データを匿名化する場合に、匿名化度を維持しつつデータを追加できる度合を評価し得る匿名化指標算出システムを提供することである。

実施形態の匿名化指標算出システムは、匿名化度及びデータ追加度を含む匿名化指標を算出する。前記匿名化指標算出システムは、データ記憶手段、匿名化手段、匿名化度算出手段及び追加度算出手段を備えている。

前記データ記憶手段は、各個人に関し、各項目毎に値を含む元データを記憶している。

前記匿名化手段は、前記元データのうちの一部の項目の値を匿名化する処理により、当該元データから匿名化データを生成する。

前記匿名化度算出手段は、前記匿名化データに基づいて、前記匿名化した度合いを示す前記匿名化度を算出する。

前記追加度算出手段は、前記元データから前記匿名化データが生成される確率に相当する前記データ追加度を算出する。

第１の実施形態に係る匿名化指標算出システムの構成を示す模式図である。同実施形態における匿名化ポリシＰＡの一例を示す模式図である。同実施形態における匿名化データＤＡ２の一例を示す模式図である。同実施形態におけるデータ追加度ポリシＰＤの一例を示す模式図である。同実施形態における動作を説明するためのフローチャートである。同実施形態における匿名化データＤＡ２’の一例を示す模式図である。第２の実施形態に係る匿名化指標算出システムの構成を示す模式図である。同実施形態におけるデータ追加度ポリシＰＤ’の一例を示す模式図である。同実施形態における動作を説明するためのフローチャートである。同実施形態における匿名化データＤＡ１の情報損失に対応する計算結果テーブルＴ１を示す模式図である。同実施形態における匿名化データＤＡ２の情報損失に対応する計算結果テーブルＴ２を示す模式図である。第３の実施形態に係る匿名化指標算出システムの構成を示す模式図である。同実施形態における確率密度関数の一例を表すテーブルＴ３の模式図である。同実施形態における動作を説明するためのフローチャートである。一般的な元データの一例を示す模式図である。一般的な匿名化データの一例を示す模式図である。住所の一般的な階層構造の一例を示す模式図である。一般的な追加データの一例を示す模式図である。一般的な匿名化データの一例を示す模式図である。性別の一般的な階層構造の一例を示す模式図である。一般的な匿名化データの一例を示す模式図である。

以下、各実施形態について図面を用いて説明する。なお、以下の各装置は、それぞれハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。

＜第１の実施形態＞
図１は第１の実施形態に係る匿名化指標算出システムの構成を示す模式図である。この匿名化指標算出システム１００は、匿名化度及びデータ追加度を含む匿名化指標を算出する。このため、匿名化指標算出システム１００は、元データ格納データベース装置１１０、匿名化装置１２０、匿名化度算出部１３０及びデータ追加度算出装置１５０を備えている。なお、匿名化指標算出システム１００は、装置の集合体として実施する場合に限定されない。例えば、「…システム１００」の語を「…装置１００」と読み替え、「…装置１１０」、「…装置１２０」及び「…装置１５０」の語を「…部１１０」、「…部１２０」及び「…部１５０」と読み替えることにより、単一の装置としても実施可能である。このことは以下の各実施形態でも同様である。

元データ格納データベース装置（データ記憶手段）１１０は、図１５に示したように、データ所有者が所有する匿名化前の元データＤを保持する機能と、保持している元データＤを匿名化装置１２０に渡す機能と、を有する。「元データ」は、「匿名化前のデータ」と呼んでもよく、または、単に「データ」と呼んでもよい。

ここで、元データＤは、各個人に関し、各項目毎に値を含んでいる。ここで、各項目としては、例えば、身長、性別、年齢を用いている。なお、元データＤとしては、例えば、年齢、性別、住所及び病名を個人毎に含むレセプト情報などを使用してもよい。この場合、病名を匿名化せず、年齢、性別、住所などを適宜、匿名化して使用することが、特定の病名に関する分析結果を得る点と、個人の特定を防ぐ点から好ましい。また、元データＤとしては、各列（属性）の情報と、各行（レコード）の情報とからなるテーブルを用いてもよい。ここで、各列は各属性に対応し、各行は各個人に対応する。

匿名化装置（匿名化手段）１２０は、元データＤのうちの一部の項目の値を匿名化する処理により、当該元データＤから匿名化データを生成する装置である。匿名化装置１２０は、例えば、データ項目抽出部１２１、匿名化部１２２、匿名化方法決定部１２３及び匿名化ポリシ格納部１２４を備えている。

なお、各部は、受けた情報をそのまま送出する場合などには、適宜、省略してもよい。例えば、データ項目抽出部１２１は、受けた情報をそのまま送出する場合などには省略してもよい。また、受けた情報をそのまま送出する機能部を省略してもよいことは、他の各部及び以下の各実施形態でも同様である。

ここで、データ項目抽出部１２１、匿名化部１２２及び匿名化方法決定部１２３は、例えば、図示しないＣＰＵが、後述する各ステップを含むプログラムを実行することにより実現される機能ブロックとなっている。

匿名化ポリシ格納部１２４は、図２に示すように、匿名化ポリシＰＡを保持する機能と、匿名化ポリシＰＡを匿名化方法決定部１２３に渡す機能と、を有する。ここで、匿名化ポリシＰＡは、適用順位、匿名化する項目、匿名化方法、の３つの項目を持つテーブルである。適用順位は、例えば分析精度を維持し易い順序に相当する。例えば、最も分析精度を維持し易い匿名化方法が適用順位１位に関連付けられる。匿名化ポリシＰＡ内の匿名化する項目は、データＤの各項目のうち、匿名化する項目を示している。例えば、匿名化ポリシＰＡ内の適用順位“１位”の匿名化する項目“グルーピング（５歳刻み）”及び“一般化（都道府県）”に基づいて、データＤの項目の値が匿名化されることにより、図１６に示した如き、匿名化データＤＡ１が生成される。また、匿名化ポリシＰＡ内の適用順位“２位”の匿名化する項目“グルーピング（１０歳刻み）”の匿名化する項目に基づいて、データＤの項目の値が匿名化されることにより、図３に示す如き、匿名化データＤＡ２が生成される。

匿名化度算出部（匿名化度算出手段）１３０は、匿名化装置１２０により生成された匿名化データ及び元データＤに基づいて、匿名化部１２２により匿名化した度合いを示す匿名化度を算出する機能をもっている。算出された匿名化度は、匿名化度算出部１３０からデータ追加度判定部１５３に送出される。

データ追加度算出装置１５０は、データ追加度算出部１５１、データ追加度ポリシ格納部１５２及びデータ追加度判定部１５３を備えている。

ここで、データ追加度算出部（追加度算出手段）１５１及びデータ追加度判定部（判定手段、第１制御手段）１５３は、例えば、図示しないＣＰＵが、後述する各ステップを含むプログラムを実行することにより実現される機能ブロックとなっている。
データ追加度ポリシ格納部（匿名化指標ポリシ格納手段）１５２は、図４に示すように、匿名化指標の条件を含むデータ追加度ポリシＰＤを保持する機能と、データ追加度判定部１５３の要求に応じてデータ追加度ポリシＰＤを渡す機能と、を有する。ここで、データ追加度ポリシ（匿名化指標ポリシ）ＰＤは、匿名化指標、それぞれの匿名化指標が満たすべき条件、の２つの項目を持つテーブルである。匿名化指標としては、例えば、匿名化度及びデータ追加度が適宜、使用可能となっている。匿名化指標は、これに限らず、後述する情報損失度を含んでもよい。条件としては、例えば、匿名化指標の範囲、匿名化指標の上限値又は下限値などが適宜、使用可能となっている。なお、「匿名化指標」は「匿名化評価指標」又は「評価指標」等と読み替えてもよい。

次に、以上のように構成された匿名化指標算出システムの動作について図５のフローチャートを用いて説明する。

データ項目抽出部１２１は、元データ格納データベース装置１１０から、全ての項目の元データＤを抽出し、当該元データを匿名化部１２２に送出する（ＳＴ１）。なお、データ項目抽出部１２１は、図示しない入力部から指示された項目に基づいて、当該項目に一致する項目及び値を含む元データＤを元データ格納データベース装置１１０から抽出してもよい。

匿名化部１２２は、ステップＳＴ１で送出された元データＤを匿名化方法決定部１２３に送出し、匿名化方法を匿名化方法決定部１２３に問い合わせる（ＳＴ２）。

匿名化方法決定部１２３は、匿名化ポリシＰＡを参照し、ステップＳＴ２で送出された元データＤ内の項目に一致する匿名化ポリシＰＡ内の匿名化する項目に関連付けられた匿名化方法であって未適用の匿名化方法を読み出す。また、匿名化方法決定部１２３は、未適用の匿名化方法のうち、最高の適用順位に関連付けられた匿名化方法を決定し、当該決定した匿名化方法を匿名化部１２２に通知する（ＳＴ３）。また、匿名化方法決定部１２３は、当該決定した匿名化方法を示す情報をメモリ（図示せず）に保持する。決定した匿名化情報を示す情報としては、例えば、決定した匿名化方法を用いてもよく、あるいは、決定した匿名化方法に関連付けられた適用順位を用いてもよい。

匿名化部１２２は、ステップＳＴ１で送出された元データのうち、ステップＳＴ３で決定された匿名化方法に関連付けられた匿名化ポリシＰＡ内の匿名化する項目に一致する項目の値を匿名化することにより、当該元データＤから匿名化データを生成する（ＳＴ４）。しかる後、匿名化部１２２は、生成した匿名化データを匿名化度算出部１３０及びデータ追加度算出部１５１に送信する。また、匿名化部１２２は、生成した匿名化データを保持する。

匿名化度算出部１３０は、匿名化部１２２から匿名化データに基づいて、匿名化した度合いを示す匿名化度を算出する（ＳＴ５）。

データ追加度算出部１５１は、元データＤから匿名化データが生成される確率に相当するデータ追加度を算出する。この例では、データ追加度算出部１５１は、元データＤの各項目の値の取り得る範囲と、匿名化データの各項目の値が取っている範囲とに基づいて、匿名化度を下げずに新たな匿名化データを追加可能な度合いを示すデータ追加度を算出する（ＳＴ６）。

データ追加度判定部１５３は、匿名化度の条件及びデータ追加度の条件を含むデータ追加度ポリシＰＤをデータ追加度ポリシ格納部１５２から読み出す。また、データ追加度判定部１５３は、当該データ追加度ポリシＰＤに基づいて、ステップＳＴ５で算出された匿名化度及びステップＳＴ６で算出されたデータ追加度の受け入れを許可するか否かを判定する（ＳＴ７）。判定した結果が許可を示す場合には、データ追加度判定部１５３は処理を終了する。ステップＳＴ７で判定した結果が否を示す場合には、データ追加度判定部１５３は、ステップＳＴ８に進む。

データ追加度判定部１５３は、ステップＳＴ２〜ＳＴ７の処理を再試行（リトライ）するように、匿名化装置１２０、匿名化度算出部１３０及びデータ追加度算出装置１５０を制御する。例えば、データ追加度判定部１５３は、再度匿名化方法を問い合わせるための再試行要求を匿名化装置１２０に送出する（ＳＴ８）。これにより、ステップＳＴ２〜ＳＴ７の処理が再試行される。

以下、図２〜図４、図１５〜図１７に示す具体的なデータを用いて、各ステップの処理を説明する。

ステップＳＴ１において、データ項目抽出部１２１は、元データ格納データベース装置１１０から、図１５に示すように、全ての元データＤを抽出し、当該元データＤを匿名化部１２２に送出する。送出した元データＤは「項目（年齢、性別、住所、病名）」の全行である。

ステップＳＴ２において、匿名化部１２２は、匿名化方法を匿名化方法決定部１２３に問い合わせる。ここで問い合わせる内容は「項目（年齢、性別、住所）に関する匿名化方法」とする。

ステップＳＴ３において、匿名化方法決定部１２３は、図２に示す如き、匿名化ポリシ格納部１２４内の匿名化ポリシＰＡに基づいて匿名化方法を決定し、当該匿名化方法を匿名化部１２２に通知する。ここで、匿名化方法決定部１２３は、匿名化ポリシＰＡ内の匿名化方法のうち、未適用の匿名化方法であって、最高の適用順位に関連付けられた匿名化方法「年齢のグルーピング（５歳刻み）」及び「住所の一般化（都道府県）」を匿名化部１２２に通知する。同時に、匿名化方法決定部１２３は、今回適用した適用順位「１位」の適用済みを示す情報を保持する。

ステップＳＴ４において、匿名化部１２２は、通知された匿名化方法に基づいて、元データを匿名化処理し、匿名化データＤＡ１を生成する。年齢のグルーピング（５歳刻み）では、図１６の匿名化データＤＡ１の年齢欄に示すように、年齢の値をそれが含まれる５歳の幅に置き換える。住所の一般化（都道府県）では、図１７に示す住所の階層構造のうち、住所の値をそれが含まれる都道府県レベルＬａ２の値に置き換える。例えば、市町村レベルＬａ３の住所の値が「港区」の場合には、住所の値「港区」をその一般化要素である「東京」に置き換える。しかる後、匿名化部１２２は、匿名化データＤＡ１を匿名化度算出部１３０及びデータ追加度算出部１５１に送出する。また、匿名化部１２２は、匿名化データＤＡ１を保持する。なお、匿名化度算出部１３０及びデータ追加度算出部１５１に送出されるデータ項目は、匿名化ポリシＰＡ内の匿名化する項目「年齢、性別、住所」である。

ステップＳＴ５において、匿名化度算出部１３０は、ステップＳＴ４で受けた匿名化データＤＡ１から匿名化度を算出する。ここでは、匿名化度として、ｋ−匿名性のｋの値を採用したものとする。匿名化データＤＡ１から分かるように、匿名化する項目「年齢、性別、住所」のどの値の組合せも２通り以上存在するので、ｋ＝２である。

ステップＳＴ６において、データ追加度算出部１５１は、ステップＳＴ４で受けた匿名化データＤＡ１からデータ追加度を算出する。後述するように、データ追加度は０．２２５、すなわち２２．５％となる。

ステップＳＴ７において、データ追加度判定部１５３は、図４に示す如き、匿名化度の条件「ｋ＝２以上」及びデータ追加度の条件「４０％以上」を含むデータ追加度ポリシＰＤを参照する。データ追加度判定部１５３は、当該データ追加度ポリシＰＤに基づいて、算出された匿名化度「ｋ＝２」及び算出されたデータ追加度「２２．５％」の受け入れを許可するか否かを判定する。データ追加度ポリシＰＤのうち、匿名化度は条件を満たすが、データ追加度は条件を満たさない。このため、判定した結果は否を示す。

ステップＳＴ８において、判定した結果が否を示す場合にはステップＳＴ２〜ＳＴ７の処理を再試行するように再試行要求が送出される。

ステップＳＴ２において、匿名化部１２２は、匿名化方法決定部１２３に匿名化方法を問い合わせる。問い合わせの内容は「適用順位を下げた匿名化方法」である。

ステップＳＴ３において、匿名化方法決定部１２３は、匿名化ポリシＰＡを参照して匿名化方法を決定し、匿名化方法を匿名化部１２２に通知する。ここで、匿名化方法決定部１２３は、匿名化ポリシＰＡのうち、記録していた適用済みの匿名化方法（適用順位１位）を除いて最高の適用順位に関連付けられた匿名化方法「グルーピング（１０歳刻み）」を匿名化部１２２に通知する。同時に、匿名化方法決定部１２３は、今回適用した適用順位「２位」の適用済みを示す情報を保持する。

ステップＳＴ４において、匿名化部１２２は、通知された匿名化方法に基づいて、元データＤを匿名化処理し、図３に示すように、匿名化データＤＡ２を生成する。匿名化部１２２は、生成した匿名化データＤＡ２を、匿名化度算出部１３０及びデータ追加度算出部１５１に送出する。また、匿名化部１２２は、送出した匿名化データＤＡ２を保持する。なお、匿名化度算出部１３０、データ追加度算出部１５１に送出されるデータ項目は、匿名化ポリシＰＡ内の匿名化する項目「年齢、性別、住所」でもよく、匿名化し直した項目「年齢」のみであってもよい。

ステップＳＴ５において、匿名化度算出部１３０は、ステップＳＴ４で受けた匿名化データＤＡ２から匿名化度を算出する。匿名化データＤＡ２から分かるように、匿名化する項目「年齢、性別、住所」のどの値の組合せも２通り以上存在するので、ｋ＝２である。

ステップＳＴ６において、データ追加度算出部１５１は、ステップＳＴ４で受けた匿名化データＤＡ２からデータ追加度を算出する。後述するように、データ追加度は０．４５、すなわち４５％となる。

ステップＳＴ７において、データ追加度判定部１５３は、前述同様に、匿名化度の条件「ｋ＝２以上」及びデータ追加度の条件「４０％以上」を含むデータ追加度ポリシＰＤを参照する。データ追加度判定部１５３は、当該データ追加度ポリシＰＤに基づいて、算出された匿名化度「ｋ＝２」及び算出されたデータ追加度「４５％」の受け入れを許可するか否かを判定する。データ追加度ポリシＰＤのうち、匿名化度及びデータ追加度の両者が条件を満たすので、判定した結果は、許可を示す。

従って、データ追加度判定部１５３は、処理を終了する。

次に、ステップＳＴ７におけるデータ追加度の算出方法の一例について説明する。

始めに、元データＤの取りうる範囲の「体積」を計算する。これは各項目の取りうる範囲の積とする。元データＤの各項目の取り得る範囲は、以下の通りとする。

年齢の取り得る範囲は、２０歳から５９歳までの４０通りである。

性別の取り得る範囲は、男又は女の２通りである。

住所の取り得る範囲は、港区、府中市、青梅市、横浜市、又は川崎市の５通りである。

元データの取りうる範囲の体積は、各項目の取り得る範囲の積「４０×２×５」から、「４００」となる。

次に、データ追加度の算出対象の匿名化データが取っている範囲の「体積」を計算する。

１回目のステップＳＴ６に用いる匿名化データＤＡ１は、以下の値をとる。ここで、（２５−２９、男、東京）は、年齢が２５歳から２９歳、性別が男、住所が東京という値であることを示している。

（２５−２９、男、東京）、
（２５−２９、女、神奈川）、
（３０−３４、男、神奈川）、
（３５−３９、女、東京）、
（４０−４４、女、神奈川）、
（４５−４９、男、東京）、
（５０−５４、男、東京）
例えば一番上の行（２５−２９、男、東京）では、年齢が２５歳から２９歳までの５通り、性別が男の１通り、住所が図１７に示すように港区、府中市、青梅市の３通りであるので、各項目の取り得る範囲の積「５×１×３」から体積「１５」が得られる。同様に、他の６個の行の体積は、上から順に１０、１０、１５、１０、１５、１５と得られる。なお、これら７個の行は、互いに取っている範囲の値に重複がない。従って、匿名化データＤＡ１が取っている範囲の体積は、７個の体積の和１５＋１０＋１０＋１５＋１０＋１５＋１５＝９０として得られる。

新たに元データを追加したとき、追加した元データの匿名化結果が匿名化データＤＡ１の取る範囲に収まると、匿名化度はｋ＝２を維持する。逆に、追加した元データの匿名化結果が匿名化データＤＡ１の取る範囲から逸脱すると、匿名化度が下がる。従って、匿名化度を下げずに新たなデータを匿名化データＤＡ１に追加できる確率は、匿名化データＤＡ１が取っている値の範囲（＝体積）を元データが取りうる値の範囲（＝体積）で割った値で評価することができる。上述した例では、この確率が９０／４００＝０．２２５となる。この確率が１回目のステップＳＴ６でのデータ追加度である。

同様に、２回目のステップＳＴ６での匿名化データＤＡ２が取る値を、以下に示す。

（２０代、男、東京）、
（２０代、女、神奈川）、
（３０代、男、神奈川）、
（３０代、女、東京）、
（４０代、男、東京）、
（４０代、女、神奈川）、
（５０代、男、東京）
各行の値の体積は、上から順に３０、２０、２０、３０、３０、２０、３０である。よって、匿名化データＤＡ２が取る範囲の体積は、各行の値の体積の和３０＋２０＋２０＋３０＋３０＋２０＋３０＝１８０として得られる。

従って、匿名化データＤＡ２のデータ追加度は、１８０／４００＝０．４５となる。

データ追加度の効果を見るために、図６、図１８及び図２１を用いて説明する。

図１８に示すように、新規データＤ’が追加されたものとする。追加された新規データＤ’を元データＤの匿名化データＤＡ１と同じ方法で匿名化すると、図２１に示すように、匿名化データＤＡ１’が得られる。元データＤの匿名化データＤＡ１の匿名化度を下げないように匿名化データＤＡ１’を追加するには、破線ＤＬ１で示す５行のデータのみを匿名化データＤＡ１に追加すればよい。この５行のデータは、新規データＤ’の５／１５＝３３％にあたる。

一方、新規データＤ’を匿名化データＤＡ２と同じ方法で匿名化すると、図６に示すように、匿名化データＤＡ２’となる。元データＤの匿名化データＤＡ２の匿名化度を下げないように匿名化データＤＡ２’のデータを追加するには、破線ＤＬ２で示す１３行のデータを匿名化データＤＡ２に追加すればよい。この１３行のデータは、新規データＤ’の１３／１５＝８７％にあたる。

本実施形態で求めたデータ追加度２２．５％及び４５％は、実際に追加できたデータの割合とは異なる。しかしながら、低いデータ追加度２２．５％の場合には、より少ないデータしか追加できず、高いデータ追加度４５％の場合には、より多くのデータを追加できることが相対的に分かる。

上述したように本実施形態によれば、元データから匿名化データが生成される確率に相当するデータ追加度を算出する構成により、元データを匿名化する場合に、匿名化度を維持しつつデータを追加できる度合を評価することができる。

補足すると、データ所有者がデータ分析者に提供する匿名化データは、匿名化度がデータ追加度ポリシＰＤに定めた値以上であるため、必要最小限となる。また、将来、追加できるデータの度合いを示すデータ追加度を算出する構成により、多くのデータを追加できる匿名化方法を選択することができる。

また、本実施形態によれば、データ追加度判定部１５３が、匿名化指標ポリシに基づいて、算出された匿名化度及び算出されたデータ追加度の受け入れを許可するか否かを判定する場合には、作業者による判定の手間や労力を削減することができる。

さらに、本実施形態によれば、当該判定した結果が許可を示す場合には処理を終了する。また、当該判定した結果が否を示す場合には匿名化装置１２０、匿名化度算出部１３０及びデータ追加度算出装置１５０を再試行するように、当該各装置及び各部を制御するので、匿名化指標ポリシを満たす匿名化データを容易に生成することができる。

＜第２の実施形態＞
図７は第２の実施形態に係る匿名化指標算出システムの構成を示す模式図であり、図１と同一部分には同一符号を付してその詳しい説明を省略し、ここでは異なる部分について主に述べる。なお、以下の各実施形態も同様にして重複した説明を省略する。

第２の実施形態は、匿名化度及びデータ追加度を含む匿名化指標を用いた第１の実施形態の変形例であり、匿名化指標が情報損失度を更に含む場合に対応している。

具体的には、匿名化指標算出システム１００は、匿名化指標が情報損失度を含む場合には、図１に示した構成に比べ、情報損失度算出部１４０を更に備えている。

情報損失度算出部（情報損失度算出手段）１４０は、匿名化データ及び元データに基づいて、匿名化によって情報が失われた度合いを示す情報損失度を算出する機能をもっている。

これに伴い、図８に示すように、データ追加度ポリシ（匿名化指標ポリシ）ＰＤ’は、情報損失度の条件を更に含んでいる。当該情報損失度の条件は、情報損失度が満たすべき条件を示している。

データ追加度判定部（判定手段）１５３は、当該データ追加度ポリシＰＤ’に基づいて、算出された匿名化度、算出されたデータ追加度及び算出された情報損失度の受け入れを許可するか否かを判定する機能をもっている。

また、データ追加度判定部（第２制御手段）１５３は、判定した結果が当該許可を示す場合には処理を終了する。データ追加度判定部１５３は、判定した結果が当該否を示す場合には匿名化装置１２０、匿名化度算出部１３０、データ追加度算出装置１５０及び情報損失度算出部１４０を再試行するように、当該各装置１２０，１５０及び各部１３０，１４０を制御する。

次に、以上のように構成された匿名化指標算出システムの動作について図９のフローチャートを用いて説明する。

ステップＳＴ１〜ＳＴ３は、第１の実施形態のステップＳＴ１〜ＳＴ３と同様に実行される。

ステップＳＴ４ａにおいて、匿名化部１２２は、第１の実施形態のステップＳＴ４に加え、生成した匿名化データを情報損失度算出部１４０にも送出する。

ステップＳＴ５は、第１の実施形態のステップＳＴ５と同様に実行される。

ステップＳＴ５ａにおいて、情報損失度算出部１４０は、ステップＳＴ４ａで送出された匿名化データに基づいて、情報損失度を算出する。

ステップＳＴ６は、第１の実施形態のステップＳＴ６と同様に実行される。

ステップＳＴ７ａにおいて、データ追加度判定部１５３は、匿名化度の条件、データ追加度の条件及び情報損失度の条件を含むデータ追加度ポリシＰＤ’をデータ追加度ポリシ格納部１５２から読み出す。また、データ追加度判定部１５３は、当該データ追加度ポリシＰＤ’に基づいて、ステップＳＴ５で算出された匿名化度、ステップＳＴ６で算出されたデータ追加度及びステップＳＴ５ａで算出された情報損失度の受け入れを許可するか否かを判定する。判定した結果が許可を示す場合には、データ追加度判定部１５３は処理を終了する。ステップＳＴ７ａで判定した結果が否を示す場合には、データ追加度判定部１５３は、ステップＳＴ８ａに進む。

データ追加度判定部１５３は、ステップＳＴ２〜ＳＴ７ａの処理を再試行（リトライ）するように、匿名化装置１２０、匿名化度算出部１３０、情報損失度算出部１４０及びデータ追加度算出装置１５０を制御する。例えば、データ追加度判定部１５３は、再度匿名化方法を問い合わせるための再試行要求を匿名化装置１２０に送出する（ＳＴ８ａ）。これにより、ステップＳＴ２〜ＳＴ７ａの処理が再試行される。

以下、図２〜図３、図８、図１０〜図１１、図１５〜図１６に示す具体的なデータを用いて、各ステップの処理を説明する。

元データ格納データベース装置１１０内の元データＤ及び匿名化ポリシ格納部１２４内の匿名化ポリシＰＡは、図１５及び図２に示すように、第１の実施形態と同じである。データ追加度ポリシ格納部１５２は、第１の実施形態とは異なり、図８に示すように、情報損失度の条件を更に含むデータ追加度ポリシＰＤ’を有するものとする。

ステップＳＴ１〜ＳＴ３、ＳＴ４ａ、ＳＴ５は、前述同様に実行される。

ステップＳＴ５ａにおいて、情報損失度算出部１４０は、図１６に示す如き、ステップＳＴ４ａで送出された匿名化データＤＡ１に基づいて、情報損失度を算出する。ここでは情報損失度として、非特許文献２の３．１０．３節記載の方法を採用したものとする。年齢は数値型の情報であるので、年齢の情報損失は、非特許文献２の３．１０．３節（１）記載の方法に従って算出される。

すなわち、数値型の情報損失は、対象項目の匿名化前の値ｖ１と匿名化後の値ｖ２の差分｜ｖ１−ｖ２｜を、匿名化前の最大値と最小値の差分値で表される値域Ｎｉで除算した値（｜ｖ１−ｖ２｜／Ｎｉ）として得られる。

例えば、匿名化前の最大値と最小値の差分値で表される値域Ｎｉは、元データＤ内の年齢の値より５４−２５＝２９である。この場合、匿名化データＤＡ１の年齢の情報損失は、｜ｖ１−ｖ２｜／２９として計算され、図１０の計算結果テーブルＴ１の年齢の列に示すように得られる。

性別は文字列型（一般化階層情報有）の情報であるので、性別の情報損失は、非特許文献２の３．１０．３節（３）記載の方法に従って算出される。すなわち、文字列型の情報損失は、匿名化前と匿名化後の階層の差分を、一般化階層の高さで除算した値として得られる。最下層（男、女）の高さを０としたとき、一般化階層（任意（Ａｎｙ））の高さは１である。匿名化前と匿名化後の階層の差分はすべての行ともに０である。この場合、匿名化データＤＡ１の性別の情報損失は、図１０の計算結果テーブルＴ１内に「０／１」と示すように、計算される。

住所は文字列型（一般化階層情報有）の情報であるので、住所の情報損失は、非特許文献２の３．１０．３節（３）記載の方法に従って算出される。文字列型の情報損失は、前述同様に、匿名化前と匿名化後の階層の差分を、一般化階層の高さで除算した値となる。最下層（港区、府中市、青梅市、川崎市、横浜市）の高さを０としたとき、一般化階層（日本）の高さは２である。匿名化前と匿名化後の階層の差分はすべての行ともに１である。この場合、匿名化データＤＡ１の住所の情報損失は、図１０の計算結果テーブルＴ１内に「１／２」と示すように、計算される。

最後に、計算結果テーブルＴ１から情報損失の平均値を算出する。非特許文献２の３．１０．３節（４）記載の方法に基づき、計算結果テーブルＴ１の全ての値の合計値を、匿名化する項目の数（３）×行数（１５）＝４５で割ると、０．２０という平均値が得られる。従って、情報損失度は０．２０、すなわち２０％となる。

ステップＳＴ６は、前述同様に実行される。

ステップＳＴ７ａにおいて、データ追加度判定部１５３は、匿名化度の条件「ｋ＝２以上」、データ追加度の条件「４０％以上」及び情報損失度の条件「３０％以下」を含むデータ追加度ポリシＰＤ’をデータ追加度ポリシ格納部１５２から読み出す。また、データ追加度判定部１５３は、当該データ追加度ポリシＰＤ’に基づいて、ステップＳＴ５で算出された匿名化度「ｋ＝２」、ステップＳＴ６で算出されたデータ追加度「２２．５％」及びステップＳＴ５ａで算出された情報損失度「２０％」の受け入れを許可するか否かを判定する。データ追加度ポリシＰＤ’のうち、匿名化度と情報損失度は条件を満たすが、データ追加度は条件を満たさないため、判定結果が否を示す。

ステップＳＴ８ａにおいて、前述した通り、ステップＳＴ２〜ＳＴ７ａの処理が再試行される。

ステップＳＴ５ａにおいて、情報損失度算出部１４０は、図８に示す如き、ステップＳＴ４ａで送出された匿名化データＤＡ２に基づいて、情報損失度を算出する。匿名化データＤＡ２に関し、年齢の情報損失を前述同様に｜ｖ１−ｖ２｜／Ｎｉの式から計算し、性別の情報損失と住所の情報損失を前述同様に計算した計算結果を図１１の計算結果テーブルＴ２に示す。また同様に、計算結果テーブルＴ２から情報損失の平均値を算出する。計算結果テーブルＴ２の全ての値の合計値を４５（＝１５×３）で割ると、０．２３という結果が得られる。従って、情報損失度は０．２３、すなわち２３％となる。

ステップＳＴ６は、前述同様に実行される。

ステップＳＴ７ａにおいて、データ追加度判定部１５３は、匿名化度の条件「ｋ＝２以上」、データ追加度の条件「４０％以上」及び情報損失度の条件「３０％以下」を含むデータ追加度ポリシＰＤ’をデータ追加度ポリシ格納部１５２から読み出す。また、データ追加度判定部１５３は、当該データ追加度ポリシＰＤ’に基づいて、ステップＳＴ５で算出された匿名化度「ｋ＝２」、ステップＳＴ６で算出されたデータ追加度「４５％」及びステップＳＴ５ａで算出された情報損失度「２３％」の受け入れを許可するか否かを判定する。データ追加度ポリシＰＤ’の全ての条件を満たすため、判定結果が許可を示す。

従って、データ追加度判定部１５３は、処理を終了する。

上述したように本実施形態によれば、匿名化によって情報が失われた度合いを示す情報損失度を算出する構成により、第１の実施形態の効果に加え、匿名化による情報損失を所定範囲内に抑制することができる。

補足すると、データ所有者がデータ分析者に提供するデータは、匿名化度がポリシに定めた値以上であることから必要最小限となる。データ所有者は、情報損失度がポリシに定めた値以下であることから所望する分析精度を得ることができ、かつ将来、どの程度のデータが追加できるのかのデータ追加度を考慮することにより、より多くのデータを追加できる匿名化方法を選択することができる。

また、本実施形態によれば、データ追加度判定部１５３が、匿名化指標ポリシに基づいて、算出された匿名化度、算出されたデータ追加度及び算出された情報損失度の受け入れを許可するか否かを判定する場合には、作業者による判定の手間や労力を削減できる。

さらに、本実施形態によれば、当該判定した結果が許可を示す場合には処理を終了する。また、当該判定した結果が否を示す場合には匿名化装置１２０、匿名化度算出部１３０、情報損失度算出部１４０及びデータ追加度算出装置１５０を再試行するように、当該各装置及び各部を制御するので、匿名化指標ポリシを満たす匿名化データを容易に生成できる。

＜第３の実施形態＞
図１２は第３の実施形態に係る匿名化指標算出システムの構成を示す模式図である。

第３の実施形態は、一様分布した値をもつ元データを仮定していた第１の実施形態の変形例であり、既知の確率密度関数に対応して分布した値をもつ元データを仮定した例である。

具体的には、匿名化指標算出システム１００は、図１に示した構成に比べ、データ分布格納部１６０を更に備えている。

データ分布格納部１６０は、図１３に示すように、元データ格納データベース装置１１０内の元データＤの確率密度関数を表すテーブルＴ３を格納している。

テーブルＴ３は、各行で定義される年齢、性別、住所の範囲での確率密度の値が「値」列に書かれている。例えば、年齢が２０−２２、性別が「任意」、住所が「任意」の場合の確率密度の値は０である。年齢が２３−２４、性別が「任意」、住所が「任意」の場合の確率密度の値は０．０５である。テーブルＴ３の各行の範囲内では一様分布しているものとする。例えばテーブルＴ３の上から３行目の、年齢が２５−２９、性別が男、住所が「任意」の確率密度の値は０．１０であるが、この範囲内には５×１×５＝２５通りの値が含まれている。これら２５通りの各値（例えば、年齢が２６歳、性別が男、住所が横浜市）の確率密度の値は、０．１０／２５＝０．００４であるものとする。

これに伴い、データ追加度算出部１５１は、匿名化装置１２０により生成された匿名化データと、データ分布格納部１６０内のテーブルＴ３とに基づいて、元データＤから匿名化データが生成される確率に相当するデータ追加度を算出する機能をもっている。

次に、以上のように構成された匿名化指標算出システムの動作について図１４のフローチャートを用いて説明する。以下の説明では、図３，図１５〜図１６に示す具体的なデータを用いて、各ステップの処理を述べる。

ステップＳＴ１〜ＳＴ５は、第１の実施形態のステップＳＴ１〜ＳＴ５と同様に実行される。

ステップＳＴ６ｂにおいて、データ追加度算出部１５１は、元データＤから匿名化データＤＡ１が生成される確率に相当するデータ追加度を算出する。この例では、データ追加度算出部１５１は、図１６に示す如き、ステップＳＴ４で受けた匿名化データＤＡ１と、図１３に示す如き、データ分布格納部１６０から読み出したテーブルＴ３とに基づいて、データ追加度を算出する。後述するように、データ追加度は０．３０２５、すなわち３０．２５％となる。

ステップＳＴ７による判定の結果、第１の実施形態と同様に、匿名化度は条件を満たすが、データ追加度は条件「４０％以上」を満たさない。このため、判定した結果は否を示す。このため、第１の実施形態と同様にステップＳＴ８からステップＳＴ２に戻り、ステップＳＴ２〜ＳＴ７を再試行する。再試行中、２回目のステップＳＴ２〜ＳＴ５は、第１の実施形態と同様に実行される。

ステップＳＴ６ｂにおいて、データ追加度算出部１５１は、元データＤから匿名化データＤＡ２が生成される確率に相当するデータ追加度を算出する。この例では、データ追加度算出部１５１は、図３に示す如き、ステップＳＴ４で受けた匿名化データＤＡ２と、図１３に示す如き、データ分布格納部１６０から読み出したテーブルＴ３とに基づいて、データ追加度を算出する。後述するように、データ追加度は０．４９、すなわち４９％となる。

ステップＳＴ７による判定の結果、第１の実施形態と同様に、匿名化度及びデータ追加度の両者が条件を満たすので、判定した結果は許可を示す。

従って、データ追加度判定部１５３は、処理を終了する。

次に、ステップＳＴ６ｂにおけるデータ追加度の算出方法について説明する。

データ追加度算出部１５１は、匿名化データが取っている範囲の確率をテーブルＴ３に表される確率密度関数ｆから算出し、当該算出した確率をデータ追加度とする。

１回目のステップＳＴ６ｂに用いる匿名化データＤＡ１は、以下の値を取っている。

（２５−２９、男、東京）、
（２５−２９、女、神奈川）、
（３０−３４、男、神奈川）、
（３５−３９、女、東京）、
（４０−４４、女、神奈川）、
（４５−４９、男、東京）、
（５０−５４、男、東京）
例えば一番上の行（２５−２９、男、東京）に対し、テーブルＴ３では、年齢が２５−２９、性別が男、住所が「任意」の確率密度の値が０．１０である。このため、確率は０．１０×３／５＝０．０６である。ここで３／５を乗じた理由は、確率密度関数ｆの住所が「任意」であるのに対し、一番上の行の住所が東京であるため、東京に含まれる市町村数３を「任意」に含まれる市町村数５で割る必要があるためである。また３番目の（３０−３４、男、神奈川）では、年齢が３０−３９、性別が「任意」、住所が「任意」の確率密度の値は０．３５であることから、確率は０．３５×５／１０×１／２×２／５＝０．０３５である。ここで、５／１０、１／２、２／５を乗じた理由は、確率密度関数ｆの年齢、性別、住所の範囲に対し、３番目の行の年齢、性別、住所の範囲が小さいためである。例えば、確率密度関数ｆの年齢が３０−３９、性別が「任意」、住所が「任意」である。また、３番目の行の年齢が３０−３４、性別が男、住所が神奈川である。このため、３番目の行の年齢の取りうる範囲が５／１０、性別の取りうる範囲が１／２、住所の取りうる範囲が２／５と小さくなる。他の値も同様にすると、確率は上の行から順に、以下のように算出される。

０．１０×３／５＝０．０６
０．０５×２／５＝０．０２
０．３５×５／１０×１／２×２／５＝０．０３５
０．３５×５／１０×１／２×３／５＝０．０５２５
０．３０×５／１０×１／２×２／５＝０．０３
０．３０×５／１０×１／２×３／５＝０．０４５
０．１０×３／５＝０．０６
匿名化データＤＡ１が取っている範囲の確率は、これら７行の確率の和であり、０．０６＋０．０２＋０．０３５＋０．０５２５＋０．０３＋０．０４５＋０．０６＝０．３０２５と算出される。当該算出された確率が匿名化データＤＡ１のデータ追加度である。

同様に、２回目のステップＳＴ６ｂに用いる匿名化データＤＡ２は、以下の値を取っている。

（２０代、男、東京）、
（２０代、女、神奈川）、
（３０代、男、神奈川）、
（３０代、女、東京）、
（４０代、男、東京）、
（４０代、女、神奈川）、
（５０代、男、東京）、
各行の確率は、上の行から順に、以下のように算出される。

（０．０５×１／２＋０．１０）×３／５＝０．０７５
（０．０５×１／２＋０．０５）×２／５＝０．０３
０．３５×１／２×２／５＝０．０７
０．３５×１／２×３／５＝０．１０５
０．３０×１／２×３／５＝０．０９
０．３０×１／２×２／５＝０．０６
０．１０×３／５＝０．０６
匿名化データＤＡ２が取っている範囲の確率は、これら７行の和であり、０．０７５＋０．０３＋０．０７＋０．１０５＋０．０９＋０．０６＋０．０６＝０．４９と算出される。この算出された確率が匿名化データＤＡ２のデータ追加度である。

第１の実施形態と同様に、新規データＤ’が追加された場合を再び考える。追加された新規データＤ’を元データの匿名化データＤＡ１と同じ方法で匿名化した場合、実際に追加できる割合は３３％であり、追加データを匿名化データＤＡ２と同じ方法で匿名化すると、８７％であった。

第１の実施形態で算出したデータ追加度はそれぞれ２２．５％、４５％であったのに対し、第３の実施形態で算出したデータ追加度はそれぞれ３０．２５％、４９％である。従って、第３の実施形態で算出したデータ追加度（３０．２５％、４９％）は、第１の実施形態で算出したデータ追加度（２２．５％、４５％）に比べ、実際に追加できる割合（３３％、８７％）に近い値となっている。

上述したように本実施形態によれば、元データの確率密度関数に基づいて、元データＤから匿名化データが生成される確率に相当するデータ追加度を算出する構成により、第１の実施形態に比べ、より正確なデータ追加度を算出することができる。

また、第３の実施形態は、第１の実施形態の変形例として説明したが、これに限らず、第２の実施形態の変形例として実施することもできる。

以上説明した少なくとも一つの実施形態によれば、元データＤから匿名化データが生成される確率に相当するデータ追加度を算出する構成により、元データを匿名化する場合に、匿名化度を維持しつつデータを追加できる度合を評価することができる。

なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。

また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が上記実施形態を実現するための各処理の一部を実行しても良い。

さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

また、記憶媒体は１つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。

なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。

また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…匿名化指標算出システム、１１０…元データ格納データベース装置、１２０…匿名化装置、１２１…データ項目抽出部、１２２…匿名化部、１２３…匿名化方法決定部、１２４…匿名化ポリシ格納部、１３０…匿名化度算出部、１４０…情報損失度算出部、１５０…データ追加度算出装置、１５１…データ追加度算出部、１５２…データ追加度ポリシ格納部、１５３…データ追加度判定部、１６０…データ分布格納部。

Claims

匿名化度及びデータ追加度を含む匿名化指標を算出する匿名化指標算出システムであって、
各個人に関し、各項目毎に値を含む元データを記憶したデータ記憶手段と、
前記元データのうちの一部の項目の値を匿名化する処理により、当該元データから匿名化データを生成する匿名化手段と、
前記匿名化データに基づいて、前記匿名化した度合いを示す前記匿名化度を算出する匿名化度算出手段と、
前記元データから前記匿名化データが生成される確率に相当する前記データ追加度を算出する追加度算出手段と、
を備えたことを特徴とする匿名化指標算出システム。
請求項１に記載の匿名化指標算出システムにおいて、
前記匿名化度の条件及び前記データ追加度の条件を含む匿名化指標ポリシを格納する匿名化指標ポリシ格納手段と、
前記匿名化指標ポリシに基づいて、前記算出された匿名化度及び前記算出されたデータ追加度の受け入れを許可するか否かを判定する判定手段と、
を備えたことを特徴とする匿名化指標算出システム。
請求項２に記載の匿名化指標算出システムにおいて、
前記判定した結果が前記許可を示す場合には処理を終了し、前記判定した結果が前記否を示す場合には前記匿名化手段、前記匿名化度算出手段、前記追加度算出手段及び前記判定手段を再試行するように、当該各手段を制御する第１制御手段と、
を備えたことを特徴とする匿名化指標算出システム。
請求項２に記載の匿名化指標算出システムにおいて、
前記匿名化指標が情報損失度を含む場合には、前記匿名化データ及び前記元データに基づいて、前記匿名化によって情報が失われた度合いを示す前記情報損失度を算出する情報損失度算出手段を更に備え、
前記匿名化指標ポリシは、前記情報損失度の条件を更に含んでおり、
前記判定手段は、前記匿名化指標ポリシに基づいて、前記算出された匿名化度、前記算出されたデータ追加度及び前記算出された情報損失度の受け入れを許可するか否かを判定することを特徴とした匿名化指標算出システム。
請求項４に記載の匿名化指標算出システムにおいて、
前記判定した結果が前記許可を示す場合には処理を終了し、前記判定した結果が前記否を示す場合には前記匿名化手段、前記匿名化度算出手段、前記追加度算出手段、前記情報損失度算出手段及び前記判定手段を再試行するように、当該各手段を制御する第２制御手段と、
を備えたことを特徴とする匿名化指標算出システム。