JP6263620B2 - 匿名化データ提供装置及び方法 - Google Patents

匿名化データ提供装置及び方法 Download PDF

Info

Publication number
JP6263620B2
JP6263620B2 JP2016530796A JP2016530796A JP6263620B2 JP 6263620 B2 JP6263620 B2 JP 6263620B2 JP 2016530796 A JP2016530796 A JP 2016530796A JP 2016530796 A JP2016530796 A JP 2016530796A JP 6263620 B2 JP6263620 B2 JP 6263620B2
Authority
JP
Japan
Prior art keywords
data
anonymization
anonymized
user
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016530796A
Other languages
English (en)
Other versions
JPWO2016002086A1 (ja
Inventor
啓成 藤原
啓成 藤原
佐藤 嘉則
嘉則 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2016002086A1 publication Critical patent/JPWO2016002086A1/ja
Application granted granted Critical
Publication of JP6263620B2 publication Critical patent/JP6263620B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、匿名化データ提供装置及び方法に関し、データを二次的に利活用するためにプライバシに関する情報を匿名化又は曖昧化した上でデータを提供する匿名化データ提供システムに適用して好適なものである。
近年、ストレージの低価格化・大規模化及びネットワークの整備といった様々な情報技術の発展に伴い、蓄積される情報量が爆発的に増大してきている。このような状況の下、いわゆるビックデータを利活用しようという動きが活発化している。
ところで、ビックデータのうち個人に関する情報の二次的な利用については、プライバシの保護を施した上で利活用することが必要となる。この場合、例えば個人情報を単に削除したり、個人を特定するIDを別のIDに変換するだけでは、条件を組み合わせることによってその人が特定されるリスクが存在する。このため、より安全にプライバシを保護する技術としてk−匿名化技術が広く利用されている。k−匿名化技術は、曖昧化する属性の組み合わせによって、同じ条件となるデータが少なくともk(以下、これをk値と呼ぶ)個以上存在するように元のデータを匿名化する技術である。
なおk−匿名化技術を利用した匿名化方法について、例えば特許文献1には、データの加工時(k−匿名化処理時)に各データに対して優先順位を設定し、関数を用いて変形したデータを評価することにより、データ利用者が求める情報を可能な限り保持すると共に、データ利用者が求める情報の欠落を防止する方法が開示されている。
また特許文献2には、データベース中心のアプリケーションをテストするのに用いられるデータベースの匿名化(k−匿名化、I−多様化など)において、テストへの有用性のある匿名化データベースを作成するために、テストへの影響に応じて準識別子をランク付けする方法が開示されている。
特開2011−113285号公報 米国特許出願公開第2012/0036135号明細書
ところで、k−匿名化技術を用いた匿名化処理(以下、適宜、これをk−匿名化処理と呼ぶ)では、k値が大きくなると個人情報の安全性が高くなるが、情報損失量が大きくなる。つまり、k−匿名化処理では、情報の安全性と精度との間にトレードオフの関係がある。
この場合において、従来のk−匿名化処理では、k値及び情報損失量などの評価指数に基づいて、分析目的に応じたデータ群(例えば、糖尿病患者や高血圧患者のデータ群であり、以下、これをデータセットと呼ぶ)をk−匿名化処理している。このため、かかるk−匿名化処理において、評価指標を上げるためにデータ利用者が優先したい属性(以下、これを優先属性と呼ぶ)が匿名化されてしまい、k−匿名化処理されたデータセット(以下、これを匿名化データセットと呼ぶ)が、データ利用者のニーズに即さないことがあった。
このような問題を解決するための1つの方法として、分析対象のデータ群について、データ利用者の優先属性を除いてk−匿名化処理を実行することが考えられる。しかしながら、このような方法によると、優先属性を含めざるを得ない場合に、分析目的により適した匿名化データセットを選択することができない。
本発明は以上の点を考慮してなされたもので、データ利用者のニーズに合致した匿名化データセットを提供し得る匿名化データ提供装置及び方法を提案しようとするものである。
かかる課題を解決するため本発明においては、元データを匿名化処理してデータ利用者に提供する匿名化データ提供装置において、前記元データのデータセットに対して前記匿名化処理を実行する匿名化処理部と、前記匿名化処理部を制御する匿名化データ選択処理部と、匿名化された前記データセットを匿名化データセットとして管理し、前記データ利用者からの要求に応じて、前記匿名化データセットを当該データ利用者に提供するデータ提供部とを設け、前記データ利用者が、所望する前記データセットを選択すると共に、当該データセットについての所望する属性の所望する統計量の許容有意水準を利用者要件として設定し、前記匿名化データ選択処理部が、前記データ利用者により選択された前記データセットに対して複数回の前記匿名化処理を実行するよう前記匿名化処理部を制御し、複数回の前記匿名化処理により得られた複数個の前記匿名化データセットについて、前記データ利用者により設定された前記統計量をそれぞれ算出し、算出した各前記匿名化データセットの前記統計量と、前記元データの前記データセットの当該統計量とをそれぞれ比較し、当該統計量の差異が前記データ利用者が設定した前記許容有意水準を満たす前記匿名化データセットを前記利用者要件を満たす前記匿名化データセットとして選択し、前記データ提供部が、前記匿名化データ選択処理部により選択された前記匿名化データセットを前記データ利用者に提供するようにした。
また本発明においては、元データを匿名化処理してデータ利用者に提供する匿名化データ提供装置において実行される匿名化データ提供方法において、前記匿名化データ提供装置に、前記元データのデータセットに対して前記匿名化処理を実行する匿名化処理部と、前記匿名化処理部を制御する匿名化データ選択処理部と、匿名化された前記データセットを匿名化データセットとして管理し、前記データ利用者からの要求に応じて、前記匿名化データセットを当該データ利用者に提供するデータ提供部とを設け、前記データ利用者が、所望する前記データセットを選択すると共に、当該データセットについての所望する属性の所望する統計量の許容有意水準を利用者要件として設定し、前記匿名化データ選択処理部が、前記データ利用者により選択された前記データセットに対して複数回の前記匿名化処理を実行するよう前記匿名化処理部を制御する第1のステップと、前記匿名化データ選択処理部が、複数回の前記匿名化処理により得られた複数個の前記匿名化データセットについて、前記データ利用者により設定された前記統計量をそれぞれ算出する第2のステップと、前記匿名化データ選択処理部が、算出した各前記匿名化データセットの前記統計量と、前記元データの前記データセットの当該統計量とをそれぞれ比較し、当該統計量の差異が前記データ利用者が設定した前記許容有意水準を満たす前記匿名化データセットを前記利用者要件を満たす前記匿名化データセットとして選択する第3のステップと、前記データ提供部が、前記匿名化データ選択処理部により選択された前記匿名化データセットを前記データ利用者に提供する第4のステップとを設けるようにした。
本匿名化データ提供装置及び方法によれば、データ利用者が設定した利用者要件を満たす匿名化データセットをデータ利用者に提供することができる。
本発明によれば、データ利用者のニーズに合致した匿名化データセットを当該データ利用者に提供し得る匿名化データ提要装置及び方法を実現できる。
本実施の形態による匿名化データ提供システムのハードウェア構成を示すブロック図である。 本実施の形態による匿名化データ提供システムの論理構成を示すブロック図である。 元データ及び匿名化前データセットの構成を示す概念図である。 プライバシ保護条件テーブルの構成を示す概念図である。 匿名化データセットの構成を示す概念図である。 データカタログ情報の構成を示す概念図である。 データカタログ選択画面の構成を略線的に示す略線図である。 統計量強化項目指定画面の構成を略線的に示す略線図である。 匿名化データセットの提供に関する処理の流れを示すラダーチャートである。 統計量強化匿名化データ選択処理の処理手順を示すフローチャートである。 k値可変統計量強化処理の処理手順を示すフローチャートである。 k値固定統計量強化処理の処理手順を示すフローチャートである。 k値固定統計量強化処理の処理手順を示すフローチャートである。 k−匿名化パラメータ群の一例を示す図表である。
以下図面について、本発明の一実施の形態を詳述する。
(1)本実施の形態による情報処理システムの構成
図1において、1は全体として本実施の形態による情報処理システムを示す。この情報処理システム1は、元データ提供者2が提供するデータ(以下、これを元データと呼ぶ)をデータ収集・管理・提供者3が収集すると共に、収集した元データをk−匿名化処理した上で管理し、k−匿名化処理した元データをデータ利用者4からの要求に応じてデータ収集・管理・提供者3が提供するシステムである。
この情報処理システム1は、図1に示すように、元データ提供者2の情報処理装置20と、データ収集・管理・提供者3の匿名化データ提供システム30を構成するデータ準備装置31とが第1のネットワーク10を介して接続され、当該匿名化データ提供システム30を構成するデータ提供装置32と、データ利用者4のクライアント端末40とが第2のネットワーク11を介して接続されて構成されている。
情報処理装置20は、CPU(Central Processing Unit)21、メモリ22及びハードディスク装置(HDD:Hard Disc Drive)23と、入力装置24及びモニタ25となどを備えたパーソナルコンピュータ等から構成される。そして、ハードディスク装置23には元データが蓄積されており、この元データが第1のネットワーク10を介して匿名化データ提供システム30のデータ準備装置31に収集される。
データ準備装置31は、CPU33、メモリ34及びハードディスク装置35などを備えたパーソナルコンピュータ等から構成される。データ準備装置31は、各元データ提供者2の情報処理装置20から収集した元データに対してk−匿名化処理を施す。そしてデータ準備装置31は、かかるk−匿名化処理により得られた匿名化データをデータ提供装置32に送信する。
データ提供装置32は、データ準備装置31と同様に、CPU36、メモリ37及びハードディスク装置38などを備えたパーソナルコンピュータ等から構成される。データ提供装置32は、データ準備装置31から送信される匿名化データをハードディスク装置38に格納して保持し、保持した匿名化データをクライアント端末40を利用したデータ利用者4からの要求に応じてそのデータ利用者4に提供する。
クライアント端末40も、CPU41、メモリ42及びハードディスク装置43と、入力装置44及びモニタ45となどを備えたパーソナルコンピュータ等から構成される。クライアント端末40は、データ利用者4の操作に応じて第2のネットワーク11を介して匿名化データ提供システム30のデータ提供装置32にアクセスし、データ提供装置32から提供される匿名化データをダウンロードしてハードディスク装置43に記憶する。
図2は、本情報処理システム1の論理構成を示す。本実施の形態においては、データ収集・管理・提供者3が収集、管理及び提供する元データとしてヘルスケアデータを想定しており、元データ提供者2として、図2に示すように、ヘルスケアデータを管理する病院や、薬局、診療所、健康保険組合、バイオバンク及び又は家庭などを想定している。ただし、ヘルスケアデータは、本来個人のものであるため、元データ提供者2としては、個人そのものを想定し、個人からヘルスケアデータを直接収集することを想定しても良い。
また本実施の形態においては、データ利用者4として、病院や保険所、厚生労働省などの行政機関、健康保険組合などの主に公的な役割をもつ機関だけでなく、製薬企業や、食品企業及び美容企業などの私企業も想定している。
データ準備装置31は、メモリ34(図1)に格納されたデータ収集・名寄せ処理部50、匿名化処理部51及び統計量強化匿名化データ選択処理部52と、ハードディスク装置35(図1)に格納された元データデータベース53及び匿名化条件データベース54とを備えて構成される。
データ収集・名寄せ処理部50は、元データ提供者2の情報処理装置20(図1)から元データ(ヘルスケアデータ)を収集し、収集した元データを元データデータベース53に格納する機能を有するプログラムである。またデータ収集・名寄せ処理部50は、複数の元データ提供者2に跨って一人の元データが存在する場合に、これらの元データを一人の元データとして纏める名寄せ処理をも実行する。
なおデータ準備装置31が元データ提供者2からデータを収集するタイミングは、元データ提供者2にてデータが更新されるごとに行っても良く、また一日に一度、夜間に1日分の更新分を収集するようにしても良い。また元データは情報処理装置20からデータ準備装置31に送信するようにしても、又は、データ準備装置31から各情報処理装置20に取りに行くようにしても良い。
匿名化処理部51は、匿名化条件データベース54に格納されたプライバシ保護条件テーブル56を参照しながら、元データデータベース53に格納された元データに対して個人情報の匿名化を行う機能を有するプログラムである。匿名化処理部51は、例えば糖尿病患者の元データ又は高血圧患者の元データなど、関連する複数の元データを纏めて1つのデータセット(以下、これを匿名化前データセットと呼ぶ)55を生成し、生成した匿名化前データセット55に対してk−匿名化処理を施すことにより、匿名化データセット64を生成する。そして匿名化処理部51は、このようにして生成した匿名化データセット64のデータをデータ提供装置32に送信する。
統計量強化匿名化データ選択処理部52は、データ利用者4からの要求に応じて、そのデータ利用者4により指定された匿名化前データセット55について、k値や匿名化処理時のパラメータを変えながら複数回のk−匿名化処理を匿名化処理部51に実行させる機能を有するプログラムである。また統計量強化匿名化データ選択処理部52は、かくして得られた複数の匿名化データセット64の中から、データ利用者4が指定した属性(生年月日、入院日又は退院日など)についての当該データ利用者4が指定した統計量(平均、分散又は相関係数など)が当該データ利用者4が指定した許容される有意水準(以下、これを許容有意水準と呼ぶ)の範囲内にある匿名化データセット64のうち、安全性が最も高い匿名化データセット(例えばk値が最も大きい匿名化データセット)をデータ提供装置32に提供する。統計量強化匿名化データ選択処理部52の詳細については、後述する。
元データデータベース53は、元データを保持及び管理するために利用されるデータベースであり、データ準備装置31が各元データ提供者2からそれぞれ収集した元データが順次登録される。上述のように本実施の形態においては、元データとしてヘルスケアデータを想定しており、このため個々の元データは、図3に示すように、患者ID、患者氏名、患者生年月日、入院日及び退院日などのその人の属性情報と、その人の検査値となどを含む。図3においては、1つの行が一人の元データに対応しており、図3全体で上述の匿名化前データセット55を表している。
匿名化条件データベース54には、プライバシ保護条件テーブル56が格納される。プライバシ保護条件テーブル56は、予めデータ収集・管理・提供者3により設定された、元データに含まれる個人情報の所有者である個人のプライバシを保護するための条件を管理するために利用されるテーブルであり、図4に示すように、個人情報範囲欄56A、削除項目欄56B、変更項目欄56C、保護項目欄56D及びk値最小値欄56Eを備えて構成される。
そして個人情報範囲欄56Aには、データ準備装置31が元データ提供者2の情報処理装置20から収集した元データに含まれる情報のうち、ID、名前、住所及び電話番号等の個人情報として取り扱うべき個々のデータ項目の名称(以下、これを項目名と呼ぶ)がすべて格納される。
また削除項目欄56Bには、かかる個人情報として取り扱うべきデータ項目のうち、個人のプライバシを保護するためにデータ利用者4には提供しない、つまりk−匿名化処理の際に削除される各データ項目(以下、これを削除項目と呼ぶ)の項目名が格納される。
さらに変更項目欄56Cには、内容を変更してデータ利用者4に提供可能な各データ項目(以下、これを変更項目と呼ぶ)の項目名が格納される。図4の例では変更項目が設定されていないが、例えば個人を特定するIDを別のIDに変換すればプライバシを保護した状態でデータを提供できる場合には、変更項目としてIDを設定する。
さらに保護項目欄56Dには、k−匿名化の対象となり得る準識別子と呼ばれるデータ項目(以下、これを保護項目と呼ぶ)の項目名が格納され、k値最小値欄56Eには、匿名化処理部51が実行するk−匿名化処理におけるk値の最小値(以下、これをk値最小値と呼ぶ)が格納される。このk値最小値は、予めデータ収集・管理・提供者3により設定される。
なお個人情報範囲として設定された各データ項目は、それぞれ削除項目、変換項目及び保護項目のいずれかに設定される。ただし、個人情報範囲として設定されていないデータ項目が削除項目、変更項目及び又は保護項目として設定されていても良い。
また個人のプライバシを保護するための条件は、法律やガイドラインに依存するため、国によって定義が変わることがあるほか、時代によっても変化することがある。このような場合には、複数のプライバシ保護条件テーブル56を用意しておいても良い。例えば、複数の国に存在するデータ利用者4に対し、後述のようにデータ提供装置32の匿名化データベース60に格納された匿名化データセット64を提供する場合には、データ利用者4がアクセスしている国に対応するプライバシ保護条件テーブル56を選択して、提供する匿名化データセット64を変更するようにしても良い。
一方、データ提供装置32は、ハードディスク装置38(図1)に格納された匿名化データベース60、データカタログ情報61及び利用条件情報62と、メモリ37(図1)に格納されたデータ提供管理部63とを備えて構成される。
匿名化データベース60は、データ準備装置31の匿名化処理部51により作成された匿名化データセット64を保持及び管理するために利用されるデータベースであり、複数の匿名化データセット64が格納される。なお匿名化データセット64のデータ構造の一例を図5に示す。図5は、患者ID・患者氏名等の削除項目を削除し、保護項目である患者住所及び患者年齢を匿名化するk−匿名化処理(k=2)が施された場合の一例である。
またデータカタログ情報61は、データ提供装置32がデータ利用者4に提供可能な各匿名化データセット64の概要を表す情報であり、例えば図6に示すようなテーブル構成を有する。図6に示すデータカタログでは、1つのレコード(行)が1つの匿名化データセット64に対応しており、これらレコードがそれぞれデータセットID欄61A、匿名化データ項目欄61B、一般データ項目欄61C、k値欄61D及び損失統計量欄61Eなどから構成される。
そしてデータセットID欄61Aには、対応する匿名化データセット64に対して付与されたその匿名化データセット64に固有の識別子(データセットID)が格納され、匿名化データ項目欄61Bには、対応する匿名化データセット64において匿名化されたすべてのデータ項目の項目名がそれぞれ格納される。
また一般データ項目欄61Cには、対応する匿名化データセット64において匿名化されていないすべてのデータ項目の項目名がそれぞれ格納され、k値欄61Dには、対応する匿名化データセット64におけるk値の値が格納される。さらに損失統計量欄61Eには、対応する匿名化データセット64における損失情報量(I.L)と、その匿名化データセット64の平均、分散及び相関関数などの各種統計量とがそれぞれ格納される。
利用条件情報62は、利用者要件テーブル65を備えて構成される。利用者要件テーブル65には、図8について後述する統計量強化項目指定画面80を用いてデータ利用者4により設定された、いずれかの匿名化データセット64についてそのデータ利用者4が設定した要件(以下、これを利用者要件と呼ぶ)が登録される。具体的には、データ利用者4が指定した匿名化データセット64について、そのデータ利用者4が指定した属性(生年月日又は入退院日などであり、以下、これを対象属性と呼ぶ)の当該データ利用者4が指定した統計量(平均、分散又は相関係数などであり、以下、これを対象統計量と呼ぶ)が当該データ利用者4が指定した許容有意水準を満たすべきことが利用者要件として設定される。
データ提供管理部63は、データ利用者4からの要求に応じて、当該データ利用者4により指定された匿名化データセット64をそのデータ利用者4に提供する機能を有するプログラムである。実際上、データ提供管理部63は、データ利用者4からの要求に応じて、データカタログ情報61の内容が掲載された図7について後述するデータセット選択画面70をそのデータ利用者4に表示させる。そしてデータ提供管理部63は、そのデータセット選択画面70を用いてデータ利用者4により購入希望の匿名化データセット64が指定されると、その匿名化データセット64のデータを匿名化データベース60から読み出してそのデータ利用者4に提供する。
(2)各種画面の構成
図7は、データ提供装置32から送信される画面データに基づきクライアント端末40(図1)に表示されるデータセット選択画面70の構成を示す。このデータセット選択画面70は、データ利用者4がデータ収集・管理・提供者3から匿名化データセット64を購入するに際して、購入対象の匿名化データセット64を選択するための画面である。
このデータセット選択画面70は、データ提供装置32が提供可能な匿名化データセット64がすべて掲載された匿名化データセット一覧71と、購入ボタン72、次へボタン73及びキャンセルボタン74とを備えて構成される。
匿名化データセット一覧71は、1つのレコード(行)が1つの匿名化データセット64に対応しており、これらレコードがそれぞれチェックボックス欄71A、データセットID欄71B、匿名化データ項目欄71C、一般データ項目欄71D、k値欄71E及び損失統計量欄71Fなどから構成される。
そして各レコードのチェックボックス欄71Aには、それぞれチェックボックス71AXが表示される。またデータセットID欄71B、匿名化データ項目欄71C、一般データ項目欄71D、k値欄71E及び損失統計量欄71F等には、それぞれ図6について上述したデータカタログ情報61の対応するデータセットID欄61A、匿名化データ項目欄61B、一般データ項目欄61C、k値欄61D又は損失統計量欄61E等に格納された情報と同じ情報が格納される。
そしてデータセット選択画面70では、匿名化データセット一覧71に掲載された匿名化データセット64の中から所望する匿名化データセット64に対応するチェックボックス71AXをクリックすることによりその匿名化データセット64を購入対象として選択することができる。この場合、そのチェックボックス71AX内にチェックマーク71AYが表示される。
またデータセット選択画面70では、上述のようにして所望する匿名化データセット64を選択した後に購入ボタン72をクリックすることによって、その匿名化データセット64を購入することができる。この場合、データ利用者4によって購入された匿名化データセット64のデータがデータ提供装置32からそのデータ利用者4のクライアント端末40(図1)に送信される。なおデータセット選択画面70は、キャンセルボタン74をクリックすることによって閉じることができる。
一方、データセット選択画面70において、上述のようにして購入対象の匿名化データセット64を選択した上で次へボタン73をクリックすることによって、図8に示す統計量強化項目指定画面80を開くことができる。統計量強化項目指定画面80は、データセット選択画面70において選択した匿名化データセット64について、データ利用者4が希望する利用者要件を設定するための画面である。
この統計量強化項目指定画面80には、対象データセットID表示欄80Aが設けられており、データセット選択画面70(図7)においてデータ利用者4が選択した匿名化データセット64のデータセットIDがこの対象データセットID表示欄80Aに表示される。
また対象データセットID表示欄80Aの下段には、データ利用者4が重要と考えている対象属性(つまりデータ利用者4がデータ収集・管理・提供者3から購入する匿名化データセット64に含まれる情報の中で得に利用したいと考えているデータ項目)を指定するための複数のテキストボックス(以下、これらを対象属性指定テキストボックスと呼ぶ)80Bが設けられると共に、これらの対象属性指定テキストボックス80Bにそれぞれ対応させて、対象統計量を指定するためのテキストボックス(以下、これらを対象統計量指定テキストボックスと呼ぶ)80Cと、許容有意水準を指定するためのテキストボックス(以下、これを許容有意水準指定テキストボックスと呼ぶ)80Dとが設けられている。
かくしてデータ利用者4は、統計量強化項目指定画面80の対象属性指定テキストボックス80Bに対象属性の属性名(データ項目の項目名)を入力すると共に、その対象属性指定テキストボックス80Bと対応付けられた(本実施の形態においては下側に表示された)対象統計量指定テキストボックス80C及び許容有意水準指定テキストボックス80Dに所望する統計量及び許容有意水準をそれぞれ入力することによって、対象データセットID表示欄80AにデータセットIDが格納された匿名化データセット64についての所望する利用者要件を設定することができる。例えば図8の例では、「生年月日」という対象属性(データ項目)については、「平均」が「5%」の有意水準を満たすべきことが設定された状態を示している。
また統計量強化項目指定画面80には、k−匿名化処理時においてk値を可変とするか又は固定とするかを選択するための2つのトグルスイッチ80EX,80EYが設けられている。これら2つのトグルスイッチ80EX,80EYのうち一方はk値を可変とする設定に対応付けられ、他方はk値を固定する設定に対応付けられており、これら2つのトグルスイッチ80EX,80EYのうちの所望するトグルスイッチ80EX,80EYをクリックすることによって、対応する設定(可変又は固定)を選択することができるようになされている。
さらに統計量強化項目指定画面80には、k値の最大値を指定するためのテキストボックス(以下、これをk値最大値指定テキストボックスと呼ぶ)80Fが設けられている。かくしてデータ利用者4は、図10について後述する統計量強化匿名化データ選択処理においてk値を順次1ずつ増加させながら繰り返し実行されるk−匿名化処理におけるk値の最大値をk値最大値指定テキストボックス80Fに入力することにより設定することができる。
さらに統計量強化項目指定画面80の下段には、OKボタン80G及びキャンセルボタン80Hが表示される。そして統計量強化項目指定画面80では、キャンセルボタン80Hをクリックすることによって、当該統計量強化項目指定画面80を閉じることができ、上述のようにして所望する匿名化データセット64ついて所望する利用者要件を設定した上でOKボタン80Gをクリックすることによって、当該統計量強化項目指定画面80において設定された内容に応じた匿名化データセット64を匿名化データ提供システム30(図2)に作成させることができる。
(3)匿名化データセットの提供に関する処理の流れ
図9は、本情報処理システム1において、所望する匿名化データセット64について所望する利用者要件をデータ利用者4が設定し、その利用者要件を満たす匿名化データセット64を匿名化データ提供システム30が作成し、作成したその匿名化データセット64をデータ利用者4が購入するまでの一連の処理の流れを示す。
この一連の処理は、データ利用者4が、自己のクライアント端末40(図1)を用いて匿名化データ提供システム30のデータ提供装置32にアクセスし、データカタログ情報61(図2)に基づくデータカタログの提示をリクエストすることにより開始される(SP1)。
データ提供装置32は、かかるリクエストを受信すると、図7について上述したデータセット選択画面70の画面データをそのデータ利用者4のクライアント端末40に送信することにより、当該データセット選択画面70をそのクライアント端末40に表示させる(SP2)。
クライアント端末40は、データセット選択画面70においてデータ利用者4が所望する匿名化データセット64を選択した上で次へボタン73(図7)をクリックすると、そのとき選択された匿名化データセット64をクライアント端末40からデータ提供装置32に通知する(SP3)。
データ提供装置32は、かかる通知を受信すると、図8について上述した統計量強化項目指定画面80の画面データをその通知の送信元のクライアント端末40に送信することにより、当該統計量強化項目指定画面80をそのクライアント端末40に表示させる(SP4)。
そしてクライアント端末40は、データ利用者4が統計量強化項目指定画面80において、対象属性、対象統計量、許容有意水準、k値の自由度及びk値の最大値などを設定した後にOKボタン80G(図8)をクリックすると、これらの設定内容を利用者要件情報としてデータ提供装置32に送信する(SP5)。
データ提供装置32は、かかる利用者要件情報を受信すると、受信した利用者要件情報に基づいて利用条件情報62(図2)の利用者要件テーブル65を更新する(SP6)。またデータ提供装置32は、この後、データ利用者4が要求した利用者要件を満たす匿名化データセット64を作成するようデータ準備装置31に指示を与える。
かくして、データ準備装置31は、かかる指示がデータ提供装置32から与えられると、データ利用者4が設定した利用者要件を満たす匿名化データセット64を作成するために必要な元データの転送要求を、該当する元データ提供者2の情報処理装置20(図2)に送信する(SP7)。そしてデータ準備装置31は、かかる転送要求に応じて必要な元データが転送されてくると(SP8)、転送されてきた元データに基づいて匿名化前データセット55(図2)を生成し、生成した匿名化前データセット55を元データデータベース53に格納する(SP9)。
続いて、データ準備装置31は、k値の値又はk−匿名化処理時のパラメータを順次変更しながら、ステップSP9で元データデータベース53に格納した匿名化前データセット55に対するk−匿名化処理を繰り返すことにより複数の匿名化データセット64を作成する(SP10)。
そしてデータ準備装置31は、ステップSP10で作成した複数の匿名化データセット64について、ステップSP5においてデータ利用者4が設定した利用者要件を満たしているか否か(つまり対象属性の対象統計量の値がステップSP5でデータ利用者4が設定した許容有意水準を満たしているか否か)をそれぞれ判定する(SP11)。
そしてデータ準備装置31は、ステップSP10で作成したいずれの匿名化データセット64も利用者要件を満たしていない場合には、ステップSP10及びステップSP11の処理をリトライする(SP12)。またデータ準備装置31は、ステップSP10で作成したいずれかの匿名化データセット64が利用者要件を満たしている場合には、その中でk値が最も大きい匿名化データセット64をデータ提供装置32に送信する。
かくしてデータ提供装置32は、データ準備装置31から与えられた匿名化データセット64を匿名化データベース60に格納すると共に、その匿名化データセット64をデータカタログに登録するようデータカタログ情報61を更新する(SP13)。またデータ提供装置32は、この後、更新後のデータカタログ情報61を掲載したデータセット選択画面70(図7)の画面データをデータ利用者4のクライアント端末40に送信することにより、当該画面データに基づくデータセット選択画面70をそのクライアント端末40に表示させる(SP14)。
そしてクライアント端末40は、このデータセット選択画面70においてデータ利用者4が所望する匿名化データセット64を選択した上で購入ボタン72(図7)をクリックすると、その旨をデータ提供装置32に通知する(SP15)。
かくしてデータ提供装置32は、かかる通知を受信すると、データセット選択画面70においてデータ利用者4が選択した匿名化データセット64のデータを匿名化データベース60から読み出してそのデータ利用者4のクライアント端末40に送信する(SP16)。
(4)統計量強化匿名化データ選択処理
(4−1)統計量強化匿名化データセット作成処理
図10は、図9について上述した一連の処理の流れのうち、ステップSP10においてデータ準備装置31の統計量強化匿名化データ選択処理部52(図2)により実行される統計量強化匿名化データ選択処理の処理手順を示す。
統計量強化匿名化データ選択処理部52は、かかるステップSP10においてこの統計量強化匿名化データ選択処理を開始し、まず、ステップSP4においてデータ提供装置32がクライアント端末40に表示させた統計量強化項目指定画面80を用いてデータ利用者4が設定したk値の自由度をデータ提供装置32から取得し(SP20)、取得したk値の自由度が「可変」であるか否かを判断する(SP21)。
統計量強化匿名化データ選択処理部52は、この判断で肯定結果を得ると、k値を順次1ずつ増加させながらk−匿名化処理を繰り返し実行するk値可変統計量強化処理を実行し(SP22)、この後、この統計量強化匿名化データ選択処理を終了する。
これに対して、統計量強化匿名化データ選択処理部52は、この判断で否定結果を得ると、k値の値を変化させることなくk−匿名化処理時のパラメータを変化させながらk−匿名化処理を繰り返し実行するk値固定統計量強化処理を実行し(SP23)、この後、この統計量強化匿名化データ選択処理を終了する。
(4−2)k値可変統計量強化処理
図11は、図10について上述した統計量強化匿名化データ選択処理のステップSP22において、統計量強化匿名化データ選択処理部52により実行されるk値可変統計量強化処理の具体的な処理内容を示す。
統計量強化匿名化データ選択処理部52は、統計量強化匿名化データ選択処理のステップSP22に進むと、この図11に示すk値可変統計量強化処理を開始し、まず、プライバシ保護条件テーブル56(図4)から予め設定されたk値の最小値Kminを取得する(SP30)。
続いて、統計量強化匿名化データ選択処理部52は、データ利用者4により設定されたk値の最大値Kmaxをデータ提供装置32から取得し(SP31)、さらに予め匿名化条件データベース54(図2)に設定されているk−匿名化処理の試行回数の上限値Nmaxを匿名化処理部51を介して取得する(SP32)。
続いて、統計量強化匿名化データ選択処理部52は、k−匿名化処理におけるk値の値をステップSP30で取得した最小値Kminとするよう匿名化処理部51に設定すると共に、k−匿名化処理の試行回数をカウントするための変数nの値を「1」に設定する(SP33)。
この後、統計量強化匿名化データ選択処理部52は、データ利用者4が指定した匿名化データセット64の元となる匿名化前データセット55についてk−匿名化処理を実行するよう匿名化処理部51に指示を与える(SP34)。かくして、この指示に応じて、匿名化処理部51において、対応する匿名化前データセット55に対するk−匿名化処理が実行される。
そして統計量強化匿名化データ選択処理部52は、このとき実行されたk−匿名化処理により作成された匿名化データセット64のデータを一時的にハードディスク装置35(図1)に格納する(SP35)。
次いで、統計量強化匿名化データ選択処理部52は、匿名化処理部51に設定したk値の値がステップSP31で取得した最大値Kmax未満であるか否か、及び、変数nの値がステップSP32で取得した試行回数の上限値Nmax未満であるか否かを順次判断する(SP36,SP37)。
統計量強化匿名化データ選択処理部52は、これらステップSP36及びステップSP37の判断で共に肯定結果を得ると、k値の値及び変数nの値をそれぞれ1ずつ増加させた後に(SP38)、ステップSP34に戻り、この後、ステップSP36又はステップSP37において否定結果を得るまでステップSP34〜ステップSP38の処理を繰り返す。
以上のステップSP34〜ステップSP38の繰返し処理により、k−匿名化処理の試行回数(変数nの値)が上限値Nmaxを超えない範囲でk値を最小値Kminから最大値Kmaxまで順次変化させながら、データ利用者4が指定した匿名化データセット64の元となる匿名化前データセット55(図2)に対してk−匿名化処理をそれぞれ実行することにより得られた匿名化データセット64がそれぞれハードディスク装置35に格納されることになる。
そして統計量強化匿名化データ選択処理部52は、やがてk−匿名化処理のk値がデータ利用者4が設定した最大値Kmaxに到達し、又は、k−匿名化処理の試行回数(変数nの値)が上限値Nmaxに到達することによりステップSP36又はステップSP37で否定結果を得ると、データ利用者4が指定した匿名化データセット64の元となる匿名化前データセット55の当該データ利用者4が指定した対象属性の当該データ利用者4が指定した対象統計量の値と、現在のk値でk−匿名化処理を実行することにより得られた匿名化データセット64の当該対象統計量の値との差異を算出する(SP39)。
続いて、統計量強化匿名化データ選択処理部52は、ステップSP39において算出した差異が、データ利用者4により設定された許容有意水準を満たすか否かを判断する(SP40)。そして統計量強化匿名化データ選択処理部52は、この判断で否定結果を得ると、そのときのk値の値が最小値Kminであるか否かを判断する(SP41)。
統計量強化匿名化データ選択処理部52は、この判断で否定結果を得ると、k値の値を1だけ減少させる(SP42)。そして統計量強化匿名化データ選択処理部52は、この後、ステップSP39に戻り、この後、ステップSP39〜ステップSP42の処理を繰り返す。
そして統計量強化匿名化データ選択処理部52は、やがてステップSP40で肯定結果を得ると、そのとき対象としているk値でk−匿名化処理を実行することにより得られた匿名化データセット64を、データ利用者4が設定した利用者要件を満たす匿名化データセット64として、そのデータをデータ提供装置32に出力し(SP44)、この後、このk値可変統計量強化処理を終了する。
従って、この場合には、データ利用者4が指定した属性(対象属性)の当該データ利用者4が指定した統計量(対象統計量)の値が当該データ利用者4が指定した許容有意水準を満たす匿名化データセット64のうち、最もk値の値が大きい匿名化データセット64(つまり安全性が最も高い匿名化データセット64)のデータがデータ提供装置32に出力されることになる。そしてこの場合には、図7について上述したデータセット選択画面70の匿名化データセット一覧71(図7)に、この匿名化データセット64の概要が追加表示される。
これに対して、統計量強化匿名化データ選択処理部52は、ステップSP41の判断で否定結果を得ると、データ利用者4が指定した属性の当該データ利用者4が指定した統計量の値が当該データ利用者4が設定した許容有意水準を満たさない旨の警告をデータ提供装置32に通知する(SP43)。
さらに統計量強化匿名化データ選択処理部52は、そのとき対象としているk値(この場合のk値の値は最小値Kmin)でk−匿名化処理を実行することにより得られた匿名化データセット64のデータをデータ提供装置32に出力し(SP44)、この後、このk値可変統計量強化処理を終了する。
従って、この場合には、データ利用者4が指定した属性(対象属性)の当該データ利用者4が指定した統計量(対象統計量)の値が当該データ利用者4が指定した許容有意水準を満たさない匿名化データセット64のうち、最もk値の値が小さい匿名化データセット64(つまり精度が最も高いと考えられる匿名化データセット64)のデータがデータ提供装置32に出力されることになる。そしてこの場合には、図7について上述したデータセット選択画面70の匿名化データセット一覧71(図7)に、この匿名化データセット64の概要が追加表示されると共に、当該匿名化データセット64が利用者要件を満たしていない旨の警告が当該匿名化データセット64の概要と対応付けて表示される。
(4−3)k値固定統計量強化処理
図12A及び図12Bは、図10について上述した統計量強化匿名化データ選択処理のステップSP23において、統計量強化匿名化データ選択処理部52により実行されるk値固定統計量強化処理の具体的な処理内容を示す。
統計量強化匿名化データ選択処理部52は、統計量強化匿名化データ選択処理のステップSP23に進むと、この図12A及び図12Bに示すk値固定統計量強化処理を開始し、まず、プライバシ保護条件テーブル56から予め設定されたk値の最小値Kminを取得する(SP50)。
続いて、統計量強化匿名化データ選択処理部52は、データ利用者4により設定されたk値の最大値Kmaxをデータ提供装置32から取得し(SP51)、さらに予め匿名化条件データベース54(図2)に格納されているk−匿名化処理の試行回数の上限値Nmaxを匿名化処理部51を介して取得する(SP52)。
次いで、統計量強化匿名化データ選択処理部52は、k−匿名化処理の試行回数の上限値Nmaxと同じ個数の異なるk−匿名化パラメータをそれぞれ生成する(SP53)。
このk−匿名化パラメータは、主としてk−匿名化対象項目及び削除レコード閾値の2つの組み合わせから構成される。このうちk−匿名化対象項目は、k−匿名化の対象とすべき保護項目(図4参照)を指定するパラメータである。k−匿名化の対象としない保護項目については、削除された上でk−匿名化処理が行われるため、データ利用者4には提供されない。図8について上述した統計量強化項目指定画面80で指定された対象属性(データ項目)は必ずk−匿名化対象項目に含められる。
また削除レコード閾値は、k−匿名化処理において、匿名化前データセット55をk−匿名化処理する際に削除しても良い元データ数の上限値を指定するパラメータである。例えば、削除レコード閾値が「0」である場合、すべての元データがk−匿名性を満たすまでk−匿名化処理を実行する。これに対して、削除レコード閾値が「1000」である場合、k−匿名化処理の過程でk−匿名性を満たさない元データ数が「1000」以下になった時点で、k−匿名性を満たさない元データを削除した上でk−匿名化処理を終了する。
なおk−匿名化処理の試行回数の上限値Nmaxが「8」に設定され、保護項目が「年齢」、「性別」及び「住所」であり、統計量強化項目画面で指定されたデータ項目が「年齢」であった場合のk−匿名化パラメータ群の一例を図13に示す。
続いて、統計量強化匿名化データ選択処理部52は、k−匿名化処理におけるk値の値をステップSP50で取得した最小値Kminとするよう匿名化処理部51に設定すると共に、k−匿名化処理の試行回数をカウントするための変数nの値を「1」に設定する(SP54)。
この後、統計量強化匿名化データ選択処理部52は、ステップSP53で生成したNmax個のk−匿名化パラメータの中から未選択のk−匿名化パラメータを1つ選択し(SP55)、選択したk−匿名化パラメータを利用したk−匿名化処理を実行するよう匿名化処理部51に指示を与える(SP56)。かくして、この指示に応じて、匿名化処理部51において、対応する匿名化前データセット55(図2)に対するk−匿名化処理が実行される。
そして統計量強化匿名化データ選択処理部52は、このとき実行されたk−匿名化処理により作成された匿名化データセット64のデータを一時的にハードディスク装置35(図1)に格納する(SP57)。
次いで、統計量強化匿名化データ選択処理部52は、匿名化処理部51に設定したk値の値がステップSP51で取得した最大値Kmax未満であるか否か、及び、変数nの値がステップSP52で取得した試行回数の上限値Nmax未満であるか否かを順次判断する(SP58,SP59)。
統計量強化匿名化データ選択処理部52は、これらステップSP58及びステップSP59の判断で共に肯定結果を得ると、変数nの値を1増加させた後に(SP60)、ステップSP55に戻り、この後、ステップSP55で選択するk−匿名化パラメータを順次未処理の他のk−匿名化パラメータに切り替えながら、ステップSP58又はステップSP59において否定結果を得るまでステップSP55〜ステップSP60の処理を繰り返す。
以上のステップSP55〜ステップSP60の繰返し処理により、ステップSP53で生成したNmax個のk−匿名化パラメータのすべてについてk−匿名化処理が実行され、これらk−匿名化処理により得られた匿名化データセット64がそれぞれハードディスク装置35に格納されることになる。
そして統計量強化匿名化データ選択処理部52は、やがてk−匿名化処理のk値がデータ利用者4が設定した最大値Kmaxに到達し、又は、k−匿名化処理の試行回数(変数nの値)が上限値Nmaxに到達することによりステップSP58又はステップSP59で否定結果を得ると、データ利用者4が指定した匿名化データセット64の元となる匿名化前データセット55の当該データ利用者4が指定した対象統計量の値と、ステップSP55〜ステップSP60の繰返し処理により得られた各匿名化データセット64の当該対象統計量の値との差異をそれぞれ算出する(SP61)。
そして統計量強化匿名化データ選択処理部52は、ステップSP61の算出結果に基づいて、ステップSP55〜ステップSP60の繰返し処理により得られた各匿名化データセット64のうち、その対象統計量の値と、データ利用者4が指定した匿名化データセット64の元となる匿名化前データセット55の当該データ利用者4が指定した対象統計量の値との差異が最小の匿名化データセット64を特定する(SP62)。
続いて、統計量強化匿名化データ選択処理部52は、ステップSP62で特定した匿名化データセット64のデータ利用者4が指定した対象属性の当該データ利用者4が指定した対象統計量の値と、かかる匿名化前データセット55の当該データ利用者4が指定した対象統計量の値との差異が、データ利用者4により設定された許容有意水準を満たすか否かを判断する(SP63)。
そして統計量強化匿名化データ選択処理部52は、この判断で肯定結果を得ると、ステップSP62で特定した匿名化データセット64を、データ利用者4が設定した利用者要件を満たす匿名化データセット64として、そのデータをデータ提供装置32に出力し(SP69)、この後、このk値固定統計量強化処理を終了する。
従って、この場合には、データ利用者4が指定した属性(対象属性)の当該データ利用者4が指定した統計量(対象統計量)の値が当該データ利用者4が指定した許容有意水準を満たす匿名化データセット64のうち、対象属性の対象統計量の値が元の匿名化前データセット55の対象統計量の値に最も近い匿名化データセット64のデータがデータ提供装置32に出力されることになる。そしてこの場合には、図7について上述したデータセット選択画面70の匿名化データセット一覧71(図7)に、この匿名化データセット64の概要が追加表示される。
これに対して、統計量強化匿名化データ選択処理部52は、ステップSP63の判断で否定結果を得ると、匿名化処理部51に設定されているk−匿名化処理時のk値の値がステップSP51で取得したk値の最大値Kmaxであるか否かを判断する(SP64)。
そして統計量強化匿名化データ選択処理部52は、この判断で肯定結果を得ると、データ利用者4が指定した属性(対象属性)の当該データ利用者4が指定した統計量(対象統計量)の値が当該データ利用者4が設定した許容有意水準を満たさない旨の警告をデータ提供装置32に通知する(SP65)。
さらに統計量強化匿名化データ選択処理部52は、そのとき設定されているk値でk−匿名化処理を実行することにより得られた匿名化データセット64のうち、ステップSP62で特定した匿名化データセット64のデータをデータ提供装置32に出力し(SP69)、この後、このk値固定統計量強化処理を終了する。
従って、この場合には、データ利用者4が指定した属性(対象属性)の当該データ利用者4が指定した統計量(対象統計量)の値が当該データ利用者4が指定した許容有意水準を満たさない匿名化データセット64のうち、元の匿名化前データセット55(図1)との関係において、対象属性の対象統計量値の差異が最も小さい匿名化データセット64のデータがデータ提供装置32に出力されることになる。そしてこの場合には、図7について上述したデータセット選択画面70の匿名化データセット一覧71(図7)に、この匿名化データセット64の概要が追加表示されると共に、当該匿名化データセット64が利用者要件を満たしていない旨の警告が当該匿名化データセット64の概要と対応付けて表示される。
これに対して統計量強化匿名化データ選択処理部52は、ステップSP64の判断で否定結果を得ると、k値の値を1増加させてリトライするか否かをデータ利用者4に確認するための確認画面(図示せず)をクライアント端末40に表示させるようデータ提供装置32に要求する(SP66)。
かくして、このときデータ提供装置32は、所定の画面データを対応するクライアント端末40に送信することにより、現在のk値では対象属性の対象統計量がデータ利用者4が指定した許容有意水準を満たす匿名化データセット64を作成できない旨の警告が表示された上述の確認画面をそのクライアント端末40に表示させる。またデータ提供装置32は、クライアント端末40から送信される、この確認画面を利用してデータ利用者4が指定したリトライするか否かの回答をデータ準備装置31に転送する。
そして統計量強化匿名化データ選択処理部52は、データ提供装置32から転送されるかかる回答に基づいて、リトライすることをデータ利用者が選択したか否かを判断する(SP67)。そして統計量強化匿名化データ選択処理部52は、この判断で肯定結果を得ると、k値の値を1増加させた後(SP68)、ステップSP55に戻る。そして統計量強化匿名化データ選択処理部52は、この後、ステップSP55以降を上述と同様に処理する。
これに対して、統計量強化匿名化データ選択処理部52は、ステップSP67の判断で否定結果を得ると、データ利用者4が指定した属性(対象属性)の当該データ利用者4が指定した統計量(対象統計量)の値が当該データ利用者4が設定した許容有意水準を満たさない旨の警告をデータ提供装置32に通知する(SP65)。
さらに統計量強化匿名化データ選択処理部52は、そのとき設定されているk値でk−匿名化処理を実行することにより得られた匿名化データセット64のうち、ステップSP62で特定した匿名化データセット64のデータをデータ提供装置32に出力し(SP69)、この後、このk値固定統計量強化処理を終了する。
従って、この場合には、データ利用者4が指定した属性(対象属性)の当該データ利用者4が指定した統計量(対象統計量)の値が当該データ利用者4が指定した許容有意水準を満たさない匿名化データセット64のうち、元の匿名化前データセット55(図1)との関係において、対象属性の対象統計量値の差異が最も小さい匿名化データセット64のデータがデータ提供装置32に出力されることになる。そしてこの場合には、図7について上述したデータセット選択画面70の匿名化データセット一覧71(図7)に、この匿名化データセット64の概要が追加表示される。
(5)本実施の形態の効果
以上のように本実施の形態の情報処理システム1では、匿名化前データセット55に対してk値又は匿名化パラメータを順次変えながら複数回のk−匿名化処理を実行し、かくして得られた匿名化データセット64の中からデータ利用者4により予め設定された利用者要件を満たす匿名化データセット64を選択的にそのデータ利用者4に提供するため、データ利用者4のニーズに合致した匿名化データセット64をデータ利用者4に提供することができる。
(6)他の実施の形態
なお上述の実施の形態においては、データ収集・管理・提供者3の匿名化データ提供システム30をデータ準備装置31及びデータ提供装置32の2つの装置により構成するようにした場合について述べたが、本発明はこれに限らず、データ準備装置31及びデータ提供装置32の各機能を1つの情報処理装置に搭載し、匿名化データ提供システム30を1つの情報処理装置により構成するようにしても良い。
また上述の実施の形態においては、本発明をヘルスケアデータを匿名化処理してデータ利用者4に提供する情報処理システム1に適用するようにした場合について述べたが、本発明はこれに限らず、ヘルスケアデータ以外のデータを匿名化処理してデータ利用者4に提供するこの他種々の情報処理システムに広く適用することができる。
本発明は、プライバシに関する情報を匿名化又は曖昧化した上でデータを提供する情報処理システムに広く適用することができる。
1……情報処理システム、2……元データ提供者、3……データ収集・管理・提供者、4……データ利用者、20……情報処理装置、30……匿名化データ提供システム、31……データ準備装置、32……データ提供装置、33,36……CPU、34,37……メモリ、35,38……ハードディスク装置、40……クライアント端末、51……匿名化処理部、52……統計量強化匿名化データ選択処理部、53……元データデータベース、54……匿名化条件データベース、55……匿名化前データセット、56……プライバシ保護条件テーブル、60……匿名化データベース、61……データカタログ、62……利用条件情報、63……データ提供部、64……匿名化データセット、65……利用者要件テーブル、70……データカタログ選択画面、80……統計量強化項目指定画面。

Claims (12)

  1. 元データを匿名化処理してデータ利用者に提供する匿名化データ提供装置において、
    前記元データのデータセットに対して前記匿名化処理を実行する匿名化処理部と、
    前記匿名化処理部を制御する匿名化データ選択処理部と、
    匿名化された前記データセットを匿名化データセットとして管理し、前記データ利用者からの要求に応じて、前記匿名化データセットを当該データ利用者に提供するデータ提供部と
    を備え、
    前記データ利用者は、
    所望する前記データセットを選択すると共に、当該データセットについての所望する属性の所望する統計量の許容有意水準を利用者要件として設定し、
    前記匿名化データ選択処理部は、
    前記データ利用者により選択された前記データセットに対して複数回の前記匿名化処理を実行するよう前記匿名化処理部を制御し、
    複数回の前記匿名化処理により得られた複数個の前記匿名化データセットについて、前記データ利用者により設定された前記統計量をそれぞれ算出し、
    算出した各前記匿名化データセットの前記統計量と、前記元データの前記データセットの当該統計量とをそれぞれ比較し、当該統計量の差異が前記データ利用者が設定した前記許容有意水準を満たす前記匿名化データセットを前記利用者要件を満たす前記匿名化データセットとして選択し、
    前記データ提供部は、
    前記匿名化データ選択処理部により選択された前記匿名化データセットを前記データ利用者に提供する
    ことを特徴とする匿名化データ提供装置。
  2. 前記データ提供部は、
    前記データ利用者が選択した前記データセットについて当該データ利用者が所望する前記属性、前記統計量及び前記許容有意水準を設定するための画面を当該データ利用者に提示し、
    当該画面を用いて前記データ利用者により設定された当該データセットについての前記属性、前記統計量及び前記許容有意水準を前記匿名化データ選択処理部に通知する
    ことを特徴とする請求項1に記載の匿名化データ提供装置。
  3. 前記匿名化処理部は、
    前記匿名化処理としてk−匿名化処理を実行し、
    前記匿名化データ選択処理部は、
    前記k−匿名化処理におけるk値を順次変えながら前記データセットに対する前記k−匿名化処理を複数回実行するよう前記匿名化処理部を制御する
    ことを特徴とする請求項1に記載の匿名化データ提供装置。
  4. 前記匿名化データ選択処理部は、
    複数回の前記k−匿名化処理により得られた複数個の前記匿名化データセットの中から、前記利用者要件を満たし、かつk値の値が最も大きい前記匿名化データセットを選択する
    ことを特徴とする請求項3に記載の匿名化データ提供装置。
  5. 前記匿名化処理部は、
    k−匿名化処理により前記元データの前記データセットを匿名化し、
    前記匿名化データ選択処理部は、
    前記k−匿名化処理時におけるパラメータを順次変えながら前記データセットに対する前記k−匿名化処理を複数回実行するよう前記匿名化処理部を制御する
    ことを特徴とする請求項1に記載の匿名化データ提供装置。
  6. 前記匿名化データ選択処理部は、
    複数回の前記k−匿名化処理により得られた複数個の前記匿名化データセットの中から、前記利用者要件を満たし、かつ前記データ利用者により設定された前記統計量について、前記元データの前記データセットの当該統計量との差異が最小の前記匿名化データセットを選択する
    ことを特徴とする請求項5に記載の匿名化データ提供装置。
  7. 元データを匿名化処理してデータ利用者に提供する匿名化データ提供装置において実行される匿名化データ提供方法において、
    前記匿名化データ提供装置は、
    前記元データのデータセットに対して前記匿名化処理を実行する匿名化処理部と、
    前記匿名化処理部を制御する匿名化データ選択処理部と、
    匿名化された前記データセットを匿名化データセットとして管理し、前記データ利用者からの要求に応じて、前記匿名化データセットを当該データ利用者に提供するデータ提供部と
    を有し、
    前記データ利用者は、
    所望する前記データセットを選択すると共に、当該データセットについての所望する属性の所望する統計量の許容有意水準を利用者要件として設定し、
    前記匿名化データ選択処理部が、前記データ利用者により選択された前記データセットに対して複数回の前記匿名化処理を実行するよう前記匿名化処理部を制御する第1のステップと、
    前記匿名化データ選択処理部が、複数回の前記匿名化処理により得られた複数個の前記匿名化データセットについて、前記データ利用者により設定された前記統計量をそれぞれ算出する第2のステップと、
    前記匿名化データ選択処理部が、算出した各前記匿名化データセットの前記統計量と、前記元データの前記データセットの当該統計量とをそれぞれ比較し、当該統計量の差異が前記データ利用者が設定した前記許容有意水準を満たす前記匿名化データセットを前記利用者要件を満たす前記匿名化データセットとして選択する第3のステップと、
    前記データ提供部が、前記匿名化データ選択処理部により選択された前記匿名化データセットを前記データ利用者に提供する第4のステップと
    を備えることを特徴とする匿名化データ提供方法。
  8. 前記データ提供部は、
    前記データ利用者が選択した前記データセットについて当該データ利用者が所望する前記属性、前記統計量及び前記許容有意水準を設定するための画面を当該データ利用者に提示し、
    当該画面を用いて前記データ利用者により設定された当該データセットについての前記属性、前記統計量及び前記許容有意水準を前記匿名化データ選択処理部に通知する
    ことを特徴とする請求項7に記載の匿名化データ提供方法。
  9. 前記匿名化処理部は、
    前記匿名化処理としてk−匿名化処理を実行し、
    前記第1のステップにおいて、前記匿名化データ選択処理部は、
    前記k−匿名化処理におけるk値を順次変えながら前記データセットに対する前記k−匿名化処理を複数回実行するよう前記匿名化処理部を制御する
    ことを特徴とする請求項7に記載の匿名化データ提供方法。
  10. 前記第3のステップにおいて、前記匿名化データ選択処理部は、
    複数回の前記k−匿名化処理により得られた複数個の前記匿名化データセットの中から、前記利用者要件を満たし、かつk値の値が最も大きい前記匿名化データセットを選択する
    ことを特徴とする請求項9に記載の匿名化データ提供方法。
  11. 前記匿名化処理部は、
    k−匿名化処理により前記元データの前記データセットを匿名化し、
    前記第1のステップにおいて、前記匿名化データ選択処理部は、
    前記k−匿名化処理時におけるパラメータを順次変えながら前記データセットに対する前記k−匿名化処理を複数回実行するよう前記匿名化処理部を制御する
    ことを特徴とする請求項7に記載の匿名化データ提供方法。
  12. 前記第3のステップにおいて、前記匿名化データ選択処理部は、
    複数回の前記k−匿名化処理により得られた複数個の前記匿名化データセットの中から、前記利用者要件を満たし、かつ前記データ利用者により設定された前記統計量について、前記元データの前記データセットの当該統計量との差異が最小の前記匿名化データセットを選択する
    ことを特徴とする請求項11に記載の匿名化データ提供方法。
JP2016530796A 2014-07-04 2014-07-04 匿名化データ提供装置及び方法 Expired - Fee Related JP6263620B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/067983 WO2016002086A1 (ja) 2014-07-04 2014-07-04 匿名化データ提供装置及び方法

Publications (2)

Publication Number Publication Date
JPWO2016002086A1 JPWO2016002086A1 (ja) 2017-04-27
JP6263620B2 true JP6263620B2 (ja) 2018-01-17

Family

ID=55018682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016530796A Expired - Fee Related JP6263620B2 (ja) 2014-07-04 2014-07-04 匿名化データ提供装置及び方法

Country Status (2)

Country Link
JP (1) JP6263620B2 (ja)
WO (1) WO2016002086A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6664342B2 (ja) * 2017-02-09 2020-03-13 日本電信電話株式会社 データ流通仲介装置、データ流通仲介システム、およびデータ流通仲介方法
JP6817169B2 (ja) * 2017-08-31 2021-01-20 株式会社日立製作所 データ流通方法及びデータ流通基盤装置
US10740488B2 (en) * 2017-11-17 2020-08-11 International Business Machines Corporation Cognitive data anonymization
KR102024153B1 (ko) * 2017-12-26 2019-09-23 주식회사 마인드웨어?스 개인정보 보호 기반 질의 처리 서비스 제공 시스템
JP7201326B2 (ja) * 2018-02-19 2023-01-10 日本電気株式会社 匿名加工装置、情報匿名化方法、およびプログラム
JP6995667B2 (ja) * 2018-03-02 2022-01-14 株式会社日立製作所 情報管理システム、情報管理方法及び情報管理装置
WO2019202705A1 (ja) * 2018-04-19 2019-10-24 株式会社ウフル ペルソナデータ提供システム、ペルソナデータ提供方法、プログラム、及びペルソナデータ提供装置
JP7154884B2 (ja) * 2018-08-28 2022-10-18 株式会社Ye Digital 情報秘匿化方法、情報秘匿化プログラム、情報秘匿化装置および情報提供システム
JP7149905B2 (ja) * 2019-08-02 2022-10-07 ミサワホーム株式会社 匿名化システム
JP7382902B2 (ja) 2020-06-18 2023-11-17 株式会社日立製作所 データ提供サーバ装置、およびデータ提供方法
EP4214622A1 (en) * 2020-09-16 2023-07-26 SST Canada Inc. Systems and methods for configuring and operating de-identification systems

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5452187B2 (ja) * 2009-11-26 2014-03-26 Kddi株式会社 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
JP5366786B2 (ja) * 2009-12-17 2013-12-11 Kddi株式会社 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
JP2011133958A (ja) * 2009-12-22 2011-07-07 Michio Kimura 匿名度の指標値を算出する情報処理システムおよび匿名度の指標値の算出方法
JP5698167B2 (ja) * 2012-02-28 2015-04-08 日本電信電話株式会社 データ検定装置、データ検定方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2016002086A1 (ja) 2017-04-27
WO2016002086A1 (ja) 2016-01-07

Similar Documents

Publication Publication Date Title
JP6263620B2 (ja) 匿名化データ提供装置及び方法
Xafis et al. The perfect moral storm: diverse ethical considerations in the COVID-19 pandemic
Abaluck et al. Evolving choice inconsistencies in choice of prescription drug insurance
Brunelli et al. Estimation using all available covariate information versus a fixed look‐back window for dichotomous covariates
Lefebvre et al. Cost-effectiveness of rivaroxaban compared with enoxaparin plus a vitamin K antagonist for the treatment of venous thromboembolism
Baker et al. A vaccine study design selection framework for the postlicensure rapid immunization safety monitoring program
JP2014229039A (ja) プライバシ保護型データ提供システム
Tomasdottir et al. Risk of ischemic stroke and utility of CHA2DS2‐VASc score in women and men with atrial fibrillation
Alhajeri et al. Limitations in and solutions for improving the functionality of picture archiving and communication system: an exploratory study of PACS professionals’ perspectives
US20160306999A1 (en) Systems, methods, and computer-readable media for de-identifying information
Amin et al. A real-world observational study of hospitalization and health care costs among nonvalvular atrial fibrillation patients prescribed oral anticoagulants in the US Medicare population
McHugh et al. Changes in patient flow among five hospitals participating in a learning collaborative
Labori et al. Cost-effectiveness analysis of left atrial appendage occlusion in patients with atrial fibrillation and contraindication to oral anticoagulation
Brookfield et al. Q fever—the superstition of avoiding the word “quiet” as a coping mechanism: randomised controlled non-inferiority trial
Gallier et al. Infrastructure and operating processes of PIONEER, the HDR-UK Data Hub in Acute Care and the workings of the Data Trust Committee: a protocol paper
Ferroni et al. Intensity of integrated primary and specialist home-based palliative care for chronic diseases in Northeast Italy and its impact on end-of-life hospital access
Núñez-Gaona et al. A dependable massive storage service for medical imaging
WO2016203752A1 (ja) 情報処理装置、情報処理方法、及び、記憶媒体
King Jr et al. Disparities in rates of spine surgery for degenerative spine disease between HIV-infected and uninfected veterans
Poulymenopoulou et al. E-EPR: a workflow-based electronic emergency patient record
Davidson Creating value: unifying silos into public health business intelligence
Shvo It’s time for health record banking!
Duncan et al. A collaborative model for web archiving ephemeral art resources at the New York Art Resources Consortium (NYARC)
Edmiston Jr et al. Longitudinal Rates, Patient Risk Factors, and Economic Impact of Superficial and Deep Incisional Surgical Site Infection After Primary and Revision Total Hip Arthroplasty: A US Retrospective Commercial Claims Database Analysis
Avanceña et al. Achieving malaria testing and treatment targets for children under five in Mozambique: a cost-effectiveness analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171218

R150 Certificate of patent or registration of utility model

Ref document number: 6263620

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees