JP6015658B2 - 匿名化装置、及び、匿名化方法 - Google Patents

匿名化装置、及び、匿名化方法 Download PDF

Info

Publication number
JP6015658B2
JP6015658B2 JP2013531445A JP2013531445A JP6015658B2 JP 6015658 B2 JP6015658 B2 JP 6015658B2 JP 2013531445 A JP2013531445 A JP 2013531445A JP 2013531445 A JP2013531445 A JP 2013531445A JP 6015658 B2 JP6015658 B2 JP 6015658B2
Authority
JP
Japan
Prior art keywords
group
anonymization
data
adaptive
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013531445A
Other languages
English (en)
Other versions
JPWO2013031997A1 (ja
Inventor
伊東 直子
直子 伊東
隆夫 竹之内
隆夫 竹之内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013531445A priority Critical patent/JP6015658B2/ja
Publication of JPWO2013031997A1 publication Critical patent/JPWO2013031997A1/ja
Application granted granted Critical
Publication of JP6015658B2 publication Critical patent/JP6015658B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、匿名化技術に関する。
年齢、性別又は住所等の個人情報を含むデータに関する統計データは、公開され、又、利用されている。データの公開の際、公開されたデータを基に個人が特定されないように、データの抽象化を用いて匿名化する技術が、知られている。匿名化とは、個人情報の集合において、各レコード(個人情報などの集合)が、どの個人のデータか判らないようにデータを加工する技術である。匿名化のよく知られた指標として、k匿名性がある。k匿名性とは、データがk個未満のデータに絞りこまれないことを保証するものである。個人情報に含まれる属性の中で、その属性の組み合わせに基づき個人を特定できる属性(及び属性の集合である属性群)は、準識別子と言われる。基本的に、k匿名性を確保する匿名化とは、この準識別子に含まれる属性値を汎化し、準識別子を共有するレコードをk個以上とし、k匿名性を保証する。
例えば、特許文献1及び特許文献2には、データを加工して、公開する情報におけるプライバシーを保護するための、公開情報のプライバシー保護装置が開示されている。
特許文献1のプライバシー保護装置において、設定手段は、公開情報を利用する利用者の要求条件を考慮して、データの各属性に優先順位(重み付け)を設定する。
算出手段は、設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。
加工方法選択手段は、算出した評価ポイントの減少分が最小となるデータの加工方法を選択し、次いで、算出した評価ポイントの増加分が最大となるデータの加工方法を選択する。
データ加工手段は、選択された加工方法を用いてデータを加工する。データ加工手段は、設定手段が設定した優先順位(重み付け)の最も低いものから、k匿名性を満足するまで、データを加工する。
特許文献1のプライバシー保護装置は、上記構成を採用し、すべてのデータを平等に扱うことに基づき、データ利用者が求める情報の欠落という問題を解決する。
また、特許文献3には、データの個々の項目に対して匿名化を行った場合に、項目全体として匿名化が出来たか否かの判定を用いて、情報を匿名化する情報処理装置が開示されている。
また、特許文献4には、セキュアレベルの動的な設定が可能な情報処理装置が開示されている。
特開2011−128862 特開2011−113285 特開2010−086179 特許第4507569号 ″On Variable Constraints in Privacy Preserving Data Mining″,Charu C.Aggarwal,Philip S.Yu.IBM T.J.Watson Research Center(Proceedings of the Fifth SIAM International Conference on Data Mining,Newport Beach,CA,April 21−23,2005.ISBN 0−89871−593−8に掲載)http://www.siam.org/proceedings/datamining/2005/dm05_11aggarwalc.pdf
しかし、特許文献1〜4に記載の技術では、データ集合の中に匿名化の要求レベルが高い人のデータが一つでも含まれると、データ集合全体の情報価値が、落ちる。その理由は、データ集合全体が、要求レベルが最も高い人のデータに合わせて、k匿名性のレベルを満たすように抽象化されるためである。
なお、各データの要求レベルを考慮した技術が、非特許文献1に記載されている。非特許文献1に記載の技術は、データ集合を、要求レベルに基づきグループに分割する。具体的に説明すると、次のようになる。非特許文献1に記載の技術は、まず、データ集合を、識別性のk要求レベル(匿名性のkと同様に、データ集合内で、特定のユーザのデータとして絞られる数)が同一のデータに分割する。そして、非特許文献1に記載の技術は、分割したデータ集合ごとに、意味的な類似度に応じてデータをグループ化する。ここで、それぞれのグループの大きさは、要求レベルを満たす。ただし、要求レベルごとに処理された各グループにおいて、一グループ内のデータが大きく分散したり、一グループが隣接する他のグループに近かったりする場合、非特許文献1に記載の技術は、データを移動する。しかし、非特許文献1に記載の技術は、要求レベルに基づいてデータ集合を分割する。そのため、要求レベルが同一のデータの数が十分にない場合、グループ内のデータは、類似したデータで構成されるとは限らない。非特許文献1に記載の技術のように、統計量を保つことを目的に適用される場合、グループ内のデータが必ずしも類似しないことは、特に問題とはならない。しかし、非特許文献1に記載の技術を、データとして意味のある抽象化が必要な匿名化に適用することは、困難である。
本発明の目的の一つは、すべてデータがそれぞれの匿名化の要求レベルを満足し、かつデータ集合全体が抽象化されることに基づく情報価値の低下を防止できる匿名化装置及び匿名化方法を提供することにある。
[課題を解決するための手段]
上記目的を達成するため、本発明における匿名化装置は、二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行する匿名化手段と、前記匿名化処理が実行されたデータ集合の前記グループ毎に適応的匿名レベルを設定する匿名レベル設定手段と、前記グループが前記設定された適応的匿名レベルを満たすか否かを判定する匿名性判定手段と、を含み、前記匿名化手段は、前記匿名性判定手段の判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する。
上記目的を達成するため、本発明における匿名化方法は、二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行し、前記グループ毎に適応的匿名レベルを設定し、前記グループが前記設定された適応的匿名レベルを満たすか否かを判定し、前記判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する。
上記目的を達成するため、本発明におけるプログラムは、二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行し、前記グループ毎に適応的匿名レベルを設定し、前記グループが前記設定された適応的匿名レベルを満たすか否かを判定し、前記判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する処理をコンピュータに実行させる。
[発明の効果]
本発明の効果の一例は、すべてデータがそれぞれの匿名化の要求レベルを満足し、かつデータ集合全体の抽象化に基づく情報価値の低下を防止することが可能なことである。
図1は、匿名化処理の対象となるデータ集合の一例の初期状態を表す図である。 図2は、図1に示す匿名化処理の対象となるデータ集合が分割された状態の一例を表す図である。 図3は、本発明のおける第1実施形態に係る匿名化装置10の構成の一例を示すブロック図である。 図4は、本発明の第1実施形態に係る匿名化装置10の動作の一例を示すフローチャートである。 図5は、匿名化処理であるデータの分割に用いる分類木の一例のイメージ図である。 図6は、各グループに設定された適応的匿名レベルの一例を表示した図である。 図7は、図6に示すデータ集合が、さらに分割され、グループ毎に適応的匿名レベルが設定されたデータ集合の状態の一例を表す図である。 図8は、グループが修正されたデータ集合の状態の一例を表す図である。 図9は、第2実施形態に係る匿名化装置20の構成の一例を示すブロック図である。 図10は、本発明の第2実施形態に係る匿名化装置20の動作の一例を示すフローチャートである。 図11は、データ集合が最小値である1のデータを含むグループ毎に分割された状態の一例を示す図である。 図12は、グループが統合され、新たに適応的匿名レベルが設定されたデータ集合の状態の一例を表す図である。 図13は、図12のデータ集合がさらに統合された状態の一例を示す図である。 図14は、図13のデータ集合がさらに統合された状態の一例を示す図である。 図15は、図14のデータ集合がさらに統合された状態の一例を示す図である。 図16は、図15のデータ集合がさらに統合された状態の一例を示す図である。 図17は、図16のデータ集合がさらに統合された状態の一例を示す図である。 図18は、第3実施形態に係る匿名化装置30の構成の一例を示すブロック図である。 図19は、第3実施形態に係る匿名化装置30の動作の一例のフローチャートである。 図20は、第1実施形態に係る匿名化装置10のハードウェア構成の一例を示すブロック図である。
<第1実施形態>
まず、本発明のおける第1実施形態の理解を容易にするため、本実施形態に関係する技術について説明する。
最初に、以下の説明で使用する用語について整理する。
機微情報(センシティブ情報)とは、他人に知られたくない情報である。
準識別子とは、背景知識や情報の組み合わせを基に、ユーザを特定できる、つまり識別子となる情報である。なお、準識別子は、センシティブ情報を含む場合もある。
また、説明の一例として、分析に用いるデータに匿名化処理を施して公開する事業者(以下、「公開事業者」という。)が、病院の医療事業者のカルテデータとして、図1に示すデータを保持している場合を想定する。
図1は、本説明に用いる、匿名化処理の対象となるデータ集合の一例の初期状態を表す図である。図1に示すように、公開事業者は、「ZIPコード」、「年齢」、「国籍」、「病気」及び「ki」を含むデータを保持している。
本実施形態において、「病気」に関する情報が、センシティブ情報とする。ただし、本実施形態において、センシティブ情報は、データの分析に用いるとする。そのため、本実施形態においてセンシティブ情報(図1では「病気」)は、抽象化したくない情報となる。
そこで、本実施形態は、センシティブ情報(「病気」)以外の準識別子の少なくとも一部を、抽象化する。
「ki」は、k匿名性に対する要求レベルを意味する。k匿名性とは、同じ準識別子の組み合わせを含むデータの数が、k以上となることを要求する指標である。データは、グループとして扱われる。そのため、グループがk匿名性の要求レベルを満たすように、準識別子の情報は、抽象化される。「ki」における「i」は、データを識別する番号(ナンバー)を意味する。例えば、No.2のデータの「ki」の「i」は、「2」である。また、No.2のデータの要求レベルは、「k2」と表現され、その値は、「3」である(図1を参照)。
本実施形態に関連する技術は、公開事業者が有するデータ全体に対し、データ集合が保持するデータの中で最も高いk匿名性に対する要求レベルを、「最適k匿名性レベル」として設定する。図1に示すデータ集合の場合、最も高い要求レベルである4(k3=4)が、最適k匿名性レベルとなる。
本実施形態に関連する技術は、図1に示すデータを、例えば、図2に示すように、2つのグループに分割する。
図2は、図1に示す匿名化処理の対象となるデータ集合が分割された状態の一例を表す図である。
図2に示すように、図1に示すデータは、準識別子の一つである年齢に関し、20代(No.1、3、5、7のデータ)と30代(No.2、4、6、8、9のデータ)との二つのグループに分割される。この時、「年齢」は、例えば、「20−29」及び「30−39」に抽象化される。また、「ZIPコード」は、例えば、「130**」及び「148**」に抽象化される。さらに、国籍は、例えば、「*」に抽象化される。これらの抽象化に基づき、個人の特定は、防止される。
ここで、20代のグループのデータ数は、「4」である。また、30代のグループのデータ数は、「5」である。いずれのグループも、最適k匿名性レベルの「4」を満たす。
本実施形態の関連技術は、これ以上、データを分割しない。その理由は、最適k匿名性レベルが20代のグループにも30代のグループにも一律に設定されているため、どちらのグループも、これ以上分割すると、最適k匿名性レベルを満たさなくなるからである。
しかし、30代のグループに属するデータの要求レベルは、いずれも最適k匿名性レベルである「4」を要求していない。つまり、30代のグループに属するデータの準識別子の情報は、必要以上に抽象化されている。
すなわち、本実施形態の関連技術は、データ集合の中で最も高い要求レベルに合わせて匿名化処理するため、データ集合全体の情報価値が落ちてしまうという問題がある。
以下で説明する本発明における第1実施形態は、上記の関連技術の問題を解決する。
まず、図3を参照して、本発明における第1実施形態に係る匿名化装置10の機能構成を説明する。
図3は、第1実施形態に係る匿名化装置10の構成の一例を示すブロック図である。図3に示すように匿名化装置10は、匿名化部11と、匿名レベル設定部12と、匿名性判定部13と、グループ修正部14とを含む。
匿名化部11は、外部の装置又はシステムから二以上のデータを含む集合(以下「データ集合」という。)を受信する。匿名化部11は、図示しない記憶装置又は図示しない構成部からデータ集合を受信しても良い。また、後ほど詳細に説明するが、匿名化部11は、匿名性判定部13及び/又はグループ修正部14から、データ集合を受信する。
なお、本実施形態の匿名化装置10は、各構成間でのデータ集合の送信及び受信の手法に特に制限はない。例えば、匿名化装置10は、図示しない記憶部にデータ集合を記憶し、各構成が記憶部のデータ集合に含まれるデータを読み出し又はデータを書き込んでも良い。また、匿名化装置10の各構成は、データ集合を次の構成に直接送信してもよい。さらに、匿名化装置10の各構成は、次の構成や以降の構成で必要なデータ集合の一部のデータ(例えば、抽象化したデータ、グループ化したデータ又は抽象化やグループ化する前のデータ)を送信しても良い。以下、これらをまとめて、データ集合を出力する若しくはデータ集合を送信する、又は、データ集合を入力する若しくはデータ集合を受信するという。
匿名化部11は、受信したデータ集合に対し、データをグループに分割し、分割したグループを処理単位として抽象化する匿名化処理を実行する。既にグループ化されているデータ集合を受信した場合、匿名化部11は、データ集合に含まれるグループをさらに小さなグループに分割しても良い。以下、データ集合のグループをさらに小さなグループに分割することを含め、データ集合を分割するという。
ただし、本実施形態の匿名化部11の匿名化処理は、分割において、可能な限りデータの抽象化を抑え、かつ、公開されたデータから個人を特定できないようにデータを加工(分割化/抽象化)する。
本実施形態の匿名化処理は、一例として、トップダウンの処理を用いて説明する。本実施形態のトップダウンの匿名化処理は、データの分割処理と、抽象化処理とを含む。つまり、本実施形態において匿名化部11は、データ集合をグループに分割し、グループに属するデータを必要に応じて抽象化する。なお、匿名化部11のトップダウンの匿名化処理は、特に制限はない。この匿名化処理は、任意の準識別子に着目し、例えば、分類木を利用した処理や、クラスタリングを利用した処理でも良い。
匿名化部11は、グループに分割したデータ集合を、匿名レベル設定部12に出力する。
匿名レベル設定部12は、匿名化部11からグループに分割されたデータ集合を受信する。匿名レベル設定部12は、受信したデータ集合に基づいて、匿名化の要求レベルである「適応的匿名レベル」を、それぞれのグループに設定する。ここで、適応的匿名レベルは、グループ毎に異なっても良いし、一部のグループで同じでも良い。ただし、後ほど説明するように、本実施形態は、再帰的に動作する。つまり、適用的匿名レベルの設定は、複数回実行される場合もある。そのため、本実施形態は、匿名レベル設定部12が全てのグループに同じ適用的匿名レベルを設定する場合を排除するものではない。
「適応的匿名レベル」とは、グループに属するデータに応じて適応的に設定される匿名性の要求レベルである。匿名レベル設定部12は、グループ内で最も高い匿名化の要求レベルを有するデータの要求レベル(例えば、前述の最適k匿名性レベルに相当)を、適応的匿名レベルに設定しても良い。
匿名レベル設定部12は、グループ毎に適応的匿名レベルが設定されたデータの集合を匿名性判定部13に出力する。
匿名性判定部13は、匿名レベル設定部12からグループ毎に適応的匿名レベルが設定されたデータ集合を受信する。匿名性判定部13は、各グループが適応的匿名レベルを満たすか否かを判定する。各グループが適応的匿名レベルを満たすと判定した場合、匿名性判定部13は、各グループのデータ集合を匿名化部11に出力する。
以降、匿名性判定部13が、少なくとも一つのグループが適応的匿名レベルを満たさない、と判定するまで、匿名化部11、匿名レベル設定部12及び匿名性判定部13は、再帰的に処理を繰り返す。
匿名性判定部13は、少なくとも一つのグループが適応的匿名レベルを満たさない、と判定した場合、データ集合をグループ修正部14に出力する。
グループ修正部14は、匿名性判定部13の判定結果に基づいて、データ集合のグループを修正する。適応的匿名レベルを満たさないと判定したグループのデータの不足分を、他のグループの過剰分で補える場合、グループ修正部14は、他のグループの補うのに必要な過剰分のデータを、適応的匿名レベルを満たさないグループに移動させる。
データを移動させてグループを修正した後、グループ修正部14は、修正後のデータ集合を匿名化部11に出力する。
以降、グループ修正部14が、いずれかのグループにおいて適応的匿名レベルを満たすようにグループを修正できないと判定するまで、匿名化部11、匿名レベル設定部12、匿名性判定部13及びグループ修正部14は、再帰的に、説明した処理を繰り返す。
いずれかのグループにおいて適応的匿名レベルを満たすようにグループを修正できない状態と判定すると、グループ修正部14は、匿名化部11が最後に行った分割をキャンセルし、全てのグループが適応的匿名レベルを満たす状態に戻す。戻したデータ集合は、各グループが適応的匿名レベルを満たしている状態で可能な限り分割したデータ集合となる。そのため、このデータ集合は、最終的なデータ集合と言っても良い。
グループ修正部14は、最終的なデータ集合を、例えば、表示装置に出力する。グループ修正部14は、最終的なデータ集合を、図示しない記憶装置、外部の装置又はシステムに出力しても良い。
なお、少なくとも1つのグループが適応的匿名レベルを満たすようにグループを修正することができない状態とは、例えば、適応的匿名レベルを満たさないと判定された少なくとも1つグループのデータの不足分が、他のグループの過剰分のデータで補えない状態である。又は、このような状態とは、他のグループに過剰分のデータがない状態である。
次に、図4を参照して、本発明の第1実施形態に係る匿名化装置10の動作について説明する。
図4は、本発明の第1実施形態に係る匿名化装置10の動作の一例を示すフローチャートである。
図4に示すように、匿名化部11は、図示しない外部や内部の他の構成部、又は、匿名性判定部13やグループ修正部14から出力されたデータ集合をグループに分割し、分割したグループ単位で必要に応じて抽象化する(ステップS11)。分割するグループの数は、予め匿名化部11に設定される匿名化処理のアルゴリズムに依存し、本実施形態では、特に限定されない。ただし、以下の本実施形態の説明では、一例として、匿名化部11は、データ集合又はデータ集合のグループを二つのグループに分割するとして説明する。
次に、匿名レベル設定部12は、それぞれのグループに適応的匿名レベルを設定する(ステップS12)。本実施形態において、匿名レベル設定部12は、グループ内で最も高い匿名化の要求レベルを有するデータの要求レベルを、グループの適応的匿名レベルとして設定する。
次に、匿名性判定部13は、グループに分割されたデータ集合の各グループが、適応的匿名レベルを満たすか否かを判定する(ステップS13)。各グループが適応的匿名レベルを満たすと判定した場合、匿名性判定部13は、データ集合を匿名化部11に出力する。
以降、匿名性判定部13が、少なくとも一つのグループが適応的匿名レベルを満たさない、と判定するまで、ステップS11、ステップS12及びステップS13の処理は、再帰的に繰り返される。
ステップS13において、少なくとも一つのグループが適応的匿名レベルを満たさない、と判定されると、匿名性判定部13は、データ集合をグループ修正部14に出力する。
グループ修正部14は、全てのグループが適応的匿名レベルを満たすようにグループを修正することが可能か否かを判定する(ステップS14)。具体的には、グループ修正部14は、匿名性判定部13が適応的匿名レベルを満たさないと判定したグループのデータの不足分を、他のグループの過剰分で補えるか否かを判定する。
補えると判定した場合、グループ修正部14は、過剰分のデータを他のグループから適応的匿名レベルを満たさないグループに移動させる。この移動を基に、グループ修正部14は、全てのグループが適応的匿名レベルを満たすようにグループを修正する(ステップS15)。
グループの修正を行った後、グループ修正部14は、データ集合を匿名化部11に出力する。以降、グループ修正部14が、いずれかのグループにおいて適応的匿名レベルを満たすようにグループを修正できないと判定するまで、判定化装置10は、ステップS11、ステップS12、ステップS13、ステップS14及びステップS15の処理を、再帰的に繰り返す。
ステップS14において、いずれかのグループにおいて適応的匿名レベルを満たすようにグループを修正できない状態と判定すると、グループ修正部14は、匿名化部11が最後に行ったデータ集合の分割をキャンセルする。そして、グループ修正部14は、データ集合を、全てのグループが適応的匿名レベルを満たしている状態に戻す(ステップS16)。グループ修正部14は、各グループが適応的匿名レベルを満たしている状態のデータ集合(最終的なデータ集合)を、例えば、表示装置に出力する。グループ修正部14は、最終的なデータ集合を、図示しない記憶装置、外部の装置又はシステムに出力しても良い。
次に、図1、図2及び図5〜図7を参照して、図4の各ステップを、具体的に説明する。本説明の前提として、匿名化装置10を有する公開事業者が、図1に示すデータ集合を保持しているとする。また、「病気」に関する個人情報が、センシティブ情報とする。
また、以降の説明において、匿名化装置10は、分類木を用いたトップダウンの処理を用いてデータを分割する。
図5は、本実施形態の説明における、匿名化処理で用いるデータの分割の分類木の一例のイメージ図である。図5に示すように、本実施形態において、匿名化装置10の匿名化部11は、準識別子の1例である「年齢」に関する分類木を利用し、トップダウンの手法を用いてデータの分割(及び必要に応じたデータの抽象化)を繰り返す。例えば、年齢が20―39のデータ集合は、まず、年齢が20―29の20代のグループと、年齢が30―39の30代のグループとに分割される。次に、例として30代のグループについて説明すると、30代のグループに属するデータ集合は、年齢が30―34のグループと、年齢が35―39のグループとに分割される。以降、データ集合は、20代のグループも含めてより細かいグループに分割される。
なお、本実施形態の説明として分類木を用いた匿名化手法を用いて説明するが、匿名化部11が採用する匿名化の手法は、これに限定されない。匿名化部11は、一般的なクラスタリングの手法等を用いても良い。一般的なクラスタリング手法とは、例えば、準識別子の値の平均値を利用する手法やk−means法である。
図4のステップS11において、匿名化装置10における匿名化部11は、分類木を用いたトップダウンの手法を基に、図1に示すデータを、図2に示すように20代と30代との2つのグループに分割する(第1のグループ分割)。
図4のステップS12において、匿名レベル設定部12は、それぞれのグループに適応的匿名レベルを設定する(第1の適応的匿名レベル設定)。
図6は、各グループに設定された適応的匿名レベルの一例を表示した図である。図6において適応的匿名レベルは、k(j)で表される。なお、図6において「j」は、年齢の若い順に付与されている。つまり、20代のグループの「j」は「1」、30代のグループの「j」は、「2」である。匿名レベル設定部12は、k(1)として、20代のグループで最も要求レベルが高いk3の「4」を適応的匿名レベルに設定する。また、匿名レベル設定部12は、k(2)として、30代のグループで最も要求レベルが高いk2の「3」を適応的匿名レベルに設定する。
図4のステップS13において、匿名性判定部13は、j=1のグループに属するデータの数が4であり、k(1)=4であることを基に、20代のグループが適応的匿名レベルを満たすと判定する。また、匿名性判定部13は、j=2のグループに属するデータの数が5であり、k(2)=3であることを基に、30代のグループも適応的匿名レベルを満たすと判定する。全てのグループが適応的匿名レベルを満たすため、匿名化装置10の処理は、ステップS11に戻る。
図4のステップS11において、匿名化部11は、分類木を用いたトップダウンの処理を基に再帰的にデータを分割する。つまり、匿名化部11は、前回分割したデータ集合のいずれかのグループを分割する(第2のデータ分割)。
ここで、匿名化部11は、データ集合の分割が可能か否かを判断し、分割可能であると判断した場合に分割しても良い。あるいは、匿名化部11は、分割が可能か否かを判断しないで、分類木を利用してデータ集合をさらに分割しても良い。分割が可能か否かを判断として、匿名化部11は、グループに属するデータの数が、「2×ave ki(j)(以下、「×」を省略して「2ave・ki(j)」とする。)」以上であるときに、そのグループを分割可能と判断しても良い。ここで「ave ki(j)」とは、グループjに含まれるデータのki(k匿名性に対する要求レベル)の平均である。以下の本実施形態の説明では、匿名化部11は、上記の方法を用いて、分割可能か否かを判断するものとする。
図6に示すデータ集合のj=1のグループは、ave ki(j)=3であり、2ave ki(j)=6である。j=1のグループのデータ数は、4である。そのため、匿名化部11は、j=1のグループ(ここでは、20代のグループ)が、分割不可能と判断する。
j=2のグループは、ave ki(j)=2であり、2ave ki(j)=4である。j=2のグループのデータ数は、5である。そのため、匿名化部11は、j=2のグループ(ここでは、30代のグループ)が、分割可能と判断する。そして、匿名化部11は、分類木を用いたトップダウンの処理を基に、j=2のグループ(30代のグループ)を二つのグループ(ここでは、年齢30―34のグループと年齢35―39のグループ)に分割する。
次に、図4のステップS12において、匿名レベル設定部12は、各グループに適応的匿名レベルを設定する。(第2の適応的匿名レベル設定)
図7は、第2のデータ分割後、第2の適応的匿名レベル設定されたデータ集合の状態の一例を表す図である。図7に示すように、図6におけるj=2のグループは、新たに、j=2及びj=3のグループに分割される。また、j=2のグループの適応的匿名レベル(k(2))は「3」が、j=3のグループの適応的匿名レベル(k(3))は「2」が設定される。
ここで、j=2のグループは、適応的匿名レベル(k(2))が「3」である。しかし、このグループに属するデータの数は、2である。そのため、図4のステップS13において、匿名性判定部13は、少なくとも一つのグループが適応的匿名レベルを満たさないと判定する。そのため、匿名化装置10の処理は、ステップS14に進む。
図4のステップS14において、グループ修正部14は、グループの修正が可能か否かを判定する。具体的には、グループ修正部14は、匿名化部11が適応的匿名レベルを満たさないと判定されたグループ(j=2)を分割したときの、もう一方のグループ(今の場合、j=3のグループ)に過剰分のデータがあるか否かを判定する。そして、過剰分のデータある場合、グループ修正部14は、過剰分のデータを用いて適応的匿名レベルを満たさないと判定されたグループ(j=2)の不足分を補えるか否かを判定する。
図7を参照すると、もう一方のグループ(j=3)は、適応的匿名レベル(k(3))が「2」であり、グループに属するデータの数が「3」である。そのため、このグループ(j=3)には、1つの過剰分のデータが、存在する。そのため、グループ修正部14は、グループ(j=2)の不足分を修正可能と判定する。
図4のステップS15において、グループ修正部14は、j=3のグループの中から、データ空間上において最もj=2のグループの重心に最も近いデータを、j=2のグループに移動する。
例えば、グループ修正部14は、データ空間として、「年齢」を軸とする一次元空間を考える。この「年齢」の空間において、j=2のグループのデータの重心は、No.4の「31」と、No.9の「34」の平均の「32.5」である。
この重心の値を基に、グループ修正部14は、j=3のグループに属するデータの中で、j=2のグループの重心の「年齢」である「32.5」に最も近い「35」の「年齢」の値を持つNo.8のデータを、j=2のグループに移動して、グループを修正する。
図8は、グループが修正されたデータ集合の状態の一例を表す図である。図8に示すように、図7においてj=3のグループに含まるNo.8のデータは、j=2のグループに移動した。これに伴い、「年齢」に関して、j=2のグループは、「30―35」となり、j=3のグループは「36―39」となる。
次に、匿名化装置10の処理は、図4のステップS11に戻る。ここで、j=2のグループは、2ave ki(2)=4.666・・・であり、j=3のグループは、2ave ki(3)=3である。また、j=2のグループのデータ数は、「3」であり、j=3のグループのデータ数は、「2」である。このため、匿名化部11は、j=2のグループ及びj=3のグループのいずれも、これ以上の分割が不可能である。
本実施形態の匿名化装置10は、グループ修正部14がグループを修正したときに、修正後の全部グループが分割可能か否かを判定してもよい。そして、グループ修正部14に基づくグループ修正後に全グループ分割不可と判断した時点で、匿名化装置10は、最終的なデータ集合を表示装置等に出力し、処理を終了しても良い。ただし、本実施形態の匿名化装置10の動作は、これに限らない。
例えば、仮に、グループ修正部14がグループを修正後、全グループが分割不可となったが、ステップS11に戻り、匿名化部11が、グループを分割した場合を考える。この場合、ステップS13で匿名性判定部13は、匿名性を満たさないグループが存在すると判定する。そして、グループ修正部14は、グループの修正が不可能であると判断する。そして、この場合、匿名化装置10の処理は、ステップS16に進む。ステップS16において、グループ修正部14は、匿名化部11が最後に行った分割をキャンセルし、全てのグループが適応的匿名レベルを満たしている状態のデータ集合に戻す。そして、グループ修正部14は、最終的なデータ集合を表示装置等に出力する。
なお、グループ修正部14は、二つに分割されたグループのうち、一方のグループが含む過剰分のデータを移動すれば、もう一方のグループが適応的匿名レベルを満たす場合でも、所定の場合には、データを移動させない構成としても良い。移動させない構成とは、例えば、データ空間上における、適応的匿名レベルを満たさないグループのデータの重心の位置と、他のグループに属する過剰分のデータの中で重心に最も近いデータの位置との距離が、所定の閾値以上の場合である。この場合、グループ修正部14は、グループの修正を行わず、匿名化部11が最後に行った分割をキャンセルしても良い。
具体的な値を用いて説明すると、上述の例において、閾値が5であり、j=2のグループに属するデータの重心である「32.5」に最も近いj=3のグループに属するデータの値が「38」の場合である。この場合、グループ修正部14は、データを移動せず、最後の分割をキャンセルする。
ここで、本実施形態のおいて最終的に出力される図8に示すデータ集合と、図2に示すデータ集合とを比較すると、本実施形態が出力する図8のデータ集合は、図2に示すデータ集合に比べると、ZIPコード及び年齢について抽象化の程度が低く、情報の価値の低下が小さい。
なお、本実施形態の構成は、図3に示す構成に限らない。各構成は、複数の構成に分かれても良い。また、1つ又は複数の構成は、1つの構成で実現されても良い。例えば、匿名化部11とグループ修正部14は、1つの匿名化部11として構成してもよい。
以上で説明したように、第1実施形態に係る匿名化装置10は、すべてデータが匿名化の要求レベルを満足し、かつデータ集合全体が抽象化されることに基づく情報価値の低下を防止できる。
その理由は、匿名化装置10は、分割されたグループ毎に、適応的な匿名化の要求レベル(適応的匿名レベル)を設定するからである。さらに、匿名化装置10は、適応的匿名レベルが適切となるように、グループを修正するからである。
<第2実施形態>
次に、本発明の第2実施形態に係る匿名化装置20について説明する。第1実施形態の説明に用いた匿名化装置10は、匿名化処理として分類木を利用したトップダウンの処理を採用した。これに対し、本実施形態の匿名化装置20は、ボトムアップの処理を採用する点で異なる。
図9は、第2実施形態に係る匿名化装置20の構成の一例を示すブロック図である。図9に示すように匿名化装置20は、匿名化部21と、匿名レベル設定部22と、匿名性判定部23とを含む。
匿名化部21は、外部の装置又はシステムから二以上のデータ集合を受信する。匿名化部21は、図示しない記憶装置やその他の構成部からデータ集合を受信しても良い。また、匿名化部21は、匿名性判定部23から、データ集合又は判定結果を受信する。
匿名化部21は、受信したデータ集合に、データのグループを処理単位として、匿名化処理を実行する。本実施形態の匿名化処理は、ボトムアップの処理である。ボトムアップを用いた匿名化処理は、データの統合処理と、抽象化処理とを含む。本実施形態の匿名化部21は、まず、単位グループのデータの数が、予め定められた最小値のデータの数になるように、データ集合を二以上のグループに分割する。最小値は、予め特定の値が設定されていても良いし、匿名化装置20が動作する都度、ユーザなどの操作を基に設定されても良い。さらに、匿名化部21は、匿名性判定部23が判定処理の後において、二つのグループを統合し、必要に応じてデータを抽象化して、匿名化処理を実行する。ボトムアップで行う匿名化処理は、特に制限はない。例えば、使用する匿名化処理は、任意の準識別子に着目して、データ空間上の重心距離が最も近いグループ同士を統合し、抽象化する処理や、NCP(Normalized Certainty Penalty)を基にする処理でも良い。
匿名化部21は、予め定められた最小値のデータの数となる複数のグループに分割したデータ集合又はグループを統合したデータ集合を、匿名レベル設定部22に出力する。
匿名レベル設定部22は、匿名化部21からデータ集合を受信する。匿名レベル設定部22は、匿名レベル設定部12と同様に、グループ毎に適応的匿名レベルを設定する。
匿名レベル設定部22は、グループ毎に適応的匿名レベルが設定したデータ集合を、匿名性判定部23に出力する。
匿名性判定部23は、匿名レベル設定部22から、グループ毎に適応的匿名レベルが設定されたデータ集合を受信する。匿名性判定部23は、データ集合の各グループが適応的匿名レベルを満たすか否かを判定する。少なくとも一つのグループが適応的匿名レベルを満たさないと判定した場合、匿名性判定部23は、データ集合を匿名化部21に出力する。
以降、匿名性判定部23が、全てのグループが適応的匿名レベルを満たす、と判定するまで、匿名化部21、匿名レベル設定部22及び匿名性判定部23は、再帰的に処理を繰り返す。
匿名性判定部23は、全てのグループが適応的匿名レベルを満たす(この場合のデータ集合は、「最終的なデータ集合」となる)と判定すると、最終的なデータ集合を、例えば、表示装置に出力する。匿名性判定部23は、最終的なデータ集合を図示しない記憶装置、外部の装置又はシステムに出力しても良い。
次に、図10を参照して、本発明の第2実施形態に係る匿名化装置20の動作について説明する。
図10は、本発明の第2実施形態に係る匿名化装置20の動作の一例を示すフローチャートである。図10に示すように、匿名化部21は、図示しない外部又は内部の他の構成部から出力されたデータ集合を、予め定められた最小値のデータの数の複数のグループに分割する(ステップS21)。最小のデータの数は、特定の値が設定されても良いし、匿名化装置20が動作する都度、ユーザから値を受信しても良い。
次に、匿名レベル設定部22は、それぞれのグループに、適応的匿名レベルを設定する(ステップS22)。本実施形態において、匿名レベル設定部22は、グループ内で最も高い匿名化の要求レベルを有するデータの要求レベルを、グループの適応的匿名レベルとして、設定する。
次に、匿名性判定部23は、データ集合の全てのグループが適応的匿名レベルを満たすか否かを判定する(ステップS23)。少なくとも一つのグループが適応的匿名レベルを満たさないと判定した場合、匿名性判定部23は、データ集合を匿名化部21に出力する。
匿名性判定部23からデータ集合を受信した匿名化部21は、適応的匿名レベルを満たさないグループが適応的匿名レベルを満たすように、そのグループと他の1つ以上のグループとを統合する(ステップS24)。
以降、匿名性判定部23が、全てのグループが適応的匿名レベルを満たす、と判定するまで、匿名化装置20は、ステップS22、ステップS23及びステップS24の処理を、再帰的に繰り返す。
ステップS23において、全てのグループが適応的匿名レベルを満たすと判定すると(この場合、そのデータ集合は、最終的なデータ集合となる)、匿名性判定部23は、最終的なデータ集合を、例えば、表示装置に出力する。匿名性判定部23は、最終的なデータ集合を、図示しない記憶装置、外部の装置又はシステムに出力しても良い。
次に、図1、図2及び図11〜図17を参照して、図10の各ステップを、具体的に説明する。ここで、前提として、匿名化装置20を有する公開事業者が、図1に示すデータ集合を保持しているとする。そして、「病気」に関する個人情報が、センシティブ情報とする。
また、以降の説明において、匿名化装置20は、ボトムアップの処理を基にデータを統合する。
図10のステップS21において、公開事業者の有する匿名化装置20の匿名化部21は、図1に示すデータを、予め定められた最小値のデータの数になる複数のグループに分割する。本実施形態の説明において、予め定められた最小値は、「1」とする。
図11は、データ集合が最小値である「1」のデータを含むグループ毎に分割された状態の一例を示す図である。本実施形態の匿名化装置20は、第1実施形態と同様、準識別子の一つである「年齢」に着目して統合処理を行う。そのため、図11において、データは、便宜上、年齢の若い順に並んでいる。
なお、仮に、予め定められた最小値が「2」の場合、データ集合は、例えば、図11に示すNo.3及びNo.5の二つのデータを含むグループ、No.1及びNo.7の二つのデータを含むグループ等に分割されることになる。
図10のステップS21において、匿名レベル設定部22は、それぞれのグループに適応的匿名レベルを設定する。図11において、各データのk匿名性であるkiが、各データを含むグループの適応的匿名レベルk(j)になる。
図10のステップS23において、匿名性判定部23は、j=9のグループに属するデータの数が1であり、適応的匿名レベル(k(9))が「1」であることを基に、j=9のグループが、適応的匿名レベルを満たすと判定する。匿名性判定部23は、j=9以外のグループについては、いずれも、適応的匿名レベルを満たさないと判定する。少なくとも一つのグループが適応的匿名レベルを満たさないため、匿名化装置20の処理は、ステップS24に進む。
図10のステップS24において、匿名化部21は、ボトムアップの処理を基に、再帰的にデータ集合のデータを統合する。
匿名化部21は、統合処理の対象のグループ(選択グループ)を選択する。例えば、匿名化部21は、適応的匿名レベルを満たさないグループの中から、任意のグループを処理対象として選択しても良い。または、匿名化部21は、適応的匿名レベルを満たさないグループの中で、適応的匿名レベルの値と、グループ内のデータの数との差が最も大きいグループを処理対象として、選択しても良い。本実施形態の処理対象の選択の手法は、本明細書に記載の方法に限定されない。ただし、以下の本実施形態の説明において、匿名化部21は、適応的匿名レベルとデータの数との差が最も大きいグループを処理対象として選択するとして説明する。
次に、匿名化部21は、処理対象として選択したグループ(選択グループ)の統合対象となる他のグループ(統合対象グループ)を選択する。
ここで、統合対象グループの選択に特に制限はない。しかし、匿名化部21は、統合処理に基づく情報損失が最も小さいグループを統合対象グループとして選択することが望ましい。匿名化部21は、例えば、データ空間上の選択グループの重心の位置に最も近い重心の位置のグループを統合対象グループとして選択する。そして、匿名化部21は、選択した二つのグループ(選択グループと統合対象グループ)を統合しても良い。また、匿名化部21は、NCPの手法を用いて、選択グループと統合したときの抽象化の度合い(例えば、統合後のグループに含まれる準識別子の値がとる幅)が最も小さくなるグループを、統合対象グループとして選択しても良い。本実施形態の説明において、匿名化部21は、重心距離が最も近いグループを統合対象グループとして選択するとする。
匿名化部21は、処理対象として、適応的匿名レベルとデータの数との差が最も大きいNo.3のデータが属するj=1のグループを選択する(つまり、j=1のグループが、選択グループである)。なぜなら、j=1のグループに属するデータの数は、「1」であり、適応的匿名レベルk(1)は、「4」であり、その差は、「3」となる。j=1のグループの差「3」は、他のグループの差と比較して最も大きいからである。
匿名化部21は、j=1のグループの統合対象となるグループとして、No.5のデータが属するグループであるj=2のグループを選択する(つまり、j=2のグループが、統合対象グループである)。なぜなら、j=2のグループは、「年齢」を軸とする一次元空間上において、j=1のグループと最も距離が近いからである。
匿名化部21は、j=1のグループとj=2のグループとを統合する。
そして、図10のステップS22において、匿名レベル設定部22は、適応的匿名レベルを新たに設定する。
図12は、グループが統合され、新たに適応的匿名レベルが設定されたデータ集合の状態の一例を表す図である。図12に示すように、適応的匿名レベル(k(1))は、「4」が設定される。また、年齢及び国籍は、抽象化される。
ここで再び図10のステップS23において、匿名性判定部23は、少なくとも一つのグループが適応的匿名レベルを満たさないと判定する。そのため、匿名化装置20の処理は、ステップS24に進む。
以降、匿名性判定部23が全てのグループにおいて適応的匿名レベルを満たされたと判定するまで、ステップS22、ステップS23及びステップS24の処理は、再帰的に繰り返される。
図12において、j=1、j=2及びj=5のグループの、適応的匿名レベルとデータ数との差は、それぞれ、「2」である。この場合、匿名化部21は、いずれのグループを選択グループとして選択しても良い。本実施形態において、匿名化部21は、処理対象の選択グループとして、年齢がより若いグループを選択するとする。そのため、匿名化部21は、処理対象の選択グループとしてj=1のグループを、統合対象グループとしてj=2のグループを選択し、統合する。
図13は、図12のデータ集合がさらに統合された状態の一例を示す図である。
次に匿名化部21は、選択グループとして、適応的匿名レベルとデータの数との差が最も大きなグループであるj=4のグループを選択する。また、匿名化部21は、統合対象グループとして、No.9のデータに最も近いデータの1つであるNo.4のデータが含まれているj=3のグループを選択する。
図14は、図13のj=4のグループとj=3のグループとを統合した状態の一例を示す図である。
匿名化部21は、以上で説明した手順を繰り返し、図15〜図17に示すようにグループの統合を繰り返す。
図15は、図14で示すデータ集合がさらに統合された状態の一例を示す図である。
図16は、図15で示すデータ集合がさらに統合された状態の一例を示す図である。
図17は、図16で示すデータ集合がさらに統合された状態の一例を示す図である。
図17に示す状態までデータ集合のデータがグループに統合されると、図10のステップS23において、匿名性判定部23は、全てのグループが適応的匿名レベルを満たすと判定する。匿名性判定部23は、全てのグループが適応的匿名レベルを満たしている状態のデータ集合(最終的なデータ集合)を表示装置等に出力する。
ここで、出力される図17に示す最終的なデータ集合と、図8に示す第1実施形態の最終的なデータ集合とを比較すると、図17に示す最終的なデータ集合は、第1実施形態と同様の結果である。つまり、第2実施形態の匿名化装置20は、第1実施形態の匿名化装置10と同様の効果を得ることができる。
以上、説明したように、第2実施形態に係る匿名化装置20は、データ集合に含まれる全てのデータが匿名化の要求レベルを満足し、かつデータ集合全体の抽象化に基づく情報価値の低下を防止することが可能となる。
その理由は、匿名化装置20は、グループ毎に適応的な匿名化の要求レベル(適応的匿名レベル)を設定するからである。さらに、匿名化装置20は、適応的匿名レベルが適切となるように、グループを統合するからである。
<第3実施形態>
次に、本発明の第3実施形態に係る匿名化装置30について、図面を参照して説明する。
図18は、第3実施形態に係る匿名化装置30の構成の一例を示すブロック図である。図18に示すように、匿名化装置30は、匿名化部31と、匿名レベル設定部32と、匿名性判定部33とを含む。
匿名化部31は、匿名化部31の外部から入力されるデータ集合に対し、データのグループを処理単位として匿名化処理を実行する。また、匿名化部31は、匿名性判定部33からデータ集合を受信する。匿名化部31は、匿名化処理を施したデータ集合を匿名レベル設定部32に出力する。
匿名レベル設定部32は、匿名化部31が匿名化処理を実行したグループ毎に、グループに含まれるデータを基に適応的匿名レベルを設定する。匿名レベル設定部32は、グループ毎に適応的匿名レベルを設定したデータ集合を、匿名性判定部33に出力する。
匿名性判定部33は、グループが、設定された適応的匿名レベルを満たすか否かを判定する。匿名性判定部33は、判定結果に応じて、データ集合を匿名化部31に出力するか、又は処理を終了してデータ集合を表示装置等に出力する。
図19は、第3実施形態に係る匿名化装置30の動作の一例を示すフローチャートである。図19に示すように、匿名化装置30の匿名化部31は、匿名化部31の外部から入力された又は匿名性判定部33から受信したデータ集合に対し、グループを処理単位として匿名化処理を実行する(ステップS31)。
次に、匿名レベル設定部32は、匿名化部31が匿名化処理を実行したグループ毎に適応的匿名レベルを設定する(ステップS32)。
次に、匿名性判定部33は、グループのそれぞれが、各グループに対応する適応的匿名レベルを満たすか否かを判定する(ステップS33)。
匿名性判定部33は、判定結果に応じて、データ集合を匿名化部31に出力するか、又は処理を終了してデータ集合を表示装置等に出力する。
以上、説明したように、第3実施形態に係る匿名化装置30は、全てのデータが匿名化の要求レベルを満足し、かつデータ集合全体の抽象化に基づく情報価値の低下を防止することが可能となる。
その理由は、匿名化装置30は、グループ毎に適応的な匿名化の要求レベル(適応的匿名レベル)を設定するからである。
以上、各実施形態を参照して本発明を説明したが、本発明は、以上の実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で同業者が理解し得る様々な変更をすることができる。
図20は、第1実施形態に係る匿名化装置10のハードウェア構成の一例を示すブロック図である。図20に示すように、匿名化装置10は、CPU1(Central Processing Unit1)と、ネットワーク接続用の通信IF2(通信インターフェース2)と、メモリ3と、プログラムを格納するハードディスク等の記憶装置4とを含む。そして、匿名化装置10は、図20に示す構成を基にコンピュータ装置を実現する。ただし、匿名化装置10の構成は、図20に示すコンピュータ装置に限定されない。
例えば、匿名化装置10は、通信IF2を介して、外部からデータ集合を受信しても良い。
CPU1は、オペレーティングシステムを動作させて匿名化装置10の全体を制御する。また、CPU1は、例えば、ドライブ装置などに装着されたコンピュータで読み出し可能な図示しない記録媒体から、メモリ3にプログラムやデータ集合を読み出し、これを基に各種の処理を実行しても良い。
例えば、匿名化部11、匿名レベル設定部12、匿名性判定部13、グループ修正部14のいずれか一部又は全ての機能は、CPU1及びプログラムを用いて実現されても良い。
記憶装置4は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、半導体メモリであり、コンピュータプログラムをコンピュータ(CPU)から読み取り可能に記録する。記憶装置4は、例えば、データ集合や匿名化装置10を実現するためのコンピュータプログラムを格納していても良い。また、匿名化装置10を実現するためのコンピュータプログラムは、通信網に接続されている図示しない外部コンピュータからダウンロードされても良い。
なお、これまでに説明した各実施形態において利用するブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。これらの機能ブロックは、ハードウェア及びソフトウェアの任意の組み合わせを用いて実現されても良い。また、匿名化装置10の構成部の実現手段は、特に物理的な装置に限定されない。すなわち、匿名化装置10は、物理的に結合した一つの装置を用いて実現されても良いし、物理的に分離した二つ以上の装置を有線又は無線で接続し、これら複数の装置を用いて実現されても良い。
本発明のプログラムは、上記の各実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。
また、第2実施形態に係る匿名化装置20及び第3実施形態に係る匿名化装置30は、第1実施形態に係る匿名化装置10と同様に、図20に示すハードウェア構成を基にしたコンピュータ装置で実現されても良い。ただし、匿名化装置20及び匿名化装置30の構成は、図20に示すコンピュータ装置に限定されない。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年9月2日に出願された日本出願特願2011−191355を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 CPU
2 通信IF
3 メモリ
4 記憶装置
10、20、30 匿名化装置
11、21、31 匿名化部
12、22、32 匿名レベル設定部
13、23、33 匿名性判定部
14 グループ修正部

Claims (12)

  1. 二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行する匿名化手段と、
    前記匿名化処理が実行されたデータ集合の前記グループ毎に適応的匿名レベルを設定する匿名レベル設定手段と、
    前記グループが前記設定された適応的匿名レベルを満たすか否かを判定する匿名性判定手段と、
    を含み、
    前記匿名化手段は、前記匿名性判定手段の判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する
    匿名化装置。
  2. 前記適応的匿名レベルは、前記グループ内で最も高い匿名化の要求レベルを有するデータの当該要求レベルである、
    請求項1に記載の匿名化装置。
  3. 前記匿名化手段は、前記匿名化処理として、前記データ集合をグループに分割し、
    前記匿名性判定手段が、少なくとも一つのグループが適応的匿名レベルを満たさないと判定するまで、前記匿名化処理を再帰的に実行する、
    請求項1又は2に記載の匿名化装置。
  4. 前記匿名性判定手段の判定結果に基づいて、前記グループを修正するグループ修正手段
    をさらに含み、
    前記匿名化手段は、
    前記グループ修正手段が、いずれかのグループが前記適応的匿名レベルを満たすようにグループを修正できないと判定するまで、前記匿名化処理を再帰的に実行する
    請求項3に記載の匿名化装置。
  5. 前記匿名化手段は、前記データ集合又は前記データ集合のグループを二つのグループに分割し、
    前記グループ修正手段は、
    前記二つに分割されたグループのいずれもが前記適応的匿名レベルを満たさない場合又は前記二つに分割されたグループのうち一のグループが前記適応的匿名レベルを満たさない場合であって、他のグループが含むデータの当該適応的匿名レベルを超える分のデータを移動しても、前記一のグループが当該適応的匿名レベルを満たさない場合、前記分割をキャンセルし、
    前記二つに分割されたグループのうち一のグループが前記適応的匿名レベルを満たさない場合であって、他のグループが含むデータのうち当該適応的匿名レベルを超える分のデータを移動すれば、前記一のグループが当該適応的匿名レベルを満たすこととなる場合は、前記他のグループから前記一のグループにデータを移動して前記二つに分割されたグループを修正する
    請求項4に記載の匿名化装置。
  6. 前記グループ修正手段は、
    前記二つに分割されたグループのうち一のグループが前記適応的匿名レベルを満たさない場合であって、他のグループが含むデータのうち当該適応的匿名レベルを超える分のデータを移動すれば、前記一のグループが当該適応的匿名レベルを満たすこととなる場合であっても、データ空間上において、前記一のグループの所定の情報の重心の位置と、前記他のグループに属するデータのうち前記一のグループの重心と最も近い所定の情報の位置を含むデータの所定の情報の位置との距離が、所定の閾値以上である場合は、前記分割をキャンセルする、
    請求項5に記載の匿名化装置。
  7. 前記匿名化手段は、単位グループのデータの数が予め定められた最小値のデータの数となるようにデータの集合を二以上に分割し、さらに、前記匿名性判定手段が少なくとも一つのグループが適応的匿名レベルを満たさない、と判定すると、前記匿名化処理として、二つのグループを統合し、
    前記匿名性判定手段が、全てのグループが適応的匿名レベルを満たす、と判定するまで、前記匿名化処理を再帰的に実行する、
    請求項1又は2に記載の匿名化装置。
  8. 前記匿名化手段は、前記適応的匿名レベルを満たさないグループを処理対象として選択し、データ空間上において、該選択されたグループのデータの重心と、データの重心の位置の距離が最も近い他のグループを統合対象として選択し、選択された二つのグループを統合する、
    請求項7に記載の匿名化装置。
  9. 前記匿名化手段は、前記適応的匿名レベルを満たさないグループであって、前記適応的匿名レベルと、グループ内のデータの数との差が最も大きいグループを前記処理対象として選択する、
    請求項8に記載の匿名化装置。
  10. 前記匿名化処理の再帰的な実行が終了すると、データ集合を表示装置に出力する、
    請求項3、4又は7のいずれか一項に記載の匿名化装置。
  11. CPUとメモリとを含む匿名化装置が、
    二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行し、
    前記グループ毎に適応的匿名レベルを設定し、
    前記グループが前記設定された適応的匿名レベルを満たすか否かを判定し、
    前記判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する
    匿名化方法。

  12. 二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行し、
    前記グループ毎に適応的匿名レベルを設定し、
    前記グループが前記設定された適応的匿名レベルを満たすか否かを判定し、
    前記判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する
    処理をコンピュータに実行させるプログラム。
JP2013531445A 2011-09-02 2012-08-28 匿名化装置、及び、匿名化方法 Active JP6015658B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013531445A JP6015658B2 (ja) 2011-09-02 2012-08-28 匿名化装置、及び、匿名化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011191355 2011-09-02
JP2011191355 2011-09-02
JP2013531445A JP6015658B2 (ja) 2011-09-02 2012-08-28 匿名化装置、及び、匿名化方法
PCT/JP2012/072282 WO2013031997A1 (ja) 2011-09-02 2012-08-28 匿名化装置、及び、匿名化方法

Publications (2)

Publication Number Publication Date
JPWO2013031997A1 JPWO2013031997A1 (ja) 2015-03-23
JP6015658B2 true JP6015658B2 (ja) 2016-10-26

Family

ID=47756469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013531445A Active JP6015658B2 (ja) 2011-09-02 2012-08-28 匿名化装置、及び、匿名化方法

Country Status (4)

Country Link
US (1) US20140201847A1 (ja)
EP (1) EP2752786A4 (ja)
JP (1) JP6015658B2 (ja)
WO (1) WO2013031997A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160042198A1 (en) * 2012-10-19 2016-02-11 Pearson Education, Inc. Deidentified access of content
JP5974858B2 (ja) * 2012-11-27 2016-08-23 富士通株式会社 匿名化処理方法及び装置
CN105122268B (zh) * 2013-04-25 2018-10-02 惠普发展公司,有限责任合伙企业 基于数据匿名化的多层存储
WO2014181541A1 (ja) * 2013-05-09 2014-11-13 日本電気株式会社 匿名性を検証する情報処理装置及び匿名性検証方法
JP6223853B2 (ja) * 2014-02-13 2017-11-01 株式会社東芝 匿名化指標算出システム
US20150235049A1 (en) * 2014-02-20 2015-08-20 International Business Machines Corporation Maintaining Data Privacy in a Shared Data Storage System
JP6053181B2 (ja) * 2014-02-25 2016-12-27 日本電信電話株式会社 情報収集システムとその情報収集装置、情報提供装置、匿名情報収集方法及びプログラム
US9361480B2 (en) * 2014-03-26 2016-06-07 Alcatel Lucent Anonymization of streaming data
JP6192601B2 (ja) * 2014-06-24 2017-09-06 株式会社日立ソリューションズ パーソナル情報管理システム及びパーソナル情報匿名化装置
JP6597066B2 (ja) * 2015-08-31 2019-10-30 富士通株式会社 個人情報匿名化方法、プログラム、及び情報処理装置
US9842215B2 (en) * 2015-11-03 2017-12-12 Palo Alto Research Center Incorporated Computer-implemented system and method for anonymizing encrypted data
KR101973949B1 (ko) * 2016-11-29 2019-04-30 주식회사 파수닷컴 목적에 따라 비식별화된 데이터를 최적화하는 방법 및 장치
JP6779854B2 (ja) * 2017-12-04 2020-11-04 Kddi株式会社 匿名化装置、匿名化方法及び匿名化プログラム
US10572459B2 (en) * 2018-01-23 2020-02-25 Swoop Inc. High-accuracy data processing and machine learning techniques for sensitive data
FR3077894B1 (fr) 2018-02-13 2021-10-29 Digital & Ethics Procede de traitement automatique pour l’anonymisation d’un jeu de donnees numeriques
JP7063048B2 (ja) * 2018-03-27 2022-05-09 富士通株式会社 匿名化装置
WO2020222140A1 (en) * 2019-04-29 2020-11-05 Telefonaktiebolaget Lm Ericsson (Publ) Data anonymization views

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3578450B2 (ja) * 2001-06-29 2004-10-20 株式会社東芝 電子文書の実名語/匿名語マップ作成装置及びプログラム、電子文書の匿名化装置及びプログラム、電子文書の実名化装置及びプログラム
US8250025B2 (en) * 2001-11-06 2012-08-21 Business Controls, Inc. Anonymous reporting system
JP4015919B2 (ja) * 2002-10-22 2007-11-28 株式会社東芝 情報共有支援装置および情報共有支援方法
US7512788B2 (en) * 2002-12-10 2009-03-31 International Business Machines Corporation Method and apparatus for anonymous group messaging in a distributed messaging system
JP2006227814A (ja) * 2005-02-16 2006-08-31 Toshiba Corp 匿名サービス提供システム、装置及びプログラム
JP2007219636A (ja) * 2006-02-14 2007-08-30 Nippon Telegr & Teleph Corp <Ntt> データ開示方法およびデータ開示装置
US20090327434A1 (en) * 2008-06-30 2009-12-31 Nokia Corporation Method, Apparatus, and Computer Program Product for Anonymous Polling
US20110134806A1 (en) * 2008-08-26 2011-06-09 Natsuko Kagawa Anonymous communication system
US20110178943A1 (en) * 2009-12-17 2011-07-21 New Jersey Institute Of Technology Systems and Methods For Anonymity Protection
US8499158B2 (en) * 2009-12-18 2013-07-30 Electronics And Telecommunications Research Institute Anonymous authentication service method for providing local linkability
JP2011133958A (ja) * 2009-12-22 2011-07-07 Michio Kimura 匿名度の指標値を算出する情報処理システムおよび匿名度の指標値の算出方法
JP5416614B2 (ja) * 2010-02-18 2014-02-12 Kddi株式会社 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
US8700705B2 (en) * 2010-06-11 2014-04-15 Microsoft Corporation Sharing of user preferences
JP5735485B2 (ja) * 2010-08-06 2015-06-17 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 匿名化情報共有装置および匿名化情報共有方法

Also Published As

Publication number Publication date
US20140201847A1 (en) 2014-07-17
EP2752786A1 (en) 2014-07-09
JPWO2013031997A1 (ja) 2015-03-23
EP2752786A4 (en) 2015-04-08
WO2013031997A1 (ja) 2013-03-07

Similar Documents

Publication Publication Date Title
JP6015658B2 (ja) 匿名化装置、及び、匿名化方法
JP6007969B2 (ja) 匿名化装置及び匿名化方法
US10452992B2 (en) Interactive interfaces for machine learning model evaluations
US20210165913A1 (en) Controlling access to de-identified data sets based on a risk of re- identification
US11222731B2 (en) Balancing provenance and accuracy tradeoffs in data modeling
KR20180050928A (ko) 컨볼루션 신경망 처리 방법 및 장치
JP5511532B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
US10423803B2 (en) Smart suppression using re-identification risk measurement
JP2012159982A (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
JP5974858B2 (ja) 匿名化処理方法及び装置
WO2014049995A1 (ja) 匿名化を実行する情報処理装置、匿名化方法及びプログラムを記録した記録媒体
KR101973949B1 (ko) 목적에 따라 비식별화된 데이터를 최적화하는 방법 및 장치
CN111512381B (zh) 用于癌症概率的库筛选
US10891275B2 (en) Limited data enricher
US20220188315A1 (en) Estimating execution time for batch queries
US20240095398A1 (en) Data aggregation based on disparate local processing of requests
JPWO2013121738A1 (ja) 分散匿名化装置及び分散匿名化方法
JP5416614B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
US11397715B2 (en) Defining indexing fields for matching data entities
US10510028B2 (en) Method and apparatus for utilizing task value units for imaging interpretation and other tasks
JP5875535B2 (ja) 匿名化装置、匿名化方法、プログラム
JP5875536B2 (ja) 匿名化装置、匿名化方法、プログラム
EP4060542B1 (en) System and method for data anonymization using optimization techniques
WO2022022062A1 (en) Pair selection for entity resolution analysis
JP6626804B2 (ja) 計算機、選定方法、および選定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160912

R150 Certificate of patent or registration of utility model

Ref document number: 6015658

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150