JP2013161428A - 個人情報匿名化装置および方法 - Google Patents

個人情報匿名化装置および方法 Download PDF

Info

Publication number
JP2013161428A
JP2013161428A JP2012025203A JP2012025203A JP2013161428A JP 2013161428 A JP2013161428 A JP 2013161428A JP 2012025203 A JP2012025203 A JP 2012025203A JP 2012025203 A JP2012025203 A JP 2012025203A JP 2013161428 A JP2013161428 A JP 2013161428A
Authority
JP
Japan
Prior art keywords
attribute
personal information
value
anonymization
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012025203A
Other languages
English (en)
Other versions
JP5684165B2 (ja
Inventor
Yumiko Yokohari
由美子 横張
Michio Oikawa
道雄 及川
Kunihiko Harada
邦彦 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2012025203A priority Critical patent/JP5684165B2/ja
Publication of JP2013161428A publication Critical patent/JP2013161428A/ja
Application granted granted Critical
Publication of JP5684165B2 publication Critical patent/JP5684165B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】
一つの属性に対して複数の属性値を持つ属性が含まれる個人情報の匿名化装置ならびに方法を提供する。
【解決手段】
一つの属性に複数の属性値が格納される属性を含む個人情報の識別情報と、複数の属性値を有する属性の識別情報との対応関係を示す情報に基づいて、複数の属性値を含む個人の情報を単独の属性値のみで構成される複数のレコードに分割したデータを生成し、当該データに対して匿名化を実施し、さらに、匿名化後のデータを、複数属性値をもつ属性に対しては匿名化後の情報を連結し、属性値が一つのみであった属性に対しては最も抽象化レベルが大きい属性値にあわせて情報を統合する。
【選択図】 図1

Description

本発明は、一つの属性に複数の属性値を持つ属性を含んで構成される個人情報の匿名化方法に関するものである。
個人情報匿名化の処理は、氏名や住所など個人を直接識別可能な情報を当該個人情報から取り除くこと、または住所を都道府県単位に変換する、年齢を10歳刻みに変換する、など情報を抽象化することである。
しかし、上述の匿名化処理を行っても、複数の属性を組み合わせにより個人を識別できてしまう場合がある。例えば、都道府県単位の住所と10歳刻みの年齢でも極稀な組み合わせであれば個人を特定できる。
このような識別可能性を除去するための技術として、しきい値kを設定し、個人情報データに含まれる任意の属性値の組み合わせがデータ中にk件以上存在することを保証した匿名データを生成するk−匿名化技術がある。
非特許文献1は、一般化階層木を用いて個人情報データ中の属性値を曖昧にすることで、開示したデータ中に出現する任意の属性値の組み合わせが少なくともk件出現することを保証することが記載されている。
非特許文献2は、非特許文献1の匿名化方式に関して、匿名化対象データに含まれる各属性に対して、その属性の属性値毎の頻度情報を取得し、頻度情報を用いて一般化階層木を自動生成し、情報損失量を情報エントロピーによって定義し、情報損失量が少なくなるように個人情報の一般化することで、一般化階層木作成の運用コストと情報損失量の少ない匿名化データ生成を実現している。
K. LeFevre,D. J. DeWitt,and R. Ramakrishnan,"Incognito: Efficient Full−Domain K−Anonymity,"2005 ACM SIGMOD International Conf. Management of Data,pp.49‐60,2005 原田邦彦、佐藤嘉則、"一般化階層木の自動生成と情報エントロピーによる歪度評価を伴うk−匿名化手法"、情報処理学会研究報告研究報告(CSEC)、2010−CSEC−50(47)、pp.1−7、2010
個人情報は、一般的に複数の属性によって構成される。各属性は、一つの属性に一つの属性値のみ与えられるものと、複数の属性値が与えられうるものとが存在する。例えば、医療のレセプト情報の場合、患者の「氏名」や「生年月日」、「性別」などの属性が持つ属性値はそれぞれ一つである。一方で、例えば、「傷病名」の場合、一人の患者が同時に「高血圧症」と「アレルギー性鼻炎」に罹患するなど、一つの属性に対して複数の属性値を持ちうる。レセプトデータの場合、1件のレセプトに記載される傷病名は、1つの場合もあれば数十個に及ぶ場合もある。
以下では、一つの属性に一つの属性値のみを含む属性を単値属性、一つの属性に複数の属性値を含む属性を多値属性と呼ぶ。
非特許文献1、非特許文献2の匿名化手法で多値属性を含むデータを匿名化する場合、多値属性を単値属性とみなして抽象化することになる。例えば、「傷病名」に「高血圧症、アレルギー性鼻炎」が格納されている場合、「高血圧症ならびにアレルギー性鼻炎」という一つの属性値として考える。
非特許文献1で多値属性を含む個人情報を匿名化することを考えた場合、各属性がとりうる全ての属性値の全組合せを考慮した一般化階層木を用意する必要がある。国際的疾病分類ICD−10で表現される傷病名は約14000項目あり、1枚のレセプトデータに含まれる傷病数は一つの場合もあれば数十個に及ぶ場合もあるなどレコードによってばらつきが大きいことから、傷病数も考慮した全ての組合せに対応した一般化階層木は、膨大な数となる。
非特許文献2の場合、属性値とその頻度情報により一般化階層木を自動生成可能である。一方、複数の属性値のそれぞれの値について抽象化する場合には、“{高血圧症、アレルギー性鼻炎}または{高脂血症、上気道炎}”のように、各レコードに格納されていた属性値情報を列挙したものが抽象化結果となる。この結果は、複数属性値のうちの一つの属性値に焦点を当てた分析には不向きである。
データの有用性と安全性はトレードオフの関係にある。データを抽象化すればするほど個人の特定可能性は減少するが、分析等には活用しにくくなる。情報から個人を特定しようとする攻撃者がその属性に含まれる属性値を全て知っていることは少ないと考えられる場合や、情報活用者と情報管理について契約を結ぶ場合など、厳密にk−匿名化されたデータでなく必要最小限のプライバシ情報が守られると共に二次利用しやすいデータが求められることが考えられる。
本発明の目的は、一つの属性に複数の属性値を持つ属性を含む個人情報に対して、個人の識別可能性を排除するとともに、二次利用しやすいデータを生成できる個人情報匿名化装置および方法を提供する。
本発明はこのような事情を考慮してなされたもので、一つの属性に複数の属性値を持つ属性を含む個人情報の匿名化方法を提供する。
k−匿名化方法によって生成される匿名データに対する多値属性において、s個の情報が知られている場合に個人特定できないことを、k−s匿名性を持つと定義する。即ち、k−s匿名性とは、s個の情報が知られており、情報の組み合せが同じレコードが少なくともk個存在することにより、個人を特定できないことを言う。本発明は、sが1の場合、つまり、多値属性に含まれる属性値のうち、一つの属性値情報が知られていても個人特定できない匿名化方式を実現する。
具体的には、多値属性が含まれる個人情報を単値属性からのみ構成される複数の個人情報に分割し、分割したデータに対してk−匿名化を実施し、最後にk−匿名化後のデータをもともとの個人情報にあわせて情報を統合することにより、上記を実現する。
本発明によれば、一つの属性に複数の属性値を持つ属性を含む個人情報に対して、当該属性に含まれる属性値のうちの一つと当該属性以外の属性値との組合せによって個人の識別可能性を排除すると共に、二次利用しやすいデータを生成することができる。
実施例1において、計算機の構成例を示す図である。 実施例1において、個人情報テーブルの一例を示す図である。 実施例1において、個人情報分割テーブルの一例を示す図である。 実施例1において、多値属性フラグテーブルの一例を示す図である。 実施例1において、匿名情報分割テーブルの一例を示す図である。 実施例1において、匿名情報テーブルの一例を示す図である。 実施例1において、匿名化数の一例を示す図である。 一般化階層木の概念図である。 一般化階層木のテーブルの構成を示す図である。 実施例1において、動作例を示す図である。 実施例1において、動作例を示す図である。 実施例1において、動作例を示す図である。 実施例2において、計算機の構成例を示す図である。 実施例2において、多値属性テーブルの一例を示す図である。 実施例2において、動作例を示す図である。 実施例2において、動作例を示す図である。
以下、本発明を実施するための形態を、図面を参照して詳細に説明する。
なお、以下で説明する実施例は、主に電子的な形態の個人情報を保護する技術である。本実施形態における個人情報とは、個人に関する情報であって、氏名、生年月日、その他の情報などにより特定の個人を識別することができるものを示す。また、他の情報と容易に照合することができ、それにより特定の個人を識別することができるものも個人情報に含む。本実施形態において、個人情報の匿名化とは、情報主体を識別できないように当該個人情報を変換する処理をいう。また、再符号化とは個人のある属性を説明する属性値を、より曖昧な概念へと置き換えることを言う。
<実施例1>
図1を参照し、実施例1の技術を実現する装置の構成例を説明する。
図1において、計算機100は、例えばPC(Personal Computer)やサーバ、ワークステーション等の任意の情報処理装置である。計算機100はCPU(Central Processing Unit)101、メモリ102、ストレージ103、入力装置104、出力装置105、通信装置106等を有する。これらは全て、バスなどの内部通信線107により互いに接続されている。
ストレージ103は、例えばCD−R(Compact Disc Recordable)やDVD−RAM(Digital Versatile Disk Random Access Memory)、シリコンディスク等の記憶メディア及び当該記憶メディアの駆動装置、HDD(Hard Disk Drive)等である。ストレージ103は、個人情報テーブル131、匿名データテーブル132、匿名化数133、一般化階層木テーブル134及びプログラム135等を記憶する。
個人情報テーブル131は、複数の個人に関する個人情報を格納する。本実施形態では、各個人情報は、複数の属性ごとのそれぞれの属性値からなる。匿名情報テーブル132は、個人情報テーブル131を本発明により匿名化した結果を格納する。匿名化133は、データの同じ組合せを持つレコードが最低何件必要かを示すしきい値を格納する。一般化階層木テーブル134は、属性値をどのように抽象化するかを示す情報を格納する。プログラム135は、後述する機能を実現するためのものである。
入力装置104は、例えばキーボード、マウス、スキャナ、マイク等である。出力装置105は、ディスプレイ、プリンタ、スピーカ等である。通信装置106は、例えば、LAN(Local Area Network)ボード等であり、通信ネットワーク(図示略)と接続する。
CPU101は、メモリ102上にプログラム135をロードし、実行することにより、レコード分解部121と匿名化部122とレコード統合部123とを実現する。
レコード分解部121は、個人情報テーブル131を入力とし、全てのレコードが単値属性のみで構成されるようにし、多値属性を含むレコードが存在する場合には単値属性で構成される複数のレコードに分解し、個人情報分割テーブル124に格納する。
匿名化部122は、レコード分解部121により生成された個人情報分割テーブル124及び匿名化数133を入力とし、個人情報分割テーブル124上に存在する全てのレコードに対して、後述するレコード識別番号以外の全ての属性値からなるタプル(tuple、組)が同一となるレコードの数が、匿名化数133に格納された値以上になるように情報をあいまい化し、結果を匿名情報分割テーブル126に格納する。
レコード統合部123は、匿名情報分割テーブル126を入力とし、個人情報テーブル131において同一レコードであった複数のレコードを統合し、統合した結果を匿名情報テーブル132に格納する。このとき、多値属性は、各属性値をカンマにより連結した一つの値として格納し、一つの属性に一つの属性値を含んでいた属性に関しては、属性値のうちで最も抽象度の高い属性値を格納する。
図1には、各テーブルなどのデータと各処理部との間のデータの入出力及びデータの参照の関係を矢印で示した。実線の矢印は、処理部に対するデータの移動を示し、破線の矢印は、処理部がデータを参照することを示す。各処理部とデータの関係の詳細は、図8を用いて後述する。図中の矢印に付した符号は、図8の各処理ステップとの対応を示す。
次に上述したテーブル等の詳細な例を説明する。
まず、図2を参照し、複数の属性からなる個人情報を格納した個人情報テーブル131の一例を説明する。
図2において、個人情報テーブル131は複数のレコードを有する。個人情報テーブル131の左側に示したNoは、各レコード、即ち、各個人情報を識別する番号である。各レコードは属性201、属性202、属性203の属性値のタプルとして表される。
図2で表される表の一行目は属性の名前を指す。属性201、属性202、及び属性203はそれぞれ個人の年齢、性別、及び傷病名を表す。一つの属性に複数の属性値を含む場合は、カンマで属性値を区切った上で列挙される。
なお、個人情報の項目は図2に示されるものに限られるわけではなく、任意でよい。また、区切り文字はカンマに限定されるものではなく、各属性値を識別できる任意の文字でよい。さらに、個人の総数(レコード総数)も属性数も任意で良い。
図3Aを参照して、多値属性に含まれる属性値ごとに個人情報を分割した個人情報分割テーブル124の一例を説明する。
個人情報分割テーブル124は、個人情報テーブル131の属性201、202、203と、個人情報テーブル131のレコードを識別するためのレコード識別Noを表す属性301とからなる。
個人情報分割テーブル124には、単値属性のみで構成されるレコードが格納される。個人情報テーブル131のレコードにおいて、多値属性が含まれていたものについては、当該属性の属性値ひとつと、当該属性以外の属性の属性値との組合せのレコードに分割したレコードを格納する。例えば、個人情報テーブル131のレコード211は、個人情報分割テーブル126の3つのレコード311、312、及び313に分割して格納される。
図3Bを参照して、属性が単値属性か多値属性かを識別して管理するための多値属性フラグテーブル125の一例を説明する。
多値属性フラグテーブル125には、個人情報分割テーブル124の各セルが、個人情報テーブル131では元々多値属性であったかどうかを格納する。対応するレコードの対応する属性が多値属性であった場合には「1」を格納し、単値属性であった場合には「0」を格納する。例えば、図2のレコード211の場合、年齢と性別は属性値が一つのみ格納されているため「0」が格納され、傷病名は複数(3つ)の傷病が格納されているため「1」が格納される。図3A及び3BのNo(301)に格納されている番号は、図2の個人情報テーブル131の左側に示したNoの番号(個人情報の識別番号)と対応している。
図4を参照して、図3Aに示した個人情報分割テーブル124に含まれる単値属性の属性値を匿名化した匿名情報分割テーブル126の一例を説明する。
匿名情報分割テーブル126は、個人情報分割テーブル124と同一の属性で表される。各属性値は個人情報分割テーブル124に格納されていた属性値、または当該属性値を抽象化した値が格納される。また、匿名情報分割テーブル126中の全ての属性に対する属性値タプルが匿名化数133で与えられる件数以上匿名情報テーブルの中に存在している必要がある。
レコード411,412及び413は同一人物に対する情報であるが、「年齢」の属性値が異なっている。これは、病名に該当する人数の多少によって匿名が異なるためである。即ち、該当する人数が少ない場合は、抽象度のレベルが高い「40代」によって匿名化されており、該当する人数が多い場合は、抽象度のレベルが低い「40代前半」(「40代後半」も同様)によって匿名化されている。「性別」の一部が「*」(男又は女を匿名化したもの)となっているのも同様である。また、「傷病名」の「不眠症」は匿名化されて「神経系疾患」となっている。
図5を参照して、図2に示した個人情報テーブル131に含まれる属性の一部の属性値を匿名化した匿名情報テーブル132の一例を説明する。即ち、図5は、図4の各レコードの情報を、個人ごとの情報として統合した結果である。従って、図5のテーブル132の左側のNoは、図2のテーブル131の左側のNoと同一である。
匿名情報テーブル132は個人情報テーブル131と同一の属性で表される。匿名情報テーブル132は、匿名情報分割テーブル126の同一識別Noを持つレコードが統合された情報が格納される。例えば、図4に示す匿名情報分割テーブル126のレコード411、412、及び413が、匿名情報テーブル133のレコード511に統合されて格納される。属性の一部が「*」となっている部分は、完全に匿名化(抽象化)されていることを示す。
図6を参照して、匿名化数133について説明する。
匿名化数601は、匿名情報テーブル132の各レコードに対して、同一タプルを持つレコードが少なくとも何件存在するように匿名化するかを示す。匿名化数の値は任意でよく、値が大きくなるほど匿名性は高くなる。この数値は求められる匿名性の強さに応じて外部から与えることができる。
図7A及び7Bを参照して、一般化階層木テーブル134について説明する。
一般化階層木テーブル134は、匿名化部122が個人情報分割テーブル124の情報を抽象化する際に利用するものであり、属性値をどのように階層的に(段階的に)抽象化するかを示す情報を格納する。図7Aは属性201「年齢」に対する一般化階層木134の概念図、図7Bは一般化階層木テーブル134の一例を示す。
図7Aにおいて、図2の属性201「年齢」に対する一般化階層木は複数の節点と枝から成る木構造として表される。枝は節点間の親子関係を意味する。枝は矢線を用いて示され、矢線の根側の節点が親であり、矢側の節点が子である。親を持たない節点は根、子を持たない節点は葉、親と子を持つ節点を内部節点と呼ぶ。属性値となりうる値が葉となる。例えば、図2の属性201「年齢」では「40」及び「41」といった値が葉となる。葉以外の節点は、その子を全て表すことができる抽象的な概念が割り当てられる。例えば、葉7011「40」、7012「41」、7013「42」、7014「43」、及び7015「44」は、節点701「40代前半(40−44)」へと抽象化される。
図7では、「年齢」のように、属性値の範囲と匿名とが対応付けられている場合には、各節点を「匿名(匿名に属する値の範囲、例えば年齢の範囲)」で示す。
図7Bにおいて、一般化階層木テーブル134の一例を示す。
一般化階層木テーブル134は属性711、及び属性712を持つ。一般化階層木テーブル134のレコードは一般化階層木の1つの節点を示す。属性711は当該節点のラベル、属性712は当該節点の親節点のラベルを意味する。例えば、レコード713は節点702に対応する。根は親を持たないため、属性712にはNULLを格納する。
次に、図1に矢印で示した、各テーブルなどのデータと各処理部との間のデータの入出力及びデータの参照の関係を参照しながら、図8を用いて、計算機100による本発明における処理の概要について説明する。図1に示した、処理部に対するデータの移動を示す実線の矢印に付した符号は、図8に示した各処理ステップの符号に対応する。図1に示した破線の矢印は、処理部がデータを参照することを示す。
まず、レコード分割部121が個人情報テーブル131を参照し、多値属性を持つレコードを単値属性のみから構成されるレコードに分割し、その結果を個人情報分割テーブル124に格納する(S801)。
次に、匿名化部122が個人情報分割テーブル124を参照し、全てのレコードに対して同じタプルを持つレコードが匿名化数133に示された値以上存在するようにデータを抽象化し、その結果を匿名情報分割テーブル126に格納する(S802)。ステップS802では、例えば、非特許文献1や、非特許文献2などの、任意の匿名化方法で属性値の匿名化を行ってよい。
最後に、レコード統合部123が匿名情報分割テーブル126を参照し、同一のレコード識別番号を持つレコードの属性情報を統合し、統合した結果を匿名情報テーブル132に格納する(S803)。このとき、多値属性は各属性値をカンマにより連結した一つの値として格納し、単値属性に関しては、属性値のうちで最も抽象度の高い属性値を格納する。
次に、図9を参照して、レコード分割部121が上記ステップS801で個人情報テーブル131から個人情報分割テーブル124を生成する詳細な動作例を説明する。
ここで、いくつかの表記を定義する。mは個人情報テーブル131の個人情報レコード数(行数)である。すなわち、属性情報の名称を示す個人情報分割テーブル124の1行目はレコード数にはカウントしない。個人情報部分のレコードに対して、上から順に1行目、2行目、・・・、m行目と呼ぶ。例えば、レコード211は3行目のレコードである。nは個人情報テーブル131の属性数(列数)である。個人情報テーブル131の各列(属性)を左から順番に1番目の列、2番目の列、・・・n番目の列(属性)と呼ぶ。
まず、ステップS901で、レコード数(個人情報の数)をカウントするパラメタiを1に初期化する。
ステップS902では、iがm(個人情報の総数)より小さいかどうかを判定する。iがmよりも小さい場合にはステップS903へ進み、iがm以上(i>m)の場合には処理を終了する。
ステップS903では、個人情報テーブル131のi行目のレコードを読み込む。当該レコードにレコード識別番号としてiを割り当てる。
ステップS904では、属性の数をカウントするパラメタjを1に初期化する。
ステップS905では、jがn(属性の総数)より小さいかどうかを判定し、jがnよりも小さい場合にはステップS906へ、jがn以上(i>n)であればステップS908へ進む。
ステップS906では、j番目の属性に格納された値を要素に分割する。具体的には、文字列を区切り文字カンマによって分割する。j番目の属性が単値属性だった場合は、分割は行われず、多値属性だった場合は、属性値の数だけ分割される。加えて、ステップS906では、多値属性フラグテーブル125にj番目の属性が多値属性かどうかを示す情報を格納する。具体的には、単値属性だった場合には「0」を、多値属性だった場合には「1」を格納する。例えば、レコード211の属性203「傷病名」の場合、「糖尿病、高血圧症、高脂血症」が「糖尿病」、「高血圧症」及び「高脂血症」の3つの要素に分割される。分割した要素はメモリ102に格納される。
ステップS907では、jにj+1を代入し、ステップS905に戻る。
ステップS908では、属性ごとに分割された要素を用いて、属性ごとに要素を一つずつ選択し、単値属性のみから構成される分割レコードを生成する。生成したレコードは個人情報分割テーブルに格納する。ステップS908の処理では、取りうる全組合せのレコードを生成する。すなわち、各属性の要素数の積だけ分割レコードを生成する。例えば、図2のレコード211「No=8、年齢=49、性別=男、傷病名={糖尿病、高血圧症、高脂血症}」の場合、年齢と性別は要素が1つ、傷病名は要素が3つなので、レコード311「No=8、年齢=49、性別=男、傷病名=糖尿病」と、レコード312「No=8、年齢=49、性別=男、傷病名=高血圧症」と、レコード313「No=8、年齢=49、性別=男、傷病名=高脂血症」の3つ(1×1×3)のレコードを生成する。
ステップS909では、iにi+1を代入して、ステップS903に戻る。
以上の処理によって、個人情報テーブル131から、レコード識別Noを保持し、単値属性からのみ構成される個人情報分割テーブル124が生成される。
次に、図10を参照して、レコード統合部123が上記ステップS803でレコードを統合する詳細な動作例を説明する。
まず、レコード数(分割された個人情報の数)をカウントするパラメタiを1に初期化する(S1001)。
ステップS1002ではiがM(分割された個人情報の総数)より小さいかどうかを判定し、iがMよりも小さい場合にはステップS1003へ進み、iがM以上(j>M)の場合には処理を終了する。ここで、Mは匿名情報分割テーブル126のレコード数(分割された個人情報の総数)であり、多値属性の存在を考慮すると、M≧m(m:個人情報テーブル131のレコード総数)である。
ステップS1003では、レコード識別Noにiが格納されているレコードを匿名情報分割データテーブル126から抽出する。
ステップS1004〜S1009では、ステップS1003で抽出したレコード(以下、統合対象レコードと呼ぶ)の各属性に対してデータの統合処理を行う。
まず、属性の数をカウントするパラメタjを1に初期化する(S1004)。
次に、jがnより小さいかどうかを判定し(S1005)、jがnよりも小さい場合にはステップS1006へ、jがn以上(j>n)の場合はステップS1010へ進む。ここで、nは個人情報テーブル131の属性の総数である。
ステップS1006では、多値属性フラグテーブル125を参照し、当該属性が多値属性か単値属性かを判定する。統合対象レコードのj番目の属性の多値属性フラグが“1”の場合にはステップS1007に進み、多値属性フラグが“0”の場合はステップS1008に進む。
ステップS1007では、統合対象レコードのj番目の属性の属性値をカンマで連結したデータを統合結果とする。例えば、図4のレコード識別Noが“3”のレコード411、412、及び413の傷病名を統合する場合、統合結果は「糖尿病、高血圧症、高脂血症」となる。
ステップS1008では、図7Bの一般化階層テーブル134を参照し、統合対象レコードのj番目の属性の属性値の中でもっとも抽象度の高い属性を統合結果とする。例えば、レコード411、412、及び413の年齢情報を統合する場合、図7Aより、「40代」、「40代前半」及び「40代後半」の中で最も抽象度の高い「40代」というデータを統合結果とする。
ステップS1009では、jにj+1を代入し、ステップS1005の判定処理に戻る。
ステップS1010では、iにi+1を代入し、ステップS1002の判定処理に戻る。
ステップS1011では、匿名情報テーブル132に匿名情報分割テーブル126の統合結果を格納する。
以上の処理によって、匿名情報分割テーブル126の統合結果が個人情報テーブル131のレコードと対応して統合され、匿名情報テーブル132に格納される。
実施例1で構成した計算機の特徴は、多値属性が含まれるレコードを単値属性のみで構成されるレコードに分解し、分解したレコードに対する匿名化結果を元のデータに合わせて統合することである。本処理によって、単値属性の属性値と多値属性の属性値の中の一つとの組合せからは個人を特定できないデータを、任意の一般化方法を用いて生成できるという効果がある。
<実施例2>
次に、実施例2について説明する。
実施例2は、メモリ使用量を軽減するものである。以下、実施例2を説明する場合、実施例1と重複する構成に対しては同じ符号を付与して説明を省略する。また、実施例2の動作のほとんどは実施例1と同様である。実施例1と同様の動作に対しては、同じ符号を付与して説明を省略する。
まず、図11を参照して、実施例2の計算機100の構成例について説明する。
図11において、計算機100のストレージ103は、多値情報フラグテーブル125の代わりに多値情報テーブル1125を、プログラム135の代わりにプログラム1102を有する。プログラム1135がメモリ上にロードされ、CPU101がレコード分解部1121と匿名化部122とレコード統合部1123とを実現する。
次に、図12を参照して、多値属性テーブル1125の詳細を説明する。
多値情報テーブル1125はレコードNo(1201、i=1〜m)と多値属性No(1202、j=1〜n)から構成される。1つのレコードに複数の多値属性が含まれる場合は、多値属性No(1202)に複数の属性に対応した列の番号が格納される。ここで、多値属性Noは個人情報テーブル124における列番号を表し、多値属性Noに「3」が記録されていた場合は、属性203の「傷病名」が多値属性であることを表す。実施例1の図3Bの多値属性フラグテーブル125が個人情報テーブル124のレコード及び属性と1対1対応し、多値属性かどうかを格納していたのに対し、多値属性テーブル1125は多値属性であったセルの情報のみを格納する。
例えば、図2のレコード212の場合、全ての属性が単値属性であるため多値属性テーブル1125にはレコード212に関する情報は格納されず、レコード211の場合には傷病名が多値属性であるため多値属性テーブル1125にレコード1211のようにレコード211のレコード識別No「3」と多値属性列No「3」が格納される。
図13を参照して、レコード分割部1121の動作例の詳細を説明する。
レコード分割部1121では実施例1のステップS906の代わりにステップS1306の処理が実行される。また、ステップS1306において、j番目に格納された値の要素分割処理は実施例1と同様であり、多値属性情報の格納のしかたが異なる。ステップS1306では、多値属性情報のみを多値属性テーブル1125に格納する。具体的には、多値属性であったセルのレコードNoと属性名(個人情報テーブル131の列番号)を多値属性テーブル1125に格納する。例えば、レコード212の場合は全ての属性が単値属性であるため多値属性テーブル1125にはレコード212に関する情報は格納されず、レコード211は傷病名が多値属性であるためレコード1211のようにレコード211のレコード識別No「3」と多値属性情報「3」が格納される。
図14を参照して、レコード統合部1123の動作例の詳細を説明する。
レコード統合部1123では実施例1のステップS1006の代わりにS1406が実行される。ステップS1406では、多値属性テーブル1125を参照し、当該属性が多値属性か単値属性かを判定する。具体的にはレコード識別Noと多値属性列Noが一致する情報が多値属性テーブル1125に格納されているかどうかを判定する。
実施例2で構成した計算機の特徴は、多値属性かどうかの情報を個人情報テーブル124と1対1対応せず、多値属性の情報のみを格納することで、実施例1と同様の匿名化を実現することである。多値属性の情報のみを格納することで、メモリに格納する多値属性情報を低減することができるという効果がある。
100:計算機、101:CPU、102:メモリ、121:レコード分割部、122:匿名化部、123:レコード統合部、103:ストレージ、131:個人情報テーブル、132:匿名情報テーブル、133:匿名化数、134:一般化階層木テーブル、135:プログラム、104:入力装置、105:出力装置、106:通信装置、107:内部通信線

Claims (7)

  1. 一つの属性に複数の属性値が格納される属性を含む個人情報から、各属性が一つの属性値しかもたない複数の個人情報を生成する個人情報分割手段と、
    該個人情報分割手段によって生成された分割個人情報と属性値の抽象化方針を示す一般化階層木とを用いて該分割個人情報を抽象化する匿名化手段と、
    該匿名化手段によって得られた匿名個人情報を、分割前の個人情報に合わせて統合する個人情報統合手段と、
    を有することを特徴とする個人情報匿名化装置。
  2. 請求項1に記載の個人情報匿名化装置であって、
    該個人情報統合手段が、一つの属性値からなる属性に対しては該匿名化手段によって抽象化された複数の属性値のうち最も抽象度の高いものを統合結果とし、複数の属性値からなる属性に対しては該匿名化手段によって抽象化された複数の属性値を区切り文字により連結したものを統合結果とする
    ことを特徴とする個人情報匿名化装置。
  3. 計算機を用いた個人情報匿名化方法であって、
    一つの属性に複数の属性値が格納される属性を含む個人情報から、各属性が一つの属性値しかもたない複数の個人情報を生成する個人情報分割ステップと、
    該個人情報分割ステップによって生成された分割個人情報と属性値の抽象化方針を示す一般化階層木とを用いて該分割個人情報を抽象化する匿名化ステップと、
    該匿名化ステップによって得られた匿名個人情報を、分割前の個人情報に合わせて統合する個人情報統合ステップと、
    を有することを特徴とする個人情報匿名化方法。
  4. 請求項3に記載の個人情報匿名化方法であって、
    該個人情報統合ステップが、一つの属性値からなる属性に対しては該匿名化ステップによって抽象化された複数の属性値のうち最も抽象度の高いものを統合結果とし、複数の属性値からなる属性に対しては該匿名化ステップによって抽象化された複数の属性値を区切り文字により連結したものを統合結果とする
    ことを特徴とする個人情報匿名化方法。
  5. 前記個人情報分割ステップにおいて、
    一つの属性に複数の属性値が格納される属性を含む個人情報の識別情報と、複数の属性値を有する属性の識別情報との対応関係を示す情報に基づいて、一つの属性に複数の属性値が格納される属性を含む個人情報から、各属性が一つの属性値しかもたない複数の個人情報を生成することを特徴とする請求項3記載の個人情報匿名化方法。
  6. 計算機によって実行されるプログラムであって、請求項3記載の個人情報匿名化方法を実行することを特徴とするプログラム。
  7. 計算機で読み取り可能な記憶媒体であって、請求項3記載の個人情報匿名化方法を実行するためのプログラムを格納したことを特徴とする記憶媒体。
JP2012025203A 2012-02-08 2012-02-08 個人情報匿名化装置および方法 Active JP5684165B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012025203A JP5684165B2 (ja) 2012-02-08 2012-02-08 個人情報匿名化装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012025203A JP5684165B2 (ja) 2012-02-08 2012-02-08 個人情報匿名化装置および方法

Publications (2)

Publication Number Publication Date
JP2013161428A true JP2013161428A (ja) 2013-08-19
JP5684165B2 JP5684165B2 (ja) 2015-03-11

Family

ID=49173580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012025203A Active JP5684165B2 (ja) 2012-02-08 2012-02-08 個人情報匿名化装置および方法

Country Status (1)

Country Link
JP (1) JP5684165B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317716B2 (en) 2013-05-22 2016-04-19 Hitachi, Ltd. Privacy protection-type data providing system
WO2018004236A1 (ko) * 2016-06-30 2018-01-04 주식회사 파수닷컴 개인정보의 비식별화 방법 및 장치
WO2018128207A1 (ko) * 2017-01-06 2018-07-12 경희대학교 산학협력단 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법{system and method for privacy presevation in skewed data}
CN113544684A (zh) * 2019-03-11 2021-10-22 日本电信电话株式会社 数据置换装置、数据置换方法、程序

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113285A (ja) * 2009-11-26 2011-06-09 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
US20110277037A1 (en) * 2010-05-10 2011-11-10 International Business Machines Corporation Enforcement Of Data Privacy To Maintain Obfuscation Of Certain Data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113285A (ja) * 2009-11-26 2011-06-09 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
US20110277037A1 (en) * 2010-05-10 2011-11-10 International Business Machines Corporation Enforcement Of Data Privacy To Maintain Obfuscation Of Certain Data

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317716B2 (en) 2013-05-22 2016-04-19 Hitachi, Ltd. Privacy protection-type data providing system
WO2018004236A1 (ko) * 2016-06-30 2018-01-04 주식회사 파수닷컴 개인정보의 비식별화 방법 및 장치
US11354436B2 (en) 2016-06-30 2022-06-07 Fasoo.Com Co., Ltd. Method and apparatus for de-identification of personal information
WO2018128207A1 (ko) * 2017-01-06 2018-07-12 경희대학교 산학협력단 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법{system and method for privacy presevation in skewed data}
CN113544684A (zh) * 2019-03-11 2021-10-22 日本电信电话株式会社 数据置换装置、数据置换方法、程序

Also Published As

Publication number Publication date
JP5684165B2 (ja) 2015-03-11

Similar Documents

Publication Publication Date Title
EP2573699B1 (en) Identity information de-identification device
Gursoy et al. Privacy-preserving learning analytics: challenges and techniques
Li et al. Reasoning human emotional responses from large-scale social and public media
Martínez et al. A semantic framework to protect the privacy of electronic health records with non-numerical attributes
Stieglitz et al. Social positions and collective sense-making in crisis communication
Csányi et al. Challenges and open problems of legal document anonymization
CN104714999B (zh) 整合来自多个源的时间感知的数据的系统和方法
Ficek et al. Differential privacy in health research: A scoping review
US11449674B2 (en) Utility-preserving text de-identification with privacy guarantees
Silahtaroğlu et al. Data analysis in health and big data: a machine learning medical diagnosis model based on patients’ complaints
Wickett et al. Identifying content and levels of representation in scientific data
Zhang et al. An intelligent early warning system of analyzing Twitter data using machine learning on COVID-19 surveillance in the US
JP5684165B2 (ja) 個人情報匿名化装置および方法
CN109074858A (zh) 没有明显准标识符的去识别的健康护理数据库的医院匹配
Canbay et al. Big data anonymization with spark
US11783079B2 (en) Privacy protection for regulated computing environments
Khan et al. Clustering based privacy preserving of big data using fuzzification and anonymization operation
CN112381598A (zh) 产品服务信息推送方法及装置
Luthfi et al. A conceptual model of decision-making support for opening data
JP2016119082A (ja) ソーシャルネットワーク状況内での選択的なコンテキスト公開を提供するためのコンピュータ実装システム及び方法
Yousef Big data analytics in health care: a review paper
Agarwal et al. Dense vector embedding based approach to identify prominent disseminators from Twitter data amid COVID-19 outbreak
Radaoui et al. Knowledge guided integration of structured and unstructured data in health decision process
Olawoyin et al. Preserving privacy integration and mining for big temporal co-occurrence patterns
Ramya Shree et al. Sensitivity context-aware privacypreserving sentiment analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140317

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150114

R150 Certificate of patent or registration of utility model

Ref document number: 5684165

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150