JP2016110472A - 情報処理装置、情報処理法、及び、プログラム - Google Patents

情報処理装置、情報処理法、及び、プログラム Download PDF

Info

Publication number
JP2016110472A
JP2016110472A JP2014248690A JP2014248690A JP2016110472A JP 2016110472 A JP2016110472 A JP 2016110472A JP 2014248690 A JP2014248690 A JP 2014248690A JP 2014248690 A JP2014248690 A JP 2014248690A JP 2016110472 A JP2016110472 A JP 2016110472A
Authority
JP
Japan
Prior art keywords
anonymization
anonymity
edge
data
anonymized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014248690A
Other languages
English (en)
Inventor
翼 高橋
Tasuku Takahashi
翼 高橋
涼介 小柳
Ryosuke Koyanagi
涼介 小柳
諒 古川
Ryo Furukawa
諒 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014248690A priority Critical patent/JP2016110472A/ja
Publication of JP2016110472A publication Critical patent/JP2016110472A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】 隠蔽性又は匿名性のための処理を効率化させる。【解決手段】 本発明の情報処理装置は、匿名化の元となる元データと、元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第1の匿名化処理として追加する候補の辺に対し、辺を匿名化マッチンググラフに追加した場合の第1の匿名化の後に実行する第2の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出する匿名性充足評価手段と、充足性スコアを基に候補の辺から匿名化マッチンググラフに追加する辺を選択する辺選択手段と、選択された辺を匿名化マッチンググラフに追加する辺追加手段とを含む。【選択図】 図1

Description

本発明は、情報処理に関し、特に、個人の情報(プライバシー情報)を扱う情報処理装置、情報処理方法及びプログラムに関する。
近年、様々なサービスにおいて、個人に関するプライバシー情報(個人情報)が、情報処理装置に蓄積されるようになっている。このようなプライバシー情報として、例えば、健康管理データ、診療履歴、又はレセプト(診療報酬明細書)のような、ヘルスケア(健康管理)に関するデータが、挙げられる。あるいは、プライバシー情報として、移動履歴又は無線アクセスポイントの利用履歴のような、人又は端末の移動又は滞在に関する位置の情報が、挙げられる。例えば、プライバシー情報であるレセプトは、生年、性別、傷病名、及び薬剤名といった属性のデータを含むレコードから構成されたデータセット(集合)として、情報処理装置に、蓄積される。このようなプライバシー情報は、プライバシー保護の観点から、オリジナルな情報(元の情報)内容での公開又は利用されることが、好ましくない。
ここで、生年又は性別のように個人を特徴付け、他の属性との組合せを基に個人を特定する可能性のある属性は、「準識別子」と呼ばれる。また、傷病名又は薬剤名のように、他人に知られたくない属性は、「センシティブ属性(機微情報:SA(Sensitive Attribute)、又は、SV(Sensitive Value))」と呼ばれる。なお、名前のように単独で個人を特徴づける属性は、ユーザ識別子(ユーザID:User Identifier)となる。
このようなプライバシー情報は、プライバシー侵害の懸念がなければ、有益性の高い二次活用をもたらす。ここで、二次活用(二次利用)とは、例えば、プライバシー情報を生成又は蓄積しているサービス事業者とは異なる第三者にプライバシー情報を提供し、その第三者が、プライバシー情報をサービスで利用することである。あるいは、二次活用とは、第三者に対して、プライバシー情報を提供し、分析などのアウトソーシングを依頼することである。プライバシー情報の二次活用は、プライバシー情報の分析又は研究を促進し、分析結果又は研究結果を用いたサービスの強化につながる。したがって、二次活用を基に、第三者も、プライバシー情報の持つ高い有益性を享受することができる。
例えば、第三者として想定し得るものとして、製薬会社がある。製薬会社は、診療情報を基に、薬品の共起関係又は相関関係などを、分析できる。しかし、製薬会社にとって、診療情報を入手することは、一般的に、困難である。しかし、診療情報を用いると、製薬会社は、薬品がどのように利用されているのかを知ることができ、さらに、利用状態を分析することができる。
しかしながら、このようなプライバシー情報を含むデータセット(例えば、診療情報)は、プライバシー侵害の懸念から、積極的には、二次活用がなされていない。
例えば、サービスの利用者を一意に識別するユーザ識別子(ユーザID)と、1つ以上のセンシティブ情報とを含むレコードを含むデータセットが、サービス提供者の情報処理装置に蓄積されているとする。ここで、ユーザ識別子が付与されたままでセンシティブ情報を含むデータセットが第三者に提供された場合、その第三者は、ユーザ識別子を用いて、サービスの利用者を特定できる。そのため、このような提供では、プライバシー侵害の問題が、発生する可能性がある。
また、ユーザ識別子を取り除くが、準識別子を1つ以上含む複数のレコードを含むデータセットが、第三者に提供された場合について考える。この場合、第三者が、準識別子の組合せに基づいて、個人を特定できてしまう場合がある。すなわち、たとえ、ユーザ識別子を取り除いたデータセットでも、準識別子の組合せに基づいて、ある個人を特定可能な場合、プライバシー侵害が、発生する可能性がある。
このような特性を有するプライバシー情報のデータセットを、本来の有用性をある程度保ちながら、プライバシーを保護した形態に変換する技術が望まれている。このような技術として、匿名化技術(Anonymization)が、知られている(例えば、特許文献1ないし4、非特許文献1及び2を参照)。
特許文献2に記載の技術は、データの粒度を変更する匿名化に関する技術である。また、特許文献3に記載の技術は、データを繰り返し提供する場合の匿名化に関する技術である。また、特許文献4に記載の技術は、データ間の距離を基にした匿名化に関する技術である。
特許文献2ないし4に記載の匿名化は、それぞれ有効であるが、広く用いられている匿名性の指標として“k−匿名性”がある(例えば、非特許文献1及び特許文献1を参照)。
非特許文献1には、広く用いられる匿名性指標である“k−匿名性”が、記載されている。ここで、k−匿名性とは、全てのレコードに対し、匿名化対象のデータセットの中に、同じ準識別子(又は準識別子の組)を有するレコードが、少なくともk個以上存在することを保証する指標である。また、匿名化対象のデータセットに、係るk−匿名性を充足させる技術は、“k−匿名化”と呼ばれる。つまり、k−匿名化は、同じ準識別子(又は準識別子の組)を有するレコードが、匿名化対象のデータセットの中に少なくともk個以上存在するように、対象となるレコードの準識別子を変換する。ここで用いられる変換処理としては、一般化又は切り落とし等の処理が、知られている。一般化処理とは、元の(オリジナルの)詳細な情報を、抽象化された情報に変換する処理である。また、切り落とし処理とは、元の詳細な情報を削除する処理である。
また、特許文献1には、k−匿名化を利用する技術が、記載されている。特許文献1に記載された技術は、ユーザ端末から受信したデータを、暗号化などを用いて変換してから格納し、格納したデータを復号してからk−匿名性を満たすよう加工して、サービス提供者のサーバに送信する。
上記のとおり、k−匿名化は、同じ準識別子と関連付けられたレコードの数が、k個以上となることを保証する匿名化である。言い換えると、k−匿名化は、k個以上のレコードを加工し、同一化することに基づいて、個人に対するレコードを、少なくともk個よりも少ない候補に絞り込むことができないように加工する。この動作を基に、k−匿名化は、レコードの識別又は特定を困難にする。よって、k−匿名性は、レコードの識別の困難さを表す指標とも言える。
図3は、プライバシー情報の一例を示す図である。図3に示すプライバシー情報は、属性として、名前(Name)、年齢(Age)、郵便番号(Zipcode)、及び病気(Disease)を含む。そして、例えば、名前(Name)の属性が、ユーザ識別子である。年齢(Age)及び郵便番号(Zipcode)の属性が、準識別子である。また、病気(Disease)の属性が、センシティブ属性である。
図4は、図3に示すプライバシー情報を、k=2としてk−匿名化した匿名化後の情報の一例を示す図である。図4に示す匿名化後の情報は、明示的な識別子(ユーザ識別子)である属性の名前(Name)が排除(削除)され、準識別子を加工されることで、k=2のk−匿名性が充足されている。図4では、図3に示すALice、Bob、及びCarolのレコードが、同一の準識別子の組を持つように、準識別子が加工されている。同様に、David及びEveのレコードは、同一の準識別子の組を持つように、準識別子が加工されている。具体的には、図4の匿名化において、属性の年齢(Age)の値は、範囲を表す値に加工されている。また、5つの桁を持つ属性の郵便番号(Zipcode)は、同一の値を持つ桁の値がそのまま残され、異なる値を持つ桁の値が「*」で置き換えられている。
このように、属性の値は、所定の匿名性を満たすために、曖昧な値に加工される。この属性の値を曖昧な値に加工する動作に基づいて、情報の損失が、生じる。この情報の損失の度合いは、“情報損失”、又は“情報損失量”と呼ばれる。また、情報損失の尺度として、NCP(Normalized Certainty Penalty)、EM(Entropy Measure)、又はDM(Distortion Metric)などの指標が、広く知られている。
k−匿名性以外の匿名性指標として、(k,1)−匿名性((k,1)-anonymity)、(1,k)−匿名性((1,k)-anonymity)、(k,k)−匿名性((k,k)-anonymity)、k−隠蔽性(k-concealment)という指標が、知られている(例えば、非特許文献2を参照)。
これらの匿名性指標は、元の情報であるデータセット(T)に含まれるレコード(t)と、匿名化後のデータセット(T)に含まれるレコード(t)とのマッチングに基づく、匿名性の指標である。ここで、ある匿名化作用素Aを仮定し、その匿名化作用素Aにおいて、“A(t)⊆t”との関係が成り立つとき、tとtとは、“マッチする”、又は、tとtとには、“マッチングが存在する”とする。なお、以下、「データセット」を単に「データ」と呼ぶ場合もある。また、「匿名化後のデータセット」を、単に、「匿名化データセット」又は「匿名化データ」と呼ぶ。なお、以下、匿名化の元となるプライバシー情報は、「元データ」又は「元データ」セットと呼ぶ。なお、元データは、匿名化処理の対象となる。そのため、以下の説明において、元のデータからユーザ識別子を削除した状態のデータも、「元データ」と呼ぶ。
(k,1)−匿名性とは、匿名化データ(T)の任意のレコード(t)に、k個以上の元データ(T)のレコード(t)がマッチする(|{t|A(t)⊆t}|≧k)ことを保証する指標である。
図7は、図3に示すプライバシー情報を、k=2の(k,1)−匿名性を充足するように匿名化した場合の、元データと匿名化データとのマッチングの一例を示す図である。
(1,k)−匿名性とは、元データセット(T)の任意のレコード(t)とk個以上の匿名化データ(T)のレコード(t)とがマッチすることを保証する指標である。
図5は、図3に示すプライバシー情報(元データ)と、図3に示すプライバシー情報をk=2の(1,k)−匿名性を充足するように匿名化した匿名化データとのマッチングの一例を示す図である。図5において、例えば、Aliceのレコードは、匿名化データの1番目及び3番目のレコードとマッチしている。このように、図5は、各元データのレコードと、k個(ここではk=2)の匿名化データのレコードとが、マッチすることを表している。
図6は、図5におけるマッチングを示すグラフ(匿名化マッチンググラフ)を抜き出して、示した図である。図6に示すように、元データと匿名化データのレコードと間のマッチングは、元データ及び匿名化データの各レコードを頂点とし、マッチングを辺とする二部グラフで表すことができる。以下、この二部グラフを、匿名化マッチンググラフと呼ぶ。
(k,k)−匿名性とは、(k,1)−匿名性と(1,k)−匿名性との両方を、同時に満たすことを保証する指標である。
図8は、図3に示すプライバシー情報を、k=2の(k,k)−匿名性を充足するように匿名化した場合の、元データと匿名化データとのマッチングの一例を示す図である。
k−隠蔽性とは、(k,1)−匿名性のマッチングを構成する匿名化マッチンググラフの辺が、完全マッチングとなることを保証する指標である。
ここで、完全マッチングとは、マッチングを示す二部グラフの辺の集合が、すべての頂点を接続可能、かつ、端点を共有しない辺の集合となることである。
完全マッチングをより詳細に説明する。二部グラフにおいて、一方のデータを元データとし、他方のデータを匿名化データとする。そして、各レコードを頂点として、マッチングが存在するレコードの頂点間に辺を張り、二部グラフを構成する。ここで、1つの完全マッチングは、元データのレコードと匿名化データのレコードとの全単射となる。言い換えると、ある元データのレコードには、固有の匿名化データのレコードが存在するということである。
非特許文献2に記載の技術は、k−隠蔽性を充足させる匿名化についての技術である。そして、非特許文献2に記載の匿名化は、マッチングに基づく匿名化である。非特許文献2に記載の技術は、まず、元データから、元データと同じ準識別子の組を持つ匿名化データを生成する。そして、非特許文献2に記載の技術は、元データのレコードと匿名化データのレコードとのマッチングに基づいて、完全マッチングの二部グラフを生成する。
この二部グラフに対する辺の追加は、追加された辺の端点となる元データのレコードとマッチングを成り立たせるように、他の端点である匿名化データのレコードを匿名化する操作に相当する。つまり、辺の追加に基づいて、匿名化データは、加工される。その結果、情報損失が、生じる。
非特許文献2に記載の匿名化技術は、次のように、辺を追加する3つのステップを用いて、情報損失が小さくなるように、k−隠蔽性を充足させる。すなわち、非特許文献2に記載の技術は、第一のステップで、辺の追加を用いて、情報損失が小さい(k,1)−匿名性を充足させる。そして、非特許文献2に記載の技術は、第二のステップで、辺の追加を用いて、情報損失が小さい(k,k)−匿名性を充足させる。そして、非特許文献2に記載の技術は、第三のステップで、辺の追加を用いて、情報損失が小さいk−隠蔽性を充足させる。
特開2011−180839号公報 特開2012−022315号公報 特開2007−219636号公報 国際公開第2012/063546号
Latanya Sweeney, "k-Anonymity: A Model for Protecting Privacy", International Journal on Uncertainty, Fussiness and Knowledge-based Systems, Volume 10, Issue 05, pp.555-570, October 2002. Tamir Tassa, Arnon Mazza and Aristides Gionis, "k-Concealment: An Alternative Model of k-Type Anonymity", Transactions on Data Privacy, 5, pp. 189-222, 2012.
非特許文献2に記載の技術は、第一のステップにおいて、第二のステップにおける(k,k)−匿名性の充足性について、考慮していない。そのため、第一のステップで追加された辺が、第二のステップにおける(k,k)−匿名性の充足に不要である場合がある。
図9と及び図10は、それぞれ、k=2の場合の(k,1)−匿名性を満たす匿名化マッチンググラフの一例を示す図である。
図9は、元データのレコードに張られている辺の数に偏りが大きい場合の(k,1)−匿名性を満たす匿名化マッチンググラフの一例を示す。図10は、元データのレコードに張られている辺の数に偏りが小さい場合の(k,1)−匿名性を満たす匿名化マッチンググラフの一例を示す。なお、頂点(レコード)から出る辺の数を“次数”と呼ぶ。
図9に示す匿名化マッチンググラフに対して、k=2の(k,k)−匿名性を満たすように辺を追加することを考える。この場合、図の上から3番目、4番目、及び5番目のレコードに、それぞれに、1つずつの辺の追加が必要である。つまり、合計3本の辺の追加が、必要である。
次に、図10に示す匿名化マッチンググラフに対して、k=2の(k,k)−匿名性(k=2)を満たすように辺を追加することを考える。この場合、図の上から5番目のレコードに、1つの辺の追加が必要である。つまり、合計1本の辺の追加が、必要である。
図9に示す匿名化マッチンググラフでは、図の上から1番目のレコードに5本の辺が張られている。この辺の数(5)は、k−匿名性のkの値(2)と比べ、かなり多い値である。k=2の(k,1)−匿名性及び(k,k)−匿名性の充足という観点では、各頂点からは、2本の辺が、出ていればよい。そのため、図9の上から1番目のレコードには、過剰な辺が、追加されていることがわかる。
もし、第1のステップ((k,1)−匿名性の充足ステップ)において、第2のステップにおける(k,k)−匿名性の充足性についても考慮した処理を実行した場合、図10に示すような(k,k)−匿名性の充足度が高い匿名化マッチンググラフが生成できる。つまり、第1のステップにおいて、第2のステップ考慮した処理を実行した場合、第2のステップにおいて追加する辺の数を削減することが、可能である。
なお、第1のステップである(k,1)−匿名性の充足ステップで追加される辺の数は、すべての匿名化データのレコードに対してk本となるように追加するため、一定である。
これに対し、第2のステップである(k,k)−匿名性の充足ステップで必要な辺の追加数は、削減可能である。
換言すると、非特許文献2に記載の技術は、(k,1)−匿名性の充足ステップ(第1のステップ)及び(k,k)−匿名性の充足ステップ(第2のステップ)に基づいて、(k,k)−匿名性を満たす匿名化を行う。その処理において、非特許文献2に記載の技術は、第1のステップにおける元データのレコードと匿名化データのレコードとのマッチング(辺の追加)において、第2のステップの(k,k)−匿名性の充足性を考慮しない。そのため、非特許文献2に記載の技術は、第2のステップである(k,k)−匿名性の充足ステップ以降では不要となる辺を、第1のステップで追加する場合がある。あるいは、非特許文献2に記載の技術は、第2のステップで追加する辺を削減するように、第1のステップにおいて辺を追加することができない。そのため、非特許文献2に記載の技術は、第2のステップである(k,k)−匿名性を満たす匿名化の効率が悪くなるという問題点があった。
なお、特許文献1ないし4及び非特許文献1に記載の技術は、匿名化の方法が異なるため、上記問題点を解決できない。
本発明の目的は、上記の問題点を解決し、k−隠蔽性を実現するための第2のステップである(k,k)−匿名性を効率化する、つまり、k−隠蔽性を効率化する情報処理装置、情報処理方法及びプログラムを提供することにある。
本発明の一形態における情報処理装置は、匿名化の元となる元データと、元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第1の匿名化処理として追加する候補の辺に対し、辺を匿名化マッチンググラフに追加した場合の第1の匿名化の後に実行する第2の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出する匿名性充足評価手段と、充足性スコアを基に候補の辺から匿名化マッチンググラフに追加する辺を選択する辺選択手段と、選択された辺を匿名化マッチンググラフに追加する辺追加手段とを含む。
本発明の一形態におけるデータ処理方法は、匿名化の元となる元データと、元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第1の匿名化処理として追加する候補の辺に対し、辺を匿名化マッチンググラフに追加した場合の第1の匿名化の後に実行する第2の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出し、充足性スコアを基に候補の辺から匿名化マッチンググラフに追加する辺を選択し、選択せれた辺を匿名化マッチンググラフに追加する。
本発明の一形態におけるプログラムは、匿名化の元となる元データと、元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第1の匿名化処理として追加する候補の辺に対し、辺を匿名化マッチンググラフに追加した場合の第1の匿名化の後に実行する第2の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出する処理と、充足性スコアを基に候補の辺から匿名化マッチンググラフに追加する辺を選択する処理と、選択せれた辺を匿名化マッチンググラフに追加する処理とをコンピュータに実行させる。
本発明に基づけば、k−隠蔽性又は(k,k)−匿名性の処理を効率化させることができるとの効果を奏することができる。
図1は、本発明における第1の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。 図2は、第1の実施の形態に係る情報処理装置の構成の変形例の一例を示すブロック図である。 図3は、プライバシー情報の一例を示す図である。 図4は、図3に示すプライバシー情報の匿名化後の情報の一例を示す図である。 図5は、図3に示すプライバシー情報と、(1,k)−匿名性を充足するように匿名化した匿名化データとのマッチングの一例を示す図である。 図6は、図5における、匿名化マッチンググラフを示す図である。 図7は、図3に示すプライバシー情報と、(k,1)−匿名性を充足するように匿名化した匿名化データとのマッチングの一例を示す図である。 図8は、図3に示すプライベート情報と、(k,k)−匿名性を充足するように匿名化した匿名化データとのマッチングの一例を示す図である。 図9は、(k,1)−匿名性を満たす匿名化マッチンググラフの一例を示す図である。 図10は、(k,1)−匿名性を満たす匿名化マッチンググラフの一例を示す図である。 図11は、第1の実施の形態に係る情報処理装置の動作の一例を示すフローチャートである。 図12は、第1の実施の形態に説明に用いる情報処理装置が受信する匿名化マッチンググラフの一例を示す図である。 図13は、追加のする辺の候補である候補辺集合の一例を示す図である。 図14は、選択された辺が追加された匿名化マッチンググラフを示す図である。 図15は、選択された辺がさらに追加された匿名化マッチンググラフを示す図である。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
なお、各図面は、本発明の実施の形態を説明するものである。ただし、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明を、省略する場合がある。
また、以下の説明に用いる図面において、本発明の説明に関係しない部分の構成については、記載を省略し、図示しない場合もある。
また、以下の説明では、本発明の実施の形態が扱うグラフの一例として、二部グラフを用いる。ただし、これは、本発明の実施の形態が扱うグラフを二部グラフに制限するものではない。本発明の実施の形態は、以下で説明する機能を実現するグラフであれば、二部グラフ以外のグラフを用いてもよい。
また、以下の説明では、本発明の実施の形態が扱う匿名化の一例として、k−隠蔽性、特に、k−隠蔽性に関連する(k,1)−匿名性及び(k,k)−匿名性を用いて説明する。ただし、これは、本発明の実施の形態が扱う匿名性を上記に限定するものではない。本発明の実施形態は、上記の匿名性に限らず、複数の匿名性の処理を実行する匿名性であれば、特に制限はない。また、本発明の実施の形態は、後で処理する匿名性を考慮して前の匿名性を実行すれば、前の匿名性処理と後の匿名性の処理とが、直接的に連続する匿名性の処理に限る必要はない。例えば、本発明の実施の形態は、k−隠蔽性の第3ステップを考慮して第1のステップの匿名性を処理してもよい。
また、以下の説明では、本発明の実施の形態が扱うデータセットとして、5つのレコードを含むデータセットを用いる。ただし、これは、本発明の実施の形態が扱うデータセットを制限するものではない。本発明の実施の形態は、5未満のレコード、又は、5を超えるレコードを含むデータセットを用いてもよい。
(第1の実施の形態)
図1は、本発明における第1の実施の形態に係る情報処理装置10の構成の一例を示すブロック図である。
情報処理装置10は、元データと匿名化データとマッチングを表す匿名化マッチンググラフを処理対象とする。より詳細には、情報処理装置10は、所定の匿名性(匿名化強度)を充足するように、二部グラフ形式で表された匿名化マッチンググラフにおける辺を処理し、匿名化マッチンググラフを更新する。
そのため、図1に示すように、情報処理装置10は、匿名性充足評価部11と、辺選択部12と、辺追加部13とを含む。
辺選択部12は、k−隠蔽性における所定の匿名性(匿名化強度)を充足させるために、匿名化マッチンググラフに追加する辺を選択する。より詳細には、辺選択部12は、後ほど説明する匿名性充足評価部11が算出する充足性スコアを基に、辺を選択する。
匿名性充足評価部11は、匿名化マッチンググラフに辺を追加することに基づく、匿名性の充足の変化の度合いを評価する。以下、変化の度合いを示す値を、「充足性スコア」と呼ぶ。つまり、匿名性充足評価部11は、辺の追加に基づく充足性スコアを算出する。
辺追加部13は、辺選択部12が選択した辺を匿名化マッチンググラフに追加する。
なお、情報処理装置10における匿名化の対象のデータセット(元データ)は、オリジナルな情報内容を公開又は利用されることが好ましくない属性(センシティブ属性)を含むデータセットである。このデータセットは、1つ以上の属性を含むレコードの集合である。そして、レコードは、少なくとも1つ以上のセンシティブ属性を含む。情報処理装置10は、レコードが含むセンシティブ情報に関連する個人を特定されないようにデータセット(元データ)を匿名化する。既に説明した通り、匿名化されたデータが、匿名化データである。
次に、図面を参照して、情報処理装置10の各構成の詳細について説明する。なお、以下の説明では、(k,1)−匿名性及び(k,k)−匿名性のkとして、k=2を用いる。つまり、情報処理装置10は、第1のステップとして、k=2の(k,1)−匿名性を充足させるように匿名化を実行し、第2のステップとして、k=2の(k,k)−匿名性を充足させるように匿名化を実行する。言い換えると、匿名化強度が、「2」である。
ただし、本説明に用いるk=2は、匿名性(匿名化)の一例である。本実施の形態に係る情報処理装置10は、kの値として、2より大きな値を用いてもよい。
図12は、本実施の形態の説明に用いる情報処理装置10が処理の対象として受信する匿名化マッチンググラフの一例を示す図である。図12において、匿名化データの上から1番目ないし3番目のレコード(t ,t ,及びt )は、既に、匿名化強度である2(k=2)本の辺が張られている。そのため、情報処理装置10は、第1のステップにおいて、1番目ないし3番目のレコードを、処理しない。
次に、第1のステップの処理として、t を処理対象とした場合について説明する。
ここで、元データのレコードと匿名化データのレコードとの間の可能なすべての辺の候補を、全マッチング候補辺集合Eとする。また、全マッチング候補辺集合Eのうち、匿名化マッチンググラフに張られていない辺の集合を、候補辺集合Cとする。また、辺は、変数「e」及び両端の頂点を用いて示す。例えば、頂点tと頂点t との間の辺は、辺e(t,t )である。
辺選択部12は、匿名化マッチンググラフと匿名化強度とを基に、(k,1)−匿名性を充足させるために匿名化データのレコードtから元データのレコードに対して追加する辺を選択する。
そのため、まず、辺選択部12は、候補辺集合Cから、処理対象であるtを端点とする辺の部分集合である候補辺集合C[t]を抽出する。
図13は、追加する辺の候補である候補辺集合C[t ]の一例を示す図である。辺選択部12は、t の候補辺集合C[t ]として、図13において破線で示す、辺e(t,t )、辺e(t,t )、辺e(t,t )、及び辺e(t,t )を抽出する。つまり、候補辺集合C[t ]は、C[t ]={(t,t ),(t,t ),(t,t ),(t,t )}となる。
次に、辺選択部12は、抽出した候補辺集合C[t ]を匿名性充足評価部11に送る。
匿名性充足評価部11は、候補辺集合に含まれる各辺に対する、(k,k)−匿名性の充足の度合い(充足性スコア)を算出する。
次に、匿名性充足評価部11における充足性スコアの算出については、詳細に説明する。
匿名性充足評価部11は、候補辺集合C[t ]に含まれる全ての辺c(c∈C[t ])に対して、充足性スコアs(c)として、第2のステップ((k,k)−匿名性のステップ)のおける匿名性の充足の程度を示す値を算出する。より具体的には、匿名性充足評価部11は、例えば、充足性スコアs(c)として、各辺cを匿名化マッチンググラフに追加した場合の(k,k)−匿名性の充足に近づく度合いを算出する。
ここで、“(k,k)−匿名性の充足に近づく”とは、元データのレコード及び匿名化データのレコードから出る辺の数(次数)が、それぞれ、kに近づくことである。ここで、本実施の形態の第1のステップである(k,1)−匿名性の充足ステップは、匿名化データのレコードの次数をk以上にする。そのため、(k,k)−匿名性に近づく度合いの高い辺とは、元データのレコードの次数がkに近くなる辺である。
したがって、充足性スコアs(c)は、辺c(c∈C[t ])の端点である元データのレコード(t)の次数(d[t])の関数である。次数は、匿名性の程度を示す情報でもある。
本実施の形態が用いる充足性スコアs(c)の算出方法は、上記のとおり元データのレコードの次数がkに近くなることを表すことができれば、特に制限はない。例えば、匿名性充足評価部11は、充足性スコアs(c)として、次の数式1に示す関数を用いてもよい。なお、数式1において、αは、εより大きい所定の数値である。
[数式1]
Figure 2016110472
数式1の充足性スコアs(c)は、次数d[t]がkに満たない端点を持つ辺を重視し、既に満たしている辺を軽視するような値を算出する。
匿名化データt に対する候補辺集合C[t ]={(t,t ),(t,t ),(t,t ),(t,t )}の各端点の次数は、それぞれ、d[t]=2、d[t]=2、d[t]=2、及びd[t]=1である。
ここで、一例として、数式1におけるα=2、ε=0.5とする。なお、k=2である。この場合、各辺の充足性スコアs(c)は、それぞれ、次の通りである。
s(辺e(t,t ))=1
s(辺e(t,t ))=1
s(辺e(t,t ))=1
s(辺e(t,t ))=2
つまり、辺e(t,t )の充足性スコアが、最も大きな値である。
なお、匿名性充足評価部11は、充足性スコアs(c)として、次に示す数式2を用いてもよい。
[数式2]
Figure 2016110472
数式2は、次数d[t]がkに満たない辺を重視するようなバイアスを掛ける。つまり、数式2は、次数に加え、第1又は第2のステップにおける匿名性に関する情報(k)を用いてスコアを算出する。数式2に基づく充足性スコアs(c)を用いる場合、次数d[t]がkに満たない辺が、重視される。つまり、辺選択部12は、次数d[t]がkに満たない辺を、選択しやくなる。
なお、具体的なC[t ]={(t,t ),(t,t ),(t,t ),(t,t )}の各端点の充足性スコアs(c)の各値は、それぞれ、次の通りある。
s(辺e(t,t ))=exp(0)=1
s(辺e(t,t ))=1
s(辺e(t,t ))=1
s(辺e(t,t ))=exp(1)≒2.7
数式2においても、数式1と同様に、辺e(t,t )の充足性スコアが、最も大きな値である。
辺選択部12は、上記のように、匿名性充足評価部11が算出したスコアに基づいて、候補辺集合C[t]から、追加する辺(β)を選択する。
辺追加部13は、辺選択部12が選択した辺(β)を、匿名化マッチンググラフに追加する。辺追加部13は、追加した辺(β)を、候補辺集合Cから取り除く。
図14は、選択された辺e(t,t )が追加された匿名化マッチンググラフを示す図である。
同様に、第1のステップの処理として、t を処理対象とした場合、情報処理装置10は、辺e(t、t )を選択する。
図15は、選択された辺e(t、t )が、さらに追加された評価マッチンググラフを示す図である。
この場合、図15に示すように、匿名化マッチンググラフは、第1のステップとして(k,1)−匿名性を充足するステップを終了した時点で、第2のステップとしての(k,k)−匿名性を充足している。つまり、情報処理装置10は、(k,k)−匿名性の処理を省略できる。つまり、情報処理装置10は、(k,k)−匿名性の処理の効率化を実現できている。
次に、情報処理装置10のk−隠蔽性の処理のステップ1の動作について、図面を参照して説明する。
図11は、第1の実施の形態に係る情報処理装置10におけるk−隠蔽性の処理のステップ1の動作の一例を示すフローチャートである。
図11において、Nは、レコードの数である。また、i及びjは、繰り返し処理における制御変数である。
iは、レコードに対する制御変数である。つまり、情報処理装置10は、i=0で最初のレコードを処理し、iが1増えると、次にレコードの処理を実行する。情報処理装置10は、制御変数iを用いて、匿名化データの全てのレコードを処理する(ステップS101〜S101E)。ただし、情報処理装置10は、処理する必要がないレコードの処理を省略してもよい。
jは、匿名化に対する制御変数である。情報処理装置10は、jの値を0からk−1まで増やしながら、匿名性を満足するように以下で説明する処理を繰り返す(ステップS102〜S102E)。
情報処理装置10は、これらの繰り返しの制御を、いずれかの構成、又は、図示しない制御部を用いて、処理すれば良い。
各処理は、次のとおりである。
辺選択部12は、匿名化マッチンググラフを基に、匿名化データのレコードt から元データのレコードに対して追加する辺(c)の候補である候補辺集合Cを抽出する。
そして、辺選択部12は、候補辺集合Cから、レコードt を端点とする辺候補集合C[t ]を抽出する(ステップS103)。
次に、匿名性充足評価部11は、候補辺集合C[t ]に含まれる各辺cに対して、辺cを匿名化マッチンググラフに追加することに基づく(k,k)−匿名性の充足に近づく度合いとして、充足性スコアs(c)を計算する(ステップS104)。つまり、匿名性充足評価部11は、匿名性の充足を評価する。
次に、辺選択部12は、匿名性充足評価部11が算出した充足性スコアs(c)に基づいて、候補辺集合C[t]から、匿名化マッチンググラフに追加する辺(β)を選択する(ステップS105)。
辺追加部13は、辺選択部12が選択した辺(β)を匿名化マッチンググラフに追加する(ステップS106)。辺追加部13は、追加した辺(β)を、候補辺集合Cから取り除く。
情報処理装置10は、すべての匿名化レコードに対し、匿名化強度を充足する辺を張るまで、上記の動作を繰り返す。
次に、第1の実施の形態の効果について説明する。
第1の実施形態に係る情報処理装置10は、k−隠蔽性又は(k,k)−匿名性の処理を効率化させることができるとの効果を奏することができる。つまり、本実施の形態に係る情報処理装置10は、k−隠蔽性の充足又は(k,k)−匿名性を高速に充足させるとの効果を奏することができる。
その理由は、次のとおりである。
第1の実施の形態に係る情報処理装置10は、k−隠蔽性又は(k,k)−匿名性を充足させる処理における第1の匿名性((k,1)−匿名性)を充足させるステップにおいて、その後に実行する第2の匿名性((k,k)−匿名性)の充足性を考慮する。つまり、情報処理装置10は、第2の匿名性((k,k)−匿名性)の充足度合いがより高くなるように、第1の匿名性((k,1)−匿名性)を充足するように匿名化マッチンググラフの更新を実行するためである。
より詳細には、次のとおりである。
辺選択部12が、匿名化マッチンググラフから、候補辺集合を抽出する。匿名性充足評価部11が、第2ステップの匿名性に基づいて、各辺の充足性スコアを算出する。辺選択部12が、充足性スコアを基に、匿名化マッチンググラフに追加する辺を選択する。つまり、辺選択部12は、第2のステップにも適した辺を選択する。そして、辺追加部13が、選択された辺を匿名化マッチンググラフに追加するためである。
[変形例]
以上の説明した情報処理装置10は、次のように構成される。
例えば、情報処理装置10の各構成部は、ハードウェア回路で構成されても良い。
また、情報処理装置10は、各構成部が、ネットワークを介して接続した複数の装置を用いて、構成されても良い。
また、情報処理装置10は、複数の構成部を1つのハードウェアで構成しても良い。
また、情報処理装置10は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含むコンピュータ装置として実現してもよい。情報処理装置10は、上記構成に加え、さらに、入出力接続回路(IOC:Input / Output Circuit)と、ネットワークインターフェース回路(NIC:Network Interface Circuit)とを含むコンピュータ装置として実現しても良い。
図2は、本変形例に係る情報処理装置600の構成の一例を示すブロック図である。
情報処理装置600は、CPU610と、ROM620と、RAM630と、内部記憶装置640と、IOC650と、NIC680とを含み、コンピュータ装置を構成している。
CPU610は、ROM620からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、RAM630と、内部記憶装置640と、IOC650と、NIC680とを制御する。そして、CPU610を含むコンピュータは、これらの構成を制御し、図1に示す、匿名性充足評価部11と、辺選択部12と、辺追加部13としての各機能を実現する。
CPU610は、各機能を実現する際に、RAM630又は内部記憶装置640を、プログラムの一時記憶として使用しても良い。
また、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体700が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでも良い。あるいは、CPU610は、NIC680を介して、図示しない外部の装置からプログラムを受け取り、RAM630に保存して、保存したプログラムを基に動作しても良い。
ROM620は、CPU610が実行するプログラム及び固定的なデータを記憶する。ROM620は、例えば、P−ROM(Programmable-ROM)又はフラッシュROMである。
RAM630は、CPU610が実行するプログラム及びデータを一時的に記憶する。RAM630は、例えば、D−RAM(Dynamic-RAM)である。
内部記憶装置640は、情報処理装置600が長期的に保存するデータ及びプログラムを記憶する。また、内部記憶装置640は、CPU610の一時記憶装置として動作しても良い。内部記憶装置640は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)又はディスクアレイ装置である。
ここで、ROM620と内部記憶装置640は、不揮発性(non-transitory)の記憶媒体である。一方、RAM630は、揮発性(transitory)の記憶媒体である。そして、CPU610は、ROM620、内部記憶装置640、又は、RAM630に記憶されているプログラムを基に動作可能である。つまり、CPU610は、不揮発性記憶媒体又は揮発性記憶媒体を用いて動作可能である。
IOC650は、CPU610と、入力機器660及び表示機器670とのデータを仲介する。IOC650は、例えば、IOインターフェースカード又はUSB(Universal Serial Bus)カードである。
入力機器660は、情報処理装置600の操作者からの入力指示を受け取る機器である。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
表示機器670は、情報処理装置600の操作者に情報を表示する機器である。表示機器670は、例えば、液晶ディスプレイである。
NIC680は、ネットワークを介した図示しない外部の装置とのデータのやり取りを中継する。NIC680は、例えば、LAN(Local Area Network)カードである。
このように構成された情報処理装置600は、情報処理装置10と同様の効果を得ることができる。
その理由は、情報処理装置600のCPU610が、プログラムに基づいて情報処理装置10と同様の機能を実現できるためである。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成及び詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
10 情報処理装置
11 匿名性充足評価部
12 辺選択部
13 辺追加部
600 情報処理装置
610 CPU
620 ROM
630 RAM
640 内部記憶装置
650 IOC
660 入力機器
670 表示機器
680 NIC
700 記憶媒体

Claims (7)

  1. 匿名化の元となる元データと、前記元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第1の匿名化処理として追加する候補の辺に対し、前記辺を前記匿名化マッチンググラフに追加した場合の前記第1の匿名化の後に実行する第2の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出する匿名性充足評価手段と、
    前記充足性スコアを基に前記候補の辺から前記匿名化マッチンググラフに追加する辺を選択する辺選択手段と、
    前記選択された辺を前記匿名化マッチンググラフに追加する辺追加手段と
    を含む情報処理装置。
  2. 前記匿名性充足評価手段が、
    前記匿名化マッチンググラフおける前記元データ側の端点から出る辺の数である次数の値に基づいて前記充足性スコアを算出する
    請求項1かに記載の情報処理装置。
  3. 前記匿名性充足評価手段が、
    前記第1又は第2の匿名性に関する情報に基づいて充足性スコアを算出する
    請求項2に記載の情報処理装置。
  4. 前記辺選択手段が、
    前記追加する候補の辺を選択する
    請求項1ないし3のいずれか1項に記載の情報処理装置。
  5. 前記第1の匿名性としてk−隠蔽性における(k,1)−匿名性を、第2の匿名性として(k,k)−匿名性を用いる
    請求項1ないし4のいずれか1項に記載の情報処理装置。
  6. 匿名化の元となる元データと、前記元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第1の匿名化処理として追加する候補の辺に対し、前記辺を前記匿名化マッチンググラフに追加した場合の前記第1の匿名化の後に実行する第2の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出し、
    前記充足性スコアを基に前記候補の辺から前記匿名化マッチンググラフに追加する辺を選択し、
    前記選択せれた辺を前記匿名化マッチンググラフに追加する
    情報処理方法。
  7. 匿名化の元となる元データと、前記元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第1の匿名化処理として追加する候補の辺に対し、前記辺を前記匿名化マッチンググラフに追加した場合の前記第1の匿名化の後に実行する第2の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出する処理と、
    前記充足性スコアを基に前記候補の辺から前記匿名化マッチンググラフに追加する辺を選択する処理と、
    前記選択せれた辺を前記匿名化マッチンググラフに追加する処理と
    をコンピュータに実行させるプログラム。
JP2014248690A 2014-12-09 2014-12-09 情報処理装置、情報処理法、及び、プログラム Pending JP2016110472A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014248690A JP2016110472A (ja) 2014-12-09 2014-12-09 情報処理装置、情報処理法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014248690A JP2016110472A (ja) 2014-12-09 2014-12-09 情報処理装置、情報処理法、及び、プログラム

Publications (1)

Publication Number Publication Date
JP2016110472A true JP2016110472A (ja) 2016-06-20

Family

ID=56124385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014248690A Pending JP2016110472A (ja) 2014-12-09 2014-12-09 情報処理装置、情報処理法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP2016110472A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020175306A1 (ja) * 2019-02-26 2020-09-03 日本電信電話株式会社 匿名化装置、匿名化方法、プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020175306A1 (ja) * 2019-02-26 2020-09-03 日本電信電話株式会社 匿名化装置、匿名化方法、プログラム
JPWO2020175306A1 (ja) * 2019-02-26 2021-09-30 日本電信電話株式会社 匿名化装置、匿名化方法、プログラム
CN113474778A (zh) * 2019-02-26 2021-10-01 日本电信电话株式会社 匿名化装置、匿名化方法、程序
JP7088405B2 (ja) 2019-02-26 2022-06-21 日本電信電話株式会社 匿名化装置、匿名化方法、プログラム
CN113474778B (zh) * 2019-02-26 2024-02-20 日本电信电话株式会社 匿名化装置、匿名化方法、计算机可读取的记录介质

Similar Documents

Publication Publication Date Title
Kumar et al. Blockchain utilization in healthcare: Key requirements and challenges
Anjum et al. An efficient privacy mechanism for electronic health records
Malin et al. Never too old for anonymity: a statistical standard for demographic data sharing via the HIPAA Privacy Rule
US9230132B2 (en) Anonymization for data having a relational part and sequential part
WO2013088681A1 (ja) 匿名化装置、匿名化方法、並びにコンピュータ・プログラム
US9990515B2 (en) Method of re-identification risk measurement and suppression on a longitudinal dataset
CA3001912A1 (en) System and method for dynamic autonomous transactional identity management
US20210165913A1 (en) Controlling access to de-identified data sets based on a risk of re- identification
El Emam et al. A method for managing re-identification risk from small geographic areas in Canada
US20160306999A1 (en) Systems, methods, and computer-readable media for de-identifying information
O’Neill et al. The risks to patient privacy from publishing data from clinical anesthesia studies
WO2014181541A1 (ja) 匿名性を検証する情報処理装置及び匿名性検証方法
JP5782636B2 (ja) 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム
US20170161519A1 (en) Information processing device, information processing method and recording medium
Yu et al. Spatio-temporal graph learning for epidemic prediction
Wan et al. Using game theory to thwart multistage privacy intrusions when sharing data
JP6747438B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP6127774B2 (ja) 情報処理装置、及び、データ処理方法
WO2016092830A1 (ja) 情報処理装置、情報処理方法、及び、記録媒体
JP2016110472A (ja) 情報処理装置、情報処理法、及び、プログラム
Bonomi et al. Sharing personal ECG time-series data privately
JP2014115911A (ja) 情報推薦装置、情報推薦方法、及び情報推薦プログラム
Monroe et al. Location data and COVID-19 contact tracing: how data privacy regulations and cell service providers work in tandem
JP2016115116A (ja) 情報処理装置、情報処理方法、及びプログラム
WO2016021039A1 (ja) k-匿名化処理システム及びk-匿名化処理方法