JP2016110472A

JP2016110472A - 情報処理装置、情報処理法、及び、プログラム

Info

Publication number: JP2016110472A
Application number: JP2014248690A
Authority: JP
Inventors: 翼高橋; Tasuku Takahashi; 涼介小柳; Ryosuke Koyanagi; 諒古川; Ryo Furukawa
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-12-09
Filing date: 2014-12-09
Publication date: 2016-06-20

Abstract

【課題】隠蔽性又は匿名性のための処理を効率化させる。【解決手段】本発明の情報処理装置は、匿名化の元となる元データと、元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第１の匿名化処理として追加する候補の辺に対し、辺を匿名化マッチンググラフに追加した場合の第１の匿名化の後に実行する第２の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出する匿名性充足評価手段と、充足性スコアを基に候補の辺から匿名化マッチンググラフに追加する辺を選択する辺選択手段と、選択された辺を匿名化マッチンググラフに追加する辺追加手段とを含む。【選択図】図１

Description

本発明は、情報処理に関し、特に、個人の情報（プライバシー情報）を扱う情報処理装置、情報処理方法及びプログラムに関する。

近年、様々なサービスにおいて、個人に関するプライバシー情報（個人情報）が、情報処理装置に蓄積されるようになっている。このようなプライバシー情報として、例えば、健康管理データ、診療履歴、又はレセプト（診療報酬明細書）のような、ヘルスケア（健康管理）に関するデータが、挙げられる。あるいは、プライバシー情報として、移動履歴又は無線アクセスポイントの利用履歴のような、人又は端末の移動又は滞在に関する位置の情報が、挙げられる。例えば、プライバシー情報であるレセプトは、生年、性別、傷病名、及び薬剤名といった属性のデータを含むレコードから構成されたデータセット（集合）として、情報処理装置に、蓄積される。このようなプライバシー情報は、プライバシー保護の観点から、オリジナルな情報（元の情報）内容での公開又は利用されることが、好ましくない。

ここで、生年又は性別のように個人を特徴付け、他の属性との組合せを基に個人を特定する可能性のある属性は、「準識別子」と呼ばれる。また、傷病名又は薬剤名のように、他人に知られたくない属性は、「センシティブ属性（機微情報：ＳＡ（Sensitive Attribute）、又は、ＳＶ（Sensitive Value））」と呼ばれる。なお、名前のように単独で個人を特徴づける属性は、ユーザ識別子（ユーザＩＤ：User Identifier）となる。

このようなプライバシー情報は、プライバシー侵害の懸念がなければ、有益性の高い二次活用をもたらす。ここで、二次活用（二次利用）とは、例えば、プライバシー情報を生成又は蓄積しているサービス事業者とは異なる第三者にプライバシー情報を提供し、その第三者が、プライバシー情報をサービスで利用することである。あるいは、二次活用とは、第三者に対して、プライバシー情報を提供し、分析などのアウトソーシングを依頼することである。プライバシー情報の二次活用は、プライバシー情報の分析又は研究を促進し、分析結果又は研究結果を用いたサービスの強化につながる。したがって、二次活用を基に、第三者も、プライバシー情報の持つ高い有益性を享受することができる。

例えば、第三者として想定し得るものとして、製薬会社がある。製薬会社は、診療情報を基に、薬品の共起関係又は相関関係などを、分析できる。しかし、製薬会社にとって、診療情報を入手することは、一般的に、困難である。しかし、診療情報を用いると、製薬会社は、薬品がどのように利用されているのかを知ることができ、さらに、利用状態を分析することができる。

しかしながら、このようなプライバシー情報を含むデータセット（例えば、診療情報）は、プライバシー侵害の懸念から、積極的には、二次活用がなされていない。

例えば、サービスの利用者を一意に識別するユーザ識別子（ユーザＩＤ）と、１つ以上のセンシティブ情報とを含むレコードを含むデータセットが、サービス提供者の情報処理装置に蓄積されているとする。ここで、ユーザ識別子が付与されたままでセンシティブ情報を含むデータセットが第三者に提供された場合、その第三者は、ユーザ識別子を用いて、サービスの利用者を特定できる。そのため、このような提供では、プライバシー侵害の問題が、発生する可能性がある。

また、ユーザ識別子を取り除くが、準識別子を１つ以上含む複数のレコードを含むデータセットが、第三者に提供された場合について考える。この場合、第三者が、準識別子の組合せに基づいて、個人を特定できてしまう場合がある。すなわち、たとえ、ユーザ識別子を取り除いたデータセットでも、準識別子の組合せに基づいて、ある個人を特定可能な場合、プライバシー侵害が、発生する可能性がある。

このような特性を有するプライバシー情報のデータセットを、本来の有用性をある程度保ちながら、プライバシーを保護した形態に変換する技術が望まれている。このような技術として、匿名化技術（Anonymization）が、知られている（例えば、特許文献１ないし４、非特許文献１及び２を参照）。

特許文献２に記載の技術は、データの粒度を変更する匿名化に関する技術である。また、特許文献３に記載の技術は、データを繰り返し提供する場合の匿名化に関する技術である。また、特許文献４に記載の技術は、データ間の距離を基にした匿名化に関する技術である。

特許文献２ないし４に記載の匿名化は、それぞれ有効であるが、広く用いられている匿名性の指標として“ｋ−匿名性”がある（例えば、非特許文献１及び特許文献１を参照）。

非特許文献１には、広く用いられる匿名性指標である“ｋ−匿名性”が、記載されている。ここで、ｋ−匿名性とは、全てのレコードに対し、匿名化対象のデータセットの中に、同じ準識別子（又は準識別子の組）を有するレコードが、少なくともｋ個以上存在することを保証する指標である。また、匿名化対象のデータセットに、係るｋ−匿名性を充足させる技術は、“ｋ−匿名化”と呼ばれる。つまり、ｋ−匿名化は、同じ準識別子（又は準識別子の組）を有するレコードが、匿名化対象のデータセットの中に少なくともｋ個以上存在するように、対象となるレコードの準識別子を変換する。ここで用いられる変換処理としては、一般化又は切り落とし等の処理が、知られている。一般化処理とは、元の（オリジナルの）詳細な情報を、抽象化された情報に変換する処理である。また、切り落とし処理とは、元の詳細な情報を削除する処理である。

また、特許文献１には、ｋ−匿名化を利用する技術が、記載されている。特許文献１に記載された技術は、ユーザ端末から受信したデータを、暗号化などを用いて変換してから格納し、格納したデータを復号してからｋ−匿名性を満たすよう加工して、サービス提供者のサーバに送信する。

上記のとおり、ｋ−匿名化は、同じ準識別子と関連付けられたレコードの数が、ｋ個以上となることを保証する匿名化である。言い換えると、ｋ−匿名化は、ｋ個以上のレコードを加工し、同一化することに基づいて、個人に対するレコードを、少なくともｋ個よりも少ない候補に絞り込むことができないように加工する。この動作を基に、ｋ−匿名化は、レコードの識別又は特定を困難にする。よって、ｋ−匿名性は、レコードの識別の困難さを表す指標とも言える。

図３は、プライバシー情報の一例を示す図である。図３に示すプライバシー情報は、属性として、名前（Name）、年齢（Age）、郵便番号（Zipcode）、及び病気（Disease）を含む。そして、例えば、名前（Name）の属性が、ユーザ識別子である。年齢（Age）及び郵便番号（Zipcode）の属性が、準識別子である。また、病気（Disease）の属性が、センシティブ属性である。

図４は、図３に示すプライバシー情報を、ｋ＝２としてｋ−匿名化した匿名化後の情報の一例を示す図である。図４に示す匿名化後の情報は、明示的な識別子（ユーザ識別子）である属性の名前（Name）が排除（削除）され、準識別子を加工されることで、ｋ＝２のｋ−匿名性が充足されている。図４では、図３に示すＡＬｉｃｅ、Ｂｏｂ、及びＣａｒｏｌのレコードが、同一の準識別子の組を持つように、準識別子が加工されている。同様に、Ｄａｖｉｄ及びＥｖｅのレコードは、同一の準識別子の組を持つように、準識別子が加工されている。具体的には、図４の匿名化において、属性の年齢（Age）の値は、範囲を表す値に加工されている。また、５つの桁を持つ属性の郵便番号（Zipcode）は、同一の値を持つ桁の値がそのまま残され、異なる値を持つ桁の値が「＊」で置き換えられている。

このように、属性の値は、所定の匿名性を満たすために、曖昧な値に加工される。この属性の値を曖昧な値に加工する動作に基づいて、情報の損失が、生じる。この情報の損失の度合いは、“情報損失”、又は“情報損失量”と呼ばれる。また、情報損失の尺度として、ＮＣＰ（Normalized Certainty Penalty）、ＥＭ（Entropy Measure）、又はＤＭ（Distortion Metric）などの指標が、広く知られている。

ｋ−匿名性以外の匿名性指標として、（ｋ，１）−匿名性（(k,1)-anonymity）、（１，ｋ）−匿名性（(1,k)-anonymity）、（ｋ，ｋ）−匿名性（(k,k)-anonymity）、ｋ−隠蔽性（k-concealment）という指標が、知られている（例えば、非特許文献２を参照）。

これらの匿名性指標は、元の情報であるデータセット（Ｔ）に含まれるレコード（ｔ）と、匿名化後のデータセット（Ｔ^＊）に含まれるレコード（ｔ^＊）とのマッチングに基づく、匿名性の指標である。ここで、ある匿名化作用素Ａを仮定し、その匿名化作用素Ａにおいて、“Ａ（ｔ）⊆ｔ^＊”との関係が成り立つとき、ｔとｔ^＊とは、“マッチする”、又は、ｔとｔ^＊とには、“マッチングが存在する”とする。なお、以下、「データセット」を単に「データ」と呼ぶ場合もある。また、「匿名化後のデータセット」を、単に、「匿名化データセット」又は「匿名化データ」と呼ぶ。なお、以下、匿名化の元となるプライバシー情報は、「元データ」又は「元データ」セットと呼ぶ。なお、元データは、匿名化処理の対象となる。そのため、以下の説明において、元のデータからユーザ識別子を削除した状態のデータも、「元データ」と呼ぶ。

（ｋ，１）−匿名性とは、匿名化データ（Ｔ^＊）の任意のレコード（ｔ^＊）に、ｋ個以上の元データ（Ｔ）のレコード（ｔ）がマッチする（｜｛ｔ｜Ａ（ｔ）⊆ｔ^＊｝｜≧ｋ）ことを保証する指標である。

図７は、図３に示すプライバシー情報を、ｋ＝２の（ｋ，１）−匿名性を充足するように匿名化した場合の、元データと匿名化データとのマッチングの一例を示す図である。

（１，ｋ）−匿名性とは、元データセット（Ｔ）の任意のレコード（ｔ）とｋ個以上の匿名化データ（Ｔ^＊）のレコード（ｔ^＊）とがマッチすることを保証する指標である。

図５は、図３に示すプライバシー情報（元データ）と、図３に示すプライバシー情報をｋ＝２の（１，ｋ）−匿名性を充足するように匿名化した匿名化データとのマッチングの一例を示す図である。図５において、例えば、Ａｌｉｃｅのレコードは、匿名化データの１番目及び３番目のレコードとマッチしている。このように、図５は、各元データのレコードと、ｋ個（ここではｋ＝２）の匿名化データのレコードとが、マッチすることを表している。

図６は、図５におけるマッチングを示すグラフ（匿名化マッチンググラフ）を抜き出して、示した図である。図６に示すように、元データと匿名化データのレコードと間のマッチングは、元データ及び匿名化データの各レコードを頂点とし、マッチングを辺とする二部グラフで表すことができる。以下、この二部グラフを、匿名化マッチンググラフと呼ぶ。

（ｋ，ｋ）−匿名性とは、（ｋ，１）−匿名性と（１，ｋ）−匿名性との両方を、同時に満たすことを保証する指標である。

図８は、図３に示すプライバシー情報を、ｋ＝２の（ｋ，ｋ）−匿名性を充足するように匿名化した場合の、元データと匿名化データとのマッチングの一例を示す図である。

ｋ−隠蔽性とは、（ｋ，１）−匿名性のマッチングを構成する匿名化マッチンググラフの辺が、完全マッチングとなることを保証する指標である。

ここで、完全マッチングとは、マッチングを示す二部グラフの辺の集合が、すべての頂点を接続可能、かつ、端点を共有しない辺の集合となることである。

完全マッチングをより詳細に説明する。二部グラフにおいて、一方のデータを元データとし、他方のデータを匿名化データとする。そして、各レコードを頂点として、マッチングが存在するレコードの頂点間に辺を張り、二部グラフを構成する。ここで、１つの完全マッチングは、元データのレコードと匿名化データのレコードとの全単射となる。言い換えると、ある元データのレコードには、固有の匿名化データのレコードが存在するということである。

非特許文献２に記載の技術は、ｋ−隠蔽性を充足させる匿名化についての技術である。そして、非特許文献２に記載の匿名化は、マッチングに基づく匿名化である。非特許文献２に記載の技術は、まず、元データから、元データと同じ準識別子の組を持つ匿名化データを生成する。そして、非特許文献２に記載の技術は、元データのレコードと匿名化データのレコードとのマッチングに基づいて、完全マッチングの二部グラフを生成する。

この二部グラフに対する辺の追加は、追加された辺の端点となる元データのレコードとマッチングを成り立たせるように、他の端点である匿名化データのレコードを匿名化する操作に相当する。つまり、辺の追加に基づいて、匿名化データは、加工される。その結果、情報損失が、生じる。

非特許文献２に記載の匿名化技術は、次のように、辺を追加する３つのステップを用いて、情報損失が小さくなるように、ｋ−隠蔽性を充足させる。すなわち、非特許文献２に記載の技術は、第一のステップで、辺の追加を用いて、情報損失が小さい（ｋ，１）−匿名性を充足させる。そして、非特許文献２に記載の技術は、第二のステップで、辺の追加を用いて、情報損失が小さい（ｋ，ｋ）−匿名性を充足させる。そして、非特許文献２に記載の技術は、第三のステップで、辺の追加を用いて、情報損失が小さいｋ−隠蔽性を充足させる。

特開２０１１−１８０８３９号公報特開２０１２−０２２３１５号公報特開２００７−２１９６３６号公報国際公開第２０１２／０６３５４６号

Latanya Sweeney, "k-Anonymity: A Model for Protecting Privacy", International Journal on Uncertainty, Fussiness and Knowledge-based Systems, Volume 10, Issue 05, pp.555-570, October 2002. Tamir Tassa, Arnon Mazza and Aristides Gionis, "k-Concealment: An Alternative Model of k-Type Anonymity", Transactions on Data Privacy, 5, pp. 189-222, 2012.

非特許文献２に記載の技術は、第一のステップにおいて、第二のステップにおける（ｋ，ｋ）−匿名性の充足性について、考慮していない。そのため、第一のステップで追加された辺が、第二のステップにおける（ｋ，ｋ）−匿名性の充足に不要である場合がある。

図９と及び図１０は、それぞれ、ｋ＝２の場合の（ｋ，１）−匿名性を満たす匿名化マッチンググラフの一例を示す図である。

図９は、元データのレコードに張られている辺の数に偏りが大きい場合の（ｋ，１）−匿名性を満たす匿名化マッチンググラフの一例を示す。図１０は、元データのレコードに張られている辺の数に偏りが小さい場合の（ｋ，１）−匿名性を満たす匿名化マッチンググラフの一例を示す。なお、頂点（レコード）から出る辺の数を“次数”と呼ぶ。

図９に示す匿名化マッチンググラフに対して、ｋ＝２の（ｋ，ｋ）−匿名性を満たすように辺を追加することを考える。この場合、図の上から３番目、４番目、及び５番目のレコードに、それぞれに、１つずつの辺の追加が必要である。つまり、合計３本の辺の追加が、必要である。

次に、図１０に示す匿名化マッチンググラフに対して、ｋ＝２の（ｋ，ｋ）−匿名性（ｋ＝２）を満たすように辺を追加することを考える。この場合、図の上から５番目のレコードに、１つの辺の追加が必要である。つまり、合計１本の辺の追加が、必要である。

図９に示す匿名化マッチンググラフでは、図の上から１番目のレコードに５本の辺が張られている。この辺の数（５）は、ｋ−匿名性のｋの値（２）と比べ、かなり多い値である。ｋ＝２の（ｋ，１）−匿名性及び（ｋ，ｋ）−匿名性の充足という観点では、各頂点からは、２本の辺が、出ていればよい。そのため、図９の上から１番目のレコードには、過剰な辺が、追加されていることがわかる。

もし、第１のステップ（（ｋ，１）−匿名性の充足ステップ）において、第２のステップにおける（ｋ，ｋ）−匿名性の充足性についても考慮した処理を実行した場合、図１０に示すような（ｋ，ｋ）−匿名性の充足度が高い匿名化マッチンググラフが生成できる。つまり、第１のステップにおいて、第２のステップ考慮した処理を実行した場合、第２のステップにおいて追加する辺の数を削減することが、可能である。

なお、第１のステップである（ｋ，１）−匿名性の充足ステップで追加される辺の数は、すべての匿名化データのレコードに対してｋ本となるように追加するため、一定である。

これに対し、第２のステップである（ｋ，ｋ）−匿名性の充足ステップで必要な辺の追加数は、削減可能である。

換言すると、非特許文献２に記載の技術は、（ｋ，１）−匿名性の充足ステップ（第１のステップ）及び（ｋ，ｋ）−匿名性の充足ステップ（第２のステップ）に基づいて、（ｋ，ｋ）−匿名性を満たす匿名化を行う。その処理において、非特許文献２に記載の技術は、第１のステップにおける元データのレコードと匿名化データのレコードとのマッチング（辺の追加）において、第２のステップの（ｋ，ｋ）−匿名性の充足性を考慮しない。そのため、非特許文献２に記載の技術は、第２のステップである（ｋ，ｋ）−匿名性の充足ステップ以降では不要となる辺を、第１のステップで追加する場合がある。あるいは、非特許文献２に記載の技術は、第２のステップで追加する辺を削減するように、第１のステップにおいて辺を追加することができない。そのため、非特許文献２に記載の技術は、第２のステップである（ｋ，ｋ）−匿名性を満たす匿名化の効率が悪くなるという問題点があった。

なお、特許文献１ないし４及び非特許文献１に記載の技術は、匿名化の方法が異なるため、上記問題点を解決できない。

本発明の目的は、上記の問題点を解決し、ｋ−隠蔽性を実現するための第２のステップである（ｋ，ｋ）−匿名性を効率化する、つまり、ｋ−隠蔽性を効率化する情報処理装置、情報処理方法及びプログラムを提供することにある。

本発明の一形態における情報処理装置は、匿名化の元となる元データと、元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第１の匿名化処理として追加する候補の辺に対し、辺を匿名化マッチンググラフに追加した場合の第１の匿名化の後に実行する第２の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出する匿名性充足評価手段と、充足性スコアを基に候補の辺から匿名化マッチンググラフに追加する辺を選択する辺選択手段と、選択された辺を匿名化マッチンググラフに追加する辺追加手段とを含む。

本発明の一形態におけるデータ処理方法は、匿名化の元となる元データと、元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第１の匿名化処理として追加する候補の辺に対し、辺を匿名化マッチンググラフに追加した場合の第１の匿名化の後に実行する第２の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出し、充足性スコアを基に候補の辺から匿名化マッチンググラフに追加する辺を選択し、選択せれた辺を匿名化マッチンググラフに追加する。

本発明の一形態におけるプログラムは、匿名化の元となる元データと、元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第１の匿名化処理として追加する候補の辺に対し、辺を匿名化マッチンググラフに追加した場合の第１の匿名化の後に実行する第２の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出する処理と、充足性スコアを基に候補の辺から匿名化マッチンググラフに追加する辺を選択する処理と、選択せれた辺を匿名化マッチンググラフに追加する処理とをコンピュータに実行させる。

本発明に基づけば、ｋ−隠蔽性又は（ｋ，ｋ）−匿名性の処理を効率化させることができるとの効果を奏することができる。

図１は、本発明における第１の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。図２は、第１の実施の形態に係る情報処理装置の構成の変形例の一例を示すブロック図である。図３は、プライバシー情報の一例を示す図である。図４は、図３に示すプライバシー情報の匿名化後の情報の一例を示す図である。図５は、図３に示すプライバシー情報と、（１，ｋ）−匿名性を充足するように匿名化した匿名化データとのマッチングの一例を示す図である。図６は、図５における、匿名化マッチンググラフを示す図である。図７は、図３に示すプライバシー情報と、（ｋ，１）−匿名性を充足するように匿名化した匿名化データとのマッチングの一例を示す図である。図８は、図３に示すプライベート情報と、（ｋ，ｋ）−匿名性を充足するように匿名化した匿名化データとのマッチングの一例を示す図である。図９は、（ｋ，１）−匿名性を満たす匿名化マッチンググラフの一例を示す図である。図１０は、（ｋ，１）−匿名性を満たす匿名化マッチンググラフの一例を示す図である。図１１は、第１の実施の形態に係る情報処理装置の動作の一例を示すフローチャートである。図１２は、第１の実施の形態に説明に用いる情報処理装置が受信する匿名化マッチンググラフの一例を示す図である。図１３は、追加のする辺の候補である候補辺集合の一例を示す図である。図１４は、選択された辺が追加された匿名化マッチンググラフを示す図である。図１５は、選択された辺がさらに追加された匿名化マッチンググラフを示す図である。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。

なお、各図面は、本発明の実施の形態を説明するものである。ただし、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明を、省略する場合がある。

また、以下の説明に用いる図面において、本発明の説明に関係しない部分の構成については、記載を省略し、図示しない場合もある。

また、以下の説明では、本発明の実施の形態が扱うグラフの一例として、二部グラフを用いる。ただし、これは、本発明の実施の形態が扱うグラフを二部グラフに制限するものではない。本発明の実施の形態は、以下で説明する機能を実現するグラフであれば、二部グラフ以外のグラフを用いてもよい。

また、以下の説明では、本発明の実施の形態が扱う匿名化の一例として、ｋ−隠蔽性、特に、ｋ−隠蔽性に関連する（ｋ，１）−匿名性及び（ｋ，ｋ）−匿名性を用いて説明する。ただし、これは、本発明の実施の形態が扱う匿名性を上記に限定するものではない。本発明の実施形態は、上記の匿名性に限らず、複数の匿名性の処理を実行する匿名性であれば、特に制限はない。また、本発明の実施の形態は、後で処理する匿名性を考慮して前の匿名性を実行すれば、前の匿名性処理と後の匿名性の処理とが、直接的に連続する匿名性の処理に限る必要はない。例えば、本発明の実施の形態は、ｋ−隠蔽性の第３ステップを考慮して第１のステップの匿名性を処理してもよい。

また、以下の説明では、本発明の実施の形態が扱うデータセットとして、５つのレコードを含むデータセットを用いる。ただし、これは、本発明の実施の形態が扱うデータセットを制限するものではない。本発明の実施の形態は、５未満のレコード、又は、５を超えるレコードを含むデータセットを用いてもよい。

（第１の実施の形態）
図１は、本発明における第１の実施の形態に係る情報処理装置１０の構成の一例を示すブロック図である。

情報処理装置１０は、元データと匿名化データとマッチングを表す匿名化マッチンググラフを処理対象とする。より詳細には、情報処理装置１０は、所定の匿名性（匿名化強度）を充足するように、二部グラフ形式で表された匿名化マッチンググラフにおける辺を処理し、匿名化マッチンググラフを更新する。

そのため、図１に示すように、情報処理装置１０は、匿名性充足評価部１１と、辺選択部１２と、辺追加部１３とを含む。

辺選択部１２は、ｋ−隠蔽性における所定の匿名性（匿名化強度）を充足させるために、匿名化マッチンググラフに追加する辺を選択する。より詳細には、辺選択部１２は、後ほど説明する匿名性充足評価部１１が算出する充足性スコアを基に、辺を選択する。

匿名性充足評価部１１は、匿名化マッチンググラフに辺を追加することに基づく、匿名性の充足の変化の度合いを評価する。以下、変化の度合いを示す値を、「充足性スコア」と呼ぶ。つまり、匿名性充足評価部１１は、辺の追加に基づく充足性スコアを算出する。

辺追加部１３は、辺選択部１２が選択した辺を匿名化マッチンググラフに追加する。

なお、情報処理装置１０における匿名化の対象のデータセット（元データ）は、オリジナルな情報内容を公開又は利用されることが好ましくない属性（センシティブ属性）を含むデータセットである。このデータセットは、１つ以上の属性を含むレコードの集合である。そして、レコードは、少なくとも１つ以上のセンシティブ属性を含む。情報処理装置１０は、レコードが含むセンシティブ情報に関連する個人を特定されないようにデータセット（元データ）を匿名化する。既に説明した通り、匿名化されたデータが、匿名化データである。

次に、図面を参照して、情報処理装置１０の各構成の詳細について説明する。なお、以下の説明では、（ｋ，１）−匿名性及び（ｋ，ｋ）−匿名性のｋとして、ｋ＝２を用いる。つまり、情報処理装置１０は、第１のステップとして、ｋ＝２の（ｋ，１）−匿名性を充足させるように匿名化を実行し、第２のステップとして、ｋ＝２の（ｋ，ｋ）−匿名性を充足させるように匿名化を実行する。言い換えると、匿名化強度が、「２」である。

ただし、本説明に用いるｋ＝２は、匿名性（匿名化）の一例である。本実施の形態に係る情報処理装置１０は、ｋの値として、２より大きな値を用いてもよい。

図１２は、本実施の形態の説明に用いる情報処理装置１０が処理の対象として受信する匿名化マッチンググラフの一例を示す図である。図１２において、匿名化データの上から１番目ないし３番目のレコード（ｔ^＊ _１，ｔ^＊ _２，及びｔ^＊ _３）は、既に、匿名化強度である２（ｋ＝２）本の辺が張られている。そのため、情報処理装置１０は、第１のステップにおいて、１番目ないし３番目のレコードを、処理しない。

次に、第１のステップの処理として、ｔ^＊ _４を処理対象とした場合について説明する。

ここで、元データのレコードと匿名化データのレコードとの間の可能なすべての辺の候補を、全マッチング候補辺集合Ｅとする。また、全マッチング候補辺集合Ｅのうち、匿名化マッチンググラフに張られていない辺の集合を、候補辺集合Ｃとする。また、辺は、変数「ｅ」及び両端の頂点を用いて示す。例えば、頂点ｔ_１と頂点ｔ^＊ _１との間の辺は、辺ｅ（ｔ_１，ｔ^＊ _１）である。

辺選択部１２は、匿名化マッチンググラフと匿名化強度とを基に、（ｋ，１）−匿名性を充足させるために匿名化データのレコードｔ^＊から元データのレコードに対して追加する辺を選択する。

そのため、まず、辺選択部１２は、候補辺集合Ｃから、処理対象であるｔ^＊を端点とする辺の部分集合である候補辺集合Ｃ［ｔ^＊］を抽出する。

図１３は、追加する辺の候補である候補辺集合Ｃ［ｔ^＊ _４］の一例を示す図である。辺選択部１２は、ｔ^＊ _４の候補辺集合Ｃ［ｔ^＊ _４］として、図１３において破線で示す、辺ｅ（ｔ_１，ｔ^＊ _４）、辺ｅ（ｔ_２，ｔ^＊ _４）、辺ｅ（ｔ_３，ｔ^＊ _４）、及び辺ｅ（ｔ_５，ｔ^＊ _４）を抽出する。つまり、候補辺集合Ｃ［ｔ^＊ _４］は、Ｃ［ｔ^＊ _４］＝｛（ｔ_１，ｔ^＊ _４），（ｔ_２，ｔ^＊ _４），（ｔ_３，ｔ^＊ _４），（ｔ_５，ｔ^＊ _４）｝となる。

次に、辺選択部１２は、抽出した候補辺集合Ｃ［ｔ^＊ _４］を匿名性充足評価部１１に送る。

匿名性充足評価部１１は、候補辺集合に含まれる各辺に対する、（ｋ，ｋ）−匿名性の充足の度合い（充足性スコア）を算出する。

次に、匿名性充足評価部１１における充足性スコアの算出については、詳細に説明する。

匿名性充足評価部１１は、候補辺集合Ｃ［ｔ^＊ _４］に含まれる全ての辺ｃ（ｃ∈Ｃ［ｔ^＊ _４］）に対して、充足性スコアｓ（ｃ）として、第２のステップ（（ｋ，ｋ）−匿名性のステップ）のおける匿名性の充足の程度を示す値を算出する。より具体的には、匿名性充足評価部１１は、例えば、充足性スコアｓ（ｃ）として、各辺ｃを匿名化マッチンググラフに追加した場合の（ｋ，ｋ）−匿名性の充足に近づく度合いを算出する。

ここで、“（ｋ，ｋ）−匿名性の充足に近づく”とは、元データのレコード及び匿名化データのレコードから出る辺の数（次数）が、それぞれ、ｋに近づくことである。ここで、本実施の形態の第１のステップである（ｋ，１）−匿名性の充足ステップは、匿名化データのレコードの次数をｋ以上にする。そのため、（ｋ，ｋ）−匿名性に近づく度合いの高い辺とは、元データのレコードの次数がｋに近くなる辺である。

したがって、充足性スコアｓ（ｃ）は、辺ｃ（ｃ∈Ｃ［ｔ^＊ _４］）の端点である元データのレコード（ｔ）の次数（ｄ［ｔ］）の関数である。次数は、匿名性の程度を示す情報でもある。

本実施の形態が用いる充足性スコアｓ（ｃ）の算出方法は、上記のとおり元データのレコードの次数がｋに近くなることを表すことができれば、特に制限はない。例えば、匿名性充足評価部１１は、充足性スコアｓ（ｃ）として、次の数式１に示す関数を用いてもよい。なお、数式１において、αは、εより大きい所定の数値である。

［数式１］

数式１の充足性スコアｓ（ｃ）は、次数ｄ［ｔ］がｋに満たない端点を持つ辺を重視し、既に満たしている辺を軽視するような値を算出する。

匿名化データｔ^＊ _４に対する候補辺集合Ｃ［ｔ^＊ _４］＝｛（ｔ_１，ｔ^＊ _４），（ｔ_２，ｔ^＊ _４），（ｔ_３，ｔ^＊ _４），（ｔ_５，ｔ^＊ _４）｝の各端点の次数は、それぞれ、ｄ［ｔ_１］＝２、ｄ［ｔ_２］＝２、ｄ［ｔ_３］＝２、及びｄ［ｔ_５］＝１である。

ここで、一例として、数式１におけるα＝２、ε＝０.５とする。なお、ｋ＝２である。この場合、各辺の充足性スコアｓ（ｃ）は、それぞれ、次の通りである。
ｓ（辺ｅ（ｔ_１，ｔ^＊ _４））＝１
ｓ（辺ｅ（ｔ_２，ｔ^＊ _４））＝１
ｓ（辺ｅ（ｔ_３，ｔ^＊ _４））＝１
ｓ（辺ｅ（ｔ_５，ｔ^＊ _４））＝２
つまり、辺ｅ（ｔ_５，ｔ^＊ _４）の充足性スコアが、最も大きな値である。

なお、匿名性充足評価部１１は、充足性スコアｓ（ｃ）として、次に示す数式２を用いてもよい。

［数式２］

数式２は、次数ｄ［ｔ］がｋに満たない辺を重視するようなバイアスを掛ける。つまり、数式２は、次数に加え、第１又は第２のステップにおける匿名性に関する情報（ｋ）を用いてスコアを算出する。数式２に基づく充足性スコアｓ（ｃ）を用いる場合、次数ｄ［ｔ］がｋに満たない辺が、重視される。つまり、辺選択部１２は、次数ｄ［ｔ］がｋに満たない辺を、選択しやくなる。

なお、具体的なＣ［ｔ^＊ _４］＝｛（ｔ_１，ｔ^＊ _４），（ｔ_２，ｔ^＊ _４），（ｔ_３，ｔ^＊ _４），（ｔ_５，ｔ^＊ _４）｝の各端点の充足性スコアｓ（ｃ）の各値は、それぞれ、次の通りある。
ｓ（辺ｅ（ｔ_１，ｔ^＊ _４））＝ｅｘｐ（０）＝１
ｓ（辺ｅ（ｔ_２，ｔ^＊ _４））＝１
ｓ（辺ｅ（ｔ_３，ｔ^＊ _４））＝１
ｓ（辺ｅ（ｔ_５，ｔ^＊ _４））＝ｅｘｐ（１）≒２．７
数式２においても、数式１と同様に、辺ｅ（ｔ_５，ｔ^＊ _４）の充足性スコアが、最も大きな値である。

辺選択部１２は、上記のように、匿名性充足評価部１１が算出したスコアに基づいて、候補辺集合Ｃ［ｔ^＊］から、追加する辺（β）を選択する。

辺追加部１３は、辺選択部１２が選択した辺（β）を、匿名化マッチンググラフに追加する。辺追加部１３は、追加した辺（β）を、候補辺集合Ｃから取り除く。

図１４は、選択された辺ｅ（ｔ_５，ｔ^＊ _４）が追加された匿名化マッチンググラフを示す図である。

同様に、第１のステップの処理として、ｔ^＊ _５を処理対象とした場合、情報処理装置１０は、辺ｅ（ｔ_４、ｔ^＊ _５）を選択する。

図１５は、選択された辺ｅ（ｔ_４、ｔ^＊ _５）が、さらに追加された評価マッチンググラフを示す図である。

この場合、図１５に示すように、匿名化マッチンググラフは、第１のステップとして（ｋ，１）−匿名性を充足するステップを終了した時点で、第２のステップとしての（ｋ，ｋ）−匿名性を充足している。つまり、情報処理装置１０は、（ｋ，ｋ）−匿名性の処理を省略できる。つまり、情報処理装置１０は、（ｋ，ｋ）−匿名性の処理の効率化を実現できている。

次に、情報処理装置１０のｋ−隠蔽性の処理のステップ１の動作について、図面を参照して説明する。

図１１は、第１の実施の形態に係る情報処理装置１０におけるｋ−隠蔽性の処理のステップ１の動作の一例を示すフローチャートである。

図１１において、Ｎは、レコードの数である。また、ｉ及びｊは、繰り返し処理における制御変数である。

ｉは、レコードに対する制御変数である。つまり、情報処理装置１０は、ｉ＝０で最初のレコードを処理し、ｉが１増えると、次にレコードの処理を実行する。情報処理装置１０は、制御変数ｉを用いて、匿名化データの全てのレコードを処理する（ステップＳ１０１〜Ｓ１０１Ｅ）。ただし、情報処理装置１０は、処理する必要がないレコードの処理を省略してもよい。

ｊは、匿名化に対する制御変数である。情報処理装置１０は、ｊの値を０からｋ−１まで増やしながら、匿名性を満足するように以下で説明する処理を繰り返す（ステップＳ１０２〜Ｓ１０２Ｅ）。

情報処理装置１０は、これらの繰り返しの制御を、いずれかの構成、又は、図示しない制御部を用いて、処理すれば良い。

各処理は、次のとおりである。

辺選択部１２は、匿名化マッチンググラフを基に、匿名化データのレコードｔ^＊ _ｉから元データのレコードに対して追加する辺（ｃ）の候補である候補辺集合Ｃを抽出する。

そして、辺選択部１２は、候補辺集合Ｃから、レコードｔ^＊ _ｉを端点とする辺候補集合Ｃ［ｔ^＊ _ｉ］を抽出する（ステップＳ１０３）。

次に、匿名性充足評価部１１は、候補辺集合Ｃ［ｔ^＊ _ｉ］に含まれる各辺ｃに対して、辺ｃを匿名化マッチンググラフに追加することに基づく（ｋ，ｋ）−匿名性の充足に近づく度合いとして、充足性スコアｓ（ｃ）を計算する（ステップＳ１０４）。つまり、匿名性充足評価部１１は、匿名性の充足を評価する。

次に、辺選択部１２は、匿名性充足評価部１１が算出した充足性スコアｓ（ｃ）に基づいて、候補辺集合Ｃ［ｔ^＊］から、匿名化マッチンググラフに追加する辺（β）を選択する（ステップＳ１０５）。

辺追加部１３は、辺選択部１２が選択した辺（β）を匿名化マッチンググラフに追加する（ステップＳ１０６）。辺追加部１３は、追加した辺（β）を、候補辺集合Ｃから取り除く。

情報処理装置１０は、すべての匿名化レコードに対し、匿名化強度を充足する辺を張るまで、上記の動作を繰り返す。

次に、第１の実施の形態の効果について説明する。

第１の実施形態に係る情報処理装置１０は、ｋ−隠蔽性又は（ｋ，ｋ）−匿名性の処理を効率化させることができるとの効果を奏することができる。つまり、本実施の形態に係る情報処理装置１０は、ｋ−隠蔽性の充足又は（ｋ，ｋ）−匿名性を高速に充足させるとの効果を奏することができる。

その理由は、次のとおりである。

第１の実施の形態に係る情報処理装置１０は、ｋ−隠蔽性又は（ｋ，ｋ）−匿名性を充足させる処理における第１の匿名性（（ｋ，１）−匿名性）を充足させるステップにおいて、その後に実行する第２の匿名性（（ｋ，ｋ）−匿名性）の充足性を考慮する。つまり、情報処理装置１０は、第２の匿名性（（ｋ，ｋ）−匿名性）の充足度合いがより高くなるように、第１の匿名性（（ｋ，１）−匿名性）を充足するように匿名化マッチンググラフの更新を実行するためである。

より詳細には、次のとおりである。

辺選択部１２が、匿名化マッチンググラフから、候補辺集合を抽出する。匿名性充足評価部１１が、第２ステップの匿名性に基づいて、各辺の充足性スコアを算出する。辺選択部１２が、充足性スコアを基に、匿名化マッチンググラフに追加する辺を選択する。つまり、辺選択部１２は、第２のステップにも適した辺を選択する。そして、辺追加部１３が、選択された辺を匿名化マッチンググラフに追加するためである。

［変形例］
以上の説明した情報処理装置１０は、次のように構成される。

例えば、情報処理装置１０の各構成部は、ハードウェア回路で構成されても良い。

また、情報処理装置１０は、各構成部が、ネットワークを介して接続した複数の装置を用いて、構成されても良い。

また、情報処理装置１０は、複数の構成部を１つのハードウェアで構成しても良い。

また、情報処理装置１０は、ＣＰＵ（Central Processing Unit）と、ＲＯＭ（Read Only Memory）と、ＲＡＭ（Random Access Memory）とを含むコンピュータ装置として実現してもよい。情報処理装置１０は、上記構成に加え、さらに、入出力接続回路（ＩＯＣ：Input / Output Circuit）と、ネットワークインターフェース回路（ＮＩＣ：Network Interface Circuit）とを含むコンピュータ装置として実現しても良い。

図２は、本変形例に係る情報処理装置６００の構成の一例を示すブロック図である。

情報処理装置６００は、ＣＰＵ６１０と、ＲＯＭ６２０と、ＲＡＭ６３０と、内部記憶装置６４０と、ＩＯＣ６５０と、ＮＩＣ６８０とを含み、コンピュータ装置を構成している。

ＣＰＵ６１０は、ＲＯＭ６２０からプログラムを読み込む。そして、ＣＰＵ６１０は、読み込んだプログラムに基づいて、ＲＡＭ６３０と、内部記憶装置６４０と、ＩＯＣ６５０と、ＮＩＣ６８０とを制御する。そして、ＣＰＵ６１０を含むコンピュータは、これらの構成を制御し、図１に示す、匿名性充足評価部１１と、辺選択部１２と、辺追加部１３としての各機能を実現する。

ＣＰＵ６１０は、各機能を実現する際に、ＲＡＭ６３０又は内部記憶装置６４０を、プログラムの一時記憶として使用しても良い。

また、ＣＰＵ６１０は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体７００が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでも良い。あるいは、ＣＰＵ６１０は、ＮＩＣ６８０を介して、図示しない外部の装置からプログラムを受け取り、ＲＡＭ６３０に保存して、保存したプログラムを基に動作しても良い。

ＲＯＭ６２０は、ＣＰＵ６１０が実行するプログラム及び固定的なデータを記憶する。ＲＯＭ６２０は、例えば、Ｐ−ＲＯＭ（Programmable-ROM）又はフラッシュＲＯＭである。

ＲＡＭ６３０は、ＣＰＵ６１０が実行するプログラム及びデータを一時的に記憶する。ＲＡＭ６３０は、例えば、Ｄ−ＲＡＭ（Dynamic-RAM）である。

内部記憶装置６４０は、情報処理装置６００が長期的に保存するデータ及びプログラムを記憶する。また、内部記憶装置６４０は、ＣＰＵ６１０の一時記憶装置として動作しても良い。内部記憶装置６４０は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Solid State Drive）又はディスクアレイ装置である。

ここで、ＲＯＭ６２０と内部記憶装置６４０は、不揮発性（non-transitory）の記憶媒体である。一方、ＲＡＭ６３０は、揮発性（transitory）の記憶媒体である。そして、ＣＰＵ６１０は、ＲＯＭ６２０、内部記憶装置６４０、又は、ＲＡＭ６３０に記憶されているプログラムを基に動作可能である。つまり、ＣＰＵ６１０は、不揮発性記憶媒体又は揮発性記憶媒体を用いて動作可能である。

ＩＯＣ６５０は、ＣＰＵ６１０と、入力機器６６０及び表示機器６７０とのデータを仲介する。ＩＯＣ６５０は、例えば、ＩＯインターフェースカード又はＵＳＢ（Universal Serial Bus）カードである。

入力機器６６０は、情報処理装置６００の操作者からの入力指示を受け取る機器である。入力機器６６０は、例えば、キーボード、マウス又はタッチパネルである。

表示機器６７０は、情報処理装置６００の操作者に情報を表示する機器である。表示機器６７０は、例えば、液晶ディスプレイである。

ＮＩＣ６８０は、ネットワークを介した図示しない外部の装置とのデータのやり取りを中継する。ＮＩＣ６８０は、例えば、ＬＡＮ（Local Area Network）カードである。

このように構成された情報処理装置６００は、情報処理装置１０と同様の効果を得ることができる。

その理由は、情報処理装置６００のＣＰＵ６１０が、プログラムに基づいて情報処理装置１０と同様の機能を実現できるためである。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成及び詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１０情報処理装置
１１匿名性充足評価部
１２辺選択部
１３辺追加部
６００情報処理装置
６１０ＣＰＵ
６２０ＲＯＭ
６３０ＲＡＭ
６４０内部記憶装置
６５０ＩＯＣ
６６０入力機器
６７０表示機器
６８０ＮＩＣ
７００記憶媒体

Claims

匿名化の元となる元データと、前記元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第１の匿名化処理として追加する候補の辺に対し、前記辺を前記匿名化マッチンググラフに追加した場合の前記第１の匿名化の後に実行する第２の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出する匿名性充足評価手段と、
前記充足性スコアを基に前記候補の辺から前記匿名化マッチンググラフに追加する辺を選択する辺選択手段と、
前記選択された辺を前記匿名化マッチンググラフに追加する辺追加手段と
を含む情報処理装置。
前記匿名性充足評価手段が、
前記匿名化マッチンググラフおける前記元データ側の端点から出る辺の数である次数の値に基づいて前記充足性スコアを算出する
請求項１かに記載の情報処理装置。
前記匿名性充足評価手段が、
前記第１又は第２の匿名性に関する情報に基づいて充足性スコアを算出する
請求項２に記載の情報処理装置。
前記辺選択手段が、
前記追加する候補の辺を選択する
請求項１ないし３のいずれか１項に記載の情報処理装置。
前記第１の匿名性としてｋ−隠蔽性における（ｋ，１）−匿名性を、第２の匿名性として（ｋ，ｋ）−匿名性を用いる
請求項１ないし４のいずれか１項に記載の情報処理装置。
匿名化の元となる元データと、前記元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第１の匿名化処理として追加する候補の辺に対し、前記辺を前記匿名化マッチンググラフに追加した場合の前記第１の匿名化の後に実行する第２の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出し、
前記充足性スコアを基に前記候補の辺から前記匿名化マッチンググラフに追加する辺を選択し、
前記選択せれた辺を前記匿名化マッチンググラフに追加する
情報処理方法。
匿名化の元となる元データと、前記元データの匿名化後のデータである匿名化データとを匿名化の関係を示す匿名化マッチンググラフに第１の匿名化処理として追加する候補の辺に対し、前記辺を前記匿名化マッチンググラフに追加した場合の前記第１の匿名化の後に実行する第２の匿名化における匿名性の充足の度合いを示す値である充足性スコアを算出する処理と、
前記充足性スコアを基に前記候補の辺から前記匿名化マッチンググラフに追加する辺を選択する処理と、
前記選択せれた辺を前記匿名化マッチンググラフに追加する処理と
をコンピュータに実行させるプログラム。