JP2017027137A - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP2017027137A
JP2017027137A JP2015142074A JP2015142074A JP2017027137A JP 2017027137 A JP2017027137 A JP 2017027137A JP 2015142074 A JP2015142074 A JP 2015142074A JP 2015142074 A JP2015142074 A JP 2015142074A JP 2017027137 A JP2017027137 A JP 2017027137A
Authority
JP
Japan
Prior art keywords
anonymization
attribute
data
weight
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015142074A
Other languages
English (en)
Inventor
諒 古川
Ryo Furukawa
諒 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015142074A priority Critical patent/JP2017027137A/ja
Publication of JP2017027137A publication Critical patent/JP2017027137A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】匿名化後データを用いる処理に対する、属性の匿名化に基づく影響を低減する。【解決手段】情報処理装置100は、匿名化の対象である属性を含む匿名化前データにおいて、属性を匿名化して生成される匿名化後データを用いた処理に対する、属性の匿名化に基づく影響の程度を示す重みを算出する属性選択部120と、重みに基づいて匿名化の対象となる属性を選択し、匿名化前データに含まれる選択した属性を匿名化して匿名化後データを生成する匿名化部130とを含む。【選択図】図1

Description

本発明は、情報の処理に関し、特に、情報を匿名化する情報処理装置、情報処理方法、及び、プログラムに関する。
近年、消費者(個人)に関連する属性を含む情報(パーソナル情報)を分析し、消費者(個人)の将来の行動を予測する試み(パーソナル情報の分析)が広がっている。ここで、パーソナル情報が含む属性とは、例えば、年齢、性別、住所、購買情報(例えば、購買行動の履歴)、又は、位置情報(例えば、GPS(Global Positioning System)を用いて測定された位置情報)である。また、消費者の将来の行動の予測とは、例えば、購買予測、又は、移動予測である。
パーソナル情報を分析する場合、パーソナル情報の保護(プライバシー保護)が、問題となる。例えば、パーソナル情報の分析する分析者が、パーソナル情報を保有する保有者と異なる場合、パーソナル情報は、保有者とは異なる第三者(分析者)に公開されることになる。パーソナル情報は、個人のプライバシーに関する情報(例えば、上記の属性)を含む。そのため、保有者が、第三者(分析者)にパーソナル情報を公開する場合、保有者は、パーソナル情報を、個人に関するプライバシーに関する情報が保護された状態として、公開することが望ましい。
このようなパーソナル情報を保護する目的のため、個人を特定できないようにパーソナル情報を加工する技術として、匿名化技術が、用いられている(例えば、特許文献1参照)。
特許文献1に記載された技術は、受信した情報(データ)に含まれるプライバシーに関する情報の評価を基に、情報(データ)を匿名化する。また、特許文献1に記載された技術は、受信した情報(データ)を、ユーザの識別情報(例えば、識別子)を除いた情報に変換する。
ここで、情報(データ)を匿名化する情報処理装置は、一般的に、所定の匿名性の方針に基づいて、情報(データ)を匿名化する(例えば、非特許文献1を参照)。非特許文献1に開示されている「k−匿名性」は、広く用いられている匿名性の方針である。
「k−匿名性」とは、パーソナル情報において、同じ準識別子の値又は値の組みを持つパーソナル情報が「k」個以上含まれることを保証するように、パーソナル情報を匿名化する方針である。
「準識別子」とは、パーソナル情報に含まれる属性であり、単一では個人を特定できない属性(例えば、年齢又は性別)であるが、他の属性との組合せを基に個人の特定できる属性である。
また、「k−匿名化」とは、「k−匿名性」を満たすように情報(データ)を加工する匿名化技術である。
k−匿名化の手法は、多く提案されている。例えば、非特許文献1に記載された技術(Mondrian Multidimensional)は、対象となるパーソナル情報を、パーソナル情報に含まれる匿名化対象である準識別子に関して、複数のグループに分割する。そして、非特許文献1に記載された技術は、準識別子の分割を、逐次的に繰り返して、グループを細分化する。そして、非特許文献1に記載された技術は、k−匿名性を満足するグループ群(以下、各グループを匿名化グループと呼ぶ)を構築する。そして、非特許文献1に記載された技術は、各匿名化グループにおいて準識別子(又は準識別子の組合せ)が同一の値を持つように、準識別子の値を汎化(例えば、一つの値を示すデータから範囲を表すデータに変換)する手法である。
パーソナル情報の保有者は、パーソナル情報にk−匿名化を用いることで、パーソナル情報を、個人を特定できないデータ(匿名化後データ)に変換し、変換後のデータを分析者に公開する。分析者は、匿名化されたパーソナル情報を分析する。
なお、本発明における実施形態の説明に用いる技術であるLasso(Least absolute shrinkage and selection operator)に関連する文献を、非特許文献2として、記載しておく。
特開2011−180839
K. LeFevre, D.J. DeWitt, R. Ramakrishnan, "Mondrian Multidimensional K-Anonymity", Proceedings of the 22nd International Conference on Data Engineering, 2006. (ICDE '06.), 03-07 April 2006 R. Tibshirani, "Regression shrinkage and selection via the lasso", Journal of the Royal Statistical Society. Series B (Methodological), Vol. 58, No. 1. (1996), pp.267-288.
匿名化は、一般的に、匿名化において汎化される情報(例えば、準識別子)の情報量を低下させる操作である。そのため、匿名化されたパーソナル情報を用いた分析は、匿名化されていないパーソナル情報を用いた分析と比較すると、情報量の低下の影響を受ける。例えば、匿名化されたパーソナル情報を用いた分析は、匿名化されていないパーソナル情報を用いた分析と比較すると、分析の結果(例えば、予測)の精度が低下する可能性がある。
そのため、匿名化を処理する情報処理装置は、匿名化後のパーソナル情報を用いた分析に与える影響を考慮して、準識別子を匿名化することが望ましい。より具体的には、匿名化を処理する情報処理装置は、匿名化後のパーソナル情報を用いた分析に与える影響が大きな情報における汎化の程度を抑えるように、パーソナル情報を匿名化することが望ましい。
しかし、特許文献1及び非特許文献1に記載された匿名化技術は、匿名化処理に基づくパーソナル情報の準識別子(属性)の汎化が、匿名化後のパーソナル情報を用いた分析に与える影響を考慮していない。つまり、特許文献1及び非特許文献1に記載された匿名化技術は、準識別子が匿名化後のパーソナル情報を用いた分析に必要か否かを考慮しないで、全ての準識別子を同等に扱って、パーソナル情報を匿名化する。そのため、特許文献1及び非特許文献に記載された技術は、匿名化後のデータを用いた処理(例えば、予測)に必要な属性が、大きく汎化されてしまう場合があった。この場合、例えば、匿名化後のパーソナル情報を用いた分析は、予測の精度が低下してしまう。このように、特許文献1及び非特許文献に記載された技術は、匿名化後のデータを用いた処理(例えば、予測)の精度を低下させてしまうという問題点があった。
本発明の目的は、上記問題点を解決し、匿名化後データを用いる処理に対する、匿名化対象の準識別子(属性)の匿名化(汎化)に基づく影響(例えば、情報量の低下)を低減する情報処理装置、情報処理方法、及び、プログラムを提供することにある。
本発明の一形態における情報処理装置は、匿名化の対象である属性を含む匿名化前データにおいて、属性を匿名化して生成される匿名化後データを用いた処理に対する、属性の匿名化に基づく影響の程度を示す重みを算出する属性選択手段と、重みに基づいて匿名化の対象となる属性を選択し、匿名化前データに含まれる選択した属性を匿名化して匿名化後データを生成する匿名化手段とを含む。
本発明の一形態におけるデータ処理方法は、匿名化の対象である属性を含む匿名化前データにおいて、属性を匿名化して生成される匿名化後データを用いた処理に対する、属性の匿名化に基づく影響の程度を示す重みを算出し、重みに基づいて匿名化の対象となる属性を選択し、匿名化前データに含まれる選択した属性を匿名化して匿名化後データを生成する。
本発明の一形態におけるプログラムは、匿名化の対象である属性を含む匿名化前データにおいて、属性を匿名化して生成される匿名化後データを用いた処理に対する、属性の匿名化に基づく影響の程度を示す重みを算出する処理と、重みに基づいて匿名化の対象となる属性を選択し、匿名化前データに含まれる選択した属性を匿名化して匿名化後データを生成する処理とをコンピュータに実行させる。
本発明に基づけば、匿名化後のデータを用いる処理に対する、匿名化対象の準識別子(属性)の匿名化(汎化)に基づく影響を低減するとの効果を奏することができる。
図1は、本発明における第1の実施形態の係る情報処理装置の構成の一例を示すブロック図である。 図2は、第1の実施形態に係る匿名化部の構成の一例を示すブロック図である。 図3は、第1の実施形態に係る属性選択部の処理の一例を示すフローチャートである。 図4は、第1の実施形態に係る匿名化部の処理の一例を示すフローチャートである。 図5は、第1の実施形態の説明に用いられる匿名化前データの一例を示す図である。 図6は、第1の実施形態に係る属性選択部が準識別子に対して算出した重みの一例を示す図である。 図7は、第1の実施形態に係る匿名化部が生成した匿名化後データの一例を示す図である。 図8は、第1の実施形態に係る属性選択部が重みを算出する動作の一例を示すフローチャートである。 図9は、第1の実施形態に係る匿名化部が重みを用いて匿名化前データを匿名化する動作の一例を示すフローチャートである。 図10は、第1の実施形態に係る分割属性決定部が分割対象となる属性を決定する動作の一例を示すフローチャートである。 図11は、第1の実施形態に係る準識別子の評価値の算出結果の一例を示す図である。 図12は、第1の実施形態に係る情報処理装置が分割したグループの一例を示す図である。 図13は、第1の実施形態に係る情報処理装置の変形例の構成の一例を示すブロック図である。 図14は、第1の実施形態に係る情報処理装置の変形例の構成の一例を示すブロック図である。
次に、本発明における実施形態について、図面を参照して説明する。
なお、各図面は、本発明の実施形態を説明するものである。ただし、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明を、省略する場合がある。
また、以下の説明に用いる図面において、本発明の説明に関係しない部分の構成については、記載を省略し、図示しない場合もある。
<第1の実施形態>
まず、本発明における第1の実施形態に係る情報処理装置100の説明における用語について整理する。
「パーソナル情報」とは、特定の個人に関する情報である。本実施形態において、パーソナル情報は、複数の個人に関連する属性(情報)を含む。
「レコード」とは、各個人に対応した1組の属性の集合である。つまり、パーソナル情報は、1つ又は複数のレコードを含む。
「識別子」とは、単独で、個人を特定できる属性である。
「準識別子」とは、単独では個人を特定できないが、他の属性と組み合わせると、個人を特定できる属性である。
「センシティブ情報」とは、対応する個人が特定される状態では公開を希望されていない属性である。
「匿名化」とは、センシティブ情報に対応する個人を特定できないように、パーソナル情報を加工する処理である。
なお、情報処理装置100における匿名化処理は、特に制限はない。また、情報処理装置100は、複数の匿名化処理を実行してもよい。
また、情報処理装置100は、匿名化する属性に、特に制限はない。例えば、情報処理装置100は、センシティブ情報を匿名化してもよい。ただし、以下の説明において、情報処理装置100は、匿名化の一例として、k−匿名性を満足するような匿名化を実行するとする。つまり、情報処理装置100は、パーソナル情報の匿名化として、識別子を削除し、準識別子をk−匿名化するとする。
「k−匿名性」とは、匿名化後の属性又は属性の組合せ(つまり、個人を特定する情報)として、同じ値又は範囲の属性を含むレコードが、k個以上存在することを保証する匿名性である。k−匿名性は、目的とする匿名化を示す匿名化の指標の一つである。
「k−匿名化」とは、既に説明したとおり、k−匿名性を満足するようにデータを匿名化する処理である。なお、以下の説明において、一例として、情報処理装置100は、k=3の場合のk−匿名化を用いるとする。
さらに、情報処理装置100は、匿名化として、トップダウンの匿名化(例えば、非特許文献1を参照)を用いるとする。具体的には、情報処理装置100は、匿名化として、匿名化の対象となるデータをグループに分割する。そのため、グループは、1つ又は複数のレコードを含む。ただし、これは、情報処理装置100における匿名化を、トップダウンに限るものではない。情報処理装置100は、トップダウンに限らず、ボトムアップの匿名化を用いてもよい。あるいは、情報処理装置100は、その他の匿名化を用いてもよい。
「匿名化前データ」とは、本実施形態において匿名化の対象となるデータ(パーソナル情報)である。
「匿名化後データ」は、情報処理装置100が、匿名化前データを匿名化した後のデータである。匿名化後データは、所定の処理(例えば、予測などの分析)に用いられる。なお、情報処理装置100が、複数の匿名化処理を組み合わせる場合、各匿名化処理の後のデータを、それぞれ、匿名化後データと呼ぶ。
「重み」とは、一般的には、データの重要度を表すパラメータとして用いられている。ただし、本実施形態において、「準識別子の重み」とは、その準識別子の匿名化が、匿名化後データを用いた処理において注目している値(例えば、情報量)への影響(例えば、情報量の低下)の大きさを示すデータ(値)である。すなわち、重みが大きい準識別子の匿名化は、重みが小さい準識別子の匿名化に比べ、匿名化後データを用いた処理への影響が大きい。
ここで、一般的に、匿名化のための分割の数(つまり、その準識別子(属性)についてのグループの数)が多い準識別子は、分割数が少ない準識別子に比べ、匿名化後における情報量の低下が少ない。そのため、重みが大きい準識別子は、重みが小さい準識別子に比べて、情報量の低下を抑えるため、多くのグループに分割されることが望ましい。
なお、注目している値への影響は、必ずしも、情報量の低下に限る必要はない。ただし、以下の説明は、一例として、情報量の低下を用いて説明する。
「準識別子の評価値」とは、匿名化(グループ分割)する準識別子(属性)を選択する動作において参照するために、各準識別子に対して、算出される値である。
例えば、第1の属性における匿名化後の値の範囲が、第2の属性における匿名化後の値の範囲と、同じとする。つまり、匿名化に用いられるグループ内における第1の属性の値の範囲が、グループ内における第2属性の値の範囲と、同じとする。ただし、第1の属性が取ることが可能な値の範囲が、第2の属性が取ることが可能な値の範囲の半分だとする。この場合、第1の属性の匿名化後の情報量の低下は、第2の属性の匿名化後の情報量の低下の2倍となる。このように、属性が取ることが可能な値の範囲(以下、「定義域長」と呼ぶ)に対する、匿名化後の値の範囲(以下、「領域長」と呼ぶ)の比率は、情報量の低下の尺度となる。
そのため、情報処理装置100は、上記の重みに加え、定義域長と領域長とを用いて、匿名化(グループ分割)の対象とする準識別子(属性)を選択することが望ましい。そこで、情報処理装置100は、重みと、定義域長に対する領域長の比率とを用いて、準識別子の評価値を算出し、算出した評価値に基づいて準識別子(属性)を選択する。準識別子の評価値を算出する式(算出式)は、特に制限はない。算出式は、匿名化後データの分析などを基に決定されていればよい。
ただし、既に説明したとおり、情報処理装置100は、重みが大きい準識別子をより多く分割するよう、準識別子を選択することが望ましい。さらに、情報処理装置100は、定義域長に対する領域長に比率が大きい準識別子をより多く分割するように、準識別子を選択すること望ましい。そこで、情報処理装置100は、上記を考慮した評価値を算出する算出式を用いる。
以下の説明では、一例として、情報処理装置100は、次に示す算出式1を用いるとする。算出式1は、重みと、定義域長に対する領域長の比率との積である。
[算出式1]
準識別子の評価値=準識別子の重み×準識別子の領域長÷準識別子の定義域長
ただし、情報処理装置100は、上記の算出式1とは異なる算出式を用いてもよい。
例えば、情報処理装置100は、次に示す算出式2のように、所定の係数(係数と係数)を用いて、準識別子の評価値を、準識別子の重みと、領域長及び定義域長の比との線形結合として、算出してもよい。算出式2は、重みと、定義域長に対する領域長の比率との線形和である。
[算出式2]
準識別子の評価値=係数×準識別子の重み+係数×準識別子の領域長÷準識別子の定義域長
[構成の説明]
次に、第1の実施形態に係る情報処理装置100の構成について、図面を参照して説明する。
図1は、本発明における第1の実施形態に係る情報処理装置100の構成の一例を示すブロック図である。
情報処理装置100は、匿名化前データ格納部110と、属性選択部120と、匿名化部130と、匿名化後データ格納部140とを含む。
匿名化前データ格納部110は、匿名化の対象となる匿名化前データ(パーソナル情報)を格納する。
属性選択部120は、匿名化前データに含まれる匿名化対象の準識別子(属性)が、匿名化後データを用いる分析与える影響の大きさ(重み)を算出する。
匿名化部130は、匿名化前データを匿名化して、匿名化後データを生成する。ただし、匿名化部130は、準識別子の重みを基に、匿名化後データの分析における情報量の低下が小さくなるように、匿名化後データを生成する。例えば、匿名化部130は、重みが大きい準識別子における匿名化に基づく情報量の低下が、重みが小さい準識別子における匿名化に基づく情報量の低下より、小さくなるような匿名化を、実行する。
さらに、匿名化部130は、重みに加え、定義域長及び領域長を用いて、匿名化後データの分析における情報量の低下が小さくなるように、匿名化後データを生成してもよい。つまり、匿名化部130は、準識別子の評価値を用いて、匿名化後データを生成してもよい。
匿名化後データ格納部140、匿名化部130が生成した匿名化後データを格納する。
[効果の説明]
このように構成された情報処理装置100は、匿名化後のデータを用いる処理に対する、匿名化対象の準識別子(属性)の匿名化(汎化)に基づく影響を低減するとの効果を奏することができる。
その理由は、次のとおりである。
属性選択部120が、匿名化前データ格納部110が格納する匿名化前データを基に、準識別子の「重み」を算出する。そして、匿名化部130が、準識別子の重みを基に、匿名化の対象となる準識別子を選択して、匿名化後データを生成するためである。
なお、情報処理装置100は、匿名化後のデータを用いる処理に対する、匿名化対象の準識別子(属性)の匿名化(汎化)に基づく影響を、さらに低減するとの効果を奏することもできる。
その理由は、次のとおりである。
匿名化部130は、準識別子の重みに加え、定義域長と領域長とを基に、匿名化の対象となる準識別子を選択できる。そのため、情報処理装置100は、匿名化後のデータを用いる処理に対する、匿名化対象の属性の匿名化に基づく影響を、さらに、低減できるためである。
[詳細な説明]
続いて、情報処理装置100の詳細について、図面を参照した、さらに説明する。
まず、詳細な構成について、説明する。
(詳細な構成の説明)
第1の実施形態に係る匿名化部130の構成について、図面を参照して説明する。
図2は、第1の実施形態に係る匿名化部130の構成の一例を示すブロック図である。
匿名化部130は、分割属性決定部131と、データ分割部132とを含む。
分割属性決定部131は、匿名化においてグループ分割の対象となる準識別子(以下、「分割属性」と呼ぶ)を選択する。ただし、分割属性の選択において、分割属性決定部131は、既に説明したとおり、重みが大きい準識別子ほど、分割属性として選ばれやすいように、分割属性を選択する。さらに、分割属性決定部131は、定義域長及び領域長を用いて、分割属性を決定する。なお、分割属性決定部131は、分割属性として、複数の準識別子(属)を選択してもよい。
データ分割部132は、匿名化前データを匿名化して、匿名化後データを生成する。
より詳細には、データ分割部132は、分割属性決定部131が決定した分割属性におけるグループの分割点を決定する。そして、データ分割部132は、分割できなくなるまで、分割属性決定部131が決定した属性における分割を繰り返す。そして、分割できなくなった後、データ分割部132は、分割点を用いて匿名化前データを匿名化し、匿名化後データを生成する。
ただし、分割属性が、複数の属性の場合、データ分割部132は、グループの分割として、1次元の点ではなく、2次元の線又は3次元の面に相当する分割を決定する。ただし、以下の説明では、2次元以上の分割を含め、分割点と呼ぶ。
(詳細な動作の説明)
次に、本実施形態の詳細な動作について、図面を参照して説明する。
まず、第1の実施形態に係る属性選択部120の動作について、図面を参照して説明する。
図3は、第1の実施形態に係る属性選択部120の動作の一例を示すフローチャートである。
まず、属性選択部120は、匿名化前データ格納部110に格納された匿名化前データを取得する(ステップS101)。
上記のとおり、匿名化前データは、データの形式、及び、含まれる属性などに制限はない。ただし、以下の説明において、詳細な説明の一例として、具体的なデータを用いて説明する。
図5は、本実施形態の説明に用いる匿名化前データ200の一例を示す図である。
図5に示すように、匿名化前データ200は、ID(Identifier)201と、年齢202と、身長203と、体重204と、年収205とを含む。図5において、匿名化前データ200は、各行が、匿名化対象となる一組のパーソナル情報、つまり、一つのレコードである。
匿名化前データ200の各項目を説明する。
ID201は、各パーソナル情報の個人を識別する属性(識別子)である。
年齢202、身長203、及び、体重204は、それぞれ、準識別子である。
年収205が、センシティブ情報である。
なお、図5において、本実施形態に係る匿名化前データ200に含まれるレコード数が、6個となっているのは、説明の便宜のためである。本実施形態に係る匿名化前データ200は、6個より少ない数のレコードを含んでもよく、6個より多い数のレコードを含んでもよい。
図3を参照した説明に戻る。
属性選択部120は、匿名化前データ200における準識別子の重みを算出する(ステップS102)。属性選択部120が算出する重みは、特に制限はない。属性選択部120は、匿名化後データを用いる分析に関連して、重みを決めればよい。例えば、属性選択部120が、分析として、回帰分析の一例である非特許文献2に記載されているLasso(Least absolute shrinkage and selection operator)を用いるとする。この場合、属性選択部120は、算出する重みとして、分析に用いられる回帰関数における各準識別子についての係数を用いればよい。なお、属性選択部120における重みを算出する動作については、後ほど詳細に説明する。
ここでは、重みの一例を示す。
図6は、属性選択部120が、図5に示す準識別子301に対して算出した重み302の一例を示す図である。
例えば、1行目に示されている「20」は、準識別子301である「年齢」に対する重み302の値である。また、2行目に示されている「1」は、準識別子301である「身長」に対する重み302の値である。既に説明したとおり、重み302は、匿名化後データの分析に対する準識別子301の影響の大きさを示すデータである。つまり、年齢の影響は、身長の影響に対して、20倍大きいことを示している。また、3行目に示されている「0」は、準識別子301である「体重」に対する重み302の値である。「0」は、「体重」が、匿名化後データに分析に対して、影響を与えないことを示している。
図3を参照した説明に戻る。
属性選択部120は、算出した重み302を、保存する(ステップS103)。なお、重み302の保存方法は、特に制限はない。
属性選択部120が、算出した重み302を、保存してもよい。この場合、匿名化部130は、必要に応じて、属性選択部120から重み302を取得すればよい。
あるいは、属性選択部120は、算出した重み302を、図示しないデータ記憶部に保存してよい。この場合、匿名化部130は、必要に応じて、データ記憶部から重み302を取得すればよい。
あるいは、属性選択部120は、算出した重み302を保存しないで、匿名化部130に送信してもよい。この場合、匿名化部130が、受信した重み302を保存し、必要に応じて参照すればよい。
このように、匿名化部130は、属性選択部120が重み302を保存する手法に合わせて、重み302を取得すればよい。そのため、以下の説明において、匿名化部130が重み302を取得する動作の詳細な説明を省略する。
次に、本実施形態に係る匿名化部130の動作について、図面を参照して説明する。
図4は、第1の実施形態に係る匿名化部130の動作の一例を示すフローチャートである。
まず、匿名化部130は、匿名化前データ200と、重み302とを取得する(ステップS201)。なお、以下の説明において、匿名化部130は、図5に示されている匿名化前データ200と、図6に示されている重み302とを取得したとする。
次に、匿名化部130は、準識別子の重み302を用いて、匿名化前データ200を匿名化し、匿名化後データを生成する(ステップS202)。匿名化部130が匿名化前データ200を匿名化する動作については、後ほど詳細に説明する。
そして、匿名化部130は、匿名化後データを、匿名化後データ格納部140に格納する(ステップS203)。
図7は、匿名化部130が生成した匿名化後データ400の一例を示す図である。図7に示されている匿名化後データ400は、既に説明した通り、一例として、「k」を「3」とした「k−匿名性」を満たすように匿名化されている。例えば、図7において、1行目から3行目のレコードが、1つのグループである。そのため、1行目から3行目において、年齢401、身長402、及び、体重403が、それぞれ、同じ値の範囲のデータとなっている。また、既に説明したとおり、匿名化部130は、個人を識別する識別子(ID201)を削除する。そのため、図7に示すように、匿名化後データ400は、個人を識別する属性(例えば、ID201)を含まない。
図5と図7とを比較した場合、例えば、図5の1行目の身長203の値(51)は、図7の1行目の身長402の値の範囲(48−52)に汎化されている。
なお、年齢401における領域長は、「4」である。身長402における領域長は、「22」と「32」である。また、体重403における領域長は、「50」と「45」である。ここでは、定義域長が規定されていない。そのため、領域長を比較することは、できない。ただし、年齢401、身長402及び体重403の定義域長は、一般的に、最大でも、三桁の数値の範囲である。そこで、例えば、各属性の定義域長が、おおよそ同じと仮定した場合、図7において、図6に示す重み302値が最も大きい年齢401における領域長が、最も狭い範囲(情報量の低下が少ない汎化状態)となっている。
次に、属性選択部120が、準識別子の重み302を算出する動作について、図面を参照して説明する。
図8は、第1の実施形態に係る属性選択部120が重み302を算出する動作の一例を示すフローチャートである。つまり、図8は、ステップS102の詳細な動作の一例を示すフローチャートである。
まず、属性選択部120は、匿名化後データ400の分析に関する情報として、目的変数となる属性と、説明変数となる属性とを取得する(ステップS301)。
「目的変数となる属性(以下、単に「目的変数」と呼ぶ)」とは、匿名化後データ400を用いた分析の対象となる属性(予測したい属性)である。「目的変数」は、例えば、センシティブ属性である。そのため、以下、目的変数は、年収404(又は、年収205)とする。
「説明変数となる属性(以下、単に「説明変数」と呼ぶ)」とは、目的変数となる属性を分析(予測)するために用いられる属性である。「説明変数」は、例えば、匿名化対象の準識別子である。そのため、以下、年齢401、身長402、及び、体重403(又は、年齢202、身長203、及び、体重204)を説明変数とする。
なお、属性選択部120が、目的変数と説明変数とを取得する方法は、特に制限はない。例えば、情報処理装置100の使用者が、予め、属性選択部120に目的変数及び説明変数を設定してもよい。あるいは、属性選択部120が、目的変数と説明変数とを、図示しない所定のファイル又はデータベースから取得してもよい。あるいは、属性選択部120が、図示しない入力手段を介して、操作者が入力した値を取得してもよい。
次に、属性選択部120は、匿名化前データ200を用いて学習を実行する(ステップS302)。ここで、「学習」とは、目的変数と説明変数との適切な(例えば、最尤度となる最適な)関係式(算出式)を求める動作である。
以下では、一例として、目的変数が、説明変数の線形関係(例えば、回帰分析)として算出可能とする。そして、その線形関係が、次に示す算出式3の形式とする。
[算出式3]
目的変数=係数×説明変数+係数×説明変数+・・・+係数×説明変数(ただし、nは、説明変数(匿名化対象の属性値、つまり、準識別子)の数である。)
この場合、属性選択部120は、匿名化前データ200を用いた学習結果として、線形回帰などを用いて、算出式3において、目的変数(センシティブ情報)と説明変数(準識別子)との関係を示す係数を決定する。なお、本実施形態の属性選択部120は、学習結果として算出される式として、上記のように説明変数に係数が掛かる形式の式であれば、どのような算出式を用いてもよい。
つまり、属性選択部120は、匿名化前データ200におけるセンシティブ情報を目的変数とし、準識別子を説明変数とした学習を基に、準識別子とセンシティブ情報との関係を表す算出式を決定する。そして、属性選択部120は、決定した算出式の説明変数(準識別子)の係数を、各準識別子の重み302として用いる。
学習の一例としても、非特許文献2に記載されたLassoがある。既に記載のとおり、Lassoは、回帰分析の一例である。Lassoは、出力として、「目的変数=係数×説明変数+係数×説明変数+・・・+係数×説明変数+切片」との形式の回帰式を算出する。なお、Lassoを用いる学習において、設定する必要があるパラメータが、1つある。そして、Lassoの算出結果は、そのパラメータに基づいて変わる。ただし、本実施形態にLassoを用いる場合、上記のパラメータは、どのように選ばれてもよい。つまり、上記パラメータの値に関連して、Lassoの算出結果が異なったとしても、本実施形態に係る情報処理装置100において、学習結果と求めることができた係数を用いた匿名化は、同様の結果となる。
なお、属性選択部120は、全ての匿名化前データ200を、学習の対象としてもよい。あるいは、属性選択部120は、一部の匿名化前データ200を、学習の対象としてもよい。
以下の説明では、一例として、属性選択部120は、学習結果の式として、次に示す算出式4を決定したとする。
[算出式4]
年収=20×年齢+1×身長+0×体重
そして、属性選択部120は、学習結果として決定した算出式を基に、準識別子に対する重み302を決定する(ステップS303)。以下の説明では、属性選択部120は、上記の算出式4の係数を、重み302とする。この場合の重み302は、図4に示されている重み302である。
次に、匿名化部130が、重み302を用いて、匿名化前データ200を匿名化する動作について、図面を参照して説明する。
図9は、匿名化部130が、重み302を用いて、匿名化前データ200を匿名化する動作の一例を示すフローチャートである。つまり、図9は、ステップS202の詳細な動作の一例を示すフローチャートである。
まず、匿名化部130のデータ分割部132は、匿名化前データ200の匿名化における、匿名化の指標を受信する(ステップS401)。なお、データ分割部132が、指標を受信する方法は、特に制限はない。例えば、情報処理装置100の操作者が、予め、指標をデータ分割部132に設定してもよい。あるいは、データ分割部132が、所定のファイル又はデータベースから、指標を取得してもよい。あるいは、データ分割部132が、図示しない入力手段を介して、指標を受信してもよい。以下では、一例として、データ分割部132は、指標として、「k=3のk−匿名性」を受信したとする。
次に、データ分割部132は、匿名化前データ200の全体を、最初のグループ(以下、「第1のグループ」と呼ぶ)とする(ステップS402)。具体的には、データ分割部132は、匿名化前データ200に含まれるすべてのレコードを、一つのグループ(第1のグループ)とする。例えば、図5に示されている匿名化前データ200は、含まれているすべてのレコードを一つグループとしたグループとなる。
この第1のグループが、最初の分割対象のグループである。
次に、データ分割部132は、分割対象のグループが、分割可能か否かを判定する(ステップS403)。ここで、データ分割部132は、k=3のk−匿名性を満足する匿名化を実行している。そのため、具体的には、データ分割部132は、分割対象のグループに含まれるレコードの数が、「2k(=2×3=6)」以上か否かを判定する。
今の場合、分割対象のグループは、2k以上である6個のレコードを含む。そのため、データ分割部132は、分割可能と判定する(ステップS403でYes)。
分割可能な場合(ステップS403でYes)、匿名化部130は、ステップS404の動作に進む。
ステップS404において、データ分割部132は、分割属性決定部131に、分割対象のグループにおいて分割対象となる準識別子の決定を依頼する。
分割属性決定部131は、依頼を基に、分割対象のグループにおいて分割対象となる準識別子を決定する(ステップS404)。この動作については、後ほど詳細に説明する。なお、以下の説明において、分割属性決定部131は、分割対象の準識別子として、年齢を決定したとする。
次に、データ分割部132は、分割属性決定部131が決定したい分割対象の準識別子(今の場合、年齢)において、匿名化のためのグループの分割点を決定する(ステップS405)。データ分割部132は、分割点の決定として、匿名化の指標を満たすように決定すればよい。例えば、データ分割部132は、非特許文献1に記載された技術(Mondrian Multidimensional)を用いて、分割点を決定してもよい。以下の説明では、データ分割部132は、k=3のk−匿名性を満たすため、分割点として、図5に示す匿名化前データ200における年齢の中央値(46.5)を決定したとする。
次に、データ分割部132は、決定した分割点を用いて、分割対象のグループを2つのグループに分割する(ステップS406)。例えば、上記のとおり分割点が、年齢の中央値(46.5)の場合、データ分割部132は、図5に示す匿名化前データ200を、図12に示す2つのグループに分割する。以下、図12に示されている2つのグループの第2のグループ群と呼ぶ。なお、図12において、センシティブ情報である年収404を省略している。
次に、データ分割部132は、第2のグループ群(分割後のグループ1及びグループ2)を分割対象のグループとして、ステップS403に戻る。そして、データ分割部132は、分割対象のグループ(第2のグループ群)が分割可能か否かを判定する(ステップS403)。
今の場合、分割対象である第2のグループ群(図12に示されている2つのグループ)は、どちらも、2k未満の3個のレコードを含む。そのため、データ分割部132は、分割不可能と判定する(ステップS403でNo)。
分割が不可能な場合(ステップS403でNo)、匿名化部130は、ステップS407の動作に進む。
ステップS407において、データ分割部132は、分割後のグループに含まれるデータを汎化し、匿名化後データ400を生成する(ステップS407)。そして、データ分割部132は、匿名化後データ400を匿名化後データ格納部140に格納する。
例えば、データ分割部132は、図12に示されているグループ1の「年齢」を「48−52」に、「身長」を「163−185」に、「体重」を「50−100」に汎化する。データ分割部132は、グループ2のデータも同様に汎化し、図5に示されている匿名化後データ400を生成する。
次に、図9のステップS404における分割属性決定部131の動作について、図面を参照して説明する。
分割属性決定部131は、準識別子の重み302が大きい準識別子ほど、分割する準識別子として選択されるような決定方法を用いて、分割属性(分割の対象となる準識別子)を決定する。さらに、分割属性決定部131は、準識別子の定義域長と領域長とを用いて、分割属性を決定する。
なお、既に説明した通り、分割属性決定部131が準識別子の決定に用いる方法(算出式)は、匿名化後データ400の分析などを基に決定されていればよく、特に限定はない。
以下、分割属性決定部131が用いる分割する準識別子を決定する動作の一例を、図面を参照して説明する。
図10は、第1の実施形態に係る分割属性決定部131が分割対象となる準識別子(属性)を決定する動作の一例を示すフローチャートである。つまり、図10は、ステップS404の詳細な動作の一例を示すフローチャートである。
まず、分割属性決定部131は、分割対象のグループに対して、準識別子の評価値を算出する(ステップS501)。
具体的な数値を用いて、上記の準識別子の評価値を説明する。
以下の説明において、分割属性決定部131が評価値を算出する準識別子は、図5に示す匿名化前データ200における年齢202と、身長203と、体重204をする。また、各準識別子の値の定義域の長さは、次に説明する図11に示す定義域長503とする。
図11は、第1の実施形態に係る準識別子の評価値の算出結果500の一例を示す図である。算出結果500は、準識別子501と、領域長502と、定義域長503と、重み504と、評価値505とを含む。
準識別子501は、評価対象の準識別子を示す識別子(例えば、準識別子の名称)である。
領域長502は、領域長の値(グループ内における準識別子の値の領域の長さ)である。
定義域長503は、定義域長の値(準識別子の値の定義域の長さ)である。定義域長503は、予め、情報処理装置100に与えられている値である。
重み504は、図6に示す重み302と同様に、準識別子に対する重みである。
評価値505は、算出式1を用いて算出された値を示す。
具体的な動作は、次のとおりである。
まず、分割属性決定部131は、図11に示されているように、匿名化前データ200を基に、グループ内における各準識別子の値の領域の長さ(領域長502)を算出する。そして、分割属性決定部131は、算出した領域長502と、定義域長503と、重み504とを上記の算出式1に適用して、評価値505を算出する。例えば、1行目に示されている年齢の評価値505は、次のように求められた値である。
2.75(評価値505)=20(重み504)×11(領域長502)÷80(定義域長503)
図10を参照した説明に戻る。
次に、分割属性決定部131は、算出した準識別子の評価値505の中で最大の評価値505に対応する準識別子を、分割対象の準識別子として決定(選択)する(ステップS502)。図11の場合、分割属性決定部131は、分割対象の準識別子として、評価値505の値が最大(2.75)である年齢を決定(選択)する。
なお、最大の評価値505に対応する準識別子が、複数となった場合、分割属性決定部131は、所定の手法(例えば、ランダム、又は、ラウンドロビン)を基に、準識別子を選択すればよい。
このように、情報処理装置100は、匿名化後データ400の評価に対する影響の程度が大きい準識別子(属性)において、注目している値(例えば、情報量の低下)への影響を低減する。
(効果の説明)
次に、上記の第1の実施形態の詳細な説明に関連する効果について説明する。
第1の実施形態に係る情報処理装置100は、既に記載したとおり、所定の匿名化指標を満足するような匿名化処理において、匿名化後データ400を用いた処理(例えば、分析)への影響を低減した匿名化を実行するとの効果を奏することができる。
その理由は、次のとおりである。
第1の実施形態に係る情報処理装置100の属性選択部120は、匿名化後データ400に対する準識別子の重要性を示す重み302を算出する。
匿名化部130の分割属性決定部131は、準識別子の重み302と準識別子の値の範囲(領域長と定義域長)とを基に、分割対象の準識別子としての重要度を示す評価値505を算出する。そして、匿名化部130の分割属性決定部131は、算出した評価値505が最も高い準識別子を分割する準識別子として選択する。そして、データ分割部132は、所定の匿名性を満足するように、選択された準識別子を分割する。つまり、匿名化部130は、最も分割対象として適切な準識別子において、データをグループに分割する。そのため、匿名化部130は、重要性の高い準識別子ほど細かく汎化されるように、データを匿名化できる。つまり、匿名化部130は、匿名化後データ400の処理にとって重要性の高い属性ほど分析に必要な情報量が残るように、匿名化後データ400を生成できるためである。
[変形例1]
以上の説明した情報処理装置100は、次のように構成される。
例えば、情報処理装置100の各構成部は、ハードウェア回路で構成されてもよい。
また、情報処理装置100は、各構成部が、ネットワークを介して接続した複数の装置を用いて、構成されてもよい。
図13は、本実施形態の変形例1に係る情報処理装置101の構成の一例を示すブロック図である。
情報処理装置101は、匿名化前データ格納部110と、匿名化後データ格納部140とを、図示しないネットワークなどを介して接続されている図示しない外部の記憶装置を用いて構成されている。
そのため、情報処理装置101は、属性選択部120と、匿名化部130とを含む。そして、属性選択部120及び匿名化部130は、図示しないネットワークなどを介して、外部の記憶装置における匿名化前データ格納部110から匿名化前データ200を受信する。そして、属性選択部120及び匿名化部130は、情報処理装置100に含まれる各構成と同様に動作する。そして、匿名化部130は、匿名化後データ格納部140に、匿名化後データ400を送信する。
このように構成された情報処理装置101は、情報処理装置100と同様の効果を得ることができる。
その理由は、上記のとおり、情報処理装置101に含まれる構成が、情報処理装置100に含まれる構成と同様に動作するためである。
なお、情報処理装置101は、本発明の実施形態における最小構成である。
[変形例2]
また、情報処理装置100は、複数の構成部を1つのハードウェアで構成されてもよい。
また、情報処理装置100は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含むコンピュータ装置として実現されてもよい。情報処理装置100は、上記構成に加え、さらに、入出力接続回路(IOC:Input / Output Circuit)と、ネットワークインターフェース回路(NIC:Network Interface Circuit)とを含むコンピュータ装置として実現されてもよい。
図14は、本変形例に係る情報処理装置600の構成の一例を示すブロック図である。
情報処理装置600は、CPU610と、ROM620と、RAM630と、内部記憶装置640と、IOC650と、NIC680とを含み、コンピュータ装置を構成している。
CPU610は、ROM620からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、RAM630と、内部記憶装置640と、IOC650と、NIC680とを制御する。そして、CPU610を含むコンピュータは、これらの構成を制御し、図1に示されている、属性選択部120と、匿名化部130としての各機能を実現する。さらに、CPU610は、図2に示されている、分割属性決定部131と、データ分割部132としての各機能を実現する。
CPU610は、各機能を実現する際に、RAM630又は内部記憶装置640を、プログラムの一時記憶として使用してもよい。
また、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体700が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでもよい。あるいは、CPU610は、NIC680を介して、図示しない外部の装置からプログラムを受け取り、RAM630に保存して、保存したプログラムを基に動作してもよい。
ROM620は、CPU610が実行するプログラム及び固定的なデータを記憶する。ROM620は、例えば、P−ROM(Programmable-ROM)又はフラッシュROMである。
RAM630は、CPU610が実行するプログラム及びデータを一時的に記憶する。RAM630は、例えば、D−RAM(Dynamic-RAM)である。
内部記憶装置640は、情報処理装置600が長期的に保存するデータ及びプログラムを記憶する。また、内部記憶装置640は、CPU610の一時記憶装置として動作してもよい。さらに、内部記憶装置640は、図1に示されている匿名化前データ格納部110及び匿名化後データ格納部140として動作する。内部記憶装置640は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)又はディスクアレイ装置である。
ここで、ROM620と内部記憶装置640は、不揮発性(non-transitory)の記憶媒体である。一方、RAM630は、揮発性(transitory)の記憶媒体である。そして、CPU610は、ROM620、内部記憶装置640、又は、RAM630に記憶されているプログラムを基に動作可能である。つまり、CPU610は、不揮発性記憶媒体又は揮発性記憶媒体を用いて動作可能である。
IOC650は、CPU610と、入力機器660及び表示機器670とのデータを仲介する。IOC650は、例えば、IOインターフェースカード又はUSB(Universal Serial Bus)カードである。
入力機器660は、情報処理装置600の操作者からの入力指示を受け取る機器である。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
表示機器670は、情報処理装置600の操作者に情報を表示する機器である。表示機器670は、例えば、液晶ディスプレイである。
NIC680は、ネットワークを介した図示しない外部の装置とのデータのやり取りを中継する。NIC680は、例えば、LAN(Local Area Network)カードである。
このように構成された情報処理装置600は、情報処理装置100と同様の効果を得ることができる。
その理由は、情報処理装置600のCPU610が、プログラムに基づいて情報処理装置100と同様の機能を実現できるためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成及び詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
100 情報処理装置
101 情報処理装置
110 匿名化前データ格納部
120 属性選択部
130 匿名化部
131 分割属性決定部
132 データ分割部
140 匿名化後データ格納部
200 匿名化前データ
201 ID
202 年齢
203 身長
204 体重
205 年収
301 準識別子
302 重み
400 匿名化後データ
401 年齢
402 身長
403 体重
404 年収
500 算出結果
501 準識別子
502 領域長
503 定義域長
504 重み
505 評価値
600 情報処理装置
610 CPU
620 ROM
630 RAM
640 内部記憶装置
650 IOC
660 入力機器
670 表示機器
680 NIC
700 記憶媒体

Claims (6)

  1. 匿名化の対象である属性を含む匿名化前データにおいて、前記属性を匿名化して生成される匿名化後データを用いた処理に対する、前記属性の匿名化に基づく影響の程度を示す重みを算出する属性選択手段と、
    前記重みに基づいて匿名化の対象となる属性を選択し、前記匿名化前データに含まれる前記選択した属性を匿名化して前記匿名化後データを生成する匿名化手段と
    を含む情報処理装置
  2. 前記匿名化手段が、
    前記重みに加え、前記属性が取り得る値の範囲である定義域長に対する前記属性における匿名化後の値の範囲である領域長の比率を基に前記属性を選択する
    請求項1に記載の情報処理装置。
  3. 前記匿名化手段が、
    前記重みと前記定義域長に対する前記領域長の比率との積又は所定の線形和である評価値を算出し、算出した評価値を用いて前記属性を選択する
    請求項2に記載の情報処理装置。
  4. 前記属性選択手段が、
    匿名化対象となる前記属性と、前記匿名化前データに含まれる公開したくない情報であるセンシティブ情報との関係式を決定し、前記属性に対する前記重みとして前記決定した関係式における前記属性の係数を用いる
    請求項1ないし3のいずれか1項に記載の情報処理装置
  5. 匿名化の対象である属性を含む匿名化前データにおいて、前記属性を匿名化して生成される匿名化後データを用いた処理に対する、前記属性の匿名化に基づく影響の程度を示す重みを算出し、
    前記重みに基づいて匿名化の対象となる属性を選択し、前記匿名化前データに含まれる前記選択した属性を匿名化して前記匿名化後データを生成する
    情報処理方法。
  6. 匿名化の対象である属性を含む匿名化前データにおいて、前記属性を匿名化して生成される匿名化後データを用いた処理に対する、前記属性の匿名化に基づく影響の程度を示す重みを算出する処理と、
    前記重みに基づいて匿名化の対象となる属性を選択し、前記匿名化前データに含まれる前記選択した属性を匿名化して前記匿名化後データを生成する処理と
    をコンピュータに実行させるプログラム。
JP2015142074A 2015-07-16 2015-07-16 情報処理装置、情報処理方法、及び、プログラム Pending JP2017027137A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015142074A JP2017027137A (ja) 2015-07-16 2015-07-16 情報処理装置、情報処理方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015142074A JP2017027137A (ja) 2015-07-16 2015-07-16 情報処理装置、情報処理方法、及び、プログラム

Publications (1)

Publication Number Publication Date
JP2017027137A true JP2017027137A (ja) 2017-02-02

Family

ID=57949806

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015142074A Pending JP2017027137A (ja) 2015-07-16 2015-07-16 情報処理装置、情報処理方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP2017027137A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019168144A1 (ja) * 2018-03-02 2019-09-06 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体
JP2020017101A (ja) * 2018-07-26 2020-01-30 Kddi株式会社 匿名化装置、匿名化方法及び匿名化プログラム
JP2020527794A (ja) * 2017-07-12 2020-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 匿名の暗号化データ
WO2021192566A1 (ja) * 2020-03-25 2021-09-30 株式会社日立製作所 情報処理システムおよび情報処理プログラム
WO2021220402A1 (ja) * 2020-04-28 2021-11-04 日本電信電話株式会社 準識別子判定装置、準識別子判定方法、プログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020527794A (ja) * 2017-07-12 2020-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 匿名の暗号化データ
JP7102499B2 (ja) 2017-07-12 2022-07-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 匿名の暗号化データ
WO2019168144A1 (ja) * 2018-03-02 2019-09-06 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体
JPWO2019168144A1 (ja) * 2018-03-02 2020-12-10 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、プログラム
JP7151759B2 (ja) 2018-03-02 2022-10-12 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2020017101A (ja) * 2018-07-26 2020-01-30 Kddi株式会社 匿名化装置、匿名化方法及び匿名化プログラム
WO2021192566A1 (ja) * 2020-03-25 2021-09-30 株式会社日立製作所 情報処理システムおよび情報処理プログラム
JP2021152838A (ja) * 2020-03-25 2021-09-30 株式会社日立製作所 情報処理システムおよび情報処理プログラム
JP7376401B2 (ja) 2020-03-25 2023-11-08 株式会社日立製作所 情報処理システムおよび情報処理プログラム
WO2021220402A1 (ja) * 2020-04-28 2021-11-04 日本電信電話株式会社 準識別子判定装置、準識別子判定方法、プログラム
JP7380856B2 (ja) 2020-04-28 2023-11-15 日本電信電話株式会社 準識別子判定装置、準識別子判定方法、プログラム

Similar Documents

Publication Publication Date Title
US11748517B2 (en) Smart de-identification using date jittering
Pontius Jr et al. Death to Kappa: birth of quantity disagreement and allocation disagreement for accuracy assessment
JP2017027137A (ja) 情報処理装置、情報処理方法、及び、プログラム
US11170027B2 (en) Error factor and uniqueness level for anonymized datasets
US10346639B2 (en) Anonymization identifier computing system
de Jong et al. From returns to tweets and back: An investigation of the stocks in the dow jones industrial average
Lim Regional income club convergence in US BEA economic areas: a spatial switching regression approach
US20170316050A1 (en) Method for In-Database Feature Selection for High-Dimensional Inputs
JP6293003B2 (ja) プライバシー保護装置、方法及びプログラム
US11620406B2 (en) Information processing device, information processing method, and recording medium
JP6012860B2 (ja) 作業時間推定装置
EP2911081A1 (en) Information processing device and information processing method
JP6069460B1 (ja) 説明変数を選択する装置、方法及びプログラム
Umali et al. Nonparametric principal components regression
Kröger et al. Consequences of measurement error for inference in cross-lagged panel design—the example of the reciprocal causal relationship between subjective health and socio-economic status
CN117099102A (zh) 学习利用可变分布保留来变换敏感数据
Zhang et al. Converting diameter measurements of Pinus radiata taken at different breast heights
JP5639094B2 (ja) データベース撹乱パラメータ決定装置、データベース撹乱システム及び方法並びにデータベース撹乱装置
JP2014191431A (ja) 匿名化システム、所持装置、匿名化装置、利用者装置、匿名化方法、およびプログラム
Alonso-Villar et al. Concentration of economic activity: inequality-based measures
Anand et al. Formulation of error generation-based SRGMs under the influence of irregular fluctuations
Holloman et al. Validating the use of performance risk indices for system-level risk and maturity assessments
Kohaupt Differential calculus for the matrix norms|·| 1 and|·|∞ with applications to asymptotic bounds for periodic linear systems
Tilca et al. Comparative Study on Different Types of Regression Applied to Unemployment in Maramures County of Romania
Bracke Data Collection and First Analysis Steps