JP6487820B2 - リスク評価装置、リスク評価方法及びリスク評価プログラム - Google Patents

リスク評価装置、リスク評価方法及びリスク評価プログラム Download PDF

Info

Publication number
JP6487820B2
JP6487820B2 JP2015201860A JP2015201860A JP6487820B2 JP 6487820 B2 JP6487820 B2 JP 6487820B2 JP 2015201860 A JP2015201860 A JP 2015201860A JP 2015201860 A JP2015201860 A JP 2015201860A JP 6487820 B2 JP6487820 B2 JP 6487820B2
Authority
JP
Japan
Prior art keywords
risk
attributes
combination
personal identification
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015201860A
Other languages
English (en)
Other versions
JP2017076170A (ja
Inventor
知明 三本
知明 三本
清本 晋作
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2015201860A priority Critical patent/JP6487820B2/ja
Publication of JP2017076170A publication Critical patent/JP2017076170A/ja
Application granted granted Critical
Publication of JP6487820B2 publication Critical patent/JP6487820B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データセットを提供する際のリスク評価装置、リスク評価方法及びリスク評価プログラムに関する。
従来、データセットを提供する際に、攻撃者がデータセットに含まれる全ての属性の知識を有していると仮定し、個人が識別されるリスクを評価する手法が用いられている(例えば、非特許文献1参照)。この手法では、データセット内で同一の属性値の組み合わせを持つレコードの件数に基づいて、この件数の逆数を個人識別リスクとして定義する。また、この件数を取得するためのデータ構造として、基数木(Radix Tree)が用いられている。
A. Basu, T. Nakamura, S. Hidano and S. Kiyomoto, k−anonymity: risks and the reality, Accepted for publication in the IEEE International Symposium on Recent Advances of Trust, Security and Privacy in Computing and Communications (RATSP, collocated with the IEEE TrustCom), Helsinki, 2015.
しかしながら、従来のリスク評価の手法では、攻撃者のリソースに応じた評価ができないため、実際に存在し得る攻撃者を想定した精度の高い評価が難しかった。
本発明は、実際の攻撃者を想定し、データセットを提供する際に考慮すべき精度の高い情報を出力できるリスク評価装置、リスク評価方法及びリスク評価プログラムを提供することを目的とする。
本発明に係るリスク評価装置は、データセットを提供した場合の個人識別リスクについて、許容可能なリスク値の入力を受け付ける入力部と、前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択部と、前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出部と、前記レコード毎の個人識別リスクが前記許容可能なリスク値で示されるリスクを超えるか否かによって区分された前記属性の組み合わせを出力する出力部と、を備える。
本発明に係るリスク評価装置は、データセットを提供した場合の個人識別リスクについて、当該データセットに含まれる複数の属性のいずれかが組み合わされることによる個人識別リスクの変化率に対する許容可能なリスク幅の入力を受け付ける入力部と、前記複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択部と、前記属性の組み合わせ、及び当該組み合わせに含まれる単一の属性それぞれに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出部と、前記選択部により選択された属性の組み合わせに含まれる単一の属性に対する最大の個人識別リスクから、当該属性の組み合わせに対する最大の個人識別リスクへの変化率が前記許容可能なリスク幅を超えるか否かによって区分された前記属性の組み合わせを出力する出力部と、を備える。
本発明に係るリスク評価装置は、データセットを提供した場合の個人識別リスクについて、攻撃者が知識として属性値を取得するための想定リソースの入力を受け付ける入力部と、前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択部と、前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出部と、前記属性の組み合わせに含まれる各属性の取得コストの合計が前記想定リソースを超えるか否かによって区分された前記属性の組み合わせ、及び前記個人識別リスクを出力する出力部と、を備える。
本発明に係るリスク評価装置は、データセットを提供した場合の個人識別リスクについて、許容可能なリスク値の入力を受け付ける入力部と、前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択部と、前記属性の組み合わせに含まれるいずれかの属性の匿名化レベルを上げる匿名化部と、前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出部と、前記個人識別リスクの最大値が前記許容可能なリスク値で示されるリスクを超えるか否かによって区分された前記属性及び匿名化レベルの組み合わせを出力する出力部と、を備える。
本発明に係るリスク評価方法は、データセットを提供した場合の個人識別リスクについて、許容可能なリスク値の入力を受け付ける入力ステップと、前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択ステップと、前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出ステップと、前記レコード毎の個人識別リスクが前記許容可能なリスク値で示されるリスクを超えるか否かによって区分された前記属性の組み合わせを出力する出力ステップと、をコンピュータが実行する。
本発明に係るリスク評価方法は、データセットを提供した場合の個人識別リスクについて、当該データセットに含まれる複数の属性のいずれかが組み合わされることによる個人識別リスクの変化率に対する許容可能なリスク幅の入力を受け付ける入力ステップと、前記複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択ステップと、前記属性の組み合わせ、及び当該組み合わせに含まれる単一の属性それぞれに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出ステップと、前記選択ステップにおいて選択された属性の組み合わせに含まれる単一の属性に対する最大の個人識別リスクから、当該属性の組み合わせに対する最大の個人識別リスクへの変化率が前記許容可能なリスク幅を超えるか否かによって区分された前記属性の組み合わせを出力する出力ステップと、をコンピュータが実行する。
本発明に係るリスク評価方法は、データセットを提供した場合の個人識別リスクについて、攻撃者が知識として属性値を取得するための想定リソースの入力を受け付ける入力ステップと、前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択ステップと、前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出ステップと、前記属性の組み合わせに含まれる各属性の取得コストの合計が前記想定リソースを超えるか否かによって区分された前記属性の組み合わせ、及び前記個人識別リスクを出力する出力ステップと、をコンピュータが実行する。
本発明に係るリスク評価方法は、データセットを提供した場合の個人識別リスクについて、許容可能なリスク値の入力を受け付ける入力ステップと、前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択ステップと、前記属性の組み合わせに含まれるいずれかの属性の匿名化レベルを上げる匿名化ステップと、前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出ステップと、前記個人識別リスクの最大値が前記許容可能なリスク値で示されるリスクを超えるか否かによって区分された前記属性及び匿名化レベルの組み合わせを出力する出力ステップと、をコンピュータが実行する。
本発明に係るリスク評価プログラムは、前記リスク評価方法をコンピュータに実行させる。
本発明によれば、実際の攻撃者を想定し、データセットを提供する際に考慮すべき精度の高い情報が得られる。
第1実施形態に係る個人識別リスクを説明する図である。 第1実施形態に係る基数木を例示する図である。 第1実施形態に係るリスク評価装置の機能構成を示す図である。 第1実施形態に係るリスク評価方法を示すフローチャートである。 第2実施形態に係るリスク幅を説明する図である。 第2実施形態に係るリスク評価方法を示すフローチャートである。 第3実施形態に係るリスク評価方法を示すフローチャートである。 第4実施形態に係るリスク評価装置の機能構成を示す図である。 第4実施形態に係るリスク評価方法を示すフローチャートである。
<第1実施形態>
以下、本発明の第1実施形態について説明する。
本実施形態のリスク評価装置1は、公開対象のデータセットと共に、個人識別リスクに対する許容値を入力として、公開可能な属性の組み合わせを出力する。
ここで、個人識別リスクは、データセットに含まれる属性のうち攻撃者が知識として持つ属性、又は属性の組み合わせの値が同一であるレコードの数に基づき、例えばレコード数の逆数と定義される。この場合、個人識別リスクは、属性値が同じレコードから個人が特定される確率であり、レコード数が少ないほど、個人識別リスクは高くなる。
図1は、本実施形態に係るデータセットに対する個人識別リスクを説明する図である。
データセットの4つの属性のうち、年齢及び購入品が攻撃者に知られていると仮定すると、例えば年齢が「25−30」で購入品が「DVD」であるレコードの数は3であり、これらのレコードの個人識別リスクは、1/3となる。
このように、個人識別リスクを算出する際には、属性値が同じレコードを検索する必要がある。このため、リスク評価装置1は、対象のデータセットに基づいて、検索に適した構造型データを構築する。構造型データは、木構造又はハッシュマップ等であってよい。
本実施形態では、構造型データとして、木構造の一種である基数木(Radix Tree)を一例として説明する。
図2は、本実施形態に係るデータセットに対する基数木を例示する図である。
データセット(図1)の4つの属性のうち、年齢及び購入品が攻撃者に知られている場合、リスク評価装置1は、これらの属性値を連結した文字列を用いて、木構造を構築する。
具体的には、攻撃者の知識属性から「25−30DVD」、「25−30BD」、「40−50BD」、「40−50DVD」といった文字列が抽出される。したがって、基数木では、ルートノードの下に「25−30」及び「40−50」の2つのノードが設けられ、さらにそれぞれのノードの下に「DVD」及び「BD」のノードが設けられる。末端の各ノードには、レコード数が対応付けられ、リスク評価装置1は、この基数木を検索することによりレコード数を取得する。
図3は、本実施形態に係るリスク評価装置1の機能構成を示す図である。
リスク評価装置1は、入力部11と、選択部12と、算出部13と、出力部14とを備える。
入力部11は、データセットと共に、データセットを提供した場合の個人識別リスクについて、許容可能なリスク値の入力を受け付ける。許容可能なリスク値は、攻撃者が知識として持つ属性に関して、値が同一であるレコードの数として許容できる最小の値である。
なお、データセットに含まれるレコード及び属性は全て入力されなくてもよく、重要度に応じて一部のレコード及び属性が入力されてもよい。
また、入力部11は、攻撃者が知識として持つ可能性が高い重要な属性を初期値として受け付けてもよい。入力部11は、例えば、事前に構築された知識データベースの中から複数の属性の組み合わせを入力としてもよい。
選択部12は、データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する。
選択部12は、属性の組み合わせの全てのパターンを選択してもよいし、ある上限数までのパターンを選択してもよい。また、攻撃者が知識として持つ属性が初期値として入力された場合には、選択部12は、これらの属性に対して追加する属性のパターンを選択する。
算出部13は、選択されたパターンにおける属性の組み合わせに対して、値が同一であるレコード数の逆数を、レコード毎の個人識別リスクとして算出する。
出力部14は、レコード毎の個人識別リスクが入力された許容可能なリスク値で示されるリスクを超えるか否かによって区分された属性の組み合わせを出力する。具体的には、出力部14は、例えば、全レコードの個人識別リスクが許容可能なレベルに収まる属性の組み合わせと、各レコードの個人識別リスクとを出力する。
なお、出力される情報は、これには限られず、例えば、いずれかのレコードの個人識別リスクが許容できないレベルとなる属性の組み合わせが出力されてもよい。また、個人識別リスクが許容可能なレコード、又は許容できないレコードが出力されてもよい。
図4は、本実施形態に係るリスク評価装置1によるリスク評価方法を示すフローチャートである。
ステップS101において、入力部11は、評価の対象となるデータセットD(レコード数u、属性数v)、許容可能なリクス値N、及び攻撃者が知識として持つ属性ATTRa={attr,・・・,attr}を入力として受け付ける。
ステップS102において、選択部12は、データセットDに含まれる属性から、ATTRaに追加する属性のパターンを選択する。
ステップS103において、選択部12は、ステップS102で選択されたパターン毎にループ処理を行う。
ステップS104において、算出部13は、データセットD及び知識属性ATTRaから、基数木を構築する。
ステップS105において、算出部13は、データセットDのレコード毎に、ATTRaの値の組み合わせKp=r attr1‖・・・‖r attri(p=1,・・・,u)(r attrqは、レコードpにおける属性attrの値)を、基数木から検索し、それぞれの出現回数nを算出する。ここで、ATTRa=φの場合、算出部13は、処理を行わない。
ステップS106において、算出部13は、出現回数nの逆数である1/nの最大値を、ATTRaに対する個人識別リスクとして保存する。
ステップS107において、算出部13は、個人識別リスクが最大となったnが許容可能なリスク値Nより小さいか否かを判定する。この判定がYESの場合、処理はステップS108に移り、判定がNOの場合、処理はステップS111に移る。
ステップS108において、算出部13は、後述のステップS112で属性を追加したか否かを判定する。この判定がYESの場合、処理はステップS109に移り、判定がNOの場合、処理はステップS110に移る。
ステップS109において、算出部13は、後述のステップS112で直前に追加した属性attrをATTRaから削除(ATTRa←ATTRa\{attr})し、非選択の属性集合EXに追加する(EX←EX∪{attr})。その後、処理はステップS111に移る。
ステップS110において、出力部14は、入力されたATTRaでは個人識別リスクが許容できないレベルであるため、エラー出力を行う。
ステップS111において、算出部13は、データセットDの全属性ATTR={attr,・・・,attr}の中に、集合EXに含まれておらずATTRaに追加できる属性attrがあるか否かを判定する。この判定がYESの場合、処理はステップS112に移り、判定がNOの場合、処理はステップS113に移る。
ステップS112において、算出部13は、ATTRaに新たな属性attrを追加する。その後、処理はステップS104に戻り、リスク評価を継続する。
ステップS113において、出力部14は、個人識別リスクが許容可能なレベルにある属性の組み合わせATTRaを出力する。
本実施形態によれば、リスク評価装置1は、データセットの提供者が安全性の基準(リスク値)を設けている場合に、実際の攻撃者を想定したモデル化された攻撃アルゴリズムを用いて、この基準を満たす属性の組み合わせを精度良く出力できる。
また、リスク評価装置1は、出力された属性の組み合わせと、新規ユーザ(レコード)が持つ属性値とを比較し、個人識別リスクを算出することで、この新規ユーザの潜在的なリスクが許容範囲内であるか否かを見積もることができる。
例えば、この新規ユーザの属性値が出力された属性の組み合わせのいずれとも一致しない場合、潜在リスクが高いと判断できる。この場合、データセットの提供者は、属性値を加工(削除、一般化等)することでリスクを下げる、又はこの新規ユーザ(レコード)を対象のデータセットに加えない等のプライバシ保護施策を取ることができる。
また、データセットの属性全体又は一部の匿名化レベルを変更し、例えば住所であれば市町村レベルを都道府県レベルに、郵便番号であれば7桁を3桁に一般化した上で、再度リスク評価を行うことで、リスク評価装置1は、データセットにおける個人識別リスクの変化を定量的に評価できる。
さらに、データセットの各属性に取得コストが付与されている場合、リスク評価装置1は、出力結果に取得コストを追加することで、リスク評価装置1は、攻撃者が必要とする取得コストを見積もることができる。この結果、例えば、得られる情報に対して取得コストが高すぎる場合、この属性の組み合わせはリスクが低いと判断できる。
<第2実施形態>
以下、本発明の第2実施形態について説明する。
本実施形態のリスク評価装置1は、公開対象のデータセットと共に、攻撃者が知識としてもつ属性の数、及び属性を組み合わせることによる個人識別リスクの変化率(リスク幅)の許容値を入力として、リスクが高い属性の組み合わせを出力する。
ここで、リスク幅は、単一の属性に基づく最大の個人識別リスクから、複数の属性を組み合わせた場合の個人識別リスクへの変化率と定義される。すなわち、リスク幅は、属性を組み合わせることにより個人識別リスクが上昇するほど大きくなる指標である。
図5は、本実施形態に係るデータセットに対する個人識別リスクのリスク幅を説明する図である。
データセットに含まれる4つの属性のうち、例えば、住所及び購入品が攻撃者の知識属性として選択された場合、住所単独では属性値「大阪」に対する個人識別リスクが最大であり(k=1/5)、購入品単独では属性値「BD」に対する個人識別リスクが最大である(k=1/4)。したがって、単一の属性に対する最大の個人識別リスクは、kmax=1/4である。
一方、住所及び購入品の組み合わせでは「東京−BD」及び「大阪−BD」に対する個人識別リスクが最大で、K=1/2である。したがって、リスク幅は、K/kmax=2となる。
また、例えば、年齢及び趣向が攻撃者の知識属性として選択された場合、年齢単独では属性値「40−50」に対する個人識別リスクが最大であり(k=1/11)、趣向単独では属性値「SF」に対する個人識別リスクが最大である(k=1/1)。したがって、単一の属性に対する最大の個人識別リスクは、kmax=1/1である。
一方、年齢及び趣向の組み合わせでは「40−50−SF」に対する個人識別リスクが最大で、K=1/1である。したがって、リスク幅は、K/kmax=1となる。
リスク評価装置1の機能構成は、第1実施形態(図3)と同様であるが、処理内容が以下のように異なっている。
入力部11は、データセットと共に、データセットを提供した場合の個人識別リスクについて、このデータセットに含まれる複数の属性のいずれかが組み合わされることによる個人識別リスクの変化率に対する許容可能なリスク幅の入力を受け付ける。
なお、データセットに含まれるレコード及び属性は全て入力されなくてもよく、重要度に応じて一部のレコード及び属性が入力されてもよい。
選択部12は、データセットに含まれる複数の属性から、指定されたx個以下で攻撃者が知識として持ち得る属性の組み合わせを選択する。
選択部12は、属性の組み合わせの全てのパターンを選択してもよいし、ある上限数までのパターンを選択してもよい。
算出部13は、属性の組み合わせ、及びこの組み合わせに含まれる単一の属性それぞれに対して、値が同一であるレコード数の逆数を、レコード毎の個人識別リスクとして算出する。
出力部14は、選択部12により選択された属性の組み合わせに含まれる単一の属性に対する最大の個人識別リスクから、属性の組み合わせに対する最大の個人識別リスクへの変化率が許容可能なリスク幅を超えるか否かによって区分された属性の組み合わせを出力する。
具体的には、出力部14は、例えば、リスク幅が許容可能なレベルを超える、すなわちリスクが高いと考えられる属性の組み合わせと、リスク幅及びレコード毎の個人識別リスクとを出力する。
なお、出力される情報は、これには限られず、例えば、リスク幅が許容可能なレベルに収まる、すなわちリスクが低いと考えられる属性の組み合わせが出力されてもよい。
図6は、本実施形態に係るリスク評価装置1によるリスク評価方法を示すフローチャートである。
ステップS201において、入力部11は、評価の対象となるデータセットD(レコード数u、属性数v)、許容可能なリクス幅y、及び攻撃者が知識として持つ属性の数xを入力として受け付ける。
ステップS202において、選択部12は、データセットDに含まれる属性から、x個以下の属性の組み合わせATTRaのパターンを選択する。
ステップS203において、選択部12は、ステップS202で選択された知識属性ATTRaのパターン毎にループ処理を行う。
ステップS204において、算出部13は、ATTRaに含まれる単一の属性毎にループ処理を行う。
ステップS205において、算出部13は、データセットD及び選択された単一の属性から、基数木を構築する。
ステップS206において、算出部13は、データセットDのレコード毎に、属性値を基数木から検索し、それぞれの出現回数nを算出する。
ステップS207において、算出部13は、出現回数nの逆数である1/nの最大値を、選択された属性に対する個人識別リスクkとして保存する。
ステップS208において、算出部13は、データセットD及び知識属性ATTRaから、基数木を構築する。
ステップS209において、算出部13は、データセットDのレコード毎に、ATTRaの値の組み合わせKp=r attr1‖・・・‖r attrx(p=1,・・・,u)(r attrqは、レコードpにおける属性attrの値)を、基数木から検索し、それぞれの出現回数nを算出する。
ステップS210において、算出部13は、出現回数nの逆数である1/nの最大値を、ATTRaに対する個人識別リスクKとして保存する。
ステップS211において、算出部13は、属性の組み合わせに対する個人識別リスクKと、単一の属性に対する個人識別リスクkの最大値kmaxとの比率であるリスク幅K/kmaxが許容可能な値yを超えているか否かを判定する。この判定がYESの場合、処理はステップS212に移り、判定がNOの場合、処理はステップS212をスキップしてループ処理を継続する。
ステップS212において、出力部14は、リスク幅が許容値を超えた属性の組み合わせATTRaを出力する。
本実施形態によれば、リスク評価装置1は、実際の攻撃者を想定したモデル化された攻撃アルゴリズムを用いて、リスク幅に基づいて判定される危険性の高い属性の組み合わせを精度良く出力できる。
出力された属性の組み合わせは、潜在リスクが高いと判断できるので、データセットの提供者は、属性値を加工(削除、一般化等)することでリスクを下げる等のプライバシ保護施策を取ることができる。
リスク評価装置1は、新規ユーザ(レコード)が追加された場合、追加された後のデータセットに対して再度リスク評価を行うことで、リスクの変化を評価できる。
また、データセットの属性全体又は一部の匿名化レベルを変更して再度リスク評価を行うことで、リスク評価装置1は、データセットにおけるリスクの変化を定量的に評価できる。
さらに、データセットの各属性に取得コストが付与されている場合、リスク評価装置1は、出力結果に取得コストを追加することで、リスク評価装置1は、攻撃者が必要とする取得コストを見積もることができる。この結果、例えば、得られる情報に対して取得コストが高すぎる場合、この属性の組み合わせはリスクが低いと判断できる。
<第3実施形態>
以下、本発明の第3実施形態について説明する。
本実施形態のリスク評価装置1は、公開対象のデータセットと共に、属性毎の取得コスト、及び攻撃者の想定リソース、すなわち攻撃者が許容するコストの上限を入力として、攻撃者が知識として持ち得る属性の組み合わせを出力する。
リスク評価装置1の機能構成は、第1実施形態(図3)と同様であるが、処理内容が以下のように異なっている。
入力部11は、属性毎の取得コストが与えられたデータセットと共に、データセットを提供した場合の個人識別リスクについて、攻撃者が知識として属性値を取得するための想定リソースの入力を受け付ける。
なお、データセットに含まれるレコード及び属性は全て入力されなくてもよく、重要度に応じて一部のレコード及び属性が入力されてもよい。
また、入力部11は、攻撃者が知識として持つ可能性が高い重要な属性を初期値として受け付けてもよい。入力部11は、例えば、事前に構築された知識データベースの中から複数の属性の組み合わせを入力としてもよい。
選択部12は、データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する。
選択部12は、属性の組み合わせの全てのパターンを選択してもよいし、ある上限数までのパターンを選択してもよい。また、攻撃者が知識として持つ属性が初期値として入力された場合には、選択部12は、これらの属性に対して追加する属性のパターンを選択する。
算出部13は、選択されたパターンにおける属性の組み合わせに対して、値が同一であるレコード数の逆数を、レコード毎の個人識別リスクとして算出する。
出力部14は、属性の組み合わせに含まれる各属性の取得コストの合計が攻撃者の想定リソースを超えるか否かによって区分された属性の組み合わせ、及び個人識別リスクを出力する。具体的には、出力部14は、例えば、取得コストの合計が想定リソース内に収まる属性の組み合わせと、合計コスト及び各レコードの個人識別リスクとを出力する。
図7は、本実施形態に係るリスク評価装置1によるリスク評価方法を示すフローチャートである。
ステップS301において、入力部11は、各属性に取得コストが付与されたデータセットDc(レコード数u、属性数v)、攻撃者の想定リソースRa、及び攻撃者が知識として持つ属性ATTRa={attr,・・・,attr}を入力として受け付ける。
ステップS302において、選択部12は、データセットDcに含まれる属性から、ATTRaに追加する属性のパターンを選択する。
ステップS303において、選択部12は、ステップS302で選択されたパターン毎にループ処理を行う。
ステップS304において、算出部13は、ATTRaに含まれる属性の取得コストの合計が攻撃者のリソースRaを超えたか否かを判定する。この判定がYESの場合、処理はステップS306に移り、判定がNOの場合、処理はステップS305に移る。
ステップS305において、算出部13は、選択されたパターンに従って、ATTRaに新たな属性を追加する。その後、処理はステップS304に戻る。
ステップS306において、算出部13は、ステップS305で属性を追加したか否かを判定する。この判定がYESの場合、処理はステップS308に移り、判定がNOの場合、処理はステップS307に移る。
ステップS307において、出力部14は、入力されたATTRaでは取得コストの合計が攻撃者のリソースを超えるため、エラー出力を行う。
ステップS308において、算出部13は、ステップS305で直前に追加した属性をATTRaから削除する。
ステップS309において、算出部13は、データセットDc及び知識属性ATTRaから、基数木を構築する。
ステップS310において、算出部13は、データセットDcのレコード毎に、ATTRaの値の組み合わせKp=r attr1‖・・・‖r attri(i=|ATTRa|)(p=1,・・・,u)(r attrqは、レコードpにおける属性attrの値)を、基数木から検索し、それぞれの出現回数nを算出する。
ステップS311において、算出部13は、出現回数nの逆数である1/nを、レコード毎のATTRaに対する個人識別リスクとして保存する。
ステップS312において、出力部14は、取得コストの合計が攻撃者の想定リソースに収まる属性の組み合わせATTRa、及びこのATTRaに基づくレコード毎の個人識別リスクを出力する。
なお、本フローチャートで示す方法では、リスク評価装置1は、想定コスト内に収まる最大数の属性を出力しているが、これには限られず、より合計コストが小さい少数の属性の組み合わせを出力してもよい。
本実施形態によれば、リスク評価装置1は、各属性の取得コストが判明しているデータセットに対して、攻撃者が使用可能な想定リソースに基づいて、入手可能な知識属性の組み合わせを精度良く出力できる。さらに、リスク評価装置1は、実際の攻撃者を想定したモデル化された攻撃アルゴリズムを用いて、得られた入手可能な知識属性の組み合わせに対する個人識別リスクを精度良く出力できる。
これにより、データセットの提供者は、出力された属性の組み合わせ、取得コストの合計、及び個人識別リスクに基づいて、攻撃者が入手すると考えられる属性の組み合わせを推定できる。例えば、合計コストが小さく、かつ個人識別リスクが高くなる属性の組み合わせは、攻撃者が入手する可能性が高いと判断される。
データセットの提供者は、このような組み合わせを潜在リスクが高いと判断し、属性値を加工(削除、一般化等)することでリスクを下げる等のプライバシ保護施策を取ることができる。
<第4実施形態>
以下、本発明の第4実施形態について説明する。
本実施形態のリスク評価装置1は、公開対象のデータセットと共に、匿名化レベルの定義ファイル、及び個人識別リスクに対する許容値を入力として、適切な匿名化レベルの組み合わせを出力する。
ここで、匿名化レベルの定義ファイルは、例えば、レベル3{日本}、レベル2{東京、大阪}、レベル1{池袋、新宿、豊中、梅田}のように、それぞれの包含関係を表すデータが格納される。
図8は、本実施形態に係るリスク評価装置1の機能構成を示す図である。
リスク評価装置1は、入力部11と、選択部12と、匿名化部15と、算出部13と、出力部14とを備える。
入力部11は、データセットと共に、匿名化レベルの定義ファイル、及びデータセットを提供した場合の個人識別リスクについて、許容可能なリスク値の入力を受け付ける。
なお、データセットに含まれるレコード及び属性は全て入力されなくてもよく、重要度に応じて一部のレコード及び属性が入力されてもよい。
また、入力部11は、攻撃者が知識として持つ可能性が高い重要な属性を初期値として受け付けてもよい。入力部11は、例えば、事前に構築された知識データベースの中から複数の属性の組み合わせを入力としてもよい。
選択部12は、データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する。
選択部12は、属性の組み合わせの全てのパターンを選択してもよいし、ある上限数までのパターンを選択してもよい。また、攻撃者が知識として持つ属性が初期値として入力された場合には、選択部12は、これらの属性に対して追加する属性のパターンを選択する。
匿名化部15は、選択部12により選択された属性の組み合わせに含まれるいずれかの属性を選択し、定義ファイルに基づいて匿名化レベルを上げて一般化する。
このとき、匿名化部15は、属性ごとに全てのレコードの匿名化レベルを変更してもよいが、これには限られない。匿名化部15は、例えば、住所属性が「東京」のレコードのみ年齢属性の匿名化レベルを変更する等、複数の条件に従って一部のレコードを対象に匿名化レベルを変更してもよい。
また、匿名化部15は、組み合わせの中から一般化する属性の順序について、全てのパターンを選択してもよいし、ある上限数までのパターンを選択してもよい。
算出部13は、選択されたパターンにおける属性の組み合わせに対して、値が同一であるレコード数の逆数を、レコード毎の個人識別リスクとして算出する。
出力部14は、個人識別リスクの最大値が許容可能なリスク値で示されるリスクを超えるか否かによって区分された属性及び匿名化レベルの組み合わせを出力する。具体的には、出力部14は、例えば、全レコードの個人識別リスクが許容可能なレベルに収まる属性及び匿名化レベルの組み合わせと、各レコードの個人識別リスクとを出力する。
なお、出力される情報は、これには限られず、例えば、いずれかのレコードの個人識別リスクが許容できないレベルとなる属性及び匿名化レベルの組み合わせが出力されてもよい。また、個人識別リスクが許容可能なレコード、又は許容できないレコードが出力されてもよい。
図9は、本実施形態に係るリスク評価装置1によるリスク評価方法を示すフローチャートである。
ステップS401において、入力部11は、評価の対象となるデータセットD(レコード数u、属性数v)、攻撃者が知識として持つ属性ATTRa={attr,・・・,attr}、及び許容可能なリクス値Nを入力として受け付ける。
なお、ATTRaの入力がない場合、選択部12は、全ての属性を選択してATTRaとする。
ステップS402において、匿名化部15は、ATTRaに含まれる属性に関して、匿名化する順序パターンを選択する。
ステップS403において、匿名化部15は、ステップS402で選択されたパターン毎にループ処理を行う。
ステップS404において、匿名化部15は、定義ファイルに基づいて、選択された属性の匿名化レベルを1つ上げる(一般化する)。
ステップS405において、算出部13は、データセットD及び知識属性ATTRaから、基数木を構築する。
ステップS406において、算出部13は、データセットDのレコード毎に、ATTRaの値の組み合わせKp=r attr1‖・・・‖r attri(p=1,・・・,u)(r attrqは、レコードpにおける属性attrの値)を、基数木から検索し、それぞれの出現回数nを算出する。
ステップS407において、算出部13は、出現回数nの逆数である1/nの最大値を、個人識別リスクとして保存する。
ステップS408において、算出部13は、個人識別リスクが最大となったnが許容可能なリスク値Nより小さいか否かを判定する。この判定がYESの場合、処理はステップS404に戻り、判定がNOの場合、処理はステップS409に移る。
ステップS409において、出力部14は、個人識別リスクが許容可能なレベルにある属性及び匿名化レベルの組み合わせを出力する。
本実施形態によれば、リスク評価装置1は、データセットの提供者が安全性の基準(リスク値)を設けている場合に、実際の攻撃者を想定したモデル化された攻撃アルゴリズムを用いて、この基準を満たす属性及び匿名化レベルの組み合わせを精度良く出力できる。
また、出力された匿名化レベルの組み合わせからレベル変更後のデータセットを容易に生成できるので、リスク評価装置1は、安全性を確保した上で適切な匿名化レベルに一般化された有用なデータセットを生成できる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
リスク評価装置1によるリスク評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(リスク評価装置1)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータ(リスク評価装置1)に提供されてもよい。
1 リスク評価装置
11 入力部
12 選択部
13 算出部
14 出力部
15 匿名化部

Claims (9)

  1. データセットを提供した場合の個人識別リスクについて、許容可能なリスク値の入力を受け付ける入力部と、
    前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択部と、
    前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出部と、
    前記レコード毎の個人識別リスクが前記許容可能なリスク値で示されるリスクを超えるか否かによって区分された前記属性の組み合わせを出力する出力部と、を備えるリスク評価装置。
  2. データセットを提供した場合の個人識別リスクについて、当該データセットに含まれる複数の属性のいずれかが組み合わされることによる個人識別リスクの変化率に対する許容可能なリスク幅の入力を受け付ける入力部と、
    前記複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択部と、
    前記属性の組み合わせ、及び当該組み合わせに含まれる単一の属性それぞれに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出部と、
    前記選択部により選択された属性の組み合わせに含まれる単一の属性に対する最大の個人識別リスクから、当該属性の組み合わせに対する最大の個人識別リスクへの変化率が前記許容可能なリスク幅を超えるか否かによって区分された前記属性の組み合わせを出力する出力部と、を備えるリスク評価装置。
  3. データセットを提供した場合の個人識別リスクについて、攻撃者が知識として属性値を取得するための想定リソースの入力を受け付ける入力部と、
    前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択部と、
    前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出部と、
    前記属性の組み合わせに含まれる各属性の取得コストの合計が前記想定リソースを超えるか否かによって区分された前記属性の組み合わせ、及び前記個人識別リスクを出力する出力部と、を備えるリスク評価装置。
  4. データセットを提供した場合の個人識別リスクについて、許容可能なリスク値の入力を受け付ける入力部と、
    前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択部と、
    前記属性の組み合わせに含まれるいずれかの属性の匿名化レベルを上げる匿名化部と、
    前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出部と、
    前記個人識別リスクの最大値が前記許容可能なリスク値で示されるリスクを超えるか否かによって区分された前記属性及び匿名化レベルの組み合わせを出力する出力部と、を備えるリスク評価装置。
  5. データセットを提供した場合の個人識別リスクについて、許容可能なリスク値の入力を受け付ける入力ステップと、
    前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択ステップと、
    前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出ステップと、
    前記レコード毎の個人識別リスクが前記許容可能なリスク値で示されるリスクを超えるか否かによって区分された前記属性の組み合わせを出力する出力ステップと、をコンピュータが実行するリスク評価方法。
  6. データセットを提供した場合の個人識別リスクについて、当該データセットに含まれる複数の属性のいずれかが組み合わされることによる個人識別リスクの変化率に対する許容可能なリスク幅の入力を受け付ける入力ステップと、
    前記複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択ステップと、
    前記属性の組み合わせ、及び当該組み合わせに含まれる単一の属性それぞれに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出ステップと、
    前記選択ステップにおいて選択された属性の組み合わせに含まれる単一の属性に対する最大の個人識別リスクから、当該属性の組み合わせに対する最大の個人識別リスクへの変化率が前記許容可能なリスク幅を超えるか否かによって区分された前記属性の組み合わせを出力する出力ステップと、をコンピュータが実行するリスク評価方法。
  7. データセットを提供した場合の個人識別リスクについて、攻撃者が知識として属性値を取得するための想定リソースの入力を受け付ける入力ステップと、
    前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択ステップと、
    前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出ステップと、
    前記属性の組み合わせに含まれる各属性の取得コストの合計が前記想定リソースを超えるか否かによって区分された前記属性の組み合わせ、及び前記個人識別リスクを出力する出力ステップと、をコンピュータが実行するリスク評価方法。
  8. データセットを提供した場合の個人識別リスクについて、許容可能なリスク値の入力を受け付ける入力ステップと、
    前記データセットに含まれる複数の属性から、攻撃者が知識として持ち得る属性の組み合わせを選択する選択ステップと、
    前記属性の組み合わせに含まれるいずれかの属性の匿名化レベルを上げる匿名化ステップと、
    前記属性の組み合わせに対して、値が同一であるレコード数に基づいてレコード毎の個人識別リスクを算出する算出ステップと、
    前記個人識別リスクの最大値が前記許容可能なリスク値で示されるリスクを超えるか否かによって区分された前記属性及び匿名化レベルの組み合わせを出力する出力ステップと、をコンピュータが実行するリスク評価方法。
  9. 請求項5から請求項8のいずれかに記載のリスク評価方法をコンピュータに実行させるためのリスク評価プログラム。
JP2015201860A 2015-10-13 2015-10-13 リスク評価装置、リスク評価方法及びリスク評価プログラム Active JP6487820B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015201860A JP6487820B2 (ja) 2015-10-13 2015-10-13 リスク評価装置、リスク評価方法及びリスク評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015201860A JP6487820B2 (ja) 2015-10-13 2015-10-13 リスク評価装置、リスク評価方法及びリスク評価プログラム

Publications (2)

Publication Number Publication Date
JP2017076170A JP2017076170A (ja) 2017-04-20
JP6487820B2 true JP6487820B2 (ja) 2019-03-20

Family

ID=58551321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015201860A Active JP6487820B2 (ja) 2015-10-13 2015-10-13 リスク評価装置、リスク評価方法及びリスク評価プログラム

Country Status (1)

Country Link
JP (1) JP6487820B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6484657B2 (ja) * 2017-03-17 2019-03-13 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
KR102369228B1 (ko) 2017-05-25 2022-02-28 삼성에스디에스 주식회사 리스크 기반 인증을 위한 리스크 분석 장치 및 방법
WO2021260903A1 (ja) * 2020-06-25 2021-12-30 三菱電機株式会社 匿名加工装置、匿名加工方法、及び、匿名加工プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3866210B2 (ja) * 2003-03-20 2007-01-10 株式会社エヌ・ティ・ティ・データ 個人特定防止装置、個人特定防止方法、および、プログラム
JP2006309737A (ja) * 2005-03-28 2006-11-09 Ntt Communications Kk 開示情報提示装置、個人特定度算出装置、id度取得装置、アクセス制御システム、開示情報提示方法、個人特定度算出方法、id度取得方法、及びプログラム
JP5042667B2 (ja) * 2007-03-05 2012-10-03 株式会社日立製作所 情報出力装置、情報出力方法、及び、情報出力プログラム
JP2011133958A (ja) * 2009-12-22 2011-07-07 Michio Kimura 匿名度の指標値を算出する情報処理システムおよび匿名度の指標値の算出方法

Also Published As

Publication number Publication date
JP2017076170A (ja) 2017-04-20

Similar Documents

Publication Publication Date Title
US20240223480A1 (en) Systems and methods for social graph data analytics to determine connectivity within a community
US9071636B2 (en) Predictive scoring management system for application behavior
CA2957674C (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
KR20200057903A (ko) 인공지능 모델 플랫폼 및 인공지능 모델 플랫폼 운영 방법
CN106209759A (zh) 检测驻留在网络上的可疑文件
JP6413769B2 (ja) データ秘匿装置、データ秘匿プログラムおよびデータ秘匿方法
CN111966912B (zh) 基于知识图谱的推荐方法、装置、计算机设备及存储介质
JP2021507360A (ja) データを非特定化する方法、データを非特定化するためのシステム、および非データを特定化するためのコンピュータ・プログラム
Chakraborty et al. A Secure IoT‐Based Cloud Platform Selection Using Entropy Distance Approach and Fuzzy Set Theory
CN105825137B (zh) 一种确定敏感数据扩散行为的方法及装置
JP6487820B2 (ja) リスク評価装置、リスク評価方法及びリスク評価プログラム
CN114270391A (zh) 量化隐私影响
Borbor et al. Diversifying network services under cost constraints for better resilience against unknown attacks
JP2020119085A (ja) 計算機システム及び対象に関する目的を達成するために有用な情報の提示方法
JP6977577B2 (ja) サイバー脅威評価装置、サイバー脅威評価プログラムおよびサイバー脅威評価方法
CN114154166A (zh) 异常数据识别方法、装置、设备和存储介质
Alamleh et al. Machine learning-based detection of smartphone malware: Challenges and solutions
KR101959213B1 (ko) 침해 사고 예측 방법 및 그 장치
Borowiecki et al. The potential of greed for independence
Maag et al. Graph anonymization using machine learning
JP5568907B2 (ja) 情報アセスメントシステム、情報アセスメント方法及びプログラム
CN104572066B (zh) 用于面向屏幕的数据流分析的方法和系统
Holland Enabling Open Source Intelligence (OSINT) in private social networks
JP6229710B2 (ja) 情報受信装置、情報受信システム、及び、情報受信方法
Ergenç Bostanoǧlu et al. Minimizing information loss in shared data: Hiding frequent patterns with multiple sensitive support thresholds

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190222

R150 Certificate of patent or registration of utility model

Ref document number: 6487820

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150