JP2013190838A - 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム - Google Patents

情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム Download PDF

Info

Publication number
JP2013190838A
JP2013190838A JP2012054446A JP2012054446A JP2013190838A JP 2013190838 A JP2013190838 A JP 2013190838A JP 2012054446 A JP2012054446 A JP 2012054446A JP 2012054446 A JP2012054446 A JP 2012054446A JP 2013190838 A JP2013190838 A JP 2013190838A
Authority
JP
Japan
Prior art keywords
information
information loss
database
attribute value
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012054446A
Other languages
English (en)
Other versions
JP5782636B2 (ja
Inventor
Kenichiro Kitayama
賢一郎 北山
Naoyuki Tanaka
均幸 田中
Tetsuya Yamaguchi
徹也 山口
Akihisa Kobayashi
昭久 小林
Takahisa Asano
貴久 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Nippon Telegraph and Telephone West Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Nippon Telegraph and Telephone West Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Nippon Telegraph and Telephone West Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012054446A priority Critical patent/JP5782636B2/ja
Publication of JP2013190838A publication Critical patent/JP2013190838A/ja
Application granted granted Critical
Publication of JP5782636B2 publication Critical patent/JP5782636B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】匿名化を施した際に過度な情報損失が生じているか否かを判定する。
【解決手段】情報匿名化システムは、データベースに含まれる各レコードに対してk−匿名性を満たすように属性値を一般化した際に失われた情報の度合いを示す情報損失度を属性値ごとに算出し、算出した情報損失度が予め定められた情報損失閾値より大きい場合、属性値を一般化した際に前記データベースにおいて過度な情報損失が生じたと判定する情報損失要因判定部を具備する。
【選択図】図3

Description

本発明は、情報匿名化システム、情報損失判定方法、及び情報損失判定プログラムに関する。
企業の顧客データや、病院のカルテ等の大規模なデータベースに含まれるデータに対して統計的な処理を施して得られた情報に基づいてビジネス傾向の特定や、病気の予防等に活用することが行われている。このような情報を活用する際には、プライバシの保護やセキュリティの確保などの観点から、匿名化処理を施して顧客や個人が特定されないようにする必要がある。そのため、データから有用性が損なわれることを抑えつつ、匿名化処理を行うことが検討されている(例えば、特許文献1)。
特開2011−209800号公報
しかしながら、匿名化処理を行ったために情報損失が生じる場合がある。一例としては、年齢の属性値を抽象化して匿名性を確保するために、各属性値を「未成年」と「成人」とに抽象化すると、世代(10代、20代、…)の情報が失われる情報損失が生じてしまう。このような場合、得られた情報では、ビジネス傾向の特定(マーケティング)や統計処理に活用するには不十分であるためデータを有効に活用することができないという問題がある。
本発明は、上記問題を解決すべくなされたもので、その目的は、匿名化を施した際に過度な情報損失が生じているか否かを判定することができる情報匿名化システム、情報損失判定方法、及び情報損失判定プログラムを提供することにある。
上記問題を解決するために、本発明は、予め定められた複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う情報匿名化システムであって、前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した際に失われた情報の度合いを示す情報損失度を前記属性値ごとに算出し、算出した情報損失度が予め定められた情報損失閾値より大きい場合、前記属性値を一般化した際に前記データベースにおいて過度な情報損失が生じたと判定する情報損失要因判定部を具備し、前記情報損失度は、前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した階層数αから、対象とする前記属性値を有するレコード以外の前記データベースに含まれるレコードに対してk−匿名性を満たすように前記属性値を一般化した階層数βを減算した値であることを特徴とする情報匿名化システムである。
また、本発明は、上記に記載の発明において、前記情報損失要因判定部は、前記情報損失閾値より大きい情報損失度に対応する属性値を含むレコードを過度な情報損失を生じさせた原因であると判定することを特徴とする。
また、本発明は、上記に記載の発明において、前記情報損失要因判定部は、前記情報損失閾値より大きい情報損失度に対応する属性値を含むレコードの数に対する前記データベースに含まれるレコードの数の比が予め定められた出現閾値未満である場合、前記情報損失閾値より大きい情報損失度に対応する属性値を含むレコードを過度な情報損失を生じさせた原因であると判定することを特徴とする。
また、上記問題を解決するために、本発明は、前記データベースに含まれるレコードに対してk−匿名化を施した情報の要求を、ユーザの操作に応じて送信するユーザ端末と、過度な情報損失を生じさせた原因であると判定されたレコードを含む場合の情報損失度と、前記レコード以外の前記データベースに記憶されているレコードに対してk−匿名性を満たすように前記属性値を一般化した際に失われた情報の度合いを示す情報損失度と、過度な情報損失を生じさせた原因であると判定されたレコードの数に対する前記データベースに含まれるレコードの数の比である情報欠損率とを、前記ユーザ端末の要求に応じて出力する選択処理部と、を更に具備し、前記選択処理部は、過度な情報損失を生じさせた原因であると判定されたレコード以外の前記データベースに記憶されているレコードに対してk−匿名化を施した情報と、前記データベースに含まれる全てのレコードに対してk−匿名化を施した情報とのいずれかを提供する要求を前記ユーザ端末から受信し、受信した要求に応じた情報を前記ユーザ端末に出力するである。
また、本発明は、上記に記載の発明において、前記情報損失要因判定部が過度な情報損失が生じていると判定した場合、過度な情報損失を生じさせた原因であると判定されたレコード以外の前記データベースに記憶されているレコードに対してk−匿名化を施した情報を出力する情報提供部を更に備えることを特徴とする。
また、本発明は、上記に記載の発明において、前記情報損失閾値は、前記属性値の階層構造における階層数、及び前記データベースに含まれるレコード数に応じて定められていることを特徴とする。
また、上記問題を解決するために、本発明は、属性値を組み合わせた複数のレコードを含むデータベースに対して匿名化処理を行う情報匿名化システムにおける情報損失判定方法であって、前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した際に失われた情報の度合いを示す情報損失度を前記属性値ごとに算出し、算出した情報損失度が予め定められた情報損失閾値より大きい場合、前記属性値を一般化した際に前記データベースにおいて過度な情報損失が生じたと判定する情報損失要因判定ステップを有し、前記情報損失度は、前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した階層数αから、対象とする前記属性値を有するレコード以外の前記データベースに含まれるレコードに対してk−匿名性を満たすように前記属性値を一般化した階層数βを減算した値であることを特徴とする情報損失判定方法である。
また、上記問題を解決するために、本発明は、属性値を組み合わせた複数のレコードを含むデータベースに対して匿名化処理を行う情報匿名化システムに設けられたコンピュータに前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した際に失われた情報の度合いを示す情報損失度を前記属性値ごとに算出し、算出した情報損失度が予め定められた情報損失閾値より大きい場合、前記属性値を一般化した際に前記データベースにおいて過度な情報損失が生じたと判定する情報損失要因判定ステップを実行させ、前記情報損失度を、前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した階層数αから、対象とする前記属性値を有するレコード以外の前記データベースに含まれるレコードに対してk−匿名性を満たすように前記属性値を一般化した階層数βを減算して算出させるための情報損失判定プログラムである。
この発明によれば、各属性値に対する情報損失度を算出し、算出した情報損失度を情報損失閾値と比較することにより、匿名化を施した際における属性値の一般化において過度の情報損失が生じているか否かを判定することができる。また、過度な情報損失が生じている場合には、原因のレコードを特定することができる。
これにより、匿名化により得られた情報が、ビジネス傾向の特定(マーケティング)や統計処理等に適しているか否かを判定することができる。
本発明に係る情報損失判定の処理例を示す概略図である。 情報損失判定の処理例を示す概略図である。 本実施形態における情報匿名化システム100の構成を示す概略ブロック図である。 本実施形態における顧客情報データベース2に記憶されている顧客データの一例を示す図である。 本実施形態における情報匿名化装置1が行う情報損失判定処理を示すフローチャートである。 本実施形態における情報匿名化装置1が行う情報提供処理を示すフローチャートである。 図4に示した顧客データに対して匿名化を施した結果を示す図である。 本実施形態における情報損失閾値の設定例を示す図である。
本発明に係る具体的な実施形態を説明する前に、過度な情報損失が生じているか否かを判定する情報損失判定について説明する。情報損失判定では、データベースに含まれる属性値の抽象化により失われる情報を情報損失度という指標を用いて表す。この情報損失度に基づいて、データベースに対して匿名化処理を施した際に過度な情報損失が生じているか否かを判定する。
図1は、本発明に係る情報損失判定の処理例を示す概略図である。また、同図には、データベースを構成する各レコードに含まれる属性を抽象化(一般化)した際の階層関係が示されている。「A」〜「L」の各ノードは、属性値に対応している。ここでは、ノード「F」、G」、及び「L」に対応する属性値を有するレコードがデータベースに含まれ、k−匿名性を満たしていない場合を例にして説明する。また、ノード「F」及び「G」に対応する属性値を一般化すると、ノード「E」に対応する属性値になる。また、ノード「L」に対応する属性値を一般化すると、ノード「K」に対応する属性値となる。すなわち、同図に示す階層関係において、ノード「A」に対応する属性値が、他のノードに対応する属性値を最も一般化した属性値となっている。
ノード「F」及び「G」に対応する属性値を有するレコードに関しては、属性値に対して1段階の一般化を施して、ノード「E」に対応する属性値として扱うことでk−匿名性を保持できる。しかし、ノード「L」に対応するレコードに関しては、k−匿名性を保持するためには、属性値をノード「A」に対応する属性値に一般化する必要がある。すなわち、ノード「F」、「G」、及び「L」に対応する属性値を、ノード「A」に対応する属性値に一般化する匿名化処理を施して、属性値からレコードを特定できないようにする必要がある。
ここで、情報損失距離を以下のように算出する。データベースに含まれるノードに対応する属性値を含むレコードに対するk−匿名性を保持するために必要な一般化の階層数を距離αとし、情報損失要因の候補ノード(例えば、ノード「L」)を除いた場合の他のノードに対応する属性値を有するレコードに対するk−匿名性を保持するために必要な一般化の階層数を距離βとする。この距離αと距離βとを用いて、情報損失距離は「(距離α)−(距離β)」により算出される。例えば、ノード「L」に着目したとき、ノード「F」及び「G」に対応する属性値の情報損失距離は「4−1=3」となり、ノード「L」に対応する属性値の情報損失距離は「4−4=0」となる。
匿名化処理において、情報損失要因により生じた情報損失の程度を表す情報損失度を算出する。情報損失度は、ノードの属性値を有するレコードが存在するノードであって情報損失要因の候補に選択されていないノードに対する情報損失距離を総和した値である。図1に示した例において、ノード「L」を候補とした場合、ノード「F」とノード「G」との情報損失距離の和(6=3+3)が、ノード「L」に対する情報損失度である。
情報損失度が予め定められた情報損失閾値より大きいとき、匿名化処理により過度の情報損失が生じたと判定される。また、この情報損失の原因は、ノード「L」に対応する属性値を有するレコードであると判定される。また、過度な情報損失が生じないように、ノード「L」に対応する属性値を有するレコードを除いたデータベースを利用する場合における情報欠損率は、ノード「F」、「G」、及び「L」に対応する値を有するレコード数で、ノード「L」に対応する値を有するレコード数を除算した値となる。
以下に、具体的な例を示して、本発明に係る情報損失判定を更に説明する。
図2は、情報損失判定の処理例を示す概略図である。図2において、属性は年齢であり、各ノードには年齢又は年齢を一般化した値が対応付けられている。ここでは、「18歳」、「19歳」、「41歳」、「44歳」、及び「62歳」の属性値と、これらの属性値を一般化した「10代」、「20代」、…、「70代」の属性値と、「10代」の属性値を一般化した「未成年」の属性値と、「20代」、…、「70代」の属性値を一般化した「成人」の属性値とが階層関係が示されている。
属性値「18歳」「19歳」「41歳」及び「44歳」を有するレコードは、1段階の一般化により匿名性を満たすことができる。しかし、属性値「62歳」を有するレコードは、1段階の一般化を行っても匿名性を満たすことができない。この場合、各属性値に対して更に1段階の一般化を行う必要があり、「18歳」及び「19歳」の属性値は「未成年」に変換され、「41歳」、「44歳」、及び「62歳」の属性値は「成人」の属性値に変換されることになる。
属性値「62歳」の情報損失度が情報損失閾値より大きい場合、上述の匿名性処理において過度な情報損失が生じていると判定され、「62歳」を属性値として有するレコードが情報損失要因として判定される。
以下、本発明に係る一実施形態における情報匿名化システム、情報損失判定方法、及び情報損失判定プログラムを説明する。
図3は、本実施形態における情報匿名化システム100の構成を示す概略ブロック図である。同図に示すように、情報匿名化システム100は、情報匿名化装置1と、顧客情報データベース2と、ネットワーク3と、ユーザ端末4とを具備している。情報匿名化装置1は、顧客情報データベース2に記憶されている複数の顧客データ(レコード)に対して、各顧客を特定できないように顧客データを変換する匿名化を施し、各ユーザが利用するユーザ端末4にネットワーク3を介して送信する。このとき、情報匿名化装置1は、過度な情報損失が生じているか否かを判定し、判定結果をユーザに提示する。また、情報匿名化装置1は、ユーザ端末4を介したユーザからの要求に応じて、過度な情報損失を抑えた匿名化処理を顧客データに対して行い、当該匿名化処理により得られた匿名化顧客情報をユーザに提供する。
図4は、本実施形態における顧客情報データベース2に記憶されている顧客データの一例を示す図である。同図に示すように、顧客情報データベース2には、年齢、住所、性別等の複数の項目(属性)に対する属性値が組み合わされた顧客データが複数記憶されている。顧客データの一例としては、年齢の属性値「23歳」と、住所の属性値「神戸市北区藤原台****」と、性別の属性値「女性」とが組み合わされている。
図3に戻って、情報匿名化装置1の構成について説明する。
情報匿名化装置1は、上述の処理を行うために、第1匿名化部11、第1匿名化顧客情報記憶部12、情報損失要因判定部13、選択処理部14、情報損失要因削除部15、第2匿名化部16、第2匿名化顧客情報記憶部17、及び、情報提供部18を備えている。
第1匿名化部11は、顧客情報データベース2に記憶されている顧客データに対して、顧客データに含まれる項目のうち予め定められた項目(例えば、年齢と住所)の属性値を一般化する匿名化処理を施して、k−匿名性を満たす情報である第1匿名化顧客情報に変換して出力する。
第1匿名化顧客情報記憶部12は、第1匿名化部11が出力する第1匿名化顧客情報を記憶する。
情報損失要因判定部13は、顧客情報データベース2に記憶されている顧客データと、第1匿名化顧客情報記憶部12に記憶されている第1匿名化顧客情報とに基づいて、第1匿名化顧客情報において過度な情報損失が生じているか否かを判定する。また、情報損失要因判定部13は、過度な情報損失を生じさせている顧客データを特定する。情報損失要因判定部13は、判定の結果と、過度な情報損失を生じさせている顧客データの全顧客データ数における比率とを含む判定結果情報を選択処理部14に出力する。
選択処理部14は、情報損失要因判定部13から入力された判定結果情報をユーザ端末4に、ネットワーク3を介して送信する。また、選択処理部14は、過度な情報損失が発生している場合、過度な情報損失を抑えた匿名化処理を顧客データに施して得られた情報と、過度な情報損失が生じている第1匿名化顧客情報とのいずれを利用するかを示す選択情報を受信する。選択処理部14は、受信した選択情報が過度な情報損失を抑えた情報の選択を示す場合、情報損失要因削除部15に過度な情報損失を生じさせている顧客データを削除することを指示する削除情報を出力する。また、選択処理部14は、選択情報を情報提供部18に出力する。
情報損失要因削除部15は、選択処理部14から削除情報が入力されると、過度な情報損失を生じさせている顧客データ以外の顧客データを顧客情報データベース2から読み出し、読み出した顧客データを第2匿名化部16に出力する。
第2匿名化部16は、情報損失要因削除部15から入力される顧客データに対して、予め定められた項目の属性値を一般化する匿名化処理を施して、k−匿名性を満たす情報である第2匿名化顧客情報に変換して出力する。
第2匿名化顧客情報記憶部17は、第2匿名化部16が出力する第2匿名化顧客情報を記憶する。
情報提供部18は、選択処理部14から入力される選択情報に基づいて、第1匿名化顧客情報と、第2匿名化顧客情報とのいずれかを、匿名化された顧客データを要求したユーザのユーザ端末4に送信する。
図5は、本実施形態における情報匿名化装置1が行う情報損失判定処理を示すフローチャートである。
情報匿名化装置1において、情報損失判定処理が開始されると、第1匿名化部11は、顧客情報データベース2に記憶されている顧客データにおいて、顧客が特定されないようにする匿名化処理を予め定められた項目である対象属性の属性値に対して一般化を行い、第1匿名化顧客情報を生成して第1匿名化顧客情報記憶部12に記憶させる(ステップS101)。すなわち、第1匿名化部11は、顧客情報データベース2に記憶されている顧客データに対して、k−匿名性を満たすように、対象属性の属性値を一般化する。
情報損失要因判定部13は、第1匿名化顧客情報と顧客データとに基づいて、対象属性において用いられている全ての属性値に対して、以下のステップS102からステップS106までの処理を順に行う。
情報損失要因判定部13は、情報損失要因の判定対象の属性値に対する情報損失度を算出する(ステップS102)。
情報損失要因判定部13は、算出した情報損失度が予め定められた情報損失閾値より大きいか否かを判定し(ステップS103)、情報損失度が情報損失閾値より大きくない場合(ステップS103:NO)、次の属性値に対する判定(ステップS102〜ステップS106)を行う。
一方、情報損失度が情報損失閾値より大きい場合(ステップS103:YES)、情報損失要因判定部13は、判定対象の属性値に対するレコード数を全属性値に対するレコード数で除算した出現率を算出する(ステップS104)。ここで、出現率は、顧客情報データベース2に記憶されている顧客データの数に対する判定対象の属性値を有する顧客データの数の比である。すなわち(出現率)=(判定対象の属性値を有する顧客データの数)/(全ての顧客データの数)である。
情報損失要因判定部13は、算出した出現率が出現閾値未満であるか否かを判定し(ステップS105)、出現率が出現閾値以上である場合(ステップS105:NO)、次の属性値に対する判定(ステップS102〜ステップS106)を行う。
一方、出現率が出現閾値未満である場合(ステップS105:YES)、情報損失要因判定部13は、判定対象の属性値を記憶し、情報損失要因として登録する(ステップS106)。
情報損失要因判定部13は、全ての属性値に対してステップS102からステップS106までの処理を終えると、情報損失要因として属性値を登録したか否かを判定し(ステップS107)、情報損失要因として属性値を登録していた場合(ステップS107:YES)、顧客データに対する匿名化処理において過度な情報損失が生じていると判定し(ステップS108)、情報損失判定処理を終了する。
一方、情報損失要因として属性値を登録していない場合(ステップS107:NO)、情報損失要因判定部13は、顧客データに対する匿名化処理において過度な情報損失が生じていないと判定し(ステップS109)、情報損失判定処理を終了する。
ここで、ステップS102における情報損失度を算出する処理について、具体的な例を用いて説明する。例えば、図1に示した例において、ノード「L」に対応する属性値を判定対象とした場合、ノード「L」以外の属性値のうち顧客データ(レコード)が存在する属性値に対応するノード「F」及び「G」の情報損失距離から情報損失度を算出する。具体的には、ノード「F」の情報損失距離「3(=4−1)」と、ノード「G」の情報損失距離「3(=4−1)」との和「6(=3+3)」を情報損失度として算出する。この場合、情報損失要因判定部13は、「6」が情報損失閾値より大きいとき、ノード「L」に対応する属性値を情報損失要因の候補として、ステップS104以降の処理を進める。
また、ステップS104における出現率を算出する処理について、具体的な例を用いて説明する。例えば、図1に示した例において、ノード「F」、「G」、及び「L」に対応する属性値を有する顧客データの数が6、7、及び1である場合、ノード「L」に対応する属性値の出現率は、0.07(≒1/(6+7+1))になる。この場合、情報損失要因判定部13は、「0.07」が出現閾値より小さいとき、ノード「L」に対応する属性値を情報損失要因に登録する。
図6は、本実施形態における情報匿名化装置1が行う情報提供処理を示すフローチャートである。
情報匿名化装置1において、情報提供処理が開始されると、選択処理部14は、情報損失要因判定部13による情報損失判定の判定結果を取得する(ステップS201)。ここで、判定結果には、顧客データに対して匿名化を行い得られた第1匿名化顧客情報において過度な情報損失が生じたか否かを示す情報と、過度な情報損失が生じていた場合には情報損失要因を示す情報とが含まれる。
選択処理部14は、取得した判定結果に基づいて、情報有用性を算出する(ステップS202)。ここで、情報有用性は、情報損失要因を含んだ顧客データに対して匿名化を施した際の情報損失度と、情報損失要因を有する顧客データを削除して匿名化を施した際の情報損失度とを含む情報である。
選択処理部14は、取得した判定結果に基づいて、情報完全性を算出する(ステップS203)。ここで、情報完全性は、情報損失要因を削除した場合における情報欠損率を含む情報である。情報欠損率は、「情報損失要因を含む顧客データの数」を「全ての顧客データの数」で除算した値である。
情報損失要因に複数の属性値が登録されている場合、上述のステップS202における情報有用性と、ステップS203における情報完全性とは、属性値ごとに算出される。
選択処理部14は、算出した情報有用性及び情報完全性をユーザ端末4に送信して、情報損失要因を削除するか否かを判断する情報を提供する。また、選択処理部14は、ユーザが操作するユーザ端末4から選択情報を受信する。選択情報には、情報損失要因を削除しないで得られた匿名化情報(第1匿名化顧客情報)と情報損失要因を削除して得られた匿名化情報とのいずれを選択するかを示す情報、及び、情報損失要因を削除する場合においていずれの情報損失要因(属性値)を削除するかを示す情報が含まれる。すなわち、ユーザは、情報匿名化装置1が出力する情報有用性及び情報完全性に基づいて、上述の選択を行う。そして、情報匿名化装置1は、ユーザ端末4からネットワーク3を介して、選択情報を取得する(ステップS204)。
選択処理部14は、選択情報が情報損失要因の削除を示しているか否かを判定し(ステップS205)、情報損失要因の削除を示していない場合(ステップS205:NO)、第1匿名化顧客情報をユーザ端末4に送信する指示を情報提供部18に出力する。情報提供部18は、第1匿名化顧客情報を第1匿名化顧客情報記憶部12から読み出してユーザ端末4に送信し(ステップS206)、情報提供処理を終了する。
一方、選択情報が情報損失要因の削除を示している場合(ステップS205:YES)、選択処理部14は、削除する情報損失要因を情報損失要因削除部15に出力する。情報損失要因削除部15は、顧客情報データベース2に記憶されている顧客データのうち、削除する情報損失要因(属性値)を含まない顧客データを読み出して第2匿名化部16に出力する(ステップS207)。換言すると、情報損失要因削除部15は、顧客情報データベース2に記憶されている顧客データのうち情報損失要因を削除した顧客データを第2匿名化部16に出力することになる。
第2匿名化部16は、情報損失要因削除部15から入力された顧客データにおいて、顧客が特定されないようにする匿名化処理を対象属性の属性値に対して一般化を行い、第2匿名化顧客情報を生成して第2匿名化顧客情報記憶部17に記憶させる(ステップS208)。すなわち、第2匿名化部16は、入力された顧客データに対して、k−匿名性を満たすように、対象属性の属性値を一般化する。
情報提供部18は、第2匿名化顧客情報を第2匿名化顧客情報記憶部17から読み出してユーザ端末4に送信し(ステップS209)、情報提供処理を終了する。
以下に、情報損失要因を削除しない場合と、情報損失要因を削除した場合とにおいて、ユーザに提供する匿名化された顧客データの例を示す。
図7は、図4に示した顧客データに対して匿名化を施した結果を示す図である。ここでは、項目「年齢」と「住所」とが対象属性として予め定められており、k値を2(=k)としたk−匿名性を満たす場合について説明する。
図7(A)は第1匿名化顧客情報、すなわち情報損失要因を削除しないで得られた結果が示されている。図7(B)は第2匿名化顧客情報、すなわち情報損失要因を削除して得られた結果が示されている。図7(A)においては、住所において大字(市区町村内の行政区画名)以下が削除された一般化が顧客データに対して行われている。
一方、図7(B)においては、情報損失要因となっている「神戸市北区鈴蘭台4」と「神戸市北区藤原台」とを削除しているので、住所において大字名を残した情報が示されている。ただし、k−匿名性を維持するために、「25歳、神戸市北区鈴蘭台4−****、男性、…」と、「23歳、神戸市北区藤原台****、女性」との顧客データが失われている。
情報匿名化装置1は、過度な情報損失が生じている場合に情報有用性及び情報完全性をユーザに提示し、情報損失要因を削除して得られた情報を利用するか否かの選択を容易にする。図7に示した例において、ユーザが項目「年齢」及び「住所」における情報損失度の小さい情報を希望する場合には、情報損失要因を削除して得られた情報を利用することができる。
ここで、情報損失判定処理(図5)において用いられる情報損失閾値を定める手順の一例を説明する。
匿名化を行う際に生じる情報損失度は、一般化する属性値の階層構造(一般化情報ツリー)の階層数とレコード数に依存する。そのため、属性値の階層構造の階層数と、匿名化の対象となるレコード数とに基づいて情報損失閾値を定めるようにしてもよい。例えば、全レコード数における全体階層数の半分以上の損失を過度な情報損失と定める場合、情報損失閾値は、「(全体階層数)×(全レコード数)×0.5」で算出される。
図8は、本実施形態における情報損失閾値の設定例を示す図である。図8(A)及び(B)で表される階層構造の属性値を有する全レコード数を100とすると、図8(A)に示される一般化情報ツリーAにより属性値の階層構造が表される場合、情報損失閾値は、300(=6×100×0.5)になる。また、図8(B)に示される一般化情報ツリーBにより属性値の階層構造が表される場合、情報損失閾値は、150(=3×100×0.5)になる。このように、属性値の階層構造とレコード数に応じて、情報損失閾値を定めることにより、過度な情報損失が生じているか否かの判定の精度を向上させることができる。なお、ここでは、一例として情報損失閾値の算出方法を説明したが、ユーザが項目(属性)ごとに情報損失閾値を定めるようにしてもよい。
以上説明したように、情報匿名化装置1は、上述の情報損失判定処理を行うことにより、顧客データに対して匿名化を行った際に、過度な情報損失が生じているか否かを判定することができる。また、過度な情報損失が生じている場合には、その原因となっている属性値(情報損失要因)を特定することができる。
また、情報匿名化装置1は、過度な情報損失が生じている場合、属性値の一般化により失われた情報の度合い(情報損失度)を示す情報有用性と、過度な情報損失を生じさせている属性値を削除した際に失われる情報の度合い(情報欠損率)を示す情報完全性をユーザに提示する。これにより、ユーザは、情報を利用する目的に応じて、過度な情報損失が生じている匿名化された情報(第1匿名化顧客情報)と、過度な情報損失を抑制して得られた情報(第2匿名化顧客情報)とのいずれの提供を受けるかの判断を容易にすることができる。
なお、情報匿名化装置1において、第1匿名化部11及び第2匿名化部16が属性値の一般化を行う際の属性値の階層関係(例えば図1や、図2、図8などに示した関係)は予め定められており、第1匿名化部11及び第2匿名化部16に記憶されている。又は、階層関係を記憶した記憶部を設け、第1匿名化部11及び第2匿名化部16は記憶部に記憶されている階層関係を参照して、属性値の一般化を行うようにしてもよい。また、属性は、対象とするデータベースに応じて一般に異なるので、匿名化処理の対象となるデータベースごとに属性値の階層関係を、上述の記憶部等に記憶させるようにしてもよい。
また、対象属性が複数の場合、情報損失判定処理(図5)におけるステップS102からステップS106までの処理は、対象属性における属性値の組み合わせごとに行い、各属性値の組み合わせごとに情報損失度、及び出現率を算出する。
なお、上述の実施形態におけて、情報匿名化システムは、複数の装置を含む場合について説明したが、これに限ることなく、情報匿名化装置1及びユーザ端末4を1つの装置として構成してもよい。また、情報匿名化装置1と顧客情報データベース2とはネットワーク3を介して接続されていてもよい。
また、上述の実施形態において、情報匿名化装置1は、匿名化されていない顧客情報データに対して、匿名化を行うとともに、過度な情報損失が生じているか否かを判定する構成について説明した。しかし、これに限ることなく、情報匿名化装置1は、既に匿名化が施された情報に対して、同様の処理を行うようにしてもよい。
また、上述の実施形態において、情報匿名化装置1は、ユーザの選択に応じて、情報損失要因を削除した顧客データに対して匿名化を行った第2匿名化顧客情報を提供する構成について説明した。しかし、これに限ることなく、情報匿名化装置1は、過度な情報損失が生じていると判定した場合、ユーザの選択を待たずに、第2匿名化顧客情報をユーザに提供するようにしてもよいし、第1匿名化顧客情報及び第2匿名化顧客情報をユーザに提供するようにしてもよい。
また、情報損失判定処理(図5)において、情報損失閾値を項目(属性)ごとに異なる値にするようにしてもよい。これにより、属性における属性値の階層構造の深さに応じて、過剰な情報損失が生じているか否かを適切に判定することができる。
また、情報損失判定処理(図5)において、匿名化対象属性が単一である場合の実施形態を説明した。しかし、これに限ることなく、複数属性を匿名化対象とした場合においても同様に情報損失判定を実施することができる。例えば、属性「性別」、「年齢」の2つが対象の場合、一般化させたくない優先順位を付与し、優先順位が低い属性「性別」の属性値(「男性」など)毎に、優先度の高い属性「年齢」の情報損失要因を判定する。
また、上述の実施形態における情報提供処理のステップS204において選択処理部14からユーザ端末4に送信する情報有用性は、ステップS202において算出した情報損失要因を含む場合の情報損失度の最大値、及び情報損失要因を含まない場合の情報損失度の最大値を含むようにしてもよい。これにより、ユーザは、過度な情報損失が生じている匿名化された情報(第1匿名化顧客情報)と、過度な情報損失を抑制して得られた情報(第2匿名化顧客情報)とのいずれの提供を受けるかの判断を容易にすることができる。
なお、本発明における情報匿名化システムの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより情報損失判定処理及び情報提供処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。更に「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1…情報匿名化装置
2…顧客情報データベース
3…ネットワーク
4…ユーザ端末
11…第1匿名化部
12…第1匿名化顧客情報記憶部
13…情報損失要因判定部
14…選択処理部
15…情報損失要因削除部
16…第2匿名化部
17…第2匿名化顧客情報記憶部
18…情報提供部
100…情報匿名化システム

Claims (8)

  1. 予め定められた複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う情報匿名化システムであって、
    前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した際に失われた情報の度合いを示す情報損失度を前記属性値ごとに算出し、算出した情報損失度が予め定められた情報損失閾値より大きい場合、前記属性値を一般化した際に前記データベースにおいて過度な情報損失が生じたと判定する情報損失要因判定部
    を具備し、
    前記情報損失度は、
    前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した階層数αから、対象とする前記属性値を有するレコード以外の前記データベースに含まれるレコードに対してk−匿名性を満たすように前記属性値を一般化した階層数βを減算した値である
    ことを特徴とする情報匿名化システム。
  2. 請求項1に記載の匿名化システムであって、
    前記情報損失要因判定部は、
    前記情報損失閾値より大きい情報損失度に対応する属性値を含むレコードを過度な情報損失を生じさせた原因であると判定する
    ことを特徴とする情報匿名化システム。
  3. 請求項1又は請求項2に記載の情報匿名化システムであって、
    前記情報損失要因判定部は、
    前記情報損失閾値より大きい情報損失度に対応する属性値を含むレコードの数に対する前記データベースに含まれるレコードの数の比が予め定められた出現閾値未満である場合、前記情報損失閾値より大きい情報損失度に対応する属性値を含むレコードを過度な情報損失を生じさせた原因であると判定する
    ことを特徴とする情報匿名化システム。
  4. 請求項1から請求項3のいずれか一項に記載の情報匿名化システムであって、
    前記データベースに含まれるレコードに対してk−匿名化を施した情報の要求を、ユーザの操作に応じて送信するユーザ端末と、
    過度な情報損失を生じさせた原因であると判定されたレコードを含む場合の情報損失度と、前記レコード以外の前記データベースに記憶されているレコードに対してk−匿名性を満たすように前記属性値を一般化した際に失われた情報の度合いを示す情報損失度と、過度な情報損失を生じさせた原因であると判定されたレコードの数に対する前記データベースに含まれるレコードの数の比である情報欠損率とを、前記ユーザ端末の要求に応じて出力する選択処理部と、
    を更に具備し、
    前記選択処理部は、
    過度な情報損失を生じさせた原因であると判定されたレコード以外の前記データベースに記憶されているレコードに対してk−匿名化を施した情報と、前記データベースに含まれる全てのレコードに対してk−匿名化を施した情報とのいずれかを提供する要求を前記ユーザ端末から受信し、受信した要求に応じた情報を前記ユーザ端末に出力する
    ことを特徴とする情報匿名化システム。
  5. 請求項1から請求項3のいずれか一項に記載の情報匿名化システムであって、
    前記情報損失要因判定部が過度な情報損失が生じていると判定した場合、過度な情報損失を生じさせた原因であると判定されたレコード以外の前記データベースに記憶されているレコードに対してk−匿名化を施した情報を出力する情報提供部
    を更に備えることを特徴とする情報匿名化システム。
  6. 請求項1から請求項5のいずれか一項に記載の情報匿名化システムであって、
    前記情報損失閾値は、
    前記属性値の階層構造における階層数、及び前記データベースに含まれるレコード数に応じて定められている
    ことを特徴とする情報匿名化システム。
  7. 属性値を組み合わせた複数のレコードを含むデータベースに対して匿名化処理を行う情報匿名化システムにおける情報損失判定方法であって、
    前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した際に失われた情報の度合いを示す情報損失度を前記属性値ごとに算出し、算出した情報損失度が予め定められた情報損失閾値より大きい場合、前記属性値を一般化した際に前記データベースにおいて過度な情報損失が生じたと判定する情報損失要因判定ステップ
    を有し、
    前記情報損失度は、
    前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した階層数αから、対象とする前記属性値を有するレコード以外の前記データベースに含まれるレコードに対してk−匿名性を満たすように前記属性値を一般化した階層数βを減算した値である
    ことを特徴とする情報損失判定方法。
  8. 属性値を組み合わせた複数のレコードを含むデータベースに対して匿名化処理を行う情報匿名化システムに設けられたコンピュータに
    前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した際に失われた情報の度合いを示す情報損失度を前記属性値ごとに算出し、算出した情報損失度が予め定められた情報損失閾値より大きい場合、前記属性値を一般化した際に前記データベースにおいて過度な情報損失が生じたと判定する情報損失要因判定ステップを実行させ、
    前記情報損失度を、
    前記データベースに含まれる各レコードに対してk−匿名性を満たすように前記属性値を一般化した階層数αから、対象とする前記属性値を有するレコード以外の前記データベースに含まれるレコードに対してk−匿名性を満たすように前記属性値を一般化した階層数βを減算して算出させる
    ための情報損失判定プログラム。
JP2012054446A 2012-03-12 2012-03-12 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム Active JP5782636B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012054446A JP5782636B2 (ja) 2012-03-12 2012-03-12 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012054446A JP5782636B2 (ja) 2012-03-12 2012-03-12 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム

Publications (2)

Publication Number Publication Date
JP2013190838A true JP2013190838A (ja) 2013-09-26
JP5782636B2 JP5782636B2 (ja) 2015-09-24

Family

ID=49391051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012054446A Active JP5782636B2 (ja) 2012-03-12 2012-03-12 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム

Country Status (1)

Country Link
JP (1) JP5782636B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164476A (ja) * 2013-02-25 2014-09-08 Hitachi Systems Ltd k−匿名データベース制御サーバおよび制御方法
JP2015130022A (ja) * 2014-01-07 2015-07-16 Kddi株式会社 匿名化パラメータ選択装置、方法及びプログラム
WO2016199474A1 (ja) * 2015-06-10 2016-12-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10303897B2 (en) 2014-05-08 2019-05-28 Keio University Anonymization system, issuance device, and storage medium
US10360405B2 (en) 2014-12-05 2019-07-23 Kabushiki Kaisha Toshiba Anonymization apparatus, and program
JP2021082043A (ja) * 2019-11-20 2021-05-27 株式会社日立製作所 匿名加工システム、匿名加工プログラム及び匿名加工方法
US20220222375A1 (en) * 2019-05-21 2022-07-14 Nippon Telegraph And Telephone Corporation Information processing apparatus, information processing method and program
WO2023074465A1 (ja) * 2021-10-27 2023-05-04 株式会社日立製作所 データ価値評価システム、データ価値評価方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332537A1 (en) * 2009-06-25 2010-12-30 Khaled El Emam System And Method For Optimizing The De-Identification Of Data Sets
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置
JP2013080375A (ja) * 2011-10-04 2013-05-02 Hitachi Ltd 個人情報匿名化装置及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332537A1 (en) * 2009-06-25 2010-12-30 Khaled El Emam System And Method For Optimizing The De-Identification Of Data Sets
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置
JP2013080375A (ja) * 2011-10-04 2013-05-02 Hitachi Ltd 個人情報匿名化装置及び方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
原田邦彦、外1名: "一般化階層木の自動生成と情報エントロピーによる歪度評価を伴うk−匿名化手法", 情報処理学会研究報告 平成22年度(2) [CD−ROM], JPN6011066162, 15 August 2010 (2010-08-15), JP, pages 1 - 7, ISSN: 0003031094 *
村本 俊祐 SHUNSUKE MURAMOTO: "プライバシ保護データ公開に向けたl−多様化適性の評価 Evaluation of Property of l-diversification to", 情報処理学会論文誌 論文誌トランザクション 2011(平成23)年度▲1▼ [CD−ROM], vol. 第4巻, JPN6015010570, 7 November 2011 (2011-11-07), JP, pages 126 - 141, ISSN: 0003031095 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164476A (ja) * 2013-02-25 2014-09-08 Hitachi Systems Ltd k−匿名データベース制御サーバおよび制御方法
JP2015130022A (ja) * 2014-01-07 2015-07-16 Kddi株式会社 匿名化パラメータ選択装置、方法及びプログラム
US10303897B2 (en) 2014-05-08 2019-05-28 Keio University Anonymization system, issuance device, and storage medium
US10360405B2 (en) 2014-12-05 2019-07-23 Kabushiki Kaisha Toshiba Anonymization apparatus, and program
CN107615329A (zh) * 2015-06-10 2018-01-19 索尼公司 信息处理装置、信息处理方法和程序
JPWO2016199474A1 (ja) * 2015-06-10 2018-03-29 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2016199474A1 (ja) * 2015-06-10 2016-12-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US11461858B2 (en) 2015-06-10 2022-10-04 Sony Corporation Information processing device, information processing method, and program
US20220222375A1 (en) * 2019-05-21 2022-07-14 Nippon Telegraph And Telephone Corporation Information processing apparatus, information processing method and program
JP2021082043A (ja) * 2019-11-20 2021-05-27 株式会社日立製作所 匿名加工システム、匿名加工プログラム及び匿名加工方法
JP7257938B2 (ja) 2019-11-20 2023-04-14 株式会社日立製作所 匿名加工システム、匿名加工プログラム及び匿名加工方法
WO2023074465A1 (ja) * 2021-10-27 2023-05-04 株式会社日立製作所 データ価値評価システム、データ価値評価方法
WO2023073841A1 (ja) * 2021-10-27 2023-05-04 株式会社日立製作所 データ価値評価システム、データ価値評価方法

Also Published As

Publication number Publication date
JP5782636B2 (ja) 2015-09-24

Similar Documents

Publication Publication Date Title
JP5782636B2 (ja) 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム
US20210258236A1 (en) Systems and methods for social graph data analytics to determine connectivity within a community
JP6007969B2 (ja) 匿名化装置及び匿名化方法
KR101475964B1 (ko) 공유되는 커스터마이즈가능한 멀티-테넌트 데이터의 메모리내 캐싱
JP5796574B2 (ja) 情報処理装置、制御方法及びプログラム
US10176340B2 (en) Abstracted graphs from social relationship graph
JP5626733B2 (ja) 個人情報匿名化装置及び方法
US20170277907A1 (en) Abstracted Graphs from Social Relationship Graph
JP5782637B2 (ja) 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム
Onashoga et al. KC-Slice: A dynamic privacy-preserving data publishing technique for multisensitive attributes
WO2013088681A1 (ja) 匿名化装置、匿名化方法、並びにコンピュータ・プログラム
US20200143012A1 (en) Digital rights management using a digital agent
JP2017510867A (ja) ガイドされたユーザアクションのためのシステムおよび方法
US10855637B2 (en) Architecture for large data management in communication applications through multiple mailboxes
JP2019144723A (ja) 匿名加工装置、情報匿名化方法、およびプログラム
JP4622514B2 (ja) 文書匿名化装置、文書管理装置、文書匿名化方法及び文書匿名化プログラム
Swaminathan et al. Wearmail: On-the-go access to information in your email with a privacy-preserving human computation workflow
WO2010071138A1 (ja) サービスサーバ
Borowiecki et al. The potential of greed for independence
Han et al. Differentially private top-k query over MapReduce
JP7278100B2 (ja) 投稿評価システム及び方法
US9460137B2 (en) Handling an increase in transactional data without requiring relocation of preexisting data between shards
JPWO2016203752A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
US20190227857A1 (en) Smart clipboard for secure data transfer
US10394761B1 (en) Systems and methods for analyzing and storing network relationships

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150625

R150 Certificate of patent or registration of utility model

Ref document number: 5782636

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250