JP5782637B2 - 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム - Google Patents

属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム Download PDF

Info

Publication number
JP5782637B2
JP5782637B2 JP2012067922A JP2012067922A JP5782637B2 JP 5782637 B2 JP5782637 B2 JP 5782637B2 JP 2012067922 A JP2012067922 A JP 2012067922A JP 2012067922 A JP2012067922 A JP 2012067922A JP 5782637 B2 JP5782637 B2 JP 5782637B2
Authority
JP
Japan
Prior art keywords
attribute
detected
record
generalization
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012067922A
Other languages
English (en)
Other versions
JP2013200659A (ja
Inventor
均幸 田中
均幸 田中
賢一郎 北山
賢一郎 北山
山口 徹也
徹也 山口
小林 昭久
昭久 小林
貴久 浅野
貴久 浅野
祐一郎 押川
祐一郎 押川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone West Corp
Original Assignee
Nippon Telegraph and Telephone West Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone West Corp filed Critical Nippon Telegraph and Telephone West Corp
Priority to JP2012067922A priority Critical patent/JP5782637B2/ja
Publication of JP2013200659A publication Critical patent/JP2013200659A/ja
Application granted granted Critical
Publication of JP5782637B2 publication Critical patent/JP5782637B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラムに関する。
企業の顧客データや、病院のカルテ等の大規模なデータベースに含まれるデータに対して統計的な処理を施して得られた情報に基づいて、ビジネス傾向を特定したり、病気の予防等に活用したりすることが行われている。このような情報を活用する際には、プライバシの保護やセキュリティの保護などの観点から、匿名化処理をして顧客や個人が特定されないようにする必要がある。そのため、データから有用性が損なわれることを抑えつつ、匿名化処理をすることが検討されている(非特許文献1)。
「個人情報匿名化基盤」、[online]、経済産業省商務情報政策局情報処理振興課情報大航海プロジェクト担当、[平成24年3月19日検索]、インターネット<URL: http://www.meti.go.jp/policy/it_policy/daikoukai/igvp/cp2_jp/common/024/010/post-9.html>
非特許文献1に記載されている技術では、データに対して匿名化処理をする際に、データに含まれる複数の属性に対して設定された優先順位(重み付け)に応じて、属性の一般化が行われている。優先順位は匿名化処理をする前にデータを利用するユーザが予め定める必要がある。そのため、データに含まれる属性の数が多い場合、情報の有用性の損失を抑えつつ匿名性を確保できるように、一般化する属性の優先順位を決定することが難しくなるという問題があった。
本発明は、上記問題を解決すべくなされたもので、その目的は、データに匿名化処理を施す際に、情報の有用性の損失を抑えつつ匿名性を確保できる属性を選択する属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラムを提供することにある。
上記問題を解決するために、本発明は、複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う際の属性を選択する属性選択装置であって、前記データベースに含まれる各レコードの属性値の出現頻度に基づいて、前記複数の属性から一般化の対象にする属性を選択する一般化属性選択部を備えることを特徴とする属性選択装置である。
また、本発明は、上記に記載の発明において、前記データベースに含まれるレコードが有する各属性値の出現率を算出する出現率算出部を更に備え、前記一般化属性選択部は、前記データベースに含まれる各レコードにおいて、前記出現率が最も低い属性値を検出し、検出された属性値を最も多く含む属性を一般化の対象にする属性に選択することを特徴とする。
また、本発明は、上記に記載の発明において、前記一般化属性選択部は、前記データベースに含まれるレコードのうち、属性値の組み合わせが一致するレコード数が基準の値未満のレコードにおける属性値の出現頻度に基づいて、前記複数の属性から一般化の対象にする属性を選択することを特徴とする。
また、上記問題を解決するために、本発明は、複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う情報匿名化装置であって、前記データベースに含まれる各レコードの属性値の出現頻度に基づいて、前記複数の属性から一般化の対象にする属性を選択する一般化属性選択部と、前記データベースに含まれる各レコードにおいて、前記一般化属性選択部が選択した属性を一般化する一般化処理部とを備えることを特徴とする情報匿名化装置である。
また、上記問題を解決するために、本発明は、複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う際の属性を選択する属性選択装置が行う属性選択方法であって、前記データベースに含まれる各レコードの属性値の出現頻度に基づいて、前記複数の属性から一般化の対象にする属性を選択する一般化属性選択ステップを有することを特徴とする属性選択方法である。
また、上記問題を解決するために、本発明は、複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う情報匿名化装置が行う情報匿名化方法であって、前記データベースに含まれる各レコードの属性値の出現頻度に基づいて、前記複数の属性から一般化の対象にする属性を選択する一般化属性選択ステップと、前記データベースに含まれる各レコードに対して、前記一般化属性選択ステップにおいて選択した属性を一般化する一般化処理ステップとを有することを特徴とする情報匿名化方法である。
また、上記問題を解決するために、本発明は、複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う際の属性を選択する属性選択装置に設けられたコンピュータに前記データベースに含まれる各レコードの属性値の出現頻度に基づいて、前記複数の属性から一般化の対象にする属性を選択する一般化属性選択ステップを実行させることを特徴とする属性選択プログラムである。
また、上記問題を解決するために、本発明は、複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う情報匿名化装置に設けられたコンピュータに、前記データベースに含まれる各レコードの属性値の出現頻度に基づいて、前記複数の属性から一般化の対象にする属性を選択する一般化属性選択ステップと、前記データベースに含まれる各レコードに対して、前記一般化属性選択ステップにおいて選択した属性を一般化する一般化処理ステップとを実行させるための情報匿名化プログラムである。
この発明によれば、各属性における属性値の出現頻度に応じて、一般化する属性を選択するので、情報の有用性の損失を抑えて匿名化を行うことができる。また、データに含まれる属性の数に拘わらず一般化する属性を選択することができるので、ユーザが一般化する属性を選択する手間を削減することができる。
本発明に係る一実施形態における情報匿名化装置1の構成を示す概略ブロック図である。 同実施形態における顧客データベース2に記憶されている情報の一例を示す図である。 同実施形態における階層構造記憶部13に記憶されている属性値の階層構造の一例を示す図である。 同実施形態における情報匿名化装置1が行う情報匿名化処理を示すフローチャートである。 匿名化処理の説明における各属性値の出現数及び出現率の一例を示す図である。 図2に示した顧客データベース2において属性「職業」を一般化して得られる情報を示す図である。
以下、図面を参照して、本発明の実施形態における属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラムを説明する。
図1は、本発明に係る一実施形態における情報匿名化装置1の構成を示す概略ブロック図である。情報匿名化装置1は、ユーザが指定する顧客データベース2に記憶されているデータに対してK−匿名性を満たすようにデータに含まれる属性値を一般化する匿名化処理を行い、匿名化処理により得られた匿名化情報を出力する。
図2は、本実施形態における顧客データベース2に記憶されている情報の一例を示す図である。顧客データベース2には、同図に示すように、行と列とからなる2次元の表形式のデータで表される情報であって、レコードを識別する番号と、年齢と、職業と、未婚/既婚との各属性の列を有し、各属性に対応する属性値を含む顧客情報(レコード)の行を有している。例えば、番号#2で識別される顧客情報には、番号「2」、年齢「30代」、職業「会社員(一般)」、性別「男性」、未婚/既婚「既婚」が含まれている。
図1に戻って情報匿名化装置1の構成の説明を続ける。
情報匿名化装置1は、同図に示すように、情報入力部11と匿名化処理部12とを具備している。匿名化処理部12は、階層構造記憶部13、出現率算出部14、非匿名レコード検出部15、一般化属性選択部16、一般化処理部17、匿名化情報記憶部18、及び匿名性判定部19を備えている。
情報入力部11には、ユーザの操作により匿名化処理の対象となる顧客データベース2を示す情報と、匿名性を判定する際に用いるK値とを含む選択情報が入力される。
階層構造記憶部13には、属性値の階層構造が属性ごとに予め記憶されている。この属性値の階層構造は、匿名化処理において属性値を一般化(抽象化又は上位概念化)する差異に用いられる。
図3は、本実施形態における階層構造記憶部13に記憶されている属性値の階層構造の一例を示す図である。ここでは、図2に示した顧客情報における属性「年齢」「職業」、「性別」、「未婚/既婚」における属性値の階層構造が示されている。
属性「年齢」における属性値「20代」「30代」の上位概念は「20−30代」であり、属性値「40代」「50代」の上位概念は「40−50代」であり、属性値「60代」「70代」の上位概念は「60−70代」である。また、属性「職業」における属性値「会社員(一般)」、「会社役員」の上位概念は「会社員」であり、属性値「自営業」、「医者」の上位概念は「会社員以外」である。
また、属性値「警察官」の上位概念は「公務員」である。属性「性別」における属性値「男性」、「女性」を上位概念化すると、当該属性における属性値が一つになり区別するための属性値を必要としないため、ここでは「*(アスタリスク)」となっている。また、属性「未婚/既婚」においても同様に、属性値「未婚」、「既婚」を上位概念化すると「*」となる。
図1に戻って情報匿名化装置1の構成の説明を続ける。
出現率算出部14は、ユーザに指定された顧客データベース2に記憶されている顧客情報において、属性ごとに属性値が現れる頻度(出現頻度)を算出する。具体的には、出現率算出部14は、ユーザに指定された顧客データベース2において各属性値が現れる回数を計測し、計測した回数を当該顧客データベース2に含まれる顧客情報の数で除算して、属性値が現れる頻度を示す出現率を算出する。
非匿名レコード検出部15は、匿名化処理の対象となる情報において、ユーザの操作により情報入力部11に入力されたK値を満たすK−匿名性を満たしていない顧客情報(レコード)を検出する。換言すると、非匿名レコード検出部15は、予め定められた属性それぞれに対応する属性値の組み合わせが一致するレコードの数がK値(基準の値)未満のレコードを検出する。
一般化属性選択部16は、非匿名レコード検出部15が検出した顧客情報と、各属性における属性値それぞれに対応する出現率算出部14が算出した出現率とに基づいて、顧客データベース2に含まれている属性のうち、一般化の対象とする属性を選択する。
一般化処理部17は、階層構造記憶部13に記憶されている属性の階層構造に基づいて、顧客データベース2に記憶されている顧客情報の属性値の一般化を行う。このとき、一般化処理部17は、一般化属性選択部16が選択した属性に対して一般化を行う。また、一般化処理部17は、属性値の一般化により匿名化された情報を匿名化情報記憶部18に記憶させる。
匿名性判定部19は、匿名化情報記憶部18に記憶されている情報が、情報入力部11に入力されたK値を満たすK−匿名性を満たしているか否かを判定する。換言すると、匿名性判定部19は、一般化処理部17が行った一般化により得られた情報(匿名化された顧客情報)がK−匿名性を満たしているか否かを判定する。判定結果がK−匿名性を満たしている場合、匿名性判定部19は、匿名化情報記憶部18に記憶されている情報を匿名化情報として出力する。一方、判定結果がK−匿名性を満たしていない場合、匿名性判定部19は、出現率算出部14〜一般化処理部17の各部に対して、匿名化情報記憶部18に記憶されている情報に対して処理を行う指示を出力する。
図4は、本実施形態における情報匿名化装置1が行う情報匿名化処理を示すフローチャートである。
情報匿名化装置1において、情報匿名化処理が開始されると、情報入力部11は、ユーザの操作などに基づいて選択情報が入力される(ステップS101)。
出現率算出部14は、入力された選択情報により指定される顧客データベース2に記憶されている顧客情報を読み出して、各属性における属性値それぞれの出現率を算出し、算出した出現率を一般化属性選択部16に出力する(ステップS102)。
非匿名レコード検出部15は、入力された選択情報により指定される顧客データベース2に記憶されている顧客情報(レコード)のうち、選択情報に含まれるK値におけるK−匿名性を満たしていない顧客情報を検出し、検出した顧客情報を一般化属性選択部16に出力する(ステップS103)。
一般化属性選択部16は、非匿名レコード検出部15から入力された顧客情報(レコード)ごとに、顧客情報に含まれる各属性値のうち最も出現率の低い属性値に対応する属性を検出し(ステップS104)、属性が検出された回数をカウントする(ステップS105)。すなわち、一般化属性選択部16は、ステップS104及びステップS105の処理を、非匿名レコード検出部15から入力された各顧客情報に対して順に行う。
一般化属性選択部16は、非匿名レコード検出部15から入力された顧客情報すべてに対してステップS104及びステップS105の処理を終えると、属性のうち検出された回数の最も多い属性が複数存在するか否かを判定する(ステップS106)。
検出された回数が最も多い属性が複数存在しない場合(ステップS106:NO)、一般化属性選択部16は、検出された回数の最も多い属性を一般化の対象に選択し、選択した属性を示す情報を一般化処理部17に出力する(ステップS107)。
一方、検出された回数が最も多い属性が複数存在する場合(ステップS106:YES)、一般化属性選択部16は、検出された回数が最も多い属性それぞれに対して残存率を算出する(ステップS108)。
一般化属性選択部16は、算出した残存率が最も高い属性を一般化の対象に選択し、選択した属性を示す情報を一般化処理部17に出力する(ステップS109)。
このように、一般化属性選択部16は、非匿名レコード検出部15から入力された顧客情報と、出現率算出部14が算出した各属性値の出現率とに基づいて、顧客情報に含まれる属性のうちいずれの属性に対して一般化を行うかを選択する。
ここで、ステップS108において一般化属性選択部16が算出する残存率は、「一般化後の属性値の数」を「一般化前の属性値の数」で除算した値である。
一般化処理部17は、入力された選択情報により指定される顧客データベース2に記憶されている顧客情報において、一般化属性選択部16から入力された情報が示す属性の属性値を一般化する。また、一般化処理部17は、属性値の一般化により顧客情報から得られた情報(一般化した顧客情報)を匿名化情報記憶部18に記憶させる(ステップS110)。このとき、一般化処理部17は、階層構造記憶部13に記憶されている階層構造に基づいて、属性値の一般化をする。
匿名性判定部19は、匿名化情報記憶部18に記憶されている情報が、選択情報に含まれるK値におけるK−匿名性を満たしているか否かを判定し(ステップS111)、K−匿名性を満たしている場合、匿名化情報記憶部18に記憶されている情報を出力して(ステップS112)、匿名化処理を終了する。
一方、K−匿名性を満たしていない場合、匿名性判定部19は処理をステップS102に戻し、ステップS102〜ステップS111の処理を再度実行させる。なお、繰り返してステップS102〜ステップS111の処理が行われる際には、顧客データベース2に替えて匿名化情報記憶部18に記憶されている情報が処理の対象になる。また、ステップS107において、一般化処理部17が一般化した顧客情報を匿名化情報記憶部18に記憶させる度に、一般化した顧客情報を更新することになる。
ここで、具体例を用いて本実施形態における匿名化処理を説明する。以下に説明する例においては、図2に示した顧客データベース2を匿名化処理の対象とし、顧客データベース2に含まれる顧客情報(レコード)数は6000とする。また、属性「年齢」、「職業」、「性別」、及び「未婚/既婚」における各属性値の出現数及び出現率が図5に示した値であるとする。図5は、匿名化処理の説明における各属性値の出現数及び出現率の一例を示す図である。例えば、属性「年齢」における属性値「30代」の出現数は1000回である。また、属性「職業」における属性値「医者」の出現数は300回である。
情報匿名化装置1において、図2に示された顧客データベース2が指定され、K値に「2」が指定されると、出現率算出部14が各属性における属性値それぞれが現れる回数を計測し、計測した回数と顧客情報の総数とから出現率を算出する。例えば、属性「年齢」における属性値「30代」の出現率は「1000/6000」となり、属性「職業」における属性値「医者」の出現率は「300/6000」となる。
また、非匿名レコード検出部15がK−匿名性(K値=2)を満たしていない顧客情報を検出する。図2に示す顧客データベース2においては、#8、#11、#15の顧客情報{#8、40代、自営業、女性、未婚}、{#11、70代、会社役員、女性、未婚}、{#15、20代、警察官、女性、既婚}が検出される。
一般化属性選択部16は、検出された顧客情報{#8、40代、自営業、女性、未婚}、{#11、70代、会社役員、女性、未婚}、{#15、20代、警察官、女性、既婚}ごとに、出現率が最小の属性値を検出し、検出された属性をカウントする。この場合、{#8、40代、自営業、女性、未婚}からは「自営業」が最小の出現率として検出される。また、{#11、70代、会社役員、女性、未婚}と、{#15、20代、警察官、女性、既婚}とからは、「70代」及び「会社役員」と、「20代」とが検出される。このように、1つの顧客情報から複数の属性値「70代」及び「会社役員」が検出された場合、一般化した後に残る属性値の残存率が多い方を選択する。この場合、属性値「70代」を含む属性「年齢」における残存率は、0.50=(一般化後の属性値の数「3」/一般化前の属性値の数「6」)であり、属性値「会社役員」を含む属性「職業」における残存率は、0.67(=一般化後の属性値の数「4」/一般化前の属性値の数「6」)である。この結果に基づいて、一般化属性選択部16は属性「職業」を検出し、属性「職業」をカウントする。
各顧客情報に対する検出を終えると、各属性のカウントは、「年齢」が「1」カウント、「職業」が「2」カウント、「性別」が「0」カウント、「未婚/既婚」が「0」カウントとなり、一般化属性選択部16はカウント数が最大の属性「職業」を一般化の対象となる属性に選択する。
一般化処理部17は、顧客データベース2(図2)に対して、一般化属性選択部16が選択した属性「職業」を一般化する処理を行う。このとき、一般化処理部17は、階層構造記憶部13に記憶されている階層構造に基づいて一般化を行う。具体的には、図3に示されているように、属性値「会社員(一般)」と「会社役員」とを属性値「会社員」に一般化し、属性値「自営業」と「医者」とを属性値「会社員以外」に一般化し、属性値「警察官」を属性値「公務員」に一般化し、属性値「フリーター」を属性値「フリーター」に一般化する。顧客データベース2(図2)に対して一般化処理部17が一般化をして得られる情報を図6に示す。
図6は、図2に示した顧客データベース2において属性「職業」を一般化して得られる情報を示す図である。属性「職業」の属性値を一般化したことにより、例えば、図2において{#6、50代、医者、男性、未婚}だった顧客情報は、{#6、50代、会社員以外、男性、未婚}に一般化されている。
このように、情報匿名化装置1は、K−匿名性を満たしていない顧客情報(レコード)において、当該顧客情報を特異な情報としている属性値を含む属性を、各属性値の出現率及び残存率に基づいて選択している。そして、情報匿名化装置1は、選択した属性に対して一般化することにより、顧客データベース2に記憶されている顧客情報の匿名性を満たした匿名化情報を提供する。
このように、情報匿名化装置1は、出現率及び残存率に基づいて一般化する属性を選択しているので、一般化を行う属性をユーザに選択させずに、K−匿名性を満たしていない顧客情報の特異性を低下させるとともに、情報の損失を抑えた一般化を行うことができる。その結果、情報匿名化装置1は、顧客情報の有用性の損失を抑えた匿名化を行うことができる、また、ユーザが一般化する属性を選択する手間を削減することができる。
なお、上述の実施形態において、最小の出現率に対応する属性が複数ある場合、一般化属性選択部16が残存率に基づいて一般化する属性を選択する構成について説明したが、更に残存率が同じ場合には、ランダムに属性を選択するようにしてもよい。
また、上述の実施形態において、階層構造記憶部13に記憶されている各属性値の階層構造が2階層の場合を例示して説明したが、これに限ることなく3階層以上であってもよい。この場合、階層構造が3階層以上の属性は、一般化の対象に複数回選択される可能性がある。
また、上述の実施形態において、K−匿名性を満たしていない顧客情報(レコード)における属性値に基づいて、一般化する属性を選択する構成について説明した。しかし、これに限ることなく、顧客データベース2に含まれるすべての又は一部の顧客情報における属性値に基づいて、一般化する属性を選択するようにしてもよい。
また、上述の実施形態において、一般化属性選択部16が出現率及び残存率に基づいて一般化する属性を選択する構成について説明したが、これに限ることなく、各属性値に対する出現数の標準偏差に基づいて一般化する属性を選択するようにしてもよい。これにより、属性値において出現の頻度にばらつきがある属性を一般化の対象にすることができ、K−匿名性を満たしていない顧客情報の特異性を低下させるとともに、情報の損失を抑えた一般化を行うことができる。
また、上述の実施形態における、情報入力部11、階層構造記憶部13、出現率算出部14、非匿名レコード検出部15、及び一般化属性選択部16を備える属性選択装置を構成し、ユーザの操作に応じて、匿名化処理を行う際に一般化する属性を出力するようにしてもよい。これにより、ユーザは、顧客データベース2に含まれる顧客情報の傾向を把握せずとも、匿名化処理において一般化する属性を決定することができる。
なお、本発明における情報匿名化装置の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより匿名化処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。更に「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1…情報匿名化装置
2…顧客データベース
11…情報入力部
12…匿名化処理部
13…階層構造記憶部
14…出現率算出部
15…非匿名レコード検出部
16…一般化属性選択部
17…一般化処理部
18…匿名化情報記憶部
19…匿名性判定部

Claims (8)

  1. 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う際の属性を選択する属性選択装置であって、
    前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出部と、
    前記非匿名レコード検出部により検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択部と、
    を備え
    前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
    ことを特徴とする属性選択装置。
  2. 請求項1に記載の属性選択装置であって、
    前記データベースに含まれるレコードが有する各属性値の出現率を算出する出現率算出部を更に備え、
    前記一般化属性選択部は、
    前記非匿名レコード検出部により検出されたレコードにおいて、前記出現率が最も低い属性値を検出し、検出された属性値を最も多く含む属性を一般化の対象にする属性に選択する
    ことを特徴とする属性選択装置。
  3. 請求項1又は請求項2のいずれかに記載の属性選択装置であって、
    前記一般化属性選択部は、
    前記非匿名レコード検出部により検出されたレコードのうち、属性値の組み合わせが一致するレコード数が基準の値未満のレコードにおける属性値の標準偏差に基づいて、前記複数の属性から一般化の対象にする属性を選択する
    ことを特徴とする属性選択装置。
  4. 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う情報匿名化装置であって、
    前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出部と、
    前記非匿名レコード検出部により検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択部と、
    前記データベースに含まれる各レコードにおいて、前記一般化属性選択部が選択した属性を一般化する一般化処理部と
    を備え
    前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
    ことを特徴とする情報匿名化装置。
  5. 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化
    処理を行う際の属性を選択する属性選択装置が行う属性選択方法であって、
    前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出ステップと、
    前記非匿名レコード検出ステップにより検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択ステップと、
    を有し、
    前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
    を有することを特徴とする属性選択方法。
  6. 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化
    処理を行う情報匿名化装置が行う情報匿名化方法であって、
    前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出ステップと、
    前記非匿名レコード検出ステップにより検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択ステップと、
    前記データベースに含まれる各レコードに対して、前記一般化属性選択ステップにおい
    て選択した属性を一般化する一般化処理ステップと
    を有し、
    前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
    ことを特徴とする情報匿名化方法。
  7. 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化
    処理を行う際の属性を選択する属性選択装置に設けられたコンピュータに
    前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出ステップと、
    前記非匿名レコード検出ステップにより検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択ステップと、
    を実行させ
    前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
    ことを特徴とする属性選択プログラム。
  8. 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化
    処理を行う情報匿名化装置に設けられたコンピュータに、
    前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出ステップと、
    前記非匿名レコード検出ステップにより検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択ステップと、
    前記データベースに含まれる各レコードに対して、前記一般化属性選択ステップにおい
    て選択した属性を一般化する一般化処理ステップと
    を実行させ
    前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
    ための情報匿名化プログラム。
JP2012067922A 2012-03-23 2012-03-23 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム Active JP5782637B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012067922A JP5782637B2 (ja) 2012-03-23 2012-03-23 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012067922A JP5782637B2 (ja) 2012-03-23 2012-03-23 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム

Publications (2)

Publication Number Publication Date
JP2013200659A JP2013200659A (ja) 2013-10-03
JP5782637B2 true JP5782637B2 (ja) 2015-09-24

Family

ID=49520874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012067922A Active JP5782637B2 (ja) 2012-03-23 2012-03-23 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム

Country Status (1)

Country Link
JP (1) JP5782637B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6375107B2 (ja) * 2013-10-11 2018-08-15 富士通クラウドテクノロジーズ株式会社 匿名化装置、匿名化方法、及び匿名化プログラム
JP6334915B2 (ja) * 2013-12-26 2018-05-30 富士通クラウドテクノロジーズ株式会社 匿名化システム
JP6339403B2 (ja) * 2014-04-04 2018-06-06 富士通クラウドテクノロジーズ株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP6293003B2 (ja) * 2014-07-08 2018-03-14 Kddi株式会社 プライバシー保護装置、方法及びプログラム
JP6174002B2 (ja) * 2014-12-05 2017-08-02 株式会社東芝 匿名化装置、及びプログラム
US9858426B2 (en) * 2015-11-03 2018-01-02 Palo Alto Research Center Incorporated Computer-implemented system and method for automatically identifying attributes for anonymization
JP6484657B2 (ja) * 2017-03-17 2019-03-13 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
KR102097857B1 (ko) * 2017-12-27 2020-04-06 펜타시스템테크놀러지 주식회사 프라이버시 보호를 위한 데이터의 비식별화 방법 및 장치
KR102379331B1 (ko) * 2021-07-09 2022-03-30 대한민국 익명성 확보와 정보손실 제어를 위한 빈도표 생성 및 제공방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269578B2 (en) * 2001-04-10 2007-09-11 Latanya Sweeney Systems and methods for deidentifying entries in a data source
JP3866210B2 (ja) * 2003-03-20 2007-01-10 株式会社エヌ・ティ・ティ・データ 個人特定防止装置、個人特定防止方法、および、プログラム
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置

Also Published As

Publication number Publication date
JP2013200659A (ja) 2013-10-03

Similar Documents

Publication Publication Date Title
JP5782637B2 (ja) 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム
US11748517B2 (en) Smart de-identification using date jittering
US9230132B2 (en) Anonymization for data having a relational part and sequential part
EP3049958B1 (en) Methods and apparatus to identify privacy relevant correlations between data values
Bussmann Foreign direct investment and militarized international conflict
US10176340B2 (en) Abstracted graphs from social relationship graph
JP6007969B2 (ja) 匿名化装置及び匿名化方法
US10404757B1 (en) Privacy enforcement in the storage and access of data in computer systems
US20170277907A1 (en) Abstracted Graphs from Social Relationship Graph
US20120054142A1 (en) Task-based experience reuse
US11188678B2 (en) Detection and prevention of privacy violation due to database release
US10346639B2 (en) Anonymization identifier computing system
Sangeetha et al. Privacy of big data: a review
Li et al. Digression and value concatenation to enable privacy-preserving regression
JP2013190838A (ja) 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム
Motiwalla et al. Developing privacy solutions for sharing and analysing healthcare data
JP6618875B2 (ja) 評価装置、評価方法及び評価プログラム
Han et al. Differentially private top-k query over MapReduce
Fotache et al. Framework for the Assessment of Data Masking Performance Penalties in SQL Database Servers. Case Study: Oracle
Kartal et al. Protecting privacy when sharing and releasing data with multiple records per person
Yadav et al. Privacy preserving data mining with abridge time using vertical partition decision tree
JP5875535B2 (ja) 匿名化装置、匿名化方法、プログラム
Bhatia et al. Preserving privacy in healthcare web services paradigm through hippocratic databases
JP5875536B2 (ja) 匿名化装置、匿名化方法、プログラム
JP5639094B2 (ja) データベース撹乱パラメータ決定装置、データベース撹乱システム及び方法並びにデータベース撹乱装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150625

R150 Certificate of patent or registration of utility model

Ref document number: 5782637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250