JP5782637B2 - 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム - Google Patents
属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム Download PDFInfo
- Publication number
- JP5782637B2 JP5782637B2 JP2012067922A JP2012067922A JP5782637B2 JP 5782637 B2 JP5782637 B2 JP 5782637B2 JP 2012067922 A JP2012067922 A JP 2012067922A JP 2012067922 A JP2012067922 A JP 2012067922A JP 5782637 B2 JP5782637 B2 JP 5782637B2
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- detected
- record
- generalization
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000010187 selection method Methods 0.000 title claims description 7
- 238000001514 detection method Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、本発明に係る一実施形態における情報匿名化装置1の構成を示す概略ブロック図である。情報匿名化装置1は、ユーザが指定する顧客データベース2に記憶されているデータに対してK−匿名性を満たすようにデータに含まれる属性値を一般化する匿名化処理を行い、匿名化処理により得られた匿名化情報を出力する。
図2は、本実施形態における顧客データベース2に記憶されている情報の一例を示す図である。顧客データベース2には、同図に示すように、行と列とからなる2次元の表形式のデータで表される情報であって、レコードを識別する番号と、年齢と、職業と、未婚/既婚との各属性の列を有し、各属性に対応する属性値を含む顧客情報(レコード)の行を有している。例えば、番号#2で識別される顧客情報には、番号「2」、年齢「30代」、職業「会社員(一般)」、性別「男性」、未婚/既婚「既婚」が含まれている。
情報匿名化装置1は、同図に示すように、情報入力部11と匿名化処理部12とを具備している。匿名化処理部12は、階層構造記憶部13、出現率算出部14、非匿名レコード検出部15、一般化属性選択部16、一般化処理部17、匿名化情報記憶部18、及び匿名性判定部19を備えている。
階層構造記憶部13には、属性値の階層構造が属性ごとに予め記憶されている。この属性値の階層構造は、匿名化処理において属性値を一般化(抽象化又は上位概念化)する差異に用いられる。
図3は、本実施形態における階層構造記憶部13に記憶されている属性値の階層構造の一例を示す図である。ここでは、図2に示した顧客情報における属性「年齢」「職業」、「性別」、「未婚/既婚」における属性値の階層構造が示されている。
また、属性値「警察官」の上位概念は「公務員」である。属性「性別」における属性値「男性」、「女性」を上位概念化すると、当該属性における属性値が一つになり区別するための属性値を必要としないため、ここでは「*(アスタリスク)」となっている。また、属性「未婚/既婚」においても同様に、属性値「未婚」、「既婚」を上位概念化すると「*」となる。
出現率算出部14は、ユーザに指定された顧客データベース2に記憶されている顧客情報において、属性ごとに属性値が現れる頻度(出現頻度)を算出する。具体的には、出現率算出部14は、ユーザに指定された顧客データベース2において各属性値が現れる回数を計測し、計測した回数を当該顧客データベース2に含まれる顧客情報の数で除算して、属性値が現れる頻度を示す出現率を算出する。
一般化属性選択部16は、非匿名レコード検出部15が検出した顧客情報と、各属性における属性値それぞれに対応する出現率算出部14が算出した出現率とに基づいて、顧客データベース2に含まれている属性のうち、一般化の対象とする属性を選択する。
一般化処理部17は、階層構造記憶部13に記憶されている属性の階層構造に基づいて、顧客データベース2に記憶されている顧客情報の属性値の一般化を行う。このとき、一般化処理部17は、一般化属性選択部16が選択した属性に対して一般化を行う。また、一般化処理部17は、属性値の一般化により匿名化された情報を匿名化情報記憶部18に記憶させる。
情報匿名化装置1において、情報匿名化処理が開始されると、情報入力部11は、ユーザの操作などに基づいて選択情報が入力される(ステップS101)。
出現率算出部14は、入力された選択情報により指定される顧客データベース2に記憶されている顧客情報を読み出して、各属性における属性値それぞれの出現率を算出し、算出した出現率を一般化属性選択部16に出力する(ステップS102)。
非匿名レコード検出部15は、入力された選択情報により指定される顧客データベース2に記憶されている顧客情報(レコード)のうち、選択情報に含まれるK値におけるK−匿名性を満たしていない顧客情報を検出し、検出した顧客情報を一般化属性選択部16に出力する(ステップS103)。
一般化属性選択部16は、非匿名レコード検出部15から入力された顧客情報すべてに対してステップS104及びステップS105の処理を終えると、属性のうち検出された回数の最も多い属性が複数存在するか否かを判定する(ステップS106)。
一方、検出された回数が最も多い属性が複数存在する場合(ステップS106:YES)、一般化属性選択部16は、検出された回数が最も多い属性それぞれに対して残存率を算出する(ステップS108)。
一般化属性選択部16は、算出した残存率が最も高い属性を一般化の対象に選択し、選択した属性を示す情報を一般化処理部17に出力する(ステップS109)。
ここで、ステップS108において一般化属性選択部16が算出する残存率は、「一般化後の属性値の数」を「一般化前の属性値の数」で除算した値である。
匿名性判定部19は、匿名化情報記憶部18に記憶されている情報が、選択情報に含まれるK値におけるK−匿名性を満たしているか否かを判定し(ステップS111)、K−匿名性を満たしている場合、匿名化情報記憶部18に記憶されている情報を出力して(ステップS112)、匿名化処理を終了する。
一方、K−匿名性を満たしていない場合、匿名性判定部19は処理をステップS102に戻し、ステップS102〜ステップS111の処理を再度実行させる。なお、繰り返してステップS102〜ステップS111の処理が行われる際には、顧客データベース2に替えて匿名化情報記憶部18に記憶されている情報が処理の対象になる。また、ステップS107において、一般化処理部17が一般化した顧客情報を匿名化情報記憶部18に記憶させる度に、一般化した顧客情報を更新することになる。
また、非匿名レコード検出部15がK−匿名性(K値=2)を満たしていない顧客情報を検出する。図2に示す顧客データベース2においては、#8、#11、#15の顧客情報{#8、40代、自営業、女性、未婚}、{#11、70代、会社役員、女性、未婚}、{#15、20代、警察官、女性、既婚}が検出される。
各顧客情報に対する検出を終えると、各属性のカウントは、「年齢」が「1」カウント、「職業」が「2」カウント、「性別」が「0」カウント、「未婚/既婚」が「0」カウントとなり、一般化属性選択部16はカウント数が最大の属性「職業」を一般化の対象となる属性に選択する。
図6は、図2に示した顧客データベース2において属性「職業」を一般化して得られる情報を示す図である。属性「職業」の属性値を一般化したことにより、例えば、図2において{#6、50代、医者、男性、未婚}だった顧客情報は、{#6、50代、会社員以外、男性、未婚}に一般化されている。
このように、情報匿名化装置1は、出現率及び残存率に基づいて一般化する属性を選択しているので、一般化を行う属性をユーザに選択させずに、K−匿名性を満たしていない顧客情報の特異性を低下させるとともに、情報の損失を抑えた一般化を行うことができる。その結果、情報匿名化装置1は、顧客情報の有用性の損失を抑えた匿名化を行うことができる、また、ユーザが一般化する属性を選択する手間を削減することができる。
また、上述の実施形態において、階層構造記憶部13に記憶されている各属性値の階層構造が2階層の場合を例示して説明したが、これに限ることなく3階層以上であってもよい。この場合、階層構造が3階層以上の属性は、一般化の対象に複数回選択される可能性がある。
また、上述の実施形態において、K−匿名性を満たしていない顧客情報(レコード)における属性値に基づいて、一般化する属性を選択する構成について説明した。しかし、これに限ることなく、顧客データベース2に含まれるすべての又は一部の顧客情報における属性値に基づいて、一般化する属性を選択するようにしてもよい。
また、上述の実施形態における、情報入力部11、階層構造記憶部13、出現率算出部14、非匿名レコード検出部15、及び一般化属性選択部16を備える属性選択装置を構成し、ユーザの操作に応じて、匿名化処理を行う際に一般化する属性を出力するようにしてもよい。これにより、ユーザは、顧客データベース2に含まれる顧客情報の傾向を把握せずとも、匿名化処理において一般化する属性を決定することができる。
2…顧客データベース
11…情報入力部
12…匿名化処理部
13…階層構造記憶部
14…出現率算出部
15…非匿名レコード検出部
16…一般化属性選択部
17…一般化処理部
18…匿名化情報記憶部
19…匿名性判定部
Claims (8)
- 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う際の属性を選択する属性選択装置であって、
前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出部と、
前記非匿名レコード検出部により検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択部と、
を備え、
前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
ことを特徴とする属性選択装置。 - 請求項1に記載の属性選択装置であって、
前記データベースに含まれるレコードが有する各属性値の出現率を算出する出現率算出部を更に備え、
前記一般化属性選択部は、
前記非匿名レコード検出部により検出されたレコードにおいて、前記出現率が最も低い属性値を検出し、検出された属性値を最も多く含む属性を一般化の対象にする属性に選択する
ことを特徴とする属性選択装置。 - 請求項1又は請求項2のいずれかに記載の属性選択装置であって、
前記一般化属性選択部は、
前記非匿名レコード検出部により検出されたレコードのうち、属性値の組み合わせが一致するレコード数が基準の値未満のレコードにおける属性値の標準偏差に基づいて、前記複数の属性から一般化の対象にする属性を選択する
ことを特徴とする属性選択装置。 - 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化処理を行う情報匿名化装置であって、
前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出部と、
前記非匿名レコード検出部により検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択部と、
前記データベースに含まれる各レコードにおいて、前記一般化属性選択部が選択した属性を一般化する一般化処理部と、
を備え、
前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
ことを特徴とする情報匿名化装置。 - 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化
処理を行う際の属性を選択する属性選択装置が行う属性選択方法であって、
前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出ステップと、
前記非匿名レコード検出ステップにより検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択ステップと、
を有し、
前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
を有することを特徴とする属性選択方法。 - 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化
処理を行う情報匿名化装置が行う情報匿名化方法であって、
前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出ステップと、
前記非匿名レコード検出ステップにより検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択ステップと、
前記データベースに含まれる各レコードに対して、前記一般化属性選択ステップにおい
て選択した属性を一般化する一般化処理ステップと、
を有し、
前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
ことを特徴とする情報匿名化方法。 - 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化
処理を行う際の属性を選択する属性選択装置に設けられたコンピュータに
前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出ステップと、
前記非匿名レコード検出ステップにより検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択ステップと、
を実行させ、
前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
ことを特徴とする属性選択プログラム。 - 複数の属性それぞれの属性値を有するレコードを複数含むデータベースに対して匿名化
処理を行う情報匿名化装置に設けられたコンピュータに、
前記データベースに含まれるレコードのうち匿名性を満たしていないレコードを検出する非匿名レコード検出ステップと、
前記非匿名レコード検出ステップにより検出されたレコードごとに、レコードにおいて最も標準偏差が大きい属性を検出し、検出された回数が最大の属性が複数ある場合、検出された回数が最大の属性ごとに残存率を算出し、算出した残存率が最大の属性を一般化の対象に選択し、検出された回数が最大の属性が複数ない場合、検出された回数が最大の属性を一般化の対象に選択する一般化属性選択ステップと、
前記データベースに含まれる各レコードに対して、前記一般化属性選択ステップにおい
て選択した属性を一般化する一般化処理ステップと、
を実行させ、
前記残存率は、属性に対する一般化後の属性値の数を、一般化前の属性値の数で除算した値である、
ための情報匿名化プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012067922A JP5782637B2 (ja) | 2012-03-23 | 2012-03-23 | 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012067922A JP5782637B2 (ja) | 2012-03-23 | 2012-03-23 | 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013200659A JP2013200659A (ja) | 2013-10-03 |
JP5782637B2 true JP5782637B2 (ja) | 2015-09-24 |
Family
ID=49520874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012067922A Active JP5782637B2 (ja) | 2012-03-23 | 2012-03-23 | 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5782637B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6375107B2 (ja) * | 2013-10-11 | 2018-08-15 | 富士通クラウドテクノロジーズ株式会社 | 匿名化装置、匿名化方法、及び匿名化プログラム |
JP6334915B2 (ja) * | 2013-12-26 | 2018-05-30 | 富士通クラウドテクノロジーズ株式会社 | 匿名化システム |
JP6339403B2 (ja) * | 2014-04-04 | 2018-06-06 | 富士通クラウドテクノロジーズ株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP6293003B2 (ja) * | 2014-07-08 | 2018-03-14 | Kddi株式会社 | プライバシー保護装置、方法及びプログラム |
JP6174002B2 (ja) * | 2014-12-05 | 2017-08-02 | 株式会社東芝 | 匿名化装置、及びプログラム |
US9858426B2 (en) * | 2015-11-03 | 2018-01-02 | Palo Alto Research Center Incorporated | Computer-implemented system and method for automatically identifying attributes for anonymization |
JP6484657B2 (ja) * | 2017-03-17 | 2019-03-13 | 新日鉄住金ソリューションズ株式会社 | 情報処理装置、情報処理方法及びプログラム |
KR102097857B1 (ko) * | 2017-12-27 | 2020-04-06 | 펜타시스템테크놀러지 주식회사 | 프라이버시 보호를 위한 데이터의 비식별화 방법 및 장치 |
KR102379331B1 (ko) * | 2021-07-09 | 2022-03-30 | 대한민국 | 익명성 확보와 정보손실 제어를 위한 빈도표 생성 및 제공방법 |
KR102670080B1 (ko) * | 2023-08-09 | 2024-05-28 | (주)이지서티 | 데이터 재식별 가능성 감소를 위한 데이터 처리 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002254564A1 (en) * | 2001-04-10 | 2002-10-28 | Latanya Sweeney | Systems and methods for deidentifying entries in a data source |
JP3866210B2 (ja) * | 2003-03-20 | 2007-01-10 | 株式会社エヌ・ティ・ティ・データ | 個人特定防止装置、個人特定防止方法、および、プログラム |
EP2573699B1 (en) * | 2010-05-19 | 2017-06-07 | Hitachi, Ltd. | Identity information de-identification device |
-
2012
- 2012-03-23 JP JP2012067922A patent/JP5782637B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013200659A (ja) | 2013-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5782637B2 (ja) | 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム | |
US11748517B2 (en) | Smart de-identification using date jittering | |
US9230132B2 (en) | Anonymization for data having a relational part and sequential part | |
US20240223480A1 (en) | Systems and methods for social graph data analytics to determine connectivity within a community | |
US10404757B1 (en) | Privacy enforcement in the storage and access of data in computer systems | |
EP3049958B1 (en) | Methods and apparatus to identify privacy relevant correlations between data values | |
Arellano et al. | Privacy policy and technology in biomedical data science | |
JP6007969B2 (ja) | 匿名化装置及び匿名化方法 | |
US20170262653A1 (en) | Abstracted Graphs from Social Relationship Graph | |
JP6434154B2 (ja) | トランザクションアクセスパターンに基づいた結合関係の識別 | |
JP5782636B2 (ja) | 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム | |
US20120054142A1 (en) | Task-based experience reuse | |
US11188678B2 (en) | Detection and prevention of privacy violation due to database release | |
US10346639B2 (en) | Anonymization identifier computing system | |
Sangeetha et al. | Privacy of big data: a review | |
Li et al. | Digression and value concatenation to enable privacy-preserving regression | |
CN112685772B (zh) | 面向本质计算的跨dikw模态的相对差分隐私保护方法 | |
Motiwalla et al. | Developing privacy solutions for sharing and analysing healthcare data | |
Bewong et al. | A relative privacy model for effective privacy preservation in transactional data | |
Fotache et al. | Framework for the Assessment of Data Masking Performance Penalties in SQL Database Servers. Case Study: Oracle | |
Kartal et al. | Protecting privacy when sharing and releasing data with multiple records per person | |
Han et al. | Differentially private top-k query over MapReduce | |
Yadav et al. | Privacy preserving data mining with abridge time using vertical partition decision tree | |
Palanisamy | Towards multiple pattern type privacy protection in complex event processing through event obfuscation strategies | |
JP5875535B2 (ja) | 匿名化装置、匿名化方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150623 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150625 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5782637 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |