JP2014137586A - 匿名化装置、匿名化方法、プログラム - Google Patents
匿名化装置、匿名化方法、プログラム Download PDFInfo
- Publication number
- JP2014137586A JP2014137586A JP2013007815A JP2013007815A JP2014137586A JP 2014137586 A JP2014137586 A JP 2014137586A JP 2013007815 A JP2013007815 A JP 2013007815A JP 2013007815 A JP2013007815 A JP 2013007815A JP 2014137586 A JP2014137586 A JP 2014137586A
- Authority
- JP
- Japan
- Prior art keywords
- anonymization
- attribute
- records
- value
- transition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】匿名化装置1は、元テーブルの各レコード間の距離Dを計算し、距離Dをソートして値nを計算するソート部11と、各属性の維持確率であるパラメータρajを求める維持確率計算部12と、属性aの遷移確率行列を計算する行列計算部13と、テーブルの各属性の値を遷移確率行列を用いて遷移させるテーブル遷移部14とを含む。
【選択図】図3
Description
図1を参照して本発明の匿名化の対象について説明する。図1は本発明において匿名化の対象となるテーブルの例を示す図である。図1に示すように、本発明において匿名化に用いられるテーブルは、各行が一個人のデータを表し(これをレコードrと呼ぶ)、各列には各属性(例えば年齢、年収等)の値が入力されているものとする。本発明が満足するPk−匿名性というプライバシー保護指標は、プライバシーの保護度合をkというパラメータ(以下、匿名化パラメータと呼ぶ)で決めている。そのため、匿名化処理では最初にこの匿名化パラメータkが与えられるものとする。
以下、図7、図8を参照して、実施例1の一部を変形した変形例1の匿名化装置10について説明する。図7は本変形例の匿名化装置10の構成を示すブロック図である。図8は本変形例の匿名化装置10の動作を示すフローチャートである。
実施例1と同様に、テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をVa、その具体的な値をvaとする。また、Vを属性の組み合わせの集合、すなわちΠは直積を表すとしたとき、V=Πa∈ASVaであり、その要素をvとする。同様に、匿名化テーブルのある属性a∈ASがとりうる値の集合をV′a、その具体的な値をv′aとし、V′を匿名化テーブルの属性の組み合わせの集合とし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′とする。
実施例1と同様に、テーブルの属性の集合をAS、レコードの集合をRとし、ある属性a∈ASが取り得る値の集合をVa、その具体的な値をvaとする。匿名化される前の元テーブルをτ、匿名化テーブルをτ′と書く。テーブルはレコードと属性値を結ぶ写像であり、例えばレコード1の属性値がAであれば、τ(1)=Aと表される。ここで、演算記号#τ(*)を
#τ(v)≧kのとき、
以下、図12、図13を参照して、実施例2の一部を変形した変形例2の匿名化装置20について説明する。図12は本変形例の匿名化装置20の構成を示すブロック図である。図13は本変形例の匿名化装置20の動作を示すフローチャートである。なお、本変形例では、実施例2に示された<前提条件>を引き続き用いる。
#τ(v)≧kのとき、
#τ(v)≧kのとき、
匿名化装置1の方式は、データ依存型維持置換撹乱方式と呼ぶべき性質を有している。匿名化装置1の方式では、テーブル全体の分布があまり保たれないが、その中の属性間の関係は保たれる。従って匿名化装置1の方式は、分析者が一つの大きな匿名化テーブルを取得し、その中の部分的な属性を使って分析する場合に有効な方式である。
Claims (7)
- テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をVa、その具体的な値をvaとし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′とし、元テーブルのレコードr1、r2間の距離Dを、δ^をクロネッカーのデルタとしたとき、
と定義し、整数値を要素に持つ集合φに対するソート関数を、
と定義し、
元テーブルτから全てのレコードr∈Rについて
を計算し、
を計算するソート部と、
匿名化パラメータk、niから
および、
を満たすように、各属性の維持確率であるパラメータρajを求める維持確率計算部と、
属性aの遷移確率行列
を計算する行列計算部と、
テーブルの各属性の値を遷移確率行列を用いて遷移させるテーブル遷移部とを含み、
遷移とは、テーブルのあるレコードの属性aの値がvaであったとき、遷移確率行列に基づいて定まる確率でv′aに値を変更することを示す
匿名化装置。 - テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をVa、その具体的な値をvaとし、Vを属性の組み合わせの集合、すなわちΠを直積を表すとしたとき、V=Πa∈ASVaとし、その要素をvとし、匿名化テーブルのある属性a∈ASがとりうる値の集合をV′a、その具体的な値をv′aとし、V′を匿名化テーブルの属性の組み合わせの集合とし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′としたとき、
元テーブルτのすべてのレコードr∈Rについて、互いのレコード間距離Dを計算し、その中で最も大きいものをD*とする距離計算部と、
テーブルの空間Tのうち、最も大きいレコード間距離がD*であるようなテーブルの集合をT^とし、匿名化テーブルの空間をT′とし、
を、あるテーブルτ^のs番目のレコードの属性τ^(s)が、匿名化テーブル τ′のs′番目のレコードの属性τ′(s′)に変化する確率をあらわすものと定義し、πは任意のレコード順の置換であるものとし、
与えられた匿名性のパラメータkとT^、T′から、
を満たすような
を計算する確率計算部と、
を満たし、かつ
であるような|V|×|V′|行列Aを計算する行列計算部と、
テーブルの各属性の値を|V|×|V′|行列Aを用いて遷移させるテーブル遷移部とを含み、
遷移とは、テーブルのあるレコードの属性がv∈Vであったとき、遷移確率行列に基づいて定まる確率でv′に値を変更することを示す
匿名化装置。 - 請求項2に記載の匿名化装置であって、
レコード間距離Dをレコード同士のハミング距離とする
匿名化装置。 - テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をVa、その具体的な値をvaとし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′とし、元テーブルのレコードr1、r2間の距離Dを、δ^をクロネッカーのデルタとしたとき、
と定義し、整数値を要素に持つ集合φに対するソート関数を、
と定義し、
元テーブルτから全てのレコードr∈Rについて
を計算し、
を計算するソートステップと、
匿名化パラメータk、niから
および、
を満たすように、各属性の維持確率であるパラメータρajを求める維持確率計算ステップと、
属性aの遷移確率行列
を計算する行列計算ステップと、
テーブルの各属性の値を遷移確率行列を用いて遷移させるテーブル遷移ステップとを含み、
遷移とは、テーブルのあるレコードの属性aの値がvaであったとき、遷移確率行列に基づいて定まる確率でv′aに値を変更することを示す
匿名化方法。 - テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をVa、その具体的な値をvaとし、Vを属性の組み合わせの集合、すなわちΠを直積を表すとしたとき、V=Πa∈ASVaとし、その要素をvとし、匿名化テーブルのある属性a∈ASがとりうる値の集合をV′a、その具体的な値をv′aとし、V′を匿名化テーブルの属性の組み合わせの集合とし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′としたとき、
元テーブルτのすべてのレコードr∈Rについて、互いのレコード間距離Dを計算し、その中で最も大きいものをD*とする距離計算ステップと、
テーブルの空間Tのうち、最も大きいレコード間距離がD*であるようなテーブルの集合をT^とし、匿名化テーブルの空間をT′とし、
を、あるテーブルτ^のs番目のレコードの属性τ^(s)が、匿名化テーブル τ′のs′番目のレコードの属性τ′(s′)に変化する確率をあらわすものと定義し、πは任意のレコード順の置換であるものとし、
与えられた匿名性のパラメータkとT^、T′から、
を満たすような
を計算する確率計算ステップと、
を満たし、かつ
であるような|V|×|V′|行列Aを計算する行列計算ステップと、
テーブルの各属性の値を|V|×|V′|行列Aを用いて遷移させるテーブル遷移ステップとを含み、
遷移とは、テーブルのあるレコードの属性がv∈Vであったとき、遷移確率行列に基づいて定まる確率でv′に値を変更することを示す
匿名化方法。 - 請求項5に記載の匿名化方法であって、
レコード間距離Dを
レコード同士のハミング距離とする
匿名化方法。 - 請求項4から6の何れかに記載された匿名化方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013007815A JP5875535B2 (ja) | 2013-01-18 | 2013-01-18 | 匿名化装置、匿名化方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013007815A JP5875535B2 (ja) | 2013-01-18 | 2013-01-18 | 匿名化装置、匿名化方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014137586A true JP2014137586A (ja) | 2014-07-28 |
JP5875535B2 JP5875535B2 (ja) | 2016-03-02 |
Family
ID=51415085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013007815A Active JP5875535B2 (ja) | 2013-01-18 | 2013-01-18 | 匿名化装置、匿名化方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5875535B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11163895B2 (en) | 2016-12-19 | 2021-11-02 | Mitsubishi Electric Corporation | Concealment device, data analysis device, and computer readable medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080232363A1 (en) * | 2007-03-20 | 2008-09-25 | Xinyuan Wang | Interval Centroid Based Watermark |
JP2012080345A (ja) * | 2010-10-01 | 2012-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 撹乱システム、撹乱装置、撹乱方法及びプログラム |
-
2013
- 2013-01-18 JP JP2013007815A patent/JP5875535B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080232363A1 (en) * | 2007-03-20 | 2008-09-25 | Xinyuan Wang | Interval Centroid Based Watermark |
JP2012080345A (ja) * | 2010-10-01 | 2012-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 撹乱システム、撹乱装置、撹乱方法及びプログラム |
Non-Patent Citations (3)
Title |
---|
JPN6015045223; 菊池 亮、五十嵐 大、千田 浩司、濱田 浩気: '"データ分布依存処理によって高い有用性を実現する確率的k-匿名化"' 2013年 暗号と情報セキュリティシンポジウム SCIS2013 [CD-ROM] 1C2-2, 20130125, p.1-8, 電子情報通信学会情報セキュリティ研究専門委員会 * |
JPN6015045224; 五十嵐 大、長谷川 聡、納 竜也、菊池 亮、千田 浩司: '"数値属性に適用可能な,ランダム化によりk-匿名性を保証するプライバシー保護クロス集計"' CSS2012コンピュータセキュリティシンポジウム2012論文集 [CD-ROM] Vol.2012、No.3, 20121030, p.639-646, 一般社団法人情報処理学会 コンピュータセキュリティ * |
JPN6015045225; 五十嵐 大、千田 浩司、高橋 克巳: '"k-匿名性の確率的指標への拡張とその適用例"' コンピュータセキュリティシンポジウム2009 論文集 [第二分冊] Vol.2009、No.11, 20091019, p.763-768, 社団法人情報処理学会 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11163895B2 (en) | 2016-12-19 | 2021-11-02 | Mitsubishi Electric Corporation | Concealment device, data analysis device, and computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
JP5875535B2 (ja) | 2016-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9230132B2 (en) | Anonymization for data having a relational part and sequential part | |
Ficek et al. | Differential privacy in health research: A scoping review | |
US10176340B2 (en) | Abstracted graphs from social relationship graph | |
US20170161503A1 (en) | Determining a risk indicator based on classifying documents using a classifier | |
US20170277907A1 (en) | Abstracted Graphs from Social Relationship Graph | |
US20210165913A1 (en) | Controlling access to de-identified data sets based on a risk of re- identification | |
US20190318813A1 (en) | Augmenting datasets using de-identified data | |
US11093640B2 (en) | Augmenting datasets with selected de-identified data records | |
US11487901B2 (en) | Anonymizing relational and textual data | |
Pita et al. | A Spark-based Workflow for Probabilistic Record Linkage of Healthcare Data. | |
JP2013200659A (ja) | 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム | |
US20220019689A1 (en) | Privacy Preserving Server-Side Personalized Content Selection | |
Bender et al. | Privacy and confidentiality | |
WO2014006851A1 (ja) | 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体 | |
US10892042B2 (en) | Augmenting datasets using de-identified data and selected authorized records | |
US9959154B2 (en) | Identifying defunct nodes in data processing systems | |
Kaisler et al. | Big data issues and challenges | |
JP5875535B2 (ja) | 匿名化装置、匿名化方法、プログラム | |
JP5875536B2 (ja) | 匿名化装置、匿名化方法、プログラム | |
US20170322941A1 (en) | Ranking proximity of data sources with authoritative entities in social networks | |
US9286349B2 (en) | Dynamic search system | |
Ritchie et al. | Confidentiality and linked data | |
US20150170067A1 (en) | Determining analysis recommendations based on data analysis context | |
Adkinson Orellana et al. | A new approach for dynamic and risk-based data anonymization | |
Prada et al. | Avoiding disclosure of individually identifiable health information: a literature review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151016 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151110 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5875535 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |