JP5875536B2 - 匿名化装置、匿名化方法、プログラム - Google Patents

匿名化装置、匿名化方法、プログラム Download PDF

Info

Publication number
JP5875536B2
JP5875536B2 JP2013007816A JP2013007816A JP5875536B2 JP 5875536 B2 JP5875536 B2 JP 5875536B2 JP 2013007816 A JP2013007816 A JP 2013007816A JP 2013007816 A JP2013007816 A JP 2013007816A JP 5875536 B2 JP5875536 B2 JP 5875536B2
Authority
JP
Japan
Prior art keywords
anonymization
attribute
value
transition
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013007816A
Other languages
English (en)
Other versions
JP2014137587A (ja
Inventor
亮 菊池
亮 菊池
大 五十嵐
大 五十嵐
千田 浩司
浩司 千田
浩気 濱田
浩気 濱田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013007816A priority Critical patent/JP5875536B2/ja
Publication of JP2014137587A publication Critical patent/JP2014137587A/ja
Application granted granted Critical
Publication of JP5875536B2 publication Critical patent/JP5875536B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明はデータベースにおける個別データのプライバシー情報を確率的手法により秘匿する匿名化装置、匿名化方法、プログラムに関する。
近年、購買履歴や行動履歴等のデータを蓄積・分析し、商品のリコメンドやより良い都市開発等に活かしたいといった要望がある。しかし、このような個人に紐づくデータの利活用はプライバシーの問題があるため、第三者への提供や分析のアウトソーシング等が難しい。また、データを収集した者はそのデータについて繊細な取り扱いを要求されるといった問題がある。この問題に対し、データに適切なプライバシー保護措置を行うことでプライバシーの保護と統計分析を両立する匿名化技術が注目されている。匿名化技術では、データがどの程度プライバシーを保護できているかを定量的に表すため、幾つかのプライバシー指標が提案されている。その中でもk−匿名性、及びそれらを満たすアルゴリズムは近年最も研究が盛んな匿名化技術の一つである。しかし、k−匿名性及びその派生は確率的手法に適用できないという問題があったため、k−匿名性を確率空間へと拡張させたPk−匿名性と呼ばれるプライバシー保護指標が提案されている。
Pk−匿名性は、確率的手法のための、データベースにおける個別データのプライバシー情報がどの程度秘匿されているかを測る指標である。Pk−匿名性を満たす秘匿化技術として、非特許文献1、2、3、4が開示されている。
Rakesh Agrawal, Ramakrishnan Srikant, and Dilys Thomas. "Privacy preserving olap.In Fatma Ozcan", editor, SIGMOD Conference, pp.251-262. ACM, 2005. 五十嵐大、千田浩司、高橋克巳、「k−匿名性の確率的指標への拡張とその適用例」、InCSS, 2009. 五十嵐大、千田浩司、高橋克巳、「数値属性における、k−匿名性を満たすランダム化手法」、InCSS, 2011. 五十嵐大、長谷川聡、納竜也、菊池亮、千田浩司、「数値属性に適用可能な、ランダム化によりk−匿名性を保証するプライバシー保護クロス集計」、InCSS, 2012.
本発明では、提供者、処理者、分析者の3人が存在するモデルを考える。提供者は自身の個人に関する情報(以下、パーソナル情報)、を処理者に渡すものである。パーソナル情報として、例えばスマートフォンの位置情報などがある。処理者は複数の提供者のパーソナル情報を収集し、匿名化装置(匿名化方法)を用いて一括して匿名化処理を行い、分析者に提供する者である。分析者は、処理者から匿名化データを授受する者である。
プライバシー情報がどの程度秘匿されているかを表す指標として、前述したPk−匿名性があり、この指標を満たす手法をPk−匿名化と呼び、Pk−匿名化の具体的処理を匿名化処理と呼ぶこととする。Pk−匿名化は既に幾つか提案されているが、それらは全て匿名化対象のデータの分布によらず同一の処理を行う必要があった。本発明が適用されるモデルでは匿名化処理を一括で行うため、匿名化処理を行う際は元データ全体が既知である。そのため、匿名化処理をデータに依存させることでより良い匿名化が可能となる。例えば、元データがそもそもある程度の匿名性を持っているならば、匿名性が低いデータに比べ「弱い」匿名化処理を行う、といったことが考えられる。
しかし既存のPk−匿名化はこのような元データの匿名性に依存した匿名化処理ができない。そのため、元データがそもそもある程度の匿名性を持っていた場合でも、元データの匿名性が低い場合と同一の処理を行う必要があり、結果として、得られる匿名化データの有用性が下がってしまうという課題がある。そこで本発明では、一括してデータに匿名化処理を施すとき、より弱い匿名化で所望する匿名性を満たすことができる匿名化装置を提供することを目的とする。
本発明の匿名化装置は、集合計算部と、パラメータ計算部と、行列計算部と、テーブル遷移部とを含む。
テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をV、その具体的な値をvとし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′とし、演算記号#τ(*)を
と定義し、#τ(v)を、テーブルτのうち属性値がvであるレコードの数とする。
集合計算部は、匿名化パラメータk、元テーブルτからk個未満の属性値と対応するレコード番号の集合R (k)と、k個未満の属性値の集合V (k)を計算し、|R (k)|≧kならば、⊥(reject)を出力する。
パラメータ計算部は、匿名化パラメータkと集合R (k)から、
を満たすようなパラメータρ,c∈[0,1]を計算する。
行列計算部は、パラメータρ,cを用いて、遷移確率行列Aを
τ(v)≧kのとき、
τ(v)<kのとき、
として計算する。
テーブル遷移部は、テーブルの各属性の値を遷移確率行列を用いて遷移させる。
遷移とは、テーブルのあるレコードの属性aの値がvであったとき、遷移確率行列に基づいて定まる確率でv′に値を変更することを示す。
本発明の匿名化装置によれば、一括してデータに匿名化処理を施すとき、より弱い匿名化で所望する匿名性を満たすことができる。
本発明において匿名化の対象となるテーブルの例を示す図。 本発明の匿名化装置の入出力の概要を示す図。 本発明の実施例1の匿名化装置の構成を示すブロック図。 本発明の実施例1の匿名化装置の動作を示すフローチャート。 実施例1の匿名化装置のソート部が処理する元テーブルの例を示す図。 実施例1の匿名化装置のソート部の処理例を示す図。 本発明の変形例1の匿名化装置の構成を示すブロック図。 本発明の変形例1の匿名化装置の動作を示すフローチャート。 本発明の実施例2の匿名化装置の構成を示すブロック図。 本発明の実施例2の匿名化装置の動作を示すフローチャート。 集合R (k)、V (k)を例示する図。 本発明の変形例2の匿名化装置の構成を示すブロック図。 本発明の変形例2の匿名化装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<前提条件>
図1を参照して本発明の匿名化の対象について説明する。図1は本発明において匿名化の対象となるテーブルの例を示す図である。図1に示すように、本発明において匿名化に用いられるテーブルは、各行が一個人のデータを表し(これをレコードrと呼ぶ)、各列には各属性(例えば年齢、年収等)の値が入力されているものとする。本発明が満足するPk−匿名性というプライバシー保護指標は、プライバシーの保護度合をkというパラメータ(以下、匿名化パラメータと呼ぶ)で決めている。そのため、匿名化処理では最初にこの匿名化パラメータkが与えられるものとする。
図2を参照して本発明の匿名化装置の入出力について説明する。図2は本発明の匿名化装置の入出力の概要を示す図である。図2に示すように、匿名化装置は、匿名化の対象となる元テーブルと、どの程度匿名性を持たせるかを決めるパラメータ(匿名化パラメータk)とを入力とする。匿名化装置は匿名化処理を実行し、匿名化テーブルと、匿名化処理に用いたパラメータ(遷移確率行列など)が出力される。
以下、本発明を詳細に記述するために、用語および関数の定義を行う。テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をV、その具体的な値をvとする。匿名化される前の元テーブルをτ、匿名化テーブルをτ′とする。元テーブルのレコードr、r間の距離Dを以下のように定義する。δ^をクロネッカーのデルタとしたとき、
と定義し、さらに整数値を要素に持つ集合φに対するソート関数を、
と定義する。
以下、図3、4を参照して、本発明の実施例1に係る匿名化装置1について説明する。図3は本実施例の匿名化装置1の構成を示すブロック図である。図4は本実施例の匿名化装置1の動作を示すフローチャートである。
図3に示すように本実施例の匿名化装置1は、ソート部11と、維持確率計算部12と、行列計算部13と、テーブル遷移部14とを備える。匿名化装置1は、匿名化パラメータkと、元テーブルτを入力とする。まず、ソート部11は、元テーブルτから全てのレコードr∈Rについて
を計算し、
を計算する(S11)。
ソート部11がおこなうソート、nの計算について図5、6を参照して補足説明する。図5は本実施例の匿名化装置1のソート部11が処理する元データの例を示す図である。図6は本実施例の匿名化装置1のソート部11の処理例を示す図である。図5に示すように属性を年齢、性別、年収とし、レコードr、r、r、rからなる元テーブルをソートする場合について考える。この場合図6に示すように、ソート部11は各レコード間の距離Dを計算し、当該距離Dをレコードごとに昇順に並べ替えるソートを実行し、並べ替え後の各順位の最大値からn=(n,n,n)を計算する。
次に、維持確率計算部12は、与えられた匿名化パラメータkと先ほど求めたnから
および、
を満たすように、各属性の維持確率であるパラメータρajを求める(S12)。
次に、行列計算部13は、属性aの遷移確率行列
を計算する(S13)。次に、テーブル遷移部14は、テーブルの各属性の値を上の遷移確率行列を用いて遷移させる(S14)。遷移とは、テーブルのあるレコードの属性aの値がvであったとき、確率
でv′に値を変更することを意味する。この操作を全レコードの全属性値に行った結果を、匿名化テーブルτ′とする。
匿名化装置1は、匿名化テーブルτ′、各属性の遷移確率行列{A|a∈AS}、
を出力する。
本実施例の匿名化装置1によれば、一括してデータに匿名化処理を施すとき、より弱い匿名化で所望する匿名性を満たすことができる。
また、本実施例の匿名化装置1によれば、従来の手法では存在しなかった元データのテーブルの情報n→が公開されるため、維持確率を大きくすることができる。維持確率は「データが遷移せずにそのままの値でいる確率」であり、高ければ高いほど元データに近いものになるため、従来の手法よりもデータの有用性が高い。
[変形例1]
以下、図7、図8を参照して、実施例1の一部を変形した変形例1の匿名化装置10について説明する。図7は本変形例の匿名化装置10の構成を示すブロック図である。図8は本変形例の匿名化装置10の動作を示すフローチャートである。
<前提条件>
実施例1と同様に、テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をV、その具体的な値をvとする。また、Vを属性の組み合わせの集合、すなわちΠは直積を表すとしたとき、V=Πa∈ASであり、その要素をvとする。同様に、匿名化テーブルのある属性a∈ASがとりうる値の集合をV′、その具体的な値をv′とし、V′を匿名化テーブルの属性の組み合わせの集合とし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′とする。
図7に示すように、本変形例の匿名化装置10は、距離計算部110と、確率計算部120と、行列計算部130と、テーブル遷移部14とを備える。実施例1と同様に、本変形例の匿名化装置10は、匿名化パラメータkと、元テーブルτを入力とする。まず距離計算部110は、元テーブルτのすべてのレコードr∈Rについて、互いのレコード間距離Dを計算し、その中で最も大きいものをDとする。ここで、テーブルの空間Tのうち、最も大きいレコード間距離がDであるようなテーブルの集合をT^とする。また、匿名化テーブルの空間をT′とする。また、
を「あるテーブルτ^のs番目のレコードの属性(これをτ^(s)と書く)」が、「匿名化テーブル τ′のs′番目のレコードの属性(これを τ′(s′)と書く)」に変化する確率をあらわすものと定義する。
次に、確率計算部120は、与えられた匿名性のパラメータkとT^、T′から、
を満たすような
を計算する(S120)。ここで、πは任意のレコード順の置換である。
次に、行列計算部130は、
を満たし、かつ
であるような|V|×|V′|行列Aを計算する(S130)。テーブル遷移部14は、ステップS130で求めた行列Aに従い元テーブルの各属性の値を遷移させる。具体的には、ステップS14は、元テーブルのレコードの属性がv∈Vであったとき、確率Av,v′でv′に値を変更する処理である。この処理を全レコードの全属性値に行った結果を、匿名化テーブル τ′とする。匿名化装置10は、匿名化テーブルτ′、遷移確率行列Aτ^,τ′,Dを出力する。
本変形例の匿名化装置10によれば、実施例1と同様、一括してデータに匿名化処理を施すとき、より弱い匿名化で所望する匿名性を満たすことができる。
また、本変形例においてレコード間距離Dをレコード同士のハミング距離として、クロネッカーのδ及びソート関数で計算したn→として具体化すれば、実施例1と同様に、従来の手法では存在しなかった元データのテーブルの情報n→が公開されるため、維持確率を大きくすることができる。維持確率は「データが遷移せずにそのままの値でいる確率」であり、高ければ高いほど元データに近いものになるため、従来の手法よりもデータの有用性が高い。
<前提条件>
実施例1と同様に、テーブルの属性の集合をAS、レコードの集合をRとし、ある属性a∈ASが取り得る値の集合をV、その具体的な値をvとする。匿名化される前の元テーブルをτ、匿名化テーブルをτ′と書く。テーブルはレコードと属性値を結ぶ写像であり、例えばレコード1の属性値がAであれば、τ(1)=Aと表される。ここで、演算記号#τ(*)を
と定義する。すなわち、#τ(v)とは、テーブルτのうち属性値がvであるレコードの数を表す。R (k)、V (k)をテーブルτにおいて#τ(τ(r))<kであるレコードrの集合、および属性τ(r)の集合とする。また、この方式は|R (k)|≧kである必要がある。R (k)、V (k)について、図11の具体例を参照して補足説明する。図11は集合R (k)、V (k)を例示する図である。図11に示すような属性=年齢のレコードr〜r10を例に、k=3の場合を考えると、集合R (k)はk(=3)個未満の属性値と対応するレコード番号の集合である。従ってこの場合、集合R (k)={4,5,6}となる。集合V (k)は、k(=3)個未満の属性値の集合である。従ってこの場合、集合V (k)={30代,40代}となる。
以下、図9、図10を参照して実施例2の匿名化装置2について説明する。図9は本実施例の匿名化装置2の構成を示すブロック図である。図10は本実施例の匿名化装置2の動作を示すフローチャートである。図9に示すように、本実施例の匿名化装置2は、集合計算部21と、パラメータ計算部22と、行列計算部23と、テーブル遷移部14とを備える。実施例1と同様に、匿名化装置2は、匿名化パラメータkと、元テーブルτを入力とする。
まず集合計算部21は、匿名化パラメータk、元テーブルτから集合R (k)、V (k)を計算し、|R (k)|≧kならば、⊥(reject)を出力する(S21)。次に、パラメータ計算部22は、与えられた匿名化パラメータkとステップS21で求めたR (k)から、
を満たすようなパラメータρ,c∈[0,1]を計算する(S22)。次に、行列計算部23は、ステップS22で求めたパラメータρ,cを用いて、遷移確率行列Aを
τ(v)≧kのとき、
τ(v)<kのとき、
として計算する(S23)。次に、テーブル遷移部14は、遷移確率行列Aに従って、匿名化テーブル τ′を作成する(S14)。本実施例のテーブル遷移部14の動作は、実施例1のテーブル遷移部14の動作と同じである。
匿名化装置2は、匿名化テーブル τ′、および遷移確率行列Aを出力する。
[変形例2]
以下、図12、図13を参照して、実施例2の一部を変形した変形例2の匿名化装置20について説明する。図12は本変形例の匿名化装置20の構成を示すブロック図である。図13は本変形例の匿名化装置20の動作を示すフローチャートである。なお、本変形例では、実施例2に示された<前提条件>を引き続き用いる。
図12に示すように、本変形例の匿名化装置20は、集合計算部21と、関数計算部220と、行列計算部230と、テーブル遷移部14とを備える。集合計算部21と、テーブル遷移部14の動作は、実施例2と共通しているので説明を割愛する。実施例2と同様に、匿名化装置20は、匿名化パラメータkと、元テーブルτを入力とする。
関数計算部220は、与えられた匿名化パラメータkとステップS21で求めたR (k)から、
を満たすような関数f∈[0,1],α∈[0,1],β∈[0,1]を計算する(S220)。次に、行列計算部230は、ステップS220で求めたf,α,βを用いて、|V|×|V′|行列Aを
τ(v)≧kのとき、
τ(v)<kのとき、任意の[0,1]に含まれる値、ただし
を満たすように計算する(S230)。
以下、本変形例におけるステップS220、S230においてα、βをρを用いて、α=1+(1−ρ)/|V|,β=(1−ρ)/|V|として具体化した場合について述べる。この場合、上述したステップS220において、関数計算部220は、与えられた匿名化パラメータkとステップS21で求めたR (k)から、
を満たすような関数f∈[0,1],ρ[0,1]を計算する。次に、ステップS230において、行列計算部230は、ステップS220で求めたパラメータf,ρを用いて、|V|×|V′|行列Aを
τ(v)≧kのとき、
τ(v)<kのとき、
として計算する。
実施例2、および変形例2の匿名化装置2、20によれば、実施例1と同様に、一括してデータに匿名化処理を施すとき、より弱い匿名化で所望する匿名性を満たすことができる。
また、実施例2、および変形例2の匿名化装置2、20によれば、従来手法に存在しない集合R (k)、V (k)を用いることにより、集合R (k)、V (k)に依存してデータの処理を変えることができるため、従来手法と同等の匿名性を保ちながら、元データの変更を少なくすることができ、従来の手法よりもデータの有用性が高い。
<実施例1の匿名化装置1と実施例2の匿名化装置2の比較>
匿名化装置1の方式は、データ依存型維持置換撹乱方式と呼ぶべき性質を有している。匿名化装置1の方式では、テーブル全体の分布があまり保たれないが、その中の属性間の関係は保たれる。従って匿名化装置1の方式は、分析者が一つの大きな匿名化テーブルを取得し、その中の部分的な属性を使って分析する場合に有効な方式である。
一方、匿名化装置2の方式は、データ依存型クロス値撹乱方式と呼ぶべき性質を有している。匿名化装置2の方式では、テーブル全体の分布は保たれるが、個々の属性間の関係はあまり保たれない。従って匿名化装置2の方式は、分析者が分析の度にテーブルを取得するような場合、例えばオーダーメード匿名化に有効な方式である。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をV、その具体的な値をvとし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′とし、演算記号#τ(*)を

    と定義し、#τ(v)を、テーブルτにおいて属性vであるレコードの数とし、
    匿名化パラメータk、元テーブルτからk個未満の属性値と対応するレコード番号の集合R (k)と、k個未満の属性値の集合V (k)を計算し、|R (k)|≧kならば、⊥(reject)を出力する集合計算部と、
    匿名化パラメータkと集合R (k)から、

    を満たすようなパラメータρ,c∈[0,1]を計算するパラメータ計算部と、
    パラメータρ,cを用いて、遷移確率行列Aを
    τ(v)≧kのとき、

    τ(v)<kのとき、

    として計算する行列計算部と、
    テーブルの各属性の値を遷移確率行列を用いて遷移させるテーブル遷移部とを含み、
    遷移とは、テーブルのあるレコードの属性aの値がvであったとき、遷移確率行列に基づいて定まる確率でv′に値を変更することを示す
    匿名化装置。
  2. テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をV、その具体的な値をvとし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′とし、演算記号#τ(*)を

    と定義し、#τ(v)を、テーブルτにおいて属性vであるレコードの数とし、
    匿名化パラメータk、元テーブルτからk個未満の属性値と対応するレコード番号の集合R (k)と、k個未満の属性値の集合V (k)を計算し、|R (k)|≧kならば、⊥(reject)を出力する集合計算部と、
    匿名化パラメータkと集合R (k)から、

    を満たすような関数f∈[0,1],α∈[0,1],β∈[0,1]を計算する関数計算部と、
    関数f,α,βを用いて、|V|×|V′|行列Aを
    τ(v)≧kのとき、

    τ(v)<kのとき、任意の[0,1]に含まれる値、ただし

    を満たすように計算する行列計算部と、
    テーブルの各属性の値を遷移確率行列を用いて遷移させるテーブル遷移部とを含み、
    遷移とは、テーブルのあるレコードの属性aの値がvであったとき、遷移確率行列に基づいて定まる確率でv′に値を変更することを示す
    匿名化装置。
  3. 請求項1に記載の匿名化装置であって、
    α,βをパラメータρ∈[0,1]を用いて、
    α=1+(1−ρ)/|V|,β=(1−ρ)/|V|とする
    匿名化装置。
  4. 匿名化装置が実行する匿名化方法であって、
    テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をV、その具体的な値をvとし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′とし、演算記号#τ(*)を

    と定義し、#τ(v)を、テーブルτのうち属性値がvであるレコードの数とし、
    前記匿名化装置は、
    匿名化パラメータk、元テーブルτからk個未満の属性値と対応するレコード番号の集合R (k)と、k個未満の属性値の集合V (k)を計算し、|R (k)|≧kならば、⊥(reject)を出力する集合計算ステップと、
    匿名化パラメータkと集合R (k)から、

    を満たすようなパラメータρ,c∈[0,1]を計算するパラメータ計算ステップと、
    パラメータρ,cを用いて、遷移確率行列Aを
    τ(v)≧kのとき、

    τ(v)<kのとき、

    として計算する行列計算ステップと、
    テーブルの各属性の値を遷移確率行列を用いて遷移させるテーブル遷移ステップとを実行し、
    遷移とは、テーブルのあるレコードの属性aの値がvであったとき、遷移確率行列に基づいて定まる確率でv′に値を変更することを示す
    匿名化方法。
  5. 匿名化装置が実行する匿名化方法であって、
    テーブルの各行を一個人のデータを表すレコードr、テーブルの各列を各属性の値とし、テーブルの属性の集合をAS、レコードrの集合をRとし、ある属性a∈ASが取り得る値の集合をV、その具体的な値をvとし、匿名化される前の元テーブルをτ、匿名化テーブルをτ′とし、演算記号#τ(*)を

    と定義し、#τ(v)を、テーブルτのうち属性値がvであるレコードの数とし、
    前記匿名化装置は、
    匿名化パラメータk、元テーブルτからk個未満の属性値と対応するレコード番号の集合R (k)と、k個未満の属性値の集合V (k)を計算し、|R (k)|≧kならば、⊥(reject)を出力する集合計算ステップと、
    匿名化パラメータkと集合R (k)から、

    を満たすような関数f∈[0,1],α∈[0,1],β∈[0,1]を計算する関数計算ステップと、
    関数f,α,βを用いて、|V|×|V′|行列Aを
    τ(v)≧kのとき、

    τ(v)<kのとき、任意の[0,1]に含まれる値、ただし

    を満たすように計算する行列計算ステップと、
    テーブルの各属性の値を遷移確率行列を用いて遷移させるテーブル遷移ステップとを実行し、
    遷移とは、テーブルのあるレコードの属性aの値がvであったとき、遷移確率行列に基づいて定まる確率でv′に値を変更することを示す
    匿名化方法。
  6. 請求項5に記載の匿名化方法であって、
    α,βをパラメータρ∈[0,1]を用いて、
    α=1+(1−ρ)/|V|,β=(1−ρ)/|V|とする
    匿名化方法。
  7. 請求項4から6の何れかに記載された匿名化方法の各ステップをコンピュータに実行させるためのプログラム。
JP2013007816A 2013-01-18 2013-01-18 匿名化装置、匿名化方法、プログラム Active JP5875536B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013007816A JP5875536B2 (ja) 2013-01-18 2013-01-18 匿名化装置、匿名化方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013007816A JP5875536B2 (ja) 2013-01-18 2013-01-18 匿名化装置、匿名化方法、プログラム

Publications (2)

Publication Number Publication Date
JP2014137587A JP2014137587A (ja) 2014-07-28
JP5875536B2 true JP5875536B2 (ja) 2016-03-02

Family

ID=51415086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013007816A Active JP5875536B2 (ja) 2013-01-18 2013-01-18 匿名化装置、匿名化方法、プログラム

Country Status (1)

Country Link
JP (1) JP5875536B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11163895B2 (en) 2016-12-19 2021-11-02 Mitsubishi Electric Corporation Concealment device, data analysis device, and computer readable medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7724782B2 (en) * 2007-03-20 2010-05-25 George Mason Intellectual Properties, Inc. Interval centroid based watermark
JP5475608B2 (ja) * 2010-10-01 2014-04-16 日本電信電話株式会社 撹乱システム、撹乱装置、撹乱方法及びプログラム

Also Published As

Publication number Publication date
JP2014137587A (ja) 2014-07-28

Similar Documents

Publication Publication Date Title
Ficek et al. Differential privacy in health research: A scoping review
Gassebner et al. When to expect a coup d’état? An extreme bounds analysis of coup determinants
US9892278B2 (en) Focused personal identifying information redaction
US10176340B2 (en) Abstracted graphs from social relationship graph
Ghavami Big data management: Data governance principles for big data analytics
JP2023542632A (ja) 文書内の機密データの保護
US11487901B2 (en) Anonymizing relational and textual data
US20190318811A1 (en) Augmenting datasets using de-identified data
US20220019689A1 (en) Privacy Preserving Server-Side Personalized Content Selection
US10892042B2 (en) Augmenting datasets using de-identified data and selected authorized records
US11093646B2 (en) Augmenting datasets with selected de-identified data records
Pita et al. A Spark-based Workflow for Probabilistic Record Linkage of Healthcare Data.
Sisodia et al. Fast prediction of web user browsing behaviours using most interesting patterns
JP2013200659A (ja) 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム
Bender et al. Privacy and confidentiality
WO2014006851A1 (ja) 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体
Fotache et al. Framework for the Assessment of Data Masking Performance Penalties in SQL Database Servers. Case Study: Oracle
US9959154B2 (en) Identifying defunct nodes in data processing systems
Kaisler et al. Big data issues and challenges
US10380157B2 (en) Ranking proximity of data sources with authoritative entities in social networks
JP5875536B2 (ja) 匿名化装置、匿名化方法、プログラム
JP5875535B2 (ja) 匿名化装置、匿名化方法、プログラム
US9286349B2 (en) Dynamic search system
Jones et al. Sequential autoencoders for feature engineering and pretraining in major depressive disorder risk prediction
Ritchie et al. Confidentiality and linked data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160119

R150 Certificate of patent or registration of utility model

Ref document number: 5875536

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150