JP5475610B2 - 撹乱装置、撹乱方法及びプログラム - Google Patents

撹乱装置、撹乱方法及びプログラム Download PDF

Info

Publication number
JP5475610B2
JP5475610B2 JP2010225061A JP2010225061A JP5475610B2 JP 5475610 B2 JP5475610 B2 JP 5475610B2 JP 2010225061 A JP2010225061 A JP 2010225061A JP 2010225061 A JP2010225061 A JP 2010225061A JP 5475610 B2 JP5475610 B2 JP 5475610B2
Authority
JP
Japan
Prior art keywords
disturbance
data
value
probability
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010225061A
Other languages
English (en)
Other versions
JP2011100116A (ja
Inventor
大 五十嵐
浩司 千田
克巳 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010225061A priority Critical patent/JP5475610B2/ja
Publication of JP2011100116A publication Critical patent/JP2011100116A/ja
Application granted granted Critical
Publication of JP5475610B2 publication Critical patent/JP5475610B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データに含まれる値を秘匿する撹乱装置、撹乱方法及びプログラムに関する。
近年、データベースに記憶されたデータに含まれる値を統計的手法によって秘匿しつつ、データに含まれる値の集計結果であるクロス集計等を推定する技術が考えられている(例えば、非特許文献1,2参照。)。ここでいうデータとは例えば、個人情報等を含むアンケート結果等のことであり、保護されるべきデータのことである。
なお、クロス集計とは、データを構成する複数の項目のうち、2つまたはそれ以上の項目に着目してデータの集計や統計分析を行うことである。クロス集計は通常、1つまたは2つ程度の項目を縦軸にとり、別の項目を横軸にとった表として表される。
非特許文献1,2に開示されている技術では、データベースに記憶されたデータに含まれる値を、予め決められた維持確率に基づいて項目毎に確率的に変化させる。なお、維持確率とは値を確率的に変化させた後においても、その値がそのままの値を維持する確率のことである。以降、このように維持確率に基づき、データに含まれる値を確率的に変化させることを撹乱という。また、データベースに記憶されたデータに含まれる値のことをデータ値という。また、撹乱されたデータ値のことを撹乱値という。なお、これらの用語を用いると、維持確率は、データ値を撹乱値に置換しない確率ということができる。
この撹乱によってデータ値が秘匿され、例えばそのデータ値が置換された撹乱値を含む撹乱データが漏洩した場合でもデータを保護することができる。
五十嵐 大,千田 浩司,高橋 克巳,「多値属性に適用可能な効率的プライバシー保護クロス集計」,コンピュータセキュリティシンポジウム2008(2008年10月8日〜10日) 高見澤 秀久,有次 正義,「プライバシーを保護するカウント演算の多値属性分類への適用」, DEWS2007, 2007
上述した非特許文献1,2に開示されている技術では、データがどの程度秘匿されているかが明確でない。つまり、上述した維持確率によっては、データと撹乱データとを対応付けられる確率が高くなり、データと撹乱データとが対応付けられてしまうという問題点がある。
本発明は、データと撹乱データとが対応付けられるのを回避することができる撹乱装置、撹乱方法及びプログラムを提供することを目的とする。
上記目的を達成するために本発明の撹乱装置は、
複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちいずれかであるデータ値を含むデータの入力を受け付け、該受け付けたデータに含まれるデータ値を、所定の確率に基づいて前記複数の値のうちいずれかの値に撹乱値として置換する撹乱装置であって、
前記データと、当該データに含まれるデータ値が置換された撹乱値を含む撹乱データとを対応付けられる確率の逆数を示す値kを表し、前記データ値を前記撹乱値に置換しない確率である第1の維持確率ρkを含む式、
Figure 0005475610
を用いて算出される撹乱用確率に基づき、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換する。
また、上記目的を達成するために本発明の撹乱方法は、
複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちいずれかであるデータ値を含むデータの入力を受け付け、該受け付けたデータに含まれるデータ値を、所定の確率に基づいて前記複数の値のうちいずれかの値に撹乱値として置換する撹乱装置における撹乱方法であって、
前記データと、当該データに含まれるデータ値が置換された撹乱値を含む撹乱データとを対応付けられる確率の逆数を示す値kを表し、前記データ値を前記撹乱値に置換しない確率である第1の維持確率ρkを含む式、
Figure 0005475610
を用いて算出される撹乱用確率に基づき、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換する第1の置換処理を有する。
また、上記目的を達成するために本発明のプログラムは、
複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちいずれかであるデータ値を含むデータの入力を受け付け、該受け付けたデータに含まれるデータ値を、所定の確率に基づいて前記複数の値のうちいずれかの値に撹乱値として置換する撹乱装置に、
前記データと、当該データに含まれるデータ値が置換された撹乱値を含む撹乱データとを対応付けられる確率の逆数を示す値kを表し、前記データ値を前記撹乱値に置換しない確率である第1の維持確率ρkを含む式、
Figure 0005475610
を用いて算出される撹乱用確率に基づき、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換する置換機能を実現させる。
本発明によれば、撹乱装置は、複数の項目から構成され、複数の項目のそれぞれに対応付けられた複数の値のうちいずれかであるデータ値を含むデータの入力を受け付け、受け付けたデータに含まれるデータ値を、所定の確率に基づいて複数の値のうちいずれかの値に撹乱値として置換する。その際、撹乱装置10は、データと、当該データに含まれるデータ値が置換された撹乱値を含む撹乱データとを対応付けられる確率の逆数を示す値kを表し、前記データ値を前記撹乱値に置換しない確率である第1の維持確率ρkを含む式を用いて算出される撹乱用確率に基づき、受け付けたデータに含まれるデータ値を撹乱値に置換する。
これにより、データと撹乱データとを対応付けられる確率が所定の確率以下となることを保証することができる。つまり、データと撹乱データとを高い確率で対応付けられる確率を0とすることができる。
従って、データと撹乱データとが対応付けられるのを回避することができる。
本発明の撹乱装置を適用した集計システムの実施の一形態の構成を示すブロック図である。 図1に示したデータベースが有するテーブルの構成の一例を示す図であり、(a)はテーブルの構成を説明するための図、(b)はテーブルの具体例を説明するための図である。 図1及び図2に示した集計システムの動作を説明するためのフローチャートである。 図1に示した維持確率設定部を集計装置が備えた集計システムの構成の一例を示すブロック図である。 図1に示した維持確率設定部を撹乱装置及び集計装置以外の装置が備えた集計システムの構成の一例を示すブロック図である。 図5に示した構成において撹乱装置及び集計装置を複数備えた場合の構成の一例を示すブロック図である。 図1及び図4〜図6に示したデータベースが有するテーブルの他の具体例を説明するための図である。
以下に、本発明の実施の形態について図面を参照して説明する。
図1は、本発明の撹乱装置を適用した集計システムの実施の一形態の構成を示すブロック図である。
本実施形態の集計システムは図1に示すように、撹乱装置10と、集計装置20とを備えている。
撹乱装置10は、データベース11と、維持確率設定部12と、撹乱部13とを備えている。
データベース11は、複数のデータが記憶されたテーブルを有している。
図2は、図1に示したデータベース11が有するテーブルの構成の一例を示す図であり、(a)はテーブルの構成を説明するための図、(b)はテーブルの具体例を説明するための図である。
図1に示したデータベース11が有するテーブルは図2(a)に示すように、複数のデータ(データ1〜n)を記憶している。複数のデータのそれぞれは、複数の項目(項目1〜n)から構成されている。また、複数のデータのそれぞれは、複数の項目のそれぞれに対応付けられた複数の値のいずれかであるデータ値を含んでいる。
図2(b)は、図2(a)に示したテーブルの具体例を示している。図2(b)に示すテーブルでは、複数のデータのそれぞれが個人に関するデータとなっており、図中最も左の列に個人名を識別するIDが示されている。そして、項目1がそれぞれの個人の性別、項目2がそれぞれの個人の年代となっている。
図2(b)に示す例の場合、各項目に対応付けられた値としては、性別(項目1)では例えば、男性の場合「0」、女性の場合「1」となる。従って、性別(項目1)に対応付けられた値の数は「2」となる。また、年代(項目2)では例えば、0歳〜9歳の場合「0」、10歳〜19歳の場合「1」となり、その後、年代順に「2」〜「8」が用いられ、90歳〜99歳の場合「9」となる。従って、年代(項目2)に対応付けられた値の数は「10」となる。
このように、データベース11が有するテーブルにおいては、各項目に対応付けられた値と、各項目に対応付けられた値の数とが予め決められている。以降、各項目iに対応付けられた値の数をMiと表記し、各項目iに対応付けられた値をVi0〜ViMi-1と表記する。
再度、図1を参照すると、維持確率設定部12は、データベース11が有するテーブルの構成を予め記憶している。具体的には、維持確率設定部12は、データベース11が有するテーブルに記憶されたデータの数Nと、各項目iに対応付けられた値の数Miとを記憶している。さらに、維持確率設定部12は、予め決められた値であるkを記憶している。なお、kの詳細については後述する。そして、維持確率設定部12は、これらの値を用いて以下の式1にて表される式の解であるρkを二分法等を用いて算出する。本実施形態においては、式1の解であるρkが撹乱用確率である第1の維持確率となる。そして、維持確率設定部12は、算出した第1の維持確率ρkを示す維持確率情報を撹乱部13へ出力する。
Figure 0005475610
撹乱部13は、データベース11が有するテーブルに記憶されたデータの各項目iに対応付けられた値Vi0〜ViMi-1を記憶している。撹乱部13は、データベース11に記憶された複数のデータの入力を受け付ける。また、撹乱部13は、維持確率設定部12から出力された維持確率情報を受け付ける。そして、受け付けた維持確率情報が示す第1の維持確率ρkに基づき、受け付けた複数のデータに含まれるデータ値を項目毎に撹乱値に置換する。このとき、撹乱部13は、実数の値を有する乱数ri(0≦ri≦1)を項目毎に生成する。そして、受け付けた維持確率情報が示す第1の維持確率ρkと、生成された乱数riとを項目毎に比較する。受け付けた維持確率情報が示す第1の維持確率ρkと、生成された乱数riとを比較した結果、乱数riの値が第1の維持確率ρkよりも大きな場合(ri>ρk)、撹乱部13は、その項目iのデータ値を、その項目iに対応付けられた値Vi0〜ViMi-1のいずれかに置換する。この置換されたデータ値が撹乱値となる。一方、受け付けた維持確率情報が示す第1の維持確率ρkと、生成された乱数riとを比較した結果、乱数riの値が第1の維持確率ρk以下である場合(ri≦ρk)、撹乱部13は、その項目iのデータ値を置換しない。そして、撹乱部13は、上述した比較の結果に応じて置換されたデータ値(撹乱値)及び置換されなかったデータ値(受け付けたデータに含まれるデータ値)を含むデータを集計装置20へ送信する。この上述した比較の結果に応じて置換されたデータ値(撹乱値)及び置換されなかったデータ値(受け付けたデータに含まれるデータ値)を含むデータが撹乱データとなる。
ここで、上記の式1について説明する。
上記の式1の左辺は、最悪のデータベースに対して最悪な撹乱が行われ、最強の攻撃者に攻撃された場合に、データと撹乱データとが対応付けられる確率の逆数を示している。なお、攻撃者とは、データ値を不正に取得しようとしている者のことである。
上記の式1の左辺の値が「k」であるということは、どのような攻撃者も1/k以上の確率で、データと撹乱データとを対応付けられないということである。言い換えると、撹乱データが公開されたり、漏洩したりしても、その撹乱データが例えば、図2(b)に示したどの個人のものであるかを知られることは決してない。これは例えば、図2(b)に示したようなデータの項目(性別や年代)等に関する知識を有する攻撃者に対しても保証される。
なお、最悪のデータベースとは、ある1つのデータにおける各項目のデータ値の組み合わせをpとしたとき、他のデータの全てにおける各項目のデータ値の組み合わせが、p以外の組み合わせqであるデータベースのことである。また、最悪の撹乱とは、いずれのデータ値も撹乱値に置換されない撹乱のことである。また、最強の攻撃者とは、撹乱部13において生成された乱数、及び、データ値の並び順以外の全ての情報、つまり、全てのデータ値、全ての撹乱値及び第1の維持確率ρkを閲覧することができる攻撃者のことである。
再度、図1を参照すると、集計装置20は、集計処理部21を備えている。
集計処理部21は、撹乱装置10の撹乱部13から送信された撹乱データを受信し、受信した撹乱データから集計結果を推定する。集計結果とは例えば、クロス集計である。このとき、集計処理部21は、例えば、非特許文献1に記載された反復ベイズ手法等を用い、受信した撹乱データから集計結果を推定する。
以下に、上記のように構成された集計システムの動作について説明する。
図3は、図1及び図2に示した集計システムの動作を説明するためのフローチャートである。
まず、維持確率設定部12は、データベース11が有するテーブルに記憶されたデータの数Nと、各項目iに対応付けられた値の数Miと、予め決められた値であるkとを用い、上記式1に示した式の解である第1の維持確率ρkを二分法等を用いて算出する(ステップS1)。
そして、維持確率設定部12は、算出した第1の維持確率ρkを示す維持確率情報を撹乱部13へ出力する。
撹乱部13は、データベース11が有するテーブルに記憶された複数のデータの入力を受け付けるとともに、維持確率設定部12から出力された維持確率情報を受け付ける。
次に、撹乱部13は、乱数riを項目毎に生成する(ステップS2)。
そして、撹乱部13は、受け付けた維持確率情報が示す第1の維持確率ρkと、生成された乱数riとを項目毎に比較する(ステップS3)。
ステップS3における比較の結果、生成された乱数riの値が受け付けた維持確率情報が示す第1の維持確率ρkよりも大きな場合(ri>ρk)、撹乱部13は、その項目iのデータ値を、その項目iに対応付けられた値Vi0〜ViMi-1のうちいずれかの値に撹乱値として置換する(ステップS4)。
一方、ステップS3における比較の結果、生成された乱数riの値が受け付けた維持確率情報が示す第1の維持確率ρk以下である場合には(ri≦ρk)、撹乱部13は、その項目iのデータ値を置換しない。
そして、撹乱部13は、置換されたデータ値(撹乱値)及び置換されなかったデータ値(受け付けたデータに含まれるデータ値)を含むデータを撹乱データとして集計装置20へ送信する(ステップS5)。
集計装置20の集計処理部21は、撹乱装置10から送信された撹乱データを受信する。
そして、集計処理部21は、例えば、非特許文献1に記載された反復ベイズ手法等を用い、受信した撹乱データからクロス集計等の集計結果を推定する(ステップS6)。
このように本実施形態においては、撹乱装置10は、複数の項目から構成され、複数の項目のそれぞれに対応付けられた複数の値のうちいずれかであるデータ値を含むデータの入力を受け付け、受け付けたデータに含まれるデータ値を、所定の確率に基づいて複数の値のうちいずれかの値に撹乱値として置換する。その際、撹乱装置10は、データと、当該データに含まれるデータ値が置換された撹乱値を含む撹乱データとを対応付けられる確率の逆数を示す値kを表す上記式1を用いて算出され、データ値を撹乱値に置換しない確率である第1の維持確率ρkに基づき、受け付けたデータに含まれるデータ値を撹乱値に置換する。
これにより、データと撹乱データとを対応付けられる確率が所定の確率以下となることを保証することができる。つまり、データと撹乱データとを高い確率で対応付けられる確率を0とすることができる。
従って、データと撹乱データとが対応付けられるのを回避することができる。
なお、本実施形態では、維持確率設定部12と撹乱部13とが1つの装置に備えられている場合の構成について説明した。
この構成は例えば、顧客の個人情報等を含む顧客データを有する企業がマーケティング業務を他の企業へ業務委託する場合を想定している。具体的には、委託元の企業が撹乱装置10を有し、委託先の企業が集計装置20を有することにより、委託元の企業は、委託先の企業や外部の攻撃者から顧客の個人情報等を秘匿しつつ統計分析等を委託することができる。
ここで、維持確率設定部12と撹乱部13とは、必ずしも1つの同じ装置に備えられている必要はなく、以下に示すような様々な構成が考えられる。
図4は、図1に示した維持確率設定部12を集計装置が備えた集計システムの構成の一例を示すブロック図である。
図4に示すような構成の場合、撹乱装置110の受信部14が、集計装置120の維持確率設定部12から送信された維持確率情報を受信する。そして、撹乱装置110の撹乱部13は、受信部14にて受信された維持確率情報が示す第1の維持確率ρkに基づき、データ値を撹乱する。そして、撹乱部13は、撹乱データを集計装置120へ送信する。
この構成は例えば、アンケート業者がアンケートをとる場合を想定している。具体的には、アンケート業者が集計装置120を有し、アンケートの回答者が撹乱装置110を有することにより、アンケート回答が秘匿された状態で統計分析等を行うことができる。
また、撹乱装置及び集計装置以外の装置が維持確率設定部12を備えた構成とすることも可能である。
図5は、図1に示した維持確率設定部12を撹乱装置及び集計装置以外の装置が備えた集計システムの構成の一例を示すブロック図である。
図5に示すように、撹乱装置110及び集計装置20以外の装置である撹乱データサーバ30は、維持確率設定部12とデータ送受信部31とを備えている。図5に示すような構成の場合、撹乱装置110の受信部14が、撹乱データサーバ30の維持確率設定部12から送信された維持確率情報を受信する。そして、撹乱装置110の撹乱部13は、受信部14にて受信された維持確率情報が示す第1の維持確率ρkに基づき、データ値を撹乱する。そして、撹乱部13は、撹乱データサーバ30のデータ送受信部31を介し、撹乱データを集計装置20へ送信する。
この構成は例えば、企業が顧客にアンケートをとり、そのアンケート結果の分析を外部へ委託する場合を想定している。具体的には、アンケートの回答者が撹乱装置110を有し、委託元の企業が撹乱データサーバ30を有し、委託先の企業が集計装置20を有する。これにより、委託元の企業は、委託先及び委託元の企業内の不正者や、外部の攻撃者からアンケート回答を秘匿しつつ統計分析等を委託することができる。
また、図5に示したような構成において、撹乱装置及び集計装置は複数存在してもよい。
図6は、図5に示した構成において撹乱装置及び集計装置を複数備えた場合の構成の一例を示すブロック図である。
この構成では例えば、アンケートをとることを専門とするアンケート業者が撹乱データサーバ30を有し、複数のアンケートの回答者のそれぞれが撹乱装置110−1〜110−nのそれぞれを有し、アンケートを分析する複数の分析機関のそれぞれが集計装置20−1〜20−nのそれぞれを有する。そして、アンケート業者が撹乱データを公開する。これにより、各分析機関は、アンケート回答を本人以外には秘匿にしたまま、統計分析等を行うことができる。
ここで、上述したように第1の維持確率ρkに基づいてデータ値を撹乱値に置換することにより、どのような攻撃者も1/k以上の確率で、データと撹乱データとを対応付けることができないようにすることができる。つまり、第1の維持確率ρkに基づいて置換された撹乱値を含む撹乱データは、「P. Samarati and L. Sweeney. Generalizing data to provide anonymity when disclosing infor-mation (abstract). Proc. of the 17th ACM-SIGMOD-SIGACT-SIGART Symposium on the Principles of Database Systems, p. 188,Seattle, WA, 1998.」等で提案されているk−匿名性というプライバシー保護指標を満足したのと同等の秘匿性が確保されている。
しかし、k−匿名性を満足していたとしても、データに含まれるデータ値が特定されるのを回避できるとは限らない。
データに含まれるデータ値が特定されることに対する耐性を示すプライバシー保護指標であるl(エル)−多様性が「A. Machanavajjhala, J. Gehrke, D. Kiefer, and M.Venkitasubramanian. l-diversity:privacy beyond k-anonymity. Proc. of ICDE 2006, 2006.」にて提案されている。
以下に、図1及び図4〜図6に示したデータベース11が図7に示すようなテーブルを有している場合を一例として用いてl−多様性について説明する。
図7は、図1及び図4〜図6に示したデータベース11が有するテーブルの他の具体例を説明するための図である。
図7に示すテーブルでは、図2(b)に示したテーブルと同様に、複数のデータのそれぞれが個人に関するデータとなっており、図中最も左の列に個人名を識別するIDが示されている。そして、項目1がそれぞれの個人の性別、項目2がそれぞれの個人の年齢、項目3がそれぞれの個人の趣味となっている。
趣味(項目3)に対応付けられた値として例えば、スポーツを「1」とし、釣りを「2」とし、旅行を「3」とし、読書を「4」とする。
図7に示したテーブルに記憶されたデータの各項目は、3つの種類に分類することができる。1つめは、その項目単独で個人を特定できる項目であり、IDがこれに該当する。これは識別子といわれる。
2つめは、比較的容易にアクセス可能であり、かつ、組み合わせによって個人を特定できる項目であり、性別(項目1)及び年齢(項目2)がこれに該当する。このような項目は準識別子といわれる。
3つめは、テーブルを見なければわからない項目であり、趣味(項目3)がこれに該当する。このような項目はセンシティブ属性といわれる。センシティブ属性は、データの有用性とプライバシー保護との両面で非常に重要な項目である。
k−匿名性を満足するためには、識別子を削除した後、準識別子のデータ値を抽象化することによってデータの秘匿性を確保する。なお、抽象化された後に、同じ準識別子を持つデータ群のことを等準識別子ブロックという。
センシティブ属性は、データマイニング等の目的に直結する項目であるため、抽象化が行われない。これにより、プライバシー保護とデータの有用性との両立を図るのが一般的である。
センシティブ属性の抽象化が行われない結果、k−匿名性を満足している場合でも、ある個人に関するデータに含まれるセンシティブ属性のデータ値が特定されてしまうことがある。
例えばAという個人に関するデータが含まれる等準識別子ブロックにおいて趣味の項目のデータ値が全て「スポーツ」に対応する値である場合、Aという個人の趣味が「スポーツ」であることが特定されてしまう。
また、例えばBという個人に関するデータが含まれる等準識別子ブロックにおいて趣味の項目のデータ値が全て「スポーツ」または「読書」に対応する値である場合を考えてみる。この場合、Bという個人がスポーツを好まないことを知っていれば、Bという個人の趣味が「読書」であることが特定されてしまう。
このようにデータ値が特定されてしまうことを回避するために、l−多様性は、等準識別子ブロックにl(エル)個以上の十分頻度の高いデータ値が存在することを保証する。
ここで、図1及び図4〜図6に示したデータベース11に記憶されたデータのうちデータ値が特定されるのを回避したい項目iの分布TΣと、その項目iに対応付けられた値Vi0〜ViMi-1の数Miとが定まっている場合を考える。この場合に、l−多様性を満足したのと同等の秘匿性を確保するためには、以下に示す式2における第2の維持確率ρlを上限としてデータ値を撹乱値に置換すればよい。
Figure 0005475610
なお、上記の式2においてc、lはl−多様性のパラメータであり、その値は予め定められているものとする。また、各a≦Miに対してPaは、TΣ中で、データ値が特定されるのを回避したい項目iに対応付けられた値Vi0〜ViMi-1のうちa番目に頻度の高いデータ値である。
また、TΣは、撹乱を行う前のデータを集計することにより求められるほか、上述した非特許文献1の再構築法による集計を用いれば、撹乱を行った後の撹乱データからも求められる。
この第2の維持確率ρlを上限としてデータ値を撹乱値に置換することにより、以下の式3に示す値以上の確率で、撹乱値からデータ値を特定することができなくなる。
Figure 0005475610
なお、上記の式3においてε1はl−多様性のパラメータであり、その値は予め定められているものとする。また、γは(1−ε1(Mi−l+1))である。
次に、プライバシー保護指標の他の例として、「C. Dwork. Differential Privacy. ICALP (2) 2006, 2006.」にて提案されたDifferential Privacyについて説明する。
Differential Privacyは、クエリ応答のみを開示する対話型データベースにおいて、個人に関するデータが記憶されていてもいなくても、開示される出力が変化しないことを保証するプライバシー保護指標である。従って、Differential Privacyを満足することにより、攻撃者は、攻撃対象となる個人に関するデータがデータベース上に存在しているかどうかを識別できなくなる。
Differential Privacyを満足するためには、以下に示す式4から算出される第3の維持確率ρdを用いて、データ値を撹乱値に置換すればよい。
Figure 0005475610
なお、上記の式4におけるδiは、以下に示す式5で表される。
Figure 0005475610
なお、上記の式5において、lnは自然対数である。また、ε2はDifferential Privacyのパラメータであり、その値は予め定められているものとする。また、Aはデータベース11が記憶しているデータを構成する各項目iの集合である。
上記の式5を初期値が0,1の2分法等を用いて解くことにより、Differential Privacyを満足する第3の維持確率ρdが得られる。
以上、k−匿名性を満足したのと同等の秘匿性を確保するための第1の維持確率ρkと、l−多様性を満足したのと同等の秘匿性を確保するための第2の維持確率ρlと、Differential Privacyを満足するための第3の維持確率ρdについて説明した。
ここで、k−匿名性及びl−多様性を満足したのと同等の秘匿性を確保し、かつ、Differential Privacyを満足するためには、第1の維持確率ρkと第2の維持確率ρlと第3の維持確率ρdとを比較し、その中で最も小さな値を最適維持確率とし、最適維持確率に基づいてデータ値を撹乱値に置換すればよい。
具体的には、上述した維持確率設定部12は、データベース11が有するテーブルの構成及びkだけではなく、上記の式2におけるパラメータc、lの値と、上記の式5におけるパラメータε2の値とを予め記憶している。そして、維持確率設定部12は、上記の式1を用いて第1の維持確率ρkを算出し、上記の式2を用いて第2の維持確率ρlを算出し、上記の式4及び式5を用いて第3の維持確率ρdを算出する。なお、第2の維持確率ρlは、各項目iに対応付けられた値Vi0〜ViMi-1の数に応じて異なる値となるため、項目i毎に算出される。
次に、維持確率設定部12は、第1の維持確率ρkと、項目i毎の第2の維持確率ρlのそれぞれと、第3の維持確率ρdとを比較し、その中で最も小さな値を項目i毎に最適維持確率として決定する。そして、維持確率設定部12は、決定した複数の最適維持確率を示す情報を維持確率情報として撹乱部13へ出力、または、受信部14へ送信する。
撹乱部13は、維持確率設定部12または受信部14から出力された維持確率情報を受け付け、受け付けた維持確率情報が示す複数の最適維持確率のそれぞれに基づき、項目i毎に乱数riを利用してデータ値を置換する。
これにより、データと撹乱データとが対応付けられるのを回避できるだけではなく、データ値が特定されることと、データベース中に個人に関するデータが存在しているかどうかを識別されることとを回避することができる。すなわち、秘匿性が非常に高いデータベースを生成することが可能となる。
なお、維持確率設定部12は、必ずしも、第1の維持確率ρkと第2の維持確率ρlと第3の維持確率ρdとの3つの値を比較する必要はない。k−匿名性、l−多様性及びDifferential Privacyのうち、満足させたいプライバシー保護指標に対応する維持確率を比較し、その中の最も小さな値を最適維持確率とすればよい。
また、第1の維持確率ρkはデータ値を置換しない確率であるため、(1−ρk)はデータ値を置換する確率となる。つまり、第1の維持確率ρkが算出されると、それとともに、データ値を置換する確率(1−ρk)の値も決定することになる。このとき、データ値は、第1の維持確率ρkに基づいて置換されても、確率(1−ρk)に基づいて置換されても、同じレベルの秘匿性を確保することができる。従って、第1の維持確率ρkの代わりに、確率(1−ρk)を撹乱用確率として、データ値を置換してもよいこととなる。これは、第2の維持確率ρl及び第3の維持確率ρdについても同様である。
また、本発明においては、撹乱装置内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを撹乱装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを撹乱装置に読み込ませ、実行するものであっても良い。撹乱装置にて読取可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、撹乱装置に内蔵されたHDDなどを指す。
10,110,110−1〜110−n 撹乱装置
11 データベース
12 維持確率設定部
13 撹乱部
14 受信部
20,20−1〜20−n,120 集計装置
21 集計処理部
30 撹乱データサーバ
31 データ送受信部

Claims (13)

  1. 複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちいずれかであるデータ値を含むデータの入力を受け付け、該受け付けたデータに含まれるデータ値を、所定の確率に基づいて前記複数の値のうちいずれかの値に撹乱値として置換する撹乱装置であって、
    前記データと、当該データに含まれるデータ値が置換された撹乱値を含む撹乱データとを対応付けられる確率の逆数である値kを表す式
    Figure 0005475610
    充足する値として前記データ値を前記撹乱値に置換しない確率である第1の維持確率ρ k として算出される撹乱用確率に基づき、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換する撹乱部を有する撹乱装置。
  2. 請求項1に記載の撹乱装置において、
    前記撹乱用確率を算出する維持確率設定部有し、
    前記撹乱部は、前記データの入力を受け付けると、前記複数の項目毎に複数の乱数を生成し、該生成された複数の乱数のそれぞれと、前記維持確率設定部にて算出された前記撹乱用確率とを比較することにより、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換するかどうかを前記複数の項目毎に決定する撹乱装置。
  3. 請求項1に記載の撹乱装置において、
    前記撹乱用確率を示す維持確率情報を外部から受信する受信部有し、
    前記撹乱部は、前記データの入力を受け付けると、前記複数の項目毎に複数の乱数を生成し、該生成された複数の乱数のそれぞれと、前記受信部にて受信された維持確率情報が示す前記撹乱用確率とを比較することにより、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換するかどうかを前記複数の項目毎に決定する撹乱装置。
  4. 請求項1に記載の撹乱装置において、
    前記第1の維持確率ρkと、
    Figure 0005475610
    を用いて前記複数の項目毎に算出され、前記データ値を前記撹乱値に置換しない確率である第2の維持確率ρlと、
    Figure 0005475610
    を用いて算出され、前記データ値を前記撹乱値に置換しない確率である第3の維持確率ρdと、のうちの少なくとも2つの値の大きさを前記複数の項目毎に比較し、該比較の結果、最も小さな値を前記複数の項目毎に複数の最適維持確率として決定する維持確率設定部を有し
    前記撹乱部は、該複数の最適維持確率のそれぞれに基づき、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換する撹乱装置。
  5. 請求項4に記載の撹乱装置において、
    記撹乱部は、前記データの入力を受け付けると、前記複数の項目毎に複数の乱数を生成し、該生成された複数の乱数のそれぞれと、前記維持確率設定部にて決定された前記複数の最適維持確率のそれぞれとを比較することにより、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換するかどうかを前記複数の項目毎に決定する撹乱装置。
  6. 請求項4に記載の撹乱装置において、
    前記複数の最適維持確率のそれぞれを示す維持確率情報を前記維持確率設定部から受信する受信部を有し
    記撹乱部は、前記データの入力を受け付けると、前記複数の項目毎に複数の乱数を生成し、該生成された複数の乱数のそれぞれと、前記受信部にて受信された維持確率情報が示す前記複数の最適維持確率のそれぞれとを比較することにより、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換するかどうかを前記複数の項目毎に決定する撹乱装置。
  7. 複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちいずれかであるデータ値を含むデータの入力を受け付け、該受け付けたデータに含まれるデータ値を、所定の確率に基づいて前記複数の値のうちいずれかの値に撹乱値として置換する撹乱装置における撹乱方法であって、
    前記撹乱装置の撹乱部が、前記データと、当該データに含まれるデータ値が置換された撹乱値を含む撹乱データとを対応付けられる確率の逆数である値kを表す式
    Figure 0005475610
    充足する値として前記データ値を前記撹乱値に置換しない確率である第1の維持確率ρ k として算出される撹乱用確率に基づき、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換する第1の置換処理を有する撹乱方法。
  8. 請求項7記載の撹乱方法において、
    前記撹乱装置の維持確率設定部が、前記撹乱用確率を算出する処理をさらに有し
    前記第1の置換処理は、前記撹乱部が、
    前記データの入力を受け付ける処理と、
    前記複数の項目毎に複数の乱数を生成する処理と、
    前記生成された複数の乱数のそれぞれと、前記算出された前記撹乱用確率とを比較することにより、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換するかどうかを前記複数の項目毎に決定する処理と、を含む撹乱方法。
  9. 請求項7に記載の撹乱方法において、
    前記撹乱装置の受信部が、前記撹乱用確率を示す維持確率情報を外部から受信する処理をさらに有し
    前記第1の置換処理は、前記撹乱部が、
    前記データの入力を受け付ける処理と、
    前記複数の項目毎に複数の乱数を生成する処理と、
    前記生成された複数の乱数のそれぞれと、前記受信された維持確率情報が示す前記撹乱用確率とを比較することにより、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換するかどうかを前記複数の項目毎に決定する処理と、を含む撹乱方法。
  10. 請求項7に記載の撹乱方法において、
    前記撹乱装置の維持確率設定部が、
    前記第1の維持確率ρkと、
    Figure 0005475610
    を用いて前記複数の項目毎に算出され、前記データ値を前記撹乱値に置換しない確率である第2の維持確率ρlと、
    Figure 0005475610
    を用いて算出され、前記データ値を前記撹乱値に置換しない確率である第3の維持確率ρdと、のうちの少なくとも2つの値の大きさを前記複数の項目毎に比較し、該比較の結果、最も小さな値を前記複数の項目毎に複数の最適維持確率として決定する処理と
    前記撹乱部が、該複数の最適維持確率のそれぞれに基づき、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換する第2の置換処理をさらに有する撹乱方法。
  11. 請求項10に記載の撹乱方法において、
    前記第2の置換処理は、前記撹乱部が、
    記データの入力を受け付ける処理と、
    前記複数の項目毎に複数の乱数を生成する処理と、
    前記生成された複数の乱数のそれぞれと、前記決定された前記複数の最適維持確率のそれぞれとを比較することにより、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換するかどうかを前記複数の項目毎に決定する処理と、を含む撹乱方法。
  12. 請求項10に記載の撹乱方法において、
    前記撹乱装置の受信部が、前記複数の最適維持確率のそれぞれを示す維持確率情報を前記維持確率設定部から受信する処理をさらに有し
    前記第2の置換処理は、前記撹乱部が、
    記データの入力を受け付ける処理と、
    前記複数の項目毎に複数の乱数を生成する処理と、
    前記生成された複数の乱数のそれぞれと、前記受信された維持確率情報が示す前記複数の最適維持確率のそれぞれとを比較することにより、前記受け付けたデータに含まれるデータ値を前記撹乱値に置換するかどうかを前記複数の項目毎に決定する処理と、を含む撹乱方法。
  13. 複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちいずれかであるデータ値を含むデータの入力を受け付け、該受け付けたデータに含まれるデータ値を、所定の確率に基づいて前記複数の値のうちいずれかの値に撹乱値として置換するコンピュータを、請求項1乃至6のいずれか1項に記載の撹乱装置として機能させるためのプログラム。
JP2010225061A 2009-10-07 2010-10-04 撹乱装置、撹乱方法及びプログラム Active JP5475610B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010225061A JP5475610B2 (ja) 2009-10-07 2010-10-04 撹乱装置、撹乱方法及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009233383 2009-10-07
JP2009233383 2009-10-07
JP2010225061A JP5475610B2 (ja) 2009-10-07 2010-10-04 撹乱装置、撹乱方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011100116A JP2011100116A (ja) 2011-05-19
JP5475610B2 true JP5475610B2 (ja) 2014-04-16

Family

ID=44191295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010225061A Active JP5475610B2 (ja) 2009-10-07 2010-10-04 撹乱装置、撹乱方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5475610B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8375030B2 (en) * 2010-12-03 2013-02-12 Mitsubishi Electric Research Laboratories, Inc. Differentially private aggregate classifier for multiple databases
JP5683425B2 (ja) * 2011-10-04 2015-03-11 日本電信電話株式会社 データ撹乱・再構築システム、データ再構築装置、データ再構築方法、データ再構築プログラム
JP5772563B2 (ja) * 2011-12-14 2015-09-02 富士通株式会社 情報処理方法、装置及びプログラム
JP5758315B2 (ja) * 2012-01-27 2015-08-05 日本電信電話株式会社 匿名データ提供システム、匿名データ装置、及びそれらが実行する方法
JP5670366B2 (ja) * 2012-01-27 2015-02-18 日本電信電話株式会社 匿名データ提供システム、匿名データ装置、それらが実行する方法、およびプログラム
JP5747012B2 (ja) * 2012-10-26 2015-07-08 株式会社東芝 匿名化データ変更システム
US10108650B2 (en) 2012-11-12 2018-10-23 Sony Corporation Information processing device and information processing method
JP6413769B2 (ja) 2015-01-05 2018-10-31 富士通株式会社 データ秘匿装置、データ秘匿プログラムおよびデータ秘匿方法
JP6466812B2 (ja) * 2015-10-13 2019-02-06 日本電信電話株式会社 名寄せシステム、装置、方法及びプログラム
JP6501989B2 (ja) 2016-12-19 2019-04-17 三菱電機株式会社 秘匿化装置、データ分析装置、秘匿化方法、データ分析方法、秘匿化プログラム及びデータ分析プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021488A1 (en) * 2003-07-21 2005-01-27 Rakesh Agrawal Mining association rules over privacy preserving data
US7698250B2 (en) * 2005-12-16 2010-04-13 Microsoft Corporation Differential data privacy
JP2007288480A (ja) * 2006-04-17 2007-11-01 Mitsubishi Electric Corp 統計処理方法、データ提供装置、及び統計処理システム
JP5307499B2 (ja) * 2008-10-06 2013-10-02 日本電信電話株式会社 データ集計システム、撹乱装置、再構築装置、データ集計方法、撹乱プログラム、および再構築プログラム

Also Published As

Publication number Publication date
JP2011100116A (ja) 2011-05-19

Similar Documents

Publication Publication Date Title
JP5475610B2 (ja) 撹乱装置、撹乱方法及びプログラム
Romanosky Examining the costs and causes of cyber incidents
Krombholz et al. The other side of the coin: User experiences with bitcoin security and privacy
Holt et al. Testing an integrated self-control and routine activities framework to examine malware infection victimization
Holt et al. Examining risks and protective factors of on-line identity theft
Milne et al. Consumers’ protection of online privacy and identity
Sarabi et al. Risky business: Fine-grained data breach prediction using business profiles
Lenard et al. In defense of data: Information and the costs of privacy
Moallem Cybersecurity Awareness Among Students and Faculty
Reiter Statistical approaches to protecting confidentiality for microdata and their effects on the quality of statistical inferences
Wirth The economics of cybersecurity
Tripathi et al. Financial loss due to a data privacy breach: An empirical analysis
Seigfried-Spellar et al. Differentiating hackers, identity thieves, cyberbullies, and virus writers by college major and individual differences
Wheeler et al. Cloud storage security: A practical guide
Khan et al. Cyber-security and risky behaviors in a developing country context: A Pakistani perspective
Carlton Development of a cybersecurity skills index: A scenarios-based, hands-on measure of non-IT professionals' cybersecurity skills
Herbert et al. A world full of privacy and security (mis) conceptions? findings of a representative survey in 12 countries
Lee et al. Typology of cybercrime victimization in Europe: A multilevel latent class analysis
Ekin et al. Overpayment models for medical audits: multiple scenarios
Harkous et al. C3p: Context-aware crowdsourced cloud privacy
Chen et al. Understanding big data: Data calculus in the digital era
Popescu et al. Consumer surveillance and distributive privacy harms in the age of big data
Kamar et al. The moderating role of thoughtfully reflective decision-making on the relationship between information security messages and smishing victimization: An experiment
JP5475608B2 (ja) 撹乱システム、撹乱装置、撹乱方法及びプログラム
Najjar Management Information Systems

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110620

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121225

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20130304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140206

R150 Certificate of patent or registration of utility model

Ref document number: 5475610

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150