JP5475608B2 - 撹乱システム、撹乱装置、撹乱方法及びプログラム - Google Patents

撹乱システム、撹乱装置、撹乱方法及びプログラム Download PDF

Info

Publication number
JP5475608B2
JP5475608B2 JP2010224009A JP2010224009A JP5475608B2 JP 5475608 B2 JP5475608 B2 JP 5475608B2 JP 2010224009 A JP2010224009 A JP 2010224009A JP 2010224009 A JP2010224009 A JP 2010224009A JP 5475608 B2 JP5475608 B2 JP 5475608B2
Authority
JP
Japan
Prior art keywords
probability
disturbance
data
value
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010224009A
Other languages
English (en)
Other versions
JP2012080345A (ja
Inventor
大 五十嵐
浩司 千田
克巳 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010224009A priority Critical patent/JP5475608B2/ja
Publication of JP2012080345A publication Critical patent/JP2012080345A/ja
Application granted granted Critical
Publication of JP5475608B2 publication Critical patent/JP5475608B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データの秘匿性を確保するための撹乱システム、撹乱装置、撹乱方法及びプログラムに関する。
近年、データベースに記憶されたデータに含まれる値を統計的手法によって秘匿しつつ、データに含まれる値の集計結果であるクロス集計等を推定する技術が考えられている(例えば、非特許文献1,2参照。)。ここでいうデータとは例えば、個人情報等を含むアンケート結果等のことであり、保護されるべきデータのことである。
なお、クロス集計とは、データを構成する複数の項目のうち、2つまたはそれ以上の項目に着目してデータの集計や統計分析を行うことである。クロス集計は通常、1つまたは2つ程度の項目を縦軸にとり、別の項目を横軸にとった表として表される。
非特許文献1,2に開示されている技術では、データに含まれる値を、予め決められた維持確率に基づいて項目毎に確率的に変化させる。なお、維持確率とは値を確率的に変化させた後においても、その値がそのままの値を維持する確率のことである。つまり、維持確率は、データに含まれる値を置換しない確率ということができる。以降、このように維持確率に基づき、データに含まれる値を確率的に変化させることを撹乱という。また、データに含まれる値のことをデータ値という。
この撹乱によってデータ値が秘匿され、例えばそのデータ値が置換された値を含む撹乱データが漏洩した場合でもデータを保護することができる。
五十嵐 大,千田 浩司,高橋 克巳,「多値属性に適用可能な効率的プライバシー保護クロス集計」,コンピュータセキュリティシンポジウム2008(2008年10月8日〜10日) 高見澤 秀久,有次 正義,「プライバシーを保護するカウント演算の多値属性分類への適用」, DEWS2007, 2007
ここで、上述した撹乱の強度が弱いと判断された場合、すなわち、撹乱を行ったが、データの秘匿性が所望のレベルに達していないと判断された場合、データの秘匿性を所望のレベルまで高めるために、撹乱をやり直す必要がある。
例えば、データの提供者が撹乱を行ったが、データの秘匿性が所望のレベルに達していないと判断された場合、データを管理するデータベース管理者が撹乱のやり直しをすることが考えられる。
しかし、この場合、データベース管理者がデータに含まれるデータ値を知らなければ、撹乱をやり直すことができないという問題点がある。
一方で、データベース管理者がデータに含まれるデータ値を知っている場合、撹乱をやり直すと、結果として、そのデータに対して相互に独立した複数の撹乱が行われることとなる。
ところが、データに対して相互に独立した複数の撹乱が行われた場合に得られる情報を用いれば、撹乱が1回だけ行われた場合に得られる情報を用いた場合に比べ、そのデータに含まれるデータ値の推定が容易になる。
つまり、撹乱をやり直すことによって逆に、データの秘匿性のレベルが低下してしまうという問題点がある。
本発明は、データに含まれるデータ値を用いることなく、そのデータの秘匿性を所望のレベルまで高めることを可能にする撹乱システム、撹乱装置、撹乱方法及びプログラムを提供することを目的とする。
上記目的を達成するために本発明の撹乱システムは、複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちのいずれかであるデータ値を含むデータの秘匿性を所望のレベルで確保するために、前記データ値を前記複数の値のうちのいずれかの値に確率的に置換する撹乱システムであって、
第1の確率と、前記所望のレベルを確保するための第2の確率とを設定するサーバと、
前記第1の確率に基づいて前記データ値を前記複数の値のうちのいずれかの値に置換した第1の撹乱データを生成するクライアントと、を有し、
前記サーバは、前記第1及び第2の確率を用いて第3の確率を算出し、該算出した第3の確率に基づいて前記第1の撹乱データに含まれる値を前記複数の値のいずれかの値に置換した第2の撹乱データを生成する。
また、上記目的を達成するために本発明の撹乱装置は、複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちのいずれかであるデータ値を含むデータの秘匿性を所望のレベルで確保するために、前記データ値を前記複数の値のうちのいずれかの値に確率的に置換する撹乱装置であって、
第1の確率と、前記所望のレベルを確保するための第2の確率とを設定する維持確率設定部と、
前記第1の確率に基づいて前記データ値を前記複数の値のうちのいずれかの値に置換した第1の撹乱データを生成する撹乱部と、を有し、
前記維持確率設定部は、前記第1及び第2の確率を用いて第3の確率を算出し、
前記撹乱部は、前記算出された第3の確率に基づいて前記第1の撹乱データに含まれる値を前記複数の値のいずれかの値に置換した第2の撹乱データを生成する。
また、上記目的を達成するために本発明の撹乱方法は、サーバとクライアントとを有し、複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちのいずれかであるデータ値を含むデータの秘匿性を所望のレベルで確保するために、前記データ値を前記複数の値のうちのいずれかの値に確率的に置換する撹乱システムにおける撹乱方法であって、
前記サーバが、第1の確率を設定する処理と、
前記クライアントが、前記第1の確率に基づいて前記データ値を前記複数の値のうちのいずれかの値に置換した第1の撹乱データを生成する処理と、
前記サーバが、前記所望のレベルを確保するための第2の確率を設定する処理と、
前記サーバが、前記第1及び第2の確率を用いて第3の確率を算出する算出処理と、
前記サーバが、前記算出した第3の確率に基づいて前記第1の撹乱データに含まれる値を前記複数の値のいずれかの値に置換した第2の撹乱データを生成する処理と、を有する。
また、上記目的を達成するために本発明の攪乱方法は、複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちのいずれかであるデータ値を含むデータの秘匿性を所望のレベルで確保するために、前記データ値を前記複数の値のうちのいずれかの値に確率的に置換する撹乱装置における撹乱方法であって、
前記攪乱装置の維持確率設定部が、第1の確率と、前記所望のレベルを確保するための第2の確率とを設定する処理と、
前記維持確率設定部が、前記第1及び第2の確率を用いて第3の確率を算出する算出処理と、
前記攪乱装置の攪乱部が、前記第1の確率に基づいて前記データ値を前記複数の値のうちのいずれかの値に置換した第1の撹乱データを生成する処理と、
前記攪乱部が、前記算出された第3の確率に基づいて前記第1の撹乱データに含まれる値を前記複数の値のいずれかの値に置換した第2の撹乱データを生成する処理と、を有する。
また、上記目的を達成するために本発明のプログラムは、複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちのいずれかであるデータ値を含むデータの秘匿性を所望のレベルで確保するために、前記データ値を前記複数の値のうちのいずれかの値に確率的に置換する撹乱装置に、
第1の確率と、前記所望のレベルを確保するための第2の確率とを設定する機能と、
前記第1及び第2の確率を用いて第3の確率を算出する算出機能と、
前記第1の確率に基づいて前記データ値を前記複数の値のうちのいずれかの値に置換した第1の撹乱データを生成する機能と、
前記算出された第3の確率に基づいて前記第1の撹乱データに含まれる値を前記複数の値のいずれかの値に置換した第2の撹乱データを生成する機能と、を実現させる。
本発明は以上説明したように構成されているので、データに含まれるデータ値を用いることなく、そのデータの秘匿性を所望のレベルまで高めることが可能となる。
本発明の撹乱システムの実施の一形態の構成を示すブロック図である。 図1に示した記憶部21に記憶されたデータの一例を示す図であり、(a)は記憶されたデータの構成を説明するための図、(b)は記憶されたデータの具体例を説明するための図である。 図1及び図2に示した撹乱システムの動作を説明するためのフローチャートである。 本発明の撹乱装置の実施の一形態の構成を示すブロック図である。 図4に示した撹乱装置の動作を説明するためのフローチャートである。
以下に、本発明の実施の形態について図面を参照して説明する。
(第1の実施形態)
図1は、本発明の撹乱システムの実施の一形態の構成を示すブロック図である。
本実施形態の撹乱システムは図1に示すように、サーバ10と、クライアント20−1〜20−nとを備えている。
クライアント20−1〜20−nのそれぞれは、記憶部21と、撹乱部22とを備えている。
記憶部21は、データを記憶している。
図2は、図1に示した記憶部21に記憶されたデータの一例を示す図であり、(a)は記憶されたデータの構成を説明するための図、(b)は記憶されたデータの具体例を説明するための図である。
図1に示した記憶部21に記憶されたデータは図2(a)に示すように、複数の項目(項目1〜n)から構成されている。また、複数の項目のそれぞれに対応付けられた複数の値のいずれかであるデータ値を含んでいる。
図2(b)は、図2(a)に示したデータの具体例を示している。図2(b)に示すデータは、個人に関するデータとなっており、図中最も左の列は、個人名を識別するID(Identification)が示されている。そして、項目1が個人の性別、項目2が個人の年齢、項目3が個人の趣味となっている。
図2(b)に示す例の場合、各項目に対応付けられた値としては、性別(項目1)では例えば、男性の場合「0」、女性の場合「1」となる。従って、性別(項目1)に対応付けられた値の数は「2」となる。また、年齢(項目2)では、その個人の年齢となる。ここでは、対象となる個人の年齢は30歳〜39歳までとする。従って、年齢(項目2)に対応付けられた値の数は「10」となる。また、趣味(項目3)では、例えば、スポーツを「1」とし、釣りを「2」とし、旅行を「3」とし、読書を「4」とすると、趣味(項目3)に対応付けられた値の数は「4」となる。
このように、記憶部21に記憶されたデータにおいては、各項目に対応付けられた値と、各項目に対応付けられた値の数とが予め決められている。以降、各項目iに対応付けられた値の数をMiと表記し、各項目iに対応付けられた値をVi0〜ViMi-1と表記する。
再度、図1を参照すると、撹乱部22は、データの各項目iに対応付けられた値Vi0〜ViMi-1を記憶している。撹乱部22は、サーバ10から送信され、記憶部21に記憶されたデータに含まれるデータ値を置換しない確率であり、第1の確率である第1の維持確率ρ1を示す維持確率情報を受信する。そして、受信した維持確率情報が示す第1の維持確率ρ1に基づき、記憶部21に記憶されたデータに含まれるデータ値を項目i毎に置換する。このとき、撹乱部22は、実数の値を有する乱数ri(0≦ri≦1)を項目i毎に生成する。そして、受信した維持確率情報が示す第1の維持確率ρ1と、生成した乱数riとを項目i毎に比較する。この比較の結果、乱数riの値が第1の維持確率ρ1よりも大きな場合(ri>ρ1)、撹乱部22は、その項目iのデータ値を、その項目iに対応付けられた値Vi0〜ViMi-1のいずれかに置換する。一方、この比較の結果、乱数riの値が第1の維持確率ρ1以下である場合(ri≦ρ1)、撹乱部22は、その項目iのデータ値を置換しない。そして、撹乱部22は、上述した比較の結果に応じて置換されたデータ値及び置換されなかったデータ値を含む第1の撹乱データを生成してサーバ10へ送信する。なお、第1の維持確率の詳細については後述する。
サーバ10は、維持確率設定部11と、撹乱部12と、送受信部13とを備えている。
維持確率設定部11は、第1の維持確率ρ1を設定する。このとき、維持確率設定部11は、例えば、『五十嵐大、千田浩司、高橋克巳.「k-匿名性の確率的指標への拡張とその応用例」コンピュータセキュリティシンポジウム2009,2009』のPk-匿名性に基づいて第1の維持確率ρ1を設定する。
ここで、Pk−匿名性について説明する。
Pk−匿名性では、どのような攻撃者も(1/k)以上の確率で、データと撹乱データとを対応付けられないことを保証する。kは、以下に示す式1で表される。
Figure 0005475608
維持確率設定部11は、上記の式1において例えば(k=2)を満足するρを第1の維持確率ρ1として設定する。そして、維持確率設定部11は、設定した第1の維持確率ρ1を示す維持確率情報をクライアント20−1〜20−nのそれぞれへ送信するために送受信部13へ出力する。また、維持確率設定部11は、クライアント20−1〜20−nに記憶されたデータの秘匿性を所望のレベルで確保するための第2の維持確率ρ2を設定する。このとき、維持確率設定部11は、上記の式1において例えば(k=100)を満足するρを第2の確率である第2の維持確率ρ2として設定する。このように、第2の維持確率ρ2におけるkの値は、第1の維持確率ρ1におけるkの値よりも大きい。この場合、第2の維持確率ρ2に基づいて置換されたデータ値を含むデータの秘匿性のレベルは、第1の維持確率ρ1に基づいて置換されたデータ値を含むデータの秘匿性のレベルよりも高い。第1の維持確率ρ1に基づいて置換されたデータ値を含むデータは、例えばデータを悪用したりする可能性が低いデータベース管理者が参照可能なデータとなることを想定している。一方、第2の維持確率ρ2に基づいて置換されたデータ値を含むデータは、例えば不特定多数の者がアクセス可能であり、攻撃者からの攻撃を受けやすい公開データとなることを想定している。また、維持確率設定部11は、第1の撹乱データの秘匿性のレベルを、第2の維持確率ρ2に基づいてデータ値を置換した場合と同じレベルまで高めるための維持確率であり、第3の確率である中間維持確率ρmを算出する。そして、維持確率設定部11は、算出した中間維持確率ρmを示す中間維持確率情報を撹乱部12へ出力する。なお、中間維持確率ρmを算出する方法の詳細については後述するが、中間維持確率ρmは、第1の維持確率ρ1及び第2の維持確率ρ2を用いて算出される。
送受信部13は、維持確率設定部11から出力された維持確率情報を受け付け、受け付けた維持確率情報をクライアント20−1〜20−nへ送信する。また、送受信部13は、クライアント20−1〜20−nのそれぞれから送信された第1の撹乱データを受信し、受信した第1の撹乱データを撹乱部12へ出力する。
撹乱部12は、データの各項目iに対応付けられた値Vi0〜ViMi-1を記憶している。撹乱部12は、送受信部13から出力された第1の撹乱データを受け付ける。また、撹乱部12は、維持確率設定部11から出力された中間維持確率情報を受け付ける。そして、撹乱部12は、受け付けた中間維持確率情報が示す中間維持確率ρmに基づき、受け付けた第1の撹乱データに含まれる値を項目i毎に置換する。このとき、撹乱部12は、実数の値を有する乱数ri(0≦ri≦1)を項目i毎に生成する。そして、中間維持確率ρmと、生成された乱数riとを項目i毎に比較する。この比較の結果、乱数riの値が中間維持確率ρmよりも大きな場合(ri>ρm)、撹乱部22は、その項目iの値を、その項目iに対応付けられた値Vi0〜ViMi-1のいずれかに置換する。一方、この比較の結果、乱数riの値が維持確率ρm以下である場合(ri≦ρm)、撹乱部12は、その項目iの値を置換しない。これにより、クライアント20−1〜20−nのそれぞれに記憶されたデータに含まれるデータ値が、第2の維持確率ρ2に基づいて置換されたことになる。そして、撹乱部12は、上述した比較の結果に応じて置換された値及び置換されなかった値を含む第2の撹乱データを生成する。なお、第2の撹乱データは、例えば不特定多数の者がアクセス可能なデータベース等に送信される。このデータベースはサーバ10が備えていてもよいし、外部の装置が備えていてもよい。
次に、維持確率設定部11が中間維持確率ρmを算出する方法について説明する。
まず、維持確率をρとしてデータの撹乱を行った場合に、各項目iのデータ値がそのままの値である確率は、以下に示す式2で表される。
Figure 0005475608
一方、維持確率をρとしてデータの撹乱を行った場合に、各項目iのデータ値が他の値に置換される確率は、以下に示す式3で表される。
Figure 0005475608
また、維持確率をρとしてデータの撹乱を行った場合に、各項目iのデータ値がその項目iに対応付けられた値のうちのある特定の値に置換される確率は、以下に示す式4で表される。
Figure 0005475608
ここで、第1の維持確率ρ1に基づいてデータ値が置換(1回目の撹乱)された後、中間維持確率ρmに基づいて置換(2回目の撹乱)されたときに、あるデータ値がそのままの値であるのは、以下に示す2通りの場合である。
(1)2回の撹乱の両方においてデータ値が元の値のままである場合
(2)1回目の撹乱でデータ値が他の値に置換され、2回目の撹乱でその他の値から元の値に置換される場合
従って、第1の撹乱データの秘匿性のレベルを、第2の維持確率ρ2に基づいてデータ値を置換した場合と同じレベルまで高めるためには、上記の式2〜4を用いると、以下に示す式5の関係が成立する必要がある。
Figure 0005475608
上記の式5を中間維持確率ρmについて解くと、ρm=ρ2/ρ1となる。
また、第1の維持確率ρ1に基づいてデータ値が置換(1回目の撹乱)された後、中間維持確率ρmに基づいて置換(2回目の撹乱)されたときに、あるデータ値がある特定の値に置換されるのは、以下に示す3通りの場合である。
(1)1回目の撹乱でデータ値が元の値のままであり、2回目の撹乱でその特定の値に置換される場合
(2)1回目の撹乱でデータ値がその特定の値に置換され、2回目の撹乱でその特定の値のままである場合
(3)1回目の撹乱でデータ値がその特定の値以外の値に置換され、2回目の撹乱でその特定の値に置換される場合
従って、第1の撹乱データの秘匿性のレベルを、第2の維持確率ρ2に基づいてデータ値を置換した場合と同じレベルまで高めるためには、上記の式2〜4を用いると、以下に示す式6の関係が成立する必要がある。
Figure 0005475608
上記の式6を中間維持確率ρmについて解くと、やはり、ρm=ρ2/ρ1となる。
従って、第2の維持確率ρ2を第1の維持確率ρ1で除算した値を中間維持確率ρmとすることにより、第1の撹乱データの秘匿性のレベルを、第2の維持確率ρ2に基づいてデータ値を置換した場合と同じレベルまで高めることができる。
次に、上記のように構成された撹乱システムの動作について説明する。
図3は、図1及び図2に示した撹乱システムの動作を説明するためのフローチャートである。
まず、サーバ10の維持確率設定部11は、上記のPk−匿名性等によって第1の維持確率ρ1を設定する(ステップS1)。ここでは、維持確率設定部11は、上記の式1において、(k=2)としたときのρを第1の維持確率ρ1として設定することとする。
そして、維持確率設定部11は、設定した第1の維持確率ρ1を示す維持確率情報をクライアント20−1〜20−nへ送信する。
クライアント20−1〜20−nのそれぞれの撹乱部22は、サーバ10から送信された維持確率情報を受信する。
次に、撹乱部22は、乱数riを項目i毎に生成する(ステップS2)。
そして、撹乱部22は、受信した維持確率情報が示す第1の維持確率ρ1と、生成された乱数とを項目i毎に比較する(ステップS3)。
ステップS3における比較の結果、生成した乱数riの値が、受信した維持確率情報が示す第1の維持確率ρ1よりも大きな場合(ri>ρ1)、撹乱部22は、記憶部21に記憶されたデータに含まれるデータ値のうち、その項目iのデータ値を、その項目iに対応付けられた値Vi0〜ViMi-1のうちいずれかの値に置換する(ステップS4)。
一方、ステップS3における比較の結果、生成した乱数riの値が、受信した維持確率情報が示す第1の維持確率ρ1以下である場合には(ri≦ρ1)、撹乱部22は、記憶部21に記憶されたデータに含まれるデータ値のうち、その項目iのデータ値を置換しない。
次に、撹乱部22は、置換されたデータ値及び置換されなかったデータ値を含む第1の撹乱データを生成する(ステップS5)。
そして、撹乱部22は、生成した第1の撹乱データをサーバ10へ送信する。
サーバ10の送受信部13は、クライアント20−1〜20−nから送信された第1の撹乱データを受信する。
そして、送受信部13は、受信した第1の撹乱データを撹乱部12へ出力する。
送受信部13から出力された第1の撹乱データを受け付けた撹乱部12は、乱数riを項目毎に生成する(ステップS6)。
また、維持確率設定部11は、第2の維持確率を設定する(ステップS7)。ここでは、維持確率設定部11は、上記の式1において、(k=100)としたときのρを第2の維持確率ρ2として設定することとする。
さらに、維持確率設定部11は、第2の維持確率ρ2を第1の維持確率ρ1で除算することにより、中間維持確率ρmを算出する(ステップS8)。
そして、維持確率設定部11は、算出した中間維持確率ρmを示す中間維持確率情報を撹乱部12へ出力する。
維持確率設定部11から出力された中間維持確率情報を受け付けた撹乱部12は、受け付けた中間維持確率情報が示す中間維持確率ρmと、生成した乱数riとを項目i毎に比較する(ステップS9)。
ステップS9における比較の結果、生成された乱数riの値が、受け付けた中間維持確率情報が示す中間維持確率ρmよりも大きな場合(ri>ρm)、撹乱部12は、受け付けた第1の撹乱データに含まれる値のうち、その項目iの値を、その項目iに対応付けられた値Vi0〜ViMi-1のうちのいずれかの値に置換する(ステップS10)。
一方、ステップS9における比較の結果、生成された乱数riの値が、受け付けた中間維持確率情報が示す中間維持確率ρm以下である場合には(ri≦ρm)、撹乱部12は、受け付けた第1の撹乱データに含まれる値のうち、その項目iの値を置換しない。
これにより、クライアント20−1〜20−nのそれぞれに記憶されたデータに含まれるデータ値が、第2の維持確率ρ2に基づいて置換されたことになる。
そして、撹乱部12は、置換された値及び置換されなかった値を含む第2の撹乱データを生成する(ステップS11)。
このように本実施形態において撹乱システムは、データ値を置換しない確率である第1の維持確率ρ1と、データ値を置換しない確率であり、所望のレベルを確保するための第2の維持確率ρ2とを設定するサーバ10を有する。
また、撹乱システムは、第1の維持確率ρ1に基づいてデータ値を、その項目iに対応付けられた複数の値のうちのいずれかの値に置換した第1の撹乱データを生成するクライアント20−1〜20−nを有する。
そして、サーバ10は、第1の撹乱データに含まれる値を置換しない確率である中間維持確率ρmを第1の維持確率ρ1と第2の維持確率ρ2とを用いて算出し、算出した中間維持確率ρmに基づいて第1の撹乱データに含まれる値を、その項目iに対応付けられた複数の値のいずれかの値に置換した第2の撹乱データを生成する。
従って、データに含まれるデータ値を用いることなく、そのデータの秘匿性を所望のレベルまで高めることが可能となる。
なお、上述したように、中間維持確率ρmに基づく置換は、クライアント20−1〜20−nから送信された第1の撹乱データをサーバ10が受信した後に行われる。これにより、第1の維持確率ρ1に基づいて置換された第1の撹乱データの秘匿性のレベルを確認した上で、第2の維持確率ρ2を決定することができるという効果も期待できる。
但し、第1の維持確率ρ1を設定したときに、第2の維持確率ρ2も設定して中間維持確率ρmを算出するようにしても、データに含まれるデータ値を用いることなく、そのデータの秘匿性を所望のレベルまで高めることが可能となるのはいうまでもない。
(第2の実施形態)
上述した第1の実施形態では、クライアント20−1〜20−nにおいて、データに含まれるデータ値を第1の維持確率ρ1に基づいて置換して第1の撹乱データを生成した。そして、サーバ10において、第1の撹乱データに含まれる値を中間維持確率ρmに基づいて置換した。
本実施形態では、第1の維持確率ρ1に基づく置換と、中間維持確率ρmに基づく置換とを1つの装置である撹乱装置にて行う場合について説明する。
図4は、本発明の撹乱装置の実施の一形態の構成を示すブロック図である。
本実施形態の撹乱装置30は図4に示すように、維持確率設定部31と、撹乱部32と、データ受信部33を備えている。
データ受信部33は、例えば複数のクライアント(不図示)のそれぞれから送信されたデータを受信する。なお、複数のクライアントのそれぞれから送信されるデータは例えば、図2(b)に示したようなデータである。そして、データ受信部33は、受信したデータを記憶する。
維持確率設定部31は、上述した第1の実施形態における維持確率設定部11と同様に、上記のPk−匿名性等によって第1の維持確率ρ1及び第2の維持確率ρ2を設定する。また、維持確率設定部31は、第2の維持確率ρ2を第1の維持確率ρ1で除算することによって中間維持確率ρmを算出する。そして、第1の維持確率ρ1を示す維持確率情報と、中間維持確率ρmを示す中間維持確率情報とを撹乱部32へ出力する。
撹乱部32は、データの各項目iに対応付けられた値Vi0〜ViMi-1を記憶している。また、撹乱部32は、維持確率設定部31から出力された維持確率情報と中間維持確率情報とを受け付ける。そして、撹乱部32は、受け付けた維持確率情報が示す第1の維持確率ρ1に基づき、データ受信部33に記憶されたデータに含まれるデータ値を項目i毎に、その項目に対応付けられた値Vi0〜ViMi-1のいずれかに置換する。これにより、第1の撹乱データが生成される。このとき、撹乱部32は、上述した撹乱部12,22と同様に、実数の値を有する乱数ri(0≦ri≦1)を用いる。さらに、撹乱部32は、受け付けた中間維持確率情報が示す中間維持確率ρmに基づき、第1の撹乱データに含まれる値を項目i毎に、その項目iに対応付けられた値Vi0〜ViMi-1のいずれかに置換する。これにより、第2の撹乱データが生成される。このときも、撹乱部32は、上述した撹乱部12,22と同様に、実数の値を有する乱数ri(0≦ri≦1)を用いる。
なお、第2の撹乱データは、例えば不特定多数の者がアクセス可能な公開データベース等に送信される。
次に、上記のように構成された撹乱装置30の動作について説明する。
図5は、図4に示した撹乱装置の動作を説明するためのフローチャートである。
まず、維持確率設定部31は、上記のPk−匿名性等によって第1の維持確率ρ1及び第2の維持確率を設定する(ステップS21)。ここでは、維持確率設定部31は、上記の式1において、(k=2)としたときのρを第1の維持確率ρ1として設定し、(k=100)としたときのρを第2の維持確率ρ2として設定することとする。
また、維持確率設定部31は、第2の維持確率ρ2を第1の維持確率ρ1で除算することにより、中間維持確率ρmを算出する(ステップS22)。
そして、維持確率設定部31は、第1の維持確率ρ1を示す維持確率情報と、中間維持確率ρmを示す中間維持確率情報とを撹乱部32へ出力する。
撹乱部32は、維持確率設定部31から出力された維持確率情報と中間維持確率情報とを受け付ける。
次に、撹乱部32は、乱数riを項目i毎に生成する(ステップS23)。
そして、撹乱部32は、受け付けた維持確率情報が示す第1の維持確率ρ1と、生成された乱数とを項目i毎に比較する(ステップS24)。
ステップS24における比較の結果、生成された乱数riの値が、受け付けた維持確率情報が示す第1の維持確率ρ1よりも大きな場合(ri>ρ1)、撹乱部32は、データ受信部33に記憶されたデータに含まれるデータ値のうち、その項目iのデータ値を、その項目iに対応付けられた値Vi0〜ViMi-1のうちのいずれかの値に置換する(ステップS25)。
一方、ステップS24における比較の結果、生成された乱数riの値が、受け付けた維持確率情報が示す第1の維持確率ρ1以下である場合には(ri≦ρ1)、撹乱部32は、データ受信部33に記憶されたデータに含まれるデータ値のうち、その項目iのデータ値を置換しない。
次に、撹乱部32は、置換されたデータ値及び置換されなかったデータ値を含む第1の撹乱データを生成する(ステップS26)。
次に、撹乱部32は、乱数riを項目i毎に生成する(ステップS27)。
そして、撹乱部32は、受け付けた中間維持確率情報が示す中間維持確率ρmと、生成した乱数riとを項目i毎に比較する(ステップS28)。
ステップS28における比較の結果、生成した乱数riの値が、受け付けた中間維持確率情報が示す中間維持確率ρmよりも大きな場合(ri>ρm)、撹乱部32は、生成した第1の撹乱データに含まれる値のうち、その項目iの値を、その項目iに対応付けられた値Vi0〜ViMi-1のうちのいずれかの値に置換する(ステップS29)。
一方、ステップS28における比較の結果、生成した乱数riの値が、受け付けた中間維持確率情報が示す中間維持確率ρm以下である場合には(ri≦ρm)、撹乱部32は、受け付けた第1の撹乱データに含まれる値のうち、その項目iの値を置換しない。
これにより、データ受信部33に記憶されたデータに含まれるデータ値が、第2の維持確率ρ2に基づいて置換されたことになる。
そして、撹乱部32は、置換されたデータ値及び置換されなかったデータ値を含む第2の撹乱データを生成する(ステップS30)。
このように本実施形態において撹乱装置30は、データ値を置換しない確率である第1の維持確率ρ1と、データ値を置換しない確率であり、所望のレベルを確保するための第2の維持確率ρ2とを設定する。
そして、撹乱装置30は、第1の撹乱データに含まれる値を置換しない確率である中間維持確率ρmを第1の維持確率ρ1と第2の維持確率ρ2とを用いて算出する。
そして、撹乱装置30は、第1の維持確率ρ1に基づいてデータ値を、その項目iに対応付けられた複数の値のうちのいずれかの値に置換した第1の撹乱データを生成する。
さらに、撹乱装置30は、中間維持確率ρmに基づいて第1の撹乱データに含まれる値を、その項目iに対応付けられた複数の値のいずれかの値に置換した第2の撹乱データを生成する。
従って、データに含まれるデータ値を用いることなく、そのデータの秘匿性を所望のレベルまで高めることが可能となる。
なお、上述した第1の実施形態では、サーバ10における中間維持確率ρmに基づいた置換をデータベース管理者の指示によって行う場合、そのデータベース管理者が悪意を持って中間維持確率ρmに基づいた置換を実施しないという不正を行うことも考えられる。この場合、第1の維持確率ρ1に基づいた置換しか行われていないデータが不特定多数の者に公開されてしまう。つまり、秘匿性が所望のレベルまで達していないデータが公開されてしまうおそれがある。
一方、本実施形態においては、第1の維持確率ρ1及び中間維持確率ρmに基づいた置換が1つの装置にて行われるため、データベース管理者が上述したような不正を行うのを回避することができる。
また、上述した第1及び第2の実施形態では、撹乱を2回行うことによってデータの秘匿性を所望のレベルまで高める場合について説明したが、撹乱を3回以上行うことによってデータの秘匿性を所望のレベルまで高めることも可能である。
例えば、上述した第1及び第2の実施形態においてさらにデータの秘匿性のレベルを高めたい場合を考えてみる。そのレベルを確保するための維持確率を第3の維持確率ρ3とすると、第3の維持確率ρ3を第2の維持確率ρ2で除算した値(ρ3/ρ2)を中間維持確率とし、その中間維持確率(ρ3/ρ2)に基づいて第2の撹乱データに含まれる値を置換すればよい。これにより、第3の維持確率ρ3に基づいてデータ値を置換したときと同じレベルの秘匿性を得ることができる。
また、第1の維持確率ρ1はデータ値を置換しない確率であるため、(1−ρ1)はデータ値を置換する確率となる。つまり、第1の維持確率ρ1が設定されると、それとともに、データ値を置換する確率(1−ρ1)の値も決定することになる。このとき、データ値は、第1の維持確率ρ1に基づいて置換されても、確率(1−ρ1)に基づいて置換されても、同じレベルの秘匿性を確保することができる。従って、第1の維持確率ρ1の代わりに、確率(1−ρ1)を第1の確率として、データ値を置換してもよいこととなる。これは、第2の維持確率ρ2及び中間維持確率ρmについても同様である。
また、本発明においては、サーバ、クライアント及び撹乱装置内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムをサーバ、クライアント及び撹乱装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムをサーバ、クライアント及び撹乱装置に読み込ませ、実行するものであっても良い。サーバ、クライアント及び撹乱装置にて読取可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、サーバ、クライアント及び撹乱装置に内蔵されたHDDなどを指す。
10 サーバ
11,31 維持確率設定部
12,22,32 撹乱部
13 送受信部
20−1〜20−n クライアント
21 記憶部
30 撹乱装置
33 データ受信部

Claims (9)

  1. 複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちのいずれかであるデータ値を含むデータの秘匿性を所望のレベルで確保するために、前記データ値を前記複数の値のうちのいずれかの値に確率的に置換する撹乱システムであって、
    第1の確率と、前記所望のレベルを確保するための第2の確率とを設定するサーバと、
    前記第1の確率に基づいて前記データ値を前記複数の値のうちのいずれかの値に置換した第1の撹乱データを生成するクライアントと、を有し、
    前記サーバは、前記第1及び第2の確率を用いて第3の確率を算出し、該算出した第3の確率に基づいて前記第1の撹乱データに含まれる値を前記複数の値のいずれかの値に置換した第2の撹乱データを生成する撹乱システム。
  2. 請求項1に記載の撹乱システムにおいて、
    前記第1及び第2の確率は、前記データ値を置換しない確率であり、
    前記サーバは、前記第2の確率を前記第1の確率で除算した値を前記第3の確率とする撹乱システム。
  3. 複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちのいずれかであるデータ値を含むデータの秘匿性を所望のレベルで確保するために、前記データ値を前記複数の値のうちのいずれかの値に確率的に置換する撹乱装置であって、
    第1の確率と、前記所望のレベルを確保するための第2の確率とを設定する維持確率設定部と、
    前記第1の確率に基づいて前記データ値を前記複数の値のうちのいずれかの値に置換した第1の撹乱データを生成する撹乱部と、を有し、
    前記維持確率設定部は、前記第1及び第2の確率を用いて第3の確率を算出し、
    前記撹乱部は、前記算出された第3の確率に基づいて前記第1の撹乱データに含まれる値を前記複数の値のいずれかの値に置換した第2の撹乱データを生成する撹乱装置。
  4. 請求項3に記載の撹乱装置において、
    前記第1及び第2の確率は、前記データ値を置換しない確率であり、
    前記維持確率設定部は、前記第2の確率を前記第1の確率で除算した値を前記第3の確率とする撹乱装置。
  5. サーバとクライアントとを有し、複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちのいずれかであるデータ値を含むデータの秘匿性を所望のレベルで確保するために、前記データ値を前記複数の値のうちのいずれかの値に確率的に置換する撹乱システムにおける撹乱方法であって、
    前記サーバが、第1の確率を設定する処理と、
    前記クライアントが、前記第1の確率に基づいて前記データ値を前記複数の値のうちのいずれかの値に置換した第1の撹乱データを生成する処理と、
    前記サーバが、前記所望のレベルを確保するための第2の確率を設定する処理と、
    前記サーバが、前記第1及び第2の確率を用いて第3の確率を算出する算出処理と、
    前記サーバが、前記算出した第3の確率に基づいて前記第1の撹乱データに含まれる値を前記複数の値のいずれかの値に置換した第2の撹乱データを生成する処理と、を有する撹乱方法。
  6. 請求項5に記載の撹乱方法において、
    前記第1及び第2の確率は、前記データ値を置換しない確率であり、
    前記算出処理は、前記サーバが、前記第2の確率を前記第1の確率で除算した値を前記第3の確率とする処理である撹乱方法。
  7. 複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちのいずれかであるデータ値を含むデータの秘匿性を所望のレベルで確保するために、前記データ値を前記複数の値のうちのいずれかの値に確率的に置換する撹乱装置における撹乱方法であって、
    前記攪乱装置の維持確率設定部が、第1の確率と、前記所望のレベルを確保するための第2の確率とを設定する処理と、
    前記維持確率設定部が、前記第1及び第2の確率を用いて第3の確率を算出する算出処理と、
    前記攪乱装置の攪乱部が、前記第1の確率に基づいて前記データ値を前記複数の値のうちのいずれかの値に置換した第1の撹乱データを生成する処理と、
    前記攪乱部が、前記算出された第3の確率に基づいて前記第1の撹乱データに含まれる値を前記複数の値のいずれかの値に置換した第2の撹乱データを生成する処理と、を有する撹乱方法。
  8. 請求項7に記載の撹乱方法において、
    前記第1及び第2の確率は、前記データ値を置換しない確率であり、
    前記算出処理において前記維持確率設定部は、前記第2の確率を前記第1の確率で除算した値を前記第3の確率とする、撹乱方法。
  9. 複数の項目から構成され、前記複数の項目のそれぞれに対応付けられた複数の値のうちのいずれかであるデータ値を含むデータの秘匿性を所望のレベルで確保するために、前記データ値を前記複数の値のうちのいずれかの値に確率的に置換するコンピュータを、請求項3または請求項4に記載の撹乱装置として機能させるためのプログラム。
JP2010224009A 2010-10-01 2010-10-01 撹乱システム、撹乱装置、撹乱方法及びプログラム Active JP5475608B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010224009A JP5475608B2 (ja) 2010-10-01 2010-10-01 撹乱システム、撹乱装置、撹乱方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010224009A JP5475608B2 (ja) 2010-10-01 2010-10-01 撹乱システム、撹乱装置、撹乱方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012080345A JP2012080345A (ja) 2012-04-19
JP5475608B2 true JP5475608B2 (ja) 2014-04-16

Family

ID=46240079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010224009A Active JP5475608B2 (ja) 2010-10-01 2010-10-01 撹乱システム、撹乱装置、撹乱方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5475608B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5875535B2 (ja) * 2013-01-18 2016-03-02 日本電信電話株式会社 匿名化装置、匿名化方法、プログラム
JP5875536B2 (ja) * 2013-01-18 2016-03-02 日本電信電話株式会社 匿名化装置、匿名化方法、プログラム
WO2018116366A1 (ja) * 2016-12-19 2018-06-28 三菱電機株式会社 秘匿化装置、データ分析装置、秘匿化方法、データ分析方法、秘匿化プログラム及びデータ分析プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021488A1 (en) * 2003-07-21 2005-01-27 Rakesh Agrawal Mining association rules over privacy preserving data
JP4774276B2 (ja) * 2004-11-19 2011-09-14 パナソニック株式会社 匿名情報システム、変換分割装置、情報提供装置及び情報蓄積装置
JP2007288480A (ja) * 2006-04-17 2007-11-01 Mitsubishi Electric Corp 統計処理方法、データ提供装置、及び統計処理システム
JP5307499B2 (ja) * 2008-10-06 2013-10-02 日本電信電話株式会社 データ集計システム、撹乱装置、再構築装置、データ集計方法、撹乱プログラム、および再構築プログラム

Also Published As

Publication number Publication date
JP2012080345A (ja) 2012-04-19

Similar Documents

Publication Publication Date Title
JP5475610B2 (ja) 撹乱装置、撹乱方法及びプログラム
Eskandari et al. Sok: Oracles from the ground truth to market manipulation
Bove et al. Elite co-optation, repression, and coups in autocracies
Khalid et al. Armed conflict, military expenditure and international tourism
US20160358264A1 (en) Equity income index construction transformation system, method and computer program product
US9697381B2 (en) Computing system with identity protection mechanism and method of operation thereof
Wheeler et al. Cloud storage security: A practical guide
JP5475608B2 (ja) 撹乱システム、撹乱装置、撹乱方法及びプログラム
Donato et al. Different but the same: How legal status affects international migration from Bangladesh
Kocak et al. Global pandemic uncertainty, pandemic discussion and visitor behaviour: A comparative tourism demand estimation for the US
Kesan et al. An empirical investigation of the relationship between local government budgets, IT expenditures, and cyber losses
Tam et al. The invisible COVID-19 small business risks: Dealing with the cyber-security aftermath
Psaradakis et al. Portmanteau tests for linearity of stationary time series
US9489501B2 (en) Authentication method, authentication device, and system
Jiao et al. Disparities in the impacts of the COVID-19 pandemic on public transit ridership in Austin, Texas, USA
JP5651568B2 (ja) データベース撹乱装置、システム、方法及びプログラム
Balashunmugaraja et al. Optimal key generation for data sanitization and restoration of cloud data: Future of financial cyber security
Philip et al. A value proposition for cyberspace management in organizations
JP5639094B2 (ja) データベース撹乱パラメータ決定装置、データベース撹乱システム及び方法並びにデータベース撹乱装置
Nwankwo Analysis of Impact of Industry 4.0 on Africa, Eastern Europe and US: A Case Study of Cyber-Security and Sociopolitical Dynamics of Nigeria, Russia and USA
JP2015230358A (ja) 撹乱再構築システム、撹乱装置、再構築装置、撹乱再構築方法及びプログラム
Carmignani et al. Dynamic spatial panel estimates of war contagion
Haverkamp et al. Evaluating the merits and constraints of cryptography-steganography fusion: a systematic analysis
Haverkamp Analyzing Advantages and Limitations of Combining Cryptography and Steganography Across Applications: A Systematic Review
Williams et al. An Authentic Self: Big Data and Passive Digital Footprints.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121225

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20130304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140206

R150 Certificate of patent or registration of utility model

Ref document number: 5475608

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150