JP5411715B2 - 疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体 - Google Patents

疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5411715B2
JP5411715B2 JP2010005851A JP2010005851A JP5411715B2 JP 5411715 B2 JP5411715 B2 JP 5411715B2 JP 2010005851 A JP2010005851 A JP 2010005851A JP 2010005851 A JP2010005851 A JP 2010005851A JP 5411715 B2 JP5411715 B2 JP 5411715B2
Authority
JP
Japan
Prior art keywords
value
data
records
values
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010005851A
Other languages
English (en)
Other versions
JP2011145869A (ja
Inventor
大 五十嵐
浩気 濱田
克巳 高橋
彰 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010005851A priority Critical patent/JP5411715B2/ja
Publication of JP2011145869A publication Critical patent/JP2011145869A/ja
Application granted granted Critical
Publication of JP5411715B2 publication Critical patent/JP5411715B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)

Description

本発明は、データに含まれる値を秘匿したまま、そのデータの統計値を算出するための疑似的なデータを生成する疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体に関する。
近年、データベースに記憶されたデータに含まれる値を統計的手法によって秘匿しつつ、そのデータの統計値を算出するための技術が考えられている。
このような技術としては、再構築法(例えば、非特許文献1,4参照。)、秘匿関数計算(例えば、非特許文献2参照。)、k−匿名法(例えば、非特許文献3参照。)がある。
R. Agrawal and R.Srikant. Privacy-preserving data mining. Proc. of the 2000 ACM SIGMOD Intl. Conf. on Management of Data, 2000. Y. Lindell and B. Pinkas. Privacy Preserving Data Mining. CRYPTO, Vol.1880 of Lecture Notes in Computer Science, Springer, pp. 36-54, 2000. L. Sweeney. k-anonymity: a model for protecting privacy. Int'l Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, Vol.10, Issue 5, pp.557-570, 2002. 五十嵐大、千田浩司、高橋克巳 多値属性に適用可能な効率的プライバシー保護クロス集計 CSS2008,2008.
上述した非特許文献1〜4に開示されている技術では、データの秘匿性とユーザビリティとを両立させることができないという問題点がある。具体的には、非特許文献1〜4に開示されている技術では、以下の(1)〜(3)に示す条件を同時に満足することができない。
(1)データベース管理者に対してデータを秘匿できること
(2)統計値を算出する者が制限されないこと
(3)周知の計算方法を適用して容易に統計値を算出できること
非特許文献3に開示されているk−匿名法においては、統計値を算出するために必要な疑似的なデータを生成する。そして、生成された疑似的なデータから誰でも統計値を計算でき、上記の(2)を満足する。しかし、データベース管理者に秘匿性が確保されていないデータが渡ってしまうことがある。つまり、上記の(1)を満足しない。
また、非特許文献2に開示されている秘匿関数計算においては、データベース管理者に対してデータを秘匿することができ、上記の(1)を満足する。しかし、それと同時に、データベース管理者以外は、統計値を算出することができない。つまり、上記の(2)を満足しない。
また、非特許文献1,4に開示されている再構築法においては、データベース管理者に対してデータを秘匿することができ、さらに、統計値の算出を誰でも行うことができる。すなわち、上記の(1)及び(2)を満足する。しかし、再構築法においては、他の方法と違い、算出しようとする統計値の種類毎に異なる計算方法を用いなくてはならない。例えば、再構築法を利用してクロス集計を算出するための計算方法と平均値を算出するため計算方法とは異なるため、それぞれ別の計算方法を考案する必要がある。
そのため、再構築法においては、周知の計算方法を適用して容易に統計値を算出できるとはいえず、上記の(3)を満足しない。
本発明は、データの秘匿性とユーザビリティとを両立させつつ、統計値の算出を行うことを可能にする疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体を提供することを目的とする。
上記目的を達成するために本発明の疑似データ生成装置は、複数の項目のそれぞれに対応付けられた複数の値のいずれかであるデータ値を含む複数のレコードに関する統計値を、前記データ値を秘匿したまま算出するための疑似的なデータを生成する疑似データ生成装置であって、
前記データ値を前記複数の値のいずれかに、所定の確率に基づいて変化させた撹乱値から、前記複数のレコードのうち、前記複数の項目において前記データ値が同一であるレコードの数を実数で推定した値であり、当該レコードと対応付けられた複数の推定集計値を生成する再構築部と、
前記複数の推定集計値のそれぞれに対応付けられた前記レコードを、当該推定集計値の整数部分の値と小数部分の値とに応じた数だけ生成するデータ生成部と、を有する。
また、上記目的を達成するために本発明の疑似データ生成方法は、複数の項目のそれぞれに対応付けられた複数の値のいずれかであるデータ値を含む複数のレコードに関する統計値を、前記データ値を秘匿したまま算出するための疑似的なデータを生成する疑似データ生成装置における疑似データ生成方法であって、
前記データ値を前記複数の値のいずれかに、所定の確率に基づいて変化させた撹乱値から、前記複数のレコードのうち、前記複数の項目において前記データ値が同一であるレコードの数を実数で推定した値であり、当該レコードと対応付けられた複数の推定集計値を生成する処理と、
前記複数の推定集計値のそれぞれに対応付けられた前記レコードを、当該推定集計値の整数部分の値と小数部分の値とに応じた数だけ生成するデータ生成処理と、を有する。
また、上記目的を達成するために本発明のプログラムは、複数の項目のそれぞれに対応付けられた複数の値のいずれかであるデータ値を含む複数のレコードに関する統計値を、前記データ値を秘匿したまま算出するための疑似的なデータを生成する疑似データ生成装置に、
前記データ値を前記複数の値のいずれかに、所定の確率に基づいて変化させた撹乱値から、前記複数のレコードのうち、前記複数の項目において前記データ値が同一であるレコードの数を実数で推定した値であり、当該レコードと対応付けられた複数の推定集計値を生成する機能と、
前記複数の推定集計値のそれぞれに対応付けられた前記レコードを、当該推定集計値の整数部分の値と小数部分の値とに応じた数だけ生成するデータ生成機能と、を実現させる。
また、上記目的を達成するために本発明の記録媒体は、上記のプログラムを記録した記録媒体である。
本発明の疑似データ生成装置は、複数の項目のそれぞれに対応付けられた複数の値のいずれかであるデータ値を含む複数のレコードに関する統計値を、データ値を秘匿したまま算出するための疑似的なデータを生成する。
具体的には、疑似データ生成装置は、データ値を、複数の項目のそれぞれに対応付けられた複数の値のいずれかに、所定の確率に基づいて変化させた撹乱値から、複数のレコードのうち、複数の項目においてデータ値が同一であるレコードの数を実数で推定した値であり、当該レコードと対応付けられた複数の推定集計値を生成する。そして、疑似データ生成装置は、複数の推定集計値のそれぞれに対応付けられたレコードを、当該推定集計値の整数部分の値と小数部分の値とに応じた数だけ生成する。
これにより、複数のレコードに含まれるデータ値を秘匿したまま、その複数のレコードに関する統計値を算出するための疑似的なデータを得ることができる。また、この疑似的なデータは、データ値が秘匿された複数のレコードと同じ形式で表されている。そのため、周知の計算方法を用い、データ値が秘匿された複数のレコードに関する様々な統計値を算出することができる。
従って、データの秘匿性とユーザビリティとを両立させつつ、統計値の算出を行うことが可能となる。
複数のレコードとその複数のレコードのクロス集計との一例を示す図であり、(a)は複数のレコードの一例を示す図、(b)はクロス集計の一例を示す図である。 本発明の疑似データ生成装置を適用した疑似データ提供システムの実施の一形態の構成を示すブロック図である。 図2に示した再構築部において生成された再構築クロス集計の一例を示す図である。 図2に示した疑似データ生成装置の動作を説明するためのフローチャートである。 図2に示した疑似データ提供システムにおける装置の配置の一例を示すブロック図である。 図2に示した疑似データ提供システムにおける装置の配置の他の例を示すブロック図である。
以下に、本発明の実施の形態について図面を参照して説明する。
本実施形態においては、複数の項目からなる複数のレコードに含まれる値であるデータ値を秘匿したまま、その複数のレコードのクロス集計である再構築クロス集計を生成する。そして、生成された再構築クロス集計に基づき、データ値が秘匿された複数のレコードに関する統計値を算出するための疑似的なデータを生成する。なお、データ値は、複数の項目のそれぞれに対応付けられた値のうちのいずれかである。
ここで、クロス集計とは、複数の項目のうちの2つまたはそれ以上の項目に着目してデータの集計を行うことである。クロス集計は通常、1つまたは2つ程度の項目を縦軸にとり、別の項目を横軸にとった表として表される。
図1は、複数のレコードとその複数のレコードのクロス集計との一例を示す図であり、(a)は複数のレコードの一例を示す図、(b)はクロス集計の一例を示す図である。
図1(a)の各行においては、個人名を識別するIDと性別及び年代とが対応付けられている。この各行のそれぞれが1つのレコードであり、性別及び年代が項目となる。
図1(a)において、性別の項目では、男性の場合「0」、女性の場合「1」となる。従って、「0」と「1」とが性別の項目に対応付けられた値となり、「0」または「1」がデータ値となる。また、同様に、年代の項目では、0歳〜19歳の場合「0」、20歳〜39歳の場合「2」となり、その後、年代順に「2」〜「4」が用いられ、100歳以上の場合「5」となる。従って、「0」〜「5」が年代の項目に対応付けられた値となり、「0」〜「5」のいずれかがデータ値となる。
また、図1(a)においては、性別の項目のデータ値が「0」(男性)であり、かつ、年代の項目のデータ値が「0」(0歳〜19歳)であるレコードが3つ(ID:001、010、011)存在する。従って、図1(b)に示すクロス集計において、性別が男性(0)の列と年代が0歳〜19歳(0)の行とが交差するところの値である集計値は「3」となる。
図2は、本発明の疑似データ生成装置を適用した疑似データ提供システムの実施の一形態の構成を示すブロック図である。
本実施形態の疑似データ提供システムは図2に示すように、撹乱装置10と、疑似データ生成装置20とを備えている。
撹乱装置10は、複数のレコードの入力を受け付けるデータ撹乱部11を備えている。なお、ここでは、データ撹乱部11が受け付けるレコード数をN個とする。
データ撹乱部11は、受け付けたN個のレコードのそれぞれに含まれる複数のデータ値のそれぞれを、各項目に対応付けられた複数の値のいずれかに、所定の確率に基づいて変化させた撹乱値を生成する。そして、生成された複数の撹乱値からなる撹乱レコードを疑似データ生成装置20へ送信する。なお、データ撹乱部11における撹乱値の生成は例えば、「k−匿名性の確率的指標への拡張とその適用例 CSS2009,2009.(五十嵐大、千田浩司、高橋克巳)」に記載された方法によって行われる。この方法は具体的には、所定の維持確率に基づき、データ値をそのまま維持するかどうかを決定する。そして、データ値を維持しない場合、データ値を、そのデータ値の項目に対応付けられた複数の値のいずれかに変化させるというものである。
疑似データ生成装置20は、再構築部21と、データ生成部22とを備えている。
再構築部21は、撹乱装置10から送信された撹乱レコードを受信し、受信した撹乱レコードの複数の撹乱値から、データ撹乱部11が受け付けたN個のレコードのうち、複数の項目においてデータ値が同一であるレコードの数を示す値であり、当該レコードと対応付けられた複数の集計値を推定する。つまり、再構築部21は、推定された複数の集計値からなる再構築クロス集計を生成する。以降、推定された複数の集計値のそれぞれのことを推定集計値という。そして、再構築部21は、生成された再構築クロス集計を示す情報をデータ生成部22へ出力する。なお、再構築部21における再構築クロス集計の生成は例えば、上述した非特許文献4(「多値属性に適用可能な効率的プライバシー保護クロス集計 CSS2008,2008.(五十嵐大、千田浩司、高橋克巳)」)に記載されている反復ベイズ手法等によって行われる。
図3は、図2に示した再構築部21において生成された再構築クロス集計の一例を示す図である。
図3に示すように、再構築クロス集計の複数の推定集計値のそれぞれは実数で表される。つまり、複数の推定集計値のそれぞれは、整数部分と小数部分とからなる値である。以降、推定集計値vの整数部分の値をqと表記し、小数部分の値をrと表記する。例えば、図3において、性別が男性(0)で、かつ、年代が20歳〜39歳(1)の推定集計値では、q=5となり、r=0.56となる。
再度、図2を参照すると、疑似データ生成装置20のデータ生成部22は、再構築部21から出力された再構築クロス集計を示す情報を受け付ける。そして、受け付けた情報が示す再構築クロス集計に基づき、データ撹乱部11が受け付けたN個のレコードに関する統計値を算出するための疑似的なレコードを生成する。そして、データ生成部22は、生成されたレコードを出力する。レコードの出力先としては例えば、そのレコードから様々な統計値を算出するための統計分析装置(不図示)等である。なお、データ生成部22がレコードを生成する動作の詳細については、後述する動作フローにおいて説明する。
以下に、上記のように構成された疑似データ提供システムにおける疑似データ生成装置20の動作について説明する。
図4は、図2に示した疑似データ生成装置20の動作を説明するためのフローチャートである。
まず、疑似データ生成装置20の再構築部21は、撹乱装置10から送信された撹乱レコードを受信する。
撹乱装置10から送信された撹乱レコードを受信した再構築部21は、受信した撹乱レコードの複数の撹乱値から再構築クロス集計を生成する(ステップS1)
次に、再構築部21は、生成された再構築クロス集計を示す情報をデータ生成部22へ出力する。
再構築部21から出力された情報を受け付けたデータ生成部22は、まず、実数を表現できるカウンタを用意し、そのカウンタのカウンタ値cを「0」に初期化する(ステップS2)。
次に、データ生成部22は、受け付けた情報が示す再構築クロス集計の複数の推定集計値vのうち、選択されていない推定集計値vをランダムに1つ選択する(ステップS3)。
次に、データ生成部22は、ステップS3において選択された推定集計値vに対応するレコードを、その選択された推定集計値vの整数部分の値qと同じ数だけ生成する(ステップS4)。具体的には例えば、図3において、性別が男性(0)で、かつ、年代が20歳〜39歳(1)の推定集計値vは5.56であるので、データ生成部22は、性別の項目のデータ値が「0」で、かつ、年代の項目のデータ値が「1」のレコードを5つ生成する。
次に、データ生成部22は、ステップS3において選択された推定集計値vの小数部分の値rをカウンタ値cに加算することによってカウンタ値cを更新する(ステップS5)。
次に、データ生成部22は、データ生成部22は、カウンタ値cが予め決められた値であるt以上の値かどうかを判定する(ステップS6)。なお、tは以下の式(1)に示す範囲の値である。
Figure 0005411715
ステップS6における判定の結果、カウンタ値cがt以上の値である場合、データ生成部22は、ステップS3において選択された推定集計値vに対応するレコードをさらにもう1つ生成する(ステップS7)。
次に、データ生成部22は、カウンタ値cから1を減算することによってカウンタ値cを更新する(ステップS8)。
次に、データ生成部22は、ステップS1において生成された再構築クロス集計の推定集計値vの全てを選択したかどうかを判定する(ステップS9)。
なお、ステップS6における判定の結果、カウンタ値cがt以上の値でない場合には、ステップS9の動作へ遷移する。
ステップS9における判定の結果、全ての推定集計値vを選択していない場合、ステップS3の動作へ遷移する。
一方、ステップS9における判定の結果、全ての推定集計値の選択をしている場合、処理を終了する。
なお、再構築クロス集計の複数の推定集計値vのそれぞれは上述したように、整数部分の値qと小数部分の値rとからなる実数であるが、全推定集計値vの合計は、撹乱装置10のデータ撹乱部11が受け付けたレコード数であるN個と一致する。従って、上述した動作フローに従って生成されたレコード数は、各推定集計値vの整数部分の値qの和と小数部分の値rの和とを合計したものとなるため、結局N個となる。
また、上記のtは、数学的には1が自然であるが、浮動小数点計算による誤差を防ぐために、実際には例えば、0.5が適当である。
また、上述した動作フローのステップS7において、レコードがさらにもう1つ生成される確率は、選択された推定集計値vの小数部分の値rと一致する。なぜならば、複数の推定集計値vのそれぞれは、ランダムな順序で選ばれるため、ある推定集計値vが選択された時点でのカウンタ値cの分布は、[t−1,t]の一様分布であり、この分布にrを加算することにより、カウンタ値cがt以上の値になる確率はrだからである。
このことにより、上述した動作フローにおいて生成されたレコードから再度、クロス集計を算出した場合、複数の推定集計値vのそれぞれの期待値はやはり、「q+r」であり、再構築クロス集計の複数の推定集計値vのそれぞれと一致する。そのため、生成されたレコードは、再構築クロス集計の妥当な離散化といえる。
なお、どのような攻撃者も、データ撹乱部11が生成した撹乱値からデータ値を識別することはできない。これは、上述した「k−匿名性の確率的指標への拡張とその適用例 CSS2009,2009.(五十嵐大、千田浩司、高橋克巳)」に記載されているとおりである。つまり、データ値の秘匿性が確保されている。そのため、上述した動作フローに従い、撹乱値に基づいて生成されたレコードも同様に秘匿性が確保されている。
さらに、生成されたレコードは、クロス集計の形式から各項目の値を算出したものである。そのため、生成されたレコードの形式は、撹乱装置10のデータ撹乱部11が受け付けたレコードと同じ形式となる。これにより、周知の計算方法を用い、撹乱装置10のデータ撹乱部11が受け付けたレコードに関する様々な統計値を容易に算出することができる。
このように本実施形態において疑似データ生成装置20は、複数の項目のそれぞれに対応付けられた複数の値のいずれかであるデータ値を含む複数のレコードに関する統計値を、データ値を秘匿したまま算出するための疑似的なデータを生成する。
具体的には、疑似データ生成装置20は、データ値を、複数の項目のそれぞれに対応付けられた複数の値のいずれかに、所定の確率に基づいて変化させた撹乱値から、複数のレコードのうち、複数の項目においてデータ値が同一であるレコードの数を実数で推定した値であり、当該レコードと対応付けられた複数の推定集計値を生成する。そして、疑似データ生成装置20は、複数の推定集計値のそれぞれに対応付けられたレコードを、当該推定集計値の整数部分の値と小数部分の値とに応じた数だけ生成する。
これにより、複数のレコードに含まれるデータ値を秘匿したまま、その複数のレコードに関する統計値を算出するための疑似的なデータを得ることができる。また、この疑似的なデータは、データ値が秘匿された複数のレコードと同じ形式で表されている。そのため、周知の計算方法を用い、データ値が秘匿された複数のレコードに関する様々な統計値を算出することができる。
従って、データの秘匿性とユーザビリティとを両立させつつ、統計値の算出を行うことが可能となる。
次に、図2に示した疑似データ提供システムにおける具体的な装置の配置例について説明する。
図5は、図2に示した疑似データ提供システムにおける装置の配置の一例を示すブロック図である。
図5に示す例では、複数のアンケート回答者とアンケート業者との間に疑似データ生成サービス業者を介在させている。そして、複数のアンケート回答者のそれぞれが撹乱装置10を有し、疑似データ生成サービス業者が疑似データ生成装置20を有し、アンケート業者が統計分析装置100を有している。
これにより、複数のアンケート回答者によって撹乱装置10に入力された複数のレコードに含まれるデータ値をアンケート業者に対して秘匿できる。それとともに、アンケート業者は、周知の計算方法を用い、複数のアンケート回答者によって撹乱装置10に入力された複数のレコードに関する様々な統計値を算出することが可能となる。
図6は、図2に示した疑似データ提供システムにおける装置の配置の他の例を示すブロック図である。
図6に示す例では、データベース事業者が、撹乱装置10、疑似データ生成装置20及びデータベース30を有し、そのデータベース事業者のユーザが統計分析装置100を有している。
これにより、データベース事業者は、データベース30に記憶された複数のレコードに関する統計値と同様の統計値を得ることができるレコードを、データベース30に記憶された複数のレコードに含まれるデータ値を秘匿したまま複数のユーザに配布することができる。それとともに、複数のユーザのそれぞれは、周知の計算方法を用い、データベース30に記憶された複数のレコードに関する様々な統計値を算出することが可能となる。
なお、本発明においては、疑似データ生成装置内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを疑似データ生成装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを疑似データ生成装置に読み込ませ、実行するものであっても良い。疑似データ生成装置にて読取可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、疑似データ生成装置に内蔵されたHDDなどを指す。また、この場合、そのプログラムを記憶した記録媒体は本発明を構成することとなる。
10 撹乱装置
11 データ撹乱部
20 疑似データ生成装置
21 再構築部
22 データ生成部
30 データベース
100 統計分析装置

Claims (4)

  1. 複数の項目のそれぞれに対応付けられた複数の値のいずれかであるデータ値を含む複数のレコードに関する統計値を、前記データ値を秘匿したまま算出するための疑似的なデータを生成する疑似データ生成装置であって、
    前記データ値を前記複数の値のいずれかに、所定の確率に基づいて変化させた撹乱値から、前記複数のレコードのうち、前記複数の項目において前記データ値が同一であるレコードの数を実数で推定した値であり、当該レコードと対応付けられた複数の推定集計値を生成する再構築部と、
    前記複数の推定集計値のそれぞれに対応付けられた前記レコードを、当該推定集計値の整数部分の値と小数部分の値とに応じた数だけ生成するデータ生成部と、
    から構成され、
    前記データ生成部は、
    実数を表現できるカウンタを有し、前記カウンタ値を「0」に初期化し、
    前記複数の推定集計値から選択されていない推定集計値をランダムに1つ選択する第1の手段と、
    前記選択された推定集計値に対応付けられた前記レコードを、当該推定集計値の整数部分の値と同じ数だけ生成する第2の手段と、
    当該推定集計値の小数部分の値を前記カウンタ値に加算することでカウンタ値を更新する第3の手段と、
    前記更新されたカウンタ値が予め定められた値t(0≦t≦1)以上である場合に、前記選択された推定集計値に対応付けられた前記レコードをさらに1つ生成するとともに、前記カウンタ値から1を減算することによって前記カウンタ値を更新する第4の手段と、
    前記複数の推定集計値がすべて選択されるまで、前記第1の手段から第4の手段まで繰り返す
    ことを特徴とする疑似データ生成装置。
  2. 複数の項目のそれぞれに対応付けられた複数の値のいずれかであるデータ値を含む複数のレコードに関する統計値を、前記データ値を秘匿したまま算出するための疑似的なデータを生成する疑似データ生成装置における疑似データ生成方法であって、
    前記データ値を前記複数の値のいずれかに、所定の確率に基づいて変化させた撹乱値から、前記複数のレコードのうち、前記複数の項目において前記データ値が同一であるレコードの数を実数で推定した値であり、当該レコードと対応付けられた複数の推定集計値を生成する処理と、
    前記複数の推定集計値のそれぞれに対応付けられた前記レコードを、当該推定集計値の整数部分の値と小数部分の値とに応じた数だけ生成するデータ生成処理と、を有し、
    前記データ生成処理は、
    実数を表現できるカウンタの値を「0」に初期化し、
    前記複数の推定集計値から選択されていない推定集計値をランダムに1つ選択する第1のステップと、
    前記選択された推定集計値に対応付けられた前記レコードを、当該推定集計値の整数部分の値と同じ数だけ生成する第2のステップと、
    当該推定集計値の小数部分の値を前記カウンタ値に加算することでカウンタ値を更新する第3のステップと、
    前記更新されたカウンタ値が予め定められた値t(0≦t≦1)以上である場合に、前記選択された推定集計値に対応付けられた前記レコードをさらに1つ生成するとともに、前記カウンタ値から1を減算することによって前記カウンタ値を更新する第4のステップと、前記複数の推定集計値がすべて選択されるまで、前記第1のステップから第4のステップまで繰り返す
    ことを特徴とする疑似データ生成方法。
  3. 複数の項目のそれぞれに対応付けられた複数の値のいずれかであるデータ値を含む複数のレコードに関する統計値を、前記データ値を秘匿したまま算出するための疑似的なデータを生成する疑似データ生成装置に、
    前記データ値を前記複数の値のいずれかに、所定の確率に基づいて変化させた撹乱値から、前記複数のレコードのうち、前記複数の項目において前記データ値が同一であるレコードの数を実数で推定した値であり、当該レコードと対応付けられた複数の推定集計値を生成する機能と、
    前記複数の推定集計値のそれぞれに対応付けられた前記レコードを、当該推定集計値の整数部分の値と小数部分の値とに応じた数だけ生成するデータ生成機能と、を実現させるためのプログラムであって、
    前記データ生成機能は、実数を表現できるカウンタの値を「0」に初期化し、
    前記複数の推定集計値から選択されていない推定集計値をランダムに1つ選択する第1のステップと、
    前記選択された推定集計値に対応付けられた前記レコードを、当該推定集計値の整数部分の値と同じ数だけ生成する第2のステップと、
    当該推定集計値の小数部分の値を前記カウンタ値に加算することでカウンタ値を更新する第3のステップと、
    前記更新されたカウンタ値が予め定められた値t(0≦t≦1)以上である場合に、前記選択された推定集計値に対応付けられた前記レコードをさらに1つ生成するとともに、前記カウンタ値から1を減算することによって前記カウンタ値を更新する第4のステップと、前記複数の推定集計値がすべて選択されるまで、前記第1のステップから第4のステップまで繰り返す
    ことを特徴とする
    擬似データ生成プログラム
  4. 請求項に記載のプログラムを記録した記録媒体。
JP2010005851A 2010-01-14 2010-01-14 疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体 Active JP5411715B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010005851A JP5411715B2 (ja) 2010-01-14 2010-01-14 疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010005851A JP5411715B2 (ja) 2010-01-14 2010-01-14 疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2011145869A JP2011145869A (ja) 2011-07-28
JP5411715B2 true JP5411715B2 (ja) 2014-02-12

Family

ID=44460665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010005851A Active JP5411715B2 (ja) 2010-01-14 2010-01-14 疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5411715B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5945490B2 (ja) * 2011-10-11 2016-07-05 日本電信電話株式会社 データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム
JP5670366B2 (ja) * 2012-01-27 2015-02-18 日本電信電話株式会社 匿名データ提供システム、匿名データ装置、それらが実行する方法、およびプログラム
JP5758315B2 (ja) * 2012-01-27 2015-08-05 日本電信電話株式会社 匿名データ提供システム、匿名データ装置、及びそれらが実行する方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007288480A (ja) * 2006-04-17 2007-11-01 Mitsubishi Electric Corp 統計処理方法、データ提供装置、及び統計処理システム
JP4849541B2 (ja) * 2006-10-24 2012-01-11 日本電信電話株式会社 個別情報を秘匿するクロス集計処理方法およびクロス集計装置、並びにプログラム
JP5307499B2 (ja) * 2008-10-06 2013-10-02 日本電信電話株式会社 データ集計システム、撹乱装置、再構築装置、データ集計方法、撹乱プログラム、および再構築プログラム

Also Published As

Publication number Publication date
JP2011145869A (ja) 2011-07-28

Similar Documents

Publication Publication Date Title
JP5475610B2 (ja) 撹乱装置、撹乱方法及びプログラム
US20220067202A1 (en) Method for creating avatars for protecting sensitive data
Yu et al. Traceable and undeniable ciphertext-policy attribute-based encryption for cloud storage service
JP5411715B2 (ja) 疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体
Chaturvedi et al. Reliability analysis of generalized multi-state k-out-of-n systems
Sreelatha et al. Integrity and memory consumption aware electronic health record handling in cloud
Swanson et al. An evaluation of persons per household (PPH) estimates generated by the American Community Survey: A demographic perspective
JP6445415B2 (ja) 匿名化装置、匿名化方法、プログラム
KR101553986B1 (ko) 분산 데이터 저장, 복원 시스템 및 방법
Gunawan Classification of privacy preserving data mining algorithms: a review
Wei et al. Efficient dynamic replicated data possession checking in distributed cloud storage systems
WO2020004137A1 (ja) サービス支援システム、及びサービス支援方法
Zhou et al. Lattice-based provable data possession in the standard model for cloud-based smart grid data management systems
Andridge et al. Adapting nearest neighbor for multiple imputation: Advantages, challenges, and drawbacks
JP5475608B2 (ja) 撹乱システム、撹乱装置、撹乱方法及びプログラム
Liu et al. An efficient secure Internet of things data storage auditing protocol with adjustable parameter in cloud computing
JP6549076B2 (ja) 匿名化テーブル生成装置、匿名化テーブル生成方法、プログラム
Yadav et al. Privacy preserving data mining with abridge time using vertical partition decision tree
Dankar et al. Efficient private information retrieval for geographical aggregation
JP7088404B2 (ja) 匿名性評価装置、匿名性評価方法、プログラム
WO2023135636A1 (ja) 秘密クラスタ計算システム、秘密クラスタ計算装置、秘密クラスタ計算方法、プログラム
JP5639094B2 (ja) データベース撹乱パラメータ決定装置、データベース撹乱システム及び方法並びにデータベース撹乱装置
Mishra et al. Management Information Systems
JP5875536B2 (ja) 匿名化装置、匿名化方法、プログラム
Sinha et al. Trends and research directions for privacy preserving approaches on the cloud

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20130304

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131008

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131108

R150 Certificate of patent or registration of utility model

Ref document number: 5411715

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350