JP2013178637A - データ検定装置、データ検定方法、およびプログラム - Google Patents

データ検定装置、データ検定方法、およびプログラム Download PDF

Info

Publication number
JP2013178637A
JP2013178637A JP2012041607A JP2012041607A JP2013178637A JP 2013178637 A JP2013178637 A JP 2013178637A JP 2012041607 A JP2012041607 A JP 2012041607A JP 2012041607 A JP2012041607 A JP 2012041607A JP 2013178637 A JP2013178637 A JP 2013178637A
Authority
JP
Japan
Prior art keywords
data
average
original data
disturbance
test statistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012041607A
Other languages
English (en)
Other versions
JP5698167B2 (ja
Inventor
Akira Kikuchi
亮 菊池
Masaru Igarashi
大 五十嵐
Akihiro Yamanaka
章裕 山中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012041607A priority Critical patent/JP5698167B2/ja
Publication of JP2013178637A publication Critical patent/JP2013178637A/ja
Application granted granted Critical
Publication of JP5698167B2 publication Critical patent/JP5698167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

【課題】元データを確率的な手法により秘匿しつつ統計学的な根拠をもって仮説が正しいか否かを判断する。
【解決手段】データ検定装置10は正規分布に従う元データx’にラプラスノイズを加算して撹乱した撹乱データxと正規分布に従う元データy’にラプラスノイズを加算して撹乱した撹乱データyとを用いて元データx’の平均と元データy’の平均との間で有意な差があるか否かを検定する。検定統計量算出部100は撹乱データxと撹乱データyと相補誤差関数erfcと確率密度関数fを用いて尤度比を危険率が小さくなるように近似させて検定統計量を算出する。棄却限界値算出部200は有意水準αに基づいて棄却限界値を算出する。検定部300は検定統計量と棄却限界値を用いて元データx’の平均と元データy’の平均との間で有意な差があるか否かを検定する。
【選択図】図1

Description

この発明は、確率的手法により秘匿したデータに対して、統計学的な根拠をもって仮説が正しいか否かを判断するデータ検定技術に関する。
近年、情報の電子化とインターネットの普及により、多種多様な個人情報を蓄積した大規模なデータベースの構築が行われている。これらの大量のデータから特徴を抽出して活用するためにデータマイニング技術の利用が普及している。一方で、個人情報保護や情報漏洩防止の観点から、データマイニング等の統計分析の分野においても、プライバシー保護の必要性が高まっている。
こういった背景により、プライバシー保護とデータ分析を両立する技術として、元データを確率的手法により秘匿しつつ統計分析を可能とする技術が提案されている。例えば、維持置換撹乱により元データを秘匿しつつクロス集計を可能とする技術がある(非特許文献1,4)。また、ノイズ加算により元データを秘匿しつつクロス集計を可能とする技術がある(非特許文献2,3)。
五十嵐大, 千田浩司, 高橋克巳, "多値属性に適用可能な効率的プライバシー保護クロス集計" CSS2008. 五十嵐大, 千田浩司, 高橋克巳, "数値属性における, k-匿名性を満たすランダム化手法", CSS2011. R. Agrawal, R. Srikant, "Privacy-preserving data mining", SIGMOD, ACM, 2000. R. Agrawal, R. Srikant, and D. Thomas, "Privacy Preserving OLAP", SIGMOD, ACM, 2005.
しかしながら、従来の技術では、元データを確率的手法により秘匿したデータ(以下、撹乱データという。)を用いて、統計的仮説検定(以下、単に検定という。)を行うことはできなかった。検定とは、ある仮説に従うと仮定された母集団から実際に観測された標本が抽出される確率を求め、その確率とあらかじめ定めた有意水準とを比較して、その仮説が正しいかどうかを統計学的に判断するための手法である。
元データは非可逆操作を行い秘匿されているため、撹乱データから元データを復元することはできない。したがって、撹乱データを用いて統計分析をしても、元データを用いた統計分析の結果とは異なる結果となる。そのため従来の技術では、撹乱データのみから統計学的な根拠をもって仮説が正しいか否かを主張することはできなかった。
この発明はこのような点に鑑みてなされたものであり、元データを確率的な手法により秘匿しつつ統計学的な根拠をもって仮説が正しいか否かを判断することができるデータ検定技術を提供することを目的とする。
上記の課題を解決するために、この発明のデータ検定装置は、平均μで分散σ の正規分布に従う元データx’に平均0で分散2bのラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データxと、平均μで分散σ の正規分布に従う元データy’に前記ラプラスノイズを加算して撹乱した撹乱データyとを用いて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定する。平均μで分散σの正規分布に従うデータに平均0で分散2bのラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数fは、相補誤差関数erfcを用いて
Figure 2013178637
と表されるとする。検定統計量算出部は、撹乱データxと撹乱データyと相補誤差関数erfcと確率密度関数fを用いて、元データx’の平均と元データy’の平均が等しい場合の尤度と、元データx’の平均と元データy’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する。棄却限界値算出部は、あらかじめ定めた有意水準αに基づいて、検定統計量に対応する棄却限界値を算出する。検定部は、検定統計量と棄却限界値に基づいて、元データx’の平均と元データy’の平均との間で有意な差があるか否かを検定する。
この発明によれば、元データを確率的な手法により秘匿しつつ統計学的な根拠をもって仮説が正しいか否かを判断することができる。
実施例1にかかるデータ検定装置の構成例を示すブロック図。 実施例1にかかるデータ検定装置の動作例を示すフロー図。 実施例2にかかるデータ検定装置の構成例を示すブロック図。 実施例2にかかるデータ検定装置の動作例を示すフロー図。
実施例の説明に先立ち、この発明の基本的な考え方について説明する。一般的に、元データを確率的手法により秘匿しつつ統計分析する技術は、大きく2つの処理からなる。すなわち、元データに撹乱処理を施して秘匿する撹乱処理と、撹乱データに対して統計分析を行うことで統計結果を得る再構築処理である。撹乱処理では、元データに非可逆操作を施しデータの情報量を減少させる。これにより撹乱データから元データを復元することができなくなり、プライバシーを保護することができる。再構築処理は、撹乱処理の逆にあたる推定等を行い統計値のみを得る。撹乱データに含まれる個々のデータは情報量が減少しているが、全体の統計量としては撹乱処理の期待値に収束するため、撹乱データのみを用いて元データを用いる場合と同等の信頼性をもった統計分析を行うことが可能となる。
この発明における撹乱処理は、ラプラス分布に従うノイズであるラプラスノイズを加算する手法を用いる(詳細は、非特許文献2参照)。この発明における再構築処理は、検定法としてt検定を用いる。t検定とは、正規分布に従う2つのデータの平均値に有意な差がないことを帰無仮説とする平均一致検定であり、帰無仮説が成り立つとした条件下での尤度と帰無仮説が成り立たない場合の尤度との比である尤度比を検定統計量として行う尤度比検定である。尤度比検定についての詳細は、「Robert V.H., Joeseph W. M., Allen T. C., Introduction to Mathematical Statistics, Prentice Hall, 2003」を参照されたい。t検定では、まず、2つのデータから検定統計量を算出する。次に、あらかじめ定めた有意水準から棄却限界値を算出する。そして、検定統計量と棄却限界値を比較して、検定統計量が棄却限界値よりも大きければ2つのデータの平均が等しいという統計結果を出力する。有意水準とは、検定の正確さを表す定数であり、例えば有意水準を0.05と設定した場合には、帰無仮説が成り立つにも関わらず、帰無仮説が成り立たないと判断されることを高々5%に抑えることを表している。
この発明では元データに撹乱処理を施して秘匿した撹乱データを用いて検定を行う。撹乱データはラプラスノイズが加算されているため、元データが正規分布に従っていたとしても正規分布には従わない。t検定は正規分布に従うデータを用いることが前提であるため、撹乱データを用いてt検定を行うことはできない。なお、従来の技術でも撹乱データを用いた統計分析としてクロス集計を行うことは可能であった。しかし、従来技術によるクロス集計は定性的に元データのクロス集計結果と近い結果が得られるものの、定量的に真のクロス集計結果とどの程度近いかを求めることはできない。つまり、従来の技術によるクロス集計の結果であっても、統計学的な根拠をもって主張することはできなかった。
この発明は上記の課題を解決するために、まず、正規分布に従う元データにラプラスノイズを加算した撹乱データが従う分布の確率密度関数を導出する。そして、撹乱データの分布の場合の尤度比を計算する。しかしながら、撹乱データの従う確率密度関数は複雑な計算であり、数値計算により厳密な尤度比を算出することができない。そのためこの発明では、尤度比を危険率が小さくなるように近似させて検定統計量を導出する。危険率とは、本来は帰無仮説が成り立つにも関わらず帰無仮説が成り立たないという結果が出力される確率を表す値である。言い換えると、元データでは平均に有意な差がないにも関わらず有意な差があると判断される確率である。
尤度比検定においては、標本サイズを無限大にすれば、尤度比の対数の−2倍は漸近的にカイ二乗分布となることが知られている。これを利用して、実施例1では検定統計量として尤度比の対数の−2倍を算出し、棄却限界値としてカイ二乗値を算出することで検定を行う。実施例2では検定統計量をイェンセンの不等式を用いて近似させて算出し、その検定統計量に対応するように棄却限界値を算出することで検定を行う。
この発明の具体的な適用例を挙げる。ある新薬に血圧降下の効果があると統計学的な根拠をもって主張したいとする。そのためには、その新薬を投与した後の患者の血圧を統計分析し、血圧が下がったという分析結果が得られればよい。まず、新薬を投与した被験者集団の血圧値と偽薬を投与した被験者集団の血圧値という2種類の元データを収集する。血圧値等の生体情報はプライバシーを保護すべき情報と考えられるため、それぞれに秘匿処理を行い撹乱データのみを保持するものとする。その後、2つの撹乱データに対して、この発明のデータ検定技術を適用し、血圧値の平均に有意な差がないことを帰無仮説として検定を行う。検定の結果、平均に有意な差がある(つまり、帰無仮説が成り立たない)と判断された場合には、その新薬には血圧降下の効果があることを確認することができる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図1を参照して、この発明の実施例1に係るデータ検定装置10の構成例を詳細に説明する。データ検定装置10は、検定統計量算出部100、棄却限界値算出部200、検定部300、撹乱データ記憶部400を備える。
図2を参照して、データ検定装置10の動作例を実際に行われる手続きの順に従って詳細に説明する。撹乱データ記憶部400には、m個の要素からなる撹乱データx=(x,x,…,x)とn個の要素からなる撹乱データy=(y,y,…,y)があらかじめ記憶されている。撹乱データxは、平均μで分散σ の正規分布に従う元データx’に平均0で分散2bのラプラス分布に従うノイズであるラプラスノイズを加算して生成される。撹乱データyは、平均μで分散σ の正規分布に従う元データy’に平均0で分散2bのラプラス分布に従うノイズであるラプラスノイズを加算して生成される。
撹乱データ記憶部400は、例えば、RAM(Random Access Memory)や、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、リレーショナルデータベースやキーバリューストアなどのミドルウェア、又は、ハードディスクや光ディスクなどの補助記憶装置により構成することができる。ここでは、撹乱データ記憶部400をリレーショナルデータベースにより構成した場合を例として説明する。すなわち、撹乱データxおよび撹乱データyは複数行一列のテーブルに格納されている。例えば、属性と呼ばれる1つの項目について、1人もしくは複数人の個人ごとの属性値と呼ばれるデータが記入されているものとする。なお、この発明では、属性値は数値であるものとする。
平均μで分散σの正規分布は、以下の式(1)で表される。
Figure 2013178637
平均0で分散2bのラプラス分布は、以下の式(2)で表される。
Figure 2013178637
正規分布に従う元データに対してラプラス分布に従うノイズであるラプラスノイズを加算する方法についての詳細は非特許文献2を参照されたい。この方法によりラプラスノイズを加算された撹乱データはPk−匿名性を満たすことが証明されている。Pk−匿名性とは、データを確率的に変更することにより、変更後のデータからある人のデータを1/k以上の確率で当てることができないというプライバシー概念である。したがって、非特許文献2に記載の方法によれば元データのプライバシーを保護することができる。
検定統計量算出部100は、撹乱データxと撹乱データyを用いて、元データx’の平均と元データy’の平均が等しい場合の尤度と、元データx’の平均と元データy’の平均が等しくない場合の尤度の尤度比を近似させて検定統計量Aを算出する(S100)。検定統計量Aの算出は、より具体的には以下の手順により行う。まず、撹乱データの従う確率密度関数fを導出する。2つの確率変数の和である確率変数が従う確率密度関数は、それぞれの確率変数が従う確率密度関数の畳み込みとなることが知られている。したがって、確率密度関数fは、元データが従う正規分布の平均μと分散σとラプラスノイズが従うラプラス分布のパラメータbを用いて、以下の式(3)のように定義される。zは確率密度関数fに従う確率変数である。
Figure 2013178637
ここで、erfcは相補誤差関数と呼ばれる関数であり、以下の式(4)により定義される。
Figure 2013178637
次に、尤度関数Lを導出する。尤度とは標本から見た母集団分布がどの程度尤もらしいかを表す値である。尤度関数とは母集団分布を定義域として尤度を表す関数である。尤度関数は同時確率密度関数で与えられるが、各標本が互いに独立な同一の確率分布に従う場合には、それぞれの確率密度関数の積となる。撹乱データx=(x,x,…,x)と撹乱データy=(y,y,…,y)に対する尤度関数Lは、撹乱データxの確率密度関数の母数をまとめてθ,撹乱データyの確率密度関数の母数をまとめてθとすると、以下の式(5)のように定義される。
Figure 2013178637
続いて、尤度関数Lを用いて尤度比Λを定義する。尤度比とは、母集団に帰無仮説が成立している場合の尤度関数の上限を尤度関数全体の上限で除算したものである。確率密度関数の母集団空間をΘ、そのうち帰無仮説が成り立つ真部分集合をΘとして、尤度比Λは以下の式(6)のように定義される。
Figure 2013178637
sup演算は集合の上限を求める演算である。式(6)では分母分子ともに尤度関数の上限を求める必要があることがわかる。このような計算は現実的に困難である。そこで、この実施例では、式(6)を変形させ、標本値を代入して算出すると尤度比Λよりも大きくなる値を検定統計量とする。そのために、確率密度関数fが平均を境にして対照かつ単調な関数の畳み込み積分であることを利用する。以下の通り、式(6)は式(7)のように変形することができる。
Figure 2013178637
この実施例では、尤度比Λの対数の−2倍が、標本数が十分に多い場合には漸近的にカイ二乗分布に従うことを利用する。したがって、検定統計量Aは、以下の式(8)を計算することにより算出する。
Figure 2013178637
式(8)の第3項および第4項は最適化問題であるため数値計算による解の導出が困難である場合が考えられる。その場合には近似解等の計算可能な値で代用してもよい。例えば、2分法等の手法を用いて得られた解や、μもしくはμの代表値を選んで代入した値を用いることができる。
棄却限界値算出部200は、あらかじめ定められた有意水準αに基づいて、検定統計量算出部100の算出する検定統計量Aに対応する棄却限界値βを算出する(S200)。この実施例では、尤度比Λの対数の−2倍が、標本数が十分に多い場合には漸近的にカイ二乗分布に従うことを利用する。したがって、棄却限界値βは、自由度1かつ有意水準αのカイ二乗値である。カイ二乗値とは、カイ二乗分布の上側パーセント点である。有意水準αは一般的には0.05に設定することが多い。つまり、帰無仮説が成り立つにも関わらず帰無仮説が成り立たないと判断される確率を高々5%に抑えるということである。
カイ二乗分布は、自由度をqとして、以下の式(9)で表される。
Figure 2013178637
自由度1かつ有意水準αのカイ二乗値である棄却限界値βは、以下の式(10)を満たすβを求めることで算出することができる。
Figure 2013178637
もしくは、カイ二乗分布の数表を参照してカイ二乗値を求めることもできる。カイ二乗分布の数表とは、有意水準と自由度を軸として、あらかじめ算出したカイ二乗値が記入されている数値表である。例えば、「“数表”、[online]、[平成24年2月20日検索]、インターネット<URL: http://case.f7.ems.okayama-u.ac.jp/statedu/table/index.html#chi2>(参考文献1)」で参照することができる。参考文献1では、縦軸が自由度を表し横軸が有意水準を表している。有意水準αを0.05と定めた場合には、自由度1かつ有意水準0.05のカイ二乗値は3.841であることがわかる。
検定部300は、検定統計量算出部100の算出した検定統計量Aと棄却限界値算出部200の算出した棄却限界値βとを比較する。A>βであれば、元データx’の平均と元データy’の平均とで有意な差があることを示す情報を出力する。逆にA≦βであれば、元データx’の平均と元データy’の平均とで有意な差が認められないことを示す情報を出力する(S300)。
このように、この実施例のデータ検定装置10によれば、尤度比Λを危険率が小さくなるように近似させて検定統計量Aを算出することで、元データを確率的な手法により秘匿しつつ統計学的な根拠をもって元データx’の平均と元データy’の平均とが等しいか否かを判断することができる。また、検定統計量Aが漸近的にカイ二乗分布に従うように変形しているため、撹乱データの分布の計算量を削減することができる。
実施例1では、検定統計量をカイ二乗分布に近似するように変形した。この近似は標本数が多い場合には正しいが、標本数が少ない場合には危険率が増大するおそれがある。この実施例では、危険率をより厳密に評価することで、標本数が少ない場合でも危険率が増大しない構成とする。ただし、実施例1と比較して撹乱データの分布の計算が複雑であり標本数が多い場合には計算量が増大するおそれがある。
図3を参照して、この発明の実施例2に係るデータ検定装置20の構成例を詳細に説明する。データ検定装置20は、検定統計量算出部110、棄却限界値算出部210、検定部310、撹乱データ記憶部400を備える。
図4を参照して、データ検定装置20の動作例を実際に行われる手続きの順に従って詳細に説明する。撹乱データ記憶部400には、m個の要素からなる撹乱データx=(x,x,…,x)とn個の要素からなる撹乱データy=(y,y,…,y)があらかじめ記憶されている。撹乱データ記憶部400の構成は、実施例1と同様であるので、ここでは説明を省略する。
検定統計量算出部110は、撹乱データxと撹乱データyを用いて、元データx’の平均と元データy’の平均が等しい場合の尤度と、元データx’の平均と元データy’の平均が等しくない場合の尤度の尤度比を近似させて検定統計量Bを算出する(S110)。検定統計量Bの算出は、より具体的には以下の手順により行う。まず、x ̄を撹乱データxの平均、y ̄を撹乱データyの平均として、以下の式(11)により検定統計量Bを算出する。
Figure 2013178637
式(11)は、以下の手順で導出することができる。まず、尤度比Λの対数をとったものを式(12)で表すことができる。
Figure 2013178637
ここで、logf(z;μ,σ,b)に−logを凸関数としてイェンセンの不等式を適用して式(13)を導出する。
Figure 2013178637
式(13)を用いて式(12)を変形すると式(14)のようになる。
Figure 2013178637
x ̄を撹乱データxの平均、y ̄を撹乱データyの平均として、上限を与えるμを求めると、第1項は式(15)、第2,3項は式(16)のようになる。
Figure 2013178637
式(14)を式(15)(16)を用いて変形すると式(17)のようになる。
Figure 2013178637
式(17)の左辺を検定統計量として採用する。これにより、検定統計量Bを算出するための式(11)を導出することができる。
棄却限界値算出部210は、あらかじめ定められた有意水準αに基づいて、検定統計量算出部110の算出する検定統計量Bに対応する棄却限界値γを算出する(S210)。棄却限界値γの算出は、より具体的には以下の手順により行う。まず、Xは確率密度関数f(x;0,σ ,b)に従う確率変数、X ̄は確率変数Xをm個取り出した平均を表す確率変数とする。Yは確率密度関数f(y;0,σ ,b)に従う確率変数、Y ̄は確率変数Yをn個取り出した平均を表す確率変数とする。確率密度関数fは実施例1と同様であり、式(3)で表される。
次に、確率密度関数ξを定義する。確率密度関数ξは、以下の式(18)により定義される確率変数Ξが従う確率密度関数である。
Figure 2013178637
そして、棄却限界値γは、以下の式(19)を満たすγを求めることで算出する。
Figure 2013178637
検定部310は、検定統計量算出部110の算出した検定統計量Bと棄却限界値算出部210の算出した棄却限界値γとを比較する。|B|>|γ|であれば、元データx’の平均と元データy’の平均とで有意な差があることを示す情報を出力する。|B|≦|γ|であれば、元データx’の平均と元データy’の平均とで有意な差が認められないことを示す情報を出力する(S310)。
このように、この実施例のデータ検定装置20によれば、尤度比Λを適切な不等式を用いて計算可能な検定統計量Bに変形することで、元データを確率的な手法により秘匿しつつ統計学的な根拠をもって元データx’の平均と元データy’の平均とが等しいか否かを判断することができる。また、厳密に危険率を評価できるため、標本数が少ない場合でも危険率が増大するおそれがない。
[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
10,20 データ検定装置
100,110 検定統計量算出部
200,210 棄却限界値算出部
300,310 検定部
400 撹乱データ記憶部

Claims (7)

  1. 平均μで分散σ の正規分布に従う元データx’に平均0で分散2bのラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データxと、平均μで分散σ の正規分布に従う元データy’に前記ラプラスノイズを加算して撹乱した撹乱データyとを用いて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定するデータ検定装置であって、
    平均μで分散σの正規分布に従うデータに平均0で分散2bのラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数fは、相補誤差関数erfcを用いて
    Figure 2013178637

    で表されるとして、
    前記撹乱データxと前記撹乱データyと前記相補誤差関数erfcと前記確率密度関数fを用いて、前記元データx’の平均と前記元データy’の平均が等しい場合の尤度と、前記元データx’の平均と前記元データy’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出部と、
    あらかじめ定めた有意水準αに基づいて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出部と、
    前記検定統計量と前記棄却限界値に基づいて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定する検定部と、
    を備えることを特徴とするデータ検定装置。
  2. 平均μで分散σ の正規分布に従う元データx’に平均0で分散2bのラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データxと、平均μで分散σ の正規分布に従う元データy’に前記ラプラスノイズを加算して撹乱した撹乱データyとを用いて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定するデータ検定装置であって、
    平均μで分散σの正規分布に従うデータに平均0で分散2bのラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数fは、相補誤差関数erfcを用いて
    Figure 2013178637

    で表されるとして、
    前記撹乱データxと前記撹乱データyを用いて、前記元データx’の平均と前記元データy’の平均が等しい場合の尤度と、前記元データx’の平均と前記元データy’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出部と、
    あらかじめ定めた有意水準αに基づいて、相補誤差関数erfcと前記確率密度関数fを用いて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出部と、
    前記検定統計量と前記棄却限界値に基づいて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定する検定部と、
    を備えることを特徴とするデータ検定装置。
  3. 請求項1に記載のデータ検定装置であって、
    前記撹乱データxはm個の要素からなり、前記撹乱データyはn個の要素からなるとして、
    前記検定統計量算出部は、
    Figure 2013178637

    を計算することにより、前記検定統計量を算出し、
    前記棄却限界値算出部は、
    Figure 2013178637

    を満たすβを前記棄却限界値として計算し、
    前記検定部は、
    前記検定統計量が前記棄却限界値よりも大きい場合には、前記元データx’の平均と前記元データy’の平均との間で有意な差があると判断する
    であることを特徴とするデータ検定装置。
  4. 請求項2に記載のデータ検定装置であって、
    前記撹乱データxはm個の要素からなり、x ̄は前記撹乱データxの平均であり、前記撹乱データyはn個の要素からなり、y ̄は前記撹乱データyの平均であり、Xは確率密度関数f(x;0,σ ,b)に従う確率変数であり、X ̄は前記確率変数Xをm個取り出した平均であり、Yは確率密度関数f(y;0,σ ,b)に従う確率変数であり、Y ̄は前記確率変数Yをn個取り出した平均であり、確率密度関数ξは確率変数Ξが従う確率密度関数であり、確率変数Ξは
    Figure 2013178637

    で表されるとして、
    前記検定統計量算出部は、
    Figure 2013178637

    を計算することにより、前記検定統計量を算出し、
    前記棄却限界値算出部は、
    Figure 2013178637

    を満たすγを前記棄却限界値として計算し、
    前記検定部は、
    前記検定統計量の絶対値が前記棄却限界値の絶対値よりも大きい場合には、前記元データx’の平均と前記元データy’の平均との間で有意な差があると判断する
    ことを特徴とするデータ検定装置。
  5. 平均μで分散σ の正規分布に従う元データx’に平均0で分散2bのラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データxと、平均μで分散σ の正規分布に従う元データy’に前記ラプラスノイズを加算して撹乱した撹乱データyとを用いて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定するコンピュータによるデータ検定方法であって、
    平均μで分散σの正規分布に従うデータに平均0で分散2bのラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数fは、相補誤差関数erfcを用いて
    Figure 2013178637

    で表されるとして、
    前記撹乱データxと前記撹乱データyと前記相補誤差関数erfcと前記確率密度関数fを用いて、前記元データx’の平均と前記元データy’の平均が等しい場合の尤度と、前記元データx’の平均と前記元データy’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出ステップと、
    あらかじめ定めた有意水準αに基づいて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出ステップと、
    前記検定統計量と前記棄却限界値に基づいて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定する検定ステップと、
    を含むことを特徴とするデータ検定方法。
  6. 平均μで分散σ の正規分布に従う元データx’に平均0で分散2bのラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データxと、平均μで分散σ の正規分布に従う元データy’に前記ラプラスノイズを加算して撹乱した撹乱データyとを用いて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定するコンピュータによるデータ検定方法であって、
    平均μで分散σの正規分布に従うデータに平均0で分散2bのラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数fは、相補誤差関数erfcを用いて
    Figure 2013178637

    で表されるとして、
    前記撹乱データxと前記撹乱データyを用いて、前記元データx’の平均と前記元データy’の平均が等しい場合の尤度と、前記元データx’の平均と前記元データy’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出ステップと、
    あらかじめ定めた有意水準αに基づいて、相補誤差関数erfcと前記確率密度関数fを用いて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出ステップと、
    前記検定統計量と前記棄却限界値に基づいて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定する検定ステップと、
    を含むことを特徴とするデータ検定方法。
  7. 請求項1から4のいずれかに記載のデータ検定装置としてコンピュータを機能させるためのプログラム。
JP2012041607A 2012-02-28 2012-02-28 データ検定装置、データ検定方法、およびプログラム Active JP5698167B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012041607A JP5698167B2 (ja) 2012-02-28 2012-02-28 データ検定装置、データ検定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012041607A JP5698167B2 (ja) 2012-02-28 2012-02-28 データ検定装置、データ検定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2013178637A true JP2013178637A (ja) 2013-09-09
JP5698167B2 JP5698167B2 (ja) 2015-04-08

Family

ID=49270217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012041607A Active JP5698167B2 (ja) 2012-02-28 2012-02-28 データ検定装置、データ検定方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5698167B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016002086A1 (ja) * 2014-07-04 2016-01-07 株式会社日立製作所 匿名化データ提供装置及び方法
CN105335896A (zh) * 2014-08-13 2016-02-17 国家电网公司 用于电网的多源异构数据处理方法及装置
CN111784193A (zh) * 2020-07-17 2020-10-16 中国人民解放军国防科技大学 基于正态分布的产品性能一致性检验方法
US11176272B2 (en) * 2018-09-12 2021-11-16 The Nielsen Company (Us), Llc Methods, systems, articles of manufacture and apparatus to privatize consumer data
US11232179B2 (en) * 2019-03-22 2022-01-25 Microsoft Technology Licensing, Llc Automated user identification for cross-platform group and device collaboration

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040172401A1 (en) * 2000-06-15 2004-09-02 Peace Terrence B. Significance testing and confidence interval construction based on user-specified distributions
JP2010039756A (ja) * 2008-08-05 2010-02-18 Fuji Xerox Co Ltd 独立性検定装置、データ解析装置、及び独立性検定プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040172401A1 (en) * 2000-06-15 2004-09-02 Peace Terrence B. Significance testing and confidence interval construction based on user-specified distributions
JP2010039756A (ja) * 2008-08-05 2010-02-18 Fuji Xerox Co Ltd 独立性検定装置、データ解析装置、及び独立性検定プログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNB200100115001; 岡本 安晴: "プログラミングによる統計処理の実践的アプローチ Delphiで学ぶデータ分析法" 第1版, 19980320, pp.160-164, CQ出版株式会社 *
CSNG201100778070; 五十嵐 大 外2名: '"数値属性における,k-匿名性を満たすランダム化手法"' コンピュータセキュリティシンポジウム2011論文集 情報処理学会シンポジウムシリーズ [CD-ROM] 第2011巻 第3号, 20111012, pp.450-455, 一般社団法人情報処理学会 *
CSNG201200161027; 菊池 亮 外2名: '"プライバシー保護されたデータに対するt検定手法"' 電子情報通信学会技術研究報告 ライフインテリジェンスとオフィス情報システム 第111巻 第470号, 20120301, pp.171-176, 社団法人電子情報通信学会 *
JPN6014050039; 五十嵐 大 外2名: '"数値属性における,k-匿名性を満たすランダム化手法"' コンピュータセキュリティシンポジウム2011論文集 情報処理学会シンポジウムシリーズ [CD-ROM] 第2011巻 第3号, 20111012, pp.450-455, 一般社団法人情報処理学会 *
JPN6014050042; 菊池 亮 外2名: '"プライバシー保護されたデータに対するt検定手法"' 電子情報通信学会技術研究報告 ライフインテリジェンスとオフィス情報システム 第111巻 第470号, 20120301, pp.171-176, 社団法人電子情報通信学会 *
JPN6014050044; 岡本 安晴: "プログラミングによる統計処理の実践的アプローチ Delphiで学ぶデータ分析法" 第1版, 19980320, pp.160-164, CQ出版株式会社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016002086A1 (ja) * 2014-07-04 2016-01-07 株式会社日立製作所 匿名化データ提供装置及び方法
JPWO2016002086A1 (ja) * 2014-07-04 2017-04-27 株式会社日立製作所 匿名化データ提供装置及び方法
CN105335896A (zh) * 2014-08-13 2016-02-17 国家电网公司 用于电网的多源异构数据处理方法及装置
US11176272B2 (en) * 2018-09-12 2021-11-16 The Nielsen Company (Us), Llc Methods, systems, articles of manufacture and apparatus to privatize consumer data
US11783085B2 (en) 2018-09-12 2023-10-10 The Nielsen Company (Us), Llc Methods, systems, articles of manufacture and apparatus to privatize consumer data
US11232179B2 (en) * 2019-03-22 2022-01-25 Microsoft Technology Licensing, Llc Automated user identification for cross-platform group and device collaboration
CN111784193A (zh) * 2020-07-17 2020-10-16 中国人民解放军国防科技大学 基于正态分布的产品性能一致性检验方法
CN111784193B (zh) * 2020-07-17 2024-03-26 中国人民解放军国防科技大学 基于正态分布的产品性能一致性检验方法

Also Published As

Publication number Publication date
JP5698167B2 (ja) 2015-04-08

Similar Documents

Publication Publication Date Title
Philips Have your cake and eat it too? Cointegration and dynamic inference from autoregressive distributed lag models
Ping et al. Datasynthesizer: Privacy-preserving synthetic datasets
Zhang et al. The use of summation to aggregate software metrics hinders the performance of defect prediction models
EP2814218B1 (en) Detecting anomalies in work practice data by combining multiple domains of information
JP5698167B2 (ja) データ検定装置、データ検定方法、およびプログラム
CN114303147A (zh) 用于查询敏感数据集的方法或系统
CN111971675A (zh) 数据产品发布方法或系统
US20060161527A1 (en) Preserving privacy when statistically analyzing a large database
EP3040900B1 (en) Data securing device, data securing program, and data securing method
Cook et al. Lost in aggregation: Improving event analysis with report‐level data
Park et al. Perturbed gibbs samplers for generating large-scale privacy-safe synthetic health data
Kuang et al. Can method data dependencies support the assessment of traceability between requirements and source code?
Wang et al. Fused lasso with the adaptation of parameter ordering in combining multiple studies with repeated measurements
Li et al. Sanitizing and minimizing databases for software application test outsourcing
Bhat et al. A data mining approach for data generation and analysis for digital forensic application
Bonofiglio et al. Recovery of original individual person data (IPD) inferences from empirical IPD summaries only: applications to distributed computing under disclosure constraints
JP7026653B2 (ja) クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
Zhao et al. Variable selection for recurrent event data with broken adaptive ridge regression
Sallam et al. Result-based detection of insider threats to relational databases
CN113642672A (zh) 医保数据的特征加工方法、装置、计算机设备及存储介质
Talha et al. Quality and Security in Big Data: Challenges as opportunities to build a powerful wrap-up solution.
Ding et al. TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on Large-Scale Microservice Systems
Goldstein et al. Effect of adjustment for case misclassification and infection date uncertainty on estimates of COVID-19 effective reproduction number
Grim et al. Statistical model of the 2001 Czech census for interactive presentation
JP6486865B2 (ja) データ撹乱装置、データ撹乱方法、データ撹乱プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150212

R150 Certificate of patent or registration of utility model

Ref document number: 5698167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150