JP2013178637A

JP2013178637A - データ検定装置、データ検定方法、およびプログラム

Info

Publication number: JP2013178637A
Application number: JP2012041607A
Authority: JP
Inventors: Akira Kikuchi; 亮菊池; Masaru Igarashi; 大五十嵐; Akihiro Yamanaka; 章裕山中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-02-28
Filing date: 2012-02-28
Publication date: 2013-09-09
Anticipated expiration: 2032-02-28
Also published as: JP5698167B2

Abstract

【課題】元データを確率的な手法により秘匿しつつ統計学的な根拠をもって仮説が正しいか否かを判断する。
【解決手段】データ検定装置１０は正規分布に従う元データｘ’にラプラスノイズを加算して撹乱した撹乱データｘと正規分布に従う元データｙ’にラプラスノイズを加算して撹乱した撹乱データｙとを用いて元データｘ’の平均と元データｙ’の平均との間で有意な差があるか否かを検定する。検定統計量算出部１００は撹乱データｘと撹乱データｙと相補誤差関数ｅｒｆｃと確率密度関数ｆを用いて尤度比を危険率が小さくなるように近似させて検定統計量を算出する。棄却限界値算出部２００は有意水準αに基づいて棄却限界値を算出する。検定部３００は検定統計量と棄却限界値を用いて元データｘ’の平均と元データｙ’の平均との間で有意な差があるか否かを検定する。
【選択図】図１

Description

この発明は、確率的手法により秘匿したデータに対して、統計学的な根拠をもって仮説が正しいか否かを判断するデータ検定技術に関する。

近年、情報の電子化とインターネットの普及により、多種多様な個人情報を蓄積した大規模なデータベースの構築が行われている。これらの大量のデータから特徴を抽出して活用するためにデータマイニング技術の利用が普及している。一方で、個人情報保護や情報漏洩防止の観点から、データマイニング等の統計分析の分野においても、プライバシー保護の必要性が高まっている。

こういった背景により、プライバシー保護とデータ分析を両立する技術として、元データを確率的手法により秘匿しつつ統計分析を可能とする技術が提案されている。例えば、維持置換撹乱により元データを秘匿しつつクロス集計を可能とする技術がある（非特許文献１，４）。また、ノイズ加算により元データを秘匿しつつクロス集計を可能とする技術がある（非特許文献２，３）。

五十嵐大, 千田浩司, 高橋克巳, "多値属性に適用可能な効率的プライバシー保護クロス集計" CSS2008. 五十嵐大, 千田浩司, 高橋克巳, "数値属性における, k-匿名性を満たすランダム化手法", CSS2011. R. Agrawal, R. Srikant, "Privacy-preserving data mining", SIGMOD, ACM, 2000. R. Agrawal, R. Srikant, and D. Thomas, "Privacy Preserving OLAP", SIGMOD, ACM, 2005.

しかしながら、従来の技術では、元データを確率的手法により秘匿したデータ（以下、撹乱データという。）を用いて、統計的仮説検定（以下、単に検定という。）を行うことはできなかった。検定とは、ある仮説に従うと仮定された母集団から実際に観測された標本が抽出される確率を求め、その確率とあらかじめ定めた有意水準とを比較して、その仮説が正しいかどうかを統計学的に判断するための手法である。

元データは非可逆操作を行い秘匿されているため、撹乱データから元データを復元することはできない。したがって、撹乱データを用いて統計分析をしても、元データを用いた統計分析の結果とは異なる結果となる。そのため従来の技術では、撹乱データのみから統計学的な根拠をもって仮説が正しいか否かを主張することはできなかった。

この発明はこのような点に鑑みてなされたものであり、元データを確率的な手法により秘匿しつつ統計学的な根拠をもって仮説が正しいか否かを判断することができるデータ検定技術を提供することを目的とする。

上記の課題を解決するために、この発明のデータ検定装置は、平均μ_１で分散σ_１ ^２の正規分布に従う元データｘ’に平均０で分散２ｂ^２のラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データｘと、平均μ_２で分散σ_２ ^２の正規分布に従う元データｙ’に前記ラプラスノイズを加算して撹乱した撹乱データｙとを用いて、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があるか否かを検定する。平均μで分散σ^２の正規分布に従うデータに平均０で分散２ｂ^２のラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数ｆは、相補誤差関数ｅｒｆｃを用いて

と表されるとする。検定統計量算出部は、撹乱データｘと撹乱データｙと相補誤差関数ｅｒｆｃと確率密度関数ｆを用いて、元データｘ’の平均と元データｙ’の平均が等しい場合の尤度と、元データｘ’の平均と元データｙ’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する。棄却限界値算出部は、あらかじめ定めた有意水準αに基づいて、検定統計量に対応する棄却限界値を算出する。検定部は、検定統計量と棄却限界値に基づいて、元データｘ’の平均と元データｙ’の平均との間で有意な差があるか否かを検定する。

この発明によれば、元データを確率的な手法により秘匿しつつ統計学的な根拠をもって仮説が正しいか否かを判断することができる。

実施例１にかかるデータ検定装置の構成例を示すブロック図。実施例１にかかるデータ検定装置の動作例を示すフロー図。実施例２にかかるデータ検定装置の構成例を示すブロック図。実施例２にかかるデータ検定装置の動作例を示すフロー図。

実施例の説明に先立ち、この発明の基本的な考え方について説明する。一般的に、元データを確率的手法により秘匿しつつ統計分析する技術は、大きく２つの処理からなる。すなわち、元データに撹乱処理を施して秘匿する撹乱処理と、撹乱データに対して統計分析を行うことで統計結果を得る再構築処理である。撹乱処理では、元データに非可逆操作を施しデータの情報量を減少させる。これにより撹乱データから元データを復元することができなくなり、プライバシーを保護することができる。再構築処理は、撹乱処理の逆にあたる推定等を行い統計値のみを得る。撹乱データに含まれる個々のデータは情報量が減少しているが、全体の統計量としては撹乱処理の期待値に収束するため、撹乱データのみを用いて元データを用いる場合と同等の信頼性をもった統計分析を行うことが可能となる。

この発明における撹乱処理は、ラプラス分布に従うノイズであるラプラスノイズを加算する手法を用いる（詳細は、非特許文献２参照）。この発明における再構築処理は、検定法としてｔ検定を用いる。ｔ検定とは、正規分布に従う２つのデータの平均値に有意な差がないことを帰無仮説とする平均一致検定であり、帰無仮説が成り立つとした条件下での尤度と帰無仮説が成り立たない場合の尤度との比である尤度比を検定統計量として行う尤度比検定である。尤度比検定についての詳細は、「Robert V.H., Joeseph W. M., Allen T. C., Introduction to Mathematical Statistics, Prentice Hall, 2003」を参照されたい。ｔ検定では、まず、２つのデータから検定統計量を算出する。次に、あらかじめ定めた有意水準から棄却限界値を算出する。そして、検定統計量と棄却限界値を比較して、検定統計量が棄却限界値よりも大きければ２つのデータの平均が等しいという統計結果を出力する。有意水準とは、検定の正確さを表す定数であり、例えば有意水準を０．０５と設定した場合には、帰無仮説が成り立つにも関わらず、帰無仮説が成り立たないと判断されることを高々５％に抑えることを表している。

この発明では元データに撹乱処理を施して秘匿した撹乱データを用いて検定を行う。撹乱データはラプラスノイズが加算されているため、元データが正規分布に従っていたとしても正規分布には従わない。ｔ検定は正規分布に従うデータを用いることが前提であるため、撹乱データを用いてｔ検定を行うことはできない。なお、従来の技術でも撹乱データを用いた統計分析としてクロス集計を行うことは可能であった。しかし、従来技術によるクロス集計は定性的に元データのクロス集計結果と近い結果が得られるものの、定量的に真のクロス集計結果とどの程度近いかを求めることはできない。つまり、従来の技術によるクロス集計の結果であっても、統計学的な根拠をもって主張することはできなかった。

この発明は上記の課題を解決するために、まず、正規分布に従う元データにラプラスノイズを加算した撹乱データが従う分布の確率密度関数を導出する。そして、撹乱データの分布の場合の尤度比を計算する。しかしながら、撹乱データの従う確率密度関数は複雑な計算であり、数値計算により厳密な尤度比を算出することができない。そのためこの発明では、尤度比を危険率が小さくなるように近似させて検定統計量を導出する。危険率とは、本来は帰無仮説が成り立つにも関わらず帰無仮説が成り立たないという結果が出力される確率を表す値である。言い換えると、元データでは平均に有意な差がないにも関わらず有意な差があると判断される確率である。

尤度比検定においては、標本サイズを無限大にすれば、尤度比の対数の−２倍は漸近的にカイ二乗分布となることが知られている。これを利用して、実施例１では検定統計量として尤度比の対数の−２倍を算出し、棄却限界値としてカイ二乗値を算出することで検定を行う。実施例２では検定統計量をイェンセンの不等式を用いて近似させて算出し、その検定統計量に対応するように棄却限界値を算出することで検定を行う。

この発明の具体的な適用例を挙げる。ある新薬に血圧降下の効果があると統計学的な根拠をもって主張したいとする。そのためには、その新薬を投与した後の患者の血圧を統計分析し、血圧が下がったという分析結果が得られればよい。まず、新薬を投与した被験者集団の血圧値と偽薬を投与した被験者集団の血圧値という２種類の元データを収集する。血圧値等の生体情報はプライバシーを保護すべき情報と考えられるため、それぞれに秘匿処理を行い撹乱データのみを保持するものとする。その後、２つの撹乱データに対して、この発明のデータ検定技術を適用し、血圧値の平均に有意な差がないことを帰無仮説として検定を行う。検定の結果、平均に有意な差がある（つまり、帰無仮説が成り立たない）と判断された場合には、その新薬には血圧降下の効果があることを確認することができる。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

図１を参照して、この発明の実施例１に係るデータ検定装置１０の構成例を詳細に説明する。データ検定装置１０は、検定統計量算出部１００、棄却限界値算出部２００、検定部３００、撹乱データ記憶部４００を備える。

図２を参照して、データ検定装置１０の動作例を実際に行われる手続きの順に従って詳細に説明する。撹乱データ記憶部４００には、ｍ個の要素からなる撹乱データｘ＝（ｘ_１，ｘ_２，…，ｘ_ｍ）とｎ個の要素からなる撹乱データｙ＝（ｙ_１，ｙ_２，…，ｙ_ｎ）があらかじめ記憶されている。撹乱データｘは、平均μ_１で分散σ_１ ^２の正規分布に従う元データｘ’に平均０で分散２ｂ^２のラプラス分布に従うノイズであるラプラスノイズを加算して生成される。撹乱データｙは、平均μ_２で分散σ_２ ^２の正規分布に従う元データｙ’に平均０で分散２ｂ^２のラプラス分布に従うノイズであるラプラスノイズを加算して生成される。

撹乱データ記憶部４００は、例えば、ＲＡＭ（Random Access Memory）や、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、リレーショナルデータベースやキーバリューストアなどのミドルウェア、又は、ハードディスクや光ディスクなどの補助記憶装置により構成することができる。ここでは、撹乱データ記憶部４００をリレーショナルデータベースにより構成した場合を例として説明する。すなわち、撹乱データｘおよび撹乱データｙは複数行一列のテーブルに格納されている。例えば、属性と呼ばれる１つの項目について、１人もしくは複数人の個人ごとの属性値と呼ばれるデータが記入されているものとする。なお、この発明では、属性値は数値であるものとする。

平均μで分散σ^２の正規分布は、以下の式（１）で表される。

平均０で分散２ｂ^２のラプラス分布は、以下の式（２）で表される。

正規分布に従う元データに対してラプラス分布に従うノイズであるラプラスノイズを加算する方法についての詳細は非特許文献２を参照されたい。この方法によりラプラスノイズを加算された撹乱データはＰｋ−匿名性を満たすことが証明されている。Ｐｋ−匿名性とは、データを確率的に変更することにより、変更後のデータからある人のデータを１／ｋ以上の確率で当てることができないというプライバシー概念である。したがって、非特許文献２に記載の方法によれば元データのプライバシーを保護することができる。

検定統計量算出部１００は、撹乱データｘと撹乱データｙを用いて、元データｘ’の平均と元データｙ’の平均が等しい場合の尤度と、元データｘ’の平均と元データｙ’の平均が等しくない場合の尤度の尤度比を近似させて検定統計量Ａを算出する（Ｓ１００）。検定統計量Ａの算出は、より具体的には以下の手順により行う。まず、撹乱データの従う確率密度関数ｆを導出する。２つの確率変数の和である確率変数が従う確率密度関数は、それぞれの確率変数が従う確率密度関数の畳み込みとなることが知られている。したがって、確率密度関数ｆは、元データが従う正規分布の平均μと分散σ^２とラプラスノイズが従うラプラス分布のパラメータｂを用いて、以下の式（３）のように定義される。ｚは確率密度関数ｆに従う確率変数である。

ここで、ｅｒｆｃは相補誤差関数と呼ばれる関数であり、以下の式（４）により定義される。

次に、尤度関数Ｌを導出する。尤度とは標本から見た母集団分布がどの程度尤もらしいかを表す値である。尤度関数とは母集団分布を定義域として尤度を表す関数である。尤度関数は同時確率密度関数で与えられるが、各標本が互いに独立な同一の確率分布に従う場合には、それぞれの確率密度関数の積となる。撹乱データｘ＝（ｘ_１，ｘ_２，…，ｘ_ｍ）と撹乱データｙ＝（ｙ_１，ｙ_２，…，ｙ_ｎ）に対する尤度関数Ｌは、撹乱データｘの確率密度関数の母数をまとめてθ_１，撹乱データｙの確率密度関数の母数をまとめてθ_２とすると、以下の式（５）のように定義される。

続いて、尤度関数Ｌを用いて尤度比Λを定義する。尤度比とは、母集団に帰無仮説が成立している場合の尤度関数の上限を尤度関数全体の上限で除算したものである。確率密度関数の母集団空間をΘ、そのうち帰無仮説が成り立つ真部分集合をΘ_０として、尤度比Λは以下の式（６）のように定義される。

ｓｕｐ演算は集合の上限を求める演算である。式（６）では分母分子ともに尤度関数の上限を求める必要があることがわかる。このような計算は現実的に困難である。そこで、この実施例では、式（６）を変形させ、標本値を代入して算出すると尤度比Λよりも大きくなる値を検定統計量とする。そのために、確率密度関数ｆが平均を境にして対照かつ単調な関数の畳み込み積分であることを利用する。以下の通り、式（６）は式（７）のように変形することができる。

この実施例では、尤度比Λの対数の−２倍が、標本数が十分に多い場合には漸近的にカイ二乗分布に従うことを利用する。したがって、検定統計量Ａは、以下の式（８）を計算することにより算出する。

式（８）の第３項および第４項は最適化問題であるため数値計算による解の導出が困難である場合が考えられる。その場合には近似解等の計算可能な値で代用してもよい。例えば、２分法等の手法を用いて得られた解や、μ_１もしくはμ_２の代表値を選んで代入した値を用いることができる。

棄却限界値算出部２００は、あらかじめ定められた有意水準αに基づいて、検定統計量算出部１００の算出する検定統計量Ａに対応する棄却限界値βを算出する（Ｓ２００）。この実施例では、尤度比Λの対数の−２倍が、標本数が十分に多い場合には漸近的にカイ二乗分布に従うことを利用する。したがって、棄却限界値βは、自由度１かつ有意水準αのカイ二乗値である。カイ二乗値とは、カイ二乗分布の上側パーセント点である。有意水準αは一般的には０．０５に設定することが多い。つまり、帰無仮説が成り立つにも関わらず帰無仮説が成り立たないと判断される確率を高々５％に抑えるということである。

カイ二乗分布は、自由度をｑとして、以下の式（９）で表される。

自由度１かつ有意水準αのカイ二乗値である棄却限界値βは、以下の式（１０）を満たすβを求めることで算出することができる。

もしくは、カイ二乗分布の数表を参照してカイ二乗値を求めることもできる。カイ二乗分布の数表とは、有意水準と自由度を軸として、あらかじめ算出したカイ二乗値が記入されている数値表である。例えば、「“数表”、[online]、［平成２４年２月２０日検索］、インターネット<URL: http://case.f7.ems.okayama-u.ac.jp/statedu/table/index.html#chi2>（参考文献１）」で参照することができる。参考文献１では、縦軸が自由度を表し横軸が有意水準を表している。有意水準αを０．０５と定めた場合には、自由度１かつ有意水準０．０５のカイ二乗値は３．８４１であることがわかる。

検定部３００は、検定統計量算出部１００の算出した検定統計量Ａと棄却限界値算出部２００の算出した棄却限界値βとを比較する。Ａ＞βであれば、元データｘ’の平均と元データｙ’の平均とで有意な差があることを示す情報を出力する。逆にＡ≦βであれば、元データｘ’の平均と元データｙ’の平均とで有意な差が認められないことを示す情報を出力する（Ｓ３００）。

このように、この実施例のデータ検定装置１０によれば、尤度比Λを危険率が小さくなるように近似させて検定統計量Ａを算出することで、元データを確率的な手法により秘匿しつつ統計学的な根拠をもって元データｘ’の平均と元データｙ’の平均とが等しいか否かを判断することができる。また、検定統計量Ａが漸近的にカイ二乗分布に従うように変形しているため、撹乱データの分布の計算量を削減することができる。

実施例１では、検定統計量をカイ二乗分布に近似するように変形した。この近似は標本数が多い場合には正しいが、標本数が少ない場合には危険率が増大するおそれがある。この実施例では、危険率をより厳密に評価することで、標本数が少ない場合でも危険率が増大しない構成とする。ただし、実施例１と比較して撹乱データの分布の計算が複雑であり標本数が多い場合には計算量が増大するおそれがある。

図３を参照して、この発明の実施例２に係るデータ検定装置２０の構成例を詳細に説明する。データ検定装置２０は、検定統計量算出部１１０、棄却限界値算出部２１０、検定部３１０、撹乱データ記憶部４００を備える。

図４を参照して、データ検定装置２０の動作例を実際に行われる手続きの順に従って詳細に説明する。撹乱データ記憶部４００には、ｍ個の要素からなる撹乱データｘ＝（ｘ_１，ｘ_２，…，ｘ_ｍ）とｎ個の要素からなる撹乱データｙ＝（ｙ_１，ｙ_２，…，ｙ_ｎ）があらかじめ記憶されている。撹乱データ記憶部４００の構成は、実施例１と同様であるので、ここでは説明を省略する。

検定統計量算出部１１０は、撹乱データｘと撹乱データｙを用いて、元データｘ’の平均と元データｙ’の平均が等しい場合の尤度と、元データｘ’の平均と元データｙ’の平均が等しくない場合の尤度の尤度比を近似させて検定統計量Ｂを算出する（Ｓ１１０）。検定統計量Ｂの算出は、より具体的には以下の手順により行う。まず、ｘ￣を撹乱データｘの平均、ｙ￣を撹乱データｙの平均として、以下の式（１１）により検定統計量Ｂを算出する。

式（１１）は、以下の手順で導出することができる。まず、尤度比Λの対数をとったものを式（１２）で表すことができる。

ここで、ｌｏｇｆ（ｚ；μ，σ^２，ｂ）に−ｌｏｇを凸関数としてイェンセンの不等式を適用して式（１３）を導出する。

式（１３）を用いて式（１２）を変形すると式（１４）のようになる。

ｘ￣を撹乱データｘの平均、ｙ￣を撹乱データｙの平均として、上限を与えるμを求めると、第１項は式（１５）、第２，３項は式（１６）のようになる。

式（１４）を式（１５）（１６）を用いて変形すると式（１７）のようになる。

式（１７）の左辺を検定統計量として採用する。これにより、検定統計量Ｂを算出するための式（１１）を導出することができる。

棄却限界値算出部２１０は、あらかじめ定められた有意水準αに基づいて、検定統計量算出部１１０の算出する検定統計量Ｂに対応する棄却限界値γを算出する（Ｓ２１０）。棄却限界値γの算出は、より具体的には以下の手順により行う。まず、Ｘは確率密度関数ｆ（ｘ；０，σ_１ ^２，ｂ）に従う確率変数、Ｘ￣は確率変数Ｘをｍ個取り出した平均を表す確率変数とする。Ｙは確率密度関数ｆ（ｙ；０，σ_２ ^２，ｂ）に従う確率変数、Ｙ￣は確率変数Ｙをｎ個取り出した平均を表す確率変数とする。確率密度関数ｆは実施例１と同様であり、式（３）で表される。

次に、確率密度関数ξを定義する。確率密度関数ξは、以下の式（１８）により定義される確率変数Ξが従う確率密度関数である。

そして、棄却限界値γは、以下の式（１９）を満たすγを求めることで算出する。

検定部３１０は、検定統計量算出部１１０の算出した検定統計量Ｂと棄却限界値算出部２１０の算出した棄却限界値γとを比較する。｜Ｂ｜＞｜γ｜であれば、元データｘ’の平均と元データｙ’の平均とで有意な差があることを示す情報を出力する。｜Ｂ｜≦｜γ｜であれば、元データｘ’の平均と元データｙ’の平均とで有意な差が認められないことを示す情報を出力する（Ｓ３１０）。

このように、この実施例のデータ検定装置２０によれば、尤度比Λを適切な不等式を用いて計算可能な検定統計量Ｂに変形することで、元データを確率的な手法により秘匿しつつ統計学的な根拠をもって元データｘ’の平均と元データｙ’の平均とが等しいか否かを判断することができる。また、厳密に危険率を評価できるため、標本数が少ない場合でも危険率が増大するおそれがない。
［プログラム、記録媒体］
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１０，２０データ検定装置
１００，１１０検定統計量算出部
２００，２１０棄却限界値算出部
３００，３１０検定部
４００撹乱データ記憶部

Claims

平均μ_１で分散σ_１ ^２の正規分布に従う元データｘ’に平均０で分散２ｂ^２のラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データｘと、平均μ_２で分散σ_２ ^２の正規分布に従う元データｙ’に前記ラプラスノイズを加算して撹乱した撹乱データｙとを用いて、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があるか否かを検定するデータ検定装置であって、
平均μで分散σ^２の正規分布に従うデータに平均０で分散２ｂ^２のラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数ｆは、相補誤差関数ｅｒｆｃを用いて

で表されるとして、
前記撹乱データｘと前記撹乱データｙと前記相補誤差関数ｅｒｆｃと前記確率密度関数ｆを用いて、前記元データｘ’の平均と前記元データｙ’の平均が等しい場合の尤度と、前記元データｘ’の平均と前記元データｙ’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出部と、
あらかじめ定めた有意水準αに基づいて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出部と、
前記検定統計量と前記棄却限界値に基づいて、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があるか否かを検定する検定部と、
を備えることを特徴とするデータ検定装置。
平均μ_１で分散σ_１ ^２の正規分布に従う元データｘ’に平均０で分散２ｂ^２のラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データｘと、平均μ_２で分散σ_２ ^２の正規分布に従う元データｙ’に前記ラプラスノイズを加算して撹乱した撹乱データｙとを用いて、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があるか否かを検定するデータ検定装置であって、
平均μで分散σ^２の正規分布に従うデータに平均０で分散２ｂ^２のラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数ｆは、相補誤差関数ｅｒｆｃを用いて

で表されるとして、
前記撹乱データｘと前記撹乱データｙを用いて、前記元データｘ’の平均と前記元データｙ’の平均が等しい場合の尤度と、前記元データｘ’の平均と前記元データｙ’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出部と、
あらかじめ定めた有意水準αに基づいて、相補誤差関数ｅｒｆｃと前記確率密度関数ｆを用いて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出部と、
前記検定統計量と前記棄却限界値に基づいて、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があるか否かを検定する検定部と、
を備えることを特徴とするデータ検定装置。
請求項１に記載のデータ検定装置であって、
前記撹乱データｘはｍ個の要素からなり、前記撹乱データｙはｎ個の要素からなるとして、
前記検定統計量算出部は、

を計算することにより、前記検定統計量を算出し、
前記棄却限界値算出部は、

を満たすβを前記棄却限界値として計算し、
前記検定部は、
前記検定統計量が前記棄却限界値よりも大きい場合には、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があると判断する
であることを特徴とするデータ検定装置。
請求項２に記載のデータ検定装置であって、
前記撹乱データｘはｍ個の要素からなり、ｘ￣は前記撹乱データｘの平均であり、前記撹乱データｙはｎ個の要素からなり、ｙ￣は前記撹乱データｙの平均であり、Ｘは確率密度関数ｆ（ｘ；０，σ_１ ^２，ｂ）に従う確率変数であり、Ｘ￣は前記確率変数Ｘをｍ個取り出した平均であり、Ｙは確率密度関数ｆ（ｙ；０，σ_２ ^２，ｂ）に従う確率変数であり、Ｙ￣は前記確率変数Ｙをｎ個取り出した平均であり、確率密度関数ξは確率変数Ξが従う確率密度関数であり、確率変数Ξは

で表されるとして、
前記検定統計量算出部は、

を計算することにより、前記検定統計量を算出し、
前記棄却限界値算出部は、

を満たすγを前記棄却限界値として計算し、
前記検定部は、
前記検定統計量の絶対値が前記棄却限界値の絶対値よりも大きい場合には、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があると判断する
ことを特徴とするデータ検定装置。
平均μ_１で分散σ_１ ^２の正規分布に従う元データｘ’に平均０で分散２ｂ^２のラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データｘと、平均μ_２で分散σ_２ ^２の正規分布に従う元データｙ’に前記ラプラスノイズを加算して撹乱した撹乱データｙとを用いて、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があるか否かを検定するコンピュータによるデータ検定方法であって、
平均μで分散σ^２の正規分布に従うデータに平均０で分散２ｂ^２のラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数ｆは、相補誤差関数ｅｒｆｃを用いて

で表されるとして、
前記撹乱データｘと前記撹乱データｙと前記相補誤差関数ｅｒｆｃと前記確率密度関数ｆを用いて、前記元データｘ’の平均と前記元データｙ’の平均が等しい場合の尤度と、前記元データｘ’の平均と前記元データｙ’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出ステップと、
あらかじめ定めた有意水準αに基づいて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出ステップと、
前記検定統計量と前記棄却限界値に基づいて、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があるか否かを検定する検定ステップと、
を含むことを特徴とするデータ検定方法。
平均μ_１で分散σ_１ ^２の正規分布に従う元データｘ’に平均０で分散２ｂ^２のラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データｘと、平均μ_２で分散σ_２ ^２の正規分布に従う元データｙ’に前記ラプラスノイズを加算して撹乱した撹乱データｙとを用いて、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があるか否かを検定するコンピュータによるデータ検定方法であって、
平均μで分散σ^２の正規分布に従うデータに平均０で分散２ｂ^２のラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数ｆは、相補誤差関数ｅｒｆｃを用いて

で表されるとして、
前記撹乱データｘと前記撹乱データｙを用いて、前記元データｘ’の平均と前記元データｙ’の平均が等しい場合の尤度と、前記元データｘ’の平均と前記元データｙ’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出ステップと、
あらかじめ定めた有意水準αに基づいて、相補誤差関数ｅｒｆｃと前記確率密度関数ｆを用いて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出ステップと、
前記検定統計量と前記棄却限界値に基づいて、前記元データｘ’の平均と前記元データｙ’の平均との間で有意な差があるか否かを検定する検定ステップと、
を含むことを特徴とするデータ検定方法。
請求項１から４のいずれかに記載のデータ検定装置としてコンピュータを機能させるためのプログラム。