JP2013178637A - データ検定装置、データ検定方法、およびプログラム - Google Patents
データ検定装置、データ検定方法、およびプログラム Download PDFInfo
- Publication number
- JP2013178637A JP2013178637A JP2012041607A JP2012041607A JP2013178637A JP 2013178637 A JP2013178637 A JP 2013178637A JP 2012041607 A JP2012041607 A JP 2012041607A JP 2012041607 A JP2012041607 A JP 2012041607A JP 2013178637 A JP2013178637 A JP 2013178637A
- Authority
- JP
- Japan
- Prior art keywords
- data
- average
- original data
- disturbance
- test statistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
【解決手段】データ検定装置10は正規分布に従う元データx’にラプラスノイズを加算して撹乱した撹乱データxと正規分布に従う元データy’にラプラスノイズを加算して撹乱した撹乱データyとを用いて元データx’の平均と元データy’の平均との間で有意な差があるか否かを検定する。検定統計量算出部100は撹乱データxと撹乱データyと相補誤差関数erfcと確率密度関数fを用いて尤度比を危険率が小さくなるように近似させて検定統計量を算出する。棄却限界値算出部200は有意水準αに基づいて棄却限界値を算出する。検定部300は検定統計量と棄却限界値を用いて元データx’の平均と元データy’の平均との間で有意な差があるか否かを検定する。
【選択図】図1
Description
[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
100,110 検定統計量算出部
200,210 棄却限界値算出部
300,310 検定部
400 撹乱データ記憶部
Claims (7)
- 平均μ1で分散σ1 2の正規分布に従う元データx’に平均0で分散2b2のラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データxと、平均μ2で分散σ2 2の正規分布に従う元データy’に前記ラプラスノイズを加算して撹乱した撹乱データyとを用いて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定するデータ検定装置であって、
平均μで分散σ2の正規分布に従うデータに平均0で分散2b2のラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数fは、相補誤差関数erfcを用いて
で表されるとして、
前記撹乱データxと前記撹乱データyと前記相補誤差関数erfcと前記確率密度関数fを用いて、前記元データx’の平均と前記元データy’の平均が等しい場合の尤度と、前記元データx’の平均と前記元データy’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出部と、
あらかじめ定めた有意水準αに基づいて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出部と、
前記検定統計量と前記棄却限界値に基づいて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定する検定部と、
を備えることを特徴とするデータ検定装置。 - 平均μ1で分散σ1 2の正規分布に従う元データx’に平均0で分散2b2のラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データxと、平均μ2で分散σ2 2の正規分布に従う元データy’に前記ラプラスノイズを加算して撹乱した撹乱データyとを用いて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定するデータ検定装置であって、
平均μで分散σ2の正規分布に従うデータに平均0で分散2b2のラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数fは、相補誤差関数erfcを用いて
で表されるとして、
前記撹乱データxと前記撹乱データyを用いて、前記元データx’の平均と前記元データy’の平均が等しい場合の尤度と、前記元データx’の平均と前記元データy’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出部と、
あらかじめ定めた有意水準αに基づいて、相補誤差関数erfcと前記確率密度関数fを用いて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出部と、
前記検定統計量と前記棄却限界値に基づいて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定する検定部と、
を備えることを特徴とするデータ検定装置。 - 請求項2に記載のデータ検定装置であって、
前記撹乱データxはm個の要素からなり、x ̄は前記撹乱データxの平均であり、前記撹乱データyはn個の要素からなり、y ̄は前記撹乱データyの平均であり、Xは確率密度関数f(x;0,σ1 2,b)に従う確率変数であり、X ̄は前記確率変数Xをm個取り出した平均であり、Yは確率密度関数f(y;0,σ2 2,b)に従う確率変数であり、Y ̄は前記確率変数Yをn個取り出した平均であり、確率密度関数ξは確率変数Ξが従う確率密度関数であり、確率変数Ξは
で表されるとして、
前記検定統計量算出部は、
を計算することにより、前記検定統計量を算出し、
前記棄却限界値算出部は、
を満たすγを前記棄却限界値として計算し、
前記検定部は、
前記検定統計量の絶対値が前記棄却限界値の絶対値よりも大きい場合には、前記元データx’の平均と前記元データy’の平均との間で有意な差があると判断する
ことを特徴とするデータ検定装置。 - 平均μ1で分散σ1 2の正規分布に従う元データx’に平均0で分散2b2のラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データxと、平均μ2で分散σ2 2の正規分布に従う元データy’に前記ラプラスノイズを加算して撹乱した撹乱データyとを用いて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定するコンピュータによるデータ検定方法であって、
平均μで分散σ2の正規分布に従うデータに平均0で分散2b2のラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数fは、相補誤差関数erfcを用いて
で表されるとして、
前記撹乱データxと前記撹乱データyと前記相補誤差関数erfcと前記確率密度関数fを用いて、前記元データx’の平均と前記元データy’の平均が等しい場合の尤度と、前記元データx’の平均と前記元データy’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出ステップと、
あらかじめ定めた有意水準αに基づいて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出ステップと、
前記検定統計量と前記棄却限界値に基づいて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定する検定ステップと、
を含むことを特徴とするデータ検定方法。 - 平均μ1で分散σ1 2の正規分布に従う元データx’に平均0で分散2b2のラプラス分布に従うノイズであるラプラスノイズを加算して撹乱した撹乱データxと、平均μ2で分散σ2 2の正規分布に従う元データy’に前記ラプラスノイズを加算して撹乱した撹乱データyとを用いて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定するコンピュータによるデータ検定方法であって、
平均μで分散σ2の正規分布に従うデータに平均0で分散2b2のラプラス分布に従うノイズを加算して撹乱した撹乱データの確率密度関数fは、相補誤差関数erfcを用いて
で表されるとして、
前記撹乱データxと前記撹乱データyを用いて、前記元データx’の平均と前記元データy’の平均が等しい場合の尤度と、前記元データx’の平均と前記元データy’の平均が等しくない場合の尤度との尤度比を、危険率が小さくなるように近似させて検定統計量を算出する検定統計量算出ステップと、
あらかじめ定めた有意水準αに基づいて、相補誤差関数erfcと前記確率密度関数fを用いて、前記検定統計量に対応する棄却限界値を算出する棄却限界値算出ステップと、
前記検定統計量と前記棄却限界値に基づいて、前記元データx’の平均と前記元データy’の平均との間で有意な差があるか否かを検定する検定ステップと、
を含むことを特徴とするデータ検定方法。 - 請求項1から4のいずれかに記載のデータ検定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012041607A JP5698167B2 (ja) | 2012-02-28 | 2012-02-28 | データ検定装置、データ検定方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012041607A JP5698167B2 (ja) | 2012-02-28 | 2012-02-28 | データ検定装置、データ検定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013178637A true JP2013178637A (ja) | 2013-09-09 |
JP5698167B2 JP5698167B2 (ja) | 2015-04-08 |
Family
ID=49270217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012041607A Active JP5698167B2 (ja) | 2012-02-28 | 2012-02-28 | データ検定装置、データ検定方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5698167B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016002086A1 (ja) * | 2014-07-04 | 2016-01-07 | 株式会社日立製作所 | 匿名化データ提供装置及び方法 |
CN105335896A (zh) * | 2014-08-13 | 2016-02-17 | 国家电网公司 | 用于电网的多源异构数据处理方法及装置 |
CN111784193A (zh) * | 2020-07-17 | 2020-10-16 | 中国人民解放军国防科技大学 | 基于正态分布的产品性能一致性检验方法 |
US11176272B2 (en) * | 2018-09-12 | 2021-11-16 | The Nielsen Company (Us), Llc | Methods, systems, articles of manufacture and apparatus to privatize consumer data |
US11232179B2 (en) * | 2019-03-22 | 2022-01-25 | Microsoft Technology Licensing, Llc | Automated user identification for cross-platform group and device collaboration |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040172401A1 (en) * | 2000-06-15 | 2004-09-02 | Peace Terrence B. | Significance testing and confidence interval construction based on user-specified distributions |
JP2010039756A (ja) * | 2008-08-05 | 2010-02-18 | Fuji Xerox Co Ltd | 独立性検定装置、データ解析装置、及び独立性検定プログラム |
-
2012
- 2012-02-28 JP JP2012041607A patent/JP5698167B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040172401A1 (en) * | 2000-06-15 | 2004-09-02 | Peace Terrence B. | Significance testing and confidence interval construction based on user-specified distributions |
JP2010039756A (ja) * | 2008-08-05 | 2010-02-18 | Fuji Xerox Co Ltd | 独立性検定装置、データ解析装置、及び独立性検定プログラム |
Non-Patent Citations (6)
Title |
---|
CSNB200100115001; 岡本 安晴: "プログラミングによる統計処理の実践的アプローチ Delphiで学ぶデータ分析法" 第1版, 19980320, pp.160-164, CQ出版株式会社 * |
CSNG201100778070; 五十嵐 大 外2名: '"数値属性における,k-匿名性を満たすランダム化手法"' コンピュータセキュリティシンポジウム2011論文集 情報処理学会シンポジウムシリーズ [CD-ROM] 第2011巻 第3号, 20111012, pp.450-455, 一般社団法人情報処理学会 * |
CSNG201200161027; 菊池 亮 外2名: '"プライバシー保護されたデータに対するt検定手法"' 電子情報通信学会技術研究報告 ライフインテリジェンスとオフィス情報システム 第111巻 第470号, 20120301, pp.171-176, 社団法人電子情報通信学会 * |
JPN6014050039; 五十嵐 大 外2名: '"数値属性における,k-匿名性を満たすランダム化手法"' コンピュータセキュリティシンポジウム2011論文集 情報処理学会シンポジウムシリーズ [CD-ROM] 第2011巻 第3号, 20111012, pp.450-455, 一般社団法人情報処理学会 * |
JPN6014050042; 菊池 亮 外2名: '"プライバシー保護されたデータに対するt検定手法"' 電子情報通信学会技術研究報告 ライフインテリジェンスとオフィス情報システム 第111巻 第470号, 20120301, pp.171-176, 社団法人電子情報通信学会 * |
JPN6014050044; 岡本 安晴: "プログラミングによる統計処理の実践的アプローチ Delphiで学ぶデータ分析法" 第1版, 19980320, pp.160-164, CQ出版株式会社 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016002086A1 (ja) * | 2014-07-04 | 2016-01-07 | 株式会社日立製作所 | 匿名化データ提供装置及び方法 |
JPWO2016002086A1 (ja) * | 2014-07-04 | 2017-04-27 | 株式会社日立製作所 | 匿名化データ提供装置及び方法 |
CN105335896A (zh) * | 2014-08-13 | 2016-02-17 | 国家电网公司 | 用于电网的多源异构数据处理方法及装置 |
US11176272B2 (en) * | 2018-09-12 | 2021-11-16 | The Nielsen Company (Us), Llc | Methods, systems, articles of manufacture and apparatus to privatize consumer data |
US11783085B2 (en) | 2018-09-12 | 2023-10-10 | The Nielsen Company (Us), Llc | Methods, systems, articles of manufacture and apparatus to privatize consumer data |
US11232179B2 (en) * | 2019-03-22 | 2022-01-25 | Microsoft Technology Licensing, Llc | Automated user identification for cross-platform group and device collaboration |
CN111784193A (zh) * | 2020-07-17 | 2020-10-16 | 中国人民解放军国防科技大学 | 基于正态分布的产品性能一致性检验方法 |
CN111784193B (zh) * | 2020-07-17 | 2024-03-26 | 中国人民解放军国防科技大学 | 基于正态分布的产品性能一致性检验方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5698167B2 (ja) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Philips | Have your cake and eat it too? Cointegration and dynamic inference from autoregressive distributed lag models | |
Ping et al. | Datasynthesizer: Privacy-preserving synthetic datasets | |
Zhang et al. | The use of summation to aggregate software metrics hinders the performance of defect prediction models | |
EP2814218B1 (en) | Detecting anomalies in work practice data by combining multiple domains of information | |
JP5698167B2 (ja) | データ検定装置、データ検定方法、およびプログラム | |
CN114303147A (zh) | 用于查询敏感数据集的方法或系统 | |
CN111971675A (zh) | 数据产品发布方法或系统 | |
US20060161527A1 (en) | Preserving privacy when statistically analyzing a large database | |
EP3040900B1 (en) | Data securing device, data securing program, and data securing method | |
Cook et al. | Lost in aggregation: Improving event analysis with report‐level data | |
Park et al. | Perturbed gibbs samplers for generating large-scale privacy-safe synthetic health data | |
Kuang et al. | Can method data dependencies support the assessment of traceability between requirements and source code? | |
Wang et al. | Fused lasso with the adaptation of parameter ordering in combining multiple studies with repeated measurements | |
Li et al. | Sanitizing and minimizing databases for software application test outsourcing | |
Bhat et al. | A data mining approach for data generation and analysis for digital forensic application | |
Bonofiglio et al. | Recovery of original individual person data (IPD) inferences from empirical IPD summaries only: applications to distributed computing under disclosure constraints | |
JP7026653B2 (ja) | クラスタリング装置、クラスタリング方法及びクラスタリングプログラム | |
Zhao et al. | Variable selection for recurrent event data with broken adaptive ridge regression | |
Sallam et al. | Result-based detection of insider threats to relational databases | |
CN113642672A (zh) | 医保数据的特征加工方法、装置、计算机设备及存储介质 | |
Talha et al. | Quality and Security in Big Data: Challenges as opportunities to build a powerful wrap-up solution. | |
Ding et al. | TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on Large-Scale Microservice Systems | |
Goldstein et al. | Effect of adjustment for case misclassification and infection date uncertainty on estimates of COVID-19 effective reproduction number | |
Grim et al. | Statistical model of the 2001 Czech census for interactive presentation | |
JP6486865B2 (ja) | データ撹乱装置、データ撹乱方法、データ撹乱プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141126 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5698167 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |