JP2014211761A - Analyzer, analysis method, and analysis program - Google Patents

Analyzer, analysis method, and analysis program Download PDF

Info

Publication number
JP2014211761A
JP2014211761A JP2013087754A JP2013087754A JP2014211761A JP 2014211761 A JP2014211761 A JP 2014211761A JP 2013087754 A JP2013087754 A JP 2013087754A JP 2013087754 A JP2013087754 A JP 2013087754A JP 2014211761 A JP2014211761 A JP 2014211761A
Authority
JP
Japan
Prior art keywords
data
analysis
sample
test
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013087754A
Other languages
Japanese (ja)
Inventor
山中 章裕
Akihiro Yamanaka
章裕 山中
亮 菊池
Akira Kikuchi
亮 菊池
大 五十嵐
Masaru Igarashi
大 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013087754A priority Critical patent/JP2014211761A/en
Publication of JP2014211761A publication Critical patent/JP2014211761A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • G06F19/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the accuracy of statistical data analysis in which security is enhanced, and achieve improvement of the accuracy of hypothesis testing to concealed data.SOLUTION: An analyzer 10 extracts sample data from among data items to be analyzed. Then, the analyzer 10 asymptotically expands an inverse function of a cumulative distribution function by using the reliability of standard normal distribution of the extracted sample data, and performs a single-sample average match test for testing whether or not the average of the sample data matches a predetermined value by using the expanded inverse function.

Description

本発明は、解析装置、解析方法及び解析プログラムに関する。   The present invention relates to an analysis apparatus, an analysis method, and an analysis program.

近年、BigDataと呼ばれる大量のデータが注目を集めている。このような大量のデータに対して仮説検定などの統計的データ解析を施し、結果を利用する試みが進んでいる。その一方で、解析対象データに対する個人情報の保護などセキュリティ強化も求められており、解析対象データを秘匿化した撹乱データに対する仮説検定も必要となっている。仮説検定では、母集団からサンプリングした標本から統計量を求め、標本に関する性質(例えば、平均値が100より大きいか等)を統計学的に評価することができる。   In recent years, a large amount of data called BigData has attracted attention. Attempts have been made to perform statistical data analysis such as hypothesis testing on such a large amount of data and use the results. On the other hand, security enhancement such as protection of personal information for analysis target data is also required, and a hypothesis test is also required for disturbance data in which analysis target data is concealed. In the hypothesis test, a statistic can be obtained from a sample sampled from the population, and the property related to the sample (for example, whether the average value is greater than 100) can be statistically evaluated.

仮説検定には様々な手法があり、その中でも基本的で応用範囲が広い検定手法として、中心極限定理を用いた1標本平均一致検定手法が知られている。ここで1標本平均一致検定手法とは、平均と分散を持つと仮定した単一の母集団から標本を抽出し、分散が既知であると仮定したときに平均がある値に一致するか否かを判断する手法である。   There are various hypothesis tests. Among them, a one-sample average coincidence test technique using the central limit theorem is known as a basic test technique with a wide range of applications. Here, the one-sample mean-match test method refers to whether or not the mean agrees with a certain value when a sample is extracted from a single population assumed to have mean and variance, and the variance is assumed to be known. It is a method to judge.

また、解析の対象となるデータが個人情報を含むデータである場合には、データに対して非可逆な確率的な操作を施して、個人情報の漏洩を防止することが知られている。例えば、個人情報の漏洩を防止する手法として、どのような攻撃者も1/k以上の確率で秘密データと撹乱データとを対応付けられないというk−匿名性を確率的指標に拡張した「Pk−匿名性」というプライバシー指標が提案されている。   In addition, when the data to be analyzed is data including personal information, it is known to perform an irreversible stochastic operation on the data to prevent leakage of personal information. For example, as a technique for preventing leakage of personal information, “Pk” is an extension of k-anonymity to a stochastic index, in which any attacker cannot associate secret data with disturbance data with a probability of 1 / k or more. A privacy index called “anonymity” has been proposed.

また、個人情報の漏洩を防止する手法として、例えば、解析の対象となるデータのうち、数値属性のデータに対して、特定のパラメータを持つLaplace分布に従う確率変数を値(以下、ノイズと呼ぶ)として加える技術が知られている。   In addition, as a technique for preventing leakage of personal information, for example, a random variable according to a Laplace distribution having a specific parameter with respect to numerical attribute data among data to be analyzed is a value (hereinafter referred to as noise). The technology to add as is known.

特開2011−100116号公報JP 2011-100116 A

P. Samarati and L. Sweeney. Generalizing Data to Provide Anonymity When Disclosing Information(Extended abstract). Proc. Of the 17 th ACM-SIGMOD-SIGACT-SIGART Symposium on the Principles of Database Systems, p. 188, Seattle, WA, 1998.P. Samarati and L. Sweeney. Generalizing Data to Provide Anonymity When Disclosing Information (Extended abstract). Proc. Of the 17 th ACM-SIGMOD-SIGACT-SIGART Symposium on the Principles of Database Systems, p. 188, Seattle, WA, 1998. 五十嵐 大、千田 浩司、高橋 克己. k−匿名性の確率的指標への拡張とその適用例.CSS2009,2009Dai Igarashi, Koji Senda, Katsumi Takahashi. Extension to the probabilistic index of k-anonymity and its application example. CSS2009, 2009 五十嵐 大、千田 浩司、高橋 克己. 数値属性における,k−匿名性を満たすためのランダム化手法. CSS2011,2011Dai Igarashi, Koji Senda, Katsumi Takahashi. Randomization method for satisfying k-anonymity in numerical attributes. CSS2011, 2011 菊池 亮、山中 章裕、五十嵐 大.プライバシー保護されたデータに対するt検定手法.LOIS2012,2012Ryo Kikuchi, Akihiro Yamanaka, Dai Igarashi. A t-test method for privacy-protected data. LOIS2012, 2012 竹内啓他. 統計学辞典.東宝経済新報社,1989Takeuchi Kei et al. Statistical Dictionary. Toho Keizai Shinposha, 1989 E.A.Cornish and R.A.Fisher. Moments and cumulants in the specification of distributions. Revue de l´Institut International de Statistique, 5: 307-320,1937E.A.Cornish and R.A.Fisher. Moments and cumulants in the specification of distributions. Revue de l´Institut International de Statistique, 5: 307-320, 1937

しかしながら、従来の中心極限定理を用いた1標本平均一致検定手法では、解析対象となる標本数の多少が、算出される危険率の値に影響を及ぼす場合があり、仮説検定の精度に問題がある場合があった。また、撹乱データに対する精度の高い1標本平均一致検定の手法が確立していないため、セキュリティを強化することができない場合があった。   However, in the conventional one-sample average coincidence test method using the central limit theorem, the number of samples to be analyzed may affect the calculated risk factor, and there is a problem in the accuracy of the hypothesis test. There was a case. In addition, there is a case where security cannot be strengthened because a highly accurate one-sample average coincidence test method for disturbance data has not been established.

そこで、この発明は、セキュリティを強化した統計的データ解析の精度を向上させ、秘匿化されたデータに対する仮説検定の精度向上を実現する統計的データ解析技術を提供することを目的とする。   Therefore, an object of the present invention is to provide a statistical data analysis technique that improves the accuracy of statistical data analysis with enhanced security and realizes an improvement in accuracy of hypothesis testing for concealed data.

上述した課題を解決し、目的を達成するため、解析装置は、解析の対象となるデータのなかから標本データを抽出する抽出部と、前記抽出部によって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析部と、を備えたことを特徴とする。   In order to solve the above-described problems and achieve the object, the analysis apparatus includes an extraction unit that extracts sample data from the data to be analyzed, and the reliability of the standard normal distribution of the sample data extracted by the extraction unit. Analysis that performs asymptotic expansion of the inverse function of the cumulative distribution function using degree, and uses the expanded inverse function to test whether the average of the sample data matches a predetermined value And a section.

また、解析方法は、解析の対象となるデータのなかから標本データを抽出する抽出工程と、前記抽出工程によって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析工程と、を含んだことを特徴とする。   The analysis method includes an extraction step of extracting sample data from the data to be analyzed, and an inverse function of the cumulative distribution function using the reliability of the standard normal distribution of the sample data extracted by the extraction step. And an analysis step of performing a one-sample average match test for testing whether or not the average of the sample data matches a predetermined value using the expanded inverse function. .

また、解析プログラムは、解析の対象となるデータのなかから標本データを抽出する抽出ステップと、前記抽出ステップによって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析ステップと、をコンピュータに実行させる。   The analysis program also includes an extraction step for extracting sample data from the data to be analyzed, and an inverse function of the cumulative distribution function using the reliability of the standard normal distribution of the sample data extracted by the extraction step. And an analysis step for performing a one-sample average match test for testing whether or not the average of the sample data matches a predetermined value using the developed inverse function.

本願に開示する解析装置、解析方法及び解析プログラムは、セキュリティを強化した統計的データ解析の精度を向上させ、秘匿化されたデータに対する仮説検定の精度向上を実現する統計的データ解析技術を提供することが可能である。   The analysis device, analysis method, and analysis program disclosed in the present application provide statistical data analysis technology that improves the accuracy of statistical data analysis with enhanced security and improves the accuracy of hypothesis testing for concealed data. It is possible.

図1は、第一の実施形態に係る解析装置の構成を説明するための図である。FIG. 1 is a diagram for explaining the configuration of the analysis apparatus according to the first embodiment. 図2は、解析対象データ記憶部によって記憶される解析対象データの一例を示す図である。FIG. 2 is a diagram illustrating an example of analysis target data stored in the analysis target data storage unit. 図3は、Pk匿名性を満たす撹乱処理について説明する図である。FIG. 3 is a diagram illustrating a disturbance process that satisfies Pk anonymity. 図4は、秘密データに確率変数を加える撹乱処理について図である。FIG. 4 is a diagram showing a disturbance process for adding a random variable to secret data. 図5は、1標本平均一致検定の処理例について説明する図である。FIG. 5 is a diagram for explaining a processing example of the one-sample average match test. 図6は、仮説検定における2つの誤りについて説明する図である。FIG. 6 is a diagram for explaining two errors in the hypothesis test. 図7は、片側検定の実験結果例を示す図である。FIG. 7 is a diagram illustrating an example of an experimental result of a one-sided test. 図8は、第一の実施形態に係る解析装置における解析処理の流れを説明するためのフローチャートである。FIG. 8 is a flowchart for explaining the flow of analysis processing in the analysis apparatus according to the first embodiment. 図9は、解析プログラムを実行するコンピュータを示す図である。FIG. 9 is a diagram illustrating a computer that executes an analysis program.

以下に添付図面を参照して、この発明に係る解析装置、解析方法及び解析プログラムの実施形態を詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。   Exemplary embodiments of an analysis apparatus, an analysis method, and an analysis program according to the present invention will be described below in detail with reference to the accompanying drawings. In addition, this invention is not limited by this embodiment.

[第一の実施形態]
以下の実施形態では、第一の実施形態に係る解析装置の構成、解析装置による処理の流れを順に説明し、最後に第一の実施形態による効果を説明する。
[First embodiment]
In the following embodiments, the configuration of the analysis apparatus according to the first embodiment and the flow of processing by the analysis apparatus will be described in order, and finally the effects of the first embodiment will be described.

[解析装置の構成]
最初に、図1を用いて、解析装置10の構成を説明する。図1は、第一の実施形態に係る解析装置10の構成を説明するための図である。図1に示すように、解析装置10は、通信処理部11、制御部12および記憶部13を有する。
[Configuration of analyzer]
Initially, the structure of the analyzer 10 is demonstrated using FIG. FIG. 1 is a diagram for explaining a configuration of an analysis apparatus 10 according to the first embodiment. As illustrated in FIG. 1, the analysis device 10 includes a communication processing unit 11, a control unit 12, and a storage unit 13.

通信処理部11は、接続される端末装置20との間でやり取りする各種情報に関する通信を制御する。例えば、通信処理部11は、解析対象データに対する解析処理の要求を端末装置20から受信する。また、例えば、通信処理部11は、解析処理の処理結果を端末装置20に対して送信する。   The communication processing unit 11 controls communication related to various types of information exchanged with the connected terminal device 20. For example, the communication processing unit 11 receives a request for analysis processing for the analysis target data from the terminal device 20. For example, the communication processing unit 11 transmits the processing result of the analysis process to the terminal device 20.

記憶部13は、図1に示すように、解析対象データ記憶部13a、撹乱データ記憶部13bを有する。記憶部13は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。   As shown in FIG. 1, the storage unit 13 includes an analysis target data storage unit 13a and a disturbance data storage unit 13b. The storage unit 13 is, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk.

解析対象データ記憶部13aは、解析の対象となる解析対象データ(以下では、適宜、秘密データという)を記憶する。例えば、解析対象データ記憶部13aは、図2に示すように、社員を一意に識別する「社員ID」と、社員の住所を示す「住所」と、社員の年齢を示す「年齢」と、社員の最高血圧の数値を示す「最高血圧」とを対応付けて記憶する。   The analysis target data storage unit 13a stores analysis target data to be analyzed (hereinafter referred to as secret data as appropriate). For example, as shown in FIG. 2, the analysis target data storage unit 13a includes an “employee ID” that uniquely identifies an employee, an “address” that indicates the address of the employee, an “age” that indicates the age of the employee, Are stored in association with “maximum blood pressure” indicating the numerical value of the maximum blood pressure.

解析対象データ記憶部13aに記憶される秘密データは、例えば、「識別子」、「準識別子」、「センシティブ属性」の3つに分かれる。識別子とは、1つのレコードとその持ち主を一意的に結び付けるもので、例えば、図2における「社員ID」のようなものが該当する。識別子は、通常、撹乱処理の前段階で削除される。   The secret data stored in the analysis target data storage unit 13a is divided into, for example, “identifier”, “quasi-identifier”, and “sensitive attribute”. The identifier uniquely associates one record with its owner, and corresponds to, for example, “employee ID” in FIG. The identifier is usually deleted before the disturbance process.

準識別子とは、複数組み合わせることでレコードの持ち主が特定可能なもので、例えば、図2における「住所」や「年齢」などである。準識別子は、撹乱処理の対象になる。準識別子に関する情報は、入手が容易であるため、一般には秘密にしておくことが不可能であるが、これらを組み合わせることで、仮に識別子が削除されていてもレコードの持ち主を特定される恐れがある。そこで準識別子を左図のような方法で撹乱し、レコードの持ち主を特定できないようにする。準識別子は、撹乱データ公開後のデータ分析では不可欠なものと考えらえるため、完全に削除してしまうとデータ公開の意味がなくなってしまう場合がある。   The quasi-identifier is one that can identify the owner of a record by combining a plurality of quasi-identifiers, such as “address” and “age” in FIG. The quasi-identifier is subject to disturbance processing. Since information on quasi-identifiers is easy to obtain, it is generally impossible to keep them secret. However, combining them may lead to the identification of the record owner even if the identifiers are deleted. is there. Therefore, the quasi-identifier is disturbed by the method shown in the left figure so that the owner of the record cannot be specified. Since the quasi-identifier is considered to be indispensable in the data analysis after the disturbance data is disclosed, if it is completely deleted, the meaning of the data disclosure may be lost.

センシティブ属性とは、秘密にしたいデータであり、例えば、図2における「血圧」のようなものであり、センシティブ属性も撹乱操作の対象になり得まるが、撹乱しない場合もある。つまり、ある属性が準識別子であるか、センシティブ属性であるかは問題に応じて決めることであり、場合によっては「準識別子でありセンシティブ属性である」こともあり得る。また、撹乱操作は、基本的にデータ分析の有用性を失わせるため、準識別子と考えにくいのであれば、撹乱せずに残しておいた方がよい。本実施形態では「準識別子」と「センシティブ属性」を撹乱操作の対象とする。ただし、仮説検定で利用するのは「センシティブ属性」のみで、かつセンシティブ属性が数値属性であると仮定している。例えば、数値属性の準識別子(年齢等)が存在している場合、その準識別子に関して仮説検定を実施することが可能であるが、データ分析の目的としては一般的でない。   The sensitive attribute is data to be kept secret, for example, “blood pressure” in FIG. 2, and the sensitive attribute may be a target of the disturbance operation, but may not be disturbed. That is, whether an attribute is a quasi-identifier or a sensitive attribute is determined according to the problem, and may be “a quasi-identifier and a sensitive attribute” in some cases. In addition, since the disturbance operation basically loses the usefulness of data analysis, if it is difficult to consider it as a quasi-identifier, it is better to leave it undisturbed. In this embodiment, “quasi-identifier” and “sensitive attribute” are targets of the disturbance operation. However, it is assumed that only the “sensitive attribute” is used in the hypothesis test, and the sensitive attribute is a numerical attribute. For example, when a quasi-identifier (such as age) of a numerical attribute exists, a hypothesis test can be performed on the quasi-identifier, but this is not general for the purpose of data analysis.

撹乱データ記憶部13bは、後述する撹乱部12aによって撹乱処理によりノイズが付加された撹乱データを記憶する。なお、撹乱処理については、後の撹乱部12aの説明で詳述する。   The disturbance data storage unit 13b stores disturbance data to which noise is added by a disturbance process by a disturbance unit 12a described later. The disturbing process will be described in detail in the description of the disturbing unit 12a later.

図1の説明に戻って、制御部12は、撹乱部12aと、抽出部12b、解析部12cとを有する。ここで、制御部12は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。   Returning to the description of FIG. 1, the control unit 12 includes a disturbance unit 12a, an extraction unit 12b, and an analysis unit 12c. Here, the control unit 12 is an electronic circuit such as a CPU (Central Processing Unit) or MPU (Micro Processing Unit), or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

撹乱部12aは、秘密データうち、数値に関するデータに、特定のパラメータを持つ分布に従う確率変数を付加する。例えば、撹乱部12aは、図3に示すように、秘密データのうち、数値属性のデータに対して特定のパラメータを持つLaplace分布に従う確率変数を値(ノイズ)として加える撹乱処理を行うことで、Pk匿名性を満たす撹乱データを生成する。その後、撹乱部12aは、生成した撹乱データを撹乱データ記憶部13bに格納する。   The disturbing unit 12a adds a random variable according to a distribution having a specific parameter to data relating to a numerical value among the secret data. For example, as shown in FIG. 3, the disturbing unit 12a performs a disturbing process of adding a random variable according to a Laplace distribution having a specific parameter as data (noise) among the secret data, as shown in FIG. Disturbance data that satisfies Pk anonymity is generated. Thereafter, the disturbance unit 12a stores the generated disturbance data in the disturbance data storage unit 13b.

ここで、図4を用いて、秘密データに確率変数を加える撹乱処理例について説明する。図4に示すように、秘密データの値として、「10」、「15」、「13」、「9」、「21」があるものとする。そして、確率変数をXとして、各秘密データにXを加える。この結果、撹乱データとして、「8」、「17」、「13」、「9」、「18」が生成される。ここで、例えば、Xが従う確率分布をμとすると、秘密データ「10」が撹乱データ「8」に変化する確率は、P(10+X=8)=P(X=−2)=μ(−2)となる。   Here, a disturbance processing example for adding a random variable to secret data will be described with reference to FIG. As shown in FIG. 4, it is assumed that secret data values include “10”, “15”, “13”, “9”, and “21”. Then, X is added to each secret data, where X is a random variable. As a result, “8”, “17”, “13”, “9”, and “18” are generated as the disturbance data. Here, for example, if the probability distribution followed by X is μ, the probability that secret data “10” changes to disturbance data “8” is P (10 + X = 8) = P (X = −2) = μ (− 2).

抽出部12bは、解析の対象となるデータのなかから標本データを抽出する。具体的には、抽出部12bは、撹乱データ記憶部13bに記憶された撹乱データのうち、n個の標本データを抽出し、解析部12cに標本データを通知する。   The extraction unit 12b extracts sample data from the data to be analyzed. Specifically, the extraction unit 12b extracts n sample data from the disturbance data stored in the disturbance data storage unit 13b, and notifies the analysis unit 12c of the sample data.

解析部12cは、抽出部12aによって抽出された標本データの標準正規分布の信頼度(例えば、後述するz(δ))を利用して累積分布関数の逆関数(例えば、後述するF(δ)−1)を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う。 The analysis unit 12c uses the reliability of the standard normal distribution of the sample data extracted by the extraction unit 12a (for example, z (δ) to be described later) (for example, F n (δ to be described later). ) -1 ) Asymptotically expanded, and using the expanded inverse function, a one-sample average match test is performed to test whether the average of the sample data matches a predetermined value.

例えば、解析部12cは、標本データの標準正規分布の信頼度z(δ)を利用する形で、Cornish−Fisher(コーニッシュフィッシャ)展開により累積分布関数の逆関数F(δ)−1を展開し、該逆関数F(δ)−1を用いて、1標本平均一致検定を行う。また、例えば、解析部12cは、信頼度として、1の値を有意水準αの値で減算した100×(1−α)%点を用いて、1標本平均一致検定を行う。 For example, the analysis unit 12c expands the inverse function F n (δ) −1 of the cumulative distribution function by Cornish-Fisher expansion using the reliability z (δ) of the standard normal distribution of the sample data. Then, a one-sample average match test is performed using the inverse function F n (δ) −1 . Further, for example, the analysis unit 12c performs a one-sample average coincidence test using 100 × (1-α)% points obtained by subtracting the value of 1 by the value of the significance level α as the reliability.

ここで、解析部12cにより実行される処理を説明する前に、1標本平均一致検定について説明する。ここで1標本平均一致検定とは、平均と分散を持つと仮定した単一の母集団から標本を抽出し、分散が既知であると仮定したときに平均がある値に一致するかどうかを判断する手法である。   Here, before describing the processing executed by the analysis unit 12c, the one-sample average match test will be described. Here, the one-sample mean-match test is a sample from a single population that is assumed to have a mean and variance, and determines whether the mean matches a certain value when the variance is assumed to be known. It is a technique to do.

従来、1標本平均一致検定では、中心極限定理を用いることが一般的であった。中心極限定理は、標本数nを無限とした場合に、標本平均と真の平均の誤差が標準正規分布に従うことを利用するものであるが、収束速度については特に保証していないため、nが小さい場合には標本平均と真の平均がどの程度ずれるのかが不明確である。   Conventionally, it has been common to use the central limit theorem in the one-sample mean agreement test. The central limit theorem makes use of the fact that when the number of samples n is infinite, the error between the sample mean and the true mean follows a standard normal distribution. If it is small, it is unclear how much the sample average deviates from the true average.

特に、上記した撹乱処理を行う場合には、秘密データが正規分布に従うと仮定できても、撹乱操作のために加えるノイズの影響で撹乱データが一般に正規分布から離れてしまう。このため、標本データ数が少ない場合の1標本平均一致検定における中心極限定理の利用は適切でない場合がある。   In particular, when performing the above-described disturbance processing, even if it can be assumed that the secret data follows a normal distribution, the disturbance data generally deviates from the normal distribution due to the influence of noise applied for the disturbance operation. For this reason, the use of the central limit theorem in the one-sample average coincidence test when the number of sample data is small may not be appropriate.

ここで、図5の例を用いて、一般的な1標本平均一致検定の処理例を説明する。図5の例では、秘密データが従う分布の標準偏差σが既知であるものとする。そして、秘密データからn個の標本データZ、Z、・・・、Zを抽出する。そして、下記(1)式および(2)式を計算する。ここで、μの平均と想定される値である。μは、問題に応じて与えられるものとする。μは、多くの場合現実に与えられることがないため、何らかの値で代用する。例えば、解析対象のデータが、年収に関するデータであれば、日本全体の年収の平均などを与える。 Here, a processing example of a general one-sample average match test will be described using the example of FIG. In the example of FIG. 5, it is assumed that the standard deviation σ of the distribution that the secret data follows is known. Then, n sample data Z 1 , Z 2 ,..., Z n are extracted from the secret data. Then, the following equations (1) and (2) are calculated. Here, it is a value assumed to be the average of μ 0 . μ 0 is given according to the problem. Since μ 0 is not actually given in many cases, some value is substituted. For example, if the data to be analyzed is data related to annual income, an average of annual income for Japan as a whole is given.

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

そして、有意水準αの値を決め、標本統計量であるsとz(1−α)の大小を比較する。なお、ここでz(1−α)とは、標準正規分布の信頼度である「100×(1−α)%点」であり、例えば、α=0.05のとき、z(0.95)≒1.64となる。 Then, the value of the significance level α is determined, and the sample statistic s n is compared with the magnitude of z (1-α). Here, z (1-α) is “100 × (1-α)% point” which is the reliability of the standard normal distribution. For example, when α = 0.05, z (0.95). ) ≈1.64.

比較の結果から、帰無仮説μ=μと、対立仮説μ>μのどちらが正しいかを判断する。ここで、μとは、前述したように、秘密データの平均と想定される値であり、μとは、抽出したn個の平均の値である。つまり、比較の結果、s>z(1−α)の場合には、「もし、秘密データの平均がμであるなら、s>z(1−α)となる確率が高々αである。従って、実際には秘密データの平均はμではない。すなわち、帰無仮説が正しくないものと判断する。通常は、対立仮説が主張したい命題である。 From the comparison result, it is determined whether the null hypothesis μ = μ 0 or the alternative hypothesis μ> μ 0 is correct. Here, μ 0 is a value assumed to be the average of secret data, as described above, and μ is an average value of n extracted data. That is, if s n > z (1-α) as a result of comparison, “if the average of the secret data is μ 0 , the probability that s n > z (1-α) is at most α Therefore, in practice, the average of secret data is not μ 0 , that is, it is determined that the null hypothesis is not correct, which is usually the proposition that the alternative hypothesis wants to claim.

ここで、図6を用いて仮説検定における2つの誤りについて説明する。図6に示すように、仮説検定における2つの誤りには、第一種過誤と、第二種過誤がある。つまり、第一種過誤とは、真の状態として帰無仮説が正しい場合であって、かつ、検定結果が対立仮説を正しいとみなした場合、すなわち、帰無仮説が正しいが、対立仮説が正しいと判断してしまった場合における判断の誤りのことをいう。そして、この第一種過誤が生じる確率を危険率といい、危険率の上限を有意水準という。   Here, two errors in the hypothesis test will be described with reference to FIG. As shown in FIG. 6, the two errors in the hypothesis test include a first type error and a second type error. In other words, type I error is when the null hypothesis is correct as a true state, and the test result regards the alternative hypothesis as correct, that is, the null hypothesis is correct but the alternative hypothesis is correct. This is an error in judgment when it is judged. The probability that this type 1 error will occur is called the risk factor, and the upper limit of the risk factor is called the significance level.

また、第二種過誤とは、真の状態として対立仮説が正しい場合であって、かつ、検定結果が帰無仮説を正しいとみなした場合、すなわち、対立仮説が正しいが、帰無仮説が正しいと判断してしまった場合における判断の誤りのことをいう。第一種過誤が生じる確率と、第二種過誤が生じる確率を同時に下げることはない、いわゆるトレードオフの関係である。ただし、通常は危険率の上限(有意水準)を一定とした上で、検出力を最大化するような検定を行うことが望ましい。   The second type error is when the alternative hypothesis is correct as a true state and the test result regards the null hypothesis as correct, that is, the alternative hypothesis is correct but the null hypothesis is correct. This is an error in judgment when it is judged. This is a so-called trade-off relationship in which the probability of the first type error and the probability of the second type error are not lowered at the same time. However, it is usually desirable to perform a test that maximizes the power of detection while keeping the upper limit (significance level) of the risk factor constant.

上記したように、標本データ数が少ない場合の1標本平均一致検定における中心極限定理の利用は適切でない場合がある。これは、標本データ数が十分大きい場合には、与えられる有意水準αに対し、中心極限定理によりsが標準正規分布に従うといえるため、標準正規分布の100×(1−α)%点と、標本データから計算するsの大小を比較すればよいが、標本データ数が小さい場合には、sが標準正規分布に従うといえないからである。すなわち、標本データ数が小さい場合には、中心極限定理では与えられない優位水準を達成しているかどうかが不明であり、検定の信頼性が低い。つまり、sの分布の仮定ができないので、sの分布の100×(1−α)%点を厳密に求めることができない。ここで検出力とは、真の状態として対立仮説が正しく、検定結果として対立仮説が正しい(例えば、図6の例では、右下の「○」の部分に該当)とみなす確率のことである。 As described above, the use of the central limit theorem in the one-sample average coincidence test when the number of sample data is small may not be appropriate. This is because when the number of sample data is sufficiently large, it can be said that s n follows the standard normal distribution by the central limit theorem for a given significance level α, and therefore, 100 × (1-α)% points of the standard normal distribution The magnitudes of s n calculated from the sample data may be compared, but when the number of sample data is small, it cannot be said that s n follows the standard normal distribution. That is, when the number of sample data is small, it is unclear whether or not the superiority level not given by the central limit theorem is achieved, and the reliability of the test is low. That is, since it can not assume the distribution of s n, it is impossible to exactly determine the 100 × (1-α)% point of the distribution of s n. Here, the power is the probability that the alternative hypothesis is correct as a true state and the alternative hypothesis is correct as a test result (for example, in the example of FIG. 6, it corresponds to the “o” portion at the lower right). .

例えば、α=0.05として、中心極限定理に従い標準正規分布の95%点を用いてしまうと、その点はsにとって90%点かもしれないし、99%点かもしれない。すなわち、危険率を求めることができないため、検定の信頼性が損なわれる。 For example, the alpha = 0.05, the results using a 95% point of the standard normal distribution in accordance with the central limit theorem, to might take 90% point to the point s n, may 99% point. That is, since the risk factor cannot be obtained, the reliability of the test is impaired.

そこで、解析部12cでは、Cornish−Fisher展開と呼ばれる手法により、撹乱データの累積分布関数の逆関数を展開することで、仮説検定における100(1−α)%点を求める。   Therefore, the analysis unit 12c obtains 100 (1-α)% points in the hypothesis test by developing an inverse function of the cumulative distribution function of the disturbance data by a method called Cornish-Fisher expansion.

まず、解析部12cは、抽出部12bが抽出した仮説検定のためのn個の標本データを受信する。そして、解析部12cは、データ(秘密データ、撹乱データ等に依らず、一般のデータ)を表す確率変数をX(i=1・・・n)とし、その平均と標準偏差(いずれも母集団平均・標準偏差、すなわち、サンプリングから求められるものではなく、母集団が従う分布)からそれぞれ平均μ、標準偏差σとし、下記(3)、(4)式を計算する。 First, the analysis unit 12c receives n sample data for hypothesis testing extracted by the extraction unit 12b. Then, the analysis unit 12c sets X i (i = 1... N) as a random variable representing data (general data regardless of secret data, disturbance data, etc.), and the average and standard deviation (both are the mother data). The following formulas (3) and (4) are calculated by setting the mean μ and standard deviation σ from the group mean / standard deviation, ie, the distribution followed by the population, not obtained from sampling, respectively.

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

解析部12cは、このSが従う分布の累積分布関数をFとする。すなわち、Sの確率密度関数をfnとしたとき、以下の(5)式で表されるものとする。なお、(5)式における一番左のP[S≦τ]は、S≦τとなる確率の意味である。 Analyzing unit 12c, the cumulative distribution function of the distribution of the S n follows the F n. That is, when the probability density function of S n and fn, and those represented by the following equation (5). Note that the leftmost P [S n ≦ τ] in the equation (5) means the probability of S n ≦ τ.

Figure 2014211761
Figure 2014211761

ここで、解析部12cは、Fに対してCornish−Fisher展開を行うと、δ=1−αとして、以下の(6)式で、Sの100×(1−α)%点を表現することができる。 Here, the analysis unit 12c, when the Cornish-Fisher expansion on F n, as [delta] = 1-alpha, by the following equation (6), representing the 100 × (1-α)% point S n can do.

Figure 2014211761
Figure 2014211761

ここで、上記の(6)式におけるキュムラントについて説明する。まず、モーメントを定義する。確率変数Xに対し、n次のモーメントは、Xの期待値、すなわちXの確率密度関数をfとしたとき、下記(7)式のように定義される。以下では、μ=E[X]と表記する。このとき、4次までのキュムラントk(i=1、2、3、4)については、以下の(8)式〜(11)式で定義される。 Here, the cumulant in the above equation (6) will be described. First, define the moment. For the random variable X, the n-th moment is defined as the following equation (7), where x is the expected value of Xn , that is, the probability density function of X is f. Hereinafter, μ n = E [X n ] is expressed. At this time, cumulants k i up to the fourth order (i = 1, 2, 3, 4) are defined by the following formulas (8) to (11).

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

上記した(6)式については、中心極限定理を高次項まで近似したものと考えられる。つまり、n→∞で、中心極限定理と同じように、標準正規分布の100×δ%点z(δ)に収束する。しかし、(6)式をそのまま用いても、必ずしも危険率を下げる効果がない。つまり、中心極限定理と比較して危険率を下げるには、F(δ)−1>z(δ)となるようにする必要があるが、上記の(6)式の右辺第二項以降の符号は、z(δ)の大きさによって正の場合も負の場合もあり得る。 With regard to the above equation (6), it is considered that the central limit theorem is approximated to higher order terms. That is, n → ∞ converges to the 100 × δ% point z (δ) of the standard normal distribution as in the central limit theorem. However, using the formula (6) as it is does not necessarily have the effect of reducing the risk factor. That is, in order to lower the risk factor compared to the central limit theorem, it is necessary to satisfy F n (δ) −1 > z (δ). The sign of may be positive or negative depending on the magnitude of z (δ).

このため、解析部12cは、片側検定問題の場合は、(6)式の変わりに、下記(12)式を用いる。(7)式もn→∞で、(6)式と同じ速さでz(δ)に収束する。また、解析部12cは、両側検定問題の場合は、(6)式の変わりに、下記(13)式を用いる。   Therefore, the analysis unit 12c uses the following equation (12) instead of the equation (6) in the case of a one-sided test problem. Expression (7) is also n → ∞, and converges to z (δ) at the same speed as Expression (6). The analysis unit 12c uses the following equation (13) instead of the equation (6) in the case of a two-sided test problem.

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

また、秘密データを表す確率変数をX、撹乱操作で加えるノイズを表す確率変数をYとし、それぞれのi次キュムラントをι、λとすると、撹乱データZ=X+Yのi次キュムラントκがκ=ι+λとして表現できる。 Further, if the random variable representing the secret data is X, the random variable representing the noise added by the disturbance operation is Y, and the respective i-th order cumulants are ι i and λ i , the i-th order cumulant κ i of the disturbance data Z = X + Y is obtained. It can be expressed as κ i = ι i + λ i .

これを用いて、下記(14)式および(15)式で表されるSnおよび撹乱データZの平均の100×(1−α)%点を上記の式(12)もしくは式(13)により近似することで、撹乱データに関する1標本平均値検定を実現することができる。   Using this, the average 100 × (1-α)% point of Sn and disturbance data Z expressed by the following formulas (14) and (15) is approximated by the above formula (12) or formula (13). By doing so, it is possible to realize a one-sample average test for disturbance data.

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

このように、第一の実施形態に係る解析装置10では、標本平均検定の信頼度向上が可能となる。つまり、中心極限定理では、上記の(6)式における右辺第一項のみによる近似を行うのに対し、第一の実施形態に係る解析装置10では、第二項以降の項を絶対値にした上記の(6)式および(7)式を用いて、第二項以降の項を利用することで、危険率を下げ、標本平均検定の信頼度向上が可能となる。   As described above, the analysis apparatus 10 according to the first embodiment can improve the reliability of the sample average test. In other words, in the central limit theorem, approximation is performed using only the first term on the right side in the above equation (6), whereas in the analysis apparatus 10 according to the first embodiment, the terms after the second term are absolute values. By using the above-mentioned formulas (6) and (7) and using the second and subsequent terms, the risk factor can be lowered and the reliability of the sample average test can be improved.

また、第一の実施形態に係る解析装置10では、Cornish−Fisher展開と呼ばれる手法により累積分布関数を展開している。Cornish−Fisher展開では、今回のように累積分布関数を陽に求めることが困難な場合に有効であるが、そのまま用いると「仮説検定における危険率を下げる」という効果が生じない場合があるため、上記したように、危険率が下がるような補正を行っている。   In the analysis apparatus 10 according to the first embodiment, the cumulative distribution function is developed by a technique called Cornish-Fisher expansion. The Cornish-Fisher expansion is effective when it is difficult to obtain the cumulative distribution function explicitly as in this case, but if used as it is, the effect of “lowering the risk factor in the hypothesis test” may not occur. As described above, correction is performed so that the risk rate decreases.

以下では、仮説検定の処理について説明するが、片側検定問題を扱う場合と両側検定問題を扱う場合の処理例についてそれぞれ説明する。前提として、秘密データは正規分布に従うものとし、撹乱処理で付加するノイズはLaplaceノイズであるものとする。   In the following, the hypothesis testing process will be described, but a processing example in the case of handling a one-sided test problem and a case of handling a two-sided test problem will be described. As a premise, the secret data is assumed to follow a normal distribution, and the noise added by the disturbance processing is assumed to be Laplace noise.

まず、片側検定問題を扱う場合の処理例について説明する。秘密データを表す確率変数をXとしたとき、Xが従う正規分布はN(μ,σ)、すなわち、以下の(16)式の確率密度関数fで表されるものとする。 First, a processing example when handling a one-sided test problem will be described. When a random variable representing secret data is X, the normal distribution followed by X is represented by N (μ, σ 2 ), that is, the probability density function f X of the following equation (16).

Figure 2014211761
Figure 2014211761

また、撹乱操作で加えるノイズを表す確率変数をYとしたとき、Yが従うLaplaceノイズは、以下の(17)式の確率密度関数fで表される。 Further, when a random variable representing noise added by the disturbance operation is Y, Laplace noise followed by Y is represented by a probability density function fY of the following equation (17).

Figure 2014211761
Figure 2014211761

このとき、上記の(17)式の「b」は、下記(18)式でもとめられるものであるとすれば、Pk匿名性が満たされる。すなわち、どのような攻撃者も1/k以上の確率で秘密データと撹乱データを対応付けられない。なお、(18)式において、|R|は、表の行数であり、νは、秘密データ(数値)の値域を示す。また、確率変数Xと確率変数Yを加えたZ=X+Yが撹乱データとなる。   At this time, if “b” in the above equation (17) is also obtained by the following equation (18), Pk anonymity is satisfied. That is, no attacker can associate secret data with disturbance data with a probability of 1 / k or more. In equation (18), | R | is the number of rows in the table, and ν is the range of secret data (numerical values). Further, Z = X + Y obtained by adding the random variable X and the random variable Y becomes disturbance data.

Figure 2014211761
Figure 2014211761

撹乱データからn個の標本を採るものとする。ここで、sを下記(19)式および(20)式で定義する。ここでは、μ´=μであって、μをZの平均値と定義し、σ´を下記(21)式で表される、Zの標準偏差と定義する。 Let n samples be taken from the disturbance data. We define a s n below (19) and (20). Here, μ ′ = μ, μ is defined as an average value of Z, and σ ′ is defined as a standard deviation of Z expressed by the following equation (21).

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

このとき、上記の(12)式は、下記(22)式のようになる。ここで、下記の式(22)中のγは、下記(23)式で求められる。 At this time, the above expression (12) becomes the following expression (22). Here, γ 4 in the following equation (22) is obtained by the following equation (23).

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

上記の式(22)を用いると、有意水準αの片側検定問題として、帰無仮説H:μ´=μと、対立仮説H:μ´>μの2つの仮説からなる仮説検定を構築できる。実際にサンプリングしたデータをz(i=1,・・・,n)とし、sを下記(24)式で定義する。このときに、もしs>F(δ)−1(δ=1−α)であれば、帰無仮説を棄却し、対立仮説を受理する。そうでなければ、帰無仮説を受理する。 Using the above equation (22), as a one-sided test problem of significance level α, a hypothesis test consisting of two hypotheses of null hypothesis H 0 : μ ′ = μ 0 and alternative hypothesis H 1 : μ ′> μ 0 Can be built. The actually sampled data is defined as z i (i = 1,..., N), and s n is defined by the following equation (24). At this time, if s 0 > F n (δ) −1 (δ = 1−α), the null hypothesis is rejected and the alternative hypothesis is accepted. Otherwise, accept the null hypothesis.

Figure 2014211761
Figure 2014211761

例えば、特定の薬を投与した後の最高血圧が有意に上昇したか否かという検定の場合であって、μを最高血圧の平均(薬を投与する前の平均や、一般の平均値等を用いる)とし、μ´を標本データの最高血圧の平均とし、s>F(δ)−1であれば、帰無仮説を棄却し、s>F(δ)−1でなければ、帰無仮説を受理する。つまり、ここで帰無仮説の棄却とは、もし投与前と投与後の平均が同じだとしたら、100×(1−α)%の確率でしか生じない事象が生じた。従って、投与後の最高血圧が投与前に比べて有意に上昇したと判断することを意味し、帰無仮説の受理とは、投与後の最高血圧が投与前に比べて変化していないと判断することを意味する。 For example, in the case of a test whether or not the systolic blood pressure significantly increased after administration of a specific drug, μ 0 is the average of the systolic blood pressure (average before administration of the drug, general average value, etc. And μ ′ is the average of the systolic blood pressure of the sample data. If s 0 > F n (δ) −1 , the null hypothesis is rejected, and s 0 > F n (δ) −1 Accepts the null hypothesis. In other words, the rejection of the null hypothesis is an event that occurs only with a probability of 100 × (1-α)% if the average before and after administration is the same. Therefore, it means that it is judged that the systolic blood pressure after administration has increased significantly compared to before administration, and acceptance of the null hypothesis means that the systolic blood pressure after administration has not changed compared to before administration. It means to do.

ここで、片側検定について、上記検定処理を行った場合の実験結果例を図7に示す。図7は、片側検定の実験結果例を示す図である。図7の例では、乱数から生成した撹乱データの95%点を菱形で示し、中心極限定理の95%点(標準分布の95%点)を四角で示し、本実施形態に係る解析装置10の手法による95%点を三角で示す。また、乱数から生成した撹乱データの95%点は、10000回Sを計算し、9500番目の値を表示している。また、図7において、縦軸は、95%点の値を示すものであり、横軸は、標本数を示すものである。 Here, FIG. 7 shows an example of an experimental result when the above-described test processing is performed for the one-side test. FIG. 7 is a diagram illustrating an example of an experimental result of a one-sided test. In the example of FIG. 7, the 95% point of the disturbance data generated from the random number is indicated by a rhombus, the 95% point of the central limit theorem (the 95% point of the standard distribution) is indicated by a square, and the analysis apparatus 10 according to the present embodiment The 95% point by the method is indicated by a triangle. Moreover, 95% point of the disturbance data generated from random numbers, and calculates a 10000 S n, displaying the 9500 th values. In FIG. 7, the vertical axis indicates the value of the 95% point, and the horizontal axis indicates the number of samples.

図7に示すように、標本数によらず、本実施形態に係る解析装置10の手法による95%点の値が、中心極限定理の95%点の値よりも大きいことが分かる。この値が大きいほど、危険率が低くなるので、本実施形態に係る解析装置10では中心極限定理を用いる場合と比較して、常に危険率を低くすることが可能である。   As shown in FIG. 7, regardless of the number of samples, it can be seen that the 95% point value obtained by the method of the analysis apparatus 10 according to the present embodiment is larger than the 95% point value of the central limit theorem. The larger the value, the lower the risk factor. Therefore, in the analysis apparatus 10 according to the present embodiment, it is possible to always reduce the risk factor as compared with the case where the central limit theorem is used.

次に、両側検定問題を扱う場合の処理例について説明する。両側検定問題を扱う場合においても、上記の片側検定問題を扱う場合と同様に、上記の(17)式におけるパラメータbを上記の(18)式により決定し、上記の(19)式および(20)式でSnを定義する。このとき、上記の(13)式は、下記(25)式のようになる。ここで、上記の式(22)中のγは、下記(26)式で求められる。 Next, a processing example when dealing with a two-sided test problem will be described. Also in the case of dealing with the two-sided test problem, the parameter b in the above equation (17) is determined by the above equation (18) as in the case of dealing with the above one-sided test problem, and the above equations (19) and (20 ) Define Sn. At this time, the above expression (13) becomes the following expression (25). Here, γ 4 in the above equation (22) is obtained by the following equation (26).

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

上記の式(25)を用いると、有意水準αの両側検定問題として、帰無仮説H:μ´=μと、対立仮説H:μ´≠μの2つの仮説からなる仮説検定を構築できる。そして、Sを計算し、下記(27)式もしくは下記(28)式が成り立つか判定する。なお、(27)式および(28)式において、δ=1−α/2となる。下記(27)式もしくは下記(28)式が成り立つ場合には、帰無仮説を棄却し、成り立たない場合には、帰無仮説を受理する。例えば、特定の薬を投与した後の血圧に、投与前と比べて有意な差があるか否かといった検定問題に利用可能である。 Using the above equation (25), as a two-sided test problem of significance level α, a hypothesis test consisting of two hypotheses: null hypothesis H 0 : μ ′ = μ 0 and alternative hypothesis H 1 : μ ′ ≠ μ 0 Can be built. And S0 is calculated and it is determined whether the following (27) Formula or (28) Formula is satisfied. In the equations (27) and (28), δ = 1−α / 2. If the following formula (27) or the following formula (28) holds, the null hypothesis is rejected, and if it does not hold, the null hypothesis is accepted. For example, it can be used for the test problem of whether or not there is a significant difference in blood pressure after administration of a specific drug compared to before administration.

Figure 2014211761
Figure 2014211761

Figure 2014211761
Figure 2014211761

このように、第一の実施形態に係る解析装置10では、「秘匿化された(撹乱された)データを精度良く統計的データ解析(仮説検定)できる。例えば、医療分野において、Pk匿名性を保証する範囲で、標本データに基づく仮説の確からしさを精度良く検定することが可能となる。   As described above, in the analysis apparatus 10 according to the first embodiment, “anonymized (disturbed) data can be accurately statistical data analyzed (hypothesis test). For example, in the medical field, Pk anonymity is obtained. It is possible to accurately test the accuracy of hypotheses based on sample data within the guaranteed range.

[解析装置による処理]
次に、図8を用いて、第一の実施形態に係る解析装置10の処理を説明する。図8は、第一の実施形態に係る解析装置10における解析処理の流れを説明するためのフローチャートである。
[Processing by analyzer]
Next, processing of the analysis apparatus 10 according to the first embodiment will be described with reference to FIG. FIG. 8 is a flowchart for explaining the flow of analysis processing in the analysis apparatus 10 according to the first embodiment.

図8に示すように、解析装置10の撹乱部12aは、端末装置20から解析要求を受け付けると(ステップS101)、解析対象となる秘密データを解析対象データ記憶部13aから読み出す(ステップS102)。   As shown in FIG. 8, when the disturbance unit 12a of the analysis device 10 receives an analysis request from the terminal device 20 (step S101), the disturbing unit 12a reads secret data to be analyzed from the analysis target data storage unit 13a (step S102).

そして、撹乱部12aは、読み出した秘密データに対してLaplaceノイズを付加して撹乱データを生成する(ステップS103)。そして、解析部12cは、撹乱データからn個の標本データを抽出する(ステップS104)。そして、解析部12cは、上記した(1)式および(2)式を用いて、検定統計量「s」を計算する(ステップS105)。 And the disturbance part 12a adds a Laplace noise with respect to the read secret data, and produces | generates disturbance data (step S103). And the analysis part 12c extracts n sample data from disturbance data (step S104). Then, the analysis unit 12c calculates the test statistic “s n ” using the above-described equations (1) and (2) (step S105).

その後、解析部12cは、sとz(1−α)の大小を比較する(ステップS106)。この結果、解析部12cは、s>z(1−α)であると判定した場合には(ステップS107肯定)、対立仮説が正しいと判定する(ステップS108)。また、s>z(1−α)ではないと判定した場合には(ステップS107否定)、帰無仮説が正しいと判定する(ステップS109)。そして、解析部12cは、解析結果を端末装置20に対して出力する(ステップS110)。 Then, the analysis unit 12c compares the magnitude of s n and z (1-α) (step S106). As a result, if the analysis unit 12c determines that s n > z (1-α) (Yes in step S107), the analysis unit 12c determines that the alternative hypothesis is correct (step S108). If it is determined that s n > z (1-α) is not satisfied (No at Step S107), it is determined that the null hypothesis is correct (Step S109). And the analysis part 12c outputs an analysis result with respect to the terminal device 20 (step S110).

例えば、解析部12cは、解析結果として、特定の病気に罹っている人々の血圧が、血圧の平均値と比較して有意な差があるかどうかや、特定の薬を投与した後の被験者の血圧が、血圧の平均値と比較して有意な差があるかどうかなどを出力する。   For example, the analysis unit 12c analyzes whether the blood pressure of people suffering from a specific disease has a significant difference compared to the average value of the blood pressure, Whether the blood pressure is significantly different from the average value of the blood pressure is output.

[第一の実施形態の効果]
上述してきたように、第一の実施形態にかかる解析装置10では、解析の対象となるデータのなかから標本データを抽出し、抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う。これにより、セキュリティを強化した統計的データ解析の精度を向上させ、秘匿化されたデータに対する仮説検定の精度向上を実現することが可能である。
[Effect of the first embodiment]
As described above, in the analysis apparatus 10 according to the first embodiment, sample data is extracted from data to be analyzed, and accumulated using the reliability of the standard normal distribution of the extracted sample data. An asymptotic expansion is performed on the inverse function of the distribution function, and a one-sample average match test is performed to test whether the average of the sample data matches a predetermined value using the expanded inverse function. As a result, the accuracy of statistical data analysis with enhanced security can be improved, and the accuracy of hypothesis testing for concealed data can be improved.

また、第一の実施形態にかかる解析装置10では、解析の対象となるデータのうち、数値に関するデータに、特定のパラメータを持つ分布に従う確率変数を付加し、確率変数が付加された解析対象データから標本データを抽出する。このため、データを秘匿化し、セキュリティを強化することが可能である。   Further, in the analysis apparatus 10 according to the first embodiment, the analysis target data in which a random variable according to a distribution having a specific parameter is added to data related to a numerical value among the data to be analyzed, and the random variable is added. Extract sample data from. For this reason, it is possible to conceal data and strengthen security.

また、第一の実施形態にかかる解析装置10では、Cornish−Fisher展開により累積分布関数の逆関数を展開し、1標本平均一致検定を行う。このため、累積分関数を陽に求めることが可能である。   Further, in the analysis apparatus 10 according to the first embodiment, the inverse function of the cumulative distribution function is developed by Cornish-Fischer expansion, and a one-sample average match test is performed. For this reason, it is possible to obtain the cumulative function explicitly.

また、第一の実施形態にかかる解析装置10では、信頼度として、任意に設定された有意水準αから求められる信頼度を利用して累積分布関数の逆関数を漸近展開し、1標本平均一致検定を行う。例えば、解析装置10では、標準正規分布の100×(1−α)%点を求め、100×(1−α)%点を利用して、1標本平均一致検定を実施する。このため、セキュリティを強化した統計的データ解析の精度を向上させ、秘匿化されたデータに対する仮説検定の精度向上を実現することが可能である。   Further, in the analysis apparatus 10 according to the first embodiment, as the reliability, the inverse function of the cumulative distribution function is asymptotically developed using the reliability obtained from the arbitrarily set significance level α, and the one-sample average match Perform the test. For example, the analysis apparatus 10 obtains 100 × (1-α)% points of the standard normal distribution, and performs a one-sample average coincidence test using the 100 × (1-α)% points. For this reason, it is possible to improve the accuracy of statistical data analysis with enhanced security and to improve the accuracy of hypothesis testing for concealed data.

[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、撹乱部12aと解析部12bを統合してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the disturbance unit 12a and the analysis unit 12b may be integrated. Further, all or any part of each processing function performed in each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.

また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。   Also, among the processes described in the present embodiment, all or part of the processes described as being performed automatically can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.

[プログラム]
また、上記実施形態において説明した解析装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、第一の実施形態に係る解析装置10が実行する処理をコンピュータが実行可能な言語で記述した解析プログラムを作成することもできる。この場合、コンピュータが解析プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる解析プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録され解析プログラムをコンピュータに読み込ませて実行することにより上記第一の実施形態と同様の処理を実現してもよい。以下に、図2に示した解析装置10と同様の機能を実現する解析プログラムを実行するコンピュータの一例を説明する。
[program]
In addition, it is possible to create a program in which processing executed by the analysis apparatus 10 described in the above embodiment is described in a language that can be executed by a computer. For example, an analysis program in which processing executed by the analysis apparatus 10 according to the first embodiment is described in a language that can be executed by a computer can be created. In this case, when the computer executes the analysis program, the same effect as that of the above embodiment can be obtained. Furthermore, the same processing as that of the first embodiment may be realized by recording the analysis program on a computer-readable recording medium, recording the analysis program on the recording medium, and reading and executing the analysis program on the computer. Good. Hereinafter, an example of a computer that executes an analysis program that realizes the same function as the analysis apparatus 10 illustrated in FIG. 2 will be described.

図9は、解析プログラムを実行するコンピュータ1000を示す図である。図9に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。   FIG. 9 is a diagram illustrating a computer 1000 that executes an analysis program. As illustrated in FIG. 9, the computer 1000 includes, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.

メモリ1010は、図9に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図9に例示するように、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、図9に例示するように、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、図9に例示するように、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、図9に例示するように、例えばディスプレイ1061に接続される。   The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012 as illustrated in FIG. The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1031 as illustrated in FIG. The disk drive interface 1040 is connected to the disk drive 1041 as illustrated in FIG. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041. The serial port interface 1050 is connected to a mouse 1051 and a keyboard 1052, for example, as illustrated in FIG. The video adapter 1060 is connected to a display 1061, for example, as illustrated in FIG.

ここで、図9に例示するように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の解析プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1031に記憶される。   Here, as illustrated in FIG. 9, the hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, the above analysis program is stored in, for example, the hard disk drive 1031 as a program module in which a command executed by the computer 1000 is described.

また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。   The various data described in the above embodiment is stored as program data, for example, in the memory 1010 or the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1031 to the RAM 1012 as necessary, and executes various processing procedures.

なお、解析プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、解析プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。   Note that the program module 1093 and the program data 1094 related to the analysis program are not limited to being stored in the hard disk drive 1031, but may be stored in, for example, a removable storage medium and read out by the CPU 1020 via the disk drive or the like. Good. Alternatively, the program module 1093 and the program data 1094 related to the analysis program are stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and via the network interface 1070. May be read by the CPU 1020.

10 解析装置
11 通信処理部
12 制御部
12a 撹乱部
12b 抽出部
12c 解析部
13 記憶部
13a 解析対象データ記憶部
13b 撹乱データ記憶部
20 端末装置
DESCRIPTION OF SYMBOLS 10 Analysis apparatus 11 Communication processing part 12 Control part 12a Disturbing part 12b Extraction part 12c Analyzing part 13 Storage part 13a Analysis object data storage part 13b Disturbing data storage part 20 Terminal device

Claims (6)

解析の対象となるデータのなかから標本データを抽出する抽出部と、
前記抽出部によって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析部と、
を備えたことを特徴とする解析装置。
An extractor that extracts sample data from the data to be analyzed;
The inverse function of the cumulative distribution function is asymptotically expanded using the reliability of the standard normal distribution of the sample data extracted by the extraction unit, and the average of the sample data matches a predetermined value using the expanded inverse function An analysis unit that performs a one-sample average match test to test whether or not
An analysis device characterized by comprising:
前記解析の対象となるデータのうち、数値に関するデータに、特定のパラメータを持つ分布に従う確率変数を付加する撹乱部をさらに備え、
前記撹乱部によって確率変数が付加されたデータのなかから標本データを抽出することを特徴とする請求項1に記載の解析装置。
Among the data to be analyzed, further comprising a disturbance unit for adding a random variable according to a distribution having a specific parameter to data relating to a numerical value,
The analysis apparatus according to claim 1, wherein sample data is extracted from data to which a random variable is added by the disturbance unit.
前記解析部は、前記漸近展開として、コーニッシュフィッシャ展開により前記累積分布関数の逆関数を展開し、前記1標本平均一致検定を行うことを特徴とする請求項1または2に記載の解析装置。   The analysis apparatus according to claim 1, wherein the analysis unit expands an inverse function of the cumulative distribution function by Cornish finisher expansion as the asymptotic expansion, and performs the one-sample mean match test. 前記解析部は、前記信頼度として、任意に設定された有意水準から求められる信頼度を利用して累積分布関数の逆関数を漸近展開し、前記1標本平均一致検定を行うことを特徴とする請求項1〜3のいずれか一つに記載の解析装置。   The analysis unit performs asymptotic expansion of an inverse function of a cumulative distribution function using the reliability obtained from an arbitrarily set significance level as the reliability, and performs the one-sample mean match test The analysis device according to claim 1. 解析装置によって実行される解析方法であって、
解析の対象となるデータのなかから標本データを抽出する抽出工程と、
前記抽出工程によって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析工程と、
を含んだことを特徴とする解析方法。
An analysis method executed by an analysis device,
An extraction process for extracting sample data from the data to be analyzed;
Asymptotic expansion of the inverse function of the cumulative distribution function is performed using the reliability of the standard normal distribution of the sample data extracted by the extraction step, and the average of the sample data matches a predetermined value using the expanded inverse function An analysis step of performing a one-sample average match test to test whether or not
The analysis method characterized by including.
解析の対象となるデータのなかから標本データを抽出する抽出ステップと、
前記抽出ステップによって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析ステップと、
をコンピュータに実行させるための解析プログラム。
An extraction step for extracting sample data from the data to be analyzed;
Using the reliability of the standard normal distribution of the sample data extracted by the extraction step, the inverse function of the cumulative distribution function is asymptotically expanded, and the average of the sample data matches a predetermined value using the expanded inverse function An analysis step for performing a one-sample mean match test to test whether or not
An analysis program that causes a computer to execute.
JP2013087754A 2013-04-18 2013-04-18 Analyzer, analysis method, and analysis program Pending JP2014211761A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013087754A JP2014211761A (en) 2013-04-18 2013-04-18 Analyzer, analysis method, and analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013087754A JP2014211761A (en) 2013-04-18 2013-04-18 Analyzer, analysis method, and analysis program

Publications (1)

Publication Number Publication Date
JP2014211761A true JP2014211761A (en) 2014-11-13

Family

ID=51931476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013087754A Pending JP2014211761A (en) 2013-04-18 2013-04-18 Analyzer, analysis method, and analysis program

Country Status (1)

Country Link
JP (1) JP2014211761A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11163895B2 (en) 2016-12-19 2021-11-02 Mitsubishi Electric Corporation Concealment device, data analysis device, and computer readable medium
JP2022510142A (en) * 2018-12-10 2022-01-26 インターナショナル・ビジネス・マシーンズ・コーポレーション Post-improvement of instance-level and group-level predictive metrics

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11163895B2 (en) 2016-12-19 2021-11-02 Mitsubishi Electric Corporation Concealment device, data analysis device, and computer readable medium
JP2022510142A (en) * 2018-12-10 2022-01-26 インターナショナル・ビジネス・マシーンズ・コーポレーション Post-improvement of instance-level and group-level predictive metrics
JP7289086B2 (en) 2018-12-10 2023-06-09 インターナショナル・ビジネス・マシーンズ・コーポレーション Post-event improvements to instance-level and group-level forecast metrics
US11734585B2 (en) 2018-12-10 2023-08-22 International Business Machines Corporation Post-hoc improvement of instance-level and group-level prediction metrics

Similar Documents

Publication Publication Date Title
US10817621B2 (en) Anonymization processing device, anonymization processing method, and program
US20150286783A1 (en) Peer group discovery for anomaly detection
WO2019179029A1 (en) Electronic device, identity verification method and computer-readable storage medium
US11256803B2 (en) Malware detection: selection apparatus, selection method, and selection program
CN108461110B (en) Medical information processing method, device and equipment
WO2022100337A1 (en) Face image quality assessment method and apparatus, computer device and storage medium
US9805158B1 (en) Efficient extraction of K-sigma corners from Monte Carlo simulation
CN113360580B (en) Abnormal event detection method, device, equipment and medium based on knowledge graph
Rodríguez‐Girondo et al. A nonparametric test for Markovianity in the illness‐death model
WO2020119098A1 (en) Health evaluation method and apparatus, and computer readable storage medium
WO2022116419A1 (en) Automatic determination method and apparatus for domain name infringement, electronic device, and storage medium
WO2020042503A1 (en) Verification method and apparatus for risk management system, and device and storage medium
Panichkitkosolkul Confidence intervals for the coefficient of variation in a normal distribution with a known population mean
JP7357114B2 (en) Training method, device, electronic device and storage medium for living body detection model
Moreira et al. Goodness-of-fit tests for a semiparametric model under random double truncation
JP2014211761A (en) Analyzer, analysis method, and analysis program
CN111177309A (en) Medical record data processing method and device
CN117743577A (en) Text classification method, device, electronic equipment and storage medium
WO2020234977A1 (en) Information processing device, creation method, and creation program
Ghosh et al. Robust Wald‐type tests under random censoring
CN116089985A (en) Encryption storage method, device, equipment and medium for distributed log
Liu et al. Testing for efficacy in primary and secondary endpoints by partitioning decision paths
CN115344627A (en) Data screening method and device, electronic equipment and storage medium
WO2019019711A1 (en) Method and apparatus for publishing behaviour pattern data, terminal device and medium
CN114003784A (en) Request recording method, device, equipment and storage medium