JP2014211761A - Analyzer, analysis method, and analysis program - Google Patents
Analyzer, analysis method, and analysis program Download PDFInfo
- Publication number
- JP2014211761A JP2014211761A JP2013087754A JP2013087754A JP2014211761A JP 2014211761 A JP2014211761 A JP 2014211761A JP 2013087754 A JP2013087754 A JP 2013087754A JP 2013087754 A JP2013087754 A JP 2013087754A JP 2014211761 A JP2014211761 A JP 2014211761A
- Authority
- JP
- Japan
- Prior art keywords
- data
- analysis
- sample
- test
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G06F19/00—
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
Description
本発明は、解析装置、解析方法及び解析プログラムに関する。 The present invention relates to an analysis apparatus, an analysis method, and an analysis program.
近年、BigDataと呼ばれる大量のデータが注目を集めている。このような大量のデータに対して仮説検定などの統計的データ解析を施し、結果を利用する試みが進んでいる。その一方で、解析対象データに対する個人情報の保護などセキュリティ強化も求められており、解析対象データを秘匿化した撹乱データに対する仮説検定も必要となっている。仮説検定では、母集団からサンプリングした標本から統計量を求め、標本に関する性質(例えば、平均値が100より大きいか等)を統計学的に評価することができる。 In recent years, a large amount of data called BigData has attracted attention. Attempts have been made to perform statistical data analysis such as hypothesis testing on such a large amount of data and use the results. On the other hand, security enhancement such as protection of personal information for analysis target data is also required, and a hypothesis test is also required for disturbance data in which analysis target data is concealed. In the hypothesis test, a statistic can be obtained from a sample sampled from the population, and the property related to the sample (for example, whether the average value is greater than 100) can be statistically evaluated.
仮説検定には様々な手法があり、その中でも基本的で応用範囲が広い検定手法として、中心極限定理を用いた1標本平均一致検定手法が知られている。ここで1標本平均一致検定手法とは、平均と分散を持つと仮定した単一の母集団から標本を抽出し、分散が既知であると仮定したときに平均がある値に一致するか否かを判断する手法である。 There are various hypothesis tests. Among them, a one-sample average coincidence test technique using the central limit theorem is known as a basic test technique with a wide range of applications. Here, the one-sample mean-match test method refers to whether or not the mean agrees with a certain value when a sample is extracted from a single population assumed to have mean and variance, and the variance is assumed to be known. It is a method to judge.
また、解析の対象となるデータが個人情報を含むデータである場合には、データに対して非可逆な確率的な操作を施して、個人情報の漏洩を防止することが知られている。例えば、個人情報の漏洩を防止する手法として、どのような攻撃者も1/k以上の確率で秘密データと撹乱データとを対応付けられないというk−匿名性を確率的指標に拡張した「Pk−匿名性」というプライバシー指標が提案されている。 In addition, when the data to be analyzed is data including personal information, it is known to perform an irreversible stochastic operation on the data to prevent leakage of personal information. For example, as a technique for preventing leakage of personal information, “Pk” is an extension of k-anonymity to a stochastic index, in which any attacker cannot associate secret data with disturbance data with a probability of 1 / k or more. A privacy index called “anonymity” has been proposed.
また、個人情報の漏洩を防止する手法として、例えば、解析の対象となるデータのうち、数値属性のデータに対して、特定のパラメータを持つLaplace分布に従う確率変数を値(以下、ノイズと呼ぶ)として加える技術が知られている。 In addition, as a technique for preventing leakage of personal information, for example, a random variable according to a Laplace distribution having a specific parameter with respect to numerical attribute data among data to be analyzed is a value (hereinafter referred to as noise). The technology to add as is known.
しかしながら、従来の中心極限定理を用いた1標本平均一致検定手法では、解析対象となる標本数の多少が、算出される危険率の値に影響を及ぼす場合があり、仮説検定の精度に問題がある場合があった。また、撹乱データに対する精度の高い1標本平均一致検定の手法が確立していないため、セキュリティを強化することができない場合があった。 However, in the conventional one-sample average coincidence test method using the central limit theorem, the number of samples to be analyzed may affect the calculated risk factor, and there is a problem in the accuracy of the hypothesis test. There was a case. In addition, there is a case where security cannot be strengthened because a highly accurate one-sample average coincidence test method for disturbance data has not been established.
そこで、この発明は、セキュリティを強化した統計的データ解析の精度を向上させ、秘匿化されたデータに対する仮説検定の精度向上を実現する統計的データ解析技術を提供することを目的とする。 Therefore, an object of the present invention is to provide a statistical data analysis technique that improves the accuracy of statistical data analysis with enhanced security and realizes an improvement in accuracy of hypothesis testing for concealed data.
上述した課題を解決し、目的を達成するため、解析装置は、解析の対象となるデータのなかから標本データを抽出する抽出部と、前記抽出部によって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析部と、を備えたことを特徴とする。 In order to solve the above-described problems and achieve the object, the analysis apparatus includes an extraction unit that extracts sample data from the data to be analyzed, and the reliability of the standard normal distribution of the sample data extracted by the extraction unit. Analysis that performs asymptotic expansion of the inverse function of the cumulative distribution function using degree, and uses the expanded inverse function to test whether the average of the sample data matches a predetermined value And a section.
また、解析方法は、解析の対象となるデータのなかから標本データを抽出する抽出工程と、前記抽出工程によって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析工程と、を含んだことを特徴とする。 The analysis method includes an extraction step of extracting sample data from the data to be analyzed, and an inverse function of the cumulative distribution function using the reliability of the standard normal distribution of the sample data extracted by the extraction step. And an analysis step of performing a one-sample average match test for testing whether or not the average of the sample data matches a predetermined value using the expanded inverse function. .
また、解析プログラムは、解析の対象となるデータのなかから標本データを抽出する抽出ステップと、前記抽出ステップによって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析ステップと、をコンピュータに実行させる。 The analysis program also includes an extraction step for extracting sample data from the data to be analyzed, and an inverse function of the cumulative distribution function using the reliability of the standard normal distribution of the sample data extracted by the extraction step. And an analysis step for performing a one-sample average match test for testing whether or not the average of the sample data matches a predetermined value using the developed inverse function.
本願に開示する解析装置、解析方法及び解析プログラムは、セキュリティを強化した統計的データ解析の精度を向上させ、秘匿化されたデータに対する仮説検定の精度向上を実現する統計的データ解析技術を提供することが可能である。 The analysis device, analysis method, and analysis program disclosed in the present application provide statistical data analysis technology that improves the accuracy of statistical data analysis with enhanced security and improves the accuracy of hypothesis testing for concealed data. It is possible.
以下に添付図面を参照して、この発明に係る解析装置、解析方法及び解析プログラムの実施形態を詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。 Exemplary embodiments of an analysis apparatus, an analysis method, and an analysis program according to the present invention will be described below in detail with reference to the accompanying drawings. In addition, this invention is not limited by this embodiment.
[第一の実施形態]
以下の実施形態では、第一の実施形態に係る解析装置の構成、解析装置による処理の流れを順に説明し、最後に第一の実施形態による効果を説明する。
[First embodiment]
In the following embodiments, the configuration of the analysis apparatus according to the first embodiment and the flow of processing by the analysis apparatus will be described in order, and finally the effects of the first embodiment will be described.
[解析装置の構成]
最初に、図1を用いて、解析装置10の構成を説明する。図1は、第一の実施形態に係る解析装置10の構成を説明するための図である。図1に示すように、解析装置10は、通信処理部11、制御部12および記憶部13を有する。
[Configuration of analyzer]
Initially, the structure of the
通信処理部11は、接続される端末装置20との間でやり取りする各種情報に関する通信を制御する。例えば、通信処理部11は、解析対象データに対する解析処理の要求を端末装置20から受信する。また、例えば、通信処理部11は、解析処理の処理結果を端末装置20に対して送信する。
The communication processing unit 11 controls communication related to various types of information exchanged with the connected
記憶部13は、図1に示すように、解析対象データ記憶部13a、撹乱データ記憶部13bを有する。記憶部13は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。
As shown in FIG. 1, the
解析対象データ記憶部13aは、解析の対象となる解析対象データ(以下では、適宜、秘密データという)を記憶する。例えば、解析対象データ記憶部13aは、図2に示すように、社員を一意に識別する「社員ID」と、社員の住所を示す「住所」と、社員の年齢を示す「年齢」と、社員の最高血圧の数値を示す「最高血圧」とを対応付けて記憶する。 The analysis target data storage unit 13a stores analysis target data to be analyzed (hereinafter referred to as secret data as appropriate). For example, as shown in FIG. 2, the analysis target data storage unit 13a includes an “employee ID” that uniquely identifies an employee, an “address” that indicates the address of the employee, an “age” that indicates the age of the employee, Are stored in association with “maximum blood pressure” indicating the numerical value of the maximum blood pressure.
解析対象データ記憶部13aに記憶される秘密データは、例えば、「識別子」、「準識別子」、「センシティブ属性」の3つに分かれる。識別子とは、1つのレコードとその持ち主を一意的に結び付けるもので、例えば、図2における「社員ID」のようなものが該当する。識別子は、通常、撹乱処理の前段階で削除される。 The secret data stored in the analysis target data storage unit 13a is divided into, for example, “identifier”, “quasi-identifier”, and “sensitive attribute”. The identifier uniquely associates one record with its owner, and corresponds to, for example, “employee ID” in FIG. The identifier is usually deleted before the disturbance process.
準識別子とは、複数組み合わせることでレコードの持ち主が特定可能なもので、例えば、図2における「住所」や「年齢」などである。準識別子は、撹乱処理の対象になる。準識別子に関する情報は、入手が容易であるため、一般には秘密にしておくことが不可能であるが、これらを組み合わせることで、仮に識別子が削除されていてもレコードの持ち主を特定される恐れがある。そこで準識別子を左図のような方法で撹乱し、レコードの持ち主を特定できないようにする。準識別子は、撹乱データ公開後のデータ分析では不可欠なものと考えらえるため、完全に削除してしまうとデータ公開の意味がなくなってしまう場合がある。 The quasi-identifier is one that can identify the owner of a record by combining a plurality of quasi-identifiers, such as “address” and “age” in FIG. The quasi-identifier is subject to disturbance processing. Since information on quasi-identifiers is easy to obtain, it is generally impossible to keep them secret. However, combining them may lead to the identification of the record owner even if the identifiers are deleted. is there. Therefore, the quasi-identifier is disturbed by the method shown in the left figure so that the owner of the record cannot be specified. Since the quasi-identifier is considered to be indispensable in the data analysis after the disturbance data is disclosed, if it is completely deleted, the meaning of the data disclosure may be lost.
センシティブ属性とは、秘密にしたいデータであり、例えば、図2における「血圧」のようなものであり、センシティブ属性も撹乱操作の対象になり得まるが、撹乱しない場合もある。つまり、ある属性が準識別子であるか、センシティブ属性であるかは問題に応じて決めることであり、場合によっては「準識別子でありセンシティブ属性である」こともあり得る。また、撹乱操作は、基本的にデータ分析の有用性を失わせるため、準識別子と考えにくいのであれば、撹乱せずに残しておいた方がよい。本実施形態では「準識別子」と「センシティブ属性」を撹乱操作の対象とする。ただし、仮説検定で利用するのは「センシティブ属性」のみで、かつセンシティブ属性が数値属性であると仮定している。例えば、数値属性の準識別子(年齢等)が存在している場合、その準識別子に関して仮説検定を実施することが可能であるが、データ分析の目的としては一般的でない。 The sensitive attribute is data to be kept secret, for example, “blood pressure” in FIG. 2, and the sensitive attribute may be a target of the disturbance operation, but may not be disturbed. That is, whether an attribute is a quasi-identifier or a sensitive attribute is determined according to the problem, and may be “a quasi-identifier and a sensitive attribute” in some cases. In addition, since the disturbance operation basically loses the usefulness of data analysis, if it is difficult to consider it as a quasi-identifier, it is better to leave it undisturbed. In this embodiment, “quasi-identifier” and “sensitive attribute” are targets of the disturbance operation. However, it is assumed that only the “sensitive attribute” is used in the hypothesis test, and the sensitive attribute is a numerical attribute. For example, when a quasi-identifier (such as age) of a numerical attribute exists, a hypothesis test can be performed on the quasi-identifier, but this is not general for the purpose of data analysis.
撹乱データ記憶部13bは、後述する撹乱部12aによって撹乱処理によりノイズが付加された撹乱データを記憶する。なお、撹乱処理については、後の撹乱部12aの説明で詳述する。 The disturbance data storage unit 13b stores disturbance data to which noise is added by a disturbance process by a disturbance unit 12a described later. The disturbing process will be described in detail in the description of the disturbing unit 12a later.
図1の説明に戻って、制御部12は、撹乱部12aと、抽出部12b、解析部12cとを有する。ここで、制御部12は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。
Returning to the description of FIG. 1, the
撹乱部12aは、秘密データうち、数値に関するデータに、特定のパラメータを持つ分布に従う確率変数を付加する。例えば、撹乱部12aは、図3に示すように、秘密データのうち、数値属性のデータに対して特定のパラメータを持つLaplace分布に従う確率変数を値(ノイズ)として加える撹乱処理を行うことで、Pk匿名性を満たす撹乱データを生成する。その後、撹乱部12aは、生成した撹乱データを撹乱データ記憶部13bに格納する。 The disturbing unit 12a adds a random variable according to a distribution having a specific parameter to data relating to a numerical value among the secret data. For example, as shown in FIG. 3, the disturbing unit 12a performs a disturbing process of adding a random variable according to a Laplace distribution having a specific parameter as data (noise) among the secret data, as shown in FIG. Disturbance data that satisfies Pk anonymity is generated. Thereafter, the disturbance unit 12a stores the generated disturbance data in the disturbance data storage unit 13b.
ここで、図4を用いて、秘密データに確率変数を加える撹乱処理例について説明する。図4に示すように、秘密データの値として、「10」、「15」、「13」、「9」、「21」があるものとする。そして、確率変数をXとして、各秘密データにXを加える。この結果、撹乱データとして、「8」、「17」、「13」、「9」、「18」が生成される。ここで、例えば、Xが従う確率分布をμとすると、秘密データ「10」が撹乱データ「8」に変化する確率は、P(10+X=8)=P(X=−2)=μ(−2)となる。 Here, a disturbance processing example for adding a random variable to secret data will be described with reference to FIG. As shown in FIG. 4, it is assumed that secret data values include “10”, “15”, “13”, “9”, and “21”. Then, X is added to each secret data, where X is a random variable. As a result, “8”, “17”, “13”, “9”, and “18” are generated as the disturbance data. Here, for example, if the probability distribution followed by X is μ, the probability that secret data “10” changes to disturbance data “8” is P (10 + X = 8) = P (X = −2) = μ (− 2).
抽出部12bは、解析の対象となるデータのなかから標本データを抽出する。具体的には、抽出部12bは、撹乱データ記憶部13bに記憶された撹乱データのうち、n個の標本データを抽出し、解析部12cに標本データを通知する。
The
解析部12cは、抽出部12aによって抽出された標本データの標準正規分布の信頼度(例えば、後述するz(δ))を利用して累積分布関数の逆関数(例えば、後述するFn(δ)−1)を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う。
The
例えば、解析部12cは、標本データの標準正規分布の信頼度z(δ)を利用する形で、Cornish−Fisher(コーニッシュフィッシャ)展開により累積分布関数の逆関数Fn(δ)−1を展開し、該逆関数Fn(δ)−1を用いて、1標本平均一致検定を行う。また、例えば、解析部12cは、信頼度として、1の値を有意水準αの値で減算した100×(1−α)%点を用いて、1標本平均一致検定を行う。
For example, the
ここで、解析部12cにより実行される処理を説明する前に、1標本平均一致検定について説明する。ここで1標本平均一致検定とは、平均と分散を持つと仮定した単一の母集団から標本を抽出し、分散が既知であると仮定したときに平均がある値に一致するかどうかを判断する手法である。
Here, before describing the processing executed by the
従来、1標本平均一致検定では、中心極限定理を用いることが一般的であった。中心極限定理は、標本数nを無限とした場合に、標本平均と真の平均の誤差が標準正規分布に従うことを利用するものであるが、収束速度については特に保証していないため、nが小さい場合には標本平均と真の平均がどの程度ずれるのかが不明確である。 Conventionally, it has been common to use the central limit theorem in the one-sample mean agreement test. The central limit theorem makes use of the fact that when the number of samples n is infinite, the error between the sample mean and the true mean follows a standard normal distribution. If it is small, it is unclear how much the sample average deviates from the true average.
特に、上記した撹乱処理を行う場合には、秘密データが正規分布に従うと仮定できても、撹乱操作のために加えるノイズの影響で撹乱データが一般に正規分布から離れてしまう。このため、標本データ数が少ない場合の1標本平均一致検定における中心極限定理の利用は適切でない場合がある。 In particular, when performing the above-described disturbance processing, even if it can be assumed that the secret data follows a normal distribution, the disturbance data generally deviates from the normal distribution due to the influence of noise applied for the disturbance operation. For this reason, the use of the central limit theorem in the one-sample average coincidence test when the number of sample data is small may not be appropriate.
ここで、図5の例を用いて、一般的な1標本平均一致検定の処理例を説明する。図5の例では、秘密データが従う分布の標準偏差σが既知であるものとする。そして、秘密データからn個の標本データZ1、Z2、・・・、Znを抽出する。そして、下記(1)式および(2)式を計算する。ここで、μ0の平均と想定される値である。μ0は、問題に応じて与えられるものとする。μ0は、多くの場合現実に与えられることがないため、何らかの値で代用する。例えば、解析対象のデータが、年収に関するデータであれば、日本全体の年収の平均などを与える。 Here, a processing example of a general one-sample average match test will be described using the example of FIG. In the example of FIG. 5, it is assumed that the standard deviation σ of the distribution that the secret data follows is known. Then, n sample data Z 1 , Z 2 ,..., Z n are extracted from the secret data. Then, the following equations (1) and (2) are calculated. Here, it is a value assumed to be the average of μ 0 . μ 0 is given according to the problem. Since μ 0 is not actually given in many cases, some value is substituted. For example, if the data to be analyzed is data related to annual income, an average of annual income for Japan as a whole is given.
そして、有意水準αの値を決め、標本統計量であるsnとz(1−α)の大小を比較する。なお、ここでz(1−α)とは、標準正規分布の信頼度である「100×(1−α)%点」であり、例えば、α=0.05のとき、z(0.95)≒1.64となる。 Then, the value of the significance level α is determined, and the sample statistic s n is compared with the magnitude of z (1-α). Here, z (1-α) is “100 × (1-α)% point” which is the reliability of the standard normal distribution. For example, when α = 0.05, z (0.95). ) ≈1.64.
比較の結果から、帰無仮説μ=μ0と、対立仮説μ>μ0のどちらが正しいかを判断する。ここで、μ0とは、前述したように、秘密データの平均と想定される値であり、μとは、抽出したn個の平均の値である。つまり、比較の結果、sn>z(1−α)の場合には、「もし、秘密データの平均がμ0であるなら、sn>z(1−α)となる確率が高々αである。従って、実際には秘密データの平均はμ0ではない。すなわち、帰無仮説が正しくないものと判断する。通常は、対立仮説が主張したい命題である。 From the comparison result, it is determined whether the null hypothesis μ = μ 0 or the alternative hypothesis μ> μ 0 is correct. Here, μ 0 is a value assumed to be the average of secret data, as described above, and μ is an average value of n extracted data. That is, if s n > z (1-α) as a result of comparison, “if the average of the secret data is μ 0 , the probability that s n > z (1-α) is at most α Therefore, in practice, the average of secret data is not μ 0 , that is, it is determined that the null hypothesis is not correct, which is usually the proposition that the alternative hypothesis wants to claim.
ここで、図6を用いて仮説検定における2つの誤りについて説明する。図6に示すように、仮説検定における2つの誤りには、第一種過誤と、第二種過誤がある。つまり、第一種過誤とは、真の状態として帰無仮説が正しい場合であって、かつ、検定結果が対立仮説を正しいとみなした場合、すなわち、帰無仮説が正しいが、対立仮説が正しいと判断してしまった場合における判断の誤りのことをいう。そして、この第一種過誤が生じる確率を危険率といい、危険率の上限を有意水準という。
Here, two errors in the hypothesis test will be described with reference to FIG. As shown in FIG. 6, the two errors in the hypothesis test include a first type error and a second type error. In other words, type I error is when the null hypothesis is correct as a true state, and the test result regards the alternative hypothesis as correct, that is, the null hypothesis is correct but the alternative hypothesis is correct. This is an error in judgment when it is judged. The probability that this
また、第二種過誤とは、真の状態として対立仮説が正しい場合であって、かつ、検定結果が帰無仮説を正しいとみなした場合、すなわち、対立仮説が正しいが、帰無仮説が正しいと判断してしまった場合における判断の誤りのことをいう。第一種過誤が生じる確率と、第二種過誤が生じる確率を同時に下げることはない、いわゆるトレードオフの関係である。ただし、通常は危険率の上限(有意水準)を一定とした上で、検出力を最大化するような検定を行うことが望ましい。 The second type error is when the alternative hypothesis is correct as a true state and the test result regards the null hypothesis as correct, that is, the alternative hypothesis is correct but the null hypothesis is correct. This is an error in judgment when it is judged. This is a so-called trade-off relationship in which the probability of the first type error and the probability of the second type error are not lowered at the same time. However, it is usually desirable to perform a test that maximizes the power of detection while keeping the upper limit (significance level) of the risk factor constant.
上記したように、標本データ数が少ない場合の1標本平均一致検定における中心極限定理の利用は適切でない場合がある。これは、標本データ数が十分大きい場合には、与えられる有意水準αに対し、中心極限定理によりsnが標準正規分布に従うといえるため、標準正規分布の100×(1−α)%点と、標本データから計算するsnの大小を比較すればよいが、標本データ数が小さい場合には、snが標準正規分布に従うといえないからである。すなわち、標本データ数が小さい場合には、中心極限定理では与えられない優位水準を達成しているかどうかが不明であり、検定の信頼性が低い。つまり、snの分布の仮定ができないので、snの分布の100×(1−α)%点を厳密に求めることができない。ここで検出力とは、真の状態として対立仮説が正しく、検定結果として対立仮説が正しい(例えば、図6の例では、右下の「○」の部分に該当)とみなす確率のことである。 As described above, the use of the central limit theorem in the one-sample average coincidence test when the number of sample data is small may not be appropriate. This is because when the number of sample data is sufficiently large, it can be said that s n follows the standard normal distribution by the central limit theorem for a given significance level α, and therefore, 100 × (1-α)% points of the standard normal distribution The magnitudes of s n calculated from the sample data may be compared, but when the number of sample data is small, it cannot be said that s n follows the standard normal distribution. That is, when the number of sample data is small, it is unclear whether or not the superiority level not given by the central limit theorem is achieved, and the reliability of the test is low. That is, since it can not assume the distribution of s n, it is impossible to exactly determine the 100 × (1-α)% point of the distribution of s n. Here, the power is the probability that the alternative hypothesis is correct as a true state and the alternative hypothesis is correct as a test result (for example, in the example of FIG. 6, it corresponds to the “o” portion at the lower right). .
例えば、α=0.05として、中心極限定理に従い標準正規分布の95%点を用いてしまうと、その点はsnにとって90%点かもしれないし、99%点かもしれない。すなわち、危険率を求めることができないため、検定の信頼性が損なわれる。 For example, the alpha = 0.05, the results using a 95% point of the standard normal distribution in accordance with the central limit theorem, to might take 90% point to the point s n, may 99% point. That is, since the risk factor cannot be obtained, the reliability of the test is impaired.
そこで、解析部12cでは、Cornish−Fisher展開と呼ばれる手法により、撹乱データの累積分布関数の逆関数を展開することで、仮説検定における100(1−α)%点を求める。
Therefore, the
まず、解析部12cは、抽出部12bが抽出した仮説検定のためのn個の標本データを受信する。そして、解析部12cは、データ(秘密データ、撹乱データ等に依らず、一般のデータ)を表す確率変数をXi(i=1・・・n)とし、その平均と標準偏差(いずれも母集団平均・標準偏差、すなわち、サンプリングから求められるものではなく、母集団が従う分布)からそれぞれ平均μ、標準偏差σとし、下記(3)、(4)式を計算する。
First, the
解析部12cは、このSnが従う分布の累積分布関数をFnとする。すなわち、Snの確率密度関数をfnとしたとき、以下の(5)式で表されるものとする。なお、(5)式における一番左のP[Sn≦τ]は、Sn≦τとなる確率の意味である。
Analyzing
ここで、解析部12cは、Fnに対してCornish−Fisher展開を行うと、δ=1−αとして、以下の(6)式で、Snの100×(1−α)%点を表現することができる。
Here, the
ここで、上記の(6)式におけるキュムラントについて説明する。まず、モーメントを定義する。確率変数Xに対し、n次のモーメントは、Xnの期待値、すなわちXの確率密度関数をfとしたとき、下記(7)式のように定義される。以下では、μn=E[Xn]と表記する。このとき、4次までのキュムラントki(i=1、2、3、4)については、以下の(8)式〜(11)式で定義される。 Here, the cumulant in the above equation (6) will be described. First, define the moment. For the random variable X, the n-th moment is defined as the following equation (7), where x is the expected value of Xn , that is, the probability density function of X is f. Hereinafter, μ n = E [X n ] is expressed. At this time, cumulants k i up to the fourth order (i = 1, 2, 3, 4) are defined by the following formulas (8) to (11).
上記した(6)式については、中心極限定理を高次項まで近似したものと考えられる。つまり、n→∞で、中心極限定理と同じように、標準正規分布の100×δ%点z(δ)に収束する。しかし、(6)式をそのまま用いても、必ずしも危険率を下げる効果がない。つまり、中心極限定理と比較して危険率を下げるには、Fn(δ)−1>z(δ)となるようにする必要があるが、上記の(6)式の右辺第二項以降の符号は、z(δ)の大きさによって正の場合も負の場合もあり得る。 With regard to the above equation (6), it is considered that the central limit theorem is approximated to higher order terms. That is, n → ∞ converges to the 100 × δ% point z (δ) of the standard normal distribution as in the central limit theorem. However, using the formula (6) as it is does not necessarily have the effect of reducing the risk factor. That is, in order to lower the risk factor compared to the central limit theorem, it is necessary to satisfy F n (δ) −1 > z (δ). The sign of may be positive or negative depending on the magnitude of z (δ).
このため、解析部12cは、片側検定問題の場合は、(6)式の変わりに、下記(12)式を用いる。(7)式もn→∞で、(6)式と同じ速さでz(δ)に収束する。また、解析部12cは、両側検定問題の場合は、(6)式の変わりに、下記(13)式を用いる。
Therefore, the
また、秘密データを表す確率変数をX、撹乱操作で加えるノイズを表す確率変数をYとし、それぞれのi次キュムラントをιi、λiとすると、撹乱データZ=X+Yのi次キュムラントκiがκi=ιi+λiとして表現できる。 Further, if the random variable representing the secret data is X, the random variable representing the noise added by the disturbance operation is Y, and the respective i-th order cumulants are ι i and λ i , the i-th order cumulant κ i of the disturbance data Z = X + Y is obtained. It can be expressed as κ i = ι i + λ i .
これを用いて、下記(14)式および(15)式で表されるSnおよび撹乱データZの平均の100×(1−α)%点を上記の式(12)もしくは式(13)により近似することで、撹乱データに関する1標本平均値検定を実現することができる。 Using this, the average 100 × (1-α)% point of Sn and disturbance data Z expressed by the following formulas (14) and (15) is approximated by the above formula (12) or formula (13). By doing so, it is possible to realize a one-sample average test for disturbance data.
このように、第一の実施形態に係る解析装置10では、標本平均検定の信頼度向上が可能となる。つまり、中心極限定理では、上記の(6)式における右辺第一項のみによる近似を行うのに対し、第一の実施形態に係る解析装置10では、第二項以降の項を絶対値にした上記の(6)式および(7)式を用いて、第二項以降の項を利用することで、危険率を下げ、標本平均検定の信頼度向上が可能となる。
As described above, the
また、第一の実施形態に係る解析装置10では、Cornish−Fisher展開と呼ばれる手法により累積分布関数を展開している。Cornish−Fisher展開では、今回のように累積分布関数を陽に求めることが困難な場合に有効であるが、そのまま用いると「仮説検定における危険率を下げる」という効果が生じない場合があるため、上記したように、危険率が下がるような補正を行っている。
In the
以下では、仮説検定の処理について説明するが、片側検定問題を扱う場合と両側検定問題を扱う場合の処理例についてそれぞれ説明する。前提として、秘密データは正規分布に従うものとし、撹乱処理で付加するノイズはLaplaceノイズであるものとする。 In the following, the hypothesis testing process will be described, but a processing example in the case of handling a one-sided test problem and a case of handling a two-sided test problem will be described. As a premise, the secret data is assumed to follow a normal distribution, and the noise added by the disturbance processing is assumed to be Laplace noise.
まず、片側検定問題を扱う場合の処理例について説明する。秘密データを表す確率変数をXとしたとき、Xが従う正規分布はN(μ,σ2)、すなわち、以下の(16)式の確率密度関数fXで表されるものとする。 First, a processing example when handling a one-sided test problem will be described. When a random variable representing secret data is X, the normal distribution followed by X is represented by N (μ, σ 2 ), that is, the probability density function f X of the following equation (16).
また、撹乱操作で加えるノイズを表す確率変数をYとしたとき、Yが従うLaplaceノイズは、以下の(17)式の確率密度関数fYで表される。 Further, when a random variable representing noise added by the disturbance operation is Y, Laplace noise followed by Y is represented by a probability density function fY of the following equation (17).
このとき、上記の(17)式の「b」は、下記(18)式でもとめられるものであるとすれば、Pk匿名性が満たされる。すなわち、どのような攻撃者も1/k以上の確率で秘密データと撹乱データを対応付けられない。なお、(18)式において、|R|は、表の行数であり、νは、秘密データ(数値)の値域を示す。また、確率変数Xと確率変数Yを加えたZ=X+Yが撹乱データとなる。 At this time, if “b” in the above equation (17) is also obtained by the following equation (18), Pk anonymity is satisfied. That is, no attacker can associate secret data with disturbance data with a probability of 1 / k or more. In equation (18), | R | is the number of rows in the table, and ν is the range of secret data (numerical values). Further, Z = X + Y obtained by adding the random variable X and the random variable Y becomes disturbance data.
撹乱データからn個の標本を採るものとする。ここで、snを下記(19)式および(20)式で定義する。ここでは、μ´=μであって、μをZの平均値と定義し、σ´を下記(21)式で表される、Zの標準偏差と定義する。 Let n samples be taken from the disturbance data. We define a s n below (19) and (20). Here, μ ′ = μ, μ is defined as an average value of Z, and σ ′ is defined as a standard deviation of Z expressed by the following equation (21).
このとき、上記の(12)式は、下記(22)式のようになる。ここで、下記の式(22)中のγ4は、下記(23)式で求められる。 At this time, the above expression (12) becomes the following expression (22). Here, γ 4 in the following equation (22) is obtained by the following equation (23).
上記の式(22)を用いると、有意水準αの片側検定問題として、帰無仮説H0:μ´=μ0と、対立仮説H1:μ´>μ0の2つの仮説からなる仮説検定を構築できる。実際にサンプリングしたデータをzi(i=1,・・・,n)とし、snを下記(24)式で定義する。このときに、もしs0>Fn(δ)−1(δ=1−α)であれば、帰無仮説を棄却し、対立仮説を受理する。そうでなければ、帰無仮説を受理する。 Using the above equation (22), as a one-sided test problem of significance level α, a hypothesis test consisting of two hypotheses of null hypothesis H 0 : μ ′ = μ 0 and alternative hypothesis H 1 : μ ′> μ 0 Can be built. The actually sampled data is defined as z i (i = 1,..., N), and s n is defined by the following equation (24). At this time, if s 0 > F n (δ) −1 (δ = 1−α), the null hypothesis is rejected and the alternative hypothesis is accepted. Otherwise, accept the null hypothesis.
例えば、特定の薬を投与した後の最高血圧が有意に上昇したか否かという検定の場合であって、μ0を最高血圧の平均(薬を投与する前の平均や、一般の平均値等を用いる)とし、μ´を標本データの最高血圧の平均とし、s0>Fn(δ)−1であれば、帰無仮説を棄却し、s0>Fn(δ)−1でなければ、帰無仮説を受理する。つまり、ここで帰無仮説の棄却とは、もし投与前と投与後の平均が同じだとしたら、100×(1−α)%の確率でしか生じない事象が生じた。従って、投与後の最高血圧が投与前に比べて有意に上昇したと判断することを意味し、帰無仮説の受理とは、投与後の最高血圧が投与前に比べて変化していないと判断することを意味する。 For example, in the case of a test whether or not the systolic blood pressure significantly increased after administration of a specific drug, μ 0 is the average of the systolic blood pressure (average before administration of the drug, general average value, etc. And μ ′ is the average of the systolic blood pressure of the sample data. If s 0 > F n (δ) −1 , the null hypothesis is rejected, and s 0 > F n (δ) −1 Accepts the null hypothesis. In other words, the rejection of the null hypothesis is an event that occurs only with a probability of 100 × (1-α)% if the average before and after administration is the same. Therefore, it means that it is judged that the systolic blood pressure after administration has increased significantly compared to before administration, and acceptance of the null hypothesis means that the systolic blood pressure after administration has not changed compared to before administration. It means to do.
ここで、片側検定について、上記検定処理を行った場合の実験結果例を図7に示す。図7は、片側検定の実験結果例を示す図である。図7の例では、乱数から生成した撹乱データの95%点を菱形で示し、中心極限定理の95%点(標準分布の95%点)を四角で示し、本実施形態に係る解析装置10の手法による95%点を三角で示す。また、乱数から生成した撹乱データの95%点は、10000回Snを計算し、9500番目の値を表示している。また、図7において、縦軸は、95%点の値を示すものであり、横軸は、標本数を示すものである。
Here, FIG. 7 shows an example of an experimental result when the above-described test processing is performed for the one-side test. FIG. 7 is a diagram illustrating an example of an experimental result of a one-sided test. In the example of FIG. 7, the 95% point of the disturbance data generated from the random number is indicated by a rhombus, the 95% point of the central limit theorem (the 95% point of the standard distribution) is indicated by a square, and the
図7に示すように、標本数によらず、本実施形態に係る解析装置10の手法による95%点の値が、中心極限定理の95%点の値よりも大きいことが分かる。この値が大きいほど、危険率が低くなるので、本実施形態に係る解析装置10では中心極限定理を用いる場合と比較して、常に危険率を低くすることが可能である。
As shown in FIG. 7, regardless of the number of samples, it can be seen that the 95% point value obtained by the method of the
次に、両側検定問題を扱う場合の処理例について説明する。両側検定問題を扱う場合においても、上記の片側検定問題を扱う場合と同様に、上記の(17)式におけるパラメータbを上記の(18)式により決定し、上記の(19)式および(20)式でSnを定義する。このとき、上記の(13)式は、下記(25)式のようになる。ここで、上記の式(22)中のγ4は、下記(26)式で求められる。 Next, a processing example when dealing with a two-sided test problem will be described. Also in the case of dealing with the two-sided test problem, the parameter b in the above equation (17) is determined by the above equation (18) as in the case of dealing with the above one-sided test problem, and the above equations (19) and (20 ) Define Sn. At this time, the above expression (13) becomes the following expression (25). Here, γ 4 in the above equation (22) is obtained by the following equation (26).
上記の式(25)を用いると、有意水準αの両側検定問題として、帰無仮説H0:μ´=μ0と、対立仮説H1:μ´≠μ0の2つの仮説からなる仮説検定を構築できる。そして、S0を計算し、下記(27)式もしくは下記(28)式が成り立つか判定する。なお、(27)式および(28)式において、δ=1−α/2となる。下記(27)式もしくは下記(28)式が成り立つ場合には、帰無仮説を棄却し、成り立たない場合には、帰無仮説を受理する。例えば、特定の薬を投与した後の血圧に、投与前と比べて有意な差があるか否かといった検定問題に利用可能である。 Using the above equation (25), as a two-sided test problem of significance level α, a hypothesis test consisting of two hypotheses: null hypothesis H 0 : μ ′ = μ 0 and alternative hypothesis H 1 : μ ′ ≠ μ 0 Can be built. And S0 is calculated and it is determined whether the following (27) Formula or (28) Formula is satisfied. In the equations (27) and (28), δ = 1−α / 2. If the following formula (27) or the following formula (28) holds, the null hypothesis is rejected, and if it does not hold, the null hypothesis is accepted. For example, it can be used for the test problem of whether or not there is a significant difference in blood pressure after administration of a specific drug compared to before administration.
このように、第一の実施形態に係る解析装置10では、「秘匿化された(撹乱された)データを精度良く統計的データ解析(仮説検定)できる。例えば、医療分野において、Pk匿名性を保証する範囲で、標本データに基づく仮説の確からしさを精度良く検定することが可能となる。
As described above, in the
[解析装置による処理]
次に、図8を用いて、第一の実施形態に係る解析装置10の処理を説明する。図8は、第一の実施形態に係る解析装置10における解析処理の流れを説明するためのフローチャートである。
[Processing by analyzer]
Next, processing of the
図8に示すように、解析装置10の撹乱部12aは、端末装置20から解析要求を受け付けると(ステップS101)、解析対象となる秘密データを解析対象データ記憶部13aから読み出す(ステップS102)。
As shown in FIG. 8, when the disturbance unit 12a of the
そして、撹乱部12aは、読み出した秘密データに対してLaplaceノイズを付加して撹乱データを生成する(ステップS103)。そして、解析部12cは、撹乱データからn個の標本データを抽出する(ステップS104)。そして、解析部12cは、上記した(1)式および(2)式を用いて、検定統計量「sn」を計算する(ステップS105)。
And the disturbance part 12a adds a Laplace noise with respect to the read secret data, and produces | generates disturbance data (step S103). And the
その後、解析部12cは、snとz(1−α)の大小を比較する(ステップS106)。この結果、解析部12cは、sn>z(1−α)であると判定した場合には(ステップS107肯定)、対立仮説が正しいと判定する(ステップS108)。また、sn>z(1−α)ではないと判定した場合には(ステップS107否定)、帰無仮説が正しいと判定する(ステップS109)。そして、解析部12cは、解析結果を端末装置20に対して出力する(ステップS110)。
Then, the
例えば、解析部12cは、解析結果として、特定の病気に罹っている人々の血圧が、血圧の平均値と比較して有意な差があるかどうかや、特定の薬を投与した後の被験者の血圧が、血圧の平均値と比較して有意な差があるかどうかなどを出力する。
For example, the
[第一の実施形態の効果]
上述してきたように、第一の実施形態にかかる解析装置10では、解析の対象となるデータのなかから標本データを抽出し、抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う。これにより、セキュリティを強化した統計的データ解析の精度を向上させ、秘匿化されたデータに対する仮説検定の精度向上を実現することが可能である。
[Effect of the first embodiment]
As described above, in the
また、第一の実施形態にかかる解析装置10では、解析の対象となるデータのうち、数値に関するデータに、特定のパラメータを持つ分布に従う確率変数を付加し、確率変数が付加された解析対象データから標本データを抽出する。このため、データを秘匿化し、セキュリティを強化することが可能である。
Further, in the
また、第一の実施形態にかかる解析装置10では、Cornish−Fisher展開により累積分布関数の逆関数を展開し、1標本平均一致検定を行う。このため、累積分関数を陽に求めることが可能である。
Further, in the
また、第一の実施形態にかかる解析装置10では、信頼度として、任意に設定された有意水準αから求められる信頼度を利用して累積分布関数の逆関数を漸近展開し、1標本平均一致検定を行う。例えば、解析装置10では、標準正規分布の100×(1−α)%点を求め、100×(1−α)%点を利用して、1標本平均一致検定を実施する。このため、セキュリティを強化した統計的データ解析の精度を向上させ、秘匿化されたデータに対する仮説検定の精度向上を実現することが可能である。
Further, in the
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、撹乱部12aと解析部12bを統合してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the disturbance unit 12a and the
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Also, among the processes described in the present embodiment, all or part of the processes described as being performed automatically can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.
[プログラム]
また、上記実施形態において説明した解析装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、第一の実施形態に係る解析装置10が実行する処理をコンピュータが実行可能な言語で記述した解析プログラムを作成することもできる。この場合、コンピュータが解析プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる解析プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録され解析プログラムをコンピュータに読み込ませて実行することにより上記第一の実施形態と同様の処理を実現してもよい。以下に、図2に示した解析装置10と同様の機能を実現する解析プログラムを実行するコンピュータの一例を説明する。
[program]
In addition, it is possible to create a program in which processing executed by the
図9は、解析プログラムを実行するコンピュータ1000を示す図である。図9に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
FIG. 9 is a diagram illustrating a
メモリ1010は、図9に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図9に例示するように、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、図9に例示するように、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、図9に例示するように、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、図9に例示するように、例えばディスプレイ1061に接続される。
The
ここで、図9に例示するように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の解析プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1031に記憶される。
Here, as illustrated in FIG. 9, the hard disk drive 1031 stores, for example, an
また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
The various data described in the above embodiment is stored as program data, for example, in the
なお、解析プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、解析プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
10 解析装置
11 通信処理部
12 制御部
12a 撹乱部
12b 抽出部
12c 解析部
13 記憶部
13a 解析対象データ記憶部
13b 撹乱データ記憶部
20 端末装置
DESCRIPTION OF
Claims (6)
前記抽出部によって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析部と、
を備えたことを特徴とする解析装置。 An extractor that extracts sample data from the data to be analyzed;
The inverse function of the cumulative distribution function is asymptotically expanded using the reliability of the standard normal distribution of the sample data extracted by the extraction unit, and the average of the sample data matches a predetermined value using the expanded inverse function An analysis unit that performs a one-sample average match test to test whether or not
An analysis device characterized by comprising:
前記撹乱部によって確率変数が付加されたデータのなかから標本データを抽出することを特徴とする請求項1に記載の解析装置。 Among the data to be analyzed, further comprising a disturbance unit for adding a random variable according to a distribution having a specific parameter to data relating to a numerical value,
The analysis apparatus according to claim 1, wherein sample data is extracted from data to which a random variable is added by the disturbance unit.
解析の対象となるデータのなかから標本データを抽出する抽出工程と、
前記抽出工程によって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析工程と、
を含んだことを特徴とする解析方法。 An analysis method executed by an analysis device,
An extraction process for extracting sample data from the data to be analyzed;
Asymptotic expansion of the inverse function of the cumulative distribution function is performed using the reliability of the standard normal distribution of the sample data extracted by the extraction step, and the average of the sample data matches a predetermined value using the expanded inverse function An analysis step of performing a one-sample average match test to test whether or not
The analysis method characterized by including.
前記抽出ステップによって抽出された標本データの標準正規分布の信頼度を利用して累積分布関数の逆関数を漸近展開し、該展開した逆関数を用いて、標本データの平均が所定の値に一致するか否かを検定する1標本平均一致検定を行う解析ステップと、
をコンピュータに実行させるための解析プログラム。 An extraction step for extracting sample data from the data to be analyzed;
Using the reliability of the standard normal distribution of the sample data extracted by the extraction step, the inverse function of the cumulative distribution function is asymptotically expanded, and the average of the sample data matches a predetermined value using the expanded inverse function An analysis step for performing a one-sample mean match test to test whether or not
An analysis program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013087754A JP2014211761A (en) | 2013-04-18 | 2013-04-18 | Analyzer, analysis method, and analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013087754A JP2014211761A (en) | 2013-04-18 | 2013-04-18 | Analyzer, analysis method, and analysis program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014211761A true JP2014211761A (en) | 2014-11-13 |
Family
ID=51931476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013087754A Pending JP2014211761A (en) | 2013-04-18 | 2013-04-18 | Analyzer, analysis method, and analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014211761A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11163895B2 (en) | 2016-12-19 | 2021-11-02 | Mitsubishi Electric Corporation | Concealment device, data analysis device, and computer readable medium |
JP2022510142A (en) * | 2018-12-10 | 2022-01-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Post-improvement of instance-level and group-level predictive metrics |
-
2013
- 2013-04-18 JP JP2013087754A patent/JP2014211761A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11163895B2 (en) | 2016-12-19 | 2021-11-02 | Mitsubishi Electric Corporation | Concealment device, data analysis device, and computer readable medium |
JP2022510142A (en) * | 2018-12-10 | 2022-01-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Post-improvement of instance-level and group-level predictive metrics |
JP7289086B2 (en) | 2018-12-10 | 2023-06-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Post-event improvements to instance-level and group-level forecast metrics |
US11734585B2 (en) | 2018-12-10 | 2023-08-22 | International Business Machines Corporation | Post-hoc improvement of instance-level and group-level prediction metrics |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10817621B2 (en) | Anonymization processing device, anonymization processing method, and program | |
US20150286783A1 (en) | Peer group discovery for anomaly detection | |
WO2019179029A1 (en) | Electronic device, identity verification method and computer-readable storage medium | |
US11256803B2 (en) | Malware detection: selection apparatus, selection method, and selection program | |
CN108461110B (en) | Medical information processing method, device and equipment | |
WO2022100337A1 (en) | Face image quality assessment method and apparatus, computer device and storage medium | |
US9805158B1 (en) | Efficient extraction of K-sigma corners from Monte Carlo simulation | |
CN113360580B (en) | Abnormal event detection method, device, equipment and medium based on knowledge graph | |
Rodríguez‐Girondo et al. | A nonparametric test for Markovianity in the illness‐death model | |
WO2020119098A1 (en) | Health evaluation method and apparatus, and computer readable storage medium | |
WO2022116419A1 (en) | Automatic determination method and apparatus for domain name infringement, electronic device, and storage medium | |
WO2020042503A1 (en) | Verification method and apparatus for risk management system, and device and storage medium | |
Panichkitkosolkul | Confidence intervals for the coefficient of variation in a normal distribution with a known population mean | |
JP7357114B2 (en) | Training method, device, electronic device and storage medium for living body detection model | |
Moreira et al. | Goodness-of-fit tests for a semiparametric model under random double truncation | |
JP2014211761A (en) | Analyzer, analysis method, and analysis program | |
CN111177309A (en) | Medical record data processing method and device | |
CN117743577A (en) | Text classification method, device, electronic equipment and storage medium | |
WO2020234977A1 (en) | Information processing device, creation method, and creation program | |
Ghosh et al. | Robust Wald‐type tests under random censoring | |
CN116089985A (en) | Encryption storage method, device, equipment and medium for distributed log | |
Liu et al. | Testing for efficacy in primary and secondary endpoints by partitioning decision paths | |
CN115344627A (en) | Data screening method and device, electronic equipment and storage medium | |
WO2019019711A1 (en) | Method and apparatus for publishing behaviour pattern data, terminal device and medium | |
CN114003784A (en) | Request recording method, device, equipment and storage medium |