JP4421971B2 - Analysis engine exchange system and data analysis program - Google Patents

Analysis engine exchange system and data analysis program Download PDF

Info

Publication number
JP4421971B2
JP4421971B2 JP2004229532A JP2004229532A JP4421971B2 JP 4421971 B2 JP4421971 B2 JP 4421971B2 JP 2004229532 A JP2004229532 A JP 2004229532A JP 2004229532 A JP2004229532 A JP 2004229532A JP 4421971 B2 JP4421971 B2 JP 4421971B2
Authority
JP
Japan
Prior art keywords
analysis
data
analysis engine
explanatory variables
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004229532A
Other languages
Japanese (ja)
Other versions
JP2006048429A (en
Inventor
正貴 安東
彰 斎藤
雄一 石橋
正明 松浦
敏 宮田
大 牛嶋
親民 中村
義男 三木
哲生 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japanese Foundation for Cancer Research
NEC Corp
Japan Biological Informatics Consortium
Original Assignee
Japanese Foundation for Cancer Research
NEC Corp
Japan Biological Informatics Consortium
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japanese Foundation for Cancer Research, NEC Corp, Japan Biological Informatics Consortium filed Critical Japanese Foundation for Cancer Research
Priority to JP2004229532A priority Critical patent/JP4421971B2/en
Publication of JP2006048429A publication Critical patent/JP2006048429A/en
Application granted granted Critical
Publication of JP4421971B2 publication Critical patent/JP4421971B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、t−検定、マン・ホイットニのU検定、フィッシャーの直接確率検定などの単変量の解析から始まり、回帰分析、ロジスティック回帰分析、分散分析、判別分析、主成分分析などの多変量解析などの統計手法、ニューラルネットワーク、二分木解析法やサポートベクターマシン(SVM)などのデータマイニング手法に関し、特に遺伝子データなどのように大量変数の分析データから効率的に有意な変数を絞り込む解析エンジン交換型システム及び解析エンジン交換型システム用プログラム(データ解析プログラム)に関する。   The present invention starts from univariate analysis such as t-test, Mann-Whitney U test, and Fisher's exact test, and multivariate analysis such as regression analysis, logistic regression analysis, variance analysis, discriminant analysis, principal component analysis, etc. Analytical engine replacement that narrows down significant variables efficiently from large-volume analysis data such as genetic data, especially for data mining methods such as statistical methods such as neural network, binary tree analysis method and support vector machine (SVM) The present invention relates to a type system and an analysis engine exchange type system program (data analysis program).

まず、第1の関連技術を説明する。   First, the first related technique will be described.

一般に、実際の現象を統計的に解析する目的の一つは、種々の特性間の関係を見いだし、予測を行うことである。このような場合、回帰分析やロジスティック回帰分析、判別関数などを含む一般化線型モデルを用いたり、SVMなどのデータマイニングの手法を用いたりして、データから何らかの関係を見いだし、ある変数に対して予測を行うことがよく行われる。例えば、目的変数yに対して複数の説明変数x,x,...,xの関係を解析する場合である。もし、データの持つすべての変数を使ったモデル式を作った場合は、モデルの汎用性が失われ、別のデータに適用した場合に当てはまらなくなるおそれが大きい。特にデータの持つ変数が多い場合は、目的変数yをうまく説明できるように、できるだけ少数の最適な変数を選び、モデル式を作らなければならない。一般にモデル式内の説明変数の個数は、数個〜数十個程度になるように変数の選択を行う。一般の統計解析システムでは、このような場合、変数選択法や総あたり法を用意して、様々な変数の組み合わせのモデルから最適と考えられるモデルを選択できるようになっている。 In general, one of the purposes of statistical analysis of actual phenomena is to find and predict the relationship between various characteristics. In such a case, use a generalized linear model including regression analysis, logistic regression analysis, discriminant function, etc., or use data mining techniques such as SVM to find some relationship from the data, and for a certain variable It is common to make predictions. For example, a plurality of explanatory variables x 1 , x 2 ,. . . , X p is analyzed. If you create a model formula that uses all the variables of the data, the generality of the model is lost, and it is highly likely that it will not be applicable when applied to other data. In particular, when there are many variables in the data, it is necessary to select as few optimal variables as possible so that the objective variable y can be explained well and to create a model formula. In general, the variables are selected so that the number of explanatory variables in the model formula is several to several tens. In such a case, a general statistical analysis system prepares a variable selection method or a brute force method, and can select a model that is considered to be optimal from a combination of various variable models.

次に、第2の関連技術を説明する。   Next, a second related technique will be described.

一般の統計解析システムや遺伝子解析システムは、様々な解析手法、例えば回帰分析やロジスティック回帰分析、判別関数などを含む一般化線型モデルなどの統計手法やSVMなどのデータマイニングの手法、を用意している。しかし、変数の組合せを1回だけ指定して解析することを想定しているため、何万個もの変数を持つデータに対して、変数の様々な組合せを繰り返し解析するためには、解析システムの持つプログラミング機能やマクロ機能を用いて、特別な処理を加える必要がある。   General statistical analysis systems and genetic analysis systems have various analysis methods such as regression analysis, logistic regression analysis, statistical methods such as generalized linear models including discriminant functions, and data mining methods such as SVM. Yes. However, since it is assumed that analysis is performed by specifying a combination of variables only once, in order to repeatedly analyze various combinations of variables for data having tens of thousands of variables, It is necessary to add special processing using programming functions and macro functions.

さらに、やみくもに変数の組合せを調べても、現実的な時間内に処理を終了することができないため、なるべく変数の組合せの個数を少なくして、さらに有意な変数の組合せが含まれるように、効率的に組合せ方を調査する必要があるが、上記の解析システムでは、このようなアルゴリズムは用意されていない。例えば、5個程度の変数のモデルを推定しようとした場合、10000個の変数に対して、5個の変数の組合せは以下のようになり、全ての組み合わせを計算するのは現実的に困難である。   Furthermore, since the process cannot be completed within a realistic time even if the combination of variables is indiscriminately examined, the number of variable combinations is reduced as much as possible so that more significant variable combinations are included. Although it is necessary to investigate the combination method efficiently, the above analysis system does not provide such an algorithm. For example, when trying to estimate a model of about five variables, the combination of five variables is as follows for 10,000 variables, and it is practically difficult to calculate all the combinations. is there.

10000=(10000×9999×9998×9997×9996)/5!≒1020/5!
また、多くの推定された様々な変数の組合せに対するモデルから、どのように最適なモデルの組合せ、あるいは、有意な変数の組合せを選んだらよいのかという基準が用意されていない。このため、上記の一般の解析システム内で最適なモデルあるいは変数の組合せを選ぶためには、プログラミング機能やマクロ機能により、特別な処理を組み込まなくてはならない。
10000 C 5 = (10000 × 9999 × 9998 × 9997 × 9996) / 5! ≒ 10 20/5!
In addition, there is no standard for how to select an optimal model combination or a significant variable combination from many estimated models for various combinations of variables. For this reason, in order to select an optimal model or variable combination in the above general analysis system, a special process must be incorporated by a programming function or a macro function.

更に、第3の関連技術を説明する。   Further, a third related technique will be described.

最適なモデルの組合せ、あるいは、有意な変数の組合せを選ぶためには、1種類の手法だけを用いるだけよりは、一般化線型モデルなどの統計手法やSVMなどのデータマイニングの手法を横断的に用いる必要もでてきている。例えば、図8のように異なる解析手法A及びBを用いて、変数を絞り込んでいくためには、解析システムの中でプログラミング機能やマクロ機能により、特別な処理を組み込まなくてはならない。   In order to select the optimal model combination or significant variable combination, rather than using only one type of method, a statistical method such as a generalized linear model or a data mining method such as SVM can be used. It is also necessary to use it. For example, in order to narrow down variables using different analysis methods A and B as shown in FIG. 8, special processing must be incorporated in the analysis system by a programming function or a macro function.

特許文献1の請求項1には、「1つの説明変数以外は全て入力値を所定の一定値とし、その際に出力されるニューラルネットワークの出力値と目的変数との影響関係を統計解析で用いられるF値またはt値で評価することを全ての説明変数について順次実施し、所定の値以下の不要な説明変数を全て破棄する」ことが記載されている。   Claim 1 of Patent Document 1 states that “the input value is set to a predetermined constant value except for one explanatory variable, and the influence relationship between the output value of the neural network output at that time and the objective variable is used in the statistical analysis. It is described that evaluation with the F value or t value to be performed is sequentially performed for all explanatory variables, and all unnecessary explanatory variables below a predetermined value are discarded.

特許文献2の第8欄の第16行〜第21行には、「ステップ54(図3)で基準値が最大となった変数(x)を選び、ステップ51(図3)でこの変数xを含んだ2個の変数の組み合わせ(x,x)、(x,x)、(x,x)を順にループしてくるたびにつくり、ステップ52で基準値を計算する。」ことが記載されている。しかし、2個の変数の組み合わせ(x,x)、(x,x)、(x,x)を構成しているのは、選択された(絞られた)変数は、xのみであり、x、x、xは、選択された(絞られた)変数ではない。すなわち、はじめに、全ての変数の中から有意な変数を複数個選択し、次に、複数個の選択された(絞られた)変数中から、少なくとも2個ずつの全ての組み合わせをつくることは開示がない。 In the 16th to 21st lines of the eighth column of Patent Document 2, “a variable (x 4 ) whose reference value is maximized in step 54 (FIG. 3) is selected, and this variable is selected in step 51 (FIG. 3). the combination of the two variables that contain x 4 (x 4, x 1 ), the (x 4, x 2), made each time come sequentially loop (x 4, x 3), the reference value in step 52 "Calculate." However, the combination of two variables (x 4 , x 1 ), (x 4 , x 2 ), (x 4 , x 3 ) constitutes the selected (squeezed) variable is x 4 is only, x 1, x 2, x 3 is (is squeezed) is selected not a variable. That is, first, it is disclosed to select a plurality of significant variables from all variables, and then to create all combinations of at least two from a plurality of selected (narrowed) variables. There is no.

特許文献3の第2欄の第39行〜第44行には、「1回の解析で用いる説明変数の数を一定にして、公知の変数増減法を用いて自動的に異常項目(説明変数)を絞り込む、という解析を複数回行ない、各解析で絞り込まれた項目だけで最終の解析を行なう多段階多変量解析手法」が開示されている。特許文献3にて用いている、公知の変数増減法は、はじめに、全ての変数の中から有意な変数を一つ選択し、次に、一つの選択された変数を固定して残りの変数の中から、1つの変数を選択して、2つずつの組み合わせをつくるものである。従って、この特許文献3にも、はじめに、全ての変数の中から有意な変数を複数個選択し、次に、複数個の選択された(絞られた)変数中から、少なくとも2個ずつの全ての組み合わせをつくることは開示がない。   The 39th to 44th lines in the second column of Patent Document 3 indicate that “the number of explanatory variables used in one analysis is fixed, and an abnormal item (explanatory variable) is automatically generated using a known variable increase / decrease method. ) Is performed a plurality of times, and a final analysis is performed using only the items narrowed down in each analysis. The known variable increase / decrease method used in Patent Document 3 first selects one significant variable from all the variables, then fixes one selected variable and fixes the remaining variables. One variable is selected from among them, and two combinations are created. Therefore, also in this Patent Document 3, first, a plurality of significant variables are selected from all the variables, and then, at least two of all the selected (restricted) variables are selected. There is no disclosure of creating a combination.

特許文献4の要約には、「遺伝子多型サイト情報と表現型の関連を解析する」との記載がある。   In the summary of Patent Document 4, there is a description “analyzing the relationship between genetic polymorphism site information and phenotype”.

特開2000−31511号公報JP 2000-31511 A 特開平7−93284号公報JP-A-7-93284 特開2002−110493号公報JP 2002-110493 A 特開2003−67389号公報JP 2003-67389 A コックス著「二値データの解析」朝倉書店Cox "Analysis of binary data" Asakura Shoten

上記した関連技術における第1の問題点は、説明変数の数がサンプル数より多くなり、(変数選択法や総当たり法など)統計学的多変量解析で用いられているアルゴリズムが遺伝子発現解析用DNAチップやマイクロアレイなどの大量の変数を持つデータに適用できないことである。従来の変数選択法における変数増加法(forward selection)や変数増減法(stepwise selection)においては、変数がモデルに追加されたり外されたりする場合、追加・削除することによって統計的に有意となる変数が1つずつ追加・削除されるだけであり、大量の変数から候補となる変数を絞り込むスクリーニングなどにおいては効率的に変数を選択することができない。また、変数減少法(backward selection)においては、はじめに全ての変数を取り込んだモデルが必要となるが、1万個の説明変数からなるモデルを考慮することは不可能である。また、総当たり法は、すべての変数の組み合わせを調べるために、変数の個数がp個の場合、2−1通りの組み合わせのモデルを試すことになる。pが10000と大きな場合、現実的に計算することができない。 The first problem with the related technology described above is that the number of explanatory variables is larger than the number of samples, and the algorithms used in statistical multivariate analysis (such as variable selection and brute force methods) are for gene expression analysis. It cannot be applied to data with a large amount of variables such as DNA chips and microarrays. In the variable selection method (forward selection) and variable increase / decrease method (stepwise selection) in the conventional variable selection method, when a variable is added to or removed from the model, the variable becomes statistically significant by adding or deleting it. Are simply added / deleted one by one, and variables cannot be selected efficiently in screening or the like that narrows down candidate variables from a large number of variables. In addition, in the variable selection method (backward selection), a model in which all variables are taken in first is necessary, but it is impossible to consider a model consisting of 10,000 explanatory variables. In the round robin method, in order to examine combinations of all variables, when the number of variables is p, 2 p −1 combinations of models are tried. When p is as large as 10,000, it cannot be calculated realistically.

第2の問題点としては、ハイスループットに調べた遺伝子発現解析のデータに対し、個々の遺伝子の発現解析結果に対して単変量的統計解析を行い、各遺伝子発現結果を評価していくことが重要であるが、数万の遺伝子に対して指定した解析を自動的に繰り返して行うための専用の装置は開発されていない。   As a second problem, univariate statistical analysis is performed on the expression analysis results of individual genes for the gene expression analysis data examined at high throughput, and each gene expression result is evaluated. Importantly, no dedicated device has been developed to automatically repeat the specified analysis for tens of thousands of genes.

第3の問題点としては、DNAチップやマイクロアレイに適用する統計解析手法は、t−検定、マン・ホイットニのU検定、フィッシャーの直接確率検定などの単変量の解析から始まり、回帰分析、ロジスティック回帰分析、分散分析、判別分析、主成分分析などの多変量解析だけではなく、データマイニング手法であるニューラルネットワーク、二分木解析法やサポートベクターマシン(SVM)など多岐に渡る。これらの手法を組み合わせたり、交換したりしながらDNAチップやマイクロアレイなどの大量変数からなるデータを効率的に処理するための装置は開発されていない。はじめに、全ての変数の中から有意な変数を複数個選択し、次に、複数個の選択された(絞られた)変数中から、少なくとも2個ずつの全ての組み合わせをつくることは開示がない。   As a third problem, statistical analysis methods applied to DNA chips and microarrays start from univariate analysis such as t-test, Mann-Whitney U test, and Fisher's exact test, regression analysis, logistic regression Not only multivariate analysis such as analysis, variance analysis, discriminant analysis, principal component analysis, but also a variety of data mining methods such as neural network, binary tree analysis method and support vector machine (SVM). An apparatus for efficiently processing data consisting of a large amount of variables such as a DNA chip and a microarray while combining or exchanging these methods has not been developed. First, there is no disclosure to select a plurality of significant variables from all variables, and then to create all combinations of at least two from a plurality of selected (narrowed) variables. .

本発明の課題は、上記問題点を除去できる解析エンジン交換型システム及び解析エンジン交換型システム用のデータ解析プログラムを提供することにある。   An object of the present invention is to provide an analysis engine exchange type system and a data analysis program for an analysis engine exchange type system that can eliminate the above-mentioned problems.

本発明の課題は、はじめに、全ての説明変数の中から有意な説明変数を複数個選択し、次に、複数個の選択された(絞られた)変数中から、少なくとも2個ずつの全ての組み合わせをつくるようにした解析エンジン交換型システム及び解析エンジン交換型システム用のデータ解析プログラムを提供することにある。   The object of the present invention is to first select a plurality of significant explanatory variables from all the explanatory variables, and then select all of at least two of the selected (restricted) variables. It is an object of the present invention to provide an analysis engine exchange type system and a data analysis program for an analysis engine exchange type system that can be combined.

本発明による解析エンジン交換型システム及び本発明によるデータ解析プログラムは、以下のとおりである。   The analysis engine exchange type system according to the present invention and the data analysis program according to the present invention are as follows.

[請求項1] データ解析装置と、解析対象となるデータファイルを前記データ解析装置に入力する入力装置とを有し、
前記データ解析装置は、解析エンジン制御部と、解析エンジン部とを有し、
前記解析エンジン制御部は、1個の目的変数yとp個の説明変数x,x,…,xとからなる、前記解析対象となるデータファイルを受け取ると、前記p個の説明変数から1つの説明変数を取り出す全ての組み合わせを、順次、前記目的変数と共に、前記解析エンジン部にp(=p)個の組みのデータ(y,x),(y,x),…,(y,x)として渡していき、
前記解析エンジン部は、送られたp個の組みのデータに対し、予め定められた解析をそれぞれ実行し、解析結果を前記解析エンジン制御部に送り、
前記解析エンジン制御部は、前記解析結果に基づいて、前記p個の説明変数の中から、結果上位のp’個(p’<p)の説明変数x’,…,x’を選択し、次に、前記p’個の説明変数から2つの説明変数を取り出す全ての組み合わせを、順次、前記目的変数と共に、前記解析エンジン部にp’2(=p’×(p’−1)/2)個の組みのデータ(y,x’,x’),(y,x’,x’),…,(y,x’p’−1,x’p’)として渡していき、
前記解析エンジン部は、送られた(p’×(p’−1)/2)個の組みのデータに対し、別の予め定められた解析をそれぞれ実行し、別の解析結果を前記解析エンジン制御部に送り、
前記解析エンジン制御部は、前記別の解析結果に基づいて、前記p’個の説明変数の中から、結果上位の、p’個よりも少数個の説明変数を選択することを特徴とする解析エンジン交換型システム。
[Claim 1] A data analysis device and an input device for inputting a data file to be analyzed to the data analysis device,
The data analysis apparatus includes an analysis engine control unit and an analysis engine unit,
When the analysis engine control unit receives the data file to be analyzed consisting of one objective variable y and p explanatory variables x 1 , x 2 ,..., X p , the p explanatory variables All the combinations for extracting one explanatory variable from the data are sequentially put together with the objective variable in the analysis engine unit by p C 1 (= p) sets of data (y, x 1 ), (y, x 2 ), ..., (y, x p )
The analysis engine unit performs a predetermined analysis on the p sets of data sent, and sends an analysis result to the analysis engine control unit,
The analysis engine control unit selects p ′ explanatory variables x ′ 1 ,..., X ′ p that are higher in the result from the p explanatory variables based on the analysis result. Then, all the combinations for extracting two explanatory variables from the p ′ explanatory variables are sequentially put together with the objective variable into the analysis engine unit p ′ C 2 (= p ′ × (p′−1). ) / 2) sets of data (y, x ′ 1 , x ′ 2 ), (y, x ′ 1 , x ′ 3 ),..., (Y, x ′ p′−1 , x ′ p ′ ) And pass on as
The analysis engine unit performs another predetermined analysis on the (p ′ × (p′−1) / 2) sets of data sent, and outputs another analysis result to the analysis engine. To the control unit,
The analysis engine control unit selects, based on the other analysis result, from the p ′ explanatory variables, a lower number of explanatory variables than p ′, which is higher in the result. Engine replacement system.

[請求項2] 請求項1に記載の解析エンジン交換型システムにおいて、
前記データ解析装置の前記解析エンジン制御部に接続された出力装置を、更に有し、
前記解析エンジン制御部は、前記解析結果及び前記別の表示結果を前記出力装置に表示させる機能を有することを特徴とする解析エンジン交換型システム。
[Claim 2] In the analysis engine exchange type system according to claim 1,
An output device connected to the analysis engine control unit of the data analysis device;
The analysis engine control unit has a function of causing the output device to display the analysis result and the other display result.

[請求項3] 請求項1に記載の解析エンジン交換型システムにおいて、
前記解析エンジン部は、送られたp個の組みのデータに対し、前記予め定められた解析として、
y=f(x), i=1,2,…,p
で表される、p個のモデルの推定をそれぞれ実行し、解析結果として、p個のモデルに対する当てはまりの度合い及びp個の説明変数に対する有意さを、前記解析エンジン制御部に送り、
前記解析エンジン制御部は、前記p個のモデルに対する当てはまりの度合いの基準値に対する比較結果及び前記p個の説明変数に対する有意さの別の基準値に対する比較結果に基づいて、前記p個の説明変数の中から、結果上位のp’個の説明変数x’,…,x’を選択することを特徴とする解析エンジン交換型システム。
[Claim 3] In the analysis engine exchange type system according to claim 1,
The analysis engine unit, for the p sets of data sent, as the predetermined analysis,
y = f (x i ), i = 1, 2,..., p
P models are each estimated, and the analysis results are sent to the analysis engine control unit the degree of fit for the p models and the significance for the p explanatory variables,
The analysis engine control unit includes the p explanatory variables based on a comparison result with respect to a reference value of the degree of fit with respect to the p models and a comparison result with another reference value of significance with respect to the p explanatory variables. ., An analysis engine exchange type system characterized by selecting p ′ explanatory variables x ′ 1 ,..., X ′ p in the top result.

[請求項4] 請求項3に記載の解析エンジン交換型システムにおいて、
前記解析エンジン部は、送られた(p’×(p’−1)/2)個の組みのデータに対し、前記別の予め定められた解析として、
y=f(x,x), i,j=1,2,…,p’, i≠j
で表される、(p’×(p’−1)/2)個のモデルの推定をそれぞれ実行し、前記別の解析結果として、(p’×(p’−1)/2)個のモデルに対する当てはまりの度合い及び(p’×(p’−1)/2)個の説明変数に対する有意さを、前記解析エンジン制御部に送り、
前記解析エンジン制御部は、前記(p’×(p’−1)/2)個のモデルに対する当てはまりの度合いの基準値に対する比較結果及び前記(p’×(p’−1)/2)個の説明変数に対する有意さの別の基準値に対する比較結果に基づいて、前記p’個の説明変数の中から、結果上位の、p’個よりも少数個の説明変数を選択することを特徴とする解析エンジン交換型システム。
[Claim 4] In the analysis engine exchange type system according to claim 3,
The analysis engine unit, for the (p ′ × (p′−1) / 2) sets of data sent, as the other predetermined analysis,
y = f (x i , x j ), i, j = 1, 2,..., p ′, i ≠ j
The estimation of (p ′ × (p′−1) / 2) models represented by the following is performed, and as another analysis result, (p ′ × (p′−1) / 2) The degree of fit for the model and the significance for (p ′ × (p′−1) / 2) explanatory variables are sent to the analysis engine controller,
The analysis engine control unit compares the (p ′ × (p′−1) / 2) models with a comparison result with respect to a reference value of the degree of fit for the (p ′ × (p′−1) / 2) models. Based on the comparison result of another significance value for the explanatory variable with respect to another reference value, a lower number of explanatory variables than the p ′ number are selected from among the p ′ explanatory variables. Analysis engine exchange type system.

[請求項5] 請求項4に記載の解析エンジン交換型システムにおいて、
前記解析エンジン制御部は、前記p’個よりも少数個の説明変数を選択すると共に、前記解析エンジン部に、選択された少数個の説明変数を用いて、次のモデルの説明変数の個数を1個増やした状態で次のモデルの推定を実行させ、実行結果に基づいて、前記選択された少数個の説明変数の中から、より少数個の説明変数を選択することを特徴とする解析エンジン交換型システム。
[Claim 5] In the analysis engine exchange type system according to claim 4,
The analysis engine control unit selects a smaller number of explanatory variables than the p ′, and uses the selected small number of explanatory variables to determine the number of explanatory variables of the next model. An analysis engine characterized in that estimation of the next model is executed in a state where the number is increased by one, and a smaller number of explanatory variables are selected from the selected small number of explanatory variables based on the execution result. Interchangeable system.

[請求項6] 請求項1に記載の解析エンジン交換型システムにおいて、
前記データ解析装置に接続され、データ解析プログラムを記録した記録媒体を、更に有し、
前記データ解析プログラムは、前記記録媒体から前記データ解析装置に読み込まれ、前記データ解析装置の前記解析エンジン制御部及び前記解析エンジン部の前述した動作を制御することを特徴とする解析エンジン交換型システム。
[Claim 6] In the analysis engine exchange type system according to claim 1,
A recording medium connected to the data analysis device and recorded with a data analysis program is further included,
The data analysis program is read from the recording medium into the data analysis device, and controls the above-described operations of the analysis engine control unit and the analysis engine unit of the data analysis device. .

[請求項7] 解析エンジン制御部及び解析エンジン部を有するデータ解析装置と、解析対象となるデータファイルを前記データ解析装置に入力する入力装置と、前記データ解析装置に所定の処理を実行させるためのデータ解析プログラムを記録した記録媒体とを有する解析エンジン交換型システムにおける前記データ解析プログラムであって、
前記所定の処理は、
前記解析エンジン制御部が、1個の目的変数yとp個の説明変数x,x,…,xとからなる、前記解析対象となるデータファイルを受け取ると、前記p個の説明変数から1つの説明変数を取り出す全ての組み合わせを、順次、前記目的変数と共に、前記解析エンジン部にp(=p)個の組みのデータ(y,x),(y,x),…,(y,x)として渡していく第1のステップと、
前記解析エンジン部が、送られたp個の組みのデータに対し、予め定められた解析をそれぞれ実行し、解析結果を前記解析エンジン制御部に送る第2のステップと、
前記解析エンジン制御部が、前記解析結果に基づいて、前記p個の説明変数の中から、結果上位のp’個(p’<p)の説明変数x’,…,x’を選択し、次に、前記p’個の説明変数から2つの説明変数を取り出す全ての組み合わせを、順次、前記目的変数と共に、前記解析エンジン部にp’2(=p’×(p’−1)/2)個の組みのデータ(y,x’,x’),(y,x’,x’),…,(y,x’p’−1,x’p’)として渡していく第3のステップと、
前記解析エンジン部が、送られた(p’×(p’−1)/2)個の組みのデータに対し、別の予め定められた解析をそれぞれ実行し、別の解析結果を前記解析エンジン制御部に送る第4のステップと、
前記解析エンジン制御部が、前記別の解析結果に基づいて、前記p’個の説明変数の中から、結果上位の、p’個よりも少数個の説明変数を選択する第5のステップとを有することを特徴とすることを特徴とするデータ解析プログラム。
[Claim 7] A data analysis device having an analysis engine control unit and an analysis engine unit, an input device for inputting a data file to be analyzed to the data analysis device, and for causing the data analysis device to execute predetermined processing The data analysis program in an analysis engine exchange type system having a recording medium recording the data analysis program of
The predetermined process is:
When the analysis engine control unit receives the data file to be analyzed consisting of one objective variable y and p explanatory variables x 1 , x 2 ,..., X p , the p explanatory variables All the combinations for extracting one explanatory variable from the data are sequentially put together with the objective variable in the analysis engine unit by p C 1 (= p) sets of data (y, x 1 ), (y, x 2 ), ..., the first step passing as (y, x p ),
A second step in which the analysis engine unit executes a predetermined analysis on each of the p sets of data sent, and sends an analysis result to the analysis engine control unit;
Based on the analysis result, the analysis engine control unit selects p ′ explanatory variables x ′ 1 ,..., X ′ p from the top of the p explanatory variables (p ′ <p). Then, all the combinations for extracting two explanatory variables from the p ′ explanatory variables are sequentially put together with the objective variable into the analysis engine unit p ′ C 2 (= p ′ × (p′−1). ) / 2) sets of data (y, x ′ 1 , x ′ 2 ), (y, x ′ 1 , x ′ 3 ),..., (Y, x ′ p′−1 , x ′ p ′ ) As a third step,
The analysis engine unit executes another predetermined analysis on the (p ′ × (p′−1) / 2) sets of data sent, and sends another analysis result to the analysis engine. A fourth step to send to the control unit;
A fifth step in which the analysis engine control unit selects, based on the other analysis result, from the p ′ explanatory variables, a lower number of explanatory variables than p ′, which are higher in the result. A data analysis program characterized by comprising.

[請求項8] 請求項7に記載のデータ解析プログラムにおいて、
前記解析エンジン交換型システムが前記データ解析装置の前記解析エンジン制御部に接続された出力装置を、更に有している場合に、前記解析エンジン制御部が、前記解析結果及び前記別の表示結果を前記出力装置に表示させるステップを、更に有することを特徴とするデータ解析プログラム。
[Claim 8] In the data analysis program according to claim 7,
When the analysis engine exchange type system further includes an output device connected to the analysis engine control unit of the data analysis device, the analysis engine control unit displays the analysis result and the other display result. A data analysis program further comprising the step of displaying on the output device.

[請求項9] 請求項7に記載のデータ解析プログラムにおいて、
前記第2のステップは、前記解析エンジン部が、送られたp個の組みのデータに対し、前記予め定められた解析として、
y=f(x), i=1,2,…,p
で表される、p個のモデルの推定をそれぞれ実行し、解析結果として、p個のモデルに対する当てはまりの度合い及びp個の説明変数に対する有意さを、前記解析エンジン制御部に送るステップであり、
前記第3のステップは、前記解析エンジン制御部が、前記p個のモデルに対する当てはまりの度合いの基準値に対する比較結果及び前記p個の説明変数に対する有意さの別の基準値に対する比較結果に基づいて、前記p個の説明変数の中から、結果上位のp’個の説明変数x’,…,x’を選択するステップであることを特徴とするデータ解析プログラム。
[Claim 9] In the data analysis program according to claim 7,
In the second step, the analysis engine unit performs the predetermined analysis on the p sets of data sent,
y = f (x i ), i = 1, 2,..., p
Each of the estimations of the p models represented by: and sending the degree of fit to the p models and the significance of the p explanatory variables as analysis results to the analysis engine control unit,
The third step is based on the comparison result of the analysis engine control unit with respect to the reference value of the degree of fit with respect to the p models and the comparison result with respect to another reference value of the significance with respect to the p explanatory variables. A data analysis program characterized in that it is a step of selecting p ′ explanatory variables x ′ 1 ,..., X ′ p that are higher in the result from the p explanatory variables.

[請求項10] 請求項9に記載のデータ解析プログラムにおいて、
前記第4のステップは、前記解析エンジン部が、送られた(p’×(p’−1)/2)個の組みのデータに対し、前記別の予め定められた解析として、
y=f(x,x), i,j=1,2,…,p’, i≠j
で表される、(p’×(p’−1)/2)個のモデルの推定をそれぞれ実行し、前記別の解析結果として、(p’×(p’−1)/2)個のモデルに対する当てはまりの度合い及び(p’×(p’−1)/2)個の説明変数に対する有意さを、前記解析エンジン制御部に送るステップであり、
前記第5のステップは、前記解析エンジン制御部が、前記(p’×(p’−1)/2)個のモデルに対する当てはまりの度合いの基準値に対する比較結果及び前記(p’×(p’−1)/2)個の説明変数に対する有意さの別の基準値に対する比較結果に基づいて、前記p’個の説明変数の中から、結果上位の、p’個よりも少数個の説明変数を選択するステップであることを特徴とするデータ解析プログラム。
[Claim 10] In the data analysis program according to claim 9,
In the fourth step, the analysis engine unit sends the (p ′ × (p′−1) / 2) sets of data sent as the other predetermined analysis,
y = f (x i , x j ), i, j = 1, 2,..., p ′, i ≠ j
The estimation of (p ′ × (p′−1) / 2) models represented by the following is performed, and as another analysis result, (p ′ × (p′−1) / 2) Sending the degree of fit to the model and significance for (p ′ × (p′−1) / 2) explanatory variables to the analysis engine controller,
In the fifth step, the analysis engine control unit compares the comparison result with the reference value of the degree of fit for the (p ′ × (p′−1) / 2) models and the (p ′ × (p ′ -1) / 2) Based on the comparison result with respect to another reference value of the significance for the explanatory variables, the explanatory variables of the top number of the p ′ explanatory variables are smaller than the p ′ explanatory variables. A data analysis program characterized by being a step of selecting.

[請求項11] 請求項10に記載のデータ解析プログラムにおいて、
前記解析エンジン制御部が、前記p’個よりも少数個の説明変数を選択すると共に、前記解析エンジン部に、選択された少数個の説明変数を用いて、次のモデルの説明変数の個数を1個増やした状態で次のモデルの推定を実行させ、実行結果に基づいて、前記選択された少数個の説明変数の中から、より少数個の説明変数を選択するステップを、更に有することを特徴とするデータ解析プログラム。
[Claim 11] In the data analysis program according to claim 10,
The analysis engine control unit selects a smaller number of explanatory variables than the p ′ number and uses the selected small number of explanatory variables for the analysis engine unit to determine the number of explanatory variables of the next model. The method further includes the step of executing estimation of the next model in a state where the number is increased by one, and selecting a smaller number of explanatory variables from the selected small number of explanatory variables based on the execution result. A featured data analysis program.

本発明によれば、はじめに、全ての説明変数の中から有意な説明変数を複数個選択し、次に、複数個の選択された(絞られた)変数中から、少なくとも2個ずつの全ての組み合わせをつくるようにした解析エンジン交換型システム及び解析エンジン交換型システム用のデータ解析プログラムが得られ、効率的に説明変数の全体の解析を終了することが可能となる。   According to the present invention, first, a plurality of significant explanatory variables are selected from all the explanatory variables, and then, at least two of all the selected (restricted) variables are selected. An analysis engine exchange type system and a data analysis program for the analysis engine exchange type system that can be combined are obtained, and the analysis of the entire explanatory variable can be efficiently completed.

次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。   Next, a first embodiment of the present invention will be described in detail with reference to the drawings.

図1を参照すると、本発明の第1の実施の形態による解析エンジン交換型システムは、プログラム制御により動作するデータ解析装置2と、解析対象となるデータファイルをデータ解析装置2に入力する入力装置1と、ディスプレイ装置や印刷装置等の出力装置3とを含む。この際の解析対象となるデータファイルは、1個の目的変数とp個の説明変数からなる。データ解析装置2は、解析エンジン制御部21と、解析エンジン部22とを備えている。   Referring to FIG. 1, an analysis engine exchange type system according to a first embodiment of the present invention includes a data analysis device 2 that operates under program control, and an input device that inputs a data file to be analyzed to the data analysis device 2. 1 and an output device 3 such as a display device or a printing device. The data file to be analyzed at this time consists of one objective variable and p explanatory variables. The data analysis device 2 includes an analysis engine control unit 21 and an analysis engine unit 22.

解析エンジン制御部21は、与えられたデータファイルの目的変数と選択された説明変数を取り出して、解析エンジン部22へデータを送る。解析エンジン部22は送られたデータに対し、あらかじめ定められた解析を実行し、解析結果を解析エンジン制御部21に送る。出力装置3では、解析エンジン制御部21から送られた解析結果を統計量やパラメータ(例えば、説明変数ごとの統計量にもとづいた有意確率)を用いてソートして表示する。その解析結果に基づいて、解析エンジン制御部21は、上位p’個(p’<p)の説明変数を選択し、次のモデルに含める説明変数の個数は増やして、入力装置1からの解析を再度実行する。その解析結果に基づいて、選択する説明変数の個数を減らしていく。処理を繰り返すことにより、モデルに含める説明変数の個数を増やしていくが、解析の対象となる説明変数の個数は減らしていくために、解析実行の回数は総当たり法より少ないので、効率的に変数の全体の解析を終了することが可能となる。   The analysis engine control unit 21 extracts the objective variable and the selected explanatory variable of the given data file, and sends the data to the analysis engine unit 22. The analysis engine unit 22 performs a predetermined analysis on the sent data and sends the analysis result to the analysis engine control unit 21. In the output device 3, the analysis results sent from the analysis engine control unit 21 are sorted and displayed using statistics and parameters (for example, significance based on statistics for each explanatory variable). Based on the analysis result, the analysis engine control unit 21 selects the top p ′ explanatory variables (p ′ <p), increases the number of explanatory variables included in the next model, and analyzes from the input device 1. Run again. Based on the analysis result, the number of explanatory variables to be selected is reduced. By repeating the process, the number of explanatory variables to be included in the model is increased, but since the number of explanatory variables to be analyzed is decreased, the number of analysis executions is less than the brute force method. It becomes possible to finish the analysis of the whole variable.

次に、図2を参照して本実施の形態の動作について詳細に説明する。   Next, the operation of the present embodiment will be described in detail with reference to FIG.

解析対象となるデータファイルにおけるデータは、下記の数式1に示すように、1個の目的変数とp個の説明変数から成り立っている。   The data in the data file to be analyzed is composed of one objective variable and p explanatory variables, as shown in Equation 1 below.

Figure 0004421971
Figure 0004421971

解析エンジン制御部21はデータファイルを入力装置1から受け取り、p個の説明変数から1つの説明変数を取り出す全ての組み合わせを、順次、1個の目的変数と共に、解析エンジン部22に渡していく。つまり、下記の数式2に示すp個の組みのデータを渡す。   The analysis engine control unit 21 receives the data file from the input device 1 and sequentially passes all combinations for extracting one explanatory variable from the p explanatory variables to the analysis engine unit 22 together with one objective variable. That is, p sets of data shown in the following Equation 2 are passed.

Figure 0004421971
Figure 0004421971

解析エンジン部22は、1組ごとのデータに対して、回帰分析やロジスティック回帰分析などの解析を行う。この場合、下記の数式3のp個のモデルを推定する。つまり、p回繰り返して計算を行う。   The analysis engine unit 22 performs analysis such as regression analysis and logistic regression analysis on each set of data. In this case, p models of Equation 3 below are estimated. That is, the calculation is repeated p times.

Figure 0004421971
Figure 0004421971

回帰分析の場合は、回帰モデル式は上記の数式3に示されている通りで、説明変数の回帰係数とその有意さを表す統計量、モデルの当てはまりのよさを表す統計量を計算する。モデルのあてはまりを表す統計量および回帰係数の有意さを表す統計量は任意のものを定義できるが、例として、下記の数式4に示す、各モデルの回帰係数と、モデルのあてはまりを表す統計量として重相関係数と、回帰係数の有意さを表す統計量としてt値およびp値とを、定義する。   In the case of regression analysis, the regression model equation is as shown in Equation 3 above, and the regression coefficient of the explanatory variable, the statistic indicating its significance, and the statistic indicating the fit of the model are calculated. The statistic that represents the fit of the model and the statistic that represents the significance of the regression coefficient can be defined arbitrarily. For example, the regression coefficient of each model and the statistic that represents the fit of the model are shown in Equation 4 below. Are defined as a multiple correlation coefficient and t-value and p-value as statistics representing the significance of the regression coefficient.

Figure 0004421971
Figure 0004421971

p個の組のデータを解析した結果は、p個のモデルに対する当てはまりの度合い、p個の説明変数に対する有意さである。解析エンジン制御部21は、これらの結果を、下記の数式5に示すような基準を設けて、モデルおよび変数を選択する。   The result of analyzing the p sets of data is the degree of fit for the p models and the significance for the p explanatory variables. The analysis engine control unit 21 selects a model and a variable based on these results by providing a reference as shown in Equation 5 below.

Figure 0004421971
Figure 0004421971

これにより、p個の説明変数の内のp’個の説明変数(p’<p)に絞りこまれる。   This narrows down to p ′ explanatory variables (p ′ <p) out of the p explanatory variables.

ここで、データファイルは、下記の数式6に示すように、1個の目的変数と上記p’個の説明変数とから成り立っている。   Here, the data file is composed of one objective variable and the above p ′ explanatory variables as shown in Equation 6 below.

Figure 0004421971
Figure 0004421971

解析エンジン制御部21は、上記データファイルを入力装置1から受け取る。或いは、解析エンジン制御部21は、上記データファイルを解析エンジン制御部21内で作る。そして、解析エンジン制御部21は、p’個の説明変数から2つ取り出す全ての組み合わせを、順次、1個の目的変数と共に、解析エンジン部22に渡していく。つまり、下記の数式7に示す、p’2=[p’×(p’−1)/2!]=[p’×(p’−1)/2]個の組みのデータを渡す。 The analysis engine control unit 21 receives the data file from the input device 1. Alternatively, the analysis engine control unit 21 creates the data file in the analysis engine control unit 21. Then, the analysis engine control unit 21 sequentially passes all combinations extracted from the p ′ explanatory variables to the analysis engine unit 22 together with one objective variable. That is, p ′ C 2 = [p ′ × (p′−1) / 2! ] = [P ′ × (p′−1) / 2] sets of data are passed.

Figure 0004421971
Figure 0004421971

解析エンジン部22は、1組ごとのデータに対して、回帰分析やロジスティック回帰分析などの解析を行う。この場合、下記の数式8に示す、p’×(p’−1)/2個のモデルを推定する。   The analysis engine unit 22 performs analysis such as regression analysis and logistic regression analysis on each set of data. In this case, p ′ × (p′−1) / 2 models shown in Equation 8 below are estimated.

Figure 0004421971
Figure 0004421971

回帰分析およびロジスティック回帰の各統計量およびモデルのあてはまりの度合いを示す統計量および各説明変数の有意さを示す統計量は、上記の数式4により同様に求めることができる。ただし、p=2とする。   A statistical quantity indicating the degree of fit of each statistical quantity and model of regression analysis and logistic regression, and a statistical quantity indicating the significance of each explanatory variable can be obtained in the same manner using Equation 4 above. However, p = 2.

さらに同様に、下記の数式9に示す基準により、説明変数を数十個に絞り込む。   Similarly, the explanatory variables are narrowed down to several tens according to the criterion shown in the following formula 9.

Figure 0004421971
Figure 0004421971

次に絞り込まれた説明変数を用いて、モデルの説明変数の個数を1個増やして推定を行い、処理を繰り返す。このようにして、説明変数を10個乃至20個程度に絞り込んでいき、個々の説明変数と目的変数との関係を個別に調査できるようにする。   Next, using the narrowed explanatory variables, the number of explanatory variables in the model is increased by 1, and the process is repeated. In this way, the explanatory variables are narrowed down to about 10 to 20, so that the relationship between each explanatory variable and the objective variable can be individually investigated.

上記の内容を図に示すと、図2のようになる。   The above contents are shown in FIG.

解析エンジン部22は、回帰分析だけではなく、ロジスティック回帰分析、判別関数、t−検定、マン・ホイットニのU検定など様々な統計手法に置き換えることにより、任意の解析手法を用いることができる。これを可能にするのが、解析エンジン部22と解析エンジン制御部21とのインタフェースである。   The analysis engine unit 22 can use any analysis method by replacing it with various statistical methods such as logistic regression analysis, discriminant function, t-test, and Mann-Whitney U test as well as regression analysis. The interface between the analysis engine unit 22 and the analysis engine control unit 21 makes this possible.

解析エンジン部22と解析エンジン制御部21とのインタフェースを、図3に示す。   An interface between the analysis engine unit 22 and the analysis engine control unit 21 is shown in FIG.

図3において、解析エンジン制御部21は、繰り返し制御ブロックとして作用し、繰り返しの番号などのパラメータの分析1回分の個数とそのリスト31を、パラメータおよびデータ入力部22aを介して、統計解析計算部として作用する解析エンジン部22に送る。解析エンジン部22は、統計量、検定統計量などの結果出力部22bを介して統計量、検定統計量などの結果35を解析エンジン制御部21に送る。解析エンジン制御部21は、ブロック21aにおいて、結果編集及び出力を行い、結果の表示33を出力装置3(図1)に表示させる。解析エンジン制御部21は、ブロック21aにおいて、更に、基準値による変数(説明変数)の抽出を行い、抽出された変数の一覧を、繰り返しごとの変数一覧表示36として出力装置3に表示させる。   In FIG. 3, the analysis engine control unit 21 functions as a repetitive control block, and the number of parameters for one analysis such as a repetitive number and a list 31 thereof are sent to the statistical analysis calculation unit via the parameter and data input unit 22a. To the analysis engine unit 22 acting as The analysis engine unit 22 sends a result 35 such as a statistic and a test statistic to the analysis engine control unit 21 via a result output unit 22b such as a statistic and a test statistic. In block 21a, the analysis engine control unit 21 performs result editing and output, and displays the result display 33 on the output device 3 (FIG. 1). In block 21a, the analysis engine control unit 21 further extracts a variable (explanatory variable) based on the reference value, and causes the output device 3 to display a list of the extracted variables as a variable list display 36 for each repetition.

図4に、図3の31のデータ構造と、図3の35のデータ構造とを示す。   4 shows the data structure 31 in FIG. 3 and the data structure 35 in FIG.

次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。   Next, a second embodiment of the present invention will be described in detail with reference to the drawings.

図5を参照すると、本発明の第2の実施の形態による解析エンジン交換型システムは、典型的にはコンピュータのCPU(Central Processing Unit)であるデータ解析装置5と、図1と同様の入力装置1及び出力装置3とを備えている。更に、解析エンジン交換型システムは、データ解析プログラムを記録した記録媒体4を備える。この記録媒体4は可搬形あるいは固定型のいずれであってもよく、磁気ディスク、半導体メモリ、CD-ROMその他の記録媒体であってもよい。   Referring to FIG. 5, the analysis engine exchange type system according to the second exemplary embodiment of the present invention typically includes a data analysis device 5 that is a CPU (Central Processing Unit) of a computer, and an input device similar to FIG. 1 and an output device 3. Further, the analysis engine exchange type system includes a recording medium 4 on which a data analysis program is recorded. The recording medium 4 may be either a portable type or a fixed type, and may be a magnetic disk, a semiconductor memory, a CD-ROM, or other recording media.

また、本手法を実行できるコンピュータプログラム(上記データ解析プログラム)を、ネットワークに接続されたコンピュータの記録装置に格納しておき、ネットワークを介して他のコンピュータに転送することもできる。本アルゴリズムを実行するコンピュータプログラム(上記データ解析プログラム)を提供する提供媒体としては、様々な形式のコンピュータに読み出し可能な媒体として頒布可能であって、特定のタイプの媒体に限定されるものではない。   In addition, a computer program (the above data analysis program) that can execute this method can be stored in a recording device of a computer connected to a network and transferred to another computer via the network. As a providing medium for providing a computer program (the above data analysis program) for executing the present algorithm, it can be distributed as a computer-readable medium in various formats, and is not limited to a specific type of medium. .

上記データ解析プログラムは記録媒体4からデータ解析装置5に読み込まれ、データ解析装置5の動作を制御し、データ解析装置5に、入力装置1から入力されたデータファイルに対して、図1のデータ解析装置2による処理と同一の処理を実行する。   The data analysis program is read from the recording medium 4 into the data analysis device 5, controls the operation of the data analysis device 5, and the data file shown in FIG. The same processing as that performed by the analysis device 2 is executed.

次に、本発明の実施例を、実データを参照して具体的に説明する。かかる実施例は、図1の第1の実施の形態による解析エンジン交換型システムに対応するものである。図6に示すように、分析データはSNP(Single Nucleotide Polymorphism:シングル・ヌクレオチド(塩基)ポリモルフィズ(多型))データ及び臨床データで、目的変数(Y)として副作用の有/無(1 or 0)、説明変数(X)としてSNPデータを用いる。ここで、SNPデータにおいては、例えば、(A/A,A/T,T/T)=(10,11,01)のように1SNPに対して2変数を割り当てる。これにより、解析に対して用いた説明変数の個数は約5500個、ケース数は54である。   Next, an embodiment of the present invention will be specifically described with reference to actual data. This example corresponds to the analysis engine exchange type system according to the first embodiment of FIG. As shown in FIG. 6, the analysis data are SNP (Single Nucleotide Polymorphism) data and clinical data, with or without side effects (1 or 0) as the objective variable (Y). SNP data is used as the explanatory variable (X). Here, in the SNP data, for example, two variables are assigned to one SNP as (A / A, A / T, T / T) = (10, 11, 01). As a result, the number of explanatory variables used for the analysis is about 5500 and the number of cases is 54.

このデータをロジスティック回帰モデルにあてはめて分析を行う。n個の個体についてp個の説明変数を含むロジスティック回帰モデルは、以下の数式10を仮定する。   This data is applied to a logistic regression model for analysis. A logistic regression model including p explanatory variables for n individuals assumes the following Equation 10.

Figure 0004421971
Figure 0004421971

ここで、θiは個体に関する成功確率、λiはθiのロジスティック変換である。αikは個体iに関するk番目の説明変数の値、βはk番目の説明変数のロジスティック尺度上の回帰係数である。 Here, θ i is the success probability for the individual, and λ i is the logistic transformation of θ i . α ik is the value of the k-th explanatory variable for the individual i, and β k is the regression coefficient on the logistic scale of the k-th explanatory variable.

n個の個体について二値反応観測値y1, y2, …, yn,が与えられると、対数尤度は下記の数式11となる。 Given binary response observation values y 1 , y 2 ,..., y n for n individuals, the log likelihood is given by Equation 11 below.

Figure 0004421971
Figure 0004421971

ここで、

Figure 0004421971
とすると、この数式12で定義された、L(β)を最大にするβの値を、求めるためには、L(β)を目的関数とする非線形最適化問題を解く必要がある。この解法としてここでは、Newton-Raphson法を用いる(非特許文献1を参照)。 here,
Figure 0004421971
Then, in order to obtain the value of β defined by Equation 12 that maximizes L (β), it is necessary to solve a nonlinear optimization problem with L (β) as an objective function. Here, Newton-Raphson method is used as this solution (see Non-Patent Document 1).

説明変数が1つの場合のモデルは、図7に示したような解析結果になる。   The model in the case of one explanatory variable has an analysis result as shown in FIG.

図7において、1行ごとに1回の解析結果を表している。各列においては、「R_Variable No.」は目的変数を表す番号、「E_Variable No.」は説明変数を表す番号である。「Status」は解析処理がエラーになかったかどうかを表している「X2L」はロジスティック回帰モデルの検定統計量である。「B0」および「B」はそれぞれ、定数項と回帰係数である。「t値」および「P値」はそれぞれ説明変数の検定統計量である。   In FIG. 7, one analysis result is shown for each row. In each column, “R_Variable No.” is a number representing an objective variable, and “E_Variable No.” is a number representing an explanatory variable. “Status” indicates whether or not the analysis processing was in error, and “X2L” is a test statistic of the logistic regression model. “B0” and “B” are a constant term and a regression coefficient, respectively. “T value” and “P value” are test statistic of each explanatory variable.

また、図7では、計算されたロジスティック回帰係数の検定統計量t値に対するp値の大きさを小さな順にならべかえられており、ロジスティック回帰係数の影響度の大きい順に見ることができる。   In FIG. 7, the magnitudes of the p values with respect to the test statistic t value of the calculated logistic regression coefficient are sorted in ascending order, and can be seen in the order of the influence of the logistic regression coefficient.

ロジスティック回帰モデルの検定統計量であるピアソンのχ統計量は以下の数式13により計算する。 Pearson's χ 2 statistic, which is a test statistic of the logistic regression model, is calculated by the following Equation 13.

Figure 0004421971
Figure 0004421971

各説明変数のt値は、下記の数式14のように計算する。   The t value of each explanatory variable is calculated as in Equation 14 below.

Figure 0004421971
Figure 0004421971

ここで、s.e.( )は( )内の要素の標準誤差(standard error)である。   Here, s.e. () is the standard error of the elements in ().

P値については、上記数式14のt値が自由度N−p−1のt分布に従うので、t分布のt値に対応する上側確率を求めることにより計算することができる。   The P value can be calculated by obtaining the upper probability corresponding to the t value of the t distribution because the t value of the above equation 14 follows the t distribution with Np−1 degrees of freedom.

上記の結果により、副作用の有/無がどの遺伝子と関連が強いかということが分かり、関連の強い遺伝子を絞り込むことが可能となる。   From the above results, it can be seen which gene has a strong association with the presence / absence of side effects, and it is possible to narrow down the genes with strong association.

上記第1及び上記第2の実施の形態によれば、各種の統計分析手法が遺伝子発現解析用DNAチップやマイクロアレイなどの大量の変数を持つデータに適用できるようになる。変数の総数を約30000個とした場合、繰り返しの回数においても、
説明変数が1個:3万回
説明変数が2個:50万回(1説明変数時に約1000個の説明変数を抽出)
説明変数が3個:17万回(2説明変数時に約100個の説明変数を抽出)


というようになり、現実的な時間内において処理を終えることができる。
According to the first and second embodiments, various statistical analysis methods can be applied to data having a large amount of variables such as a DNA chip for gene expression analysis and a microarray. If the total number of variables is about 30,000,
One explanatory variable: 30,000 times Two explanatory variables: 500,000 times (about 1000 explanatory variables are extracted for one explanatory variable)
3 explanatory variables: 170,000 times (about 100 explanatory variables are extracted when 2 explanatory variables)
:
:
Thus, the processing can be completed within a realistic time.

更に、上記第1及び上記第2の実施の形態によれば、既存の変数選択法よりも効率的に大量変数の中から候補となる変数を絞り込むことができる。その理由は、モデルに含まれる説明変数の個数ごとに独立して候補となる変数を選択することができるからである。さらに、上記の数式3を、下記の数式15のように特定の説明変数を固定したモデルに拡張することによって、既存の変数増加法や変数増減法なども適用することができる。   Furthermore, according to the first and second embodiments, candidate variables can be narrowed down from among a large number of variables more efficiently than existing variable selection methods. This is because candidate variables can be selected independently for each number of explanatory variables included in the model. Furthermore, the existing variable increasing method, variable increasing / decreasing method, and the like can be applied by expanding the above mathematical formula 3 to a model in which specific explanatory variables are fixed as in the following mathematical formula 15.

Figure 0004421971
Figure 0004421971

また、上記第1及び上記第2の実施の形態によれば、多くの推定された様々な変数の組合せに対するモデルから、どのように最適なモデルの組合せ、あるいは、有意な変数の組合せを選んだらよいのかという基準を簡単に設定できる。推定されたモデル自体の重相関係数やF値などの統計量や、変数毎のt値やp値などの統計量を任意に選んで、基準値以上(あるいは以下)の変数の組合せを選択することができる。   In addition, according to the first and second embodiments, how to select the most appropriate model combination or significant variable combination from the models for many estimated combinations of variables. It is easy to set the standard of whether it is good. Select a statistical combination such as the estimated correlation coefficient or F value of the model itself, or a statistical value such as t value or p value for each variable, and select a combination of variables above (or below) the reference value. can do.

更に、上記第1及び上記第2の実施の形態によれば、既存の変数選択法よりも幅広い変数の候補からモデルを抽出することが可能である。既存の変数増減法、減少法、増加法などにおいては、抽出されるモデルは1個のみである。しかし、本発明においては計算されたモデルの結果をすべて保存しているので、モデルに対する基準を設けて、上位K個の解析結果をユーザーに表示して結果の検討を行うことができる。さらに、この上位K個のモデルに含まれる説明変数を使って次のモデル選択のステップに進むことができ、既存の変数選択法よりも幅広い変数の候補からモデルを抽出することが可能となる。   Furthermore, according to the first and second embodiments, it is possible to extract a model from variable candidates that are wider than those of the existing variable selection method. In the existing variable increase / decrease method, decrease method, increase method, etc., only one model is extracted. However, since all the calculated model results are stored in the present invention, it is possible to set a standard for the model and display the top K analysis results to the user to examine the results. Furthermore, it is possible to proceed to the next model selection step using the explanatory variables included in the top K models, and it is possible to extract models from a wider range of variable candidates than the existing variable selection method.

また、上記第1及び上記第2の実施の形態によれば、複数の解析手法を横断的に組み合わせて使うことができることである。DNAチップやマイクロアレイに適用する手法は、t−検定、マン・ホイットニのU検定、フィッシャーの直接確率検定などの単変量の解析から始まり、回帰分析、ロジスティック回帰分析、分散分析、判別分析、主成分分析などの多変量解析などの統計手法、ニューラルネットワーク、二分木解析法やサポートベクターマシン(SVM)などのデータマイニング手法など多岐に渡るが、解析エンジン部をこれらの手法に置き換えることにより、説明変数の絞り込み時に異なる手法を組み合わせて解析することができる。   Further, according to the first and second embodiments, it is possible to use a plurality of analysis methods in a crosswise combination. Techniques applied to DNA chips and microarrays start with univariate analysis such as t-test, Mann-Whitney U test, and Fisher's exact test, and then regression analysis, logistic regression analysis, variance analysis, discriminant analysis, principal component There are a wide variety of statistical methods such as multivariate analysis such as analysis, neural network, binary tree analysis method and data mining method such as support vector machine (SVM), but by replacing the analysis engine part with these methods, explanatory variables It is possible to analyze by combining different methods when narrowing down.

本発明の第1の実施の形態による解析エンジン交換型システムのブロック図である。It is a block diagram of an analysis engine exchange type system by a 1st embodiment of the present invention. 図1の解析エンジン交換型システムの解析エンジン制御部における、変数の絞り込みの過程を示す流れ図である。It is a flowchart which shows the process of narrowing down a variable in the analysis engine control part of the analysis engine exchange type system of FIG. 図1の解析エンジン交換型システムの解析エンジン部と解析エンジン制御部とのインタフェースを示すブロック図である。FIG. 2 is a block diagram illustrating an interface between an analysis engine unit and an analysis engine control unit of the analysis engine exchange type system of FIG. 1. 図3の部分31のデータ構造と図3の部分35のデータ構造とを示す図である。It is a figure which shows the data structure of the part 31 of FIG. 3, and the data structure of the part 35 of FIG. 本発明の第2の実施の形態による解析エンジン交換型システムのブロック図である。It is a block diagram of an analysis engine exchange type system by a 2nd embodiment of the present invention. 図1の解析エンジン交換型システムに対応する実施例の動作の説明に使用する分析データの構造を示した図である。It is the figure which showed the structure of the analysis data used for description of operation | movement of the Example corresponding to the analysis engine exchange type system of FIG. 上記実施例における解析結果を示した図である。It is the figure which showed the analysis result in the said Example. 異なる解析手法を用いて変数を絞り込んでいくための処理を示す流れ図である。It is a flowchart which shows the process for narrowing down a variable using a different analysis method.

符号の説明Explanation of symbols

1 入力装置
2 データ解析装置
3 出力装置
4 記録媒体
5 データ解析装置
21 解析エンジン制御部
22 解析エンジン部
DESCRIPTION OF SYMBOLS 1 Input device 2 Data analysis device 3 Output device 4 Recording medium 5 Data analysis device 21 Analysis engine control part 22 Analysis engine part

Claims (9)

データ解析装置と、解析対象となるデータファイルを前記データ解析装置に入力する入力装置とを有し、
前記データ解析装置は、解析エンジン制御部と、解析エンジン部とを有し、
前記解析エンジン制御部は、1個の目的変数yとp個の説明変数x,x,…,xとからなる、前記解析対象となるデータファイルを受け取ると、前記p個の説明変数から1つの説明変数を取り出す全ての組み合わせを、順次、前記目的変数と共に、前記解析エンジン部にp(=p)個の組みのデータ(y,x),(y,x),…,(y,x)として渡していく第1の制御手段を有し、
前記解析エンジン部は、送られたp個の組みのデータに対し、予め定められた解析をそれぞれ実行し、解析結果を前記解析エンジン制御部に送る第2の制御手段を有し、
前記解析エンジン制御部は、前記解析結果に基づいて、前記p個の説明変数の中から、結果上位のp’個(p’<p)の説明変数x’,…,x’p’を選択し、次に、前記p’個の説明変数から2つの説明変数を取り出す全ての組み合わせを、順次、前記目的変数と共に、前記解析エンジン部にp’2(=p’×(p’−1)/2)個の組みのデータ(y,x’,x’),(y,x’,x’),…,(y,x’p’−1,x’p’)として渡していく第3の制御手段を有し、
前記解析エンジン部は、送られた(p’×(p’−1)/2)個の組みのデータに対し、別の予め定められた解析をそれぞれ実行し、別の解析結果を前記解析エンジン制御部に送る第4の制御手段を有し、
前記解析エンジン制御部は、前記別の解析結果に基づいて、前記p’個の説明変数の中から、結果上位の、p’個よりも少数個の説明変数を選択する第5の制御手段を有し、
前記予め定められた解析及び前記別の予め定められた解析は回帰分析による解析であり、前記説明変数は遺伝子データであり、前記目的変数は副作用の有/無(1/0)であり、副作用の有/無と関連の強い遺伝子データを絞り込むことを特徴とする解析エンジン交換型システム。
A data analysis device and an input device for inputting a data file to be analyzed to the data analysis device;
The data analysis apparatus includes an analysis engine control unit and an analysis engine unit,
When the analysis engine control unit receives the data file to be analyzed consisting of one objective variable y and p explanatory variables x 1 , x 2 ,..., X p , the p explanatory variables All the combinations for extracting one explanatory variable from the data are sequentially put together with the objective variable in the analysis engine unit by p C 1 (= p) sets of data (y, x 1 ), (y, x 2 ), ..., having a first control means passing as (y, x p ),
The analysis engine unit includes a second control unit that executes predetermined analysis on each of the p sets of data that has been sent, and sends analysis results to the analysis engine control unit.
Based on the analysis result, the analysis engine control unit selects p ′ explanatory variables x ′ 1 ,..., X ′ p ′ that are higher in the result from the p explanatory variables. Next, all combinations for extracting two explanatory variables from the p ′ explanatory variables are sequentially added to the analysis engine unit along with the objective variable in the analysis engine unit p ′ C 2 (= p ′ × (p′− 1) / 2) sets of data (y, x ′ 1 , x ′ 2 ), (y, x ′ 1 , x ′ 3 ),..., (Y, x ′ p′−1 , x ′ p ′ ) As a third control means
The analysis engine unit performs another predetermined analysis on the (p ′ × (p′−1) / 2) sets of data sent, and outputs another analysis result to the analysis engine. A fourth control means for sending to the control unit ;
The analysis engine control unit includes a fifth control unit that selects, based on the other analysis result, a lower number of explanatory variables than p ′, which is higher in the result, from the p ′ explanatory variables. Have
The predetermined analysis and the other predetermined analysis are analysis by regression analysis, the explanatory variable is genetic data, the target variable is presence / absence of side effect (1/0), Analysis engine exchange type system characterized by narrowing down genetic data strongly related to existence / non-existence of
請求項1に記載の解析エンジン交換型システムにおいて、
前記データ解析装置の前記解析エンジン制御部に接続された出力装置を、更に有し、
前記解析エンジン制御部は、前記解析結果及び前記別の解析結果を前記出力装置に出力する手段を、更に有することを特徴とする解析エンジン交換型システム。
In the analysis engine exchange type system according to claim 1,
An output device connected to the analysis engine control unit of the data analysis device;
The analysis engine control system further comprises means for outputting the analysis result and the other analysis result to the output device.
請求項1に記載の解析エンジン交換型システムにおいて、
前記解析エンジン部における前記第2の制御手段は、送られたp個の組みのデータに対し、前記予め定められた解析として、
y=f(x), i=1,2,…,p
で表される、p個のモデルの推定をそれぞれ実行し、解析結果として、p個のモデルに対する当てはまりの度合い及びp個の説明変数に対する有意さを、前記解析エンジン制御部に送るものであり、
前記解析エンジン制御部における前記第3の制御手段は、前記p個のモデルに対する当てはまりの度合いの基準値に対する比較結果及び前記p個の説明変数に対する有意さの別の基準値に対する比較結果に基づいて、前記p個の説明変数の中から、結果上位のp’個の説明変数x’,…,x’p’を選択するものであることを特徴とする解析エンジン交換型システム。
In the analysis engine exchange type system according to claim 1,
The second control means in the analysis engine unit, as the predetermined analysis for the p sets of data sent,
y = f (x i ), i = 1, 2,..., p
P models are each estimated, and the analysis results are sent to the analysis engine control unit, as analysis results, the degree of fit for the p models and the significance for the p explanatory variables.
The third control means in the analysis engine control unit is based on a comparison result with respect to a reference value of the degree of fit for the p models and a comparison result with another reference value of significance for the p explanatory variables. the out of p number of explanatory variables, the results of the upper p 'number of explanatory variables x' 1, ... analysis engine switched system, characterized in that, it is to select the x 'p'.
請求項3に記載の解析エンジン交換型システムにおいて、
前記解析エンジン部における前記第4の制御手段は、送られた(p’×(p’−1)/2)個の組みのデータに対し、前記別の予め定められた解析として、
y=f(x,x), i,j=1,2,…,p’, i≠j
で表される、(p’×(p’−1)/2)個のモデルの推定をそれぞれ実行し、前記別の解析結果として、(p’×(p’−1)/2)個のモデルに対する当てはまりの度合い及び(p’×(p’−1)/2)個の説明変数に対する有意さを、前記解析エンジン制御部に送るものであり、
前記解析エンジン制御部における前記第5の制御手段は、前記(p’×(p’−1)/2)個のモデルに対する当てはまりの度合いの基準値に対する比較結果及び前記(p’×(p’−1)/2)個の説明変数に対する有意さの別の基準値に対する比較結果に基づいて、前記p’個の説明変数の中から、結果上位の、p’個よりも少数個の説明変数を選択するものであることを特徴とする解析エンジン交換型システム。
In the analysis engine exchange type system according to claim 3,
The fourth control means in the analysis engine unit, as the other predetermined analysis, for the (p ′ × (p′−1) / 2) sets of data sent,
y = f (x i , x j ), i, j = 1, 2,..., p ′, i ≠ j
The estimation of (p ′ × (p′−1) / 2) models represented by the following is performed, and as another analysis result, (p ′ × (p′−1) / 2) The degree of fit for the model and the significance for (p ′ × (p′−1) / 2) explanatory variables are sent to the analysis engine control unit,
The fifth control means in the analysis engine control unit includes a comparison result with respect to a reference value of the degree of fit for the (p ′ × (p′−1) / 2) models and the (p ′ × (p ′ -1) / 2) Based on the comparison result with respect to another reference value of the significance for the explanatory variables, the explanatory variables of the top number of the p ′ explanatory variables are smaller than the p ′ explanatory variables. analysis engine switched system, characterized in that to select.
請求項1に記載の解析エンジン交換型システムにおいて、
前記データ解析装置に読み込まれるデータ解析プログラムを記録した記録媒体を、更に有し、
前記データ解析プログラムは、前記記録媒体から前記データ解析装置に読み込まれ、前記データ解析プログラムは、前記データ解析装置の前記解析エンジン制御部及び前記解析エンジン部の第1乃至第5の制御手段を制御することを特徴とする解析エンジン交換型システム。
In the analysis engine exchange type system according to claim 1,
A recording medium that records a data analysis program to be read by the data analysis device;
The data analysis program is read from the recording medium into the data analysis device, and the data analysis program controls the analysis engine control unit of the data analysis device and first to fifth control means of the analysis engine unit . An analysis engine exchange type system characterized by
解析エンジン制御部及び解析エンジン部を有するデータ解析装置と、解析対象となるデータファイルを前記データ解析装置に入力する入力装置とを有する解析エンジン交換型システムにおける、解析エンジン制御部及び解析エンジン部としてコンピュータを機能させるためのデータ解析プログラムであって、
記解析エンジン制御部が、1個の目的変数yとp個の説明変数x,x,…,xとからなる、前記解析対象となるデータファイルを受け取ると、前記p個の説明変数から1つの説明変数を取り出す全ての組み合わせを、順次、前記目的変数と共に、前記解析エンジン部にp(=p)個の組みのデータ(y,x),(y,x),…,(y,x)として渡していく第1のステップと、
前記解析エンジン部が、送られたp個の組みのデータに対し、予め定められた解析をそれぞれ実行し、解析結果を前記解析エンジン制御部に送る第2のステップと、
前記解析エンジン制御部が、前記解析結果に基づいて、前記p個の説明変数の中から、結果上位のp’個(p’<p)の説明変数x’,…,x’p’を選択し、次に、前記p’個の説明変数から2つの説明変数を取り出す全ての組み合わせを、順次、前記目的変数と共に、前記解析エンジン部にp’2(=p’×(p’−1)/2)個の組みのデータ(y,x’,x’),(y,x’,x’),…,(y,x’p’−1,x’p’)として渡していく第3のステップと、
前記解析エンジン部が、送られた(p’×(p’−1)/2)個の組みのデータに対し、別の予め定められた解析をそれぞれ実行し、別の解析結果を前記解析エンジン制御部に送る第4のステップと、
前記解析エンジン制御部が、前記別の解析結果に基づいて、前記p’個の説明変数の中から、結果上位の、p’個よりも少数個の説明変数を選択する第5のステップと
含む処理を実行し
前記予め定められた解析及び前記別の予め定められた解析は回帰分析による解析であり、前記説明変数は遺伝子データであり、前記目的変数は副作用の有/無(1/0)であり、副作用の有/無と関連の強い遺伝子データを絞り込むことを特徴とするデータ解析プログラム。
As an analysis engine control unit and an analysis engine unit in an analysis engine exchange type system having a data analysis device having an analysis engine control unit and an analysis engine unit, and an input device for inputting a data file to be analyzed to the data analysis device A data analysis program for causing a computer to function ,
Before SL analysis engine control unit, one objective variable y and p number of explanatory variables x 1 of, x 2, ..., consisting of x p, when receiving the data file serving as the analysis target, the p number of Description All combinations for extracting one explanatory variable from the variables are sequentially added to the analysis engine unit along with the objective variable in the p C 1 (= p) sets of data (y, x 1 ), (y, x 2 ). ,..., (Y, x p )
A second step in which the analysis engine unit executes a predetermined analysis on each of the p sets of data sent, and sends an analysis result to the analysis engine control unit;
Based on the analysis result, the analysis engine control unit selects p ′ explanatory variables x ′ 1 ,..., X ′ p ′ that are higher in the result from the p explanatory variables. Next, all combinations for extracting two explanatory variables from the p ′ explanatory variables are sequentially added to the analysis engine unit along with the objective variable in the analysis engine unit p ′ C 2 (= p ′ × (p′− 1) / 2) sets of data (y, x ′ 1 , x ′ 2 ), (y, x ′ 1 , x ′ 3 ),..., (Y, x ′ p′−1 , x ′ p ′ ) As a third step,
The analysis engine unit executes another predetermined analysis on the (p ′ × (p′−1) / 2) sets of data sent, and sends another analysis result to the analysis engine. A fourth step to send to the control unit;
A fifth step in which the analysis engine control unit selects, based on the other analysis result, from the p ′ explanatory variables, a lower number of explanatory variables than p ′, which are higher in the result; Including processing ,
The predetermined analysis and the other predetermined analysis are analysis by regression analysis, the explanatory variable is genetic data, the target variable is presence / absence of side effect (1/0), A data analysis program characterized by narrowing down genetic data strongly related to the presence or absence of.
請求項6に記載のデータ解析プログラムにおいて、
前記解析エンジン交換型システムが前記データ解析装置の前記解析エンジン制御部に接続された出力装置を、更に有している場合に、前記解析エンジン制御部が、前記解析結果及び前記別の解析結果を前記出力装置に出力するステップを、更に有することを特徴とするデータ解析プログラム。
In the data analysis program according to claim 6,
When the analysis engine exchange type system further includes an output device connected to the analysis engine control unit of the data analysis device, the analysis engine control unit displays the analysis result and the other analysis result. A data analysis program further comprising a step of outputting to the output device.
請求項6に記載のデータ解析プログラムにおいて、
前記第2のステップは、前記解析エンジン部が、送られたp個の組みのデータに対し、前記予め定められた解析として、
y=f(x), i=1,2,…,p
で表される、p個のモデルの推定をそれぞれ実行し、解析結果として、p個のモデルに対する当てはまりの度合い及びp個の説明変数に対する有意さを、前記解析エンジン制御部に送るステップであり、
前記第3のステップは、前記解析エンジン制御部が、前記p個のモデルに対する当てはまりの度合いの基準値に対する比較結果及び前記p個の説明変数に対する有意さの別の基準値に対する比較結果に基づいて、前記p個の説明変数の中から、結果上位のp’個の説明変数x’,…,x’p’を選択するステップであることを特徴とするデータ解析プログラム。
In the data analysis program according to claim 6,
In the second step, the analysis engine unit performs the predetermined analysis on the p sets of data sent,
y = f (x i ), i = 1, 2,..., p
Each of the estimations of the p models represented by: and sending the degree of fit to the p models and the significance of the p explanatory variables as analysis results to the analysis engine control unit,
The third step is based on the comparison result of the analysis engine control unit with respect to the reference value of the degree of fit with respect to the p models and the comparison result with respect to another reference value of the significance with respect to the p explanatory variables. A data analysis program characterized by the step of selecting p ′ explanatory variables x ′ 1 ,..., X ′ p ′ that are higher in the result from the p explanatory variables.
請求項8に記載のデータ解析プログラムにおいて、
前記第4のステップは、前記解析エンジン部が、送られた(p’×(p’−1)/2)個の組みのデータに対し、前記別の予め定められた解析として、
y=f(x,x), i,j=1,2,…,p’, i≠j
で表される、(p’×(p’−1)/2)個のモデルの推定をそれぞれ実行し、前記別の解析結果として、(p’×(p’−1)/2)個のモデルに対する当てはまりの度合い及び(p’×(p’−1)/2)個の説明変数に対する有意さを、前記解析エンジン制御部に送るステップであり、
前記第5のステップは、前記解析エンジン制御部が、前記(p’×(p’−1)/2)個のモデルに対する当てはまりの度合いの基準値に対する比較結果及び前記(p’×(p’−1)/2)個の説明変数に対する有意さの別の基準値に対する比較結果に基づいて、前記p’個の説明変数の中から、結果上位の、p’個よりも少数個の説明変数を選択するステップであることを特徴とするデータ解析プログラム。
In the data analysis program according to claim 8,
In the fourth step, the analysis engine unit sends the (p ′ × (p′−1) / 2) sets of data sent as the other predetermined analysis,
y = f (x i , x j ), i, j = 1, 2,..., p ′, i ≠ j
The estimation of (p ′ × (p′−1) / 2) models represented by the following is performed, and as another analysis result, (p ′ × (p′−1) / 2) Sending the degree of fit to the model and significance for (p ′ × (p′−1) / 2) explanatory variables to the analysis engine controller,
In the fifth step, the analysis engine control unit compares the comparison result with the reference value of the degree of fit for the (p ′ × (p′−1) / 2) models and the (p ′ × (p ′ -1) / 2) Based on the comparison result with respect to another reference value of the significance for the explanatory variables, the explanatory variables of the top number of the p ′ explanatory variables are smaller than the p ′ explanatory variables. A data analysis program characterized by being a step of selecting.
JP2004229532A 2004-08-05 2004-08-05 Analysis engine exchange system and data analysis program Expired - Fee Related JP4421971B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004229532A JP4421971B2 (en) 2004-08-05 2004-08-05 Analysis engine exchange system and data analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004229532A JP4421971B2 (en) 2004-08-05 2004-08-05 Analysis engine exchange system and data analysis program

Publications (2)

Publication Number Publication Date
JP2006048429A JP2006048429A (en) 2006-02-16
JP4421971B2 true JP4421971B2 (en) 2010-02-24

Family

ID=36026904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004229532A Expired - Fee Related JP4421971B2 (en) 2004-08-05 2004-08-05 Analysis engine exchange system and data analysis program

Country Status (1)

Country Link
JP (1) JP4421971B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007226639A (en) * 2006-02-24 2007-09-06 Mitsubishi Electric Corp Multivariate data discrimination device
US9811373B2 (en) 2011-02-09 2017-11-07 Nec Corporation Analysis engine control device
JP5068864B2 (en) * 2011-02-18 2012-11-07 Scsk株式会社 Logistic regression analysis system and logistic regression analysis program
US10102333B2 (en) 2013-01-21 2018-10-16 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
US20160232539A1 (en) * 2013-09-27 2016-08-11 Nec Corporation Information processing system, information processing method, and recording medium with program stored thereon
WO2015045318A1 (en) * 2013-09-27 2015-04-02 日本電気株式会社 Information processing system, information processing method, and recording medium with program stored thereon
JP6208259B2 (en) * 2013-12-25 2017-10-04 株式会社日立製作所 Factor extraction system and factor extraction method
JP2018077547A (en) * 2015-03-16 2018-05-17 国立大学法人東京農工大学 Parallel processing apparatus, parallel processing method, and parallelization processing program
CN107153836A (en) * 2016-03-03 2017-09-12 腾讯科技(深圳)有限公司 A kind of service parameter choosing method and relevant device
US10984334B2 (en) * 2017-05-04 2021-04-20 Viavi Solutions Inc. Endpoint detection in manufacturing process by near infrared spectroscopy and machine learning techniques
WO2019013196A1 (en) * 2017-07-14 2019-01-17 パナソニックIpマネジメント株式会社 Manufacturing management device, manufacturing system, and manufacturing management method

Also Published As

Publication number Publication date
JP2006048429A (en) 2006-02-16

Similar Documents

Publication Publication Date Title
Kerschke et al. Automated algorithm selection on continuous black-box problems by combining exploratory landscape analysis and machine learning
Galante et al. The challenge of modeling niches and distributions for data‐poor species: a comprehensive approach to model complexity
Yarmohammadi et al. Mining implicit 3D modeling patterns from unstructured temporal BIM log text data
Harman et al. The impact of input domain reduction on search-based test data generation
Di Martino et al. Web effort estimation: function point analysis vs. COSMIC
JP7353946B2 (en) Annotation device and method
US20120221501A1 (en) Molecular property modeling using ranking
JP4421971B2 (en) Analysis engine exchange system and data analysis program
Pitangueira et al. A systematic review of software requirements selection and prioritization using SBSE approaches
Georgoulakos et al. Evolutionary multi-objective optimization of business process designs with pre-processing
JP2018147280A (en) Data analysis device and data analysis method
Stoyanov et al. Predictive analytics methodology for smart qualification testing of electronic components
Shafiq et al. Retracted: Scientific programming using optimized machine learning techniques for software fault prediction to improve software quality
WO2015146100A1 (en) Load estimation system, information processing device, load estimation method, and storage medium for storing program
EP2043030A2 (en) Segmented modeling of large data sets
Neale Individual fit, heterogeneity, and missing data in multigroup sem
TWI772023B (en) Information processing device, information processing method and information processing program
Groß A prediction system for evolutionary testability applied to dynamic execution time analysis
Cheng et al. An integrated modeling mechanism for optimizing the simulation model of the construction operation
JP6371981B2 (en) Business support system, program for executing business support system, and medium recording the same
KR101609292B1 (en) Apparatus and method for managing a research and development project
JP5087518B2 (en) Evaluation apparatus and computer program
KR101649913B1 (en) Apparatus and method for managing a research and development project
JP6547341B2 (en) INFORMATION PROCESSING APPARATUS, METHOD, AND PROGRAM
JP7456512B2 (en) Learning devices, learning methods and learning programs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090527

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090826

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091203

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121211

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121211

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121211

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121211

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121211

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121211

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121211

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121211

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees