JP2007534031A - 統計モデルに用いる1つまたは複数の変量の選択方法およびそのシステム - Google Patents

統計モデルに用いる1つまたは複数の変量の選択方法およびそのシステム Download PDF

Info

Publication number
JP2007534031A
JP2007534031A JP2005504309A JP2005504309A JP2007534031A JP 2007534031 A JP2007534031 A JP 2007534031A JP 2005504309 A JP2005504309 A JP 2005504309A JP 2005504309 A JP2005504309 A JP 2005504309A JP 2007534031 A JP2007534031 A JP 2007534031A
Authority
JP
Japan
Prior art keywords
variables
rule
data
error rate
subsets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005504309A
Other languages
English (en)
Inventor
グレン・ストーン
Original Assignee
コモンウェルス サイエンティフィック アンド インダストリアル リサーチ オーガナイゼイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コモンウェルス サイエンティフィック アンド インダストリアル リサーチ オーガナイゼイション filed Critical コモンウェルス サイエンティフィック アンド インダストリアル リサーチ オーガナイゼイション
Publication of JP2007534031A publication Critical patent/JP2007534031A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

統計モデルで用いる1つまたは複数の変量を選択する方法である。本方法は、多変量データの変量に関し、複数のユニークな部分集合を作成するステップと、部分集合のそれぞれについて用いた際の判別規則の性能を求めるステップであって、判別規則が実質上、対角共分散行列を有する多変量正規階級密度に基づいているステップと、判別規則が望ましい性能を示した部分集合の少なくとも1つから1つまたは複数の変量を選択するステップを有する。

Description

本発明は、統計モデルで用いる1つまたは複数の変量を選択するためのシステムおよび方法に関する。本発明は、特に、観測(observation)の階級(クラス(class))を予測可能な分級器(クラシファイア(classifier))の構築用途に適し、かつ、それに限定されない。
一般に、統計モデルとは、観測の集合の構造に関する仮定的記述である。通例、統計モデルは、観測を招来したと推測される過程に関する数学的関数の形式を有する。通常、この数学的関数は、複数の変量(variables)に従属する。これらの変量は、数学的関数が推測した過程を忠実にモデル化するように注意深く選択される。
本発明の第1の態様においては、統計モデルで用いる1つまたは複数の変量を選択する方法が提供される。
この方法は、
多変量データの変量を含む複数のユニークな部分集合を作成するステップと、
部分集合のそれぞれに対し用いた場合の判別規則の性能を求めるステップであって、判別規則は、多変量正規階級密度(multivariate normal class densities)に基づいており、多変量正規階級密度は実質的に、対角共分散行列を備えている、ステップと、
判別規則が望ましい性能を示した部分集合の少なくとも1つから、1つまたは複数の変量を選択するステップを有する。
本方法で用いる判別規則は、広く一般に、独立した多変量正規データ(independent multinormal data)に対してのみ適すると考えられている点を考慮に入れると、出願人による研究成果は、驚くべきことに、本方法が、例えば、遺伝子発現データといった独立した多変量正規データでないデータに対しても非常によく適することを明らかにした。
複数のユニークな部分集合を作成するステップは、多変量データから、変量の集合の要素でない変量を識別するステップと、識別した変量をその集合に追加するステップを含むことが好ましい。
部分集合を作成する手法は、逐次的変量増加法(forward stepwise variable selection technique)に基づく。
あるいは、複数のユニークな部分集合を作成するステップは、集合内においてこれまでに除去されていなかった変量を識別するステップと、識別した変量を集合から除去するステップを含んでもよい。
この二者択一的な手法は、逐次的変量減少法(backward stepwise variable selection technique)に基づいてよい。
好ましくは、判別規則の性能を求めるステップは、判別規則の推定誤り率(prediction error rate)を評価するステップを含む。
さらに好ましくは、推定誤り率は、交差確認法による誤り率(cross-validated error rate)である。
あるいは、判別規則の性能を求めるステップは、尤度に基づいた手法を用いた評価を行ってもよい。
好ましくは、判別規則の望ましい性能は、判別規則の推定誤り率が、考え得る限りの最低であること、を含む。
あるいは、望まれる性能は、上記以外の望ましい誤り率でもよい。
好ましくは、多変量データは、遺伝子発現データを含む。
本発明の第2の態様においては、コンピュータ・ソフトウェアが提供される。このソフトウェアは、コンピュータ上で実行された場合、コンピュータは、本発明の第1の態様に記載のステップを実行することができる。
本発明の第3の態様においては、上記本発明の第2の態様に記載のソフトウェアを備えたコンピュータ記憶媒体が提供される。
本発明の第4の態様においては、観測に関する階級を推定するための統計モデルが提供される。このモデルは、本発明の第1の態様に記載の方法を用いて選択した1つまたは複数の変量を含んでいる。
本発明の第5の態様においては、統計モデルで用いる1つまたは複数の変量を選択するための装置が提供される。この装置は、
多変量データの変量を含む複数のユニークな部分集合を作成可能なデータ作成手段と、
部分集合のそれぞれに対し用いた場合の判別規則の性能を求めることができる処理手段であって、判別規則は、多変量正規階級密度に基づき、多変量正規階級密度は実質的に、対角共分散行列を備えている、処理手段と、
判別規則について望ましい性能を示した部分集合の少なくとも1つから、1つまたは複数の変量を選択することができる選択手段を有する。
好ましくは、データ作成手段は、多変量データから、変量の集合の要素ではない変量を識別し、そして、識別された変量を集合に追加することにより、複数のユニークな部分集合を作成することができる。
あるいは、データ作成手段は、集合内においてこれまでに除去されていなかった変量を識別し、そして、識別された変量を集合から除去することにより、複数のユニークな部分集合を作成することができる。
好ましくは、決定手段は、判別規則の推定誤り率を評価することにより、判別規則の性能を求めることができる。
さらに好ましくは、推定誤り率は、交差確認法による誤り率である。
あるいは、決定手段は、尤度に基づく手法を用いて判別規則の性能を求めることができる。
好ましくは、判別規則に関し望まれる性能には、判別規則の推定誤り率が、考え得る限りの最低であること、が含まれる。
あるいは、望まれる性能は、上記以外の望ましい誤り率でもよい。
好ましくは、多変量データは、遺伝子発現データを含む。
好ましくは、データ作成手段、処理手段、および、選択手段は、コンピュータ上で実行可能なソフトウェアの形態を有する。
これより、例示のみを目的とし、添付の図面を参照しながら本発明の好適な実施形態を説明する。この他の実施形態も本発明の範囲に含まれることがある。
図1を参照すれば、本発明の好適な実施形態による装置1は、データ作成手段3、処理手段5、および、選択手段7を有する。データ作成手段3、処理手段5、および、選択手段7は、コンピュータ上で実行可能なソフトウェアの形態を有する。
データ作成手段3は、多変量データ9にアクセス可能な構成を有する。このデータは、各観測について2以上の変量の値を含むデータである。好適な実施形態においては、多変量データは、遺伝子発現データである。遺伝子発現データの一例としては、白血病データ・セットである。このデータ・セットは、「モレキュラー・クラシフィケーション・オブ・キャンサー:クラス・ディスカバリ・アンド・クラス・プレディクション・バイ・ジーン・エクスプレッション・モニタリング(癌の分子的分類:遺伝子発現のモニタリングによる、階級の発見および階級の推定)」("Molecular classification of cancer: class discovery and class prediction by gene expression monitoring")と題された記事において言及されている。この記事は、サイエンス(Science)286:531−537、1999に掲載されている。
データ作成手段3は、多変量データを処理し、多変量データ9に関する変量の複数のユニークな部分集合を作成する。
原則として、データ作成手段3は、逐次的変量増加法に類似する方法を用いて複数のユニークな部分集合を作成する。一般に、逐次的変量増加法は、「統計モデル中」の変量の集合に含まれない、多変量データの変量を識別するステップと、それら識別された変量を集合に、1つずつ追加するステップを含む。この、変量を集合に追加する処理こそが、複数のユニークな部分集合を作成するのである。逐次的変量増加法に関するさらなる詳細は、判別関数分析(discriminant function analysis)を扱っている殆どのテキストに記載されている。そのようなテキストで、インタネット上で入手可能なものの一例としては、
http://www.statsoftinc.com/textbook/stdiscan.html
がある。
集合に変量を追加した後、処理手段5は、集合(事実上この集合は複数のユニークな部分集合の1つである。)に判別規則を適用し、集合に含まれる変量で判別規則を用いた場合の判別規則の性能を記録する。処理手段5は、集合に追加された変量のそれぞれについてこの処理を続ける。つまり、処理手段は、ユニークな部分集合の1つずつについて判別規則の性能を記録する。
処理手段5で用いる判別規則は、実質上、対角共分散行列を有する多変量正規階級密度に基づく。また、判別規則は、以下の関数のうちの1つの形態を備える。
Figure 2007534031
Figure 2007534031
第1の関数(1)は、階級密度が、対角共分散行列、Δ=diag(σ k1,...,σ kp)を有することを仮定している。それに対し、第2の関数(2)は、階級密度が、同様の対角共分散行列、Δ=diag(σ ,...,σ )を有することを仮定している。
判別規則の性能を求めるため、処理手段5は、交差確認法による推定の誤り率を求めることができる。
処理手段5が、ユニークな部分集合のそれぞれを判別規則に適用し、処理手段5は、記録した誤り率を調べて、最も低い誤り率を示した部分集合を識別する。そして、処理手段5は、識別した部分集合(即ち、最も低い誤り率を示した部分集合)から、(統計モデルで用いる)1つまたは複数の変量を、統計モデルにおいて使用する変量として選択する処理に進む。
逐次的変量増加法の使用は、装置1が、以下のステップを効率的に実行することを意味する。
1.変量の空集合から開始するステップ。
2.集合に含まれない多変量データの各変量に関し、集合に追加し、判別規則の性能を求めるステップ。
3.判別規則が最良の性能を発揮するように、変量を集合に追加するステップ。
4.判別規則の性能が向上している間、ステップ1ないし3を繰り返すステップ。
統計モデルで用いる1つまたは複数の変量を選択するために、装置1は、効率的に以下の、広範な意味を含むステップを実行する。
多変量データの変量に関し、複数のユニークな部分集合を作成するステップ。
部分集合のそれぞれに対し使用した場合の判別規則の性能を求めるステップであって、判別規則が実質上、対角共分散行列を有する多変量正規階級密度に基づいているステップ。
判別規則が望ましい性能を示した部分集合の少なくとも1つから1つまたは複数の変量を選択するステップ。
本発明にかかる好適な実施形態の機能に対する見識を深めるため、本好適な実施形態を、アリザーデ(Alizadeh)のDLBCLデータに適用した。このDLBCLデータは、http://genome-www.stanfordd.edu/lymphomaより入手可能である。このデータは、42人の患者から収集されたデータであり、瀰漫性大細胞型リンパ腫(DLBCL)の2つのクラス(階級)、胚中心(GC)、および、活性化(Activated)を示すデータである。本発明の好適な実施形態は、DLBCLデータからたった3つの遺伝子(変量)を選択した。この3つの遺伝子を用い、誤り(再代入(re-substitution))のない分級(クラシフィケーション)を行った。このとき、この分級器(クラシファイア)の交差確認法による誤りはおよそ5(およそ12%)であった。
好適な実施形態においては、判別規則の性能の測定に交差確認法による誤り率をもちいたが、その他の、判別規則の性能を求めるための手法であってもよい。例えば、尤度に基づく手法であってもよい。
好適な実施形態においては、逐次的変量増加法を用いて複数のユニークな部分集合を作成しているが、本発明は、代替的手法である逐次的変量減少法といった手法を用いることも視野に入れている。
当然のことながら、好適な実施形態の説明は、多変量データとして遺伝子発現データに
触れているが、本発明は、遺伝子発現データ以外の多変量データに用いることも可能である。
当業者にとっては当然のことだが、本願において説明した本発明においては、ここで説明した以外の変形例および修正例が可能である。本発明は、本発明の思想の範囲に含まれるそのような変形例および修正例を全て包含するものである。
本発明の好適な実施形態による装置に含まれる構成要素のブロック図である。本装置は、統計モデルで用いる1つまたは複数の変量を選択することができる。 図1の装置の実行する複数のステップに関する流れ図である。
符号の説明
1 ・・・ 装置
3 ・・・ データ作成手段
5 ・・・ 処理手段
7 ・・・ 選択手段
9 ・・・ 多変量データ

Claims (16)

  1. 統計モデルで用いる1つまたは複数の変量を選択する方法であって、
    多変量データの変量を含む複数のユニークな部分集合を作成するステップと、
    前記部分集合のそれぞれに対し用いた場合の判別規則の性能を求めるステップと、
    前記判別規則は、多変量正規階級密度に基づき、前記多変量正規階級密度は実質的に、対角共分散行列を備え、
    前記判別規則が望ましい性能を示した前記部分集合の少なくとも1つから、1つまたは複数の変量を選択するステップを有する方法。
  2. 前記複数のユニークな部分集合を作成するステップは、多変量データから、変量の集合の要素でない変量を識別するステップと、前記識別した変量を前記集合に追加するステップを含む請求項1に記載の方法。
  3. 前記判別規則の性能を求めるステップは、前記判別規則の推定誤り率を評価するステップを含む請求項1または2に記載の方法。
  4. 前記推定誤り率は、交差確認法による誤り率である請求項3に記載の方法。
  5. 前記判別規則の前記望ましい性能は、前記判別規則の推定誤り率が考え得る限りの最低であることを含む請求項1ないし4のいずれか1つに記載の方法。
  6. 前記多変量データは、遺伝子発現データを含む請求項1ないし5のいずれか1つに記載の方法。
  7. コンピュータのソフトウェアであって、
    コンピュータ上で実行されることにより、請求項1ないし6のいずれかに記載のステップのいずれか少なくとも1つに定めるステップを前記コンピュータに実行させることができるソフトウェア。
  8. 請求項7の規定するソフトウェアを備えたコンピュータ記憶媒体。
  9. 観測に関する階級を推定するための統計モデルであって、
    請求項1ないし6のいずれか1つに記載の方法を用いて選択した1つまたは複数の変量を含む統計モデル。
  10. 統計モデルで用いる1つまたは複数の変量を選択する装置であって、
    多変量データの変量を含む複数のユニークな部分集合を作成することができるデータ作成手段と、
    前記部分集合のそれぞれに対し用いた場合の判別規則の性能を求めることができる処理手段と、
    前記判別規則は、多変量正規階級密度に基づき、前記多変量正規階級密度は実質的に、対角共分散行列を備え、
    前記判別規則が望ましい性能を示した前記部分集合の少なくとも1つから、1つまたは複数の変量を選択することができる選択手段を有する装置。
  11. 前記データ作成手段は、多変量データから、変量の集合の要素ではない変量を識別し、前記識別された変量を前記集合に追加することにより、前記複数のユニークな部分集合を作成することができる請求項10に記載の装置。
  12. 前記決定手段は、前記判別規則の推定誤り率を評価することにより、前記判別規則の前記性能を求めることができる請求項10または11に記載の装置。
  13. 前記推定誤り率は、交差確認法による誤り率である請求項12に記載の装置。
  14. 前記判別規則の前記望ましい性能は、前記判別規則の推定誤り率が考え得る限りの最低であることを含む請求項1ないし13のいずれか1つに記載の装置。
  15. 前記多変量データは、遺伝子発現データを含む請求項10ないし14のいずれか1つに記載の装置。
  16. 前記データ作成手段、処理手段、および、選択手段は、コンピュータ上で実行可能なソフトウェアの形態を有する請求項10ないし15のいずれか1つに記載の装置。
JP2005504309A 2003-07-18 2003-07-18 統計モデルに用いる1つまたは複数の変量の選択方法およびそのシステム Pending JP2007534031A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/AU2003/000923 WO2005008517A1 (en) 2003-07-18 2003-07-18 A method and system for selecting one or more variables for use with a statistical model

Publications (1)

Publication Number Publication Date
JP2007534031A true JP2007534031A (ja) 2007-11-22

Family

ID=34069606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005504309A Pending JP2007534031A (ja) 2003-07-18 2003-07-18 統計モデルに用いる1つまたは複数の変量の選択方法およびそのシステム

Country Status (6)

Country Link
US (1) US20060212262A1 (ja)
EP (1) EP1658567A4 (ja)
JP (1) JP2007534031A (ja)
AU (1) AU2003243840A1 (ja)
CA (1) CA2533016A1 (ja)
WO (1) WO2005008517A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140139521A (ko) * 2012-03-29 2014-12-05 무 시그마 비지니스 솔루션스 피브이티 엘티디 데이터 솔루션 시스템

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146510A (en) * 1989-02-09 1992-09-08 Philip Morris Incorporated Methods and apparatus for optically determining the acceptability of products
US5860917A (en) * 1997-01-15 1999-01-19 Chiron Corporation Method and apparatus for predicting therapeutic outcomes
US5970239A (en) * 1997-08-11 1999-10-19 International Business Machines Corporation Apparatus and method for performing model estimation utilizing a discriminant measure
AU2001294644A1 (en) * 2000-09-19 2002-04-02 The Regents Of The University Of California Methods for classifying high-dimensional biological data
AU2003218413A1 (en) * 2002-03-29 2003-10-20 Agilent Technologies, Inc. Method and system for predicting multi-variable outcomes

Also Published As

Publication number Publication date
EP1658567A1 (en) 2006-05-24
CA2533016A1 (en) 2005-01-27
US20060212262A1 (en) 2006-09-21
AU2003243840A1 (en) 2005-02-04
EP1658567A4 (en) 2008-01-30
WO2005008517A1 (en) 2005-01-27

Similar Documents

Publication Publication Date Title
Alachiotis et al. RAiSD detects positive selection based on multiple signatures of a selective sweep and SNP vectors
Thompson et al. Cross-platform normalization of microarray and RNA-seq data for machine learning applications
Ein-Dor et al. Thousands of samples are needed to generate a robust gene list for predicting outcome in cancer
Kuo et al. bottlesim: a bottleneck simulation program for long‐lived species with overlapping generations
JP4916614B2 (ja) 実験データの分布状階層的発展型モデリングと可視化の方法
CN116779003B (zh) 用于硬盘数据销毁和安全性评估的方法及系统
EP1631919A1 (en) A method for identifying a subset of components of a system
WO2009130663A1 (en) Classification of sample data
JP2005524124A (ja) システムの診断構成要素を識別するための方法および装置
KR20220069943A (ko) 단일 세포 rna-seq 데이터 처리
Zararsiz et al. voomDDA: discovery of diagnostic biomarkers and classification of RNA-seq data
Griswold et al. Hypothesis testing in comparative and experimental studies of function-valued traits
Daly et al. Comparing two sequential Monte Carlo samplers for exact and approximate Bayesian inference on biological models
Bisschop et al. Sweeps in time: leveraging the joint distribution of branch lengths
Donnelly et al. Likelihoods and simulation methods for a class of nonneutral population genetics models
JP4421971B2 (ja) 解析エンジン交換型システム及びデータ解析プログラム
EP2096585A1 (en) Active studying system, active studying method and active studying program
Harris et al. Decoding coalescent hidden Markov models in linear time
CN111767474A (zh) 一种基于用户操作行为构建用户画像的方法及设备
JP2007534031A (ja) 統計モデルに用いる1つまたは複数の変量の選択方法およびそのシステム
Shchur et al. Estimating population split times and migration rates from historical effective population sizes
Bezerra et al. Bioinformatics data analysis using an artificial immune network
CN113782092B (zh) 一种生存期预测模型的生成方法及装置、存储介质
Zhou et al. Structural factor equation models for causal network construction via directed acyclic mixed graphs
Golovko et al. Slim-Filter: an interactive windows-based application for illumina genome analyzer data assessment and manipulation

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080924