JP2007534031A

JP2007534031A - 統計モデルに用いる１つまたは複数の変量の選択方法およびそのシステム

Info

Publication number: JP2007534031A
Application number: JP2005504309A
Authority: JP
Inventors: グレン・ストーン
Original assignee: コモンウェルスサイエンティフィックアンドインダストリアルリサーチオーガナイゼイション
Priority date: 2003-07-18
Filing date: 2003-07-18
Publication date: 2007-11-22
Also published as: EP1658567A1; CA2533016A1; US20060212262A1; AU2003243840A1; EP1658567A4; WO2005008517A1

Abstract

統計モデルで用いる１つまたは複数の変量を選択する方法である。本方法は、多変量データの変量に関し、複数のユニークな部分集合を作成するステップと、部分集合のそれぞれについて用いた際の判別規則の性能を求めるステップであって、判別規則が実質上、対角共分散行列を有する多変量正規階級密度に基づいているステップと、判別規則が望ましい性能を示した部分集合の少なくとも１つから１つまたは複数の変量を選択するステップを有する。

Description

本発明は、統計モデルで用いる１つまたは複数の変量を選択するためのシステムおよび方法に関する。本発明は、特に、観測(observation)の階級（クラス(class)）を予測可能な分級器（クラシファイア(classifier)）の構築用途に適し、かつ、それに限定されない。

一般に、統計モデルとは、観測の集合の構造に関する仮定的記述である。通例、統計モデルは、観測を招来したと推測される過程に関する数学的関数の形式を有する。通常、この数学的関数は、複数の変量(variables)に従属する。これらの変量は、数学的関数が推測した過程を忠実にモデル化するように注意深く選択される。

本発明の第１の態様においては、統計モデルで用いる１つまたは複数の変量を選択する方法が提供される。

この方法は、
多変量データの変量を含む複数のユニークな部分集合を作成するステップと、
部分集合のそれぞれに対し用いた場合の判別規則の性能を求めるステップであって、判別規則は、多変量正規階級密度(multivariate normal class densities)に基づいており、多変量正規階級密度は実質的に、対角共分散行列を備えている、ステップと、
判別規則が望ましい性能を示した部分集合の少なくとも１つから、１つまたは複数の変量を選択するステップを有する。

本方法で用いる判別規則は、広く一般に、独立した多変量正規データ(independent multinormal data)に対してのみ適すると考えられている点を考慮に入れると、出願人による研究成果は、驚くべきことに、本方法が、例えば、遺伝子発現データといった独立した多変量正規データでないデータに対しても非常によく適することを明らかにした。

複数のユニークな部分集合を作成するステップは、多変量データから、変量の集合の要素でない変量を識別するステップと、識別した変量をその集合に追加するステップを含むことが好ましい。

部分集合を作成する手法は、逐次的変量増加法(forward stepwise variable selection technique)に基づく。

あるいは、複数のユニークな部分集合を作成するステップは、集合内においてこれまでに除去されていなかった変量を識別するステップと、識別した変量を集合から除去するステップを含んでもよい。

この二者択一的な手法は、逐次的変量減少法(backward stepwise variable selection technique)に基づいてよい。

好ましくは、判別規則の性能を求めるステップは、判別規則の推定誤り率(prediction error rate)を評価するステップを含む。

さらに好ましくは、推定誤り率は、交差確認法による誤り率(cross-validated error rate)である。

あるいは、判別規則の性能を求めるステップは、尤度に基づいた手法を用いた評価を行ってもよい。

好ましくは、判別規則の望ましい性能は、判別規則の推定誤り率が、考え得る限りの最低であること、を含む。

あるいは、望まれる性能は、上記以外の望ましい誤り率でもよい。

好ましくは、多変量データは、遺伝子発現データを含む。

本発明の第２の態様においては、コンピュータ・ソフトウェアが提供される。このソフトウェアは、コンピュータ上で実行された場合、コンピュータは、本発明の第１の態様に記載のステップを実行することができる。

本発明の第３の態様においては、上記本発明の第２の態様に記載のソフトウェアを備えたコンピュータ記憶媒体が提供される。

本発明の第４の態様においては、観測に関する階級を推定するための統計モデルが提供される。このモデルは、本発明の第１の態様に記載の方法を用いて選択した１つまたは複数の変量を含んでいる。

本発明の第５の態様においては、統計モデルで用いる１つまたは複数の変量を選択するための装置が提供される。この装置は、
多変量データの変量を含む複数のユニークな部分集合を作成可能なデータ作成手段と、
部分集合のそれぞれに対し用いた場合の判別規則の性能を求めることができる処理手段であって、判別規則は、多変量正規階級密度に基づき、多変量正規階級密度は実質的に、対角共分散行列を備えている、処理手段と、
判別規則について望ましい性能を示した部分集合の少なくとも１つから、１つまたは複数の変量を選択することができる選択手段を有する。

好ましくは、データ作成手段は、多変量データから、変量の集合の要素ではない変量を識別し、そして、識別された変量を集合に追加することにより、複数のユニークな部分集合を作成することができる。

あるいは、データ作成手段は、集合内においてこれまでに除去されていなかった変量を識別し、そして、識別された変量を集合から除去することにより、複数のユニークな部分集合を作成することができる。

好ましくは、決定手段は、判別規則の推定誤り率を評価することにより、判別規則の性能を求めることができる。

さらに好ましくは、推定誤り率は、交差確認法による誤り率である。

あるいは、決定手段は、尤度に基づく手法を用いて判別規則の性能を求めることができる。

好ましくは、判別規則に関し望まれる性能には、判別規則の推定誤り率が、考え得る限りの最低であること、が含まれる。

好ましくは、多変量データは、遺伝子発現データを含む。

好ましくは、データ作成手段、処理手段、および、選択手段は、コンピュータ上で実行可能なソフトウェアの形態を有する。

これより、例示のみを目的とし、添付の図面を参照しながら本発明の好適な実施形態を説明する。この他の実施形態も本発明の範囲に含まれることがある。

図１を参照すれば、本発明の好適な実施形態による装置１は、データ作成手段３、処理手段５、および、選択手段７を有する。データ作成手段３、処理手段５、および、選択手段７は、コンピュータ上で実行可能なソフトウェアの形態を有する。

データ作成手段３は、多変量データ９にアクセス可能な構成を有する。このデータは、各観測について２以上の変量の値を含むデータである。好適な実施形態においては、多変量データは、遺伝子発現データである。遺伝子発現データの一例としては、白血病データ・セットである。このデータ・セットは、「モレキュラー・クラシフィケーション・オブ・キャンサー：クラス・ディスカバリ・アンド・クラス・プレディクション・バイ・ジーン・エクスプレッション・モニタリング（癌の分子的分類：遺伝子発現のモニタリングによる、階級の発見および階級の推定）」("Molecular classification of cancer: class discovery and class prediction by gene expression monitoring")と題された記事において言及されている。この記事は、サイエンス(Science)２８６：５３１−５３７、１９９９に掲載されている。

データ作成手段３は、多変量データを処理し、多変量データ９に関する変量の複数のユニークな部分集合を作成する。

原則として、データ作成手段３は、逐次的変量増加法に類似する方法を用いて複数のユニークな部分集合を作成する。一般に、逐次的変量増加法は、「統計モデル中」の変量の集合に含まれない、多変量データの変量を識別するステップと、それら識別された変量を集合に、１つずつ追加するステップを含む。この、変量を集合に追加する処理こそが、複数のユニークな部分集合を作成するのである。逐次的変量増加法に関するさらなる詳細は、判別関数分析(discriminant function analysis)を扱っている殆どのテキストに記載されている。そのようなテキストで、インタネット上で入手可能なものの一例としては、
http://www.statsoftinc.com/textbook/stdiscan.html
がある。

集合に変量を追加した後、処理手段５は、集合（事実上この集合は複数のユニークな部分集合の１つである。）に判別規則を適用し、集合に含まれる変量で判別規則を用いた場合の判別規則の性能を記録する。処理手段５は、集合に追加された変量のそれぞれについてこの処理を続ける。つまり、処理手段は、ユニークな部分集合の１つずつについて判別規則の性能を記録する。

処理手段５で用いる判別規則は、実質上、対角共分散行列を有する多変量正規階級密度に基づく。また、判別規則は、以下の関数のうちの１つの形態を備える。

第１の関数（１）は、階級密度が、対角共分散行列、Δ_ｋ＝ｄｉａｇ（σ^２ _ｋ１，．．．，σ^２ _ｋｐ）を有することを仮定している。それに対し、第２の関数（２）は、階級密度が、同様の対角共分散行列、Δ_ｋ＝ｄｉａｇ（σ^２ _１，．．．，σ^２ _ｐ）を有することを仮定している。

判別規則の性能を求めるため、処理手段５は、交差確認法による推定の誤り率を求めることができる。

処理手段５が、ユニークな部分集合のそれぞれを判別規則に適用し、処理手段５は、記録した誤り率を調べて、最も低い誤り率を示した部分集合を識別する。そして、処理手段５は、識別した部分集合（即ち、最も低い誤り率を示した部分集合）から、（統計モデルで用いる）１つまたは複数の変量を、統計モデルにおいて使用する変量として選択する処理に進む。

逐次的変量増加法の使用は、装置１が、以下のステップを効率的に実行することを意味する。
１．変量の空集合から開始するステップ。
２．集合に含まれない多変量データの各変量に関し、集合に追加し、判別規則の性能を求めるステップ。
３．判別規則が最良の性能を発揮するように、変量を集合に追加するステップ。
４．判別規則の性能が向上している間、ステップ１ないし３を繰り返すステップ。

統計モデルで用いる１つまたは複数の変量を選択するために、装置１は、効率的に以下の、広範な意味を含むステップを実行する。
多変量データの変量に関し、複数のユニークな部分集合を作成するステップ。
部分集合のそれぞれに対し使用した場合の判別規則の性能を求めるステップであって、判別規則が実質上、対角共分散行列を有する多変量正規階級密度に基づいているステップ。
判別規則が望ましい性能を示した部分集合の少なくとも１つから１つまたは複数の変量を選択するステップ。

本発明にかかる好適な実施形態の機能に対する見識を深めるため、本好適な実施形態を、アリザーデ(Alizadeh)のＤＬＢＣＬデータに適用した。このＤＬＢＣＬデータは、http://genome-www.stanfordd.edu/lymphomaより入手可能である。このデータは、４２人の患者から収集されたデータであり、瀰漫性大細胞型リンパ腫（ＤＬＢＣＬ）の２つのクラス（階級）、胚中心（GC）、および、活性化（Activated）を示すデータである。本発明の好適な実施形態は、ＤＬＢＣＬデータからたった３つの遺伝子（変量）を選択した。この３つの遺伝子を用い、誤り（再代入(re-substitution)）のない分級（クラシフィケーション）を行った。このとき、この分級器（クラシファイア）の交差確認法による誤りはおよそ５（およそ１２％）であった。

好適な実施形態においては、判別規則の性能の測定に交差確認法による誤り率をもちいたが、その他の、判別規則の性能を求めるための手法であってもよい。例えば、尤度に基づく手法であってもよい。

好適な実施形態においては、逐次的変量増加法を用いて複数のユニークな部分集合を作成しているが、本発明は、代替的手法である逐次的変量減少法といった手法を用いることも視野に入れている。

当然のことながら、好適な実施形態の説明は、多変量データとして遺伝子発現データに
触れているが、本発明は、遺伝子発現データ以外の多変量データに用いることも可能である。

当業者にとっては当然のことだが、本願において説明した本発明においては、ここで説明した以外の変形例および修正例が可能である。本発明は、本発明の思想の範囲に含まれるそのような変形例および修正例を全て包含するものである。

本発明の好適な実施形態による装置に含まれる構成要素のブロック図である。本装置は、統計モデルで用いる１つまたは複数の変量を選択することができる。図１の装置の実行する複数のステップに関する流れ図である。

符号の説明

１・・・装置
３・・・データ作成手段
５・・・処理手段
７・・・選択手段
９・・・多変量データ

Claims

統計モデルで用いる１つまたは複数の変量を選択する方法であって、
多変量データの変量を含む複数のユニークな部分集合を作成するステップと、
前記部分集合のそれぞれに対し用いた場合の判別規則の性能を求めるステップと、
前記判別規則は、多変量正規階級密度に基づき、前記多変量正規階級密度は実質的に、対角共分散行列を備え、
前記判別規則が望ましい性能を示した前記部分集合の少なくとも１つから、１つまたは複数の変量を選択するステップを有する方法。
前記複数のユニークな部分集合を作成するステップは、多変量データから、変量の集合の要素でない変量を識別するステップと、前記識別した変量を前記集合に追加するステップを含む請求項１に記載の方法。
前記判別規則の性能を求めるステップは、前記判別規則の推定誤り率を評価するステップを含む請求項１または２に記載の方法。
前記推定誤り率は、交差確認法による誤り率である請求項３に記載の方法。
前記判別規則の前記望ましい性能は、前記判別規則の推定誤り率が考え得る限りの最低であることを含む請求項１ないし４のいずれか１つに記載の方法。
前記多変量データは、遺伝子発現データを含む請求項１ないし５のいずれか１つに記載の方法。
コンピュータのソフトウェアであって、
コンピュータ上で実行されることにより、請求項１ないし６のいずれかに記載のステップのいずれか少なくとも１つに定めるステップを前記コンピュータに実行させることができるソフトウェア。
請求項７の規定するソフトウェアを備えたコンピュータ記憶媒体。
観測に関する階級を推定するための統計モデルであって、
請求項１ないし６のいずれか１つに記載の方法を用いて選択した１つまたは複数の変量を含む統計モデル。
統計モデルで用いる１つまたは複数の変量を選択する装置であって、
多変量データの変量を含む複数のユニークな部分集合を作成することができるデータ作成手段と、
前記部分集合のそれぞれに対し用いた場合の判別規則の性能を求めることができる処理手段と、
前記判別規則は、多変量正規階級密度に基づき、前記多変量正規階級密度は実質的に、対角共分散行列を備え、
前記判別規則が望ましい性能を示した前記部分集合の少なくとも１つから、１つまたは複数の変量を選択することができる選択手段を有する装置。
前記データ作成手段は、多変量データから、変量の集合の要素ではない変量を識別し、前記識別された変量を前記集合に追加することにより、前記複数のユニークな部分集合を作成することができる請求項１０に記載の装置。
前記決定手段は、前記判別規則の推定誤り率を評価することにより、前記判別規則の前記性能を求めることができる請求項１０または１１に記載の装置。
前記推定誤り率は、交差確認法による誤り率である請求項１２に記載の装置。
前記判別規則の前記望ましい性能は、前記判別規則の推定誤り率が考え得る限りの最低であることを含む請求項１ないし１３のいずれか１つに記載の装置。
前記多変量データは、遺伝子発現データを含む請求項１０ないし１４のいずれか１つに記載の装置。
前記データ作成手段、処理手段、および、選択手段は、コンピュータ上で実行可能なソフトウェアの形態を有する請求項１０ないし１５のいずれか１つに記載の装置。