JP5064625B2

JP5064625B2 - パターンを同定するための方法及び機械

Info

Publication number: JP5064625B2
Application number: JP2001534088A
Authority: JP
Inventors: スティーブンディー．バーンヒル、; イザベルギオン、; ジェイスンウエストン、
Original assignee: バイオウルフテクノロジーズエルエルスィー
Priority date: 1999-10-27
Filing date: 2000-10-27
Publication date: 2012-10-31
Anticipated expiration: 2020-10-27
Also published as: WO2001031580A3; EP2357582A1; WO2001031580A2; JP2003529131A; AU779635B2; EP1236173A2; CA2388595A1; AU1242701A; CA2388595C

Description

【０００１】
（技術分野）
本発明は、遺伝子、遺伝子産物、蛋白質、脂質、およびその組合せのごとき生物学的システムにおいて関連パターンを同定するための学習機械の使用に関する。生物学的システムにおけるこれらのパターンを用いて、異常な生理学的状態を診断し予測することができる。加えて、本発明を用いて検出することができるパターンを用い、治療剤を開発することができる。
【０００２】
（発明の背景）
生物についての膨大な量のデータが、ゲノムの配列決定で生じつつある。個体のための処置および療法を提供するためにこの情報を用いることは、集められた情報の深い理解を要するであろう。ゲノムの情報を用いる努力は、既に、遺伝子発現の調査デバイスの開発に至っている。現在最も有望なデバイスの１つは遺伝子チップである。遺伝子チップは、オリゴヌクレオチドプローブのアレイを固体ベースの構造に付着させている。そのようなデバイスは、ここに出典明示してその全体を本明細書の一部とみなす米国特許第５，８３７，８３２号および第５，１４３，８５４号に記載されている。該チップ上に存在するオリゴヌクレオチドプローブを用いて、標的核酸が特異的参照配列と同一または異なるヌクレオチド配列を有するか否かを判断することができる。プローブのアレイは、参照配列に相補的なプローブならびに該相補的プローブとは１以上の塩基だけ異なるプローブを含む。
【０００３】
遺伝子チップは、非常に小さなチップ上にオリゴヌクレオチドの大きなアレイを含有することができる。ハイブリダイゼーション強度データを測定して、いずれのプローブがハイブリダイズしているかを決定するための種々の方法が当該分野で知られている。ハイブリダイゼーションを検出する方法は蛍光、放射性、酵素、ケモルミネセント、バイオルミネセントおよび他の検出系を含む。
【０００４】
また、ゲルブロットまたはドットブロットに対するゲル電気泳動およびハイブリダイゼーションのごとき古いが依然として使用できる方法も遺伝子配列情報を決定するのに有用である。また、溶液ハイブリダイゼーションおよびイン・サイチュハイブリダイゼーション方法のための捕獲および検出系もまたゲノムについての情報を徹底するのに用いられる。加えて、染色体ウォーキングおよびファージ生ラリーの確立のごとき、ゲノム配列の大きな部分を規定するための以前および現在使用される方法を用いて、ゲノムについての知識を獲得する。
【０００５】
配列、調節、活性化、結合部位および内部コーディングシグナルに関する大量の情報は、当該分野で知られた方法によって生じ得る。事実、そのような方法によって生じつつあるデータの量は有用な情報の由来を隠してしまう。ニューラル・ネットワークのごとき進歩した学習ツールによって助けられると、ヒト研究者は、大きな特徴−リッチなデータセットにおいて表された基礎となるプロセスの粗いモデルを誘導することができるに過ぎない。
【０００６】
膨大な量のデータを生じ得る生物学的研究のもう１つの領域は、プレテオミックスの出現する分野である。プロテオミックスは、ゲノムによってコードされ調節された蛋白質の群の研究である。この分野は、蛋白質の分析、蛋白質レベルの調節および遺伝子調節および発現に対する関係に対して新しい焦点を表す。個人または集団のプロテオームの正常または病理学的状態の理解は、病気の予後または診断についての情報、薬物もしくは遺伝子的処置の開発、または酵素置換療法を提供する。プロテオームを研究する現在の方法は、蛋白質の二次元（２−Ｄ）ゲル電気泳動、続いての質量分析による分析を含む。病因または治療においていずれかの特定の時点または段階の蛋白質のパターンは２−Ｄゲル電気泳動によって観察することができる。２−Ｄゲルで分離されている細胞で見出される数千の蛋白質を同定するにおいて問題が生じる。マススペクトロフォトメーターを用いて、アミノ酸配列を同定し、それを公知の配列データベースと比較することによってゲルから単離された蛋白質を同定する。製造と、これらの方法は、プロテオームの小さな部分を分析するには多数のステップを要する。
【０００７】
近年、遺伝子の発現を蛋白質の生産、構造および機能に関連付けることができる技術が開発されてきた。自動高スループット分析、核酸分析およびバイオインフォーマティックス技術が、ゲノムをプローブし、遺伝子の突然変異および発現を病気の素因および進行に関連付ける能力において援助してきた。現在の分析方法は、これらの技術によって生じた大量のデータを管理するそれらの能力が制限されている。
【０００８】
生物学的系の機能パラメーターを決定するにおける最も最近の進歩の１つは、遺伝子発現、蛋白質の機能および相互作用、および病気の状態または進行の間の関係を解明するための、ゲノム情報と蛋白質機能との関係の分析である。ゲノムの活性化または発現は、常には、蛋白質の生産レベルまたは活性における直接的変化を意味しない。ｍＲＮＡの別のプロセッシングまたは転写後もしくは翻訳後調節メカニズムは、１つの遺伝子の活性が、その全てが異なる移動パターンおよび生物学的活性を持ちわずかに異なる多数の蛋白質をもたらしかねなくする。ヒトゲノムは、潜在的には、１００，０００の遺伝子を含むが、ヒトプロテオームは５０ないし１００倍大きいと信じられている。現在、ゲノムおよびプロテオームに対するそのような生物学的研究によって生じたデータを適切に解析する方法、システムまたはデバイスはない。
【０００９】
知識の発見は、データ収集の最も望ましい最終産物である。データベース技術における最近の進歩は、膨大な量のデータを生じさせ、収集し、および記憶するためのシステムおよび方法における爆発的な成長に至った。データベース技術は大きなデータセットの十分な収集および記憶を可能とするが、このデータにおける情報のヒトの理解を容易とする挑戦はより困難になりつつある。多くの現存の技術に伴い、問題はアプローチできなくなった。かくして、自動知識発見ツールの新しい創製に対する要求が存在する。
【００１０】
具体的な例として、ヒトゲノムプロジェクトは、ヒトの遺伝子暗号を記載するマルチ−ギガバイトのデータベースを普及させつつあるヒトゲノムのこのマッピングが完了する前には、データベースのサイズはかなり大きくなると予測される。そのようなデータベース中の膨大な量のデータは、スプレッドシートおよびその場限りの疑問のごときデータ解析のための伝統的なツールを圧倒する。データ解析の伝統的な方法は、データからの情報的報告を生じさせるのに用いることができるが、膨大な量のデータ中の有用な知識のパターンを解析し、それを見出すことにおいて、知的にかつ自動的にヒトを援助する能力を有しない。同様に、解釈のための伝統的に受け入れられた参照範囲および標準を用いると、しばしば、ヒトが、非常に少量のデータについてさえ有用な知識のパターンを同定するのが不可能である。
【００１１】
機械学習のいくつかの例において効果的であることが示されている１つの最近の開発は、逆−増殖ニューラル・ネットワークである。逆−増殖ニューラル・ネットワークは、容易にはヒトに明らかとならないであろうデータセットにおいて知識を見出すように訓練することができる学習機械である。しかしながら、ニューラル・ネットワークがよく制御された学習機械であることを妨げる、逆−増殖ニューラル・ネットワークアプローチに関する種々の問題がある。例えば、逆−増殖ニューラル・ネットワークの重要な欠点は、経験的なリスク機能が多くの局所的な最小を有し得ることであり、これは、この技術による発見から最適な解放を容易に曖昧としかねない場合である。逆−増殖ニューラル・ネットワークによって使用される標準最適化手法は解答に収束できるが、ニューラル・ネットワーク方法は、局所化された最小さえ達成されることを保証できず、ましてや、所望の全体的最小を達成することは保証できない。ニューラル・ネットワークから得られた解決の質は多くの因子に依存する。特に、ニューラル・ネットワークを実行する実行者の技量は、最終的な利益を決定するが、初期重量のランダムな選択のように恐らくは良性の因子でさえ不充分な結果に導きかねない。さらに、ニューラル・ネットワーク学習で使用されるグラジエントベースの方法の収束は固有に低い。さらなる欠点は、Ｓ字状活性化機能はスケーリング因子を有し、これは近似の質に影響する。恐らくは、知識発見に関連するニューラル・ネットワークの最大の限定因子は、訓練データにおける各さらなる特徴または次元についての計算時間およびパワーにおける比例しない成長に関連する「次元の呪い」である。
【００１２】
ニューラル・ネットワークの欠点は、支持ベクトル機を用いて克服される。一般的な用語において、支持ベクトル機は、先験的に選択された非線形マッピング関数を介して入力ベクトルを高次元特徴空間にマップする。この高次元特徴空間において、最適な分離超平面が構築される。次いで、最適超平面を用いて、クラス分離、回帰フィット、または密度評価における精度のごとき事柄を決定する。
【００１３】
支持ベクトル機内で、特徴空間の次元は巨大となり得る。例えば、４次多項式マッピング関数は、２００次元インプット空間が１６億次元特徴空間にマップされるようにする。カーネルトリックおよびヴァクニーク−チェルヴォネンキス（Ｖａｐｎｉｋ−Ｃｈｅｒｖｏｎｅｎｋｉｓ）次元は、支持ベクトル機が、他の方法を制限する「次元の呪い」の裏をかき、この非常に高次元の特徴空間から一般化できる解答を効果的に引き出すことを可能とする。支持ベクトル機に向けられた特許出願は、米国特許出願第０９／３０３，３８６号；第０９／３０３，３８７号；第０９／３０３，３８９号；第０９／３０５，３４５号（全て、１９９９年５月１日出願）；および２０００年５月９日に出願された米国特許出願第０９／５６８，３０１号；および２０００年５月２４日に出願された米国特許出願第０９，５７８，０１１号を含み、また、１９９９年１０月２７日に出願された米国仮特許出願第６０／１６１，８０６号；１９９９年１２月２日に出願された米国仮特許出願第６０／１６８，７０３号；２０００年２月２４日に出願された米国仮特許出願第６０／１８４，５９６号；および２０００年３月２２日に出願された米国仮特許出願セリアル番号６０／１９１，２１９の利益を主張する（それらの全てを、ここに出典明示してその全体を本明細書の一部とみなす）。
【００１４】
もし訓練ベクトルが最適超平面（または一般化された最適超平面）によって分離されれば、テスト例でエラーを犯す確率の期待値は訓練セットにおける例によって制限される。この制限は、特徴空間の次元に依存せず、また係数のベクトルのノルムにも依存せず、また入力ベクトルの数の制限にも依存しない。従って、もし訓練セットのサイズに対する少数の支持ベクトルから最適超平面を構築することができれば、無限次元の空間においてさえ一般化能力は高いであろう。
【００１５】
ゲノムおよびプロテオームテストから生じたデータは、多くの異なる観点から解析することができる。例えば、文献は、非監督学習技術によって発見された遺伝子クラスターの研究のごとき単純なアプローチを示す（アロン（Ａｌｏｎ），１９９９）。また、クラスターリングは、しばしば、データの他の次元に沿ってなされる。例えば、各実験は、特定の病気を運ぶまたは運ばない一人の患者に対応し得る（例えば、（ゴラブ（Ｇｏｌｕｂ），１９９９）参照）。この場合、クラスターリングは、通常、同様の臨床的記録を持つ患者をグループとする。また、監督学習は蛋白質の分類（ブラウン（Ｂｒｏｗｎ），２０００）および癌の分類（ゴラブ（Ｇｏｌｕｂ），１９９９）に適用されている。
【００１６】
支持ベクトル機は、膨大な量の入力データから知識を発見する問題に対して望ましい解決を提供する。しかしながら、データセットから知識を見出す支持ベクトル機の能力は、訓練データセット内に含まれる情報に比例して制限される。従って、訓練データを増加させて、支持ベクトル機による知識発見を最大化するようなデータ前処理のためのシステムおよび方法に対する要望が存在する。
【００１７】
さらに、支持ベクトル機からの生の出力は、最も容易に解釈できる形態で知識を十分に開示することができない。かくして、さらに、ヒトについてデリバーされた情報の価値またはさらなる自動処理を最大化するために、支持ベクトル機からのデータ出力を後処理するシステムおよび方法に対する要望がさらに存在する。
【００１８】
加えて、データから知識を発見する支持ベクトル機の能力はカーネルの選択によって制限される。従って、支持ベクトル機のための所望のカーネルを選択しおよび／または創製するための改良されたシステムおよび方法に対する要望が存在する。
【００１９】
プロテオミックスおよびゲノミックスの研究によって生じたデータベースに含まれる情報を操作するのに用いることができる方法、システムおよびデバイスもやはり要望されている。また、生物学的情報のゲノミック、プロテオミックおよび伝統的源からの情報を集積できるシステムおよびデバイスが要望される。そのような情報は、病気の診断および予測ならびに生物学的および他のシステムの他の変化で必要である。
【００２０】
さらに、必要とされるのは、支持ベクトル機によって同定される病気および生物学的系の他の変化を処置するための方法および組成物である。一旦データ間のパターンまたは関係が本発明の支持ベクトル機によって同定され、それを用いて特定の病気状態を検出または予測するならば、必要なのは、遺伝子チップを含めた診断テスト、および体液または体の変化のテスト、ならびに疾患を治療するための方法および組成物である。
【００２１】
（発明の概要）
本発明は、一般に学習機械、特に支持ベクトル機を用いてデータから発見される知識を増強するためのシステムおよび方法を含む。特に、本発明は、病気のごとき生物学的系における変化を診断し予測するために学習機械を用いる方法を含む。さらに、一旦データから発見された知識が決定されれば、発見された具体的関係を用いて、病気を診断し予測し、そのような病気を検出し治療する方法が生物学的系に適用される。
【００２２】
本発明の１つの実施形態は、訓練データセットを前処理して、学習機械の最も有利な適用を可能とすることができる。各訓練データポイントは、１以上の座標を有するベクトルを含む。訓練データセットを前処理することは、失われたまたは誤ったデータポイントを同定し、適切なステップをとって、誤ったデータを修正するか、または適当であれば問題の範囲から観察または全分野を除去することを含むことができる。また、訓練データセットを前処理することは、１以上の新しい座標をベクトルに付加することによって各訓練データポイントに次元を付加することを含み得る。ベクトルに付加された新しい座標は、元の座標の１以上に変換を適用することによって誘導することができる。変換は専門家の知識に基づくことができるか、または計算により誘導することができる。訓練データセットが連続変数を含む状況においては、変換は、訓練データセットの連続変数を最適にカテゴリー分けすることを含み得る。
【００２３】
好ましい実施形態において、支持ベクトル機は、前処理された訓練データセットを用いて訓練される。このように、前処理によって提供された訓練データのさらなる表示は、それから知識を発見する学習機械の能力を増強することができる。支持ベクトル機の特別の文脈において、訓練セットの次元が大きくなれば、それから誘導できる一般化の質が高くなる。データから発見されるべき知識が回帰または密度評価に関連するか、あるいは訓練出力が連続変数を含むと、訓練出力は、訓練出力を最適にカテゴリー分けして、連続変数からカテゴリー化を誘導することによって後処理することができる。
【００２４】
テストデータセットは、訓練データセットと同様に前処理される。次いで、前処理されたテストデータセットを用いて、訓練された学習機械をテストする。訓練された学習機械のテスト出力を後処理して、テスト出力が最適な解決であるかを判断する。テスト出力を後処理することは、テストデータセットと比較することができるフォーマットにテスト出力を解釈することを含む。別の後処理ステップは、出力データの更なる処理のためのヒトの解釈性または適当性を増強することができる。
【００２５】
支持ベクトル機の文脈において、本発明は、支持ベクトル機を訓練するに先立っての少なくとも１つのカーネルの選択を提供する。カーネルの選択は、アドレスされる特定の問題の従前の知識または学習機械で使用されるべきいずれかの利用可能なデータの特性の解析に基づくことができ、それは、典型的には、データから発見されるべき知識の性質に依存する。所望により、後処理された訓練出力またはテスト出力を比較する対話形式プロセスを適用して、いずれの配置が最適解決を提供するかに関する判断をなすことができる。もしテスト出力が最適な解決でないならば、知識の選択を調整することができ、支持ベクトル機を再度訓練し、再度テストすることができる。最適解決が同定されたと判断されれば、訓練データセットを同様に、生データセットを収集し、前処理することができる。前処理された生データセットは、処理のために学習機械に入力される。学習機械の生出力を、次いで、生出力を計算により誘導される英数字分類器またはＳＶＭ由来解答のさらなる利用に適した他の形態に解釈することによって後処理することができる。
【００２６】
例示的な実施形態において、支持ベクトル機を用いてデータから発見された知識を増強するシステムが提供される。該例示的システムは、訓練データセットおよびテストデータセットを記憶するための記憶デバイス、および支持ベクトル機を実行するためのプロセッサを含む。また、該プロセッサは、データベースから訓練データセットを収集し、訓練データセットを前処理して、複数の訓練データポイントの各々を増強させ、前処理訓練データセットを用いて支持ベクトル機を訓練し、データベースからテストデータセットを収集し、訓練データセットと同様にテストデータセットを前処理し、前処理されたテストデータセットを用いて訓練された支持ベクトル機をテストし、訓練された支持ベクトル機のテスト出力の受領に応答して、テスト出力を後処理して、テスト出力が最適な解決であるかを判断するために操作することができる。また、例示的システムは、遠隔源からのテストデータセットおよび訓練データセットを受領するための通信デバイスも含むことができる。そのような場合、プロセッサを操作して、訓練データセットを、訓練データセットの記憶デバイス先行前処理に記憶し、テストデータセットを、テストデータセットの記憶デバイス先行前処理に記憶することができる。また、例示的システムは、後処理したテストデータを表示するための表示デバイスも含むことができる。例示的システムのプロセッサは、さらに、前記した各さらなる機能を実行するための操作することができる。通信デバイスをさらに操作して、コンピューター由来の英数字分類器または他のＳＶＭベースの生のまたは後処理した出力データを遠隔源に送ることができる。
【００２７】
例示的な実施形態において、特に一般的かつ複数の支持ベクトル機において複数の学習機械を用いてデータからの知識発見を増強するためのシステムおよび方法が提供される。学習機械のための訓練データを前処理して、それに意味を付加する。予備処理データは、データポイントを変換しおよび／またはデータポイントを拡大することを含み得る。データに意味を付加することによって、学習機械に、処理のための多量の情報が供給される。特に支持ベクトル機に関しては、処理される情報の量が大きくなれば、誘導することができるデータについての一般化が良好となる。各々が区別されるカーネルを含む複数の支持ベクトル機は、予備処理された訓練データで訓練され、同様に前処理されるテストデータでテストされる。複数の支持ベクトル機からのテスト出力を比較して、テスト出力のいずれがもしあれば最適な解決を表すかを決定する。１以上のカーネルの選択は調整することができ、１以上の支持ベクトル機を再度訓練し再度テストすることができる。最適な解決が達成されたと決定されれば、生データを前処理し、最適な解決を生じたカーネルを含む支持ベクトル機に入力する。次いで、ヒトまたはコンピューター自動プロセスによって解釈のためのコンピューター誘導英数字分類器に、学習機械からの生出力を後処理することができる。
【００２８】
もう１つの例示的な実施形態において、連続的変数を最適にカテゴリー化するためのシステムおよび方法が提供される。連続的変数を表すデータセットは、各々が連続的変数からの試料およびクラス識別子を含むデータポイントを含む。データセット内の多数の区別されるクラス識別子が決定され、多数の候補ビンが、試料の範囲およびデータセット内の試料の精度のレベルに基づいて決定される。各候補ビンは試料のサブ範囲を表す。各候補ビンについては、候補ビン内に入るデータポイントのエントロピーを計算する。次いで、最小化集合エントロピーを有する候補ビンの各配列については、試料の範囲中のカットオフポイントは、候補ビンの配列中の最後の候補ビンの境界にあると定義される。対話形式プロセスとして、順次の候補ビンの異なる組合せについての集合エントロピーは計算することができる。
【００２９】
また、規定されたカットオフポイントの数を調整して、最小エントロピーの計算に基づくカットオフポイントの最適数を決定することができる。前記したごとく、連続的変数を最適にカテゴリー化するための例示的システムおよび方法は、学習機械に入力すべきデータを前処理するのに、および学習機械の出力を後処理するのに用いることができる。
【００３０】
さらにもう１つの例示的な実施形態において、分布したネットワーク環境中で一般に学習機械および特に支持ベクトル機を用いてデータからの知識発見を増強するためのシステムおよび方法が提供される。顧客は、分布したネットワークを介して、遠隔源から訓練データ、テストデータおよび生データをベンダーのサーバに伝達することができる。また、顧客は、ユーザーの氏名、パスワード、および金融口座アンデンティファイアーのごとき同定情報をサーバに伝達することもできる。訓練データ、テストデータおよび生データは記憶デバイスに記憶することができる。次いで、訓練データを前処理して、それに意味を付加することができる。前処理データは、データポイントを変換しおよび／またはデータポイントを拡大することを含むことができる。データに意味を付加することによって、学習機械には、処理のためにより多量の情報が備わる。特に支持ベクトル機に関しては、処理される情報の量が大きくなれば、誘導することができるデータについての一般化は良好となる。従って、学習機械は前処理された訓練データで訓練され、同様に前処理されるテストデータでテストされる。学習機械からのテスト出力を後処理して、テストデータから発見された知識が望ましいかを決定する。後処理は、テストデータと比較することができるフォーマットにテスト出力を解釈することを含む。生データを前処理し、訓練されたかつテストされた学習機械に入力される。次いで、学習機械からの生出力を、ヒトまたはコンピューター自動プロセスによって解釈のためのコンピューターにより誘導された英数字分類器に後処理されることができる。英数字分類器を分布ネットワークを介して顧客に伝達するに先立って、サーバは、金融口座アンデンティファイアーによって同定された顧客の金融口座から資金を受領する目的で金融機関と連絡するように作動することができる。
【００３１】
（詳細な説明）
本発明は、学習機械を用いてデータから知識を発見するための方法、システムおよびデバイスを提供する。特に、本発明は、生物学的システムにおける変化に関する情報が提供される学習機械を用いてデータからの知識発見のための方法、システムおよびデバイスに指向される。より詳しくは、本発明は、病気のごとき生物学的システムにおける変化を診断し、予測するためのかかる知識の使用の方法を含む。加えて、本発明は、それらの個々の生物学的システムにおける変化を持つ個体のテストおよび処理にそのような知識を適用するための方法、組成物およびデバイスを含む。
【００３２】
本明細書中で用いる、「生物学的データ」は、微生物、ウイルス、植物および他の生きた生物を含めたヒト、動物または他の生物学的生物の生物学的状態を測定することに由来するいずれのデータをも意味する。該測定は、物理学者、科学者、診断学者等に知られたいずれかのテスト、アッセイまたは観察によってなすことができる。生物学的データは、限定されるものではないが、臨床試験および観察、物理的および科学的測定、ゲノム決定、プロテオミック決定、薬物レベル、ホルモンおよび免疫学的テスト、神経化学または神経物理学測定、ミネラルおよびビタミンレベル決定、遺伝的および家系的履歴およびテストを受けつつある個人または複数個人の状態に対する洞察を与えることができる他の測定を含むことができる。ここに、用語「データ」の使用は「生物学的データ」と相互交換的に使用される。
【００３３】
学習機械のいくつかの例が存在し、進歩がこの分野で予測されているが、本発明の例示的な実施形態は支持ベクトル機に焦点を当てる。当該分野で知られているごとく、学習機械は、公知の結果が伴うデータを用いて一般化するのに訓練することができるアルゴリズムを含む。次いで、訓練された学習機械アルゴリズムを、予測のための未知の結果の場合に適用することができる。例えば、学習機械を訓練して、データ中のパターンを認識し、データ中の回帰を評価し、またはデータ内の確率密度を評価することができる。学習機械を訓練して、当業者に知られた非常に多様な問題を解くことができる。訓練された学習機械は、所望により、テストデータを用いてテストして、その出力がエラーの許容される境界内で有効化されることを保証する。一旦学習機械が訓練され、テストされれば、生データをその中に入力することができる。学習機械の生出力は、生データに適用された訓練データの全てから発見された知識を含む。
【００３４】
本発明は、生物学的データ、遺伝子、転写および翻訳産物および蛋白質の調査によって生じたごときデータで見いだされるパターンを解析するための方法、システムおよびデバイスを含む。ゲノム情報は、ゲノム断片および相補的核酸または相互作用蛋白質のハイブリダイゼーション反応によって生じたパターン中で見いだすことができる。そのようなゲノムまたは核酸の相互作用を調査するための最も最近のツールの１つはＤＮＡ遺伝子チップまたはマイクロアレイである。マイクロアレイは、数千の核酸の相互作用の処理を可能とする。ＤＮＡマイクロアレイは、研究者が１つの実験で数千の遺伝子をスクリーニングするのを可能とする。例えば、マイクロアレイは小さなスライドガラス上に２４００の遺伝子を含有することができ、それを用いて、試料中のＤＮＡまたはＲＮＡの存在を測定することができる。そのようなマイクロアレイは、腫瘍生物学、神経科学、シグナル変換、転写調節、およびサイトカインおよび受容体の実験を含めた基本的研究およびバイオメディカル研究で用いることができる。加えて、医薬薬物発見、標的同定、リード最適化、薬物動態学、ファルマコゲノミックスおよび診断剤のための適用もある。マイクロアレイの技術のための市場は１９９９年にはほぼ９８００万ドルであり、多数のマイクロアレイテストから開発されたデータベースで生じ、そこに記憶されたデータの量は膨大である。本発明は、病気の診断および予後のための、および病気を治療するための治療剤の開発のための、そのようなマイクロアレイおよび核酸チップテストで生じたデータを用いることができる方法、システムおよびデバイスを提供することができる。
【００３５】
また、本発明は、生物学的システムにおける特異的変化を診断または予測するのに用いることができる特異的配列同定プローブを備えたマイクロアレイを含むデバイスを含む。一旦、本発明の学習機械が、生物学的システムにおける変化を診断または予測できるデータの中で特異的関係を同定すれば、特異的デバイスはそれらの特異的関係についてテストを取り込む。例えば、本発明の学習機械は、腫瘍の存在または出現のごとき、生物学的システムにおける変化の存在または将来の発生に関係する特異的遺伝子を同定する。これらの遺伝子の配列を知ることは、それらの同定された遺伝子についての特異的訓練デバイスの作成を可能とする。例えば、ＤＮＡ、ＲＮＡまたは特異的結合蛋白質を含む核酸チップ、または特異的に同定された遺伝子に特異的に結合するいずれかのそのような組合せを用いて、特定の腫瘍を有する個体または腫瘍を発生する尤度を容易に同定する。加えて、学習機械によって同定された、または学習機械によって同定された遺伝子に関連する特異的蛋白質は、同定された蛋白質、遺伝子産物あるいは蛋白質または遺伝子産物に向けられた抗体または抗体断片を特異的に検出することに向けられた血清学的テストを用いるためにテストすることができる。そのようなテストは限定されるものではないがチップ上の抗体マイクロアレイ、ウエスタンブロッティングテスト、ＥＬＩＳＡ、および当該分野で知られた他のテストを含み、ここに、特異的結合パートナーの間の結合はパートナーのうちの１つの検出のために用いられる。
【００３６】
さらに、本発明は、生物学的システムにおける変化に由来する疾患を治療して、または生物学的システムを処理して、生物学的システムを改変して特異的疾患を予防または増強するための方法および組成物を含む。例えば、もし個体の診断が腫瘍の検出を含むならば、該個体は化学療法組成物のごとき抗腫瘍医薬で治療することができる。もし個体の診断が腫瘍発生の素因または予後を含むならば、該個体を化学療法組成物で予防的に処置して、腫瘍の発生を防止することができる。もし特異的遺伝子が腫瘍の発生を持って同定されれば、該個体は特異的アンチセンスまたは他の遺伝子治療方法で処置して、そのような遺伝子の発現を抑制することができる。加えて、もし特異的遺伝子または遺伝子産物が腫瘍の発生を伴って同定されれば、遺伝子または遺伝子産物を阻害または機能的に実行する特異的組成物が該個体に投与される。本明細書中に記載した例は単に例示であって、本発明の範囲を限定するものと解釈されるべきではない。
【００３７】
プロテオミック調査は、正常および病理学的状態に関与する蛋白質を測定する方法を提供する。いずれかの特定の時点または段階にある個人または集団のプロテオームを測定する現在の方法は、ゲル電気泳動を用いて試料中の蛋白質を分離することを含む。好ましくは、２−Ｄゲル電気泳動を用いて、蛋白質をより完全に分離する。加えて、試料を前処理して、既知の蛋白質を除去することができる。蛋白質は、例えば、蛍光色素で標識して、選択されたプロテオームによって生じたパターンの決定で援助することができる。分離された蛋白質のパターンは、本発明の学習機械を用いて解析することができる。ゲルイメージの捕獲は、デンシオメトリー、ＣＣＤカメラおよびレーザースキャンニングおよび記憶ホスフォル装置のごとき当該分野で知られたイメージ技術方法によって達成することができる。ゲルの解析は、病理学的状態の診断および予後で重要であり、治療介入に関連する変化を示すプロテオーム中のパターンを明らかとする。
【００３８】
プロテオームを調査するさらなるステップは、ゲル中の特異的部位における蛋白質の単離を含む。特異的部位を単離するためのロボットシステムは現在利用できる。単離に続いて配列を決定し、かくして、蛋白質が同定される。個体または集団のプロテオームの研究は、膨大な量のデータの創製、捕獲、解析および一体化を含む。自動化は現在用いられつつあって、データ創製に必要な物理的操作を管理するのを助ける。本発明の学習機械を用いて、発生した生物学的データを解析し望まれる情報を提供する。
【００３９】
加えて、チップ検出デバイスのごとき検出デバイスの修飾を用い、生物学的データの大きな生ラリーを創製することができる。生ラリーを創製する方法は、それらのｍＲＮＡに共有結合連結した蛋白質を用いて、例えば、稀にしか翻訳されない蛋白質のごとき作成された蛋白質を決定する技術を含む。そのような技術は、イン・ビトロでｍＲＮＡを翻訳し、翻訳された蛋白質をｍＲＮＡに共有結合付着させることを含む。ｍＲＮＡ、かくして蛋白質の配列は、ＰＣＲのごとき増幅方法を用いて決定される。１０¹⁴ないし１０¹⁵のメンバーを含有する生ラリーがこのデータから確率することができる。これらの生ラリーを用いて、受容体に結合するペプチドを測定することができるか、またはそれらの標的に貪欲に結合する抗体を含有する抗体生ラリーを開発することができる。
【００４０】
蛋白質ドメイン生ラリーと呼ばれる生ラリーは細胞ｍＲＮＡから創製することができ、ここに、全蛋白質は翻訳されないが、断片が配列決定される。これらの生ラリーを用いて、蛋白質の機能を測定することができる。
【００４１】
プロテオームを調査する他の方法はゲル電気泳動を用いない。例えば、マススペクトロフォトメトリーを用いて、蛋白質プロフィールにおける変化の目録を作り、正常または病気の組織あるいは感染剤における核酸配列を規定して、薬物および診断標的を同定し、有効化することができる。このデータの解析は本発明の方法、システムおよびデバイスによって達成される。さらに、酵母および細菌系で現在見いだされている、それらが相互作用する蛋白質を捕獲するために蛋白質を用いる２−ハイブリッドおよび２＋１ハイブリッドシステムのごとき技術は、ゲノム−幅蛋白質相互作用マップ（ＰＩＭ）を生じる。ＰＩＭのごとき情報の大きな生ラリーは本発明によって操作することができる。
【００４２】
特異的蛋白質または蛋白質のタイプを分離し、または同定するのに用いることができる抗体チップは開発されている。加えて、ファージ抗体生ラリーを用いて、蛋白質の機能を測定することができる。注目するオープンリーディングフレーム（ＯＲＦＳ）またはＥＳＴ（発現された配列タグ）につきゲノミック生ラリーをサーチすることができ、配列から、ペプチドが合成される。異なる遺伝子についてのペプチドが、ファージ生ラリーからの抗体の選択のために９６ウェルトレイ中に置かれる。次いで、該抗体を用いて、正常および病気の組織の切片中の元のＯＲＦまたはＥＳＴに関連する蛋白質を位置決定する。
【００４３】
本発明を用いて、生物学的機能への調査の複数の段階において生じた生物学的データを解析し、さらに、新規な診断および予後決定のための異なる種類のデータを一体化させることができる。例えば、診断テストデータ、家族または遺伝的履歴、依然のまたは現在の医療処置のごとき臨床的ケースの情報、およびそのような活動の臨床的結果から得られた生物学的データは、本発明の方法、システムおよびデバイスで利用することができる。加えて、病気の組織または流体および正常な組織および流体のごとき臨床的試料、ならびに細胞の分離は、本発明で利用することができる生物学的データを提供することができる。２−Ｄゲル、マススペクトロフォトメトリーおよび抗体スクリーニングのごときプロテオミック決定を用いて、本発明によって利用できるデータベースを確立することができる。また、ゲノミックデータベースは、単独で、または前記したデータおよび本発明によるデータベースと組み合わせて使用して、包括的な診断、予後または予測能力を本発明のユーザーに提供することができる。
【００４４】
本発明の第一の態様は、データを用いるに先立ってデータを所望により前処理して、学習機械を訓練しおよび／または学習機械からの出力を所望により後処理することによって知識発見を増強することを求める。一般的に言えば、データを前処理することは、データを再度フォーマット化または増加させて、学習機械が最も有利に適用されるのを可能とすることを含む。同様に、後処理は、学習機械の出力を解釈して、その意味のある特徴を発見することを含む。出力から確認されるべき意味のある特徴は問題またはデータ特異的であり得る。後処理は、ヒトによって理解できる形態、またはコンピューターによって理解できる形態に出力を解釈することを含む。
【００４５】
以下、本発明の例示的な実施形態を図面を参照して記載し、いくつかの図面を通じて同様の数字は同様のエレメントを示す。図１は、学習機械を用いて知識発見を増強するための一般的方法１００を説明するフローチャートである。該方法１００は開始ブロック１０１で始まり、ステップ１０２に進み、そこで、機械学習を通じての知識発見の適用のために特異的問題が公式化される。特に重要なのは、学習機械の所望の出力の適切な処方である。例えば、個々のエクイティインストゥルメントまたは市場指標の将来の業績を予測するにおいて、将来の価格レベルを予測するよりもむしろ期待される将来の変化を予測する場合、学習機械は良好な業績を達成するようである。将来の価格予測は、後に、本明細書中で後記するごとく後処理ステップで誘導することができる。
【００４６】
問題の公式化後に、ステップ１０３は訓練データ収集に向けられる。訓練データは、公知の特徴を有するデータポイントのセットを含む。訓練データは１以上の局所および／または遠隔源から収集することができる。訓練データの収集は、主導により、公知のエレクトロニックデータ移動方法のごとき自動化プロセスによって達成することができる。従って、本発明の例示的な実施形態はネットワーク化コンピューター環境で実行することができる。本発明の種々の実施形態を実行するための例示的操作環境を図１０−１２に関して詳細に記載する。
【００４７】
次に、ステップ１０４として、収集された訓練データは所望により前処理されて、学習機械が、訓練データに固有の知識の抽出に最も有利に適用されることを可能とする。この前処理段階の間に、訓練データは、所望により、個々のまたは複数の測定の変換、組合せまたは操作を通じて訓練データの記録内に拡大することができる。本明細書中で用いるごとく、データを拡大することは、利用できる観察の数を変化させて各入力ポイントを決定することによって、入力データの次元を変更することを言うことを意味する（別法として、これはデータベース表内の欄を付加しまたは消去すると記載することができる。）説明の方法として、データポイントは座標（１，４，９）を含むことができる。このデータポイントの拡大バージョンは座標（１，１，４，２，９，３）をもたらすことができる。この例において、拡大データポイントに付加された座標は、元の座標の二乗根変換に基づくことがわかるであろう。データポイントに次元を付加することによって、この拡大データポイントは、学習機械による知識発見に潜在的に意義のある入力データの変化させた表示を提供する。この意味でのデータ拡大は、学習機械が、非拡大訓練データでは容易には明らかでない知識を発見する機会を与える。
【００４８】
データを拡大することは、いずれかのタイプの意味のある変換をデータに適用し、それらの変換を元のデータに付加することを含むことができる。変換が意味があるか否かを決定するための基準は、入力データそれ自身および／またはデータから求められる知識のタイプに依存するであろう。データ変換の例示的タイプは：専門家情報の付加；標識；二元変換；サイン、コサイン、タンジェント、コタンジェントおよび他の三角法変換；クラスタリング；スケーリング；確率および統計解析；有意性テスト；強度テスト；２−Ｄ規則性についてのサーチ；ヒドゥン・マルコフ・モデリング（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｉｎｇ）；同等関係の同定；コンティンジェンシー表の適用；グラフ理論原理の適用；ベクトル地図の創製；多項式および他の代数変換の足し算、引き算、掛け算、割り算、適用；比例性の同定；識別力決定等を含む。医療データの文脈では、潜在的に意味のある変換は：既知の標準的医療参照範囲との関連；生理学的切断；生理学的組合せ；生理学的組合せ；発見的規則の適応；診断基準決定；臨床的重みづけシステム；診断変換；臨床変換；専門家知識の適応；標識技術；他のドメイン知識の適応；バイエジアン（Ｂａｙｅｓｉａｎ）ネッワーク知識等を含む。これらおよび他の変換、ならびにその組合せは当業者に思い浮かぶであろう。
【００４９】
また、当業者であれば、データ変換はデータポイントに次元を付加する事なく実行できることを認識するはずである。例えば、データポイントは座標（Ａ，Ｂ，Ｃ）を含むことができる。このデータポイントの変換バージョンの結果、座標（１，２，３）を得ることができ、ここに、座標「１」は座標「Ａ」といくつかの既知の関係を有し、座標「２」は座標「Ｂ」といくつかの既知の関係を有し、および座標「３」は「Ｃ」といくつかの既知の関係を有する。文字から数字への変換は、例えば、もし文字が学習機械によって理解されなければ必要であろう。他のタイプの変換は、元来数字形態であるデータに関してさえ、データポイントに次元を付加する事なく可能である。さらに、データを前処理してそれに意味を付加することは、不完全な、崩れたまたは他の「汚損した」データを解析することを含むことができる。学習機械は「汚損した」データを意味のあるように処理することはできない。かくして、前処理ステップは、データセットを清浄して汚損したデータポイントを除去し、修復または置換することを含むことができる。
【００５０】
図１を参照し、例示的方法１００はステップ１０６において継続し、そこで、前処理されたデータを用いて学習機械が訓練される。当該分野で知られているごとく、学習機械は、所望の訓練出力が達成されるまでその操作パラメーターを調整することによって訓練される。訓練出力が望ましいか否かの決定は、手動で、または訓練出力を訓練データの公知の特徴と比較することによって自動的に達成することができる。学習機械は、その訓練出力が訓練データの公知の特徴からの所定の誤差閾値内にある場合に訓練されたと考えられる。ある状況では、もし必要でなければ、ステップ１０７において学習機械の訓練出力を後処理するのが望ましいであろう。述べたごとく、学習機械の出力を後処理ことは、出力を意味のある形態に解釈することを含む。回帰問題の文脈では、例えば、学習機械の出力についての範囲カテゴリー化を決定して、入力データポイントが正しくカテゴリー化されたかを決定するのが必要であろう。パターン認識問題においては、しばしば、学習機械の訓練出力を後処理する必要はない。
【００５１】
ステップ１０８において、テストデータは、所望により、訓練された学習機械をテストするために調製に収集される。テストデータは、１以上の局所および／または遠隔源から収集することができる。現実的には、テストデータおよび訓練データは同時に同一源から収集することができる。かくして、テストデータおよび訓練データセットは共通のデータセットから分割することができ、学習機械用の異なる入力データセットとして用いるために局所記憶媒体に記憶することができる。どのようにテストデータが収集されるかにかかわらず、用いるいずれのテストデータも、訓練データと同様にステップ１１０において前処理されなければならない。当業者に明らかなごとく、学習の適切なテストは、訓練データと同一のフォーマットのテストデータを用いることによって達成することができる。次いで、ステップ１１２において、もしあれば前処理テストデータを用いて学習機械をテストする。学習機械のテスト出力は、所望によりステップ１１４で後処理して、結果が望ましいかを決定する。再度、後処理ステップは、テスト出力を意味のある形態に解釈することを含む。意味のある形態は、人によって理解できる形態、またはコンピューターによって理解できる形態で有り得る。それにもかかわらず、テスト出力は、テストデータと比較して、結果が望ましいか否かを決定することができる形態に後処理されなければならない。後処理ステップの例は、限定されるものではないが、以下の；最適カテゴリー化決定、スケーリング技術（線形および非線形）、変換（線形および非線形）、確率評価を含む。方法１００はステップ１１６で終了する。
【００５２】
図２は、支持ベクトル機（ＳＶＭ）として知られている特定タイプの学習機械を用いて発見することができる知識を増強するための例示的方法２００を示すフローチャートである。ＳＶＭは、データの限定された収集からの多次元機能を評価する場合に一般化を提供するための特殊化されたアルゴリズムを実行する。ＳＶＭは、依存性評価の問題を解決するのに特に有用であろう。より具体的には、ＳＶＭは、インジケーター機能（例えば、パターン認識問題）およびリアル−バリュード機能（例えば、機能近似問題、回帰評価問題、密度評価問題、および解決逆問題）を評価するにおいて正確に用いることができる。ＳＶＭの基礎となる概念は、出典明示してその全体を本明細書の一部とみなす、ＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙと題されたＶｌａｄｉｍｉｒＮ．Ｖａｐｎｉｋｖによる書籍（Ｊｏｈｎ，Ｗｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．１９９８）に詳細に説明されている。従って、ＳＶＭおよびそれに関して用いられる用語に対する精通は本明細書を通じて仮定される。
【００５３】
支持ベクトル機は１９９２年に導入され、「カーネルトリック」が記載された。Ｂｏｓｅｒ，Ｂ．ら，ＦｉｆｔｈＡｎｎａｌＷｏｒｋｓｈｉｐｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，ｐ１４４−１５２，Ｐｉｔｔｓｂｕｒｇｈ，ＡＣＭ参照。訓練パターンおよび決定境界の間のマージンを最大化する訓練アルゴリズムが提示された。該技術は、Ｐｅｒｃｅｐｔｒｏｎｓ、多項式およびラジアル・ベーシス（ＲａｄｉａｌＢａｓｉｓ）機能を含めた広く種々の分類機能に適用することができた。有効数のパラメーターが、問題の複雑性にマッチするように自動的に調整された。解決は、支持パターンの非直線組合せとして表現された。これらは、決定境界に最も近い訓練パターンのサブセットである。リーブ−ワン−アウト方法およびＶＣ−寸法に基づく一般化業績についての制限が与えられる。光学特徴認識問題についての実験結果は、他の学習アルゴリズムと比較した場合に得られた良好な一般化を示す。
【００５４】
支持ベクトルを用いるパターン認識システムは、出典明示してその全体を本明細書の一部とみなす米国特許第５，６４９，０６８号に開示された。該特許には、決定システムのデザインにデュアル表示数学原理が用いられた方法が記載されている。この原理は、メモリー・ベースの決定関数として表されるべきあらかじめ規定された関数の重みづけされた合計であるいくつかの決定関数を可能とする。この原理を用い、最適マージンを持つメモリー・ベースの決定システムがデザインされ、ここに、メモリー・ベースの決定関数の訓練パターンの重みおよびプロトタイプは、対応するデュアル決定関数がマージン最適性の基準を満足するように決定された。
【００５５】
例示的方法２００は開始ブロック２０１で開始され、ステップ２０２まで進み、そこで、問題が公式化され、ついで、ステップ２０３に進み、そこで、訓練データセットが収集される。図１を参照して記載したごとく、訓練データは、手動または自動プロセスを通じて、１以上の局所および／または遠隔源から収集することができる。ステップ２０４において、訓練データは所望により前処理される。再度、データを前処理することは、データを清浄化し、データを変換し、および／またはデータを拡大することによって、訓練データ内の意味を増強することを含む。当業者であれば、ＳＶＭは極端に大きな次元を有する入力データを処理することができるのを認識するはずである。事実、入力データの次元が大きくなれば、良好な一般化をＳＶＭが計算することができる。しかしながら、前処理を通じて入力スペースの次元を単に増加させることは、ＳＶＭでの良好な一般化を保証しない。しかしながら、実質的に入力スペース次元を増加させる聡明な前処理は、ニューラル・ネットワークおよび伝統的な統計モデルとは異なりＳＶＭで首尾よくモデル化することができる。より高次元のデータを取り扱う能力は、しばしば、良好でより一般化されたモデルに至ることができる。したがって、訓練データを拡大しない訓練データ変換が可能であるが、ＳＶＭの特別の文脈では、意味のある情報をそれに付加することによって訓練データが拡大されるのが好ましい。
【００５６】
ステップ２０６において、カーネルがＳＶＭについて選択される。当該分野で知られているごとく、異なるカーネルは、ＳＶＭが、入力データの所与のセットにつき出力における種々の程度の品質を生じさせるようにするであろう。従って、適当はカーネルの選択はＳＶＭの出力の所望の品質に必須であろう。本発明の１つの実施形態において、以前の性能知識に基づいてカーネルを選択することができる。当該分野で知られているごとく、例示的カーネルは多項式カーネル、動径基底関数カーネル、線型カーネルなどを含む。別の実施形態において、特定の問題またはデータセットのタイプに特異的にカスタマイズされたカーネルを創製することができる。さらにもう１つの実施形態において、複数のＳＶＭを訓練し、同時にテストすることができ、各々は異なるカーネルを用いる。種々の選択可能なまたは荷重したメトリックスを用いて（ステップ２２２参照）、各々同時に訓練されテストされたＳＶＭについて出力の品質を比較して、最も望ましいカーネルを決定することができる。
【００５７】
次に、ステップ２０８において、前処理した訓練データがＳＶＭに入力される。ステップ２１０において、前処理した訓練データを用いてＳＶＭを訓練して、最適な超平面を創製する。所望により、次いで、ＳＶＭの訓練出力をステップ２１１で後処理することができる。再度、訓練出力の後処理は望ましく、または必要であってさえ、後処理は、この時点では、出力についての範囲またはカテゴリーを適切に計算するのに望ましい、または必要でさえあろう。ステップ２１２において、データ収集の先の記載と同様にテストデータを収集する。前記訓練データと同様に、テストデータをステップ２１４で前処理する。次いで、ステップ２１６で、前処理されたテストデータを処理のためにＳＶＭに入力して、ＳＶＭが望ましいように訓練されたか否かを決定する。テスト出力がステップ２１８においてＳＶＭから受領され、所望により、ステップ２２０において後処理される。
【００５８】
後処理されたテスト出力に基づき、ステップ２２２において、最適な最大がＳＶＭによって達成されたかを決定する。当業者であれば、ＳＶＭは、全体的最小誤差を有する出力を確認するように操作できることを認識すべきである。しかしながら、前記したごとく、所与のデータセットについてのＳＶＭの出力結果は、典型的には、カーネルの選択に関して変化するであろう。従って、事実、データの与えられたセットについてのＳＶＭによって確認することができる複数の全体的最小がある。本明細書中で用いるごとく、用語「最適な最小」または［最適な解決」とは、ＳＶＭによって確認された他の全体的最小と比較した場合に最適であると考えられる選択された全体的最小をいう（例えば、問題特異的な予め確立された基準の所与のセットについての最適な解決）。従って、ステップ２２２において、最適な最小が確認されたか否かを決定することは、ＳＶＭの出力を履歴または所定の値と比較することを含むことができる。そのような所定の値はテストデータセットに依存し得る。例えば、データポイントが、ＳＶＭによって、ある特徴を有する、あるいは該特徴を有しないとして分類されるパターン認識問題の文脈においては、５０％の全体的最小誤差は最適でないであろう。この例においては、５０％の全体的最小は、偶然に達成されるであろう結果よりも良好ではない。もう１つの例として、複数のＳＶＭが訓練され、種々のカーネルで同時にテストされる場合において、各ＳＶＭについての出力を各他のＳＶＭの出力と比較して、カーネルのその特定のセットについての現実的な最適解決を決定することができる。最適な解決が確認されたか否かの決定は、手動で、あるいは自動比較プロセスを通じて行うことができる。
【００５９】
もし訓練されたＳＶＭによって最適な最小が達成されなかったと決定されれば、当該方法はステップ２２４まで進み、そこで、カーネル選択が調整される。カーネル選択の調整は、１以上の新しいカーネルを選択するか、またはカーネルパラメーターを含むことができる。さらに、複数のＳＶＭを訓練し、同時にテストする場合において、他のカーネルは対照目的で再度使用することができるが、選択されたカーネルは置き換えるかまたは修飾することができる。カーネル選択が調整された後、方法２００はステップ２０８から反復され、ここに、以前に前処理された訓練データが訓練目的でＳＶＭに入力される。ステップ２２２において最適な最小が達成されたと決定された場合、当該方法はステップ２２６に進み、そこで、生データが前記したと同様に収集される。訓練データおよびテストデータに関して知られた所望の出力特徴は生データに関して知られていない。
【００６０】
ステップ２２８において、訓練データおよびテストデータと同様にして生データが前処理される。ステップ２３０において、生の前処理されたデータが処理のためにＳＶＭに入力される。ＳＶＭの生出力がステップ２３２で受領され、ステップ２３４において後処理される。本発明の１つの実施形態において、後処理は、ヒトまたはコンピューターによる解釈のために、ＳＶＭの出力をコンピューターにより誘導された英数字分類器に変換することを含む。好ましくは、英数字分類器は、ヒトまたはコンピューターによって容易に理解される単一の値を含む。当該方法２００はステップ２３６において終了する。
【００６１】
図３は、データを前処理するのに、または本発明の例示的な実施形態に従う学習機械からの出力を後処理するのに用いることができる例示的最適カテゴリー化方法３００を示すフローチャートである。加えて、後記するごとく、例示的最適カテゴリー化方法は、学習機械とは独立して、単独カテゴリー化技術として用いることができる。例示的最適カテゴリー化方法３００は出発ブロック３０１で始まり、ステップ３０２まで進行し、そこで入力データセットが受領される。入力データセットは、連続的変数からのデータ試料の配列を含む。データ試料は２以上の分類カテゴリー内に入る。次に、ステップ３０４において、ビンおよびクラス−トラッキング変数が初期化される。当該分野で知られているように、ビン変数は分解に関連し、クラス−トラッキング変数はデータセット内での分類の数に関連する。ビンおよびクラス−トラッキング変数の初期化のための値を決定することは、手動にて、あるいは入力データセットの解析からのコンピュータープログラムのごとき自動プロセスを介して実行することができる。ステップ３０６において、各ビンについてのデータエントロピーが計算される。エントロピーはランダムな分布の不確からしさを測定する数学的質である。例示的方法３００において、エントロピーを用いて、最大分類能力が達成されるように、入力変数の等級を測る。
【００６２】
方法３００は連続的変数上に一連の「カット」を生じ、従って、連続的変数は区別されるカテゴリーに分けることができる。例示的方法３００によって選択されたカットは、各得られた区別されるカテゴリーの平均エントロピーが最小化される意味で最適である。ステップ３０８において、連続的変数を含む入力データセット内で全てのカットが置かれたか否かに関して決定がなされる。もし全てのカットが置かれていないならば、連続的ビン組合せが、ステップ３１０においてカットオフ決定につきテストされる。ステップ３１０から、例示的方法３００はステップ３０６を通じてループバックし、ステップ３０８に戻り、そこで、再度連続的変数を含む入力データセット内に全てのカットが置かれたか否かが決定される。全てのカットが置かれれば、全システムについてのエントロピーがステップ３０９で評価され、より多いまたはよりリスク内カットのテストからの以前の結果と比較される。最小エントロピー状態が決定されたと結論することができないならば、他の可能なカット選択が評価されなければならず、当該方法はステップ３１１まで進む。ステップ３１１からカットの数についてのこれまでの未テスト選択が選択され、前記したプロセスがステップ３０４から反復される。ビン幅によって決定された分解の限度がテストされるか、または最小解決への収束が同定されれば、最適な分類基準がステップ３１２で出力され、例示的最適カテゴリー化方法３００はステップ３１４で終了する。
【００６３】
最適なカテゴリー化方法３００は動的プログラミング技術を利用する。当該分野で知られているごとく、動的プログラミング技術を用いて、注意深くアルゴリズムを構築することに介してある複雑は問題を解決する効率を有意に改良して、冗長な計算を減らすことができる。最適なカテゴリー化問題において、連続的変数データにおける全ての可能なカットを通じての徹底的サーチの直接的アプローチの結果、指数関数的複雑性のアルゴリズムがもたらされ、中程度のサイズの入力についてさえ問題を困難とするであろう。標的機能の付加的特性（この問題では平均エントロピー）を利用することによって、当該問題は一連のサブ問題に分けることができる。各サブ問題を解くためにアルゴリズムサブ構造を適切に処方し、サブ問題の解決を記憶することによって、大量の冗長な計算を同定し、回避することができる。動的プログラミングアプローチを用いる結果、例示的最適カテゴリー化方法３００は、大きなサイズの問題を解くのに用いることができる多公式複雑性を有するアルゴリズムとして実行することができる。
【００６４】
前記したごとく、例示的最適カテゴリー化方法３００は、データを前処理しおよび／または学習機械の出力を後処理するのに用いることができる。例えば、後処理変換ステップをして、該例示的最適カテゴリー化方法３００を用いて、生データからの分類情報を抽出することができる。後処理技術として、例示的最適範囲カテゴリー化方法を用いて、場当たりのアプローチに依拠するよりはむしろ、客観的にデータに基づいたマーカーに対する最適カットオフ値を決定することができる。明らかなごとく、例示的最適カテゴリー化方法３００はパターン認識、分類、回帰問題などにおいて適用を有する。また、例示的最適カテゴリー化方法３００は、ＳＶＭおよび他の学習機械から独立して、単独カテゴリー化技術として用いることもできる。最適カテゴリー化方法３００の例示的単独適用を図８を参照して記載する。
【００６５】
図４は、支持ベクトル機のための入力として用いることができる例示的非拡大データセット４００を示す。このデータセット４００は「非拡大」という。なぜならば、さらなる情報がそれに付加されていないからである。示すごとく、非拡大データセットは訓練データセット４０２およびテストデータセット４０４を含む。非拡大訓練データセット４０２および非拡大テストデータセット４０４の双方は、サンプリングした医療患者からの履歴臨床データに関連する例示的データポイント４０６のごときデータポイントを含む。データセット４００を用いて、ＳＶＭを訓練し、乳癌患者が再発を経験するであろうか否かを判断することができる。
【００６６】
各データポイントは５つの入力座標、または寸法、および各患者について収集された医療データを表す４０６ａ−ｆで示される出力分類を含む。特に、第１の座標４０６ａは「年齢」を表し、第２の座標４０６ｂは「エストロゲン受容体レベル」を表し、第３の座標４０６ｃは「プロゲステロン受容体レベル」を表し、第４の座標４０６ｄは「合計抽出リンパ節」を表し、第５の座標４０６ｅは「陽性（癌性）抽出リンパ節」を表し、および出力分類４０６ｆは「再発分類」を表す。データ４００の重要な公知の特徴は出力分類４０６ｆ（再発分類）であり、これは、この例においては、サンプリングした医療患者が好都合には癌の再発なくして（「−１」）治療に応答したか、または不都合にも癌の再発を伴って（「１」）治療に応答したかを示す。この公知の特徴は学習で用いることができ、他方、ＳＶＭにおいて訓練データを処理することは、テストデータをＳＶＭに入力し、かくして、「ブラインド」を生じた後に評価様式で用いることができ、これは、明らかに、現在の医療患者の生データでは知られていないであろう。
【００６７】
図５は、非拡大訓練データセット４０２で訓練され、図４で示された非拡大データセット４０４でテストされたＳＶＭからの例示的テスト出力５０２を示す。テスト出力５０２は、ヒトまたはコンピューターによって理解できるように後処理されている。ここに示すごとく、テスト出力５０２は、合計２４の試料（データポイント）がＳＶＭによって調べられ、ＳＶＭが８つの陽性試料の内４つを誤って同定し（５０％）、１６の陰性試料の内６つを誤って同定した（３７．５％）を示す。
【００６８】
図６は、支持ベクトル機のための入力として用いることができる例示的拡大データセット６００を示す。このデータセット６００は「拡大されている」という。なぜならば、さらなる情報がそれに付加されているからである。付加された情報とは別に、拡大されたデータセット６００は図４に示す非拡大データセット４００と同一であることに注意されたし。拡大されたデータセットに供給されたさらなる情報は、図３を参照して記載された例示的最適範囲カテゴリー化方法３００を用いて供給されている。示すごとく、拡大されたデータセットは訓練データセット６０２およびテストデータセット６０４を含む。拡大された訓練データセット６０２および拡大されたテストデータセット６０４の双方は、サンプリングした医療患者からの履歴データに関連する例示的データポイント６０６のごときデータポイントを含む。再度、データセット６００を用いてＳＶＭを訓練し、乳癌患者が病気の再発を経験するか否かを学習する。
【００６９】
例示的最適カテゴリー化方法３００の適用を介して、各拡大されたデータポイントは６０６ｅ１−３を介する２０の座標（または次元）６０６ａ１−３、および出力分類６０６ｆを含み、これは、集合的に、各患者についての医療データおよびそのカテゴリー化変換を表す。特に、第１の座標６０６ａは「年齢」を表し、第２の座標ないし第４の座標６０６ａ１−６０６ａ３は、組み合わされて年齢のカテゴリーを表す変数である。例えば、年齢の範囲は、例えば、データに存在する年齢の範囲に関して「若い」、「中年」および「老人」カテゴリーに分類することができる。示すごとく、変数のストリング「０」（６０６ａ１）、「０」（６０６ａ２）、「１」（６０６ａ３）を用いて、ある年齢値が「老人」として分類されることを示すことができる。同様に、変数のストリング「０」（６０６ａ１）、「１」（６０６ａ２）、「０」（６０６ａ３）を用いて、ある年齢値が「中年」として分類されることを示すことができる。また、変数のストリング「１」（６０６ａ１）、「０」（６０６ａ２）、「０」（６０６ａ１）を用いて、ある年齢値が「若い」として分類されることを示すことができる。図６の洞察から、例示的方法３００を用いて「年齢」６０６ａ値の範囲の最適カテゴリー化が３１−３３＝「若い」、３４＝「中年」および３５−４９＝「老人」であると決定された。他の座標、すなわち座標６０６ｂ「エストロゲン受容体レベル」、座標６０６ｃ「プロゲステロン受容体レベル」、座標６０６ｄ「合計抽出リンパ節」、および座標６０６ｅ「陽性（癌性）抽出リンパ節」は、各々、同様に最低にカテゴリー化されている。
【００７０】
図７は、拡大訓練データセット６０２で訓練され、図６に示された拡大データセット６０４でテストされたＳＶＭからの例示的拡大テスト出力７０２を示す。拡大テスト出力７０２は、ヒトまたはコンピューターによって理解されるように後処理されている。示すごとく、拡大テスト出力７０２は合計２４の試料（データポイント）がＳＶＭによって調べられ、ＳＶＭが８つの陽性試料の内４つを誤って同定し（５０％）、１６の陰性試料の内４つを誤って同定した（２５％）ことを示す。従って、この拡大テスト出力７０２を図５の非拡大テスト出力５０２と比較することによって、データポイントの拡大が改良された結果（すなわち、より低い全体的最小誤差）、具体的には、後の癌処置に不必要に付される患者の例の減少に導くことがわかるであろう。
【００７１】
図８は、図３に記載された最適カテゴリー化方法３００の単独適用のための例示的入力および出力を示す。図８の例においては、入力データセット８０１は「陽性リンパ節の数」８０２および対応する「再発分類」８０４を含む。この例においては、最適カテゴリー化方法３００が入力データセット８０１に適応されて、手術後組織試料で収集された陽性リンパ節の数のみに基づいて、癌再発のための治療の決定用最適カットオフポイントを位置決定されている。よく知られた臨床標準は、少なくとも３つの陽性節を持ついずれかの患者についての治療を規定する。しかしながら、最適カテゴリー化方法３００は、入力データ８０１に基づく最適カットオフ８０６が５．５のリンパ節のより高い値においてのものであるべきことを示し、これは、少なくとも６つの陽性リンパ節を持つ患者における後の治療を規定する臨床規則に対応する。
【００７２】
比較表８０８に示すごとく、先行技術が許容したカットオフポイント（≧３．０）の結果、４７％の正しく分類された再発および７１％の正しく分類された非再発がもたらされた。従って再発の５３％は正しく分類されておらず（さらなる試料は不適切にも推奨されていない）、非再発の２９％は誤って分類された（さらなる治療は誤って推奨された）。対称的に、最適カテゴリー化方法３００によって決定されたカットオフポイント（≧５，５）の結果、３３％の正しく分類された再発および９７％の正しく分類された非再発がもたらされた。従って再発の６７％は正しくなく分類され（さらなる試料は不適切にも推奨されず）、非再発の３％は正しくなく分類された（さらなる試料は正しくなく推奨された）。
【００７３】
この例によって示されるごとく、例示的最適カテゴリー化方法３００を用い、外科手術後癌治療を避けることができる患者を正しく同定するより高い例を達成することができるであろう。最適カテゴリー化方法３００によって決定されたカットオフポイントは中程度に高いパーセンテージの正しくなく分類された再発を生じたが、それはかなり低いパーセンテージの正しくなく分類された非再発を生じた。かくして、トレードオフを考慮し、かつ最適化問題の目標が不必要な治療の回避であることを認識すると、最適カテゴリー化方法３００によって決定されたカットオフポイントの結果は、先行技術の臨床的カットオフポイントのそれよりも数学的に優れている。このタイプの情報は、化学療法のごとき治療を受けていることと乳癌の再発の危険があることの間の選択をせまられる患者に対してさらなる洞察を提供するのに潜在的に非常に有用である。
【００７４】
図９は、線型カーネルを含む第１の支持ベクトル機および多項式カーネルを含む第２の支持ベクトル機からの例示的後処理した出力の比較である。図９は、カーネルの選択の変動がＳＶＭの出力の品質レベルに影響し得ることを示す。示されたごとく、線型内積カーネルを第１のＳＶＭ９０２の後処理した出力は、２４の試料の所与のテストセットにつき、８つの陽性試料の内６つが正しくなく同定され、１６の陰性試料の内３つが正しくなく同定されたことを示す。比較により、多項式カーネルを含む第２のＳＶＭ９０４について後処理された出力は、同一テストセットについて、８つの陽性試料の内２つのみが正しくなく同定され、１６の陰性試料の内４つが同定されたことを示す。比較により、多項式カーネルは陽性試料の同定に対してかなり改良された結果を生じ、陰性試料の同定に関してわずかに悪い結果を生じたに過ぎない。かくして、当業者に明らかなごとく、多項式カーネルについての全体的最小誤差は、このデータセットについての線型カーネルについての全体的最小誤差よりも低い。
【００７５】
図１０および以下の考察は、本発明を実施するのに適した計算の環境の簡単な一般的記載を供することを意図する。図１０に示されたシステムは慣用的パーソナルコンピューター１０００であるが、当業者であれば、他のタイプのコンピューターシステム配置を用いて本発明を実施することもできることを認識するであろう。コンピューター１０００は中枢処理ユニット１０２２、システムメモリー１０２０、および入力／出力（「Ｉ／Ｏ」）バス１０２６を含む。システムバス１０２１は中枢処理ユニット１０２２をシステムメモリー１０２０に結合させる。バスコントローラー１０２３はＩ／Ｏバス１０２６上で、中枢処理ユニット１０２２および種々の内部および外部Ｉ／Ｏデバイスの間のデータの流れを制御する。Ｉ／Ｏバス１０２６に連結したＩ／Ｏデバイスは、直接メモリーアクセス（「ＤＭＡ」）コントローラー１０２４を用いてシステムメモリー１０２０に対して直接的アクセスを有することができる。
【００７６】
Ｉ／Ｏデバイスは、デバイスインターフェイスのセットを介してＩ／Ｏバス１０２６に連結する。デバイスインターフェイスはハードウェア成分およびソフトウェア成分双方を含むことができる。例えば、除去可能な媒体１０５０を読みまたは書くためのハードディスクドライブ１０３０およびフロッピーディスクドライブ１０３２を、ディスクドライブコントローラー１０４０を介してＩ／Ｏバス１０２６に連結することができる。光学媒体１０５２を読みまたは書くための光学ディスクドライブ１０３４は、スモール・コンピューター・システム・インターフェイス（「ＳＣＳＩ」）１０４１を用いてＩ／Ｏバス１０２６に連結することができる。別法としてＩＤＥ（ＡＴＡＰＩ）またはＥＩＤＥインターフェイスを、ＣＤ−ＲＰＭドライブに当てはまるごとき光学ドライブと連結させることができる。該ドライブおよびそれらの関連コンピューター読み取り可能な媒体はコンピューター１０００用の不揮発性記憶を提供する。前記したコンピューター読み取り可能な媒体に加え、ＺＩＰドライブ等のごとき他のタイプのコンピューター読み取り可能な媒体を用いることもできる。
【００７７】
モニターのごときディスプレイデバイス１０５３は、ビデオアダプター１０４２のごときもう１つのインターフェイスを介してＩ／Ｏバス１０２６に連結される。平行インターフェイス１０４３はレーザープリンター１０５６のごとき同調周辺デバイスをＩ／Ｏバス１０２６に連結する。セリアルインターフェイス１０４４は通信デバイスをＩ／Ｏバス１０２６に連結する。セリアルインターフェイス１０４４を介して、またはキーボード１０８３、マウス１０３６またはモデム１０５７のごとき入力デバイスを用いることによって、ユーザーはコマンドおよび情報をコンピューター１０００に入力することができる。オーディオ入力／出力デバイスまたはイメージ捕獲デバイスのごとき他の周辺デバイス（図示せず）をコンピューター１０００に連結することもできる。
【００７８】
多数のプログラムモジュールをドライブ上およびシステムメモリー１０２０中に記憶することができる。システムメモリー１０２０はランダムアクセスメモリー（「ＲＡＭ」）および読出専用メモリー（「ＲＯＭ」）双方を含むことができる。プログラムモジュールは、どのようにしてコンピューター１０００が機能し、ユーザーと、Ｉ／Ｏデバイスと、または他のコンピューターと相互作用するかを制御する。プログラムモジュールはルーチン、オペレーティングシステム１０６５、適用プログラム、データ構造、および他のソフトウェアおよびファームウエア構成要素を含む。例示的な実施形態において、本発明は、コンピューター１０００のドライブ上またはシステムメモリー１０２０に記憶された、１以上の前処理プログラムモジュール１０７５Ａ、１以上の後処理プログラムモジュール１０７５Ｂ、および／または１以上の最適カテゴリー化モジュール１０７７および１以上のＳＶＭプログラムモジュール１０７０を含む。具体的には、ＳＶＭプログラムモジュール１０７０と共に前処理プログラムモジュール１０７５Ａ、後処理プログラムモジュール１０７５Ｂは、データを前処理し、および学習機械からの出力を後処理し、および図１および２を参照して記載した例示的方法に従って学習アルゴリズムを実行するためのコンピューター−実行可能指令を含むことができる。さらに、最適カテゴリー化プログラムモジュール１０７７は、図３を参照して記載した例示的方法に従ってデータセットを最適にカテゴリー化するためのコンピューター−実行可能指令を含むことができる。
【００７９】
コンピューター１０００は、遠隔コンピューター１０６０のごとき１以上の遠隔コンピューターに対する論理的結合を用いてネットワーク化環境で操作することができる。遠隔コンピューター１０６０はサーバ、ルーター、ピアデバイスまたは他の共通のネットワークノードとすることができ、典型的には、コンピューター１０００と結合した記載したエレメントの多くまたはすべてを含む。ネットワーク化環境において、プログラムモジュールおよびデータは遠隔コンピューター１０６０に記憶することができる。図１０に示した論理的結合はローカルエリアネットワーク（「ＬＡＮ」）１０５４およびワイドエリアネットワーク（「ＷＡＮ」）１０５５を含む。ＬＡＮ環境において、Ｅｔｈｅｒｎｅｔアダプターカードのごときネットワークインターフェース１０４５を用いて、コンピューター１０００を遠隔コンピューター１０６０に結合することができる。ＷＡＮ環境において、コンピューター１０００は、結合を達成するために、モデム１０５７のごとき遠隔通信デバイスを用いることができる。示されたネットワーク結合は例示であって、コンピューター間の通信リンクを確立する他のデバイスを用いることができるのは認識されるであろう。
【００８０】
図１１は、本発明の実施のための別の例示的オペレーティング環境を示す機能的ブロックダイアグラムである。本発明は、複数のコンピューターシステムの特殊化配置で実施することができる。複数のコンピューターシステムの特殊化配置の例は、ここでは、ＢＩＯＷｕｌｆ^TM支持ベクトルプロセッサ（ＢＳＶＰ）という。該ＢＳＶＰは平行計算ハードウェア技術における最後の進歩をパターン認識、回帰評価および密度評価における最後の数学的進歩と組み合わせる。これらの技術の組合せはユニークで新規な実施であるが、ハードウェアの配置は、ナサ・ゴダード・スペース・フライト・センター（ＮＡＳＡＧｏｄｄａｒｄＳｐａｃｅＦｌｉｇｈｔＣｅｎｔｅｒ）が開発者であるＢｅｏｗｕｌｆスーパーコンピューターの実施に基づく。
【００８１】
ＢＳＶＰは、ＳＶＭ訓練および大規模なデータセットについての評価を促進するのに必要なかなり平行した計算力を提供する。ＢＳＶＰはデュアル平行ハードウェア構築および慣用的平行化ソフトウェアを含んで、マルチスレッディングおよびメッセージパシング双方の効果的な利用が現実の適用において支持ベクトルを効果的に同定するのを可能とする。ハードウェアおよびソフトウェア双方の最適化は、ＢＳＶＰが典型的なＳＶＭ実行よりもかなり優れているようにすることができる。さらに、商品として、計算技術が進歩するにつれ、解放源ソフトウェアにおける基礎および標準化インターフェーシング技術によってＢＳＶＰの等級上昇が保証される。将来の計算プラットフォームおよびネットワーキング技術はＢＳＶＰに同化することができる。というのは、それらはソフトウェアの実行に対して影響なくしてコストが効果的となるからである。
【００８２】
図１１に示すごとく、ＢＳＶＰは２０の処理ノード１１０４ａ−ｔおよび１つのホストノード１１１２を備えたＢｅｏｗｕｌｆクラスのスーパーコンピュータークラスターを含む。処理ノード１１０４ａ−ｊはスイッチ１１０２ａを介して相互連結し、他方、処理ノード１１０４ｋ−ｔはスイッチ１１０２ｂを介して相互連結する。ホストノード１１１２は、適当なＥｔｈｅｒｎｅｔケーブル１１１４を介してネットワークスイッチ１１０２ａまたは１１０２ｂ（１１０２ａを示す）の内のいずれか１つに連結する。また、スイッチ１１０２ａおよびスイッチ１１０２ｂは、すべての２０の処理ノード１１０４ａ−ｔおよびホストノード１１１２が効果的に相互と連絡するように、適切なＥｔｈｅｒｎｅｔケーブル１１１４を介して相互に連絡する。スイッチ１１０２ａおよび１１０２ｂは、好ましくは、速Ｅｔｈｅｒｎｅｔ相互連結を含む。ＢＳＶＰのデュアル平行構築は、複数機の平行配置を通過し、ホストノード１１１２としての高効率デュアルプロセッサＳＭＰコンピューターを利用するＢｅｏｗｕｌｆスーパーコンピューターのメッセージの実行を介して達成される。
【００８３】
例示的配置において、ホストノード１１１２は無接着剤マルチ−プロセッサＳＭＰ技術を含み、１８ＧＢのＵｌｔｒａＳＣＳＩ記憶、２５６ＭＢメモリー、２つの１００Ｍｂｉｔ／ｓｅｃＮＩＣ、および２４ＧＢＤＡＴネットワークバックアップテープデバイスを備えたデュアル４５０ＭｈｚのＰｅｎｔｉｕｍＩＩＸｅｏｎベースのマシンよりなる。；ホストノード１１１２はＮＩＳ、ＭＰＬおよび／またはＰＷＭをＬｉｎｕｘ下で実行して、ＢＳＶＰの活動を管理する。また、ホストノード１１１２はＢＳＶＰおよび外界の間のゲートを提供する。それ自体、ＢＳＶＰの内部ネットワークは外部相互作用から隔離され、これは全クラスターが単一のマシンとして機能するようであることを可能とする。
【００８４】
２０のプロセッシングノード１１０４ａ−ｔは、１５０ＭＨｚＰｅｎｔｉｕｍプロセッサ、３２ＭＢＲＡＭ、８５０ＭＢＨＤＤ、１．４４ＭＢＦＤＤ、および速Ｅｔｈｅｒｎｅｔｍｂ１００Ｂｂ／ｃＮＩＣを含む同一に配置されたコンピューターである。処理ノード１１０４ａ−ｔは相互に連結し、ＮＦＳを通るホストノードはＴＣＰ／ＩＰ上に連結する。ＢＳＶＰ計算に加え、処理ノードは、ＫＶＭスイッチ１１０８ａおよび１１０８ｂを介して単一キーボードデバイスおよび単一マウスデバイスに通じる各ノードのキーボードおよびマウスを備えた装着されたモニターのバンクを介してデモンストレーション能力を供する。
【００８５】
ソフトウェアのカスタマイズおよび開発はＢＳＶＰに対する活動の最適化を可能とする。ＳＶＭプロセスのセクションにおける同時発生は、ＢＳＶＰハードウェアによって供されたハイブリッド平行化を通じて最も有利に開発される。ソフトウェアは生データから実行された解決までの十分なサイクル支持を実行する。データベースエンジンは、前処理された生データに必要な記憶および柔軟性を提供する。慣用開発ルーチンはＳＶＭ訓練に先立ってデータの前処理を自動化する。複数の変換およびデータ操作が、データベース環境内で実行されて、候補訓練データを生じさせる。
【００８６】
ＢＳＶＰのピーク理論処理能力は３．９０ＧＦＬＯＰＳである。それらのＢｅｏｗｕｌｆクラスのマシン上でのＮＡＳＡＧｏｄｄａｒｄＳｐａｃｅＦｌｉｇｈｔＣｅｎｔｅｒによって行われたベンチマークに基づき、予測された現実の性能は約１．５６ＰＳＧＦＬＯＰＳであるはずである。かくして、このＢｅｏｗｕｌｆクラスクラスターマシンにおける商品構成要素計算力を用いて達成された性能は、ＣｒａｙＪ９３２／８のごときスーパーコンピューターのそれと一致する。さらに、リサーチおよびアカデミック研究所におけるＢｅｏｗｕｌｆテストは、単一プロセッサの１８倍のオーダーの性能が一般に２０ノードＢｅｏｗｕｌｆクラスターで達成できることを示す。例えば、単一Ｐｅｎｔｉｕｍプロセッサーコンピューターで１７分４５秒のクロックタイムを要する最適化問題は、２０ノードを備えたＢｅｏｗｕｌｆで５９秒で解かれた。従って、ＢＳＶＰの高性能性質は、現在余りにも面倒と考えられるデータセットの現実的解析が慣用的コンピューターシステムによって取り扱われるのを可能とする。
【００８７】
ＢＳＶＰの大きな計算力は、平行して複数ＳＶＭを実行して、それを、膨大な数の入力を含むリアルライフ問題を解くのに特に有用とする。一般にＳＶＭ、特にＢＳＶＰの有用性の例は、遺伝子の研究、特にヒトゲノムプロジェクト；管理されたケア効率の評価；治療的決定およびフォロー；適切な治療的選別；医薬開発技術；分子構造の発見；予後評価；医療インフォマティックス；請求書不正の検出：発明的制御；ストックの評価および予測；商品の評価および予測；および保証確率評価を含む。
【００８８】
当業者であれば、前記したＢＳＶＰ構築は性質上例示であって、本発明の範囲を限定することを意味しないことを認識すべきである。例えば、２０の処理ノードの選択はよく知られたＢｅｏｗｕｌｆ構築に基づくものであった。しかしながら、別法として、２０の処理ノードよりも多いまたは少ないものを用いて実行することもできる。さらに、特殊な前記したハードウェアおよびソフトウェア構成要素は例に過ぎない。言及したごとく、本発明のＢＳＶＰの実施形態は、別のおよび／または将来のハードウェアまたはソフトウェア構成要素に適合するように配置される。
【００８９】
図１２は、本発明のさらなる別の実施形態の実行のための例示的ネットワークオペレーティング環境を示す機能的ブロックダイアグラムである。例示的ネットワークオペレーティング環境において、顧客１２０２または他の団体は、インターネット１２０４のごとき分布したコンピューターネットワークを介してデータをベンダー１２１２に伝達することができる。当業者であれば、顧客１２０２は、通信デバイスおよびデータ記憶デバイスとの連絡を含む、またはそれと連絡するいずれかのタイプのコンピューターまたはラブ装置からのデータを伝達することができることを認識することである。顧客１２０２から伝達されたデータは学習機械によって処理されるべき訓練データ、テストデータおよび／または生データとすることができる。顧客によって伝達されたデータは購入者のウェブサーバ１２０６において受領され、これは、内部ネットワーク１２１４ａ−ｂを介して１以上の学習機械にデータを伝達することができる。前記したごとく、学習機械はＳＶＭ、ＢＳＶＰ１１００、ニューラル・ネットワーク、他の学習機械またはその組合せを含むことができる。好ましくは、ウェブサーバ１２０６は、ファイアウォル１２０８または他のセキュリティシステムによって学習機械から隔離されている。また、ベンダー１２１２は、インターネット１２０４またはいずれかの専用のまたはオンデマンド通信リンクを介して１以上の金融機関１２１０と連絡することもできる。ウェブサーバ１２０６または他の通信デバイスは１以上の金融機関との通信を取り扱うことができる。金融機関は銀行、インターネット銀行、手形交換書、クレジットまたはデビットカード会社等を含むことができる。
【００９０】
操作において、ベンダーは、ウェブサーバ１２０６ホストウェブサイトまたはウェブサイト１２０６と連絡するもう１つのサーバを介して学習機械処理サービスを提供することができる。顧客１２０２はウェブサーバ１２０６にデータを伝達して、学習機械によって処理することができる。また、顧客１２０２はユーザーネーム、パスワードおよび／または金融口座識別子のごとき同定情報をウェブサーバに伝達することもできる。データおよび同定情報の受容に応答して、ウェブサーバ１２０６は、金融機関１２１０において顧客１２０２によって維持されたまたは権限を与えられた金融口座から所定量の資金を電子的に引き出すことができる。加えて、ウェブサーバは顧客のデーターをＢＳＶＰ１１００または他の学習機械に伝達することができる。ＢＳＶＰ１１００がデータの処理および出力の後処理を完了すると、後処理された出力はウェブサーバ１２０６に戻される。既に述べたごとく、学習機械からの出力を後処理して、ヒトまたは自動解釈のために、単一値または複数値のコンピューターにより誘導された英数字分類器を生じさせることができる。次いで、ウェブサーバ１２０６は、後処理された出力がインターネット１２０４を介して顧客１２０２に逆伝達される前に顧客からの支払いが確認されていることを確実とすることができる。
【００９１】
ＳＶＭを用いて広く種々の実生活上の問題を解くことができる。例えば、ＳＶＭは会計および発明的データ、ストックおよび商品マーケットデータ、保証データ、医療データ等の解析において適用性を有することができる。それ自体、前記したネットワーク環境は多くの産業およびマーケットセグメントを通じて広い適用性を有する。発明的データ解析の文脈において、例えば、顧客は小売業者であっても良い。小売業者は発明的および監査データを所定の時点でウェブサーバ１２０６に供給することができる。発明的および監査データをＢＳＶＰおよび／または１以上の他の学習機械によって処理して、小売業者の発明的要件を評価することができる。同様に、医療データ解析の文脈では、顧客は医療研究所であって良く、患者が医療研究所にいつつ、患者から収集した生データ１２０６に伝達することができる。医療データをＢＳＶＰまたは他の学習機械で処理することによって生じた出力は、医療研究所に逆伝達し、患者に提示することができる。
【００９２】
本発明の方法、システムおよびデバイスの好ましい実施形態をここに記載する。本明細書中で用いるごとく、データ入力は「特徴」と呼ばれる構成要素の「パターン」と呼ばれるベクトルである。この実施形態においては、特徴は遺伝子発現係数であり、パターンは患者に相当する。２−クラスの分類問題を示す。既知のクラス標識を持つ多数のパターンの訓練セットを用いた。訓練パターンを用いて、入力パターンのスケーラー機能である決定機能または判別機能を形成することができる。新しいパターンは決定機能のサインに従って分類される。訓練パターン足すバイアスの単純な荷重合計である決定機能は線型判別機能と呼ばれる。もし線型判別機能が誤差なくしてそれを分離できるならば、データセットは「線型に分離可能」であると言われる。
【００９３】
一般に分類および機械学習で知られた問題は、入力空間の次元を減らして「オーバーフィッティング」の危険を克服する手段を見つけることである。マイクロアレイで実験された数千の遺伝子のごとく特徴の数が大きく、数ダースの患者のごとく訓練パターンの数が比較的小さい場合にデータのオーバーフィッティングが起こる。そのような状況においては、訓練データ、線型決定機能でさえ分離し、なおテストデータにつき不充分に実行する決定機能を見いだすことができる。規則化を用いる訓練技術は、空間次元の減少を必要とすることなくデータをオーバーフィッティングすることを回避する。支持ベクトル機（ＳＶＭ）は空間次元の減少で利益を受けることができるにも拘わらず、例えば、ＳＶＭがそれに当てはまる。
【００９４】
減少の他の方法は、データの最初の数個の主な方向にプロジェクトすることを含む。そのような方法では、元の特徴の線型組合せである新しい特徴が得られる。プロジェクション方法の１つの不利は、元の入力特徴で捨てることができるものはないことである。好ましい方法は、元の入力特徴のいくつかを排除し、良好な分類性能を生じる最小サブセットの特徴を保持する技術を削減することを含む。診断テストでは、コスト有効性のごとき理由で遺伝子の小さなサブセットを選択することができ、従って、選択した遺伝子の関連性はより容易に確認できるのが現実的により有用である。
【００９５】
特徴選択の問題はパターン認識で良く知られている。仮に特定の分類技術を仮定すれば、特徴のすべてのサブセットの網羅的列挙によって所与の「モデル選択」基準を満足する特徴の最良のサブセットを選択することができる。この方法は、サブセットの数の組合せの急激な増加のため、数千の遺伝子のごとき多数の特徴では非現実的である。
【００９６】
大きな次元の入力空間で特徴選択を行うことは、貪欲なアルゴリズムを含む。種々の可能な方法のうち、特徴ランキング技術が特に好ましい。さらなる分析のためには、または分類器を設計するには、固定された数のトップにランクされる特徴を選択することができる。別法として、ランキング基準に閾値を設定することができる。その基準が閾値を超える特徴のみが保持される。好ましい方法は、該ランキングを用いて、特徴のネステッドサブセットを規定し、単一のパラメーター：特徴の数を変化させることによってモデル選択基準でもって特徴の最適サブセットを選択することである。
【００９７】
また、本発明は、複数データセットから知識を見出すための複数支持ベクトル機の方法、システムおよびデバイスを含む。本発明では、複数の支持ベクトル機を配置して、平行にまたは順次に複数のデータセットを階級的に処理することができると考えられる。特に、１以上の第１レベル支持ベクトル機を訓練し、テストして、第１のタイプのデータを処理することができ、１以上の第一レベル支持ベクトル機を訓練し、テストして、第２のタイプのデータを処理することができる。付加的なタイプのデータは、同様に他の第１レベル支持ベクトル機によって処理することができる。第１レベル支持ベクトル機のいくつかまたは全てからの出力を論理的に組み合わせて、１以上の第２レベル支持ベクトル機のために入力データを生じさせることができる。同様にして、複数の第２レベル支持ベクトル機からの出力を論理的に組み合わせて、１以上の第３レベル支持ベクトル機のために入力データを生じさせることができる。支持ベクトル機の階級は、適切なごとく、いずれの数のレベルにも拡大することができる。
【００９８】
支持ベクトル機の階級または各階級レベルにおける各支持ベクトル機には区別されるカーネルを設けることができる。例えば、第１のタイプのデータを処理するのに用いる支持ベクトル機には第１のタイプのカーネルを設けることができ、他方、第２のタイプのデータを処理するのに用いることができる支持ベクトル機には第２のタイプのカーネルを設けることができる。加えて、同一または異なる階級レベルの複数の支持ベクトル機を配置して、区別されるカーネルを用いて同一タイプのデータを処理することができる。
【００９９】
例示目的のみで示した例において、第１レベルの支持ベクトル機を訓練し、テストして、医療患者の試料に関する乳房撮影データを処理することができる。さらなる第１レベル支持ベクトル機を訓練し、テストして、医療患者の同一または異なる試料につきゲノムデータを処理することができる。２つの第１レベル支持ベクトル機からの出力を組み合わせて、乳房撮影およびゲノムデータに関する新しい多次元データセットを形成することができる。次いで、適切に訓練されテストされた第２レベル支持ベクトル機によって新しいデータセットを処理することができる。第２レベル支持ベクトル機からの得られた出力は、乳房撮影およびゲノムデータポイントの間の因果関係を同定することができる。当業者には明らかであるはずのごとく、支持ベクトル機の考えられる階級は、学習機械によるデータの解析が望まれるいずれの分野または産業においても適用を有することができる。
【０１００】
複数の支持ベクトル機を用いる複数データセットの階級処理は、さらに他の支持ベクトル機または学習機械に入力しまたはそれから出力すべきデータを前処理または後処理する方法として用いることができる。加えて、後記する方法に従ったデータの前処理または後処理を、支持ベクトル機の前記階級構築の入力データおよび／または出力に対して行うことができる。
【０１０１】
図３６は、支持ベクトル機の階級システムを説明するためだけに例として掲げる。示されるごとく、１以上の第１レベル支持ベクトル機１３０２Ａ１および１３０２Ａ２を訓練しテストして、医療患者の試料に関する乳房撮影データのごとき第１のタイプの入力データ１３０４Ａを処理することができる。１以上のこれらの支持ベクトル機は（カーネル１およびカーネル２として示される）区別されるカーネルを含むことができる。また、１以上のさらなる第１レベル支持ベクトル機１３０２Ｂ１および１３０２Ｂ２を訓練しテストして、医療患者の同一または異なる試料につき、ゲノムデータのごとき第２のタイプのデータ１３０４Ｂを処理することができる。再度、１以上のさらなる支持ベクトル機は（カーネル１およびカーネル３として示される）区別されるカーネルを含むことができる。同様の第１レベル支持ベクトル機の各々からの出力を相互と比較して（すなわち、出力Ａ２１３０６Ｂと比較した出力Ａ１１３０６Ａ；出力Ｂ２１３０６Ｄと比較した出力Ｂ１１３０６Ｃ）、最適出力（１３０８Ａおよび１３０８Ｂ）を決定することができる。次いで、２つのタイプの第１レベル支持ベクトル機１３０８Ａおよび１３０８Ｂからの最適出力を組み合わせて、例えば、乳房撮影およびゲノムデータに関する新しい多次元入力データセット１３１０を形成することができる。次いで、１以上の適切に訓練されテストされた第２レベル支持ベクトル機１３１２Ａおよび１３１２Ｂによって新しいデータセットを処理することができる。第２レベル支持ベクトル機１３１２Ａおよび１３１２Ｂからの得られた出力１３１４Ａおよび１３１４Ｂを比較して、最適出力１３１６を決定することができる。最適出力１３１６は乳房撮影およびゲノムデータポイントの間の因果関係を同定することができる。当業者に明らかなはずのごとく、支持ベクトル機の考えられる階級は、学習機械によるデータの分析が望まれるいずれの分野または産業においても適用を有することができる。
【０１０２】
複数支持ベクトル機を用いる複数データセットの階級処理は、さらに他の支持ベクトル機または学習機械に入力し、またはそれから出力すべきデータを前処理または後処理する方法として用いることができる。加えて、データの前処理または後処理は、支持ベクトル機の前記階級構築の入力データおよび／または出力に対して行うことができる。
【０１０３】
ここに含めた例は、結腸癌の存在に最も相関する遺伝子を決定する好ましい方法を示し、あるいはそれを用いて、個人において結腸癌の発生を予測することができる。本発明は、生物学的システムにおける変化の診断または予測のために遺伝子、蛋白質または他の測定可能な基準を決定する学習機械で用いることができる、他の計算方法を含めたこれらの方法、および他の方法を含む。データの源には制限はなく、データは、生物学的システムにおける正常な状態および状態の変化の間を区別するのに用いることができる、遺伝子、蛋白質または臨床テストのごとき測定可能な基準の組合せであり得る。
【０１０４】
以下の実施例において、遺伝子の好ましい数を決定した。これらの数は本発明の方法を限定するものではない。好ましくは、結腸癌では、遺伝子の好ましい最適数はほぼ１ないし１００の範囲であり、より好ましくは、該範囲は１ないし５０であり、なおより好ましくは、該範囲は１ないし３２であり、さらにより好ましくは、該範囲は１ないし２１であり、最も好ましくは１ないし１０である。遺伝子の好ましい最適数は元のデータの質および量によって影響され得、かくして、当業者によって各適用につき決定することができる。
【０１０５】
一旦決定的遺伝子が本発明の学習機械によって見出されれば、生物における生物学的変化の処置のための方法および組成物を使用することができる。例えば、結腸癌の治療では、治療剤を投与して、遺伝子産物の活性、存在または合成に拮抗し、または作動し、それを増強させ、または阻害することができる。治療剤は、限定されるものではないが、センスまたはアンチセンスポリヌクレオチド、ＤＮＡまたはＲＮＡアナログ、医薬剤、プラズマフォレシス、抗脈管形成剤、ならびにそのような薬剤の誘導体、アナログおよび代謝産物を含む。
【０１０６】
そのような薬剤は非経口または非侵入的経路を介して投与される。多くの活性剤は非経口投与経路、静脈内、筋肉内、皮下、腹腔内、脊髄内、器官内、脳室内、動脈内および他の経路の注射を介して投与される。薬物送達のための非侵入的経路は経口、鼻孔、肺、直腸、頬内、膣、経皮および眼経路を含む。
【０１０７】
本発明のもう１つの実施形態は、インターネットまたは電話回線のごとき手段を介してパターンの決定サイトから離れたテストの使用を含む。例えば、特異的医学疾患に関連することが知られている遺伝子の存在を同定するためのゲノムテストは医師のオフィスで行われる。加えて、臨床データまたはプロテオミック決定のごとき他の情報もまた同一時点または異なる時点で作成することができる。テストの１つの、いくつかまたは全ての結果は、ＳＶＭを収容する遠隔サイトに伝達される。そのようなテストは、診断段階で、病気の予後を決定するのに、治療の結果を決定するのに、およびいずれの治療方法が個々の患者で良好であるかを決定するごとき処方的適用で用いることができる。
【０１０８】
以下の実施例により、本発明をさらに説明するが、それは本発明の範囲に限定を加えるものとは断じて解釈されるべきではない。対照的に、種々の他の実施形態、修飾およびその同等なものも可能であり、本明細書を読んだ後に、本発明の精神および／または添付の請求の範囲の範囲を逸脱することなく当業者にそれは自明であろうことが理解されるべきである。
【０１０９】
実施例１
結腸癌に関連する遺伝子パターンの解析
１ないし多数の、いずれかの数の遺伝子でエラー無しの分離を達成できる。好ましい方法は、多数の遺伝子の使用を含む。古典的な遺伝子選択方法は、訓練データを最良に個々に分類する遺伝子を選択する。これらの方法は相関方法および発現率方法を含む。それらは、区別で役に立たない（ノイズ）が、遺伝子が冗長であるゆえにコンパクトな遺伝子セットを生じない遺伝子を排除する。さらに、データを個々に十分に分離しない相補的遺伝子は失われる。
【０１１０】
単純な特徴（遺伝子）ランキングは、いかに十分に個々の特徴が分離に寄与するか（例えば、癌対正常）を評価することによってなすことができる。種々の相関係数をランキング基準として用いる。用いる係数は：
Ｐ＝（μ₁−μ₂）／（σ₁＋σ₂）
［式中、μ_iおよびσ_iはクラスｉ（ｉ＝１または２）の全ての患者についての特定の遺伝子の遺伝子発現値の平均および標準偏差である］
と定義される。大きな正のＰ値はクラス１との強い相関を示し、他方、大きな負の値はクラス２との強い相関を示す。
【０１１１】
何が相関方法で特徴ランキングを特徴付けるかは、なされる暗黙の独立した仮定である。各係数Ｐは単一の特徴（遺伝子）についての情報で計算され、特徴間の相互の情報は考慮しない。
【０１１２】
特徴ランキングの１つの使用は、予め選択された遺伝子のサブセットに基づくクラスプリディクターまたは（分類器）のデザインである。注目する分離と相関する（または反対−相関する）各遺伝子は、不完全なものではあるが、それ自体がそのようなクラスプリディクターである。荷重投票に基づく分類の単純な方法：遺伝子はその相関係数に比例的に投票する。そのようなものはゴラブ（Ｇｏｌｕｂ），１９９９で用いられた方法である。重みづけ投票スキームは、特定の線型判別分類器である分類器を生じる。
【０１１３】
本発明のための好ましい方法は、分類器重みとして遺伝子ランキング係数を用いることを含む。逆に、所与の分類器の入力を乗ずる重みは遺伝子ランキング係数として用いることができる。最大値によって荷重された入力は分類決定において最大の影響を有する。従って、もし分類器が十分に働けば、最大の荷重をした入力が最大の情報的遺伝子に対応する。他の方法は、良好な遺伝子ランキングを供する線型判別機能を訓練するためのアルゴリズムを含む。なぜならば、それは暗黙の独立仮定をなさないからである。
【０１１４】
本発明の好ましい方法は、分類器の重みを用いてＳＶＭ（支持ベクトル機）で特徴ランキングを作成することである。本発明では、ここに提供される例は調査中のデータセットの性質のため線型ＳＶＭに向けられるが、任意の複雑性の非線型決定限度で用いられるＳＶＭの方法が考えられる。図１３は、線型判別分類器の使用をグラフで示す。この例においては、ｘｙ座標は２つの遺伝子の発現係数を表す。線型判別分類器は、ｘおよびｙ入力に足した偏り値の荷重した合計のサインに従ってその決定を行う。訓練例を用いて適切な重みを選択する多くの方法が存在する。もし訓練データセットが線型に分離可能であれば、ＳＶＭはその入力構成要素において最大マージン分類器である。図１３−ａおよび１３−ｂ参照。決定限度（二次元の分離の場合には直線）は、いずれか側に最大の可能なマージンを残すように位置させる。ＳＶＭの特殊性は、決定関数の重みが、「支持ベクトル」と呼ばれる訓練例の小さなサブセットのみの関数であることである。それらは、決定境界に最も近く、マージン上に存在する例である。そのような支持ベクトルの存在は、ＳＶＭの計算特性およびその競合分類性能の原点にある。ＳＶＭは境界線の場合である支持ベクトル上のその決定関数に基づくが、ゴラブ（Ｇｏｌｕｂ）ら（１９９９）によって用いられた方法のごとき他の方法は平均的場合のその決定関数に基づく。図１３−ｃおよび１３−ｄ参照。１３ａはＳＶＭでの訓練例はエラーなくして分離される。決定境界のいずれか側のマージンは最大化される。１３ｂは、同一ＳＶＭでの訓練およびテスト例の分離を示す。ただ１つの例が誤って分類されている。１３ｃは、ゴラブ（Ｇｏｌｕｂ），１９９９のベースライン方法での訓練例の分離を示す。決定境界は、クラス図心によって規定される方向に対して垂直である。１３ｄはベースライン方法での訓練およびテスト例の分離を示す。これらの例は誤って分類されている。
【０１１５】
ここに示された好ましい実施形態において、Ｃｏｒｔｅｓ，１９９５に記載されたソフト−マージンアルゴリズムの変形の１つを用いた。以下の二次プログラミング問題を解く：
０≦α_i≦ＣおよびΣ_iα_iｙ_i＝０の条件下で、
α_iにわたり、
（１／２）Σ_ijｙ_iｙ_jα_iα_j（ｘ_i・ｘ_j＋ζδ_ij）−Σ_iα_i
を最小化する。
【０１１６】
ここに、加算は、特徴（遺伝子）のベクトルである全ての訓練パターンｘ_iにわたって行い、ｘ_i・ｘ_jはスカラー積を示し、ｙ_iは二元値＋１または−１としてのクラス標識を表し、δ_ijはクロネッカーの記号であり（もしｉ＝ｊであればδ_ij＝０、その他の場合は０）、およびζおよびＣは正の定数である（ソフトマージンパラメーター）。問題が非線型的に分離可能であるか、または条件が不充分である場合でさえ、ソフトマージンパラメーターは収束を保証する。そのような場合、支持ベクトルのいくつかはマージン上に存在しないであろう。
【０１１７】
入力ベクトルｘの得られた決定関数は：
Ｄ（ｘ）＝ｗ．ｘ＋ｂであり、
ここに、
ｗ＝Σ_iα_iｙ_iｘ_iおよびｂ＝＜ｙ_i−ｗ．ｘ_i＞
である。
【０１１８】
重みベクトルｗは訓練パターンの線型組合せである。ほとんどの重みα_iはゼロである。ゼロでない重みの訓練パターンは支持ベクトルである。厳格な不等式０＜α_i＜Ｃを満足する重みを持つものはマージン支持ベクトルである。偏り値ｂはマージン支持ベクトルにわたる平均である。
【０１１９】
回帰的特徴排除（ＲＦＥ）
特徴間の相互の情報はＳＶＭ分類器についての分類器重みの計算で用いられるので、特徴のサブセットの除去は重みの値に影響する。対照的に、暗黙の独立仮定をなす相関方法は、考慮される特徴のサブセットとは独立した重み値を生じる。
【０１２０】
全ての特徴について訓練することによって得られたＳＶＭ分類器の重みにて一旦特徴をランク付けするよりもむしろ、より洗練されたランキングは、ある時点で１つの特徴を除去することによって得られる。各対話において、新しい分類器が残りの特徴にて訓練される。新しい分類器における最小の重みに対応する特徴は排除される。排除の順序は特定のランキングを生じる。約束により、排除されるべき最後の特徴は最初にランクされる。この方法は計算の効率のために最適化することができる。しかしながら、それは、結局は、多数の特徴（数百万の遺伝子）につき余りにも計算が高価となり得る。他の方法は、ある時点における遺伝子のチャンクの排除を含む。最初の反復にて、２の最も近いパワーである遺伝子の数に到達した。引き続いての反復にて、残りの遺伝子の半分が排除された。かくして、増大する情報密度の遺伝子のネステッドサブセットが得られた。
【０１２１】
結腸癌に関する本出願についての本発明の学習機械を訓練しテストするための元のデータは、アロン（Ａｌｏｎ）ら，１９９９に掲げられているデータから得られた。遺伝子発現情報は、前処理後に６２組織×２０００遺伝子の表で得られるマイクロアレイデータから抽出した。６２の組織は２２の正常な組織および４０の結腸癌組織を含む。マトリックスが、６２の組織を横切る最高最小密度を持つ２０００の遺伝子の発現を含有する。結腸癌データセットにおける１つの問題は、腫瘍試料および正常試料が細胞組成において異なったということであった。腫瘍試料は上皮細胞で通常は豊富であり、ここに、正常組織は細胞型の混合物であり、平滑筋細胞の大きな割合を含む。試料は細胞組成に基づいて容易に分離することができたが、この分離は癌−関連遺伝子をトラッキングするのに非常に参考になるというわけではなかった。
【０１２２】
アロン（Ａｌｏｎ）らは、いくつかの遺伝子が癌ｖｓ正常分離スキームに相関するが、遺伝子選択の特異的方法は示唆しないことを示すことによってトップダウンクラスタリングに基づくデータベースの解析、非監督学習の方法およびクラスター遺伝子を提供する。彼らは、いくつかの遺伝子が癌ｖｓ正常分離に相関するが、遺伝子選択の特異的方法を示唆しないことを示す。
【０１２３】
本発明のこの実施形態の遺伝子選択方法は、実施例２のそれのような、およびゴラブ（Ｇｏｌｕｂ）ら，Ｓｃｉｅｎｃｅ，１９９９で用いられたもののような参照遺伝子選択方法を含む。ゴラブ（Ｇｏｌｕｂ）においては、著者らは、エラー率、固定された閾値における拒絶率、および分類の信頼性を含めた分類器品質のいくつかの基準を用いている。各値は、独立したテストセットにつき、かつ訓練セットでリーブ−ワン−アウト方法を用いて計算される。該リーブ−ワン−アウト方法は、訓練セットから１つの例を除き、残りの訓練データのみに基づく決定関数を構築し、次いで、除去された例につきテストすることよりなる。この方法においては、訓練データの全ての例をテストし、訓練例の全数にわたってエラーの分率を測定する。
【０１２４】
学習機械を用いる方法は、前記基準の修飾を含む。分類決定はＳＶＭ出力のサインに従って行われた。出力の大きさは分類の信頼性を示すものである。
【０１２５】
分類器品質の４つの基準を用いた（図１４参照）。
【０１２６】
エラー（Ｂ１＋Ｂ２）＝ゼロ拒絶におけるエラー（「悪い」）の数
拒絶（Ｒ１＋Ｒ２）＝ゼロエラーを得るための拒絶された試料の最少数
外部マージン（Ｅ／Ｄ）＝陽性クラス試料の最小出力および陰性クラス試料の最大出力の間の差（出力間の最大差によって再判断）
メジアンマージン（Ｍ／Ｄ）＝陽性クラス試料のメジアン出力および陰性クラス試料のメジアン出力の間の差（出力間の最大差によって再判断）
各値はリーブ−ワン−アウト方法での訓練セットに対し、およびテストセットに対して計算する。
【０１２７】
エラー率は、誤って分類された例の分率である（診断エラーに対応）。それは成功率によって考えられる。拒絶率は、（それに対して、低い信頼性のため決定がなされない）拒絶される例の分率である。それは許容率によって考えられる。外部およびメジアンマージンは分類信頼性の測定である。
【０１２８】
リーブ−ワン−アウト方法での、またはテストセットに対するマージンを計算する方法は、モデル選択基準で時々用いられる訓練例に対して計算されたマージンとは異なった。
【０１２９】
遺伝子の最適サブセットを予測する方法は、訓練例のみに由来する情報を用いる最適性の基準を規定することを含んだ。これは、予測された遺伝子サブセットがテストセットについて最良に実行したか否かを判断することによってチェックした。
【０１３０】
同様の「モデル選択」問題でしばしば用いられる基準はリーブーワン−アウト成功率Ｖ_sucである。この例においては、それはほとんど有益でなかった。というのは、ゼロのリーブーワン−アウトエラーを有する多くの分類器の間の区別が許容されないからである。そのような区別は、リーブーワン−アウト方法にて交差−有効化によって計算された品質基準の全てを組み合わせる基準を用いて得られる：
Ｑ＝Ｖ_suc＋Ｖ_acc＋Ｖ_ext＋Ｖ_med
ここに、Ｖ_sucは成功率であり、Ｖ_accは許容率であり、Ｖ_extは外部マージンであり、Ｖ_medはメジアンマージンである。
【０１３１】
理論的考察により、我々は、この基準を修飾して大きな遺伝子セットを課した。事実、リーブーワン−アウトエラーおよびテストエラーの間の大きな差を観察する確率は、以下の式：
ε（ｄ）＝ｓｑｒｔ（−ｌｏｇ（α）＋ｌｏｇ（Ｇ（ｄ）））・ｓｑｒｔ（ｐ（１−ｐ）／ｎ）
［式中（１−α）は信頼性であり（典型的には、９５％、すなわち、α＝０．０５）、ｐは「真の」エラー率であり（ｐ≦０．０１、およびｎは訓練セットのサイズである］
を用いると、遺伝子セットのサイズｄと共に増加する。
【０１３２】
保証された危険原理（Ｖａｐｎｉｋ１９７４）に従い、我々は、基準Ｑからε（ｄ）に比例する量を差し引いて新しい基準：
Ｃ＝Ｑ−２ε（ｄ）
を得た。
【０１３３】
比例性の係数は、Ｖ_suc，Ｖ_acc，Ｖ_extおよびＶ_medが同一誤差棒ε（ｄ）にて独立したランダム変数であって、この誤差棒が標準偏差に比例すると仮定して、試行錯誤により計算した。その場合、偏差は加算的であるので、誤差棒はｓｑｒｔ（４）を乗ずるべきである。
【０１３４】
好ましい実施形態の方法のより詳細な考察を続ける。ＳＶＭ回帰的特徴排除（ＲＦＥ）を生データに対して行って、該方法の有効性を評価した。結腸癌データ試料を、訓練につき３１の例に、およびテストにつき３１の例にランダムに分けた。ＲＦＥ方法を行って、各回それを２で割ることによって遺伝子の数を次々とサイズを低下させた。データの前処理は、各遺伝子発現についてのものであり、平均を差し引き、次いで、結果を標準偏差で割った。
【０１３５】
分類器品質基準でのリーブーワン−アウト方法を用いて、遺伝子の最適数を見積もった。実施例２はリーブーワン−アウト方法の使用を説明する。リーブーワン−アウト方法は、訓練セットの１つの例は取り出すことを含む。訓練は残りの例について行われる。残された例を用いてテストする。該手法は全ての例について反復する。各基準は全ての例にわたって平均として計算される。総じての分類器品質基準は４つの値：（ゼロ拒絶における）リーブーワン−アウト成功率、（ゼロエラーにおける）リーブーワン−アウト許容率、リーブーワン−アウト外部マージン、およびリーブーワン−アウトメジアンマージンの合計である。分類器はハードマージンを持つ線型分類器である。
【０１３６】
前記ステップの結果は、訓練データのみを用いる方法によって予測された最適において、リーブーワン−アウトエラーはゼロであって、テスト性能は現実に最適であることを示す。４つの遺伝子が発見されそれらは以下のものである：
Ｌ０７６４８ヒトＭＸＩ１ｍＲＮＡ、完全なｃｅｓ
Ｔ４７３７７７１０３５Ｓ−１００Ｐ蛋白質（ヒト）
Ｍ７６３７８ヒト・システイン−リッチの蛋白質（ＣＲＰ）遺伝子、エクソン５および６
Ｚ５０７５３ＧＣＡＰ−ＩＩ／ウログアニリン前駆体についてのＨ．ｓａｐｉｅｎｓｍＲＮＡ
最適テスト性能は８１％の成功率を有していた。この結果は、アロン（Ａｌｏｎ）らによるオリジナル論文に報告された結果と合致した。さらに、１を除くエラーは、孤立値としてアロン（Ａｌｏｎ）らによって同定された。エラーは８、３６、３４、１２、−３６および−３０であり、３６は孤立値としてアロン（Ａｌｏｎ）らによって同定されていないエラーである。該数は組織を同定し、該サインは腫瘍の存在または不存在を示す（負＝腫瘍、正またはサイン無し＝正常）。直接的性能比較は行わなかった。なぜならばアロン（Ａｌｏｎ）らは全データセットで非管理学習を用いており、他方、本実施形態はデータセットの半分について管理された学習を用いたからである。遺伝子数の関数における性能曲線のプロットを図１４に示す。図１４のグラフの記載は以下の通りである：水平軸＝ｌｏｇ２（遺伝子の数）。曲線：丸＝テスト成功率；四角＝リーブーワン−アウト品質基準；三角＝イプシロン（理論誤差棒）；菱形＝四角−三角（平滑化）最適テスト成功率のプリディクター、菱形曲線の最適はｌｏｇ２（遺伝子の数）＝２＝≧遺伝子数＝４。それは丸曲線の最適と一致する。
【０１３７】
前処理ステップ
対数を取る
データの初期前処理ステップはアロン（Ａｌｏｎ）らによって記載された。データをさらに前処理して、データの分布をより歪みが少なくした。図１５は、均一な分布と比較された２つのランダムな遺伝子（所与の発現値の試料の累積数）についての組織試料にわたる遺伝子発現値の分布を示す。各線は遺伝子を表す。１５ＡおよびＢは生データを示し；１５ＣおよびＤは対数を取った後の同一データである。遺伝子発現値の対数を取ることによって、同一曲線が得られ、分布はより均一となる。これは、遺伝子発現係数は、２つの値の比率を計算することによってしばしば得られるという事実によるものであろう。例えば、競合的ハイブリダイゼーションスキームにおいて、異なって標識される２つの試料からのＤＮＡはアレイ上にハイブリダイズする。２つの標識の蛍光に対応し、特定の遺伝子にハイブリダイズしたいずれかの試料のＤＮＡの分率を反映する２つの係数が、アレイの各点において得られる。典型的には、採用される最初の初期前処理ステップは、これらの２つの値の比率ａ／ｂを取ることである。この初期前処理ステップは適切であるが、２つの値が小さい場合には最適ではないであろう。他の初期前処理ステップは、（ａ−ｂ）／（ａ＋ｂ）および（ｌｏｇａ−ｌｏｇｂ）／（ｌｏｇａ＋ｌｏｇｂ）を含む。
【０１３８】
アレイ平均を差し引く
図１６は、全ての組織試料についての遺伝子にわたる遺伝子発現値の分布を示す。１６Ａは生データを示し、１６Ｂはｉｎｖｅｒｆを示す。形状はほぼｅｒｆ関数のそれであり、これは、密度がＮｏｒｍａｌ則にほぼ従うことを示す。事実、逆ｅｒｆ関数にデータを通じると、ほとんどまっすぐな平行線が得られる。かくして、平均を差し引くことによってデータを正規化するのが合理的である。この前処理ステップはアロン（Ａｌｏｎ）らによっても示唆されている。この前処理ステップは、マイクロアレイ間の実験条件に変動があるという事実によって裏付けられる。標準偏差はかなり一定のままのように見えるが、選択された他の前処理ステップが、遺伝子発現値を標準偏差で割って、標準化偏差の中央データを得ることであった。
【０１３９】
組織試料にわたる各遺伝子発現を正規化する
訓練データのみを用い、各遺伝子につき平均発現値および標準偏差を計算した。その遺伝子の全ての試料値につき（訓練およびテスト）、次いで、その平均を差し引き、得られた値を標準偏差で割った。図１７はこれらの前処理ステップの結果を示す。図１７は、結腸癌についてのマイクロアレイデータからの遺伝子発現値を表すデータマトリックスを示し、ここに、線は６２の組織を表し、欄は２０００の遺伝子を表す。
【０１４０】
いくつかの実験において、データをスクワッシング関数に通して孤立値の重要性をなくすることによって、さらなる前処理ステップを付加した。
【０１４１】
新しいＲＦＥ結果
前記したごとくにデータを前処理し、図１７にまとめて、新しく改良された結果を得た。この方法においては、実施例２で用いたものからの修飾がある。まず、暗号は、ＲＦＥがある時点において１つの遺伝子を排除することによって実行できるように最適化した。実施例２において、ある時点における遺伝子のチャンクを排除した。チャンクサイズを各反復において２で割った。この実施形態のこの処理の修飾は、種々の解析を可能とするが、分類の精度に有意に影響しないより良いランキングを提供する。それは、例えば、ＰｅｎｔｉｕｍＩＩＩ３３３、２５６ＭＢＲＡＭにて約１０ないし１５分で実行される。
【０１４２】
実施例２の方法とは異なる第２の修飾は、遺伝子選択交差−有効化プロセスが正規のＳＶＭを用いたことであった。実施例２においては、まずデータを最初の主な構成要素上にプロジェクトすることによって、低下した能力のＳＶＭを用いた。
【０１４３】
図１８の結果は、図１４のものよりもかなりの改良を示す。図１８は、前処理後のＲＦＥの結果を示す。図１８についての記載は以下のとおりである：水平軸＝ｌｏｇ２（遺伝子の数）。曲線：丸＝テスト成功率；四角＝リーブ−ワン−アウト品質基準；三角＝イプシロン（理論誤差棒）；菱形＝四角−三角（平滑化）最適テスト成功率のプリディクター菱形曲線の最適はｌｏｇ２（遺伝子の数）＝４≧遺伝子の数＝１６におけるものである。図１４で用いた低下能力ＳＶＭをプレインＳＶＭによって置き換える。ｌｏｇスケールが依然として遺伝子数で用いられるが、ある時点で１つの遺伝子を排除することによってＲＦＥを実行した。最良なテスト性能は９０％分類精度である（８遺伝子）。訓練データ情報のみに基づく分類器品質から予測される遺伝子の最適数は１６である。これは、テストセットでの８７％分類精度に対応する。以下のごとく、同一テスト性能が２遺伝子のみで達成される：
Ｊ０２８５４：ミオシン調節軽鎖２、平滑筋イソ形態ヒト；エレメントＴＡＲ１反復エレメントを含有。
【０１４４】
Ｒ５５３１０：Ｓサブ３６３９０ミトコンドリア処理ペプチダーゼ。
【０１４５】
これらの２つの遺伝子のいずれも、最初の実験においてリストの頂部に現れない。
【０１４６】
見出された頂部遺伝子は平滑筋遺伝子であり、これは組織組成に特徴的な遺伝子であって、恐らくは癌には関係しない。
【０１４７】
ゴラブ（Ｇｏｌｕｂ）の方法との比較
ゴラブ（Ｇｏｌｕｂ）の遺伝子の選択方法はランキング方法であり、ここに、全ての訓練データ試料についての遺伝子発現値のべクターおよび標的値のベクターの間の相関に従って遺伝子を順序立てる（正常な試料について＋１、および癌試料について−１）。ゴラブ（Ｇｏｌｕｂ）らはｍ／２頂部にランクされたおよびｍ／２底部にランクされた遺伝子を選択して、分離に高度に相関する遺伝子の半分および抗−相関の半分を得る。ゴラブ（Ｇｏｌｕｂ）らは線型分類器を用いる未知の試料を分類するために、標的分離ベクトルにてその相関係数に従って癌または正常につき各遺伝子は「投票する」。ゴラブ（Ｇｏｌｕｂ）の方法によって選択された頂部遺伝子はＪ０２８５４であった（関連する平滑筋）。図１９は、ベースライン方法のこの実施形態の使用とゴラブ（Ｇｏｌｕｂ）らとの比較を示す。図１８で用いられたのと同一の曲線が図１９に示される。図１９についての記載は以下のとおりである：水平軸＝ｌｏｇ２（遺伝子の数）。曲線：丸＝テスト成功率；四角＝リーブ−ワン−アウト品質基準；三角＝イプシロン（理論誤差棒）；菱形＝四角−三角（平滑化）最適テスト成功率のプリディクター。図１８および１９で同一に前処理されたデータを、次いで、ゴラブ（Ｇｏｌｕｂ）の方法によって処理し、図１９にグラフ化する。遺伝子の最適数を選択してＳＶＭのごとき学習機械で用いるのは、本発明者らの新規な知見である。
【０１４８】
本発明のこの実施形態およびゴラブ（Ｇｏｌｕｂ）の方法の結果を比較するために、式：
（１−α）＝０．５＋０．５ｅｒｆ（Ｚ_α／ｓｑｒｔ（２））
Ｚ_α＝εｎ／ｓｑｒｔ（ｖ）
［式中、ｎはテスト試料の数であり、ｖは２つの分類器のうち１つのみがなすエラーの合計数であり、およびεはエラー率（または拒絶率）の差である］
を用い、いずれの信頼性（１−α）でもって、１つの分類器が他の分類器よりも良好であると判断する統計的テストを用いた。
【０１４９】
この式を表１にまとめた結果に適用した。いずれの場合にも、ε＝３／３１およびｖ＝３である。テスト例の合計数はｍ＝３１である。このテストに基づき、本発明のこの実施形態の方法は、９５．８％の信頼性をもって、ゴラブ（Ｇｏｌｕｂ）よりも良好であった。
【０１５０】
【表１】

表１：本発明のこの実施形態の方法およびゴラブ（Ｇｏｌｕｂ）の方法の間のエラー率比較。エラーのリストは括弧間に示される。数字は患者を示す。サインは癌（負）または正常（正）を示す。本発明のこの実施形態では、最良の性能は８遺伝子におけるものであり、最適は１６遺伝子において予測された。ゴラブ（Ｇｏｌｕｂ）では、最良の性能は１６遺伝子におけるものであり、４遺伝子において最適が予測された。いずれの場合にも、最良の性能および予測される最適の間にはただ１つのエラーの差があることに注意されたし。
【０１５１】
クラスタリングおよび遺伝子選択を組み合わせる
データの冗長のため、合理的な分離を提供する遺伝子の多くのサブセットを見いだす可能性があった。結果を解析するには、どのようにしてこれらの遺伝子が関連するかを理解するのが最適であった。いずれかの特定の理論に拘束されるつもりはないが、それは、遺伝子選択の問題が、正常な組織を癌組織から最大の精度を持って分離する、遺伝子の最適数（恐らくは小さい）を見いだすことである最初の理論であった。
【０１５２】
ＳＶＭ回帰特徴排除（ＲＦＥ）は、相補的であって、かくして、ほとんど冗長な情報を運ばない遺伝子のサブセットを用いた。データの構造および性質についての他の情報は提供されなかった。データは非常に冗長であったので、選択されなかった遺伝子は、それにもかかわらず、分離について情報的であろう。
【０１５３】
ゴラブ（Ｇｏｌｕｂ）の方法のごとき相関方法は遺伝子のランクされたリストを提供する。該ランクの順序は、どのようにして遺伝子が分離と相関するかを特徴づける。一般に、単独で取られた高くランクされた遺伝子はより低くランクされた遺伝子よりも良好な分離を提供する。従って、「低い情報性の遺伝子」から「高い情報性の遺伝子」を分離する閾値を設定することができる（例えば、トップにランクされた遺伝子のみを維持する）。
【０１５４】
ＳＶＭＲＦＥのごとき本発明の方法は、より小さくかつより判別される遺伝子のサブセットを提供する。ＲＦＥを用いるＳＶＭ遺伝子選択方法は、遺伝子のランクされたリストを提供する。このリストでは、増大するサイズの遺伝子のネステッドサブセットを定義することができる。しかしながら、１つの遺伝子がもう１つの遺伝子よりも高いランクを有するという事実は、その因子が単独で良好な分離を特徴づけることを意味しない。事実、非常に早期に排除される遺伝子は非常に情報的であるが、維持される他のものでは冗長であり得る。ゴラブ（Ｇｏｌｕｂ）の方法およびＳＶＭの方法の間のこれらの差は図２０に示される。該図面はピアソン（Ｐｅａｒｓｏｎ）相関係数のマトリックスを示す。２０Ａはゴラブ（Ｇｏｌｕｂ）の方法を示す。増大するランクの遺伝子は、標的分離と増大する相関（または反相関）を意味する。相関係数の絶対値は、３２の最良の遺伝子および最高のランクを有する他の遺伝子の間でより大きい。２０ＢはＳＶＭ方法を示す。全体として３２の最良の遺伝子は良好な分離を提供するが、個々には、標的分離と非常に相関するのではないであろう。遺伝子のランキングは、良好な分離を提供する遺伝子のネステッドサブセットを形成するのを可能とする。それは、個々の遺伝子がどれくらい良好であるかについて情報的ではない。いずれかのランクの遺伝子は、３２の最良の遺伝子と相関するであろう。それらは、いくつかのポイントでは排除されてしまっているであろう。それは、残りの遺伝子のいくつかについてのその冗長性のためであり、それらが標的分離に対する情報を運ばないからではない。
【０１５５】
遺伝子ランキングは、単独では、いずれの遺伝子が情報的であって、いずれの遺伝子が情報的でないかを特徴づけるのに、またいずれの遺伝子が相補的であって、いずれの遺伝子が冗長であるかを決定づけるのに不十分である。
【０１５６】
非監督クラスタリング
遺伝子ランキング単独における問題を克服するために、データを非監督クラスタリング方法で前処理した。（所与の基準でもって）類似に従って遺伝子をグループ分けした。次いで、遺伝子それ自体の代わりにクラスター中心を用い、ＳＶＭＲＦＥによって処理する。結果は、クラスター中心のネステッドサブセットであった。最適サブセットサイズは、以前用いた同一の交差−有効化方法でもって選択することができる。次いで、クラスター中心はクラスターのいずれかのエレメントを置き換えることができる。
【０１５７】
データを用い、ＱＴクラストクラスタリングアルゴリズムを用いて、１００の密なクラスターを生じさせた。用いた同様性尺度は（遺伝子クラスタリングで共通に用いられる）ピアソンの相関係数であった。図２１は性能曲線を示す。図２１は、１００の密なＱＴクラストクラスターで訓練した場合のＲＦＥの結果を示す。水平軸＝ｌｏｇ２（遺伝子クラスター中心の数）。曲線：丸＝テスト成功率；四角＝リーブ−ワン−アウト品質基準；三角＝イプシロン（理論誤差棒）；菱形＝四角−三角（平滑化）最適テスト成功率のプリディクター菱形曲線の最適はｌｏｇ２（遺伝子クラスター中心の数＝３＝＞遺伝子クラスター中心の数＝８におけるものである）。
【０１５８】
それらは図１８のものに匹敵する。図２２は、ＳＶＭＲＦＥによって選択された頂部８ＱＴクラストクラスターを示す。図２２において、８つのクラスター（線）についての訓練セット（欄）の３２組織についての遺伝子発現が表される。陽性遺伝子発現は赤色であって、陰性遺伝子発現は青色である。小さな値はより明るい色を有する。２２Ａはクラスター中心を示し；２２Ｂはクラスターエレメントを示す。
【０１５９】
クラスターのエレメントを表２にリストする。
【０１６０】
【表２】

表２：ＲＦＥで選択されたＱＴクラストクラスター。クラスターのランク（ＲＫ）が高くなると、クラスターはより重要になる。Ｍｉｎｃｏｒｒｅｌはクラスターエレメントの間の最小相関係数である。ＧＡＮ＝遺伝子受託番号
非監督クラスタリングでは、情報的遺伝子のセットが規定されるが、保持されない遺伝子が情報を運ばないという保証はない。全てのＱＴクラストクラスター足す残りの非−クラスター化遺伝子（シングルトンクラスター）でＲＦＥを用いると、性能曲線はかなり似ているが、選択された遺伝子クラスターの頂部セットは完全に異なり、かなりのシングルトンを含んだ。表１で選択された遺伝子は構造が組織化されており：クラスター内では、それらが相補的であるクラスターにわたり、遺伝子は冗長である。
【０１６１】
クラスター中心はそれらのメンバーのうちいずれかによって置換することができる。この因子はいくつかの医療診断テストのデザインで重要であり得る。例えば、いくつかの蛋白質の投与は他の蛋白質の投与よりも容易であろう。別の遺伝子の選択を有することは、処置および投与の選択に柔軟性を導入する。
【０１６２】
８つのクラスターの各々の１つの遺伝子がランダムに選択された点で、１０のランダムな選択をテストした。平均テストセットの精度は０．８０であり、標準偏差は０．０５であった。これは、クラスター中心についての０．８７と比較すべきである。ランダムな選択テストの１つは、中心のそれ（０．９０）よりも優れた精度を生じた：Ｄ２３６７２、Ｔ５１０２３、Ｔ８５２４７、Ｒ８９３７７、Ｒ５１７４９、Ｘ５５１８７、Ｒ３９２０９、Ｕ０９５６４。
【０１６３】
ＱＴクラストクラスタリングの代わりの階級クラスタリングを用いて、平均して２つのエレメントを含有する小さなクラスターのロットを生じさせた。より小さなクラスターの重要性のため、それから選択すべきより少ない遺伝子代替物があった。この例においては、階級クラスタリングは、ＱＴクラストクラスタリングを用いるのと同程度に良好な結果を生じなかった。本発明では、限定されるものではないが、階級クラスタリング、ＱＴクラストクラスタリングおよびＳＶＭクラスタリングを含めたクラスタリングのための公知の方法のいずれかの使用が考えらえる。本発明でいずれのクラスタリング方法を使用するかの選択は、初期データおよび望まれる結果によって影響され、当業者によって決定され得る。
【０１６４】
色で示し、残りは丸である、表２中の８つのクラスターからの選択された遺伝子のばらつきプロットを図２３に示す。各ドットは、主な構成要素解析によって得られた平均患者の遺伝子発現値を表す。色を付けたドットは、ＱＴクラストクラスタリングを用いてＳＶＭＲＦＥによって選択された遺伝子である。各クラスターはランダムに選択された色が与えられる。ドットのサイズは、クラスターのランクに比例する。このばらつきプロットを得るには、単一平均正常組織によって全ての正常な組織を置き換えた（「主要正常組織」と呼ばれる第１の主要構成要素）。同一のことを癌組織で行った。各点は、主な癌組織／主な正常組織二次元空間における遺伝子発現を表す。
【０１６５】
監督クラスタリング
本発明で用いるもう１つの方法は、ＳＶＭＲＦＥの後処理ステップとしてクラスタリングを用いるものであった。遺伝子発現係数の元のセットで正規のＳＶＭＲＦＥを行うことによって選択された各遺伝子をクラスター中心として用いた。例えば、図１８に記載した結果を用いた。頂部の８つの遺伝子の各々については、相関係数は全ての残りの遺伝子で計算した。パラメーターは、遺伝子ｉにクラスター化される遺伝子は、以下の２つの条件：８つの遺伝子の選択されたサブセット中の他の遺伝子と遺伝子ｉとのより高い相関係数を有しなければならない、および閾値θを超える相関係数を有しなければならない；に適合する遺伝子であるというものであった。
【０１６６】
ここに掲げる図面および表において、８つの遺伝子についての結果を提示する。１６遺伝子の最適に予測された数は提示されなかった。なぜならば、１６遺伝子についての結果の提示はより大きな表を生じ、当該方法に対してより多くの洞察を与えないからである。
【０１６７】
クラスター化遺伝子は図２４に示され、表３にリストされる。
【０１６８】
【表３】

表３：監督クラスタリング。クラスターは、正規のＳＶＭＲＦＥによって見いだされた最良の遺伝子の回りで形成された。パラメーターθは０．８である（明細書参照）。クラスターのランク（Ｒｋ）が高くなると、クラスターはより「重要」となるはずである。Ｍｉｎｃｏｒｒｅｌはクラスターエレメントの間の最小相関係数である。ＧＡＮ＝遺伝子受託番号。クラスター中心よりは星印が先行する。クラスター８において、我々は、図２４中の最後のクラスターの中央に示す８「対照」値を省略した。
【０１６９】
図２４は、８つのクラスターにつき訓練セット（欄）の３２の組織での遺伝子発現を示す（行。陽性の遺伝子発現は赤色であって、陰性の遺伝子発現は青色である）。小さな値はより明るい色を有する。２４Ａは、正規のＳＶＭＲＦＥによって得られた頂部８遺伝子をクラスター中心として用いることを示す。２４Ｂはクラスターの全てのエレメントを示す。クラスターエレメントはかなり相関があるか、またはクラスター中心に対して反相関であり得る。
【０１７０】
非監督クラスタリング方法および結果と比較して、この例においては、監督クラスタリング方法はクラスター当たり例の数にわたって良好な制御を与えない。従って、もし目標が各クラスターにおいて種々の遺伝子から選択できることであれば、この方法は非監督クラスタリング程良好ではない。しかしながら、監督クラスタリングは、決定されるべき特異的知識につき重要性を有する特異的クラスターを示し得る。この特定の実施形態においては、特に、組織の組成に関連し得、癌ｖｓ正常分離には重要ではないであろういくつかの筋肉遺伝子を含有する遺伝子の非常に大きなクラスターが見いだされた。かくして、それらの遺伝子は、結腸癌についての診断または予後に対してほとんど関係を有しないとして考慮から排除された良好な候補である。
【０１７１】
組織組成関連遺伝子の因子化
以下の方法は、同定された組織組成関連遺伝子を自動的に排除することに向けられた。それらの遺伝子は結果の解析を複雑にする。なぜならば、癌ｖｓ正常分離に対して情報的である遺伝子からそれらを区別するのは不可能だったからである。非監督前処理での結果は、トップにランクされた遺伝子が、潜在的組織組成関連遺伝子を検出するのに用いられたキーワード「平滑筋」を含有しないことを示した。心筋遺伝子は依然としてこの方法の元で選択された。
【０１７２】
前記した訓練セット／テストセットスプリットを用い、他の方法を用いた。例えば、トップにランクされた遺伝子のいくつかを排除し、トップにランクされた遺伝子の中でもはや「平滑筋」遺伝子または他の筋肉遺伝子がなくなるまで、遺伝子選択プロセスを再度実行した。しかしながら、テストセットでの効率は低下し、遺伝子セットが組織組成関連遺伝子を含まない場合の決定を可能とするであろう自動基準はなかった。
【０１７３】
本発明の最も好ましい方法において、遺伝子選択プロセスを全データセットで行った。非常に多数の訓練試料では、ここで用いたＳＶＭのごとき学習機械は組織組成関連遺伝子を因子化した。いずれかの特定の理論に拘束されるつもりはないが、ボーダーラインの場合（支持ベクトル）に焦点を当てるＳＶＭ特性は、筋肉細胞で豊富な癌組織および上皮細胞で豊富な正常組織の少数の例を利用することができると理論化される（平均的傾向の逆）。
【０１７４】
得られたトップランキング遺伝子には、監督クラスタリングでクラスター化した遺伝子を含めた筋肉関連遺伝子が含まれなかった。対照的に、ゴラブ（Ｇｏｌｕｂ）の方法は、７つのトップランキング遺伝子クラスター単独において３つの平滑筋関連遺伝子を得る。さらに、ＳＶＭＲＦＥによって見いだされたトップランキング遺伝子は、全て、分離を特徴づけるものであった（癌ｖｓ正常）（表４）。本発明は、良好な分類精度およびより小さな遺伝子サブセットを持ってこのデータセットで定量的差をなすのみならず、定性的差をなす：遺伝子セットは組織組成関連遺伝子を含まない。
【０１７５】
【表４】

表４：増大する順番において、本発明の方法によって発見された７つのトップにランクされた遺伝子。Ｒｋ：ランク。Ｓｇｎ：標的分離と相関する兆候、− ほとんどの癌組織において過剰発現される；＋ほとんどの正常細胞で過剰発現される；ＧＡＮ：遺伝子受託番号；可能な機能は「結腸癌」または「癌」を含むキーワードサーチおよび遺伝子記載中のいくつかの語句から得られた。
【０１７６】
図２５は、全データセットでの訓練の後にＳＶＭＲＦＥを用いる本発明の方法の結果を示す。図２５において、グラフは以下のとおりである：水平軸＝ｌｏｇ２（遺伝子クラスター中心の数）。曲線：塗りつぶした丸＝訓練成功率；ダッシュを付けた黒色＝リーブ−ワン−アウト成功率；四角＝リーブ−ワン−アウト品質基準；三角＝イプシロン（理論的誤差棒）；菱形＝四角−三角（平滑化）最適テスト成功率のプリディクター菱形曲線の最適はｌｏｇ２（遺伝子の数）＝５＝≧遺伝子の数＝３２におけるものである。
【０１７７】
比較のため、図２６は、全データセットで訓練した場合のゴラブ（Ｇｏｌｕｂ）の方法で得られた結果を示す。水平軸＝ｌｏｇ２（遺伝子クラスター中心の数）曲線：丸＝訓練成功率；ダッシュつきの黒色＝リーブ−ワン−アウト成功率；四角＝リーブ−ワン−アウト品質基準；三角＝イプシロン（理論的誤差棒）；菱形＝四角−三角（平滑化）最適テスト成功率のプリディクター菱形曲線の最適はｌｏｇ２（遺伝子の数）＝２＝≧遺伝子の数＝４におけるものである。
【０１７８】
最良のリーブ−ワン−アウトの性能はＳＶＭについては１００％精度であり、ゴラブ（Ｇｏｌｕｂ）の方法では９０％に過ぎない（６つのエラー＝｛３９、２９、１、−１２、−３５、−２９｝）。式：
（１−α）＝０．５＋０．５ｅｒｆ（Ｚ_α／ｓｑｒｔ（２））
Ｚ_α＝εｎ／ｓｑｒｔ（ｖ）
［式中、ｎはテスト試料の数であり、ｖは２つの分類器の１つのみがなすエラーの全数であり、およびεはエラー率（または拒絶率）の差である］
を用い、１つの分類器が他の分類器よりも良好であるといずれの信頼性（１−α）を持って判断する統計的テストを用いる。
【０１７９】
本発明の方法は、９９．３％の信頼性率で持って、ゴラブ（Ｇｏｌｕｂ）よりも良好である。
【０１８０】
我々のリーブ−ワン−アウト基準によって予測される遺伝子の最適数は、図２５における３２遺伝子である。より小さな数の遺伝子領域におけるより微細なプロットは、２１遺伝子における最適を明らかにする。図２７は、ＳＶＭＲＦＥの最後の１００反復における支持ベクトル（「アルファ’ｓ」）の荷重係数を示す。アルファが非常に最後の反復までかなり変化しないのを見るのは興味深い。支持ベクトルの数は、７支持ベクトルにつき７遺伝子において最小を通過する。
【０１８１】
表５において、我々は、これらの７つの支持ベクトルの「筋肉指標」値を示す。筋肉指標は、試料の筋肉細胞含有量を反映する全ての試料でアロン（Ａｌｏｎ）らによって計算された量である。ほとんどの正常試料は腫瘍試料よりも高い筋肉指標を有する。しかしながら、支持ベクトルはいずれのそのような傾向も示さない。
【０１８２】
高いまたは低い筋肉試料いずれかを持つ正常および癌試料の混合物がある。
【０１８３】
より重要なことには、発見された遺伝子の解析は、最初の平滑筋遺伝子がゴラブ（Ｇｏｌｕｂ）の方法では５にランクづけし、ＳＶＭでは４１のみにランクづけすることを明らかにする。さらに、予測されたＳＶＭについての遺伝子の最適数は対数プロットでは３２遺伝子であり、直線プロットでは２１遺伝子である。従って、ＳＶＭは、分離を行うのに組織組成−関連遺伝子に頼るのを回避できた。生物学的データによって確認されるごとく、ＳＶＭによって発見されたトップランキング遺伝子は、全て、癌ｖｓ正常分離に関連づけられる。対照的に、ゴラブ（Ｇｏｌｕｂ）の方法は組織組成に関連するが、そのトップランキング遺伝子における癌ｖｓ正常の区別に関連しない遺伝子を選択する。
【０１８４】
【表５】

表５：ＳＶＭＲＦＥによって選択されたトップ７遺伝子で訓練されたＳＶＭの支持ベクトルの筋肉指標。負の記号を持つ試料は腫瘍組織である。正の記号を持つ試料は正常組織である。試料は増大する筋肉指標の順にランクづけした。データセットにおけるほとんどの試料において、正常組織は腫瘍組織よりも高い筋肉指標を有する。なぜならば、腫瘍組織は上皮（皮膚）細胞でより豊富だからである。これは、全ての可能性のミックスを示す支持ベクトルではあてはまらない。
【０１８５】
表６−１、表６−２において、本発明によって発見された７つのトップにランクづけされた遺伝子および閾値θ＝０．７５においてそれらにクラスター化された遺伝子。同一のことが表７−１、表７−２中のゴラブ（Ｇｏｌｕｂ）の方法でなされた。図２８および２９はそれらの遺伝子をグラフで表示する。
【０１８６】
図２８は、左から右にかけて、増大する重要性の順で、ＳＶＭＲＦＥによって発見されたトップにランクされる遺伝子を示す。７つのクラスター（行）についての全ての６２組織（欄）の遺伝子発現が表される。トップの２２組織は正常であり、４０の最後のものは癌性である。正の遺伝子発現は赤色であり、負の遺伝子発現は青色である。小さな値はより明るい色を有する。２８Ａはクラスター中心を示す。２８ＢはＳＶＭの出力を示す（Ａの遺伝子の荷重合計）。分離はエラー無しである。図２８の遺伝子は図２９のものと同定度に秩序立っては見えない。なぜならば、それらはより多くの情報を運ぶが、標的分離と個々には相関が低いからである。２８Ｃは閾値θ＝０．７５において中心にクラスター化された遺伝子を示す。
【０１８７】
図２９は、左から右に増大する重要性の順で、ゴラブ（Ｇｏｌｕｂ）の方法によって発見された７つのトップにランクされた遺伝子を示す。７つのクラスター（行）についての全ての６２の組織（欄）の遺伝子発現が表される。トップの２２組織は正常であり、４０の最後のものは癌性である。正の遺伝子発現は赤色であって、負の遺伝子発現は青色である。小さな値はより明るい色を有する。２９Ａはクラスター中心を示す。２９Ｂはゴラブ（Ｇｏｌｕｂ）分類器の出力を示す（Ａの遺伝子の荷重合計）。分離はエラーが無いのではない。２９Ｃは閾値θ＝０．７５ｓにおける中心にクラスター化された遺伝子を示す。
【０１８８】
【表６−１】

【０１８９】
【表６−２】

表６−１、表６−２：全ての６２組織を用いた場合のＳＶＭトップランクのクラスター。クラスターは閾値θ＝０．７５を持つ最良の遺伝子の回りで形成される。クラスターのランク（Ｒｋ）が高くなれば、クラスターはより「重要」になるはずである。Ｍｉｎｃｏｒｒｅｌはクラスターエレメントの間の最小相関係数である。Ｓｇｎ：標的分離との相関の記号、− ほとんどの癌細胞において過剰発現；＋ほとんどの正常細胞で過剰発現；ＧＡＮ：遺伝子受託番号。クラスター中心よりも星印が先行する。いずれの遺伝子も組織組成関連性とは見えない。
【０１９０】
【表７−１】

【０１９１】
【表７−２】

表７−１、表７−２：すべての６２組織を用いた場合のゴラブ（Ｇｏｌｕｂ）トップランクのクラスター。クラスターは閾値θ＝０．７５を持つ最良の遺伝子の回りに形成される。クラスターのランク（Ｒｋ）が高くなれば、クラスターはより「重要」になるはずである。Ｍｉｎｃｏｒｒｅｌはクラスターエレメントの間の最小相関係数である。Ｓｇｎ：標的分離との相関の記号、− ほとんどの癌細胞で過剰発現；＋ほとんどの正常組織で過剰発現；ＧＡＮ：遺伝子受託番号。クラスター中心よりも星印が先行する。強調した遺伝子は、組織組成に関連し得る遺伝子である。
【０１９２】
特徴選択方法として、ＳＶＭＲＦＥは２つの点でゴラブ（Ｇｏｌｕｂ）の方法とは異なっていた：特徴間の相互情報はＳＶＭによって用いられ、他方、ゴラブ（Ｇｏｌｕｂ）の方法は暗黙の独立仮定を行い；および、決定関数は、「典型的な」場合を特徴づけようとする試みにおけるすべての例に基づくのとは反対に、［ボーダーライン」の場合である支持ベクトルのみに基づいた。支持ベクトルの使用は、重要でない組織組成関連遺伝子を因子化するのに臨海的である。ＳＶＭＲＦＥを、独立仮定を行わないが、「典型的な」場合を特徴付けようと試みる他の線型判別関数を用いるＲＦＥ方法と比較した。２つの判別関数を選択した：
−ゴラブ（Ｇｏｌｕｂ）の方法は独立仮定をおこなうことによってＦｉｓｓｈｅｒの線型判別を近似するので、線型判別解析（ＬＤＡ）とも呼ばれるＦｉｓｓｈｅｒ線型判別（例えば、ドゥダ（Ｄｕｄａ）、１９７３参照）、および
−全ての訓練例が支持ベクトルであると、偽−逆解決がＳＶＭ解決と同一であるので、偽−逆によって計算された平均−根−エラ−（ＳＭＥ）線型判別（例えば、ドゥダ（Ｄｕｄａ），１９７３）。
【０１９３】
結腸癌データについての特徴（遺伝子）選択方法の比較の結果を図３０に示す。回帰特徴排除（ＲＦＥ）によって選択された遺伝子の数を変化させ、異なる方法でテストした。訓練は６２試料の全データセットで行った。曲線はリーブ−ワン−アウト成功率を表す。異なる方法が図３０に示され、グラフは、以下のごとくエレメントを有する線によって記載される：丸：ＳＶＭＲＦＥ。四角：線型判別解析ＲＦＥ。菱形：平均根エラー（偽−逆）ＲＦＥ。三角：ベースライン方法（ゴラブ（Ｇｏｌｕｂ），１９９９）。ＳＶＭＲＦＥは４遺伝子まで下る最良の結果を与える。選択された遺伝子の実験は、ＳＶＭが、組織組成に関連する遺伝子を排除し、癌ｖｓ正常分離に関連する遺伝子のみを維持することを明らかとする。逆に、他の方法は、殆どの試料を分離するのを助けるが、癌ｖｓ正常判別に関連しないそのトップにランクされる遺伝子中の平滑筋遺伝子を維持する。
【０１９４】
独立仮定をしないすべての方法はゴラブ（Ｇｏｌｕｂ）の方法よりも勝り、遺伝子の数の少なくとも１つの値につき１００％リーブ−ワン−アウト精度に到達する。ＬＤＡはそれらのプロットではわずかに不利であろう。なぜならば、計算理由では、ＲＦＥは、２桁サイズが低下する遺伝子のチャンクを排除することによって用いられたからである。他の方法は、ある時点で１つの遺伝子を排除することによってＲＦＥを用いる。
【０１９５】
４遺伝子まで下ると、ＳＶＭＲＦＥは、全ての他の方法よりも良好な性質を示した。全ての方法は方程式：Ｃ＝Ｑ−２ε（ｄ）の基準で予測した；６４よりも小さいまたはそれと等しい遺伝子の最適数。調べたすべての方法につき１ないし６４の遺伝子ランキングを比較した。組織組成に関連し、その記載において「平滑筋」を言及する第１の遺伝子は、ゴラブ（Ｇｏｌｕｂ）の方法では５にランクされ、ＬＤＡでは４にランクされ、ＭＳＥでは１にランクされ、ＳＶＭでは４１にランクされたにすぎない。したがって、これはＳＶＭは他の方法よりもデータを良好に使用する強力な証拠である。それらは、遺伝子の小さなサブセットで高度に正確な分離を供しつつ、組織組成関連遺伝子を効果的に因子化する唯一の方法である。
【０１９６】
図３５は、結腸癌についての遺伝子の最適数を示す。ＳＶＭでの回帰遺伝子排除によって選択された遺伝子の数は変化した。グラフの線は以下の通りである：丸：テストセットでのエラー率。四角：スケールド品質基準（Ｑ／４）十字：最適性のスケールド基準（Ｃ／４）。菱形曲線：Ｃ／４を局所的に平滑化する結果。三角：スケールド理論誤差棒（ε／２）。曲線はＣ＝Ｑ−２εによって関連づけられる。ダッシュ線は緑色の曲線の最適を示し、これは、訓練データのみに基づく理論的に予測された最適である：２2＝４遺伝子。
【０１９７】
モデル選択基準は白血病データを用いて確立し、その予測力は、いずれの調整もなすことなく、それを結腸癌データで用いることによって相関させた。該基準は最適も正確に予測した。性能はその最初のトライアルで正確ではなかった。なぜならば、実施例２の白血病データについてと同一の前処理を用いたからである。結果は、実質的にいくつかの前処理ステップを付加することによって改良され、９０％の精度の成功率に到達した。これらの前処理ステップは、全ての値の対数を取り、試料ベクトルを正規化し、特徴ベクトルを正規化し、および結果をスクワッシング関数に通して、孤立値の重要性をなくすることを含む。正規化は、全ての訓練値にわたって平均を差し引き、対応する標準偏差で割ることを含んだ。
【０１９８】
モデル選択基準は、ＳＶＭおよび他のアルゴリズムを用いて種々の他の実験で用いた。遺伝子の最適数は、２の遺伝子の数のファクター内で常に正確に予測された。
【０１９９】
生物学文献と相関する結果
ＳＶＭＲＦＥは、そのトップにランクされた遺伝子から、組織組成に関連するようである平滑筋を排除した。癌関連遺伝子は便宜上の理由で７に限定した。加えて、数字７は支持ベクトルの最小数に対応する（「モデル選択」で時々用いられ基準）。
【０２００】
最良にランクされた遺伝子は、結腸癌におけるその役割が長い間同定され、広く調べられた蛋白質をコードする。それは、結腸腺癌主要細胞が転移状態に移る（Ｇｈｉｎａ，１９９８）場合に上昇調節されるＣＤ４４、および細胞接着に関与するコラーゲンで当てはまる。結腸癌細胞は転移プロセスの一部としてコラーゲン分解活性を有する（Ｋａｒａｋｉｕｌａｋｉｓ，１９９７）。腫瘍を供給する血管を形成するのを助ける酵素としてのＡＴＰシンターゼは数年前に公表されたばかりである（Ｍｏｚｅｒ，１９９９）。葉酸の減少した状態は、細菌の臨床量研究では結腸癌の増大した危険と関連づけられている（Ｗａｌｓｈ，１９９９）。今日まで、公知の生化学メカニズムで結腸癌における葉酸の役割を説明するものはない。遺伝子Ｈ６４８０７（胎盤葉酸輸送体）が結腸癌ｖｓ正常分離において最も判別的遺伝子の１つとして同定されたいう知識は、生物学的変化に関与する遺伝子を同定するための本発明の方法の使用を示す。
【０２０１】
ヒト・キトトリオシダーゼの場合には、もう１つの癌におけるその役割が研究中である同一ファミリーのもう１つの相同蛋白質との類似性によって処理する必要があり；もう１つのキチナーゼ（ＢＲＰ３９）は乳癌で役割を演じることが見いだされた。癌細胞はこのキチナーゼを過剰生産してアポトーシスから生き延びる（Ａｒｏｎｓｏｎ，１９９９）。重要な増大したキトトリオシダーゼ活性はゴーシャーズ病患者の臨床研究で知られている（明らかに関係のない疾患）。その他の病気を診断するために、キトトリオシダーゼ酵素は非常に感度良く測定することができる。一滴未満の血液から調製された血漿または血清はキトトリオシダーゼ測定でかなり十分である（Ａｅｒｔｓ，１９９６）。これは、同様に結腸癌に対する可能な新しい診断テストへの道を開くものである。
【０２０２】
６０Ｓリボソーム蛋白質Ｌ２４（Ａｒａｂｉｄｏｐｓｉｓｔｈａｌｉａｎａ）は染色体６に位置するヒト蛋白質に相同な非−ヒト蛋白質である。他のリボソーム蛋白質と同様に、それは、ｍＲＮＡの特別のクラスの選択的翻訳を通じて細胞の成長および増殖を制御する役割を演じるようである。
【０２０３】
驚くべき新規な知見は、「特異的ポリペプチドＢ１−アルファ前駆体からのプロ周期形態（ＴｒｙｐａｎｏｓｏｍａＢｒｕｃｅｉＢｒｕｃｅｉ）」についての同定された遺伝子である。トリパノソーマはアフリカおよび南米に固有の寄生原生動物であり、トリパノソーマ（結腸寄生虫）に感染した患者は結腸癌に対して抵抗性を生じる（Ｏｌｉｖｅｉｒａ，１９９９）。トリパノソーマ症はヒトおよび動物の古代の病気であり、依然としてアフリカおよび南米の風土病である。
【０２０４】
実施例２
白血病遺伝子の発見
ＤＮＡマイクロアレイから得られた遺伝子発現ベクターのマトリックスよりなるデータセットは、２つの異なるタイプの白血病を持つ癌患者から得られた。前処理後、エラーなくして全データセットを分離した少数の遺伝子のみのセットの荷重合計を見いだすのが可能であり、かくして、データセットは線型的に分離可能であった。データの分離は容易であったが、問題は、小さな試料サイズを含めた困難性のいつくかの特徴を表し、データは訓練およびテストセットの間に異なって分布した。
【０２０５】
ゴラブ（Ｇｏｌｕｂ），１９９９において、著者らは、ＤＮＡマイクロアレイから得られた遺伝子発現データを解析して癌のタイプを分類する本方法を記載している。白血病データに伴う問題は白血病の２つの変種（ＡＬＬおよびＡＭＬ）の間の区別であった。データは２つのサブセットに分けられる：遺伝子を選択し、分類器の重みを調整する訓練セット、得られたシステムの性能を見積もるのに用いられる独立テストセット、ゴラブ（Ｇｏｌｕｂ）の訓練セットは骨髄標本からの３８試料よりなるもの、であった（２７のＡＬＬおよび１１のＡＭＬ）。それらのテストセットは、異なる実験条件下で調製し、２４の骨髄および１０の血液試料標本を含めた３４の試料を有する（２０のＡＬＬおよび１４のＡＭＬ）。すべての試料は、マイクロアレイイメージから抽出していくつかの正規化遺伝子発現値に対応する７１２９の属性（または特徴）を有する。この実施例において、それらの方法の比較を容易とするために、正確に同一の実験条件を保持した。
【０２０６】
予備実験において、リーブ−ワン−アウトエラーおよびテストエラーの間の大きな偏差のいくつかは、ちいさな試料サイズ単独によっては説明できなかった。データの解析は、訓練セットおよびテストセットの分布の間に有意な差があることを明らかにした。種々の仮説をテストし、差はデータ源における差まで追跡することができるのが判明した。すべての実験において、種々の源からのテストデータについての性能を別々に追跡した。源にかかわらず、得られた結果は同一であった。
【０２０７】
ゴラブ（Ｇｏｌｕｂ）において、著者らは、誤差率、固定された閾値における拒絶率、および分類信頼性を含めた実施例１に記載したごとく、分類器品質にいくつかの基準を用いる。分類器品質の基準を示す図３１を参照されたし。曲線（四角および三角）は２つのクラス：クラス１（負のクラス）およびクラス２（正のクラス）の例分布を表す。
【０２０８】
四角：その決定関数値がθよりも大きいかまたはそれに等しいクラス１の例の数。
【０２０９】
三角：その決定関数値がθよりも小さいかまたはそれに等しいクラス２の例の数。エラーＢ１およびＢ２の数はθ＝０の座標である。拒絶された例Ｒ１およびＲ２の数は、各々、三角および丸曲線における−θ_Rおよびθ_Rの座標である。拒絶された例の決定関数値は絶対値がθ_Rよりも小さく、これは低い分類信頼性の例に対応する。閾値θ_Rは、全ての残りの「許容された」例が十分に分類されるように設定される。極値的マージンＥは、クラス２例の最も小さい決定関数値およびクラス１例の最大決定関数値の間の差である。図面の例では、Ｅは負である。もし分類エラーの数が０であると、Ｅは負である。メジアンマージンＭは、クラス１密度のメジアン決定関数値およびクラス２密度のメジアンの間の差である。
【０２１０】
実験の最初のセットにおいて、ＳＶＭを、白血病データでのゴラブ（Ｇｏｌｕｂ）らのベースラインシステム（ゴラブ（Ｇｏｌｕｂ），１９９９）と比較した。単純な前処理ステップが行われた。各遺伝子発現値では、平均を差し引き、結果をその標準偏差で割った。
【０２１１】
２つの実験を行った。まず、７１２９遺伝子のフルセット（表８）を用いた。測定した値は前記した通りであった。
【０２１２】
【表８】

表８：全ての遺伝子についての訓練分類器の結果（白血病データ）
全ての遺伝子について訓練したＳＶＭの最大重みに対応する５０遺伝子のセットを選択した。新しいＳＶＭをこれらの５０遺伝子で訓練した。我々は、結果を、ゴラブ（Ｇｏｌｕｂ）らの論文で報告された５０特徴の元のセットで訓練したベースラインシステムと比較した（表９）。
【０２１３】
ついで、５０遺伝子のセットを選択した。５０遺伝子は、全ての遺伝子で訓練されたＳＶＭの最大重みに対応した。新しいＳＶＭをこれらの５０遺伝子で訓練した。結果を、ゴラブ（Ｇｏｌｕｂ）らの論文に報告された５０特徴の元のセットで訓練したベースラインシステムと比較した。表９参照。
【０２１４】
【表９】

表９：５０遺伝子での訓練の結果（白血病データ）
両方の場合において、ＳＶＭはベースラインシステムの性能にマッチするか、それよりも優れていた。表１０および１１の詳細な結果を用い、性能の差の統計的有意性を以下の方程式でチェックした：
（１−α）＝０．５＋０．５ｅｒｆ（Ｚ_α／ｓｑｒｔ（２））
Ｚ_α＝εｎ／ｓｑｒ（ｖ）
【表１０】

表１０：全ての遺伝子についての訓練の詳細な結果（白血病データ）。エラーｉｄナンバーは括弧に入れる。
【０２１５】
【表１１】

表１１：５０遺伝子についての訓練の詳細な結果（白血病データ）。エラーｉｄナンバーは括弧に入れる。
【０２１６】
テストの結果に従うと、５０遺伝子で訓練された分類器は、（ゴラブ（Ｇｏｌｕｂ）ではエラー率９７．７％信頼性およびＳＶＭでは９８．７％に基づき）高信頼性でもって、全ての遺伝子で訓練したものよりも良好である。エラー率単独に基づき、ＳＶＭ分類器はゴラブ（Ｇｏｌｕｂ）分類器よりも有意には良好でない（全ての遺伝子で５０％信頼性および５０遺伝子で８４．１％信頼性）。しかしながら、拒絶に基づくと、ＳＶＭ分類器はゴラブ（Ｇｏｌｕｂ）分類器よりも有意に良好である（全ての遺伝子で９９．９％信頼性およい５０遺伝子で９８．７％信頼性）。
【０２１７】
実験の第２のセットにおいて、ゴラブ（Ｇｏｌｕｂ）らの方法および白血病データでのＳＶＭの間のより詳細な比較を行った。特に、問題の２つの態様の結合を断った：遺伝子の良好なサブセットの選択および良好な決定関数の発見。ＳＶＭで得られた性能の改良は、ＳＶＭ特徴（遺伝子）選択方法まで追跡することができた。これらの特徴で訓練された特定の決定関数は遺伝子の適切なサブセットの選択ほどは重要でなかった。
【０２１８】
実験の最初のセットで行ったＳＶＭ分類器の重みで一度遺伝子をランク付けするよりはむしろ、代わりに、回帰特徴排除（ＲＦＥ）方法を用いた。各反復において、新しい分類器を残りの特徴で訓練する。新しい分類器における最小重みに対応する特徴を排除する。排除の順番は特定のランキングを生じる。約束により、排除すべき最後の特徴を最初にランクする。遺伝子のチャンクをある時点で排除した。最初の反復において２の冪指数である遺伝子の数に到達した。引き続いての反復において、残りの遺伝子の半分を排除した。増加する情報的密度の遺伝子のネステッドサブセットが得られた。
【０２１９】
次いで、遺伝子のこれらのサブセットの質は、正規ＳＶＭ、ゴラブ（Ｇｏｌｕｂ）らの分類器およびＦｉｓｓｈｅｒの線型判別（例えば、（ドゥダ（Ｄｕｄａ），１９７３参照））を含めた種々の分類器を訓練することによって評価した。訓練例の第１の主要な構成要素に沿ってデータをプロジェクトした後に訓練されたＳＶＭも用いた。これは単純な偏り値を設定するに至り、これをいずれかのクラスの２つの極端な例の重心に置き、クラス当たりの例の数で荷重した。この分類器を「低下−能力−ＳＶＭ」と呼んだ。
【０２２０】
試みた種々の分類器は有意に異なる性能を生じなかった。ゴラブ（Ｇｏｌｕｂ），１９９９の分類器および低下−能力−ＳＶＭの結果をここに報告した。いくつかの交差テストをベースライン方法で実行して、遺伝子のセットおよび分類器を比較した。ＳＶＭ選択遺伝子で、またはベースライン遺伝子で訓練したＳＶＭを示す図３２Ａ、およびＳＶＭ選択遺伝子で、またはベースライン遺伝子で訓練したベースライン分類器を示す図３２Ｂ参照。分類器は、ＳＶＭで選択した遺伝子のサブセットで、および白血病データの訓練セットでのベースライン方法で訓練されている。遺伝子の数は色を施し、脚注に示す。品質インジケーターは径方向にプロットする：チャネル１−４＝リーブ−ワン−アウト方法での交差−有効化結果；チャネル５−８＝テストセット結果；ＳＵＣ＝成功率；ａｃｃ＝許容率；ｅｘｔ＝極値性マージン；ｍｅｄ＝メジアンマージン。各インジケーターの平均値がゼロの平均（全ての４つのプロットにわたり偏差１）を有するように、係数を再度判断した。各分類器では、色を付けたエリアが大きくなると、分類器は良好となる。図面は、このデータセットでの分類器性能の間に有意な差はないが、遺伝子選択の間に有意な差があることを示す。
【０２２１】
表１２において、遺伝子選択および分類方法の各組合せにつきテストセットで得られた最良の結果をまとめる。分類器は、遺伝子選択方法を与えれば、同一の結果を与える。対照的に、ＳＶＭ選択遺伝子は、双方の分類器についてのベースライン遺伝子よりも終止一貫して良好な性能を生じる。差の有意性は以下の方程式でテストした：
（１−α）＝０．５＋０．５ｅｒｆ（Ｚ_α／ｓｑｒｔ（２））
Ｚ_α＝εｎ／ｓｑｒｔ（ｖ）
ＳＶＭまたはベースライン分類器であるかを問わず、ＳＶＭ遺伝子は、テストエラー率に基づいて８４．１％信頼性でもって、およびテスト拒絶率に基づき９９．２％の信頼性をもって良好であった。
【０２２２】
【表１２】

表１２：テストデータについての最良の分類器（白血病データ）。テストデータで最良に実行する分類器の性能を報告する。ＳＶＭまたはベースライン遺伝子およびＳＶＭまたはベースライン分類器の各組合せでは、遺伝子の対応する数、エラーの数および拒絶の数を表中に示す。患者ｉｄナンバーは括弧中に示す。
【０２２３】
トップにランクされた遺伝子を比較するために、ＳＶＭ選択サブセットおよびベースラインサブセットにおける共通遺伝子の分率（表１３）を計算した。この例においてＳＶＭで見出された１６遺伝子の最適数において、遺伝子の１９％が共通していたに過ぎなかった。
【０２２４】
【表１３】

図１３：ベースライン方法およびＳＶＭ回帰遺伝子排除で選択されたセット間の共通遺伝子の分率（白血病データ）。共通遺伝子の分率は遺伝子の数の関数としてほぼ指数関数的に減少する（対数スケールで曲線的）。最適ＳＶＭ遺伝子セット数１６において、遺伝子の１９％が共通したに過ぎなかった。
【０２２５】
図３３は、白血病データについての１６遺伝子の最良セットを示す。マトリックス（ａ）および（ｃ）において、欄は異なる遺伝子を表し、行は訓練セットからの異なる患者を表す。２７の頂部線ＡＬＬ患者であり、１１の底部線はＡＭＬ患者である。灰色を施したのは遺伝子の発現を示し：明るいほどより強い。３３ＡはＳＶＭ最良１６遺伝子を示す。遺伝子は左から右にランクされ、最良のものは最も左側にある。選択された全ての遺伝子はよりＡＭＬに相関する。３３Ｂは、分類決定をなすのに使用した１６ＳＶＭ遺伝子の荷重合計を示す。非常に明瞭なＡＬＬ／ＡＭＬ分離が示される。３３Ｃはベースライン方法１６遺伝子を示す。該方法は、遺伝子の半分がＡＭＬに相関し、半分がＡＬＬに相関することを課する。最良の遺伝子は中央にある。３３Ｄは、分類決定をなすのに用いた１６ベースライン遺伝子の荷重合計を示す。分離は依然として良好であるが、ＳＶＭ分離ほどは良好でない。
【０２２６】
図３３Ａおよび３３Ｃは、１６遺伝子サブセットの訓練セットにおける患者に対する発現値を示す。一見して、ベースライン方法によって選択された遺伝子はかなり秩序立って見えた。これは、それらがＡＭＬまたはＡＬＬいずれかと強く相関したからであった。この遺伝子セットでは大きな冗長があった。本質的には、全ての遺伝子は同一の情報を担っていた。逆に、ＳＶＭは、補充的情報を担う遺伝子を選択した。これは、１６遺伝子発現の荷重合計である決定関数の出力に反映された（図３３Ｂ）および（図３３Ｄ）。ＳＶＭ出力はＡＭＬ患者をＡＬＬ患者からかなり明瞭に分離した。表１４および１５は２つの方法によって選択された遺伝子をリストする。
【０２２７】
【表１４】

表１４：トップにランクされた１６ＳＶＭ遺伝子（白血病データ）。Ｒｋ＝ランク。ＧＡＮ＝遺伝子受託番号。相関＝遺伝子がリストされたクラスに最も相関する。遺伝子は、最も有望でない遺伝子を回帰的に排除することによって得られた。遺伝子のネステッドサブセットが得られる。
【０２２８】
【表１５】

表１５：トップにランクされた１６ベースライン遺伝子（白血病データ）。ＧＡＮ＝遺伝子受託番号。相関＝遺伝子がリストされたクラスと最も相関する。左側の８つの遺伝子はＡＬＬに最も相関し、右側の８つの遺伝子はＡＭＬに相関する。トップのものは最良の候補である。ゴラブ（Ｇｏｌｕｂ）らは、彼らの実験において同等な割合のＡＬＬ−相関およびＡＭＬ−相関遺伝子を混合した。
【０２２９】
遺伝子の最適サブセットが予測できる。
【０２３０】
遺伝子の最低サブセットを予測する問題に取り組んだ。訓練例のみに由来する以下の方程式で定義される基準を用いた。
【０２３１】
Ｃ＝Ｑ−２ε（ｄ）
予測された遺伝子サブセットがテストセットで最良に実行するか否かをチェックした。テストは、ＳＶＭ回帰特徴排除を用いて行った。特徴の数は、各反復において２のファクターだけ徐々に減少した。ＳＶＭ分類器を、見出された全ての中間サブセットで訓練した。
【０２３２】
図３４に示すごとく、１６遺伝子の最適数が見出された。ＳＶＭの回帰遺伝子排除によって選択された遺伝子の数は変化した。グラフの線の記載は以下の通りである：丸：テストセットでのエラー率。四角：スケールド品質基準（Ｑ＝４）十字：最適性のスケールド基準（Ｃ／４）。菱形曲線：Ｃ／４を局所的に平滑化する結果。丸：スケールド理論誤差棒（ε／２）。曲線はＣ＝Ｑ−２εによって関係付けた。ダッシュ線は菱形曲線の最適を示し、これは、訓練データのみに基づいた理論予測最適である菱形曲線の最適を示す：２^４＝１６遺伝子。ゼロのテストエラーがこの最適で得られた。
【０２３３】
テストセットでの性能もまたその値において最適であることが判明した。結果の詳細は表１６に報告する。
【０２３４】
【表１６】

表１６：ＲＦＥ方法で得られたＳＶＭの遺伝子で訓練されたＳＶＭ分類器（白血病データ）。分類器選択Ｃの基準は分類器品質Ｑから誤差棒εを引いたものであった。これらの量は訓練データのみに基づいて計算した。（ゼロ拒絶における）成功率、（ゼロエラーにおける）許容率、極端なマージンおよびメジアンマージンは、３８試料訓練セット（Ｖ結果）および３４試料テストセット（Ｔ結果）でのリーブ−ワン−アウト方法につき報告した。遺伝子の数が１６である場合、訓練データのみを用いて計算した局所的に平滑化されたＣ基準によって予測される分類器は最良であった。
【０２３５】
最適において、ＳＶＭはいずれの拒絶もなくしてテストセットで１００％精度である。
【０２３６】
予測されて最適におけるベースラインでのシステムでの比較結果を表１７に示す。
【０２３７】
【表１７】

表１７：基準Ｃで選択された最良の分類器（白血病データ）。訓練例のみに基づいて計算された基準Ｃの最適に対応する分類器の性能を報告した。ＳＶＭまたはベースライン遺伝子およびＳＶＭまたはベースライン分類器の各組合せについては、遺伝子の対応する数、エラーの数および拒絶の数を表中に示す、患者ｉｄナンバーは括弧に入れて示す。
ＳＶＭシステム（ＳＶＭ特徴訓練した最適ＳＶＭ分類器）およびベースラインシステム（ベースライン特徴で訓練した最適ベースライン分類器）の間で得られた総ての差はかなり有意であった：エラー率では９５．８％および拒絶率では９９．２％。交差−テスト解析では、これらの差は、良好な分類器よりもむしろ特徴の良好なセットまでほとんど追跡することができた。
【０２３８】
白血病データは、７２試料の全データセットで遺伝子選択方法を実行することによって処理した。４つのトップにランクされた遺伝子を表１８に示す。
【０２３９】
【表１８】

表１８：ＳＶＭＲＦＥトップランク遺伝子（白血病データ）。７２試料の全データセットを用いて、ＳＶＭＲＦＥで遺伝子を選択した。遺伝子は重要性が増す順番にランクした。最初にランクされた遺伝子は、全ての他の遺伝子が排除された後に残った最後の遺伝子である。発現：ＡＬＬ＞ＡＭＬは、遺伝子の発現レベルが殆どのＡＬＬ試料においてより高いことを示す；ＡＭＬ＞ＡＬＬは、遺伝子発現レベルが殆どのＡＭＬ試料においてより高いことを示す；ＧＡＮ：遺伝子受託番号。このリスト中の全ての遺伝子は、ＡＭＬｖｓＡＬＬ分離に対していくらか可能な関連性を有する。
【０２４０】
４つの遺伝子の数は支持ベクトルの最小数に対応する（この場合には５）。全ての４つの遺伝子は白血病癌に対していくらか関連性を有し、ＡＭＬおよびＡＬＬ変種の間を区別するのに用いることができる。
【０２４１】
この最後の実験において、エラー無くして全データセットを分離する遺伝子の最も小さな数は２である。遺伝子のこのセットでは、ゼロのリーブ−ワンーアウトエラーもある。対照的に、ゴラブ（Ｇｏｌｕｂ）の方法は、常に、少なくとも１つの訓練エラーおよび１つのリーブ−ワン−アウトエラーを生じる。１つの訓練エラーは１６遺伝子の最小で達成でき、１つのリーブ−ワン−アウトエラーは６４遺伝子の最小で達成できる。
【０２４２】
要約すると、特徴選択の最も速い方法は相関方法であった：研究中のデータセットでは、Ｐｅｎｔｉｕｍプロセッサでのゴラブ（Ｇｏｌｕｂ）のベースライン方法によって、数千の遺伝子を約１秒以内にランク付けすることができる。２番目に速い方法は、ランキング基準としての全ての特徴で一回のみ訓練した分類器の重みを用いる。ＳＶＭまたは偽−逆／ＭＳＥのごとき訓練アルゴリズムは、まず、ｎの訓練パターンの間の全てのスカラー積の（ｎ，ｎ）マトリックスＫの計算を必要とする。Ｋの計算は、特徴（遺伝子）の数と共に直線的に増加し、訓練パターンの数と共に二次的に増加する。その後、訓練時間はマトリックスＫを逆転させる時間のオーダーである。最適化されたＳＶＭアルゴリズムでは、もし数支持ベクトルがｎと比較して小さいならば、訓練はＫを逆転させるよりも速いであろう。研究中のデータセットでは、非−最適化Ｍａｔｌａｂコードを持つＰｅｎｔｉｕｍプロセッサで、解は数秒以内に見出される。
【０２４３】
回帰特徴排除（ＲＦＥ）は、減少するサイズの特徴のサブセットでの訓練多重分類器を必要とする。訓練時間は訓練すべき分類器の数に対して直線的な大きさである。計算の一部は再使用することができる。マトリックスＫは全く再度計算する必要はない。排除された特徴の部分的スカラー積を引くことができる。また、係数αをそれらの以前の値に対して初期化することができる。Ｐｅｎｔｉｕｍプロセッサでの本発明のＳＶＭＲＦＥのＭａｔｌａｂ実行は、全結腸データセット（２０００遺伝子、６２患者）では約１５分以内に、および白血病データセット（７１２９遺伝子、７２患者）では３時間以内に遺伝子ランキングを戻す。データの収集および調製が数カ月または数年かかるであろうと仮定すれば、データ解析に数時間かかることは許容できる。
【０２４４】
種々の分類器（ＳＶＭ、ＬＤＡ、ＭＳＥ）を用いる特徴選択実験の全ては、良好な特徴は、単一分類器の重みを用いることによるよりはＲＦＥを用いることによって得られることを示した。同様に、良好な結果は、特徴のチャンクを排除することによるよりもある時点で１つの特徴を排除することによって得られた。しかしながら、遺伝子のより小さなサブセット（１００未満）に対して有意な差があるに過ぎない。いずれかの特定な理論に拘束されるつもりはないが、スピードについてのトレーディング精度なくして、最初の数回の反復で特徴のチャンクを除去することによってＲＦＥを用い、次いで、一旦特徴セットが数百の数と反応する時点において１つの特徴を除去することができるのは理論化される。ＲＦＥアルゴリズムは、特徴の合計数が線型下とされる。これは、近い将来に起こると予測されるごとく、遺伝子の数が数百万に近づく実験で用いられる。
【０２４５】
他の実験はＳＶＭで使用した。１つの実験は、重みの最大数を強制的にゼロとするように最適化問題を公式化するものである。以下の線型プログラミング処方を用いた；
Ｙ_Ｉ［（ｗ*−ｗ）・ｘ＋ｂ］≧１−ζ_Ｉ
ｗ_Ｉ＞０
ｗ_Ｉ _*＞０
Ｉ＝１．．．ｎ
の条件下ので、
ｃｗ_Ｉ＋ｗ_Ｉ _*＋ＣΣ_ｉζ_ｉ
［式中、Ｃは正の定数である］
ＳＶＭＲＦＥは、相関方法の独立仮定を排除することによって、特徴ランキングに基づいて特徴選択を改良する。それは、特徴のネステッドサブセットを生じる。これは、ｄの特徴の選択されたサブセットがｄ＋１の特徴のサブセットに含まれることを意味する。特徴ランキング方法では、最良の可能な分離を供するシングルトンが無いであろう。最良特徴対はそのシングルトンを一体化するという保証はない。
【０２４６】
コンビナトリアルサーチは、特徴ランキングに対する計算が強い代替法である。ｄの特徴またはそれ未満の最適サブセットを求めるにはｄの特徴またはそれ未満の全ての組合せを試す。最良の分類性能を生じる組合せを選択する。本発明の１つの実施形態はコンビナトーリアル方法を用いることを含む。
【０２４７】
コンビナトリアルサーチを用いて、ＳＶＭＲＦＥで選択した遺伝子のサブセットで開始し、最適特徴セットを改良した。白血病データは、その訓練／テストデータスプリットバージョンで用いた。方程式Ｃ＝Ｑ−２ε（ｄ）のモデル選択基準は訓練データセットのみで計算し、いずれの組合せがテストデータで最良に実行されるかを予測しようと試みた。最初にランク付けされた遺伝子のトリプレットは訓練セットおよびテストセット双方で１００％の分類精度を供した。
【０２４８】
本発明の他の実施形態は非線形分類器の使用を含む。本発明のＳＶＭＲＦＥは、形態の決定関数：Ｄ（ｘ）＝Σ_Ｉα_Ｉｙ_ＩＫ（ｘ_Ｉ，ｘ）
の決定関数にてカーネルＳＶＭで用いる。
【０２４９】
用いたランキング基準はベクトルの重みｗ＝Σ_Ｉα_Ｉｙ_Ｉであった。ｗはもはや分類器の重みベクトルではないことに注意されたし。
【０２５０】
ＳＶＭＲＦＥの他の実施形態は、医療予後のごとき回帰の問題において、および密度評価または密度の支持の評価の問題のための使用を含む。
【０２５１】
いずれかの特定の理論に拘束されるつもりは無いが、ＲＦＥランキングは、ある意味では最適である増大するサイズの特徴のネステッドサブセットを生じると考えることができる。個々には、もう１つのものよりは良好にランク付けされる特徴はデータを良好に分離できないであろう。事実、第１にランクされた特徴と大いに相関するいずれかのランクの特徴がある。ＳＶＭＲＦＥによって供された単純な線型構造へ相関次元を付加する１つの方法は、与えらえた相関係数に従って遺伝子をクラスター化することである。ＳＶＭＲＦＥについての前処理における非監督クラスタリングを本出願で示した。次いで、クラスター中心をランク付けされるべき特徴として用いた。また、監督クラスタリングはＳＶＭＲＦＥについての後処理として用いた。また、トップランキング特徴をクラスター中心として用いた。残りの拒絶された特徴をそれらの中心に対してクラスター化した。
【０２５２】
ＳＶＭは、ＤＮＡマイクロアレイデータからの遺伝子発現の広いパターンの解析に特に役に立つ。それらは、数千の遺伝子のごとき非常に多数の特徴、および少数の患者のごとき少数の訓練パターンを容易に扱うことができる。ベースライン方法はＳＶＭによる二日だけの仕事において優れていた。
【０２５３】
２つの癌データベースは、遺伝子のサブセットを選択するプロセスにおいて遺伝子間の相互情報を考慮しないと分類性能を損なうことを示した。暗黙の独立仮定をなすベースライン方法よりも優れた有意義な改良が得られた。ＳＶＭを介して見出されたトップにランクされた遺伝子は、全て、癌に関係していた。対照的に、他の方法は、手での分離と相関するが、癌診断には関係しない遺伝子を選択した。
【０２５４】
本発明は線型ＳＶＭ分類器で証明したが、本発明は、回帰に対する、および密度評価に対する非線形分類器を含む。コンビナトーリアルサーチのごとき他のＳＶＭ遺伝子選択方法もまた本発明に含まれる。本発明の好ましい方法は、線型分類器の使用を含み、そのような分類器は、訓練パターンの数よりも特徴の大きな比率数のため好ましい。
【０２５５】
これまでの記載は本発明の好ましい実施形態のみに関し、添付の請求の範囲に記載された本発明の精神および範囲を逸脱することなく多数の修飾または変形をなすことができるのはもちろん理解されるべきである。そのような別の実施形態は、本発明の精神および範囲に含まれると考えられる。従って、本発明の範囲は添付の請求の範囲によって記載され、これまでの記載によって裏付けられる。
【図面の簡単な説明】
【図１】図１は、学習機械を用いてデータから発見することができる知識を増加させるための例示的一般的方法を示すフローチャートである。
【図２】図２は、支持ベクトル機を用いてデータから発見することができる知識を増加させるための例示的方法を示すフローチャートである。
【図３】図３は、本発明の例示的実施形態による、前処理または後処理技術のために、単独配置にてまたは学習機械と組み合わせて用いることができる例示的最適カテゴリー化方法を示すフローチャートである。
【図４】図４は、支持ベクトル機に入力することができる例示的非拡大データセットを示す。
【図５】図５は、図４のデータセットを用いて支持ベクトル機によって生じた例示的後処理された出力を示す。
【図６】図６は、図４のデータセットに基づいて支持ベクトル機に入力することができる例示的拡大されたデータセットを示す。
【図７】図７は、図６のデータセットを用いて支持ベクトル機によって生じた例示的後処理された出力を示す。
【図８】図８は、図３の最適カテゴリー化方法の単独適用のための例示的入力および出力を示す。
【図９】図９は、線型カーネルを含む第１の支持ベクトル機および多項式カーネルを含む第２の支持ベクトル機からの例示的後処理された出力の比較である。
【図１０】図１０は、本発明の例示的実施形態のための例示的オペレーティング環境を示す機能的ブロックダイアグラムである。
【図１１】図１１は、本発明の別の実施形態のための代替例示的オペレーティング環境を示す機能的ブロックダイアグラムである。
【図１２】図１２は、本発明のさらなる代替実施形態の実行のための例示的ネットワークオペレーティング環境を示す機能的ブロックダイアグラムである。
【図１３】図１３は、線型判別分類器の使用をグラフで示す。Ａ）ＳＶＭでの訓練例の分離。Ｂ）同一ＳＶＭでの訓練およびテスト例の分離。Ｃ）ベースライン方法での訓練例の分離。Ｄ）ベースライン方法での訓練およびテスト例の分離。
【図１４】図１４は、実施例２と同様の情報でのＲＦＥを用いる結果のグラフを示す。
【図１５】図１５は、２つの遺伝子について組織試料にわたる遺伝子発現値の分布を示す。
【図１６】図１６は、全ての組織試料についての遺伝子にわたる遺伝子発現値の分布を示す。
【図１７】図１７は、結腸癌についてのマイクロアレイデータからの遺伝子発現値を表すデータマトリックスを示す。
【図１８】図１８は、前処理後のＲＦＥの結果を示す。
【図１９】図１９は、本発明およびゴラブ（Ｇｏｌｕｂ）の方法のグラフによる比較を示す。
【図２０】図２０は、最良の３２の遺伝子およびすべての他の遺伝子の間の相関を示す。
【図２１】図２１は、１００の密なＱＴクラストクラスターで訓練した場合のＲＦＥの結果を示す。
【図２２】図２２は、ＳＶＭＲＦＥによって選択されたトップの８つのＱＴクラストクラスターを示す。
【図２３】図２３は、ＱＴクラストトップ遺伝子バラツキプロットを示す。
【図２４】図２４は監督クラスタリングを示す。
【図２５】図２５は、全データセットで訓練した場合のＳＶＭＲＦＥの結果を示す。
【図２６】図２６は、全データセットで訓練した場合のゴラブ（Ｇｏｌｕｂ）の方法の結果を示す。
【図２７】図２７は、支持ベクトルの荷重係数を示す。
【図２８】図２８は、左から右に重要性が増大する順番のＳＶＭＲＦＥによって発見されたトップにランクされた遺伝子を示す。
【図２９】図２９は、左から右に重要性が増大する順のゴラブ（Ｇｏｌｕｂ）の方法によって発見された７つのトップにランクされた遺伝子を示す。
【図３０】図３０は、異なる方法を用いる結腸癌データについての特徴（遺伝子）選択方法の比較を示す。
【図３１】図３１は分類器品質の基準を示す。三角および丸曲線は２つのクラス：クラス１（負のクラス）およびクラス２（正のクラス）の例分布を表す。
【図３２Ａ】図３２Ａは、白血病データについてのＳＶＭおよびベースライン方法の間の性能比較を示す。
【図３２Ｂ】図３２Ｂは、白血病データについてのＳＶＭおよびベースライン方法の間の性能比較を示す。
【図３３】図３３は白血病データについての１６遺伝子の最良セットを示す。
【図３４】図３４は、白血病データについての遺伝子の最適数の選択を示す。
【図３５】図３５は、結腸癌データについての遺伝子の最適数の選択を示す。
【図３６】図３６は、多重支持ベクトル機の階級システムを示す機能的ブロックダイアグラムである。

Claims

データ中のパターンを同定する学習機械を訓練するコンピュータによる方法であって、
前記学習機械は、複数の重みを有する一の決定関数をそれぞれが含む複数の支持ベクトル機を含み、
前記方法は、
（ａ）前記データに対応してそれぞれが対応する重みを有する複数の特徴を含む訓練データセットを一の支持ベクトル機に入力することと、
（ｂ）分類の信頼性を最適化するべく前記決定関数の前記複数の重みを最適化することと、
（ｃ）前記最適化された複数の重みを用いて、前記パターンの相関の程度を表すランキング基準を計算することと、
（ｄ）最小のランキング基準を有する少なくとも一の特徴を前記学習機械のさらなる訓練から除去することと、
（ｅ）特徴の最適サブセットが残るまで、ステップ（ａ）乃至（ｄ）を複数回繰り返すことと
を含み、
前記最適サブセットは、前記データ中の前記パターンを同定できる可能性が最も高い特徴を含み、
前記最適サブセットは、テストデータセットについての分類のエラー率に応じて決定される方法。
前記訓練データセットが複数の支持ベクトル機に入力される請求項１に記載の方法。
前記ステップ（ｅ）は更に、それぞれの繰り返しにおいて一の新しい支持ベクトル機を用いることを含み、
前記新しい支持ベクトル機は一の異なるカーネルを含む請求項１又は２に記載の方法。
リーブ−ワン−アウト方法を用いて、前記特徴の最適サブセットを見積もることを更に含む請求項１乃至３のいずれか１項に記載の方法。
既知の出力を有する独立したテストデータセットを前記訓練された学習機械に入力して、前記特徴の最適サブセットをテストすることを更に含む請求項１乃至４のいずれか１項に記載の方法。
ステップ（ａ）乃至（ｄ）の１回の繰り返しにおいて、ステップ（ｄ）が、前記最小のランキング基準を有する複数の特徴を除去することを含む請求項１乃至５のいずれか１項に記載の方法。
ステップ（ｄ）が、前記最小のランキング基準に基づいて、複数の特徴を各々の繰り返しにおいて半分に減少するように除去することを含む請求項１乃至５のいずれか１項に記載の方法。
前記訓練データセットは、ＤＮＡマイクロアレイから得られた遺伝子発現値を含む請求項１乃至７のいずれか１項に記載の方法。
複数のデータクラスターを生成するべく非監督クラスタリングを用いて前記訓練データセットを前処理することと、
前記複数のデータクラスターのそれぞれからクラスター中心を選択することと、
ステップ（ｂ）乃至（ｅ）を実施するべく前記クラスター中心を使用することと
を更に含む請求項１乃至８のいずれか１項に記載の方法。
前記ＤＮＡマイクロアレイは結腸癌組織及び正常組織を含み、前記同定されるパターンは結腸癌の診断を含む請求項８に記載の方法。
前記ＤＮＡマイクロアレイは白血病患者由来の骨髄標本及び血液試料標本を含み、前記同定されるパターンは白血病の変種の区別を含む請求項８に記載の方法。
データ中のパターンを同定する学習機械であって、
前記データに対応してそれぞれが対応する重みを有する複数の特徴を含む訓練データセットを入力するための入力手段と、
複数の重みを有する一の決定関数をそれぞれが含む複数の支持ベクトル機を用いて前記訓練データを処理するプロセッサであって、
分類の信頼性を最適化するべく前記決定関数の前記複数の重みを最適化し、
前記最適化された複数の重みを用いて、前記パターンの相関の程度を表すランキング基準を計算し、
最小のランキング基準を有する少なくとも一の特徴を前記学習機械のさらなる訓練から除去し、
前記最適化、前記ランキング基準の計算、及び前記少なくとも一の特徴の除去を、所定サイズの特徴のサブセットが残るまで複数回繰り返すプロセッサと
を含む学習機械。
それぞれの繰り返しにおいて前記プロセッサが一の新しい支持ベクトル機を選択することを更に含み、
前記新しい支持ベクトル機は一の異なるカーネルを含む請求項１２に記載の学習機械。
１回の繰り返しにおいて、前記プロセッサが、前記最小のランキング基準を有する複数の特徴を除去する請求項１２乃至１３のいずれか１項に記載の学習機械。
前記プロセッサが、前記最小のランキング基準に基づいて、複数の特徴を各々の繰り返しにおいて半分に減少するように除去する請求項１２乃至１３のいずれか１項に記載の学習機械。
前記訓練データセットは、ＤＮＡマイクロアレイから得られた遺伝子発現値を含む請求項１２乃至１５のいずれか１項に記載の学習機械。
前記プロセッサは、
複数のデータクラスターを生成するべく非監督クラスタリングを用いて訓練データセットを前処理し、
前記複数のデータクラスターのそれぞれからクラスター中心を選択し、
前記複数の重みを最適化するべく前記クラスター中心を使用し、
ランキング基準を計算し、
最小のランキング基準を有する少なくとも一の特徴を除去する請求項１２乃至１６のいずれか１項に記載の学習機械。
前記ＤＮＡマイクロアレイは結腸癌組織及び正常組織を含み、前記同定されるパターンは結腸癌の診断を含む請求項１６に記載の学習機械。
前記ＤＮＡマイクロアレイは白血病患者由来の骨髄標本及び血液試料標本を含み、前記同定されるパターンは白血病の変種の区別を含む請求項１６に記載の学習機械。