JP2003529131A

JP2003529131A - 生物学的システムにおいてパターンを同定するための方法およびデバイスならびにその使用方法

Info

Publication number: JP2003529131A
Application number: JP2001534088A
Authority: JP
Inventors: スティーブンディー．バーンヒル、; イザベルギオン、; ジェイスンウエストン、
Original assignee: バイオウルフテクノロジーズエルエルスィー
Priority date: 1999-10-27
Filing date: 2000-10-27
Publication date: 2003-09-30
Anticipated expiration: 2020-10-27
Also published as: EP1236173A2; CA2388595C; WO2001031580A3; AU1242701A; EP2357582A1; WO2001031580A2; JP5064625B2; CA2388595A1; AU779635B2

Abstract

(57)【要約】本発明の方法、システムおよびデバイスは、医療診断、予後および治療でいうようなパターンの同定のための支持ベクトル機の使用を含む。そのようなパターンは多くの異なるデータセットで見出すことができる。また、本発明は、医学的疾患の治療および診断のための方法および組成物を含む。

Description

【発明の詳細な説明】【０００１】（技術分野）本発明は、遺伝子、遺伝子産物、蛋白質、脂質、およびその組合せのごとき生
物学的システムにおいて関連パターンを同定するための学習機械の使用に関する
。生物学的システムにおけるこれらのパターンを用いて、異常な生理学的状態を
診断し予測することができる。加えて、本発明を用いて検出することができるパ
ターンを用い、治療剤を開発することができる。【０００２】（発明の背景）生物についての膨大な量のデータが、ゲノムの配列決定で生じつつある。個体
のための処置および療法を提供するためにこの情報を用いることは、集められた
情報の深い理解を要するであろう。ゲノムの情報を用いる努力は、既に、遺伝子
発現の調査デバイスの開発に至っている。現在最も有望なデバイスの１つは遺伝
子チップである。遺伝子チップは、オリゴヌクレオチドプローブのアレイを固体
ベースの構造に付着させている。そのようなデバイスは、ここに出典明示してそ
の全体を本明細書の一部とみなす米国特許第５，８３７，８３２号および第５，
１４３，８５４号に記載されている。該チップ上に存在するオリゴヌクレオチド
プローブを用いて、標的核酸が特異的参照配列と同一または異なるヌクレオチド
配列を有するか否かを判断することができる。プローブのアレイは、参照配列に
相補的なプローブならびに該相補的プローブとは１以上の塩基だけ異なるプロー
ブを含む。【０００３】遺伝子チップは、非常に小さなチップ上にオリゴヌクレオチドの大きなアレイ
を含有することができる。ハイブリダイゼーション強度データを測定して、いず
れのプローブがハイブリダイズしているかを決定するための種々の方法が当該分
野で知られている。ハイブリダイゼーションを検出する方法は蛍光、放射性、酵
素、ケモルミネセント、バイオルミネセントおよび他の検出系を含む。【０００４】また、ゲルブロットまたはドットブロットに対するゲル電気泳動およびハイブ
リダイゼーションのごとき古いが依然として使用できる方法も遺伝子配列情報を
決定するのに有用である。また、溶液ハイブリダイゼーションおよびイン・サイ
チュハイブリダイゼーション方法のための捕獲および検出系もまたゲノムについ
ての情報を徹底するのに用いられる。加えて、染色体ウォーキングおよびファー
ジ生ラリーの確立のごとき、ゲノム配列の大きな部分を規定するための以前およ
び現在使用される方法を用いて、ゲノムについての知識を獲得する。【０００５】配列、調節、活性化、結合部位および内部コーディングシグナルに関する大量
の情報は、当該分野で知られた方法によって生じ得る。事実、そのような方法に
よって生じつつあるデータの量は有用な情報の由来を隠してしまう。ニューラル
・ネットワークのごとき進歩した学習ツールによって助けられると、ヒト研究者
は、大きな特徴−リッチなデータセットにおいて表された基礎となるプロセスの
粗いモデルを誘導することができるに過ぎない。【０００６】膨大な量のデータを生じ得る生物学的研究のもう１つの領域は、プレテオミッ
クスの出現する分野である。プロテオミックスは、ゲノムによってコードされ調
節された蛋白質の群の研究である。この分野は、蛋白質の分析、蛋白質レベルの
調節および遺伝子調節および発現に対する関係に対して新しい焦点を表す。個人
または集団のプロテオームの正常または病理学的状態の理解は、病気の予後また
は診断についての情報、薬物もしくは遺伝子的処置の開発、または酵素置換療法
を提供する。プロテオームを研究する現在の方法は、蛋白質の二次元（２−Ｄ）
ゲル電気泳動、続いての質量分析による分析を含む。病因または治療においてい
ずれかの特定の時点または段階の蛋白質のパターンは２−Ｄゲル電気泳動によっ
て観察することができる。２−Ｄゲルで分離されている細胞で見出される数千の
蛋白質を同定するにおいて問題が生じる。マススペクトロフォトメーターを用い
て、アミノ酸配列を同定し、それを公知の配列データベースと比較することによ
ってゲルから単離された蛋白質を同定する。製造と、これらの方法は、プロテオ
ームの小さな部分を分析するには多数のステップを要する。【０００７】近年、遺伝子の発現を蛋白質の生産、構造および機能に関連付けることができ
る技術が開発されてきた。自動高スループット分析、核酸分析およびバイオイン
フォーマティックス技術が、ゲノムをプローブし、遺伝子の突然変異および発現
を病気の素因および進行に関連付ける能力において援助してきた。現在の分析方
法は、これらの技術によって生じた大量のデータを管理するそれらの能力が制限
されている。【０００８】生物学的系の機能パラメーターを決定するにおける最も最近の進歩の１つは、
遺伝子発現、蛋白質の機能および相互作用、および病気の状態または進行の間の
関係を解明するための、ゲノム情報と蛋白質機能との関係の分析である。ゲノム
の活性化または発現は、常には、蛋白質の生産レベルまたは活性における直接的
変化を意味しない。ｍＲＮＡの別のプロセッシングまたは転写後もしくは翻訳後
調節メカニズムは、１つの遺伝子の活性が、その全てが異なる移動パターンおよ
び生物学的活性を持ちわずかに異なる多数の蛋白質をもたらしかねなくする。ヒ
トゲノムは、潜在的には、１００，０００の遺伝子を含むが、ヒトプロテオーム
は５０ないし１００倍大きいと信じられている。現在、ゲノムおよびプロテオー
ムに対するそのような生物学的研究によって生じたデータを適切に解析する方法
、システムまたはデバイスはない。【０００９】知識の発見は、データ収集の最も望ましい最終産物である。データベース技術
における最近の進歩は、膨大な量のデータを生じさせ、収集し、および記憶する
ためのシステムおよび方法における爆発的な成長に至った。データベース技術は
大きなデータセットの十分な収集および記憶を可能とするが、このデータにおけ
る情報のヒトの理解を容易とする挑戦はより困難になりつつある。多くの現存の
技術に伴い、問題はアプローチできなくなった。かくして、自動知識発見ツール
の新しい創製に対する要求が存在する。【００１０】具体的な例として、ヒトゲノムプロジェクトは、ヒトの遺伝子暗号を記載する
マルチ−ギガバイトのデータベースを普及させつつあるヒトゲノムのこのマッピ
ングが完了する前には、データベースのサイズはかなり大きくなると予測される
。そのようなデータベース中の膨大な量のデータは、スプレッドシートおよびそ
の場限りの疑問のごときデータ解析のための伝統的なツールを圧倒する。データ
解析の伝統的な方法は、データからの情報的報告を生じさせるのに用いることが
できるが、膨大な量のデータ中の有用な知識のパターンを解析し、それを見出す
ことにおいて、知的にかつ自動的にヒトを援助する能力を有しない。同様に、解
釈のための伝統的に受け入れられた参照範囲および標準を用いると、しばしば、
ヒトが、非常に少量のデータについてさえ有用な知識のパターンを同定するのが
不可能である。【００１１】機械学習のいくつかの例において効果的であることが示されている１つの最近
の開発は、逆−増殖ニューラル・ネットワークである。逆−増殖ニューラル・ネ
ットワークは、容易にはヒトに明らかとならないであろうデータセットにおいて
知識を見出すように訓練することができる学習機械である。しかしながら、ニュ
ーラル・ネットワークがよく制御された学習機械であることを妨げる、逆−増殖
ニューラル・ネットワークアプローチに関する種々の問題がある。例えば、逆−
増殖ニューラル・ネットワークの重要な欠点は、経験的なリスク機能が多くの局
所的な最小を有し得ることであり、これは、この技術による発見から最適な解放
を容易に曖昧としかねない場合である。逆−増殖ニューラル・ネットワークによ
って使用される標準最適化手法は解答に収束できるが、ニューラル・ネットワー
ク方法は、局所化された最小さえ達成されることを保証できず、ましてや、所望
の全体的最小を達成することは保証できない。ニューラル・ネットワークから得
られた解決の質は多くの因子に依存する。特に、ニューラル・ネットワークを実
行する実行者の技量は、最終的な利益を決定するが、初期重量のランダムな選択
のように恐らくは良性の因子でさえ不充分な結果に導きかねない。さらに、ニュ
ーラル・ネットワーク学習で使用されるグラジエントベースの方法の収束は固有
に低い。さらなる欠点は、Ｓ字状活性化機能はスケーリング因子を有し、これは
近似の質に影響する。恐らくは、知識発見に関連するニューラル・ネットワーク
の最大の限定因子は、訓練データにおける各さらなる特徴または次元についての
計算時間およびパワーにおける比例しない成長に関連する「次元の呪い」である
。【００１２】ニューラル・ネットワークの欠点は、支持ベクトル機を用いて克服される。一
般的な用語において、支持ベクトル機は、先験的に選択された非線形マッピング
関数を介して入力ベクトルを高次元特徴空間にマップする。この高次元特徴空間
において、最適な分離超平面が構築される。次いで、最適超平面を用いて、クラ
ス分離、回帰フィット、または密度評価における精度のごとき事柄を決定する。【００１３】支持ベクトル機内で、特徴空間の次元は巨大となり得る。例えば、４次多項式
マッピング関数は、２００次元インプット空間が１６億次元特徴空間にマップさ
れるようにする。中核的トリックおよびヴァクニーク−チェルヴォネンキス（Ｖ
ａｐｎｉｋ−Ｃｈｅｒｖｏｎｅｎｋｉｓ）次元は、支持ベクトル機が、他の方法
を制限する「次元の呪い」の裏をかき、この非常に高次元の特徴空間から一般化
できる解答を効果的に引き出すことを可能とする。支持ベクトル機に向けられた
特許出願は、米国特許出願第０９／３０３，３８６号；第０９／３０３，３８７
号；第０９／３０３，３８９号；第０９／３０５，３４５号（全て、１９９９年
５月１日出願）；および２０００年５月９日に出願された米国特許出願第０９／
５６８，３０１号；および２０００年５月２４日に出願された米国特許出願第０
９，５７８，０１１号を含み、また、１９９９年１０月２７日に出願された米国
仮特許出願第６０／１６１，８０６号；１９９９年１２月２日に出願された米国
仮特許出願第６０／１６８，７０３号；２０００年２月２４日に出願された米国
仮特許出願第６０／１８４，５９６号；および２０００年３月２２日に出願され
た米国仮特許出願セリアル番号６０／１９１，２１９の利益を主張する（それら
の全てを、ここに出典明示してその全体を本明細書の一部とみなす）。【００１４】もし訓練ベクトルが最適超平面（または一般化された最適超平面）によって分
離されれば、テスト例でエラーを犯す確率の期待値は訓練セットにおける例によ
って制限される。この制限は、特徴空間の次元に依存せず、また係数のベクトル
のノルムにも依存せず、また入力ベクトルの数の制限にも依存しない。従って、
もし訓練セットのサイズに対する少数の支持ベクトルから最適超平面を構築する
ことができれば、無限次元の空間においてさえ一般化能力は高いであろう。【００１５】ゲノムおよびプロテオームテストから生じたデータは、多くの異なる観点から
解析することができる。例えば、文献は、非監督学習技術によって発見された遺
伝子クラスターの研究のごとき単純なアプローチを示す（アロン（Ａｌｏｎ），
１９９９）。また、クラスターリングは、しばしば、データの他の次元に沿って
なされる。例えば、各実験は、特定の病気を運ぶまたは運ばない一人の患者に対
応し得る（例えば、（ゴラブ（Ｇｏｌｕｂ），１９９９）参照）。この場合、ク
ラスターリングは、通常、同様の臨床的記録を持つ患者をグループとする。また
、監督学習は蛋白質の分類（ブラウン（Ｂｒｏｗｎ），２０００）および癌の分
類（ゴラブ（Ｇｏｌｕｂ），１９９９）に適用されている。【００１６】支持ベクトル機は、膨大な量の入力データから知識を発見する問題に対して望
ましい解決を提供する。しかしながら、データセットから知識を見出す支持ベク
トル機の能力は、訓練データセット内に含まれる情報に比例して制限される。従
って、訓練データを増加させて、支持ベクトル機による知識発見を最大化するよ
うなデータ前処理のためのシステムおよび方法に対する要望が存在する。【００１７】さらに、支持ベクトル機からの生の出力は、最も容易に解釈できる形態で知識
を十分に開示することができない。かくして、さらに、ヒトについてデリバーさ
れた情報の価値またはさらなる自動処理を最大化するために、支持ベクトル機か
らのデータ出力を後処理するシステムおよび方法に対する要望がさらに存在する
。【００１８】加えて、データから知識を発見する支持ベクトル機の能力は中核の選択によっ
て制限される。従って、支持ベクトル機のための所望の中核を選択しおよび／ま
たは創製するための改良されたシステムおよび方法に対する要望が存在する。【００１９】プロテオミックスおよびゲノミックスの研究によって生じたデータベースに含
まれる情報を操作するのに用いることができる方法、システムおよびデバイスも
やはり要望されている。また、生物学的情報のゲノミック、プロテオミックおよ
び伝統的源からの情報を集積できるシステムおよびデバイスが要望される。その
ような情報は、病気の診断および予測ならびに生物学的および他のシステムの他
の変化で必要である。【００２０】さらに、必要とされるのは、支持ベクトル機によって同定される病気および生
物学的系の他の変化を処置するための方法および組成物である。一旦データ間の
パターンまたは関係が本発明の支持ベクトル機によって同定され、それを用いて
特定の病気状態を検出または予測するならば、必要なのは、遺伝子チップを含め
た診断テスト、および体液または体の変化のテスト、ならびに疾患を治療するた
めの方法および組成物である。【００２１】（発明の概要）本発明は、一般に学習機械、特に支持ベクトル機を用いてデータから発見され
る知識を増強するためのシステムおよび方法を含む。特に、本発明は、病気のご
とき生物学的系における変化を診断し予測するために学習機械を用いる方法を含
む。さらに、一旦データから発見された知識が決定されれば、発見された具体的
関係を用いて、病気を診断し予測し、そのような病気を検出し治療する方法が生
物学的系に適用される。【００２２】本発明の１つの実施形態は、訓練データセットを前処理して、学習機械の最も
有利な適用を可能とすることができる。各訓練データポイントは、１以上の座標
を有するベクトルを含む。訓練データセットを前処理することは、失われたまた
は誤ったデータポイントを同定し、適切なステップをとって、誤ったデータを修
正するか、または適当であれば問題の範囲から観察または全分野を除去すること
を含むことができる。また、訓練データセットを前処理することは、１以上の新
しい座標をベクトルに付加することによって各訓練データポイントに次元を付加
することを含み得る。ベクトルに付加された新しい座標は、元の座標の１以上に
変換を適用することによって誘導することができる。変換は専門家の知識に基づ
くことができるか、または計算により誘導することができる。訓練データセット
が連続変数を含む状況においては、変換は、訓練データセットの連続変数を最適
にカテゴリー分けすることを含み得る。【００２３】好ましい実施形態において、支持ベクトル機は、前処理された訓練データセッ
トを用いて訓練される。このように、前処理によって提供された訓練データのさ
らなる表示は、それから知識を発見する学習機械の能力を増強することができる
。支持ベクトル機の特別の文脈において、訓練セットの次元が大きくなれば、そ
れから誘導できる一般化の質が高くなる。データから発見されるべき知識が回帰
または密度評価に関連するか、あるいは訓練出力が連続変数を含むと、訓練出力
は、訓練出力を最適にカテゴリー分けして、連続変数からカテゴリー化を誘導す
ることによって後処理することができる。【００２４】テストデータセットは、訓練データセットと同様に前処理される。次いで、前
処理されたテストデータセットを用いて、訓練された学習機械をテストする。訓
練された学習機械のテスト出力を後処理して、テスト出力が最適な解決であるか
を判断する。テスト出力を後処理することは、テストデータセットと比較するこ
とができるフォーマットにテスト出力を解釈することを含む。別の後処理ステッ
プは、出力データの更なる処理のためのヒトの解釈性または適当性を増強するこ
とができる。【００２５】支持ベクトル機の文脈において、本発明は、支持ベクトル機を訓練するに先立
っての少なくとも１つの中核の選択を提供する。中核の選択は、アドレスされる
特定の問題の従前の知識または学習機械で使用されるべきいずれかの利用可能な
データの特性の解析に基づくことができ、それは、典型的には、データから発見
されるべき知識の性質に依存する。所望により、後処理された訓練出力またはテ
スト出力を比較する対話形式プロセスを適用して、いずれの配置が最適解決を提
供するかに関する判断をなすことができる。もしテスト出力が最適な解決でない
ならば、知識の選択を調整することができ、支持ベクトル機を再度訓練し、再度
テストすることができる。最適解決が同定されたと判断されれば、訓練データセ
ットを同様に、生データセットを収集し、前処理することができる。前処理され
た生データセットは、処理のために学習機械に入力される。学習機械の生出力を
、次いで、生出力を計算により誘導される英数字分類器またはＳＶＭ由来解答の
さらなる利用に適した他の形態に解釈することによって後処理することができる
。【００２６】例示的な実施形態において、支持ベクトル機を用いてデータから発見された知
識を増強するシステムが提供される。該例示的システムは、訓練データセットお
よびテストデータセットを記憶するための記憶デバイス、および支持ベクトル機
を実行するためのプロセッサを含む。また、該プロセッサは、データベースから
訓練データセットを収集し、訓練データセットを前処理して、複数の訓練データ
ポイントの各々を増強させ、前処理訓練データセットを用いて支持ベクトル機を
訓練し、データベースからテストデータセットを収集し、訓練データセットと同
様にテストデータセットを前処理し、前処理されたテストデータセットを用いて
訓練された支持ベクトル機をテストし、訓練された支持ベクトル機のテスト出力
の受領に応答して、テスト出力を後処理して、テスト出力が最適な解決であるか
を判断するために操作することができる。また、例示的システムは、遠隔源から
のテストデータセットおよび訓練データセットを受領するための通信デバイスも
含むことができる。そのような場合、プロセッサを操作して、訓練データセット
を、訓練データセットの記憶デバイス先行前処理に記憶し、テストデータセット
を、テストデータセットの記憶デバイス先行前処理に記憶することができる。ま
た、例示的システムは、後処理したテストデータを表示するための表示デバイス
も含むことができる。例示的システムのプロセッサは、さらに、前記した各さら
なる機能を実行するための操作することができる。通信デバイスをさらに操作し
て、コンピューター由来の英数字分類器または他のＳＶＭベースの生のまたは後
処理した出力データを遠隔源に送ることができる。【００２７】例示的な実施形態において、特に一般的かつ複数の支持ベクトル機において複
数の学習機械を用いてデータからの知識発見を増強するためのシステムおよび方
法が提供される。学習機械のための訓練データを前処理して、それに意味を付加
する。予備処理データは、データポイントを変換しおよび／またはデータポイン
トを拡大することを含み得る。データに意味を付加することによって、学習機械
に、処理のための多量の情報が供給される。特に支持ベクトル機に関しては、処
理される情報の量が大きくなれば、誘導することができるデータについての一般
化が良好となる。各々が区別される中核を含む複数の支持ベクトル機は、予備処
理された訓練データで訓練され、同様に前処理されるテストデータでテストされ
る。複数の支持ベクトル機からのテスト出力を比較して、テスト出力のいずれが
もしあれば最適な解決を表すかを決定する。１以上の中核の選択は調整すること
ができ、１以上の支持ベクトル機を再度訓練し再度テストすることができる。最
適な解決が達成されたと決定されれば、生データを前処理し、最適な解決を生じ
た中核を含む支持ベクトル機に入力する。次いで、ヒトまたはコンピューター自
動プロセスによって解釈のためのコンピューター誘導英数字分類器に、学習機械
からの生出力を後処理することができる。【００２８】もう１つの例示的な実施形態において、連続的変数を最適にカテゴリー化する
ためのシステムおよび方法が提供される。連続的変数を表すデータセットは、各
々が連続的変数からの試料およびクラス識別子を含むデータポイントを含む。デ
ータセット内の多数の区別されるクラス識別子が決定され、多数の候補ビンが、
試料の範囲およびデータセット内の試料の精度のレベルに基づいて決定される。
各候補ビンは試料のサブ範囲を表す。各候補ビンについては、候補ビン内に入る
データポイントのエントロピーを計算する。次いで、最小化集合エントロピーを
有する候補ビンの各配列については、試料の範囲中のカットオフポイントは、候
補ビンの配列中の最後の候補ビンの境界にあると定義される。対話形式プロセス
として、順次の候補ビンの異なる組合せについての集合エントロピーは計算する
ことができる。【００２９】また、規定されたカットオフポイントの数を調整して、最小エントロピーの計
算に基づくカットオフポイントの最適数を決定することができる。前記したごと
く、連続的変数を最適にカテゴリー化するための例示的システムおよび方法は、
学習機械に入力すべきデータを前処理するのに、および学習機械の出力を後処理
するのに用いることができる。【００３０】さらにもう１つの例示的な実施形態において、分布したネットワーク環境中で
一般に学習機械および特に支持ベクトル機を用いてデータからの知識発見を増強
するためのシステムおよび方法が提供される。顧客は、分布したネットワークを
介して、遠隔源から訓練データ、テストデータおよび生データをベンダーのサー
バに伝達することができる。また、顧客は、ユーザーの氏名、パスワード、およ
び金融口座アンデンティファイアーのごとき同定情報をサーバに伝達することも
できる。訓練データ、テストデータおよび生データは記憶デバイスに記憶するこ
とができる。次いで、訓練データを前処理して、それに意味を付加することがで
きる。前処理データは、データポイントを変換しおよび／またはデータポイント
を拡大することを含むことができる。データに意味を付加することによって、学
習機械には、処理のためにより多量の情報が備わる。特に支持ベクトル機に関し
ては、処理される情報の量が大きくなれば、誘導することができるデータについ
ての一般化は良好となる。従って、学習機械は前処理された訓練データで訓練さ
れ、同様に前処理されるテストデータでテストされる。学習機械からのテスト出
力を後処理して、テストデータから発見された知識が望ましいかを決定する。後
処理は、テストデータと比較することができるフォーマットにテスト出力を解釈
することを含む。生データを前処理し、訓練されたかつテストされた学習機械に
入力される。次いで、学習機械からの生出力を、ヒトまたはコンピューター自動
プロセスによって解釈のためのコンピューターにより誘導された英数字分類器に
後処理されることができる。英数字分類器を分布ネットワークを介して顧客に伝
達するに先立って、サーバは、金融口座アンデンティファイアーによって同定さ
れた顧客の金融口座から資金を受領する目的で金融機関と連絡するように作動す
ることができる。【００３１】（詳細な説明）本発明は、学習機械を用いてデータから知識を発見するための方法、システム
およびデバイスを提供する。特に、本発明は、生物学的システムにおける変化に
関する情報が提供される学習機械を用いてデータからの知識発見のための方法、
システムおよびデバイスに指向される。より詳しくは、本発明は、病気のごとき
生物学的システムにおける変化を診断し、予測するためのかかる知識の使用の方
法を含む。加えて、本発明は、それらの個々の生物学的システムにおける変化を
持つ個体のテストおよび処理にそのような知識を適用するための方法、組成物お
よびデバイスを含む。【００３２】本明細書中で用いる、「生物学的データ」は、微生物、ウイルス、植物および
他の生きた生物を含めたヒト、動物または他の生物学的生物の生物学的状態を測
定することに由来するいずれのデータをも意味する。該測定は、物理学者、科学
者、診断学者等に知られたいずれかのテスト、アッセイまたは観察によってなす
ことができる。生物学的データは、限定されるものではないが、臨床試験および
観察、物理的および科学的測定、ゲノム決定、プロテオミック決定、薬物レベル
、ホルモンおよび免疫学的テスト、神経化学または神経物理学測定、ミネラルお
よびビタミンレベル決定、遺伝的および家系的履歴およびテストを受けつつある
個人または複数個人の状態に対する洞察を与えることができる他の測定を含むこ
とができる。ここに、用語「データ」の使用は「生物学的データ」と相互交換的
に使用される。【００３３】学習機械のいくつかの例が存在し、進歩がこの分野で予測されているが、本発
明の例示的な実施形態は支持ベクトル機に焦点を当てる。当該分野で知られてい
るごとく、学習機械は、公知の結果が伴うデータを用いて一般化するのに訓練す
ることができるアルゴリズムを含む。次いで、訓練された学習機械アルゴリズム
を、予測のための未知の結果の場合に適用することができる。例えば、学習機械
を訓練して、データ中のパターンを認識し、データ中の回帰を評価し、またはデ
ータ内の確率密度を評価することができる。学習機械を訓練して、当業者に知ら
れた非常に多様な問題を解くことができる。訓練された学習機械は、所望により
、テストデータを用いてテストして、その出力がエラーの許容される境界内で有
効化されることを保証する。一旦学習機械が訓練され、テストされれば、生デー
タをその中に入力することができる。学習機械の生出力は、生データに適用され
た訓練データの全てから発見された知識を含む。【００３４】本発明は、生物学的データ、遺伝子、転写および翻訳産物および蛋白質の調査
によって生じたごときデータで見いだされるパターンを解析するための方法、シ
ステムおよびデバイスを含む。ゲノム情報は、ゲノム断片および相補的核酸また
は相互作用蛋白質のハイブリダイゼーション反応によって生じたパターン中で見
いだすことができる。そのようなゲノムまたは核酸の相互作用を調査するための
最も最近のツールの１つはＤＮＡ遺伝子チップまたはマイクロアレイである。マ
イクロアレイは、数千の核酸の相互作用の処理を可能とする。ＤＮＡマイクロア
レイは、研究者が１つの実験で数千の遺伝子をスクリーニングするのを可能とす
る。例えば、マイクロアレイは小さなスライドガラス上に２４００の遺伝子を含
有することができ、それを用いて、試料中のＤＮＡまたはＲＮＡの存在を測定す
ることができる。そのようなマイクロアレイは、腫瘍生物学、神経科学、シグナ
ル変換、転写調節、およびサイトカインおよび受容体の実験を含めた基本的研究
およびバイオメディカル研究で用いることができる。加えて、医薬薬物発見、標
的同定、リード最適化、薬物動態学、ファルマコゲノミックスおよび診断剤のた
めの適用もある。マイクロアレイの技術のための市場は１９９９年にはほぼ９８
００万ドルであり、多数のマイクロアレイテストから開発されたデータベースで
生じ、そこに記憶されたデータの量は膨大である。本発明は、病気の診断および
予後のための、および病気を治療するための治療剤の開発のための、そのような
マイクロアレイおよび核酸チップテストで生じたデータを用いることができる方
法、システムおよびデバイスを提供することができる。【００３５】また、本発明は、生物学的システムにおける特異的変化を診断または予測する
のに用いることができる特異的配列同定プローブを備えたマイクロアレイを含む
デバイスを含む。一旦、本発明の学習機械が、生物学的システムにおける変化を
診断または予測できるデータの中で特異的関係を同定すれば、特異的デバイスは
それらの特異的関係についてテストを取り込む。例えば、本発明の学習機械は、
腫瘍の存在または出現のごとき、生物学的システムにおける変化の存在または将
来の発生に関係する特異的遺伝子を同定する。これらの遺伝子の配列を知ること
は、それらの同定された遺伝子についての特異的訓練デバイスの作成を可能とす
る。例えば、ＤＮＡ、ＲＮＡまたは特異的結合蛋白質を含む核酸チップ、または
特異的に同定された遺伝子に特異的に結合するいずれかのそのような組合せを用
いて、特定の腫瘍を有する個体または腫瘍を発生する尤度を容易に同定する。加
えて、学習機械によって同定された、または学習機械によって同定された遺伝子
に関連する特異的蛋白質は、同定された蛋白質、遺伝子産物あるいは蛋白質また
は遺伝子産物に向けられた抗体または抗体断片を特異的に検出することに向けら
れた血清学的テストを用いるためにテストすることができる。そのようなテスト
は限定されるものではないがチップ上の抗体マイクロアレイ、ウエスタンブロッ
ティングテスト、ＥＬＩＳＡ、および当該分野で知られた他のテストを含み、こ
こに、特異的結合パートナーの間の結合はパートナーのうちの１つの検出のため
に用いられる。【００３６】さらに、本発明は、生物学的システムにおける変化に由来する疾患を治療して
、または生物学的システムを処理して、生物学的システムを改変して特異的疾患
を予防または増強するための方法および組成物を含む。例えば、もし個体の診断
が腫瘍の検出を含むならば、該個体は化学療法組成物のごとき抗腫瘍医薬で治療
することができる。もし個体の診断が腫瘍発生の素因または予後を含むならば、
該個体を化学療法組成物で予防的に処置して、腫瘍の発生を防止することができ
る。もし特異的遺伝子が腫瘍の発生を持って同定されれば、該個体は特異的アン
チセンスまたは他の遺伝子治療方法で処置して、そのような遺伝子の発現を抑制
することができる。加えて、もし特異的遺伝子または遺伝子産物が腫瘍の発生を
伴って同定されれば、遺伝子または遺伝子産物を阻害または機能的に実行する特
異的組成物が該個体に投与される。本明細書中に記載した例は単に例示であって
、本発明の範囲を限定するものと解釈されるべきではない。【００３７】プロテオミック調査は、正常および病理学的状態に関与する蛋白質を測定する
方法を提供する。いずれかの特定の時点または段階にある個人または集団のプロ
テオームを測定する現在の方法は、ゲル電気泳動を用いて試料中の蛋白質を分離
することを含む。好ましくは、２−Ｄゲル電気泳動を用いて、蛋白質をより完全
に分離する。加えて、試料を前処理して、既知の蛋白質を除去することができる
。蛋白質は、例えば、蛍光色素で標識して、選択されたプロテオームによって生
じたパターンの決定で援助することができる。分離された蛋白質のパターンは、
本発明の学習機械を用いて解析することができる。ゲルイメージの捕獲は、デン
シオメトリー、ＣＣＤカメラおよびレーザースキャンニングおよび記憶ホスフォ
ル装置のごとき当該分野で知られたイメージ技術方法によって達成することがで
きる。ゲルの解析は、病理学的状態の診断および予後で重要であり、治療介入に
関連する変化を示すプロテオーム中のパターンを明らかとする。【００３８】プロテオームを調査するさらなるステップは、ゲル中の特異的部位における蛋
白質の単離を含む。特異的部位を単離するためのロボットシステムは現在利用で
きる。単離に続いて配列を決定し、かくして、蛋白質が同定される。個体または
集団のプロテオームの研究は、膨大な量のデータの創製、捕獲、解析および一体
化を含む。自動化は現在用いられつつあって、データ創製に必要な物理的操作を
管理するのを助ける。本発明の学習機械を用いて、発生した生物学的データを解
析し望まれる情報を提供する。【００３９】加えて、チップ検出デバイスのごとき検出デバイスの修飾を用い、生物学的デ
ータの大きな生ラリーを創製することができる。生ラリーを創製する方法は、そ
れらのｍＲＮＡに共有結合連結した蛋白質を用いて、例えば、稀にしか翻訳され
ない蛋白質のごとき作成された蛋白質を決定する技術を含む。そのような技術は
、イン・ビトロでｍＲＮＡを翻訳し、翻訳された蛋白質をｍＲＮＡに共有結合付
着させることを含む。ｍＲＮＡ、かくして蛋白質の配列は、ＰＣＲのごとき増幅
方法を用いて決定される。１０¹⁴ないし１０¹⁵のメンバーを含有する生ラリーが
このデータから確率することができる。これらの生ラリーを用いて、受容体に結
合するペプチドを測定することができるか、またはそれらの標的に貪欲に結合す
る抗体を含有する抗体生ラリーを開発することができる。【００４０】蛋白質ドメイン生ラリーと呼ばれる生ラリーは細胞ｍＲＮＡから創製すること
ができ、ここに、全蛋白質は翻訳されないが、断片が配列決定される。これらの
生ラリーを用いて、蛋白質の機能を測定することができる。【００４１】プロテオームを調査する他の方法はゲル電気泳動を用いない。例えば、マスス
ペクトロフォトメトリーを用いて、蛋白質プロフィールにおける変化の目録を作
り、正常または病気の組織あるいは感染剤における核酸配列を規定して、薬物お
よび診断標的を同定し、有効化することができる。このデータの解析は本発明の
方法、システムおよびデバイスによって達成される。さらに、酵母および細菌系
で現在見いだされている、それらが相互作用する蛋白質を捕獲するために蛋白質
を用いる２−ハイブリッドおよび２＋１ハイブリッドシステムのごとき技術は、
ゲノム−幅蛋白質相互作用マップ（ＰＩＭ）を生じる。ＰＩＭのごとき情報の大
きな生ラリーは本発明によって操作することができる。【００４２】特異的蛋白質または蛋白質のタイプを分離し、または同定するのに用いること
ができる抗体チップは開発されている。加えて、ファージ抗体生ラリーを用いて
、蛋白質の機能を測定することができる。注目するオープンリーディングフレー
ム（ＯＲＦＳ）またはＥＳＴ（発現された配列タグ）につきゲノミック生ラリー
をサーチすることができ、配列から、ペプチドが合成される。異なる遺伝子につ
いてのペプチドが、ファージ生ラリーからの抗体の選択のために９６ウェルトレ
イ中に置かれる。次いで、該抗体を用いて、正常および病気の組織の切片中の元
のＯＲＦまたはＥＳＴに関連する蛋白質を位置決定する。【００４３】本発明を用いて、生物学的機能への調査の複数の段階において生じた生物学的
データを解析し、さらに、新規な診断および予後決定のための異なる種類のデー
タを一体化させることができる。例えば、診断テストデータ、家族または遺伝的
履歴、依然のまたは現在の医療処置のごとき臨床的ケースの情報、およびそのよ
うな活動の臨床的結果から得られた生物学的データは、本発明の方法、システム
およびデバイスで利用することができる。加えて、病気の組織または流体および
正常な組織および流体のごとき臨床的試料、ならびに細胞の分離は、本発明で利
用することができる生物学的データを提供することができる。２−Ｄゲル、マス
スペクトロフォトメトリーおよび抗体スクリーニングのごときプロテオミック決
定を用いて、本発明によって利用できるデータベースを確立することができる。
また、ゲノミックデータベースは、単独で、または前記したデータおよび本発明
によるデータベースと組み合わせて使用して、包括的な診断、予後または予測能
力を本発明のユーザーに提供することができる。【００４４】本発明の第一の態様は、データを用いるに先立ってデータを所望により前処理
して、学習機械を訓練しおよび／または学習機械からの出力を所望により後処理
することによって知識発見を増強することを求める。一般的に言えば、データを
前処理することは、データを再度フォーマット化または増加させて、学習機械が
最も有利に適用されるのを可能とすることを含む。同様に、後処理は、学習機械
の出力を解釈して、その意味のある特徴を発見することを含む。出力から確認さ
れるべき意味のある特徴は問題またはデータ特異的であり得る。後処理は、ヒト
によって理解できる形態、またはコンピューターによって理解できる形態に出力
を解釈することを含む。【００４５】以下、本発明の例示的な実施形態を図面を参照して記載し、いくつかの図面を
通じて同様の数字は同様のエレメントを示す。図１は、学習機械を用いて知識発
見を増強するための一般的方法１００を説明するフローチャートである。該方法
１００は開始ブロック１０１で始まり、ステップ１０２に進み、そこで、機械学
習を通じての知識発見の適用のために特異的問題が公式化される。特に重要なの
は、学習機械の所望の出力の適切な処方である。例えば、個々のエクイティイン
ストゥルメントまたは市場指標の将来の業績を予測するにおいて、将来の価格レ
ベルを予測するよりもむしろ期待される将来の変化を予測する場合、学習機械は
良好な業績を達成するようである。将来の価格予測は、後に、本明細書中で後記
するごとく後処理ステップで誘導することができる。【００４６】問題の公式化後に、ステップ１０３は訓練データ収集に向けられる。訓練デー
タは、公知の特徴を有するデータポイントのセットを含む。訓練データは１以上
の局所および／または遠隔源から収集することができる。訓練データの収集は、
主導により、公知のエレクトロニックデータ移動方法のごとき自動化プロセスに
よって達成することができる。従って、本発明の例示的な実施形態はネットワー
ク化コンピューター環境で実行することができる。本発明の種々の実施形態を実
行するための例示的操作環境を図１０−１２に関して詳細に記載する。【００４７】次に、ステップ１０４として、収集された訓練データは所望により前処理され
て、学習機械が、訓練データに固有の知識の抽出に最も有利に適用されることを
可能とする。この前処理段階の間に、訓練データは、所望により、個々のまたは
複数の測定の変換、組合せまたは操作を通じて訓練データの記録内に拡大するこ
とができる。本明細書中で用いるごとく、データを拡大することは、利用できる
観察の数を変化させて各入力ポイントを決定することによって、入力データの次
元を変更することを言うことを意味する（別法として、これはデータベース表内
の欄を付加しまたは消去すると記載することができる。）説明の方法として、デ
ータポイントは座標（１，４，９）を含むことができる。このデータポイントの
拡大バージョンは座標（１，１，４，２，９，３）をもたらすことができる。こ
の例において、拡大データポイントに付加された座標は、元の座標の二乗根変換
に基づくことがわかるであろう。データポイントに次元を付加することによって
、この拡大データポイントは、学習機械による知識発見に潜在的に意義のある入
力データの変化させた表示を提供する。この意味でのデータ拡大は、学習機械が
、非拡大訓練データでは容易には明らかでない知識を発見する機会を与える。【００４８】データを拡大することは、いずれかのタイプの意味のある変換をデータに適用
し、それらの変換を元のデータに付加することを含むことができる。変換が意味
があるか否かを決定するための基準は、入力データそれ自身および／またはデー
タから求められる知識のタイプに依存するであろう。データ変換の例示的タイプ
は：専門家情報の付加；標識；二元変換；サイン、コサイン、タンジェント、コ
タンジェントおよび他の三角法変換；クラスタリング；スケーリング；確率およ
び統計解析；有意性テスト；強度テスト；２−Ｄ規則性についてのサーチ；ヒド
ゥン・マルコフ・モデリング（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｉｎｇ
）；同等関係の同定；コンティンジェンシー表の適用；グラフ理論原理の適用；
ベクトル地図の創製；多項式および他の代数変換の足し算、引き算、掛け算、割
り算、適用；比例性の同定；識別力決定等を含む。医療データの文脈では、潜在
的に意味のある変換は：既知の標準的医療参照範囲との関連；生理学的切断；生
理学的組合せ；生理学的組合せ；発見的規則の適応；診断基準決定；臨床的重み
づけシステム；診断変換；臨床変換；専門家知識の適応；標識技術；他のドメイ
ン知識の適応；バイエジアン（Ｂａｙｅｓｉａｎ）ネッワーク知識等を含む。こ
れらおよび他の変換、ならびにその組合せは当業者に思い浮かぶであろう。【００４９】また、当業者であれば、データ変換はデータポイントに次元を付加する事なく
実行できることを認識するはずである。例えば、データポイントは座標（Ａ，Ｂ
，Ｃ）を含むことができる。このデータポイントの変換バージョンの結果、座標
（１，２，３）を得ることができ、ここに、座標「１」は座標「Ａ」といくつか
の既知の関係を有し、座標「２」は座標「Ｂ」といくつかの既知の関係を有し、
および座標「３」は「Ｃ」といくつかの既知の関係を有する。文字から数字への
変換は、例えば、もし文字が学習機械によって理解されなければ必要であろう。
他のタイプの変換は、元来数字形態であるデータに関してさえ、データポイント
に次元を付加する事なく可能である。さらに、データを前処理してそれに意味を
付加することは、不完全な、崩れたまたは他の「汚損した」データを解析するこ
とを含むことができる。学習機械は「汚損した」データを意味のあるように処理
することはできない。かくして、前処理ステップは、データセットを清浄して汚
損したデータポイントを除去し、修復または置換することを含むことができる。【００５０】図１を参照し、例示的方法１００はステップ１０６において継続し、そこで、
前処理されたデータを用いて学習機械が訓練される。当該分野で知られているご
とく、学習機械は、所望の訓練出力が達成されるまでその操作パラメーターを調
整することによって訓練される。訓練出力が望ましいか否かの決定は、手動で、
または訓練出力を訓練データの公知の特徴と比較することによって自動的に達成
することができる。学習機械は、その訓練出力が訓練データの公知の特徴からの
所定の誤差閾値内にある場合に訓練されたと考えられる。ある状況では、もし必
要でなければ、ステップ１０７において学習機械の訓練出力を後処理するのが望
ましいであろう。述べたごとく、学習機械の出力を後処理ことは、出力を意味の
ある形態に解釈することを含む。回帰問題の文脈では、例えば、学習機械の出力
についての範囲カテゴリー化を決定して、入力データポイントが正しくカテゴリ
ー化されたかを決定するのが必要であろう。パターン認識問題においては、しば
しば、学習機械の訓練出力を後処理する必要はない。【００５１】ステップ１０８において、テストデータは、所望により、訓練された学習機械
をテストするために調製に収集される。テストデータは、１以上の局所および／
または遠隔源から収集することができる。現実的には、テストデータおよび訓練
データは同時に同一源から収集することができる。かくして、テストデータおよ
び訓練データセットは共通のデータセットから分割することができ、学習機械用
の異なる入力データセットとして用いるために局所記憶媒体に記憶することがで
きる。どのようにテストデータが収集されるかにかかわらず、用いるいずれのテ
ストデータも、訓練データと同様にステップ１１０において前処理されなければ
ならない。当業者に明らかなごとく、学習の適切なテストは、訓練データと同一
のフォーマットのテストデータを用いることによって達成することができる。次
いで、ステップ１１２において、もしあれば前処理テストデータを用いて学習機
械をテストする。学習機械のテスト出力は、所望によりステップ１１４で後処理
して、結果が望ましいかを決定する。再度、後処理ステップは、テスト出力を意
味のある形態に解釈することを含む。意味のある形態は、人によって理解できる
形態、またはコンピューターによって理解できる形態で有り得る。それにもかか
わらず、テスト出力は、テストデータと比較して、結果が望ましいか否かを決定
することができる形態に後処理されなければならない。後処理ステップの例は、
限定されるものではないが、以下の；最適カテゴリー化決定、スケーリング技術
（線形および非線形）、変換（線形および非線形）、確率評価を含む。方法１０
０はステップ１１６で終了する。【００５２】図２は、支持ベクトル機（ＳＶＭ）として知られている特定タイプの学習機械
を用いて発見することができる知識を増強するための例示的方法２００を示すフ
ローチャートである。ＳＶＭは、データの限定された収集からの多次元機能を評
価する場合に一般化を提供するための特殊化されたアルゴリズムを実行する。Ｓ
ＶＭは、依存性評価の問題を解決するのに特に有用であろう。より具体的には、
ＳＶＭは、インジケーター機能（例えば、パターン認識問題）およびリアル−バ
リュード機能（例えば、機能近似問題、回帰評価問題、密度評価問題、および解
決逆問題）を評価するにおいて正確に用いることができる。ＳＶＭの基礎となる
概念は、出典明示してその全体を本明細書の一部とみなす、Ｓｔａｔｉｓｔｉｃ
ａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙと題されたＶｌａｄｉｍｉｒＮ．Ｖ
ａｐｎｉｋｖによる書籍（Ｊｏｈｎ，Ｗｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．
１９９８）に詳細に説明されている。従って、ＳＶＭおよびそれに関して用いら
れる用語に対する精通は本明細書を通じて仮定される。【００５３】支持ベクトル機は１９９２年に導入され、「中核トリック」が記載された。Ｂ
ｏｓｅｒ，Ｂ．ら，ＦｉｆｔｈＡｎｎａｌＷｏｒｋｓｈｉｐｏｎＣｏｍ
ｐｕｔａｔｉｏｎａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，ｐ１４４−１５２，
Ｐｉｔｔｓｂｕｒｇｈ，ＡＣＭ参照。訓練パターンおよび決定境界の間のマージ
ンを最大化する訓練アルゴリズムが提示された。該技術は、Ｐｅｒｃｅｐｔｒｏ
ｎｓ、多項式およびラジアル・ベーシス（ＲａｄｉａｌＢａｓｉｓ）機能を含
めた広く種々の分類機能に適用することができた。有効数のパラメーターが、問
題の複雑性にマッチするように自動的に調整された。解決は、支持パターンの非
直線組合せとして表現された。これらは、決定境界に最も近い訓練パターンのサ
ブセットである。リーブ−ワン−アウト方法およびＶＣ−寸法に基づく一般化業
績についての制限が与えられる。光学特徴認識問題についての実験結果は、他の
学習アルゴリズムと比較した場合に得られた良好な一般化を示す。【００５４】支持ベクトルを用いるパターン認識システムは、出典明示してその全体を本明
細書の一部とみなす米国特許第５，６４９，０６８号に開示された。該特許には
、決定システムのデザインにデュアル表示数学原理が用いられた方法が記載され
ている。この原理は、メモリー・ベースの決定機能として表されるべきあらかじ
め規定された機能の重みづけされた合計であるいくつかの決定機能を可能とする
。この原理を用い、最適マージンを持つメモリー・ベースの決定システムがデザ
インされ、ここに、メモリー・ベースの決定機能の訓練パターンの重みおよびプ
ロトタイプは、対応するデュアル決定機能がマージン最適性の基準を満足するよ
うに決定された。【００５５】例示的方法２００は開始ブロック２０１で開始され、ステップ２０２まで進み
、そこで、問題が公式化され、ついで、ステップ２０３に進み、そこで、訓練デ
ータセットが収集される。図１を参照して記載したごとく、訓練データは、手動
または自動プロセスを通じて、１以上の局所および／または遠隔源から収集する
ことができる。ステップ２０４において、訓練データは所望により前処理される
。再度、データを前処理することは、データを清浄化し、データを変換し、およ
び／またはデータを拡大することによって、訓練データ内の意味を増強すること
を含む。当業者であれば、ＳＶＭは極端に大きな次元を有する入力データを処理
することができるのを認識するはずである。事実、入力データの次元が大きくな
れば、良好な一般化をＳＶＭが計算することができる。しかしながら、前処理を
通じて入力スペースの次元を単に増加させることは、ＳＶＭでの良好な一般化を
保証しない。しかしながら、実質的に入力スペース次元を増加させる聡明な前処
理は、ニューラル・ネットワークおよび伝統的な統計モデルとは異なりＳＶＭで
首尾よくモデル化することができる。より高次元のデータを取り扱う能力は、し
ばしば、良好でより一般化されたモデルに至ることができる。したがって、訓練
データを拡大しない訓練データ変換が可能であるが、ＳＶＭの特別の文脈では、
意味のある情報をそれに付加することによって訓練データが拡大されるのが好ま
しい。【００５６】ステップ２０６において、中核がＳＶＭについて選択される。当該分野で知ら
れているごとく、異なる中核は、ＳＶＭが、入力データの所与のセットにつき出
力における種々の程度の品質を生じさせるようにするであろう。従って、適当は
中核の選択はＳＶＭの出力の所望の品質に必須であろう。本発明の１つの実施形
態において、以前の性能知識に基づいて中核を選択することができる。当該分野
で知られているごとく、例示的中核は多項式中核、半径ベース機能中核、線状中
核などを含む。別の実施形態において、特定の問題またはデータセットのタイプ
に特異的にカスタマイズされた中核を創製することができる。さらにもう１つの
実施形態において、複数のＳＶＭを訓練し、同時にテストすることができ、各々
は異なる中核を用いる。種々の選択可能なまたは荷重したメトリックスを用いて
（ステップ２２２参照）、各々同時に訓練されテストされたＳＶＭについて出力
の品質を比較して、最も望ましい中核を決定することができる。【００５７】次に、ステップ２０８において、前処理した訓練データがＳＶＭに入力される
。ステップ２１０において、前処理した訓練データを用いてＳＶＭを訓練して、
最適な超平面を創製する。所望により、次いで、ＳＶＭの訓練出力をステップ２
１１で後処理することができる。再度、訓練出力の後処理は望ましく、または必
要であってさえ、後処理は、この時点では、出力についての範囲またはカテゴリ
ーを適切に計算するのに望ましい、または必要でさえあろう。ステップ２１２に
おいて、データ収集の先の記載と同様にテストデータを収集する。前記訓練デー
タと同様に、テストデータをステップ２１４で前処理する。次いで、ステップ２
１６で、前処理されたテストデータを処理のためにＳＶＭに入力して、ＳＶＭが
望ましいように訓練されたか否かを決定する。テスト出力がステップ２１８にお
いてＳＶＭから受領され、所望により、ステップ２２０において後処理される。【００５８】後処理されたテスト出力に基づき、ステップ２２２において、最適な最大がＳ
ＶＭによって達成されたかを決定する。当業者であれば、ＳＶＭは、全体的最小
誤差を有する出力を確認するように操作できることを認識すべきである。しかし
ながら、前記したごとく、所与のデータセットについてのＳＶＭの出力結果は、
典型的には、中核の選択に関して変化するであろう。従って、事実、データの与
えられたセットについてのＳＶＭによって確認することができる複数の全体的最
小がある。本明細書中で用いるごとく、用語「最適な最小」または［最適な解決
」とは、ＳＶＭによって確認された他の全体的最小と比較した場合に最適である
と考えられる選択された全体的最小をいう（例えば、問題特異的な予め確立され
た基準の所与のセットについての最適な解決）。従って、ステップ２２２におい
て、最適な最小が確認されたか否かを決定することは、ＳＶＭの出力を履歴また
は所定の値と比較することを含むことができる。そのような所定の値はテストデ
ータセットに依存し得る。例えば、データポイントが、ＳＶＭによって、ある特
徴を有する、あるいは該特徴を有しないとして分類されるパターン認識問題の文
脈においては、５０％の全体的最小誤差は最適でないであろう。この例において
は、５０％の全体的最小は、偶然に達成されるであろう結果よりも良好ではない
。もう１つの例として、複数のＳＶＭが訓練され、種々の中核で同時にテストさ
れる場合において、各ＳＶＭについての出力を各他のＳＶＭの出力と比較して、
中核のその特定のセットについての現実的な最適解決を決定することができる。
最適な解決が確認されたか否かの決定は、手動で、あるいは自動比較プロセスを
通じて行うことができる。【００５９】もし訓練されたＳＶＭによって最適な最小が達成されなかったと決定されれば
、当該方法はステップ２２４まで進み、そこで、中核選択が調整される。中核選
択の調整は、１以上の新しい中核を選択するか、または中核パラメーターを含む
ことができる。さらに、複数のＳＶＭを訓練し、同時にテストする場合において
、他の中核は対照目的で再度使用することができるが、選択された中核は置き換
えるかまたは修飾することができる。中核選択が調整された後、方法２００はス
テップ２０８から反復され、ここに、以前に前処理された訓練データが訓練目的
でＳＶＭに入力される。ステップ２２２において最適な最小が達成されたと決定
された場合、当該方法はステップ２２６に進み、そこで、生データが前記したと
同様に収集される。訓練データおよびテストデータに関して知られた所望の出力
特徴は生データに関して知られていない。【００６０】ステップ２２８において、訓練データおよびテストデータと同様にして生デー
タが前処理される。ステップ２３０において、生の前処理されたデータが処理の
ためにＳＶＭに入力される。ＳＶＭの生出力がステップ２３２で受領され、ステ
ップ２３４において後処理される。本発明の１つの実施形態において、後処理は
、ヒトまたはコンピューターによる解釈のために、ＳＶＭの出力をコンピュータ
ーにより誘導された英数字分類器に変換することを含む。好ましくは、英数字分
類器は、ヒトまたはコンピューターによって容易に理解される単一の値を含む。
当該方法２００はステップ２３６において終了する。【００６１】図３は、データを前処理するのに、または本発明の例示的な実施形態に従う学
習機械からの出力を後処理するのに用いることができる例示的最適カテゴリー化
方法３００を示すフローチャートである。加えて、後記するごとく、例示的最適
カテゴリー化方法は、学習機械とは独立して、単独カテゴリー化技術として用い
ることができる。例示的最適カテゴリー化方法３００は出発ブロック３０１で始
まり、ステップ３０２まで進行し、そこで入力データセットが受領される。入力
データセットは、連続的変数からのデータ試料の配列を含む。データ試料は２以
上の分類カテゴリー内に入る。次に、ステップ３０４において、ビンおよびクラ
ス−トラッキング変数が初期化される。当該分野で知られているように、ビン変
数は分解に関連し、クラス−トラッキング変数はデータセット内での分類の数に
関連する。ビンおよびクラス−トラッキング変数の初期化のための値を決定する
ことは、手動にて、あるいは入力データセットの解析からのコンピュータープロ
グラムのごとき自動プロセスを介して実行することができる。ステップ３０６に
おいて、各ビンについてのデータエントロピーが計算される。エントロピーはラ
ンダムな分布の不確からしさを測定する数学的質である。例示的方法３００にお
いて、エントロピーを用いて、最大分類能力が達成されるように、入力変数の等
級を測る。【００６２】方法３００は連続的変数上に一連の「カット」を生じ、従って、連続的変数は
区別されるカテゴリーに分けることができる。例示的方法３００によって選択さ
れたカットは、各得られた区別されるカテゴリーの平均エントロピーが最小化さ
れる意味で最適である。ステップ３０８において、連続的変数を含む入力データ
セット内で全てのカットが置かれたか否かに関して決定がなされる。もし全ての
カットが置かれていないならば、連続的ビン組合せが、ステップ３１０において
カットオフ決定につきテストされる。ステップ３１０から、例示的方法３００は
ステップ３０６を通じてループバックし、ステップ３０８に戻り、そこで、再度
連続的変数を含む入力データセット内に全てのカットが置かれたか否かが決定さ
れる。全てのカットが置かれれば、全システムについてのエントロピーがステッ
プ３０９で評価され、より多いまたはよりリスク内カットのテストからの以前の
結果と比較される。最小エントロピー状態が決定されたと結論することができな
いならば、他の可能なカット選択が評価されなければならず、当該方法はステッ
プ３１１まで進む。ステップ３１１からカットの数についてのこれまでの未テス
ト選択が選択され、前記したプロセスがステップ３０４から反復される。ビン幅
によって決定された分解の限度がテストされるか、または最小解決への収束が同
定されれば、最適な分類基準がステップ３１２で出力され、例示的最適カテゴリ
ー化方法３００はステップ３１４で終了する。【００６３】最適なカテゴリー化方法３００は動的プログラミング技術を利用する。当該分
野で知られているごとく、動的プログラミング技術を用いて、注意深くアルゴリ
ズムを構築することに介してある複雑は問題を解決する効率を有意に改良して、
冗長な計算を減らすことができる。最適なカテゴリー化問題において、連続的変
数データにおける全ての可能なカットを通じての徹底的サーチの直接的アプロー
チの結果、指数関数的複雑性のアルゴリズムがもたらされ、中程度のサイズの入
力についてさえ問題を困難とするであろう。標的機能の付加的特性（この問題で
は平均エントロピー）を利用することによって、当該問題は一連のサブ問題に分
けることができる。各サブ問題を解くためにアルゴリズムサブ構造を適切に処方
し、サブ問題の解決を記憶することによって、大量の冗長な計算を同定し、回避
することができる。動的プログラミングアプローチを用いる結果、例示的最適カ
テゴリー化方法３００は、大きなサイズの問題を解くのに用いることができる多
公式複雑性を有するアルゴリズムとして実行することができる。【００６４】前記したごとく、例示的最適カテゴリー化方法３００は、データを前処理しお
よび／または学習機械の出力を後処理するのに用いることができる。例えば、後
処理変換ステップをして、該例示的最適カテゴリー化方法３００を用いて、生デ
ータからの分類情報を抽出することができる。後処理技術として、例示的最適範
囲カテゴリー化方法を用いて、場当たりのアプローチに依拠するよりはむしろ、
客観的にデータに基づいたマーカーに対する最適カットオフ値を決定することが
できる。明らかなごとく、例示的最適カテゴリー化方法３００はパターン認識、
分類、回帰問題などにおいて適用を有する。また、例示的最適カテゴリー化方法
３００は、ＳＶＭおよび他の学習機械から独立して、単独カテゴリー化技術とし
て用いることもできる。最適カテゴリー化方法３００の例示的単独適用を図８を
参照して記載する。【００６５】図４は、支持ベクトル機のための入力として用いることができる例示的非拡大
データセット４００を示す。このデータセット４００は「非拡大」という。なぜ
ならば、さらなる情報がそれに付加されていないからである。示すごとく、非拡
大データセットは訓練データセット４０２およびテストデータセット４０４を含
む。非拡大訓練データセット４０２および非拡大テストデータセット４０４の双
方は、サンプリングした医療患者からの履歴臨床データに関連する例示的データ
ポイント４０６のごときデータポイントを含む。データセット４００を用いて、
ＳＶＭを訓練し、乳癌患者が再発を経験するであろうか否かを判断することがで
きる。【００６６】各データポイントは５つの入力座標、または寸法、および各患者について収集
された医療データを表す４０６ａ−ｆで示される出力分類を含む。特に、第１の
座標４０６ａは「年齢」を表し、第２の座標４０６ｂは「エストロゲン受容体レ
ベル」を表し、第３の座標４０６ｃは「プロゲステロン受容体レベル」を表し、
第４の座標４０６ｄは「合計抽出リンパ節」を表し、第５の座標４０６ｅは「陽
性（癌性）抽出リンパ節」を表し、および出力分類４０６ｆは「再発分類」を表
す。データ４００の重要な公知の特徴は出力分類４０６ｆ（再発分類）であり、
これは、この例においては、サンプリングした医療患者が好都合には癌の再発な
くして（「−１」）治療に応答したか、または不都合にも癌の再発を伴って（「
１」）治療に応答したかを示す。この公知の特徴は学習で用いることができ、他
方、ＳＶＭにおいて訓練データを処理することは、テストデータをＳＶＭに入力
し、かくして、「ブラインド」を生じた後に評価様式で用いることができ、これ
は、明らかに、現在の医療患者の生データでは知られていないであろう。【００６７】図５は、非拡大訓練データセット４０２で訓練され、図４で示された非拡大デ
ータセット４０４でテストされたＳＶＭからの例示的テスト出力５０２を示す。
テスト出力５０２は、ヒトまたはコンピューターによって理解できるように後処
理されている。ここに示すごとく、テスト出力５０２は、合計２４の試料（デー
タポイント）がＳＶＭによって調べられ、ＳＶＭが８つの陽性試料の内４つを誤
って同定し（５０％）、１６の陰性試料の内６つを誤って同定した（３７．５％
）を示す。【００６８】図６は、支持ベクトル機のための入力として用いることができる例示的拡大デ
ータセット６００を示す。このデータセット６００は「拡大されている」という
。なぜならば、さらなる情報がそれに付加されているからである。付加された情
報とは別に、拡大されたデータセット６００は図４に示す非拡大データセット４
００と同一であることに注意されたし。拡大されたデータセットに供給されたさ
らなる情報は、図３を参照して記載された例示的最適範囲カテゴリー化方法３０
０を用いて供給されている。示すごとく、拡大されたデータセットは訓練データ
セット６０２およびテストデータセット６０４を含む。拡大された訓練データセ
ット６０２および拡大されたテストデータセット６０４の双方は、サンプリング
した医療患者からの履歴データに関連する例示的データポイント６０６のごとき
データポイントを含む。再度、データセット６００を用いてＳＶＭを訓練し、乳
癌患者が病気の再発を経験するか否かを学習する。【００６９】例示的最適カテゴリー化方法３００の適用を介して、各拡大されたデータポイ
ントは６０６ｅ１−３を介する２０の座標（または次元）６０６ａ１−３、およ
び出力分類６０６ｆを含み、これは、集合的に、各患者についての医療データお
よびそのカテゴリー化変換を表す。特に、第１の座標６０６ａは「年齢」を表し
、第２の座標ないし第４の座標６０６ａ１−６０６ａ３は、組み合わされて年齢
のカテゴリーを表す変数である。例えば、年齢の範囲は、例えば、データに存在
する年齢の範囲に関して「若い」、「中年」および「老人」カテゴリーに分類す
ることができる。示すごとく、変数のストリング「０」（６０６ａ１）、「０」
（６０６ａ２）、「１」（６０６ａ３）を用いて、ある年齢値が「老人」として
分類されることを示すことができる。同様に、変数のストリング「０」（６０６
ａ１）、「１」（６０６ａ２）、「０」（６０６ａ３）を用いて、ある年齢値が
「中年」として分類されることを示すことができる。また、変数のストリング「
１」（６０６ａ１）、「０」（６０６ａ２）、「０」（６０６ａ１）を用いて、
ある年齢値が「若い」として分類されることを示すことができる。図６の洞察か
ら、例示的方法３００を用いて「年齢」６０６ａ値の範囲の最適カテゴリー化が
３１−３３＝「若い」、３４＝「中年」および３５−４９＝「老人」であると決
定された。他の座標、すなわち座標６０６ｂ「エストロゲン受容体レベル」、座
標６０６ｃ「プロゲステロン受容体レベル」、座標６０６ｄ「合計抽出リンパ節
」、および座標６０６ｅ「陽性（癌性）抽出リンパ節」は、各々、同様に最低に
カテゴリー化されている。【００７０】図７は、拡大訓練データセット６０２で訓練され、図６に示された拡大データ
セット６０４でテストされたＳＶＭからの例示的拡大テスト出力７０２を示す。
拡大テスト出力７０２は、ヒトまたはコンピューターによって理解されるように
後処理されている。示すごとく、拡大テスト出力７０２は合計２４の試料（デー
タポイント）がＳＶＭによって調べられ、ＳＶＭが８つの陽性試料の内４つを誤
って同定し（５０％）、１６の陰性試料の内４つを誤って同定した（２５％）こ
とを示す。従って、この拡大テスト出力７０２を図５の非拡大テスト出力５０２
と比較することによって、データポイントの拡大が改良された結果（すなわち、
より低い全体的最小誤差）、具体的には、後の癌処置に不必要に付される患者の
例の減少に導くことがわかるであろう。【００７１】図８は、図３に記載された最適カテゴリー化方法３００の単独適用のための例
示的入力および出力を示す。図８の例においては、入力データセット８０１は「
陽性リンパ節の数」８０２および対応する「再発分類」８０４を含む。この例に
おいては、最適カテゴリー化方法３００が入力データセット８０１に適応されて
、手術後組織試料で収集された陽性リンパ節の数のみに基づいて、癌再発のため
の治療の決定用最適カットオフポイントを位置決定されている。よく知られた臨
床標準は、少なくとも３つの陽性節を持ついずれかの患者についての治療を規定
する。しかしながら、最適カテゴリー化方法３００は、入力データ８０１に基づ
く最適カットオフ８０６が５．５のリンパ節のより高い値においてのものである
べきことを示し、これは、少なくとも６つの陽性リンパ節を持つ患者における後
の治療を規定する臨床規則に対応する。【００７２】比較表８０８に示すごとく、先行技術が許容したカットオフポイント（≧３．
０）の結果、４７％の正しく分類された再発および７１％の正しく分類された非
再発がもたらされた。従って再発の５３％は正しく分類されておらず（さらなる
試料は不適切にも推奨されていない）、非再発の２９％は誤って分類された（さ
らなる治療は誤って推奨された）。対称的に、最適カテゴリー化方法３００によ
って決定されたカットオフポイント（≧５，５）の結果、３３％の正しく分類さ
れた再発および９７％の正しく分類された非再発がもたらされた。従って再発の
６７％は正しくなく分類され（さらなる試料は不適切にも推奨されず）、非再発
の３％は正しくなく分類された（さらなる試料は正しくなく推奨された）。【００７３】この例によって示されるごとく、例示的最適カテゴリー化方法３００を用い、
外科手術後癌治療を避けることができる患者を正しく同定するより高い例を達成
することができるであろう。最適カテゴリー化方法３００によって決定されたカ
ットオフポイントは中程度に高いパーセンテージの正しくなく分類された再発を
生じたが、それはかなり低いパーセンテージの正しくなく分類された非再発を生
じた。かくして、トレードオフを考慮し、かつ最適化問題の目標が不必要な治療
の回避であることを認識すると、最適カテゴリー化方法３００によって決定され
たカットオフポイントの結果は、先行技術の臨床的カットオフポイントのそれよ
りも数学的に優れている。このタイプの情報は、化学療法のごとき治療を受けて
いることと乳癌の再発の危険があることの間の選択をせまられる患者に対してさ
らなる洞察を提供するのに潜在的に非常に有用である。【００７４】図９は、線状中核を含む第１の支持ベクトル機および多項式中核を含む第２の
支持ベクトル機からの例示的後処理した出力の比較である。図９は、中核の選択
の変動がＳＶＭの出力の品質レベルに影響し得ることを示す。示されたごとく、
線状ドット産物中核を第１のＳＶＭ９０２の後処理した出力は、２４の試料の所
与のテストセットにつき、８つの陽性試料の内６つが正しくなく同定され、１６
の陰性試料の内３つが正しくなく同定されたことを示す。比較により、多公式中
核を含む第２のＳＶＭ９０４についてお後処理された出力は、同一テストセット
について、８つの陽性試料の内２つのみが正しくなく同定され、１６の陰性試料
の内４つが同定されたことを示す。比較により、多項式中核は陽性試料の同定に
対してかなり改良された結果を生じ、陰性試料の同定に関してわずかに悪い結果
を生じたに過ぎない。かくして、当業者に明らかなごとく、多項式中核について
の全体的最小誤差は、このデータセットについての線状中核についての全体的最
小誤差よりも低い。【００７５】図１０および以下の考察は、本発明を実施するのに適した計算の環境の簡単な
一般的記載を供することを意図する。図１０に示されたシステムは慣用的パーソ
ナルコンピューター１０００であるが、当業者であれば、他のタイプのコンピュ
ーターシステム配置を用いて本発明を実施することもできることを認識するであ
ろう。コンピューター１０００は中枢処理ユニット１０２２、システムメモリー
１０２０、および入力／出力（「Ｉ／Ｏ」）バス１０２６を含む。システムバス
１０２１は中枢処理ユニット１０２２をシステムメモリー１０２０に結合させる
。バスコントローラー１０２３はＩ／Ｏバス１０２６上で、中枢処理ユニット１
０２２および種々の内部および外部Ｉ／Ｏデバイスの間のデータの流れを制御す
る。Ｉ／Ｏバス１０２６に連結したＩ／Ｏデバイスは、直接メモリーアクセス（
「ＤＭＡ」）コントローラー１０２４を用いてシステムメモリー１０２０に対し
て直接的アクセスを有することができる。【００７６】Ｉ／Ｏデバイスは、デバイスインターフェイスのセットを介してＩ／Ｏバス１
０２６に連結する。デバイスインターフェイスはハードウェア成分およびソフト
ウェア成分双方を含むことができる。例えば、除去可能な媒体１０５０を読みま
たは書くためのハードディスクドライブ１０３０およびフロッピー（登録商標）
ディスクドライブ１０３２を、ディスクドライブコントローラー１０４０を介し
てＩ／Ｏバス１０２６に連結することができる。光学媒体１０５２を読みまたは
書くための光学ディスクドライブ１０３４は、スモール・コンピューター・シス
テム・インターフェイス（「ＳＣＳＩ」）１０４１を用いてＩ／Ｏバス１０２６
に連結することができる。別法としてＩＤＥ（ＡＴＡＰＩ）またはＥＩＤＥイン
ターフェイスを、ＣＤ−ＲＰＭドライブに当てはまるごとき光学ドライブと連結
させることができる。該ドライブおよびそれらの関連コンピューター読み取り可
能な媒体はコンピューター１０００用の不揮発性記憶を提供する。前記したコン
ピューター読み取り可能な媒体に加え、ＺＩＰドライブ等のごとき他のタイプの
コンピューター読み取り可能な媒体を用いることもできる。【００７７】モニターのごときディスプレイデバイス１０５３は、ビデオアダプター１０４
２のごときもう１つのインターフェイスを介してＩ／Ｏバス１０２６に連結され
る。平行インターフェイス１０４３はレーザープリンター１０５６のごとき同調
周辺デバイスをＩ／Ｏバス１０２６に連結する。セリアルインターフェイス１０
４４は通信デバイスをＩ／Ｏバス１０２６に連結する。セリアルインターフェイ
ス１０４４を介して、またはキーボード１０８３、マウス１０３６またはモデム
１０５７のごとき入力デバイスを用いることによって、ユーザーはコマンドおよ
び情報をコンピューター１０００に入力することができる。オーディオ入力／出
力デバイスまたはイメージ捕獲デバイスのごとき他の周辺デバイス（図示せず）
をコンピューター１０００に連結することもできる。【００７８】多数のプログラムモジュールをドライブ上およびシステムメモリー１０２０中
に記憶することができる。システムメモリー１０２０はランダムアクセスメモリ
ー（「ＲＡＭ」）および読出専用メモリー（「ＲＯＭ」）双方を含むことができ
る。プログラムモジュールは、どのようにしてコンピューター１０００が機能し
、ユーザーと、Ｉ／Ｏデバイスと、または他のコンピューターと相互作用するか
を制御する。プログラムモジュールはルーチン、オペレーティングシステム１０
６５、適用プログラム、データ構造、および他のソフトウェアおよびファームウ
エア構成要素を含む。例示的な実施形態において、本発明は、コンピューター１
０００のドライブ上またはシステムメモリー１０２０に記憶された、１以上の前
処理プログラムモジュール１０７５Ａ、１以上の後処理プログラムモジュール１
０７５Ｂ、および／または１以上の最適カテゴリー化モジュール１０７７および
１以上のＳＶＭプログラムモジュール１０７０を含む。具体的には、ＳＶＭプロ
グラムモジュール１０７０と共に前処理プログラムモジュール１０７５Ａ、後処
理プログラムモジュール１０７５Ｂは、データを前処理し、および学習機械から
の出力を後処理し、および図１および２を参照して記載した例示的方法に従って
学習アルゴリズムを実行するためのコンピューター−実行可能指令を含むことが
できる。さらに、最適カテゴリー化プログラムモジュール１０７７は、図３を参
照して記載した例示的方法に従ってデータセットを最適にカテゴリー化するため
のコンピューター−実行可能指令を含むことができる。【００７９】コンピューター１０００は、遠隔コンピューター１０６０のごとき１以上の遠
隔コンピューターに対する論理的結合を用いてネットワーク化環境で操作するこ
とができる。遠隔コンピューター１０６０はサーバ、ルーター、ピアデバイスま
たは他の共通のネットワークノードとすることができ、典型的には、コンピュー
ター１０００と結合した記載したエレメントの多くまたはすべてを含む。ネット
ワーク化環境において、プログラムモジュールおよびデータは遠隔コンピュータ
ー１０６０に記憶することができる。図１０に示した論理的結合はローカルエリ
アネットワーク（「ＬＡＮ」）１０５４およびワイドエリアネットワーク（「Ｗ
ＡＮ」）１０５５を含む。ＬＡＮ環境において、Ｅｔｈｅｒｎｅｔアダプターカ
ードのごときネットワークインターフェース１０４５を用いて、コンピューター
１０００を遠隔コンピューター１０６０に結合することができる。ＷＡＮ環境に
おいて、コンピューター１０００は、結合を達成するために、モデム１０５７の
ごとき遠隔通信デバイスを用いることができる。示されたネットワーク結合は例
示であって、コンピューター間の通信リンクを確立する他のデバイスを用いるこ
とができるのは認識されるであろう。【００８０】図１１は、本発明の実施のための別の例示的オペレーティング環境を示す機能
的ブロックダイアグラムである。本発明は、複数のコンピューターシステムの特
殊化配置で実施することができる。複数のコンピューターシステムの特殊化配置
の例は、ここでは、ＢＩＯＷｕｌｆ^TM支持ベクトルプロセッサ（ＢＳＶＰ）とい
う。該ＢＳＶＰは平行計算ハードウェア技術における最後の進歩をパターン認識
、回帰評価および密度評価における最後の数学的進歩と組み合わせる。これらの
技術の組合せはユニークで新規な実施であるが、ハードウェアの配置は、ナサ・
ゴダード・スペース・フライト・センター（ＮＡＳＡＧｏｄｄａｒｄＳｐａ
ｃｅＦｌｉｇｈｔＣｅｎｔｅｒ）が開発者であるＢｅｏｗｕｌｆスーパーコ
ンピューターの実施に基づく。【００８１】ＢＳＶＰは、ＳＶＭ訓練および大規模なデータセットについての評価を促進す
るのに必要なかなり平行した計算力を提供する。ＢＳＶＰはデュアル平行ハード
ウェア構築および慣用的平行化ソフトウェアを含んで、マルチスレッディングお
よびメッセージパシング双方の効果的な利用が現実の適用において支持ベクトル
を効果的に同定するのを可能とする。ハードウェアおよびソフトウェア双方の最
適化は、ＢＳＶＰが典型的なＳＶＭ実行よりもかなり優れているようにすること
ができる。さらに、商品として、計算技術が進歩するにつれ、解放源ソフトウェ
アにおける基礎および標準化インターフェーシング技術によってＢＳＶＰの等級
上昇が保証される。将来の計算プラットフォームおよびネットワーキング技術は
ＢＳＶＰに同化することができる。というのは、それらはソフトウェアの実行に
対して影響なくしてコストが効果的となるからである。【００８２】図１１に示すごとく、ＢＳＶＰは２０の処理ノード１１０４ａ−ｔおよび１つ
のホストノード１１１２を備えたＢｅｏｗｕｌｆクラスのスーパーコンピュータ
ークラスターを含む。処理ノード１１０４ａ−ｊはスイッチ１１０２ａを介して
相互連結し、他方、処理ノード１１０４ｋ−ｔはスイッチ１１０２ｂを介して相
互連結する。ホストノード１１１２は、適当なＥｔｈｅｒｎｅｔケーブル１１１
４を介してネットワークスイッチ１１０２ａまたは１１０２ｂ（１１０２ａを示
す）の内のいずれか１つに連結する。また、スイッチ１１０２ａおよびスイッチ
１１０２ｂは、すべての２０の処理ノード１１０４ａ−ｔおよびホストノード１
１１２が効果的に相互と連絡するように、適切なＥｔｈｅｒｎｅｔケーブル１１
１４を介して相互に連絡する。スイッチ１１０２ａおよび１１０２ｂは、好まし
くは、速Ｅｔｈｅｒｎｅｔ相互連結を含む。ＢＳＶＰのデュアル平行構築は、複
数機の平行配置を通過し、ホストノード１１１２としての高効率デュアルプロセ
ッサＳＭＰコンピューターを利用するＢｅｏｗｕｌｆスーパーコンピューターの
メッセージの実行を介して達成される。【００８３】例示的配置において、ホストノード１１１２は無接着剤マルチ−プロセッサＳ
ＭＰ技術を含み、１８ＧＢのＵｌｔｒａＳＣＳＩ記憶、２５６ＭＢメモリー、
２つの１００Ｍｂｉｔ／ｓｅｃＮＩＣ、および２４ＧＢＤＡＴネットワーク
バックアップテープデバイスを備えたデュアル４５０ＭｈｚのＰｅｎｔｉｕｍ
ＩＩＸｅｏｎベースのマシンよりなる。；ホストノード１１１２はＮＩＳ、ＭＰ
Ｌおよび／またはＰＷＭをＬｉｎｕｘ下で実行して、ＢＳＶＰの活動を管理する
。また、ホストノード１１１２はＢＳＶＰおよび外界の間のゲートを提供する。
それ自体、ＢＳＶＰの内部ネットワークは外部相互作用から隔離され、これは全
クラスターが単一のマシンとして機能するようであることを可能とする。【００８４】２０のプロセッシングノード１１０４ａ−ｔは、１５０ＭＨｚＰｅｎｔｉｕ
ｍプロセッサ、３２ＭＢＲＡＭ、８５０ＭＢＨＤＤ、１．４４ＭＢＦＤＤ
、および速Ｅｔｈｅｒｎｅｔｍｂ１００Ｂｂ／ｃＮＩＣを含む同一に配置さ
れたコンピューターである。処理ノード１１０４ａ−ｔは相互に連結し、ＮＦＳ
を通るホストノードはＴＣＰ／ＩＰ上に連結する。ＢＳＶＰ計算に加え、処理ノ
ードは、ＫＶＭスイッチ１１０８ａおよび１１０８ｂを介して単一キーボードデ
バイスおよび単一マウスデバイスに通じる各ノードのキーボードおよびマウスを
備えた装着されたモニターのバンクを介してデモンストレーション能力を供する
。【００８５】ソフトウェアのカスタマイズおよび開発はＢＳＶＰに対する活動の最適化を可
能とする。ＳＶＭプロセスのセクションにおける同時発生は、ＢＳＶＰハードウ
ェアによって供されたハイブリッド平行化を通じて最も有利に開発される。ソフ
トウェアは生データから実行された解決までの十分なサイクル支持を実行する。
データベースエンジンは、前処理された生データに必要な記憶および柔軟性を提
供する。慣用開発ルーチンはＳＶＭ訓練に先立ってデータの前処理を自動化する
。複数の変換およびデータ操作が、データベース環境内で実行されて、候補訓練
データを生じさせる。【００８６】ＢＳＶＰのピーク理論処理能力は３．９０ＧＦＬＯＰＳである。それらのＢｅ
ｏｗｕｌｆクラスのマシン上でのＮＡＳＡＧｏｄｄａｒｄＳｐａｃｅＦｌ
ｉｇｈｔＣｅｎｔｅｒによって行われたベンチマークに基づき、予測された
現実の性能は約１．５６ＰＳＧＦＬＯＰＳであるはずである。かくして、このＢ
ｅｏｗｕｌｆクラスクラスターマシンにおける商品構成要素計算力を用いて達成
された性能は、ＣｒａｙＪ９３２／８のごときスーパーコンピューターのそれ
と一致する。さらに、リサーチおよびアカデミック研究所におけるＢｅｏｗｕｌ
ｆテストは、単一プロセッサの１８倍のオーダーの性能が一般に２０ノードＢｅ
ｏｗｕｌｆクラスターで達成できることを示す。例えば、単一Ｐｅｎｔｉｕｍプ
ロセッサーコンピューターで１７分４５秒のクロックタイムを要する最適化問題
は、２０ノードを備えたＢｅｏｗｕｌｆで５９秒で解かれた。従って、ＢＳＶＰ
の高性能性質は、現在余りにも面倒と考えられるデータセットの現実的解析が慣
用的コンピューターシステムによって取り扱われるのを可能とする。【００８７】ＢＳＶＰの大きな計算力は、平行して複数ＳＶＭを実行して、それを、膨大な
数の入力を含むリアルライフ問題を解くのに特に有用とする。一般にＳＶＭ、特
にＢＳＶＰの有用性の例は、遺伝子の研究、特にヒトゲノムプロジェクト；管理
されたケア効率の評価；治療的決定およびフォロー；適切な治療的選別；医薬開
発技術；分子構造の発見；予後評価；医療インフォマティックス；請求書不正の
検出：発明的制御；ストックの評価および予測；商品の評価および予測；および
保証確率評価を含む。【００８８】当業者であれば、前記したＢＳＶＰ構築は性質上例示であって、本発明の範囲
を限定することを意味しないことを認識すべきである。例えば、２０の処理ノー
ドの選択はよく知られたＢｅｏｗｕｌｆ構築に基づくものであった。しかしなが
ら、別法として、２０の処理ノードよりも多いまたは少ないものを用いて実行す
ることもできる。さらに、特殊な前記したハードウェアおよびソフトウェア構成
要素は例に過ぎない。言及したごとく、本発明のＢＳＶＰの実施形態は、別のお
よび／または将来のハードウェアまたはソフトウェア構成要素に適合するように
配置される。【００８９】図１２は、本発明のさらなる別の実施形態の実行のための例示的ネットワーク
オペレーティング環境を示す機能的ブロックダイアグラムである。例示的ネット
ワークオペレーティング環境において、顧客１２０２または他の団体は、インタ
ーネット１２０４のごとき分布したコンピューターネットワークを介してデータ
をベンダー１２１２に伝達することができる。当業者であれば、顧客１２０２は
、通信デバイスおよびデータ記憶デバイスとの連絡を含む、またはそれと連絡す
るいずれかのタイプのコンピューターまたはラブ装置からのデータを伝達するこ
とができることを認識することである。顧客１２０２から伝達されたデータは学
習機械によって処理されるべき訓練データ、テストデータおよび／または生デー
タとすることができる。顧客によって伝達されたデータは購入者のウェブサーバ
１２０６において受領され、これは、内部ネットワーク１２１４ａ−ｂを介して
１以上の学習機械にデータを伝達することができる。前記したごとく、学習機械
はＳＶＭ、ＢＳＶＰ１１００、ニューラル・ネットワーク、他の学習機械または
その組合せを含むことができる。好ましくは、ウェブサーバ１２０６は、ファイ
アウォル１２０８または他のセキュリティシステムによって学習機械から隔離さ
れている。また、ベンダー１２１２は、インターネット１２０４またはいずれか
の専用のまたはオンデマンド通信リンクを介して１以上の金融機関１２１０と連
絡することもできる。ウェブサーバ１２０６または他の通信デバイスは１以上の
金融機関との通信を取り扱うことができる。金融機関は銀行、インターネット銀
行、手形交換書、クレジットまたはデビットカード会社等を含むことができる。【００９０】操作において、ベンダーは、ウェブサーバ１２０６ホストウェブサイトまたは
ウェブサイト１２０６と連絡するもう１つのサーバを介して学習機械処理サービ
スを提供することができる。顧客１２０２はウェブサーバ１２０６にデータを伝
達して、学習機械によって処理することができる。また、顧客１２０２はユーザ
ーネーム、パスワードおよび／または金融口座識別子のごとき同定情報をウェブ
サーバに伝達することもできる。データおよび同定情報の受容に応答して、ウェ
ブサーバ１２０６は、金融機関１２１０において顧客１２０２によって維持され
たまたは権限を与えられた金融口座から所定量の資金を電子的に引き出すことが
できる。加えて、ウェブサーバは顧客のデーターをＢＳＶＰ１１００または他の
学習機械に伝達することができる。ＢＳＶＰ１１００がデータの処理および出力
の後処理を完了すると、後処理された出力はウェブサーバ１２０６に戻される。
既に述べたごとく、学習機械からの出力を後処理して、ヒトまたは自動解釈のた
めに、単一値または複数値のコンピューターにより誘導された英数字分類器を生
じさせることができる。次いで、ウェブサーバ１２０６は、後処理された出力が
インターネット１２０４を介して顧客１２０２に逆伝達される前に顧客からの支
払いが確認されていることを確実とすることができる。【００９１】ＳＶＭを用いて広く種々の実生活上の問題を解くことができる。例えば、ＳＶ
Ｍは会計および発明的データ、ストックおよび商品マーケットデータ、保証デー
タ、医療データ等の解析において適用性を有することができる。それ自体、前記
したネットワーク環境は多くの産業およびマーケットセグメントを通じて広い適
用性を有する。発明的データ解析の文脈において、例えば、顧客は小売業者であ
っても良い。小売業者は発明的および監査データを所定の時点でウェブサーバ１
２０６に供給することができる。発明的および監査データをＢＳＶＰおよび／ま
たは１以上の他の学習機械によって処理して、小売業者の発明的要件を評価する
ことができる。同様に、医療データ解析の文脈では、顧客は医療研究所であって
良く、患者が医療研究所にいつつ、患者から収集した生データ１２０６に伝達す
ることができる。医療データをＢＳＶＰまたは他の学習機械で処理することによ
って生じた出力は、医療研究所に逆伝達し、患者に提示することができる。【００９２】本発明の方法、システムおよびデバイスの好ましい実施形態をここに記載する
。本明細書中で用いるごとく、データ入力は「特徴」と呼ばれる構成要素の「パ
ターン」と呼ばれるベクトルである。この実施形態においては、特徴は遺伝子発
現係数であり、パターンは患者に相当する。２−クラスの分類問題を示す。既知
のクラス標識を持つ多数のパターンの訓練セットを用いた。訓練パターンを用い
て、入力パターンのスケーラー機能である決定機能または判別機能を形成するこ
とができる。新しいパターンは決定機能のサインに従って分類される。訓練パタ
ーン足すバイアスの単純な荷重合計である決定機能は線型判別機能と呼ばれる。
もし線型判別機能が誤差なくしてそれを分離できるならば、データセットは「線
型に分離可能」であると言われる。【００９３】一般に分類および機械学習で知られた問題は、入力空間の次元を減らして「オ
ーバーフィッティング」の危険を克服する手段を見つけることである。マイクロ
アレイで実験された数千の遺伝子のごとく特徴の数が大きく、数ダースの患者の
ごとく訓練パターンの数が比較的小さい場合にデータのオーバーフィッティング
が起こる。そのような状況においては、訓練データ、線型決定機能でさえ分離し
、なおテストデータにつき不充分に実行する決定機能を見いだすことができる。
規則化を用いる訓練技術は、空間次元の減少を必要とすることなくデータをオー
バーフィッティングすることを回避する。支持ベクトル機（ＳＶＭ）は空間次元
の減少で利益を受けることができるにも拘わらず、例えば、ＳＶＭがそれに当て
はまる。【００９４】減少の他の方法は、データの最初の数個の主な方向にプロジェクトすることを
含む。そのような方法では、元の特徴の線型組合せである新しい特徴が得られる
。プロジェクション方法の１つの不利は、元の入力特徴で捨てることができるも
のはないことである。好ましい方法は、元の入力特徴のいくつかを排除し、良好
な分類性能を生じる最小サブセットの特徴を保持する技術を削減することを含む
。診断テストでは、コスト有効性のごとき理由で遺伝子の小さなサブセットを選
択することができ、従って、選択した遺伝子の関連性はより容易に確認できるの
が現実的により有用である。【００９５】特徴選択の問題はパターン認識で良く知られている。仮に特定の分類技術を仮
定すれば、特徴のすべてのサブセットの網羅的列挙によって所与の「モデル選択
」基準を満足する特徴の最良のサブセットを選択することができる。この方法は
、サブセットの数の組合せの急激な増加のため、数千の遺伝子のごとき多数の特
徴では非現実的である。【００９６】大きな次元の入力空間で特徴選択を行うことは、貪欲なアルゴリズムを含む。
種々の可能な方法のうち、特徴ランキング技術が特に好ましい。さらなる分析の
ためには、または分類器を設計するには、固定された数のトップにランクされる
特徴を選択することができる。別法として、ランキング基準に閾値を設定するこ
とができる。その基準が閾値を超える特徴のみが保持される。好ましい方法は、
該ランキングを用いて、特徴のネステッドサブセットを規定し、単一のパラメー
ター：特徴の数を変化させることによってモデル選択基準でもって特徴の最適サ
ブセットを選択することである。【００９７】また、本発明は、複数データセットから知識を見出すための複数支持ベクトル
機の方法、システムおよびデバイスを含む。本発明では、複数の支持ベクトル機
を配置して、平行にまたは順次に複数のデータセットを階級的に処理することが
できると考えられる。特に、１以上の第１レベル支持ベクトル機を訓練し、テス
トして、第１のタイプのデータを処理することができ、１以上の第一レベル支持
ベクトル機を訓練し、テストして、第２のタイプのデータを処理することができ
る。付加的なタイプのデータは、同様に他の第１レベル支持ベクトル機によって
処理することができる。第１レベル支持ベクトル機のいくつかまたは全てからの
出力を論理的に組み合わせて、１以上の第２レベル支持ベクトル機のために入力
データを生じさせることができる。同様にして、複数の第２レベル支持ベクトル
機からの出力を論理的に組み合わせて、１以上の第３レベル支持ベクトル機のた
めに入力データを生じさせることができる。支持ベクトル機の階級は、適切なご
とく、いずれの数のレベルにも拡大することができる。【００９８】支持ベクトル機の階級または各階級レベルにおける各支持ベクトル機には区別
される中核を設けることができる。例えば、第１のタイプのデータを処理するの
に用いる支持ベクトル機には第１のタイプの中核を設けることができ、他方、第
２のタイプのデータを処理するのに用いることができる支持ベクトル機には第２
のタイプの中核を設けることができる。加えて、同一または異なる階級レベルの
複数の支持ベクトル機を配置して、区別される中核を用いて同一タイプのデータ
を処理することができる。【００９９】例示目的のみで示した例において、第１レベルの支持ベクトル機を訓練し、テ
ストして、医療患者の試料に関する乳房撮影データを処理することができる。さ
らなる第１レベル支持ベクトル機を訓練し、テストして、医療患者の同一または
異なる試料につきゲノムデータを処理することができる。２つの第１レベル支持
ベクトル機からの出力を組み合わせて、乳房撮影およびゲノムデータに関する新
しい多次元データセットを形成することができる。次いで、適切に訓練されテス
トされた第２レベル支持ベクトル機によって新しいデータセットを処理すること
ができる。第２レベル支持ベクトル機からの得られた出力は、乳房撮影およびゲ
ノムデータポイントの間の因果関係を同定することができる。当業者には明らか
であるはずのごとく、支持ベクトル機の考えられる階級は、学習機械によるデー
タの解析が望まれるいずれの分野または産業においても適用を有することができ
る。【０１００】複数の支持ベクトル機を用いる複数データセットの階級処理は、さらに他の支
持ベクトル機または学習機械に入力しまたはそれから出力すべきデータを前処理
または後処理する方法として用いることができる。加えて、後記する方法に従っ
たデータの前処理または後処理を、支持ベクトル機の前記階級構築の入力データ
および／または出力に対して行うことができる。【０１０１】図３６は、支持ベクトル機の階級システムを説明するためだけに例として掲げ
る。示されるごとく、１以上の第１レベル支持ベクトル機１３０２Ａ１および１
３０２Ａ２を訓練しテストして、医療患者の試料に関する乳房撮影データのごと
き第１のタイプの入力データ１３０４Ａを処理することができる。１以上のこれ
らの支持ベクトル機は（中核１および中核２として示される）区別される中核を
含むことができる。また、１以上のさらなる第１レベル支持ベクトル機１３０２
Ｂ１および１３０２Ｂ２を訓練しテストして、医療患者の同一または異なる試料
につき、ゲノムデータのごとき第２のタイプのデータ１３０４Ｂを処理すること
ができる。再度、１以上のさらなる支持ベクトル機は（中核１および中核３とし
て示される）区別される中核を含むことができる。同様の第１レベル支持ベクト
ル機の各々からの出力を相互と比較して（すなわち、出力Ａ２１３０６Ｂと比
較した出力Ａ１１３０６Ａ；出力Ｂ２１３０６Ｄと比較した出力Ｂ１１３
０６Ｃ）、最適出力（１３０８Ａおよび１３０８Ｂ）を決定することができる。
次いで、２つのタイプの第１レベル支持ベクトル機１３０８Ａおよび１３０８Ｂ
からの最適出力を組み合わせて、例えば、乳房撮影およびゲノムデータに関する
新しい多次元入力データセット１３１０を形成することができる。次いで、１以
上の適切に訓練されテストされた第２レベル支持ベクトル機１３１２Ａおよび１
３１２Ｂによって新しいデータセットを処理することができる。第２レベル支持
ベクトル機１３１２Ａおよび１３１２Ｂからの得られた出力１３１４Ａおよび１
３１４Ｂを比較して、最適出力１３１６を決定することができる。最適出力１３
１６は乳房撮影およびゲノムデータポイントの間の因果関係を同定することがで
きる。当業者に明らかなはずのごとく、支持ベクトル機の考えられる階級は、学
習機械によるデータの分析が望まれるいずれの分野または産業においても適用を
有することができる。【０１０２】複数支持ベクトル機を用いる複数データセットの階級処理は、さらに他の支持
ベクトル機または学習機械に入力し、またはそれから出力すべきデータを前処理
または後処理する方法として用いることができる。加えて、データの前処理また
は後処理は、支持ベクトル機の前記階級構築の入力データおよび／または出力に
対して行うことができる。【０１０３】ここに含めた例は、結腸癌の存在に最も相関する遺伝子を決定する好ましい方
法を示し、あるいはそれを用いて、個人において結腸癌の発生を予測することが
できる。本発明は、生物学的システムにおける変化の診断または予測のために遺
伝子、蛋白質または他の測定可能な基準を決定する学習機械で用いることができ
る、他の計算方法を含めたこれらの方法、および他の方法を含む。データの源に
は制限はなく、データは、生物学的システムにおける正常な状態および状態の変
化の間を区別するのに用いることができる、遺伝子、蛋白質または臨床テストの
ごとき測定可能な基準の組合せであり得る。【０１０４】以下の実施例において、遺伝子の好ましい数を決定した。これらの数は本発明
の方法を限定するものではない。好ましくは、結腸癌では、遺伝子の好ましい最
適数はほぼ１ないし１００の範囲であり、より好ましくは、該範囲は１ないし５
０であり、なおより好ましくは、該範囲は１ないし３２であり、さらにより好ま
しくは、該範囲は１ないし２１であり、最も好ましくは１ないし１０である。遺
伝子の好ましい最適数は元のデータの質および量によって影響され得、かくして
、当業者によって各適用につき決定することができる。【０１０５】一旦決定的遺伝子が本発明の学習機械によって見出されれば、生物における生
物学的変化の処置のための方法および組成物を使用することができる。例えば、
結腸癌の治療では、治療剤を投与して、遺伝子産物の活性、存在または合成に拮
抗し、または作動し、それを増強させ、または阻害することができる。治療剤は
、限定されるものではないが、センスまたはアンチセンスポリヌクレオチド、Ｄ
ＮＡまたはＲＮＡアナログ、医薬剤、プラズマフォレシス、抗脈管形成剤、なら
びにそのような薬剤の誘導体、アナログおよび代謝産物を含む。【０１０６】そのような薬剤は非経口または非侵入的経路を介して投与される。多くの活性
剤は非経口投与経路、静脈内、筋肉内、皮下、腹腔内、脊髄内、器官内、脳室内
、動脈内および他の経路の注射を介して投与される。薬物送達のための非侵入的
経路は経口、鼻孔、肺、直腸、頬内、膣、経皮および眼経路を含む。【０１０７】本発明のもう１つの実施形態は、インターネットまたは電話回線のごとき手段
を介してパターンの決定サイトから離れたテストの使用を含む。例えば、特異的
医学疾患に関連することが知られている遺伝子の存在を同定するためのゲノムテ
ストは医師のオフィスで行われる。加えて、臨床データまたはプロテオミック決
定のごとき他の情報もまた同一時点または異なる時点で作成することができる。
テストの１つの、いくつかまたは全ての結果は、ＳＶＭを収容する遠隔サイトに
伝達される。そのようなテストは、診断段階で、病気の予後を決定するのに、治
療の結果を決定するのに、およびいずれの治療方法が個々の患者で良好であるか
を決定するごとき処方的適用で用いることができる。【０１０８】以下の実施例により、本発明をさらに説明するが、それは本発明の範囲に限定
を加えるものとは断じて解釈されるべきではない。対照的に、種々の他の実施形
態、修飾およびその同等なものも可能であり、本明細書を読んだ後に、本発明の
精神および／または添付の請求の範囲の範囲を逸脱することなく当業者にそれは
自明であろうことが理解されるべきである。【０１０９】実施例１結腸癌に関連する遺伝子パターンの解析１ないし多数の、いずれかの数の遺伝子でエラー無しの分離を達成できる。好
ましい方法は、多数の遺伝子の使用を含む。古典的な遺伝子選択方法は、訓練デ
ータを最良に個々に分類する遺伝子を選択する。これらの方法は相関方法および
発現率方法を含む。それらは、区別で役に立たない（ノイズ）が、遺伝子が冗長
であるゆえにコンパクトな遺伝子セットを生じない遺伝子を排除する。さらに、
データを個々に十分に分離しない相補的遺伝子は失われる。【０１１０】単純な特徴（遺伝子）ランキングは、いかに十分に個々の特徴が分離に寄与す
るか（例えば、癌対正常）を評価することによってなすことができる。種々の相
関係数をランキング基準として用いる。用いる係数は：Ｐ＝（μ₁−μ₂）／（σ₁＋σ₂）［式中、μ_iおよびσ_iはクラスｉ（ｉ＝１または２）の全ての患者についての特
定の遺伝子の遺伝子発現値の平均および標準偏差である］と定義される。大きな正のＰ値はクラス１との強い相関を示し、他方、大きな負
の値はクラス２との強い相関を示す。【０１１１】何が相関方法で特徴ランキングを特徴付けるかは、なされる暗黙の独立した仮
定である。各係数Ｐは単一の特徴（遺伝子）についての情報で計算され、特徴間
の相互の情報は考慮しない。【０１１２】特徴ランキングの１つの使用は、予め選択された遺伝子のサブセットに基づく
クラスプリディクターまたは（分類器）のデザインである。注目する分離と相関
する（または反対−相関する）各遺伝子は、不完全なものではあるが、それ自体
がそのようなクラスプリディクターである。荷重投票に基づく分類の単純な方法
：遺伝子はその相関係数に比例的に投票する。そのようなものはゴラブ（Ｇｏｌ
ｕｂ），１９９９で用いられた方法である。重みづけ投票スキームは、特定の線
型判別分類器である分類器を生じる。【０１１３】本発明のための好ましい方法は、分類器重みとして遺伝子ランキング係数を用
いることを含む。逆に、所与の分類器の入力を乗ずる重みは遺伝子ランキング係
数として用いることができる。最大値によって荷重された入力は分類決定におい
て最大の影響を有する。従って、もし分類器が十分に働けば、最大の荷重をした
入力が最大の情報的遺伝子に対応する。他の方法は、良好な遺伝子ランキングを
供する線型判別機能を訓練するためのアルゴリズムを含む。なぜならば、それは
暗黙の独立仮定をなさないからである。【０１１４】本発明の好ましい方法は、分類器の重みを用いてＳＶＭ（支持ベクトル機）で
特徴ランキングを作成することである。本発明では、ここに提供される例は調査
中のデータセットの性質のため線型ＳＶＭに向けられるが、任意の複雑性の非線
型決定限度で用いられるＳＶＭの方法が考えられる。図１３は、線型判別分類器
の使用をグラフで示す。この例においては、ｘｙ座標は２つの遺伝子の発現係数
を表す。線型判別分類器は、ｘおよびｙ入力に足した偏り値の荷重した合計のサ
インに従ってその決定を行う。訓練例を用いて適切な重みを選択する多くの方法
が存在する。もし訓練データセットが線型に分離可能であれば、ＳＶＭはその入
力構成要素において最大マージン分類器である。図１３−ａおよび１３−ｂ参照
。決定限度（二次元の分離の場合には直線）は、いずれか側に最大の可能なマー
ジンを残すように位置させる。ＳＶＭの特殊性は、決定機能の重みが、「支持ベ
クトル」と呼ばれる訓練例の小さなサブセットのみの機能であることである。そ
れらは、決定境界に最も近く、マージン上に存在する例である。そのような支持
ベクトルの存在は、ＳＶＭの計算特性およびその競合分類性能の原点にある。Ｓ
ＶＭは境界線の場合である支持ベクトル上のその決定機能に基づくが、ゴラブ（
Ｇｏｌｕｂ）ら（１９９９）によって用いられた方法のごとき他の方法は平均的
場合のその決定機能に基づく。図１３−ｃおよび１３−ｄ参照。１３ａはＳＶＭ
での訓練例はエラーなくして分離される。決定境界のいずれか側のマージンは最
大化される。１３ｂは、同一ＳＶＭでの訓練およびテスト例の分離を示す。ただ
１つの例が誤って分類されている。１３ｃは、ゴラブ（Ｇｏｌｕｂ），１９９９
のベースライン方法での訓練例の分離を示す。決定境界は、クラス図心によって
規定される方向に対して垂直である。１３ｄはベースライン方法での訓練および
テスト例の分離を示す。これらの例は誤って分類されている。【０１１５】ここに示された好ましい実施形態において、Ｃｏｒｔｅｓ，１９９５に記載さ
れたソフト−マージンアルゴリズムの変形の１つを用いた。以下の二次プログラ
ミング問題を解く：０≦α_i≦ＣおよびΣ_iα_iｙ_i＝０の条件下で、 α_iにわたり、（１／２）Σ_ijｙ_iｙ_jα_iα_j（ｘ_i・ｘ_j＋ζδ_ij）−Σ_iα_i を最小化する。【０１１６】ここに、加算は、特徴（遺伝子）のベクトルである全ての訓練パターンｘ_iに
わたって行い、ｘ_i・ｘ_jはスカラー積を示し、ｙ_iは二元値＋１または−１とし
てのクラス標識を表し、δ_ijはクロネッカーの記号であり（もしｉ＝ｊであれば
δ_ij＝０、その他の場合は０）、およびζおよびＣは正の定数である（ソフトマ
ージンパラメーター）。問題が非線型的に分離可能であるか、または条件が不充
分である場合でさえ、ソフトマージンパラメーターは収束を保証する。そのよう
な場合、支持ベクトルのいくつかはマージン上に存在しないであろう。【０１１７】入力ベクトルｘの得られた決定関数は：Ｄ（ｘ）＝ｗ．ｘ＋ｂであり、ここに、ｗ＝Σ_iα_iｙ_iｘ_iおよびｂ＝＜ｙ_i−ｗ．ｘ_i＞である。【０１１８】重みベクトルｗは訓練パターンの線型組合せである。ほとんどの重みα_iはゼ
ロである。ゼロでない重みの訓練パターンは支持ベクトルである。厳格な不等式
０＜α_i＜Ｃを満足する重みを持つものはマージン支持ベクトルである。偏り値
ｂはマージン支持ベクトルにわたる平均である。【０１１９】回帰的特徴排除（ＲＦＥ）特徴間の相互の情報はＳＶＭ分類器についての分類器重みの計算で用いられる
ので、特徴のサブセットの除去は重みの値に影響する。対照的に、暗黙の独立仮
定をなす相関方法は、考慮される特徴のサブセットとは独立した重み値を生じる
。【０１２０】全ての特徴について訓練することによって得られたＳＶＭ分類器の重みにて一
旦特徴をランク付けするよりもむしろ、より洗練されたランキングは、ある時点
で１つの特徴を除去することによって得られる。各対話において、新しい分類器
が残りの特徴にて訓練される。新しい分類器における最小の重みに対応する特徴
は排除される。排除の順序は特定のランキングを生じる。約束により、排除され
るべき最後の特徴は最初にランクされる。この方法は計算の効率のために最適化
することができる。しかしながら、それは、結局は、多数の特徴（数百万の遺伝
子）につき余りにも計算が高価となり得る。他の方法は、ある時点における遺伝
子のチャンクの排除を含む。最初の反復にて、２の最も近いパワーである遺伝子
の数に到達した。引き続いての反復にて、残りの遺伝子の半分が排除された。か
くして、増大する情報密度の遺伝子のネステッドサブセットが得られた。【０１２１】結腸癌に関する本出願についての本発明の学習機械を訓練しテストするための
元のデータは、アロン（Ａｌｏｎ）ら，１９９９に掲げられているデータから得
られた。遺伝子発現情報は、前処理後に６２組織×２０００遺伝子の表で得られ
るマイクロアレイデータから抽出した。６２の組織は２２の正常な組織および４
０の結腸癌組織を含む。マトリックスが、６２の組織を横切る最高最小密度を持
つ２０００の遺伝子の発現を含有する。結腸癌データセットにおける１つの問題
は、腫瘍試料および正常試料が細胞組成において異なったということであった。
腫瘍試料は上皮細胞で通常は豊富であり、ここに、正常組織は細胞型の混合物で
あり、平滑筋細胞の大きな割合を含む。試料は細胞組成に基づいて容易に分離す
ることができたが、この分離は癌−関連遺伝子をトラッキングするのに非常に参
考になるというわけではなかった。【０１２２】アロン（Ａｌｏｎ）らは、いくつかの遺伝子が癌ｖｓ正常分離スキームに相関
するが、遺伝子選択の特異的方法は示唆しないことを示すことによってトップダ
ウンクラスタリングに基づくデータベースの解析、非監督学習の方法およびクラ
スター遺伝子を提供する。彼らは、いくつかの遺伝子が癌ｖｓ正常分離に相関す
るが、遺伝子選択の特異的方法を示唆しないことを示す。【０１２３】本発明のこの実施形態の遺伝子選択方法は、実施例２のそれのような、および
ゴラブ（Ｇｏｌｕｂ）ら，Ｓｃｉｅｎｃｅ，１９９９で用いられたもののような
参照遺伝子選択方法を含む。ゴラブ（Ｇｏｌｕｂ）においては、著者らは、エラ
ー率、固定された閾値における拒絶率、および分類の信頼性を含めた分類器品質
のいくつかの基準を用いている。各値は、独立したテストセットにつき、かつ訓
練セットでリーブ−ワン−アウト方法を用いて計算される。該リーブ−ワン−ア
ウト方法は、訓練セットから１つの例を除き、残りの訓練データのみに基づく決
定関数を構築し、次いで、除去された例につきテストすることよりなる。この方
法においては、訓練データの全ての例をテストし、訓練例の全数にわたってエラ
ーの分率を測定する。【０１２４】学習機械を用いる方法は、前記基準の修飾を含む。分類決定はＳＶＭ出力のサ
インに従って行われた。出力の大きさは分類の信頼性を示すものである。【０１２５】分類器品質の４つの基準を用いた（図１４参照）。【０１２６】エラー（Ｂ１＋Ｂ２）＝ゼロ拒絶におけるエラー（「悪い」）の数拒絶（Ｒ１＋Ｒ２）＝ゼロエラーを得るための拒絶された試料の最少数外部マージン（Ｅ／Ｄ）＝陽性クラス試料の最小出力および陰性クラス試料の
最大出力の間の差（出力間の最大差によって再判断）メジアンマージン（Ｍ／Ｄ）＝陽性クラス試料のメジアン出力および陰性クラ
ス試料のメジアン出力の間の差（出力間の最大差によって再判断）各値はリーブ−ワン−アウト方法での訓練セットに対し、およびテストセット
に対して計算する。【０１２７】エラー率は、誤って分類された例の分率である（診断エラーに対応）。それは
成功率によって考えられる。拒絶率は、（それに対して、低い信頼性のため決定
がなされない）拒絶される例の分率である。それは許容率によって考えられる。
外部およびメジアンマージンは分類信頼性の測定である。【０１２８】リーブ−ワン−アウト方法での、またはテストセットに対するマージンを計算
する方法は、モデル選択基準で時々用いられる訓練例に対して計算されたマージ
ンとは異なった。【０１２９】遺伝子の最適サブセットを予測する方法は、訓練例のみに由来する情報を用い
る最適性の基準を規定することを含んだ。これは、予測された遺伝子サブセット
がテストセットについて最良に実行したか否かを判断することによってチェック
した。【０１３０】同様の「モデル選択」問題でしばしば用いられる基準はリーブーワン−アウト
成功率Ｖ_sucである。この例においては、それはほとんど有益でなかった。とい
うのは、ゼロのリーブーワン−アウトエラーを有する多くの分類器の間の区別が
許容されないからである。そのような区別は、リーブーワン−アウト方法にて交
差−有効化によって計算された品質基準の全てを組み合わせる基準を用いて得ら
れる：Ｑ＝Ｖ_suc＋Ｖ_acc＋Ｖ_ext＋Ｖ_med ここに、Ｖ_sucは成功率であり、Ｖ_accは許容率であり、Ｖ_extは外部マージンで
あり、Ｖ_medはメジアンマージンである。【０１３１】理論的考察により、我々は、この基準を修飾して大きな遺伝子セットを課した
。事実、リーブーワン−アウトエラーおよびテストエラーの間の大きな差を観察
する確率は、以下の式： ε（ｄ）＝ｓｑｒｔ（−ｌｏｇ（α）＋ｌｏｇ（Ｇ（ｄ）））・ｓｑｒｔ（ｐ
（１−ｐ）／ｎ）［式中（１−α）は信頼性であり（典型的には、９５％、すなわち、α＝０．０
５）、ｐは「真の」エラー率であり（ｐ≦０．０１、およびｎは訓練セットのサ
イズである］を用いると、遺伝子セットのサイズｄと共に増加する。【０１３２】保証された危険原理（Ｖａｐｎｉｋ１９７４）に従い、我々は、基準Ｑからε
（ｄ）に比例する量を差し引いて新しい基準：Ｃ＝Ｑ−２ε（ｄ）を得た。【０１３３】比例性の係数は、Ｖ_suc，Ｖ_acc，Ｖ_extおよびＶ_medが同一誤差棒ε（ｄ）にて
独立したランダム変数であって、この誤差棒が標準偏差に比例すると仮定して、
試行錯誤により計算した。その場合、偏差は加算的であるので、誤差棒はｓｑｒ
ｔ（４）を乗ずるべきである。【０１３４】好ましい実施形態の方法のより詳細な考察を続ける。ＳＶＭ回帰的特徴排除（
ＲＦＥ）を生データに対して行って、該方法の有効性を評価した。結腸癌データ
試料を、訓練につき３１の例に、およびテストにつき３１の例にランダムに分け
た。ＲＦＥ方法を行って、各回それを２で割ることによって遺伝子の数を次々と
サイズを低下させた。データの前処理は、各遺伝子発現についてのものであり、
平均を差し引き、次いで、結果を標準偏差で割った。【０１３５】分類器品質基準でのリーブーワン−アウト方法を用いて、遺伝子の最適数を見
積もった。実施例２はリーブーワン−アウト方法の使用を説明する。リーブーワ
ン−アウト方法は、訓練セットの１つの例は取り出すことを含む。訓練は残りの
例について行われる。残された例を用いてテストする。該手法は全ての例につい
て反復する。各基準は全ての例にわたって平均として計算される。総じての分類
器品質基準は４つの値：（ゼロ拒絶における）リーブーワン−アウト成功率、（
ゼロエラーにおける）リーブーワン−アウト許容率、リーブーワン−アウト外部
マージン、およびリーブーワン−アウトメジアンマージンの合計である。分類器
はハードマージンを持つ線型分類器である。【０１３６】前記ステップの結果は、訓練データのみを用いる方法によって予測された最適
において、リーブーワン−アウトエラーはゼロであって、テスト性能は現実に最
適であることを示す。４つの遺伝子が発見されそれらは以下のものである：Ｌ０７６４８ヒトＭＸＩ１ｍＲＮＡ、完全なｃｅｓＴ４７３７７７１０３５Ｓ−１００Ｐ蛋白質（ヒト）Ｍ７６３７８ヒト・システイン−リッチの蛋白質（ＣＲＰ）遺伝子、エ
クソン５および６Ｚ５０７５３ＧＣＡＰ−ＩＩ／ウログアニリン前駆体についてのＨ．ｓ
ａｐｉｅｎｓｍＲＮＡ最適テスト性能は８１％の成功率を有していた。この結果は、アロン（Ａｌｏ
ｎ）らによるオリジナル論文に報告された結果と合致した。さらに、１を除くエ
ラーは、孤立値としてアロン（Ａｌｏｎ）らによって同定された。エラーは８、
３６、３４、１２、−３６および−３０であり、３６は孤立値としてアロン（Ａ
ｌｏｎ）らによって同定されていないエラーである。該数は組織を同定し、該サ
インは腫瘍の存在または不存在を示す（負＝腫瘍、正またはサイン無し＝正常）
。直接的性能比較は行わなかった。なぜならばアロン（Ａｌｏｎ）らは全データ
セットで非管理学習を用いており、他方、本実施形態はデータセットの半分につ
いて管理された学習を用いたからである。遺伝子数の関数における性能曲線のプ
ロットを図１４に示す。図１４のグラフの記載は以下の通りである：水平軸＝ｌ
ｏｇ２（遺伝子の数）。曲線：丸＝テスト成功率；四角＝リーブーワン−アウト
品質基準；三角＝イプシロン（理論誤差棒）；菱形＝四角−三角（平滑化）最適
テスト成功率のプリディクター、菱形曲線の最適はｌｏｇ２（遺伝子の数）＝２
＝≧遺伝子数＝４。それは丸曲線の最適と一致する。【０１３７】前処理ステップ対数を取るデータの初期前処理ステップはアロン（Ａｌｏｎ）らによって記載された。デ
ータをさらに前処理して、データの分布をより歪みが少なくした。図１５は、均
一な分布と比較された２つのランダムな遺伝子（所与の発現値の試料の累積数）
についての組織試料にわたる遺伝子発現値の分布を示す。各線は遺伝子を表す。
１５ＡおよびＢは生データを示し；１５ＣおよびＤは対数を取った後の同一デー
タである。遺伝子発現値の対数を取ることによって、同一曲線が得られ、分布は
より均一となる。これは、遺伝子発現係数は、２つの値の比率を計算することに
よってしばしば得られるという事実によるものであろう。例えば、競合的ハイブ
リダイゼーションスキームにおいて、異なって標識される２つの試料からのＤＮ
Ａはアレイ上にハイブリダイズする。２つの標識の蛍光に対応し、特定の遺伝子
にハイブリダイズしたいずれかの試料のＤＮＡの分率を反映する２つの係数が、
アレイの各点において得られる。典型的には、採用される最初の初期前処理ステ
ップは、これらの２つの値の比率ａ／ｂを取ることである。この初期前処理ステ
ップは適切であるが、２つの値が小さい場合には最適ではないであろう。他の初
期前処理ステップは、（ａ−ｂ）／（ａ＋ｂ）および（ｌｏｇａ−ｌｏｇｂ）／
（ｌｏｇａ＋ｌｏｇｂ）を含む。【０１３８】アレイ平均を差し引く図１６は、全ての組織試料についての遺伝子にわたる遺伝子発現値の分布を示
す。１６Ａは生データを示し、１６Ｂはｉｎｖｅｒｆを示す。形状はほぼｅｒ
ｆ関数のそれであり、これは、密度がＮｏｒｍａｌ則にほぼ従うことを示す。事
実、逆ｅｒｆ関数にデータを通じると、ほとんどまっすぐな平行線が得られる。
かくして、平均を差し引くことによってデータを正規化するのが合理的である。
この前処理ステップはアロン（Ａｌｏｎ）らによっても示唆されている。この前
処理ステップは、マイクロアレイ間の実験条件に変動があるという事実によって
裏付けられる。標準偏差はかなり一定のままのように見えるが、選択された他の
前処理ステップが、遺伝子発現値を標準偏差で割って、標準化偏差の中央データ
を得ることであった。【０１３９】組織試料にわたる各遺伝子発現を正規化する訓練データのみを用い、各遺伝子につき平均発現値および標準偏差を計算した
。その遺伝子の全ての試料値につき（訓練およびテスト）、次いで、その平均を
差し引き、得られた値を標準偏差で割った。図１７はこれらの前処理ステップの
結果を示す。図１７は、結腸癌についてのマイクロアレイデータからの遺伝子発
現値を表すデータマトリックスを示し、ここに、線は６２の組織を表し、欄は２
０００の遺伝子を表す。【０１４０】いくつかの実験において、データをスクワッシング関数に通して孤立値の重要
性をなくすることによって、さらなる前処理ステップを付加した。【０１４１】新しいＲＦＥ結果前記したごとくにデータを前処理し、図１７にまとめて、新しく改良された結
果を得た。この方法においては、実施例２で用いたものからの修飾がある。まず
、暗号は、ＲＦＥがある時点において１つの遺伝子を排除することによって実行
できるように最適化した。実施例２において、ある時点における遺伝子のチャン
クを排除した。チャンクサイズを各反復において２で割った。この実施形態のこ
の処理の修飾は、種々の解析を可能とするが、分類の精度に有意に影響しないよ
り良いランキングを提供する。それは、例えば、ＰｅｎｔｉｕｍＩＩＩ３３３
、２５６ＭＢＲＡＭにて約１０ないし１５分で実行される。【０１４２】実施例２の方法とは異なる第２の修飾は、遺伝子選択交差−有効化プロセスが
正規のＳＶＭを用いたことであった。実施例２においては、まずデータを最初の
主な構成要素上にプロジェクトすることによって、低下した能力のＳＶＭを用い
た。【０１４３】図１８の結果は、図１４のものよりもかなりの改良を示す。図１８は、前処理
後のＲＦＥの結果を示す。図１８についての記載は以下のとおりである：水平軸
＝ｌｏｇ２（遺伝子の数）。曲線：丸＝テスト成功率；四角＝リーブ−ワン−ア
ウト品質基準；三角＝イプシロン（理論誤差棒）；菱形＝四角−三角（平滑化）
最適テスト成功率のプリディクター菱形曲線の最適はｌｏｇ２（遺伝子の数
）＝４≧遺伝子の数＝１６におけるものである。図１４で用いた低下能力ＳＶＭ
をプレインＳＶＭによって置き換える。ｌｏｇスケールが依然として遺伝子数で
用いられるが、ある時点で１つの遺伝子を排除することによってＲＦＥを実行し
た。最良なテスト性能は９０％分類精度である（８遺伝子）。訓練データ情報の
みに基づく分類器品質から予測される遺伝子の最適数は１６である。これは、テ
ストセットでの８７％分類精度に対応する。以下のごとく、同一テスト性能が２
遺伝子のみで達成される：Ｊ０２８５４：ミオシン調節軽鎖２、平滑筋イソ形態ヒト；エレメントＴＡＲ
１反復エレメントを含有。【０１４４】Ｒ５５３１０：Ｓサブ３６３９０ミトコンドリア処理ペプチダーゼ。【０１４５】これらの２つの遺伝子のいずれも、最初の実験においてリストの頂部に現れな
い。【０１４６】見出された頂部遺伝子は平滑筋遺伝子であり、これは組織組成に特徴的な遺伝
子であって、恐らくは癌には関係しない。【０１４７】ゴラブ（Ｇｏｌｕｂ）の方法との比較ゴラブ（Ｇｏｌｕｂ）の遺伝子の選択方法はランキング方法であり、ここに、
全ての訓練データ試料についての遺伝子発現値のべクターおよび標的値のベクタ
ーの間の相関に従って遺伝子を順序立てる（正常な試料について＋１、および癌
試料について−１）。ゴラブ（Ｇｏｌｕｂ）らはｍ／２頂部にランクされたおよ
びｍ／２底部にランクされた遺伝子を選択して、分離に高度に相関する遺伝子の
半分および抗−相関の半分を得る。ゴラブ（Ｇｏｌｕｂ）らは線型分類器を用い
る未知の試料を分類するために、標的分離ベクトルにてその相関係数に従って癌
または正常につき各遺伝子は「投票する」。ゴラブ（Ｇｏｌｕｂ）の方法によっ
て選択された頂部遺伝子はＪ０２８５４であった（関連する平滑筋）。図１９は
、ベースライン方法のこの実施形態の使用とゴラブ（Ｇｏｌｕｂ）らとの比較を
示す。図１８で用いられたのと同一の曲線が図１９に示される。図１９について
の記載は以下のとおりである：水平軸＝ｌｏｇ２（遺伝子の数）。曲線：丸＝テ
スト成功率；四角＝リーブ−ワン−アウト品質基準；三角＝イプシロン（理論誤
差棒）；菱形＝四角−三角（平滑化）最適テスト成功率のプリディクター。図
１８および１９で同一に前処理されたデータを、次いで、ゴラブ（Ｇｏｌｕｂ）
の方法によって処理し、図１９にグラフ化する。遺伝子の最適数を選択してＳＶ
Ｍのごとき学習機械で用いるのは、本発明者らの新規な知見である。【０１４８】本発明のこの実施形態およびゴラブ（Ｇｏｌｕｂ）の方法の結果を比較するた
めに、式：（１−α）＝０．５＋０．５ｅｒｆ（Ｚ_α／ｓｑｒｔ（２））Ｚ_α＝εｎ／ｓｑｒｔ（ｖ）［式中、ｎはテスト試料の数であり、ｖは２つの分類器のうち１つのみがなすエ
ラーの合計数であり、およびεはエラー率（または拒絶率）の差である］を用い、いずれの信頼性（１−α）でもって、１つの分類器が他の分類器よりも
良好であると判断する統計的テストを用いた。【０１４９】この式を表１にまとめた結果に適用した。いずれの場合にも、ε＝３／３１お
よびｖ＝３である。テスト例の合計数はｍ＝３１である。このテストに基づき、
本発明のこの実施形態の方法は、９５．８％の信頼性をもって、ゴラブ（Ｇｏｌ
ｕｂ）よりも良好であった。【０１５０】【表１】表１：本発明のこの実施形態の方法およびゴラブ（Ｇｏｌｕｂ）の方法の間の
エラー率比較。エラーのリストは括弧間に示される。数字は患者を示す。サイン
は癌（負）または正常（正）を示す。本発明のこの実施形態では、最良の性能は
８遺伝子におけるものであり、最適は１６遺伝子において予測された。ゴラブ（
Ｇｏｌｕｂ）では、最良の性能は１６遺伝子におけるものであり、４遺伝子にお
いて最適が予測された。いずれの場合にも、最良の性能および予測される最適の
間にはただ１つのエラーの差があることに注意されたし。【０１５１】クラスタリングおよび遺伝子選択を組み合わせるデータの冗長のため、合理的な分離を提供する遺伝子の多くのサブセットを見
いだす可能性があった。結果を解析するには、どのようにしてこれらの遺伝子が
関連するかを理解するのが最適であった。いずれかの特定の理論に拘束されるつ
もりはないが、それは、遺伝子選択の問題が、正常な組織を癌組織から最大の精
度を持って分離する、遺伝子の最適数（恐らくは小さい）を見いだすことである
最初の理論であった。【０１５２】ＳＶＭ回帰特徴排除（ＲＦＥ）は、相補的であって、かくして、ほとんど冗長
な情報を運ばない遺伝子のサブセットを用いた。データの構造および性質につい
ての他の情報は提供されなかった。データは非常に冗長であったので、選択され
なかった遺伝子は、それにもかかわらず、分離について情報的であろう。【０１５３】ゴラブ（Ｇｏｌｕｂ）の方法のごとき相関方法は遺伝子のランクされたリスト
を提供する。該ランクの順序は、どのようにして遺伝子が分離と相関するかを特
徴づける。一般に、単独で取られた高くランクされた遺伝子はより低くランクさ
れた遺伝子よりも良好な分離を提供する。従って、「低い情報性の遺伝子」から
「高い情報性の遺伝子」を分離する閾値を設定することができる（例えば、トッ
プにランクされた遺伝子のみを維持する）。【０１５４】ＳＶＭＲＦＥのごとき本発明の方法は、より小さくかつより判別される遺伝
子のサブセットを提供する。ＲＦＥを用いるＳＶＭ遺伝子選択方法は、遺伝子の
ランクされたリストを提供する。このリストでは、増大するサイズの遺伝子のネ
ステッドサブセットを定義することができる。しかしながら、１つの遺伝子がも
う１つの遺伝子よりも高いランクを有するという事実は、その因子が単独で良好
な分離を特徴づけることを意味しない。事実、非常に早期に排除される遺伝子は
非常に情報的であるが、維持される他のものでは冗長であり得る。ゴラブ（Ｇｏ
ｌｕｂ）の方法およびＳＶＭの方法の間のこれらの差は図２０に示される。該図
面はピアソン（Ｐｅａｒｓｏｎ）相関係数のマトリックスを示す。２０Ａはゴラ
ブ（Ｇｏｌｕｂ）の方法を示す。増大するランクの遺伝子は、標的分離と増大す
る相関（または反相関）を意味する。相関係数の絶対値は、３２の最良の遺伝子
および最高のランクを有する他の遺伝子の間でより大きい。２０ＢはＳＶＭ方法
を示す。全体として３２の最良の遺伝子は良好な分離を提供するが、個々には、
標的分離と非常に相関するのではないであろう。遺伝子のランキングは、良好な
分離を提供する遺伝子のネステッドサブセットを形成するのを可能とする。それ
は、個々の遺伝子がどれくらい良好であるかについて情報的ではない。いずれか
のランクの遺伝子は、３２の最良の遺伝子と相関するであろう。それらは、いく
つかのポイントでは排除されてしまっているであろう。それは、残りの遺伝子の
いくつかについてのその冗長性のためであり、それらが標的分離に対する情報を
運ばないからではない。【０１５５】遺伝子ランキングは、単独では、いずれの遺伝子が情報的であって、いずれの
遺伝子が情報的でないかを特徴づけるのに、またいずれの遺伝子が相補的であっ
て、いずれの遺伝子が冗長であるかを決定づけるのに不十分である。【０１５６】非監督クラスタリング遺伝子ランキング単独における問題を克服するために、データを非監督クラス
タリング方法で前処理した。（所与の基準でもって）類似に従って遺伝子をグル
ープ分けした。次いで、遺伝子それ自体の代わりにクラスター中心を用い、ＳＶ
ＭＲＦＥによって処理する。結果は、クラスター中心のネステッドサブセット
であった。最適サブセットサイズは、以前用いた同一の交差−有効化方法でもっ
て選択することができる。次いで、クラスター中心はクラスターのいずれかのエ
レメントを置き換えることができる。【０１５７】データを用い、ＱＴクラストクラスタリングアルゴリズムを用いて、１００の
密なクラスターを生じさせた。用いた同様性尺度は（遺伝子クラスタリングで共
通に用いられる）ピアソンの相関係数であった。図２１は性能曲線を示す。図２
１は、１００の密なＱＴクラストクラスターで訓練した場合のＲＦＥの結果を示
す。水平軸＝ｌｏｇ２（遺伝子クラスター中心の数）。曲線：丸＝テスト成功率
；四角＝リーブ−ワン−アウト品質基準；三角＝イプシロン（理論誤差棒）；菱
形＝四角−三角（平滑化）最適テスト成功率のプリディクター菱形曲線の
最適はｌｏｇ２（遺伝子クラスター中心の数＝３＝＞遺伝子クラスター中心の数
＝８におけるものである）。【０１５８】それらは図１８のものに匹敵する。図２２は、ＳＶＭＲＦＥによって選択さ
れた頂部８ＱＴクラストクラスターを示す。図２２において、８つのクラスター
（線）についての訓練セット（欄）の３２組織についての遺伝子発現が表される
。陽性遺伝子発現は赤色であって、陰性遺伝子発現は青色である。小さな値はよ
り明るい色を有する。２２Ａはクラスター中心を示し；２２Ｂはクラスターエレ
メントを示す。【０１５９】クラスターのエレメントを表２にリストする。【０１６０】【表２】表２：ＲＦＥで選択されたＱＴクラストクラスター。クラスターのランク（ＲＫ
）が高くなると、クラスターはより重要になる。Ｍｉｎｃｏｒｒｅｌはクラス
ターエレメントの間の最小相関係数である。ＧＡＮ＝遺伝子受託番号非監督クラスタリングでは、情報的遺伝子のセットが規定されるが、保持され
ない遺伝子が情報を運ばないという保証はない。全てのＱＴクラストクラスター
足す残りの非−クラスター化遺伝子（シングルトンクラスター）でＲＦＥを用い
ると、性能曲線はかなり似ているが、選択された遺伝子クラスターの頂部セット
は完全に異なり、かなりのシングルトンを含んだ。表１で選択された遺伝子は構
造が組織化されており：クラスター内では、それらが相補的であるクラスターに
わたり、遺伝子は冗長である。【０１６１】クラスター中心はそれらのメンバーのうちいずれかによって置換することがで
きる。この因子はいくつかの医療診断テストのデザインで重要であり得る。例え
ば、いくつかの蛋白質の投与は他の蛋白質の投与よりも容易であろう。別の遺伝
子の選択を有することは、処置および投与の選択に柔軟性を導入する。【０１６２】８つのクラスターの各々の１つの遺伝子がランダムに選択された点で、１０の
ランダムな選択をテストした。平均テストセットの精度は０．８０であり、標準
偏差は０．０５であった。これは、クラスター中心についての０．８７と比較す
べきである。ランダムな選択テストの１つは、中心のそれ（０．９０）よりも優
れた精度を生じた：Ｄ２３６７２、Ｔ５１０２３、Ｔ８５２４７、Ｒ８９３７７
、Ｒ５１７４９、Ｘ５５１８７、Ｒ３９２０９、Ｕ０９５６４。【０１６３】ＱＴクラストクラスタリングの代わりの階級クラスタリングを用いて、平均し
て２つのエレメントを含有する小さなクラスターのロットを生じさせた。より小
さなクラスターの重要性のため、それから選択すべきより少ない遺伝子代替物が
あった。この例においては、階級クラスタリングは、ＱＴクラストクラスタリン
グを用いるのと同程度に良好な結果を生じなかった。本発明では、限定されるも
のではないが、階級クラスタリング、ＱＴクラストクラスタリングおよびＳＶＭ
クラスタリングを含めたクラスタリングのための公知の方法のいずれかの使用が
考えらえる。本発明でいずれのクラスタリング方法を使用するかの選択は、初期
データおよび望まれる結果によって影響され、当業者によって決定され得る。【０１６４】色で示し、残りは丸である、表２中の８つのクラスターからの選択された遺伝
子のばらつきプロットを図２３に示す。各ドットは、主な構成要素解析によって
得られた平均患者の遺伝子発現値を表す。色を付けたドットは、ＱＴクラストク
ラスタリングを用いてＳＶＭＲＦＥによって選択された遺伝子である。各クラ
スターはランダムに選択された色が与えられる。ドットのサイズは、クラスター
のランクに比例する。このばらつきプロットを得るには、単一平均正常組織によ
って全ての正常な組織を置き換えた（「主要正常組織」と呼ばれる第１の主要構
成要素）。同一のことを癌組織で行った。各点は、主な癌組織／主な正常組織二
次元空間における遺伝子発現を表す。【０１６５】監督クラスタリング本発明で用いるもう１つの方法は、ＳＶＭＲＦＥの後処理ステップとしてク
ラスタリングを用いるものであった。遺伝子発現係数の元のセットで正規のＳＶ
ＭＲＦＥを行うことによって選択された各遺伝子をクラスター中心として用い
た。例えば、図１８に記載した結果を用いた。頂部の８つの遺伝子の各々につい
ては、相関係数は全ての残りの遺伝子で計算した。パラメーターは、遺伝子ｉに
クラスター化される遺伝子は、以下の２つの条件：８つの遺伝子の選択されたサ
ブセット中の他の遺伝子と遺伝子ｉとのより高い相関係数を有しなければならな
い、および閾値θを超える相関係数を有しなければならない；に適合する遺伝子
であるというものであった。【０１６６】ここに掲げる図面および表において、８つの遺伝子についての結果を提示する
。１６遺伝子の最適に予測された数は提示されなかった。なぜならば、１６遺伝
子についての結果の提示はより大きな表を生じ、当該方法に対してより多くの洞
察を与えないからである。【０１６７】クラスター化遺伝子は図２４に示され、表３にリストされる。【０１６８】【表３】表３：監督クラスタリング。クラスターは、正規のＳＶＭＲＦＥによって見い
だされた最良の遺伝子の回りで形成された。パラメーターθは０．８である（明
細書参照）。クラスターのランク（Ｒｋ）が高くなると、クラスターはより「重
要」となるはずである。Ｍｉｎｃｏｒｒｅｌはクラスターエレメントの間の最
小相関係数である。ＧＡＮ＝遺伝子受託番号。クラスター中心よりは星印が先行
する。クラスター８において、我々は、図２４中の最後のクラスターの中央に示
す８「対照」値を省略した。【０１６９】図２４は、８つのクラスターにつき訓練セット（欄）の３２の組織での遺伝子
発現を示す（行。陽性の遺伝子発現は赤色であって、陰性の遺伝子発現は青色で
ある）。小さな値はより明るい色を有する。２４Ａは、正規のＳＶＭＲＦＥに
よって得られた頂部８遺伝子をクラスター中心として用いることを示す。２４Ｂ
はクラスターの全てのエレメントを示す。クラスターエレメントはかなり相関が
あるか、またはクラスター中心に対して反相関であり得る。【０１７０】非監督クラスタリング方法および結果と比較して、この例においては、監督ク
ラスタリング方法はクラスター当たり例の数にわたって良好な制御を与えない。
従って、もし目標が各クラスターにおいて種々の遺伝子から選択できることであ
れば、この方法は非監督クラスタリング程良好ではない。しかしながら、監督ク
ラスタリングは、決定されるべき特異的知識につき重要性を有する特異的クラス
ターを示し得る。この特定の実施形態においては、特に、組織の組成に関連し得
、癌ｖｓ正常分離には重要ではないであろういくつかの筋肉遺伝子を含有する遺
伝子の非常に大きなクラスターが見いだされた。かくして、それらの遺伝子は、
結腸癌についての診断または予後に対してほとんど関係を有しないとして考慮か
ら排除された良好な候補である。【０１７１】組織組成関連遺伝子の因子化以下の方法は、同定された組織組成関連遺伝子を自動的に排除することに向け
られた。それらの遺伝子は結果の解析を複雑にする。なぜならば、癌ｖｓ正常分
離に対して情報的である遺伝子からそれらを区別するのは不可能だったからであ
る。非監督前処理での結果は、トップにランクされた遺伝子が、潜在的組織組成
関連遺伝子を検出するのに用いられたキーワード「平滑筋」を含有しないことを
示した。心筋遺伝子は依然としてこの方法の元で選択された。【０１７２】前記した訓練セット／テストセットスプリットを用い、他の方法を用いた。例
えば、トップにランクされた遺伝子のいくつかを排除し、トップにランクされた
遺伝子の中でもはや「平滑筋」遺伝子または他の筋肉遺伝子がなくなるまで、遺
伝子選択プロセスを再度実行した。しかしながら、テストセットでの効率は低下
し、遺伝子セットが組織組成関連遺伝子を含まない場合の決定を可能とするであ
ろう自動基準はなかった。【０１７３】本発明の最も好ましい方法において、遺伝子選択プロセスを全データセットで
行った。非常に多数の訓練試料では、ここで用いたＳＶＭのごとき学習機械は組
織組成関連遺伝子を因子化した。いずれかの特定の理論に拘束されるつもりはな
いが、ボーダーラインの場合（支持ベクトル）に焦点を当てるＳＶＭ特性は、筋
肉細胞で豊富な癌組織および上皮細胞で豊富な正常組織の少数の例を利用するこ
とができると理論化される（平均的傾向の逆）。【０１７４】得られたトップランキング遺伝子には、監督クラスタリングでクラスター化し
た遺伝子を含めた筋肉関連遺伝子が含まれなかった。対照的に、ゴラブ（Ｇｏｌ
ｕｂ）の方法は、７つのトップランキング遺伝子クラスター単独において３つの
平滑筋関連遺伝子を得る。さらに、ＳＶＭＲＦＥによって見いだされたトップ
ランキング遺伝子は、全て、分離を特徴づけるものであった（癌ｖｓ正常）（表
４）。本発明は、良好な分類精度およびより小さな遺伝子サブセットを持ってこ
のデータセットで定量的差をなすのみならず、定性的差をなす：遺伝子セットは
組織組成関連遺伝子を含まない。【０１７５】【表４】表４：増大する順番において、本発明の方法によって発見された７つのトップに
ランクされた遺伝子。Ｒｋ：ランク。Ｓｇｎ：標的分離と相関する兆候、− ほ
とんどの癌組織において過剰発現される；＋ほとんどの正常細胞で過剰発現さ
れる；ＧＡＮ：遺伝子受託番号；可能な機能は「結腸癌」または「癌」を含むキ
ーワードサーチおよび遺伝子記載中のいくつかの語句から得られた。【０１７６】図２５は、全データセットでの訓練の後にＳＶＭＲＦＥを用いる本発明の方
法の結果を示す。図２５において、グラフは以下のとおりである：水平軸＝ｌｏ
ｇ２（遺伝子クラスター中心の数）。曲線：塗りつぶした丸＝訓練成功率；ダッ
シュを付けた黒色＝リーブ−ワン−アウト成功率；四角＝リーブ−ワン−アウト
品質基準；三角＝イプシロン（理論的誤差棒）；菱形＝四角−三角（平滑化）
最適テスト成功率のプリディクター菱形曲線の最適はｌｏｇ２（遺伝子の数
）＝５＝≧遺伝子の数＝３２におけるものである。【０１７７】比較のため、図２６は、全データセットで訓練した場合のゴラブ（Ｇｏｌｕｂ
）の方法で得られた結果を示す。水平軸＝ｌｏｇ２（遺伝子クラスター中心の数
）曲線：丸＝訓練成功率；ダッシュつきの黒色＝リーブ−ワン−アウト成功率；
四角＝リーブ−ワン−アウト品質基準；三角＝イプシロン（理論的誤差棒）；菱
形＝四角−三角（平滑化）最適テスト成功率のプリディクター菱形曲線の
最適はｌｏｇ２（遺伝子の数）＝２＝≧遺伝子の数＝４におけるものである。【０１７８】最良のリーブ−ワン−アウトの性能はＳＶＭについては１００％精度であり、
ゴラブ（Ｇｏｌｕｂ）の方法では９０％に過ぎない（６つのエラー＝｛３９、２
９、１、−１２、−３５、−２９｝）。式：（１−α）＝０．５＋０．５ｅｒｆ（Ｚ_α／ｓｑｒｔ（２））Ｚ_α＝εｎ／ｓｑｒｔ（ｖ）［式中、ｎはテスト試料の数であり、ｖは２つの分類器の１つのみがなすエラー
の全数であり、およびεはエラー率（または拒絶率）の差である］を用い、１つの分類器が他の分類器よりも良好であるといずれの信頼性（１−α
）を持って判断する統計的テストを用いる。【０１７９】本発明の方法は、９９．３％の信頼性率で持って、ゴラブ（Ｇｏｌｕｂ）より
も良好である。【０１８０】我々のリーブ−ワン−アウト基準によって予測される遺伝子の最適数は、図２
５における３２遺伝子である。より小さな数の遺伝子領域におけるより微細なプ
ロットは、２１遺伝子における最適を明らかにする。図２７は、ＳＶＭＲＦＥ
の最後の１００反復における支持ベクトル（「アルファ’ｓ」）の荷重係数を示
す。アルファが非常に最後の反復までかなり変化しないのを見るのは興味深い。
支持ベクトルの数は、７支持ベクトルにつき７遺伝子において最小を通過する。【０１８１】表５において、我々は、これらの７つの支持ベクトルの「筋肉指標」値を示す
。筋肉指標は、試料の筋肉細胞含有量を反映する全ての試料でアロン（Ａｌｏｎ
）らによって計算された量である。ほとんどの正常試料は腫瘍試料よりも高い筋
肉指標を有する。しかしながら、支持ベクトルはいずれのそのような傾向も示さ
ない。【０１８２】高いまたは低い筋肉試料いずれかを持つ正常および癌試料の混合物がある。【０１８３】より重要なことには、発見された遺伝子の解析は、最初の平滑筋遺伝子がゴラ
ブ（Ｇｏｌｕｂ）の方法では５にランクづけし、ＳＶＭでは４１のみにランクづ
けすることを明らかにする。さらに、予測されたＳＶＭについての遺伝子の最適
数は対数プロットでは３２遺伝子であり、直線プロットでは２１遺伝子である。
従って、ＳＶＭは、分離を行うのに組織組成−関連遺伝子に頼るのを回避できた
。生物学的データによって確認されるごとく、ＳＶＭによって発見されたトップ
ランキング遺伝子は、全て、癌ｖｓ正常分離に関連づけられる。対照的に、ゴラ
ブ（Ｇｏｌｕｂ）の方法は組織組成に関連するが、そのトップランキング遺伝子
における癌ｖｓ正常の区別に関連しない遺伝子を選択する。【０１８４】【表５】表５：ＳＶＭＲＦＥによって選択されたトップ７遺伝子で訓練されたＳＶＭの
支持ベクトルの筋肉指標。負の記号を持つ試料は腫瘍組織である。正の記号を持
つ試料は正常組織である。試料は増大する筋肉指標の順にランクづけした。デー
タセットにおけるほとんどの試料において、正常組織は腫瘍組織よりも高い筋肉
指標を有する。なぜならば、腫瘍組織は上皮（皮膚）細胞でより豊富だからであ
る。これは、全ての可能性のミックスを示す支持ベクトルではあてはまらない。【０１８５】表６−１、表６−２において、本発明によって発見された７つのトップにラン
クづけされた遺伝子および閾値θ＝０．７５においてそれらにクラスター化され
た遺伝子。同一のことが表７−１、表７−２中のゴラブ（Ｇｏｌｕｂ）の方法で
なされた。図２８および２９はそれらの遺伝子をグラフで表示する。【０１８６】図２８は、左から右にかけて、増大する重要性の順で、ＳＶＭＲＦＥによっ
て発見されたトップにランクされる遺伝子を示す。７つのクラスター（行）につ
いての全ての６２組織（欄）の遺伝子発現が表される。トップの２２組織は正常
であり、４０の最後のものは癌性である。正の遺伝子発現は赤色であり、負の遺
伝子発現は青色である。小さな値はより明るい色を有する。２８Ａはクラスター
中心を示す。２８ＢはＳＶＭの出力を示す（Ａの遺伝子の荷重合計）。分離はエ
ラー無しである。図２８の遺伝子は図２９のものと同定度に秩序立っては見えな
い。なぜならば、それらはより多くの情報を運ぶが、標的分離と個々には相関が
低いからである。２８Ｃは閾値θ＝０．７５において中心にクラスター化された
遺伝子を示す。【０１８７】図２９は、左から右に増大する重要性の順で、ゴラブ（Ｇｏｌｕｂ）の方法に
よって発見された７つのトップにランクされた遺伝子を示す。７つのクラスター
（行）についての全ての６２の組織（欄）の遺伝子発現が表される。トップの２
２組織は正常であり、４０の最後のものは癌性である。正の遺伝子発現は赤色で
あって、負の遺伝子発現は青色である。小さな値はより明るい色を有する。２９
Ａはクラスター中心を示す。２９Ｂはゴラブ（Ｇｏｌｕｂ）分類器の出力を示す
（Ａの遺伝子の荷重合計）。分離はエラーが無いのではない。２９Ｃは閾値θ＝
０．７５ｓにおける中心にクラスター化された遺伝子を示す。【０１８８】【表６−１】【０１８９】【表６−２】表６−１、表６−２：全ての６２組織を用いた場合のＳＶＭトップランクのクラ
スター。クラスターは閾値θ＝０．７５を持つ最良の遺伝子の回りで形成される
。クラスターのランク（Ｒｋ）が高くなれば、クラスターはより「重要」になる
はずである。Ｍｉｎｃｏｒｒｅｌはクラスターエレメントの間の最小相関係数
である。Ｓｇｎ：標的分離との相関の記号、− ほとんどの癌細胞において過剰
発現；＋ほとんどの正常細胞で過剰発現；ＧＡＮ：遺伝子受託番号。クラスタ
ー中心よりも星印が先行する。いずれの遺伝子も組織組成関連性とは見えない。【０１９０】【表７−１】【０１９１】【表７−２】表７−１、表７−２：すべての６２組織を用いた場合のゴラブ（Ｇｏｌｕｂ）ト
ップランクのクラスター。クラスターは閾値θ＝０．７５を持つ最良の遺伝子の
回りに形成される。クラスターのランク（Ｒｋ）が高くなれば、クラスターはよ
り「重要」になるはずである。Ｍｉｎｃｏｒｒｅｌはクラスターエレメントの間
の最小相関係数である。Ｓｇｎ：標的分離との相関の記号、− ほとんどの癌細
胞で過剰発現；＋ほとんどの正常組織で過剰発現；ＧＡＮ：遺伝子受託番号。
クラスター中心よりも星印が先行する。強調した遺伝子は、組織組成に関連し得
る遺伝子である。【０１９２】特徴選択方法として、ＳＶＭＲＦＥは２つの点でゴラブ（Ｇｏｌｕｂ）の方
法とは異なっていた：特徴間の相互情報はＳＶＭによって用いられ、他方、ゴラ
ブ（Ｇｏｌｕｂ）の方法は暗黙の独立仮定を行い；および、決定関数は、「典型
的な」場合を特徴づけようとする試みにおけるすべての例に基づくのとは反対に
、［ボーダーライン」の場合である支持ベクトルのみに基づいた。支持ベクトル
の使用は、重要でない組織組成関連遺伝子を因子化するのに臨海的である。ＳＶ
ＭＲＦＥを、独立仮定を行わないが、「典型的な」場合を特徴付けようと試み
る他の線型判別関数を用いるＲＦＥ方法と比較した。２つの判別関数を選択した
： −ゴラブ（Ｇｏｌｕｂ）の方法は独立仮定をおこなうことによってＦｉｓｓｈｅ
ｒの線型判別を近似するので、線型判別解析（ＬＤＡ）とも呼ばれるＦｉｓｓｈ
ｅｒ線型判別（例えば、ドゥダ（Ｄｕｄａ）、１９７３参照）、および −全ての訓練例が支持ベクトルであると、偽−逆解決がＳＶＭ解決と同一である
ので、偽−逆によって計算された平均−根−エラ−（ＳＭＥ）線型判別（例えば
、ドゥダ（Ｄｕｄａ），１９７３）。【０１９３】結腸癌データについての特徴（遺伝子）選択方法の比較の結果を図３０に示す
。回帰特徴排除（ＲＦＥ）によって選択された遺伝子の数を変化させ、異なる方
法でテストした。訓練は６２試料の全データセットで行った。曲線はリーブ−ワ
ン−アウト成功率を表す。異なる方法が図３０に示され、グラフは、以下のごと
くエレメントを有する線によって記載される：丸：ＳＶＭＲＦＥ。四角：線型
判別解析ＲＦＥ。菱形：平均根エラー（偽−逆）ＲＦＥ。三角：ベースライン
方法（ゴラブ（Ｇｏｌｕｂ），１９９９）。ＳＶＭＲＦＥは４遺伝子まで下る
最良の結果を与える。選択された遺伝子の実験は、ＳＶＭが、組織組成に関連す
る遺伝子を排除し、癌ｖｓ正常分離に関連する遺伝子のみを維持することを明ら
かとする。逆に、他の方法は、殆どの試料を分離するのを助けるが、癌ｖｓ正常
判別に関連しないそのトップにランクされる遺伝子中の平滑筋遺伝子を維持する
。【０１９４】独立仮定をしないすべての方法はゴラブ（Ｇｏｌｕｂ）の方法よりも勝り、遺
伝子の数の少なくとも１つの値につき１００％リーブ−ワン−アウト精度に到達
する。ＬＤＡはそれらのプロットではわずかに不利であろう。なぜならば、計算
理由では、ＲＦＥは、２桁サイズが低下する遺伝子のチャンクを排除することに
よって用いられたからである。他の方法は、ある時点で１つの遺伝子を排除する
ことによってＲＦＥを用いる。【０１９５】４遺伝子まで下ると、ＳＶＭＲＦＥは、全ての他の方法よりも良好な性質を
示した。全ての方法は方程式：Ｃ＝Ｑ−２ε（ｄ）の基準で予測した；６４より
も小さいまたはそれと等しい遺伝子の最適数。調べたすべての方法につき１ない
し６４の遺伝子ランキングを比較した。組織組成に関連し、その記載において「
平滑筋」を言及する第１の遺伝子は、ゴラブ（Ｇｏｌｕｂ）の方法では５にラン
クされ、ＬＤＡでは４にランクされ、ＭＳＥでは１にランクされ、ＳＶＭでは４
１にランクされたにすぎない。したがって、これはＳＶＭは他の方法よりもデー
タを良好に使用する強力な証拠である。それらは、遺伝子の小さなサブセットで
高度に正確な分離を供しつつ、組織組成関連遺伝子を効果的に因子化する唯一の
方法である。【０１９６】図３５は、結腸癌についての遺伝子の最適数を示す。ＳＶＭでの回帰遺伝子排
除によって選択された遺伝子の数は変化した。グラフの線は以下の通りである：
丸：テストセットでのエラー率。四角：スケールド品質基準（Ｑ／４）十字：最
適性のスケールド基準（Ｃ／４）。菱形曲線：Ｃ／４を局所的に平滑化する結果
。三角：スケールド理論誤差棒（ε／２）。曲線はＣ＝Ｑ−２εによって関連づ
けられる。ダッシュ線は緑色の曲線の最適を示し、これは、訓練データのみに基
づく理論的に予測された最適である：２2＝４遺伝子。【０１９７】モデル選択基準は白血病データを用いて確立し、その予測力は、いずれの調整
もなすことなく、それを結腸癌データで用いることによって相関させた。該基準
は最適も正確に予測した。性能はその最初のトライアルで正確ではなかった。な
ぜならば、実施例２の白血病データについてと同一の前処理を用いたからである
。結果は、実質的にいくつかの前処理ステップを付加することによって改良され
、９０％の精度の成功率に到達した。これらの前処理ステップは、全ての値の対
数を取り、試料ベクトルを正規化し、特徴ベクトルを正規化し、および結果をス
クワッシング関数に通して、孤立値の重要性をなくすることを含む。正規化は、
全ての訓練値にわたって平均を差し引き、対応する標準偏差で割ることを含んだ
。【０１９８】モデル選択基準は、ＳＶＭおよび他のアルゴリズムを用いて種々の他の実験で
用いた。遺伝子の最適数は、２の遺伝子の数のファクター内で常に正確に予測さ
れた。【０１９９】生物学文献と相関する結果ＳＶＭＲＦＥは、そのトップにランクされた遺伝子から、組織組成に関連す
るようである平滑筋を排除した。癌関連遺伝子は便宜上の理由で７に限定した。
加えて、数字７は支持ベクトルの最小数に対応する（「モデル選択」で時々用い
られ基準）。【０２００】最良にランクされた遺伝子は、結腸癌におけるその役割が長い間同定され、広
く調べられた蛋白質をコードする。それは、結腸腺癌主要細胞が転移状態に移る
（Ｇｈｉｎａ，１９９８）場合に上昇調節されるＣＤ４４、および細胞接着に関
与するコラーゲンで当てはまる。結腸癌細胞は転移プロセスの一部としてコラー
ゲン分解活性を有する（Ｋａｒａｋｉｕｌａｋｉｓ，１９９７）。腫瘍を供給す
る血管を形成するのを助ける酵素としてのＡＴＰシンターゼは数年前に公表され
たばかりである（Ｍｏｚｅｒ，１９９９）。葉酸の減少した状態は、細菌の臨床
量研究では結腸癌の増大した危険と関連づけられている（Ｗａｌｓｈ，１９９９
）。今日まで、公知の生化学メカニズムで結腸癌における葉酸の役割を説明する
ものはない。遺伝子Ｈ６４８０７（胎盤葉酸輸送体）が結腸癌ｖｓ正常分離にお
いて最も判別的遺伝子の１つとして同定されたいう知識は、生物学的変化に関与
する遺伝子を同定するための本発明の方法の使用を示す。【０２０１】ヒト・キトトリオシダーゼの場合には、もう１つの癌におけるその役割が研究
中である同一ファミリーのもう１つの相同蛋白質との類似性によって処理する必
要があり；もう１つのキチナーゼ（ＢＲＰ３９）は乳癌で役割を演じることが見
いだされた。癌細胞はこのキチナーゼを過剰生産してアポトーシスから生き延び
る（Ａｒｏｎｓｏｎ，１９９９）。重要な増大したキトトリオシダーゼ活性はゴ
ーシャーズ病患者の臨床研究で知られている（明らかに関係のない疾患）。その
他の病気を診断するために、キトトリオシダーゼ酵素は非常に感度良く測定する
ことができる。一滴未満の血液から調製された血漿または血清はキトトリオシダ
ーゼ測定でかなり十分である（Ａｅｒｔｓ，１９９６）。これは、同様に結腸癌
に対する可能な新しい診断テストへの道を開くものである。【０２０２】６０Ｓリボソーム蛋白質Ｌ２４（Ａｒａｂｉｄｏｐｓｉｓｔｈａｌｉａｎａ
）は染色体６に位置するヒト蛋白質に相同な非−ヒト蛋白質である。他のリボソ
ーム蛋白質と同様に、それは、ｍＲＮＡの特別のクラスの選択的翻訳を通じて細
胞の成長および増殖を制御する役割を演じるようである。【０２０３】驚くべき新規な知見は、「特異的ポリペプチドＢ１−アルファ前駆体からのプ
ロ周期形態（ＴｒｙｐａｎｏｓｏｍａＢｒｕｃｅｉＢｒｕｃｅｉ）」につい
ての同定された遺伝子である。トリパノソーマはアフリカおよび南米に固有の寄
生原生動物であり、トリパノソーマ（結腸寄生虫）に感染した患者は結腸癌に対
して抵抗性を生じる（Ｏｌｉｖｅｉｒａ，１９９９）。トリパノソーマ症はヒト
および動物の古代の病気であり、依然としてアフリカおよび南米の風土病である
。【０２０４】実施例２白血病遺伝子の発見ＤＮＡマイクロアレイから得られた遺伝子発現ベクターのマトリックスよりな
るデータセットは、２つの異なるタイプの白血病を持つ癌患者から得られた。前
処理後、エラーなくして全データセットを分離した少数の遺伝子のみのセットの
荷重合計を見いだすのが可能であり、かくして、データセットは線型的に分離可
能であった。データの分離は容易であったが、問題は、小さな試料サイズを含め
た困難性のいつくかの特徴を表し、データは訓練およびテストセットの間に異な
って分布した。【０２０５】ゴラブ（Ｇｏｌｕｂ），１９９９において、著者らは、ＤＮＡマイクロアレイ
から得られた遺伝子発現データを解析して癌のタイプを分類する本方法を記載し
ている。白血病データに伴う問題は白血病の２つの変種（ＡＬＬおよびＡＭＬ）
の間の区別であった。データは２つのサブセットに分けられる：遺伝子を選択し
、分類器の重みを調整する訓練セット、得られたシステムの性能を見積もるのに
用いられる独立テストセット、ゴラブ（Ｇｏｌｕｂ）の訓練セットは骨髄標本か
らの３８試料よりなるもの、であった（２７のＡＬＬおよび１１のＡＭＬ）。そ
れらのテストセットは、異なる実験条件下で調製し、２４の骨髄および１０の血
液試料標本を含めた３４の試料を有する（２０のＡＬＬおよび１４のＡＭＬ）。
すべての試料は、マイクロアレイイメージから抽出していくつかの正規化遺伝子
発現値に対応する７１２９の属性（または特徴）を有する。この実施例において
、それらの方法の比較を容易とするために、正確に同一の実験条件を保持した。【０２０６】予備実験において、リーブ−ワン−アウトエラーおよびテストエラーの間の大
きな偏差のいくつかは、ちいさな試料サイズ単独によっては説明できなかった。
データの解析は、訓練セットおよびテストセットの分布の間に有意な差があるこ
とを明らかにした。種々の仮説をテストし、差はデータ源における差まで追跡す
ることができるのが判明した。すべての実験において、種々の源からのテストデ
ータについての性能を別々に追跡した。源にかかわらず、得られた結果は同一で
あった。【０２０７】ゴラブ（Ｇｏｌｕｂ）において、著者らは、誤差率、固定された閾値における
拒絶率、および分類信頼性を含めた実施例１に記載したごとく、分類器品質にい
くつかの基準を用いる。分類器品質の基準を示す図３１を参照されたし。曲線（
四角および三角）は２つのクラス：クラス１（負のクラス）およびクラス２（正
のクラス）の例分布を表す。【０２０８】四角：その決定関数値がθよりも大きいかまたはそれに等しいクラス１の例の
数。【０２０９】三角：その決定関数値がθよりも小さいかまたはそれに等しいクラス２の例の
数。エラーＢ１およびＢ２の数はθ＝０の座標である。拒絶された例Ｒ１および
Ｒ２の数は、各々、三角および丸曲線における−θ_Rおよびθ_Rの座標である。拒
絶された例の決定関数値は絶対値がθ_Rよりも小さく、これは低い分類信頼性の
例に対応する。閾値θ_Rは、全ての残りの「許容された」例が十分に分類される
ように設定される。極値的マージンＥは、クラス２例の最も小さい決定関数値お
よびクラス１例の最大決定関数値の間の差である。図面の例では、Ｅは負である
。もし分類エラーの数が０であると、Ｅは負である。メジアンマージンＭは、ク
ラス１密度のメジアン決定関数値およびクラス２密度のメジアンの間の差である
。【０２１０】実験の最初のセットにおいて、ＳＶＭを、白血病データでのゴラブ（Ｇｏｌｕ
ｂ）らのベースラインシステム（ゴラブ（Ｇｏｌｕｂ），１９９９）と比較した
。単純な前処理ステップが行われた。各遺伝子発現値では、平均を差し引き、結
果をその標準偏差で割った。【０２１１】２つの実験を行った。まず、７１２９遺伝子のフルセット（表８）を用いた。
測定した値は前記した通りであった。【０２１２】【表８】表８：全ての遺伝子についての訓練分類器の結果（白血病データ）全ての遺伝子について訓練したＳＶＭの最大重みに対応する５０遺伝子のセット
を選択した。新しいＳＶＭをこれらの５０遺伝子で訓練した。我々は、結果を、
ゴラブ（Ｇｏｌｕｂ）らの論文で報告された５０特徴の元のセットで訓練したベ
ースラインシステムと比較した（表９）。【０２１３】ついで、５０遺伝子のセットを選択した。５０遺伝子は、全ての遺伝子で訓練
されたＳＶＭの最大重みに対応した。新しいＳＶＭをこれらの５０遺伝子で訓練
した。結果を、ゴラブ（Ｇｏｌｕｂ）らの論文に報告された５０特徴の元のセッ
トで訓練したベースラインシステムと比較した。表９参照。【０２１４】【表９】表９：５０遺伝子での訓練の結果（白血病データ）両方の場合において、ＳＶＭはベースラインシステムの性能にマッチするか、
それよりも優れていた。表１０および１１の詳細な結果を用い、性能の差の統計
的有意性を以下の方程式でチェックした：（１−α）＝０．５＋０．５ｅｒｆ（Ｚ_α／ｓｑｒｔ（２））Ｚ_α＝εｎ／ｓｑｒ（ｖ）【表１０】表１０：全ての遺伝子についての訓練の詳細な結果（白血病データ）。エラーｉ
ｄナンバーは括弧に入れる。【０２１５】【表１１】表１１：５０遺伝子についての訓練の詳細な結果（白血病データ）。エラーｉｄ
ナンバーは括弧に入れる。【０２１６】テストの結果に従うと、５０遺伝子で訓練された分類器は、（ゴラブ（Ｇｏｌ
ｕｂ）ではエラー率９７．７％信頼性およびＳＶＭでは９８．７％に基づき）高
信頼性でもって、全ての遺伝子で訓練したものよりも良好である。エラー率単独
に基づき、ＳＶＭ分類器はゴラブ（Ｇｏｌｕｂ）分類器よりも有意には良好でな
い（全ての遺伝子で５０％信頼性および５０遺伝子で８４．１％信頼性）。しか
しながら、拒絶に基づくと、ＳＶＭ分類器はゴラブ（Ｇｏｌｕｂ）分類器よりも
有意に良好である（全ての遺伝子で９９．９％信頼性およい５０遺伝子で９８．
７％信頼性）。【０２１７】実験の第２のセットにおいて、ゴラブ（Ｇｏｌｕｂ）らの方法および白血病デ
ータでのＳＶＭの間のより詳細な比較を行った。特に、問題の２つの態様の結合
を断った：遺伝子の良好なサブセットの選択および良好な決定関数の発見。ＳＶ
Ｍで得られた性能の改良は、ＳＶＭ特徴（遺伝子）選択方法まで追跡することが
できた。これらの特徴で訓練された特定の決定関数は遺伝子の適切なサブセット
の選択ほどは重要でなかった。【０２１８】実験の最初のセットで行ったＳＶＭ分類器の重みで一度遺伝子をランク付けす
るよりはむしろ、代わりに、回帰特徴排除（ＲＦＥ）方法を用いた。各反復にお
いて、新しい分類器を残りの特徴で訓練する。新しい分類器における最小重みに
対応する特徴を排除する。排除の順番は特定のランキングを生じる。約束により
、排除すべき最後の特徴を最初にランクする。遺伝子のチャンクをある時点で排
除した。最初の反復において２の冪指数である遺伝子の数に到達した。引き続い
ての反復において、残りの遺伝子の半分を排除した。増加する情報的密度の遺伝
子のネステッドサブセットが得られた。【０２１９】次いで、遺伝子のこれらのサブセットの質は、正規ＳＶＭ、ゴラブ（Ｇｏｌｕ
ｂ）らの分類器およびＦｉｓｓｈｅｒの線型判別（例えば、（ドゥダ（Ｄｕｄａ
），１９７３参照））を含めた種々の分類器を訓練することによって評価した。
訓練例の第１の主要な構成要素に沿ってデータをプロジェクトした後に訓練され
たＳＶＭも用いた。これは単純な偏り値を設定するに至り、これをいずれかのク
ラスの２つの極端な例の重心に置き、クラス当たりの例の数で荷重した。この分
類器を「低下−能力−ＳＶＭ」と呼んだ。【０２２０】試みた種々の分類器は有意に異なる性能を生じなかった。ゴラブ（Ｇｏｌｕｂ
），１９９９の分類器および低下−能力−ＳＶＭの結果をここに報告した。いく
つかの交差テストをベースライン方法で実行して、遺伝子のセットおよび分類器
を比較した。ＳＶＭ選択遺伝子で、またはベースライン遺伝子で訓練したＳＶＭ
を示す図３２Ａ、およびＳＶＭ選択遺伝子で、またはベースライン遺伝子で訓練
したベースライン分類器を示す図３２Ｂ参照。分類器は、ＳＶＭで選択した遺伝
子のサブセットで、および白血病データの訓練セットでのベースライン方法で訓
練されている。遺伝子の数は色を施し、脚注に示す。品質インジケーターは径方
向にプロットする：チャネル１−４＝リーブ−ワン−アウト方法での交差−有効
化結果；チャネル５−８＝テストセット結果；ＳＵＣ＝成功率；ａｃｃ＝許容率
；ｅｘｔ＝極値性マージン；ｍｅｄ＝メジアンマージン。各インジケーターの平
均値がゼロの平均（全ての４つのプロットにわたり偏差１）を有するように、係
数を再度判断した。各分類器では、色を付けたエリアが大きくなると、分類器は
良好となる。図面は、このデータセットでの分類器性能の間に有意な差はないが
、遺伝子選択の間に有意な差があることを示す。【０２２１】表１２において、遺伝子選択および分類方法の各組合せにつきテストセットで
得られた最良の結果をまとめる。分類器は、遺伝子選択方法を与えれば、同一の
結果を与える。対照的に、ＳＶＭ選択遺伝子は、双方の分類器についてのベース
ライン遺伝子よりも終止一貫して良好な性能を生じる。差の有意性は以下の方程
式でテストした：（１−α）＝０．５＋０．５ｅｒｆ（Ｚ_α／ｓｑｒｔ（２））Ｚ_α＝εｎ／ｓｑｒｔ（ｖ）ＳＶＭまたはベースライン分類器であるかを問わず、ＳＶＭ遺伝子は、テスト
エラー率に基づいて８４．１％信頼性でもって、およびテスト拒絶率に基づき９
９．２％の信頼性をもって良好であった。【０２２２】【表１２】表１２：テストデータについての最良の分類器（白血病データ）。テストデータ
で最良に実行する分類器の性能を報告する。ＳＶＭまたはベースライン遺伝子お
よびＳＶＭまたはベースライン分類器の各組合せでは、遺伝子の対応する数、エ
ラーの数および拒絶の数を表中に示す。患者ｉｄナンバーは括弧中に示す。【０２２３】トップにランクされた遺伝子を比較するために、ＳＶＭ選択サブセットおよび
ベースラインサブセットにおける共通遺伝子の分率（表１３）を計算した。この
例においてＳＶＭで見出された１６遺伝子の最適数において、遺伝子の１９％が
共通していたに過ぎなかった。【０２２４】【表１３】図１３：ベースライン方法およびＳＶＭ回帰遺伝子排除で選択されたセット間の
共通遺伝子の分率（白血病データ）。共通遺伝子の分率は遺伝子の数の関数とし
てほぼ指数関数的に減少する（対数スケールで曲線的）。最適ＳＶＭ遺伝子セッ
ト数１６において、遺伝子の１９％が共通したに過ぎなかった。【０２２５】図３３は、白血病データについての１６遺伝子の最良セットを示す。マトリッ
クス（ａ）および（ｃ）において、欄は異なる遺伝子を表し、行は訓練セットか
らの異なる患者を表す。２７の頂部線ＡＬＬ患者であり、１１の底部線はＡＭＬ
患者である。灰色を施したのは遺伝子の発現を示し：明るいほどより強い。３３
ＡはＳＶＭ最良１６遺伝子を示す。遺伝子は左から右にランクされ、最良のもの
は最も左側にある。選択された全ての遺伝子はよりＡＭＬに相関する。３３Ｂは
、分類決定をなすのに使用した１６ＳＶＭ遺伝子の荷重合計を示す。非常に明瞭
なＡＬＬ／ＡＭＬ分離が示される。３３Ｃはベースライン方法１６遺伝子を示す
。該方法は、遺伝子の半分がＡＭＬに相関し、半分がＡＬＬに相関することを課
する。最良の遺伝子は中央にある。３３Ｄは、分類決定をなすのに用いた１６ベ
ースライン遺伝子の荷重合計を示す。分離は依然として良好であるが、ＳＶＭ分
離ほどは良好でない。【０２２６】図３３Ａおよび３３Ｃは、１６遺伝子サブセットの訓練セットにおける患者に
対する発現値を示す。一見して、ベースライン方法によって選択された遺伝子は
かなり秩序立って見えた。これは、それらがＡＭＬまたはＡＬＬいずれかと強く
相関したからであった。この遺伝子セットでは大きな冗長があった。本質的には
、全ての遺伝子は同一の情報を担っていた。逆に、ＳＶＭは、補充的情報を担う
遺伝子を選択した。これは、１６遺伝子発現の荷重合計である決定関数の出力に
反映された（図３３Ｂ）および（図３３Ｄ）。ＳＶＭ出力はＡＭＬ患者をＡＬＬ
患者からかなり明瞭に分離した。表１４および１５は２つの方法によって選択さ
れた遺伝子をリストする。【０２２７】【表１４】表１４：トップにランクされた１６ＳＶＭ遺伝子（白血病データ）。Ｒｋ＝ラン
ク。ＧＡＮ＝遺伝子受託番号。相関＝遺伝子がリストされたクラスに最も相関す
る。遺伝子は、最も有望でない遺伝子を回帰的に排除することによって得られた
。遺伝子のネステッドサブセットが得られる。【０２２８】【表１５】表１５：トップにランクされた１６ベースライン遺伝子（白血病データ）。ＧＡ
Ｎ＝遺伝子受託番号。相関＝遺伝子がリストされたクラスと最も相関する。左側
の８つの遺伝子はＡＬＬに最も相関し、右側の８つの遺伝子はＡＭＬに相関する
。トップのものは最良の候補である。ゴラブ（Ｇｏｌｕｂ）らは、彼らの実験に
おいて同等な割合のＡＬＬ−相関およびＡＭＬ−相関遺伝子を混合した。【０２２９】遺伝子の最適サブセットが予測できる。【０２３０】遺伝子の最低サブセットを予測する問題に取り組んだ。訓練例のみに由来する
以下の方程式で定義される基準を用いた。【０２３１】Ｃ＝Ｑ−２ε（ｄ）予測された遺伝子サブセットがテストセットで最良に実行するか否かをチェッ
クした。テストは、ＳＶＭ回帰特徴排除を用いて行った。特徴の数は、各反復に
おいて２のファクターだけ徐々に減少した。ＳＶＭ分類器を、見出された全ての
中間サブセットで訓練した。【０２３２】図３４に示すごとく、１６遺伝子の最適数が見出された。ＳＶＭの回帰遺伝子
排除によって選択された遺伝子の数は変化した。グラフの線の記載は以下の通り
である：丸：テストセットでのエラー率。四角：スケールド品質基準（Ｑ＝４）
十字：最適性のスケールド基準（Ｃ／４）。菱形曲線：Ｃ／４を局所的に平滑化
する結果。丸：スケールド理論誤差棒（ε／２）。曲線はＣ＝Ｑ−２εによって
関係付けた。ダッシュ線は菱形曲線の最適を示し、これは、訓練データのみに基
づいた理論予測最適である菱形曲線の最適を示す：２^４＝１６遺伝子。ゼロのテ
ストエラーがこの最適で得られた。【０２３３】テストセットでの性能もまたその値において最適であることが判明した。結果
の詳細は表１６に報告する。【０２３４】【表１６】表１６：ＲＦＥ方法で得られたＳＶＭの遺伝子で訓練されたＳＶＭ分類器（白血
病データ）。分類器選択Ｃの基準は分類器品質Ｑから誤差棒εを引いたものであ
った。これらの量は訓練データのみに基づいて計算した。（ゼロ拒絶における）
成功率、（ゼロエラーにおける）許容率、極端なマージンおよびメジアンマージ
ンは、３８試料訓練セット（Ｖ結果）および３４試料テストセット（Ｔ結果）で
のリーブ−ワン−アウト方法につき報告した。遺伝子の数が１６である場合、訓
練データのみを用いて計算した局所的に平滑化されたＣ基準によって予測される
分類器は最良であった。【０２３５】最適において、ＳＶＭはいずれの拒絶もなくしてテストセットで１００％精度
である。【０２３６】予測されて最適におけるベースラインでのシステムでの比較結果を表１７に示
す。【０２３７】【表１７】表１７：基準Ｃで選択された最良の分類器（白血病データ）。訓練例のみに基づ
いて計算された基準Ｃの最適に対応する分類器の性能を報告した。ＳＶＭまたは
ベースライン遺伝子およびＳＶＭまたはベースライン分類器の各組合せについて
は、遺伝子の対応する数、エラーの数および拒絶の数を表中に示す、患者ｉｄナ
ンバーは括弧に入れて示す。ＳＶＭシステム（ＳＶＭ特徴訓練した最適ＳＶＭ分類器）およびベースライン
システム（ベースライン特徴で訓練した最適ベースライン分類器）の間で得られ
た総ての差はかなり有意であった：エラー率では９５．８％および拒絶率では９
９．２％。交差−テスト解析では、これらの差は、良好な分類器よりもむしろ特
徴の良好なセットまでほとんど追跡することができた。【０２３８】白血病データは、７２試料の全データセットで遺伝子選択方法を実行すること
によって処理した。４つのトップにランクされた遺伝子を表１８に示す。【０２３９】【表１８】表１８：ＳＶＭＲＦＥトップランク遺伝子（白血病データ）。７２試料の全デ
ータセットを用いて、ＳＶＭＲＦＥで遺伝子を選択した。遺伝子は重要性が増
す順番にランクした。最初にランクされた遺伝子は、全ての他の遺伝子が排除さ
れた後に残った最後の遺伝子である。発現：ＡＬＬ＞ＡＭＬは、遺伝子の発現レ
ベルが殆どのＡＬＬ試料においてより高いことを示す；ＡＭＬ＞ＡＬＬは、遺伝
子発現レベルが殆どのＡＭＬ試料においてより高いことを示す；ＧＡＮ：遺伝子
受託番号。このリスト中の全ての遺伝子は、ＡＭＬｖｓＡＬＬ分離に対していく
らか可能な関連性を有する。【０２４０】４つの遺伝子の数は支持ベクトルの最小数に対応する（この場合には５）。全
ての４つの遺伝子は白血病癌に対していくらか関連性を有し、ＡＭＬおよびＡＬ
Ｌ変種の間を区別するのに用いることができる。【０２４１】この最後の実験において、エラー無くして全データセットを分離する遺伝子の
最も小さな数は２である。遺伝子のこのセットでは、ゼロのリーブ−ワンーアウ
トエラーもある。対照的に、ゴラブ（Ｇｏｌｕｂ）の方法は、常に、少なくとも
１つの訓練エラーおよび１つのリーブ−ワン−アウトエラーを生じる。１つの訓
練エラーは１６遺伝子の最小で達成でき、１つのリーブ−ワン−アウトエラーは
６４遺伝子の最小で達成できる。【０２４２】要約すると、特徴選択の最も速い方法は相関方法であった：研究中のデータセ
ットでは、Ｐｅｎｔｉｕｍプロセッサでのゴラブ（Ｇｏｌｕｂ）のベースライン
方法によって、数千の遺伝子を約１秒以内にランク付けすることができる。２番
目に速い方法は、ランキング基準としての全ての特徴で一回のみ訓練した分類器
の重みを用いる。ＳＶＭまたは偽−逆／ＭＳＥのごとき訓練アルゴリズムは、ま
ず、ｎの訓練パターンの間の全てのスカラー積の（ｎ，ｎ）マトリックスＫの計
算を必要とする。Ｋの計算は、特徴（遺伝子）の数と共に直線的に増加し、訓練
パターンの数と共に二次的に増加する。その後、訓練時間はマトリックスＫを逆
転させる時間のオーダーである。最適化されたＳＶＭアルゴリズムでは、もし数
支持ベクトルがｎと比較して小さいならば、訓練はＫを逆転させるよりも速いで
あろう。研究中のデータセットでは、非−最適化Ｍａｔｌａｂコードを持つＰｅ
ｎｔｉｕｍプロセッサで、解は数秒以内に見出される。【０２４３】回帰特徴排除（ＲＦＥ）は、減少するサイズの特徴のサブセットでの訓練多重
分類器を必要とする。訓練時間は訓練すべき分類器の数に対して直線的な大きさ
である。計算の一部は再使用することができる。マトリックスＫは全く再度計算
する必要はない。排除された特徴の部分的スカラー積を引くことができる。また
、係数αをそれらの以前の値に対して初期化することができる。Ｐｅｎｔｉｕｍ
プロセッサでの本発明のＳＶＭＲＦＥのＭａｔｌａｂ実行は、全結腸データセ
ット（２０００遺伝子、６２患者）では約１５分以内に、および白血病データセ
ット（７１２９遺伝子、７２患者）では３時間以内に遺伝子ランキングを戻す。
データの収集および調製が数カ月または数年かかるであろうと仮定すれば、デー
タ解析に数時間かかることは許容できる。【０２４４】種々の分類器（ＳＶＭ、ＬＤＡ、ＭＳＥ）を用いる特徴選択実験の全ては、良
好な特徴は、単一分類器の重みを用いることによるよりはＲＦＥを用いることに
よって得られることを示した。同様に、良好な結果は、特徴のチャンクを排除す
ることによるよりもある時点で１つの特徴を排除することによって得られた。し
かしながら、遺伝子のより小さなサブセット（１００未満）に対して有意な差が
あるに過ぎない。いずれかの特定な理論に拘束されるつもりはないが、スピード
についてのトレーディング精度なくして、最初の数回の反復で特徴のチャンクを
除去することによってＲＦＥを用い、次いで、一旦特徴セットが数百の数と反応
する時点において１つの特徴を除去することができるのは理論化される。ＲＦＥ
アルゴリズムは、特徴の合計数が線型下とされる。これは、近い将来に起こると
予測されるごとく、遺伝子の数が数百万に近づく実験で用いられる。【０２４５】他の実験はＳＶＭで使用した。１つの実験は、重みの最大数を強制的にゼロと
するように最適化問題を公式化するものである。以下の線型プログラミング処方
を用いた；Ｙ_Ｉ［（ｗ*−ｗ）・ｘ＋ｂ］≧１−ζ_Ｉｗ_Ｉ＞０ｗ_Ｉ*＞０Ｉ＝１．．．ｎの条件下ので、ｃｗ_Ｉ＋ｗ_Ｉ*＋ＣΣ_ｉζ_ｉ［式中、Ｃは正の定数である］ＳＶＭＲＦＥは、相関方法の独立仮定を排除することによって、特徴ランキ
ングに基づいて特徴選択を改良する。それは、特徴のネステッドサブセットを生
じる。これは、ｄの特徴の選択されたサブセットがｄ＋１の特徴のサブセットに
含まれることを意味する。特徴ランキング方法では、最良の可能な分離を供する
シングルトンが無いであろう。最良特徴対はそのシングルトンを一体化するとい
う保証はない。【０２４６】コンビナトリアルサーチは、特徴ランキングに対する計算が強い代替法である
。ｄの特徴またはそれ未満の最適サブセットを求めるにはｄの特徴またはそれ未
満の全ての組合せを試す。最良の分類性能を生じる組合せを選択する。本発明の
１つの実施形態はコンビナトーリアル方法を用いることを含む。【０２４７】コンビナトリアルサーチを用いて、ＳＶＭＲＦＥで選択した遺伝子のサブセ
ットで開始し、最適特徴セットを改良した。白血病データは、その訓練／テスト
データスプリットバージョンで用いた。方程式Ｃ＝Ｑ−２ε（ｄ）のモデル選択
基準は訓練データセットのみで計算し、いずれの組合せがテストデータで最良に
実行されるかを予測しようと試みた。最初にランク付けされた遺伝子のトリプレ
ットは訓練セットおよびテストセット双方で１００％の分類精度を供した。【０２４８】本発明の他の実施形態は非線形分類器の使用を含む。本発明のＳＶＭＲＦＥ
は、形態の決定関数：Ｄ（ｘ）＝Σ_Ｉα_Ｉｙ_ＩＫ（ｘ_Ｉ，ｘ）の決定関数にて中核ＳＶＭで用いる。【０２４９】用いたランキング基準はベクトルの重みｗ＝Σ_Ｉα_Ｉｙ_Ｉであった。ｗはもは
や分類器の重みベクトルではないことに注意されたし。【０２５０】ＳＶＭＲＦＥの他の実施形態は、医療予後のごとき回帰の問題において、お
よび密度評価または密度の支持の評価の問題のための使用を含む。【０２５１】いずれかの特定の理論に拘束されるつもりは無いが、ＲＦＥランキングは、あ
る意味では最適である増大するサイズの特徴のネステッドサブセットを生じると
考えることができる。個々には、もう１つのものよりは良好にランク付けされる
特徴はデータを良好に分離できないであろう。事実、第１にランクされた特徴と
大いに相関するいずれかのランクの特徴がある。ＳＶＭＲＦＥによって供され
た単純な線型構造へ相関次元を付加する１つの方法は、与えらえた相関係数に従
って遺伝子をクラスター化することである。ＳＶＭＲＦＥについての前処理に
おける非監督クラスタリングを本出願で示した。次いで、クラスター中心をラン
ク付けされるべき特徴として用いた。また、監督クラスタリングはＳＶＭＲＦ
Ｅについての後処理として用いた。また、トップランキング特徴をクラスター中
心として用いた。残りの拒絶された特徴をそれらの中心に対してクラスター化し
た。【０２５２】ＳＶＭは、ＤＮＡマイクロアレイデータからの遺伝子発現の広いパターンの解
析に特に役に立つ。それらは、数千の遺伝子のごとき非常に多数の特徴、および
少数の患者のごとき少数の訓練パターンを容易に扱うことができる。ベースライ
ン方法はＳＶＭによる二日だけの仕事において優れていた。【０２５３】２つの癌データベースは、遺伝子のサブセットを選択するプロセスにおいて遺
伝子間の相互情報を考慮しないと分類性能を損なうことを示した。暗黙の独立仮
定をなすベースライン方法よりも優れた有意義な改良が得られた。ＳＶＭを介し
て見出されたトップにランクされた遺伝子は、全て、癌に関係していた。対照的
に、他の方法は、手での分離と相関するが、癌診断には関係しない遺伝子を選択
した。【０２５４】本発明は線型ＳＶＭ分類器で証明したが、本発明は、回帰に対する、および密
度評価に対する非線形分類器を含む。コンビナトーリアルサーチのごとき他のＳ
ＶＭ遺伝子選択方法もまた本発明に含まれる。本発明の好ましい方法は、線型分
類器の使用を含み、そのような分類器は、訓練パターンの数よりも特徴の大きな
比率数のため好ましい。【０２５５】これまでの記載は本発明の好ましい実施形態のみに関し、添付の請求の範囲に
記載された本発明の精神および範囲を逸脱することなく多数の修飾または変形を
なすことができるのはもちろん理解されるべきである。そのような別の実施形態
は、本発明の精神および範囲に含まれると考えられる。従って、本発明の範囲は
添付の請求の範囲によって記載され、これまでの記載によって裏付けられる。【図面の簡単な説明】【図１】図１は、学習機械を用いてデータから発見することができる知識を増加させる
ための例示的一般的方法を示すフローチャートである。【図２】図２は、支持ベクトル機を用いてデータから発見することができる知識を増加
させるための例示的方法を示すフローチャートである。【図３】図３は、本発明の例示的実施形態による、前処理または後処理技術のために、
単独配置にてまたは学習機械と組み合わせて用いることができる例示的最適カテ
ゴリー化方法を示すフローチャートである。【図４】図４は、支持ベクトル機に入力することができる例示的非拡大データセットを
示す。【図５】図５は、図４のデータセットを用いて支持ベクトル機によって生じた例示的後
処理された出力を示す。【図６】図６は、図４のデータセットに基づいて支持ベクトル機に入力することができ
る例示的拡大されたデータセットを示す。【図７】図７は、図６のデータセットを用いて支持ベクトル機によって生じた例示的後
処理された出力を示す。【図８】図８は、図３の最適カテゴリー化方法の単独適用のための例示的入力および出
力を示す。【図９】図９は、線型中核を含む第１の支持ベクトル機および多項式中核を含む第２の
支持ベクトル機からの例示的後処理された出力の比較である。【図１０】図１０は、本発明の例示的実施形態のための例示的オペレーティング環境を示
す機能的ブロックダイアグラムである。【図１１】図１１は、本発明の別の実施形態のための代替例示的オペレーティング環境を
示す機能的ブロックダイアグラムである。【図１２】図１２は、本発明のさらなる代替実施形態の実行のための例示的ネットワーク
オペレーティング環境を示す機能的ブロックダイアグラムである。【図１３】図１３は、線型判別分類器の使用をグラフで示す。Ａ）ＳＶＭでの訓練例の分
離。Ｂ）同一ＳＶＭでの訓練およびテスト例の分離。Ｃ）ベースライン方法での
訓練例の分離。Ｄ）ベースライン方法での訓練およびテスト例の分離。【図１４】図１４は、実施例２と同様の情報でのＲＦＥを用いる結果のグラフを示す。【図１５】図１５は、２つの遺伝子について組織試料にわたる遺伝子発現値の分布を示す
。【図１６】図１６は、全ての組織試料についての遺伝子にわたる遺伝子発現値の分布を示
す。【図１７】図１７は、結腸癌についてのマイクロアレイデータからの遺伝子発現値を表す
データマトリックスを示す。【図１８】図１８は、前処理後のＲＦＥの結果を示す。【図１９】図１９は、本発明およびゴラブ（Ｇｏｌｕｂ）の方法のグラフによる比較を示
す。【図２０】図２０は、最良の３２の遺伝子およびすべての他の遺伝子の間の相関を示す。【図２１】図２１は、１００の密なＱＴクラストクラスターで訓練した場合のＲＦＥの結
果を示す。【図２２】図２２は、ＳＶＭＲＦＥによって選択されたトップの８つのＱＴクラストク
ラスターを示す。【図２３】図２３は、ＱＴクラストトップ遺伝子バラツキプロットを示す。【図２４】図２４は監督クラスタリングを示す。【図２５】図２５は、全データセットで訓練した場合のＳＶＭＲＦＥの結果を示す。【図２６】図２６は、全データセットで訓練した場合のゴラブ（Ｇｏｌｕｂ）の方法の結
果を示す。【図２７】図２７は、支持ベクトルの荷重係数を示す。【図２８】図２８は、左から右に重要性が増大する順番のＳＶＭＲＦＥによって発見さ
れたトップにランクされた遺伝子を示す。【図２９】図２９は、左から右に重要性が増大する順のゴラブ（Ｇｏｌｕｂ）の方法によ
って発見された７つのトップにランクされた遺伝子を示す。【図３０】図３０は、異なる方法を用いる結腸癌データについての特徴（遺伝子）選択方
法の比較を示す。【図３１】図３１は分類器品質の基準を示す。三角および丸曲線は２つのクラス：クラス
１（負のクラス）およびクラス２（正のクラス）の例分布を表す。【図３２Ａ】図３２Ａは、白血病データについてのＳＶＭおよびベースライン方法の間の性
能比較を示す。【図３２Ｂ】図３２Ｂは、白血病データについてのＳＶＭおよびベースライン方法の間の性
能比較を示す。【図３３】図３３は白血病データについての１６遺伝子の最良セットを示す。【図３４】図３４は、白血病データについての遺伝子の最適数の選択を示す。【図３５】図３５は、結腸癌データについての遺伝子の最適数の選択を示す。【図３６】図３６は、多重支持ベクトル機の階級システムを示す機能的ブロックダイアグ
ラムである。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｃ１２Ｎ 15/09 Ｃ１２Ｑ 1/68 ＡＣ１２Ｑ 1/68 Ｇ０１Ｎ 33/53 ＭＧ０１Ｎ 33/53 33/566 33/566 Ｃ１２Ｎ 15/00 ＡＦ (31)優先権主張番号６０／１８４，５９６ (32)優先日平成12年２月24日(2000．2．24) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号６０／１９１，２１９ (32)優先日平成12年３月22日(2000．3．22) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号０９／５６８，３０１ (32)優先日平成12年５月９日(2000．5．9) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号０９／５７８，０１１ (32)優先日平成12年５月24日(2000．5．24) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号６０／２０７，０２６ (32)優先日平成12年５月25日(2000．5．25) (33)優先権主張国米国（ＵＳ） (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＢＺ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ギオン、イザベルアメリカ合衆国カリフォルニア州 94708 バークレークレストンロード 955 (72)発明者ウエストン、ジェイスンアメリカ合衆国ニューヨーク州 10003 ニューヨークアパートメント２ビーイーストセブンスストリート 34 Ｆターム(参考） 4B024 AA11 CA02 CA09 HA14 HA19 4B029 AA07 AA23 BB20 CC03 FA15 4B063 QA18 QA19 QQ02 QQ42 QQ53 QR56 QR62 QR82 QS25 QS34 QS39 4C084 AA17 MA01 NA14 ZB262

Claims

【特許請求の範囲】【請求項１】生物学的データに由来する訓練データセットを前処理して、
複数の訓練データポイントの各々を拡大し；前記前処理した訓練データセットを用いて学習機械を訓練し；前記訓練データセットと同様に生物学的データに由来するテストデータセット
を前処理し；前記前処理したテストデータセットを用いて前記訓練された学習機械をテスト
し；前記訓練された学習機械のテスト出力の受領に応じて、前記テスト出力を後処
理して前記前処理したテストデータから発見された知識が望ましいものであるか
を決定する；ステップを含むことを特徴とする学習機械を用いて生物学的データから発見され
た知識を増強する方法。【請求項２】請求項１記載の方法を実行するためのコンピューター実行可
能指令をその上に記憶したコンピューター読み取り可能な媒体。【請求項３】前記訓練データを前処理して、複数の訓練データポイントの
各々を拡大することは、複数の訓練データポイントの各々に次元を付加すること
を含むことを特徴とする請求項１記載の方法。【請求項４】各訓練データポイントが、１以上の元の座標を有するベクト
ルを含み；前記各訓練データポイントに次元を付加することは、１以上の新しい座標を前
記ベクトルに付加することを含むことを特徴とする請求項３記載の方法。【請求項５】前記ベクトルに付加された新しい座標は、元の座標の１つに
変換を適用することによって誘導されることを特徴とする請求項４記載の方法。【請求項６】前記変換が専門家の知識に基づくことを特徴とする請求項５
記載の方法。【請求項７】前記変換が計算により誘導されることを特徴とする請求項５
記載の方法。【請求項８】前記訓練データセットが連続的変数を含み；前記変換は、前記訓練データセットの前記連続的変数を最適にカテゴリー化す
ることを含むことを特徴とする請求項５記載の方法。【請求項９】前記テスト出力を後処理することは、前記テスト出力を前記
複数のテストデータポイントと比較することができるフォーマットに解釈するこ
とを含むことを特徴とする請求項１記載の方法。【請求項１０】前記データから発見されるべき知識は、回帰または密度評
価に関係し；前記テスト出力を後処理することは、前記テスト出力を最適にカテゴリー化し
、連続的変数においてカットオフポイントを誘導することを特徴とする請求項１
記載の方法。【請求項１１】前記データから発見されるべき知識は、回帰または密度評
価に関係し；前記訓練出力が連続的変数を含み；前記方法が、前記学習機械の訓練、前記学習機械からの訓練出力の受領に応答
して、前記テスト出力を最適にカテゴリー化して、前記連続的変数においてカッ
トオフポイントを誘導することによって前記訓練出力を後処理するステップをさ
らに含むことを特徴とする請求項１記載の方法。【請求項１２】生物学的データに由来する訓練データセットを前処理して
、複数の訓練データポイントの各々に意味を付加し；前記前処理された訓練データセットを用いて支持ベクトル機を訓練し；前記訓練データセットと同様にして生物学的データに由来するテストデータセ
ットを前処理し；前記前処理されたテストデータセットを用いて訓練された支持ベクトル機をテ
ストし；前記訓練された支持ベクトル機のテスト出力の受領に応答して、前記テスト出
力を後処理して、前記テスト出力が最適な解決であるかを決定する；ステップを含むことを特徴とする支持ベクトル機を用いて生物学的データから
発見された知識を増強する方法。【請求項１３】各訓練データポイントが、１以上の座標を有するベクトル
を含み；前記訓練データセットを前処理して、各訓練データポイントに意味を付加する
ことが、前記訓練データポイントが汚損しているかを決定し；前記訓練データポイントが汚損していると決定することに応答して、前記訓練
データポイントを清浄することを含むことを特徴とする請求項１２記載の方法。【請求項１４】前記訓練データポイントを清浄することは、前記データポ
イントを消去し、修復しまたは置き換えることを含むことを特徴とする請求項１
３記載の方法。【請求項１５】各訓練データポイントが、１以上の元の座標を有するベク
トルを含み；前記訓練データセットを前処理して、各訓練データポイントに意味を付加する
ことは、１以上の新しい座標をベクトルに付加することによって各訓練データポ
イントに次元を付加することを含むことを特徴とする請求項１２記載の方法。【請求項１６】前記ベクトルに付加された１以上の新しい座標は、元の座
標の１以上に変換を適応することによって誘導されることを特徴とする請求項１
５記載の方法。【請求項１７】前記変換が専門家の知識に基づくことを特徴とする請求項
１６記載の方法。【請求項１８】前記変換がコンピューターにより誘導されることを特徴と
する請求項１６記載の方法。【請求項１９】前記訓練データセットが連続的変数を含み；前記変換は、前記訓練データセットの前記連続的変数を最適にカテゴリー化す
ることを含むことを特徴とする請求項１６記載の方法。【請求項２０】前記訓練データセットの前記連続的変数を最適にカテゴリ
ー化することが：を含むことを特徴とする請求項１９記載の方法。【請求項２１】前記テスト出力を後処理することは、前記テスト出力を前
記テストデータセットと比較することができるフォーマットに解釈することを含
むことを特徴とする請求項１２記載の方法。【請求項２２】前記データから発見されるべき知識は、回帰または密度評
価に関係し；前記訓練出力が連続的変数を含み；前記方法が、前記訓練出力を最適にカテゴリー化して、前記連続的変数におい
てカットオフポイントを誘導することによって前記訓練出力を後処理するステッ
プをさらに含むことを特徴とする請求項１２記載の方法。【請求項２３】前記支持ベクトル機を訓練するに先立って前記支持ベクト
ル機についての中核を選択し；前記テスト出力を後処理することに応答して、前記テスト出力が最適な解決で
はないことを決定し；前記中核の選択を調整し；前記中核の選択を調整することに応答して、前記支持ベクトル機を再度訓練し
、再度テストするステップをさらに含むことを特徴とする請求項１２記載の方法
。【請求項２４】前記中核の選択は、先行性能または履歴データに基づき、
前記データから発見されるべき知識の性質または前記データの性質に依存するこ
とを特徴とする請求項２３記載の方法。【請求項２５】前記テスト出力を後処理することに応答して、前記テスト
出力が最適な解決であると決定し；生データセットを収集し；前記訓練データセットと同様に前記生データセットを前処理し；前記前処理された生データセットを、処理のために前記支持ベクトル機に入力
し；前記訓練された支持ベクトル機の生出力を受領するステップをさらに含むこと
を特徴とする請求項１２記載の方法。【請求項２６】前記生出力を、コンピューターにより誘導された英数字分
類器に解釈することによって前記生出力を後処理するステップをさらに含むこと
を特徴とする請求項２５記載の方法。【請求項２７】訓練データセットおよびテストデータセットを記憶するた
めの記憶デバイス；支持ベクトル機を実行するためのプロセッサ；データベースから前記訓練データセットを収集し、前記訓練データセットを前処理して、複数の訓練データポイントの各々に意味
を付加し、前記前処理された訓練データセットを用いて支持ベクトル機を訓練し、前記支持ベクトル機を訓練するに応答して、前記データベースから前記テスト
データセットを収集し、前記訓練データセットと同様に前記テストデータセットを前処理し、前記前処理されたテストデータセットを用いて前記訓練された支持ベクトル機
をテストし、前記訓練された支持ベクトル機のテスト出力を受領するに応答して、前記テス
ト出力を後処理して、前記テスト出力が最適な解決であるかを決定するために操
作できるプロセッサ；をさらに含むことを特徴とする支持ベクトル機を用いて生物学的データから発
見される知識を増強するためのシステム。【請求項２８】遠隔源から前記テストデータセットおよび前記訓練データ
セットを受領するための通信デバイスをさらに含み；前記プロセッサは、さらに、前記訓練データセットの収集および前処理に先立
って前記訓練データセットを前記記憶デバイスに記憶し、および前記テストデー
タセットの収集および前処理に先立って前記テストデータセットを前記記憶デバ
イスに記憶するように操作できることを特徴とする請求項２７記載のシステム。【請求項２９】後処理されたテストデータを表示するための表示デバイス
をさらに含むことを特徴とする請求項２７記載のシステム。【請求項３０】各訓練データポイントが、１以上の元の座標を有するベク
トルを含み；前記訓練データセットを前処理して、各訓練データポイントに意味を付加する
ことは、１以上の新しい座標をベクトルに付加することによって各訓練データポ
イントに次元を付加することを含むことを特徴とする請求項２７記載のシステム
。【請求項３１】前記ベクトルに付加された１以上の新しい座標が、元の座
標の１以上に変換を適用することによって誘導されることを特徴とする請求項３
０記載のシステム。【請求項３２】前記変換が専門家の知識に基づくことを特徴とする請求項
３１記載のシステム。【請求項３３】前記変換がコンピューターにより誘導されることを特徴と
する請求項３１記載のシステム。【請求項３４】前記訓練データセットが連続的変数を含み；前記変換は、前記訓練データセットの前記連続的変数を最適にカテゴリー化す
ることを含むことを特徴とする請求項３１記載のシステム。【請求項３５】前記テスト出力が連続的変数を含み；前記テスト出力を後処理することは、前記テストデータセットの前記連続的変
数を最適にカテゴリー化することを含むことを特徴とする請求項３０記載のシス
テム。【請求項３６】前記データから発見されるべき知識は、回帰または密度評
価に関係し；前記訓練出力が連続的変数を含み；前記プロセッサが、さらに、前記訓練出力の前記連続的変数を最適にカテゴリ
ー化することによって、前記訓練出力を後処理するために操作できることを特徴
とする請求項３０記載のシステム。【請求項３７】前記訓練出力を最適にカテゴリー化することは、エントロ
ピー計算に基づいて前記連続的変数中に最適カットオフポイントを決定すること
を含むことを特徴とする請求項３６記載のシステム。【請求項３８】前記プロセッサが、さらに、前記支持ベクトル機を訓練す
るに先立って前記支持ベクトル機のための中核を選択し；前記テスト出力を後処理することに応答して、前記テスト出力が最適な解決で
はないことを決定し；前記中核の選択を調整し；前記中核の選択を調整することに応答して、前記支持ベクトル機を再度訓練し
再度テストするために操作できることを特徴とする請求項２７記載のシステム。【請求項３９】前記中核の選択は、先行性能または履歴データに基づき、
前記データから発見されるべき知識の性質または前記データの性質に依存するこ
とを特徴とする請求項３８記載のシステム。【請求項４０】生データセットが前記記憶デバイスに記憶され；前記プロセッサが、さらに、前記テスト出力を後処理するに応答して、前記テスト出力が最適な解決である
と決定し、前記記憶デバイスから前記生データセットを収集し、前記訓練データセットと同様に前記生データセットを前処理し、前記前処理された生データセットを、処理のために前記支持ベクトル機に入力
し；前記訓練された支持ベクトル機の前記生出力を受領するために操作できること
を特徴とする請求項２７記載のシステム。【請求項４１】前記プロセッサが、さらに、前記生出力をコンピューター
により誘導された英数字分類器に解釈することによって、前記生出力を後処理す
るために操作できることを特徴とする請求項４０記載のシステム。【請求項４２】前記通信デバイスが、さらに、前記英数字分類器を遠隔源
またはもう１つの遠隔源に送るように操作できることを特徴とする請求項４１記
載のシステム。【請求項４３】生物学的データに由来する訓練データセットを前処理して
、複数の訓練データポイントの各々を拡大し；前記前処理された訓練データセットを用いて学習機械を訓練し；前記訓練データセットと同様に生物学的データに由来するテストデータセット
を前処理し；前記前処理されたテストデータセットを用いて、前記訓練された学習機械をテ
ストし；前記訓練された学習機械のテスト出力を受領するのに応答して、前記テスト出
力を後処理して、前記前処理されたテストデータセットから発見された知識が望
ましいかを決定する；ことを特徴とする学習機械を用いることを含む病気を診断する方法。【請求項４４】前記病気が癌であることを特徴とする請求項４３記載の方
法。【請求項４５】前記癌が結腸癌であることを特徴とする請求項４４記載の
方法。【請求項４６】前記癌が乳癌であることを特徴とする請求項４４記載の方
法。【請求項４７】前記テストデータセットから発見された知識が、前記病気
に関連する遺伝子を含むことを特徴とする請求項４３記載の方法。【請求項４８】学習機械によって同定された遺伝子または遺伝子産物の活
性に干渉する、またはそれを増強するのに効果的な量で薬剤を投与することを特
徴とする病気を治療する方法。【請求項４９】学習機械によって病気と関連すると同定された遺伝子に特
異的にハイブリダイズする遺伝子プローブを含むことを特徴とする診断デバイス
。【請求項５０】訓練データセットを前処理して、複数の訓練データポイン
トの各々に意味を付加し；前記前処理された訓練データセットを用いて、複数の支持ベクトル機の各々を
訓練し、前記各支持ベクトル機は異なる中核を含み；前記訓練データセットと同様にテストデータセットを前処理し；前記前処理されたテストデータセットを用いて、前記複数の訓練された支持ベ
クトル機の各々をテストし；前記複数の訓練された支持ベクトル機の各々から前記テスト出力の各々を受領
することに応答して、前記テスト出力の各々を相互に比較して、前記テスト出力
のいずれかが最適な解決であるかを決定することを含み、前記データは生物学的データであることを特徴とする複数の支持ベクトル機を
用いて知識発見を増強する方法。【請求項５１】各訓練データポイントが、１以上の座標を有するベクトル
を含み；前記訓練データセットを前処理して、各訓練データポイントに意味を付加する
ことが；前記訓練データポイントが汚損していると決定し；前記訓練データポイントが汚損していると決定することに応答して、前記訓練
データポイントを清浄することを含むことを特徴とする請求項５０記載の方法。【請求項５２】前記訓練データポイントを清浄することは、前記データポ
イントを消去し、修復しまたは置き換えることを含むことを特徴とする請求項５
１記載の方法。【請求項５３】各訓練データポイントが、１以上の元の座標を有するベク
トルを含み；前記訓練データセットを前処理して、各訓練データポイントに意味を付加する
ことは、１以上の新しい座標をベクトルに付加することによって各訓練データポ
イントに次元を付加することを含むことを特徴とする請求項５０記載の方法。【請求項５４】前記ベクトルに付加された１以上の新しい座標は、元の座
標の１以上に変換を適用することによって誘導されることを特徴とする請求項５
３記載の方法。【請求項５５】前記変換が専門家の知識に基づくことを特徴とする請求項
５４記載の方法。【請求項５６】前記変換がコンピューターにより誘導されることを特徴と
する請求項５４記載の方法。【請求項５７】前記訓練データセットが連続的変数を含み；前記変換は、前記訓練データセットの前記連続的変数を最適にカテゴリー化す
ることを含むことを特徴とする請求項５０記載の方法。【請求項５８】前記テスト出力の各々を相互に比較することが、前記テスト出力の各々を共通のフォーマットに解釈することによって前記テス
ト出力の各々を後処理し；前記後処理したテスト出力の各々を相互に比較して、前記テスト出力のいずれ
が最低の全体的最小エラーを表すかを決定することを含むことを特徴とする請求
項５０記載の方法。【請求項５９】前記データから発見されるべき知識は、回帰または密度評
価に関係し；各支持ベクトル機が、連続的変数を含む訓練出力を生じ；前記方法が、前記訓練出力を最適にカテゴリー化して、前記連続的変数にカッ
トオフポイントを誘導することによって前記訓練出力の各々を後処理するステッ
プをさらに含むことを特徴とする請求項５０記載の方法。【請求項６０】前記テスト出力の各々を相互に比較することに応答して、
前記テスト出力のいずれも最適な解決ではないと決定し；前記複数の支持ベクトル機の１以上の異なる中核を調整し；前記異なる中核の選択を調整することに応答して、前記複数の支持ベクトル機
の各々を再度訓練し再度テストするステップをさらに含むことを特徴とする請求
項５０記載の方法。【請求項６１】前記異なる中核を調整することは、先行性能または履歴デ
ータに基づいて行われ、前記データから発見されるべき知識の性質または前記デ
ータの性質に依存することを特徴とする請求項６０記載の方法。【請求項６２】前記テスト出力の各々を相互に比較することに応答して、
前記テスト出力の選択された１つが最適な解決であると決定し、前記複数の訓練
された支持ベクトル機の選択された１つによって生じた前記テスト出力の選択さ
れた１つは選択された中核を含み；生の生物学的データセットを収集し；前記訓練データセットと同様に前記生の生物学的データセットを前処理し；前記選択された中核を含む選択された訓練された支持ベクトル機に、前記前処
理された生データセットを入力し；前記選択された訓練された支持ベクトル機の生の出力を受領するステップをさ
らに含むことを特徴とする請求項５０記載の方法。【請求項６３】前記生の出力をコンピューターにより誘導された英数字分
類器に解釈することによって、前記生出力を後処理するステップをさらに含むこ
とを特徴とする請求項６２記載の方法。【請求項６４】前記テスト出力の各々を相互に比較することに応答して、
前記テスト出力の選択された１つが最適な解決であると決定し、前記複数の訓練
された支持ベクトル機の選択された１つによって生じた前記テスト出力の選択さ
れた１つが選択された中核を含み；生の生物学的データセットを収集し；前記訓練データセットと同様に前記生の生物学的データセットを前処理し；前記選択された中核に基づいて平行処理のために複数の支持ベクトル機の２以
上を配置し；前記前処理された生データセットを、前記平行処理のために配置された支持ベ
クトル機に入力し；前記訓練された支持ベクトル機の前記生出力を受領するステップをさらに含む
ことを特徴とする請求項５０記載の方法。【請求項６５】訓練データセットを前処理して、複数の訓練データポイン
トの各々に意味を付加し；前記前処理された訓練データセットを用いて、複数の支持ベクトル機の各々を
訓練し、前記各支持ベクトル機は異なる中核を含み；前記訓練データセットと同様にテストデータセットを前処理し；前記前処理されたテストデータセットを用いて、前記複数の訓練された支持ベ
クトル機の各々をテストし；前記複数の訓練された支持ベクトル機の各々から前記テスト出力の各々を受領
することに応答して、前記テスト出力の各々を相互に比較して、前記テスト出力
のいずれが最適な解決であるかを決定することを含み、前記データは生物学的データであることを特徴とする複数の支持ベクトル機を
用いることを含む病気を診断する方法。【請求項６６】前記病気が癌であることを特徴とする請求項６５記載の方
法。【請求項６７】前記癌が結腸癌であることを特徴とする請求項６６記載の
方法。【請求項６８】前記癌が乳癌であることを特徴とする請求項６６記載の方
法。【請求項６９】前記テストデータセットから発見された知識が、前記病気
に関連する遺伝子を含むことを特徴とする請求項６５記載の方法。【請求項７０】複数の学習機械によって同定された遺伝子または遺伝子産
物の活性と干渉する、または増強するのに効果的な量で薬剤を投与することを特
徴とする病気を治療する方法。【請求項７１】複数の学習機械によって病気に関連すると同定された遺伝
子に特異的にハイブリダイズする遺伝子プローブを含むことを特徴とする診断デ
バイス。【請求項７２】訓練生物学的データセット、テストデータセット、生デー
タセット、および分布したネットワークと連絡した遠隔源からの金融口座識別子
を受領するための分布したネットワークと連絡したサーバ；前記訓練生物学的データセットおよび前記テスト生物学的データセットを記憶
するためのサーバに連絡した１以上の記憶デバイス；支持ベクトル機を実行するためのプロセッサを含み；前記プロセッサは、さらに、前記１以上の記憶デバイスから前記訓練データセットを収集し、前記訓練生物学的データセットを前処理して、複数の訓練生物学的データポイ
ントの各々に意味を付加し、前記前処理された訓練生物学的データセットを前記支持ベクトル機に入力して
、前記支持ベクトル機を訓練し、前記支持ベクトル機の訓練に応答して、データベースから前記テスト生物学的
データセットを収集し、前記訓練生物学的データセットと同様に前記テスト生物学的データセットを前
処理し、前記テスト生物学的データセットを前記訓練された支持ベクトル機に入力して
、前記支持ベクトル機をテストし、前記訓練された支持ベクトル機からテスト出力を受領することに応答して、前
記１以上の記憶デバイスから前記生の生物学的データセットを収集し、前記生の生物学的データセットを前記テストしたおよび訓練した支持ベクトル
機に入力して、前記生の生物学的データを処理し、前記支持ベクトル機から生の出力を受領することに応答して、前記生出力を後
処理して、コンピューターベースの英数字分類器を誘導し、前記英数字分類器を前記サーバに伝達するために作動することができ；前記サーバは、さらに、金融機関と連絡して、前記金融口座識別子によって同定された金融口座から資
金を受領し、前記資金を受領することに応答して、英数字識別子を前記遠隔源またはもう１
つの遠隔源に伝達するように作動できることを特徴とする支持ベクトル機を用い
て知識発見を増強するためのシステム。【請求項８２】各訓練生物学的データポイントが、１以上の座標を有する
ベクトルを含み；前記訓練生物学的データセットを前処理して、各訓練生物学的データポイント
を意味を付加することが；前記訓練生物学的データポイントが汚損されていると決定し；前記訓練生物学的データポイントが汚損していると決定することに応答して、
前記訓練生物学的データポイントを清浄することを含むことを特徴とする請求項
８１記載のシステム。【請求項８３】前記訓練生物学的データポイントを清浄することは、前記
生物学的データポイントを消去し、修復しまたは置き換えることを含むことを特
徴とする請求項８２記載のシステム。【請求項８４】各訓練生物学的データポイントが、１以上の元の座標を有
するベクトルを含み；前記訓練生物学的データセットを前処理して、各訓練生物学的データポイント
に意味を付加することは、１以上の新しい座標をベクトルに付加することによっ
て各訓練生物学的データポイントに次元を付加することを含むことを特徴とする
請求項８１記載のシステム。【請求項８５】前記ベクトルに付加された１以上の新しい座標は、元の座
標の１以上に変換を適用することによって誘導されることを特徴とする請求項８
４記載のシステム。【請求項８６】前記変換が専門家の知識に基づくことを特徴とする請求項
８４記載のシステム。【請求項８７】前記変換が計算により誘導されることを特徴とする請求項
８４記載のシステム。【請求項８８】前記訓練生物学的データセットが連続的変数を含み；前記変換は、前記訓練生物学的データセットの前記連続的変数を最適にカテゴ
リー化することを含むことを特徴とする請求項８４記載のシステム。【請求項８９】前記生物学的データから発見されるべき知識は、回帰また
は密度評価に関係し；支持ベクトル機が、連続的変数を含む訓練出力を生じ；前記プロセッサは、さらに、前記訓練出力を最適にカテゴリー化して、前記連
続的変数にカットオフポイントを誘導することによって前記訓練出力を後処理す
るために操作できることを特徴とする請求項８１記載のシステム。【請求項９０】前記プロセッサが、さらに、前記テスト出力の各々を相互に比較することに応答して、前記テスト出力のい
ずれも最適な解決ではないと決定し；前記複数の支持ベクトル機の１以上の異なる中核を調整し；前記異なる中核の選択を調整することに応答して、前記複数の支持ベクトル機
の各々を再度訓練し再度テストするために操作できることを特徴とする請求項８
１記載のシステム。【請求項９１】訓練生物学的データセット、テストデータセット、生デー
タセット、および分布したネットワークと連絡した遠隔源からの金融口座識別子
を受領するための分布したネットワークと連絡したサーバ；前記訓練生物学的データセットおよび前記テスト生物学的データセットを記憶
するためのサーバに連絡した１以上の記憶デバイス；支持ベクトル機を実行するためのプロセッサを含み；前記プロセッサは、さらに、前記１以上の記憶デバイスから前記訓練データセットを収集し、前記訓練生物学的データセットを前処理して、複数の訓練生物学的データポイ
ントの各々に意味を付加し、前記前処理した訓練生物学的データセットを前記支持ベクトル機に入力して、
支持ベクトル機を訓練し、前記支持ベクトル機の訓練に応答して、データベースから前記テスト生物学的
データセットを収集し、前記訓練生物学的データセットと同様に前記テスト生物学的データセットを前
処理し、テスト生物学的データセットを訓練された支持ベクトル機に入力して、支持ベ
クトル機をテストし、前記訓練された支持ベクトル機からテスト出力を受領するに応答して、前記１
以上の記憶デバイスから前記生の生物学的データセットを収集し、前記生の生物学的データセットを前記テストしたおよび訓練した支持ベクトル
機に入力して、前記生の生物学的データを処理し、前記支持ベクトル機から生の出力を受領することに応答して、前記生出力を後
処理して、コンピューターベースの英数字分類器を誘導し、前記英数字分類器を前記サーバに伝達するために作動することができ；前記サーバは、さらに、金融機関と連絡して、前記金融口座識別子によって同定された金融口座から資
金を受領し、前記資金を受領することに応答して、英数字識別子を前記遠隔源またはもう１
つの遠隔源に伝達するために作動できることを特徴とする支持ベクトル機を用い
て病気を診断するシステム。【請求項９２】前記病気が癌であることを特徴とする請求項９１記載のシ
ステム。【請求項９３】前記癌が結腸癌であることを特徴とする請求項９２記載の
方法。【請求項９４】前記癌が乳癌であることを特徴とする請求項９２記載の方
法。【請求項９５】第１の訓練生物学的データセットおよび第２の訓練生物学
的データセットを前処理して、複数の訓練生物学的データポイントの各々に次元
を付加し；前記第１の前処理された訓練生物学的データセットを用いて、１以上の第１の
支持ベクトル機を訓練し、前記第１の支持ベクトル機の各々は異なる中核を含み
；前記第２の前処理された訓練データセットを用いて、１以上の第２の支持ベク
トル機を訓練し、前記第２の支持ベクトル機の各々は異なる中核を含み；前記第１の訓練生物学的データセットと同様に第１のテスト生物学的データセ
ットを前処理し、前記第２の訓練生物学的データセットと同様に第２のテスト生
物学的データセットを前処理し；前記第１の前処理されたテスト生物学的データセットを用いて、前記第１の訓
練された支持ベクトル機の各々をテストし、前記第２の前処理されたテスト生物
学的データセットを用いて、前記第２の訓練された支持ベクトル機の各々をテス
トし；前記第１の訓練された支持ベクトル機の各々から第１のテスト出力を受領する
に応答して、前記第１のテスト出力の各々を相互に比較して、前記第１のテスト
出力のいずれが第１の最適な解決であるかを決定し；前記に第２の訓練された支持ベクトル機の各々から第２のテスト出力を受領す
ることに応答して、前記第２のテスト出力の各々を相互に比較して、前記第２の
テスト出力のいずれが第２の最適な解決であるかを決定し；前記第１の最適な解決を前記第２の最適な解決と組み合わせて、１以上のさら
なる支持ベクトル機に入力されるべき新しい入力データを創製することを特徴と
する複数の支持ベクトル機を用いて知識発見を増強する方法。【請求項９６】前記第１の訓練生物学的データセットおよび前記第２の訓
練生物学的データセットを前処理することは、さらに、前記訓練生物学的データポイントの少なくとも１つが汚損していると決定し；前記訓練生物学的データポイントが汚損されていると決定することに応答して
、前記汚損訓練生物学的データポイントを清浄することを含むことを特徴とする
請求項９５記載の方法。【請求項９７】前記汚損訓練生物学的データポイントを清浄することは、
前記データポイントを消去し、修復しまたは置き換えることを含むことを特徴と
する請求項９６記載の方法。【請求項９８】各訓練生物学的データポイントが、１以上の元の座標を有
するベクトルを含み；前記訓練生物学的データセットを前処理することは、１以上の新しい座標をベ
クトルに付加すること含むことを特徴とする請求項９５記載の方法。【請求項９９】前記ベクトルに付加された１以上の新しい座標は、元の座
標の１以上に変換を適用することによって誘導されることを特徴とする請求項９
８記載の方法。【請求項１００】前記変換が専門家の知識に基づくことを特徴とする請求
項９９記載の方法。【請求項１０１】前記変換がコンピューターにより誘導されることを特徴
とする請求項９９記載の方法。【請求項１０２】前記訓練データセットが連続的変数を含み；前記変換は、前記訓練データセットの前記連続的変数を最適にカテゴリー化す
ることを含むことを特徴とする請求項９５記載の方法。【請求項１０３】前記第１のテスト出力の各々を相互に比較し、前記第２
のテスト出力の各々を相互に比較することは、前記テスト出力の各々を共通のフォーマットに解釈することによって前記テス
ト出力の各々を後処理し；前記第１の後処理テスト出力の各々を相互に比較して、前記第１のテスト出力
のいずれが第１の最低の全体的最小エラーを表すかを決定し；前記第２の後処理されたテスト出力の各々を相互に比較して、前記第２のテス
ト出力のいずれが第２の最低全体的最小エラーを表すかを決定することを含むこ
とを特徴とする請求項９５記載の方法。【請求項１０４】前記データから発見されるべき知識は、回帰または密度
評価に関係し；各支持ベクトル機が、連続的変数を含む訓練出力を生じ；前記方法が、さらに、前記訓練出力を最適にカテゴリー化して、前記連続的変
数にカットオフポイントを誘導することによって前記訓練出力の各々を後処理す
るステップを含むことを特徴とする請求項９５記載の方法。【請求項１０５】前記テスト出力の各々を相互に比較することに応答して
、前記テスト出力のいずれも最適な解決ではないと決定し；前記複数の支持ベクトル機の１以上の異なる中核を調整し；前記異なる中核の選択を調整することに応答して、前記複数の支持ベクトル機
の各々を再度訓練し再度テストするステップをさらに含むことを特徴とする請求
項９５記載の方法。【請求項１０６】前記異なる中核を調整することは、先行性能または履歴
データに基づいて行われ、前記データから発見されるべき知識の性質または前記
データの性質に依存することを特徴とする請求項１０５記載の方法。