JP5064625B2 - パターンを同定するための方法及び機械 - Google Patents
パターンを同定するための方法及び機械 Download PDFInfo
- Publication number
- JP5064625B2 JP5064625B2 JP2001534088A JP2001534088A JP5064625B2 JP 5064625 B2 JP5064625 B2 JP 5064625B2 JP 2001534088 A JP2001534088 A JP 2001534088A JP 2001534088 A JP2001534088 A JP 2001534088A JP 5064625 B2 JP5064625 B2 JP 5064625B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- genes
- training
- svm
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P35/00—Antineoplastic agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Animal Behavior & Ethology (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Veterinary Medicine (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
Description
(技術分野)
本発明は、遺伝子、遺伝子産物、蛋白質、脂質、およびその組合せのごとき生物学的システムにおいて関連パターンを同定するための学習機械の使用に関する。生物学的システムにおけるこれらのパターンを用いて、異常な生理学的状態を診断し予測することができる。加えて、本発明を用いて検出することができるパターンを用い、治療剤を開発することができる。
【0002】
(発明の背景)
生物についての膨大な量のデータが、ゲノムの配列決定で生じつつある。個体のための処置および療法を提供するためにこの情報を用いることは、集められた情報の深い理解を要するであろう。ゲノムの情報を用いる努力は、既に、遺伝子発現の調査デバイスの開発に至っている。現在最も有望なデバイスの1つは遺伝子チップである。遺伝子チップは、オリゴヌクレオチドプローブのアレイを固体ベースの構造に付着させている。そのようなデバイスは、ここに出典明示してその全体を本明細書の一部とみなす米国特許第5,837,832号および第5,143,854号に記載されている。該チップ上に存在するオリゴヌクレオチドプローブを用いて、標的核酸が特異的参照配列と同一または異なるヌクレオチド配列を有するか否かを判断することができる。プローブのアレイは、参照配列に相補的なプローブならびに該相補的プローブとは1以上の塩基だけ異なるプローブを含む。
【0003】
遺伝子チップは、非常に小さなチップ上にオリゴヌクレオチドの大きなアレイを含有することができる。ハイブリダイゼーション強度データを測定して、いずれのプローブがハイブリダイズしているかを決定するための種々の方法が当該分野で知られている。ハイブリダイゼーションを検出する方法は蛍光、放射性、酵素、ケモルミネセント、バイオルミネセントおよび他の検出系を含む。
【0004】
また、ゲルブロットまたはドットブロットに対するゲル電気泳動およびハイブリダイゼーションのごとき古いが依然として使用できる方法も遺伝子配列情報を決定するのに有用である。また、溶液ハイブリダイゼーションおよびイン・サイチュハイブリダイゼーション方法のための捕獲および検出系もまたゲノムについての情報を徹底するのに用いられる。加えて、染色体ウォーキングおよびファージ生ラリーの確立のごとき、ゲノム配列の大きな部分を規定するための以前および現在使用される方法を用いて、ゲノムについての知識を獲得する。
【0005】
配列、調節、活性化、結合部位および内部コーディングシグナルに関する大量の情報は、当該分野で知られた方法によって生じ得る。事実、そのような方法によって生じつつあるデータの量は有用な情報の由来を隠してしまう。ニューラル・ネットワークのごとき進歩した学習ツールによって助けられると、ヒト研究者は、大きな特徴−リッチなデータセットにおいて表された基礎となるプロセスの粗いモデルを誘導することができるに過ぎない。
【0006】
膨大な量のデータを生じ得る生物学的研究のもう1つの領域は、プレテオミックスの出現する分野である。プロテオミックスは、ゲノムによってコードされ調節された蛋白質の群の研究である。この分野は、蛋白質の分析、蛋白質レベルの調節および遺伝子調節および発現に対する関係に対して新しい焦点を表す。個人または集団のプロテオームの正常または病理学的状態の理解は、病気の予後または診断についての情報、薬物もしくは遺伝子的処置の開発、または酵素置換療法を提供する。プロテオームを研究する現在の方法は、蛋白質の二次元(2−D)ゲル電気泳動、続いての質量分析による分析を含む。病因または治療においていずれかの特定の時点または段階の蛋白質のパターンは2−Dゲル電気泳動によって観察することができる。2−Dゲルで分離されている細胞で見出される数千の蛋白質を同定するにおいて問題が生じる。マススペクトロフォトメーターを用いて、アミノ酸配列を同定し、それを公知の配列データベースと比較することによってゲルから単離された蛋白質を同定する。製造と、これらの方法は、プロテオームの小さな部分を分析するには多数のステップを要する。
【0007】
近年、遺伝子の発現を蛋白質の生産、構造および機能に関連付けることができる技術が開発されてきた。自動高スループット分析、核酸分析およびバイオインフォーマティックス技術が、ゲノムをプローブし、遺伝子の突然変異および発現を病気の素因および進行に関連付ける能力において援助してきた。現在の分析方法は、これらの技術によって生じた大量のデータを管理するそれらの能力が制限されている。
【0008】
生物学的系の機能パラメーターを決定するにおける最も最近の進歩の1つは、遺伝子発現、蛋白質の機能および相互作用、および病気の状態または進行の間の関係を解明するための、ゲノム情報と蛋白質機能との関係の分析である。ゲノムの活性化または発現は、常には、蛋白質の生産レベルまたは活性における直接的変化を意味しない。mRNAの別のプロセッシングまたは転写後もしくは翻訳後調節メカニズムは、1つの遺伝子の活性が、その全てが異なる移動パターンおよび生物学的活性を持ちわずかに異なる多数の蛋白質をもたらしかねなくする。ヒトゲノムは、潜在的には、100,000の遺伝子を含むが、ヒトプロテオームは50ないし100倍大きいと信じられている。現在、ゲノムおよびプロテオームに対するそのような生物学的研究によって生じたデータを適切に解析する方法、システムまたはデバイスはない。
【0009】
知識の発見は、データ収集の最も望ましい最終産物である。データベース技術における最近の進歩は、膨大な量のデータを生じさせ、収集し、および記憶するためのシステムおよび方法における爆発的な成長に至った。データベース技術は大きなデータセットの十分な収集および記憶を可能とするが、このデータにおける情報のヒトの理解を容易とする挑戦はより困難になりつつある。多くの現存の技術に伴い、問題はアプローチできなくなった。かくして、自動知識発見ツールの新しい創製に対する要求が存在する。
【0010】
具体的な例として、ヒトゲノムプロジェクトは、ヒトの遺伝子暗号を記載するマルチ−ギガバイトのデータベースを普及させつつあるヒトゲノムのこのマッピングが完了する前には、データベースのサイズはかなり大きくなると予測される。そのようなデータベース中の膨大な量のデータは、スプレッドシートおよびその場限りの疑問のごときデータ解析のための伝統的なツールを圧倒する。データ解析の伝統的な方法は、データからの情報的報告を生じさせるのに用いることができるが、膨大な量のデータ中の有用な知識のパターンを解析し、それを見出すことにおいて、知的にかつ自動的にヒトを援助する能力を有しない。同様に、解釈のための伝統的に受け入れられた参照範囲および標準を用いると、しばしば、ヒトが、非常に少量のデータについてさえ有用な知識のパターンを同定するのが不可能である。
【0011】
機械学習のいくつかの例において効果的であることが示されている1つの最近の開発は、逆−増殖ニューラル・ネットワークである。逆−増殖ニューラル・ネットワークは、容易にはヒトに明らかとならないであろうデータセットにおいて知識を見出すように訓練することができる学習機械である。しかしながら、ニューラル・ネットワークがよく制御された学習機械であることを妨げる、逆−増殖ニューラル・ネットワークアプローチに関する種々の問題がある。例えば、逆−増殖ニューラル・ネットワークの重要な欠点は、経験的なリスク機能が多くの局所的な最小を有し得ることであり、これは、この技術による発見から最適な解放を容易に曖昧としかねない場合である。逆−増殖ニューラル・ネットワークによって使用される標準最適化手法は解答に収束できるが、ニューラル・ネットワーク方法は、局所化された最小さえ達成されることを保証できず、ましてや、所望の全体的最小を達成することは保証できない。ニューラル・ネットワークから得られた解決の質は多くの因子に依存する。特に、ニューラル・ネットワークを実行する実行者の技量は、最終的な利益を決定するが、初期重量のランダムな選択のように恐らくは良性の因子でさえ不充分な結果に導きかねない。さらに、ニューラル・ネットワーク学習で使用されるグラジエントベースの方法の収束は固有に低い。さらなる欠点は、S字状活性化機能はスケーリング因子を有し、これは近似の質に影響する。恐らくは、知識発見に関連するニューラル・ネットワークの最大の限定因子は、訓練データにおける各さらなる特徴または次元についての計算時間およびパワーにおける比例しない成長に関連する「次元の呪い」である。
【0012】
ニューラル・ネットワークの欠点は、支持ベクトル機を用いて克服される。一般的な用語において、支持ベクトル機は、先験的に選択された非線形マッピング関数を介して入力ベクトルを高次元特徴空間にマップする。この高次元特徴空間において、最適な分離超平面が構築される。次いで、最適超平面を用いて、クラス分離、回帰フィット、または密度評価における精度のごとき事柄を決定する。
【0013】
支持ベクトル機内で、特徴空間の次元は巨大となり得る。例えば、4次多項式マッピング関数は、200次元インプット空間が16億次元特徴空間にマップされるようにする。カーネルトリックおよびヴァクニーク−チェルヴォネンキス(Vapnik−Chervonenkis)次元は、支持ベクトル機が、他の方法を制限する「次元の呪い」の裏をかき、この非常に高次元の特徴空間から一般化できる解答を効果的に引き出すことを可能とする。支持ベクトル機に向けられた特許出願は、米国特許出願第09/303,386号;第09/303,387号;第09/303,389号;第09/305,345号(全て、1999年5月1日出願);および2000年5月9日に出願された米国特許出願第09/568,301号;および2000年5月24日に出願された米国特許出願第09,578,011号を含み、また、1999年10月27日に出願された米国仮特許出願第60/161,806号;1999年12月2日に出願された米国仮特許出願第60/168,703号;2000年2月24日に出願された米国仮特許出願第60/184,596号;および2000年3月22日に出願された米国仮特許出願セリアル番号60/191,219の利益を主張する(それらの全てを、ここに出典明示してその全体を本明細書の一部とみなす)。
【0014】
もし訓練ベクトルが最適超平面(または一般化された最適超平面)によって分離されれば、テスト例でエラーを犯す確率の期待値は訓練セットにおける例によって制限される。この制限は、特徴空間の次元に依存せず、また係数のベクトルのノルムにも依存せず、また入力ベクトルの数の制限にも依存しない。従って、もし訓練セットのサイズに対する少数の支持ベクトルから最適超平面を構築することができれば、無限次元の空間においてさえ一般化能力は高いであろう。
【0015】
ゲノムおよびプロテオームテストから生じたデータは、多くの異なる観点から解析することができる。例えば、文献は、非監督学習技術によって発見された遺伝子クラスターの研究のごとき単純なアプローチを示す(アロン(Alon),1999)。また、クラスターリングは、しばしば、データの他の次元に沿ってなされる。例えば、各実験は、特定の病気を運ぶまたは運ばない一人の患者に対応し得る(例えば、(ゴラブ(Golub),1999)参照)。この場合、クラスターリングは、通常、同様の臨床的記録を持つ患者をグループとする。また、監督学習は蛋白質の分類(ブラウン(Brown),2000)および癌の分類(ゴラブ(Golub),1999)に適用されている。
【0016】
支持ベクトル機は、膨大な量の入力データから知識を発見する問題に対して望ましい解決を提供する。しかしながら、データセットから知識を見出す支持ベクトル機の能力は、訓練データセット内に含まれる情報に比例して制限される。従って、訓練データを増加させて、支持ベクトル機による知識発見を最大化するようなデータ前処理のためのシステムおよび方法に対する要望が存在する。
【0017】
さらに、支持ベクトル機からの生の出力は、最も容易に解釈できる形態で知識を十分に開示することができない。かくして、さらに、ヒトについてデリバーされた情報の価値またはさらなる自動処理を最大化するために、支持ベクトル機からのデータ出力を後処理するシステムおよび方法に対する要望がさらに存在する。
【0018】
加えて、データから知識を発見する支持ベクトル機の能力はカーネルの選択によって制限される。従って、支持ベクトル機のための所望のカーネルを選択しおよび/または創製するための改良されたシステムおよび方法に対する要望が存在する。
【0019】
プロテオミックスおよびゲノミックスの研究によって生じたデータベースに含まれる情報を操作するのに用いることができる方法、システムおよびデバイスもやはり要望されている。また、生物学的情報のゲノミック、プロテオミックおよび伝統的源からの情報を集積できるシステムおよびデバイスが要望される。そのような情報は、病気の診断および予測ならびに生物学的および他のシステムの他の変化で必要である。
【0020】
さらに、必要とされるのは、支持ベクトル機によって同定される病気および生物学的系の他の変化を処置するための方法および組成物である。一旦データ間のパターンまたは関係が本発明の支持ベクトル機によって同定され、それを用いて特定の病気状態を検出または予測するならば、必要なのは、遺伝子チップを含めた診断テスト、および体液または体の変化のテスト、ならびに疾患を治療するための方法および組成物である。
【0021】
(発明の概要)
本発明は、一般に学習機械、特に支持ベクトル機を用いてデータから発見される知識を増強するためのシステムおよび方法を含む。特に、本発明は、病気のごとき生物学的系における変化を診断し予測するために学習機械を用いる方法を含む。さらに、一旦データから発見された知識が決定されれば、発見された具体的関係を用いて、病気を診断し予測し、そのような病気を検出し治療する方法が生物学的系に適用される。
【0022】
本発明の1つの実施形態は、訓練データセットを前処理して、学習機械の最も有利な適用を可能とすることができる。各訓練データポイントは、1以上の座標を有するベクトルを含む。訓練データセットを前処理することは、失われたまたは誤ったデータポイントを同定し、適切なステップをとって、誤ったデータを修正するか、または適当であれば問題の範囲から観察または全分野を除去することを含むことができる。また、訓練データセットを前処理することは、1以上の新しい座標をベクトルに付加することによって各訓練データポイントに次元を付加することを含み得る。ベクトルに付加された新しい座標は、元の座標の1以上に変換を適用することによって誘導することができる。変換は専門家の知識に基づくことができるか、または計算により誘導することができる。訓練データセットが連続変数を含む状況においては、変換は、訓練データセットの連続変数を最適にカテゴリー分けすることを含み得る。
【0023】
好ましい実施形態において、支持ベクトル機は、前処理された訓練データセットを用いて訓練される。このように、前処理によって提供された訓練データのさらなる表示は、それから知識を発見する学習機械の能力を増強することができる。支持ベクトル機の特別の文脈において、訓練セットの次元が大きくなれば、それから誘導できる一般化の質が高くなる。データから発見されるべき知識が回帰または密度評価に関連するか、あるいは訓練出力が連続変数を含むと、訓練出力は、訓練出力を最適にカテゴリー分けして、連続変数からカテゴリー化を誘導することによって後処理することができる。
【0024】
テストデータセットは、訓練データセットと同様に前処理される。次いで、前処理されたテストデータセットを用いて、訓練された学習機械をテストする。訓練された学習機械のテスト出力を後処理して、テスト出力が最適な解決であるかを判断する。テスト出力を後処理することは、テストデータセットと比較することができるフォーマットにテスト出力を解釈することを含む。別の後処理ステップは、出力データの更なる処理のためのヒトの解釈性または適当性を増強することができる。
【0025】
支持ベクトル機の文脈において、本発明は、支持ベクトル機を訓練するに先立っての少なくとも1つのカーネルの選択を提供する。カーネルの選択は、アドレスされる特定の問題の従前の知識または学習機械で使用されるべきいずれかの利用可能なデータの特性の解析に基づくことができ、それは、典型的には、データから発見されるべき知識の性質に依存する。所望により、後処理された訓練出力またはテスト出力を比較する対話形式プロセスを適用して、いずれの配置が最適解決を提供するかに関する判断をなすことができる。もしテスト出力が最適な解決でないならば、知識の選択を調整することができ、支持ベクトル機を再度訓練し、再度テストすることができる。最適解決が同定されたと判断されれば、訓練データセットを同様に、生データセットを収集し、前処理することができる。前処理された生データセットは、処理のために学習機械に入力される。学習機械の生出力を、次いで、生出力を計算により誘導される英数字分類器またはSVM由来解答のさらなる利用に適した他の形態に解釈することによって後処理することができる。
【0026】
例示的な実施形態において、支持ベクトル機を用いてデータから発見された知識を増強するシステムが提供される。該例示的システムは、訓練データセットおよびテストデータセットを記憶するための記憶デバイス、および支持ベクトル機を実行するためのプロセッサを含む。また、該プロセッサは、データベースから訓練データセットを収集し、訓練データセットを前処理して、複数の訓練データポイントの各々を増強させ、前処理訓練データセットを用いて支持ベクトル機を訓練し、データベースからテストデータセットを収集し、訓練データセットと同様にテストデータセットを前処理し、前処理されたテストデータセットを用いて訓練された支持ベクトル機をテストし、訓練された支持ベクトル機のテスト出力の受領に応答して、テスト出力を後処理して、テスト出力が最適な解決であるかを判断するために操作することができる。また、例示的システムは、遠隔源からのテストデータセットおよび訓練データセットを受領するための通信デバイスも含むことができる。そのような場合、プロセッサを操作して、訓練データセットを、訓練データセットの記憶デバイス先行前処理に記憶し、テストデータセットを、テストデータセットの記憶デバイス先行前処理に記憶することができる。また、例示的システムは、後処理したテストデータを表示するための表示デバイスも含むことができる。例示的システムのプロセッサは、さらに、前記した各さらなる機能を実行するための操作することができる。通信デバイスをさらに操作して、コンピューター由来の英数字分類器または他のSVMベースの生のまたは後処理した出力データを遠隔源に送ることができる。
【0027】
例示的な実施形態において、特に一般的かつ複数の支持ベクトル機において複数の学習機械を用いてデータからの知識発見を増強するためのシステムおよび方法が提供される。学習機械のための訓練データを前処理して、それに意味を付加する。予備処理データは、データポイントを変換しおよび/またはデータポイントを拡大することを含み得る。データに意味を付加することによって、学習機械に、処理のための多量の情報が供給される。特に支持ベクトル機に関しては、処理される情報の量が大きくなれば、誘導することができるデータについての一般化が良好となる。各々が区別されるカーネルを含む複数の支持ベクトル機は、予備処理された訓練データで訓練され、同様に前処理されるテストデータでテストされる。複数の支持ベクトル機からのテスト出力を比較して、テスト出力のいずれがもしあれば最適な解決を表すかを決定する。1以上のカーネルの選択は調整することができ、1以上の支持ベクトル機を再度訓練し再度テストすることができる。最適な解決が達成されたと決定されれば、生データを前処理し、最適な解決を生じたカーネルを含む支持ベクトル機に入力する。次いで、ヒトまたはコンピューター自動プロセスによって解釈のためのコンピューター誘導英数字分類器に、学習機械からの生出力を後処理することができる。
【0028】
もう1つの例示的な実施形態において、連続的変数を最適にカテゴリー化するためのシステムおよび方法が提供される。連続的変数を表すデータセットは、各々が連続的変数からの試料およびクラス識別子を含むデータポイントを含む。データセット内の多数の区別されるクラス識別子が決定され、多数の候補ビンが、試料の範囲およびデータセット内の試料の精度のレベルに基づいて決定される。各候補ビンは試料のサブ範囲を表す。各候補ビンについては、候補ビン内に入るデータポイントのエントロピーを計算する。次いで、最小化集合エントロピーを有する候補ビンの各配列については、試料の範囲中のカットオフポイントは、候補ビンの配列中の最後の候補ビンの境界にあると定義される。対話形式プロセスとして、順次の候補ビンの異なる組合せについての集合エントロピーは計算することができる。
【0029】
また、規定されたカットオフポイントの数を調整して、最小エントロピーの計算に基づくカットオフポイントの最適数を決定することができる。前記したごとく、連続的変数を最適にカテゴリー化するための例示的システムおよび方法は、学習機械に入力すべきデータを前処理するのに、および学習機械の出力を後処理するのに用いることができる。
【0030】
さらにもう1つの例示的な実施形態において、分布したネットワーク環境中で一般に学習機械および特に支持ベクトル機を用いてデータからの知識発見を増強するためのシステムおよび方法が提供される。顧客は、分布したネットワークを介して、遠隔源から訓練データ、テストデータおよび生データをベンダーのサーバに伝達することができる。また、顧客は、ユーザーの氏名、パスワード、および金融口座アンデンティファイアーのごとき同定情報をサーバに伝達することもできる。訓練データ、テストデータおよび生データは記憶デバイスに記憶することができる。次いで、訓練データを前処理して、それに意味を付加することができる。前処理データは、データポイントを変換しおよび/またはデータポイントを拡大することを含むことができる。データに意味を付加することによって、学習機械には、処理のためにより多量の情報が備わる。特に支持ベクトル機に関しては、処理される情報の量が大きくなれば、誘導することができるデータについての一般化は良好となる。従って、学習機械は前処理された訓練データで訓練され、同様に前処理されるテストデータでテストされる。学習機械からのテスト出力を後処理して、テストデータから発見された知識が望ましいかを決定する。後処理は、テストデータと比較することができるフォーマットにテスト出力を解釈することを含む。生データを前処理し、訓練されたかつテストされた学習機械に入力される。次いで、学習機械からの生出力を、ヒトまたはコンピューター自動プロセスによって解釈のためのコンピューターにより誘導された英数字分類器に後処理されることができる。英数字分類器を分布ネットワークを介して顧客に伝達するに先立って、サーバは、金融口座アンデンティファイアーによって同定された顧客の金融口座から資金を受領する目的で金融機関と連絡するように作動することができる。
【0031】
(詳細な説明)
本発明は、学習機械を用いてデータから知識を発見するための方法、システムおよびデバイスを提供する。特に、本発明は、生物学的システムにおける変化に関する情報が提供される学習機械を用いてデータからの知識発見のための方法、システムおよびデバイスに指向される。より詳しくは、本発明は、病気のごとき生物学的システムにおける変化を診断し、予測するためのかかる知識の使用の方法を含む。加えて、本発明は、それらの個々の生物学的システムにおける変化を持つ個体のテストおよび処理にそのような知識を適用するための方法、組成物およびデバイスを含む。
【0032】
本明細書中で用いる、「生物学的データ」は、微生物、ウイルス、植物および他の生きた生物を含めたヒト、動物または他の生物学的生物の生物学的状態を測定することに由来するいずれのデータをも意味する。該測定は、物理学者、科学者、診断学者等に知られたいずれかのテスト、アッセイまたは観察によってなすことができる。生物学的データは、限定されるものではないが、臨床試験および観察、物理的および科学的測定、ゲノム決定、プロテオミック決定、薬物レベル、ホルモンおよび免疫学的テスト、神経化学または神経物理学測定、ミネラルおよびビタミンレベル決定、遺伝的および家系的履歴およびテストを受けつつある個人または複数個人の状態に対する洞察を与えることができる他の測定を含むことができる。ここに、用語「データ」の使用は「生物学的データ」と相互交換的に使用される。
【0033】
学習機械のいくつかの例が存在し、進歩がこの分野で予測されているが、本発明の例示的な実施形態は支持ベクトル機に焦点を当てる。当該分野で知られているごとく、学習機械は、公知の結果が伴うデータを用いて一般化するのに訓練することができるアルゴリズムを含む。次いで、訓練された学習機械アルゴリズムを、予測のための未知の結果の場合に適用することができる。例えば、学習機械を訓練して、データ中のパターンを認識し、データ中の回帰を評価し、またはデータ内の確率密度を評価することができる。学習機械を訓練して、当業者に知られた非常に多様な問題を解くことができる。訓練された学習機械は、所望により、テストデータを用いてテストして、その出力がエラーの許容される境界内で有効化されることを保証する。一旦学習機械が訓練され、テストされれば、生データをその中に入力することができる。学習機械の生出力は、生データに適用された訓練データの全てから発見された知識を含む。
【0034】
本発明は、生物学的データ、遺伝子、転写および翻訳産物および蛋白質の調査によって生じたごときデータで見いだされるパターンを解析するための方法、システムおよびデバイスを含む。ゲノム情報は、ゲノム断片および相補的核酸または相互作用蛋白質のハイブリダイゼーション反応によって生じたパターン中で見いだすことができる。そのようなゲノムまたは核酸の相互作用を調査するための最も最近のツールの1つはDNA遺伝子チップまたはマイクロアレイである。マイクロアレイは、数千の核酸の相互作用の処理を可能とする。DNAマイクロアレイは、研究者が1つの実験で数千の遺伝子をスクリーニングするのを可能とする。例えば、マイクロアレイは小さなスライドガラス上に2400の遺伝子を含有することができ、それを用いて、試料中のDNAまたはRNAの存在を測定することができる。そのようなマイクロアレイは、腫瘍生物学、神経科学、シグナル変換、転写調節、およびサイトカインおよび受容体の実験を含めた基本的研究およびバイオメディカル研究で用いることができる。加えて、医薬薬物発見、標的同定、リード最適化、薬物動態学、ファルマコゲノミックスおよび診断剤のための適用もある。マイクロアレイの技術のための市場は1999年にはほぼ9800万ドルであり、多数のマイクロアレイテストから開発されたデータベースで生じ、そこに記憶されたデータの量は膨大である。本発明は、病気の診断および予後のための、および病気を治療するための治療剤の開発のための、そのようなマイクロアレイおよび核酸チップテストで生じたデータを用いることができる方法、システムおよびデバイスを提供することができる。
【0035】
また、本発明は、生物学的システムにおける特異的変化を診断または予測するのに用いることができる特異的配列同定プローブを備えたマイクロアレイを含むデバイスを含む。一旦、本発明の学習機械が、生物学的システムにおける変化を診断または予測できるデータの中で特異的関係を同定すれば、特異的デバイスはそれらの特異的関係についてテストを取り込む。例えば、本発明の学習機械は、腫瘍の存在または出現のごとき、生物学的システムにおける変化の存在または将来の発生に関係する特異的遺伝子を同定する。これらの遺伝子の配列を知ることは、それらの同定された遺伝子についての特異的訓練デバイスの作成を可能とする。例えば、DNA、RNAまたは特異的結合蛋白質を含む核酸チップ、または特異的に同定された遺伝子に特異的に結合するいずれかのそのような組合せを用いて、特定の腫瘍を有する個体または腫瘍を発生する尤度を容易に同定する。加えて、学習機械によって同定された、または学習機械によって同定された遺伝子に関連する特異的蛋白質は、同定された蛋白質、遺伝子産物あるいは蛋白質または遺伝子産物に向けられた抗体または抗体断片を特異的に検出することに向けられた血清学的テストを用いるためにテストすることができる。そのようなテストは限定されるものではないがチップ上の抗体マイクロアレイ、ウエスタンブロッティングテスト、ELISA、および当該分野で知られた他のテストを含み、ここに、特異的結合パートナーの間の結合はパートナーのうちの1つの検出のために用いられる。
【0036】
さらに、本発明は、生物学的システムにおける変化に由来する疾患を治療して、または生物学的システムを処理して、生物学的システムを改変して特異的疾患を予防または増強するための方法および組成物を含む。例えば、もし個体の診断が腫瘍の検出を含むならば、該個体は化学療法組成物のごとき抗腫瘍医薬で治療することができる。もし個体の診断が腫瘍発生の素因または予後を含むならば、該個体を化学療法組成物で予防的に処置して、腫瘍の発生を防止することができる。もし特異的遺伝子が腫瘍の発生を持って同定されれば、該個体は特異的アンチセンスまたは他の遺伝子治療方法で処置して、そのような遺伝子の発現を抑制することができる。加えて、もし特異的遺伝子または遺伝子産物が腫瘍の発生を伴って同定されれば、遺伝子または遺伝子産物を阻害または機能的に実行する特異的組成物が該個体に投与される。本明細書中に記載した例は単に例示であって、本発明の範囲を限定するものと解釈されるべきではない。
【0037】
プロテオミック調査は、正常および病理学的状態に関与する蛋白質を測定する方法を提供する。いずれかの特定の時点または段階にある個人または集団のプロテオームを測定する現在の方法は、ゲル電気泳動を用いて試料中の蛋白質を分離することを含む。好ましくは、2−Dゲル電気泳動を用いて、蛋白質をより完全に分離する。加えて、試料を前処理して、既知の蛋白質を除去することができる。蛋白質は、例えば、蛍光色素で標識して、選択されたプロテオームによって生じたパターンの決定で援助することができる。分離された蛋白質のパターンは、本発明の学習機械を用いて解析することができる。ゲルイメージの捕獲は、デンシオメトリー、CCDカメラおよびレーザースキャンニングおよび記憶ホスフォル装置のごとき当該分野で知られたイメージ技術方法によって達成することができる。ゲルの解析は、病理学的状態の診断および予後で重要であり、治療介入に関連する変化を示すプロテオーム中のパターンを明らかとする。
【0038】
プロテオームを調査するさらなるステップは、ゲル中の特異的部位における蛋白質の単離を含む。特異的部位を単離するためのロボットシステムは現在利用できる。単離に続いて配列を決定し、かくして、蛋白質が同定される。個体または集団のプロテオームの研究は、膨大な量のデータの創製、捕獲、解析および一体化を含む。自動化は現在用いられつつあって、データ創製に必要な物理的操作を管理するのを助ける。本発明の学習機械を用いて、発生した生物学的データを解析し望まれる情報を提供する。
【0039】
加えて、チップ検出デバイスのごとき検出デバイスの修飾を用い、生物学的データの大きな生ラリーを創製することができる。生ラリーを創製する方法は、それらのmRNAに共有結合連結した蛋白質を用いて、例えば、稀にしか翻訳されない蛋白質のごとき作成された蛋白質を決定する技術を含む。そのような技術は、イン・ビトロでmRNAを翻訳し、翻訳された蛋白質をmRNAに共有結合付着させることを含む。mRNA、かくして蛋白質の配列は、PCRのごとき増幅方法を用いて決定される。1014ないし1015のメンバーを含有する生ラリーがこのデータから確率することができる。これらの生ラリーを用いて、受容体に結合するペプチドを測定することができるか、またはそれらの標的に貪欲に結合する抗体を含有する抗体生ラリーを開発することができる。
【0040】
蛋白質ドメイン生ラリーと呼ばれる生ラリーは細胞mRNAから創製することができ、ここに、全蛋白質は翻訳されないが、断片が配列決定される。これらの生ラリーを用いて、蛋白質の機能を測定することができる。
【0041】
プロテオームを調査する他の方法はゲル電気泳動を用いない。例えば、マススペクトロフォトメトリーを用いて、蛋白質プロフィールにおける変化の目録を作り、正常または病気の組織あるいは感染剤における核酸配列を規定して、薬物および診断標的を同定し、有効化することができる。このデータの解析は本発明の方法、システムおよびデバイスによって達成される。さらに、酵母および細菌系で現在見いだされている、それらが相互作用する蛋白質を捕獲するために蛋白質を用いる2−ハイブリッドおよび2+1ハイブリッドシステムのごとき技術は、ゲノム−幅蛋白質相互作用マップ(PIM)を生じる。PIMのごとき情報の大きな生ラリーは本発明によって操作することができる。
【0042】
特異的蛋白質または蛋白質のタイプを分離し、または同定するのに用いることができる抗体チップは開発されている。加えて、ファージ抗体生ラリーを用いて、蛋白質の機能を測定することができる。注目するオープンリーディングフレーム(ORFS)またはEST(発現された配列タグ)につきゲノミック生ラリーをサーチすることができ、配列から、ペプチドが合成される。異なる遺伝子についてのペプチドが、ファージ生ラリーからの抗体の選択のために96ウェルトレイ中に置かれる。次いで、該抗体を用いて、正常および病気の組織の切片中の元のORFまたはESTに関連する蛋白質を位置決定する。
【0043】
本発明を用いて、生物学的機能への調査の複数の段階において生じた生物学的データを解析し、さらに、新規な診断および予後決定のための異なる種類のデータを一体化させることができる。例えば、診断テストデータ、家族または遺伝的履歴、依然のまたは現在の医療処置のごとき臨床的ケースの情報、およびそのような活動の臨床的結果から得られた生物学的データは、本発明の方法、システムおよびデバイスで利用することができる。加えて、病気の組織または流体および正常な組織および流体のごとき臨床的試料、ならびに細胞の分離は、本発明で利用することができる生物学的データを提供することができる。2−Dゲル、マススペクトロフォトメトリーおよび抗体スクリーニングのごときプロテオミック決定を用いて、本発明によって利用できるデータベースを確立することができる。また、ゲノミックデータベースは、単独で、または前記したデータおよび本発明によるデータベースと組み合わせて使用して、包括的な診断、予後または予測能力を本発明のユーザーに提供することができる。
【0044】
本発明の第一の態様は、データを用いるに先立ってデータを所望により前処理して、学習機械を訓練しおよび/または学習機械からの出力を所望により後処理することによって知識発見を増強することを求める。一般的に言えば、データを前処理することは、データを再度フォーマット化または増加させて、学習機械が最も有利に適用されるのを可能とすることを含む。同様に、後処理は、学習機械の出力を解釈して、その意味のある特徴を発見することを含む。出力から確認されるべき意味のある特徴は問題またはデータ特異的であり得る。後処理は、ヒトによって理解できる形態、またはコンピューターによって理解できる形態に出力を解釈することを含む。
【0045】
以下、本発明の例示的な実施形態を図面を参照して記載し、いくつかの図面を通じて同様の数字は同様のエレメントを示す。図1は、学習機械を用いて知識発見を増強するための一般的方法100を説明するフローチャートである。該方法100は開始ブロック101で始まり、ステップ102に進み、そこで、機械学習を通じての知識発見の適用のために特異的問題が公式化される。特に重要なのは、学習機械の所望の出力の適切な処方である。例えば、個々のエクイティインストゥルメントまたは市場指標の将来の業績を予測するにおいて、将来の価格レベルを予測するよりもむしろ期待される将来の変化を予測する場合、学習機械は良好な業績を達成するようである。将来の価格予測は、後に、本明細書中で後記するごとく後処理ステップで誘導することができる。
【0046】
問題の公式化後に、ステップ103は訓練データ収集に向けられる。訓練データは、公知の特徴を有するデータポイントのセットを含む。訓練データは1以上の局所および/または遠隔源から収集することができる。訓練データの収集は、主導により、公知のエレクトロニックデータ移動方法のごとき自動化プロセスによって達成することができる。従って、本発明の例示的な実施形態はネットワーク化コンピューター環境で実行することができる。本発明の種々の実施形態を実行するための例示的操作環境を図10−12に関して詳細に記載する。
【0047】
次に、ステップ104として、収集された訓練データは所望により前処理されて、学習機械が、訓練データに固有の知識の抽出に最も有利に適用されることを可能とする。この前処理段階の間に、訓練データは、所望により、個々のまたは複数の測定の変換、組合せまたは操作を通じて訓練データの記録内に拡大することができる。本明細書中で用いるごとく、データを拡大することは、利用できる観察の数を変化させて各入力ポイントを決定することによって、入力データの次元を変更することを言うことを意味する(別法として、これはデータベース表内の欄を付加しまたは消去すると記載することができる。)説明の方法として、データポイントは座標(1,4,9)を含むことができる。このデータポイントの拡大バージョンは座標(1,1,4,2,9,3)をもたらすことができる。この例において、拡大データポイントに付加された座標は、元の座標の二乗根変換に基づくことがわかるであろう。データポイントに次元を付加することによって、この拡大データポイントは、学習機械による知識発見に潜在的に意義のある入力データの変化させた表示を提供する。この意味でのデータ拡大は、学習機械が、非拡大訓練データでは容易には明らかでない知識を発見する機会を与える。
【0048】
データを拡大することは、いずれかのタイプの意味のある変換をデータに適用し、それらの変換を元のデータに付加することを含むことができる。変換が意味があるか否かを決定するための基準は、入力データそれ自身および/またはデータから求められる知識のタイプに依存するであろう。データ変換の例示的タイプは:専門家情報の付加;標識;二元変換;サイン、コサイン、タンジェント、コタンジェントおよび他の三角法変換;クラスタリング;スケーリング;確率および統計解析;有意性テスト;強度テスト;2−D規則性についてのサーチ;ヒドゥン・マルコフ・モデリング(Hidden Markov Modeling);同等関係の同定;コンティンジェンシー表の適用;グラフ理論原理の適用;ベクトル地図の創製;多項式および他の代数変換の足し算、引き算、掛け算、割り算、適用;比例性の同定;識別力決定等を含む。医療データの文脈では、潜在的に意味のある変換は:既知の標準的医療参照範囲との関連;生理学的切断;生理学的組合せ;生理学的組合せ;発見的規則の適応;診断基準決定;臨床的重みづけシステム;診断変換;臨床変換;専門家知識の適応;標識技術;他のドメイン知識の適応;バイエジアン(Bayesian)ネッワーク知識等を含む。これらおよび他の変換、ならびにその組合せは当業者に思い浮かぶであろう。
【0049】
また、当業者であれば、データ変換はデータポイントに次元を付加する事なく実行できることを認識するはずである。例えば、データポイントは座標(A,B,C)を含むことができる。このデータポイントの変換バージョンの結果、座標(1,2,3)を得ることができ、ここに、座標「1」は座標「A」といくつかの既知の関係を有し、座標「2」は座標「B」といくつかの既知の関係を有し、および座標「3」は「C」といくつかの既知の関係を有する。文字から数字への変換は、例えば、もし文字が学習機械によって理解されなければ必要であろう。他のタイプの変換は、元来数字形態であるデータに関してさえ、データポイントに次元を付加する事なく可能である。さらに、データを前処理してそれに意味を付加することは、不完全な、崩れたまたは他の「汚損した」データを解析することを含むことができる。学習機械は「汚損した」データを意味のあるように処理することはできない。かくして、前処理ステップは、データセットを清浄して汚損したデータポイントを除去し、修復または置換することを含むことができる。
【0050】
図1を参照し、例示的方法100はステップ106において継続し、そこで、前処理されたデータを用いて学習機械が訓練される。当該分野で知られているごとく、学習機械は、所望の訓練出力が達成されるまでその操作パラメーターを調整することによって訓練される。訓練出力が望ましいか否かの決定は、手動で、または訓練出力を訓練データの公知の特徴と比較することによって自動的に達成することができる。学習機械は、その訓練出力が訓練データの公知の特徴からの所定の誤差閾値内にある場合に訓練されたと考えられる。ある状況では、もし必要でなければ、ステップ107において学習機械の訓練出力を後処理するのが望ましいであろう。述べたごとく、学習機械の出力を後処理ことは、出力を意味のある形態に解釈することを含む。回帰問題の文脈では、例えば、学習機械の出力についての範囲カテゴリー化を決定して、入力データポイントが正しくカテゴリー化されたかを決定するのが必要であろう。パターン認識問題においては、しばしば、学習機械の訓練出力を後処理する必要はない。
【0051】
ステップ108において、テストデータは、所望により、訓練された学習機械をテストするために調製に収集される。テストデータは、1以上の局所および/または遠隔源から収集することができる。現実的には、テストデータおよび訓練データは同時に同一源から収集することができる。かくして、テストデータおよび訓練データセットは共通のデータセットから分割することができ、学習機械用の異なる入力データセットとして用いるために局所記憶媒体に記憶することができる。どのようにテストデータが収集されるかにかかわらず、用いるいずれのテストデータも、訓練データと同様にステップ110において前処理されなければならない。当業者に明らかなごとく、学習の適切なテストは、訓練データと同一のフォーマットのテストデータを用いることによって達成することができる。次いで、ステップ112において、もしあれば前処理テストデータを用いて学習機械をテストする。学習機械のテスト出力は、所望によりステップ114で後処理して、結果が望ましいかを決定する。再度、後処理ステップは、テスト出力を意味のある形態に解釈することを含む。意味のある形態は、人によって理解できる形態、またはコンピューターによって理解できる形態で有り得る。それにもかかわらず、テスト出力は、テストデータと比較して、結果が望ましいか否かを決定することができる形態に後処理されなければならない。後処理ステップの例は、限定されるものではないが、以下の;最適カテゴリー化決定、スケーリング技術(線形および非線形)、変換(線形および非線形)、確率評価を含む。方法100はステップ116で終了する。
【0052】
図2は、支持ベクトル機(SVM)として知られている特定タイプの学習機械を用いて発見することができる知識を増強するための例示的方法200を示すフローチャートである。SVMは、データの限定された収集からの多次元機能を評価する場合に一般化を提供するための特殊化されたアルゴリズムを実行する。SVMは、依存性評価の問題を解決するのに特に有用であろう。より具体的には、SVMは、インジケーター機能(例えば、パターン認識問題)およびリアル−バリュード機能(例えば、機能近似問題、回帰評価問題、密度評価問題、および解決逆問題)を評価するにおいて正確に用いることができる。SVMの基礎となる概念は、出典明示してその全体を本明細書の一部とみなす、Statistical Learning Theoryと題されたVladimir N. Vapnikvによる書籍(John, Wiley & Sons, Inc.1998)に詳細に説明されている。従って、SVMおよびそれに関して用いられる用語に対する精通は本明細書を通じて仮定される。
【0053】
支持ベクトル機は1992年に導入され、「カーネルトリック」が記載された。Boser,B.ら,Fifth Annal Workship on Computational Learning Theory,p144−152,Pittsburgh,ACM参照。訓練パターンおよび決定境界の間のマージンを最大化する訓練アルゴリズムが提示された。該技術は、Perceptrons、多項式およびラジアル・ベーシス(Radial Basis)機能を含めた広く種々の分類機能に適用することができた。有効数のパラメーターが、問題の複雑性にマッチするように自動的に調整された。解決は、支持パターンの非直線組合せとして表現された。これらは、決定境界に最も近い訓練パターンのサブセットである。リーブ−ワン−アウト方法およびVC−寸法に基づく一般化業績についての制限が与えられる。光学特徴認識問題についての実験結果は、他の学習アルゴリズムと比較した場合に得られた良好な一般化を示す。
【0054】
支持ベクトルを用いるパターン認識システムは、出典明示してその全体を本明細書の一部とみなす米国特許第5,649,068号に開示された。該特許には、決定システムのデザインにデュアル表示数学原理が用いられた方法が記載されている。この原理は、メモリー・ベースの決定関数として表されるべきあらかじめ規定された関数の重みづけされた合計であるいくつかの決定関数を可能とする。この原理を用い、最適マージンを持つメモリー・ベースの決定システムがデザインされ、ここに、メモリー・ベースの決定関数の訓練パターンの重みおよびプロトタイプは、対応するデュアル決定関数がマージン最適性の基準を満足するように決定された。
【0055】
例示的方法200は開始ブロック201で開始され、ステップ202まで進み、そこで、問題が公式化され、ついで、ステップ203に進み、そこで、訓練データセットが収集される。図1を参照して記載したごとく、訓練データは、手動または自動プロセスを通じて、1以上の局所および/または遠隔源から収集することができる。ステップ204において、訓練データは所望により前処理される。再度、データを前処理することは、データを清浄化し、データを変換し、および/またはデータを拡大することによって、訓練データ内の意味を増強することを含む。当業者であれば、SVMは極端に大きな次元を有する入力データを処理することができるのを認識するはずである。事実、入力データの次元が大きくなれば、良好な一般化をSVMが計算することができる。しかしながら、前処理を通じて入力スペースの次元を単に増加させることは、SVMでの良好な一般化を保証しない。しかしながら、実質的に入力スペース次元を増加させる聡明な前処理は、ニューラル・ネットワークおよび伝統的な統計モデルとは異なりSVMで首尾よくモデル化することができる。より高次元のデータを取り扱う能力は、しばしば、良好でより一般化されたモデルに至ることができる。したがって、訓練データを拡大しない訓練データ変換が可能であるが、SVMの特別の文脈では、意味のある情報をそれに付加することによって訓練データが拡大されるのが好ましい。
【0056】
ステップ206において、カーネルがSVMについて選択される。当該分野で知られているごとく、異なるカーネルは、SVMが、入力データの所与のセットにつき出力における種々の程度の品質を生じさせるようにするであろう。従って、適当はカーネルの選択はSVMの出力の所望の品質に必須であろう。本発明の1つの実施形態において、以前の性能知識に基づいてカーネルを選択することができる。当該分野で知られているごとく、例示的カーネルは多項式カーネル、動径基底関数カーネル、線型カーネルなどを含む。別の実施形態において、特定の問題またはデータセットのタイプに特異的にカスタマイズされたカーネルを創製することができる。さらにもう1つの実施形態において、複数のSVMを訓練し、同時にテストすることができ、各々は異なるカーネルを用いる。種々の選択可能なまたは荷重したメトリックスを用いて(ステップ222参照)、各々同時に訓練されテストされたSVMについて出力の品質を比較して、最も望ましいカーネルを決定することができる。
【0057】
次に、ステップ208において、前処理した訓練データがSVMに入力される。ステップ210において、前処理した訓練データを用いてSVMを訓練して、最適な超平面を創製する。所望により、次いで、SVMの訓練出力をステップ211で後処理することができる。再度、訓練出力の後処理は望ましく、または必要であってさえ、後処理は、この時点では、出力についての範囲またはカテゴリーを適切に計算するのに望ましい、または必要でさえあろう。ステップ212において、データ収集の先の記載と同様にテストデータを収集する。前記訓練データと同様に、テストデータをステップ214で前処理する。次いで、ステップ216で、前処理されたテストデータを処理のためにSVMに入力して、SVMが望ましいように訓練されたか否かを決定する。テスト出力がステップ218においてSVMから受領され、所望により、ステップ220において後処理される。
【0058】
後処理されたテスト出力に基づき、ステップ222において、最適な最大がSVMによって達成されたかを決定する。当業者であれば、SVMは、全体的最小誤差を有する出力を確認するように操作できることを認識すべきである。しかしながら、前記したごとく、所与のデータセットについてのSVMの出力結果は、典型的には、カーネルの選択に関して変化するであろう。従って、事実、データの与えられたセットについてのSVMによって確認することができる複数の全体的最小がある。本明細書中で用いるごとく、用語「最適な最小」または[最適な解決」とは、SVMによって確認された他の全体的最小と比較した場合に最適であると考えられる選択された全体的最小をいう(例えば、問題特異的な予め確立された基準の所与のセットについての最適な解決)。従って、ステップ222において、最適な最小が確認されたか否かを決定することは、SVMの出力を履歴または所定の値と比較することを含むことができる。そのような所定の値はテストデータセットに依存し得る。例えば、データポイントが、SVMによって、ある特徴を有する、あるいは該特徴を有しないとして分類されるパターン認識問題の文脈においては、50%の全体的最小誤差は最適でないであろう。この例においては、50%の全体的最小は、偶然に達成されるであろう結果よりも良好ではない。もう1つの例として、複数のSVMが訓練され、種々のカーネルで同時にテストされる場合において、各SVMについての出力を各他のSVMの出力と比較して、カーネルのその特定のセットについての現実的な最適解決を決定することができる。最適な解決が確認されたか否かの決定は、手動で、あるいは自動比較プロセスを通じて行うことができる。
【0059】
もし訓練されたSVMによって最適な最小が達成されなかったと決定されれば、当該方法はステップ224まで進み、そこで、カーネル選択が調整される。カーネル選択の調整は、1以上の新しいカーネルを選択するか、またはカーネルパラメーターを含むことができる。さらに、複数のSVMを訓練し、同時にテストする場合において、他のカーネルは対照目的で再度使用することができるが、選択されたカーネルは置き換えるかまたは修飾することができる。カーネル選択が調整された後、方法200はステップ208から反復され、ここに、以前に前処理された訓練データが訓練目的でSVMに入力される。ステップ222において最適な最小が達成されたと決定された場合、当該方法はステップ226に進み、そこで、生データが前記したと同様に収集される。訓練データおよびテストデータに関して知られた所望の出力特徴は生データに関して知られていない。
【0060】
ステップ228において、訓練データおよびテストデータと同様にして生データが前処理される。ステップ230において、生の前処理されたデータが処理のためにSVMに入力される。SVMの生出力がステップ232で受領され、ステップ234において後処理される。本発明の1つの実施形態において、後処理は、ヒトまたはコンピューターによる解釈のために、SVMの出力をコンピューターにより誘導された英数字分類器に変換することを含む。好ましくは、英数字分類器は、ヒトまたはコンピューターによって容易に理解される単一の値を含む。当該方法200はステップ236において終了する。
【0061】
図3は、データを前処理するのに、または本発明の例示的な実施形態に従う学習機械からの出力を後処理するのに用いることができる例示的最適カテゴリー化方法300を示すフローチャートである。加えて、後記するごとく、例示的最適カテゴリー化方法は、学習機械とは独立して、単独カテゴリー化技術として用いることができる。例示的最適カテゴリー化方法300は出発ブロック301で始まり、ステップ302まで進行し、そこで入力データセットが受領される。入力データセットは、連続的変数からのデータ試料の配列を含む。データ試料は2以上の分類カテゴリー内に入る。次に、ステップ304において、ビンおよびクラス−トラッキング変数が初期化される。当該分野で知られているように、ビン変数は分解に関連し、クラス−トラッキング変数はデータセット内での分類の数に関連する。ビンおよびクラス−トラッキング変数の初期化のための値を決定することは、手動にて、あるいは入力データセットの解析からのコンピュータープログラムのごとき自動プロセスを介して実行することができる。ステップ306において、各ビンについてのデータエントロピーが計算される。エントロピーはランダムな分布の不確からしさを測定する数学的質である。例示的方法300において、エントロピーを用いて、最大分類能力が達成されるように、入力変数の等級を測る。
【0062】
方法300は連続的変数上に一連の「カット」を生じ、従って、連続的変数は区別されるカテゴリーに分けることができる。例示的方法300によって選択されたカットは、各得られた区別されるカテゴリーの平均エントロピーが最小化される意味で最適である。ステップ308において、連続的変数を含む入力データセット内で全てのカットが置かれたか否かに関して決定がなされる。もし全てのカットが置かれていないならば、連続的ビン組合せが、ステップ310においてカットオフ決定につきテストされる。ステップ310から、例示的方法300はステップ306を通じてループバックし、ステップ308に戻り、そこで、再度連続的変数を含む入力データセット内に全てのカットが置かれたか否かが決定される。全てのカットが置かれれば、全システムについてのエントロピーがステップ309で評価され、より多いまたはよりリスク内カットのテストからの以前の結果と比較される。最小エントロピー状態が決定されたと結論することができないならば、他の可能なカット選択が評価されなければならず、当該方法はステップ311まで進む。ステップ311からカットの数についてのこれまでの未テスト選択が選択され、前記したプロセスがステップ304から反復される。ビン幅によって決定された分解の限度がテストされるか、または最小解決への収束が同定されれば、最適な分類基準がステップ312で出力され、例示的最適カテゴリー化方法300はステップ314で終了する。
【0063】
最適なカテゴリー化方法300は動的プログラミング技術を利用する。当該分野で知られているごとく、動的プログラミング技術を用いて、注意深くアルゴリズムを構築することに介してある複雑は問題を解決する効率を有意に改良して、冗長な計算を減らすことができる。最適なカテゴリー化問題において、連続的変数データにおける全ての可能なカットを通じての徹底的サーチの直接的アプローチの結果、指数関数的複雑性のアルゴリズムがもたらされ、中程度のサイズの入力についてさえ問題を困難とするであろう。標的機能の付加的特性(この問題では平均エントロピー)を利用することによって、当該問題は一連のサブ問題に分けることができる。各サブ問題を解くためにアルゴリズムサブ構造を適切に処方し、サブ問題の解決を記憶することによって、大量の冗長な計算を同定し、回避することができる。動的プログラミングアプローチを用いる結果、例示的最適カテゴリー化方法300は、大きなサイズの問題を解くのに用いることができる多公式複雑性を有するアルゴリズムとして実行することができる。
【0064】
前記したごとく、例示的最適カテゴリー化方法300は、データを前処理しおよび/または学習機械の出力を後処理するのに用いることができる。例えば、後処理変換ステップをして、該例示的最適カテゴリー化方法300を用いて、生データからの分類情報を抽出することができる。後処理技術として、例示的最適範囲カテゴリー化方法を用いて、場当たりのアプローチに依拠するよりはむしろ、客観的にデータに基づいたマーカーに対する最適カットオフ値を決定することができる。明らかなごとく、例示的最適カテゴリー化方法300はパターン認識、分類、回帰問題などにおいて適用を有する。また、例示的最適カテゴリー化方法300は、SVMおよび他の学習機械から独立して、単独カテゴリー化技術として用いることもできる。最適カテゴリー化方法300の例示的単独適用を図8を参照して記載する。
【0065】
図4は、支持ベクトル機のための入力として用いることができる例示的非拡大データセット400を示す。このデータセット400は「非拡大」という。なぜならば、さらなる情報がそれに付加されていないからである。示すごとく、非拡大データセットは訓練データセット402およびテストデータセット404を含む。非拡大訓練データセット402および非拡大テストデータセット404の双方は、サンプリングした医療患者からの履歴臨床データに関連する例示的データポイント406のごときデータポイントを含む。データセット400を用いて、SVMを訓練し、乳癌患者が再発を経験するであろうか否かを判断することができる。
【0066】
各データポイントは5つの入力座標、または寸法、および各患者について収集された医療データを表す406a−fで示される出力分類を含む。特に、第1の座標406aは「年齢」を表し、第2の座標406bは「エストロゲン受容体レベル」を表し、第3の座標406cは「プロゲステロン受容体レベル」を表し、第4の座標406dは「合計抽出リンパ節」を表し、第5の座標406eは「陽性(癌性)抽出リンパ節」を表し、および出力分類406fは「再発分類」を表す。データ400の重要な公知の特徴は出力分類406f(再発分類)であり、これは、この例においては、サンプリングした医療患者が好都合には癌の再発なくして(「−1」)治療に応答したか、または不都合にも癌の再発を伴って(「1」)治療に応答したかを示す。この公知の特徴は学習で用いることができ、他方、SVMにおいて訓練データを処理することは、テストデータをSVMに入力し、かくして、「ブラインド」を生じた後に評価様式で用いることができ、これは、明らかに、現在の医療患者の生データでは知られていないであろう。
【0067】
図5は、非拡大訓練データセット402で訓練され、図4で示された非拡大データセット404でテストされたSVMからの例示的テスト出力502を示す。テスト出力502は、ヒトまたはコンピューターによって理解できるように後処理されている。ここに示すごとく、テスト出力502は、合計24の試料(データポイント)がSVMによって調べられ、SVMが8つの陽性試料の内4つを誤って同定し(50%)、16の陰性試料の内6つを誤って同定した(37.5%)を示す。
【0068】
図6は、支持ベクトル機のための入力として用いることができる例示的拡大データセット600を示す。このデータセット600は「拡大されている」という。なぜならば、さらなる情報がそれに付加されているからである。付加された情報とは別に、拡大されたデータセット600は図4に示す非拡大データセット400と同一であることに注意されたし。拡大されたデータセットに供給されたさらなる情報は、図3を参照して記載された例示的最適範囲カテゴリー化方法300を用いて供給されている。示すごとく、拡大されたデータセットは訓練データセット602およびテストデータセット604を含む。拡大された訓練データセット602および拡大されたテストデータセット604の双方は、サンプリングした医療患者からの履歴データに関連する例示的データポイント606のごときデータポイントを含む。再度、データセット600を用いてSVMを訓練し、乳癌患者が病気の再発を経験するか否かを学習する。
【0069】
例示的最適カテゴリー化方法300の適用を介して、各拡大されたデータポイントは606e1−3を介する20の座標(または次元)606a1−3、および出力分類606fを含み、これは、集合的に、各患者についての医療データおよびそのカテゴリー化変換を表す。特に、第1の座標606aは「年齢」を表し、第2の座標ないし第4の座標606a1−606a3は、組み合わされて年齢のカテゴリーを表す変数である。例えば、年齢の範囲は、例えば、データに存在する年齢の範囲に関して「若い」、「中年」および「老人」カテゴリーに分類することができる。示すごとく、変数のストリング「0」(606a1)、「0」(606a2)、「1」(606a3)を用いて、ある年齢値が「老人」として分類されることを示すことができる。同様に、変数のストリング「0」(606a1)、「1」(606a2)、「0」(606a3)を用いて、ある年齢値が「中年」として分類されることを示すことができる。また、変数のストリング「1」(606a1)、「0」(606a2)、「0」(606a1)を用いて、ある年齢値が「若い」として分類されることを示すことができる。図6の洞察から、例示的方法300を用いて「年齢」606a値の範囲の最適カテゴリー化が31−33=「若い」、34=「中年」および35−49=「老人」であると決定された。他の座標、すなわち座標606b「エストロゲン受容体レベル」、座標606c「プロゲステロン受容体レベル」、座標606d「合計抽出リンパ節」、および座標606e「陽性(癌性)抽出リンパ節」は、各々、同様に最低にカテゴリー化されている。
【0070】
図7は、拡大訓練データセット602で訓練され、図6に示された拡大データセット604でテストされたSVMからの例示的拡大テスト出力702を示す。拡大テスト出力702は、ヒトまたはコンピューターによって理解されるように後処理されている。示すごとく、拡大テスト出力702は合計24の試料(データポイント)がSVMによって調べられ、SVMが8つの陽性試料の内4つを誤って同定し(50%)、16の陰性試料の内4つを誤って同定した(25%)ことを示す。従って、この拡大テスト出力702を図5の非拡大テスト出力502と比較することによって、データポイントの拡大が改良された結果(すなわち、より低い全体的最小誤差)、具体的には、後の癌処置に不必要に付される患者の例の減少に導くことがわかるであろう。
【0071】
図8は、図3に記載された最適カテゴリー化方法300の単独適用のための例示的入力および出力を示す。図8の例においては、入力データセット801は「陽性リンパ節の数」802および対応する「再発分類」804を含む。この例においては、最適カテゴリー化方法300が入力データセット801に適応されて、手術後組織試料で収集された陽性リンパ節の数のみに基づいて、癌再発のための治療の決定用最適カットオフポイントを位置決定されている。よく知られた臨床標準は、少なくとも3つの陽性節を持ついずれかの患者についての治療を規定する。しかしながら、最適カテゴリー化方法300は、入力データ801に基づく最適カットオフ806が5.5のリンパ節のより高い値においてのものであるべきことを示し、これは、少なくとも6つの陽性リンパ節を持つ患者における後の治療を規定する臨床規則に対応する。
【0072】
比較表808に示すごとく、先行技術が許容したカットオフポイント(≧3.0)の結果、47%の正しく分類された再発および71%の正しく分類された非再発がもたらされた。従って再発の53%は正しく分類されておらず(さらなる試料は不適切にも推奨されていない)、非再発の29%は誤って分類された(さらなる治療は誤って推奨された)。対称的に、最適カテゴリー化方法300によって決定されたカットオフポイント(≧5,5)の結果、33%の正しく分類された再発および97%の正しく分類された非再発がもたらされた。従って再発の67%は正しくなく分類され(さらなる試料は不適切にも推奨されず)、非再発の3%は正しくなく分類された(さらなる試料は正しくなく推奨された)。
【0073】
この例によって示されるごとく、例示的最適カテゴリー化方法300を用い、外科手術後癌治療を避けることができる患者を正しく同定するより高い例を達成することができるであろう。最適カテゴリー化方法300によって決定されたカットオフポイントは中程度に高いパーセンテージの正しくなく分類された再発を生じたが、それはかなり低いパーセンテージの正しくなく分類された非再発を生じた。かくして、トレードオフを考慮し、かつ最適化問題の目標が不必要な治療の回避であることを認識すると、最適カテゴリー化方法300によって決定されたカットオフポイントの結果は、先行技術の臨床的カットオフポイントのそれよりも数学的に優れている。このタイプの情報は、化学療法のごとき治療を受けていることと乳癌の再発の危険があることの間の選択をせまられる患者に対してさらなる洞察を提供するのに潜在的に非常に有用である。
【0074】
図9は、線型カーネルを含む第1の支持ベクトル機および多項式カーネルを含む第2の支持ベクトル機からの例示的後処理した出力の比較である。図9は、カーネルの選択の変動がSVMの出力の品質レベルに影響し得ることを示す。示されたごとく、線型内積カーネルを第1のSVM902の後処理した出力は、24の試料の所与のテストセットにつき、8つの陽性試料の内6つが正しくなく同定され、16の陰性試料の内3つが正しくなく同定されたことを示す。比較により、多項式カーネルを含む第2のSVM904について後処理された出力は、同一テストセットについて、8つの陽性試料の内2つのみが正しくなく同定され、16の陰性試料の内4つが同定されたことを示す。比較により、多項式カーネルは陽性試料の同定に対してかなり改良された結果を生じ、陰性試料の同定に関してわずかに悪い結果を生じたに過ぎない。かくして、当業者に明らかなごとく、多項式カーネルについての全体的最小誤差は、このデータセットについての線型カーネルについての全体的最小誤差よりも低い。
【0075】
図10および以下の考察は、本発明を実施するのに適した計算の環境の簡単な一般的記載を供することを意図する。図10に示されたシステムは慣用的パーソナルコンピューター1000であるが、当業者であれば、他のタイプのコンピューターシステム配置を用いて本発明を実施することもできることを認識するであろう。コンピューター1000は中枢処理ユニット1022、システムメモリー1020、および入力/出力(「I/O」)バス1026を含む。システムバス1021は中枢処理ユニット1022をシステムメモリー1020に結合させる。バスコントローラー1023はI/Oバス1026上で、中枢処理ユニット1022および種々の内部および外部I/Oデバイスの間のデータの流れを制御する。I/Oバス1026に連結したI/Oデバイスは、直接メモリーアクセス(「DMA」)コントローラー1024を用いてシステムメモリー1020に対して直接的アクセスを有することができる。
【0076】
I/Oデバイスは、デバイスインターフェイスのセットを介してI/Oバス1026に連結する。デバイスインターフェイスはハードウェア成分およびソフトウェア成分双方を含むことができる。例えば、除去可能な媒体1050を読みまたは書くためのハードディスクドライブ1030およびフロッピーディスクドライブ1032を、ディスクドライブコントローラー1040を介してI/Oバス1026に連結することができる。光学媒体1052を読みまたは書くための光学ディスクドライブ1034は、スモール・コンピューター・システム・インターフェイス(「SCSI」)1041を用いてI/Oバス1026に連結することができる。別法としてIDE(ATAPI)またはEIDEインターフェイスを、CD−RPMドライブに当てはまるごとき光学ドライブと連結させることができる。該ドライブおよびそれらの関連コンピューター読み取り可能な媒体はコンピューター1000用の不揮発性記憶を提供する。前記したコンピューター読み取り可能な媒体に加え、ZIPドライブ等のごとき他のタイプのコンピューター読み取り可能な媒体を用いることもできる。
【0077】
モニターのごときディスプレイデバイス1053は、ビデオアダプター1042のごときもう1つのインターフェイスを介してI/Oバス1026に連結される。平行インターフェイス1043はレーザープリンター1056のごとき同調周辺デバイスをI/Oバス1026に連結する。セリアルインターフェイス1044は通信デバイスをI/Oバス1026に連結する。セリアルインターフェイス1044を介して、またはキーボード1083、マウス1036またはモデム1057のごとき入力デバイスを用いることによって、ユーザーはコマンドおよび情報をコンピューター1000に入力することができる。オーディオ入力/出力デバイスまたはイメージ捕獲デバイスのごとき他の周辺デバイス(図示せず)をコンピューター1000に連結することもできる。
【0078】
多数のプログラムモジュールをドライブ上およびシステムメモリー1020中に記憶することができる。システムメモリー1020はランダムアクセスメモリー(「RAM」)および読出専用メモリー(「ROM」)双方を含むことができる。プログラムモジュールは、どのようにしてコンピューター1000が機能し、ユーザーと、I/Oデバイスと、または他のコンピューターと相互作用するかを制御する。プログラムモジュールはルーチン、オペレーティングシステム1065、適用プログラム、データ構造、および他のソフトウェアおよびファームウエア構成要素を含む。例示的な実施形態において、本発明は、コンピューター1000のドライブ上またはシステムメモリー1020に記憶された、1以上の前処理プログラムモジュール1075A、1以上の後処理プログラムモジュール1075B、および/または1以上の最適カテゴリー化モジュール1077および1以上のSVMプログラムモジュール1070を含む。具体的には、SVMプログラムモジュール1070と共に前処理プログラムモジュール1075A、後処理プログラムモジュール1075Bは、データを前処理し、および学習機械からの出力を後処理し、および図1および2を参照して記載した例示的方法に従って学習アルゴリズムを実行するためのコンピューター−実行可能指令を含むことができる。さらに、最適カテゴリー化プログラムモジュール1077は、図3を参照して記載した例示的方法に従ってデータセットを最適にカテゴリー化するためのコンピューター−実行可能指令を含むことができる。
【0079】
コンピューター1000は、遠隔コンピューター1060のごとき1以上の遠隔コンピューターに対する論理的結合を用いてネットワーク化環境で操作することができる。遠隔コンピューター1060はサーバ、ルーター、ピアデバイスまたは他の共通のネットワークノードとすることができ、典型的には、コンピューター1000と結合した記載したエレメントの多くまたはすべてを含む。ネットワーク化環境において、プログラムモジュールおよびデータは遠隔コンピューター1060に記憶することができる。図10に示した論理的結合はローカルエリアネットワーク(「LAN」)1054およびワイドエリアネットワーク(「WAN」)1055を含む。LAN環境において、Ethernetアダプターカードのごときネットワークインターフェース1045を用いて、コンピューター1000を遠隔コンピューター1060に結合することができる。WAN環境において、コンピューター1000は、結合を達成するために、モデム1057のごとき遠隔通信デバイスを用いることができる。示されたネットワーク結合は例示であって、コンピューター間の通信リンクを確立する他のデバイスを用いることができるのは認識されるであろう。
【0080】
図11は、本発明の実施のための別の例示的オペレーティング環境を示す機能的ブロックダイアグラムである。本発明は、複数のコンピューターシステムの特殊化配置で実施することができる。複数のコンピューターシステムの特殊化配置の例は、ここでは、BIOWulfTM支持ベクトルプロセッサ(BSVP)という。該BSVPは平行計算ハードウェア技術における最後の進歩をパターン認識、回帰評価および密度評価における最後の数学的進歩と組み合わせる。これらの技術の組合せはユニークで新規な実施であるが、ハードウェアの配置は、ナサ・ゴダード・スペース・フライト・センター(NASA Goddard Space Flight Center)が開発者であるBeowulfスーパーコンピューターの実施に基づく。
【0081】
BSVPは、SVM訓練および大規模なデータセットについての評価を促進するのに必要なかなり平行した計算力を提供する。BSVPはデュアル平行ハードウェア構築および慣用的平行化ソフトウェアを含んで、マルチスレッディングおよびメッセージパシング双方の効果的な利用が現実の適用において支持ベクトルを効果的に同定するのを可能とする。ハードウェアおよびソフトウェア双方の最適化は、BSVPが典型的なSVM実行よりもかなり優れているようにすることができる。さらに、商品として、計算技術が進歩するにつれ、解放源ソフトウェアにおける基礎および標準化インターフェーシング技術によってBSVPの等級上昇が保証される。将来の計算プラットフォームおよびネットワーキング技術はBSVPに同化することができる。というのは、それらはソフトウェアの実行に対して影響なくしてコストが効果的となるからである。
【0082】
図11に示すごとく、BSVPは20の処理ノード1104a−tおよび1つのホストノード1112を備えたBeowulfクラスのスーパーコンピュータークラスターを含む。処理ノード1104a−jはスイッチ1102aを介して相互連結し、他方、処理ノード1104k−tはスイッチ1102bを介して相互連結する。ホストノード1112は、適当なEthernetケーブル1114を介してネットワークスイッチ1102aまたは1102b(1102aを示す)の内のいずれか1つに連結する。また、スイッチ1102aおよびスイッチ1102bは、すべての20の処理ノード1104a−tおよびホストノード1112が効果的に相互と連絡するように、適切なEthernetケーブル1114を介して相互に連絡する。スイッチ1102aおよび1102bは、好ましくは、速Ethernet相互連結を含む。BSVPのデュアル平行構築は、複数機の平行配置を通過し、ホストノード1112としての高効率デュアルプロセッサSMPコンピューターを利用するBeowulfスーパーコンピューターのメッセージの実行を介して達成される。
【0083】
例示的配置において、ホストノード1112は無接着剤マルチ−プロセッサSMP技術を含み、18GBのUltra SCSI記憶、256MBメモリー、2つの100Mbit/sec NIC、および24GB DATネットワークバックアップテープデバイスを備えたデュアル450MhzのPentium IIXeonベースのマシンよりなる。;ホストノード1112はNIS、MPLおよび/またはPWMをLinux下で実行して、BSVPの活動を管理する。また、ホストノード1112はBSVPおよび外界の間のゲートを提供する。それ自体、BSVPの内部ネットワークは外部相互作用から隔離され、これは全クラスターが単一のマシンとして機能するようであることを可能とする。
【0084】
20のプロセッシングノード1104a−tは、150MHz Pentiumプロセッサ、32MB RAM、850MB HDD、1.44MB FDD、および速Ethernet mb100Bb/c NICを含む同一に配置されたコンピューターである。処理ノード1104a−tは相互に連結し、NFSを通るホストノードはTCP/IP上に連結する。BSVP計算に加え、処理ノードは、KVMスイッチ1108aおよび1108bを介して単一キーボードデバイスおよび単一マウスデバイスに通じる各ノードのキーボードおよびマウスを備えた装着されたモニターのバンクを介してデモンストレーション能力を供する。
【0085】
ソフトウェアのカスタマイズおよび開発はBSVPに対する活動の最適化を可能とする。SVMプロセスのセクションにおける同時発生は、BSVPハードウェアによって供されたハイブリッド平行化を通じて最も有利に開発される。ソフトウェアは生データから実行された解決までの十分なサイクル支持を実行する。データベースエンジンは、前処理された生データに必要な記憶および柔軟性を提供する。慣用開発ルーチンはSVM訓練に先立ってデータの前処理を自動化する。複数の変換およびデータ操作が、データベース環境内で実行されて、候補訓練データを生じさせる。
【0086】
BSVPのピーク理論処理能力は3.90GFLOPSである。それらのBeowulfクラスのマシン上でのNASA Goddard Space Flight Center によって行われたベンチマークに基づき、予測された現実の性能は約1.56PSGFLOPSであるはずである。かくして、このBeowulfクラスクラスターマシンにおける商品構成要素計算力を用いて達成された性能は、Cray J932/8のごときスーパーコンピューターのそれと一致する。さらに、リサーチおよびアカデミック研究所におけるBeowulfテストは、単一プロセッサの18倍のオーダーの性能が一般に20ノードBeowulfクラスターで達成できることを示す。例えば、単一Pentiumプロセッサーコンピューターで17分45秒のクロックタイムを要する最適化問題は、20ノードを備えたBeowulfで59秒で解かれた。従って、BSVPの高性能性質は、現在余りにも面倒と考えられるデータセットの現実的解析が慣用的コンピューターシステムによって取り扱われるのを可能とする。
【0087】
BSVPの大きな計算力は、平行して複数SVMを実行して、それを、膨大な数の入力を含むリアルライフ問題を解くのに特に有用とする。一般にSVM、特にBSVPの有用性の例は、遺伝子の研究、特にヒトゲノムプロジェクト;管理されたケア効率の評価;治療的決定およびフォロー;適切な治療的選別;医薬開発技術;分子構造の発見;予後評価;医療インフォマティックス;請求書不正の検出:発明的制御;ストックの評価および予測;商品の評価および予測;および保証確率評価を含む。
【0088】
当業者であれば、前記したBSVP構築は性質上例示であって、本発明の範囲を限定することを意味しないことを認識すべきである。例えば、20の処理ノードの選択はよく知られたBeowulf構築に基づくものであった。しかしながら、別法として、20の処理ノードよりも多いまたは少ないものを用いて実行することもできる。さらに、特殊な前記したハードウェアおよびソフトウェア構成要素は例に過ぎない。言及したごとく、本発明のBSVPの実施形態は、別のおよび/または将来のハードウェアまたはソフトウェア構成要素に適合するように配置される。
【0089】
図12は、本発明のさらなる別の実施形態の実行のための例示的ネットワークオペレーティング環境を示す機能的ブロックダイアグラムである。例示的ネットワークオペレーティング環境において、顧客1202または他の団体は、インターネット1204のごとき分布したコンピューターネットワークを介してデータをベンダー1212に伝達することができる。当業者であれば、顧客1202は、通信デバイスおよびデータ記憶デバイスとの連絡を含む、またはそれと連絡するいずれかのタイプのコンピューターまたはラブ装置からのデータを伝達することができることを認識することである。顧客1202から伝達されたデータは学習機械によって処理されるべき訓練データ、テストデータおよび/または生データとすることができる。顧客によって伝達されたデータは購入者のウェブサーバ1206において受領され、これは、内部ネットワーク1214a−bを介して1以上の学習機械にデータを伝達することができる。前記したごとく、学習機械はSVM、BSVP1100、ニューラル・ネットワーク、他の学習機械またはその組合せを含むことができる。好ましくは、ウェブサーバ1206は、ファイアウォル1208または他のセキュリティシステムによって学習機械から隔離されている。また、ベンダー1212は、インターネット1204またはいずれかの専用のまたはオンデマンド通信リンクを介して1以上の金融機関1210と連絡することもできる。ウェブサーバ1206または他の通信デバイスは1以上の金融機関との通信を取り扱うことができる。金融機関は銀行、インターネット銀行、手形交換書、クレジットまたはデビットカード会社等を含むことができる。
【0090】
操作において、ベンダーは、ウェブサーバ1206ホストウェブサイトまたはウェブサイト1206と連絡するもう1つのサーバを介して学習機械処理サービスを提供することができる。顧客1202はウェブサーバ1206にデータを伝達して、学習機械によって処理することができる。また、顧客1202はユーザーネーム、パスワードおよび/または金融口座識別子のごとき同定情報をウェブサーバに伝達することもできる。データおよび同定情報の受容に応答して、ウェブサーバ1206は、金融機関1210において顧客1202によって維持されたまたは権限を与えられた金融口座から所定量の資金を電子的に引き出すことができる。加えて、ウェブサーバは顧客のデーターをBSVP1100または他の学習機械に伝達することができる。BSVP1100がデータの処理および出力の後処理を完了すると、後処理された出力はウェブサーバ1206に戻される。既に述べたごとく、学習機械からの出力を後処理して、ヒトまたは自動解釈のために、単一値または複数値のコンピューターにより誘導された英数字分類器を生じさせることができる。次いで、ウェブサーバ1206は、後処理された出力がインターネット1204を介して顧客1202に逆伝達される前に顧客からの支払いが確認されていることを確実とすることができる。
【0091】
SVMを用いて広く種々の実生活上の問題を解くことができる。例えば、SVMは会計および発明的データ、ストックおよび商品マーケットデータ、保証データ、医療データ等の解析において適用性を有することができる。それ自体、前記したネットワーク環境は多くの産業およびマーケットセグメントを通じて広い適用性を有する。発明的データ解析の文脈において、例えば、顧客は小売業者であっても良い。小売業者は発明的および監査データを所定の時点でウェブサーバ1206に供給することができる。発明的および監査データをBSVPおよび/または1以上の他の学習機械によって処理して、小売業者の発明的要件を評価することができる。同様に、医療データ解析の文脈では、顧客は医療研究所であって良く、患者が医療研究所にいつつ、患者から収集した生データ1206に伝達することができる。医療データをBSVPまたは他の学習機械で処理することによって生じた出力は、医療研究所に逆伝達し、患者に提示することができる。
【0092】
本発明の方法、システムおよびデバイスの好ましい実施形態をここに記載する。本明細書中で用いるごとく、データ入力は「特徴」と呼ばれる構成要素の「パターン」と呼ばれるベクトルである。この実施形態においては、特徴は遺伝子発現係数であり、パターンは患者に相当する。2−クラスの分類問題を示す。既知のクラス標識を持つ多数のパターンの訓練セットを用いた。訓練パターンを用いて、入力パターンのスケーラー機能である決定機能または判別機能を形成することができる。新しいパターンは決定機能のサインに従って分類される。訓練パターン足すバイアスの単純な荷重合計である決定機能は線型判別機能と呼ばれる。もし線型判別機能が誤差なくしてそれを分離できるならば、データセットは「線型に分離可能」であると言われる。
【0093】
一般に分類および機械学習で知られた問題は、入力空間の次元を減らして「オーバーフィッティング」の危険を克服する手段を見つけることである。マイクロアレイで実験された数千の遺伝子のごとく特徴の数が大きく、数ダースの患者のごとく訓練パターンの数が比較的小さい場合にデータのオーバーフィッティングが起こる。そのような状況においては、訓練データ、線型決定機能でさえ分離し、なおテストデータにつき不充分に実行する決定機能を見いだすことができる。規則化を用いる訓練技術は、空間次元の減少を必要とすることなくデータをオーバーフィッティングすることを回避する。支持ベクトル機(SVM)は空間次元の減少で利益を受けることができるにも拘わらず、例えば、SVMがそれに当てはまる。
【0094】
減少の他の方法は、データの最初の数個の主な方向にプロジェクトすることを含む。そのような方法では、元の特徴の線型組合せである新しい特徴が得られる。プロジェクション方法の1つの不利は、元の入力特徴で捨てることができるものはないことである。好ましい方法は、元の入力特徴のいくつかを排除し、良好な分類性能を生じる最小サブセットの特徴を保持する技術を削減することを含む。診断テストでは、コスト有効性のごとき理由で遺伝子の小さなサブセットを選択することができ、従って、選択した遺伝子の関連性はより容易に確認できるのが現実的により有用である。
【0095】
特徴選択の問題はパターン認識で良く知られている。仮に特定の分類技術を仮定すれば、特徴のすべてのサブセットの網羅的列挙によって所与の「モデル選択」基準を満足する特徴の最良のサブセットを選択することができる。この方法は、サブセットの数の組合せの急激な増加のため、数千の遺伝子のごとき多数の特徴では非現実的である。
【0096】
大きな次元の入力空間で特徴選択を行うことは、貪欲なアルゴリズムを含む。種々の可能な方法のうち、特徴ランキング技術が特に好ましい。さらなる分析のためには、または分類器を設計するには、固定された数のトップにランクされる特徴を選択することができる。別法として、ランキング基準に閾値を設定することができる。その基準が閾値を超える特徴のみが保持される。好ましい方法は、該ランキングを用いて、特徴のネステッドサブセットを規定し、単一のパラメーター:特徴の数を変化させることによってモデル選択基準でもって特徴の最適サブセットを選択することである。
【0097】
また、本発明は、複数データセットから知識を見出すための複数支持ベクトル機の方法、システムおよびデバイスを含む。本発明では、複数の支持ベクトル機を配置して、平行にまたは順次に複数のデータセットを階級的に処理することができると考えられる。特に、1以上の第1レベル支持ベクトル機を訓練し、テストして、第1のタイプのデータを処理することができ、1以上の第一レベル支持ベクトル機を訓練し、テストして、第2のタイプのデータを処理することができる。付加的なタイプのデータは、同様に他の第1レベル支持ベクトル機によって処理することができる。第1レベル支持ベクトル機のいくつかまたは全てからの出力を論理的に組み合わせて、1以上の第2レベル支持ベクトル機のために入力データを生じさせることができる。同様にして、複数の第2レベル支持ベクトル機からの出力を論理的に組み合わせて、1以上の第3レベル支持ベクトル機のために入力データを生じさせることができる。支持ベクトル機の階級は、適切なごとく、いずれの数のレベルにも拡大することができる。
【0098】
支持ベクトル機の階級または各階級レベルにおける各支持ベクトル機には区別されるカーネルを設けることができる。例えば、第1のタイプのデータを処理するのに用いる支持ベクトル機には第1のタイプのカーネルを設けることができ、他方、第2のタイプのデータを処理するのに用いることができる支持ベクトル機には第2のタイプのカーネルを設けることができる。加えて、同一または異なる階級レベルの複数の支持ベクトル機を配置して、区別されるカーネルを用いて同一タイプのデータを処理することができる。
【0099】
例示目的のみで示した例において、第1レベルの支持ベクトル機を訓練し、テストして、医療患者の試料に関する乳房撮影データを処理することができる。さらなる第1レベル支持ベクトル機を訓練し、テストして、医療患者の同一または異なる試料につきゲノムデータを処理することができる。2つの第1レベル支持ベクトル機からの出力を組み合わせて、乳房撮影およびゲノムデータに関する新しい多次元データセットを形成することができる。次いで、適切に訓練されテストされた第2レベル支持ベクトル機によって新しいデータセットを処理することができる。第2レベル支持ベクトル機からの得られた出力は、乳房撮影およびゲノムデータポイントの間の因果関係を同定することができる。当業者には明らかであるはずのごとく、支持ベクトル機の考えられる階級は、学習機械によるデータの解析が望まれるいずれの分野または産業においても適用を有することができる。
【0100】
複数の支持ベクトル機を用いる複数データセットの階級処理は、さらに他の支持ベクトル機または学習機械に入力しまたはそれから出力すべきデータを前処理または後処理する方法として用いることができる。加えて、後記する方法に従ったデータの前処理または後処理を、支持ベクトル機の前記階級構築の入力データおよび/または出力に対して行うことができる。
【0101】
図36は、支持ベクトル機の階級システムを説明するためだけに例として掲げる。示されるごとく、1以上の第1レベル支持ベクトル機1302A1および1302A2を訓練しテストして、医療患者の試料に関する乳房撮影データのごとき第1のタイプの入力データ1304Aを処理することができる。1以上のこれらの支持ベクトル機は(カーネル1およびカーネル2として示される)区別されるカーネルを含むことができる。また、1以上のさらなる第1レベル支持ベクトル機1302B1および1302B2を訓練しテストして、医療患者の同一または異なる試料につき、ゲノムデータのごとき第2のタイプのデータ1304Bを処理することができる。再度、1以上のさらなる支持ベクトル機は(カーネル1およびカーネル3として示される)区別されるカーネルを含むことができる。同様の第1レベル支持ベクトル機の各々からの出力を相互と比較して(すなわち、出力A2 1306Bと比較した出力A1 1306A;出力B2 1306Dと比較した出力B1 1306C)、最適出力(1308Aおよび1308B)を決定することができる。次いで、2つのタイプの第1レベル支持ベクトル機1308Aおよび1308Bからの最適出力を組み合わせて、例えば、乳房撮影およびゲノムデータに関する新しい多次元入力データセット1310を形成することができる。次いで、1以上の適切に訓練されテストされた第2レベル支持ベクトル機1312Aおよび1312Bによって新しいデータセットを処理することができる。第2レベル支持ベクトル機1312Aおよび1312Bからの得られた出力1314Aおよび1314Bを比較して、最適出力1316を決定することができる。最適出力1316は乳房撮影およびゲノムデータポイントの間の因果関係を同定することができる。当業者に明らかなはずのごとく、支持ベクトル機の考えられる階級は、学習機械によるデータの分析が望まれるいずれの分野または産業においても適用を有することができる。
【0102】
複数支持ベクトル機を用いる複数データセットの階級処理は、さらに他の支持ベクトル機または学習機械に入力し、またはそれから出力すべきデータを前処理または後処理する方法として用いることができる。加えて、データの前処理または後処理は、支持ベクトル機の前記階級構築の入力データおよび/または出力に対して行うことができる。
【0103】
ここに含めた例は、結腸癌の存在に最も相関する遺伝子を決定する好ましい方法を示し、あるいはそれを用いて、個人において結腸癌の発生を予測することができる。本発明は、生物学的システムにおける変化の診断または予測のために遺伝子、蛋白質または他の測定可能な基準を決定する学習機械で用いることができる、他の計算方法を含めたこれらの方法、および他の方法を含む。データの源には制限はなく、データは、生物学的システムにおける正常な状態および状態の変化の間を区別するのに用いることができる、遺伝子、蛋白質または臨床テストのごとき測定可能な基準の組合せであり得る。
【0104】
以下の実施例において、遺伝子の好ましい数を決定した。これらの数は本発明の方法を限定するものではない。好ましくは、結腸癌では、遺伝子の好ましい最適数はほぼ1ないし100の範囲であり、より好ましくは、該範囲は1ないし50であり、なおより好ましくは、該範囲は1ないし32であり、さらにより好ましくは、該範囲は1ないし21であり、最も好ましくは1ないし10である。遺伝子の好ましい最適数は元のデータの質および量によって影響され得、かくして、当業者によって各適用につき決定することができる。
【0105】
一旦決定的遺伝子が本発明の学習機械によって見出されれば、生物における生物学的変化の処置のための方法および組成物を使用することができる。例えば、結腸癌の治療では、治療剤を投与して、遺伝子産物の活性、存在または合成に拮抗し、または作動し、それを増強させ、または阻害することができる。治療剤は、限定されるものではないが、センスまたはアンチセンスポリヌクレオチド、DNAまたはRNAアナログ、医薬剤、プラズマフォレシス、抗脈管形成剤、ならびにそのような薬剤の誘導体、アナログおよび代謝産物を含む。
【0106】
そのような薬剤は非経口または非侵入的経路を介して投与される。多くの活性剤は非経口投与経路、静脈内、筋肉内、皮下、腹腔内、脊髄内、器官内、脳室内、動脈内および他の経路の注射を介して投与される。薬物送達のための非侵入的経路は経口、鼻孔、肺、直腸、頬内、膣、経皮および眼経路を含む。
【0107】
本発明のもう1つの実施形態は、インターネットまたは電話回線のごとき手段を介してパターンの決定サイトから離れたテストの使用を含む。例えば、特異的医学疾患に関連することが知られている遺伝子の存在を同定するためのゲノムテストは医師のオフィスで行われる。加えて、臨床データまたはプロテオミック決定のごとき他の情報もまた同一時点または異なる時点で作成することができる。テストの1つの、いくつかまたは全ての結果は、SVMを収容する遠隔サイトに伝達される。そのようなテストは、診断段階で、病気の予後を決定するのに、治療の結果を決定するのに、およびいずれの治療方法が個々の患者で良好であるかを決定するごとき処方的適用で用いることができる。
【0108】
以下の実施例により、本発明をさらに説明するが、それは本発明の範囲に限定を加えるものとは断じて解釈されるべきではない。対照的に、種々の他の実施形態、修飾およびその同等なものも可能であり、本明細書を読んだ後に、本発明の精神および/または添付の請求の範囲の範囲を逸脱することなく当業者にそれは自明であろうことが理解されるべきである。
【0109】
実施例1
結腸癌に関連する遺伝子パターンの解析
1ないし多数の、いずれかの数の遺伝子でエラー無しの分離を達成できる。好ましい方法は、多数の遺伝子の使用を含む。古典的な遺伝子選択方法は、訓練データを最良に個々に分類する遺伝子を選択する。これらの方法は相関方法および発現率方法を含む。それらは、区別で役に立たない(ノイズ)が、遺伝子が冗長であるゆえにコンパクトな遺伝子セットを生じない遺伝子を排除する。さらに、データを個々に十分に分離しない相補的遺伝子は失われる。
【0110】
単純な特徴(遺伝子)ランキングは、いかに十分に個々の特徴が分離に寄与するか(例えば、癌対正常)を評価することによってなすことができる。種々の相関係数をランキング基準として用いる。用いる係数は:
P=(μ1−μ2)/(σ1+σ2)
[式中、μiおよびσiはクラスi(i=1または2)の全ての患者についての特定の遺伝子の遺伝子発現値の平均および標準偏差である]
と定義される。大きな正のP値はクラス1との強い相関を示し、他方、大きな負の値はクラス2との強い相関を示す。
【0111】
何が相関方法で特徴ランキングを特徴付けるかは、なされる暗黙の独立した仮定である。各係数Pは単一の特徴(遺伝子)についての情報で計算され、特徴間の相互の情報は考慮しない。
【0112】
特徴ランキングの1つの使用は、予め選択された遺伝子のサブセットに基づくクラスプリディクターまたは(分類器)のデザインである。注目する分離と相関する(または反対−相関する)各遺伝子は、不完全なものではあるが、それ自体がそのようなクラスプリディクターである。荷重投票に基づく分類の単純な方法:遺伝子はその相関係数に比例的に投票する。そのようなものはゴラブ(Golub),1999で用いられた方法である。重みづけ投票スキームは、特定の線型判別分類器である分類器を生じる。
【0113】
本発明のための好ましい方法は、分類器重みとして遺伝子ランキング係数を用いることを含む。逆に、所与の分類器の入力を乗ずる重みは遺伝子ランキング係数として用いることができる。最大値によって荷重された入力は分類決定において最大の影響を有する。従って、もし分類器が十分に働けば、最大の荷重をした入力が最大の情報的遺伝子に対応する。他の方法は、良好な遺伝子ランキングを供する線型判別機能を訓練するためのアルゴリズムを含む。なぜならば、それは暗黙の独立仮定をなさないからである。
【0114】
本発明の好ましい方法は、分類器の重みを用いてSVM(支持ベクトル機)で特徴ランキングを作成することである。本発明では、ここに提供される例は調査中のデータセットの性質のため線型SVMに向けられるが、任意の複雑性の非線型決定限度で用いられるSVMの方法が考えられる。図13は、線型判別分類器の使用をグラフで示す。この例においては、xy座標は2つの遺伝子の発現係数を表す。線型判別分類器は、xおよびy入力に足した偏り値の荷重した合計のサインに従ってその決定を行う。訓練例を用いて適切な重みを選択する多くの方法が存在する。もし訓練データセットが線型に分離可能であれば、SVMはその入力構成要素において最大マージン分類器である。図13−aおよび13−b参照。決定限度(二次元の分離の場合には直線)は、いずれか側に最大の可能なマージンを残すように位置させる。SVMの特殊性は、決定関数の重みが、「支持ベクトル」と呼ばれる訓練例の小さなサブセットのみの関数であることである。それらは、決定境界に最も近く、マージン上に存在する例である。そのような支持ベクトルの存在は、SVMの計算特性およびその競合分類性能の原点にある。SVMは境界線の場合である支持ベクトル上のその決定関数に基づくが、ゴラブ(Golub)ら(1999)によって用いられた方法のごとき他の方法は平均的場合のその決定関数に基づく。図13−cおよび13−d参照。13aはSVMでの訓練例はエラーなくして分離される。決定境界のいずれか側のマージンは最大化される。13bは、同一SVMでの訓練およびテスト例の分離を示す。ただ1つの例が誤って分類されている。13cは、ゴラブ(Golub),1999のベースライン方法での訓練例の分離を示す。決定境界は、クラス図心によって規定される方向に対して垂直である。13dはベースライン方法での訓練およびテスト例の分離を示す。これらの例は誤って分類されている。
【0115】
ここに示された好ましい実施形態において、Cortes,1995に記載されたソフト−マージンアルゴリズムの変形の1つを用いた。以下の二次プログラミング問題を解く:
0≦αi≦CおよびΣiαiyi=0の条件下で、
αiにわたり、
(1/2)Σijyiyjαiαj(xi・xj+ζδij)−Σiαi
を最小化する。
【0116】
ここに、加算は、特徴(遺伝子)のベクトルである全ての訓練パターンxiにわたって行い、xi・xjはスカラー積を示し、yiは二元値+1または−1としてのクラス標識を表し、δijはクロネッカーの記号であり(もしi=jであればδij=0、その他の場合は0)、およびζおよびCは正の定数である(ソフトマージンパラメーター)。問題が非線型的に分離可能であるか、または条件が不充分である場合でさえ、ソフトマージンパラメーターは収束を保証する。そのような場合、支持ベクトルのいくつかはマージン上に存在しないであろう。
【0117】
入力ベクトルxの得られた決定関数は:
D(x)=w.x+bであり、
ここに、
w=Σiαiyixiおよびb=<yi−w.xi>
である。
【0118】
重みベクトルwは訓練パターンの線型組合せである。ほとんどの重みαiはゼロである。ゼロでない重みの訓練パターンは支持ベクトルである。厳格な不等式0<αi<Cを満足する重みを持つものはマージン支持ベクトルである。偏り値bはマージン支持ベクトルにわたる平均である。
【0119】
回帰的特徴排除(RFE)
特徴間の相互の情報はSVM分類器についての分類器重みの計算で用いられるので、特徴のサブセットの除去は重みの値に影響する。対照的に、暗黙の独立仮定をなす相関方法は、考慮される特徴のサブセットとは独立した重み値を生じる。
【0120】
全ての特徴について訓練することによって得られたSVM分類器の重みにて一旦特徴をランク付けするよりもむしろ、より洗練されたランキングは、ある時点で1つの特徴を除去することによって得られる。各対話において、新しい分類器が残りの特徴にて訓練される。新しい分類器における最小の重みに対応する特徴は排除される。排除の順序は特定のランキングを生じる。約束により、排除されるべき最後の特徴は最初にランクされる。この方法は計算の効率のために最適化することができる。しかしながら、それは、結局は、多数の特徴(数百万の遺伝子)につき余りにも計算が高価となり得る。他の方法は、ある時点における遺伝子のチャンクの排除を含む。最初の反復にて、2の最も近いパワーである遺伝子の数に到達した。引き続いての反復にて、残りの遺伝子の半分が排除された。かくして、増大する情報密度の遺伝子のネステッドサブセットが得られた。
【0121】
結腸癌に関する本出願についての本発明の学習機械を訓練しテストするための元のデータは、アロン(Alon)ら,1999に掲げられているデータから得られた。遺伝子発現情報は、前処理後に62組織×2000遺伝子の表で得られるマイクロアレイデータから抽出した。62の組織は22の正常な組織および40の結腸癌組織を含む。マトリックスが、62の組織を横切る最高最小密度を持つ2000の遺伝子の発現を含有する。結腸癌データセットにおける1つの問題は、腫瘍試料および正常試料が細胞組成において異なったということであった。腫瘍試料は上皮細胞で通常は豊富であり、ここに、正常組織は細胞型の混合物であり、平滑筋細胞の大きな割合を含む。試料は細胞組成に基づいて容易に分離することができたが、この分離は癌−関連遺伝子をトラッキングするのに非常に参考になるというわけではなかった。
【0122】
アロン(Alon)らは、いくつかの遺伝子が癌vs正常分離スキームに相関するが、遺伝子選択の特異的方法は示唆しないことを示すことによってトップダウンクラスタリングに基づくデータベースの解析、非監督学習の方法およびクラスター遺伝子を提供する。彼らは、いくつかの遺伝子が癌vs正常分離に相関するが、遺伝子選択の特異的方法を示唆しないことを示す。
【0123】
本発明のこの実施形態の遺伝子選択方法は、実施例2のそれのような、およびゴラブ(Golub)ら,Science,1999で用いられたもののような参照遺伝子選択方法を含む。ゴラブ(Golub)においては、著者らは、エラー率、固定された閾値における拒絶率、および分類の信頼性を含めた分類器品質のいくつかの基準を用いている。各値は、独立したテストセットにつき、かつ訓練セットでリーブ−ワン−アウト方法を用いて計算される。該リーブ−ワン−アウト方法は、訓練セットから1つの例を除き、残りの訓練データのみに基づく決定関数を構築し、次いで、除去された例につきテストすることよりなる。この方法においては、訓練データの全ての例をテストし、訓練例の全数にわたってエラーの分率を測定する。
【0124】
学習機械を用いる方法は、前記基準の修飾を含む。分類決定はSVM出力のサインに従って行われた。出力の大きさは分類の信頼性を示すものである。
【0125】
分類器品質の4つの基準を用いた(図14参照)。
【0126】
エラー(B1+B2)=ゼロ拒絶におけるエラー(「悪い」)の数
拒絶(R1+R2)=ゼロエラーを得るための拒絶された試料の最少数
外部マージン(E/D)=陽性クラス試料の最小出力および陰性クラス試料の最大出力の間の差(出力間の最大差によって再判断)
メジアンマージン(M/D)=陽性クラス試料のメジアン出力および陰性クラス試料のメジアン出力の間の差(出力間の最大差によって再判断)
各値はリーブ−ワン−アウト方法での訓練セットに対し、およびテストセットに対して計算する。
【0127】
エラー率は、誤って分類された例の分率である(診断エラーに対応)。それは成功率によって考えられる。拒絶率は、(それに対して、低い信頼性のため決定がなされない)拒絶される例の分率である。それは許容率によって考えられる。外部およびメジアンマージンは分類信頼性の測定である。
【0128】
リーブ−ワン−アウト方法での、またはテストセットに対するマージンを計算する方法は、モデル選択基準で時々用いられる訓練例に対して計算されたマージンとは異なった。
【0129】
遺伝子の最適サブセットを予測する方法は、訓練例のみに由来する情報を用いる最適性の基準を規定することを含んだ。これは、予測された遺伝子サブセットがテストセットについて最良に実行したか否かを判断することによってチェックした。
【0130】
同様の「モデル選択」問題でしばしば用いられる基準はリーブーワン−アウト成功率Vsucである。この例においては、それはほとんど有益でなかった。というのは、ゼロのリーブーワン−アウトエラーを有する多くの分類器の間の区別が許容されないからである。そのような区別は、リーブーワン−アウト方法にて交差−有効化によって計算された品質基準の全てを組み合わせる基準を用いて得られる:
Q=Vsuc+Vacc+Vext+Vmed
ここに、Vsucは成功率であり、Vaccは許容率であり、Vextは外部マージンであり、Vmedはメジアンマージンである。
【0131】
理論的考察により、我々は、この基準を修飾して大きな遺伝子セットを課した。事実、リーブーワン−アウトエラーおよびテストエラーの間の大きな差を観察する確率は、以下の式:
ε(d)=sqrt(−log(α)+log(G(d)))・sqrt(p(1−p)/n)
[式中(1−α)は信頼性であり(典型的には、95%、すなわち、α=0.05)、pは「真の」エラー率であり(p≦0.01、およびnは訓練セットのサイズである]
を用いると、遺伝子セットのサイズdと共に増加する。
【0132】
保証された危険原理(Vapnik1974)に従い、我々は、基準Qからε(d)に比例する量を差し引いて新しい基準:
C=Q−2ε(d)
を得た。
【0133】
比例性の係数は、Vsuc,Vacc,VextおよびVmedが同一誤差棒ε(d)にて独立したランダム変数であって、この誤差棒が標準偏差に比例すると仮定して、試行錯誤により計算した。その場合、偏差は加算的であるので、誤差棒はsqrt(4)を乗ずるべきである。
【0134】
好ましい実施形態の方法のより詳細な考察を続ける。SVM回帰的特徴排除(RFE)を生データに対して行って、該方法の有効性を評価した。結腸癌データ試料を、訓練につき31の例に、およびテストにつき31の例にランダムに分けた。RFE方法を行って、各回それを2で割ることによって遺伝子の数を次々とサイズを低下させた。データの前処理は、各遺伝子発現についてのものであり、平均を差し引き、次いで、結果を標準偏差で割った。
【0135】
分類器品質基準でのリーブーワン−アウト方法を用いて、遺伝子の最適数を見積もった。実施例2はリーブーワン−アウト方法の使用を説明する。リーブーワン−アウト方法は、訓練セットの1つの例は取り出すことを含む。訓練は残りの例について行われる。残された例を用いてテストする。該手法は全ての例について反復する。各基準は全ての例にわたって平均として計算される。総じての分類器品質基準は4つの値:(ゼロ拒絶における)リーブーワン−アウト成功率、(ゼロエラーにおける)リーブーワン−アウト許容率、リーブーワン−アウト外部マージン、およびリーブーワン−アウトメジアンマージンの合計である。分類器はハードマージンを持つ線型分類器である。
【0136】
前記ステップの結果は、訓練データのみを用いる方法によって予測された最適において、リーブーワン−アウトエラーはゼロであって、テスト性能は現実に最適であることを示す。4つの遺伝子が発見されそれらは以下のものである:
L07648 ヒトMXI1 mRNA、完全なces
T47377 71035 S−100P蛋白質(ヒト)
M76378 ヒト・システイン−リッチの蛋白質(CRP)遺伝子、エクソン5および6
Z50753 GCAP−II/ウログアニリン前駆体についてのH.sapiens mRNA
最適テスト性能は81%の成功率を有していた。この結果は、アロン(Alon)らによるオリジナル論文に報告された結果と合致した。さらに、1を除くエラーは、孤立値としてアロン(Alon)らによって同定された。エラーは8、36、34、12、−36および−30であり、36は孤立値としてアロン(Alon)らによって同定されていないエラーである。該数は組織を同定し、該サインは腫瘍の存在または不存在を示す(負=腫瘍、正またはサイン無し=正常)。直接的性能比較は行わなかった。なぜならばアロン(Alon)らは全データセットで非管理学習を用いており、他方、本実施形態はデータセットの半分について管理された学習を用いたからである。遺伝子数の関数における性能曲線のプロットを図14に示す。図14のグラフの記載は以下の通りである:水平軸=log2(遺伝子の数)。曲線:丸=テスト成功率;四角=リーブーワン−アウト品質基準;三角=イプシロン(理論誤差棒);菱形=四角−三角(平滑化)最適テスト成功率のプリディクター、菱形曲線の最適はlog2(遺伝子の数)=2=≧遺伝子数=4。それは丸曲線の最適と一致する。
【0137】
前処理ステップ
対数を取る
データの初期前処理ステップはアロン(Alon)らによって記載された。データをさらに前処理して、データの分布をより歪みが少なくした。図15は、均一な分布と比較された2つのランダムな遺伝子(所与の発現値の試料の累積数)についての組織試料にわたる遺伝子発現値の分布を示す。各線は遺伝子を表す。15AおよびBは生データを示し;15CおよびDは対数を取った後の同一データである。遺伝子発現値の対数を取ることによって、同一曲線が得られ、分布はより均一となる。これは、遺伝子発現係数は、2つの値の比率を計算することによってしばしば得られるという事実によるものであろう。例えば、競合的ハイブリダイゼーションスキームにおいて、異なって標識される2つの試料からのDNAはアレイ上にハイブリダイズする。2つの標識の蛍光に対応し、特定の遺伝子にハイブリダイズしたいずれかの試料のDNAの分率を反映する2つの係数が、アレイの各点において得られる。典型的には、採用される最初の初期前処理ステップは、これらの2つの値の比率a/bを取ることである。この初期前処理ステップは適切であるが、2つの値が小さい場合には最適ではないであろう。他の初期前処理ステップは、(a−b)/(a+b)および(loga−logb)/(loga+logb)を含む。
【0138】
アレイ平均を差し引く
図16は、全ての組織試料についての遺伝子にわたる遺伝子発現値の分布を示す。16Aは生データを示し、16Bはinv erfを示す。形状はほぼerf関数のそれであり、これは、密度がNormal則にほぼ従うことを示す。事実、逆erf関数にデータを通じると、ほとんどまっすぐな平行線が得られる。かくして、平均を差し引くことによってデータを正規化するのが合理的である。この前処理ステップはアロン(Alon)らによっても示唆されている。この前処理ステップは、マイクロアレイ間の実験条件に変動があるという事実によって裏付けられる。標準偏差はかなり一定のままのように見えるが、選択された他の前処理ステップが、遺伝子発現値を標準偏差で割って、標準化偏差の中央データを得ることであった。
【0139】
組織試料にわたる各遺伝子発現を正規化する
訓練データのみを用い、各遺伝子につき平均発現値および標準偏差を計算した。その遺伝子の全ての試料値につき(訓練およびテスト)、次いで、その平均を差し引き、得られた値を標準偏差で割った。図17はこれらの前処理ステップの結果を示す。図17は、結腸癌についてのマイクロアレイデータからの遺伝子発現値を表すデータマトリックスを示し、ここに、線は62の組織を表し、欄は2000の遺伝子を表す。
【0140】
いくつかの実験において、データをスクワッシング関数に通して孤立値の重要性をなくすることによって、さらなる前処理ステップを付加した。
【0141】
新しいRFE結果
前記したごとくにデータを前処理し、図17にまとめて、新しく改良された結果を得た。この方法においては、実施例2で用いたものからの修飾がある。まず、暗号は、RFEがある時点において1つの遺伝子を排除することによって実行できるように最適化した。実施例2において、ある時点における遺伝子のチャンクを排除した。チャンクサイズを各反復において2で割った。この実施形態のこの処理の修飾は、種々の解析を可能とするが、分類の精度に有意に影響しないより良いランキングを提供する。それは、例えば、Pentium III333、256MB RAMにて約10ないし15分で実行される。
【0142】
実施例2の方法とは異なる第2の修飾は、遺伝子選択交差−有効化プロセスが正規のSVMを用いたことであった。実施例2においては、まずデータを最初の主な構成要素上にプロジェクトすることによって、低下した能力のSVMを用いた。
【0143】
図18の結果は、図14のものよりもかなりの改良を示す。図18は、前処理後のRFEの結果を示す。図18についての記載は以下のとおりである:水平軸=log2(遺伝子の数)。曲線:丸=テスト成功率;四角=リーブ−ワン−アウト品質基準;三角=イプシロン(理論誤差棒);菱形=四角−三角(平滑化) 最適テスト成功率のプリディクター 菱形曲線の最適はlog2(遺伝子の数)=4≧遺伝子の数=16におけるものである。図14で用いた低下能力SVMをプレインSVMによって置き換える。logスケールが依然として遺伝子数で用いられるが、ある時点で1つの遺伝子を排除することによってRFEを実行した。最良なテスト性能は90%分類精度である(8遺伝子)。訓練データ情報のみに基づく分類器品質から予測される遺伝子の最適数は16である。これは、テストセットでの87%分類精度に対応する。以下のごとく、同一テスト性能が2遺伝子のみで達成される:
J02854:ミオシン調節軽鎖2、平滑筋イソ形態ヒト;エレメントTAR1反復エレメントを含有。
【0144】
R55310:Sサブ36390ミトコンドリア処理ペプチダーゼ。
【0145】
これらの2つの遺伝子のいずれも、最初の実験においてリストの頂部に現れない。
【0146】
見出された頂部遺伝子は平滑筋遺伝子であり、これは組織組成に特徴的な遺伝子であって、恐らくは癌には関係しない。
【0147】
ゴラブ(Golub)の方法との比較
ゴラブ(Golub)の遺伝子の選択方法はランキング方法であり、ここに、全ての訓練データ試料についての遺伝子発現値のべクターおよび標的値のベクターの間の相関に従って遺伝子を順序立てる(正常な試料について+1、および癌試料について−1)。ゴラブ(Golub)らはm/2頂部にランクされたおよびm/2底部にランクされた遺伝子を選択して、分離に高度に相関する遺伝子の半分および抗−相関の半分を得る。ゴラブ(Golub)らは線型分類器を用いる未知の試料を分類するために、標的分離ベクトルにてその相関係数に従って癌または正常につき各遺伝子は「投票する」。ゴラブ(Golub)の方法によって選択された頂部遺伝子はJ02854であった(関連する平滑筋)。図19は、ベースライン方法のこの実施形態の使用とゴラブ(Golub)らとの比較を示す。図18で用いられたのと同一の曲線が図19に示される。図19についての記載は以下のとおりである:水平軸=log2(遺伝子の数)。曲線:丸=テスト成功率;四角=リーブ−ワン−アウト品質基準;三角=イプシロン(理論誤差棒);菱形=四角−三角(平滑化) 最適テスト成功率のプリディクター。図18および19で同一に前処理されたデータを、次いで、ゴラブ(Golub)の方法によって処理し、図19にグラフ化する。遺伝子の最適数を選択してSVMのごとき学習機械で用いるのは、本発明者らの新規な知見である。
【0148】
本発明のこの実施形態およびゴラブ(Golub)の方法の結果を比較するために、式:
(1−α)=0.5+0.5erf(Zα/sqrt(2))
Zα=εn/sqrt(v)
[式中、nはテスト試料の数であり、vは2つの分類器のうち1つのみがなすエラーの合計数であり、およびεはエラー率(または拒絶率)の差である]
を用い、いずれの信頼性(1−α)でもって、1つの分類器が他の分類器よりも良好であると判断する統計的テストを用いた。
【0149】
この式を表1にまとめた結果に適用した。いずれの場合にも、ε=3/31およびv=3である。テスト例の合計数はm=31である。このテストに基づき、本発明のこの実施形態の方法は、95.8%の信頼性をもって、ゴラブ(Golub)よりも良好であった。
【0150】
【表1】
表1:本発明のこの実施形態の方法およびゴラブ(Golub)の方法の間のエラー率比較。エラーのリストは括弧間に示される。数字は患者を示す。サインは癌(負)または正常(正)を示す。本発明のこの実施形態では、最良の性能は8遺伝子におけるものであり、最適は16遺伝子において予測された。ゴラブ(Golub)では、最良の性能は16遺伝子におけるものであり、4遺伝子において最適が予測された。いずれの場合にも、最良の性能および予測される最適の間にはただ1つのエラーの差があることに注意されたし。
【0151】
クラスタリングおよび遺伝子選択を組み合わせる
データの冗長のため、合理的な分離を提供する遺伝子の多くのサブセットを見いだす可能性があった。結果を解析するには、どのようにしてこれらの遺伝子が関連するかを理解するのが最適であった。いずれかの特定の理論に拘束されるつもりはないが、それは、遺伝子選択の問題が、正常な組織を癌組織から最大の精度を持って分離する、遺伝子の最適数(恐らくは小さい)を見いだすことである最初の理論であった。
【0152】
SVM回帰特徴排除(RFE)は、相補的であって、かくして、ほとんど冗長な情報を運ばない遺伝子のサブセットを用いた。データの構造および性質についての他の情報は提供されなかった。データは非常に冗長であったので、選択されなかった遺伝子は、それにもかかわらず、分離について情報的であろう。
【0153】
ゴラブ(Golub)の方法のごとき相関方法は遺伝子のランクされたリストを提供する。該ランクの順序は、どのようにして遺伝子が分離と相関するかを特徴づける。一般に、単独で取られた高くランクされた遺伝子はより低くランクされた遺伝子よりも良好な分離を提供する。従って、「低い情報性の遺伝子」から「高い情報性の遺伝子」を分離する閾値を設定することができる(例えば、トップにランクされた遺伝子のみを維持する)。
【0154】
SVM RFEのごとき本発明の方法は、より小さくかつより判別される遺伝子のサブセットを提供する。RFEを用いるSVM遺伝子選択方法は、遺伝子のランクされたリストを提供する。このリストでは、増大するサイズの遺伝子のネステッドサブセットを定義することができる。しかしながら、1つの遺伝子がもう1つの遺伝子よりも高いランクを有するという事実は、その因子が単独で良好な分離を特徴づけることを意味しない。事実、非常に早期に排除される遺伝子は非常に情報的であるが、維持される他のものでは冗長であり得る。ゴラブ(Golub)の方法およびSVMの方法の間のこれらの差は図20に示される。該図面はピアソン(Pearson)相関係数のマトリックスを示す。20Aはゴラブ(Golub)の方法を示す。増大するランクの遺伝子は、標的分離と増大する相関(または反相関)を意味する。相関係数の絶対値は、32の最良の遺伝子および最高のランクを有する他の遺伝子の間でより大きい。20BはSVM方法を示す。全体として32の最良の遺伝子は良好な分離を提供するが、個々には、標的分離と非常に相関するのではないであろう。遺伝子のランキングは、良好な分離を提供する遺伝子のネステッドサブセットを形成するのを可能とする。それは、個々の遺伝子がどれくらい良好であるかについて情報的ではない。いずれかのランクの遺伝子は、32の最良の遺伝子と相関するであろう。それらは、いくつかのポイントでは排除されてしまっているであろう。それは、残りの遺伝子のいくつかについてのその冗長性のためであり、それらが標的分離に対する情報を運ばないからではない。
【0155】
遺伝子ランキングは、単独では、いずれの遺伝子が情報的であって、いずれの遺伝子が情報的でないかを特徴づけるのに、またいずれの遺伝子が相補的であって、いずれの遺伝子が冗長であるかを決定づけるのに不十分である。
【0156】
非監督クラスタリング
遺伝子ランキング単独における問題を克服するために、データを非監督クラスタリング方法で前処理した。(所与の基準でもって)類似に従って遺伝子をグループ分けした。次いで、遺伝子それ自体の代わりにクラスター中心を用い、SVM RFEによって処理する。結果は、クラスター中心のネステッドサブセットであった。最適サブセットサイズは、以前用いた同一の交差−有効化方法でもって選択することができる。次いで、クラスター中心はクラスターのいずれかのエレメントを置き換えることができる。
【0157】
データを用い、QTクラストクラスタリングアルゴリズムを用いて、100の密なクラスターを生じさせた。用いた同様性尺度は(遺伝子クラスタリングで共通に用いられる)ピアソンの相関係数であった。図21は性能曲線を示す。図21は、100の密なQTクラストクラスターで訓練した場合のRFEの結果を示す。水平軸=log2(遺伝子クラスター中心の数)。曲線:丸=テスト成功率;四角=リーブ−ワン−アウト品質基準;三角=イプシロン(理論誤差棒);菱形=四角−三角(平滑化) 最適テスト成功率のプリディクター 菱形曲線の最適はlog2(遺伝子クラスター中心の数=3=>遺伝子クラスター中心の数=8におけるものである)。
【0158】
それらは図18のものに匹敵する。図22は、SVM RFEによって選択された頂部8QTクラストクラスターを示す。図22において、8つのクラスター(線)についての訓練セット(欄)の32組織についての遺伝子発現が表される。陽性遺伝子発現は赤色であって、陰性遺伝子発現は青色である。小さな値はより明るい色を有する。22Aはクラスター中心を示し;22Bはクラスターエレメントを示す。
【0159】
クラスターのエレメントを表2にリストする。
【0160】
【表2】
表2:RFEで選択されたQTクラストクラスター。クラスターのランク(RK)が高くなると、クラスターはより重要になる。Min correlはクラスターエレメントの間の最小相関係数である。GAN=遺伝子受託番号
非監督クラスタリングでは、情報的遺伝子のセットが規定されるが、保持されない遺伝子が情報を運ばないという保証はない。全てのQTクラストクラスター足す残りの非−クラスター化遺伝子(シングルトンクラスター)でRFEを用いると、性能曲線はかなり似ているが、選択された遺伝子クラスターの頂部セットは完全に異なり、かなりのシングルトンを含んだ。表1で選択された遺伝子は構造が組織化されており:クラスター内では、それらが相補的であるクラスターにわたり、遺伝子は冗長である。
【0161】
クラスター中心はそれらのメンバーのうちいずれかによって置換することができる。この因子はいくつかの医療診断テストのデザインで重要であり得る。例えば、いくつかの蛋白質の投与は他の蛋白質の投与よりも容易であろう。別の遺伝子の選択を有することは、処置および投与の選択に柔軟性を導入する。
【0162】
8つのクラスターの各々の1つの遺伝子がランダムに選択された点で、10のランダムな選択をテストした。平均テストセットの精度は0.80であり、標準偏差は0.05であった。これは、クラスター中心についての0.87と比較すべきである。ランダムな選択テストの1つは、中心のそれ(0.90)よりも優れた精度を生じた:D23672、T51023、T85247、R89377、R51749、X55187、R39209、U09564。
【0163】
QTクラストクラスタリングの代わりの階級クラスタリングを用いて、平均して2つのエレメントを含有する小さなクラスターのロットを生じさせた。より小さなクラスターの重要性のため、それから選択すべきより少ない遺伝子代替物があった。この例においては、階級クラスタリングは、QTクラストクラスタリングを用いるのと同程度に良好な結果を生じなかった。本発明では、限定されるものではないが、階級クラスタリング、QTクラストクラスタリングおよびSVMクラスタリングを含めたクラスタリングのための公知の方法のいずれかの使用が考えらえる。本発明でいずれのクラスタリング方法を使用するかの選択は、初期データおよび望まれる結果によって影響され、当業者によって決定され得る。
【0164】
色で示し、残りは丸である、表2中の8つのクラスターからの選択された遺伝子のばらつきプロットを図23に示す。各ドットは、主な構成要素解析によって得られた平均患者の遺伝子発現値を表す。色を付けたドットは、QTクラストクラスタリングを用いてSVM RFEによって選択された遺伝子である。各クラスターはランダムに選択された色が与えられる。ドットのサイズは、クラスターのランクに比例する。このばらつきプロットを得るには、単一平均正常組織によって全ての正常な組織を置き換えた(「主要正常組織」と呼ばれる第1の主要構成要素)。同一のことを癌組織で行った。各点は、主な癌組織/主な正常組織二次元空間における遺伝子発現を表す。
【0165】
監督クラスタリング
本発明で用いるもう1つの方法は、SVM RFEの後処理ステップとしてクラスタリングを用いるものであった。遺伝子発現係数の元のセットで正規のSVM RFEを行うことによって選択された各遺伝子をクラスター中心として用いた。例えば、図18に記載した結果を用いた。頂部の8つの遺伝子の各々については、相関係数は全ての残りの遺伝子で計算した。パラメーターは、遺伝子iにクラスター化される遺伝子は、以下の2つの条件:8つの遺伝子の選択されたサブセット中の他の遺伝子と遺伝子iとのより高い相関係数を有しなければならない、および閾値θを超える相関係数を有しなければならない;に適合する遺伝子であるというものであった。
【0166】
ここに掲げる図面および表において、8つの遺伝子についての結果を提示する。16遺伝子の最適に予測された数は提示されなかった。なぜならば、16遺伝子についての結果の提示はより大きな表を生じ、当該方法に対してより多くの洞察を与えないからである。
【0167】
クラスター化遺伝子は図24に示され、表3にリストされる。
【0168】
【表3】
表3:監督クラスタリング。クラスターは、正規のSVM RFEによって見いだされた最良の遺伝子の回りで形成された。パラメーターθは0.8である(明細書参照)。クラスターのランク(Rk)が高くなると、クラスターはより「重要」となるはずである。Min correlはクラスターエレメントの間の最小相関係数である。GAN=遺伝子受託番号。クラスター中心よりは星印が先行する。クラスター8において、我々は、図24中の最後のクラスターの中央に示す8「対照」値を省略した。
【0169】
図24は、8つのクラスターにつき訓練セット(欄)の32の組織での遺伝子発現を示す(行。陽性の遺伝子発現は赤色であって、陰性の遺伝子発現は青色である)。小さな値はより明るい色を有する。24Aは、正規のSVM RFEによって得られた頂部8遺伝子をクラスター中心として用いることを示す。24Bはクラスターの全てのエレメントを示す。クラスターエレメントはかなり相関があるか、またはクラスター中心に対して反相関であり得る。
【0170】
非監督クラスタリング方法および結果と比較して、この例においては、監督クラスタリング方法はクラスター当たり例の数にわたって良好な制御を与えない。従って、もし目標が各クラスターにおいて種々の遺伝子から選択できることであれば、この方法は非監督クラスタリング程良好ではない。しかしながら、監督クラスタリングは、決定されるべき特異的知識につき重要性を有する特異的クラスターを示し得る。この特定の実施形態においては、特に、組織の組成に関連し得、癌vs正常分離には重要ではないであろういくつかの筋肉遺伝子を含有する遺伝子の非常に大きなクラスターが見いだされた。かくして、それらの遺伝子は、結腸癌についての診断または予後に対してほとんど関係を有しないとして考慮から排除された良好な候補である。
【0171】
組織組成関連遺伝子の因子化
以下の方法は、同定された組織組成関連遺伝子を自動的に排除することに向けられた。それらの遺伝子は結果の解析を複雑にする。なぜならば、癌vs正常分離に対して情報的である遺伝子からそれらを区別するのは不可能だったからである。非監督前処理での結果は、トップにランクされた遺伝子が、潜在的組織組成関連遺伝子を検出するのに用いられたキーワード「平滑筋」を含有しないことを示した。心筋遺伝子は依然としてこの方法の元で選択された。
【0172】
前記した訓練セット/テストセットスプリットを用い、他の方法を用いた。例えば、トップにランクされた遺伝子のいくつかを排除し、トップにランクされた遺伝子の中でもはや「平滑筋」遺伝子または他の筋肉遺伝子がなくなるまで、遺伝子選択プロセスを再度実行した。しかしながら、テストセットでの効率は低下し、遺伝子セットが組織組成関連遺伝子を含まない場合の決定を可能とするであろう自動基準はなかった。
【0173】
本発明の最も好ましい方法において、遺伝子選択プロセスを全データセットで行った。非常に多数の訓練試料では、ここで用いたSVMのごとき学習機械は組織組成関連遺伝子を因子化した。いずれかの特定の理論に拘束されるつもりはないが、ボーダーラインの場合(支持ベクトル)に焦点を当てるSVM特性は、筋肉細胞で豊富な癌組織および上皮細胞で豊富な正常組織の少数の例を利用することができると理論化される(平均的傾向の逆)。
【0174】
得られたトップランキング遺伝子には、監督クラスタリングでクラスター化した遺伝子を含めた筋肉関連遺伝子が含まれなかった。対照的に、ゴラブ(Golub)の方法は、7つのトップランキング遺伝子クラスター単独において3つの平滑筋関連遺伝子を得る。さらに、SVM RFEによって見いだされたトップランキング遺伝子は、全て、分離を特徴づけるものであった(癌vs正常)(表4)。本発明は、良好な分類精度およびより小さな遺伝子サブセットを持ってこのデータセットで定量的差をなすのみならず、定性的差をなす:遺伝子セットは組織組成関連遺伝子を含まない。
【0175】
【表4】
表4:増大する順番において、本発明の方法によって発見された7つのトップにランクされた遺伝子。Rk:ランク。Sgn:標的分離と相関する兆候、− ほとんどの癌組織において過剰発現される;+ ほとんどの正常細胞で過剰発現される;GAN:遺伝子受託番号;可能な機能は「結腸癌」または「癌」を含むキーワードサーチおよび遺伝子記載中のいくつかの語句から得られた。
【0176】
図25は、全データセットでの訓練の後にSVM RFEを用いる本発明の方法の結果を示す。図25において、グラフは以下のとおりである:水平軸=log2(遺伝子クラスター中心の数)。曲線:塗りつぶした丸=訓練成功率;ダッシュを付けた黒色=リーブ−ワン−アウト成功率;四角=リーブ−ワン−アウト品質基準;三角=イプシロン(理論的誤差棒);菱形=四角−三角(平滑化) 最適テスト成功率のプリディクター 菱形曲線の最適はlog2(遺伝子の数)=5=≧遺伝子の数=32におけるものである。
【0177】
比較のため、図26は、全データセットで訓練した場合のゴラブ(Golub)の方法で得られた結果を示す。水平軸=log2(遺伝子クラスター中心の数)曲線:丸=訓練成功率;ダッシュつきの黒色=リーブ−ワン−アウト成功率;四角=リーブ−ワン−アウト品質基準;三角=イプシロン(理論的誤差棒);菱形=四角−三角(平滑化) 最適テスト成功率のプリディクター 菱形曲線の最適はlog2(遺伝子の数)=2=≧遺伝子の数=4におけるものである。
【0178】
最良のリーブ−ワン−アウトの性能はSVMについては100%精度であり、ゴラブ(Golub)の方法では90%に過ぎない(6つのエラー={39、29、1、−12、−35、−29})。式:
(1−α)=0.5+0.5erf(Zα/sqrt(2))
Zα=εn/sqrt(v)
[式中、nはテスト試料の数であり、vは2つの分類器の1つのみがなすエラーの全数であり、およびεはエラー率(または拒絶率)の差である]
を用い、1つの分類器が他の分類器よりも良好であるといずれの信頼性(1−α)を持って判断する統計的テストを用いる。
【0179】
本発明の方法は、99.3%の信頼性率で持って、ゴラブ(Golub)よりも良好である。
【0180】
我々のリーブ−ワン−アウト基準によって予測される遺伝子の最適数は、図25における32遺伝子である。より小さな数の遺伝子領域におけるより微細なプロットは、21遺伝子における最適を明らかにする。図27は、SVM RFEの最後の100反復における支持ベクトル(「アルファ’s」)の荷重係数を示す。アルファが非常に最後の反復までかなり変化しないのを見るのは興味深い。支持ベクトルの数は、7支持ベクトルにつき7遺伝子において最小を通過する。
【0181】
表5において、我々は、これらの7つの支持ベクトルの「筋肉指標」値を示す。筋肉指標は、試料の筋肉細胞含有量を反映する全ての試料でアロン(Alon)らによって計算された量である。ほとんどの正常試料は腫瘍試料よりも高い筋肉指標を有する。しかしながら、支持ベクトルはいずれのそのような傾向も示さない。
【0182】
高いまたは低い筋肉試料いずれかを持つ正常および癌試料の混合物がある。
【0183】
より重要なことには、発見された遺伝子の解析は、最初の平滑筋遺伝子がゴラブ(Golub)の方法では5にランクづけし、SVMでは41のみにランクづけすることを明らかにする。さらに、予測されたSVMについての遺伝子の最適数は対数プロットでは32遺伝子であり、直線プロットでは21遺伝子である。従って、SVMは、分離を行うのに組織組成−関連遺伝子に頼るのを回避できた。生物学的データによって確認されるごとく、SVMによって発見されたトップランキング遺伝子は、全て、癌vs正常分離に関連づけられる。対照的に、ゴラブ(Golub)の方法は組織組成に関連するが、そのトップランキング遺伝子における癌vs正常の区別に関連しない遺伝子を選択する。
【0184】
【表5】
表5:SVM RFEによって選択されたトップ7遺伝子で訓練されたSVMの支持ベクトルの筋肉指標。負の記号を持つ試料は腫瘍組織である。正の記号を持つ試料は正常組織である。試料は増大する筋肉指標の順にランクづけした。データセットにおけるほとんどの試料において、正常組織は腫瘍組織よりも高い筋肉指標を有する。なぜならば、腫瘍組織は上皮(皮膚)細胞でより豊富だからである。これは、全ての可能性のミックスを示す支持ベクトルではあてはまらない。
【0185】
表6−1、表6−2において、本発明によって発見された7つのトップにランクづけされた遺伝子および閾値θ=0.75においてそれらにクラスター化された遺伝子。同一のことが表7−1、表7−2中のゴラブ(Golub)の方法でなされた。図28および29はそれらの遺伝子をグラフで表示する。
【0186】
図28は、左から右にかけて、増大する重要性の順で、SVM RFEによって発見されたトップにランクされる遺伝子を示す。7つのクラスター(行)についての全ての62組織(欄)の遺伝子発現が表される。トップの22組織は正常であり、40の最後のものは癌性である。正の遺伝子発現は赤色であり、負の遺伝子発現は青色である。小さな値はより明るい色を有する。28Aはクラスター中心を示す。28BはSVMの出力を示す(Aの遺伝子の荷重合計)。分離はエラー無しである。図28の遺伝子は図29のものと同定度に秩序立っては見えない。なぜならば、それらはより多くの情報を運ぶが、標的分離と個々には相関が低いからである。28Cは閾値θ=0.75において中心にクラスター化された遺伝子を示す。
【0187】
図29は、左から右に増大する重要性の順で、ゴラブ(Golub)の方法によって発見された7つのトップにランクされた遺伝子を示す。7つのクラスター(行)についての全ての62の組織(欄)の遺伝子発現が表される。トップの22組織は正常であり、40の最後のものは癌性である。正の遺伝子発現は赤色であって、負の遺伝子発現は青色である。小さな値はより明るい色を有する。29Aはクラスター中心を示す。29Bはゴラブ(Golub)分類器の出力を示す(Aの遺伝子の荷重合計)。分離はエラーが無いのではない。29Cは閾値θ=0.75sにおける中心にクラスター化された遺伝子を示す。
【0188】
【表6−1】
【0189】
【表6−2】
表6−1、表6−2:全ての62組織を用いた場合のSVMトップランクのクラスター。クラスターは閾値θ=0.75を持つ最良の遺伝子の回りで形成される。クラスターのランク(Rk)が高くなれば、クラスターはより「重要」になるはずである。Min correlはクラスターエレメントの間の最小相関係数である。Sgn:標的分離との相関の記号、− ほとんどの癌細胞において過剰発現;+ ほとんどの正常細胞で過剰発現;GAN:遺伝子受託番号。クラスター中心よりも星印が先行する。いずれの遺伝子も組織組成関連性とは見えない。
【0190】
【表7−1】
【0191】
【表7−2】
表7−1、表7−2:すべての62組織を用いた場合のゴラブ(Golub)トップランクのクラスター。クラスターは閾値θ=0.75を持つ最良の遺伝子の回りに形成される。クラスターのランク(Rk)が高くなれば、クラスターはより「重要」になるはずである。Mincorrelはクラスターエレメントの間の最小相関係数である。Sgn:標的分離との相関の記号、− ほとんどの癌細胞で過剰発現;+ ほとんどの正常組織で過剰発現;GAN:遺伝子受託番号。クラスター中心よりも星印が先行する。強調した遺伝子は、組織組成に関連し得る遺伝子である。
【0192】
特徴選択方法として、SVM RFEは2つの点でゴラブ(Golub)の方法とは異なっていた:特徴間の相互情報はSVMによって用いられ、他方、ゴラブ(Golub)の方法は暗黙の独立仮定を行い;および、決定関数は、「典型的な」場合を特徴づけようとする試みにおけるすべての例に基づくのとは反対に、[ボーダーライン」の場合である支持ベクトルのみに基づいた。支持ベクトルの使用は、重要でない組織組成関連遺伝子を因子化するのに臨海的である。SVM RFEを、独立仮定を行わないが、「典型的な」場合を特徴付けようと試みる他の線型判別関数を用いるRFE方法と比較した。2つの判別関数を選択した:
−ゴラブ(Golub)の方法は独立仮定をおこなうことによってFissherの線型判別を近似するので、線型判別解析(LDA)とも呼ばれるFissher線型判別(例えば、ドゥダ(Duda)、1973参照)、および
−全ての訓練例が支持ベクトルであると、偽−逆解決がSVM解決と同一であるので、偽−逆によって計算された平均−根−エラ−(SME)線型判別(例えば、ドゥダ(Duda),1973)。
【0193】
結腸癌データについての特徴(遺伝子)選択方法の比較の結果を図30に示す。回帰特徴排除(RFE)によって選択された遺伝子の数を変化させ、異なる方法でテストした。訓練は62試料の全データセットで行った。曲線はリーブ−ワン−アウト成功率を表す。異なる方法が図30に示され、グラフは、以下のごとくエレメントを有する線によって記載される:丸:SVM RFE。四角:線型判別解析 RFE。菱形:平均根エラー(偽−逆)RFE。三角:ベースライン方法(ゴラブ(Golub),1999)。SVM RFEは4遺伝子まで下る最良の結果を与える。選択された遺伝子の実験は、SVMが、組織組成に関連する遺伝子を排除し、癌vs正常分離に関連する遺伝子のみを維持することを明らかとする。逆に、他の方法は、殆どの試料を分離するのを助けるが、癌vs正常判別に関連しないそのトップにランクされる遺伝子中の平滑筋遺伝子を維持する。
【0194】
独立仮定をしないすべての方法はゴラブ(Golub)の方法よりも勝り、遺伝子の数の少なくとも1つの値につき100%リーブ−ワン−アウト精度に到達する。LDAはそれらのプロットではわずかに不利であろう。なぜならば、計算理由では、RFEは、2桁サイズが低下する遺伝子のチャンクを排除することによって用いられたからである。他の方法は、ある時点で1つの遺伝子を排除することによってRFEを用いる。
【0195】
4遺伝子まで下ると、SVM RFEは、全ての他の方法よりも良好な性質を示した。全ての方法は方程式:C=Q−2ε(d)の基準で予測した;64よりも小さいまたはそれと等しい遺伝子の最適数。調べたすべての方法につき1ないし64の遺伝子ランキングを比較した。組織組成に関連し、その記載において「平滑筋」を言及する第1の遺伝子は、ゴラブ(Golub)の方法では5にランクされ、LDAでは4にランクされ、MSEでは1にランクされ、SVMでは41にランクされたにすぎない。したがって、これはSVMは他の方法よりもデータを良好に使用する強力な証拠である。それらは、遺伝子の小さなサブセットで高度に正確な分離を供しつつ、組織組成関連遺伝子を効果的に因子化する唯一の方法である。
【0196】
図35は、結腸癌についての遺伝子の最適数を示す。SVMでの回帰遺伝子排除によって選択された遺伝子の数は変化した。グラフの線は以下の通りである:丸:テストセットでのエラー率。四角:スケールド品質基準(Q/4)十字:最適性のスケールド基準(C/4)。菱形曲線:C/4を局所的に平滑化する結果。三角:スケールド理論誤差棒(ε/2)。曲線はC=Q−2εによって関連づけられる。ダッシュ線は緑色の曲線の最適を示し、これは、訓練データのみに基づく理論的に予測された最適である:22=4遺伝子。
【0197】
モデル選択基準は白血病データを用いて確立し、その予測力は、いずれの調整もなすことなく、それを結腸癌データで用いることによって相関させた。該基準は最適も正確に予測した。性能はその最初のトライアルで正確ではなかった。なぜならば、実施例2の白血病データについてと同一の前処理を用いたからである。結果は、実質的にいくつかの前処理ステップを付加することによって改良され、90%の精度の成功率に到達した。これらの前処理ステップは、全ての値の対数を取り、試料ベクトルを正規化し、特徴ベクトルを正規化し、および結果をスクワッシング関数に通して、孤立値の重要性をなくすることを含む。正規化は、全ての訓練値にわたって平均を差し引き、対応する標準偏差で割ることを含んだ。
【0198】
モデル選択基準は、SVMおよび他のアルゴリズムを用いて種々の他の実験で用いた。遺伝子の最適数は、2の遺伝子の数のファクター内で常に正確に予測された。
【0199】
生物学文献と相関する結果
SVM RFEは、そのトップにランクされた遺伝子から、組織組成に関連するようである平滑筋を排除した。癌関連遺伝子は便宜上の理由で7に限定した。加えて、数字7は支持ベクトルの最小数に対応する(「モデル選択」で時々用いられ基準)。
【0200】
最良にランクされた遺伝子は、結腸癌におけるその役割が長い間同定され、広く調べられた蛋白質をコードする。それは、結腸腺癌主要細胞が転移状態に移る(Ghina,1998)場合に上昇調節されるCD44、および細胞接着に関与するコラーゲンで当てはまる。結腸癌細胞は転移プロセスの一部としてコラーゲン分解活性を有する(Karakiulakis,1997)。腫瘍を供給する血管を形成するのを助ける酵素としてのATPシンターゼは数年前に公表されたばかりである(Mozer,1999)。葉酸の減少した状態は、細菌の臨床量研究では結腸癌の増大した危険と関連づけられている(Walsh,1999)。今日まで、公知の生化学メカニズムで結腸癌における葉酸の役割を説明するものはない。遺伝子H64807(胎盤葉酸輸送体)が結腸癌vs正常分離において最も判別的遺伝子の1つとして同定されたいう知識は、生物学的変化に関与する遺伝子を同定するための本発明の方法の使用を示す。
【0201】
ヒト・キトトリオシダーゼの場合には、もう1つの癌におけるその役割が研究中である同一ファミリーのもう1つの相同蛋白質との類似性によって処理する必要があり;もう1つのキチナーゼ(BRP39)は乳癌で役割を演じることが見いだされた。癌細胞はこのキチナーゼを過剰生産してアポトーシスから生き延びる(Aronson,1999)。重要な増大したキトトリオシダーゼ活性はゴーシャーズ病患者の臨床研究で知られている(明らかに関係のない疾患)。その他の病気を診断するために、キトトリオシダーゼ酵素は非常に感度良く測定することができる。一滴未満の血液から調製された血漿または血清はキトトリオシダーゼ測定でかなり十分である(Aerts,1996)。これは、同様に結腸癌に対する可能な新しい診断テストへの道を開くものである。
【0202】
60Sリボソーム蛋白質L24(Arabidopsis thaliana)は染色体6に位置するヒト蛋白質に相同な非−ヒト蛋白質である。他のリボソーム蛋白質と同様に、それは、mRNAの特別のクラスの選択的翻訳を通じて細胞の成長および増殖を制御する役割を演じるようである。
【0203】
驚くべき新規な知見は、「特異的ポリペプチドB1−アルファ前駆体からのプロ周期形態(Trypanosoma Brucei Brucei)」についての同定された遺伝子である。トリパノソーマはアフリカおよび南米に固有の寄生原生動物であり、トリパノソーマ(結腸寄生虫)に感染した患者は結腸癌に対して抵抗性を生じる(Oliveira,1999)。トリパノソーマ症はヒトおよび動物の古代の病気であり、依然としてアフリカおよび南米の風土病である。
【0204】
実施例2
白血病遺伝子の発見
DNAマイクロアレイから得られた遺伝子発現ベクターのマトリックスよりなるデータセットは、2つの異なるタイプの白血病を持つ癌患者から得られた。前処理後、エラーなくして全データセットを分離した少数の遺伝子のみのセットの荷重合計を見いだすのが可能であり、かくして、データセットは線型的に分離可能であった。データの分離は容易であったが、問題は、小さな試料サイズを含めた困難性のいつくかの特徴を表し、データは訓練およびテストセットの間に異なって分布した。
【0205】
ゴラブ(Golub),1999において、著者らは、DNAマイクロアレイから得られた遺伝子発現データを解析して癌のタイプを分類する本方法を記載している。白血病データに伴う問題は白血病の2つの変種(ALLおよびAML)の間の区別であった。データは2つのサブセットに分けられる:遺伝子を選択し、分類器の重みを調整する訓練セット、得られたシステムの性能を見積もるのに用いられる独立テストセット、ゴラブ(Golub)の訓練セットは骨髄標本からの38試料よりなるもの、であった(27のALLおよび11のAML)。それらのテストセットは、異なる実験条件下で調製し、24の骨髄および10の血液試料標本を含めた34の試料を有する(20のALLおよび14のAML)。すべての試料は、マイクロアレイイメージから抽出していくつかの正規化遺伝子発現値に対応する7129の属性(または特徴)を有する。この実施例において、それらの方法の比較を容易とするために、正確に同一の実験条件を保持した。
【0206】
予備実験において、リーブ−ワン−アウトエラーおよびテストエラーの間の大きな偏差のいくつかは、ちいさな試料サイズ単独によっては説明できなかった。データの解析は、訓練セットおよびテストセットの分布の間に有意な差があることを明らかにした。種々の仮説をテストし、差はデータ源における差まで追跡することができるのが判明した。すべての実験において、種々の源からのテストデータについての性能を別々に追跡した。源にかかわらず、得られた結果は同一であった。
【0207】
ゴラブ(Golub)において、著者らは、誤差率、固定された閾値における拒絶率、および分類信頼性を含めた実施例1に記載したごとく、分類器品質にいくつかの基準を用いる。分類器品質の基準を示す図31を参照されたし。曲線(四角および三角)は2つのクラス:クラス1(負のクラス)およびクラス2(正のクラス)の例分布を表す。
【0208】
四角:その決定関数値がθよりも大きいかまたはそれに等しいクラス1の例の数。
【0209】
三角:その決定関数値がθよりも小さいかまたはそれに等しいクラス2の例の数。エラーB1およびB2の数はθ=0の座標である。拒絶された例R1およびR2の数は、各々、三角および丸曲線における−θRおよびθRの座標である。拒絶された例の決定関数値は絶対値がθRよりも小さく、これは低い分類信頼性の例に対応する。閾値θRは、全ての残りの「許容された」例が十分に分類されるように設定される。極値的マージンEは、クラス2例の最も小さい決定関数値およびクラス1例の最大決定関数値の間の差である。図面の例では、Eは負である。もし分類エラーの数が0であると、Eは負である。メジアンマージンMは、クラス1密度のメジアン決定関数値およびクラス2密度のメジアンの間の差である。
【0210】
実験の最初のセットにおいて、SVMを、白血病データでのゴラブ(Golub)らのベースラインシステム(ゴラブ(Golub),1999)と比較した。単純な前処理ステップが行われた。各遺伝子発現値では、平均を差し引き、結果をその標準偏差で割った。
【0211】
2つの実験を行った。まず、7129遺伝子のフルセット(表8)を用いた。測定した値は前記した通りであった。
【0212】
【表8】
表8:全ての遺伝子についての訓練分類器の結果(白血病データ)
全ての遺伝子について訓練したSVMの最大重みに対応する50遺伝子のセットを選択した。新しいSVMをこれらの50遺伝子で訓練した。我々は、結果を、ゴラブ(Golub)らの論文で報告された50特徴の元のセットで訓練したベースラインシステムと比較した(表9)。
【0213】
ついで、50遺伝子のセットを選択した。50遺伝子は、全ての遺伝子で訓練されたSVMの最大重みに対応した。新しいSVMをこれらの50遺伝子で訓練した。結果を、ゴラブ(Golub)らの論文に報告された50特徴の元のセットで訓練したベースラインシステムと比較した。表9参照。
【0214】
【表9】
表9:50遺伝子での訓練の結果(白血病データ)
両方の場合において、SVMはベースラインシステムの性能にマッチするか、それよりも優れていた。表10および11の詳細な結果を用い、性能の差の統計的有意性を以下の方程式でチェックした:
(1−α)=0.5+0.5erf(Zα/sqrt(2))
Zα=εn/sqr(v)
【表10】
表10:全ての遺伝子についての訓練の詳細な結果(白血病データ)。エラーidナンバーは括弧に入れる。
【0215】
【表11】
表11:50遺伝子についての訓練の詳細な結果(白血病データ)。エラーidナンバーは括弧に入れる。
【0216】
テストの結果に従うと、50遺伝子で訓練された分類器は、(ゴラブ(Golub)ではエラー率97.7%信頼性およびSVMでは98.7%に基づき)高信頼性でもって、全ての遺伝子で訓練したものよりも良好である。エラー率単独に基づき、SVM分類器はゴラブ(Golub)分類器よりも有意には良好でない(全ての遺伝子で50%信頼性および50遺伝子で84.1%信頼性)。しかしながら、拒絶に基づくと、SVM分類器はゴラブ(Golub)分類器よりも有意に良好である(全ての遺伝子で99.9%信頼性およい50遺伝子で98.7%信頼性)。
【0217】
実験の第2のセットにおいて、ゴラブ(Golub)らの方法および白血病データでのSVMの間のより詳細な比較を行った。特に、問題の2つの態様の結合を断った:遺伝子の良好なサブセットの選択および良好な決定関数の発見。SVMで得られた性能の改良は、SVM特徴(遺伝子)選択方法まで追跡することができた。これらの特徴で訓練された特定の決定関数は遺伝子の適切なサブセットの選択ほどは重要でなかった。
【0218】
実験の最初のセットで行ったSVM分類器の重みで一度遺伝子をランク付けするよりはむしろ、代わりに、回帰特徴排除(RFE)方法を用いた。各反復において、新しい分類器を残りの特徴で訓練する。新しい分類器における最小重みに対応する特徴を排除する。排除の順番は特定のランキングを生じる。約束により、排除すべき最後の特徴を最初にランクする。遺伝子のチャンクをある時点で排除した。最初の反復において2の冪指数である遺伝子の数に到達した。引き続いての反復において、残りの遺伝子の半分を排除した。増加する情報的密度の遺伝子のネステッドサブセットが得られた。
【0219】
次いで、遺伝子のこれらのサブセットの質は、正規SVM、ゴラブ(Golub)らの分類器およびFissherの線型判別(例えば、(ドゥダ(Duda),1973参照))を含めた種々の分類器を訓練することによって評価した。訓練例の第1の主要な構成要素に沿ってデータをプロジェクトした後に訓練されたSVMも用いた。これは単純な偏り値を設定するに至り、これをいずれかのクラスの2つの極端な例の重心に置き、クラス当たりの例の数で荷重した。この分類器を「低下−能力−SVM」と呼んだ。
【0220】
試みた種々の分類器は有意に異なる性能を生じなかった。ゴラブ(Golub),1999の分類器および低下−能力−SVMの結果をここに報告した。いくつかの交差テストをベースライン方法で実行して、遺伝子のセットおよび分類器を比較した。SVM選択遺伝子で、またはベースライン遺伝子で訓練したSVMを示す図32A、およびSVM選択遺伝子で、またはベースライン遺伝子で訓練したベースライン分類器を示す図32B参照。分類器は、SVMで選択した遺伝子のサブセットで、および白血病データの訓練セットでのベースライン方法で訓練されている。遺伝子の数は色を施し、脚注に示す。品質インジケーターは径方向にプロットする:チャネル1−4=リーブ−ワン−アウト方法での交差−有効化結果;チャネル5−8=テストセット結果;SUC=成功率;acc=許容率;ext=極値性マージン;med=メジアンマージン。各インジケーターの平均値がゼロの平均(全ての4つのプロットにわたり偏差1)を有するように、係数を再度判断した。各分類器では、色を付けたエリアが大きくなると、分類器は良好となる。図面は、このデータセットでの分類器性能の間に有意な差はないが、遺伝子選択の間に有意な差があることを示す。
【0221】
表12において、遺伝子選択および分類方法の各組合せにつきテストセットで得られた最良の結果をまとめる。分類器は、遺伝子選択方法を与えれば、同一の結果を与える。対照的に、SVM選択遺伝子は、双方の分類器についてのベースライン遺伝子よりも終止一貫して良好な性能を生じる。差の有意性は以下の方程式でテストした:
(1−α)=0.5+0.5erf(Zα/sqrt(2))
Zα=εn/sqrt(v)
SVMまたはベースライン分類器であるかを問わず、SVM遺伝子は、テストエラー率に基づいて84.1%信頼性でもって、およびテスト拒絶率に基づき99.2%の信頼性をもって良好であった。
【0222】
【表12】
表12:テストデータについての最良の分類器(白血病データ)。テストデータで最良に実行する分類器の性能を報告する。SVMまたはベースライン遺伝子およびSVMまたはベースライン分類器の各組合せでは、遺伝子の対応する数、エラーの数および拒絶の数を表中に示す。患者idナンバーは括弧中に示す。
【0223】
トップにランクされた遺伝子を比較するために、SVM選択サブセットおよびベースラインサブセットにおける共通遺伝子の分率(表13)を計算した。この例においてSVMで見出された16遺伝子の最適数において、遺伝子の19%が共通していたに過ぎなかった。
【0224】
【表13】
図13:ベースライン方法およびSVM回帰遺伝子排除で選択されたセット間の共通遺伝子の分率(白血病データ)。共通遺伝子の分率は遺伝子の数の関数としてほぼ指数関数的に減少する(対数スケールで曲線的)。最適SVM遺伝子セット数16において、遺伝子の19%が共通したに過ぎなかった。
【0225】
図33は、白血病データについての16遺伝子の最良セットを示す。マトリックス(a)および(c)において、欄は異なる遺伝子を表し、行は訓練セットからの異なる患者を表す。27の頂部線ALL患者であり、11の底部線はAML患者である。灰色を施したのは遺伝子の発現を示し:明るいほどより強い。33AはSVM最良16遺伝子を示す。遺伝子は左から右にランクされ、最良のものは最も左側にある。選択された全ての遺伝子はよりAMLに相関する。33Bは、分類決定をなすのに使用した16SVM遺伝子の荷重合計を示す。非常に明瞭なALL/AML分離が示される。33Cはベースライン方法16遺伝子を示す。該方法は、遺伝子の半分がAMLに相関し、半分がALLに相関することを課する。最良の遺伝子は中央にある。33Dは、分類決定をなすのに用いた16ベースライン遺伝子の荷重合計を示す。分離は依然として良好であるが、SVM分離ほどは良好でない。
【0226】
図33Aおよび33Cは、16遺伝子サブセットの訓練セットにおける患者に対する発現値を示す。一見して、ベースライン方法によって選択された遺伝子はかなり秩序立って見えた。これは、それらがAMLまたはALLいずれかと強く相関したからであった。この遺伝子セットでは大きな冗長があった。本質的には、全ての遺伝子は同一の情報を担っていた。逆に、SVMは、補充的情報を担う遺伝子を選択した。これは、16遺伝子発現の荷重合計である決定関数の出力に反映された(図33B)および(図33D)。SVM出力はAML患者をALL患者からかなり明瞭に分離した。表14および15は2つの方法によって選択された遺伝子をリストする。
【0227】
【表14】
表14:トップにランクされた16SVM遺伝子(白血病データ)。Rk=ランク。GAN=遺伝子受託番号。相関=遺伝子がリストされたクラスに最も相関する。遺伝子は、最も有望でない遺伝子を回帰的に排除することによって得られた。遺伝子のネステッドサブセットが得られる。
【0228】
【表15】
表15:トップにランクされた16ベースライン遺伝子(白血病データ)。GAN=遺伝子受託番号。相関=遺伝子がリストされたクラスと最も相関する。左側の8つの遺伝子はALLに最も相関し、右側の8つの遺伝子はAMLに相関する。トップのものは最良の候補である。ゴラブ(Golub)らは、彼らの実験において同等な割合のALL−相関およびAML−相関遺伝子を混合した。
【0229】
遺伝子の最適サブセットが予測できる。
【0230】
遺伝子の最低サブセットを予測する問題に取り組んだ。訓練例のみに由来する以下の方程式で定義される基準を用いた。
【0231】
C=Q−2ε(d)
予測された遺伝子サブセットがテストセットで最良に実行するか否かをチェックした。テストは、SVM回帰特徴排除を用いて行った。特徴の数は、各反復において2のファクターだけ徐々に減少した。SVM分類器を、見出された全ての中間サブセットで訓練した。
【0232】
図34に示すごとく、16遺伝子の最適数が見出された。SVMの回帰遺伝子排除によって選択された遺伝子の数は変化した。グラフの線の記載は以下の通りである:丸:テストセットでのエラー率。四角:スケールド品質基準(Q=4)十字:最適性のスケールド基準(C/4)。菱形曲線:C/4を局所的に平滑化する結果。丸:スケールド理論誤差棒(ε/2)。曲線はC=Q−2εによって関係付けた。ダッシュ線は菱形曲線の最適を示し、これは、訓練データのみに基づいた理論予測最適である菱形曲線の最適を示す:24=16遺伝子。ゼロのテストエラーがこの最適で得られた。
【0233】
テストセットでの性能もまたその値において最適であることが判明した。結果の詳細は表16に報告する。
【0234】
【表16】
表16:RFE方法で得られたSVMの遺伝子で訓練されたSVM分類器(白血病データ)。分類器選択Cの基準は分類器品質Qから誤差棒εを引いたものであった。これらの量は訓練データのみに基づいて計算した。(ゼロ拒絶における)成功率、(ゼロエラーにおける)許容率、極端なマージンおよびメジアンマージンは、38試料訓練セット(V結果)および34試料テストセット(T結果)でのリーブ−ワン−アウト方法につき報告した。遺伝子の数が16である場合、訓練データのみを用いて計算した局所的に平滑化されたC基準によって予測される分類器は最良であった。
【0235】
最適において、SVMはいずれの拒絶もなくしてテストセットで100%精度である。
【0236】
予測されて最適におけるベースラインでのシステムでの比較結果を表17に示す。
【0237】
【表17】
表17:基準Cで選択された最良の分類器(白血病データ)。訓練例のみに基づいて計算された基準Cの最適に対応する分類器の性能を報告した。SVMまたはベースライン遺伝子およびSVMまたはベースライン分類器の各組合せについては、遺伝子の対応する数、エラーの数および拒絶の数を表中に示す、患者idナンバーは括弧に入れて示す。
SVMシステム(SVM特徴訓練した最適SVM分類器)およびベースラインシステム(ベースライン特徴で訓練した最適ベースライン分類器)の間で得られた総ての差はかなり有意であった:エラー率では95.8%および拒絶率では99.2%。交差−テスト解析では、これらの差は、良好な分類器よりもむしろ特徴の良好なセットまでほとんど追跡することができた。
【0238】
白血病データは、72試料の全データセットで遺伝子選択方法を実行することによって処理した。4つのトップにランクされた遺伝子を表18に示す。
【0239】
【表18】
表18:SVM RFEトップランク遺伝子(白血病データ)。72試料の全データセットを用いて、SVM RFEで遺伝子を選択した。遺伝子は重要性が増す順番にランクした。最初にランクされた遺伝子は、全ての他の遺伝子が排除された後に残った最後の遺伝子である。発現:ALL>AMLは、遺伝子の発現レベルが殆どのALL試料においてより高いことを示す;AML>ALLは、遺伝子発現レベルが殆どのAML試料においてより高いことを示す;GAN:遺伝子受託番号。このリスト中の全ての遺伝子は、AMLvsALL分離に対していくらか可能な関連性を有する。
【0240】
4つの遺伝子の数は支持ベクトルの最小数に対応する(この場合には5)。全ての4つの遺伝子は白血病癌に対していくらか関連性を有し、AMLおよびALL変種の間を区別するのに用いることができる。
【0241】
この最後の実験において、エラー無くして全データセットを分離する遺伝子の最も小さな数は2である。遺伝子のこのセットでは、ゼロのリーブ−ワンーアウトエラーもある。対照的に、ゴラブ(Golub)の方法は、常に、少なくとも1つの訓練エラーおよび1つのリーブ−ワン−アウトエラーを生じる。1つの訓練エラーは16遺伝子の最小で達成でき、1つのリーブ−ワン−アウトエラーは64遺伝子の最小で達成できる。
【0242】
要約すると、特徴選択の最も速い方法は相関方法であった:研究中のデータセットでは、Pentiumプロセッサでのゴラブ(Golub)のベースライン方法によって、数千の遺伝子を約1秒以内にランク付けすることができる。2番目に速い方法は、ランキング基準としての全ての特徴で一回のみ訓練した分類器の重みを用いる。SVMまたは偽−逆/MSEのごとき訓練アルゴリズムは、まず、nの訓練パターンの間の全てのスカラー積の(n,n)マトリックスKの計算を必要とする。Kの計算は、特徴(遺伝子)の数と共に直線的に増加し、訓練パターンの数と共に二次的に増加する。その後、訓練時間はマトリックスKを逆転させる時間のオーダーである。最適化されたSVMアルゴリズムでは、もし数支持ベクトルがnと比較して小さいならば、訓練はKを逆転させるよりも速いであろう。研究中のデータセットでは、非−最適化Matlabコードを持つPentiumプロセッサで、解は数秒以内に見出される。
【0243】
回帰特徴排除(RFE)は、減少するサイズの特徴のサブセットでの訓練多重分類器を必要とする。訓練時間は訓練すべき分類器の数に対して直線的な大きさである。計算の一部は再使用することができる。マトリックスKは全く再度計算する必要はない。排除された特徴の部分的スカラー積を引くことができる。また、係数αをそれらの以前の値に対して初期化することができる。Pentiumプロセッサでの本発明のSVM RFEのMatlab実行は、全結腸データセット(2000遺伝子、62患者)では約15分以内に、および白血病データセット(7129遺伝子、72患者)では3時間以内に遺伝子ランキングを戻す。データの収集および調製が数カ月または数年かかるであろうと仮定すれば、データ解析に数時間かかることは許容できる。
【0244】
種々の分類器(SVM、LDA、MSE)を用いる特徴選択実験の全ては、良好な特徴は、単一分類器の重みを用いることによるよりはRFEを用いることによって得られることを示した。同様に、良好な結果は、特徴のチャンクを排除することによるよりもある時点で1つの特徴を排除することによって得られた。しかしながら、遺伝子のより小さなサブセット(100未満)に対して有意な差があるに過ぎない。いずれかの特定な理論に拘束されるつもりはないが、スピードについてのトレーディング精度なくして、最初の数回の反復で特徴のチャンクを除去することによってRFEを用い、次いで、一旦特徴セットが数百の数と反応する時点において1つの特徴を除去することができるのは理論化される。RFEアルゴリズムは、特徴の合計数が線型下とされる。これは、近い将来に起こると予測されるごとく、遺伝子の数が数百万に近づく実験で用いられる。
【0245】
他の実験はSVMで使用した。1つの実験は、重みの最大数を強制的にゼロとするように最適化問題を公式化するものである。以下の線型プログラミング処方を用いた;
YI[(w*−w)・x+b]≧1−ζI
wI>0
wI *>0
I=1...n
の条件下ので、
cwI+wI *+CΣiζi
[式中、Cは正の定数である]
SVM RFEは、相関方法の独立仮定を排除することによって、特徴ランキングに基づいて特徴選択を改良する。それは、特徴のネステッドサブセットを生じる。これは、dの特徴の選択されたサブセットがd+1の特徴のサブセットに含まれることを意味する。特徴ランキング方法では、最良の可能な分離を供するシングルトンが無いであろう。最良特徴対はそのシングルトンを一体化するという保証はない。
【0246】
コンビナトリアルサーチは、特徴ランキングに対する計算が強い代替法である。dの特徴またはそれ未満の最適サブセットを求めるにはdの特徴またはそれ未満の全ての組合せを試す。最良の分類性能を生じる組合せを選択する。本発明の1つの実施形態はコンビナトーリアル方法を用いることを含む。
【0247】
コンビナトリアルサーチを用いて、SVM RFEで選択した遺伝子のサブセットで開始し、最適特徴セットを改良した。白血病データは、その訓練/テストデータスプリットバージョンで用いた。方程式C=Q−2ε(d)のモデル選択基準は訓練データセットのみで計算し、いずれの組合せがテストデータで最良に実行されるかを予測しようと試みた。最初にランク付けされた遺伝子のトリプレットは訓練セットおよびテストセット双方で100%の分類精度を供した。
【0248】
本発明の他の実施形態は非線形分類器の使用を含む。本発明のSVM RFEは、形態の決定関数: D(x)=ΣIαIyIK(xI,x)
の決定関数にてカーネルSVMで用いる。
【0249】
用いたランキング基準はベクトルの重みw=ΣIαIyIであった。wはもはや分類器の重みベクトルではないことに注意されたし。
【0250】
SVM RFEの他の実施形態は、医療予後のごとき回帰の問題において、および密度評価または密度の支持の評価の問題のための使用を含む。
【0251】
いずれかの特定の理論に拘束されるつもりは無いが、RFEランキングは、ある意味では最適である増大するサイズの特徴のネステッドサブセットを生じると考えることができる。個々には、もう1つのものよりは良好にランク付けされる特徴はデータを良好に分離できないであろう。事実、第1にランクされた特徴と大いに相関するいずれかのランクの特徴がある。SVM RFEによって供された単純な線型構造へ相関次元を付加する1つの方法は、与えらえた相関係数に従って遺伝子をクラスター化することである。SVM RFEについての前処理における非監督クラスタリングを本出願で示した。次いで、クラスター中心をランク付けされるべき特徴として用いた。また、監督クラスタリングはSVM RFEについての後処理として用いた。また、トップランキング特徴をクラスター中心として用いた。残りの拒絶された特徴をそれらの中心に対してクラスター化した。
【0252】
SVMは、DNAマイクロアレイデータからの遺伝子発現の広いパターンの解析に特に役に立つ。それらは、数千の遺伝子のごとき非常に多数の特徴、および少数の患者のごとき少数の訓練パターンを容易に扱うことができる。ベースライン方法はSVMによる二日だけの仕事において優れていた。
【0253】
2つの癌データベースは、遺伝子のサブセットを選択するプロセスにおいて遺伝子間の相互情報を考慮しないと分類性能を損なうことを示した。暗黙の独立仮定をなすベースライン方法よりも優れた有意義な改良が得られた。SVMを介して見出されたトップにランクされた遺伝子は、全て、癌に関係していた。対照的に、他の方法は、手での分離と相関するが、癌診断には関係しない遺伝子を選択した。
【0254】
本発明は線型SVM分類器で証明したが、本発明は、回帰に対する、および密度評価に対する非線形分類器を含む。コンビナトーリアルサーチのごとき他のSVM遺伝子選択方法もまた本発明に含まれる。本発明の好ましい方法は、線型分類器の使用を含み、そのような分類器は、訓練パターンの数よりも特徴の大きな比率数のため好ましい。
【0255】
これまでの記載は本発明の好ましい実施形態のみに関し、添付の請求の範囲に記載された本発明の精神および範囲を逸脱することなく多数の修飾または変形をなすことができるのはもちろん理解されるべきである。そのような別の実施形態は、本発明の精神および範囲に含まれると考えられる。従って、本発明の範囲は添付の請求の範囲によって記載され、これまでの記載によって裏付けられる。
【図面の簡単な説明】
【図1】図1は、学習機械を用いてデータから発見することができる知識を増加させるための例示的一般的方法を示すフローチャートである。
【図2】図2は、支持ベクトル機を用いてデータから発見することができる知識を増加させるための例示的方法を示すフローチャートである。
【図3】図3は、本発明の例示的実施形態による、前処理または後処理技術のために、単独配置にてまたは学習機械と組み合わせて用いることができる例示的最適カテゴリー化方法を示すフローチャートである。
【図4】図4は、支持ベクトル機に入力することができる例示的非拡大データセットを示す。
【図5】図5は、図4のデータセットを用いて支持ベクトル機によって生じた例示的後処理された出力を示す。
【図6】図6は、図4のデータセットに基づいて支持ベクトル機に入力することができる例示的拡大されたデータセットを示す。
【図7】図7は、図6のデータセットを用いて支持ベクトル機によって生じた例示的後処理された出力を示す。
【図8】図8は、図3の最適カテゴリー化方法の単独適用のための例示的入力および出力を示す。
【図9】図9は、線型カーネルを含む第1の支持ベクトル機および多項式カーネルを含む第2の支持ベクトル機からの例示的後処理された出力の比較である。
【図10】図10は、本発明の例示的実施形態のための例示的オペレーティング環境を示す機能的ブロックダイアグラムである。
【図11】図11は、本発明の別の実施形態のための代替例示的オペレーティング環境を示す機能的ブロックダイアグラムである。
【図12】図12は、本発明のさらなる代替実施形態の実行のための例示的ネットワークオペレーティング環境を示す機能的ブロックダイアグラムである。
【図13】図13は、線型判別分類器の使用をグラフで示す。A)SVMでの訓練例の分離。B)同一SVMでの訓練およびテスト例の分離。C)ベースライン方法での訓練例の分離。D)ベースライン方法での訓練およびテスト例の分離。
【図14】図14は、実施例2と同様の情報でのRFEを用いる結果のグラフを示す。
【図15】図15は、2つの遺伝子について組織試料にわたる遺伝子発現値の分布を示す。
【図16】図16は、全ての組織試料についての遺伝子にわたる遺伝子発現値の分布を示す。
【図17】図17は、結腸癌についてのマイクロアレイデータからの遺伝子発現値を表すデータマトリックスを示す。
【図18】図18は、前処理後のRFEの結果を示す。
【図19】図19は、本発明およびゴラブ(Golub)の方法のグラフによる比較を示す。
【図20】図20は、最良の32の遺伝子およびすべての他の遺伝子の間の相関を示す。
【図21】図21は、100の密なQTクラストクラスターで訓練した場合のRFEの結果を示す。
【図22】図22は、SVM RFEによって選択されたトップの8つのQTクラストクラスターを示す。
【図23】図23は、QTクラストトップ遺伝子バラツキプロットを示す。
【図24】図24は監督クラスタリングを示す。
【図25】図25は、全データセットで訓練した場合のSVM RFEの結果を示す。
【図26】図26は、全データセットで訓練した場合のゴラブ(Golub)の方法の結果を示す。
【図27】図27は、支持ベクトルの荷重係数を示す。
【図28】図28は、左から右に重要性が増大する順番のSVM RFEによって発見されたトップにランクされた遺伝子を示す。
【図29】図29は、左から右に重要性が増大する順のゴラブ(Golub)の方法によって発見された7つのトップにランクされた遺伝子を示す。
【図30】図30は、異なる方法を用いる結腸癌データについての特徴(遺伝子)選択方法の比較を示す。
【図31】図31は分類器品質の基準を示す。三角および丸曲線は2つのクラス:クラス1(負のクラス)およびクラス2(正のクラス)の例分布を表す。
【図32A】図32Aは、白血病データについてのSVMおよびベースライン方法の間の性能比較を示す。
【図32B】図32Bは、白血病データについてのSVMおよびベースライン方法の間の性能比較を示す。
【図33】図33は白血病データについての16遺伝子の最良セットを示す。
【図34】図34は、白血病データについての遺伝子の最適数の選択を示す。
【図35】図35は、結腸癌データについての遺伝子の最適数の選択を示す。
【図36】図36は、多重支持ベクトル機の階級システムを示す機能的ブロックダイアグラムである。
Claims (19)
- データ中のパターンを同定する学習機械を訓練するコンピュータによる方法であって、
前記学習機械は、複数の重みを有する一の決定関数をそれぞれが含む複数の支持ベクトル機を含み、
前記方法は、
(a)前記データに対応してそれぞれが対応する重みを有する複数の特徴を含む訓練データセットを一の支持ベクトル機に入力することと、
(b)分類の信頼性を最適化するべく前記決定関数の前記複数の重みを最適化することと、
(c)前記最適化された複数の重みを用いて、前記パターンの相関の程度を表すランキング基準を計算することと、
(d)最小のランキング基準を有する少なくとも一の特徴を前記学習機械のさらなる訓練から除去することと、
(e)特徴の最適サブセットが残るまで、ステップ(a)乃至(d)を複数回繰り返すことと
を含み、
前記最適サブセットは、前記データ中の前記パターンを同定できる可能性が最も高い特徴を含み、
前記最適サブセットは、テストデータセットについての分類のエラー率に応じて決定される方法。 - 前記訓練データセットが複数の支持ベクトル機に入力される請求項1に記載の方法。
- 前記ステップ(e)は更に、それぞれの繰り返しにおいて一の新しい支持ベクトル機を用いることを含み、
前記新しい支持ベクトル機は一の異なるカーネルを含む請求項1又は2に記載の方法。 - リーブ−ワン−アウト方法を用いて、前記特徴の最適サブセットを見積もることを更に含む請求項1乃至3のいずれか1項に記載の方法。
- 既知の出力を有する独立したテストデータセットを前記訓練された学習機械に入力して、前記特徴の最適サブセットをテストすることを更に含む請求項1乃至4のいずれか1項に記載の方法。
- ステップ(a)乃至(d)の1回の繰り返しにおいて、ステップ(d)が、前記最小のランキング基準を有する複数の特徴を除去することを含む請求項1乃至5のいずれか1項に記載の方法。
- ステップ(d)が、前記最小のランキング基準に基づいて、複数の特徴を各々の繰り返しにおいて半分に減少するように除去することを含む請求項1乃至5のいずれか1項に記載の方法。
- 前記訓練データセットは、DNAマイクロアレイから得られた遺伝子発現値を含む請求項1乃至7のいずれか1項に記載の方法。
- 複数のデータクラスターを生成するべく非監督クラスタリングを用いて前記訓練データセットを前処理することと、
前記複数のデータクラスターのそれぞれからクラスター中心を選択することと、
ステップ(b)乃至(e)を実施するべく前記クラスター中心を使用することと
を更に含む請求項1乃至8のいずれか1項に記載の方法。 - 前記DNAマイクロアレイは結腸癌組織及び正常組織を含み、前記同定されるパターンは結腸癌の診断を含む請求項8に記載の方法。
- 前記DNAマイクロアレイは白血病患者由来の骨髄標本及び血液試料標本を含み、前記同定されるパターンは白血病の変種の区別を含む請求項8に記載の方法。
- データ中のパターンを同定する学習機械であって、
前記データに対応してそれぞれが対応する重みを有する複数の特徴を含む訓練データセットを入力するための入力手段と、
複数の重みを有する一の決定関数をそれぞれが含む複数の支持ベクトル機を用いて前記訓練データを処理するプロセッサであって、
分類の信頼性を最適化するべく前記決定関数の前記複数の重みを最適化し、
前記最適化された複数の重みを用いて、前記パターンの相関の程度を表すランキング基準を計算し、
最小のランキング基準を有する少なくとも一の特徴を前記学習機械のさらなる訓練から除去し、
前記最適化、前記ランキング基準の計算、及び前記少なくとも一の特徴の除去を、所定サイズの特徴のサブセットが残るまで複数回繰り返すプロセッサと
を含む学習機械。 - それぞれの繰り返しにおいて前記プロセッサが一の新しい支持ベクトル機を選択することを更に含み、
前記新しい支持ベクトル機は一の異なるカーネルを含む請求項12に記載の学習機械。 - 1回の繰り返しにおいて、前記プロセッサが、前記最小のランキング基準を有する複数の特徴を除去する請求項12乃至13のいずれか1項に記載の学習機械。
- 前記プロセッサが、前記最小のランキング基準に基づいて、複数の特徴を各々の繰り返しにおいて半分に減少するように除去する請求項12乃至13のいずれか1項に記載の学習機械。
- 前記訓練データセットは、DNAマイクロアレイから得られた遺伝子発現値を含む請求項12乃至15のいずれか1項に記載の学習機械。
- 前記プロセッサは、
複数のデータクラスターを生成するべく非監督クラスタリングを用いて訓練データセットを前処理し、
前記複数のデータクラスターのそれぞれからクラスター中心を選択し、
前記複数の重みを最適化するべく前記クラスター中心を使用し、
ランキング基準を計算し、
最小のランキング基準を有する少なくとも一の特徴を除去する請求項12乃至16のいずれか1項に記載の学習機械。 - 前記DNAマイクロアレイは結腸癌組織及び正常組織を含み、前記同定されるパターンは結腸癌の診断を含む請求項16に記載の学習機械。
- 前記DNAマイクロアレイは白血病患者由来の骨髄標本及び血液試料標本を含み、前記同定されるパターンは白血病の変種の区別を含む請求項16に記載の学習機械。
Applications Claiming Priority (15)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16180699P | 1999-10-27 | 1999-10-27 | |
US60/161,806 | 1999-10-27 | ||
US16870399P | 1999-12-02 | 1999-12-02 | |
US60/168,703 | 1999-12-02 | ||
US18459600P | 2000-02-24 | 2000-02-24 | |
US60/184,596 | 2000-02-24 | ||
US19121900P | 2000-03-22 | 2000-03-22 | |
US60/191,219 | 2000-03-22 | ||
US09/568,301 | 2000-05-09 | ||
US09/568,301 US6427141B1 (en) | 1998-05-01 | 2000-05-09 | Enhancing knowledge discovery using multiple support vector machines |
US09/578,011 | 2000-05-24 | ||
US09/578,011 US6658395B1 (en) | 1998-05-01 | 2000-05-24 | Enhancing knowledge discovery from multiple data sets using multiple support vector machines |
US20702600P | 2000-05-25 | 2000-05-25 | |
US60/207,026 | 2000-05-25 | ||
PCT/US2000/029770 WO2001031580A2 (en) | 1999-10-27 | 2000-10-27 | Methods and devices for identifying patterns in biological systems |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003529131A JP2003529131A (ja) | 2003-09-30 |
JP2003529131A5 JP2003529131A5 (ja) | 2011-11-10 |
JP5064625B2 true JP5064625B2 (ja) | 2012-10-31 |
Family
ID=27569077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001534088A Expired - Fee Related JP5064625B2 (ja) | 1999-10-27 | 2000-10-27 | パターンを同定するための方法及び機械 |
Country Status (5)
Country | Link |
---|---|
EP (2) | EP2357582A1 (ja) |
JP (1) | JP5064625B2 (ja) |
AU (1) | AU779635B2 (ja) |
CA (1) | CA2388595C (ja) |
WO (1) | WO2001031580A2 (ja) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR0111742A (pt) | 2000-06-19 | 2004-02-03 | Correlogic Systems Inc | Método heurìstico de classificação |
EP1386275A2 (en) | 2000-07-18 | 2004-02-04 | Correlogic Systems, Inc. | A process for discriminating between biological states based on hidden patterns from biological data |
CN1262337C (zh) | 2000-11-16 | 2006-07-05 | 赛弗根生物系统股份有限公司 | 质谱分析方法 |
KR20030032395A (ko) * | 2001-10-24 | 2003-04-26 | 김명호 | 서포트 벡터 머신을 이용한 다중 에스엔피(snp)와질병의 상관관계 분석 방법 |
WO2004011905A2 (en) | 2002-07-29 | 2004-02-05 | Correlogic Systems, Inc. | Quality assurance/quality control for electrospray ionization processes |
US9342657B2 (en) * | 2003-03-24 | 2016-05-17 | Nien-Chih Wei | Methods for predicting an individual's clinical treatment outcome from sampling a group of patient's biological profiles |
US6977370B1 (en) | 2003-04-07 | 2005-12-20 | Ciphergen Biosystems, Inc. | Off-resonance mid-IR laser desorption ionization |
US7341838B2 (en) | 2003-04-17 | 2008-03-11 | Biosite Incorporated | Polypeptides related to natriuretic peptides and methods of their identification and use |
EP2369348A1 (en) | 2003-11-07 | 2011-09-28 | Ciphergen Biosystems, Inc. | Biomarkers for Alzheimer's disease |
ATE525478T1 (de) | 2003-12-05 | 2011-10-15 | Univ Mcgill | Serumbiomarker für morbus chagas |
EP1709442A4 (en) | 2003-12-11 | 2010-01-20 | Correlogic Systems Inc | METHOD FOR DIAGNOSING BIOLOGICAL CONDITIONS BY USING A CENTRALIZED ADAPTIVE MODEL AND SAMPLE PREPARATION |
WO2005098446A2 (en) | 2004-03-31 | 2005-10-20 | The Johns Hopkins University | Biomarkers for ovarian cancer |
EP1743031A4 (en) | 2004-04-26 | 2008-05-28 | Childrens Medical Center | BLOOD PLATE BIOMARKERS FOR THE DETECTION OF ILLNESSES |
CA2593184A1 (en) | 2005-01-06 | 2006-07-13 | Eastern Virginia Medical School | Apolipoprotein a-ii isoform as a biomarker for prostate cancer |
US20100197561A1 (en) | 2005-06-24 | 2010-08-05 | Ciphergen Biosystems, Inc. | Biomarkers for Ovarian Cancer: B2 Microglobulin |
EP1996949A4 (en) | 2006-03-11 | 2010-01-20 | Univ Leland Stanford Junior | BETA-2 MICROGLOBULIN AS A BIOMARKER FOR PERIPHERAL ARTERY DISEASE |
JP5307996B2 (ja) * | 2006-09-06 | 2013-10-02 | 株式会社Dnaチップ研究所 | 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム |
AU2008236810A1 (en) | 2007-03-27 | 2008-10-16 | Board Of Regents Of The University Of Texas System | Biomarkers for ovarian cancer |
US20110091377A1 (en) | 2007-05-11 | 2011-04-21 | The Johns Hopkins University | Biomarkers for melanoma |
US8664358B2 (en) | 2007-06-29 | 2014-03-04 | Vermillion, Inc. | Predictive markers for ovarian cancer |
EP2220506B1 (en) | 2007-10-29 | 2013-10-02 | Vermillion, Inc. | Biomarkers for the detection of early stage ovarian cancer |
JP5425814B2 (ja) * | 2008-02-08 | 2014-02-26 | ヘルス ディスカバリー コーポレイション | サポートベクタマシンを用いてフローサイトメトリーデータを分析するための方法及びシステム |
JP5533662B2 (ja) * | 2008-10-30 | 2014-06-25 | コニカミノルタ株式会社 | 情報処理装置 |
DE112009002693A5 (de) * | 2008-11-26 | 2013-01-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zur automatischen Analyse von Modellen |
US8972899B2 (en) | 2009-02-10 | 2015-03-03 | Ayasdi, Inc. | Systems and methods for visualization of data analysis |
US9367812B2 (en) * | 2010-08-25 | 2016-06-14 | Optibrium Ltd. | Compound selection in drug discovery |
JP6071886B2 (ja) | 2010-10-14 | 2017-02-01 | ザ・ジョンズ・ホプキンス・ユニバーシティ | 脳損傷のバイオマーカー |
EP2660310A4 (en) * | 2010-12-28 | 2015-09-30 | Tashiro Kei | COMPREHENSIVE GLAUCOMOTIC PROCESS WITH A GLAUKOM DIAGNOSIS CHIP AND A CLUSTER ANALYSIS OF A DEFORMED PROTEOMIC |
JP5672035B2 (ja) * | 2011-02-03 | 2015-02-18 | 富士通株式会社 | 入力パラメータ算出方法、装置及びプログラム |
US9771617B2 (en) | 2011-06-27 | 2017-09-26 | Eisai R&D Management Co., Ltd. | Microrna biomarkers indicative of alzheimer's disease |
MX361457B (es) | 2012-05-11 | 2018-12-06 | Reset Therapeutics Inc | Sulfonamidas que contienen carbazol como moduladoras de criptocromo. |
US10865446B2 (en) | 2012-11-02 | 2020-12-15 | The Johns Hopkins University | DNA methylation biomarkers of post-partum depression risk |
CA2914918C (en) | 2013-05-10 | 2023-10-10 | Johns Hopkins University | Compositions and methods for ovarian cancer assessment having improved specificity |
CA2918054C (en) | 2013-07-11 | 2022-12-13 | The Johns Hopkins University | A dna methylation and genotype specific biomarker of suicide attempt and/or suicide ideation |
EP3757226A3 (en) | 2013-07-17 | 2021-05-05 | The Johns Hopkins University | A multi-protein biomarker assay for brain injury detection and outcome |
US10619210B2 (en) | 2014-02-07 | 2020-04-14 | The Johns Hopkins University | Predicting response to epigenetic drug therapy |
TWI690521B (zh) | 2014-04-07 | 2020-04-11 | 美商同步製藥公司 | 作為隱花色素調節劑之含有咔唑之醯胺類、胺基甲酸酯類及脲類 |
WO2016044697A1 (en) | 2014-09-19 | 2016-03-24 | The Johns Hopkins University | Biomarkers of cognitive dysfunction |
US11072828B2 (en) | 2014-10-06 | 2021-07-27 | The Johns Hopkins University | DNA methylation and genotype specific biomarker for predicting post-traumatic stress disorder |
WO2016134365A1 (en) | 2015-02-20 | 2016-08-25 | The Johns Hopkins University | Biomarkers of myocardial injury |
CA3090392C (en) * | 2015-12-07 | 2021-06-01 | Zymergen Inc. | Microbial strain improvement by a htp genomic engineering platform |
US11208649B2 (en) | 2015-12-07 | 2021-12-28 | Zymergen Inc. | HTP genomic engineering platform |
US9988624B2 (en) | 2015-12-07 | 2018-06-05 | Zymergen Inc. | Microbial strain improvement by a HTP genomic engineering platform |
US10748277B2 (en) | 2016-09-09 | 2020-08-18 | Siemens Healthcare Gmbh | Tissue characterization based on machine learning in medical imaging |
WO2018163435A1 (en) * | 2017-03-10 | 2018-09-13 | Omron Corporation | Generating learning data |
US10984334B2 (en) * | 2017-05-04 | 2021-04-20 | Viavi Solutions Inc. | Endpoint detection in manufacturing process by near infrared spectroscopy and machine learning techniques |
US20190034594A1 (en) * | 2017-07-31 | 2019-01-31 | National Cardiac, Inc. | Computer-based systems and methods for monitoring the heart muscle of a patient with comprehensive contextual oversight |
JP7437303B2 (ja) | 2017-12-29 | 2024-02-22 | アボット・ラボラトリーズ | 外傷性脳損傷を診断及び査定するための、新規のバイオマーカー及び方法 |
CN108346144B (zh) * | 2018-01-30 | 2021-03-16 | 哈尔滨工业大学 | 基于计算机视觉的桥梁裂缝自动监测与识别方法 |
WO2019213619A1 (en) | 2018-05-04 | 2019-11-07 | Abbott Laboratories | Hbv diagnostic, prognostic, and therapeutic methods and products |
KR102245270B1 (ko) * | 2019-02-25 | 2021-04-26 | 서강대학교 산학협력단 | 학습 데이터에 대한 오버샘플링 방법 |
SG11202108707WA (en) | 2019-02-27 | 2021-09-29 | Epiaxis Therapeutics Pty Ltd | Methods and agents for assessing t-cell function and predicting response to therapy |
CN110189151A (zh) * | 2019-06-12 | 2019-08-30 | 北京奇艺世纪科技有限公司 | 一种账号检测方法及相关设备 |
JP7310673B2 (ja) * | 2020-03-23 | 2023-07-19 | 横河電機株式会社 | データ管理システム、データ管理方法、および、データ管理プログラム |
US20220093252A1 (en) * | 2020-09-23 | 2022-03-24 | Sanofi | Machine learning systems and methods to diagnose rare diseases |
WO2023122723A1 (en) | 2021-12-23 | 2023-06-29 | The Broad Institute, Inc. | Panels and methods for diagnosing and treating lung cancer |
WO2024044578A1 (en) | 2022-08-22 | 2024-02-29 | University Of Virginia | Dna methylation biomarkers of premenstrual dysphoric disorder and perimenopausal depression |
CN116582133B (zh) * | 2023-07-12 | 2024-02-23 | 东莞市联睿光电科技有限公司 | 一种变压器生产过程数据智能管理系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5143854A (en) | 1989-06-07 | 1992-09-01 | Affymax Technologies N.V. | Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof |
US5837832A (en) | 1993-06-25 | 1998-11-17 | Affymetrix, Inc. | Arrays of nucleic acid probes on biological chips |
US5649068A (en) | 1993-07-27 | 1997-07-15 | Lucent Technologies Inc. | Pattern recognition system using support vectors |
AU1283199A (en) * | 1997-10-29 | 1999-05-17 | Rutgers, The State University Of New Jersey | Linking gene sequence to gene function by three-dimensional (3d) protein structure determination |
US7321828B2 (en) * | 1998-04-13 | 2008-01-22 | Isis Pharmaceuticals, Inc. | System of components for preparing oligonucleotides |
WO1999057622A2 (en) * | 1998-05-01 | 1999-11-11 | Barnhill Technologies, Llc | Pre-processing and post-processing for enhancing knowledge discovery using support vector machines |
-
2000
- 2000-10-27 AU AU12427/01A patent/AU779635B2/en not_active Expired
- 2000-10-27 WO PCT/US2000/029770 patent/WO2001031580A2/en active Search and Examination
- 2000-10-27 EP EP10185728A patent/EP2357582A1/en not_active Withdrawn
- 2000-10-27 CA CA2388595A patent/CA2388595C/en not_active Expired - Fee Related
- 2000-10-27 EP EP00973988A patent/EP1236173A2/en not_active Withdrawn
- 2000-10-27 JP JP2001534088A patent/JP5064625B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2001031580A3 (en) | 2002-07-11 |
EP2357582A1 (en) | 2011-08-17 |
WO2001031580A2 (en) | 2001-05-03 |
JP2003529131A (ja) | 2003-09-30 |
AU779635B2 (en) | 2005-02-03 |
EP1236173A2 (en) | 2002-09-04 |
CA2388595A1 (en) | 2001-05-03 |
AU1242701A (en) | 2001-05-08 |
CA2388595C (en) | 2010-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5064625B2 (ja) | パターンを同定するための方法及び機械 | |
US7797257B2 (en) | System for providing data analysis services using a support vector machine for processing data received from a remote source | |
US6789069B1 (en) | Method for enhancing knowledge discovered from biological data using a learning machine | |
US6760715B1 (en) | Enhancing biological knowledge discovery using multiples support vector machines | |
US7117188B2 (en) | Methods of identifying patterns in biological systems and uses thereof | |
Peng | A novel ensemble machine learning for robust microarray data classification | |
US20030225526A1 (en) | Molecular cancer diagnosis using tumor gene expression signature | |
Rifkin et al. | An analytical method for multiclass molecular cancer classification | |
WO2001031579A2 (en) | Methods and devices for identifying patterns in biological patterns | |
JP2003500766A (ja) | 複数支援ベクトルマシンを使用した複数データセットからの知識発見の増強 | |
JP4138486B2 (ja) | データに含まれる複数の特徴の分類方法 | |
Aziz et al. | A weighted-SNR feature selection from independent component subspace for nb classification of microarray data | |
AU2002253879A1 (en) | Methods of identifying patterns in biological systems and uses thereof | |
Babu et al. | A comparative study of gene selection methods for cancer classification using microarray data | |
Dougherty et al. | Validation of computational methods in genomics | |
Yeung et al. | An integrated approach of particle swarm optimization and support vector machine for gene signature selection and cancer prediction | |
Huiqing | Effective use of data mining technologies on biological and clinical data | |
Kiranmai et al. | Supervised techniques in proteomics | |
Nilsson | Nonlinear dimensionality reduction of gene expression data | |
Modlich et al. | Statistical framework for gene expression data analysis | |
Orduña Cabrera et al. | Bioinformatics: a promising field for case-based reasoning | |
Ma | Effective techniques for gene expression data mining | |
Habib | Development of Improved Cancer Classification Method by Integrating Metadata in Microarray Data Analysis | |
Dinger | Cluster Analysis of Gene Expression Data on Cancerous Tissue Samples | |
Yang | Microarray-based Multiclass Classification using Relative Expression Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071009 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110322 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110621 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110628 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20110920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111115 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120214 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120710 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5064625 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150817 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |