JP2003529131A - 生物学的システムにおいてパターンを同定するための方法およびデバイスならびにその使用方法 - Google Patents

生物学的システムにおいてパターンを同定するための方法およびデバイスならびにその使用方法

Info

Publication number
JP2003529131A
JP2003529131A JP2001534088A JP2001534088A JP2003529131A JP 2003529131 A JP2003529131 A JP 2003529131A JP 2001534088 A JP2001534088 A JP 2001534088A JP 2001534088 A JP2001534088 A JP 2001534088A JP 2003529131 A JP2003529131 A JP 2003529131A
Authority
JP
Japan
Prior art keywords
training
data
test
data set
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001534088A
Other languages
English (en)
Other versions
JP2003529131A5 (ja
JP5064625B2 (ja
Inventor
スティーブン ディー. バーンヒル、
イザベル ギオン、
ジェイスン ウエストン、
Original Assignee
バイオウルフ テクノロジーズ エルエルスィー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/568,301 external-priority patent/US6427141B1/en
Priority claimed from US09/578,011 external-priority patent/US6658395B1/en
Application filed by バイオウルフ テクノロジーズ エルエルスィー filed Critical バイオウルフ テクノロジーズ エルエルスィー
Publication of JP2003529131A publication Critical patent/JP2003529131A/ja
Publication of JP2003529131A5 publication Critical patent/JP2003529131A5/ja
Application granted granted Critical
Publication of JP5064625B2 publication Critical patent/JP5064625B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Abstract

(57)【要約】 本発明の方法、システムおよびデバイスは、医療診断、予後および治療でいうようなパターンの同定のための支持ベクトル機の使用を含む。そのようなパターンは多くの異なるデータセットで見出すことができる。また、本発明は、医学的疾患の治療および診断のための方法および組成物を含む。

Description

【発明の詳細な説明】 【0001】 (技術分野) 本発明は、遺伝子、遺伝子産物、蛋白質、脂質、およびその組合せのごとき生
物学的システムにおいて関連パターンを同定するための学習機械の使用に関する
。生物学的システムにおけるこれらのパターンを用いて、異常な生理学的状態を
診断し予測することができる。加えて、本発明を用いて検出することができるパ
ターンを用い、治療剤を開発することができる。 【0002】 (発明の背景) 生物についての膨大な量のデータが、ゲノムの配列決定で生じつつある。個体
のための処置および療法を提供するためにこの情報を用いることは、集められた
情報の深い理解を要するであろう。ゲノムの情報を用いる努力は、既に、遺伝子
発現の調査デバイスの開発に至っている。現在最も有望なデバイスの1つは遺伝
子チップである。遺伝子チップは、オリゴヌクレオチドプローブのアレイを固体
ベースの構造に付着させている。そのようなデバイスは、ここに出典明示してそ
の全体を本明細書の一部とみなす米国特許第5,837,832号および第5,
143,854号に記載されている。該チップ上に存在するオリゴヌクレオチド
プローブを用いて、標的核酸が特異的参照配列と同一または異なるヌクレオチド
配列を有するか否かを判断することができる。プローブのアレイは、参照配列に
相補的なプローブならびに該相補的プローブとは1以上の塩基だけ異なるプロー
ブを含む。 【0003】 遺伝子チップは、非常に小さなチップ上にオリゴヌクレオチドの大きなアレイ
を含有することができる。ハイブリダイゼーション強度データを測定して、いず
れのプローブがハイブリダイズしているかを決定するための種々の方法が当該分
野で知られている。ハイブリダイゼーションを検出する方法は蛍光、放射性、酵
素、ケモルミネセント、バイオルミネセントおよび他の検出系を含む。 【0004】 また、ゲルブロットまたはドットブロットに対するゲル電気泳動およびハイブ
リダイゼーションのごとき古いが依然として使用できる方法も遺伝子配列情報を
決定するのに有用である。また、溶液ハイブリダイゼーションおよびイン・サイ
チュハイブリダイゼーション方法のための捕獲および検出系もまたゲノムについ
ての情報を徹底するのに用いられる。加えて、染色体ウォーキングおよびファー
ジ生ラリーの確立のごとき、ゲノム配列の大きな部分を規定するための以前およ
び現在使用される方法を用いて、ゲノムについての知識を獲得する。 【0005】 配列、調節、活性化、結合部位および内部コーディングシグナルに関する大量
の情報は、当該分野で知られた方法によって生じ得る。事実、そのような方法に
よって生じつつあるデータの量は有用な情報の由来を隠してしまう。ニューラル
・ネットワークのごとき進歩した学習ツールによって助けられると、ヒト研究者
は、大きな特徴−リッチなデータセットにおいて表された基礎となるプロセスの
粗いモデルを誘導することができるに過ぎない。 【0006】 膨大な量のデータを生じ得る生物学的研究のもう1つの領域は、プレテオミッ
クスの出現する分野である。プロテオミックスは、ゲノムによってコードされ調
節された蛋白質の群の研究である。この分野は、蛋白質の分析、蛋白質レベルの
調節および遺伝子調節および発現に対する関係に対して新しい焦点を表す。個人
または集団のプロテオームの正常または病理学的状態の理解は、病気の予後また
は診断についての情報、薬物もしくは遺伝子的処置の開発、または酵素置換療法
を提供する。プロテオームを研究する現在の方法は、蛋白質の二次元(2−D)
ゲル電気泳動、続いての質量分析による分析を含む。病因または治療においてい
ずれかの特定の時点または段階の蛋白質のパターンは2−Dゲル電気泳動によっ
て観察することができる。2−Dゲルで分離されている細胞で見出される数千の
蛋白質を同定するにおいて問題が生じる。マススペクトロフォトメーターを用い
て、アミノ酸配列を同定し、それを公知の配列データベースと比較することによ
ってゲルから単離された蛋白質を同定する。製造と、これらの方法は、プロテオ
ームの小さな部分を分析するには多数のステップを要する。 【0007】 近年、遺伝子の発現を蛋白質の生産、構造および機能に関連付けることができ
る技術が開発されてきた。自動高スループット分析、核酸分析およびバイオイン
フォーマティックス技術が、ゲノムをプローブし、遺伝子の突然変異および発現
を病気の素因および進行に関連付ける能力において援助してきた。現在の分析方
法は、これらの技術によって生じた大量のデータを管理するそれらの能力が制限
されている。 【0008】 生物学的系の機能パラメーターを決定するにおける最も最近の進歩の1つは、
遺伝子発現、蛋白質の機能および相互作用、および病気の状態または進行の間の
関係を解明するための、ゲノム情報と蛋白質機能との関係の分析である。ゲノム
の活性化または発現は、常には、蛋白質の生産レベルまたは活性における直接的
変化を意味しない。mRNAの別のプロセッシングまたは転写後もしくは翻訳後
調節メカニズムは、1つの遺伝子の活性が、その全てが異なる移動パターンおよ
び生物学的活性を持ちわずかに異なる多数の蛋白質をもたらしかねなくする。ヒ
トゲノムは、潜在的には、100,000の遺伝子を含むが、ヒトプロテオーム
は50ないし100倍大きいと信じられている。現在、ゲノムおよびプロテオー
ムに対するそのような生物学的研究によって生じたデータを適切に解析する方法
、システムまたはデバイスはない。 【0009】 知識の発見は、データ収集の最も望ましい最終産物である。データベース技術
における最近の進歩は、膨大な量のデータを生じさせ、収集し、および記憶する
ためのシステムおよび方法における爆発的な成長に至った。データベース技術は
大きなデータセットの十分な収集および記憶を可能とするが、このデータにおけ
る情報のヒトの理解を容易とする挑戦はより困難になりつつある。多くの現存の
技術に伴い、問題はアプローチできなくなった。かくして、自動知識発見ツール
の新しい創製に対する要求が存在する。 【0010】 具体的な例として、ヒトゲノムプロジェクトは、ヒトの遺伝子暗号を記載する
マルチ−ギガバイトのデータベースを普及させつつあるヒトゲノムのこのマッピ
ングが完了する前には、データベースのサイズはかなり大きくなると予測される
。そのようなデータベース中の膨大な量のデータは、スプレッドシートおよびそ
の場限りの疑問のごときデータ解析のための伝統的なツールを圧倒する。データ
解析の伝統的な方法は、データからの情報的報告を生じさせるのに用いることが
できるが、膨大な量のデータ中の有用な知識のパターンを解析し、それを見出す
ことにおいて、知的にかつ自動的にヒトを援助する能力を有しない。同様に、解
釈のための伝統的に受け入れられた参照範囲および標準を用いると、しばしば、
ヒトが、非常に少量のデータについてさえ有用な知識のパターンを同定するのが
不可能である。 【0011】 機械学習のいくつかの例において効果的であることが示されている1つの最近
の開発は、逆−増殖ニューラル・ネットワークである。逆−増殖ニューラル・ネ
ットワークは、容易にはヒトに明らかとならないであろうデータセットにおいて
知識を見出すように訓練することができる学習機械である。しかしながら、ニュ
ーラル・ネットワークがよく制御された学習機械であることを妨げる、逆−増殖
ニューラル・ネットワークアプローチに関する種々の問題がある。例えば、逆−
増殖ニューラル・ネットワークの重要な欠点は、経験的なリスク機能が多くの局
所的な最小を有し得ることであり、これは、この技術による発見から最適な解放
を容易に曖昧としかねない場合である。逆−増殖ニューラル・ネットワークによ
って使用される標準最適化手法は解答に収束できるが、ニューラル・ネットワー
ク方法は、局所化された最小さえ達成されることを保証できず、ましてや、所望
の全体的最小を達成することは保証できない。ニューラル・ネットワークから得
られた解決の質は多くの因子に依存する。特に、ニューラル・ネットワークを実
行する実行者の技量は、最終的な利益を決定するが、初期重量のランダムな選択
のように恐らくは良性の因子でさえ不充分な結果に導きかねない。さらに、ニュ
ーラル・ネットワーク学習で使用されるグラジエントベースの方法の収束は固有
に低い。さらなる欠点は、S字状活性化機能はスケーリング因子を有し、これは
近似の質に影響する。恐らくは、知識発見に関連するニューラル・ネットワーク
の最大の限定因子は、訓練データにおける各さらなる特徴または次元についての
計算時間およびパワーにおける比例しない成長に関連する「次元の呪い」である
。 【0012】 ニューラル・ネットワークの欠点は、支持ベクトル機を用いて克服される。一
般的な用語において、支持ベクトル機は、先験的に選択された非線形マッピング
関数を介して入力ベクトルを高次元特徴空間にマップする。この高次元特徴空間
において、最適な分離超平面が構築される。次いで、最適超平面を用いて、クラ
ス分離、回帰フィット、または密度評価における精度のごとき事柄を決定する。 【0013】 支持ベクトル機内で、特徴空間の次元は巨大となり得る。例えば、4次多項式
マッピング関数は、200次元インプット空間が16億次元特徴空間にマップさ
れるようにする。中核的トリックおよびヴァクニーク−チェルヴォネンキス(V
apnik−Chervonenkis)次元は、支持ベクトル機が、他の方法
を制限する「次元の呪い」の裏をかき、この非常に高次元の特徴空間から一般化
できる解答を効果的に引き出すことを可能とする。支持ベクトル機に向けられた
特許出願は、米国特許出願第09/303,386号;第09/303,387
号;第09/303,389号;第09/305,345号(全て、1999年
5月1日出願);および2000年5月9日に出願された米国特許出願第09/
568,301号;および2000年5月24日に出願された米国特許出願第0
9,578,011号を含み、また、1999年10月27日に出願された米国
仮特許出願第60/161,806号;1999年12月2日に出願された米国
仮特許出願第60/168,703号;2000年2月24日に出願された米国
仮特許出願第60/184,596号;および2000年3月22日に出願され
た米国仮特許出願セリアル番号60/191,219の利益を主張する(それら
の全てを、ここに出典明示してその全体を本明細書の一部とみなす)。 【0014】 もし訓練ベクトルが最適超平面(または一般化された最適超平面)によって分
離されれば、テスト例でエラーを犯す確率の期待値は訓練セットにおける例によ
って制限される。この制限は、特徴空間の次元に依存せず、また係数のベクトル
のノルムにも依存せず、また入力ベクトルの数の制限にも依存しない。従って、
もし訓練セットのサイズに対する少数の支持ベクトルから最適超平面を構築する
ことができれば、無限次元の空間においてさえ一般化能力は高いであろう。 【0015】 ゲノムおよびプロテオームテストから生じたデータは、多くの異なる観点から
解析することができる。例えば、文献は、非監督学習技術によって発見された遺
伝子クラスターの研究のごとき単純なアプローチを示す(アロン(Alon),
1999)。また、クラスターリングは、しばしば、データの他の次元に沿って
なされる。例えば、各実験は、特定の病気を運ぶまたは運ばない一人の患者に対
応し得る(例えば、(ゴラブ(Golub),1999)参照)。この場合、ク
ラスターリングは、通常、同様の臨床的記録を持つ患者をグループとする。また
、監督学習は蛋白質の分類(ブラウン(Brown),2000)および癌の分
類(ゴラブ(Golub),1999)に適用されている。 【0016】 支持ベクトル機は、膨大な量の入力データから知識を発見する問題に対して望
ましい解決を提供する。しかしながら、データセットから知識を見出す支持ベク
トル機の能力は、訓練データセット内に含まれる情報に比例して制限される。従
って、訓練データを増加させて、支持ベクトル機による知識発見を最大化するよ
うなデータ前処理のためのシステムおよび方法に対する要望が存在する。 【0017】 さらに、支持ベクトル機からの生の出力は、最も容易に解釈できる形態で知識
を十分に開示することができない。かくして、さらに、ヒトについてデリバーさ
れた情報の価値またはさらなる自動処理を最大化するために、支持ベクトル機か
らのデータ出力を後処理するシステムおよび方法に対する要望がさらに存在する
。 【0018】 加えて、データから知識を発見する支持ベクトル機の能力は中核の選択によっ
て制限される。従って、支持ベクトル機のための所望の中核を選択しおよび/ま
たは創製するための改良されたシステムおよび方法に対する要望が存在する。 【0019】 プロテオミックスおよびゲノミックスの研究によって生じたデータベースに含
まれる情報を操作するのに用いることができる方法、システムおよびデバイスも
やはり要望されている。また、生物学的情報のゲノミック、プロテオミックおよ
び伝統的源からの情報を集積できるシステムおよびデバイスが要望される。その
ような情報は、病気の診断および予測ならびに生物学的および他のシステムの他
の変化で必要である。 【0020】 さらに、必要とされるのは、支持ベクトル機によって同定される病気および生
物学的系の他の変化を処置するための方法および組成物である。一旦データ間の
パターンまたは関係が本発明の支持ベクトル機によって同定され、それを用いて
特定の病気状態を検出または予測するならば、必要なのは、遺伝子チップを含め
た診断テスト、および体液または体の変化のテスト、ならびに疾患を治療するた
めの方法および組成物である。 【0021】 (発明の概要) 本発明は、一般に学習機械、特に支持ベクトル機を用いてデータから発見され
る知識を増強するためのシステムおよび方法を含む。特に、本発明は、病気のご
とき生物学的系における変化を診断し予測するために学習機械を用いる方法を含
む。さらに、一旦データから発見された知識が決定されれば、発見された具体的
関係を用いて、病気を診断し予測し、そのような病気を検出し治療する方法が生
物学的系に適用される。 【0022】 本発明の1つの実施形態は、訓練データセットを前処理して、学習機械の最も
有利な適用を可能とすることができる。各訓練データポイントは、1以上の座標
を有するベクトルを含む。訓練データセットを前処理することは、失われたまた
は誤ったデータポイントを同定し、適切なステップをとって、誤ったデータを修
正するか、または適当であれば問題の範囲から観察または全分野を除去すること
を含むことができる。また、訓練データセットを前処理することは、1以上の新
しい座標をベクトルに付加することによって各訓練データポイントに次元を付加
することを含み得る。ベクトルに付加された新しい座標は、元の座標の1以上に
変換を適用することによって誘導することができる。変換は専門家の知識に基づ
くことができるか、または計算により誘導することができる。訓練データセット
が連続変数を含む状況においては、変換は、訓練データセットの連続変数を最適
にカテゴリー分けすることを含み得る。 【0023】 好ましい実施形態において、支持ベクトル機は、前処理された訓練データセッ
トを用いて訓練される。このように、前処理によって提供された訓練データのさ
らなる表示は、それから知識を発見する学習機械の能力を増強することができる
。支持ベクトル機の特別の文脈において、訓練セットの次元が大きくなれば、そ
れから誘導できる一般化の質が高くなる。データから発見されるべき知識が回帰
または密度評価に関連するか、あるいは訓練出力が連続変数を含むと、訓練出力
は、訓練出力を最適にカテゴリー分けして、連続変数からカテゴリー化を誘導す
ることによって後処理することができる。 【0024】 テストデータセットは、訓練データセットと同様に前処理される。次いで、前
処理されたテストデータセットを用いて、訓練された学習機械をテストする。訓
練された学習機械のテスト出力を後処理して、テスト出力が最適な解決であるか
を判断する。テスト出力を後処理することは、テストデータセットと比較するこ
とができるフォーマットにテスト出力を解釈することを含む。別の後処理ステッ
プは、出力データの更なる処理のためのヒトの解釈性または適当性を増強するこ
とができる。 【0025】 支持ベクトル機の文脈において、本発明は、支持ベクトル機を訓練するに先立
っての少なくとも1つの中核の選択を提供する。中核の選択は、アドレスされる
特定の問題の従前の知識または学習機械で使用されるべきいずれかの利用可能な
データの特性の解析に基づくことができ、それは、典型的には、データから発見
されるべき知識の性質に依存する。所望により、後処理された訓練出力またはテ
スト出力を比較する対話形式プロセスを適用して、いずれの配置が最適解決を提
供するかに関する判断をなすことができる。もしテスト出力が最適な解決でない
ならば、知識の選択を調整することができ、支持ベクトル機を再度訓練し、再度
テストすることができる。最適解決が同定されたと判断されれば、訓練データセ
ットを同様に、生データセットを収集し、前処理することができる。前処理され
た生データセットは、処理のために学習機械に入力される。学習機械の生出力を
、次いで、生出力を計算により誘導される英数字分類器またはSVM由来解答の
さらなる利用に適した他の形態に解釈することによって後処理することができる
。 【0026】 例示的な実施形態において、支持ベクトル機を用いてデータから発見された知
識を増強するシステムが提供される。該例示的システムは、訓練データセットお
よびテストデータセットを記憶するための記憶デバイス、および支持ベクトル機
を実行するためのプロセッサを含む。また、該プロセッサは、データベースから
訓練データセットを収集し、訓練データセットを前処理して、複数の訓練データ
ポイントの各々を増強させ、前処理訓練データセットを用いて支持ベクトル機を
訓練し、データベースからテストデータセットを収集し、訓練データセットと同
様にテストデータセットを前処理し、前処理されたテストデータセットを用いて
訓練された支持ベクトル機をテストし、訓練された支持ベクトル機のテスト出力
の受領に応答して、テスト出力を後処理して、テスト出力が最適な解決であるか
を判断するために操作することができる。また、例示的システムは、遠隔源から
のテストデータセットおよび訓練データセットを受領するための通信デバイスも
含むことができる。そのような場合、プロセッサを操作して、訓練データセット
を、訓練データセットの記憶デバイス先行前処理に記憶し、テストデータセット
を、テストデータセットの記憶デバイス先行前処理に記憶することができる。ま
た、例示的システムは、後処理したテストデータを表示するための表示デバイス
も含むことができる。例示的システムのプロセッサは、さらに、前記した各さら
なる機能を実行するための操作することができる。通信デバイスをさらに操作し
て、コンピューター由来の英数字分類器または他のSVMベースの生のまたは後
処理した出力データを遠隔源に送ることができる。 【0027】 例示的な実施形態において、特に一般的かつ複数の支持ベクトル機において複
数の学習機械を用いてデータからの知識発見を増強するためのシステムおよび方
法が提供される。学習機械のための訓練データを前処理して、それに意味を付加
する。予備処理データは、データポイントを変換しおよび/またはデータポイン
トを拡大することを含み得る。データに意味を付加することによって、学習機械
に、処理のための多量の情報が供給される。特に支持ベクトル機に関しては、処
理される情報の量が大きくなれば、誘導することができるデータについての一般
化が良好となる。各々が区別される中核を含む複数の支持ベクトル機は、予備処
理された訓練データで訓練され、同様に前処理されるテストデータでテストされ
る。複数の支持ベクトル機からのテスト出力を比較して、テスト出力のいずれが
もしあれば最適な解決を表すかを決定する。1以上の中核の選択は調整すること
ができ、1以上の支持ベクトル機を再度訓練し再度テストすることができる。最
適な解決が達成されたと決定されれば、生データを前処理し、最適な解決を生じ
た中核を含む支持ベクトル機に入力する。次いで、ヒトまたはコンピューター自
動プロセスによって解釈のためのコンピューター誘導英数字分類器に、学習機械
からの生出力を後処理することができる。 【0028】 もう1つの例示的な実施形態において、連続的変数を最適にカテゴリー化する
ためのシステムおよび方法が提供される。連続的変数を表すデータセットは、各
々が連続的変数からの試料およびクラス識別子を含むデータポイントを含む。デ
ータセット内の多数の区別されるクラス識別子が決定され、多数の候補ビンが、
試料の範囲およびデータセット内の試料の精度のレベルに基づいて決定される。
各候補ビンは試料のサブ範囲を表す。各候補ビンについては、候補ビン内に入る
データポイントのエントロピーを計算する。次いで、最小化集合エントロピーを
有する候補ビンの各配列については、試料の範囲中のカットオフポイントは、候
補ビンの配列中の最後の候補ビンの境界にあると定義される。対話形式プロセス
として、順次の候補ビンの異なる組合せについての集合エントロピーは計算する
ことができる。 【0029】 また、規定されたカットオフポイントの数を調整して、最小エントロピーの計
算に基づくカットオフポイントの最適数を決定することができる。前記したごと
く、連続的変数を最適にカテゴリー化するための例示的システムおよび方法は、
学習機械に入力すべきデータを前処理するのに、および学習機械の出力を後処理
するのに用いることができる。 【0030】 さらにもう1つの例示的な実施形態において、分布したネットワーク環境中で
一般に学習機械および特に支持ベクトル機を用いてデータからの知識発見を増強
するためのシステムおよび方法が提供される。顧客は、分布したネットワークを
介して、遠隔源から訓練データ、テストデータおよび生データをベンダーのサー
バに伝達することができる。また、顧客は、ユーザーの氏名、パスワード、およ
び金融口座アンデンティファイアーのごとき同定情報をサーバに伝達することも
できる。訓練データ、テストデータおよび生データは記憶デバイスに記憶するこ
とができる。次いで、訓練データを前処理して、それに意味を付加することがで
きる。前処理データは、データポイントを変換しおよび/またはデータポイント
を拡大することを含むことができる。データに意味を付加することによって、学
習機械には、処理のためにより多量の情報が備わる。特に支持ベクトル機に関し
ては、処理される情報の量が大きくなれば、誘導することができるデータについ
ての一般化は良好となる。従って、学習機械は前処理された訓練データで訓練さ
れ、同様に前処理されるテストデータでテストされる。学習機械からのテスト出
力を後処理して、テストデータから発見された知識が望ましいかを決定する。後
処理は、テストデータと比較することができるフォーマットにテスト出力を解釈
することを含む。生データを前処理し、訓練されたかつテストされた学習機械に
入力される。次いで、学習機械からの生出力を、ヒトまたはコンピューター自動
プロセスによって解釈のためのコンピューターにより誘導された英数字分類器に
後処理されることができる。英数字分類器を分布ネットワークを介して顧客に伝
達するに先立って、サーバは、金融口座アンデンティファイアーによって同定さ
れた顧客の金融口座から資金を受領する目的で金融機関と連絡するように作動す
ることができる。 【0031】 (詳細な説明) 本発明は、学習機械を用いてデータから知識を発見するための方法、システム
およびデバイスを提供する。特に、本発明は、生物学的システムにおける変化に
関する情報が提供される学習機械を用いてデータからの知識発見のための方法、
システムおよびデバイスに指向される。より詳しくは、本発明は、病気のごとき
生物学的システムにおける変化を診断し、予測するためのかかる知識の使用の方
法を含む。加えて、本発明は、それらの個々の生物学的システムにおける変化を
持つ個体のテストおよび処理にそのような知識を適用するための方法、組成物お
よびデバイスを含む。 【0032】 本明細書中で用いる、「生物学的データ」は、微生物、ウイルス、植物および
他の生きた生物を含めたヒト、動物または他の生物学的生物の生物学的状態を測
定することに由来するいずれのデータをも意味する。該測定は、物理学者、科学
者、診断学者等に知られたいずれかのテスト、アッセイまたは観察によってなす
ことができる。生物学的データは、限定されるものではないが、臨床試験および
観察、物理的および科学的測定、ゲノム決定、プロテオミック決定、薬物レベル
、ホルモンおよび免疫学的テスト、神経化学または神経物理学測定、ミネラルお
よびビタミンレベル決定、遺伝的および家系的履歴およびテストを受けつつある
個人または複数個人の状態に対する洞察を与えることができる他の測定を含むこ
とができる。ここに、用語「データ」の使用は「生物学的データ」と相互交換的
に使用される。 【0033】 学習機械のいくつかの例が存在し、進歩がこの分野で予測されているが、本発
明の例示的な実施形態は支持ベクトル機に焦点を当てる。当該分野で知られてい
るごとく、学習機械は、公知の結果が伴うデータを用いて一般化するのに訓練す
ることができるアルゴリズムを含む。次いで、訓練された学習機械アルゴリズム
を、予測のための未知の結果の場合に適用することができる。例えば、学習機械
を訓練して、データ中のパターンを認識し、データ中の回帰を評価し、またはデ
ータ内の確率密度を評価することができる。学習機械を訓練して、当業者に知ら
れた非常に多様な問題を解くことができる。訓練された学習機械は、所望により
、テストデータを用いてテストして、その出力がエラーの許容される境界内で有
効化されることを保証する。一旦学習機械が訓練され、テストされれば、生デー
タをその中に入力することができる。学習機械の生出力は、生データに適用され
た訓練データの全てから発見された知識を含む。 【0034】 本発明は、生物学的データ、遺伝子、転写および翻訳産物および蛋白質の調査
によって生じたごときデータで見いだされるパターンを解析するための方法、シ
ステムおよびデバイスを含む。ゲノム情報は、ゲノム断片および相補的核酸また
は相互作用蛋白質のハイブリダイゼーション反応によって生じたパターン中で見
いだすことができる。そのようなゲノムまたは核酸の相互作用を調査するための
最も最近のツールの1つはDNA遺伝子チップまたはマイクロアレイである。マ
イクロアレイは、数千の核酸の相互作用の処理を可能とする。DNAマイクロア
レイは、研究者が1つの実験で数千の遺伝子をスクリーニングするのを可能とす
る。例えば、マイクロアレイは小さなスライドガラス上に2400の遺伝子を含
有することができ、それを用いて、試料中のDNAまたはRNAの存在を測定す
ることができる。そのようなマイクロアレイは、腫瘍生物学、神経科学、シグナ
ル変換、転写調節、およびサイトカインおよび受容体の実験を含めた基本的研究
およびバイオメディカル研究で用いることができる。加えて、医薬薬物発見、標
的同定、リード最適化、薬物動態学、ファルマコゲノミックスおよび診断剤のた
めの適用もある。マイクロアレイの技術のための市場は1999年にはほぼ98
00万ドルであり、多数のマイクロアレイテストから開発されたデータベースで
生じ、そこに記憶されたデータの量は膨大である。本発明は、病気の診断および
予後のための、および病気を治療するための治療剤の開発のための、そのような
マイクロアレイおよび核酸チップテストで生じたデータを用いることができる方
法、システムおよびデバイスを提供することができる。 【0035】 また、本発明は、生物学的システムにおける特異的変化を診断または予測する
のに用いることができる特異的配列同定プローブを備えたマイクロアレイを含む
デバイスを含む。一旦、本発明の学習機械が、生物学的システムにおける変化を
診断または予測できるデータの中で特異的関係を同定すれば、特異的デバイスは
それらの特異的関係についてテストを取り込む。例えば、本発明の学習機械は、
腫瘍の存在または出現のごとき、生物学的システムにおける変化の存在または将
来の発生に関係する特異的遺伝子を同定する。これらの遺伝子の配列を知ること
は、それらの同定された遺伝子についての特異的訓練デバイスの作成を可能とす
る。例えば、DNA、RNAまたは特異的結合蛋白質を含む核酸チップ、または
特異的に同定された遺伝子に特異的に結合するいずれかのそのような組合せを用
いて、特定の腫瘍を有する個体または腫瘍を発生する尤度を容易に同定する。加
えて、学習機械によって同定された、または学習機械によって同定された遺伝子
に関連する特異的蛋白質は、同定された蛋白質、遺伝子産物あるいは蛋白質また
は遺伝子産物に向けられた抗体または抗体断片を特異的に検出することに向けら
れた血清学的テストを用いるためにテストすることができる。そのようなテスト
は限定されるものではないがチップ上の抗体マイクロアレイ、ウエスタンブロッ
ティングテスト、ELISA、および当該分野で知られた他のテストを含み、こ
こに、特異的結合パートナーの間の結合はパートナーのうちの1つの検出のため
に用いられる。 【0036】 さらに、本発明は、生物学的システムにおける変化に由来する疾患を治療して
、または生物学的システムを処理して、生物学的システムを改変して特異的疾患
を予防または増強するための方法および組成物を含む。例えば、もし個体の診断
が腫瘍の検出を含むならば、該個体は化学療法組成物のごとき抗腫瘍医薬で治療
することができる。もし個体の診断が腫瘍発生の素因または予後を含むならば、
該個体を化学療法組成物で予防的に処置して、腫瘍の発生を防止することができ
る。もし特異的遺伝子が腫瘍の発生を持って同定されれば、該個体は特異的アン
チセンスまたは他の遺伝子治療方法で処置して、そのような遺伝子の発現を抑制
することができる。加えて、もし特異的遺伝子または遺伝子産物が腫瘍の発生を
伴って同定されれば、遺伝子または遺伝子産物を阻害または機能的に実行する特
異的組成物が該個体に投与される。本明細書中に記載した例は単に例示であって
、本発明の範囲を限定するものと解釈されるべきではない。 【0037】 プロテオミック調査は、正常および病理学的状態に関与する蛋白質を測定する
方法を提供する。いずれかの特定の時点または段階にある個人または集団のプロ
テオームを測定する現在の方法は、ゲル電気泳動を用いて試料中の蛋白質を分離
することを含む。好ましくは、2−Dゲル電気泳動を用いて、蛋白質をより完全
に分離する。加えて、試料を前処理して、既知の蛋白質を除去することができる
。蛋白質は、例えば、蛍光色素で標識して、選択されたプロテオームによって生
じたパターンの決定で援助することができる。分離された蛋白質のパターンは、
本発明の学習機械を用いて解析することができる。ゲルイメージの捕獲は、デン
シオメトリー、CCDカメラおよびレーザースキャンニングおよび記憶ホスフォ
ル装置のごとき当該分野で知られたイメージ技術方法によって達成することがで
きる。ゲルの解析は、病理学的状態の診断および予後で重要であり、治療介入に
関連する変化を示すプロテオーム中のパターンを明らかとする。 【0038】 プロテオームを調査するさらなるステップは、ゲル中の特異的部位における蛋
白質の単離を含む。特異的部位を単離するためのロボットシステムは現在利用で
きる。単離に続いて配列を決定し、かくして、蛋白質が同定される。個体または
集団のプロテオームの研究は、膨大な量のデータの創製、捕獲、解析および一体
化を含む。自動化は現在用いられつつあって、データ創製に必要な物理的操作を
管理するのを助ける。本発明の学習機械を用いて、発生した生物学的データを解
析し望まれる情報を提供する。 【0039】 加えて、チップ検出デバイスのごとき検出デバイスの修飾を用い、生物学的デ
ータの大きな生ラリーを創製することができる。生ラリーを創製する方法は、そ
れらのmRNAに共有結合連結した蛋白質を用いて、例えば、稀にしか翻訳され
ない蛋白質のごとき作成された蛋白質を決定する技術を含む。そのような技術は
、イン・ビトロでmRNAを翻訳し、翻訳された蛋白質をmRNAに共有結合付
着させることを含む。mRNA、かくして蛋白質の配列は、PCRのごとき増幅
方法を用いて決定される。1014ないし1015のメンバーを含有する生ラリーが
このデータから確率することができる。これらの生ラリーを用いて、受容体に結
合するペプチドを測定することができるか、またはそれらの標的に貪欲に結合す
る抗体を含有する抗体生ラリーを開発することができる。 【0040】 蛋白質ドメイン生ラリーと呼ばれる生ラリーは細胞mRNAから創製すること
ができ、ここに、全蛋白質は翻訳されないが、断片が配列決定される。これらの
生ラリーを用いて、蛋白質の機能を測定することができる。 【0041】 プロテオームを調査する他の方法はゲル電気泳動を用いない。例えば、マスス
ペクトロフォトメトリーを用いて、蛋白質プロフィールにおける変化の目録を作
り、正常または病気の組織あるいは感染剤における核酸配列を規定して、薬物お
よび診断標的を同定し、有効化することができる。このデータの解析は本発明の
方法、システムおよびデバイスによって達成される。さらに、酵母および細菌系
で現在見いだされている、それらが相互作用する蛋白質を捕獲するために蛋白質
を用いる2−ハイブリッドおよび2+1ハイブリッドシステムのごとき技術は、
ゲノム−幅蛋白質相互作用マップ(PIM)を生じる。PIMのごとき情報の大
きな生ラリーは本発明によって操作することができる。 【0042】 特異的蛋白質または蛋白質のタイプを分離し、または同定するのに用いること
ができる抗体チップは開発されている。加えて、ファージ抗体生ラリーを用いて
、蛋白質の機能を測定することができる。注目するオープンリーディングフレー
ム(ORFS)またはEST(発現された配列タグ)につきゲノミック生ラリー
をサーチすることができ、配列から、ペプチドが合成される。異なる遺伝子につ
いてのペプチドが、ファージ生ラリーからの抗体の選択のために96ウェルトレ
イ中に置かれる。次いで、該抗体を用いて、正常および病気の組織の切片中の元
のORFまたはESTに関連する蛋白質を位置決定する。 【0043】 本発明を用いて、生物学的機能への調査の複数の段階において生じた生物学的
データを解析し、さらに、新規な診断および予後決定のための異なる種類のデー
タを一体化させることができる。例えば、診断テストデータ、家族または遺伝的
履歴、依然のまたは現在の医療処置のごとき臨床的ケースの情報、およびそのよ
うな活動の臨床的結果から得られた生物学的データは、本発明の方法、システム
およびデバイスで利用することができる。加えて、病気の組織または流体および
正常な組織および流体のごとき臨床的試料、ならびに細胞の分離は、本発明で利
用することができる生物学的データを提供することができる。2−Dゲル、マス
スペクトロフォトメトリーおよび抗体スクリーニングのごときプロテオミック決
定を用いて、本発明によって利用できるデータベースを確立することができる。
また、ゲノミックデータベースは、単独で、または前記したデータおよび本発明
によるデータベースと組み合わせて使用して、包括的な診断、予後または予測能
力を本発明のユーザーに提供することができる。 【0044】 本発明の第一の態様は、データを用いるに先立ってデータを所望により前処理
して、学習機械を訓練しおよび/または学習機械からの出力を所望により後処理
することによって知識発見を増強することを求める。一般的に言えば、データを
前処理することは、データを再度フォーマット化または増加させて、学習機械が
最も有利に適用されるのを可能とすることを含む。同様に、後処理は、学習機械
の出力を解釈して、その意味のある特徴を発見することを含む。出力から確認さ
れるべき意味のある特徴は問題またはデータ特異的であり得る。後処理は、ヒト
によって理解できる形態、またはコンピューターによって理解できる形態に出力
を解釈することを含む。 【0045】 以下、本発明の例示的な実施形態を図面を参照して記載し、いくつかの図面を
通じて同様の数字は同様のエレメントを示す。図1は、学習機械を用いて知識発
見を増強するための一般的方法100を説明するフローチャートである。該方法
100は開始ブロック101で始まり、ステップ102に進み、そこで、機械学
習を通じての知識発見の適用のために特異的問題が公式化される。特に重要なの
は、学習機械の所望の出力の適切な処方である。例えば、個々のエクイティイン
ストゥルメントまたは市場指標の将来の業績を予測するにおいて、将来の価格レ
ベルを予測するよりもむしろ期待される将来の変化を予測する場合、学習機械は
良好な業績を達成するようである。将来の価格予測は、後に、本明細書中で後記
するごとく後処理ステップで誘導することができる。 【0046】 問題の公式化後に、ステップ103は訓練データ収集に向けられる。訓練デー
タは、公知の特徴を有するデータポイントのセットを含む。訓練データは1以上
の局所および/または遠隔源から収集することができる。訓練データの収集は、
主導により、公知のエレクトロニックデータ移動方法のごとき自動化プロセスに
よって達成することができる。従って、本発明の例示的な実施形態はネットワー
ク化コンピューター環境で実行することができる。本発明の種々の実施形態を実
行するための例示的操作環境を図10−12に関して詳細に記載する。 【0047】 次に、ステップ104として、収集された訓練データは所望により前処理され
て、学習機械が、訓練データに固有の知識の抽出に最も有利に適用されることを
可能とする。この前処理段階の間に、訓練データは、所望により、個々のまたは
複数の測定の変換、組合せまたは操作を通じて訓練データの記録内に拡大するこ
とができる。本明細書中で用いるごとく、データを拡大することは、利用できる
観察の数を変化させて各入力ポイントを決定することによって、入力データの次
元を変更することを言うことを意味する(別法として、これはデータベース表内
の欄を付加しまたは消去すると記載することができる。)説明の方法として、デ
ータポイントは座標(1,4,9)を含むことができる。このデータポイントの
拡大バージョンは座標(1,1,4,2,9,3)をもたらすことができる。こ
の例において、拡大データポイントに付加された座標は、元の座標の二乗根変換
に基づくことがわかるであろう。データポイントに次元を付加することによって
、この拡大データポイントは、学習機械による知識発見に潜在的に意義のある入
力データの変化させた表示を提供する。この意味でのデータ拡大は、学習機械が
、非拡大訓練データでは容易には明らかでない知識を発見する機会を与える。 【0048】 データを拡大することは、いずれかのタイプの意味のある変換をデータに適用
し、それらの変換を元のデータに付加することを含むことができる。変換が意味
があるか否かを決定するための基準は、入力データそれ自身および/またはデー
タから求められる知識のタイプに依存するであろう。データ変換の例示的タイプ
は:専門家情報の付加;標識;二元変換;サイン、コサイン、タンジェント、コ
タンジェントおよび他の三角法変換;クラスタリング;スケーリング;確率およ
び統計解析;有意性テスト;強度テスト;2−D規則性についてのサーチ;ヒド
ゥン・マルコフ・モデリング(Hidden Markov Modeling
);同等関係の同定;コンティンジェンシー表の適用;グラフ理論原理の適用;
ベクトル地図の創製;多項式および他の代数変換の足し算、引き算、掛け算、割
り算、適用;比例性の同定;識別力決定等を含む。医療データの文脈では、潜在
的に意味のある変換は:既知の標準的医療参照範囲との関連;生理学的切断;生
理学的組合せ;生理学的組合せ;発見的規則の適応;診断基準決定;臨床的重み
づけシステム;診断変換;臨床変換;専門家知識の適応;標識技術;他のドメイ
ン知識の適応;バイエジアン(Bayesian)ネッワーク知識等を含む。こ
れらおよび他の変換、ならびにその組合せは当業者に思い浮かぶであろう。 【0049】 また、当業者であれば、データ変換はデータポイントに次元を付加する事なく
実行できることを認識するはずである。例えば、データポイントは座標(A,B
,C)を含むことができる。このデータポイントの変換バージョンの結果、座標
(1,2,3)を得ることができ、ここに、座標「1」は座標「A」といくつか
の既知の関係を有し、座標「2」は座標「B」といくつかの既知の関係を有し、
および座標「3」は「C」といくつかの既知の関係を有する。文字から数字への
変換は、例えば、もし文字が学習機械によって理解されなければ必要であろう。
他のタイプの変換は、元来数字形態であるデータに関してさえ、データポイント
に次元を付加する事なく可能である。さらに、データを前処理してそれに意味を
付加することは、不完全な、崩れたまたは他の「汚損した」データを解析するこ
とを含むことができる。学習機械は「汚損した」データを意味のあるように処理
することはできない。かくして、前処理ステップは、データセットを清浄して汚
損したデータポイントを除去し、修復または置換することを含むことができる。 【0050】 図1を参照し、例示的方法100はステップ106において継続し、そこで、
前処理されたデータを用いて学習機械が訓練される。当該分野で知られているご
とく、学習機械は、所望の訓練出力が達成されるまでその操作パラメーターを調
整することによって訓練される。訓練出力が望ましいか否かの決定は、手動で、
または訓練出力を訓練データの公知の特徴と比較することによって自動的に達成
することができる。学習機械は、その訓練出力が訓練データの公知の特徴からの
所定の誤差閾値内にある場合に訓練されたと考えられる。ある状況では、もし必
要でなければ、ステップ107において学習機械の訓練出力を後処理するのが望
ましいであろう。述べたごとく、学習機械の出力を後処理ことは、出力を意味の
ある形態に解釈することを含む。回帰問題の文脈では、例えば、学習機械の出力
についての範囲カテゴリー化を決定して、入力データポイントが正しくカテゴリ
ー化されたかを決定するのが必要であろう。パターン認識問題においては、しば
しば、学習機械の訓練出力を後処理する必要はない。 【0051】 ステップ108において、テストデータは、所望により、訓練された学習機械
をテストするために調製に収集される。テストデータは、1以上の局所および/
または遠隔源から収集することができる。現実的には、テストデータおよび訓練
データは同時に同一源から収集することができる。かくして、テストデータおよ
び訓練データセットは共通のデータセットから分割することができ、学習機械用
の異なる入力データセットとして用いるために局所記憶媒体に記憶することがで
きる。どのようにテストデータが収集されるかにかかわらず、用いるいずれのテ
ストデータも、訓練データと同様にステップ110において前処理されなければ
ならない。当業者に明らかなごとく、学習の適切なテストは、訓練データと同一
のフォーマットのテストデータを用いることによって達成することができる。次
いで、ステップ112において、もしあれば前処理テストデータを用いて学習機
械をテストする。学習機械のテスト出力は、所望によりステップ114で後処理
して、結果が望ましいかを決定する。再度、後処理ステップは、テスト出力を意
味のある形態に解釈することを含む。意味のある形態は、人によって理解できる
形態、またはコンピューターによって理解できる形態で有り得る。それにもかか
わらず、テスト出力は、テストデータと比較して、結果が望ましいか否かを決定
することができる形態に後処理されなければならない。後処理ステップの例は、
限定されるものではないが、以下の;最適カテゴリー化決定、スケーリング技術
(線形および非線形)、変換(線形および非線形)、確率評価を含む。方法10
0はステップ116で終了する。 【0052】 図2は、支持ベクトル機(SVM)として知られている特定タイプの学習機械
を用いて発見することができる知識を増強するための例示的方法200を示すフ
ローチャートである。SVMは、データの限定された収集からの多次元機能を評
価する場合に一般化を提供するための特殊化されたアルゴリズムを実行する。S
VMは、依存性評価の問題を解決するのに特に有用であろう。より具体的には、
SVMは、インジケーター機能(例えば、パターン認識問題)およびリアル−バ
リュード機能(例えば、機能近似問題、回帰評価問題、密度評価問題、および解
決逆問題)を評価するにおいて正確に用いることができる。SVMの基礎となる
概念は、出典明示してその全体を本明細書の一部とみなす、Statistic
al Learning Theoryと題されたVladimir N. V
apnikvによる書籍(John, Wiley & Sons, Inc.
1998)に詳細に説明されている。従って、SVMおよびそれに関して用いら
れる用語に対する精通は本明細書を通じて仮定される。 【0053】 支持ベクトル機は1992年に導入され、「中核トリック」が記載された。B
oser,B.ら,Fifth Annal Workship on Com
putational Learning Theory,p144−152,
Pittsburgh,ACM参照。訓練パターンおよび決定境界の間のマージ
ンを最大化する訓練アルゴリズムが提示された。該技術は、Perceptro
ns、多項式およびラジアル・ベーシス(Radial Basis)機能を含
めた広く種々の分類機能に適用することができた。有効数のパラメーターが、問
題の複雑性にマッチするように自動的に調整された。解決は、支持パターンの非
直線組合せとして表現された。これらは、決定境界に最も近い訓練パターンのサ
ブセットである。リーブ−ワン−アウト方法およびVC−寸法に基づく一般化業
績についての制限が与えられる。光学特徴認識問題についての実験結果は、他の
学習アルゴリズムと比較した場合に得られた良好な一般化を示す。 【0054】 支持ベクトルを用いるパターン認識システムは、出典明示してその全体を本明
細書の一部とみなす米国特許第5,649,068号に開示された。該特許には
、決定システムのデザインにデュアル表示数学原理が用いられた方法が記載され
ている。この原理は、メモリー・ベースの決定機能として表されるべきあらかじ
め規定された機能の重みづけされた合計であるいくつかの決定機能を可能とする
。この原理を用い、最適マージンを持つメモリー・ベースの決定システムがデザ
インされ、ここに、メモリー・ベースの決定機能の訓練パターンの重みおよびプ
ロトタイプは、対応するデュアル決定機能がマージン最適性の基準を満足するよ
うに決定された。 【0055】 例示的方法200は開始ブロック201で開始され、ステップ202まで進み
、そこで、問題が公式化され、ついで、ステップ203に進み、そこで、訓練デ
ータセットが収集される。図1を参照して記載したごとく、訓練データは、手動
または自動プロセスを通じて、1以上の局所および/または遠隔源から収集する
ことができる。ステップ204において、訓練データは所望により前処理される
。再度、データを前処理することは、データを清浄化し、データを変換し、およ
び/またはデータを拡大することによって、訓練データ内の意味を増強すること
を含む。当業者であれば、SVMは極端に大きな次元を有する入力データを処理
することができるのを認識するはずである。事実、入力データの次元が大きくな
れば、良好な一般化をSVMが計算することができる。しかしながら、前処理を
通じて入力スペースの次元を単に増加させることは、SVMでの良好な一般化を
保証しない。しかしながら、実質的に入力スペース次元を増加させる聡明な前処
理は、ニューラル・ネットワークおよび伝統的な統計モデルとは異なりSVMで
首尾よくモデル化することができる。より高次元のデータを取り扱う能力は、し
ばしば、良好でより一般化されたモデルに至ることができる。したがって、訓練
データを拡大しない訓練データ変換が可能であるが、SVMの特別の文脈では、
意味のある情報をそれに付加することによって訓練データが拡大されるのが好ま
しい。 【0056】 ステップ206において、中核がSVMについて選択される。当該分野で知ら
れているごとく、異なる中核は、SVMが、入力データの所与のセットにつき出
力における種々の程度の品質を生じさせるようにするであろう。従って、適当は
中核の選択はSVMの出力の所望の品質に必須であろう。本発明の1つの実施形
態において、以前の性能知識に基づいて中核を選択することができる。当該分野
で知られているごとく、例示的中核は多項式中核、半径ベース機能中核、線状中
核などを含む。別の実施形態において、特定の問題またはデータセットのタイプ
に特異的にカスタマイズされた中核を創製することができる。さらにもう1つの
実施形態において、複数のSVMを訓練し、同時にテストすることができ、各々
は異なる中核を用いる。種々の選択可能なまたは荷重したメトリックスを用いて
(ステップ222参照)、各々同時に訓練されテストされたSVMについて出力
の品質を比較して、最も望ましい中核を決定することができる。 【0057】 次に、ステップ208において、前処理した訓練データがSVMに入力される
。ステップ210において、前処理した訓練データを用いてSVMを訓練して、
最適な超平面を創製する。所望により、次いで、SVMの訓練出力をステップ2
11で後処理することができる。再度、訓練出力の後処理は望ましく、または必
要であってさえ、後処理は、この時点では、出力についての範囲またはカテゴリ
ーを適切に計算するのに望ましい、または必要でさえあろう。ステップ212に
おいて、データ収集の先の記載と同様にテストデータを収集する。前記訓練デー
タと同様に、テストデータをステップ214で前処理する。次いで、ステップ2
16で、前処理されたテストデータを処理のためにSVMに入力して、SVMが
望ましいように訓練されたか否かを決定する。テスト出力がステップ218にお
いてSVMから受領され、所望により、ステップ220において後処理される。 【0058】 後処理されたテスト出力に基づき、ステップ222において、最適な最大がS
VMによって達成されたかを決定する。当業者であれば、SVMは、全体的最小
誤差を有する出力を確認するように操作できることを認識すべきである。しかし
ながら、前記したごとく、所与のデータセットについてのSVMの出力結果は、
典型的には、中核の選択に関して変化するであろう。従って、事実、データの与
えられたセットについてのSVMによって確認することができる複数の全体的最
小がある。本明細書中で用いるごとく、用語「最適な最小」または[最適な解決
」とは、SVMによって確認された他の全体的最小と比較した場合に最適である
と考えられる選択された全体的最小をいう(例えば、問題特異的な予め確立され
た基準の所与のセットについての最適な解決)。従って、ステップ222におい
て、最適な最小が確認されたか否かを決定することは、SVMの出力を履歴また
は所定の値と比較することを含むことができる。そのような所定の値はテストデ
ータセットに依存し得る。例えば、データポイントが、SVMによって、ある特
徴を有する、あるいは該特徴を有しないとして分類されるパターン認識問題の文
脈においては、50%の全体的最小誤差は最適でないであろう。この例において
は、50%の全体的最小は、偶然に達成されるであろう結果よりも良好ではない
。もう1つの例として、複数のSVMが訓練され、種々の中核で同時にテストさ
れる場合において、各SVMについての出力を各他のSVMの出力と比較して、
中核のその特定のセットについての現実的な最適解決を決定することができる。
最適な解決が確認されたか否かの決定は、手動で、あるいは自動比較プロセスを
通じて行うことができる。 【0059】 もし訓練されたSVMによって最適な最小が達成されなかったと決定されれば
、当該方法はステップ224まで進み、そこで、中核選択が調整される。中核選
択の調整は、1以上の新しい中核を選択するか、または中核パラメーターを含む
ことができる。さらに、複数のSVMを訓練し、同時にテストする場合において
、他の中核は対照目的で再度使用することができるが、選択された中核は置き換
えるかまたは修飾することができる。中核選択が調整された後、方法200はス
テップ208から反復され、ここに、以前に前処理された訓練データが訓練目的
でSVMに入力される。ステップ222において最適な最小が達成されたと決定
された場合、当該方法はステップ226に進み、そこで、生データが前記したと
同様に収集される。訓練データおよびテストデータに関して知られた所望の出力
特徴は生データに関して知られていない。 【0060】 ステップ228において、訓練データおよびテストデータと同様にして生デー
タが前処理される。ステップ230において、生の前処理されたデータが処理の
ためにSVMに入力される。SVMの生出力がステップ232で受領され、ステ
ップ234において後処理される。本発明の1つの実施形態において、後処理は
、ヒトまたはコンピューターによる解釈のために、SVMの出力をコンピュータ
ーにより誘導された英数字分類器に変換することを含む。好ましくは、英数字分
類器は、ヒトまたはコンピューターによって容易に理解される単一の値を含む。
当該方法200はステップ236において終了する。 【0061】 図3は、データを前処理するのに、または本発明の例示的な実施形態に従う学
習機械からの出力を後処理するのに用いることができる例示的最適カテゴリー化
方法300を示すフローチャートである。加えて、後記するごとく、例示的最適
カテゴリー化方法は、学習機械とは独立して、単独カテゴリー化技術として用い
ることができる。例示的最適カテゴリー化方法300は出発ブロック301で始
まり、ステップ302まで進行し、そこで入力データセットが受領される。入力
データセットは、連続的変数からのデータ試料の配列を含む。データ試料は2以
上の分類カテゴリー内に入る。次に、ステップ304において、ビンおよびクラ
ス−トラッキング変数が初期化される。当該分野で知られているように、ビン変
数は分解に関連し、クラス−トラッキング変数はデータセット内での分類の数に
関連する。ビンおよびクラス−トラッキング変数の初期化のための値を決定する
ことは、手動にて、あるいは入力データセットの解析からのコンピュータープロ
グラムのごとき自動プロセスを介して実行することができる。ステップ306に
おいて、各ビンについてのデータエントロピーが計算される。エントロピーはラ
ンダムな分布の不確からしさを測定する数学的質である。例示的方法300にお
いて、エントロピーを用いて、最大分類能力が達成されるように、入力変数の等
級を測る。 【0062】 方法300は連続的変数上に一連の「カット」を生じ、従って、連続的変数は
区別されるカテゴリーに分けることができる。例示的方法300によって選択さ
れたカットは、各得られた区別されるカテゴリーの平均エントロピーが最小化さ
れる意味で最適である。ステップ308において、連続的変数を含む入力データ
セット内で全てのカットが置かれたか否かに関して決定がなされる。もし全ての
カットが置かれていないならば、連続的ビン組合せが、ステップ310において
カットオフ決定につきテストされる。ステップ310から、例示的方法300は
ステップ306を通じてループバックし、ステップ308に戻り、そこで、再度
連続的変数を含む入力データセット内に全てのカットが置かれたか否かが決定さ
れる。全てのカットが置かれれば、全システムについてのエントロピーがステッ
プ309で評価され、より多いまたはよりリスク内カットのテストからの以前の
結果と比較される。最小エントロピー状態が決定されたと結論することができな
いならば、他の可能なカット選択が評価されなければならず、当該方法はステッ
プ311まで進む。ステップ311からカットの数についてのこれまでの未テス
ト選択が選択され、前記したプロセスがステップ304から反復される。ビン幅
によって決定された分解の限度がテストされるか、または最小解決への収束が同
定されれば、最適な分類基準がステップ312で出力され、例示的最適カテゴリ
ー化方法300はステップ314で終了する。 【0063】 最適なカテゴリー化方法300は動的プログラミング技術を利用する。当該分
野で知られているごとく、動的プログラミング技術を用いて、注意深くアルゴリ
ズムを構築することに介してある複雑は問題を解決する効率を有意に改良して、
冗長な計算を減らすことができる。最適なカテゴリー化問題において、連続的変
数データにおける全ての可能なカットを通じての徹底的サーチの直接的アプロー
チの結果、指数関数的複雑性のアルゴリズムがもたらされ、中程度のサイズの入
力についてさえ問題を困難とするであろう。標的機能の付加的特性(この問題で
は平均エントロピー)を利用することによって、当該問題は一連のサブ問題に分
けることができる。各サブ問題を解くためにアルゴリズムサブ構造を適切に処方
し、サブ問題の解決を記憶することによって、大量の冗長な計算を同定し、回避
することができる。動的プログラミングアプローチを用いる結果、例示的最適カ
テゴリー化方法300は、大きなサイズの問題を解くのに用いることができる多
公式複雑性を有するアルゴリズムとして実行することができる。 【0064】 前記したごとく、例示的最適カテゴリー化方法300は、データを前処理しお
よび/または学習機械の出力を後処理するのに用いることができる。例えば、後
処理変換ステップをして、該例示的最適カテゴリー化方法300を用いて、生デ
ータからの分類情報を抽出することができる。後処理技術として、例示的最適範
囲カテゴリー化方法を用いて、場当たりのアプローチに依拠するよりはむしろ、
客観的にデータに基づいたマーカーに対する最適カットオフ値を決定することが
できる。明らかなごとく、例示的最適カテゴリー化方法300はパターン認識、
分類、回帰問題などにおいて適用を有する。また、例示的最適カテゴリー化方法
300は、SVMおよび他の学習機械から独立して、単独カテゴリー化技術とし
て用いることもできる。最適カテゴリー化方法300の例示的単独適用を図8を
参照して記載する。 【0065】 図4は、支持ベクトル機のための入力として用いることができる例示的非拡大
データセット400を示す。このデータセット400は「非拡大」という。なぜ
ならば、さらなる情報がそれに付加されていないからである。示すごとく、非拡
大データセットは訓練データセット402およびテストデータセット404を含
む。非拡大訓練データセット402および非拡大テストデータセット404の双
方は、サンプリングした医療患者からの履歴臨床データに関連する例示的データ
ポイント406のごときデータポイントを含む。データセット400を用いて、
SVMを訓練し、乳癌患者が再発を経験するであろうか否かを判断することがで
きる。 【0066】 各データポイントは5つの入力座標、または寸法、および各患者について収集
された医療データを表す406a−fで示される出力分類を含む。特に、第1の
座標406aは「年齢」を表し、第2の座標406bは「エストロゲン受容体レ
ベル」を表し、第3の座標406cは「プロゲステロン受容体レベル」を表し、
第4の座標406dは「合計抽出リンパ節」を表し、第5の座標406eは「陽
性(癌性)抽出リンパ節」を表し、および出力分類406fは「再発分類」を表
す。データ400の重要な公知の特徴は出力分類406f(再発分類)であり、
これは、この例においては、サンプリングした医療患者が好都合には癌の再発な
くして(「−1」)治療に応答したか、または不都合にも癌の再発を伴って(「
1」)治療に応答したかを示す。この公知の特徴は学習で用いることができ、他
方、SVMにおいて訓練データを処理することは、テストデータをSVMに入力
し、かくして、「ブラインド」を生じた後に評価様式で用いることができ、これ
は、明らかに、現在の医療患者の生データでは知られていないであろう。 【0067】 図5は、非拡大訓練データセット402で訓練され、図4で示された非拡大デ
ータセット404でテストされたSVMからの例示的テスト出力502を示す。
テスト出力502は、ヒトまたはコンピューターによって理解できるように後処
理されている。ここに示すごとく、テスト出力502は、合計24の試料(デー
タポイント)がSVMによって調べられ、SVMが8つの陽性試料の内4つを誤
って同定し(50%)、16の陰性試料の内6つを誤って同定した(37.5%
)を示す。 【0068】 図6は、支持ベクトル機のための入力として用いることができる例示的拡大デ
ータセット600を示す。このデータセット600は「拡大されている」という
。なぜならば、さらなる情報がそれに付加されているからである。付加された情
報とは別に、拡大されたデータセット600は図4に示す非拡大データセット4
00と同一であることに注意されたし。拡大されたデータセットに供給されたさ
らなる情報は、図3を参照して記載された例示的最適範囲カテゴリー化方法30
0を用いて供給されている。示すごとく、拡大されたデータセットは訓練データ
セット602およびテストデータセット604を含む。拡大された訓練データセ
ット602および拡大されたテストデータセット604の双方は、サンプリング
した医療患者からの履歴データに関連する例示的データポイント606のごとき
データポイントを含む。再度、データセット600を用いてSVMを訓練し、乳
癌患者が病気の再発を経験するか否かを学習する。 【0069】 例示的最適カテゴリー化方法300の適用を介して、各拡大されたデータポイ
ントは606e1−3を介する20の座標(または次元)606a1−3、およ
び出力分類606fを含み、これは、集合的に、各患者についての医療データお
よびそのカテゴリー化変換を表す。特に、第1の座標606aは「年齢」を表し
、第2の座標ないし第4の座標606a1−606a3は、組み合わされて年齢
のカテゴリーを表す変数である。例えば、年齢の範囲は、例えば、データに存在
する年齢の範囲に関して「若い」、「中年」および「老人」カテゴリーに分類す
ることができる。示すごとく、変数のストリング「0」(606a1)、「0」
(606a2)、「1」(606a3)を用いて、ある年齢値が「老人」として
分類されることを示すことができる。同様に、変数のストリング「0」(606
a1)、「1」(606a2)、「0」(606a3)を用いて、ある年齢値が
「中年」として分類されることを示すことができる。また、変数のストリング「
1」(606a1)、「0」(606a2)、「0」(606a1)を用いて、
ある年齢値が「若い」として分類されることを示すことができる。図6の洞察か
ら、例示的方法300を用いて「年齢」606a値の範囲の最適カテゴリー化が
31−33=「若い」、34=「中年」および35−49=「老人」であると決
定された。他の座標、すなわち座標606b「エストロゲン受容体レベル」、座
標606c「プロゲステロン受容体レベル」、座標606d「合計抽出リンパ節
」、および座標606e「陽性(癌性)抽出リンパ節」は、各々、同様に最低に
カテゴリー化されている。 【0070】 図7は、拡大訓練データセット602で訓練され、図6に示された拡大データ
セット604でテストされたSVMからの例示的拡大テスト出力702を示す。
拡大テスト出力702は、ヒトまたはコンピューターによって理解されるように
後処理されている。示すごとく、拡大テスト出力702は合計24の試料(デー
タポイント)がSVMによって調べられ、SVMが8つの陽性試料の内4つを誤
って同定し(50%)、16の陰性試料の内4つを誤って同定した(25%)こ
とを示す。従って、この拡大テスト出力702を図5の非拡大テスト出力502
と比較することによって、データポイントの拡大が改良された結果(すなわち、
より低い全体的最小誤差)、具体的には、後の癌処置に不必要に付される患者の
例の減少に導くことがわかるであろう。 【0071】 図8は、図3に記載された最適カテゴリー化方法300の単独適用のための例
示的入力および出力を示す。図8の例においては、入力データセット801は「
陽性リンパ節の数」802および対応する「再発分類」804を含む。この例に
おいては、最適カテゴリー化方法300が入力データセット801に適応されて
、手術後組織試料で収集された陽性リンパ節の数のみに基づいて、癌再発のため
の治療の決定用最適カットオフポイントを位置決定されている。よく知られた臨
床標準は、少なくとも3つの陽性節を持ついずれかの患者についての治療を規定
する。しかしながら、最適カテゴリー化方法300は、入力データ801に基づ
く最適カットオフ806が5.5のリンパ節のより高い値においてのものである
べきことを示し、これは、少なくとも6つの陽性リンパ節を持つ患者における後
の治療を規定する臨床規則に対応する。 【0072】 比較表808に示すごとく、先行技術が許容したカットオフポイント(≧3.
0)の結果、47%の正しく分類された再発および71%の正しく分類された非
再発がもたらされた。従って再発の53%は正しく分類されておらず(さらなる
試料は不適切にも推奨されていない)、非再発の29%は誤って分類された(さ
らなる治療は誤って推奨された)。対称的に、最適カテゴリー化方法300によ
って決定されたカットオフポイント(≧5,5)の結果、33%の正しく分類さ
れた再発および97%の正しく分類された非再発がもたらされた。従って再発の
67%は正しくなく分類され(さらなる試料は不適切にも推奨されず)、非再発
の3%は正しくなく分類された(さらなる試料は正しくなく推奨された)。 【0073】 この例によって示されるごとく、例示的最適カテゴリー化方法300を用い、
外科手術後癌治療を避けることができる患者を正しく同定するより高い例を達成
することができるであろう。最適カテゴリー化方法300によって決定されたカ
ットオフポイントは中程度に高いパーセンテージの正しくなく分類された再発を
生じたが、それはかなり低いパーセンテージの正しくなく分類された非再発を生
じた。かくして、トレードオフを考慮し、かつ最適化問題の目標が不必要な治療
の回避であることを認識すると、最適カテゴリー化方法300によって決定され
たカットオフポイントの結果は、先行技術の臨床的カットオフポイントのそれよ
りも数学的に優れている。このタイプの情報は、化学療法のごとき治療を受けて
いることと乳癌の再発の危険があることの間の選択をせまられる患者に対してさ
らなる洞察を提供するのに潜在的に非常に有用である。 【0074】 図9は、線状中核を含む第1の支持ベクトル機および多項式中核を含む第2の
支持ベクトル機からの例示的後処理した出力の比較である。図9は、中核の選択
の変動がSVMの出力の品質レベルに影響し得ることを示す。示されたごとく、
線状ドット産物中核を第1のSVM902の後処理した出力は、24の試料の所
与のテストセットにつき、8つの陽性試料の内6つが正しくなく同定され、16
の陰性試料の内3つが正しくなく同定されたことを示す。比較により、多公式中
核を含む第2のSVM904についてお後処理された出力は、同一テストセット
について、8つの陽性試料の内2つのみが正しくなく同定され、16の陰性試料
の内4つが同定されたことを示す。比較により、多項式中核は陽性試料の同定に
対してかなり改良された結果を生じ、陰性試料の同定に関してわずかに悪い結果
を生じたに過ぎない。かくして、当業者に明らかなごとく、多項式中核について
の全体的最小誤差は、このデータセットについての線状中核についての全体的最
小誤差よりも低い。 【0075】 図10および以下の考察は、本発明を実施するのに適した計算の環境の簡単な
一般的記載を供することを意図する。図10に示されたシステムは慣用的パーソ
ナルコンピューター1000であるが、当業者であれば、他のタイプのコンピュ
ーターシステム配置を用いて本発明を実施することもできることを認識するであ
ろう。コンピューター1000は中枢処理ユニット1022、システムメモリー
1020、および入力/出力(「I/O」)バス1026を含む。システムバス
1021は中枢処理ユニット1022をシステムメモリー1020に結合させる
。バスコントローラー1023はI/Oバス1026上で、中枢処理ユニット1
022および種々の内部および外部I/Oデバイスの間のデータの流れを制御す
る。I/Oバス1026に連結したI/Oデバイスは、直接メモリーアクセス(
「DMA」)コントローラー1024を用いてシステムメモリー1020に対し
て直接的アクセスを有することができる。 【0076】 I/Oデバイスは、デバイスインターフェイスのセットを介してI/Oバス1
026に連結する。デバイスインターフェイスはハードウェア成分およびソフト
ウェア成分双方を含むことができる。例えば、除去可能な媒体1050を読みま
たは書くためのハードディスクドライブ1030およびフロッピー(登録商標)
ディスクドライブ1032を、ディスクドライブコントローラー1040を介し
てI/Oバス1026に連結することができる。光学媒体1052を読みまたは
書くための光学ディスクドライブ1034は、スモール・コンピューター・シス
テム・インターフェイス(「SCSI」)1041を用いてI/Oバス1026
に連結することができる。別法としてIDE(ATAPI)またはEIDEイン
ターフェイスを、CD−RPMドライブに当てはまるごとき光学ドライブと連結
させることができる。該ドライブおよびそれらの関連コンピューター読み取り可
能な媒体はコンピューター1000用の不揮発性記憶を提供する。前記したコン
ピューター読み取り可能な媒体に加え、ZIPドライブ等のごとき他のタイプの
コンピューター読み取り可能な媒体を用いることもできる。 【0077】 モニターのごときディスプレイデバイス1053は、ビデオアダプター104
2のごときもう1つのインターフェイスを介してI/Oバス1026に連結され
る。平行インターフェイス1043はレーザープリンター1056のごとき同調
周辺デバイスをI/Oバス1026に連結する。セリアルインターフェイス10
44は通信デバイスをI/Oバス1026に連結する。セリアルインターフェイ
ス1044を介して、またはキーボード1083、マウス1036またはモデム
1057のごとき入力デバイスを用いることによって、ユーザーはコマンドおよ
び情報をコンピューター1000に入力することができる。オーディオ入力/出
力デバイスまたはイメージ捕獲デバイスのごとき他の周辺デバイス(図示せず)
をコンピューター1000に連結することもできる。 【0078】 多数のプログラムモジュールをドライブ上およびシステムメモリー1020中
に記憶することができる。システムメモリー1020はランダムアクセスメモリ
ー(「RAM」)および読出専用メモリー(「ROM」)双方を含むことができ
る。プログラムモジュールは、どのようにしてコンピューター1000が機能し
、ユーザーと、I/Oデバイスと、または他のコンピューターと相互作用するか
を制御する。プログラムモジュールはルーチン、オペレーティングシステム10
65、適用プログラム、データ構造、および他のソフトウェアおよびファームウ
エア構成要素を含む。例示的な実施形態において、本発明は、コンピューター1
000のドライブ上またはシステムメモリー1020に記憶された、1以上の前
処理プログラムモジュール1075A、1以上の後処理プログラムモジュール1
075B、および/または1以上の最適カテゴリー化モジュール1077および
1以上のSVMプログラムモジュール1070を含む。具体的には、SVMプロ
グラムモジュール1070と共に前処理プログラムモジュール1075A、後処
理プログラムモジュール1075Bは、データを前処理し、および学習機械から
の出力を後処理し、および図1および2を参照して記載した例示的方法に従って
学習アルゴリズムを実行するためのコンピューター−実行可能指令を含むことが
できる。さらに、最適カテゴリー化プログラムモジュール1077は、図3を参
照して記載した例示的方法に従ってデータセットを最適にカテゴリー化するため
のコンピューター−実行可能指令を含むことができる。 【0079】 コンピューター1000は、遠隔コンピューター1060のごとき1以上の遠
隔コンピューターに対する論理的結合を用いてネットワーク化環境で操作するこ
とができる。遠隔コンピューター1060はサーバ、ルーター、ピアデバイスま
たは他の共通のネットワークノードとすることができ、典型的には、コンピュー
ター1000と結合した記載したエレメントの多くまたはすべてを含む。ネット
ワーク化環境において、プログラムモジュールおよびデータは遠隔コンピュータ
ー1060に記憶することができる。図10に示した論理的結合はローカルエリ
アネットワーク(「LAN」)1054およびワイドエリアネットワーク(「W
AN」)1055を含む。LAN環境において、Ethernetアダプターカ
ードのごときネットワークインターフェース1045を用いて、コンピューター
1000を遠隔コンピューター1060に結合することができる。WAN環境に
おいて、コンピューター1000は、結合を達成するために、モデム1057の
ごとき遠隔通信デバイスを用いることができる。示されたネットワーク結合は例
示であって、コンピューター間の通信リンクを確立する他のデバイスを用いるこ
とができるのは認識されるであろう。 【0080】 図11は、本発明の実施のための別の例示的オペレーティング環境を示す機能
的ブロックダイアグラムである。本発明は、複数のコンピューターシステムの特
殊化配置で実施することができる。複数のコンピューターシステムの特殊化配置
の例は、ここでは、BIOWulfTM支持ベクトルプロセッサ(BSVP)とい
う。該BSVPは平行計算ハードウェア技術における最後の進歩をパターン認識
、回帰評価および密度評価における最後の数学的進歩と組み合わせる。これらの
技術の組合せはユニークで新規な実施であるが、ハードウェアの配置は、ナサ・
ゴダード・スペース・フライト・センター(NASA Goddard Spa
ce Flight Center)が開発者であるBeowulfスーパーコ
ンピューターの実施に基づく。 【0081】 BSVPは、SVM訓練および大規模なデータセットについての評価を促進す
るのに必要なかなり平行した計算力を提供する。BSVPはデュアル平行ハード
ウェア構築および慣用的平行化ソフトウェアを含んで、マルチスレッディングお
よびメッセージパシング双方の効果的な利用が現実の適用において支持ベクトル
を効果的に同定するのを可能とする。ハードウェアおよびソフトウェア双方の最
適化は、BSVPが典型的なSVM実行よりもかなり優れているようにすること
ができる。さらに、商品として、計算技術が進歩するにつれ、解放源ソフトウェ
アにおける基礎および標準化インターフェーシング技術によってBSVPの等級
上昇が保証される。将来の計算プラットフォームおよびネットワーキング技術は
BSVPに同化することができる。というのは、それらはソフトウェアの実行に
対して影響なくしてコストが効果的となるからである。 【0082】 図11に示すごとく、BSVPは20の処理ノード1104a−tおよび1つ
のホストノード1112を備えたBeowulfクラスのスーパーコンピュータ
ークラスターを含む。処理ノード1104a−jはスイッチ1102aを介して
相互連結し、他方、処理ノード1104k−tはスイッチ1102bを介して相
互連結する。ホストノード1112は、適当なEthernetケーブル111
4を介してネットワークスイッチ1102aまたは1102b(1102aを示
す)の内のいずれか1つに連結する。また、スイッチ1102aおよびスイッチ
1102bは、すべての20の処理ノード1104a−tおよびホストノード1
112が効果的に相互と連絡するように、適切なEthernetケーブル11
14を介して相互に連絡する。スイッチ1102aおよび1102bは、好まし
くは、速Ethernet相互連結を含む。BSVPのデュアル平行構築は、複
数機の平行配置を通過し、ホストノード1112としての高効率デュアルプロセ
ッサSMPコンピューターを利用するBeowulfスーパーコンピューターの
メッセージの実行を介して達成される。 【0083】 例示的配置において、ホストノード1112は無接着剤マルチ−プロセッサS
MP技術を含み、18GBのUltra SCSI記憶、256MBメモリー、
2つの100Mbit/sec NIC、および24GB DATネットワーク
バックアップテープデバイスを備えたデュアル450MhzのPentium
IIXeonベースのマシンよりなる。;ホストノード1112はNIS、MP
Lおよび/またはPWMをLinux下で実行して、BSVPの活動を管理する
。また、ホストノード1112はBSVPおよび外界の間のゲートを提供する。
それ自体、BSVPの内部ネットワークは外部相互作用から隔離され、これは全
クラスターが単一のマシンとして機能するようであることを可能とする。 【0084】 20のプロセッシングノード1104a−tは、150MHz Pentiu
mプロセッサ、32MB RAM、850MB HDD、1.44MB FDD
、および速Ethernet mb100Bb/c NICを含む同一に配置さ
れたコンピューターである。処理ノード1104a−tは相互に連結し、NFS
を通るホストノードはTCP/IP上に連結する。BSVP計算に加え、処理ノ
ードは、KVMスイッチ1108aおよび1108bを介して単一キーボードデ
バイスおよび単一マウスデバイスに通じる各ノードのキーボードおよびマウスを
備えた装着されたモニターのバンクを介してデモンストレーション能力を供する
。 【0085】 ソフトウェアのカスタマイズおよび開発はBSVPに対する活動の最適化を可
能とする。SVMプロセスのセクションにおける同時発生は、BSVPハードウ
ェアによって供されたハイブリッド平行化を通じて最も有利に開発される。ソフ
トウェアは生データから実行された解決までの十分なサイクル支持を実行する。
データベースエンジンは、前処理された生データに必要な記憶および柔軟性を提
供する。慣用開発ルーチンはSVM訓練に先立ってデータの前処理を自動化する
。複数の変換およびデータ操作が、データベース環境内で実行されて、候補訓練
データを生じさせる。 【0086】 BSVPのピーク理論処理能力は3.90GFLOPSである。それらのBe
owulfクラスのマシン上でのNASA Goddard Space Fl
ight Center によって行われたベンチマークに基づき、予測された
現実の性能は約1.56PSGFLOPSであるはずである。かくして、このB
eowulfクラスクラスターマシンにおける商品構成要素計算力を用いて達成
された性能は、Cray J932/8のごときスーパーコンピューターのそれ
と一致する。さらに、リサーチおよびアカデミック研究所におけるBeowul
fテストは、単一プロセッサの18倍のオーダーの性能が一般に20ノードBe
owulfクラスターで達成できることを示す。例えば、単一Pentiumプ
ロセッサーコンピューターで17分45秒のクロックタイムを要する最適化問題
は、20ノードを備えたBeowulfで59秒で解かれた。従って、BSVP
の高性能性質は、現在余りにも面倒と考えられるデータセットの現実的解析が慣
用的コンピューターシステムによって取り扱われるのを可能とする。 【0087】 BSVPの大きな計算力は、平行して複数SVMを実行して、それを、膨大な
数の入力を含むリアルライフ問題を解くのに特に有用とする。一般にSVM、特
にBSVPの有用性の例は、遺伝子の研究、特にヒトゲノムプロジェクト;管理
されたケア効率の評価;治療的決定およびフォロー;適切な治療的選別;医薬開
発技術;分子構造の発見;予後評価;医療インフォマティックス;請求書不正の
検出:発明的制御;ストックの評価および予測;商品の評価および予測;および
保証確率評価を含む。 【0088】 当業者であれば、前記したBSVP構築は性質上例示であって、本発明の範囲
を限定することを意味しないことを認識すべきである。例えば、20の処理ノー
ドの選択はよく知られたBeowulf構築に基づくものであった。しかしなが
ら、別法として、20の処理ノードよりも多いまたは少ないものを用いて実行す
ることもできる。さらに、特殊な前記したハードウェアおよびソフトウェア構成
要素は例に過ぎない。言及したごとく、本発明のBSVPの実施形態は、別のお
よび/または将来のハードウェアまたはソフトウェア構成要素に適合するように
配置される。 【0089】 図12は、本発明のさらなる別の実施形態の実行のための例示的ネットワーク
オペレーティング環境を示す機能的ブロックダイアグラムである。例示的ネット
ワークオペレーティング環境において、顧客1202または他の団体は、インタ
ーネット1204のごとき分布したコンピューターネットワークを介してデータ
をベンダー1212に伝達することができる。当業者であれば、顧客1202は
、通信デバイスおよびデータ記憶デバイスとの連絡を含む、またはそれと連絡す
るいずれかのタイプのコンピューターまたはラブ装置からのデータを伝達するこ
とができることを認識することである。顧客1202から伝達されたデータは学
習機械によって処理されるべき訓練データ、テストデータおよび/または生デー
タとすることができる。顧客によって伝達されたデータは購入者のウェブサーバ
1206において受領され、これは、内部ネットワーク1214a−bを介して
1以上の学習機械にデータを伝達することができる。前記したごとく、学習機械
はSVM、BSVP1100、ニューラル・ネットワーク、他の学習機械または
その組合せを含むことができる。好ましくは、ウェブサーバ1206は、ファイ
アウォル1208または他のセキュリティシステムによって学習機械から隔離さ
れている。また、ベンダー1212は、インターネット1204またはいずれか
の専用のまたはオンデマンド通信リンクを介して1以上の金融機関1210と連
絡することもできる。ウェブサーバ1206または他の通信デバイスは1以上の
金融機関との通信を取り扱うことができる。金融機関は銀行、インターネット銀
行、手形交換書、クレジットまたはデビットカード会社等を含むことができる。 【0090】 操作において、ベンダーは、ウェブサーバ1206ホストウェブサイトまたは
ウェブサイト1206と連絡するもう1つのサーバを介して学習機械処理サービ
スを提供することができる。顧客1202はウェブサーバ1206にデータを伝
達して、学習機械によって処理することができる。また、顧客1202はユーザ
ーネーム、パスワードおよび/または金融口座識別子のごとき同定情報をウェブ
サーバに伝達することもできる。データおよび同定情報の受容に応答して、ウェ
ブサーバ1206は、金融機関1210において顧客1202によって維持され
たまたは権限を与えられた金融口座から所定量の資金を電子的に引き出すことが
できる。加えて、ウェブサーバは顧客のデーターをBSVP1100または他の
学習機械に伝達することができる。BSVP1100がデータの処理および出力
の後処理を完了すると、後処理された出力はウェブサーバ1206に戻される。
既に述べたごとく、学習機械からの出力を後処理して、ヒトまたは自動解釈のた
めに、単一値または複数値のコンピューターにより誘導された英数字分類器を生
じさせることができる。次いで、ウェブサーバ1206は、後処理された出力が
インターネット1204を介して顧客1202に逆伝達される前に顧客からの支
払いが確認されていることを確実とすることができる。 【0091】 SVMを用いて広く種々の実生活上の問題を解くことができる。例えば、SV
Mは会計および発明的データ、ストックおよび商品マーケットデータ、保証デー
タ、医療データ等の解析において適用性を有することができる。それ自体、前記
したネットワーク環境は多くの産業およびマーケットセグメントを通じて広い適
用性を有する。発明的データ解析の文脈において、例えば、顧客は小売業者であ
っても良い。小売業者は発明的および監査データを所定の時点でウェブサーバ1
206に供給することができる。発明的および監査データをBSVPおよび/ま
たは1以上の他の学習機械によって処理して、小売業者の発明的要件を評価する
ことができる。同様に、医療データ解析の文脈では、顧客は医療研究所であって
良く、患者が医療研究所にいつつ、患者から収集した生データ1206に伝達す
ることができる。医療データをBSVPまたは他の学習機械で処理することによ
って生じた出力は、医療研究所に逆伝達し、患者に提示することができる。 【0092】 本発明の方法、システムおよびデバイスの好ましい実施形態をここに記載する
。本明細書中で用いるごとく、データ入力は「特徴」と呼ばれる構成要素の「パ
ターン」と呼ばれるベクトルである。この実施形態においては、特徴は遺伝子発
現係数であり、パターンは患者に相当する。2−クラスの分類問題を示す。既知
のクラス標識を持つ多数のパターンの訓練セットを用いた。訓練パターンを用い
て、入力パターンのスケーラー機能である決定機能または判別機能を形成するこ
とができる。新しいパターンは決定機能のサインに従って分類される。訓練パタ
ーン足すバイアスの単純な荷重合計である決定機能は線型判別機能と呼ばれる。
もし線型判別機能が誤差なくしてそれを分離できるならば、データセットは「線
型に分離可能」であると言われる。 【0093】 一般に分類および機械学習で知られた問題は、入力空間の次元を減らして「オ
ーバーフィッティング」の危険を克服する手段を見つけることである。マイクロ
アレイで実験された数千の遺伝子のごとく特徴の数が大きく、数ダースの患者の
ごとく訓練パターンの数が比較的小さい場合にデータのオーバーフィッティング
が起こる。そのような状況においては、訓練データ、線型決定機能でさえ分離し
、なおテストデータにつき不充分に実行する決定機能を見いだすことができる。
規則化を用いる訓練技術は、空間次元の減少を必要とすることなくデータをオー
バーフィッティングすることを回避する。支持ベクトル機(SVM)は空間次元
の減少で利益を受けることができるにも拘わらず、例えば、SVMがそれに当て
はまる。 【0094】 減少の他の方法は、データの最初の数個の主な方向にプロジェクトすることを
含む。そのような方法では、元の特徴の線型組合せである新しい特徴が得られる
。プロジェクション方法の1つの不利は、元の入力特徴で捨てることができるも
のはないことである。好ましい方法は、元の入力特徴のいくつかを排除し、良好
な分類性能を生じる最小サブセットの特徴を保持する技術を削減することを含む
。診断テストでは、コスト有効性のごとき理由で遺伝子の小さなサブセットを選
択することができ、従って、選択した遺伝子の関連性はより容易に確認できるの
が現実的により有用である。 【0095】 特徴選択の問題はパターン認識で良く知られている。仮に特定の分類技術を仮
定すれば、特徴のすべてのサブセットの網羅的列挙によって所与の「モデル選択
」基準を満足する特徴の最良のサブセットを選択することができる。この方法は
、サブセットの数の組合せの急激な増加のため、数千の遺伝子のごとき多数の特
徴では非現実的である。 【0096】 大きな次元の入力空間で特徴選択を行うことは、貪欲なアルゴリズムを含む。
種々の可能な方法のうち、特徴ランキング技術が特に好ましい。さらなる分析の
ためには、または分類器を設計するには、固定された数のトップにランクされる
特徴を選択することができる。別法として、ランキング基準に閾値を設定するこ
とができる。その基準が閾値を超える特徴のみが保持される。好ましい方法は、
該ランキングを用いて、特徴のネステッドサブセットを規定し、単一のパラメー
ター:特徴の数を変化させることによってモデル選択基準でもって特徴の最適サ
ブセットを選択することである。 【0097】 また、本発明は、複数データセットから知識を見出すための複数支持ベクトル
機の方法、システムおよびデバイスを含む。本発明では、複数の支持ベクトル機
を配置して、平行にまたは順次に複数のデータセットを階級的に処理することが
できると考えられる。特に、1以上の第1レベル支持ベクトル機を訓練し、テス
トして、第1のタイプのデータを処理することができ、1以上の第一レベル支持
ベクトル機を訓練し、テストして、第2のタイプのデータを処理することができ
る。付加的なタイプのデータは、同様に他の第1レベル支持ベクトル機によって
処理することができる。第1レベル支持ベクトル機のいくつかまたは全てからの
出力を論理的に組み合わせて、1以上の第2レベル支持ベクトル機のために入力
データを生じさせることができる。同様にして、複数の第2レベル支持ベクトル
機からの出力を論理的に組み合わせて、1以上の第3レベル支持ベクトル機のた
めに入力データを生じさせることができる。支持ベクトル機の階級は、適切なご
とく、いずれの数のレベルにも拡大することができる。 【0098】 支持ベクトル機の階級または各階級レベルにおける各支持ベクトル機には区別
される中核を設けることができる。例えば、第1のタイプのデータを処理するの
に用いる支持ベクトル機には第1のタイプの中核を設けることができ、他方、第
2のタイプのデータを処理するのに用いることができる支持ベクトル機には第2
のタイプの中核を設けることができる。加えて、同一または異なる階級レベルの
複数の支持ベクトル機を配置して、区別される中核を用いて同一タイプのデータ
を処理することができる。 【0099】 例示目的のみで示した例において、第1レベルの支持ベクトル機を訓練し、テ
ストして、医療患者の試料に関する乳房撮影データを処理することができる。さ
らなる第1レベル支持ベクトル機を訓練し、テストして、医療患者の同一または
異なる試料につきゲノムデータを処理することができる。2つの第1レベル支持
ベクトル機からの出力を組み合わせて、乳房撮影およびゲノムデータに関する新
しい多次元データセットを形成することができる。次いで、適切に訓練されテス
トされた第2レベル支持ベクトル機によって新しいデータセットを処理すること
ができる。第2レベル支持ベクトル機からの得られた出力は、乳房撮影およびゲ
ノムデータポイントの間の因果関係を同定することができる。当業者には明らか
であるはずのごとく、支持ベクトル機の考えられる階級は、学習機械によるデー
タの解析が望まれるいずれの分野または産業においても適用を有することができ
る。 【0100】 複数の支持ベクトル機を用いる複数データセットの階級処理は、さらに他の支
持ベクトル機または学習機械に入力しまたはそれから出力すべきデータを前処理
または後処理する方法として用いることができる。加えて、後記する方法に従っ
たデータの前処理または後処理を、支持ベクトル機の前記階級構築の入力データ
および/または出力に対して行うことができる。 【0101】 図36は、支持ベクトル機の階級システムを説明するためだけに例として掲げ
る。示されるごとく、1以上の第1レベル支持ベクトル機1302A1および1
302A2を訓練しテストして、医療患者の試料に関する乳房撮影データのごと
き第1のタイプの入力データ1304Aを処理することができる。1以上のこれ
らの支持ベクトル機は(中核1および中核2として示される)区別される中核を
含むことができる。また、1以上のさらなる第1レベル支持ベクトル機1302
B1および1302B2を訓練しテストして、医療患者の同一または異なる試料
につき、ゲノムデータのごとき第2のタイプのデータ1304Bを処理すること
ができる。再度、1以上のさらなる支持ベクトル機は(中核1および中核3とし
て示される)区別される中核を含むことができる。同様の第1レベル支持ベクト
ル機の各々からの出力を相互と比較して(すなわち、出力A2 1306Bと比
較した出力A1 1306A;出力B2 1306Dと比較した出力B1 13
06C)、最適出力(1308Aおよび1308B)を決定することができる。
次いで、2つのタイプの第1レベル支持ベクトル機1308Aおよび1308B
からの最適出力を組み合わせて、例えば、乳房撮影およびゲノムデータに関する
新しい多次元入力データセット1310を形成することができる。次いで、1以
上の適切に訓練されテストされた第2レベル支持ベクトル機1312Aおよび1
312Bによって新しいデータセットを処理することができる。第2レベル支持
ベクトル機1312Aおよび1312Bからの得られた出力1314Aおよび1
314Bを比較して、最適出力1316を決定することができる。最適出力13
16は乳房撮影およびゲノムデータポイントの間の因果関係を同定することがで
きる。当業者に明らかなはずのごとく、支持ベクトル機の考えられる階級は、学
習機械によるデータの分析が望まれるいずれの分野または産業においても適用を
有することができる。 【0102】 複数支持ベクトル機を用いる複数データセットの階級処理は、さらに他の支持
ベクトル機または学習機械に入力し、またはそれから出力すべきデータを前処理
または後処理する方法として用いることができる。加えて、データの前処理また
は後処理は、支持ベクトル機の前記階級構築の入力データおよび/または出力に
対して行うことができる。 【0103】 ここに含めた例は、結腸癌の存在に最も相関する遺伝子を決定する好ましい方
法を示し、あるいはそれを用いて、個人において結腸癌の発生を予測することが
できる。本発明は、生物学的システムにおける変化の診断または予測のために遺
伝子、蛋白質または他の測定可能な基準を決定する学習機械で用いることができ
る、他の計算方法を含めたこれらの方法、および他の方法を含む。データの源に
は制限はなく、データは、生物学的システムにおける正常な状態および状態の変
化の間を区別するのに用いることができる、遺伝子、蛋白質または臨床テストの
ごとき測定可能な基準の組合せであり得る。 【0104】 以下の実施例において、遺伝子の好ましい数を決定した。これらの数は本発明
の方法を限定するものではない。好ましくは、結腸癌では、遺伝子の好ましい最
適数はほぼ1ないし100の範囲であり、より好ましくは、該範囲は1ないし5
0であり、なおより好ましくは、該範囲は1ないし32であり、さらにより好ま
しくは、該範囲は1ないし21であり、最も好ましくは1ないし10である。遺
伝子の好ましい最適数は元のデータの質および量によって影響され得、かくして
、当業者によって各適用につき決定することができる。 【0105】 一旦決定的遺伝子が本発明の学習機械によって見出されれば、生物における生
物学的変化の処置のための方法および組成物を使用することができる。例えば、
結腸癌の治療では、治療剤を投与して、遺伝子産物の活性、存在または合成に拮
抗し、または作動し、それを増強させ、または阻害することができる。治療剤は
、限定されるものではないが、センスまたはアンチセンスポリヌクレオチド、D
NAまたはRNAアナログ、医薬剤、プラズマフォレシス、抗脈管形成剤、なら
びにそのような薬剤の誘導体、アナログおよび代謝産物を含む。 【0106】 そのような薬剤は非経口または非侵入的経路を介して投与される。多くの活性
剤は非経口投与経路、静脈内、筋肉内、皮下、腹腔内、脊髄内、器官内、脳室内
、動脈内および他の経路の注射を介して投与される。薬物送達のための非侵入的
経路は経口、鼻孔、肺、直腸、頬内、膣、経皮および眼経路を含む。 【0107】 本発明のもう1つの実施形態は、インターネットまたは電話回線のごとき手段
を介してパターンの決定サイトから離れたテストの使用を含む。例えば、特異的
医学疾患に関連することが知られている遺伝子の存在を同定するためのゲノムテ
ストは医師のオフィスで行われる。加えて、臨床データまたはプロテオミック決
定のごとき他の情報もまた同一時点または異なる時点で作成することができる。
テストの1つの、いくつかまたは全ての結果は、SVMを収容する遠隔サイトに
伝達される。そのようなテストは、診断段階で、病気の予後を決定するのに、治
療の結果を決定するのに、およびいずれの治療方法が個々の患者で良好であるか
を決定するごとき処方的適用で用いることができる。 【0108】 以下の実施例により、本発明をさらに説明するが、それは本発明の範囲に限定
を加えるものとは断じて解釈されるべきではない。対照的に、種々の他の実施形
態、修飾およびその同等なものも可能であり、本明細書を読んだ後に、本発明の
精神および/または添付の請求の範囲の範囲を逸脱することなく当業者にそれは
自明であろうことが理解されるべきである。 【0109】 実施例1 結腸癌に関連する遺伝子パターンの解析 1ないし多数の、いずれかの数の遺伝子でエラー無しの分離を達成できる。好
ましい方法は、多数の遺伝子の使用を含む。古典的な遺伝子選択方法は、訓練デ
ータを最良に個々に分類する遺伝子を選択する。これらの方法は相関方法および
発現率方法を含む。それらは、区別で役に立たない(ノイズ)が、遺伝子が冗長
であるゆえにコンパクトな遺伝子セットを生じない遺伝子を排除する。さらに、
データを個々に十分に分離しない相補的遺伝子は失われる。 【0110】 単純な特徴(遺伝子)ランキングは、いかに十分に個々の特徴が分離に寄与す
るか(例えば、癌対正常)を評価することによってなすことができる。種々の相
関係数をランキング基準として用いる。用いる係数は: P=(μ1−μ2)/(σ1+σ2) [式中、μiおよびσiはクラスi(i=1または2)の全ての患者についての特
定の遺伝子の遺伝子発現値の平均および標準偏差である] と定義される。大きな正のP値はクラス1との強い相関を示し、他方、大きな負
の値はクラス2との強い相関を示す。 【0111】 何が相関方法で特徴ランキングを特徴付けるかは、なされる暗黙の独立した仮
定である。各係数Pは単一の特徴(遺伝子)についての情報で計算され、特徴間
の相互の情報は考慮しない。 【0112】 特徴ランキングの1つの使用は、予め選択された遺伝子のサブセットに基づく
クラスプリディクターまたは(分類器)のデザインである。注目する分離と相関
する(または反対−相関する)各遺伝子は、不完全なものではあるが、それ自体
がそのようなクラスプリディクターである。荷重投票に基づく分類の単純な方法
:遺伝子はその相関係数に比例的に投票する。そのようなものはゴラブ(Gol
ub),1999で用いられた方法である。重みづけ投票スキームは、特定の線
型判別分類器である分類器を生じる。 【0113】 本発明のための好ましい方法は、分類器重みとして遺伝子ランキング係数を用
いることを含む。逆に、所与の分類器の入力を乗ずる重みは遺伝子ランキング係
数として用いることができる。最大値によって荷重された入力は分類決定におい
て最大の影響を有する。従って、もし分類器が十分に働けば、最大の荷重をした
入力が最大の情報的遺伝子に対応する。他の方法は、良好な遺伝子ランキングを
供する線型判別機能を訓練するためのアルゴリズムを含む。なぜならば、それは
暗黙の独立仮定をなさないからである。 【0114】 本発明の好ましい方法は、分類器の重みを用いてSVM(支持ベクトル機)で
特徴ランキングを作成することである。本発明では、ここに提供される例は調査
中のデータセットの性質のため線型SVMに向けられるが、任意の複雑性の非線
型決定限度で用いられるSVMの方法が考えられる。図13は、線型判別分類器
の使用をグラフで示す。この例においては、xy座標は2つの遺伝子の発現係数
を表す。線型判別分類器は、xおよびy入力に足した偏り値の荷重した合計のサ
インに従ってその決定を行う。訓練例を用いて適切な重みを選択する多くの方法
が存在する。もし訓練データセットが線型に分離可能であれば、SVMはその入
力構成要素において最大マージン分類器である。図13−aおよび13−b参照
。決定限度(二次元の分離の場合には直線)は、いずれか側に最大の可能なマー
ジンを残すように位置させる。SVMの特殊性は、決定機能の重みが、「支持ベ
クトル」と呼ばれる訓練例の小さなサブセットのみの機能であることである。そ
れらは、決定境界に最も近く、マージン上に存在する例である。そのような支持
ベクトルの存在は、SVMの計算特性およびその競合分類性能の原点にある。S
VMは境界線の場合である支持ベクトル上のその決定機能に基づくが、ゴラブ(
Golub)ら(1999)によって用いられた方法のごとき他の方法は平均的
場合のその決定機能に基づく。図13−cおよび13−d参照。13aはSVM
での訓練例はエラーなくして分離される。決定境界のいずれか側のマージンは最
大化される。13bは、同一SVMでの訓練およびテスト例の分離を示す。ただ
1つの例が誤って分類されている。13cは、ゴラブ(Golub),1999
のベースライン方法での訓練例の分離を示す。決定境界は、クラス図心によって
規定される方向に対して垂直である。13dはベースライン方法での訓練および
テスト例の分離を示す。これらの例は誤って分類されている。 【0115】 ここに示された好ましい実施形態において、Cortes,1995に記載さ
れたソフト−マージンアルゴリズムの変形の1つを用いた。以下の二次プログラ
ミング問題を解く: 0≦αi≦CおよびΣiαii=0の条件下で、 αiにわたり、 (1/2)Σijijαiαj(xi・xj+ζδij)−Σiαi を最小化する。 【0116】 ここに、加算は、特徴(遺伝子)のベクトルである全ての訓練パターンxi
わたって行い、xi・xjはスカラー積を示し、yiは二元値+1または−1とし
てのクラス標識を表し、δijはクロネッカーの記号であり(もしi=jであれば
δij=0、その他の場合は0)、およびζおよびCは正の定数である(ソフトマ
ージンパラメーター)。問題が非線型的に分離可能であるか、または条件が不充
分である場合でさえ、ソフトマージンパラメーターは収束を保証する。そのよう
な場合、支持ベクトルのいくつかはマージン上に存在しないであろう。 【0117】 入力ベクトルxの得られた決定関数は: D(x)=w.x+bであり、 ここに、 w=Σiαiiiおよびb=<yi−w.xi> である。 【0118】 重みベクトルwは訓練パターンの線型組合せである。ほとんどの重みαiはゼ
ロである。ゼロでない重みの訓練パターンは支持ベクトルである。厳格な不等式
0<αi<Cを満足する重みを持つものはマージン支持ベクトルである。偏り値
bはマージン支持ベクトルにわたる平均である。 【0119】 回帰的特徴排除(RFE) 特徴間の相互の情報はSVM分類器についての分類器重みの計算で用いられる
ので、特徴のサブセットの除去は重みの値に影響する。対照的に、暗黙の独立仮
定をなす相関方法は、考慮される特徴のサブセットとは独立した重み値を生じる
。 【0120】 全ての特徴について訓練することによって得られたSVM分類器の重みにて一
旦特徴をランク付けするよりもむしろ、より洗練されたランキングは、ある時点
で1つの特徴を除去することによって得られる。各対話において、新しい分類器
が残りの特徴にて訓練される。新しい分類器における最小の重みに対応する特徴
は排除される。排除の順序は特定のランキングを生じる。約束により、排除され
るべき最後の特徴は最初にランクされる。この方法は計算の効率のために最適化
することができる。しかしながら、それは、結局は、多数の特徴(数百万の遺伝
子)につき余りにも計算が高価となり得る。他の方法は、ある時点における遺伝
子のチャンクの排除を含む。最初の反復にて、2の最も近いパワーである遺伝子
の数に到達した。引き続いての反復にて、残りの遺伝子の半分が排除された。か
くして、増大する情報密度の遺伝子のネステッドサブセットが得られた。 【0121】 結腸癌に関する本出願についての本発明の学習機械を訓練しテストするための
元のデータは、アロン(Alon)ら,1999に掲げられているデータから得
られた。遺伝子発現情報は、前処理後に62組織×2000遺伝子の表で得られ
るマイクロアレイデータから抽出した。62の組織は22の正常な組織および4
0の結腸癌組織を含む。マトリックスが、62の組織を横切る最高最小密度を持
つ2000の遺伝子の発現を含有する。結腸癌データセットにおける1つの問題
は、腫瘍試料および正常試料が細胞組成において異なったということであった。
腫瘍試料は上皮細胞で通常は豊富であり、ここに、正常組織は細胞型の混合物で
あり、平滑筋細胞の大きな割合を含む。試料は細胞組成に基づいて容易に分離す
ることができたが、この分離は癌−関連遺伝子をトラッキングするのに非常に参
考になるというわけではなかった。 【0122】 アロン(Alon)らは、いくつかの遺伝子が癌vs正常分離スキームに相関
するが、遺伝子選択の特異的方法は示唆しないことを示すことによってトップダ
ウンクラスタリングに基づくデータベースの解析、非監督学習の方法およびクラ
スター遺伝子を提供する。彼らは、いくつかの遺伝子が癌vs正常分離に相関す
るが、遺伝子選択の特異的方法を示唆しないことを示す。 【0123】 本発明のこの実施形態の遺伝子選択方法は、実施例2のそれのような、および
ゴラブ(Golub)ら,Science,1999で用いられたもののような
参照遺伝子選択方法を含む。ゴラブ(Golub)においては、著者らは、エラ
ー率、固定された閾値における拒絶率、および分類の信頼性を含めた分類器品質
のいくつかの基準を用いている。各値は、独立したテストセットにつき、かつ訓
練セットでリーブ−ワン−アウト方法を用いて計算される。該リーブ−ワン−ア
ウト方法は、訓練セットから1つの例を除き、残りの訓練データのみに基づく決
定関数を構築し、次いで、除去された例につきテストすることよりなる。この方
法においては、訓練データの全ての例をテストし、訓練例の全数にわたってエラ
ーの分率を測定する。 【0124】 学習機械を用いる方法は、前記基準の修飾を含む。分類決定はSVM出力のサ
インに従って行われた。出力の大きさは分類の信頼性を示すものである。 【0125】 分類器品質の4つの基準を用いた(図14参照)。 【0126】 エラー(B1+B2)=ゼロ拒絶におけるエラー(「悪い」)の数 拒絶(R1+R2)=ゼロエラーを得るための拒絶された試料の最少数 外部マージン(E/D)=陽性クラス試料の最小出力および陰性クラス試料の
最大出力の間の差(出力間の最大差によって再判断) メジアンマージン(M/D)=陽性クラス試料のメジアン出力および陰性クラ
ス試料のメジアン出力の間の差(出力間の最大差によって再判断) 各値はリーブ−ワン−アウト方法での訓練セットに対し、およびテストセット
に対して計算する。 【0127】 エラー率は、誤って分類された例の分率である(診断エラーに対応)。それは
成功率によって考えられる。拒絶率は、(それに対して、低い信頼性のため決定
がなされない)拒絶される例の分率である。それは許容率によって考えられる。
外部およびメジアンマージンは分類信頼性の測定である。 【0128】 リーブ−ワン−アウト方法での、またはテストセットに対するマージンを計算
する方法は、モデル選択基準で時々用いられる訓練例に対して計算されたマージ
ンとは異なった。 【0129】 遺伝子の最適サブセットを予測する方法は、訓練例のみに由来する情報を用い
る最適性の基準を規定することを含んだ。これは、予測された遺伝子サブセット
がテストセットについて最良に実行したか否かを判断することによってチェック
した。 【0130】 同様の「モデル選択」問題でしばしば用いられる基準はリーブーワン−アウト
成功率Vsucである。この例においては、それはほとんど有益でなかった。とい
うのは、ゼロのリーブーワン−アウトエラーを有する多くの分類器の間の区別が
許容されないからである。そのような区別は、リーブーワン−アウト方法にて交
差−有効化によって計算された品質基準の全てを組み合わせる基準を用いて得ら
れる: Q=Vsuc+Vacc+Vext+Vmed ここに、Vsucは成功率であり、Vaccは許容率であり、Vextは外部マージンで
あり、Vmedはメジアンマージンである。 【0131】 理論的考察により、我々は、この基準を修飾して大きな遺伝子セットを課した
。事実、リーブーワン−アウトエラーおよびテストエラーの間の大きな差を観察
する確率は、以下の式: ε(d)=sqrt(−log(α)+log(G(d)))・sqrt(p
(1−p)/n) [式中(1−α)は信頼性であり(典型的には、95%、すなわち、α=0.0
5)、pは「真の」エラー率であり(p≦0.01、およびnは訓練セットのサ
イズである] を用いると、遺伝子セットのサイズdと共に増加する。 【0132】 保証された危険原理(Vapnik1974)に従い、我々は、基準Qからε
(d)に比例する量を差し引いて新しい基準: C=Q−2ε(d) を得た。 【0133】 比例性の係数は、Vsuc,Vacc,VextおよびVmedが同一誤差棒ε(d)にて
独立したランダム変数であって、この誤差棒が標準偏差に比例すると仮定して、
試行錯誤により計算した。その場合、偏差は加算的であるので、誤差棒はsqr
t(4)を乗ずるべきである。 【0134】 好ましい実施形態の方法のより詳細な考察を続ける。SVM回帰的特徴排除(
RFE)を生データに対して行って、該方法の有効性を評価した。結腸癌データ
試料を、訓練につき31の例に、およびテストにつき31の例にランダムに分け
た。RFE方法を行って、各回それを2で割ることによって遺伝子の数を次々と
サイズを低下させた。データの前処理は、各遺伝子発現についてのものであり、
平均を差し引き、次いで、結果を標準偏差で割った。 【0135】 分類器品質基準でのリーブーワン−アウト方法を用いて、遺伝子の最適数を見
積もった。実施例2はリーブーワン−アウト方法の使用を説明する。リーブーワ
ン−アウト方法は、訓練セットの1つの例は取り出すことを含む。訓練は残りの
例について行われる。残された例を用いてテストする。該手法は全ての例につい
て反復する。各基準は全ての例にわたって平均として計算される。総じての分類
器品質基準は4つの値:(ゼロ拒絶における)リーブーワン−アウト成功率、(
ゼロエラーにおける)リーブーワン−アウト許容率、リーブーワン−アウト外部
マージン、およびリーブーワン−アウトメジアンマージンの合計である。分類器
はハードマージンを持つ線型分類器である。 【0136】 前記ステップの結果は、訓練データのみを用いる方法によって予測された最適
において、リーブーワン−アウトエラーはゼロであって、テスト性能は現実に最
適であることを示す。4つの遺伝子が発見されそれらは以下のものである: L07648 ヒトMXI1 mRNA、完全なces T47377 71035 S−100P蛋白質(ヒト) M76378 ヒト・システイン−リッチの蛋白質(CRP)遺伝子、エ
クソン5および6 Z50753 GCAP−II/ウログアニリン前駆体についてのH.s
apiens mRNA 最適テスト性能は81%の成功率を有していた。この結果は、アロン(Alo
n)らによるオリジナル論文に報告された結果と合致した。さらに、1を除くエ
ラーは、孤立値としてアロン(Alon)らによって同定された。エラーは8、
36、34、12、−36および−30であり、36は孤立値としてアロン(A
lon)らによって同定されていないエラーである。該数は組織を同定し、該サ
インは腫瘍の存在または不存在を示す(負=腫瘍、正またはサイン無し=正常)
。直接的性能比較は行わなかった。なぜならばアロン(Alon)らは全データ
セットで非管理学習を用いており、他方、本実施形態はデータセットの半分につ
いて管理された学習を用いたからである。遺伝子数の関数における性能曲線のプ
ロットを図14に示す。図14のグラフの記載は以下の通りである:水平軸=l
og2(遺伝子の数)。曲線:丸=テスト成功率;四角=リーブーワン−アウト
品質基準;三角=イプシロン(理論誤差棒);菱形=四角−三角(平滑化)最適
テスト成功率のプリディクター、菱形曲線の最適はlog2(遺伝子の数)=2
=≧遺伝子数=4。それは丸曲線の最適と一致する。 【0137】 前処理ステップ 対数を取る データの初期前処理ステップはアロン(Alon)らによって記載された。デ
ータをさらに前処理して、データの分布をより歪みが少なくした。図15は、均
一な分布と比較された2つのランダムな遺伝子(所与の発現値の試料の累積数)
についての組織試料にわたる遺伝子発現値の分布を示す。各線は遺伝子を表す。
15AおよびBは生データを示し;15CおよびDは対数を取った後の同一デー
タである。遺伝子発現値の対数を取ることによって、同一曲線が得られ、分布は
より均一となる。これは、遺伝子発現係数は、2つの値の比率を計算することに
よってしばしば得られるという事実によるものであろう。例えば、競合的ハイブ
リダイゼーションスキームにおいて、異なって標識される2つの試料からのDN
Aはアレイ上にハイブリダイズする。2つの標識の蛍光に対応し、特定の遺伝子
にハイブリダイズしたいずれかの試料のDNAの分率を反映する2つの係数が、
アレイの各点において得られる。典型的には、採用される最初の初期前処理ステ
ップは、これらの2つの値の比率a/bを取ることである。この初期前処理ステ
ップは適切であるが、2つの値が小さい場合には最適ではないであろう。他の初
期前処理ステップは、(a−b)/(a+b)および(loga−logb)/
(loga+logb)を含む。 【0138】 アレイ平均を差し引く 図16は、全ての組織試料についての遺伝子にわたる遺伝子発現値の分布を示
す。16Aは生データを示し、16Bはinv erfを示す。形状はほぼer
f関数のそれであり、これは、密度がNormal則にほぼ従うことを示す。事
実、逆erf関数にデータを通じると、ほとんどまっすぐな平行線が得られる。
かくして、平均を差し引くことによってデータを正規化するのが合理的である。
この前処理ステップはアロン(Alon)らによっても示唆されている。この前
処理ステップは、マイクロアレイ間の実験条件に変動があるという事実によって
裏付けられる。標準偏差はかなり一定のままのように見えるが、選択された他の
前処理ステップが、遺伝子発現値を標準偏差で割って、標準化偏差の中央データ
を得ることであった。 【0139】 組織試料にわたる各遺伝子発現を正規化する 訓練データのみを用い、各遺伝子につき平均発現値および標準偏差を計算した
。その遺伝子の全ての試料値につき(訓練およびテスト)、次いで、その平均を
差し引き、得られた値を標準偏差で割った。図17はこれらの前処理ステップの
結果を示す。図17は、結腸癌についてのマイクロアレイデータからの遺伝子発
現値を表すデータマトリックスを示し、ここに、線は62の組織を表し、欄は2
000の遺伝子を表す。 【0140】 いくつかの実験において、データをスクワッシング関数に通して孤立値の重要
性をなくすることによって、さらなる前処理ステップを付加した。 【0141】 新しいRFE結果 前記したごとくにデータを前処理し、図17にまとめて、新しく改良された結
果を得た。この方法においては、実施例2で用いたものからの修飾がある。まず
、暗号は、RFEがある時点において1つの遺伝子を排除することによって実行
できるように最適化した。実施例2において、ある時点における遺伝子のチャン
クを排除した。チャンクサイズを各反復において2で割った。この実施形態のこ
の処理の修飾は、種々の解析を可能とするが、分類の精度に有意に影響しないよ
り良いランキングを提供する。それは、例えば、Pentium III333
、256MB RAMにて約10ないし15分で実行される。 【0142】 実施例2の方法とは異なる第2の修飾は、遺伝子選択交差−有効化プロセスが
正規のSVMを用いたことであった。実施例2においては、まずデータを最初の
主な構成要素上にプロジェクトすることによって、低下した能力のSVMを用い
た。 【0143】 図18の結果は、図14のものよりもかなりの改良を示す。図18は、前処理
後のRFEの結果を示す。図18についての記載は以下のとおりである:水平軸
=log2(遺伝子の数)。曲線:丸=テスト成功率;四角=リーブ−ワン−ア
ウト品質基準;三角=イプシロン(理論誤差棒);菱形=四角−三角(平滑化)
最適テスト成功率のプリディクター 菱形曲線の最適はlog2(遺伝子の数
)=4≧遺伝子の数=16におけるものである。図14で用いた低下能力SVM
をプレインSVMによって置き換える。logスケールが依然として遺伝子数で
用いられるが、ある時点で1つの遺伝子を排除することによってRFEを実行し
た。最良なテスト性能は90%分類精度である(8遺伝子)。訓練データ情報の
みに基づく分類器品質から予測される遺伝子の最適数は16である。これは、テ
ストセットでの87%分類精度に対応する。以下のごとく、同一テスト性能が2
遺伝子のみで達成される: J02854:ミオシン調節軽鎖2、平滑筋イソ形態ヒト;エレメントTAR
1反復エレメントを含有。 【0144】 R55310:Sサブ36390ミトコンドリア処理ペプチダーゼ。 【0145】 これらの2つの遺伝子のいずれも、最初の実験においてリストの頂部に現れな
い。 【0146】 見出された頂部遺伝子は平滑筋遺伝子であり、これは組織組成に特徴的な遺伝
子であって、恐らくは癌には関係しない。 【0147】 ゴラブ(Golub)の方法との比較 ゴラブ(Golub)の遺伝子の選択方法はランキング方法であり、ここに、
全ての訓練データ試料についての遺伝子発現値のべクターおよび標的値のベクタ
ーの間の相関に従って遺伝子を順序立てる(正常な試料について+1、および癌
試料について−1)。ゴラブ(Golub)らはm/2頂部にランクされたおよ
びm/2底部にランクされた遺伝子を選択して、分離に高度に相関する遺伝子の
半分および抗−相関の半分を得る。ゴラブ(Golub)らは線型分類器を用い
る未知の試料を分類するために、標的分離ベクトルにてその相関係数に従って癌
または正常につき各遺伝子は「投票する」。ゴラブ(Golub)の方法によっ
て選択された頂部遺伝子はJ02854であった(関連する平滑筋)。図19は
、ベースライン方法のこの実施形態の使用とゴラブ(Golub)らとの比較を
示す。図18で用いられたのと同一の曲線が図19に示される。図19について
の記載は以下のとおりである:水平軸=log2(遺伝子の数)。曲線:丸=テ
スト成功率;四角=リーブ−ワン−アウト品質基準;三角=イプシロン(理論誤
差棒);菱形=四角−三角(平滑化) 最適テスト成功率のプリディクター。図
18および19で同一に前処理されたデータを、次いで、ゴラブ(Golub)
の方法によって処理し、図19にグラフ化する。遺伝子の最適数を選択してSV
Mのごとき学習機械で用いるのは、本発明者らの新規な知見である。 【0148】 本発明のこの実施形態およびゴラブ(Golub)の方法の結果を比較するた
めに、式: (1−α)=0.5+0.5erf(Zα/sqrt(2)) Zα=εn/sqrt(v) [式中、nはテスト試料の数であり、vは2つの分類器のうち1つのみがなすエ
ラーの合計数であり、およびεはエラー率(または拒絶率)の差である] を用い、いずれの信頼性(1−α)でもって、1つの分類器が他の分類器よりも
良好であると判断する統計的テストを用いた。 【0149】 この式を表1にまとめた結果に適用した。いずれの場合にも、ε=3/31お
よびv=3である。テスト例の合計数はm=31である。このテストに基づき、
本発明のこの実施形態の方法は、95.8%の信頼性をもって、ゴラブ(Gol
ub)よりも良好であった。 【0150】 【表1】 表1:本発明のこの実施形態の方法およびゴラブ(Golub)の方法の間の
エラー率比較。エラーのリストは括弧間に示される。数字は患者を示す。サイン
は癌(負)または正常(正)を示す。本発明のこの実施形態では、最良の性能は
8遺伝子におけるものであり、最適は16遺伝子において予測された。ゴラブ(
Golub)では、最良の性能は16遺伝子におけるものであり、4遺伝子にお
いて最適が予測された。いずれの場合にも、最良の性能および予測される最適の
間にはただ1つのエラーの差があることに注意されたし。 【0151】 クラスタリングおよび遺伝子選択を組み合わせる データの冗長のため、合理的な分離を提供する遺伝子の多くのサブセットを見
いだす可能性があった。結果を解析するには、どのようにしてこれらの遺伝子が
関連するかを理解するのが最適であった。いずれかの特定の理論に拘束されるつ
もりはないが、それは、遺伝子選択の問題が、正常な組織を癌組織から最大の精
度を持って分離する、遺伝子の最適数(恐らくは小さい)を見いだすことである
最初の理論であった。 【0152】 SVM回帰特徴排除(RFE)は、相補的であって、かくして、ほとんど冗長
な情報を運ばない遺伝子のサブセットを用いた。データの構造および性質につい
ての他の情報は提供されなかった。データは非常に冗長であったので、選択され
なかった遺伝子は、それにもかかわらず、分離について情報的であろう。 【0153】 ゴラブ(Golub)の方法のごとき相関方法は遺伝子のランクされたリスト
を提供する。該ランクの順序は、どのようにして遺伝子が分離と相関するかを特
徴づける。一般に、単独で取られた高くランクされた遺伝子はより低くランクさ
れた遺伝子よりも良好な分離を提供する。従って、「低い情報性の遺伝子」から
「高い情報性の遺伝子」を分離する閾値を設定することができる(例えば、トッ
プにランクされた遺伝子のみを維持する)。 【0154】 SVM RFEのごとき本発明の方法は、より小さくかつより判別される遺伝
子のサブセットを提供する。RFEを用いるSVM遺伝子選択方法は、遺伝子の
ランクされたリストを提供する。このリストでは、増大するサイズの遺伝子のネ
ステッドサブセットを定義することができる。しかしながら、1つの遺伝子がも
う1つの遺伝子よりも高いランクを有するという事実は、その因子が単独で良好
な分離を特徴づけることを意味しない。事実、非常に早期に排除される遺伝子は
非常に情報的であるが、維持される他のものでは冗長であり得る。ゴラブ(Go
lub)の方法およびSVMの方法の間のこれらの差は図20に示される。該図
面はピアソン(Pearson)相関係数のマトリックスを示す。20Aはゴラ
ブ(Golub)の方法を示す。増大するランクの遺伝子は、標的分離と増大す
る相関(または反相関)を意味する。相関係数の絶対値は、32の最良の遺伝子
および最高のランクを有する他の遺伝子の間でより大きい。20BはSVM方法
を示す。全体として32の最良の遺伝子は良好な分離を提供するが、個々には、
標的分離と非常に相関するのではないであろう。遺伝子のランキングは、良好な
分離を提供する遺伝子のネステッドサブセットを形成するのを可能とする。それ
は、個々の遺伝子がどれくらい良好であるかについて情報的ではない。いずれか
のランクの遺伝子は、32の最良の遺伝子と相関するであろう。それらは、いく
つかのポイントでは排除されてしまっているであろう。それは、残りの遺伝子の
いくつかについてのその冗長性のためであり、それらが標的分離に対する情報を
運ばないからではない。 【0155】 遺伝子ランキングは、単独では、いずれの遺伝子が情報的であって、いずれの
遺伝子が情報的でないかを特徴づけるのに、またいずれの遺伝子が相補的であっ
て、いずれの遺伝子が冗長であるかを決定づけるのに不十分である。 【0156】 非監督クラスタリング 遺伝子ランキング単独における問題を克服するために、データを非監督クラス
タリング方法で前処理した。(所与の基準でもって)類似に従って遺伝子をグル
ープ分けした。次いで、遺伝子それ自体の代わりにクラスター中心を用い、SV
M RFEによって処理する。結果は、クラスター中心のネステッドサブセット
であった。最適サブセットサイズは、以前用いた同一の交差−有効化方法でもっ
て選択することができる。次いで、クラスター中心はクラスターのいずれかのエ
レメントを置き換えることができる。 【0157】 データを用い、QTクラストクラスタリングアルゴリズムを用いて、100の
密なクラスターを生じさせた。用いた同様性尺度は(遺伝子クラスタリングで共
通に用いられる)ピアソンの相関係数であった。図21は性能曲線を示す。図2
1は、100の密なQTクラストクラスターで訓練した場合のRFEの結果を示
す。水平軸=log2(遺伝子クラスター中心の数)。曲線:丸=テスト成功率
;四角=リーブ−ワン−アウト品質基準;三角=イプシロン(理論誤差棒);菱
形=四角−三角(平滑化) 最適テスト成功率のプリディクター 菱形曲線の
最適はlog2(遺伝子クラスター中心の数=3=>遺伝子クラスター中心の数
=8におけるものである)。 【0158】 それらは図18のものに匹敵する。図22は、SVM RFEによって選択さ
れた頂部8QTクラストクラスターを示す。図22において、8つのクラスター
(線)についての訓練セット(欄)の32組織についての遺伝子発現が表される
。陽性遺伝子発現は赤色であって、陰性遺伝子発現は青色である。小さな値はよ
り明るい色を有する。22Aはクラスター中心を示し;22Bはクラスターエレ
メントを示す。 【0159】 クラスターのエレメントを表2にリストする。 【0160】 【表2】表2:RFEで選択されたQTクラストクラスター。クラスターのランク(RK
)が高くなると、クラスターはより重要になる。Min correlはクラス
ターエレメントの間の最小相関係数である。GAN=遺伝子受託番号 非監督クラスタリングでは、情報的遺伝子のセットが規定されるが、保持され
ない遺伝子が情報を運ばないという保証はない。全てのQTクラストクラスター
足す残りの非−クラスター化遺伝子(シングルトンクラスター)でRFEを用い
ると、性能曲線はかなり似ているが、選択された遺伝子クラスターの頂部セット
は完全に異なり、かなりのシングルトンを含んだ。表1で選択された遺伝子は構
造が組織化されており:クラスター内では、それらが相補的であるクラスターに
わたり、遺伝子は冗長である。 【0161】 クラスター中心はそれらのメンバーのうちいずれかによって置換することがで
きる。この因子はいくつかの医療診断テストのデザインで重要であり得る。例え
ば、いくつかの蛋白質の投与は他の蛋白質の投与よりも容易であろう。別の遺伝
子の選択を有することは、処置および投与の選択に柔軟性を導入する。 【0162】 8つのクラスターの各々の1つの遺伝子がランダムに選択された点で、10の
ランダムな選択をテストした。平均テストセットの精度は0.80であり、標準
偏差は0.05であった。これは、クラスター中心についての0.87と比較す
べきである。ランダムな選択テストの1つは、中心のそれ(0.90)よりも優
れた精度を生じた:D23672、T51023、T85247、R89377
、R51749、X55187、R39209、U09564。 【0163】 QTクラストクラスタリングの代わりの階級クラスタリングを用いて、平均し
て2つのエレメントを含有する小さなクラスターのロットを生じさせた。より小
さなクラスターの重要性のため、それから選択すべきより少ない遺伝子代替物が
あった。この例においては、階級クラスタリングは、QTクラストクラスタリン
グを用いるのと同程度に良好な結果を生じなかった。本発明では、限定されるも
のではないが、階級クラスタリング、QTクラストクラスタリングおよびSVM
クラスタリングを含めたクラスタリングのための公知の方法のいずれかの使用が
考えらえる。本発明でいずれのクラスタリング方法を使用するかの選択は、初期
データおよび望まれる結果によって影響され、当業者によって決定され得る。 【0164】 色で示し、残りは丸である、表2中の8つのクラスターからの選択された遺伝
子のばらつきプロットを図23に示す。各ドットは、主な構成要素解析によって
得られた平均患者の遺伝子発現値を表す。色を付けたドットは、QTクラストク
ラスタリングを用いてSVM RFEによって選択された遺伝子である。各クラ
スターはランダムに選択された色が与えられる。ドットのサイズは、クラスター
のランクに比例する。このばらつきプロットを得るには、単一平均正常組織によ
って全ての正常な組織を置き換えた(「主要正常組織」と呼ばれる第1の主要構
成要素)。同一のことを癌組織で行った。各点は、主な癌組織/主な正常組織二
次元空間における遺伝子発現を表す。 【0165】 監督クラスタリング 本発明で用いるもう1つの方法は、SVM RFEの後処理ステップとしてク
ラスタリングを用いるものであった。遺伝子発現係数の元のセットで正規のSV
M RFEを行うことによって選択された各遺伝子をクラスター中心として用い
た。例えば、図18に記載した結果を用いた。頂部の8つの遺伝子の各々につい
ては、相関係数は全ての残りの遺伝子で計算した。パラメーターは、遺伝子iに
クラスター化される遺伝子は、以下の2つの条件:8つの遺伝子の選択されたサ
ブセット中の他の遺伝子と遺伝子iとのより高い相関係数を有しなければならな
い、および閾値θを超える相関係数を有しなければならない;に適合する遺伝子
であるというものであった。 【0166】 ここに掲げる図面および表において、8つの遺伝子についての結果を提示する
。16遺伝子の最適に予測された数は提示されなかった。なぜならば、16遺伝
子についての結果の提示はより大きな表を生じ、当該方法に対してより多くの洞
察を与えないからである。 【0167】 クラスター化遺伝子は図24に示され、表3にリストされる。 【0168】 【表3】表3:監督クラスタリング。クラスターは、正規のSVM RFEによって見い
だされた最良の遺伝子の回りで形成された。パラメーターθは0.8である(明
細書参照)。クラスターのランク(Rk)が高くなると、クラスターはより「重
要」となるはずである。Min correlはクラスターエレメントの間の最
小相関係数である。GAN=遺伝子受託番号。クラスター中心よりは星印が先行
する。クラスター8において、我々は、図24中の最後のクラスターの中央に示
す8「対照」値を省略した。 【0169】 図24は、8つのクラスターにつき訓練セット(欄)の32の組織での遺伝子
発現を示す(行。陽性の遺伝子発現は赤色であって、陰性の遺伝子発現は青色で
ある)。小さな値はより明るい色を有する。24Aは、正規のSVM RFEに
よって得られた頂部8遺伝子をクラスター中心として用いることを示す。24B
はクラスターの全てのエレメントを示す。クラスターエレメントはかなり相関が
あるか、またはクラスター中心に対して反相関であり得る。 【0170】 非監督クラスタリング方法および結果と比較して、この例においては、監督ク
ラスタリング方法はクラスター当たり例の数にわたって良好な制御を与えない。
従って、もし目標が各クラスターにおいて種々の遺伝子から選択できることであ
れば、この方法は非監督クラスタリング程良好ではない。しかしながら、監督ク
ラスタリングは、決定されるべき特異的知識につき重要性を有する特異的クラス
ターを示し得る。この特定の実施形態においては、特に、組織の組成に関連し得
、癌vs正常分離には重要ではないであろういくつかの筋肉遺伝子を含有する遺
伝子の非常に大きなクラスターが見いだされた。かくして、それらの遺伝子は、
結腸癌についての診断または予後に対してほとんど関係を有しないとして考慮か
ら排除された良好な候補である。 【0171】 組織組成関連遺伝子の因子化 以下の方法は、同定された組織組成関連遺伝子を自動的に排除することに向け
られた。それらの遺伝子は結果の解析を複雑にする。なぜならば、癌vs正常分
離に対して情報的である遺伝子からそれらを区別するのは不可能だったからであ
る。非監督前処理での結果は、トップにランクされた遺伝子が、潜在的組織組成
関連遺伝子を検出するのに用いられたキーワード「平滑筋」を含有しないことを
示した。心筋遺伝子は依然としてこの方法の元で選択された。 【0172】 前記した訓練セット/テストセットスプリットを用い、他の方法を用いた。例
えば、トップにランクされた遺伝子のいくつかを排除し、トップにランクされた
遺伝子の中でもはや「平滑筋」遺伝子または他の筋肉遺伝子がなくなるまで、遺
伝子選択プロセスを再度実行した。しかしながら、テストセットでの効率は低下
し、遺伝子セットが組織組成関連遺伝子を含まない場合の決定を可能とするであ
ろう自動基準はなかった。 【0173】 本発明の最も好ましい方法において、遺伝子選択プロセスを全データセットで
行った。非常に多数の訓練試料では、ここで用いたSVMのごとき学習機械は組
織組成関連遺伝子を因子化した。いずれかの特定の理論に拘束されるつもりはな
いが、ボーダーラインの場合(支持ベクトル)に焦点を当てるSVM特性は、筋
肉細胞で豊富な癌組織および上皮細胞で豊富な正常組織の少数の例を利用するこ
とができると理論化される(平均的傾向の逆)。 【0174】 得られたトップランキング遺伝子には、監督クラスタリングでクラスター化し
た遺伝子を含めた筋肉関連遺伝子が含まれなかった。対照的に、ゴラブ(Gol
ub)の方法は、7つのトップランキング遺伝子クラスター単独において3つの
平滑筋関連遺伝子を得る。さらに、SVM RFEによって見いだされたトップ
ランキング遺伝子は、全て、分離を特徴づけるものであった(癌vs正常)(表
4)。本発明は、良好な分類精度およびより小さな遺伝子サブセットを持ってこ
のデータセットで定量的差をなすのみならず、定性的差をなす:遺伝子セットは
組織組成関連遺伝子を含まない。 【0175】 【表4】表4:増大する順番において、本発明の方法によって発見された7つのトップに
ランクされた遺伝子。Rk:ランク。Sgn:標的分離と相関する兆候、− ほ
とんどの癌組織において過剰発現される;+ ほとんどの正常細胞で過剰発現さ
れる;GAN:遺伝子受託番号;可能な機能は「結腸癌」または「癌」を含むキ
ーワードサーチおよび遺伝子記載中のいくつかの語句から得られた。 【0176】 図25は、全データセットでの訓練の後にSVM RFEを用いる本発明の方
法の結果を示す。図25において、グラフは以下のとおりである:水平軸=lo
g2(遺伝子クラスター中心の数)。曲線:塗りつぶした丸=訓練成功率;ダッ
シュを付けた黒色=リーブ−ワン−アウト成功率;四角=リーブ−ワン−アウト
品質基準;三角=イプシロン(理論的誤差棒);菱形=四角−三角(平滑化)
最適テスト成功率のプリディクター 菱形曲線の最適はlog2(遺伝子の数
)=5=≧遺伝子の数=32におけるものである。 【0177】 比較のため、図26は、全データセットで訓練した場合のゴラブ(Golub
)の方法で得られた結果を示す。水平軸=log2(遺伝子クラスター中心の数
)曲線:丸=訓練成功率;ダッシュつきの黒色=リーブ−ワン−アウト成功率;
四角=リーブ−ワン−アウト品質基準;三角=イプシロン(理論的誤差棒);菱
形=四角−三角(平滑化) 最適テスト成功率のプリディクター 菱形曲線の
最適はlog2(遺伝子の数)=2=≧遺伝子の数=4におけるものである。 【0178】 最良のリーブ−ワン−アウトの性能はSVMについては100%精度であり、
ゴラブ(Golub)の方法では90%に過ぎない(6つのエラー={39、2
9、1、−12、−35、−29})。式: (1−α)=0.5+0.5erf(Zα/sqrt(2)) Zα=εn/sqrt(v) [式中、nはテスト試料の数であり、vは2つの分類器の1つのみがなすエラー
の全数であり、およびεはエラー率(または拒絶率)の差である] を用い、1つの分類器が他の分類器よりも良好であるといずれの信頼性(1−α
)を持って判断する統計的テストを用いる。 【0179】 本発明の方法は、99.3%の信頼性率で持って、ゴラブ(Golub)より
も良好である。 【0180】 我々のリーブ−ワン−アウト基準によって予測される遺伝子の最適数は、図2
5における32遺伝子である。より小さな数の遺伝子領域におけるより微細なプ
ロットは、21遺伝子における最適を明らかにする。図27は、SVM RFE
の最後の100反復における支持ベクトル(「アルファ’s」)の荷重係数を示
す。アルファが非常に最後の反復までかなり変化しないのを見るのは興味深い。
支持ベクトルの数は、7支持ベクトルにつき7遺伝子において最小を通過する。 【0181】 表5において、我々は、これらの7つの支持ベクトルの「筋肉指標」値を示す
。筋肉指標は、試料の筋肉細胞含有量を反映する全ての試料でアロン(Alon
)らによって計算された量である。ほとんどの正常試料は腫瘍試料よりも高い筋
肉指標を有する。しかしながら、支持ベクトルはいずれのそのような傾向も示さ
ない。 【0182】 高いまたは低い筋肉試料いずれかを持つ正常および癌試料の混合物がある。 【0183】 より重要なことには、発見された遺伝子の解析は、最初の平滑筋遺伝子がゴラ
ブ(Golub)の方法では5にランクづけし、SVMでは41のみにランクづ
けすることを明らかにする。さらに、予測されたSVMについての遺伝子の最適
数は対数プロットでは32遺伝子であり、直線プロットでは21遺伝子である。
従って、SVMは、分離を行うのに組織組成−関連遺伝子に頼るのを回避できた
。生物学的データによって確認されるごとく、SVMによって発見されたトップ
ランキング遺伝子は、全て、癌vs正常分離に関連づけられる。対照的に、ゴラ
ブ(Golub)の方法は組織組成に関連するが、そのトップランキング遺伝子
における癌vs正常の区別に関連しない遺伝子を選択する。 【0184】 【表5】 表5:SVM RFEによって選択されたトップ7遺伝子で訓練されたSVMの
支持ベクトルの筋肉指標。負の記号を持つ試料は腫瘍組織である。正の記号を持
つ試料は正常組織である。試料は増大する筋肉指標の順にランクづけした。デー
タセットにおけるほとんどの試料において、正常組織は腫瘍組織よりも高い筋肉
指標を有する。なぜならば、腫瘍組織は上皮(皮膚)細胞でより豊富だからであ
る。これは、全ての可能性のミックスを示す支持ベクトルではあてはまらない。 【0185】 表6−1、表6−2において、本発明によって発見された7つのトップにラン
クづけされた遺伝子および閾値θ=0.75においてそれらにクラスター化され
た遺伝子。同一のことが表7−1、表7−2中のゴラブ(Golub)の方法で
なされた。図28および29はそれらの遺伝子をグラフで表示する。 【0186】 図28は、左から右にかけて、増大する重要性の順で、SVM RFEによっ
て発見されたトップにランクされる遺伝子を示す。7つのクラスター(行)につ
いての全ての62組織(欄)の遺伝子発現が表される。トップの22組織は正常
であり、40の最後のものは癌性である。正の遺伝子発現は赤色であり、負の遺
伝子発現は青色である。小さな値はより明るい色を有する。28Aはクラスター
中心を示す。28BはSVMの出力を示す(Aの遺伝子の荷重合計)。分離はエ
ラー無しである。図28の遺伝子は図29のものと同定度に秩序立っては見えな
い。なぜならば、それらはより多くの情報を運ぶが、標的分離と個々には相関が
低いからである。28Cは閾値θ=0.75において中心にクラスター化された
遺伝子を示す。 【0187】 図29は、左から右に増大する重要性の順で、ゴラブ(Golub)の方法に
よって発見された7つのトップにランクされた遺伝子を示す。7つのクラスター
(行)についての全ての62の組織(欄)の遺伝子発現が表される。トップの2
2組織は正常であり、40の最後のものは癌性である。正の遺伝子発現は赤色で
あって、負の遺伝子発現は青色である。小さな値はより明るい色を有する。29
Aはクラスター中心を示す。29Bはゴラブ(Golub)分類器の出力を示す
(Aの遺伝子の荷重合計)。分離はエラーが無いのではない。29Cは閾値θ=
0.75sにおける中心にクラスター化された遺伝子を示す。 【0188】 【表6−1】 【0189】 【表6−2】表6−1、表6−2:全ての62組織を用いた場合のSVMトップランクのクラ
スター。クラスターは閾値θ=0.75を持つ最良の遺伝子の回りで形成される
。クラスターのランク(Rk)が高くなれば、クラスターはより「重要」になる
はずである。Min correlはクラスターエレメントの間の最小相関係数
である。Sgn:標的分離との相関の記号、− ほとんどの癌細胞において過剰
発現;+ ほとんどの正常細胞で過剰発現;GAN:遺伝子受託番号。クラスタ
ー中心よりも星印が先行する。いずれの遺伝子も組織組成関連性とは見えない。 【0190】 【表7−1】 【0191】 【表7−2】表7−1、表7−2:すべての62組織を用いた場合のゴラブ(Golub)ト
ップランクのクラスター。クラスターは閾値θ=0.75を持つ最良の遺伝子の
回りに形成される。クラスターのランク(Rk)が高くなれば、クラスターはよ
り「重要」になるはずである。Mincorrelはクラスターエレメントの間
の最小相関係数である。Sgn:標的分離との相関の記号、− ほとんどの癌細
胞で過剰発現;+ ほとんどの正常組織で過剰発現;GAN:遺伝子受託番号。
クラスター中心よりも星印が先行する。強調した遺伝子は、組織組成に関連し得
る遺伝子である。 【0192】 特徴選択方法として、SVM RFEは2つの点でゴラブ(Golub)の方
法とは異なっていた:特徴間の相互情報はSVMによって用いられ、他方、ゴラ
ブ(Golub)の方法は暗黙の独立仮定を行い;および、決定関数は、「典型
的な」場合を特徴づけようとする試みにおけるすべての例に基づくのとは反対に
、[ボーダーライン」の場合である支持ベクトルのみに基づいた。支持ベクトル
の使用は、重要でない組織組成関連遺伝子を因子化するのに臨海的である。SV
M RFEを、独立仮定を行わないが、「典型的な」場合を特徴付けようと試み
る他の線型判別関数を用いるRFE方法と比較した。2つの判別関数を選択した
: −ゴラブ(Golub)の方法は独立仮定をおこなうことによってFisshe
rの線型判別を近似するので、線型判別解析(LDA)とも呼ばれるFissh
er線型判別(例えば、ドゥダ(Duda)、1973参照)、および −全ての訓練例が支持ベクトルであると、偽−逆解決がSVM解決と同一である
ので、偽−逆によって計算された平均−根−エラ−(SME)線型判別(例えば
、ドゥダ(Duda),1973)。 【0193】 結腸癌データについての特徴(遺伝子)選択方法の比較の結果を図30に示す
。回帰特徴排除(RFE)によって選択された遺伝子の数を変化させ、異なる方
法でテストした。訓練は62試料の全データセットで行った。曲線はリーブ−ワ
ン−アウト成功率を表す。異なる方法が図30に示され、グラフは、以下のごと
くエレメントを有する線によって記載される:丸:SVM RFE。四角:線型
判別解析 RFE。菱形:平均根エラー(偽−逆)RFE。三角:ベースライン
方法(ゴラブ(Golub),1999)。SVM RFEは4遺伝子まで下る
最良の結果を与える。選択された遺伝子の実験は、SVMが、組織組成に関連す
る遺伝子を排除し、癌vs正常分離に関連する遺伝子のみを維持することを明ら
かとする。逆に、他の方法は、殆どの試料を分離するのを助けるが、癌vs正常
判別に関連しないそのトップにランクされる遺伝子中の平滑筋遺伝子を維持する
。 【0194】 独立仮定をしないすべての方法はゴラブ(Golub)の方法よりも勝り、遺
伝子の数の少なくとも1つの値につき100%リーブ−ワン−アウト精度に到達
する。LDAはそれらのプロットではわずかに不利であろう。なぜならば、計算
理由では、RFEは、2桁サイズが低下する遺伝子のチャンクを排除することに
よって用いられたからである。他の方法は、ある時点で1つの遺伝子を排除する
ことによってRFEを用いる。 【0195】 4遺伝子まで下ると、SVM RFEは、全ての他の方法よりも良好な性質を
示した。全ての方法は方程式:C=Q−2ε(d)の基準で予測した;64より
も小さいまたはそれと等しい遺伝子の最適数。調べたすべての方法につき1ない
し64の遺伝子ランキングを比較した。組織組成に関連し、その記載において「
平滑筋」を言及する第1の遺伝子は、ゴラブ(Golub)の方法では5にラン
クされ、LDAでは4にランクされ、MSEでは1にランクされ、SVMでは4
1にランクされたにすぎない。したがって、これはSVMは他の方法よりもデー
タを良好に使用する強力な証拠である。それらは、遺伝子の小さなサブセットで
高度に正確な分離を供しつつ、組織組成関連遺伝子を効果的に因子化する唯一の
方法である。 【0196】 図35は、結腸癌についての遺伝子の最適数を示す。SVMでの回帰遺伝子排
除によって選択された遺伝子の数は変化した。グラフの線は以下の通りである:
丸:テストセットでのエラー率。四角:スケールド品質基準(Q/4)十字:最
適性のスケールド基準(C/4)。菱形曲線:C/4を局所的に平滑化する結果
。三角:スケールド理論誤差棒(ε/2)。曲線はC=Q−2εによって関連づ
けられる。ダッシュ線は緑色の曲線の最適を示し、これは、訓練データのみに基
づく理論的に予測された最適である:22=4遺伝子。 【0197】 モデル選択基準は白血病データを用いて確立し、その予測力は、いずれの調整
もなすことなく、それを結腸癌データで用いることによって相関させた。該基準
は最適も正確に予測した。性能はその最初のトライアルで正確ではなかった。な
ぜならば、実施例2の白血病データについてと同一の前処理を用いたからである
。結果は、実質的にいくつかの前処理ステップを付加することによって改良され
、90%の精度の成功率に到達した。これらの前処理ステップは、全ての値の対
数を取り、試料ベクトルを正規化し、特徴ベクトルを正規化し、および結果をス
クワッシング関数に通して、孤立値の重要性をなくすることを含む。正規化は、
全ての訓練値にわたって平均を差し引き、対応する標準偏差で割ることを含んだ
。 【0198】 モデル選択基準は、SVMおよび他のアルゴリズムを用いて種々の他の実験で
用いた。遺伝子の最適数は、2の遺伝子の数のファクター内で常に正確に予測さ
れた。 【0199】 生物学文献と相関する結果 SVM RFEは、そのトップにランクされた遺伝子から、組織組成に関連す
るようである平滑筋を排除した。癌関連遺伝子は便宜上の理由で7に限定した。
加えて、数字7は支持ベクトルの最小数に対応する(「モデル選択」で時々用い
られ基準)。 【0200】 最良にランクされた遺伝子は、結腸癌におけるその役割が長い間同定され、広
く調べられた蛋白質をコードする。それは、結腸腺癌主要細胞が転移状態に移る
(Ghina,1998)場合に上昇調節されるCD44、および細胞接着に関
与するコラーゲンで当てはまる。結腸癌細胞は転移プロセスの一部としてコラー
ゲン分解活性を有する(Karakiulakis,1997)。腫瘍を供給す
る血管を形成するのを助ける酵素としてのATPシンターゼは数年前に公表され
たばかりである(Mozer,1999)。葉酸の減少した状態は、細菌の臨床
量研究では結腸癌の増大した危険と関連づけられている(Walsh,1999
)。今日まで、公知の生化学メカニズムで結腸癌における葉酸の役割を説明する
ものはない。遺伝子H64807(胎盤葉酸輸送体)が結腸癌vs正常分離にお
いて最も判別的遺伝子の1つとして同定されたいう知識は、生物学的変化に関与
する遺伝子を同定するための本発明の方法の使用を示す。 【0201】 ヒト・キトトリオシダーゼの場合には、もう1つの癌におけるその役割が研究
中である同一ファミリーのもう1つの相同蛋白質との類似性によって処理する必
要があり;もう1つのキチナーゼ(BRP39)は乳癌で役割を演じることが見
いだされた。癌細胞はこのキチナーゼを過剰生産してアポトーシスから生き延び
る(Aronson,1999)。重要な増大したキトトリオシダーゼ活性はゴ
ーシャーズ病患者の臨床研究で知られている(明らかに関係のない疾患)。その
他の病気を診断するために、キトトリオシダーゼ酵素は非常に感度良く測定する
ことができる。一滴未満の血液から調製された血漿または血清はキトトリオシダ
ーゼ測定でかなり十分である(Aerts,1996)。これは、同様に結腸癌
に対する可能な新しい診断テストへの道を開くものである。 【0202】 60Sリボソーム蛋白質L24(Arabidopsis thaliana
)は染色体6に位置するヒト蛋白質に相同な非−ヒト蛋白質である。他のリボソ
ーム蛋白質と同様に、それは、mRNAの特別のクラスの選択的翻訳を通じて細
胞の成長および増殖を制御する役割を演じるようである。 【0203】 驚くべき新規な知見は、「特異的ポリペプチドB1−アルファ前駆体からのプ
ロ周期形態(Trypanosoma Brucei Brucei)」につい
ての同定された遺伝子である。トリパノソーマはアフリカおよび南米に固有の寄
生原生動物であり、トリパノソーマ(結腸寄生虫)に感染した患者は結腸癌に対
して抵抗性を生じる(Oliveira,1999)。トリパノソーマ症はヒト
および動物の古代の病気であり、依然としてアフリカおよび南米の風土病である
。 【0204】 実施例2 白血病遺伝子の発見 DNAマイクロアレイから得られた遺伝子発現ベクターのマトリックスよりな
るデータセットは、2つの異なるタイプの白血病を持つ癌患者から得られた。前
処理後、エラーなくして全データセットを分離した少数の遺伝子のみのセットの
荷重合計を見いだすのが可能であり、かくして、データセットは線型的に分離可
能であった。データの分離は容易であったが、問題は、小さな試料サイズを含め
た困難性のいつくかの特徴を表し、データは訓練およびテストセットの間に異な
って分布した。 【0205】 ゴラブ(Golub),1999において、著者らは、DNAマイクロアレイ
から得られた遺伝子発現データを解析して癌のタイプを分類する本方法を記載し
ている。白血病データに伴う問題は白血病の2つの変種(ALLおよびAML)
の間の区別であった。データは2つのサブセットに分けられる:遺伝子を選択し
、分類器の重みを調整する訓練セット、得られたシステムの性能を見積もるのに
用いられる独立テストセット、ゴラブ(Golub)の訓練セットは骨髄標本か
らの38試料よりなるもの、であった(27のALLおよび11のAML)。そ
れらのテストセットは、異なる実験条件下で調製し、24の骨髄および10の血
液試料標本を含めた34の試料を有する(20のALLおよび14のAML)。
すべての試料は、マイクロアレイイメージから抽出していくつかの正規化遺伝子
発現値に対応する7129の属性(または特徴)を有する。この実施例において
、それらの方法の比較を容易とするために、正確に同一の実験条件を保持した。 【0206】 予備実験において、リーブ−ワン−アウトエラーおよびテストエラーの間の大
きな偏差のいくつかは、ちいさな試料サイズ単独によっては説明できなかった。
データの解析は、訓練セットおよびテストセットの分布の間に有意な差があるこ
とを明らかにした。種々の仮説をテストし、差はデータ源における差まで追跡す
ることができるのが判明した。すべての実験において、種々の源からのテストデ
ータについての性能を別々に追跡した。源にかかわらず、得られた結果は同一で
あった。 【0207】 ゴラブ(Golub)において、著者らは、誤差率、固定された閾値における
拒絶率、および分類信頼性を含めた実施例1に記載したごとく、分類器品質にい
くつかの基準を用いる。分類器品質の基準を示す図31を参照されたし。曲線(
四角および三角)は2つのクラス:クラス1(負のクラス)およびクラス2(正
のクラス)の例分布を表す。 【0208】 四角:その決定関数値がθよりも大きいかまたはそれに等しいクラス1の例の
数。 【0209】 三角:その決定関数値がθよりも小さいかまたはそれに等しいクラス2の例の
数。エラーB1およびB2の数はθ=0の座標である。拒絶された例R1および
R2の数は、各々、三角および丸曲線における−θRおよびθRの座標である。拒
絶された例の決定関数値は絶対値がθRよりも小さく、これは低い分類信頼性の
例に対応する。閾値θRは、全ての残りの「許容された」例が十分に分類される
ように設定される。極値的マージンEは、クラス2例の最も小さい決定関数値お
よびクラス1例の最大決定関数値の間の差である。図面の例では、Eは負である
。もし分類エラーの数が0であると、Eは負である。メジアンマージンMは、ク
ラス1密度のメジアン決定関数値およびクラス2密度のメジアンの間の差である
。 【0210】 実験の最初のセットにおいて、SVMを、白血病データでのゴラブ(Golu
b)らのベースラインシステム(ゴラブ(Golub),1999)と比較した
。単純な前処理ステップが行われた。各遺伝子発現値では、平均を差し引き、結
果をその標準偏差で割った。 【0211】 2つの実験を行った。まず、7129遺伝子のフルセット(表8)を用いた。
測定した値は前記した通りであった。 【0212】 【表8】表8:全ての遺伝子についての訓練分類器の結果(白血病データ) 全ての遺伝子について訓練したSVMの最大重みに対応する50遺伝子のセット
を選択した。新しいSVMをこれらの50遺伝子で訓練した。我々は、結果を、
ゴラブ(Golub)らの論文で報告された50特徴の元のセットで訓練したベ
ースラインシステムと比較した(表9)。 【0213】 ついで、50遺伝子のセットを選択した。50遺伝子は、全ての遺伝子で訓練
されたSVMの最大重みに対応した。新しいSVMをこれらの50遺伝子で訓練
した。結果を、ゴラブ(Golub)らの論文に報告された50特徴の元のセッ
トで訓練したベースラインシステムと比較した。表9参照。 【0214】 【表9】 表9:50遺伝子での訓練の結果(白血病データ) 両方の場合において、SVMはベースラインシステムの性能にマッチするか、
それよりも優れていた。表10および11の詳細な結果を用い、性能の差の統計
的有意性を以下の方程式でチェックした: (1−α)=0.5+0.5erf(Zα/sqrt(2)) Zα=εn/sqr(v) 【表10】表10:全ての遺伝子についての訓練の詳細な結果(白血病データ)。エラーi
dナンバーは括弧に入れる。 【0215】 【表11】 表11:50遺伝子についての訓練の詳細な結果(白血病データ)。エラーid
ナンバーは括弧に入れる。 【0216】 テストの結果に従うと、50遺伝子で訓練された分類器は、(ゴラブ(Gol
ub)ではエラー率97.7%信頼性およびSVMでは98.7%に基づき)高
信頼性でもって、全ての遺伝子で訓練したものよりも良好である。エラー率単独
に基づき、SVM分類器はゴラブ(Golub)分類器よりも有意には良好でな
い(全ての遺伝子で50%信頼性および50遺伝子で84.1%信頼性)。しか
しながら、拒絶に基づくと、SVM分類器はゴラブ(Golub)分類器よりも
有意に良好である(全ての遺伝子で99.9%信頼性およい50遺伝子で98.
7%信頼性)。 【0217】 実験の第2のセットにおいて、ゴラブ(Golub)らの方法および白血病デ
ータでのSVMの間のより詳細な比較を行った。特に、問題の2つの態様の結合
を断った:遺伝子の良好なサブセットの選択および良好な決定関数の発見。SV
Mで得られた性能の改良は、SVM特徴(遺伝子)選択方法まで追跡することが
できた。これらの特徴で訓練された特定の決定関数は遺伝子の適切なサブセット
の選択ほどは重要でなかった。 【0218】 実験の最初のセットで行ったSVM分類器の重みで一度遺伝子をランク付けす
るよりはむしろ、代わりに、回帰特徴排除(RFE)方法を用いた。各反復にお
いて、新しい分類器を残りの特徴で訓練する。新しい分類器における最小重みに
対応する特徴を排除する。排除の順番は特定のランキングを生じる。約束により
、排除すべき最後の特徴を最初にランクする。遺伝子のチャンクをある時点で排
除した。最初の反復において2の冪指数である遺伝子の数に到達した。引き続い
ての反復において、残りの遺伝子の半分を排除した。増加する情報的密度の遺伝
子のネステッドサブセットが得られた。 【0219】 次いで、遺伝子のこれらのサブセットの質は、正規SVM、ゴラブ(Golu
b)らの分類器およびFissherの線型判別(例えば、(ドゥダ(Duda
),1973参照))を含めた種々の分類器を訓練することによって評価した。
訓練例の第1の主要な構成要素に沿ってデータをプロジェクトした後に訓練され
たSVMも用いた。これは単純な偏り値を設定するに至り、これをいずれかのク
ラスの2つの極端な例の重心に置き、クラス当たりの例の数で荷重した。この分
類器を「低下−能力−SVM」と呼んだ。 【0220】 試みた種々の分類器は有意に異なる性能を生じなかった。ゴラブ(Golub
),1999の分類器および低下−能力−SVMの結果をここに報告した。いく
つかの交差テストをベースライン方法で実行して、遺伝子のセットおよび分類器
を比較した。SVM選択遺伝子で、またはベースライン遺伝子で訓練したSVM
を示す図32A、およびSVM選択遺伝子で、またはベースライン遺伝子で訓練
したベースライン分類器を示す図32B参照。分類器は、SVMで選択した遺伝
子のサブセットで、および白血病データの訓練セットでのベースライン方法で訓
練されている。遺伝子の数は色を施し、脚注に示す。品質インジケーターは径方
向にプロットする:チャネル1−4=リーブ−ワン−アウト方法での交差−有効
化結果;チャネル5−8=テストセット結果;SUC=成功率;acc=許容率
;ext=極値性マージン;med=メジアンマージン。各インジケーターの平
均値がゼロの平均(全ての4つのプロットにわたり偏差1)を有するように、係
数を再度判断した。各分類器では、色を付けたエリアが大きくなると、分類器は
良好となる。図面は、このデータセットでの分類器性能の間に有意な差はないが
、遺伝子選択の間に有意な差があることを示す。 【0221】 表12において、遺伝子選択および分類方法の各組合せにつきテストセットで
得られた最良の結果をまとめる。分類器は、遺伝子選択方法を与えれば、同一の
結果を与える。対照的に、SVM選択遺伝子は、双方の分類器についてのベース
ライン遺伝子よりも終止一貫して良好な性能を生じる。差の有意性は以下の方程
式でテストした: (1−α)=0.5+0.5erf(Zα/sqrt(2)) Zα=εn/sqrt(v) SVMまたはベースライン分類器であるかを問わず、SVM遺伝子は、テスト
エラー率に基づいて84.1%信頼性でもって、およびテスト拒絶率に基づき9
9.2%の信頼性をもって良好であった。 【0222】 【表12】 表12:テストデータについての最良の分類器(白血病データ)。テストデータ
で最良に実行する分類器の性能を報告する。SVMまたはベースライン遺伝子お
よびSVMまたはベースライン分類器の各組合せでは、遺伝子の対応する数、エ
ラーの数および拒絶の数を表中に示す。患者idナンバーは括弧中に示す。 【0223】 トップにランクされた遺伝子を比較するために、SVM選択サブセットおよび
ベースラインサブセットにおける共通遺伝子の分率(表13)を計算した。この
例においてSVMで見出された16遺伝子の最適数において、遺伝子の19%が
共通していたに過ぎなかった。 【0224】 【表13】 図13:ベースライン方法およびSVM回帰遺伝子排除で選択されたセット間の
共通遺伝子の分率(白血病データ)。共通遺伝子の分率は遺伝子の数の関数とし
てほぼ指数関数的に減少する(対数スケールで曲線的)。最適SVM遺伝子セッ
ト数16において、遺伝子の19%が共通したに過ぎなかった。 【0225】 図33は、白血病データについての16遺伝子の最良セットを示す。マトリッ
クス(a)および(c)において、欄は異なる遺伝子を表し、行は訓練セットか
らの異なる患者を表す。27の頂部線ALL患者であり、11の底部線はAML
患者である。灰色を施したのは遺伝子の発現を示し:明るいほどより強い。33
AはSVM最良16遺伝子を示す。遺伝子は左から右にランクされ、最良のもの
は最も左側にある。選択された全ての遺伝子はよりAMLに相関する。33Bは
、分類決定をなすのに使用した16SVM遺伝子の荷重合計を示す。非常に明瞭
なALL/AML分離が示される。33Cはベースライン方法16遺伝子を示す
。該方法は、遺伝子の半分がAMLに相関し、半分がALLに相関することを課
する。最良の遺伝子は中央にある。33Dは、分類決定をなすのに用いた16ベ
ースライン遺伝子の荷重合計を示す。分離は依然として良好であるが、SVM分
離ほどは良好でない。 【0226】 図33Aおよび33Cは、16遺伝子サブセットの訓練セットにおける患者に
対する発現値を示す。一見して、ベースライン方法によって選択された遺伝子は
かなり秩序立って見えた。これは、それらがAMLまたはALLいずれかと強く
相関したからであった。この遺伝子セットでは大きな冗長があった。本質的には
、全ての遺伝子は同一の情報を担っていた。逆に、SVMは、補充的情報を担う
遺伝子を選択した。これは、16遺伝子発現の荷重合計である決定関数の出力に
反映された(図33B)および(図33D)。SVM出力はAML患者をALL
患者からかなり明瞭に分離した。表14および15は2つの方法によって選択さ
れた遺伝子をリストする。 【0227】 【表14】表14:トップにランクされた16SVM遺伝子(白血病データ)。Rk=ラン
ク。GAN=遺伝子受託番号。相関=遺伝子がリストされたクラスに最も相関す
る。遺伝子は、最も有望でない遺伝子を回帰的に排除することによって得られた
。遺伝子のネステッドサブセットが得られる。 【0228】 【表15】 表15:トップにランクされた16ベースライン遺伝子(白血病データ)。GA
N=遺伝子受託番号。相関=遺伝子がリストされたクラスと最も相関する。左側
の8つの遺伝子はALLに最も相関し、右側の8つの遺伝子はAMLに相関する
。トップのものは最良の候補である。ゴラブ(Golub)らは、彼らの実験に
おいて同等な割合のALL−相関およびAML−相関遺伝子を混合した。 【0229】 遺伝子の最適サブセットが予測できる。 【0230】 遺伝子の最低サブセットを予測する問題に取り組んだ。訓練例のみに由来する
以下の方程式で定義される基準を用いた。 【0231】 C=Q−2ε(d) 予測された遺伝子サブセットがテストセットで最良に実行するか否かをチェッ
クした。テストは、SVM回帰特徴排除を用いて行った。特徴の数は、各反復に
おいて2のファクターだけ徐々に減少した。SVM分類器を、見出された全ての
中間サブセットで訓練した。 【0232】 図34に示すごとく、16遺伝子の最適数が見出された。SVMの回帰遺伝子
排除によって選択された遺伝子の数は変化した。グラフの線の記載は以下の通り
である:丸:テストセットでのエラー率。四角:スケールド品質基準(Q=4)
十字:最適性のスケールド基準(C/4)。菱形曲線:C/4を局所的に平滑化
する結果。丸:スケールド理論誤差棒(ε/2)。曲線はC=Q−2εによって
関係付けた。ダッシュ線は菱形曲線の最適を示し、これは、訓練データのみに基
づいた理論予測最適である菱形曲線の最適を示す:2=16遺伝子。ゼロのテ
ストエラーがこの最適で得られた。 【0233】 テストセットでの性能もまたその値において最適であることが判明した。結果
の詳細は表16に報告する。 【0234】 【表16】表16:RFE方法で得られたSVMの遺伝子で訓練されたSVM分類器(白血
病データ)。分類器選択Cの基準は分類器品質Qから誤差棒εを引いたものであ
った。これらの量は訓練データのみに基づいて計算した。(ゼロ拒絶における)
成功率、(ゼロエラーにおける)許容率、極端なマージンおよびメジアンマージ
ンは、38試料訓練セット(V結果)および34試料テストセット(T結果)で
のリーブ−ワン−アウト方法につき報告した。遺伝子の数が16である場合、訓
練データのみを用いて計算した局所的に平滑化されたC基準によって予測される
分類器は最良であった。 【0235】 最適において、SVMはいずれの拒絶もなくしてテストセットで100%精度
である。 【0236】 予測されて最適におけるベースラインでのシステムでの比較結果を表17に示
す。 【0237】 【表17】表17:基準Cで選択された最良の分類器(白血病データ)。訓練例のみに基づ
いて計算された基準Cの最適に対応する分類器の性能を報告した。SVMまたは
ベースライン遺伝子およびSVMまたはベースライン分類器の各組合せについて
は、遺伝子の対応する数、エラーの数および拒絶の数を表中に示す、患者idナ
ンバーは括弧に入れて示す。 SVMシステム(SVM特徴訓練した最適SVM分類器)およびベースライン
システム(ベースライン特徴で訓練した最適ベースライン分類器)の間で得られ
た総ての差はかなり有意であった:エラー率では95.8%および拒絶率では9
9.2%。交差−テスト解析では、これらの差は、良好な分類器よりもむしろ特
徴の良好なセットまでほとんど追跡することができた。 【0238】 白血病データは、72試料の全データセットで遺伝子選択方法を実行すること
によって処理した。4つのトップにランクされた遺伝子を表18に示す。 【0239】 【表18】 表18:SVM RFEトップランク遺伝子(白血病データ)。72試料の全デ
ータセットを用いて、SVM RFEで遺伝子を選択した。遺伝子は重要性が増
す順番にランクした。最初にランクされた遺伝子は、全ての他の遺伝子が排除さ
れた後に残った最後の遺伝子である。発現:ALL>AMLは、遺伝子の発現レ
ベルが殆どのALL試料においてより高いことを示す;AML>ALLは、遺伝
子発現レベルが殆どのAML試料においてより高いことを示す;GAN:遺伝子
受託番号。このリスト中の全ての遺伝子は、AMLvsALL分離に対していく
らか可能な関連性を有する。 【0240】 4つの遺伝子の数は支持ベクトルの最小数に対応する(この場合には5)。全
ての4つの遺伝子は白血病癌に対していくらか関連性を有し、AMLおよびAL
L変種の間を区別するのに用いることができる。 【0241】 この最後の実験において、エラー無くして全データセットを分離する遺伝子の
最も小さな数は2である。遺伝子のこのセットでは、ゼロのリーブ−ワンーアウ
トエラーもある。対照的に、ゴラブ(Golub)の方法は、常に、少なくとも
1つの訓練エラーおよび1つのリーブ−ワン−アウトエラーを生じる。1つの訓
練エラーは16遺伝子の最小で達成でき、1つのリーブ−ワン−アウトエラーは
64遺伝子の最小で達成できる。 【0242】 要約すると、特徴選択の最も速い方法は相関方法であった:研究中のデータセ
ットでは、Pentiumプロセッサでのゴラブ(Golub)のベースライン
方法によって、数千の遺伝子を約1秒以内にランク付けすることができる。2番
目に速い方法は、ランキング基準としての全ての特徴で一回のみ訓練した分類器
の重みを用いる。SVMまたは偽−逆/MSEのごとき訓練アルゴリズムは、ま
ず、nの訓練パターンの間の全てのスカラー積の(n,n)マトリックスKの計
算を必要とする。Kの計算は、特徴(遺伝子)の数と共に直線的に増加し、訓練
パターンの数と共に二次的に増加する。その後、訓練時間はマトリックスKを逆
転させる時間のオーダーである。最適化されたSVMアルゴリズムでは、もし数
支持ベクトルがnと比較して小さいならば、訓練はKを逆転させるよりも速いで
あろう。研究中のデータセットでは、非−最適化Matlabコードを持つPe
ntiumプロセッサで、解は数秒以内に見出される。 【0243】 回帰特徴排除(RFE)は、減少するサイズの特徴のサブセットでの訓練多重
分類器を必要とする。訓練時間は訓練すべき分類器の数に対して直線的な大きさ
である。計算の一部は再使用することができる。マトリックスKは全く再度計算
する必要はない。排除された特徴の部分的スカラー積を引くことができる。また
、係数αをそれらの以前の値に対して初期化することができる。Pentium
プロセッサでの本発明のSVM RFEのMatlab実行は、全結腸データセ
ット(2000遺伝子、62患者)では約15分以内に、および白血病データセ
ット(7129遺伝子、72患者)では3時間以内に遺伝子ランキングを戻す。
データの収集および調製が数カ月または数年かかるであろうと仮定すれば、デー
タ解析に数時間かかることは許容できる。 【0244】 種々の分類器(SVM、LDA、MSE)を用いる特徴選択実験の全ては、良
好な特徴は、単一分類器の重みを用いることによるよりはRFEを用いることに
よって得られることを示した。同様に、良好な結果は、特徴のチャンクを排除す
ることによるよりもある時点で1つの特徴を排除することによって得られた。し
かしながら、遺伝子のより小さなサブセット(100未満)に対して有意な差が
あるに過ぎない。いずれかの特定な理論に拘束されるつもりはないが、スピード
についてのトレーディング精度なくして、最初の数回の反復で特徴のチャンクを
除去することによってRFEを用い、次いで、一旦特徴セットが数百の数と反応
する時点において1つの特徴を除去することができるのは理論化される。RFE
アルゴリズムは、特徴の合計数が線型下とされる。これは、近い将来に起こると
予測されるごとく、遺伝子の数が数百万に近づく実験で用いられる。 【0245】 他の実験はSVMで使用した。1つの実験は、重みの最大数を強制的にゼロと
するように最適化問題を公式化するものである。以下の線型プログラミング処方
を用いた; Y[(w*−w)・x+b]≧1−ζ>0 wI*>0 I=1...n の条件下ので、 cw+wI*+CΣζ [式中、Cは正の定数である] SVM RFEは、相関方法の独立仮定を排除することによって、特徴ランキ
ングに基づいて特徴選択を改良する。それは、特徴のネステッドサブセットを生
じる。これは、dの特徴の選択されたサブセットがd+1の特徴のサブセットに
含まれることを意味する。特徴ランキング方法では、最良の可能な分離を供する
シングルトンが無いであろう。最良特徴対はそのシングルトンを一体化するとい
う保証はない。 【0246】 コンビナトリアルサーチは、特徴ランキングに対する計算が強い代替法である
。dの特徴またはそれ未満の最適サブセットを求めるにはdの特徴またはそれ未
満の全ての組合せを試す。最良の分類性能を生じる組合せを選択する。本発明の
1つの実施形態はコンビナトーリアル方法を用いることを含む。 【0247】 コンビナトリアルサーチを用いて、SVM RFEで選択した遺伝子のサブセ
ットで開始し、最適特徴セットを改良した。白血病データは、その訓練/テスト
データスプリットバージョンで用いた。方程式C=Q−2ε(d)のモデル選択
基準は訓練データセットのみで計算し、いずれの組合せがテストデータで最良に
実行されるかを予測しようと試みた。最初にランク付けされた遺伝子のトリプレ
ットは訓練セットおよびテストセット双方で100%の分類精度を供した。 【0248】 本発明の他の実施形態は非線形分類器の使用を含む。本発明のSVM RFE
は、形態の決定関数: D(x)=ΣαK(x,x) の決定関数にて中核SVMで用いる。 【0249】 用いたランキング基準はベクトルの重みw=Σαであった。wはもは
や分類器の重みベクトルではないことに注意されたし。 【0250】 SVM RFEの他の実施形態は、医療予後のごとき回帰の問題において、お
よび密度評価または密度の支持の評価の問題のための使用を含む。 【0251】 いずれかの特定の理論に拘束されるつもりは無いが、RFEランキングは、あ
る意味では最適である増大するサイズの特徴のネステッドサブセットを生じると
考えることができる。個々には、もう1つのものよりは良好にランク付けされる
特徴はデータを良好に分離できないであろう。事実、第1にランクされた特徴と
大いに相関するいずれかのランクの特徴がある。SVM RFEによって供され
た単純な線型構造へ相関次元を付加する1つの方法は、与えらえた相関係数に従
って遺伝子をクラスター化することである。SVM RFEについての前処理に
おける非監督クラスタリングを本出願で示した。次いで、クラスター中心をラン
ク付けされるべき特徴として用いた。また、監督クラスタリングはSVM RF
Eについての後処理として用いた。また、トップランキング特徴をクラスター中
心として用いた。残りの拒絶された特徴をそれらの中心に対してクラスター化し
た。 【0252】 SVMは、DNAマイクロアレイデータからの遺伝子発現の広いパターンの解
析に特に役に立つ。それらは、数千の遺伝子のごとき非常に多数の特徴、および
少数の患者のごとき少数の訓練パターンを容易に扱うことができる。ベースライ
ン方法はSVMによる二日だけの仕事において優れていた。 【0253】 2つの癌データベースは、遺伝子のサブセットを選択するプロセスにおいて遺
伝子間の相互情報を考慮しないと分類性能を損なうことを示した。暗黙の独立仮
定をなすベースライン方法よりも優れた有意義な改良が得られた。SVMを介し
て見出されたトップにランクされた遺伝子は、全て、癌に関係していた。対照的
に、他の方法は、手での分離と相関するが、癌診断には関係しない遺伝子を選択
した。 【0254】 本発明は線型SVM分類器で証明したが、本発明は、回帰に対する、および密
度評価に対する非線形分類器を含む。コンビナトーリアルサーチのごとき他のS
VM遺伝子選択方法もまた本発明に含まれる。本発明の好ましい方法は、線型分
類器の使用を含み、そのような分類器は、訓練パターンの数よりも特徴の大きな
比率数のため好ましい。 【0255】 これまでの記載は本発明の好ましい実施形態のみに関し、添付の請求の範囲に
記載された本発明の精神および範囲を逸脱することなく多数の修飾または変形を
なすことができるのはもちろん理解されるべきである。そのような別の実施形態
は、本発明の精神および範囲に含まれると考えられる。従って、本発明の範囲は
添付の請求の範囲によって記載され、これまでの記載によって裏付けられる。 【図面の簡単な説明】 【図1】 図1は、学習機械を用いてデータから発見することができる知識を増加させる
ための例示的一般的方法を示すフローチャートである。 【図2】 図2は、支持ベクトル機を用いてデータから発見することができる知識を増加
させるための例示的方法を示すフローチャートである。 【図3】 図3は、本発明の例示的実施形態による、前処理または後処理技術のために、
単独配置にてまたは学習機械と組み合わせて用いることができる例示的最適カテ
ゴリー化方法を示すフローチャートである。 【図4】 図4は、支持ベクトル機に入力することができる例示的非拡大データセットを
示す。 【図5】 図5は、図4のデータセットを用いて支持ベクトル機によって生じた例示的後
処理された出力を示す。 【図6】 図6は、図4のデータセットに基づいて支持ベクトル機に入力することができ
る例示的拡大されたデータセットを示す。 【図7】 図7は、図6のデータセットを用いて支持ベクトル機によって生じた例示的後
処理された出力を示す。 【図8】 図8は、図3の最適カテゴリー化方法の単独適用のための例示的入力および出
力を示す。 【図9】 図9は、線型中核を含む第1の支持ベクトル機および多項式中核を含む第2の
支持ベクトル機からの例示的後処理された出力の比較である。 【図10】 図10は、本発明の例示的実施形態のための例示的オペレーティング環境を示
す機能的ブロックダイアグラムである。 【図11】 図11は、本発明の別の実施形態のための代替例示的オペレーティング環境を
示す機能的ブロックダイアグラムである。 【図12】 図12は、本発明のさらなる代替実施形態の実行のための例示的ネットワーク
オペレーティング環境を示す機能的ブロックダイアグラムである。 【図13】 図13は、線型判別分類器の使用をグラフで示す。A)SVMでの訓練例の分
離。B)同一SVMでの訓練およびテスト例の分離。C)ベースライン方法での
訓練例の分離。D)ベースライン方法での訓練およびテスト例の分離。 【図14】 図14は、実施例2と同様の情報でのRFEを用いる結果のグラフを示す。 【図15】 図15は、2つの遺伝子について組織試料にわたる遺伝子発現値の分布を示す
。 【図16】 図16は、全ての組織試料についての遺伝子にわたる遺伝子発現値の分布を示
す。 【図17】 図17は、結腸癌についてのマイクロアレイデータからの遺伝子発現値を表す
データマトリックスを示す。 【図18】 図18は、前処理後のRFEの結果を示す。 【図19】 図19は、本発明およびゴラブ(Golub)の方法のグラフによる比較を示
す。 【図20】 図20は、最良の32の遺伝子およびすべての他の遺伝子の間の相関を示す。 【図21】 図21は、100の密なQTクラストクラスターで訓練した場合のRFEの結
果を示す。 【図22】 図22は、SVM RFEによって選択されたトップの8つのQTクラストク
ラスターを示す。 【図23】 図23は、QTクラストトップ遺伝子バラツキプロットを示す。 【図24】 図24は監督クラスタリングを示す。 【図25】 図25は、全データセットで訓練した場合のSVM RFEの結果を示す。 【図26】 図26は、全データセットで訓練した場合のゴラブ(Golub)の方法の結
果を示す。 【図27】 図27は、支持ベクトルの荷重係数を示す。 【図28】 図28は、左から右に重要性が増大する順番のSVM RFEによって発見さ
れたトップにランクされた遺伝子を示す。 【図29】 図29は、左から右に重要性が増大する順のゴラブ(Golub)の方法によ
って発見された7つのトップにランクされた遺伝子を示す。 【図30】 図30は、異なる方法を用いる結腸癌データについての特徴(遺伝子)選択方
法の比較を示す。 【図31】 図31は分類器品質の基準を示す。三角および丸曲線は2つのクラス:クラス
1(負のクラス)およびクラス2(正のクラス)の例分布を表す。 【図32A】 図32Aは、白血病データについてのSVMおよびベースライン方法の間の性
能比較を示す。 【図32B】 図32Bは、白血病データについてのSVMおよびベースライン方法の間の性
能比較を示す。 【図33】 図33は白血病データについての16遺伝子の最良セットを示す。 【図34】 図34は、白血病データについての遺伝子の最適数の選択を示す。 【図35】 図35は、結腸癌データについての遺伝子の最適数の選択を示す。 【図36】 図36は、多重支持ベクトル機の階級システムを示す機能的ブロックダイアグ
ラムである。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) C12N 15/09 C12Q 1/68 A C12Q 1/68 G01N 33/53 M G01N 33/53 33/566 33/566 C12N 15/00 A F (31)優先権主張番号 60/184,596 (32)優先日 平成12年2月24日(2000.2.24) (33)優先権主張国 米国(US) (31)優先権主張番号 60/191,219 (32)優先日 平成12年3月22日(2000.3.22) (33)優先権主張国 米国(US) (31)優先権主張番号 09/568,301 (32)優先日 平成12年5月9日(2000.5.9) (33)優先権主張国 米国(US) (31)優先権主張番号 09/578,011 (32)優先日 平成12年5月24日(2000.5.24) (33)優先権主張国 米国(US) (31)優先権主張番号 60/207,026 (32)優先日 平成12年5月25日(2000.5.25) (33)優先権主張国 米国(US) (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,BZ,C A,CH,CN,CR,CU,CZ,DE,DK,DM ,DZ,EE,ES,FI,GB,GD,GE,GH, GM,HR,HU,ID,IL,IN,IS,JP,K E,KG,KP,KR,KZ,LC,LK,LR,LS ,LT,LU,LV,MA,MD,MG,MK,MN, MW,MX,MZ,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,SL,TJ,TM ,TR,TT,TZ,UA,UG,US,UZ,VN, YU,ZA,ZW (72)発明者 ギオン、 イザベル アメリカ合衆国 カリフォルニア州 94708 バークレー クレストン ロード 955 (72)発明者 ウエストン、 ジェイスン アメリカ合衆国 ニューヨーク州 10003 ニューヨーク アパートメント 2ビー イースト セブンス ストリート 34 Fターム(参考) 4B024 AA11 CA02 CA09 HA14 HA19 4B029 AA07 AA23 BB20 CC03 FA15 4B063 QA18 QA19 QQ02 QQ42 QQ53 QR56 QR62 QR82 QS25 QS34 QS39 4C084 AA17 MA01 NA14 ZB262

Claims (1)

  1. 【特許請求の範囲】 【請求項1】 生物学的データに由来する訓練データセットを前処理して、
    複数の訓練データポイントの各々を拡大し; 前記前処理した訓練データセットを用いて学習機械を訓練し; 前記訓練データセットと同様に生物学的データに由来するテストデータセット
    を前処理し; 前記前処理したテストデータセットを用いて前記訓練された学習機械をテスト
    し; 前記訓練された学習機械のテスト出力の受領に応じて、前記テスト出力を後処
    理して前記前処理したテストデータから発見された知識が望ましいものであるか
    を決定する; ステップを含むことを特徴とする学習機械を用いて生物学的データから発見され
    た知識を増強する方法。 【請求項2】 請求項1記載の方法を実行するためのコンピューター実行可
    能指令をその上に記憶したコンピューター読み取り可能な媒体。 【請求項3】 前記訓練データを前処理して、複数の訓練データポイントの
    各々を拡大することは、複数の訓練データポイントの各々に次元を付加すること
    を含むことを特徴とする請求項1記載の方法。 【請求項4】 各訓練データポイントが、1以上の元の座標を有するベクト
    ルを含み; 前記各訓練データポイントに次元を付加することは、1以上の新しい座標を前
    記ベクトルに付加することを含むことを特徴とする請求項3記載の方法。 【請求項5】 前記ベクトルに付加された新しい座標は、元の座標の1つに
    変換を適用することによって誘導されることを特徴とする請求項4記載の方法。 【請求項6】 前記変換が専門家の知識に基づくことを特徴とする請求項5
    記載の方法。 【請求項7】 前記変換が計算により誘導されることを特徴とする請求項5
    記載の方法。 【請求項8】 前記訓練データセットが連続的変数を含み; 前記変換は、前記訓練データセットの前記連続的変数を最適にカテゴリー化す
    ることを含むことを特徴とする請求項5記載の方法。 【請求項9】 前記テスト出力を後処理することは、前記テスト出力を前記
    複数のテストデータポイントと比較することができるフォーマットに解釈するこ
    とを含むことを特徴とする請求項1記載の方法。 【請求項10】 前記データから発見されるべき知識は、回帰または密度評
    価に関係し; 前記テスト出力を後処理することは、前記テスト出力を最適にカテゴリー化し
    、連続的変数においてカットオフポイントを誘導することを特徴とする請求項1
    記載の方法。 【請求項11】 前記データから発見されるべき知識は、回帰または密度評
    価に関係し; 前記訓練出力が連続的変数を含み; 前記方法が、前記学習機械の訓練、前記学習機械からの訓練出力の受領に応答
    して、前記テスト出力を最適にカテゴリー化して、前記連続的変数においてカッ
    トオフポイントを誘導することによって前記訓練出力を後処理するステップをさ
    らに含むことを特徴とする請求項1記載の方法。 【請求項12】 生物学的データに由来する訓練データセットを前処理して
    、複数の訓練データポイントの各々に意味を付加し; 前記前処理された訓練データセットを用いて支持ベクトル機を訓練し; 前記訓練データセットと同様にして生物学的データに由来するテストデータセ
    ットを前処理し; 前記前処理されたテストデータセットを用いて訓練された支持ベクトル機をテ
    ストし; 前記訓練された支持ベクトル機のテスト出力の受領に応答して、前記テスト出
    力を後処理して、前記テスト出力が最適な解決であるかを決定する; ステップを含むことを特徴とする支持ベクトル機を用いて生物学的データから
    発見された知識を増強する方法。 【請求項13】 各訓練データポイントが、1以上の座標を有するベクトル
    を含み; 前記訓練データセットを前処理して、各訓練データポイントに意味を付加する
    ことが、 前記訓練データポイントが汚損しているかを決定し; 前記訓練データポイントが汚損していると決定することに応答して、前記訓練
    データポイントを清浄することを含むことを特徴とする請求項12記載の方法。 【請求項14】 前記訓練データポイントを清浄することは、前記データポ
    イントを消去し、修復しまたは置き換えることを含むことを特徴とする請求項1
    3記載の方法。 【請求項15】 各訓練データポイントが、1以上の元の座標を有するベク
    トルを含み; 前記訓練データセットを前処理して、各訓練データポイントに意味を付加する
    ことは、1以上の新しい座標をベクトルに付加することによって各訓練データポ
    イントに次元を付加することを含むことを特徴とする請求項12記載の方法。 【請求項16】 前記ベクトルに付加された1以上の新しい座標は、元の座
    標の1以上に変換を適応することによって誘導されることを特徴とする請求項1
    5記載の方法。 【請求項17】 前記変換が専門家の知識に基づくことを特徴とする請求項
    16記載の方法。 【請求項18】 前記変換がコンピューターにより誘導されることを特徴と
    する請求項16記載の方法。 【請求項19】 前記訓練データセットが連続的変数を含み; 前記変換は、前記訓練データセットの前記連続的変数を最適にカテゴリー化す
    ることを含むことを特徴とする請求項16記載の方法。 【請求項20】 前記訓練データセットの前記連続的変数を最適にカテゴリ
    ー化することが:を含むことを特徴とする請求項19記載の方法。 【請求項21】 前記テスト出力を後処理することは、前記テスト出力を前
    記テストデータセットと比較することができるフォーマットに解釈することを含
    むことを特徴とする請求項12記載の方法。 【請求項22】 前記データから発見されるべき知識は、回帰または密度評
    価に関係し; 前記訓練出力が連続的変数を含み; 前記方法が、前記訓練出力を最適にカテゴリー化して、前記連続的変数におい
    てカットオフポイントを誘導することによって前記訓練出力を後処理するステッ
    プをさらに含むことを特徴とする請求項12記載の方法。 【請求項23】 前記支持ベクトル機を訓練するに先立って前記支持ベクト
    ル機についての中核を選択し; 前記テスト出力を後処理することに応答して、前記テスト出力が最適な解決で
    はないことを決定し; 前記中核の選択を調整し; 前記中核の選択を調整することに応答して、前記支持ベクトル機を再度訓練し
    、再度テストするステップをさらに含むことを特徴とする請求項12記載の方法
    。 【請求項24】 前記中核の選択は、先行性能または履歴データに基づき、
    前記データから発見されるべき知識の性質または前記データの性質に依存するこ
    とを特徴とする請求項23記載の方法。 【請求項25】 前記テスト出力を後処理することに応答して、前記テスト
    出力が最適な解決であると決定し; 生データセットを収集し; 前記訓練データセットと同様に前記生データセットを前処理し; 前記前処理された生データセットを、処理のために前記支持ベクトル機に入力
    し; 前記訓練された支持ベクトル機の生出力を受領するステップをさらに含むこと
    を特徴とする請求項12記載の方法。 【請求項26】 前記生出力を、コンピューターにより誘導された英数字分
    類器に解釈することによって前記生出力を後処理するステップをさらに含むこと
    を特徴とする請求項25記載の方法。 【請求項27】 訓練データセットおよびテストデータセットを記憶するた
    めの記憶デバイス; 支持ベクトル機を実行するためのプロセッサ; データベースから前記訓練データセットを収集し、 前記訓練データセットを前処理して、複数の訓練データポイントの各々に意味
    を付加し、 前記前処理された訓練データセットを用いて支持ベクトル機を訓練し、 前記支持ベクトル機を訓練するに応答して、前記データベースから前記テスト
    データセットを収集し、 前記訓練データセットと同様に前記テストデータセットを前処理し、 前記前処理されたテストデータセットを用いて前記訓練された支持ベクトル機
    をテストし、 前記訓練された支持ベクトル機のテスト出力を受領するに応答して、前記テス
    ト出力を後処理して、前記テスト出力が最適な解決であるかを決定するために操
    作できるプロセッサ; をさらに含むことを特徴とする支持ベクトル機を用いて生物学的データから発
    見される知識を増強するためのシステム。 【請求項28】 遠隔源から前記テストデータセットおよび前記訓練データ
    セットを受領するための通信デバイスをさらに含み; 前記プロセッサは、さらに、前記訓練データセットの収集および前処理に先立
    って前記訓練データセットを前記記憶デバイスに記憶し、および前記テストデー
    タセットの収集および前処理に先立って前記テストデータセットを前記記憶デバ
    イスに記憶するように操作できることを特徴とする請求項27記載のシステム。 【請求項29】 後処理されたテストデータを表示するための表示デバイス
    をさらに含むことを特徴とする請求項27記載のシステム。 【請求項30】 各訓練データポイントが、1以上の元の座標を有するベク
    トルを含み; 前記訓練データセットを前処理して、各訓練データポイントに意味を付加する
    ことは、1以上の新しい座標をベクトルに付加することによって各訓練データポ
    イントに次元を付加することを含むことを特徴とする請求項27記載のシステム
    。 【請求項31】 前記ベクトルに付加された1以上の新しい座標が、元の座
    標の1以上に変換を適用することによって誘導されることを特徴とする請求項3
    0記載のシステム。 【請求項32】 前記変換が専門家の知識に基づくことを特徴とする請求項
    31記載のシステム。 【請求項33】 前記変換がコンピューターにより誘導されることを特徴と
    する請求項31記載のシステム。 【請求項34】 前記訓練データセットが連続的変数を含み; 前記変換は、前記訓練データセットの前記連続的変数を最適にカテゴリー化す
    ることを含むことを特徴とする請求項31記載のシステム。 【請求項35】 前記テスト出力が連続的変数を含み; 前記テスト出力を後処理することは、前記テストデータセットの前記連続的変
    数を最適にカテゴリー化することを含むことを特徴とする請求項30記載のシス
    テム。 【請求項36】 前記データから発見されるべき知識は、回帰または密度評
    価に関係し; 前記訓練出力が連続的変数を含み; 前記プロセッサが、さらに、前記訓練出力の前記連続的変数を最適にカテゴリ
    ー化することによって、前記訓練出力を後処理するために操作できることを特徴
    とする請求項30記載のシステム。 【請求項37】 前記訓練出力を最適にカテゴリー化することは、エントロ
    ピー計算に基づいて前記連続的変数中に最適カットオフポイントを決定すること
    を含むことを特徴とする請求項36記載のシステム。 【請求項38】 前記プロセッサが、さらに、前記支持ベクトル機を訓練す
    るに先立って前記支持ベクトル機のための中核を選択し; 前記テスト出力を後処理することに応答して、前記テスト出力が最適な解決で
    はないことを決定し; 前記中核の選択を調整し; 前記中核の選択を調整することに応答して、前記支持ベクトル機を再度訓練し
    再度テストするために操作できることを特徴とする請求項27記載のシステム。 【請求項39】 前記中核の選択は、先行性能または履歴データに基づき、
    前記データから発見されるべき知識の性質または前記データの性質に依存するこ
    とを特徴とする請求項38記載のシステム。 【請求項40】 生データセットが前記記憶デバイスに記憶され; 前記プロセッサが、さらに、 前記テスト出力を後処理するに応答して、前記テスト出力が最適な解決である
    と決定し、 前記記憶デバイスから前記生データセットを収集し、 前記訓練データセットと同様に前記生データセットを前処理し、 前記前処理された生データセットを、処理のために前記支持ベクトル機に入力
    し; 前記訓練された支持ベクトル機の前記生出力を受領するために操作できること
    を特徴とする請求項27記載のシステム。 【請求項41】 前記プロセッサが、さらに、前記生出力をコンピューター
    により誘導された英数字分類器に解釈することによって、前記生出力を後処理す
    るために操作できることを特徴とする請求項40記載のシステム。 【請求項42】 前記通信デバイスが、さらに、前記英数字分類器を遠隔源
    またはもう1つの遠隔源に送るように操作できることを特徴とする請求項41記
    載のシステム。 【請求項43】 生物学的データに由来する訓練データセットを前処理して
    、複数の訓練データポイントの各々を拡大し; 前記前処理された訓練データセットを用いて学習機械を訓練し; 前記訓練データセットと同様に生物学的データに由来するテストデータセット
    を前処理し; 前記前処理されたテストデータセットを用いて、前記訓練された学習機械をテ
    ストし; 前記訓練された学習機械のテスト出力を受領するのに応答して、前記テスト出
    力を後処理して、前記前処理されたテストデータセットから発見された知識が望
    ましいかを決定する; ことを特徴とする学習機械を用いることを含む病気を診断する方法。 【請求項44】 前記病気が癌であることを特徴とする請求項43記載の方
    法。 【請求項45】 前記癌が結腸癌であることを特徴とする請求項44記載の
    方法。 【請求項46】 前記癌が乳癌であることを特徴とする請求項44記載の方
    法。 【請求項47】 前記テストデータセットから発見された知識が、前記病気
    に関連する遺伝子を含むことを特徴とする請求項43記載の方法。 【請求項48】 学習機械によって同定された遺伝子または遺伝子産物の活
    性に干渉する、またはそれを増強するのに効果的な量で薬剤を投与することを特
    徴とする病気を治療する方法。 【請求項49】 学習機械によって病気と関連すると同定された遺伝子に特
    異的にハイブリダイズする遺伝子プローブを含むことを特徴とする診断デバイス
    。 【請求項50】 訓練データセットを前処理して、複数の訓練データポイン
    トの各々に意味を付加し; 前記前処理された訓練データセットを用いて、複数の支持ベクトル機の各々を
    訓練し、前記各支持ベクトル機は異なる中核を含み; 前記訓練データセットと同様にテストデータセットを前処理し; 前記前処理されたテストデータセットを用いて、前記複数の訓練された支持ベ
    クトル機の各々をテストし; 前記複数の訓練された支持ベクトル機の各々から前記テスト出力の各々を受領
    することに応答して、前記テスト出力の各々を相互に比較して、前記テスト出力
    のいずれかが最適な解決であるかを決定することを含み、 前記データは生物学的データであることを特徴とする複数の支持ベクトル機を
    用いて知識発見を増強する方法。 【請求項51】 各訓練データポイントが、1以上の座標を有するベクトル
    を含み; 前記訓練データセットを前処理して、各訓練データポイントに意味を付加する
    ことが; 前記訓練データポイントが汚損していると決定し; 前記訓練データポイントが汚損していると決定することに応答して、前記訓練
    データポイントを清浄することを含むことを特徴とする請求項50記載の方法。 【請求項52】 前記訓練データポイントを清浄することは、前記データポ
    イントを消去し、修復しまたは置き換えることを含むことを特徴とする請求項5
    1記載の方法。 【請求項53】 各訓練データポイントが、1以上の元の座標を有するベク
    トルを含み; 前記訓練データセットを前処理して、各訓練データポイントに意味を付加する
    ことは、1以上の新しい座標をベクトルに付加することによって各訓練データポ
    イントに次元を付加することを含むことを特徴とする請求項50記載の方法。 【請求項54】 前記ベクトルに付加された1以上の新しい座標は、元の座
    標の1以上に変換を適用することによって誘導されることを特徴とする請求項5
    3記載の方法。 【請求項55】 前記変換が専門家の知識に基づくことを特徴とする請求項
    54記載の方法。 【請求項56】 前記変換がコンピューターにより誘導されることを特徴と
    する請求項54記載の方法。 【請求項57】 前記訓練データセットが連続的変数を含み; 前記変換は、前記訓練データセットの前記連続的変数を最適にカテゴリー化す
    ることを含むことを特徴とする請求項50記載の方法。 【請求項58】 前記テスト出力の各々を相互に比較することが、 前記テスト出力の各々を共通のフォーマットに解釈することによって前記テス
    ト出力の各々を後処理し; 前記後処理したテスト出力の各々を相互に比較して、前記テスト出力のいずれ
    が最低の全体的最小エラーを表すかを決定することを含むことを特徴とする請求
    項50記載の方法。 【請求項59】 前記データから発見されるべき知識は、回帰または密度評
    価に関係し; 各支持ベクトル機が、連続的変数を含む訓練出力を生じ; 前記方法が、前記訓練出力を最適にカテゴリー化して、前記連続的変数にカッ
    トオフポイントを誘導することによって前記訓練出力の各々を後処理するステッ
    プをさらに含むことを特徴とする請求項50記載の方法。 【請求項60】 前記テスト出力の各々を相互に比較することに応答して、
    前記テスト出力のいずれも最適な解決ではないと決定し; 前記複数の支持ベクトル機の1以上の異なる中核を調整し; 前記異なる中核の選択を調整することに応答して、前記複数の支持ベクトル機
    の各々を再度訓練し再度テストするステップをさらに含むことを特徴とする請求
    項50記載の方法。 【請求項61】 前記異なる中核を調整することは、先行性能または履歴デ
    ータに基づいて行われ、前記データから発見されるべき知識の性質または前記デ
    ータの性質に依存することを特徴とする請求項60記載の方法。 【請求項62】 前記テスト出力の各々を相互に比較することに応答して、
    前記テスト出力の選択された1つが最適な解決であると決定し、前記複数の訓練
    された支持ベクトル機の選択された1つによって生じた前記テスト出力の選択さ
    れた1つは選択された中核を含み; 生の生物学的データセットを収集し; 前記訓練データセットと同様に前記生の生物学的データセットを前処理し; 前記選択された中核を含む選択された訓練された支持ベクトル機に、前記前処
    理された生データセットを入力し; 前記選択された訓練された支持ベクトル機の生の出力を受領するステップをさ
    らに含むことを特徴とする請求項50記載の方法。 【請求項63】 前記生の出力をコンピューターにより誘導された英数字分
    類器に解釈することによって、前記生出力を後処理するステップをさらに含むこ
    とを特徴とする請求項62記載の方法。 【請求項64】 前記テスト出力の各々を相互に比較することに応答して、
    前記テスト出力の選択された1つが最適な解決であると決定し、前記複数の訓練
    された支持ベクトル機の選択された1つによって生じた前記テスト出力の選択さ
    れた1つが選択された中核を含み; 生の生物学的データセットを収集し; 前記訓練データセットと同様に前記生の生物学的データセットを前処理し; 前記選択された中核に基づいて平行処理のために複数の支持ベクトル機の2以
    上を配置し; 前記前処理された生データセットを、前記平行処理のために配置された支持ベ
    クトル機に入力し; 前記訓練された支持ベクトル機の前記生出力を受領するステップをさらに含む
    ことを特徴とする請求項50記載の方法。 【請求項65】 訓練データセットを前処理して、複数の訓練データポイン
    トの各々に意味を付加し; 前記前処理された訓練データセットを用いて、複数の支持ベクトル機の各々を
    訓練し、前記各支持ベクトル機は異なる中核を含み; 前記訓練データセットと同様にテストデータセットを前処理し; 前記前処理されたテストデータセットを用いて、前記複数の訓練された支持ベ
    クトル機の各々をテストし; 前記複数の訓練された支持ベクトル機の各々から前記テスト出力の各々を受領
    することに応答して、前記テスト出力の各々を相互に比較して、前記テスト出力
    のいずれが最適な解決であるかを決定することを含み、 前記データは生物学的データであることを特徴とする複数の支持ベクトル機を
    用いることを含む病気を診断する方法。 【請求項66】 前記病気が癌であることを特徴とする請求項65記載の方
    法。 【請求項67】 前記癌が結腸癌であることを特徴とする請求項66記載の
    方法。 【請求項68】 前記癌が乳癌であることを特徴とする請求項66記載の方
    法。 【請求項69】 前記テストデータセットから発見された知識が、前記病気
    に関連する遺伝子を含むことを特徴とする請求項65記載の方法。 【請求項70】 複数の学習機械によって同定された遺伝子または遺伝子産
    物の活性と干渉する、または増強するのに効果的な量で薬剤を投与することを特
    徴とする病気を治療する方法。 【請求項71】 複数の学習機械によって病気に関連すると同定された遺伝
    子に特異的にハイブリダイズする遺伝子プローブを含むことを特徴とする診断デ
    バイス。 【請求項72】 訓練生物学的データセット、テストデータセット、生デー
    タセット、および分布したネットワークと連絡した遠隔源からの金融口座識別子
    を受領するための分布したネットワークと連絡したサーバ; 前記訓練生物学的データセットおよび前記テスト生物学的データセットを記憶
    するためのサーバに連絡した1以上の記憶デバイス; 支持ベクトル機を実行するためのプロセッサを含み; 前記プロセッサは、さらに、 前記1以上の記憶デバイスから前記訓練データセットを収集し、 前記訓練生物学的データセットを前処理して、複数の訓練生物学的データポイ
    ントの各々に意味を付加し、 前記前処理された訓練生物学的データセットを前記支持ベクトル機に入力して
    、前記支持ベクトル機を訓練し、 前記支持ベクトル機の訓練に応答して、データベースから前記テスト生物学的
    データセットを収集し、 前記訓練生物学的データセットと同様に前記テスト生物学的データセットを前
    処理し、 前記テスト生物学的データセットを前記訓練された支持ベクトル機に入力して
    、前記支持ベクトル機をテストし、 前記訓練された支持ベクトル機からテスト出力を受領することに応答して、前
    記1以上の記憶デバイスから前記生の生物学的データセットを収集し、 前記生の生物学的データセットを前記テストしたおよび訓練した支持ベクトル
    機に入力して、前記生の生物学的データを処理し、 前記支持ベクトル機から生の出力を受領することに応答して、前記生出力を後
    処理して、コンピューターベースの英数字分類器を誘導し、 前記英数字分類器を前記サーバに伝達するために作動することができ; 前記サーバは、さらに、 金融機関と連絡して、前記金融口座識別子によって同定された金融口座から資
    金を受領し、 前記資金を受領することに応答して、英数字識別子を前記遠隔源またはもう1
    つの遠隔源に伝達するように作動できることを特徴とする支持ベクトル機を用い
    て知識発見を増強するためのシステム。 【請求項82】 各訓練生物学的データポイントが、1以上の座標を有する
    ベクトルを含み; 前記訓練生物学的データセットを前処理して、各訓練生物学的データポイント
    を意味を付加することが; 前記訓練生物学的データポイントが汚損されていると決定し; 前記訓練生物学的データポイントが汚損していると決定することに応答して、
    前記訓練生物学的データポイントを清浄することを含むことを特徴とする請求項
    81記載のシステム。 【請求項83】 前記訓練生物学的データポイントを清浄することは、前記
    生物学的データポイントを消去し、修復しまたは置き換えることを含むことを特
    徴とする請求項82記載のシステム。 【請求項84】 各訓練生物学的データポイントが、1以上の元の座標を有
    するベクトルを含み; 前記訓練生物学的データセットを前処理して、各訓練生物学的データポイント
    に意味を付加することは、1以上の新しい座標をベクトルに付加することによっ
    て各訓練生物学的データポイントに次元を付加することを含むことを特徴とする
    請求項81記載のシステム。 【請求項85】 前記ベクトルに付加された1以上の新しい座標は、元の座
    標の1以上に変換を適用することによって誘導されることを特徴とする請求項8
    4記載のシステム。 【請求項86】 前記変換が専門家の知識に基づくことを特徴とする請求項
    84記載のシステム。 【請求項87】 前記変換が計算により誘導されることを特徴とする請求項
    84記載のシステム。 【請求項88】 前記訓練生物学的データセットが連続的変数を含み; 前記変換は、前記訓練生物学的データセットの前記連続的変数を最適にカテゴ
    リー化することを含むことを特徴とする請求項84記載のシステム。 【請求項89】 前記生物学的データから発見されるべき知識は、回帰また
    は密度評価に関係し; 支持ベクトル機が、連続的変数を含む訓練出力を生じ; 前記プロセッサは、さらに、前記訓練出力を最適にカテゴリー化して、前記連
    続的変数にカットオフポイントを誘導することによって前記訓練出力を後処理す
    るために操作できることを特徴とする請求項81記載のシステム。 【請求項90】 前記プロセッサが、さらに、 前記テスト出力の各々を相互に比較することに応答して、前記テスト出力のい
    ずれも最適な解決ではないと決定し; 前記複数の支持ベクトル機の1以上の異なる中核を調整し; 前記異なる中核の選択を調整することに応答して、前記複数の支持ベクトル機
    の各々を再度訓練し再度テストするために操作できることを特徴とする請求項8
    1記載のシステム。 【請求項91】 訓練生物学的データセット、テストデータセット、生デー
    タセット、および分布したネットワークと連絡した遠隔源からの金融口座識別子
    を受領するための分布したネットワークと連絡したサーバ; 前記訓練生物学的データセットおよび前記テスト生物学的データセットを記憶
    するためのサーバに連絡した1以上の記憶デバイス; 支持ベクトル機を実行するためのプロセッサを含み; 前記プロセッサは、さらに、 前記1以上の記憶デバイスから前記訓練データセットを収集し、 前記訓練生物学的データセットを前処理して、複数の訓練生物学的データポイ
    ントの各々に意味を付加し、 前記前処理した訓練生物学的データセットを前記支持ベクトル機に入力して、
    支持ベクトル機を訓練し、 前記支持ベクトル機の訓練に応答して、データベースから前記テスト生物学的
    データセットを収集し、 前記訓練生物学的データセットと同様に前記テスト生物学的データセットを前
    処理し、 テスト生物学的データセットを訓練された支持ベクトル機に入力して、支持ベ
    クトル機をテストし、 前記訓練された支持ベクトル機からテスト出力を受領するに応答して、前記1
    以上の記憶デバイスから前記生の生物学的データセットを収集し、 前記生の生物学的データセットを前記テストしたおよび訓練した支持ベクトル
    機に入力して、前記生の生物学的データを処理し、 前記支持ベクトル機から生の出力を受領することに応答して、前記生出力を後
    処理して、コンピューターベースの英数字分類器を誘導し、 前記英数字分類器を前記サーバに伝達するために作動することができ; 前記サーバは、さらに、 金融機関と連絡して、前記金融口座識別子によって同定された金融口座から資
    金を受領し、 前記資金を受領することに応答して、英数字識別子を前記遠隔源またはもう1
    つの遠隔源に伝達するために作動できることを特徴とする支持ベクトル機を用い
    て病気を診断するシステム。 【請求項92】 前記病気が癌であることを特徴とする請求項91記載のシ
    ステム。 【請求項93】 前記癌が結腸癌であることを特徴とする請求項92記載の
    方法。 【請求項94】 前記癌が乳癌であることを特徴とする請求項92記載の方
    法。 【請求項95】 第1の訓練生物学的データセットおよび第2の訓練生物学
    的データセットを前処理して、複数の訓練生物学的データポイントの各々に次元
    を付加し; 前記第1の前処理された訓練生物学的データセットを用いて、1以上の第1の
    支持ベクトル機を訓練し、前記第1の支持ベクトル機の各々は異なる中核を含み
    ; 前記第2の前処理された訓練データセットを用いて、1以上の第2の支持ベク
    トル機を訓練し、前記第2の支持ベクトル機の各々は異なる中核を含み; 前記第1の訓練生物学的データセットと同様に第1のテスト生物学的データセ
    ットを前処理し、前記第2の訓練生物学的データセットと同様に第2のテスト生
    物学的データセットを前処理し; 前記第1の前処理されたテスト生物学的データセットを用いて、前記第1の訓
    練された支持ベクトル機の各々をテストし、前記第2の前処理されたテスト生物
    学的データセットを用いて、前記第2の訓練された支持ベクトル機の各々をテス
    トし; 前記第1の訓練された支持ベクトル機の各々から第1のテスト出力を受領する
    に応答して、前記第1のテスト出力の各々を相互に比較して、前記第1のテスト
    出力のいずれが第1の最適な解決であるかを決定し; 前記に第2の訓練された支持ベクトル機の各々から第2のテスト出力を受領す
    ることに応答して、前記第2のテスト出力の各々を相互に比較して、前記第2の
    テスト出力のいずれが第2の最適な解決であるかを決定し; 前記第1の最適な解決を前記第2の最適な解決と組み合わせて、1以上のさら
    なる支持ベクトル機に入力されるべき新しい入力データを創製することを特徴と
    する複数の支持ベクトル機を用いて知識発見を増強する方法。 【請求項96】 前記第1の訓練生物学的データセットおよび前記第2の訓
    練生物学的データセットを前処理することは、さらに、 前記訓練生物学的データポイントの少なくとも1つが汚損していると決定し; 前記訓練生物学的データポイントが汚損されていると決定することに応答して
    、前記汚損訓練生物学的データポイントを清浄することを含むことを特徴とする
    請求項95記載の方法。 【請求項97】 前記汚損訓練生物学的データポイントを清浄することは、
    前記データポイントを消去し、修復しまたは置き換えることを含むことを特徴と
    する請求項96記載の方法。 【請求項98】 各訓練生物学的データポイントが、1以上の元の座標を有
    するベクトルを含み; 前記訓練生物学的データセットを前処理することは、1以上の新しい座標をベ
    クトルに付加すること含むことを特徴とする請求項95記載の方法。 【請求項99】 前記ベクトルに付加された1以上の新しい座標は、元の座
    標の1以上に変換を適用することによって誘導されることを特徴とする請求項9
    8記載の方法。 【請求項100】 前記変換が専門家の知識に基づくことを特徴とする請求
    項99記載の方法。 【請求項101】 前記変換がコンピューターにより誘導されることを特徴
    とする請求項99記載の方法。 【請求項102】 前記訓練データセットが連続的変数を含み; 前記変換は、前記訓練データセットの前記連続的変数を最適にカテゴリー化す
    ることを含むことを特徴とする請求項95記載の方法。 【請求項103】 前記第1のテスト出力の各々を相互に比較し、前記第2
    のテスト出力の各々を相互に比較することは、 前記テスト出力の各々を共通のフォーマットに解釈することによって前記テス
    ト出力の各々を後処理し; 前記第1の後処理テスト出力の各々を相互に比較して、前記第1のテスト出力
    のいずれが第1の最低の全体的最小エラーを表すかを決定し; 前記第2の後処理されたテスト出力の各々を相互に比較して、前記第2のテス
    ト出力のいずれが第2の最低全体的最小エラーを表すかを決定することを含むこ
    とを特徴とする請求項95記載の方法。 【請求項104】 前記データから発見されるべき知識は、回帰または密度
    評価に関係し; 各支持ベクトル機が、連続的変数を含む訓練出力を生じ; 前記方法が、さらに、前記訓練出力を最適にカテゴリー化して、前記連続的変
    数にカットオフポイントを誘導することによって前記訓練出力の各々を後処理す
    るステップを含むことを特徴とする請求項95記載の方法。 【請求項105】 前記テスト出力の各々を相互に比較することに応答して
    、前記テスト出力のいずれも最適な解決ではないと決定し; 前記複数の支持ベクトル機の1以上の異なる中核を調整し; 前記異なる中核の選択を調整することに応答して、前記複数の支持ベクトル機
    の各々を再度訓練し再度テストするステップをさらに含むことを特徴とする請求
    項95記載の方法。 【請求項106】 前記異なる中核を調整することは、先行性能または履歴
    データに基づいて行われ、前記データから発見されるべき知識の性質または前記
    データの性質に依存することを特徴とする請求項105記載の方法。
JP2001534088A 1999-10-27 2000-10-27 パターンを同定するための方法及び機械 Expired - Fee Related JP5064625B2 (ja)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US16180699P 1999-10-27 1999-10-27
US60/161,806 1999-10-27
US16870399P 1999-12-02 1999-12-02
US60/168,703 1999-12-02
US18459600P 2000-02-24 2000-02-24
US60/184,596 2000-02-24
US19121900P 2000-03-22 2000-03-22
US60/191,219 2000-03-22
US09/568,301 2000-05-09
US09/568,301 US6427141B1 (en) 1998-05-01 2000-05-09 Enhancing knowledge discovery using multiple support vector machines
US09/578,011 US6658395B1 (en) 1998-05-01 2000-05-24 Enhancing knowledge discovery from multiple data sets using multiple support vector machines
US09/578,011 2000-05-24
US20702600P 2000-05-25 2000-05-25
US60/207,026 2000-05-25
PCT/US2000/029770 WO2001031580A2 (en) 1999-10-27 2000-10-27 Methods and devices for identifying patterns in biological systems

Publications (3)

Publication Number Publication Date
JP2003529131A true JP2003529131A (ja) 2003-09-30
JP2003529131A5 JP2003529131A5 (ja) 2011-11-10
JP5064625B2 JP5064625B2 (ja) 2012-10-31

Family

ID=27569077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001534088A Expired - Fee Related JP5064625B2 (ja) 1999-10-27 2000-10-27 パターンを同定するための方法及び機械

Country Status (5)

Country Link
EP (2) EP1236173A2 (ja)
JP (1) JP5064625B2 (ja)
AU (1) AU779635B2 (ja)
CA (1) CA2388595C (ja)
WO (1) WO2001031580A2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090833A (ja) * 2006-09-06 2008-04-17 Dna Chip Research Inc 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
JP2011515655A (ja) * 2008-02-08 2011-05-19 ヘルス ディスカバリー コーポレイション サポートベクタマシンを用いてフローサイトメトリーデータを分析するための方法及びシステム
JPWO2010050334A1 (ja) * 2008-10-30 2012-03-29 コニカミノルタエムジー株式会社 情報処理装置
WO2012091093A1 (ja) * 2010-12-28 2012-07-05 参天製薬株式会社 緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法
US20120203520A1 (en) * 2011-02-03 2012-08-09 Fujitsu Limited Input parameter calculation method and apparatus
JP2018189638A (ja) * 2017-05-04 2018-11-29 ヴァイアヴィ・ソリューションズ・インコーポレイテッドViavi Solutions Inc. 近赤外分光法及び機械学習技術による、製造工程におけるエンドポイント検出
JP2019162131A (ja) * 2015-12-07 2019-09-26 ザイマージェン インコーポレイテッド Htpゲノム操作プラットフォームによる微生物株の改良
US10647980B2 (en) 2015-12-07 2020-05-12 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
KR20200103494A (ko) * 2019-02-25 2020-09-02 서강대학교산학협력단 학습 데이터에 대한 오버샘플링 방법
US11208649B2 (en) 2015-12-07 2021-12-28 Zymergen Inc. HTP genomic engineering platform

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741036A (zh) 2000-06-19 2006-03-01 科雷洛吉克系统公司 构造分类属于不同状态的生物样本的模型的方法
US6925389B2 (en) 2000-07-18 2005-08-02 Correlogic Systems, Inc., Process for discriminating between biological states based on hidden patterns from biological data
AU2002241535B2 (en) 2000-11-16 2006-05-18 Ciphergen Biosystems, Inc. Method for analyzing mass spectra
KR20030032395A (ko) * 2001-10-24 2003-04-26 김명호 서포트 벡터 머신을 이용한 다중 에스엔피(snp)와질병의 상관관계 분석 방법
AU2003268031A1 (en) 2002-07-29 2004-02-16 Correlogic Systems, Inc. Quality assurance/quality control for electrospray ionization processes
US9342657B2 (en) * 2003-03-24 2016-05-17 Nien-Chih Wei Methods for predicting an individual's clinical treatment outcome from sampling a group of patient's biological profiles
US6977370B1 (en) 2003-04-07 2005-12-20 Ciphergen Biosystems, Inc. Off-resonance mid-IR laser desorption ionization
WO2004094460A2 (en) 2003-04-17 2004-11-04 Ciphergen Biosystems, Inc. Polypeptides related to natriuretic peptides and methods of their identification and use
EP2369348A1 (en) 2003-11-07 2011-09-28 Ciphergen Biosystems, Inc. Biomarkers for Alzheimer's disease
CA2547861A1 (en) 2003-12-05 2005-06-23 Ciphergen Biosystems, Inc. Serum biomarkers for chagas disease
JP4774534B2 (ja) 2003-12-11 2011-09-14 アングーク ファーマシューティカル カンパニー,リミティド 集中化適応モデル及び遠隔操作サンプルプロセッシングの使用を介した生物学的状態の診断方法
WO2005098446A2 (en) 2004-03-31 2005-10-20 The Johns Hopkins University Biomarkers for ovarian cancer
JP2007535324A (ja) 2004-04-26 2007-12-06 チルドレンズ メディカル センター コーポレーション 疾患検出のための血小板バイオマーカー
US7811772B2 (en) 2005-01-06 2010-10-12 Eastern Virginia Medical School Apolipoprotein A-II isoform as a biomarker for prostate cancer
EP2993474B1 (en) 2005-06-24 2019-06-12 Vermillion, Inc. Biomarkers for ovarian cancer: beta-2 microglobulin
EP2469279A1 (en) 2006-03-11 2012-06-27 The Board Of Trustees Of The Leland Stanford Junior University Cystatin C, lysozyme and beta-2-microglobulin as biomarker for peripheral artery disease
US8221984B2 (en) 2007-03-27 2012-07-17 Vermillion, Inc. Biomarkers for ovarian cancer
AU2008251381B2 (en) 2007-05-11 2014-10-30 The Johns Hopkins University Biomarkers for melanoma
JP2010532484A (ja) 2007-06-29 2010-10-07 コレロジック システムズ,インコーポレイテッド 卵巣癌のための予測マーカー
EP2220506B1 (en) 2007-10-29 2013-10-02 Vermillion, Inc. Biomarkers for the detection of early stage ovarian cancer
WO2010060746A2 (de) * 2008-11-26 2010-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und vorrichtung zur automatischen analyse von modellen
US8972899B2 (en) 2009-02-10 2015-03-03 Ayasdi, Inc. Systems and methods for visualization of data analysis
US9367812B2 (en) * 2010-08-25 2016-06-14 Optibrium Ltd. Compound selection in drug discovery
WO2012051519A2 (en) 2010-10-14 2012-04-19 The Johns Hopkins University Biomarkers of brain injury
WO2013003350A2 (en) 2011-06-27 2013-01-03 Eisai R&D Management Co., Ltd. Microrna biomarkers indicative of alzheimer's disease
CN107674071B (zh) 2012-05-11 2021-12-31 同步制药公司 作为隐花色素调节剂的含有咔唑的磺酰胺类
WO2014071281A1 (en) 2012-11-02 2014-05-08 The Johns Hopkins University Dna methylation biomarkers of post-partum depression risk
EP4286853A3 (en) 2013-05-10 2024-03-06 Johns Hopkins University Compositions for ovarian cancer assessment having improved specificity
CA2918054C (en) 2013-07-11 2022-12-13 The Johns Hopkins University A dna methylation and genotype specific biomarker of suicide attempt and/or suicide ideation
US10534003B2 (en) 2013-07-17 2020-01-14 The Johns Hopkins University Multi-protein biomarker assay for brain injury detection and outcome
WO2015120382A1 (en) 2014-02-07 2015-08-13 The Johns Hopkins University Predicting response to epigenetic drug therapy
TWI690521B (zh) 2014-04-07 2020-04-11 美商同步製藥公司 作為隱花色素調節劑之含有咔唑之醯胺類、胺基甲酸酯類及脲類
US10222386B2 (en) 2014-09-19 2019-03-05 The Johns Hopkins University Biomarkers of congnitive dysfunction
WO2016057485A1 (en) 2014-10-06 2016-04-14 The Johns Hopkins University A dna methylation and genotype specific biomarker for predicting post-traumatic stress disorder
WO2016134365A1 (en) 2015-02-20 2016-08-25 The Johns Hopkins University Biomarkers of myocardial injury
US10748277B2 (en) 2016-09-09 2020-08-18 Siemens Healthcare Gmbh Tissue characterization based on machine learning in medical imaging
WO2018163435A1 (en) * 2017-03-10 2018-09-13 Omron Corporation Generating learning data
US20190034594A1 (en) * 2017-07-31 2019-01-31 National Cardiac, Inc. Computer-based systems and methods for monitoring the heart muscle of a patient with comprehensive contextual oversight
EP3732489A1 (en) 2017-12-29 2020-11-04 Abbott Laboratories Novel biomarkers and methods for diagnosing and evaluating traumatic brain injury
CN108346144B (zh) * 2018-01-30 2021-03-16 哈尔滨工业大学 基于计算机视觉的桥梁裂缝自动监测与识别方法
US20210239700A1 (en) 2018-05-04 2021-08-05 Abbott Laboratories Hbv diagnostic, prognostic, and therapeutic methods and products
WO2020172712A1 (en) 2019-02-27 2020-09-03 Epiaxis Therapeutics Pty Ltd Methods and agents for assessing t-cell function and predicting response to therapy
CN110189151A (zh) * 2019-06-12 2019-08-30 北京奇艺世纪科技有限公司 一种账号检测方法及相关设备
US20220093252A1 (en) * 2020-09-23 2022-03-24 Sanofi Machine learning systems and methods to diagnose rare diseases
WO2023122723A1 (en) 2021-12-23 2023-06-29 The Broad Institute, Inc. Panels and methods for diagnosing and treating lung cancer
WO2024044578A1 (en) 2022-08-22 2024-02-29 University Of Virginia Dna methylation biomarkers of premenstrual dysphoric disorder and perimenopausal depression
CN116582133B (zh) * 2023-07-12 2024-02-23 东莞市联睿光电科技有限公司 一种变压器生产过程数据智能管理系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
US5649068A (en) 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
WO1999022019A1 (en) * 1997-10-29 1999-05-06 Rutgers, The State University Of New Jersey Linking gene sequence to gene function by three-dimensional (3d) protein structure determination
US7321828B2 (en) * 1998-04-13 2008-01-22 Isis Pharmaceuticals, Inc. System of components for preparing oligonucleotides
EP2296105B1 (en) * 1998-05-01 2012-10-10 Health Discovery Corporation Data processing using support vector machines

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090833A (ja) * 2006-09-06 2008-04-17 Dna Chip Research Inc 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
JP2011515655A (ja) * 2008-02-08 2011-05-19 ヘルス ディスカバリー コーポレイション サポートベクタマシンを用いてフローサイトメトリーデータを分析するための方法及びシステム
JPWO2010050334A1 (ja) * 2008-10-30 2012-03-29 コニカミノルタエムジー株式会社 情報処理装置
JP5533662B2 (ja) * 2008-10-30 2014-06-25 コニカミノルタ株式会社 情報処理装置
WO2012091093A1 (ja) * 2010-12-28 2012-07-05 参天製薬株式会社 緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法
JPWO2012091093A1 (ja) * 2010-12-28 2014-06-05 啓 田代 緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法
US20120203520A1 (en) * 2011-02-03 2012-08-09 Fujitsu Limited Input parameter calculation method and apparatus
US10745694B2 (en) 2015-12-07 2020-08-18 Zymergen Inc. Automated system for HTP genomic engineering
US11155807B2 (en) 2015-12-07 2021-10-26 Zymergen Inc. Automated system for HTP genomic engineering
US10647980B2 (en) 2015-12-07 2020-05-12 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
US11352621B2 (en) 2015-12-07 2022-06-07 Zymergen Inc. HTP genomic engineering platform
US11312951B2 (en) 2015-12-07 2022-04-26 Zymergen Inc. Systems and methods for host cell improvement utilizing epistatic effects
US10808243B2 (en) 2015-12-07 2020-10-20 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
US10883101B2 (en) 2015-12-07 2021-01-05 Zymergen Inc. Automated system for HTP genomic engineering
US10968445B2 (en) 2015-12-07 2021-04-06 Zymergen Inc. HTP genomic engineering platform
US11208649B2 (en) 2015-12-07 2021-12-28 Zymergen Inc. HTP genomic engineering platform
US11085040B2 (en) 2015-12-07 2021-08-10 Zymergen Inc. Systems and methods for host cell improvement utilizing epistatic effects
JP2019162131A (ja) * 2015-12-07 2019-09-26 ザイマージェン インコーポレイテッド Htpゲノム操作プラットフォームによる微生物株の改良
US11155808B2 (en) 2015-12-07 2021-10-26 Zymergen Inc. HTP genomic engineering platform
JP2018189638A (ja) * 2017-05-04 2018-11-29 ヴァイアヴィ・ソリューションズ・インコーポレイテッドViavi Solutions Inc. 近赤外分光法及び機械学習技術による、製造工程におけるエンドポイント検出
KR102245270B1 (ko) 2019-02-25 2021-04-26 서강대학교 산학협력단 학습 데이터에 대한 오버샘플링 방법
KR20200103494A (ko) * 2019-02-25 2020-09-02 서강대학교산학협력단 학습 데이터에 대한 오버샘플링 방법

Also Published As

Publication number Publication date
EP1236173A2 (en) 2002-09-04
CA2388595C (en) 2010-12-21
WO2001031580A3 (en) 2002-07-11
AU1242701A (en) 2001-05-08
EP2357582A1 (en) 2011-08-17
WO2001031580A2 (en) 2001-05-03
JP5064625B2 (ja) 2012-10-31
CA2388595A1 (en) 2001-05-03
AU779635B2 (en) 2005-02-03

Similar Documents

Publication Publication Date Title
JP2003529131A (ja) 生物学的システムにおいてパターンを同定するための方法およびデバイスならびにその使用方法
US7797257B2 (en) System for providing data analysis services using a support vector machine for processing data received from a remote source
US6760715B1 (en) Enhancing biological knowledge discovery using multiples support vector machines
US7117188B2 (en) Methods of identifying patterns in biological systems and uses thereof
US6789069B1 (en) Method for enhancing knowledge discovered from biological data using a learning machine
JP2003500766A (ja) 複数支援ベクトルマシンを使用した複数データセットからの知識発見の増強
WO2001031579A2 (en) Methods and devices for identifying patterns in biological patterns
EP1459235B1 (en) Methods of identifying patterns in biological systems and uses thereof
Pyingkodi et al. Informative gene selection for cancer classification with microarray data using a metaheuristic framework
AU2002253879A1 (en) Methods of identifying patterns in biological systems and uses thereof
Ahmad et al. A review of feature selection techniques via gene expression profiles
Chen et al. Learning vector quantized representation for cancer subtypes identification
KR20200109544A (ko) 공통 유전자 추출에 의한 다중 암 분류 방법
US20220301713A1 (en) Systems and methods for disease and trait prediction through genomic analysis
Sun et al. Efficient gene selection with rough sets from gene expression data
Kiranmai et al. Supervised techniques in proteomics
Huiqing Effective use of data mining technologies on biological and clinical data
Lengerich Sample-Specific Models for Precision Medicine
Şimşek A comparative study of deep learning methods for classification of rna-seq cancer data
Sebastian et al. Breast Cancer Survival Prediction using Gene Expression Data.
Ali et al. Classification and rule generation for colon tumor gene expression data
WO2024020578A2 (en) Systems and methods for engineering cell-type specificity in mrna
Orduña Cabrera et al. Bioinformatics: a promising field for case-based reasoning
Arslan Machine learning methods for promoter region prediction
Ma Effective techniques for gene expression data mining

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071009

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110621

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110628

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20110920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120214

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120809

R150 Certificate of patent or registration of utility model

Ref document number: 5064625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees