JP2013101130A

JP2013101130A - 生体データから隠れたパターンに基づいて生物学的状態相互間を区別する方法

Info

Publication number: JP2013101130A
Application number: JP2012286014A
Authority: JP
Inventors: A Hitt Ben; エー．ヒット，ベン; Emanuel F Petricoin Iii; エフ．，ザサードペトリコイン，エマニュエル; Peter J Levin; ジェイ．レビン，ピーター; Lance A Liotta; エー．リオッタ，ランス
Original assignee: Ahn Gook Pharmaceutical Co Ltd; US Government
Current assignee: Ahn Gook Pharmaceutical Co Ltd; US Government
Priority date: 2000-07-18
Filing date: 2012-12-27
Publication date: 2013-05-23
Also published as: KR101054732B1; JP5246984B2; WO2002006829A3; WO2002006829A2; NO20030251L; KR20030074585A; AU2010246364A1; SG144731A1; EP1386275A2; NO20030251D0; NZ524171A; US20050260671A1; IL153856A0; US6925389B2; AU2001280581A1; US20050043593A9; CN1484806A; JP2004519659A; MXPA03000506A; BR0112667A

Abstract

【課題】隠れた、または明白でない区別的生体データ・パターンの発見および分析を通して、生物学的状態を確定するプロセスを提供する。
【解決手段】対象から採取した生体試料の分析を行うことにより得られたデータ・ストリームを分析することにより対象が疾患を有するか否かを測定する方法であって、該データ・ストリームを表すベクトル、及び、該ベクトルが、多次元空間中の疾患に関係するデータ・クラスター内に存在しているか否かを測定すること、ならびに、該ベクトルが疾患クラスター内に存在する場合には、対象が疾患を有することを示すアウトプットを産生すること、を含んで成る、方法。
【選択図】なし

Description

本出願は、2000年9月12日に出願された出願番号第60／232,909号明細書、2001年3月23日に出願された出願番号第60／278,550号明細書、2000年7月18日に出願された出願番号第60／219,067号明細書および2001年5月8日に出願された「血清中の卵巣癌および前立腺癌のタンパク質シグナルで、データ法アルゴリズムが疾患を明らかにする (A Data Method Algorithm Reveals Disease with Protein Signal of Ovarian and Prostate Cancer in Serum)」（出願番号未定）と題する米国仮出願の優先権を、米国特許法第119条(e)(1)項の規定に基づいて主張する。前記明細書の全体を参照により、本明細書中に組み込む。

I. 発明の分野
本発明の分野は、隠れた、または明白でない区別的生体データ・パターンの発見および分析を通して、生物学的状態を確定するプロセスに関する。生体データは健康データ、臨床データ、または生体試料（例えば、ヒトからの生体試料、例えば、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質（swabbing）、針吸引物質、精液、膣液、射精前物質等）等から得ることができる。このようなデータまたは試料は、ドナーの生物学的状態を確定するために分析される。生物学的状態は、病理学的診断、毒性状態、薬物の有効性、疾患の予後診断等であってよい。

具体的には、本発明は、分析法に関し、この分析法は、ａ）より大きなデータ・ストリームのサブセットである隠れた区別的生体データ・パターン（例えば、器官の生物学的状態を分類する血清試料中のタンパク質発現のパターン）を発見し、前記区別が、学習データセット内の２つ以上の生物学的状態を区別する能力を示唆し、ｂ）前記パターンを未知の試料または試験試料を分類するのに適用する。より具体的には、本発明はデータ・ストリームの分析法に関し、この方法は生体試料中の分子（例えば、タンパク質、ペプチド、ＤＮＡ、ＲＮＡ等）の物理的または化学的な分析（例えば、試料の質量分析）から導き出される。

これらのパターンは、「隠れた」ものとして定義付けされている。なぜならば、これらのパターンは、比較的大きな極めて複雑なデータセット内にしばしば埋もれており、明白でなく、または、眼または他の既存の分類システムでは明らかでない。このパターン自体は、３つ以上の値の組み合わせとして定義付けすることができ、これにより、ｎ次元空間内のベクトルの位置は、個々の値が区別可能でない場合にも生物学的状態相互間で区別的である。本発明の区別的なパターンは新規である。なぜならば、これらのパターンは、生物学的データ内の個々のデータポイント相互間の同一性または関連性の認識なしに、または、生体試料中の分子相互間の同一性または関連性の認識なしに定義付けすることができるからである。

このような生物学的状態を発見するための１つの分析法は、２つの関連ヒューリスティック・アルゴリズムである、学習アルゴリズムと、診断アルゴリズムとを適用することから成り、診断アルゴリズムのパラメータは、学習アルゴリズムを学習データセットに適用することにより設定されるので、２つ以上の生物学的状態を区別することができる。このような生物学的状態は、疾患の有無、薬剤の効果の有無、薬剤の毒性の有無等であってよい。本発明は種々の癌（癌腫、黒色腫、リンパ腫、肉腫、芽細胞腫、白血病、骨髄腫、神経腫瘍等、および、卵巣、前立腺および乳房のような器官の癌を含むが、これらに限定されるものではない）の診断のための総体的、特定的な実施であるが、病原体および毒性の存在も明らかにされる。本発明の好ましい態様は、器官または組織の現在または将来の生物学的状態を反映する分子パターンの発見および使用である。本発明の別の態様は、生物学的状態の分子パターンを記述するデータと他の非生物学的または臨床的データ（例えば、精神医学的事項）とを組み合わせることにより、患者の健康を記述する分類をもたらすことである。

II. 発明の背景
生物学的状態の変化、特に疾患の早期発見は、医学研究および臨床分野の主要な焦点である。従来技術には、組織試料の物理的または化学的な分析により形成されたデータ・ストリームからの診断情報を抽出しようとする取組みの例が含まれる。これらの技術は総体的に「データ・マイニング」と呼ばれる。マイニングされたデータ・ストリームは、２つの形から成るのが典型的である。すなわち、ＤＮＡオリゴヌクレオチド・アレイ（「ＤＮＡマイクロアレイ」）とのハイブリッド形成によるｍＲＮＡ発現のレベルの分析、および、細胞または血清の試料中に存在するタンパク質のレベルの分析である。この場合、タンパク質は、質量分析を用いて分子量によって特徴付けされるか、または、２−Ｄゲル技術を用いて分子量と電荷との組み合わせにより特徴付けされる。

ラジエシュ・パレック（Rajesh Parekh）および共同研究者は、血清または血漿の試料を使用した、タンパク質に基づく肝細胞癌のデータ・マイニング診断について（国際公開第９９／４１６１２号パンフレット）、組織試料を使用した、タンパク質に基づく乳癌のデータ・マイニング診断について（国際公開第００／５５６２８号パンフレット）、また、血清または血漿試料を使用した、タンパク質に基づくリウマチ様関節炎のデータ・マイニング診断について（国際公開第９９／４７９２５号パンフレット）記載している。それぞれのパンフレットにおいて、二次元ゲル分析が実施される。分析は、２−Ｄゲルによって確定される個々のタンパク質のレベルを測定し、正常な組織と比較して悪性度が上昇または低下したタンパク質を同定することから成る。

リオッタ（Liotta）およびペトリコイン（Petricoin）（国際公開第００／４９４１０号パンフレット）は、２−Ｄゲルおよび質量分析の両方を用いる、タンパク質に基づく診断法の付加的な例を提供している。しかし、リオッタおよびペトリコインの分析は、これが特異的な腫瘍マーカーの探索から成るという点で、パレックの分析と同様である。腫瘍マーカーを同定しようという取組みもまた、ＤＮＡマイクロアレイを使用して行われている。ロギング（Loging)・W. T. (2000, Genome Res. 10, 1393-02)は、多形性膠芽腫においてＤＮＡマイクロアレイによって腫瘍マーカーを同定する取組みを記載している。ヘルデンフォーク（Heldenfalk)・I. 他（2001, New England J. Med. 344, 539）は、相互のおよび共通の突発性乳癌から、ＤＮＡマイクロアレイ・データのデータ・マイニングによって、ＢＲＣＡ１およびＢＲＣＡ２突然変異から生じる乳癌の遺伝性の形を区別する腫瘍マーカーを同定する取組みを報告している。

アロン（Alon）他（1999, PNAS 96, 6745-50）は、ＤＮＡマイクロアレイ技術を用いて、結腸腫瘍試料と正常な結腸組織とを比較して、調和的に働く発現レベルを有する遺伝子のクラスターを同定することを記載している。このような研究は実際に、正常な組織と比較して、腫瘍中で相対的に過剰発現または過少発現させられる遺伝子を同定した。しかし、クラスタリング・アルゴリズムは、腫瘍マーカーのタイプのパターンと異なる遺伝子発現の診断パターンを同定できるように構成されたものではない。

腫瘍マーカーとは異なるインジケーターに向けられたデータ・マイニングの取組みが診断に利用されている。これらの取組みは通常、パターン認識法を採用することにより、個々の診断マーカーを同定するか、または、データセット相互の関係を分類する。種々異なる条件下での相関した発現に基づいて、遺伝子をカテゴリーに分類するためのパターン認識法の利用の先駆けとなったのは、アイゼン・M. （Eisen, M.）他 (1998, PNAS 95, 14863-68)；ブラウン・MPS（Brown, MPS）他 (2000, PNAS 97, 262-67)およびアルター・O. （Alter, O.）他 (2000, PNAS 97, 10101-06)であった。一般に、これらの技術はベクトル空間を利用し、この空間内で、各ベクトルは遺伝子またはＤＮＡマイクロアレイ上の位置に相当する。各ベクトルは、種々異なる条件下での遺伝子の相対的な発現レベルに個別に相当するスカラーから構成されている。従って、例えば、ブラウン他は、７９次元ベクトル空間内でベクトルを分析する。この空間内で、各次元は酵母ライフサイクルの段階における時点に相当し、２，４６７個のベクトルのそれぞれは遺伝子に相当する。パターン認識アルゴリズムは、互いに相関して発現する遺伝子のクラスターを同定するのに使用される。主要な関心は遺伝子発現の相関であるから、アイゼン他のパターン認識アルゴリズムおよび関連作業において採用される測定基準は、ピアソン係数または内積型測定基準であり、ユークリッド距離測定基準ではない。クラスタリングが一旦確立されると、各クラスターの有意性は、クラスターの遺伝子のいかなる共通の既知の特性に留意することによっても確定できる。同一クラスター内に見出される、従来特徴付けされていない遺伝子は、これらの共通の特性のうちの１以上を共有し得ることが推定される。

アイゼン他のパターン認識技術は、アリザデー（Alizadeh）およびシュタウト（Staudt）によって、悪性腫瘍のタイプの診断に応用された。アリザデーおよびシュタウトは初めに、それぞれが遺伝子に対応するベクトルを構築した。それぞれのベクトルは、ある特定の差別化状態下における、例えば休止末梢血リンパ球またはマイトジェンによって刺激されたＴ細胞における遺伝子の相対的な発現レベルに対応するスカラーを有する。次いでパターン認識アルゴリズムは、遺伝子の発現の相関に従って遺伝子をクラスタリングし、それぞれの差別化状態の特徴を示す発現パターンを定義付けする。次いで、ｍＲＮＡを遺伝子クラスターの定義付けに用いられるのと同じＤＮＡマイクロアレイとハイブリッド形成することにより、びまん性大型Ｂ細胞リンパ腫（ＤＬＢＣＬ）の試料が分析された。ＤＬＢＣＬは、それぞれが標準的な差別化状態の特徴を示す少なくとも２つの発現パターンを有することが判った。ＤＬＢＣＬの予後は、特徴的な差別化状態と相関することが判った。従って、アリザデーおよびシュタウトにおいて提示され回答された診断に関する論点は、良性であるかまたは悪性であるかを確定することではなく、悪性の遺伝子発現パターンと最も類似した遺伝子発現パターンを有する差別化された細胞のタイプを同定することにより、悪性のタイプまたはサブタイプを確定するのものである。アリザデー他 (2000, Nature 403, 503-511)。急性骨髄性白血病と急性リンパ性白血病とを区別するのに、同様の技術が使用されている。ゴルブ（Golub, T.R.）他、(1999, Science 286, 531-537)。

従って、多数の、すなわち１，０００個を上回るデータポイントを有する物理的または化学的な分析に基づくデータ・マイニング法が、２つのタイプから成ることが判る。すなわち、正常な細胞と比較して、所定のタイプの悪性細胞中で増減する発現レベルを有する遺伝子またはタンパク質のような個々のマーカーを同定するためのデータ・マイニング；および、最も類似する正常な細胞型に従って既知の悪性細胞を分類するために、差別化された正常な細胞型の特徴を示す既知の遺伝子発現のパターンを使用するデータ・マイニング、という２つのタイプである。

従って、単独のマーカー（例えば、腫瘍マーカー）または遺伝子発現クラスター以外の生体データを使用して、生物学的状態を確定することができる方法が必要となる。通常の場合、疾患の病理において単独のマーカーが果たす役割を、生体試料の分析に先立って認識し、確立しなければならず、これには極めて多くの場合、高いコストがかかる。さらに、これらのマーカーは、内部の器官または腫瘍内に局在化し、このようなマーカーを含有する生体試料を得るためには、複雑で侵襲的な局在化された生検を行わなければならない。疾患のような生物学的状態が複雑な場合には、このような試料中に存在する分子の相互関係に関する事前の広範囲な知識なしに、その生物学的状態に固有の複雑なデータを用いて、生物学的状態を診断する能力が例外的に必要となる。

さらに、遺伝子発現クラスター分析は範囲を限定される。なぜならば、このような分析は、その遺伝子の発現が原因となるにせよ、生物学的状態の特徴を示す遺伝子の原因となる作用によって影響されるにすぎないにせよ、このこととは無関係に全ての発現遺伝子の分析を組み込むからである。クラスタリング分析は、当該生物学的状態の特徴を示す遺伝子だけを組み込むのではなく、アッセイから生じたデータ範囲全体を使用し、従ってこの分析は複雑かつ厄介になる。さらに、遺伝子発現分析は核酸抽出法に関与せねばならず、これによりこの分析は複雑になり、時間がかかるようになる。適用時のパターン認識アルゴリズムも難しくなる。なぜならば、採用された遺伝子発現相関が複雑なピアソン係数または内積型測定基準であり、単純なユークリッド距離測定基準ではないからである。

従来技術とは異なり、本発明は、より広範囲な複雑なデータフィールド内のサブセットとして、最適な隠れた分子パターンを発見する。これによりパターン自体は生物学的状態相互間で区別を示す。従って、本発明は、従来技術において開示した分析法と関連する前述の問題の全てを回避し、それまで未知であった診断パターンを発見することができる。このような隠れた分子パターンは、健康データ、臨床データ、または生体データから導き出されたデータ・ストリーム内に存在する。生体データは単純な生体液、例えば、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質等から導出されてよく、このような導出は、定期的なサンプリングを簡単にする。ただしこのような分子パターンの発現は遠隔器官の疾患状態の特徴を示す。生体試料中に存在する特異的腫瘍マーカーまたは分子の相互関係に関する事前の知識は必要とされず、または望まれもしない。本発明はまた、データ生成法およびデータ分析法を開示する。このようなデータ分析法は、最適化アルゴリズムを組み込む。このようなアルゴリズムにおいて、分子パターンは認識されて適応度を試験される。この適応試験において、生体試料の分析に際して、生物学的状態相互間を最良に区別する適応パターンが選ばれる。

III. 発明の概要
本発明は、生物学的状態を事実上診断可能な、または予測可能な生体試料中のある特定の分子の発現パターンがもし全体的に隠れているのでないならば、その微妙なパターンを検出するための、パターン発見法およびパターン発見アルゴリズムを使用することを含む。本発明の１つの態様の場合、このような分子発現パターンは、タンパク質、特に低分子量タンパク質（すなわち、２０，０００Ｄａ未満）の発現パターンである。タンパク質発現のこのような隠れたパターンは、アルゴリズムに提供されたデータ・ストリーム全体の唯一のサブセット、またはいくつかのサブセットから得ることができ、または、データ・ストリーム全体の分析から得ることができる。パターンは、３つ以上の値のベクトルとして定義付けすることができるので、ｎ次元空間におけるベクトルの位置は、個々の値が区別的でなくても、生物学的状態相互間で区別を示す。当該分子は、タンパク質（完全タンパク質、分割タンパク質、または部分発現タンパク質）、ペプチド、リン脂質、ＤＮＡ、ＲＮＡ等のような適切な生体物質であってよい。

生物学的状態相互間を区別する区別的パターンは、生体試料の物理的または化学的な分析から導出されたより大きなデータ・ストリーム内に隠された小さなデータ・サブセットである場合が多い。従って生物学的状態相互間を区別するこのような区別的パターンを見出すためには、この区別的パターンを形成する特徴の最適集合を見出すための手段が必要となる。本発明は特徴のこのような最適集合を見出すためのプロセスを組み込む。種々の分類成功度で本発明を実施するのに、区別的パターンのための多数の特徴選択法を用いることができる。これらの方法としては、統計法、段階的回帰法、線形最適化法等が挙げられるが、これらに限定されるものではない。しかし、統計法は多変量線形回帰のような少なくとも単純な周知の形においてしばしば線形である点で、いくつかの限界を有する。さらに、統計モデルは、非線形データに関して堅牢ではない傾向がある。統計モデルが成功裡に採用できる個々の変数の数は、一般に１０以下であり、事実上好ましい限界は５つまたは６つである。好ましい態様は、遺伝的アルゴリズム、進化計算法を適応パターン認識アルゴリズムに直接に結びつけることにより、最適な特徴集合を効率的に見出す。標題「ヒューリスティックな分類法 (Heuristic Method of Classification) 」（出願日：2001年6月19日、2000年6月19日出願の出願番号60/212,404号明細書の優先権を主張）を参照されたい。

本発明により開示される１つの方法は、２つの関連ヒューリスティック・アルゴリズムである、学習アルゴリズムと、診断アルゴリズムとから成る。診断アルゴリズムは、学習アルゴリズムを学習（または訓練）データセットに適用することにより生成される。学習データセットは、生体試料から形成されたデータセットである。この生体試料には、パターン発見のために当該生物学的状態が提供される。例えば、学習データセットは、確立された生検診断、例えば、良性腫瘍や悪性腫瘍を有する個体の血清から採取されたデータから成ってよい。このことは、学習アルゴリズムが、癌血清試料から正常な血清を区別できるタンパク質の認証（signature）パターンを見出すことを可能にする。

１つの態様では、本発明による方法は、先ず、生体試料に高処理能力の物理的または化学的な分析を受けさせることにより、データ・ストリームを得る。このようなデータ・ストリームとしては、限定するものでなく、サンプル中に見出されたタンパク質、または、種々異なる試験ポリヌクレオチドから成るアレイとのｍＲＮＡハイブリッド形成強度に見出されたタンパク質の質量スペクトル・データが挙げられる。一般には、データ・ストリームは、多数（１０，０００以上）の強度によって特徴付けされる。これらの強度は、種々異なる試料のデータ・ストリーム中の相応する個々のデータが同定可能となるように生成される。

診断法の第１のステップは、ベクトル、すなわち、データ・ストリームの特徴を示す少数（２〜２０１００個、より典型的には５〜２０８個）から成る順序のある集合を算出することである。データ・ストリームをベクトルに変換することを「抽象化」と呼ぶ。この態様では、抽象化は、データ・ストリームから少数の特定の強度を選択することにより実施される。

診断法の第２のステップは、そのベクトルが存在するデータ・クラスターを、もしそれがあるならば確定することである。データ・クラスターは数学的構造である。これらの構造は、ベクトル空間内で固定的サイズを有する互いに重なり合わない「球」と多次元同等物である。このようなデータ・クラスターは超球として知られる。各データ・クラスターの位置および関連診断は、訓練データセットから学習アルゴリズムによって確定される。生体試料のベクトルが既知のクラスター内に存在する場合、試料には、そのクラスターと関連する診断が与えられる。試料ベクトルがいかなる既知のクラスターからも外れて存在する場合、試料はその分類基準には合致しないという診断、または、詳細不明の異型のもの、すなわち「異型試料、ＮＯＳ」であるという診断を下すことができる。例えば、患者から採取された生体試料が特定の癌の悪性状態の分類と合致しない場合、この試料は、非悪性、非正常として、または詳細不明の異型のもの、「異型試料、ＮＯＳ」として分類されることになる。

学習アルゴリズムは、既知の数学的技術と、２つのプリセット・パラメータとの組み合わせを利用する。ユーザーは、ベクトル空間の次元数とデータ・クラスターのサイズとを前もってセットする。典型的には、ベクトル空間は、各次元における強度の変化が一定であるような、正規化されたベクトル空間である。このように、クラスターのサイズは、クラスター内に存在するベクトルの間の最小類似百分率として表すことができる。

１つの態様では、学習アルゴリズムは２つの包括的な部分から成る。これらの部分は、他者によって開発され、この分野では周知である、遺伝的アルゴリズム（J.H. Holland, 「自然系および人為系における適応(Adaptation in Natural and Artificial Systems)」, MIT Press 1992年）および自己編成型適応パターン認識システム(T. Kohonen, 「自己編成・連想記憶(Self Organizing and Associative Memory), 情報科学(Information Sciences)における８集」, Springer Verlag, 1984年; Kohonen, T, 「自己編成マップ (Self-organizing Maps)」, ハイデルベルク、Springer Verlag, 1997年）である。遺伝的アルゴリズムは、これらがあたかも、コンピュータによる自然淘汰プロセスを通して操作可能である個々のエレメントから成る情報であるかのように、複雑なデータセットを編成し分析する。

本発明の場合、それ自体において、かつ自ずから「診断的」な、隠れたまたは微妙な分子発現パターンの探索は、学習アルゴリズムまたはデータ・マイニング技術の従来の実施によって生成されるパターンの探索とは質的に異なる。これまでのデータ・マイニングの実施は、分類を示す特異的分子産物、例えば、病理学的条件において上昇または下降するタンパク質または転写物を同定した。従って、識別された分子産物のレベルはそれ自体、診断的と呼ばれる。なぜならば産物のレベルは、分子産物のレベルを正規化するのに用いられるおそらくは正規化分子産物以外の、試料中の分子産物のレベルをさらに考えに入れることなしに診断に用いられるからである。それ自体診断的なこのような分子産物の一例は腫瘍マーカーである。

これに対して、本発明によるデータ・クラスター分析の場合、特定のマーカー、例えばタンパク質または転写物のレベルの診断有意性は、試料ベクトルを算出するのに用いられる他の要素のレベルに関連する。このような結果を以後、前後関係による診断結果と呼ぶ。このようにデータ・マイニング技術の従来の実施では、当該生体試料と学習データセットとの間の類似は、特定の診断分子産物と比較した、生体試料の特定のグループ分けに基づいていた。しかし本発明の場合、学習アルゴリズムは、データパターンの同一性または関係に関して事前の情報を知ることなしに、すなわち、特定の診断分子産物が特定の分類を示すという事前の入力なしに、全体的に新しい分類パターンを発見する。

本発明は、分類、例えば、癌腫、黒色腫、リンパ腫、肉腫、芽細胞腫、白血病、骨髄腫および神経腫瘍のような癌における悪性度の診断をもたらすために、隠れた、前後関係による診断パターンを見出すという、予期せぬ、または明白でない発見に一部基づく。

IV. （発明の詳細な説明）
本発明は、ａ）生体データを表すデータ・ストリーム（または生体データを表すデータ・ストリームと臨床データ、健康データまたは非生体データとの組み合わせ）を生成し、そのデータを抽象化して固有ベクトルにし；ｂ）分子発現の隠れた診断パターンを発見し（すなわち、パターン発見）；さらに、ｃ）このような分子発現パターンがどの当該生物学的状態を表すのかを確定する、ことを含む。当該分子としては、限定するものではないが、タンパク質、ペプチド、ＲＮＡ、ＤＮＡ等が挙げられる。生体試料としては、限定するものではないが、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質等が挙げられる。

当該生物学的状態は、病理学的診断、毒性状態、薬物の有効性、疾患の予後診断、病期、器官の生物学的状態、病原体（例えば、ウィルス）の存在、１種以上の薬物の毒性等であってよい。本発明は、タンパク質のような或る特定の分子の発現パターンの変化が、非罹患状態とは区別可能であるようないかなる疾患の診断にも用いることができる。このようにして、遺伝的異常を発現させる遺伝的要素を有する疾患、薬物毒性の発現が認められるような疾患、または、体内の分子レベルが影響されるような疾患も、本発明により研究することができる。このような疾患としては、限定するものではなく、癌（癌腫、黒色腫、リンパ腫（ホジキン型および非ホジキン型）、肉腫、芽細胞腫、白血病、骨髄腫および神経腫瘍、例えば膠芽腫等）、アルツハイマー病、関節炎、糸球体腎炎、自己免疫疾患等が挙げられる。癌腫の例としては、限定するものではなく、すい臓、腎臓、肝臓および肺の癌腫；胃腸の癌腫が挙げられる。

本発明は、早期診断が重要であるがしかし症状がないため技術的に難しい特定の疾患の診断、および、病理組織の代謝活性のため、血清中で検出可能な差異を形成することが予期されるような疾患の診断に特に有用である。従って悪性度の早期診断が、本発明を利用する上での主要な焦点となる。

本発明の具体的な構成要素を以下に説明する。

Ａ．データ・ストリームの生成
データ・ストリームは、高処理量データ・ストリームをもたらす生体試料の、いかなる再現可能な物理的または化学的な分析であってもよい。高処理量データ・ストリームは、少なくとも千分の一（３つの有効数字）、より好ましくは一万分の一で定量可能な１，０００個以上の測定値によって特徴付けされることが好ましい。データ・ストリーム生成法は数多く存在する。当該分子がタンパク質またはペプチドの場合、本発明の１つの態様では、データ・ストリームを生成するのに、タンパク質の「飛行時間(time of flight)」形質量スペクトルを使用してもよい。当該分子がタンパク質またはペプチドの場合、より具体的には、マトリックス支援レーザー脱離イオン化飛行時間（ＭＡＬＤＩ−ＴＯＦ）分光法および表面増強レーザー脱離イオン化飛行時間（ＳＥＬＤＩ−ＴＯＦ）分光法を用いてもよい。国際公開第００／４９４１０号パンフレットを一般的に参照されたい。１つの態様では、毒性を表す生物学的状態に対応するデータ・ストリーム、および、病原体を検出するためのデータ・ストリームを生成するのに、ＳＥＬＤＩ−ＴＯＦを用いてもよい。別の態様では、遺伝子発現分類のための連続増幅遺伝子発現（ＳＡＧＥ）を用いて、データ・ストリームを生成することができる。ある特定の環境では、データ・ストリームは、２−Ｄゲル、例えば二次元ポリアクリルアミドゲル電気泳動法（２Ｄ−ＰＡＧＥ）を用いて生成することができる。

臨床病理学の場合、分析のための好ましい患者試料は血清である。しかし、比較的均質な生検標本を用いることもできる。ある特定の病状の場合、他の液体、例えば、滑液を関節炎の鑑別診断に、または尿を膠芽腫の鑑別診断に用いることができる。

ＳＥＬＤＩ−ＴＯＦおよびＭＡＬＤＩ−ＴＯＦのどちらの分析にも含まれる特定のタンパク質は、採用される表面またはマトリックスに依存する。Ｃ−１８アルカン表面のような親油性表面は、陰イオンまたは陽イオン性の表面と比較して特に便利である。しかし、種々異なる表面を利用して同一試料から、複数のスペクトルを生成できることは当業者には明らかである。これらのスペクトルを繋げて、本発明により分析可能な「超スペクトル」をもたらすことができる。同様に、本発明により分析可能な２つ以上の高処理アッセイ法からのデータを１つに合わせることもできる。さらに、本発明に記載した生体データを、臨床データ、健康データまたは非生体データと結びつけることもできる。

使用されるのが表面であれ、マトリックスであれ、表面とマトリックスとの組み合わせであれ、１つの生体試料から次の生体試料まで、表面が確実に均一になるように、大きな注意を払わなければならない。

データ・ストリームには、分子量のような決まった順序を有するパラメータによって本質的には編成されず任意の順序を有する測定値も含むことができる。このように、組織試料が生検標本である場合、データ・ストリーム中の個々の遺伝子の順序が任意であることを認識した上で、２，０００個以上の遺伝子の発現レベルを同時に測定するＤＮＡマイクロアレイ・データをデータ・ストリームとして使用することができる。

当業者には明らかであるように、機器の利用可能な商業的な態様に沿って、生体試料からのデータ・ストリームの生成と、最適な論理染色体に基づくデータ・ストリームの抽象化とを２つの別個のプロセスと考えて、本発明を説明する。しかし、唯一のルーティン設計を選択すると、測定機器自体が抽象機能を発揮することが可能になる。このことによって、このような診断法および特許請求の範囲に対する本発明の関与に変化が生じることはなく、主張した診断法の抽象化部分とベクトル分析部分とを相異なるコンピュータ・デバイス上で実施可能であると見なすことができる。

なお、本発明の方法を用いて、患者試料からの単独のデータ・ストリームを複合診断のために分析することができる。このような複合診断にかかる付加的なコストは僅かである。なぜならば、それぞれの診断にとって特異的なステップはコンピュータ処理だけで済むからである。

Ｂ．抽象化プロセス
本発明の診断プロセスにおける第１のステップは、データ・ストリームを固有ベクトルに変換することである。データは、ピーク全体に１．０の任意の値を割り当て、他の全ての点には所与の分数値を割り当てることにより、抽象化に先立って正規化すると便利である。例えば、データ・ストリームがＴＯＦ質量スペクトルによって生成される実施例の場合、ＴＯＦ質量スペクトルの最も単純な抽象化は、少数のデータポイントの選択から成る。当業者には明らかなように、インターバル全体にわたる平均、または、選択された典型的データから所定の距離を置いたデータポイント相互間のより複雑な和または差のような、複数のポイントのより複雑な関数を構築することもできる。データ・ストリームの強度値のこのような関数も使用することができ、実施例において示す単純な抽象化と同等に機能することが期待される。

やはり当業者に明らかなように、任意のポイントに瞬間的な勾配をつけることにより行われる抽象化が本発明において機能を発揮できるかどうかを、ルーティン実行により確定することができる。従って実施例のルーティン実行時に得られるこのような変化は本発明の範囲内にある。

Ｃ．パターン発見
上記概要において論議した多数の方法により、パターン発見が達成される。ただし好ましい態様の場合、パターン発見は診断アルゴリズムと学習アルゴリズムを含む。本発明のこの態様を実践するために、ルーティン実行者は、学習アルゴリズムを採用することにより、診断アルゴリズムを作成しなければならない。学習アルゴリズムを採用するために、ルーティン実行者は訓練データセットを使用し、２つのパラメータと、次元数と、データ・クラスターのサイズとを選択しなければならない。標題「ヒューリスティックな分類法 (Heuristic Method of Classification) 」を有する米国特許出願明細書（出願日：2001年6月19日、2000年6月19日出願の出願番号60/212,404号明細書の優先権を主張）を参照されたい。

１つの態様の場合、他者によって開発され業界では周知の２つの異なるタイプの、公然と入手可能な汎用ソフトウェア、つまりデータ・ストリームの抽象化を制御する最適な論理染色体（注１）を同定するために論理染色体集合を処理する遺伝学的アルゴリズム（J.H. Holland著「自然系および人為系における適応(Adaptation in Natural and Artificial Systems）と、論理染色体によって生成されたあらゆるベクトル集合に基づいてデータ・クラスターの集合を同定する、メリーランド州グリーンベルトの、Group One Softwareから入手可能な適応型自己編成パターン認識システム（T. Kohonen著「自己編成・連想記憶、情報科学第８集(Self Organizing and Associative Memory, 8 Series in Information Sciences)」 Springer Verlag刊 1984年; Kohonen T著「自己編成マップ(Self-organizing Maps)」ハイデルベルクのSpringer Verlag刊 1997年参照）とを組み合わせることにより、学習アルゴリズムを実行することができる。具体的には、適応型パターン認識ソフトウェアは、均質なデータ・クラスター、すなわち、唯１つの分類タイプを備えた学習集合のベクトルを含有するクラスター内に存在するベクトルの数を最大化する。（注１：「論理染色体」という用語は遺伝学的学習アルゴリズムと関連して使用される。なぜならば、アルゴリズムの論理動作は、再生、選択、組換えおよび変異と類似しているからである。もちろん、ＤＮＡその他における論理染色体の生物学的な態様はない。本発明の遺伝学的学習アルゴリズムは純粋にコンピュータ・デバイスであり、生物学に基づいた情報処理のためのスキームと混同してはならない。）
遺伝学的アルゴリズムは本質的に、固有ベクトルを算出するのに使用されるデータポイントを確定する。ただし専門技術用語と調和させて、選択されるべき特定のポイントのリストを論理染色体と呼ぶ。論理染色体は、固有ベクトルの次元の数と同数の「遺伝子」を含有する。妥当な数のデータポイントから成るいかなる集合も論理染色体であり得る。ただしこの場合、重複する染色体の遺伝子がないことだけが条件となる。遺伝子の順序は本発明にとって重要ではない。

２つの見合った条件がある場合に遺伝学的アルゴリズムを使用することができる。固定サイズの不連続要素から成る集合またはストリングによって、問題に対する特定の解決策が表現可能でなければならない。これらの要素は数字または文字であってよい。さらなる解決策をもたらすために、ストリングを組み換えることができる。また各解決策の相対的な長所を示す数値、つまりその適応度を算出できなければならない。このような条件下では、遺伝学的アルゴリズムの詳細は、解決が求められている問題とは無関係である。従って、本発明の場合、汎用の遺伝学的アルゴリズム・ソフトウェアを採用することができる。アルゴンヌ国立研究所から入手可能なＰＧＡＰａｃｋライブラリのアルゴリズムが適している。特定の論理染色体の適応度の算出について、以下に説明する。

説明のための例では、約１００個の試料データ・ストリームから成る訓練データセットを使用した。それぞれの試料データ・ストリームは約１５，０００個のデータポイントを含有する。遺伝学的アルゴリズムを、ランダムに選択した１５，０００個の論理染色体で初期化した。アルゴリズムが進行するのに伴い、より適応性の高い論理染色体は複製され、より適応性の低い論理染色体は終結される。論理染色体間で組換えが行われ、突然変異が生じる。この突然変異は、染色体の要素のランダムな置き換えによって発生する。論理染色体の最初に選択された集まりがランダムであることは、本発明の重要な特徴ではない。極めて高い可変性を有するデータポイントを同定するためにデータ・ストリームの全体集合を予め選別することは有用であるが、しかしこのような技術は、所望しない初期化の傾向を招いてしまうおそれもある。このようなプロセスを生き延びた最良適応パターンは、生物学的状態相互間を区別し、望ましい分類を確定するのに用いられる。

Ｄ．パターン認識プロセスおよび適応度スコア生成
遺伝学的アルゴリズムによって生成される論理染色体のそれぞれの適応度スコアが算出される。適応度スコアの算出には、所与の論理染色体に最適なデータ・クラスター集合を生成することが必要になる。データ・クラスターは単に、訓練データセットの目的ベクトルが内在するベクトル空間の容積である。最適なデータ・クラスター集合の生成法は、本発明にとって重大ではなく、後で考察する。しかし、データ・クラスター・マップを生成するのにどのような方法を使用するのであれ、マップは以下の規則、すなわち：(i)各データ・クラスターはそのデータ・クラスター内に位置するデータポイントの中心に配置すべきであり、(ii)２つのデータ・クラスターが重なり合ってはならず、(iii)正規化ベクトル空間内の各クラスターの次元が、マップの生成に先立って固定される、という規則によって制約される。

上述のように、学習アルゴリズムを採用するために、ルーティン実行者は訓練データセットを使用し、２つのパラメータと、次元数と、データ・クラスターのサイズとを選択しなければならない。両パラメータは、ルーティン実験を用いて設定することができる。ベクトルにおける次元数には絶対的または固有の上限はないが、しかし、学習アルゴリズム自体が各実行中に次元数を本質的に制限する。次元数が過度に少ないかまたはクラスターのサイズが過度に大きいと、学習アルゴリズムは、全てのサンプルを均質なクラスターに正確に分類する論理染色体を生成しそこなう。次元数が多すぎる場合には逆のことが言える。この環境下では、学習アルゴリズムは、学習プロセスの早期に、最大限可能な適応度を有する多くの論理染色体を発生させ、したがって、実りのない選択しか行えない。同様に、データ・クラスターのサイズが余りにも小さいと、クラスターの数は訓練データセット内のサンプルの数に近似するのが判り、また、やはりこの場合もルーティン実行者は、多数の論理染色体が最大適応度をもたらすことを見出すことになる。

当業者には明らかなように、訓練データセットはほぼ常に均質なデータ・クラスターに割り当てることができる。従って、学習アルゴリズムによって生成された診断アルゴリズムの値は、訓練データセット以外のデータセットを選別する診断アルゴリズムの能力によって試験されなければならない。学習アルゴリズムが生成する診断アルゴリズムが、訓練データセットを首尾よく割り当てるものの、試験データセットを不十分にしか割り当てない場合、訓練データは、学習アルゴリズムによって過剰適応させられたと言われる。過剰適応は、次元数が過度に多い場合、および／または、データ・クラスターのサイズが過度に小さい場合に生じる。

データ・クラスターのサイズを定義付けするのに用いられる方法は、本発明の一部である。クラスターのサイズは、データ・クラスターのあらゆる２つの構成要素の間のユークリッド距離（根二乗和）に相当する最大値によって定義付けすることができる。データ・ストリームがＳＥＬＤＩ−ＴＯＦ質量分析データによって生成される場合、本発明には、９０％の類似率の要求に相応するデータ・クラスターのサイズが適している。数学的には、９０％の類似率は、クラスターのあらゆる２つの構成要素間の距離が、正規化ベクトル空間内の２つのポイント相互間の最大距離の０．１未満であることを要求することにより定義付けされる。この算出に際して、ベクトル空間は、訓練データセット内のベクトルの各スカラーの範囲が０．０〜１．０となるように正規化される。こうして正規化された、ベクトル空間内のあらゆる２つのベクトル間の最大限生じ得る距離はルートＮとなる。この場合Ｎは次元数である。各クラスターのユークリッド直径は０．１ × ルート（Ｎ）となる。

ベクトル空間の特定の正規化は、この方法の重大な特徴ではない。前述の方法は、算出を簡単にするために選択したものである。それぞれの次元を所定の範囲に合わせるのではなく、各次元が等しい差異を有するように基準化することにより、別の正規化を達成することもできる。

当業者にはさらに明らかなように、データ・ストリーム内の値の分布が正規分布または非正規分布された対数である場合、データ・ストリームを、対数の形に変換してもよい。

論理染色体のための最適なデータ・クラスター集合が生成されると、その染色体に対応する適応度スコアを算出することができる。本発明の場合、染色体の適応度スコアは、均質なクラスター内、すなわち、単独診断を有する試料からの固有ベクトルを含有するクラスター内に存在する訓練データセットのベクトルの数に概ね相当する。より正確に述べるなら、適応度スコアは、それぞれのクラスターに均質性スコアを割り当てることにより算出される。均質性スコアは、均質なクラスターに対応する０．０から、等しい数の悪性および良性の試料ベクトルを含有するクラスターに対応する０．５まで変化する。染色体の適応度スコアは、データ・クラスターの平均適応度スコアである。従って、０．０の適応度スコアは最も適応度が高い。論理染色体はより多くのデータ・クラスターを生成する傾向がある。すなわち、２つの論理染色体がデータの割り当てにおいて同数のエラーを有する場合、論理染色体がより多数のクラスターを生成すると、平均均質性スコアは低くなり、ひいては適応度スコアがより良好になる。

データ・クラスターを生成するための好ましい技術は、コホーネン（Kohonen）によって開発された自己編成マップ・アルゴリズムを使用することである（Kohonen, T, 「自己編成マップ (Self-organizing Maps)」, ハイデルベルク、Springer Verlag, 1997年）。「リード・クラスター・マップ(Lead Cluster Map（ＬＣＭ）)」または「アダプティブ・フィーチャ・マップ(Adaptive Feature Map)」と様々に呼ばれるこの種の技術は、公然と入手可能な汎用ソフトウェアによって実施することができる。適切な製造供給元および製品には、Group One Softwareから入手可能なモデル１(Model 1)およびアダプティブ・フィーチャ・マップ(Adaptive Fuzzy Feature Map) (American Heuristics Corp.)が含まれる。ＬＣＭは、a) 非線形モデル化法であり; b) 独立変数が事実上無限であり； c) 他の非線形モデル化技術と比べて適応性を有する、という重要な利点を有する。ＬＣＭはデータストリーム中の新規なパターンを検出し、めったにないパターンを追跡することができる。このことは生物学的状態、つまりウィルスへの変異を分類する上で特に重要である。

Ｅ．特定の態様の説明および検証
１．前立腺癌の診断の経緯
上述の学習アルゴリズムを利用して、５５人の血清試料のＳＥＬＤＩ−ＴＯＦ質量スペクトル（ＭＳ）を使用した前立腺癌の診断のために、本発明を採用した。これらの試料のうち３０個の試料は、生検により前立腺癌と診断されており、４．０ｎｇ／ｍｌを上回る前立腺血清抗原（ＰＳＡ）レベルを有しており、２５個の正常な試料は１ｎｇ／ｍｌ未満のＰＳＡレベルを有している。７つの分子量値（２０９２、２３６７、２５８２、３０８０、４８１９、５４３９および１８，２２０Ｄａ）を選択することにより、ＭＳデータを抽象化した。７個の分子量値を選択することにより、ＭＳデータを抽象化した。特定の分子量は本発明の重要なパラメータではなく、吸収面に応じて変わってよい。訓練データセット内の各ベクトルを均質なデータ・クラスターに割り当てるクラスター・マップを生成した。クラスター・マップは３４個のクラスター、つまり１７個の良性クラスターと１７個の悪性クラスターとを含有した。

訓練データセットから排除された２３１個のサンプルを使用して、診断アルゴリズムを試験した。種々の臨床診断および病理学的診断を有する患者から採取した６組の試料を使用した。病理学的・臨床的記述およびアルゴリズムの結果は次の通りであった：１）ＰＳＡ＞４ｎｇ／ｍｌを有し、生検で癌と証明されている２４人の患者のうち、２２人が疾患データ・クラスターに位置し、２人はどのクラスターにも位置しなかった；２）６人の正常者は全て健康クラスターに位置した；３）良性前立腺肥大（ＢＰＨ）または前立腺炎を患い、ＰＳＡ＜４ｎｇ／ｍｌを有する３９人のうち、７人は疾患データ・クラスターに位置し、健康データ・クラスターに位置する者はおらず、３２人がどのデータ・クラスターにも位置しなかった；４）ＢＰＨまたは前立腺炎を患い、４＜ＰＳＡ＜１０ｎｇ／ｍｌを有する１３９人の患者のうち、４２人が疾患データ・クラスターに位置し、２人が健康データ・クラスターに位置し、９５人がどのデータ・クラスターにも位置しなかった；５）ＢＰＨまたは前立腺炎を患い、ＰＳＡ＞１０ｎｇ／ｍｌを有する１９人のうち、９人が疾患データ・クラスターに位置し、健康データ・クラスターに位置する者はおらず、１０人がどのデータ・クラスターにも位置しなかった。生検で悪性腫瘍と証明されており、ＰＳＡ＞１０ｎｇ／ｍｌを有する患者から、前立腺摘除の前後に試料を採取することにより、第６のデータセットを作成した。予想通り、手術前の７つの試料のそれぞれは疾患データセットに割り当てられた。しかし、手術の６週間後、ＰＳＡレベルが１ｎｇ／ｍｌ未満に低下した時点で採取されたサンプルは、いかなるデータセットにも割り当てることができなかった。これらの結果を表１に要約する。

前述の試験の結果を評価するときには、４〜１０ｎｇ／ｍｌのＰＳＡを有し、生検により良性と診断された患者の潜伏癌の率が約３０％であることを思い出さなければならない。従って、高ＰＳＡを有するがしかし癌の組織診断は下されていない患者の１８％〜４７％が悪性であるという所見は、悪性腫瘍の存在の正確な予測を裏付けている。

目下のところより重要なのは、非癌・非正常カテゴリーが訓練中には存在しなかったにもかかわらず、診断アルゴリズムが３）、４）および５）のうちの試料を有意な割合で非癌・非正常カテゴリーに分類できることである。実際に、この群からのいずれの試料も相当数の潜伏癌キャリヤを必ず含むことになるという事実から、ＢＰＨまたは前立腺炎試料が訓練データセット内に含まれているはずがないことが明らかである。

２．卵巣癌の診断の経緯
再び患者の血清のＳＥＬＤＩ−ＴＯＦＭＳ分析を利用して、卵巣癌の診断アルゴリズムを生成するのに、上述の方法を採用した。クラスター集合マップを構築するのに、１００個の試料から成る訓練集合を用いた。５つの分子量（５３１、６８１、９０３、１１０８および２８６３ｍ／ｅ）を選択することにより、ＭＳデータを抽象化した。１５個の疾患クラスターと１１個の健康クラスターとから成るクラスター・マップを構築した。卵巣癌であることが証明されている訓練データセット中の５０個の試料のうち、４０個が疾患データ・クラスターに割り当てられ、残りの１０個は偽陰性に割り当てられた。健常者からの５０個の試料のうち、４４個が健康データ・クラスターに割り当てられ、残りの６つは偽陽性に割り当てられた。

選択された分子量のそれぞれに関して、健康データ・クラスターの値および疾患データ・クラスターの値の範囲が重なり合うことが判った。実際、５つの分子量のうちの４つに関して、疾患データ・クラスターの範囲は、健康データ・クラスターの範囲を包含する。さらに、検出された診断パターンは、腫瘍マーカーによってもたらされたものではなく、前後関係による診断結果によってもたらされたものである。

さらに１００個の試料を用いて、診断アルゴリズムを試験した。これらの試料を３つの臨床的、病理学的な群に分けた。これらの群およびアルゴリズムの結果は以下の通りであった：１）疾患を有していない患者からの５０個の試料のうち、４７個が健康データ・クラスターに割り当てられ、３つが疾患データ・クラスターに割り当てられ；２）卵巣癌第II期、第III期、または第IV期の３２人の患者の全てが疾患データ・クラスターに割り当てられ、さらに、３）卵巣癌第I期の１８人の患者の全てが、疾患データ・クラスターに位置した。これらの結果を表２に要約した。

３．早期疾患に対する感度
２００個の標本から成る卵巣癌研究集合内の、ランダムに選択した血清（対照集団から５０個および疾患集団から５０個の血清）から成る集合を、ＳＥＬＤＩ−ＴＯＦ質量分析およびこれに続く生物情報学法の訓練に際して選択した。１５，０００⁵個のパターン順列から成る開始集合から見出された、５３４、９８９、２１１１、２２５１および２４６５Ｄａの５つの独立した分子量領域における質量強度のパターンは、９８％（４９／５０）の卵巣癌試料と９４％の対照とを、訓練集合において正しく分離した。最適なタンパク質の（proteomic）パターンは、診断内容を知らせない事例からの１００個のＳＥＬＤＩ−ＴＯＦデータ・ストリームで挑戦して、１００個の未知の試験試料中に含有された５０個全ての癌標本内の卵巣癌の存在を正確に予知することができた（５０／５０、９３％〜１００％の９５％信頼区間）。このような予知は、１８／１８の第I期癌の正確な分類（８２％〜１００％の９５％信頼区間）を含む一方、癌のないことを知らせない試料に対する特異性を維持する（４７／５０、８４％〜９９％の９５％信頼区間、カイ二乗検定でｐ全体＜１０^-10）。これらの結果は、血清中の低分子量タンパク質のパターンが、隔たった部位の器官内部の組織の病理の変化を反映するという仮説を裏付ける。さらに、このようなパターンは、早期の病理学的変化の敏感なインジケータであり得る。それというのも、このようなパターンは、器官に閉じ込められた第I期の卵巣癌標本からの１８個の血清全てを正確に分類したからである。

４．前立腺癌および良性前立腺肥大症の存在の特定、予知および区別
先ず、本発明により、無症状の、年齢の整合した男性から導出された血清から、生検によって前立腺癌であることが証明された男性からの血清を区別可能なタンパク質のパターンを見出すことに挑戦した。訓練集合は５６個の血清から成り、そのうち３１個は、生検によって前立腺癌が証明された無症状の男性からのものであり（ＰＳＡ＞４ｎｇ／ｍｌ、平均１４．５ｎｇ／ｍｌ）、２５個は、前立腺癌の証拠のない、年齢の整合した男性からのものである（ＰＳＡ＜１ｎｇ／ｍｌ、平均０．３ｎｇ／ｍｌ）。これら５６個の血清をＳＥＬＤＩ−ＴＯＦによって分析した。パターン発見分析は、２０９２、２３６７、２５８２、３０８０、４８１９、５４３９および１８２２０Ｄａの特定の分子量における、（１５，０００⁷個の可能な順列からの）７つのタンパク質ピークを組み合わせた正規化強度の有意なパターンを見出した。これらのパターンは前立腺血清訓練集合において分析された５６個全ての試料を区別することができた。

訓練後、最適なタンパク質のパターンを、２２７個の内容を知らせない血清試料で試験した。内容を知らせない研究集合は、ａ）捕集時点で４〜１０ｎｇ／ｍｌのＰＳＡ値を有する、無症状であり、次いで生検により癌と証明された男性からの２４個の血清、ｂ）年齢の整合した６人の男性からの対照血清（ＰＳＡ＜１ｎｇ／ｍｌ）、およびｃ）生検により良性前立腺肥大症または前立腺炎と証明された男性からの１９７個の血清（ＰＳＡ値範囲：０．４ｎｇ／ｍｌ〜３６ｎｇ／ｍｌ）を含有した。

前立腺認証パターンを用いて、データ・マイニング・ツールは、４〜１０ｎｇ／ｍｌのＰＳＡ値を含有する１７／１８を含めて、内容を知らせない研究集合中の前立腺癌の存在を正確に予知することができた（９２％、２２／２４、ＢＰＨ患者と比較してｐ＜０．０００００１）。重要なのは、生検によってＢＰＨと証明された患者の７０％（１３７／１９７）が独自（非正常・非癌）の表現型に属するとして分類されたことである。ＢＰＨ陽性集団からの血清の１％だけが正常表現型として分類された。６個の健康対照からの血清を、生検により癌と証明された２４人の患者の血清と比較すると、６／６人の健康な患者が正しく分類され、これと比較して２２／２４人の前立腺癌患者が正しく分類された（ｐ＜０．０００００１）。さらに、ＰＳＡレベルの上昇（ＰＳＡが上昇した正常、ＢＰＨ）と、疾患の重症度分類の上昇との間の関係には統計学的に有意な傾向が生じた（ｐ＝１．４ × １０^-4）。前立腺切除治療を受けた７被験者のうちの７人からの適合された血清から成るブラインド集合において、最適化前立腺認証は、癌表現型から非癌（ただし非正常）表現型に戻った（ｐ＝０．０１６；５９％〜１００％の９５％信頼区間）。

５．試料源の調製および分析
ａ．卵巣癌
施設内治験審査委員会(Institutional Review Board: IRM)完全管理に従って、早期発見研究ネットワーク（Early Detection Research Network: EDRN)の全国卵巣癌早期発見プログラム(National Ovarian Cancer Early Detection Program)から、匿名の卵巣スクリーニング血清を得た。この集合は、２００人の無症状の女性からの血清を含有し、このうち１００人は試料採取時点で卵巣癌を患い、１００人は、家系または以前の乳癌診断から判断して卵巣癌の危険がある対照女性である（表３）。この罹患していない女性群は、過去５年間にわたって追跡されており、病気にかかっていない。診断および介入に先立って、全ての血清を得た。疾患集団は、組織学的に確認された漿液性乳頭状癌、類内膜癌、明細胞癌、粘液性癌、腺癌および全ての段階の混合型卵巣癌を含んだ。疾患集団における全ての女性は、広範囲な外科的審査および正式なＦＩＧＯ段階付けを受けた。

ｂ．前立腺癌
匿名の前立腺スクリーニング血清研究集合を、前立腺癌スクリーニング・クリニックから得た。ここではインフォームド・コンセント承認下で試料を得た（２７７個の試料）（表３）。施設内治験審査委員会承認のインフォームド・コンセント下で国立癌研究所 (National Cancer Institute)で、付加的な２０個の匿名の標本を捕集した。1996年にチリでの試行が開始され、５年間続けられた。被験者資格基準は、前立腺癌の病歴がない５０歳を上回る無症状の男性であることを必要とした。全ての男性は血清試料を提供し、次いで医学評価およびデジタル直腸検査を受けた。次いで血清ＰＳＡ＞４．０ｎｇ／ｍｌであるかまたはデジタル直腸検査で疑わしいと考えられる男性は、病理診断のためにシングルコア針生検を受けた。前立腺癌は段階全範囲（I〜III）およびグリーソン・スコア（４〜９）で表した。ＮＣＩで取得した２０個の血清は、ａ）診断時および生検により、器官に閉じ込められた前立腺癌の存在が証明された、診断時点および前立腺切除から６週間後の７人の男性、およびｂ）ＰＳＡ＜１．０ｎｇ／ｍｌの正常な健康な男性有志から採取されたものである。医学検査、診断および処置に先立って、全ての血清を得た。全ての血清を捕集し、遠心分離し、アリコートし、使用するまで液体窒素中に保存した。受け取った血清を一度融解し、１０ミリリットルのアリコートに分離し、次いでＳＥＬＤＩ−ＴＯＦ分析を実施するまで液体窒素中に再冷凍した。

５．タンパク質分析
Protein Biology System 1 ＳＥＬＤＩ−ＴＯＦ質量分析計 (カリフォルニア州フリーモント在、Ciphergen Biosystems)でタンパク質質量認証を生成するために、血清を一度融解して使用した。アンギオテンシンＩ（アミノ酸配列１〜１０）とウシのシトクロムｃ(カリフォルニア州フリーモント、Ciphergen Biosystems)とをそれぞれ１２８６．５Ｄａおよび１２２３０．９Ｄａの質量で使用して、外部質量較正を達成した。１０００〜２０，０００Ｄａ質量範囲内でＣ１８逆相疎水性相互作用表面に結合可能な全てのタンパク質のタンパク質プロフィールを生成した。有機酸マトリックス表面は、α−シアノ−４−ヒドロキシ−桂皮酸（ＣＨＣＡ）であった。このマトリックスは、選択された標的(bait)からの完全タンパク質電離のために、タンパク質混合物と共結晶化することが必要とされる。

試料調製：１マイクロリットルのアセトニトリル（ミズーリ州セントルイス、Sigma-Aldrich Co.）を、８−フィーチャ（feature）Ｃ１８疎水性相互作用タンパク質チップ(カリフォルニア州フリーモント、Ciphergen Biosystems)の試料スポットに加えた。このチップは、タンパク質毎に特異的な固有一次アミノ酸配列に依存する疎水性相互作用を介してタンパク質と結合することになる。アセトニトリルの塗布に続いて、１μＬの血清を添加した。試料をチップ上で空気乾燥させた。チップを４分間、脱イオン水中で渦状に運動させることにより、強力に洗浄し、空気乾燥させた。最後に、０．５μＬのＣＨＣＡ溶液を添加した。マトリックス溶液を乾燥させた後、付加的な０．５μＬのマトリックスを各試料に塗布し、空気乾燥させた。Ｃ１８チップを選んだ理由は、このチップが、最も多数の相異なるタンパク質認証およびペプチド認証を一貫して、かつ再現可能に生成することが判ったからである（データは図示せず）。ＳＥＬＤＩ−ＴＯＦは、他の飛行時間形分光分析技術と同様に、低分子量範囲（＜２０，０００Ｄａ）においてその最良の感度を有する。データを記録し、ＳＥＬＤＩプロテイン・バイオロジー・システム（バージョン２．０）ソフトウェア（カリフォルニア州パロアルト在、Ciphergen Biosystems, Inc.）での分析のために最適化した。フィルタリングや規準化を全くしていない生のＳＥＬＤＩデータを、データ・マイニング・ツールによる分析のために、ＡＳＣＩＩデータ・ファイルに変換した。

６．薬物毒性の検出
ドキソルビシンで処置されたラットからの生体試料から得られたデータ・ストリームで、本発明の方法を試験した。このドキソルビシンは心臓毒性を生じさせることが証明されている。生理食塩水で対照を処置した。心臓毒性を示すラットから得られた生体試料は、１００％の選択度と１００％の感度とで正確に分離され、偽陽性はなかった。表４参照。

７．薬物処置の検出
ドキソルビシンおよび心臓保護剤とでラットを処置した。従って、毒性を有する動物と、毒性を有しない動物とがいることになる。表８に示すように、本発明の方法を用いて、処置された動物は１匹を除いて全て正しく同定することができ、誤分類されたのは２匹の対照動物だけであった。表５参照。

８．ウィルスの検出
細胞溶解物中でシミアン・フォーミ・ウィルス (Simian Foamy Virus) を検出した。感染細胞からの溶解物は時間の８０％（８／１０）だけ、偽陽性なしで正しく分類された。表６参照。

９．卵巣癌のためのウィンドイング(windowing)技術の利用
最初の具体化は、タンパク質データ・ストリーム中の１００個の連続的な特徴から成る群を単純な試行錯誤で選択することに基づく。適応パターン認識アルゴリズム、Lead Cluster Map（ＬＣＭ）を採用した。データ・ストリームのサンプリングは、走行毎にデータ・ストリーム中の異なる点において開始した。走行は、１００個の特徴から成る１４〜１５の集団を集めることから成る。連続２５回の走行後、最良のモデルが、ほぼ３０％の偽陽性率で、正しい生物学的状態を８０％だけ正確に予知した。これらの結果は、生物学的状態を分類する上でタンパク質パターンの使用が有効であることを示す。実際に、このようなレベルの精度を有するモデルは、有力な治療用化合物をバッチ・スクリーニングするのに極めて適するはずである。表７参照。

１０．乳癌の検出
乳癌患者から採取した乳頭吸引分質を、本発明のプロセスを用いて分類した。乳頭吸引物質を質量分析にかけ、この物質にパターン発見法を施した。９２％近くの感度を観察した。表８参照。

Claims

生体データから生物学的状態を分類する方法であって、前記生物学的状態を記述している区別的パターンを検出することにより、生体データから生物学的状態を分類する方法。
生体データから生物学的状態を分類する方法であって、該方法が以下のステップ、すなわち：
ａ．データ・ストリーム内のより大きいデータセットのサブセットである、学習データセットでの成功により定義付けされた区別を示す区別的パターンを検出するステップと、
ｂ．既知のデータサンプルまたは試験データサンプルを分類するために、前記区別的パターンを適用するステップと、
ｃ．生物学的状態を示す、個々のデータポイントが区別的でなくても区別的である前記区別的パターンを使用することにより、未知のデータサンプルを分類するステップと、
から成る、生体データから生物学的状態を分類する方法。
既知の生物学的状態を定義付けする複数の所定の診断クラスターを有するベクトル空間を使用して区別的パターンを検出することにより、生体データ内の生物学的状態を分類する方法であって、該方法が以下のステップ：
ａ．前記生体データを記述する正規化されたデータ・ストリームを形成するステップと；
ｂ．前記データ・ストリームを特徴付けする試料ベクトルを算出するために、前記データ・ストリームを抽象化するステップと；
ｃ．前記試料ベクトルが内在する診断クラスターを、もしこれがあるならば同定するステップと；
ｄ．前記同定された診断クラスターの診断を前記生体データに割り当てるか、または、同定されるクラスターがない場合には、異型試料、ＮＯＳという診断を前記生体データに割り当てるステップと、さらに；
ｅ．前記生物学的状態を記述した、個々のデータポイントが区別的でなくても区別的である前記区別的パターンを使用することにより、未知のデータサンプルを分類するステップと
を含む、生体データ内の生物学的状態を分類する方法。
前記区別が、学習データセットにおける成功によって定義付けされ、前記学習データセットが、生物学的状態が知られている生体データから形成される、請求項１から３までのいずれか１項に記載の方法。
前記生体データが、生体試料中の分子の発現を記述するデータである、請求項１から３までのいずれか１項に記載の方法。
前記生体データが臨床データから導出される、請求項１から３までのいずれか１項に記載の方法。
生体データが、臨床データと、生体試料中の分子の発現を記述するデータとの組み合わせである、請求項１から３までのいずれか１項に記載の方法。
生体データが、非生体データと、生体試料中の分子の発現を記述するデータとの組み合わせである、請求項１から３までのいずれか１項に記載の方法。
前記分子が、タンパク質、ペプチド、リン脂質、ＤＮＡおよびＲＮＡから成る群から選択される、請求項５に記載の方法。
前記分子が、タンパク質、ペプチド、リン脂質、ＤＮＡおよびＲＮＡから成る群から選択される、請求項７に記載の方法。
前記分子が、タンパク質、ペプチド、リン脂質、ＤＮＡおよびＲＮＡから成る群から選択される、請求項８に記載の方法。
前記生体試料が、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質から成る群から選択される、請求項５に記載の方法。
前記生体試料が、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質のような体液から成る群から選択される、請求項７に記載の方法。
前記生体試料が、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質のような体液から成る群から選択される、請求項８に記載の方法。
前記生体試料が、組織培養上清、凍結乾燥組織培養、およびウィルス培養から成る群から選択される、請求項５に記載の方法。
前記生体試料が、組織培養上清、凍結乾燥組織培養、およびウィルス培養から成る群から選択される、請求項７に記載の方法。
前記生体試料が、組織培養上清、凍結乾燥組織培養、およびウィルス培養から成る群から選択される、請求項８に記載の方法。
前記生物学的状態が疾患である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が病期である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が疾患の予後である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が身体内部器官の疾患である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が身体内部器官の病期である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が身体内部器官の健康である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が１種以上の化学薬品の毒性である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が１種以上の化学薬品の相対毒性である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が薬物の有効性である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が１種以上の薬物の有効性である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が治療の養生法に対する感応性である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が身体器官の動揺状態である、請求項１から３までのいずれか１項に記載の方法。
前記生物学的状態が１種以上の病原体の存在である、請求項１から３までのいずれか１項に記載の方法。
前記疾患が、罹患状態における固有分子の発現パターンの変化が非罹患状態とは異なる疾患である、請求項１８に記載の方法。
前記疾患が癌である、請求項１８に記載の方法。
前記疾患が自己免疫疾患、アルツハイマー病および関節炎から成る群から選択される、請求項１８に記載の方法。
前記疾患が糸球体腎炎である、請求項１８に記載の方法。
前記疾患が感染病である、請求項１８に記載の方法。
前記癌が癌腫、黒色腫、リンパ腫、肉腫、芽細胞腫、白血病、骨髄腫および神経腫瘍から成る群から選択される、請求項３２に記載の方法。
前記癌腫が前立腺癌である、請求項３７に記載の方法。
前記癌腫が卵巣癌である、請求項３６に記載の方法。
前記データ・ストリームが、高処理量データ生成法によって形成される、請求項２または３に記載の方法。
前記データ・ストリームが、飛行時間形質量スペクトルである、請求項２または３に記載の方法。
前記飛行時間形質量スペクトルが、表面増強レーザ脱離飛行時間形質量分析によって生成される、請求項４０に記載の方法。
前記飛行時間形質量スペクトルが、マトリックス支援レーザ脱離イオン化飛行時間によって生成される、請求項４０に記載の方法。
前記方法がさらに、パターン認識法を用いることから成る、請求項１から３までのいずれか１項に記載の方法。
前記パターン認識法がさらに、学習アルゴリズムと診断アルゴリズムとを含む、請求項４３に記載の方法。
前記方法がさらに、学習データ・ストリーム集合を用いることによって、当該生物学的状態に対応する診断アルゴリズムを構築することを含み、前記診断アルゴリズムが、固定数の次元のベクトル空間内で所定の等しいサイズの複数の診断クラスターを有することを特徴とし、以下のステップ、すなわち：
ａ．各学習データ・ストリームが既知の生物学的状態で生体試料を記述する、学習データ・ストリーム集合を提供するステップと；
ｂ．前記データ・ストリームの所定数のポイントの位置を指定するランダムな論理染色体の初期集合を選択するステップと；
ｃ．前記染色体によって指定された位置でのデータ・ストリームを抽象化することにより、各染色体および各データ・ストリームに対応するベクトルを算出するステップと；
ｄ．均一なステータスを有するクラスター内に存在するベクトルの数を最大化する所定の等しいサイズの複数の非重複データ・クラスターのベクトル空間内の位置を見出すことにより、前記ベクトルの数が多くなればなるほど高くなる、各染色体の適応度を確定するステップと；
ｅ．前記ステップ（ｃ）および（ｄ）とを繰り返し、適応度が低い論理染色体を終結し、高適応度の論理染色体を複製し、前記染色体を組換え、ランダムに修飾することから成る反復プロセスによって、前記論理染色体集合を最適化するステップと；
ｆ．前記反復プロセスを終結し、非重複データ・クラスターの好ましい集合を可能にする論理染色体を選択するステップと；さらに、
ｇ．前記選択された論理染色体と、均質な非重複データ・クラスターとを構築する診断アルゴリズムを構築するステップと
を含む、請求項１から３までのいずれか１項に記載の方法。
前記方法がさらに、最適化された染色体と、データ・クラスターの適応度最大化集合とを具体化する診断アルゴリズムを試験することにより、前記診断アルゴリズムがいかに正確に試験データ・ストリーム集合を診断するかを確定するステップを含み、前記試験データ・ストリーム集合がそれぞれ、前記学習データ・ストリームとは無関係な既知の診断を有する、請求項４５に記載の方法。
前記ベクトル空間が５〜１０個の次元を含有する、請求項４５に記載の方法。
個体の器官の疾患を診断する方法であって、該方法が：
ａ．被験体からの生体試料を分析し、前記分析から、前記試料の特徴を示す４〜２０個のスカラーを有する正規化ベクトルを算出し、
ｂ．データ・クラスター・マップによって占有された４〜２０個の次元のベクトル空間を提供し、前記データ・クラスター・マップが、等しいサイズの少なくとも６つの非重複データ・クラスターから成り、複数の前記データ・クラスターが疾患診断と関連し、複数の前記データ・クラスターが正常試料と関連し、前記マップのデータ・クラスターが２つ以上の診断と関連することはなく；
ｃ．前記データ・クラスター・マップのデータ・クラスターのいずれかに固有ベクトルが存在するならば、該ベクトルがどのデータ・クラスターに存在するのかを算出し；さらに、
ｄ．前記固有ベクトルが内在するデータ・クラスターと関連する疾患診断を、前記試料に割り当てるか、または、前記ベクトルが内在するクラスターがない場合には、非正常という分類を割り当てる、
ことを含む、個体の器官の疾患を診断する方法。
個体の器官の病期を診断する方法であって、該方法が：
ａ．被験体からの生体試料を分析し、前記分析から、前記試料の特徴を示す４〜２０個のスカラーを有する正規化ベクトルを算出し、
ｂ．データ・クラスター・マップによって占有された４〜２０個の次元のベクトル空間を提供し、前記データ・クラスター・マップが、等しいサイズの少なくとも６つの非重複データ・クラスターから成り、複数の前記データ・クラスターが疾患診断と関連し、複数の前記データ・クラスターが正常試料と関連し、前記マップのデータ・クラスターが２つ以上の診断と関連することはなく；
ｃ．前記データ・クラスター・マップのデータ・クラスターのいずれかに固有ベクトルが存在するならば、該ベクトルがどのデータ・クラスターに存在するのかを算出し；さらに、
ｄ．前記固有ベクトルが内在するデータ・クラスターと関連する疾患診断を、前記試料に割り当てるか、または、前記ベクトルが内在するクラスターがない場合には、非正常という分類を割り当てる、
ことを含む、個体の器官の病期を診断する方法。
前記疾患が癌である、請求項４８に記載の方法。
前記疾患が癌である、請求項４９に記載の方法。
前記病期が原発性悪性腫瘍である、請求項４９に記載の方法。
前記生体試料が、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質のような体液から成る群から選択される、請求項４８または４９に記載の方法。
前記データ・クラスターマップがパターンを定義付けし、前記ベクトルの少なくとも１つのスカラーが前後関係による診断結果である、請求項４８または４９に記載の方法。
前記データ・クラスターのサイズが、ユークリッド測定基準によって定義付けされる、請求項４８または４９に記載の方法。
被験体の器官の原発性悪性腫瘍を診断する方法であって、該方法が：
ａ．被験体からの生体試料を分析し、前記分析から、前記試料の特徴を示す少なくとも４つのスカラーを有する正規化ベクトルを算出し、
ｂ．データ・クラスター・マップによって占有されたベクトル空間を提供し、前記データ・クラスター・マップが、等しいサイズの少なくとも６つの非オーバラップ・データ・クラスターから成り、複数の前記データ・クラスターが悪性診断と関連し、複数の前記データ・クラスターが良性診断と関連し、前記マップのデータ・クラスターが２つ以上の診断と関連することはなく、少なくとも１つのスカラーが前後関係による診断結果である結果を測定し、前記データ・クラスターのサイズが、ユークリッド測定基準によって定義付けされ；
ｃ．前記データ・クラスター・マップのデータ・クラスターのいずれかに固有ベクトルが存在するならば、該ベクトルがどのデータ・クラスターに存在するのかを算出し；さらに、
ｄ．前記固有ベクトルが内在するデータ・クラスターと関連する診断を、前記試料に割り当てるか、または、前記ベクトルが内在するクラスタがない場合には、非正常、非悪性という診断を割り当てる、
ことを含む、個体の器官の原発性悪性腫瘍を診断する方法。
前記生体試料が、血清、血液、唾液、血漿、乳頭吸引物質、滑液、脳脊髄液、汗、尿、便、涙、気管洗浄物質、綿棒で集められた物質、針吸引物質、精液、膣液、射精前物質のような体液から成る群から選択される、請求項５６に記載の方法。
複数のスカラーが、前後関係による診断結果である結果を測定する、請求項５６に記載の方法。
プログラムを実行するためのコンピュータ実行可能コードを指定するコンピュータ・ソフトウェア製品であって、前記プログラムが以下のステップ、すなわち：
ａ．生体試料を試料識別子で記述する正規化データ・ストリームを入力するステップと；
ｂ．各クラスターが既知の生物学的状態の診断と関連する診断クラスターの集合を入力するステップと、
ｃ．前記データ・ストリームを特徴付けする試料ベクトルを算出するために、前記データ・ストリームを抽象化するステップと；
ｄ．前記試料ベクトルが内在する前記診断クラスタがあれば、これを同定するステップと；
ｅ．特定された診断クラスターの診断を前記試料に割り当てるか、または、特定されたクラスターがない場合には、非正常、非悪性という診断を前記試料に割り当てるステップと；
ｆ．前記割り当てられた診断と前記試料識別子とを出力するステップと
を含むプログラムを実行するための、コンピュータ実行可能コードを指定するコンピュータ・ソフトウェア製品。
汎用デジタル・コンピュータであって、該コンピュータが、請求項５９に記載の実行可能コードを実行するためのプログラムを含む、汎用デジタル・コンピュータ。
プログラムを実行するためのコンピュータ実行可能コードを指定するコンピュータ・ソフトウェア製品であって、前記プログラムが以下のステップ、すなわち：
ａ．各データ・ストリームが既知の生物学的状態で生体試料を記述する教育データ・ストリームから成る集合を入力するステップと；
ｂ．オペレータによって指定された数のポイントと、オペレータによって指定されたクラスターのサイズとを入力するステップと；
ｃ．前記データ・ストリームの予め指定された数のポイントの位置を指定するランダムな論理染色体の初期集合を選択するステップと；
ｄ．前記染色体によって指定された位置でのデータ・ストリームを抽象化することにより、各染色体および各データ・ストリームに対応するベクトルを算出するステップと；
ｅ．均一なステータスを有するクラスター内に存在するベクトルの数を最大化する所定の等しいサイズの複数の非重複データ・クラスターのベクトル空間内の位置を見出すことにより、前記ベクトルの数が多くなればなるほど高くなる、各染色体の適応度を確定するステップと；
ｆ．前記ステップ（ｄ）および（ｅ）とを繰り返し、適応度が低い論理染色体を終結し、高適応度の論理染色体を複製し、前記染色体を組換え、ランダムに修飾することから成る反復プロセスによって、論理染色体集合を最適化するステップと；
ｇ．前記反復プロセスを終結するステップと；
ｈ．最適化された論理染色体と、該最適化された染色体の適応度を最大化する前記データ・クラスターの位置とを出力して、前記出力された論理染色体とデータ・クラスターとを具体化する診断アルゴリズムを実施可能にするステップとを含む、プログラムを実行するための、コンピュータ実行可能コードを指定するコンピュータ・ソフトウェア製品。
汎用デジタル・コンピュータであって、該コンピュータが、請求項６１に記載の実行可能コードを実行するためのプログラムを含む、汎用デジタル・コンピュータ。
生物学的状態を確定するための診断モデルであって、診断アルゴリズムが、固定数の次元のベクトル空間内で所定の等しいサイズの複数の診断クラスターを有することを特徴とする、生物学的状態を確定するための診断モデル。
前記診断クラスターが以下のステップ、すなわち：
ａ．各学習データ・ストリームが既知の生物学的状態で生体試料を記述する、学習データ・ストリームの集合を提供するステップと；
ｂ．前記データ・ストリームの所定数のポイントの位置を指定するランダムな論理染色体の初期集合を選択するステップと；
ｃ．前記染色体によって指定された位置でのデータ・ストリームを抽象化することにより、各染色体および各データ・ストリームに対応するベクトルを算出するステップと；
ｄ．均一なステータスを有するクラスター内に存在するベクトルの数を最大化する所定の等しいサイズの複数の非重複データ・クラスターのベクトル空間内の位置を見出すことにより、前記ベクトルの数が多くなればなるほど高くなる、各染色体の適応度を確定するステップと；
ｅ．前記ステップ（ｃ）および（ｄ）とを繰り返し、適応度が低い論理染色体を終結し、高適応度の論理染色体を複製し、前記染色体を組換え、ランダムに修飾することから成る反復プロセスによって、論理染色体集合を最適化するステップと；
ｆ．前記反復プロセスを終結し、非重複データ・クラスターの好ましい集合を可能にする論理染色体を選択するステップと
によって生成される、請求項６３に記載の診断モデル。
診断クラスターであって、該診断クラスターが請求項６４に記載のモデルによって生成される、診断クラスター。