JP2022512080A

JP2022512080A - 次世代分子プロファイリング

Info

Publication number: JP2022512080A
Application number: JP2021530882A
Authority: JP
Inventors: ジムアブラハム; デヴィッドスペッツラー; アンソニーヘルムステッター; ウォルフガングマイケルコーン; ダニエルマギー
Original assignee: カリスエムピーアイインコーポレイテッド
Priority date: 2018-11-30
Filing date: 2019-12-02
Publication date: 2022-02-02
Anticipated expiration: 2039-12-02
Also published as: US20220262494A1; EP3888021B1; KR20210111254A; US20210295979A1; CA3121170A1; IL283371B1; AU2019389175A1; US11315673B2; IL311084A; MX2021006234A; JP7462632B2; IL283371A; EP3888021A1; WO2020113237A1; EP3888021A4

Abstract

包括的な分子プロファイリングは、患者試料の分子状態に関する豊富なデータを提供する。そのようなデータを治療に対する患者の反応と比較して、そのような治療に対する反応または非反応を予測するバイオマーカーシグネチャを同定することができる。この手法が、FOLFOXに対する結腸直腸がん患者の反応と強く相関するバイオマーカーシグネチャを同定するために適用されている。本明細書には、特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するためのデータ構造、データ処理および機械学習モデル、ならびに精密医療への、例えば、分子プロファイルに基づいて、治療、例えば、5-フルオロウラシル／ロイコボリンをオキサリプラチンと組み合わせた投与（FOLFOX）またはイリノテカンと組み合わせた投与（FOLFIRI）を含む治療を選択する方法へのそのようなモデルの例示的な適用が記載される。TIFF2022512080000023.tif108155

Description

優先権の主張
本出願は、2018年11月30日に出願された米国仮特許出願第62/744,082号；2019年1月4日に出願された米国仮特許出願第62/788,689号；および2019年1月7日に出願された米国仮特許出願第62/789,495号の恩典を主張する。上記出願の全内容が参照により本明細書に組み入れられる。

技術分野
本開示は、データ構造、データ処理および機械学習ならびに精密医療におけるそれらの使用、例えば、がんをはじめとする様々な疾患および障害の犠牲者のための個別化治療の推奨を導くための分子プロファイリングの使用の分野に関する。

背景
がん患者のための薬物療法は長らく挑戦であった。従来、患者ががんと診断されると、治療担当医は通常、がんの種類およびステージなど、観察可能な患者の臨床要因と慣例的に対応した所定の治療選択肢のリストから選択していた。その結果、がん患者は一般に、同じ種類およびステージのがんを患う他の患者と同じ治療を受けていた。同じ種類およびステージのがんの患者は同じ治療法に対して異なる反応を示すことが多いため、このような治療の効能は試行錯誤的に決定されることになる。そのうえ、患者が任意のそのような「万能（one-size-fits-all）」治療にすぐには反応しない場合、または以前にうまく行っていた治療が作用しなくなる場合、医師の治療選択は、多くの場合、せいぜい事例証拠に基づくものになるであろう。

2000年代後期まで、「がん系統」とも知られる患者のがんの種類と対応した従来の治療法のリストから、より情報に基づく選択を行うときに医師を支援するために、限られた分子検査が利用可能であった。例えば、乳がん患者の医師は、Herceptin（登録商標）を含む従来の治療選択肢のリストを提示されたならば、遺伝子HER2/neuの過剰発現に関して患者の腫瘍を検査することができたであろう。HER2/neuは当時、乳がんおよびHerceptin（登録商標）への反応性と関連することが知られていた。腫瘍がHER2/neu遺伝子を過剰発現することがわかっていた乳がん患者の約1/3が、Herceptin（登録商標）による治療に対して初期反応を示したが、それらの大部分は1年以内に進行し始めた。例えば、Bartsch, R. et al., Trastuzumab in the management of early and advanced stage breast cancer, Biologies. 2007 Mar; 1（1）: 19-31（非特許文献1）を参照されたい。このタイプの分子検査は、特定の種類のがんのための公知の治療が、その種類のがんの一部の患者を治療する場合に他よりも効果的である理由を説明するのに役立ったが、この検査は、患者のための任意のさらなる治療選択肢を同定するものでも、排除するものでもなかった。

がん患者を治療するための万能手法に不満を抱き、また、多くの患者の腫瘍が進行し、最終的にはすべての従来療法を使い果たすという現実に直面して、がん専門医Daniel Von Hoff氏は、患者のためにさらなる非従来的な治療選択肢を同定しようとした。臨床観察に基づいて治療決定を下すことの限界および系統特異的な分子検査の限界を認識して、また、これらの限界のせいで有効な治療選択肢が見落とされていると考えて、Von Hoff氏らは、腫瘍の分子特性の包括的評価に基づいてがんのための個別化治療レジメンを決定するためのシステムおよび方法を開発した。このような「分子プロファイリング」への氏らの手法は、様々な検査技術を使用して患者の腫瘍から分子情報を収集して、がんの種類に関係なく特有の分子プロファイルを作成した。そして、医師は、その分子プロファイルの結果を使用して、がん細胞のステージ、解剖学的位置または解剖学的起源にかかわらず、患者のための候補治療の選択を支援することができる。Von Hoff DD, et al., Pilot study using molecular profiling of patients' tumors to find potential targets and select treatments for their refractory cancers. J Clin Oncol. 2010 Nov 20;28(33):4877-83（非特許文献2）を参照されたい。そのような分子プロファイリング手法は、他のやり方ならば治療担当医によって見落とされるであろう治療法の有望なベネフィットを示唆し得、同様に、特定の治療法の非有望なベネフィットをも示唆し、それにより、効果のない治療に伴う時間、費用、疾患進行および副作用を回避し得る。分子プロファイリングは、患者が複数の治療レジメンに反応しなかった、または耐性を発現した場合の「サルベージ療法」設定において特に有益であり得る。加えて、このような手法は、第一選択および他の標準治療レジメンのための意思決定を導くために使用することもできる。

結腸直腸がん（CRC）は、女性で二番目に多いがんであり、男性で三番目に多いがんである。2015年には、全世界でCRCに起因する835,000の死亡例があった（Global Burden of Disease Cancer Collaboration, JAMA Oncol. 2017;3(4):524（非特許文献3）を参照）。手術が第一選択治療であるが、5-フルオロウラシル／ロイコボリンをオキサリプラチンと組み合わせた投与（FOLFOX）またはイリノテカンと組み合わせた投与（FOLFIRI）を含む全身療法が、一部の患者、特に遠隔転移のある結腸直腸がん患者に有効であることが示されている（Mohelnikova-Duchonova et al., World J Gastroenterol. 2014 Aug 14; 20(30): 10316-10330（非特許文献4））。

FOLFOXは、転移性およびアジュバント設定におけるCRCの標準治療となっているが、患者の約半数しか治療に反応しない。加えて、FOLFOX投与患者の20～100％が、脱毛、掌および足裏の痛みもしくは剥離、発疹、下痢、吐き気、嘔吐、便秘、食欲不振、嚥下困難、口の痛み、胸焼け、低い白血球数を伴う感染症、貧血、あざもしくは出血、頭痛、倦怠感、しびれ、四肢のうずきもしくは痛み、呼吸困難、咳および発熱の少なくとも1つを経験し；4～20％が、胸痛、異常心拍、失神、注入部位への反応、蕁麻疹、体重増、体重減、腹痛、内出血（黒便、嘔吐物もしくは尿中の血液、喀血、膣もしくは精巣出血、脳の出血を含む）、味覚変化、血餅、肝臓の損傷、眼および皮膚の黄変、アレルギー反応、声の変化、錯乱、めまい、脱力感、視力障害、光過敏症、チックもしくはひきつり、運動技能（歩行、手の使用、開口、会話、平衡感覚・聴覚、嗅覚、摂食、睡眠、排尿）の困難および聴力損失の少なくとも1つを経験し；3％以下が、心臓損傷および治療によって誘発された別のがんの発症の少なくとも1つを含む重篤な副作用を経験する。

機械学習モデルは、ラベル付き訓練データを分析し、その訓練データから推論を導くように構成されることができる。機械学習モデルが訓練された場合に、ラベルなしデータのセットが入力として機械学習モデルに提供され得る。機械学習モデルは、入力データ、例えば分子プロファイリングデータを処理し、訓練中に学習した推論に基づいて、入力に関する予測を実行し得る。本開示は、複数の分類器モデルを組み合わせて、単一のモデルを使用することによって達成されるよりも正確な分類を達成するための「投票」方法論を提供する。

包括的な分子プロファイリングは、患者試料の分子状態に関する豊富なデータを提供する。本発明者らは、実質すべてのがん系統からの100,000人を優に超える腫瘍患者に対してこのようなプロファイリングを実施し、これらの患者のうち数千人において治療に対する患者転帰および反応を追跡調査した。例えば、本発明者らの分子プロファイリングデータを、治療に対する患者ベネフィットまたはベネフィットの欠如と比較し、機械学習アルゴリズム、例えば「投票」方法論を使用して処理すると、様々な治療の有効性を予測するさらなるバイオマーカーシグネチャを同定することができる。ここでは、この「次世代プロファイリング」（NGP）手法が、結腸直腸がん患者におけるFOLFOX治療レジメンのベネフィットを予測するバイオマーカーシグネチャを同定するために適用されている。

Bartsch, R. et al., Trastuzumab in the management of early and advanced stage breast cancer, Biologies. 2007 Mar; 1（1）: 19-31 Von Hoff DD, et al., Pilot study using molecular profiling of patients' tumors to find potential targets and select treatments for their refractory cancers. J Clin Oncol. 2010 Nov 20;28(33):4877-83 Global Burden of Disease Cancer Collaboration, JAMA Oncol. 2017;3(4):524 Mohelnikova-Duchonova et al., World J Gastroenterol. 2014 Aug 14; 20(30): 10316-10330

概要
包括的な分子プロファイリングは、患者試料の分子状態に関する豊富なデータを提供する。そのようなデータを、治療に対する患者反応と比較して、そのような治療に対する反応または非反応を予測するバイオマーカーシグネチャを同定することができる。この手法が、結腸直腸がん患者におけるFOLFOX治療レジメンのベネフィットまたはベネフィットの欠如と相関するバイオマーカーシグネチャを同定するために適用されている。

本明細書に記載されるものは、特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するための機械学習モデルを訓練する方法である。

本明細書に提供されるものは、対象の疾患もしくは障害の治療の有効性を予測するための機械学習モデルの訓練において使用するための入力データ構造を生成するためのデータ処理装置であって、データ処理装置が、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを含み、動作が、データ処理装置により、1つまたは複数のバイオマーカーデータ構造および1つまたは複数の転帰データ構造を得る工程；データ処理装置により、対象と関連付けされた1つまたは複数のバイオマーカーを表す第一のデータを、1つまたは複数のバイオマーカーデータ構造から抽出し、疾患もしくは障害および治療を表す第二のデータを、1つまたは複数の転帰データ構造から抽出し、疾患もしくは障害のための治療の転帰を表す第三のデータを抽出する工程；データ処理装置により、1つまたは複数のバイオマーカーを表す第一のデータおよび疾患もしくは障害および治療を表す第二のデータに基づいて、機械学習モデルへ入力するためのデータ構造を生成する工程；データ処理装置により、生成されたデータ構造を入力として機械学習モデルに提供する工程；データ処理装置により、生成されたデータ構造の機械学習モデルの処理に基づいて、機械学習モデルによって生成された出力を得る工程；データ処理装置により、疾患もしくは障害のための治療の転帰を表す第三のデータと、機械学習モデルによって生成された出力との間の差を決定する工程；ならびにデータ処理装置により、疾患もしくは障害のための治療の転帰を表す第三のデータと、機械学習モデルによって生成された出力との間の差に基づいて、機械学習モデルの1つまたは複数のパラメータを調節する工程を含む、データ処理装置である。

いくつかの態様において、1つまたは複数のバイオマーカーのセットは、表2～8のいずれか1つに記載された1つまたは複数のバイオマーカーを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、表2～8中のバイオマーカーのそれぞれを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、表2～8中のバイオマーカーの少なくとも1つを含み、任意で、1つまたは複数のバイオマーカーのセットは、表5、表6、表7、表8またはそれらの任意の組み合わせ中のバイオマーカーを含む。

同じく本明細書に提供されるものは、特定の治療に対する対象の治療反応性を予測するための機械学習モデルの訓練において使用するための入力データ構造を生成するためのデータ処理装置であって、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを含み、動作が、データ処理装置により、第一の分散データソースから、対象と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化する第一のデータ構造を得る工程（第一のデータ構造は、対象を同定するキーバリューを含む）；データ処理装置により、第一のデータ構造を1つまたは複数のメモリデバイスに記憶する工程；データ処理装置により、第二の分散データソースから、1つまたは複数のバイオマーカーを有する対象の転帰データを表すデータを構造化する第二のデータ構造を得る工程（転帰データは、疾患もしくは障害、治療、および治療の有効性の指標を同定するデータを含み、第二のデータ構造も、対象を同定するキーバリューを含む）；データ処理装置により、第二のデータ構造を1つまたは複数のメモリデバイスに記憶する工程；データ処理装置により、メモリデバイスに記憶された第一のデータ構造および第二のデータ構造を使用して、（i）1つまたは複数のバイオマーカーのセット、疾患もしくは障害、および治療を表すデータ、ならびに（ii）疾患もしくは障害のための治療の有効性の指標を提供するラベルを含む、ラベル付き訓練データ構造を生成する工程（データ処理装置により、第一のデータ構造および第二のデータ構造を使用して生成する工程は、データ処理装置により、対象を同定するキーバリューに基づいて、対象と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化する第一のデータ構造と、1つまたは複数のバイオマーカーを有する対象の転帰データを表す第二のデータ構造とを相関させることを含む）；ならびにデータ処理装置により、生成されたラベル訓練データ構造を使用して、機械学習モデルを訓練する工程（生成されたラベル付き訓練データ構造を使用して機械学習モデルを訓練する工程は、データ処理装置により、生成されたラベル訓練データ構造を機械学習モデルへの入力として機械学習モデルに提供することを含む）を含む、データ処理装置である。

いくつかの態様において、動作はさらに、データ処理装置により、機械学習モデルから、生成されたラベル付き訓練データ構造の機械学習モデルの処理に基づいて、機械学習モデルによって生成された出力を得る工程；ならびにデータ処理装置により、機械学習モデルによって生成された出力と、疾患もしくは障害のための治療の有効性の指標を提供するラベルとの間の差を決定する工程を含む。

いくつかの態様において、動作はさらに、データ処理装置により、機械学習モデルによって生成された出力と、疾患もしくは障害のための治療の有効性の指標を提供するラベルとの間の決定された差に基づいて、機械学習モデルの1つまたは複数のパラメータを調節する工程を含む。

いくつかの態様において、1つまたは複数のバイオマーカーのセットは、表2～8のいずれか1つに記載された1つまたは複数のバイオマーカーを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、表2～8中のバイオマーカーのそれぞれを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、表2～8中のバイオマーカーの少なくとも1つを含み、任意で、1つまたは複数のバイオマーカーのセットは、表5、表6、表7、表8中のバイオマーカーまたはそれらの任意の組み合わせを含む。

関連して、本明細書に提供されるものは、上記データ処理装置の動作のそれぞれに対応する工程を含む方法である。なおさらに、本明細書に提供されるものは、1つまたは複数のコンピュータと、1つまたは複数のコンピュータによって実行される場合に1つまたは複数のコンピュータに、上記データ処理装置を参照して記載された動作のそれぞれを実行させる命令を記憶する1つまたは複数の記憶媒体とを含む、システムである。なおさらに、本明細書に提供されるものは、1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に、1つまたは複数のコンピュータに、上記データ処理装置を参照して記載された動作を実行させる命令を含むソフトウェアを記憶する、非一時的コンピュータ可読媒体である。

もう1つの局面において、本明細書に提供されるものは、エンティティの分類のための方法であって、複数の機械学習モデルの各特定の機械学習モデルに関し、i）予測または分類を決定するように訓練された特定の機械学習モデルに、分類されるエンティティの種類を表す入力データを提供し；ii）特定の機械学習モデルによる入力データの処理に基づいて、特定の機械学習モデルによって生成された、複数の候補エンティティクラスの初期エンティティクラスへのエンティティ分類を表す出力データを得る工程；複数の機械学習モデルのそれぞれに関して得られた出力データを投票ユニットに提供する工程（提供された出力データは、複数の機械学習モデルのそれぞれによって決定された初期エンティティクラスを表すデータを含む）；ならびに投票ユニットにより、提供された出力データに基づいて、エンティティのための現実のエンティティクラスを決定する工程を含む方法である。

いくつかの態様において、エンティティのための現実のエンティティクラスは、提供された出力データに多数決原理を適用することによって決定される。

いくつかの態様において、投票ユニットにより、提供された出力データに基づいて、エンティティのための現実のエンティティクラスを決定する工程は、投票ユニットにより、複数の候補エンティティクラスの各初期エンティティクラスの出現回数を決定すること；ならびに投票ユニットにより、複数の候補エンティティクラスのうち、最大の出現回数を有する初期エンティティクラスを選択することを含む。

いくつかの態様において、複数の機械学習モデルの各機械学習モデルは、ランダムフォレスト分類アルゴリズム、サポートベクターマシン、ロジスティック回帰、k近傍法モデル、人工ニューラルネットワーク、単純ベイズモデル、二次判別分析、またはガウス過程モデルを含む。

いくつかの態様において、複数の機械学習モデルの各機械学習モデルはランダムフォレスト分類アルゴリズムを含む。

いくつかの態様において、複数の機械学習モデルは同じタイプの分類アルゴリズムの複数の表現を含む。

いくつかの態様において、入力データは、（i）エンティティ属性、および（ii）疾患もしくは障害のための治療の種類を表す。

いくつかの態様において、複数の候補エンティティクラスは反応クラスまたは非反応クラスを含む。

いくつかの態様において、エンティティ属性はエンティティのための1つまたは複数のバイオマーカーを含む。

いくつかの態様において、1つまたは複数のバイオマーカーは、エンティティのすべての公知の遺伝子よりも少ない遺伝子のパネルを含む。

いくつかの態様において、1つまたは複数のバイオマーカーは、エンティティためのすべての公知の遺伝子を含む遺伝子のパネルを含む。

いくつかの態様において、入力データはさらに、疾患もしくは障害の種類を表すデータを含む。

関連して、本明細書に提供されるものは、1つまたは複数のコンピュータと、1つまたは複数のコンピュータによって実行される場合に、1つまたは複数のコンピュータに、上記エンティティの分類のための方法を参照して記載された動作のそれぞれを実行させる命令を記憶する1つまたは複数の記憶媒体とを含む、システムである。なおさらに、本明細書に提供されるものは、1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に、1つまたは複数のコンピュータに、上記エンティティの分類のための方法を参照して記載された動作を実行させる命令を含むソフトウェアを記憶する、非一時的コンピュータ可読媒体である。

さらに別の局面において、本明細書に提供されるものは、対象におけるがん由来の細胞を含む生体試料を得る工程；ならびに生体試料中の少なくとも1つのバイオマーカーを評価するためのアッセイを実施する工程を含む方法であって、バイオマーカーが、
（a）MYC、EP300、U2AF1、ASXL1、MAML2およびCNTRLの1、2、3、4、5または6個すべてを含む、グループ1；
（b）MYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRNおよびCDX2の1、2、3、4、5、6、7または8個すべてを含む、グループ2；
（c）BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、HOXA11、AURKA、BIRC3、IKZF1、CASP8およびEP300の1、2、3、4、5、6、7、8、9、10、11、12、13または14個すべてを含む、グループ3；
（d）PBX1、BCL9、INHBA、PRRX1、YWHAE、GNAS、LHFPL6、FCRL4、AURKA、IKZF1、CASP8、PTENおよびEP300の1、2、3、4、5、6、7、8、9、10、11、12または13個すべてを含む、グループ4；
（e）BCL9、PBX1、PRRX1、INHBA、GNAS、YWHAE、LHFPL6、FCRL4、PTEN、HOXA11、AURKAおよびBIRC3の1、2、3、4、5、6、7、8、9、10、11または12個すべてを含む、グループ5；
（f）BCL9、PBX1、PRRX1、INHBAおよびYWHAEの1、2、3、4または5個すべてを含む、グループ6；
（g）BCL9、PBX1、GNAS、LHFPL6、CASP8、ASXL1、FH、CRKL、MLF1、TRRAP、AKT3、ACKR3、MSI2、PCM1およびMNX1の1、2、3、4、5、6、7、8、9、10、11、12、13、14または15個すべてを含む、グループ7；
（h）BX1、GNAS、AURKA、CASP8、ASXL1、CRKL、MLF1、GAS7、MN1、SOX10、TCL1A、LMO1、BRD3、SMARCA4、PER1、PAX7、SBDS、SEPT5、PDGFB、AKT2、TERT、KEAP1、ETV6、TOP1、TLX3、COX6C、NFIB、ARFRP1、ARID1A、MAP2K4、NFKBIA、WWTR1、ZNF217、IL2、NSD3、CREB1、BRIP1、SDC4、EWSR1、FLT3、FLT1、FAS、CCNE1、RUNX1T1およびEZRの1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44または45個すべてを含む、グループ8；ならびに
（i）BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、BIRC3、AURKAおよびHOXA11の1、2、3、4、5、6、7、8、9、10または11個すべてを含む、グループ9
のうちの少なくとも1つを含む、方法である。

いくつかの態様において、生体試料は、ホルマリン固定パラフィン包埋（FFPE）組織、固定組織、コア針生検、穿刺吸引液、非染色スライド、新鮮凍結（FF）組織、ホルマリン試料、核酸もしくはタンパク質分子を保存する溶液に含まれる組織、新鮮な試料、悪性流体（malignant fluid）、体液、腫瘍試料、組織試料またはそれらの任意の組み合わせを含む。

いくつかの態様において、生体試料は固形腫瘍からの細胞を含む。

いくつかの態様において、生体試料は体液を含む。

いくつかの態様において、体液は、悪性流体、胸膜液、腹膜液またはそれらの任意の組み合わせを含む。

いくつかの態様において、体液は、末梢血、血清、血漿、腹水、尿、脳脊髄液（CSF）、痰、唾液、骨髄、滑液、眼房水、羊水、耳垢、母乳、気管支肺胞洗浄液、精液、前立腺液、カウパー腺液、尿道球腺液、女性射精液、汗、糞便、涙液、嚢胞液、胸膜液、腹膜液、心膜液、リンパ液、糜粥、乳糜、胆汁、間質液、月経分泌物、膿、皮脂、嘔吐物、膣分泌液、粘膜分泌液、水便、膵液、鼻腔からの洗浄液、気管支肺吸引液、胞胚腔液または臍帯血を含む。

いくつかの態様において、評価は、バイオマーカーごとにタンパク質または核酸の存在、レベルまたは状態を決定することを含み、任意で、核酸は、デオキシリボ核酸（DNA）、リボ核酸（RNA）またはそれらの組み合わせを含む。いくつかの態様において、（a）タンパク質の存在、レベルまたは状態は、免疫組織化学（IHC）、フローサイトメトリー、イムノアッセイ、抗体もしくはその機能的断片、アプタマーまたはそれらの任意の組み合わせを使用して決定される；および／または（b）核酸の存在、レベルまたは状態は、ポリメラーゼ連鎖反応（PCR）、インサイチューハイブリダイゼーション、増幅、ハイブリダイゼーション、マイクロアレイ、核酸シーケンシング、ダイターミネータシーケンシング、パイロシーケンシング、次世代シーケンシング（NGS；ハイスループットシーケンシング）またはそれらの任意の組み合わせを使用して決定される。

いくつかの態様において、核酸の状態は、配列、変異、多型、欠失、挿入、置換、転座、融合、切断、重複、増幅、反復、コピー数、コピー数多型（CNV；コピー数変化；CNA)、またはそれらの任意の組み合わせを含む。

いくつかの態様において、核酸の状態はコピー数を含む。

いくつかの態様において、方法は、グループ1のすべてのメンバー（すなわちMYC、EP300、U2AF1、ASXL1、MAML2およびCNTRL）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む。

いくつかの態様において、方法は、グループ2のすべてのメンバー（すなわちMYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRNおよびCDX2）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む。

いくつかの態様において、方法は、グループ3のすべてのメンバー（すなわちBCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、HOXA11、AURKA、BIRC3、IKZF1、CASP8およびEP300）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む。

いくつかの態様において、方法は、グループ4のすべてのメンバー（すなわちPBX1、BCL9、INHBA、PRRX1、YWHAE、GNAS、LHFPL6、FCRL4、AURKA、IKZF1、CASP8、PTENおよびEP300）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む。

いくつかの態様において、方法は、グループ5のすべてのメンバー（すなわちBCL9、PBX1、PRRX1、INHBA、GNAS、YWHAE、LHFPL6、FCRL4、PTEN、HOXA11、AURKAおよびBIRC3）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む。

いくつかの態様において、方法は、グループ6のすべてのメンバー（すなわちBCL9、PBX1、PRRX1、INHBAおよびYWHAE）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む。

いくつかの態様において、方法は、グループ7のすべてのメンバー（すなわちBCL9、PBX1、GNAS、LHFPL6、CASP8、ASXL1、FH、CRKL、MLF1、TRRAP、AKT3、ACKR3、MSI2、PCM1およびMNX1）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む。

いくつかの態様において、方法は、グループ8のすべてのメンバー（すなわちBX1、GNAS、AURKA、CASP8、ASXL1、CRKL、MLF1、GAS7、MN1、SOX10、TCL1A、LMO1、BRD3、SMARCA4、PER1、PAX7、SBDS、SEPT5、PDGFB、AKT2、TERT、KEAP1、ETV6、TOP1、TLX3、COX6C、NFIB、ARFRP1、ARID1A、MAP2K4、NFKBIA、WWTR1、ZNF217、IL2、NSD3、CREB1、BRIP1、SDC4、EWSR1、FLT3、FLT1、FAS、CCNE1、RUNX1T1およびEZR）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む。

いくつかの態様において、方法は、グループ9のすべてのメンバー（すなわちBCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、BIRC3、AURKAおよびHOXA11）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む。

いくつかの態様において、方法は、（a）グループ1およびグループ2の少なくとも1つもしくはすべてのメンバーまたはそれらに近接するゲノム領域；（b）グループ3の少なくとも1つもしくはすべてのメンバーまたはそれらに近接するゲノム領域；または（c）グループ2、グループ6、グループ7、グループ8およびグループ9の少なくとも1つもしくはすべてのメンバーまたはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む。

いくつかの態様において、方法はさらに、バイオマーカーのコピー数を参照コピー数（例えば二倍体）と比較し、コピー数多型（CNV）を有するバイオマーカーを同定する工程を含む。

いくつかの態様において、方法はさらに、CNVを有する遺伝子またはそれに近接する領域を同定する分子プロファイルを生成する工程を含む。

いくつかの態様において、PTENタンパク質の存在またはレベルが決定され、任意で、PTENタンパク質の存在またはレベルは、免疫組織化学（IHC）を使用して決定される。

いくつかの態様において、方法はさらに、TOPO1および1つまたは複数のミスマッチ修復タンパク質（例えばMLH1、MSH2、MSH6およびPMS2）を含むタンパク質のレベルを決定する工程を含み、任意で、PTENタンパク質の存在またはレベルは、免疫組織化学（IHC）を使用して決定される。

いくつかの態様において、方法はさらに、1つまたは複数のタンパク質のレベルをそのタンパク質の参照レベルと比較する工程を含む。

いくつかの態様において、方法はさらに、参照レベルとは異なる、例えば参照レベルとは有意に異なるレベルを有するタンパク質を同定する分子プロファイルを生成する工程を含む。

いくつかの態様において、方法はさらに、評価されたバイオマーカーに基づいて有望なベネフィットの治療を選択する工程を含み、任意で、治療は、5-フルオロウラシル／ロイコボリンをオキサリプラチンと組み合わせた治療（FOLFOX）またはその代替治療を含み、任意で、代替治療は、5-フルオロウラシル／ロイコボリンをイリノテカンと組み合わせた治療（FOLFIRI）を含む。

いくつかの態様において、有望なベネフィットの治療を選択する工程は、（a）上記グループに関して決定されたコピー数；および／または（b）上記のように決定された分子プロファイルに基づく。

いくつかの態様において、上記グループに関して決定されたコピー数に基づいて有望なベネフィットの治療を選択する工程は投票モジュールの使用を含む。

いくつかの態様において、投票モジュールは、本明細書に提供される投票モジュールである。

いくつかの態様において、投票モジュールは少なくとも1つのランダムフォレストモデルの使用を含む。

いくつかの態様において、投票モジュールの使用は、機械学習分類モデルを、グループ2、グループ6、グループ7、グループ8およびグループ9（上記を参照）のそれぞれに関して得られたコピー数に適用することを含み、任意で、各機械学習分類モデルはランダムフォレストモデルであり、任意で、ランダムフォレストモデルは、以下の表10に記載されるランダムフォレストモデルである。

いくつかの態様において、対象は、有望なベネフィットの治療で以前に治療されたことがない。

いくつかの態様において、がんは転移がん、再発がんまたはそれらの組み合わせを含む。

いくつかの態様において、対象はがん治療を以前に受けたことがない。

いくつかの態様において、方法はさらに、有望なベネフィットの治療を対象に投与する工程を含む。

いくつかの態様において、無増悪生存期間（PFS）、無病生存期間（DFS）または寿命が、前記治療の投与によって延長される。

いくつかの態様において、がんは、急性リンパ芽球性白血病；急性骨髄性白血病；副腎皮質がん；AIDS関連がん；AIDS関連リンパ腫；肛門がん；虫垂がん；星状細胞腫；非定型奇形腫様／ラブドイド腫瘍；基底細胞がん；膀胱がん；脳幹部神経膠腫；脳腫瘍、脳幹部神経膠腫、中枢神経系非定型奇形腫様／ラブドイド腫瘍、中枢神経系胚芽腫、星状細胞腫、頭蓋咽頭腫、上衣芽腫、上衣腫、髄芽腫、髄様上皮腫、中間型松果体実質腫瘍、テント上原始神経外胚葉性腫瘍および松果体芽腫；乳がん；気管支腫瘍；バーキットリンパ腫；原発不明がん（CUP）；カルチノイド腫瘍；原発不明がん腫；中枢神経系非定型奇形腫様／ラブドイド腫瘍；中枢神経系胚芽腫；子宮頸がん；小児がん；脊索腫；慢性リンパ性白血病；慢性骨髄性白血病；慢性骨髄増殖性障害；結腸がん；結腸直腸がん；頭蓋咽頭腫；皮膚T細胞リンパ腫；内分泌膵島細胞腫瘍；子宮内膜がん；上衣芽腫；上衣腫；食道がん；鼻腔神経芽細胞腫；ユーイング肉腫；頭蓋外胚細胞腫瘍；性腺外胚細胞腫瘍；肝外胆管がん；胆嚢がん；胃がん（gastric (stomach) cancer）；消化管カルチノイド腫瘍；消化管間質細胞腫瘍；消化管間質腫瘍（GIST）；妊娠性絨毛性腫瘍；神経膠腫；毛様細胞性白血病；頭頸部がん；心臓がん；ホジキンリンパ腫；下咽頭がん；眼内黒色腫；膵島腫瘍；カポジ肉腫；腎臓がん；ランゲルハンス細胞組織球症；喉頭がん；口唇がん；肝臓がん；悪性線維性組織球腫骨がん；髄芽腫；髄様上皮腫；黒色腫；メルケル細胞がん；メルケル細胞皮膚がん；中皮腫；原発不明転移性扁平上皮性頸部がん；口腔がん（mouth cancer）；多発性内分泌腫瘍症候群；多発性骨髄腫；多発性骨髄腫／形質細胞腫瘍；菌状息肉腫；骨髄異形成症候群；骨髄増殖性腫瘍；鼻腔がん；鼻咽頭がん；神経芽細胞腫；非ホジキンリンパ腫；非黒色腫皮膚がん；非小細胞肺がん；口腔がん（oral cancer）；口腔がん（oral cavity cancer）；中咽頭がん；骨肉腫；他の脳および脊髄の腫瘍；卵巣がん；卵巣上皮がん；卵巣胚細胞腫瘍；卵巣低悪性度腫瘍；膵臓がん；乳頭腫症；副鼻腔がん；副甲状腺がん；骨盤がん；陰茎がん；咽頭がん；中間型松果体実質腫瘍；松果体芽腫；下垂体腫瘍；形質細胞腫瘍／多発性骨髄腫；胸膜肺芽腫；原発性中枢神経系（CNS）リンパ腫；原発性肝細胞肝がん；前立腺がん；直腸がん；腎臓がん；腎細胞（腎臓）がん；腎細胞がん；気道がん；網膜芽細胞腫；横紋筋肉腫；唾液腺がん；セザリー症候群；小細胞肺がん；小腸がん；軟部組織肉腫；扁平上皮がん；頸部扁平上皮がん；胃がん（stomach (gastric) cancer）；テント上原始神経外胚葉性腫瘍；T細胞リンパ腫；精巣がん；咽喉がん；胸腺がん；胸腺腫；甲状腺がん；移行上皮がん；腎盂および尿管の移行上皮がん；絨毛性腫瘍；尿管がん；尿道がん；子宮がん；子宮肉腫；膣がん；外陰がん；ワルデンシュトレーム型マクログロブリン血症；またはウィルムス腫瘍を含む。

いくつかの態様において、がんは、急性骨髄性白血病（AML）、乳がん、胆管がん、結腸直腸腺がん、肝外胆管腺がん、女性性器悪性腫瘍、胃腺がん、胃食道腺がん、消化管間質腫瘍（GIST）、神経膠芽腫、頭頸部扁平上皮がん、白血病、肝細胞がん、低悪性度神経膠腫、肺気管支肺胞がん（BAC）、非小細胞肺がん（NSCLC）、肺小細胞がん（SCLC）、リンパ腫、男性生殖器悪性腫瘍、胸膜の悪性孤立性線維性腫瘍（MSFT）、黒色腫、多発性骨髄腫、神経内分泌腫瘍、結節性びまん性大細胞型B細胞リンパ腫、非上皮性卵巣がん（非EOC）、卵巣表面上皮がん、膵臓腺がん、下垂体がん、乏突起神経膠腫、前立腺腺がん、後腹膜もしくは腹膜がん、後腹膜もしくは腹膜肉腫、小腸悪性腫瘍、軟部組織腫瘍、胸腺がん、甲状腺がんまたはブドウ膜黒色腫を含む。

いくつかの態様において、がんは結腸直腸がんを含む。

本明細書にさらに提供されるものは、結腸直腸がんを有する対象のための治療を選択する方法であって、結腸直腸がん由来の細胞を含む生体試料を得る工程；生体試料からのゲノムDNAに対して次世代シーケンシングを実施して、（a）MYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRNおよびCDX2の1、2、3、4、5、6、7または8個すべてを含む、グループ2、（b）BCL9、PBX1、PRRX1、INHBAおよびYWHAEの1、2、3、4または5個すべてを含む、グループ6、（c）BCL9、PBX1、GNAS、LHFPL6、CASP8、ASXL1、FH、CRKL、MLF1、TRRAP、AKT3、ACKR3、MSI2、PCM1およびMNX1の1、2、3、4、5、6、7、8、9、10、11、12、13、14または15個すべてを含む、グループ7、（d）BX1、GNAS、AURKA、CASP8、ASXL1、CRKL、MLF1、GAS7、MN1、SOX10、TCL1A、LMO1、BRD3、SMARCA4、PER1、PAX7、SBDS、SEPT5、PDGFB、AKT2、TERT、KEAP1、ETV6、TOP1、TLX3、COX6C、NFIB、ARFRP1、ARID1A、MAP2K4、NFKBIA、WWTR1、ZNF217、IL2、NSD3、CREB1、BRIP1、SDC4、EWSR1、FLT3、FLT1、FAS、CCNE1、RUNX1T1およびEZRの1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44または45個すべてを含む、グループ8、ならびに（e）BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、BIRC3、AURKAおよびHOXA11の1、2、3、4、5、6、7、8、9、10または11個すべてを含む、グループ9の遺伝子またはそれらに近接するゲノム領域のそれぞれに関してコピー数を決定する工程；機械学習分類モデルを、グループ2、グループ6、グループ7、グループ8およびグループ9のそれぞれに関して得られたコピー数に適用する工程（任意で、各機械学習分類モデルはランダムフォレストモデルであり、任意で、ランダムフォレストモデルは、表10に記載されるランダムフォレストモデルである）；各機械学習分類モデルから、対象が、5-フルオロウラシル／ロイコボリンをオキサリプラチンと組み合わせた治療（FOLFOX）からベネフィットを得る可能性が高いかどうかの指標を得る工程；ならびに対象が治療からベネフィットを得る可能性が高いと機械学習分類モデルの大多数が示す場合、FOLFOXを選択し、対象がFOLFOXからベネフィットを得る可能性が低いと機械学習分類モデルの大多数が示す場合、FOLFOXの代替治療を選択する工程（任意で、代替治療は、5-フルオロウラシル／ロイコボリンをイリノテカンと組み合わせた治療（FOLFIRI）である）を含む方法である。いくつかの態様において、方法はさらに、選択された治療を対象に投与する工程を含む。

本明細書になおさらに提供されるものは、上記方法を実施した結果を要約するレポートを作成する工程を含む、分子プロファイリングレポートを生成する方法である。いくつかの態様において、レポートは、（a）上記に開示されたように決定された有望なベネフィットの治療；または（b）上記に開示されたように決定された選択された治療を含む。いくつかの態様において、レポートは、コンピュータ生成されるか；プリントされたレポートもしくはコンピュータファイルであるか；またはウェブポータルを介してアクセス可能である。

関連して、本明細書に提供されるものは、対象におけるがんのための治療法を同定するためのシステムであって、（a）少なくとも1つのホストサーバ；（b）データにアクセスし、データを入力するために少なくとも1つのホストサーバにアクセスするための、少なくとも1つのユーザインタフェース；（c）入力されたデータを処理するための、少なくとも1つのプロセッサ；（d）処理されたデータと、（1）上記のように生体試料を分析した結果にアクセスし；かつ（2）上記のような有望なベネフィットの治療または上記のような選択された治療を決定するための命令とを記憶するための、プロセッサに結合された少なくとも1つのメモリ；ならびに（e）がんの治療を表示するための少なくとも1つのディスプレイ（治療は、FOLFOXまたはそれに代わるもの、例えばFOLFIRIである）を含む、システムである。

いくつかの態様において、少なくとも1つのディスプレイは、生体試料を分析した結果と、がんの治療に有望なベネフィットを有するかまたはがんの治療のために選択された治療とを含む、レポートを含む。

加えて、本明細書に提供されるものは、がんと診断された個人から核酸および／またはタンパク質を含む生体試料を得る工程；生体試料に対して分子検査を実施して、標的遺伝子またはその部分のセットの核酸配列；標的遺伝子のセットのコピー数多型の存在；遺伝子融合もしくは他のゲノム変化の存在；タンパク質および／または転写産物のセットの1つまたは複数のレベル；ならびに／または例えば本明細書に記載されるような標的遺伝子のセットのエピジェネティックステータスからなる群より選択される1つまたは複数の分子特性を決定し、それにより、がんに関する分子プロファイルを生成する工程；がんの分子プロファイルを、その種類のがんの参照分子プロファイルと比較する工程；参照分子プロファイルと比較したとき差、例えば有意差を示す分子特性のリストを生成する工程；ならびに標的遺伝子の参照配列プロファイルと比較したとき差を示す分子特性のリストに基づいて、個人のための1つまたは複数の治療推奨のリストを生成する工程を含む、より長い無増悪生存期間、より長い無病生存期間、より長い全生存期間または寿命延長を提供するためのがん治療のための推奨を提供する方法である。

いくつかの態様において、分子検査は、次世代シーケンシング、サンガーシーケンシング、ISH、断片分析、PCR、IHCおよびイムノアッセイの少なくとも1つである。

いくつかの態様において、生体試料は細胞、組織試料、血液試料またはそれらの組み合わせを含む。

いくつかの態様において、分子検査は、変異、多型、欠失、挿入、置換、転座、融合、切断、重複、増幅または反復の少なくとも1つを検出する。

いくつかの態様において、核酸配列はデオキシリボ核酸配列を含む。

いくつかの態様において、核酸配列はリボ核酸配列を含む。

別段の定めがない限り、本明細書中で使用されるすべての科学技術用語は、本発明が属する技術分野の当業者によって一般に理解されるものと同じ意味を有する。本発明に使用するための方法および材料が本明細書に記載されるが、当技術分野において公知の他の適当な方法および材料を使用することもできる。材料、方法および例は例示でしかなく、限定的であることを意図しない。本明細書中で挙げられるすべての刊行物、特許出願、特許、配列、データベースエントリーおよび他の参考文献は全体として参照により本明細書に組み入れられる。矛盾が生じる場合、本明細書が、定義を含め、優先する。

本発明の他の特徴および利点が以下の詳細な説明および図面ならびに添付の特許請求の範囲から明らかになる。

機械学習モデルを訓練するための従来技術システムの一例のブロック図である。特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するように機械学習モデルを訓練するための訓練データ構造を生成するシステムのブロック図である。特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するように訓練された機械学習モデルを使用するためのシステムのブロック図である。特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するように機械学習モデルを訓練するための訓練データを生成するプロセスのフローチャートである。特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するように訓練された機械学習モデルを使用するプロセスのフローチャートである。複数の機械学習モデルによって生成された出力を投票ユニットを使用して解釈することによって特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するためのシステムのブロック図である。図2～5のシステムを実現するために使用することができるシステムコンポーネントのブロック図である。患者の生体標本の分子プロファイリングを利用する、がんのための個別化医療介入を決定するためのシステムの例示的態様のブロック図を示す。患者の生体標本の分子プロファイリングを利用する、がんのための個別化医療介入を決定する方法である。治療法からのベネフィットを予測するために使用することができるシグネチャまたは分子プロファイルを同定する方法である。（B）の代替バージョンの例示的態様のフローチャートである。 FOLFOXによる治療の場合に8つのマーカーのCNVプロファイリングを使用したモデル性能を示す一対のハザード比グラフである。CNA＝コピー数変化。8つのマーカーはMYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRNおよびCDX2であった。 FOLFIRIによる治療の場合に8つのマーカーのCNVプロファイリングを使用したモデル性能を示す一対のハザード比グラフである。CNA＝コピー数変化。8つのマーカーはMYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRNおよびCDX2であった。 FOLFOXによる治療の場合に6つのマーカーのCNVプロファイリングを使用したモデル性能を示す一対のハザード比グラフである。6つのマーカーはMYC、EP300、U2AF1、ASXL1、MAML2およびCNTRLであった。 FOLFIRIによる治療の場合に6つのマーカーのCNVプロファイリングを使用したモデル性能を示す一対のハザード比グラフである。6つのマーカーはMYC、EP300、U2AF1、ASXL1、MAML2およびCNTRLであった。図3A～Bに示された8つのマーカーシグネチャの場合の例示的なランダムフォレスト決定木を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。転移性結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。結腸直腸がん患者におけるFOLFOXレジメンのベネフィットを予測するためのバイオシグネチャの展開を示す。

詳細な説明
本明細書に記載されるものは、機械学習モデルを訓練し、次いで訓練された機械学習モデルを使用して、対象の疾患もしくは障害のための治療の有効性を予測するためのシステム、方法、装置およびコンピュータプログラムを含め、分子プロファイリングを使用することによって個別化ベースの治療に使用するための治療物質を同定するための方法およびシステムである。いくつかの実施形態において、システムは、例えば本明細書に記載される方法における使用のために構成された、1つまたは複数の場所にある1つまたは複数のコンピュータ上の1つまたは複数のコンピュータプログラムを含むことができる。

本開示の局面は、生体試料の表現型を特性評価するなど、様々な分類を提供するように機械学習モデルを訓練するために使用することができる1つまたは複数の訓練データ構造のセットを生成するシステムに関する。表現型の特性評価は、診断、予後、セラノーシスまたは他の関連する分類を提供することを含むことができる。例えば、分類は、特定のバイオマーカーのセットを有する対象の疾患状態または疾患もしくは障害のための治療の有効性を予測する分類であることであることができる。訓練された場合に、訓練された機械学習モデルを使用して、システムによって提供された入力データを処理し、処理された入力データに基づいて、予測を行うことができる。入力データは、対象に関連する特徴のセットを含み得、そのようなデータは1つまたは複数の対象バイオマーカーを表し、データは疾患もしくは障害を表す。いくつかの態様において、入力データはさらに、提案された治療タイプを表す特徴を含み、治療に対する対象の有望な反応を記述する予測を行い得る。予測は、入力として機械学習モデルに提供される特定の特徴のセットの機械学習モデルの処理に基づいて、機械学習モデルによって出力されるデータを含み得る。データは、所望により、1つまたは複数の対象バイオマーカーを表すデータ、疾患もしくは障害を表すデータおよび提案される治療タイプを表すデータを含んでもよい。

本開示の革新的な局面は、訓練データ構造の生成に使用するための受信データストリームからの特定のデータの抽出を含む。非常に重要なことは、訓練データ構造に含めるための1つまたは複数のバイオマーカーの特定のセットの選択である。理由は、特定のバイオマーカーの存在、非存在または状態が所望の分類を示し得るからである。例えば、ある疾患もしくは障害のための治療が有効であるか有効でないかを決定するために、特定のバイオマーカーが選択され得る。実例として、本開示において、本出願人らは、機械学習モデルの訓練において使用される場合に、異なるバイオマーカーのセットを使用する場合よりも治療効率を正確に予測することができる訓練されたモデルを生じさせる特定のバイオマーカーのセットを提示する。実施例2～4を参照されたい。

システムは、データの機械学習モデルの処理に基づいて、訓練された機械学習モデルによって生成された出力データを得るように構成されている。様々な態様において、データは、1つまたは複数のバイオマーカーを表す生物学的データ、疾患もしくは障害を表すデータおよび治療タイプを表すデータを含む。そして、システムは、特定のバイオマーカーのセットを有する対象のための治療の有効性を予測し得る。いくつかの実施形態において、疾患もしくは障害はある種のがんを含み得、対象のための治療は、1つまたは複数の治療物質、例えば小分子薬、生物製剤およびそれらの様々な組み合わせを含み得る。この設定において、バイオマーカーのセット、疾患もしくは障害および治療タイプを含む入力データの訓練された機械学習モデル処理に基づいて生成される訓練された機械学習モデルの出力は、疾患もしくは障害のための治療に対して対象が示す反応性のレベルを表すデータを含む。

いくつかの実施形態において、訓練された機械学習モデルによって生成された出力データは所望の分類の確率を含み得る。実例として、そのような確率は、対象が疾患もしくは障害のための治療に好ましく反応する確率であり得る。他の実施形態において、出力データは、入力データの訓練された機械学習モデルの処理に基づいて、訓練された機械学習モデルによって生成された任意の出力データを含み得る。いくつかの態様において、入力データは、バイオマーカーのセット、疾患もしくは障害を表すデータおよび治療タイプを表すデータを含む。

いくつかの実施形態において、本開示によって生成された訓練データ構造は、特定の訓練サンプルに対応する特徴ベクトルを表すフィールドをそれぞれが含む複数の訓練データ構造を含み得る。特徴ベクトルは、訓練サンプルに由来し、かつ訓練サンプルを表す特徴のセットを含む。訓練サンプルには、例えば、対象の1つまたは複数のバイオマーカー、対象の疾患もしくは障害および疾患もしくは障害のために提案される治療が含まれ得る。訓練データ構造は、それぞれの訓練データ構造が、特徴ベクトルのそれぞれの特徴を表す重みを割り当てられ得るため、フレキシブルである。したがって、複数の訓練データ構造の各訓練データ構造は、訓練中に機械学習モデルによって特定の推論が成されるように特別に構成されることができる。

モデルが、疾患もしくは障害のための特定の治療の有望なベネフィットの予測を行うように訓練される非限定的な例を考えてみる。結果として、本明細書にしたがって生成される新規な訓練データ構造は、機械学習モデルの性能を改善するように設計されている。理由は、それが、特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するように機械学習モデルを訓練するために使用することができるからである。実例として、本開示によって記載される訓練データ構造、システムおよび動作を使用して訓練される前には特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性に関する予測を実行することができなかった機械学習モデルが、本開示によって記載される訓練データ構造、システムおよび動作を使用して訓練されることにより、対象の疾患もしくは障害のための治療の有効性に関する予測を行うことを学習することができる。したがって、このプロセスは、他の点では汎用の機械学習モデルを採用し、その汎用機械学習モデルを、特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測する特有のタスクを実行するための特殊なコンピュータへと変更する。

図1Aは、機械学習モデル110を訓練するための従来技術システム100の一例のブロック図である。いくつかの実施形態において、機械学習モデルは、例えば、サポートベクターマシンであり得る。あるいはまた、機械学習モデルは、ニューラルネットワークモデル、線形回帰モデル、ランダムフォレストモデル、ロジスティック回帰モデル、単純ベイズモデル、二次判別分析モデル、k近傍法モデル、サポートベクターマシンなどを含んでもよい。機械学習モデル訓練システム100は、以下に記載されるシステム、コンポーネントおよび技術が実現されることができる、1つまたは複数の場所にある1つまたは複数のコンピュータ上のコンピュータプログラムとして実現され得る。機械学習モデル訓練システム100は、訓練データ項目のデータベース（またはデータセット）120からの訓練データ項目を使用して機械学習モデル110を訓練する。訓練データ項目は複数の特徴ベクトルを含み得る。各訓練ベクトルは、訓練ベクトルが表す訓練サンプルの特定の特徴にそれぞれが対応する複数の値を含み得る。訓練特徴は独立変数と呼ばれることもある。加えて、システム100は、特徴ベクトルに含まれる特徴ごとにそれぞれの重みを維持する。

機械学習モデル110は、入力訓練データ項目122を受け取り、入力訓練データ項目122を処理して出力118を生成するように構成されている。入力訓練データ項目は、複数の特徴（または独立変数「X」）および訓練ラベル（または従属変数「Y」）を含み得る。機械学習モデルは、訓練項目を使用して訓練され得、訓練された場合に、X＝f(Y)を予測することができる。

機械学習モデル110が、受け取ったデータ項目のための正確な出力を生成することを可能にするために、機械学習モデル訓練システム100は、機械学習モデル110のパラメータの値を調節する、例えば初期値からパラメータの訓練された値を決定するように機械学習モデル110を訓練し得る。訓練工程から導出されたこれらのパラメータは、完全に訓練された機械学習モデル110を使用する予測段階中に使用することができる重みを含み得る。

機械学習モデル110を訓練するとき、機械学習モデル訓練システム100は、ラベル付き訓練データ項目のデータベース（データセット）120に記憶された訓練データ項目を使用する。データベース120は、複数の訓練データ項目のセットを記憶し、複数の訓練項目のセット中の各訓練データ項目はそれぞれのラベルと関連付けされている。一般に、訓練データ項目のためのラベルは、訓練データ項目のための正しい分類（または予測）、すなわち、機械学習モデル110によって生成された出力値によって訓練データ項目の分類として同定されるべき分類を同定する。図1Aを参照すると、訓練データ項目122が訓練ラベル122aと関連付けられ得る。

機械学習モデル訓練システム100は、目的関数を最適化するように機械学習モデル110を訓練する。目的関数の最適化は、例えば、損失関数130の最小化を含み得る。一般に、損失関数130は、（i）所与の訓練データ項目122を処理することによって機械学習モデル110によって生成された出力118、および（ii）訓練データ項目122のためのラベル122a、すなわち、訓練データ項目122を処理することによって機械学習モデル110が生成したはずである目標出力に従属する関数である。

従来の機械学習モデル訓練システム100は、データベース120からの訓練データ項目に対して従来の機械学習モデル訓練技術、例えばヒンジ損失、確率的勾配法、バックプロパゲーションを伴う確率的勾配降下法などの複数回の反復を実行して、機械学習モデル110のパラメータの値を繰り返し調節することにより、（累積）損失関数130を最小化するように機械学習モデル110を訓練することができる。すると、完全に訓練済された機械学習モデル110は、ラベルなし入力データに基づいて予測を行うために使用することができる予測モデルとして展開され得る。

図1Bは、特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するように機械学習モデルを訓練するための訓練データ構造を生成するシステム200のブロック図である。

システム200は、2つ以上の分散コンピュータ210、310、ネットワーク230およびアプリケーションサーバ240を含む。アプリケーションサーバ240は、抽出ユニット242、メモリユニット244、ベクトル生成ユニット250および機械学習モデル270を含む。機械学習モデル270は、ベクターサポートマシン、ニューラルネットワークモデル、線形回帰モデル、ランダムフォレストモデル、ロジスティック回帰モデル、単純ベイズモデル、二次判別分析モデル、k近傍法モデル、サポートベクターマシンなどの1つまたは複数を含み得る。各分散コンピュータ210、310は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータまたはデスクトップコンピュータなどを含み得る。あるいはまた、分散コンピュータ210、310は、それぞれ1つまたは複数の端末205、305によって入力されたデータを受け取るサーバコンピュータを含んでもよい。端末コンピュータ205、305は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータなどをはじめとする任意のユーザデバイスを含み得る。ネットワーク230は、1つまたは複数のネットワーク230、例えばLAN、WAN、有線イーサネットネットワーク、無線ネットワーク、セルラーネットワーク、インタネットまたはそれらの任意の組み合わせを含み得る。

アプリケーションサーバ240は、ネットワーク230を使用して第一の分散コンピュータ210および第二の分散コンピュータ310などの1つまたは複数の分散コンピュータによって提供されるデータレコード220、222、224、320を得る、または他のやり方で受け取るように構成されている。いくつかの実施形態において、それぞれの分散コンピュータ210、310は、異なるタイプのデータレコード220、222、224、320を提供し得る。例えば、第一の分散コンピュータ210は、対象のバイオマーカーを表すバイオマーカーデータレコード220、222、224を提供し得、第二の分散コンピュータ310は、転帰データベース312から得られた対象の転帰データを表す転帰データ320を提供し得る。

バイオマーカーデータレコード220、222、224は、対象の生体認証属性を記述する任意のタイプのバイオマーカーデータを含み得る。実例として、図1Bの例は、DNAバイオマーカー220、タンパク質バイオマーカー222およびRNAデータバイオマーカー224を表すデータレコードを含むものとしてバイオマーカーデータレコードを示す。これらのバイオマーカーデータレコードはそれぞれ、対象のバイオマーカー、例えば対象のDNAバイオマーカー220a、タンパク質バイオマーカー222aまたはRNAバイオマーカー224aを記述する情報220a、222a、224aを構造化するフィールドを有するデータ構造を含み得る。しかし、本開示はそのように限定される必要はない。例えば、バイオマーカーデータレコード220、222、224は、DNA変化などの次世代シーケンシングデータを含んでもよい。そのような次世代シーケンシングデータは、シングルバリアント、挿入および欠失、置換、転座、融合、切断、重複、増幅、喪失、コピー数、反復、全遺伝子変異量、マイクロサテライト不安定性などを含み得る。代替的または追加的に、バイオマーカーデータレコード220、222、224はまた、DNAコピーなどのインサイチューハイブリダイゼーションデータを含んでもよい。そのようなインサイチューハイブリダイゼーションデータは、遺伝子コピー、遺伝子転座などを含み得る。代替的または追加的に、バイオマーカーデータレコード220、222、224は、全トランスクリプトームシーケンシングをはじめとする、遺伝子発現または遺伝子融合などのRNAデータを含んでもよい。代替的または追加的に、バイオマーカーデータレコード220、222、224は、免疫組織化学（IHC）を使用して得られるようなタンパク質発現データを含んでもよい。代替的または追加的に、バイオマーカーデータレコード220、222、224は、複素数などのADAPTデータを含んでもよい。

いくつかの実施形態において、1つまたは複数のバイオマーカーのセットは、表2～8のいずれか1つに記載された1つまたは複数のバイオマーカーを含む。しかし、本開示はそのように限定される必要はなく、他のタイプのバイオマーカーが代わりに使用されてもよい。例えば、バイオマーカーデータは、全エクソームシーケンシング、全トランスクリプトームシーケンシングまたはそれらの組み合わせによって得られてもよい。

転帰データレコード320は対象のための治療の転帰を記述し得る。例えば、転帰データベース312から得られた転帰データレコード320は、対象のデータ属性、例えば疾患もしくは障害320a、疾患もしくは障害のために対象が受けた治療320a、治療結果320aまたは両方の組み合わせを構造化するフィールドを有する1つまたは複数のデータ構造を含み得る。加えて、転帰データレコード320はまた、治療の詳細および治療に対する対象の反応を記述するデータ属性を構造化するフィールドを含んでもよい。疾患もしくは障害の例は、例えば、ある種のがんを含み得る。治療のタイプは、例えば、転帰データレコード320に含まれる疾患もしくは障害のために対象が受けた薬、生物製剤または他の治療のタイプを含み得る。治療結果は、治療レジメンの対象の転帰、例えばベネフィットあり、適度にベネフィットありまたはベネフィットなしなどを表すデータを含み得る。いくつかの実施形態において、治療結果は、治療終了時のがん性腫瘍の種類、例えば腫瘍が縮小した量、治療後の腫瘍の全体的サイズなどを含み得る。代替的または追加的に、治療結果は、白血球、赤血球などの数または比を含んでもよい。治療の詳細は、投与量、例えば服用した薬の量、薬物レジメン、飲み忘れの回数などを含み得る。したがって、図1Bの例は、転帰データが疾患もしくは障害、治療、および治療結果を含み得ることを示すが、転帰データは、本明細書に記載されるような他のタイプの情報を含んでもよい。そのうえ、転帰データがヒト「患者」に限定される必要はない。代わりに、転帰データレコード220、222、224および生体認証データレコード320は、任意の非ヒト生物を含む任意の所望の対象と関連付けされてもよい。

いくつかの実施形態において、データレコード220、222、224、320のそれぞれは、それぞれの分散コンピュータからのデータレコードをアプリケーションサーバ240によって相関させることを可能にするキー付きデータを含み得る。キー付きデータは、例えば、対象識別子を表すデータを含み得る。対象識別子は、対象のバイオマーカーを対象の転帰データと関連付けすることができる、対象を同定する任意の形態のデータを含み得る。

第一の分散コンピュータ210は、バイオマーカーデータレコード220、222、224をアプリケーションサーバ240に提供し得る（208）。第二の分散コンピュータ310は、転帰データレコード320をアプリケーションサーバ240に提供し得る（210）。アプリケーションサーバ240は、バイオマーカーデータレコード220および転帰データレコード220、222、224を抽出ユニット242に提供することができる。

抽出ユニット242は、受け取ったバイオマーカーデータ220、222、224および転帰データレコード320を処理して、機械学習モデルを訓練するために使用することができるデータ220a-1、222a-1、224a-1、320a-1、320a-2、320a-3を抽出することができる。例えば、抽出ユニット242は、生体認証データレコード220、222、224のデータ構造のフィールドによって構造化されたデータ、転帰データレコード320のデータ構造のフィールドによって構造化されたデータまたはそれらの組み合わせを得ることができる。抽出ユニット242は、1つまたは複数の情報抽出アルゴリズム、例えばキー付きデータ抽出、パターンマッチング、自然言語処理などを実行して、生体認証データレコード220、222、224および転帰データレコード320からそれぞれデータ220a-1、222a-1、224a-1、320a-1、320a-2、320a-3を同定し、取得し得る。抽出ユニット242は、抽出されたデータをメモリユニット244に提供し得る。抽出されたデータユニットは、データアクセス時間を改善し、抽出データへのアクセスにおける待ち時間を減らしてシステム性能を改善するために、フラッシュメモリ（ハードディスクとは違って）などのメモリユニット244に記憶され得る。いくつかの実施形態において、抽出されたデータは、メモリユニット244中にメモリ内データグリッドとして記憶されてもよい。

より詳細には、抽出ユニット242は、機械学習モデル270による処理のための入力データ構造260を生成するために使用されるバイオマーカーデータレコード220、222、224および転帰データレコード320の一部分を、生成された入力データ構造260のためのラベルとして使用される転帰データレコード320の部分からフィルタリングするように構成され得る。そのようなフィルタリングは、抽出ユニット242が、バイオマーカーデータと、疾患もしくは障害、治療、治療の詳細またはそれらの組み合わせを含む転帰データの第一の部分とを治療結果から分離することを含む。すると、アプリケーションサーバ240は、バイオマーカーデータ220a-1、222a-1、224a-1、320a-1、320a-2と、疾患もしくは障害320a-1、治療320a-2、治療の詳細（図1Bには示さず）またはそれらの組み合わせを含む転帰データの第一の部分とを使用して、入力データ構造260を生成することができる。加えて、アプリケーションサーバ240は、治療結果320a-3を記述する転帰データの第二の部分を、生成されたデータ構造のためのラベルとして使用することもできる。

アプリケーションサーバ240は、メモリユニット244に記憶された抽出データを処理し、バイオマーカーデータレコード220、222、224から抽出されたバイオマーカーデータ220a-1、222a-1、224a-1を転帰データ320a-1、320a-2の第一の部分と相関させ得る。この相関の目的は、バイオマーカーデータを転帰データとでクラスタ化して、対象の転帰データが対象のバイオマーカーデータとでクラスタ化されるようにすることである。いくつかの実施形態において、バイオマーカーデータと転帰データの第一の部分との相関は、バイオマーカーデータレコード220、222、224および転帰データレコード320のそれぞれと関連付けされたキー付きデータに基づき得る。例えば、キー付きデータは対象識別子を含み得る。

アプリケーションサーバ240は、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および転帰データ320a-1、320a-2の抽出された第一の部分を、ベクトル生成ユニット250への入力として提供する。ベクトル生成ユニット250は、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および転帰データ320a-1、320a-2の抽出された第一の部分に基づいてデータ構造を生成するために使用される。生成されたデータ構造は、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および転帰データ320a-1、320a-2の抽出された第一の部分を数値で表す複数の値を含む特徴ベクトル260である。特徴ベクトル260は、各タイプのバイオマーカーおよび各タイプの転帰データのためのフィールドを含み得る。例えば、特徴ベクトル260は、（i）1つまたは複数のタイプの次世代シーケンシングデータ、例えばシングルバリアント、挿入および欠失、置換、転座、融合、切断、重複、増幅、喪失、コピー数、反復、全遺伝子変異量、マイクロサテライト不安定性、（ii）1つまたは複数のタイプのインサイチューハイブリダイゼーションデータ、例えばDNAコピー、遺伝子コピー、遺伝子転座、（iii）1つまたは複数のタイプのRNAデータ、例えば遺伝子発現または遺伝子融合、（iv）免疫組織化学を使用して得られるような1つまたは複数のタイプのタンパク質データ、（v）1つまたは複数のタイプのADAPTデータ、例えば複素数、および（vi）1つまたは複数のタイプの転帰データ、例えば疾患もしくは障害、治療タイプ、各治療タイプの詳細などに対応する1つまたは複数のフィールドを含み得る。

ベクトル生成ユニット250は、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および転帰データ320a-1、320a-2の抽出された第一の部分が各フィールドによって表されるデータを含む程度を示す重みを、特徴ベクトル260の各フィールドに割り当てるように構成されている。1つの実施形態において、例えば、ベクトル生成ユニット250は、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および転帰データ320a-1、320a-2の抽出された第一の部分に見られる特徴に対応する特徴ベクトルの各フィールドに「1」を割り当て得る。そのような実施形態において、ベクトル生成ユニット250はまた、例えば、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および転帰データ320a-1、320a-2の抽出された第一の部分に見られない特徴に対応する特徴ベクトルの各フィールドに「0」を割り当て得る。ベクトル生成ユニット250の出力は、機械学習モデル270を訓練するために使用することができる、特徴ベクトル260などのデータ構造を含み得る。

アプリケーションサーバ240は訓練特徴ベクトル260をラベル付けすることができる。具体的には、アプリケーションサーバは、患者転帰データ320a-3の抽出された第二の部分を使用して、生成された特徴ベクトル260を治療結果320a-3でラベル付けすることができる。治療結果320a-3に基づいて生成された訓練特徴ベクトル260のラベルは、バイオマーカー220a-1、222a-1、224a-1（それぞれが訓練データ構造260中で記述されている）の特定のセットによって決定される対象の疾患もしくは障害320a-1のための治療320a-2の有効性の指標を提供することができる。

アプリケーションサーバ240は、特徴ベクトル260を機械学習モデル270への入力として提供することにより、機械学習モデル270を訓練することができる。機械学習モデル270は、生成された特徴ベクトル260を処理し、出力272を生成し得る。アプリケーションサーバ240は、損失関数280を使用して、機械学習モデル280の出力272と、訓練ラベルによって指定された値（治療結果320a-3を記述する抽出された患者転帰データの第二の部分に基づいて生成される）との間の誤差の量を決定することができる。損失関数280の出力282を使用して、機械学習モデル282のパラメータを調節することができる。

いくつかの実施形態において、機械学習モデル270のパラメータの調節は、機械学習モデルパラメータモデルパラメータの手動チューニングを含み得る。あるいはまた、いくつかの実施形態において、機械学習モデル270のパラメータは、アプリケーションサーバ242によって実行される1つまたは複数のアルゴリズムによって自動的にチューニングされてもよい。

アプリケーションサーバ240は、対象のバイオマーカーデータのセットに対応する転帰データベースに記憶された転帰データレコード320ごとに、図1Bを参照して上述したプロセスの複数回の反復を実行し得る。これは、転帰データベース312に記憶された、対象のバイオマーカーデータの対応するセットを有する各転帰データレコード320が尽きるまで、機械学習モデル270が特定の誤差範囲内にまで訓練されるまで、またはそれらの組み合わせまで、数百回の反復、数千回の反復、数万回の反復、数十万回の反復、数百万回の反復またはより多数の反復を含み得る。機械学習モデル270は、例えば、機械学習モデル270が、ラベルなしバイオマーカーデータのセット、疾患もしくは障害データおよび治療データに基づいて、バイオマーカーデータを有する対象のための治療の有効性を予測することができるとき、特定の誤差範囲内で訓練される。有効性は、例えば、確率、治療が成功であるか不成功であるかの一般的指標などを含み得る。

図1Cは、特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するように訓練された機械学習モデルを使用するためのシステムのブロック図である。

機械学習モデル370は、上記図1Bのシステムを参照して説明したプロセスを使用して訓練された機械学習モデルを含む。訓練された機械学習モデル370は、1つまたは複数のバイオマーカーのセット、疾患もしくは障害および治療を表す入力特徴ベクトルに基づいて、バイオマーカーを有する対象の疾患もしくは障害を治療する際の治療の有効性のレベルを予測することができる。いくつかの実施形態において、「治療」は、薬、治療の詳細（例えば投与量、レジメン、飲み忘れなど）またはそれらの任意の組み合わせを含み得る。

機械学習モデル370をホストするアプリケーションサーバ240は、ラベルなしバイオマーカーデータレコード320、322、324を受け取るように構成されている。バイオマーカーデータレコード320、322、324は、1つまたは複数の特定のバイオマーカー、例えばDNAバイオマーカー320a、タンパク質バイオマーカー322a、RNAバイオマーカー324aまたはそれらの任意の組み合わせを表すデータを構造化するフィールドを有する1つまたは複数のデータ構造を含む。上述したように、受け取ったバイオマーカーデータレコードは、図1Cによって示されないタイプのバイオマーカー、例えば（i）1つまたは複数のタイプの次世代シーケンシングデータ、例えばシングルバリアント、挿入および欠失、置換、転座、融合、切断、重複、増幅、喪失、コピー数、反復、全遺伝子変異量、マイクロサテライト不安定性、（ii）1つまたは複数のタイプのインサイチューハイブリダイゼーションデータ、例えばDNAコピー、遺伝子コピー、遺伝子転座、（iii）1つまたは複数のタイプのRNAデータ、例えば遺伝子発現または遺伝子融合、（iv）免疫組織化学を使用して得られるような1つまたは複数のタイプのタンパク質データ、または（v）1つまたは複数のタイプのADAPTデータ、例えば複素数を含み得る。

機械学習モデル370をホストするアプリケーションサーバ240はまた、受け取ったバイオマーカーデータレコード320、322、324によって表されるバイオマーカーを有する対象の疾患もしくは障害データ420aによって記述される疾患もしくは障害のために提案される治療データ422aを表すデータを受け取るように構成されている。疾患もしくは障害422aのために提案される治療データ422aは同じくラベルなしであり、バイオマーカーデータレコード320、322、324によって表すバイオマーカーを有する対象を治療するための単なる提案である。

いくつかの実施形態において、疾患もしくは障害データ420aおよび提案される治療422aは、ネットワーク230を介して端末405によって提供され（305）、バイオマーカーデータは第二の分散コンピュータ310から得られる。バイオマーカーデータは、様々なアッセイを実施するために使用される実験機器から導出され得る。他の実施形態において、疾患もしくは障害データ420a、提案された治療422aおよびバイオマーカーデータ320、322、324はそれぞれ端末405から受け取られ得る。例えば、端末405は、医師、医師の元で働く被雇用者もしくは医師の代行者または疾患もしくは障害を表すデータ、提案された治療を表すデータおよび疾患もしくは障害を有する対象の1つまたは複数のバイオマーカーを表すデータを入力する他の人物のユーザデバイスであり得る。いくつかの実施形態において、治療データ422は、薬物名によって記述された提案される治療を表すデータのフィールドを構造化するデータ構造を含み得る。他の実施形態において、治療データ422は、より複雑な治療データ、例えば投与量、投薬レジメン、許容される飲み忘れ回数などを表すデータのフィールドを構造化するデータ構造を含み得る。

アプリケーションサーバ240は、バイオマーカーデータレコード320、322、324、疾患もしくは障害データ420および治療データ422を受け取る。アプリケーションサーバ240は、バイオマーカーデータレコード320、322、324、疾患もしくは障害データ420および治療データ422を抽出ユニット242に提供し、この抽出ユニットは、バイオマーカーデータレコード320、322、324および転帰データレコード420、422のフィールドから（i）特定のバイオマーカーデータ、例えばDNAバイオマーカーデータ320a-1、タンパク質発現データ322a-1、324a-1、（ii）疾患もしくは障害データ420a-1、および（iii）提案される治療データ420a-1を抽出するように構成されている。いくつかの実施形態において、抽出されたデータは、バッファ、キャッシュなどとしてメモリユニット244に記憶され、その後、ベクトル生成ユニット250が処理のための入力を受け取るためのバンド幅を有するとき、入力としてベクトル生成ユニット250に提供される。他の実施形態において、抽出されたデータは、処理のためにベクトル生成ユニット250に直接提供される。例えば、いくつかの実施形態においては、複数のベクトル生成ユニット250を用いて、待ち時間を減らすために入力の並列処理を可能にしてもよい。

ベクトル生成ユニット250は、複数のフィールドを含み、バイオマーカーデータのタイプごとの1つまたは複数のフィールドおよび転帰データのタイプごとの1つまたは複数のフィールドを含む、特徴ベクトル360などのデータ構造を生成することができる。例えば、特徴ベクトル360の各フィールドは、（i）バイオマーカーデータレコード320、322、324から抽出することができる各タイプの抽出されたバイオマーカーデータ、例えば各タイプの次世代シーケンシングデータ、各タイプのインサイチューハイブリダイゼーションデータ、各タイプのRNAデータ、各タイプの免疫組織化学データおよび各タイプのADAPTデータ、および（ii）転帰データレコード420、422から抽出することができる各タイプの転帰データ、例えば各タイプの疾患もしくは障害、各タイプの治療および各タイプの治療詳細に対応し得る。

ベクトル生成ユニット250は、抽出されたバイオマーカーデータ320a-1、322a-1、324a-1、抽出された疾患もしくは障害420a-1および抽出された治療422a-1が各フィールドによって表されるデータを含む程度を示す重みを、特徴ベクトル360の各フィールドに割り当てるように構成されている。1つの実施形態において、例えば、ベクトル生成ユニット250は、抽出されたバイオマーカーデータ320a-1、322a-1、324a-1、抽出された疾患もしくは障害420a-1および抽出された治療422a-1中に見られる特徴に対応する特徴ベクトル360の各フィールドに「1」を割り当て得る。そのような実施形態において、ベクトル生成ユニット250はまた、例えば、抽出されたバイオマーカーデータ320a-1、322a-1、324a-1、抽出された疾患もしくは障害420a-1および抽出された治療422a-1中に見られない特徴に対応する特徴ベクトルの各フィールドに「0」を割り当て得る。ベクトル生成ユニット250の出力は、訓練された機械学習モデル370に入力として提供されることができる、特徴ベクトル360などのデータ構造を含み得る。

訓練された機械学習モデル370は、訓練段階中に決定され、図1Bを参照して説明された調節済みパラメータに基づいて、生成された特徴ベクトル360を処理する。訓練された機械学習モデルの出力272は、バイオマーカー320a-1、322a-1、324a-1を有する対象の疾患もしくは障害420a-1の治療422a-1の有効性の指標を提供する。いくつかの実施形態において、出力272は、バイオマーカー320a-1、322a-1、324a-1を有する対象の疾患もしくは障害420a-1の治療422a-1の有効性を示す確率を含み得る。そのような実施形態において、出力272は、ネットワーク230を使用して端末405に提供され得る（311）。すると、端末405は、特徴ベクトル360によって表されたバイオマーカーを有する人の疾患もしくは障害の治療の有効性の予測レベルを示す出力をユーザインタフェース420上に生成し得る。

他の実施形態において、出力272は、出力272の意味を解読するように構成された予測ユニット380に提供されてもよい。例えば、予測ユニット380は、出力272を有効性の1つまたは複数のカテゴリーにマッピングするように構成されることができる。そして、予測ユニット328の出力は、対象、対象者の保護者、看護師、医師などによるレビューのために、ネットワーク230を使用して端末305に提供される（311）メッセージ390の一部として使用されることができる。

図1Dは、特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するように機械学習モデルを訓練するための訓練データを生成するプロセス400のフローチャートである。1つの局面において、プロセス400は、第一の分散データソースから、対象と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化するフィールドを含む第一のデータ構造を得る工程（410）、第一のデータ構造を1つまたは複数のメモリデバイスに記憶する工程（420）、第二の分散データソースから、1つまたは複数のバイオマーカーを有する対象の転帰データを表すデータを構造化するフィールドを含む第二のデータ構造を得る工程（430）、第二のデータ構造を1つまたは複数のメモリデバイスに記憶する工程（440）、第一のデータ構造および第二のデータ構造に基づいて、（i）1つまたは複数のバイオマーカーを表すデータ、（ii）疾患もしくは障害、（iii）治療、および（iv）疾患もしくは障害のための治療の有効性を含む、ラベル付き訓練データ構造を生成する工程（450）、および生成されたラベル付き訓練データを使用して機械学習モデルを訓練する工程（460）を含み得る。

図1Eは、特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するように訓練された機械学習モデルを使用するプロセス500のフローチャートである。1つの局面において、プロセス500は、対象と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータ構造を得る工程（510）、対象の疾患もしくは障害タイプを表すデータを得る工程（520）、対象のための治療タイプを表すデータを得る工程（530）、（i）1つまたは複数のバイオマーカー、（ii）疾患もしくは障害、および（iii）治療タイプを表す、機械学習モデルに入力するためのデータ構造を生成する工程（540）、生成されたデータ構造を、1つまたは複数の得られたバイオマーカー、1つまたは複数の治療タイプおよび1つまたは複数の疾患もしくは障害を表すラベル付き訓練データを使用して訓練された機械学習モデルに入力として提供する工程（550）、提供されたデータ構造の機械学習モデル処理に基づいて機械学習モデルによって生成された出力を得る工程（560）、および機械学習モデルによって生成された得られた出力に基づいて、1つまたは複数のバイオマーカーを有する対象の疾患もしくは障害の治療のための予測される転帰を決定する工程（570）を含み得る。

本明細書に提供されるものは、複数の機械学習モデルを用いて分類性能を改善する方法である。従来、所望の予測／分類を実行するためには単一のモデルが選択される。例えば、最適な所望の性能を有するモデルを同定するために、訓練段階中、様々なモデルパラメータまたはモデルのタイプ、例えばランダムフォレスト、サポートベクターマシン、ロジスティック回帰、k近傍法、人工ニューラルネットワーク、単純ベイズ、二次判別分析、またはガウス過程モデルを比較し得る。本出願人らは、単一のモデルの選択が、あらゆる設定において最適な性能を提供し得るわけではないことを理解した。代わりに、複数のモデルを訓練して予測／分類を実行させ、共同予測を使用して分類を行うことができる。このシナリオにおいては、各モデルが「投票」することを許され、投票の大多数を獲得する分類が勝者と見なされる。

本明細書に開示されるこの投票方略は、モデル構築（例えば、訓練データを使用）とナイーブ試料を分類するための用途の両方を含む、任意の機械学習分類に適用されることができる。このような設定は、生物学、金融、通信、メディアおよびエンタテイメントの分野のデータを含むが、これらに限定されない。いくつかの好ましい態様において、データは高次元の「ビッグデータ」である。いくつかの態様において、データは、本明細書に記載されるような分子プロファイリングによって得られた生物学的データをはじめとする生物学的データを含む。例えば実施例1を参照されたい。分子プロファイリングデータには、例えば特定のバイオマーカーパネルのための高次元次世代シーケンシングデータ（例えば実施例1を参照）または全エキソームおよび／もしくは全トランスクリプトームデータが含まれ得る、これらに限定されない。分類は、例えば表現型を特徴付けるために有用な任意の分類であることができる。例えば、分類は、診断（例えば有疾患または健康）、予後（例えば、良い転帰または悪い転帰を予測する）またはセラノーシス（例えば、治療効能またはその欠如を予測またはモニタする）を提供し得る。投票方略の適用例が、本明細書中、実施例2～4に提供される。

図1Fは、複数の機械学習モデルによって生成された出力を投票ユニットを使用することによって解釈するシステム600のブロック図である。システム600は図1Cのシステム300に類似している。しかし、単一の機械学習モデル370の代わりに、システム600は複数の機械学習モデル370-0、370-1... 370-xを含む（xは、1よりも大きい任意の非ゼロ整数である）。加えて、システム600は投票ユニット480も含む。

非限定的な例として、システム600は、特定のバイオマーカーのセットを有する対象の疾患もしくは障害のための治療の有効性を予測するために使用することができる。実施例2～4を参照されたい。

各機械学習モデル370-0、370-1、370-xは、特定のタイプの入力データ320-0、320-1... 320-xを分類するように訓練された機械学習モデルを含むことができる（xは、1よりも大きい、機械学習モデルの数xに等しい任意の非ゼロ整数である）。いくつかの実施形態において、機械学習モデル370-0、370-1、370-xのそれぞれは同じタイプであることができる。例えば、機械学習モデル370-0、370-1、370-xのそれぞれは、例えば様々なパラメータを使用して訓練されたランダムフォレスト分類アルゴリズムであることができる。他の実施形態において、機械学習モデル370-0、370-1、370-xは異なるタイプであることができる。例えば、1つまたは複数のランダムフォレストモデル分類器、1つまたは複数のニューラルネットワーク、1つまたは複数のk近傍分類器、他のタイプの機械学習モデル、あるいはそれらの任意の組み合わせがあることができる。

入力データ0（320-0）、入力データ1（320-1）、入力データx（320-x）などの入力データはアプリケーションサーバ240によって得ることができる。いくつかの実施形態において、入力データ320-0、320-1、320-xは、1つまたは複数の分散コンピュータ310、405からネットワーク230を介して得られる。実例として、入力データ項目320-0、320-1、320-xの1つまたは複数は、複数の異なるデータソース210、405からのデータを相関させることによって生成されることができる。そのような実施形態においては、（i）対象のバイオマーカーを記述する第一のデータを第一の分散コンピュータ310から得ることができ、（ii）疾患もしくは障害および関連する治療を記述する第二のデータを第二のコンピュータ405から得ることができる。アプリケーションサーバ240は、第一のデータと第二のデータとを相関させて、入力データ構造320-0などの入力データ構造を生成することができる。このプロセスは図1Cにさらに詳細に説明されている。入力データ項目320-0、320-1、320-xは、それぞれの入力として一度に1つずつ連続的に、例えばベクトル生成ユニットに提供されることができる。ベクトル生成ユニットは、それぞれの入力データ320-0、320-1、320-xに対応する入力ベクトル360-0、360-1、36-xを生成することができる。いくつかの実施形態はベクトル360-0、360-1、360-xを連続的に生成し得るが、本開示はそのように限定される必要はない。

代わりに、いくつかの実施形態において、ベクトル生成ユニット250は、ベクトル生成プロセスを並列化することができる複数の並列ベクトル生成ユニットを作動させるように構成されることもできる。そのような実施形態において、ベクトル生成ユニット250は、入力データ320-0、320-1、320-xを同時並行に受け取り、入力データ320-0、320-1、320-xを同時並行に処理し、それぞれが入力データ320-0、320-1、320-xの1つに対応するそれぞれのベクトル360-0、360-1、360-xを同時並行に生成することができる。

いくつかの実施形態において、ベクトル360-0、360-1、360-xはそれぞれ、入力データ320-0、320-1、320-xなどの対応する入力データのそれぞれに基づいて生成されることができる。すなわち、ベクトル360-0は、入力データ320-0に基づいて生成され、入力データ320-0を表す。同様に、ベクトル360-1は、入力データ320-1に基づいて生成され、入力データ320-1を表す。同様に、ベクトル360-xは、入力データ320-xに基づいて生成され、入力データ320-xを表す。

いくつかの実施形態において、各入力データ構造320-0、320-1、320-xは、対象のバイオマーカーを表すデータ、対象と関連付けされた疾患もしくは障害を記述するデータ、対象のために提案される治療を記述するデータまたはそれらの任意の組み合わせを含むことができる。対象のバイオマーカーを表すデータは、対象からの遺伝子の特定のサブセットまたはパネルを記述するデータを含むことができる。あるいはまた、いくつかの実施形態において、対象のバイオマーカーを表すデータは、対象のための公知の遺伝子の完全なセットを表すデータを含むことができる。対象のための公知の遺伝子の完全なセットは対象の遺伝子すべてを含むことができる。いくつかの実施形態において、機械学習モデル370-0、370-1、370-xのそれぞれは、同じタイプの機械学習モデル、例えば、入力データベクトルを、機械学習モデルによって処理されたベクトルによって関連付けされたと同定された治療に反応する可能性が高い、または反応しない可能性が高い対象に対応するものとして分類するように訓練されたニューラルネットワークである。そのような実施形態において、機械学習モデル370-0、370-1、370-xのそれぞれは同じタイプの機械学習モデルであるが、機械学習モデル370-0、370-1、370-xのそれぞれは異なる方法で訓練されてもよい。機械学習モデル370-1、370-1、370-xは、入力ベクトル360-0、360-1、360-xと関連付けされた対象が、入力ベクトル360-0、360-1、360-xと関連付けされた治療に答する可能性が高いのか、反応しない可能性が高いのかを表す出力データ272-0、272-1、272-xをそれぞれ生成することができる。この例において、入力データセットおよびそれらの対応する入力ベクトルは同じである。例えば、入力データの各セットは、同じバイオマーカー、同じ疾患もしくは障害、同じ治療または任意の組み合わせを有する。それにもかかわらず、それぞれの機械学習モデル370-0、370-1、370-xを訓練するために使用される様々な訓練法を考慮すると、図1Fに示すように、入力ベクトル360-0、361-1、361-xを処理する各機械学習モデル370-0、370-1、370-xに基づいて、それぞれ異なる出力272-0、272-1、272-xを生成し得る。

あるいはまた、機械学習モデル370-0、370-1、370-xのそれぞれは、入力データを、疾患もしくは障害のための治療に反応する可能性が高い、または反応しない可能性が高い対象を表すものとして分類するように訓練または他のやり方で構成された異なるタイプの機械学習モデルであることもできる。例えば、第一の機械学習モデル370-1はニューラルネットワークを含むことができ、機械学習モデル370-1はランダムフォレスト分類アルゴリズムを含むことができ、機械学習モデル370-xはk近傍法アルゴリズムを含むことができる。この例において、これら異なるタイプの機械学習モデル370-0、370-1、370-xのそれぞれは、入力ベクトルを受け取り、処理し、入力ベクトルが、同じく入力ベクトルと関連付けされた治療に反応する可能性が高い対象と関連付けされるのか、反応しない可能性が高い対象と関連付けされるのかを決定するように訓練または他のやり方で構成されることができる。この例において、入力データセットおよびそれらの対応する入力ベクトルは同じであることができる。例えば、入力データの各セットは、同じバイオマーカー、同じ疾患もしくは障害、同じ治療または任意の組み合わせを有する。したがって、機械学習モデル370-0は、入力ベクトル360-0を処理し、入力ベクトル360-0と関連付けされた対象が、同じく入力ベクトル360-0と関連付けされた治療に反応する可能性が高いのか、反応しない可能性が高いのかを示す出力データ272-0を生成するように訓練されたニューラルネットワークであることができる。加えて、機械学習モデル370-1は、この例の場合には入力ベクトル360-0と同じである入力ベクトル360-1を処理し、入力ベクトル360-1と関連付けされた対象が、同じく入力ベクトル360-1と関連付けされた治療に反応する可能性が高いのか、反応しない可能性が高いのかを示す出力データ272-1を生成するように訓練されたランダムフォレスト分類アルゴリズムであることができる。この入力ベクトル解析方法は、x個の入力、x個の入力ベクトルおよびx個の機械学習モデルのそれぞれで継続することができる。図1Fを参照しながらこの例を続けると、機械学習モデル370-xは、この例の場合には入力ベクトル360-0および360-1と同じである入力ベクトル360-xを処理し、入力ベクトル360-xと関連付けされた対象が、同じく入力ベクトル360-xと関連付けされた治療に反応する可能性が高いのか、反応しない可能性が高いのかを示す出力データ272-xを生成するように訓練されたk近傍法アルゴリズムであることができる。

あるいはまた、機械学習モデル370-0、370-1、370-xのそれぞれは、同じタイプの機械学習モデルであることもできるし、それぞれが異なる入力を受け取るように構成されている異なるタイプの機械学習モデルであることもできる。例えば、第一の機械学習モデル370-0への入力は、対象の遺伝子の第一のサブセットまたは第一のパネルを表すデータを含むベクトル360-0を含み、次いで、ベクトル360-0の機械学習モデル370-0処理に基づいて、対象が治療に反応する可能性が高いのか、反応しない可能性が高いのかを予測することができる。加えて、この例において、第二の機械学習モデル370-1への入力は、遺伝子の第一のサブセットまたは第一のパネルとは異なる、対象の遺伝子の第二のサブセットまたは第二のパネルを表すデータを含むベクトル360-1を含むことができる。次いで、第二の機械学習モデルは、入力ベクトル360-1と関連付けされた対象が、入力ベクトル360-2と関連付けされた治療に反応する可能性が高いのか、反応しない可能性が高いのかを示す第二の出力データ272-1を生成することができる。この入力ベクトル解析方法は、x個の入力、x個の入力ベクトルおよびx個の機械学習モデルのそれぞれで継続することができる。x番目の機械学習モデル370-xへの入力は、他のx-1入力データベクトル370-0～370-x-1の（i）少なくとも1つ、(i）2つ以上、または（iii）のそれぞれと異なる、対象の遺伝子のx番目のサブセットまたはx番目のパネルを表すデータを含むベクトル360-xを含むことができる。いくつかの実施形態において、x個の入力データベクトルの少なくとも1つが、対象からの遺伝子の完全なセットを表すデータを含むことができる。そして、x番目の機械学習モデル370-xは第二の出力データ272-xを生成することができ、この第二の出力データ272-xが、入力ベクトル360-xと関連付けされた対象が、入力ベクトル360-xと関連付けされた治療に反応する可能性が高いのか、反応しない可能性が高いのかを示す。

上記システム400の複数の実施形態は、限定的であることを意図せず、代わりに、本開示を使用するとき用いることができる、複数の機械学習モデル370-0、370-1、370-xおよびそれらのそれぞれの入力の構成の単なる例である。これらの例を参照するとき、対象は、任意のヒト、非ヒト動物、植物または他の対象であることができる。上記のように、入力特徴ベクトルは、入力データに基づいて生成され、入力データを表すことができる。したがって、各入力ベクトルは、1つまたは複数のバイオマーカー、疾患もしくは障害および治療、バイオマーカーを有する対象の疾患もしくは障害を治療する際の治療の有効性のレベルを含むデータを表すことができる。「治療」は、任意の治療物質、例えば小分子薬物もしくは生物製剤、治療の詳細（例えば投与量、レジメン、飲み忘れなど）またはそれらの任意の組み合わせを記述するデータを含むことができる。

図1Fの実施形態において、出力データ272-0、272-1、272-xは、投票ユニット480を使用して分析することができる。例えば、出力データ272-0、272-1、272-xは投票ユニット480に入力されることができる。いくつかの実施形態において、出力データ272-0、272-1、272-xは、機械学習モデルによって処理された入力ベクトルと関連付けされた対象が、機械学習モデルによって処理されたベクトルと関連付けされた治療に反応する可能性が高いのか、反応しない可能性が高いのかを示すデータであることができる。入力ベクトルと関連付けされ、各機械学習モデルによって生成された対象を示すデータは「0」または「1」を含むことができる。入力ベクトル360-0の機械学習モデル370-0の処理に基づいて機械学習モデル370-0によって生成された「0」は、入力ベクトル360-0と関連付けされた対象が、入力ベクトル360-0と関連付けされた治療に反応しない可能性が高いことを示すことができる。同様に、入力ベクトル360-0の機械学習モデル370-0の処理に基づいて機械学習モデル360-0によって生成された「1」は、入力ベクトル360-0と関連付けされた対象が、入力ベクトル360-0と関連付けされた治療に反応する可能性が高いことを示すことができる。この例は「0」を「反応しない」として使用し、「1」を「反応する」として使用するが、本開示はそのように限定されない。代わりに、「反応」および「非反応」クラスを表すための出力データとして任意の値を生成することができる。例えば、いくつかの実施形態においては、「非反応」クラスを表すために「1」を使用し、「反応」クラスを表すために「0」を使用することもできる。さらに他の実施形態においては、出力データ272-0、272-1、272-xは、機械学習モデルによって処理された入力ベクトルと関連付けされた対象が「反応」または「非反応」クラスと関連付けされる見込みを示す確率を含むことができる。そのような実施形態においては、例えば、生成された確率を閾値に適用し、閾値が満たされる場合に、機械学習モデルによって処理された入力ベクトルと関連付けされた対象が「反応」クラスにあると決定することができる。

投票ユニット480は、受け取った出力データ270-0、272-1、272-xを評価し、処理された入力ベクトル360-0、360-1、360-xと関連付けされた対象が、処理された入力ベクトル360-0、360-1、360-xと関連付けされた治療に反応する可能性が高いのか、反応しない可能性が高いのかを決定することができる。次いで、投票ユニット480は、受け取った出力データ270-0、272-1、272-xのセットに基づいて、入力ベクトル360-0、360-1、360-xと関連付けされた対象が、入力ベクトル360-0、360-2、360-xと関連付けされた治療に反応する可能性が高いかどうかを決定することができる。いくつかの実施形態において、投票ユニット480は「多数決原理」を適用することができる。多数決原理を適用して、投票ユニット480は、対象が反応することを示す出力272-0、272-1および272-xと、対象が反応しないことを示す出力272-0、272-1、272-xとを集計することができる。そして、大多数の予測または票を有するクラス（例えば反応または非反応クラス）が、入力ベクトル360-0、360-1、360-xと関連付けされた対象に適切な分類として選択される。この選択されたクラスを現実のエンティティクラスと呼ぶことができ、機械学習モデル370-0、370-1、370-xによって出力された予測または票のそれぞれを初期エンティティクラスと呼ぶことができる。

したがって、いくつかの実施形態において、予測または投票の大多数の決定は、投票ユニット480が、初期エンティティクラスごとの予測または票の出現回数を集計することによって達成することができる。例えば、システム600は、各初期エンティティクラスが機械学習モデル370-0、370-1、370-xによって予測または投票される回数を決定し、次いで、予測または票の最大の出現回数と関連付けされるエンティティクラスを選択することができる。

いくつかの実施形態において、投票ユニット480はより微妙な分析を完成することができる。例えば、いくつかの実施形態において、投票ユニット480は、機械学習モデル370-0、370-1、370-xごとの信頼度スコアを記憶することができる。この機械学習モデル370-0、370-1、370-xごとの信頼度スコアは、はじめに、0、1などのデフォルト値に設定されることができる。その後、入力ベクトルの処理のラウンドごと、投票ユニット480またはアプリケーションサーバ240の他のモジュールが、機械学習モデルが、直前の反復回中に投票ユニット480によって選択された対象分類を正確に予測したかどうかに基づいて、機械学習モデル370-0、370-1、370-xの信頼度スコアを調節することができる。したがって、機械学習モデルごとの記憶された信頼度スコアは、機械学習モデルごとの履歴精度の指標を提供することができる。

より微妙な手法において、投票ユニット480は、それぞれ各機械学習モデル370-0、370-1、370-xによって生成された出力データ272-0、272-0、272-xを、機械学習モデルのために計算された信頼度スコアに基づいて調節することができる。したがって、機械学習モデルが履歴的に正確であることを示す信頼度スコアを使用して、機械学習モデルによって生成された出力データの値をブーストすることができる。同様に、機械学習モデルが履歴的に不正確であることを示す信頼度スコアを使用して、機械学習モデルによって生成された出力データの値を減らすことができる。機械学習モデルによって生成された出力データの値のそのようなブーストまたは減少は、例えば、信頼度スコアを、減少の場合には1よりも小さく、ブーストの場合には1よりも大きい乗数として使用することによって達成することができる。また、他の動作を使用して、例えば、出力データの値から信頼度スコアを減算して出力データの値を減らして、または出力データの値に信頼度スコアを加算して出力データの値をブーストして、出力データの値を調節することもできる。機械学習モデルによって生成された出力データの値をブーストする、または減らすための信頼度スコアの使用は、機械学習モデルが、対象が治療に反応するのか、反応しないのかを決定するための1つまたは複数の閾値に適用される確率を出力するように構成されている場合に特に有用である。理由は、機械学習モデルの出力を調節するための信頼スコアを使用して、生成された出力値をクラス閾値よりも上または下に動かし、それにより、機械学習モデルによる、その履歴精度に基づく予測を変更することができるからである。

複数の機械学習モデルの出力を評価するための投票ユニット480の使用は、単一の機械学習モデルのみの出力の代わりに、複数の機械学習モデル間のコンセンサスを評価することができるため、対象バイオマーカーの特定のセットのための治療の有効性の予測においてより高い精度をもたらすことができる。

図1Gは、図2および3のシステムを実現するために使用することができるシステムコンポーネントのブロック図である。

コンピューティングデバイス600は、様々な形態のデジタルコンピュータ、例えばラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームおよび他の適切なコンピュータを表すことを意図したものである。コンピューティングデバイス650は、様々な形態のモバイルデバイス、例えばパーソナルデジタルアシスタント、携帯電話、スマートフォンおよび他の類似のコンピューティングデバイスを表すことを意図したものである。加えて、コンピューティングデバイス600または650はUSB（Universal Serial Bus）フラッシュドライブを含むことができる。USBフラッシュドライブはオペレーティングシステムおよび他のアプリケーションを記憶することができる。USBフラッシュドライブは、別のコンピューティングデバイスのUSBポートに挿入することができる無線トランスミッタまたはUSBコネクタなどの入出力コンポーネントを含むことができる。ここに示すコンポーネント、それらの接続および関係ならびにそれらの機能は、例示的でしかなく、本明細書に記載および／または特許請求される発明の実施形態を限定することを意図したものではない。

コンピューティングデバイス600は、プロセッサ602と、メモリ604と、記憶デバイス608と、メモリ604および高速拡張ポート610に接続する高速インタフェース608と、低速バス614および記憶デバイス608に接続する低速インタフェース612とを含む。コンポーネント602、604、608、608、610および612のそれぞれは、様々なバスを使用して相互接続され、共通のマザーボード上に実装される、または適切な他のやり方で取り付けられることができる。プロセッサ602は、GUIのためのグラフィカル情報を外部入出力デバイス、例えば高速インタフェース608に結合されたディスプレイ616に表示するための、メモリ604または記憶デバイス608に記憶された命令を含む、コンピューティングデバイス600内で実行するための命令を処理することができる。他の実施形態においては、複数のプロセッサおよび／または複数のバスを、適宜、複数のメモリおよびメモリのタイプとともに使用することもできる。また、必要な動作の一部分をそれぞれが提供する複数のコンピューティングデバイス600が、例えばサーババンク、ブレードサーバの群またはマルチプロセッサシステムとして接続されることもできる。

メモリ604は、情報をコンピューティングデバイス600内に記憶する。1つの実施形態において、メモリ604は、1つまたは複数の揮発性メモリユニットである。別の実施形態において、メモリ604は、1つまたは複数の不揮発性メモリユニットである。メモリ604はまた、別の形態のコンピュータ可読媒体、例えば磁気または光学ディスクであることもできる。

記憶デバイス608は、コンピューティングデバイス600のための大容量記憶を提供することができる。1つの実施形態において、記憶デバイス608は、コンピュータ可読媒体、例えばフロッピーディスクデバイス、ハードディスクデバイス、光学ディスクデバイスもしくはテープデバイス、フラッシュメモリもしくは他の類似のソリッドステートメモリデバイスまたはデバイスを記憶エリアネットワークもしくは他の構成で含むデバイスのアレイである、またはそれを含むことができる。コンピュータプログラム製品が情報担体中に有形的に具現化されることができる。コンピュータプログラム製品はまた、実行される場合に上記のような1つまたは複数の方法を実行する命令を含むことができる。情報担体は、メモリ604、記憶デバイス608またはオンプロセッサメモリ602などのコンピュータ可読または機械可読媒体である。

高速制御装置608はコンピューティングデバイス600のための帯域幅集中的動作を管理し、低速制御装置612は低帯域幅集中的動作を管理する。このような機能の割当ては単に例示的である。1つの実施形態において、高速制御装置608は、メモリ604、ディスプレイ616（例えばグラフィックスプロセッサまたはアクセレレータを介して）および様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート610に結合される。実施形態において、低速制御装置612は記憶デバイス608および低速拡張ポート614に結合される。様々な通信ポート、例えばUSB、Bluetooth、イーサネット、無線イーサネットを含むことができる低速拡張ポートは、例えばネットワークアダプターを介して、1つまたは複数の入出力デバイス、例えばキーボード、ポインティングデバイス、マイク／スピーカ対、スキャナまたはネットワーキングデバイス、例えばスイッチもしくはルータに結合されることができる。コンピューティングデバイス600は、図示するようないくつかの異なる形態で実現されることができる。例えば、標準的なサーバ620として実現されることもできるし、そのようなサーバの群として多重に実現されることもできる。また、ラックサーバシステム624の一部として実現されることもできる。加えて、ラップトップコンピュータ622などのパーソナルコンピュータとして実現されることもできる。あるいはまた、コンピューティングデバイス600からのコンポーネントがモバイルデバイス（図示せず）、例えばデバイス650中の他のコンポーネントと組み合わされることもできる。そのようなデバイスのそれぞれが1つまたは複数のコンピューティングデバイス600、650を含むこともできるし、システム全体が、互いと通信する複数のコンピューティングデバイス600、650で構成されることもできる。

コンピューティングデバイス600は、図面に示されているように、いくつかの異なる形態で実現されることができる。例えば、標準的なサーバ620として実現されることもできるし、そのようなサーバの群として多重に実現されることもできる。また、ラックサーバシステム624の一部として実現されることもできる。加えて、ラップトップコンピュータ622などのパーソナルコンピュータとして実現されることもできる。あるいはまた、コンピューティングデバイス600からのコンポーネントがモバイルデバイス（図示せず）、例えばデバイス650中の他のコンポーネントと組み合わされることもできる。そのようなデバイスのそれぞれが1つまたは複数のコンピューティングデバイス600、650を含むこともできるし、システム全体が、互いと通信する複数のコンピューティングデバイス600、650で構成されることもできる。

コンピューティングデバイス650は、とりわけ、プロセッサ652、メモリ664および入出力デバイス、例えばディスプレイ654、通信インタフェース666およびトランシーバ668を含む。デバイス650はまた、さらなる記憶を提供するための記憶デバイス、例えばマイクロドライブまたは他のデバイスを備えることもできる。コンポーネント650、652、664、654、666および668のそれぞれは、様々なバスを使用して相互接続され、コンポーネントのいくつかは、共通のマザーボードに取り付けられる、または適切な他のやり方で取り付けられることができる。

プロセッサ652は、メモリ664に記憶された命令を含め、コンピューティングデバイス650内で命令を実行することができる。プロセッサは、別々かつ複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実現されることができる。加えて、プロセッサは、いくつかのアーキテクチャのいずれかを使用して実現されることができる。例えば、プロセッサ610は、CISC（Complex Instruction Set Computers）プロセッサ、RISC（Reduced Instruction Set Computer）プロセッサまたはMISC（Minimal Instruction Set Computer）プロセッサであることができる。プロセッサは、例えば、デバイス650の他のコンポーネントの協調、例えばユーザインタフェースの制御、デバイス650によって実行されるアプリケーションおよびデバイス650による無線通信を提供することができる。

プロセッサ652は、ディスプレイ654に結合された制御インタフェース658およびディスプレイインタフェース656を介してユーザと通信することができる。ディスプレイ654は、例えば、TFT（Thin-Film-Transistor Liquid Crystal Display）ディスプレイもしくはOLED（Organic Light Emitting Diode）ディスプレイまたは他の適切なディスプレイ技術であることができる。ディスプレイインタフェース656は、グラフィカルおよび他の情報をユーザに提示するためにディスプレイ654を駆動するための適切な回路を含むことができる。制御インタフェース658は、ユーザからコマンドを受け、それを、プロセッサ652への提出に備えて変換することができる。加えて、デバイス650と他のデバイスとの近接区域通信を可能にするために、プロセッサ652と通信する外部インタフェース662が提供されることもできる。外部インタフェース662は、例えば、いくつかの実施形態においては有線通信を提供することもできるし、他の実施形態においては無線通信を提供することもできるし、また、複数のインターフェースが使用されることもできる。

メモリ664は情報をコンピューティングデバイス650内に記憶する。メモリ664は、コンピュータ可読媒体、揮発性メモリユニットまたは不揮発性メモリユニットの1つまたは複数として実現されることができる。また、拡張メモリ674が提供され、例えばSIMM（Single In Line Memory Module）カードインターフェースを含むことができる拡張インターフェース672を介してデバイス650に接続されることもできる。そのような拡張メモリ674は、デバイス650のための余分の記憶空間を提供することもできるし、デバイス650のためのアプリケーションまたは他の情報を記憶することもできる。具体的には、拡張メモリ674は、上記プロセスを実行または補足するための命令を含むこともできるし、セキュリティ情報を含むこともできる。したがって、例えば、拡張メモリ674は、デバイス650のためのセキュリティモジュールとして提供されることができ、デバイス650の安全な使用を許す命令でプログラムされることができる。加えて、安全なアプリケーションが、SIMMカードを介して、さらなる情報とともに、例えば同定情報をSIMMカード上にハッキング不可能に配置することにより、提供されることもできる。

メモリは、例えば、以下に詳述するようなフラッシュメモリおよび／またはNVRAMメモリを含むことができる。1つの実施形態において、コンピュータプログラム製品が情報担体中に有形的に具現化される。コンピュータプログラム製品は、実行される場合に、上記のような1つまたは複数の方法を実行する命令を含む。情報担体は、例えばトランシーバ668または外部インタフェース662を介して受け取ることができる、メモリ664、拡張メモリ674またはオンプロセッサメモリ652などのコンピュータ可読または機械可読媒体である。

デバイス650は、必要ならばデジタル信号処理回路を含むことができる通信インタフェース666を介して無線通信することができる。通信インターフェース666は、様々なモードまたはプロトコル、例えば、とりわけGSMボイスコール、SMS、EMSもしくはMMSメッセージング、CDMA、TDMA、PDC、WCDMA、CDMA2000またはGPRSの下で通信を提供することができる。そのような通信は、例えば、無線周波数トランシーバ668を介して実施されることができる。加えて、近距離通信が、例えばBluetooth、Wi-Fiまたは他のそのようなトランシーバ（図示せず）を使用して実施されることができる。加えて、GPS（Global Positioning System）レシーバモジュール670が、さらなるナビゲーション関連および位置関連の無線データをデバイス650に提供することができ、その無線データが、デバイス650上で作動するアプリケーションによって適切に使用されることができる。

デバイス650はまた、ユーザから音声情報を受け取り、それを使用可能なデジタル情報に変換することができるオーディオコーデック660を使用して、聴覚的に通信することもできる。オーディオコーデック660は、同様に、例えばデバイス650のハンドセット内のスピーカを通してなど、ユーザのための可聴音を生成することができる。そのような音は、電話通話からの音を含むこともできるし、録音、例えばボイスメッセージ、音楽ファイルなどを含むこともできるし、デバイス650上で作動するアプリケーションによって生成された音を含むこともできる。

コンピューティングデバイス650は、図示するように、いくつかの異なる形態に実現されることができる。例えば、携帯電話680として実現されることができる。また、スマートフォン682、パーソナルデジタルアシスタントまたは他の類似のモバイルデバイスの一部として実現されることもできる。

本明細書に記載されるシステムおよび方法の様々な実施形態は、デジタル電子回路、集積回路、特別に設計されたASIC（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェアおよび／またはそのような実施形態の組み合わせとして実現されることができる。これらの様々な実施形態は、記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスからデータおよび命令を受け取り、記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスにデータおよび命令を送るために結合されている、専用または汎用であることができる少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能である1つまたは複数のコンピュータプログラムとしての実施形態を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも知られる）は、プログラマブルプロセッサのための機械命令を含み、高レベル手続きおよび／またはオブジェクト指向プログラミング言語および／またはアセンブリ／機械語で実現されることができる。本明細書中で使用される用語「機械可読媒体」および「コンピュータ可読媒体」とは、機械命令を機械可読信号として受け取る機械可読媒体を含む、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、装置および／またはデバイス、例えば磁気ディスク、光学ディスク、メモリ、プログラマブル論理デバイス（PLD）をいう。用語「機械可読信号」とは、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号をいう。

ユーザとの対話を提供するために、本明細書に記載されるシステムおよび技術は、ユーザに情報を表示するためのディスプレイデバイス、例えばCRT（陰極線管）またはLCD（液晶ディスプレイ）モニタならびにユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータ上で実現されることができる。ユーザとの対話を提供するために、他の種類のデバイスが使用されることもできる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであることができ；ユーザからの入力は、音響、音声または触覚入力を含む任意の形態で受け取ることができる。

本明細書に記載されるシステムおよび技術は、バックエンドコンポーネント、例えばデータサーバを含む、またはミドルウェアコンポーネント、例えばアプリケーションサーバを含む、またはフロントエンドコンポーネント、例えば、ユーザが本明細書に記載されるシステムおよび技術の実施形態と対話することができるグラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータを含む、またはそのようなバックエンド、ミドルウェアもしくはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムとして実現されることができる。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信、例えば通信ネットワークによって相互接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（「LAN」）、ワイドエリアネットワーク（「WAN」）およびインタネットを含む。

コンピューティングシステムはクライアントおよびサーバを含むことができる。クライアントとサーバとは一般に互いに遠隔であり、通常、通信ネットワークを通して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で作動し、互いにクライアント・サーバ関係を有するコンピュータプログラムのおかげで生じる。

コンピュータシステム
本方法の実施はまた、コンピュータ関連のソフトウェアおよびシステムを用い得る。本明細書に記載されるようなコンピュータソフトウェア製品は通常、本明細書に記載されるような方法の論理ステップを実行するためのコンピュータ実行可能命令を有するコンピュータ可読媒体を含む。適当なコンピュータ可読媒体には、フロッピーディスク、CD-ROM／DVD／DVD-ROM、ハードディスクドライブ、フラッシュメモリ、ROM／RAM、磁気テープなどが含まれる。コンピュータ実行可能命令は、適当なコンピュータ言語またはいくつかの言語の組み合わせで書かれ得る。基本的な計算生物学法が、例えば、Setubal and Meidanis at al., Introduction to Computational Biology Methods（PWS Publishing Company, Boston, 1997）；Salzberg, Searles, Kasif, (Ed.), Computational Methods in Molecular Biology（Elsevier, Amsterdam, 1998）；Rashidi and Buehler, Bioinformatics Basics: Application in Biological Science and Medicine（CRC Press, London, 2000）およびOuelette and Bzevanis Bio informatics: A Practical Guide for Analysis of Gene and Proteins（Wiley & Sons, Inc., 2.sup.nd ed., 2001）に記載されている。米国特許第6,420,108号を参照されたい。

本方法はまた、多様な目的、例えばプローブ設計、データの管理、分析および機器操作のための様々なコンピュータプログラム製品およびソフトウェアを利用し得る。米国特許第5,593,839号、第5,795,716号、第5,733,729号、第5,974,164号、第6,066,454号、第6,090,555号、第6,185,561号、第6,188,783号、第6,223,127号、第6,229,911号および第6,308,170号を参照されたい。

加えて、本方法は、米国特許出願第10/197,621号、第10/063,559号（米国特許出願公開第20020183936号）、第10/065,856号、第10/065,868号、第10/328,818号、第10/328,872号、第10/423,403号および第60/482,389号に示されるような、インタネットなどのネットワークを介して遺伝情報を提供する方法を含む態様に関する。例えば、1つまたは複数の分子プロファイリング技術を1つの場所、例えば市、州、国または大陸で実施することができ、その結果を異なる市、州、国または大陸へ送信することができる。次いで、第二の場所で治療選択を全体的または部分的に行うことができる。本明細書に記載されるような方法は、異なる場所の間での情報の転送処理を含む。

システムの従来のデータネットワーキング、アプリケーション開発および他の機能的局面（およびシステムの個々のオペレーティングコンポーネントのコンポーネント）は、本明細書中で詳細に記載されないかもしれないが、本明細書に記載されるような一部である。さらに、本明細書に含まれる様々な図面に示される接続線は、様々な要素の間の例示的な機能的関係および／または物理的結合を表すことを意図したものである。実際のシステムには、多くの代替的または追加的な機能的関係または物理的接続が存在し得ることが留意されるべきである。

本明細書に詳述される様々なシステムコンポーネントには、以下：デジタルデータを処理するためのプロセッサを含むホストサーバまたは他のコンピューティングシステム；デジタルデータを記憶するための、プロセッサに結合されたメモリ；デジタルデータを入力するための、プロセッサに結合された入力デジタイザ；プロセッサによるデジタルデータの処理を命令するための、メモリに記憶され、プロセッサによってアクセス可能なアプリケーションプログラム；プロセッサによって処理されたデジタルデータから導出された情報を表示するための、プロセッサおよびメモリに結合されたディスプレイデバイス；および複数のデータベースの1つまたは複数が含まれ得る。本明細書中で使用される様々なデータベースは、患者データ、例えば家族歴、年齢層および環境データ、生体試料データ、以前の治療およびプロトコルデータ、患者臨床データ、生体試料の分子プロファイリングデータ、治療薬および／または治験薬に関するデータ、遺伝子ライブラリ、疾患ライブラリ、薬物ライブラリ、患者追跡調査データ、ファイル管理データ、財務管理データ、請求データおよび／またはシステムの運用に有用な同種のデータを含み得る。当業者が理解するように、ユーザコンピュータは、オペレーティングシステム（例えばWindows NT、95/98/2000、OS2、UNIX、Linux、Solaris、MacOSなど)、ならびに通常はコンピュータに付随する様々な従来のサポートソフトウェアおよびドライバを含み得る。コンピュータとして、任意の適当なパーソナルコンピュータ、ネットワークコンピュータ、ワークステーション、ミニコンピュータ、メインフレームなどを挙げることができる。ユーザコンピュータは、ネットワークアクセスを有する家庭または医療／ビジネス環境にあることができる。例示的な態様において、アクセスは、ネットワークを介するアクセスまたは市販のウェブブラウザソフトウェアパッケージを介したインタネットを介するアクセスである。

本明細書中で使用される用語「ネットワーク」は、ハードウェアコンポーネントとソフトウェアコンポーネントの両方を組み込む任意の電子通信手段を含むものとする。当事者間の通信は、任意の適当な通信チャネル、例えば電話ネットワーク、エクストラネット、イントラネット、インタネット、対話デバイスのポイント、パーソナルデジタルアシスト（例えばPalm Pilot（登録商標）、Blackberry（登録商標））、携帯電話、キオスクなど）、オンライン通信、衛星通信、オフライン通信、無線通信、トランスポンダ通信、ローカルエリアネットワーク（LAN）、ワイドエリアネットワーク（WAN）、ネットワーク接続またはリンクされたデバイス、キーボード、マウスおよび／または任意の適当な通信もしくはデータ入力モダリティを通して達成され得る。そのうえ、システムは、本明細書中ではTCP/IP通信プロトコルを使用して実現されるものとして記載されることが多いが、システムは、IPX、Appletalk、IP-6、NetBIOS、OSIまたはいくつもの既存もしくは将来のプロトコルを使用して実現されてもよい。ネットワークがインタネットなどのパブリックネットワークの性質を有するならば、ネットワークが安全ではなく、傍受されるおそれがあると想定することが有利であるともいえる。インタネットと関連して使用されるプロトコル、規格およびアプリケーションソフトウェアに関連する具体的な情報は一般に当業者に公知であり、したがって、本明細書中で詳述する必要はない。例えば、内容が参照により本明細書に組み入れられる、Dilip Naik, Internet Standards and Protocols (1998)；Java 2 Complete, various authors, (Sybex 1999)；Deborah Ray and Eric Ray, Mastering HTML 4.0 (1997)；およびLoshin, TCP/IP Clearly Explained (1997) and David Gourley and Brian Totty, HTTP, The Definitive Guide (2002)を参照されたい。

様々なシステムコンポーネントは、標準的なモデム通信、ケーブルモデム、Dishネットワーク、ISDN、DSL（Digital Subscriber Line）または様々な無線通信方法と関連して通常は使用されるようなローカルループを介するISP（Internet Service Provider）への接続を例として含む、データリンクを介するネットワークに独立して、個別に、または集合的に適当に結合され得る。例えば、参照により本明細書に組み入れられる、Gilbert Held, Understanding Data Communications (1996)を参照されたい。ネットワークは、他のタイプのネットワーク、例えば双方向テレビ（ITV）ネットワークとして実現されてもよいことに留意すること。そのうえ、システムは、本明細書に記載される類似の機能を有する任意のネットワーク上での任意の商品、サービスまたは情報の使用、販売または頒布を考慮する。

本明細書中で使用される「送信」は、ネットワーク接続を介して1つのシステムコンポーネントからもう1つのシステムコンポーネントへと電子データを送ることを含み得る。加えて、本明細書中で使用される「データ」は、コマンド、クエリ、ファイル、記憶用のデータなどの情報をデジタルまたは任意の他の形態で包含することを含み得る。

システムは、ウェブサービス、ユーティリティコンピューティング、パーベイシブおよび個別化コンピューティング、セキュリティおよびアイデンティティソリューション、オートノミックコンピューティング、コモディティコンピューティング、モビリティおよびワイヤレスソリューション、オープンソース、生体認証、グリッドコンピューティングおよび／またはメッシュコンピューティングと関連した使用を考慮する。

本明細書に詳述される任意のデータベースは、リレーショナル、階層、グラフィカルまたはオブジェクト指向構造および／または任意の他のデータベース構成を含み得る。データベースを実現するために使用され得る一般的なデータベース製品としては、IBM（White Plains, NY）のDB2、Oracle Corporation（Redwood Shores, CA）から市販されている様々なデータベース製品、Microsoft Corporation（Redmond, Washington）のMicrosoft AccessもしくはMicrosoft SQL Serverまたは任意の他の適当なデータベース製品がある。そのうえ、データベースは、例えばデータテーブルまたはルックアップテーブルのような任意の適当なやり方で編成されてもよい。各レコードは、単一のファイル、一連のファイル、リンクされた一連のデータフィールドまたは任意の他のデータ構造であり得る。特定のデータの関連付けは、当技術分野において公知である、または実施されているような任意の所望のデータ関連付け技術によって達成され得る。例えば、関連付けは、手動で達成されてもよいし、自動で達成されてもよい。自動関連付け技術として、例えば、データベースサーチ、データベースマージ、GREP、AGREP、SQL、サーチを高速化するためのテーブル内のキーフィールドの使用、すべてのテーブルおよびファイルの順次サーチ、検索を簡素化するための公知の順序に従うファイル内のレコードのソートなどを挙げることができる。関連付け工程は、例えば、事前に選択されたデータベースまたはデータセクタの「キーフィールド」を使用して、データベースマージ機能によって達成され得る。

より具体的には、「キーフィールド」は、キーフィールドによって定義されたオブジェクトの上位クラスにしたがってデータベースを分割する。例えば、特定のタイプのデータは、複数の関連するデータテーブル中のキーフィールドとして指定され得、その場合、データテーブルは、キーフィールド中のデータのタイプに基づいてリンクされ得る。リンクされたデータテーブルのそれぞれ中のキーフィールドに対応するデータは、好ましくは、同じである、または同じタイプである。しかし、同一ではないが類似するデータをキーフィールド中に有するデータテーブルもまた、例えばAGREPを使用してリンクさせ得る。1つの態様にしたがって、任意の適当なデータ記憶技術を使用して、標準フォーマットなしでデータを記憶し得る。データセットは、例えば、ISO/IEC 7816-4ファイル構造を使用して個々のファイルを記憶すること；1つまたは複数のデータセットを含む1つまたは複数の基礎ファイルを露出させる専用のファイルが選択されるドメインを実現すること；階層ファイリングシステムを使用して個々のファイルに記憶されたデータセットを使用すること；単一ファイル中にレコードとして記憶されたデータセットを使用すること（圧縮、SQLアクセス可能、ハッシュ化された1つまたは複数のキー、数値、最初のタプルによるアルファベットなど）；BLOB（Binary Large Object）；ISO/IEC 7816-6データエレメントを使用してコードされたグループ解除データエレメントとして記憶されること；ISO/IEC 8824および8825におけるようにISO/IEC Abstract Syntax Notation（ASN.1）を使用してコードされたグループ解除データエレメントとして記憶されること；および／またはフラクタル圧縮方式、画像圧縮法などを含み得る他の専有技術を使用することを含む、任意の適当な技術を使用して記憶され得る。

1つの例示的な態様において、多種多様な情報を異なるフォーマットで記憶する能力は、情報をBLOBとして記憶することによって容易になる。したがって、任意のバイナリ情報を、データセットと関連付けされた記憶スペースに記憶することができる。BLOB法は、固定記憶割り当て、循環キュー技術またはメモリ管理に関するベストプラクティス（例えば、ページ化メモリ、リースト・リーセントリー・ユーズド（least recently used）など）のいずれかを使用して、固定メモリオフセットを介してバイナリのブロックとしてフォーマットされたグループ解除されたデータエレメントとしてデータセットを記憶し得る。BLOB法を使用することにより、様々なフォーマットを有する様々なデータセットを記憶する能力が、データセットの複数の無関係な所有者によるデータの記憶を容易にする。例えば、記憶され得る第一のデータセットが第一の当事者によって提供され得、記憶され得る第二のデータセットが無関係の第二当事者によって提供され得、さらに、記憶され得る第三のデータセットが、第一および第二の当事者とは無関係の第三当事者によって提供され得る。これら3つの例示的なデータセットのそれぞれが、異なるデータ記憶フォーマットおよび／または技術を使用して記憶される異なる情報を含み得る。さらに、各データセットが、同じく他のサブセットと異なり得るデータのサブセットを含んでもよい。

上述したように、様々な態様において、データは、共通フォーマットに関係なく記憶することができる。しかし、1つの例示的な態様において、データセット（例えばBLOB）は、データを操作するために提供される場合に、標準的なやり方でアノテーションを付され得る。アノテーションは、様々なデータセットを管理するときに有用な情報を運ぶように構成されている、各データセットに関連する短いヘッダ、トレーラまたは他の適切なインジケータを含み得る。例えば、アノテーションは、本明細書中、「条件ヘッダ」、「ヘッダ」、「トレーラ」または「ステータス」と呼ばれることもあり、データセットのステータスの表示を含むこともあるし、データの特定の発行者または所有者に相関した識別子を含むこともある。データの後続バイトは、例えば、データの発行者または所有者のID、ユーザ、トランザクション／メンバシップアカウント識別子などを示すために使用され得る。これらの条件アノテーションのそれぞれは本明細書中でさらに詳述される。

データセットアノテーションはまた、他のタイプのステータス情報および様々な他の目的に使用されてもよい。例えば、データセットアノテーションは、アクセスレベルを確立するセキュリティ情報を含み得る。アクセスレベルは、例えば、特定の個人、従業員のレベル、企業または他のエンティティのみがデータセットにアクセスすることを許されるように構成されてもよいし、トランザクション、データの発行者もしく所有者、ユーザなどに基づいて特定のデータセットへのアクセスを許可するように構成されてもよい。さらには、セキュリティ情報は、データセットへのアクセス、その変更および／またはその削除などの特定の動作のみを制限／許可してもよい。一例において、データセットアノテーションは、データセット所有者またはユーザのみがデータセットを削除することを許され、様々な同定されたユーザが読み取りのためにデータセットにアクセスすることを許され得、他のユーザはすべてデータセットへのアクセスから除外されることを示す。しかし、様々なエンティティが様々な許可レベルで適宜データセットにアクセスすることを許す他のアクセス制限パラメータが使用されてもよい。ヘッダまたはトレーラを含むデータは、ヘッダまたはトレーラにしたがってデータを追加、削除、変更または増強するように構成されたスタンドアロン対話型デバイスによって受け取られ得る。

当業者はまた、セキュリティ上の理由から、任意のデータベース、システム、デバイス、サーバまたはシステムの他のコンポーネントが1つの場所または複数の場所でそれらの任意の組み合わせからなり得、各データベースまたはシステムが、ファイアウォール、アクセスコード、暗号化、復号化、圧縮、解凍などの様々な適当なセキュリティ機構のいずれかを含むことを理解するであろう。

ウェブクライアントのコンピューティングユニットはさらに、標準的なダイヤルアップ、ケーブル、DSLまたは当技術分野において公知の任意の他のインタネットプロトコルを使用してインタネットまたはイントラネットに接続されたインタネットブラウザを具備してもよい。ウェブクライアントで発生するトランザクションは、他のネットワークのユーザからの不正アクセスを防ぐために、ファイアウォールを通過してもよい。さらに、セキュリティをさらに強化するために、CMSの様々なコンポーネントの間でさらなるファイアウォールが展開されてもよい。

ファイアウォールは、CMSコンポーネントおよび／またはエンタプライズコンピューティングリソースを他のネットワークのユーザから保護するように適当に構成された任意のハードウェアおよび／またはソフトウェアを含み得る。さらに、ファイアウォールは、ウェブサーバを介して接続するウェブクライアントの場合に、ファイアウォールの背後にある様々なシステムおよびコンポーネントへのアクセスを限定または制限するように構成されてもよい。ファイアウォールは、とりわけステートフルインスペクション、プロキシベースのファイアウォールおよびパケットフィルタリングを含む様々な構成で存在し得る。ファイアウォールは、ウェブサーバまたは任意の他のCMSコンポーネントに統合されてもよいし、さらに別個のエンティティとして存在してもよい。

本明細書中で詳述されるコンピュータは、ユーザによってアクセス可能である適当なウェブサイトまたは他のインタネットベースのグラフィカルユーザインタフェースを提供し得る。1つの態様において、Microsoft Internet Information Server（IIS）、Microsoft Transaction Server（MTS）およびMicrosoft SQL Serverが、Microsoftオペレーティングシステム、Microsoft NTウェブサーバソフトウェア、Microsoft SQL ServerデータベースシステムおよびMicrosoft Commerce Serverとともに使用される。加えて、AccessまたはMicrosoft SQL Server、Oracle、Sybase、Informix MySQL、Interbaseなどのコンポーネントが、Active Data Object（ADO）準拠データベース管理システムを提供するために使用されてもよい。

本明細書中で詳述される通信、入力、記憶、データベースまたはディスプレイのいずれも、ウェブページを有するウェブサイトを通して容易にされ得る。本明細書中で使用される用語「ウェブページ」は、ユーザと対話するために使用され得るドキュメントおよびアプリケーションのタイプを制限することを意味するわけではない。例えば、典型的なウェブサイトは、標準的なHTMLドキュメントに加えて、様々なフォーム、Javaアプレット、JavaScript、アクティブサーバページ（ASP）、コモンゲートウェイインタフェース（CGI）スクリプト、拡張可能マークアップ言語（XML）、ダイナミックHTML、カスケーディングスタイルシート（CSS）、ヘルパアプリケーションおよびプラグインなどを含み得る。サーバは、URL（http://yahoo.com/stockquotes/ge）およびIPアドレス（123.56.789.234）を含む、ウェブサーバからのリクエストを受け取るウェブサービスを含み得る。ウェブサーバは適切なウェブページを検索し、ウェブページのためのデータまたはアプリケーションをIPアドレスに送る。ウェブサービスは、インタネットなどの通信手段を介して他のアプリケーションと対話することができるアプリケーションである。ウェブサービスは通常、XML、XSLT、SOAP、WSDLおよびUDDIなどの規格またはプロトコルに基づく。ウェブサービスメソッドは当技術分野において周知であり、多くの標準的教書において取り上げられている。例えば、参照により本明細書に組み入れられるAlex Nghiem, IT Web Services: A Roadmap for the Enterprise (2003)を参照されたい。

本方法のシステムおよび方法のためのウェブベースの臨床データベースは、好ましくは、臨床データファイルをネイティブフォーマットでアップロードし、記憶する能力を有し、任意の臨床パラメータでサーチ可能である。データベースはまた、拡張可能であり、他の研究との容易な統合のために、EAVデータモデル（メタデータ）を使用して、任意の研究から臨床アノテーションを入力し得る。加えて、ウェブベースの臨床データベースはフレキシブルあり、ユーザがカスタマイズした質問を動的に加えることができるように有効となったXMLおよびXSLTであり得る。さらに、データベースは、CDISC ODMへのエクスポート機能を含む。

実施者はまた、ブラウザベースのドキュメント内にデータを表示する方法が数多くあることを理解するであろう。データは、標準テキストとして表示されてもよいし、固定リスト、スクロール可能リスト、ドロップダウンリスト、編集可能なテキストフィールド、固定テキストフィールド、ポップアップウィンドウなどの中で表示されてもよい。同様に、ウェブページ内のデータを変更するために利用可能な数多くの方法、例えば、キーボードを使用するフリーテキスト入力、メニュー項目の選択、チェックボックス、オプションボックスなどがある。

システムおよび方法は、本明細書中、機能ブロックコンポーネント、スクリーンショット、任意の選択および様々な処理工程に関して説明され得る。そのような機能ブロックは、指定された機能を実行するように構成された任意の数のハードウェアおよび／またはソフトウェアコンポーネントによって実現され得ることが理解されるべきである。例えば、システムは、1つまたは複数のマイクロプロセッサまたは他の制御デバイスの制御下で多様な機能を実行し得る様々な集積回路コンポーネント、例えばメモリエレメント、処理エレメント、論理エレメント、ルックアップテーブルなどを用い得る。同様に、システムのソフトウェアエレメントは、任意のプログラミングまたはスクリプト言語、例えばC、C++、Macromedia Cold Fusion、Microsoft Active Server Pages、Java、COBOL、アセンブラ、PERL、Visual Basic、SQL Stored Procedures、拡張可能マークアップ言語（XML）で実現され得、様々なアルゴリズムは、データ構造、オブジェクト、プロセス、ルーチンまたは他のプログラミングエレメントの任意の組み合わせで実現される。さらに、システムは、データ送信、シグナリング、データ処理、ネットワーク制御などのためのいくつもの従来技術を用い得ることが留意されるべきである。なおさらに、このシステムは、JavaScript、VBScriptなどのクライアント側スクリプト言語でのセキュリティ問題を検出または防止するために使用されることもできる。暗号化およびネットワークセキュリティの基礎入門に関しては、いずれも参照により本明細書に組み入れられる、以下の参考文献のいずれかを参照されたい：（1）"Applied Cryptography: Protocols, Algorithms, And Source Code In C," by Bruce Schneier, published by John Wiley & Sons (second edition, 1995)；（2）"Java Cryptography" by Jonathan Knudson, published by O'Reilly & Associates (1998)；（3）"Cryptography & Network Security: Principles & Practice" by William Stallings, published by Prentice Hall。

本明細書中で使用される用語「エンドユーザ」、「消費者」、「顧客」、「クライアント」、「治療担当医」、「病院」または「ビジネス」は互いに互換可能に使用され得、それぞれ、任意の人物、エンティティ、機械、ハードウェア、ソフトウェアまたはビジネスを意味するものとする。各参加者は、システムと対話し、オンラインデータアクセスおよびデータ入力を容易にするために、コンピューティングデバイスを具備している。顧客はパーソナルコンピュータの形態のコンピューティングユニットを有するが、ラップトップ、ノートブック、ハンドヘルドコンピュータ、セットトップボックス、携帯電話、タッチトーン電話などを含む他のタイプのコンピューティングユニットが使用されてもよい。本方法のシステムおよび方法の所有者／運用者は、コンピュータ・サーバの形態で実現されたコンピューティングユニットを有するが、メインフレームコンピュータ、ミニコンピュータ、PCサーバ、同じまたは異なる地理的位置にあるコンピュータのネットワークなどとして示されるコンピューティングセンタを含むシステムによって他の実施形態が考慮される。そのうえ、システムは、本明細書に記載される類似の機能を有する任意のネットワーク上での任意の商品、サービスまたは情報の使用、販売または頒布を考慮している。

1つの例示的な態様において、各クライアント顧客は「アカウント」または「アカウント番号」を発行され得る。本明細書中で使用されるアカウントまたはアカウント番号として、消費者がシステムにアクセスし、システムと対話する、または通信することを許すように適当に構成された任意のデバイス、コード、番号、文字、記号、デジタル証明書、スマートチップ、デジタル信号、アナログ信号、生体認証または他の識別子／しるし（例えば、認証／アクセスコード、個人識別番号（PIN）、インタネットコード、他の識別コードなどの1つまたは複数）を挙げることができる。アカウント番号は、任意で、チャージカード、クレジットカード、デビットカード、プリペイドカード、エンボスカード、スマートカード、磁気ストライプカード、バーコードカード、トランスポンダ、無線周波数カードまたは関連のアカウント上に位置してもよいし、それと関連付けされてもよい。システムは、前述のカードもしくはデバイスのいずれか、またはフォブ（fob）とRF通信するトランスポンダおよびRFIDリーダを有するフォブを含み得る、またはそれとインタフェースし得る。システムはフォブ態様を含み得るが、方法はそのように限定されない。実際、システムは、RF通信を介してRFIDリーダと通信するように構成されているトランスポンダを有する任意のデバイスを含み得る。典型的なデバイスとして、例えば、キーリング、タグ、カード、携帯電話、腕時計または問合せのために提示されることができる任意のそのような形態があり得る。そのうえ、本明細書に詳述されるシステム、コンピューティングユニットまたはデバイスは「パーベイシブコンピューティングデバイス」を含み得、これは、コンピューティングユニットを埋め込まれている従来的な非コンピュータ化されたデバイスを含み得る。アカウント番号は、それ自体から第二のデバイスにデータを送信またはダウンロードすることができる任意の形態のプラスチック、電子、磁気、無線周波数、無線、オーディオおよび／または光学デバイスにおいて頒布および記憶され得る。

当業者によって理解されるように、システムは、既存のシステムをカスタマイズしたもの、アドオン製品、グレードアップされたソフトウェア、スタンドアロンシステム、分散システム、メソッド、データ処理システム、データ処理のためのデバイスおよび／またはコンピュータプログラム製品として具現化され得る。したがって、システムは、全ソフトウェア態様、全ハードウェア態様またはソフトウェアとハードウェアの両方の局面を組み合わせた態様の形態をとり得る。さらには、システムは、記憶媒体中に具現化されたコンピュータ可読プログラムコード手段を有するコンピュータ可読記憶媒体上のコンピュータプログラム製品の形態をとる場合もある。ハードディスク、CD-ROM、光学記憶デバイス、磁気記憶デバイスなどを含む、任意の適当なコンピュータ可読記憶媒体が使用され得る。

システムおよび方法は、本明細書中、様々な態様にしたがって、方法、装置（例えばシステム）およびコンピュータプログラム製品のスクリーンショット、ブロック図およびフローチャート図を参照して説明される。ブロック図およびフローチャート図の各機能ブロックならびにブロック図およびフローチャート図中の機能ブロックの組み合わせは、それぞれ、コンピュータプログラム命令によって実現されることができることが理解されよう。

これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータまたは機械を製造するための他のプログラマブルデータ処理装置にロードされて、コンピュータまたは他のプログラマブルデータ処理装置上で実行される命令が、1つまたは複数のフローチャートブロックに指定された機能を実現するための手段を創製し得る。これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラマブルデータ処理装置が特定のやり方で機能するように命令できるコンピュータ可読メモリに記憶されて、コンピュータ可読メモリに記憶された命令が、1つまたは複数のフローチャートブロックに指定された機能を実現する命令手段を含む製品を製造する。コンピュータプログラム命令はまた、コンピュータまたは他のプログラマブルデータ処理装置にロードされて、コンピュータまたは他のプログラマブル装置上で実行される一連の動作工程に、コンピュータまたは他のプログラマブル装置上で実行される命令が1つまたは複数のフローチャートブロックに指定された機能を実行するための工程を提供するようなコンピュータ実現プロセスを製造させてもよい。

したがって、ブロック図およびフローチャート図の機能ブロックは、指定された機能を実行するための手段の組み合わせ、指定された機能を実行するための工程の組み合わせおよび指定された機能を実行するためのプログラム命令手段をサポートする。また、ブロック図およびフローチャート図の各機能ブロックならびにブロック図およびフローチャート図の機能ブロックの組み合わせは、指定された機能または工程を実行する専用のハードウェアベースのコンピュータシステムによって実現されることもできるし、専用ハードウェアとコンピュータ命令との適当な組み合わせによって実現されることもできることが理解されよう。さらに、プロセスフローの例示およびその説明は、ユーザウィンドウ、ウェブページ、ウェブサイト、ウェブフォーム、プロンプトなどを参照する場合がある。実施者は、本明細書に記載された図示された工程が、ウィンドウ、ウェブページ、ウェブフォーム、ポップアップウィンドウ、プロンプトなどの使用を含むいくつもの構成を含み得ることを理解するであろう。さらに、例示され、説明される複数の工程は単一のウェブページおよび／またはウィンドウに組み合わされ得るが、わかりやすくするために拡大されていることが理解されるべきである。他の場合には、単一のプロセス工程として例示され、説明される工程が、複数のウェブページおよび／またはウィンドウに分けられてもよいが、わかりやすくするために結合されている。

分子プロファイリング
分子プロファイリング手法は、がんなどの病気または疾患を有する個人のための臨床経過を好転させることができる、個人ための候補治療を選択する方法を提供する。分子プロファイリング手法は、より長い無増悪生存期間（PFS）、より長い無病生存期間（DFS）、より長い全生存期間（OS）またはより長い寿命を提供する治療レジメンを同定するなど、個人のための臨床ベネフィットを提供する。本明細書に記載されるような方法およびシステムは、最適な治療レジメンを同定することができる個別ベースのがんの分子プロファイリングに関する。分子プロファイリングは、がんにベネフィットをもたらす可能性が高い候補治療を選択するための個別化手法を提供する。本明細書に記載される分子プロファイリング方法を使用して、第一選択／標準治療の設定をはじめとする任意の所望の設定において、または、予後不良の患者、例えば転移性疾患の患者、もしくは標準的な第一選択治療でがんが進行した患者、もしくは以前の化学療法もしくはホルモン療法でがんが進行した患者の場合に治療を導くことができる。

発明のシステムおよび方法を使用して、患者を、様々な治療でベネフィットを得る、または様々な治療に反応する可能性が高い、または低いとして分類してもよい。別段明記されない限り、本明細書中で使用される用語「反応」または「非反応」とは、治療が患者にベネフィットをもたらす（「レスポンダー」または「ベネフィッター」）、または患者にとってのベネフィットの欠如を有する（「非レスポンダー」または「非ベネフィッター」）任意の適切な指標をいう。そのような指標は、標準的なRECIST（Response Evaluation Criteria in Solid Tumors）基準などの容認された臨床反応基準または他の有用な患者反応基準、例えば無増悪生存期間（PFS）、無増悪期間（TTP）、無病生存期間（DFS）、次治療開始までの期間（TNT、TTNT）、腫瘍縮小もしくは消失などを使用して決定され得る。RECISTは、がん患者の治療中に腫瘍が改善する（「反応する」）のか、変わらない（「安定する」）のか、悪化する（「進行する」）のかを定める、国際コンソーシアムによって公表された一連の規則である。本明細書中で使用される場合、別段明記されない限り、治療による患者「ベネフィット」とは、RECIST反応またはより長いPFS/TTP/DFS/TNT/TTNTをはじめとする、改善の任意の適切な尺度を指し得、治療からの「ベネフィットの欠如」とは、治療中の疾患悪化の任意の適切な尺度を指し得る。一般に、疾患安定化はベネフィットと見なされるが、特定の状況において、本明細書にそのように明記されるならば、安定化はベネフィットの欠如と見なされる場合もある。ベネフィットまたはベネフィットの欠如の許容可能なレベルの予測がないならば、予測または指示されたベネフィットは「不確定」と記される場合もある。場合によっては、例えば必要なデータの欠如のせいでベネフィットを計算することができないならば、ベネフィットは不確定と見なされる。

本明細書に記載されるような分子プロファイリングによって提供されるような薬理遺伝学的洞察に基づく個別化医療は、一部の実施者および一般誌によってますます当然のことと見なされているが、がん治療の改善への希望の基礎を形成する。しかし、本明細書に教示される分子プロファイリングは、大部分の場合、患者がグループ化され、光学顕微鏡検査および病期からの所見に基づく手法で治療される腫瘍治療への従来手法からの根本的な脱却を表す。従来、特定の治療方略に対する示差的反応は、治療が施された後でのみ、すなわち事後的に決定されてきた。疾患治療に対する「標準的」手法は、所与のがん診断に関して一般的に真であることに依存し、治療反応は、無作為化第III相臨床治験によって精査され、医療行為における「標準治療」を形成する。これらの治験の結果は、全米総合がん情報ネットワークおよびアメリカ臨床腫瘍学会などのガイドライン組織によってコンセンサス声明にまとめられている。NCCN Compendium（商標）は、がん患者における薬物および生物製剤の適切な使用に関する意思決定を支援するために設計された、権威ある、科学的に導き出された情報を含む。NCCN Compendium（商標）は、メディケア・メディケイド・サービスセンター（CMS）およびユナイテッドヘルスケア社により、腫瘍保険保障範囲の権威ある参照元として認識されている。オン・コンペンディウム治療は、そのようなガイドによって推奨されるものである。臨床治験の結果を検証するために使用される生物統計的方法は、患者間の差を最小限に抑えることに依存し、かつ、光学顕微鏡検査および病期のみによって（腫瘍における個体差によってではなく）決定された患者グループに関してある手法が別の手法よりも優れているという誤差の可能性を宣言することに基づく。本明細書に記載される分子プロファイリング法はそのような個体差を利用する。この方法は候補治療を提供することができ、そのような治療が、その後、患者を治療するために医師によって選択されることができる。

分子プロファイリングを使用して、試料の生物学的状態の包括的見解を提供することができる。ある態様において、分子プロファイリングは全腫瘍的プロファイリングに使用される。したがって、腫瘍の状態を評価するために、いくつかの分子的手法が使用される。全腫瘍的プロファイリングは、腫瘍のための候補治療を選択するために使用することができる。分子プロファイリングは、任意の病期の任意の試料に対する候補治療物質を選択するために使用することができる。ある態様において、本明細書に記載されるような方法は、新たに診断されたがんをプロファイリングするために使用される。分子プロファイリングによって示された候補治療は、新たに診断されたがんを治療するための治療法を選択するために使用することができる。他の態様において、本明細書に記載されるような方法は、例えば、1つまたは複数の標準治療法によってすでに治療されているがんをプロファイリングするために使用される。いくつかの態様において、がんは以前の治療に対して抗療性である。例えば、がんは、がんのための標準治療に対して抗療性であり得る。がんは転移がんまたは他の再発がんであることができる。治療は、オン・コンペンディウム治療またはオフ・コンペンディウム治療であることができる。

分子プロファイリングは、生体試料中の分子を検出するための任意の公知の手段によって実行されることができる。分子プロファイリングは、核酸シーケンシング、例えばDNAシーケンシングもしくはRNAシーケンシング；免疫組織化学（IHC）；インサイチューハイブリダイゼーション（ISH）；蛍光インサイチューハイブリダイゼーション（FISH）；発色インサイチューハイブリダイゼーション（CISH）；PCR増幅（例えばqPCRまたはRT-PCR）；様々なタイプのマイクロアレイ（mRNA発現アレイ、低密度アレイ、タンパク質アレイなど）；様々なタイプのシーケンシング（サンガー、パイロシーケンシングなど）；比較ゲノムハイブリダイゼーション（CGH）；ハイスループットまたは次世代シーケンシング（NGS）；ノーザンブロット；サザンブロット；イムノアッセイ；および関心対象の生体分子の存在または量をアッセイするための任意の他の適切な技術をはじめとする方法を含む。様々な態様において、本明細書に開示される標的遺伝子を評価するために、これらの方法のいずれか1つまたは複数を互いに同時並行または順次に使用することができる。

個々の試料の分子プロファイリングを使用して、例えば、所与のがんに有効であり得る薬物のための標的を同定することにより、対象における障害のための1つまたは複数の候補治療を選択する。例えば、候補治療は、分子プロファイリング技術によって同定された遺伝子を差次的に発現する細胞に影響を及ぼすことが知られている治療、実験薬、政府もしくは規制当局が承認した薬またはそのような薬の任意の組み合わせであることができる（生体試料が採取され、分子プロファイリングされる対象の適応症と同じまたは異なる特定の適応症に関して研究され、承認されている場合もある）。

分子プロファイリングによって標的遺伝子を評価することによって複数のバイオマーカー標的が明らかになる場合、1つまたは複数の決定則を適用して、個別化ベースでの個人の治療のための特定の治療物質の選択を優先順位付けすることができる。本明細書に記載されるような規則は、優先順位付け治療、例えば、分子プロファイリングの直接的な結果、治療物質に期待される効能、同じまたは他の治療の前歴、予想される副作用、治療物質の入手可能性、治療物質の費用、薬物間相互作用および治療担当医によって考慮される他の要因を支援する。推奨され、優先順位付けされた治療物質標的に基づいて、医師は特定の個人のための治療過程を決定することができる。したがって、本明細書に記載されるような分子プロファイリング方法およびシステムは、疾患、特にがんを病む個人を治療するために慣例的に使用されている従来の万能手法に頼ることとは対照的に、治療を要する対象における疾患細胞、例えば腫瘍細胞の個々の特性および他の個別化要因に基づいて候補治療を選択することができる。場合によっては、推奨される治療は、対象を苦しめる疾患もしくは障害を治療するために通常は使用されないものである。場合によっては、推奨される治療は、標準治療法が十分な効能をもはや提供しなくなくなった後で使用される。

治療担当医は、分子プロファイリング法の結果を使用して、患者のための治療レジメンを最適化することができる。本明細書に記載されるような方法によって同定された候補治療は、患者を治療するために使用されることができるが、そのような治療は方法に必要とされない。実際、分子プロファイリング結果およびそのような結果に基づく候補治療の同定の分析は自動化されることができ、医師の関与を要しない。

生物学的エンティティ
核酸には、デオキシリボヌクレオチドもしくはリボヌクレオチドおよび一本鎖もしくは二本鎖形態のいずれかのそれらのポリマー、またはその相補体が含まれる。核酸は、合成、天然、および非天然である公知のヌクレオチド類似体または改変された骨格残基もしくは結合を含有することができ、それらは、基準核酸と類似の結合特性を有し、それらは、基準ヌクレオチドと類似のやり方で代謝される。そのような類似体の例には、ホスホロチオエート、ホスホルアミデート、メチルホスホネート、キラル-メチルホスホネート、2-O-メチルリボヌクレオチド、ペプチド－核酸（PNA）が含まれるが、それに限定されるわけではない。核酸配列は、その保存的に改変されたバリアント（例えば、縮重コドン置換）および相補配列に加えて、明示された配列を包含することができる。具体的には、縮重コドン置換は、1つまたは複数の選択された（またはすべての）コドンの3番目の位置が混合塩基および／またはデオキシイノシン残基で置換された配列を生成することによって達成され得る（Batzer et al., Nucleic Acid Res. 19:5081 (1991); Ohtsuka et al., J. Biol. Chem. 260:2605-2608 (1985); Rossolini et al., Mol. Cell Probes 8:91-98 (1994)）。核酸という用語は、遺伝子、cDNA、mRNA、オリゴヌクレオチド、およびポリヌクレオチドと互換的に使用することができる。

特定の核酸配列は、特定の配列ならびに「スプライスバリアント」および切断型をコードする核酸配列を暗に包含し得る。同様に、核酸によってコードされる特定のタンパク質は、その核酸のスプライスバリアントまたは切断型によってコードされる任意のタンパク質を包含することができる。「スプライスバリアント」は、その名称が示唆するように、遺伝子の選択的スプライシングの産物である。転写後、異なる（選択的）核酸スプライス産物が異なるポリペプチドをコードするように、最初の核酸転写物がスプライシングされる場合がある。スプライスバリアントの産生メカニズムは様々であるが、エクソンの選択的スプライシングを含む。同じ核酸からリードスルー転写によって得られる選択的ポリペプチドもまた、この定義によって包含される。組み換え形態のスプライス産物を含む、スプライシング反応の任意の産物が、この定義に含まれる。核酸は、5'末端または3'末端で切断することができる。ポリペプチドは、N末端またはC末端で切断することができる。核酸またはポリペプチド配列の切断バージョンは、天然であることができ、または組み換え技法を使用して生み出すことができる。

「遺伝子バリアント」および「ヌクレオチドバリアント」という用語は、コード領域および非コード領域中のヌクレオチド塩基の欠失、挿入、逆位、および置換を含むが、それに限定されるわけではない、特定の座位での基準ヒト遺伝子またはcDNA配列に対する変化または変更を指すために本明細書において互換的に使用される。欠失は、単一のヌクレオチド塩基、遺伝子のヌクレオチド配列の一部分もしくは領域、または遺伝子配列全体のものであり得る。挿入は、1つまたは複数のヌクレオチド塩基のものであり得る。遺伝子バリアントまたはヌクレオチドバリアントは、転写調節領域、mRNAの非翻訳領域、エクソン、イントロン、エクソン／イントロン接合部などで起こる場合がある。遺伝子バリアントまたはヌクレオチドバリアントの結果として、終止コドン、フレームシフト、アミノ酸の欠失、変更された遺伝子転写物スプライス形態または変更されたアミノ酸配列が潜在的に生じる可能性がある。

アレルまたは遺伝子アレルは、一般的に、基準配列を有する天然遺伝子、または特定のヌクレオチドバリアントを含有する遺伝子を含む。

ハプロタイプは、個体に見出されるmRNAまたは染色体上のゲノムDNAの領域中の遺伝子（ヌクレオチド）バリアントの組み合わせを指す。したがって、ハプロタイプは、典型的にはユニットとして一緒に遺伝する、いくつかの遺伝的に連鎖した多型バリアントを含む。

本明細書に使用する場合、「アミノ酸バリアント」という用語は、基準タンパク質をコードする基準ヒト遺伝子に対する遺伝子バリアントまたはヌクレオチドバリアントに起因する、基準ヒトタンパク質配列に対するアミノ酸変化を指すために使用される。「アミノ酸バリアント」という用語は、基準タンパク質におけるアミノ酸配列の単一のアミノ酸置換だけでなく、アミノ酸欠失、挿入、および他の重大な変化も包含することが意図される。

「遺伝子型」という用語は、本明細書に使用する場合、遺伝子（または特定の染色体領域）の一方のアレルまたは両方のアレルのいずれかにおける特定のヌクレオチドバリアントマーカー（または座位）でのヌクレオチドの性質を意味する。関心対象の遺伝子の特定のヌクレオチド位置に関して、一方または両方のアレル中のその座位またはその同等物でのヌクレオチドが、その座位での遺伝子の遺伝子型を形成する。遺伝子型は、ホモ接合性またはヘテロ接合性であることができる。したがって、「遺伝子型決定」は、遺伝子型、すなわち特定の遺伝子座位でのヌクレオチドを決定することを意味する。遺伝子型決定はまた、対応するヌクレオチドバリアントを推定するために使用することができる、タンパク質の特定の位置でのアミノ酸バリアントを決定することによって行うことができる。

「座位」という用語は、遺伝子配列またはタンパク質における特定の位置または部位を指す。したがって、特定の遺伝子座位に1つもしくは複数の連続ヌクレオチド、またはポリペプチド中の特定の座位に1つもしくは複数のアミノ酸があり得る。そのうえ、座位は、1つまたは複数のヌクレオチドが欠失、挿入、または逆位にされた、遺伝子中の特定位置を指す場合がある。

特に規定がない限り、または当業者に理解されていない限り、「ポリペプチド」、「タンパク質」、および「ペプチド」という用語は、アミノ酸残基が共有ペプチド結合によって連結されたアミノ酸鎖を指すために本明細書において互換的に使用される。アミノ酸鎖は、完全長タンパク質を含む、任意の長さの少なくとも2つのアミノ酸のものであることができる。特に規定がない限り、ポリペプチド、タンパク質、およびペプチドはまた、グリコシル化形態、リン酸化形態などを含むが、それに限定されるわけではない、その様々な改変形態を包含する。ポリペプチド、タンパク質またはペプチドはまた、遺伝子産物と称することができる。

分子プロファイリング技法によってアッセイすることができる遺伝子および遺伝子産物のリストが、本明細書に提示される。遺伝子のリストは、遺伝子産物（例えば、mRNAまたはタンパク質）を検出する分子プロファイリング技法に関連して提示される場合がある。当業者は、これが、リストに挙げられた遺伝子の遺伝子産物の検出を意味することを理解するであろう。同様に、遺伝子産物のリストは、遺伝子配列またはコピー数を検出する分子プロファイリング技法に関連して提示される場合がある。当業者は、これが遺伝子産物をコードするDNAを例として含む、遺伝子産物に対応する遺伝子の検出を意味することを理解するであろう。当業者によって認識されるように、「バイオマーカー」または「マーカー」は、文脈に応じて遺伝子および／または遺伝子産物を含む。

「標識」および「検出可能な標識」という用語は、分光学的、光化学的、生化学的、免疫化学的、電気的、光学的、化学的方法または類似の方法によって検出可能な任意の組成物を指すことができる。そのような標識には、標識ストレプトアビジンコンジュゲートで染色するためのビオチン、磁性ビーズ（例えば、DYNABEADS（商標））、蛍光色素（例えば、フルオレセイン、テキサスレッド、ローダミン、緑色蛍光タンパク質など）、放射性標識（例えば、³H、¹²⁵I、³⁵S、¹⁴C、または³²P）、酵素（例えば、ホースラディッシュペルオキシダーゼ、アルカリホスファターゼおよびELISAに通常使用されるその他）、およびコロイド金または着色ガラスもしくはプラスチック（例えば、ポリスチレン、ポリプロピレン、ラテックス等の）ビーズなどの比色標識が含まれる。そのような標識の使用を教示している特許には、米国特許第3,817,837号；同第3,850,752号；同第3,939,350号；同第3,996,345号；同第4,277,437号；同第4,275,149号；および同第4,366,241号が含まれる。そのような標識を検出する手段は、当業者に周知である。したがって、例えば、放射性標識は、写真フィルムまたはシンチレーションカウンタを使用して検出される場合があり、蛍光マーカーは、放出光を検出するために光ディテクタを使用して検出される場合がある。酵素標識は、典型的には、酵素に基質を提供すること、および基質に対する酵素の作用によって産生される反応産物を検出することによって検出され、比色標識は、着色標識を単に可視化することによって検出される。標識は、例えば、標識された抗体に結合するリガンド、フルオロフォア、化学発光剤、酵素、および標識されたリガンドに特異的な結合ペアのメンバーとして役立つことができる抗体を含むことができる。標識の概論、標識手順および標識の検出は、Polak and Van Noorden Introduction to Immunocytochemistry, 2nd ed., Springer Verlag, NY (1997)；およびMolecular Probes, Inc.刊行のハンドブックとカタログの合本のHaugland Handbook of Fluorescent Probes and Research Chemicals (1996)に見出される。

検出可能な標識には、ヌクレオチド（標識または非標識）、コンポマー（compomer）、糖、ペプチド、タンパク質、抗体、化学化合物、導電性ポリマー、結合部分、例えばビオチン、質量タグ、比色剤、発光剤、化学発光剤、光散乱剤、蛍光タグ、放射性タグ、チャージタグ（charge tag）（電荷または磁荷）、揮発性タグ（volatile tag）および疎水性タグ、生体分子（例えば、結合ペア抗体／抗原、抗体／抗体、抗体／抗体断片、抗体／抗体受容体、抗体／プロテインAまたはプロテインG、ハプテン／抗ハプテン、ビオチン／アビジン、ビオチン／ストレプトアビジン、葉酸／葉酸結合タンパク質、ビタミンB12／内因子、化学反応基／相補的化学反応基（例えば、スルフヒドリル／マレイミド、スルフヒドリル／ハロアセチル誘導体、アミン／イソトリオシアネート(isotriocyanate)、アミン／スクシンイミジルエステル、およびアミン／スルホニルハライドのメンバー）等が含まれるが、それに限定されるわけではない。

「プライマー」、「プローブ」、および「オリゴヌクレオチド」という用語は、比較的短い核酸断片または配列を指すために本明細書において互換的に使用される。それらは、DNA、RNA、もしくはそれらのハイブリッド、または化学的に改変されたそれらの類似体もしくは誘導体を含むことができる。典型的には、それらは一本鎖である。しかし、それらはまた、変性によって分離することができる2つの相補鎖を有する二本鎖であることができる。通常、プライマー、プローブおよびオリゴヌクレオチドは、約8ヌクレオチド～約200ヌクレオチド長、好ましくは約12ヌクレオチド～約100ヌクレオチド長、より好ましくは約18～約50ヌクレオチド長を有する。それらは、検出可能なマーカーで標識することができ、または様々な分子生物学的応用のための従来のやり方を用いて改変することができる。

「単離された」という用語は、核酸（例えば、ゲノムDNA、cDNA、mRNA、またはそれらの断片）に関連して使用される場合、核酸分子がその分子と通常関連する他の天然核酸から実質的に分離されている形態で存在することを意味することが意図される。天然に存在する染色体（またはそのウイルス同等物）は長い核酸配列を含むので、単離された核酸は、染色体中の核酸配列の一部分だけを有するが、同じ染色体に存在する1つまたは複数の他の部分を有しない、核酸分子であることができる。より具体的には、単離された核酸は、天然に存在する染色体（またはそのウイルス同等物）中の核酸に隣接する天然核酸配列を含むことができる。単離された核酸は、同じ生物の異なる染色体上にある他の天然核酸から実質的に分離されていることができる。単離された核酸はまた、特定の核酸分子が組成物中の総核酸の少なくとも10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、または少なくとも99％を構成するように顕著に濃縮されている組成物であることができる。

単離された核酸は、1つまたは複数の核酸分子と共有結合的に連結された特定の核酸分子を有するハイブリッド核酸であることができ、1つまたは複数の核酸分子は、天然で特定の核酸と隣接する核酸ではない。例えば、単離された核酸は、ベクター中にあることができる。加えて、特定の核酸は、天然の核酸、または1つもしくは複数の変異、例えばヌクレオチドの置換、欠失／挿入、逆位などを有するその改変形態もしくはムテインと同一であるヌクレオチド配列を有する場合がある。

単離された核酸は、組み換え宿主細胞（核酸が組み換え増幅および／もしくは発現されているもの）から調製することができ、または天然ヌクレオチド配列もしくはその人工改変形態を有する化学合成された核酸であることができる。

「高ストリンジェンシーハイブリダイゼーション条件」という用語は、核酸ハイブリダイゼーションに関連して使用される場合、50％ホルムアミド、5×SSC（750mM NaCl、75mM クエン酸ナトリウム）、50mM リン酸ナトリウム、pH7.6、5×デンハート液、10％硫酸デキストラン、および20マイクログラム／ml 変性断片化処理済みサケ精子DNAを含有する溶液中42℃で一晩行うハイブリダイゼーションであって、ハイブリダイゼーションフィルターを約65℃の0.1×SSC中で洗浄するハイブリダイゼーションを含む。「中程度のストリンジェントなハイブリダイゼーション条件」という用語は、核酸ハイブリダイゼーションに関連して使用される場合、50％ホルムアミド、5×SSC（750mM NaCl、75mM クエン酸ナトリウム）、50mM リン酸ナトリウム、pH7.6、5×デンハート液、10％硫酸デキストラン、および20マイクログラム／ml 変性断片化処理済みサケ精子DNAを含有する溶液中37℃で一晩行うハイブリダイゼーションであって、ハイブリダイゼーションフィルターを約50℃の1×SSC中で洗浄するハイブリダイゼーションを含む。当業者に明らかであろうが、多くの他のハイブリダイゼーション方法、溶液および温度を使用して同程度のストリンジェントなハイブリダイゼーション条件を達成できることに留意されたい。

2つの異なる核酸またはポリペプチド配列を比較する目的で、一方の配列（試験配列）は、別の配列（比較配列）と特定のパーセンテージで同一あると記載される場合がある。同一パーセンテージは、様々なBLASTプログラムに組み込まれているKarlin and Altschul, Proc. Natl. Acad. Sci. USA, 90:5873-5877 (1993)のアルゴリズムによって決定することができる。同一パーセンテージは、米国立バイオテクノロジー情報センター（NCBI）のウェブサイトで利用可能な「BLAST 2 Sequences」ツールによって決定することができる。Tatusova and Madden, FEMS Microbiol. Lett., 174(2):247-250 (1999)を参照されたい。DNA-DNAの対比較のために、BLASTNプログラムが初期設定のパラメータ（例えば、マッチ：1；ミスマッチ：-2；オープンギャップ：5ペナルティ；伸長ギャップ：2ペナルティ；ギャップx_ドロップオフ：50；期待値：10；およびワードサイズ：11、フィルタあり）で使用される。タンパク質－タンパク質配列の対比較のために、初期設定のパラメータ（例えば、行列：BLOSUM62；ギャップオープン：11；ギャップ伸長：1；x_ドロップオフ：15；期待値：10.0；およびワードサイズ：3、フィルタあり）を使用してBLASTPプログラムを採用することができる。2つの配列の同一パーセントは、BLASTを使用して試験配列を比較配列とアライメントし、比較配列の同じ位置にあるアミノ酸またはヌクレオチドと同一である、アライメントされた試験配列中のアミノ酸またはヌクレオチドの数を決定し、同一のアミノ酸またはヌクレオチドの数を比較配列中のアミノ酸またはヌクレオチドの数で割ることによって計算される。2つの配列を比較するためにBLASTが使用される場合、BLASTは、配列をアライメントし、所定のアライメントされた領域にわたる同一パーセントをもたらす。2つの配列がそれらの全長にわたってアライメントされる場合、BLASTによってもたらされた同一パーセントは、これら2つの配列の同一パーセントである。BLASTが2つの配列をその全長にわたりアライメントしない場合、試験配列および比較配列のアライメントされない領域中の同一のアミノ酸またはヌクレオチドの数は、ゼロと見なされ、同一パーセントは、アライメントされた領域中の同一のアミノ酸またはヌクレオチドの数を足し合わせ、その数を比較配列の長さで割ることによって計算される。配列を比較するために様々なバージョンのBLASTプログラム、例えば、BLAST 2.1.2またはBLAST+ 2.2.22を使用することができる。

対象または個体は、例えば、ヒトおよび非ヒト哺乳動物、例えば霊長類、げっ歯類、ウマ、イヌおよびネコを含む、本明細書に記載される方法から恩恵を受ける場合がある任意の動物であることができる。対象には、真核生物、最も好ましくは哺乳動物、例えば霊長類、例えば、チンパンジーもしくはヒト、ウシ；イヌ；ネコ；げっ歯類、例えば、モルモット、ラット、マウス；ウサギ；または鳥類；爬虫類；または魚類が含まれるが、それに限定されるわけではない。本明細書に記載される方法を使用する治療のために具体的に意図される対象には、ヒトが含まれる。対象はまた、本明細書において個体または患者と称される場合もある。本方法において対象は、結腸直腸がんを有する、例えば、結腸直腸がんと診断されている。結腸直腸がんを有する対象を特定するための方法、例えば生検を使用する方法は、当技術分野において公知である。例えば、Fleming et al., J Gastrointest Oncol. 2012 Sep; 3(3): 153-173; Chang et al., Dis Colon Rectum. 2012; 55(8):831-43を参照されたい。

本明細書に記載される方法による疾患または個体の治療は、臨床結果を含む有益なまたは所望の医学的結果を得るための手法であるが、必ずしも治癒を得るための手法ではない。本明細書に記載される方法のために、有益なまたは所望の臨床結果には、検出可能か検出不可能かにかかわらず、1つまたは複数の症状の軽減または回復、疾患の程度の減少、病状の安定（すなわち、悪化しない）、疾患の拡大の防止、疾患の進行の遅延または減速、病状の回復または緩和、および寛解（部分寛解または全寛解のいずれにせよ）が含まれるが、それに限定されるわけではない。治療にはまた、治療を受けなかった場合または異なる治療を受けた場合の予測生存期間と比較して生存期間を延長することも含む。治療は、FOLFOXまたはFOLFIRIレジメンのいずれかの投与を含むことができる。バイオマーカーは、一般的に、遺伝子またはその産物、核酸（例えば、DNA、RNA）、タンパク質／ペプチド／ポリペプチド、糖鎖構造、脂質、糖脂質を含むが、それに限定されるわけではない分子であって、組織または細胞において検出されると候補治療に対する感受性または抵抗性について予測、診断、予後判定および／またはセラノスティック（theranostic）する情報を提供することができる特徴を有する分子指す。

生体試料
本明細書に使用する場合の試料には、分子プロファイリングのために使用することができる任意の関連する生体試料、例えば、外科的手順または他の手順の間に取り出された生検または組織、体液、剖検試料、および組織学的目的で採取された凍結切片のような組織切片が含まれる。そのような試料には、血液および血液画分または産物（例えば、血清、バフィーコート、血漿、血小板、赤血球など）、痰、悪性滲出液、頬細胞組織、培養細胞（例えば、初代培養、外植片、および形質転換細胞）、大便、尿、他の生体液または体液（例えば、前立腺液、胃液、腸液、腎液（renal fluid）、肺液、脳脊髄液など）、その他が含まれる。試料は、新鮮凍結およびホルマリン固定パラフィン包埋（FFPE）ブロックである、ホルマリン固定パラフィン包埋されている、またはRNA保存剤＋ホルマリン固定液内にある、生体材料を含むことができる。1つよりも多いタイプの1つよりも多い試料を各患者について使用することができる。好ましい態様では、試料は、固定された腫瘍試料を含む。

本発明のシステムおよび方法に使用される試料は、ホルマリン固定パラフィン包埋（FFPE）試料であることができる。FFPE試料は、固定組織、非染色スライド、骨髄コアまたはクロット、コア針生検、悪性流体および穿刺吸引液（FNA）のうちの1つまたは複数であることができる。ある態様では、固定組織は、手術または生検からの腫瘍含有ホルマリン固定パラフィン包埋（FFPE）ブロックを含む。別の態様では、非染色スライドは、パラフィンブロックからの未染色で荷電した未ベーキング処理のスライドを含む。別の態様では、骨髄コアまたはクロットは、脱灰されたコアを含む。ホルマリン固定コアおよび／またはクロットは、パラフィン包埋することができる。なお別の態様では、コア針生検は、1、2、3、4、5、6、7、8、9、10個またはそれ以上、例えば3～4個の、パラフィン包埋生検試料を含む。18ゲージ針生検を使用することができる。悪性流体は、5×5×2mm細胞ペレットを産生するために十分な体積の新鮮胸膜液／腹膜液を含むことができる。液は、パラフィンブロックの状態でホルマリン固定することができる。ある態様では、コア針生検は、1、2、3、4、5、6、7、8、9、10個またはそれ以上、例えば4～6個の、パラフィン包埋吸引液を含む。

試料は、当業者によって理解される技法に従って加工され得る。試料は、新鮮な、凍結された、または固定された細胞または組織であることができるが、それに限定されるわけではない。いくつかの態様では、試料は、ホルマリン固定パラフィン包埋（FFPE）組織、新鮮組織または新鮮凍結（FF）組織を含む。試料は、対象試料に由来する初代または不死化細胞株を含む培養細胞を含むことができる。試料はまた、対象由来の試料からの抽出物も指すことができる。例えば試料は、組織または体液から抽出されたDNA、RNAまたはタンパク質を含むことができる。そのような目的のために多くの技法および市販のキットが利用可能である。個体からの新鮮な試料は、さらなる加工、例えば細胞溶解および抽出の前に作用物質で処理してRNAを保存することができる。試料は、他の目的で収集された凍結試料を含むことができる。試料は、年齢、性別、および対象に存在する臨床症状；試料の起源；ならびに試料の収集および保管方法などの関連する情報と関連することができる。試料は、典型的には対象から得られる。

生検は、診断または予後評価のために組織試料を取り出すプロセス、および組織標本自体を含む。当技術分野において公知の任意の生検技法を、本開示の分子プロファイリング法に適用することができる。適用される生検技法は、いくつかある要因の中で、評価されるべき組織のタイプ（例えば、結腸、前立腺、腎臓、膀胱、リンパ節、肝臓、骨髄、血液細胞、肺、乳房など）、腫瘍のサイズおよびタイプ（例えば、固形または浮遊、血液または腹水）に依存することができる。代表的な生検技法には、切除生検、切開生検、針生検、外科的生検、および骨髄生検が含まれるが、それに限定されるわけではない。「切除生検」は、腫瘍塊全体を、それを取り囲む正常組織の小さな辺縁と共に取り出すことを指す。「切開生検」は、腫瘍の断面直径を含む楔状組織の取り出しを指す。分子プロファイリングは、腫瘍塊の「コア針生検」、または一般的に腫瘍塊内から細胞の懸濁物を得る「細針吸引生検」を使用することができる。生検技法は、例えば、Harrison's Principles of Internal Medicine, Kasper, et al., eds., 16th ed., 2005の70章及び第V部全体で論考されている。

特に言及しないかぎり、患者の分子プロファイリングのために本明細書において言及される「試料」は、1つよりも多い物理的標本を含む場合がある。非限定的な一例として、「試料」は、腫瘍からの複数の切片、例えば、FFPEブロックの複数の切片または複数のコア針生検切片を含む場合がある。別の非限定的な例として、「試料」は、複数の生検標本、例えば、1つもしくは複数の外科的生検標本、1つもしくは複数のコア針生検標本、1つもしくは複数の細針吸引生検標本、またはそれらの任意の有用な組み合わせを含む場合がある。なお別の非限定的な例として、分子プロファイルは、固形腫瘍標本および体液標本を含む「試料」を使用して対象について生成される場合がある。いくつかの態様では、試料は、単位試料、すなわち単一の物理的標本である。

当技術分野において公知であり、具体的に記載されない標準的な分子生物学的技法は、一般的に、Sambrook et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Laboratory Press, New York (1989)およびAusubel et al., Current Protocols in Molecular Biology, John Wiley and Sons, Baltimore, Md. (1989)およびPerbal, A Practical Guide to Molecular Cloning, John Wiley & Sons, New York (1988)およびWatson et al., Recombinant DNA, Scientific American Books, New YorkおよびBirren et al (eds) Genome Analysis: A Laboratory Manual Series, Vols. 1-4 Cold Spring Harbor Laboratory Press, New York (1998)、ならびに米国特許第4,666,828号;同第4,683,202号；同第4,801,531号；同第5,192,659号および同第5,272,057号に示される方法論に従い、それらは、参照により本明細書に組み入れられる。ポリメラーゼ連鎖反応（PCR）は、一般的に、PCR Protocols: A Guide to Methods and Applications, Academic Press, San Diego, Calif. (1990)にあるように実施することができる。

小胞
試料は、小胞を含むことができる。本明細書に記載されるような方法は、小胞集団を調べることを含む、1つまたは複数の小胞を調べることを含むことができる。小胞は、本明細書に使用される場合、細胞から排出された（shed）膜小胞である。小胞または膜小胞には、循環微小小胞（cMV）、微小小胞、エキソソーム、ナノ小胞、デキソソーム（dexosome）、ブレブ、ブレビー（blebby）、プロスタソーム（prostasome）、マイクロパーティクル、腔内小胞、膜断片、腔内エンドソーム小胞、エンドソーム様小胞、エキソサイトーシスビヒクル、エンドソーム（endosome）小胞、エンドソーム（endosomal）小胞、アポトーシス小体、多胞体、分泌小胞、リン脂質小胞、リポソーム小胞、アルゴソーム（argosome）、テキサソーム（texasome）、セクレソーム（secresome）、トレロソーム（tolerosome）、メラノソーム、オンコソーム（oncosome）、またはエキソサイトーシスされたビヒクルが含まれるが、それに限定されるわけではない。さらに小胞は、異なる細胞過程によって産生される場合があるものの、本明細書に記載されるような方法は、そのような小胞が生体試料中に存在し、本明細書に開示される方法によって特徴付けることができるかぎり、任意の1つのメカニズムに限定されることも依存もしない。特に規定がないかぎり、小胞の一種を利用する方法を、他のタイプの小胞に適用することができる。小胞は、時にペイロードと称される可溶性成分を含有することができる内部区画を取り囲む、細胞膜に類似する脂質二重層を有する球状構造を含む。いくつかの態様では、本明細書に記載されるような方法は、直径約40～100nmの小さな分泌小胞であるエキソソームを利用する。タイプおよび特徴付けを含む膜小胞の総説については、Thery et al., Nat Rev Immunol. 2009 Aug;9(8):581-93を参照されたい。異なるタイプの小胞のいくつかの特性は、表1に記載されるものを含む：

（表１）小胞の特性

略語：ホスファチジルセリン（PPS）；電子顕微鏡法（EM）

小胞は、形質膜または内膜のいずれかから得られる、排出された膜結合パーティクルまたは「マイクロパーティクル」を含む。小胞は、細胞から細胞外環境内に放出されることができる。小胞を放出している細胞には、外胚葉、内胚葉、または中胚葉に由来する、またはそれから得られる細胞が含まれるが、それに限定されるわけではない。細胞は、遺伝的、環境的、および／または任意の他のバリエーションもしくは変更を受けている場合がある。例えば、細胞は、腫瘍細胞であることができる。小胞は、ソース細胞における任意の変化を反映し、それにより、由来する細胞、例えば、様々な遺伝子変異を有する細胞における変化を反映することができる。一メカニズムでは、細胞膜のセグメントが自然に陥入し、最終的にエキソサイトーシスされる場合、小胞が細胞内で生成する（例えば、Keller et al., Immunol. Lett. 107 (2): 102-8 (2006)を参照されたい）。小胞はまた、脱出した外反（ブレビング）の分離および形質膜部分の封着の両方から、または腫瘍起源の様々な膜関連タンパク質を含有する任意の細胞内膜結合型小胞構造の搬出から生じる脂質二重膜によって結合される細胞由来構造を含み、それらは、腫瘍由来マイクロRNAまたは細胞内タンパク質を含むが、それに限定されるわけではない、小胞腔に含有される分子と一緒に腫瘍由来タンパク質に選択的に結合する、宿主循環から得られる表面結合分子を含む。ブレブおよびブレビングはさらに、Charras et al., Nature Reviews Molecular and Cell Biology, Vol. 9, No. 11, p. 730-736 (2008)に記載されている。腫瘍細胞から循環または体液中に排出された小胞は、「循環性腫瘍由来小胞」と称される場合がある。そのような小胞がエキソソームである場合、小胞は、循環性腫瘍由来エキソソーム（CTE）と称される場合がある。場合により、小胞は、特定の細胞起源に由来することができる。CTEは、細胞起源特異的小胞と同様に、典型的には、CTEまたは細胞起源特異的小胞の、例えば体液からの、時に特異的なやり方での単離を可能にする1つまたは複数の固有のバイオマーカーを有する。例えば、細胞または組織特異的マーカーが、細胞起源を特定するために使用される。そのような細胞または組織特異的マーカーの例は、本明細書において開示され、bioinfo.wilmer.jhu.edu/tiger/から入手可能なTissue-specific Gene Expression and Regulation（TiGER）データベース；Liu et al. (2008) TiGER: a database for tissue-specific gene expression and regulation. BMC Bioinformatics. 9:271; genome.dkfz-heidelberg.de/menu/tissue_db/index.htmlから入手可能なTissueDistributionDBsにさらにアクセスすることができる。

小胞は、約10nm、20nm、または30nmよりも大きな直径を有することができる。小胞は、40nm、50nm、100nm、200nm、500nm、1000nmよりも大きな、または10,000nmよりも大きな直径を有することができる。小胞は、約30～1000nm、約30～800nm、約30～200nm、または約30～100nmの直径を有することができる。いくつかの態様では、小胞は、10,000nm、1000nm、800nm、500nm、200nm、100nm、50nm、40nm、30nm、20nm未満または10nm未満の直径を有する。本明細書に使用する場合、数値に関連する「約」という用語は、数値の上下10％の変動が特定の値に帰される範囲内であることを意味する。様々なタイプの小胞についての典型的なサイズを表1に示す。小胞を調べて、単一の小胞または任意の数の小胞の直径を測定することができる。例えば、小胞集団の直径の範囲または小胞集団の平均直径を決定することができる。小胞の直径は、当技術分野において公知の方法、例えば、電子顕微鏡法などのイメージング技法を使用して調べることができる。ある態様では、1つまたは複数の小胞の直径は、光学的パーティクル検出を使用して決定される。例えば、「Optical Detection and Analysis of Particles」という名称で、2010年7月6日に発行された米国特許第7,751,053号；および「Optical Detection and Analysis of Particles」という名称で2010年7月15日に発行された米国特許第7,399,600号を参照されたい。

いくつかの態様では、小胞は、生体試料からの事前の単離、精製、または濃縮なしに生体試料から直接アッセイされる。例えば、試料中の小胞の量は、それ自体で、診断、予後判定またはセラノスティック決定を提供するバイオシグネチャ（biosignature）を提供することができる。あるいは、試料中の小胞は、分析前に試料から単離、捕捉、精製、または濃縮される場合がある。上述のように、単離、捕捉または精製は、本明細書に使用する場合、試料中の他の成分から離した部分単離、部分捕捉または部分精製を含む。小胞の単離は、本明細書に記載されるような、または当技術分野において公知の、様々な技法を使用して行うことができ、それらの技法には、サイズ排除クロマトグラフィー、密度勾配遠心分離、分画遠心分離、ナノメンブラン限外濾過、免疫吸着捕捉、親和性精製、親和性捕捉、イムノアッセイ、免疫沈降、マイクロ流体分離、フローサイトメトリーまたはそれらの組み合わせが含まれるが、それに限定されるわけではない。

小胞を調べて、小胞の特徴を基準と比較することによって、表現型の特徴付けを提供することができる。いくつかの態様では、小胞上の表面抗原が調べられる。特定のマーカーを保有する小胞または小胞集団は、陽性（バイオマーカー＋）小胞または小胞集団と称することができる。例えば、DLL4+集団は、DLL4と結合している小胞集団を指す。逆に、DLL4-集団は、DLL4と結合していない。表面抗原は、小胞の解剖学的ならびに／または細胞起源ならびに他の表現型情報、例えば腫瘍の状態の指標を提供することができる。例えば、患者の試料中に見出される小胞を、結腸直腸起源およびがんの存在を示す表面抗原について調べ、それにより、結腸直腸がん細胞に関連する小胞を特定することができる。表面抗原は、小胞膜表面に検出することができる情報を与える任意の生物学的エンティティを含む場合があり、それには、表面タンパク質、脂質、糖質、および他の膜成分が含まれるが、それに限定されるわけではない。例えば、腫瘍抗原を発現している結腸から得られる小胞の陽性検出は、患者が結腸直腸がんを有することを示すことができる。このように、本明細書に記載されるような方法を使用して、例えば、対象から得られた1つまたは複数の小胞の疾患特異的および細胞特異的バイオマーカーを調べることによって、解剖学的または細胞起源に関連する任意の疾患または状態を特徴付けることができる。

諸態様では、表現型の特徴付けを提供するために、1つまたは複数の小胞ペイロードが調べられる。小胞を有するペイロードは、タンパク質および核酸、例えば、ゲノムもしくはcDNA、mRNA、またはそれらの機能的断片に加えて、マイクロRNA（miR）も含むが、それに限定されるわけではない、小胞内に封入されているとして検出することができる、情報を与える任意の生物学的エンティティを含む。加えて、本明細書に記載されるような方法は、小胞表面抗原を（小胞ペイロードに加えてまたは排他的に）検出して表現型の特徴付けを提供することに向けられる。例えば、小胞は、小胞表面抗原に特異的な結合剤（例えば、抗体またはアプタマー）を使用することによって特徴付けることができ、結合した小胞をさらに調べて、本明細書に開示される1つまたは複数のペイロード成分を特定することができる。本明細書に記載されるように、関心対象の表面抗原または関心対象のペイロードを有する小胞のレベルを基準と比較して、表現型を特徴付けることができる。例えば、基準と比較したがん関連表面抗原または小胞ペイロード、例えば、腫瘍関連mRNAまたはマイクロRNAの試料中の過剰発現は、試料中のがんの存在を示すことができる。調べられるバイオマーカーは、所望の標的試料の選択および標的試料と所望の基準試料との比較に基づき、存在するまたは存在しない、増加しているまたは低減している可能性がある。標的試料の非限定的な例には、疾患；治療／未治療；例えば縦断的研究での異なる時点が含まれ；基準試料の非限定的な例には、非疾患；正常；異なる時点；および候補治療に感受性または抵抗性のものが含まれる。

ある態様では、本明細書に記載されるような分子プロファイリングは、循環微小小胞などの微小小胞の分析を含む。

マイクロRNA
生体試料またはそのような生体試料から得られた小胞中の様々なバイオマーカー分子を調べることができる。マイクロRNAは、本明細書に記載されるような方法を介して調べられる1つのクラスのバイオマーカーを含む。本明細書においてmiRNAまたはmiRとも称されるマイクロRNAは、およそ21～23ヌクレオチド長の短いRNA鎖である。miRNAは、DNAから転写されるが、タンパク質に翻訳されない遺伝子によってコードされ、したがって、非コードRNAを含む。miRは、pri-miRNAとして知られる一次転写物からpre-miRNAと呼ばれる短いステム－ループ構造に、そして最終的に結果として生じる一本鎖miRNAにプロセシングされる。pre-miRNAは、典型的には、自己相補領域中でそれ自体の上に折り返される構造を形成する。次いで、これらの構造は、動物ではヌクレアーゼDicerまたは植物ではDCL1によってプロセシングされる。成熟miRNA分子は、1つまたは複数のメッセンジャーRNA（mRNA）分子と部分的に相補性であり、タンパク質の翻訳を調節するように機能することができる。miRNAの特定された配列は、www.microRNA.org、www.mirbase.org、またはwww.mirz.unibas.ch/cgi/miRNA.cgiなどの公的に利用可能なデータベースにアクセスすることができる。

miRNAは、一般的に、命名規則「mir-［番号］」に従って番号が割り当てられる。miRNAの番号は、以前に特定されたmiRNA種と比べたその発見順序に従って割り当てられる。例えば、最後に公表されたmiRNAがmir-121であった場合、次に発見されたmiRNAは、mir-122と名付けられるなどである。miRNAが異なる生物由来の公知のmiRNAと相同であることが発見された場合、その名称に［生物識別子］- mir-［番号］の形式の随意の生物識別子を与えることができる。識別子には、ホモ・サピエンス（Homo sapiens）についてのhsaおよびマウス（Mus Musculus）についてのmmuが含まれる。例えば、mir-121とのヒト相同体は、hsa-mir-121と称される場合があるが、一方で、マウス相同体は、mmu-mir-121と称することができる。

成熟マイクロRNAは、通常、接頭辞「miR」を付けて命名され、一方で、遺伝子または前駆体miRNAは、接頭辞「mir」を付けて命名される。例えば、mir-121は、miR-121についての前駆体である。異なるmiRNA遺伝子または前駆体が同一の成熟miRNAにプロセシングされる場合、遺伝子／前駆体を番号付き接尾辞により記述することができる。例えば、mir-121-1およびmir-121-2は、miR-121にプロセシングされる別個の遺伝子または前駆体を指すことができる。文字入りの接尾辞は、密接に関係する成熟配列を示すために使用される。例えば、mir-121aおよびmir-121bは、密接に関係するmiRNA、miR-121aおよびmiR-121bにそれぞれプロセシングされることができる。本開示に関連して、接頭辞mir-*またはmiR-*を付けて本明細書において命名された任意のマイクロRNA（miRNAまたはmiR）は、特に明記しないかぎり、前駆体および／または成熟種の両方を包含すると理解される。

時に、2つの成熟miRNA配列が同じ前駆体に由来することが観察される。配列の一方が他方よりも豊富な場合、「*」接尾辞を使用して、あまり見られない方のバリアントを命名することができる。例えば、miR-121は、主たる産物であり、一方で、miR-121*は、前駆体の反対アームに見出される、あまり見られないバリアントである。主たるバリアントが特定されない場合、前駆体の5'アームからのバリアントについての接尾辞「5p」および3'アームからのバリアントについての接尾辞「3p」によってmiRを識別することができる。例えば、miR-121-5pは、前駆体の5'アームに由来し、一方で、miR-121-3pは3'アームに由来する。あまり一般的ではないが、5pおよび3pバリアントは、それぞれセンス（「s」）およびアンチセンス（「as」）形態と称される。例えば、miR-121-5pはmiR-121-sと称される場合があり、一方で、miR-121-3pはmiR-121-asと称される場合がある。

上記命名規則は時間をかけて発展したものであり、絶対的規定というよりも一般的なガイドラインである。例えば、miRNAのletおよびlinファミリーは、それらのあだ名で呼ばれ続けている。前駆体／成熟形態のためのmir/miR規則もまたガイドラインであり、どの形態が言及されるかを決定するには、状況を考慮に入れるべきである。miR命名のさらなる詳細は、www.mirbase.orgまたはAmbros et al., A uniform system for microRNA annotation, RNA 9:277-279 (2003)に見い出すことができる。

植物miRNAは、Meyers et al., Plant Cell. 2008 20(12):3186-3190に記載されるような異なる命名規則に従う。

いくつかのmiRNAが遺伝子調節に関与しており、miRNAは、遺伝子制御の主要な階層と目下認識されている拡大中の非コードRNAクラスの一部である。いくつかの場合に、miRNAは、標的mRNAの3'-UTRに埋め込まれた調節部位に結合することによって翻訳を妨害して、翻訳の抑制をもたらすことができる。標的認識は、標的部位とmiRNAのシード領域（miRNAの5'末端の2～8位）との相補的塩基対形成を伴う。とはいえ、シード相補性の厳密な程度は正確には判定されず、3'対形成によって改変することができる。他の場合に、miRNAは、低分子干渉RNA（siRNA）のように機能し、完全に相補的なmRNA配列に結合して標的転写物を破壊する。

いくつかのmiRNAの特徴付けによって、これらが、初期発生、細胞増殖および細胞死、アポトーシスおよび脂肪代謝を含む多様なプロセスに影響することが示されている。例えば、いくつかのmiRNA、例えばlin-4、let-7、mir-14、mir-23およびbantamは、細胞分化および組織発生において重要な役割を演じることが示されている。他のものもまた、それらの差次的な空間的および時間的発現パターンにより、同様に重要な役割を有すると考えられる。

miRBase（www.mirbase.org）で入手可能なmiRNAデータベースは、公表されたmiRNA配列および注釈の検索可能なデータベースを含む。miRBaseに関するさらなる情報を、各々その全体で参照により本明細書に組み入れられる以下の文献：Griffiths-Jones et al., miRBase: tools for microRNA genomics. NAR 2008 36(Database Issue):D154-D158; Griffiths-Jones et al., miRBase: microRNA sequences, targets and gene nomenclature. NAR 2006 34(Database Issue):D140-D144;およびGriffiths-Jones, S. The microRNA Registry. NAR 2004 32(Database Issue):D109-D111に見い出すことができる。miRBaseのリリース16に含まれる代表的miRNAは、2010年9月に利用可能になった。

本明細書に記載されるように、マイクロRNAは、がんおよび他の疾患に関与することが知られており、試料における表現型を特徴付けるために調べることができる。例えば、Ferracin et al., Micromarkers: miRNAs in cancer diagnosis and prognosis, Exp Rev Mol Diag, Apr 2010, Vol. 10, No. 3, Pages 297-308; Fabbri, miRNAs as molecular biomarkers of cancer, Exp Rev Mol Diag, May 2010, Vol. 10, No. 4, Pages 435-444を参照されたい。

ある態様では、本明細書に記載されるような分子プロファイリングは、マイクロRNAの分析を含む。

小胞およびmiRを単離し、特徴付けるための技法は、当業者に公知である。本明細書において提示される方法論に加えて、追加的な方法は、「METHODS FOR ASSESSING RNA PATTERNS」という名称で、2011年2月15日に発行された米国特許第7,888,035号；および「METHODS AND SYSTEMS OF USING EXOSOMES FOR DETERMINING PHENOTYPES」という名称で、2011年3月1日に発行された米国特許第7,897,356号；ならびに「METHODS AND SYSTEMS FOR ISOLATING, STORING, AND ANALYZING VESICLES」という名称で、2010年11月30日に発行された国際特許公報WO/2011/066589；「DETECTION OF GASTROINTESTINAL DISORDERS」という名称で、2011年1月13日に発行されたWO/2011/088226；「BIOMARKERS FOR THERANOSTICS」という名称で2011年3月1日に発行されたWO/2011/109440;および「CIRCULATING BIOMARKERS FOR DISEASE」という名称で、2011年4月6日に発行されたWO/2011/127219に見出すことができ、これらの出願の各々は、その全体で参照により本明細書に組み入れられる。

循環バイオマーカー
循環バイオマーカーには、体液、例えば血液、血漿、血清中の検出可能であるバイオマーカーが含まれる。循環がんバイオマーカーの例には、心臓トロポニンT（cTnT）、前立腺がんに対する前立腺特異抗原（PSA）および卵巣がんに対するCA125が含まれる。本開示に従う循環バイオマーカーには、タンパク質、核酸、例えばDNA、mRNAおよびマイクロRNA、脂質、糖質および代謝物を非限定的に含む、体液中の検出することができる任意の適切なバイオマーカーが含まれる。循環バイオマーカーは、細胞と関連しないバイオマーカー、例えば膜結合性であるバイオマーカー、膜断片に埋め込まれたバイオマーカー、生物学的複合体の一部であるバイオマーカーまたは溶液中に遊離状態にあるバイオマーカーを含むことができる。一態様では、循環バイオマーカーは、対象の生物流体中に存在する1つまたは複数の小胞と関連するバイオマーカーである。

がんの検出などの、様々な表現型の特徴付けに使用するための循環バイオマーカーが特定されている。例えば、Ahmed N, et al., Proteomic-based identification of haptoglobin-1 precursor as a novel circulating biomarker of ovarian cancer. Br. J. Cancer 2004; Mathelin _et al., Circulating proteinic biomarkers and breast cancer, Gynecol Obstet Fertil. 2006 Jul-Aug;34(7-8):638-46. Epub 2006 Jul 28; Ye et al., Recent technical strategies to identify diagnostic biomarkers for ovarian cancer. Expert Rev Proteomics. 2007 Feb;4(1):121-31; Carney, Circulating oncoproteins HER2/neu, EGFR and CAIX (MN) as novel cancer biomarkers. Expert Rev Mol Diagn. 2007 May;7(3):309-19; Gagnon, Discovery and application of protein biomarkers for ovarian cancer, Curr Opin Obstet Gynecol. 2008 Feb;20(1):9-13; Pasterkamp et al., Immune regulatory cells: circulating biomarker factories in cardiovascular disease. Clin Sci (Lond). 2008 Aug;115(4):129-31; Fabbri, miRNAs as molecular biomarkers of cancer, Exp Rev Mol Diag, May 2010, Vol. 10, No. 4, Pages 435-444；PCT特許公報WO/2007/088537；米国特許第7,745,150号および同第7,655,479号；米国特許出願公開第20110008808号、同第20100330683号、同第20100248290号、同第20100222230号、同第20100203566号、同第20100173788号、同第20090291932号、同第20090239246号、同第20090226937号、同第20090111121号、同第20090004687号、同第20080261258号、同第20080213907号、同第20060003465号、同第20050124071号、および同第20040096915号を参照されたく、これらの刊行物の各々は、その全体で参照により本明細書に組み入れられる。ある態様では、本明細書に記載されるような分子プロファイリングは、循環バイオマーカーの分析を含む。

遺伝子発現プロファイリング
本明細書に記載されるような方法およびシステムは、本明細書に開示される1つまたは複数の標的遺伝子の差次的発現を調べることを含む発現プロファイリングを含む。差次的発現は、対照（または基準）と比較した生物学的産物、例えば、遺伝子、mRNAまたはタンパク質の過剰発現および／または過小発現を含むことができる。対照は、試料と類似であるが、疾患を有しない細胞を含むことができる（例えば、健康な個体からの試料から得られた発現プロファイル）。対照は、特定の疾患および特定の薬物標的と関連する薬物標的の有効性を示す、以前に決定されたレベルであることができる。対照は、同じ患者、例えば、罹患細胞と同じ器官の正常な隣接部分に由来することができるか、対照は、他の患者からの健康な組織から得ることができるか、または疾患が特定の薬物標的に応答するもしくは応答しないことを示す、以前に決定された閾値であることができる。対照はまた、同じ試料中に見出される対照、例えばハウスキーピング遺伝子またはその産物（例えば、mRNAもしくはタンパク質）であることができる。例えば、対照核酸は、細胞のがん性状態または非がん性状態に応じた差異がないことが知られているものであることができる。対照核酸の発現レベルを使用して、試験集団および基準集団におけるシグナルレベルを規準化することができる。例証的な対照遺伝子には、例えば、β-アクチン、グリセルアルデヒド3リン酸デヒドロゲナーゼおよびリボソームタンパク質P1が含まれるが、それに限定されるわけではない。複数の対照または対照のタイプを使用することができる。差次的発現の原因は変動することができる。例えば、遺伝子コピー数は、細胞において増加し、それにより、結果として遺伝子の増加した発現が生じる場合がある。あるいは、遺伝子の転写は、例えば、クロマチンリモデリング、差次的メチル化、転写因子の差次的発現または活性などによって改変される場合がある。翻訳はまた、例えば、mRNAを分解する、mRNAを翻訳する、または翻訳をサイレンシングする因子、例えば、マイクロRNAまたはsiRNAの差次的発現によって改変される場合がある。いくつかの態様では、差次的発現は、差次的活性を含む。例えば、タンパク質は、病状の一因となる、タンパク質の活性を増加させる変異、例えば構成的活性化を保有する場合がある。活性の変化を明らかにする分子プロファイリングを使用して、治療の選択をガイドすることができる。

遺伝子発現プロファイリングの方法には、ポリヌクレオチドのハイブリダイゼーション分析に基づく方法、およびポリヌクレオチドのシーケンシングに基づく方法が含まれる。試料中のmRNA発現の定量のための当技術分野において公知の通常使用される方法には、ノーザンブロッティングおよびインサイチューハイブリダイゼーション（Parker & Barnes (1999) Methods in Molecular Biology 106:247-283）；RNアーゼ保護アッセイ（Hod (1992) Biotechniques 13:852-854）；および逆転写ポリメラーゼ連鎖反応（RT-PCR）（Weis et al. (1992) Trends in Genetics 8:263-264）が含まれる。あるいは、DNA二重鎖、RNA二重鎖、およびDNA-RNAハイブリッド二重鎖またはDNA-タンパク質二重鎖を含む特異的二重鎖を認識することができる抗体が採用される場合がある。シーケンシングに基づく遺伝子発現分析のための代表的な方法には、遺伝子発現連続分析（Serial Analysis of Gene Expression）（SAGE）、大規模並列シグネチャシーケンシング（massively parallel signature sequencing）（MPSS）による遺伝子発現分析、および／または次世代シーケンシングが含まれる。

RT-PCR
逆転写ポリメラーゼ連鎖反応（RT-PCR）は、ポリメラーゼ連鎖反応（PCR）の変法である。この技法により、RNA鎖は、逆転写酵素という酵素を使用してそのDNA相補体（すなわち、相補的DNA、またはcDNA）に逆転写され、結果として生じたcDNAがPCRを使用して増幅される。リアルタイムポリメラーゼ連鎖反応は、定量PCR、Q-PCR、qRT-PCR、または時にRT-PCRとも称される別のPCR変法である。逆転写PCR法またはリアルタイムPCR法のいずれかを本開示に従う分子プロファイリングのために使用することができ、RT-PCRは、特に規定がない限り、または当業者によって理解されるように表すことができる。

RT-PCRは、本明細書に記載されるようなバイオマーカーのRNAレベル、例えば、mRNAまたはmiRNAレベルを決定するために使用することができる。異なる試料集団中で、正常組織および腫瘍組織において、薬物治療ありまたは薬物治療なしで、本明細書に記載されるようなバイオマーカーのそのようなRNAレベルを比較するため、遺伝子発現のパターンを特徴付けるため、近縁RNAを識別するため、およびRNA構造を分析するためにRT-PCRを使用することができる。

第1の工程は、試料からのRNA、例えば、mRNAの単離である。出発物質は、ヒト腫瘍または腫瘍細胞株、および対応する正常組織または細胞株からそれぞれ単離された総RNAであることができる。したがって、RNAを、試料、例えば、腫瘍細胞または腫瘍細胞株から単離し、健康なドナーからプールされたDNAと比較することができる。mRNAの起源が原発腫瘍である場合、mRNAは、例えば、凍結組織試料またはパラフィン包埋および固定（例えばホルマリン固定）された保存組織試料から抽出することができる。

mRNA抽出のための一般的な方法は、当技術分野において周知であり、Ausubel et al. (1997) Current Protocols of Molecular Biology, John Wiley and Sonsを含む分子生物学の標準的な教科書に開示されている。パラフィン包埋組織からRNAを抽出するための方法は、例えば、Rupp & Locker (1987) Lab Invest. 56:A67、およびDe Andres et al., BioTechniques 18:42044 (1995)に開示されている。特に、RNAの単離は、Qiagenなどの商業的製造業者からの精製キット、緩衝液セットおよびプロテアーゼを製造業者の説明書（QIAGEN Inc., Valencia, CA）に従って使用して行うことができる。例えば、Qiagen RNeasyミニカラムを使用して培養細胞からの総RNAを単離することができる。多数のRNA単離キットが市販されており、本明細書に記載されるような方法に使用することができる。

代替では、第1の工程は、標的試料からのmiRNAの単離である。出発物質は、典型的にはヒト腫瘍または腫瘍細胞株、および対応する正常組織または細胞株からそれぞれ単離された総RNAである。したがって、RNAは、健康なドナーからプールされたDNAと共に、多様な原発腫瘍または腫瘍細胞株から単離することができる。miRNAの起源が原発腫瘍である場合、miRNAは、例えば、凍結組織試料またはパラフィン包埋および固定（例えばホルマリン固定）された保存組織試料から抽出することができる。

miRNA抽出のための一般的な方法は、当技術分野において周知であり、Ausubel et al. (1997) Current Protocols of Molecular Biology, John Wiley and Sonsを含む分子生物学の標準的な教科書に開示されている。パラフィン包埋組織からRNAを抽出するための方法は、例えば、Rupp & Locker (1987) Lab Invest. 56:A67、およびDe Andres et al., BioTechniques 18:42044 (1995)に開示されている。特に、RNAの単離は、Qiagenなどの商業的製造業者からの精製キット、緩衝液セットおよびプロテアーゼを製造業者の説明書に従って使用して行うことができる。例えば、Qiagen RNeasyミニカラムを使用して培養細胞からの総RNAを単離することができる。多数のmiRNA単離キットが市販されており、本明細書に記載されるような方法に使用することができる。

RNAがmRNA、miRNAまたは他のタイプのRNAを含むかにかかわらず、RT-PCRによる遺伝子発現プロファイリングは、RNA鋳型のcDNAへの逆転写に続く、PCR反応での増幅を含むことができる。通常使用される逆転写酵素には、トリ骨髄芽球症ウイルス逆転写酵素（AMV-RT）およびモロニーマウス白血病ウイルス逆転写酵素（MMLV-RT）が含まれるが、それに限定されるわけではない。逆転写工程は、典型的には、発現プロファイリングの状況および目標に応じて、特異的プライマー、ランダムヘキサマー、またはオリゴ-dTプライマーを使用してプライミングされる。例えば、抽出されたRNAは、GeneAmp RNA PCRキット（Perkin Elmer, Calif., USA）を製造業者の説明書に従って使用して逆転写することができる。次いで、得られたcDNAを後続するPCR反応で鋳型として使用することができる。

PCR工程は、多様な熱安定性DNA依存性DNAポリメラーゼを使用することができるものの、典型的には、5'-3'ヌクレアーゼ活性を有するが、3'-5'プルーフリーディングエンドヌクレアーゼ活性を欠如するTaq DNAポリメラーゼを採用する。TaqMan PCRは、典型的には、標的アンプリコンに結合したハイブリダイゼーションプローブを加水分解するTaqまたはTthポリメラーゼの5'-ヌクレアーゼ活性を使用するが、同等の5'ヌクレアーゼ活性を有する任意の酵素を使用することができる。2つのオリゴヌクレオチドプライマーが、PCR反応に典型的なアンプリコンを生成するために使用される。第3のオリゴヌクレオチド、またはプローブが、2つのPCRプライマーの間に位置するヌクレオチド配列を検出するために設計される。プローブは、Taq DNAポリメラーゼ酵素によって伸長することができず、レポーター蛍光色素および消光剤蛍光色素で標識されている。2つの色素がプローブ上で互いにすぐ近くに位置する場合、レポーター色素からのいかなるレーザ誘起発光も消光色素によって消光される。増幅反応の途中、Taq DNAポリメラーゼ酵素は鋳型依存的にプローブを切断する。結果として生じるプローブ断片は溶液中で解離され、放出されたレポーター色素からのシグナルは、第2のフルオロフォアの消光作用から解放される。合成された新しい分子ごとに1分子のレポーター色素が遊離するため、消光されないレポーター色素を検出することで、データを定量的に解釈するための基礎が提供される。

TaqMan（商標）RT-PCRは、市販の機器、例えば、ABI PRISM 7700（商標）Sequence Detection System（商標）（Perkin-Elmer-Applied Biosystems, Foster City, Calif., USA）、またはLightCycler（Roche Molecular Biochemicals, Mannheim, Germany）などを使用して行うことができる。特定の一態様では、5'ヌクレアーゼ手順は、ABI PRISM 7700 Sequence Detection Systemなどのリアルタイム定量PCRデバイスで実行される。本システムは、サーモサイクラ、レーザ、電荷結合素子（CCD）、カメラおよびコンピュータからなる。本システムは、サーモサイクラにより96ウェル形式で試料を増幅させる。増幅の間に、光ファイバーケーブルを通してレーザ誘起蛍光シグナルが96個のウェルすべてについてリアルタイムで収集され、CCDで検出される。本システムは、機器を運転するためおよびデータを分析するためのソフトウェアを含む。

TaqManデータは、最初にCtまたは閾値サイクルとして表現される。上述のように、各サイクルの間に蛍光値が記録され、増幅反応においてその時点までに増幅された産物の量を表す。蛍光シグナルが統計的に有意と最初に記録された点が閾値サイクル（Ct）である。

誤差および試料間変動の影響を最小限にするために、RT-PCRは通常、内部標準を使用して行われる。理想的な内部標準は、異なる組織の間で一定レベルで発現され、実験処理によって影響されない。遺伝子発現のパターンを規準化するために最も頻繁に使用されるRNAは、ハウスキーピング遺伝子、グリセルアルデヒド-3リン酸-デヒドロゲナーゼ（GAPDH）およびβ-アクチンについてのmRNAである。

リアルタイム定量PCR（定量リアルタイムポリメラーゼ連鎖反応、QRT-PCRまたはQ-PCRとも）は、RT-PCR技法のより最近の変法である。Q-PCRは、二重標識蛍光発生プローブ（すなわち、TaqManプローブ）を通じてPCR産物の蓄積を測定することができる。リアルタイムPCRは、各標的配列についての内部競合物質が規準化のために使用される定量競合PCR、および試料内に含有される規準化遺伝子、またはRT-PCRのためのハウスキーピング遺伝子を使用する定量比較PCRの両方と適合性である。例えば、Held et al. (1996) Genome Research 6:986-994を参照されたい。

特にヌクレオチドバリアントが、タンパク質の一次、二次または三次構造に影響するアミノ酸置換または欠失または挿入またはフレームシフトを引き起こす場合、タンパク質ベースの検出技法もまた、分子プロファイリングに有用である。アミノ酸のバリエーションを検出するために、タンパク質シーケンシング技法が使用される場合がある。例えば、遺伝子に対応するタンパク質またはその断片は、被験個体から単離されたDNA断片を使用する組み換え発現によって合成することができる。好ましくは、決定されるべき多型座位を包含する100～150塩基対以下のcDNA断片が使用される。次いで、ペプチドのアミノ酸配列は、従来のタンパク質シーケンシング方法によって決定することができる。あるいは、HPLC-顕微鏡法タンデム質量分析技法を、アミノ酸配列バリエーションを決定するために使用することができる。この技法では、タンパク質に対してタンパク質分解消化が行われ、結果として生じるペプチド混合物が逆相クロマトグラフィー分離によって分離される。次いで、タンデム質量分析が行われ、収集されたデータが分析される。Gatlin et al., Anal. Chem., 72:757-763 (2000)を参照されたい。

マイクロアレイ
本明細書に記載されるようなバイオマーカーはまた、マイクロアレイ技法を使用して特定、確認、および／または測定することができる。したがって、発現プロファイルバイオマーカーは、マイクロアレイ技法を使用してがん試料において測定することができる。この方法では、関心対象のポリヌクレオチド配列がマイクロチップ基板上にプレート化またはアレイ化される。次いで、アレイ化された配列は、関心対象の細胞または組織からの特異的DNAプローブとハイブリダイズされる。mRNA源は、試料、例えば、ヒト腫瘍または腫瘍細胞株および対応する正常組織または細胞株から単離された総RNAであることができる。したがって、RNAは、多様な原発腫瘍または腫瘍細胞株から単離することができる。mRNA源が原発腫瘍である場合、mRNAは、例えば、凍結組織試料またはパラフィン包埋および固定（例えばホルマリン固定）保存組織試料から抽出することができ、それらは、毎日の臨床業務で日常的に調製および保存される。

バイオマーカーの発現プロファイルは、マイクロアレイ技法を使用して、新鮮もしくはパラフィン包埋腫瘍組織、または体液のいずれかにおいて測定することができる。この方法では、関心対象のポリヌクレオチド配列がマイクロチップ基板上にプレート化またはアレイ化される。次いで、アレイ化された配列は、関心対象の細胞または組織からの特異的DNAプローブとハイブリダイズされる。RT-PCR法と同様に、miRNA源は、典型的には、体液、例えば血清、尿、涙液およびエキソソームを含むヒト腫瘍または腫瘍細胞株および対応する正常組織または細胞株から単離された総RNAである。したがって、RNAは、多様な供給源から単離することができる。miRNA源が原発腫瘍である場合、miRNAは、例えば、凍結組織試料から抽出することができ、それらは、毎日の臨床業務で日常的に調製および保存される。

バイオチップ、DNAチップ、または遺伝子アレイとしても公知である、cDNAマイクロアレイ技法は、生体試料中の遺伝子発現レベルの特定を可能にする。各々所与の遺伝子を表すcDNAまたはオリゴヌクレオチドは、基板、例えば、小さなチップ、ビーズまたはナイロンメンブラン上に固定化され、タグ付けされ、それらが関心対象の生体試料中に発現されるかどうかを示すプローブとして役立つ。数千種の遺伝子の同時発現を同時にモニタリングすることができる。

マイクロアレイ技法の特定の態様では、cDNAクローンのPCR増幅された挿入物が、高密度アレイの状態で基板に適用される。一局面では、少なくとも100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、3000、4000、5000、6000、7000、8000、9000、10,000、15,000、20,000、25,000、30,000、35,000、40,000、45,000または少なくとも50,000個のヌクレオチド配列が基板に適用される。各配列は、異なる遺伝子に対応することができ、または1つの遺伝子あたり複数の配列をアレイ化することができる。マイクロチップ上に固定化されたマイクロアレイ化遺伝子は、ストリンジェントな条件下のハイブリダイゼーションに適する。関心対象の組織から抽出されたRNAの逆転写による蛍光ヌクレオチドの組み込みを通じて蛍光標識cDNAプローブが生成される場合がある。チップに適用された標識cDNAプローブは、アレイ上のDNAの各スポットに特異的にハイブリダイズする。非特異的に結合したプローブを除去するためのストリンジェントな洗浄後、共焦点レーザ顕微鏡法によって、またはCCDカメラなどの別の検出方法によって、チップがスキャンされる。アレイ化された各要素のハイブリダイゼーションの定量は、対応するmRNA存在度を調べることを可能にする。2つのRNA源から生成され、二色蛍光で別々に標識されたcDNAプローブが、対にしてアレイにハイブリダイズされる。したがって、各特定遺伝子に対応する2つの供給源からの転写物の相対存在度が、同時に決定される。小型化スケールのハイブリダイゼーションは、多数の遺伝子についての発現パターンの好都合で迅速な評価を与える。そのような方法は、細胞1つあたり数コピーで発現される稀少な転写物を検出するために、および発現レベルの少なくともおよそ2倍の差異を再現性よく検出するために必要な感度を有することが示されている（Schena et al. (1996) Proc. Natl. Acad. Sci. USA 93(2):106-149）。マイクロアレイ分析は、Affymetrix GeneChip技法（Affymetrix, Santa Clara, CA）、Agilent（Agilent Technologies, Inc., Santa Clara, CA）、またはIllumina（Illumina, Inc., San Diego, CA）マイクロアレイ技法を含むが、それに限定されるわけではない製造業者のプロトコールに従って、市販の機器により行うことができる。

遺伝子発現の大規模分析のためのマイクロアレイ方法の開発は、多様な腫瘍タイプにおけるがんの分類およびアウトカム予測の分子マーカーを系統的に検索することを可能にする。

いくつかの態様では、Agilent Whole Human Genome Microarray Kit(Agilent Technologies, Inc., Santa Clara, CA)。本システムは、すべてがパブリックドメインアノテーションで表示される41,000個よりも多い固有のヒト遺伝子および転写物を分析することができる。本システムは、製造業者の説明書に従って使用される。

いくつかの態様では、Illumina Whole Genome DASLアッセイ（Illumina Inc., San Diego, CA）が使用される。本システムは、新鮮凍結（FF）およびホルマリン固定パラフィン包埋（FFPE）組織源の両方からの最小のRNAインプットから24,000個を超える転写物を高スループット様式で同時プロファイリングするための方法を与える。

マイクロアレイ発現分析は、遺伝子または遺伝子産物が基準と比べてアップレギュレーションされるかまたはダウンレギュレーションされるかを特定することを含む。特定は、観察された任意の差次的発現の統計的有意性を決定するための統計検定を使用して行うことができる。いくつかの態様では、統計的有意性は、パラメトリック統計検定を使用して決定される。パラメトリック統計検定は、例えば、一部実施要因計画、分散分析（ANOVA）、t検定、最小二乗法、ピアソン相関、線形単回帰、非線形回帰、多重線形回帰、または多重非線形回帰を含むことができる。あるいは、パラメトリック統計検定は、一元配置分散分析、二元配置分散分析、または反復測定分散分析を含むことができる。他の態様では、統計的有意性は、ノンパラメトリック統計検定を使用して決定される。例には、ウィルコクソン符号順位検定、マン-ホイットニー検定、クラスカル-ワリス検定、フリードマン検定、スピアマンの順位相関係数、ケンドールのタウ解析、およびノンパラメトリック回帰検定が含まれるが、それに限定されるわけではない。いくつかの態様では、統計的有意性は、約0.05、0.01、0.005、0.001、0.0005、または0.0001未満のp値で決定される。本明細書に記載されるような方法に使用されるマイクロアレイシステムが数千の転写物をアッセイする場合があるものの、データ分析は関心対象の転写物にだけ行う必要があり、それにより、複数の統計検定を行う際に特有の多重比較の問題が低減される。p値はまた、例えば、ボンフェローニ補正、その変法、または当業者に公知の他の技法、例えば、ホッホベルク補正、ホルム-ボンフェローニ補正、シダック補正、またはダネット補正を用いて、多重比較について補正することができる。差次的発現の程度もまた、考慮することができる。例えば、対照レベルと比較した発現の変化倍率が、対照に対して試料で少なくとも1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.2、2.5、2.7、3.0、4、5、6、7、8、9または10倍異なる場合、遺伝子が差次的に発現されていると見なすことができる。差次的発現は、過剰発現および過小発現の両方を考慮する。差次的発現が統計的閾値、変化倍率閾値、または両方を満たす場合、遺伝子または遺伝子産物はアップレギュレーションまたはダウンレギュレーションされていると見なすことができる。例えば、差次的発現を特定するための基準は、0.001のp値および少なくとも1.5倍（上または下）の変化倍率の両方を含むことができる。当業者は、そのような統計的尺度および閾値尺度を適応して、本明細書に開示される任意の分子プロファイリング技法によって差次的発現を決定することができることを理解するであろう。

本明細書に記載されるような様々な方法が、試料中の生物学的エンティティの存在および潜在的にその量を検出する多くのタイプのマイクロアレイを利用する。アレイは、典型的には、試料中のエンティティの存在を、例えば結合事象により検出することができる、アドレスで参照できる部分を含有する。マイクロアレイには、DNAマイクロアレイ、例えばcDNAマイクロアレイ、オリゴヌクレオチドマイクロアレイおよびSNPマイクロアレイ、マイクロRNAアレイ、タンパク質マイクロアレイ、抗体マイクロアレイ、組織マイクロアレイ、細胞マイクロアレイ（トランスフェクションマイクロアレイとも呼ばれる）、化学化合物マイクロアレイ、および糖質アレイ（グリコアレイ）が含まれるが、それに限定されるわけではない。DNAアレイは、典型的には、試料中に存在する配列に結合することができる、アドレスで参照できるヌクレオチド配列を含む。マイクロRNAアレイ、例えば、ルイビル大学からのMMChipsアレイまたはAgilentからの市販のシステムを使用してマイクロRNAを検出することができる。タンパク質マイクロアレイを使用して、タンパク質キナーゼの基質、転写因子タンパク質活性化を特定することを含むが、それに限定されるわけではないタンパク質-タンパク質相互作用を特定すること、または生物学的に活性な小分子の標的を特定することができる。タンパク質アレイは、異なるタンパク質分子、一般に抗体、または関心対象のタンパク質に結合するヌクレオチド配列のアレイを含む場合がある。抗体マイクロアレイは、試料、例えば、細胞または組織溶解液からタンパク質または他の生体物質を検出するための捕捉分子として使用されるタンパク質チップ上にスポットされた抗体を含む。例えば、抗体アレイを使用して、診断用途のために体液、例えば、血清または尿からバイオマーカーを検出することができる。組織マイクロアレイは、マルチプレックス組織分析を可能にするためにアレイ様式で集合された別々の組織コアを含む。トランスフェクションマイクロアレイとも呼ばれる細胞マイクロアレイは、細胞と相互作用してアドレスで参照できる位置で捕捉することを容易にする、抗体、タンパク質、または脂質などの様々な捕捉剤を含む。化学化合物マイクロアレイは、化学化合物のアレイを含み、それを使用して、化合物と結合するタンパク質または他の生体物質を検出することができる。糖質アレイ（グリコアレイ）は、糖質のアレイを含み、例えば、糖部分と結合するタンパク質を検出することができる。当業者は、類似の技法または改善を本明細書に記載されるような方法に従って使用できることを認識しているであろう。

本方法のある特定の態様は、多重の増幅反応およびいくつかの態様では検出が典型的には並行して行われるマルチウェルプレートまたはマルチチャンバーマイクロ流体装置を含むが、それに限定されるわけではないマルチウェル反応容器を含む。ある特定の態様では、アンプリコンを生成するための1つまたは複数のマルチプレックス反応は、96ウェル、384ウェル、1536ウェルプレートなどのマルチウェルプレート；またはマイクロ流体装置、例えば非限定的にTaqMan（商標）低密度アレイ（Applied Biosystems, Foster City, CA）を含むが、それに限定されるわけではない同じ反応容器中で行われる。いくつかの態様では、超並列増幅工程は、複数の反応ウェルを含むプレート、例えば非限定的に24ウェルプレート、96ウェルプレート、384ウェルプレート、もしくは1536ウェルプレートを含むマルチウェル反応容器；またはマルチチャンバーマイクロ流体装置、例えば非限定的に低密度アレイを含み、その際、各チャンバーまたはウェルは、適宜、適切なプライマー、プライマーセット、および／またはレポータープローブを含む。典型的にはそのような増幅工程は、一連の並行シングルプレックス、2-プレックス、3-プレックス、4-プレックス、5－プレックス、または6－プレックス反応で起こるが、より高いレベルの並行マルチプレックス化もまた、本教示の意図される範囲内である。これらの方法は、関心対象の核酸分子を増幅および／または検出するためのウェルまたはチャンバーの各々におけるPCR方法論、例えばRT-PCRを含むことができる。

低密度アレイは、数千種の分子とは対照的に数十または数百種の分子を検出するアレイを含むことができる。これらのアレイは、高密度アレイよりも高感度であることができる。ある態様では、WO2018175501の表5～12のいずれかにおける1つまたは複数の遺伝子または遺伝子産物を検出するために、TaqMan（商標）低密度アレイなどの低密度アレイが使用される。例えば、低密度アレイを使用して、WO2018175501の表5～12のいずれかより選択される少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90または100個の遺伝子または遺伝子産物を検出することができる。

いくつかの態様では、開示された方法は、マイクロ流体デバイス、「ラボオンチップ（lab on a chip）」、またはマイクロトータル分析システム（pTAS）を含む。いくつかの態様では、試料の調製は、マイクロ流体デバイスを使用して行われる。いくつかの態様では、増幅反応は、マイクロ流体デバイスを使用して行われる。いくつかの態様では、シーケンシングまたはPCR反応は、マイクロ流体デバイスを使用して行われる。いくつかの態様では、増幅産物の少なくとも一部のヌクレオチド配列は、マイクロ流体デバイスを使用して得られる。いくつかの態様では、検出する工程は、TaqMan（商標）低密度アレイなどの低密度アレイを含むが、それに限定されるわけではないマイクロ流体デバイスを含む。例示的なマイクロ流体デバイスの説明は、とりわけ、公開PCT出願番号WO/0185341およびWO04/011666; Kartalov and Quake, Nucl. Acids Res. 32:2873-79, 2004；およびFiorini and Chiu, Bio Techniques 38:429-46, 2005に見出すことができる。

任意の適切なマイクロ流体デバイスを本明細書に記載されるような方法に使用することができる。分子プロファイリングに使用されるまたはそれとの使用のために適合される場合があるマイクロ流体デバイスの例には、米国特許第7,591,936号、同第7,581,429号、同第7,579,136号、同第7,575,722号、同第7,568,399号、同第7,552,741号、同第7,544,506号、同第7,541,578号、同第7,518,726号、同第7,488,596号、同第7,485,214号、同第7,467,928号、同第7,452,713号、同第7,452,509号、同第7,449,096号、同第7,431,887号、同第7,422,725号、同第7,422,669号、同第7,419,822号、同第7,419,639号、同第7,413,709号、同第7,411,184号、同第7,402,229号、同第7,390,463号、同第7,381,471号、同第7,357,864号、同第7,351,592号、同第7,351,380号、同第7,338,637号、同第7,329,391号、同第7,323,140号、同第7,261,824号、同第7,258,837号、同第7,253,003号、同第7,238,324号、同第7,238,255号、同第7,233,865号、同第7,229,538号、同第7,201,881号、同第7,195,986号、同第7,189,581号、同第7,189,580号、同第7,189,368号、同第7,141,978号、同第7,138,062号、同第7,135,147号、同第7,125,711号、同第7,118,910号、同第7,118,661号、同第7,640,947号、同第7,666,361号、同第7,704,735号;米国特許出願公開第20060035243号；および国際特許公開WO2010/072410に記載されるものが含まれるが、それに限定されるわけではなく、これらの特許または出願の各々は、その全体で参照により本明細書に組み入れられる。本明細書に開示される方法との使用のための別の例は、Chen et al., "Microfluidic isolation and transcriptome analysis of serum vesicles," Lab on a Chip, Dec. 8, 2009 DOI: 10.1039/b916199fに記載されている。

大規模並列シグネチャシーケンシング（MPSS）による遺伝子発現分析
Brenner et al. (2000) Nature Biotechnology 18:630-634によって記載されたこの方法は、非ゲルベースのシグネチャシーケンシングを、別々のマイクロビーズ上での数百万の鋳型のインビトロクローニングと組み合わせたシーケンシング手法である。最初に、DNA鋳型のマイクロビーズライブラリがインビトロクローニングによって構築される。これに続いて、フローセル中で鋳型含有マイクロビーズの平面アレイを高密度で組み立てる。各マイクロビーズ上のクローニングされた鋳型の遊離端が、DNA断片の分離を必要としない蛍光ベースのシグネチャシーケンシング法を用いて同時分析される。この方法は、1回の作業でcDNAライブラリから数十万の遺伝子シグネチャ配列を同時にかつ正確に提供することが示されている。

MPSSデータは、多くの用途を有する。ほぼすべての転写物の発現レベルを定量決定することができ；シグネチャの存在度は、分析された組織中の遺伝子の発現レベルを表す。タグの頻度の分析のため、およびライブラリ間の差異の検出のための定量法は公表されており、SAGE（商標）データについての公的データベースに組み込まれており、MPSSデータに適用可能である。完全ゲノム配列が利用可能性であることによって、シグネチャとゲノム配列との直接比較が可能となり、MPSSデータの有用性がさらに広がる。MPSS分析のための標的は（マイクロアレイのように）予め選択されないため、MPSSデータは、トランスクリプトームの完全複雑性を特徴付けることができる。これは、数百万のESTを一度にシーケンシングすることに類似し、MPSSシグネチャ源が計算手段によって容易に特定できるようにゲノム配列データを使用することができる。

遺伝子発現連続分析（SAGE）
遺伝子発現連続分析（SAGE）は、各転写物について個別のハイブリダイゼーションプローブを提供する必要なしに、多数の遺伝子転写物の同時定量分析を可能にする方法である。最初に、タグが各転写物内の固有の位置から得られるという条件で、転写物を一意的に特定するために十分な情報を含有する短い配列タグ（例えば、約10～14bp）が生成される。次いで、多数の転写物が一緒に連結されて、長い連続分子が形成され、これらの分子をシーケンシングすることができ、複数のタグの同一性を同時に明らかにする。転写物の任意の集団の発現パターンは、個別のタグの存在度を決定し、各タグに対応する遺伝子を特定することによって定量的に評価することができる。例えば Velculescu et al. (1995) Science 270:484-487;およびVelculescu et al. (1997) Cell 88:243-51を参照されたい。

DNAコピー数プロファイリング
本明細書に記載されるようなバイオマーカーにおけるコピー数多型を特定するために解像度が十分であるかぎり、特定の試料のDNAコピー数プロファイルを決定することができる任意の方法を、本明細書に記載される方法に従う分子プロファイリングのために使用することができる。当業者は、本明細書に記載される方法の1つまたは複数のバイオマーカーのコピー数を特定するために十分な解像度で全ゲノムコピー数変化を調べるためにいくつかの異なるプラットフォームを使用することを認識しており、それを使用することができる。プラットフォームおよび技法のいくつかは、下記の態様に記載されている。本明細書に記載されるようないくつかの態様では、本明細書に記載されるような、または当技術分野において公知の次世代シーケンシングまたはISH技法が、コピー数／遺伝子増幅を決定するために使用される。

いくつかの態様では、コピー数プロファイル分析は、全ゲノム増幅法による全ゲノムDNAの増幅を伴う。全ゲノム増幅法は、鎖置換ポリメラーゼおよびランダムプライマーを使用することができる。

これらの態様のいくつかの局面では、コピー数プロファイル分析は、高密度アレイを用いた全ゲノム増幅DNAのハイブリダイゼーションを伴う。より特定の局面では、高密度アレイは、5,000個またはそれ以上の異なるプローブを有する。別の特定の局面では、高密度アレイは、5,000、10,000、20,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、もしくは1,000,000個またはそれ以上の異なるプローブを有する。別の特定の局面では、アレイ上の異なるプローブの各々は、約15～200塩基長を有するオリゴヌクレオチドである。別の特定の局面では、アレイ上の異なるプローブの各々は、約15～200、15～150、15～100、15～75、15～60、または20～55塩基長を有するオリゴヌクレオチドである。

いくつかの態様では、マイクロアレイは、試料、例えば、腫瘍からの細胞についてコピー数プロファイルを決定することを助けるために採用される。マイクロアレイは、典型的には、基板（例えば、ガラス支持体）上にアレイパターンで合成または沈着された複数のオリゴマー（例えば、DNAもしくはRNAポリヌクレオチドもしくはオリゴヌクレオチド、または他のポリマー）を含む。支持体に結合したオリゴマーは、ハイブリダイゼーション実験において試料物質（例えば、腫瘍試料から調製されたまたは得られた核酸）とハイブリダイズまたは結合するように機能する「プローブ」である。試料が、マイクロアレイ基板に結合させることができ、オリゴマープローブが、ハイブリダイゼーションのための溶液中にある、逆の状況もまた適用することができる。使用では、アレイ表面は、プローブの1つまたは複数への標的の特異的高親和性結合を促進する条件下で1つまたは複数の標的と接触される。いくつかの構成では、試料核酸が蛍光タグなどの検出可能な標識で標識されることにより、ハイブリダイズされた試料およびプローブが、スキャン機器を用いて検出可能である。DNAアレイ技法は、多数（例えば、数十万）の異なるオリゴヌクレオチドを使用してDNAコピー数プロファイルを分析する潜在性を提供する。いくつかの態様では、アレイのために使用される基板は、表面誘導体化ガラスもしくはシリカ、またはポリマーメンブラン表面である（例えば、Z. Guo, et al., Nucleic Acids Res, 22, 5456-65 (1994); U. Maskos, E. M. Southern, Nucleic Acids Res, 20, 1679-84 (1992)、およびE. M. Southern, et al., Nucleic Acids Res, 22, 1368-73 (1994)を参照されたく、これらの各々は、参照により本明細書に組み入れられる）。アレイ基板表面の修飾は、多くの技法により達成することができる。例えば、ケイ酸含有表面または金属酸化物表面を二官能性シラン、すなわち、表面との共有結合を可能にする第1の官能基（例えば、それぞれ--SiCl₃または--Si(OCH₃)₃に見られるようなSi-ハロゲンまたはSi-アルコキシ基）と、表面に所望の化学的および／または物理的修飾を与えることができる第2の官能基とを有するシランで誘導体化して、生物学的プローブアレイ用のリガンドおよび／またはポリマーもしくはモノマーを共有結合的または非共有結合的に結びつけることができる。シリル化誘導体化および他の表面誘導体化（例えば、Sundbergに対する米国特許第5,624,711号、Willisに対する米国特許第5,266,222号、およびFarnsworthに対する米国特許第5,137,765号を参照されたく、これらの各々は、参照により本明細書に組み入れられる）が当技術分野において公知である。アレイを調製するための他のプロセスは、インサイチュー合成法により生み出されたDNAアレイを開示しているAgilent Corp.に譲渡されたBassらに対する米国特許第6,649,348号に記載されている。

ポリマーアレイ合成もまた、以下を含む文献中に広く記載されている:国際公開公報第00/58516号、米国特許第5,143,854号、同第5,242,974号、同第5,252,743号、同第5,324,633号、同第5,384,261号、同第5,405,783号、同第5,424,186号、同第5,451,683号、同第5,482,867号、同第5,491,074号、同第5,527,681号、同第5,550,215号、同第5,571,639号、同第5,578,832号、同第5,593,839号、同第5,599,695号、同第5,624,711号、同第5,631,734号、同第5,795,716号、同第5,831,070号、同第5,837,832号、同第5,856,101号、同第5,858,659号、同第5,936,324号、同第5,968,740号、同第5,974,164号、同第5,981,185号、同第5,981,956号、同第6,025,601号、同第6,033,860号、同第6,040,193号、同第6,090,555号、同第6,136,269号、同第6,269,846号および同第6,428,752号、同第5,412,087号、同第6,147,205号、同第6,262,216号、同第6,310,189号、同第5,889,165号、および同第5,959,098号、PCT出願番号PCT/US99/00730（国際公報番号WO99/36760）およびPCT/US01/04285（国際公報番号WO01/58593）、これらはすべて、すべての目的のためその全体で参照により本明細書に組み入れられる。

本開示に有用な核酸アレイには、Affymetrix（Santa Clara, Calif.）からGeneChip（商標）の商品名で市販されているものが含まれるが、それに限定されるわけではない。アレイの例は、affymetrix.comのウェブサイトに示されている。別のマイクロアレイ供給業者は、San Diego, Calif.のIllumina, Inc.であり、アレイの例は、illumina.comのウェブサイトに示されている。

いくつかの態様では、本発明の方法は、試料の調製を提供する。マイクロアレイおよび行われるべき実験に応じて、試料核酸は、当業者に公知の方法によっていくつかのやり方で調製することができる。本明細書に記載されるようないくつかの局面では、遺伝子型決定（コピー数プロファイルの分析）の前またはそれと同時に、試料は、いくつものメカニズムで増幅される場合がある。使用される最も一般的な増幅手順はPCRを伴う。例えば、PCR Technology: Principles and Applications for DNA Amplification (Ed. H. A. Erlich, Freeman Press, NY, N.Y., 1992); PCR Protocols: A Guide to Methods and Applications (Eds. Innis, et al., Academic Press, San Diego, Calif., 1990); Mattila et al., Nucleic Acids Res. 19, 4967 (1991); Eckert et al., PCR Methods and Applications 1, 17 (1991); PCR (Eds. McPherson et al., IRL Press, Oxford)；ならびに米国特許第4,683,202号、同第4,683,195号、同第4,800,159号、同第4,965,188号、および同第5,333,675号を参照されたく、これらの各々は、すべての目的のためその全体で参照により本明細書に組み入れられる。いくつかの態様では、試料は、アレイ上で増幅される場合がある（例えば、参照により本明細書に組み入れられる米国特許第6,300,070号）。

他の適切な増幅法には、リガーゼ連鎖反応（LCR）（例えば、Wu and Wallace, Genomics 4, 560 (1989), Landegren et al., Science 241, 1077 (1988)およびBarringer et al. Gene 89:117 (1990))、転写増幅（Kwoh et al., Proc. Natl. Acad. Sci. USA 86, 1173 (1989)およびWO88/10315）、自家持続配列複製法（Guatelli et al., Proc. Nat. Acad. Sci. USA, 87, 1874 (1990)およびWO90/06995）、標的ポリヌクレオチド配列の選択増幅（米国特許第6,410,276号）、コンセンサス配列プライムドポリメラーゼ連鎖反応（CP-PCR）（米国特許第4,437,975号）、任意プライムドポリメラーゼ連鎖反応（AP-PCR）（米国特許第5,413,909号、同第5,861,245号）および核酸ベースの配列増幅法（NABSA）（米国特許第5,409,818号、同第5,554,517号、および同第6,063,603号を参照されたく、これらの各々は、参照により本明細書に組み入れられる）が含まれる。使用され得る他の増幅法は、米国特許第5,242,794号、同第5,494,810号、同第4,988,617号および米国特許出願第09/854,317号に記載されており、これらの各々は、参照により本明細書に組み入れられる。

試料調製の追加的な方法および核酸試料の複雑さを低減するための技法は、Dong et al., Genome Research 11, 1418 (2001)、米国特許第6,361,947号、同第6,391,592号ならびに米国特許出願第09/916,135号、同第09/920,491号（米国特許出願公開第20030096235号）、同第09/910,292号（米国特許出願公開第20030082543号）、および同第10/013,598号に記載されている。

ポリヌクレオチドハイブリダイゼーションアッセイを行うための方法は、当技術分野において十分に開発されている。本明細書に記載されるような方法に使用されるハイブリダイゼーションアッセイの手順および条件は、用途に応じて変動し、Maniatis et al. Molecular Cloning: A Laboratory Manual (2.sup.nd Ed. Cold Spring Harbor, N.Y., 1989); Berger and Kimmel Methods in Enzymology, Vol. 152, Guide to Molecular Cloning Techniques (Academic Press, Inc., San Diego, Calif., 1987); Young and Davism, P.N.A.S, 80: 1194 (1983)に言及された方法を含む公知の一般的結合法に従って選択される。繰り返しおよび制御されたハイブリダイゼーション反応を実施するための方法および装置は、米国特許第5,871,928号、同第5,874,219号、同第6,045,996号、および同第6,386,749号、同第6,391,623号に記載されており、これらの各々は、参照により本明細書に組み入れられる。

本明細書に記載されるような方法はまた、ハイブリダイゼーション後（および／または途中）のリガンド間のハイブリダイゼーションのシグナル検出を伴う場合がある。米国特許第5,143,854号、同第5,578,832号；同第5,631,734号；同第5,834,758号；同第5,936,324号；同第5,981,956号；同第6,025,601号；同第6,141,096号；同第6,185,030号；同第6,201,639号；同第6,218,803号；および同第6,225,625号、米国特許出願第10/389,194号、およびPCT出願PCT/US99/06097（WO99/47964として公開）を参照されたく、これらの各々もまた、すべての目的のためその全体で参照により本明細書に組み入れられる。

シグナル検出および強度データの処理のための方法および装置は、例えば、米国特許第5,143,854号、同第5,547,839号、同第5,578,832号、同第5,631,734号、同第5,800,992号、同第5,834,758号；同第5,856,092号、同第5,902,723号、同第5,936,324号、同第5,981,956号、同第6,025,601号、同第6,090,555号、同第6,141,096号、同第6,185,030号、同第6,201,639号；同第6,218,803号；および同第6,225,625号、米国特許出願第10/389,194号、同第60/493,495号およびPCT出願PCT/US99/06097（WO99/47964として公開）に開示されており、これらの各々もまた、すべての目的のためその全体で参照により本明細書に組み入れられる。

免疫ベースのアッセイ
タンパク質ベースの検出の分子プロファイリング技法は、本方法に従う変異遺伝子によりコードされるタンパク質と選択的に免疫反応性の抗体に基づく免疫親和性アッセイを含む。これらの技法には、免疫沈降、ウエスタンブロット分析、分子結合アッセイ、酵素結合免疫吸着アッセイ（ELISA）、酵素結合免疫濾過アッセイ（ELIFA）、蛍光活性化細胞分取（FACS）などが含まれるが、それに限定されるわけではない。例えば、試料中のバイオマーカーの発現を検出する任意の方法は、試料を、バイオマーカーに対する抗体、またはその抗体の免疫反応性断片、またはバイオマーカーに対する抗体の抗原結合領域を含有する組み換えタンパク質と接触させる工程；および次いで、試料中のバイオマーカーの結合を検出する工程を含む。そのような抗体を産生するための方法は、当技術分野において公知である。抗体を使用して、溶液試料から特定のタンパク質を免疫沈降させる、または例えば、ポリアクリルアミドゲルによって分離されたタンパク質を免疫ブロットすることができる。組織または細胞中の特定のタンパク質多型の検出に、免疫細胞化学法も使用することができる。例えば、モノクローナルまたはポリクローナル抗体を使用するサンドイッチアッセイを含む、ELISA、ラジオイムノアッセイ（RIA）、免疫放射定量アッセイ（IRMA）および免疫酵素アッセイ（IEMA）を含む、他の周知の抗体ベースの技法もまた使用することができる。例えば、米国特許第4,376,110号および同第4,486,530号を参照されたく、これらの両方は、参照により本明細書に組み入れられる。

代替的な方法では、試料は、バイオマーカーに特異的な抗体と、抗体-バイオマーカー複合体が形成するために十分な条件下で接触され、次いで複合体が検出される場合がある。バイオマーカーの存在は、いくつかの方法で、例えば、血漿または血清を含む、多種多様な組織および試料をアッセイするためのウエスタンブロッティングおよびELISA手順により検出される場合がある。そのようなアッセイ形式を使用する幅広いイムノアッセイ技法が利用可能である。例えば、米国特許第4,016,043号、同第4,424,279号および同第4,018,653号を参照されたい。これらには、従来の競合結合アッセイのみならず、非競合タイプの単一部位および2部位または「サンドイッチ」アッセイの両方が含まれる。これらのアッセイにはまた、標的バイオマーカーへの標識抗体の直接結合が含まれる。

サンドイッチアッセイ技法のいくつかの変法が存在し、すべてが本方法によって包含されると意図される。簡潔には、典型的なフォワードアッセイでは、非標識抗体が固体基板上に固定化され、被験試料が、結合した分子と接触される。抗体－抗原複合体を形成させるために十分な期間の、適切なインキュベーション期間の後、次いで、検出可能なシグナルを産生することができるレポーター分子で標識された、抗原に特異的な第2の抗体が添加され、インキュベートされ、抗体-抗原-標識抗体の別の複合体の形成に十分な時間をあてる。あらゆる未反応物質を洗浄除去し、レポーター分子によって産生されるシグナルの観察によって抗原の存在を決定する。結果は、可視シグナルの単純な観察により定性的な場合、または公知の量のバイオマーカーを含有する対照試料と比較することによって定量される場合のいずれかがある。

フォワードアッセイの変法は、結合した抗体に試料および標識抗体の両方が同時に添加される同時アッセイを含む。これらの技法は、容易に明らかであろう任意の小さな変法を含めて、当業者に周知である。典型的なフォワードサンドイッチアッセイでは、バイオマーカーに対して特異性を有する第1の抗体が、固体表面に共有結合的または受動的のいずれかで結合される。固体表面は、典型的にはガラスまたはポリマーであり、最も通常使用されるポリマーは、セルロース、ポリアクリルアミド、ナイロン、ポリスチレン、ポリ塩化ビニルまたはポリプロピレンである。固体支持体は、チューブ、ビーズ、マイクロプレートのディスク、またはイムノアッセイを行うために適した任意の他の表面の形態であり得る。結合プロセスは、当技術分野において周知であり、一般的に、架橋させる工程、共有結合させる工程または物理的に吸着させる工程からなり、試験試料の調製においてポリマー-抗体複合体が洗浄される。次いで、被験試料のアリコートが固相複合体に添加され、抗体中に存在する任意のサブユニットを結合させるために十分な期間（例えば、2～40分またはより好都合ならば一晩）、適切な条件下で（例えば室温～40℃、例えば25℃から32℃の間（両端の値を含む））インキュベートされる。インキュベーション期間に続き、抗体サブユニット固相が洗浄され、乾燥され、バイオマーカーの一部分に特異的な第2の抗体と共にインキュベートされる。第2の抗体は、第2の抗体の分子マーカーとの結合を示すために使用されるレポーター分子に連結される。

代替法は、試料中の標的バイオマーカーを固定化し、次いで、固定化された標的を、レポーター分子で標識された場合または標識されていない場合がある特異的抗体に曝露する工程を伴う。標的の量およびレポーター分子のシグナル強度に応じて、結合した標的は、抗体を用いた直接標識によって検出可能であり得る。あるいは、第1の抗体に特異的な第2の標識抗体が、標的-第1の抗体複合体に曝露されて、標的-第1の抗体－第2の抗体の三元複合体を形成する。この複合体は、レポーター分子によって発されるシグナルによって検出される。本明細書に使用される場合の「レポーター分子」によって、抗原と結合した抗体を検出可能にする分析的に特定可能なシグナルをその化学的性質により提供する分子が意味される。このタイプのアッセイで最も通常使用されるレポーター分子は、酵素、フルオロフォアまたは放射性核種含有分子（すなわち放射性同位元素）のいずれかおよび化学発光分子である。

酵素イムノアッセイの場合、酵素は、一般的にグルタルアルデヒドまたは過ヨウ素酸塩により、第2の抗体にコンジュゲートされる。しかし、容易に認識されるように、当業者に容易に利用可能な多種多様の異なるコンジュゲーション技法が存在する。通常使用される酵素には、とりわけ、ホースラディッシュペルオキシダーゼ、グルコースオキシダーゼ、β-ガラクトシダーゼおよびアルカリホスファターゼが含まれる。特異的酵素とともに使用されるべき基質は、一般的に、対応する酵素による加水分解時の、検出可能な色変化の産生について選ばれる。適切な酵素の例には、アルカリホスファターゼおよびペルオキシダーゼが含まれる。上述の発色基質ではなく、蛍光産物を産出する蛍光発生基質を採用することも可能である。いかなる場合でも、酵素標識抗体が第1の抗体-分子マーカー複合体に添加され、結合され、次いで過剰の試薬が洗浄除去される。次いで、適切な基質を含有する溶液が抗体-抗原-抗体複合体に添加される。基質は、第2の抗体に連結した酵素と反応し、定性的可視シグナルを与え、そのシグナルはさらに、通例、分光光度的に定量されて、試料中に存在したバイオマーカーの量の指標を与える場合がある。あるいは、フルオレセインおよびローダミンなどの蛍光化合物が、抗体の結合能を変更せずに抗体に化学的にカップリングされる場合がある。特定波長の光の照明によって活性化された場合、蛍光色素標識抗体は光エネルギーを吸収し、分子に励起状態を誘導し、続いて光学顕微鏡で可視的に検出可能な、特徴的な色の光を放出する。EIAと同様に、蛍光標識抗体は、第1の抗体-分子マーカー複合体に結合させられる。次いで、未結合の試薬を洗浄除去後、残りの三元複合体を適切な波長の光に曝露し、観察された蛍光は関心対象の分子マーカーの存在を示す。免疫蛍光およびEIA技法は、共に、当技術分野において非常に十分に確立されている。しかし、放射性同位元素、化学発光または生物発光分子などの他のレポーター分子もまた、採用される場合がある。

免疫組織化学（IHC）
IHCは、組織中の抗原に特異的に結合する抗体を用いて、組織の細胞中の抗原（例えばタンパク質）の位置を特定するプロセスである。抗原結合性抗体は、その検出を例えば可視化により可能にするタグにコンジュゲートまたは融合することができる。いくつかの態様では、タグは、発色反応を触媒することができるアルカリホスファターゼまたはホースラディッシュペルオキシダーゼなどの酵素である。酵素は、抗体に融合する、または例えばビオチン－アビジンシステムを使用して非共有結合することができる。あるいは、抗体は、フルオレセイン、ローダミン、DyLight FluorまたはAlexa Fluorなどのフルオロフォアでタグ付けすることができる。抗原結合性抗体は、直接タグ付けすることができ、またはタグを保有する検出抗体が抗原結合性抗体自体を認識できる。IHCを使用して、1つまたは複数のタンパク質が検出される場合がある。遺伝子産物の発現は、対照レベルと比較したその染色強度に関係することができる。いくつかの態様では、その染色が対照と比べて試料で、少なくとも1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.2、2.5、2.7、3.0、4、5、6、7、8、9または10倍変動する場合、遺伝子産物は差次的に発現されると見なされる。

IHCは、組織化学技法への抗原－抗体相互作用の適用を含む。説明となる例では、組織切片がスライド上にマウントされ、抗原に特異的な抗体（ポリクローナルまたはモノクローナル）と共にインキュベートされる（一次反応）。次いで、抗原-抗体シグナルは、ペルオキシダーゼ抗ペルオキシダーゼ（PAP）、アビジン-ビオチン-ペルオキシダーゼ（ABC）またはアビジン-ビオチンアルカリホスファターゼの複合体にコンジュゲートした第2の抗体を使用して増幅される。基質および色素原の存在下で、酵素は抗体－抗原結合部位で有色の沈着物を形成する。免疫蛍光は、抗原を可視化する代替的な手法である。この技法では、一次抗原-抗体シグナルは、蛍光色素にコンジュゲートした第2の抗体を使用して増幅される。UV光が吸収されると、蛍光色素はそれ自体、より長い波長の光（蛍光）を放出し、したがって抗体-抗原複合体の位置を特定できるようになる。

エピジェネティックな状態
本開示による分子プロファイリング法はまた、エピジェネティックな変化、すなわち、エピジェネティックなメカニズムによって起こった遺伝子修飾、例えばメチル化状態またはヒストンアセチル化の変化を測定する工程を含む。頻繁に、エピジェネティックな変化は、エピジェネティックな変化の指標として（適宜RNAまたはタンパク質レベルで）検出され得る遺伝子の発現レベルにおける変更を結果として生じる。しばしば、エピジェネティックな変化は、「エピジェネティックなサイレンシング」と称される遺伝子のサイレンシングまたはダウンレギュレーションを結果として生じる。本明細書に記載されるような方法で最も頻繁に調査されるエピジェネティックな変化は、増加したメチル化レベルが典型的には関連がんに関連する、遺伝子のDNAメチル化状態を決定することを伴う（それが遺伝子発現のダウンレギュレーションを引き起こす場合があることから）。1つまたは複数の遺伝子の、過剰メチル化と称される場合がある異常メチル化を検出することができる。典型的には、メチル化状態は、遺伝子のプロモーター領域にしばしば見出される適切なCpGアイランド中で決定される。「メチル化」、「メチル化状況」または「メチル化状態」という用語は、DNA配列内の1つまたは複数のCpGジヌクレオチドでの5－メチルシトシンの存在または非存在を指す場合がある。CpGジヌクレオチドは、典型的にはヒト遺伝子のプロモーター領域およびエクソンに濃縮されている。

減少した遺伝子発現は、遺伝子のメチル化状態によって決定される場合、DNAメチル化状態により、または発現レベルにより調べることができる。エピジェネティックなサイレンシングを検出するための一方法は、正常細胞において発現される遺伝子が腫瘍細胞でより少なく発現されるまたは発現されないことを決定することである。したがって、本開示は、エピジェネティックなサイレンシングを検出する工程を含む分子プロファイリング法を提供する。

メチル化を直接検出するための様々なアッセイ手順は、当技術分野において公知であり、本方法と共に使用することができる。これらのアッセイは、2つの別個の手法：重亜硫酸塩変換ベースの手法および重亜硫酸塩をベースとしない手法に依存する。重亜硫酸塩をベースとしないDNAメチル化分析方法は、メチル化感受性酵素がそれらの制限部位でメチル化シトシンを切断できないことに依存する。重亜硫酸塩変換は、非メチル化シトシンをウラシルに変換する一方でメチル化シトシンを維持する、重亜硫酸ナトリウムを用いたDNA試料の処理に依存する（Furuichi Y, Wataya Y, Hayatsu H, Ukita T. Biochem Biophys Res Commun. 1970 Dec 9;41(5):1185-91）。この変換は、結果として、本来のDNAの配列中に変化を生じる。そのような変化を検出するための方法には、MS AP-PCR（メチル化感受性任意プライムドポリメラーゼ連鎖反応）、CG-リッチプライマーを使用して、CpGジヌクレオチドを含有する可能性が最も大きい領域に集中するためのゲノムのグローバルスキャンを可能にする技法であって、Gonzalgo et al., Cancer Research 57:594-599, 1997によって記載される技法;Eads et al., Cancer Res. 59:2302-2306, 1999によって記載された当技術分野において承認されている蛍光ベースのリアルタイムPCR技法を指すMethyLight（商標）；本明細書において実行されるその態様において、増幅プライマー間のCpG位置間を網羅するか増幅プライマーによって網羅されるメチル化特異的ブロッキングプローブ（本明細書においてブロッカーとも称される）が、核酸試料のメチル化特異的な選択的増幅を可能にするアッセイであるHeavyMethyl（商標）アッセイ；MethyLight（商標）アッセイが増幅プライマー間のCpG位置を網羅するメチル化特異的ブロッキングプローブと組み合わされた、MethyLight（商標）アッセイの変法であるHeavyMethyl（商標）MethyLight（商標）；Gonzalgo & Jones, Nucleic Acids Res. 25:2529-2531, 1997によって記載されたアッセイであるMs-SNuPE（メチル化感受性一塩基プライマー伸長）；Herman et al. Proc. Natl. Acad. Sci. USA 93:9821-9826, 1996および米国特許第5,786,146号によって記載されたメチル化アッセイであるMSP（メチル化特異的PCR）；Xiong & Laird, Nucleic Acids Res. 25:2532-2534, 1997によって記載されたメチル化アッセイであるCOBRA（複合重亜硫酸制限分析）；Toyota et al., Cancer Res. 59:2307-12, 1999およびWO00/26401A1に記載されたメチル化アッセイであるMCA（メチル化CpGアイランド増幅）が含まれる。

DNAメチル化分析のための他の技法には、シーケンシング、メチル化特異的PCR（MS-PCR）、融解曲線メチル化特異的PCR（McMS-PCR）、重亜硫酸塩処理を行うまたは行わないMLPA、QAMA、MSRE-PCR、MethyLight、ConLight-MSP、重亜硫酸塩変換特異的なメチル化特異的PCR（BS-MSP）、COBRA（制限酵素を使用して、重亜硫酸ナトリウム処理されたDNAのPCR産物におけるメチル化依存性配列差異を明らかにすることに依存する）、メチル化感受性一塩基プライマー伸長高次構造（MS-SNuPE）、メチル化感受性一本鎖高次構造分析(MS-SSCA)、融解曲線複合重亜硫酸塩制限分析（McCOBRA）、PyroMethA、HeavyMethyl、MALDI-TOF、MassARRAY、メチル化アレル定量分析（QAMA）、酵素領域メチル化アッセイ（ERMA）、QBSUPT、MethylQuant、定量PCRシーケンシングおよびオリゴヌクレオチドベースのマイクロアレイシステム、パイロシーケンシング、Meth-DOP-PCRが含まれる。いくつかの有用な技法の総説は、Nucleic Acids research, 1998, Vol. 26, No. 10, 2255-2264; Nature Reviews, 2003, Vol.3, 253-266; Oral Oncology, 2006, Vol. 42, 5-13に提供され、これらの参考文献は、その全体で本明細書に組み入れられる。これらの技法のいずれかは、適宜、本方法に従って使用され得る。他の技法は、米国特許出願公開第20100144836号;および同第20100184027号に記載されており、これらの出願は、その全体で参照により本明細書に組み入れられる。

様々なアセチラーゼおよびデアセチラーゼ（deacetylylase）の活性を通じて、ヒストンタンパク質のDNA結合機能は緊密に調節される。さらに、ヒストンアセチル化およびヒストン脱アセチル化は、悪性進行と関連している。Nature, 429: 457-63, 2004を参照されたい。ヒストンアセチル化を分析するための方法は、米国特許出願公開第20100144543号および同第20100151468号に記載されており、これらの出願は、その全体で参照により本明細書に組み入れられる。

配列分析
本開示による分子プロファイリングは、個体が1つまたは複数の遺伝子または遺伝子産物に1つまたは複数のヌクレオチドバリアント（またはアミノ酸バリアント）を有するかどうかを決定することによって、1つまたは複数のバイオマーカーを遺伝子型決定するための方法を含む。本明細書に記載されるような方法に従って1つまたは複数の遺伝子を遺伝子型決定することは、いくつかの態様では、治療を選択するためのより多くの証拠を提供することができる。

本明細書に記載されるようなバイオマーカーは、それらがコードする核酸またはタンパク質中の変更を決定するために有用な任意の方法によって分析することができる。一態様により、当業者は、欠失変異体、挿入変異体、フレームシフト変異体、ナンセンス変異体、ミスセンス変異体、およびスプライス変異体を含む変異について1つまたは複数の遺伝子を分析することができる。

1つまたは複数の遺伝子の分析のために使用される核酸は、試料中の細胞から標準的な方法論に従って単離することができる（Sambrook et al., 1989）。例えば核酸は、ゲノムDNAまたは分画もしくは全細胞RNA、またはエキソソームもしくは細胞表面から獲得されたmiRNAであり得る。RNAが使用される場合、RNAを相補的DNAに変換することが望ましい場合がある。一態様では、RNAは全細胞RNAであり；別の態様では、それはポリ-A RNAであり；別の態様では、エキソソームRNAである。通常、核酸は増幅される。1つまたは複数の遺伝子を分析するためのアッセイ形式に応じて、関心対象の特定の核酸は、試料から増幅を使用して直接、または増幅後に第2の公知の核酸を用いて、特定される。次に、特定された産物が検出される。ある特定の適用では、検出は、視覚的手段（例えば、ゲルの臭化エチジウム染色）によって行われる場合がある。あるいは、検出は、化学発光、放射性標識もしくは蛍光標識の放射性シンチグラフィーを介する、またはさらには電気もしくは熱インパルスシグナルを使用するシステムを介する産物の間接的特定を伴う場合がある（Affymax Technology; Bellus, 1994）。

本明細書に記載されるようなバイオマーカーに様々なタイプの欠損が起こることが知られている。変更には、欠失、挿入、点変異、および重複が含まれるが、それに限定されるわけではない。点変異は、サイレントであることができ、または終止コドン、フレームシフト変異もしくはアミノ酸置換を結果として生じる可能性がある。1つまたは複数の遺伝子のコード領域中および領域外に変異が起こる場合があり、本明細書に記載されるような方法に従って分析することができる。関心対象の核酸の標的部位は、配列が変動する領域を含むことができる。例には、一ヌクレオチド変異、ヌクレオチドリピート、多塩基欠失（コンセンサス配列から1つよりも多いヌクレオチドが欠失される）、多塩基挿入（コンセンサス配列から1つよりも多いヌクレオチドが挿入される）、マイクロサテライトリピート（典型的な5～1000個のリピートユニットを有する少数のヌクレオチドリピート）、ジ-ヌクレオチドリピート、トリ-ヌクレオチドリピート、配列再編成（転座および重複を含む）、キメラ配列（異なる遺伝子起源からの2つの配列が一緒に融合されている）などの異なる形態で存在する多型が含まれるが、それに限定されるわけではない。配列多型のうち、ヒトゲノム中の最も頻繁な多型は、一塩基多型（SNP）とも呼ばれる一塩基変異である。SNPは、ゲノムにわたり豊富であり、安定であり、広く分布している。

分子プロファイリングは、1つまたは複数の遺伝子をハプロタイピングするための方法を含む。ハプロタイプは、単一の染色体上に位置する遺伝的決定因子のセットであり、典型的には、染色体の領域中にアレル（遺伝子のすべての選択的配列）の特定の組み合わせを含有する。言い換えると、ハプロタイプは個別の染色体上のフェージング済み配列情報である。非常に多くの場合、染色体上のフェージング済みSNPがハプロタイプを規定する。染色体上のハプロタイプの組み合わせは、細胞の遺伝子プロファイルを決定することができる。特定の遺伝子マーカーと疾患変異との間の関連を決定するのがハプロタイプである。ハプロタイピングは、当技術分野において公知の任意の方法によって行うことができる。SNPをスコア付けする通常の方法には、Landgren et al., Genome Research, 8:769-776, 1998に総説されたハイブリダイゼーションマイクロアレイまたは直接ゲルシーケンシングが含まれる。例えば、1つまたは複数の遺伝子のコピーを1つだけ個体から単離することができ、バリアント位置の各々でのヌクレオチドが決定される。あるいは、アレル特異的PCRまたは類似の方法を使用して、個体における1つまたは複数の遺伝子のコピーの1つだけを増幅することができ、本開示のバリアント位置でのSNPが決定される。当技術分野において公知のクラーク法もまたハプロタイピングのために採用することができる。高スループット分子ハプロタイピング法はまた、参照により本明細書に組み入れられるTost et al., Nucleic Acids Res., 30(19):e96 (2002)に開示されている。

したがって、遺伝学およびハプロタイピングの分野の当業者に明らかなように、本開示のバリアントおよび／またはハプロタイプと連鎖不平衡にある追加的なバリアントは、当技術分野において公知のハプロタイピング法によって特定することができる。本開示のバリアントまたはハプロタイプと連鎖不平衡にある追加的なバリアントもまた、下記のような様々な用途に有用であることができる。

遺伝子型決定およびハプロタイピングのために、ゲノムDNAおよびmRNA/cDNAの両方を使用することができ、本明細書において両方が総称的に「遺伝子」と称される。

ヌクレオチドバリアントを検出するための多数の技法が当技術分野において公知であり、すべてを本開示の方法のために使用することができる。これらの技法は、タンパク質ベースまたは核酸ベースであることができる。どちらの場合も、使用される技法は、小さなヌクレオチドまたはアミノ酸バリエーションを正確に検出するために十分に感受性でなければならない。検出可能なマーカーで標識されたプローブが頻繁に使用される。特に規定がない限り、下記の特定の技法で、放射性同位元素、蛍光化合物、ストレプトアビジンを使用して検出可能なビオチン、酵素（例えば、アルカリホスファターゼ）、酵素の基質、リガンドおよび抗体などを含むが、それに限定されるわけではない、当技術分野において公知の任意の適切なマーカーを使用することができる。Jablonski et al., Nucleic Acids Res., 14:6115-6128 (1986); Nguyen et al., Biotechniques, 13:116-123 (1992); Rigby et al., J. Mol. Biol., 113:237-251 (1977)を参照されたい。

核酸ベースの検出法では、標的DNA試料、すなわち、1つまたは複数の遺伝子に対応するゲノムDNA、cDNA、mRNAおよび／またはmiRNAを含有する試料を、被験個体から得なければならない。1つまたは複数の遺伝子に対応するゲノムDNA、miRNA、mRNA、および／またはcDNA（またはその一部分）を含有する任意の組織または細胞試料を使用することができる。このために、細胞核を含有する、したがってゲノムDNAを含有する組織試料を個体から得ることができる。白血球および他のリンパ球だけが細胞核を有するのに対し、赤血球は核を有さず、mRNAまたはmiRNAだけを含有することを除き、血液試料も有用であることができる。それにもかかわらず、その配列中のヌクレオチドバリアントの存在について分析できるか、またはcDNA合成のための鋳型として役立つので、miRNAおよびmRNAも有用である。組織または細胞試料は、ほとんど処理せずに直接分析することができる。あるいは、標的配列を含む核酸を後述の様々な検出手順に供する前に、それらを抽出、精製、および／または増幅することができる。組織または細胞試料以外に、個体から得られた被験組織または細胞試料を使用して構築されたcDNAまたはゲノムDNAライブラリからのcDNAまたはゲノムDNAもまた有用である。

特定のヌクレオチドバリアントの存在または非存在を決定するために、標的ゲノムDNAまたはcDNA、特に検出されるべきヌクレオチドバリアント座位を包含する領域のシーケンシング。サンガー法およびギルバート化学法を含む様々なシーケンシング技法が一般的に公知であり、当技術分野において広く使用されている。パイロシーケンシング法は、発光測定（luminometric）検出システムを使用してリアルタイムでDNA合成をモニタリングする。パイロシーケンシングは、一塩基多型などの遺伝子多型を分析するのに有効であることが示されており、本方法にも使用することができる。Nordstrom et al., Biotechnol. Appl. Biochem., 31(2):107-112 (2000); Ahmadian et al., Anal. Biochem., 280:103-110 (2000)を参照されたい。

核酸バリアントは、適切な検出プロセスによって検出することができる。検出、定量、シーケンシングなどの方法の非限定的な例は、質量改変アンプリコンの質量検出（例えば、マトリックス支援レーザ脱離イオン化（MALDI）質量分析およびエレクトロスプレー（ES）質量分析）、プライマー伸長法（例えば、iPLEX（商標）；Sequenom, Inc.）、マイクロシーケンシング法（例えば、プライマー伸長方法論の改変）、リガーゼ配列決定法（例えば、米国特許第5,679,524号および同第5,952,174号、ならびに国際公開公報第01/27326号）、ミスマッチ配列決定法（例えば、米国特許第5,851,770号；同第5,958,692号；同第6,110,684号；および同第6,183,958号）、直接DNAシーケンシング、断片分析（FA）、制限断片長多型（RFLP分析）、アレル特異的オリゴヌクレオチド（ASO）分析、メチル化特異的PCR（MSPCR）、パイロシーケンシング分析、アシクロプライム（acycloprime）分析、逆ドットブロット、GeneChipマイクロアレイ、ダイナミックアレル特異的ハイブリダイゼーション（DASH）、ペプチド核酸（PNA）およびロックド核酸（LNA）プローブ、TaqMan、分子ビーコン、挿入色素（Intercalating dye）、FRETプライマー、AlphaScreen、SNPstream、遺伝子ビット分析（genetic bit analysis）（GBA）、マルチプレックスミニシーケンシング、SNaPshot、GOODアッセイ、マイクロアレイminiseq、アレイ化プライマー伸長（APEX）、マイクロアレイプライマー伸長（例えば、マイクロアレイ配列決定法）、Tagアレイ、コードミクロスフェア、鋳型依存性組み込み（TDI）、蛍光偏光、比色測定オリゴヌクレオチドライゲーションアッセイ（OLA）、配列コードOLA、マイクロアレイライゲーション、リガーゼ連鎖反応、パッドロック（Padlock）プローブ、インベーダーアッセイ、ハイブリダイゼーション法（例えば、少なくとも1つのプローブを使用するハイブリダイゼーション、少なくとも1つの蛍光標識プローブを使用するハイブリダイゼーションなど）、従来型ドットブロット分析、一本鎖高次構造多型分析(SSCP、例えば、米国特許第5,891,625号および同第6,013,499号；Orita et al., Proc. Natl. Acad. Sci. U.S.A. 86: 27776-2770 (1989)）、変性濃度勾配ゲル電気泳動（DGGE）、ヘテロ二重鎖分析、ミスマッチ切断検出、およびSheffield et al., Proc. Natl. Acad. Sci. USA 49: 699-706 (1991)、White et al., Genomics 12: 301-306 (1992)、Grompe et al., Proc. Natl. Acad. Sci. USA 86: 5855-5892 (1989)、およびGrompe, Nature Genetics 5: 111-117 (1993)に記載されている技法、クローニングおよびシーケンシング、電気泳動、ハイブリダイゼーションプローブおよび定量リアルタイムポリメラーゼ連鎖反応（QRT-PCR）の使用、デジタルPCR、ナノポアシーケンシング、チップならびにそれらの組み合わせである。アレルまたはパラログの検出および定量は、2007年12月4日に出願された米国特許出願第11/950,395号に記載されている「封管（closed-tube）」法を使用して実行することができる。いくつかの態様では、核酸種の量は、質量分析、プライマー伸長、シーケンシング（例えば、任意の適切な方法、例えばナノポアまたはピロシーケンシング）、定量PCR（Q-PCRまたはQRT-PCR）、デジタルPCR、それらの組み合わせなどによって決定される。

「配列分析」という用語は、本明細書に使用する場合、ヌクレオチド配列、例えば、増幅産物のヌクレオチド配列を決定することを指す。ポリヌクレオチド、例えば、DNAまたはmRNAの全配列または部分配列を決定することができ、決定されたヌクレオチド配列を「リード」または「配列リード」と称することができる。例えば、いくつかの態様では、線形的増幅産物は、さらなる増幅なしに（例えば、単一分子シーケンシング方法論を使用することによって）直接分析される場合がある。ある特定の態様では、線形的増幅産物が、さらなる増幅に供され、次いで分析される場合がある（例えば、ライゲーションによるシーケンシングまたはピロシーケンシング方法論を使用する）。リードは、異なるタイプの配列分析に供される場合がある。任意の適切なシーケンシング方法を使用して、ヌクレオチド配列種、増幅された核酸種、または前述のものから生成された検出可能な産物を検出し、その量を決定することができる。ある特定のシーケンシング法の例は、後述される。

配列分析装置または配列分析構成要素は、本明細書に記載されるプロセスの結果生じるヌクレオチド配列（例えば、線形的および／または指数的増幅産物）を決定するために当業者によって使用されることができる装置、およびそのような装置と共に使用される1つまたは複数の構成要素を含む。シーケンシングプラットフォームの例には、454プラットフォーム（Roche）（Margulies, M. et al. 2005 Nature 437, 376-380）、Illumina Genomic Analyzer（もしくはSolexaプラットフォーム）またはSOLID System（Applied Biosystems;「Reagents, Methods, and Libraries For Bead-Based Sequencing」という名称のPCT特許出願公報WO06/084132および「Reagents, Methods, and Libraries for Gel-Free Bead-Based Sequencing」という名称のWO07/121,489を参照されたい）、Helicos True単一分子DNAシーケンシング技法（Harris TD et al. 2008 Science, 320, 106-109）、Pacific Biosciencesの単一分子リアルタイム（SMRT（商標））技法、およびナノポアシーケンシング（Soni G V and Meller A. 2007 Clin Chem 53: 1996-2001）、Ion半導体シーケンシング（Ion Torrent Systems, Inc, San Francisco, CA）、またはDNAナノボールシーケンシング（Complete Genomics, Mountain View, CA）、VisiGen Biotechnologies手法（Invitrogen）およびポロニー（polony）シーケンシングが含まれるが、それに限定されるわけではない。そのようなプラットフォームは、標本から単離された多数の核酸分子のシーケンシングを並列的な高次多重化で可能にする（Dear Brief Funct Genomic Proteomic 2003; 1: 397-416; Haimovich, Methods, challenges, and promise of next-generation sequencing in cancer biology. Yale J Biol Med. 2011 Dec;84(4):439-46）。これらの非サンガー法ベースのシーケンシング技法は、時に、NextGenシーケンシング、NGS、次世代（next-generation）シーケンシング、次世代（next generation）シーケンシング、およびそれらの変法と称される。典型的には、それらは、従来のサンガー手法よりもずっと高いスループットを可能にする。Schuster, Next-generation sequencing transforms today's biology, Nature Methods 5:16-18 (2008); Metzker, Sequencing technologies - the next generation. Nat Rev Genet. 2010 Jan;11(1):31-46; Levy and Myers, Advancements in Next-Generation Sequencing. Annu Rev Genomics Hum Genet. 2016 Aug 31;17:95-115を参照されたい。これらのプラットフォームは、核酸断片のクローン的に増殖したまたは増幅されていない単一分子のシーケンシングを可能にすることができる。ある特定のプラットフォームは、例えば、色素修飾プローブのライゲーション（サイクリックライゲーションおよび切断を含む）によるシーケンシング、ピロシーケンシング、および単一分子シーケンシングを伴う。ヌクレオチド配列種、増幅核酸種およびこれらから生成された検出可能な産物は、そのような配列分析プラットフォームによって分析することができる。次世代シーケンシングを本明細書に記載されるような方法に使用して、例えば、変異、コピー数、または発現レベルを適宜決定することができる。これらの方法を使用して、全ゲノムシーケンシング、または関心対象の遺伝子もしくはその断片などの関心対象の特定の配列のシーケンシングを行うことができる。

ライゲーションによるシーケンシングは、塩基対ミスマッチに対するDNAリガーゼの感受性に依存する核酸シーケンシング法である。DNAリガーゼは、正しく塩基対形成したDNA末端同士を一緒につなぐ。正しく塩基対形成したDNA末端だけを一緒につなげるDNAリガーゼの能力を、蛍光標識オリゴヌクレオチドまたはプライマーの混合プールと組み合わせることで、蛍光検出による配列決定が可能になる。より長い配列リードは、標識特定後に切断することができる切断可能な連結を含有するプライマーを含めることによって得られる場合がある。リンカーでの切断によって標識が除去され、ライゲートされたプライマーの末端の5'リン酸が再生され、別のラウンドのライゲーションのためのプライマーが調製される。いくつかの態様では、プライマーは、1個よりも多い蛍光標識、例えば、少なくとも1、2、3、4、または5個の蛍光標識で標識される場合がある。

ライゲーションによるシーケンシングは、一般的に以下の工程を伴う。クローンビーズ集団は、標的核酸鋳型配列、増幅反応成分、ビーズおよびプライマーを含有するエマルジョンマイクロリアクター中で調製することができる。増幅後、鋳型が変性され、ビーズの濃縮が行われて、伸長した鋳型を有するビーズが、望まれないビーズ（例えば、伸長していない鋳型を有するビーズ）から分離される。選択されたビーズ上の鋳型は、3'修飾を受けて、スライドと共有結合を形成させられ、修飾されたビーズをガラススライド上に沈着させることができる。沈着チャンバーは、ビーズ負荷プロセスの間にスライドを1、4または8つのチャンバーに分割する能力を提供する。配列分析のために、プライマーはアダプター配列とハイブダイズする。4つの色素標識プローブのセットは、シーケンシングプライマーとのライゲーションに競合する。プローブのライゲーションの特異性は、一連のライゲーションの間に4番目および5番目ごとの塩基を調べることによって達成される。5～7ラウンドのライゲーション、検出および切断は、5番目ごとの位置での色を、使用したライブラリのタイプによって決まるラウンド数と共に記録する。ライゲーションの各ラウンドに続き、5'方向の1つの塩基だけずらした新しい相補的プライマーが別のシリーズのライゲーションのために築かれる。プライマーのリセットおよびライゲーションのラウンド（1ラウンドあたり5～7回のライゲーション）が連続5回繰り返されて、1つのタグについて25～35塩基対の配列を生成する。メイトペアシーケンシングを用いて、第2のタグについてこのプロセスが繰り返される。

パイロシーケンシングは、ヌクレオチド組み込みで放出されたピロリン酸塩の検出に依存する、合成によるシーケンシングに基づく核酸シーケンシング法である。一般的に、合成によるシーケンシングは、配列が探索されている鎖に相補的なDNA鎖を一度に1つのヌクレオチドで合成することを伴う。標的核酸は、固体支持体に固定化され、シーケンシングプライマーとハイブリダイズされ、DNAポリメラーゼ、ATPスルフリラーゼ、ルシフェラーゼ、アピラーゼ、アデノシン5'ホスホスルフェートおよびルシフェリンと共にインキュベートされる場合がある。ヌクレオチド溶液が連続的に添加され、除去される。ヌクレオチドの正確な組み込みによってピロリン酸塩が放出され、ピロリン酸塩はATPスルフリラーゼと相互作用し、アデノシン5'ホスホスルフェートの存在下でATPを産生し、ルシフェリン反応にエネルギーを供給し、この反応は化学発光シグナルを産生し、配列決定を可能にする。発生する光の量は、添加された塩基の数と比例する。したがって、シーケンシングプライマーの下流の配列を決定することができる。パイロシーケンシングの例証的なシステムは、以下の工程を伴う：アダプター核酸を検討中の核酸とライゲートし、結果として生じた核酸をビーズとハイブリダイズする工程；エマルション中でヌクレオチド配列を増幅させる工程；ピコリットルマルチウェル固体支持体を使用してビーズをソートする工程；および増幅されたヌクレオチド配列をパイロシーケンシング方法論によってシーケンシングする工程（例えば、Nakano et al., "Single-molecule PCR using water-in-oil emulsion;" Journal of Biotechnology 102: 117-124 (2003)）。

ある特定の単一分子シーケンシングの態様は、合成によるシーケンシングの原理に基づき、ヌクレオチド組み込みの成功の結果として光子が放出されるメカニズムとしてシングルペア蛍光共鳴エネルギー移動（シングルペアFRET）を使用する。放出された光子は、しばしば強化または高感度冷却電荷結合素子を内部全反射顕微鏡法（TIRM）と共に使用して検出される。導入された反応溶液が、シーケンシングプロセスの結果として合成された成長中の核酸鎖内への組み込みのための正しいヌクレオチドを含有する場合にのみ、光子が放出される。FRETベースの単一分子シーケンシングでは、エネルギーが2つの蛍光色素の間、時にポリメチンシアニン色素Cy3およびCy5の間で、長距離双極子相互作用を通じて移動する。ドナーは、その特異励起波長で励起し、励起状態エネルギーがアクセプター色素に無放射的に移動し、アクセプター色素が今度は励起するようになる。アクセプター色素は、最終的に光子の放射放出により基底状態に戻る。エネルギー移動プロセスに使用される2つの色素は、シングルペアFRETでの「シングルペア」に相当する。Cy3は、しばしばドナーフルオロフォアとして使用され、しばしば第1標識ヌクレオチドとして組み込まれる。Cy5は、しばしばアクセプターフルオロフォアとして使用され、第1のCy3標識ヌクレオチドの組み込み後の逐次ヌクレオチド付加のためのヌクレオチド標識として使用される。フルオロフォアは、一般的に、エネルギー移動がうまく起こるように、各々10ナノメートル以内である。

単一分子シーケンシングに基づき使用することができるシステムの例は、一般的に、プライマーを標的核酸配列とハイブリダイズして複合体を生成させること；複合体を固相と会合させること;蛍光分子でタグ付けされたヌクレオチドによってプライマーを反復的に伸長すること；および各反復後に蛍光共鳴エネルギー移動シグナルの画像を捕捉することを伴う（例えば、米国特許第7,169,314号；Braslavsky et al., PNAS 100(7): 3960-3964 (2003)）。そのようなシステムを使用して、本明細書に記載されるプロセスによって生成された増幅産物を直接シーケンシングすることができる（線形または指数的増幅産物）。いくつかの態様では、増幅産物は、固体支持体、例えばビーズまたはガラススライド上に存在する固定化捕捉配列に相補的な配列を含有するプライマーとハイブリダイズすることができる。プライマー-増幅産物複合体と固定化捕捉配列とのハイブリダイゼーションは、合成によるシングルペアFRETベースのシーケンシングのために増幅産物を固体支持体に固定化する。プライマーは、しばしば蛍光性であり、その結果、固定化された核酸を有するスライド表面の最初の基準画像を生成することができる。最初の基準画像は、真のヌクレオチド組み込みが起こりつつある位置を決定するために有用である。「プライマーのみ」の基準画像で最初に特定されない、アレイ位置で検出される蛍光シグナルは、非特異的蛍光として廃棄される。プライマー-増幅産物複合体の固定化に続き、結合した核酸は、しばしば、a）1つの蛍光標識ヌクレオチドの存在下でのポリメラーゼ伸長、b）適切な顕微鏡法、例えばTIRMを使用する蛍光の検出、c）蛍光ヌクレオチドの除去、およびd）異なる蛍光標識ヌクレオチドで工程aに戻るという反復工程によって並列的にシーケンシングされる。

いくつかの態様では、ヌクレオチドシーケンシングは、固相一塩基シーケンシング法およびプロセスによる場合がある。固相一塩基シーケンシング法は、単一分子の試料核酸が固体支持体の単一分子とハイブリダイズする条件下で標的核酸および固体支持体を接触させる工程を伴う。そのような条件は、「マイクロリアクター」中に固体支持体分子および単一分子の標的核酸を提供することを含むことができる。そのような条件はまた、標的核酸分子が固体支持体上で固相核酸とハイブリダイズすることができる混合物を提供することを含むことができる。本明細書に記載される態様に有用な一塩基シーケンシング法は、2008年1月17日に出願された米国仮特許出願第61/021,871号に記載されている。

ある特定の態様では、ナノポアシーケンシング検出法は、（a）シーケンシングのための標的核酸（「ベース核酸」、例えば、連結したプローブ分子）を配列特異的ディテクタと、ディテクタがベース核酸の実質的に相補的な部分配列と特異的にハイブリダイズする条件下で接触させる工程；（b）ディテクタからのシグナルを検出する工程、および（c）検出されるシグナルに従ってベース核酸の配列を決定する工程を含む。ある特定の態様では、ベース核酸がポアを通過する時にディテクタがナノポア構造を妨害する場合、ベース核酸とハイブリダイズされたディテクタは、ベース核酸から解離され（例えば、順次解離され）、ベース配列から解離されたディテクタが検出される。いくつかの態様では、ベース核酸から解離したディテクタは、検出可能なシグナルを放出し、ベース核酸とハイブリダイズされたディテクタは、異なる検出可能なシグナルを放出するか、または検出可能なシグナルを放出しない。ある特定の態様では、核酸（例えば、連結したプローブ分子）中のヌクレオチドは、特定のヌクレオチド（「ヌクレオチド代表」）に対応する特定のヌクレオチド配列で置換され、それにより、伸長した核酸を生じ（例えば、米国特許第6,723,513号）、ディテクタは、ベース核酸として役立つ伸長した核酸中のヌクレオチド代表とハイブリダイズする。そのような態様では、ヌクレオチド代表は、二元またはより高次の配置で配置される場合がある（例えば、Soni and Meller, Clinical Chemistry 53(11): 1996-2001 (2007)）。いくつかの態様では、核酸は伸長されず、伸長した核酸を生じず、直接にベース核酸の役に立ち（例えば、連結したプローブ分子は非伸長のベース核酸として役立つ）、ディテクタは、ベース核酸と直接接触される。例えば、第1のディテクタが第1の部分配列とハイブリダイズする場合があり、第2のディテクタが第2の部分配列とハイブリダイズする場合があり、その際、第1のディテクタおよび第2のディテクタは、各々、相互に識別できる検出可能な標識を有し、その際、ディテクタがベース核酸から解離した場合、第1のディテクタおよび第2のディテクタからのシグナルは相互に識別することができる。ある特定の態様では、ディテクタは、約3～約100ヌクレオチド長（例えば、約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、50、55、60、65、70、75、80、85、90、または95ヌクレオチド長）であることができる、ベース核酸とハイブリダイズする領域（例えば、2つの領域）を含む。ディテクタはまた、ベース核酸とハイブリダイズしない、ヌクレオチドの1つまたは複数の領域を含む場合がある。いくつかの態様では、ディテクタは分子ビーコンである。ディテクタは、しばしば、本明細書に記載されるものより独立して選択される1つまたは複数の検出可能な標識を含む。各検出可能な標識は、各標識（例えば、磁気、電気、化学、光など）によって生成されるシグナルを検出することができる任意の好都合な検出プロセスによって検出することができる。例えば、CDカメラを使用して、ディテクタと連結した1つまたは複数の識別可能な量子ドットからのシグナルを検出することができる。

ある特定の配列分析の態様では、より大きなヌクレオチド配列を構築するためにリードが使用される場合があり、これは、異なるリード中のオーバーラップ配列を特定することによって、およびリード中の特定配列を使用することによって容易にすることができる。そのような配列分析法およびリードからより大きな配列を構築するためのソフトウェアは、当業者に公知である（例えば、Venter et al., Science 291: 1304-1351 (2001)）。特定のリード、部分ヌクレオチド配列構築物、および完全ヌクレオチド配列構築物は、試料核酸内のヌクレオチド配列間で比較される場合があり（すなわち、内部比較）またはある特定の配列分析態様で基準配列と比較される場合がある（すなわち、基準比較）。内部比較は、試料核酸が複数の試料から、または配列バリエーションを含有する単一の試料源から調製される状況で行うことができる。基準ヌクレオチド配列が分かっており、かつ試料核酸が基準ヌクレオチド配列と実質的に類似もしくは同じヌクレオチド配列を含有するか、または異なるヌクレオチド配列を含有するかを決定することが目的である場合、時に基準比較が行われる。配列分析は、上記の配列分析装置および構成要素の使用によって容易にすることができる。

本明細書において「マイクロシーケンシング」法とも称されるプライマー伸長多型検出法は、典型的には、多型部位を保有する核酸と相補的オリゴヌクレオチドをハイブリダイズすることによって実施される。これらの方法では、オリゴヌクレオチドは、典型的には多型部位に隣接してハイブリダイズする。「マイクロシーケンシング」法に関連して使用される場合の「隣接する」という用語は、伸長オリゴヌクレオチドが核酸とハイブリダイズされる場合に伸長オリゴヌクレオチドの3'末端が時に、核酸の多型部位の5'末端から1ヌクレオチド、しばしば多型部位の5'末端から2または3、時々4、5、6、7、8、9、または10ヌクレオチドであることを指す。次いで、伸長オリゴヌクレオチドが1つまたは複数のヌクレオチドだけ、しばしば1、2、または3つのヌクレオチドだけ伸長されるが、伸長オリゴヌクレオチドに付加されるヌクレオチドの数および／またはタイプは、どの1つまたは複数の多型バリアントが存在するかを決定する。オリゴヌクレオチド伸長法は、例えば、米国特許第4,656,127号；同第4,851,331号；同第5,679,524号；同第5,834,189号；同第5,876,934号；同第5,908,755号；同第5,912,118号；同第5,976,802号；同第5,981,186号；同第6,004,744号；同第6,013,431号；同第6,017,702号；同第6,046,005号；同第6,087,095号；同第6,210,891号；およびWO01/20039に開示されている。伸長産物は、任意のやり方で、例えば蛍光法によって（例えば、Chen & Kwok, Nucleic Acids Research 25: 347-353 (1997)およびChen et al., Proc. Natl. Acad. Sci. USA 94/20: 10756-10761 (1997)を参照されたい）または質量分析法（例えば、MALDI-TOF質量分析）および本明細書に記載される他の方法によって検出することができる。質量分析を使用するオリゴヌクレオチド伸長法は、例えば、米国特許第5,547,835号；同第5,605,798号；同第5,691,141号；同第5,849,542号；同第5,869,242号；同第5,928,906号；同第6,043,031号；同第6,194,144号；および同第6,258,538号に記載されている。

マイクロシーケンシング検出法は、しばしば、伸長工程を続行する増幅プロセスを組み入れている。増幅プロセスは、典型的には、多型部位を含む、核酸試料からの領域を増幅する。増幅は、上記方法を使用して、または例えば一方のオリゴヌクレオチドプライマーが典型的には多型の3'領域に相補的であり、他方が典型的には多型の5'領域に相補的である、オリゴヌクレオチドプライマーペアをポリメラーゼ連鎖反応（PCR）で使用して実施することができる。PCRプライマーペアは、例えば、米国特許第4,683,195号;同第4,683,202号、同第4,965,188号；同第5,656,493号；同第5,998,143号；同第6,140,054号；WO01/27327；およびWO01/27329に開示される方法で使用される場合がある。PCRプライマーペアはまた、Applied Biosystemsから入手可能なGeneAmp（商標）システムのいずれかなどの、PCRを行う任意の市販の機械で使用される場合がある。

他の適切なシーケンシング法には、固定化マイクロビーズを採用するマルチプレックスポロニーシーケンシング（参照により本明細書に組み入れられる、www.sciencexpress.org/4 Aug. 2005/Page1/10.1126/science.1117389から入手可能なShendure et al., Accurate Multiplex Polony Sequencing of an Evolved Bacterial Genome, Sciencexpress, Aug. 4, 2005, pg 1に記載されるような）、および微細加工ピコリットルリアクター（参照により本明細書に組み入れられる、www.nature.com/natureから入手可能なMargulies et al., Genome Sequencing in Microfabricated High-Density Picolitre Reactors, Nature, August 2005に記載されるような（2005年7月31日にオンライン刊行、doi:10.1038/nature03959））中でのシーケンシングが含まれる。

全ゲノムシーケンシングはまた、いくつかの態様では、RNA転写物のアレルを識別するために使用される場合がある。全ゲノムシーケンシング法の例には、上記のようなナノポアベースのシーケンシング法、合成によるシーケンシングおよびライゲーションによるシーケンシングが含まれるが、それに限定されるわけではない。

核酸バリアントはまた、標準的な電気泳動技法を使用して検出することができる。検出工程に、時に、増幅工程が先行することができるものの、増幅は本明細書に記載の態様に必要ない。電気泳動技法を使用する核酸の検出および定量のための方法の例は、当技術分野に見出すことができる。非限定的な例は、アガロースまたはポリアクリルアミドゲル中で試料（例えば、母方血清から単離された混合核酸試料、または例えば増幅核酸種）を泳動させることを含む。ゲルは、臭化エチジウムで標識（例えば、染色）される場合がある（Sambrook and Russell, Molecular Cloning: A Laboratory Manual 3d ed., 2001を参照）。標準対照と同じサイズのバンドの存在は、標的核酸配列の存在の指標であり、次いでその量が、バンドの強度に基づき対照と比較され、したがって、関心対象の標的配列を検出および定量する場合がある。いくつかの態様では、母方アレルと父方アレルとの間を識別することができる制限酵素が、標的核酸種を検出および定量するために使用される場合がある。ある特定の態様では、関心対象の配列に特異的なオリゴヌクレオチドプローブが、関心対象の標的配列の存在を検出するために使用される。オリゴヌクレオチドはまた、プローブによって付与されるシグナルの強度に基づき標準対照と比較して標的核酸分子の量を示すために使用することができる。

配列特異的プローブハイブリダイゼーションを使用して、他の種の核酸を含む混合物または混合集団中の特定の核酸を検出することができる。十分にストリンジェントなハイブリダイゼーション条件下で、プローブは、実質的に相補的な配列だけと特異的にハイブリダイズする。ハイブリダイゼーション条件のストリンジェンシーを緩和して、様々な量の配列ミスマッチを許容させることができる。いくつかのハイブリダイゼーション形式が当技術分野において公知であり、それらには、液相、固相、または混合相ハイブリダイゼーションアッセイが含まれるが、それに限定されるわけではない。以下の論文は、様々なハイブリダイゼーションアッセイ形式の概要を提供するものである：Singer et al., Biotechniques 4:230, 1986; Haase et al., Methods in Virology, pp. 189-226, 1984; Wilkinson, In situ Hybridization, Wilkinson ed., IRL Press, Oxford University Press, Oxford；およびHames and Higgins eds., Nucleic Acid Hybridization: A Practical Approach, IRL Press, 1987。

ハイブリダイゼーション複合体は、当技術分野において公知の技法によって検出することができる。標的核酸（例えば、mRNAまたはDNA）と特異的にハイブリダイズすることができる核酸プローブは、任意の適切な方法によって標識することができ、標識されたプローブを使用して、ハイブリダイズされた核酸の存在を検出することができる。通常使用される一検出方法は、³H、¹²⁵I、³⁵S、¹⁴C、³²P、³³Pなどで標識されたプローブを使用するオートラジオグラフィーである。放射性同位元素の選択は、選択された同位元素の合成の容易さ、安定性、および半減期による研究の好みに依存する。他の標識には、フルオロフォア、化学発光剤、および酵素で標識された抗リガンドまたは抗体に結合する化合物（例えば、ビオチンおよびジゴキシゲニン）が含まれる。いくつかの態様では、プローブは、フルオロフォア、化学発光剤または酵素などの標識と直接コンジュゲートすることができる。標識の選択は、必要な感度、プローブとのコンジュゲーションの容易さ、安定性の必要要件、および利用可能な計装に依存する。

諸態様では、断片分析（本明細書において「FA」と称される）法が、分子プロファイリングのために使用される。断片分析（FA）は、制限断片長多型（RFLP）および／または（増幅断片長多型）などの技法を含む。1つまたは複数の遺伝子に対応する標的DNA中のヌクレオチドバリアントが、結果として制限酵素認識部位の除去または創出を生じる場合、特定の制限酵素を用いた標的DNAの消化は、変更された制限断片長パターンを生成する。したがって、検出されたRFLPまたはAFLPは、特定のヌクレオチドバリアントの存在を示す。

末端制限断片長多型（TRFLP）は、蛍光タグで標識されたプライマー対を使用するDNAのPCR増幅によって機能する。PCR産物はRFLP酵素を使用して消化され、結果として生じるパターンはDNAシークエンサを使用して可視化される。結果は、TRFLPプロファイル中のバンドまたはピークを計数し、比較することによって、またはデータベース中の1つまたは複数のTRFLP実行からのバンドを比較することによって、分析される。

RFLPと直接関連がある配列変化はまた、PCRによってより迅速に分析することができる。変更された制限部位にわたって増幅を指向させることができ、産物を制限酵素で消化することができる。この方法は、切断増幅多型配列（Cleaved Amplified Polymorphic Sequence）（CAPS）と呼ばれている。あるいは、増幅されたセグメントは、アレル特異的オリゴヌクレオチド（ASO）プローブ、時にドットブロットを使用して調べられるプロセスによって分析することができる。

AFLPのバリエーションは、遺伝子発現レベルの差異を定量するために使用することができるcDNA-AFLPである。

別の有用な手法は、一本鎖高次構造多型アッセイ（SSCA）であり、SSCAは、関心対象のヌクレオチドバリアントにまたがる一本鎖標的DNAの移動度が変わることに基づく。標的配列中の一塩基変化の結果として、異なる分子内塩基対形成パターン、したがって一本鎖DNAの異なる二次構造を生じることができ、それを非変性ゲルで検出することができる。Orita et al., Proc. Natl. Acad. Sci. USA, 86:2776-2770 (1989)を参照されたい。クランプ変性ゲル電気泳動（CDGE）および変性勾配ゲル電気泳動（DGGE）などの変性ゲルベースの技法は、変性ゲル中の野生型配列と比較した変異型配列の泳動速度の差異を検出する。Miller et al., Biotechniques, 5:1016-24 (1999); Sheffield et al., Am. J. Hum, Genet., 49:699-706 (1991); Wartell et al., Nucleic Acids Res., 18:2699-2705 (1990);およびSheffield et al., Proc. Natl. Acad. Sci. USA, 86:232-236 (1989)を参照されたい。加えて、二本鎖高次構造分析（DSCA）もまた、本方法で有用であることができる。Arguello et al., Nat. Genet., 18:192-194 (1998)を参照されたい。

個体の1つまたは複数の遺伝子中の特定の座位でのヌクレオチドバリアントの存在または非存在はまた、増幅抵抗性変異システム（amplification refractory mutation system）（ARMS）技法を使用して検出することができる。例えば、欧州特許第0,332,435号; Newton et al., Nucleic Acids Res., 17:2503-2515 (1989); Fox et al., Br. J. Cancer, 77:1267-1274 (1998); Robertson et al., Eur. Respir. J., 12:477-482 (1998)を参照されたい。ARMS法では、試験されている座位のヌクレオチドに対応する3'末端ヌクレオチドが予め決定されているヌクレオチドであることを除いて、座位のすぐ5'上流のヌクレオチド配列にマッチするプライマーが合成される。例えば、3'末端ヌクレオチドは、変異した座位のヌクレオチドと同じであることができる。プライマーは、その3'末端ヌクレオチドが試験されている座位のヌクレオチドとマッチする場合にのみ、ストリンジェントな条件下で標的DNAにハイブリダイズするかぎり、任意の適切な長さであることができる。好ましくは、プライマーは、少なくとも12個のヌクレオチド、より好ましくは約18～50個のヌクレオチドを有する。試験された個体が座位に変異を有し、その中のヌクレオチドがプライマーの3'末端ヌクレオチドとマッチする場合、プライマーは、標的DNA鋳型とハイブリダイズするとさらに伸長することができ、プライマーは、別の適切なPCRプライマーと共にPCR増幅反応を開始することができる。対照的に、座位のヌクレオチドが野生型のものである場合、プライマー伸長を達成することができない。過去数年間に開発された様々な形態のARMS技法を使用することができる。例えば、Gibson et al., Clin. Chem. 43:1336-1341 (1997)を参照されたい。

ARMS技法に類似しているものは、一塩基の組み込みに基づくミニシーケンシングまたは一塩基プライマー伸長法である。試験されている座位のすぐ5'側のヌクレオチド配列にマッチするオリゴヌクレオチドプライマーが、標識ジデオキシリボヌクレオチドの存在下で標的DNA、mRNAまたはmiRNAとハイブリダイズされる。ジデオキシリボヌクレオチドが、検出されているバリアント座位のヌクレオチドとマッチする場合にのみ、標識ヌクレオチドはプライマーに組み込まれるまたは連結される。したがって、バリアント座位でのヌクレオチドの同一性は、組み込まれたジデオキシリボヌクレオチドと結びついた検出標識に基づいて明らかにすることができる。Syvanen et al., Genomics, 8:684-692 (1990); Shumaker et al., Hum. Mutat., 7:346-354 (1996); Chen et al., Genome Res., 10:549-547 (2000)を参照されたい。

本方法に有用な技法の別のセットは、いわゆる「オリゴヌクレオチドライゲーションアッセイ」(OLA）であり、OLAでは、野生型座位と変異との間の区別は、2つのオリゴヌクレオチドが標的DNA分子上で相互に隣接してアニーリングして、2つのオリゴヌクレオチドがDNAリガーゼによって一緒につながれるようにする能力に基づく。Landergren et al., Science, 241:1077-1080 (1988); Chen et al, Genome Res., 8:549-556 (1998); Iannone et al., Cytometry, 39:131-140 (2000)を参照されたい。したがって、例えば、1つまたは複数の遺伝子中の特定の座位での一塩基変異を検出するために、一方は座位のちょうど5'上流の配列を有し、かつその3'末端ヌクレオチドは特定の遺伝子のバリアント座位中のヌクレオチドと同一であり、他方は、遺伝子中の座位のすぐ3'下流の配列とマッチするヌクレオチド配列を有する、2つのオリゴヌクレオチドを合成することができる。オリゴヌクレオチドは、検出の目的で標識することができる。ストリンジェントな条件下で標的遺伝子とハイブリダイズすると、2つのオリゴヌクレオチドは、適切なリガーゼの存在下でライゲーションに供される。2つのオリゴヌクレオチドのライゲーションは、標的DNAが、検出されている座位にヌクレオチドバリアントを有することを示すであろう。

小さな遺伝的変異の検出はまた、ハイブリダイゼーションベースの多様な手法によって達成することができる。アレル特異的オリゴヌクレオチドが最も有用である。Conner et al., Proc. Natl. Acad. Sci. USA, 80:278-282 (1983); Saiki et al, Proc. Natl. Acad. Sci. USA, 86:6230-6234 (1989)を参照されたい。特定の座位に特定の遺伝子バリアントを有する遺伝子アレルに特異的にハイブリダイズするが、他のアレルとはハイブリダイズしないオリゴヌクレオチドプローブ（アレル特異的）は、当技術分野において公知の方法によって設計することができる。プローブは、例えば、10～約50ヌクレオチド塩基長を有することができる。標的DNAおよびオリゴヌクレオチドプローブは、ハイブリダイゼーションの存在または非存在に基づきヌクレオチドバリアントを野生型遺伝子と識別することができるように、十分にストリンジェントな条件下で相互に接触させることができる。プローブを標識して、検出シグナルを提供することができる。あるいは、アレル特異的オリゴヌクレオチドプローブを「アレル特異的PCR」におけるPCR増幅プライマーとして使用することができ、予想される長さのPCR産物の存在または非存在が、特定のヌクレオチドバリアントの存在または非存在を示すであろう。

他の有用なハイブリダイゼーションベースの技法は、ヌクレオチドの置換、挿入または欠失によるミスマッチの存在下であっても2つの一本鎖核酸を一緒にアニーリングさせる。次いで、ミスマッチは、様々な技法を使用して検出することができる。例えば、アニーリングされた二重鎖を電気泳動に供することができる。ミスマッチのある二重鎖を、完全にマッチした二重鎖と異なるそれらの電気泳動移動度に基づき検出することができる。Cariello, Human Genetics, 42:726 (1988)を参照されたい。あるいは、RNアーゼ保護アッセイにおいて、検出されるべきヌクレオチドバリアント部位にまたがり、かつ検出マーカーを有するRNAプローブを調製することができる。Giunta et al., Diagn. Mol. Path., 5:265-270 (1996); Finkelstein et al., Genomics, 7:167-172 (1990); Kinszler et al., Science 251:1366-1370 (1991)を参照されたい。RNAプローブを標的DNAまたはmRNAとハイブリダイズさせ、ヘテロ二重鎖を形成することができ、次いでこのヘテロ二重鎖は、リボヌクレアーゼRNアーゼA消化に供される。RNアーゼAは、ミスマッチ部位でのみヘテロ二重鎖中のRNAプローブを消化する。消化は、サイズ変化に基づき変性電気泳動ゲル上で決定することができる。加えて、ミスマッチはまた、当技術分野において公知の化学切断法によって検出することができる。例えば、Roberts et al., Nucleic Acids Res., 25:3377-3378 (1997)を参照されたい。

mutSアッセイでは、変異の存在または非存在が検出されるべき座位の周囲の遺伝子配列とマッチするプローブを調製することができるが、バリアント座位で予め決定されたヌクレオチドが使用されることを除く。プローブを標的DNAとアニーリングして二重鎖を形成させたら、大腸菌（E. coli）mutSタンパク質が二重鎖と接触される。mutSタンパク質は、ヌクレオチドミスマッチを含有するヘテロ二重鎖配列だけと結合するので、mutSタンパク質の結合は、変異の存在を示す。Modrich et al., Ann. Rev. Genet., 25:229-253 (1991)を参照されたい。

本方法において変異またはヌクレオチドバリアントを検出することに有用であることができる上記基本的技法に基づき、多種多様な改良法および変法が当技術分野において開発されている。例えば、「サンライズプローブ」または「分子ビーコン」は、蛍光共鳴エネルギー移動（FRET）特性を利用し、高感度を生じる。Wolf et al., Proc. Nat. Acad. Sci. USA, 85:8790-8794 (1988)を参照されたい。典型的には、検出されるべきヌクレオチド座位にまたがるプローブは、ヘアピン形状構造に設計され、一端が消光フルオロフォアで、他端がレポーターフルオロフォアで標識される。その自然状態では、一方のフルオロフォアが他方と近接しているため、レポーターフルオロフォアからの蛍光は、消光フルオロフォアによって消光される。プローブが標的DNAとハイブリダイズすると、5'末端が3'末端から分離され、したがって、蛍光シグナルが再生される。Nazarenko et al., Nucleic Acids Res., 25:2516-2521 (1997); Rychlik et al., Nucleic Acids Res., 17:8543-8551 (1989); Sharkey et al., Bio/Technology 12:506-509 (1994); Tyagi et al., Nat. Biotechnol., 14:303-308 (1996); Tyagi et al., Nat. Biotechnol., 16:49-53 (1998)を参照されたい。ホモ-タグ支援非ダイマーシステム（HANDS）を分子ビーコン法と共に使用して、プライマー-ダイマーの蓄積を抑制することができる。Brownie et al., Nucleic Acids Res., 25:3235-3241 (1997)を参照されたい。

色素標識オリゴヌクレオチドライゲーションアッセイは、OLAアッセイとPCRとを組み合せるFRETベースの方法である。Chen et al., Genome Res. 8:549-556 (1998)を参照されたい。TaqManは、ヌクレオチドバリアントを検出するための別のFRETベースの方法である。TaqManプローブは、関心対象のバリアント座位にまたがる遺伝子のヌクレオチド配列を有するように、および異なるアレルと差次的にハイブリダイズするように設計されたオリゴヌクレオチドであることができる。プローブの2つの末端は、それぞれ消光フルオロフォアおよびレポーターフルオロフォアで標識される。TaqManプローブは、Taqポリメラーゼを使用した関心対象の座位を含有する標的遺伝子領域の増幅のためのPCR反応に組み入れられる。Taqポリメラーゼは、5'-3エクソヌクレアーゼ活性を示すが、3'-5'エクソヌクレアーゼ活性を有さないので、TaqManプローブが標的DNA鋳型にアニーリングされた場合、TaqManプローブの5'末端は、PCR反応の間にTaqポリメラーゼによって分解され、したがって、レポートフルオロフォアが消光フルオロフォアから分離され、蛍光シグナルが放出される。Holland et al., Proc. Natl. Acad. Sci. USA, 88:7276-7280 (1991); Kalinina et al., Nucleic Acids Res., 25:1999-2004 (1997); Whitcombe et al., Clin. Chem., 44:918-923 (1998)を参照されたい。

加えて、本方法における検出は、また、化学発光ベースの技法を採用することができる。例えば、野生型またはバリアント遺伝子座位の両方ではなく一方とハイブリダイズするようにオリゴヌクレオチドプローブを設計することができる。プローブは、高化学発光性アクリジニウムエステルで標識される。アクリジニウムエステルの加水分解は化学発光を破壊する。プローブの標的DNAとのハイブリダイゼーションは、アクリジニウムエステルの加水分解を防止する。したがって、標的DNAにおける特定の変異の存在または非存在が、化学発光の変化を測定することによって決定される。Nelson et al., Nucleic Acids Res., 24:4998-5003 (1996)を参照されたい。

本方法に従う遺伝子における遺伝的変異の検出はまた、「塩基切除配列スキャニング」（BESS）技法に基づくことができる。BESS法は、PCRベースの変異スキャニング法である。ジデオキシシーケンシングのTおよびGラダーに類似するBESS T-ScanおよびBESS G-Trackerが生成される。変異は、正常DNAの配列を変異DNAの配列と比較することによって検出される。例えば、Hawkins et al., Electrophoresis, 20:1171-1176 (1999)を参照されたい。

質量分析は、本方法に従う分子プロファイリングのために使用することができる。Graber et al., Curr. Opin. Biotechnol., 9:14-18 (1998)を参照されたい。例えば、プライマーオリゴ塩基伸長（PROBE（商標））法では、標的核酸が固相支持体に固定化される。プライマーは、分析されるべき座位のすぐ5'上流で標的とアニーリングされる。プライマー伸長は、デオキシリボヌクレオチドとジデオキシリボヌクレオチドとの選択された混合物の存在下で実施される。次いで、結果として生じた新たに伸長したプライマーの混合物は、MALDI-TOFによって分析される。例えば、Monforte et al., Nat. Med., 3:360-362 (1997)を参照されたい。

加えて、マイクロチップまたはマイクロアレイ技法もまた、本方法の検出法に適用可能である。本質的に、マイクロチップでは、多数の異なるオリゴヌクレオチドプローブが基板または担体、例えばシリコンチップまたはガラススライド上にアレイの状態で固定化される。分析されるべき標的核酸配列は、マイクロチップ上の固定化オリゴヌクレオチドプローブと接触させることができる。Lipshutz et al., Biotechniques, 19:442-447 (1995); Chee et al., Science, 274:610-614 (1996); Kozal et al., Nat. Med. 2:753-759 (1996); Hacia et al., Nat. Genet., 14:441-447 (1996); Saiki et al., Proc. Natl. Acad. Sci. USA, 86:6230-6234 (1989); Gingeras et al., Genome Res., 8:435-448 (1998)を参照されたい。あるいは、研究されるべき複数の標的核酸配列が基板上に固定され、プローブのアレイが固定化標的配列と接触される。Drmanac et al., Nat. Biotechnol., 16:54-58 (1998)を参照されたい。変異を検出するための1つまたは複数の上記技法を組み入れている多数のマイクロチップ技法が開発されている。コンピュータ分析ツールと組み合わせたマイクロチップ技法は、大規模迅速スクリーニングを可能にする。本方法へのマイクロチップ技法の適応は、本開示を知らされた当業者に明らかであろう。例えば、Fodorらに対する米国特許第5,925,525号; Wilgenbus et al., J. Mol. Med., 77:761-786 (1999); Graber et al., Curr. Opin. Biotechnol., 9:14-18 (1998); Hacia et al., Nat. Genet., 14:441-447 (1996); Shoemaker et al., Nat. Genet., 14:450-456 (1996); DeRisi et al., Nat. Genet., 14:457-460 (1996); Chee et al., Nat. Genet., 14:610-614 (1996); Lockhart et al., Nat. Genet., 14:675-680 (1996); Drobyshev et al., Gene, 188:45-52 (1997)を参照されたい。

適切な検出技法の上記調査から明らかなように、使用される検出技法に応じて、標的DNA分子の数を増加させるために、標的DNA、すなわち、遺伝子、cDNA、mRNA、miRNA、またはそれらの一部分を増幅させることが必要な場合または必要ない場合がある。例えば、大部分のPCRベースの技法は、標的の一部分の増幅と変異の検出とを組み合わせている。PCR増幅は、当技術分野において周知であり、両方とも参照により本明細書に組み入れられる米国特許第4,683,195号および同第4,800,159号に開示されている。非PCRベースの検出技法について、必要ならば、例えば、インビボプラスミド増殖によって、または大量の組織または細胞試料から標的DNAを精製することによって増幅を達成することができる。一般的に、Sambrook et al., Molecular Cloning: A Laboratory Manual, 2^nd ed., Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y., 1989を参照されたい。しかし、乏しい試料を用いる場合であっても、試料中の標的DNAを増幅する必要なしに一塩基置換などの小さな遺伝的変異を検出することができる多数の高感度技法が開発されている。例えば、標的DNAとハイブリダイズすることができる分岐DNAまたはデンドリマーを採用することによって、例えば、標的DNAに対してシグナルを増幅させる技法が開発されている。分岐DNAまたはデンドリマーDNAは、ハイブリダイゼーションプローブがそれに結びつくことでによって検出シグナルを増幅させる複数のハイブリダイゼーション部位を提供する。Detmer et al., J. Clin. Microbiol., 34:901-907 (1996); Collins et al., Nucleic Acids Res., 25:2979-2984 (1997); Horn et al., Nucleic Acids Res., 25:4835-4841 (1997); Horn et al., Nucleic Acids Res., 25:4842-4849 (1997); Nilsen et al., J. Theor. Biol., 187:273-284 (1997)を参照されたい。

Invader（商標）アッセイは、本方法に従う分子プロファイリングのために使用することができる一塩基変異を検出するための別の技法である。Invader（商標）アッセイは、典型的なPCR DNAシーケンシングベースの分析に必要とされる長いターンアラウンド時間を改善する新規な線形シグナル増幅技法を使用する。Cooksey et al., Antimicrobial Agents and Chemotherapy 44:1296-1301 (2000)を参照されたい。このアッセイは、関心対象の標的配列とハイブリダイズして「フラップ」を形成する、2つの重複オリゴヌクレオチドの間に形成された固有の二次構造の切断に基づく。次いで、各「フラップ」は、1時間に数千個のシグナルを生成する。したがって、本技法の結果は、容易に読み取ることができ、本方法は、DNA標的の指数増幅を必要としない。Invader（商標）システムは、DNA標的とハイブリダイズされる2つの短いDNAプローブを使用する。ハイブリダイゼーション事象によって形成される構造は、プローブの1つを切って、短いDNA「フラップ」を放出する特殊な切断酵素によって認識される。次いで、放出された各「フラップ」は、蛍光標識プローブに結合して、別の切断構造を形成する。クリベース酵素が標識プローブを切ると、プローブは検出可能な蛍光シグナルを放出する。例えば、Lyamichev et al., Nat. Biotechnol., 17:292-296 (1999)を参照されたい。

ローリングサークル法は、指数増幅を避ける別の方法である。Lizardi et al., Nature Genetics, 19:225-232 (1998)（参照により本明細書に組み入れられる）。例えば、本方法の商業的な態様であるSniper（商標）は、特定のバリアントの正確な蛍光検出のために設計された高感度高スループットSNPスコアリングシステムである。各ヌクレオチドバリアントについて、2つの直鎖状アレル特異的プローブが設計される。2つのアレル特異的プローブは、3'塩基を除いて同一であり、3'塩基は、バリアント部位を補完するように変えられている。アッセイの第1段階で、標的DNAは変性され、次いで、一本鎖、アレル特異的、オープンサークルオリゴヌクレオチドプローブのペアとハイブリダイズされる。3'塩基が標的DNAを正確に補完する場合、プローブのライゲーションが優先的に起こる。環状化オリゴヌクレオチドプローブのその後の検出は、ローリングサークル増幅によるものであり、その際、増幅したプローブ産物が蛍光によって検出される。Clark and Pickering, Life Science News 6, 2000, Amersham Pharmacia Biotech (2000)を参照されたい。

増幅を一斉に避けるいくつかの他の技法には、例えば、表面増強共鳴ラマン散乱（SERRS）、蛍光相関分光法、および単一分子電気泳動が含まれる。SERRSでは、発色団-核酸コンジュゲートがコロイド銀上に吸収され、発色団の共鳴周波数のレーザ光が照射される。Graham et al., Anal. Chem., 69:4703-4707 (1997)を参照されたい。蛍光相関分光法は、電場における変動光シグナルと捕捉単一分子との間の時空間的相関に基づく。Eigen et al., Proc. Natl. Acad. Sci. USA, 91:5740-5747 (1994)を参照されたい。単一分子電気泳動では、蛍光タグ付き核酸の電気泳動速度は、分子が2つのレーザービーム間の予め決定された距離を進行するために必要な時間を測定することによって決定される。Castro et al., Anal. Chem., 67:3181-3186 (1995)を参照されたい。

加えて、アレル特異的オリゴヌクレオチド（ASO）もまた、試料として組織または細胞を使用するインサイチューハイブリダイゼーションに使用することができる。野生型遺伝子配列または変異を内部にもつ遺伝子配列と差次的にハイブリダイズすることができるオリゴヌクレオチドプローブは、放射性同位元素、蛍光、または他の検出可能なマーカーで標識される場合がある。インサイチューハイブリダイゼーション技法は、当技術分野において周知であり、特定の個体の1つまたは複数の遺伝子におけるヌクレオチドバリアントの存在または非存在を検出するための本方法へのそれらの適応は、本開示を知らされた当業者に明らかなはずである。

したがって、個体における1つまたは複数の遺伝子ヌクレオチドバリアントまたはアミノ酸バリアントの存在または非存在は、上記検出法のいずれかを使用して決定することができる。

典型的には、1つまたは複数の遺伝子のヌクレオチドバリアントまたはアミノ酸バリアントの存在または非存在が決定された後、医師または遺伝カウンセラーまたは患者または他の研究者に結果が知らされる場合がある。具体的には、結果は、他の研究者または医師または遺伝カウンセラーまたは患者に連絡または伝達することができる伝達可能な形態でキャストすることができる。そのような形態は変動することができ、有形または無形であることができる。被験個体における本方法のヌクレオチドバリアントの存在または非存在に関する結果は、説明的記述、図表、写真、チャート、画像または任意の他の視覚形態で具体化することができる。例えば、PCR産物のゲル電気泳動の画像は、結果の説明に使用することができる。個体の遺伝子中にバリアントが存在することを示す図表もまた、試験結果を示すのに有用である。記述および視覚形態は、有形媒体、例えば、紙、コンピュータ可読媒体、例えばフロッピーディスク、コンパクトディスクなど、または無形媒体、例えば、インタネットもしくはイントラネット上の電子メールもしくはウェブサイトの形態の電子媒体に記録することができる。加えて、被験個体におけるヌクレオチドバリアントまたはアミノ酸バリアントの存在または非存在に関する結果はまた、音形態で記録し、任意の適切な媒体、例えば、アナログまたはデジタルケーブル回線、光ファイバーケーブルなどを経由して、電話、ファクシミリ、無線携帯電話、インタネット電話などを介して、伝達することができる。

したがって、試験結果に関する情報およびデータは、世界中のどこでも産生され、異なる場所に伝達されることができる。例えば、遺伝子型決定アッセイが国外で行われた場合、試験結果に関する情報およびデータは、上記のような伝達可能な形態で生成およびキャストされる場合がある。したがって、伝達可能な形態の試験結果を米国内にインポートすることができる。したがって、本方法はまた、個体からの、がんの疑いのある2つまたはそれよりも多い試料の遺伝子型に関する伝達可能な形態の情報を産生するための方法を包含する。本方法は、（1）本方法の方法に従い、試料からDNAの遺伝子型を決定する工程；および（2）決定する工程の結果を伝達可能な形態で具体化する工程を含む。伝達可能な形態は、産生方法の産物である。

インサイチューハイブリダイゼーション
インサイチューハイブリダイゼーションアッセイは周知であり、Angerer et al., Methods Enzymol. 152:649-660 (1987)に一般的に記載されている。インサイチューハイブリダイゼーションアッセイでは、例えば生検からの細胞が、固体支持体、典型的にはガラススライド上に固定される。DNAが探索されることになる場合、細胞は熱またはアルカリで変性される。次いで、細胞が適温のハイブリダイゼーション溶液と接触されて、標識された特異的プローブのアニーリングが可能になる。プローブは、好ましくは例えば、放射性同位元素もしくは蛍光レポーター、または酵素的に標識される。FISH（蛍光インサイチューハイブリダイゼーション）は、高度の配列類似性を示す配列部分にだけ結合する蛍光プローブを使用する。CISH（色素原性インサイチューハイブリダイゼーション）は、標準的な明視野顕微鏡下で可視化される従来のペルオキシダーゼまたはアルカリホスファターゼ反応を使用する。

インサイチューハイブリダイゼーションを使用して、ヌクレオチドプローブの相補鎖を関心対象の配列とハイブリダイズすることによって組織切片または細胞調製物中の特異的遺伝子配列を検出することができる。蛍光インサイチューハイブリダイゼーション（FISH）は、蛍光プローブを使用してインサイチューハイブリダイゼーションの感度を増加させる。

FISHは、細胞中の特異的ポリヌクレオチド配列を検出および位置特定するために使用される細胞遺伝学的技法である。例えば、FISHを使用して、染色体上のDNA配列を検出することができる。FISHを使用して、組織試料内の特異的RNA、例えば、mRNAを検出および位置特定することもできる。FISHは、蛍光プローブを使用し、蛍光プローブは、それらが高度の配列類似性を示す特異的ヌクレオチド配列に結合する。蛍光顕微鏡法を使用して、蛍光プローブが結合するかどうか、およびどこに結合するかを見出すことができる。特異的ヌクレオチド配列、例えば、転座、融合、切断、重複および他の染色体異常を検出することに加えて、FISHは、細胞および組織内の特異的遺伝子コピー数および／または遺伝子発現の時空間的パターンの規定を助けることができる。

様々なタイプのFISHプローブを使用して、染色体転座を検出することができる。二色単一融合プローブは、特異的染色体転座を有する細胞を検出するのに有用であることができる。DNAプローブハイブリダイゼーション標的は、2つの遺伝子切断点の各々の片側に位置する。「エキストラシグナル」プローブは、正常核におけるプローブシグナルのランダム共局在による異常FISHパターンを示している正常細胞の頻度を低減することができる。一方の大きなプローブが1つの切断点にまたがるのに対し、他方のプローブは他方の遺伝子の切断点に隣接する。二色ブレークアパートプローブは、公知の遺伝子切断点に関連した複数の転座パートナーがあり得る場合に有用である。この標識スキームは、1つの遺伝子中の切断点に対して互いに反対側にある標的とハイブリダイズする色の異なる2つのプローブを特徴とする。二色二重融合プローブは、異常なシグナルパターンを示す正常核の数を低減することができる。プローブは、単純な平衡転座を保有する低レベルの核を検出することに利点を与える。大きなプローブは、異なる染色体上の2つの切断点にまたがる。そのようなプローブは、Abbott Laboratories, Abbott Park, ILからVysisプローブとして入手可能である。

CISH、または発色性インサイチューハイブリダイゼーションは、標識された相補的DNAまたはRNA鎖が組織標本中の特異的DNAまたはRNA配列を位置特定するために使用されるプロセスである。CISH方法論を使用して、遺伝子増幅、遺伝子欠失、染色体転座、および染色体数を評価することができる。CISHは、標準的な明視野顕微鏡下で可視化される、従来の酵素検出方法論、例えば、ホースラディッシュペルオキシダーゼまたはアルカリホスファターゼ反応を使用することができる。通常の態様では、関心対象の配列を認識するプローブが試料と接触される。例えばプローブによって保有される標識を介して、プローブを認識する抗体または他の結合剤を使用して、プローブの部位に酵素検出システムを標的指向することができる。いくつかのシステムでは、抗体は、FISHプローブの標識を認識し、それにより、FISHおよびCISH検出の両方を使用して試料を分析可能にすることができる。CISHを使用して、複数の設定、例えば、ホルマリン固定パラフィン包埋（FFPE）組織、血液もしくは骨髄スメア、分裂中期染色体スプレッド、および／または固定された細胞において核酸を評価することができる。ある態様では、CISHは、Life Technologies（Carlsbad, CA）から入手可能なSPoT-Light（登録商標）HER2 CISHキットまたはLife Technologiesから入手可能な類似のCISH製品の方法論に従って行われる。SPoT-Light（登録商標）HER2 CISHキット自体は、インビトロ診断のためにFDAから承認されており、HER2の分子プロファイリングのために使用することができる。CISHは、FISHと類似の用途に使用することができる。したがって、当業者は、本明細書におけるFISHを使用する分子プロファイリングへの参照が、特に規定がない限りCISHを使用して行うことができることを認識しているであろう。

銀強化インサイチューハイブリダイゼーション（SISH）は、CISHと類似しているが、SISHを用いると、CISHの色素原沈殿の代わりに銀沈殿によりシグナルが黒の着色として出現する。

インサイチューハイブリダイゼーション技法の改変を、本方法に従う分子プロファイリングのために使用することができる。そのような改変は、複数の標的の同時検出、例えば、二重ISH、二色CISH、明視野ダブルインサイチューハイブリダイゼーション（BDISH）を含む。例えば、Ventana Medical Systems, Inc.（Tucson, AZ）からのFDA承認されたINFORM HER2 Dual ISH DNAプローブカクテルキット;DuoCISH（商標）、Dako Denmark A/S (Denmark)によって開発された二色CISHキットを参照されたい。

比較ゲノムハイブリダイゼーション(CGH)は、染色体および染色体以下（subchromosomal）のレベルでコピー数変化について特徴的なパターンを示す遺伝子変化について腫瘍試料をスクリーニングする分子細胞遺伝学的方法を含む。パターンの変更は、DNAの獲得および喪失として分類することができる。CGHは、インサイチューハイブリダイゼーションの速度論を採用して、試料からの異なるDNAもしくはRNA配列のコピー数、または1つの試料中の異なるDNAもしくはRNA配列のコピー数を、別の試料中の実質的に同一の配列のコピー数と比較する。CGHの多くの有用な用途で、DNAまたはRNAは、対象細胞または細胞集団から単離される。比較は、定性的または定量的であることができる。絶対コピー数が公知であるか、または1つもしくは数個の配列について決定される場合、細胞または細胞集団のゲノム全体にわたるDNA配列の絶対コピー数の決定を可能にする手順が記載されている。異なる配列は、基準ゲノム、通常は分裂中期染色体、ある特定の場合には分裂間期核とハイブリダイズされたときに、それらの結合部位の位置が異なることによって相互に識別される。コピー数情報は、基準ゲノム上の異なる位置間のハイブリダイゼーションシグナルの強度の比較に由来する。CGHの方法、技法および適用は、例えば米国特許第6,335,167号、および米国特許出願第60/804,818号に記載されるように公知であり、その関連する部分は、参照により本明細書に組み入れられる。

ある態様では、CGHは、罹患組織と健康な組織との間で核酸を比較するために使用される。本方法は、罹患組織（例えば、腫瘍）および基準組織（例えば、健康な組織）からDNAを単離する工程、および異なる「色」または蛍光で各々を標識する工程を含む。2つの試料は混合され、正常な分裂中期染色体とハイブリダイズされる。アレイまたはマトリックスCGHの場合、ハイブリダイゼーションの混合は、数千個のDNAプローブを用いてスライド上で行われる。基本的に染色体に沿って色彩比を決定して、基準と比較して罹患試料で獲得または喪失され得るDNA領域を決定する、多様な検出システムを使用することができる。

分子プロファイリング法
図1Gは、患者の生体標本の分子プロファイリングを使用する、特定の病状について個別化された医学的介入を決定するためのシステム10の説明的な態様のブロック図を示す。システム10は、ユーザインターフェース12と、データ処理のためのプロセッサ16を含むホストサーバ14と、プロセッサに結合されたメモリ18と、メモリ18に記憶され、プロセッサ16によるデータ処理を指示するためのプロセッサ16によってアクセス可能なアプリケーションプログラム20と、複数の内部データベース22および外部データベース24と、有線または無線通信ネットワーク26（例えばインタネットなど）とのインターフェースとを含む。システム10はまた、ユーザインターフェース12から受信されるデータからデジタルデータを入力するための、プロセッサ16と結合された入力ディジタイザ28を含む場合がある。

ユーザインターフェース12は、システム10にデータを入力するため、およびプロセッサ16によって処理されたデータから得られる情報をディスプレイするための、入力デバイス30およびディスプレイ32を含む。ユーザインターフェース12はまた、標的についての試験結果および試験結果に基づき提案される薬物療法を含み得る患者レポートなどの、プロセッサ16によって処理されたデータから得られた情報を印刷するためのプリンタ34を含む場合がある。

内部データベース22は、患者生体試料／標本情報およびトラッキング、臨床データ、患者データ、患者トラッキング、ファイル管理、研究プロトコル、分子プロファイリングからの患者の試験結果、ならびに請求書作成情報およびトラッキングを含む場合があるが、それに限定されるわけではない。外部データベース24は、薬物ライブラリ、遺伝子ライブラリ、疾患ライブラリ、ならびにUniGene、OMIM、GO、TIGR、GenBank、KEGGおよびBiocartaなどの公的および私用データベースを含む場合があるが、それに限定されるわけではない。

様々な方法が、システム10に従って使用される場合がある。図2は、疾患非特異的である患者の生体標本の分子プロファイリングを使用する特定の病状についての個別化された医学的介入を決定するための方法の説明的な態様のフローチャートを示す。疾患系統の診断に依存しない（すなわち、単一の疾患に限定されない）分子プロファイリングを使用する特定の病状についての医学的介入を決定するために、罹患した患者の生体試料に少なくとも1つの分子検査が行われる。生体試料は、腫瘍の生検を採取すること、最近の腫瘍が入手不可能な場合は最小限の侵襲的手術を行うこと、患者の血液の試料、または細胞抽出物、核抽出物、細胞溶解物もしくは生物学的産物もしくは生物学的起源の物質、例えば排泄物、血液、血清、血漿、尿、痰、涙液、大便、唾液、膜抽出物などを含むが、それに限定されるわけではない任意の他の生物流体の試料を得ることによって罹患した患者から得られる。

標的は、分子検査から得られる場合がある任意の分子的知見として定義される。例えば、標的は、1つまたは複数の遺伝子またはタンパク質を含む場合がある。例えば、遺伝子のコピー数多型の存在を決定することができる。図2に示すように、そのような標的を見出すための検査は、NGS、IHC、蛍光インサイチューハイブリダイゼーション（FISH）、インサイチューハイブリダイゼーション（ISH）、および当業者に公知の他の分子検査を含むことができるが、それに限定されるわけではない。

さらに、本明細書に開示される方法はまた、1つよりも多い標的をプロファイリングする工程を含む。例えば、複数の遺伝子のコピー数、またはCNVの存在を特定することができる。さらに、試料における複数の標的の特定は、1つの方法または様々な手段によることができる。例えば、第1の遺伝子のCNVの存在は、1つの方法によって決定することができ、第2の遺伝子のCNVの存在は、異なる方法によって決定することができる。あるいは、同じ方法を使用して、第1の遺伝子および第2の遺伝子の両方におけるCNVの存在を検出することができる。

したがって、以下のうち1つまたは複数が行われる場合がある：CNV分析、IHC分析、微量分析、および当業者に公知の他の分子検査。

次いで、がんの個別の特徴を決定するために検査結果がコンパイルされる。がんの特徴を決定した後、治療レジメンが特定される。

最終的に、様々な標的についての患者の検査結果およびそれらの結果に基づく任意の提案される治療法を含む患者のプロファイルレポートが、提供される場合がある。

本明細書に記載されるようなシステムを使用して、分子プロファイルを特定してがんを調べる工程を自動化することができる。局面では、分子プロファイルを含むレポートを作成するために本方法を使用することができる。本方法は、対象からの試料に分子プロファイリングを行って、複数のがんバイオマーカーの各々のコピー数またはCNVの存在を調べる工程、および調べられた特徴を含むレポートをリストにコンパイルし、それにより、試料についての分子プロファイルを特定するレポートを作成する工程を含むことができる。レポートは、調べられたコピー数に基づき複数の治療選択肢の予想されるベネフィットを説明し、それにより、対象のための候補治療選択肢を特定するリストをさらに含むことができる。

治療の選択のための分子プロファイリング
本明細書に記載されるような方法は、それを必要とする対象のための候補治療の選択を提供する。分子プロファイリングを使用して、本明細書に開示される1つまたは複数のバイオマーカーが治療についての標的である状態を患う個体のための1つまたは複数の候補治療剤を特定することができる。例えば、本方法は、がんのための1つまたは複数の化学療法治療を特定することができる。ある局面では、本方法は、少なくとも1つのバイオマーカーに少なくとも1つの分子プロファイリング技法を行う工程を含む方法を提供する。本明細書に記載されるまたは当技術分野において公知の1つまたは複数の分子プロファイリング技法を使用して、任意の関連するバイオマーカーを調べることができる。マーカーは、有用であるべき治療といくらかの直接的または間接的関連だけを有する必要がある。任意の関連する分子プロファイリング技法、例えば本明細書に開示されるものを行うことができる。これらは、タンパク質および核酸分析技法を含むことができるが、それに限定されるわけではない。タンパク質分析技法には、非限定的な例として、イムノアッセイ、免疫組織化学、および質量分析が含まれる。核酸分析技法には、非限定的な例として、増幅、ポリメラーゼ連鎖増幅、ハイブリダイゼーション、マイクロアレイ、インサイチューハイブリダイゼーション、シーケンシング、色素ターミネーターシーケンシング、次世代シーケンシング、パイロシーケンシング、および制限断片分析が含まれる。

分子プロファイリングは、行われる各アッセイ技法について少なくとも1つの遺伝子（または遺伝子産物）のプロファイリングを含む場合がある。異なる数の遺伝子は、異なる技法でアッセイすることができる。標的療法と直接的または間接的に関連する、本明細書に開示される任意のマーカーを調べることができる。例えば、小分子などの治療剤または抗体などの結合剤を用いてモジュレートすることができる標的を含む任意の「新薬の開発につながるような（druggable）標的」は、本明細書に記載されるような分子プロファイリング法に含めるための候補である。標的はまた、関連した薬物によって影響される生物学的経路の成分のように、間接的に薬物に関連することができる。分子プロファイリングは、遺伝子、例えば、DNA配列、および／または遺伝子産物、例えば、mRNAもしくはタンパク質のいずれかに基づくことができる。そのような核酸および／またはポリペプチドは、存在もしくは非存在、レベルもしくは量、活性、変異、配列、ハプロタイプ、再編成、コピー数、または他の測定可能な特徴などに関して適宜プロファイリングすることができる。いくつかの態様では、単一の遺伝子および／または1つもしくは複数の対応する遺伝子産物は、1つよりも多い分子プロファイリング技法によってアッセイされる。遺伝子または遺伝子産物（本明細書において「マーカー」または「バイオマーカー」とも称される)、例えば、mRNAまたはタンパク質は、ISH、遺伝子発現、IHC、シーケンシングまたはイムノアッセイを含むが、それに限定されるわけではない適用可能な技法（例えば、DNA、RNA、タンパク質を調べるためのもの）を使用して調べられる。したがって、本明細書に開示される任意のマーカーは、単一分子プロファイリング技法によって、または本明細書に開示される複数の方法によってアッセイすることができる（例えば、単一のマーカーがIHC、ISH、シーケンシング、マイクロアレイなどのうち1つまたは複数によってプロファイリングされる)。いくつかの態様では、少なくとも約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95個または少なくとも約100個の遺伝子または遺伝子産物が、少なくとも1つの技法、複数の技法によって、またはISH、IHC、遺伝子発現、遺伝子コピー、およびシーケンシングの任意の所望の組み合わせを使用して、プロファイリングされる。いくつかの態様では、少なくとも約100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、11,000、12,000、13,000、14,000、15,000、16,000、17,000、18,000、19,000、20,000、21,000、22,000、23,000、24,000、25,000、26,000、27,000、28,000、29,000、30,000、31,000、32,000、33,000、34,000、35,000、36,000、37,000、38,000、39,000、40,000、41,000、42,000、43,000、44,000、45,000、46,000、47,000、48,000、49,000、または少なくとも50,000個の遺伝子または遺伝子産物が、様々な技法を使用してプロファイリングされる。アッセイされたマーカーの数は、使用される技法に依存することができる。例えば、マイクロアレイおよび超並列シーケンシングは、高スループット分析の役に立つ。分子プロファイリングは腫瘍自体の分子的特徴を問い合わせるので、この手法は、さもなければ腫瘍系統に基づき考慮されない場合がある治療に関する情報を提供する。

いくつかの態様では、それを必要とする対象からの試料は、以下:ABCC1、ABCG2、ACE2、ADA、ADH1C、ADH4、AGT、AR、AREG、ASNS、BCL2、BCRP、BDCA1、ベータIIIチューブリン、BIRC5、B-RAF、BRCA1、BRCA2、CA2、カベオリン、CD20、CD25、CD33、CD52、CDA、CDKN2A、CDKN1A、CDKN1B、CDK2、CDW52、CES2、CK14、CK17、CK5/6、c-KIT、c-Met、c-Myc、COX-2、サイクリンD1、DCK、DHFR、DNMT1、DNMT3A、DNMT3B、E-カドヘリン、ECGF1、EGFR、EML4-ALK融合体、EPHA2、エピレギュリン、ER、ERBR2、ERCC1、ERCC3、EREG、ESR1、FLT1、葉酸受容体、FOLR1、FOLR2、FSHB、FSHPRH1、FSHR、FYN、GART、GNA11、GNAQ、GNRH1、GNRHR1、GSTP1、HCK、HDAC1、hENT-1、Her2/Neu、HGF、HIF1A、HIG1、HSP90、HSP90AA1、HSPCA、IGF-1R、IGFRBP、IGFRBP3、IGFRBP4、IGFRBP5、IL13RA1、IL2RA、KDR、Ki67、KIT、K-RAS、LCK、LTB、リンホトキシンベータ受容体、LYN、MET、MGMT、MLH1、MMR、MRP1、MS4A1、MSH2、MSH5、Myc、NFKB1、NFKB2、NFKBIA、NRAS、ODC1、OGFR、p16、p21、p27、p53、p95、PARP-1、PDGFC、PDGFR、PDGFRA、PDGFRB、PGP、PGR、PI3K、POLA、POLA1、PPARG、PPARGC1、PR、PTEN、PTGS2、PTPN12、RAF1、RARA、ROS1、RRM1、RRM2、RRM2B、RXRB、RXRG、SIK2、SPARC、SRC、SSTR1、SSTR2、SSTR3、SSTR4、SSTR5、サバイビン、TK1、TLE3、TNF、TOP1、TOP2A、TOP2B、TS、TUBB3、TXN、TXNRD1、TYMS、VDR、VEGF、VEGFA、VEGFC、VHL、YES1、ZAP70のうち1つまたは複数についてのIHC分析、遺伝子発現分析、ISH分析、および／またはシーケンシング分析（例えばPCR、RT-PCR、パイロシーケンシング、NGSによる)を含むが、それに限定されるわけではない方法を使用してプロファイリングされる。

当業者によって理解されるように、遺伝子およびタンパク質は、科学文献でいくつかの代替名を確立している。本明細書において使用される遺伝子の別名のリストおよび説明は、GeneCards（登録商標）（www.genecards.org）、HUGO Gene Nomenclature（www.genenames.org）、Entrez Gene（www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene）、UniProtKB/Swiss-Prot（www.uniprot.org）、UniProtKB/TrEMBL（www.uniprot.org）、OMIM（www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM）、GeneLoc（genecards.weizmann.ac.il/geneloc/）、およびEnsembl（www.ensembl.org）を含む多様なオンラインデータベースを使用して見出すことができる。例えば、本明細書において使用される遺伝子記号および遺伝子名は、HUGOによって承認されたものに対応することができ、タンパク質名は、UniProtKB/Swiss-Protによって推奨されるものであることができる。本明細書において、タンパク質名が前駆体を示す場合、成熟タンパク質も意味される。本出願にわたり、遺伝子記号およびタンパク質記号は互換的に使用される場合があり、意味は文脈から得ることができ、例えば、ISHまたはNGSは、核酸を分析するために使用することができ、一方でIHCはタンパク質を分析するために使用される。

本明細書に記載されるような分子プロファイルを提供するために調べられるべき遺伝子および遺伝子産物の選択は、新しい治療および新しい薬物標的が特定されたときに経時的に最新のものにすることができる。例えば、バイオマーカーの発現または変異が治療選択肢と相関された後、それを分子プロファイリングによって調べることができる。当業者は、そのような分子プロファイリングが本明細書に開示される技法に限定されるのでなく、核酸またはタンパク質のレベル、配列情報、またはその両方を調べるための従来の任意の方法論も含むことを認識している。本明細書に記載されるような方法はまた、現行の方法への任意の改良または将来的に開発される新しい分子プロファイリング技法を活用することができる。いくつかの態様では、遺伝子または遺伝子産物は、単一分子プロファイリング技法によって調べられる。他の態様では、遺伝子および／または遺伝子産物は、複数の分子プロファイリング技法によって調べられる。非限定的な例では、遺伝子配列は、NGS、ISHおよびパイロシーケンシング分析のうち1つまたは複数によってアッセイすることができ、mRNA遺伝子産物は、NGS、RT-PCRおよびマイクロアレイのうち1つまたは複数によってアッセイすることができ、タンパク質遺伝子産物は、IHCおよびイムノアッセイのうち1つまたは複数によってアッセイすることができる。当業者は、疾患治療から恩恵を受けるであろう、バイオマーカーと分子プロファイリング技法との任意の組み合わせが本方法によって考えられることを認識しているであろう。

がんに役割を演じることが公知であり、本明細書に記載されるような任意の分子プロファイリング技法によってアッセイすることができる遺伝子および遺伝子産物には、2007年11月29日に公開された国際特許公報WO/2007/137187（国際出願番号PCT/US2007/069286）；2010年4月22日に公開されたWO/2010/045318（国際出願番号PCT/US2009/060630）；2010年8月19日に公開されたWO/2010/093465（国際出願番号PCT/US2010/000407）；2012年12月13日に公開されたWO/2012/170715（国際出願番号PCT/US2012/041393）；2014年6月12日に公開されたWO/2014/089241（国際出願番号PCT/US2013/073184）；2011年5月12日に公開されたWO/2011/056688（国際出願番号PCT/US2010/054366）；2012年7月5日に公開されたWO/2012/092336（国際出願番号PCT/US2011/067527）；2015年8月6日に公開されたWO/2015/116868（国際出願番号PCT/US2015/013618）；2017年3月30日に公開されたWO/2017/053915（国際出願番号PCT/US2016/053614）；2016年9月9日に公開されたWO/2016/141169（国際出願番号PCT/US2016/020657）；および2018年9月27日に公開されたWO2018175501（国際出願番号PCT/US2018/023438）のいずれかに挙げられるものが含まれるが、それに限定されるわけではなく、これらの公報の各々は、その全体で参照により本明細書に組み入れられる。

変異プロファイリングは、サンガーシーケンシング、アレイシーケンシング、パイロシーケンシング、NextGenシーケンシングなどを含むシーケンシングによって決定することができる。配列分析は、遺伝子が活性化変異を内部にもつことを明らかにする場合があり、その結果、活性を阻害する薬物が治療のために指示される。あるいは、配列分析は、遺伝子が活性を阻害または除去する変異を内部にもつことを明らかにする場合があり、それにより、代償療法のための治療が指示される。いくつかの態様では、配列分析は、c-KITのエクソン9および11の配列を含む。シーケンシングはまた、EGFR-キナーゼドメインのエクソン18、19、20、および21に行われる場合がある。EGFRまたはそのファミリーメンバーの変異、増幅または誤調節は、すべての上皮がんの約30％に関係している。シーケンシングはまた、PIK3CA遺伝子によってコードされるPI3Kに行うことができる。この遺伝子は、多くのがんで変異していることが見出されている。シーケンシング分析はまた、1つまたは複数のABCC1、ABCG2、ADA、AR、ASNS、BCL2、BIRC5、BRCA1、BRCA2、CD33、CD52、CDA、CES2、DCK、DHFR、DNMT1、DNMT3A、DNMT3B、ECGF1、EGFR、EPHA2、ERBB2、ERCC1、ERCC3、ESR1、FLT1、FOLR2、FYN、GART、GNRH1、GSTP1、HCK、HDAC1、HIF1A、HSP90AA1、IGFBP3、IGFBP4、IGFBP5、IL2RA、KDR、KIT、LCK、LYN、MET、MGMT、MLH1、MS4A1、MSH2、NFKB1、NFKB2、NFKBIA、NRAS、OGFR、PARP1、PDGFC、PDGFRA、PDGFRB、PGP、PGR、POLA1、PTEN、PTGS2、PTPN12、RAF1、RARA、RRM1、RRM2、RRM2B、RXRB、RXRG、SIK2、SPARC、SRC、SSTR1、SSTR2、SSTR3、SSTR4、SSTR5、TK1、TNF、TOP1、TOP2A、TOP2B、TXNRD1、TYMS、VDR、VEGFA、VHL、YES1、およびZAP70における変異を調べることを含むことができる。以下の遺伝子のうち1つまたは複数も、配列分析によって調べることができる:ALK、EML4、hENT-1、IGF-1R、HSP90AA1、MMR、p16、p21、p27、PARP-1、PI3KおよびTLE3。変異または配列分析のために使用される遺伝子および／または遺伝子産物は、WO2018175501の表4～12のうちいずれか、例えば、WO2018175501の表5～10のうちいずれか、またはWO2018175501の表7～10のうちいずれかに挙げられた遺伝子および／または遺伝子産物のうち少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500個またはすべてであることができる。

諸態様では、本明細書に記載されるような方法は、2007年11月29日に公開された国際特許公報WO/2007/137187（国際出願番号PCT/US2007/069286）；2010年4月22日に公開されたWO/2010/045318（国際出願番号PCT/US2009/060630）；2010年8月19日に公開されたWO/2010/093465（国際出願番号PCT/US2010/000407）；2012年12月13日に公開されたWO/2012/170715（国際出願番号PCT/US2012/041393）；2014年6月12日に公開されたWO/2014/089241（国際出願番号PCT/US2013/073184）；2011年5月12日に公開されたWO/2011/056688（国際出願番号PCT/US2010/054366）；2012年7月5日に公開されたWO/2012/092336（国際出願番号PCT/US2011/067527）；2015年8月6日に公開されたWO/2015/116868（国際出願番号PCT/US2015/013618）；2017年3月30日に公開されたWO/2017/053915（国際出願番号PCT/US2016/053614）；2016年9月9日に公開されたWO/2016/141169（国際出願番号PCT/US2016/020657）；および2018年9月27日に公開されたWO/2018/175501（国際出願番号PCT/US2018/023438）のいずれかに挙げられるものなどの遺伝子融合を検出するために使用され、これら公報の各々は、その全体で参照により本明細書に組み入れられる。融合遺伝子は、以前は別々であった2つの遺伝子の近位によって生み出されるハイブリッド遺伝子である。これは、染色体の転座もしくは逆位、欠失によって、またはトランススプライシングを介して起こることができる。結果として生じる融合遺伝子は、遺伝子の異常な時間および空間的発現を引き起こすことができ、細胞の腫瘍性形質転換および腫瘍の創出の一因となる細胞成長因子、血管形成因子、腫瘍プロモーターまたは他の因子の異常発現をもたらす。例えば、そのような融合遺伝子は：1）細胞成長因子のコード領域、腫瘍プロモーター、もしくは発がんを促進し、高い遺伝子発現をもたらす他の遺伝子の隣の1つの遺伝子の強いプロモーター領域の近位により、または2）キメラ遺伝子、したがって異常な活性を有するキメラタンパク質を生じる、2つの異なる遺伝子のコード領域の融合により発がん性であることができる。融合遺伝子は、多くのがんの特徴である。ひとたび治療的介入が融合と関連すれば、任意のタイプのがんにおける融合の存在により、がんを治療するための候補療法としての治療的介入が特定される。

融合遺伝子の存在を使用して、治療法の選択をガイドすることができる。例えば、BCR-ABL遺伝子融合体は、慢性骨髄性白血病（CML）の約90％および急性白血病のサブセットにおける特徴的な分子異常である（Kurzrock et al., Annals of Internal Medicine 2003; 138:819-830）。BCR-ABLは、通常フィラデルフィア染色体またはフィラデルフィア転座と称される9番染色体と22番染色体との間の転座に起因する。転座は、BCR遺伝子の5'領域およびABL1の3'領域を一緒にまとめ、構成的に活性なチロシンキナーゼ活性を有するタンパク質をコードするキメラBCR-ABL1遺伝子を生成する（Mittleman et al., Nature Reviews Cancer 2007; 7:233-245）。異常チロシンキナーゼ活性は、調節解除された細胞シグナル伝達、細胞成長および細胞生存、アポトーシス抵抗性および成長因子非依存性をもたらし、これらのすべてが、白血病の病態生理の一因となる（Kurzrock et al., Annals of Internal Medicine 2003; 138:819-830。フィラデルフィア染色体を有する患者は、イマチニブおよび他の標的化療法で治療される。イマチニブは、融合タンパク質の構成的チロシンキナーゼ活性の部位に結合し、その活性を阻止する。イマチニブ治療は、BCR-ABL+ CML患者において分子応答（BCR-ABL+血液細胞の消失）をもたらし、無増悪生存期間を改善した（Kantarjian et al., Clinical Cancer Research 2007; 13:1089-1097）。

別の融合遺伝子、IGH-MYCは、バーキットリンパ腫の約80％の決定的な特徴である（Ferry et al. Oncologist 2006; 11:375-83）。この原因の事象は、8番染色体と14番染色体との間の転座であって、この転座は、c-Mycがん遺伝子を免疫グロブリン重鎖遺伝子の強いプロモーターの隣に置き、c-mycの過剰発現を引き起こす（Mittleman et al., Nature Reviews Cancer 2007; 7:233-245）。c-myc再編成は、永久増殖状態を結果として生じるので、リンパ腫形成の枢軸となる事象である。それは、細胞周期、細胞分化、アポトーシス、および細胞接着を通じて進行に広範囲の影響を有する（Ferry et al. Oncologist 2006; 11:375-83）。

いくつかの反復性融合遺伝子は、Mittlemanデータベース（cgap.nci.nih.gov/Chromosomes/Mitelman）にカタログ作成されている。遺伝子融合を使用して、新生物およびがんを特徴付け、本明細書に記載される対象方法を使用する治療法をガイドすることができる。例えば、TMPRSS2-ERG、TMPRSS2-ETVおよびSLC45A3-ELK4融合体を検出して、前立腺がんを特徴づけることができ；ETV6-NTRK3およびODZ4-NRG1を使用して、乳がんを特徴付けることができる。EML4-ALK、RLF-MYCL1、TGF-ALK、またはCD74-ROS1融合体を使用して、肺がんを特徴付けることができる。ACSL3-ETV1、C15ORF21-ETV1、FLJ35294-ETV1、HERV-ETV1、TMPRSS2-ERG、TMPRSS2-ETV1/4/5、TMPRSS2-ETV4/5、SLC5A3-ERG、SLC5A3-ETV1、SLC5A3-ETV5またはKLK2-ETV4融合体を使用して、前立腺がんを特徴付けることができる。GOPC-ROS1融合体を使用して、脳がんを特徴付けることができる。CHCHD7-PLAG1、CTNNB1-PLAG1、FHIT-HMGA2、HMGA2-NFIB、LIFR-PLAG1、またはTCEA1-PLAG1融合体を使用して、頭頸部がんを特徴付けることができる。ALPHA-TFEB、NONO-TFE3、PRCC-TFE3、SFPQ-TFE3、CLTC-TFE3、またはMALAT1-TFEB融合体を使用して、腎細胞がん（RCC）を特徴付けることができる。AKAP9-BRAF、CCDC6-RET、ERC1-RETM、GOLGA5-RET、HOOK3-RET、HRH4-RET、KTN1-RET、NCOA4-RET、PCM1-RET、PRKARA1A-RET、RFG-RET、RFG9-RET、Ria-RET、TGF-NTRK1、TPM3-NTRK1、TPM3-TPR、TPR-MET、TPR-NTRK1、TRIM24-RET、TRIM27-RETまたはTRIM33-RET融合体を使用して甲状腺がんおよび／または甲状腺乳頭がんを特徴付けることができ；PAX8-PPARy融合体を分析して、濾胞性甲状腺がんを特徴付けることができる。血液悪性腫瘍に関連する融合体には、TTL-ETV6、CDK6-MLL、CDK6-TLX3、ETV6-FLT3、ETV6-RUNX1、ETV6-TTL、MLL-AFF1、MLL-AFF3、MLL-AFF4、MLL-GAS7、TCBA1-ETV6、TCF3-PBX1またはTCF3-TFPT（これらは、急性リンパ芽球性白血病（ALL）の特徴である）；BCL11B-TLX3、IL2-TNFRFS17、NUP214-ABL1、NUP98-CCDC28A、TAL1-STIL、またはETV6-ABL2（これらは、T細胞性急性リンパ芽球性白血病（T-ALL）の特徴である）；ATIC-ALK、KIAA1618-ALK、MSN-ALK、MYH9-ALK、NPM1-ALK、TGF-ALKまたはTPM3-ALK（これらは、未分化大細胞リンパ腫（ALCL）の特徴である）；慢性骨髄性白血病（CML）の特徴であるBCR-ABL1、BCR-JAK2、ETV6-EVI1、ETV6-MN1またはETV6-TCBA1；CBFB-MYH11、CHIC2-ETV6、ETV6-ABL1、ETV6-ABL2、ETV6-ARNT、ETV6-CDX2、ETV6-HLXB9、ETV6-PER1、MEF2D-DAZAP1、AML-AFF1、MLL-ARHGAP26、MLL-ARHGEF12、MLL-CASC5、MLL-CBL、MLL-CREBBP、MLL-DAB21P、MLL-ELL、MLL-EP300、MLL-EPS15、MLL-FNBP1、MLL-FOXO3A、MLL-GMPS、MLL-GPHN、MLL-MLLT1、MLL-MLLT11、MLL-MLLT3、MLL-MLLT6、MLL-MYO1F、MLL-PICALM、MLL-SEPT2、MLL-SEPT6、MLL-SORBS2、MYST3-SORBS2、MYST-CREBBP、NPM1-MLF1、NUP98-HOXA13、PRDM16-EVI1、RABEP1-PDGFRB、RUNX1-EVI1、RUNX1-MDS1、RUNX1-RPL22、RUNX1-RUNX1T1、RUNX1-SH3D19、RUNX1-USP42、RUNX1-YTHDF2、RUNX1-ZNF687、またはTAF15-ZNF-384（これらは、急性骨髄性白血病（AML）の特徴である）；CCND1-FSTL3（これは、慢性リンパ性白血病（CLL）の特徴である）；BCL3-MYC、MYC-BTG1、BCL7A-MYC、BRWD3-ARHGAP20またはBTG1-MYC（これらは、B細胞性慢性リンパ性白血病（B-CLL）の特徴である）；CITTA-BCL6、CLTC-ALK、IL21R-BCL6、PIM1-BCL6、TFCR-BCL6、IKZF1-BCL6またはSEC31A-ALK（これらは、びまん性大細胞型B細胞性リンパ腫（DLBCL）の特徴である）；FLIP1-PDGFRA、FLT3-ETV6、KIAA1509-PDGFRA、PDE4DIP-PDGFRB、NIN-PDGFRB、TP53BP1-PDGFRB、またはTPM3-PDGFRB（これらは、過好酸球増加症／慢性好酸球増加症の特徴である）；およびIGH-MYCまたはLCP1-BCL6（これらは、バーキットリンパ腫の特徴である）が含まれるが、それに限定されるわけではない。当業者は、今のところまだ特定されていないものを含む追加的な融合体の存在がひとたび治療的介入と関連するならば、それらを使用して治療をガイドできることを理解するであろう。

融合遺伝子および遺伝子産物は、本明細書に記載される1つまたは複数の技法を使用して検出することができる。いくつかの態様では、遺伝子または対応するmRNAの配列は、例えば、サンガーシーケンシング、NGS、パイロシーケンシング、DNAマイクロアレイなどを使用して決定される。染色体異常は、とりわけISH、NGSまたはPCR技法を使用して調べることができる。例えば、EML4-ALK、KIF5B-ALKおよび／またはTFG-ALKなどのALK融合体のISH検出のためにブレークアパートプローブを使用することができる。代替として、PCRを使用して融合産物を増幅させることができ、その際、増幅またはその欠如は、それぞれ融合体の存在または非存在を示す。例えばNGSを使用して、mRNAをシーケンシングして、そのような融合体を検出することができる。例えば、WO2018175501の表9または表12を参照されたい。いくつかの態様では、融合タンパク質の融合が検出される。タンパク質分析に適した方法には、質量分析、電気泳動（例えば、2Dゲル電気泳動もしくはSDS-PAGE）またはイムノアッセイ、タンパク質アレイもしくは免疫組織化学を含む抗体関連技法が含まれるが、それに限定されるわけではない。これらの技法を組み合わせることができる。非限定的な例として、NGSによるALK融合の指標は、IHCを使用するISHもしくはALKの発現によって確認することができ、または逆もまた同様である。

治療の選択のための分子プロファイリング標的
本明細書に記載されるシステムおよび方法は、分子プロファイリングに基づき提案された治療有効性を有する1つまたは複数の治療レジメンを特定可能にする。分子プロファイリングを使用して治療レジメンを特定するための例証的なスキームは、くまなく提供される。追加的なスキームは、2007年11月29日に公開された国際特許公報WO/2007/137187（国際出願番号PCT/US2007/069286）；2010年4月22日に公開されたWO/2010/045318（国際出願番号PCT/US2009/060630）；2010年8月19日に公開されたWO/2010/093465（国際出願番号PCT/US2010/000407）；2012年12月13日に公開されたWO/2012/170715（国際出願番号PCT/US2012/041393）；2014年6月12日に公開されたWO/2014/089241（国際出願番号PCT/US2013/073184）；2011年5月12日に公開されたWO/2011/056688（国際出願番号PCT/US2010/054366）；2012年7月5日に公開されたWO/2012/092336（国際出願番号PCT/US2011/067527）；2015年8月6日に公開されたWO/2015/116868（国際出願番号PCT/US2015/013618）；2017年3月30日に公開されたWO/2017/053915（国際出願番号PCT/US2016/053614）；2016年9月9日に公開されたWO/2016/141169（国際出願番号PCT/US2016/020657）；および2018年9月27日に公開されたWO2018175501（国際出願番号PCT/US2018/023438）に記載されており、これらの公報の各々は、その全体で参照により本明細書に組み入れられる。

本明細書に記載される方法は、治療のベネフィットとの関連を示唆するための分子プロファイリングの結果の使用を含む。いくつかの態様では、分子プロファイリング試験結果に基づき示唆される化学療法治療を提供するために規則が使用される。最も単純な規則は、「バイオマーカーが陽性ならば、治療選択肢1、そうでなければ治療選択肢2」の形式で構築される。治療選択肢は、特定の薬物を用いた治療も、特定のレジメンを用いた治療（すなわち、FOLFOXもしくはFOLFIRI）も行わないことを含む。いくつかの態様では、2つまたはそれよりも多いバイオマーカーの相互作用を伴う、より複雑な規則が構築される。終わりに、治療の予測されるベネフィットとバイオマーカーとの関連を説明するレポート、および任意で、選択された治療を裏づける最も有力な証拠の要約書を作成することができる。最後に、治療にあたっている医師が、治療の最善方針について決定するであろう。

個体のための候補治療の選択は、記載された任意の1つまたは複数の方法からの分子プロファイリング結果に基づくことができる。

本明細書に開示されるように、分子プロファイリングを行って、試料中に存在する1つまたは複数の遺伝子のコピー数またはコピー数多型を決定することができる。1つまたは複数の遺伝子のCNVは、効果的と予測されるレジメンを選択するために使用される。本方法はまた、例えば、2007年11月29日に公開された国際特許公報WO/2007/137187（国際出願番号PCT/US2007/069286）：2010年4月22日に公開されたWO/2010/045318（国際出願番号PCT/US2009/060630）：2010年8月19日に公開されたWO/2010/093465（国際出願番号PCT/US2010/000407）：2012年12月13日に公開されたWO/2012/170715（国際出願番号PCT/US2012/041393）：2014年6月12日に公開されたWO/2014/089241（国際出願番号PCT/US2013/073184）：2011年5月12日に公開されたWO/2011/056688（国際出願番号PCT/US2010/054366）：2012年7月5日に公開されたWO/2012/092336（国際出願番号PCT/US2011/067527）：2015年8月6日に公開されたWO/2015/116868（国際出願番号PCT/US2015/013618）：2017年3月30日に公開されたWO/2017/053915（国際出願番号PCT/US2016/053614）：2016年9月9日に公開されたWO/2016/141169（国際出願番号PCT/US2016/020657）：および2018年9月27日に公開されたWO2018175501（国際出願番号PCT/US2018/023438）に記載されるように、他の遺伝子および／または遺伝子産物中の変異、インデル、融合などの検出を含むことができ、これらの公報の各々は、その全体で参照により本明細書に組み入れられる。

本明細書に記載される方法は、個別化治療を提供することによって結腸直腸がんを有する対象の生存期間を延長するために使用される。いくつかの態様では、対象は、がんを治療するための1つまたは複数の治療剤を用いて以前に治療されたことがある。がんは、例えば薬物耐性変異を獲得することによって、これらの薬剤のうち1つに抗療性の場合がある。いくつかの態様では、がんは転移性である。いくつかの態様では、対象は、本方法によって特定された1つまたは複数の治療剤を用いて以前に治療されたことがない。分子プロファイリングを使用して、がん細胞のステージ、解剖学的位置、または解剖学的起源にかかわらず候補治療を選択することができる。

本開示は、これまで上に記載されたような分子プロファイリングを使用して罹患組織を分析するための方法およびシステムを提供する。本方法は、分析中の腫瘍の特徴の分析に依存するので、本方法は、任意の腫瘍または任意の疾患ステージ、例えば疾患の進行ステージまたは起源未知の転移性腫瘍に対して適用することができる。本明細書に記載されるように、腫瘍またはがん試料は、候補治療処置を予測または特定するために1つまたは複数のバイオマーカーのコピー数またはCNVの存在について分析される。

本方法は、原発性または転移性結腸直腸がんの治療を選択するために使用することができる。

バイオマーカーパターンおよび／またはバイオマーカーシグネチャセットは、複数のバイオマーカーを含むことができる。なお他の態様では、バイオマーカーパターンまたはシグネチャセットは、少なくとも6、7、8、9、または10個のバイオマーカーを含むことができる。いくつかの態様では、バイオマーカーシグネチャセットまたはバイオマーカーパターンは、少なくとも15、20、30、40、50、または60個のバイオマーカーを含むことができる。いくつかの態様では、バイオマーカーシグネチャセットまたはバイオマーカーパターンは、少なくとも70、80、90、100、または200個のバイオマーカーを含むことができる。1つまたは複数のバイオマーカーの分析は、1つまたは複数の方法、例えば、本明細書に記載されるものによることができる。

本明細書に記載されるように、1つまたは複数の標的の分子プロファイリングを使用して、個体のための治療法を決定または特定することができる。例えば、1つまたは複数のバイオマーカーのコピー数またはCNVの存在を使用して、個体のための治療法を決定または特定することができる。1つまたは複数のバイオマーカー、例えば本明細書に開示されるものを使用して、バイオマーカーパターンまたはバイオマーカーシグネチャセットを形成することができ、それは、個体のための治療法を特定するために使用される。いくつかの態様では、特定された治療法は、個体が以前に治療されていないものである。例えば、基準バイオマーカーパターンが特定の治療法のために確立されており、その結果、基準バイオマーカーパターンを有する個体は、その治療法に応答するであろう。基準と異なるバイオマーカーパターンを有する個体、例えば、バイオマーカーパターンにおける遺伝子発現が基準から変化しているまたは異なる個体は、その治療法を施されないであろう。別の例では、基準と同じまたは実質的に同じバイオマーカーパターンを示している個体は、その治療法で治療されるよう助言される。いくつかの態様では、個体は、その治療法で以前に治療されたことがなく、したがって、その個体のために新しい治療法が特定されている。

例えば、IHC、ISH、シーケンシング（例えば、NGS）、および／またはPCR（例えば、qPCR）による、分子プロファイリングのために使用される遺伝子は、WO2018175501に、例えば、その中の表5～10に記載されたいずれかに挙げられる遺伝子より選択することができる。本明細書に開示される1つまたは複数のバイオマーカーを調べる工程は、がん、例えば、本明細書に開示されるような結腸直腸がんを特徴付けるために使用することができる。

対象におけるがんは、対象から生体試料を得ること、および試料から1つまたは複数のバイオマーカーを分析することによって特徴付けることができる。例えば、対象または個体についてがんを特徴付けることは、特定の疾患、状態、疾患ステージおよび状態ステージ、疾患進行、特に疾患再発、転移拡散または疾患再燃の予測および尤度分析に適切な治療または治療の有効性を特定することを含むことができる。本明細書に記載される産物およびプロセスは、個体ベースで対象を調べることを可能にし、これは、治療におけるより効率的で経済的な決定の恩恵を提供することができる。

ある局面では、がんを特徴付けることは、対象ががんに対する治療からベネフィットを得る可能性が高いかどうか予測することを含む。対象においてバイオマーカーを分析し、治療からベネフィットを得るまたは得ないことが分かった先行する対象のバイオマーカープロファイルと比較することができる。対象におけるバイオマーカープロファイルが、治療からベネフィットを得ることが分かっていた先行する対象のプロファイルとより緊密に整合する場合、対象は、治療からベネフィットを得る対象として特徴付けるまたは予測することができる。同様に、対象におけるバイオマーカープロファイルが、治療からベネフィットを受けなかった先行する対象のプロファイルとより緊密に整合する場合、対象は、治療からベネフィットを得られない対象として特徴付けるまたは予測することができる。がんを特徴付けるために使用される試料は、本明細書に開示される試料を含むが、それに限定されるわけではない、任意の有用な試料であることができる。

本方法は、選択された治療を対象に投与する工程をさらに含むことができる。FOLFOXおよびFOLFIRIレジメンは、当技術分野において公知であり;例えば、nccn.org/professionals/physician_gls/pdf/colon.pdfを参照されたい。

本開示は、FOLFOXからのベネフィットまたはベネフィットの欠如を予測するための臨床的に関連するバイオシグネチャを発見するために分子プロファイリングデータを分析するための機械学習手法の使用を記載する。本発明者らは、ステージIIIおよびステージIV結腸直腸がん（CRC）試料に対して機械学習分類モデルを訓練した。実施例2～4を参照されたい。ここで、本発明者らは、CRC患者をFOLFOX化学療法治療レジメンへの奏効者または不応者として予測するための機械学習手法を開発するためにすべてのモデルを組み合わせた。ベネフィットは、相対的な用語であって、治療ががんを有する患者の治療にプラスの影響を有するが、完全寛解を必要としないことを示す。ベネフィットを受ける対象は、受益者、奏効者などと称される場合がある。同様に、ベネフィットを受ける可能性が低い、またはベネフィットを受けない対象は、本明細書において非受益者、不応者、またはそれに類するものと称される場合がある。

実施例に記載されるように、対象におけるがん由来の細胞を含む生体試料を得る工程；およびアッセイを行って、生体試料中の少なくとも1つのバイオマーカーを調べる工程を含む方法が、本明細書において提供され、その際、バイオマーカーは、以下のうち少なくとも1つを含む：（a）MYC、EP300、U2AF1、ASXL1、MAML2およびCNTRLのうち1、2、3、4、5または6個すべてを含む、グループ1；（b）MYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRNおよびCDX2のうち1、2、3、4、5、6、7または8個すべてを含む、グループ2；（c）BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、HOXA11、AURKA、BIRC3、IKZF1、CASP8およびEP300のうち1、2、3、4、5、6、7、8、9、10、11、12、13または14個すべてを含む、グループ3；（d）PBX1、BCL9、INHBA、PRRX1、YWHAE、GNAS、LHFPL6、FCRL4、AURKA、IKZF1、CASP8、PTENおよびEP300のうち1、2、3、4、5、6、7、8、9、10、11、12または13個すべてを含む、グループ4；（e）BCL9、PBX1、PRRX1、INHBA、GNAS、YWHAE、LHFPL6、FCRL4、PTEN、HOXA11、AURKAおよびBIRC3のうち1、2、3、4、5、6、7、8、9、10、11または12個すべてを含む、グループ5；（f）BCL9、PBX1、PRRX1、INHBAおよびYWHAEのうち1、2、3、4、または5個すべてを含む、グループ6；（g）BCL9、PBX1、GNAS、LHFPL6、CASP8、ASXL1、FH、CRKL、MLF1、TRRAP、AKT3、ACKR3、MSI2、PCM1およびMNX1のうち1、2、3、4、5、6、7、8、9、10、11、12、13、14または15個すべてを含む、グループ7；（h）BX1、GNAS、AURKA、CASP8、ASXL1、CRKL、MLF1、GAS7、MN1、SOX10、TCL1A、LMO1、BRD3、SMARCA4、PER1、PAX7、SBDS、SEPT5、PDGFB、AKT2、TERT、KEAP1、ETV6、TOP1、TLX3、COX6C、NFIB、ARFRP1、ARID1A、MAP2K4、NFKBIA、WWTR1、ZNF217、IL2、NSD3、CREB1、BRIP1、SDC4、EWSR1、FLT3、FLT1、FAS、CCNE1、RUNX1T1およびEZRのうち1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44または45個すべてを含む、グループ8；ならびに（i）BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、BIRC3、AURKAおよびHOXA11のうち1、2、3、4、5、6、7、8、9、10または11個すべてを含む、グループ9。これらの遺伝子識別子は、提出の時点で科学界に一般に受け入れられているものであり、これらの識別子を使用して、HUGO Gene Nomenclature Committee（HNGC; genenames.org）、NCBI's Geneデータベース（www.ncbi.nlm.nih.gov/gene）、GeneCards（genecards.org）、Ensembl（ensembl.org）、UniProt（uniprot.org）、およびその他などの様々な周知のデータベースで遺伝子を調べることができる。本方法は、バイオマーカーのグループの有用な組み合わせを調べ、例えば、その結果、対象についての所望の情報を提供する場合がある。

生体試料は、ホルマリン固定パラフィン包埋（FFPE）組織、固定組織、コア針生検、穿刺吸引液、非染色スライド、新鮮凍結（FF）組織、ホルマリン試料、核酸もしくはタンパク質分子を保存する溶液に含まれる組織、新鮮な試料、悪性流体、体液、腫瘍試料、組織試料、またはそれらの任意の組み合わせを含むが、それに限定されるわけではない、本明細書に記載されるような対象からの任意の有用な生体試料であることができる。好ましい態様では、生体試料は、固形腫瘍からの細胞を含む。生体試料は、体液であり得、その体液は、循環腫瘍細胞（CTC）を含む場合がある。いくつかの態様では、体液は、悪性流体、胸膜液、腹膜液、またはそれらの任意の組み合わせを含む。体液は、末梢血、血清、血漿、腹水、尿、脳脊髄液（CSF）、痰、唾液、骨髄、滑液、眼房水、羊水、耳垢、母乳、気管支肺胞洗浄液、精液、前立腺液、カウパー腺液、尿道球腺液、女性射精液、汗、糞便、涙液、嚢胞液、胸膜液、腹膜液、心膜液、リンパ液、糜粥、乳糜、胆汁、間質液、月経分泌物、膿、皮脂、嘔吐物、腟分泌液、粘膜分泌液、水便、膵液、鼻腔からの洗浄液、気管支肺吸引液、胞胚腔液、または臍帯血を含むが、それに限定されるわけではない、対象からの任意の有用な体液であることができる。好ましい態様では、体液は、血漿または血清などの血液または血液誘導物もしくは画分を含む。

バイオマーカーを調べるために使用されるアッセイを選んで、生体試料中のバイオマーカーに関する、したがって対象に関する、情報の所望のレベルを提供することができる。いくつかの態様では、調べることは、各バイオマーカーについてのタンパク質または核酸の存在、レベル、または状態を決定することを含む。核酸は、デオキシリボ核酸（DNA）、リボ核酸（RNA）、またはそれらの組み合わせであることができる。様々なタンパク質の存在、レベルまたは状態は、免疫組織化学（IHC）、フローサイトメトリー、イムノアッセイ、抗体もしくはその機能的断片、アプタマー、またはそれらの任意の組み合わせを含むが、それに限定されるわけではない、本明細書に記載されるような方法論を使用して決定することができる。同様に、様々な核酸の存在、レベルまたは状態は、ポリメラーゼ連鎖反応（PCR）、インサイチューハイブリダイゼーション、増幅、ハイブリダイゼーション、マイクロアレイ、核酸シーケンシング、ダイターミネーション（dye termination）シーケンシング、パイロシーケンシング、次世代シーケンシング（NGS；高スループットシーケンシング）、またはそれらの任意の組み合わせを含むが、それに限定されるわけではない、本明細書に記載されるような方法論を使用して決定することができる。核酸の状態は、配列、変異、多型、欠失、挿入、置換、転座、融合、切断、重複、増幅、リピート、コピー数、コピー数多型（CNV；コピー数変化；CNA）、またはそれらの任意の組み合わせを含むが、それに限定されるわけではない、任意の関連状態であることができる。状態は、野生型または非野生型の場合がある。いくつかの態様では、次世代シーケンシング（NGS）は、単一アッセイで存在、レベル、または状態を調べるために使用される。NGSを使用して、バイオマーカーのパネル（例えば、実施例1参照）、全エクソーム、全トランスクリプトーム、またはそれらの任意の組み合わせを調べることができる。

結腸直腸がん患者におけるFOLFOXの応答またはベネフィットを予測するためのバイオマーカーの有用なグループを、本明細書に開示される機械学習モデリングに従って特定した。実施例1に記載されたように収集された分子プロファイリングデータを使用して、がん患者から収集されたデータを分析することによって実施例2～4に記載されたようにそのようなグループを特定した。そのような有用なグループは、グループ1（すなわち、MYC、EP300、U2AF1、ASXL1、MAML2、およびCNTRL）、グループ2（すなわち、MYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRN、およびCDX2）、グループ3（すなわち、BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、HOXA11、AURKA、BIRC3、IKZF1、CASP8、およびEP300）、グループ4（すなわち、PBX1、BCL9、INHBA、PRRX1、YWHAE、GNAS、LHFPL6、FCRL4、AURKA、IKZF1、CASP8、PTEN、およびEP300）、グループ5（すなわち、BCL9、PBX1、PRRX1、INHBA、GNAS、YWHAE、LHFPL6、FCRL4、PTEN、HOXA11、AURKA、およびBIRC3）、グループ6（すなわち、BCL9、PBX1、PRRX1、INHBA、およびYWHAE）、グループ7（すなわち、BCL9、PBX1、GNAS、LHFPL6、CASP8、ASXL1、FH、CRKL、MLF1、TRRAP、AKT3、ACKR3、MSI2、PCM1、およびMNX1）、グループ8（すなわち、BX1、GNAS、AURKA、CASP8、ASXL1、CRKL、MLF1、GAS7、MN1、SOX10、TCL1A、LMO1、BRD3、SMARCA4、PER1、PAX7、SBDS、SEPT5、PDGFB、AKT2、TERT、KEAP1、ETV6、TOP1、TLX3、COX6C、NFIB、ARFRP1、ARID1A、MAP2K4、NFKBIA、WWTR1、ZNF217、IL2、NSD3、CREB1、BRIP1、SDC4、EWSR1、FLT3、FLT1、FAS、CCNE1、RUNX1T1、およびEZR）、グループ9（すなわち、BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、BIRC3、AURKA、およびHOXA11）を含む。特に述べないかぎり、機械学習アルゴリズムによって、NGSによって決定された場合のコピー数が特定バイオマーカーの関連状態として選ばれた。

細胞は、典型的には各遺伝子の2つのコピーを有する二倍体である。しかし、がんは、コピー数を変更することができる様々なゲノム変更をもたらす場合がある。場合により、遺伝子のコピーは増幅され（増え）、一方で他の場合に遺伝子のコピーは減少する。ゲノム変更は、染色体の異なる領域に影響する可能性がある。例えば、増加または減少は遺伝子内で、遺伝子レベルで、または隣接遺伝子群内で起こる場合がある。増加または減少は、細胞遺伝学的バンドのレベルで、または染色体腕のいっそう大きな部分のレベルで観察される場合がある。したがって、遺伝子に近接したそのような領域の分析は、遺伝子自体に類似またはさらには同一の情報を提供する場合がある。したがって、本明細書に提供される方法は、特定遺伝子のコピー数を決定することに限定されず、遺伝子に近接した領域の分析もはっきりと考えており、その際、そのような近接した領域は、類似または同じレベルの情報を提供する。例えば、表11は、各遺伝子の座位を細胞遺伝学的バンドのレベルで挙げている。遺伝子群は、バンド、腕または染色体のレベルで観察することができる。非限定的に1q（PAX7、BCL9、FCRL4、PBX1、PRRX1、FH、AKT3）、20q（ASXL1、TOP1、SDC4、AURKA、ZNF217、GNAS、ARFRP1）および22q（CRKL、SEPT5、MN1、EWSR1、PDGFB、SOX10、EP300）を含む複数の遺伝子が出現する領域がある。これは、複数の遺伝子が所与の遺伝的局所と共にある場合に本発明者らの方法が検出するゲノム変化のための染色体の「ホットスポット」があることを示唆している。単なる例として、本開示は、1q、20qおよび22qでの代替遺伝子の分析が、本明細書に提供されるFOLFOXバイオシグネチャに使用される場合があると考えている。類似の分析をグループ1～9に挙げられる各遺伝子の座位について適用することができる。

上述のように、本明細書に提供される方法は、調べられたバイオマーカーに基づくFOLFOXの有望なベネフィットをさらに含む場合がある。FOLFOXが対象にベネフィットを与える可能性が低いと方法が決定した場合、FOLFIRIなどの代替治療が選ばれる場合がある。いくつかの態様では、本方法は、アッセイを行って、（a）グループ1およびグループ2の少なくとも1つもしくはすべてのメンバー、またはそれに近接するゲノム領域（実施例2参照）；（b）グループ3の少なくとも1つもしくはすべてのメンバー、またはそれに近接するゲノム領域（実施例3参照）；あるいは（c）グループ2、グループ6、グループ7、グループ8、およびグループ9の少なくとも1つもしくはすべてのメンバー、またはそれに近接するゲノム領域（実施例4参照）のコピー数を決定する工程を含む。観察されたコピー数に基づき、FOLFOXの有望なベネフィットは、投票モジュールを使用して決定することができる（図1Fおよび関係する本文を参照されたい）。好ましい態様では、そのような投票モジュールの使用は、グループ2、グループ6、グループ7、グループ8、およびグループ9の各々について得られたコピー数に、非限定的にランダムフォレストモデルを含む機械学習分類モデルを適用することを含む。ランダムフォレストモデルは、本明細書の表10に記載されるとおりであることができる。

結腸直腸がんを有する対象のための治療を選択する方法が、本明細書にさらに提供され、本方法は、結腸直腸がん由来の細胞を含む生体試料を得る工程；生体試料からのゲノムDNAに次世代シーケンシングを行って、（a）MYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRN、およびCDX2のうち1、2、3、4、5、6、7または8個すべてを含む、グループ2、（b）BCL9、PBX1、PRRX1、INHBAおよびYWHAEのうち1、2、3、4または5個すべてを含む、グループ6、（c）BCL9、PBX1、GNAS、LHFPL6、CASP8、ASXL1、FH、CRKL、MLF1、TRRAP、AKT3、ACKR3、MSI2、PCM1およびMNX1のうち1、2、3、4、5、6、7、8、9、10、11、12、13、14または15個すべてを含む、グループ7、（d）BX1、GNAS、AURKA、CASP8、ASXL1、CRKL、MLF1、GAS7、MN1、SOX10、TCL1A、LMO1、BRD3、SMARCA4、PER1、PAX7、SBDS、SEPT5、PDGFB、AKT2、TERT、KEAP1、ETV6、TOP1、TLX3、COX6C、NFIB、ARFRP1、ARID1A、MAP2K4、NFKBIA、WWTR1、ZNF217、IL2、NSD3、CREB1、BRIP1、SDC4、EWSR1、FLT3、FLT1、FAS、CCNE1、RUNX1T1およびEZRのうち1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44または45個すべてを含む、グループ8、ならびに（e）BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、BIRC3、AURKAおよびHOXA11のうち1、2、3、4、5、6、7、8、9、10または11個すべてを含む、グループ9の遺伝子またはそれに近接するゲノム領域の各々についてコピー数を決定する工程；グループ2、グループ6、グループ7、グループ8、およびグループ9の各々について得られたコピー数に機械学習分類モデルを適用する工程であって、任意で、各機械学習分類モデルがランダムフォレストモデルであり、任意で、ランダムフォレストモデルが表10に記載されるものである、工程；各機械学習分類モデルから、対象が5-フルオロウラシル／ロイコボリンとオキサリプラチンとの併用（FOLFOX）を用いた治療からベネフィットを得る可能性が高いかどうかの指標を得る工程；ならびに対象が治療からベネフィットを得る可能性が高いと機械学習分類モデルの大多数が示す場合、FOLFOXを選択し、対象がFOLFOXからベネフィットを得る可能性が低いと機械学習分類モデルの大多数が示す場合、FOLFOXの代替治療を選択する工程であって、任意で、代替治療が、5-フルオロウラシル／ロイコボリンとイリノテカンとの併用（FOLFIRI）である、工程を含む。いくつかの態様では、本方法は、選択された治療を対象に投与する工程をさらに含む。実施例5を参照されたい。

レポート
ある態様では、本明細書に記載されるような方法は、分子プロファイルレポートを作成する工程を含む。レポートは、がんがプロファイリングされた対象の治療を行っている医師または他の医療提供者に送達することができる。レポートは、1）分子プロファイル中の遺伝子のリスト；2）対象について決定された場合の遺伝子および／または遺伝子産物のCNVのコピー数を含む分子プロファイルの説明；3）分子プロファイルに関連する治療；ならびに4）各治療が、患者にベネフィットを与える、または患者にベネフィットを与えない、またはベネフィット判定不能の可能性が高いという指標を含むが、それに限定されるわけではない関連情報の複数のセクションを含むことができる。分子プロファイル中の遺伝子のリストは、本明細書に提示されたものであることができる。対象について決定された場合の遺伝子の分子プロファイルの説明は、各バイオマーカーを調べるために使用される検査技法（例えば、RT-PCR、FISH/CISH、PCR、FA/RFLP、NGSなど）のみならず、各技法をスコアリングするために使用される結果および基準などの情報を含む場合がある。例として、CNVをスコアリングするための基準は、存在（すなわち、がんを有しない対象に存在する、もしくは一般集団、典型的には二倍体に存在すると統計的に特定された「正常」コピー数よりも大きいもしくは小さいコピー数)、または非存在（すなわち、がんを有しない対象に存在する、もしくは一般集団、典型的には二倍体に存在すると統計的に特定された「正常」コピー数と同じコピー数)であり得る。分子プロファイル中の遺伝子および／または遺伝子産物の1つまたは複数に関連する治療は、2007年11月29日に公開された国際特許公報WO/2007/137187（国際出願番号PCT/US2007/069286）：2010年4月22日に公開されたWO/2010/045318（国際出願番号PCT/US2009/060630）：2010年8月19日に公開されたWO/2010/093465（国際出願番号PCT/US2010/000407）：2012年12月13日に公開されたWO/2012/170715（国際出願番号PCT/US2012/041393）：2014年6月12日に公開されたWO/2014/089241（国際出願番号PCT/US2013/073184）：2011年5月12日に公開されたWO/2011/056688（国際出願番号PCT/US2010/054366）：2012年7月5日に公開されたWO/2012/092336（国際出願番号PCT/US2011/067527）：2015年8月6日に公開されたWO/2015/116868（国際出願番号PCT/US2015/013618）：2017年3月30日に公開されたWO/2017/053915（国際出願番号PCT/US2016/053614）：2016年9月9日に公開されたWO/2016/141169（国際出願番号PCT/US2016/020657）：および2018年9月27日に公開されたWO2018175501（国際出願番号PCT/US2018/023438）のいずれかに示されるようなバイオマーカー-薬物関連規則を使用して決定することができ、これらの公報の各々は、その全体で参照により本明細書に組み入れられる。各治療が、患者にベネフィットを与える可能性が高い、または患者にベネフィットを与えない可能性が高い、またはベネフィット判定不能であるという指標は、重み付けされる場合がある。例えば、潜在的なベネフィットは、強い潜在的ベネフィットまたはより弱い潜在的ベネフィットの場合がある。そのような重み付けは、任意の適切な基準、例えば、バイオマーカー-治療関連性の証拠の強さ、またはプロファイリングの結果、例えば、過剰発現または過小発現の程度に基づくことができる。

様々な追加的な構成要素を適宜、レポートに追加することができる。いくつかの態様では、レポートは、分子プロファイル中の1つまたは複数の遺伝子のコピー数またはCNVが進行中の臨床試験と関連するかどうかの指標を有するリストを含む。レポートは、任意のそのような試験についての、例えば、治療にあたっている医師が試験への対象の潜在的登録を調査するのを促進する、識別子を含む場合がある。いくつかの態様では、レポートは、分子プロファイル中のCNVとレポートされた治療との関連を裏付ける証拠のリストを提供する。リストは、証拠となる文献の引用および／または特定のバイオマーカー-治療関連性についての証拠の強さの指標を含有することができる。いくつかの態様では、レポートは、分子プロファイル中の遺伝子の説明を含む。分子プロファイル中の遺伝子の説明は、非限定的に、生物学的機能および／または様々な治療関連性を含むことができる。

分子プロファイリングレポートは、対象の医療提供者、例えば、腫瘍学者または治療にあたっている他の医師に送達することができる。医療提供者は、レポートの結果を使用して、対象のための治療レジメンをガイドすることができる。例えば、医療提供者は、患者を治療するためにレポート中の有望なベネフィットとして示された1つまたは複数の治療を使用する場合がある。同様に、医療提供者は、レポート中でベネフィットを欠く可能性が高いと示された1つまたは複数の治療で患者を治療することを回避する場合がある。

潜在的ベネフィットのある少なくとも1つの治療法を特定する方法のいくつかの態様では、対象は、潜在的ベネフィットのある少なくとも1つの治療で以前に治療されたことがない。がんは、転移性がん、再発がん、またはそれらの任意の組み合わせを含む場合がある。場合により、がんは、がんについての一次（front-line）または標準治療を含むが、それに限定されるわけではない先行する治療法に抗療性である。いくつかの態様では、がんは、すべての公知の標準治療に抗療性である。他の態様では、対象は、がんについて以前に治療されたことがない。本方法は、潜在的ベネフィットがある少なくとも1つの治療を個体に投与する工程をさらに含む場合がある。無増悪生存期間（PFS）、無病生存期間（DFS）、または寿命は、前記治療の投与によって延長され得る。

レポートは、コンピュータで生成することができ、印刷されたレポート、コンピュータファイルまたはその両方であることができる。レポートは、安全なウェブポータルを介してアクセス可能にすることができる。

ある局面では、本開示は、上記のような本明細書に記載されるような方法の実施への試薬の使用を提供する。関係する局面では、本開示は、本明細書に記載されるような方法を実施するための試薬またはキットの製造における試薬を提供する。なお別の関係する局面では、本開示は、本明細書に記載されるような方法を実施するための試薬を含むキットを提供する。試薬は、任意の有用な所望の試薬であることができる。好ましい態様では、試薬は、試料から核酸を抽出するための試薬、および次世代シーケンシングを行うための試薬のうち少なくとも1つを含む。

ある局面では、本開示は、（a）少なくとも1つのホストサーバ；（b）データにアクセスしそれを入力するために、少なくとも1つのホストサーバにアクセスするための、少なくとも1つのユーザインターフェース；（c）入力されたデータを処理するための、少なくとも1つのプロセッサ；（d）処理されたデータと、i）本明細書に記載される方法によって決定されたCNV状態（すなわち、コピー数、またはCNVの存在／非存在）にアクセスし、ii）CNV状態に基づき、がんの治療のための潜在的ベネフィットを有する少なくとも1つの治療法を特定するための命令とを記憶するための、プロセッサに結合された少なくとも1つのメモリ；ならびに（e）がんの治療のための潜在的ベネフィットを有する、特定された治療を表示するための、少なくとも1つのディスプレイを含む、個体におけるがんと関連する少なくとも1つの治療法を同定するためのシステムを提供する。いくつかの態様では、システムは、処理されたデータと、がんの治療のための潜在的ベネフィットを有する少なくとも1つの治療法を、上記方法に従って生成された分子プロファイルに基づき特定するための命令とを記憶するための、プロセッサと結合された少なくとも1つのメモリ；ならびにその表示のための少なくとも1つのディスプレイをさらに含む。システムは、様々なバイオマーカー状態、薬物／バイオマーカー関連性についてのデータ、またはその両方についての参照を含む少なくとも1つのデータベースをさらに含む場合がある。少なくとも1つのディスプレイは、本開示によって提供されるレポートであることができる。

本明細書および添付の特許請求の範囲に記載される範囲を限定しない以下の実施例において、本発明をさらに説明する。

実施例1：次世代プロファイリング
包括的分子プロファイリングは、患者試料の分子状態に関する豊富なデータを提供する。本発明者らは、本明細書、例えば実施例1に記載されるような様々なプロファイリング技術を使用して、実質的にすべてのがん系統からの100,000人をはるかに超える腫瘍患者に対してそのようなプロファイリングを実施した。今日まで、これらの患者の20,000人超の治療からのベネフィットまたはベネフィットの欠如を追跡調査した。したがって、本発明者らの分子プロファイリングデータを、治療に対する患者ベネフィットと比較して、さらなるがん患者における様々な治療に対するベネフィットを予測するさらなるバイオマーカーシグネチャを同定することができる。本発明者らは、この「次世代プロファイリング」（NGP）手法を適用して、様々ながん治療に対する患者ベネフィット（プラス、マイナスまたは不確定のベネフィットを含む）と相関するバイオマーカーシグネチャを同定した。

NGPへの一般的な手法は以下のとおりである。数年にわたり、本発明者らは、様々な分子プロファイリング技術を使用して、数万人の患者の包括的分子プロファイリングを実施した。図2Cにさらに概説するように、これらの技術としては、様々な属性を評価するためのDNAの次世代シーケンシング（NGS）2301、RNAの遺伝子発現および遺伝子融合分析2302、タンパク質発現のIHC分析2303ならびに遺伝子コピー数および染色体異常、例えば転座を評価するためのISH2304が含まれるが、これらに限定されない。本発明者らは、現在、様々ながん系統の20,000人を超える患者の患者臨床転帰データをマッチさせた（2305）。本発明者らは、コグニティブコンピューティング手法2306を使用して、所望により、包括的分子プロファイリングの結果を、様々な治療の場合の実際の患者転帰データと相関させる。臨床転帰は、代替エンドポイント治療継続期間（TOT）または次治療開始までの期間（TTNTまたはTNT）を使用して決定され得る。例えば、Roever L (2016) Endpoints in Clinical Trials: Advantages and Limitations. Evidence Based Medicine and Practice 1: e111. doi: 10.4172/ebmp. l000e111を参照されたい。結果は、バイオマーカーのパネルを含むバイオシグネチャ2307を提供し、このバイオシグネチャは、調査中の治療からのベネフィットまたはベネフィットの欠如を示す。バイオシグネチャは、新規患者のための分子プロファイリング結果に適用されて、適用可能な治療からのベネフィットを予測し、ひいては治療決定を導くことができる。このような個別化ガイダンスが、有効な治療の選択を改善し、かつ、臨床的ベネフィットが（あるとしても）比較的少ない治療を避けることができる。

表2は、本発明者らが過去数年間にプロファイリングした数多くのバイオマーカーを記載する。関連する分子プロファイリングおよび患者転帰が利用可能であるため、これらのバイオマーカーのいずれかまたはすべてが、関心対象のバイオシグネチャを開発するためのコグニティブコンピューティング環境に入力するための特徴として働くことができる。表は、分子プロファイリング技術およびそのような技術を使用して評価された様々なバイオマーカーを示す。リストはすべてを網羅するものではなく、記載されたバイオマーカーすべてに関するデータがあらゆる患者に利用可能になるわけではない。さらに、複数の方法を使用して様々なバイオマーカーがプロファイリングされていることが理解されよう。非限定的な例として、上皮成長因子受容体（EGFR）タンパク質を発現するEGFR遺伝子を考えてみる。表2に示すように、EGFRタンパク質の発現が、IHCを使用して検出され；EGFR遺伝子増幅、遺伝子再構成、変異および変化が、ISH、サンガーシーケンシング、NGS、断片分析およびPCR、例えばqPCRで検出され；EGFR RNA発現が、PCR技術、例えばqPCRおよびDNAマイクロアレイを使用して検出されている。さらなる非限定的な例として、EGFRバリアントIII（EGFRvIII）転写産物の存在に関する分子プロファイリング結果が、断片分析（例えばRFLP）およびシーケンシング（例えばNGS）を使用して収集されている。

表3は、様々な腫瘍系統の例示的な分子プロファイルを示す。これらの分子プロファイルからのデータが、関心対象の1つまたは複数のバイオシグネチャを同定するために、NGPのための入力として使用され得る。表中、がん血統が「血統」列に示されている。残りの列は、表記の方法（すなわち、免疫組織化学（IHC）、インサイチューハイブリダイゼーション（ISH）または他の技術）を使用して評価することができる様々なバイオマーカーを示す。先に説明したように、バイオマーカーは、当業者に公知の記号を使用して同定される。IHC列の下、「MMR」は、ミスマッチ修復タンパク質MLH1、MSH2、MSH6およびPMS2を指し、それらが、それぞれ、IHCを使用して個別に評価されている。NGS列の「DNA」の下、「CNA」はコピー数変化を指し、これは、本明細書中でコピー数多型（CNV）とも呼ばれる。当業者は、分子プロファイリング技術が、所望により取り換えられる、および／または互換可能であり得ることを理解するであろう。例えば、IHCの代わりに他の適当なタンパク質分析法を使用することができ（例えば、代わりのイムノアッセイフォーマット）、ISHの代わりに他の適当な核酸分析法を使用することができ（例えば、コピー数および／または再構成、転座などを評価する）、断片分析の代わりに他の適当な核酸分析法を使用することができる。同様に、FISHとCISHとは一般に互換可能であり、プローブ入手可能性などに基づいて選択され得る。表4～8は、次世代シーケンシング（NGS）分析を使用して評価されたゲノム分析および遺伝子のパネルを提示する。当業者は、NGS分析の代わりに、他の核酸分析法、例えば他のシーケンシング（例えばサンガー）、ハイブリダイゼーション（例えばマイクロアレイ、ナノストリング）および／または増幅（例えばPCRベースの）法を使用することができることを理解するであろう。

核酸分析を実施して遺伝子の様々な局面を評価し得る。例えば、核酸分析としては、変異分析、融合分析、バリアント分析、スプライスバリアント、SNP分析および遺伝子コピー数／増幅を含むことができるが、これらに限定されない。そのような分析は、本明細書に記載される、または当技術分野において公知であるいくつもの技術、例えば非限定的に、シーケンシング（例えばサンガー、次世代、パイロシーケンシング）、PCR、PCRの変形、例えばRT-PCR、断片分析などを使用して実施することができる。NGS技術を使用すると、単一のアッセイにおいて複数の遺伝子の変異、融合、バリアントおよびコピー数を検出し得る。別段述べられない、または文脈から明白でない限り、本明細書中で使用される場合の「変異」は、野生型と比較したときの遺伝子またはゲノムの任意の変化、例えば非限定的に、変異、多型、欠失、挿入、インデル（すなわち挿入または欠失）、置換、転座、融合、切断、重複、増幅、反復またはコピー数多型を含み得る。異なるゲノム変化および／または遺伝子のセットに対して異なる分析が利用可能であり得る。例えば、表4は、NGSで測定することができるゲノム安定性の属性を記載し、表5は、点変異およびインデルに関して評価され得る様々な遺伝子を記載し、表6は、点変異、インデルおよびコピー数多型に関して評価され得る様々な遺伝子を記載し、表7は、RNA分析によって遺伝子融合に関して評価され得る様々な遺伝子を記載し、同様に、表8は、RNAによって転写バリアントに関して評価することができる遺伝子を記載する。さらなる遺伝子に関する分子プロファイリングの結果を、NGPバイオシグネチャを同定するために使用することもできる（そのようなデータが利用可能であるとき）。

（表２）分子プロファイリングバイオマーカー

（表３）分子プロファイル

（表４）ゲノム安定性検査（DNA）

（表５）点変異およびインデル（DNA）

（表６）点変異、インデルおよびコピー数多型（DNA）

（表７）遺伝子融合（RNA）

（表８）バリアント転写産物

本実施例および明細書全体を通して使用される略語、例えば、IHC：免疫組織化学；ISH：インサイチューハイブリダイゼーション；CISH：比色インサイチューハイブリダイゼーション；FISH：蛍光インサイチューハイブリダイゼーション；NGS：次世代シーケンシング；PCR：ポリメラーゼ連鎖反応；CNA：コピー数変化；CNV：コピー数多型；MSI：マイクロサテライト不安定性；TMB：腫瘍遺伝子変異量。

実施例2：結腸直腸がんにおける治療効能の予測のための分子プロファイリング分析
この実施例においては、本明細書に記載されるような最先端機械学習アルゴリズム（例えば図1A1G）を包括的分子プロファイリングデータに適用して（例えば、上記実施例1；WO/2018/175501（20.03.2018出願の国際出願PCT/US第2018/023438号に基づく）の表5～12ならびにWO/2015/116868（29.01.2015出願の国際出願PCT/US第2015/013618号に基づく）、WO/2017/053915（24.09.2016出願の国際出願PCT/US第2016/053614号に基づく）およびWO/2016/141169（03.03.2016出願の国際出願PCT/US第2016/020657号に基づく）を参照）、次治療開始までの期間（TNTまたはTTNT）を転帰エンドポイントとして使用するとき、FOLFOXからプラスのベネフィットを得た患者と、それを得なかった患者とを区別するバイオマーカーシグネチャを同定した。患者集団は、ステージIIIまたはステージIV結腸直腸がんの患者を含んでいた。評価したバイオマーカーは、実施例1におけるバイオマーカーであった。

本発明者らは、結腸直腸がん（CRC）患者のFOLFOX治療からのベネフィットまたはベネフィットの欠如を正確に予測する8つのバイオマーカー（図3A～B）および6つのバイオマーカー（図3C～D）シグネチャを同定した。ベネフィッターまたは非ベネフィッターの数が図3A～Dに同定されている。これらのシグネチャを使用して、CRC患者におけるFOLFOXからのベネフィットを予測することができる。

バイオマーカーシグネチャ同定
本発明者らの分子プロファイリングパイプラインによって生成された選択されたバイオマーカーの連続数値は、ランダムフォレスト、サポートベクターマシン、ロジスティック回帰、k近傍法、人工ニューラルネットワーク、単純ベイズ、二次判別分析、およびガウス過程モデルからなるアンサンブル分類器への特徴入力として使用される。患者ごとのバイオマーカー値からなる訓練データがアセンブルされ、患者のTNTにしたがってベネフィッターまたは非ベネフィッターとしてラベル付けされる。アンサンブル中の各モデルは、訓練プロセス中にこの訓練データを入力としてとり入れ、以前に見られなかったテストケースの予測を行うことができる最終の訓練されたモデルを生成する。そして、訓練データ中にない新規なテストケースがアンサンブル中の訓練されたモデルそれぞれに供給され、各モデルが、テストセット中の患者ごとにベネフィットまたはベネフィットの欠如の予測を出力する。

これらのバイオマーカー結果が機械学習アルゴリズムで使用される方法を明確にするために、ランダムフォレストアルゴリズムを簡単に説明する。ランダムフォレストは複数の決定木からなり、各決定木が、試料ごとに単一のベネフィット／非ベネフィット予測を生成する。決定木は、フローチャートに類似するノードおよびエッジからなる。決定木中の各ノードで特定のテストケースが決定木中でとる経路は、そのテストケースの特徴値を、訓練プロセス中に決定された各ノードにおける閾値と比較することによって決定される。患者のバイオマーカー数値が所与の閾値よりも高いならば、フローは第一の子ノードへと流れ、そうでなければ、フローは第二の子ノードへと流れる。決定木の最下層中のノードはクラスラベルからなり、各患者は、その患者が最下層中のどのノードに配置されたかにしたがって分類される。

ランダムフォレストは、ランダムフォレスト内に含まれる決定木のそれぞれの大多数票をとることにより、最終的な予測を得る。各決定木の構造が、一変量手法を使用して可能である予測よりも正確な予測を生じさせる、バイオマーカー値間の高い非線形および相互作用効果の発見を可能にする。アルゴリズム的かつ数学的にもランダムフォレストとは異なるが、アンサンブル中の残りのモデルはすべて、バイオマーカー値を入力としてとり入れ、患者ごとのベネフィット予測を出力として返す。

モデルごとの記述統計は、2つの集団間のリスクの差の尺度であるハザード比（HR）を含む。HRが1.0から離れれば離れるほど、一方の集団が経験するリスクが他方の集団に比べて大きくなる。結果は、周知のカプラン・マイヤー推定量プロットを使用して提示される。Kaplan, E. L.; Meier, P. (1958). "Nonparametric estimation from incomplete observations." J. Amer. Statist. Assoc. 53 (282): 457-481を参照されたい。

結果
図3Eは、8つのマーカーシグネチャ（図3A～B）の場合の例示的なランダムフォレスト決定木を示す。シグネチャは遺伝子EP300、ASXL1、U2AF1、WRN、ASXL1、MAML2、MYCおよびCDX2を含む。遺伝子識別子は、出願時に科学界で一般的に受け入れられているものであり、様々な周知のデータベース、例えばHUGO Gene Nomenclature Committee（HNGC；genenames.org）、NCBI遺伝子データベース（www.ncbi.nlm.nih.gov/gene）、GeneCards（genecards.org）、Ensembl（ensembl.org）、UniProt（uniprot.org）などにおいて遺伝子を検索するために使用することができる。各ボックス中の数値は、NGSを使用して検出された正規化コピー数に対応する。8つの遺伝子バイオシグネチャのメンバーの正規化コピー数多型が決定木に適用される。図中、WRN、ASXL1およびMYCの下の縦方向の「...」は、ベネフィット／非ベネフィット予測が、U2AF1に対応するボックスの下に示されるやり方と同じやり方で実施されることを示す。結腸直腸がんを示す患者に関し、木の論理が評価される。ベネフィッターは、FOLFOXからベネフィットを得ると予測され、したがって、テストは、そのような患者はFOLFOXレジメンを施されるべきであることを示唆する。他方、FOLFOXからベネフィットを得ないと予測される患者は、例えばFOLFIRIを含む異なる治療レジメンを施され得る。

実施例3：転移性結腸直腸がんにおける治療ベネフィットの予測のための分子プロファイリング分析
実施例2において、本発明者らは、結腸直腸がん治療レジメンFOLFOXからのベネフィットを予測するためのバイオシグネチャを同定するための手法を提示した。本発明者らは、この試料においても同じ手法を踏襲して、高度にキュレーションされたステージIV転移性結腸直腸がんのセットを使用してFOLFOXのためのバイオシグネチャを同定した。

図4Aは、転移性結腸直腸がんにおけるバイオマーカー評価への現在の手法を示す。第一選択治療の場合、がん専門医は、FOLFOX（フォリン酸（ロイコボリン）；5-フルオロウラシル（5FU）およびオキサリプラチン）またはFOLFIRI（フォリン酸（ロイコボリン）；5-フルオロウラシル（5FU）およびイリノテカン）からなるレジメンを選択し得る。5FUは、DNA合成を停止させるヌクレオチド類似体であり、フォリン酸は5FUの効能を高める。オキサリプラチンもまた、DNA合成を遮断すると考えられているが、イリノテカンはトポイソメラーゼ阻害剤である。治療はまた、KRAS、NRAS、BRAFおよびマイクロサテライト不安定性（MSI）からなる小さなバイオマーカーパネル（「SP」）の使用に依存する場合もある。野生型KRASは、ベバシズマブ（FOLFOXまたはFOLFIRIと組み合わせて投与され得る、血管新生を阻害する抗VEGFAモノクローナル抗体）による治療およびセツキシマブなどの抗EGFR治療を示唆し得る。BRAF中の変異は、化学療法ならびにMEK阻害剤（MEKi）およびEGFR阻害剤（EGFRi）を示唆し得る。第二選択治療は、がん専門医が代替レジメンを試みる場合を除き、第一選択に類似し得る。加えて、MSIの存在が、抗PD-F1などの免疫療法の有用性を示し得る。これらの手法が失敗すると、第三選択治療は、レゴラフェニブ（血管新生を遮断するマルチキナーゼ阻害剤）またはトリフルリジン／チピラシル（商品名Lonsurf）（ヌクレオシド類似体トリフルリジンおよびチミジンホスホリラーゼ阻害剤チピラシルからなる）の併用療法を要求する場合もある。これらの選択肢が失敗した場合に、患者は通常、実験的治療（利用可能な場合）に入る。

現在、第一選択療法への最良の手法がどれであるかは明確ではない。一部の患者はFOLFOXにより良好に反応するが、他の患者はFOLFIRIにより良好に反応する。図4Bは、第一選択治療としてFOLFOXおよび第二選択治療としてFOLFIRI、またはその逆を投与された転移性CRC患者における経時的生存率を示す。Tournigand, C. et al., FOLFIRI followed by FOLFOX6 or the reverse sequence in advanced colorectal cancer: a randomized GERCOR study. J Clin Oncol. 2004 Jan 15;22（2）:229-37. Epub 2003 Dec 2を参照されたい。グループ間で効能の差は認められなかった。KRAS野生型CRCにおける代替治療の場合にも類似の転帰が認められる。図4Cは、第一選択化学療法＋ベバシズマブまたはセツキシマブを投与された進行性または転移性結腸直腸がん患者の経時的生存率を示す。Venook AP et al., Effect of First-Line Chemotherapy Combined With Cetuximab or Bevacizumab on Overall Survival in Patients With KRAS Wild-Type Advanced or Metastatic Colorectal Cancer: A Randomized Clinical Trial. JAMA. 2017 Jun 20;317(23):2392-2401を参照されたい。図4B～Cから見られるように、個々の患者は他の治療よりも特定の治療により良好に反応するが、集団全体を見ると明確な傾向はない。したがって、そのようなガイダンスが明らかに個々の患者にベネフィットをもたらすとしても、転移性結腸直腸がん患者のための第一選択治療を選択するためのガイダンスは現在ほとんど存在しない。

この例において、本発明者らは、本明細書に開示される方法にしたがって分子プロファイリングデータへの機械学習手法を用いて、転移性結腸直腸がんの第一選択療法としてのFOLFOXのベネフィットまたはベネフィットの欠如を予測するための臨床的に関連するバイオシグネチャを発見した。図4Dは、この目的への実施例2の手法の適用の概要を提供する。まず、本発明者らは、意図された使用に基づいて、訓練およびテストのための患者コホートを同定した。組み入れ基準は、患者が第一選択治療としてFOLFOXを受け、少なくとも1つの全治療サイクルを受けていることであった。アジュバント療法を含む以前の化学療法を受けていた患者は除外した。訓練段階に選ばれた患者の特性が図4Eに示されている。バイオシグネチャ発見のために、本発明者らは、まず、エンドポイントを検証して、患者ステータスをベネフィットありまたはベネフィットなしと決定した。Tournigand 2004によって約8.5か月と記された無増悪生存期間（PFS）に基づいて、270日のTTNTを選択した。患者の訓練セットを使用して、上記のように様々なコグニティブコンピューティングアルゴリズムを使用してバイオマーカー（特徴）選択のプロセスを実行した。選択されたバイオマーカー特徴を使用して、患者をFOLFOXのベネフィッターまたは非ベネフィッターと同定するようにアルゴリズムを訓練した。バイオシグネチャを使用してそのような決定を下す方法の例に関しては、図6および不随の文言を参照されたい。次いで、本発明者らは、バイオシグネチャの解析的検証および特性評価を実施した。例えば、本発明者らは、交差検証を使用して性能を評価した。また、本発明者らは、バイオシグネチャが単に予後的であるかどうかを検証した。最後に、盲検試験セットに対して臨床検証を実施した。

この手法は、14のバイオマーカー特徴を含むバイオシグネチャを発見した。特徴は、BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、HOXA11、AURKA、BIRC3、IKZF1、CASP8およびEP300のコピー数である。これらの遺伝子識別子は、出願時に科学界で一般的に受け入れられているものであり、様々な周知のデータベース、例えばHUGO Gene Nomenclature Committee（HNGC；genenames.org）、NCBI遺伝子データベース（www.ncbi.nlm.nih.gov/gene）、GeneCards（genecards.org）、Ensembl（ensembl.org）、UniProt（uniprot.org）などにおいて遺伝子を検索するために使用することができる。

図4F～Gは、5重交差検証を使用して得られた結果を示す。最高の性能の交差検証が図4Fに示されている。図示するように、ハザード比（HR）は0.315であり、HRにおける95％信頼区間は0.167～0.595であった。ログランクp値は0.0001未満で非常に有意であった。同様に、中央値モデルが図4Gに示されている。認められた0.407のHRは、このモデルが、FOLFOXのベネフィットを欠く危険が残りの集団と比較して146％増大する集団のサブセットを予測することを示す。146％計算は、式100×（1－1／HR）％にしたがって実行したが（Andreas Sashegy and David Ferry, On the Interpretation of the Hazard Ratio and Communication of Survival Benefit, Oncologist. 2017 Apr; 22(4):484-486を参照）、HRの逆数を用いてリスク減ではなくリスク増を求めて、レスポンダーよりも非レスポンダーを同定する目標に適合させた。

次に、本発明者らは、バイオシグネチャがFOLFOXからのベネフィットを予測するのではなく、予後的であるかどうかを問うた。換言するならば、本発明者らは、バイオシグネチャが、治療にかかわらず、より良い転帰の患者を単に同定するかどうかを知ることを望んだ。したがって、バイオシグネチャを、第一選択治療としてのFOLFIRIで治療された患者コホートに適用した。結果が図4Hに示されている。図面に見られるように、95％信頼区間は1.0のHRとオーバーラップし、分離のp値は0.379で統計的に非有意であった。バイオシグネチャはFOLFIRIからのベネフィットを予測することができなかったため、これらの結果は、バイオシグネチャが本当にFOLFOXからのベネフィットを予測することを実証する。

同様に、本発明者らは、左右の腫瘍起源がバイオシグネチャ発見における交絡因子であるかどうかを調査した。CRCは結腸の左側または右側で発生し得、この起源が予後と治療の両方に影響し得る。例えば、右側CRCの患者は、左側CRCの患者よりも転帰が悪い。転移性結腸直腸がんの患者において、結腸内の原発腫瘍の偏側性が、生存率に影響するだけでなく、ベバシズマブおよびセツキシマブなどの一般的に使用される生物学的治療の有効性にも影響するように思われる。Venook AP et al., Effect of First-Line Chemotherapy Combined With Cetuximab or Bevacizumab on Overall Survival in Patients With KRAS Wild-Type Advanced or Metastatic Colorectal Cancer: A Randomized Clinical Trial. JAMA. 2017 Jun 20;317(23):2392-2401を参照されたい。また、図4Aを参照されたい。図4Iは、FOLFOXのベネフィット／ベネフィットの欠如の検出において訓練され、FOLFOXのベネフィット／ベネフィットの欠如、左側／右側CRCおよび対照としての左右入れ替え偏側性において評価された5重交差検証によって計算された精度のヒストグラムを示す。認められるたように、左右をランダムに入れ替えた対照の場合の精度と比較して、左右精度のわずかな増加しか見られなかった。これは、FOLFOXのベネフィットを予測する場合に認められた高い精度とは対照的である。これらのデータは、バイオシグネチャが原発腫瘍の右左偏側性によって交絡されないことを示す。

最後に、本発明者らは、第一選択転移性結腸直腸がん患者の独立コホートを使用して、バイオシグネチャに対する臨床検証を実施した。結果が図4Jに示されている。利用可能な非ベネフィッター患者数の少なさにもかかわらず、HRは0.333であり、このモデルが、FOLFOXへのベネフィットを欠く危険が残りの集団と比較して200％増大する集団のサブセットを予測し、p値が0.003で非常に有意であることを示す。本発明者らはまた、アジュバント設定からの患者の独立コホートにバイオシグネチャを適用した。図4Kは、ステージIIIのCRC患者のより小さなコホートで得られた結果を示す。この設定において、HRは0.506であり、p値は0.080でそれほど有意ではなかった。図4Lは、それぞれ図4Kおよび図4LからのステージIII患者とステージIV患者とを組み合わせたときに得られた結果を示す。この設定において、HRは0.466であり、p値はここでもまた0.003で有意であった。これらの結果は、バイオシグネチャが、ステージIV転移性CRC患者のFOLFOXの最適な予測を提供し、また、他の設定、例えばステージIIIがんなどでも有用であり得ることを示唆する。

上記のバイオシグネチャを同定するために使用された多重アルゴリズム手法（例えば図4F～4Lのような）に加えて、本発明者らはまた、単一モデル手法を使用して、FOLFOX反応のバイオシグネチャを同定した。3つのそのようなランダムフォレスト分類器モデルが、パラメータおよび結果とともに、表9に示されている。モデルを、上記訓練試料で訓練し（図4Eを参照）、図4Jのように試料に対してテストした。モデルのKMプロットは、表9の「モデル」列に示されるとおりである。図示するように、モデル1（図4M；HR＝0.917；p値＝0.814）は、FOLFOXのベネフィッターと非ベネフィッターとを有意に分類しなかったが、モデル2（図4N；HR＝0.365；p値＝0.007）およびモデル3（図4O；HR＝0．465；p値＝0.047）はいずれも、テストセットにおいてFOLFOXのベネフィッターおよび非ベネフィッターを有意に分類した。

（表９）ランダムフォレスト分類器モデル

実施例4：FOLFOX化学療法治療レジメンに対するレスポンダーまたは非レスポンダーとしての結腸直腸がん患者のマルチモデル予測
上記実施例において、本発明者らは、FOLFOXからのベネフィットまたはベネフィットの欠如を予測するための臨床的に関連するバイオシグネチャを発見するために、本明細書に開示された方法にしたがって分子プロファイリングデータを分析するための機械学習手法の使用を説明した。モデルを、ステージIIIおよびステージIVの結腸直腸がん（CRC）試料（実施例2）またはステージIVのCRC試料（実施例3）に対して訓練した。ここで、本発明者らは、すべてのモデルを組み合わせて、CRC患者を、FOLFOX化学療法治療レジメンへのレスポンダーまたは非レスポンダーとして予測するための機械学習手法を開発した。

試料セットおよび訓練法は上記のとおりである。本発明者らは、一緒になって反応の最適な予測を提供する5つのランダムフォレストモデルを同定した。ランダムフォレストは、Python言語およびskleam.ensemble.RandomForestClassifierモジュールを使用して生成した。Pedregosa et al., Scikit-learn: Machine Learning in Python, JMLR 12, pp. 2825-2830, 2011を参照されたい。モデルを生成するために使用されたskleam.ensemble.RandomForestClassifierパラメータが表10に示されている。モデル識別子が「モデル」列に示されている。各モデルは、表中の「バイオシグネチャ」列に示されるようなそれ自体の特徴リストを有する。遺伝子識別子は、出願時に科学界で一般的に受け入れられているものであり、様々な周知のデータベース、例えばHUGO Gene Nomenclature Committee（HNGC；genenames.org）、NCBI遺伝子データベース（www.ncbi.nlm.nih.gov/gene）、GeneCards（genecards.org）、Ensembl（ensembl.org）、UniProt（uniprot.org）などにおいて遺伝子を検索するために使用することができる。予想されるように、いくつかの特徴が複数のモデルで使用されている。例えば、ASXL1は、以下にさらに説明するように、5つのモデルのうち4つで使用されている。バイオシグネチャ中の各遺伝子特徴に関するデータは、次世代シーケンシングを使用して決定されるそのコピー数からなる。さらなる詳細に関しては実施例1を参照されたい。

（表１０）ランダムフォレスト分類器モデル

モデルを使用して実施された予測は、5,000の保存されたモデルインスタンスに基づく。5つのモデルのそれぞれが1,000回訓練され、各特定のインスタンスがわずかに異なるランダムフォレストを生じさせ、それらが同じくわずかに異なる結果を生成する。しかし、フォレストは保存されたオブジェクトであり、一定の入力が与えられれば常に同じ出力を生成する。ケースの予測を行うために、本発明者らは、1,000の保存されたモデルインスタンスのそれぞれを通して、指定された遺伝子特徴に関してケースのコピー数値を実施した。各個々のインスタンスが、そのケースが非レスポンダーである確率を出す。この場合、ケースは、モデル＃1の場合で1,000の確率、モデル＃2の場合で1,000の確率を有するなどである。本発明者らは、モデルごとの中央値確率をとることにより、これらの結果を5つの確率へと集約する（すなわち、モデル1確率＝中央値（モデル1.1、モデル1.2、...、モデル1.1000など）。ケースの最終予測は、これら5つの中央値確率の中央値、すなわち、表10に記載されているモデルごとに1つの確率である。5つのモデルがあるため、モデルの少なくとも3つがそのケースが非レスポンダーであると予測するならば、全体の予測は非レスポンダーである、または、逆もまた同様である。訓練セットに対して5重交差検証を使用するこの手法の結果が図5A～Bに示されている。図5Aは、すべてのモデルを使用した結果を示す。図5Bは、1つのモデルを使用した代表的な結果を示す。

166のステージIVのCRCケースに関する分子プロファイリングおよび転帰データを使用して、ジョイント5ランダムフォレストモデルを検証した。各患者は、実施例1に記載したように使用して以前にプロファイリングされたCRC腫瘍を有していたが、これらのケースは、本明細書に記載される任意の以前のFOLFOX開発努力においては使用されなかった。ジョイントモデルの結果に基づくFOLFOXに対する反応の予測が図5Cに示されている。この図は、本発明者らの方法がFOLFOXに対する反応または反応の欠如を正確に予測することを示す。また、ジョイントモデルを、上記の実施例で使用された検証セットに適用し、類似の結果を達成した。データは示さず。まとめると、これらのデータは、多様なソースからの実世界患者試料を使用して、第一選択末期CRC患者におけるFOLFOXへの反応を予測するためにジョイント5ランダムフォレストモデルを使用することができることを示す。本発明者らのデータは、予測されるレスポンダーである患者のFOLFOX治療を示唆するが、予測される非レスポンダーがFOLFIRIで治療されてもよい。

表11は、表10に記載されている遺伝子／特徴のさらなる詳細を提供する。「Ensembl ID」列は、Ensembl（ensembl.org）からの遺伝子IDを記載する。「名称」列は、出願時に一般的に受け入れられていた遺伝子の名称を記載する。「R」および「NR」列は、それぞれレスポンダーケースおよび非レスポンダーケースに関し、本発明者らのNGS手法を使用して検出された各遺伝子のコピー数を示す。細胞は、二倍体であり、したがって1細胞あたり遺伝子の2つのコピーを宿すと予想されるため、2未満の数値は喪失を示唆し、2を超える数値は獲得／増幅を示唆する。「モデル番号」列は、表10の5つのモデルにおいて遺伝子が出現する回数を示す。例えば、PAX7は、表10中の1つのモデル、すなわちモデル2（ARF43）で出現するが、PBX1は、5つのモデルのうち4つ、すなわちモデル1（ARF2）、モデル2（ARF43）、モデル3（DRF13）およびモデル4（DRF25）で出現する。「Cytoバンド」列は、標準名称法で与えられた遺伝子座である（例えば、先頭の数字は染色体であり、「p」は染色体の短腕を示し、「q」は染色体の長腕を示し、後尾の数字は領域およびバンドである）。

（表１１）ランダムフォレスト分類器モデル

理論によって拘束されることを意図しないが、表11中のデータから、様々な観察を成し得る。例えば、本発明者らの方法は、コピー数の変化に高感度である。本発明者らは、モデルは実世界試料間でロバストであることを見いだしたが、表に示すように、コピーの変化は、従来の実験技術を使用して検出される差よりも微妙であることが多かった。本発明者らがNGSを使用してプロファイリングする試料は通常、顕微解剖FFPE腫瘍試料である。したがって、試料中の腫瘍細胞間の不均一性を考慮すると、本発明者らの方法はロバストである。加えて、1q（PAX7、BCL9、FCRL4、PBX1、PRRX1、FH、AKT3）、20q（ASXL1、TOP1、SDC4、AURKA、ZNF217、GNAS、ARFRP1）および22q（CRKL、SEPT5、MN1、EWSR1、PDGFB、SOX1O、EP300）をはじめとして、複数の遺伝子が出現する領域がある。これは、複数の遺伝子が所与の遺伝子座に存在する場合に本発明者らの方法が検出する、ゲノム変化のための染色体「ホットスポット」が存在することを示唆する。例えば、Ashktorab H et al. Distinct genetic alterations in colorectal cancer. PLoS One. 2010 Jan 26;5(1):e8879. doi:10.1371/journal.pone.0008879を参照されたい。そのうえ、多くの場合、本発明者らが分析した遺伝子座に隣接する染色体座の評価が類似の結果を提供することが予想され得る。

同一ではないとしても類似する分子プロファイリングデータ（例えば実施例1を参照）において、ただし、同じ試料データ（例えば表9および10を参照）または異なる試料セット（実施例2および3を参照）に対して異なるパラメータを用いて、複数のランダムフォレストモデルを訓練した。本質的に各モデルが票を得る「投票」方略を使用するモデルを組み合わせると、任意の個々のモデルよりも優れた結果が得られる。図5Aおよび5Bを参照されたい。理論によって拘束されることなく、各モデルは、異なる特性を有するケースに対して最適に性能を発揮し、組み合わさると、投票方略は、ケースの特定のサブセット（1つまたは複数）に対する任意の所与のモデルの最適以下の性能を考慮に入れる。

まとめると、本発明者らは、先進の機械学習アルゴリズムを用いて、FOLFOX化学療法治療レジメンに対するCRC患者の反応または非反応を予測する複数のモデルを構築した。複数のモデルはそれぞれ、本明細書に開示される方法にしたがって「票」を与えられ、大多数が「勝利」する。この方法は、異なる実世界試料（すなわち実際の臨床試料）の間でロバストな結果を提供することが示され、単に予後的であるだけでなく、偏側性に対してロバストである。治療担当医は、本発明者らのFOLFOXテストの結果を使用して、CRC患者をFOLFOXで治療するのか、FOLFIRIなどの代替レジメンで治療するのかの決定を支援することができる。

実施例3：結腸直腸がん患者のための治療の選択
結腸直腸がん患者を治療するがん専門医は、患者をFOLFOXで治療するのか、FOLFIRIで治療するのかを決定することを望む。腫瘍細胞を含む生体試料が患者から捕集される。実施例1にしたがって、試料に関する分子プロファイルが生成される。表10に記載された5つのランダムフォレストモデルのそれぞれを使用して、分子プロファイルが、FOLFOXに反応する可能性が高いことを示すもの、または反応しない可能性が高いことを示すものとして分類される。大多数分類は、実行された分子プロファイリングをも記載するレポートに含まれる。レポートはがん専門医に提供される。がん専門医は、レポート中の分類を使用して、患者のための治療レジメンの決定を支援する。分類がレスポンダーである場合に、がん専門医はその患者をFOLFOXで治療する。分類がレスポンダーである場合に、がん専門医はその患者をFOLFIRIで治療する。

他の態様
本発明はその詳細な説明と併せて説明されたが、前述の説明は、例を示すことを意図し、添付の特許請求の範囲によって画定される、本明細書に記載される範囲を限定することを意図しないことが理解される。他の局面、利点および改変が特許請求の範囲内に入る。

Claims

対象の疾患もしくは障害の治療の有効性を予測するための機械学習モデルの訓練において使用するための入力データ構造を生成するための、データ処理装置であって、
該データ処理装置が、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを含み、
該動作が、
該データ処理装置により、1つまたは複数のバイオマーカーデータ構造および1つまたは複数の転帰データ構造を得る工程；
該データ処理装置により、対象と関連付けされた1つまたは複数のバイオマーカーを表す第一のデータを、該1つまたは複数のバイオマーカーデータ構造から抽出し、疾患もしくは障害および治療を表す第二のデータを、該1つまたは複数の転帰データ構造から抽出し、該疾患もしくは障害のための治療の転帰を表す第三のデータを抽出する工程；
該データ処理装置により、該1つまたは複数のバイオマーカーを表す第一のデータおよび該疾患もしくは障害および治療を表す第二のデータに基づいて、機械学習モデルへ入力するためのデータ構造を生成する工程；
該データ処理装置により、該生成されたデータ構造を該機械学習モデルへの入力として提供する工程；
該データ処理装置により、該生成されたデータ構造の該機械学習モデルの処理に基づいて、該機械学習モデルによって生成された出力を得る工程；
該データ処理装置により、該疾患もしくは障害のための治療の転帰を表す第三のデータと、該機械学習モデルによって生成された出力との間の差を決定する工程；ならびに
該データ処理装置により、該疾患もしくは障害のための治療の転帰を表す第三のデータと、該機械学習モデルによって生成された出力との間の差に基づいて、該機械学習モデルの1つまたは複数のパラメータを調節する工程
を含む、前記データ処理装置。
1つまたは複数のバイオマーカーのセットが、表2～8のいずれか1つに記載された1つまたは複数のバイオマーカーを含む、請求項1に記載のデータ処理装置。
1つまたは複数のバイオマーカーのセットが、請求項2に記載のバイオマーカーのそれぞれを含む、請求項1に記載のデータ処理装置。
1つまたは複数のバイオマーカーのセットが、請求項2に記載のバイオマーカーの少なくとも1つを含み、任意で、1つまたは複数のバイオマーカーのセットが、表5、表6、表7、表8中のマーカーまたはそれらの任意の組み合わせを含む、請求項1に記載のデータ処理装置。
特定の治療に対する対象の治療反応性を予測するための機械学習モデルの訓練において使用するための入力データ構造を生成するための、データ処理装置であって、
該データ処理装置が、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを含み、
該動作が、
該データ処理装置により、第一の分散データソースから、対象と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化する第一のデータ構造を得る工程であって、該第一のデータ構造が、該対象を同定するキーバリューを含む、工程；
該データ処理装置により、該第一のデータ構造を1つまたは複数のメモリデバイスに記憶する工程；
該データ処理装置により、第二の分散データソースから、該1つまたは複数のバイオマーカーを有する対象の転帰データを表すデータを構造化する第二のデータ構造を得る工程であって、該転帰データが、疾患もしくは障害、治療、および該治療の有効性の指標を同定するデータを含み、該第二のデータ構造も、該対象を同定するキーバリューを含む、工程；
該データ処理装置により、該第二のデータ構造を1つまたは複数のメモリデバイスに記憶する工程；
該データ処理装置により、該メモリデバイスに記憶された該第一のデータ構造および該第二のデータ構造を使用して、（i）1つまたは複数のバイオマーカーのセット、該疾患もしくは障害、および治療を表すデータ、ならびに（ii）該疾患もしくは障害のための治療の有効性の指標を提供するラベルを含む、ラベル付き訓練データ構造を生成する工程であって、該データ処理装置により、該第一のデータ構造および第二のデータ構造を使用して生成する工程が、該データ処理装置により、該対象を同定するキーバリューに基づいて、該対象と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化する第一のデータ構造と、該1つまたは複数のバイオマーカーを有する対象の転帰データを表す第二のデータ構造とを相関させることを含む、工程；ならびに
該データ処理装置により、該生成されたラベル付き訓練データ構造を使用して、機械学習モデルを訓練する工程であって、該生成されたラベル付き訓練データ構造を使用して機械学習モデルを訓練する工程が、該データ処理装置により、該生成されたラベル訓練データ構造を該機械学習モデルへの入力として該機械学習モデルに提供することを含む、工程
を含む、前記データ処理装置。
動作が、
データ処理装置により、機械学習モデルから、生成されたラベル付き訓練データ構造の機械学習モデルの処理に基づいて、該機械学習モデルによって生成された出力を得る工程；ならびに
該データ処理装置により、該機械学習モデルによって生成された該出力と、疾患もしくは障害のための治療の有効性の指標を提供するラベルとの間の差を決定する工程
をさらに含む、請求項5に記載のデータ処理装置。
動作が、
データ処理装置により、機械学習モデルによって生成された出力と、疾患もしくは障害のための治療の有効性の指標を提供するラベルとの間の決定された差に基づいて、該機械学習モデルの1つまたは複数のパラメータを調節する工程
をさらに含む、請求項6に記載のデータ処理装置。
1つまたは複数のバイオマーカーのセットが、表2～8のいずれか1つに記載された1つまたは複数のバイオマーカーを含み、任意で、1つまたは複数のバイオマーカーのセットが、表5、表6、表7、表8中のマーカーまたはそれらの任意の組み合わせを含む、請求項5に記載のデータ処理装置。
1つまたは複数のバイオマーカーのセットが、請求項8に記載のバイオマーカーのそれぞれを含む、請求項5に記載のデータ処理装置。
1つまたは複数のバイオマーカーのセットが、請求項8に記載のバイオマーカーの1つを含む、請求項5に記載のデータ処理装置。
請求項1～10のいずれか一項に記載の動作のそれぞれに対応する工程を含む、方法。
1つまたは複数のコンピュータと、該1つまたは複数のコンピュータによって実行される場合に該1つまたは複数のコンピュータに請求項1～10のいずれか一項に記載の動作のそれぞれを実行させる命令を記憶する1つまたは複数のデータ記憶媒体とを含む、システム。
1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に該1つまたは複数のコンピュータに、請求項1～10のいずれか一項に記載の動作を実行させる命令
を含むソフトウェアを記憶する、非一時的コンピュータ可読媒体。
エンティティの分類のための方法であって、
複数の機械学習モデルの各特定の機械学習モデルに関し、
予測または分類を決定するように訓練された特定の機械学習モデルに、分類されるエンティティの種類を表す入力データを提供し、
該特定の機械学習モデルによる入力データの処理に基づいて、該特定の機械学習モデルによって生成された、複数の候補エンティティクラスの初期エンティティクラスへのエンティティ分類を表す出力データを得る工程；
該複数の機械学習モデルのそれぞれに関して得られた出力データを投票ユニットに提供する工程であって、該提供された出力データが、該複数の機械学習モデルのそれぞれによって決定された初期エンティティクラスを表すデータを含む、工程；ならびに
該投票ユニットにより、該提供された出力データに基づいて、該エンティティのための現実のエンティティクラスを決定する工程
を含む、前記方法。
エンティティのための現実のエンティティクラスが、提供された出力データに多数決原理を適用することによって決定される、請求項14に記載の方法。
投票ユニットにより、提供された出力データに基づいて、エンティティのための現実のエンティティクラスを決定する工程が、
該投票ユニットにより、複数の候補エンティティクラスの各初期エンティティクラスの出現回数を決定すること；ならびに
該投票ユニットにより、該複数の候補エンティティクラスのうち、最大の出現回数を有する初期エンティティクラスを選択すること
を含む、請求項14または15に記載の方法。
複数の機械学習モデルの各機械学習モデルが、ランダムフォレスト分類アルゴリズム、サポートベクターマシン、ロジスティック回帰、k近傍法モデル、人工ニューラルネットワーク、単純ベイズモデル、二次判別分析、またはガウス過程モデルを含む、請求項14～16のいずれか一項に記載の方法。
複数の機械学習モデルの各機械学習モデルが、ランダムフォレスト分類アルゴリズムを含む、請求項14～16のいずれか一項に記載の方法。
複数の機械学習モデルが、同じタイプの分類アルゴリズムの複数の表現を含む、請求項14～18のいずれか一項に記載の方法。
入力データが、（i）エンティティ属性、および（ii）疾患もしくは障害のための治療の種類を表す、請求項14～18のいずれか一項に記載の方法。
複数の候補エンティティクラスが、反応クラスまたは非反応クラスを含む、請求項20に記載の方法。
エンティティ属性が、エンティティのための1つまたは複数のバイオマーカーを含む、請求項20または21に記載の方法。
1つまたは複数のバイオマーカーが、エンティティのすべての公知の遺伝子よりも少ない遺伝子のパネルを含む、請求項22に記載の方法。
1つまたは複数のバイオマーカーが、エンティティのためのすべての公知の遺伝子を含む遺伝子のパネルを含む、請求項22に記載の方法。
入力データが、疾患もしくは障害の種類を表すデータをさらに含む、請求項20～24のいずれか一項に記載の方法。
1つまたは複数のコンピュータと、該1つまたは複数のコンピュータによって実行される場合に該1つまたは複数のコンピュータに請求項14～25のいずれか一項に記載の動作のそれぞれを実行させる命令を記憶する1つまたは複数のデータ記憶媒体とを含む、システム。
1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に該1つまたは複数のコンピュータに、請求項14～25のいずれか一項に記載の動作を実行させる命令
を含むソフトウェアを記憶する、非一時的コンピュータ可読媒体。
対象におけるがん由来の細胞を含む生体試料を得る工程；ならびに
該生体試料中の少なくとも1つのバイオマーカーを評価するためのアッセイを実施する工程
を含む、方法であって、
該バイオマーカーが、
（a）MYC、EP300、U2AF1、ASXL1、MAML2およびCNTRLの1、2、3、4、5または6個すべてを含む、グループ1；
（b）MYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRNおよびCDX2の1、2、3、4、5、6、7または8個すべてを含む、グループ2；
（c）BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、HOXA11、AURKA、BIRC3、IKZF1、CASP8およびEP300の1、2、3、4、5、6、7、8、9、10、11、12、13または14個すべてを含む、グループ3；
（d）PBX1、BCL9、INHBA、PRRX1、YWHAE、GNAS、LHFPL6、FCRL4、AURKA、IKZF1、CASP8、PTENおよびEP300の1、2、3、4、5、6、7、8、9、10、11、12または13個すべてを含む、グループ4；
（e）BCL9、PBX1、PRRX1、INHBA、GNAS、YWHAE、LHFPL6、FCRL4、PTEN、HOXA11、AURKAおよびBIRC3の1、2、3、4、5、6、7、8、9、10、11または12個すべてを含む、グループ5；
（f）BCL9、PBX1、PRRX1、INHBAおよびYWHAEの1、2、3、4または5個すべてを含む、グループ6；
（g）BCL9、PBX1、GNAS、LHFPL6、CASP8、ASXL1、FH、CRKL、MLF1、TRRAP、AKT3、ACKR3、MSI2、PCM1およびMNX1の1、2、3、4、5、6、7、8、9、10、11、12、13、14または15個すべてを含む、グループ7；
（h）BX1、GNAS、AURKA、CASP8、ASXL1、CRKL、MLF1、GAS7、MN1、SOX10、TCL1A、LMO1、BRD3、SMARCA4、PER1、PAX7、SBDS、SEPT5、PDGFB、AKT2、TERT、KEAP1、ETV6、TOP1、TLX3、COX6C、NFIB、ARFRP1、ARID1A、MAP2K4、NFKBIA、WWTR1、ZNF217、IL2、NSD3、CREB1、BRIP1、SDC4、EWSR1、FLT3、FLT1、FAS、CCNE1、RUNX1T1およびEZRの1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44または45個すべてを含む、グループ8；ならびに
（i）BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、BIRC3、AURKAおよびHOXA11の1、2、3、4、5、6、7、8、9、10または11個すべてを含む、グループ9
のうちの少なくとも1つを含む、前記方法。
生体試料が、ホルマリン固定パラフィン包埋（FFPE）組織、固定組織、コア針生検、穿刺吸引液、非染色スライド、新鮮凍結（FF）組織、ホルマリン試料、核酸もしくはタンパク質分子を保存する溶液に含まれる組織、新鮮な試料、悪性流体、体液、腫瘍試料、組織試料またはそれらの任意の組み合わせを含む、請求項28に記載の方法。
生体試料が固形腫瘍からの細胞を含む、請求項28または29に記載の方法。
生体試料が体液を含む、請求項28または29に記載の方法。
体液が、悪性流体、胸膜液、腹膜液またはそれらの任意の組み合わせを含む、請求項28～31のいずれか一項に記載の方法。
体液が、末梢血、血清、血漿、腹水、尿、脳脊髄液（CSF）、痰、唾液、骨髄、滑液、眼房水、羊水、耳垢、母乳、気管支肺胞洗浄液、精液、前立腺液、カウパー腺液、尿道球腺液、女性射精液、汗、糞便、涙液、嚢胞液、胸膜液、腹膜液、心膜液、リンパ液、糜粥、乳糜、胆汁、間質液、月経分泌物、膿、皮脂、嘔吐物、膣分泌液、粘膜分泌液、水便、膵液、鼻腔からの洗浄液、気管支肺吸引液、胞胚腔液または臍帯血を含む、請求項28～32のいずれか一項に記載の方法。
評価が、バイオマーカーごとにタンパク質または核酸の存在、レベルまたは状態を決定することを含み、任意で、該核酸が、デオキシリボ核酸（DNA）、リボ核酸（RNA）またはそれらの組み合わせを含む、請求項28～33のいずれか一項に記載の方法。
（a）タンパク質の存在、レベルまたは状態が、免疫組織化学（IHC）、フローサイトメトリー、イムノアッセイ、抗体もしくはその機能的断片、アプタマーまたはそれらの任意の組み合わせを使用して決定される；および／または
（b）核酸の存在、レベルまたは状態が、ポリメラーゼ連鎖反応（PCR）、インサイチューハイブリダイゼーション、増幅、ハイブリダイゼーション、マイクロアレイ、核酸シーケンシング、ダイターミネータシーケンシング、パイロシーケンシング、次世代シーケンシング（NGS；ハイスループットシーケンシング）またはそれらの任意の組み合わせを使用して決定される、請求項34に記載の方法。
核酸の状態が、配列、変異、多型、欠失、挿入、置換、転座、融合、切断、重複、増幅、反復、コピー数、コピー数多型（CNV；コピー数変化；CNA)、またはそれらの任意の組み合わせを含む、請求項35に記載の方法。
核酸の状態がコピー数を含む、請求項36に記載の方法。
グループ1のすべてのメンバー（すなわちMYC、EP300、U2AF1、ASXL1、MAML2およびCNTRL）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む、請求項37に記載の方法。
グループ2のすべてのメンバー（すなわちMYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRNおよびCDX2）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む、請求項37に記載の方法。
グループ3のすべてのメンバー（すなわちBCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、HOXA11、AURKA、BIRC3、IKZF1、CASP8およびEP300）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む、請求項37に記載の方法。
グループ4のすべてのメンバー（すなわちPBX1、BCL9、INHBA、PRRX1、YWHAE、GNAS、LHFPL6、FCRL4、AURKA、IKZF1、CASP8、PTENおよびEP300）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む、請求項37に記載の方法。
グループ5のすべてのメンバー（すなわちBCL9、PBX1、PRRX1、INHBA、GNAS、YWHAE、LHFPL6、FCRL4、PTEN、HOXA11、AURKAおよびBIRC3）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む、請求項37に記載の方法。
グループ6のすべてのメンバー（すなわちBCL9、PBX1、PRRX1、INHBAおよびYWHAE）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む、請求項37に記載の方法。
グループ7のすべてのメンバー（すなわちBCL9、PBX1、GNAS、LHFPL6、CASP8、ASXL1、FH、CRKL、MLF1、TRRAP、AKT3、ACKR3、MSI2、PCM1およびMNX1）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む、請求項37に記載の方法。
グループ8のすべてのメンバー（すなわちBX1、GNAS、AURKA、CASP8、ASXL1、CRKL、MLF1、GAS7、MN1、SOX10、TCL1A、LMO1、BRD3、SMARCA4、PER1、PAX7、SBDS、SEPT5、PDGFB、AKT2、TERT、KEAP1、ETV6、TOP1、TLX3、COX6C、NFIB、ARFRP1、ARID1A、MAP2K4、NFKBIA、WWTR1、ZNF217、IL2、NSD3、CREB1、BRIP1、SDC4、EWSR1、FLT3、FLT1、FAS、CCNE1、RUNX1T1およびEZR）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む、請求項37に記載の方法。
グループ9のすべてのメンバー（すなわちBCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、BIRC3、AURKAおよびHOXA11）またはそれらに近接するゲノム領域のコピー数を決定するためのアッセイを実施する工程を含む、請求項37に記載の方法。
（a）グループ1およびグループ2の少なくとも1つもしくはすべてのメンバーまたはそれらに近接するゲノム領域；
（b）グループ3の少なくとも1つもしくはすべてのメンバーまたはそれらに近接するゲノム領域；または
（c）グループ2、グループ6、グループ7、グループ8およびグループ9の少なくとも1つもしくはすべてのメンバーまたはそれらに近接するゲノム領域
のコピー数を決定するためのアッセイを実施する工程を含む、請求項37に記載の方法。
バイオマーカーのコピー数を参照コピー数（例えば二倍体）と比較し、コピー数多型（CNV）を有するバイオマーカーを同定する工程をさらに含む、請求項37～47のいずれか一項に記載の方法。
CNVを有する遺伝子またはそれに近接する領域を同定する分子プロファイルを生成する工程をさらに含む、請求項48に記載の方法。
PTENタンパク質の存在またはレベルが決定され、任意で、該PTENタンパク質の存在またはレベルが、免疫組織化学（IHC）を使用して決定される、請求項28～49のいずれか一項に記載の方法。
TOPO1および1つまたは複数のミスマッチ修復タンパク質（例えばMLH1、MSH2、MSH6およびPMS2）を含むタンパク質のレベルを決定する工程をさらに含み、任意で、該PTENタンパク質の存在またはレベルが、免疫組織化学（IHC）を使用して決定される、請求項28～50のいずれか一項に記載の方法。
1つのタンパク質または複数のタンパク質のレベルを、該1つのタンパク質または該複数のタンパク質のそれぞれの参照レベルと比較する工程をさらに含む、請求項50または51に記載の方法。
参照レベルとは異なる、例えば該参照レベルとは有意に異なるレベルを有するタンパク質を同定する分子プロファイルを生成する工程をさらに含む、請求項52に記載の方法。
評価されたバイオマーカーに基づいて有望なベネフィットの治療を選択する工程をさらに含み、任意で、該治療が、5-フルオロウラシル／ロイコボリンをオキサリプラチンと組み合わせた治療（FOLFOX）またはその代替治療を含み、任意で、該代替治療が、5-フルオロウラシル／ロイコボリンをイリノテカンと組み合わせた治療（FOLFIRI）を含む、請求項28～53のいずれか一項に記載の方法。
有望なベネフィットの治療を選択する工程が、
（a）請求項37～47のいずれか一項に記載の決定されたコピー数；および／または
（b）請求項49または53に記載の分子プロファイル
に基づく、請求項54に記載の方法。
請求項37～47のいずれか一項に記載の決定されたコピー数に基づいて有望なベネフィットの治療を選択する工程が、投票モジュールの使用を含む、請求項55に記載の方法。
投票モジュールが、請求項14～25のいずれか一項に記載のものである、請求項56に記載の方法。
投票モジュールが、少なくとも1つのランダムフォレストモデルの使用を含む、請求項56または57に記載の方法。
投票モジュールの使用が、機械学習分類モデルを、グループ2、グループ6、グループ7、グループ8およびグループ9のそれぞれに関して得られたコピー数に適用することを含み、任意で、各機械学習分類モデルがランダムフォレストモデルであり、任意で、該ランダムフォレストモデルが表10に記載されるものである、請求項56～58のいずれか一項に記載の方法。
対象が、有望なベネフィットの治療で以前に治療されたことがない、請求項54～59のいずれか一項に記載の方法。
がんが、転移がん、再発がんまたはそれらの組み合わせを含む、請求項28～60のいずれか一項に記載の方法。
対象が、がんの治療を以前に受けたことがない、請求項28～61のいずれか一項に記載の方法。
有望なベネフィットの治療を対象に投与する工程をさらに含む、請求項54～62のいずれか一項に記載の方法。
無増悪生存期間（PFS）、無病生存期間（DFS）または寿命が、前記治療の投与によって延長される、請求項63に記載の方法。
がんが、急性リンパ芽球性白血病；急性骨髄性白血病；副腎皮質がん；AIDS関連がん；AIDS関連リンパ腫；肛門がん；虫垂がん；星状細胞腫；非定型奇形腫様／ラブドイド腫瘍；基底細胞がん；膀胱がん；脳幹部神経膠腫；脳腫瘍、脳幹部神経膠腫、中枢神経系非定型奇形腫様／ラブドイド腫瘍、中枢神経系胚芽腫、星状細胞腫、頭蓋咽頭腫、上衣芽腫、上衣腫、髄芽腫、髄様上皮腫、中間型松果体実質腫瘍、テント上原始神経外胚葉性腫瘍および松果体芽腫；乳がん；気管支腫瘍；バーキットリンパ腫；原発不明がん（CUP）；カルチノイド腫瘍；原発不明がん腫；中枢神経系非定型奇形腫様／ラブドイド腫瘍；中枢神経系胚芽腫；子宮頸がん；小児がん；脊索腫；慢性リンパ性白血病；慢性骨髄性白血病；慢性骨髄増殖性障害；結腸がん；結腸直腸がん；頭蓋咽頭腫；皮膚T細胞リンパ腫；内分泌膵島細胞腫瘍；子宮内膜がん；上衣芽腫；上衣腫；食道がん；鼻腔神経芽細胞腫；ユーイング肉腫；頭蓋外胚細胞腫瘍；性腺外胚細胞腫瘍；肝外胆管がん；胆嚢がん；胃がん（gastric (stomach) cancer）；消化管カルチノイド腫瘍；消化管間質細胞腫瘍；消化管間質腫瘍（GIST）；妊娠性絨毛性腫瘍；神経膠腫；毛様細胞性白血病；頭頸部がん；心臓がん；ホジキンリンパ腫；下咽頭がん；眼内黒色腫；膵島腫瘍；カポジ肉腫；腎臓がん；ランゲルハンス細胞組織球症；喉頭がん；口唇がん；肝臓がん；悪性線維性組織球腫骨がん；髄芽腫；髄様上皮腫；黒色腫；メルケル細胞がん；メルケル細胞皮膚がん；中皮腫；原発不明転移性扁平上皮性頸部がん；口腔がん（mouth cancer）；多発性内分泌腫瘍症候群；多発性骨髄腫；多発性骨髄腫／形質細胞腫瘍；菌状息肉腫；骨髄異形成症候群；骨髄増殖性腫瘍；鼻腔がん；鼻咽頭がん；神経芽細胞腫；非ホジキンリンパ腫；非黒色腫皮膚がん；非小細胞肺がん；口腔がん（oral cancer）；口腔がん（oral cavity cancer）；中咽頭がん；骨肉腫；他の脳および脊髄の腫瘍；卵巣がん；卵巣上皮がん；卵巣胚細胞腫瘍；卵巣低悪性度腫瘍；膵臓がん；乳頭腫症；副鼻腔がん；副甲状腺がん；骨盤がん；陰茎がん；咽頭がん；中間型松果体実質腫瘍；松果体芽腫；下垂体腫瘍；形質細胞腫瘍／多発性骨髄腫；胸膜肺芽腫；原発性中枢神経系（CNS）リンパ腫；原発性肝細胞肝がん；前立腺がん；直腸がん；腎臓がん；腎細胞（腎臓）がん；腎細胞がん；気道がん；網膜芽細胞腫；横紋筋肉腫；唾液腺がん；セザリー症候群；小細胞肺がん；小腸がん；軟部組織肉腫；扁平上皮がん；頸部扁平上皮がん；胃がん（stomach (gastric) cancer）；テント上原始神経外胚葉性腫瘍；T細胞リンパ腫；精巣がん；咽喉がん；胸腺がん；胸腺腫；甲状腺がん；移行上皮がん；腎盂および尿管の移行上皮がん；絨毛性腫瘍；尿管がん；尿道がん；子宮がん；子宮肉腫；膣がん；外陰がん；ワルデンシュトレーム型マクログロブリン血症；またはウィルムス腫瘍を含む、請求項28～64のいずれか一項に記載の方法。
がんが、急性骨髄性白血病（AML）、乳がん、胆管がん、結腸直腸腺がん、肝外胆管腺がん、女性性器悪性腫瘍、胃腺がん、胃食道腺がん、消化管間質腫瘍（GIST）、神経膠芽腫、頭頸部扁平上皮がん、白血病、肝細胞がん、低悪性度神経膠腫、肺気管支肺胞がん（BAC）、非小細胞肺がん（NSCLC）、肺小細胞がん（SCLC）、リンパ腫、男性生殖器悪性腫瘍、胸膜の悪性孤立性線維性腫瘍（MSFT）、黒色腫、多発性骨髄腫、神経内分泌腫瘍、結節性びまん性大細胞型B細胞リンパ腫、非上皮性卵巣がん（非EOC）、卵巣表面上皮がん、膵臓腺がん、下垂体がん、乏突起神経膠腫、前立腺腺がん、後腹膜もしくは腹膜がん、後腹膜もしくは腹膜肉腫、小腸悪性腫瘍、軟部組織腫瘍、胸腺がん、甲状腺がんまたはブドウ膜黒色腫を含む、請求項28～64のいずれか一項に記載の方法。
がんが結腸直腸がんを含む、請求項28～64のいずれか一項に記載の方法。
結腸直腸がんを有する対象のための治療を選択する方法であって、
結腸直腸がん由来の細胞を含む生体試料を得る工程；
該生体試料からのゲノムDNAに対して次世代シーケンシングを実施して、
（a）MYC、EP300、U2AF1、ASXL1、MAML2、CNTRL、WRNおよびCDX2の1、2、3、4、5、6、7または8個すべてを含む、グループ2；
（b）BCL9、PBX1、PRRX1、INHBAおよびYWHAEの1、2、3、4または5個すべてを含む、グループ6；
（c）BCL9、PBX1、GNAS、LHFPL6、CASP8、ASXL1、FH、CRKL、MLF1、TRRAP、AKT3、ACKR3、MSI2、PCM1およびMNX1の1、2、3、4、5、6、7、8、9、10、11、12、13、14または15個すべてを含む、グループ7；
（d）BX1、GNAS、AURKA、CASP8、ASXL1、CRKL、MLF1、GAS7、MN1、SOX10、TCL1A、LMO1、BRD3、SMARCA4、PER1、PAX7、SBDS、SEPT5、PDGFB、AKT2、TERT、KEAP1、ETV6、TOP1、TLX3、COX6C、NFIB、ARFRP1、ARID1A、MAP2K4、NFKBIA、WWTR1、ZNF217、IL2、NSD3、CREB1、BRIP1、SDC4、EWSR1、FLT3、FLT1、FAS、CCNE1、RUNX1T1およびEZRの1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44または45個すべてを含む、グループ8；ならびに
（e）BCL9、PBX1、PRRX1、INHBA、YWHAE、GNAS、LHFPL6、FCRL4、BIRC3、AURKAおよびHOXA11の1、2、3、4、5、6、7、8、9、10または11個すべてを含む、グループ9
の遺伝子またはそれらに近接するゲノム領域のそれぞれに関して、コピー数を決定する工程；
機械学習分類モデルを、グループ2、グループ6、グループ7、グループ8およびグループ9のそれぞれに関して得られたコピー数に適用する工程であって、任意で、各機械学習分類モデルがランダムフォレストモデルであり、任意で、該ランダムフォレストモデルが表10に記載されるものである、工程；
各機械学習分類モデルから、該対象が、5-フルオロウラシル／ロイコボリンをオキサリプラチンと組み合わせた治療（FOLFOX）からベネフィットを得る可能性が高いかどうかの指標を得る工程；ならびに
該対象が該治療からベネフィットを得る可能性が高いと機械学習分類モデルの大多数が示す場合、FOLFOXを選択し、該対象がFOLFOXからベネフィットを得る可能性が低いと機械学習分類モデルの大多数が示す場合、FOLFOXの代替治療を選択する工程であって、任意で、該代替治療が、5-フルオロウラシル／ロイコボリンをイリノテカンと組み合わせた治療（FOLFIRI）である、工程
を含む、前記方法。
選択された治療を対象に投与する工程をさらに含む、請求項68に記載の方法。
請求項28～69のいずれか一項に記載の方法を実施した結果を要約するレポートを作成する工程を含む、分子プロファイリングレポートを生成する方法。
レポートが、
（a）請求項54～59のいずれか一項に記載の有望なベネフィットの治療；または
（b）請求項68または69に記載の選択された治療
を含む、請求項70に記載の方法。
レポートが、コンピュータ生成されるか；プリントされたレポートもしくはコンピュータファイルであるか；またはウェブポータルを介してアクセス可能である、請求項70または71に記載の方法。
対象におけるがんのための治療法を同定するためのシステムであって、
（a）少なくとも1つのホストサーバ；
（b）データにアクセスしデータを入力するために、該少なくとも1つのホストサーバにアクセスするための、少なくとも1つのユーザインタフェース；
（c）入力されたデータを処理するための、少なくとも1つのプロセッサ；
（d）処理されたデータと、
（1）請求項28～69のいずれか一項に記載の生体試料を分析した結果にアクセスし、かつ
（2）請求項54～59のいずれか一項に記載の有望なベネフィットの治療または請求項68もしくは69に記載の選択された治療を決定する
ための命令と
を記憶するための、該プロセッサに結合された少なくとも1つのメモリ；ならびに
（e）FOLFOXまたはそれに代わるもの、例えばFOLFIRIであるがんの治療を表示するための、少なくとも1つのディスプレイ
を含む、前記システム。
少なくとも1つのディスプレイが、生体試料を分析した結果と、がんの治療に有望なベネフィットを有するかまたはがんの治療のために選択された治療とを含むレポートを含む、請求項73に記載のシステム。