本発明は、例えば、ハイブリッド捕捉に基づく次世代配列決定(NGS)プラットフォームを使用して、患者試料からのゲノムまたはエクソームの小画分をプロファイリングすることが、全ての変異荷重の分析に対して有効な代替法の役割を果たすという発見に少なくとも部分的に基づく。変異負荷を検出するための標的NGS手法を含む方法を使用することは、例えば、全ゲノムまたは全エクソーム解析と比較してより早い、例えば、より臨床的に管理可能な結果所要時間(約2週間)、標準化情報学パイプライン、及びより管理可能なコストを含むが、これらに限定されない、いくつかの利点を有する。本明細書に開示される方法は、本方法が主観的尺度(例えば、病理学的スコア付け)よりむしろ、客観的尺度(例えば、変異荷重)を生み出すために、組織化学的に検出されるタンパク質発現などの従来のマーカーを上回る他の利点を有する。本明細書に開示される方法は、標的療法のための実施可能な変化、ならびに免疫療法のための変異負荷の同時検出も可能にする。これらの方法は、がんを有する患者における療法に対する応答の臨床的に実施可能な予測因子を提供し得る。
したがって、本発明は、試料からのサブゲノム区間のセットの配列を提供すること、及び変異荷重に対する値を決定することによって、試料中の変異荷重を評価する方法を少なくとも部分的に提供し、ここで、値は、サブゲノム区間のセット内の変化の数の関数である。ある特定の実施形態において、サブゲノム区間のセットは、所定の遺伝子セット、例えば、全ゲノムまたはエクソームを含まない所定の遺伝子セットからのものである。ある特定の実施形態において、サブゲノム区間のセットは、コードサブゲノム区間のセットである。他の実施形態において、サブゲノム区間のセットは、コードサブゲノム区間及び非コードサブゲノム区間の両方を含有する。ある特定の実施形態において、変異荷重に対する値は、サブゲノム区間のセット内の変化(例えば、体細胞変化)の数の関数である。ある特定の実施形態において、変化の数は、機能的変化、生殖細胞変化、またはそれらの両方を除外する。いくつかの実施形態において、試料は、腫瘍試料または腫瘍由来の試料である。本明細書に記載される方法はまた、例えば、試料から複数の腫瘍メンバーを含むライブラリを取得することと、ライブラリをベイトセットと接触させて、ハイブリダイゼーションによって選択された腫瘍メンバーを提供し、それにより、ライブラリキャッチを提供することと、ライブラリキャッチからの腫瘍メンバーから変化を含むサブゲノム区間に対する読み取りデータを取得することと、整列法によって読み取りデータを整列させることと、読み取りデータから事前選択されたヌクレオチド位置にヌクレオチド値を割り当てることと、割り当てられたヌクレオチド位置のセットから、所定の遺伝子セットからのものであるサブゲノム区間のセットを選択することと、のうちの1つ以上を含み得る。
一態様において、本発明は、試料、例えば、腫瘍試料(例えば、腫瘍から取得される試料)中の変異荷重を評価する方法を特徴とする。本方法は、
a)試料からのサブゲノム区間(例えば、コードサブゲノム区間)のセットであって、所定の遺伝子セットからのものである、サブゲノム区間のセットの配列、例えば、ヌクレオチド配列を提供することと、
b)変異荷重に対する値を決定することと、を含み、値は、サブゲノム区間のセット内の変化(例えば、1つ以上の変化)、例えば、体細胞変化(例えば、1つ以上の体細胞変化)の数の関数である。
ある特定の実施形態において、変化の数は、サブゲノム区間内の機能的変化を除外する。他の実施形態において、変化の数は、サブゲノム区間内の生殖細胞変化を除外する。ある特定の実施形態において、変化の数は、サブゲノム区間内の機能的変化及びサブゲノム区間内の生殖細胞変化を除外する。
ある特定の実施形態において、サブゲノム区間のセットは、コードサブゲノム区間を含む。他の実施形態において、サブゲノム区間のセットは、非コードサブゲノム区間を含む。ある特定の実施形態において、サブゲノム区間のセットは、コードサブゲノム区間を含む。他の実施形態において、サブゲノム区間のセットは、1つ以上のコードサブゲノム区間及び1つ以上の非コードサブゲノム区間を含む。ある特定の実施形態において、サブゲノム区間のセット内のサブゲノム区間の約5%以上、約10%以上、約20%以上、約30%以上、約40%以上、約50%以上、約60%以上、約70%以上、約80%以上、約90%以上、または約95%以上がコードサブゲノム区間である。他の実施形態において、サブゲノム区間のセット内のサブゲノム区間の約90%以下、約80%以下、約70%以下、約60%以下、約50%以下、約40%以下、約30%以下、約20%以下、約10%以下、または約5%以下が非コードサブゲノム区間である。
他の実施形態において、サブゲノム区間のセットは、全ゲノムまたは全エクソームを含まない。他の実施形態において、コードサブゲノム区間のセットは、全エクソームを含まない。
ある特定の実施形態において、所定の遺伝子セットは、全ゲノムまたは全エクソームを含まない。他の実施形態において、所定の遺伝子セットは、表1~4または図3A~4Dに記載される1つ以上の遺伝子を含むか、またはそれらからなる。
ある特定の実施形態において、値は、所定の遺伝子セットの関数として表される。ある特定の実施形態において、値は、所定の遺伝子セットのコード領域の関数として表される。他の実施形態において、値は、所定の遺伝子セットの非コード領域の関数として表される。ある特定の実施形態において、値は、所定の遺伝子セットのエクソンの関数として表される。他の実施形態において、値は、所定の遺伝子セットのイントロンの関数として表される。
ある特定の実施形態において、値は、配列決定された所定の遺伝子セットの関数として表される。ある特定の実施形態において、値は、配列決定された所定の遺伝子セットのコード領域の関数として表される。他の実施形態において、値は、配列決定された所定の遺伝子セットの非コード領域の関数として表される。ある特定の実施形態において、値は、配列決定された所定の遺伝子セットのエクソンの関数として表される。他の実施形態において、値は、配列決定された所定の遺伝子セットのイントロンの関数として表される。
ある特定の実施形態において、値は、所定の遺伝子セットの事前選択された位置の数における変化(例えば、体細胞変化)の数の関数として表される。ある特定の実施形態において、値は、所定の遺伝子セットのコード領域の事前選択された位置の数における変化(例えば、体細胞変化)の数の関数として表される。他の実施形態において、値は、所定の遺伝子セットの非コード領域の事前選択された位置の数における変化(例えば、体細胞変化)の数の関数として表される。ある特定の実施形態において、値は、所定の遺伝子セットのエクソンの事前選択された位置の数における変化(例えば、体細胞変化)の数の関数として表される。他の実施形態において、値は、所定の遺伝子セットのイントロンの事前選択された位置の数における変化(例えば、体細胞変化)の数の関数として表される。
ある特定の実施形態において、値は、配列決定された所定の遺伝子セットの事前選択された位置の数における変化(例えば、体細胞変化)の数の関数として表される。ある特定の実施形態において、値は、配列決定された所定の遺伝子セットのコード領域の事前選択された位置の数における変化(例えば、体細胞変化)の数の関数として表される。他の実施形態において、値は、配列決定された所定の遺伝子セットの非コード領域の事前選択された位置の数における変化(例えば、体細胞変化)の数の関数として表される。ある特定の実施形態において、値は、配列決定された所定の遺伝子セットのエクソンの事前選択された位置の数における変化(例えば、体細胞変化)の数の関数として表される。他の実施形態において、値は、配列決定された所定の遺伝子セットのイントロンの事前選択された位置の数における変化(例えば、体細胞変化)の数の関数として表される。
ある特定の実施形態において、値は、事前選択された単位当たりの変化(例えば、体細胞変化)の数の関数として、例えば、1メガ塩基当たりの体細胞変化の数の関数として表される。
ある特定の実施形態において、値は、所定の遺伝子セット内の1メガ塩基当たりの変化(例えば、体細胞変化)の数の関数として表される。ある特定の実施形態において、値は、所定の遺伝子セットのコード領域内の1メガ塩基当たりの変化(例えば、体細胞変化)の数の関数として表される。他の実施形態において、値は、所定の遺伝子セットの非コード領域内の1メガ塩基当たりの変化(例えば、体細胞変化)の数の関数として表される。ある特定の実施形態において、値は、所定の遺伝子セットのエクソン内の1メガ塩基当たりの変化(例えば、体細胞変化)の数の関数として表される。他の実施形態において、値は、所定の遺伝子セットのイントロン内の1メガ塩基当たりの変化(例えば、体細胞変化)の数の関数として表される。
ある特定の実施形態において、値は、配列決定された所定の遺伝子セット内の1メガ塩基当たりの変化(例えば、体細胞変化)の数の関数として表される。ある特定の実施形態において、値は、配列決定された所定の遺伝子セットのコード領域内の1メガ塩基当たりの変化(例えば、体細胞変化)の数の関数として表される。他の実施形態において、値は、配列決定された所定の遺伝子セットの非コード領域内の1メガ塩基当たりの変化(例えば、体細胞変化)の数の関数として表される。ある特定の実施形態において、値は、配列決定された所定の遺伝子セットのエクソン内の1メガ塩基当たりの変化(例えば、体細胞変化)の数の関数として表される。他の実施形態において、値は、配列決定された所定の遺伝子セットのイントロン内の1メガ塩基当たりの変化(例えば、体細胞変化)の数の関数として表される。
ある特定の実施形態において、変異荷重は、より多くのゲノムに、例えば、エクソームまたは全ゲノムに外挿されて、例えば、全ての変異荷重を得る。他の実施形態において、変異荷重は、より多くのエクソームに、例えば、全エクソームに外挿される。
ある特定の実施形態において、試料は、対象からのものである。ある特定の実施形態において、対象は、障害、例えば、がんを有する。他の実施形態において、対象は、療法、例えば、免疫療法を受けているか、または受けたことがある。
ある特定の実施形態において、変異荷重は、例えば、参照集団からの試料中の変異荷重におけるパーセンタイルとして表される。ある特定の実施形態において、参照集団は、対象と同じ型のがんを有する患者を含む。他の実施形態において、参照集団は、対象と同じ種類の療法を受けているか、または受けたことのある患者を含む。
別の態様において、本発明は、試料、例えば、腫瘍試料または腫瘍由来の試料中の変異荷重を評価する方法を特徴とする。本方法は、
(i)試料から複数の腫瘍メンバーを含むライブラリを取得することと、
(ii)ライブラリを、選択された腫瘍メンバーを提供するためのベイトセットであって、腫瘍メンバーとハイブリッド形成する、該ベイトセットと接触させて、それにより、ライブラリキャッチを提供することと、
(iii)例えば、次世代配列決定法によって、該ライブラリキャッチからの腫瘍メンバーから変化(例えば、体細胞変化)を含むサブゲノム区間に対する読み取りデータを取得することと、
(iv)整列法によって該読み取りデータを整列させることと、
(v)該読み取りデータから、事前選択されたヌクレオチド位置にヌクレオチド値を割り当てることと、
(vi)割り当てられたヌクレオチド位置のセットから、所定の遺伝子セットからのものである、サブゲノム区間(例えば、コードサブゲノム区間)のセットを選択することと、
(vii)変異荷重に対する値を決定することと、を含み、値は、サブゲノム区間のセット内の変化(例えば、1つ以上の変化)、例えば、体細胞変化(例えば、1つ以上の体細胞変化)の数の関数である。
ある特定の実施形態において、変化の数(例えば、体細胞変化)は、サブゲノム区間内の機能的変化を除外する。他の実施形態において、変化の数は、サブゲノム区間内の生殖細胞変化を除外する。ある特定の実施形態において、変化の数(例えば、体細胞変化)は、サブゲノム区間内の機能的変化及びサブゲノム区間内の生殖細胞変化を除外する。
変化の種類
本明細書に記載されるような方法またはシステムにおいて、様々な種類の変化(例えば、体細胞変化)が評価され得、変異荷重の分析のために使用され得る。
体細胞変化
ある特定の実施形態において、本明細書に記載される方法に従って評価される変化は、変化(例えば、体細胞変化)である。
ある特定の実施形態において、変化(例えば、体細胞変化)は、短いコード変異形、例えば、塩基置換またはインデル(挿入または欠失)である。ある特定の実施形態において、変化(例えば、体細胞変化)は、点変異である。他の実施形態において、変化(例えば、体細胞変化)は、再編成以外、例えば、転座以外である。ある特定の実施形態において、変化(例えば、体細胞変化)は、スプライス変異形である。
ある特定の実施形態において、変化(例えば、体細胞変化)は、サイレント変異、例えば、同義変化である。他の実施形態において、変化(例えば、体細胞変化)は、非同義一塩基変異形(SNV)である。他の実施形態において、変化(例えば、体細胞変化)は、パッセンジャー変異、例えば、細胞のクローンの適応度に対して検出可能な影響を有さない変化である。ある特定の実施形態において、変化(例えば、体細胞変化)は、意義不明の変異形(VUS)、例えば、病原性を確認も排除もできない変化である。ある特定の実施形態において、変化(例えば、体細胞変化)は、がん表現型に関連していると識別されていない。
ある特定の実施形態において、変化(例えば、体細胞変化)は、細胞分裂、成長、もしくは生存に対する影響に関連していないか、またはそれに関連すると知られていない。他の実施形態において、変化(例えば、体細胞変化)は、細胞分裂、成長、または生存に対する影響に関連する。
ある特定の実施形態において、体細胞変化のレベル増加は、1つ以上の分類または種類の体細胞変化(例えば、再編成、点変異、インデル、またはそれらの任意の組み合わせ)のレベル増加である。ある特定の実施形態において、体細胞変化のレベル増加は、1つの分類または1つの種類の体細胞変化(例えば、再編成のみ、点変異のみ、またはインデルのみ)のレベル増加である。ある特定の実施形態において、体細胞変化のレベル増加は、事前選択された位置(例えば、本明細書に記載される変化)における体細胞変化のレベル増加である。ある特定の実施形態において、体細胞変化のレベル増加は、事前選択された体細胞変化(例えば、本明細書に記載される変化)のレベル増加である。
機能的変化
ある特定の実施形態において、変化の数(例えば、体細胞変化)は、サブゲノム区間内の機能的変化を除外する。
いくつかの実施形態において、機能的変化は、参照配列、例えば、野生型配列または未変異配列と比較すると、細胞分裂、成長、または生存に対して影響を有し、例えば、細胞分裂、成長、または生存を促進する変化である。ある特定の実施形態において、機能的変化は、機能的変化のデータベース、例えば、COSMICデータベース(cancer.sanger.ac.uk/cosmic;Forbes et al.Nucl. Acids Res. 2015;43(D1):D805-D811)に含むことにより識別される。他の実施形態において、機能的変化は、例えば、COSMICデータベースにおいて既知の体細胞変化として起こる既知の機能状態を伴う変化である。ある特定の実施形態において、機能的変化は、機能的である可能性が高い状態、例えば、腫瘍抑制遺伝子における切断を伴う変化である。ある特定の実施形態において、機能的変化は、ドライバー変異、例えば、細胞生存または繁殖を増加することによって、クローンにその微小環境において、選択優位性を供与する変化である。他の実施形態において、機能的変化は、クローン展開を引き起こすことができる変化である。ある特定の実施形態において、機能的変化は、次の(a)成長シグナルにおける自給自足、(b)抗成長シグナルの減少、例えば、それに対する非感受性、(c)アポトーシスの減少、(d)複製能の増加、(e)血管新生の持続、または(f)組織浸潤もしくは転移のうちの1つ、2つ、3つ、4つ、5つ、または全てを引き起こすことができる変化である。
ある特定の実施形態において、機能的変化は、パッセンジャー変異ではなく、例えば、細胞のクローンの適応度に対して検出可能な影響を有さない変化ではない。ある特定の実施形態において、機能的変化は、意義不明の変異形(VUS)ではなく、例えば、その病原性を確認も排除もできない変化ではない。
ある特定の実施形態において、所定の遺伝子セット内の事前選択された腫瘍遺伝子における複数(例えば、約10%、20%、30%、40%、50%、60%、70%、80%、90%以上)の機能的変化が除外される。ある特定の実施形態において、所定の遺伝子セット内の事前選択された遺伝子(例えば、腫瘍遺伝子)における全ての機能的変化が除外される。ある特定の実施形態において、所定の遺伝子セット内の複数の事前選択された遺伝子(例えば、腫瘍遺伝子)における複数の機能的変化が除外される。ある特定の実施形態において、所定の遺伝子セット内の全ての遺伝子(例えば、腫瘍遺伝子)における全ての機能的変化が除外される。
生殖細胞変異
ある特定の実施形態において、変化の数は、サブゲノム区間内の生殖細胞変異を除外する。ある特定の実施形態において、体細胞変化は、生殖細胞変異と同一または同様ではなく、例えば、それと区別可能である。
ある特定の実施形態において、生殖細胞変化は、一塩基多型(SNP)、塩基置換、インデル(例えば、挿入または欠失)、またはサイレント変異(例えば、同義変異)である。
ある特定の実施形態において、生殖細胞変化は、適合正常配列との比較を使用しない方法の使用によって除外される。他の実施形態において、生殖細胞変化は、SGZアルゴリズムの使用を含む方法によって除外される。ある特定の実施形態において、生殖細胞変化は、生殖細胞変化のデータベース、例えば、dbSNPデータベース(www.ncbi.nlm.nih.gov/SNP/index.html;Sherry et al.Nucleic Acids Res. 2001;29(1):308-311)に含むことにより識別される。他の実施形態において、生殖細胞変化は、ExACデータベースの複数のカウント(exac.broadinstitute.org;Exome Aggregation Consortium et al.“Analysis of protein-coding genetic in 60,706 humans,”bioRxiv preprint. October 30,2015)に含むことにより識別される。いくつかの実施形態において、生殖細胞変化は、1000人ゲノムプロジェクトデータベース(www.1000genomes.org;McVean et al.Nature. 2012;491,56-65)に含むことにより識別される。いくつかの実施形態において、生殖細胞変化は、ESPデータベース(Exome Variant Server,NHLBI GO Exome Sequencing Project(ESP),Seattle,WA(evs.gs.washington.edu/EVS/)に含むことにより識別される。
多重遺伝子分析
本明細書に記載される方法及びシステムは、例えば、所定の遺伝子セットからの、例えば、サブゲノム区間のセットを評価する。
ある特定の実施形態において、所定の遺伝子セットは、変異体形態で、細胞分裂、成長、もしくは生存に対する影響に関連するか、またはがん、例えば、本明細書に記載されるがんに関連する複数の遺伝子を含む。
ある特定の実施形態において、所定の遺伝子セットは、少なくとも約50個以上、約100個以上、約150個以上、約200個以上、約250個以上、約300個以上、約350個以上、約400個以上、約450個以上、約500個以上、約550個以上、約600個以上、約650個以上、約700個以上、約750個以上、または約800個以上の、例えば、本明細書に記載されるような遺伝子を含む。いくつかの実施形態において、所定の遺伝子セットは、表1~4または図3A~4Dから選ばれる遺伝子または遺伝子産物のうちの少なくとも約50個以上、約100個以上、約150個以上、約200個以上、約250個以上、約300個以上、または全てを含む。
ある特定の実施形態において、本方法は、試料から複数の腫瘍メンバーを含むライブラリを取得することをさらに含む。ある特定の実施形態において、本方法は、ライブラリをベイトセットと接触させて、選択された腫瘍メンバーを提供することをさらに含み、ここで、該ベイトセットは、ライブラリからの腫瘍メンバーとハイブリッド形成して、それにより、ライブラリキャッチを提供する。ある特定の実施形態において、本方法は、ライブラリまたはライブラリキャッチからの腫瘍メンバーから変化(例えば、体細胞変化)を含むサブゲノム区間に対する読み取りデータを取得し、それにより、例えば、次世代配列決定法によってサブゲノム区間に対する読み取りデータを取得することをさらに含む。ある特定の実施形態において、本方法は、整列法、例えば、本明細書に記載される整列法によってサブゲノム区間に対する読み取りデータを整列させることをさらに含む。ある特定の実施形態において、本方法は、例えば、本明細書に記載される変異呼び出し法によってサブゲノム区間に対する読み取りデータから事前選択されたヌクレオチド位置にヌクレオチド値を割り当てることをさらに含む。
ある特定の実施形態において、本方法は、
(a)試料から複数の腫瘍メンバーを含むライブラリを取得すること、
(b)ライブラリを、選択された腫瘍メンバーを提供するためのベイトセットであって、腫瘍メンバーとハイブリッド形成する、該ベイトセットと接触させて、それにより、ライブラリキャッチを提供すること、
(c)該ライブラリキャッチからの腫瘍メンバーから変化(例えば、体細胞変化)を含むサブゲノム区間に対する読み取りデータを取得し、それにより、例えば、次世代配列決定法によってサブゲノム区間に対する読み取りデータを取得すること、
(d)整列法、例えば、本明細書に記載される整列法によって該読み取りデータを整列させること、または
(e)例えば、本明細書に記載される変異呼び出し法によって、該読み取りデータから、事前選択されたヌクレオチド位置にヌクレオチド値を割り当てること、のうちの1つ、2つ、3つ、4つ、または全てをさらに含む。
ある特定の実施形態において、サブゲノム区間に対する読み取りデータを取得することは、少なくとも約50個以上、約100個以上、約150個以上、約200個以上、約250個以上、約300個以上、約350個以上、約400個以上、約450個以上、約500個以上、約550個以上、約600個以上、約650個以上、約700個以上、約750個以上、または約800個以上の遺伝子からのサブゲノム区間を配列決定することを含む。ある特定の実施形態において、サブゲノム区間に対する読み取りデータを取得することは、表1~4または図3A~4Dから選ばれる遺伝子または遺伝子産物のうちの少なくとも約50個以上、約100個以上、約150個以上、約200個以上、約250個以上、約300個以上、または全てからのサブゲノム区間を配列決定することを含む。
ある特定の実施形態において、サブゲノム区間に対する読み取りデータを取得することは、平均固有カバレッジの約250X超で配列決定することを含む。他の実施形態において、サブゲノム区間に対する読み取りデータを取得することは、平均固有カバレッジの約500X超で配列決定することを含む。他の実施形態において、サブゲノム区間に対する読み取りデータを取得することは、平均固有カバレッジの約1,000X超で配列決定することを含む。
ある特定の実施形態において、サブゲノム区間に対する読み取りデータを取得することは、配列決定された遺伝子(例えば、エクソン)の約99%超において、平均固有カバレッジの約250X超で配列決定することを含む。他の実施形態において、サブゲノム区間に対する読み取りデータを取得することは、配列決定された遺伝子(例えば、エクソン)の約95%超において、平均固有カバレッジの約500X超で配列決定することを含む。ある特定の実施形態において、サブゲノム区間に対する読み取りデータを取得することは、配列決定された遺伝子(例えば、エクソン)の約99%超において、平均固有カバレッジの約250X超、約500X超、または約1,000X超で配列決定することを含む。
ある特定の実施形態において、本明細書に記載される、サブゲノム区間(例えば、コードサブゲノム区間)のセットの配列、例えば、ヌクレオチド配列は、本明細書に記載される方法によって提供される。ある特定の実施形態において、配列は、適合正常対照(例えば、野生型対照)、適合腫瘍対照(例えば、原発対転移性)、またはそれらの両方を含む方法を使用することなく提供される。
SGZ分析
ある特定の実施形態において、生殖細胞変化は、SGZアルゴリズムの使用を含む方法またはシステムによって除外される。
ある特定の実施形態において、本方法は、腫瘍試料中の変異形、例えば、変化を、
a)i)複数の選択されたサブゲノム区間の各々に対して、選択されたサブゲノム区間における正規化された配列カバレッジに対する値を含む配列カバレッジ入力(SCI)であって、サブゲノム区間に対する読み取りデータの数と処理適合対照に対する読み取りデータの数との関数である、SCI、
ii)複数の選択された生殖細胞SNPの各々に対して、腫瘍試料中の対立遺伝子頻度に対する値を含むSNP対立遺伝子頻度入力(SAFI)であって、腫瘍試料中の低頻度または代替的対立遺伝子の頻度に少なくとも部分的に基づく、SAFI、及び
iii)腫瘍試料中の該変異形に対する対立遺伝子頻度を含む、変異形対立遺伝子頻度入力(VAFI)を取得することと、
b)SCI及びSAFIの関数として、
i)複数のゲノム分節の各々に対するゲノム分節総コピー数(C)、
ii)複数のゲノム分節の各々に対するゲノム分節低頻度対立遺伝子コピー数(M)、及び
iii)試料純度(p)に対する値を取得することであって、
C、M、及びpの値が、ゲノム全体でのコピー数モデルをSCI及びSAFIに適合させることによって得られる、取得することと、
c)変異形が、体細胞、サブクローナル体細胞変異形、生殖細胞、または区別不可能であることを示し、VAFI、p、C、及びMの関数である、変異型に対する値、gを取得することと、によって特徴付けることをさらに含む。
ある特定の実施形態において、本方法は、複数の選択されたサブゲノム区間の各々、複数の選択された生殖細胞SNPの各々、及び変異形(例えば、変化)を配列決定することをさらに含み、ここで、正規化の前の平均配列カバレッジは、少なくとも約250x、例えば、少なくとも約500xである。
ある特定の実施形態において、ゲノム全体でのコピー数モデルをSCIに適合させることは、以下の等式を使用することを含み、
、式中、ψが腫瘍倍数性である。
ある特定の実施形態において、ゲノム全体でのコピー数モデルをSAFIに適合させることは、以下の等式を使用することを含み、
、式中、AFは、対立遺伝子頻度である。
ある特定の実施形態において、gは、体細胞/生殖細胞状態のモデルに対するVAFI、p、C、及びMの値の適合を決定することによって決定される。ある特定の実施形態において、gの値は、以下によって取得され、
、式中、AFは、対立遺伝子頻度である。
ある特定の実施形態において、0であるか、または0に近いgの値は、変異形が体細胞変異形であることを示し、1であるか、または1に近いgの値は、変異形が生殖細胞変異形であることを示し、0超であるが1未満であるgの値は、区別不能な結果を示すか、または0を著しく下回るgの値は、変異形がサブクローナル体細胞変異形であることを示す。
SGZアルゴリズムは、国際出願公開第WO2014/183078号及び米国出願公開第2014/0336996号に記載されており、それらの内容は、参照によってそれらの全体が組み込まれる。SGZアルゴリズムは、Sun et al.Cancer Research 2014;74(19S):1893-1893にも記載されている。
試料、例えば、腫瘍試料
本明細書に記載される方法及びシステムは、いくつかの異なる供給源からの様々な種類の試料中の変異荷重を評価するために使用され得る。
いくつかの実施形態において、試料は、腫瘍試料または腫瘍由来の試料である。ある特定の実施形態において、試料は、固形腫瘍、血液癌、またはそれらの転移形態から取得される。ある特定の実施形態において、試料は、本明細書に記載されるように、がんを有する対象、または療法を受けているか、もしくは療法を受けたことがある対象から得られる。
いくつかの実施形態において、試料(例えば、腫瘍試料)は、前悪性もしくは悪性細胞;固形腫瘍、軟組織腫瘍、もしくは転移性病巣からの細胞;外科的縁からの組織もしくは細胞;組織学的に正常な組織;1つ以上の循環腫瘍細胞(CTC);正常な近接組織(NAT);腫瘍を有するか、もしくはそれを有するリスクがある同じ対象からの血液試料;またはFFPE試料のうちの1つ以上を含む。ある特定の実施形態において、試料は、循環腫瘍DNA(ctDNA)を含む。
ある特定の実施形態において、試料は、FFPE試料である。ある特定の実施形態において、FFPE試料は、次の特性のうちの1つ、2つ、または全てを有する:(a)約10mm2以上、約25mm2以上、または約50mm2以上の表面積を有するか、(b)約1mm3以上、約2mm3以上、約3mm3以上、約4mm3以上、または約5mm3以上の試料体積を有するか、あるいは(c)約50%以上、約60%以上、約70%以上、約80%以上、もしくは約90%以上、または約10,000個以上の細胞、約20,000個以上の細胞、約30,000個以上の細胞、約40,000個以上の細胞、もしくは約50,000個以上の細胞の有核の細胞充実性を有する。
システム
別の態様において、本発明は、試料(例えば、腫瘍試料または腫瘍由来の試料)中の変異荷重を評価するためのシステムを特徴とする。システムは、メモリに動作可能に接続された少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサは、実行すると、
a)試料からのサブゲノム区間(例えば、コードサブゲノム区間)のセットの配列、例えば、ヌクレオチド配列を取得することであって、コードサブゲノム区間のセットが所定の遺伝子セットからのものである、配列を取得することと、
b)変異荷重に対する値を決定することと、を行うように構成され、ここで、値は、サブゲノム区間のセット内の変化(例えば、体細胞変化)の数の関数である。
ある特定の実施形態において、該変化の数は、(i)サブゲノム区間内(例えば、コードサブゲノム区間)の機能的変化、(ii)サブゲノム区間内(例えば、コードサブゲノム区間)の生殖細胞変化、または(iii)それらの両方を除外する。
用途
いくつかの実施形態において、本方法は、変異荷重、例えば、変異荷重のレベル増加の評価に応じて治療を選択することをさらに含む。いくつかの実施形態において、本方法は、変異荷重、例えば、変異荷重のレベル増加の評価に応じて治療を施すことをさらに含む。いくつかの実施形態において、本方法は、変異荷重の評価に応じて試料、またはその試料が由来する対象を分類することをさらに含む。いくつかの実施形態において、本方法は、報告書、例えば、電子報告書、ウェブベース報告書、または書面報告書を作成し、患者、または別の者もしくは実体、介護者、内科医、腫瘍医、病院、診療所、第3者の支払人、保険会社、もしくは官庁に提出することをさらに含む。いくつかの実施形態において、報告書は、変異荷重を含む本方法による結果を含む。
本発明の追加の態様または実施形態は、次のうちの1つ以上を含む。
整列
本明細書に開示される方法は、多数の個別に調節される整列法またはアルゴリズムの使用を統合して、配列決定法において、特に、例えば、本明細書に記載されるがん由来の多くの多様な遺伝子における多くの多様な遺伝的事象の超並列配列決定法に依存する方法、例えば、腫瘍試料を分析する方法において能力を最適化し得る。実施形態において、異なる遺伝子のいくつかの変異形の各々に対して個別にカスタマイズまたは調節される多数の整列法は、読み取りデータを分析するために使用される。実施形態において、調節することは、配列決定されている遺伝子(または、他のサブゲノム区間)、試料中の腫瘍型、配列決定されている変異形の(うちの1つ以上の)機能、または試料もしくは対象の特質であり得る。配列決定されるいくつかの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対して個別に調節される整列条件の選択または使用によって、速度、感度、及び特異性の最適化が可能になる。本方法は、比較的多くの多様な対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対する読み取りデータの整列が最適化される場合、特に有効である。
したがって、一態様において、本発明は、試料、例えば、血液悪性腫瘍(または、前悪性腫瘍)、例えば、本明細書に記載される血液悪性腫瘍(または、前悪性腫瘍)からの腫瘍試料を分析する方法を特徴とする。本方法は、
(a)試料から複数のメンバー、例えば、腫瘍試料から複数の腫瘍メンバーを含む1つまたは複数のライブラリを取得することと、
(b)任意に、例えば、1つまたは複数のライブラリを、ベイトセット(または、複数のベイトセット)と接触させることによって、事前選択された配列に対する1つまたは複数のライブラリを富化して、選択されたメンバー(本明細書において、ライブラリキャッチと称される場合もある)を提供することと、
(c)例えば、配列決定することを含む方法によって、例えば、次世代配列決定法を用いて、メンバー、例えば、ライブラリまたはライブラリキャッチからの腫瘍メンバーから、対象区間、例えば、サブゲノム区間または発現サブゲノム区間に対する読み取りデータを取得することと、
(d)整列法、例えば、本明細書に記載される整列法によって該読み取りデータを整列させることと、
(e)該読み取りデータから、事前選択されたヌクレオチド位置にヌクレオチド値を割り当てること(例えば、ベイジアン法を用いて、例えば、変異を呼び出すこと)と、を含み、
それにより、該腫瘍試料を分析し、
ここで、任意に、
X個の固有の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)の各々からの読み取りデータは、固有の整列法で整列され、固有の対象区間(例えば、サブゲノム区間または発現サブゲノム区間)は、他のX-1個の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)とは異なることを意味し、固有の整列法は、他のX-1個の整列法とは異なることを意味し、Xは、少なくとも2である。
実施形態において、本方法は、サブゲノム区間に対応するメンバー及び発現サブゲノム区間に対応するメンバーが各々得られるライブラリを取得することを含む。
実施形態において、本方法は、サブゲノム区間に対応するメンバーが得られる第1のライブラリを取得することと、発現サブゲノム区間に対応するメンバーが得られる第2のライブラリを取得することと、を含む。
実施形態において、ベイトセットは、サブゲノム区間及び発現区間の両方を含むメンバーまたはライブラリキャッチを提供するために使用される。
実施形態において、第1のベイトセットは、サブゲノム区間を含むメンバーまたはライブラリキャッチを提供するために使用され、第2のベイトセットは、発現サブゲノム区間を含むメンバーまたはライブラリキャッチを提供するために使用される。
実施形態において、ステップ(b)は、存在する。実施形態において、ステップ(b)は、存在しない。
実施形態において、Xは、少なくとも3、4、5、10、15、20、30、50、100、200、300、400、500、600、700、800、900、または1,000である。
実施形態において、少なくともX個の遺伝子、例えば、表1~4または図3A~4Dからの少なくともX個の遺伝子からの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、固有の整列法で整列され、Xは、2、3、4、5、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、またはそれ以上と等しい。
実施形態において、方法(例えば、上述される方法の要素(d))は、読み取りデータを分析する、例えば、整列させるための整列法を選択または使用することを含み、
ここで、該整列法は、
(i)腫瘍型、例えば、該試料中の腫瘍型、
(ii)配列決定されている該対象区間(例えば、サブゲノム区間または発現サブゲノム区間)が位置する遺伝子または遺伝子の型、例えば、事前選択されているまたは変異形もしくは変異形の種類、例えば、変異を特徴とするか、あるいは事前選択された頻度の変異を特徴とする遺伝子または遺伝子の型、
(iii)分析されている部位(例えば、ヌクレオチド位置)、
(iv)評価されている対象区間(例えば、サブゲノム区間または発現サブゲノム区間)内の変異形の種類、例えば、置換、
(v)試料の種類、例えば、FFPE試料、血液試料、または骨髄穿刺液試料、及び
(vi)評価されている該サブゲノム区間内またはその付近の配列、例えば、該対象区間(例えば、サブゲノム区間または発現サブゲノム区間)の誤整列に対して予想される傾向、例えば、該対象区間(例えば、サブゲノム区間または発現サブゲノム区間)内またはその付近の反復配列の存在、のうちの1つ以上または全ての関数であるか、それらに応じて選択されるか、またはそれらに対して最適化される。
本方法は、本明細書の他の箇所で言及されるように、比較的多くの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対する読み取りデータの整列が最適化される場合、特に有効である。故に、実施形態において、少なくともX個の固有の整列法が少なくともX個の固有のサブゲノム区間に対する読み取りデータを分析するために使用され、ここで、固有のとは、他のX-1個とは異なることを意味し、Xは、2、3、4、5、10、15、20、30、50、100、200、300、400、500、600、700、800、900、1,000、またはそれ以上と等しい。
実施形態において、表1~4または図3A~4Dからの少なくともX個の遺伝子からの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、分析され、Xは、2、3、4、5、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、またはそれ以上と等しい。
実施形態において、固有の整列法は、少なくとも3、5、10、20、40、50、60、70、80、90、100、200、300、400、または500個の異なる遺伝子の各々における対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に適用される。
実施形態において、少なくとも20、40、60、80、100、120、140、160もしくは180、200、300、400、または500個の遺伝子、例えば、表1~4または図3A~4Dからの遺伝子内のヌクレオチド位置には、ヌクレオチド値が割り当てられる。実施形態において、固有の整列法は、分析される該遺伝子の少なくとも10、20、30、40、または50%の各々における対象区間(例えば、サブゲノム区間または発現サブゲノム区間)に適用される。
本明細書に開示される方法は、煩雑な読み取りデータ、例えば、再編成を有する読み取りデータの急速及び効率的な整列を可能にする。故に、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)に対する読み取りデータが再編成、例えば、転座されたヌクレオチド位置を含む実施形態において、本方法は、適切に調節され、かつ
読み取りデータとの整列のための、事前選択されて、事前選択された再編成と整列される該再編成参照配列を選択すること(実施形態において、参照配列は、ゲノム再編成と同一ではない)、
読み取りデータを該事前選択された再編成参照配列と比較すること、例えば、整列させることを含む整列法を使用することを含み得る。
実施形態において、煩雑な読み取りデータを整列させるために他の方法が使用される。これらの方法は、比較的多くの多様なサブゲノム区間に対する読み取りデータの整列が最適化される場合、特に有効である。例として、腫瘍試料を分析する方法は、
第1のパラメータのセット(例えば、第1のマッピングアルゴリズム、または第1の参照配列を用いて)の下で読み取りデータの比較、例えば、整列比較を行い、該読み取りデータが第1の所定の整列基準を満たすか(例えば、読み取りデータが該第1の参照配列と、例えば、事前選択された不一致の数未満で整列され得るか)否かを判定することと、
該読み取りデータが第1の所定の整列基準を満たさない場合、第2のパラメータのセット(例えば、第2のマッピングアルゴリズム、または第2の参照配列を用いて)の下で第2の整列比較を行うことと、
任意に、該読み取りデータが該第2の所定の基準を満たす(例えば、読み取りデータが該第2の参照配列と、事前選択された不一致の数未満で整列され得るか)否かを判定することと、を含み得、
ここで、該第2のパラメータのセットは、パラメータのセット、例えば、該第2の参照配列を使用することを含み、これは、該第1のパラメータのセットと比較して、事前選択された変異形、例えば、再編成、例えば、挿入、欠失、または転座に対する読み取りデータとの整列をもたらす可能性がより高くなる。
これら及び他の整列法は、本明細書の他の箇所、例えば、「発明を実施するための形態」内の「整列」という題名の項でより詳細に論じられる。そのモジュールの要素は、腫瘍を分析する方法に含められ得る。実施形態において、「整列」(「発明の概要」及び/または「発明を実施するための形態」内)という題名の項からの整列法は、「変異呼び出し」(「発明の概要」及び/または「発明を実施するための形態」内)という題名の項からの変異呼び出し法、及び/または「ベイト」(「発明の概要」内)という題名の項及び/または「ベイトの設計及び構築」及び「ベイト合成」「発明を実施するための形態」内)という題名の項からのベイトセットと組み合わせられる。本方法は、「遺伝子選択」(「発明の概要」及び/または「発明を実施するための形態」内)という題名の項からの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)のセットに適用され得る。
変異呼び出し
本明細書に開示される方法は、カスタマイズまたは調節される変異呼び出しパラメータの使用を統合して、配列決定法において、特に、例えば、腫瘍試料からの、例えば、本明細書に記載されるがん由来の、多くの多様な遺伝子における多くの多様な遺伝的事象の超並行配列決定法に依存する方法において能力を最適化し得る。本方法の実施形態において、いくつかの事前選択された対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)の各々に対する変異呼び出しは、個別にカスタマイズされるか、または微調節される。カスタマイズ化または調節することは、本明細書に記載される因子のうちの1つ以上、例えば、試料中のがんの型、配列決定される対象区間(例えば、サブゲノム区間または発現サブゲノム区間)が位置する遺伝子、または配列決定される変異形に基づき得る。配列決定されるいくつかの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対して微調節される整列条件のこの選択または使用によって、速度、感度、及び特異性の最適化が可能になる。本方法は、比較的多くの多様な対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対する読み取りデータの整列が最適化される場合、特に有効である。
したがって、一態様において、本発明は、試料、例えば、血液悪性腫瘍(または、前悪性腫瘍)、例えば、本明細書に記載される血液悪性腫瘍(または、前悪性腫瘍)からの腫瘍試料を分析する方法を特徴とする。本方法は、
(a)試料から複数のメンバー、例えば、試料、例えば、腫瘍試料から複数の腫瘍メンバーを含む1つまたは複数のライブラリを取得することと、
(b)任意に、例えば、ライブラリを、ベイトセット(または、複数のベイトセット)と接触させることによって、事前選択された配列に対する1つまたは複数のライブラリを富化して、選択されたメンバー、例えば、ライブラリキャッチを提供することと、
(c)例えば、配列決定することを含む方法によって、例えば、次世代配列決定法を用いて、該ライブラリまたはライブラリキャッチからのメンバー、例えば、腫瘍メンバーから、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)に対する読み取りデータを取得することと、
(d)整列法、例えば、本明細書に記載される整列法によって該読み取りデータを整列させることと、
(e)該読み取りデータから、事前選択されたヌクレオチド位置にヌクレオチド値を割り当てること(例えば、本明細書に記載されるベイジアン法または呼び出し法を用いて、例えば、変異を呼び出すこと)と、を含み、
それにより、該腫瘍試料を分析する。
ここで、任意に、ヌクレオチド値は、固有の呼び出し法によってX個の固有の対象区間(サブゲノム区間、発現サブゲノム区間、またはそれらの両方)の各々においてヌクレオチド位置に割り当てられ、固有の対象区間(例えば、サブゲノム区間または発現サブゲノム区間)は、他のX-1個の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)とは異なることを意味し、固有の呼び出し法は、他のX-1個の呼び出し法とは異なることを意味し、Xは、少なくとも2である。呼び出し法は異なり得、それにより、例えば、異なるベイジアン先行値に依存することによって、固有であり得る。
実施形態において、本方法は、サブゲノム区間に対応するメンバー及び発現サブゲノム区間に対応するメンバーが各々得られるライブラリを取得することを含む。
実施形態において、本方法は、サブゲノム区間に対応するメンバーが得られる第1のライブラリを取得することと、発現サブゲノム区間に対応するメンバーが得られる第2のライブラリを取得することと、を含む。
実施形態において、ベイトセットは、サブゲノム区間及び発現区間の両方を含むメンバーまたはライブラリキャッチを提供するために使用される。
実施形態において、第1のベイトセットは、サブゲノム区間を含むメンバーまたはライブラリキャッチを提供するために使用され、第2のベイトセットは、発現サブゲノム区間を含むメンバーまたはライブラリキャッチを提供するために使用される。
実施形態において、ステップ(b)は、存在する。実施形態において、ステップ(b)は、存在しない。
実施形態において、該ヌクレオチド値を割り当てることは、腫瘍型において該事前選択されたヌクレオチド位置で、事前選択された変異形、例えば、変異を示す読み取りデータを観察する先行(例えば、文献)期待値であるかまたはそれを表す値の関数である。
実施形態において、本方法は、少なくとも10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、または1,000個の事前選択されたヌクレオチド位置にヌクレオチド値を割り当てること(例えば、変異を呼び出すこと)を含み、ここで、各割り当ては、腫瘍型において該事前選択されたヌクレオチド位置で、事前選択された変異形、例えば、変異を示す読み取りデータを観察する先行(例えば、文献)期待値であるかまたはそれを表す固有(他の割り当てに対する値とは対照的)の値の関数である。
実施形態において、該ヌクレオチド値を割り当てることは、変異形がある頻度(例えば、1%、5%、または10%など)で試料中に存在する場合、及び/または変異形が存在しない(例えば、塩基呼び出しエラーのみに起因して読み取りデータで観察される)場合、該事前選択されたヌクレオチド位置で該事前選択された変異形を示す読み取りデータを観察する確率を表す値のセットの関数である。
実施形態において、方法(例えば、上述される方法のステップ(e))は、変異呼び出し法を含む。本明細書に記載される変異呼び出し法は、次の:
該X個の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)の各々における事前選択されたヌクレオチド位置に対して、
(i)腫瘍型Xにおいて該事前選択されたヌクレオチド位置で、事前選択された変異形、例えば、変異を示す読み取りデータを観察する先行(例えば、文献)期待値であるか、またはそれを表す第1の値、及び
(ii)変異形がある頻度(例えば、1%、5%、10%など)で試料中に存在する場合、及び/または変異形が存在しない(例えば、塩基呼び出しエラーのみに起因して読み取りデータで観察される)場合、該事前選択されたヌクレオチド位置で該事前選択された変異形を示す読み取りデータを観察する確率を表す第2の値のセットを取得すること、
該値に応じて、第1の値を使用して第2のセット中の値の間で比較を、例えば、本明細書に記載されるベイジアン法によって重み付けする(例えば、変異の存在の事後確率を計算する)ことにより、該読み取りデータから該事前選択されたヌクレオチド位置の各々にヌクレオチド値を割り当て(例えば、変異を呼び出し)、それにより、該試料を分析すること、を含み得る。
実施形態において、本方法は、次のうちの1つ以上または全てを含む:
(i)少なくとも10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、または1000個の事前選択されたヌクレオチド位置にヌクレオチド値を割り当てること(例えば、変異を呼び出すこと)であって、各割り当ては、(他の割り当てとは対照的に)固有の第1及び/または第2の値に基づく、割り当てること;
(ii)割り当ての少なくとも10、20、30、40、50、60、70、80、90、100、200、300、400、または500は、例えば、事前選択された腫瘍型における細胞の、5、10、または20%未満で事前選択された変異形が存在する確率の関数である第1の値を用いて行われる、(i)の方法の割り当て;
(iii)少なくともX個の事前選択されたヌクレオチド位置にヌクレオチド値を割り当てること(例えば、変異を呼び出すこと)であって、この各々は、事前選択された腫瘍型、例えば、該試料の腫瘍型中に存在する(他のX-1個の割り当てとは対照的に)固有の確率を有する事前選択された変異形に関連し、ここで、任意に、X個の割り当ての各々は、(他のX-1個の割り当てとは対照的に)固有の第1及び/または第2の値に基づく(ここで、X=2、3、5、10、20、40、50、60、70、80、90、100、200、300、400、または500)、割り当てること;
(iv)第1及び第2のヌクレオチド位置にヌクレオチド値を割り当てること(例えば、変異を呼び出すこと)であって、ここで、該第1のヌクレオチド位置で第1の事前選択された変異形が事前選択された腫瘍型(例えば、該試料の腫瘍型)中に存在する尤度は、該第2のヌクレオチド位置で第2の事前選択された変異形が存在する尤度よりも少なくとも2、5、10、20、30、または40倍大きく、各割り当ては、任意に(他の割り当てとは対照的に)固有の第1及び/または第2の値に基づく、割り当てること;
(v) 複数の事前選択されたヌクレオチド位置にヌクレオチド値を割り当てること(例えば、変異を呼び出すこと)であって、該複数のものは、次の確率範囲のうちの1つ以上、例えば、少なくとも3、4、5、6、7、または全てに入る変異形に対する割り当てを含み:
0.01以下、
0.01超~0.02以下、
0.02超~0.03以下、
0.03超~0.04以下、
0.04超~0.05以下、
0.05超~0.1以下、
0.1超~0.2以下、
0.2超~0.5以下、
0.5超~1.0以下、
1.0超~2.0以下、
2.0超~5.0以下、
5.0超~10.0以下、
10.0超~20.0以下、
20.0超~50.0以下、及び
50超~100.0%以下、
ここで、確率範囲は、事前選択されたヌクレオチド位置での事前選択された変異形が事前選択された腫瘍型(例えば、該試料の腫瘍型)中に存在する確率、または事前選択されたヌクレオチド位置での事前選択された変異形が腫瘍試料中の細胞、腫瘍試料からのライブラリ、もしくは事前選択された型(例えば、該試料の腫瘍型)に対するそのライブラリからのライブラリキャッチの記載される%で腫瘍中に存在する確率の範囲であり;
任意に、各割り当ては、固有の第1及び/または第2の値に基づく(例えば、記載される確率範囲での他の割り当てとは対照的に固有であるか、または他の列挙される確率範囲のうちの1つ以上もしくは全てに対する第1の及び/または第2の値とは対照的に固有である)、割り当てること。
(vi)該試料中のDNAの50、40、25、20、15、10、5、4、3、2、1、0.5、0.4、0.3、0.2、または0.1%未満で存在する事前選択された変異形を各々独立して有する、少なくとも1、2、3、5、10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、または1,000個の事前選択されたヌクレオチド位置にヌクレオチド値を割り当てること(例えば、変異を呼び出すこと)であって、ここで、任意に、各割り当ては、(他の割り当てとは対照的に)固有の第1及び/または第2の値に基づく、割り当てること;
(vii)第1及び第2のヌクレオチド位置にヌクレオチド値を割り当てること(例えば、変異を呼び出すこと)であって、ここで、該試料のDNA中の第1の位置での事前選択された変異形の尤度は、該試料のDNA中の該第2のヌクレオチド位置での事前選択された変異形の尤度よりも少なくとも2、5、10、20、30、または40倍大きく、ここで、任意に、各割り当ては、(他の割り当てとは対照的に)固有の第1及び/または第2の値に基づく、割り当てること;
(viii)次のうちの1つ以上または全てにおいてヌクレオチド値を割り当てることであって、(例えば、変異を呼び出すこと):
(1) 該試料中の細胞、該試料からのライブラリ中の核酸、もしくはそのライブラリからのライブラリキャッチ中の核酸の1%未満で存在する事前選択された変異形を有する、少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置;
(2)該試料中の細胞、該試料からのライブラリ中の核酸、もしくはそのライブラリからのライブラリキャッチ中の核酸の1~2%で存在する事前選択された変異形を有する、少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置;
(3)該試料中の細胞、該試料からのライブラリ中の核酸、もしくはそのライブラリからのライブラリキャッチ中の核酸の2%超~3%以下で存在する事前選択された変異形を有する、少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置;
(4)該試料中の細胞、該試料からのライブラリ中の核酸、もしくはそのライブラリからのライブラリキャッチ中の核酸の3%超~4%以下で存在する事前選択された変異形を有する、少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置;
(5)該試料中の細胞、該試料からのライブラリ中の核酸、もしくはそのライブラリからのライブラリキャッチ中の核酸の4%超~5%以下で存在する事前選択された変異形を有する、少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置;
(6)該試料中の細胞、該試料からのライブラリ中の核酸、もしくはそのライブラリからのライブラリキャッチ中の核酸の5%超~10%以下で存在する事前選択された変異形を有する、少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置;
(7)該試料中の細胞、該試料からのライブラリ中の核酸、もしくはそのライブラリからのライブラリキャッチ中の核酸の10%超~20%以下で存在する事前選択された変異形を有する、少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置;
(8)該試料中の細胞、該試料からのライブラリ中の核酸、もしくはそのライブラリからのライブラリキャッチ中の核酸の20%超~40%以下で存在する事前選択された変異形を有する、少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置;
(9)該試料中の細胞、該試料からのライブラリ中の核酸、もしくはそのライブラリからのライブラリキャッチ中の核酸の40%超~50%以下で存在する事前選択された変異形を有する、少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置;または
(10)該試料中の細胞、該試料からのライブラリ中の核酸、もしくはそのライブラリからのライブラリキャッチ中の核酸の50%超~100%以下で存在する事前選択された変異形を有する、少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置;
ここで、任意に、各割り当ては、固有の第1及び/または第2の値に基づく(例えば、記載される範囲での他の割り当てとは対照的に固有であるか(例えば、1%未満の(1)における範囲)、または他の列挙される範囲のうちの1つ以上もしくは全てにおける決定に対する第1及び/または第2の値とは対照的に固有である)、割り当てること;あるいは
(ix)X個のヌクレオチド位置の各々にヌクレオチド値を割り当てること(例えば、変異を呼び出すこと)であって、各ヌクレオチド位置は、独立して、他のX-1個のヌクレオチド位置での事前選択された変異形に関する尤度と比較すると固有である(該試料のDNA中に存在している事前選択された変異形の)尤度を有し、ここで、X個は、1、2、3、5、10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、または1,000以上であり、各割り当ては、(他の割り当てとは対照的に)固有の第1及び/または第2の値に基づく、割り当てること。
本方法の実施形態において、「閾値」は、読み取りデータを評価するために、及び読み取りデータから、例えば、遺伝子における特定の位置で変異を呼び出して、ヌクレオチド位置に対する値を選択するために使用される。本方法の実施形態において、いくつかの事前選択された対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)の各々に対する閾値は、カスタマイズまたは微調節される。カスタマイズ化または調節することは、本明細書に記載される因子のうちの1つ以上、例えば、試料中のがんの型、配列決定される対象区間(サブゲノム区間または発現サブゲノム区間)が位置する遺伝子、または配列決定される変異形に基づき得る。これは、配列決定されるいくつかの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)の各々に対して微調節された呼び出しを提供する。本方法は、比較的多くの多様なサブゲノム区間が分析される場合、特に有効である。
故に、別の実施形態において、腫瘍を分析する方法は、次の変異呼び出し法を含む:
該X個の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)の各々に関して閾値を取得し、該取得されたX個の閾値の各々は、他のX-1個の閾値と比較して固有であり、それにより、X個の固有の閾値を提供し、
該X個の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)の各々に対して、事前選択されたヌクレオチド位置に事前選択されたヌクレオチド値を有する読み取りデータの数の関数である実測値をその固有の閾値と比較し、それにより、該X個の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)の各々にその固有の閾値を適用し、
任意に、該比較の結果に応じて、事前選択されたヌクレオチド位置にヌクレオチド値を割り当てて、
ここで、Xは、2以上である。
実施形態において、本方法は、0.5、0.4、0.25、0.15、0.10、0.05、0.04、0.03、0.02、または0.01未満である確率の関数である第1の値を各々独立して有する、少なくとも2、3、5、10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、または1,000個の事前選択されたヌクレオチド位置にヌクレオチド値を割り当てることを含む。
実施形態において、本方法は、他のX-1個の第1の値と比較すると固有である第1の値を各々独立して有する、少なくともX個のヌクレオチド位置の各々にヌクレオチド値を割り当てることを含み、ここで、該X個の第1の値の各々は、0.5、0.4、0.25、0.15、0.10、0.05、0.04、0.03、0.02、または0.01未満である確率の関数であり、Xは、1、2、3、5、10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、または1,000以上である。
実施形態において、少なくとも20、40、60、80、100、120、140、160もしくは180、200、300、400、または500個の遺伝子、例えば、表1~4または図3A~4Dからの遺伝子内のヌクレオチド位置には、ヌクレオチド値が割り当てられる。実施形態において、固有の第1及び/または第2の値は、分析される該遺伝子の少なくとも10、20、30、40、または50%の各々における対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に適用される。
本方法の実施形態は、例えば、次の実施形態から分かるように、比較的多くの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対する閾値が最適化される場合、適用され得る。
実施形態において、固有の閾値は、少なくとも3、5、10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、または1,000個の異なる遺伝子の各々において対象区間、例えば、サブゲノム区間または発現サブゲノム区間に適用される。
実施形態において、少なくとも20、40、60、80、100、120、140、160もしくは180、200、300、400、または500個の遺伝子、例えば、表1~4または図3A~4Dからの遺伝子内のヌクレオチド位置には、ヌクレオチド値が割り当てられる。実施形態において、固有の閾値は、分析される該遺伝子の少なくとも10、20、30、40、または50%の各々におけるサブゲノム区間に適用される。
実施形態において、表1~4または図3A~4Dからの少なくとも5、10、20、30、または40個の遺伝子内のヌクレオチド位置には、ヌクレオチド値が割り当てられる。実施形態において、固有の閾値は、分析される該遺伝子の少なくとも10、20、30、40、または50%の各々における対象区間(例えば、サブゲノム区間または発現サブゲノム区間)に適用される。
これら及び他の変異呼び出し法は、本明細書の他の箇所、例えば、「変異」という題名の項でより詳細に論じられる。そのモジュールの要素は、腫瘍を分析する方法に含められ得る。実施形態において、「変異呼び出し」という題名の項からの整列法は、「整列」という題名の項からの整列法及び/または「ベイト」という題名の項からのベイトセットと組み合わせられる。本方法は、「遺伝子選択」という題名の項からの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)のセットに適用され得る。
ベイト
本明細書に記載される方法は、配列決定される標的核酸の選択のためのベイト、例えば、溶液ハイブリダイゼーションにおける使用のためのベイトの適切な選択によって、1名以上の対象からの、試料、例えば、本明細書に記載されるがん由来の腫瘍試料からの多くの遺伝子及び遺伝子産物の最適化配列決定を提供する。事前選択された選択効率を有するベイトセットに従って、様々な対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)、またはそれらの分類に対して選択効率を適合させる。この項で使用される場合、「選択効率」は、標的対象区間(複数可)(例えば、サブゲノム区間(複数可)、発現サブゲノム区間(複数可)、またはそれらの両方)に従って調整されるような配列カバレッジのレベルまたは深さを指す。
故に、方法(例えば、上述される方法のステップ(b))は、ライブラリを、複数のベイトと接触させて、選択されたメンバー(例えば、ライブラリキャッチ)を提供することを含む。
したがって、一態様において、本発明は、試料、例えば、がん、例えば、本明細書に記載されるがん由来の腫瘍試料を分析する方法を特徴とする。本方法は、
(a)試料から複数のメンバー(例えば、標的メンバー)、例えば、腫瘍試料から複数の腫瘍メンバーを含む1つまたは複数のライブラリを取得することと、
(b)1つまたは複数のライブラリをベイトセット(または、複数のベイトセット)と接触させて、選択されたメンバー(例えば、ライブラリキャッチ)を提供することと、
(c)例えば、配列決定を含む方法によって、例えば、次世代配列決定法を用いて、該ライブラリまたはライブラリキャッチからのメンバー、例えば、腫瘍メンバーから、対象区間、例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方に対する読み取りデータを取得することと、
(d)整列法、例えば、本明細書に記載される整列法によって該読み取りデータを整列させることと、
(e)該読み取りデータから、事前選択されたヌクレオチド位置にヌクレオチド値を割り当てること(例えば、ベイジアン法または本明細書に記載される方法を用いて、例えば、変異を呼び出すこと)と、を含み、
それにより、該腫瘍試料を分析し、
ここで、任意に、本方法は、ライブラリを、複数の、例えば、少なくとも2、3、4、または5つのベイトまたはベイトセットと接触させることを含み、該複数の各ベイトまたはベイトセットは、(複数の他のベイトとは対照的に)固有の、事前選択された選択効率を有する。例えば、各固有のベイトまたはベイトセットは、配列決定の固有の深さを提供する。「ベイトセット」という用語は、本明細書で使用されるとき、1つのベイトまたは複数のベイト分子をまとめて指す。
実施形態において、本方法は、サブゲノム区間に対応するメンバー及び発現ゲノム区間に対応するメンバーが各々得られるライブラリを取得することを含む。
実施形態において、本方法は、サブゲノム区間に対応するメンバーが得られる第1のライブラリを取得することと、発現サブゲノム区間に対応するメンバーが得られる第2のライブラリを取得することと、を含む。
実施形態において、ベイトセットは、サブゲノム区間及び発現区間の両方を含むメンバーまたはライブラリキャッチを提供するために使用される。
実施形態において、第1のベイトセットは、サブゲノム区間を含むメンバーまたはライブラリキャッチを提供するために使用され、第2のベイトセットは、発現サブゲノム区間を含むメンバーまたはライブラリキャッチを提供するために使用される。
実施形態において、複数である第1のベイトセットの選択効率は、複数である第2のベイトセットの効率と少なくとも2倍異なる。実施形態において、第1及び第2のベイトセットは、少なくとも2倍異なる配列決定の深さを提供する。
実施形態において、本方法は、次のベイトセットのうちの1つまたは複数をライブラリと接触させることを含む:
a)約500X以上の配列決定深さを提供するために、例えば、試料からの細胞のうちの5%以下で存在する変異を配列決定するために、サブゲノム区間を含む十分なメンバーを選択するベイトセット;
b)約200X以上、例えば、約200X~約500Xの配列決定深さを提供するために、例えば、試料からの細胞のうちの10%以下で存在する変異を配列決定するために、サブゲノム区間を含む十分なメンバーを選択するベイトセット;
c)約10~100Xの配列決定深さを提供するために、例えば、i)異なる薬物を患者が代謝する能力を説明し得る薬理ゲノム(PGx)一塩基多型(SNP)、もしくはii)患者を固有に識別(例えば、フィンガープリント)するために使用され得るゲノムSNPから選ばれる1つ以上のサブゲノム区間(例えば、エクソン)を配列決定するために、サブゲノム区間を含む十分なメンバーを選択するベイトセット;
d)約5~50Xの配列決定深さを提供するために、例えば、構造限界点、例えば、ゲノム転座もしくはインデルを検出するために、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含む十分なメンバーを選択するベイトセット。例えば、イントロン限界点の検出は、高い検出信頼性を確保するために5~50Xの配列対スパニング深さを必要とする。このようなベイトセットは、例えば、転座/インデルが起こり易いがん遺伝子を検出するために使用され得るか;または
e)約0.1~300Xの配列決定深さを提供するために、例えば、コピー数の変化を検出するために、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含む十分なメンバーを選択するベイトセット。一実施形態において、配列決定深さは、コピー数の変化を検出するために約0.1~10Xの配列決定深さの範囲である。他の実施形態において、配列決定深さは、ゲノムDNAのコピー数の増加/減少またはヘテロ接合性喪失(LOH)を評価するために使用されるゲノムSNP/遺伝子座を検出するために、約100~300Xの範囲である。このようなベイトセットは、例えば、増幅/欠失が起こり易いがん遺伝子を検出するために使用され得る。
配列決定深さのレベル(例えば、配列決定深さのX倍レベル)は、本明細書で使用されるとき、重複読み取りデータ、例えば、PCR重複読み取りデータの検出及び除去後の読み取りデータ(例えば、固有の読み取りデータ)のカバレッジのレベルを指す。
一実施形態において、ベイトセットは、1つ以上の再編成、例えば、ゲノム再編成を含有するイントロンを含有する対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を選択する。このような実施形態において、ベイトセットは、選択効率を増加させるために反復配列が遮蔽されるように設計される。再編成が既知の連結配列を有する実施形態において、選択効率を増加させるために、連結配列に対して相補的なベイトセットが設計され得る。
実施形態において、本方法は、2つ以上の異なる標的カテゴリを捕捉するように設計されたベイトの使用を含み、各々のカテゴリは、異なるベイト設計方策を有する。実施形態において、本明細書に開示されるハイブリッド捕捉方法及び組成物は、標的配列の定められたサブセット(例えば、標的メンバー)を捕捉し、そのサブセットの外側のカバレッジを最小限にしながら、標的配列の均質なカバレッジを提供する。一実施形態において、標的配列は、ゲノムDNAからの全エクソン、またはその選択されたサブセットを含む。別の実施形態において、標的配列は、大きな染色体領域、例えば、染色体アーム全体を含む。本明細書に開示される方法及び組成物は、複雑な標的核酸配列(例えば、核酸ライブラリ)に対してカバレッジの異なる深さ及びパターンを達成するための異なるベイトセットを提供する。
実施形態において、本方法は、1つまたは複数の核酸ライブラリの選択されたメンバー(例えば、ライブラリキャッチ)を提供することを含む。本方法は、
複数のメンバー、例えば、標的核酸メンバー(例えば、複数の腫瘍メンバー、参照メンバー、及び/またはPGxメンバーを含む)を含む1つまたは複数のライブラリ(例えば、1つまたは複数の核酸ライブラリ)を提供すること、
1つまたは複数のライブラリを、例えば、溶液系の反応において、複数のベイト(例えば、オリゴヌクレオチドベイト)と接触させて、複数のベイト/メンバーハイブリッドを含むハイブリダイゼーション混合物を形成すること、
例えば、該ハイブリダイゼーション混合物を、該複数のベイト/メンバーハイブリッドの分離を可能にする結合実体と接触させることによって、該ハイブリダイゼーション混合物から複数のベイト/メンバーハイブリッドを分離し、
それにより、ライブラリキャッチ(例えば、1つまたは複数のライブラリからの核酸分子の、選択されたまたは富化された下位群)を提供することを含み、
ここで、任意に、複数のベイトは、次のうちの2つ以上を含む:
a)低頻度、例えば、約5%以下で出現する(すなわち、試料からの細胞のうちの5%がそれらのゲノムにおいて変化を保有する)変化(例えば、1つ以上の変異)に対する高レベルの感度を可能にするために、最大深さのカバレッジが必要とされる、高レベルの標的(例えば、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含む1つ以上の腫瘍メンバー、例えば、遺伝子、エクソン、または塩基)を選択する第1のベイトセット。一実施形態において、第1のベイトセットは、約500X以上の配列決定深さを必要とする変化(例えば、点変異)を含む腫瘍メンバーを選択する(例えば、それに相補的である)。
b)a)における高レベルの標的よりも高い頻度、例えば、約10%の頻度で出現する(すなわち、試料からの細胞のうちの10%がそれらのゲノムにおいて変化を保有する)変化(例えば、1つ以上の変異)に対する高レベルの感度を可能にするために高いカバレッジが必要とされる、中レベルの標的(例えば、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含む1つ以上の腫瘍メンバー、例えば、遺伝子、エクソン、または塩基)を選択する第2のベイトセット。一実施形態において、第2のベイトセットは、約200X以上の配列決定深さを必要とする変化(例えば、点変異)を含む腫瘍メンバーを選択する(例えば、それに相補的である)。
c)高レベルの感度を可能にするために、例えば、ヘテロ接合性の対立遺伝子を検出するために、低-中程度のカバレッジが必要とされる、低レベルの標的(例えば、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含む1つ以上のPGxメンバー、例えば、遺伝子、エクソン、または塩基)を選択する第3のベイトセット。例えば、ヘテロ接合性の対立遺伝子の検出は、高い検出信頼性を確保するために10~100Xの配列決定深さを必要とする。一実施形態において、第3のベイトセットは、a)患者が異なる薬物を代謝する能力を説明し得る薬理ゲノム(PGx)一塩基多型(SNP)、またはb)患者を固有に識別(例えば、フィンガープリント)するために使用され得るゲノムSNPから選ばれる1つ以上の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方、例えば、エクソン)を選択し;
d)例えば、ゲノム転座もしくはインデルなどの構造限界点を検出するために、低-中程度のカバレッジが必要とされる第1のイントロン標的(例えば、イントロン配列を含むメンバー)を選択する第4のベイトセット。例えば、イントロン限界点の検出は、高い検出信頼性を確保するために5~50Xの配列対スパニング深さを必要とする。該第4のベイトセットは、例えば、転座/インデルが起こり易いがん遺伝子を検出するために使用され得るか、または
e)コピー数の変化を検出する能力を改善するために低密度のカバレッジが必要とされる第2のイントロン標的(例えば、イントロンメンバー)を選択する第5のベイトセット。例えば、いくつかの末端エクソンの1コピー欠失の検出は、高い検出信頼性を確保するために0.1~300Xのカバレッジを必要とする。一実施形態において、カバレッジの深さは、コピー数の変化を検出するために約0.1~10Xの範囲である。他の実施形態において、カバレッジの深さは、ゲノムDNAのコピー数の増加/減少またはヘテロ接合性喪失(LOH)を評価するためのゲノムSNP/遺伝子座を検出するために、約100~300Xの範囲である。該第5のベイトセットは、例えば、増幅/欠失が起こり易いがん遺伝子を検出するために使用され得る。
前述のベイトセットのうちの2、3、4、またはそれ以上の任意の組み合わせ、例えば、第1及び第2のベイトセット、第1及び第3のベイトセット、第1及び第4のベイトセット、第1及び第5のベイトセット、第2及び第3のベイトセット、第2及び第4のベイトセット、第2及び第5のベイトセット、第3及び第4のベイトセット、第3及び第5のベイトセット、第4及び第5のベイトセット、第1、第2、及び第3のベイトセット、第1、第2、及び第4のベイトセット、第1、第2、及び第5のベイトセット、第1、第2、第3、第4のベイトセット、第1、第2、第3、第4、及び第5のベイトセットなどの組み合わせが使用され得る。
一実施形態において、第1、第2、第3、第4、または第5のベイトセットの各々は、事前選択された選択(例えば、捕捉)効率を有する。一実施形態において、選択効率に対する値は、a)~e)による全5つのベイトのうちの少なくとも2、3、4個に関して同じである。他の実施形態において、選択効率に対する値は、a)~e)による全5つのベイトのうちの少なくとも2、3、4個に関して異なる。
いくつかの実施形態において、少なくとも2、3、4、または5個全てのベイトセットは、異なる事前選択された効率値を有する。例えば、次のうちのより多くのうちの1つから選ばれた選択効率に対する値は:
(i)第1の事前選択された効率は、少なくとも約500X以上の配列決定深さである第1の選択効率に対する値を有するか(例えば、第2、第3、第4、または第5の事前選択された選択効率よりも大きい選択効率に対する値を有する(例えば、第2の選択効率に対する値よりも約2~3倍大きく、第3の選択効率に対する値よりも約5~6倍大きく、第4の選択効率に対する値よりも約10倍大きく、第5の選択効率に対する値よりも約50~5000倍大きい)、
(ii)第2の事前選択された効率は、少なくとも約200X以上の配列決定深さである第2の選択効率に対する値を有し、例えば、第3、第4、もしくは第5の事前選択された選択効率よりも大きい選択効率に対する値を有するか(例えば、第3の選択効率に対する値よりも約2倍大きく、第4の選択効率に対する値よりも約4倍大きく、第5の選択効率に対する値よりも約20~2000倍大きい)、
(iii)第3の事前選択された効率は、少なくとも約100X以上の配列決定深さである第3の選択効率に対する値を有し、例えば、第4もしくは第5の事前選択された選択効率よりも大きい選択効率に対する値を有するか(例えば、第4の選択効率に対する値よりも約2倍大きく、第5の選択効率に対する値よりも約10~1000倍大きい)、
(iv)第4の事前選択された効率は、少なくとも約50X以上の配列決定深さである第4の選択効率に対する値を有し、例えば、第5の事前選択された選択効率よりも大きい選択効率に対する値を有するか(例えば、第5の選択効率に対する値よりも約50~500倍大きい)、または
(v)第5の事前選択された効率は、少なくとも約10X~0.1Xの配列決定深さである第5の選択効率に対する値を有する。
ある特定の実施形態において、選択効率に対する値は、異なるベイトセットの差次的な表示、ベイトサブセットの差次的な重複、差次的なベイトパラメータ、異なるベイトセットの混合、及び/または異なる種類のベイトセットの使用のうちの1つ以上によって改変される。例えば、選択効率の変動(例えば、各ベイトセット/標的カテゴリの相対的配列カバレッジ)は、次のうちの1つ以上を変化させることによって調整され得る:
(i)異なるベイトセットの差次的な表示-所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計は、より多くの/より少ないコピー数に含まれて、相対的な標的カバレッジの深さを増強/低減させ得る;
(ii)ベイトサブセットの差次的な重複-所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計は、近隣ベイト間のより長いかまたはより短い重複を含み、相対的な標的カバレッジの深さを増強/低減させ得る;
(iii)差次的なベイトパラメータ-所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計は、配列修飾/より短い長さを含み、捕捉効率を低減させ、相対的な標的カバレッジの深さを低下させ得る;
(iv)異なるベイトセットの混合-異なる標的セットを捕捉するように設計されるベイトセットは、異なるモル比で混合されて、相対的な標的カバレッジの深さを増強/低減させ得る;
(v)異なる種類のオリゴヌクレオチドベイトセットの使用-ある特定の実施形態において、ベイトセットは次のものを含み得る:
(a)1つ以上の化学的に(例えば、非酵素的に)合成された(例えば、個別に合成された)ベイト、
(b)アレイにおいて合成された1つ以上のベイト、
(c)1つ以上の酵素的に調製された、例えば、インビトロで転写されたベイト、
(d)(a)、(b)、及び/もしくは(c)の任意の組み合わせ、
(e)1つ以上のDNAオリゴヌクレオチド(例えば、天然または非天然のDNAオリゴヌクレオチド)、
(f)1つ以上のRNAオリゴヌクレオチド(例えば、天然または非天然のRNAオリゴヌクレオチド)、
(g)(e)及び(f)の組み合わせ、または
(h)上記のいずれかの組み合わせ。
異なるオリゴヌクレオチドの組み合わせは、異なる比、例えば、1:1、1:2、1:3、1:4、1:5、1:10、1:20、1:50、1:100、1:1000などから選ばれる比で混合され得る。一実施形態において、化学合成されたベイト対アレイ生成ベイトの比は、1:5、1:10、または1:20から選ばれる。DNAまたはRNAオリゴヌクレオチドは、天然または非天然であり得る。ある特定の実施形態において、ベイトは、例えば、融解温度を上昇させるために1つ以上の非天然ヌクレオチドを含む。例示的な非天然オリゴヌクレオチドには、修飾DNAまたはRNAヌクレオチドが含まれる。例示的な修飾ヌクレオチド(例えば、修飾RNAまたはDNAヌクレオチド)には、ロックド核酸(LNA)(LNAヌクレオチドのリボース部分が2’酸素及び4’炭素を連結する余分な架橋で修飾される);ペプチド核酸(PNA)、例えば、ペプチド結合によって連結された繰り返しN-(2-アミノエチル)-グリシン単位から構成されるPNA;低GC領域を捕捉するように修飾されたDNAまたはRNAオリゴヌクレオチド;二環式核酸(BNA);架橋オリゴヌクレオチド;修飾5-メチルデオキシシチジン;及び2,6-ジアミノプリンが含まれるがこれらに限定されない。他の修飾DNA及びRNAヌクレオチドが当技術分野で知られている。
ある特定の実施形態において、標的配列(例えば、標的メンバー)の実質的に均一または均質なカバレッジが得られる。例えば、各ベイトセット/標的カテゴリ内で、カバレッジの均一性は、ベイトパラメータを修飾することによって、例えば次のうちの1つ以上によって最適化され得る:
(i)同じカテゴリ中の他の標的に対して過小/過剰にカバーされる標的(例えば、標的メンバー)のカバレッジを増強/低減させるために、ベイト表示もしくは重複を増加/減少させることが使用され得るか、
(ii)標的配列(例えば、高GC含量配列)を捕捉することが困難である低カバレッジに関して、例えば、近接配列(例えば、GCリッチ度がより低い近接配列)をカバーするようにベイトセットで標的化されている領域を拡大するか、
(iii)ベイトの二次構造を低減させ、その選択効率を増強させるために、ベイト配列を修飾することが使用され得るか、
(iv)同じカテゴリ内の異なるベイトの融解ハイブリダイゼーション速度を等しくするために、ベイトの長さを変更することが使用され得る。(長さが様々なベイトを産生することによって)直接、もしくは(一貫した長さのベイトを産生し、ベイト末端をランダムな配列で置き換えることによって)間接的にベイトの長さを変更し得るか、
(v)同じ標的領域(すなわち、フォワード及びリバース鎖)に対して異なる配向のベイトを修飾することによって、結合効率が異なり得る。各標的に対して最適のカバレッジを提供するいずれかの配向を有するベイトセットが選択され得るか、
(vi)各ベイト上に存在する結合実体、例えば、捕捉タグ(例えば、ビオチン)の量を変更することによって、その結合効率が影響を受け得る。相対的な標的カバレッジを増強/低減させるために、特定の標的を標的とするベイトのタグレベルを増加/減少させることが使用され得るか、
(vii)標的への結合親和性に影響を及ぼし、相対的な標的カバレッジを増強/低減させるために、異なるベイトに対して使用されるヌクレオチドの種類の変更が使用され得るか、または
(viii)高GC含量に対して低いもしくは正常なGC含量の領域間での融解ハイブリダイゼーション速度を等しくするために、修飾オリゴヌクレオチドベイトを使用すること、例えば、より安定した塩基対形成を有することが使用され得る。
例えば、異なる種類のオリゴヌクレオチドベイトセットが使用され得る。
一実施形態において、選択効率に対する値は、事前選択された標的領域を包含するために異なる種類のベイトオリゴヌクレオチドを使用することによって変更される。例えば、第1のベイトセット(例えば、10,000~50,000のRNAまたはDNAベイトを含むアレイに基づくベイトセット)は、大きな標的範囲(例えば、1~2MBの全標的範囲)をカバーするために使用され得る。第1のベイトセットは、第2のベイトセット(例えば、5,000個未満のベイトを含む個別に合成されたRNAまたはDNAベイトセット)に添加されて、事前選択された標的領域(例えば、標的範囲の対象とするスパニング、例えば、250kb以下の選択されたサブゲノム区間)、及び/またはより高い二次構造、例えば、より高いGC含量の領域をカバーし得る。対象とする選択された対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、本明細書に記載される遺伝子もしくは遺伝子産物、またはそれらの断片のうちの1つ以上に対応し得る。第2のベイトセットは、所望のベイト重複に応じて、約1~5,000、2~5,000、3~5,000、10~5,000、100~5,000、500~5,000、100~5,000、1,000~5,000、2,000~5,000個のベイトを含み得る。他の実施形態において、第2のベイトセットは、第1のベイトセットに添加される選択されたオリゴベイト(例えば、400、200、100、50、40、30、20、10、5、4、3、2、または1個未満のベイト)を含み得る。第2のベイトセットは、個別のオリゴベイトの任意の比で混合され得る。例えば、第2のベイトセットは、1:1の等モル比として存在する個別のベイトを含み得る。あるいは、第2のベイトセットは、例えば、ある特定の標的(例えば、ある特定の標的は、他の標的と比較して5~10Xの第2のベイトセットを有し得る)の捕捉を最適化するために、異なる比(例えば、1:5、1:10、1:20)で存在する個別のベイトを含み得る。
他の実施形態において、ベイトの当モル混合物を使用した場合に観察される差次的な配列捕捉効率に関連してベイトの相対的存在量または結合実体の密度(例えば、ハプテンまたは親和性タグ密度)を調整し、次いで、第2の群のベイトに対して、全体的なベイト混合物に差次的過剰量の第1群のベイトを導入することによって、群内の個別のベイト(例えば、第1、第2、または第3の複数のベイト)の効率を等しくすることによって、選択効率が調整される。
実施形態において、本方法は、腫瘍メンバー、例えば、腫瘍細胞からの対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含む核酸分子を選択するベイトセット(本明細書で「腫瘍ベイトセット」とも称される)を含む複数のベイトセットの使用を含む。腫瘍メンバーは、腫瘍細胞中に存在する任意のヌクレオチド配列、例えば、腫瘍またはがん細胞中に存在する本明細書に記載されるような変異型、野生型、PGx、参照、またはイントロンヌクレオチド配列であり得る。一実施形態において、腫瘍メンバーは、低頻度で出現する変化(例えば、1つ以上の変異)を含み、例えば、腫瘍試料からの細胞の約5%以下は、それらのゲノムにおいて変化を保有する。他の実施形態において、腫瘍メンバーは、腫瘍試料からの細胞の約10%の頻度で出現する変化(例えば、1つ以上の変異)を含む。他の実施形態において、腫瘍メンバーは、PGx遺伝子または遺伝子産物からのサブゲノム区間、イントロン配列、例えば、本明細書に記載されるようなイントロン配列、腫瘍細胞中に存在する参照配列を含む。
別の態様において、本発明は、本明細書に記載されるベイトセット、本明細書に記載される個別のベイトセットの組み合わせ、例えば、本明細書に記載される組み合わせを特徴とする。ベイトセット(複数可)は、説明書、標準物質、緩衝液もしくは酵素、または他の試薬を任意に含み得るキットの一部であり得る。
遺伝子選択
分析のための事前選択された対象区間、例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方、例えば、遺伝子及び他の領域のセットまたは群に対するサブゲノム区間の群またはセットが本明細書に記載される。
故に、実施形態において、方法は、取得された核酸試料からの少なくとも5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500個以上の遺伝子または遺伝子産物からの対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を、例えば、次世代配列決定法によって配列決定し、それにより、例えば、本明細書に記載されるがん由来の腫瘍試料を分析することを含み、ここで、遺伝子または遺伝子産物は、表1~4または図3A~4Dから選ばれる。
したがって、一態様において、本発明は、試料、例えば、血液悪性腫瘍(または、前悪性腫瘍)、例えば、本明細書に記載される血液悪性腫瘍(または、前悪性腫瘍)からの腫瘍試料を分析する方法を特徴とする。本方法は、
(a)試料から複数メンバー、例えば、血液悪性腫瘍(または、前悪性腫瘍)、例えば、本明細書に記載される血液悪性腫瘍(または、前悪性腫瘍)からの腫瘍試料から複数の腫瘍メンバーを含む1つまたは複数のライブラリを取得することと、
(b)任意に、例えば、1つまたは複数のライブラリを、ベイトセット(または、複数のベイトセット)と接触させることによって、事前選択された配列に対する1つまたは複数のライブラリを富化して、選択されたメンバー(例えば、ライブラリキャッチ)を提供することと、
(c)例えば、配列決定することを含む方法によって、例えば、次世代配列決定法を用いて、該ライブラリまたはライブラリキャッチからのメンバー、例えば、腫瘍メンバーから、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)に対する読み取りデータを取得することと、
(d)整列法、例えば、本明細書に記載される整列法によって該読み取りデータを整列させることと、
(e)該読み取りデータから、事前選択されたヌクレオチド位置にヌクレオチド値を割り当てること(例えば、ベイジアン法または本明細書に記載される方法を用いて、例えば、変異を呼び出すこと)と、を含み、
それにより、該腫瘍試料を分析し、
ここで、任意に、本方法は、試料からの少なくとも5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500個以上の遺伝子または遺伝子産物からの対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を、例えば、次世代配列決定法によって配列決定することを含み、ここで、遺伝子または遺伝子産物は、表1~4または図3A~4Dから選ばれる。
実施形態において、ステップ(b)は、存在する。実施形態において、ステップ(b)は、存在しない。
別の実施形態において、次のセットまたは群のうちの1つの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)を分析する。例えば、腫瘍またはがん遺伝子または遺伝子産物、参照(例えば、野生型)遺伝子または遺伝子産物、及びPGx遺伝子または遺伝子産物に関連する対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、腫瘍試料からサブゲノム区間の群またはセットを提供し得る。
実施形態において、本方法は、腫瘍試料から、読み取りデータ、例えば、配列、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)のセットを取得し、ここで、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、次のうちの少なくとも1、2、3、4、5、6、7、または全てから選ばれる:
A)表1~4または図3A~4Dによる変異型または野生型遺伝子または遺伝子産物からの、少なくとも5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500個以上の対象区間、例えば、サブゲノム区間、または発現サブゲノム区間、またはそれらの両方;
B)腫瘍またはがんに関連する遺伝子または遺伝子産物(例えば、陽性もしくは陰性治療応答予測因子であるか、陽性もしくは陰性予後因子であるか、または腫瘍もしくはがんの差次的な診断を可能とするもの、例えば、表1~4または図3A~4Dによる遺伝子または遺伝子産物)からの少なくとも5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500個以上の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方);
C)表1~4または図3A~4Dから選ばれる、薬物代謝、薬物応答性、または毒性のうちの1つ以上に関連する遺伝子または遺伝子産物(本明細書において「PGx」遺伝子とも称される)中に存在するサブゲノム区間の変異型または野生型遺伝子または遺伝子産物(例えば、一塩基多型(SNP)からの少なくとも5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500個以上の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方);
D)表1~4または図3A~4Dから選ばれる、(i)薬物で治療されたがん患者のより良好な生存率(例えば、パクリタキセルで治療された乳癌患者のより良好な生存率)、(ii)パクリタキセル代謝、(iii)薬物に対する毒性、または(iv)薬物に対する副作用のうちの1つ以上に関連する遺伝子または遺伝子産物中に存在する対象区間(例えば、サブゲノム区間または発現サブゲノム区間)の変異型または野生型PGx遺伝子または遺伝子産物(例えば、一塩基多型(SNP)からの少なくとも5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500個以上の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方);
E)表1~4または図3A~4Dによる少なくとも5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500個以上の遺伝子または遺伝子産物を伴う複数の転座変化;
F)例えば、事前選択された位置での対立遺伝子の多様性が事前選択された腫瘍型に関連し、該対立遺伝子の多様性が、該腫瘍型における細胞の5%未満で存在する、表1~4または図3A~4Dから選択される少なくとも5個の遺伝子または遺伝子産物;
G)GCリッチ領域に埋め込まれている、表1~4または図3A~4Dから選択される少なくとも5個の遺伝子または遺伝子産物;あるいは
H)がん発症のための遺伝(例えば、生殖細胞リスク)要因を示す少なくとも5個の遺伝子または遺伝子産物(例えば、遺伝子または遺伝子産物は表1~4または図3A~4Dから選ばれる)。
さらに別の実施形態において、本方法は、腫瘍試料から、読み取りデータ、例えば、配列、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)のセットを取得し、ここで、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、表1に記載される遺伝子または遺伝子産物のうちの、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、または全てから選ばれる。
さらに別の実施形態において、本方法は、腫瘍試料から、読み取りデータ、例えば、配列、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)のセットを取得し、ここで、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、表2に記載される遺伝子または遺伝子産物のうちの、5、6、7、8、9、10、15、20、25、30、または全てから選ばれる。
さらに別の実施形態において、本方法は、腫瘍試料から、読み取りデータ、例えば、配列、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)のセットを取得し、ここで、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、表3に記載される遺伝子または遺伝子産物のうちの、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、または全てから選ばれる。
さらに別の実施形態において、本方法は、腫瘍試料から、読み取りデータ、例えば、配列、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)のセットを取得し、ここで、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、表4に記載される遺伝子または遺伝子産物のうちの、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、または全てから選ばれる。
これら及び他のサブゲノム区間のセット及び群は、本明細書の他の箇所、例えば、「遺伝子選択」という題名の項でより詳細に論じられる。
本明細書に記載される方法のいずれも、次の実施形態のうちの1つ以上と組み合わせられ得る。
他の実施形態において、試料は腫瘍試料であり、例えば、1つ以上の前悪性または悪性細胞を含む。ある特定の実施形態において、試料、例えば、腫瘍試料は、悪性血液腫瘍(または前悪性腫瘍)、例えば、本明細書に記載される悪性血液腫瘍(または、前悪性腫瘍)から取得される。ある特定の実施形態において、試料、例えば、腫瘍試料は、固形腫瘍、軟組織腫瘍、または転移性病巣から取得される。他の実施形態において、試料、例えば、腫瘍試料は、外科的縁からの組織または細胞を含む。ある特定の実施形態において、試料、例えば、腫瘍試料は、腫瘍浸潤リンパ球を含む。試料は、組織学的に正常な組織であり得る。別の実施形態において、試料、例えば、腫瘍試料は、1つ以上の循環腫瘍細胞(CTC)(例えば、血液試料から取得されるCTC)を含む。実施形態において、試料、例えば、腫瘍試料は、1つ以上の非悪性細胞を含む。実施形態において、試料、例えば、腫瘍試料は、1つ以上の腫瘍浸潤リンパ球を含む。
一実施形態において、本方法は、試料、例えば、本明細書に記載されるような腫瘍試料を取得することをさらに含む。試料は、直接的または間接的に取得され得る。実施形態において、試料は、悪性細胞及び非悪性細胞(例えば、腫瘍浸潤リンパ球)の両方を含有する試料から、例えば、単離または精製によって取得される。
他の実施形態において、本方法は、本明細書に記載される方法を使用して、試料、例えば、組織学的に正常な試料、例えば、外科的縁からの試料を評価することを含む。出願人は、組織学的に正常な組織から得られた試料(例えば、他の点では組織学的に正常な組織縁)が、本明細書に記載されるような変化を依然として有し得ることを発見した。故に、本方法は、検出された変化の存在に基づいて組織試料を再分類することをさらに含み得る。
別の実施形態において、取得されるかまたは分析される読み取りデータの少なくとも10、20、30、40、50、60、70、80、または90%は、本明細書に記載される遺伝子、例えば、表1~4または図3A~4Dからの遺伝子からの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対するものである。
実施形態において、本方法で作製される変異呼び出しの少なくとも10、20、30、40、50、60、70、80、または90%は、本明細書に記載される遺伝子または遺伝子産物、例えば、表1~4または図3A~4Dからの遺伝子または遺伝子産物からの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対するものである。
実施形態において、本方法において使用される固有の閾値の少なくとも10、20、30、40、50、60、70、80、または90%は、本明細書に記載される遺伝子または遺伝子産物、例えば、表1~4または図3A~4Dからの遺伝子または遺伝子産物からの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対するものである。
実施形態において、アノテーションされるかまたは第3者に対して報告される変異呼び出しの少なくとも10、20、30、40、50、60、70、80、または90%は、本明細書に記載される遺伝子または遺伝子産物、例えば、表1~4または図3A~4Dからの遺伝子または遺伝子産物からの対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対するものである。
実施形態において、本方法は、腫瘍及び/または対照核酸試料(例えば、FFPE由来核酸試料)から得られたヌクレオチド配列読み取りデータを取得することを含む。
実施形態において、読み取りデータは、NGS配列決定法によって提供される。
実施形態において、本方法は、核酸メンバーの1つまたは複数のライブラリを提供することと、該1つまたは複数のライブラリの複数のメンバーから、事前選択されたサブゲノム区間を配列決定することと、を含む。実施形態において、本方法は、配列決定のための該1つまたは複数のライブラリのサブセットを選択するステップ、例えば、溶液ベースの選択または固体支持体(例えば、アレイ)ベースの選択を含み得る。
実施形態において、本方法は、1つまたは複数のライブラリを複数のベイトと接触させて、核酸の選択下位群、例えば、ライブラリキャッチを提供するステップを含む。一実施形態において、接触ステップは、溶液ハイブリダイゼーションにおいて実施される。別の実施形態において、接触ステップは、固体支持体、例えば、アレイにおいて実施される。ある特定の実施形態において、本方法は、1回以上の追加のハイブリダイゼーションによってハイブリダイゼーションステップを反復することを含む。いくつかの実施形態において、本方法は、同じかまたは異なるベイト集合体を用いた1回以上の追加のハイブリダイゼーションにライブラリキャッチを供することをさらに含む。
さらに他の実施形態において、本方法は、ライブラリキャッチを分析することをさらに含む。一実施形態において、ライブラリキャッチは、配列決定法、例えば、本明細書に記載されるような次世代配列決定法によって分析される。本方法は、例えば、溶液ハイブリダイゼーションによってライブラリキャッチを単離し、核酸配列決定によってそのライブラリキャッチを供することを含む。ある特定の実施形態において、ライブラリキャッチは、再配列決定され得る。次世代配列決定法は、当技術分野で知られており、例えば、Metzker,M.(2010)Nature Biotechnology Reviews 11:31-46に記載されている。
実施形態において、ヌクレオチド位置に対する割り当て値は、任意に、説明的なアノテーション付きで第3者に伝達される。
実施形態において、ヌクレオチド位置に対する割り当て値は、第3者に伝達されない。
実施形態において、複数のヌクレオチド位置に対する割り当て値は、任意に、説明的なアノテーション付きで、第3者に伝達され、第2の複数のヌクレオチド位置に対する割り当て値は第3者に伝達されない。
実施形態において、少なくとも0.01、0.02、0.03、0.04、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、2.0、5.0、10、15、または30メガ塩基、例えば、ゲノム塩基が配列決定される。
実施形態において、本方法は、少なくとも1つのSNPを含む複数の読み取りデータを評価することを含む。
実施形態において、本方法は、試料及び/または対照読み取りデータ中のSNP対立遺伝子比を決定することを含む。
実施形態において、本方法は、例えば、バーコード解析によって、1つ以上の読み取りデータを対象に割り当てることを含む。
実施形態において、本方法は、例えば、バーコード解析によって、腫瘍読み取りデータまたは対照読み取りデータとして1つ以上の読み取りデータを割り当てることを含む。
実施形態において、本方法は、例えば、参照配列との整列によって、該1つ以上の読み取りデータの各々をマッピングすることを含む。
実施形態において、本方法は、呼び出された変異を提出することを含む。
実施形態において、本方法は、呼び出された変異をアノテーションすること、例えば、変異構造の指標を有する呼び出された変異、例えば、ミスセンス変異、または機能、例えば、疾患表現型をアノテーションすることを含む。
実施形態において、本方法は、腫瘍及び対照核酸に対するヌクレオチド配列読み取りデータを取得することを含む。
実施形態において、本方法は、例えば、ベイジアン呼び出し法または非ベイジアン呼び出し法を用いて、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)の各々に対する、ヌクレオチド値、例えば、変異形、例えば、変異を呼び出すことを含む。
実施形態において、例えば、異なる対象からの複数の試料が同時に処理される。
本明細書に開示される方法は、対象のゲノムまたはトランスクリプトームに存在する変化を検出するために使用され得、DNA及びRNA配列決定、例えば、標的化RNA及び/またはDNA配列決定に適用され得る。故に、本発明において取り上げられる別の態様は、本明細書に記載される変化を検出するための、標的化RNA配列決定、例えば、試料、例えば、FFPE試料、血液試料、または骨髄穿刺液試料から取得されたRNA由来のcDNAの配列決定のための方法を含む。この変化は、再編成、例えば、遺伝子融合をコードする再編成であり得る。他の実施形態において、本方法は、遺伝子または遺伝子産物のレベルの変化(例えば、増加または減少)、例えば、本明細書に記載される遺伝子または遺伝子産物の発現の変化の検出を含む。任意に、本方法は、標的RNAに対して試料を富化するステップを含み得る。他の実施形態において、本方法は、ある特定の高存在量のRNA、例えば、リボソームまたはグロビンRNAの試料を枯渇させるステップを含む。RNA配列決定法は、単独で、または本明細書に記載されるDNA配列決定法と組み合わせて使用され得る。一実施形態において、本方法は、DNA配列決定ステップ及びRNA配列決定ステップを行うことを含む。本方法は、任意の順序で行われ得る。例えば、本方法は、本明細書に記載される変化の発現をRNA配列決定することによって確認すること、例えば、本発明のDNA配列決定法によって検出される変異または融合の発現を確認することを含み得る。他の実施形態において、本方法は、RNA配列決定ステップを行い、続いてDNA配列決定ステップを行うことを含む。
別の態様において、本発明は、標的化サブゲノム領域に対する配列決定/整列アーチファクトのデータベースを構築することを含む方法を特徴とする。実施形態において、データベースは、偽の変異呼び出しを除去し、特異性を改善するために使用され得る。実施形態において、データベースは、無関係の非腫瘍(例えば、FFPE、血液、または骨髄穿刺液)試料または細胞株の配列決定を行い、これらの正常試料のうちの1つ以上においてランダムな配列決定エラーのみに起因する、予想されるものよりも頻度が高いと思われる非参照対立遺伝子事象を記録することによって構築される。この手法は、生殖細胞変動をアーチファクトとして分類し得るが、それは、体細胞変異に関する方法では許容可能である。アーチファクトとしての生殖細胞変動のこの誤分類は、必要に応じて、既知の生殖細胞変動(共通変異形の除去)に対して、及び1個体のみに出現するアーチファクトに対して(希少変動の除去)、このデータベースをフィルタリングすることによって改善され得る。
本明細書に開示される方法は、例えば、ゲノムのがん関連分節に適用されるような、最適化されたベイトに基づく選択、最適化された整列、及び最適化された変異呼び出しを含むいくつかの最適化された要素の統合を可能にする。本明細書に記載される方法は、がんごと、遺伝子ごと、及び部位ごとに最適化され得る腫瘍のNGSに基づく分析を提供する。これは、例えば、本明細書に記載される遺伝子/部位及び腫瘍型に適用され得る。本方法は、所与の配列決定技術を用いて変異検出に対する感度及び特異性のレベルを最適化する。がんごと、遺伝子ごと、及び部位ごとの最適化は、臨床製品にとって必須である非常に高いレベルの感度/特異性(例えば、両方に関して>99%)を提供する。
本明細書に記載される方法は、最適な治療及び疾患管理の決断を知らせるために、日常的な実在の試料からの、次世代配列決定技術を使用した、臨床及び規制グレードの包括的な分析、ならびに妥当に実施可能な遺伝子の包括的セット(これは、典型的には、50~500個の遺伝子の範囲であり得る)に対するゲノム異常の解釈を提供する。
本明細書に記載される方法は、最適治療及び疾患管理の判断を知らせるために、腫瘍試料を送付して、その腫瘍に対するゲノム及び他の分子の変化の包括的な分析及び説明を受領する腫瘍医/病理学者のためのワンストップショッピングを提供する。
本明細書に記載される方法は、標準的な入手可能な腫瘍試料を採取する堅牢で現実的な臨床腫瘍診断ツールを提供し、1つの試験で、どの異常が腫瘍の原因になり得、腫瘍医に治療判断を知らせるのに有用であり得るかの包括的な説明を腫瘍医に提供するために、包括的なゲノム及び他の分子異常分析を提供する。
本明細書に記載される方法は、臨床グレードの品質の、患者のがんゲノムの包括的な分析を提供する。方法は、最も関連性の高い遺伝子及び潜在的な変化を含み、変異(例えば、インデルまたは塩基置換)、コピー数、再編成、例えば、転座、発現、及びエピジェネティックマーカーの分析のうちの1つ以上を含む。遺伝子分析の結果は、実施可能な結果の記述的報告とともに状況を説明し得る。方法は、この使用を、関連する科学的及び医学的知識の最新のセットと結び付ける。
本明細書に記載される方法は、患者のケアの質及び効率の両方の向上を提供する。これは、標準治療がないかまたは確立された一連の療法が患者にとって無効であるような、腫瘍が稀であるかまたはあまり研究されていない型のものであり、追加の療法の選択のための、または臨床試験参加のための合理的基準が有用であり得る適用を含む。例えば、本方法は、療法の任意の時点で、腫瘍医が意思決定を知らせるために利用可能な完全な「分子イメージ」及び/または「分子サブ診断」を有することによって利益を得る選択を可能にする。
本明細書に記載される方法は、患者または別の者または実体、例えば、介護者、例えば、内科医、例えば、腫瘍医、病院、診療所、第3者の支払人、保険会社、もしくは官庁に対する、報告書、例えば、電子報告書、ウェブベース報告書、または書面報告書を提供することを含み得る。この報告書は、本方法からの結果、例えば、ヌクレオチド値の同定、試料の種類の腫瘍に関連する、例えば、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対する、変化、変異、または野生型配列の有無の指標を含み得る。報告書は、配列の役割における情報、例えば、疾患における変化、変異、または野生型配列も含み得る。このような情報は、予後、耐性、または潜在的もしくは示唆された療法選択肢に対する情報を含み得る。報告書は、療法選択肢の推定有効性、療法選択肢の許容性、または、本報告書で識別される患者、例えば、試験において、及び実施形態において識別される配列、変化を有する患者に対する療法選択肢の適用の適否に対する情報を含み得る。例えば、報告書は、薬物の投与、例えば、事前選択された用量での、または事前選択された治療レジメンでの、例えば、他の薬物と組み合わせられた、患者への投与に対する情報または推奨を含み得る。実施形態において、本方法で識別される変異の全てが報告書で識別されるわけではない。例えば、報告書は、例えば、事前選択された療法選択肢による治療に対するがんの発生、予後、ステージ、または易罹患性との事前選択された相関レベルを有する遺伝子における変異に限定され得る。本明細書において取り上げられる方法は、本方法を実施する実体による試料の受領から7日、14日、または21日以内に、例えば、本明細書に記載される実体に報告書を送付することを可能にする。
故に、本発明において取り上げられる方法は、例えば、試料の受領から7、14、または21日以内という、迅速な結果所用時間を可能にする。
本明細書に記載される方法は、組織学的に正常な試料、例えば、外科的縁からの試料を評価するためにも使用され得る。本明細書に記載されるような1つ以上の変化が検出される場合、組織は、例えば、悪性または前悪性として再分類され得、及び/または治療経過が変更され得る。
ある特定の態様において、本明細書に記載される配列決定法は、非がん用途、例えば、法医学用途(例えば、歯科記録の使用の代替としてまたはそれに加えた同定)、親子検査、ならびに例えば、中でも感染性疾患、自己免疫障害、嚢胞性線維症、ハンチントン病、アルツハイマー病に関する疾患の診断及び予後において有用である。例えば、本明細書に記載される方法による遺伝子変化の同定は、特定の障害を発症することに関しての個体の存在またはリスクを示し得る。
別途定義されない限り、本明細書で使用される全ての技術用語及び科学用語は、本発明が属する技術分野の技術者によって一般的に理解されるものと同じ意味を有する。本明細書に記載されるものと同様または同等の方法及び材料が本発明の実施または試験で使用され得るが、好適な方法及び材料が以下に記載される。本明細書で言及される全ての刊行物、特許出願、特許、及び他の参考文献は、参照によってその全体が組み込まれる。加えて、材料、方法、及び実施例は例示にすぎず、限定であることは意図されない。
本発明の他の特徴及び利点は、発明を実施するための形態、図面から、及び特許請求の範囲から明らかになるであろう。
本発明は、例えば、ハイブリッド捕捉に基づく次世代配列決定(NGS)プラットフォームを使用して、患者試料からのゲノムまたはエクソームの小画分をプロファイリングすることが、全ての変異荷重の分析に対して有効な代替法の役割を果たすという発見に少なくとも部分的に基づく。
理論に束縛されるものではないが、免疫原性腫瘍ネオ抗原を生成する尤度は、確率的な様式で、変異が発生すると増加し、免疫認識の尤度を増加すると考えられている(Gubin and Schreiber. Science 350:158-9,2015)。しかし、全ての変異荷重を評価することは、全エクソーム解析(WES)を必要とする。この手法は、特化された組織処理、適合正常検体を要し、現在、研究ツールとして広く行われている。臨床的セッティングにおいてWESを行う上での技術的及び情報学的課題を考慮すると、変異負荷を検出する代理方法が必要とされる。本明細書に記載される有効化されたハイブリッド捕捉に基づくNGSプラットフォームを含む本方法は、例えば、より臨床的に実現可能な結果所要時間(約2週間)、標準化情報学パイプライン、及びより管理可能なコストを含むいくつかの実用本位の利点を有する。この手法は、それが主観的尺度(病理学的スコア付け)よりむしろ、客観的尺度(例えば、変異荷重)を生み出すために、組織化学によって検出されるタンパク質発現などの従来のマーカーを上回る他の利点を有する(Hansen and Siu. JAMA Oncol 2(1):15-6,2016)。さらに、このプラットフォームは、標的療法に関連する実施可能な変化の同時検出を容易にする。
したがって、本発明は、試料からのサブゲノム区間のセットの配列を提供すること、及び変異荷重に対する値を決定することによって、試料中の変異荷重を評価する方法を少なくとも部分的に提供し、ここで、値は、サブゲノム区間のセット内の変化の数の関数である。ある特定の実施形態において、サブゲノム区間のセットは、所定の遺伝子セット、例えば、全ゲノムまたはエクソームを含まない所定の遺伝子セットからのものである。ある特定の実施形態において、サブゲノム区間のセットは、コードサブゲノム区間のセットである。他の実施形態において、サブゲノム区間のセットは、コードサブゲノム区間及び非コードサブゲノム区間の両方を含有する。ある特定の実施形態において、変異荷重に対する値は、サブゲノム区間のセット内の変化(例えば、体細胞変化)の数の関数である。ある特定の実施形態において、変化の数は、機能的変化、生殖細胞変化、またはそれらの両方を除外する。いくつかの実施形態において、試料は、腫瘍試料または腫瘍由来の試料である。本明細書に記載される方法はまた、例えば、試料から複数の腫瘍メンバーを含むライブラリを取得することと、ライブラリをベイトセットと接触させて、ハイブリダイゼーションによって選択された腫瘍メンバーを提供し、それにより、ライブラリキャッチを提供することと、ライブラリキャッチからの腫瘍メンバーから変化を含むサブゲノム区間に対する読み取りデータを取得することと、整列法によって読み取りデータを整列させることと、読み取りデータから、事前選択されたヌクレオチド位置にヌクレオチド値を割り当てることと、割り当てられたヌクレオチド位置のセットから、所定の遺伝子セットからのものであるサブゲノム区間のセットを選択することと、のうちの1つ以上を含み得る。試料中の変異荷重を評価するためのシステムも開示されている。
ある特定の用語が最初に定義される。追加の用語は、本明細書全体を通して定義される。
本明細書で使用されるとき、冠詞「a」及び「an」は、冠詞の文法上の目的語のうちの1つまたは1つを超えるもの(例えば、少なくとも1つ)を指す。
「約」及び「およそ」は、概して、測定の性質または精度を考慮して、測定された量に対する許容可能なエラーの程度を意味する。例示的なエラーの程度は、所与の値また値の範囲の20パーセント(%)以内、典型的には10%以内、及びより典型的には5%以内である。
「取得する」または「取得すること」という用語は、本明細書で使用されるとき、物理的実体、もしくは値、例えば、「直接的に取得する」ことによって数値、または「間接的に取得する」ことによって物理的実体もしくは値を得ることを指す。「直接的に取得すること」は、プロセスを行って(例えば、合成方法または分析方法を行って)、物理的実体または値を得ることを意味する。「間接的に取得すること」は、別の団体または供給源(例えば、物理的実体または値を直接的に取得した第3者の研究室)から物理的実体または値を受領することを指す。物理的実体を直接的に取得することは、物理的物質、例えば、開始材料中で物理的変化を含むプロセスを行うことを含む。例示的な変化には、2つ以上の開始材料から物理的実体を作製すること、物質をせん断または断片化すること、物質を分離または精製すること、2つ以上の別個の実体を組み合わせて混合物にすること、共有結合または非共有結合を切断または形成することを含む化学反応を行うことが含まれる。値を直接的に取得することは、試料または別の物質中で物理的変化を含むプロセスを行うこと、例えば、物質、例えば、試料、分析物、または試薬中で物理的変化を含む分析プロセス(本明細書において、「物理的な分析」と称される場合もある)を行うこと、分析方法、例えば、次の:物質、例えば、分析物、もしくは断片、もしくはそれらの他の誘導体を、別の物質から分離もしくは精製すること、分析物、もしくは断片、もしくはそれらの他の誘導体を、別の物質、例えば、緩衝剤、溶媒、もしくは反応物質と組み合わせること、または、例えば、分析物の第1及び第2の原子間の共有結合もしくは非共有結合を切断もしくは形成することによって、分析物、もしくは断片、もしくはそれらの他の誘導体の構造を変化させること、または、例えば、試薬の第1及び第2の原子間の共有結合もしくは非共有結合を切断もしくは形成することによって、試薬、もしくは断片、もしくはそれらの他の誘導体の構造を変化させることのうちの1つ以上を含む方法を行うことを含む。
「配列を取得すること」または「読み取りデータを取得すること」という用語は、本明細書で使用されるとき、「直接的に取得すること」によってヌクレオチド配列もしくはアミノ酸配列、または「間接的に取得すること」によって配列もしくは読み取りデータを得ることを指す。配列または読み取りデータを「直接的に取得すること」は、プロセスを行って(例えば、合成方法または分析方法を行って)、例えば、配列決定法(例えば、次世代配列決定(NGS)法)を行って、配列を得ることを意味する。配列または読み取りデータを「間接的に取得すること」は、別の団体または供給源(例えば、配列を直接的に取得した第3者の研究室)から、配列の情報もしくは知識を受領すること、または配列を受領することを指す。取得された配列または読み取りデータは、完全配列である必要はなく、例えば、配列を取得する対象構成に存在していると本明細書に開示される変化のうちの1つ以上を識別する少なくとも1個のヌクレオチドの配列決定、または情報もしくは知識を得ることである。
配列または読み取りデータを直接的に取得することは、物理的物質、例えば、開始材料、例えば、組織または細胞試料、例えば、生体組織または単離核酸(例えば、DNAまたはRNA)試料における物理的変化を含むプロセスを行うことを含む。例示的な変化には、2つ以上の開始材料から物理的実体を作製すること、物質、例えば、ゲノムDNA断片をせん断または断片化すること、物質を分離または精製すること(例えば、組織から核酸試料を単離すること)、2つ以上の別個の実体を組み合わせて混合物にすること、共有結合または非共有結合を切断または形成することを含む化学反応を行うことが含まれる。値を直接的に取得することは、上述されるような試料または別の物質における物理的変化を含むプロセスを行うことを含む。
「試料を取得すること」という用語は、本明細書で使用されるとき、試料を「直接的に取得すること」または「間接的に取得すること」によって、試料、例えば、組織試料または核酸試料を得ることを指す。「試料を直接的に取得すること」は、試料を得るためのプロセスを行うこと(例えば、外科的手術または抽出などの物理的方法を行うこと)を意味する。「試料を間接的に取得すること」は、別の団体または供給源(例えば、試料を直接的に取得した第3者の研究室)から試料を受領することを指す。試料を直接的に取得することは、物理的物質、例えば、開始材料、例えば、組織、例えば、ヒト患者における組織、または患者から以前に単離された組織における物理的変化を含むプロセスを行うことを含む。例示的な変化には、開始材料から物理的実体を作製すること、組織を解剖または擦り取ること、物質(例えば、試料組織または核酸試料)を分離または精製すること、2つ以上の別個の実体を組み合わせて混合物にすること、共有結合または非共有結合を切断または形成することを含む化学反応を行うことが含まれる。試料を直接的に取得することは、例えば、上述されるような試料または別の物質における物理的変化を含むプロセスを行うことを含む。
「整列セレクタ」は、本明細書で使用されるとき、事前選択されたサブゲノム区間の配列決定を最適化し得る整列法、例えば、整列アルゴリズムまたはパラメータの選択を可能にするかまたは指示するパラメータを指す。整列セレクタは、例えば、次のうちの1つ以上の関数に特異的であり得るか、またはそれらの関数として選択され得る。
1. 配列状況、例えば、サブゲノム区間(例えば、評価される事前選択されたヌクレオチド位置)に対する読み取りデータの誤整列に対する傾向に関連する該サブゲノム区間の配列状況。例えば、ゲノムの他の場所で反復される評価されるサブゲノム区間中またはその付近の配列要素の存在は、誤整列を引き起こし得、それにより、能力が低減し得る。誤整列を最小限にするアルゴリズムまたはアルゴリズムパラメータを選択することによって、能力が増強され得る。この場合、整列セレクタに対する値は、配列状況、例えば、ゲノム(または、分析されているゲノムの一部分)中の少なくとも事前選択された回数反復される事前選択された長さの配列の有無の関数であり得る。
2. 分析されている腫瘍型。例えば、特定の腫瘍型は、欠失率の増加を特徴とし得る。故に、インデルに対してより感度が高いアルゴリズムまたはアルゴリズムパラメータを選択することによって、能力が増強され得る。この場合、整列セレクタに対する値は、腫瘍型の関数、例えば、腫瘍型に対する識別子であり得る。実施形態において、値は、腫瘍型、例えば、血液悪性腫瘍(または前悪性腫瘍)の同一性である。
3. 分析されている遺伝子または遺伝子の型、例えば、遺伝子または遺伝子の型が分析され得る。例として、発がん遺伝子は、置換またはインフレームインデルを特徴とすることが多い。故に、これらの変異形に対して特に感度が高く、他のものに対して特異的であるアルゴリズムまたはアルゴリズムパラメータを選択することによって、能力が増強され得る。腫瘍抑制因子は、フレームシフトインデルを特徴とすることが多い。故に、これらの変異形に対して特に感度があるアルゴリズムまたはアルゴリズムパラメータを選択することによって、能力が増強され得る。故に、サブゲノム区間と適合するアルゴリズムまたはアルゴリズムパラメータを選択することによって、能力が増強され得る。この場合、整列セレクタに対する値は、遺伝子または遺伝子の型の関数、例えば、遺伝子または遺伝子の型に対する識別子であり得る。実施形態において、値は、遺伝子の同一性である。
4. 分析されている部位(例えば、ヌクレオチド位置)。この場合、整列セレクタに対する値は、部位または部位の種類の関数、例えば、部位または部位の種類に対する識別子であり得る。実施形態において、値は、部位の同一性である。(例えば、その部位を含有する遺伝子が別の遺伝子と相同性が高い場合、正常型/高速の短い読み取りデータ整列アルゴリズム(例えば、BWA)は、2個の遺伝子間を区別することが困難であり得、より強力な整列法(Smith-Waterman)または均等アセンブリ(ARACHNE)を要する可能性がある。同様に、遺伝子配列が複雑性の低い領域(例えば、AAAAAA)を含有する場合、より強力な整列法が必要であり得る。
5. 評価されているサブゲノム区間に関連する、変異形または変異形の種類。例えば、置換、挿入、欠失、転座、または他の再編成。故に、特異的な変異形の種類に対してより感度が高いアルゴリズムまたはアルゴリズムパラメータを選択することによって、能力が増強され得る。この場合、整列セレクタに対する値は、変異形の種類の関数、例えば、変異形の種類に対する識別子であり得る。実施形態において、値は、変異形の種類、例えば、置換の同一性である。
6. 試料の種類、FFPEまたは他の固定試料。試料の種類/品質は、エラー(非参照配列の偽の観察)率に影響を及ぼし得る。故に、試料中の真偽率を正確に具現化するアルゴリズムまたはアルゴリズムパラメータを選択することによって、能力が増強され得る。この場合、整列セレクタに対する値は、試料の種類の関数、例えば、試料の種類に対する識別子であり得る。実施形態において、値は、試料の種類、例えば、固定試料の同一性である。
遺伝子または遺伝子産物(例えば、マーカー遺伝子または遺伝子産物)の「変化」または「変化した構造」は、本明細書で使用されるとき、正常または野生型遺伝子と比較して、遺伝子または遺伝子産物内の変異(複数可)、例えば、遺伝子または遺伝子産物の完全性、配列、構造、量、または活性に影響を及ぼす変異の存在を指す。この変化は、正常または健康な組織または細胞(例えば、対照)におけるその量、構造、及び/または活性と比較した場合の、がん組織またはがん細胞における量、構造、及び/または活性におけるものであり得、がんなどの疾患状態に関連する。例えば、がんに関連するか、または抗がん療法に対する応答性を予測する変化は、がん組織またはがん細胞において、正常で健康な組織または細胞と比較して、変化したヌクレオチド配列(例えば、変異)、アミノ酸配列、染色体転座、染色体内逆位、コピー数、発現レベル、タンパク質レベル、タンパク質活性、エピジェネティック修飾(例えば、メチル化状態もしくはアセチル化状態、または翻訳後修飾を有し得る。例示的な変異には、点変異(例えば、サイレント、ミスセンス、またはナンセンス)、欠失、挿入、逆位、重複、増幅、転座、染色体間再編成、及び染色体内再編成が含まれるが、これらに限定されない変異は、遺伝子のコードまたは非コード領域に存在し得る。ある特定の実施形態において、変化(複数可)は、再編成、例えば、1つ以上のイントロンまたはその断片(例えば、5’-及び/または3’-UTRにおける1つ以上の再編成)を含むゲノム再編成として検出される。ある特定の実施形態において、変化は、表現型、例えば、がん性表現型(例えば、がんリスク、がん進行、がん治療、またはがん治療に対する耐性のうちの1つ以上)に関連する(か、または関連しない)。一実施形態において、変化は、がんに対する遺伝的リスク因子、陽性治療応答予測因子、陰性治療応答予測因子、陽性予後因子、陰性予後因子、または診断因子のうちの1つ以上に関連する。
本明細書で使用されるとき、「インデル」という用語は、細胞の核酸中の1つ以上のヌクレオチドの挿入、欠失、またはそれらの両方を指す。ある特定の実施形態において、インデルは、1つ以上のヌクレオチドの挿入及び欠失の両方を含み、ここで、挿入及び欠失の両方は、核酸上の付近にある。ある特定の実施形態において、インデルは、ヌクレオチドの合計数において正味の変化をもたらす。ある特定の実施形態において、インデルは、約1~約50個のヌクレオチドの正味の変化をもたらす。
「クローンプロファイル」という用語は、本明細書で使用されるとき、出現、同一性、可変性、分布、発現(サブゲノムシグネチャーの転写コピーの出現またはレベル)、または対象区間の(または、それを含む細胞の)1つ以上の配列、例えば、対立遺伝子もしくはシグネチャーの存在量、例えば、相対的存在量を指す。実施形態において、クローンプロファイルは、対象区間に対する複数の配列、対立遺伝子、またはシグネチャーが試料中に存在する場合、対象区間(または、それを含む細胞)に対する1つの配列、対立遺伝子、またはシグネチャーに関する相対的存在量に対する値である。例えば、実施形態において、クローンプロファイルは、対象区間に対する複数のVDJまたはVJの組み合わせのうちの1つ以上の相対的存在量に対する値を含む。実施形態において、クローンプロファイルは、対象区間に対する選択されたV分節の、相対的存在量に対する値を含む。実施形態において、クローンプロファイルは、対象区間の配列内での、例えば、体細胞高頻度変異から生じるような多様性に対する値を含む。実施形態において、クローンプロファイルは、例えば、配列、対立遺伝子、またはシグネチャーを含む発現サブゲノム区間の出現またはレベルによって証明されるような、配列、対立遺伝子、またはシグネチャーの発現の出現またはレベルに対する値を含む。
「発現サブゲノム区間」という用語は、本明細書で使用されるとき、サブゲノム区間の転写された配列を指す。実施形態において、発現サブゲノム区間の配列は、それが転写されるサブゲノム区間とは異なり、例えば、いくつかの配列は、転写され得ない。
「シグネチャー」という用語は、本明細書で使用されるとき、対象区間の配列を指す。シグネチャーは、対象区間で複数の可能性のうちの1つの出現を示し得、例えば、シグネチャーは、再編成された重鎖または軽鎖可変領域遺伝子における選択されたV分節の出現;選択されたVJ接合部の出現、例えば、再編成された重鎖可変領域遺伝子における選択されたV分節及び選択されたJ分節の出現を示し得る。実施形態において、シグネチャーは、複数の特異的な核酸配列を含む。故に、シグネチャーは、特異的な核酸配列に限定されず、むしろ、対象区間での配列または可能性の第1の群と、対象区間での可能性の第2の群とを区別し得、例えば、第1のV分節と第2のV分節とを区別し得るのに十分固有であり、これにより、例えば、様々なV分節の使用の評価が可能となる。シグネチャーという用語は、特異的な核酸配列である、特異的シグネチャーという用語を含む。実施形態において、シグネチャーは、特異的な事象、例えば、再編成事象を示すものであるか、またはその結果である。
「サブゲノム区間」という用語は、本明細書で使用されるとき、ゲノム配列の一部分を指す。実施形態において、サブゲノム区間は、単一のヌクレオチド位置、例えば、腫瘍表現型と(陽性または陰性に)関連するヌクレオチド位置変異形であり得る。実施形態において、サブゲノム区間は、1個を超えるヌクレオチド位置を含む。このような実施形態は、少なくとも2、5、10、50、100、150、または250個のヌクレオチド位置の長さの配列を含む。サブゲノム区間は、遺伝子全体またはその事前選択された部分、例えば、コード領域(または、その一部)、事前選択されたイントロン(または、その一部)、またはエクソン(または、その一部)を含み得る。サブゲノム区間は、天然の、例えば、ゲノムDNA、核酸の断片の全てまたは一部を含み得る。例えば、サブゲノム区間は、配列決定反応に供されるゲノムDNAの断片に対応し得る。実施形態において、サブゲノム区間は、ゲノムの供給源からの連続的な配列である。実施形態において、サブゲノム区間は、ゲノム中で連続していない配列を含み、例えば、それは、cDNA中のエクソン-エクソン接合部で形成されることが見られる接合部を含み得る。
実施形態において、サブゲノム区間は、再編成された配列、例えば、V分節とD分節、D分節とJ分節、V分節とJ分節、またはJ分節と分類分節との連結の結果として生じるBまたはT細胞における配列に対応する。
実施形態において、サブゲノム区間において多様性はない。
実施形態において、サブゲノム区間において多様性があり、例えば、サブゲノム区間が1つを超える配列によって表され、例えば、VD配列をカバーするサブゲノム区間が1つを超えるシグネチャーによって表され得る。
実施形態において、サブゲノム区間は、単一のヌクレオチド位置;遺伝子内領域または遺伝子間領域;エクソンもしくはイントロン、またはそれらの断片、典型的にはエクソン配列またはその断片;コード領域または非コード領域、例えば、プロモーター、エンハンサー、5’非翻訳領域(5’UTR)もしくは3’非翻訳領域(3’UTR)、またはそれらの断片;cDNAまたはその断片;SNP;体細胞変異、生殖細胞変異、またはそれらの両方;変化、例えば、点または単一変異;欠失変異(例えば、インフレーム欠失、遺伝子内欠失、完全遺伝子欠失);挿入変異(例えば、遺伝子内挿入);逆位変異(例えば、染色体内逆位);連結変異;連結された挿入変異;逆位重複変異;タンデム重複(例えば、染色体内タンデム重複);転座(例えば、染色体転座、非相反転座);再編成(例えば、ゲノム再編成(例えば、1つ以上のイントロンまたはその断片の再編成;再編成されたイントロンは、5’-及び/または3’UTRを含み得る));遺伝子コピー数の変化;遺伝子発現の変化;RNAレベルの変化;あるいはそれらの組み合わせを含むかまたはそれらからなる。「遺伝子のコピー数」は、特定の遺伝子産物をコードする細胞中のDNA配列の数を指す。概して、所与の遺伝子に関して、哺乳動物は各遺伝子の2つのコピーを有する。コピー数は、例えば、遺伝子増幅もしくは重複によって増加され得るか、または欠失によって低減され得る。
「対象区間」という用語は、本明細書で使用されるとき、サブゲノム区間または発現サブゲノム区間を指す。実施形態において、サブゲノム区間及び発現サブゲノム区間は対応し、これは、つまり、発現サブゲノム区間が、対応するサブゲノム区間から発現される配列を含むことを意味する。実施形態において、サブゲノム区間及び発現サブゲノム区間は対応せず、これは、つまり、発現サブゲノム区間が、対応しないサブゲノム区間から発現される配列を含まないが、むしろ異なるサブゲノム区間に対応することを意味する。実施形態において、サブゲノム区間及び発現サブゲノム区間は部分的に対応し、これは、つまり、発現サブゲノム区間が、対応するサブゲノム区間から発現される配列及び異なる対応するサブゲノム区間から発現される配列を含むことを意味する。
本明細書で使用されるとき、「ライブラリ」という用語は、メンバーの集合体を指す。一実施形態において、ライブラリは、核酸メンバーの集合体、例えば、全ゲノム、サブゲノム断片、cDNA、cDNA断片、RNA、例えば、mRNA、RNA断片、またはそれらの組み合わせの集合体を含む。一実施形態において、ライブラリメンバーの一部または全てがアダプター配列を含む。アダプター配列は、一方または両方の末端に位置し得る。アダプター配列は、例えば、配列決定法(例えば、NGS法)に対して、増幅に対して、逆転写に対して、またはベクターへのクローニングに対して有用であり得る。
ライブラリは、メンバー、例えば、標的メンバー(例えば、腫瘍メンバー、参照メンバー、PGxメンバー、またはそれらの組み合わせ)の集合体を含み得る。ライブラリのメンバーは、単一の個体のものであり得る。実施形態において、ライブラリは、1人を超える対象(例えば、2、3、4、5、6、7、8、9、10、20、30人以上の対象)からのメンバーを含み得、例えば、異なる対象からの2つ以上のライブラリが組み合わされ、1人を超える対象からのメンバーを含むライブラリを形成し得る。一実施形態において、対象は、がんまたは腫瘍を有するか、またはそれらを有するリスクがあるヒトである。
「ライブラリキャッチ」は、ライブラリのサブセット、例えば、事前選択されたサブゲノム区間、例えば、事前選択されたベイトとのハイブリダイゼーションによって捕捉された産物に関して富化されたサブセットを指す。
「メンバー」、または「ライブラリメンバー」、または他の同様の用語は、本明細書で使用されるとき、ライブラリのメンバーである核酸分子、例えば、DNA、RNA、またはそれらの組み合わせを指す。典型的には、メンバーは、DNA分子、例えば、ゲノムDNAまたはcDNAである。メンバーは、断片化された、例えば、せん断または酵素的に調製されたゲノムDNAであり得る。メンバーは、対象からの配列を含み、対象に由来しない配列、例えば、アダプター配列、プライマー配列、または同定を可能にする他の配列、例えば、「バーコード」配列も含み得る。
「ベイト」は、本明細書で使用されるとき、ハイブリッド捕捉試薬の種類である。ベイトは、標的核酸にハイブリッド形成し得(例えば、それに相補的であり得る)、それにより、それの捕捉を可能にする核酸分子、例えば、DNAまたはRNA分子であり得る。一実施形態において、ベイトは、RNA分子(例えば、天然または修飾RNA分子)、DNA分子(例えば、天然または修飾DNA分子)、またはそれらの組み合わせである。他の実施形態において、ベイトは、例えば、結合実体への結合による、ベイト、及びベイトに対してハイブリッド形成される核酸によって形成されるハイブリッドの捕捉及び分離を可能にする、結合実体、例えば、親和性タグを含む。一実施形態において、ベイトは、溶液相ハイブリダイゼーションに好適である。一実施形態において、ベイトは、二環式核酸(BNA)分子である。
「ベイトセット」は、本明細書で使用されるとき、1つまたは複数のベイト分子を指す。
「結合実体」は分析物に特異的に結合することができる、分子タグが直接的または間接的に連結され得る任意の分子を意味する。結合実体は、各ベイト配列上の親和性タグであり得る。ある特定の実施形態において、結合実体は、アビジン分子などのパートナー、またはハプテンもしくはその抗原結合断片に結合する抗体に結合することによって、ハイブリダイゼーション混合物からベイト/メンバーハイブリッドを分離することを可能にする。例示的な結合実体には、ビオチン分子、ハプテン、抗体、抗体結合断片、ペプチド、及びタンパク質が含まれるが、これらに限定されない。
「相補的」は、2つの核酸鎖の領域間、または同じ核酸鎖の2つの領域間の配列相補性を指す。第1の核酸領域のアデニン残基は、残基がチミンまたはウラシルである場合、第1の領域に対して逆平行である第2の核酸領域の残基と特異的な水素結合を形成(「塩基対形成」)できることが知られている。同様に、第1の核酸鎖のシトシン残基は、残基がグアニンである場合、第1の鎖に対して逆平行である第2の核酸鎖の残基と塩基対形成できることが知られている。核酸の第1の領域は、2つの領域が逆平行な様式で配置されるときに第1の領域の少なくとも1個のヌクレオチド残基が、第2の領域の残基と塩基対形成できる場合、同じかまたは異なる核酸の第2の領域と相補的である。ある特定の実施形態において、第1の領域は第1の部分を含み、第2の領域は第2の部分を含み、それにより、第1及び第2の部分が逆平行の様式で配置される場合、第1の部分のヌクレオチド残基の少なくとも約50%、少なくとも約75%、少なくとも約90%、または少なくとも約95%が、第2の部分のヌクレオチド残基と塩基対形成できる。他の実施形態において、第1の部分の全てのヌクレオチド残基は、第2の部分のヌクレオチド残基と塩基対形成できる。
「がん」または「腫瘍」という用語は、本明細書において互換的に使用される。これらの用語は、制御されない増殖、不死性、転移能、急速な成長及び増殖速度、ならびにある特定の特質的な形態学的特徴など、がんを引き起こす細胞の典型的な特質を保有する細胞の存在を指す。がん細胞は、腫瘍の形態であることが多いが、このような細胞は、動物内に単独で存在し得るか、または非腫瘍化がん細胞、例えば、白血病細胞などであり得る。これらの用語には、固形腫瘍、軟部組織腫瘍、または転移性病巣が含まれる。本明細書で使用されるとき、「がん」という用語は、前悪性、ならびに悪性のがんを含む。
「可能性が高い」または「尤度の増加」は、本明細書で使用されるとき、物品、物体、物、または人間が出現する確率が高いことを指す。故に、一例において、治療に応答する可能性が高い対象は、参照対象または対象の群に対して、治療に応答する確率が高くなる。
「可能性が低い」は、参照に対して、事象、物品、物体、物、または人間が出現する確率が低いことを指す。故に、治療に応答する可能性が低い対象は、参照対象または対象の群に対して、治療に応答する確率が低くなる。
「対照メンバー」は、非腫瘍細胞からの配列を有するメンバーを指す。
「インデル整列配列セレクタ」は、本明細書で使用されるとき、事前選択されたインデルの場合、読み取りデータを一緒に整列しようとする配列の選択を可能にするか、またはそれを方向付けるパラメータを指す。このような配列の使用は、インデルを含む事前選択されたサブゲノム区間の配列決定を最適化し得る。インデル整列配列セレクタに対する値は、事前選択されたインデルの関数、例えば、インデルに対する識別子である。実施形態において、値は、インデルの同一性である。
「次世代配列決定またはNGSまたはNG配列決定」は、本明細書で使用されるとき、ハイスループット様式で、(例えば、1回の分子配列決定において)個別の核酸分子または個別の核酸分子に対するクローン増大された代理物のいずれかのヌクレオチド配列を決定する任意の配列決定法を指す(例えば、103、104、105以上を超える分子を同時に配列決定する)。一実施形態において、ライブラリ中の核酸種の相対的存在量は、配列決定実験によって生成されたデータ中のそれらの同族配列の出現の相対数を数えることによって推定され得る。次世代配列決定法は、当技術分野で知られており、例えば、参照によって本明細書に組み込まれる、Metzker,M.(2010)Nature Biotechnology Reviews 11:31-46に記載されている。次世代配列決定は、試料中の核酸の5%未満で存在する変異形を検出し得る。
「ヌクレオチド値」は、本明細書において言及されるとき、事前選択されたヌクレオチド位置を占有するかまたはこれに割り当てられるヌクレオチド(複数可)の同一性を表す。典型的なヌクレオチド値には、欠損(例えば、欠失)、付加(例えば、1つ以上のヌクレオチドの挿入、その同一性は含まれてもまたは含まれなくてもよい)、もしくは存在(占有)、A、T、C、またはGが含まれる。他の値は、例えば、Yでなくてもよく(Yは、A、T、G、またはCである)、AもしくはX(Xは、T、G、またはCのうちの1つまたは2つである)、TもしくはX(Xは、A、G、またはCのうちの1つまたは2つである)、GもしくはX(Xは、T、A、またはCのうちの1つまたは2つである)、CもしくはX(Xは、T、G、またはAのうちの1つまたは2つである)、ピリミジンヌクレオチド、またはプリンヌクレオチドであり得る。ヌクレオチド値は、ヌクレオチド位置で1個以上、例えば、2、3、または4個の塩基(または、本明細書に記載される他の値、例えば、欠損または付加)に対する頻度であり得る。例えば、ヌクレオチド値は、ヌクレオチド位置での、Aに対する頻度及びGに対する頻度を含み得る。
「または」は、文脈が別途明確に示さない限り、「及び/または」という用語を意味するために本明細書で使用され、これと互換的に使用される。本明細書のいくつかの場所における「及び/または」という用語の使用は、文脈が別途明確に示さない限り、「または」という用語の使用が「及び/または」という用語と互換的ではないことを意味しない。
「一次対照」は、腫瘍試料中のNAT組織以外の非腫瘍組織を指す。血液は、典型的な一次対照である。
「再編成整列配列セレクタ」は、事前選択された再編成の場合、読み取りデータを一緒に整列しようとする配列の選択を可能にするか、またはそれを方向付けるパラメータを指す。このような配列の使用は、再編成を含む事前選択されたサブゲノム区間の配列決定を最適化し得る。再編成整列配列セレクタに対する値は、事前選択された再編成の関数、例えば、再編成に対する識別子である。実施形態において、値は、再編成の同一性である。「インデル整列配列セレクタ」(本明細書の他の箇所でも定義される)は、再編成整列配列セレクタの例である。
「試料」、「組織試料」、「患者試料」、「患者細胞もしくは組織試料」、または「検体」は、対象または患者から得られた組織、細胞、例えば、循環細胞を含む。組織試料の供給源は、採取したての、凍結された、及び/または保存された臓器、組織試料、生体組織、もしくは穿刺液;血液もしくは任意の血液成分;脳脊髄液、羊水、腹腔液、もしくは間質液などの体液;または対象の妊娠期間もしくは発達における任意の時期の細胞からの固形組織であり得る。組織試料は、防腐剤、抗凝固剤、緩衝剤、固定剤、栄養剤、抗生物質など、本質的に組織とは自然に混合されない化合物を含有し得る。一実施形態において、試料は、凍結試料として、またはホルムアルデヒドもしくはパラホルムアルデヒド固定パラフィン包埋(FFPE)組織調製物として保存される。例えば、試料は、マトリックス、例えば、FFPEブロックまたは凍結試料中に包埋され得る。別の実施形態において、試料は血液試料である。さらに別の実施形態において、試料は、骨髄穿刺液試料である。別の実施形態において、試料は、循環腫瘍DNA(ctDNA)を含む。別の実施形態において、試料は、循環腫瘍細胞(CTC)を含む。
実施形態において、試料は、腫瘍、例えば、腫瘍細胞または腫瘍浸潤リンパ球(TIL)に関連する細胞である。一実施形態において、試料は、腫瘍試料であり、例えば、1つ以上の前悪性または悪性細胞を含む。実施形態において、試料は、血液悪性腫瘍(または、前悪性腫瘍)、例えば、本明細書に記載される血液悪性腫瘍(または、前悪性腫瘍)から取得される。ある特定の実施形態において、試料、例えば、腫瘍試料は、固形腫瘍、軟組織腫瘍、または転移性病巣から取得される。他の実施形態において、試料、例えば、腫瘍試料は、外科的縁からの組織または細胞を含む。別の実施形態において、試料、例えば、腫瘍試料は、1つ以上の循環腫瘍細胞(CTC)(例えば、血液試料から取得されるCTC)を含む。実施形態において、試料は、腫瘍、例えば、非腫瘍細胞または末梢血リンパ球に関連しない細胞である。
「感度」は、本明細書で使用されるとき、不均一な配列集団中での事前選択された配列変異形を検出するための方法の能力の尺度である。事前選択された配列変異形が試料中の配列の少なくともF%として存在する試料であれば、ある方法が事前選択されたC%の信頼度でS%の回数で事前選択された配列を検出し得る場合、その方法は、F%の変異形に対してS%の感度を有する。例として、事前選択された変異形配列が試料中の配列の少なくとも5%として存在する試料であれば、ある方法が事前選択された99%の信頼度で10回のうちの9回、事前選択された配列を検出し得る場合、その方法は、5%の変異形に対して90%の感度を有する(F=5%、C=99%、S=90%)。例示的な感度には、C= 90%、95%、99%、及び99.9%の信頼度レベルで、F=1%、5%、10%、20%、50%、100%の配列変異形に対して、S=90%、95%、99%の感度が含まれる。
「特異性」は、本明細書で使用されるとき、真に出現する事前選択された配列変異形を配列決定アーチファクトまたは他の密接に関連する配列と区別するための方法の能力の尺度である。それは、偽陽性検出を回避する能力である。偽陽性検出は、試料調製中の対象とする配列に導入されるエラー、配列決定エラー、または偽遺伝子もしくは遺伝子ファミリーのメンバーのような密接に関連する配列の偶然の配列決定から生じ得る。X正の配列が真に変異形であり、X正ではない配列が真に変異形ではないN合計配列の試料セットに適用したときにある方法が変異形でないものとして真ではない変異形の少なくともX%を選択する場合、この方法はX%の特異性を有する。例えば、500個の配列が真に変異形であり、500個の配列が真に変異形ではない1000個の配列の試料セットに適用したときにある方法が変異形でないものとして500個の真ではない変異形の90%を選択する場合、この方法は90%の特異性を有する。例示的な特異性には、90、95、98、及び99%が含まれる。
「腫瘍核酸試料」は、本明細書で使用されるとき、腫瘍またはがん試料からの核酸分子を指す。典型的には、それは、腫瘍またはがん試料からのDNA、例えば、ゲノムDNA、またはRNA由来のcDNAである。ある特定の実施形態において、腫瘍核酸試料は、精製または単離される(例えば、その天然の状態から除去される)。
「対照」または「参照」「核酸試料」は、本明細書で使用されるとき、対照または参照試料からの核酸分子を指す。典型的には、それは、遺伝子または遺伝子産物の変化または変動を含有しないDNA、例えば、ゲノムDNA、またはRNAに由来するcDNAである。ある特定の実施形態において、参照または対照核酸試料は、野生型または非変異配列である。ある特定の実施形態において、参照核酸試料は、精製または単離される(例えば、その天然状態から除去される)。他の実施形態において、参照核酸試料は、同じかもしくは異なる対象からの、非腫瘍試料、例えば、血液対照、正常近接組織(NAT)、または任意の他の非がん性試料からのものである。
核酸分子を「配列決定すること」は、分子(例えば、DNA分子、RNA分子、またはRNA分子に由来するcDNA分子)中の少なくとも1個のヌクレオチドの同一性を決定することを必要とする。実施形態において、分子中の部分的なヌクレオチドの同一性が決定される。他の実施形態において、分子中のヌクレオチドの大部分または全ての同一性が決定される。
「閾値」は、本明細書で使用されるとき、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)にヌクレオチド値を割り当てるために存在する必要がある読み取りデータの数の関数である値である。例えば、それは、そのヌクレオチド値をサブゲノム区間中のそのヌクレオチド位置に割り当てるために必要とされる、ヌクレオチド位置での特定のヌクレオチド値、例えば、「A」を有する読み取りデータの数の関数である。閾値は、例えば、整数などの読み取りデータの数として(または、その関数として)、または事前選択された値を有する読み取りデータの割合として表され得る。例として、閾値がXであり、「A」のヌクレオチド値を有するX+1個の読み取りデータが存在する場合、「A」の値が、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)における事前選択された位置に割り当てられる。閾値はまた、変異もしくは変異形予想の関数、変異頻度、またはベイジアン事前法として表され得る。実施形態において、事前選択された変異頻度は、そのヌクレオチド値を呼び出すために、事前選択された位置でヌクレオチド値、例えば、AまたはGを有する読み取りデータの事前選択された数または割合を必要とするであろう。実施形態において、閾値は、変異予想の関数、例えば、変異頻度及び腫瘍型であり得る。例えば、事前選択されたヌクレオチド位置の事前選択された変異形は、患者が第1の腫瘍型を有する場合、第1の閾値を有し得、患者が第2の腫瘍型を有する場合、第2の閾値を有し得る。
本明細書で使用されるとき、「標的メンバー」は、核酸ライブラリから単離させることが望ましい核酸分子を指す。一実施形態において、標的メンバーは、本明細書に記載されるような腫瘍メンバー、参照メンバー、対照メンバー、またはPGxメンバーであり得る。
「腫瘍メンバー」または他の同様の用語(例えば、「腫瘍またはがん関連メンバー」)は、本明細書で使用されるとき、腫瘍細胞からの配列を有するメンバーを指す。一実施形態において、腫瘍メンバーは、がん性表現型に関連する変化(例えば、変異)を有する配列(例えば、ヌクレオチド配列)を有する対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含む。他の実施形態において、腫瘍メンバーは、野生型配列(例えば、野生型ヌクレオチド配列)を有する対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含む。例えば、がん細胞に存在するヘテロ接合型またはホモ接合型野生型対立遺伝子からの対象区間(例えば、サブゲノム区間または発現サブゲノム区間)。腫瘍メンバーは、参照メンバーまたはPGxメンバーを含み得る。
「参照メンバー」または他の同様の用語(例えば、「対照メンバー」)は、本明細書で使用されるとき、がん性表現型に関連しない配列(例えば、ヌクレオチド配列)を有する対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含むメンバーを指す。一実施形態において、参照メンバーは、変異した場合、がん性表現型に関連する遺伝子または遺伝子産物の野生型または非変異ヌクレオチド配列を含む。参照メンバーは、がん細胞または非がん細胞に存在し得る。
「PGxメンバー」または他の同様の用語は、本明細書で使用されるとき、遺伝子の薬理遺伝学的または薬理ゲノムプロファイルに関連する対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含むメンバーを指す。一実施形態において、PGxメンバーは、SNP(例えば、本明細書に記載されるようなSNP)を含む。他の実施形態において、PGxメンバーは、表1~4または図3A~4Dによる対象区間(例えば、サブゲノム区間または発現サブゲノム区間)を含む。
「変異形」は、本明細書で使用されるとき、1つを超える構造、例えば、多型遺伝子座における対立遺伝子を有し得るサブゲノム区間で存在し得る構造を指す。
本明細書で使用されるとき、「Xは、Yの関数である」は、例えば、1つの可変Xが、別の可変Yに関連することを意味する。一実施形態において、XがYの関数である場合、XとYとの間に因果関係があることを意味するが、必ずしも存在するとは限らない。
見出し、例えば、(a)、(b)、(i)などは、明細書及び特許請求の範囲を単に読み易くするために呈示される。明細書または特許請求の範囲における見出しの使用は、ステップまたは要素がアルファベット順もしくは数字順、またはそれらが呈示される順序で行われる必要はない。
変異荷重
本明細書で使用されるとき、「変異荷重(mutation load)」または「変異荷重(mutational load)」という用語は、所定の遺伝子セット内(例えば、所定の遺伝子セットのコード領域内)の事前選択された単位当たり(例えば、1メガ塩基当たり)の変化(例えば、1つ以上の変化、例えば、1つ以上の体細胞変化)のレベル、例えば、数を指す。変異荷重は、例えば、全ゲノムもしくはエクソームに基づいて、またはゲノムもしくはエクソームのサブセットに基づいて測定され得る。ある特定の実施形態において、ゲノムまたはエクソームのサブセットに基づいて測定された変異荷重は、外挿されて、全ゲノムまたはエクソームの変異荷重を決定する。
ある特定の実施形態において、変異荷重は、対象、例えば、本明細書に記載される対象からの試料、例えば、腫瘍試料(例えば、腫瘍試料または腫瘍由来の試料)中で測定される。ある特定の実施形態において、変異荷重は、例えば、参照集団からの試料中の変異荷重におけるパーセンタイルとして表される。ある特定の実施形態において、参照集団は、対象と同じ型のがんを有する患者を含む。他の実施形態において、参照集団は、対象と同じ種類の療法を受けているか、または受けたことのある患者を含む。ある特定の実施形態において、本明細書に記載される方法、例えば、表1~4または図3A~4Dに記載される所定の遺伝子セット内の変化(例えば、体細胞変化)のレベルを評価することによって得られる変異荷重は、全ゲノムまたはエクソームの変異荷重と相関する。
「変異荷重(mutation load)」、「変異荷重(mutational load)」、「変異負荷(mutation burden)」、及び「変異負荷(mutational burden)」という用語は、本明細書において互換的に使用される。腫瘍の場合、変異荷重は、本明細書において、「腫瘍変異負荷(tumor mutational burden)」、「腫瘍変異負荷(tumor mutation burden)」、または「TMB」とも称される。
遺伝子選択
選択された遺伝子または遺伝子産物(本明細書において、「標的遺伝子または遺伝子産物」とも称される)は、遺伝子内領域または遺伝子間領域を含む対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)を含み得る。例えば、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)は、エクソンもしくはイントロン、またはそれらの断片、典型的にはエクソン配列またはその断片を含み得る。対象区間(例えば、サブゲノム区間または発現サブゲノム区間)は、コード領域または非コード領域、例えば、プロモーター、エンハンサー、5’非翻訳領域(5’UTR)もしくは3’非翻訳領域(3’UTR)、またはそれらの断片を含み得る。他の実施形態において、対象区間は、cDNAまたはその断片を含む。他の実施形態において、対象区間は、例えば、本明細書に記載されるようなSNPを含む。
他の実施形態において、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、ゲノム、例えば、本明細書に記載されるような対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)のうちの1つ以上の中の実質的に全てのエクソン(例えば、対象とする選択される遺伝子または遺伝子産物(例えば、本明細書に記載されるようながん性表現型に関連する遺伝子または遺伝子産物)からのエクソン)を含む。一実施形態において、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)は、体細胞変異、生殖細胞変異、またはそれらの両方を含む。一実施形態において、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)は、変化、例えば、点もしくは単一変異、欠失変異(例えば、インフレーム欠失、遺伝子内欠失、完全遺伝子欠失)、挿入変異(例えば、遺伝子内挿入)、逆位変異(例えば、染色体内逆位)、連結変異、連結された挿入変異、逆位重複変異、タンデム重複(例えば、染色体内タンデム重複)、転座(例えば、染色体転座、非相反転座)、再編成、遺伝子コピー数の変化、またはそれらの組み合わせを含む。ある特定の実施形態において、対象区間(例えば、サブゲノム区間または発現サブゲノム区間)は、試料中の腫瘍細胞のゲノムのコード領域の5%、1%、0.5%、0.1%、0.01%、0.001%未満を構成する。他の実施形態において、対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)は、疾患に関与せず、例えば、本明細書に記載されるようながん性表現型に関連しない。
一実施形態において、標的遺伝子または遺伝子産物はバイオマーカーである。本明細書で使用されるとき、「バイオマーカー」または「マーカー」は、変化し得る遺伝子、mRNA、またはタンパク質であり、該変化はがんに関連する。この変化は、正常または健康な組織または細胞(例えば、対照)におけるその量、構造、及び/または活性と比較した場合の、がん組織またはがん細胞における量、構造、及び/または活性におけるものであり得、がんなどの疾患状態に関連する。例えば、がんに関連するか、または抗がん療法に対する応答性を予測するマーカーは、がん組織またはがん細胞において、正常で健康な組織または細胞と比較して、変化したヌクレオチド配列、アミノ酸配列、染色体転座、染色体内逆位、コピー数、発現レベル、タンパク質レベル、タンパク質活性、エピジェネティック修飾(例えば、メチル化状態もしくはアセチル化状態、または翻訳後修飾を有し得る。さらに、「マーカー」は、その構造が変化している、例えば、変異している(変異を含有する)分子を含み、例えば、がんなどの疾患状態に関連する組織または細胞に存在する場合、例えば、置換、欠失、または挿入により、ヌクレオチドまたはアミノ酸レベルで野生型配列と異なる。
一実施形態において、標的遺伝子または遺伝子産物は、一塩基多型(SNP)を含む。別の実施形態において、遺伝子または遺伝子産物は、小さな欠失、例えば、小さな遺伝子内欠失(例えば、インフレームまたはフレームシフト欠失)を有する。さらに別の実施形態において、標的配列は、遺伝子全体の欠失から生じる。さらに別の実施形態において、標的配列は、小さな挿入、例えば、小さな遺伝子内挿入を有する。一実施形態において、標的配列は、逆位、例えば、染色体内逆位から生じる。別の実施形態において、標的配列は、染色体間転座から生じる。さらに別の実施形態において、標的配列は、タンデム重複を有する。一実施形態において、標的配列は、望ましくない特徴(例えば、高GC含量または反復要素)を有する。別の実施形態において、標的配列は、例えば、その反復性のために、それ自体がうまく標的化され得ないヌクレオチド配列の一部分を有する。一実施形態において、標的配列は、代替的スプライシングから生じる。別の実施形態において、標的配列は、表1~4または図3A~4Dによる遺伝子もしくは遺伝子産物、またはそれらの断片から選ばれる。
実施形態において、標的遺伝子もしくは遺伝子産物、またはそれらの断片は、抗体遺伝子もしくは遺伝子産物、免疫グロブリンスーパーファミリー受容体(例えば、B細胞受容体(BCR)またはT細胞受容体(TCR))遺伝子もしくは遺伝子産物、またはそれらの断片である。
ヒト抗体分子(及び、B細胞受容体)は、少なくとも次の3個の遺伝子座上の遺伝子によってコードされる定常領域(C)及び可変領域(V)の両方を有する重鎖及び軽鎖から構成される。
1. 免疫グロブリン重鎖に対する遺伝子分節を含有する14番染色体上の免疫グロブリン重鎖遺伝子座(IGH@);
2. 免疫グロブリン軽鎖に対する遺伝子分節を含有する2番染色体上の免疫グロブリンカッパ(κ)遺伝子座(IGK@);
3. 免疫グロブリン軽鎖に対する遺伝子分節を含有する22番染色体上の免疫グロブリンラムダ(λ)遺伝子座(IGL@)。
各重鎖及び軽鎖遺伝子は、抗体タンパク質の可変領域に対する3つの異なる型の遺伝子分節の多数のコピーを含有する。例えば、免疫グロブリン重鎖領域は、5個の異なる分類のγ、δ、α、μ、及びε、44個の可変(V)遺伝子分節、27個の多様性(D)遺伝子分節、ならびに6個の連結(J)遺伝子分節のうちの1つを含有し得る。軽鎖はまた、多くのV及びJ遺伝子分節を保有し得るが、D遺伝子分節は有さない。ラムダ軽鎖は、7個の可能なC領域を有し、カッパ軽鎖は、1個を有する。
免疫グロブリン重鎖遺伝子座(IGH@)は、ヒト抗体(または、免疫グロブリン)の重鎖に対する遺伝子を含有するヒト14番染色体上の領域である。例えば、IGH遺伝子座は、IGHV(可変)、IGHD(多様性)、IGHJ(連結)、及びIGHC(定常)遺伝子を含む。免疫グロブリン重鎖をコードする例示的な遺伝子には、IGHV1-2、IGHV1-3、IGHV1-8、IGHV1-12、IGHV1-14、IGHV1-17、IGHV1-18、IGHV1-24、IGHV1-45、IGHV1-46、IGHV1-58、IGHV1-67、IGHV1-68、IGHV1-69、IGHV1-38-4、IGHV1-69-2、IGHV2-5、IGHV2-10、IGHV2-26、IGHV2-70、IGHV3-6、IGHV3-7、IGHV3-9、IGHV3-11、IGHV3-13、IGHV3-15、IGHV3-16、IGHV3-19、IGHV3-20、IGHV3-21、IGHV3-22、IGHV3-23、IGHV3-25、IGHV3-29、IGHV3-30、IGHV3-30-2、IGHV3-30-3、IGHV3-30-5、IGHV3-32、IGHV3-33、IGHV3-33-2、IGHV3-35、IGHV3-36、IGHV3-37、IGHV3-38、IGHV3-41、IGHV3-42、IGHV3-43、IGHV3-47、IGHV3-48、IGHV3-49、IGHV3-50、IGHV3-52、IGHV3-53、IGHV3-54、IGHV3-57、IGHV3-60、IGHV3-62、IGHV3-63、IGHV3-64、IGHV3-65、IGHV3-66、IGHV3-71、IGHV3-72、IGHV3-73、IGHV3-74、IGHV3-75、IGHV3-76、IGHV3-79、IGHV3-38-3、IGHV3-69-1、IGHV4-4、IGHV4-28、IGHV4-30-1、IGHV4-30-2、IGHV4-30-4、IGHV4-31、IGHV4-34、IGHV4-39、IGHV4-55、IGHV4-59、IGHV4-61、IGHV4-80、IGHV4-38-2、IGHV5-51、IGHV5-78、IGHV5-10-1、IGHV6-1、IGHV7-4-1、IGHV7-27、IGHV7-34-1、IGHV7-40、IGHV7-56、IGHV7-81、IGHVII-1-1、IGHVII-15-1、IGHVII-20-1、IGHVII-22-1、IGHVII-26-2、IGHVII-28-1、IGHVII-30-1、IGHVII-31-1、IGHVII-33-1、IGHVII-40-1、IGHVII-43-1、IGHVII-44-2、IGHVII-46-1、IGHVII-49-1、IGHVII-51-2、IGHVII-53-1、IGHVII-60-1、IGHVII-62-1、IGHVII-65-1、IGHVII-67-1、IGHVII-74-1、IGHVII-78-1、IGHVIII-2-1、IGHVIII-5-1、IGHVIII-5-2、IGHVIII-11-1、IGHVIII-13-1、IGHVIII-16-1、IGHVIII-22-2、IGHVIII-25-1、IGHVIII-26-1、IGHVIII-38-1、IGHVIII-44、IGHVIII-47-1、IGHVIII-51-1、IGHVIII-67-2、IGHVIII-67-3、IGHVIII-67-4、IGHVIII-76-1、IGHVIII-82、IGHVIV-44-1、IGHD1-1、IGHD1-7、IGHD1-14、IGHD1-20、IGHD1-26、IGHD2-2、IGHD2-8、IGHD2-15、IGHD2-21、IGHD3-3、IGHD3-9、IGHD3-10、IGHD3-16、IGHD3-22、IGHD4-4、IGHD4-11、IGHD4-17、IGHD4-23、IGHD5-5、IGHD5-12、IGHD5-18、IGHD5-24、IGHD6-6、IGHD6-13、IGHD6-19、IGHD6-25、IGHD7-27、IGHJ1、IGHJ1P、IGHJ2、IGHJ2P、IGHJ3、IGHJ3P、IGHJ4、IGHJ5、IGHJ6、IGHA1、IGHA2、IGHG1、IGHG2、IGHG3、IGHG4、IGHGP、IGHD、IGHE、IGHEP1、IGHM、及びIGHV1-69Dが含まれるが、これらに限定されない。
免疫グロブリンカッパ遺伝子座(IGK@)は、抗体(または、免疫グロブリン)のカッパ(κ)軽鎖に対する遺伝子を含有するヒト2番染色体上の領域である。例えば、IGK遺伝子座は、IGKV(可変)、 IGKJ(連結)、及びIGKC(定常)遺伝子を含む。免疫グロブリンカッパ軽鎖をコードする例示的な遺伝子には、IGKV1-5、IGKV1-6、IGKV1-8、IGKV1-9、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-22、IGKV1-27、IGKV1-32、IGKV1-33、IGKV1-35、IGKV1-37、IGKV1-39、IGKV1D-8、IGKV1D-12、IGKV1D-13、IGKV1D-16 IGKV1D-17、IGKV1D-22、IGKV1D-27、IGKV1D-32、IGKV1D-33、IGKV1D-35、IGKV1D-37、IGKV1D-39、IGKV1D-42、IGKV1D-43、IGKV2-4、IGKV2-10、IGKV2-14、IGKV2-18、IGKV2-19、IGKV2-23、IGKV2-24、IGKV2-26、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-36、IGKV2-38、IGKV2-40、IGKV2D-10、IGKV2D-14、IGKV2D-18、IGKV2D-19、IGKV2D-23、IGKV2D-24、IGKV2D-26、IGKV2D-28、IGKV2D-29、IGKV2D-30、IGKV2D-36、IGKV2D-38、IGKV2D-40、IGKV3-7、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3-25、IGKV3-31、IGKV3-34、IGKV3D-7、IGKV3D-11、IGKV3D-15、IGKV3D-20、IGKV3D-25、IGKV3D-31。IGKV3D-34、IGKV4-1、IGKV5-2、IGKV6-21、IGKV6D-21、IGKV6D-41、IGKV7-3、IGKJ1、IGKJ2、IGKJ3、IGKJ4、IGKJ5、及びIGKCが含まれるが、これらに限定されない。
免疫グロブリンラムダ遺伝子座(IGL@)は、抗体(または、免疫グロブリン)のラムダ軽鎖に対する遺伝子を含有するヒト22番染色体上の領域である。例えば、IGL遺伝子座は、IGLV(可変)、IGLJ(連結)、及びIGLC(定常)遺伝子を含む。免疫グロブリンラムダ軽鎖をコードする例示的な遺伝子には、IGLV1-36、IGLV1-40、IGLV1-41、IGLV1-44、IGLV1-47、IGLV1-50、IGLV1-51、IGLV1-62、IGLV2-5、IGLV2-8、IGLV2-11、IGLV2-14、IGLV2-18、IGLV2-23、IGLV2-28、IGLV2-33、IGLV2-34、IGLV3-1、IGLV3-2、IGLV3-4、IGLV3-6、IGLV3-7、IGLV3-9、IGLV3-10、IGLV3-12、IGLV3-13、IGLV3-15、IGLV3-16、IGLV3-17、IGLV3-19、IGLV3-21、IGLV3-22、IGLV3-24、IGLV3-25、IGLV3-26、IGLV3-27、IGLV3-29、IGLV3-30、IGLV3-31、IGLV3-32、IGLV4-3、IGLV4-60、IGLV4-69、IGLV5-37、IGLV5-39、IGLV5-45、IGLV5-48、IGLV5-52、IGLV6-57、IGLV7-35、IGLV7-43、IGLV7-46、IGLV8-61、IGLV9-49、IGLV10-54、IGLV10-67、IGLV11-55、IGLVI-20、IGLVI-38、IGLVI-42、IGLVI-56、IGLVI-63、IGLVI-68、IGLVI-70、IGLVIV-53、IGLVIV-59、IGLVIV-64、IGLVIV-65、IGLVIV-66-1、IGLVV-58、IGLVV-66、IGLVVI-22-1、IGLVVI-25-1、IGLVVII-41-1、IGLJ1、IGLJ2、IGLJ3、IGLJ4、IGLJ5、IGLJ6、IGLJ7、IGLC1、IGLC2、IGLC3、IGLC4、IGLC5、IGLC6、及びIGLC7が含まれるが、これらに限定されない。
B細胞受容体(BCR)は、次の2つの部分から構成される:i)1つのアイソタイプの膜結合型免疫グロブリン分子(例えば、IgDまたはIgM)。膜内在性ドメインの存在を除いて、これらは、それらの分泌型と同一であり得、ii)シグナル伝達部分:ジスルフィド架橋によって一緒に結合されたIg-α/Ig-β(CD79)と呼ばれるヘテロ二量体。二量体の各メンバーは、原形質膜にまたがり、免疫受容体活性化チロシンモチーフ(ITAM)を有する細胞質尾部を有する。
T細胞受容体(TCR)は、2本の異なるタンパク質鎖(すなわち、ヘテロ二量体)から構成される。T細胞のうちの95%において、これは、アルファ(α)鎖とベータ(β)鎖からなり、一方でT細胞のうちの5%において、これは、ガンマ(γ)及びデルタ(δ)鎖からなる。この比率は、個体発生中及び病的状態において変化し得る。T細胞受容体遺伝子は、固有の抗原受容体を各細胞に提供するためにリンパ球の発生中に再編成されるそれらのベータ及びデルタ鎖中に多数のV、D、及びJ遺伝子分節(ならびに、それらのアルファ鎖及びガンマ鎖においてV及びJ遺伝子分節)も含有するという点において、免疫グロブリン遺伝子と同様である。
T細胞受容体アルファ遺伝子座(TRA)は、TCRアルファ鎖に対する遺伝子を含有するヒト14番染色体上の領域である。例えば、TRA遺伝子座は、例えば、TRAV(可変)、TRAJ(連結)、及びTRAC(定常)遺伝子を含む。T細胞受容体アルファ鎖をコードする例示的な遺伝子には、TRAV1-1、TRAV1-2、TRAV2、TRAV3、TRAV4、TRAV5、TRAV6、TRAV7、TRAV8-1、TRAV8-2、TRAV8-3、TRAV8-4、TRAV8-5、TRAV8-6、TRAV8-7、TRAV9-1、TRAV9-2、TRAV10、TRAV11、TRAV12-1、TRAV12-2、TRAV12-3、TRAV13-1、TRAV13-2、TRAV14DV4、TRAV15、TRAV16、TRAV17、TRAV18、TRAV19、TRAV20、TRAV21、TRAV22、TRAV23DV6、TRAV24、TRAV25、TRAV26-1、TRAV26-2、TRAV27、TRAV28、TRAV29DV5、TRAV30、TRAV31、TRAV32、TRAV33、TRAV34、TRAV35、TRAV36DV7、TRAV37、TRAV38-1、TRAV38-2DV8、TRAV39、TRAV40、TRAV41、TRAJ1、TRAJ2、TRAJ3、TRAJ4、TRAJ5、TRAJ6、TRAJ7、TRAJ8、TRAJ9、TRAJ10、TRAJ11、TRAJ12、TRAJ13、TRAJ14、TRAJ15、TRAJ16、TRAJ17、TRAJ18、TRAJ19、TRAJ20、TRAJ21、TRAJ22、TRAJ23、TRAJ24、TRAJ25、TRAJ26、TRAJ27、TRAJ28、TRAJ29、TRAJ30、TRAJ31、TRAJ32、TRAJ33、TRAJ34、TRAJ35、TRAJ36、TRAJ37、TRAJ38、TRAJ39、TRAJ40、TRAJ41、TRAJ42、TRAJ43、TRAJ44、TRAJ45、TRAJ46、TRAJ47、TRAJ48、TRAJ49、TRAJ50、TRAJ51、TRAJ52、TRAJ53、TRAJ54、TRAJ55、TRAJ56、TRAJ57、TRAJ58、TRAJ59、TRAJ60、TRAJ61、及びTRACが含まれるが、これらに限定されない。
T細胞受容体ベータ遺伝子座(TRB)は、TCRベータ鎖に対する遺伝子を含有するヒト7番染色体上の領域である。例えば、TRB遺伝子座は、例えば、TRBV(可変)、TRBD(多様性)、TRBJ(連結)、及びTRBC(定常)遺伝子を含む。T細胞受容体ベータ鎖をコードする例示的な遺伝子には、TRBV1、TRBV2、TRBV3-1、TRBV3-2、TRBV4-1、TRBV4-2、TRBV4-3、TRBV5-1、TRBV5-2、TRBV5-3、TRBV5-4、TRBV5-5、TRBV5-6、TRBV5-7、TRBV6-2、TRBV6-3、TRBV6-4、TRBV6-5、TRBV6-6、TRBV6-7、TRBV6-8、TRBV6-9、TRBV7-1、TRBV7-2、TRBV7-3、TRBV7-4、TRBV7-5、TRBV7-6、TRBV7-7、TRBV7-8、TRBV7-9、TRBV8-1、TRBV8-2、TRBV9、TRBV10-1、TRBV10-2、TRBV10-3、TRBV11-1、TRBV11-2、TRBV11-3、TRBV12-1、TRBV12-2、TRBV12-3、TRBV12-4、TRBV12-5、TRBV13、TRBV14、TRBV15、TRBV16、TRBV17、TRBV18、TRBV19、TRBV20-1、TRBV21-1、TRBV22-1、TRBV23-1、TRBV24-1、TRBV25-1、TRBV26、TRBV27、TRBV28、TRBV29-1、TRBV30、TRBVA、TRBVB、TRBV5-8、TRBV6-1、TRBD1、TRBD2、TRBJ1-1、TRBJ1-2、TRBJ1-3、TRBJ1-4、TRBJ1-5、TRBJ1-6、TRBJ2-1、TRBJ2-2、TRBJ2-2P、TRBJ2-3、TRBJ2-4、TRBJ2-5、TRBJ2-6、TRBJ2-7、TRBC1、及びTRBC2が含まれるが、これらに限定されない。
T細胞受容体デルタ遺伝子座(TRD)は、TCRデルタ鎖に対する遺伝子を含有するヒト14番染色体上の領域である。例えば、TRD遺伝子座は、例えば、TRDV(可変)、TRDJ(連結)、及びTRDC(定常)遺伝子を含む。T細胞受容体デルタ鎖をコードする例示的な遺伝子には、TRDV1、TRDV2、TRDV3、TRDD1、TRDD2、TRDD3、TRDJ1、TRDJ2、TRDJ3、TRDJ4、及びTRDCが含まれるが、これらに限定されない。
T細胞受容体ガンマ遺伝子座(TRG)は、TCRガンマ鎖に対する遺伝子を含有するヒト7番染色体上の領域である。例えば、TRG遺伝子座は、例えば、TRGV(可変)、TRGJ(連結)、及びTRGC(定常)遺伝子を含む。T細胞受容体ガンマ鎖をコードする例示的な遺伝子には、TRGV1、TRGV2、TRGV3、TRGV4、TRGV5、TRGV5P、TRGV6、TRGV7、TRGV8、TRGV9、TRGV10、TRGV11、TRGVA、TRGVB、TRGJ1、TRGJ2、TRGJP、TRGJP1、TRGJP2、TRGC1、及びTRGC2が含まれるが、これらに限定されない。
例示的ながんには、B細胞癌、例えば、多発性骨髄腫、黒色腫、乳癌、肺癌(非小細胞肺癌腫またはNSCLCなど)、気管支癌、結腸直腸癌、前立腺癌、膵臓癌、胃癌(stomach cancer)、卵巣癌、膀胱癌、脳または中枢神経系癌、末梢神経系癌、食道癌、子宮頸癌、子宮または子宮内膜癌、口腔または咽頭の癌、肝臓癌、腎臓癌、精巣癌、胆道癌、小腸または虫垂癌、唾液腺癌、甲状腺癌(thyroid gland cancer)、副腎癌、骨肉腫、軟骨肉腫、血液組織の癌、腺癌腫、炎症性筋線維芽細胞腫、消化管間質腫瘍(GIST)、結腸癌、多発性骨髄腫(MM)、骨髄異形成症候群(MDS)、骨髄増殖性障害(MPD)、急性リンパ球性白血病(ALL)、急性骨髄球性白血病(AML)、慢性骨髄球性白血病(CML)、慢性リンパ球性白血病(CLL)、真性赤血球増加症、ホジキンリンパ腫、非ホジキンリンパ腫(NHL)、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨原性肉腫、脊索腫、血管肉腫、内皮肉腫(endotheliosarcoma)、リンパ管肉腫、リンパ管内皮肉腫(lymphangioendotheliosarcoma)、滑膜腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、扁平上皮細胞癌腫、基底細胞癌腫、腺癌腫、汗腺癌腫、脂腺癌腫、乳頭癌腫、乳頭腺癌腫、髄様癌腫、気管支癌腫、腎細胞癌腫、肝細胞癌、胆管癌腫、絨毛癌腫、セミノーマ、胎生期癌腫、ウィルムス腫瘍、膀胱癌腫、上皮癌腫、神経膠腫、星状細胞腫、髄芽細胞腫、頭蓋咽頭腫、上衣腫、松果体腫、血管芽細胞腫、聴神経腫、乏突起神経膠腫、髄膜腫、神経芽細胞腫、網膜芽細胞腫、濾胞性リンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、肝細胞癌腫、甲状腺癌(thyroid cancer)、胃癌(gastric cancer)、頭頸部癌、小細胞癌、本態性血小板血症、特発性骨髄化生、好酸球増加症候群、全身性肥満細胞症、一般的な過好酸球増加症、慢性好酸球性白血病、神経内分泌癌、カルチノイド腫瘍などが含まれるが、これらに限定されない。
追加の例示的ながんは、表6に記載されている。
実施形態において、がんは、血液悪性腫瘍(または、前悪性腫瘍)である。本明細書で使用されるとき、血液悪性腫瘍は、造血性腫瘍またはリンパ組織腫瘍、例えば、血液、骨髄、またはリンパ節に影響を及ぼす腫瘍を指す。例示的な血液悪性腫瘍には、白血病(例えば、急性リンパ芽球性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ球性白血病(CLL)、慢性骨髄性白血病(CML)、有毛細胞性白血病、急性単球性白血病(AMoL)、慢性骨髄単球性白血病(CMML)、若年性骨髄単球性白血病(JMML)、または大型顆粒リンパ球性白血病)、リンパ腫(例えば、AIDS関連リンパ腫、皮膚T細胞リンパ腫、ホジキンリンパ腫(例えば、古典的ホジキンリンパ腫、または結節性リンパ球優位型ホジキンリンパ腫)、菌状息肉腫、非ホジキンリンパ腫(例えば、B細胞非ホジキンリンパ腫(例えば、バーキットリンパ腫、小リンパ球性リンパ腫(CLL/SLL)、びまん性大細胞型B細胞リンパ腫、濾胞性リンパ腫、免疫芽球性大細胞型リンパ腫、前駆Bリンパ芽球性リンパ腫、またはマントル細胞リンパ腫)、またはT細胞非ホジキンリンパ腫(菌状息肉腫、未分化大細胞リンパ腫、または前駆Tリンパ芽球性リンパ腫)、原発性中枢神経系リンパ腫、セザリー症候群、ワルデンストレームマクログロブリン血症)、慢性骨髄増殖性腫瘍、ランゲルハンス細胞組織球増加症、多発性骨髄腫/形質細胞腫瘍、骨髄異形成症候群、または骨髄異形成/骨髄増殖性腫瘍が含まれるが、これらに限定されない。前悪性腫瘍は、本明細書で使用されるとき、悪性ではないが悪性になると思われる組織を指す。
一実施形態において、標的遺伝子もしくは遺伝子産物、またはそれらの断片は、表1~4または図3A~4Dに記載される遺伝子または遺伝子産物のいずれかから選択される。
追加の例示的な遺伝子は、図3A~4Dに示される。
一実施形態において、標的遺伝子もしくは遺伝子産物、またはそれらの断片は、がん、例えば、血液悪性腫瘍(または、前悪性腫瘍)に関連する1つ以上の置換、インデル、またはコピー数変化を有する。例示的な遺伝子または遺伝子産物には、ABL1、ACTB、AKT1、AKT2、AKT3、ALK、AMER1(FAM123BまたはWTX)、APC、APH1A、AR、ARAF、ARFRP1、ARHGAP26(GRAF) ARID1A、ARID2、ASMTL、ASXL1、ATM、ATR、ATRX、AURKA、AURKB、AXIN1、AXL、B2M、BAP1、BARD1、BCL10、BCL11B、BCL2、BCL2L2、BCL6、BCL7A、BCOR、BCORL1、BIRC3、BLM、BRAF、BRCA1、BRCA2、BRD4、BRIP1(BACH1)、BRSK1、BTG2、BTK、BTLA、c11、もしくは、f30(EMSY)、CAD、CARD11、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CCT6B、CD22、CD274、(PDL 1)、CD36、CD58、CD70、CD79A、CD79B、CDC73、CDH1、CDK12、CDK4、CDK6、CDK8、CDKN1B、CDKN2A、CDKN2B、CDKN2C、CEBPA、CHD2、CHEK1、CHEK2、CIC、CIITA、CKS1B、CPS1、CREBBP、CRKL、CRLF2、CSF1R、CSF3R、CTCF、CTNNA1、CTNNB1、CUX1、CXCR4、DAXX、DDR2、DDX3X、DNM2、DNMT3A、DOT1L、DTX1、DUSP2、DUSP9、EBF1、ECT2L、EED、EGFR、ELP2、EP300、EPHA3、EPHA5、EPHA7、EPHB1、ERBB2、ERBB3、ERBB4、ERG、ESR1、ETS1、ETV6、EXOSC6、EZH2、FAF1、FAM46C、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCL、FAS(TNFRSF6)、FBXO11、FBXO31、FBXW7、FGF10、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGFR1、FGFR2、FGFR3、FGFR4、FHIT、FLCN、FLT1、FLT3、FLT4、FLYWCH1、FOXL2、FOXO1、FOXO3、FOXP1、FRS2、GADD45B、GATA1、GATA2、GATA3、GID4(C17orf39)、GNA11、GNA12、GNA13、GNAQ、GNAS、GPR124、GRIN2A、GSK3B、GTSE1、HDAC1、HDAC4、HDAC7、HGF、HIST1H1C、HIST1H1D、HIST1H1E、HIST1H2AC、HIST1H2AG、HIST1H2AL、HIST1H2AM、HIST1H2BC、HIST1H2BJ、HIST1H2BK、HIST1H2BO、HIST1H3B、HNF1A、HRAS、HSP90AA1、ICK、ID3、IDH1、IDH2、IGF1R、IKBKE、IKZF1、IKZF2、IKZF3、IL7R、INHBA、INPP4B、INPP5D(SHIP)、IRF1、IRF4、IRF8、IRS2、JAK1、JAK2、JAK3、JARID2、JUN、KAT6A(MYST3)、KDM2B、KDM4C、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KIT、KLHL6、KMT2A(MLL)、KMT2B(MLL2)、KMT2C(MLL3)、KRAS、LEF1、LRP1B、LRRK2、MAF、MAFB、MAGED1、MALT1、MAP2K1、MAP2K2、MAP2K4、MAP3K1、MAP3K14、MAP3K6、MAP3K7、MAPK1、MCL1、MDM2、MDM4、MED12、MEF2B、MEF2C、MEN1、MET、MIB1、MITF、MKI67、MLH1、MPL、MRE11A、MSH2、MSH3、MSH6、MTOR、MUTYH、MYC、MYCL(MYCL1)、MYCN、MYD88、MYO18A、NCOR2、NCSTN、NF1、NF2、NFE2L2、NFKBIA、NKX2-1、NOD1、NOTCH1、NOTCH2、NPM1、NRAS、NT5C2、NTRK1、NTRK2、NTRK3、NUP93、NUP98、P2RY8、PAG1、PAK3、PALB2、PASK、PAX5、PBRM1、PC、PCBP1、PCLO、PDCD1、PDCD11、PDCD1LG2(PDL2)、PDGFRA、PDGFRB、PDK1、PHF6、PIK3CA、PIK3CG、PIK3R1、PIK3R2、PIM1、PLCG2、POT1、PPP2R1A、PRDM1、PRKAR1A、PRKDC、PRSS8、PTCH1、PTEN、PTPN11、PTPN2、PTPN6(SHP-1)、PTPRO、RAD21、RAD50、RAD51、RAF1、RARA、RASGEF1A、RB1、RELN、RET、RHOA、RICTOR、RNF43、ROS1、RPTOR、RUNX1、S1PR2、SDHA、SDHB、SDHC、SDHD、SERP2、SETBP1、SETD2、SF3B1、SGK1、SMAD2、SMAD4、SMARCA1、SMARCA4、SMARCB1、SMC1A、SMC3、SMO、SOCS1、SOCS2、SOCS3、SOX10、SOX2、SPEN、SPOP、SRC、SRSF2、STAG2、STAT3、STAT4、STAT5A、STAT5B、STAT6、STK11、SUFU、SUZ12、TAF1、TBL1XR1、TCF3、TCL1A、TET2、TGFBR2、TLL2、TMEM30A、TMSB4XP8(TMSL3)、TNFAIP3、TNFRSF11A、TNFRSF14、TNFRSF17、TOP1、TP53、TP63、TRAF2、TRAF3、TRAF5、TSC1、TSC2、TSHR、TUSC3、TYK2、U2AF1、U2AF2、VHL、WDR90、WHSC1(MMSET、または、NSD2)、WISP3、WT1、XBP1、XPO1、YY1AP1、ZMYM3、ZNF217、ZNF24(ZSCAN3)、ZNF703、またはZRSR2が含まれるが、これらに限定されない。
一実施形態において、標的遺伝子もしくは遺伝子産物、またはそれらの断片は、がん、例えば、血液悪性腫瘍(または、前悪性腫瘍)に関連する1つ以上の再編成を有する。例示的な遺伝子または遺伝子産物には、ALK、BCL6、BRAF、CRLF2、EPOR、ETV4、ETV6、FGFR2、IGK、BCL2、BCR、CCND1、EGFR、ETV1、ETV5、EWSR1、IGH、IGL、JAK1、KMT2A、(MLL)、NTRK1、PDGFRB、RARA、ROS1、TRG、JAK2、MYC、PDGFRA、RAF1、RET、またはTMPRSS2が含まれるが、これらに限定されない。
別の実施形態において、標的遺伝子もしくは遺伝子産物、またはそれらの断片は、がんに関連する1つ以上の融合を有する。例示的な遺伝子または遺伝子産物には、ABI1、CBFA2T3、EIF4A2、FUS、JAK1、MUC1、PBX1、RNF213、TET1、ABL1、CBFB、ELF4、GAS7、JAK2、MYB、PCM1、ROS1、TFE3、ABL2、CBL、ELL、GLI1、JAK3、MYC、PCSK7、RPL22、TFG、ACSL6、CCND1、ELN、GMPS、JAZF1、MYH11、PDCD1LG2(PDL2)、RPN1、TFPT、AFF1、CCND2、EML4、GPHN、KAT6A(MYST3)、MYH9、PDE4DIP、RUNX1、TFRC、AFF4、CCND3、EP300、HERPUD1、KDSR、NACA、PDGFB、RUNX1T1(ETO)、TLX1、ALK、CD274(PDL1)、EPOR、HEY1、KIF5B、NBEAP1(BCL8)、PDGFRA、RUNX2、TLX3、ARHGAP26(GRAF)、CDK6、EPS15、HIP1、KMT2A(MLL)、NCOA2、PDGFRB、SEC31A、TMPRSS2、ARHGEF12、CDX2、ERBB2、HIST1H4I、LASP1、NDRG1、PER1、SEPT5、TNFRSF11A、ARID1A、CHIC2、ERG、HLF、LCP1、NF1、PHF1、SEPT6、TOP1、ARNT、CHN1、ETS1、HMGA1、LMO1、NF2、PICALM、SEPT9、TP63、ASXL1、CIC、ETV1、HMGA2、LMO2、NFKB2、PIM1、SET、TPM3、ATF1、CIITA、ETV4、HOXA11、LPP、NIN、PLAG1、SH3GL1、TPM4、ATG5、CLP1、ETV5、HOXA13、LYL1、NOTCH1、PML、SLC1A2、TRIM24、ATIC、CLTC、ETV6、HOXA3、MAF、NPM1、POU2AF1、SNX29(RUNDC2A)、TRIP11、BCL10、CLTCL1、EWSR1、HOXA9、MAFB、NR4A3、PPP1CB、SRSF3、TTL、BCL11A、CNTRL(CEP110)、FCGR2B、HOXC11、MALT1、NSD1、PRDM1、SS18、TYK2、BCL11B、COL1A1、FCRL4、HOXC13、MDS2、NTRK1、PRDM16、SSX1、USP6、BCL2、CREB3L1、FEV、HOXD11、MECOM、NTRK2、PRRX1、SSX2、WHSC1(MMSET、またはNSD2)、BCL3、CREB3L2、FGFR1、HOXD13、MKL1、NTRK3、PSIP1、SSX4、WHSC1L1、BCL6、CREBBP、FGFR1OP、HSP90AA1、MLF1、NUMA1、PTCH1、STAT6、YPEL5、BCL7A、CRLF2、FGFR2、HSP90AB1、MLLT1(ENL)、NUP214、PTK7、STL、ZBTB16、BCL9、CSF1、FGFR3、IGH、MLLT10(AF10)、NUP98、RABEP1、SYK、ZMYM2、BCOR、CTNNB1、FLI1、IGK、MLLT3、NUTM2A、RAF1、TAF15、ZNF384、BCR、DDIT3、FNBP1、IGL、MLLT4、(AF6)、OMD、RALGDS、TAL1、ZNF521、BIRC3、DDX10、FOXO1、IKZF1、MLLT6、P2RY8、RAP1GDS1、TAL2、BRAF、DDX6、FOXO3、IL21R、MN1、PAFAH1B2、RARA、TBL1XR1、BTG1、DEK、FOXO4、IL3、MNX1、PAX3、RBM15、TCF3(E2A)、CAMTA1、DUSP22、FOXP1、IRF4、MSI2、PAX5、RET、TCL1A(TCL1)、CARS、EGFR、FSTL3、ITK、MSN、PAX7、RHOH、またはTECが含まれるが、これらに限定されない。
追加の例示的な遺伝子は、例えば、国際出願公開第WO2012/092426号の表1~11に記載されており、その内容は、参照によってその全体が組み込まれる。
前述の方法の適用は、医学的検体における配列決定のための特定の遺伝子(複数可)の全ての既知の配列変異形(または、そのサブセット)を含有するオリゴヌクレオチドのライブラリを使用することを含む。
ある特定の実施形態において、本方法またはアッセイは、次のうちの1つ以上をさらに含む:
(i)核酸試料のフィンガープリントを行うこと、
(ii)核酸試料中の遺伝子もしくは遺伝子産物(例えば、本明細書に記載されるような遺伝子または遺伝子産物)の存在量を定量化すること、
(iii)試料中の転写物の相対的存在量を定量化すること、
(iv)核酸試料を特定の対象(例えば、正常対照またはがん患者)に属するものとして識別すること、
(v)核酸試料中の遺伝形質(例えば、1つ以上の対象の遺伝形質(例えば、民族性、人種、家族の特徴)を識別すること、
(vi)核酸試料中の倍数性を決定し、核酸試料中のヘテロ接合性喪失を決定すること、
(vii)核酸試料中の遺伝子重複事象の有無を判定すること、
(viii)核酸試料中の遺伝子増幅事象の有無を判定すること、または
(ix)核酸試料中の腫瘍/正常細胞混合のレベルを決定すること。
核酸試料
様々な組織試料が、本方法で使用される核酸試料の供給源となり得る。ゲノムまたはサブゲノム核酸(例えば、DNAまたはRNA)は、対象の試料(例えば、腫瘍試料、正常近接組織(NAT)、血液試料)、循環腫瘍細胞(CTC)を含有する試料、または任意の正常な対照)から単離され得る。ある特定の実施形態において、組織試料は、凍結試料として、またはホルムアルデヒドもしくはパラホルムアルデヒド固定パラフィン包埋(FFPE)組織調製物として保存される。例えば、試料は、マトリックス、例えば、FFPEブロックまたは凍結試料中に包埋され得る。ある特定の実施形態において、組織試料は、血液試料である。他の実施形態において、組織試料は、骨髄穿刺液(BMA)試料である。単離ステップは、個別の染色体の流動選別、及び/または対象の試料(例えば、腫瘍試料、NAT、血液試料)を顕微解剖することを含み得る。
「単離」核酸分子は、核酸分子の天然の供給源に存在する他の核酸分子から分離されている核酸分子である。ある特定の実施形態において、「単離」核酸分子は、核酸が由来する生物のゲノムDNA中の核酸(すなわち、核酸の5’及び 3’ 末端に位置する配列)に天然に隣接する配列(タンパク質コード配列など)を含まない。例えば、様々な実施形態において、単離核酸分子は、核酸が由来する細胞のゲノムDNA中の核酸分子に天然に隣接する、約5kB未満、約4kB未満、約3kB未満、約2kB未満、約1kB未満、約0.5kB未満、または約0.1kB未満のヌクレオチド配列を含有し得る。さらに、RNA分子またはcDNA分子などの「単離」核酸分子は、例えば、組み換え技法によって産生されるか、または化学的前駆体もしくは他の化学物質を実質的に含まない場合、例えば、化学合成される場合、他の細胞性物質または培地を実質的に含み得ない。
「他の細胞性物質または培地を実質的に含まない」という語は、核酸分子が単離されているかまたは組み換え産生される細胞の細胞構成成分から、その分子が分離される、核酸分子の調製物を含む。故に、実質的に細胞性物質を含まない核酸分子は、約30%未満、約20%未満、約10%未満、または約5%未満(乾燥重量による)の他の細胞性物質または培地を有する核酸分子の調製物を含む。
ある特定の実施形態において、核酸は、経年試料、例えば、経年FFPE試料から単離される。経年試料は、例えば、1年、2年、3年、4年、5年、10年、15年、20年、25年、50年、75年、または100年以上であり得る。
核酸試料は、様々なサイズの組織試料(例えば、生体組織、FFPE試料、血液試料、または骨髄穿刺試料)から得ることができる。例えば、核酸は、5~200μm以上の組織試料から単離され得る。例えば、組織試料は、5μm、10μm、20μm、30μm、40μm、50μm、70μm、100μm、110μm、120μm、150μm、または200μm以上を測定し得る。
国際特許出願公開第WO2012/092426号の実施例1に提供されるような組織試料からのDNA単離のためのプロトコルが、当技術分野で知られている。ホルムアルデヒドまたはパラホルムアルデヒド固定、パラフィン包埋(FFPE)組織から核酸(例えば、DNA)を単離するための追加の方法は、例えば、Cronin M.et al.,(2004)Am J Pathol. 164(1):35-42、Masuda N.et al.,(1999)Nucleic Acids Res. 27(22):4436-4443、Specht K.et al.,(2001)Am J Pathol. 158(2):419-429、Ambion RecoverAll(商標)Total Nucleic Acid Isolation Protocol(Ambion,Cat.No. AM1975,September 2008)、Maxwell(登録商標)16 FFPE Plus LEV DNA Purification Kit Technical Manual(Promega Literature #TM349,February 2011)、E.Z.N.A. (登録商標) FFPE DNA Kit Handbook(OMEGA bio-tek,Norcross,GA,product numbers D3399-00,D3399-01,and D3399-02;June 2009)、及びQIAamp(登録商標)DNA FFPE Tissue Handbook(Qiagen,Cat. No.37625,October 2007)に開示されている。RecoverAll(商標)Total Nucleic Acid Isolation Kitは、高温でキシレンを使用して、パラフィン包埋試料及びグラスファイバーフィルターを溶解させて核酸を捕捉する。Maxwell(登録商標)16 FFPE Plus LEV DNA Purification Kitは、FFPE組織の1~10μm切片からのゲノムDNAの精製のために、Maxwell(登録商標)16機器とともに使用される。DNAは、シリカ被覆常磁性粒子(PMP)を使用して精製され、低溶出体積で溶出される。E.Z.N.A.(登録商標)FFPE DNA Kitは、ゲノムDNAの単離のためにスピンカラム及び緩衝液系を使用する。QIAamp(登録商標)DNA FFPE Tissue Kitは、ゲノム及びミトコンドリアDNAの精製のために、QIAamp(登録商標)DNA Micro技術を使用する。血液からのDNA単離のためのプロトコルは、例えば、Maxwell(登録商標)16 LEV Blood DNA Kit及びMaxwell 16 Buccal Swab LEV DNA Purification Kit Technical Manual(Promega Literature #TM333,January 1,2011)に開示されている。
RNA単離のためのプロトコルは、例えば、Maxwell(登録商標)16 Total RNA Purification Kit Technical Bulletin (Promega Literature #TB351, August 2009)に開示されている。
単離核酸試料(例えば、ゲノムDNA試料)は、日常的な技法を実施することによって断片化またはせん断され得る。例えば、ゲノムDNAは、物理的せん断法、酵素的切断法、化学的切断法、及び当業者に周知の他の方法によって断片化され得る。核酸ライブラリは、ゲノムの複雑性の全てまたは実質的に全てを含み得る。この文脈において「実質的に全て」という用語は、実際には、手順の最初のステップの間に、ゲノムの複雑性のいくつかの不必要な喪失があり得る可能性を指す。本明細書に記載される方法はまた、核酸ライブラリがゲノムの一部である場合、すなわち、ゲノムの複雑性が設計によって低減される場合にも有用である。いくつかの実施形態において、ゲノムの任意の選択部分は、本明細書に記載される方法とともに使用され得る。ある特定の実施形態において、全エクソームまたはそのサブセットは、単離される。
本発明において取り上げられる方法は、核酸試料を単離して、ライブラリ(例えば、本明細書に記載されるような核酸ライブラリ)を提供することをさらに含み得る。ある特定の実施形態において、核酸試料は、全ゲノム、サブゲノム断片、またはそれらの両方を含む。単離核酸試料は、核酸ライブラリを調製するために使用され得る。故に、一実施形態において、本発明において取り上げられる方法は、核酸試料を単離して、ライブラリ(例えば、本明細書に記載されるような核酸ライブラリ)を提供することをさらに含む。全ゲノムまたはサブゲノム断片からライブラリを単離及び調製するためのプロトコルが、当技術分野で知られている(例えば、IlluminaのゲノムDNA試料調製キット)。ある特定の実施形態において、ゲノムまたはサブゲノムDNA断片は、対象の試料(例えば、腫瘍試料、正常近接組織(NAT)、血液試料、または任意の正常な対照))から単離される。一実施形態において、試料(例えば、腫瘍またはNAT試料)は、保存検体である。例えば、試料は、マトリックス、例えば、FFPEブロックまたは凍結試料中に包埋される。ある特定の実施形態において、単離ステップは、個別の染色体の流動選別、及び/または対象の試料(例えば、腫瘍試料、NAT、血液試料)を顕微解剖することを含む。ある特定の実施形態において、核酸ライブラリを生成するために使用される核酸試料は、5マイクログラム未満、1マイクログラム未満、または500ng未満、200ng未満、100ng未満、50ng未満、10ng未満、5ng未満、または1ng未満である。
さらに他の実施形態において、ライブラリを生成するために使用される核酸試料は、RNAまたはRNA由来のcDNAを含む。いくつかの実施形態において、RNAは、全細胞RNAを含む。他の実施形態において、ある大量のRNA配列(例えば、リボソームRNA)は、枯渇している。いくつかの実施形態において、全RNA調製物中のポリ(A)尾部付きmRNA画分は、富化されている。いくつかの実施形態において、cDNAは、ランダム刺激cDNA合成方法によって産生される。他の実施形態において、cDNA合成は、オリゴ(dT)含有オリゴヌクレオチドで刺激することによって成熟mRNAのポリ(A)尾部で惹起される。枯渇、ポリ(A)富化、及びcDNA合成のための方法が、当業者によく知られている。
本方法は、当業者に周知の特異的または非特異的核酸増幅法によって核酸試料を増幅することをさらに含み得る。いくつかの実施形態において、核酸試料は、例えば、ランダム刺激鎖置換増幅などの全ゲノム増幅法によって増幅される。
他の実施形態において、核酸試料は、物理的または酵素的方法によって断片化またはせん断され、合成アダプターに連結され、(例えば、分取ゲル電気泳動によって)サイズ選択され、(例えば、PCRによって)増幅される。他の実施形態において、核酸の断片化及びアダプター連結群は、ハイブリッド選択の前に、明確なサイズ選択または増幅なしに使用される。
他の実施形態において、単離DNA(例えば、ゲノムDNA)は、断片化またはせん断される。いくつかの実施形態において、ライブラリは、例えば、他の手段によって細分画化されているゲノムの簡約表示または定義された部分であるゲノムDNAの細画分などの、ゲノムDNAの50%未満を含む。他の実施形態において、ライブラリは、全てまたは実質的に全てのゲノムDNAを含む。
いくつかの実施形態において、ライブラリは、例えば、他の手段によって細分画化されているゲノムの簡約表示または定義された部分であるゲノムDNAの細画分などの、ゲノムDNAの50%未満を含む。他の実施形態において、ライブラリは、全てまたは実質的に全てのゲノムDNAを含む。全ゲノムまたはサブゲノム断片からライブラリを単離及び調製するためのプロトコルが、当技術分野で知られており(例えば、IlluminaのゲノムDNA試料調製キット)、実施例において本明細書に記載される。例えば、国際特許出願公開第WO2012/092426号の実施例4に記載されているようなDNAせん断するための代替的な方法が、当技術分野で知られている。例えば、代替的なDNAせん断法は、より自動化可能及び/またはより効率的であり得る(例えば、分解されたFFPE試料を用いる)。DNAせん断法に対する代替法は、ライブラリ調製中の連結ステップを回避するためにも使用され得る。
本明細書に記載される方法は、例えば、供給源DNAまたはRNAの量が(例えば、全ゲノム増幅の後でさえも)限定される場合、少量の核酸を使用して行われ得る。一実施形態において、核酸は、約5μg、4μg、3μg、2μg、1μg、0.8μg、0.7μg、0.6μg、0.5μg未満、または400ng、300ng、200ng、100ng、50ng、10ng、5ng、1ng以下の核酸試料を含む。例えば、典型的には50~100ngのゲノムDNAを用いて開始することができる。しかし、ハイブリダイゼーションステップ、例えば、溶液ハイブリダイゼーションの前に、(例えば、PCRを使用して)ゲノムDNAを増幅する場合、より少ない量で開始することができる。故に、ハイブリダイゼーション、例えば、溶液ハイブリダイゼーションの前に、ゲノムDNAを増幅することは可能であるが必須ではない。
ライブラリを生成するために使用される核酸試料は、RNAまたはRNA由来のcDNAも含み得る。いくつかの実施形態において、RNAは、全細胞RNAを含む。他の実施形態において、ある大量のRNA配列(例えば、リボソームRNA)は、枯渇している。他の実施形態において、全RNA調製物中のポリ(A)尾部付きmRNA分画は、富化されている。いくつかの実施形態において、cDNAは、ランダム刺激cDNA合成方法によって産生される。他の実施形態において、cDNA合成は、オリゴ(dT)含有オリゴヌクレオチドで刺激することによって成熟mRNAのポリ(A)尾部で惹起される。枯渇、ポリ(A)富化、及びcDNA合成のための方法が、当業者によく知られている。
本方法は、当業者に既知の特異的または非特異的核酸増幅法によって核酸試料を増幅することをさらに含み得る。核酸試料は、例えば、ランダム刺激鎖置換増幅などの全ゲノム増幅法によって増幅され得る。
核酸試料は、本明細書に記載されるような物理的または酵素的方法によって断片化またはせん断され、合成アダプターに連結され、(例えば、分取ゲル電気泳動によって)サイズ選択され、(例えば、PCRによって)増幅され得る。核酸の断片化及びアダプター連結群は、ハイブリッド選択の前に、明確なサイズ選択または増幅なしに使用される。
実施形態において、核酸試料は、非がん細胞または非悪性細胞、例えば、腫瘍浸潤リンパ球からのDNA、RNA(または、RNA由来のcDNA)、またはそれらの両方を含む。実施形態において、核酸試料は、非がん細胞または非悪性細胞、例えば、腫瘍浸潤リンパ球からのDNA、RNA(または、RNA由来のcDNA)、またはそれらの両方を含み、がん細胞または悪性細胞からのDNA、RNA(または、RNA由来のcDNA)、またはそれらの両方を含まないか、または本質的にこれらを含まない。
実施形態において、核酸試料は、がん細胞または悪性細胞からのDNA、RNA(または、RNA由来のcDNA)を含む。実施形態において、核酸試料は、がん細胞または悪性細胞からのDNA、RNA(または、RNA由来のcDNA)を含み、非がん細胞または非悪性細胞、例えば、腫瘍浸潤リンパ球からのDNA、RNA(または、RNA由来のcDNA)、またはそれらの両方を含まないか、または本質的にこれらを含まない。
実施形態において、核酸試料は、非がん細胞または非悪性細胞、例えば、腫瘍浸潤リンパ球からのDNA、RNA(または、RNA由来のcDNA)、またはそれらの両方、ならびにがん細胞または悪性細胞からのDNA、RNA(または、RNA由来のcDNA)、またはそれらの両方を含む。
ベイトの設計及び構築
ベイトは、標的核酸にハイブリッド形成し得(例えば、それに相補的であり得る)、それにより、それの捕捉を可能にする核酸分子、例えば、DNAまたはRNA分子であり得る。ある特定の実施形態において、標的核酸は、ゲノムDNA分子である。他の実施形態において、標的核酸は、RNA分子、またはRNA分子由来のcDNA分子である。一実施形態において、ベイトは、RNA分子である。他の実施形態において、ベイトは、例えば、結合実体への結合による、ベイト、及びベイトに対してハイブリッド形成される核酸によって形成されるハイブリッドの捕捉及び分離を可能にする、結合実体、例えば、親和性タグを含む。一実施形態において、ベイトは、溶液相ハイブリダイゼーションに好適である。
典型的には、RNA分子は、ベイト配列として使用される。RNA-DNA二重鎖は、DNA-DNA二重鎖よりも安定しており、よって、核酸のより良好である可能性がある捕捉を提供する。
RNAベイトは、DNA依存性RNAポリメラーゼを使用するDNA分子のデノボ化学合成及び転写を含むが、これらに限定されない、当技術分野で既知の方法を使用して、本明細書の他の箇所に記載されるように作製され得る。一実施形態において、ベイト配列は、例えば、ヒトDNAまたはプールされたヒトDNA試料をテンプレートとして使用する、PCRなどの既知の核酸増幅法を使用して産生される。次いで、オリゴヌクレオチドは、RNAベイトに変換され得る。一実施形態において、インビトロ転写は、例えば、RNAポリメラーゼプロモーター配列のオリゴヌクレオチドの一方の末端への付加に基づいて使用される。一実施形態において、RNAポリメラーゼプロモーター配列は、例えば、PCRまたは他の核酸増幅法を使用して、ベイト配列を増幅または再増幅することによって、例えば、各標的特異的プライマー対のうちの一方のプライマーをRNAプロモーター配列と尾部付加することによって、ベイトの末端に付加される。一実施形態において、RNAポリメラーゼは、T7ポリメラーゼ、SP6ポリメラーゼ、またはT3ポリメラーゼである。一実施形態において、RNAベイトは、タグ、例えば、親和性タグで標識される。一実施形態において、RNAベイトは、例えば、ビオチン化UTPを使用してインビトロ転写によって作製される。別の実施形態において、RNAベイトは、ビオチンなしで産生され、次いで、ビオチンは、ソラレン架橋などの当技術分野で周知の方法を使用してRNA分子に架橋される。一実施形態において、RNAベイトは、RNase耐性RNA分子であり、これは、例えば、RNase分解に耐性があるRNA分子を産生するために転写中に修飾ヌクレオチドを使用することによって作製され得る。一実施形態において、RNAベイトは、二重鎖DNA標的の一方の鎖にのみ対応する。典型的には、このようなRNAベイトは、自己相補的ではなく、ハイブリダイゼーションドライバーとしてより有効である。
ベイトセットは、ベイトが参照配列の標的を選択するのに最適であるように、参照配列から設計され得る。いくつかの実施形態において、ベイト配列は、混合塩基(例えば、縮重)を使用して設計される。例えば、混合塩基(複数可)は、共通のSNPまたは変異の位置(複数可)でベイト配列中に含められ得、両方の対立遺伝子(例えば、SNP及び非SNP;変異体及び非変異体)を捕捉するためにベイト配列を最適化し得る。いくつかの実施形態において、全ての既知の配列変動(または、そのサブセット)は、混合縮重オリゴヌクレオチドを使用するよりむしろ、多数のオリゴヌクレオチドベイトを用いて標的化され得る。
ある特定の実施形態において、ベイトセットは、約100ヌクレオチド~300ヌクレオチド長のオリゴヌクレオチド(または、複数のオリゴヌクレオチド)を含む。典型的には、ベイトセットは、約130ヌクレオチド~230ヌクレオチドまたは約150~200ヌクレオチド長のオリゴヌクレオチド(または、複数のオリゴヌクレオチド)を含む。他の実施形態において、ベイトセットは、約300ヌクレオチド~1000ヌクレオチド長のオリゴヌクレオチド(または、複数のオリゴヌクレオチド)を含む。
いくつかの実施形態において、オリゴヌクレオチド中の標的メンバー特異的配列は、約40~1000ヌクレオチド、約70~300ヌクレオチド、約100~200ヌクレオチド長、典型的には約120~170ヌクレオチド長である。
いくつかの実施形態において、ベイトセットは、結合実体を含む。結合実体は、各ベイト配列上の親和性タグであり得る。いくつかの実施形態において、親和性タグは、ビオチン分子またはハプテンである。ある特定の実施形態において、結合実体は、アビジン分子などのパートナー、またはハプテンもしくはその抗原結合断片に結合する抗体に結合することによって、ハイブリダイゼーション混合物からベイト/メンバーハイブリッドを分離することを可能にする。
他の実施形態において、ベイトセット中のオリゴヌクレオチドは、同じ標的メンバー配列に対して順相補及び逆相補配列を含有し、それにより、逆相補的メンバー特異的配列を有するオリゴヌクレオチドは、逆相補ユニバーサル尾部も保有する。これは、同じ鎖であり、すなわち、互いに相補的でない、RNA転写物をもたらし得る。
他の実施形態において、ベイトセットは、1つ以上の位置に縮重または混合塩基を含有するオリゴヌクレオチドを含む。さらに他の実施形態において、ベイトセットは、単一種の集団または生物の群集に存在する多数または実質的に全ての既知の配列変異形を含む。一実施形態において、ベイトセットは、ヒト集団に存在する多数または実質的に全ての既知の配列変異形を含む。
他の実施形態において、ベイトセットは、cDNA配列を含むか、またはcDNA配列に由来する。他の実施形態において、ベイトセットは、ゲノムDNA、cDNA、またはクローン化DNAから増幅される増幅産物(例えば、PCR産物)を含む。
他の実施形態において、ベイトセットは、RNA分子を含む。いくつかの実施形態において、セットは、より安定し、RNaseに対して耐性であるものを含むが、これらに限定されない、化学的、酵素的に修飾された、またはインビトロで転写されたRNA分子を含む。
さらに他の実施形態において、ベイトは、参照によって本明細書に組み込まれるUS2010/0029498及びGnirke,A.et al.(2009)Nat Biotechnol.27(2):182-189に記載されている方法によって産生される。例えば、ビオチン化RNAベイトは、最初にマイクロアレイ上で合成された長い合成オリゴヌクレオチドのプールを得て、オリゴヌクレオチドを増幅してベイト配列を産生することによって産生され得る。いくつかの実施形態において、ベイトは、ベイト配列の一方の末端でRNAポリメラーゼプロモーター配列を付加し、RNAポリメラーゼを使用してRNA配列を合成することによって産生される。一実施形態において、合成オリゴデオキシヌクレオチドのライブラリは、Agilent Technologies,Inc.などの市販業者から得ることができ、既知の核酸増幅法を使用して増幅され得る。
したがって、前述のベイトセットを作製する方法が提供される。本方法は、1つ以上の標的特異的ベイトオリゴヌクレオチド配列(例えば、本明細書に記載されるような1つ以上の変異捕捉、参照、または対照オリゴヌクレオチド配列)を選択することと、標的特異的ベイトオリゴヌクレオチド配列のプールを得る(例えば、マイクロアレイ合成によって、標的特異的ベイトオリゴヌクレオチド配列のプールを合成する)ことと、任意に、オリゴヌクレオチドを増幅してベイトセットを産生することと、を含む。
他の実施形態において、本方法は、1つ以上のビオチン化プライマーを使用してオリゴヌクレオチドを(例えば、PCRによって)増幅することをさらに含む。いくつかの実施形態において、オリゴヌクレオチドは、マイクロアレイに連結される各オリゴヌクレオチドの末端にユニバーサル配列を含む。本方法は、オリゴヌクレオチドからユニバーサル配列を除去することをさらに含み得る。このような方法はまた、オリゴヌクレオチドの相補鎖を除去し、オリゴヌクレオチドをアニーリングし、オリゴヌクレオチドを伸長させることも含み得る。これらの実施形態のいくつかにおいて、オリゴヌクレオチドを(例えば、PCRによって)増幅するための方法は、1つ以上のビオチン化プライマーを使用する。いくつかの実施形態において、本方法は、増幅されたオリゴヌクレオチドのサイズ選択をさらに含む。
一実施形態において、RNAベイトセットが作製される。本方法は、本明細書に記載される方法に従って、ベイト配列のセットを産生することと、ベイト配列の一方の末端でRNAポリメラーゼプロモーター配列を付加することと、RNAポリメラーゼを使用してRNA配列を合成することと、を含む。RNAポリメラーゼは、T7 RNAポリメラーゼ、SP6 RNAポリメラーゼ、またはT3 RNAポリメラーゼから選ぶことができる。他の実施形態において、RNAポリメラーゼプロモーター配列は、ベイト配列を(例えば、PCRによって)増幅することによってベイト配列の末端で付加される。ベイト配列がゲノムDNAまたはcDNAからの特異的なプライマー対を用いてPCRによって増幅される実施形態において、RNAプロモーター配列を各対の2つの特異的プライマーの一方の5’末端に付加することによって、標準的な方法を使用して、RNAベイトに転写され得るPCR産物がもたらされる。
他の実施形態において、ベイトセットは、ヒトDNAまたはプールされたヒトDNA試料をテンプレートとして使用して産生され得る。このような実施形態において、オリゴヌクレオチドは、ポリメラーゼ連鎖反応(PCR)によって増幅される。他の実施形態において、増幅されたオリゴヌクレオチドは、ローリングサークル増幅またはハイパーブランチドローリングサークル増幅によって再増幅される。ヒトDNAまたはプールされたヒトDNA試料をテンプレートとして使用してベイト配列を産生するために、同じ方法が使用され得る。制限消化、パルスフィールドゲル電気泳動、流動選別、CsCl密度勾配遠心分離、選択的動的再会合、染色体調製物の顕微解剖、及び当業者に既知の他の分画化方法を含むが、これらに限定されない他の方法によって得られたゲノムの細画分を使用してベイト配列を産生するためにも、同じ方法が使用され得る。
ある特定の実施形態において、ベイトセット中のベイト数は、1,000未満である。他の実施形態において、ベイトセット中のベイト数は、1,000超、5,000超、10,000超、20,000超、50,000超、100,000超、または500,000超である。
ベイト配列の長さは、約70ヌクレオチド~1000ヌクレオチドであり得る。一実施形態において、ベイトの長さは、約100~300ヌクレオチド、110~200ヌクレオチド、または120~170ヌクレオチド長である。上述されるものに加えて、約70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800、及び900ヌクレオチド長の中間的なオリゴヌクレオチド長が、本明細書に記載される方法において使用され得る。いくつかの実施形態において、約70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、または230個の塩基のオリゴヌクレオチドが、使用され得る。
各ベイト配列は、一方または両方の末端に標的特異的(例えば、メンバー特異的)ベイト配列及びユニバーサル尾部を含み得る。本明細書で使用されるとき、「ベイト配列」という用語は、標的特異的ベイト配列、またはオリゴヌクレオチドの標的特異的「ベイト配列」及び他のヌクレオチドを含むオリゴヌクレオチド全体を指し得る。ベイト中の標的特異的配列は、約40ヌクレオチド~1000ヌクレオチド長である。一実施形態において、標的特異的配列は、約70ヌクレオチド~300ヌクレオチド長である。別の実施形態において、標的特異的配列は、約100ヌクレオチド~200ヌクレオチド長である。さらに別の実施形態において、標的特異的配列は、約120ヌクレオチド~170ヌクレオチド長、典型的には120ヌクレオチド長である。上述されるものに加えて、約40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800、及び900ヌクレオチド長の標的特異的配列、ならびに上述される長さ間の長さの標的特異的配列など、中間的な長さも、本明細書に記載される方法において使用され得る。
一実施形態において、ベイトは、約50~200ヌクレオチド長(例えば、約50、60、80、90、100、110、120、130、140、150、160、170、190、または200ヌクレオチド長)のオリゴマー(例えば、RNAオリゴマー、DNAオリゴマー、またはそれらの組み合わせからなる)である。一実施形態において、各ベイトオリゴマーは、標的特異的ベイト配列である約120~170個、または典型的には約120個のヌクレオチドを含む。ベイトは、一方または両方の末端に追加の非標的特異的ヌクレオチド配列を含み得る。追加のヌクレオチド配列は、例えば、PCR増幅のために、またはベイト識別子として使用され得る。ある特定の実施形態において、ベイトは、本明細書に記載されるような結合実体(例えば、ビオチン分子などの捕捉タグ)をさらに含む。結合実体、例えば、ビオチン分子は、例えば、ベイトの5’-、3’-末端、または内部に(例えば、ビオチン化ヌクレオチドを組み込むことによって)ベイトに連結され得る。一実施形態において、ビオチン分子は、ベイトの5’-末端で連結される。
例示的な一実施形態において、ベイトは、約150ヌクレオチド長のオリゴヌクレオチドであり、そのうちの120のヌクレオチドが、標的特異的「ベイト配列」である。他の30のヌクレオチド(例えば、各末端で15のヌクレオチド)は、PCR増幅のために使用されるランダムなユニバーサル尾部である。尾部は、使用者により選択される任意の配列であり得る。例えば、合成オリゴヌクレオチドのプールは、5’-ATCGCACCAGCGTGTN120CACTGCGGCTCCTCA-3’(配列番号1)の配列のオリゴヌクレオチドを含み得、N120は、標的特異的ベイト配列を示す。
本明細書に記載されるベイト配列は、エクソン及び短い標的配列の選択のために使用され得る。一実施形態において、ベイトは、約100ヌクレオチド~300ヌクレオチド長である。別の実施形態において、ベイトは、約130ヌクレオチド~230ヌクレオチド長である。さらに別の実施形態において、ベイトは、約150ヌクレオチド~200ヌクレオチド長である。例えば、エクソン及び短い標的配列の選択のための、ベイト中の標的特異的配列は、約40ヌクレオチド~1000ヌクレオチド長である。一実施形態において、標的特異的配列は、約70ヌクレオチド~300ヌクレオチド長である。別の実施形態において、標的特異的配列は、約100ヌクレオチド~200ヌクレオチド長である。さらに別の実施形態において、標的特異的配列は、約120ヌクレオチド~170ヌクレオチド長である。
いくつかの実施形態において、長いオリゴヌクレオチドは、標的配列を捕捉するために必要なオリゴヌクレオチドの数を最小限にし得る。例えば、エクソン1個当たり1つのオリゴヌクレオチドを使用し得る。ヒトゲノム中のタンパク質コードエクソンの平均及び中央値の長さがそれぞれ、約164及び120塩基対であることが当技術分野で知られている。長いベイトほど、特異性が高く、短いものよりも良好に捕捉し得る。結果として、オリゴヌクレオチドベイト配列当たりの成功率は、短いオリゴヌクレオチドの場合よりも高い。一実施形態において、最小ベイトカバー配列は、例えば、エクソンサイズの標的を捕捉する場合、1つのベイトのサイズ(例えば、120~170塩基)である。ベイト配列の長さを決定する際、不必要に長いベイトが、標的に直接近接するより多くの不必要なDNAを捕捉することも考慮され得る。また、長いオリゴヌクレオチドベイトほど、短いものよりもDNA試料中の標的領域における多型に対してより耐性であり得る。典型的には、ベイト配列は、参照ゲノム配列に由来する。実際のDNA試料中の標的配列が参照配列から逸脱する場合、例えば、それが一塩基多型(SNP)を含有する場合、それは、ベイトとあまり効率的にハイブリッド形成し得ず、よって、ベイト配列とハイブリッド形成される配列中で表示不十分であるかまたは完全に不在であり得る。例えば、120~170塩基における単一の不一致が、多重増幅及びマイクロアレイ捕捉それぞれにおける典型的なベイトまたはプライマー長である20または70塩基の単一の不一致よりもハイブリッドの安定性に対する影響が少なくなり得るという理由から、より長い合成ベイト分子では、SNPに起因する対立遺伝子の脱落が起こる可能性が低くなり得る。
ゲノム領域など、捕捉ベイトの長さと比較して長い標的の選択に関して、ベイト配列の長さは、典型的には、近接配列の標的化を最小限にするという唯一の目的のためにベイト配列の最大サイズを限定する必要がないことを除いて、上述の短い標的に対するベイトと同じサイズ範囲にある。あるいは、オリゴヌクレオチドは、はるかに幅広い枠(典型的には、600塩基)にわたり表記され得る。この方法は、典型的なエクソンよりもはるかい大きい(例えば、約500塩基)DNA断片を捕捉するために使用され得る。結果として、かなり多くの不必要な隣接非標的配列が選択される。
ベイト合成
ベイトは、任意の種類のオリゴヌクレオチド、例えば、DNAまたはRNAであり得る。DNAまたはRNAベイト(「オリゴベイト」)は、個別に合成され得るか、またはDNAもしくはRNAベイトセットとしてアレイで合成され得る(「アレイベイト」)。オリゴベイトは、アレイ方式で提供されるか、または単離オリゴとして提供されるかにかかわらず、典型的には1本鎖である。ベイトは、本明細書に記載されるような結合実体(例えば、ビオチン分子などの捕捉タグ)をさらに含み得る。結合実体、例えば、ビオチン分子は、ベイトに、例えば、ベイトの5’または3’-末端、典型的にはベイトの5’-末端に連結され得る。ベイトセットは、例えば、国際特許出願公開第WO2012/092426号に記載されているような、当技術分野に記載されている方法によって合成され得る。
ハイブリダイゼーション条件
本発明において取り上げられる方法は、ライブラリ(例えば、核酸ライブラリ)を複数のベイトと接触させて、選択されたライブラリキャッチを提供するステップを含む。接触ステップは、溶液ハイブリダイゼーションにおいて実施され得る。ある特定の実施形態において、本方法は、1回以上の追加の溶液ハイブリダイゼーションによってハイブリダイゼーションステップを反復することを含む。いくつかの実施形態において、本方法は、同じかまたは異なるベイト集合体を用いた1回以上の追加の溶液ハイブリダイゼーションにライブラリキャッチを供することをさらに含む。本明細書の方法における使用に適合され得るハイブリダイゼーション法は、例えば、国際特許出願公開第WO2012/092426号に記載されているように、当技術分野に記載されている。
本発明の追加の実施形態または特徴は、次の通りである。
別の態様において、本発明は、前述のベイトセットを作製する方法を特徴とする。本方法は、1つ以上の標的特異的ベイトオリゴヌクレオチド配列(例えば、本明細書に記載されるような遺伝子または遺伝子産物の対象区間(例えば、サブゲノム区間、発現サブゲノム区間、またはそれらの両方)に対応するベイト配列のいずれか)を選択することと、標的特異的ベイトオリゴヌクレオチド配列のプールを得る(例えば、マイクロアレイ合成によって、標的特異的ベイトオリゴヌクレオチド配列のプールを合成する)ことと、任意に、オリゴヌクレオチドを増幅してベイトセットを産生することと、を含む。
さらに別の態様において、本発明は、核酸試料中のがん性表現型(例えば、本明細書に記載される遺伝子または遺伝子産物における変化のうちの少なくとも10、20、30、50個以上)に、例えば、陽性または陰性に関連する変化の有無を判定するための方法を特徴とする。本方法は、本明細書に記載される方法のいずれかに従って、溶液ベースの反応において試料中の核酸をベイトと接触させて核酸キャッチを得ることと、(例えば、次世代配列決定によって)核酸キャッチの全てまたはサブセットを配列決定し、それにより、本明細書に記載される遺伝子または遺伝子産物における変化の有無を判定することと)、を含む。
ある特定の実施形態において、ベイトセットは、約100ヌクレオチド~300ヌクレオチド長のオリゴヌクレオチド(または、複数のオリゴヌクレオチド)を含む。典型的には、ベイトセットは、約130ヌクレオチド~230ヌクレオチドまたは約150~200ヌクレオチド長のオリゴヌクレオチド(または、複数のオリゴヌクレオチド)を含む。他の実施形態において、ベイトセットは、約300ヌクレオチド~1000ヌクレオチド長のオリゴヌクレオチド(または、複数のオリゴヌクレオチド)を含む。
いくつかの実施形態において、オリゴヌクレオチド中の標的メンバー特異的配列は、約40~1000ヌクレオチド、約70~300ヌクレオチド、約100~200ヌクレオチド長、典型的には約120~170ヌクレオチド長である。
いくつかの実施形態において、ベイトセットは、結合実体を含む。結合実体は、各ベイト配列上の親和性タグであり得る。いくつかの実施形態において、親和性タグは、ビオチン分子またはハプテンである。ある特定の実施形態において、結合実体は、アビジン分子などのパートナー、またはハプテンもしくはその抗原結合断片に結合する抗体に結合することによって、ハイブリダイゼーション混合物からベイト/メンバーハイブリッドを分離することを可能にする。
他の実施形態において、ベイトセット中のオリゴヌクレオチドは、同じ標的メンバー配列に対して順相補及び逆相補配列を含有し、それにより、逆相補的メンバー特異的配列を有するオリゴヌクレオチドは、逆相補ユニバーサル尾部も保有する。これは、同じ鎖であり、すなわち、互いに相補的でない、RNA転写物をもたらし得る。
他の実施形態において、ベイトセットは、1つ以上の位置に縮重または混合塩基を含有するオリゴヌクレオチドを含む。さらに他の実施形態において、ベイトセットは、単一種の集団または生物の群集に存在する多数または実質的に全ての既知の配列変異形を含む。一実施形態において、ベイトセットは、ヒト集団に存在する多数または実質的に全ての既知の配列変異形を含む。
他の実施形態において、ベイトセットは、cDNA配列を含むか、またはcDNA配列に由来する。一実施形態において、cDNAは、RNA配列、例えば、腫瘍またはがん細胞由来のRNA、例えば、腫瘍-FFPE試料、血液試料、または骨髄穿刺試料から得られるRNAから調製される。他の実施形態において、ベイトセットは、ゲノムDNA、cDNA、またはクローン化DNAから増幅される増幅産物(例えば、PCR産物)を含む。
他の実施形態において、ベイトセットは、RNA分子を含む。いくつかの実施形態において、セットは、より安定し、RNaseに対して耐性であるものを含むが、これに限定されない、化学的、酵素的に修飾された、またはインビトロで転写されたRNA分子を含む。
さらに他の実施形態において、ベイトは、参照によって本明細書に組み込まれるUS2010/0029498及びGnirke,A.et al.(2009)Nat Biotechnol.27(2):182-189に記載されている方法によって産生される。例えば、ビオチン化RNAベイトは、最初にマイクロアレイ上で合成された長い合成オリゴヌクレオチドのプールを得て、オリゴヌクレオチドを増幅してベイト配列を産生することによって産生され得る。いくつかの実施形態において、ベイトは、ベイト配列の一方の末端でRNAポリメラーゼプロモーター配列を付加し、RNAポリメラーゼを使用してRNA配列を合成することによって産生される。一実施形態において、合成オリゴデオキシヌクレオチドのライブラリは、Agilent Technologies,Inc.などの市販業者から得ることができ、既知の核酸増幅法を使用して増幅され得る。
したがって、前述のベイトセットを作製する方法が提供される。本方法は、1つ以上の標的特異的ベイトオリゴヌクレオチド配列(例えば、本明細書に記載されるような1つ以上の変異捕捉、参照、または対照オリゴヌクレオチド配列)を選択することと、標的特異的ベイトオリゴヌクレオチド配列のプールを得る(例えば、マイクロアレイ合成によって、標的特異的ベイトオリゴヌクレオチド配列のプールを合成する)ことと、任意に、オリゴヌクレオチドを増幅してベイトセットを産生することと、を含む。
他の実施形態において、本方法は、1つ以上のビオチン化プライマーを使用してオリゴヌクレオチドを(例えば、PCRによって)増幅することをさらに含む。いくつかの実施形態において、オリゴヌクレオチドは、マイクロアレイに連結される各オリゴヌクレオチドの末端にユニバーサル配列を含む。本方法は、オリゴヌクレオチドからユニバーサル配列を除去することをさらに含み得る。このような方法はまた、オリゴヌクレオチドの相補鎖を除去し、オリゴヌクレオチドをアニーリングし、オリゴヌクレオチドを伸長させることも含み得る。これらの実施形態のいくつかにおいて、オリゴヌクレオチドを(例えば、PCRによって)増幅するための方法は、1つ以上のビオチン化プライマーを使用する。いくつかの実施形態において、本方法は、増幅されたオリゴヌクレオチドのサイズ選択をさらに含む。
一実施形態において、RNAベイトセットが作製される。本方法は、本明細書に記載される方法に従って、ベイト配列のセットを産生することと、ベイト配列の一方の末端でRNAポリメラーゼプロモーター配列を付加することと、RNAポリメラーゼを使用してRNA配列を合成することと、を含む。RNAポリメラーゼは、T7 RNAポリメラーゼ、SP6 RNAポリメラーゼ、またはT3 RNAポリメラーゼから選ぶことができる。他の実施形態において、RNAポリメラーゼプロモーター配列は、ベイト配列を(例えば、PCRによって)増幅することによってベイト配列の末端で付加される。ベイト配列がゲノムDNAまたはcDNAからの特異的なプライマー対を用いてPCRによって増幅される実施形態において、RNAプロモーター配列を各対の2つの特異的プライマーの一方の5’末端に付加することによって、標準的な方法を使用して、RNAベイトに転写され得るPCR産物がもたらされる。
他の実施形態において、ベイトセットは、ヒトDNAまたはプールされたヒトDNA試料をテンプレートとして使用して産生され得る。このような実施形態において、オリゴヌクレオチドは、ポリメラーゼ連鎖反応(PCR)によって増幅される。他の実施形態において、増幅されたオリゴヌクレオチドは、ローリングサークル増幅またはハイパーブランチドローリングサークル増幅によって再増幅される。ヒトDNAまたはプールされたヒトDNA試料をテンプレートとして使用してベイト配列を産生するために、同じ方法が使用され得る。制限消化、パルスフィールドゲル電気泳動、流動選別、CsCl密度勾配遠心分離、選択的動的再会合、染色体調製物の顕微解剖、及び当業者に既知の他の分画化方法を含むが、これらに限定されない他の方法によって得られたゲノムの細画分を使用してベイト配列を産生するためにも、同じ方法が使用され得る。
ある特定の実施形態において、ベイトセット中のベイト数は、1,000未満、例えば、2、3、4、5、10、50、100、500ベイトである。他の実施形態において、ベイトセット中のベイト数は、1,000超、5,000超、10,000超、20,000超、50,000超、100,000超、または500,000超である。
ある特定の実施形態において、ライブラリ(例えば、核酸ライブラリ)は、メンバーの集合体を含む。本明細書に記載される場合、ライブラリメンバーは、標的メンバー(例えば、腫瘍メンバー、参照メンバー、及び/または対照メンバー;本明細書において、それぞれ第1、第2、及び/または第3のメンバーとも称される)を含み得る。ライブラリのメンバーは、単一の個体のものであり得る。実施形態において、ライブラリは、1人を超える対象(例えば、2、3、4、5、6、7、8、9、10、20、30人以上の対象)からのメンバーを含み得、例えば、異なる対象からの2つ以上のライブラリが組み合わされ、1人を超える対象からのメンバーを有するライブラリを形成し得る。一実施形態において、対象は、がんまたは腫瘍を有するか、またはそれらを有するリスクがあるヒトである。
「メンバー」、または「ライブラリメンバー」、または他の同様の用語は、本明細書で使用されるとき、ライブラリのメンバーである核酸分子、例えば、DNAまたはRNAを指す。典型的には、メンバーは、DNA分子、例えば、ゲノムDNAまたはcDNAである。メンバーは、せん断されたゲノムDNAであり得る。他の実施形態において、メンバーは、cDNAであり得る。他の実施形態において、メンバーは、RNAであり得る。メンバーは、対象からの配列を含み、対象に由来しない配列、例えばプライマー、または、同定を可能にする配列、例えば「バーコード」配列も含み得る。
さらに別の実施形態において、本発明において取り上げられる方法は、核酸試料を単離して、ライブラリ(例えば、本明細書に記載されるような核酸ライブラリ)を提供することをさらに含む。ある特定の実施形態において、核酸試料は、全ゲノム、サブゲノム断片、またはそれらの両方を含む。全ゲノムまたはサブゲノム断片からライブラリを単離及び調製するためのプロトコルが、当技術分野で知られている(例えば、IlluminaのゲノムDNA試料調製キット)。ある特定の実施形態において、ゲノムまたはサブゲノムDNA断片は、対象の試料(例えば、腫瘍試料、正常近接組織(NAT)、血液試料、または任意の正常な対照))から単離される。一実施形態において、試料(例えば、腫瘍またはNAT試料)は、保存物である。例えば、試料は、マトリックス、例えば、FFPEブロックまたは凍結試料中に包埋される。ある特定の実施形態において、単離ステップは、個別の染色体の流動選別、及び/または対象の試料(例えば、腫瘍試料、NAT、血液試料)を顕微解剖することを含む。ある特定の実施形態において、核酸ライブラリを生成するために使用される核酸試料は、5マイクログラム未満、1マイクログラム未満、または500ng未満(例えば、200ng以下)である。
さらに他の実施形態において、ライブラリを生成するために使用される核酸試料は、RNAまたはRNA由来のcDNAを含む。いくつかの実施形態において、RNAは、全細胞RNAを含む。他の実施形態において、ある大量のRNA配列(例えば、リボソームRNA)は、枯渇している。いくつかの実施形態において、全RNA調製物中のポリ(A)尾部付きmRNA画分は、富化されている。いくつかの実施形態において、cDNAは、ランダム刺激cDNA合成方法によって産生される。他の実施形態において、cDNA合成は、オリゴ(dT)含有オリゴヌクレオチドで刺激することによって成熟mRNAのポリ(A)尾部で惹起される。枯渇、ポリ(A)富化、及びcDNA合成のための方法が、当業者によく知られている。
本方法は、当業者に周知の特異的または非特異的核酸増幅法によって核酸試料を増幅することをさらに含み得る。
いくつかの実施形態において、核酸試料は、例えば、ランダム刺激鎖置換増幅などの全ゲノム増幅法によって増幅される。
他の実施形態において、核酸試料は、物理的または酵素的方法によって断片化またはせん断され、合成アダプターに連結され、(例えば、分取ゲル電気泳動によって)サイズ選択され、(例えば、PCRによって)増幅される。他の実施形態において、核酸の断片化及びアダプター連結群は、ハイブリッド選択の前に、明確なサイズ選択または増幅なしに使用される。
他の実施形態において、単離DNA(例えば、ゲノムDNA)は、断片化またはせん断される。いくつかの実施形態において、ライブラリは、例えば、他の手段によって細分画化されているゲノムの簡約表示または定義された部分であるゲノムDNAの細画分などの、ゲノムDNAの50%未満を含む。他の実施形態において、ライブラリは、全てまたは実質的に全てのゲノムDNAを含む。
ある特定の実施形態において、ライブラリのメンバーは、遺伝子内領域または遺伝子間領域を含むサブゲノム区間を含む。別の実施形態において、サブゲノム区間は、エクソンもしくはイントロン、またはそれらの断片、典型的にはエクソン配列またはその断片を含む。一実施形態において、サブゲノム区間は、コード領域または非コード領域、例えば、プロモーター、エンハンサー、5’非翻訳領域(5’UTR)もしくは3’非翻訳領域(3’UTR)、またはそれらの断片を含む。他の実施形態において、サブゲノム区間は、cDNAまたはその断片(例えば、腫瘍RNA(例えば、腫瘍試料、例えば、FFPE-腫瘍試料から抽出されたRNA)から得られるcDNA)を含む。他の実施形態において、サブゲノム区間は、例えば、本明細書に記載されるようなSNPを含む。他の実施形態において、標的メンバーは、ゲノム中の実質的に全てのエクソンを含む。他の実施形態において、標的メンバーは、本明細書に記載されるようなサブゲノム区間、例えば、対象とする選択された遺伝子または遺伝子産物(例えば、本明細書に記載されるような、がん性表現型に関連する遺伝子または遺伝子産物)からのサブゲノム区間、例えば、エクソンを含む。
一実施形態において、サブゲノム区間は、体細胞変異、生殖細胞変異、またはそれらの両方を含む。一実施形態において、サブゲノム区間は、変化、例えば、点もしくは単一変異、欠失変異(例えば、インフレーム欠失、遺伝子内欠失、完全遺伝子欠失)、挿入変異(例えば、遺伝子内挿入)、逆位変異(例えば、染色体内逆位)、連結変異、連結された挿入変異、逆位重複変異、タンデム重複(例えば、染色体内タンデム重複)、転座(例えば、染色体転座、非相反転座)、再編成(例えば、ゲノム再編成)、遺伝子コピー数の変化、またはそれらの組み合わせを含む。ある特定の実施形態において、サブゲノム区間は、試料中の腫瘍細胞のゲノムのコード領域の5%、1%、0.5%、0.1%、0.01%、0.001%未満を構成する。他の実施形態において、サブゲノム区間は、疾患に関与せず、例えば、本明細書に記載されるようながん性表現型に関連しない。
本発明において取り上げられる方法は、1つまたは複数のライブラリ(例えば、1つまたは複数の核酸ライブラリ)を複数のベイトと接触させて、核酸の選択された下位群、例えば、ライブラリキャッチを提供するステップを含む。一実施形態において、接触ステップは、固体支持体、例えば、アレイにおいて実施される。ハイブリダイゼーションに好適な固体支持体は、例えば、Albert,T.J. et al.(2007) Nat. Methods 4(11):903-5、Hodges,E.et al.(2007) Nat. Genet. 39(12):1522-7、及びOkou,D.T. et al.(2007) Nat. Methods 4(11):907-9に記載されており、それらの内容は参照によって本明細書に組み込まれる。他の実施形態において、接触ステップは、溶液ハイブリダイゼーションにおいて実施される。ある特定の実施形態において、本方法は、1回以上の追加のハイブリダイゼーションによってハイブリダイゼーションステップを反復することを含む。いくつかの実施形態において、本方法は、同じかまたは異なるベイト集合体を用いた1回以上の追加のハイブリダイゼーションにライブラリキャッチを供することをさらに含む。
他の実施形態において、本発明において取り上げられる方法は、(例えば、PCRによって)ライブラリキャッチを増幅することをさらに含む。他の実施形態において、ライブラリキャッチは、増幅されない。
さらに他の実施形態において、本方法は、ライブラリキャッチを分析することをさらに含む。一実施形態において、ライブラリキャッチは、配列決定法、例えば、本明細書に記載されるような次世代配列決定法によって分析される。本方法は、溶液ハイブリダイゼーションによってライブラリキャッチを単離し、核酸配列決定によってそのライブラリキャッチを供することを含む。ある特定の実施形態において、ライブラリキャッチは、再配列決定され得る。次世代配列決定法は、当技術分野で知られており、例えば、Metzker,M.(2010)Nature Biotechnology Reviews 11:31-46に記載されている。
さらに他の実施形態において、本方法は、ライブラリキャッチを遺伝子型判定に供し、それにより、選択された核酸の遺伝子型を識別するステップをさらに含む。
ある特定の実施形態において、本方法は、次のうちの1つ以上をさらに含む:
i)核酸試料のフィンガープリントを行うこと、
ii)核酸試料中の遺伝子もしくは遺伝子産物(例えば、本明細書に記載されるような遺伝子または遺伝子産物)の存在量を定量化すること(例えば、試料中の転写物の相対的存在量を定量化すること)、
iii)核酸試料を特定の対象(例えば、正常対照またはがん患者)に属するものとして識別すること、
iv)核酸試料中の遺伝形質(例えば、1つ以上の対象の遺伝形質(例えば、民族性、人種、家族の特徴)を識別すること、
v)核酸試料中の倍数性を決定し、核酸試料中のヘテロ接合性喪失を決定すること、
vi)核酸試料中の遺伝子重複事象の有無を判定すること、
vii)核酸試料中の遺伝子増幅事象の有無を判定すること、または
viii)核酸試料中の腫瘍/正常細胞混合のレベルを決定すること。
本明細書に記載される方法のいずれも、次の実施形態のうちの1つ以上と組み合わせられ得る。
実施形態において、本方法は、腫瘍及び/または対照核酸試料(例えば、FFPE由来核酸試料、または血液試料もしくは骨髄穿刺液試料由来の核酸試料)から得られたヌクレオチド配列読み取りデータを取得することを含む。
実施形態において、読み取りデータは、次世代配列決定法によって提供される。
実施形態において、本方法は、核酸メンバーのライブラリを提供することと、該ライブラリの複数のメンバーから、事前選択されたサブゲノム区間を配列決定することと、を含む。実施形態において、本方法は、配列決定のための該ライブラリのサブセットを選択するステップ、例えば、溶液ベースの選択を含み得る。
ある特定の実施形態において、方法は、2つ以上の異なる標的カテゴリを捕捉するように設計されたハイブリッド捕捉方法を含み、各々のカテゴリは、異なるベイト設計方策を有する。ハイブリッド捕捉方法及び組成物は、標的配列の定められたサブセット(例えば、標的メンバー)を捕捉し、そのサブセットの外側のカバレッジを最小限にしながら、標的配列の均質なカバレッジを提供すること意図している。一実施形態において、標的配列は、ゲノムDNAからの全エクソン、またはその選択されたサブセットを含む。本明細書に開示される方法及び組成物は、複雑な標的核酸配列(例えば、ライブラリ)に対する異なる深さ及びカバレッジのパターンを達成するための異なるベイトセットを提供する。
ある特定の実施形態において、ベイトセット及び標的の異なるカテゴリは、次の通りである。
A. 低頻度で出現する変異に対する高レベルの感度を可能にするために、最大深さのカバレッジが必要とされる高レベルの標的(例えば、1つ以上の腫瘍メンバー及び/または参照メンバー、例えば、遺伝子、エクソン、または塩基)を選択する第1のベイトセット。例えば、約5%以下の頻度で出現する点変異の検出(すなわち、試料が調製された細胞の5%が、それらのゲノム中にこの変異を保有する)。第1のベイトセットは、典型的には、高い検出信頼性を確保するために約500X以上の配列決定深さを必要とする。一実施形態において、第1のベイトセットは、ある特定のがんの型において頻繁に変異が起こっている1つ以上のサブゲノム区間(例えば、エクソン)、例えば、表1~4または図3A~4Dによる遺伝子または遺伝子産物を選択する。
B. 高レベル標的より高い頻度で、例えば、約10%の頻度で出現する変異に対する高レベルの感度を可能にするために、高いカバレッジが必要とされる中レベルの標的(例えば、1つ以上の腫瘍メンバー及び/または参照メンバー、例えば、遺伝子、エクソン、または塩基)を選択する第2のベイトセット。例えば、10%の頻度で出現する変化(例えば、点変異)の検出は、高い検出信頼性を確保するために約200X以上の配列決定深さを必要とする。一実施形態において、第2のベイトセットは、表1~4または図3A~4Dによる遺伝子または遺伝子産物から選ばれる1つ以上のサブゲノム区間(例えば、エクソン)を選択する。
C. 高レベルの感度を可能にするために、例えば、ヘテロ接合性の対立遺伝子を検出するために、低-中程度のカバレッジが必要とされる、低レベルの標的(例えば、1つ以上のPGxメンバー、例えば、遺伝子、エクソン、または塩基)を選択する第3のベイトセット。例えば、ヘテロ接合性の対立遺伝子の検出は、高い検出信頼性を確保するために10~100Xの配列決定深さを必要とする。一実施形態において、第3のベイトセットは、a)患者が異なる薬物を代謝する能力を説明し得る薬理ゲノムSNP、b)患者を固有に識別(フィンガープリント)するために使用され得るゲノムSNP、ならびにc)ゲノムDNAのコピー数増加/減少及びヘテロ接合性喪失(LOH)を評価するために使用され得るゲノムSNP/遺伝子座から選ばれる1つ以上のサブゲノム区間(例えば、エクソン)を選択する。
D. ゲノム転座またはインデルなどの構造限界点を検出するために、低-中程度のカバレッジが必要とされるイントロン標的(例えば、イントロンメンバー)を選択する第4のベイトセット。例えば、イントロン限界点の検出は、高い検出信頼性を確保するために5~50Xの配列対スパニング深さを必要とする。該第4のベイトセットは、例えば、転座/インデルが起こり易いがん遺伝子を検出するために使用され得る。
E. コピー数の変化を検出する能力を改善するために低密度のカバレッジが必要とされるイントロン標的(例えば、イントロンメンバー)を選択する第5のベイトセット。例えば、いくつかの末端エクソンの1コピー欠失の検出は、高い検出信頼性を確保するために0.1~10Xのカバレッジを必要とする。該第5のベイトセットは、例えば、増幅/欠失が起こり易いがん遺伝子を検出するために使用され得る。
本発明において取り上げられる方法及び組成物は、各ベイトセット/標的カテゴリの相対的配列カバレッジを調節することを含む。ベイト設計における相対的配列カバレッジの差異を実現するための方法は、次のうちの1つ以上を含む:
(i)異なるベイトセットの差次的な表示-所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計は、より多くの/より少ないコピー数に含まれて、相対的な標的カバレッジの深さを増強/低減させ得る;
(ii)ベイトサブセットの差次的な重複-所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計は、近隣ベイト間のより長いかまたはより短い重複を含み、相対的な標的カバレッジの深さを増強/低減させ得る;
(iii)差次的なベイトパラメータ-所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計は、配列修飾/より短い長さを含み、捕捉効率を低減させ、相対的な標的カバレッジの深さを低下させ得る;
(iv)異なるベイトセットの混合-異なる標的セットを捕捉するように設計されるベイトセットは、異なるモル比で混合されて、相対的な標的カバレッジの深さを増強/低減させ得る;
(v) 異なる種類のオリゴヌクレオチドベイトセットの使用-ある特定の実施形態において、ベイトセットは、次のものを含み得る:
(a)1つ以上の化学的に(例えば、非酵素的に)合成された(例えば、個別に合成された)ベイト、
(b)アレイにおいて合成された1つ以上のベイト、
(c)1つ以上の酵素的に調製された、例えば、インビトロで転写されたベイト、
(d)(a)、(b)、及び/もしくは(c)の任意の組み合わせ、
(e)1つ以上のDNAオリゴヌクレオチド(例えば、天然または非天然のDNAオリゴヌクレオチド)、
(f)1つ以上のRNAオリゴヌクレオチド(例えば、天然または非天然のRNAオリゴヌクレオチド)、
(g)(e)及び(f)の組み合わせ、または
(h)上記のいずれかの組み合わせ。
異なるオリゴヌクレオチドの組み合わせは、異なる比、例えば、1:1、1:2、1:3、1:4、1:5、1:10、1:20、1:50、1:100、1:1000などから選ばれる比で混合され得る。一実施形態において、化学合成されたベイト対アレイ生成ベイトの比は、1:5、1:10、または1:20から選ばれる。DNAまたはRNAオリゴヌクレオチドは、天然または非天然であり得る。ある特定の実施形態において、ベイトは、例えば、融解温度を上昇させるために1つ以上の非天然ヌクレオチドを含む。例示的な非天然オリゴヌクレオチドには、修飾DNAまたはRNAヌクレオチドが含まれる。例示的な修飾RNAヌクレオチドは、ロックド核酸(LNA)であり、ここで、LNAヌクレオチドのリボース部分は、2’酸素及び4’炭素を連結する余分な架橋で修飾されている(Kaur,H;Arora,A;Wengel,J;Maiti,S;Arora,A.;Wengel,J.;Maiti,S.(2006). “Thermodynamic,Counterion,and Hydration Effects for the Incorporation of Locked Nucleic Acid Nucleotides into DNA Duplexes”. Biochemistry 45(23): 7347-55)。他の修飾された例示的なDNA及びRNAヌクレオチドには、ペプチド結合によって連結される反復N-(2-アミノエチル)-グリシン単位から構成されるペプチド核酸(PNA)(Egholm,M.et al.(1993)Nature 365(6446):566-8)、低GC領域を捕捉するように修飾されたDNAまたはRNAオリゴヌクレオチド、二環式核酸(BNA)または架橋オリゴヌクレオチド、修飾5-メチルデオキシシチジン、及び2,6-ジアミノプリンが含まれるが、これらに限定されない。他の修飾DNA及びRNAヌクレオチドが当技術分野で知られている。
ある特定の実施形態において、標的配列(例えば、標的メンバー)の実質的に均一または均質なカバレッジが得られる。例えば、各ベイトセット/標的カテゴリ内で、カバレッジの均一性は、ベイトパラメータを修飾することによって、例えば次のうちの1つ以上によって最適化され得る:
(i)同じカテゴリ中の他の標的に対して過小/過剰にカバーされる標的(例えば、標的メンバー)のカバレッジを増強/低減させるために、ベイト表示もしくは重複を増加/減少させることが使用され得るか、
(ii)標的配列(例えば、高GC含量配列)を捕捉することが困難である低カバレッジに関して、例えば、近接配列(例えば、GCリッチ度がより低い近接配列)をカバーするようにベイトセットで標的化されている領域を拡大するか、
(iii)ベイトの二次構造を低減させ、その選択効率を増強させるために、ベイト配列を修飾することが使用され得るか、
(iv)同じカテゴリ内の異なるベイトの融解ハイブリダイゼーション速度を等しくするために、ベイトの長さを変更することが使用され得る。(長さが様々なベイトを産生することによって)直接、もしくは(一貫した長さのベイトを産生し、ベイト末端をランダムな配列で置き換えることによって)間接的にベイトの長さを変更し得るか、
(v)同じ標的領域(すなわち、フォワード及びリバース鎖)に対して異なる配向のベイトを修飾することによって、結合効率が異なり得る。各標的に対して最適のカバレッジを提供するいずれかの配向を有するベイトセットが選択され得るか、
(vi)各ベイト上に存在する結合実体、例えば、捕捉タグ(例えば、ビオチン)の量を変更することによって、その結合効率が影響を受け得る。相対的な標的カバレッジを増強/低減させるために、特定の標的を標的とするベイトのタグレベルを増加/減少させることが使用され得るか、
(vii)標的への結合親和性に影響を及ぼし、相対的な標的カバレッジを増強/低減させるために、異なるベイトに対して使用されるヌクレオチドの種類の変更が使用され得るか、または
(viii)高GC含量に対して低いもしくは正常なGC含量の領域間での融解ハイブリダイゼーション速度を等しくするために、修飾オリゴヌクレオチドベイトを使用すること、例えば、より安定した塩基対形成を有することが使用され得る。
例えば、異なる種類のオリゴヌクレオチドベイトセットが使用され得る。
一実施形態において、選択効率に対する値は、事前選択された標的領域を包含するために異なる種類のベイトオリゴヌクレオチドを使用することによって変更される。例えば、第1のベイトセット(例えば、10,000~50,000のRNAまたはDNAベイトを含むアレイに基づくベイトセット)は、大きな標的範囲(例えば、1~2MBの全標的範囲)をカバーするために使用され得る。第1のベイトセットは、第2のベイトセット(例えば、5,000個未満のベイトを含む個別に合成されたRNAまたはDNAベイトセット)に添加されて、事前選択された標的領域(例えば、標的範囲の対象とするスパニング、例えば、250kb以下の選択されたサブゲノム区間)、及び/またはより高い二次構造、例えば、より高いGC含量の領域をカバーし得る。対象とする選択されたサブゲノム区間は、本明細書に記載される遺伝子もしくは遺伝子産物、またはそれらの断片のうちの1つ以上に対応し得る。第2のベイトセットは、所望のベイト重複に応じて、約2,000~5,000ベイトを含み得る。さらに他の実施形態において、第2のベイトセットは、第1のベイトに添加される選択されたオリゴベイト(例えば、400、200、100、50、40、30、20、10個未満のベイト)を含み得る。第2のベイトセットは、個別のオリゴベイトの任意の比で混合され得る。例えば、第2のベイトセットは、1:1の等モル比として存在する個別のベイトを含み得る。あるいは、第2のベイトセットは、例えば、ある特定の標的(例えば、ある特定の標的は、他の標的と比較して5~10Xの第2のベイトを有し得る)の捕捉を最適化するために、異なる比(例えば、1:5、1:10、1:20)で存在する個別のベイトを含み得る。
配列決定
本発明はまた、核酸を配列決定する方法も含む。これらの方法において、核酸ライブラリメンバーは、例えば、溶液ハイブリダイゼーションを使用して本明細書に記載される方法を使用することによって単離され、それにより、ライブラリキャッチを提供する。ライブラリキャッチまたはその下位群は、配列決定され得る。したがって、本発明において取り上げられる方法は、ライブラリキャッチを分析することをさらに含む。一実施形態において、ライブラリキャッチは、配列決定法、例えば、本明細書に記載されるような次世代配列決定法によって分析される。本方法は、溶液ハイブリダイゼーションによってライブラリキャッチを単離し、核酸配列決定によってそのライブラリキャッチを供することを含む。ある特定の実施形態において、ライブラリキャッチは、再配列決定され得る。
当技術分野で既知の任意の配列決定法が使用され得る。選択方法によって単離された核酸の配列決定は、典型的には、次世代配列決定(NGS)を使用して行われる。本明細書における使用に好適な配列決定法は、例えば、国際特許出願公開第WO2012/092426号に記載されているように、当技術分野に記載されている。
NGS読み取りデータが生成された後、それらは、既知の参照配列と整列され得るか、または新規にアセンブリされ得る。例えば、試料(例えば、腫瘍試料)中の一塩基多型及び構造変異形などの遺伝的変異を識別することは、NGS読み取りデータを参照配列(例えば、野生型配列)と整列させることによって達成され得る。NGSに対する配列整列の方法は、例えば、Trapnell C.and Salzberg S.L. Nature Biotech.,2009,27:455-457に記載されている。新規のアセンブリの例は、例えば、Warren R.et al.,Bioinformatics,2007,23:500-501、Butler J.et al.,Genome Res.,2008,18:810-820、及びZerbino D.R. and Birney E.,Genome Res.,2008,18:821-829に記載されている。配列整列またはアセンブリは、1つ以上のNGSプラットフォームからの読み取りデータを使用して、例えば、Roche/454及びIllumina/Solexa読み取りデータを混合して、行われ得る。
整列
整列は、読み取りデータをある位置、例えば、ゲノムの位置と一致させるプロセスである。誤整列(例えば、ゲノム中の正しくない位置へ、短い読み取りデータからの塩基対を配置)、例えば、実際のがん変異の周辺の読み取りデータの配列状況(例えば、反復配列の存在)に起因する誤整列は、代替的対立遺伝子の読み取りデータが、代替的対立遺伝子読み取りデータの主な集積を回避し得るため、変異検出の感度の低減をもたらし得る。実際の変異が存在しない場合に問題のある配列状況が生じる場合、誤整列は、参照ゲノム塩基の実際の読み取りデータを誤った位置に配置することによって、「変異が起こった」対立遺伝子のアーチファクトの読み取りデータを導入し得る。増加した多重遺伝子分析のための変異呼び出しアルゴリズムは、存在量が少ない変異に対しても感度があるはずなので、これらの誤整列は、偽陽性発見率を増加させ/特異性を低減し得る。
本明細書で論じられるように、実際の変異に対する感度の低減は、分析されている遺伝子における予想される変異部位の周辺の整列の質を(手動でまたは自動化様式で)評価することによって対処され得る。評価される部位は、がん変異のデータベース(例えば、COSMIC)から得ることができる。問題があると識別される領域は、例えば、Smith-Waterman整列などのより遅いがより正確な整列アルゴリズムを使用した整列最適化(または、再整列)によって、関連する配列状況においてより良好な能力を供与するように選択されたアルゴリズムを使用して修正され得る。一般的な整列アルゴリズムが問題を修正することができない場合、カスタマイズされた整列手法は、例えば、置換を含有する尤度が高い遺伝子に対する最大差不一致ペナルティパラメータの調整、ある特定の腫瘍型で共通する特定の変異型に基づいて特定の不一致ペナルティパラメータ(例えば、黒色腫におけるC→T)を調整すること、またはある特定の試料の種類で共通する特定の変異型に基づいて特定の不一致ペナルティパラメータ(例えば、FFPEで共通する置換)を調整することによって作成され得る。
誤整列に起因する評価遺伝子領域における特異性の低減(偽陽性率の増加)は、配列決定された試料中の全ての変異呼び出しの手動または自動化検査によって評価され得る。誤整列に起因する偽の変異呼び出しを起こし易いことが分かった領域は、上述と同じ整列修正に供され得る。可能なアルゴリズム修正が見つからない場合、問題領域からの「変異」は、試験パネルから分類または選別して排除され得る。
本明細書に開示される方法によって、再編成、例えば、インデルが関連するサブゲノム区間の配列決定において、特に、例えば、腫瘍試料からの、多くの多様な遺伝子における多くの多様な遺伝的事象の超並列配列決定に依存する方法において、能力を最適化するための多数の個別に調節された整列方法またはアルゴリズムの使用が可能になり得る。実施形態において、異なる遺伝子におけるいくつかの再編成の各々に対して個別にカスタマイズまたは調節される多数の整列法は、読み取りデータを分析するために使用される。実施形態において、調節することは、配列決定されている遺伝子(または、他のサブゲノム区間)、試料中の腫瘍型、配列決定されている変異形の(うちの1つ以上の)機能、または試料もしくは対象の特質であり得る。配列決定されるいくつかのサブゲノム区間に対して微調節される整列条件のこの選択または使用によって、速度、感度、及び特異性の最適化が可能になる。本方法は、比較的多くの多様なサブゲノム区間に対する読み取りデータの整列が最適化される場合、特に有効である。実施形態において、本方法は、再編成に最適化された整列方法、及び再編成に関連しないサブゲノム区間に対して最適化された他の方法の使用を含む。
故に、実施形態において、本明細書に記載される方法、例えば、腫瘍試料を分析する方法は、本明細書に記載される再編成のための整列方法を含む。
概して、インデル変異の正確な検出は、本明細書において無効である配列決定プラットフォーム上の偽のインデル率が比較的低いので、整列における演習である(故に、正しく整列されたインデルの僅かな観察でさえ、変異の強力な証拠となり得る)。しかし、インデルの存在下での正確な整列は、困難であり得る(特に、インデル長が長くなる場合)。整列に関連する、例えば、置換の一般的な問題に加えて、インデル自体が整列に問題を引き起こし得る。(例えば、ジヌクレオチド反復の2bpの欠失は、容易かつ断定的には配置され得ない)。感度及び特異性の両方は、より短い(<15bp)明らかなインデル含有読み取りデータの正しくない配置によって低減され得る。より大きいインデル(個別の読み取りデータの長さ、例えば、36bpの読み取りデータにより近付くこと)によって、読み取りデータを全く整列することができなくなり、標準的な整列読み取りデータのセットにおいてインデルの検出が不可能になる。
がん変異のデータベースは、これらの問題に対処し、能力を改善するために使用され得る。偽陽性インデルの発見を低減させる(特異性を改善する)ために、一般的に予想されるインデル周辺の領域は、配列状況に起因する問題のある整列に関して調査され、上記の置換と同様に対処され得る。インデル検出の感度を改善するために、がんで予想されるインデルにおける情報を使用するいくつかの異なる手法が使用され得る。例えば、予想されるインデルを含有した短い読み取りデータが模擬実験され、整列が試みられ得る。整列は研究され得、問題のあるインデル領域は、例えば、ギャップオープン/伸長ペナルティを低減させることによって、または部分的な読み取りデータ(例えば、読み取りデータの前半または後半)を整列することによって、整列パラメータを調整し得る。
あるいは、最初の整列は、正常な参照ゲノムだけでなく、既知または可能性のあるがんインデル変異の各々を含有するゲノムの代替的バージョンでも試みられ得る。この手法において、最初に整列できなかったかまたは整列が不正確であったインデルの読み取りデータは、ゲノムの代替的(変異)バージョンにおいて問題なく配置される。
このようにして、インデルの整列(故に、呼び出し)は、予想されるがん遺伝子/部位に対して最適化され得る。本明細書で使用されるとき、配列整列アルゴリズムは、読み取りデータ配列と参照配列との間の類似性を評価することによって、読み取りデータ配列(例えば、次世代配列決定からの、例えば、短い読み取りデータ配列)がゲノム中のどこから由来する可能性が最も高いかを識別するために使用される計算方法または手法を具体化する。様々なアルゴリズムが、配列整列の問題に対して適用され得る。いくつかのアルゴリズムは、比較的遅いが、比較的高い特異性を可能にする。これらには、例えば、ダイナミックプログラミングに基づくアルゴリズムが含まれる。ダイナミックプログラミングは、複雑な問題をより単純なステップに分解することによって解決するための方法である。他の手法は、比較的より効率的であるが、典型的には完璧なものではない。これらには、例えば、発見的アルゴリズム及び大規模データベース検索のために設計された確率的方法が含まれる。
整列パラメータは、アルゴリズムの能力を調整するために、例えば、読み取りデータ配列と参照配列との間で最適な網羅的または局所的整列を産生させるために、整列アルゴリズムにおいて使用される。整列パラメータは、一致、不一致、及びインデルに対して重みを供与し得る。例えば、重みが低いほど、より多くの不一致及びインデルとの整列が可能になる。
配列状況、例えば、反復配列(例えば、タンデム反復、散在反復)、低複雑性領域、インデル、偽遺伝子、またはパラログの存在は、整列特異性に影響を及ぼし得る(例えば、誤整列を引き起こす)。本明細書で使用されるとき、誤整列は、ゲノム中の正しくない位置での短い読み取りデータからの塩基対の配置を指す。
整列アルゴリズムが選択される場合、または整列パラメータが腫瘍型、例えば、特定の変異もしくは変異型を有する傾向のある腫瘍型に基づいて調整される場合、整列の感度は、増加され得る。
整列アルゴリズムが選択される場合、または整列パラメータが特定の遺伝子型(例えば、発がん遺伝子、腫瘍抑制遺伝子)に基づいて調整される場合、整列の感度は、増加され得る。がん関連遺伝子の異なる型における変異は、がん表現型に対して異なる影響を有し得る。例えば、変異発がん遺伝子対立遺伝子は、典型的には、優性である。変異体腫瘍抑制因子対立遺伝子は、典型的に、劣性であり、これは、殆どの場合、影響が現れる前に腫瘍抑制因子遺伝子の両方の対立遺伝子が影響を受けるはずであることを意味する。
整列アルゴリズムが選択される場合、または整列パラメータが変異型(例えば、一塩基多型、インデル(挿入または欠失)、逆位、転座、タンデム反復)に基づいて調整される場合、整列の感度は、調整され(例えば、増加され)得る。
整列アルゴリズムが選択される場合、または整列パラメータが変異部位(例えば、変異ホットスポット)に基づいて調整される場合、整列の感度は、調整され(例えば、増加され)得る。変異ホットスポットは、変異が正常の変異率よりも最大100倍頻繁に起きるゲノム中の部位を指す。
整列アルゴリズムが選択される場合、または整列パラメータが試料の種類(例えば、FFPE試料)に基づいて調整される場合、整列の感度/特異性は、調整され(例えば、増加され)得る。
整列アルゴリズムは、試料の種類(例えば、FFPE試料、血液試料、または骨髄穿刺試料)に基づいて、整列感度/特異性を調整する(例えば、増加させる)ように選択され得る。
整列の最適化は、例えば、国際特許出願公開第WO2012/092426号に記載されているように、当技術分野に記載されている。
変異呼び出し
塩基呼び出しは、配列決定装置の生の結果を指す。変異呼び出しは、配列決定されているヌクレオチド位置にヌクレオチド値、例えば、A、G、T、またはCを選択するプロセスを指す。典型的には、ある位置に対する配列決定読み取りデータ(または、塩基呼び出し)は、1つを超える値を提供し、例えば、いくつかの読み取りデータはTを供与し、一部はGを供与するであろう。変異呼び出しは、ヌクレオチドチ値、例えばこれらの値のうちの1つを配列に割り当てるプロセスである。これは、「変異」呼び出しと称されるが、任意のヌクレオチド位置、例えば、変異体対立遺伝子、野生型対立遺伝子、変異型もしくは野生型のいずれとも特徴付けられていない対立遺伝子に対応する位置に、または可変性を特徴としない位置に、ヌクレオチド値を割り当てるために適用され得る。変異呼び出しのための方法は、次の:参照配列における各位置での情報に基づいて独立呼び出しを作製すること(例えば、配列読み取りデータを調査すること、塩基呼び出し及び品質スコアを調査すること、可能性のある遺伝子型を考慮し、観察される塩基及び品質スコアの確率を計算すること、ならびに(例えば、ベイズ規則を使用して)遺伝子型を割り当てること)、偽陽性を除去すること(例えば、読み取りデータ深さが予想よりもかなり低いかまたは高いSNPを拒絶するために深さ閾値を使用すること、小さなインデルに起因する偽陽性を除去するための局所的再整列)、及び連鎖不均衡(LD)/インピュテーションに基づく分析を行って、呼び出しを改良すること、のうちの1つ以上を含み得る。
特異的な遺伝子型及び位置に関連する遺伝子型尤度を計算するための等式は、例えば、Li H.and Durbin R.Bioinformatics,2010;26(5):589-95に記載されている。ある特定のがん型における特定の変異に対する先行期待値は、そのがん型からの試料を評価する場合に使用され得る。このような尤度は、がん変異の公開データベース、例えば、Catalogue of Somatic Mutation in Cancer(COSMIC)、HGMD(Human Gene Mutation Database)、The SNP Consortium,Breast Cancer Mutation Data Base (BIC)、及びBreast Cancer Gene Database(BCGD)由来であり得る。
LD/インピュテーションに基づく分析の例は、例えば、Browning B.L. and Yu Z.Am. J.Hum. Genet. 2009,85(6):847-61に記載されている。低カバレッジSNP呼び出し法の例は、例えば、Li Y.et al.,Annu. Rev. Genomics Hum. Genet. 2009,10:387-406に記載されている。
整列の後、呼び出し法、例えば、ベイジアン変異呼び出し法を使用して置換の検出が行われ得、これは、サブゲノム区間の各々、例えば、評価される遺伝子のエクソンにおける各塩基に適用され、代替的対立遺伝子の存在が観察される。この方法は、変異の存在下で読み取りデータを観察する確率を、塩基呼び出しエラーのみの存在下で読み取りデータを観察する確率と比較する。この比較が変異の存在を十分に強力に支持する場合、変異が呼び出され得る。
がんDNAの分析のための50%または100%の頻度からの限定的な逸脱に対処する方法が開発されている。(例えば、SNVMix-Bioinformatics. 2010 March 15;26(6):730-736)。しかし、本明細書に開示される方法によって、試料DNAの1%~100%の全範囲で、特に、50%未満のレベルで変異体対立遺伝子の存在の可能性を考慮することが可能になる。この手法は、天然(多クローン性)腫瘍DNAの低純度FFPE試料における変異の検出に特に重要である。
ベイジアン変異検出手法の利点は、変異の存在の確率と、塩基呼び出しエラーのみの確率との比較が、その部位での変異の存在の先行期待値によって重み付けされ得ることである。代替的対立遺伝子のいくつかの読み取りデータが所与のがん型に対する頻繁に変異が起こる部位で観察される場合、変異の証拠の量が通常の閾値を満たさない場合でも、変異の存在が確信的に呼び出され得る。次いで、この柔軟性は、より希少な変異/より低い純度の試料に対してさえも検出感度を増加させるためか、または読み取りデータカバレッジを減少させるためにその試験をより堅牢なものにするために使用され得る。がんで変異が起こっているゲノム中のランダムな塩基対の尤度は、約1e-6である。典型的な多重遺伝子癌ゲノムパネルにおける多くの部位での特異的な変異の尤度は、より高い桁であり得る。これらの尤度は、がん変異の公開データベース(例えば、COSMIC)由来であり得る。インデル呼び出しは、挿入または欠失によって参照配列と異なる配列決定データにおいて塩基を探すプロセスであり、典型的には、関連する信頼スコアまたは統計学的証拠の計量を含む。
インデル呼び出しの方法は、候補インデルを識別し、局所的再整列を通じて遺伝子型尤度を計算し、LDに基づく遺伝子型推測及び呼び出しを行うステップを含み得る。典型的には、ベイジアン手法は、可能性のあるインデル候補を得るために使用され、次いで、これらの候補が、ベイジアンフレームワークにおいて参照配列と一緒に試験される。
候補インデルを生成するためのアルゴリズムは、例えば、McKenna A.et al.,Genome Res. 2010;20(9):1297-303、Ye K.et al.,Bioinformatics,2009;25(21):2865-71、Lunter G. and Goodson M.Genome Res. 2010(印刷物に先行して電子版で公開)、及びLi H.et al.,Bioinformatics 2009,Bioinformatics 25(16):2078-9に記載されている。
インデル呼び出し及び個別のレベルの遺伝子型尤度を生成するための方法には、例えば、Dindelアルゴリズム(Albers C.A. et al.,Genome Res. 2011;21(6):961-73)が含まれる。例えば、ベイジアンEMアルゴリズムは、読み取りデータを分析し、最初のインデル呼び出しを作製し、各候補インデルに対して遺伝子型尤度を生成するために使用され得、続いて、例えば、QCALL(Le S.Q. and Durbin R.Genome Res. 2011;21(6):952-60)を使用して遺伝子型のインピュテーションを行う。パラメータ、例えば、インデルを観察するという先行期待値は、インデルのサイズまたは場所に基づいて調整され得る(例えば、増加または減少され得る)。
変異呼び出しの最適化は、例えば、国際特許出願公開第WO2012/092426号に記載されているように、当技術分野に記載されている。
SGZアルゴリズム
様々な種類の変化、例えば、体細胞変化及び生殖細胞変異は、本明細書に記載される方法(例えば、配列決定法、整列法、または変異呼び出し法)によって検出され得る。ある特定の実施形態において、生殖細胞変異は、SGZアルゴリズムを使用する方法によってさらに識別される。SGZアルゴリズムは、Sun et al.Cancer Research 2014;74(19S):1893-1893、国際出願公開第WO2014/183078号、及び米国出願公開第2014/0336996号に記載されており、それらの内容は、参照によってそれらの全体が本明細書に組み込まれる。
他の実施形態
本明細書に記載される方法の実施形態において、本方法におけるステップまたはパラメータは、本方法における下流のステップまたはパラメータを修正するために使用される。
実施形態において、該試料からの核酸の単離、ライブラリ構築、ベイトの設計もしくは選択、ハイブリダイゼーション条件、配列決定、読み取りデータマッピング、変異呼び出し法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上または全てにおいて下流のステップまたはパラメータを修正するために、腫瘍試料の特質が使用される。
実施形態において、該試料からの核酸の単離、ライブラリ構築、ベイトの設計もしくは選択、ハイブリダイゼーション条件、配列決定、読み取りデータマッピング、変異呼び出し法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上または全てにおいて下流のステップまたはパラメータを修正するために、単離された腫瘍、または対照、核酸の特質が使用される。
実施形態において、該試料からの核酸の再単離、その後の構築、ベイトの設計もしくは選択、ハイブリダイゼーション条件、配列決定、読み取りデータマッピング、変異呼び出し法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上または全てにおいて下流のステップまたはパラメータを修正するために、ライブラリの特質が使用される。
実施形態において、該試料からの核酸の再単離、その後の構築、ベイトの設計もしくは選択、ハイブリダイゼーション条件、配列決定、読み取りデータマッピング、変異呼び出し法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上または全てにおいて下流のステップまたはパラメータを修正するために、ライブラリキャッチの特質が使用される。
実施形態において、該試料からの核酸の再単離、その後の構築、ベイトの設計もしくは選択、その後のハイブリダイゼーション条件の決定、その後の配列決定、読み取りデータマッピング、変異呼び出し法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上または全てにおいて下流のステップまたはパラメータを修正するために、配列決定法の特質が使用される。
実施形態において、該試料からの核酸の再単離、その後の構築、ベイトの設計もしくは選択、その後のハイブリダイゼーション条件の決定、その後の配列決定、その後の読み取りデータマッピング、変異呼び出し法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上または全てにおいて下流のステップまたはパラメータを修正するために、マッピングされた読み取りデータの収集物の特質が使用される。
実施形態において、本方法は、腫瘍試料の特質に対する値を取得すること、例えば、該試料中の腫瘍細胞の割合に対する、該腫瘍試料の細胞充実性に対する、または腫瘍試料の画像からの値を取得することを含む。
実施形態において、本方法は、腫瘍試料の特質に対する該取得された値に応じて、腫瘍試料からの核酸の単離、ライブラリ構築、ベイト設計もしくは選択、ベイト/ライブラリメンバーハイブリダイゼーション、配列決定、または変異呼び出しに対するパラメータを選択することを含む。
実施形態において、方法は、該腫瘍試料中に存在する腫瘍組織の量に対する値を取得することと、該取得された値を参照基準と比較することと、該参照基準が満たされる場合、該腫瘍試料を許容し、例えば、該腫瘍試料が30、40、または50%を超える腫瘍細胞を含有する場合、該腫瘍試料を許容することと、をさらに含む。
実施形態において、方法は、例えば、該腫瘍試料からの、参照基準を満たすことができない腫瘍試料からの腫瘍組織を、顕微鏡を使用しない解剖(macrodissecting)をすることによって、腫瘍細胞に対して富化されたサブ試料を取得することをさらに含む。
実施形態において、方法は、一次対照、例えば、血液試料が利用可能であるかを判定して、そうである場合、該一次対照から対照核酸(例えば、DNA)を単離することをさらに含む。
実施形態において、方法は、NATが該腫瘍試料中に存在するか否かを判定すること(例えば、一次対照試料が利用可能ではない場合)をさらに含む。
実施形態において、方法は、例えば、一次対照を伴わない腫瘍試料中の該NATからの非腫瘍組織を、顕微鏡を使用しない解剖(macrodissecting)をすることによって、非腫瘍細胞に対して富化されたサブ試料を取得することをさらに含む。
実施形態において、方法は、利用可能な一次対照及びNATがないことを判定することと、適合対照なしの分析に対して該腫瘍試料をマークすることと、をさらに含む。
実施形態において、方法は、該腫瘍試料から核酸を単離して、単離された腫瘍核酸試料を提供することをさらに含む。
実施形態において、方法は、対照から核酸を単離して、単離された対照核酸試料を提供することをさらに含む。
実施形態において、方法は、検出可能な核酸を有さない試料を拒絶することをさらに含む。
実施形態において、方法は、該単離核酸試料中での核酸収率に対する値を取得することと、取得された値を参照基準と比較することと、をさらに含み、ここで、例えば、該取得された値が該参照基準未満である場合、ライブラリ構築前に該単離核酸試料を増幅することを含む。
実施形態において、方法は、該単離核酸試料中の核酸断片のサイズに対する値を取得することと、取得された値を参照基準、例えば、少なくとも300、600、または900bpのサイズ、例えば、平均のサイズと比較することと、をさらに含む。本明細書に記載されるパラメータは、この決定に応じて調整または選択され得る。
実施形態において、方法は、ライブラリを取得することをさらに含み、ここで、ライブラリ中の該核酸断片のサイズは、参照値以下であり、該ライブラリは、DNA単離とライブラリ作製との間の断片化のステップなしに作製される。
実施形態において、方法は、核酸断片を取得することをさらに含み、該核酸断片のサイズが参照値以上である場合、断片化され、次いでこのような核酸断片はライブラリに作製される。
実施形態において、方法は、例えば、複数のメンバーの各々に識別可能な別個の核酸配列(バーコード)を付加することによって、複数のライブラリメンバーの各々を標識することをさらに含む。
実施形態において、方法は、複数のライブラリメンバーの各々にプライマーを連結させることをさらに含む。
実施形態において、方法は、複数のベイトを提供することと、
複数のベイトを選択することとをさらに含み、該選択は、:1)患者の特質、例えば、年齢、腫瘍のステージ、以前の治療、または耐性、2)腫瘍型、3)腫瘍試料の特質、4)対照試料の特質、5)対照の存在または種類、6)単離された腫瘍(または、対照)核酸試料の特質、7)ライブラリの特質、8)腫瘍試料中の腫瘍型に関連することで既知の変異、9)腫瘍試料中の腫瘍型に関連することが知られていない変異、10)事前選択された配列の配列を決定する(または、それとハイブリッド形成するかまたはそれを回収する)か、または事前選択された変異、例えば、高GC領域もしくは再編成を有する配列に関連する難しさを識別する能力、あるいは11)配列決定されている遺伝子に応じる。
実施形態において、方法は、例えば、該腫瘍試料中の少数の腫瘍細胞の決定に応じて、ベイト(複数可)を選択すること、第2の遺伝子のメンバーと比較すると、第1の遺伝子からのメンバーを比較的高効率的に捕捉することをさらに含み、例えば、ここで、第1の遺伝子における変異は、腫瘍試料の腫瘍型に対する腫瘍表現型に関連する。
実施形態において、方法は、ライブラリ-キャッチの特質に対する値、例えば、核酸濃度または表示を取得することと、取得された値を核酸濃度に対するかまたは表示に対する参照基準と比較することと、をさらに含む。
実施形態において、方法は、(例えば、参照基準を満たすよう値を替えるための)再処理に対する参照基準を満たさないライブラリの特質に対する値を有するライブラリを選択することをさらに含む。
実施形態において、方法は、ライブラリ定量化に対する参照基準を満たすライブラリの特質に対する値を有するライブラリを選択することをさらに含む。
実施形態において、方法は、対象に対する腫瘍型、遺伝子、及び遺伝子変化(TGA)の関連を提供することをさらに含む。
実施形態において、方法は、複数の要素を有する事前選択されたデータベースを提供することをさらに含み、ここで、各要素は、TGAを含む。
実施形態において、方法は、事前選択されたデータベース、例えば、有効化されたTGAのデータベースに該TGAが存在するか否かを判定することと、該対象からの(アノテーションする)該TGAと事前選択されたデータベースからのTGAに対する情報を関連付けることと、任意に、該事前選択されたデータベースに該対象に対する第2以降のTGAが存在するかを判定し、そうである場合、事前選択されたデータベースからの第2以降のTGAに対する情報を該患者に存在する該第2のTGAと関連付けることと、を含む、対象のTGAを特徴付けることをさらに含む。
実施形態において、方法は、報告書を作成するために対象のTGAの有無、及び任意に、関連するアノテーションを提出することをさらに含む。
実施形態において、方法は、受領者側に該報告書を送付することをさらに含む。
実施形態において、方法は、事前選択されたデータベース、例えば、有効化されたTGAのデータベースに該TGAが存在するか否かを判定すること、または、該事前選択されたデータベースにないTGAが既知の臨床的に関連するGまたはAを有するかを判定し、そうである場合、該事前選択されたデータベースにおける該TGAに対するエントリーを提供すること、を含む、対象のTGAを特徴付けることをさらに含む。
実施形態において、方法は、報告書を作成するために対象からの腫瘍試料のDNAで見られる変異の有無を提出することをさらに含む。
実施形態において、方法は、報告書を作成するために対象のTGAの有無、及び任意に、関連するアノテーションを提出することをさらに含む。
実施形態において、方法は、受領者側に該報告書を送付することをさらに含む。
本発明は、次の付番された段落のいずれかで定義され得る。
1. 試料(例えば、腫瘍試料または腫瘍由来の試料)中の腫瘍変異負荷を評価する方法であって、
a)前記試料からのサブゲノム区間(例えば、コードサブゲノム区間)のセットであって、所定の遺伝子セットからのものである、前記サブゲノム区間のセットの配列、例えば、ヌクレオチド配列を提供することと、
b)前記腫瘍変異負荷に対する値を決定することと、を含み、前記値が、前記サブゲノム区間のセット内の体細胞変化(例えば、1つ以上の体細胞変化)の数の関数であり、前記変化の数が、
(i)サブゲノム区間内の機能的変化、及び
(ii)サブゲノム区間内の生殖細胞変化を除外し、
それにより、前記試料中の前記腫瘍変異負荷を評価する、前記方法。
2. 試料(例えば、腫瘍試料または腫瘍由来の試料)中の腫瘍変異負荷を評価する方法であって、
(i)前記試料から複数の腫瘍メンバーを含むライブラリを取得することと、
(ii)前記ライブラリを、選択された腫瘍メンバーを提供するためのベイトセットであって、前記腫瘍メンバーとハイブリッド形成する、前記ベイトセットと接触させて、それにより、ライブラリキャッチを提供することと、
(iii)例えば、次世代配列決定法によって、前記ライブラリキャッチからの腫瘍メンバーから変化(例えば、体細胞変化)を含むサブゲノム区間(例えば、コードサブゲノム区間)に対する読み取りデータを取得することと、
(iv)整列法によって前記読み取りデータを整列させることと、
(v)前記読み取りデータから、事前選択されたヌクレオチド位置にヌクレオチド値を割り当てることと、
(vi)前記割り当てられたヌクレオチド位置のセットから、所定の遺伝子セットからのものである、サブゲノム区間のセットを選択することと、
(vii)前記腫瘍変異負荷に対する値を決定することと、を含み、前記値が、前記サブゲノム区間のセット内の体細胞変化(例えば、1つ以上の体細胞変化)の数の関数であり、前記変化の数が、
(a)サブゲノム区間内の機能的変化、及び
(b)サブゲノム区間内の生殖細胞変化を除外し、
それにより、前記試料中の前記腫瘍変異負荷を評価する、前記方法。
3. 前記所定の遺伝子セットが、全ゲノムまたは全エクソームを含まない、請求項1または2に記載の方法。
4. 前記サブゲノム区間のセットが、全ゲノムまたは全エクソームを含まない、請求項1~3のいずれかに記載の方法。
5. 前記値が、前記所定の遺伝子セット、例えば、前記所定の遺伝子セットの前記コード領域の関数として表される、請求項1~4のいずれかに記載の方法。
6. 前記値が、配列決定された前記サブゲノム区間、例えば、配列決定された前記コードサブゲノム区間の関数として表される、請求項1~5のいずれかに記載の方法。
7. 前記値が、事前選択された単位当たりの体細胞変化の数の関数として、例えば、1メガ塩基当たりの体細胞変化の数の関数として表される、請求項1~6のいずれかに記載の方法。
8. 前記値が、前記所定の遺伝子セットの事前選択された位置の数における体細胞変化の数、例えば、前記所定の遺伝子セットの前記コード領域の関数として表される、請求項1~7のいずれかに記載の方法。
9. 前記値が、配列決定された前記サブゲノム区間(例えば、コードサブゲノム区間)の事前選択された位置の数における体細胞変化の数の関数として表される、請求項1~8のいずれかに記載の方法。
10. 前記値が、前記所定の遺伝子セット内の1メガ塩基当たりの体細胞変化の数、例えば、前記所定の遺伝子セットの前記コード領域の関数として表される、請求項1~9のいずれかに記載の方法。
11. 前記値が、配列決定された前記サブゲノム区間(例えば、コードサブゲノム区間)内の1メガ塩基当たりの変化の数の関数として表される、請求項1~10のいずれかに記載の方法。
12. 前記腫瘍変異負荷が、より多くの前記ゲノムに、例えば、全エクソームまたは全ゲノムに外挿される、請求項1~11のいずれかに記載の方法。
13. 前記試料が、対象、例えば、がんを有する対象、または療法を受けているか、もしくは受けたことのある対象からのものである、請求項1~12のいずれかに記載の方法。
14. 前記腫瘍変異負荷が、例えば、参照集団、例えば、前記対象と同じ型のがんを有する患者、または前記対象と同じ種類の療法を受けているか、もしくは受けたことのある患者の参照集団からの試料中の前記腫瘍変異負荷におけるパーセンタイルとして表される、請求項1~13のいずれかに記載の方法。
15. 前記機能的変化は、参照配列、例えば、野生型配列または未変異配列と比較すると、細胞分裂、成長、または生存に対して影響を有し、例えば、細胞分裂、成長、または生存を促進する変化である、請求項1~14のいずれかに記載の方法。
16. 前記機能的変化が、機能的変化のデータベース、例えば、COSMICデータベース(cancer.sanger.ac.uk/cosmic;Forbes et al.Nucl. Acids Res. 2015;43(D1):D805-D811)に含むことにより識別される、請求項1~15のいずれかに記載の方法。
17. 前記機能的変化が、例えば、COSMICデータベースにおいて既知の体細胞変化として起こる既知の機能状態を伴う変化である、請求項1~16のいずれかに記載の方法。
18.前記機能的変化が、機能的である可能性が高い状態、例えば、腫瘍抑制遺伝子における切断を伴う変化である、請求項1~17のいずれかに記載の方法。
19. 前記機能的変化が、ドライバー変異、例えば、細胞生存または繁殖を増加することによって、クローンにその微小環境において、選択優位性を供与する変化である、請求項1~18のいずれかに記載の方法。
20. 前記機能的変化が、クローン展開を引き起こすことができる変化である、請求項1~19のいずれかに記載の方法。
21. 前記機能的変化が、次の:
(a)成長シグナルにおける自給自足、
(b)抗成長シグナルの減少、例えば、それに対する非感受性、
(c)アポトーシスの減少、
(d)複製能の増加、
(e)血管新生の持続、または
(f)組織浸潤もしくは転移、のうちの1つ以上を引き起こすことができる変化である、請求項1~20のいずれかに記載の方法。
22. 前記機能的変化が、パッセンジャー変異ではなく、例えば、クローンの適応度に対して検出可能な影響を有する変化である、請求項1~21のいずれかに記載の方法。
23. 前記機能的変化が、意義不明の変異形(VUS)ではなく、例えば、その病原性を確認も排除もできない変化ではない、請求項1~22のいずれかに記載の方法。
24. 前記所定の遺伝子セット内の事前選択された遺伝子(例えば、腫瘍遺伝子)における複数(例えば、10%、20%、30%、40%、50%、または75%以上)の機能的変化が除外される、請求項1~23のいずれかに記載の方法。
25. 前記所定の遺伝子セット内の事前選択された遺伝子(例えば、腫瘍遺伝子)における全ての機能的変化が除外される、請求項1~24のいずれかに記載の方法。
26. 前記所定の遺伝子セット内の複数の事前選択された遺伝子(例えば、腫瘍遺伝子)における複数の機能的変化が除外される、請求項1~25のいずれかに記載の方法。
27. 前記所定の遺伝子セット内の全ての遺伝子(例えば、腫瘍遺伝子)における全ての機能的変化が除外される、請求項1~26のいずれかに記載の方法。
28. 前記生殖細胞変化が、適合正常配列との比較を使用しない方法の使用によって除外される、請求項1~27のいずれかに記載の方法。
29. 前記生殖細胞変化が、SGZアルゴリズムの使用を含む方法によって除外される、請求項1~28のいずれかに記載の方法。
30. 前記生殖細胞変化が、生殖細胞変化のデータベース、例えば、dbSNPデータベース(www.ncbi.nlm.nih.gov/SNP/index.html;Sherry et al.Nucleic Acids Res. 2001;29(1):308-311)に含むことにより識別される、請求項1~29のいずれかに記載の方法。
31. 前記生殖細胞変化が、ExACデータベースの複数のカウント(exac.broadinstitute.org;Exome Aggregation Consortium et al.“Analysis of protein-coding genetic in 60,706 humans,”bioRxiv preprint. October 30,2015)に含むことにより識別される、請求項1~30のいずれかに記載の方法。
32. 前記生殖細胞変化が、一塩基多型(SNP)、塩基、置換、インデル、またはサイレント変異(例えば、同義変異)である、請求項1~31のいずれかに記載の方法。
33. 前記生殖細胞変化が、1000人ゲノムプロジェクトデータベース(www.1000genomes.org;McVean et al.Nature. 2012;491,56-65)に含むことにより識別される、請求項1~32のいずれかに記載の方法。
34. 前記生殖細胞変化が、ESPデータベース(Exome Variant Server,NHLBI GO Exome Sequencing Project(ESP),Seattle,WA(evs.gs.washington.edu/EVS/)に含むことにより識別される、請求項1~33のいずれかに記載の方法。
35. 前記体細胞変化が、サイレント変異、例えば、同義変化である、請求項1~34のいずれかに記載の方法。
36. 前記体細胞変化が、パッセンジャー変異、例えば、クローンの適応度に対して検出可能な影響を有さない変化である、請求項1~35のいずれかに記載の方法。
37. 前記体細胞変化が、意義不明の変異形(VUS)、例えば、その病原性を確認も排除もできない変化である、請求項1~36のいずれかに記載の方法。
38. 前記体細胞変化が、点変異である、請求項1~37のいずれかに記載の方法。
39. 前記体細胞変化が、短い変異形(例えば、短いコード変異形)、例えば、塩基置換、インデル、挿入、または欠失である、請求項1~38のいずれかに記載の方法。
40. 前記体細胞変化が、非同義一塩基変異形(SNV)である、請求項1~39のいずれかに記載の方法。
41. 前記体細胞変化が、スプライス変異形である、請求項1~40のいずれかに記載の方法。
42. 前記体細胞変化が、がん表現型に関連していると識別されていない、請求項1~41のいずれかに記載の方法。
43. 前記体細胞変化が、再編成以外、例えば、転座以外である、請求項1~42のいずれかに記載の方法。
44. 前記所定の遺伝子セットが、変異体形態で、細胞分裂、成長、もしくは生存に対する影響に関連するか、またはがんに関連する複数の遺伝子を含む、請求項1~43のいずれかに記載の方法。
45. 前記所定の遺伝子セットが、少なくとも約50個以上、約100個以上、約150個以上、約200個以上、約250個以上、約300個以上、約350個以上、約400個以上、約450個以上、または約500個以上の遺伝子を含む、請求項1~44のいずれかに記載の方法。
46. 前記所定の遺伝子セットが、表1~4または図3A~4Dから選ばれる遺伝子または遺伝子産物のうちの少なくとも約50個以上、約100個以上、約150個以上、約200個以上、約250個以上、約300個以上、または全てを含む、請求項1~45のいずれかに記載の方法。
47. 前記腫瘍試料から複数の腫瘍メンバーを含むライブラリを取得することをさらに含む、請求項1~46のいずれかに記載の方法。
48. 前記ライブラリをベイトセットと接触させて、選択された腫瘍メンバーを提供することをさらに含み、前記ベイトセットが前記腫瘍メンバーとハイブリッド形成して、それにより、ライブラリキャッチを提供する、請求項1~47のいずれかに記載の方法。
49. 前記ライブラリまたはライブラリキャッチからの腫瘍メンバーから体細胞変化を含むサブゲノム区間に対する読み取りデータを取得し、それにより、例えば、次世代配列決定法によって前記サブゲノム区間に対する読み取りデータを取得することをさらに含む、請求項1~48のいずれかに記載の方法。
50. 整列法によって前記読み取りデータを整列させることをさらに含む、請求項1~49のいずれかに記載の方法。
51. 前記読み取りデータから、事前選択されたヌクレオチド位置にヌクレオチド値を割り当てることをさらに含む、請求項1~50のいずれかに記載の方法。
52. 前記サブゲノム区間に対する読み取りデータを取得することが、表1~4または図3A~4Dから選ばれる遺伝子または遺伝子産物のうちの少なくとも約50個以上、約100個以上、約150個以上、約200個以上、約250個以上、約300個以上、または全てからのサブゲノム区間を配列決定することを含む、請求項1~51のいずれかに記載の方法。
53. 前記サブゲノム区間に対する読み取りデータを取得することが、平均固有カバレッジの約250X超、約500X超、または約1,000X超で配列決定することを含む、請求項1~52のいずれかに記載の方法。
54. 前記サブゲノム区間に対する読み取りデータを取得することが、配列決定された遺伝子(例えば、エクソン)の95%超、約97%超、または約99%超において、平均固有カバレッジの約250X超、約500X超、または約1,000X超で配列決定することを含む、請求項1~53のいずれかに記載の方法。
55. 前記配列が、請求項1~54のいずれかに記載の方法によって提供される、請求項1~54のいずれかに記載の方法。
56. 前記腫瘍試料中の変異形、例えば、変化を、
a)i)複数の選択されたサブゲノム区間の各々に対して、前記選択されたサブゲノム区間における正規化された配列カバレッジに対する値を含む配列カバレッジ入力(SCI)であって、サブゲノム区間に対する読み取りデータの数と処理適合対照に対する読み取りデータの数との関数である、前記SCI、
ii)複数の選択された生殖細胞SNPの各々に対して、前記腫瘍試料中の対立遺伝子頻度に対する値を含むSNP対立遺伝子頻度入力(SAFI)であって、前記腫瘍試料中の低頻度または代替的対立遺伝子の頻度に少なくとも部分的に基づく、前記SAFI、及び
iii)前記腫瘍試料中の前記変異形に対する前記対立遺伝子頻度を含む、変異形対立遺伝子頻度入力(VAFI)を取得することと、
b)SCI及びSAFIの関数として、
i)複数のゲノム分節の各々に対するゲノム分節総コピー数(C)、
ii)複数のゲノム分節の各々に対するゲノム分節低頻度対立遺伝子コピー数(M)、及び
iii)試料純度(p)、に対する値を取得することであって、
前記C、M、及びpの値が、ゲノム全体でのコピー数モデルをSCI及びSAFIに適合させることによって得られる、取得することと、
c)前記変異形が、体細胞、サブクローナル体細胞変異形、生殖細胞、または区別不可能であることを示し、VAFI、p、C、及びMの関数である、変異型に対する値、gを取得することと、によって特徴付けることをさらに含む、請求項1~55のいずれかに記載の方法。
57. 複数の選択されたサブゲノム区間の各々、複数の選択された生殖細胞SNPの各々、及び変異形(例えば、変化)を配列決定することをさらに含み、正規化の前の前記平均配列カバレッジが、少なくとも約250x、例えば、少なくとも約500xである、請求項1~56のいずれかに記載の方法。
58. 前記ゲノム全体でのコピー数モデルをSCIに適合させることが、以下の等式を使用することを含み、
、式中、ψが腫瘍倍数性である、請求項56または57に記載の方法。
59. 前記ゲノム全体でのコピー数モデルをSAFIに適合させることが、以下の等式を使用することを含み、
、式中、AFが対立遺伝子頻度である、請求項56~58のいずれかに記載の方法。
60. gが、体細胞/生殖細胞状態のモデルに対するVAFI、p、C、及びMの値の適合を決定することによって決定される、請求項56~59のいずれかに記載の方法。
61. gの前記値が、以下によって取得され、
、式中、AFが対立遺伝子頻度である、請求項56~60のいずれかに記載の方法。
62. 0であるか、または0に近いgの値が、前記変異形が体細胞変異形であることを示し、
1であるか、または1に近いgの値が、前記変異形が生殖細胞変異形であることを示し、
0超であるが1未満であるgの値が、区別不能な結果を示し、
0を著しく下回るgの値が、前記変異形がサブクローナル体細胞変異形であることを示す、請求項56~61のいずれかに記載の方法。
63. 前記試料(例えば、腫瘍試料または腫瘍由来の試料)が、1つ以上の前悪性もしくは悪性細胞;固形腫瘍、軟組織腫瘍、もしくは転移性病巣からの細胞;外科的縁からの組織もしくは細胞;組織学的に正常な組織;1つ以上の循環腫瘍細胞(CTC);正常な近接組織(NAT);前記腫瘍を有するか、もしくはそれを有するリスクがある同じ対象からの血液試料;またはFFPE試料を含む、請求項1~62のいずれかに記載の方法。
64. 前記試料が、FFPE試料である、請求項1~63のいずれかに記載の方法。
65. 前記FFPE試料が、次の特性:
(a)25mm2以上の表面積を有するか、
(b)1mm3以上の試料体積を有するか、または
(c)80%以上もしくは30,000個以上の細胞の有核の細胞充実性を有するか、のうちの1つ、2つ、または全てを有する、請求項63または64に記載の方法。
66. 前記試料が、循環腫瘍DNA(ctDNA)を含む試料である、請求項1~65のいずれかに記載の方法。
67. 前記試料が、固形腫瘍、血液癌、またはそれらの転移形態から取得される、請求項1~66のいずれかに記載の方法。
68. 前記腫瘍変異負荷の評価に応じて前記腫瘍試料、または前記腫瘍試料が由来する前記対象を分類することをさらに含む、請求項1~67のいずれかに記載の方法。
69. 前記患者または別の者または実体、介護者、内科医、腫瘍医、病院、診療所、第3者の支払人、保険会社、もしくは官庁に対する、報告書、例えば、電子報告書、ウェブベース報告書、または書面報告書を作成することをさらに含む、請求項1~68のいずれかに記載の方法。
70. 前記報告書が、前記腫瘍変異負荷を含む前記方法による結果を含む、請求項69に記載の方法。
71. 試料(腫瘍試料または腫瘍由来の試料)中の腫瘍変異負荷を評価するためのシステムであって、
メモリに動作可能に接続された少なくとも1つのプロセッサを備え、前記少なくとも1つのプロセッサが、実行すると、
a)前記腫瘍試料からのサブゲノム区間(例えば、コードサブゲノム区間)のセットの配列、例えば、ヌクレオチド配列を取得することであって、前記コードサブゲノム区間のセットが所定の遺伝子セットからのものである、配列を取得することと、
b)前記腫瘍変異負荷に対する前記値を決定することと、を行うように構成され、前記値が、前記サブゲノム区間のセット内の体細胞変化(例えば、1つ以上の体細胞変化)の数の関数であり、前記変化の数が、
(i)サブゲノム区間(例えば、コードサブゲノム区間)内の機能的変化、及び
(ii)サブゲノム区間(例えば、コードサブゲノム区間)内の生殖細胞変化を除外する、前記システム。
腫瘍試料の多重遺伝子分析のための方法の実施形態のフローチャート図が図1A~1Fに提供される。
本開示は、表5(添付A)を含み、これは、本明細書の一部であり、参照によってその全体が本明細書に組み込まれる。
本発明は、次の実施例によりさらに説明されるが、限定するものとして見なされてはならない。本明細書全体を通じて引用される、全ての参考文献、図、配列表、特許、及び公開済み特許出願の内容は、参照によって本明細書に組み込まれる。
実施例1:標的遺伝子によって測定される変異負荷と全ゲノム変異負荷との比較
この実施例において、315個の遺伝子(1.1Mbのコードゲノム)を標的とする包括的ゲノムプロファイリング(CGP)試験によって測定される場合、TMBが全エクソームTMBの正確な評価を提供し得るか否かを判定した。標的化包括的ゲノムプロファイリング試験によるTMBの正確な測定を示した。
方法
TCGAデータの分析
TCGAデータを公開リポジトリ(Cancer Genome Atlas Research Network et al.Nat Genet 2013;45:1113-20)から得た。この分析に関して、TCGAによって決定されるような体細胞呼び出し変異形を生の変異数として使用した。38Mbをエクソームサイズの推定値として使用した。ダウンサンプリング分析に関して、1部分当たり0~10Mbの範囲であるエクソームの様々な部分に対して、全エクソームTMB=100変異/Mb、20変異/Mb、及び10変異/Mbで二項分布を使用して、観察された変異/Mbの数を1000回模擬実験した。黒色腫TCGAデータをdbGap受託番号phs000452.v1.p1(Berger et al.Nature 2012;485:502-6)から得た。
腫瘍変異負荷
理論に束縛されるものではないが、この実施例において、腫瘍変異負荷を次の通り決定した。腫瘍変異負荷を、調査したゲノムの1メガ塩基当たりの体細胞、コーディング、塩基置換、及びインデル変異の数として測定した。同義変化を含む、標的遺伝子のコード領域内の全ての塩基置換及びインデルを最初に計数し、その後、下記に記載されるようにフィルタリングした。サンプリングの雑音を低減させるために同義変異を計数した。同義変異は、免疫原性の作成に直接関与しない可能性が高いが、それらの存在は、ゲノム内の他の箇所で非同義変異及びネオ抗原ももたらす変異プロセスのシグナルである。非コーディング変化は計数しなかった。試験した遺伝子ががんにおける機能変異を有する遺伝子に偏向しているため、COSMICにおいて既知の体細胞変化及び腫瘍抑制因子遺伝子における切断として列挙される変化は計数しなかった(Bamford et al.Br J Cancer 2004;91:355-8)。体細胞生殖細胞接合(SGZ)アルゴリズムによって生殖細胞であると予測した変化は計数しなかった(Sun et al.Cancer Research 2014;74(19S):1893-1893)。臨床検体のコホートにおいて生殖細胞であると回帰的に予測した変化は計数しなかった。dbSNPにおける既知の生殖細胞変化は計数しなかった。ExACデータベースにおける複数のカウントを伴って起こる生殖細胞変化は計数しなかった(Lek et al.Nature 2016;536:285-91)。1メガ塩基当たりのTMBを計算するために、計数した変異の総数を標的領域のコード領域のサイズで除算した。次に、ノンパラメトリックMann-Whitney U-試験を使用して、2つの集団間における平均値の差異の有意性に関して試験した。
結果
一般利用が可能なTCGA全エクソーム解析データセット(The Cancer Genome Atlas;cancergenome.nih.gov)の最初の分析を行って、標的遺伝子(例えば、図3A~3Bに記載される遺伝子)を使用して測定した変異負荷が全エクソーム変異負荷の正確な評価を提供するか否かを判定した。35の別個の研究/疾患からの7,001個の検体に関する完全変異呼び出しデータをTCGAからダウンロードした。全エクソームデータセットに関して体細胞コーディング変異の数を計数し、図3A~3Bに記載される遺伝子を使用した試験によって、遺伝子において起こるこれらの変異の数を標的化した。これらのデータは、表5(添付A)及び/または図5~6に示される散布図で呈示される。全エクソームからの変異負荷は、0.974の決定係数(R2)のみで、図3A~3Bに記載される遺伝子からの変異負荷と相関する。
さらなる分析は、合計8,917個のがん検体(Cancer Genome Atlas Research Network et al.Nat Genet 2013;45:1113-20)を調査した、The Cancer Genome Atlasの一部として公開されている35の研究からの全クソーム配列決定データを含んだ。変異の総数を決定し、試験によって標的化した315個の遺伝子における変異の数と比較した。これらの結果もまた、高く相関した(R2=0.98)。
これらの結果は、何百という遺伝子の全コード領域を標的とするCGPを使用して(例えば、図3A~3Bに記載される遺伝子を使用した試験によって標的化した遺伝子からのデータのみを使用して)、全エクソーム変異負荷が正確に評価され得ることを示す。
要約すると、この研究は、1.1Mbの包括的ゲノムプロファイリングアッセイを使用して計算した腫瘍変異負荷が変異負荷の全エクソーム尺度と合致することを示す。これは、何百という遺伝子の全コード領域を標的とするCGPが、十分なゲノムスペースをカバーして、全エクソーム変異負荷を正確に評価することを示す。生殖細胞変化及び希少な変異形を除去することを使用してTMBの正確な測定を得ることができ、かつ、これが、配列決定データセットにおいて十分に表されていない人種背景を有する患者において特に有用であり得ることが分かった。これらの発見は、TMBの測定において、CGPが正確で費用効果があり、かつ臨床的に利用可能なツールであることを示す。ダウンサンプリング分析の結果は、1.1Mbを配列決定する場合のサンプリングに起因する測定の変動が、許容可能に低く、TMBレベルの範囲でTMBのかなり正確な呼び出しをもたらすことを示す。このサンプリング変動は、配列決定されたMbの数が減少すると、特に、より低いTMBのレベルで増加する。
実施例2:がん型にわたる変異負荷の景観
この実施例において、≧100,000個のがん検体の多様なコホートにわたってTMBの分布を記載し、100を上回る腫瘍型に関して、体細胞変化とTMBとの間の関連を試験した。患者のサブセットが、多くの希少な腫瘍型を含むほぼ全てのがん疾患の種類にわたって高いTMBを示すことが分かった。TMBは、年齢とともに著しく増加し、10歳と90歳との間では2.4倍の差異を示すことが分かった。約1.1Mbのコードゲノムを標的とするCGPアッセイを使用して、免疫療法から利益を受けるであろう高いTMBを有する相当な数の患者において、多くの疾患の種類があることが分かった。
この研究により、>100,000人の患者の多様な腫瘍型の包括的ゲノムプロファイリング(CGP)からのデータに基づいて、ヒトのがんのスペクトルにわたってTMBの景観がより深く理解される。この実施例に記載される分析は、がんにおける変異負荷を定量化するデータの存在により著しく発展し、多くの前述されていないがん型に関するデータを提供する。新しいデータが提供されて、免疫療法から利益を受け得る患者集団の合理的な拡大を支持し、未試験のがん型における免疫療法剤の臨床試験の情報価値のある設計(informed design)を可能にする。
方法
包括的ゲノムプロファイリング
詳細に前述されているようなCGPを行った(Frampton et al.Nat Biotech 2013;31:1023-1031;He et al.Blood 2016;127:3004-14;FoundationOne assay(Cambridge,MA,USA))。簡潔には、ヘマトキシリン及びエオシン(H&E)染色スライド及び全ての試料を精査することによって各ケースの病理診断を確認し、最小で20%の腫瘍細胞を含有するDNA抽出に進んだ。がん内に共通して再編成された185、236、315、または405個のがん関連遺伝子からのエクソン領域及び19、28、または31個の遺伝子からの選択イントロンのハイブリダイゼーション捕捉を、ホルマリン固定パラフィン包埋臨床がん検体から抽出した≧50ngのDNAに適用した。高く均一の中央カバレッジ(>500x)に対してこれらのライブラリを配列決定し、塩基置換、短い挿入及び欠失、コピー数変化、ならびに遺伝子融合/再編成に関して評価した(Frampton et al.Nat Biotech 2013;31:1023-1031)。アッセイの3つのバージョンの各々からのデータを分析で使用した。
腫瘍変異負荷
理論に束縛されるものではないが、この実施例において、腫瘍変異負荷を実施例1に記載されるように決定した。
コホート選択
102,292個の試料の最初の臨床コホートから、同じ患者からの重複アッセイの結果を除外し、300x未満の中央エクソンカバレッジを有する試料を除外して、92,439個の試料の分析セットを作製した。がん型による分析のためには、それらは、試料レベルフィルタリング後、最小50個の固有の検体を含有する必要があった。
研究室においてプロファイリングした患者のコホートにわたって、TMBの景観を調査した。102,292人のがん患者に対して、日常的な臨床ケアにおいてCGPを行った(この実施例の「方法」の項を参照されたい)。固有の患者コホートは、41,964人の男性及び50,376人の女性患者を含んだ。検体収集時の患者の中央年齢は、60歳であり(範囲:<1歳~>89歳)、及びケースの2.5パーセントは、18歳未満の小児患者からのものであった。この多くのデータは、分析のための541個の別個のがん型を提供した。特に、検体の大半は、著しく事前に治療を受けた、進行性、及び転移性疾患を有する患者からのものであった。全データセットにわたって、中央変異負荷は、3.6変異/Mbであり、0~1,241変異/Mbの範囲であった。これは、全エクソーム研究からの変異負荷の事前推定値と合致する(Alexandrov et al.Nature 2013;500:415-21、Lawrence et al.Nature 2013;499:214-8)。年齢の増加に伴うTMBの著しい増加(p<1x10-16)が見られたが、影響の規模は小さかった(図7)。10歳における中央TMBは、1.67変異/Mbであり、88歳における中央TMBは、4.50変異/Mbであった。データに適合した線形モデルにより、10歳と90歳との間ではTMBにおいて2.4倍の差異が予測され、これは、これらの年齢における中央TMB差異と一致した。女性患者と男性患者との間で中央変異負荷において統計的に有意な差異はなかった(図8A)。
167個の別個のがん型に関してTMBを調査し、50個を超える検体を試験した(図9、表6)。中央TMBは、骨髄異形成症候群の0.8変異/Mbから皮膚扁平上皮細胞癌腫の45.2変異/Mbまで幅広い範囲に及んだ。小児悪性腫瘍(患者年齢が18歳未満)が、成人悪性腫瘍(中央3.6変異/Mb)より低いTMB(中央1.7変異/Mb)を有することが分かった。白血病、リンパ腫、及び神経芽細胞腫などの、小児患者で共通する疾患の種類は、肉腫と同様に低TMBを有した(表6)。
表6. 疾患によるTMB特性の要約
*CI:信頼区間
肺及び皮膚癌などの著しい変異原曝露を有することで既知の疾患は、より高く変異が起きた(それぞれ、7.2変異/Mb及び13.5変異/Mbの中央TMB)。黒色腫、非小細胞肺癌(NSCLC)、及び膀胱を含む免疫療法が現在承認されている疾患適応症は、高いTMBを有した(表6を参照されたい)。高いTMBを有する追加のがん型を識別することは、チェックポイント阻害薬妨害に有利に応答する適応症のリストを拡大する機会であると言える。これらには、皮膚扁平上皮細胞癌腫、肺小細胞未分化癌腫、びまん性大細胞型B細胞リンパ腫、ならびに多くの他のがんの型(図6A~6C)が含まれる。全体的に高いTMBを有する追加のがん型を識別することに加えて、ほぼ全部のがん型にわたって高いTMBを伴うケースが見られた(表6~7を参照されたい)。これにより、ほぼ全部のがんの型において、免疫療法から利益を受け得る高いTMBを有する患者が識別され得る可能性が高まる。例えば、軟組織血管肉腫において、中央変異負荷は3.8変異/Mbであったが、そのケースの13.4%が20変異/Mb超を有した。全体的には、高いTMBを有した患者の10%超において8個の組織に影響を及ぼす20の腫瘍型及び高いTMBを有した患者の5%超において19個の組織に影響を及ぼす38の腫瘍型が識別された(表7を参照されたい)。
表7. 高いTMB(>20変異/Mb)を示す検体を有する5%超の疾患適応症。
要約すると、この研究は、多くの前述されていないがんの型を含む進行性疾患からの100,000個を超える臨床がん検体にわたって腫瘍変異負荷を記載する広範囲にわたるデータを特徴付けし、それらを提供する。これらのデータは、広範な適応症にわたる免疫療法臨床試験の設計を導くために使用され得る。現在、CTLA-4、PD-1、及びPD-L1を標的とする免疫療法は、少数の適応症、黒色腫、膀胱、NSCLC、及び腎細胞癌腫において承認されている。黒色腫及びNSCLCが、最も高い変異負荷指標のうちのいくつかを表すことが観察された。免疫腫瘍治療の開発に関して、良好な標的であり得る高い変異負荷を有するいくつかの新規の疾患の種類が識別された。加えて、多くのがん型にわたって多様なTMBが観察された。これらの療法から利益を受けるであろう相当な数の患者において、多くの疾患の種類があり得ることが分かった。全体的には、患者の10%超が高いTMBを有した8個の組織に影響を及ぼす22の腫瘍型が識別された。
実施例3:肺癌における変異荷重を評価するための包括的ゲノムプロファイリング
肺癌は、特にEGFR、ALK、またはROS1変異が検出され得ず、細胞傷害性療法が成功しない場合、管理課題を呈示する。変異荷重と、新規の免疫療法薬(例えば、PD-1/PD-L1及びCTLA4阻害薬)の効能との関連を研究するために、肺癌を有する患者のための臨床ケアにおいて行ったゲノムプロファイリングによって変異荷重を評価した。
方法
簡潔には、肺癌を有する患者からの40ミクロンのFFPE切片からDNAを抽出した。315個のがん関連遺伝子に関する663×の中央カバレッジ深さ及びがんにおいて頻繁に再編成される28個の遺伝子からのイントロンに対して、ハイブリダイゼーション捕捉アダプターリゲーションに基づくライブラリでCGPを行った。理論に束縛されるものではないが、この実施例において、本明細書に記載されるような既知の体細胞及び機能的変化を、これらがハイブリッド捕捉によって選択されることを考慮して、フィルタリング除去した後の1メガ塩基(Mb)当たりの塩基置換またはインデルの数として、変異荷重を特徴付けた。
FFPE腫瘍試料
試料要件は、次の通りである:表面積:≧25mm2、試料体積:≧1mm3、有核の細胞充実性:≧80%または≧30,000細胞、腫瘍含量:≧20%、分析に不十分な組織を有する患者の画分:10~15%。
配列決定ライブラリ調製
研究室プロセスは、≧50ngのdsDNA(PicoGreenにより定量化)を必要とした。超音波処理(Covaris)によってDNAを断片化し、「ビーズ付き」ライブラリ構築で使用した。ビオチン化DNAオリゴヌクレオチドを用いたハイブリダイゼーションによってDNA断片を捕捉した。>99%のエクソンにおける>100×で、>500×平均固有カバレッジに対して、Illumina HiSeqプラットフォームで49×49対形成末端配列決定を行った。
分析パイプライン
ベイジアンアルゴリズムによって塩基置換を分析した。局所的アセンブリによって短い挿入/欠失を評価した。処理適合正常対照との比較によってコピー数変化を分析した。キメラ読み取りデータ対の分析によって遺伝子融合を調査した。
分析方法は、任意の変異体対立遺伝子頻度で存在する変異形に対する感度を有し、ド・ブラングラフに基づく局所的アセンブリを使用して長い(1~40bp)インデル変異形を検出することができた。分析方法は、コピー数変化(CNA)の評価に関して、読み取りデータ深さの比較ゲノムハイブリダイゼーション(CGH)のような分析も使用した。
臨床報告
報告手法は、適合正常試料なしでの解釈を提供した。1000人ゲノムプロジェクト(dbSNP135)からの生殖細胞変異形を除去した。既知のドライバー変化(COSMIC v62)を生物学的に重要であるとして強調した。各変化に対して、生医学的文献及び現在の臨床試験の簡潔な要約が提供された。
変異荷重分析方法
変異荷重アルゴリズムのゴールは、FoundationOne(登録商標)試験で検出した体細胞変異の数を定量化し、全体的にその値をエクソームまたはゲノムに外挿することである。
FoundationOne試験で検出した全ての短い変異形変化(塩基置換及びインデル)を計数する。サイレント変化を含む全てのコーディング変化を計数する。非コーディング変化は計数しない。(COSMICデータベース;cancer.sanger.ac.uk/cosmicにおいて既知の体細胞変化として起こる)既知の機能状態及び機能的である可能性が高い状態(腫瘍抑制因子遺伝子における切断)を伴う変化は計数しない。dbSNPデータベース(www.ncbi.nlm.nih.gov/SNP)において既知の生殖細胞変化は計数しない。ExACデータベース(exac.broadinstitute.org)における複数のカウントを伴って起こる生殖細胞変化は計数しない。体細胞生殖細胞接合(SGZ)アルゴリズムによって、評価されている検体中で生殖細胞であると予測した変化(例えば、国際出願公開第WO2014/183078号、米国出願公開第2014/0336996号、及びSun et al.Cancer Research 2014;74(19S):1893-1893に記載されているようなもの)は計数しない。SGZアルゴリズムによって、>60,000個の臨床検体のコホートにおいて高い信頼を有する生殖細胞であると予測した変化は計数しない。1メガ塩基当たりの変異荷重を計算するために、計数した変異の総数を試験のコード領域標的領域によって除算し、これは、現在の試験バージョンにおいては1.252メガ塩基である。
結果
合計10,676の肺腺癌腫、1,960の肺扁平上皮細胞癌腫、220の肺大細胞癌腫、及び784の肺小細胞癌腫由来のゲノムプロファイルを評価した。男性:女性の比が0.9:1である肺癌患者の中央年齢は、66歳であった。0~984の範囲として1メガ塩基当たりの平均変異を評価し、25番目、中央値、及び75番目の四分閾値は、2.7、7.2、及び22.5であった。
肺癌患者コホートの臨床的特質は、表8に示される。肺癌の変異荷重特質は、表9に示される。
表8. 肺癌患者コホートの臨床的特質
表9. 肺癌の変異荷重特質
臨床コホートにおける変異荷重分布は、図7A~7Dに示される。肺癌における変異保有率は、図8A~8Eに示される。
要約すると、肺癌を有する患者において高い可変変異荷重が見られた。患者の適合正常検体が利用できない場合、体細胞変異と正常な変異とを計算して正確に区別する能力が不可欠である。肺癌のケースの実質的な画分は、高い変異荷重(1Mb当たり、39%≧10;1Mb当たり、13%≧20)を有し、免疫療法薬の臨床試験のための潜在的な候補である。
実施例4:結腸直腸腺癌腫における変異荷重を評価するための包括的ゲノムプロファイリング
結腸直腸腺癌腫には、特にKRASまたはNRAS遺伝子に変異が起き、細胞傷害性療法が成功しない場合、依然として臨床的課題が残る。腫瘍変異荷重と、免疫チェックポイント阻害薬からの予測した利益との関連を研究するために、日常的な臨床ケアにおいて、ゲノムプロファイリングを使用して、結腸直腸腺癌腫試料における変異負荷と臨床的に関連するゲノムの変化との関係を評価した。
方法
結腸直腸腺癌腫を有する患者からの40ミクロンのFFPE切片からDNAを抽出した。315個のがん関連遺伝子に関する698×の平均カバレッジ深さ及びがんにおいて頻繁に再編成される28個の遺伝子からのイントロンに対して、ハイブリダイゼーション捕捉アダプターリゲーションに基づくライブラリでCGPを行った。理論に束縛されるものではないが、この実施例において、本明細書に記載されるような既知の体細胞及び機能的変化を、これらがハイブリッド捕捉によって選択されることを考慮して、フィルタリング除去した後の1メガ塩基(Mb)当たりの塩基置換またはインデルの数として、変異荷重を特徴付けた。
試料要件、配列決定ライブラリ調製、分析パイプライン、臨床報告、及び変異荷重分析方法は、実施例3に記載されている通りである。
結果
合計6,742の結腸及び1,176の直腸腺癌腫由来のゲノムプロファイルを評価した。男性:女性の比が1.2:1である結腸直腸腺癌腫患者の中央年齢は、57歳であった。0~866の範囲として1メガ塩基当たりの平均変異を評価し、25番目、中央値、及び75番目の四分閾値は、2.7、4.5、及び6.3であった。
結腸直腸腺癌腫の174(2.2%)、191(2.4%)、315(3.9%)、または283(3.6%)ケースにおいて、不一致修復遺伝子MLH1、MSH2、MSH6、またはDNAポリメラーゼ遺伝子POLD1で遺伝子変化が検出され、これらは、それぞれ、30、23、29、または15の中央腫瘍変異荷重に関連した。しかし、このコホートにおいて最も頻繁に変化するゲンス(gens)の上位10個-APC(76%)、TP53(76%)、KRAS(51%)、PIK3CA(18%)、SMAD4(15%)、FBXW7(10%)、SOX9(10%)、MYC(8%)、BRAF(8%)、及びPTEN(8%)は、腫瘍変異荷重における差異に関連していなかった。
結腸直腸腺癌腫患者コホートの臨床的特質は、表10に示される。結腸直腸腺癌腫の変異荷重特質は、表11に記載されている。
表10. 結腸直腸腺癌腫患者コホートの臨床的特質
表11. 結腸直腸腺癌腫の変異荷重特質
臨床コホートにおける変異荷重分布は、図9A~9Bに示される。結腸直腸腺癌腫における変異保有率は、図10A~10Cに示される。
要約すると、臨床ケアにおけるCGPは、結腸直腸腺癌腫における変異荷重を評価するために使用され得る。DNA不一致修復遺伝子における変異は、予想通り、より高い変異負荷に関連した。結腸直腸腺癌腫ケースの実質的な画分は、高い変異荷重(1Mb当たり、9%≧10;1Mb当たり、5%≧20)を有し、免疫療法薬の臨床試験のための潜在的な候補である。CGPを現在行われている見込みのある免疫療法試験及び診療に組み込むには、これらの関係を改善することが必要とされる。
実施例5:24種類のヒト新生物における変異荷重を評価するための包括的ゲノムプロファイリング
腫瘍変異荷重と、免疫チェックポイント阻害薬からの予測した利益との関連を研究するために、日常的な臨床ケアにおいて、ゲノムプロファイリングを使用して、24種類の新生物における変異負荷の分布を評価した。
方法
24種類のうちの1種類の新生物を有する患者からの40ミクロンのFFPE切片からDNAを抽出した。315個のがん関連遺伝子に関する500×超の平均カバレッジ深さ及びがんにおいて頻繁に再編成される28個の遺伝子からのイントロンに対して、ハイブリダイゼーション捕捉アダプターリゲーションに基づくライブラリでCGPを行った。理論に束縛されるものではないが、この実施例において、本明細書に記載されるような既知の体細胞及び機能的変化を、これらがハイブリッド捕捉によって選択されることを考慮して、フィルタリング除去した後の1メガ塩基(Mb)当たりの塩基置換またはインデルの数として、変異荷重を特徴付けた。
試料要件、配列決定ライブラリ調製、分析パイプライン、臨床報告、及び変異荷重分析方法は、実施例3に記載されている通りである。
結果
合計15,508の新生物検体由来のゲノムプロファイルを評価した。男性:女性の比が0.6:1である患者コホートの中央年齢は、60歳であった。0~689の範囲として1メガ塩基当たりの平均変異を評価し、25番目、中央値、及び75番目の四分閾値は、1.8、3.6、及び5.4であった。
患者コホートの臨床的特質は、表12に示される。24種類の新生物の変異荷重特質は、表13に記載されている。24種類の異なる新生物におけるTMB分布は、図11に示される。
表12. がん患者コホートの臨床的特質
表13. 24種類の新生物の変異荷重特質
本明細書に記載される方法及びシステムに関連する追加の実施例は、例えば、国際出願公開第WO2012/092426号の実施例1~17、国際出願公開第WO2016/090273号の実施例16及び17に記載されており、前述の刊行物及び実施例の内容は、参照によってそれらの全体が組み込まれる。
参照による組み込み
本明細書で述べられる全ての刊行物、特許、及び特許出願は、各々の個々の刊行物、特許、または特許出願が参照によって組み込まれることが具体的かつ個別に示されるかのように、参照によってそれらの全体が本明細書に組み込まれる。矛盾する場合は、本明細書におけるいかなる定義をも含む本出願が優先する。
tigr.org のワールドワイドウェブ上でThe Institute for Genomic Research (TIGR)及び/またはncbi.nlm.nih.govのワールドワイドウェブ上でNational Center for Biotechnology Information (NCBI)によって維持されているものなどの公開データベースにおけるエントリーと相関する受託番号を参照する任意のポリヌクレオチド及びポリペプチド配列も参照によってそれらの全体が組み込まれる。
等価物
当業者は、日常的な実験のみを使用して、本明細書に記載される本発明の特定の実施形態に対する多くの等価物を認識、または確認することができるであろう。このような等価物は、次の特許請求の範囲によって包含されることが意図される。