詳細な説明
テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するのに有用な方法が、本明細書中に提供される。いくつかの実施形態において、配列決定プロセスに供されたサンプル核酸および得られた配列リードは、コピー数変異の存在または非存在を判定するためにさらに解析される。いくつかの実施形態において、コピー数変異の存在または非存在は、ゲノムワイド配列決定解析に従って分類される。いくつかの実施形態において、コピー数変異の存在または非存在は、集中的配列決定解析(例えば、所定のゲノムサブ領域に対する配列リードの解析)に従って分類される。集中的配列決定解析は、ある特定のタイプのサンプルにおけるコピー数変異を検出するための精度(例えば、感度)を改善し得る。いくつかの実施形態において、コピー数変異の存在または非存在は、ゲノムワイド配列決定解析および集中的配列決定解析に従って分類される。
いくつかの実施形態において、本明細書中に記載される方法または方法の一部を行うシステム、機器およびコンピュータプログラム製品も提供される。
ゲノムワイド配列解析および/または集中的配列解析を用いたコピー数変異の分類
サブ染色体領域におけるコピー数変異(例えば、微小欠失、微小重複)の存在または非存在を分類するための方法およびプロセスが、本明細書中に提供される。本明細書中で使用されるとき、微小欠失および微小重複は、共通して、500万塩基対より小さい欠失または重複のことを指す。微小欠失および微小重複は、通常、小さすぎて、従来の細胞遺伝学的方法または高解像度核型分析では検出できない。本開示の方法およびシステムを用いることにより、微小欠失と微小重複の両方を正確に検出することができる。
いくつかの実施形態において、コピー数変異の存在または非存在は、配列リードセットに従って分類される。いくつかの実施形態において、配列リードは、テストサンプル中の核酸に対して得られる。いくつかの実施形態において、配列リードは、参照ゲノムにおけるゲノム部分にマッピングされる。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントの存在または非存在を特定することを含む。本明細書中で使用されるとき、コピー数変異セグメントは、コピー数変異を含む染色体におけるセグメントである。いくつかの実施形態において、コピー数変異セグメントは、セグメント化プロセスを含む方法を用いて特定される。セグメント化プロセスを含む方法は、本明細書中に記載される決定分析などの決定分析を含み得る。セグメント化プロセスを含む方法は、ゲノムワイド配列解析方法の一部であり得る。セグメント化プロセスを含む方法は、プローブオリゴヌクレオチドによって捕捉された核酸の配列解析の一部であり得る。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、サブ染色体領域内のサブ領域に対する配列リードの定量値を提供することを含む。例証的な一例として、サブ領域は、図4における灰色破線によって定義される領域である。
いくつかの実施形態において、サブ領域は、所定のゲノム部分セットを含む。サブ領域に対する配列リードの定量値を提供することは、集中的配列解析の一部であり得る。サブ領域に対する配列リードの定量値を提供することは、プローブオリゴヌクレオチドによって捕捉された核酸の集中的配列解析の一部であり得る。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントの存在または非存在に従って提供される。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、サブ染色体領域内のサブ領域に対する配列リードの定量値に従って提供される。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントの存在または非存在に従っておよびサブ染色体領域内のサブ領域に対する配列リードの定量値に従って提供される。
いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、サブ染色体領域内のサブ領域に対する配列リードの定量値を提供することを含み、そのサブ領域は、所定のゲノム部分セットを含む。所定のゲノム部分セットは、複数のサンプル(例えば、訓練セットの中の複数のサンプル)に対する1つまたはそれを超える精度尺度に従って特定され得る。一般に、その複数のサンプルのセット(例えば、訓練セット)の中の各サンプルは、目的のサブ染色体領域にコピー数変異を有すると分類される。その複数のサンプルのセットにおけるサンプルは、コピー数変異を有すると判明している1つ、もしくはそれを超える被験体から得られ得、かつ/またはコピー数変異を有するゲノムDNAを参照サンプルに加えることによって生成され得、かつ/またはインシリコモデリングに従って生成され得る。目的のサブ染色体領域にコピー数変異を有することは、目的のサブ染色体領域内のゲノム座標において特定されたコピー数変異、目的のサブ染色体領域とオーバーラップするゲノム座標において特定されたコピー数変異、目的のサブ染色体領域に隣接するゲノム座標(例えば、目的のサブ染色体領域の約1メガベース以内)において特定されたコピー数変異などを含み得る。複数のサンプルのセットにおけるコピー数変異には、重複、微小重複、欠失および微小欠失が含まれ得る。重複および欠失は、任意のサイズであり得るが、微小重複および微小欠失は、通常、一般に小さすぎて従来の細胞遺伝学的方法または高解像度核型分析では検出できない500万塩基より小さい重複および欠失のことを指す。
複数のサンプルに対する精度尺度は、複数のサンプルに対してコピー数変異の存在または非存在(presence of absence)を判定するための任意の好適な精度尺度を含み得る。精度尺度には、感度、特異性、標準偏差、中央絶対偏差(MAD)、確定性の尺度、信頼の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという確定性または信頼の尺度、不確定性の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという不確定性の尺度、変動係数(CV)、信頼水準、信頼区間(例えば、約95%信頼区間)、標準得点(例えば、z得点)、カイ値、ファイ値、t検定の結果、p値、倍数性値、当てはめられた少数種比率、面積比、中央値レベルなどまたはそれらの組み合わせが含まれ得る。いくつかの実施形態において、精度尺度は、感度を含む。
通常、上記複数のサンプル(例えば、訓練セットの中の複数のサンプル)の各々は、既知のコピー数変異を有するので、コピー数変異を検出する精度を評価できる。いくつかの実施形態において、その複数のサンプルに対してコピー数変異を検出する精度は、最適化され得る。いくつかの実施形態において、その複数のサンプルに対してコピー数変異を検出する精度は、その複数のサンプルに対してコピー数変異の存在を分類するために最適な精度尺度を提供するゲノム部分セットを特定することによって最適化され得る。本明細書中に開示されるとき、用語「最適な精度」とは、所定の(predetermine)しきい値に等しいかまたはそれより高い精度尺度のことを指す。その所定のしきい値は、コピー数変異の存在または非存在を妥当な精度で検出するための最低限の要件と考えられる。当業者は、特定のアッセイに必要な任意の特定の精度尺度について所定のしきい値が何かを容易に決定できる。いくつかの実施形態において、複数のサンプルに対してコピー数変異を検出する精度は、複数のサンプルに対してコピー数変異の存在を分類するための最適な感度を提供するゲノム部分セットを特定することによって最適化され得る。いくつかの実施形態において、最適な精度尺度(例えば、最適な感度)を提供するゲノム部分セットは、所定のゲノム部分セットまたは所定のサブ領域と称される。いくつかの実施形態において、最適な精度尺度(例えば、最適な感度)を提供するゲノム部分セットは、1)目的のサブ染色体領域(例えば、可能性のあるコピー数変異を有するサブ染色体領域)内に複数の候補サブ領域を提供する工程;2)複数のサンプル(例えば、訓練セットの中の)に対する複数の候補サブ領域の各々に対して1つまたはそれを超える精度尺度(例えば、感度値)を提供すること;および3)その1つまたはそれを超える精度尺度に従って、最適な精度(例えば、最適な感度)を提供するサブ領域におけるゲノム部分セットを特定する工程を含むプロセスによって特定される。最適な精度尺度を提供するゲノム部分セットを特定するために提供される複数の候補サブ領域は、通常、互いに異なる1つまたはそれを超えるゲノム座標を有するサブ領域を含む。例えば、候補サブ領域は、それぞれユニークなゲノム座標を5’末端に有し得るか、それぞれユニークなゲノム座標を3’末端に有し得るか、またはユニークなゲノム座標を5’末端と3’末端の両方に有し得る。候補サブ領域は、互いに同じ長さであり得るか、または異なる長さであり得るか、またはその両方の組み合わせであり得る。
いくつかの実施形態において、1つまたはそれを超える精度尺度は、感度尺度を含む。感度は、コピー数変異を有すると特定されたサンプルの数またはパーセンテージとして決定され得、ここで、そのサンプルは、コピー数変異を有する複数のサンプルセットに由来する。いくつかの実施形態において、複数のサンプル(例えば、訓練セットの中の)の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約70%である。例えば、複数のサンプル(例えば、訓練セットの中の)の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または100%であり得る。いくつかの実施形態において、複数のサンプル(例えば、訓練セットの中の)の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約75%である。いくつかの実施形態において、複数のサンプル(例えば、訓練セットの中の)の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約80%である。いくつかの実施形態において、複数のサンプル(例えば、訓練セットの中の)の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約85%である。いくつかの実施形態において、複数のサンプル(例えば、訓練セットの中の)の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約90%である。いくつかの実施形態において、複数のサンプル(例えば、訓練セットの中の)の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約95%である。いくつかの実施形態において、複数のサンプル(例えば、訓練セットの中の)の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約97%である。
いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、サブ領域(例えば、上に記載されたサブ領域)に対する配列リードの定量値を提供することを含む。サブ領域に対する配列リードの定量値は、配列リードカウント(例えば、リードカウントの直和、生のリードカウント、正規化されたリードカウント、フィルタリングされたリードカウント、リード密度、重み付けされたリードカウント、リードカウント比、平均リードカウント、リードカウント平均値、調整されたリードカウントなどおよびそれらの組み合わせ)であり得る。いくつかの実施形態において、サブ領域に対する配列リードの定量値は、正規化プロセスによって生成された、正規化された配列リードの定量値である。正規化プロセスは、GCバイアスおよび/または他のバイアスを正規化する任意の好適な正規化を含み得る。ある特定の正規化プロセスの例が、本明細書中に記載される。いくつかの実施形態において、正規化プロセスは、LOESS正規化を含む。いくつかの実施形態において、正規化プロセスは、主成分正規化を含む。サブ染色体領域におけるコピー数変異の存在または非存在の分類は、参照サンプルセットを基準とした配列リードの定量値の変化に基づき得る。本開示の目的で、参照サンプルセットは、テストサンプル中の検出されるべきコピー数変異を有しないと特定された任意のサンプルであり得る。参照サンプルは、コピー数変異を有しない被験体の、同様の組織タイプおよび/または同様の集団タイプに由来し得る。
いくつかの実施形態において、サブ領域に対する配列リードの定量値は、標準得点である。いくつかの実施形態において、サブ領域に対する配列リードの定量値は、z得点である。z得点は、サブ領域に対するものであるときがあり、サブ領域に含まれる各ゲノム部分に割り当てられるときがある。z得点は、以下:
ZSUB=(SUBscq−SUBmcq)/MAD
に従ってサブ領域に対して生成され得る(ZSUB)。
式中、SUBscqは、サブ領域のテストサンプルカウント定量値であり(例えば、SUBscqは、テストサンプルに対するサブ領域における正規化された全カウントを常染色体の正規化された全カウントで除算した結果であり得る);SUBmcqは、参照サンプルセットに対して生成されたサブ領域に対するカウント定量値の中央値であり;MADは、参照サンプルセットに対するサブ領域のカウント定量値に対して決定された中央絶対偏差である。ある特定の場合において、SUBmcqは、参照サンプルセットに対して生成されたサブ領域に対するカウント定量値の平均値であり;上記方程式の分母は、参照サンプルセットに対するサブ領域のカウント定量値に対して決定された標準偏差である。ある特定の場合において、SUBscqは、テストサンプルに対するサブ領域における全カウントを常染色体の全カウントで除算した結果であり得る。常染色体の全カウントは、本明細書中に記載されるように、正規化され得るか(例えば、GC正規化され得るか)、フィルタリングされ得るか(例えば、リピート領域がフィルタリングされて除外され得、低マッピング性領域がフィルタリングされて除外され得、かつ/または他の領域が本明細書中に記載されるようにフィルタリングされて除外され得るか)、または正規化され、かつフィルタリングされ得る。ある特定の場合において、SUBscqは、サブ領域における全カウント(例えば、正規化された全カウント)をテストサンプルのゲノムサブセットに対する全カウント(例えば、正規化された全カウント)で除算した結果であり得る。ゲノムサブセットとしては、例えば、すべての常染色体、すべての常染色体の一部、ある特定の常染色体、ある特定の常染色体の一部などおよびそれらの組み合わせが挙げられ得る。参照サンプルセットは、コピー数変異を有しないと分類されたサンプルを含み得る。いくつかの実施形態において、参照サンプルは、コピー数変異を有しないと分類されたサンプルからなる。したがって、いくつかの実施形態において、参照サンプルは、試験される各染色体および各染色体領域が正倍数性であるサンプルを含むかまたはそのようなサンプルからなる。参照サンプルは、ヒト被験体由来であり得る。いくつかの実施形態において、参照サンプルは、雌性体被験体由来である。いくつかの実施形態において、参照サンプルは、雄性体被験体由来である。いくつかの実施形態において、参照サンプルは、雄性体被験体および雌性体被験体由来である。参照サンプルは、1つの被験体由来のサンプルを含み得るか、または複数の被験体由来のサンプルを含み得る。参照サンプルは、1つの参照サンプルを含み得るが、複数のサンプルを含むことが多い。例えば、参照サンプルは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100またはそれを超えるサンプルを含み得る。z得点の代わりに、他の定量値を利用してもよく、それらの非限定的な例としては、正規スコア、z値、標準化変数およびt統計量が挙げられる。
いくつかの実施形態において、サブ領域に対するコピー数変異の存在または非存在は、z得点のカットオフに従って分類される。z得点のカットオフは、テストサンプルに対するコピー数変異の存在または非存在を判定するための好ましい感度および/または特異性のレベルに従って決定され得る。いくつかの実施形態において、z得点のカットオフ値は、約2〜約4という絶対値に設定される。例えば、z得点のカットオフ値は、約2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9または4.0という絶対値に設定され得る。いくつかの実施形態において、z得点のカットオフ値は、約3〜約5という絶対値に設定される。例えば、z得点のカットオフ値は、約3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、4.0、4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、4.9または5.0という絶対値に設定され得る。いくつかの実施形態において、z得点のカットオフ値は、約3.9〜約4.0という絶対値に設定される。例えば、z得点のカットオフ値は、約3.90、3.91、3.92、3.93、3.94、3.95、3.96、3.97、3.98、3.99または4.0という絶対値に設定され得る。いくつかの実施形態において、z得点のカットオフ値は、約3.95という絶対値に設定される。あるサブ領域に対する1つまたはそれを超えるz得点の絶対値が、選択されたカットオフ値より大きい場合、テストサンプルに対するコピー数変異の存在または非存在が判定され得る。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類は、サブ領域に対する配列リードの定量値(例えば、z得点)に従って提供される。いくつかの実施形態において、本明細書中に記載される方法を用いて生成されたz得点が、−3未満、−3.2未満または−3.5未満、例えば、−3.95未満である場合、サブ染色体領域における欠失の存在の分類が判定される。いくつかの実施形態において、z得点が、3を超える、3.2を超える、3.5を超える、例えば、3.95を超える場合、サブ染色体領域における重複の存在の分類が行われる。
いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントの存在または非存在を特定することを含む。いくつかの実施形態において、コピー数変異セグメントは、セグメント化プロセスを含む方法を用いて特定される。セグメント化プロセスを含む方法は、本明細書中に記載される決定分析などの決定分析を含み得る。例えば、決定分析は、1つまたはそれを超える結果、結果の評価および一連の決定をもたらす1つまたはそれを超える方法を、それらの結果、評価および/またはそれらの決定の起こり得る帰結に基づいて適用すること、ならびに最終的な決定が行われるプロセスのある重大な局面において終了することを含むときがある。いくつかの実施形態において、決定分析は、決定木である。いくつかの実施形態において、コピー数変異セグメントの存在または非存在は、セグメント化プロセス(segmentation process)またはセグメント化プロセス(segmenting process)を含む決定分析に従って特定される。
いくつかの実施形態において、セグメント(例えば、コピー数変異をまたぐセグメント;コピー数変異セグメント)を特定するために、セグメント化プロセスが適用される。任意の好適なセグメント化プロセスを利用してよく、それらとしては、サーキュラーバイナリーセグメンテーション(CBS)プロセスが挙げられるが、これに限定されない。CBSは一般に、尤度比統計量を用いて、1本の染色体を等しいコピー数の領域に繰り返し分割することによって機能する。CBSは、例えば、Olshenら(2004)Biostatistics 5:557−72;Venkatramanら(2007)Bioinformatics 23:657−63;Laiら(2005)Bioinformatics 21:3763−70;Willenbrockら(2005)Bioinformatics 21:4084−91に記載されている。CBSの代わりにまたはCBSに加えて、他のプロセスを利用することができ、その非限定的な例としては、ウェーブレットセグメンテーション(例えば、Haarウェーブレットセグメンテーション)、フーリエ変換、スライディングウィンドウz得点およびマルコフ鎖モデルが挙げられる。
いくつかの実施形態において、コピー数変異の存在または非存在を分類する方法は、ゲノムワイド解析、すなわち、標的領域、例えば、22q11.2を包含するゲノムウィンドウ内の事象、例えば、微小欠失または微小重複のエッジを見つけるためのサーキュラーバイナリーセグメンテーション(CBS)法に基づく解析を用いる。CBSは、小さな欠失を検出するために有用である。いくつかの実施形態において、コピー数変異の存在または非存在を分類する方法は、集中的な解析、すなわち、標的領域内の既定の領域を使用した解析を用いる。一般に、テストサンプルが、低い胎児比率、例えば、10%未満の胎児比率を含むときは、集中的配列決定解析が、より信頼でき、かつ/またはより高感度である一方で、テストサンプルが、高い胎児比率、例えば、10%超の胎児比率を含むときは、ゲノムワイド配列決定解析が、より高感度であり得るので、好ましい。例証的な実施形態を図2に示す。ある特定の実施形態において、上記方法は、ゲノムワイド解析と集中的配列決定解析の両方を使用し、CBSのエッジ検出能を使用することによって感度が最大化され、この方法によって、小さな欠失の特定、および集中的配列決定解析による低い胎児比率における感度の改善が可能になる。
いくつかの実施形態において、セグメント化プロセスによって特定されたコピー数変異セグメントに対して定量値が生成される。いくつかの実施形態において、セグメント化プロセスは、コピー数変異セグメントに対する定量値を生成する。コピー数変異セグメントに対する定量値は、配列リードの定量値を含み得る。コピー数変異セグメントに対する配列リードの定量値は、配列リードカウント(例えば、リードカウントの直和、生のリードカウント、正規化されたリードカウント、フィルタリングされたリードカウント、リード密度、重み付けされたリードカウント、リードカウント比、平均リードカウント、リードカウント平均値、調整されたリードカウントなどおよびそれらの組み合わせ)であり得る。いくつかの実施形態において、コピー数変異セグメントに対する配列リードの定量値は、正規化プロセスによって生成された、正規化された配列リードの定量値である。正規化プロセスは、GCバイアスおよび/または他のバイアスを正規化する任意の好適な正規化を含み得る。ある特定の正規化プロセスの例が本明細書中に記載される。いくつかの実施形態において、正規化プロセスは、LOESS正規化を含む。いくつかの実施形態において、正規化プロセスは、主成分正規化を含む。
いくつかの実施形態において、コピー数変異セグメントに対する定量値は、標準得点である。いくつかの実施形態において、コピー数変異セグメントに対する定量値は、z得点である。z得点は、セグメントに対するものであるときがあり、セグメントに含まれる各ゲノム部分に割り当てられるときがある。z得点は、以下:
ZSEG=(SEGscq−SEGmcq)/MAD
に従ってコピー数変異セグメントに対して生成され得る(ZSEG)。
式中、SEGscqは、セグメントのテストサンプルカウント定量値であり(例えば、SEGscqは、テストサンプルに対するセグメントにおける正規化された全カウントを常染色体の正規化された全カウントで除算した結果であり得る);SEGmcqは、参照サンプルセットに対して生成されたセグメントに対するカウント定量値の中央値であり;MADは、参照サンプルセットに対するセグメントのカウント定量値に対して決定された中央絶対偏差である。ある特定の場合において、SEGmcqは、参照サンプルセットに対して生成されたセグメントに対するカウント定量値の平均値であり;上記方程式の分母は、参照サンプルセットに対するセグメントのカウント定量値に対して決定された標準偏差である。ある特定の場合において、SEGscqは、テストサンプルに対するサブ領域における全カウントを常染色体の全カウントで除算した結果であり得る。常染色体の全カウントは、本明細書中に記載されるように、正規化され得るか(例えば、GC正規化され得るか)、フィルタリングされ得るか(例えば、リピート領域がフィルタリングされて除外され得、低マッピング性領域がフィルタリングされて除外され得、かつ/または他の領域が本明細書中に記載されるようにフィルタリングされて除外され得るか)、または正規化され、かつフィルタリングされ得る。ある特定の場合において、SEGscqは、テストサンプルに対するサブ領域における全カウント(例えば、正規化された全カウント)をゲノムサブセットに対する全カウント(例えば、正規化された全カウント)で除算した結果であり得る。ゲノムサブセットとしては、例えば、すべての常染色体、すべての常染色体の一部、ある特定の常染色体、ある特定の常染色体の一部などおよびそれらの組み合わせが挙げられ得る。参照サンプルセットは、任意の好適な参照セットであり得、本明細書中に記載される参照サンプルセットを含み得る。
セグメンテーションに基づいてz得点コピー数定量値を生成するのに有用な方法論の非限定的な例(例えば、CBS)は、Zhaoら、Clin.Chem.61:4:608−616(2015);Lefkowitzら、American Journal of Obstetrics & Gynecology 1.e1(2016);および国際特許出願番号PCT/US2014/039389(2014年5月23日に出願され、2014年11月27日にWO2014/190286として公開された)に記載されている。z得点の代わりに、他の正規化されたCNV定量値を利用してもよく、その非限定的な例としては、正規スコア、z値、標準化変数およびt統計量が挙げられる。
いくつかの実施形態において、セグメントに対するコピー数変異の存在または非存在は、z得点のカットオフに従って分類される。z得点のカットオフは、テストサンプルに対してコピー数変異の存在または非存在を判定するための好ましい感度および/または特異性のレベルに従って決定され得る。いくつかの実施形態において、z得点のカットオフ値は、約2〜約4という絶対値に設定される。例えば、z得点のカットオフ値は、約2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9または4.0という絶対値に設定され得る。いくつかの実施形態において、z得点のカットオフ値は、約3〜約5という絶対値に設定される。例えば、z得点のカットオフ値は、約3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、4.0、4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、4.9または5.0という絶対値に設定され得る。いくつかの実施形態において、z得点のカットオフ値は、約3.9〜約4.0という絶対値に設定される。例えば、z得点のカットオフ値は、約3.90、3.91、3.92、3.93、3.94、3.95、3.96、3.97、3.98、3.99または4.0という絶対値に設定され得る。いくつかの実施形態において、z得点のカットオフ値は、約3.95という絶対値に設定される。あるセグメントに対する1つまたはそれを超えるz得点の絶対値が、選択されたカットオフ値より大きい場合、テストサンプルに対するコピー数変異の存在または非存在が判定され得る。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントに対する定量値(例えば、z得点)に従って提供される。
いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントに対する定量値(例えば、z得点)およびサブ領域に対する配列リードの定量値(例えば、z得点)に従って提供される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントに対する定量値(例えば、z得点)またはサブ領域に対する配列リードの定量値(例えば、z得点)に従って提供される。したがって、ある特定の場合では、セグメントとサブ領域の両方に対する定量値(例えば、z得点)に従って分類が提供され、ある特定の場合では、セグメントに対する定量値(例えば、z得点)またはサブ領域に対する定量値(例えば、z得点)のいずれかに従って分類が提供される。
いくつかの実施形態において、セグメントは、第1のゲノム部分セットを含み、サブ領域は、第2のゲノム部分セットを含む。いくつかの実施形態において、第1のゲノム部分セットおよび第2のゲノム部分セットは、同じゲノム部分を含む。いくつかの実施形態において、第1のゲノム部分セットおよび第2のゲノム部分セットは、同じゲノム部分からなる。いくつかの実施形態において、第1のゲノム部分セットおよび第2のゲノム部分セットは、異なるゲノム部分を含む。いくつかの実施形態において、第1のゲノム部分セットおよび第2のゲノム部分セットは、同じであるいくつかのゲノム部分および異なるいくつかのゲノム部分を含む。いくつかの実施形態において、第2のゲノム部分セットは、第1のゲノム部分セットのサブセットである。いくつかの実施形態において、第1のゲノム部分セットは、第2のゲノム部分セットのサブセットである。いくつかの実施形態において、第2のゲノム部分セットは、第1のゲノム部分セットとオーバーラップしている。いくつかの実施形態において、第2のゲノム部分セットは、第1のゲノム部分セットと部分的にオーバーラップしている。いくつかの実施形態において、第2のゲノム部分セットは、第1のゲノム部分セットより少ないゲノム部分を含む。いくつかの実施形態において、第2のゲノム部分セットは、第1のゲノム部分セットより多いゲノム部分を含む。
いくつかの実施形態において、本明細書中の方法は、サブ染色体領域における微小重複の存在または非存在を分類する工程を含む。微小重複は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22番染色体、X染色体およびY染色体から選択される染色体における重複であり得る。いくつかの実施形態において、本明細書中の方法は、サブ染色体領域における微小欠失の存在または非存在を分類する工程を含む。微小欠失は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22番染色体、X染色体およびY染色体から選択される染色体における欠失であり得る。いくつかの実施形態において、微小欠失は、1p36、22q11.2、15q11−13、8q23.2−24.1、11q24.1、4p13.3、17p13.3および7q11.23から選択されるゲノム領域またはゲノム領域の一部における欠失である。いくつかの実施形態において、微小欠失または微小重複は、疾患または症候群と関連する。ある特定の微小欠失および/または微小重複に関連し得る症候群の例としては、1p36症候群、ディジョージ症候群、プラダー・ウィリー症候群、アンジェルマン症候群、ランガー・ギーディオン症候群、ヤコブセン症候群、ウォルフ・ヒルシュホーン症候群、ミラー・ディーカー症候群およびウィリアムズ・ビューレン症候群が挙げられる。ある特定のゲノム領域におけるコピー数変異と症候群との公知の関連および/または可能性のある関連の非限定的なリストを下記の表1に提供する。
いくつかの実施形態において、サブ染色体領域におけるコピー数変異は、そのサイズ(すなわち、長さ)によって特徴づけられる。サブ染色体領域におけるコピー数変異の長さとは、欠失(例えば、微小欠失の場合)または重複(例えば、微小重複の場合)した連続したヌクレオチド塩基数のことを指す。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の長さは、約1メガベースまたはそれ未満である。例えば、サブ染色体領域におけるコピー数変異の長さは、約900キロベース(kb)、800kb、700kb、600kb、500kb、400kb、300kb、200kbまたは100kbであり得る。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の長さは、約1メガベース〜約40メガベースである。例えば、サブ染色体領域におけるコピー数変異の長さは、約1メガベース〜約2メガベース、1メガベース〜約3メガベース、1メガベース〜約4メガベース、1メガベース〜約5メガベース、1メガベース〜約6メガベース、1メガベース〜約7メガベース、1メガベース〜約8メガベース、1メガベース〜約9メガベース、1メガベース〜約10メガベース、1メガベース〜約11メガベース、1メガベース〜約12メガベース、1メガベース〜約13メガベース、1メガベース〜約14メガベース、1メガベース〜約15メガベース、1メガベース〜約16メガベース、1メガベース〜約17メガベース、1メガベース〜約18メガベース、1メガベース〜約19メガベース、1メガベース〜約20メガベース、1メガベース〜約25メガベース、1メガベース〜約30メガベース、1メガベース〜約35メガベースまたは1メガベース〜約40メガベースであり得る。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の長さは、約1メガベース〜約20メガベースである。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の長さは、約1メガベース〜約10メガベースである。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の長さは、約1メガベース〜約7メガベースである。
いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約70%の感度で分類される。例えば、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または100%の感度で分類され得る。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約75%の感度で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約80%の感度で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約85%の感度で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約90%の感度で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約95%の感度で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約97%の感度で分類される。
いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約90%の特異性で分類される。例えば、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%または100%の特異性で分類され得る。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約99%の特異性で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約99.9%の特異性で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、約100%の特異性で分類される。
いくつかの実施形態において、テストサンプル中の核酸は、試験被験体由来である。いくつかの実施形態において、テストサンプル中の核酸は、循環無細胞核酸を含む。いくつかの実施形態において、循環無細胞核酸は、試験被験体の血漿または血清由来である。いくつかの実施形態において、試験被験体は、雄性体である。いくつかの実施形態において、試験被験体は、ヒト雄性体である。いくつかの実施形態において、試験被験体は、雌性体である。いくつかの実施形態において、試験被験体は、ヒト雌性体である。いくつかの実施形態において、試験被験体は、妊婦である。いくつかの実施形態において、テストサンプル中の核酸は、母体核酸および胎児核酸を含む。いくつかの実施形態において、テストサンプル中の胎児核酸の比率は、約25%未満である。例えば、テストサンプル中の胎児核酸の比率は、約24%、23%、22%、21%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%または1%であり得る。いくつかの実施形態において、テストサンプル中の胎児核酸の比率は、約10%未満である。いくつかの実施形態において、テストサンプル中の胎児核酸の比率は、約5%未満である。いくつかの実施形態において、試験被験体は、癌患者であるか、または癌について検査もしくはスクリーニングされている被験体である。いくつかの実施形態において、テストサンプル中の核酸は、患者/宿主の核酸、および腫瘍の核酸または癌細胞由来の核酸を含む。いくつかの実施形態において、テストサンプル中の腫瘍/癌の核酸の比率は、約25%未満である。例えば、テストサンプル中の腫瘍/癌の核酸の比率は、約24%、23%、22%、21%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%または1%であり得る。いくつかの実施形態において、テストサンプル中の腫瘍/癌の核酸の比率は、約10%未満である。いくつかの実施形態において、テストサンプル中の腫瘍/癌の核酸の比率は、約5%未満である。
サンプル
核酸を解析するためのシステム、方法および製品が、本明細書中に提供される。いくつかの実施形態において、核酸フラグメントの混合物中の核酸フラグメントが解析される。核酸フラグメントは、核酸鋳型と称され得、これらの用語は、本明細書中で交換可能に使用され得る。核酸の混合物は、同じまたは異なるヌクレオチド配列、異なるフラグメント長、異なる起源(例えば、ゲノム起源、胎児起源 対 母体起源、細胞または組織の起源、癌起源 対 非癌起源、腫瘍起源 対 非腫瘍起源、サンプル起源、被験体起源など)またはそれらの組み合わせを有する2つまたはそれを超える核酸フラグメント種を含み得る。
本明細書中に記載されるシステム、方法および製品において使用される核酸または核酸混合物は、被験体(例えば、試験被験体)から得られたサンプルから単離されることが多い。被験体は、任意の生命体または非生命体であり得、それらとしては、ヒト、非ヒト動物、植物、細菌、真菌、原生生物(protest)または病原体が挙げられるが、これらに限定されない。任意のヒトまたは非ヒト動物を選択することができ、それらとしては、例えば、哺乳動物、爬虫類、鳥類、両生類、魚類、有蹄動物、反芻動物、牛(例えば、ウシ)、馬(例えば、ウマ)、山羊および羊(例えば、ヒツジ、ヤギ)、豚(例えば、ブタ)、ラクダ科動物(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科動物(例えば、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚類、イルカ、クジラおよびサメが挙げられ得る。被験体は、雄性体または雌性体(例えば、女性、妊婦)であり得る。被験体は、任意の齢であり得る(例えば、胚、胎児、乳児、小児、成体)。被験体は、癌患者、癌を有すると疑われる患者、緩解中の患者、癌の家族歴を有する患者および/または癌検診を受けている被験体であり得る。いくつかの実施形態において、試験被験体は、雌性体である。いくつかの実施形態において、試験被験体は、ヒト雌性体である。いくつかの実施形態において、試験被験体は、雄性体である。いくつかの実施形態において、試験被験体は、ヒト雄性体である。
核酸は、任意のタイプの好適な生物学的検体またはサンプル(例えば、テストサンプル)から単離され得る。サンプルまたはテストサンプルは、被験体またはその一部(例えば、ヒト被験体、妊婦、癌患者、胎児、腫瘍)から単離されたまたは得られた任意の検体であり得る。検体の非限定的な例としては、血液または血液製剤(例えば、血清、血漿など)、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、髄液、洗浄液(例えば、気管支肺胞洗浄液、胃洗浄液、腹膜洗浄液、管洗浄液、耳洗浄液、関節鏡下洗浄液)、生検サンプル(例えば、着床前胚;癌生検材料)、腹腔穿刺(celocentesis)サンプル、細胞(血液細胞、胎盤細胞、胚細胞、または胎児細胞、胎児の有核細胞もしくは胎児の細胞レムナント(cellular remnants)、正常細胞、異常細胞(例えば、癌細胞))またはそれらの一部分(例えば、ミトコンドリア、核、抽出物など)、雌性生殖管の洗液、尿、便、痰、唾液、鼻粘膜、前立腺液、洗浄液、精液、リンパ液、胆汁、涙、汗、母乳、乳汁などまたはそれらの組み合わせを含むがこれらに限定されない、被験体由来の流体または組織が挙げられる。いくつかの実施形態において、生物学的サンプルは、被験体由来の子宮頸部スワブである。核酸が抽出される流体または組織サンプルは、細胞を含まない(例えば、無細胞である)場合がある。いくつかの実施形態において、流体または組織サンプルは、細胞エレメントまたは細胞レムナントを含み得る。いくつかの実施形態において、胎児の細胞または癌細胞が、サンプル中に含まれ得る。
サンプルは、液体サンプルであり得る。液体サンプルは、細胞外核酸(例えば、循環無細胞DNA)を含み得る。液体サンプルの非限定的な例としては、血液または血液製剤(例えば、血清、血漿など)、尿、生検サンプル(例えば、癌を検出するための液体生検材料)、上に記載された液体サンプルなどまたはそれらの組み合わせが挙げられる。ある特定の実施形態において、サンプルは、液体生検材料であり、これは、疾患(例えば、癌)の存在または非存在、進行または緩解についての被験体由来の液体サンプルの評価のことを広く指す。液体生検材料は、固体(sold)生検材料(例えば、腫瘍生検材料)とともに、または固体生検材料の代替物として、使用され得る。ある特定の場合において、細胞外核酸が液体生検材料において解析される。
いくつかの実施形態において、生物学的サンプルは、血液、血漿または血清であり得る。用語「血液」は、従来定義されてきたような、全血、血液製剤、または血液の任意の画分、例えば、血清、血漿、バフィーコートなどを包含する。血液またはその画分は、ヌクレオソームを含むことが多い。ヌクレオソームは、核酸を含み、無細胞であるか、または細胞内のものであるときがある。血液は、バフィーコートも含む。バフィーコートは、フィコール勾配を使用することによって単離されるときがある。バフィーコートは、白血球細胞(例えば、白血球、T細胞、B細胞、血小板など)を含み得る。血漿とは、抗凝固薬で処理された血液の遠心分離から生じる全血の画分のことを指す。血清とは、血液サンプルが凝固した後に残っている流体の水様の部分のことを指す。流体または組織サンプルは、病院またはクリニックが一般に従っている標準的なプロトコルに従って回収されることが多い。血液の場合、適切な量の末梢血(例えば、3〜40ミリリットル、5〜50ミリリットル)を回収することが多く、それは、調製の前または後に、標準的な手順に従って保管され得る。
被験体の血液中に見られる核酸の解析は、例えば、全血、血清または血漿を用いて行われ得る。母体の血液中に見られる胎児DNAの解析は、例えば、全血、血清または血漿を用いて行われ得る。患者の血液中に見られる腫瘍DNAの解析は、例えば、全血、血清または血漿を用いて行われ得る。被験体(例えば、母体被験体;癌患者)から得られた血液から血清または血漿を調製するための方法は知られている。例えば、被験体の血液(例えば、妊婦の血液;癌患者の血液)は、血液凝固を防ぐために、EDTAを含むチューブまたはVacutainer SST(Becton Dickinson,Franklin Lakes,N.J.)などの専用の市販品に入れられ得、次いで、遠心分離によって全血から血漿を得ることができる。血清は、遠心分離後の血液凝固ありまたはなしで得られ得る。遠心分離を用いる場合、その遠心分離は、通常、適切な速度、例えば、1,500〜3,000×gで行われるが、これに限らない。血漿または血清は、さらなる遠心分離工程に供され、その後、核酸抽出に向けて新しいチューブに移され得る。全血の細胞を含まない部分に加えて、被験体由来の全血サンプルの遠心分離および血漿の除去後に得ることができるバフィーコート部分に濃縮された細胞画分からも核酸が回収され得る。
サンプルは、不均一であり得る。例えば、サンプルは、1つより多い細胞型および/または1つもしくはそれを超える核酸種を含み得る。場合によっては、サンプルは、(i)胎児細胞および母体細胞、(ii)癌細胞および非癌細胞、ならびに/または(iii)病原性細胞および宿主細胞を含み得る。場合によっては、サンプルは、(i)癌の核酸および癌ではない核酸、(ii)病原体の核酸および宿主の核酸、(iii)胎児由来の核酸および母体由来の核酸、ならびに/またはより一般的には、(iv)変異型の核酸および野生型の核酸を含み得る。場合によっては、サンプルは、下記にさらに詳細に記載されるような少数核酸種(minority nucleic acid specy)および多数核酸種(majority nucleic acid specy)を含み得る。場合によっては、サンプルは、単一の被験体由来の細胞および/もしくは核酸を含み得るか、または複数の被験体由来の細胞および/もしくは核酸を含み得る。
細胞型
本明細書中で使用されるとき、「細胞型」とは、別のタイプの細胞と区別され得る細胞のタイプのことを指す。細胞外核酸は、いくつかの異なる細胞型由来の核酸を含み得る。核酸を循環無細胞核酸に導き得る細胞型の非限定的な例としては、肝臓細胞(例えば、肝細胞)、肺細胞、脾臓細胞、膵臓細胞、結腸細胞、皮膚細胞、膀胱細胞、眼細胞、脳細胞、食道細胞、頭部の細胞、頸部の細胞、卵巣の細胞、精巣の細胞、前立腺細胞、胎盤細胞、上皮細胞、内皮細胞、脂肪細胞、腎臓/腎細胞、心臓細胞、筋細胞、血液細胞(例えば、白血球)、中枢神経系(CNS)細胞などおよび前述の細胞の組み合わせが挙げられる。いくつかの実施形態において、解析される循環無細胞核酸に核酸を導く細胞型には、白血球、内皮細胞および肝細胞肝臓細胞(hepatocyte liver cells)が挙げられる。本明細書中でさらに詳細に記載されるように、マーカーの状態が、医学的症状を有する被験体における細胞型および医学的症状を有しない被験体における細胞型に対して同じまたは実質的に同じである核酸の遺伝子座を同定するおよび選択する一部として、種々の細胞型がスクリーニングされ得る。
特定の細胞型は、医学的症状を有する被験体および医学的症状を有しない被験体において、同じまたは実質的に同じままであるときがある。非限定的な例において、特定の細胞型の生細胞または生存細胞の数が、ある細胞変性症状において減少し得、生きている生存細胞が、その医学的症状を有する被験体において、改変されないか、または有意に改変されない。
特定の細胞型は、医学的症状の一部として改変されるときがあり、その元の状態とは異なる1つまたはそれを超える特性を有するときがある。非限定的な例において、特定の細胞型は、癌の症状の一部として、正常な速度よりも速い速度で増殖し得、異なる形態を有する細胞に癌化し得、1つもしくはそれを超える異なる細胞表面マーカーを発現する細胞に癌化し得、および/または腫瘍の一部になり得る。特定の細胞型(すなわち、前駆細胞)が医学的症状の一部として改変される実施形態において、アッセイされる1つまたはそれを超えるマーカーの各々に対するマーカーの状態は、その医学的症状を有する被験体におけるその特定の細胞型およびその医学的症状を有しない被験体におけるその特定の細胞型に対して同じまたは実質的に同じであることが多い。したがって、用語「細胞型」は、ある医学的症状を有しない被験体における細胞のタイプ、およびその医学的症状を有する被験体におけるその細胞の改変バージョンに関するときがある。いくつかの実施形態において、「細胞型」は、前駆細胞だけであり、前駆細胞から生じる改変バージョンではない。「細胞型」は、前駆細胞、および前駆細胞から生じる改変された細胞に関するときがある。そのような実施形態において、解析されるマーカーに対するマーカーの状態は、ある医学的症状を有する被験体における細胞型およびその医学的症状を有しない被験体における細胞型に対して同じまたは実質的に同じであることが多い。
ある特定の実施形態において、細胞型は、癌細胞である。ある特定の癌細胞のタイプとしては、例えば、白血病細胞(例えば、急性骨髄性白血病、急性リンパ芽球性白血病、慢性骨髄性白血病、慢性リンパ芽球性白血病);癌性腎臓/腎細胞(例えば、腎細胞癌(明細胞、1型乳頭状、2型乳頭状、嫌色素、膨大細胞、集合管)、腎腺癌、副腎腫、ウィルムス腫瘍、移行上皮癌腫);脳腫瘍細胞(例えば、聴神経腫、星状細胞腫(グレードI:毛様細胞性星状細胞腫、グレードII:低悪性度星状細胞腫、グレードIII:未分化星状細胞腫、グレードIV:神経膠芽腫(GBM))、脊索腫、cnsリンパ腫、頭蓋咽頭腫、神経膠腫(脳幹神経膠腫、上衣腫、混合性神経膠腫、視神経膠腫、上衣下腫)、髄芽腫、髄膜腫、転移性脳腫瘍、乏突起膠腫、下垂体腫瘍、原始神経外胚葉性腫瘍(PNET)、神経鞘腫、若年性毛様細胞性星状細胞腫(JPA)、松果体腫瘍、ラブドイド腫瘍)が挙げられる。
異なる細胞型は、任意の好適な特色によって区別され得、その特色としては、1つまたはそれを超える異なる細胞表面マーカー、1つまたはそれを超える異なる形態学的特徴、1つまたはそれを超える異なる機能、1つまたはそれを超える異なるタンパク質(例えば、ヒストン)修飾および1つまたはそれを超える異なる核酸マーカーが挙げられるが、これらに限定されない。核酸マーカーの非限定的な例としては、単一ヌクレオチド多型(SNP)、核酸遺伝子座のメチル化状態、短タンデム反復、挿入(例えば、微小挿入)、欠失(微小欠失)などおよびそれらの組み合わせが挙げられる。タンパク質(例えば、ヒストン)修飾の非限定的な例としては、アセチル化、メチル化、ユビキチン化、リン酸化、SUMO化などおよびそれらの組み合わせが挙げられる。
本明細書中で使用されるとき、用語「関連する細胞型」とは、別の細胞型と共通の複数の特色を有する細胞型のことを指す。関連する細胞型において、75%またはそれを超える細胞表面マーカーが、その細胞型と共通しているときがある(例えば、細胞表面マーカーの約80%、85%、90%もしくは95%またはそれを超えるものが、関連する細胞型と共通している)。
核酸
核酸を解析するための方法が、本明細書中に提供される。用語「核酸」、「核酸分子」、「核酸フラグメント」および「核酸鋳型」は、本開示全体を通じて交換可能に使用され得る。これらの用語は、例えば、DNA(例えば、相補DNA(cDNA)、ゲノムDNA(gDNA)など)、RNA(例えば、メッセージRNA(mRNA)、低分子阻害RNA(siRNA)、リボソームRNA(rRNA)、tRNA、マイクロRNA、胎児または胎盤によって高度に発現されるRNAなど)、ならびに/またはDNAアナログもしくはRNAアナログ(例えば、塩基アナログ、糖アナログおよび/または非天然の骨格を含むものなど)、RNA/DNAハイブリッドおよびポリアミド核酸(PNA)からの任意の組成の核酸のことを指し、これらのすべてが、一本鎖または二本鎖の形態であり得、別段限定されない限り、天然に存在するヌクレオチドと同様の様式で機能し得る、天然のヌクレオチドの公知のアナログを含み得る。核酸は、ある特定の実施形態において、インビトロまたは宿主細胞、細胞、細胞核もしくは細胞の細胞質において複製することができるかまたは複製されることができる、プラスミド、ファージ、ウイルス、細菌、自律複製配列(ARS)、ミトコンドリア、セントロメア、人工染色体、染色体または他の核酸であり得るか、またはそれらに由来し得る。いくつかの実施形態において、鋳型核酸は、単一の染色体に由来し得る(例えば、核酸サンプルは、二倍体生物から得られたサンプルの1本の染色体に由来し得る)。具体的に限定されない限り、この用語は、参照核酸と同様の結合特性を有し、および天然に存在するヌクレオチドと同様の様式で代謝される、天然のヌクレオチドの公知のアナログを含む核酸を包含する。別段示されない限り、特定の核酸配列は、その保存的に改変されたバリアント(例えば、縮重コドン置換)、対立遺伝子、オルソログ、単一ヌクレオチド多型(SNP)および相補的配列ならびに明示的に示された配列も暗に包含する。具体的には、縮重コドン置換は、1つまたはそれを超える選択された(またはすべての)コドンの3番目の位置が、混合塩基および/またはデオキシイノシン残基で置換された配列を作製することによって達成され得る。核酸という用語は、遺伝子座、遺伝子、cDNA、および遺伝子によってコードされるmRNAと交換可能に使用される。この用語は、ヌクレオチドアナログから合成されたRNAまたはDNAの等価物、誘導体、バリアントおよびアナログとして、一本鎖ポリヌクレオチド(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「順方向」読み枠または「逆方向」読み枠)および二本鎖ポリヌクレオチドも含み得る。用語「遺伝子」は、ポリペプチド鎖の生成に関わるDNAの区域のことを指し;この用語は一般に、遺伝子産物の転写/翻訳および転写/翻訳の制御に関わるコード領域の前および後の領域(リーダーおよびトレーラー(trailer))、ならびに個々のコード領域(エキソン)の間の介在配列(イントロン)を含む。ヌクレオチドまたは塩基とは、一般に、核酸のプリンおよびピリミジン分子単位(例えば、アデニン(A)、チミン(T)、グアニン(G)およびシトシン(C))のことを指す。RNAの場合、塩基チミンが、ウラシルで置き換えられる。核酸の長さまたはサイズは、塩基の数として表現され得る。
核酸は、一本鎖または二本鎖であり得る。例えば、一本鎖DNAは、例えば、加熱またはアルカリによる処理によって、二本鎖DNAを変性することによって作製され得る。ある特定の実施形態において、核酸は、オリゴヌクレオチドまたはDNA様分子、例えば、ペプチド核酸(PNA)による二重鎖DNA分子のストランド侵入によって形成されるDループ構造である。Dループの形成は、当該分野で公知の方法を用いて、例えば、大腸菌RecAタンパク質の添加および/または塩濃度の変更によって促進され得る。
本明細書中に記載されるプロセスのために提供される核酸は、1つのサンプルまたは2つもしくそれを超えるサンプル(例えば、1つもしくはそれを超える、2つもしくはそれを超える、3つもしくはそれを超える、4つもしくはそれを超える、5つもしくはそれを超える、6つもしくはそれを超える、7つもしくはそれを超える、8つもしくはそれを超える、9つもしくはそれを超える、10個もしくはそれを超える、11個もしくはそれを超える、12個もしくはそれを超える、13個もしくはそれを超える、14個もしくはそれを超える、15個もしくはそれを超える、16個もしくはそれを超える、17個もしくはそれを超える、18個もしくはそれを超える、19個もしくはそれを超えるまたは20個もしくはそれを超えるサンプル)由来の核酸を含み得る。
核酸は、当該分野で公知の方法によって、1つまたはそれを超える供給源(例えば、生物学的サンプル、血液、細胞、血清、血漿、バフィーコート、尿、リンパ液、皮膚、土壌など)から得られ得る。生物学的サンプル(例えば、血液または血液製剤)からDNAを単離するため、抽出するためおよび/または精製するために、任意の好適な方法を用いることができ、それらの非限定的な例としては、DNA調製の方法(例えば、Sambrook and Russell,Molecular Cloning:A Laboratory Manual 3d ed.,2001に記載されているもの)、様々な商業的に入手可能な試薬またはキット、例えば、QiagenのQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini KitもしくはQiaAmp DNA Blood Mini Kit(Qiagen,Hilden,Germany)、GenomicPrepTM Blood DNA Isolation Kit(Promega,Madison,Wis.)およびGFXTM Genomic Blood DNA Purification Kit(Amersham,Piscataway,N.J.)などまたはそれらの組み合わせが挙げられる。
いくつかの実施形態において、核酸は、細胞溶解手順を用いて細胞から抽出される。細胞溶解の手順および試薬は、当該分野で公知であり、一般に、化学的溶解方法(例えば、洗浄剤、低張液、酵素的手順などまたはそれらの組み合わせ)、物理的溶解方法(例えば、フレンチプレス、超音波処理など)または電解による溶解方法によって行われ得る。任意の好適な溶解手順を用いることができる。例えば、化学的方法は、一般に、細胞を破壊するために溶解剤を用い、その細胞から核酸を抽出した後、カオトロピック塩で処理する。凍結/融解の後の粉砕、細胞プレスの使用などのような物理的方法も有用である。いくつかの場合において、高塩溶解手順および/またはアルカリ溶解手順が使用され得る。
ある特定の実施形態において、核酸には、細胞外核酸が含まれ得る。用語「細胞外核酸」は、本明細書中で使用されるとき、実質的に細胞を有しない供給源から単離された核酸のことを指し得、「無細胞」核酸、「循環無細胞核酸」(例えば、CCFフラグメント、ccfDNA)および/または「無細胞循環核酸」とも称される。細胞外核酸は、血液(例えば、ヒト被験体の血液)に存在し得、その血液から得ることができる。細胞外核酸は、検出可能な細胞を含まないことが多く、細胞エレメントまたは細胞レムナントを含むことがある。細胞外核酸に対する細胞を含まない供給源の非限定的な例は、血液、血漿、血清および尿である。本明細書中で使用されるとき、用語「無細胞循環サンプル核酸を得る」には、サンプルを直接得ること(例えば、サンプル、例えば、テストサンプルを回収すること)またはサンプルを回収した別の者からサンプルを得ることが含まれる。理論に限定されるものではないが、細胞外核酸は、ある範囲にわたる一連の長さを有することが多い細胞外核酸(例えば、「ラダー」)の基礎をもたらす、細胞のアポトーシスおよび細胞の破壊の産物であり得る。いくつかの実施形態において、試験被験体由来のサンプル核酸は、循環無細胞核酸である。いくつかの実施形態において、循環無細胞核酸は、試験被験体の血漿または血清由来である。
細胞外核酸は、種々の核酸種を含み得るので、ある特定の実施形態において、「不均一」と本明細書中で称される。例えば、癌を有する人の血清または血漿は、癌細胞(例えば、腫瘍、新形成)由来の核酸および非癌細胞由来の核酸を含み得る。別の例では、妊婦由来の血清または血漿は、母体核酸および胎児核酸を含み得る。場合によっては、癌の核酸または胎児の核酸は、核酸全体の約5%〜約50%であるときがある(例えば、全核酸の約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48または49%が癌の核酸または胎児の核酸である)。
少なくとも2つの異なる核酸種が、細胞外核酸として、異なる量で存在し得、それらは、少数種および多数種と称されるときがある。ある特定の場合において、少数種の核酸は、罹患細胞型(例えば、癌細胞、喪失性の(wasting)細胞、免疫系に攻撃された細胞)に由来する。ある特定の実施形態において、遺伝子変異または遺伝子変化(例えば、コピー数変化、コピー数変異、単一ヌクレオチド変化、単一ヌクレオチド変異、染色体変化および/または転座)は、少数種の核酸について判定される。ある特定の実施形態において、遺伝子変異または遺伝子変化は、多数種の核酸について判定される。一般に、用語「少数」または「多数」は、任意の点において厳しく定義されると意図されていない。1つの態様において、「少数」と考えられる核酸は、例えば、サンプル中の全核酸の少なくとも約0.1%〜サンプル中の全核酸の50%未満の存在量を有し得る。いくつかの実施形態において、少数核酸は、サンプル中の全核酸の少なくとも約1%〜サンプル中の全核酸の約40%の存在量を有し得る。いくつかの実施形態において、少数核酸は、サンプル中の全核酸の少なくとも約2%〜サンプル中の全核酸の約30%の存在量を有し得る。いくつかの実施形態において、少数核酸は、サンプル中の全核酸の少なくとも約3%〜サンプル中の全核酸の約25%の存在量を有し得る。例えば、少数核酸は、サンプル中の全核酸の約1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%または30%の存在量を有し得る。場合によっては、少数種の細胞外核酸は、核酸全体の約1%〜約40%であるときがある(例えば、その核酸の約1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%または40%が少数種核酸である)。いくつかの実施形態において、少数核酸は、細胞外DNAである。いくつかの実施形態において、少数核酸は、アポトーシス組織由来の細胞外DNAである。いくつかの実施形態において、少数核酸は、細胞増殖性障害によって影響された組織由来の細胞外DNAである。いくつかの実施形態において、少数核酸は、腫瘍細胞由来の細胞外DNAである。いくつかの実施形態において、少数核酸は、細胞外の胎児DNAである。
別の態様において、「多数」と考えられる核酸は、例えば、サンプル中の全核酸の50%超〜サンプル中の全核酸の約99.9%の存在量を有し得る。いくつかの実施形態において、多数核酸は、サンプル中の全核酸の少なくとも約60%〜サンプル中の全核酸の約99%の存在量を有し得る。いくつかの実施形態において、多数核酸は、サンプル中の全核酸の少なくとも約70%〜サンプル中の全核酸の約98%の存在量を有し得る。いくつかの実施形態において、多数核酸は、サンプル中の全核酸の少なくとも約75%〜サンプル中の全核酸の約97%の存在量を有し得る。例えば、多数核酸は、サンプル中の全核酸の少なくとも約70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%の存在量を有し得る。いくつかの実施形態において、多数核酸は、細胞外DNAである。いくつかの実施形態において、多数核酸は、細胞外の母体DNAである。いくつかの実施形態において、多数核酸は、健常組織由来のDNAである。いくつかの実施形態において、多数核酸は、非腫瘍細胞由来のDNAである。
いくつかの実施形態において、少数種の細胞外核酸は、約500塩基対またはそれ未満の長さである(例えば、少数種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約500塩基対またはそれ未満の長さである)。いくつかの実施形態において、少数種の細胞外核酸は、約300塩基対またはそれ未満の長さである(例えば、少数種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約300塩基対またはそれ未満の長さである)。いくつかの実施形態において、少数種の細胞外核酸は、約250塩基対またはそれ未満の長さである(例えば、少数種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約250塩基対またはそれ未満の長さである)。いくつかの実施形態において、少数種の細胞外核酸は、約200塩基対またはそれ未満の長さである(例えば、少数種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約200塩基対またはそれ未満の長さである)。いくつかの実施形態において、少数種の細胞外核酸は、約150塩基対またはそれ未満の長さである(例えば、少数種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約150塩基対またはそれ未満の長さである)。いくつかの実施形態において、少数種の細胞外核酸は、約100塩基対またはそれ未満の長さである(例えば、少数種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約100塩基対またはそれ未満の長さである)。いくつかの実施形態において、少数種の細胞外核酸は、約50塩基対またはそれ未満の長さである(例えば、少数種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約50塩基対またはそれ未満の長さである)。
核酸は、その核酸を含むサンプルの処理ありまたはなしで、本明細書中に記載される方法を行うために提供され得る。いくつかの実施形態において、核酸は、その核酸を含むサンプルの処理の後に、本明細書中に記載される方法を行うために提供される。例えば、核酸は、サンプルから抽出され得るか、単離され得るか、精製され得るか、部分的に精製され得るか、または増幅され得る。用語「単離された」は、本明細書中で使用されるとき、その元の環境(例えば、それが天然に存在する場合は天然の環境、または外因的に発現される場合は宿主細胞)から取り出された核酸のことを指し、ゆえに、人間の介入によって(例えば、「人間の手によって」)その元の環境から変更されている。用語「単離された核酸」は、本明細書中で使用されるとき、被験体(例えば、ヒト被験体)から取り出された核酸のことを指し得る。単離された核酸は、供給源サンプル中に存在する構成要素の量よりも少ない非核酸構成要素(例えば、タンパク質、脂質)とともに提供され得る。単離された核酸を含む組成物は、非核酸構成要素を約50%から99%超、含まないことがある。単離された核酸を含む組成物は、非核酸構成要素を約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超、含まないことがある。用語「精製された」は、本明細書中で使用されるとき、核酸を精製手順に供する前に存在する非核酸構成要素の量より少ない非核酸構成要素(例えば、タンパク質、脂質、炭水化物)を含む、提供される核酸のことを指し得る。精製された核酸を含む組成物は、他の非核酸構成要素を約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超、含まないことがある。用語「精製された」は、本明細書中で使用されるとき、核酸が由来するサンプル供給源よりも少ない核酸種を含む、提供される核酸のことを指し得る。精製された核酸を含む組成物は、他の核酸種を約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超、含まないことがある。例えば、胎児核酸は、母体核酸および胎児核酸を含む混合物から精製され得る。ある特定の例において、胎児核酸の小さいフラグメント(例えば、30〜500bpフラグメント)が、胎児核酸フラグメントと母体核酸フラグメントの両方を含む混合物から精製され得るか、または部分的に精製され得る。ある特定の例において、胎児核酸のより小さいフラグメントを含むヌクレオソームが、母体核酸のより大きいフラグメントを含むより大きいヌクレオソーム複合体の混合物から精製され得る。ある特定の例において、癌細胞の核酸は、癌細胞の核酸および非癌細胞の核酸を含む混合物から精製され得る。ある特定の例において、癌細胞の核酸の小さいフラグメントを含むヌクレオソームは、非癌核酸のより大きいフラグメントを含むより大きいヌクレオソーム複合体の混合物から精製され得る。いくつかの実施形態において、核酸は、その核酸を含むサンプルの事前の処理なしに、本明細書中に記載される方法を行うために提供される。例えば、核酸は、事前の抽出、精製、部分的な精製および/または増幅を行わずに、サンプルから直接解析され得る。
いくつかの実施形態において、核酸、例えば、細胞の核酸は、本明細書中に記載される方法の前、方法の最中または方法の後に、剪断されるかまたは切断される。用語「剪断」または「切断」とは、核酸分子(例えば、核酸鋳型遺伝子分子またはその増幅産物)が2つの(またはそれを超える)より小さい核酸分子に切り離され得る手順または条件のことを一般に指す。そのような剪断または切断は、配列特異的、塩基特異的または非特異的であり得、例えば、化学的、酵素的、物理的剪断(例えば、物理的断片化)を含む、種々の方法、試薬または条件のいずれかによって達成され得る。剪断されたまたは切断された核酸は、約5〜約10,000塩基対、約100〜約1,000塩基対、約100〜約500塩基対または約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000もしくは9000塩基対という名目上の長さ、平均の長さまたは長さの平均値を有し得る。
剪断されたまたは切断された核酸は、好適な方法によって作製され得、その非限定的な例としては、物理的方法(例えば、剪断、例えば、超音波処理、フレンチプレス、加熱、UV照射など)、酵素的プロセス(例えば、酵素的切断剤(例えば、好適なヌクレアーゼ、好適な制限酵素、好適なメチル化感受性制限酵素))、化学的方法(例えば、アルキル化、DMS、ピペリジン、酸加水分解、塩基加水分解、加熱などまたはそれらの組み合わせ)、米国特許出願公開番号2005/0112590に記載されているプロセスなどまたはそれらの組み合わせが挙げられる。得られる核酸フラグメントの平均の長さ、長さの平均値または名目上の長さは、フラグメントを作製する適切な方法を選択することによって制御され得る。
用語「増幅された」は、本明細書中で使用されるとき、サンプル中の標的核酸を、その標的核酸と同じもしくは実質的に同じヌクレオチド配列を有するアンプリコン核酸またはその一部を直線的または指数関数的に生成するプロセスに供することを指す。ある特定の実施形態において、用語「増幅された」とは、ポリメラーゼ連鎖反応(PCR)を含む方法のことを指す。ある特定の場合において、増幅産物は、核酸鋳型配列の増幅されるヌクレオチド領域より多い1つまたはそれを超えるヌクレオチドを含み得る(例えば、プライマーは、核酸鋳型遺伝子分子に相補的なヌクレオチドに加えて、「余分の」ヌクレオチド、例えば、転写開始配列を含み得、その結果、「余分の」ヌクレオチドまたはその核酸鋳型遺伝子分子の増幅されるヌクレオチド領域に対応しないヌクレオチドを含む増幅産物をもたらす)。
核酸はまた、本明細書中に記載される方法のために核酸を提供する前に、その核酸の中のある特定のヌクレオチドを改変するプロセスに曝露され得る。例えば、核酸の中のヌクレオチドのメチル化状態に基づいてその核酸を選択的に改変するプロセスが、核酸に適用され得る。さらに、高温、紫外線、x線などの条件が、核酸分子の配列の変化を誘導し得る。核酸は、配列解析を行うのに有用な任意の好適な形態で提供され得る。
核酸の濃縮
いくつかの実施形態において、核酸(例えば、細胞外核酸)は、核酸の部分集団または種について濃縮されるかまたは相対的に濃縮される。核酸の部分集団としては、例えば、胎児核酸、母体の核酸、癌の核酸、患者の核酸、特定の長さもしくは長さの範囲のフラグメントを含む核酸、または特定のゲノム領域(例えば、単一の染色体、染色体のセットおよび/またはある特定の染色体領域)に由来する核酸が挙げられ得る。そのような濃縮されたサンプルは、本明細書中に提供される方法とともに使用され得る。したがって、ある特定の実施形態において、本技術の方法は、サンプル中の核酸の部分集団、例えば、癌の核酸または胎児の核酸について濃縮するさらなる工程を含む。ある特定の実施形態において、癌細胞核酸の比率または胎児比率を測定するための方法は、癌の核酸または胎児の核酸を濃縮するためにも使用され得る。ある特定の実施形態において、正常組織(例えば、非癌細胞)由来の核酸が、サンプルから選択的に除去される(部分的に、実質的に、ほぼ完全にまたは完全に)。ある特定の実施形態において、母体核酸が、サンプルから選択的に除去される(部分的に、実質的に、ほぼ完全にまたは完全に)。ある特定の実施形態において、特定の低コピー数種の核酸(例えば、癌の核酸または胎児の核酸)について濃縮することにより、定量的感度が改善され得る。サンプルを特定の核酸種について濃縮するための方法は、例えば、米国特許第6,927,028号、国際特許出願公開番号WO2007/140417、国際特許出願公開番号WO2007/147063、国際特許出願公開番号WO2009/032779、国際特許出願公開番号WO2009/032781、国際特許出願公開番号WO2010/033639、国際特許出願公開番号WO2011/034631、国際特許出願公開番号WO2006/056480および国際特許出願公開番号WO2011/143659に記載されており、本文、表、式および図面のすべてを含むこれらの各々の全内容が、参照により本明細書中に援用される。
いくつかの実施形態において、核酸は、ある特定の標的フラグメント種および/または参照フラグメント種について濃縮される。ある特定の実施形態において、核酸は、下記に記載される、長さに基づく1つまたはそれを超える分離法を用いて、特定の核酸フラグメント長またはフラグメント長の範囲について濃縮される。ある特定の実施形態において、核酸は、本明細書中に記載されるおよび/または当該分野で公知の、配列に基づく1つまたはそれを超える分離法を用いて、選択されたゲノム領域(例えば、染色体)由来のフラグメントについて濃縮される。
サンプル中の核酸部分集団について濃縮するための方法の非限定的な例としては、核酸種間のエピジェネティックな差異を利用する方法(例えば、米国特許出願公開番号2010/0105049(参照により本明細書中に援用される)に記載されているメチル化に基づく胎児核酸の濃縮方法);制限エンドヌクレアーゼによって向上される多型配列アプローチ(例えば、米国特許出願公開番号2009/0317818(参照により本明細書中に援用される)に記載されている方法);選択的酵素分解アプローチ;大規模並列処理シグネチャ配列決定(MPSS)アプローチ;増幅(例えば、PCR)に基づくアプローチ(例えば、遺伝子座特異的増幅方法、マルチプレックスSNP対立遺伝子PCRアプローチ;ユニバーサル増幅方法);プルダウンアプローチ(例えば、ビオチン化ウルトラマー(ultramer)プルダウン法);伸長およびライゲーションに基づく方法(例えば、分子反転プローブ(molecular inversion probe)(MIP)の伸長およびライゲーション);およびそれらの組み合わせが挙げられる。
いくつかの実施形態において、核酸は、本明細書中に記載される、配列に基づく1つまたはそれを超える分離方法を用いて、選択されたゲノム領域(例えば、染色体)由来のフラグメントについて濃縮される。配列に基づく分離は、一般に、目的のフラグメント(例えば、標的フラグメントおよび/または参照フラグメント)に存在し、かつサンプルの他のフラグメントには実質的に存在しないかまたはごくわずかな量の他のフラグメント(例えば、5%またはそれ未満)に存在する、ヌクレオチド配列に基づく。いくつかの実施形態において、配列に基づく分離は、分離された標的フラグメントおよび/または分離された参照フラグメントを生成し得る。分離された標的フラグメントおよび/または分離された参照フラグメントは、その核酸サンプル中の残りのフラグメントから単離されることが多い。ある特定の実施形態において、その分離された標的フラグメントおよび分離された参照フラグメントは、互いからも単離される(例えば、別個のアッセイコンパートメントに単離される)。ある特定の実施形態において、その分離された標的フラグメントおよび分離された参照フラグメントは、共に単離される(例えば、同じアッセイコンパートメントに単離される)。いくつかの実施形態において、未結合のフラグメントは、差次的に除去され得るか、または分解され得るか、または消化され得る。
いくつかの実施形態において、選択的な核酸捕捉プロセスが、標的フラグメントおよび/または参照フラグメントを核酸サンプルから分離するために使用される。商業的に入手可能な核酸捕捉システムとしては、例えば、Nimblegen配列捕捉システム(Roche NimbleGen,Madison,WI);Illumina BEADARRAYプラットフォーム(Illumina,San Diego,CA);Affymetrix GENECHIPプラットフォーム(Affymetrix,Santa Clara,CA);Agilent SureSelect Target Enrichment System(Agilent Technologies,Santa Clara,CA);および関連するプラットフォームが挙げられる。そのような方法は、通常、捕捉オリゴヌクレオチドと、標的フラグメントまたは参照フラグメントのヌクレオチド配列の一部または全部とのハイブリダイゼーションを含み、固相(例えば、固相アレイ)および/または溶液ベースのプラットフォームの使用を含み得る。捕捉オリゴヌクレオチド(「ベイト」と称されるときがある)は、それらが、選択されたゲノム領域または遺伝子座(例えば、21番、18番、13番、XもしくはY染色体のうちの1つまたは参照染色体)由来の核酸フラグメントに優先的にハイブリダイズするように、選択され得るかまたはデザインされ得る。ある特定の実施形態において、ハイブリダイゼーションに基づく方法(例えば、オリゴヌクレオチドアレイを用いる方法)は、ある特定の染色体(例えば、潜在的に異数性の染色体、参照染色体または他の目的の染色体)由来の核酸配列、その目的の遺伝子または領域を濃縮するために使用され得る。したがって、いくつかの実施形態において、核酸サンプルは、例えば、サンプル核酸中の選択された遺伝子に相補的な捕捉オリゴヌクレオチドを用いて、フラグメントのサブセットを捕捉することによって必要に応じて濃縮される。ある特定の場合において、捕捉されたフラグメントは、増幅される。例えば、アダプターを含む捕捉されたフラグメントは、アダプターオリゴヌクレオチドに相補的なプライマーを用いて増幅されて、アダプター配列に従ってインデックス化された増幅フラグメントの集合を形成し得る。いくつかの実施形態において、核酸は、目的の領域またはその一部を含むフラグメントにおける配列に相補的なオリゴヌクレオチド(例えば、PCRプライマー)を用いて1つまたはそれを超える目的の領域を増幅することによって、選択されたゲノム領域(例えば、染色体、遺伝子)からフラグメントについて濃縮される。
いくつかの実施形態において、核酸は、1つまたはそれを超える、長さに基づく分離方法を用いて、特定の核酸フラグメントの長さ、長さの範囲、または特定のしきい値もしくはカットオフを下回るもしくは上回る長さについて濃縮される。核酸フラグメントの長さは、通常、そのフラグメントにおけるヌクレオチドの数のことを指す。核酸フラグメントの長さは、核酸フラグメントのサイズと称されるときもある。いくつかの実施形態において、長さに基づく分離方法は、個々のフラグメントの長さを計測せずに行われる。いくつかの実施形態において、長さに基づく分離方法は、個々のフラグメントの長さを測定するための方法とともに行われる。いくつかの実施形態において、長さに基づく分離とは、分画されたプールの全部または一部が単離され得る(例えば、保持され得る)および/または解析され得るサイズ分画手順のことを指す。サイズ分画手順は、当該分野で公知である(例えば、アレイ上での分離、モレキュラーシーブによる分離、ゲル電気泳動による分離、カラムクロマトグラフィーによる分離(例えば、サイズ排除カラム)およびマイクロフルイディクスベースのアプローチ)。ある特定の場合において、長さに基づく分離アプローチは、例えば、選択的配列タギングアプローチ、フラグメントの環状化、化学的処理(例えば、ホルムアルデヒド、ポリエチレングリコール(PEG)沈殿)、質量分析および/またはサイズ特異的核酸増幅を含み得る。
核酸の定量
サンプル中の核酸の量(例えば、濃度、相対量、絶対量、コピー数など)が、測定され得る。いくつかの実施形態において、核酸における少数核酸の量(例えば、濃度、相対量、絶対量、コピー数など)が、測定される。ある特定の実施形態において、サンプル中の少数核酸種の量は、「少数種比率」と称される。いくつかの実施形態において、「少数種比率」とは、被験体から得られたサンプル(例えば、血液サンプル、血清サンプル、血漿サンプル、尿サンプル)中の循環無細胞核酸における少数核酸種の比率のことを指す。
細胞外核酸における少数核酸の量が、定量され得、本明細書中に提供される方法とともに使用され得る。したがって、ある特定の実施形態において、本明細書中に記載される方法は、少数核酸の量を測定するさらなる工程を含む。サンプル核酸を調製するための処理の前または後に、被験体由来のサンプル中の少数核酸の量が、測定され得る。ある特定の実施形態において、サンプル核酸が処理され、調製された後のサンプル中の少数核酸の量が測定され、その量は、さらなる評価のために使用される。いくつかの実施形態において、アウトカムは、サンプル核酸中の少数種比率を考慮すること(例えば、カウントを調整すること、サンプルを除去すること、コールを生成することまたはコールを生成しないこと)を含む。
少数種比率の測定は、本明細書中に記載される方法における任意の1時点の前、その最中、もしくはその1時点において、または本明細書中に記載されるある特定の方法(例えば、遺伝子変異または遺伝子変化の検出)の後に行われ得る。例えば、ある特定の感度または特異性で遺伝子変異/遺伝子変化の測定方法を実施するために、少数核酸定量方法が、遺伝子変異/遺伝子変化の測定前、測定中または測定後に実行されて、約2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%超またはそれを超える少数核酸を含むそれらのサンプルが特定され得る。いくつかの実施形態において、ある特定のしきい値量の少数核酸(例えば、約15%またはそれを超える少数核酸;約4%またはそれを超える少数核酸)を有すると測定されたサンプルは、例えば、遺伝子変異/遺伝子変化、または遺伝子変異/遺伝子変化の存在または非存在についてさらに解析される。ある特定の実施形態において、例えば、遺伝子変異または遺伝子変化の測定は、ある特定のしきい値量の少数核酸(例えば、約15%またはそれを超える少数核酸;約4%またはそれを超える少数核酸)を有するサンプルに対してのみ選択される(例えば、選択されて、患者に連絡される)。
いくつかの実施形態において、核酸における癌細胞核酸の量(例えば、濃度、相対量、絶対量、コピー数など)が、測定される。ある特定の場合において、サンプル中の癌細胞核酸の量は、「癌細胞核酸の比率」と称され、「癌比率」または「腫瘍比率」と称されるときがある。いくつかの実施形態において、「癌細胞核酸の比率」とは、被験体から得られたサンプル(例えば、血液サンプル、血清サンプル、血漿サンプル、尿サンプル)中の循環無細胞核酸における癌細胞核酸の比率のことを指す。
いくつかの実施形態において、核酸における胎児核酸の量(例えば、濃度、相対量、絶対量、コピー数など)が、測定される。ある特定の実施形態において、サンプル中の胎児核酸の量は、「胎児比率」と称される。いくつかの実施形態において、「胎児比率」とは、妊婦から得られたサンプル(例えば、血液サンプル、血清サンプル、血漿サンプル、尿サンプル)中の循環無細胞核酸における胎児核酸の比率のことを指す。胎児比率を測定するための本明細書中に記載されるかまたは当該分野で公知のある特定の方法は、癌細胞核酸の比率および/または少数種比率を測定するために使用することができる。
ある特定の場合において、胎児比率は、雄性体胎児に特異的なマーカー(例えば、Y染色体STRマーカー(例えば、DYS19、DYS385、DYS392マーカー);RhD陰性雌性体におけるRhDマーカー)、多型配列の対立遺伝子の比に従って、あるいは胎児核酸に特異的であって母体核酸に特異的でない1つもしくはそれを超えるマーカー(例えば、母体と胎児との間の差次的なエピジェネティックバイオマーカー(例えば、メチル化)または母体血漿中の胎児RNAマーカー(例えば、Lo,2005,Journal of Histochemistry and Cytochemistry 53(3):293−296を参照のこと))に従って、測定され得る。胎児比率の測定は、例えば、米国特許出願公開番号2010/0105049(参照により本明細書に援用される)に記載されているような、胎児数量アッセイ(FQA)を用いて行われるときがある。このタイプのアッセイは、母体サンプル中の核酸のメチル化状態に基づいて、そのサンプル中の胎児核酸を検出および定量することを可能にする。
ある特定の実施形態において、少数種比率は、多型配列(例えば、単一ヌクレオチド多型(SNP))の対立遺伝子の比に基づいて、例えば、米国特許出願公開番号2011/0224087(参照により本明細書に援用される)に記載されている方法を用いて、測定され得る。胎児比率を測定するためのそのような方法において、例えば、母体サンプルに対するヌクレオチド配列リードを得て、参照ゲノム中の情報価値のある多型部位(例えば、SNP)における、第1の対立遺伝子にマップするヌクレオチド配列リードの総数と第2の対立遺伝子にマップするヌクレオチド配列リードの総数とを比較することによって、胎児比率を測定する。
少数種比率は、いくつかの実施形態において、例えば、国際特許出願公開番号WO2014/055774(参照により本明細書中に援用される)に記載されているような染色体異常から得られる情報を組み込む方法を用いて測定され得る。少数種比率は、いくつかの実施形態において、例えば、米国特許出願公開番号2013/0288244および米国特許出願公開番号2013/0338933(その各々が参照により本明細書中に援用される)に記載されているような性染色体から得られる情報を組み込む方法を用いて測定され得る。
少数種比率は、いくつかの実施形態において、フラグメントの長さの情報を組み込む方法(例えば、国際特許出願公開番号2013/177086(参照により本明細書中に援用される)に記載されているような、フラグメント長さ比(FLR)の解析、胎児比統計量(FRS)の解析)を用いて測定され得る。無細胞胎児核酸フラグメントは、通常、母体由来の核酸フラグメントよりも短い(例えば、Chanら(2004)Clin.Chem.50:88−92;Loら(2010)Sci.Transl.Med.2:61ra91を参照のこと)。したがって、胎児比率は、いくつかの実施形態において、特定の長さのしきい値を下回るフラグメントをカウントし、その数を、例えば、特定の長さのしきい値を上回るフラグメントの数および/またはサンプル中の全核酸の量と比較することによって測定され得る。特定の長さの核酸フラグメントをカウントするための方法は、国際特許出願公開番号WO2013/177086にさらに詳細に記載されている。
少数種比率は、いくつかの実施形態において、部分特異的な比率推定に従って(例えば、国際特許出願公開番号WO2014/205401(参照により本明細書中に援用される)に記載されているように)測定され得る。理論に拘束されるものではないが、胎児CCFフラグメント(例えば、特定の長さまたは長さ範囲のフラグメント)からのリードの量は、変動する頻度で部分に(例えば、同じサンプル内、例えば、同じ配列決定ラン内で)マップすることが多い。また、理論に拘束されるものではないが、ある特定の部分は、複数のサンプル間で比較するとき、胎児CCFフラグメント(例えば、特定の長さまたは長さ範囲のフラグメント)からのリードの同様の提示を有する傾向があり、その提示は、部分特異的な胎児比率(例えば、胎児を起源とするCCFフラグメントの相対量、パーセンテージまたは比)と相関する。部分特異的胎児比率推定値は、通常、部分特異的パラメータおよびそれらの胎児比率との関係に従って測定される。
いくつかの実施形態において、少数種比率(例えば、癌細胞核酸の比率;胎児比率)の測定は、遺伝子変異または遺伝子変化の存在または非存在の特定に必要とされないか、または必要でない。いくつかの実施形態において、遺伝子変異または遺伝子変化の存在または非存在の特定は、多数核酸の配列と少数核酸の配列との識別を必要としない。ある特定の実施形態において、これは、特定の染色体、染色体部分またはその一部における少数配列と多数配列の両方の寄与の合計が解析されるからである。いくつかの実施形態において、遺伝子変異または遺伝子変化の存在または非存在の特定は、少数核酸を多数核酸と区別し得る推測的な配列情報に頼らない。
核酸ライブラリー
いくつかの実施形態において、核酸ライブラリーは、特定のプロセスのために調製され、アセンブルされ、および/または改変された、複数のポリヌクレオチド分子(例えば、核酸のサンプル)であり、そのプロセスの非限定的な例としては、固相(例えば、固体支持体、フローセル、ビーズ)への固定化、濃縮、増幅、クローニング、検出および/または核酸配列決定が挙げられる。ある特定の実施形態において、核酸ライブラリーは、配列決定プロセスの前または最中に調製される。核酸ライブラリー(例えば、配列決定ライブラリー)は、当該分野で公知であるような好適な方法によって調製され得る。核酸ライブラリーは、標的化されたまたは標的化されない調製プロセスによって調製され得る。
いくつかの実施形態において、核酸のライブラリーは、核酸を固体支持体に固定化するように構成された化学的部分(例えば、官能基)を含むように改変される。いくつかの実施形態において、核酸のライブラリーは、そのライブラリーを固体支持体に固定化するように構成された、生体分子(例えば、官能基)および/または結合対のメンバーを含むように改変され、それらの非限定的な例としては、チロキシン結合グロブリン、ステロイド結合タンパク質、抗体、抗原、ハプテン、酵素、レクチン、核酸、リプレッサー、プロテインA、プロテインG、アビジン、ストレプトアビジン、ビオチン、補体成分C1q、核酸結合タンパク質、レセプター、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、相補的な核酸配列などおよびそれらの組み合わせが挙げられる。特異的結合対のいくつかの例としては、アビジン部分とビオチン部分;抗原性エピトープと抗体またはその免疫学的に反応性のフラグメント;抗体とハプテン;ジゴキシゲニン(digoxigen)部分と抗ジゴキシゲニン抗体;フルオレセイン部分と抗フルオレセイン抗体;オペレーターとリプレッサー;ヌクレアーゼとヌクレオチド;レクチンと多糖;ステロイドとステロイド結合タンパク質;活性な化合物と活性な化合物のレセプター;ホルモンとホルモンレセプター;酵素と基質;免疫グロブリンとプロテインA;オリゴヌクレオチドまたはポリヌクレオチドとその対応する相補鎖;などまたはそれらの組み合わせが挙げられるが、これらに限定されない。
いくつかの実施形態において、核酸のライブラリーは、既知の組成の1つまたはそれを超えるポリヌクレオチドを含むように改変され、その非限定的な例としては、識別子(例えば、タグ、インデックスタグ)、捕捉配列、標識、アダプター、制限酵素部位、プロモーター、エンハンサー、複製起点、ステムループ、相補的な(complimentary)配列(例えば、プライマー結合部位、アニーリング部位)、好適なインテグレーション部位(例えば、トランスポゾン、ウイルスインテグレーション部位)、修飾ヌクレオチドなどまたはそれらの組み合わせが挙げられる。既知の配列のポリヌクレオチドは、好適な位置に、例えば、5’末端、3’末端または核酸配列内に付加され得る。既知の配列のポリヌクレオチドは、同じまたは異なる配列であり得る。いくつかの実施形態において、既知の配列のポリヌクレオチドは、表面(例えば、フローセル内の表面)上に固定化された1つまたはそれを超えるオリゴヌクレオチドにハイブリダイズするように構成される。例えば、既知の5’配列を含む核酸分子は、第1の複数のオリゴヌクレオチドにハイブリダイズし得るのに対して、既知の3’配列は、第2の複数のオリゴヌクレオチドにハイブリダイズし得る。いくつかの実施形態において、核酸のライブラリーは、染色体特異的タグ、捕捉配列、標識および/またはアダプターを含み得る。いくつかの実施形態において、核酸のライブラリーは、1つまたはそれを超える検出可能な標識を含む。いくつかの実施形態において、1つまたはそれを超える検出可能な標識は、5’末端、3’末端および/またはライブラリー中の核酸内の任意のヌクレオチド位置において、核酸ライブラリーに組み込まれ得る。いくつかの実施形態において、核酸のライブラリーは、ハイブリダイズされたオリゴヌクレオチドを含む。ある特定の実施形態において、ハイブリダイズされたオリゴヌクレオチドは、標識されたプローブである。いくつかの実施形態において、核酸のライブラリーは、固相上への固定化の前のハイブリダイズされたオリゴヌクレオチドプローブを含む。
いくつかの実施形態において、既知の配列のポリヌクレオチドは、ユニバーサル配列を含む。ユニバーサル配列は、2つもしくはそれを超える核酸分子または核酸分子の2つもしくはそれを超えるサブセットにインテグレートされた特定のヌクレオチド酸配列であり、ここで、そのユニバーサル配列は、それがインテグレートされたすべての分子または分子のサブセットに対して同じである。ユニバーサル配列は、複数の異なる配列にハイブリダイズするように、および/またはユニバーサル配列に相補的な単一のユニバーサルプライマーを用いて複数の異なる配列を増幅するようにデザインされることが多い。いくつかの実施形態において、2つ(例えば、1対)またはそれを超えるユニバーサル配列および/またはユニバーサルプライマーが使用される。ユニバーサルプライマーは、ユニバーサル配列を含むことが多い。いくつかの実施形態において、アダプター(例えば、ユニバーサルアダプター)は、ユニバーサル配列を含む。いくつかの実施形態において、1つまたはそれを超えるユニバーサル配列は、複数の核酸種または核酸サブセットを捕捉するため、同定するため、および/または検出するために使用される。
核酸ライブラリーを調製するある特定の実施形態において(例えば、合成手順によるある特定の配列決定において)、核酸は、サイズ選択されるおよび/または数百塩基対またはそれ未満の長さに断片化される(例えば、ライブラリー作製のための調製において)。いくつかの実施形態において、ライブラリーの調製は、断片化なしに行われる(例えば、無細胞DNAを使用するとき)。
ある特定の実施形態において、ライゲーションに基づくライブラリー調製方法が使用される(例えば、ILLUMINA TRUSEQ,Illumina,San Diego CA)。ライゲーションに基づくライブラリー調製方法は、最初のライゲーション工程においてインデックス配列(例えば、核酸配列に対するサンプルの起源を特定するサンプルインデックス配列)を組み込み得るアダプター(例えば、メチル化されたアダプター)デザインを利用することが多く、単一リードの配列決定、ペアエンド配列決定および多重化された配列決定に向けてサンプルを調製するために使用され得ることが多い。例えば、核酸(例えば、断片化された核酸または無細胞DNA)は、フィルイン(fill−in)反応、エキソヌクレアーゼ反応またはそれらの組み合わせによって末端が修復され得る。いくつかの実施形態において、得られた平滑末端修復核酸は、次いで、アダプター/プライマーの3’末端における単一ヌクレオチドのオーバーハングに相補的な単一ヌクレオチドだけ伸長され得る。任意のヌクレオチドが、伸長/オーバーハングヌクレオチドのために使用され得る。
いくつかの実施形態において、核酸ライブラリーの調製は、アダプターオリゴヌクレオチドを(例えば、サンプル核酸、サンプル核酸フラグメント、鋳型核酸に)ライゲートすることを含む。アダプターオリゴヌクレオチドは、フローセルアンカーに相補的であることが多く、核酸ライブラリーを固体支持体(例えば、フローセルの内側表面)に固定化するために使用されるときがある。いくつかの実施形態において、アダプターオリゴヌクレオチドは、識別子、1つもしくはそれを超える配列決定プライマーハイブリダイゼーション部位(例えば、ユニバーサル配列決定プライマー、シングルエンド配列決定プライマー、ペアエンド配列決定プライマー、多重化された配列決定プライマーなどに相補的な配列)またはそれらの組み合わせ(例えば、アダプター/配列決定、アダプター/識別子、アダプター/識別子/配列決定)を含む。いくつかの実施形態において、アダプターオリゴヌクレオチドは、プライマーアニーリングポリヌクレオチド(例えば、フローセルに付着したオリゴヌクレオチドおよび/または遊離している増幅プライマーにアニーリングするためのもの)、インデックスポリヌクレオチド(例えば、種々のサンプル由来の核酸を追跡するためのサンプルインデックス配列;サンプルIDとも称される)、およびバーコードポリヌクレオチド(例えば、配列決定前に増幅された個々のサンプル核酸分子を追跡するための単一分子バーコード(SMB);分子バーコードとも称される)のうちの1つまたはそれを超えるものを含む。いくつかの実施形態において、アダプターオリゴヌクレオチドのプライマーアニーリング構成要素は、1つまたはそれを超えるユニバーサル配列(例えば、1つまたはそれを超えるユニバーサル増幅プライマーに相補的な配列)を含む。いくつかの実施形態において、インデックスポリヌクレオチド(例えば、サンプルインデックス;サンプルID)は、アダプターオリゴヌクレオチドの構成要素である。いくつかの実施形態において、インデックスポリヌクレオチド(例えば、サンプルインデックス;サンプルID)は、ユニバーサル増幅プライマー配列の構成要素である。
いくつかの実施形態において、アダプターオリゴヌクレオチドは、増幅プライマー(例えば、ユニバーサル増幅プライマー)と組み合わせて使用されるとき、ユニバーサル配列、分子バーコード、サンプルID配列、スペーサー配列およびサンプル核酸配列のうちの1つまたはそれを超えるものを含むライブラリー構築物を生成するようにデザインされる。いくつかの実施形態において、アダプターオリゴヌクレオチドは、ユニバーサル増幅プライマーと組み合わせて使用されるとき、ユニバーサル配列、分子バーコード、サンプルID配列、スペーサー配列およびサンプル核酸配列のうちの1つまたはそれを超えるものの順序づけられた組み合わせを含むライブラリー構築物を生成するようにデザインされる。例えば、ライブラリー構築物は、第1のユニバーサル配列、それに続いて、第2のユニバーサル配列、それに続いて、第1の分子バーコード、それに続いて、スペーサー配列、それに続いて、鋳型配列(例えば、サンプル核酸配列)、それに続いて、スペーサー配列、それに続いて、第2の分子バーコード、それに続いて、第3のユニバーサル配列、それに続いて、サンプルID、それに続いて、第4のユニバーサル配列を含み得る。いくつかの実施形態において、アダプターオリゴヌクレオチドは、増幅プライマー(例えば、ユニバーサル増幅プライマー)と組み合わせて使用されるとき、鋳型分子(例えば、サンプル核酸分子)の各鎖に対するライブラリー構築物を生成するようにデザインされる。いくつかの実施形態において、アダプターオリゴヌクレオチドは、二重鎖アダプターオリゴヌクレオチドである。
識別子は、その識別子を含む核酸の検出および/または識別を可能にする核酸(例えば、ポリヌクレオチド)内に組み込まれるかまたはその核酸に付着される好適な検出可能な標識であり得る。いくつかの実施形態において、識別子は、配列決定方法(例えば、ポリメラーゼによるもの)の間に、核酸内に組み込まれるかまたは核酸に付着される。識別子の非限定的な例としては、核酸タグ、核酸インデックスまたはバーコード、放射標識(例えば、同位体)、金属標識、蛍光標識、化学発光標識、リン光性標識、フルオロフォアクエンチャー、色素、タンパク質(例えば、酵素、抗体またはその一部、リンカー、結合対のメンバー)などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、識別子(例えば、核酸インデックスまたはバーコード)は、ヌクレオチドまたはヌクレオチドアナログのユニークな配列、既知の配列および/または識別可能な配列である。いくつかの実施形態において、識別子は、6つまたはそれを超えて連続したヌクレオチドである。種々の異なる励起スペクトルおよび発光スペクトルを有する多数のフルオロフォアが利用可能である。任意の好適なタイプおよび/または数のフルオロフォアが、識別子として使用され得る。いくつかの実施形態において、1つもしくはそれを超える、2つもしくはそれを超える、3つもしくはそれを超える、4つもしくはそれを超える、5つもしくはそれを超える、6つもしくはそれを超える、7つもしくはそれを超える、8つもしくはそれを超える、9つもしくはそれを超える、10個もしくはそれを超える、20個もしくはそれを超える、30個もしくはそれを超えるまたは50個もしくはそれを超える異なる識別子が、本明細書中に記載される方法(例えば、核酸検出方法および/または配列決定方法)において使用される。いくつかの実施形態において、1つまたは2つのタイプの識別子(例えば、蛍光標識)が、ライブラリー内の各核酸に連結される。識別子の検出および/または定量は、好適な方法、装置または機器によって行われ得、それらの非限定的な例としては、フローサイトメトリー、定量的ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、ルミノメーター、蛍光光度計、分光光度計、好適な遺伝子チップまたはマイクロアレイ解析、ウエスタンブロット、質量分析、クロマトグラフィー、細胞蛍光分析、蛍光顕微鏡法、好適な蛍光またはデジタルイメージング法、共焦点レーザー走査顕微鏡法、レーザー走査型サイトメトリー、アフィニティークロマトグラフィー、手作業のバッチモード分離、電界懸架、好適な核酸配列決定法および/または核酸配列決定装置などおよびそれらの組み合わせが挙げられる。
いくつかの実施形態において、トランスポゾンに基づくライブラリー調製方法が使用される(例えば、EPICENTRE NEXTERA,Epicentre,Madison WI)。トランスポゾンに基づく方法は、通常、単一チューブ反応(プラットフォーム特異的タグおよび随意のバーコードの組み込みを可能にすることが多い)においてDNAを同時に断片化し、タグ化するためにインビトロでの転位を使用し、シークエンサー対応型ライブラリーを調製する。
いくつかの実施形態において、核酸ライブラリーまたはその一部は、増幅される(例えば、PCRに基づく方法によって増幅される)。いくつかの実施形態において、配列決定法は、核酸ライブラリーの増幅を含む。核酸ライブラリーは、固体支持体(例えば、フローセル内の固体支持体)上への固定化の前または後に増幅され得る。核酸増幅は、1コピーまたはそれを超えるコピー数の鋳型および/またはその相補鎖を生成することによって、存在する(例えば、核酸ライブラリー中に存在する)核酸鋳型および/またはその相補鎖を増幅するかまたはその数を増加させるプロセスを含む。増幅は、好適な方法によって行われ得る。核酸ライブラリーは、サーモサイクリング法または等温増幅法によって増幅され得る。いくつかの実施形態において、ローリングサークル増幅法が使用される。いくつかの実施形態において、増幅は、核酸ライブラリーまたはその一部が固定化された固体支持体上(例えば、フローセル内)で行われる。ある特定の配列決定法において、核酸ライブラリーが、フローセルに加えられ、好適な条件下におけるアンカーへのハイブリダイゼーションによって固定化される。このタイプの核酸増幅は、固相増幅と称されることが多い。固相増幅のいくつかの実施形態において、増幅産物の全部または一部が、固定化されたプライマーから開始する伸長によって合成される。固相増幅反応は、増幅オリゴヌクレオチド(例えば、プライマー)の少なくとも1つが、固体支持体上に固定化されていることを除いては、標準的な溶相増幅と類似している。いくつかの実施形態において、修飾された核酸(例えば、アダプターの付加によって修飾された核酸)が、増幅される。
いくつかの実施形態において、固相増幅は、表面に固定化されたただ1種のオリゴヌクレオチドプライマーを含む核酸増幅反応を含む。ある特定の実施形態において、固相増幅は、複数の異なる固定化されたオリゴヌクレオチドプライマー種を含む。いくつかの実施形態において、固相増幅は、固体表面上に固定化された1つの種のオリゴヌクレオチドプライマーおよび溶液中の第2の異なるオリゴヌクレオチドプライマー種を含む核酸増幅反応を含み得る。複数の異なる種の固定化されたプライマーまたは溶液ベースのプライマーが、使用され得る。固相核酸増幅反応の非限定的な例としては、界面増幅、ブリッジ増幅、エマルジョンPCR、WildFire増幅(例えば、米国特許出願公開番号2013/0012399)などまたはそれらの組み合わせが挙げられる。
核酸の捕捉
いくつかの実施形態において、サンプル核酸(またはサンプル核酸ライブラリー)は、標的捕捉プロセスに供される。一般に、標的捕捉プロセスは、ハイブリダイゼーション条件下においてサンプル核酸(またはサンプル核酸ライブラリー)をプローブオリゴヌクレオチドのセットと接触させることによって行われる。プローブオリゴヌクレオチド(例えば、捕捉オリゴヌクレオチド)のセットは、一般に、サンプル核酸中の配列に相補的または実質的に相補的な配列を有する複数のプローブオリゴヌクレオチドを含む。複数のプローブオリゴヌクレオチドは、約10個のプローブオリゴヌクレオチド種、約50個のプローブオリゴヌクレオチド種、約100個のプローブオリゴヌクレオチド種、約500個のプローブオリゴヌクレオチド種、約1,000個のプローブオリゴヌクレオチド種、2,000個のプローブオリゴヌクレオチド種、3,000個のプローブオリゴヌクレオチド種、4,000個のプローブオリゴヌクレオチド種、5000個のプローブオリゴヌクレオチド種、10,000個のプローブオリゴヌクレオチド種またはそれを超えるプローブオリゴヌクレオチド種を含み得る。通常、第1のプローブオリゴヌクレオチド種は、第2のプローブオリゴヌクレオチド種と異なるヌクレオチド配列を有し、あるセットにおける異なる種のプローブオリゴヌクレオチドはそれぞれ、異なるヌクレオチド配列を有する。
プローブオリゴヌクレオチドは、代表的には、目的の核酸フラグメント(例えば、標的フラグメント)またはその一部にハイブリダイズするかまたはアニーリングすることができるヌクレオチド配列を含む。プローブオリゴヌクレオチドは、天然に存在するものまたは合成のものであり得、DNAまたはRNAに基づくものであり得る。プローブオリゴヌクレオチドは、例えば、核酸サンプル中の他のフラグメントから標的フラグメントを特異的に分離することが可能であり得る。用語「特異的」または「特異性」は、本明細書中で使用されるとき、1つの分子と別の分子(例えば、標的ポリヌクレオチドに対するオリゴヌクレオチド)との結合またはハイブリダイゼーションのことを指す。「特異的」または「特異性」とは、2つの分子のどちらかの他の分子による認識、他の分子との接触または複合体形成が実質的に低いことと比べて、それらの2つの分子間の認識、接触および安定な複合体の形成のことを指す。本明細書中で使用されるとき、用語「アニールする」および「ハイブリダイズする」とは、2つの分子間の安定な複合体の形成のことを指す。用語「プローブ」、「プローブオリゴヌクレオチド」、「捕捉プローブ」、「捕捉オリゴヌクレオチド」、「捕捉オリゴ」、「オリゴ」または「オリゴヌクレオチド」は、プローブオリゴヌクレオチドについて言及するときに、本文書全体にわたって交換可能に使用され得る。
プローブオリゴヌクレオチドは、好適なプロセスを用いてデザインすることおよび合成することができ、目的のヌクレオチド配列にハイブリダイズするためならびに本明細書中に記載される分離および/または解析プロセスを行うために適した任意の長さであり得る。オリゴヌクレオチドは、目的のヌクレオチド配列(例えば、標的フラグメント配列、ゲノム配列、遺伝子配列)に基づいてデザインされ得る。いくつかの実施形態において、オリゴヌクレオチド(例えば、プローブオリゴヌクレオチド)は、約10〜約300ヌクレオチド、約50〜約200ヌクレオチド、約75〜約150ヌクレオチド、約110〜約130ヌクレオチド、または約111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128もしくは129ヌクレオチド長であり得る。オリゴヌクレオチドは、天然に存在するおよび/もしくは天然に存在しないヌクレオチド(例えば、標識されたヌクレオチド)またはそれらの混合物から構成され得る。本明細書中に記載される実施形態における使用に適したオリゴヌクレオチドは、公知の手法を用いて合成され、標識され得る。オリゴヌクレオチドは、Beaucage and Caruthers(1981)Tetrahedron Letts.22:1859−1862によって初めて報告された固相ホスホルアミダイトトリエステル法に従って、自動合成装置を用いて、および/またはNeedham−VanDevanterら(1984)Nucleic Acids Res.12:6159−6168に記載されているように、化学的に合成され得る。オリゴヌクレオチドの精製は、未変性アクリルアミドゲル電気泳動、または例えばPearson and Regnier(1983)J.Chrom.255:137−149に記載されているような陰イオン交換高速液体クロマトグラフィー(HPLC)によって実施され得る。
プローブオリゴヌクレオチド配列(天然に存在するものまたは合成のもの)の全部または一部は、いくつかの実施形態において、標的配列またはその一部に実質的に相補的であり得る。「実質的に相補的」は、配列に関して本明細書中で言及されるとき、互いにハイブリダイズするヌクレオチド配列のことを指す。ハイブリダイゼーション条件のストリンジェンシーは、様々な量の配列ミスマッチを許容するように変更され得る。互いに55%もしくはそれを超えて、56%もしくはそれを超えて、57%もしくはそれを超えて、58%もしくはそれを超えて、59%もしくはそれを超えて、60%もしくはそれを超えて、61%もしくはそれを超えて、62%もしくはそれを超えて、63%もしくはそれを超えて、64%もしくはそれを超えて、65%もしくはそれを超えて、66%もしくはそれを超えて、67%もしくはそれを超えて、68%もしくはそれを超えて、69%もしくはそれを超えて、70%もしくはそれを超えて、71%もしくはそれを超えて、72%もしくはそれを超えて、73%もしくはそれを超えて、74%もしくはそれを超えて、75%もしくはそれを超えて、76%もしくはそれを超えて、77%もしくはそれを超えて、78%もしくはそれを超えて、79%もしくはそれを超えて、80%もしくはそれを超えて、81%もしくはそれを超えて、82%もしくはそれを超えて、83%もしくはそれを超えて、84%もしくはそれを超えて、85%もしくはそれを超えて、86%もしくはそれを超えて、87%もしくはそれを超えて、88%もしくはそれを超えて、89%もしくはそれを超えて、90%もしくはそれを超えて、91%もしくはそれを超えて、92%もしくはそれを超えて、93%もしくはそれを超えて、94%もしくはそれを超えて、95%もしくはそれを超えて、96%もしくはそれを超えて、97%もしくはそれを超えて、98%もしくはそれを超えて、または99%もしくはそれを超えて相補的な標的配列およびオリゴヌクレオチド配列が、含まれる。
目的のヌクレオチド配列(例えば、標的配列)またはその一部に実質的に相補的なプローブオリゴヌクレオチドは、標的配列またはその関連部分の相補鎖にも実質的に似ている(例えば、その核酸のアンチセンス鎖に実質的に似ている)。2つのヌクレオチド配列が実質的に似ているか否かを判断するための試験の1つは、共有される同一のヌクレオチド配列のパーセントを測定することである。「実質的に似ている」は、配列に関して本明細書中で言及されるとき、互いと55%もしくはそれを超えて、56%もしくはそれを超えて、57%もしくはそれを超えて、58%もしくはそれを超えて、59%もしくはそれを超えて、60%もしくはそれを超えて、61%もしくはそれを超えて、62%もしくはそれを超えて、63%もしくはそれを超えて、64%もしくはそれを超えて、65%もしくはそれを超えて、66%もしくはそれを超えて、67%もしくはそれを超えて、68%もしくはそれを超えて、69%もしくはそれを超えて、70%もしくはそれを超えて、71%もしくはそれを超えて、72%もしくはそれを超えて、73%もしくはそれを超えて、74%もしくはそれを超えて、75%もしくはそれを超えて、76%もしくはそれを超えて、77%もしくはそれを超えて、78%もしくはそれを超えて、79%もしくはそれを超えて、80%もしくはそれを超えて、81%もしくはそれを超えて、82%もしくはそれを超えて、83%もしくはそれを超えて、84%もしくはそれを超えて、85%もしくはそれを超えて、86%もしくはそれを超えて、87%もしくはそれを超えて、88%もしくはそれを超えて、89%もしくはそれを超えて、90%もしくはそれを超えて、91%もしくはそれを超えて、92%もしくはそれを超えて、93%もしくはそれを超えて、94%もしくはそれを超えて、95%もしくはそれを超えて、96%もしくはそれを超えて、97%もしくはそれを超えて、98%またはそれを超えて、または99%もしくはそれを超えて同一であるヌクレオチド配列のことを指す。
ハイブリダイゼーション条件(例えば、アニーリング条件)は、アッセイにおいて使用されるオリゴヌクレオチドの特色に応じて決定および/または調整され得る。オリゴヌクレオチドの配列および/または長さは、目的の核酸配列へのハイブリダイゼーションに影響するときがあり得る。オリゴヌクレオチドと目的の核酸とのミスマッチの程度に応じて、アニーリングを達成するために、低、中または高ストリンジェンシー条件が用いられ得る。本明細書中で使用されるとき、用語「ストリンジェントな条件」とは、ハイブリダイゼーションおよび洗浄に対する条件のことを指す。ハイブリダイゼーション反応の温度条件を最適化するための方法は、当該分野で公知であり、Current Protocols in Molecular Biology,John Wiley & Sons,N.Y.,6.3.1−6.3.6(1989)に見られる。水性および非水性の方法が、その参考文献に記載されており、どちらも用いることができる。ストリンジェントなハイブリダイゼーション条件の非限定的な例は、約45℃の6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションに続く、50℃の0.2×SSC、0.1%SDS中での1回またはそれを超える洗浄である。ストリンジェントなハイブリダイゼーション条件の別の例は、約45℃の6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションに続く、55℃の0.2×SSC、0.1%SDS中での1回またはそれを超える洗浄である。ストリンジェントなハイブリダイゼーション条件のさらなる例は、約45℃の6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションに続く、60℃の0.2×SSC、0.1%SDS中での1回またはそれを超える洗浄である。ストリンジェントなハイブリダイゼーション条件は、約45℃の6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションに続く、65℃の0.2×SSC、0.1%SDS中での1回またはそれを超える洗浄であることが多い。ストリンジェンシー条件は、65℃の0.5Mリン酸ナトリウム、7%SDSに続く、65℃の0.2×SSC、1%SDS中での1回またはそれを超える洗浄であることがより多い。ストリンジェントなハイブリダイゼーション温度は、ある特定の有機溶媒、例えばホルムアミドを加えることで、変更することもできる(すなわち低下させることもできる)。ホルムアミドのような有機溶媒は、二本鎖ポリヌクレオチドの熱安定性を低下させる結果、ストリンジェントな条件を維持しつつ、かつ熱不安定性であり得る有用な核酸の寿命を延長しつつ、より低い温度においてハイブリダイゼーションを行うことができる。
いくつかの実施形態において、1つまたはそれを超えるプローブオリゴヌクレオチドは、親和性リガンド(例えば、アビジン、ストレプトアビジン、抗体またはレセプターなどの捕捉剤に結合し得る、結合対のメンバー(例えば、ビオチン)または抗原)と会合する。例えば、プローブオリゴヌクレオチドは、ストレプトアビジンでコーティングされたビーズに捕捉され得るように、ビオチン化され得る。
いくつかの実施形態において、1つまたはそれを超えるプローブオリゴヌクレオチドおよび/または捕捉剤は、効果的に固体支持体または基材に連結される。固体支持体または基材は、プローブオリゴヌクレオチドが直接または間接的に付着し得る任意の物理的に分離可能な固体であり得、それらとしては、マイクロアレイおよびウェルによって提供される表面、ならびにビーズ(例えば、常磁性ビーズ、磁気ビーズ、マイクロビーズ、ナノビーズ)などの粒子、微小粒子およびナノ粒子が挙げられるがこれらに限定されない。固体支持体には、例えば、チップ、カラム、光ファイバー、ワイプ(拭き取り紙)、フィルター(例えば、平らな表面フィルター)、1つまたはそれを超えるキャピラリー、ガラスおよび加工ガラスまたは機能化ガラス(例えば、多孔性ガラス(controlled−pore glass)(CPG))、石英、雲母、ジアゾ化メンブレン(紙またはナイロン)、ポリホルムアルデヒド、セルロース、酢酸セルロース、紙、セラミックス、金属、メタロイド、半導体材料、量子ドット、コーティングされたビーズまたは粒子、他のクロマトグラフィー材料、磁性粒子;プラスチック(アクリル樹脂、ポリスチレン、スチレンまたは他の材料の共重合体、ポリブチレン、ポリウレタン、TEFLON(登録商標)、ポリエチレン、ポリプロピレン、ポリアミド、ポリエステル、ポリビニリデンジフルオリド(PVDF)などを含む)、多糖類、ナイロンまたはニトロセルロース、樹脂、シリカまたはシリカ系材料(ケイ素、シリカゲルおよび変性シリコンを含む)、Sephadex(登録商標)、Sepharose(登録商標)、炭素、金属(例えば、鋼、金、銀、アルミニウム、ケイ素および銅)、無機ガラス、導電性ポリマー(ポリピロールおよびポリインドールなどのポリマーを含む);微細構造またはナノ構造の表面(例えば、核酸タイリングアレイ、ナノチューブ、ナノワイヤまたはナノ粒子で装飾された表面);または多孔性の表面もしくはゲル(例えば、メタクリレート、アクリルアミド、糖ポリマー、セルロース、シリケートまたは他の繊維状もしくは鎖状ポリマー)も含まれ得る。いくつかの実施形態において、固体支持体または基材は、デキストラン、アクリルアミド、ゼラチンまたはアガロースなどのポリマーを含む任意の数の材料によって、受動的または化学的に誘導体化されたコーティングを用いてコーティングされ得る。ビーズおよび/または粒子は、遊離していてもよいし、互いに接続して(例えば、焼結されて)いてもよい。いくつかの実施形態において、固相は、粒子の集合体であり得る。いくつかの実施形態において、粒子は、シリカを含み得、そのシリカは、二酸化ケイ素を含み得る。いくつかの実施形態において、シリカは、多孔性であり得、ある特定の実施形態において、シリカは、非多孔性であり得る。いくつかの実施形態において、粒子は、その粒子に常磁性を付与する作用物質をさらに含む。ある特定の実施形態において、その作用物質は、金属を含み、ある特定の実施形態において、その作用物質は、金属酸化物である(例えば、鉄または酸化鉄であり、ここで、その酸化鉄は、Fe2+とFe3+との混合物を含む)。プローブオリゴヌクレオチドは、共有結合または非共有結合性の相互作用によって固体支持体に連結され得、固体支持体に直接または間接的に(例えば、スペーサー分子またはビオチンなどの仲介物質を介して)連結され得る。プローブオリゴヌクレオチドは、核酸捕捉前、核酸捕捉中または核酸捕捉後に固体支持体に連結され得る。
本明細書中に記載されるアダプター配列の付加などによって改変された核酸が、捕捉され得る。いくつかの実施形態において、改変されていない核酸が捕捉される。核酸は、捕捉の前および/または後に、いくつかの実施形態ではPCRなどの増幅プロセスによって、増幅され得る。用語「捕捉された核酸」には、通常、捕捉された核酸が含まれ、捕捉されて増幅された核酸が含まれる。いくつかの実施形態において、捕捉された核酸は、さらなる回数の捕捉および増幅に供され得る。捕捉された核酸は、本明細書中に記載される配列決定プロセスなどによって配列決定され得る。
捕捉された核酸におけるコピー数変異の検出
コピー数変異(例えば、微小重複、微小欠失)の存在または非存在を分類するための方法およびプロセスが、本明細書中に提供される。いくつかの実施形態において、コピー数変異の存在または非存在の判定は、配列リードのセットに従って判定される。いくつかの実施形態において、コピー数変異の存在または非存在の判定は、本明細書中に記載されるセグメントおよび/またはサブ領域に対する配列リードの定量値に従って判定される。いくつかの実施形態において、配列リードは、ハイブリダイゼーション条件下でプローブオリゴヌクレオチドによって捕捉された試験被験体由来の循環無細胞サンプル核酸から得られる。いくつかの実施形態において、コピー数変異の存在または非存在は、配列リードから生成されたコンセンサス配列のセットに従って判定される。いくつかの実施形態において、コピー数変異の存在または非存在は、プローブカバレッジ(coverage)の定量値に従って判定される。いくつかの実施形態において、コピー数変異の存在または非存在の判定は、本明細書中に記載されるセグメントおよび/またはサブ領域に対するプローブカバレッジ定量値に従って判定される。プローブカバレッジ定量値は、各プローブオリゴヌクレオチドに対する配列リードの定量値であり得る。プローブカバレッジ定量値は、各プローブオリゴヌクレオチドに対するコンセンサス配列の定量値であり得る。いくつかの実施形態において、コピー数変異の存在または非存在は、正規化されたプローブカバレッジ定量値(例えば、各プローブオリゴヌクレオチドに対する配列リードの正規化されたプローブカバレッジ定量値;各プローブオリゴヌクレオチドに対するコンセンサス配列の正規化されたプローブカバレッジ定量値)に従って判定される。いくつかの実施形態において、コピー数変異の存在または非存在の判定は、セグメント化プロセスを含む。いくつかの実施形態において、コピー数変異の存在または非存在の判定は、フィルタリングプロセスを含む。
いくつかの実施形態において、コピー数変異の存在または非存在の判定は、プローブカバレッジ定量値または正規化されたプローブカバレッジ定量値に基づく。いくつかの実施形態において、「〜に基づく」は、他の因子(例えば、セグメント、フィルタリングされたセグメント、コピー数の測定または推定、コピー数の増加または減少の測定または推定、フィルタリングされたコピー数の測定または推定、フィルタリングされたコピー数の増加または減少の測定または推定)を含み得る。コピー数変異の存在または非存在は、いくつかの実施形態では、単一のプローブオリゴヌクレオチドに対するプローブカバレッジ定量値または正規化されたプローブカバレッジ定量値に従って判定され得る。コピー数変異の存在または非存在は、いくつかの実施形態では、複数のプローブオリゴヌクレオチドに対するプローブカバレッジ定量値または正規化されたプローブカバレッジ定量値に従って判定され得る。
いくつかの実施形態において、サンプル核酸は、プローブオリゴヌクレオチドによって捕捉される。代表的には、そのような実施形態において、サンプル核酸を、ハイブリダイゼーション条件下でプローブオリゴヌクレオチドと接触させる。サンプル核酸は、サンプルポリヌクレオチドを含み得(またはサンプルポリヌクレオチドからなり得)、プローブオリゴヌクレオチドは、サンプル核酸中のサンプルポリヌクレオチドに相補的なプローブポリヌクレオチドを含み得る。いくつかの実施形態において、プローブポリヌクレオチドは、本明細書中に記載される目的のサブ染色体領域、セグメントおよび/またはサブ領域における配列に相補的である。いくつかの実施形態において、ハイブリダイゼーション条件のストリンジェンシーは、100%の相補性(すなわち、ミスマッチなし)を有するプローブポリヌクレオチドだけが、サンプル核酸にハイブリダイズすることを可能にする。いくつかの実施形態において、ハイブリダイゼーション条件のストリンジェンシーは、1つまたは2つのミスマッチを有するプローブポリヌクレオチドが、サンプル核酸にハイブリダイズすることを可能にする。
いくつかの実施形態において、配列リードは、参照ゲノム部分にマッピングされる。配列リードを参照ゲノム部分にマッピングするためのある特定の方法が、本明細書中に記載される。いくつかの実施形態において、ゲノム部分は、既定の長さである。いくつかの実施形態において、ゲノム部分は、等しい長さである。いくつかの実施形態において、ゲノム部分は、約50キロベース長である。いくつかの実施形態において、少なくとも2つのゲノム部分が、等しくない長さである。いくつかの実施形態において、ゲノム部分は、オーバーラップしていない。いくつかの実施形態において、ゲノム部分の3’末端は、隣接する下流の各ゲノム部分の5’末端に隣接する。いくつかの実施形態において、少なくとも2つのゲノム部分は、オーバーラップしている。
いくつかの実施形態において、参照ゲノムにマッピングされる配列リードは、プローブ配列とマッチし、オンターゲット(on−target)リードと特定される。いくつかの実施形態において、本明細書中の方法は、オンターゲットリードを特定する工程を含む。いくつかの実施形態において、リードが、プローブオリゴヌクレオチド配列に対応するゲノム領域とアラインメントするとき、そのリードは、オンターゲットと特定される。本明細書中でさらに詳細に記載されているように、プローブオリゴヌクレオチド配列は、通常、ゲノム(例えば、参照ゲノム)の特定の領域にアラインメントし(すなわち、対応し)、目的のある特定のゲノム配列(例えば、本明細書中に記載される目的のサブ染色体領域、セグメントおよび/またはサブ領域における配列)に対応するヌクレオチド配列を含むことが多い。プローブオリゴヌクレオチドがアラインメントするゲノム領域にアラインメントするリードは、オンターゲットリードと見なされる。いくつかの実施形態において、リード長全体が、プローブオリゴヌクレオチドにアラインメントするゲノム領域にアラインメントするとき、配列リードは、オンターゲットと見なされ得る。いくつかの実施形態において、リードの一部が、プローブオリゴヌクレオチド配列に対応するゲノム領域とアラインメントし、リードの一部が、プローブオリゴヌクレオチド配列に対応するゲノム領域に隣接するゲノム領域内でアラインメントするとき、そのリードは、オンターゲットと特定される。一般に、そのような場合、そのリードは、1)プローブオリゴヌクレオチド配列に対応するゲノム領域の一部、および2)プローブオリゴヌクレオチド配列に対応するゲノム領域に隣接するゲノム領域を含む連続したゲノム配列とアラインメントする。後者のゲノム領域は、プローブオリゴヌクレオチド配列に対応するゲノム領域の上流または下流に位置し得る。例えば、プローブオリゴヌクレオチド配列に対応するゲノム領域を有するリードの一部(例えば、リードの少なくとも約5%、リードの10%、リードの20%、リードの30%、リードの40%、リードの50%、リードの60%、リードの70%、リードの80%、リードの90%)およびリードの残部が、プローブオリゴヌクレオチド配列に対応するゲノム領域のすぐ上流または下流のゲノム配列にアラインメントするとき、その配列リードは、オンターゲットと見なされ得る。いくつかの実施形態において、リードの一部が、プローブ配列にアラインメントせず、リード長全体が、プローブオリゴヌクレオチド配列に対応するゲノム領域のすぐ上流または下流のゲノム配列にアラインメントするとき、配列リードは、オンターゲットと見なされ得る。
プローブ配列を含む配列(すなわち、プローブ配列に対応するゲノム配列)ならびにプローブ配列の上流および/または下流のさらなるゲノム配列は、パディングされたプローブ配列と称され得る。パディングされたプローブ配列の集合は、パディングされたパネルと称され得る。いくつかの実施形態において、パディングされたプローブ配列は、プローブ配列に対応するゲノム配列のすぐ上流および/または下流のゲノム配列の少なくとも1ヌクレオチドを含む。例えば、パディングされたプローブ配列は、そのプローブ配列に対応するゲノム配列のすぐ上流および/または下流のゲノム配列の少なくとも約5、10、20、30、40、50、100、150、200、250、300、400、500または1000ヌクレオチドを含み得る。いくつかの実施形態において、パディングされたプローブ配列は、プローブ配列に対応するゲノム配列のすぐ上流の250ヌクレオチドのゲノム配列およびすぐ下流の250ヌクレオチドのゲノム配列を含む。
プローブオリゴヌクレオチド配列は、配列パネルとしてデータベースに保存され得る。いくつかの実施形態において、リードは、プローブオリゴヌクレオチド配列(例えば、上に記載されたような隣接するゲノム領域配列ありまたはなしで、表またはデータベースに保存されたプローブオリゴヌクレオチド配列)と直接アラインメントされ、そのようなリードは、オンターゲットリードと特定される。例えば、配列リードは、最初に参照ゲノムにマッピングされずに、データベース内の配列パネルにアラインメントされ得る。いくつかの実施形態において、リード長全体が、プローブ配列にアラインメントするとき、配列リードは、オンターゲットと見なされ得る。いくつかの実施形態において、配列リードは、上に記載されたように、パディングされたプローブ配列に直接アラインメントされる。例えば、いくつかの実施形態において、リードの一部(例えば、リードの少なくとも約5%、リードの10%、リードの20%、リードの30%、リードの40%、リードの50%、リードの60%、リードの70%、リードの80%、リードの90%)が、プローブ配列にアラインメントし、リードの残部が、プローブ配列のすぐ上流または下流のゲノム配列にアラインメントするとき、その配列リードは、オンターゲットと見なされ得る。いくつかの実施形態において、リードの一部が、プローブ配列にアラインメントせず、リード長全体が、プローブ配列のすぐ上流または下流のゲノム配列にアラインメントするとき、配列リードは、オンターゲットと見なされ得る。
いくつかの実施形態において、コンセンサス配列は、配列リードから生成される。いくつかの実施形態において、コンセンサス配列は、「オンターゲット」リードと特定された配列リードから生成される。一般に、コンセンサスは、配列リードのセット(例えば、リード群の中のリード)を崩壊して、配列リードが生成されたサンプル中のユニークな核酸分子に対応する単一のヌクレオチド配列を生成することによって生成される。コンセンサス配列は、任意の好適な方法によってリード群から生成することができ、その方法としては、例えば、デジタル通信理論、情報理論またはバイオインフォマティクスから導かれるコンセンサス作製のための線形または非線形の方法(例えば、平均化、投票、統計的、動的計画法、最大事後確率もしくは最大尤度検出法、ベイズ法、隠れマルコフ法またはサポートベクターマシン法など)が挙げられる。
いくつかの実施形態において、コピー数変異の存在または非存在の判定は、プローブカバレッジ定量値(例えば、本明細書中に記載されるセグメントおよび/またはサブ領域に対するプローブカバレッジ定量値;本明細書中に記載されるセグメントにおける配列および/またはサブ領域における配列に対するプローブカバレッジ定量値)に従って判定される。プローブカバレッジとは、一般に、プローブオリゴヌクレオチドにおける各ヌクレオチド位置にマッピングされる配列リードまたはコンセンサス配列の定量値のことを指す。いくつかの実施形態において、プローブカバレッジ定量値の測定は、プローブオリゴヌクレオチドにおける各ヌクレオチド位置にマップする配列リードの数を測定することを含む。配列リードは、プローブオリゴヌクレオチドより短い長さであり得、かつ/またはプローブオリゴヌクレオチド配列と部分的にオーバーラップし得る。したがって、プローブにおける各ヌクレオチドにマッピングされる配列リードの定量値は、プローブオリゴヌクレオチドの長さによって変化し得る。したがって、いくつかの実施形態において、プローブカバレッジ定量値の測定は、プローブにおける各ヌクレオチド位置にマッピングされる配列リードの集団の分位点推定値の測定を含む。分位点推定値としては、例えば、中央値、平均値、最頻値、範囲などが挙げられ得る。いくつかの実施形態において、プローブカバレッジ定量値の測定は、プローブにおける各ヌクレオチド位置にマッピングされる配列リードの数の中央値の測定を含む。いくつかの実施形態において、各プローブオリゴヌクレオチドに対する各ヌクレオチド位置にマッピングされる配列リードの数の中央値は、各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値である。いくつかの実施形態において、プローブカバレッジ定量値の測定は、プローブオリゴヌクレオチドにおける各ヌクレオチド位置にマップするコンセンサス配列の数の測定を含む。コンセンサス配列は、プローブオリゴヌクレオチドより短い長さであり得、かつ/またはプローブオリゴヌクレオチド配列と部分的にオーバーラップし得る。したがって、プローブにおける各ヌクレオチドにマッピングされるコンセンサス配列の定量値は、プローブオリゴヌクレオチドの長さによって変化し得る。したがって、いくつかの実施形態において、プローブカバレッジ定量値の測定は、プローブにおける各ヌクレオチド位置にマッピングされるコンセンサス配列の数の中央値の測定を含む。
いくつかの実施形態において、コピー数変異の存在または非存在の判定は、正規化されたプローブカバレッジ定量値に従って判定される。プローブカバレッジ定量値は、本明細書中に記載される正規化プロセスなどの好適な正規化プロセスを用いて正規化され得る。いくつかの実施形態において、正規化は、テストサンプルに対する各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値のスケーリングを含む。各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値のスケーリングは、各プローブオリゴヌクレオチドに対して、スケーリングされたプローブカバレッジ定量値を生成する。いくつかの実施形態において、各プローブに対するプローブカバレッジ定量値は、テストサンプルに対するすべてのプローブオリゴヌクレオチドに対するプローブカバレッジ定量値の中央値に従ってスケーリングされる。例えば、各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値は、プローブカバレッジ定量値の中央値で除算され得る。
いくつかの実施形態において、正規化は、テストサンプルに対する各プローブオリゴヌクレオチドに対するグアニン−シトシン(CG)含有量に従ってプローブカバレッジ定量値を正規化することを含む。いくつかの実施形態において、正規化は、テストサンプルに対する各プローブオリゴヌクレオチドに対するグアニン−シトシン(CG)含有量に従って、スケーリングされたプローブカバレッジ定量値を正規化することを含む。各プローブオリゴヌクレオチドに対するGC含有量に従ってプローブカバレッジ定量値を正規化することは、各プローブオリゴヌクレオチドに対して、GC正規化されたプローブカバレッジ定量値を生成する。いくつかの実施形態において、プローブカバレッジ定量値は、LOESS正規化によって正規化される。LOESS正規化(例えば、GC LOESS)は、本明細書中にさらに詳細に記載される。
いくつかの実施形態において、正規化は、参照サンプルから得られたプローブカバレッジ定量値に従って、テストサンプルに対するプローブカバレッジ定量値を正規化することを含む。参照サンプルは、コピー数変異を有しないと分類されるサンプルを含み得る。いくつかの実施形態において、参照サンプルは、コピー数変異を有しないと分類されるサンプルからなる。したがって、いくつかの実施形態において、参照サンプルは、試験される各染色体および各染色体領域について正倍数性であるサンプルを含むかまたはそのようなサンプルからなる。参照サンプルは、ヒト被験体由来であり得る。いくつかの実施形態において、参照サンプルは、雌性体被験体由来である。いくつかの実施形態において、参照サンプルは、雄性体被験体由来である。いくつかの実施形態において、参照サンプルは、雄性体および雌性体被験体由来である。参照サンプルは、1人の被験体由来のサンプルを含み得るか、または複数の被験体由来のサンプルを含み得る。参照サンプルは、1つの参照サンプルを含み得、複数のサンプルを含むことが多い。例えば、参照サンプルは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100個またはそれを超えるサンプルを含み得る。
いくつかの実施形態において、テストサンプルに対するプローブカバレッジ定量値は、参照サンプルから得られたプローブカバレッジ定量値に従って正規化される。いくつかの実施形態において、テストサンプルに対するスケーリングされたプローブカバレッジ定量値は、参照サンプルから得られたプローブカバレッジ定量値に従って正規化される。いくつかの実施形態において、テストサンプルに対するGC正規化されたプローブカバレッジ定量値は、参照サンプルから得られたプローブカバレッジ定量値に従って正規化される。いくつかの実施形態において、テストサンプルに対するプローブカバレッジ定量値は、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値に従って正規化される。いくつかの実施形態において、テストサンプルに対するスケーリングされたプローブカバレッジ定量値は、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値に従って正規化される。いくつかの実施形態において、テストサンプルに対するGC正規化されたプローブカバレッジ定量値は、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値に従って正規化される。プローブカバレッジ中央値は、複数の参照サンプルにわたって同じプローブに対するプローブカバレッジ定量値に従って測定されることが多い。いくつかの実施形態において、プローブカバレッジ中央値は、複数の参照サンプルにわたって同じプローブに対する、正規化された(例えば、GC正規化された)プローブカバレッジ定量値に従って測定される。参照サンプルから得られたプローブカバレッジ定量値(例えば、プローブカバレッジ中央値)に従った各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値(またはスケーリングされたプローブカバレッジ定量値またはGC正規化されたプローブカバレッジ定量値)の正規化は、テストサンプルに対する各プローブオリゴヌクレオチドに対する、参照サンプルで正規化されたプローブカバレッジ定量値を生成する。
いくつかの実施形態において、プローブカバレッジ中央値(例えば、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値)に従って正規化することは、各プローブオリゴヌクレオチドに対する(すなわち、テストサンプルに対する)各プローブカバレッジ定量値を、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値で除算することを含む。いくつかの実施形態において、プローブカバレッジ中央値(例えば、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値)に従って正規化することは、各プローブオリゴヌクレオチドに対する(すなわち、テストサンプルに対する)スケーリングされた各プローブカバレッジ定量値を、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値で除算することを含む。いくつかの実施形態において、プローブカバレッジ中央値(例えば、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値)に従って正規化することは、各プローブオリゴヌクレオチドに対する(すなわち、テストサンプルに対する)各GC正規化されたプローブカバレッジ定量値を、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値で除算することを含む。そのような実施形態において、プローブカバレッジ中央値に従って正規化することにより、各プローブオリゴヌクレオチドに対する比が生成される。
いくつかの実施形態において、プローブカバレッジ定量値は、対数変換される。例えば、各プローブオリゴヌクレオチドに対する、参照サンプルで正規化されたプローブカバレッジ定量値は、対数変換され得る。各プローブオリゴヌクレオチドに対する、参照サンプルで正規化されたプローブカバレッジ定量値を対数変換することによって、各プローブオリゴヌクレオチドに対する、対数変換された、参照サンプルで正規化されたプローブカバレッジ定量値が生成される。ある特定の実施形態において、各プローブオリゴヌクレオチドに対する比が、対数変換される。各プローブオリゴヌクレオチドに対する比を対数変換することによって、各プローブオリゴヌクレオチドに対する対数変換された比が生成される。いくつかの実施形態において、対数変換は、log2変換である。したがって、いくつかの実施形態において、各プローブオリゴヌクレオチドに対する、log2変換された、参照サンプルで正規化されたプローブカバレッジ定量値が、生成される。いくつかの実施形態において、各プローブオリゴヌクレオチドに対するlog2比が、生成される。ある特定の場合において、プローブカバレッジ定量値のlog2比は、例えば、方程式A:
に従って示されるような、コピー数(CN)の増加または減少に対するlog2比に比例する。
式中、「テストカバレッジ」とは、テストサンプルに対するプローブオリゴヌクレオチドに対するプローブカバレッジ定量値(例えば、スケーリングされたプローブカバレッジ定量値、正規化されたプローブカバレッジ定量値)のことを指し;「正常カバレッジ」とは、参照サンプルから得られたプローブオリゴヌクレオチドに対するプローブカバレッジ定量値(例えば、プローブカバレッジ中央値)のことを指し;CNは、プローブオリゴヌクレオチドによって表されるセグメント(すなわち、プローブオリゴヌクレオチド配列と同一または実質的に同一の配列を含むセグメント)に対するコピー数増加またはコピー数減少である。
テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、本明細書中に記載される任意の正規化されたプローブカバレッジ定量値またはその任意の好適な変動のことを指し得る。例えば、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対するスケーリングされたプローブカバレッジ定量値のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対するGC正規化されたプローブカバレッジ定量値のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対する、参照サンプルで正規化されたプローブカバレッジ定量値のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対する比のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対する、対数変換された、参照サンプルで正規化されたプローブカバレッジ定量値のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対する、対数変換された比のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対する、log2変換された、参照サンプルで正規化されたプローブカバレッジ定量値のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対するlog2比のことを指し得る。
いくつかの実施形態において、セグメント化プロセスは、セグメント(例えば、コピー数変異をまたぐセグメント)を特定するために適用される。任意の好適なセグメント化プロセスを利用してよく、それらとしては、サーキュラーバイナリーセグメンテーション(CBS)プロセスが挙げられるが、これに限定されない。CBSの代わりにまたはCBSに加えて、他のプロセスを利用することができ、その非限定的な例としては、ウェーブレットセグメンテーション(例えば、Haarウェーブレットセグメンテーション)、フーリエ変換、スライディングウィンドウz得点およびマルコフ鎖モデルが挙げられる。
いくつかの実施形態において、セグメント化プロセスは、各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値に従ってセグメントを特定するために適用される。いくつかの実施形態において、セグメント化プロセスは、各プローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値に従ってセグメントを特定するために適用される。セグメントは、複数のプローブオリゴヌクレオチド(すなわち、コピー数変異の増加または減少を示唆するプローブカバレッジ定量値を有する複数のプローブオリゴヌクレオチド)を含むときがある。セグメント化プロセスは、各セグメントに対する開始位置および終了位置(例えば、ゲノム座標に従った開始位置および終了位置;プローブインデックスに従った開始位置および終了位置)、セグメントに対するコピー数変異の定量値、および必要に応じてセグメントに対する信頼の尺度を提供するときがある。いくつかの実施形態において、各セグメントの各末端に対する位置(例えば、プローブインデックスに従った位置)およびプローブカバレッジ定量値が、各セグメントに対して提供される。いくつかの実施形態において、各セグメントの各末端に対する位置(例えば、プローブインデックスに従った位置)および正規化されたプローブカバレッジ定量値が、各セグメントに対して提供される。いくつかの実施形態において、各セグメントとオーバーラップする1つまたはそれを超える遺伝子が、特定される。
いくつかの実施形態において、各セグメントのコピー数は、各セグメントに関連するプローブカバレッジ定量値に従って決定または推定される。いくつかの実施形態において、各セグメントのコピー数は、各セグメントに関連する正規化されたプローブカバレッジ定量値に従って決定または推定される。各セグメントのコピー数の決定または推定は、各セグメントに対するコピー数(CN)増加またはコピー数(CN)減少を提供する。いくつかの実施形態において、各セグメントに対するコピー数(CN)増加またはコピー数(CN)減少は、各セグメントに対するセグメント中央値カバレッジの変換に従って決定または推定される。したがって、ある特定の場合において、セグメント中央値カバレッジは、セグメントにおけるプローブオリゴヌクレオチドに対するプローブカバレッジ定量値に従って決定される。いくつかの実施形態において、セグメントに対するコピー数(CN)増加またはコピー数(CN)減少は、各セグメントに対するセグメント中央値カバレッジlog2比の変換に従って決定または推定される。したがって、ある特定の場合において、log2比の中央値は、セグメントにおけるプローブオリゴヌクレオチドに対するプローブカバレッジ定量値に従って決定される。換言すれば、セグメントにおけるプローブオリゴヌクレオチドに対するlog2比の中央値は、セグメントに対するコピー数(CN)増加またはコピー数(CN)減少の判定または推定のために使用される。例えば、セグメントに対するコピー数増加またはコピー数減少は、方程式B:
CN=2*(2(セグメント.中央値.log2比)−1) 方程式B
(式中、CNは、各セグメントに対するコピー数増加またはコピー数減少である)に従って判定または推定され得る。
いくつかの実施形態において、セグメントは、フィルタリングされる(例えば、考慮すべきものから除去される)。セグメントは、セグメントに関連するプローブカバレッジ定量値、セグメントに関連する正規化されたプローブカバレッジ定量値、およびセグメントに対するコピー数増加またはコピー数減少のうちの1つまたはそれを超えるものに従ってフィルタリングされ得る。通常、セグメントのフィルタリングによって、フィルタリングされて保持されたセグメントのセットが提供される。セグメントは、対応するコピー数定量値と対にされることが多く、対応するコピー数定量値の絶対値が0〜約1(重複候補の場合)または0〜約0.9(欠失候補の場合)であるセグメントは、ノイズ低減フィルタリングプロセスの一部としてフィルタリングされて除去されることが多い。いくつかの実施形態において、1またはそれを超えるコピー数増加(重複候補の場合)があるセグメントは、フィルタリングされたセグメントとして保持され得る。例えば、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2、3、4、5、6、7、8、9、10またはそれを超えるコピー数増加があるセグメントは、フィルタリングされたセグメントとして保持され得る。いくつかの実施形態において、0.9またはそれを超えるコピー数減少(欠失候補の場合)があるセグメントは、フィルタリングされたセグメントとして保持され得る。欠失候補に対するコピー数定量値は、通常、ゼロ未満に低下するので、「0.9またはそれを超えるコピー数減少」は、欠失候補に対するコピー数定量値の絶対値に対応する。したがって、例えば、0.9、1.0、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9または2というコピー数減少があるセグメントは、フィルタリングされたセグメントとして保持され得る。換言すれば、−0.9、−1.0、−1.2、−1.3、−1.4、−1.5、−1.6、−1.7、−1.8、−1.9または−2というコピー数定量値を有するセグメントは、フィルタリングされたセグメントとして保持され得る。
核酸の配列決定および処理
本明細書中に提供される方法は、通常、核酸の配列決定および解析を含む。いくつかの実施形態において、核酸が、配列決定され、配列決定の生成物(例えば、配列リードの集合)は、配列決定された核酸の解析の前にまたはその解析と同時に、処理される。例えば、配列リードは、以下:アラインメントする工程、マッピングする工程、部分をフィルタリングする工程、部分を選択する工程、カウントする工程、正規化する工程、重み付けする工程、プロファイルを生成する工程など、およびそれらの組み合わせのうちの1つまたはそれを超える工程に従って処理され得る。ある特定の処理工程は、任意の順序で行われ得、ある特定の処理工程が、反復され得る。例えば、部分がフィルタリングされた後、配列リードカウントが正規化され得、ある特定の実施形態では、配列リードカウントが、正規化された後、部分がフィルタリングされ得る。いくつかの実施形態において、部分をフィルタリングする工程の後、配列リードカウントの正規化に続いて、部分をさらにフィルタリングする工程が続く。ある特定の配列決定方法および処理工程は、下記でさらに詳細に記載される。
配列決定
いくつかの実施形態において、核酸(例えば、核酸フラグメント、サンプル核酸、無細胞核酸)が、配列決定される。ある特定の場合において、完全なまたは実質的に完全な配列が得られ、部分的な配列が得られるときがある。核酸配列決定は、通常、配列リードの集合を生成する。本明細書中で使用されるとき、「リード(reads)」(例えば、「リード(a read)」、「配列リード」)は、本明細書中に記載されるまたは当該分野で公知の任意の配列決定プロセスによって生成される短いヌクレオチド配列である。リードは、核酸フラグメントの一方の末端から生成され得(「シングルエンドリード」)、核酸フラグメントの両方の末端から生成されるときもある(例えば、ペアエンドリード、ダブルエンドリード)。
配列リードの長さは、特定の配列決定技術に関連することが多い。例えば、ハイスループット法は、サイズが数十から数百塩基対(bp)まで異なり得る配列リードを提供する。例えば、ナノポア配列決定は、サイズが数十、数百から数千の塩基対まで異なり得る配列リードを提供し得る。いくつかの実施形態において、配列リードは、約15bp〜約900bp長という長さの平均値、中央値、平均の長さまたは長さの絶対値である。ある特定の実施形態において、配列リードは、約1000bpまたはそれを超える長さの平均値、中央値、平均の長さまたは長さの絶対値である。いくつかの実施形態において、配列リードは、約1500、2000、2500、3000、3500、4000、4500もしくは5000bpまたはそれを超える長さの平均値、中央値、平均の長さまたは長さの絶対値である。いくつかの実施形態において、配列リードは、約100bp〜約200bpという長さの平均値、中央値、平均の長さまたは長さの絶対値である。いくつかの実施形態において、配列リードは、約140bp〜約160bpという長さの平均値、中央値、平均の長さまたは長さの絶対値である。例えば、配列リードは、約140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159または160bpというさの平均値、中央値、平均の長さまたは長さの絶対値であり得る。
いくつかの実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約10個連続したヌクレオチド〜約250個もしくはそれを超えて連続したヌクレオチド、約15個連続したヌクレオチド〜約200個もしくはそれを超えて連続したヌクレオチド、約15個連続したヌクレオチド〜約150個もしくはそれを超えて連続したヌクレオチド、約15個連続したヌクレオチド〜約125個もしくはそれを超えて連続したヌクレオチド、約15個連続したヌクレオチド〜約100個もしくはそれを超えて連続したヌクレオチド、約15個連続したヌクレオチド〜約75個もしくはそれを超えて連続したヌクレオチド、約15個連続したヌクレオチド〜約60個もしくはそれを超えて連続したヌクレオチド、15個連続したヌクレオチド〜約50個もしくはそれを超えて連続したヌクレオチド、約15個連続したヌクレオチド〜約40個もしくはそれを超えて連続したヌクレオチドであるときがあり、約15個連続したヌクレオチドまたは約36個もしくはそれを超えて連続したヌクレオチドであるときがある。ある特定の実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約20〜約30塩基長または約24〜約28塩基長である。ある特定の実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、21、22、23、24、25、26、27、28もしくは約29塩基長またはそれを超える長さである。ある特定の実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約20〜約200塩基長、約100〜約200塩基長または約140〜約160塩基長である。ある特定の実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190もしくは約200塩基長またはそれを超える長さである。ある特定の実施形態において、ペアエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約10個連続したヌクレオチド〜約25個連続したヌクレオチドまたはそれを超えるヌクレオチド(例えば、約10、11、12、13、14、15、16、17、18、19、20、21、22、23、24または25ヌクレオチド長またはそれを超えるヌクレオチド長)、約15個連続したヌクレオチド〜約20個連続したヌクレオチドまたはそれを超えるヌクレオチドであるときがあり、約17個連続したヌクレオチドまたは約18個連続したヌクレオチドであるときがある。ある特定の実施形態において、ペアエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約25個連続したヌクレオチド〜約400個連続したヌクレオチドまたはそれを超えるヌクレオチド(例えば、約25、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390もしくは400ヌクレオチド長またはそれを超えるヌクレオチド長)、約50個連続したヌクレオチド〜約350個連続したヌクレオチドまたはそれを超えるヌクレオチド、約100個連続したヌクレオチド〜約325個連続したヌクレオチド、約150個連続したヌクレオチド〜約325個連続したヌクレオチド、約200個連続したヌクレオチド〜約325個連続したヌクレオチド、約275個連続したヌクレオチド〜約310個連続したヌクレオチド、約100個連続したヌクレオチド〜約200個連続したヌクレオチド、約100個連続したヌクレオチド〜約175個連続したヌクレオチド、約125個連続したヌクレオチド〜約175個連続したヌクレオチドであるときがあり、約140個連続したヌクレオチド〜約160個連続したヌクレオチドであるときがある。ある特定の実施形態において、ペアエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約150個連続したヌクレオチドであり、150個連続したヌクレオチドであるときがある。
いくつかの実施形態において、サンプルから得られたヌクレオチド配列リードは、部分的なヌクレオチド配列リードである。本明細書中で使用されるとき、「部分的なヌクレオチド配列リード」とは、配列多義性(sequence ambiguity)とも称される不完全な配列情報を有する任意の長さの配列リードのことを指す。部分的なヌクレオチド配列リードは、核酸塩基の同一性および/または核酸塩基の位置もしくは順序に関する情報を欠き得る。部分的なヌクレオチド配列リードは、一般に、単に不完全な配列情報(またはそれらの塩基のすべてより少ない塩基が配列決定されているかまたは決定されている)が、不注意のまたは故意でない配列決定のエラーに由来する配列リードを含まない。そのような配列決定のエラーは、ある特定の配列決定プロセスに固有であり得、例えば、核酸塩基の同一性に対する不正確なコール、および欠損したまたは余分な核酸塩基を含む。したがって、本明細書中の部分的なヌクレオチド配列リードに対して、その配列に関するある特定の情報は、故意に除外されることが多い。すなわち、すべての核酸塩基より少ない核酸塩基に関する配列情報、または配列決定のエラーとして別途特徴づけられ得るかもしくは配列決定のエラーであり得る配列情報を故意に得る。いくつかの実施形態において、部分的なヌクレオチド配列リードは、核酸フラグメントの一部分に及び得る。いくつかの実施形態において、部分的なヌクレオチド配列リードは、核酸フラグメントの長さ全体に及び得る。部分的なヌクレオチド配列リードは、例えば、国際特許出願公開番号WO2013/052907に記載されており、本文、表、式および図面のすべてを含むこの全内容が、参照により本明細書中に援用される。
リードは、一般に、物理的な核酸におけるヌクレオチド配列の提示である。例えば、ATGC描写の配列を含むリードにおいて、物理的な核酸では、「A」は、アデニンヌクレオチドを表し、「T」は、チミンヌクレオチドを表し、「G」は、グアニンヌクレオチドを表し、「C」は、シトシンヌクレオチドを表す。被験体由来のサンプルから得られる配列リードは、少数核酸と多数核酸との混合物からのリードであり得る。例えば、癌患者の血液から得られる配列リードは、癌核酸と非癌核酸との混合物からのリードであり得る。別の例では、妊婦の血液から得られる配列リードは、胎児核酸と母体核酸との混合物からのリードであり得る。比較的短いリードの混合物は、本明細書中に記載されるプロセスによって、被験体に存在するゲノム核酸の提示および/または腫瘍もしくは胎児に存在するゲノム核酸の提示に変換され得る。ある特定の場合において、比較的短いリードの混合物は、例えば、コピー数変化、遺伝子変異/遺伝子変化または異数性の提示に変換され得る。1つの例では、癌核酸と非癌核酸との混合物のリードは、癌細胞と非癌細胞の一方または両方の染色体の特徴を含む複合染色体またはその一部の提示に変換され得る。別の例では、母体核酸と胎児核酸との混合物のリードは、母体および胎児の一方または両方の染色体の特徴を含む複合染色体またはその一部の提示に変換され得る。
場合によっては、癌患者から得られる循環無細胞核酸フラグメント(CCFフラグメント)は、正常細胞を起源とする核酸フラグメント(すなわち、非癌フラグメント)および癌細胞を起源とする核酸フラグメント(すなわち、癌フラグメント)を含む。正常細胞(すなわち、非癌性細胞)を起源とするCCFフラグメントに由来する配列リードは、「非癌リード」と本明細書中で称される。癌細胞を起源とするCCFフラグメントに由来する配列リードは、「癌リード」と本明細書中で称される。非癌リードが得られるCCFフラグメントは、非癌鋳型と本明細書中で称され得、癌リードが得られるCCFフラグメントは、癌鋳型と本明細書中で称され得る。
場合によっては、妊婦から得られる循環無細胞核酸フラグメント(CCFフラグメント)は、胎児細胞を起源とする核酸フラグメント(すなわち、胎児フラグメント)および母体細胞を起源とする核酸フラグメント(すなわち、母体フラグメント)を含む。胎児を起源とするCCFフラグメントに由来する配列リードは、「胎児リード」と本明細書中で称される。胎児を有する妊婦(例えば、母体)のゲノムを起源とするCCFフラグメントに由来する配列リードは、「母体リード」と本明細書中で称される。胎児リードが得られるCCFフラグメントは、胎児鋳型と本明細書中で称され、母体リードが得られるCCFフラグメントは、母体鋳型と本明細書中で称される。
ある特定の実施形態において、被験体からサンプルの核酸配列リードを「得ること」および/または1人もしくはそれを超える参照人から生物学的検体の核酸配列リードを「得ること」は、核酸を直接配列決定して配列情報を得ることを含み得る。いくつかの実施形態において、「得ること」は、別のものによって核酸から直接得られた配列情報を受け取ることを含み得る。
いくつかの実施形態において、サンプル中のいくつかまたはすべての核酸が、配列決定の前または配列決定中に、濃縮および/または増幅される(例えば、非特異的に、例えば、PCRに基づく方法によって)。ある特定の実施形態において、サンプル中の特定の核酸種またはサブセットが、配列決定の前または配列決定中に、濃縮および/または増幅される。いくつかの実施形態において、予め選択された核酸プールの種またはサブセットが、ランダムに配列決定される。いくつかの実施形態において、サンプル中の核酸は、配列決定の前または配列決定中に濃縮および/または増幅されない。
いくつかの実施形態において、ゲノムの代表的な一部が配列決定され、それは、「カバレッジ」または「倍カバレッジ」と称されるときがある。例えば、1倍カバレッジは、そのゲノムのおおよそ100%のヌクレオチド配列が、リードによって表されることを示唆する。場合によっては、倍カバレッジは、「配列決定デプス(sequencing depth)」と称される(および「配列決定デプス」に正比例する)。いくつかの実施形態において、「倍カバレッジ」は、事前の配列決定ランを参照として言及している相対的な用語である。例えば、第2の配列決定ランは、第1の配列決定ランよりも2倍少ないカバレッジを有し得る。いくつかの実施形態において、ゲノムは、重複して配列決定され、ここで、所与のゲノム領域が、2つまたはそれを超えるリードまたはオーバーラップリードによってカバーされ得る(例えば、1より大きい「倍カバレッジ」、例えば、2倍カバレッジ)。いくつかの実施形態において、ゲノム(例えば、全ゲノム)は、約0.01倍〜約100倍カバレッジ、約0.1倍〜20倍カバレッジまたは約0.1倍〜約1倍カバレッジ(例えば、約0.015、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90倍またはそれを超えるカバレッジ)で配列決定される。いくつかの実施形態において、ゲノムの特定の部分(例えば、標的化方法および/またはプローブに基づく方法によるゲノム部分)が配列決定され、倍カバレッジ値とは、配列決定されたその特定のゲノム部分の一部のことを通常指す(すなわち、倍カバレッジ値とは、全ゲノムのことを指さない)。場合によっては、特定のゲノム部分は、1000倍カバレッジまたはそれを超える倍カバレッジで配列決定される。例えば、特定のゲノム部分は、2000倍、5,000倍、10,000倍、20,000倍、30,000倍、40,000倍または50,000倍カバレッジで配列決定され得る。いくつかの実施形態において、配列決定は、約1,000倍〜約100,000倍カバレッジで行われる。いくつかの実施形態において、配列決定は、約10,000倍〜約70,000倍カバレッジで行われる。いくつかの実施形態において、配列決定は、約20,000倍〜約60,000倍カバレッジで行われる。いくつかの実施形態において、配列決定は、約30,000倍〜約50,000倍カバレッジで行われる。
いくつかの実施形態において、1つの個体由来の1つの核酸サンプルが、配列決定される。ある特定の実施形態において、2つまたはそれを超えるサンプルの各々からの核酸が、配列決定され、ここで、サンプルは、1つの個体由来であるか、または異なる個体由来である。ある特定の実施形態において、2つまたはそれを超える生物学的サンプル由来の核酸サンプルがプールされ、ここで、各生物学的サンプルは、1つの個体由来であるか、または2つもしくはそれを超える個体由来であり、そのプールが配列決定される。後者の実施形態では、各生物学的サンプル由来の核酸サンプルは、1つまたはそれを超えるユニークな識別子によって識別されることが多い。
いくつかの実施形態において、配列決定法は、配列決定プロセスにおいて配列決定反応の多重化を可能にする識別子を使用する。ユニークな識別子の数が増えるほど、配列決定プロセスにおいて多重化され得る、例えば、検出のためのサンプルおよび/または染色体の数は増える。配列決定プロセスは、任意の好適な数の(例えば、4、8、12、24、48、96個またはそれを超える)ユニークな識別子を用いて行われ得る。
配列決定プロセスは、固相を利用するときがあり、その固相は、ライブラリー由来の核酸が付着され得、試薬が流され得、付着された核酸と接触し得るフローセルを含むときがある。フローセルは、フローセルレーンを備えるときがあり、識別子の使用により、各レーンにおいていくつかのサンプルを解析することが容易になり得る。フローセルは、結合したアナライトの上に試薬溶液を保持するようにおよび/または結合したアナライトの上に試薬溶液を順序正しく通過させるように構成され得る、固体支持体であることが多い。フローセルは、しばしば、平面の形状であり、光学的に透明であり、一般に、ミリメートルまたはミリメートル未満のスケールであり、アナライト/試薬相互作用が生じるチャネルまたはレーンを有することが多い。いくつかの実施形態において、所与のフローセルレーンにおいて解析されるサンプルの数は、ライブラリー調製中および/またはプローブデザイン中に使用されたユニークな識別子の数に依存する。12個の識別子を使用した多重化は、例えば、8レーンフローセルにおいて、96個のサンプル(例えば、96ウェルのマイクロウェルプレートにおけるウェルの数に等しい)を同時に解析することを可能にする。同様に、48個の識別子を使用した多重化は、例えば、8レーンフローセルにおいて、384個のサンプル(例えば、384ウェルのマイクロウェルプレートにおけるウェルの数に等しい)を同時に解析することを可能にする。商業的に入手可能なマルチプレックス配列決定キットの非限定的な例としては、Illuminaのマルチプレックスサンプル調製オリゴヌクレオチドキットおよびマルチプレックス配列決定プライマーおよびPhiXコントロールキット(例えば、それぞれIlluminaのカタログ番号PE−400−1001およびPE−400−1002)が挙げられる。
核酸を配列決定する任意の好適な方法が使用され得、その非限定的な例としては、Maxim&Gilbert、チェーン・ターミネーション法、合成による配列決定、ライゲーションによる配列決定、質量分析による配列決定、顕微鏡法に基づく手法などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、第1世代の技術、例えば、マイクロフルイディクスSanger配列決定を含む自動化されたSanger配列決定法を含むSanger配列決定法が、本明細書中に提供される方法において使用され得る。いくつかの実施形態において、核酸イメージング技術(例えば、透過型電子顕微鏡(TEM)および原子間力顕微鏡法(AFM))の使用を含む配列決定技術が使用され得る。いくつかの実施形態において、ハイスループット配列決定法が使用される。ハイスループット配列決定法は、一般に、大規模並列処理形式で、時折、フローセル内において、配列決定される、クローン増幅されたDNA鋳型または単一DNA分子を必要とする。大規模並列処理形式でDNAを配列決定することができる次世代(例えば、第2および第3世代)配列決定法は、本明細書中に記載される方法のために使用され得、本明細書中において「大規模並列処理配列決定」(MPS)と総称される。いくつかの実施形態において、MPS配列決定法は、標的化アプローチを使用し、ここで、特定の染色体、遺伝子または目的の領域が配列決定される。ある特定の実施形態において、サンプル中のほとんどまたはすべての核酸が、ランダムに配列決定され、増幅され、かつ/または捕捉される、非標的化アプローチが使用される。
いくつかの実施形態において、標的化された濃縮、増幅および/または配列決定アプローチが使用される。標的化アプローチは、配列特異的オリゴヌクレオチドを使用することによってさらに処理するために、サンプル中の核酸のサブセットを単離する、選択する、および/または濃縮することが多い。いくつかの実施形態において、配列特異的オリゴヌクレオチドのライブラリーが、サンプル中の1つまたはそれを超える核酸セットを標的化する(例えば、ハイブリダイズさせる)ために使用される。配列特異的オリゴヌクレオチドおよび/またはプライマーは、1つまたはそれを超える、目的の染色体、遺伝子、エキソン、イントロンおよび/または制御領域に存在する特定の配列(例えば、ユニークな核酸配列)に対して選択的であることが多い。任意の好適な方法または方法の組み合わせが、1つまたはそれを超える標的化された核酸のサブセットの濃縮、増幅および/または配列決定のために使用され得る。いくつかの実施形態において、標的化された配列は、1つまたはそれを超える配列特異的アンカーを使用した固相(例えば、フローセル、ビーズ)への捕捉によって、単離および/または濃縮される。いくつかの実施形態において、標的化された配列は、配列特異的プライマーおよび/またはプライマーセットを使用した、ポリメラーゼに基づく方法(例えば、PCRに基づく方法、任意の好適なポリメラーゼに基づく伸長)によって、濃縮および/または増幅される。配列特異的アンカーが、配列特異的プライマーとして使用され得ることが多い。
MPS配列決定は、合成およびある特定のイメージングプロセスによる配列決定を利用するときがある。本明細書中に記載される方法において使用され得る核酸配列決定技術は、合成による配列決定および可逆的ターミネーターに基づく配列決定(例えば、Illumina’s Genome Analyzer;Genome Analyzer II;HISEQ 2000;HISEQ 2500(Illumina,San Diego CA))である。この技術を用いれば、数百万の核酸(例えば、DNA)フラグメントを並行して配列決定することができる。このタイプの配列決定技術の1つの例では、オリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合した表面上に8つの個別のレーンを有する光学的に透明なスライドを備えるフローセルが使用される。
合成による配列決定は、通常、鋳型特異的な様式で、ヌクレオチドをプライマーまたは既存の核酸鎖に反復して付加すること(例えば、共有結合性の付加)によって行われる。ヌクレオチドの反復付加の各々が検出され、そのプロセスは、核酸鎖の配列が得られるまで複数回繰り返される。得られる配列の長さは、行われる付加工程および検出工程の数に部分的に依存する。合成による配列決定のいくつかの実施形態では、1回のヌクレオチド付加において、同じタイプ(例えば、A、G、CまたはT)の1つ、2つ、3つもしくはそれを超えるヌクレオチドが付加され、検出される。ヌクレオチドは、任意の好適な方法によって(例えば、酵素的または化学的に)付加され得る。例えば、いくつかの実施形態において、ポリメラーゼまたはリガーゼが、鋳型特異的様式で、プライマーまたは既存の核酸鎖にヌクレオチドを付加する。合成による配列決定のいくつかの実施形態において、異なるタイプのヌクレオチド、ヌクレオチドアナログおよび/または識別子が使用される。いくつかの実施形態において、可逆的ターミネーターおよび/または除去可能な(例えば、切断可能な)識別子が使用される。いくつかの実施形態において、蛍光標識されたヌクレオチドおよび/またはヌクレオチドアナログが使用される。ある特定の実施形態において、合成による配列決定は、切断(例えば、識別子の切断および除去)および/または洗浄工程を含む。いくつかの実施形態において、1つまたはそれを超えるヌクレオチドの付加は、本明細書中に記載されるまたは当該分野で公知の好適な方法によって検出され、その非限定的な例としては、任意の好適なイメージング装置、好適なカメラ、デジタルカメラ、CCD(電荷結合素子)に基づくイメージング装置(例えば、CCDカメラ)、CMOS(相補型金属酸化物半導体(Complementary Metal Oxide Silicon))に基づくイメージング装置(例えば、CMOSカメラ)、フォトダイオード(例えば、光電子増倍管)、電子顕微鏡法、電界効果トランジスタ(例えば、DNA電界効果トランジスタ)、ISFETイオンセンサー(例えば、CHEMFETセンサー)などまたはそれらの組み合わせが挙げられる。
本明細書中に記載される方法を行うための任意の好適なMPSの方法、システムまたは技術プラットフォームが、核酸配列リードを得るために使用され得る。MPSプラットフォームの非限定的な例としては、Illumina/Solex/HiSeq(例えば、Illumina’s Genome Analyzer;Genome Analyzer II;HISEQ 2000;HISEQ)、SOLiD、Roche/454、PACBIOおよび/またはSMRT、Helicos True Single Molecule Sequencing、Ion TorrentおよびIon半導体ベースの配列決定(例えば、Life Technologiesが開発したもの)、WildFire、5500、5500xl Wおよび/もしくは5500xl W Genetic Analyzerに基づく技術(例えば、Life Technologiesが開発し、販売しているもの、米国特許出願公開番号2013/0012399);ポロニーシーケンシング、パイロシーケンシング、大規模並列処理シグネチャ配列決定(MPSS)、RNAポリメラーゼ(RNAP)配列決定、LaserGenシステムおよび方法、ナノポアベースのプラットフォーム、化学感応性電界効果トランジスタ(CHEMFET)アレイ、電子顕微鏡法ベースの配列決定(例えば、ZS Genetics,Halcyon Molecularが開発したもの)、ナノボールシーケンシングなどまたはそれらの組み合わせが挙げられる。本明細書中の方法を行うために使用され得る他の配列決定方法としては、デジタルPCR、ハイブリダイゼーションによる配列決定、ナノポア配列決定、染色体特異的配列決定(例えば、DANSR(選択された領域のデジタル解析)技術を用いる)が挙げられる。
いくつかの実施形態において、配列リードは、配列モジュールによって、作製される、得られる、集められる、アセンブルされる、操作される、変換される、処理される、および/または提供される。配列モジュールを備える機器は、当該分野で公知の配列決定技術を使用して核酸の配列を決定する好適な機器および/または装置であり得る。いくつかの実施形態において、配列モジュールは、アラインメントし得る、アセンブルし得る、断片化し得る、相補鎖生成(complement)し得る、逆相補鎖生成(reverse complement)し得る、および/またはエラーチェックし得る(例えば、配列リードをエラー訂正し得る)。
リードのマッピング
配列リードは、マッピングされ得、特定の核酸領域(例えば、染色体またはその一部)にマップするリードの数は、カウントと称される。任意の好適なマッピング方法(例えば、プロセス、アルゴリズム、プログラム、ソフトウェア、モジュールなどまたはそれらの組み合わせ)が使用され得る。マッピングプロセスのある特定の態様が、本明細書の以後に記載される。
ヌクレオチド配列リード(すなわち、物理的なゲノム位置が不明なフラグメントからの配列情報)のマッピングは、いくつかの方法で行われ得、得られた配列リードを参照ゲノム内のマッチする配列とアラインメントすることを含むことが多い。そのようなアラインメントでは、配列リードは、通常、参照配列にアラインメントされ、アラインメントする配列リードは、「マッピングされる」、「マッピングされた配列リード」または「マッピングされたリード」と呼ばれる。ある特定の実施形態において、マッピングされた配列リードは、「ヒット」または「カウント」と称される。いくつかの実施形態において、マッピングされた配列リードは、様々なパラメータに従って共にグループ化され、下記でさらに詳細に論じられる特定のゲノム部分に割り当てられる。
用語「アラインメントされる」、「アラインメント」または「アラインメントする」とは、一般に、マッチ(例えば、100%同一性)または部分的なマッチとして特定され得る2つまたはそれを超える核酸配列のことを指す。アラインメントは、手作業でまたはコンピュータ(例えば、ソフトウェア、プログラム、モジュールまたはアルゴリズム)によって行われ得、その非限定的な例としては、Illumina Genomics Analysisパイプラインの一部として配布されているEfficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムが挙げられる。配列リードのアラインメントは、100%配列マッチであり得る。場合によっては、アラインメントは、100%未満の配列マッチである(すなわち、不完全なマッチ、部分的なマッチ、部分的なアラインメント)。いくつかの実施形態において、アラインメントは、約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%または75%マッチである。いくつかの実施形態において、アラインメントは、ミスマッチを含む。いくつかの実施形態において、アラインメントは、1、2、3、4または5つのミスマッチを含む。2つまたはそれを超える配列が、いずれかの鎖(例えば、センス鎖またはアンチセンス鎖)を用いてアラインメントされ得る。ある特定の実施形態において、核酸配列は、別の核酸配列の逆相補鎖とアラインメントされる。
コンピュータによる様々な方法が、各配列リードをある部分にマッピングするために使用され得る。配列をアラインメントするために使用され得るコンピュータアルゴリズムの非限定的な例としては、BLAST、BLITZ、FASTA、BOWTIE 1、BOWTIE 2、ELAND、MAQ、PROBEMATCH、SOAP、BWAもしくはSEQMAPまたはそれらの変法またはそれらの組み合わせが挙げられるが、これらに限定されない。いくつかの実施形態において、配列リードは、参照ゲノム内の配列とアラインメントされ得る。いくつかの実施形態において、配列リードは、当該分野で公知の核酸データベース内に見出され得、かつ/または当該分野で公知の核酸データベース内の配列とアラインメントされ得、その核酸データベースとしては、例えば、GenBank、dbEST、dbSTS、EMBL(European Molecular Biology Laboratory)およびDDBJ(DNA Databank of Japan)が挙げられる。BLASTまたは同様のツールが、特定された配列を配列データベースに対して検索するために使用され得る。次いで、検索のヒットが、例えば、特定された配列を適切な部分(本明細書の以後に記載される)に選別するために使用され得る。
いくつかの実施形態において、リードは、参照ゲノム内の部分にユニークにまたは非ユニークにマップし得る。あるリードが、参照ゲノム内の単一配列とアラインメントする場合、そのリードは、「ユニークにマッピングされる」と見なされる。あるリードが、参照ゲノム内の2つまたはそれを超える配列とアラインメントする場合、そのリードは、「非ユニークにマッピングされる」と見なされる。いくつかの実施形態において、非ユニークにマッピングされたリードは、さらなる解析(例えば、定量)から除外される。ある特定の実施形態では、参照ゲノムと、マッピングされている個々のサンプル由来のリードとの間に存在し得る単一ヌクレオチド多型を説明するために、ある特定のわずかなミスマッチ(0〜1個)が許容され得る。いくつかの実施形態において、少しの程度のミスマッチも、参照配列にマッピングされるリードに対して許容されない。
本明細書中で使用されるとき、用語「参照ゲノム」とは、部分的であるかまたは完全であるかを問わず、被験体由来の特定された配列の参照にするために使用され得る任意の生物またはウイルスの任意の特定の既知の、配列決定された、または特徴づけられたゲノムのことを指し得る。例えば、ヒト被験体ならびに他の多くの生物のために使用される参照ゲノムは、World Wide Web URL ncbi.nlm.nih.govにおけるNational Center for Biotechnology Informationに見られ得る。「ゲノム」とは、核酸配列として表現される、生物またはウイルスの完全な遺伝情報のことを指す。本明細書中で使用されるとき、参照配列または参照ゲノムは、1つの個体または複数の個体からのアセンブルされたゲノム配列または部分的にアセンブルされたゲノム配列であることが多い。いくつかの実施形態において、参照ゲノムは、1人またはそれを超えるヒト個体からのアセンブルされたまたは部分的にアセンブルされたゲノム配列である。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。
ある特定の実施形態において、マッピング性(mappability)は、ゲノム領域(例えば、部分、ゲノム部分)に対して評価される。マッピング性は、ヌクレオチド配列リードを参照ゲノムの一部に、通常、指定の数のミスマッチ(例えば、0個、1つ、2つもしくはそれを超えるミスマッチを含む)まで明確にアラインメントする能力である。所与のゲノム領域の場合、予想されるマッピング性は、前もって設定されたリード長のスライディングウィンドウ(sliding−window)アプローチを用い、得られたリードレベルのマッピング性の値を平均して、推定され得る。連続したユニークなヌクレオチド配列を含むゲノム領域は、高いマッピング性の値を有するときがある。
ペアエンド配列決定の場合、リードは、好適なマッピングプログラムおよび/またはアラインメントプログラムを使用することによって参照ゲノムにマッピングされ得、そのプログラムの非限定的な例としては、BWA(Li H.and Durbin R.(2009)Bioinformatics 25,1754−60)、Novoalign [Novocraft(2010)]、Bowtie(Langmead Bら(2009)Genome Biol.10:R25)、SOAP2(Li Rら(2009)Bioinformatics 25,1966−67)、BFAST(Homer Nら(2009)PLoS ONE 4,e7767)、GASSST(Rizk,G.and Lavenier,D.(2010)Bioinformatics 26,2534−2540)およびMPscan(Rivals E.ら(2009)Lecture Notes in Computer Science 5724,246−260)などが挙げられる。ペアエンドリードは、好適な短リードアラインメントプログラムを用いてマッピングおよび/またはアラインメントされ得る。短リードアラインメントプログラムの非限定的な例としては、BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、BWA、CASHX、CUDA−EC、CUSHAW、CUSHAW2、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP、Geneious Assembler、iSAAC、LAST、MAQ、mrFAST、mrsFAST、MOSAIK、MPscan、Novoalign、NovoalignCS、Novocraft、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOCS、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、UGENE、VelociMapper、TimeLogic、XpressAlign、ZOOMなどまたはそれらの組み合わせが挙げられる。ペアエンドリードは、参照ゲノムに従って、同じポリヌクレオチドフラグメントの反対側の末端にマッピングされることが多い。いくつかの実施形態において、リードメイトは、独立してマッピングされる。いくつかの実施形態において、両方の配列リードからの(すなわち、各末端からの)情報は、マッピングプロセスにおいて考慮される。参照ゲノムは、ペアエンドリードメイト間に位置する核酸の配列を決定および/または推測するために使用されることが多い。用語「不一致のリードペア」は、本明細書中で使用されるとき、一方または両方のリードメイトが、連続したヌクレオチドのセグメントによって部分的に定義される参照ゲノムの同じ領域に明確にマップしない、リードメイトの対を含むペアエンドリードのことを指す。いくつかの実施形態において、不一致のリードペアは、参照ゲノムの予想外の位置にマップするペアエンドリードメイトである。参照ゲノムの予想外の位置の非限定的な例としては、(i)2本の異なる染色体、(ii)所定のフラグメントサイズを超えて(例えば、300bpを超えて、500bpを超えて、1000bpを超えて、5000bpを超えて、または10,000bpを超えて)離れた位置、(iii)参照配列と一致しない向き(例えば、逆の向き)などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、不一致のリードメイトは、サンプル中の鋳型ポリヌクレオチドフラグメントの長さ(例えば、平均長、所定のフラグメントサイズ)または予想される長さに従って特定される。例えば、サンプル中のポリヌクレオチドフラグメントの平均長または予想される長さを超えて離れた位置にマップするリードメイトは、不一致のリードペアと特定されるときがある。逆の向きでマップするリードペアは、それらのリードの一方の逆相補を取得し、参照配列の同じ鎖を用いて両方のリードのアラインメントを比較することによって決定されるときがある。不一致のリードペアは、当該分野で公知のまたは本明細書中に記載される任意の好適な方法および/またはアルゴリズム(例えば、SVDetect、Lumpy、BreakDancer、BreakDancerMax、CREST、DELLYなどまたはそれらの組み合わせ)によって特定され得る。
部分
いくつかの実施形態において、マッピングされた配列リードは、様々なパラメータに従って共にグループ化され、特定のゲノム部分(例えば、参照ゲノムの部分)に割り当てられる。「部分」は、本明細書中で「ゲノム区分(genomic section)」、「ビン(bin)」、「区画(partition)」、「参照ゲノムの部分」、「染色体の部分」または「ゲノム部分」とも称され得る。
部分は、1つまたはそれを超える特徴に従ってゲノムを分割することによって定義されることが多い。分割のある特定の特徴の非限定的な例としては、長さ(例えば、既定の長さ、既定でない長さ)および他の構造的特徴が挙げられる。ゲノム部分は、以下の特徴:既定の長さ、既定でない長さ、ランダムな長さ、ランダムでない長さ、等しい長さ、等しくない長さ(例えば、ゲノム部分の少なくとも2つが等しくない長さである)、オーバーラップしない(例えば、ゲノム部分の3’末端が、隣接するゲノム部分の5’末端に隣接するときがある)、オーバーラップしている(例えば、ゲノム部分の少なくとも2つがオーバーラップしている)、連続している、連続的である、連続していない、および連続的でない、のうちの1つまたはそれを超える特徴を含むときがある。ゲノム部分は、約1〜約1,000キロベース長(例えば、約2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900キロベース長)、約5〜約500キロベース長、約10〜約100キロベース長または約40〜約60キロベース長であるときがある。
分割は、ある特定の情報に関する特徴(例えば、情報量および情報量増加)に基づくときがあるか、または部分的に基づく。ある特定の情報に関する特徴の非限定的な例としては、アラインメントの速度および/または便利さ、シーケンシングカバレッジのばらつき、GC含有量(例えば、層別化されたGC含有量、特定のGC含量、高いまたは低いGC含有量)、GC含有量の均一性、配列含有量の他の尺度(例えば、個々のヌクレオチドの比率、ピリミジンまたはプリンの比率、天然の核酸と非天然の核酸との比率、メチル化されたヌクレオチドの比率およびCpG含有量)、メチル化の状態、二重鎖の融解温度、配列決定もしくはPCRに対する適用可能性(amenability)、参照ゲノムの個々の部分に割り当てられる不確定値、および/または特定の特徴に対する標的化された検索が挙げられる。いくつかの実施形態において、情報量は、確認された正常な被験体および異常な被験体(例えば、それぞれ正倍数性の被験体およびトリソミーの被験体)の群間を区別するために特定のゲノム位置の有意性を計測するp値プロファイルを用いて定量され得る。
いくつかの実施形態において、ゲノムを分割することにより、ゲノムにわたる類似の領域(例えば、同一または相同の領域または配列)が排除され得、ユニークな領域だけが維持され得る。分割において除去される領域は、単一の染色体内に存在し得るか、1本もしくはそれを超える染色体であり得るか、または複数の染色体に及び得る。いくつかの実施形態において、分割されたゲノムは、より速いアラインメントのために縮小され、最適化されることにより、ユニークに識別可能な配列に焦点を合わせることが多い。
いくつかの実施形態において、ゲノム部分は、オーバーラップしない既定のサイズに基づいて分割することによって生じ、それにより、既定の長さの連続的なオーバーラップしない部分がもたらされる。そのような部分は、染色体より短いことが多く、コピー数変異(またはコピー数変化)の領域(例えば、重複または欠失した領域)より短いことが多く、後者は、セグメントと称され得る。「セグメント」または「ゲノムセグメント」は、2つまたはそれを超える既定の長さのゲノム部分を含むことが多く、2つまたはそれを超える連続的な既定の長さの部分(例えば、約2〜約100個のそのような部分(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90個のそのような部分))を含むことが多い。
複数の部分は、群別で解析されるときがあり、部分にマッピングされたリードは、ゲノム部分の特定の群に従って定量されるときがある。部分が、構造的特徴によって分割され、ゲノムにおける領域に対応する場合、部分は、1つもしくはそれを超えるセグメントおよび/または1つもしくはそれを超える領域にグループ化されるときがある。領域の非限定的な例としては、サブ染色体(すなわち、染色体より短い)、染色体、常染色体、性染色体およびそれらの組み合わせが挙げられる。1つまたはそれを超えるサブ染色体領域は、遺伝子、遺伝子フラグメント、制御配列、イントロン、エキソン、セグメント(例えば、コピー数変化領域をまたぐセグメント;コピー数変異領域をまたぐセグメント)、微小重複、微小欠失などであるときがある。領域は、目的の染色体より小さいかまたは目的の染色体と同じサイズであるときがあり、参照染色体より小さいかまたは参照染色体と同じサイズであるときがある。
部分のフィルタリングおよび/または選択
いくつかの実施形態において、1つまたはそれを超える処理工程は、1つまたはそれを超える部分フィルタリング工程および/または部分選択工程を含み得る。用語「フィルタリング」は、本明細書中で使用されるとき、部分または参照ゲノムの部分を考慮すべきものから除去することを指す。ある特定の実施形態において、1つまたはそれを超える部分は、フィルタリングされる(例えば、フィルタリングプロセスに供される)ことによって、フィルタリングされた部分が提供される。いくつかの実施形態において、フィルタリングプロセスは、ある特定の部分を除去し、部分(例えば、部分のサブセット)を保持する。フィルタリングプロセスの後、保持された部分は、本明細書中で、フィルタリングされた部分と称されることが多い。
参照ゲノムの部分は、任意の好適な基準に基づく除去のために選択され得、その基準としては、冗長なデータ(例えば、冗長なまたはオーバーラップしているマッピングされたリード)、情報のないデータ(例えば、カウントの中央値がゼロである参照ゲノムの部分)、過剰提示されるかもしくは過小提示される配列を含む参照ゲノムの部分、ノイズの多いデータなどまたは前述のものの組み合わせが挙げられるが、これらに限定されない。フィルタリングプロセスは、参照ゲノムの1つまたはそれを超える部分を考慮すべきものから除去すること、および参照ゲノム、染色体または検討中のゲノムの部分に対するカウントされたまたは合計されたカウントから、除去のために選択された参照ゲノムの1つまたはそれを超える部分におけるカウントを減算することを含むことが多い。いくつかの実施形態において、参照ゲノムの部分は、連続的に(例えば、各個別の部分の除去の影響の評価を可能にするために1つずつ)除去され得、ある特定の実施形態では、除去のためにマークされた参照ゲノムのすべての部分が、同時に除去され得る。いくつかの実施形態において、ある特定のレベルより上または下の分散を特徴とする参照ゲノムの部分が除去され、それは、本明細書中で、参照ゲノムの「ノイズの多い」部分のフィルタリングと称されるときがある。ある特定の実施形態において、フィルタリングプロセスは、所定の複数のプロファイルの分散毎に、ある部分、染色体、または染色体の一部のプロファイルレベルの平均値から逸脱するデータポイントをデータセットから得ることを含み、ある特定の実施形態では、フィルタリングプロセスは、所定の複数のプロファイルの分散毎に、ある部分、染色体または染色体の一部のプロファイルレベルの平均値から逸脱しないデータポイントをデータセットから除去することを含む。いくつかの実施形態において、フィルタリングプロセスは、遺伝子変異/遺伝子変化および/またはコピー数変化(例えば、異数性、微小欠失、微小重複)の存在または非存在について解析される参照ゲノムの候補部分の数を減少させるために用いられる。遺伝子変異/遺伝子変化および/またはコピー数変化の存在または非存在について解析される参照ゲノムの候補部分の数の減少は、データセットの複雑さおよび/または次元を低下させることが多く、遺伝子変異/遺伝子変化および/またはコピー数変化を検索するおよび/または識別する速度を2桁またはそれを超える桁数だけ高めるときがある。
部分は、任意の好適な方法によって、および任意の好適なパラメータに従って、処理され得る(例えば、フィルタリングおよび/または選択され得る)。部分をフィルタリングするためおよび/または選択するために使用され得る特徴および/またはパラメータの非限定的な例としては、冗長なデータ(例えば、冗長なまたはオーバーラップしているマッピングされたリード)、情報のないデータ(例えば、マッピングされたカウントが0個である参照ゲノムの部分)、過剰提示もしくは過小提示された配列を含む参照ゲノムの部分、ノイズの多いデータ、カウント、カウントのばらつき、カバレッジ、マッピング性、ばらつき、反復性の尺度、リード密度、リード密度のばらつき、不確定性のレベル、グアニン−シトシン(GC)含有量、CCFフラグメントの長さおよび/またはリード長(例えば、フラグメント長さ比(FLR)、胎児比統計量(FRS))、DNaseI感度、メチル化の状態、アセチル化、ヒストン分布、クロマチン構造、反復パーセントなどまたはそれらの組み合わせが挙げられる。部分は、本明細書中に列挙されるまたは記載される特徴またはパラメータと相関する任意の好適な特徴またはパラメータに従ってフィルタリングされ得、かつ/または選択され得る。部分は、部分に特異的な特徴もしくはパラメータ(例えば、複数のサンプルに係る単一の部分に対して測定されるとき)および/またはサンプルに特異的な特徴もしくはパラメータ(例えば、1つのサンプル内の複数の部分に対して測定されるとき)に従ってフィルタリングされ得、かつ/または選択され得る。いくつかの実施形態において、部分は、比較的低いマッピング性、比較的大きなばらつき、高レベルの不確定性、比較的長いCCFフラグメント長(例えば、低FRS、低FLR)、比較的高い比率の反復配列、高GC含有量、低GC含有量、低カウント、ゼロカウント、高カウントなどまたはそれらの組み合わせに従ってフィルタリングされ、かつ/または除去される。いくつかの実施形態において、部分(例えば、部分のサブセット)は、好適なマッピング性のレベル、ばらつき、不確定性のレベル、反復配列の比率、カウント、GC含有量などまたはそれらの組み合わせに従って選択される。いくつかの実施形態において、部分(例えば、部分のサブセット)は、比較的短いCCFフラグメント長(例えば、高FRS、高FLR)に従って選択される。部分にマッピングされたカウントおよび/またはリードは、部分(例えば、部分のサブセット)をフィルタリングするかまたは選択する前および/または後に処理される(例えば、正規化される)ときがある。いくつかの実施形態において、部分にマッピングされたカウントおよび/またはリードは、部分(例えば、部分のサブセット)をフィルタリングするかまたは選択する前および/または後に処理されない。
いくつかの実施形態において、部分は、誤差の尺度(例えば、標準偏差、標準誤差、算出された分散、p値、平均絶対誤差(MAE)、平均絶対偏差および/または絶対偏差の平均値(MAD)に従ってフィルタリングされ得る。ある特定の場合において、誤差の尺度とは、カウントのばらつきのことを指し得る。いくつかの実施形態において、部分は、カウントのばらつきに従ってフィルタリングされる。ある特定の実施形態において、カウントのばらつきは、複数のサンプル(例えば、複数の被験体、例えば、50もしくはそれを超える、100もしくはそれを超える、500もしくはそれを超える、1000もしくはそれを超える、5000もしくはそれを超えるまたは10,000もしくはそれを超える被験体から得られた複数のサンプル)に対する、参照ゲノムの部分(すなわち、部分)にマッピングされたカウントに対して決定される誤差の尺度である。いくつかの実施形態において、所定の上部範囲より上のカウントのばらつきを有する部分が、フィルタリングされる(例えば、考慮すべきものから除外される)。いくつかの実施形態において、所定の下部範囲より下のカウントのばらつきを有する部分が、フィルタリングされる(例えば、考慮すべきものから除外される)。いくつかの実施形態において、所定の範囲外のカウントのばらつきを有する部分が、フィルタリングされる(例えば、考慮すべきものから除外される)。いくつかの実施形態において、所定の範囲内のカウントのばらつきを有する部分が、選択される(例えば、コピー数変化の存在または非存在を判定するために使用される)。いくつかの実施形態において、部分のカウントのばらつきは、分布(例えば、正規分布)を示す。いくつかの実施形態において、その分布のある分位点内の部分が選択される。いくつかの実施形態において、カウントのばらつきの分布の99%分位点内の部分が、選択される。
いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類する方法は、セグメント化プロセスを用いて特定する工程を含む。いくつかの実施形態において、コピー数変異セグメントの存在または非存在は、第1のゲノム部分セットを含む領域におけるものであり得、その領域は、目的のサブ染色体領域の少なくとも一部を含む。例証的な一例として、第1のゲノム部分セットを含む領域は、図4における黒破線によって囲まれた領域である。いくつかの実施形態において、第1のゲノム部分セットは、目的の表現型と関連するコピー数変異が存在すると予想される染色体における領域内の部分である。いくつかの実施形態において、そのようなゲノム部分は、International Standards of Cytogenomic Arraysデータベース(ISCA)などの公的な疾患データベースをマイニングすることによって得ることができることが多い。いくつかの実施形態において、本明細書中で使用されるゲノム部分は、目的のサブ染色体領域内において、サーキュラーバイナリーセグメンテーション(CBS)アルゴリズムによって特定され得る。1つの実施形態において、表現型は、微小欠失症候群である。1つの実施形態において、第1のゲノム部分セットは、1p36、22q11.2、15q11−13、8q23.2−24.1、11q24.1、4p13.3、17p13.3および7q11.23から選択される1つまたはそれを超えるゲノム部分である。
いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類する方法は、ゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程を含む。ゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む。いくつかの実施形態において、そのセットは、所定のゲノム部分セットである。例証的な一例として、サブ染色体領域は、図4における黒破線によって囲まれた領域である。
いくつかの実施形態において、所定のゲノム部分セットは、訓練セットの中の複数のサンプルに対する1つまたはそれを超える精度尺度に従って特定されており、その訓練セットの中の複数のサンプルの各々は、目的のサブ染色体領域にコピー数変異を有すると分類される。本明細書中に詳細に記載されているように、精度尺度としては、感度、特異性、標準偏差、中央絶対偏差(MAD)、確定性の尺度、信頼の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという確定性または信頼の尺度、不確定性の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという不確定性の尺度、変動係数(CV)、信頼水準、信頼区間(例えば、約95%信頼区間)、標準得点(例えば、z得点)、カイ値、ファイ値、t検定の結果、p値、倍数性値、当てはめられた少数種比率、面積比、中央値レベルなどまたはそれらの組み合わせが挙げられ得るが、これらに限定されない。いくつかの実施形態において、精度尺度は、感度を含む。ゲノム部分は、そのゲノム部分が、最適であると考えられる精度尺度、すなわち、所定のしきい値に等しいかまたはそれより高い精度尺度(これは、コピー数変異の存在または非存在を妥当な精度で検出するための最低限の要件と考えられる)を提供することに基づいて選択される。例えば、感度を精度尺度として使用するとき、しきい値は、70%〜100%、例えば、75%〜99%、80%〜98%または85%〜95%の任意の数値であり得る。
1つの実施形態において、所定のゲノム部分セットは、1)サブ染色体領域内に複数の候補サブ領域を提供する工程;2)訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して1つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程;および3)1つまたはそれを超える精度尺度に従って、(a)におけるサブ領域を、最適な精度を提供するサブ領域として特定する工程を含むプロセスによって特定される。
任意の好適な数のサンプルに由来する配列リードが、本明細書中に記載される1つまたはそれを超える基準、パラメータおよび/または特徴を満たす部分のサブセットを特定するために使用され得る。複数の被験体由来のサンプル群からの配列リードが、使用されるときがある。いくつかの実施形態において、複数の被験体には、妊婦が含まれる。いくつかの実施形態において、複数の被験体には、健常な被験体が含まれる。いくつかの実施形態において、複数の被験体には、癌患者が含まれる。複数の被験体の各々に由来する1つまたはそれを超えるサンプル(例えば、各被験体由来の1〜約20個のサンプル(例えば、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18または19個のサンプル))が対処され得、好適な数の被験体(例えば、約2〜約10,000人の被験体(例えば、約10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000人の被験体))が対処され得る。いくつかの実施形態において、同じ被験体由来の同じテストサンプルからの配列リードが、参照ゲノムにおける部分にマッピングされ、部分のサブセットを生成するために使用される。
部分は、任意の好適な方法によって選択および/またはフィルタリングされ得る。いくつかの実施形態において、部分は、データ、グラフ、プロットおよび/またはチャートの目視検査に従って選択される。ある特定の実施形態において、部分は、1つまたはそれを超えるマイクロプロセッサおよびメモリを備えるシステムまたは機器によって選択および/またはフィルタリングされる(例えば、部分的に)。いくつかの実施形態において、部分は、実行可能なプログラムが格納されている非一時的なコンピュータ可読記憶媒体によって選択および/またはフィルタリングされ(例えば、部分的に)、ここで、そのプログラムは、マイクロプロセッサにその選択および/またはフィルタリングを行うように指示する。
いくつかの実施形態において、サンプルに由来する配列リードは、参照ゲノムのすべてまたはほとんどの部分にマッピングされ、その後、予め選択された部分のサブセットが選択される。例えば、特定の長さのしきい値におけるフラグメントからのリードが優先的にマップする部分のサブセットが、選択され得る。部分のサブセットを予め選択するためのある特定の方法が、米国特許出願公開番号2014/0180594(参照により本明細書中に援用される)に記載されている。選択された部分のサブセットからのリードは、例えば、遺伝子変異または遺伝子変化の存在または非存在を判定するさらなる工程において使用されることが多い。しばしば、選択されない部分からのリードは、遺伝子変異または遺伝子変化の存在または非存在を判定するさらなる工程において使用されない(例えば、選択されない部分におけるリードは、除去またはフィルタリングされる)。
いくつかの実施形態において、リード密度に関連する部分(例えば、リード密度が、ある部分に対するものである場合)は、フィルタリングプロセスによって除去され、除去された部分に関連するリード密度は、コピー数変化の存在または非存在(例えば、染色体異数性、微小重複、微小欠失)の判定に含められない。いくつかの実施形態において、リード密度プロファイルは、フィルタリングされた部分のリード密度を含み、かつ/またはフィルタリングされた部分のリード密度からなる。部分は、カウントの分布および/またはリード密度の分布に従ってフィルタリングされるときがある。いくつかの実施形態において、部分は、カウントおよび/またはリード密度の分布に従ってフィルタリングされ、ここで、それらのカウントおよび/またはリード密度は、1つまたはそれを超える参照サンプルから得られる。1つまたはそれを超える参照サンプルは、本明細書中で訓練セットと称され得る。いくつかの実施形態において、部分は、カウントおよび/またはリード密度の分布に従ってフィルタリングされ、ここで、それらのカウントおよび/またはリード密度は、1つまたはそれを超えるテストサンプルから得られる。いくつかの実施形態において、部分は、リード密度分布に対する不確定性の尺度に従ってフィルタリングされる。ある特定の実施形態において、リード密度において大きな偏差を示す部分が、フィルタリングプロセスによって除去される。例えば、リード密度の分布(例えば、リード密度の平均の平均値または中央値の分布)が決定され得、ここで、その分布における各リード密度は、同じ部分にマップする。不確定性の尺度(例えば、MAD)は、複数のサンプルに対するリード密度の分布を比較することによって決定され得、ここで、ゲノムの各部分は、不確定性の尺度に関連する。前述の例によると、部分は、各部分に関連する不確定性の尺度(例えば、標準偏差(SD)、MAD)および所定のしきい値に従ってフィルタリングされ得る。ある特定の場合において、許容され得る範囲内のMAD値を含む部分が保持され、許容され得る範囲外のMAD値を含む部分が、フィルタリングプロセスによって考慮すべきものから除去される。いくつかの実施形態において、前述の例によると、所定の不確定性の尺度の外側のリード密度値(例えば、リード密度の中央値、平均または平均値)を含む部分は、フィルタリングプロセスによって考慮すべきものから除去されることが多い。いくつかの実施形態において、ある分布の四分位範囲の外側のリード密度値(例えば、リード密度の中央値、平均または平均値)を含む部分が、フィルタリングプロセスによって考慮すべきものから除去される。いくつかの実施形態において、ある分布の四分位範囲の2倍、3倍、4倍または5倍超外側のリード密度値を含む部分が、フィルタリングプロセスによって考慮すべきものから除去される。いくつかの実施形態において、2シグマ、3シグマ、4シグマ、5シグマ、6シグマ、7シグマまたは8シグマ超外側のリード密度値を含む部分(例えば、シグマは標準偏差によって定義される範囲である)が、フィルタリングプロセスによって考慮すべきものから除去される。
配列リードの定量値
選択された特徴または変数に基づいてマッピングされたまたは分割された配列リードは、いくつかの実施形態において、1つまたはそれを超える部分(例えば、参照ゲノムの部分)にマッピングされたリードの量または数を測定するために定量化され得る。ある特定の実施形態において、ある部分またはセグメントにマッピングされた配列リードの量は、カウントまたはリード密度と称される。
カウントは、ゲノム部分に関連することが多い。いくつかの実施形態において、カウントは、部分にマッピングされた(すなわち、部分に関連する)配列リードのいくつかまたはすべてから測定される。ある特定の実施形態において、カウントは、部分の群(例えば、あるセグメントまたは領域(本明細書中に記載される)の中の部分)にマッピングされた配列リードのいくつかまたはすべてから測定される。
カウントは、好適な方法、演算または数学的プロセスによって測定され得る。カウントは、セグメントに対応するゲノム部分またはゲノム部分の群、ゲノムのサブ領域に対応する部分の群(例えば、コピー数変異領域、コピー数変化領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域)にマッピングされたすべての配列リードの直和であるときがあり、かつ/またはゲノムに対応する部分の群であるときがある。リードの定量値は、比であるときがあり、領域aにおける部分に対する定量値と領域bにおける部分に対する定量値との比であるときがある。領域aは、1つの部分、セグメント領域、コピー数変異領域、コピー数変化領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域および/または性染色体領域であるときがある。領域bは、独立して、1つの部分、セグメント領域、コピー数変異領域、コピー数変化領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域、すべての常染色体を含む領域、性染色体を含む領域、および/またはすべての染色体を含む領域であるときがある。
いくつかの実施形態において、カウントは、生の配列リードおよび/またはフィルタリングされた配列リードから得られる。ある特定の実施形態において、カウントは、ゲノム部分またはゲノム部分の群(例えば、ある領域の中のゲノム部分)にマッピングされた配列リードの平均、平均値または合計である。いくつかの実施形態において、カウントは、不確定値に関連する。カウントは、調整されるときがある。カウントは、重み付けされたか、除去されたか、フィルタリングされたか、正規化されたか、調整されたか、平均されたか、平均値として導かれたか、中央値として導かれたか、加算されたか、またはそれらの組み合わせが行われたゲノム部分または部分の群に関連する配列リードに従って調整され得る。
配列リードの定量値は、リード密度であるときがある。リード密度は、ゲノムの1つまたはそれを超えるセグメントに対して測定および/または生成され得る。ある特定の場合において、リード密度は、1つまたはそれを超える染色体に対して測定および/または生成され得る。いくつかの実施形態において、リード密度は、参照ゲノムのセグメントまたは部分にマッピングされた配列リードのカウントの定量的尺度を含む。リード密度は、好適なプロセスによって測定され得る。いくつかの実施形態において、リード密度は、好適な分布および/または好適な分布関数によって測定される。分布関数の非限定的な例としては、確率関数、確率分布関数、確率密度関数(PDF)、カーネル密度関数(カーネル密度推定)、累積分布関数、確率質量関数、離散確率分布、絶対連続単変量分布など、任意の好適な分布またはそれらの組み合わせが挙げられる。リード密度は、好適な確率密度関数から導かれる密度推定値であり得る。密度推定値は、潜在確率密度関数の観察されたデータに基づく推定値の構築である。いくつかの実施形態において、リード密度は、密度推定値(例えば、確率密度推定値、カーネル密度推定値)を含む。リード密度は、ゲノムの1つまたはそれを超える部分(ここで、各部分は配列リードのカウントを含む)の各々に対して密度推定値を生成する工程を含むプロセスに従って生成され得る。リード密度は、部分またはセグメントにマッピングされた、正規化されたおよび/または重み付けされたカウントに対して生成され得る。場合によっては、部分またはセグメントにマッピングされた各リードは、本明細書中に記載される正規化プロセスから得られるその重みと等しい値(例えば、カウント)であるリード密度に寄与し得る。いくつかの実施形態において、1つまたはそれを超える部分またはセグメントに対するリード密度は、調整される。リード密度は、好適な方法によって調整され得る。例えば、1つまたはそれを超える部分に対するリード密度は、重み付けされ得、かつ/または正規化され得る。
所与の部分またはセグメントに対して定量されるリードは、1つの起源または異なる起源に由来し得る。1つの例において、リードは、癌を有するかまたは癌を有すると疑われる被験体由来の核酸から得られることがある。そのような状況では、1つまたはそれを超える部分にマッピングされたリードは、健康な細胞(すなわち、非癌細胞)と癌細胞(例えば、腫瘍細胞)の両方を代表するリードであることが多い。ある特定の実施形態において、ある部分にマッピングされたリードのいくつかは、癌細胞核酸に由来し、同じ部分にマッピングされたリードのいくつかは、非癌細胞核酸に由来する。別の例では、リードは、胎児を有する妊婦由来の核酸サンプルから得られることがある。そのような状況では、1つまたはそれを超える部分にマッピングされたリードは、胎児と胎児の母(例えば、妊婦被験体)の両方を代表するリードであることが多い。ある特定の実施形態において、ある部分にマッピングされたリードのいくつかは、胎児のゲノムに由来し、同じ部分マッピングされたリードのいくつかは、母体のゲノムに由来する。
レベル
いくつかの実施形態において、値(例えば、数、定量値)は、レベルに帰される。レベルは、好適な方法、演算または数学的プロセスによって決定され得る(例えば、処理されたレベル)。レベルは、部分セットに対するカウント(例えば、正規化されたカウント)であるか、またはそのカウントから導かれることが多い。いくつかの実施形態において、ある部分のレベルは、ある部分にマッピングされたカウント(例えば、カウント、正規化されたカウント)の総数に実質的に等しい。レベルは、当該分野で公知の好適な方法、演算または数学的プロセスによって処理されたか、変換されたか、または操作されたカウントから決定されることが多い。いくつかの実施形態において、あるレベルは、処理されたカウントから導かれ、処理されたカウントの非限定的な例としては、重み付けされたカウント、除去されたカウント、フィルタリングされたカウント、正規化されたカウント、調整されたカウント、平均されたカウント、平均値(例えば、平均値レベル)として導かれたカウント、加算されたカウント、減算されたカウント、変換されたカウントまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、あるレベルは、正規化されたカウント(例えば、部分の正規化されたカウント)を含む。あるレベルは、好適なプロセスによって正規化されたカウントに対するものであり得、そのプロセスの非限定的な例は、本明細書中に記載される。あるレベルは、正規化されたカウントまたはカウントの相対量を含み得る。いくつかの実施形態において、あるレベルは、平均された2つまたはそれを超える部分のカウントまたは正規化されたカウントに対するものであり、そのレベルは、平均レベルと称される。いくつかの実施形態において、あるレベルは、平均値レベルと称される、カウントの平均値または正規化されたカウントの平均値を有する部分セットに対するものである。いくつかの実施形態において、あるレベルは、生のカウントおよび/またはフィルタリングされたカウントを含む部分に対して導かれる。いくつかの実施形態において、あるレベルは、生であるカウントに基づく。いくつかの実施形態において、あるレベルは、不確定値(例えば、標準偏差、MAD)に関連する。いくつかの実施形態において、あるレベルは、Z得点またはp値によって表される。
1つまたはそれを超える部分に対するレベルは、本明細書中において「ゲノム区分レベル」と同義である。用語「レベル」は、本明細書中で使用されるとき、用語「高さ」と同義であるときがある。用語「レベル」の意味の判定は、それが使用されている文脈から判定され得る。例えば、用語「レベル」は、部分、プロファイル、リードおよび/またはカウントの文脈において使用されているとき、高さを意味することが多い。用語「レベル」は、物質または組成物の文脈において使用されているとき(例えば、RNAのレベル、プレキシングレベル(plexing level)、量のことを指すことが多い。用語「レベル」は、不確定性の文脈において使用されているとき(例えば、誤差のレベル、信頼のレベル、偏差のレベル、不確定性のレベル)、量のことを指すことが多い。
2つまたはそれを超えるレベル(例えば、あるプロファイルにおける2つまたはそれを超えるレベル)に対する正規化されたまたは正規化されていないカウントは、レベルに従って数学的に操作され得る(例えば、加算され得る、乗算され得る、平均され得る、正規化され得るなどまたはそれらの組み合わせ)ときがある。例えば、2つまたはそれを超えるレベルに対する正規化されたまたは正規化されていないカウントは、あるプロファイルにおけるレベルのうちの1つ、いくつかまたはすべてに従って正規化され得る。いくつかの実施形態において、あるプロファイルにおけるすべてのレベルの正規化されたまたは正規化されていないカウントが、そのプロファイルにおける1つのレベルに従って正規化される。いくつかの実施形態において、あるプロファイルにおける第1の(fist)レベルの正規化されたまたは正規化されていないカウントは、そのプロファイルにおける第2のレベルの正規化されたまたは正規化されていないカウントに従って正規化される。
レベル(例えば、第1のレベル、第2のレベル)の非限定的な例は、処理されたカウントを含む部分セットに対するレベル、カウントの平均値、中央値または平均を含む部分セットに対するレベル、正規化されたカウントを含む部分セットに対するレベルなどまたはそれらの任意の組み合わせである。いくつかの実施形態において、あるプロファイルにおける第1のレベルおよび第2のレベルは、同じ染色体にマッピングされた部分のカウントから導かれる。いくつかの実施形態において、あるプロファイルにおける第1のレベルおよび第2のレベルは、異なる染色体にマッピングされた部分のカウントから導かれる。
いくつかの実施形態において、レベルは、1つまたはそれを超える部分にマッピングされた正規化されたまたは正規化されていないカウントから決定される。いくつかの実施形態において、レベルは、2つまたはそれを超える部分にマッピングされた正規化されたまたは正規化されていないカウントから決定され、ここで、各部分に対する正規化されたカウントは、ほぼ同じであることが多い。カウント(例えば、正規化されたカウント)の変動が、あるレベルに対する部分セットに存在し得る。あるレベルに対する部分セットにおいて、そのセットの他の部分(例えば、ピークおよび/またはディップ)と有意に異なるカウントを有する1つまたはそれを超える部分が存在し得る。任意の好適な数の部分に関連する任意の好適な数の正規化されたまたは正規化されていないカウントが、レベルを定義し得る。
いくつかの実施形態において、あるゲノムの部分のすべてまたはいくつかの正規化されたまたは正規化されていないカウントから、1つまたはそれを超えるレベルが決定され得る。ある染色体またはその一部の正規化されたまたは正規化されていないカウントのすべてまたはいくつかから、レベルが決定され得ることが多い。いくつかの実施形態において、2つまたはそれを超える部分(例えば、部分セット)から導かれた2つまたはそれを超えるカウントが、レベルを決定する。いくつかの実施形態において、2つまたはそれを超えるカウント(例えば、2つまたはそれを超える部分からのカウント)が、レベルを決定する。いくつかの実施形態において、2〜約100,000個の部分からのカウントが、レベルを決定する。いくつかの実施形態において、2〜約50,000個、2〜約40,000個、2〜約30,000個、2〜約20,000個、2〜約10,000個、2〜約5000個、2〜約2500個、2〜約1250個、2〜約1000個、2〜約500個、2〜約250個、2〜約100個または2〜約60個の部分からのカウントが、レベルを決定する。いくつかの実施形態において、約10〜約50個の部分からのカウントが、レベルを決定する。いくつかの実施形態において、約20〜約40個もしくはそれを超える部分からのカウントが、レベルを決定する。いくつかの実施形態において、あるレベルは、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60個もしくはそれを超える部分からのカウントを含む。いくつかの実施形態において、あるレベルは、部分セット(例えば、参照ゲノムの部分セット、染色体の部分セットまたは染色体の一部の部分セット)に対応する。
いくつかの実施形態において、あるレベルは、連続した部分の正規化されたまたは正規化されていないカウントに対して決定される。いくつかの実施形態において、連続した部分(例えば、部分セット)は、ゲノムの隣接した領域または染色体もしくは遺伝子の隣接した領域に相当する。例えば、2つまたはそれを超えて連続した部分は、それらの部分を端と端を付けてマージすることによってアラインメントされたとき、各部分よりも長いDNA配列の配列アセンブリであり得る。例えば、2つまたはそれを超えて連続した部分は、インタクトなゲノム、染色体、遺伝子、イントロン、エキソンまたはそれらの一部であり得る。いくつかの実施形態において、連続した部分および/または連続していない部分の集合(例えば、セット)からレベルが決定される。
データ処理および正規化
カウントされたマッピングされた配列リードは、本明細書中で生データと称される。なぜならそのデータは、操作されていないカウント(例えば、生のカウント)に相当するからである。いくつかの実施形態において、データセット内の配列リードのデータは、アウトカムの提供を容易にするために、さらに処理され得(例えば、数学的におよび/または統計的に操作され得)、および/または表示され得る。ある特定の実施形態において、より大きいデータセットを含むデータセットは、さらなる解析を容易にするために、前処理から恩恵を受け得る。データセットの前処理は、冗長なおよび/もしくは情報価値のない部分または参照ゲノムの部分(例えば、情報価値のないデータを有する参照ゲノムの部分、冗長なマッピングされたリード、カウントの中央値がゼロである部分、過剰提示または過小提示された配列)の除去を含むときがある。理論に限定されるものではないが、データ処理および/または前処理は、(i)ノイズの多いデータを除去し得、(ii)情報価値のないデータを除去し得、(iii)冗長なデータを除去し得、(iv)より大きいデータセットの複雑さを低下させ得、かつ/または(v)1つの形態から1つもしくはそれを超える他の形態へのデータの変換を容易にし得る。用語「前処理」および「処理」は、データまたはデータセットに関して使用されるとき、本明細書中で「処理」と総称される。処理は、データをさらなる解析により適用できるようにし得、いくつかの実施形態ではアウトカムを生成し得る。いくつかの実施形態において、1つもしくはそれを超える処理方法またはすべての処理方法(例えば、正規化方法、部分のフィルタリング、マッピング、検証などまたはそれらの組み合わせ)が、メモリとつながったプロセッサ、マイクロプロセッサ、コンピュータおよび/またはマイクロプロセッサによって制御される装置によって行われる。
用語「ノイズの多いデータ」は、本明細書中で使用されるとき、(a)解析またはプロットされたとき、データポイント間に有意な分散を有するデータ、(b)有意な標準偏差(例えば、3を超える標準偏差)を有するデータ、(c)有意な平均値の標準誤差を有するデータなど、および前述のものの組み合わせのことを指す。ノイズの多いデータは、出発物質(例えば、核酸サンプル)の量および/または質に起因して生じるときがあり、配列リードを生成するために使用されるDNAを調製するためまたは複製するためのプロセスの一部として生じるときがある。ある特定の実施形態において、ノイズは、PCRに基づく方法を用いて調製されたときに過剰提示されるある特定の配列に起因する。本明細書中に記載される方法は、ノイズの多いデータの関与を減少させ得るかまたは排除し得、ゆえに、提供されるアウトカムに対するノイズの多いデータの影響を低減し得る。
用語「情報価値のないデータ」、「情報価値のない参照ゲノム部分」および「情報価値のない部分」は、本明細書中で使用されるとき、所定の閾値と有意に異なるかまたは所定の値のカットオフ範囲に入らない数値を有する部分またはそれに由来するデータのことを指す。本明細書中の用語「しきい値」および「閾値」とは、適格なデータセットを用いて算出される任意の数字であって、遺伝子変異または遺伝子変化(例えば、コピー数変化、異数性、微小重複、微小欠失、染色体異常など)の診断の限度として役立つ任意の数字のことを指す。ある特定の実施形態において、しきい値は、本明細書中に記載される方法によって得られる結果によって上回られ、被験体は、コピー数変化と診断される。閾値または値の範囲は、いくつかの実施形態において、配列リードデータ(例えば、参照および/または被験体からの配列リードデータ)を数学的におよび/または統計的に操作することによって算出されることが多く、ある特定の実施形態において、閾値または値の範囲を生成するように操作される配列リードデータは、配列リードデータ(例えば、参照および/または被験体からの配列リードデータ)である。いくつかの実施形態において、不確定値が決定される。不確定値は、一般に、分散または誤差の尺度であり、分散または誤差の任意の好適な尺度であり得る。いくつかの実施形態において、不確定値は、標準偏差、標準誤差、算出された分散、p値または平均絶対偏差(MAD)である。いくつかの実施形態において、不確定値は、本明細書中に記載される式に従って算出され得る。
任意の好適な手順が、本明細書中に記載されるデータセットを処理するために使用され得る。データセットを処理するために使用するのに適した手順の非限定的な例としては、フィルタリング、正規化、重み付け、ピーク高さのモニタリング、ピーク面積のモニタリング、ピーク端のモニタリング、ピークレベル解析、ピーク幅解析、ピーク端位置解析、ピーク側方許容(peak lateral tolerances)、面積比の測定、データの数学的処理、データの統計的処理、統計的アルゴリズムの適用、固定変数を用いた解析、最適化された変数を用いた解析、さらなる処理のためにパターンまたは傾向を特定するためのデータのプロットなどおよび前述のものの組み合わせが挙げられる。いくつかの実施形態において、データセットは、様々な特徴(例えば、GC含有量、マッピングされた冗長なリード、セントロメア領域、テロメア領域などおよびそれらの組み合わせ)および/または変数(例えば、被験体の性別、被験体の齢、被験体の倍数性、癌細胞核酸の寄与パーセント、胎児の性別、母体の齢、母体の倍数性、胎児核酸の寄与パーセントなどまたはそれらの組み合わせ)に基づいて処理される。ある特定の実施形態において、本明細書中に記載されるようなデータセットの処理は、大きなおよび/または複雑なデータセットの複雑さおよび/または次元を低下させ得る。複雑なデータセットの非限定的な例としては、異なる齢および民族的バックグラウンドの、1つまたはそれを超える試験被験体および複数の参照被験体から生成された配列リードデータが挙げられる。いくつかの実施形態において、データセットは、各試験被験体および/または各参照被験体に対する数千個から数百万個の配列リードを含み得る。
データ処理は、ある特定の実施形態において、任意の数の工程で行われ得る。例えば、データは、いくつかの実施形態において、ただ1つの処理手順を用いて処理され得、ある特定の実施形態において、データは、1つもしくはそれを超える、5つもしくはそれを超える、10個もしくはそれを超える、または20個もしくはそれを超える処理工程(例えば、1つもしくはそれを超える処理工程、2つもしくはそれを超える処理工程、3つもしくはそれを超える処理工程、4つもしくはそれを超える処理工程、5つもしくはそれを超える処理工程、6つもしくはそれを超える処理工程、7つもしくはそれを超える処理工程、8つもしくはそれを超える処理工程、9つもしくはそれを超える処理工程、10個もしくはそれを超える処理工程、11個もしくはそれを超える処理工程、12個もしくはそれを超える処理工程、13個もしくはそれを超える処理工程、14個もしくはそれを超える処理工程、15個もしくはそれを超える処理工程、16個もしくはそれを超える処理工程、17個もしくはそれを超える処理工程、18個もしくはそれを超える処理工程、19個もしくはそれを超える処理工程または20個もしくはそれを超える処理工程)を用いて処理され得る。いくつかの実施形態において、処理工程は、2回またはそれを超える回数繰り返される同じ工程(例えば、2回またはそれを超える回数のフィルタリング、2回またはそれを超える回数の正規化)であり得、ある特定の実施形態において、処理工程は、同時にまたは連続して行われる2つまたはそれを超える異なる処理工程(例えば、フィルタリング、正規化;ピーク高さおよびピーク端の正規化、モニタリング;フィルタリング、正規化、参照に対する正規化、p値を決定する統計的操作など)であり得る。いくつかの実施形態において、任意の好適な数および/または組み合わせの同じまたは異なる処理工程が、アウトカムの提供を容易にするために配列リードデータを処理するために使用され得る。ある特定の実施形態において、本明細書中に記載される基準によるデータセットの処理は、データセットの複雑さおよび/または次元を低下させ得る。
いくつかの実施形態において、1つまたはそれを超える処理工程は、1つまたはそれを超える正規化工程を含み得る。正規化は、本明細書中に記載されるまたは当該分野で公知の好適な方法によって行われ得る。ある特定の実施形態において、正規化は、異なるスケールで計測された値を概念的に共通のスケールに調整することを含む。ある特定の実施形態において、正規化は、調整された値の確率分布をアラインメントの状態にするための高度な数学的調整を含む。いくつかの実施形態において、正規化は、分布を正規分布に整合させることを含む。ある特定の実施形態において、正規化は、ある特定の全体的な影響(例えば、誤差および例外)の作用を排除するように、異なるデータセットに対する対応する正規化された値の比較を可能にする数学的調整を含む。ある特定の実施形態において、正規化は、スケーリングを含む。正規化は、所定の変数または式による1つまたはそれを超えるデータセットの除算を含むときがある。正規化は、所定の変数または式による1つまたはそれを超えるデータセットの減算を含むときがある。正規化方法の非限定的な例としては、部分ごとの正規化、GC含有量による正規化、カウントの中央値(ビンカウントの中央値、部分カウントの中央値)の正規化、線形および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所的に重み付けされた散布図平滑化)、主成分正規化、リピートマスク(RM)、GC正規化およびリピートマスク(GCRM)、cQnならびに/またはそれらの組み合わせが挙げられる。いくつかの実施形態において、コピー数変化(例えば、異数性、微小重複、微小欠失)の存在または非存在の判定は、正規化方法(例えば、部分ごとの正規化、GC含有量による正規化、カウントの中央値(ビンカウントの中央値、部分カウントの中央値)の正規化、線形および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所的に重み付けされた散布図平滑化)、主成分正規化、リピートマスク(RM)、GC正規化およびリピートマスク(GCRM)、cQn、当該分野で公知の正規化方法、ならびに/またはそれらの組み合わせ)を用いる。使用され得る正規化プロセスのある特定の例、例えば、LOESS正規化、主成分正規化およびハイブリッド正規化方法が、本明細書の以後に、より詳細に説明される。ある特定の正規化プロセスの態様は、例えば、国際特許出願公開番号WO2013/052913および国際特許出願公開番号WO2015/051163(その各々が参照により本明細書中に援用される)にも記載されている。
任意の好適な数の正規化を使用することができる。いくつかの実施形態において、データセットは、1回もしくはそれを超える回数、5回もしくはそれを超える回数、10回もしくはそれを超える回数またはなおも20回もしくはそれを超える回数だけ、正規化され得る。データセットは、任意の好適な特徴または変数(例えば、サンプルデータ、参照データまたはその両方)を代表する値(例えば、正規化値)に対して正規化され得る。使用され得るデータ正規化のタイプの非限定的な例としては、1つまたはそれを超える選択された試験部分または参照部分に対する生のカウントデータを、その選択された部分または区分がマッピングされた染色体またはゲノム全体にマッピングされたカウントの総数に対して正規化すること;1つまたはそれを超える選択された部分に対する生のカウントデータを、選択された部分がマッピングされた1つもしくはそれを超える部分または染色体に対する参照カウントの中央値に対して正規化すること;生のカウントデータを、事前に正規化されたデータまたはその微分係数に対して正規化すること;および事前に正規化されたデータを、1つまたはそれを超える他の所定の正規化変数に対して正規化することが挙げられる。データセットの正規化は、所定の正規化変数として選択された特徴または特性に応じて、統計的誤差を切り離す効果を有するときがある。データセットの正規化は、データを共通のスケール(例えば、所定の正規化変数)にすることによって、異なるスケールを有するデータのデータ特性の比較も可能にするときがある。いくつかの実施形態において、統計的に導出された値に対する1つまたはそれを超える正規化は、データの差異を最小にするためおよび範囲外のデータの重要性を低下させるために使用され得る。部分または参照ゲノムの部分を正規化値に対して正規化することは、「部分ごとの正規化」と称されるときがある。
ある特定の実施形態において、処理工程は、1つまたはそれを超える数学的操作および/または統計的操作を含み得る。任意の好適な数学的操作および/または統計的操作が、本明細書中に記載されるデータセットを解析するためおよび/または操作するために、単独でまたは組み合わせて使用され得る。任意の好適な数の数学的操作および/または統計的操作を使用することができる。いくつかの実施形態において、データセットは、1回もしくはそれを超える回数、5回もしくはそれを超える回数、10回もしくはそれを超える回数または20回もしくはそれを超える回数だけ、数学的におよび/または統計的に操作され得る。使用され得る数学的操作および統計的操作の非限定的な例としては、加算、減算、乗算、除算、代数関数、最小二乗推定量、カーブフィッティング、微分方程式、有理多項式、二重多項式(double polynomial)、直交多項式、z得点、p値、カイ値、ファイ値、ピークレベルの解析、ピーク端位置の決定、ピーク面積比の計算、染色体レベル中央値の解析、平均絶対偏差の算出、平方残差の和、平均値、標準偏差、標準誤差などまたはそれらの組み合わせが挙げられる。数学的操作および/または統計的操作は、配列リードデータの全部もしくは一部またはその処理されたものに対して行われ得る。統計的に操作され得るデータセットの変数または特徴の非限定的な例としては、生のカウント、フィルタリングされたカウント、正規化されたカウント、ピーク高さ、ピーク幅、ピーク面積、ピーク端、側方許容(lateral tolerance)、P値、中央値レベル、平均値レベル、ゲノム領域内のカウントの分布、核酸種の相対的な提示などまたはそれらの組み合わせが挙げられる。
いくつかの実施形態において、処理工程は、1つまたはそれを超える統計的アルゴリズムの使用を含み得る。任意の好適な統計的アルゴリズムが、本明細書中に記載されるデータセットを解析するためおよび/または操作するために、単独でまたは組み合わせて使用され得る。任意の好適な数の統計的アルゴリズムを使用することができる。いくつかの実施形態において、データセットは、1つもしくはそれを超える、5つもしくはそれを超える、10個もしくはそれを超えるまたは20個もしくはそれを超える統計的アルゴリズムを用いて解析され得る。本明細書中に記載される方法とともに使用するのに適した統計的アルゴリズムの非限定的な例としては、主成分分析、決定木、対立帰無仮説、多重比較、総括的検定、ベーレンス・フィッシャー問題、ブートストラッピング、独立した有意性検定を組み合わせるためのフィッシャーの方法、帰無仮説、第1種の過誤、第2種の過誤、正確検定、1標本Z検定、2標本Z検定、1標本t検定、対応のあるt検定、等しい分散を有するプールされた2標本t検定、不等分散を有するプールされない2標本t検定、1比率z検定、プールされた2比率z検定、プールされない2比率z検定、1標本カイ二乗検定、分散を等しくするための2標本F検定、信頼区間、信用区間、有意性、メタ解析、線形単回帰、ロバスト線形回帰などまたは前述のものの組み合わせが挙げられる。統計的アルゴリズムを用いて解析され得るデータセットの変数または特徴の非限定的な例としては、生のカウント、フィルタリングされたカウント、正規化されたカウント、ピーク高さ、ピーク幅、ピーク端、側方許容、P値、中央値レベル、平均値レベル、ゲノム領域内のカウントの分布、核酸種の相対的な提示などまたはそれらの組み合わせが挙げられる。
ある特定の実施形態において、データセットは、複数の(例えば、2つもしくはそれを超える)統計的アルゴリズム(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、K最近隣法、ロジスティック回帰および/または平滑化法)ならびに/または数学的操作および/もしくは統計的操作(例えば、本明細書中で操作と称されるもの)を使用することによって解析され得る。いくつかの実施形態において、複数の操作の使用により、アウトカムを提供するために使用され得るN次元空間が生成され得る。ある特定の実施形態において、複数の操作を用いることによるデータセットの解析は、そのデータセットの複雑さおよび/または次元を低下させ得る。例えば、参照データセットに対して複数の操作を使用することにより、参照サンプルの状態(例えば、選択されたコピー数変化に対して陽性または陰性)に応じて、遺伝子変異/遺伝子変化および/またはコピー数変化の存在または非存在を表すために使用され得るN次元空間(例えば、確率プロット)が生成され得る。実質的に類似の操作セットを用いたテストサンプルの解析は、各テストサンプルに対してN次元のポイントを生成するために使用され得る。試験被験体のデータセットの複雑さおよび/または次元は、参照データから生成されたN次元空間と容易に比較され得る単一値またはN次元のポイントにまで低下するときがある。参照被験体のデータによって占有されたN次元空間に入るテストサンプルのデータは、参照被験体の遺伝的状態と実質的に同様の遺伝的状態を示唆する。参照被験体のデータに占有されたN次元空間に入らないテストサンプルのデータは、参照被験体の遺伝的状態と実質的に異なる遺伝的状態を示唆する。いくつかの実施形態において、参照は、正倍数性であるか、あるいは遺伝子変異/遺伝子変化および/もしくはコピー数変化ならびに/または医学的症状を別段有しない。
データセットがカウントされ、必要に応じてフィルタリングされ、正規化され、必要に応じて重み付けされた後、処理されたデータセットは、いくつかの実施形態において、1つまたはそれを超えるフィルタリング手順および/または正規化手順および/または重み付け手順によってさらに操作され得る。1つまたはそれを超えるフィルタリング手順および/または正規化手順および/または重み付け手順によってさらに操作されたデータセットは、ある特定の実施形態において、プロファイルを生成するために使用され得る。1つまたはそれを超えるフィルタリング手順および/または正規化手順および/または重み付け手順は、いくつかの実施形態において、データセットの複雑さおよび/または次元を低下させ得るときがある。アウトカムは、低下した複雑さおよび/または次元のデータセットに基づいて提供され得る。いくつかの実施形態において、例えば、重み付けによってさらに操作された処理されたデータのプロファイルのプロットは、分類および/またはアウトカムの提供を容易にするために生成される。アウトカムは、例えば、重み付けされたデータのプロファイルのプロットに基づいて提供され得る。
部分のフィルタリングまたは重み付けは、解析における1つまたはそれを超える好適な時点において行われ得る。例えば、部分は、配列リードが参照ゲノムの部分に対してマッピングされる前またはマッピングされた後に、フィルタリングされ得るかまたは重み付けされ得る。部分は、いくつかの実施形態において、個々のゲノム部分に対する実験上のバイアスが決定される前または決定された後に、フィルタリングされ得るかまたは重み付けされ得る。ある特定の実施形態において、部分は、レベルが算出される前または算出された後に、フィルタリングされ得るかまたは重み付けされ得る。
データセットが、カウントされ、必要に応じてフィルタリングされ、正規化され、必要に応じて重み付けされた後、処理されたデータセットは、いくつかの実施形態において、1つまたはそれを超える数学的操作および/または統計的操作(例えば、統計関数または統計的アルゴリズム)によって操作され得る。ある特定の実施形態において、処理されたデータセットは、1つまたはそれを超える選択された部分、染色体または染色体の部分に対するZ得点を算出することによってさらに操作され得る。いくつかの実施形態において、処理されたデータセットは、P値を算出することによってさらに操作され得る。ある特定の実施形態において、数学的操作および/または統計的操作は、倍数性および/または少数種の比率(例えば、癌細胞核酸の比率;胎児比率)に関する1つまたはそれを超える仮定を含む。いくつかの実施形態において、1つまたはそれを超える統計的操作および/または数学的操作によってさらに操作された処理されたデータのプロファイルのプロットは、分類および/またはアウトカムの提供を容易にするために生成される。アウトカムは、統計的におよび/または数学的に操作されたデータのプロファイルのプロットに基づいて提供され得る。統計的におよび/または数学的に操作されたデータのプロファイルのプロットに基づいて提供されるアウトカムは、倍数性および/または少数種の比率(例えば、癌細胞核酸の比率;胎児比率)に関する1つまたはそれを超える仮定を含むことが多い。
いくつかの実施形態において、データの解析および処理は、1つまたはそれを超える仮定の使用を含み得る。好適な数またはタイプの仮定が、データセットを解析するためまたは処理するために使用され得る。データの処理および/または解析のために使用され得る仮定の非限定的な例としては、被験体の倍数性、癌細胞の寄与、母体の倍数性、胎児の寄与、参照集団におけるある特定の配列の保有率(prevalence)、民族的バックグラウンド、関係する家族における選択された医学的症状の有病率、異なる患者由来の生のカウントプロファイル間ならびに/またはGC正規化およびリピートマスク(例えば、GCRM)の後のラン間の類似、完全一致がPCRアーチファクト(例えば、同一の塩基位置)を表すこと、核酸定量アッセイ(例えば、胎児数量アッセイ(FQA))に固有の仮定、双子に関する仮定(例えば、双子の2人ともおよび1人だけが罹患している場合、有効な胎児比率は、計測された胎児比率の合計の50%だけである(三つ子、四つ子なども同様に))、無細胞DNA(例えば、cfDNA)がゲノム全体を均一にカバーすることなどおよびそれらの組み合わせが挙げられる。
マッピングされた配列リードの質および/または深度が、正規化されたカウントプロファイルに基づいて所望の信頼水準(例えば、95%またはそれより高い信頼水準)において遺伝子変異/遺伝子変化および/またはコピー数変化の存在または非存在のアウトカムの予測を可能にしない場合、データ解析および/またはアウトカムの提供にとって有用なさらなる数値を生成するために、1つまたはそれを超えるさらなる数学的操作アルゴリズムおよび/または統計的予測アルゴリズムが使用され得る。用語「正規化されたカウントプロファイル」は、本明細書中で使用されるとき、正規化されたカウントを用いて生成されるプロファイルのことを指す。正規化されたカウントおよび正規化されたカウントプロファイルを生成するために使用され得る方法の例は、本明細書中に記載される。述べるように、マッピングされてカウントされた配列リードは、テストサンプルのカウントまたは参照サンプルのカウントに関して正規化され得る。いくつかの実施形態において、正規化されたカウントプロファイルは、プロットとして示され得る。
使用され得る処理工程および正規化方法の非限定的な例、例えば、ウィンドウ(スタティックまたはスライディング)に対する正規化、重み付け、バイアスの関係の決定、LOESS正規化、主成分正規化、ハイブリッド正規化、プロファイルの生成および比較の実施が、本明細書の以後に、より詳細に説明される。
ウィンドウ(スタティックまたはスライディング)に対する正規化
ある特定の実施形態において、処理工程は、スタティックウィンドウ(static window)に対する正規化を含み、いくつかの実施形態において、処理工程は、ムービング(moving)ウィンドウまたはスライディングウィンドウ(sliding window)に対する正規化を含む。用語「ウィンドウ」は、本明細書中で使用されるとき、解析のために選択され、比較のための参照として使用される(例えば、正規化および/または他の数学的もしくは統計的操作のために使用される)ときがある、1つまたはそれを超える部分のことを指す。用語「スタティックウィンドウに対する正規化」は、本明細書中で使用されるとき、試験被験体のデータセットと参照被験体のデータセットとの比較のために選択された1つまたはそれを超える部分を用いる正規化プロセスのことを指す。いくつかの実施形態において、選択された部分は、プロファイルを生成するために使用される。スタティックウィンドウは、一般に、操作中および/または解析中に変化しない所定の部分セットを含む。用語「ムービングウィンドウに対する正規化」および「スライディングウィンドウに対する正規化」は、本明細書中で使用されるとき、選択された試験部分のゲノム領域に局在する部分(例えば、囲んでいるすぐ近くの部分、隣接する部分または区分など)に対して行われる正規化のことを指し、ここで、1つまたはそれを超える選択された試験部分は、その選択された試験部分をすぐ接して囲んでいる部分に対して正規化される。ある特定の実施形態において、選択された部分は、プロファイルを生成するために使用される。スライディングウィンドウ正規化またはムービングウィンドウ正規化は、隣接する試験部分に繰り返してムービングまたはスライディングすること、および新たに選択された試験部分を、その新たに選択された試験部分をすぐ接して囲んでいるかまたはその新たに選択された試験部分に隣接する部分に対して正規化することを含むことが多く、ここで、隣接するウィンドウは、1つまたはそれを超える部分を共通して有する。ある特定の実施形態において、複数の選択された試験部分および/または染色体が、スライディングウィンドウプロセスによって解析され得る。
いくつかの実施形態において、スライディングウィンドウまたはムービングウィンドウに対する正規化は、1つまたはそれを超える値を生成し得、ここで、各値は、異なるゲノム領域(例えば、染色体)から選択される異なる参照部分セットに対する正規化に相当する。ある特定の実施形態において、生成された1つまたはそれを超える値は、累積和(例えば、選択された部分、ドメイン(例えば、染色体の一部)または染色体)に対する正規化されたカウントプロファイルの積分の推定数値)である。スライディングウィンドウまたはムービングウィンドウプロセスによって生成される値は、プロファイルを生成し、アウトカムに到達するのを促進するために使用され得る。いくつかの実施形態において、1つまたはそれを超える部分の累積和は、ゲノム位置の関数として表示され得る。ムービングウィンドウ解析またはスライディングウィンドウ解析は、微小欠失および/または微小重複の存在または非存在についてゲノムを解析するために使用されるときがある。ある特定の実施形態において、1つまたはそれを超える部分の累積和の表示は、コピー数変化(例えば、微小欠失、微小重複)の領域の存在または非存在を識別するために使用される。
重み付け
いくつかの実施形態において、処理工程は、重み付けを含む。用語「重み付けされる」、「重み付けする」もしくは「重み関数」またはそれらの文法上の派生物もしく等価物は、本明細書中で使用されるとき、他のデータセットの特徴または変数に対してある特定のデータセットの特徴または変数の影響を変化させる(例えば、選択された部分または参照ゲノムの部分におけるデータの質または有用性に基づいて、1つもしくはそれを超える部分または参照ゲノムの部分に含まれるデータの有意性および/または寄与を増減させる)ために利用されるときがあるデータセットの一部または全部の数学的操作のことを指す。重み付け関数は、いくつかの実施形態において、測定値の分散が比較的小さいデータの影響を増大させるためおよび/または測定値の分散が比較的大きいデータの影響を減少させるために使用され得る。例えば、過小提示または低品質の配列データを有する参照ゲノムの部分は、データセットに対する影響を最小にするために「重み付けを小さく」され得るのに対して、選択された参照ゲノムの部分は、データセットに対する影響を増大させるために「重み付けを大きく」され得る。重み付け関数の非限定的な例は、[1/(標準偏差)2]である。部分の重み付けによって、部分依存性が排除されるときがある。いくつかの実施形態において、1つまたはそれを超える部分は、固有の関数(例えば、固有関数)によって重み付けされる。いくつかの実施形態において、ある固有の関数は、部分を直交固有部分で置き換えることを含む。重み付け工程は、正規化工程と実質的に同様の様式で行われるときがある。いくつかの実施形態において、データセットを所定の変数(例えば、重み付け変数)で調整する(例えば、除算する、乗算する、加算する、減算する)。いくつかの実施形態において、データセットを所定の変数(例えば、重み付け変数)で除算する。所定の変数(例えば、最小化された目的関数、Phi)は、データセットの異なる一部を異なって重み付けする(例えば、他のデータタイプの影響を減少させつつ、ある特定のデータタイプの影響を増大させる)ために選択されることが多い。
バイアスの関係
いくつかの実施形態において、処理工程は、バイアスの関係の判定を含む。例えば、1つまたはそれを超える関係が、局所ゲノムバイアス推定値とバイアス頻度との間に生成される。用語「関係」は、本明細書中で使用されるとき、2つまたはそれを超える変数または値の間の数学的および/またはグラフ的な関係のことを指す。ある関係は、好適な数学的プロセスおよび/またはグラフ的プロセスによって生成され得る。関係の非限定的な例としては、関数、相関、分布、線形方程式または非線形方程式、線、回帰、適合回帰(fitted regression)などまたはそれらの組み合わせの数学的表示および/またはグラフ表示が挙げられる。関係は、当てはめ関係を含むときがある。いくつかの実施形態において、当てはめ関係は、適合回帰を含む。関係は、重み付けされた2つまたはそれを超える変数または値を含むときがある。いくつかの実施形態において、ある関係は、その関係の1つまたはそれを超える変数または値が重み付けされた適合回帰を含む。回帰は、重み付けされる形式で当てはめられるときがある。回帰は、重み付けなしで当てはめられるときがある。ある特定の実施形態において、関係を生成することは、プロットすることまたはグラフで示すことを含む。
ある特定の実施形態において、GC密度とGC密度頻度との間に関係が生成される。いくつかの実施形態において、サンプルに対する(i)GC密度と(ii)GC密度頻度との間に関係を生成することにより、サンプルGC密度関係が提供される。いくつかの実施形態において、参照に対する(i)GC密度と(ii)GC密度頻度との間の関係を生成することにより、参照GC密度関係が提供される。いくつかの実施形態において、局所ゲノムバイアス推定値がGC密度である場合、サンプルバイアス関係は、サンプルGC密度関係であり、参照バイアス関係は、参照GC密度関係である。参照GC密度関係および/またはサンプルGC密度関係のGC密度は、局所GC含有量の提示(例えば、数学的提示または定量的提示)であることが多い。
いくつかの実施形態において、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、分布を含む。いくつかの実施形態において、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、当てはめ関係(例えば、適合回帰)を含む。いくつかの実施形態において、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、適合された線形または非線形回帰(例えば、多項式回帰)を含む。ある特定の実施形態において、局所ゲノムバイアス推定値および/またはバイアス頻度が好適なプロセスによって重み付けされる場合、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、重み付けされた関係を含む。いくつかの実施形態において、重み付けされた当てはめ関係(例えば、重み付けされた当てはめ)は、内挿を用いた、分位点回帰、パラメータ化された分布または経験的な分布を含むプロセスによって得ることができる。ある特定の実施形態において、局所ゲノムバイアス推定値が重み付けされる場合、テストサンプル、参照またはその一部に対する局所ゲノムバイアス推定値とバイアス頻度との間の関係は、多項式回帰を含む。いくつかの実施形態において、重み付けされた当てはめモデルは、分布の値の重み付けを含む。分布の値は、好適なプロセスによって重み付けされ得る。いくつかの実施形態において、分布の裾の近くに位置する値には、分布の中央値により近い値よりも小さい重みが提供される。例えば、局所ゲノムバイアス推定値(例えば、GC密度)とバイアス頻度(例えば、GC密度頻度)との間の分布の場合、所与の局所ゲノムバイアス推定値に対するバイアス頻度に従って重みが決定され、ここで、分布の平均値により近いバイアス頻度を含む局所ゲノムバイアス推定値には、その平均値からより遠くのバイアス頻度を含む局所ゲノムバイアス推定値よりも大きい重みが提供される。
いくつかの実施形態において、処理工程は、テストサンプルの配列リードの局所ゲノムバイアス推定値を参照(例えば、参照ゲノムまたはその一部)の局所ゲノムバイアス推定値と比較することによって配列リードカウントを正規化する工程を含む。いくつかの実施形態において、配列リードのカウントは、テストサンプルの局所ゲノムバイアス推定値のバイアス頻度を、参照の局所ゲノムバイアス推定値のバイアス頻度と比較することによって正規化される。いくつかの実施形態において、配列リードのカウントは、サンプルバイアス関係と参照バイアス関係とを比較することによって正規化され、それによって、比較結果が生成される。
配列リードのカウントは、2つまたはそれを超える関係の比較結果に従って正規化され得る。ある特定の実施形態において、2つまたはそれを超える関係が比較され、それによって、配列リードにおける局所バイアスを減少させる(例えば、カウントを正規化する)ために使用される比較結果が提供される。2つまたはそれを超える関係は、好適な方法によって比較され得る。いくつかの実施形態において、比較結果は、第1の関係と第2の関係との加算、減算、乗算および/または除算を含む。ある特定の実施形態において、2つまたはそれを超える関係の比較は、好適な線形回帰および/または非線形回帰の使用を含む。ある特定の実施形態において、2つまたはそれを超える関係の比較は、好適な多項式回帰(例えば、3次多項式回帰)を含む。いくつかの実施形態において、比較結果は、第1の回帰と第2の回帰との加算、減算、乗算および/または除算を含む。いくつかの実施形態において、2つまたはそれを超える関係は、複数の回帰の推論フレームワークを含むプロセスによって比較される。いくつかの実施形態において、2つまたはそれを超える関係は、好適な多変量解析を含むプロセスによって比較される。いくつかの実施形態において、2つまたはそれを超える関係は、基底関数(例えば、ブレンディング関数、例えば、多項式基底、フーリエ基底など)、スプライン、放射基底関数および/またはウェーブレットを含むプロセスによって比較される。
ある特定の実施形態において、テストサンプルおよび参照に対するバイアス頻度を含む局所ゲノムバイアス推定値の分布は、局所ゲノムバイアス推定値が重み付けされる多項式回帰を含むプロセスによって比較される。いくつかの実施形態において、多項式回帰は、(i)比(この比の各々は、参照の局所ゲノムバイアス推定値のバイアス頻度およびサンプルの局所ゲノムバイアス推定値のバイアス頻度を含む)と(ii)局所ゲノムバイアス推定値との間において生成される。いくつかの実施形態において、多項式回帰は、(i)参照の局所ゲノムバイアス推定値のバイアス頻度と、サンプルの局所ゲノムバイアス推定値のバイアス頻度との比と、(ii)局所ゲノムバイアス推定値との間において生成される。いくつかの実施形態において、テストサンプルおよび参照のリードに対する局所ゲノムバイアス推定値の分布の比較は、参照およびサンプルに対する局所ゲノムバイアス推定値のバイアス頻度のlog比(例えば、log2比)を測定することを含む。いくつかの実施形態において、局所ゲノムバイアス推定値の分布の比較は、参照に対する局所ゲノムバイアス推定値のバイアス頻度のlog比(例えば、log2比)を、サンプルに対する局所ゲノムバイアス推定値のバイアス頻度のlog比(例えば、log2比)で除算することを含む。
比較結果に従ってカウントを正規化することは、代表的には、いくつかのカウントを調整し、他のものを調整しない。カウントの正規化は、すべてのカウントを調整するときがあり、配列リードのいかなるカウントも調整しないときがある。配列リードに対するカウントは、重み付け係数を決定する工程を含むプロセスによって正規化されるときがあり、そのプロセスは、重み付け係数を直接生成し、使用する工程を含まないときがある。比較結果に従ってカウントを正規化することは、配列リードの各カウントに対して重み付け係数を決定することを含むときがある。重み付け係数は、配列リードに特異的であることが多く、特異的な配列リードのカウントに適用される。重み付け係数は、2つまたはそれを超えるバイアス関係の比較結果(例えば、参照バイアス関係と比較されるサンプルバイアス関係)に従って決定されることが多い。正規化されたカウントは、重み付け係数に従ってカウント値を調整することによって決定されることが多い。重み付け係数に従ってカウントを調整することは、配列リードに対するカウントに重み付け係数を加算すること、配列リードに対するカウントから重み付け係数を減算すること、配列リードに対するカウントに重み付け係数を乗算すること、および/または配列リードに対するカウントを重み付け係数で除算することを含むときがある。重み付け係数および/または正規化されたカウントは、回帰(例えば、回帰直線)から決定されるときがある。正規化されたカウントは、参照(例えば、参照ゲノム)の局所ゲノムバイアス推定値のバイアス頻度とテストサンプルの局所ゲノムバイアス推定値のバイアス頻度との比較結果から生じる回帰直線(例えば、当てはめられた回帰直線)から直接得られるときがある。いくつかの実施形態において、サンプルのリードの各カウントには、(ii)参照の局所ゲノムバイアス推定値のバイアス頻度と比較された、(i)リードの局所ゲノムバイアス推定値のバイアス頻度の比較結果に従って、正規化されたカウント値が提供される。ある特定の実施形態において、サンプルに対して得られた配列リードのカウントが正規化され、それらの配列リードにおけるバイアスが減少する。
LOESS正規化
いくつかの実施形態において、処理工程は、LOESS正規化を含む。LOESSは、k最近隣法に基づくメタモデルにおいて複数の回帰モデルを組み合わせる当該分野で公知の回帰モデリング法である。LOESSは、局所重み付け多項式回帰と称されるときがある。GC LOESSは、いくつかの実施形態において、LOESSモデルを、参照ゲノムの部分に対するフラグメントカウント(例えば、配列リード、カウント)とGC組成との関係に適用する。LOESSを用いてデータポイントセットを通って滑らかな曲線をプロットすることは、特に、各平滑化値が、y軸の散布図の基準変数の値の範囲にわたって、重み付けされた二次最小二乗回帰によって与えられるとき、LOESS曲線と呼ばれるときがある。あるデータセットにおける各ポイントに対して、LOESS法は、そのデータのサブセットに低次多項式を当てはめ、説明変数値は、応答を推定しているポイントに近い。その多項式は、重み付き最小二乗を用いて当てはめられ、応答が推定されているポイントに近いポイントにより大きい重みが与えられ、さらに離れているポイントにより小さい重みが与えられる。次いで、あるポイントに対する回帰関数の値は、そのデータポイントに対する説明変数値を用いて局所多項式を評価することによって得られる。LOESSの当てはめは、回帰関数値が各データポイントに対して計算された後、完全であると考えられるときがある。この方法の詳細の多く(例えば、多項式モデルおよび重みの程度)は、フレキシブルである。
主成分分析
いくつかの実施形態において、処理工程は、主成分分析(PCA)を含む。いくつかの実施形態において、配列リードカウント(例えば、テストサンプルの配列リードカウント)は、主成分分析(PCA)に従って調整される。いくつかの実施形態において、リード密度プロファイル(例えば、テストサンプルのリード密度プロファイル)は、主成分分析(PCA)に従って調整される。1つまたはそれを超える参照サンプルのリード密度プロファイルおよび/または試験被験体のリード密度プロファイルは、PCAに従って調整され得る。PCA関連プロセスによってリード密度プロファイルからバイアスを除去することは、本明細書中で、プロファイルの調整と称されるときがある。PCAは、好適なPCA方法またはその変法によって行われ得る。PCA方法の非限定的な例としては、正準相関分析(CCA)、Karhunen−Loeve変換(KLT)、Hotelling変換、固有直交分解(POD)、Xの特異値分解(SVD)、XTXの固有値分解(EVD)、因子分析、Eckart−Young定理、Schmidt−Mirsky定理、経験的直交関数(EOF)、経験固有関数分解、経験的成分分析、準調和モード、スペクトル分解、経験的モーダル解析など、それらの変法または組み合わせが挙げられる。PCAは、リード密度プロファイルにおける1つまたはそれを超えるバイアスを特定および/または調整することが多い。PCAによって特定および/または調整されたバイアスは、本明細書中で主成分と称されるときがある。いくつかの実施形態において、1つまたはそれを超えるバイアスは、好適な方法を用いて1つまたはそれを超える主成分に従ってリード密度プロファイルを調整することによって除去され得る。リード密度プロファイルは、1つもしくはそれを超える主成分とリード密度プロファイルとの加算、減算、乗算および/または除算によって、調整され得る。いくつかの実施形態において、1つまたはそれを超えるバイアスは、1つまたはそれを超える主成分をリード密度プロファイルから減算することによって、リード密度プロファイルから除去され得る。リード密度プロファイルにおけるバイアスは、プロファイルのPCAによって特定および/または定量されることが多いが、主成分は、リード密度のレベルにおいてプロファイルから減算されることが多い。PCAは、1つまたはそれを超える主成分を特定することが多い。いくつかの実施形態において、PCAは、第1、第2、第3、第4、第5、第6、第7、第8、第9および第10またはそれを超える主成分を特定する。ある特定の実施形態において、1、2、3、4、5、6、7、8、9、10個もしくはそれを超える主成分が、プロファイルを調整するために使用される。ある特定の実施形態において、5個の主成分が、プロファイルを調整するために使用される。主成分は、PCAにおける出現順にプロファイルを調整するために使用されることが多い。例えば、3つの主成分が、リード密度プロファイルから減算される場合、第1、第2および第3主成分が使用される。主成分によって特定されたバイアスは、プロファイルを調整するために使用されないプロファイルの特徴を含むときがある。例えば、PCAは、主成分としてコピー数変化(例えば、異数性、微小重複、微小欠失、欠失、転座、挿入)および/または性差を特定し得る。したがって、いくつかの実施形態において、1つまたはそれを超える主成分は、プロファイルを調整するために使用されない。例えば、第3主成分がプロファイルを調整するために使用されない場合、プロファイルを調整するために、第1、第2および第4主成分が使用されるときがある。
主成分は、任意の好適なサンプルまたは参照を用いるPCAから得ることができる。いくつかの実施形態において、主成分は、テストサンプル(例えば、試験被験体)から得られる。いくつかの実施形態において、主成分は、1つまたはそれを超える参照(例えば、参照サンプル、参照配列、参照セット)から得られる。ある特定の場合において、PCAは、複数のサンプルを含む訓練セットから得られるリード密度プロファイルの中央値に対して行われ、第1主成分および第2主成分が特定される。いくつかの実施形態において、主成分は、対象のコピー数変化を欠く被験体のセットから得られる。いくつかの実施形態において、主成分は、既知の正倍数体セットから得られる。主成分は、参照(例えば、訓練セット)の1つまたはそれを超えるリード密度プロファイルを用いて行われるPCAに従って特定されることが多い。参照から得られた1つまたはそれを超える主成分は、試験被験体のリード密度プロファイルから減算され、それにより、調整されたプロファイルが提供されることが多い。
ハイブリッド正規化
いくつかの実施形態において、処理工程は、ハイブリッド正規化方法を含む。ハイブリッド正規化方法は、ある特定の場合において、バイアス(例えば、GCバイアス)を減少させ得る。ハイブリッド正規化は、いくつかの実施形態において、(i)2つの変数(例えば、カウントおよびGC含有量)の関係の解析、ならびに(ii)その解析に従った正規化方法の選択および適用を含む。ハイブリッド正規化は、ある特定の実施形態において、(i)回帰(例えば、回帰分析)ならびに(ii)その回帰に従った正規化方法の選択および適用を含む。いくつかの実施形態において、第1のサンプル(例えば、第1のサンプルセット)に対して得られたカウントは、別のサンプル(例えば、第2のサンプルセット)から得られたカウントとは異なる方法によって正規化される。いくつかの実施形態において、第1のサンプル(例えば、第1のサンプルセット)に対して得られたカウントは、第1の正規化方法によって正規化され、第2のサンプル(例えば、第2のサンプルセット)から得られたカウントは、第2の正規化方法によって正規化される。例えば、ある特定の実施形態において、第1の正規化方法は、線形回帰の使用を含み、第2の正規化方法は、非線形回帰(例えば、LOESS、GC−LOESS、LOWESS回帰、LOESS平滑化)の使用を含む。
いくつかの実施形態において、ハイブリッド正規化方法は、ゲノムまたは染色体の部分にマッピングされた配列リード(例えば、カウント、マッピングされたカウント、マッピングされたリード)を正規化するために使用される。ある特定の実施形態において、生のカウントが正規化され、いくつかの実施形態において、調整された、重み付けされた、フィルタリングされたまたは予め正規化されたカウントが、ハイブリッド正規化方法によって正規化される。ある特定の実施形態において、レベルまたはZ得点が、正規化される。いくつかの実施形態において、ゲノムまたは染色体の選択された部分にマッピングされたカウントが、ハイブリッド正規化アプローチによって正規化される。カウントは、ゲノムの部分にマッピングされた配列リードの好適な尺度のことを指し得、その非限定的な例としては、生のカウント(例えば、処理されていないカウント)、正規化されたカウント(例えば、LOESS、主成分または好適な方法によって正規化されたもの)、部分レベル(例えば、平均レベル、平均値レベル、中央値レベルなど)、Z得点などまたはそれらの組み合わせが挙げられる。それらのカウントは、1つまたはそれを超えるサンプル(例えば、テストサンプル、妊婦由来のサンプル)からの、生のカウントまたは処理されたカウントであり得る。いくつかの実施形態において、カウントは、1つまたはそれを超える被験体から得られた1つまたはそれを超えるサンプルから得られる。
いくつかの実施形態において、正規化方法(例えば、正規化方法のタイプ)は、回帰(例えば、回帰分析)および/または相関係数に従って選択される。回帰分析とは、変数(例えば、カウントおよびGC含有量)の間の関係を推定するための統計的手法のことを指す。いくつかの実施形態において、回帰は、参照ゲノムの複数の部分の各部分に対するカウントおよびGC含有量の尺度に従って生成される。好適なGC含有量の尺度が使用され得、その非限定的な例としては、グアニン、シトシン、アデニン、チミン、プリン(GC)もしくはピリミジン(ATまたはATU)含有量の尺度、融解温度(Tm)(例えば、変性温度、アニーリング温度、ハイブリダイゼーション温度)、自由エネルギーの尺度などまたはそれらの組み合わせが挙げられる。グアニン(G)、シトシン(C)、アデニン(A)、チミン(T)、プリン(GC)またはピリミジン(ATまたはATU)含有量の尺度は、比またはパーセンテージとして表現され得る。いくつかの実施形態において、任意の好適な比またはパーセンテージが使用され、その非限定的な例としては、GC/AT、GC/全ヌクレオチド、GC/A、GC/T、AT/全ヌクレオチド、AT/GC、AT/G、AT/C、G/A、C/A、G/T、G/A、G/AT、C/Tなどまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、GC含有量の尺度は、全ヌクレオチド含有量に対するGCの比またはパーセンテージである。いくつかの実施形態において、GC含有量の尺度は、参照ゲノムの部分にマッピングされた配列リードに対する、全ヌクレオチド含有量に対するGCの比またはパーセンテージである。ある特定の実施形態において、GC含有量は、参照ゲノムの各部分にマッピングされた配列リードに従っておよび/または参照ゲノムの各部分にマッピングされた配列リードから測定され、それらの配列リードは、サンプルから得られる。いくつかの実施形態において、GC含有量の尺度は、配列リードに従っておよび/または配列リードから決定されない。ある特定の実施形態において、GC含有量の尺度は、1つまたはそれを超える被験体から得られた1つまたはそれを超えるサンプルに対して決定される。
いくつかの実施形態において、回帰の生成は、回帰分析または相関分析の生成を含む。好適な回帰を使用でき、その非限定的な例としては、回帰分析(例えば、線形回帰分析)、適合度分析、ピアソン相関分析、順位相関、不明な分散の比率(fraction of variance unexplained)、Nash−Sutcliffeモデル効率解析、回帰モデル検証、損失比例減少(proportional reduction in loss)、根平均二乗偏差(root mean square deviation)などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、回帰直線が生成される。ある特定の実施形態において、回帰の生成は、線形回帰の生成を含む。ある特定の実施形態において、回帰の生成は、非線形回帰(例えば、LOESS回帰、LOWESS回帰)の生成を含む。
いくつかの実施形態において、回帰は、例えば、カウントとGC含有量の尺度との間の、相関(例えば、線形相関)の存在または非存在を判定する。いくつかの実施形態において、回帰(例えば、線形回帰)が生成され、相関係数が決定される。いくつかの実施形態において、好適な相関係数が決定され、その非限定的な例としては、決定係数、R2値、ピアソン相関係数などが挙げられる。
いくつかの実施形態において、適合度は、回帰(例えば、回帰分析、線形回帰)に対して測定される。適合度は、視覚的解析または数学的解析によって測定されるときがある。評価は、その適合度が非線形回帰に対してより高いかまたは線形回帰に対してより高いかを判定することを含むときがある。いくつかの実施形態において、相関係数は、適合度の尺度である。いくつかの実施形態において、回帰に対する適合度の評価は、相関係数および/または相関係数のカットオフ値に従って明らかにされる。いくつかの実施形態において、適合度の評価は、相関係数と相関係数のカットオフ値とを比較することを含む。いくつかの実施形態において、回帰に対する適合度の評価は、線形回帰を示唆する。例えば、ある特定の実施形態において、適合度は、非線形回帰よりも線形回帰に対してより高く、その適合度の評価は、線形回帰を示唆する。いくつかの実施形態において、評価は、線形回帰を示唆し、カウントを正規化するために線形回帰が使用される。いくつかの実施形態において、回帰に対する適合度の評価は、非線形回帰を示唆する。例えば、ある特定の実施形態において、適合度は、線形回帰よりも非線形回帰に対してより高く、その適合度の評価は、非線形回帰を示唆する。いくつかの実施形態において、評価は、非線形回帰を示唆し、カウントを正規化するために非線形回帰が使用される。
いくつかの実施形態において、相関係数が、相関係数のカットオフに等しいかまたはそれを超えるとき、適合度の評価は、線形回帰を示唆する。いくつかの実施形態において、相関係数が、相関係数のカットオフ未満であるとき、適合度の評価は、非線形回帰を示唆する。いくつかの実施形態において、相関係数のカットオフは、予め決定されている。いくつかの実施形態において、相関係数のカットオフは、約0.5もしくはそれを超えるか、約0.55もしくはそれを超えるか、約0.6もしくはそれを超えるか、約0.65もしくはそれを超えるか、約0.7もしくはそれを超えるか、約0.75もしくはそれを超えるか、約0.8もしくはそれを超えるか、または約0.85もしくはそれを超える。
いくつかの実施形態において、特定のタイプの回帰が選択され(例えば、線形または非線形回帰)、その回帰が生成された後、その回帰をカウントから減算することによって、カウントが正規化される。いくつかの実施形態において、カウントからの回帰の減算は、バイアス(例えば、GCバイアス)が減少した正規化されたカウントを提供する。いくつかの実施形態において、線形回帰が、カウントから減算される。いくつかの実施形態において、非線形回帰(例えば、LOESS、GC−LOESS、LOWESS回帰)が、カウントから減算される。任意の好適な方法が、カウントから回帰直線を減算するために使用され得る。例えば、カウントxが、0.5というGC含有量を含む部分i(例えば、部分i)から導かれ、回帰直線が、0.5というGC含有量においてカウントyを決定する場合、部分iに対して、x−y=正規化されたカウントである。いくつかの実施形態において、カウントは、回帰の減算の前および/または後に正規化される。いくつかの実施形態において、ハイブリッド正規化アプローチによって正規化されたカウントは、ゲノムまたはその一部のレベル、Z得点、レベルおよび/またはプロファイルを生成するために使用される。ある特定の実施形態において、ハイブリッド正規化アプローチによって正規化されたカウントは、遺伝子変異または遺伝子変化(例えば、コピー数変化)の存在または非存在を判定するために本明細書中に記載される方法によって解析される。
いくつかの実施形態において、ハイブリッド正規化方法は、正規化の前または後に、1つまたはそれを超える部分のフィルタリングまたは重み付けを含む。本明細書中に記載される部分(例えば、参照ゲノムの部分)をフィルタリングする方法を含む、部分をフィルタリングする好適な方法が、使用され得る。いくつかの実施形態において、部分(例えば、参照ゲノムの部分)が、ハイブリッド正規化方法を適用する前にフィルタリングされる。いくつかの実施形態において、選択された部分(例えば、カウントのばらつきに従って選択された部分)にマッピングされたシーケンシングリードのカウントだけが、ハイブリッド正規化によって正規化される。いくつかの実施形態において、フィルタリングされた参照ゲノム部分(例えば、カウントのばらつきに従ってフィルタリングされた部分)にマッピングされたシーケンシングリードのカウントが、ハイブリッド正規化方法を用いる前に除去される。いくつかの実施形態において、ハイブリッド正規化方法は、好適な方法(例えば、本明細書中に記載される方法)に従って部分(例えば、参照ゲノムの部分)を選択するかまたはフィルタリングすることを含む。いくつかの実施形態において、ハイブリッド正規化方法は、複数のテストサンプルに対する各部分にマッピングされたカウントに対する不確定値に従って部分(例えば、参照ゲノムの部分)を選択することまたはフィルタリングすることを含む。いくつかの実施形態において、ハイブリッド正規化方法は、カウントのばらつきに従って部分(例えば、参照ゲノムの部分)を選択するかまたはフィルタリングすることを含む。いくつかの実施形態において、ハイブリッド正規化方法は、GC含有量、反復エレメント、反復配列、イントロン、エキソンなどまたはそれらの組み合わせに従って部分(例えば、参照ゲノムの部分)を選択するかまたはフィルタリングすることを含む。
プロファイル
いくつかの実施形態において、処理工程は、データセットまたはその微分演算(例えば、当該分野で公知のおよび/または本明細書中に記載される1つまたはそれを超える数学的および/または統計的データ処理工程の結果)の様々な態様から1つまたはそれを超えるプロファイル(例えば、プロファイルプロット)を生成することを含む。
用語「プロファイル」は、本明細書中で使用されるとき、大量のデータにおけるパターンおよび/または相関の特定を容易にし得る、データの数学的操作および/または統計的操作の結果のことを指す。「プロファイル」は、1つまたはそれを超える基準に基づくデータまたはデータセットの1つまたはそれを超える操作から生じる値を含むことが多い。プロファイルは、複数のデータポイントを含むことが多い。データセットの性質および/または複雑さに応じて、任意の好適な数のデータポイントが、プロファイルに含められ得る。ある特定の実施形態において、プロファイルは、2つもしくはそれを超えるデータポイント、3つもしくはそれを超えるデータポイント、5つもしくはそれを超えるデータポイント、10個もしくはそれを超えるデータポイント、24個もしくはそれを超えるデータポイント、25個もしくはそれを超えるデータポイント、50個もしくはそれを超えるデータポイント、100個もしくはそれを超えるデータポイント、500個もしくはそれを超えるデータポイント、1000個もしくはそれを超えるデータポイント、5000個もしくはそれを超えるデータポイント、10,000個もしくはそれを超えるデータポイントまたは100,000個もしくはそれを超えるデータポイントを含み得る。
いくつかの実施形態において、プロファイルは、データセット全体を代表し、ある特定の実施形態において、プロファイルは、データセットの一部またはサブセットを代表する。つまり、プロファイルは、任意のデータを除去するためにフィルタリングされていないデータを代表するデータポイントを含むかまたはそれらのデータポイントから生成されるときがあり、プロファイルは、望まれないデータを除去するためにフィルタリングされたデータを代表するデータポイントを含むかまたはそれらのデータポイントから生成されるときがある。いくつかの実施形態において、あるプロファイルにおけるデータポイントは、ある部分に対するデータ操作の結果に相当する。ある特定の実施形態において、あるプロファイルにおけるデータポイントは、部分の群に対するデータ操作の結果を含む。いくつかの実施形態において、部分の群は、互いに隣接することもあるし、ある特定の実施形態では、部分の群は、染色体またはゲノムの異なる部分に由来することもある。
あるデータセットから導かれるプロファイルにおけるデータポイントは、任意の好適なデータのカテゴリー化を代表し得る。プロファイルデータポイントを生成するためにデータがグループ化され得るカテゴリーの非限定的な例としては、サイズに基づく部分、配列の特徴(例えば、GC含有量、AT含有量、染色体上の位置(例えば、短腕、長腕、セントロメア、テロメア)など)に基づく部分、発現レベル、染色体などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、あるプロファイルは、別のプロファイル(例えば、再正規化されたデータプロファイルを生成するために異なる正規化値に対して再正規化された、正規化されたデータプロファイル)から得られたデータポイントから生成され得る。ある特定の実施形態において、別のプロファイルから得られたデータポイントから生成されたプロファイルは、データポイントの数および/またはデータセットの複雑さを減少させる。データポイントの数および/またはデータセットの複雑さの減少は、データの解釈を容易にするおよび/またはアウトカムの提供を容易にすることが多い。
プロファイル(例えば、ゲノムのプロファイル、染色体のプロファイル、染色体の部分のプロファイル)は、2つまたはそれを超える部分に対する正規化されたカウントまたは正規化されていないカウントの集合であることが多い。プロファイルは、少なくとも1つのレベルを含むことが多く、2つまたはそれを超えるレベルを含むことが多い(例えば、あるプロファイルは、複数のレベルを有することが多い)。あるレベルは、一般に、ほぼ同じカウントまたは正規化されたカウントを有する部分のセットに対するものである。レベルは、本明細書中にさらに詳細に記載される。ある特定の実施形態において、プロファイルは、1つまたはそれを超える部分を含み、それらの部分は、重み付けされ得るか、除去され得るか、フィルタリングされ得るか、正規化され得るか、調整され得るか、平均され得るか、平均値として導かれ得るか、加算され得るか、減算され得るか、処理され得るか、またはそれらの任意の組み合わせによって変換され得る。プロファイルは、2つまたはそれを超えるレベルを定義している部分にマッピングされた正規化されたカウントを含むことが多く、ここで、それらのカウントは、好適な方法によって、それらのレベルのうちの1つに従ってさらに正規化される。プロファイル(例えば、プロファイルレベル)のカウントは、不確定値に関連することが多い。
1つまたはそれを超えるレベルを含むプロファイルは、パディングされる(例えば、ホールパディング(hole padding))ときがある。パディング(例えば、ホールパディング)とは、コピー数変化(例えば、患者のゲノムにおける微小重複または微小欠失、母体の微小重複または微小欠失)に起因する、プロファイルにおけるレベルを特定し、調整するプロセスのことを指す。いくつかの実施形態において、腫瘍または胎児における微小重複または微小欠失に起因するレベルがパディングされる。プロファイルにおける微小重複または微小欠失は、いくつかの実施形態において、染色体異数性(例えば、トリソミー)の偽陽性または偽陰性の判定をもたらすプロファイル(例えば、染色体のプロファイル)のレベル全体を人工的に上昇させる得かまたは低下させ得る。いくつかの実施形態において、微小重複および/または欠失に起因するプロファイルにおけるレベルは、パディングまたはホールパディングと称されるときがあるプロセスによって特定され、調整される(例えば、パディングされるおよび/または除去される)。
1つまたはそれを超えるレベルを含むプロファイルは、第1のレベルおよび第2のレベルを含み得る。いくつかの実施形態において、第1のレベルは、第2のレベルと異なる(例えば、有意に異なる)。いくつかの実施形態において、第1のレベルは、第1の部分セットを含み、第2のレベルは、第2の部分セットを含み、第1の部分セットは、第2の部分セットのサブセットではない。ある特定の実施形態において、第1の部分セットは、第1および第2のレベルが測定される第2の部分セットと異なる。いくつかの実施形態において、あるプロファイルは、そのプロファイル内の第2のレベルと異なる(例えば、有意に異なる、例えば、有意に異なる値を有する)複数の第1のレベルを有し得る。いくつかの実施形態において、あるプロファイルは、そのプロファイル内の第2のレベルと有意に異なる1つまたはそれを超える第1のレベルを含み、その1つまたはそれを超える第1のレベルが、調整される。いくつかの実施形態において、あるプロファイル内の第1のレベルは、そのプロファイルから除去されるか、または調整される(例えば、パディングされる)。あるプロファイルは、1つまたはそれを超える第2のレベルと有意に異なる1つまたはそれを超える第1のレベルを含む複数のレベルを含み得、あるプロファイルにおけるレベルの大部分が、第2のレベルであることが多く、その第2のレベルは、互いにほぼ等しい。いくつかの実施形態において、あるプロファイルにおけるレベルの50%超、60%超、70%超、80%超、90%超または95%超が、第2のレベルである。
プロファイルは、プロットとして表示されるときがある。例えば、部分のカウント(例えば、正規化されたカウント)を表している1つまたはそれを超えるレベルが、プロットされ得、可視化され得る。生成され得るプロファイルのプロットの非限定的な例としては、生のカウント(例えば、生のカウントプロファイルまたは生のプロファイル)、正規化されたカウント、部分によって重み付けされた、z得点、p値、当てはめられた倍数性に対する面積比、当てはめられた少数種比率と計測された少数種比率との比に対する中央値レベル、主成分などまたはそれらの組み合わせが挙げられる。プロファイルのプロットは、いくつかの実施形態において、操作されたデータの可視化を可能にする。ある特定の実施形態において、プロファイルのプロットは、アウトカム(例えば、当てはめられた倍数性に対する面積比、当てはめられた少数種比率と計測された少数種比率との比に対する中央値レベル、主成分)を提供するために使用され得る。用語「生のカウントプロファイルプロット」または「生のプロファイルプロット」は、本明細書中で使用されるとき、ある領域(例えば、ゲノム、部分、染色体、参照ゲノムの染色体部分または染色体の一部)における全カウントに対して正規化された、ある領域における各部分におけるカウントのプロットのことを指す。いくつかの実施形態において、プロファイルは、スタティックウィンドウプロセスを用いて生成され得、ある特定の実施形態において、プロファイルは、スライディングウィンドウプロセスを用いて生成され得る。
試験被験体に対して生成されたプロファイルは、データセットの数学的操作および/もしくは統計的操作の解釈を容易にするため、ならびに/またはアウトカムを提供するために、1つまたはそれを超える参照被験体に対して生成されたプロファイルと比較されるときがある。いくつかの実施形態において、プロファイルは、1つまたはそれを超える開始時の(starting)仮定、例えば、本明細書中に記載される仮定に基づいて生成される。ある特定の実施形態において、試験プロファイルは、コピー数変化が存在しないことを代表する所定の値の周りに集中することが多く、試験被験体がコピー数変化を有した場合、コピー数変化が試験被験体内に位置するゲノム位置に対応する領域における所定の値から逸脱することが多い。コピー数変化に関連する医学的症状に対するリスクがあるかまたはコピー数変化に関連する医学的症状に罹患している試験被験体では、選択された部分に対する数値は、影響されていないゲノム位置に対する所定の値から有意に変動すると予想される。開始時の仮定(例えば、既定の倍数性もしくは最適化された倍数性、既定の癌細胞核酸の比率もしくは最適化された癌細胞核酸の比率、既定の胎児比率もしくは最適化された胎児比率またはそれらの組み合わせ)に応じて、コピー数変化の存在または非存在を示唆する所定のしきい値もしくはカットオフ値またはしきい値範囲は、変動し得るが、コピー数変化の存在または非存在の判定に有用なアウトカムをなおも提供する。いくつかの実施形態において、プロファイルは、表現型を示唆し、かつ/または表現型を代表する。
いくつかの実施形態において、対象のコピー数変化を実質的に含まない1つまたはそれを超える参照サンプルの使用は、参照カウントプロファイル(例えば、参照カウントの中央値プロファイル)を生成するために使用され得、それは、コピー数変化が存在しないことを代表する所定の値をもたらし得、試験被験体がコピー数変化を有した場合、コピー数変化がその試験被験体内に位置するゲノム位置に対応する区域における所定の値から逸脱することが多い。コピー数変化に関連する医学的症状のリスクがあるかまたはその医学的症状に罹患している試験被験体では、選択された部分または区分に対する数値は、罹患していないゲノム位置に対する所定の値から有意に変動すると予想される。ある特定の実施形態において、対象のコピー数変化を有すると判明している1つまたはそれを超える参照サンプルの使用は、参照カウントプロファイル(参照カウントの中央値プロファイル)を生成するために使用され得、そのプロファイルは、コピー数変化が存在することを代表する所定の値をもたらし得、試験被験体がコピー数変化を有しないゲノム位置に対応する区域における所定の値から逸脱することが多い。コピー数変化に関連する医学的症状のリスクがないかまたはその医学的症状に罹患していない試験被験体では、選択された部分または区分に対する数値は、罹患ゲノム位置に対する所定の値から有意に変動すると予想される。
非限定的な例として、正規化されたサンプルカウントプロファイルおよび/または正規化された参照カウントプロファイルは、(a)選択された染色体、その部分または一部に対する参照カウントの中央値を、コピー数変化を有しないと判明している参照のセットから算出し、(b)参照サンプルの生のカウントから情報価値のない部分を除去し(例えば、フィルタリングし);(c)参照ゲノムの残りのすべての部分に対する参照カウントを、参照サンプルの選択された染色体または選択されたゲノム位置に対する残りのカウント総数(例えば、参照ゲノムの情報価値のない部分を除去した後に残ったカウントの合計)に対して正規化し、それにより、正規化された参照被験体プロファイルを生成し;(d)試験被験体のサンプルから対応する部分を除去し;(e)1つまたはそれを超える選択されたゲノム位置に対する残りの試験被験体カウントを、選択されたゲノム位置を含む染色体に対する残りの参照カウントの中央値の和に対して正規化し、それにより、正規化された試験被験体プロファイルを生成することによって、生の配列リードデータから得ることができる。ある特定の実施形態において、(b)において、フィルタリングされた部分によって減少される、ゲノム全体に対するさらなる正規化工程は、(c)と(d)との間に含めることができる。
いくつかの実施形態において、リード密度プロファイルが測定される。いくつかの実施形態において、リード密度プロファイルは、少なくとも1つのリード密度を含み、2つまたはそれを超えるリード密度を含むことが多い(例えば、リード密度プロファイルは、複数のリード密度を含むことが多い)。いくつかの実施形態において、リード密度プロファイルは、好適な定量的値(例えば、平均値、中央値、Z得点など)を含む。リード密度プロファイルは、1つまたはそれを超えるリード密度から生じる値を含むことが多い。リード密度プロファイルは、1つまたはそれを超える調整(例えば、正規化)に基づくリード密度の1つまたはそれを超える操作から生じる値を含むときがある。いくつかの実施形態において、リード密度プロファイルは、操作されていないリード密度を含む。いくつかの実施形態において、1つまたはそれを超えるリード密度プロファイルは、リード密度またはその微分演算(例えば、当該分野で公知のおよび/または本明細書中に記載される1つまたはそれを超える数学的および/または統計的データ処理工程の結果)を含むデータセットの様々な態様から生成される。ある特定の実施形態において、リード密度プロファイルは、正規化されたリード密度を含む。いくつかの実施形態において、リード密度プロファイルは、調整されたリード密度を含む。ある特定の実施形態において、リード密度プロファイルは、生のリード密度(例えば、操作されていない、調整されていない、または正規化されていないリード密度)、正規化されたリード密度、重み付けされたリード密度、フィルタリングされた部分のリード密度、リード密度のz得点、リード密度のp値、リード密度の積分値(例えば、曲線下面積)、リード密度の平均、平均値もしくは中央値、主成分などまたはそれらの組み合わせを含む。リード密度プロファイルのリード密度および/またはリード密度プロファイルは、不確定性の尺度(例えば、MAD)に関連することが多い。ある特定の実施形態において、リード密度プロファイルは、リード密度の中央値の分布を含む。いくつかの実施形態において、リード密度プロファイルは、複数のリード密度の関係(例えば、当てはめ関係、回帰など)を含む。例えば、リード密度プロファイルは、リード密度(例えば、リード密度の値)とゲノム位置(例えば、部分、部分の位置)との間の関係を含むときがある。いくつかの実施形態において、リード密度プロファイルは、スタティックウィンドウプロセスを用いて生成され、ある特定の実施形態において、リード密度プロファイルは、スライディングウィンドウプロセスを用いて生成される。いくつかの実施形態において、リード密度プロファイルは、印刷および/または表示される(例えば、視覚表示、例えば、プロットまたはグラフとして表示される)ときがある。
いくつかの実施形態において、リード密度プロファイルは、部分セット(例えば、参照ゲノムの部分セット、染色体の部分セットまたは染色体の一部の部分サブセット)に対応する。いくつかの実施形態において、リード密度プロファイルは、部分の集合(例えば、セット、サブセット)に関連するリード密度および/またはリードカウントを含む。いくつかの実施形態において、リード密度プロファイルは、連続した部分のリード密度に対して測定される。いくつかの実施形態において、連続した部分は、参照配列の領域および/または密度プロファイルに含まれない配列リード(例えば、フィルタリングによって除去される部分)を含むギャップを含む。連続した部分(例えば、部分セット)は、ゲノムの隣接した領域または染色体もしくは遺伝子の隣接した領域に相当するときがある。例えば、2つまたはそれを超えて連続した部分は、それらの部分を端と端を付けてマージすることによってアラインメントされたとき、各部分より長いDNA配列の配列アセンブリであり得る。例えば、2つまたはそれを超えて連続した部分は、インタクトなゲノム、染色体、遺伝子、イントロン、エキソンまたはそれらの一部であり得る。連続した部分および/または連続していない部分の集合(例えば、セット、サブセット)からリード密度プロファイルが決定されるときがある。場合によっては、リード密度プロファイルは、1つまたはそれを超える部分を含み、それらの部分は、重み付けされ得るか、除去され得るか、フィルタリングされ得るか、正規化され得るか、調整され得るか、平均され得るか、平均値として導かれ得るか、加算され得るか、減算され得るか、処理され得るか、またはそれらの任意の組み合わせによって変換され得る。
リード密度プロファイルは、サンプルおよび/または参照(例えば、参照サンプル)に対して測定されることが多い。リード密度プロファイルは、ゲノム全体、1つもしくはそれを超える染色体、またはゲノムもしくは染色体の一部に対して生成されるときがある。いくつかの実施形態において、1つまたはそれを超えるリード密度プロファイルは、ゲノムまたはその一部に対して測定される。いくつかの実施形態において、リード密度プロファイルは、サンプルのリード密度のセットの全体を代表し、ある特定の実施形態において、リード密度プロファイルは、サンプルのリード密度の一部またはサブセットを代表する。つまり、リード密度プロファイルは、任意のデータを除去するためにフィルタリングされていないデータを代表するリード密度を含むかまたはそれらのリード密度から生成されるときがあり、リード密度プロファイルは、望まれないデータを除去するためにフィルタリングされたデータを代表するデータポイントを含むかまたはそれらのデータポイントから生成されるときがある。
いくつかの実施形態において、リード密度プロファイルは、参照(例えば、参照サンプル、訓練セット)に対して測定される。参照に対するリード密度プロファイルは、参照プロファイルと本明細書中で称されるときがある。いくつかの実施形態において、参照プロファイルは、1つまたはそれを超える参照(例えば、参照配列、参照サンプル)から得られたリード密度を含む。いくつかの実施形態において、参照プロファイルは、1つまたはそれを超える既知の正倍数性サンプル(例えば、既知の正倍数性サンプルのセット)に対して測定されたリード密度を含む。いくつかの実施形態において、参照プロファイルは、フィルタリングされた部分のリード密度を含む。いくつかの実施形態において、参照プロファイルは、1つまたはそれを超える主成分に従って調整されたリード密度を含む。
比較の実施
いくつかの実施形態において、処理工程は、比較を行う(preforming)工程(例えば、試験プロファイルを参照プロファイルと比較する工程)を含む。2つまたはそれを超えるデータセット、2つもしくはそれを超える関係および/または2つもしくはそれを超えるプロファイルが、好適な方法によって比較され得る。データセット、関係および/またはプロファイルの比較に適した統計学的方法の非限定的な例としては、Behrens−Fisherアプローチ、ブートストラッピング、独立した有意性検定を組み合わせるためのフィッシャーの方法、Neyman−Pearson検定、検証的データ解析、探索的データ解析、正確検定、F検定、Z検定、T検定、不確定性の尺度の算出および/もしくは比較、帰無仮説、対立帰無仮説など、カイ二乗検定、総括的検定、有意水準(例えば、統計的有意水準)の算出および/もしくは比較、メタ解析、多変量解析、回帰、線形単回帰、ロバスト線形回帰など、または前述のものの組み合わせが挙げられる。ある特定の実施形態において、2つまたはそれを超えるデータセット、関係および/またはプロファイルの比較は、不確定性の尺度の測定および/または比較を含む。「不確定性の尺度」は、本明細書中で使用されるとき、有意性(例えば、統計的有意性)の尺度、誤差の尺度、分散の尺度、信頼の尺度などまたはそれらの組み合わせのことを指す。不確定性の尺度は、値(例えば、しきい値)またはある範囲の値(例えば、区間、信頼区間、ベイズ信頼区間、しきい値の範囲)であり得る。不確定性の尺度の非限定的な例としては、p値、好適な偏差の尺度(例えば、標準偏差、シグマ、絶対偏差、平均絶対偏差など)、好適な誤差(例えば、標準誤差、平均平方誤差、平方根平均平方誤差など)の尺度、好適な分散の尺度、好適な標準得点(例えば、標準偏差、累積パーセンテージ、パーセンタイル等価物、Z得点、T得点、R得点、スタンダードナイン(スタナイン)、スタナインにおけるパーセントなど)などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、有意水準の決定は、不確定性の尺度(例えば、p値)の決定を含む。ある特定の実施形態において、2つまたはそれを超えるデータセット、関係および/またはプロファイルは、複数の(例えば、2つまたはそれを超える)統計学的方法(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、K最近隣法、ロジスティック回帰および/またはloss平滑化)ならびに/または任意の好適な数学的操作および/もしくは統計的操作(例えば、本明細書中で操作と称されるもの)を使用することによって解析および/または比較され得る。
いくつかの実施形態において、処理工程は、2つまたはそれを超えるプロファイル(例えば、2つまたはそれを超えるリード密度プロファイル)の比較を含む。プロファイルの比較は、ゲノムの選択された領域に対して生成されたプロファイルの比較を含み得る。例えば、試験プロファイルおよび参照プロファイルが、実質的に同じ領域であるゲノム(例えば、参照ゲノム)の領域に対して測定される場合、その試験プロファイルは、参照プロファイルと比較され得る。プロファイルの比較は、プロファイル(例えば、リード密度プロファイル)の部分の2つまたはそれを超えるサブセットの比較を含むときがある。プロファイルの部分のサブセットは、ゲノムの領域(例えば、染色体またはその領域)に相当し得る。プロファイル(例えば、リード密度プロファイル)は、任意の量の部分のサブセットを含み得る。プロファイル(例えば、リード密度プロファイル)は、2つもしくはそれを超えるか、3つもしくはそれを超えるか、4つもしくはそれを超えるかまたは5つもしくはそれを超えるサブセットを含むときがある。ある特定の実施形態において、各部分が、隣接する参照ゲノムの領域である場合、プロファイル(例えば、リード密度プロファイル)は、部分の2つのサブセットを含む。いくつかの実施形態において、試験プロファイルと参照プロファイルの両方が、部分の第1のサブセットおよび部分の第2のサブセットを含み、その第1および第2のサブセットが、ゲノムの異なる領域である場合、試験プロファイルは、参照プロファイルと比較され得る。プロファイルの部分のいくつかのサブセットは、コピー数変化を含むこともあるし、部分の他のサブセットは、コピー数変化を実質的に含まないときもある。プロファイル(例えば、試験プロファイル)の部分のすべてのサブセットが、コピー数変化を実質的に含まないときがある。プロファイル(例えば、試験プロファイル)の部分のすべてのサブセットが、コピー数変化を含むときがある。いくつかの実施形態において、試験プロファイルは、コピー数変化を含む部分の第1のサブセットおよびコピー数変化を実質的に含まない部分の第2のサブセットを含み得る。
ある特定の実施形態において、2つまたはそれを超えるプロファイルの比較は、2つまたはそれを超えるプロファイルに対する不確定性の尺度の決定および/または比較を含む。プロファイル(例えば、リード密度プロファイル)および/または関連する不確定性の尺度は、データセットの数学的操作および/もしくは統計的操作の解釈を容易にするため、ならびに/またはアウトカムを提供するために、比較されるときがある。試験被験体に対して生成されたプロファイル(例えば、リード密度プロファイル)は、1つまたはそれを超える参照(例えば、参照サンプル、参照被験体など)に対して生成されたプロファイル(例えば、リード密度プロファイル)と比較されるときがある。いくつかの実施形態において、参照プロファイルが、コピー数変化を有しないと判明している参照被験体(例えば、参照)のセットから得られる場合、アウトカムは、染色体、その部分または一部について、試験被験体からのプロファイル(例えば、リード密度プロファイル)を参照からのプロファイル(例えば、リード密度プロファイル)と比較することによって提供される。いくつかの実施形態において、参照プロファイルが、特定のコピー数変化(例えば、染色体異数性、微小重複、微小欠失)を有すると判明している参照被験体のセットから得られる場合、アウトカムは、染色体、その部分または一部について、試験被験体からのプロファイル(例えば、リード密度プロファイル)を参照からのプロファイル(例えば、リード密度プロファイル)と比較することによって提供される。
ある特定の実施形態において、試験被験体のプロファイル(例えば、リード密度プロファイル)は、コピー数変化が存在しないことを代表する所定の値と比較され、コピー数変化が位置づけられるゲノム位置に対応する1つまたはそれを超えるゲノム位置(例えば、部分)において所定の値から逸脱するときがある。例えば、試験被験体(例えば、コピー数変化に関連する医学的症状に対するリスクがあるかまたはその医学的症状に罹患している被験体)において、試験被験体が、対象のコピー数変化を含むとき、プロファイルは、選択された部分について、参照(例えば、参照配列、参照被験体、参照セット)のプロファイルと有意に異なると予想される。試験被験体が、対象のコピー数変化を含まないとき、試験被験体のプロファイル(例えば、リード密度プロファイル)は、選択された部分について、参照(例えば、参照配列、参照被験体、参照セット)のプロファイル(例えば、リード密度プロファイル)と実質的に同じであることが多い。プロファイル(例えば、リード密度プロファイル)は、所定のしきい値および/またはしきい値の範囲と比較され得る。用語「しきい値」は、本明細書中で使用されるとき、適格なデータセットを用いて算出され、コピー数変化(例えば、異数性、微小重複、微小欠失など)の診断の限度として役立つ任意の数字のことを指す。ある特定の実施形態において、しきい値は、本明細書中に記載される方法によって得られる結果によって上回られ、被験体は、コピー数変化と診断される。いくつかの実施形態において、閾値または値の範囲は、配列リードデータ(例えば、参照および/または被験体からの配列リードデータ)を数学的におよび/または統計的に操作することによって算出され得る。コピー数変化の存在または非存在を示唆する値の所定のしきい値またはしきい値範囲は、変動し得るが、コピー数変化の存在または非存在の判定に有用なアウトカムをなおも提供する。ある特定の実施形態において、正規化されたリード密度および/または正規化されたカウントを含むプロファイル(例えば、リード密度プロファイル)は、分類および/またはアウトカムの提供を容易にするために生成される。アウトカムは、正規化されたカウントを含むプロファイル(例えば、リード密度プロファイル)のプロットに基づいて(例えば、そのようなリード密度プロファイルのプロットを用いて)提供され得る。
決定分析
いくつかの実施形態において、アウトカム(例えば、コールすること)の判定またはコピー数変化(例えば、染色体異数性、微小重複、微小欠失)の存在または非存在の判定は、決定分析に従って行われる。ある特定の決定分析の特徴は、国際特許出願公開番号WO2014/190286(参照により本明細書中に援用される)に記載されている。例えば、決定分析は、それらの決定の1つまたはそれを超える結果、評価および/または起こり得る帰結に基づいて、それらの結果、それらの結果の評価および一連の決定をもたらす1つまたはそれを超える方法を適用すること、ならびに最終的な決定が行われるプロセスのある重大な局面において終了することを含むときがある。いくつかの実施形態において、決定分析は、決定木である。決定分析は、いくつかの実施形態において、1つまたはそれを超えるプロセス(例えば、処理工程、例えば、アルゴリズム)の協調させた使用を含む。決定分析は、人間、システム、装置、ソフトウェア(例えば、モジュール)、コンピュータ、プロセッサ(例えば、マイクロプロセッサ)などまたはそれらの組み合わせによって行われ得る。いくつかの実施形態において、決定分析は、決定分析を使用しない場合(例えば、正規化されたカウントから直接判定が行われる場合)と比較して、偽陰性が少なくかつ偽陽性が少ない判定で、コピー数変化(例えば、染色体異数性、微小重複または微小欠失)の存在または非存在を判定する方法を含む。いくつかの実施形態において、決定分析は、1つまたはそれを超えるコピー数変化に関連する症状の存在または非存在の判定を含む。
いくつかの実施形態において、決定分析は、ゲノムまたはゲノムの領域(例えば、染色体またはその一部)に対するプロファイルの生成を含む。プロファイルは、公知のまたは本明細書中に記載される任意の好適な方法によって生成され得る。いくつかの実施形態において、決定分析は、セグメント化プロセスを含む。セグメント化は、プロファイルを修正および/または変換し、それにより、プロファイルの1つまたはそれを超える分解レンダリング(decomposition renderings)を提供し得る。セグメント化プロセスに供されたプロファイルは、参照ゲノムまたはその一部における部分にマッピングされた正規化されたカウントのプロファイルであることが多い。本明細書中で述べられるように、それらの部分にマッピングされた生のカウントは、1つまたはそれを超える好適な正規化プロセス(例えば、LOESS、GC−LOESS、主成分正規化またはそれらの組み合わせ)によって正規化されることにより、決定分析の一部としてセグメント化されたプロファイルが生成され得る。プロファイルの分解レンダリングは、プロファイルの変換であることが多い。プロファイルの分解レンダリングは、プロファイルから、ゲノム、染色体またはそれらの一部の提示への変換であるときがある。
ある特定の実施形態において、セグメント化のために用いられるセグメント化プロセスは、プロファイル内の1つまたはそれを超える他のレベルとは異なる(例えば、実質的にまたは有意に異なる)、プロファイル内の1つまたはそれを超えるレベルを位置づけ、特定する。あるプロファイルにおける別のレベルと異なり、そのプロファイルにおける別のレベルと異なるエッジを有する、セグメント化プロセスに従ってそのプロファイルにおいて特定されたレベルは、不連続のセグメントに対するレベルと本明細書中で称される。セグメント化プロセスは、1つまたはそれを超える不連続のセグメントが特定され得る分解レンダリングを、正規化されたカウントまたはレベルのプロファイルから生成し得る。不連続のセグメントは、通常、セグメント化されるもの(例えば、染色体、複数の染色体、常染色体)より少ない部分をカバーする。
いくつかの実施形態において、セグメント化は、あるプロファイル内の不連続のセグメントのエッジを位置づけ、特定する。ある特定の実施形態において、1つまたはそれを超える不連続のセグメントの一方または両方のエッジが、特定される。例えば、セグメント化プロセスは、あるプロファイルにおける不連続のセグメントの右および/または左のエッジの場所(例えば、ゲノム座標、例えば、部分の場所)を特定し得る。不連続のセグメントは、2つのエッジを含むことが多い。例えば、不連続のセグメントは、左のエッジおよび右のエッジを含み得る。いくつかの実施形態において、提示またはビューに応じて、左のエッジは、あるプロファイルにおいて、核酸セグメントの5’−エッジであり得、右のエッジは、3’−エッジであり得る。いくつかの実施形態において、左のエッジは、あるプロファイルにおいて、核酸セグメントの3’−エッジであり得、右のエッジは、5’−エッジであり得る。プロファイルのエッジは、セグメント化の前に既知であることが多く、ゆえに、いくつかの実施形態において、プロファイルのエッジは、あるレベルのどちらのエッジが5’−エッジであり、どちらのエッジが3’−エッジであるかを明らかにする。いくつかの実施形態において、あるプロファイルおよび/または不連続のセグメントの一方または両方のエッジが、染色体のエッジである。
いくつかの実施形態において、不連続のセグメントのエッジは、参照サンプル(例えば、参照プロファイル)に対して生成された分解レンダリングに従って決定される。いくつかの実施形態において、参照プロファイル(例えば、染色体またはその一部のプロファイル)の分解レンダリングに従って、ヌルエッジ高さ分布(null edge height distribution)が明らかにされる。ある特定の実施形態において、あるプロファイルにおける不連続のセグメントのレベルが、ヌルエッジ高さ分布の外側であるとき、その不連続のセグメントのエッジは特定される。いくつかの実施形態において、あるプロファイルにおける不連続のセグメントのエッジは、参照プロファイルに対する分解レンダリングに従って算出されたZ得点に従って特定される。
場合によっては、セグメント化は、あるプロファイルにおける2つまたはそれを超える不連続のセグメント(例えば、2つまたはそれを超える断片化されたレベル、2つまたはそれを超える断片化されたセグメント)を生成する。いくつかの実施形態において、セグメント化プロセスから得られる分解レンダリングは、過剰にセグメント化されるかまたは断片化され、複数の不連続のセグメントを含む。セグメント化によって生成される不連続のセグメントは、実質的に異なるときがあり、セグメント化によって生成される不連続のセグメントは、実質的に類似であるときがある。実質的に類似の不連続のセグメント(例えば、実質的に類似のレベル)とは、セグメント化されたプロファイルにおける2つまたはそれを超える隣接した不連続のセグメントのことを指すことが多く、その不連続のセグメントの各々は、所定の不確定性レベル未満だけ異なるレベルを有する。いくつかの実施形態において、実質的に類似の不連続のセグメントは、互いに隣接しており、介在性のセグメントによって分断されていない。いくつかの実施形態において、実質的に類似の不連続のセグメントは、1つまたはそれを超えるより小さいセグメントによって分断されている。いくつかの実施形態において、実質的に類似の不連続のセグメントは、約1〜約20個、約1〜約15個、約1〜約10個または約1〜約5個の部分によって分断され、ここで、それらの介在性部分の1つまたはそれを超えるものが、その実質的に類似の不連続のセグメントの各々のレベルと有意に異なるレベルを有する。いくつかの実施形態において、実質的に類似の不連続のセグメントのレベルは、ある不確定性のレベルと約3倍未満、約2倍未満、約1倍未満または約0.5倍未満だけ異なる。実質的に類似の不連続のセグメントは、いくつかの実施形態において、3MAD未満(例えば、3シグマ未満)、2MAD未満、1MAD未満または約0.5MAD未満だけ異なる中央値レベルを含み、ここで、MADは、それらのセグメントの各々の中央値レベルから算出される。実質的に異なる不連続のセグメントは、いくつかの実施形態において、隣接しないか、あるいは10個もしくはそれを超える、15個もしくはそれを超えるまたは20個もしくはそれを超える部分によって分断されている。実質的に異なる不連続のセグメントは、通常、実質的に異なるレベルを有する。ある特定の実施形態において、実質的に異なる不連続のセグメントは、ある不確定性のレベルの約2.5倍超、約3倍超、約4倍超、約5倍超、約6倍超だけ異なるレベルを含む。実質的に異なる不連続のセグメントは、いくつかの実施形態において、2.5MAD超(例えば、2.5シグマ超)、3MAD超、4MAD超、約5MAD超または約6MAD超だけ異なる中央値レベルを含み、ここで、MADは、不連続のセグメントの各々の中央値レベルから算出される。
いくつかの実施形態において、セグメント化プロセスは、あるプロファイルまたはその一部における1つまたはそれを超える不連続のセグメントに対する、レベル(例えば、定量的値、例えば、平均値または中央値レベル)、不確定性のレベル(例えば、不確定値)、Z得点、Z値、p値などまたはそれらの組み合わせの決定(例えば、算出)を含む。いくつかの実施形態において、レベル(例えば、定量的値、例えば、平均値または中央値レベル)、不確定性のレベル(例えば、不確定値)、Z得点、Z値、p値などまたはそれらの組み合わせは、不連続のセグメントに対して決定される(例えば、算出される)。
セグメント化は、1つまたはそれを超える分解生成プロセスによって全体的または部分的に行われ得る。分解生成プロセスは、例えば、プロファイルの分解レンダリングを提供し得る。本明細書中に記載されるまたは当該分野で公知の任意の分解生成プロセスを使用してよい。分解生成プロセスの非限定的な例としては、サーキュラーバイナリーセグメンテーション(CBS)(例えば、Olshenら(2004)Biostatistics 5(4):557−72;Venkatraman,ES,Olshen,AB(2007)Bioinformatics 23(6):657−63を参照のこと);Haarウェーブレットセグメンテーション(例えば、Haar,Alfred(1910)Mathematische Annalen 69(3):331−371を参照のこと);最大重複離散ウェーブレット変換(MODWT)(例えば、Hsuら(2005)Biostatistics 6(2):211−226を参照のこと);定常ウェーブレット(SWT)(例えば、Y.Wang and S.Wang(2007)International Journal of Bioinformatics Research and Applications 3(2):206−222を参照のこと);双対木複素ウェーブレット変換(DTCWT)(例えば、Nguyenら(2007)Proceedings of the 7th IEEE International Conference,Boston MA,on October 14−17,2007,pages 137−144を参照のこと);最大エントロピーセグメンテーション、エッジ検出カーネルを用いるコンボルーション、ジェンセン・シャノン・ダイバージェンス、カルバック・ライブラー・ダイバージェンス、バイナリー再帰的セグメンテーション、フーリエ変換などまたはそれらの組み合わせが挙げられる。
いくつかの実施形態において、セグメント化は、1つのプロセスまたは複数のサブプロセスを含むプロセスによって達成され、それらの非限定的な例としては、分解生成プロセス、閾値化、平準化、平滑化、洗練化などまたはそれらの組み合わせが挙げられる。閾値化、平準化、平滑化、洗練化などは、例えば、分解生成プロセスとともに行われ得る。
いくつかの実施形態において、決定分析は、分解レンダリングにおいて候補セグメントを特定する工程を含む。候補セグメントは、分解レンダリングにおいて最も有意な不連続のセグメントと判定される。候補セグメントは、セグメントによってカバーされる部分の数に関しておよび/またはそのセグメントに対する正規化されたカウントのレベルの絶対値に関して最も有意であり得る。候補セグメントは、分解レンダリングにおいて他の不連続のセグメントよりも大きいときがあり、実質的に大きいときがある。候補セグメントは、好適な方法によって特定され得る。いくつかの実施形態において、候補セグメントは、曲線下面積(AUC)解析によって特定される。ある特定の実施形態において、第1の不連続のセグメントが、あるレベルを有し、かつ/または分解レンダリングにおいて別の不連続のセグメントよりも実質的に大きいいくつかの部分をカバーする場合、第1のセグメントは、より大きなAUCを含む。あるレベルがAUCに対して解析される場合、あるレベルの絶対値が使用されることが多い(例えば、正規化されたカウントに対応するレベルは、欠失に対しては負の値を有し得、重複に対しては正の値を有し得る)。ある特定の実施形態において、AUCは、算出されたAUCの絶対値(例えば、得られる正の値)として決定される。ある特定の実施形態において、候補セグメントは、いったん特定され(例えば、AUC解析または好適な方法によって)、必要に応じて検証されると、その後、その候補セグメントが遺伝子変異または遺伝子変化(例えば、異数性、微小欠失または微小重複)に相当するか否かを判定するために、z得点の計算などのために選択される。
いくつかの実施形態において、決定分析は、比較を含む。いくつかの実施形態において、比較は、少なくとも2つの分解レンダリングの比較を含む。いくつかの実施形態において、比較は、少なくとも2つの候補セグメントの比較を含む。ある特定の実施形態において、少なくとも2つの候補セグメントの各々は、異なる分解レンダリングに由来する。例えば、第1の候補セグメントは、第1の分解レンダリングに由来し得、第2の候補セグメントは、第2の分解レンダリングに由来し得る。いくつかの実施形態において、比較は、2つの分解レンダリングが実質的に同じであるかまたは異なるかの判定を含む。いくつかの実施形態において、比較は、2つの候補セグメントが実質的に同じであるかまたは異なるかの判定を含む。2つの候補セグメントは、好適な比較方法によって実質的に同じであるかまたは異なると判定され得、その比較方法の非限定的な例としては、目視検査、2つの候補セグメントのレベルもしくはZ得点の比較、2つの候補セグメントのエッジの比較、2つの候補セグメントもしくはそれらの対応する分解レンダリングのオーバーレイなどまたはそれらの組み合わせが挙げられる。
分類およびその使用
本明細書中に記載される方法は、テストサンプルに対するゲノム領域における遺伝子型および/または遺伝子変異/変化の存在または非存在を示唆するアウトカムを提供し得る(例えば、遺伝子変異の存在または非存在を判定するアウトカムを提供する)。本明細書中に記載される方法は、テストサンプルに対する表現型および/または医学的症状の存在または非存在を示唆するアウトカムを提供するときがある(例えば、医学的症状の存在または非存在および/または表現型を判定するアウトカムを提供する)。アウトカムは、分類プロセスの一部であることが多く、分類(例えば、テストサンプルに対する遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在の分類)は、アウトカムに基づくときがあり、かつ/またはアウトカムを含むときがある。アウトカムおよび/または分類は、分類プロセスにおいて遺伝子型、表現型、遺伝子変異、遺伝子変化および/または医学的症状の存在または非存在の判定を容易にする、テストサンプルに対するデータ処理の結果(例えば、統計値(例えば、標準得点(例えば、z得点))に基づくときがあり、かつ/またはそのデータ処理の結果を含むときがある。アウトカムおよび/または分類は、遺伝子型、表現型、遺伝子変異、遺伝子変化および/または医学的症状の存在または非存在を判定するスコアまたはそれらの存在または非存在のコールを含むときがあるか、またはそれに基づくときがある。ある特定の実施形態において、アウトカムおよび/または分類は、分類プロセスにおいて遺伝子型、表現型、遺伝子変異、遺伝子変化および/または医学的症状の存在または非存在を予測および/または判定する結論を含む。
遺伝子型および/または遺伝子変異は、テストサンプルに対するゲノムまたは遺伝情報の中に検出可能な変更をもたらす1つまたはそれを超えるヌクレオチドを含む領域の増加、減少および/または変化(例えば、重複、欠失、融合、挿入、短タンデム反復(STR)、変異、単一ヌクレオチド変化、再編成、置換または異常なメチル化)を含むことが多い。遺伝子型および/または遺伝子変異は、特定のゲノム領域(例えば、染色体、染色体の部分(すなわち、サブ染色体領域)、STR、多型領域、転座した領域、変化したヌクレオチド配列などまたは前述のものの組み合わせ)に存在することが多い。遺伝子変異は、特定の領域に対するコピー数変化、例えば、染色体領域に対するトリソミーもしくはモノソミー、または特定の領域に対する微小重複もしくは微小欠失の事象(例えば、約10メガベースまたはそれ未満(例えば、約9メガベースもしくはそれ未満、8メガベースもしくはそれ未満、7メガベースもしくはそれ未満、6メガベースもしくはそれ未満、5メガベースもしくはそれ未満、4メガベースもしくはそれ未満、3メガベースもしくはそれ未満、2メガベースもしくはそれ未満または1メガベースもしくはそれ未満)の領域の増加または減少)であるときがある。コピー数変化は、コピーを有しないかまたは1、2、3もしくは4コピーまたはそれを超えるコピー数の特定の領域(例えば、染色体、サブ染色体、STR、微小重複または微小欠失領域)を有すると表現されるときがある。
遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在は、ゲノム部分にマッピングされた配列リード(例えば、カウント、参照ゲノムのゲノム部分のカウント)を変換、解析および/または操作することによって判定され得る。ある特定の実施形態において、アウトカムおよび/または分類は、正規化されたカウント、リード密度、リード密度プロファイルなどに従って判定され、本明細書中に記載される方法によって判定され得る。アウトカムおよび/または分類は、テストサンプルに対して特定の遺伝子型、表現型、遺伝子変異または医学的症状が存在するかまたは存在しない確率を指す1つまたはそれを超えるスコアおよび/またはコールを含むときがある。あるスコアの値は、例えば、遺伝子型、表現型、遺伝子変異または医学的症状に対応し得る、マッピングされた配列リードの変動、差異または比を決定するために使用され得る。例えば、参照ゲノムに対して、あるデータセットから選択された遺伝子型、表現型、遺伝子変異または医学的症状について陽性のスコアが算出されると、テストサンプルの遺伝子型、表現型、遺伝子変異または医学的症状が分類され得る。
アウトカムおよび/または分類の任意の好適な表現が、提供され得る。アウトカムおよび/または分類は、1つまたはそれを超える確率に関する考慮すべきものの文脈において、本明細書中に記載される処理方法を用いて生成された1つまたはそれを超える数値に基づくときがあり、かつ/またはそれらの数値を含むときがある。使用され得る値の非限定的な例としては、感度、特異性、標準偏差、中央絶対偏差(MAD)、確定性の尺度、信頼の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという確定性または信頼の尺度、不確定性の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという不確定性の尺度、変動係数(CV)、信頼水準、信頼区間(例えば、約95%信頼区間)、標準得点(例えば、z得点)、カイ値、ファイ値、t検定の結果、p値、倍数性値、当てはめられた少数種比率、面積比、中央値レベルなどまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、アウトカムおよび/または分類は、リード密度、リード密度プロファイルおよび/またはプロット(例えば、プロファイルプロット)を含む。ある特定の実施形態において、複数の値が、かかる値に対するプロファイル(例えば、z得点プロファイル、p値プロファイル、カイ値プロファイル、ファイ値プロファイル、t検定の結果、値のプロファイルなどまたはそれらの組み合わせ)において、一緒に解析されるときがある。確率に関する考慮すべきものは、被験体が、遺伝子型、表現型、遺伝子変異および/または医学的症状を有するリスクがあるかまたはそれらを有するかの判定を容易にし得、前述のものを判定するアウトカムおよび/または分類は、そのような考慮すべきものを含むときがある。
ある特定の実施形態において、アウトカムおよび/または分類は、テストサンプルの遺伝子型、表現型、遺伝子変異および/または医学的症状のリスクまたはそれらの存在または非存在の確率を予想および/または判定する結論に基づき、かつ/またはその結論を含む。結論は、本明細書中に記載されるデータ解析方法から決定された値(例えば、確率、確定性および/または不確定性を示唆する統計値(例えば、標準偏差、中央絶対偏差(MAD)、確定性の尺度、信頼の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという確定性または信頼の尺度、不確定性の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという不確定性の尺度、変動係数(CV)、信頼水準、信頼区間(例えば、約95%信頼区間)、標準得点(例えば、z得点)、カイ値、ファイ値、t検定の結果、p値、感度、特異性などまたはそれらの組み合わせ)に基づくときがある。アウトカムおよび/または分類は、特定のテストサンプルに対する臨床検査レポート(本明細書の以後に、より詳細に説明される)において、遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在に関する確率(例えば、オッズ比、p値)、尤度または危険因子として表現されるときがある。テストサンプルに対するアウトカムおよび/または分類は、特定の遺伝子型、表現型、遺伝子変異および/または医学的症状に関して「陽性」または「陰性」として提供されるときがある。例えば、遺伝子型、表現型、遺伝子変異および/または医学的症状が存在することが判定された場合、アウトカムおよび/または分類は、特定のテストサンプルに対する臨床検査レポートにおいて「陽性」と呼ばれるときがあり、遺伝子型、表現型、遺伝子変異および/または医学的症状が存在しないことが判定された場合、アウトカムおよび/または分類は、特定のテストサンプルに対する臨床検査レポートにおいて「陰性」と呼ばれるときがある。アウトカムおよび/または分類は、判定されるときがあり、データ処理において使用される仮定を含むときがある。
アウトカムおよび/または分類は、クラスターの中もしくは外の値、閾値を上回るもしくは下回る値、範囲(例えば、しきい値範囲)内の値、および/または分散もしくは信頼の尺度を伴う値に基づくかまたはそれらの値として表現されるときがある。いくつかの実施形態において、アウトカムおよび/または分類は、所定の閾値もしくはカットオフ値および/またはその値に関連する不確定性の尺度、信頼水準もしくは信頼区間を上回るまたは下回る値に基づくかまたはそれらとして表現される。ある特定の実施形態において、所定の閾値またはカットオフ値は、予想されるレベルまたは予想されるレベル範囲である。いくつかの実施形態において、テストサンプルに対して得られる値は、標準得点(例えば、z得点)であり、ここで、そのスコアの絶対値が、特定のスコアしきい値(例えば、約2〜約5;約3〜約4のしきい値)より大きいとき、遺伝子型、表現型、遺伝子変異および/または医学的症状が存在すると判定され、そのスコアの絶対値が特定のスコアしきい値未満であるとき、遺伝子型、表現型、遺伝子変異および/または医学的症状が存在しないと判定される。ある特定の実施形態において、アウトカムおよび/または分類は、所定の値範囲(例えば、しきい値範囲)に入るかまたは入らない値、およびその範囲の内側または外側の値に対する関連する不確定性または信頼水準に基づくか、またはそれらとして表現される。いくつかの実施形態において、アウトカムおよび/または分類は、所定の値に等しい(例えば、1に等しい、ゼロに等しい)かまたは所定の値範囲内の値に等しい値、およびその範囲に等しいか、その範囲内または範囲外である値に対するその関連する不確定性または信頼水準を含む。アウトカムおよび/または分類は、プロット(例えば、プロファイルプロット)としてグラフを用いて表されるときがある。アウトカムおよび/または分類は、参照値または参照プロファイルの使用を含むときがあり、参照値または参照プロファイルは、1つまたはそれを超える参照サンプル(例えば、ゲノムの選択された部分(例えば、領域)に対して正倍数性の参照サンプル)から得られるときがある。
いくつかの実施形態において、アウトカムおよび/または分類は、選択された領域に対する検査値または検査プロファイルと参照値または参照プロファイルとの間の不確定性の尺度の使用に基づくかまたはそれを含む。いくつかの実施形態において、遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在の判定は、選択された領域(例えば、染色体またはその一部)に対する検査値または検査プロファイルと参照値または参照プロファイルとの間の偏差の数値(例えば、シグマ)に従う。偏差の尺度は、偏差の絶対値または偏差の絶対尺度(例えば、平均絶対偏差または中央絶対偏差(MAD))であることが多い。いくつかの実施形態において、検査値または検査プロファイルと参照値または参照プロファイルとの間の偏差の数値が、約1またはそれを超える(例えば、約1.5、2、2.5、2.6、2.7、2.8、2.9、3、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、4、5もしくは6という偏差またはそれを超える)とき、遺伝子型、表現型、遺伝子変異および/または医学的症状が存在すると判定される。ある特定の実施形態において、検査値または検査プロファイルおよび参照値または参照プロファイルが、約2〜約5という偏差の尺度(例えば、シグマ、MAD)または3を超える偏差の尺度(例えば、3シグマ、3MAD)だけ異なるとき、遺伝子型、表現型、遺伝子変異および/または医学的症状が存在すると判定される。検査値または検査プロファイルと参照値または参照プロファイルとの間の3を超える偏差は、選択された領域について試験被験体が非正倍数性であること(例えば、遺伝子変異の存在(例えば、トリソミー、モノソミー、微小重複、微小欠失の存在)を示唆することが多い。正倍数性を示唆する参照プロファイルを有意に上回る検査値または検査プロファイルは、トリソミー、サブ染色体重複または微小重複を判定するときがある。正倍数性を示唆する参照プロファイルを有意に下回る検査値または検査プロファイルは、モノソミー、サブ染色体欠失または微小欠失を判定するときがある。いくつかの実施形態において、ゲノムの選択された領域に対する検査値または検査プロファイルと参照値または参照プロファイルとの間の偏差の数値が、約3.5またはそれ未満(例えば、約3.4、3.3、3.2、3.1、3、2.9、2.8、2.7、2.6、2.5、2.4、2.3、2.2、2.1、2、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2、1.1、1またはそれ未満未満)であるとき、遺伝子型、表現型、遺伝子変異および/または医学的症状が存在しないと判定される。ある特定の実施形態において、検査値または検査プロファイルが、3という偏差の尺度(例えば、3シグマ、3MAD)未満だけ参照値または参照プロファイルと異なるとき、遺伝子型、表現型、遺伝子変異および/または医学的症状が存在しないと判定される。いくつかの実施形態において、検査値または検査プロファイルと参照値または参照プロファイルとの間の3未満の偏差(例えば、標準偏差の場合、3シグマ)の尺度は、正倍数性である(例えば、遺伝子変異が存在しない)領域を示唆することが多い。テストサンプルに対する検査値または検査プロファイルと、1つまたはそれを超える参照被験体に対する参照値または参照プロファイルとの間の偏差の尺度が、プロットされ、可視化され得る(例えば、z得点プロット)。
いくつかの実施形態において、アウトカムおよび/または分類は、コールゾーン(call zone)に従って判定される。ある特定の実施形態において、ある値(例えば、プロファイル、リード密度プロファイルおよび/または不確定性の尺度)または値の集合が、予め定義された範囲(例えば、ゾーン、コールゾーン)に入るとき、コールが行われる(例えば、遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在を判定するコール)。いくつかの実施形態において、コールゾーンは、特定のサンプル群から得られた値の集合(例えば、プロファイル、リード密度プロファイル、確率の尺度もしくは判定および/または不確定性の尺度)に従って定義される。ある特定の実施形態において、コールゾーンは、同じ染色体またはその一部から得られた値の集合に従って定義される。いくつかの実施形態において、遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在を判定するためのコールゾーンは、不確定性の尺度(例えば、高い信頼水準または低い不確定性の尺度)および/またはテストサンプルに対して測定された少数核酸種の定量値(例えば、約1%またはそれを超える少数種(例えば、約2、3、4、5、6、7、8、9、10%またはそれを超える少数核酸種))に従って定義される。少数核酸種の定量値は、テストサンプルに対して確かめられた癌細胞核酸または胎児核酸の比率またはパーセント(すなわち、胎児比率)であるときがある。いくつかの実施形態において、コールゾーンは、信頼水準または信頼区間(例えば、95%信頼水準のための信頼区間)によって定義される。コールゾーンは、信頼水準、または約90%もしくはそれを超える(例えば、約91、92、93、94、95、96、97、98、99、99.1、99.2、99.3、99.4、99.5、99.6、99.7、99.8、99.9%またはそれを超える)特定の信頼水準に基づく信頼区間によって定義されるときがある。いくつかの実施形態において、コールは、コールゾーンおよびさらなるデータまたは情報を用いて行われる。いくつかの実施形態において、コールは、コールゾーンを用いずに行われる。いくつかの実施形態において、コールは、コールゾーンを使用しない比較に基づいて行われる。いくつかの実施形態において、コールは、プロファイルの目視検査(例えば、リード密度の目視検査)に基づいて行われる。
いくつかの実施形態において、検査値または検査プロファイルが、無コールゾーン(no−call zone)内であるとき、テストサンプルに対する分類またはコールは、提供されない。いくつかの実施形態において、無コールゾーンは、精度が低いこと、リスクが高いこと、誤差が大きいこと、信頼水準が低いこと、不確定性の尺度が大きいことなどまたはそれらの組み合わせを示唆する値(例えば、値の集合)またはプロファイルによって定義される。いくつかの実施形態において、無コールゾーンは、少数核酸種の定量値(例えば、約10%またはそれ未満の少数核酸種(例えば、約9、8、7、6、5、4、3、2%またはそれ未満の少数核酸種))によって部分的に定義される。遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在を判定するために生成されたアウトカムおよび/または分類は、ヌル結果を含むときがある。ヌル結果は、2つのクラスターの間のデータポイント、遺伝子型、表現型、遺伝子変異および/または医学的症状の存在と非存在の両方に対する値を包含する標準偏差を伴う数値、調査されている遺伝子変異を有するかまたは有しない被験体に対するプロファイルプロットに似ていないプロファイルプロットを有するデータセットであるときがある。いくつかの実施形態において、ヌル結果を示唆するアウトカムおよび/または分類は、確定的な結果とみなされ、その判定は、遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在を判定するためのさらなる情報ならびに/またはデータ生成および/もしくはデータ解析の繰り返しの必要性の結論を含み得る。
分類プロセスにおいて生成される分類には、通常、4つのタイプがある:真陽性、偽陽性、真陰性および偽陰性。用語「真陽性」は、本明細書中で使用されるとき、テストサンプルに対して遺伝子型、表現型、遺伝子変異または医学的症状が存在すると正しく判定されたことを指す。用語「偽陽性」は、本明細書中で使用されるとき、テストサンプルに対して遺伝子型、表現型、遺伝子変異または医学的症状が存在すると誤って判定されたことを指す。用語「真陰性」は、本明細書中で使用されるとき、テストサンプルに対して遺伝子型、表現型、遺伝子変異または医学的症状が存在しないと正しく判定されたことを指す。用語「偽陰性」は、本明細書中で使用されるとき、テストサンプルに対して遺伝子型、表現型、遺伝子変異または医学的症状が存在しないと誤って判定されたことを指す。分類プロセスに対する性能の2つの尺度は、これらの発生の比に基づいて算出され得る:(i)一般に、陽性であると正しく識別される、予測される陽性の比率である感度値;および(ii)一般に、陰性であると正しく識別される、予測される陰性の比率である特異性値。
ある特定の実施形態において、分類プロセスに対して生成された臨床検査レポートは、検査の性能の尺度(例えば、感度および/または特異性)および/または信頼の尺度(例えば、信頼水準、信頼区間)を含む。検査の性能および/または信頼の尺度は、テストサンプルに対して臨床検査を行う前に行われる臨床上の検証研究から得られるときがある。ある特定の実施形態において、感度、特異性および/または信頼のうちの1つまたはそれを超えるものが、パーセンテージとして表現される。いくつかの実施形態において、感度、特異性または信頼水準の各々に対して独立して表現されるパーセンテージは、約90%超(例えば、約90、91、92、93、94、95、96、97、98もしくは99%、または99%超である(例えば、約99.5%またはそれを超える、約99.9%またはそれを超える、約99.95%またはそれを超える、約99.99%またはそれを超える))。特定の信頼水準(例えば、約90%〜約99.9%(例えば、約95%)の信頼水準)に対して表現される信頼区間は、値の範囲として表現され得、特定の信頼水準に対する感度および/または特異性の範囲として表現されるときがある。変動係数(CV)は、いくつかの実施形態において、パーセンテージとして表現され、そのパーセンテージは、約10%またはそれ未満(例えば、約10、9、8、7、6、5、4、3、2もしくは1%、または1%未満(例えば、約0.5%またはそれ未満、約0.1%またはそれ未満、約0.05%またはそれ未満、約0.01%またはそれ未満))であるときがある。確率(例えば、特定のアウトカムおよび/または分類が偶然に起因しない確率)は、ある特定の実施形態において、標準得点(例えば、z得点)、p値またはt検定の結果として表現される。いくつかの実施形態において、アウトカムおよび/または分類に対する計測された分散、信頼水準、信頼区間、感度、特異性など(例えば、信頼パラメータと総称される)は、本明細書中に記載される1つまたはそれを超えるデータ処理操作を用いて生成され得る。アウトカムおよび/または分類および関連する信頼水準を生成する具体例は、例えば、国際特許出願公開番号WO2013/052913、WO2014/190286およびWO2015/051163(本文、表、式および図面のすべてを含むそれらの内容全体が参照により本明細書中に援用される)に記載されている。
テストサンプルに対するアウトカムおよび/または分類は、テストサンプルが得られた被験体にアウトカムおよび/または分類を伝えるヘルスケアの専門家または他の有資格者(例えば、医師または助手)によって順序づけられることが多く、そのヘルスケアの専門家または他の有資格者に提供されることが多い。ある特定の実施形態において、アウトカムおよび/または分類は、好適な視覚媒体(例えば、機器の周辺装置または構成要素、例えば、プリンターまたはディスプレイ)を用いて提供される。分類および/またはアウトカムは、レポートの形態でヘルスケアの専門家または有資格者に提供されることが多い。レポートは、通常、アウトカムおよび/または分類の表示(例えば、値、または遺伝子型、表現型、遺伝子変異および/もしくは医学的症状の存在または非存在の評価または確率)を含み、関連する信頼パラメータを含むときがあり、アウトカムおよび/または分類を生成するために使用された検査に対する性能の尺度を含むときがある。レポートは、追跡手順(例えば、アウトカムまたは分類を確かめる手順)のための勧告を含むときがある。レポートは、染色体またはその部分の視覚表示(例えば、染色体のイデオグラムまたは核型)を含むときがあり、テストサンプルに対して特定された染色体に対する重複領域および/または欠失領域の描出(例えば、染色体欠失または染色体重複に対する染色体全体の描出;欠失領域または重複領域が示されている染色体全体の描出;重複または欠失した染色体の部分の描出;染色体の部分の欠失事象において残存している染色体の部分の描出)を示すときがある。
レポートは、医療専門家または他の有資格者による、遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在の判定を容易にする好適な形式で表示され得る。レポートを生成するための使用に適した形式の非限定的な例としては、デジタルデータ、グラフ、2Dグラフ、3Dグラフおよび4Dグラフ、写真(例えば、jpg、bitmap(例えば、bmp)、pdf、tiff、gif、raw、pngなどまたは好適な形式)、ピクトグラフ、チャート、表、棒グラフ、円グラフ、ダイアグラム、フローチャート、散布図、マップ、ヒストグラム、密度チャート、関数グラフ、回路図、ブロック図、バブルマップ、信号空間ダイアグラム、等高線図、統計地図、スパイダーチャート、ベン図、ノモグラムなど、または前述のものの組み合わせが挙げられる。
レポートは、コンピュータによって、および/または人間によるデータ入力によって生成され得、好適な電子媒体を用いて(例えば、インターネットによって、コンピュータを介して、ファクシミリを介して、同じまたは異なる物理的位置における1つのネットワーク場所から別の場所へ)、またはデータを送受信する他の方法(例えば、メールサービス、クーリエサービスなど)によって、伝えられ、伝達され得る。レポートを伝えるための通信媒体の非限定的な例としては、音声ファイル、コンピュータ可読ファイル(例えば、pdfファイル)、紙のファイル、検査ファイル、医療記録ファイル、または先のパラグラフに記載された他の任意の媒体が挙げられる。検査ファイルまたは医療記録ファイルは、ある特定の実施形態において、有形の形態または電子的形態(例えば、コンピュータ可読形態)であり得る。レポートが生成され、伝えられた後、レポートは、再検討の際にヘルスケアの専門家または他の有資格者がテストサンプルに対する遺伝子型、表現型、遺伝子変異および/またはまたは医学的症状の存在または非存在に関する判定を行うことを可能にする、アウトカムおよび/または分類を含む書面および/またはグラフによる提示を好適な通信媒体によって得ることによって受け取られ得る。
アウトカムおよび/または分類は、検査室によって提供され得、その検査室から得られることがある(例えば、検査ファイルから得られることがある)。検査ファイルは、テストサンプルに対する遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在を判定するための1つまたはそれを超える検査を行う検査室によって生成され得る。検査室の人員(例えば、検査室の管理者)は、アウトカムおよび/または分類の基礎をなすテストサンプルに関連する情報(例えば、検査プロファイル、参照プロファイル、検査値、参照値、偏差のレベル、患者情報)を解析し得る。近いまたは疑わしい遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在に関するコールの場合、検査室の人員は、試験被験体由来の同じテストサンプル(例えば、同じサンプルのアリコート)もしくは異なるテストサンプルを使用して同じ手順を再実施し得る。検査室は、検査ファイルから遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在を評価する人員と同じ場所または異なる場所(例えば、別の国)に存在し得る。例えば、検査ファイルが、1つの場所において生成され、別の場所に伝えられ得、その別の場所において、そのファイルの中のテストサンプルに対する情報が、ヘルスケアの専門家または他の有資格者によって評価され、必要に応じて、テストサンプルが得られた被験体に伝えられる。検査室は、テストサンプルに対するゲノム不安定性、遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在の分類を含む検査室レポートを生成し、かつ/または伝えるときがある。臨床検査レポートを生成する検査室は、認定された検査室であるときがあり、臨床検査改善修正法案(Clinical Laboratory Improvement Amendments)(CLIA)の下に認定された検査室であるときがある。
アウトカムおよび/または分類は、被験体に対する診断の構成要素であるときがあり、アウトカムおよび/または分類は、テストサンプルに対して診断を提供する一部として利用および/または評価されるときがある。例えば、ヘルスケアの専門家または他の有資格者は、アウトカムおよび/または分類を解析し得、そのアウトカムおよび/または分類に基づいてまたは部分的に基づいて診断を提供し得る。いくつかの実施形態において、医学的症状、疾患、症候群または異常の判定、検出または診断は、遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在を判定するアウトカムおよび/または分類の使用を含む。いくつかの実施形態において、カウントされてマッピングされた配列リード、正規化されたカウントおよび/またはその変換に基づくアウトカムおよび/または分類は、遺伝子型および/または遺伝子変異の存在または非存在を判定する。ある特定の実施形態において、診断は、症状、症候群または異常の存在または非存在の判定を含む。ある特定の場合において、診断は、遺伝子型または遺伝子変異を医学的症状、疾患、症候群または異常の性質および/または原因として判定することを含む。したがって、本明細書中に記載される方法によって生成されたアウトカムまたは分類に従って、ならびに必要に応じてテストサンプルに対する遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在に対する分類を含む検査室レポートの生成および伝達に従って、テストサンプルに対する遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在を診断するための方法が、本明細書中に提供される。
アウトカムおよび/または分類は、被験体のヘルスケアおよび/または処置の構成要素であるときがある。アウトカムおよび/または分類は、テストサンプルが得られた被験体に対して処置を提供する一部として利用および/または評価されるときがある。例えば、遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在を示唆するアウトカムおよび/または分類は、テストサンプルが得られた被験体のヘルスケアおよび/または処置の構成要素である。医療的ケア、処置およびまたは診断は、例えば、出生前のケア、細胞増殖性の症状、癌などに対する被験体の医学的処置などの任意の好適な健康状態の領域におけるものであり得る。本明細書中に記載される方法によって、遺伝子型、表現型、遺伝子変異および/もしくは医学的症状、疾患、症候群または異常の存在または非存在を判定するアウトカムおよび/または分類は、さらに検査することによって独立して検証されるときがある。アウトカムおよび/または分類を検証するための任意の好適なタイプのさらなる検査を利用することができ、その非限定的な例としては、例えば、血中濃度検査(例えば、血清検査)、生検、スキャン(例えば、CTスキャン、MRIスキャン)、侵襲的採取(例えば、羊水穿刺または絨毛採取)、核型分析、マイクロアレイアッセイ、超音波、ソノグラムなどが挙げられる。
ヘルスケアの専門家または有資格者は、検査室レポートに提供されたアウトカムおよび/または分類に基づいて好適なヘルスケアの勧告を提供し得る。いくつかの実施形態において、勧告は、提供されるアウトカムおよび/または分類(例えば、癌、癌のステージおよび/またはタイプ、ダウン症候群、ターナー症候群、T13における遺伝子変異に関連する医学的症状、T18における遺伝子変異に関連する医学的症状)に依存する。検査室レポートにおけるアウトカムまたは分類に基づいて提供され得る勧告の非限定的な例としては、手術、放射線治療、化学療法、遺伝相談、産後の処置の解決策(例えば、生活設計、長期間にわたる補助介護、医薬、対症療法)、妊娠中絶、臓器移植、輸血、先のパラグラフに記載されたさらなる検査など、または前述のものの組み合わせが挙げられるがこれらに限定されない。したがって、被験体を処置するための方法および被験体にヘルスケアを提供するための方法は、本明細書中に記載される方法によってテストサンプルに対する遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在に対する分類を生成する工程、ならびに必要に応じて、テストサンプルに対する遺伝子型、表現型、遺伝子変異および/または医学的症状の存在または非存在の分類を含む検査室レポートを生成し、伝える工程を含むときがある。
アウトカムおよび/または分類の生成は、テストサンプルの核酸配列リードから、被験体の細胞性核酸の提示への変換とみなされ得る。例えば、本明細書中に記載される方法による被験体由来の核酸の配列リードの変化、ならびにアウトカムおよび/または分類の生成は、被験体における比較的小さい配列リードフラグメントから比較的大きく複雑な核酸構造の提示への変換とみなされ得る。いくつかの実施形態において、アウトカムおよび/または分類は、被験体由来の配列リードから、その被験体に存在する既存の核酸構造(例えば、被験体におけるゲノム、染色体、染色体セグメント、循環無細胞核酸フラグメントの混合物)の提示への変換から生じる。
いくつかの実施形態において、本明細書中の方法は、被験体由来のテストサンプルに対して遺伝子変化または遺伝子変異が存在すると判定されたとき、被験体を処置する工程を含む。いくつかの実施形態において、被験体を処置する工程は、テストサンプルに対して遺伝子変化または遺伝子変異が存在すると判定されたとき、医学的手技を行う工程を含む。いくつかの実施形態において、医学的手技には、侵襲的な診断手順、例えば、羊水穿刺、絨毛採取、生検などが含まれる。例えば、羊水穿刺または絨毛採取を含む医学的手技は、妊婦由来のテストサンプルに対して胎児の異数性が存在すると判定されたとき行われ得る。別の例では、生検を含む医学的手技は、被験体由来のテストサンプルに対して、癌の存在を示唆するかまたは癌の存在に関連する遺伝子変化が存在すると判定されたとき、行われ得る。侵襲的な診断手順は、遺伝子変化もしくは遺伝子変異の存在の判定を確かめるために行われ得、かつ/または例えば、遺伝子変化もしくは遺伝子変異に関連する医学的症状をさらに特徴づけるために行われ得る。いくつかの実施形態において、医学的手技は、遺伝子変化または遺伝子変異に関連する医学的症状の処置として行われ得る。処置には、例えば、手術、放射線治療、化学療法、妊娠中絶、臓器移植、細胞移植、輸血、医薬、対症療法などのうちの1つまたはそれを超えるものが含まれ得る。
いくつかの実施形態において、本明細書中の方法は、被験体由来のテストサンプルに対して遺伝子変化または遺伝子変異が存在しないと判定されたとき、被験体を処置する工程を含む。いくつかの実施形態において、被験体を処置する工程は、テストサンプルに対して遺伝子変化または遺伝子変異が存在しないと判定されたとき、医学的手技を行う工程を含む。例えば、テストサンプルに対して遺伝子変化または遺伝子変異が存在しないと判定されたとき、医学的手技には、健康状態のモニタリング、再検査、さらなるスクリーニング、追跡検査などが含まれ得る。いくつかの実施形態において、本明細書中の方法は、妊婦由来のテストサンプルに対して胎児の異数性、遺伝子変異または遺伝子変化が存在しないと判定されたとき、正倍数性の妊娠または正常妊娠と一致した被験体を処置する工程を含む。例えば、妊婦由来のテストサンプルに対して胎児の異数性、遺伝子変異または遺伝子変化が存在しないと判定されたとき、正倍数性の妊娠または正常妊娠と一致した医学的手技が、行われ得る。正倍数性の妊娠または正常妊娠と一致した医学的手技には、胎児および/もしくは母体の健康状態のモニタリングの一部または胎児母体の健康のモニタリングとして行われる1つまたはそれを超える手技が含まれ得る。正倍数性の妊娠または正常妊娠と一致した医学的手技には、妊娠の症候を処置するための1つまたはそれを超える手技が含まれ得、その症候としては、例えば、悪心、疲労、乳房圧痛、頻尿、背痛、腹痛、下肢痙攣、便秘、胸焼け、息切れ、痔、尿失禁、拡張蛇行静脈および不眠症のうちの1つまたはそれを超えるものが挙げられ得る。正倍数性の妊娠または正常妊娠と一致した医学的手技には、例えば、潜在的リスクを評価するため、合併症を処置するため、既存の医学的症状(例えば、高血圧症、糖尿病)に対処するため、ならびに胎児の成長および発達をモニタリングするための出生前ケアの経過全体にわたって行われる1つまたはそれを超える手技が含まれ得る。正倍数性の妊娠または正常妊娠に一致した医学的手技としては、例えば、全血球計算値(CBC)モニタリング、Rh抗体検査、尿検査、尿培養モニタリング、風疹スクリーニング、B型肝炎およびC型肝炎スクリーニング、性行為感染症(STI)スクリーニング(例えば、梅毒、クラミジア、淋病のスクリーニング)、ヒト免疫不全ウイルス(HIV)スクリーニング、結核(TB)スクリーニング、アルファ−フェトプロテインスクリーニング、胎児心拍数モニタリング(例えば、超音波振動子を使用)、子宮活動モニタリング(例えば、トコトランスデューサを使用)、遺伝障害(例えば、嚢胞性線維症、鎌状赤血球貧血、血友病A)に対する遺伝子スクリーニング検査および/または遺伝子診断検査、グルコーススクリーニング、耐糖能検査、妊娠糖尿病の処置、出生前の高血圧症の処置、子癇前症の処置、B群連鎖球菌(GBS)血液型スクリーニング、B群連鎖球菌培養、B群連鎖球菌の(例えば、抗生物質による)処置、超音波モニタリング(例えば、日常的な超音波モニタリング、レベルII超音波モニタリング、標的化超音波モニタリング)、ノンストレス検査モニタリング、生物物理学的プロファイルモニタリング、羊水指数モニタリング、血清検査(例えば、血漿タンパク質−A(PAPP−A)、アルファ−フェトプロテイン(AFP)、ヒト絨毛性ゴナドトロピン(hCG)、非抱合型エストリオール(uE3)およびインヒビン−A(inhA)の検査)、遺伝子検査、羊水穿刺診断検査および絨毛採取(CVS)診断検査が挙げられ得る。
いくつかの実施形態において、本明細書中の方法は、被験体由来のテストサンプルに対して遺伝子変異または遺伝子変化が存在しないと判定されたとき、癌を有しない状態と一致する被験体を処置する工程を含む。ある特定の実施形態において、癌に関連する遺伝子変化または遺伝子変異が存在しないとテストサンプルに対して判定されるとき、健康な予後に一致する医学的手技が、行われ得る。例えば、健康な予後に一致する医学的手技としては、テストサンプルが検査された被験体の健康状態のモニタリング、二次検査(例えば、二次スクリーニング検査)の実施、確認検査の実施、癌に関連する1つまたはそれを超えるバイオマーカー(例えば、男性における前立腺特異的抗原(PSA))のモニタリング、血液細胞(例えば、赤血球、白血球、血小板)のモニタリング、1つまたはそれを超える生命徴候(例えば、心拍数、血圧)のモニタリング、および/または1つもしくはそれを超える血液代謝産物(例えば、総コレステロール、HDL(高密度リポタンパク質)、LDL(低密度リポタンパク質)、トリグリセリド、総コレステロール/HDL比、グルコース、フィブリノゲン、ヘモグロビン、デヒドロエピアンドロステロン(DHEA)、ホモシステイン、C反応性タンパク質、ホルモン(例えば、甲状腺刺激ホルモン、テストステロン、エストロゲン、エストラジオール)、クレアチン、塩(例えば、カリウム、カルシウム)など)のモニタリングが挙げられるが、これらに限定されない。いくつかの実施形態において、本明細書中の方法は、テストサンプルに対して遺伝子変化または遺伝子変異が存在しないと判定されたとき、医学的手技を行わない工程を含み、侵襲的採取を含む医学的手技を行わない工程を含むときがある。
機器、ソフトウェアおよびインターフェース
本明細書中に記載されるある特定のプロセスおよび方法(例えば、配列リード、カウント、レベルおよび/またはプロファイルのマッピング、カウント、正規化、範囲設定、調整、カテゴリー化および/または測定)は、コンピュータ、マイクロプロセッサ、ソフトウェア、モジュールまたは他の機器なしでは行うことができないことが多い。本明細書中に記載される方法は、通常、コンピュータによって履行される方法であり、ある方法の1つまたはそれを超える部分が、1つまたはそれを超えるプロセッサ(例えば、マイクロプロセッサ)、コンピュータ、システム、装置または機器(例えば、マイクロプロセッサによって制御される機器)によって行われるときがある。
使用に適したコンピュータ、システム、装置、機器およびコンピュータプログラム製品は、コンピュータ可読記憶媒体を備えることが多いかまたはコンピュータ可読記憶媒体とともに使用されることが多い。コンピュータ可読記憶媒体の非限定的な例としては、メモリ、ハードディスク、CD−ROM、フラッシュメモリデバイスなどが挙げられる。コンピュータ可読記憶媒体は、一般に、コンピュータハードウェアであり、非一時的なコンピュータ可読記憶媒体であることが多い。コンピュータ可読記憶媒体は、コンピュータ可読伝送媒体ではなく、後者は、本質的に伝送信号である。
実行可能なプログラムが格納されたコンピュータ可読記憶媒体が本明細書中に提供され、そのプログラムは、本明細書中に記載される方法を行うようにマイクロプロセッサに指示する。実行可能なプログラムモジュールが格納されたコンピュータ可読記憶媒体も提供され、そのプログラムモジュールは、本明細書中に記載される方法の一部を行うようにマイクロプロセッサに指示する。実行可能なプログラムが格納されたコンピュータ可読記憶媒体を備えるシステム、機器、装置およびコンピュータプログラム製品も本明細書中に提供され、そのプログラムは、本明細書中に記載される方法を行うようにマイクロプロセッサに指示する。実行可能なプログラムモジュールが格納されたコンピュータ可読記憶媒体を備えるシステム、機器および装置も提供され、そのプログラムモジュールは、本明細書中に記載される方法の一部を行うようにマイクロプロセッサに指示する。
コンピュータプログラム製品も提供される。コンピュータプログラム製品は、コンピュータ可読プログラムコードが組み込まれた、コンピュータが使用可能な媒体を備えることが多く、そのコンピュータ可読プログラムコードは、本明細書中に記載される方法または方法の一部を履行するために実行されるように適合されている。コンピュータが使用可能な媒体およびコンピュータ可読プログラムコードは、伝送媒体(すなわち、本質的に伝送信号)ではない。コンピュータ可読プログラムコードは、プロセッサ、コンピュータ、システム、装置または機器によって実行されるように適合されていることが多い。
いくつかの実施形態において、本明細書中に記載される方法(例えば、配列リード、カウント、レベル、プロファイルおよび/またはアウトカムを定量する、カウントする、フィルタリングする、正規化する、変換する、クラスター化する、および/または決定する方法)は、自動化された方法によって行われる。いくつかの実施形態において、本明細書中に記載される方法の1つまたはそれを超える工程は、マイクロプロセッサおよび/もしくはコンピュータによって行われ、かつ/またはメモリとともに行われる。いくつかの実施形態において、自動化された方法は、本明細書中に記載される方法を行うソフトウェア、モジュール、マイクロプロセッサ、周辺装置および/または同様のものを備える機器に組み込まれている。本明細書中で使用されるとき、ソフトウェアとは、マイクロプロセッサによって実行されたとき、本明細書中に記載されるようなコンピュータ操作を行うコンピュータ可読プログラムの指示のことを指す。
配列リード、カウント、レベルおよび/またはプロファイルは、「データ」または「データセット」と称されるときがある。いくつかの実施形態において、データまたはデータセットは、1つまたはそれを超える特徴または変数(例えば、配列に基づくもの(例えば、GC含有量、特定のヌクレオチド配列など)、機能特異的なもの(例えば、発現された遺伝子、癌遺伝子など)、場所に基づくもの(ゲノム特異的、染色体特異的、部分または部分特異的)などおよびそれらの組み合わせ)によって特徴づけられ得る。ある特定の実施形態において、データまたはデータセットは、1つまたはそれを超える特徴または変数に基づいて、2次元またはそれを超える次元を有する行列に配置され得る。行列に配置されるデータは、任意の好適な特徴または変数を用いて配置され得る。ある特定の実施形態において、1つまたはそれを超える特徴または変数によって特徴づけられるデータセットは、カウントした後に処理されるときがある。
本明細書中に記載される方法を行うために、機器、ソフトウェアおよびインターフェースが使用され得る。機器、ソフトウェアおよびインターフェースを使用するとき、ユーザーは、例えば、統計解析アルゴリズム、統計的有意性アルゴリズム、統計的アルゴリズム、繰り返し工程、検証アルゴリズムおよびグラフ表示の履行を含み得る、特定の情報、プログラムまたはプロセスを使用するためのオプションを入力し得るか、要求し得るか、照会し得るか、または決定し得る(例えば、配列リードのマッピング、マッピングされたデータの処理および/またはアウトカムの提供)。いくつかの実施形態において、データセットは、入力情報としてユーザーによって入力され得、ユーザーは、好適なハードウェア媒体(例えば、フラッシュドライブ)によって1つまたはそれを超えるデータセットをダウンロードし得、および/またはユーザーは、その後の処理および/またはアウトカムの提供のために1つのシステムから別のシステムにデータセットを送信し得る(例えば、配列リードのマッピングのために、シークエンサーからコンピュータシステムに配列リードデータを送信し得る;アウトカムおよび/またはレポートの処理および生成のために、マッピングされた配列データをコンピュータシステムに送信し得る)。
システムは、通常、1つまたはそれを超える機器を備える。各機器は、メモリ、1つまたはそれを超えるマイクロプロセッサおよび指示のうちの1つまたはそれを超えるものを備える。あるシステムが、2つまたはそれを超える機器を備える場合、それらの機器のいくつかまたはすべてが、同じ場所に存在してもよいし、それらの機器のいくつかまたはすべてが、異なる場所に存在してもよいし、それらの機器のすべてが、1つの場所に存在してもよいし、かつ/またはそれらの機器のすべてが、異なる場所に存在してもよい。あるシステムが、2つまたはそれを超える機器を備える場合、それらの機器のいくつかまたはすべてが、ユーザーと同じ場所に存在してもよいし、それらの機器のいくつかまたはすべてが、ユーザーと異なる場所に存在してもよいし、それらの機器のすべてが、ユーザーと同じ場所に存在してもよいし、かつ/またはそれらの機器のすべてが、ユーザーと異なる1つもしくはそれを超える場所に存在してもよい。
システムは、計算機および配列決定装置または配列決定機器を備えるときがあり、その配列決定装置または配列決定機器は、物理的な核酸を受け取って配列リードを生成するように構成されており、計算装置は、配列決定装置または配列決定機器からのリードを処理するように構成されている。その計算機は、配列リードから分類のアウトカムを判定するように構成されているときがある。
ユーザーは、例えば、ソフトウェアにクエリーを入れ得、次いで、そのソフトウェアは、インターネットアクセスを介してデータセットを取得し得、ある特定の実施形態では、プログラマブルマイクロプロセッサが、所与のパラメータに基づいて好適なデータセットを取得するように促され得る。プログラマブルマイクロプロセッサはまた、所与のパラメータに基づいてそのマイクロプロセッサによって選択された1つまたはそれを超えるデータセットオプションを選択するようにユーザーに促し得る。プログラマブルマイクロプロセッサは、インターネットを介して見つけ出された情報、他の内部情報または外部情報などに基づいてそのマイクロプロセッサによって選択された1つまたはそれを超えるデータセットオプションを選択するようにユーザーに促し得る。オプションは、方法、機器、装置、コンピュータプログラム、または実行可能なプログラムが格納されている非一時的なコンピュータ可読記憶媒体の、1つまたはそれを超えるデータ特徴の選択、1つまたはそれを超える統計的アルゴリズム、1つまたはそれを超える統計解析アルゴリズム、1つまたはそれを超える統計的有意性アルゴリズム、繰り返し工程、1つまたはそれを超える検証アルゴリズム、および1つまたはそれを超えるグラフ表示を選択するために選択され得る。
本明細書中で述べられるシステムは、コンピュータシステムの一般的な構成要素(例えば、ネットワークサーバー、ラップトップ型システム、デスクトップ型システム、手持ち式システム、携帯情報端末、コンピューティングキオスクなど)を備え得る。コンピュータシステムは、1つまたはそれを超える入力手段、例えば、キーボード、タッチスクリーン、マウス、音声認識手段、またはユーザーがシステムにデータを入力することを可能にする他の手段を備え得る。システムは、表示画面(例えば、CRTまたはLCD)、スピーカー、FAX機器、プリンター(例えば、レーザー、インクジェット、インパクト、モノクロまたはカラープリンター)、または情報(例えば、アウトカムおよび/またはレポート)の視覚的、聴覚的および/もしくはハードコピー出力を提供するのに有用な他の出力を含むがこれらに限定されない1つまたはそれを超える出力をさらに備え得る。
あるシステムにおいて、他の構成要素の中でもプログラムの指示を実行するためのマイクロプロセッサならびにプログラムコードおよびデータを格納するためのメモリを備え得る中央処理装置に入力および出力の構成要素が接続されていることがある。いくつかの実施形態において、プロセスは、単一の地理的位置に配置されたシングルユーザーシステムとして履行され得る。ある特定の実施形態において、プロセスは、マルチユーザーシステムとして履行され得る。マルチユーザーによる履行の場合、複数の中央処理装置が、ネットワークによって接続され得る。そのネットワークは、ある建物の一部分における単一の部門、建物全体を包含するローカルであり得るか、複数の建物にまたがり得るか、ある領域にまたがり得るか、一国全体にまたがり得るか、または世界中に及び得る。そのネットワークは、プロバイダーに所有され、制御されていてプライベートであり得るか、またはユーザーがウェブページにアクセスして情報を入力して検索する、インターネットに基づくサービスとして履行され得る。したがって、ある特定の実施形態において、システムは、ユーザーに関してローカルまたはリモートであり得る1つまたはそれを超える機器を備える。1つの場所または複数の場所における1つより多い機器は、1人のユーザーによってアクセスされ得、データは、連続しておよび/または並行して、マッピングおよび/または処理され得る。したがって、好適な配置および制御は、複数の機器(例えば、ローカルネットワーク、リモートネットワークおよび/または「クラウド」コンピューティングプラットフォームにおけるもの)を用いてデータをマッピングするためおよび/または処理するために使用され得る。
いくつかの実施形態において、システムは、通信用インターフェースを備え得る。通信用インターフェースは、コンピュータシステムと1つまたはそれを超える外部デバイスとの間のソフトウェアおよびデータの移動を可能にする。通信用インターフェースの非限定的な例としては、モデム、ネットワークインターフェース(例えば、イーサネット(登録商標)カード)、通信ポート、PCMCIAスロットおよびカードなどが挙げられる。通信用インターフェースを介して移動されるソフトウェアおよびデータは、通常、信号の形態であり、その信号は、通信用インターフェースによって受け取られることが可能な電子信号、電磁信号、光学信号および/または他の信号であり得る。信号は、回線を介して通信用インターフェースに提供されることが多い。回線は、信号を運ぶことが多く、ワイヤもしくはケーブル、光ファイバー、電話回線、携帯電話回線、RF回線および/または他の通信用回線を用いて構築され得る。したがって、一例において、通信用インターフェースは、信号検出モジュールによって検出され得る信号情報を受け取るために使用され得る。
データは、好適なデバイスおよび/または方法によって入力され得、それらとしては、手動入力デバイスまたは直接データ入力デバイス(DDE)が挙げられるが、これらに限定されない。手動デバイスの非限定的な例としては、キーボード、コンセプトキーボード、タッチセンシティブスクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックタブレット、スキャナー、デジタルカメラ、ビデオデジタイザおよび音声認識デバイスが挙げられる。DDEの非限定的な例としては、バーコードリーダ、磁気ストリップコード、スマートカード、磁気インキ文字認識、光学式文字認識、光学的マーク認識およびターンアラウンドドキュメントが挙げられる。
いくつかの実施形態において、配列決定装置または配列決定機器からの出力は、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、マッピングされた配列リードが、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、核酸のフラグメントサイズ(例えば、長さ)が、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、核酸捕捉プロセスからの出力(例えば、ゲノム領域起源データ)が、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、核酸のフラグメントサイズ(例えば、長さ)と、核酸捕捉プロセスからの出力(例えば、ゲノム領域起源データ)との組み合わせが、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、インシリコプロセスによってシミュレーションデータが生成され、そのシミュレーションデータは、入力デバイスを介して入力され得るデータとして役立つ。用語「インシリコ」とは、コンピュータを用いて行われる研究および実験のことを指す。インシリコプロセスとしては、本明細書中に記載されるプロセスに従って、配列リードをマッピングし、マッピングされた配列リードを処理することが挙げられるが、これらに限定されない。
システムは、本明細書中に記載されるプロセスまたはプロセスの一部を行うために有用なソフトウェアを備え得、ソフトウェアは、そのようなプロセスを行うための1つまたはそれを超えるモジュール(例えば、配列決定モジュール、論理処理モジュール、データ表示構築モジュール)を備え得る。用語「ソフトウェア」とは、コンピュータによって実行されたとき、コンピュータ操作を行うコンピュータ可読プログラムの指示のことを指す。1つまたはそれを超えるマイクロプロセッサによって実行可能な指示は、実行されたとき、1つまたはそれを超えるマイクロプロセッサに本明細書中に記載される方法を履行させ得る実行可能なコードとして提供されるときがある。本明細書中に記載されるモジュールは、ソフトウェアとして存在し得、そのソフトウェアに組み入れられた指示(例えば、プロセス、ルーチン、サブルーチン)は、マイクロプロセッサによって履行され得るかまたは行われ得る。例えば、あるモジュール(例えば、ソフトウェアモジュール)は、特定のプロセスまたはタスクを行うプログラムの一部であり得る。用語「モジュール」とは、より大きい機器またはソフトウェアシステムにおいて使用され得る自己完結型の機能単位のことを指す。モジュールは、そのモジュールの機能を行うための指示のセットを備え得る。モジュールは、データおよび/または情報を変換し得る。データおよび/または情報は、好適な形態で存在し得る。例えば、データおよび/または情報は、デジタルまたはアナログであり得る。ある特定の実施形態において、データおよび/または情報は、パケット、バイト、文字またはビットであり得るときがある。いくつかの実施形態において、データおよび/または情報は、集められた、アセンブルされた、または使用可能な、任意のデータまたは情報であり得る。データおよび/または情報の非限定的な例としては、好適な媒体、写真、ビデオ、音(例えば、周波数、可聴または非可聴)、数字、定数、値、オブジェクト、時間、関数、指示、マップ、参照、配列、リード、マッピングされたリード、レベル、範囲、しきい値、シグナル、表示、提示またはそれらの変換が挙げられる。モジュールは、データおよび/または情報を受け入れ得るかまたは受け取り得、データおよび/または情報を第2の形態に変換し得、その第2の形態を機器、周辺装置、構成要素または別のモジュールに提供し得るかまたは移し得る。モジュールは、以下の非限定的な機能のうちの1つまたはそれを超える機能を行い得る:例えば、配列リードをマッピングすること、カウントを提供すること、部分をアセンブルすること、レベルを提供するかもしくは決定すること、カウントプロファイルを提供すること、正規化すること(例えば、リードを正規化すること、カウントを正規化することなど)、正規化されたカウントプロファイルもしくは正規化されたカウントのレベルを提供すること、2つもしくはそれを超えるレベルを比較すること、不確定値を提供すること、予想されるレベルおよび予想される範囲(例えば、予想されるレベル範囲、しきい値範囲およびしきい値レベル)を提供するかもしくは決定すること、レベルを調整すること(例えば、第1のレベルを調整すること、第2のレベルを調整すること、染色体もしくはその一部のプロファイルを調整すること、および/またはパディングすること)、識別を提供すること(例えば、コピー数変化、遺伝子変異/遺伝子変化または異数性を識別すること)、カテゴリー化すること、プロットすること、および/またはアウトカムを決定すること。マイクロプロセッサは、ある特定の実施形態において、モジュールにおいて指示を行い得る。いくつかの実施形態において、1つまたはそれを超えるマイクロプロセッサは、モジュールまたはモジュールの群において指示を行うために必要とされる。モジュールは、データおよび/または情報を別のモジュール、機器または供給源に提供し得、データおよび/または情報を別のモジュール、機器または供給源から受け取り得る。
コンピュータプログラム製品は、有形のコンピュータ可読媒体に組み入れられているときがあり、非一時的なコンピュータ可読媒体に有形的に組み入れられているときがある。モジュールは、コンピュータ可読媒体(例えば、ディスク、ドライブ)またはメモリ(例えば、ランダムアクセスメモリ)に格納されているときがある。モジュールからの指示を履行することができるモジュールおよびマイクロプロセッサは、1つの機器または異なる機器に存在し得る。モジュールに対する指示を履行することができるモジュールおよび/またはマイクロプロセッサは、ユーザーと同じ場所(例えば、ローカルネットワーク)またはユーザーと異なる場所(例えば、リモートネットワーク、クラウドシステム)に存在し得る。2つまたはそれを超えるモジュールとともに方法が行われる実施形態において、それらのモジュールは、同じ機器に存在し得、1つまたはそれを超えるモジュールは、同じ物理的場所における異なる機器に存在し得、1つまたはそれを超えるモジュールは、異なる物理的場所における異なる機器に存在し得る。
機器は、いくつかの実施形態において、モジュールにおいて指示を行うための少なくとも1つのマイクロプロセッサを備える。配列リードの定量値(例えば、カウント)は、本明細書中に記載される方法を行うように構成された指示を実行するマイクロプロセッサによってアクセスされるときがある。マイクロプロセッサによってアクセスされる配列リードの定量値は、システムのメモリ内に存在し得、それらのカウントは、アクセスされ得、それらのカウントを得た後に、そのシステムのメモリに入れられ得る。いくつかの実施形態において、機器は、マイクロプロセッサ(例えば、1つまたはそれを超えるマイクロプロセッサ)を備え、そのマイクロプロセッサは、モジュールからの1つまたはそれを超える指示(例えば、プロセス、ルーチンおよび/またはサブルーチン)を行うおよび/または履行することができる。いくつかの実施形態において、機器は、複数のマイクロプロセッサ、例えば、協調されていて並行して動くマイクロプロセッサを備える。いくつかの実施形態において、機器は、1つまたはそれを超える外部マイクロプロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶装置および/または記憶ネットワーク(例えば、クラウド))とともに作動する。いくつかの実施形態において、機器は、モジュール(例えば、1つまたはそれを超えるモジュール)を備える。モジュールを備えている機器は、1つまたはそれを超えるデータおよび/または情報を、他のモジュールに移動させることができ、および他のモジュールから受け取ることができることが多い。
ある特定の実施形態において、機器は、周辺装置および/または構成要素を備える。ある特定の実施形態において、機器は、データおよび/または情報を他のモジュール、周辺装置および/または構成要素に移動させ得、ならびにデータおよび/または情報を他のモジュール、周辺装置および/または構成要素から移動させ得る、1つまたはそれを超える周辺装置または構成要素を備え得る。ある特定の実施形態において、機器は、データおよび/または情報を提供する周辺装置および/または構成要素とインタラクトする。ある特定の実施形態において、周辺装置および構成要素は、ある機能を行う際に機器を補助するか、またはモジュールと直接インタラクトする。周辺装置および/または構成要素の非限定的な例としては、好適なコンピュータ周辺装置、I/Oまたは記憶方法または記憶装置が挙げられ、それらとしては、スキャナー、プリンター、ディスプレイ(例えば、モニター、LED、LCTまたはCRT)、カメラ、マイクロホン、パッド(例えば、ipad、タブレット)、タッチスクリーン、スマートフォン、移動電話、USB I/Oデバイス、USB大容量記憶装置、キーボード、コンピュータマウス、デジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、マイクロプロセッサ、サーバー、CD、DVD、グラフィックカード、特殊化されたI/Oデバイス(例えば、シークエンサー、フォトセル、光電子増倍管、光学式読取装置、センサーなど)、1つまたはそれを超えるフローセル、流体を取り扱う構成要素、ネットワークインターフェースコントローラ、ROM、RAM、無線伝送方法および無線伝送デバイス(Bluetooth(登録商標)、WiFiなど)、ワールドワイドウェブ(www)、インターネット、コンピュータおよび/または別のモジュールが挙げられるが、これらに限定されない。
ソフトウェアは、コンピュータ可読媒体に記録されたプログラム指示を備えるプログラム製品上に提供されていることが多く、そのコンピュータ可読媒体としては、フロッピー(登録商標)ディスク、ハードディスクおよび磁気テープを含む磁気媒体;ならびにCD−ROMディスク、DVDディスク、光磁気ディスク、フラッシュメモリデバイス(例えば、フラッシュドライブ)、RAM、フロッピー(登録商標)ディスクなどを含む光学媒体およびプログラム指示が記録され得る他のそのような媒体が挙げられるが、これらに限定されない。オンラインでの履行において、ある組織が維持しているサーバーおよびウェブサイトは、遠隔ユーザーにソフトウェアのダウンロードを提供するように構成され得るか、または遠隔ユーザーが、組織によって維持されている遠隔システムにアクセスして、ソフトウェアにリモートでアクセスし得る。ソフトウェアは、入力情報を入手し得るかまたは受け取り得る。ソフトウェアは、特にデータを入手するかまたは受け取るモジュール(例えば、配列リードデータおよび/またはマッピングされたリードデータを受け取るデータ受信モジュール)を備え得、そのデータを特に処理するモジュール(例えば、受け取ったデータを処理する(例えば、アウトカムおよび/またはレポートをフィルタリングする、正規化する、提供する)処理モジュールを備え得る。入力情報を「入手する」および「受け取る」という用語は、ローカルサイトまたはリモートサイトからのコンピュータコミュニケーション手段、人間によるデータ入力またはデータを受信する他の任意の方法によって、データ(例えば、配列リード、マッピングされたリード)を受け取ることを指す。入力情報は、それを受け取った場所と同じ場所において生成されてもよいし、異なる場所において生成され、受信場所に送信されてもよい。いくつかの実施形態において、入力情報は、処理される(例えば、処理に適した形式にされる(例えば、表にされる))前に修正される。
ソフトウェアは、ある特定の実施形態において、1つまたはそれを超えるアルゴリズムを備え得る。アルゴリズムは、有限列の指示に従ってデータを処理するためおよび/またはアウトカムもしくはレポートを提供するために使用され得る。アルゴリズムは、タスクを完了するための明確な指示のリストであることが多い。初期状態から始まって、それらの指示は、規定の一連の連続状態を介して進み、最終的には最後の終結状態で終了する、計算を記載し得る。1つの状態から次への移行は、必ずしも決定論的でない(例えば、いくつかのアルゴリズムはランダム性を組み込んでいる)。例としてであって限定ではないが、アルゴリズムは、探索アルゴリズム、ソートアルゴリズム、マージアルゴリズム、数値アルゴリズム、グラフアルゴリズム、文字列アルゴリズム、モデリングアルゴリズム、計算幾何(computational genometric)アルゴリズム、組み合わせアルゴリズム、機械学習アルゴリズム、暗号法アルゴリズム、データ圧縮アルゴリズム、構文解析アルゴリズムなどであり得る。アルゴリズムには、1つのアルゴリズムまたは共同して動く2つもしくはそれを超えるアルゴリズムが含まれ得る。アルゴリズムは、任意の好適な複雑さのクラスおよび/またはパラメータ化された複雑さであり得る。アルゴリズムは、算出および/またはデータ処理のために使用され得、いくつかの実施形態では、決定論的アプローチまたは確率的/予測アプローチにおいて使用され得る。アルゴリズムは、コンピュータ環境において、好適なプログラミング言語を使用することによって履行され得、そのプログラミング言語の非限定的な例は、C、C++、Java(登録商標)、Perl、Python、Fortranなどである。いくつかの実施形態において、アルゴリズムは、誤差の範囲、統計解析、統計的有意性および/または他の情報もしくはデータセットとの比較を含むように構成され得るかまたは修正され得る(例えば、ニューラルネットまたはクラスタリングアルゴリズムを用いるときに適用可能である)。
ある特定の実施形態において、いくつかのアルゴリズムは、ソフトウェアにおいて使用するために履行され得る。これらのアルゴリズムは、いくつかの実施形態において、生データを用いて訓練され得る。新しい各生データサンプルに対して、訓練されたアルゴリズムが、代表的な処理されたデータセットまたはアウトカムをもたらし得る。処理されたデータセットは、処理された親データセットと比較して複雑さが低下しているときがある。いくつかの実施形態において、処理されたセットに基づいて、訓練されたアルゴリズムの性能は、感度および特異性に基づいて評価され得る。ある特定の実施形態では、最も高い感度および/または特異性を有するアルゴリズムが特定され、使用され得る。
ある特定の実施形態において、シミュレートされた(またはシミュレーション)データは、例えば、アルゴリズムを訓練するかまたはアルゴリズムをテストすることによって、データ処理を助け得る。いくつかの実施形態において、シミュレーションデータは、配列リードの異なるグルーピングの様々な仮説的サンプリングを含む。シミュレーションデータは、現実の集団から予想され得るものに基づき得るか、またはアルゴリズムをテストするためおよび/もしくは正しい分類を割り当てるために歪められ得る。シミュレーションデータは、本明細書中で「バーチャル」データとも称される。ある特定の実施形態において、シミュレーションは、コンピュータプログラムによって行われ得る。シミュレーションデータセットを使用する際の1つの実行可能な工程は、識別された結果の信頼度、例えば、どれくらい十分にランダムサンプリングがマッチするかまたは最良のものが元のデータに相当するかを評価することである。1つのアプローチは、確率値(p値)を算出することであり、その確率値は、選択されたサンプルよりも良好なスコアを有するランダムなサンプルの確率を推定する。いくつかの実施形態において、少なくとも1つのサンプルが参照サンプルとマッチすると仮定する経験的モデルが評価され得る(変動の分解ありまたはなしで)。いくつかの実施形態において、例えばポアソン分布などの別の分布が、確率分布を定義するために使用され得る。
ある特定の実施形態において、システムは、1つまたはそれを超えるマイクロプロセッサを備え得る。マイクロプロセッサは、コミュニケーションバスに接続され得る。コンピュータシステムは、メインメモリを備え得、ランダムアクセスメモリ(RAM)を備えることが多く、二次メモリも備え得る。いくつかの実施形態において、メモリは、非一時的なコンピュータ可読記憶媒体を含む。二次メモリには、例えば、バードディスクドライブおよび/または着脱可能な記憶ドライブが含まれ得、それらは、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光ディスクドライブ、メモリカードなどに代表される。着脱可能な記憶ドライブは、着脱可能な記憶装置から読み出し、かつ/または着脱可能な記憶装置に書き込むことが多い。着脱可能な記憶装置の非限定的な例としては、フロッピー(登録商標)ディスク、磁気テープ、光ディスクなどが挙げられ、これらは、例えば、着脱可能な記憶ドライブによって読み出され得、着脱可能な記憶ドライブに書き込まれ得る。着脱可能な記憶装置は、コンピュータソフトウェアおよび/またはデータが格納されている、コンピュータが使用可能な記憶媒体を備え得る。
マイクロプロセッサは、システムの中にソフトウェアを実装し得る。いくつかの実施形態において、マイクロプロセッサは、ユーザーが行い得る本明細書中に記載されるタスクを自動的に行うようにプログラムされ得る。したがって、マイクロプロセッサ、またはそのようなマイクロプロセッサによって行われるアルゴリズムは、ユーザーの監視または入力を全くかほとんど必要としないことがある(例えば、ソフトウェアは、機能を自動的に履行するようにプログラムされ得る)。いくつかの実施形態において、プロセスの複雑さは、1人の人物または人物の1つの群が、そのプロセスを遺伝子変異または遺伝子変化の存在または非存在の判定にとって十分短い時間枠で行うことができないほど大きい。
いくつかの実施形態において、二次メモリは、コンピュータプログラムまたは他の指示がコンピュータシステムに搭載されることを可能にするための他の同様の手段を備え得る。例えば、システムは、着脱可能な記憶装置およびインターフェースデバイスを備え得る。そのようなシステムの非限定的な例としては、プログラムカートリッジおよびカートリッジインターフェース(例えば、ビデオゲームデバイスに見られるもの)、着脱可能なメモリチップ(例えば、EPROMまたはPROM)および関連ソケット、ならびに他の着脱可能な記憶装置、ならびにソフトウェアおよびデータが、着脱可能な記憶装置からコンピュータシステムに移されることを可能にするインターフェースが挙げられる。
図1は、本明細書中に記載される様々なシステム、方法、アルゴリズムおよびデータ構造を履行し得るコンピュータ環境110の非限定的な例を例証している。コンピュータ環境110は、好適なコンピュータ環境の一例にすぎず、本明細書中に記載されるシステム、方法およびデータ構造の用途または機能の範囲に関していかなる限定も提案すると意図されていない。コンピュータ環境110は、コンピュータ環境110に例証されている構成要素のいずれか1つまたは組み合わせに関して、いかなる従属物または必要条件も有しないと解釈されるべきである。ある特定の実施形態において、図1に示されているシステム、方法およびデータ構造のサブセットが使用され得る。本明細書中に記載されるシステム、方法およびデータ構造は、数多くの他の多目的または特殊目的のコンピューティングシステム環境または設定で動作可能である。好適であり得る公知のコンピューティングシステム、環境および/または設定の例としては、パーソナルコンピュータ、サーバーコンピュータ、シンクライアント、シッククライアント、手持ち式またはラップトップ型デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスのいずれかを備える分散コンピュータ環境などが挙げられるが、これらに限定されない。
図1の動作環境110は、処理装置121、システムメモリ122、およびシステムメモリ122を含む様々なシステムの構成要素を処理装置121に動作可能につなぐシステムバス123を含む、コンピュータ120の形態の多目的のコンピュータデバイスを含む。ただ1つのまたは1つより多い処理装置121が存在し得、コンピュータ120のプロセッサは、単一の中央処理装置(CPU)、または並列処理環境と一般に称される複数の処理装置を備える。コンピュータ120は、従来のコンピュータ、分散コンピュータまたは他の任意のタイプのコンピュータであり得る。
システムバス123は、種々のバスアーキテクチャーのいずれかを用いる、メモリバスまたはメモリコントローラ、周辺装置用バスおよびローカルバスを含む、いくつかのタイプのバス構造のいずれかであり得る。システムメモリは、単純にメモリとも称され得、それには、読出し専用メモリ(ROM)124およびランダムアクセスメモリ(RAM)が含まれる。スタートアップ中などにコンピュータ120内の要素間の情報の移動を助ける基本ルーチンを含む基本入出力システム(BIOS)126は、ROM124に格納されている。コンピュータ120は、ハードディスクから読み出すためおよびハードディスクに書き込むためのハードディスクドライブインターフェース127(図示せず)、着脱可能な磁気ディスク129から読み出すためまたは着脱可能な磁気ディスク129に書き込むための磁気ディスクドライブ128、ならびに着脱可能な光ディスク131(例えば、CD ROMまたは他の光学媒体)から読み出すためまたは着脱可能な光ディスク131に書き込むための光ディスクドライブ130をさらに備え得る。
ハードディスクドライブ127、磁気ディスクドライブ128および光ディスクドライブ130は、それぞれハードディスクドライブインターフェース132、磁気ディスクドライブインターフェース133および光ディスクドライブインターフェース134によって、システムバス123に接続される。上記ドライブおよびそれらの関連するコンピュータ可読媒体は、コンピュータ可読指示、データ構造、プログラムモジュールおよび他のデータの不揮発性記憶装置をコンピュータ120に提供する。コンピュータによってアクセス可能なデータを格納し得る任意のタイプのコンピュータ可読媒体(例えば、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)など)が、その動作環境において使用され得る。
いくつかのプログラムモジュールは、オペレーティングシステム135、1つまたはそれを超えるアプリケーションプログラム136、他のプログラムモジュール137およびプログラムデータ138を備える、ハードディスク、磁気ディスク129、光ディスク131、ROM124またはRAMに格納され得る。ユーザーは、コマンドおよび情報を、キーボード140およびポインティングデバイス142などの入力デバイスを介してパーソナルコンピュータ120に入力し得る。他の入力デバイス(図示せず)としては、マイクロホン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナーなどが挙げられ得る。これらのおよび他の入力デバイスは、システムバスにつながったシリアルポートインターフェース146を介して処理装置121に接続されることが多いが、他のインターフェース(例えば、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB))によって接続されてもよい。モニター147または他のタイプの表示デバイスも、ビデオアダプター148などのインターフェースを介してシステムバス123に接続される。コンピュータは、通常、モニターに加えて、スピーカーおよびプリンターなどの他の周辺装置出力デバイス(図示せず)を備える。
コンピュータ120は、ネットワーク化された環境において、1つまたはそれを超えるリモートコンピュータ、例えば、リモートコンピュータ149への論理接続を用いて動作し得る。これらの論理接続は、コンピュータ120もしくはその一部につながったコミュニケーションデバイスによってまたは他の様式で達成され得る。リモートコンピュータ149は、別のコンピュータ、サーバー、ルーター、ネットワークPC、クライアント、ピアデバイスまたは他の共通ネットワークノードであり得、代表的には、コンピュータ120に対して上に記載された要素の多くまたはすべてを備えるが、メモリ記憶装置150だけが、図1に図示されている。図1に描かれている論理接続は、ローカルエリアネットワーク(LAN)151および広域ネットワーク(WAN)152を含む。そのようなネットワーク環境は、オフィスのネットワーク、企業規模のコンピュータネットワーク、イントラネットおよびインターネットにおいてありふれたものであり、これらのすべてが、ネットワークのタイプである。
コンピュータ120は、LANネットワーク環境において使用されるとき、コミュニケーションデバイスの1タイプであるネットワークインターフェースまたはアダプター153を介してローカルネットワーク151に接続される。コンピュータ120は、WANネットワーク環境において使用されるとき、モデム154、あるタイプのコミュニケーションデバイス、または広域ネットワーク152にわたるコミュニケーションを確立するための他の任意のタイプのコミュニケーションデバイスを備えることが多い。内部または外部のものであり得るモデム154は、シリアルポートインターフェース146を介してシステムバス123に接続される。ネットワーク化された環境において、パーソナルコンピュータ120またはその部分に関して描かれたプログラムモジュールは、リモートメモリ記憶装置に格納され得る。示されているネットワークの接続は非限定的な例であり、コンピュータ間のコミュニケーションリンクを確立するために他のコミュニケーションデバイスを使用してもよいことが認識される。
変換
上で述べたように、データは、1つの形態から別の形態に変換されるときがある。用語「変換される」、「変換」およびそれらの文法上の派生物または等価物は、本明細書中で使用されるとき、物理的な出発物質(例えば、試験被験体および/または参照被験体のサンプル核酸)からその物理的な出発物質のデジタル提示(例えば、配列リードデータ)へのデータの変更のことを指し、いくつかの実施形態において、アウトカムを提供するために使用され得る、そのデジタル提示の1つまたはそれを超える数値またはグラフ表示へのさらなる変換を含む。ある特定の実施形態において、デジタル表示されたデータの1つまたはそれを超える数値および/またはグラフ表示は、試験被験体の物理的なゲノムの様子を表すため(例えば、ゲノムの挿入、重複または欠失の存在または非存在を仮想的に表すかまたは視覚的に表すため;医学的症状に関連する配列の物理量の変動の存在または非存在を表すため)に使用され得る。仮想提示は、出発物質のデジタル提示の1つまたはそれを超える数値またはグラフ表示にさらに変換されるときがある。これらの方法は、物理的な出発物質を、数値もしくはグラフ表示または試験被験体の核酸の物理的な様子の提示に変換し得る。
いくつかの実施形態において、データセットの変換は、データの複雑さおよび/またはデータの次元を低下させることによって、アウトカムの提供を容易にする。データセットの複雑さは、物理的な出発物質をその出発物質の仮想提示(例えば、物理的な出発物質を代表する配列リード)に変換するプロセス中に低下するときがある。好適な特徴または変数が、データセットの複雑さおよび/または次元を低下させるために使用され得る。データ処理に対する標的の特徴として使用するために選択され得る特徴の非限定的な例としては、GC含有量、胎児の性別予測、フラグメントサイズ(例えば、CCFフラグメント、リードの長さまたはその好適な提示(例えば、FRS))、フラグメントの配列、コピー数変化の特定、染色体異数性の識別、特定の遺伝子またはタンパク質の識別、癌の識別、疾患、遺伝された遺伝子/形質、染色体異常、生物学的カテゴリー、化学的カテゴリー、生化学的カテゴリー、遺伝子またはタンパク質のカテゴリー、遺伝子オントロジー、タンパク質オントロジー、同時制御される遺伝子、細胞シグナル伝達遺伝子、細胞周期遺伝子、前述の遺伝子に関するタンパク質、遺伝子変異体、タンパク質変異体、同時制御される遺伝子、同時制御されるタンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データなどおよび前述のものの組み合わせが挙げられる。データセットの複雑さおよび/または次元の低減の非限定的な例としては、複数の配列リードからプロファイルプロットへの低減、複数の配列リードから数値(例えば、正規化された値、Z得点、p値)への低減;複数の解析方法から確率プロットまたは単一ポイントへの低減;導出された量の主成分分析などまたはそれらの組み合わせが挙げられる。
遺伝子変異/遺伝子変化および医学的症状
遺伝子変異の存在または非存在は、本明細書中に記載される方法または装置を用いて判定され得る。遺伝子変異は、遺伝子変化と称されることもあり、これらの用語は、本明細書中でおよび当該分野において交換可能に使用されることが多い。ある特定の場合において、「遺伝子変化」は、被験体の細胞のサブセットにおけるゲノムが体細胞性の変化を含む(例えば、腫瘍細胞または癌細胞において)、そのような体細胞性の変化を記載するために使用され得る。ある特定の場合において、「遺伝子変異」は、片親または両親から遺伝した変異(例えば、胎児における遺伝子変異)を記載するために使用され得る。
ある特定の実施形態において、1つまたはそれを超える遺伝子変異または遺伝子変化の存在または非存在は、本明細書中に記載される方法および装置によって提供されるアウトカムに従って判定される。遺伝子変異は、通常、ある特定の個体に存在する特定の遺伝的表現型であり、遺伝子変異は、個体の統計学的に有意な部分母集団に存在することが多い。いくつかの実施形態において、遺伝子変異または遺伝子変化は、染色体異常またはコピー数変化(例えば、異数性、1本またはそれを超える染色体の重複、1本またはそれを超える染色体の喪失)、部分的な染色体異常またはモザイク現象(例えば、染色体の1つまたはそれを超える領域の喪失または獲得)、転座、逆位であり、これらの各々が、本明細書中に詳細に記載されている。遺伝子変異/遺伝子変化の非限定的な例としては、1つまたはそれを超えるコピー数変化/変異、欠失(例えば、微小欠失)、重複(例えば、微小重複)、挿入、突然変異(例えば、単一ヌクレオチド変異、単一ヌクレオチド変化)、多型(例えば、単一ヌクレオチド多型)、融合、反復(例えば、短タンデム反復)、異なるメチル化部位、異なるメチル化パターンなどおよびそれらの組み合わせが挙げられる。挿入、反復、欠失、重複、突然変異または多型は、任意の長さであり得、いくつかの実施形態において、約1塩基または塩基対(bp)から約250メガベース(Mb)長である。いくつかの実施形態において、挿入、反復、欠失、重複、突然変異または多型は、約1塩基または塩基対(bp)から約50,000キロベース(kb)長(例えば、約10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb、1000kb、5000kbまたは10,000kb長)である。
遺伝子変異または遺伝子変化は、欠失であるときがある。ある特定の場合において、欠失は、染色体またはDNA配列の一部が欠損している突然変異(例えば、遺伝的異常)である。欠失は、遺伝物質の喪失であることが多い。任意の数のヌクレオチドが欠失し得る。欠失は、1本またはそれを超える染色体全体、染色体の領域、対立遺伝子、遺伝子、イントロン、エキソン、任意の非コード領域、任意のコード領域、それらの一部またはそれらの組み合わせの欠失を含み得る。欠失は、微小欠失を含み得る。欠失は、単一塩基の欠失を含み得る。
遺伝子変異または遺伝子変化は、重複であるときがある。ある特定の場合において、重複は、染色体またはDNA配列の一部が複製され、ゲノムの元の場所に挿入された突然変異(例えば、遺伝的異常)である。ある特定の実施形態において、遺伝子重複(例えば、重複)は、DNAの領域の任意の重複である。いくつかの実施形態において、重複は、ゲノム内または染色体内に、しばしばタンデムで、反復された核酸配列である。いくつかの実施形態において、重複は、1本またはそれを超える染色体全体、染色体の領域、対立遺伝子、遺伝子、イントロン、エキソン、任意の非コード領域、任意のコード領域、それらの一部またはそれらの組み合わせの複製を含み得る。重複は、微小重複を含み得る。重複は、重複した核酸の1コピーまたはそれを超えるコピーを含むときがある。重複は、1回またはそれを超える回数反復した(例えば、1、2、3、4、5、6、7、8、9または10回反復した)遺伝的領域として特徴づけられるときがある。場合によっては、重複は、小さい領域(数千の塩基対)から全染色体に及び得る。重複は、相同組換えのエラーの結果として、またはレトロトランスポゾン事象に起因して、頻繁に生じる。重複は、ある特定のタイプの増殖性疾患に関連している。重複は、ゲノムマイクロアレイまたは比較遺伝子ハイブリダイゼーション(comparative genetic hybridization)(CGH)を用いて特徴づけられ得る。
遺伝子変異または遺伝子変化は、挿入であるときがある。挿入は、核酸配列への1つまたはそれを超えるヌクレオチド塩基対の付加であるときがある。挿入は、微小挿入であるときがある。ある特定の実施形態において、挿入は、ゲノム、染色体またはそれらの一部への染色体の領域の付加を含む。ある特定の実施形態において、挿入は、ゲノムまたはその一部への、対立遺伝子、遺伝子、イントロン、エキソン、任意の非コード領域、任意のコード領域、それらの一部またはそれらの組み合わせの付加を含む。ある特定の実施形態において、挿入は、ゲノム、染色体またはそれらの一部への、起源が不明の核酸の付加(例えば、挿入)を含む。ある特定の実施形態において、挿入は、単一塩基の付加(例えば、挿入)を含む。
本明細書中で使用されるとき、「コピー数変化」は、通常、遺伝子変異、遺伝子変化または染色体異常の1つのクラスまたはタイプである。コピー数変化は、コピー数変異と称されることもあり、これらの用語は、本明細書中でおよび当該分野において交換可能に使用されることが多い。ある特定の場合において、「コピー数変化」は、被験体の細胞のサブセットにおけるゲノムが体細胞性の変化を含む(例えば、腫瘍細胞または癌細胞において)、そのような体細胞性の変化を記載するために使用され得る。ある特定の場合において、「コピー数変異」は、片親または両親から遺伝した変異(例えば、胎児におけるコピー数変異)を記載するために使用され得る。コピー数変化は、欠失(例えば、微小欠失)、重複(例えば、微小重複)または挿入(例えば、微小挿入)であり得る。しばしば、接頭辞「微小」は、本明細書中で使用されるとき、5Mb長未満の核酸の領域であるときがある。コピー数変化は、染色体の一部の1つまたはそれを超える欠失(例えば、微小欠失)、重複および/または挿入(例えば、微小重複、微小挿入)を含み得る。ある特定の実施形態において、重複は、挿入を含む。ある特定の実施形態において、挿入は、重複である。ある特定の実施形態において、挿入は、重複ではない。
いくつかの実施形態において、コピー数変化は、腫瘍細胞または癌細胞からのコピー数変化である。いくつかの実施形態において、コピー数変化は、非癌細胞からのコピー数変化である。ある特定の実施形態において、コピー数変化は、被験体(例えば、癌患者)のゲノム内および/または被験体における癌細胞もしくは腫瘍のゲノム内のコピー数変化である。コピー数変化は、その変化(例えば、重複または欠失)が、ゲノムの1つの対立遺伝子上に存在する場合、ヘテロ接合性のコピー数変化であり得る。コピー数変化は、その変化が、ゲノムの両方の対立遺伝子上に存在する場合、ホモ接合性のコピー数変化であり得る。いくつかの実施形態において、コピー数変化は、ヘテロ接合性またはホモ接合性のコピー数変化である。いくつかの実施形態において、コピー数変化は、癌細胞または非癌細胞からのヘテロ接合性またはホモ接合性のコピー数変化である。コピー数変化は、癌細胞ゲノムおよび非癌細胞ゲノムに存在するときがあるか、癌細胞ゲノムに存在し、非癌細胞ゲノムに存在しないときがあるか、または非癌細胞ゲノムに存在し、癌細胞ゲノムに存在しないときがある。
いくつかの実施形態において、コピー数変化は、胎児のコピー数変化である。胎児のコピー数変化は、胎児のゲノムにおけるコピー数変化であることが多い。いくつかの実施形態において、コピー数変化は、母体および/または胎児のコピー数変化である。ある特定の実施形態において、母体および/または胎児のコピー数変化は、妊婦(例えば、胎児を有する雌性体被験体)、出産した雌性体被験体または胎児を有することができる雌性体のゲノム内のコピー数変化である。コピー数変化は、その変化(例えば、重複または欠失)が、ゲノムの一方の対立遺伝子に存在するヘテロ接合性のコピー数変化であり得る。コピー数変化は、その変化がゲノムの両方の対立遺伝子に存在するホモ接合性のコピー数変化であり得る。いくつかの実施形態において、コピー数変化は、ヘテロ接合性またはホモ接合性の胎児のコピー数変化である。いくつかの実施形態において、コピー数変化は、ヘテロ接合性またはホモ接合性の母体および/または胎児のコピー数変化である。コピー数変化は、母体のゲノムおよび胎児のゲノムに存在するときがあるか、母体のゲノムに存在して胎児のゲノムに存在しないときがあるか、または胎児のゲノムに存在して母体のゲノムに存在しないときがある。
「倍数性」は、被験体に存在する染色体の数に対する言及である。ある特定の実施形態において、「倍数性」は、「染色体倍数性」と同じである。例えば、ヒトにおいて、常染色体は、2本一組で存在することが多い。例えば、遺伝子変異または遺伝子変化の非存在下では、ほとんどのヒトが、各常染色体(例えば、1〜22番染色体)を2本有する。ヒトにおける、2本の常染色体が正常に全数そろって存在していることは、正倍数体または二倍体と称されることが多い。「微小倍数性」は、倍数性と似た意味である。「微小倍数性」は、染色体の一部の倍数性のことを指すことが多い。用語「微小倍数性」は、染色体内のコピー数変化(例えば、欠失、重複および/または挿入)の存在または非存在(例えば、ホモ接合性またはヘテロ接合性の欠失、重複もしくは挿入など、またはそれらが存在しないこと)に対する言及であるときがある。
ある特定の実施形態において、被験体に対して存在または非存在が識別される遺伝子変異または遺伝子変化は、医学的症状に関連する。したがって、本明細書中に記載される技術は、医学的症状または医学的状態に関連する1つまたはそれを超える遺伝子変異または遺伝子変化の存在または非存在を識別するために使用され得る。医学的症状の非限定的な例としては、知的障害(例えば、ダウン症候群)、異常な細胞増殖(例えば、癌)、微生物核酸(例えば、ウイルス、細菌、真菌、酵母)の存在、および子癇前症に関連するものが挙げられる。
遺伝子変異/遺伝子変化、医学的症状および医学的状態の非限定的な例は、本明細書の以後に記載される。
染色体異常
いくつかの実施形態において、染色体異常の存在または非存在は、本明細書中に記載される方法および/または装置を用いることによって判定され得る。染色体異常としては、コピー数変化、および染色体全体または1つもしくはそれを超える遺伝子を含む染色体の領域の獲得または喪失が挙げられるが、これらに限定されない。染色体異常には、モノソミー、トリソミー、ポリソミー、ヘテロ接合性の消失、不平衡転座によって引き起こされる欠失および重複を含む、1つもしくはそれを超えるヌクレオチド配列(例えば、1つまたはそれを超える遺伝子)の転座、欠失および/または重複が含まれる。用語「染色体異常」または「異数性」は、本明細書中で使用されるとき、主題の染色体の構造と正常な相同染色体の構造との間のずれのことを指す。用語「正常」とは、特定の種の健常個体に見られる優勢である核型または横縞像、例えば、正倍数性のゲノム(例えば、ヒトにおける二倍体、例えば、46,XXまたは46,XY)のことを指す。種々の生物が、広く異なる染色体組を有するので、用語「異数性」とは、特定の数の染色体のことを指さず、生物の所与の細胞内の染色体含有量が異常である状況のことを指す。いくつかの実施形態において、本明細書中の用語「異数性」は、染色体全体または染色体の一部の喪失または獲得によって引き起こされる遺伝物質の不均衡のことを指す。「異数性」とは、染色体の領域の1つまたはそれを超える欠失および/または挿入のことを指し得る。いくつかの実施形態において、用語「正倍数性」とは、正常に染色体が全数そろっていることを指す。
用語「モノソミー」は、本明細書中で使用されるとき、正常な全数から1本の染色体が不足していることを指す。部分的モノソミーは、染色体の一部だけが1コピーで存在する、不平衡転座または欠失において生じ得る。性染色体のモノソミー(45,X)は、例えば、ターナー症候群を引き起こす。用語「ダイソミー」とは、ある染色体が2コピー存在することを指す。各染色体を2コピー有するヒトなどの生物(二倍体または「正倍数体」である生物)の場合、ダイソミーは、正常な状態である。各染色体を正常に3コピーもしくはそれを超えるコピー数有する生物(三倍体またはそれを超える生物)の場合、ダイソミーは、異数体の染色体状態である。片親性ダイソミーでは、ある染色体の両方のコピーが、同じ親に由来する(他方の親からの寄与がない)。
用語「トリソミー」は、本明細書中で使用されるとき、特定の染色体が2コピーの代わりに3コピー存在することを指す。ヒトのダウン症候群に見られる、21番染色体が余分に存在することは、「トリソミー21」と称される。トリソミー18およびトリソミー13は、他の2つのヒト常染色体トリソミーである。性染色体のトリソミーは、女性(例えば、トリプルX症候群における47,XXX)または男性(例えば、クラインフェルター症候群における47,XXY;またはヤコブ症候群における47,XYY)に見られ得る。いくつかの実施形態において、トリソミーは、常染色体の大部分またはすべての重複である。ある特定の実施形態において、トリソミーは、特定のタイプの染色体が3本である場合(例えば、3コピー)をもたらす(例えば、正倍数性に対する特定のタイプの染色体が2本である(例えば、1対)代わりに)染色体全体の異数性である。
用語「テトラソミー」および「ペンタソミー」は、本明細書中で使用されるとき、それぞれ、ある染色体が4または5コピー存在することを指す。常染色体ではめったに見られないが、性染色体テトラソミーおよびペンタソミーは、ヒトにおいて報告されており、それには、XXXX、XXXY、XXYY、XYYY、XXXXX、XXXXY、XXXYY、XXYYYおよびXYYYYが含まれる。
医学的障害および医学的症状
本明細書中に記載される方法は、任意の好適な医学的障害または医学的症状に適用可能であり得る。医学的障害および医学的症状の非限定的な例としては、細胞増殖性障害および症状、消耗性障害および症状、変性障害および症状、自己免疫障害および症状、子癇前症、化学毒性または環境毒性、肝臓の損傷または疾患、腎臓の損傷または疾患、血管性疾患、高血圧ならびに心筋梗塞が挙げられる。
いくつかの実施形態において、細胞増殖性障害または症状は、癌、腫瘍、新生物、転移性疾患などまたはそれらの組み合わせであるときがある。細胞増殖性障害または症状は、肝臓、肺、脾臓、膵臓、結腸、皮膚、膀胱、眼、脳、食道、頭部、頸部、卵巣、精巣、前立腺などまたはそれらの組み合わせの障害または症状であるときがある。癌の非限定的な例としては、造血性起源の過形成性/新生物の細胞が関わる疾患である(例えば、骨髄、リンパ系もしくは赤血球の系統またはそれらの前駆細胞から生じる)造血性新生物障害が挙げられ、未分化型急性白血病(例えば、赤芽球性白血病および急性巨核芽球性白血病)から生じ得る。ある特定の骨髄性障害としては、急性前骨髄性白血病(APML)、急性骨髄性白血病(AML)および慢性骨髄性白血病(CML)が挙げられるが、これらに限定されない。ある特定のリンパ系悪性腫瘍としては、急性リンパ芽球性白血病(ALL)(B系統ALLおよびT系統ALLを含む)、慢性リンパ球性白血病(CLL)、前リンパ球性白血病(PLL)、ヘアリーセル白血病(HLL)およびワルデンシュトレームマクログロブリン血症(WM)が挙げられるが、これらに限定されない。ある特定の形態の悪性リンパ腫としては、非ホジキンリンパ腫およびその異型、末梢T細胞リンパ腫、成人T細胞白血病/リンパ腫(ATL)、皮膚T細胞性リンパ腫(CTCL)、大顆粒リンパ球性白血病(LGF)、ホジキン病およびリード・シュテルンベルク病が挙げられるが、これらに限定されない。細胞増殖性障害は、非内分泌腫瘍または内分泌腫瘍であるときがある。非内分泌腫瘍の例証的な例としては、腺癌、腺房細胞癌腫、腺扁平上皮癌腫、巨細胞腫、管内乳頭粘液性新生物、粘液性嚢胞腺癌、膵芽腫、漿液性嚢胞腺腫、充実性偽乳頭状腫瘍が挙げられるが、これらに限定されない。内分泌腫瘍は、島細胞腫瘍であるときがある。
いくつかの実施形態において、消耗性障害もしくは症状または変性障害もしくは症状は、肝硬変、筋萎縮性側索硬化症(ALS)、アルツハイマー病、パーキンソン病、多系統萎縮症、アテローム性動脈硬化症、進行性核上性麻痺、テイ・サックス病、糖尿病、心疾患、円錐角膜、炎症性腸疾患(IBD)、前立腺炎、変形性関節症、骨粗鬆症、関節リウマチ、ハンチントン病、慢性外傷性脳障害、慢性閉塞性肺疾患(COPD)、結核、慢性下痢、後天性免疫不全症候群(AIDS)、上腸間膜動脈症候群などまたはそれらの組み合わせである。
いくつかの実施形態において、自己免疫障害または症状は、急性散在性脳脊髄炎(ADEM)、アジソン病、円形脱毛症、強直性脊椎炎、抗リン脂質抗体症候群(APS)、自己免疫性溶血性貧血、自己免疫性肝炎、自己免疫性内耳疾患、水疱性類天疱瘡、セリアック病、シャーガス病、慢性閉塞性肺疾患、クローン病(特発性炎症性腸疾患「IBD」の1タイプ)、皮膚筋炎、1型真性糖尿病、子宮内膜症、グッドパスチャー症候群、グレーヴズ病、ギラン・バレー症候群(GBS)、橋本病、化膿性汗腺炎、特発性血小板減少性紫斑病、間質性膀胱炎、エリテマトーデス、混合結合組織病、モルヘア、多発性硬化症(MS)、重症筋無力症、ナルコレプシー、神経性筋強直症(euromyotonia)、尋常性天疱瘡、悪性貧血、多発性筋炎、原発性胆汁性肝硬変、関節リウマチ、統合失調症、強皮症、シェーグレン症候群、側頭動脈炎(「巨細胞性動脈炎」としても知られる)、潰瘍性大腸炎(特発性炎症性腸疾患「IBD」の1タイプ)、脈管炎、白斑、ウェゲナー肉芽腫症などまたはそれらの組み合わせである。
子癇前症
いくつかの実施形態において、子癇前症の存在または非存在は、本明細書中に記載される方法または装置を用いることによって判定される。子癇前症は、妊娠中に高血圧症が生じ(例えば、妊娠誘発性高血圧症)、尿中のかなりの量のタンパク質に関連する症状である。ある特定の場合において、子癇前症は、高レベルの細胞外核酸および/またはメチル化パターンの変化にも関連し得る。例えば、細胞外の胎児由来高メチル化RASSF1Aレベルと子癇前症の重症度との間に正の相関が観察された。ある特定の場合において、DNAメチル化の増加が、正常なコントロールと比較して、子癇前症の胎盤においてH19遺伝子に対して観察される。
病原体
いくつかの実施形態において、病原性の症状の存在または非存在は、本明細書中に記載される方法または装置によって判定される。病原性の症状は、細菌、ウイルスまたは真菌を含むがこれらに限定されない病原体による宿主の感染によって引き起こされ得る。病原体は、代表的には、宿主核酸と区別可能であり得る核酸(例えば、ゲノムDNA、ゲノムRNA、mRNA)を有するので、本明細書中に提供される方法、機器および装置を用いることにより、病原体の存在または非存在を判定することができる。病原体は、特定の病原体に特有の特色、例えば、エピジェネティックな状態、ならびに/または1つもしくはそれを超える配列のバリエーション、重複および/もしくは欠失を有する核酸を有することが多い。したがって、本明細書中に提供される方法を用いることにより、特定の病原体または病原体バリアント(例えば、系統)が特定され得る。
無細胞核酸の使用
ある特定の場合において、特定の症状または障害に関連する異常細胞または罹患細胞由来の核酸は、それらの細胞から循環無細胞核酸(CCF−NA)として放出される。例えば、癌細胞核酸は、CCF−NAとして存在し、本明細書中に提供される方法を用いたCCF−NAの解析は、被験体が癌を有するかまたは癌を有するリスクがあるかを判定するために使用され得る。CCF−NAとしての癌細胞核酸の存在または非存在の解析は、例えば、癌スクリーニングのために使用され得る。ある特定の場合において、血清中のCCF−NAのレベルは、健康な患者と比べて、様々なタイプの癌を有する患者において上昇し得る。例えば、転移性疾患を有する患者は、非転移性患者よりおよそ2倍高い血清DNAレベルを有し得るときがある。したがって、本明細書中に記載される方法は、被験体(例えば、特定の症状または疾患を有するか、有すると疑われるか、かかりやすいか、またはかかりやすいと疑われる被験体)のサンプルから抽出されたCCF−NAから得られた配列決定リードカウントを処理することによってアウトカムを提供し得る。
マーカー
ある特定の場合において、異常細胞または罹患細胞におけるポリヌクレオチドは、正常細胞または非罹患細胞における核酸と比べて改変されている(例えば、単一ヌクレオチド変化、単一ヌクレオチド変異、コピー数変化、コピー数変異)。場合によっては、あるポリヌクレオチドが、異常細胞または罹患細胞に存在し、正常細胞または非罹患細胞には存在せず、あるポリヌクレオチドが、異常細胞または罹患細胞に存在せず、正常細胞または非罹患細胞に存在するときがある。したがって、マーカーは、単一ヌクレオチド変化/変異および/またはコピー数変化/変異(例えば、差次的に発現されたDNAまたはRNA(例えば、mRNA))であるときがある。例えば、転移性疾患を有する患者は、例えば、癌特異的マーカーおよび/またはある特定の単一ヌクレオチド多型もしくは短タンデム反復によって特定され得る。高レベルの循環DNAと正に相関し得る癌のタイプの非限定的な例としては、乳癌、直腸結腸癌、消化器癌、肝細胞癌、肺癌、メラノーマ、非ホジキンリンパ腫、白血病、多発性骨髄腫、膀胱癌、ヘパトーマ、子宮頸癌、食道癌、膵癌および前立腺癌が挙げられる。様々な癌が、非癌性の健康な細胞由来の核酸と区別可能な特色(例えば、エピジェネティックな状態ならびに/または配列のバリエーション、重複および/もしくは欠失)を有する核酸を有し得、血流中に放出し得るときがある。そのような特色は、例えば、特定のタイプの癌に特異的であり得る。したがって、本明細書中に記載される方法は、特定のマーカーの存在または非存在の判定に基づいてアウトカムを提供するときがあり、アウトカムは、特定のタイプの症状(例えば、特定のタイプの癌)の存在または非存在であるときがある。
本明細書中に記載されるある特定の方法は、例えば、国際特許出願公開番号WO2013/052913、国際特許出願公開番号WO2013/052907、国際特許出願公開番号WO2013/055817、国際特許出願公開番号WO2013/109981、国際特許出願公開番号WO2013/177086、国際特許出願公開番号WO2013/192562、国際特許出願公開番号WO2014/116598、国際特許出願公開番号WO2014/055774、国際特許出願公開番号WO2014/190286、国際特許出願公開番号WO2014/205401、国際特許出願公開番号WO2015/051163、国際特許出願公開番号WO2015/138774、国際特許出願公開番号WO2015/054080、国際特許出願公開番号WO2015/183872、国際特許出願公開番号WO2016/019042および国際特許出願公開番号WO2016/057901(本文、表、式および図面のすべてを含むこれらの各々の全内容が、参照により本明細書中に援用される)に記載されている方法とともに行われ得る。
下記に示される実施例は、ある特定の実施形態を例証するものであって、本技術を限定するものではない。
実施例1:全ゲノム配列決定を用いた22q11.2欠失の最適化された検出
この実施例では、全ゲノム配列決定を用いた小コピー数変異(CNV)の最適化された検出を実証する。詳細には、通常約2〜3Mbの欠失事象を含む22q11.2の喪失を評価した。
研究デザイン
分析モデルとインシリコモデルとの組み合わせを用いて、22q11.2欠失事象を検出するための感度を測定した。分析モデルは、1.3メガベースから3メガベース超に及ぶ22q11.2欠失を有する細胞株または個体から得られた15個のゲノムDNA(gDNA)セットを含んだ。これらのgDNAから調製されたライブラリーを、非妊婦由来の無細胞血漿DNAライブラリーと混合して、4%〜24%の範囲の胎児比率をモデル化した。インシリコモデルは、7000個超の母体血漿の配列決定結果をバックグラウンドとして使用して、International Standards of Cytogenomic Arraysデータベース(ISCA)に列挙されている22q11.2領域内の206個の欠失に対するゲノム座標において22q11.2欠失事象を作製した。22q11.2領域におけるCNVを検出するために、集中的配列決定解析とゲノムワイド配列決定解析との組み合わせとともにサンプル特異的な特徴を用いて、感度を評価した。
結果
図2に示されているように、ゲノムワイド配列解析および集中的配列解析を用いて、微小欠失を検出するための感度値を胎児比率範囲にわたって測定した。この結果は、サンプル中の胎児比率が、0.12(すなわち、12%)より高いとき、ゲノムワイド解析を用いた検出の感度が、集中的解析を用いたときよりも高く;逆に、胎児比率が、0.12より低いとき、集中的解析を用いた検出の感度が、ゲノムワイド解析を用いたときよりも高かったことを示している。
ディジョージ症候群に関連する染色体22q11.2欠失領域を図3に提供する。領域A〜Dには、22q11.2の欠失に関わる主要な組換え部位が含まれる(例えば、Saittaら(2004)Hum Mol Genet 13:417−428;およびBurnside(2015)Cytogenet Genome Res 146:89−99を参照のこと)。ある特定の22q11.2欠失の解析には、縦破線によって示される領域が含まれた。
ISCAデータベースにおいて報告されており、混合モデルにおいて使用されたゲノムDNA(gDNA)に存在する染色体22q11.2欠失を図4に示す。黒色の縦破線(すなわち、外側の縦破線のセット)は、ゲノムワイド解析アルゴリズムを用いた22q11.2欠失に対する解析ウィンドウを表している。灰色の縦破線(すなわち、内側の縦破線のセット)は、特定の22q11.2欠失領域の周辺に最適化された22q11.2欠失解析のための集中的解析ウィンドウを表している。ISCA22q11.2欠失のサイズおよび座標頻度は、文献において報告されているものと一致しており、1メガベース未満から3メガベース超のサイズの範囲であった。22q11.2 gDNAモデルサンプルは、コアの22q11.2欠失領域をカバーしたが、ISCA事象と比べて多様でなかった。図4の上部のA〜Hは、22q11.2内のサブ染色体部分の欠失に関連すると報告されているゲノム領域を表している。
全ゲノム配列決定によって特定された22q11.2欠失の模式的描写を図5A〜5Dに示す。シミュレートされた信号、ノイズおよび事象サイズを示すことにより、22q11.2欠失が表されている。図5A〜5Dの各々における欠失事象は、隣接領域と比べて有意に低い信号を有する曲線の部分と横軸との間の影付きの領域によって示されている。図5Aおよび図5Bでは、欠失事象のエッジは、矢印と一致し;図5Cおよび図5Dでは、欠失事象のエッジは、矢印で規定された領域内にある。図5A〜5Dは、より低いまたは高い胎児比率およびより小さいまたは大きい事象サイズを有し得るサンプルに対する解析を示している。図5Aは、低胎児比率を有するサンプル中の大きな欠失事象を示しており、図5Bは、高い胎児比率を有するサンプル中の大きな欠失事象を示しており、図5Cは、低い胎児比率を有するサンプル中の小さな欠失事象を示しており、図5Dは、高い胎児比率を有するサンプル中の小さな欠失事象を示している。ゲノムワイド解析は、サーキュラーバイナリーセグメンテーション(CBS)法を用いることにより、22q11.2を包含するゲノムウィンドウ(外側の縦破線のセット)内に事象のエッジを見出す。CBSによる事象のエッジの検出は、低胎児比率によって悪影響を受け得、二次的なz得点解析のための潜在的なコピー数変異セグメントを特定できない。したがって、胎児比率が低いとき(図5Aおよび5Cにおけるように)、22q11.2内の規定のサブ領域(矢印によって示される内側の縦破線のセット)を解析する集中的な解析方法を用いることにより、22q11.2欠失の検出を最大にすることができる一方で、CBSセグメント化プロセスを用いるゲノムワイド解析の方法は、セグメントのエッジを検出しない可能性がより高い。胎児比率が高いとき(図5Bおよび5Dにおけるように)、ゲノムワイド解析は、事象のエッジを検出するがゆえに欠失事象を正確に検出する可能性が高い。
既定のサブ領域内のCNVの検出は、その既定のサブ領域内に存在する欠失であって、そのサブ領域より小さいかまたはその既定のサブ領域と部分的にだけオーバーラップする欠失によって悪影響を受け得る。したがって、検出されるサンプルにおける欠失事象が、規定のサブ領域内に存在し、そのサブ領域より小さいか、またはその既定のサブ領域と部分的にだけオーバーラップするとき、集中的な解析方法は、これらの欠失を検出できない可能性がより高く、ゆえにゲノムワイド解析がより好ましい(図5Cおよび5D)。したがって、ゲノムワイド解析と集中的解析とを組み合わせる方法は、サンプル中の胎児比率が低いとき、CBSのエッジ検出能を用いて小さな欠失を特定すること、および集中的解析ウィンドウ、すなわち、矢印によって示される内側の縦破線のセットを用いて、感度を改善することによって、感度を最大にすることができる。
ゲノムワイド解析と集中的解析との組み合わせを用いて22q11.2欠失を検出するための感度を図6に示す。ISCA22q11.2事象のインシリコモデリングは、通常4%またはそれを超える胎児比率を含む母体血漿DNAに見られる胎児比率の分布において74%という感度を示した。約10%という胎児比率の中央値では90%超の感度が観察された。gDNAモデルシステムは、混合比の不正確さが補正された後、約75%の感度を有したインシリコモデルの結果を裏付けた。10%を超える胎児比率を模倣した混合比では、97%超の感度が観察された。したがって、解析の組み合わせは、有益なことに、広範囲の胎児比率を有するサンプル中の欠失事象を検出できる。
要約すれば、ISCAにおける22q11.2欠失事象は、ディジョージ症候群を有する患者における22q11.2欠失のサイズおよびゲノム位置に酷似していた。gDNAサンプルにおける欠失事象は、ISCA事象と比べてサイズおよび位置が均等に分布していなかった。集中的配列決定解析とゲノムワイド配列決定解析との組み合わせを用いた22q11.2欠失の検出によって、母体血漿サンプル中の胎児比率にわたって74%という感度が可能であった。9〜11%の胎児比率を模倣した混合比のgDNAサンプルにおいて22q11.2欠失を検出するための感度は、97%超であった。したがって、集中的配列決定解析とゲノムワイド配列決定解析との組み合わせは、22q11.2欠失を検出するための感度を改善できる。
実施例2:実施形態の例
本技術の実施形態の非限定的な例のリストをこの後に提供する。
A1.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、その方法は、
a)セグメント化プロセスを含む方法を用いて、第1のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程;
b)第2のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、
第2のセットは、所定のゲノム部分セットであり、(a)および(b)におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程;および
c)(a)または(b)、または(a)および(b)に従ってテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程
を含む、方法。
A2.(b)における所定のゲノム部分セットが、訓練セットの中の複数のサンプルに対する1つまたはそれを超える精度尺度に従って特定されており、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、実施形態A1に記載の方法。
A3.(b)における所定のゲノム部分セットが、訓練セットに対するサブ染色体領域におけるコピー数変異の存在を分類するための最適な精度尺度を提供するゲノム部分セットと特定される、実施形態A2に記載の方法。
A4.(b)における所定のゲノム部分セットが、あるプロセスによって特定されており、そのプロセスは、
サブ染色体領域内に複数の候補サブ領域を提供する工程;
訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して1つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程;および
(b)におけるサブ領域を、1つまたはそれを超える精度尺度に従って最適な精度を提供するサブ領域と特定する工程
を含む、実施形態A2またはA3に記載の方法。
A5.1つまたはそれを超える精度尺度が、感度尺度を含む、実施形態A2〜A4のいずれか1つに記載の方法。
A6.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約70%である、実施形態A5に記載の方法。
A7.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約75%である、実施形態A5に記載の方法。
A8.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約80%である、実施形態A5に記載の方法。
A9.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約85%である、実施形態A5に記載の方法。
A10.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約90%である、実施形態A5に記載の方法。
A11.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約95%である、実施形態A5に記載の方法。
A12.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約97%である、実施形態A5に記載の方法。
A13.サブ染色体領域におけるコピー数変異が、微小欠失である、実施形態A1〜A12のいずれか1つに記載の方法。
A13.1 微小欠失が、1p36、22q11.2、15q11−13、8q23.2−24.1、11q24.1、4p13.3、17p13.3および7q11.23から選択されるゲノム領域またはゲノム領域の一部における欠失である、実施形態A13に記載の方法。
A14.サブ染色体領域におけるコピー数変異が、微小重複である、実施形態A1〜A12のいずれか1つに記載の方法。
A15.サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約40メガベースである、実施形態A1〜A14のいずれか1つに記載の方法。
A16.サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約20メガベースである、実施形態A1〜A14のいずれか1つに記載の方法。
A17.サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約10メガベースである、実施形態A1〜A14のいずれか1つに記載の方法。
A18.サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約7メガベースである、実施形態A1〜A14のいずれか1つに記載の方法。
A18.1 サブ染色体領域におけるコピー数変異の長さが、約2メガベース〜約7メガベースである、実施形態A1〜A14のいずれか1つに記載の方法。
A18.2 サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約6メガベースである、実施形態A1〜A14のいずれか1つに記載の方法。
A18.3 サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約5メガベースである、実施形態A1〜A14のいずれか1つに記載の方法。
A18.4 サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約4メガベースである、実施形態A1〜A14のいずれか1つに記載の方法。
A18.5 サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約3メガベースである、実施形態A1〜A14のいずれか1つに記載の方法。
A18.6 サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約2メガベースである、実施形態A1〜A14のいずれか1つに記載の方法。
A18.7 コピー数変異の長さが、約1メガベースまたはそれ未満である、実施形態A1〜A14のいずれか1つに記載の方法。
A19.(b)における配列リードの定量値が、配列リードカウントである、実施形態A1〜A18.7のいずれか1つに記載の方法。
A20.(b)における配列リードの定量値が、GCバイアスまたは他のバイアスを正規化する正規化プロセスによって生成された、正規化された配列リードの定量値である、実施形態A1〜A18.7のいずれか1つに記載の方法。
A21.正規化プロセスが、LOESS正規化および/または主成分正規化を含む、実施形態A20に記載の方法。
A22.(b)における配列リードの定量値が、標準得点である、実施形態A1〜A21のいずれか1つに記載の方法。
A23.標準得点が、Z得点である、実施形態A22に記載の方法。
A23.1 z得点(ZSUB)が、
ZSUB=(SUBscq−SUBmcq)/MAD
に従って決定され、
式中、
SUBscqは、サブ領域のテストサンプルカウント定量値であり;
SUBmcqは、参照サンプルセットに対して生成されたサブ領域に対するカウント定量値の中央値であり;
MADは、参照サンプルセットに対するサブ領域のカウント定量値に対して決定された中央絶対偏差である、
実施形態A23に記載の方法。
A23.2 SUBscqが、テストサンプルに対するサブ領域における正規化された全カウントを常染色体の正規化された全カウントで除算した結果である、実施形態A23.1に記載の方法。
A24.(a)におけるコピー数変異セグメントの存在または非存在が、セグメント化プロセスを含む決定分析に従って特定される、実施形態A1〜A23.2のいずれか1つに記載の方法。
A25.(a)におけるセグメント化プロセスが、サーキュラーバイナリーセグメンテーション(CBS)プロセスを含む、実施形態A1〜A24のいずれか1つに記載の方法。
A26.(a)におけるセグメント化プロセスが、コピー数変異セグメントに対する定量値を生成する、実施形態A1〜A25のいずれか1つに記載の方法。
A27.コピー数変異セグメントに対する定量値が、z得点である、実施形態A26に記載の方法。
A28.z得点(ZSEG)が、
ZSEG=(SEGscq−SEGmcq)/MAD
に従って決定され、
式中、
SEGscqは、セグメントのテストサンプルカウント定量値であり;
SEGmcqは、参照サンプルセットに対して生成されたセグメントに対するカウント定量値の中央値であり
MADは、参照サンプルセットに対するセグメントのカウント定量値に対して決定された中央絶対偏差である、
実施形態A27に記載の方法。
A28.1 SEGscqが、テストサンプルに対するセグメントにおける正規化された全カウントを常染色体の正規化された全カウントで除算した結果である、実施形態A28に記載の方法。
A29.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、コピー数変異セグメントに対する定量値に従って提供される、実施形態A26〜A28.1のいずれか1つに記載の方法。
A30.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、i)(a)におけるコピー数変異セグメントに対する定量値、およびii)(b)におけるサブ領域に対する配列リードの定量値に従って提供される、実施形態A26〜A28.1のいずれか1つに記載の方法。
A31.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、i)(a)におけるコピー数変異セグメントに対する定量値、またはii)(b)におけるサブ領域に対する配列リードの定量値に従って提供される、実施形態A26〜A28.1のいずれか1つに記載の方法。
A32.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約70%の感度で分類される、実施形態A1〜A31のいずれか1つに記載の方法。
A33.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約75%の感度で分類される、実施形態A1〜A31のいずれか1つに記載の方法。
A34.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約80%の感度で分類される、実施形態A1〜A31のいずれか1つに記載の方法。
A35.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約85%の感度で分類される、実施形態A1〜A31のいずれか1つに記載の方法。
A36.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約90%の感度で分類される、実施形態A1〜A31のいずれか1つに記載の方法。
A37.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約95%の感度で分類される、実施形態A1〜A31のいずれか1つに記載の方法。
A38.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約97%の感度で分類される、実施形態A1〜A31のいずれか1つに記載の方法。
A39.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約99%の特異性で分類される、実施形態A1〜A38のいずれか1つに記載の方法。
A40.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約99.9%の特異性で分類される、実施形態A1〜A38のいずれか1つに記載の方法。
A41.(b)における第2のゲノム部分セットが、(a)における第1のゲノム部分セットのサブセットである、実施形態A1〜A40のいずれか1つに記載の方法。
A42.(b)における第2のゲノム部分セットが、(a)における第1のゲノム部分セットとオーバーラップしているかまたは部分的にオーバーラップしている、実施形態A1〜A40のいずれか1つに記載の方法。
A43.(b)における第2のゲノム部分セットが、(a)における第1のゲノム部分セットよりも少ないゲノム部分を含む、実施形態A1〜A42のいずれか1つに記載の方法。
B1.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、その方法は、
a)ゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、
i)そのゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み;
ii)そのセットは、所定のゲノム部分セットであり;
iii)その所定のゲノム部分セットは、あるプロセスによって特定されており、そのプロセスは、
1)サブ染色体領域内に複数の候補サブ領域を提供する工程;
2)訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して1つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程;および
3)(a)におけるサブ領域を、1つまたはそれを超える精度尺度に従って最適な精度を提供するサブ領域として特定する工程
を含む、工程;および
b)(a)における配列リードの定量値に従って、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程
を含む、方法。
B2.1つまたはそれを超える精度尺度が、感度尺度を含む、実施形態B1に記載の方法。
B3.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約70%である、実施形態B2に記載の方法。
B4.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約75%である、実施形態B2に記載の方法。
B5.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約80%である、実施形態B2に記載の方法。
B6.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約85%である、実施形態B2に記載の方法。
B7.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約90%である、実施形態B2に記載の方法。
B8.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約95%である、実施形態B2に記載の方法。
B9.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約97%である、実施形態B2に記載の方法。
B10.サブ染色体領域におけるコピー数変異が、微小欠失である、実施形態B1〜B9のいずれか1つに記載の方法。
B11.微小欠失が、1p36、22q11.2、15q11−13、8q23.2−24.1、11q24.1、4p13.3、17p13.3および7q11.23から選択されるゲノム領域またはゲノム領域の一部における欠失である、実施形態B10に記載の方法。
B12.サブ染色体領域におけるコピー数変異が、微小重複である、実施形態B1〜B9のいずれか1つに記載の方法。
B13.サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約40メガベースである、実施形態B1〜B12のいずれか1つに記載の方法。
B14.サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約20メガベースである、実施形態B1〜B12のいずれか1つに記載の方法。
B15.サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約10メガベースである、実施形態B1〜B12のいずれか1つに記載の方法。
B16.サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約7メガベースである、実施形態B1〜B12のいずれか1つに記載の方法。
B16.1 サブ染色体領域におけるコピー数変異の長さが、約2メガベース〜約7メガベースである、実施形態B1〜B12のいずれか1つに記載の方法。
B16.2 サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約6メガベースである、実施形態B1〜B12のいずれか1つに記載の方法。
B16.3 サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約5メガベースである、実施形態B1〜B12のいずれか1つに記載の方法。
B16.4 サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約4メガベースである、実施形態B1〜B12のいずれか1つに記載の方法。
B16.5 サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約3メガベースである、実施形態B1〜B12のいずれか1つに記載の方法。
B16.6 サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約2メガベースである、実施形態B1〜B12のいずれか1つに記載の方法。
B16.7 コピー数変異の長さが、約1メガベースまたはそれ未満である、実施形態B1〜B12のいずれか1つに記載の方法。
B17.配列リードの定量値が、配列リードカウントである、実施形態B1〜B16.7のいずれか1つに記載の方法。
B18.配列リードの定量値が、GCバイアスまたは他のバイアスを正規化する正規化プロセスによって生成された、正規化された配列リードの定量値である、実施形態B1〜B17のいずれか1つに記載の方法。
B19.正規化プロセスが、LOESS正規化および/または主成分正規化を含む、実施形態B18に記載の方法。
B20.配列リードの定量値が、標準得点である、実施形態B1〜B19のいずれか1つに記載の方法。
B21.標準得点が、Z得点である、実施形態B20に記載の方法。
B22.z得点(ZSUB)が、
ZSUB=(SUBscq−SUBmcq)/MAD
に従って決定され、
式中、
SUBscqは、サブ領域のテストサンプルカウント定量値であり;
SUBmcqは、参照サンプルセットに対して生成されたサブ領域に対するカウント定量値の中央値であり;
MADは、参照サンプルセットに対するサブ領域のカウント定量値に対して決定された中央絶対偏差である、
実施形態B21に記載の方法。
B22.1 SUBscqが、テストサンプルに対するサブ領域における正規化された全カウントを常染色体の正規化された全カウントで除算した結果である、実施形態B22に記載の方法。
B23.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約70%の感度で分類される、実施形態B1〜B22.1のいずれか1つに記載の方法。
B24.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約75%の感度で分類される、実施形態B1〜B22.1のいずれか1つに記載の方法。
B25.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約80%の感度で分類される、実施形態B1〜B22.1のいずれか1つに記載の方法。
B26.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約85%の感度で分類される、実施形態B1〜B22.1のいずれか1つに記載の方法。
B27.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約90%の感度で分類される、実施形態B1〜B22.1のいずれか1つに記載の方法。
B28.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約95%の感度で分類される、実施形態B1〜B22.1のいずれか1つに記載の方法。
B29.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約97%の感度で分類される、実施形態B1〜B22.1のいずれか1つに記載の方法。
B30.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約99%の特異性で分類される、実施形態B1〜B29のいずれか1つに記載の方法。
B31.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約99.9%の特異性で分類される、実施形態B1〜B29のいずれか1つに記載の方法。
C1.テストサンプル中の核酸が、試験被験体由来である、実施形態A1〜B31のいずれか1つに記載の方法。
C2.テストサンプル中の核酸が、循環無細胞核酸を含む、実施形態A1〜C1のいずれか1つに記載の方法。
C3.循環無細胞核酸が、試験被験体の血漿または血清由来である、実施形態C2に記載の方法。
C4.試験被験体が、雌性体である、実施形態C1〜C3のいずれか1つに記載の方法。
C5.雌性体が、ヒト雌性体である、実施形態C4に記載の方法。
C6.雌性体が、妊婦である、実施形態C4またはC5に記載の方法。
C6.1 テストサンプル中の核酸が、母体核酸および胎児核酸を含む、実施形態C6に記載の方法。
C6.2 テストサンプル中の胎児核酸の比率が、約15%未満である、実施形態C6.1に記載の方法。
C6.3 テストサンプル中の胎児核酸の比率が、約10%未満である、実施形態C6.1に記載の方法。
C6.4 テストサンプル中の胎児核酸の比率が、約5%未満である、実施形態C6.1に記載の方法。
C7.試験被験体が、雄性体である、実施形態C1〜C3のいずれか1つに記載の方法。
C8.試験被験体が、ヒト雄性体である、実施形態C7に記載の方法。
C9.ゲノム部分セット内のゲノム部分が、既定の長さである、実施形態A1〜C8のいずれか1つに記載の方法。
C10.ゲノム部分セット内のゲノム部分が、等しい長さである、実施形態C9に記載の方法。
C11.ゲノム部分セット内のゲノム部分が、約50キロベース長である、実施形態C10に記載の方法。
C12.ゲノム部分セット内のゲノム部分の少なくとも2つが、等しくない長さである、実施形態A1〜C9のいずれか1つに記載の方法。
C13.ゲノム部分セット内のゲノム部分が、オーバーラップしていない、実施形態A1〜C12のいずれか1つに記載の方法。
C14.ゲノム部分の3’末端が、隣接するゲノム部分の5’末端に隣接する、実施形態C13に記載の方法。
C15.ゲノム部分セット内のゲノム部分の少なくとも2つが、オーバーラップしている、実施形態A1〜C12のいずれか1つに記載の方法。
C16.配列決定プロセスによってテストサンプル中の核酸から配列リードを生成する工程を含む、実施形態A1〜C15のいずれか1つに記載の方法。
C17.配列プロセスが、ゲノムワイド配列決定プロセスである、実施形態C16に記載の方法。
C18.配列決定プロセスが、合成による配列決定を含む、実施形態C16またはC17に記載の方法。
C19.テストサンプル中の核酸が、ハイブリダイゼーション条件下においてプローブオリゴヌクレオチドによって捕捉される、実施形態C16に記載の方法。
C20.配列リードを得る工程、およびその配列リードをゲノム部分にマッピングすることによって、そのゲノム部分にマッピングされた配列リードを提供する工程を含む、実施形態A1〜C19のいずれか1つに記載の方法。
C21.ゲノム部分にマッピングされた配列リードを得る工程、および各ゲノム部分にマッピングされた配列リードを定量することによって、そのゲノム部分にマッピングされた配列リードの定量値を生成する工程を含む、実施形態A1〜C20のいずれか1つに記載の方法。
C22.各ゲノム部分にマッピングされた配列リードの定量値が、カウントまたはリード密度である、実施形態C21に記載の方法。
C23.ゲノム部分にマッピングされた配列リードの定量値を正規化することによって、ゲノム部分にマッピングされた、正規化された配列リードの定量値を生成する工程を含む、実施形態A1〜C22のいずれか1つに記載の方法。
C24.正規化が、グアニン−シトシンGC正規化プロセスを含む、実施形態C23に記載の方法。
C25.正規化プロセスが、LOESS、GCRMまたはそれらの組み合わせを含む、実施形態C24に記載の方法。
C26.正規化が、ゲノム部分にマッピングされた配列リードの定量値または配列リードの正規化された定量値を、サンプルの訓練セットから導かれた主成分部分の重みによって調整し、それによって、ゲノム部分にマッピングされた、調整された配列リードの定量値を生成する工程を含む、実施形態C23〜C25のいずれか1つに記載の方法。
C27.ある特定のゲノム部分が、正規化または調整の前または後にフィルタリングされる、実施形態C23〜C26のいずれか1つに記載の方法。
C28.フィルタリングが、マッピング性、リピートマスクまたはそれらの組み合わせに基づく、実施形態C27に記載の方法。
C29.フィルタリングが、複数の参照サンプルにわたってゲノム部分にマッピングされた配列リードの定量値の変動、複数の参照サンプルにわたって一貫してゲノム部分にマッピングされたリードが無いこと、またはそれらの組み合わせに基づく、実施形態C28に記載の方法。
C30.実施形態A1の(a)、(b)および/もしくは(c)、または実施形態B1の(a)および/もしくは(b)が、コンピュータによって行われる、実施形態A1〜C29のいずれか1つに記載の方法。
C31.実施形態A1の(a)、(b)および/もしくは(c)、または実施形態B1の(a)および/もしくは(b)が、コンピュータにおける1つまたはそれを超えるプロセッサによって行われる、実施形態C30に記載の方法。
C32.実施形態A1の(a)、(b)および/もしくは(c)、または実施形態B1の(a)および/もしくは(b)が、メモリに格納された指示に従って行われ、コンピュータによって実行される、実施形態C30またはC31に記載の方法。
C33.妊婦由来のテストサンプルに対するサブ染色体領域における微小欠失の存在または非存在を分類するための方法であって、その方法は、
a)サーキュラーバイナリーセグメンテーションプロセスを含む方法を用いて、第1のゲノム部分セットを含む領域における微小欠失セグメントの存在または非存在を特定する工程、および存在する場合、その微小欠失セグメントに対するz得点を提供する工程;
b)第2のゲノム部分セットを含むサブ染色体領域内のサブ領域に対するz得点を提供する工程であって、ここで、
第2のセットは、
1)サブ染色体領域内に複数の候補サブ領域を提供する工程;
2)訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して感度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域に微小欠失を有すると分類される、工程;および
3)(a)におけるサブ領域を、最適な感度を提供するサブ領域として特定する工程
を含むプロセスによって特定された所定のゲノム部分セットであり、
(a)および(b)におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程;および
c)(a)および(b)に従ってテストサンプルに対するサブ染色体領域における微小欠失の存在または非存在の分類を提供する工程
を含む、方法。
D1.1つまたはそれを超えるプロセッサおよびメモリを備えるシステムであって、そのメモリは、1つまたはそれを超えるプロセッサによって実行可能な指示を含み、その1つまたはそれを超えるプロセッサによって実行可能な指示は、実施形態A1〜C32のいずれか1つに記載の方法を行うように設定されている、システム。
D2.1つまたはそれを超えるプロセッサおよびメモリを備える機器であって、そのメモリは、1つまたはそれを超えるプロセッサによって実行可能な指示を含み、その1つまたはそれを超えるプロセッサによって実行可能な指示は、実施形態A1〜C32のいずれか1つに記載の方法を行うように設定されている、機器。
D3.コンピュータ可読記憶媒体としてのコンピュータプログラム製品であって、その製品は、コンピュータが実施形態A1〜C32のいずれか1つに記載の方法を行うようにプログラミングされた指示を備える、コンピュータプログラム製品。
E1.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、その方法は、
(a)第1のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程;および
その特定に基づいて、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程
を含む、方法。
E2.特定工程が、セグメント化プロセスを用いて行われる、実施形態E1に記載の方法。
E3.
b)第2のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、
第2のセットは、所定のゲノム部分セットであり、(a)および(b)におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程
をさらに含み、(a)および(b)に従って、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が提供される、実施形態1に記載の方法。
F1.テストサンプルに対して目的のサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、その方法は、
a)セグメント化プロセスを含む方法を用いて、第1のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程であって、その領域は、目的のサブ染色体領域の少なくとも一部を含む、工程;
b)第2のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、
第2のセットは、所定のゲノム部分セットであり、(a)および(b)におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程;
を含む、方法であって、参照サンプルセットを基準とした(a)の領域内、(b)のサブ領域内またはその両方内の変化に基づいてテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が提供される、方法。
F2.第1のゲノム部分セットが、第2のゲノム部分セットのサブセットであるか、または第2のゲノム部分セットと同じである、実施形態F1に記載の方法。
F2.1 第2のゲノム部分セットが、第1のゲノム部分セットのサブセットである、実施形態F1に記載の方法。
F3.a)における領域が、サブ染色体領域を包含する、実施形態F1に記載の方法。
F4.a)における領域が、サブ染色体領域とオーバーラップしている、実施形態F1に記載の方法。
F5.(b)における所定のゲノム部分セットが、訓練セットの中の複数のサンプルに対して1つまたはそれを超える精度尺度を用いて特定されており、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、実施形態F1に記載の方法。
F6.(b)における所定のゲノム部分セットが、訓練セットに対するサブ染色体領域におけるコピー数変異の存在を分類するための精度尺度を提供するゲノム部分セットと特定され、その精度尺度は、所定のしきい値に等しいかまたはそれを超える、実施形態F5に記載の方法。
F7.(b)における所定のゲノム部分セットが、あるプロセスによって特定されており、そのプロセスは、
サブ染色体領域内に複数の候補サブ領域を提供する工程;
訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して1つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程;および
(b)におけるサブ領域を、所定のしきい値に等しいかまたはそれを超える1つまたはそれを超える精度尺度に従って精度を提供するサブ領域と特定する工程
を含む、実施形態F5またはF6に記載の方法。
F8.1つまたはそれを超える精度尺度が、感度尺度を含む、実施形態F7のいずれか1つに記載の方法。
F9.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度尺度が、70%〜100%である、実施形態F8に記載の方法。
F10.サブ染色体領域におけるコピー数変異が、微小欠失である、実施形態F1〜F9のいずれか1つに記載の方法。
F11.微小欠失が、1p36、22q11.2、15q11−13、8q23.2−24.1、11q24.1、4p13.3、17p13.3および7q11.23から選択されるゲノム領域またはゲノム領域の一部における欠失である、実施形態F10に記載の方法。
F12.サブ染色体領域におけるコピー数変異が、微小重複である、実施形態F1〜F9のいずれか1つに記載の方法。
F13.サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約40メガベースである、実施形態F1〜F12のいずれか1つに記載の方法。
F14.コピー数変異の長さが、約1メガベースまたはそれ未満である、実施形態F1〜12のいずれか1つに記載の方法。
F15.(b)における配列リードの定量値が、配列リードカウントである、実施形態F1〜F14のいずれか1つに記載の方法。
F16.(b)における配列リードの定量値が、GCバイアスまたは他のバイアスを正規化する正規化プロセスによって生成された、正規化された配列リードの定量値である、実施形態F1〜F14のいずれか1つに記載の方法。
F17.正規化プロセスが、LOESS正規化および/または主成分正規化を含む、実施形態F16に記載の方法。
F18.(b)における配列リードの定量値が、標準得点である、実施形態F1〜F17のいずれか1つに記載の方法。
F19.標準得点が、z得点である、実施形態F18に記載の方法。
F20.Z得点が、カットオフ値より高いまたは低いとき、コピー数変異の存在または非存在が分類される、実施形態F19に記載の方法。
F21.(a)におけるコピー数変異セグメントの存在または非存在が、セグメント化プロセスを含む決定分析に従って特定される、実施形態F1〜F19のいずれか1つに記載の方法。
F22.(a)におけるセグメント化プロセスが、サーキュラーバイナリーセグメンテーション(CBS)プロセスを含む、実施形態F1〜F21のいずれか1つに記載の方法。
F23.(a)におけるセグメント化プロセスが、コピー数変異セグメントに対する定量値を生成する、実施形態F1〜F22のいずれか1つに記載の方法。
F24.Z得点が、カットオフ値より高いまたは低いとき、コピー数変異の存在または非存在が分類される、実施形態F23に記載の方法。
F25.コピー数変異セグメントに対する定量値が、z得点である、実施形態F23に記載の方法。
F26.Z得点が、カットオフ値より高いまたは低いとき、コピー数変異の存在または非存在が分類される、実施形態F25に記載の方法。
F27.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、コピー数変異セグメントに対する定量値に従って提供される、実施形態F23またはF25に記載の方法。
F28.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、i)(a)におけるコピー数変異セグメントに対する定量値、およびii)(b)におけるサブ領域に対する配列リードの定量値に従って提供される、実施形態F23またはF25に記載の方法。
F29.テストサンプルが、多数核酸種および少数核酸種を含み、方法が、少数種におけるコピー数変異の存在または非存在を分類する、実施形態F1〜F27のいずれかに記載の方法。
F30.方法が、テストサンプル中の少数核酸種の相対量を計測する工程をさらに含む、実施形態F1〜F29のいずれかに記載の方法。
F31.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、a)における方法に基づき、そのサンプルは、12%より高い少数核酸種の比率を含む、実施形態F1〜F29のいずれか1つに記載の方法。
F32.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、b)における方法に基づき、そのサンプルは、12%より低い少数核酸種の比率を含む、実施形態F1〜F29のいずれか1つに記載の方法。
F33.少数核酸種が、胎児核酸であり、多数核酸種が、母体核酸である、実施形態F29〜F32に記載の方法。
F34.少数核酸種が、テストサンプル中の腫瘍核酸であり、多数核酸種が、非腫瘍核酸である、実施形態F29〜F32に記載の方法。
F35.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、約70%〜100%の感度で分類される、実施形態F1〜F28のいずれか1つに記載の方法。
F36.(b)における第2のゲノム部分セットが、(a)における第1のゲノム部分セットのサブセットである、実施形態F1〜F35のいずれか1つに記載の方法。
F37.(b)における第2のゲノム部分セットが、(a)における第1のゲノム部分セットとオーバーラップしているかまたは部分的にオーバーラップしている、実施形態F1〜F35のいずれか1つに記載の方法。
F38.(b)における第2のゲノム部分セットが、(a)における第1のゲノム部分セットよりも少ないゲノム部分を含む、実施形態F1〜F35のいずれか1つに記載の方法。
F39.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、その方法は、
a)ゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、
i)そのゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み;
ii)そのセットは、所定のゲノム部分セットであり;
iii)その所定のゲノム部分セットは、あるプロセスによって特定されており、そのプロセスは、
1)サブ染色体領域内に複数の候補サブ領域を提供する工程;
2)訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して1つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程;および
3)(a)におけるサブ領域を、1つまたはそれを超える精度尺度に従って最適な精度を提供するサブ領域として特定する工程
を含む、工程;および
b)参照サンプルセットに対する配列リードの定量値を基準とした(a)における配列リードの定量値に従って、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程
を含む、方法。
F40.1つまたはそれを超える精度尺度が、感度尺度を含む、実施形態F39に記載の方法。
F41.訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、70%〜100%である、実施形態F40に記載の方法。
F42.サブ染色体領域におけるコピー数変異が、微小欠失である、実施形態F39〜F41のいずれか1つに記載の方法。
F43.微小欠失が、1p36、22q11.2、15q11−13、8q23.2−24.1、11q24.1、4p13.3、17p13.3および7q11.23から選択されるゲノム領域またはゲノム領域の一部における欠失である、実施形態F42に記載の方法。
F44.サブ染色体領域におけるコピー数変異が、微小重複である、実施形態F39〜F41のいずれか1つに記載の方法。
F45.サブ染色体領域におけるコピー数変異の長さが、約1メガベース〜約40メガベースである、実施形態F39〜F44のいずれか1つに記載の方法。
F46.配列リードの定量値が、配列リードカウントである、実施形態F39〜F44のいずれか1つに記載の方法。
F47.配列リードの定量値が、GCバイアスまたは他のバイアスを正規化する正規化プロセスによって生成された、正規化された配列リードの定量値である、実施形態F39〜F46のいずれか1つに記載の方法。
F48.配列リードの定量値が、標準得点である、実施形態F39〜F47のいずれか1つに記載の方法。
F49.標準得点が、Z得点である、実施形態F48に記載の方法。
F50.テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、70%〜100%の感度で分類される、実施形態F39〜F49のいずれか1つに記載の方法。
F51.テストサンプル中の核酸が、循環無細胞核酸を含む、実施形態F1〜F50のいずれか1つに記載の方法。
F52.循環無細胞核酸が、試験被験体の血漿または血清に由来する、実施形態F51に記載の方法。
F53.コピー数変異が、腫瘍細胞または癌細胞のコピー数変異である、実施形態F1〜F52のいずれか1つに記載の方法。
F54.コピー数変異が、胎児のゲノムにおけるコピー数変異である、実施形態F1〜F52のいずれか1つに記載の方法。
F55.配列決定プロセスによってテストサンプル中の核酸から配列リードを生成する工程を含む、実施形態F1〜F52のいずれか1つに記載の方法。
F56.配列リードを得る工程、およびその配列リードをゲノム部分にマッピングすることによって、そのゲノム部分にマッピングされた配列リードを提供する工程を含む、実施形態F1〜F55のいずれか1つに記載の方法。
F57.1つまたはそれを超えるプロセッサおよびメモリを備えるシステムであって、そのメモリは、1つまたはそれを超えるプロセッサによって実行可能な指示を含み、その1つまたはそれを超えるプロセッサによって実行可能な指示は、前述の実施形態のいずれかに記載の方法のいずれかを行うように設定されており、1つまたはそれを超えるプロセッサは、
a)セグメント化プロセスを含む方法を用いて、第1のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定するように設定されており、その領域は、目的のサブ染色体領域の少なくとも一部を含み;
b)第2のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供するように設定されており、ここで、
第2のセットは、所定のゲノム部分セットであり、(a)および(b)におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み;かつ
c)参照サンプルセットを基準とした(a)の領域内、(b)のサブ領域内またはその両方内の変化に基づいてテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供するように設定されている、
システム。
F58.コンピュータ可読記憶媒体としてのコンピュータプログラム製品であって、
その製品は、
a)セグメント化プロセスを含む方法を用いて、第1のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程であって、その領域は、目的のサブ染色体領域の少なくとも一部を含む、工程;
b)第2のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、
第2のセットは、所定のゲノム部分セットであり、(a)および(b)におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程;および
c)参照サンプルセットを基準とした(a)の領域内、(b)のサブ領域内またはその両方内の変化に基づいてテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程
を含む、前述の実施形態のいずれかに記載の方法のいずれかをコンピュータが行うようにプログラミングされた指示を備える、コンピュータプログラム製品。
本明細書中で参照される各特許、特許出願、刊行物および文書の全体が、参照により本明細書に援用される。上記特許、特許出願、刊行物および文書の引用は、前述のいずれもが適切な従来技術であることを自認するものではないし、その引用が、これらの刊行物または文書の内容または日付に関するいずれの自認も構成しない。それらの引用は、関連する開示の検索を示すものではない。それらの文書の日付または内容に関するすべての記載は、入手可能な情報に基づくものであって、それらの精度または正確さに関して自認するものではない。
本技術の基本的な態様から逸脱することなく、前述のものに対して改変が行われ得る。本技術は、1つまたはそれを超える特定の実施形態に照らして実質的に詳細に記載されてきたが、当業者は、本願に具体的に開示された実施形態に対して変更が行われ得るが、これらの改変および改善は、本技術の範囲内および趣旨の範囲内であることを認識するだろう。
本明細書中に例証的に記載された技術は、本明細書中に具体的に開示されていない任意のエレメントの非存在下において適切に実施され得る。したがって、例えば、本明細書中の各場合において、用語「〜を含む」、「〜から本質的になる」および「〜からなる」のいずれもが、他の2つの用語のいずれかと置き換えられてもよい。用いられてきた用語および表現は、説明の用語であって限定でない用語として使用され、そのような用語および表現の使用は、示されたおよび記載された特徴またはその一部の等価物を排除せず、特許請求される技術の範囲内で様々な改変が可能である。用語「a」または「an」は、それらのエレメントの1つまたはそれらのエレメントの1つより多いエレメントが記載されていることが文脈上明らかでない限り、それが修飾するエレメントの1つまたは複数のことを指し得る(例えば、「試薬(a reagent)」は、1つまたはそれを超える試薬を意味し得る)。用語「約」は、本明細書中で使用されるとき、基礎をなすパラメータの10%以内の値(すなわち、プラスまたはマイナス10%)のことを指し、一連の値の最初における用語「約」の使用は、それらの値の各々を修飾する(すなわち、「約1、2および3」は、約1、約2および約3のことを指す)。例えば、「約100グラム」という重量は、90グラム〜110グラムの重量を含み得る。さらに、値のリストが本明細書中に記載されるとき(例えば、約50%、60%、70%、80%、85%または86%)、そのリストは、それらのすべての中間値および小数値(例えば、54%、85.4%)を含む。したがって、本技術は、代表的な実施形態および随意の特徴によって具体的に開示されてきたが、本明細書中に開示される概念の改変およびバリエーションは、当業者によって用いられ得、そのような改変およびバリエーションは、本技術の範囲内であると見なされることが理解されるべきである。
本技術のある特定の実施形態が、以下の請求項に示される。