JP2023126874A

JP2023126874A - 無細胞ｄｎａの分析による腫瘍遺伝子コピー数を決定するための方法

Info

Publication number: JP2023126874A
Application number: JP2023108348A
Authority: JP
Inventors: エルトーキーヘルミー; Eltoukhy Helmy; タラサズアミルアリ; Talasaz Amirali; チュドヴァダーリヤ; Chudova Darya; アブドゥエヴァダイアナ; Abdueva Diana
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2015-12-17
Filing date: 2023-06-30
Publication date: 2023-09-12
Also published as: WO2017106768A1; JP2021101732A; SG11201805119QA; EP3390668A4; CA3008651A1; CN117174167A; US20200140960A1; EP3390668A1; JP2019507585A; US20220356527A1; CN108603228B; CN108603228A; US20170240973A1; US11242569B2

Abstract

【課題】無細胞体液に由来する試料由来の腫瘍細胞におけるコピー数変異を検出する改善された方法を提供する。【解決手段】一態様では（ａ）被験体の無細胞体液試料のＤＮＡ分子の配列決定リードを得るステップと、（ｂ）配列リードから、複数の遺伝子座における遺伝子座毎に配列決定リードカバレッジ（「リードカバレッジ」）に関連する定量的尺度を含む第１のデータセットを生成するステップと、（ｃ）飽和平衡補正およびプローブ効率補正を遂行することにより、第１のデータセットを補正するステップと、（ｄ）第１のデータセットについてベースラインリードカバレッジを決定するステップであって、ベースラインリードカバレッジが、飽和平衡およびプローブ効率に関連する、ステップと、（ｅ）ベースラインリードカバレッジと比べた複数の遺伝子座における遺伝子座毎のコピー数状態を決定するステップとを含む方法を提供する。【選択図】図１５

Description

相互参照
この出願は、２０１５年１２月１７日に出願された米国仮出願第６２／２６９，０５１号（これは、その全体が参考として本明細書に援用される）に対する優先権を主張する。

がんは、個体の正常細胞内の突然変異の蓄積に起因し、この突然変異の少なくとも一部は、不適切に調節された細胞分裂をもたらす。かかる突然変異は一般的に、腫瘍ゲノム内の遺伝子のコピーの数が被験体の非がん性細胞と比べて増加または減少した、コピー数変異を含む。

腫瘍細胞におけるコピー数変異の検出および特徴付けは、腫瘍進行のモニタリング、患者の転帰の予測および処置選択の緻密化に使用される。しかし、従来方法は、痛みを伴いかつ時間がかかる生検によって得られることが多い、細胞試料において遂行される。かかる生検はまた、多くの場合、被験体内の腫瘍細胞のごく僅かしか試験できず、よって、必ずしも腫瘍細胞の集団を代表するとは限らない。細胞生検、蛍光ｉｎｓｉｔｕハイブリダイゼーション（ＦＩＳＨ）、比較ゲノムハイブリダイゼーションアレイまたは定量的蛍光ポリメラーゼ連鎖反応（ＰＣＲ）アッセイを要求しない、腫瘍におけるコピー数変異のためのより単純でより迅速な検査の必要がある。

配列決定データを使用した、コピー数変異の決定における特に困難な課題とは、真のコピー数とは無関係な理由から、遺伝子座が、そのカバレッジ（ｃｏｖｅｒａｇｅ）の深度において変動（ｖａｒｉａｎｃｅ）を示すことである。例えば、増幅効率、ＰＣＲ効率およびグアニン－シトシン含量は、同じコピー数の試料に存在する個々の遺伝子座であっても、カバレッジの異なる深度を引き起こし得る。かかる効果によるバイアスを除去する改善された方法が、コピー数検出の改善に必要とされる。

無細胞体液に由来する試料由来の腫瘍細胞におけるコピー数変異を検出する改善された方法が相当に必要とされている。本発明は、この必要に取り組み、追加的な利点を提供する。一態様では、本開示は、（ａ）被験体の無細胞体液試料のデオキシリボ核酸（ＤＮＡ）分子の配列決定リードを得るステップと、（ｂ）配列リードから、複数の遺伝子座における遺伝子座毎に配列決定リードカバレッジ（「リードカバレッジ」）に関連する定量的尺度を含む第１のデータセットを生成するステップと、（ｃ）飽和平衡補正（ｓａｔｕｒａｔｉｏｎｅｑｕｉｌｉｂｒｉｕｍｃｏｒｒｅｃｔｉｏｎ）およびプローブ効率補正（ｐｒｏｂｅｅｆｆｉｃｉｅｎｃｙｃｏｒｒｅｃｔｉｏｎ）を遂行することにより、第１のデータセットを補正するステップと、（ｄ）第１のデータセットについてベースラインリードカバレッジを決定するステップであって、ベースラインリードカバレッジが、飽和平衡およびプローブ効率に関連する、ステップと、（ｅ）ベースラインリードカバレッジと比べた複数の遺伝子座における遺伝子座毎のコピー数状態を決定するステップとを含む方法を提供する。一部の実施形態では、第１のデータセットは、複数の遺伝子座における遺伝子座毎に、（ｉ）遺伝子座のグアニン－シトシン含量（「ＧＣ含量」）に関連する定量的尺度を含む。一部の実施形態では、本方法は、（ｃ）に先立ち、第１のデータセットから、高変動遺伝子座である遺伝子座を除去するステップを含み、除去するステップは、（ｉ）グアニン－シトシン含量に関連する定量的尺度および遺伝子座の配列決定リードカバレッジの定量的尺度に関連するモデルを適合させるステップと、（ｉｉ）遺伝子座から、遺伝子座の少なくとも１０％を除去するステップであって、この遺伝子座を除去するステップは、モデルと最も異なる遺伝子座を除去し、これにより、ベースライン化遺伝子座（ｂａｓｅｌｉｎｉｎｇｇｅｎｅｔｉｃｌｏｃｕｓ）の第１のデータセットを提供することを含む、ステップとを含む。一部の実施形態では、本方法は、遺伝子座の少なくとも４５％を除去するステップを含む。

一部の実施形態では、飽和平衡補正を遂行するステップは、（ｉ）ベースライン化遺伝子座の第１のデータセット由来の遺伝子座毎に、遺伝子座に由来する試料由来のＤＮＡ分子の鎖が、配列決定リード内に表される確率に関連する定量的尺度を決定し、（ｉｉ）ベースライン化遺伝子座の第１のデータセットのリードカバレッジを、ベースライン化遺伝子座の第１のデータセットのＧＣ含量、およびベースライン化遺伝子座の第１のデータセットにおける各座位に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度の両方に関連付けることにより、リードカバレッジのための第１の変換を決定し、（ｉｉｉ）ベースライン化遺伝子座の第１のデータセット由来の各遺伝子座のリードカバレッジに第１の変換を適用して、ベースライン化遺伝子座の第１のデータセットの変換されたリードカバレッジの第１のセットを含む、飽和補正されたデータセットを提供することにより、ベースライン化データ遺伝子座の第１のデータセットを飽和補正されたデータセットに変換するステップを含む。

一部の実施形態では、第１の変換を決定するステップは、（ｉ）ベースライン化遺伝子座の第１のデータセットのリードカバレッジの中心傾向（ｃｅｎｔｒａｌｔｅｎｄｅｎｃｙ）に関連する尺度を決定するステップと、（ｉｉ）遺伝子座のＧＣ含量に基づくベースライン化遺伝子座の第１のデータセットのリードカバレッジの中心傾向に関連する尺度、および遺伝子座に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度を適合させる関数を決定するステップと、（ｉｉｉ）ベースライン化遺伝子座の第１のデータセットの遺伝子座毎に、関数によって予測されるリードカバレッジおよびリードカバレッジの間の差を決定するステップであって、差が、変換されたリードカバレッジである、ステップとを含む。一部の実施形態では、関数は、表面近似（ｓｕｒｆａｃｅａｐｐｒｏｘｉｍａｔｉｏｎ）である。本明細書に提供される一部の実施形態では、表面近似は、二次元二次多項式である。

一部の実施形態では、プローブ効率補正を遂行するステップは、（ｉ）飽和補正されたデータセットから、変換されたリードカバレッジの第１のセットに関して高変動遺伝子座である遺伝子座を除去し、これにより、ベースライン化遺伝子座の第２のデータセットを提供し、（ｉｉ）ベースライン化遺伝子座の第２のデータセットのプローブ効率に関連する変換されたリードカバレッジの第１のセットのための第２の変換を決定し、（ｉｉｉ）第２の変換を用いて、ベースライン化遺伝子座の第２のデータセットの変換されたリードカバレッジの第１のセットを変換し、これにより、ベースライン化遺伝子座の第２のデータセットの変換されたリードカバレッジの第２のセットを含む、プローブ効率補正されたデータセットを提供することにより、飽和補正されたデータセットをプローブ効率補正されたデータセットへと変換するステップを含む。一部の実施形態では、第１のデータセットから、高変動遺伝子座である遺伝子座を除去するステップは、（ｉ）ＧＣ含量および飽和補正されたデータセットの変換されたリードカバレッジの第１のセットに関連するモデルを適合させるステップと、（ｉｉ）飽和補正されたデータセットから、遺伝子座の少なくとも１０％を除去するステップであって、この遺伝子座を除去するステップは、モデルと最も異なる遺伝子座を除去し、これにより、ベースライン化遺伝子座の第２のデータセットを提供するステップを含む、ステップとを含む。本明細書に提供される一部の実施形態では、除去は、遺伝子座の少なくとも４５％である。

一部の実施形態では、プローブ効率は、１種または複数の参照試料において飽和平衡補正を遂行することにより決定され、プローブ効率は、飽和平衡補正を遂行することにより得られる変換されたリードカバレッジである。一部の実施形態では、１種または複数の参照試料は、がんを有しない被験体由来の無細胞体液試料である。本明細書に提供される一部の実施形態では、１種または複数の参照試料は、がんを有する被験体由来の無細胞体液試料であり、対応する遺伝子座は、コピー数変更を起こしていない。

一部の実施形態では、第２の変換を決定するステップは、（ｉ）１種または複数の参照試料由来の遺伝子座について決定されたプローブ効率を、ベースライン化遺伝子座の第２のデータセット由来のリードカバレッジの第１のセットに適合させるステップと、（ｉｉ）ベースライン化遺伝子座の第２のデータセットの各遺伝子座の変換されたリードカバレッジを、（ｉ）の適合に基づき予測されるプローブ効率で割るステップとを含む。一部の実施形態では、本方法は、（ｆ）ベースライン化遺伝子座の第２のデータセットの変換されたリードカバレッジを、ベースライン化遺伝子座の第２のデータセットのＧＣ含量、およびベースライン化遺伝子座の第２のデータセットにおける各座位に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度の両方に関連付けることにより、変換されたリードカバレッジの第２のセットのための第３の変換を決定するステップと、（ｇ）第３の変換を、変換されたリードカバレッジの第２のセットに適用して、変換された定量的リードカバレッジの第３のセットを含む、第４のデータセットを提供するステップとをさらに含む。

一部の実施形態では、無細胞体液試料のＤＮＡは、遺伝子座のセット由来の遺伝子座の少なくとも一部分に相補的な１種または複数のオリゴヌクレオチドプローブを使用して、遺伝子座のセットについて濃縮される。一部の実施形態では、遺伝子座のセット由来の各遺伝子座のＧＣ含量は、遺伝子座のセット由来の遺伝子座の少なくとも一部分に相補的な１種または複数のオリゴヌクレオチドプローブのグアニン－シトシン含量の中心傾向に関連する尺度である。一部の実施形態では、遺伝子座のリードカバレッジは、１種または複数のオリゴヌクレオチドプローブに対応する遺伝子座の領域のリードカバレッジの中心傾向に関連する尺度である。一部の実施形態では、飽和平衡補正を遂行するステップおよびプローブ効率補正を遂行するステップは、ラングミュアモデルを適合させるステップを含み、ラングミュアモデルは、プローブ効率（Ｋ）および飽和平衡定数（Ｉｓａｔ）を含む。一部の実施形態では、ＫおよびＩｓａｔは、１種または複数のオリゴヌクレオチドプローブにおけるオリゴヌクレオチドプローブ毎に経験的に決定される。一部の実施形態では、飽和平衡補正を遂行するステップおよびプローブ補正を遂行するステップは、遺伝子座のリードカバレッジを、遺伝子座が同一コピー数状態で存在することを仮定してラングミュアモデルに適合させ、これにより、ベースラインリードカバレッジを提供するステップを含む。一部の実施形態では、同一コピー数状態は、二倍体である。一部の実施形態では、ベースラインリード（ｒａｄ）カバレッジは、プローブ効率および飽和平衡に依存する関数である。

一部の実施形態では、コピー数状態を決定するステップは、遺伝子座のリードカバレッジをベースラインリードカバレッジと比較するステップを含む。一部の実施形態では、無細胞体液は、血清、血漿、尿および脳脊髄液からなる群より選択される。一部の実施形態では、リードカバレッジは、配列決定リードを参照ゲノムにマッピングすることにより決定される。一部の実施形態では、配列決定リードを得るステップは、被験体由来の無細胞体液由来のＤＮＡ分子にアダプターをライゲーションするステップを含む。一部の実施形態では、ＤＮＡ分子は、二重鎖ＤＮＡ分子であり、各アダプターが、ＤＮＡ分子の相補鎖を異なる形でタグ付けして、タグ付けされた鎖を提供するように、アダプターは、二重鎖ＤＮＡ分子にライゲーションされる。一部の実施形態では、遺伝子座に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度を決定するステップは、配列決定リードを、対になったリードおよび対にならないリードへと選別するステップを含み、（ｉ）各対になったリードは、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第１のタグ付けされた鎖および第２の異なる形でタグ付けされた相補鎖から生成された配列リードに対応し、（ｉｉ）各対にならないリードは、配列リードの前記セットにおける前記配列リード中に表される二本鎖ポリヌクレオチド分子に由来する第２の異なる形でタグ付けされた相補鎖を有しない第１のタグ付けされた鎖を表す。一部の実施形態では、本方法は、１種または複数の遺伝子座のそれぞれにマッピングする、（ｉ）前記対になったリードおよび（ｉｉ）前記対にならないリードの定量的尺度を決定して、各座位にマッピングする対になったリードおよび対にならないリードに関連する前記定量的尺度に基づき、前記１種または複数の遺伝子座のそれぞれにマッピングする、前記試料における総二本鎖ＤＮＡ分子に関連する定量的尺度を決定するステップをさらに含む。一部の実施形態では、アダプターは、バーコード配列を含む。

一部の実施形態では、リードカバレッジを決定するステップは、参照ゲノムへの配列決定リードのマッピングの位置およびバーコード配列に基づき配列決定リードを折り畳む（ｃｏｌｌａｐｓｉｎｇ）ステップを含む。一部の実施形態では、遺伝子座は、１種または複数の癌遺伝子を含む。一部の実施形態では、方法は、被験体の生殖系列ゲノムがヘテロ接合性であるベースライン化遺伝子座内のバリアントの相対量を決定することにより、ベースライン化遺伝子座の少なくともサブセットが、被験体の腫瘍細胞においてコピー数変更を起こしたことを決定するステップを含む。一部の実施形態では、バリアントの相対量は、ほぼ等しいわけではない。一部の実施形態では、バリアントの相対量がほぼ等しいわけではないベースライン化遺伝子座は、ベースライン化遺伝子座から除去され、これにより、アレル頻度補正されたベースライン化遺伝子座を提供する。一部の実施形態では、アレル頻度補正されたベースライン化遺伝子座は、先行する請求項のいずれか一項に記載の方法におけるベースライン化座位として使用される。

別の態様では、本開示は、メモリに、被験体の無細胞体液試料のデオキシリボ核酸（ＤＮＡ）分子の配列決定リードを受け取るステップと、コンピュータプロセッサを用いてコードを実行して、次のステップ：配列リードから、複数の遺伝子座における遺伝子座毎に配列決定リードカバレッジ（「リードカバレッジ」）に関連する定量的尺度を含む第１のデータセットを生成するステップと；飽和平衡補正およびプローブ効率補正を遂行することにより、第１のデータセットを補正するステップと；第１のデータセットについてベースラインリードカバレッジを決定するステップであって、ベースラインリードカバレッジが、飽和平衡およびプローブ効率に関連する、ステップと；ベースラインリードカバレッジと比べた複数の遺伝子座における遺伝子座毎のコピー数状態を決定するステップとを遂行するステップとを含む方法を提供する。

別の態様では、本開示は、ネットワークと、ネットワークに接続された核酸（例えば、ＤＮＡ）配列データを記憶するように構成されたコンピュータメモリを含むデータベースと、コンピュータメモリおよび１個または複数のコンピュータプロセッサを含むバイオインフォマティクスコンピュータであって、ネットワークに接続されたコンピュータとを含むシステムであって、コンピュータが、１個または複数のコンピュータプロセッサによって実行されると、データベースに記憶された核酸（例えば、ＤＮＡ）配列データをコピーし、コピーされたデータを、バイオインフォマティクスコンピュータにおけるメモリに書き出し、核酸（例えば、ＤＮＡ）配列データから、複数の遺伝子座における遺伝子座毎に配列決定リードカバレッジ（「リードカバレッジ」）に関連する定量的尺度を含む第１のデータセットを生成するステップと；飽和平衡補正およびプローブ効率補正を遂行することにより、第１のデータセットを補正するステップと；第１のデータセットについてベースラインリードカバレッジを決定するステップであって、ベースラインリードカバレッジが、飽和平衡およびプローブ効率に関連する、ステップと；ベースラインリードカバレッジと比べた複数の遺伝子座における遺伝子座毎のコピー数状態を決定するステップとを含むステップを遂行する、機械実行可能なコードをさらに含む、システムを提供する。一部の実施形態では、データベースは、ＤＮＡシーケンサーに接続される。

参照による組込み
本明細書において言及されているあらゆる刊行物、特許および特許出願は、あたかも個々の刊行物、特許または特許出願が、参照により組み込まれていると特にかつ個々に示されているのと同じ程度まで、参照により本明細書に組み込まれている。

本発明の新規特色は、添付の特許請求の範囲において詳細に明記されている。本発明の特色および利点のより十分な理解は、本発明の原理が利用される説明的実施形態を明記する次の詳細な説明および添付の図面を参照することにより得られるであろう。

図１は、例示的な癌遺伝子および配列捕捉プローブの標的を例示する。

図２は、３種のスパイクイン（ｓｐｉｋｅ－ｉｎ）にわたる遺伝子レベルシグナル対理論的コピー数およびスパイクイン遺伝子にわたるプローブレベルシグナル変異を例示する。

図３は、特有の分子計数を有するベイト量に関連するベイト最適化実験を例示する。

図４Ａおよび図４Ｂは、特有の分子計数に対するｐ（図４Ａ）およびＧＣ含量（図４Ｂ）の非線形効果を例示する。図４Ａおよび図４Ｂは、特有の分子計数に対するｐ（図４Ａ）およびＧＣ含量（図４Ｂ）の非線形効果を例示する。

図５は、飽和補正もプローブ効率補正も遂行されていない、プローブ当たりの特有の分子計数を例示する。

図６は、プローブ当たりの飽和補正後の特有の分子計数を例示する。

図７は、プローブ当たりの飽和補正後およびプローブ効率補正後の特有の分子計数を例示する。

図８は、プローブ飽和およびプローブ効率に関連する、真のコピー数および特有の分子計数の間の相互作用の提案されたラングミュアモデルを例示する。

図９は、典型的臨床試料における飽和補正、プローブ効率補正および第２ラウンドのプローブ効率補正後の、ベースライン化遺伝子座のプローブシグナルノイズ低下を例示する。

図１０Ａおよび図１０Ｂは、プローブ効率補正を遂行するために、参照試料において決定されたプローブ効率に対してプロットされた、飽和補正後のＵＭＣを例示する。図１０Ａは、腫瘍細胞におけるコピー数変更を有しない被験体に由来する。図１０Ｂは、腫瘍細胞におけるコピー数変更を有する被験体に由来する。図１０Ａおよび図１０Ｂは、プローブ効率補正を遂行するために、参照試料において決定されたプローブ効率に対してプロットされた、飽和補正後のＵＭＣを例示する。図１０Ａは、腫瘍細胞におけるコピー数変更を有しない被験体に由来する。図１０Ｂは、腫瘍細胞におけるコピー数変更を有する被験体に由来する。

図１１は、患者試料における飽和およびプローブ効率補正されたコピー数変異検出の最終報告を例示する。試料の上の星印は、補正されたシグナルおよびマイナーアレル頻度（ｍｉｎｏｒ－ａｌｌｅｌｅｆｒｅｑｕｅｎｃｙ）補正されたベースライン最適化に基づき検出された遺伝子増幅を示す。

図１２は、本開示の方法を実施するようにプログラムされたまたは他の仕方で構成された、コンピュータシステム１２０１を例示する。

図１３は、本開示の方法を使用して測定された、遺伝子ＥＲＢＢ２の観察されたコピー数（ＣＮ）対理論的ＣＮを例示する。黒塗りの（ｓｏｌｉｄ）ドットは、ほぼ２（二倍体試料）の観察されたコピー数を表し、白抜きの（ｏｐｅｎ）ドットは、検出された増幅事象を表し、太い水平破線は、平均遺伝子ＣＮカットオフをマークする。

図１４は、対照方法（四角形）と比較した、本開示の方法（ドット）を使用して測定された、遺伝子ＥＲＢＢ２の観察されたコピー数（ＣＮ）対理論的ＣＮを例示する。黒塗りのドットは、ほぼ２（二倍体試料）の観察されたコピー数を表し、白抜きのドットは、検出された増幅事象を表し、太い水平破線は、平均遺伝子ＣＮカットオフをマークする。

図１５は、本開示の方法（三角形）対対照方法（Ｘ）のための検証試験において使用されたプローブに対してプロットされた、プローブコピー数を例示する。

定義
用語「遺伝的バリアント」は、本明細書において、被験体の核酸試料またはゲノムにおける変更、バリアントまたは多型を一般に指す。かかる変更、バリアントまたは多型は、被験体または他の個体の参照ゲノムであり得る参照ゲノムに関するものであり得る。一塩基多型（ＳＮＰ）は、多型の一形態である。一部の例では、１個または複数の多型は、１個または複数の一塩基変異（ＳＮＶ）、挿入、欠失、反復、小規模な挿入、小規模な欠失、小規模な反復、構造的バリアント接合部、可変長タンデム反復および／または隣接配列を含む。コピー数バリアント（ＣＮＶ）、トランスバージョンおよび他の再編成も、遺伝的変異の形態である。ゲノム変更（ａｌｔｅｒｎａｔｉｏｎ）は、塩基変化、挿入、欠失、反復、コピー数変異またはトランスバージョンであり得る。

用語「ポリヌクレオチド」は、本明細書において、１個または複数の核酸サブユニットを含む分子を一般に指す。ポリヌクレオチドは、アデノシン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、チミン（Ｔ）およびウラシル（Ｕ）またはこれらのバリアントから選択される１個または複数のサブユニットを含むことができる。ヌクレオチドは、Ａ、Ｃ、Ｇ、ＴもしくはＵまたはこれらのバリアントを含むことができる。ヌクレオチドは、伸びている核酸鎖に取り込まれ得るいずれかのサブユニットを含むことができる。かかるサブユニットは、Ａ、Ｃ、Ｇ、ＴまたはＵ、あるいは１個もしくは複数の相補的Ａ、Ｃ、Ｇ、ＴもしくはＵに特異的な、またはプリン（すなわち、ＡもしくはＧまたはこれらのバリアント）もしくはピリミジン（すなわち、Ｃ、ＴもしくはＵまたはこれらのバリアント）に相補的な、他のいずれかのサブユニットであり得る。サブユニットは、個々の核酸塩基または塩基群（例えば、ＡＡ、ＴＡ、ＡＴ、ＧＣ、ＣＧ、ＣＴ、ＴＣ、ＧＴ、ＴＧ、ＡＣ、ＣＡまたはそれらのウラシル対応物）を分解することを可能にすることができる。一部の例では、ポリヌクレオチドは、デオキシリボ核酸（ＤＮＡ）もしくはリボ核酸（ＲＮＡ）またはこれらの誘導体である。ポリヌクレオチドは、一本鎖または二本鎖であり得る。

用語「被験体」は、本明細書にいて、哺乳動物種（例えば、ヒト）もしくは鳥類（例えば、トリ）種等の動物、または植物等の他の生物を一般に指す。より具体的には、被験体は、脊椎動物、哺乳動物、マウス、霊長類、サルまたはヒトであり得る。動物として、家畜、競技用動物（ｓｐｏｒｔａｎｉｍａｌ）およびペットが挙げられるがこれらに限定されない。被験体は、健康個体、疾患もしくは疾患素因を有するもしくはこれを有すると疑われる個体、または治療を必要とするもしくは治療を必要とすると疑われる個体であり得る。被験体は、患者であり得る。

用語「ゲノム」は、生物の遺伝情報の全体を一般に指す。ゲノムは、ＤＮＡまたはＲＮＡのいずれかにおいてコードされ得る。ゲノムは、タンパク質をコードするコード領域と共に非コード領域を含むことができる。ゲノムは、生物における全染色体の配列を一体に含むことができる。例えば、ヒトゲノムは、総計４６本の染色体を有する。これら全ての配列が一体に、ヒトゲノムを構成する。

用語「アダプター（複数可）」、「アダプター（複数可）」および「タグ（複数可）」は、本明細書を通して同義に使用されている。アダプターまたはタグは、ライゲーション、ハイブリダイゼーションまたは他のアプローチを含むいずれかのアプローチによって「タグ付け」されるように、ポリヌクレオチド配列にカップリングすることができる。

用語「ライブラリーアダプター」または「ライブラリーアダプター」は、本明細書において、その正体（例えば、配列）を使用して、生体試料（本明細書において同様に「試料」）におけるポリヌクレオチドを区別することができる分子（例えば、ポリヌクレオチド）を一般に指す。

用語「配列決定アダプター」は、本明細書において、配列決定機器が、配列決定を可能にするよう標的ポリヌクレオチドと相互作用すること等によって、標的ポリヌクレオチドを配列決定することを可能にするように適応された分子（例えば、ポリヌクレオチド）を一般に指す。配列決定アダプターは、標的ポリヌクレオチドが、配列決定機器によって配列決定されることを可能にする。一例では、配列決定アダプターは、フローセル等、配列決定システムの固体支持体に取り付けられた捕捉ポリヌクレオチドにハイブリダイズまたは結合するヌクレオチド配列を含む。別の例では、配列決定アダプターは、ポリヌクレオチドにハイブリダイズまたは結合して、標的ポリヌクレオチドが、配列決定システムによって配列決定されることを可能にするヘアピンループを生成するヌクレオチド配列を含む。配列決定アダプターは、他の分子（例えば、ポリヌクレオチド）のフローセル配列に相補的で、配列決定システムによる標的ポリヌクレオチドの配列決定に使用可能なヌクレオチド配列であり得るシーケンサーモチーフを含むことができる。シーケンサーモチーフは、合成による配列決定等、配列決定における使用のためのプライマー配列を含むこともできる。シーケンサーモチーフは、配列決定システムへのライブラリーアダプターのカップリングおよび標的ポリヌクレオチドの配列決定に必要とされる配列（複数可）を含むことができる。

本明細書において、用語「少なくとも」、「多くても」または「約」は、他のことが特定されていなければ、あるシリーズに先行する場合、このシリーズの各メンバーを指す。

参照数値に関する用語「約」およびその文法上の等価物は、該値から最大プラスまたはマイナス１０％の値の範囲を含むことができる。例えば、「約１０」の量は、９～１１の量を含むことができる。他の実施形態では、参照数値に関する用語「約」は、該値からプラスまたはマイナス１０％、９％、８％、７％、６％、５％、４％、３％、２％または１％の値の範囲を含むことができる。

参照数値に関する用語「少なくとも」およびその文法上の等価物は、参照数値および該値を超えるものを含むことができる。例えば、「少なくとも１０」の量は、１０の値、ならびに１１、１００および１，０００等、１０を上回るいずれかの数値を含むことができる。

参照数値に関する用語「多くても」およびその文法上の等価物は、参照数値および該値に満たないものを含むことができる。例えば、「多くても１０」の量は、１０の値、ならびに９、８、５、１、０．５および０．１等、１０を下回るいずれかの数値を含むことができる。

用語「定量的尺度」は、絶対および相対尺度を含む、量のいずれかの尺度を指す。定量的尺度は、例えば、数（例えば、計数）、パーセンテージ、程度または閾値であり得る。

用語「リードカバレッジ」は、生の配列リードから推論される特有の分子計数等、生の配列リードまたは加工済の配列リードによるカバレッジを指す。

用語「ベースラインリードカバレッジ」は、ＧＣ含量、プローブ効率、ライゲーション効率またはプルダウン効率等、所与のプローブパラメータに基づく二倍体ゲノム環境を含む試料におけるプローブの予想されるリードカバレッジを指す。

「プローブ」は、本明細書において、機能性を含むポリヌクレオチドを指す。機能性は、検出可能標識（蛍光）、結合部分（ビオチン）または固体支持体（磁気により誘引可能な粒子またはチップ）であり得る。

「相補性」は、伝統的ワトソン・クリックまたは他の非伝統的な型のいずれかにより別の核酸配列と水素結合（複数可）を形成する核酸の能力を指す。パーセント相補性は、第２の核酸配列と水素結合を形成（ワトソン・クリック塩基対形成）し得る核酸分子における残基のパーセンテージを示す（１０のうち５、６、７、８、９、１０は、それぞれ５０％、６０％、７０％、８０％、９０％および１００％相補的である）。「完全に相補的」は、核酸配列の近接残基が全て、第２の核酸配列における同数の近接残基と水素結合するであろうことを意味する。

「実質的に相補的」は、本明細書において、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、３０、３５、４０、４５、５０個もしくはそれよりも多いヌクレオチドの領域にわたり少なくとも６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９７％、９８％、９９％もしくは１００％である相補性の程度を指す、またはストリンジェントな条件下でハイブリダイズする２種の核酸を指す。パーセント相補性を評価する目的のため等、配列同一性は、Ｎｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈアルゴリズム（例えば、任意選択でデフォルト設定による、ワールド・ワイド・ウェブサイト：ｅｂｉ．ａｃ．ｕｋ／Ｔｏｏｌｓ／ｐｓａ／ｅｍｂｏｓｓ＿ｎｅｅｄｌｅ／ｎｕｃｌｅｏｔｉｄｅ．ｈｔｍｌで入手できるＥＭＢＯＳＳＮｅｅｄｌｅアライナ（ａｌｉｇｎｅｒ）を参照）、ＢＬＡＳＴアルゴリズム（例えば、任意選択でデフォルト設定による、ｂｌａｓｔ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／Ｂｌａｓｔ．ｃｇｉで入手できるＢＬＡＳＴアラインメントツールを参照）またはＳｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズム（例えば、任意選択でデフォルト設定による、ワールド・ワイド・ウェブサイト：ｅｂｉ．ａｃ．ｕｋ／Ｔｏｏｌｓ／ｐｓａ／ｅｍｂｏｓｓ＿ｗａｔｅｒ／ｎｕｃｌｅｏｔｉｄｅ．ｈｔｍｌで入手できるＥＭＢＯＳＳＷａｔｅｒアライナを参照）が挙げられるがこれらに限定されない、いずれか適したアラインメントアルゴリズムによって測定することができる。最適なアラインメントは、デフォルトパラメータを含む、選択されたアルゴリズムのいずれか適したパラメータを使用して評価することができる。

「ハイブリダイゼーション」は、１個または複数のポリヌクレオチドが反応して、ヌクレオチド残基の塩基間の水素結合により安定化される複合体を形成する反応を指す。水素結合は、ワトソン・クリック塩基対形成、フーグスティーン（Ｈｏｏｇｓｔｅｉｎ）結合によって、または塩基相補性に従った他のいずれかの配列特異的様式で生じ得る。複合体は、二重鎖構造を形成する２本の鎖、多重鎖複合体を形成する３本またはそれよりも多い鎖、単一の自己ハイブリダイズする鎖、またはこれらのいずれかの組合せを含むことができる。ハイブリダイゼーション反応は、ＰＣＲの開始またはエンドヌクレアーゼによるポリヌクレオチドの酵素切断等、より大規模なプロセスにおけるステップを構成することができる。第１の配列に相補的な第２の配列は、第１の配列の「相補体」と称される。ポリヌクレオチドに適用される用語「ハイブリダイズ可能」は、ハイブリダイゼーション反応におけるヌクレオチド残基の塩基間の水素結合により安定化される複合体を形成するポリヌクレオチドの能力を指す。

用語「ストリンジェントなハイブリダイゼーション条件」は、ポリヌクレオチドが、その標的部分配列（ｓｕｂｓｅｑｕｅｎｃｅ）に優先的にハイブリダイズし、他の配列により少ない程度でハイブリダイズするまたは全くハイブリダイズしないであろう条件を指す。核酸ハイブリダイゼーション実験の文脈における「ストリンジェントなハイブリダイゼーション」は、配列依存性であり、異なる環境パラメータ下で異なる。核酸のハイブリダイゼーションに対する広範なガイドは、Ｔｉｊｓｓｅｎ（１９９３年）ＬａｂｏｒａｔｏｒｙＴｅｃｈｎｉｑｕｅｓｉｎＢｉｏｃｈｅｍｉｓｔｒｙａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ－－ＨｙｂｒｉｄｉｚａｔｉｏｎｗｉｔｈＮｕｃｌｅｉｃＡｃｉｄＰｒｏｂｅｓ、第Ｉ部、第２章「Ｏｖｅｒｖｉｅｗｏｆｐｒｉｎｃｉｐｌｅｓｏｆｈｙｂｒｉｄｉｚａｔｉｏｎａｎｄｔｈｅｓｔｒａｔｅｇｙｏｆｎｕｃｌｅｉｃａｃｉｄｐｒｏｂｅａｓｓａｙｓ」、Ｅｌｓｅｖｉｅｒ、ＮｅｗＹｏｒｋに見出される。

一般に、高度にストリンジェントなハイブリダイゼーションおよび洗浄条件は、規定のイオン強度およびｐＨにおける特異的配列のための熱の融点（Ｔｍ）よりも約５℃低くなるように選択される。Ｔｍは、標的配列の５０％が、完全にマッチしたプローブにハイブリダイズする温度（規定のイオン強度およびｐＨ下における）である。非常にストリンジェントな条件は、特定のプローブのためのＴｍに等しくなるように選択される。

ストリンジェントなハイブリダイゼーション条件は、水、バッファー（ｐＨ６～９またはｐＨ７～８におけるリン酸、ｔｒｉｓ、ＳＳＰＥまたはＳＳＣバッファー）、塩（ナトリウムまたはカリウム）および変性剤（ＳＤＳ、ホルムアミドまたはｔｗｅｅｎ）を含むバッファー、ならびに３７℃～７０℃、６０℃～６５℃の温度を含む。

サザンまたはノーザンブロットのフィルターにおける１００個を超える相補的残基を有する相補的核酸のハイブリダイゼーションのためのストリンジェントなハイブリダイゼーション条件の例は、４２℃における５０％ホルマリンと１ｍｇのヘパリンであり、ハイブリダイゼーションは一晩行われる。高度にストリンジェントな洗浄条件の例は、７２℃における約１５分間の０．１５ＭＮａＣｌである。ストリンジェントな洗浄条件の例は、６５℃における１５分間の０．２×ＳＳＣ洗浄である（ＳＳＣバッファーの記載についてはＳａｍｂｒｏｏｋらを参照）。多くの場合、高ストリンジェンシー洗浄に先行して低ストリンジェンシー洗浄が行われて、バックグラウンドプローブシグナルを除去する。１００個を超えるヌクレオチドの二重鎖のための中間ストリンジェンシー洗浄の例は、４５℃における１５分間の１×ＳＳＣである。例えば、１００個を超えるヌクレオチドの二重鎖のための低ストリンジェンシー洗浄の例は、４０℃における１５分間の４～６×ＳＳＣである。一般に、特定のハイブリダイゼーションアッセイにおける無関係のプローブに観察されるものの２×（またはそれよりも高い）のシグナル・ノイズ比は、特異的ハイブリダイゼーションの検出を示す。

一態様では、本開示は、（ａ）被験体の無細胞体液試料のデオキシリボ核酸（ＤＮＡ）分子に由来する配列決定リードを得るステップと、（ｂ）複数の遺伝子座における遺伝子座毎に、（ｉ）遺伝子座のグアニン－シトシン含量に関連する定量的尺度および（ｉｉ）配列決定リード由来の遺伝子座の配列決定リードカバレッジに関連する定量的尺度を含む第１のデータセットを生成するステップと、（ｃ）（ｉ）第１のデータセットから、配列決定リードカバレッジに関連する定量的尺度に関する高変動遺伝子座である遺伝子座を除去し、これにより、残っている遺伝子座の第１のセットを提供し、（ｉｉ）残っている遺伝子座の第１のセット由来の遺伝子座毎に、遺伝子座に由来する試料由来のＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度を決定し、（ｉｉｉ）残っている遺伝子座の第１のセットの配列決定リードカバレッジに関連する定量的尺度を、残っている遺伝子座の第１のセットのＧＣ含量に関連する定量的尺度および残っている遺伝子座の第１のセットにおける各座位に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度の両方に関連付けることにより、配列決定リードカバレッジに関連する定量的尺度のための第１の変換を決定し、（ｉｖ）残っている遺伝子座の第１のセット由来の各遺伝子座の配列リードカバレッジに第１の変換を適用して、残っている遺伝子座の第１のセットの配列決定リードカバレッジの変換された定量的尺度の第１のセットを含む、第２のデータセットを提供することによって、第１のデータセットを第２のデータセットへと変換するステップとを含む方法を提供する。

一部の実施形態では、本方法は、（ｄ）第２のデータセットから、配列決定リードカバレッジの変換された定量的尺度の第１のセットに関して高変動遺伝子座である遺伝子座を除去し、これにより、残っている遺伝子座の第２のセットを提供し、（ｅ）残っている遺伝子座の第２のセットの効率に関連する配列決定リードカバレッジの変換された定量的尺度の第１のセットのための第２の変換を決定し、（ｆ）第２の変換を用いて、残っている遺伝子座の第２のセットの配列決定リードカバレッジの変換された定量的尺度の第１のセットを変換し、これにより、（ｄ、ｉ）の残っている遺伝子座の第２のセットの配列決定リードカバレッジに関連する変換された定量的尺度の第２のセットを含む、第３のデータセットを提供することにより、第２のデータセットを第３のデータセットへと変換するステップをさらに含む。

被験体由来の無細胞体液のＤＮＡ分子から配列決定リードを得るステップ
被験体の無細胞体液のＤＮＡ分子から配列決定リードを得るステップは、無細胞体液を得るステップを含むことができる。例示的な無細胞体液は、血清、血漿、血液、唾液、尿、滑液、全血、リンパ液、腹水、間質液もしくは細胞外液、歯肉溝滲出液（ｇｉｎｇｉｖａｌｃｒｅｖｉｃｕｌａｒｆｌｕｉｄ）、骨髄、脳脊髄液、唾液、粘液、痰、精液、汗、尿を含む細胞間の空間における流体、または他のいずれかの体液であるまたはこれに由来し得る。無細胞体液は、血漿、尿または脳脊髄液からなる群より選択され得る。無細胞体液は、血漿であり得る。無細胞体液は、尿であり得る。無細胞体液は、脳脊髄液であり得る。

ＤＮＡ分子を含む核酸分子は、無細胞体液から抽出することができる。ＤＮＡ分子は、ゲノムＤＮＡであり得る。ＤＮＡ分子は、被験体の健康組織の細胞に由来し得る。ＤＮＡ分子は、体細胞突然変異を起こした非がん性細胞に由来し得る。ＤＮＡ分子は、母体試料における胎児に由来し得る。当業者は、ＤＮＡ分子が母体試料における胎児に由来する実施形態では、被験体は、試料が母体であっても胎児を指すことができることを理解するであろう。ＤＮＡ分子は、被験体の前がん性細胞に由来し得る。ＤＮＡ分子は、被験体のがん性細胞に由来し得る。ＤＮＡ分子は、被験体の原発性腫瘍内の細胞に由来し得る。ＤＮＡ分子は、被験体の続発性腫瘍に由来し得る。ＤＮＡ分子は、循環ＤＮＡであり得る。循環ＤＮＡは、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むことができる。ＤＮＡ分子は、二本鎖または一本鎖であり得る。あるいは、ＤＮＡ分子は、二本鎖部分および一本鎖部分の組合せを含むことができる。ＤＮＡ分子は、無細胞である必要はない。一部の事例では、ＤＮＡ分子は、試料から単離することができる。例えば、ＤＮＡ分子は、体液、例えば、血清または血漿から単離された無細胞ＤＮＡであり得る。

試料は、様々な量のゲノム当量の核酸分子を含むことができる。例えば、約３０ｎｇＤＮＡの試料は、約１０，０００一倍体ヒトゲノム当量を含有することができ、ｃｆＤＮＡの場合、約２千億個の個々のポリヌクレオチド分子を含有することができる。同様に、約１００ｎｇのＤＮＡの試料は、約３０，０００一倍体ヒトゲノム当量を含有することができ、ｃｆＤＮＡの場合、約６千億個の個々の分子を含有することができる。

無細胞ＤＮＡ分子は、本技術分野で公知の種々の技法を使用して、体液から単離および抽出することができる。一部の事例では、無細胞核酸は、ＱｉａｇｅｎＱｉａｍｐ（登録商標）循環核酸キットプロトコール等、市販のキットを使用して、単離、抽出および調製することができる。他の例では、ＱｉａｇｅｎＱｕｂｉｔ（商標）ｄｓＤＮＡＨＳアッセイキットプロトコール、Ａｇｉｌｅｎｔ（商標）ＤＮＡ１０００キットまたはＴｒｕＳｅｑ（商標）配列決定ライブラリー調製物；ロースループット（ＬＴ）プロトコールを使用して、核酸を定量化することができる。無細胞核酸は、起源が胎児であり得る（妊娠中の被験体から採取された流体を介して）、または被験体自身の組織に由来することができる。無細胞核酸は、新生物（例えば、腫瘍または腺腫）に由来することができる。

一般に、無細胞核酸は、溶液中に存在する無細胞核酸が、細胞および体液の他の不溶性構成成分から分離される、分配ステップにより体液から抽出および単離される。分配として、遠心分離または濾過等の技法を挙げることができるがこれらに限定されない。他の事例では、細胞は、先ず無細胞核酸から分配されるのではなく、溶解される。一例では、インタクト細胞のゲノムＤＮＡは、選択的沈殿により分配される。ＤＮＡを含む無細胞核酸は、可溶性のまま残ることができ、不溶性ゲノムＤＮＡから分離し、抽出することができる。一般に、異なるキットに特異的なバッファーの添加および他の洗浄ステップ後に、イソプロパノール沈殿を使用して核酸を沈殿することができる。シリカベースのカラム等、さらに別の浄化ステップを使用して、夾雑物または塩を除去することができる。一般ステップは、特異的な適用のために最適化することができる。例えば、収量等、手順のある特定の態様を最適化するための反応を通して、非特異的バルク担体核酸を添加することができる。

無細胞ＤＮＡ分子は、多くても５００ヌクレオチドの長さ、多くても４００ヌクレオチドの長さ、多くても３００ヌクレオチドの長さ、多くても２５０ヌクレオチドの長さ、多くても２２５ヌクレオチドの長さ、多くても２００ヌクレオチドの長さ、多くても１９０ヌクレオチドの長さ、多くても１８０ヌクレオチドの長さ、多くても１７０ヌクレオチドの長さ、多くても１６０ヌクレオチドの長さ、多くても１５０ヌクレオチドの長さ、多くても１４０ヌクレオチドの長さ、多くても１３０ヌクレオチドの長さ、多くても１２０ヌクレオチドの長さ、多くても１１０ヌクレオチドの長さまたは多くても１００ヌクレオチドの長さであり得る。

無細胞ＤＮＡ分子は、少なくとも５００ヌクレオチドの長さ、少なくとも４００ヌクレオチドの長さ、少なくとも３００ヌクレオチドの長さ、少なくとも２５０ヌクレオチドの長さ、少なくとも２２５ヌクレオチドの長さ、少なくとも２００ヌクレオチドの長さ、少なくとも１９０ヌクレオチドの長さ、少なくとも１８０ヌクレオチドの長さ、少なくとも１７０ヌクレオチドの長さ、少なくとも１６０ヌクレオチドの長さ、少なくとも１５０ヌクレオチドの長さ、少なくとも１４０ヌクレオチドの長さ、少なくとも１３０ヌクレオチドの長さ、少なくとも１２０ヌクレオチドの長さ、少なくとも１１０ヌクレオチドの長さまたは少なくとも１００ヌクレオチドの長さであり得る。特に、無細胞核酸は、１４０～１８０の間のヌクレオチドの長さであり得る。

無細胞ＤＮＡは、様々な量の健康組織および腫瘍由来のＤＮＡ分子を含むことができる。腫瘍由来無細胞ＤＮＡは、試料における無細胞ＤＮＡの総量の少なくとも０．１％、試料における無細胞ＤＮＡの総量の少なくとも０．２％、試料における無細胞ＤＮＡの総量の少なくとも０．５％、試料における無細胞ＤＮＡの総量の少なくとも０．７％、試料における無細胞ＤＮＡの総量の少なくとも１％、試料における無細胞ＤＮＡの総量の少なくとも２％、試料における無細胞ＤＮＡの総量の少なくとも３％、試料における無細胞ＤＮＡの総量の少なくとも４％、試料における無細胞ＤＮＡの総量の少なくとも５％、試料における無細胞ＤＮＡの総量の少なくとも１０％、試料における無細胞ＤＮＡの総量の少なくとも１５％、試料における無細胞ＤＮＡの総量の少なくとも２０％、試料における無細胞ＤＮＡの総量の少なくとも２５％もしくは試料における無細胞ＤＮＡの総量の少なくとも３０％、またはそれよりも多くなり得る。

一部の事例では、ＤＮＡ分子は、抽出プロセスの際に剪断されてよく、１００～４００の間のヌクレオチドの長さの断片を含む。一部の事例では、核酸は、抽出後に剪断されてよく、１００～４００の間のヌクレオチドの長さのヌクレオチドを含むことができる。一部の事例では、ＤＮＡ分子は既に１００～４００の間のヌクレオチドの長さであり、追加的な剪断は意図的に実施されない。

被験体は、動物であり得る。被験体は、イヌ、ウマ、ネコ、マウス、ラットまたはヒト等、哺乳動物であり得る。被験体は、ヒトであり得る。被験体は、がんを有すると疑われ得る。被験体は、がん診断を以前に受けていてよい。被験体のがん状態は、不明であり得る。被験体は、雄または雌であり得る。被験体は、少なくとも２０歳、少なくとも３０歳、少なくとも４０歳、少なくとも５０歳、少なくとも６０歳または少なくとも７０歳であり得る。

配列決定は、本技術分野で公知のいずれかの方法によって為すことができる。例えば、配列決定技法は、古典的技法（例えば、標識されたターミネーターまたはプライマーおよびスラブまたはキャピラリーにおけるゲル分離を使用した、ジデオキシ配列決定反応（サンガーの方法））および次世代技法を含む。例示的な技法は、可逆的に終結された標識されたヌクレオチドを使用した合成による配列決定、パイロシークエンシング、４５４配列決定、Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘａ配列決定、標識されたオリゴヌクレオチドプローブのライブラリーへのアレル特異的ハイブリダイゼーション、標識されたクローンのライブラリーへのアレル特異的ハイブリダイゼーションに続くライゲーションを使用した合成による配列決定、重合ステップにおける標識されたヌクレオチドの取り込みのリアルタイムモニタリング、ポロニー配列決定、ＳＯＬｉＤ配列決定標的化配列決定、単一分子リアルタイム配列決定、エクソン配列決定、電子顕微鏡に基づく配列決定、パネル配列決定、トランジスタ媒介性配列決定、直接的配列決定、ランダムショットガン配列決定、全ゲノム配列決定、ハイブリダイゼーションによる配列決定、キャピラリー電気泳動、ゲル電気泳動、二重鎖配列決定、サイクル配列決定、単一塩基伸長配列決定、固相配列決定、ハイスループット配列決定、超並列シグネチャー配列決定、エマルションＰＣＲ、低変性温度－ＰＣＲ（ＣＯＬＤ－ＰＣＲ）における同時増幅、マルチプレックスＰＣＲ、可逆的ダイターミネーターによる配列決定、ペアードエンド配列決定、ニアターム（ｎｅａｒ－ｔｅｒｍ）配列決定、エキソヌクレアーゼ配列決定、ライゲーションによる配列決定、ショートリード（ｓｈｏｒｔ－ｒｅａｄ）配列決定、単一分子配列決定、リアルタイム配列決定、リバースターミネーター配列決定、ナノポア配列決定、ＭＳ－ＰＥＴ配列決定およびこれらの組合せを含む。一部の実施形態では、配列決定方法は、超並列配列決定である、すなわち、少なくとも１００、１０００、１０，０００、１００，０００、百万、１千万、１億または十億個のポリヌクレオチド分子のいずれかを同時に（または素早く連続して）配列決定する。一部の実施形態では、配列決定は、例えば、ＩｌｌｕｍｉｎａまたはＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓから市販されている遺伝子分析器等、遺伝子分析器によって遂行することができる。分離された分子の配列決定は、ポリメラーゼまたはリガーゼを使用した逐次または単一の伸長反応や、プローブのライブラリーとの単一または逐次の差次的ハイブリダイゼーションによって、つい最近になって実証された。配列決定は、ＤＮＡシーケンサー（例えば、配列決定反応を遂行するように設計された機械）によって遂行することができる。一部の実施形態では、ＤＮＡシーケンサーは、例えば、ＤＮＡ配列データを含有するデータベースを含むことができる、またはこれに接続されてよい。

使用することができる配列決定技法は、例えば、合成による配列決定システムの使用を含む。第１のステップにおいて、ＤＮＡは、ほぼ３００～８００塩基対の断片へと剪断され、断片は、平滑末端にされる。次に、オリゴヌクレオチドアダプターが、断片の末端にライゲーションされる。アダプターは、断片の増幅および配列決定のためのプライマーとして機能する。断片は、例えば、５’－ビオチンタグを含有するアダプターＢを使用して、ＤＮＡ捕捉ビーズ、例えば、ストレプトアビジンコーティングされたビーズに取り付けることができる。ビーズに取り付けられた断片は、油－水エマルションの液滴内でＰＣＲ増幅される。その結果は、各ビーズにおける、複数コピーのクローン的に増幅されたＤＮＡ断片である。第２のステップにおいて、ビーズは、ウェル（ピコリットルサイズの）内に捕捉される。パイロシークエンシングは、各ＤＮＡ断片において並行して遂行される。１個または複数のヌクレオチドの付加は、光シグナルを生成し、これは、配列決定機器におけるＣＣＤカメラによって記録される。シグナル強度は、取り込まれたヌクレオチドの数に比例する。パイロシークエンシングは、ヌクレオチド付加により放出されるピロホスフェート（ＰＰｉ）を活用する。ＰＰｉは、アデノシン５’ホスホスルフェートの存在下において、ＡＴＰスルフリラーゼによってＡＴＰに変換される。ルシフェラーゼは、ルシフェリンからオキシルシフェリンへの変換にＡＴＰを使用し、この反応は光を生成し、この光が検出および分析される。

使用することができるＤＮＡ配列決定技法の別の例は、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓＣｏｒｐｏｒａｔｉｏｎ（Ｃａｒｌｓｂａｄ、Ｃａｌｉｆ．）のＡｐｐｌｉｅｄ
ＢｉｏｓｙｓｔｅｍｓによるＳＯＬｉＤ技術である。ＳＯＬｉＤ配列決定において、ゲノムＤＮＡは、断片へと剪断され、アダプターが、断片の５’および３’端に取り付けられて、断片ライブラリーを生成する。あるいは、断片の５’および３’端にアダプターをライゲーションし、断片を環状化し、環状化された断片を消化して、内部アダプターを生成し、得られた断片の５’および３’端にアダプターを取り付けることにより、内部アダプターを導入することができ、メイトペアのライブラリーを生成する。次に、ビーズ、プライマー、鋳型およびＰＣＲ構成成分を含有するマイクロリアクタにおいてクローンのビーズ集団が調製される。ＰＣＲ後に、鋳型が変性され、ビーズが濃縮されて、伸長した鋳型を有するビーズを分離する。選択されたビーズにおける鋳型は、スライドグラスへの結合を可能にする３’修飾に付される。特異的フルオロフォアによって同定される中心決定塩基（または塩基のペア）を有する部分的にランダムなオリゴヌクレオチドの逐次ハイブリダイゼーションおよびライゲーションによって、配列を決定することができる。色が記録された後に、ライゲーションされたオリゴヌクレオチドが除去され、次いでこのプロセスが反復される。

使用することができるＤＮＡ配列決定技法の別の例は、例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＳｏｕｔｈＳａｎＦｒａｎｃｉｓｃｏ、Ｃａｌｉｆ．）のＩｏｎＴｏｒｒｅｎｔによってＩＯＮＴＯＲＲＥＮＴの商標で売られているシステムを使用したイオン半導体配列決定である。イオン半導体配列決定は、例えば、これらそれぞれの内容がその全体が参照により本明細書に組み込まれる、Ｒｏｔｈｂｅｒｇら、Ａｎｉｎｔｅｇｒａｔｅｄｓｅｍｉｃｏｎｄｕｃｔｏｒｄｅｖｉｃｅｅｎａｂｌｉｎｇｎｏｎ－ｏｐｔｉｃａｌｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇ、Ｎａｔｕｒｅ４７５巻：３４８～３５２頁（２０１１年）；米国特許出願公開第２０１０／０３０４９８２号；米国特許出願公開第２０１０／０３０１３９８号；米国特許出願公開第２０１０／０３００８９５号；米国特許出願公開第２０１０／０３００５５９号；および米国特許出願公開第２００９／００２６０８２号に記載されている。

使用することができる配列決定技術の別の例は、Ｉｌｌｕｍｉｎａ配列決定である。Ｉｌｌｕｍｉｎａ配列決定は、フォールドバック（ｆｏｌｄ－ｂａｃｋ）ＰＣＲおよび係留プライマーを使用した、固体表面におけるＤＮＡの増幅に基づく。ゲノムＤＮＡが断片化され、断片の５’および３’端にアダプタが付加される。フローセルチャネルの表面に取り付けられたＤＮＡ断片は、伸長および架橋増幅される。断片は二本鎖になり、二本鎖分子は変性される。複数サイクルの固相増幅と続く変性は、フローセルの各チャネルにおける同じ鋳型の、数百万クラスターのほぼ１，０００コピーの一本鎖ＤＮＡ分子を作製することができる。プライマー、ＤＮＡポリメラーゼおよび４種のフルオロフォア標識された可逆的に終結するヌクレオチドが使用されて、逐次配列決定を遂行する。ヌクレオチド取り込み後に、レーザーが使用されてフルオロフォアを励起し、画像が捕捉され、第１の塩基の正体が記録される。３’ターミネーターおよび各取り込まれた塩基のフルオロフォアが除去され、取り込み、検出および同定ステップが反復される。本技術に従った配列決定は、これらそれぞれがその全体が参照により本明細書に組み込まれる、米国特許第７，９６０，１２０号；米国特許第７，８３５，８７１号；米国特許第７，２３２，６５６号；米国特許第７，５９８，０３５号；米国特許第６，９１１，３４５号；米国特許第６，８３３，２４６号；米国特許第６，８２８，１００号；米国特許第６，３０６，５９７号；米国特許第６，２１０，８９１号；米国特許出願公開第２０１１／０００９２７８号；米国特許出願公開第２００７／０１１４３６２号；米国特許出願公開第２００６／０２９２６１１号；および米国特許出願公開第２００６／００２４６８１号に記載されている。

使用することができる配列決定技術の別の例は、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ（ＭｅｎｌｏＰａｒｋ、Ｃａｌｉｆ．）の単一分子、リアルタイム（ＳＭＲＴ）技術を含む。ＳＭＲＴにおいて、４種のＤＮＡ塩基のそれぞれは、４種の異なる蛍光色素のうちの１種に取り付けられる。これらの色素は、リン酸連結されている。単一のＤＮＡポリメラーゼが、ゼロ・モード導波管（ＺＭＷ）の底における鋳型一本鎖ＤＮＡの単一分子により固定化される。伸びている鎖にヌクレオチドを取り込むには数ミリ秒を要する。この時間において、蛍光標識が励起され、蛍光シグナルを産生し、蛍光タグが切断除去される。色素の対応する蛍光の検出は、どの塩基が取り込まれたかを示す。このプロセスが反復される。

使用することができる配列決定技法の別の例は、ナノポア配列決定である（ＳｏｎｉおよびＭｅｌｌｅｒ、２００７年、Ｐｒｏｇｒｅｓｓｔｏｗａｒｄｕｌｔｒａｆａｓｔ
ＤＮＡｓｅｑｕｅｎｃｅｕｓｉｎｇｓｏｌｉｄ－ｓｔａｔｅｎａｎｏｐｏｒｅｓ、ＣｌｉｎＣｈｅｍ５３巻（１１号）：１９９６～２００１年）。ナノポアは、直径が１ナノメートルのオーダーの小孔である。伝導流体へのナノポアの浸漬およびこれを横切る電位の印加は、ナノポアを通したイオンの伝導による僅かな電流をもたらす。流れる電流の量は、ナノポアのサイズに対して感受性である。ＤＮＡ分子が、ナノポアを通過する際に、ＤＮＡ分子における各ヌクレオチドが、異なる程度までナノポアを閉塞する。よって、ＤＮＡ分子がナノポアを通過する際の、ナノポアを通過する電流の変化は、ＤＮＡ配列の読み取りを表す。

使用することができる配列決定技法の別の例は、ＤＮＡを配列決定するための化学的感受性電界効果トランジスタ（ｃｈｅｍＦＥＴ）アレイの使用が関与する（例えば、米国特許出願公開第２００９／００２６０８２号に記載の通り）。本技法の一例では、ＤＮＡ分子は、反応チャンバ内に置くことができ、鋳型分子は、ポリメラーゼに結合した配列決定プライマーにハイブリダイズさせることができる。配列決定プライマーの３’端における新たな核酸鎖への１個または複数のトリホスフェートの取り込みは、ｃｈｅｍＦＥＴによる電流の変化によって検出することができる。アレイは、複数のｃｈｅｍＦＥＴセンサを有することができる。別の例では、単一の核酸は、ビーズに取り付けることができ、核酸は、ビーズにおいて増幅することができ、個々のビーズは、ｃｈｅｍＦＥＴアレイにおける個々の反応チャンバに移すことができ、各チャンバは、ｃｈｅｍＦＥＴセンサを有し、核酸を配列決定することができる。

使用することができる配列決定技法の別の例は、例えば、Ｍｏｕｄｒｉａｎａｋｉｓ，
Ｅ．Ｎ．およびＢｅｅｒＭ．、Ｂａｓｅｓｅｑｕｅｎｃｅｄｅｔｅｒｍｉｎａｔｉｏｎｉｎｎｕｃｌｅｉｃａｃｉｄｓｗｉｔｈｔｈｅｅｌｅｃｔｒｏｎｍｉｃｒｏｓｃｏｐｅ，ＩＩＩ内、Ｃｈｅｍｉｓｔｒｙａｎｄｍｉｃｒｏｓｃｏｐｙｏｆｇｕａｎｉｎｅ－ｌａｂｅｌｅｄＤＮＡ、ＰＮＡＳ５３巻：５６４～７１頁（１９６５年）によって記載されている通り、電子顕微鏡の使用が関与する。本技法の一例では、個々のＤＮＡ分子は、電子顕微鏡を使用して区別可能な金属性標識を使用して標識される。次いで、これらの分子は、平坦な表面上に伸展され、電子顕微鏡を使用して撮像されて、配列を測定する。

配列決定に先立ち、アダプター配列は、核酸分子に取り付けることができ、核酸は、特定の目的の配列を濃縮させることができる。配列濃縮は、アダプター配列の取り付けの前または後に行うことができる。

核酸分子または濃縮された核酸分子は、本明細書に開示されているいずれかの配列決定プラットフォームにおける使用に適したいずれかの配列決定アダプターに取り付けることができる。例えば、配列アダプターは、フローセル配列、試料バーコードまたはその両方を含むことができる。別の例では、配列アダプターは、ヘアピン形のアダプター、Ｙ字形のアダプター、フォーク形のアダプターであり得る、および／または試料バーコードを含み得る。一部の事例では、アダプターは、配列決定プライマー領域を含まない。一部の事例では、アダプターが取り付けられたＤＮＡ分子は増幅され、増幅産物は、本明細書に記載されている特異的配列について濃縮される。一部の事例では、ＤＮＡ分子は、配列決定ライブラリーの調製後に特異的配列について濃縮される。アダプターは、バーコード配列を含むことができる。異なるバーコードは、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５個またはそれよりも多い（本明細書を通して記載されているまたはいずれかの長さ）核酸塩基、例えば、７塩基であり得る。バーコードは、ランダム配列、縮重配列、半縮重（ｓｅｍｉ－ｄｅｇｅｎｅｒａｔｅ）配列または規定の配列であり得る。一部の事例では、実質的に各核酸分子（例えば、その少なくとも７０％、少なくとも８０％、少なくとも９０％または少なくとも９９％）が異なるバーコード配列によりタグ付けされる、バーコードの十分な多様性が存在する。一部の事例では、特定の遺伝子座由来の実質的に各核酸分子（例えば、その少なくとも７０％、少なくとも８０％、少なくとも９０％または少なくとも９９％）が異なるバーコード配列によりタグ付けされる、バーコードの十分な多様性が存在する。

配列決定アダプターは、１種または複数の配列決定プライマーにハイブリダイズすることができる配列を含むことができる。配列決定アダプターは、固体支持体にハイブリダイズする配列、例えば、フローセル配列をさらに含むことができる。例えば、配列決定アダプターは、フローセルアダプターであり得る。配列決定アダプターは、ポリヌクレオチド断片の一端または両端に取り付けることができる。別の例では、配列決定アダプターは、ヘアピン形であり得る。例えば、ヘアピン形のアダプターは、相補的二本鎖部分およびループ部分を含むことができ、二本鎖部分は、二本鎖ポリヌクレオチドに取り付ける（例えば、ライゲーションする）ことができる。ヘアピン形の配列決定アダプターは、ポリヌクレオチド断片の両端に取り付けて、複数回配列決定され得る環状分子を生成することができる。

一部の事例では、ライブラリーアダプターのうち、試料同定モチーフ（または試料分子バーコード）を含有するものはない。かかる試料同定モチーフは、配列決定アダプターを介して提供することができる。試料同定モチーフは、他の試料由来のポリヌクレオチド分子から、所与の試料由来のポリヌクレオチド分子の同定を可能にする、少なくとも４、５、６、７、８、９、１０、２０、３０または４０ヌクレオチド塩基のシーケンサーを含むことができる。例えば、これは、２つの被験体由来のポリヌクレオチド分子が、同じプールにおいて配列決定され、被験体の配列リードがその後に同定されることを可能にすることができる。

シーケンサーモチーフは、配列決定システムへのライブラリーアダプターのカップリングおよびライブラリーアダプターにカップリングされた標的ポリヌクレオチドの配列決定に必要とされるヌクレオチド配列（複数可）を含む。シーケンサーモチーフは、フローセル配列に相補的な配列と、配列決定における使用のためのプライマー（またはプライミング配列）に選択的にハイブリダイズされ得る配列（配列決定開始配列）とを含むことができる。例えば、かかる配列決定開始配列は、合成による配列決定（例えば、Ｉｌｌｕｍｉｎａ）における使用に用いられるプライマーに相補的であり得る。かかるプライマーは、配列決定アダプターに含まれてよい。配列決定開始配列は、プライマーハイブリダイゼーション部位であり得る。

一部の事例では、ライブラリーアダプターのうち、完全シーケンサーモチーフを含有するものはない。ライブラリーアダプターは、部分的シーケンサーモチーフを含有することができるまたはシーケンサーモチーフを含有しない。一部の事例では、ライブラリーアダプターは、配列決定開始配列を含む。ライブラリーアダプターは、配列決定開始配列を含むことができるが、フローセル配列は含まない。配列開始配列は、配列決定のためのプライマーに相補的であり得る。プライマーは、配列特異的プライマーまたはユニバーサルプライマーであり得る。かかる配列決定開始配列は、ライブラリーアダプターの一本鎖部分に位置することができる。代案として、かかる配列決定開始配列は、ポリメラーゼが、配列決定の際にライブラリーアダプターにカップリングすることを可能にする、プライミング部位（例えば、キンク（ｋｉｎｋ）またはニック）であり得る。

アダプターは、ライゲーションによってＤＮＡ分子に取り付けることができる。一部の事例では、アダプターは、各アダプターが、ＤＮＡ分子の相補鎖を異なる形でタグ付けするように、二重鎖ＤＮＡ分子にライゲーションすることができる。一部の事例では、アダプター配列は、ＰＣＲによって取り付けることができ、一本鎖ＤＮＡの第１の部分は、標的配列に相補的であり、第２の部分は、アダプター配列を含む。

特定の目的の配列の濃縮は、配列捕捉方法によって遂行することができる。配列捕捉は、目的の標的にハイブリダイズする、固定化されたプローブを使用して遂行することができる。配列捕捉は、特異的配列にハイブリダイズされたプローブが、プルダウンによって試料から濃縮されることを可能にする、官能基、例えば、ビオチンに取り付けられたプローブを使用して遂行することができる。一部の事例では、官能化されたプローブへのハイブリダイゼーションに先立ち、非特異的またはオフターゲット結合を低下させるために、相補的な、官能化されていないポリヌクレオチド配列を断片にアニールすることにより、ライブラリー断片由来のアダプター配列等、特異的配列をマスクすることができる。配列プローブは、特異的遺伝子を標的とすることができる。配列捕捉プローブは、特異的遺伝子座または遺伝子を標的とすることができる。かかる遺伝子は、癌遺伝子であり得る。捕捉プローブによって標的化される例示的な遺伝子は、図１に示す遺伝子を含む。点突然変異（ＳＮＶ）を有する例示的な遺伝子として、ＡＫＴ１、ＡＴＭ、ＣＣＮＥ１、ＣＴＮＮＢ１、ＦＧＦＲ１、ＧＮＡＳ、ＪＡＫ３、ＭＬＨ１、ＮＰＭ１、ＰＴＰＮ１１、ＲＩＴ１、ＴＥＲＴ、ＡＬＫ、ＢＲＡＦ、ＣＤＨ１、ＥＧＦＲ、ＦＧＦＲ２、ＨＮＦ１Ａ、ＫＩＴ
ＭＰＬ、ＮＲＡＳ、ＲＡＦ１、ＲＯＳ１、ＴＰ５３、ＡＰＣ、ＢＲＣＡ１、ＣＤＫ４、ＥＲＢＢ２、ＦＧＦＲ３、ＨＲＡＳ、ＫＲＡＳ、ＭＹＣ、ＮＴＲＫ１、ＲＢ１、ＳＭＡＤ４、ＴＳＣ１、ＡＲ、ＢＲＣＡ２、ＣＤＫ６、ＥＳＲ１、ＧＡＴＡ３、ＩＤＨ２、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＰＩＫ３ＣＡ、ＲＨＥＢ、ＳＲＣ、ＡＲＩＤ１Ａ、ＣＣＮＤ２、ＣＤＫＮ２Ｂ、ＦＢＸＷ７、ＧＮＡＱ、ＪＡＫ２、ＭＥＴ、ＮＯＴＣＨ１、ＰＴＥＮ、ＲＨＯＡおよびＳＴＫ１１が挙げられるがこれらに限定されない。コピー数変異を有する例示的な遺伝子として、ＡＲ、ＣＣＮＥ１、ＣＤＫ６、ＥＲＢＢ２、ＦＧＦＲ２、ＫＲＡＳ、ＭＹＣ、ＰＩＫ３ＣＡ、ＢＲＡＦ、ＣＤＫ４、ＥＧＦＲ、ＦＧＦＲ１、ＫＩＴ、ＭＥＴ、ＰＤＧＦＲＡおよびＲＡＦ１が挙げられるがこれらに限定されない。遺伝子融合を有する例示的な遺伝子として、ＡＬＫ、ＦＧＦＲ２、ＦＧＦＲ３、ＮＴＲＫ１、ＲＥＴおよびＲＯＳ１が挙げられるがこれらに限定されない。インデルを有する例示的な遺伝子として、ＥＧＦＲ（例えば、エクソン１９および２０における）、ＥＲＢＢ２（例えば、エクソン１９および２０における）およびＭＥＴ（例えば、エクソン１４のスキッピング）が挙げられるがこれらに限定されない。例示的な標的は、ＣＣＮＤ１およびＣＣＮＤ２を含むことができる。配列捕捉プローブは、遺伝子にわたり敷き詰める（ｔｉｌｅ）ことができる（例えば、プローブは、重複領域を標的とすることができる）。配列プローブは、非重複領域を標的とすることができる。配列プローブは、長さ、融解温度および二次構造に関して最適化され得る。

グアニン－シトシン（ＧＣ）含量の定量的尺度
グアニン－シトシン含量は、グアニンまたはシトシンのいずれかである、ＤＮＡ分子の窒素含有塩基のパーセンテージである。遺伝子座のＧＣ含量に関連する定量的尺度は、遺伝子座全体のＧＣ含量であり得る。遺伝子座のＧＣ含量に関連する定量的尺度は、遺伝子のエクソン領域のＧＣ含量であり得る。遺伝子座のＧＣ含量に関連する定量的尺度は、遺伝子座にマッピングするリードによって被覆される領域のＧＣ含量であり得る。ＧＣ含量に関連する定量的尺度は、遺伝子座に対応する配列捕捉プローブのＧＣ含量であり得る。遺伝子座のＧＣ含量に関連する定量的尺度は、遺伝子座に対応する配列捕捉プローブのＧＣ含量の中心傾向に関連する尺度であり得る。中心傾向に関連する尺度は、平均、中央値またはモード等、中心傾向のいずれかの尺度であり得る。中心傾向に関連する尺度は、中央値であり得る。所与の領域のＧＣ含量は、該領域にわたるグアノシンおよびシトシン塩基の数を塩基の総数で割ることにより測定することができる。

配列決定リードカバレッジの定量的尺度
配列決定リードカバレッジに関連する定量的尺度は、遺伝子座に対応するＤＮＡ分子に由来するリードの数を示す尺度である（例えば、参照ゲノム由来の特定の位置、塩基、領域、遺伝子または染色体）。リードを遺伝子座に関連付けるために、リードは、参照にマッピングまたは整列することができる。マッピングまたは整列を遂行するためのソフトウェア（例えば、Ｂｏｗｔｉｅ、ＢＷＡ、ｍｒｓＦＡＳＴ、ＢＬＡＳＴ、ＢＬＡＴ）は、配列決定リードを遺伝子座と関連付けることができる。マッピングプロセスにおいて、特定のパラメータを最適化することができる。マッピングプロセスの最適化の非限定例は、反復領域のマスク；マッピング品質（例えば、ＭＡＰＱ）スコアカットオフの利用；アラインメントを生成するための異なるシード長の使用；およびゲノムの位置間の編集距離の限定を含むことができる。

配列決定リードカバレッジに関連した定量的尺度は、遺伝子座に関連したリードの計数を含むことができる。一部の事例では、計数は、新たな測定基準へと変換されて、異なる配列決定深度、ライブラリー複雑性または遺伝子座のサイズの効果を軽減する。例示的な測定基準は、百万単位当たりのキロベース当たりのリード（ＲｅａｄＰｅｒＫｉｌｏｂａｓｅｐｅｒＭｉｌｌｉｏｎ）、百万単位当たりのキロベース当たりの断片（ＦｒａｇｍｅｎｔｓＰｅｒＫｉｌｏｂａｓｅｐｅｒＭｉｌｌｉｏｎ）（ＦＰＫＭ）、Ｍ値のトリム平均（ＴＭＭ）（ＴｒｉｍｍｅｄＭｅａｎｏｆＭｖａｌｕｅｓ）、変動安定化された生の計数（ｖａｒｉａｎｃｅｓｔａｂｉｌｉｚｅｄｒａｗｃｏｕｎｔｓ）、および対数変換された生の計数である。特定の適用に使用することができる他の変換も、当業者にとって公知である。

定量的尺度は、折り畳まれたリードを使用して決定することができ、各折り畳まれたリードは、初期鋳型ＤＮＡ分子に対応する。リードファミリーを折り畳むおよび定量化するための方法は、これらそれぞれがその全体が参照により本明細書に組み込まれる、ＰＣＴ／ＵＳ２０１３／０５８０６１およびＰＣＴ／ＵＳ２０１４／００００４８に見出される。特に、バーコードおよび配列決定リードからの配列情報を使用する折り畳み方法を用いて、各ファミリーが、バーコード配列、および配列決定リード配列の少なくとも一部分を共有するように、リードをファミリーへと折り畳むことができる。次いで、各ファミリーは、ファミリーの大部分に関して、単一の初期鋳型ＤＮＡ分子から導出される。ファミリー由来の配列のマッピングに由来する計数は、「特有の分子計数」（ＵＭＣ）と称することができる。一部の事例では、配列決定リードカバレッジに関連する定量的尺度を決定するステップは、ライブラリーサイズに関連する測定基準によってＵＭＣを正規化して、正規化されたＵＭＣ（「正規化されたＵＭＣ」）を提供するステップを含む。例示的な方法は、遺伝子座のＵＭＣを全ＵＭＣの和で割ること；遺伝子座のＵＭＣを全常染色体ＵＭＣの和で割ることである。複数の配列決定リードのデータセットを比較する場合、ＵＭＣは、例えば、２個の配列決定リードのデータセットの遺伝子座の中央値ＵＭＣによって正規化することができる。一部の事例では、配列決定リードカバレッジに関連する定量的尺度は、次の通りにさらに正規化される正規化されたＵＭＣであり得る：（ｉ）正規化されたＵＭＣは、トレーニング試料に由来する配列決定リード由来の対応する遺伝子座について決定される；（ｉｉ）遺伝子座毎に、試料の正規化されたＵＭＣは、対応する座位におけるトレーニング試料の正規化されたＵＭＣの中央値によって正規化され、これにより、遺伝子座の相対的存在量（ＲＡ）を提供する。

コンセンサス配列は、例えば、最初の５、１０、１５、２０または２５塩基内の同一配列に基づき配列決定リードを折り畳むことにより、その配列に基づき同定することができる。一部の事例では、折り畳みは、それ以外は同一であるリードにおける１個の差、２個の差、３個の差、４個の差または５個の差を可能にする。一部の事例では、折り畳みは、リードのマッピング位置、例えば、配列決定リードの初期塩基のマッピング位置を使用する。一部の事例では、折り畳みは、バーコードを使用し、バーコード配列を共有する配列決定リードは、コンセンサス配列へと折り畳まれる。一部の事例では、折り畳みは、バーコードおよび初期鋳型分子の配列の両方を使用する。例えば、バーコードを共有し、参照ゲノムにおける同じ位置にマッピングする全リードを折り畳むことができる。別の例では、バーコードおよび初期鋳型分子の配列（または初期鋳型分子の配列に対するパーセンテージ同一性）を共有する全リードを折り畳むことができる。

一部の事例では、配列決定リードカバレッジの定量的尺度は、ゲノムの特異的な部分領域について決定される。領域は、ビン、目的の遺伝子、エクソン、配列プローブに対応する領域、プライマー増幅産物に対応する領域、またはプライマー結合部位に対応する領域であり得る。一部の事例では、ゲノムの部分領域は、配列捕捉プローブに対応する領域である。リードの少なくとも一部分が、配列捕捉プローブに対応する領域の少なくとも一部分をマッピングする場合、リードは、配列捕捉プローブに対応する領域にマッピングすることができる。リードの少なくとも一部分が、配列捕捉プローブに対応する領域の大部分にマッピングする場合、リードは、配列捕捉プローブに対応する領域にマッピングすることができる。リードの少なくとも一部分が、配列捕捉プローブに対応する領域の中心点にわたってマッピングする場合、リードは、配列捕捉プローブに対応する領域にマッピングすることができる。一部の事例では、遺伝子座の配列決定リードカバレッジに関連する定量的尺度は、遺伝子座内のゲノム位置に対応するプローブのＲＡの中央値である。例えば、ＫＲＡＳが、２、３および５のＲＡを有する３種のプローブによって被覆される場合、遺伝子座のＲＡは、３となるであろう。

「飽和平衡」補正
一般に、本明細書に記載されている方法を使用して、核酸試料におけるバリアントコール（ｖａｒｉａｎｔｃａｌｌｉｎｇ）（例えば、コピー数バリアントの検出）の特異性および感度を増加させることができる。例えば、本方法は、データ試料におけるノイズまたは歪みの量を減少させ、検出される偽陽性バリアントの数を低下させることができる。ノイズおよび／または歪みが減少するにつれて、特異性および感度が増加する。ノイズは、シグナルへの望まれないランダムな付加であると考えることができる。歪みは、シグナルまたはシグナルの一部の大きさの変更であると考えることができる。

ノイズは、ポリヌクレオチドのコピーおよび／または読み取りにおけるエラーにより導入され得る。例えば、配列決定プロセスにおいて、単一のポリヌクレオチドを先ず、増幅に付すことができる。増幅されたポリヌクレオチドのサブセットが、特定の座位に、該座位における本来の塩基と同じではない塩基を含有し得るように、増幅は、エラーを導入し得る。さらに、読み取りプロセスにおいて、いずれか特定の座位における塩基は、不正確に読み取られることがある。結果として、配列リードの収集物は、本来の塩基と同じではない、ある一定のパーセンテージの塩基コールを座位に含むことができる。典型的な配列決定技術において、このエラー率は、１桁、例えば、２％～３％となり得る。全て同じ配列を有すると推定される分子の収集物が配列決定される場合、このノイズは、十分に小さいため、本来の塩基を高い信頼度で同定することができる。

しかし、親ポリヌクレオチドの収集物が、特定の座位に配列バリアントを有するポリヌクレオチドのサブセットを含む場合、ノイズは、著しい問題となり得る。例えば、無細胞ＤＮＡが、生殖系列ＤＮＡのみならず、胎児ＤＮＡまたはがん細胞由来のＤＮＡ等、別の供給源由来のＤＮＡも含む場合、これが現実のものとなり得る。この場合、配列バリアントを有する分子の頻度が、配列決定プロセスによって導入されるエラーの頻度と同じ範囲内である場合、真の配列バリアントは、ノイズから区別不能である場合がある。このことは、例えば、試料における配列バリアントの検出に干渉し得る。

歪みは、配列決定プロセスにおいて、シグナル強度の差として、例えば、同じ頻度における親集団における分子によって産生される配列リードの総数として、顕在化され得る。歪みは、例えば、増幅バイアス、ＧＣバイアスまたは配列決定バイアスにより導入され得る。これは、試料におけるコピー数変異の検出に干渉し得る。ＧＣバイアスは、配列読み取りにおいてＧＣ含量が豊富なまたは乏しい区域の不均等な表示をもたらす。

本明細書に開示されている方法は、データセットから、配列決定リードカバレッジに関連する定量的尺度または配列決定リードカバレッジに関連する変換された定量的尺度が、予測モデルとは最も異なる遺伝子座を除去し（本明細書において、高変動遺伝子座の除去と称することができる）、これにより、残っている遺伝子座の第１のセットを提供することにより、ベースラインの決定における使用のための遺伝子座の初期セットを決定するステップを含む。一部の実例では、これらの遺伝子座の除去は、配列決定リードカバレッジに関連する定量的尺度を、遺伝子座のＧＣ含量に関連する定量的尺度に関連付けるモデルの適合を含む。例えば、予測モデルは、遺伝子座のＲＡを、座位のＧＣ含量に関連付けることができる。一部の事例では、予測モデルは、ＬＯＥＳＳおよびＬＯＷＥＳＳ回帰モデル等、ノンパラメトリック回帰モデルを含む回帰モデルである。一部の事例では、ベースライン化は、予測モデルから最も逸脱する遺伝子座の５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％または７０％を除去することにより遂行される。一部の事例では、ベースライン化は、予測モデルから最も逸脱する遺伝子座の少なくとも５％、少なくとも１０％、少なくとも１５％、少なくとも２０％、少なくとも２５％、少なくとも３０％、少なくとも３５％、少なくとも４０％、少なくとも４５％、少なくとも５０％、少なくとも５５％、少なくとも６０％、少なくとも６５％または少なくとも７０％を除去することにより遂行される。一部の事例では、逸脱は、モデルと比べた遺伝子座の残部を測定することにより決定される。正確なカットオフを選択して、残っている遺伝子座からの特異的な量の変動の除外を提供することができる。

遺伝子座に由来する試料由来のＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度を決定するための方法は、その全体が参照により本明細書に組み込まれる、ＰＣＴ／ＵＳ２０１４／０７２３８３に開示されている。定量的尺度の決定は、試料に存在した座位に由来する初期鋳型ＤＮＡ分子の数の推定を含むことができる。二本鎖ポリヌクレオチドが配列リードを生成しない確率は、初期鋳型ＤＮＡ分子の両方の鎖を表すリードおよび初期鋳型ＤＮＡ分子の一本鎖のみを表すリードの相対数に基づき決定することができる。

試料における検出されない初期鋳型ＤＮＡ分子の数は、初期鋳型ＤＮＡ分子の両方の鎖を表すリードおよび初期鋳型ＤＮＡ分子の一本鎖のみを表すリードの相対数に基づき推定することができる。例として、特定の遺伝子座、座位Ａの計数が記録され、そこでは、１０００分子が対になり（例えば、両方の鎖が検出される）、１０００分子が対にならない（例えば、一本鎖のみが検出される）。用語「対になった」および「対にならない」が、本明細書において、分子の両端が配列決定されたかまたは分子の単一端が配列決定されたかを示すように配列決定リードに適用されることがある用語とは異なることに留意されたい。個々のワトソン・クリック鎖が、変換に引き続くプロセスを成し遂げる一様な確率ｐを仮定すると、次の通りに、プロセスを成し遂げることができない（見出されない）分子の比率を計算することができる：Ｒ、対になった分子の対にならない分子に対する比＝１０００／１０００＝１、したがって、Ｒ＝１＝ｐ^２／（２ｐ（１－ｐ））。これは、ｐ＝２／３であり、失われた分子の量が、（１－ｐ）^２＝１／９に等しいことを暗示する。よって、この例において、変換された分子のほぼ１１％が失われており、検出されない。二項分布の使用に加えて、見出されない分子の数を推定する他の方法は、観察される配列リードの冗長性に基づく、指数関数、ベータ、ガンマまたは経験的分布を含む。後者の場合、対になったおよび対にならない分子のリード計数の分布は、かかる冗長性に由来して、特定の座位における本来のポリヌクレオチド分子の根底にある分布を推論することができる。これは多くの場合、見出されない分子の数のより優れた推定をもたらし得る。一部の事例では、ｐは、遺伝子座に由来する試料由来のＤＮＡの鎖が、配列決定リードにおいて表される確率に関連する定量的尺度である。一部の事例では、ｐは、同様に導き出されるが、リード分布の異なるモデルが使用される（例えば、二項、ポアソン、ベータ、ガンマおよび負の二項分布）。

配列決定リードカバレッジに関連する定量的尺度のための変換は、除去された高変動遺伝子座を有する遺伝子座のセット由来の定量的尺度または変換された配列決定リードカバレッジを、ＧＣ含量に関連する定量的尺度および遺伝子座に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度に関連付けることにより決定することができる。一部の事例では、残っている遺伝子座は、二倍体である、および／または同じコピー数で存在すると仮定される。一部の実例では、変換は、ＧＣ含量に関連する定量的尺度および遺伝子座に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度によって、残っている遺伝子座の配列決定リードカバレッジに関連する定量的尺度の中心傾向に関連する尺度を適合させることにより決定される。変換は、例えば、（ｉ）ＧＣ含量に関連する定量的尺度および遺伝子座に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度の両方によって、高変動遺伝子座の除去後に残っている遺伝子座の配列決定リードカバレッジの定量的尺度の中心傾向を適合させることができる。一部の実例では、残っている座位の配列決定リードカバレッジの定量的尺度の中心傾向に関連する尺度は、残っている遺伝子座のＵＭＣの中心傾向である。一部の実例では、表面近似が使用されて、（ｉ）ＧＣ含量に関連する定量的尺度および（ｉｉ）遺伝子座に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度によって、残っている遺伝子座のＵＭＣの表面または残っている遺伝子座のＵＭＣの中心傾向を適合させる。例えば、表面近似は、ＧＣ含量およびｐの定量的尺度による、初期鋳型ＤＮＡ分子に関連する尺度（例えば、ＵＭＣ）の二次元二次多項式表面適合であり得る。一部の事例では、配列決定カバレッジに関連する変換された定量的尺度は、（ｉ）ＧＣ含量に関連する定量的尺度および（ｉｉ）遺伝子座に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度から計算される、上で決定された変換に基づき予想される値である。一部の事例では、配列決定カバレッジに関連する変換された定量的尺度は、各遺伝子座の残部である（例えば、試料における表面近似および遺伝子座の配列決定リードカバレッジに関連する観察される定量的尺度に基づく、座位の配列決定リードカバレッジに関連する予想される定量的尺度の差または商）。任意選択で、配列決定カバレッジに関連する変換された定量的尺度が決定された後で、上に記載されている通り、配列決定リードカバレッジの新たな変換された定量的尺度に基づき、高変動遺伝子座を再度除去することができる。

「プローブ効率」補正
参照試料を使用して遺伝子座のバイアスを決定および除去する方法が、本明細書に開示されている。一部の事例では、参照試料は、がんを有しない被験体由来の無細胞ＤＮＡ由来の配列決定リードである。一部の事例では、参照試料は、目的の遺伝子座にコピー数変異を実質的に欠くがん細胞を有する被験体由来の無細胞ＤＮＡ由来の配列決定リードである。一部の事例では、参照試料は、がんを有する被験体由来の無細胞ＤＮＡ由来の配列決定リードであり、この場合、コピー数変異を起こしたと疑われる領域が、分析から除外されている。一部の事例では、参照試料は、がんを有しない被験体由来の血漿試料である。一部の事例では、参照試料は、がんを有する被験体由来の血漿試料である。

参照試料の遺伝子座のそれぞれは、上の「飽和平衡補正」に記載されている通りに処理して、配列決定リードカバレッジの変換された定量的尺度を提供することができる。一部の事例では、配列決定カバレッジに関連する変換された定量的尺度は、（ｉ）ＧＣ含量に関連する定量的尺度および（ｉｉ）参照遺伝子座由来の遺伝子座に由来するＤＮＡの鎖が、配列決定リード内に表される確率に関連する定量的尺度から計算される、上で決定された変換に基づき予想される値である。一部の事例では、配列決定カバレッジに関連する変換された定量的尺度は、各参照遺伝子座の残部である（例えば、参照試料における表面近似および遺伝子座の配列決定リードカバレッジに関連する観察される定量的尺度に基づく、座位の配列決定リードカバレッジに関連する予想される定量的尺度の差または商）。参照試料における遺伝子座の配列決定リードカバレッジに関連する変換された定量的尺度は、遺伝子座の「効率」であると考えることができる。例えば、非効率的に増幅された遺伝子座は、非常に効率的に増幅された遺伝子座（試料において同じコピー数で存在）よりも低いＵＭＣを有するであろう。

試料の配列決定リードカバレッジに関連する変換された定量的尺度は、参照試料（複数可）由来の遺伝子座の決定された効率に基づき補正することができる。この補正は、ライゲーション効率、プルダウン効率、ＰＣＲ効率、フローセルクラスタリング損失、逆多重化（ｄｅｍｕｌｔｉｐｌｅｘｉｎｇ）損失、折り畳み損失およびアラインメント損失に関係し得る、試料から配列決定リードを産生するプロセスによって、試料に導入された変動を低下させることができる。一実施形態では、補正は、試料の配列決定カバレッジの飽和後変換された定量的尺度を、配列決定カバレッジに関連する予測される飽和後変換された定量的尺度で割るまたは引くことを含む。一部の実例では、遺伝子座の配列決定カバレッジに関連する予測される飽和後変換された定量的尺度は、試料由来の遺伝子座の配列決定カバレッジに関連する飽和後変換された定量的尺度および参照の配列決定リードカバレッジに関連する飽和後変換された定量的尺度の間の関係性を適合させることにより決定される。一部の事例では、適合は、参照の配列決定リードカバレッジに関連する飽和後変換された定量的尺度における、試料由来の遺伝子座の配列決定カバレッジに関連する飽和後変換された定量的尺度の局所回帰（例えば、ＬＯＥＳＳまたはＬＯＷＥＳＳ）またはロバスト線形回帰の遂行を含む。一部の事例では、適合は、線形回帰、非線形回帰またはノンパラメトリック回帰であり得る。

任意選択で、プローブ効率補正由来の変換された定量的尺度は、低下された変動を有する配列決定リードカバレッジに関連する第３のさらに変換された定量的尺度を産生するための「飽和平衡補正」変換への入力となり得る。一般に、配列決定リードカバレッジの変換された定量的尺度内の変動をさらに低下させるために、配列決定カバレッジの変換された定量的尺度は、本明細書に開示されている方法のいずれかを追加的な回数使用して変換され得る。

遺伝子レベル概要
推論されるコピー数の遺伝子レベル概要は、本明細書に開示されている通りに決定される、配列決定リードカバレッジの変換された定量的尺度に基づき決定することができる。コピー数は、高変動遺伝子座を破棄することにより上述の操作において選択されたベースラインと比べて推論することができる。例えば、残っている遺伝子座が、試料において二倍体であると推論される場合、配列決定カバレッジに関連する変換された定量的尺度が、ベースラインとは異なる遺伝子座は、腫瘍細胞においてコピー数変更を起こしたと推論される。一部の実例では、遺伝子レベルｚ－スコアは、プローブシグナルの観察される遺伝子レベル中央値、ならびに遺伝子および全ゲノム正常二倍体プローブシグナル標準偏差における観察されるプローブレベル標準偏差推定値を使用して計算される推定標準偏差を使用して計算される。

マイナーアレル頻度ベースライン最適化
配列決定リードにおけるバリアントのマイナーアレル頻度を使用して、本明細書に記載されているコピー数の遺伝子レベル概要におけるエラーを検出し、エラーを補正する方法が、本明細書に提供される。無細胞体液由来の核酸由来の配列決定リードの１０％～９０％の間、２０％～８０％の間、３０％～７０％の間、４０％～６０％の間またはほぼ５０％で存在する配列バリアントは、被験体の生殖系列配列に存在するヘテロ接合性バリアントであり得る。一部の実例では、遺伝子座は、上に記載されている通り、増幅を起こしたと決定された。バリアントの量は、推論されるコピー数と比較されて、バリアント頻度が、推論されるコピー数と一致しないかどうかを決定する。一例では、ヘテロ接合性遺伝子座は、ベースラインコピー数の決定に使用された遺伝子座（例えば、高変動遺伝子座の除外後に残っている遺伝子座）において試験することができる。一部の事例では、試料における多数の遺伝子座が増幅されており、このベースラインは誤同定され得る。このような場合、ヘテロ接合性は、１：１比から逸脱することがあり、不正確なベースライン化が検出および補正される。第２の例では、遺伝子座は、配列決定リードカバレッジに関連する変換された定量的尺度に基づき三倍体コピー数で存在すると推論することができる。被験体の生殖系列ゲノムが、遺伝子座の第１のアレルを有する一方の染色体を有し、第２の染色体が、第２のアレルを有した場合、第１または第２のアレルは、がん細胞において重複した可能性がある。

ラングミュア様飽和モデル
理論に制約されないが、歴史的臨床データの探索および合成スパイクインモデルシステムが関与する標的化実験に基づき、ベイト－ｃｆＤＮＡ相互作用の支配機構であると仮定されるラングミュア様飽和モデルが、本明細書に開示されている。したがって、干渉するアッセイ効果（例えば、ライゲーション効率、ＰＣＲ増幅バイアス、配列決定アーティファクト等）の非存在下で、ベイトプルダウンプロセスは、次の通りに表すことができる。

この記載におけるＫは、ベイト配列特徴、および標的化ベイト位置のゲノム近傍におけるＤＮＡ断片とのその相互作用に依存するベイト効率である。Ｉ_ｓａｔは、総ベイトプール濃度および複製計数の関数である、プルダウン反応における限定された初期ベイト計数によって駆動される飽和パラメータである。複製計数は、本明細書において、存在する配列捕捉プローブの相対量または絶対量を指す。例えば、配列捕捉アレイは、アレイにおける異なるモル量のプローブを提供して、異なるプローブ効率を説明することができる。図８は、ベイト効率Ｋおよび飽和パラメータＩ_ｓａｔに基づく、真のコピー数および特有の分子計数に関連するモデルを例示する。

ベイト効率Ｋは、大部分は、ＧＣ含量によって駆動される一方、Ｉ_ｓａｔは、特有の分子計数対総リード計数の相互作用を研究することによって大雑把に調べられ得る、より複雑なベイト消耗機構およびＲＮＡ二次構造相互作用によって駆動される。非線形プルダウン反応とは別に、プローブシグナルは、次の仮定が関与する乗法モデルによってさらにモデル化することができる：ナイーブモデル（ｎａｉｖｅｍｏｄｅｌ）の下で、ｃｆＤＮＡ断片は、ゲノム位置によって均一に分布され、確率的標本抽出プロセスは、カバレッジ変異に寄与する優勢な因子である。次いで、コピー数シグナル（例えば、ＵＭＣ）は、観察されるＵＭＣを試料における真の分子計数に関連付けることによりモデル化することができ、根底にある位置的ｃｆＤＮＡプロファイル、ライゲーション効率、プルダウン効率、ＰＣＲ効率、フローセルクラスタリング損失、逆多重化損失、折り畳み損失およびアラインメント損失の効果を考慮に入れる。

非線形プルダウン反応とは別に、プローブシグナルは、次の仮定が関与する単純乗法モデルによってさらにモデル化することができる。ナイーブモデルの下で、ｃｆＤＮＡ断片は、ゲノム位置によって均一に分布され、確率的標本抽出プロセスは、カバレッジ変異に寄与する優勢な因子である。次いで、コピー数シグナル、すなわち、所与のプローブに関連するリード計数は、次の通りにモデル化することができる：

観察されるＵＭＣ＝真のＵＭＣ×根底にある位置的ｃｆＤＮＡプロファイル（ベイト、ｃｆＤＮＡ断片）×ライゲーション効率（位置、サイズ、ｃｆＤＮＡ断片）×プルダウン効率（プローブ、ｃｆＤＮＡ断片）×ＰＣＲ効率（ＤＮＡ断片）×フローセルクラスタリング損失×逆多重化損失および折り畳み損失×アラインメント損失（ｃｆＤＮＡ断片配列）。

このモデルは、上述のモデルの乗法性質を仮定する。根底にあるベイト特異的コピー数シグナルは、本明細書に開示されているベースライン決定方法等、一連のステップによる確立されたベースラインに関して、観察されるＵＭＣ（例えば、所与の配列捕捉プローブのＵＭＣ）から推論することができる。

本明細書に開示されている方法は、試料およびトレーニングセットからプローブ効率およびベイト飽和を推定するためのアプローチを提供する。代わりに、かかるパラメータは、ＵＭＣに対する、変動する標的配列濃度の効果がプローブ毎に観察される、１セットのベイトタイトレーション実験を遂行することにより推論することができる。Ｋ、Ｉ_ｓａｔおよびＵＭＣが既知の場合、コピー数変異を起こしていない腫瘍細胞に対応するＵＭＣ値または範囲を決定することが可能である。例えば、遺伝子座の大部分が、コピー数変更を起こしていないという仮定において、観察されるＵＭＣは、大部分は、二倍体試料に由来するであろう。コピー数変異を起こした試料は、ＵＭＣが、その対応するＫおよびＩ_ｓａｔ値を有するプローブの予想される範囲から外れる遺伝子座となるであろう。一部の事例では、例えば、ＵＭＣ値または範囲は、各プローブのＫおよびＩ_ｓａｔに依存した関数となるであろう。例えば、二倍体コピー数に対応するＵＭＣは、２種のプローブ間で異なる場合がある。

コンピュータ制御システム
本開示は、本開示の方法を実施するようにプログラムされたコンピュータ制御システムを提供する。図１２は、本開示の方法を実施するようにプログラムされたまたは他の仕方で構成されたコンピュータシステム１２０１を示す。コンピュータシステム１２０１は、シングルコアもしくはマルチコアプロセッサ、または並列処理のための複数のプロセッサとなり得る、中央処理装置（ＣＰＵ、本明細書において同様に「プロセッサ」および「コンピュータプロセッサ」）１２０５を含む。コンピュータシステム１２０１は、メモリまたはメモリ位置１２１０（例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ）、電子記憶装置１２１５（例えば、ハードディスク）、１個または複数の他のシステムと通信するための通信インターフェース１２２０（例えば、ネットワークアダプタ）、ならびにキャッシュ、他のメモリ、データ記憶および／または電子ディスプレイアダプタ等の周辺機器１２２５も含む。メモリ１２１０、記憶装置１２１５、インターフェース１２２０および周辺機器１２２５は、マザーボード等、通信バス（実線）を介してＣＰＵ１２０５と通信している。記憶装置１２１５は、データを記憶するためのデータ記憶装置（またはデータレポジトリ）であり得る。コンピュータシステム１２０１は、通信インターフェース１２２０を活用してコンピュータネットワーク（「ネットワーク」）１２３０に作動可能にカップリングされ得る。ネットワーク１２３０は、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信したイントラネットおよび／もしくはエクストラネットであり得る。ネットワーク１２３０は、一部の事例では、遠隔通信および／またはデータネットワークである。ネットワーク１２３０は、ローカルエリアネットワークを含むことができる。ネットワーク１２３０は、クラウドコンピューティング等、分散型コンピューティングを可能にすることができる１個または複数のコンピュータサーバーを含むことができる。ネットワーク１２３０は、一部の事例では、コンピュータシステム１２０１を活用して、コンピュータシステム１２０１にカップリングされたデバイスが、クライアントまたはサーバーとして運転することを可能にし得るピアツーピア（ｐｅｅｒ－ｔｏ－ｐｅｅｒ）ネットワークを実施することができる。

ＣＰＵ１２０５は、プログラムまたはソフトウェアにおいて具体化され得る機械可読指示のシーケンスを実行することができる。指示は、メモリ１２１０等、メモリ位置において記憶され得る。指示は、ＣＰＵ１２０５に方向づけることができ、これはその後に、本開示の方法を実施するようにＣＰＵ１２０５をプログラムするまたは他の仕方で構成することができる。ＣＰＵ１２０５によって遂行される操作の例は、フェッチ、デコード、実行およびライトバックを含むことができる。

ＣＰＵ１２０５は、集積回路等、回路の一部となり得る。システム１２０１の１個または複数の他の構成成分が、回路に含まれてよい。一部の事例では、回路は、特定用途向け集積回路（ＡＳＩＣ）である。

記憶装置１２１５は、ドライバ、ライブラリーおよび保存されたプログラム等、ファイルを記憶することができる。記憶装置１２１５は、ユーザーデータ、例えば、ユーザー嗜好およびユーザープログラムを記憶することができる。コンピュータシステム１２０１は、一部の事例では、イントラネットまたはインターネットを介してコンピュータシステム１２０１と通信するリモートサーバーに位置する等、コンピュータシステム１２０１に対して外部である１個または複数の追加的なデータ記憶装置を含むことができる。

コンピュータシステム１２０１は、ネットワーク１２３０を介して１個または複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム１２０１は、ユーザーのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例として、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートもしくはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））または携帯情報端末が挙げられる。ユーザーは、ネットワーク１２３０経由でコンピュータシステム１２０１にアクセスすることができる。

本明細書に記載されている方法は、例えば、メモリ１２１０または電子記憶装置１２１５等、コンピュータシステム１２０１の電子記憶位置に記憶された機械（例えば、コンピュータプロセッサ）実行可能なコードとして実施することができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供され得る。使用の際に、コードは、プロセッサ１２０５によって実行することができる。一部の事例では、プロセッサ１２０５による容易なアクセスのため、コードは、記憶装置１２１５から読み出し、メモリ１２１０に記憶することができる。場合によっては、電子記憶装置１２１５が排除されることがあり、機械実行可能な指示はメモリ１２１０に記憶される。

コードは、コードを実行するように適応されたプロセッサ（ｐｒｏｃｅｓｓｅｒ）を有する機械による使用のために事前にコンパイルおよび構成され得る、またはランタイムにおいてコンパイルされ得る。コードは、コードが、事前にコンパイルされたまたはその場でコンパイルされる（ａｓ－ｃｏｍｐｉｌｅｄ）様式で実行することを可能にするように選択され得るプログラミング言語で供給され得る。

コンピュータシステム１２０１等、本明細書に提供されるシステムおよび方法の態様は、プログラミングにおいて具体化することができる。本技術の様々な態様は、典型的には、ある種の機械可読媒体において保持されるまたは具体化される、機械（またはプロセッサ）実行可能なコードおよび／または関連するデータの形態の「製品」または「製造品」であると考えることができる。機械実行可能なコードは、メモリ（例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスク等、電子記憶装置において記憶され得る。「記憶」型の媒体は、ソフトウェアプログラミングのいかなる時点においても非一過性記憶を提供し得る、様々な半導体メモリ、テープドライブ、ディスクドライブ等、コンピュータ、プロセッサその他の有形メモリまたはその関連するモジュールのいずれかまたは全てを含むことができる。ソフトウェアの全体または部分は、時には、インターネットまたは様々な他の遠隔通信ネットワークを介して通信することができる。かかる通信は、例えば、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへのソフトウェアのローディングを可能にすることができる。よって、ソフトウェアエレメントを有することができる別の種類の媒体は、有線および光地上通信線（ｌａｎｄｌｉｎｅ）ネットワークを介してならびに様々なエアリンク（ａｉｒ－ｌｉｎｋ）にわたってローカルデバイス間の物理インターフェースを越えて使用される等、光波、電波および電磁波を含む。有線または無線リンク、光リンク等、かかる波を運ぶ物理的エレメントは、ソフトウェアを有する媒体として考慮することもできる。本明細書において、非一過性、有形「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」等の用語は、実行のためのプロセッサへの指示の提供に関与するいずれかの媒体を指す。

したがって、コンピュータ実行可能なコード等、機械可読媒体は、有形記憶媒体、搬送波媒体または物理的伝送媒体が挙げられるがこれらに限定されない、多くの形態を採ることができる。不揮発性記憶媒体は、例えば、図面に示す通り、データベース等の実施に使用され得るもの等、いずれかのコンピュータ（複数可）等における記憶デバイスのいずれか等、光または磁気ディスクを含む。揮発性記憶媒体は、かかるコンピュータプラットフォームのメインメモリ等、ダイナミックメモリを含む。有形伝送媒体は、コンピュータシステム内にバスを含むワイヤを含む、同軸ケーブル；銅線および光ファイバを含む。搬送波伝送媒体は、ラジオ周波数（ＲＦ）および赤外（ＩＲ）データ通信において生成されるもの等、電気もしくは電磁シグナルまたは音もしくは光の波の形態を採ることができる。したがって、コンピュータ可読媒体の共通形態は、例えば：フロッピーディスク（登録商標）、フレキシブルディスク、ハードディスク、磁気テープ、他のいずれかの磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤもしくはＤＶＤ－ＲＯＭ、他のいずれかの光学媒体、パンチカード穿孔テープ（ｐａｐｅｒｔａｐｅ）、孔のパターンによる他のいずれかの物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、他のいずれかのメモリチップもしくはカートリッジ、搬送波輸送データもしくは指示、かかる搬送波を輸送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／もしくはデータを読み取ることができる他のいずれかの媒体を含む。コンピュータ可読媒体のこれらの形態の多くは、１個または複数の指示の１個または複数のシーケンスを、実行のためのプロセッサに運ぶことに関与することができる。

コンピュータシステム１２０１は、例えば、報告を提供するためのユーザーインターフェース（ＵＩ）１２４０を含む電子ディスプレイ１２３５を含むことができるまたはこれと通信することができる。ＵＩの例は、グラフィカルユーザーインターフェース（ＧＵＩ）およびウェブに基づくユーザーインターフェースを、限定することなく含む。

本開示の方法およびシステムは、１種または複数のアルゴリズムによって実施することができる。アルゴリズムは、中央処理装置１２０５による実行の際にソフトウェアによって実施することができる。

（実施例１）
以前に生成されたコピー数変異スパイクインデータの試験は、生のリード計数およびＵＭＣ、ならびに根底にあるコピー数変化に対するプローブ／遺伝子レベルコピー数シグナル応答の両方における有意なプローブ間のシグナル変異を明らかにした。図２を参照されたい。図３は、試料におけるベイトの量に対する正規化カバレッジの非線形応答を実証する、３種の遺伝子（ＣＣＮＤ１、ＣＣＮＤ２およびＥＲＢＢ２）の推論的コピー数対理論的コピー数を例示する。これらの結果は、プルダウンにおけるベイト枯渇を示唆し、これは、特有の分子計数に相当に大きい差を有する同じ遺伝子内の隣接するプローブにおける次のベイトタイトレーション効果によって確認された（これにより、高い初期ＵＭＣを有するプローブに対するより速い特有の分子計数飽和を観察する）。

図４Ａは、各プローブに関連するＵＭＣが、プローブｐに関する非線形応答を有することを例示する。図４Ｂは、各プローブに関連するＵＭＣが、プローブＧＣ含量に関する非線形応答を有することを例示する。

図５は、飽和補正もプローブ効率補正も遂行しない、プローブのＵＭＣを例示する。図６は、飽和補正後の同じ試料を示す。図７は、プローブ効率補正後の同じ試料を示す。ゲノム位置内の変動は、各ステージにおいて低下され、現れる腫瘍細胞の根底にあるコピー数変異のより明らかな像をもたらす。中央値のプローブのプローブ効率補正後シグナルが１．２を上回る図７における遺伝子は、コピー数変異を起こしたとコールされる。プローブ効率補正後シグナルの異なるレベルは、腫瘍不均一性または続発性腫瘍によるものである可能性がある。

図９は、飽和補正およびプローブ効率補正後の、ベースライン化遺伝子座プローブシグナルノイズ低下の典型的進行を示す。

図１０Ａは、ｘ軸における参照試料（複数可）のプローブ効率および腫瘍細胞にコピー数変異を有しない被験体由来の試料の飽和補正後のシグナルのプロットを例示する。関係性はほぼ線形である。図１０Ｂは、腫瘍細胞にコピー数変異を有する被験体由来の同様のプロットを例示する。応答は、図１０Ａほど線形ではない。参照試料（複数可）由来のプローブ効率およびベースライン化遺伝子座の飽和補正後のＵＭＣ（黒色で示す）の間の関係性の決定によって推論される予測される効率による補正は、腫瘍細胞においてコピー数増幅を起こしたと推定される遺伝子座（灰色のドット）における異なるプローブ効率による変異を低下させるであろう。図１１は、飽和およびプローブ効率補正後のＵＭＣおよびＭＡＦ最適化されたベースライン化に基づく患者試料由来のコピー数変異の例示的な報告を例示する。星印は、被験体の腫瘍細胞にコピー数変異を起こした遺伝子座に属すると示されるポイントを示す。

（実施例２）
無細胞ＤＮＡを、がんを有する被験体から得、バーコード化配列決定ライブラリーを調製し、プローブセットによる配列捕捉によって癌遺伝子のパネルを濃縮し、バーコード化配列決定ライブラリーを配列決定する。配列決定リードを、参照ゲノムにマッピングし、そのバーコード配列およびマッピング位置に基づきファミリーへと折り畳む。プローブセット由来のプローブの中点に対応するゲノム座標毎に、該中点に及ぶリードファミリーの数を計数して、プローブ当たりのＵＭＣを得る。中央値のプローブ当たりのＵＭＣを遺伝子毎に決定する。「飽和平衡補正」を遂行するために、遺伝子をその中央値のプローブ当たりのＧＣ含量によってグループ化する。中央値のプローブ当たりのＵＭＣが、同様の中央値のプローブ当たりのＧＣ含量を有する遺伝子と有意に異なる遺伝子を除去する。

プローブ毎に、本明細書に記載されている通りに、ｐおよびＧＣ含量を決定する。以前のステップ由来の残っている遺伝子を使用して、プローブｐおよびＧＣ含量に対する中央値の遺伝子レベルＵＭＣの二次元二次多項式表面適合を遂行する。ｐおよびＧＣ含量を予想されるＵＭＣに関連付ける関数を使用して、予想されるプローブ当たりのＵＭＣを決定する。観察されるプローブ当たりのＵＭＣを予想されるプローブ当たりのＵＭＣで割ることにより、データセットの残部を決定する。各プローブの残部ＵＭＣは、配列決定カバレッジの変換された定量的尺度である。

遺伝子をその中央値のプローブ当たりのＧＣ含量によって再度グループ化し、その中央値のプローブ当たりの残部ＵＭＣが、同様の中央値のプローブ当たりのＧＣ含量を有する遺伝子とは有意に異なる遺伝子を除去する。次いで、先行する段落に記載されている通り、参照試料（複数可）の残部ＵＭＣを得ることにより、「プローブ効率」補正を遂行する。次いで、試料由来の各プローブの残部ＵＭＣを、参照（複数可）由来の各対応するプローブの残部ＵＭＣで割って、プローブ効率補正後のＵＭＣを得る。

上述の飽和平衡補正と同様に、残っている遺伝子を使用して、プローブｐおよびＧＣ含量に対するプローブ効率補正後のＵＭＣの二次元二次多項式表面適合を遂行する。ｐおよびＧＣ含量を予想されるプローブ効率補正後のＵＭＣに関連付ける関数を使用して、予想されるプローブ当たりのプローブ効率補正後のＵＭＣを決定する。観察されるプローブ当たりのプローブ効率補正後のＵＭＣを予想されるプローブ当たりのプローブ効率補正後のＵＭＣで割ることにより、データセットの残部を決定する。各プローブの残部のプローブ効率補正後のＵＭＣは、プローブＧＣ補正後のシグナル（ｐｏｓｔ－ｐｒｏｂｅＧＣ－ｃｏｒｒｅｃｔｅｄｓｉｇｎａｌ）である。

残っている遺伝子をその中央値のプローブ当たりのＧＣ含量によってグループ化し、その中央値のプローブＧＣ補正後のシグナルが、同様の中央値のプローブ当たりのＧＣ含量を有する遺伝子とは有意に異なる遺伝子を除去する。

初期ＵＭＣの代わりに開始入力としてのプローブＧＣ補正後のシグナルにより、本実施例のプロセスを反復する。

遺伝子毎に、プローブＧＣ補正後のシグナルの中央値を使用して、各遺伝子を要約する。その中央値のプローブＧＣ補正後のシグナルが、他の遺伝子とは有意に異なる遺伝子は、腫瘍細胞に遺伝子増幅または欠失を起こした候補とみなされる。

遺伝子毎に、生殖系列ヘテロ接合性アレルを決定し、各アレルの相対頻度を定量化する。ベースライン化に使用する遺伝子座は、ほぼ１：１比のアレルを有することが判明し、ベースライン化遺伝子座の選択を検証する。

全ゲノム正常二倍体プローブシグナル由来の遺伝子レベルでの中央値のプローブＧＣ補正後のシグナルおよび推定標準偏差に基づき、Ｚ－スコアを遺伝子毎に決定する。カットオフよりも高いＺ－スコアを有する遺伝子が、腫瘍細胞に遺伝子増幅を起こしたと報告される。

（実施例３）
本明細書に記載されている方法は、対照方法に対する本開示の方法において、ＥＲＢＢ２コピー数を測定することにより検証された。本開示の方法は、観察されるコピー数（ＣＮ）対理論的コピー数の線形応答を産生し、偽陽性ＣＮＶ結果は、正常（健康）コホートで観察されない。図１３を参照されたい。図１３は、推論される遺伝子コピー数対
理論的コピー数推定値を示し、黒塗りのドットは、ほぼ２の観察されるコピー数を表し（二倍体試料）、白抜きのドットは、検出される増幅事象を表し、太い水平破線は、平均遺伝子ＣＮカットオフをマークする。図１４も参照されたい。図１４は、四角形によって対照データが表された、図１３のデータを描写する。全ＣＮＶは、２．１５コピーに下落する予想されるタイトレーション傾向に従った。さらに、本開示の方法は、変動の低下により、データにおける観察される「ノイズ」を減少させ、対照方法と比較してＣＮＶが容易に識別されることを可能にした。図１５の最も右側を参照されたい；三角形が本開示の方法を表す一方、Ｘは対照方法を表す。

本発明の好まれる実施形態を本明細書に示し記載してきたが、当業者であれば、かかる実施形態が、単なる例として提供されていることが明らかであろう。本発明が、本明細書内に提供される具体例によって限定されることを意図しない。上述の明細書を参照しつつ本発明を記載してきたが、本明細書における実施形態の記載および例示は、限定的な意味で解釈されることを目的としない。ここで、当業者であれば、本発明から逸脱することなく、多数の変異、変化および代用を思い付く。さらに、本発明のあらゆる態様が、種々の条件および変数に依存する、本明細書に明記されている特異的な描写、構成または相対比率に限定されないことが理解されるものとする。本明細書に記載されている本発明の実施形態の様々な代替を本発明の実施に用いることができることを理解されたい。したがって、本発明が、いかなるかかる代替、修飾、変異または均等物も網羅するべきであることが企図される。次の特許請求の範囲が、本発明の範囲を規定し、これにより、特許請求の範囲内の方法および構造ならびにこれらの均等物が網羅されることが意図される。
本発明は、例えば、以下の項目を提供する。
(項目１)
（ａ）被験体の無細胞体液試料のデオキシリボ核酸（ＤＮＡ）分子の配列決定リードを得るステップと、
（ｂ）前記配列リードから、複数の遺伝子座における遺伝子座毎に配列決定リードカバレッジ（「リードカバレッジ」）に関連する定量的尺度を含む第１のデータセットを生成するステップと、
（ｃ）飽和平衡補正およびプローブ効率補正を遂行することにより、前記第１のデータセットを補正するステップと、
（ｄ）前記第１のデータセットについてベースラインリードカバレッジを決定するステップであって、前記ベースラインリードカバレッジが、飽和平衡およびプローブ効率に関連する、ステップと、
（ｅ）前記ベースラインリードカバレッジと比べた前記複数の遺伝子座における遺伝子座毎のコピー数状態を決定するステップと
を含む、方法。
(項目２)
前記第１のデータセットが、複数の遺伝子座における遺伝子座毎に、前記遺伝子座のグアニン－シトシン含量（「ＧＣ含量」）に関連する定量的尺度を含む、項目１に記載の方法。
(項目３)
（ｃ）に先立ち、前記第１のデータセットから、高変動遺伝子座である遺伝子座を除去するステップを含み、除去するステップが、
（ｉ）グアニン－シトシン含量に関連する前記定量的尺度および前記遺伝子座の配列決定リードカバレッジの前記定量的尺度に関連するモデルを適合させるステップと、
（ｉｉ）前記第１のデータセットから、前記遺伝子座の少なくとも１０％を除去するステップであって、前記モデルと最も異なる前記遺伝子座の少なくとも１０％を除去し、これにより、ベースライン化遺伝子座の前記第１のデータセットを提供するステップを含む、ステップと
を含む、項目２に記載の方法。
(項目４)
前記遺伝子座の少なくとも４５％を除去するステップを含む、項目３に記載の方法。
(項目５)
飽和平衡補正を遂行するステップが、
（ｉ）ベースライン化遺伝子座の前記第１のデータセット由来の遺伝子座毎に、前記遺伝子座に由来する前記試料由来のＤＮＡ分子の鎖が、前記配列決定リード内に表される確率に関連する定量的尺度を決定し、
（ｉｉ）ベースライン化遺伝子座の前記第１のデータセットにおける前記リードカバレッジを、ベースライン化遺伝子座の前記第１のデータセットの前記ＧＣ含量、およびベースライン化遺伝子座の前記第１のデータセットにおける各座位に由来するＤＮＡの鎖が、前記配列決定リード内に表される確率に関連する前記定量的尺度の両方に関連付けることにより前記リードカバレッジのための第１の変換を決定し、
（ｉｉｉ）前記第１の変換を、ベースライン化遺伝子座の前記第１のデータセット由来の各遺伝子座の前記リードカバレッジに適用して、ベースライン化遺伝子座の前記第１のデータセットの変換されたリードカバレッジの第１のセットを含む、飽和補正されたデータセットを提供する
ことにより、ベースライン化遺伝子座の前記第１のデータセットを前記飽和補正されたデータセットへと変換するステップを含む、項目３に記載の方法。
(項目６)
前記第１の変換を決定するステップが、（ｉ）ベースライン化遺伝子座の前記第１のデータセットの前記リードカバレッジの中心傾向に関連する尺度を決定するステップと、（ｉｉ）前記遺伝子座の前記ＧＣ含量、および前記遺伝子座に由来するＤＮＡの鎖が、前記配列決定リード内に表される確率に関連する前記定量的尺度に基づき、ベースライン化遺伝子座の前記第１のデータセットの前記リードカバレッジの前記中心傾向に関連する尺度を適合させる関数を決定するステップと、（ｉｉｉ）ベースライン化遺伝子座の前記第１のデータセットの遺伝子座毎に、前記関数によって予測されるリードカバレッジおよび前記リードカバレッジの間の差を決定するステップであって、前記差が、前記変換されたリードカバレッジである、ステップとを含む、項目５に記載の方法。
(項目７)
前記関数が、表面近似である、項目６に記載の方法。
(項目８)
前記表面近似が、二次元二次多項式である、項目７に記載の方法。
(項目９)
プローブ効率補正を遂行するステップが、
（ｉ）前記飽和補正されたデータセットから、変換されたリードカバレッジの前記第１のセットに関して高変動遺伝子座である遺伝子座を除去し、これにより、ベースライン化遺伝子座の第２のデータセットを提供し、
（ｉｉ）ベースライン化遺伝子座の前記第２のデータセットの前記プローブ効率に関連する変換されたリードカバレッジの前記第１のセットのための第２の変換を決定し、
（ｉｉｉ）前記第２の変換を用いて、ベースライン化遺伝子座の前記第２のデータセットの変換されたリードカバレッジの前記第１のセットを変換し、これにより、ベースライン化遺伝子座の前記第２のデータセットの変換されたリードカバレッジの第２のセットを含む、プローブ効率補正されたデータセットを提供する
ことにより、前記飽和補正されたデータセットを前記プローブ効率補正されたデータセットへと変換するステップを含む、項目５に記載の方法。
(項目１０)
前記第１のデータセットから、高変動遺伝子座である遺伝子座を除去するステップが、
（ｉ）前記ＧＣ含量および前記飽和補正されたデータセットの変換されたリードカバレッジの前記第１のセットに関連するモデルを適合させるステップと、
（ｉｉ）飽和補正されたデータセットから、前記遺伝子座の少なくとも１０％を除去するステップであって、前記モデルと最も異なる遺伝子座を除去し、これにより、ベースライン化遺伝子座の前記第２のデータセットを提供するステップを含む、ステップと
を含む、項目９に記載の方法。
(項目１１)
前記遺伝子座の少なくとも４５％を除去するステップを含む、項目１０に記載の方法。
(項目１２)
前記プローブ効率が、１種または複数の参照試料において前記飽和平衡補正を遂行することにより決定され、前記プローブ効率が、前記飽和平衡補正を遂行することにより得られる前記変換されたリードカバレッジである、項目９に記載の方法。
(項目１３)
前記１種または複数の参照試料が、がんを有しない被験体由来の無細胞体液試料である、項目１２に記載の方法。
(項目１４)
前記１種または複数の参照試料が、がんを有する被験体由来の無細胞体液試料であり、対応する遺伝子座が、コピー数変更を起こしていない、項目１２に記載の方法。
(項目１５)
前記第２の変換を決定するステップが、（ｉ）前記１種または複数の参照試料由来の前記遺伝子座について決定された前記プローブ効率を、ベースライン化遺伝子座の前記第２のデータセット由来のリードカバレッジの前記第１のセットに適合させるステップと、（ｉｉ）ベースライン化遺伝子座の前記第２のデータセットの各遺伝子座の前記変換されたリードカバレッジを、（ｉ）の前記適合に基づき予測されるプローブ効率で割るステップとを含む、項目１２に記載の方法。
(項目１６)
（ｇ）ベースライン化遺伝子座の前記第２のデータセットの前記変換されたリードカバレッジを、ベースライン化遺伝子座の前記第２のデータセットの前記ＧＣ含量、およびベースライン化遺伝子座の前記第２のデータセットにおける前記各座位に由来するＤＮＡの鎖が、前記配列決定リード内に表される確率に関連する前記定量的尺度の両方に関連付けることにより、変換されたリードカバレッジの前記第２のセットのための第３の変換を決定するステップと、
（ｈ）前記第３の変換を、変換されたリードカバレッジの前記第２のセットに適用して、変換された定量的リードカバレッジの第３のセットを含む、第４のデータセットを提供するステップと
をさらに含む、項目５に記載の方法。
(項目１７)
前記無細胞体液試料の前記ＤＮＡが、遺伝子座の前記セット由来の前記遺伝子座の少なくとも一部分に相補的な１種または複数のオリゴヌクレオチドプローブを使用して、遺伝子座の前記セットについて濃縮される、項目１に記載の方法。
(項目１８)
遺伝子座の前記セット由来の各遺伝子座の前記ＧＣ含量が、遺伝子座の前記セット由来の前記遺伝子座の少なくとも一部分に相補的な前記１種または複数のオリゴヌクレオチドプローブのグアニン－シトシン含量の中心傾向に関連する尺度である、項目１７に記載の方法。
(項目１９)
前記遺伝子座の前記リードカバレッジが、前記１種または複数のオリゴヌクレオチドプローブに対応する前記遺伝子座の領域の前記リードカバレッジの中心傾向に関連する尺度である、項目１７に記載の方法。
(項目２０)
飽和平衡補正を遂行する前記ステップおよびプローブ効率補正を遂行する前記ステップが、ラングミュアモデルを適合させるステップを含み、前記ラングミュアモデルが、プローブ効率（Ｋ）および飽和平衡定数（Ｉ_ｓａｔ）を含む、項目１７に記載の方法。
(項目２１)
ＫおよびＩ_ｓａｔが、前記１種または複数のオリゴヌクレオチドプローブにおけるオリゴヌクレオチドプローブ毎に経験的に決定される、項目２０に記載の方法。
(項目２２)
飽和平衡補正を遂行するステップおよびプローブ補正を遂行するステップが、前記遺伝子座の前記リードカバレッジを、前記遺伝子座が同一コピー数状態で存在することを仮定して前記ラングミュアモデルに適合させ、これにより、ベースラインリードカバレッジを提供するステップを含む、項目２１に記載の方法。
(項目２３)
前記同一コピー数状態が、二倍体である、項目２２に記載の方法。
(項目２４)
前記ベースラインリードカバレッジが、前記プローブ効率および前記飽和平衡に依存する関数である、項目２２に記載の方法。
(項目２５)
コピー数状態を決定するステップが、前記遺伝子座の前記リードカバレッジを前記ベースラインリードカバレッジと比較するステップを含む、項目２２に記載の方法。
(項目２６)
前記無細胞体液が、血清、血漿、尿および脳脊髄液からなる群より選択される、先行する項目のいずれか一項に記載の方法。
(項目２７)
前記リードカバレッジが、前記配列決定リードを参照ゲノムにマッピングすることにより決定される、先行する項目のいずれか一項に記載の方法。
(項目２８)
前記配列決定リードを得るステップが、アダプターを、前記被験体由来の前記無細胞体液由来の前記ＤＮＡ分子にライゲーションするステップを含む、先行する項目のいずれか一項に記載の方法。
(項目２９)
前記ＤＮＡ分子が、二重鎖ＤＮＡ分子であり、各アダプターが、前記ＤＮＡ分子の相補鎖を異なる形でタグ付けして、タグ付けされた鎖を提供するように、前記アダプターが、前記二重鎖ＤＮＡ分子にライゲーションされる、項目２８に記載の方法。
(項目３０)
前記遺伝子座に由来するＤＮＡの鎖が、前記配列決定リード内に表される確率に関連する前記定量的尺度を決定するステップが、配列決定リードを対になったリードおよび対にならないリードへと選別するステップを含み、（ｉ）各対になったリードが、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第１のタグ付けされた鎖および第２の異なる形でタグ付けされた相補鎖から生成される配列リードに対応し、（ｉｉ）各対にならないリードが、配列リードの前記セットにおける前記配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第２の異なる形でタグ付けされた相補鎖を有しない第１のタグ付けされた鎖を表す、項目２９に記載の方法。
(項目３１)
１種または複数の遺伝子座のそれぞれにマッピングする、（ｉ）前記対になったリードおよび（ｉｉ）前記対にならないリードの定量的尺度を決定して、各座位にマッピングする対になったリードおよび対にならないリードに関連する前記定量的尺度に基づき、前記１種または複数の遺伝子座のそれぞれにマッピングする、前記試料における総二本鎖ＤＮＡ分子に関連する定量的尺度を決定するステップをさらに含む、項目３０に記載の方法。
(項目３２)
前記アダプターが、バーコード配列を含む、項目２８に記載の方法。
(項目３３)
前記リードカバレッジを決定するステップが、前記参照ゲノムへの前記配列決定リードの前記マッピングの位置および前記バーコード配列に基づき、前記配列決定リードを折り畳むステップを含む、項目３２に記載の方法。
(項目３４)
前記遺伝子座が、１種または複数の癌遺伝子を含む、先行する項目のいずれか一項に記載の方法。
(項目３５)
前記被験体の生殖系列ゲノムがヘテロ接合性である前記ベースライン化遺伝子座内におけるバリアントの相対量を決定することにより、前記ベースライン化遺伝子座の少なくともサブセットが、前記被験体の前記腫瘍細胞においてコピー数変更を起こしたことを決定するステップをさらに含む、先行する項目のいずれか一項に記載の方法。
(項目３６)
前記バリアントの前記相対量が、ほぼ等しいわけではない、項目３５に記載の方法。
(項目３７)
前記バリアントの前記相対量がほぼ等しいわけではない前記ベースライン化遺伝子座が、前記ベースライン化遺伝子座から除去され、これにより、アレル頻度補正されたベースライン化遺伝子座を提供する、項目３６に記載の方法。
(項目３８)
前記アレル頻度補正されたベースライン化遺伝子座が、先行する項目のいずれか一項に記載の方法において前記ベースライン化座位として使用される、項目３７に記載の方法。
(項目３９)
（ａ）メモリに、被験体の無細胞体液試料のデオキシリボ核酸（ＤＮＡ）分子の配列決定リードを受け取るステップと、
（ｂ）コンピュータプロセッサを用いてコードを実行して、次のステップ：
（ｉ）前記配列リードから、複数の遺伝子座における遺伝子座毎に配列決定リードカバレッジ（「リードカバレッジ」）に関連する定量的尺度を含む第１のデータセットを生成するステップと、
（ｉｉ）飽和平衡補正およびプローブ効率補正を遂行することにより、前記第１のデータセットを補正するステップと、
（ｉｉｉ）前記第１のデータセットについてベースラインリードカバレッジを決定するステップであって、前記ベースラインリードカバレッジが、飽和平衡およびプローブ効率に関連する、ステップと、
（ｉｖ）前記ベースラインリードカバレッジと比べた前記複数の遺伝子座における遺伝子座毎のコピー数状態を決定するステップと
を遂行するステップと
を含む、方法。
(項目４０)
（ａ）ネットワークと、
（ｂ）前記ネットワークに接続された、核酸配列データを記憶するように構成されたコンピュータメモリを含むデータベースと、
（ｃ）前記ネットワークに接続された、コンピュータメモリおよび１個または複数のコンピュータプロセッサを含むバイオインフォマティクスコンピュータと
を含むシステムであって、
前記コンピュータが、前記１個または複数のコンピュータプロセッサによって実行されると、前記データベースに記憶された前記核酸配列データをコピーし、前記コピーされたデータを前記バイオインフォマティクスコンピュータにおけるメモリに書き出し、以下：
（ｉ）前記核酸配列データから、複数の遺伝子座における遺伝子座毎に配列決定リードカバレッジ（「リードカバレッジ」）に関連する定量的尺度を含む第１のデータセットを生成するステップと、
（ｉｉ）飽和平衡補正およびプローブ効率補正を遂行することにより、前記第１のデータセットを補正するステップと、
（ｉｉｉ）前記第１のデータセットについてベースラインリードカバレッジを決定するステップであって、前記ベースラインリードカバレッジが、飽和平衡およびプローブ効率に関連する、ステップと、
（ｉｖ）前記ベースラインリードカバレッジと比べた前記複数の遺伝子座における遺伝子座毎のコピー数状態を決定するステップと
を含むステップを遂行する、機械実行可能なコードをさらに含む、システム。
(項目４１)
前記データベースが、核酸シーケンサーに接続されている、項目４０に記載のシステム。

Claims

図面に記載の発明。