JP2024010242A

JP2024010242A - 遺伝的バリアントを検出するための方法およびシステム

Info

Publication number: JP2024010242A
Application number: JP2023192893A
Authority: JP
Inventors: エルトーキーヘルミー; Eltoukhy Helmy; タラサズアミルアリ; Talasaz Amirali
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2013-12-28
Filing date: 2023-11-13
Publication date: 2024-01-23
Also published as: AU2014369841A1; EP3087204B1; US20240018582A1; US11434531B2; AU2019202216A1; US11149306B2; US20200362405A1; US11667967B2; EP3771745A1; US20160046986A1; JP2017506875A; US20230272468A1; US11639525B2; US20240209431A1; SG11201604923XA; US11639526B2; US20210164037A1; CN106062214A; WO2015100427A1; JP2022031905A

Abstract

【課題】ポリヌクレオチド試料における遺伝的バリアント（例えば、コピー数バリエーション）を決定するための方法およびシステムを提供すること。【解決手段】コピー数バリエーションを決定するための方法は、二本鎖ポリヌクレオチドに二重鎖タグをタグ付けするステップと、試料由来のポリヌクレオチドを配列決定するステップと、選択された遺伝子座にマッピングするポリヌクレオチドの総数を推定するステップとを含む。ポリヌクレオチドの総数の推定は、配列リードが生成されていない、本来の試料における二本鎖ポリヌクレオチドの数の推定を伴い得る。この数は、両方の相補鎖のリードが検出されたポリヌクレオチドおよび２本の相補鎖のうち一方のみが検出されたリードの数を使用して生成することができる。【選択図】なし

Description

相互参照
本出願は、米国特許法§１１９（ｅ）の下、２０１３年１２月２８日に出願された米国仮出願第６１／９２１，４５６号および２０１４年３月５日に出願され多米国仮出願第６１／９４８，５０９号の利益を請求し、各々は参照によってその全体が本明細書に組み込まれる。

ポリヌクレオチドの検出および定量化は、診断等、分子生物学および医学適用に重要である。遺伝子検査は、多数の診断方法に特に有用である。例えば、がんおよび部分的または完全な異数性等、稀な遺伝子変更（例えば、配列バリアント）またはエピジェネティックマーカーの変化が原因の障害は、ＤＮＡ配列情報により検出またはより正確に特徴付けることができる。

がん等、遺伝性疾患の早期検出およびモニタリングは、多くの場合、該疾患の処置または管理の成功において有用であり必要とされる。アプローチの１つは、異なる種類の体液において見出すことができるポリヌクレオチドの集団である、無細胞（cell-free）核酸
に由来する試料のモニタリングを含むことができる。一部の事例において、疾患は、１種または複数の核酸配列のコピー数バリエーションおよび／または配列バリエーション等、遺伝的異常の検出、または他のある特定の稀な遺伝子変更の発生に基づき特徴付けるまたは検出することができる。無細胞ＤＮＡ（ｃｆＤＮＡ）は、特定の疾患に関連する遺伝的異常を含有することができる。配列決定および核酸を操作する技法における改善に伴い、本技術分野において、無細胞ＤＮＡを使用して、疾患を検出およびモニタリングするための改善された方法およびシステムの必要がある。

具体的には、特に、多くの適用（例えば、出生前、移植、免疫、メタゲノミクスまたはがん診断）に対し、腫瘍由来ｇＤＮＡ等の異種性ゲノム試料またはｃｆＤＮＡのために、正確なコピー数バリエーション推定のための多くの方法が開発された。これらの方法の大部分は、本来の核酸を配列決定可能なライブラリーに変換する試料調製と、続く大規模並列配列決定と、最終的に１種または複数の遺伝子座におけるコピー数バリエーションを推定するためのバイオインフォマティクスを含む。

これらの方法の多くは、変換および配列決定されたあらゆる分子に対し、試料調製および配列決定プロセスによって導入されるエラーを低下させることまたはこれと戦うことができるが、これらの方法は、変換されたが配列決定されていない分子の計数を推測することができない。変換されたが配列決定されていない分子のこのような計数は、ゲノム領域間で高度に可変性となり得るため、これらの計数は、達成できる感度に劇的かつ有害に影響を与え得る。

この問題に取り組むため、インプット二本鎖デオキシリボ核酸（ＤＮＡ）は、個々の二本鎖分子の両半分を、一部の事例においては、異なってタグ付けするプロセスによって変換することができる。この操作は、ヘアピン、バブルもしくはフォーク形アダプター（adapter）または二本鎖および一本鎖セグメント（バブル、フォーク形またはヘアピンアダ
プターのハイブリダイズしていない部分は、本明細書において一本鎖と考慮される）を有する他のアダプタ（adaptor）のライゲーションを含む種々の技法を使用して行うことができる。正確にタグ付けされると、インプット二本鎖ＤＮＡ分子のそれぞれの本来のワトソンおよびクリック（すなわち、鎖）側を異なってタグ付けし、シーケンサーおよびその後のバイオインフォマティクスによって同定することができる。特定の領域におけるあらゆる分子に対し、両方のワトソンおよびクリック側が回収された分子（「ペア（Pair）」）対一方の半分のみが回収された分子（「シングレット（Singlet）」）の計数を記録す
ることができる。未観測（unseen）分子の数は、検出されたペアおよびシングレットの数に基づき推定することができる。

本開示の態様は、本来のＤＮＡ断片の異種性集団における稀なデオキシリボ核酸（ＤＮＡ）を検出および／または定量化するための方法であって、断片の３０％超が、両端においてタグ付けされるように、複数の異なるタグのライブラリーを使用して、単一の反応で本来のＤＮＡ断片をタグ付けするステップを含み、タグのそれぞれが、分子バーコードを含む方法を提供する。単一の反応は、単一の反応容器内で行われ得る。断片の５０％超が、両端においてタグ付けされてよい。複数の異なるタグは、１００、５００、１０００、１０，０００または１００，０００種のうちいずれか以下の異なるタグとなり得る。

別の態様は、目的の分子のタグ付け（例えば、ライゲーション、ハイブリダイゼーション等による）に使用することができるライブラリーアダプタのセットを提供する。ライブラリーアダプタのセットは、分子バーコードを有する複数のポリヌクレオチド分子を含むことができ、複数のポリヌクレオチド分子は、８０ヌクレオチド塩基未満またはそれに等しい長さであり、分子バーコードは、少なくとも４ヌクレオチド塩基の長さであり、（ａ）分子バーコードは、互いに異なり、互いの間に少なくとも１の編集距離を有し、（ｂ）分子バーコードは、それぞれのポリヌクレオチド分子の末端から少なくとも１ヌクレオチド塩基離れて位置し、（ｃ）任意選択で、少なくとも１末端塩基は、ポリヌクレオチド分子の全てにおいて同一であり、（ｄ）ポリヌクレオチド分子のいずれも、完全シーケンサーモチーフを含有しない。

一部の実施形態において、ライブラリーアダプタ（またはアダプター）は、分子バーコードを除いて互いに同一である。一部の実施形態において、複数のライブラリーアダプタのそれぞれは、少なくとも１個の二本鎖部分および少なくとも１個の一本鎖部分（例えば、非相補的部分またはオーバーハング）を含む。一部の実施形態において、二本鎖部分は、異なる分子バーコードのコレクションから選択される分子バーコードを有する。一部の実施形態において、所与の分子バーコードは、ランダマーである。一部の実施形態において、ライブラリーアダプタのそれぞれは、少なくとも１個の一本鎖部分に鎖同定バーコードをさらに含む。一部の実施形態において、鎖同定バーコードは、少なくとも４ヌクレオチド塩基を含む。一部の実施形態において、一本鎖部分は、部分的シーケンサーモチーフを有する。一部の実施形態において、ライブラリーアダプタは、完全シーケンサーモチーフを含まない。

一部の実施形態において、ライブラリーアダプタのいずれも、フローセルにハイブリダイズするためのまたは配列決定のためにヘアピンを形成するための配列を含有しない。

一部の実施形態において、ライブラリーアダプタは全て、同じヌクレオチド（複数可）を有する末端を有する。一部の実施形態において、同一末端ヌクレオチド（複数可）は、２ヌクレオチド塩基またはそれを超える長さに及ぶ。

一部の実施形態において、ライブラリーアダプターのそれぞれは、Ｙ字形、バブル形またはヘアピン形である。一部の実施形態において、ライブラリーアダプターのいずれも、試料同定モチーフを含有しない。一部の実施形態において、ライブラリーアダプターのそれぞれは、ユニバーサルプライマーに選択的にハイブリダイズ可能な配列を含む。一部の実施形態において、ライブラリーアダプターのそれぞれは、少なくとも５、６、７、８、９および１０ヌクレオチド塩基の長さの分子バーコードを含む。一部の実施形態において、ライブラリーアダプターのそれぞれは、１０ヌクレオチド塩基～８０の長さまたは３０～７０ヌクレオチド塩基の長さまたは４０～６０ヌクレオチド塩基の長さである。一部の実施形態において、少なくとも１、２、３または４末端塩基が、全ライブラリーアダプタにおいて同一である。一部の実施形態において、少なくとも４末端塩基が、全ライブラリーアダプタにおいて同一である。

一部の実施形態において、ライブラリーアダプターの分子バーコードの編集距離は、ハミング距離である。一部の実施形態において、編集距離は、少なくとも１、２、３、４または５である。一部の実施形態において、編集距離は、複数のポリヌクレオチド分子の個々の塩基に関する。一部の実施形態において、分子バーコードは、アダプターの末端から少なくとも１０ヌクレオチド塩基離れて位置する。一部の実施形態において、複数のライブラリーアダプターは、少なくとも２、４、６、８、１０、２０、３０、４０もしくは５０種の異なる分子バーコード、または２～１００、４～８０、６～６０もしくは８～４０種の異なる分子バーコードを含む。本明細書における実施形態のいずれかにおいて、タグ付けが特有ではなくなるように、異なる分子バーコードが存在するよりも多くのタグ付けするべきポリヌクレオチド（例えば、ｃｆＤＮＡ断片）が存在する。

一部の実施形態において、アダプタの末端は、（例えば、標的核酸分子への）ライゲーションのために構成される。一部の実施形態において、アダプタの末端は、平滑末端である。

一部の実施形態において、アダプタは、精製および単離される。一部の実施形態において、ライブラリーは、１個または複数の非天然起源の塩基を含む。

一部の実施形態において、ポリヌクレオチド分子は、分子バーコードに関して５’に配置されたプライマー配列を含む。

一部の実施形態において、ライブラリーアダプタのセットは、複数のポリヌクレオチド分子から本質的になる。

別の態様において、方法は、（ａ）アダプタのライブラリー由来の複数のポリヌクレオチド分子をポリヌクレオチドのコレクションにタグ付けして、タグ付けされたポリヌクレオチドのコレクションを作製するステップと、（ｂ）配列決定アダプタの存在下で、タグ付けされたポリヌクレオチドのコレクションを増幅するステップであって、配列決定アダプタは、複数のポリヌクレオチド分子における相補的配列に選択的にハイブリダイズ可能なヌクレオチド配列を有するプライマーを有するステップを含む。アダプタのライブラリーは、上述または本明細書の他の箇所に記載のものとなり得る。一部の実施形態において、シーケンサーアダプタのそれぞれは、試料同定モチーフとなり得る指標タグをさらに含む。

別の態様は、本来のＤＮＡ断片の異種性集団における稀なＤＮＡを検出および／または定量化するための方法であって、稀なＤＮＡは、１％未満である濃度を有し、方法は、（ａ）本来のＤＮＡ断片の３０％超が、分子バーコードを含むライブラリーアダプタを両端にタグ付けされるように、単一の反応において本来のＤＮＡ断片にタグ付けし、これにより、タグ付けされたＤＮＡ断片を用意するステップと、（ｂ）タグ付けされたＤＮＡ断片において高忠実度増幅を行うステップと、（ｃ）任意選択で、タグ付けされたＤＮＡ断片のサブセットを選択的に濃縮するステップと、（ｄ）タグ付けされ、増幅され、任意選択で選択的に濃縮されたＤＮＡ断片の一方または両方の鎖を配列決定して、分子バーコードおよび本来のＤＮＡ断片の少なくとも一部分とのヌクレオチド配列を含む配列リードを得るステップと、（ｅ）配列リードから、本来のＤＮＡ断片の一本鎖の代表となるコンセンサスリードを決定するステップと、（ｆ）コンセンサスリードを定量化して、９９．９％を超える特異性で、稀なＤＮＡを検出および／または定量化するステップとを含む方法を提供する。

一部の実施形態において、（ｅ）は、同じまたは類似の分子バーコードおよび同じまたは類似の断片配列の末端を有する配列リードを比較するステップを含む。一部の実施形態において、比較するステップは、同じまたは類似の分子バーコードを有する配列リードにおける系統発生（phylogentic）解析を実行するステップをさらに含む。一部の実施形態
において、分子バーコードは、最大３の編集距離を有するバーコードを含む。一部の実施形態において、断片配列の末端は、最大３の編集距離を有する断片配列を含む。

一部の実施形態において、本方法は、配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップと、１種または複数の遺伝子座のそれぞれにマッピングするペア形成されたリードおよびペア形成されないリードの数を定量化するステップとをさらに含む。

一部の実施形態において、タグ付けは、本来のＤＮＡ断片と比較して過剰量のライブラリーアダプタを有することにより起こる。一部の実施形態において、過剰は、少なくとも５倍過剰である。一部の実施形態において、タグ付けは、リガーゼの使用を含む。一部の実施形態において、タグ付けは、平滑末端への取り付けを含む。

一部の実施形態において、本方法は、分子バーコードおよび本来のＤＮＡ断片のそれぞれの少なくとも一端由来の配列情報に従って配列リードをビニングして、一本鎖リードのビンを作製するステップをさらに含む。一部の実施形態において、本方法は、各ビンにおいて、配列リードを解析することにより、本来のＤＮＡ断片の中の所与の本来のＤＮＡ断片の配列を決定するステップをさらに含む。一部の実施形態において、本方法は、タグ付けされ、増幅され、任意選択で濃縮されたＤＮＡ断片によって表されるゲノムの各位置において各塩基が生じる回数を比較することにより、稀なＤＮＡを検出および／または定量化するステップをさらに含む。

一部の実施形態において、ライブラリーアダプタは、完全シーケンサーモチーフを含有しない。一部の実施形態において、本方法は、タグ付けされたＤＮＡ断片のサブセットを選択的に濃縮するステップをさらに含む。一部の実施形態において、本方法は、濃縮後に、プライマーを含む配列決定アダプタの存在下で、濃縮されたタグ付けされたＤＮＡ断片を増幅するステップをさらに含む。一部の実施形態において、（ａ）は、分子バーコードの２～１０００種の異なる組合せを有するタグ付けされたＤＮＡ断片をもたらす。

一部の実施形態において、ＤＮＡ断片は、上述または本明細書の他の箇所に記載のアダプタのライブラリー由来のポリヌクレオチド分子をタグ付けされる。

別の態様において、対象の核酸試料を処理および／または解析するための方法は、（ａ）核酸試料由来のポリヌクレオチド断片をライブラリーアダプタのセットに曝露して、タグ付けされたポリヌクレオチド断片を生成するステップと、（ｂ）タグ付けされたポリヌクレオチド断片の増幅産物として増幅されたポリヌクレオチド断片を生じる条件下で、タグ付けされたポリヌクレオチド断片を核酸増幅反応に供するステップとを含む。ライブラリーアダプタのセットは、分子バーコードを有する複数のポリヌクレオチド分子を含み、複数のポリヌクレオチド分子は、８０ヌクレオチド塩基未満またはそれに等しい長さであり、分子バーコードは、少なくとも４ヌクレオチド塩基の長さであり、（１）分子バーコードは、互いに異なり、互いの間に少なくとも１の編集距離を有し、（２）分子バーコードは、それぞれのポリヌクレオチド分子の末端から少なくとも１ヌクレオチド塩基離れて位置し、（３）任意選択で、少なくとも１末端塩基は、ポリヌクレオチド分子の全てにおいて同一であり、（４）ポリヌクレオチド分子のいずれも、完全シーケンサーモチーフを含有しない。

一部の実施形態において、本方法は、増幅されたタグ付けされたポリヌクレオチド断片のヌクレオチド配列を決定するステップをさらに含む。一部の実施形態において、増幅されたタグ付けされたポリヌクレオチド断片のヌクレオチド配列は、ポリメラーゼ連鎖反応（ＰＣＲ）なしで決定される。一部の実施形態において、本方法は、プログラムされたコンピュータプロセッサによりヌクレオチド配列を解析して、対象のヌクレオチド試料における１種または複数の遺伝的バリアントを同定するステップをさらに含む。一部の実施形態において、１種または複数の遺伝的バリアントは、塩基変化（複数可）、挿入（複数可）、反復（複数可）、欠失（複数可）、コピー数バリエーション（複数可）およびトランスバージョン（複数可）からなる群から選択される。一部の実施形態において、１種または複数の遺伝的バリアントは、１種または複数の腫瘍関連遺伝子変更を含む。

一部の実施形態において、対象は、疾患であるまたはそうであると疑われる。一部の実施形態において、疾患は、がんである。一部の実施形態において、本方法は、対象から核酸試料を収集するステップをさらに含む。一部の実施形態において、核酸試料は、対象の血液、血漿、血清、尿、唾液、粘膜排泄、痰、糞便、脳脊髄液および涙からなる群から選択される位置から収集される。一部の実施形態において、核酸試料は、無細胞核酸試料である。一部の実施形態において、核酸試料は、対象の１００ナノグラム（ｎｇ）以下の二本鎖ポリヌクレオチド分子から収集される。

一部の実施形態において、ポリヌクレオチド断片は、二本鎖ポリヌクレオチド分子を含む。一部の実施形態において、（ａ）において、複数のポリヌクレオチド分子は、平滑末端ライゲーション、粘着末端ライゲーション、分子逆位プローブ、ＰＣＲ、ライゲーションに基づくＰＣＲ、マルチプレックスＰＣＲ、一本鎖ライゲーションおよび一本鎖環状化によりポリヌクレオチド断片にカップリングする。一部の実施形態において、核酸試料のポリヌクレオチド断片を複数のポリヌクレオチド分子に曝露するステップは、少なくとも１０％の変換効率で、タグ付けされたポリヌクレオチド断片を生じる。一部の実施形態において、タグ付けされたポリヌクレオチド断片の少なくとも５％、６％、７％、８％、９％、１０％、２０％または２５％のいずれかは、共通ポリヌクレオチド分子または配列を共有する。一部の実施形態において、本方法は、核酸試料からポリヌクレオチド断片を生成するステップをさらに含む。

一部の実施形態において、供するステップは、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される遺伝子に対応する配列からタグ付けされたポリヌクレオチド断片を増幅するステップを含む。

別の態様において、方法は、（ａ）複数のポリヌクレオチド分子から複数の配列リードを生成するステップであって、複数のポリヌクレオチド分子が、標的ゲノムのゲノム遺伝子座を網羅し、ゲノム遺伝子座が、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される複数の遺伝子に対応するステップと、（ｂ）コンピュータプロセッサにより、複数の配列リードをファミリーへと群分けするステップであって、各ファミリーが、鋳型ポリヌクレオチドのうち１種に由来する配列リードを含むステップと、（ｃ）ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成するステップと、（ｄ）ゲノム遺伝子座の中の所与のゲノム遺伝子座においてコンセンサス配列をコール（call）するステップと、（ｅ）所与のゲノム遺伝子座において、コールの中の遺伝的バリアント、コールの中の遺伝子変更の頻度、コールの総数およびコールの中の変更の総数のいずれかを検出するステップとを含む。

一部の実施形態において、各ファミリーは、鋳型ポリヌクレオチドのうち１種のみに由来する配列リードを含む。一部の実施形態において、所与のゲノム遺伝子座は、少なくとも１核酸塩基を含む。一部の実施形態において、所与のゲノム遺伝子座は、複数の核酸塩基を含む。一部の実施形態において、コールするステップは、所与のゲノム遺伝子座において少なくとも１核酸塩基をコールするステップを含む。一部の実施形態において、コールするステップは、所与のゲノム遺伝子座において複数の核酸塩基をコールするステップを含む。一部の実施形態において、コールするステップは、系統発生解析、投票、秤量、ファミリーにおける遺伝子座における各リードへの確率の割り当て、および最高確率による塩基のコールのうちいずれか１種を含む。

一部の実施形態において、本方法は、ゲノム遺伝子座の中の追加的なゲノム遺伝子座において（ｄ）～（ｅ）を行うステップをさらに含む。一部の実施形態において、本方法は、所与のゲノム遺伝子座および追加的なゲノム遺伝子座における計数に基づき、所与のゲノム遺伝子座および追加的なゲノム遺伝子座のうち１種におけるコピー数のバリエーションを決定するステップをさらに含む。

一部の実施形態において、群分けするステップは、（ｉ）複数のポリヌクレオチド分子にカップリングされた異なる分子バーコードおよび（ｉｉ）複数の配列リードの間の類似性を同定することにより、複数の配列リードをファミリーへと分類するステップを含み、各ファミリーは、分子バーコードおよび類似または同一の配列リードの異なる組合せに関連付けられた複数の核酸配列を含む。異なる分子バーコードは、異なる配列を有する。

一部の実施形態において、コンセンサス配列は、配列リードのそれぞれの定量的尺度または統計的有意性レベルを評価することにより生成される。一部の実施形態において、定量的尺度は、二項分布、指数関数的分布、ベータ分布または経験的分布の使用を含む。一部の実施形態において、本方法は、コンセンサス配列を標的ゲノムにマッピングするステップをさらに含む。一部の実施形態において、複数の遺伝子は、群から選択される複数の遺伝子のうち少なくとも２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０種または全種を含む。

本開示の別の態様は、（ａ）単一の反応容器内に鋳型ポリヌクレオチド分子およびライブラリーアダプタのセットを用意するステップであって、ライブラリーアダプタが、異なる分子バーコード（例えば、２～１，０００種の異なる分子バーコード）を有するポリヌクレオチド分子であり、ライブラリーアダプタのいずれも、完全シーケンサーモチーフを含有しないステップと、（ｂ）単一の反応容器内で、少なくとも１０％の効率で、ライブラリーアダプタを鋳型ポリヌクレオチド分子にカップリングし、これにより、複数の異なるタグ付け組合せ（例えば、４～１，０００，０００種の異なるタグ付け組合せ）の中にあるタグ付け組合せを各鋳型ポリヌクレオチドにタグ付けして、タグ付けされたポリヌクレオチド分子を産生するステップと、（ｃ）タグ付けされたポリヌクレオチド分子の増幅産物として増幅されたポリヌクレオチド分子を生じる条件下で、タグ付けされたポリヌクレオチド分子を増幅反応に供するステップと、（ｄ）増幅されたポリヌクレオチド分子を配列決定するステップとを含む方法を提供する。

一部の実施形態において、鋳型ポリヌクレオチド分子は、平滑末端または粘着末端である。一部の実施形態において、ライブラリーアダプタは、分子バーコードを除いて同一である。一部の実施形態において、ライブラリーアダプタのそれぞれは、二本鎖部分および少なくとも１個の一本鎖部分を有する。一部の実施形態において、二本鎖部分は、複数の分子バーコードの中の１つの分子バーコードを有する。一部の実施形態において、ライブラリーアダプタのそれぞれは、少なくとも１個の一本鎖部分に鎖同定バーコードをさらに含む。一部の実施形態において、一本鎖部分は、部分的シーケンサーモチーフを有する。一部の実施形態において、ライブラリーアダプタは、同じ末端ヌクレオチドの配列を有する。一部の実施形態において、鋳型ポリヌクレオチド分子は、二本鎖である。一部の実施形態において、ライブラリーアダプタは、鋳型ポリヌクレオチド分子の両端にカップリングする。

一部の実施形態において、タグ付けされたポリヌクレオチド分子を増幅反応に供するステップは、タグ付けされたポリヌクレオチド分子を非特異的に増幅するステップを含む。

一部の実施形態において、増幅反応は、タグ付けされたポリヌクレオチド分子のそれぞれを増幅するためのプライミング部位の使用を含む。一部の実施形態において、プライミング部位は、プライマーである。一部の実施形態において、プライマーは、ユニバーサルプライマーである。一部の実施形態において、プライミング部位は、ニックである。

一部の実施形態において、本方法は、（ｅ）に先立ち、（ｉ）増幅されたポリヌクレオチド分子から、１種または複数の所与の配列を含むポリヌクレオチド分子を分離して、濃縮されたポリヌクレオチド分子を産生するステップと、（ｉｉ）配列決定アダプタにより濃縮されたポリヌクレオチド分子を増幅するステップとをさらに含む。

一部の実施形態において、効率は、少なくとも３０％、４０％または５０％である。一部の実施形態において、本方法は、増幅されたポリヌクレオチド分子の配列決定の際に遺伝的バリアントを同定するステップをさらに含む。一部の実施形態において、配列決定するステップは、（ｉ）増幅されたポリヌクレオチド分子の増幅産物として追加的な増幅されたポリヌクレオチド分子を生じる条件下で、増幅されたポリヌクレオチド分子を追加的な増幅反応に供するステップと、（ｉｉ）追加的な増幅されたポリヌクレオチド分子を配列決定するステップとを含む。一部の実施形態において、追加的な増幅は、配列決定アダプタの存在下で行われる。

一部の実施形態において、（ｂ）および（ｃ）は、タグ付けされたポリヌクレオチド分子をアリコートにすることなく行われる。一部の実施形態において、タグ付けは、非特有のタグ付けである。

別の態様は、対象の標的核酸分子を解析するためのシステムであって、標的ゲノムのゲノム遺伝子座を網羅する複数のポリヌクレオチド分子の核酸配列リードを受け取る通信インターフェイスと；通信インターフェイスによって受け取られた複数のポリヌクレオチド分子の核酸配列リードを記憶するコンピュータメモリと；通信インターフェイスおよびメモリに作動可能にカップリングされ、（ｉ）複数の配列リードを、各ファミリーが、鋳型ポリヌクレオチドのうち１種に由来する配列リードを含むファミリーへと群分けし、（ｉｉ）ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成し、（ｉｉｉ）ゲノム遺伝子座の中の所与のゲノム遺伝子座においてコンセンサス配列をコールし、（ｉｖ）所与のゲノム遺伝子座において、コールの中の遺伝的バリアント、コールの中の遺伝子変更の頻度、コールの総数およびコールの中の変更の総数のいずれかを検出するようにプログラムされたコンピュータプロセッサとを含み、ゲノム遺伝子座が、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される複数の遺伝子に対応するシステムを提供する。

別の態様において、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される少なくとも５種の遺伝子に選択的にハイブリダイズするオリゴヌクレオチド分子のセットが提供される。

一部の実施形態において、オリゴヌクレオチド分子は、１０～２００塩基の長さである。一部の実施形態において、オリゴヌクレオチド分子は、少なくとも５種の遺伝子のエクソン領域に選択的にハイブリダイズする。一部の実施形態において、オリゴヌクレオチド分子は、少なくとも５種の遺伝子における少なくとも３０種のエクソンに選択的にハイブリダイズする。一部の実施形態において、複数のオリゴヌクレオチド分子は、少なくとも３０種のエクソンのそれぞれに選択的にハイブリダイズする。一部の実施形態において、各エクソンにハイブリダイズするオリゴヌクレオチド分子は、少なくとも１種の他のオリゴヌクレオチド分子と重複する配列を有する。

別の態様において、キットは、それぞれ異なる分子バーコードを有する複数のライブラリーアダプタを含有する第１の容器と、複数の配列決定アダプタを含有する第２の容器であって、各配列決定アダプタが、シーケンサーモチーフの少なくとも一部分および任意選択で試料バーコードを含む第２の容器とを含む。ライブラリーアダプタは、上述または本明細書の他の箇所に記載のものとなり得る。

一部の実施形態において、配列決定アダプタは、試料バーコードを含む。一部の実施形態において、ライブラリーアダプタは、平滑末端およびＹ字形であり、８０核酸塩基未満またはそれに等しい長さである。一部の実施形態において、配列決定アダプタは、末端から末端まで最大７０塩基である。

別の態様において、無細胞ＤＮＡ試料における配列バリアントを検出するための方法であって、９９．９％を超える特異性で、１％未満の濃度の稀なＤＮＡを検出するステップを含む方法が提供される。

別の態様において、方法は、少なくとも１％の検出限界および９９．９％を超える特異性で、ＤＮＡを含む試料における遺伝的バリアントを検出するステップを含む。一部の実施形態において、本方法は、少なくとも３０％、４０％または５０％の変換効率で、ｃＤＮＡ（例えば、ｃｆＤＮＡ）をアダプタタグ付けされたＤＮＡに変換し、偽陽性配列リードを排除することにより配列決定ノイズ（または歪み）を低下させるステップをさらに含む。

別の態様は、（ａ）二本鎖ポリヌクレオチド分子のセットを含む試料を用意するステップであって、各二本鎖ポリヌクレオチド分子が、第１および第２の相補鎖を含むステップと、（ｂ）二本鎖ポリヌクレオチド分子に二重鎖タグのセットをタグ付けするステップであって、各二重鎖タグが、セットにおける二本鎖ポリヌクレオチド分子の第１および第２の相補鎖に異なってタグ付けするステップと、（ｃ）タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップと、（ｄ）配列リードのセットにおける冗長性を低下および／または追跡するステップと、（ｅ）配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、（ｉ）各ペア形成されたリードが、セットにおける二本鎖ポリヌクレオチド分子に由来する第１のタグ付けされた鎖および第２の異なってタグ付けされた相補鎖から生成された配列リードに対応し、（ｉｉ）各ペア形成されないリードが、配列リードのセットにおける配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第２の異なってタグ付けされた相補鎖を持たない第１のタグ付けされた鎖を表すステップと、（ｆ）１種または複数の遺伝子座のそれぞれにマッピングする（ｉ）ペア形成されたリードおよび（ｉｉ）ペア形成されないリードの定量的尺度を決定するステップと、（ｇ）プログラムされたコンピュータプロセッサにより、各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの定量的尺度に基づき、１種または複数の遺伝子座のそれぞれにマッピングするセットにおける総二本鎖ポリヌクレオチド分子の定量的尺度を推定するステップとを含む方法を提供する。

一部の実施形態において、本方法は、（ｈ）１種または複数の遺伝子座のそれぞれにおけるステップ（ｇ）において決定された正規化された総定量的尺度を決定し、正規化された尺度に基づきコピー数バリエーションを決定することにより、試料におけるコピー数バリエーションを検出するステップをさらに含む。一部の実施形態において、試料は、無細胞核酸から実質的に供給される二本鎖ポリヌクレオチド分子を含む。一部の実施形態において、二重鎖タグは、配列決定アダプタではない。

一部の実施形態において、配列リードのセットにおける冗長性を低下させるステップは、試料における本来のポリヌクレオチド分子の増幅された産物から産生された配列リードを、本来のポリヌクレオチド分子に戻るよう崩壊させるステップを含む。一部の実施形態において、本方法は、本来のポリヌクレオチド分子のコンセンサス配列を決定するステップをさらに含む。一部の実施形態において、本方法は、配列バリアントを含む１種または複数の遺伝子座におけるポリヌクレオチド分子を同定するステップをさらに含む。一部の実施形態において、本方法は、遺伝子座にマッピングするペア形成されたリードの定量的尺度を決定するステップであって、ペアの両方の鎖は、配列バリアントを含むステップをさらに含む。一部の実施形態において、本方法は、ペア形成された分子の定量的尺度を決定するステップであって、ペアの一方のメンバーのみが配列バリアントを有するステップ、および／または配列バリアントを有するペア形成されない分子の定量的尺度を決定するステップをさらに含む。一部の実施形態において、配列バリアントは、単一ヌクレオチドバリアント、インデル、トランスバージョン、転位置、逆位、欠失、染色体構造変更、遺伝子融合、染色体融合、遺伝子トランケーション、遺伝子増幅、遺伝子重複および染色体病変からなる群から選択される。

別の態様は、コンピュータプロセッサによる実行後に、（ａ）二重鎖タグをタグ付けされたポリヌクレオチドの配列リードのセットをメモリに受け取るステップと、（ｂ）配列リードのセットにおける冗長性を低下および／または追跡するステップと、（ｃ）配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、（ｉ）各ペア形成されたリードが、セットにおける二本鎖ポリヌクレオチド分子に由来する第１のタグ付けされた鎖および第２の異なってタグ付けされた相補鎖から生成された配列リードに対応し、（ｉｉ）各ペア形成されないリードが、配列リードのセットにおける配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第２の異なってタグ付けされた相補鎖を持たない第１のタグ付けされた鎖を表すステップと、（ｄ）１種または複数の遺伝子座のそれぞれにマッピングする（ｉ）ペア形成されたリードおよび（ｉｉ）ペア形成されないリードの定量的尺度を決定するステップと、（ｅ）各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの定量的尺度に基づき、１種または複数の遺伝子座のそれぞれにマッピングするセットにおける総二本鎖ポリヌクレオチド分子の定量的尺度を推定するステップとを含む方法を実施する機械実行可能コードを含むコンピュータ可読媒体を含むシステムを提供する。

別の態様は、（ａ）二本鎖ポリヌクレオチド分子のセットを含む試料を用意するステップであって、各二本鎖ポリヌクレオチド分子が、第１および第２の相補鎖を含むステップと、（ｂ）二本鎖ポリヌクレオチド分子に二重鎖タグのセットをタグ付けするステップであって、各二重鎖タグが、セットにおける二本鎖ポリヌクレオチド分子の第１および第２の相補鎖を異なってタグ付けするステップと、（ｃ）タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップと、（ｄ）配列リードのセットにおける冗長性を低下および／または追跡するステップと、（ｅ）配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、（ｉ）各ペア形成されたリードが、セットにおける二本鎖ポリヌクレオチド分子に由来する第１のタグ付けされた鎖および第２の異なってタグ付けされた相補鎖から生成された配列リードに対応し、（ｉｉ）各ペア形成されないリードが、配列リードのセットにおける配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第２の異なってタグ付けされた相補鎖を持たない第１のタグ付けされた鎖を表すステップと、（ｆ）（ｉ）ペア形成されたリード、（ｉｉ）１種または複数の遺伝子座のそれぞれにマッピングするペア形成されないリード、（ｉｉｉ）ペア形成されたリードのリード深度および（ｉｖ）ペア形成されないリードのリード深度のうち少なくとも２種の定量的尺度を決定するステップとを含む方法を提供する。

一部の実施形態において、（ｆ）は、（ｉ）～（ｉｖ）のうち少なくとも３種の定量的尺度を決定するステップを含む。一部の実施形態において、（ｆ）は、（ｉ）～（ｉｖ）のうち全ての定量的尺度を決定するステップを含む。一部の実施形態において、本方法は、（ｇ）プログラムされたコンピュータプロセッサにより、各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードならびにこれらのリード深度の定量的尺度に基づき、１種または複数の遺伝子座のそれぞれにマッピングするセットにおける総二本鎖ポリヌクレオチド分子の定量的尺度を推定するステップをさらに含む。

別の態様において、方法は、（ａ）対照親ポリヌクレオチドに第１のタグセットをタグ付けして、タグ付けされた対照親ポリヌクレオチドを産生するステップであって、第１のタグセットが、複数のタグを含み、第１のタグセットにおける各タグが、同じ対照タグおよび同定タグを含み、タグセットが、複数の異なる同定タグを含むステップと、（ｂ）被験親ポリヌクレオチドに第２のタグセットをタグ付けして、タグ付けされた被験親ポリヌクレオチドを産生するステップであって、第２のタグセットが、複数のタグを含み、第２のタグセットにおける各タグが、対照タグおよび同定タグから識別可能な同じ被験タグを含み、第２のタグセットが、複数の異なる同定タグを含むステップと、（ｃ）タグ付けされた対照親ポリヌクレオチドをタグ付けされた被験親ポリヌクレオチドと混合して、プールを形成するステップと、（ｄ）プールにおけるタグ付けされた親ポリヌクレオチドを増幅して、増幅されたタグ付けされたポリヌクレオチドのプールを形成するステップと、（ｅ）増幅されたプールにおける増幅されたタグ付けされたポリヌクレオチドを配列決定して、複数の配列リードを産生するステップと、（ｆ）配列リードをファミリーへと群分けするステップであって、各ファミリーが、同じ親ポリヌクレオチドから生成された配列リードを含み、この群分けが、任意選択で、同定タグおよび親ポリヌクレオチドの開始／終了配列由来の情報に基づくステップと、任意選択で、群における複数の配列リード由来の複数の親ポリヌクレオチドのそれぞれのコンセンサス配列を決定するステップと、（ｇ）被験タグまたは対照タグを有することに基づき、対照親ポリヌクレオチドまたは被験親ポリヌクレオチドとして各ファミリーまたはコンセンサス配列を分類するステップと、（ｈ）少なくとも２種の遺伝子座のそれぞれにマッピングする対照親ポリヌクレオチドおよび対照被験ポリヌクレオチドの定量的尺度を決定するステップと、（ｉ）少なくとも１種の遺伝子座にマッピングする被験親ポリヌクレオチドおよび対照親ポリヌクレオチドの相対的分量に基づき、少なくとも１種の遺伝子座における被験親ポリヌクレオチドにおけるコピー数バリエーションを決定するステップとを含む。

別の態様において、方法は、（ａ）複数の鋳型ポリヌクレオチドから複数の配列リードを生成するステップであって、各ポリヌクレオチドが、ゲノム遺伝子座にマッピングされるステップと、（ｂ）配列リードをファミリーへと群分けするステップであって、各ファミリーが、鋳型ポリヌクレオチドのうち１種から生成された配列リードを含むステップと、（ｃ）ファミリーのそれぞれに対しゲノム遺伝子座において塩基（または配列）をコールするステップと、（ｄ）ゲノム遺伝子座において、コールの中のゲノム変更、コールの中の遺伝子変更の頻度、コールの総数およびコールの中の変更の総数のいずれかを検出するステップとを含む。

一部の実施形態において、コールは、系統発生解析、投票、秤量、ファミリーにおける遺伝子座における各リードへの確率の割り当ておよび最高確率での塩基のコールのいずれかを含む。一部の実施形態において、本方法は、２種の遺伝子座において行われ、遺伝子座のそれぞれにおける計数に基づき、遺伝子座のうち１種におけるＣＮＶを決定するステップを含む。

別の態様は、試料における二本鎖ＤＮＡ断片の数を示す定量的尺度を決定するための方法であって、（ａ）両方の鎖が検出された個々のＤＮＡ分子の定量的尺度を決定するステップと、（ｂ）ＤＮＡ鎖の一方のみが検出された個々のＤＮＡ分子の定量的尺度を決定するステップと、（ｃ）上述の（ａ）および（ｂ）から、どちらの鎖も検出されなかった個々のＤＮＡ分子の定量的尺度を推測するステップと、（ｄ）（ａ）～（ｃ）を使用して、試料における個々の二本鎖ＤＮＡ断片の数を示す定量的尺度を決定するステップとを含む方法を提供する。

一部の実施形態において、本方法は、１種または複数の遺伝子座のそれぞれにおけるステップ（ｄ）において決定された正規化された定量的尺度を決定し、正規化された尺度に基づきコピー数バリエーションを決定することにより、試料におけるコピー数バリエーションを検出するステップをさらに含む。一部の実施形態において、試料は、無細胞核酸から実質的に供給される二本鎖ポリヌクレオチド分子を含む。

一部の実施形態において、個々のＤＮＡ分子の定量的尺度を決定するステップは、ＤＮＡ分子に二重鎖タグのセットをタグ付けするステップを含み、各二重鎖タグは、試料における二本鎖ＤＮＡ分子の相補鎖を異なってタグ付けして、タグ付けされた鎖を用意する。一部の実施形態において、本方法は、タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップをさらに含む。一部の実施形態において、本方法は、配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、（ｉ）各ペア形成されたリードは、セットにおける二本鎖ポリヌクレオチド分子に由来する第１のタグ付けされた鎖および第２の異なってタグ付けされた相補鎖から生成された配列リードに対応し、（ｉｉ）各ペア形成されないリードは、配列リードのセットにおける配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第２の異なってタグ付けされた相補鎖を持たない第１のタグ付けされた鎖を表すステップを含む。一部の実施形態において、本方法は、１種または複数の遺伝子座のそれぞれにマッピングする（ｉ）ペア形成されたリードおよび（ｉｉ）ペア形成されないリードの定量的尺度を決定して、各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの定量的尺度に基づき、１種または複数の遺伝子座のそれぞれにマッピングする試料における総二本鎖ＤＮＡ分子の定量的尺度を決定するステップをさらに含む。

別の態様において、配列決定アッセイにおける歪みを低下させるための方法は、（ａ）対照親ポリヌクレオチドに第１のタグセットをタグ付けして、タグ付けされた対照親ポリヌクレオチドを産生するステップと、（ｂ）被験親ポリヌクレオチドに第２のタグセットをタグ付けして、タグ付けされた被験親ポリヌクレオチドを産生するステップと、（ｃ）タグ付けされた対照親ポリヌクレオチドをタグ付けされた被験親ポリヌクレオチドと混合して、プールを形成するステップと、（ｄ）タグ付けされた対照親ポリヌクレオチドおよびタグ付けされた被験親ポリヌクレオチドの分量を決定するステップと、（ｅ）タグ付けされた対照親ポリヌクレオチドの分量を使用して、タグ付けされた被験親ポリヌクレオチドの分量における歪みを低下させるステップとを含む。

一部の実施形態において、第１のタグセットは、複数のタグを含み、第１のタグセットにおける各タグは、同じ対照タグおよび同定タグを含み、第１のタグセットは、複数の異なる同定タグを含む。一部の実施形態において、第２のタグセットは、複数のタグを含み、第２のタグセットにおける各タグは、同じ被験タグおよび同定タグを含み、被験タグは、対照タグから識別可能であり、第２のタグセットは、複数の異なる同定タグを含む。一部の実施形態において、（ｄ）は、プールにおけるタグ付けされた親ポリヌクレオチドを増幅して、増幅されたタグ付けされたポリヌクレオチドのプールを形成するステップと、増幅されたプールにおける増幅されたタグ付けされたポリヌクレオチドを配列決定して、複数の配列リードを産生するステップとを含む。一部の実施形態において、本方法は、配列リードをファミリーへと群分けするステップをさらに含み、各ファミリーは、同じ親ポリヌクレオチドから生成された配列リードを含み、この群分けは、任意選択で、同定タグおよび親ポリヌクレオチドの開始／終了配列由来の情報に基づくステップと、任意選択で、群における複数の配列リード由来の複数の親ポリヌクレオチドのそれぞれのコンセンサス配列を決定するステップを含む。

一部の実施形態において、（ｄ）は、遺伝子座にマッピングする被験親ポリヌクレオチドおよび対照親ポリヌクレオチドの相対的分量に基づき、１種を超えるまたはそれに等しい遺伝子座における被験親ポリヌクレオチドにおけるコピー数バリエーションを決定するステップを含む。

別の態様は、（ａ）二本鎖ＤＮＡポリヌクレオチド由来の挿入物を含み、４～百万種の間の異なるタグを有するタグ付けされたライブラリーを産生するように、アダプタを二本鎖ＤＮＡポリヌクレオチドにライゲーションするステップであって、ライゲーションが、単一の反応容器内で行われ、アダプタが、分子バーコードを含むステップと、（ｂ）タグ付けされたライブラリーにおける二本鎖ＤＮＡポリヌクレオチドのそれぞれの複数の配列リードを生成するステップと、（ｃ）タグにおける情報および挿入物の末端における情報に基づき、配列リードをファミリーへと群分けするステップであって、各ファミリーが、二本鎖ＤＮＡポリヌクレオチドの中の単一ＤＮＡポリヌクレオチドから生成された配列リードを含むステップと、（ｄ）ファミリーのメンバーにおける位置における塩基に基づき、二本鎖ＤＮＡ分子における各位置における塩基をコールするステップとを含む方法を提供する。一部の実施形態において、（ｂ）は、タグ付けされたライブラリーにおける二本鎖ＤＮＡポリヌクレオチド分子のそれぞれを増幅して、増幅産物を生成するステップと、増幅産物を配列決定するステップとを含む。一部の実施形態において、本方法は、二本鎖ＤＮＡポリヌクレオチド分子を複数回配列決定するステップをさらに含む。一部の実施形態において、（ｂ）は、挿入物全体を配列決定するステップを含む。一部の実施形態において、（ｃ）は、各ファミリーにおける配列リードを崩壊させて、コンセンサス配列を生成するステップをさらに含む。一部の実施形態において、（ｄ）は、配列リードの少なくともサブセット由来の複数の連続的塩基をコールして、二本鎖ＤＮＡ分子における単一ヌクレオチドバリエーション（ＳＮＶ）を同定するステップを含む。

別の態様は、体細胞および疾患細胞由来のポリヌクレオチドを含む試料から疾患細胞異種性を検出する方法を提供する。本方法は、複数の遺伝子座のそれぞれにヌクレオチド配列バリアントを有する試料におけるポリヌクレオチドを定量化するステップと、複数の遺伝子座のそれぞれにおけるコピー数バリエーション（ＣＮＶ）を決定するステップであって、ＣＮＶが、疾患細胞ポリヌクレオチドにおける遺伝子座の遺伝子量を示すステップと、プログラムされたコンピュータプロセッサにより、複数の遺伝子座のそれぞれの遺伝子座における遺伝子量当たりの遺伝子座における配列バリアントを有するポリヌクレオチドの分量の相対的尺度を決定するステップと、複数の遺伝子座のそれぞれにおける相対的尺度を比較するステップであって、異なる相対的尺度が、腫瘍異種性を示すステップとを含む。

別の態様において、方法は、対象を１または複数のパルス治療サイクルに供するステップであって、各パルス治療サイクルが、（ａ）第１の量で薬物が投与される第１の期間および（ｂ）第２の低下した量で薬物が投与される第２の期間を含むステップを含み、（ｉ）第１の期間は、第１の臨床レベルを上回って検出される腫瘍負荷によって特徴付けられ、（ｉｉ）第２の期間は、第２の臨床レベルを下回って検出される腫瘍負荷によって特徴付けられる。
本発明は、例えば、以下の項目を提供する。
（項目１）
試料における個々の二本鎖デオキシリボ核酸（ＤＮＡ）分子の数を示す定量的尺度を決定するための方法であって、
（ａ）両方の鎖が検出された個々のＤＮＡ分子の定量的尺度を決定するステップと、
（ｂ）ＤＮＡ鎖の一方のみが検出された個々のＤＮＡ分子の定量的尺度を決定するステップと、
（ｃ）上述の（ａ）および（ｂ）から、どちらの鎖も検出されなかった個々のＤＮＡ分子の定量的尺度を推測するステップと、
（ｄ）（ａ）～（ｃ）を使用して、前記試料における個々の二本鎖ＤＮＡ分子の数を示す前記定量的尺度を決定するステップと
を含む方法。
（項目２）
１種または複数の遺伝子座のそれぞれにおけるステップ（ｄ）において決定された正規化された定量的尺度を決定し、前記正規化された尺度に基づきコピー数バリエーションを決定することにより、前記試料におけるコピー数バリエーションを検出するステップをさらに含む、項目１に記載の方法。
（項目３）
前記試料が、無細胞核酸から実質的に供給される二本鎖ポリヌクレオチド分子を含む、項目１に記載の方法。
（項目４）
個々のＤＮＡ分子の前記定量的尺度を決定するステップが、前記ＤＮＡ分子に二重鎖タグのセットをタグ付けするステップを含み、各二重鎖タグが、前記試料における二本鎖ＤＮＡ分子の相補鎖を異なってタグ付けして、タグ付けされた鎖を用意する、項目１に記載の方法。
（項目５）
前記タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップをさらに含む、項目４に記載の方法。
（項目６）
配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、（ｉ）各ペア形成されたリードが、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第１のタグ付けされた鎖および第２の異なってタグ付けされた相補鎖から生成された配列リードに対応し、（ｉｉ）各ペア形成されないリードが、配列リードの前記セットにおける前記配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第２の異なってタグ付けされた相補鎖を持たない第１のタグ付けされた鎖を表すステップをさらに含む、項目５に記載の方法。
（項目７）
１種または複数の遺伝子座のそれぞれにマッピングする（ｉ）前記ペア形成されたリードおよび（ｉｉ）前記ペア形成されないリードの定量的尺度を決定して、各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの前記定量的尺度に基づき、前記１種または複数の遺伝子座のそれぞれにマッピングする前記試料における総二本鎖ＤＮＡ分子の定量的尺度を決定するステップをさらに含む、項目６に記載の方法。
（項目８）
配列決定アッセイにおける歪みを低下させるための方法であって、
（ａ）対照親ポリヌクレオチドに第１のタグセットをタグ付けして、タグ付けされた対照親ポリヌクレオチドを産生するステップと、
（ｂ）被験親ポリヌクレオチドに第２のタグセットをタグ付けして、タグ付けされた被験親ポリヌクレオチドを産生するステップと、
（ｃ）タグ付けされた対照親ポリヌクレオチドをタグ付けされた被験親ポリヌクレオチドと混合して、プールを形成するステップと、
（ｄ）タグ付けされた対照親ポリヌクレオチドおよびタグ付けされた被験親ポリヌクレオチドの分量を決定するステップと、
（ｅ）タグ付けされた対照親ポリヌクレオチドの前記分量を使用して、タグ付けされた被験親ポリヌクレオチドの前記分量における歪みを低下させるステップと
を含む方法。
（項目９）
前記第１のタグセットが、複数のタグを含み、前記第１のタグセットにおける各タグが、同じ対照タグおよび同定タグを含み、前記第１のタグセットが、複数の異なる同定タグを含む、項目８に記載の方法。
（項目１０）
前記第２のタグセットが、複数のタグを含み、前記第２のタグセットにおける各タグが、同じ被験タグおよび同定タグを含み、前記被験タグが、前記対照タグから識別可能であり、前記第２のタグセットが、複数の異なる同定タグを含む、項目９に記載の方法。
（項目１１）
（ｄ）が、前記プールにおけるタグ付けされた親ポリヌクレオチドを増幅して、増幅されたタグ付けされたポリヌクレオチドのプールを形成するステップと、前記増幅されたプールにおける増幅されたタグ付けされたポリヌクレオチドを配列決定して、複数の配列リードを産生するステップとを含む、項目９に記載の方法。
（項目１２）
配列リードをファミリーへと群分けするステップであって、各ファミリーが、同じ親ポリヌクレオチドから生成された配列リードを含み、この群分けが、任意選択で、同定タグおよび前記親ポリヌクレオチドの開始／終了配列由来の情報に基づくステップと、任意選択で、群における前記複数の配列リード由来の複数の親ポリヌクレオチドのそれぞれのコンセンサス配列を決定するステップとをさらに含む、項目１１に記載の方法。
（項目１３）
（ｄ）が、遺伝子座にマッピングする被験親ポリヌクレオチドおよび対照親ポリヌクレオチドの相対的分量に基づき、１種を超えるまたはそれに等しい前記遺伝子座における前記被験親ポリヌクレオチドにおけるコピー数バリエーションを決定するステップを含む、項目８に記載の方法。
（項目１４）
分子バーコードを有する複数のポリヌクレオチド分子を含むライブラリーアダプタのセットであって、前記複数のポリヌクレオチド分子が、８０ヌクレオチド塩基未満またはそれに等しい長さであり、前記分子バーコードが、少なくとも４ヌクレオチド塩基の長さであり、
（ａ）前記分子バーコードが、互いに異なり、互いの間に少なくとも１の編集距離を有し、
（ｂ）前記分子バーコードが、それぞれのポリヌクレオチド分子の末端から少なくとも１ヌクレオチド塩基離れて位置し、
（ｃ）任意選択で、少なくとも１末端塩基が、前記ポリヌクレオチド分子の全てにおいて同一であり、
（ｄ）前記ポリヌクレオチド分子のいずれも、完全シーケンサーモチーフを含有しない
ライブラリーアダプタのセット。
（項目１５）
前記ポリヌクレオチド分子が、前記分子バーコードを除いて同一である、項目１４に記載のライブラリーアダプタのセット。
（項目１６）
前記複数のポリヌクレオチド分子のそれぞれが、二本鎖部分および少なくとも１個の一本鎖部分を有する、項目１４に記載のライブラリーアダプタのセット。
（項目１７）
前記二本鎖部分が、複数の前記分子バーコードの中の１つの分子バーコードを有する、項目１６に記載のライブラリーアダプタのセット。
（項目１８）
前記所与の分子バーコードが、ランダマーである、項目１７に記載のライブラリーアダプタのセット。
（項目１９）
前記複数のポリヌクレオチド分子のそれぞれが、前記少なくとも１個の一本鎖部分に鎖同定バーコードをさらに含む、項目１６に記載のライブラリーアダプタのセット。
（項目２０）
前記鎖同定バーコードが、少なくとも４ヌクレオチド塩基を含む、項目１９に記載のライブラリーアダプタのセット。
（項目２１）
前記一本鎖部分が、部分的シーケンサーモチーフを有する、項目１６に記載のライブラリーアダプタのセット。
（項目２２）
前記ポリヌクレオチド分子が、同じである末端ヌクレオチドの配列を有する、項目１４に記載のライブラリーアダプタのセット。
（項目２３）
前記複数のポリヌクレオチド分子のそれぞれが、Ｙ字形、バブル形またはヘアピン形である、項目１４に記載のライブラリーアダプタのセット。
（項目２４）
前記ポリヌクレオチド分子のいずれも、試料同定モチーフを含有しない、項目１４に記載のライブラリーアダプタのセット。
（項目２５）
前記分子バーコードが、少なくとも１０ヌクレオチド塩基の長さである、項目１４に記載のライブラリーアダプタのセット。
（項目２６）
前記複数のポリヌクレオチド分子のそれぞれが、１０ヌクレオチド塩基～６０ヌクレオチド塩基の長さである、項目１４に記載のライブラリーアダプタのセット。
（項目２７）
前記少なくとも１末端塩基が、前記ポリヌクレオチド分子の全てにおいて同一である、項目１４に記載のライブラリーアダプタのセット。
（項目２８）
前記分子バーコードが、それぞれのポリヌクレオチド分子の末端から少なくとも１０ヌクレオチド塩基離れて位置する、項目１４に記載のライブラリーアダプタのセット。
（項目２９）
前記複数のポリヌクレオチド分子から本質的になる、項目１４に記載のライブラリーアダプタのセット。
（項目３０）
（ａ）項目１４に記載のアダプタのライブラリー由来の複数のポリヌクレオチド分子をポリヌクレオチドのコレクションにタグ付けして、タグ付けされたポリヌクレオチドのコレクションを作製するステップと、
（ｂ）配列決定アダプタの存在下で、タグ付けされたポリヌクレオチドの前記コレクションを増幅するステップであって、前記配列決定アダプタが、前記複数のポリヌクレオチド分子における相補的配列に選択的にハイブリダイズ可能なヌクレオチド配列を有するプライマーを有するステップと
を含む方法。
（項目３１）
本来のＤＮＡ断片の異種性集団における稀なデオキシリボ核酸（ＤＮＡ）を検出または定量化するための方法であって、前記稀なＤＮＡが、１％未満である濃度を有し、前記方法が、
（ａ）前記本来のＤＮＡ断片の３０％超が、分子バーコードを含むライブラリーアダプタを両端にタグ付けされるように、単一の反応において前記本来のＤＮＡ断片にタグ付けし、これにより、タグ付けされたＤＮＡ断片を用意するステップと、
（ｂ）前記タグ付けされたＤＮＡ断片において高忠実度増幅を行うステップと、
（ｃ）任意選択で、前記タグ付けされたＤＮＡ断片のサブセットを選択的に濃縮するステップと、
（ｄ）前記タグ付けされ、増幅され、任意選択で選択的に濃縮されたＤＮＡ断片の一方または両方の鎖を配列決定して、前記分子バーコードおよび前記本来のＤＮＡ断片の少なくとも一部分のヌクレオチド配列を含む配列リードを得るステップと、
（ｅ）前記配列リードから、前記本来のＤＮＡ断片の一本鎖の代表となるコンセンサスリードを決定するステップと、
（ｆ）前記コンセンサスリードを定量化して、９９．９％を超える特異性で、前記稀なＤＮＡを検出または定量化するステップと
を含む方法。
（項目３２）
ステップ（ｅ）が、同じまたは類似の分子バーコードおよび同じまたは類似の断片配列の末端を有する配列リードを比較するステップを含む、項目３１に記載の方法。
（項目３３）
前記比較するステップが、同じまたは類似の分子バーコードを有する前記配列リードにおける系統発生解析を実行するステップをさらに含む、項目３２に記載の方法。
（項目３４）
前記分子バーコードが、最大３の編集距離を有するバーコードを含む、項目３２に記載の方法。
（項目３５）
前記断片配列の末端が、最大３の編集距離を有する断片配列を含む、項目３１に記載の方法。
（項目３６）
配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップと、１種または複数の遺伝子座のそれぞれにマッピングするペア形成されたリードおよびペア形成されないリードの数を定量化するステップとをさらに含む、項目３１に記載の方法。
（項目３７）
前記タグ付けが、本来のＤＮＡ断片と比較して過剰量のライブラリーアダプタを有することにより起こる、項目３１に記載の方法。
（項目３８）
前記分子バーコードおよび前記本来のＤＮＡ断片のそれぞれの少なくとも一端由来の配列情報に従って前記配列リードをビニングして、一本鎖リードのビンを作製するステップをさらに含む、項目３１に記載の方法。
（項目３９）
各ビンにおいて、配列リードを解析することにより、前記本来のＤＮＡ断片の中の所与の本来のＤＮＡ断片の配列を決定するステップをさらに含む、項目３８に記載の方法。
（項目４０）
前記タグ付けされ、増幅され、任意選択で濃縮されたＤＮＡ断片によって表されるゲノムの各位置において各塩基が生じる回数を比較することにより、前記稀なＤＮＡを検出または定量化するステップをさらに含む、項目３９に記載の方法。
（項目４１）
前記タグ付けされたＤＮＡ断片のサブセットを選択的に濃縮するステップをさらに含む、項目３１に記載の方法。
（項目４２）
濃縮後に、プライマーを含む配列決定アダプタの存在下で、前記濃縮されたタグ付けされたＤＮＡ断片を増幅するステップをさらに含む、項目４１に記載の方法。
（項目４３）
前記ＤＮＡ断片が、項目１に記載のアダプタのライブラリー由来のポリヌクレオチド分子をタグ付けされる、項目３１に記載の方法。
（項目４４）
対象の核酸試料を処理および／または解析するための方法であって、
（ａ）前記核酸試料由来のポリヌクレオチド断片をライブラリーアダプタのセットに曝露して、タグ付けされたポリヌクレオチド断片を生成するステップと、
（ｂ）前記タグ付けされたポリヌクレオチド断片の増幅産物として増幅されたポリヌクレオチド断片を生じる条件下で、前記タグ付けされたポリヌクレオチド断片を核酸増幅反応に供するステップとを含み、
前記ライブラリーアダプタのセットが、分子バーコードを有する複数のポリヌクレオチド分子を含み、前記複数のポリヌクレオチド分子が、８０ヌクレオチド塩基未満またはそれに等しい長さであり、前記分子バーコードが、少なくとも４ヌクレオチド塩基の長さであり、
（１）前記分子バーコードが、互いに異なり、互いの間に少なくとも１の編集距離を有し、
（２）前記分子バーコードが、それぞれのポリヌクレオチド分子の末端から少なくとも１ヌクレオチド塩基離れて位置し、
（３）任意選択で、少なくとも１末端塩基が、前記ポリヌクレオチド分子の全てにおいて同一であり、
（４）前記ポリヌクレオチド分子のいずれも、完全シーケンサーモチーフを含有しない方法。
（項目４５）
前記増幅されたタグ付けされたポリヌクレオチド断片のヌクレオチド配列を決定するステップをさらに含む、項目４４に記載の方法。
（項目４６）
前記増幅されたタグ付けされたポリヌクレオチド断片の前記ヌクレオチド配列が、ポリメラーゼ連鎖反応（ＰＣＲ）なしで決定される、項目４５に記載の方法。
（項目４７）
プログラムされたコンピュータプロセッサにより前記ヌクレオチド配列を解析して、前記対象の前記ヌクレオチド試料における１種または複数の遺伝的バリアントを同定するステップをさらに含む、項目４５に記載の方法。
（項目４８）
前記核酸試料が、無細胞核酸試料である、項目４４に記載の方法。
（項目４９）
前記核酸試料の前記ポリヌクレオチド断片を前記複数のポリヌクレオチド分子に曝露するステップが、少なくとも１０％の変換効率で、前記タグ付けされたポリヌクレオチド断片を生じる、項目４４に記載の方法。
（項目５０）
前記供するステップが、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される遺伝子に対応する配列から前記タグ付けされたポリヌクレオチド断片を増幅するステップを含む、項目４４に記載の方法。
（項目５１）
（ａ）複数のポリヌクレオチド分子から複数の配列リードを生成するステップであって、前記複数のポリヌクレオチド分子が、標的ゲノムのゲノム遺伝子座を網羅し、前記ゲノム遺伝子座が、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される複数の遺伝子に対応するステップと、
（ｂ）コンピュータプロセッサにより、前記複数の配列リードをファミリーへと群分けするステップであって、各ファミリーが、鋳型ポリヌクレオチドのうち１種に由来する配列リードを含むステップと、
（ｃ）前記ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成するステップと、
（ｄ）前記ゲノム遺伝子座の中の所与のゲノム遺伝子座において前記コンセンサス配列をコールするステップと、
（ｅ）前記所与のゲノム遺伝子座において、
ｉ．前記コールの中の遺伝的バリアント、
ｉｉ．前記コールの中の遺伝子変更の頻度、
ｉｉｉ．コールの総数、および
ｉｖ．前記コールの中の変更の総数
のいずれかを検出するステップと
を含む方法。
（項目５２）
各ファミリーが、前記鋳型ポリヌクレオチドのうち１種のみに由来する配列リードを含む、項目５１に記載の方法。
（項目５３）
前記ゲノム遺伝子座の中の追加的なゲノム遺伝子座において（ｄ）～（ｅ）を行うステップをさらに含む、項目５１に記載の方法。
（項目５４）
前記所与のゲノム遺伝子座および追加的なゲノム遺伝子座における計数に基づき、前記所与のゲノム遺伝子座および追加的なゲノム遺伝子座のうち１種におけるコピー数のバリエーションを決定するステップをさらに含む、項目５３に記載の方法。
（項目５５）
前記群分けするステップが、（ｉ）前記複数のポリヌクレオチド分子にカップリングされた別個の分子バーコードおよび（ｉｉ）前記複数の配列リードの間の類似性を同定することにより、前記複数の配列リードをファミリーへと分類するステップを含み、各ファミリーが、分子バーコードおよび類似または同一の配列リードの別個の組合せに関連する複数の核酸配列を含む、項目５１に記載の方法。
（項目５６）
前記コンセンサス配列が、前記配列リードのそれぞれの定量的尺度または統計的有意性レベルを評価することにより生成される、項目５１に記載の方法。
（項目５７）
前記複数の遺伝子が、前記群から選択される前記複数の遺伝子のうち少なくとも１０種を含む、項目５１に記載のシステム。
（項目５８）
（ａ）単一の反応容器内に鋳型ポリヌクレオチド分子およびライブラリーアダプタのセットを用意するステップであって、前記ライブラリーアダプタが、異なる分子バーコードを有するポリヌクレオチド分子であり、前記ライブラリーアダプタのいずれも、完全シーケンサーモチーフを含有しないステップと、
（ｂ）前記単一の反応容器内で、少なくとも１０％の効率で、前記ライブラリーアダプタを前記鋳型ポリヌクレオチド分子にカップリングし、これにより、複数の異なるタグ付け組合せの中にあるタグ付け組合せを各鋳型ポリヌクレオチドにタグ付けして、タグ付けされたポリヌクレオチド分子を産生するステップと、
（ｃ）前記タグ付けされたポリヌクレオチド分子の増幅産物として増幅されたポリヌクレオチド分子を生じる条件下で、前記タグ付けされたポリヌクレオチド分子を増幅反応に供するステップと、
（ｄ）前記増幅されたポリヌクレオチド分子を配列決定するステップと
を含む方法。
（項目５９）
前記ライブラリーアダプタが、前記分子バーコードを除いて同一である、項目５８に記載の方法。
（項目６０）
前記ライブラリーアダプタのそれぞれが、二本鎖部分および少なくとも１個の一本鎖部分を有し、前記一本鎖部分が、部分的シーケンサーモチーフを有する、項目５８に記載の方法。
（項目６１）
前記ライブラリーアダプタが、前記鋳型ポリヌクレオチド分子の両端にカップリングする、項目５８に記載の方法。
（項目６２）
前記効率が、少なくとも３０％である、項目５８に記載の方法。
（項目６３）
前記増幅されたポリヌクレオチド分子の配列決定の際に遺伝的バリアントを同定するステップをさらに含む、項目５８に記載の方法。
（項目６４）
前記配列決定するステップが、（ｉ）前記増幅されたポリヌクレオチド分子の増幅産物として追加的な増幅されたポリヌクレオチド分子を生じる条件下で、前記増幅されたポリヌクレオチド分子を追加的な増幅反応に供するステップと、（ｉｉ）前記追加的な増幅されたポリヌクレオチド分子を配列決定するステップとを含む、項目５８に記載の方法。
（項目６５）
前記追加的な増幅が、配列決定アダプタの存在下で行われる、項目６４に記載の方法。（項目６６）
（ｂ）および（ｃ）が、前記タグ付けされたポリヌクレオチド分子をアリコートにすることなく行われる、項目５８に記載の方法。
（項目６７）
対象の標的核酸分子を解析するためのシステムであって、
標的ゲノムのゲノム遺伝子座を網羅する複数のポリヌクレオチド分子の核酸配列リードを受け取る通信インターフェイスと、
前記通信インターフェイスによって受け取られた前記複数のポリヌクレオチド分子の前記核酸配列リードを記憶するコンピュータメモリと、
前記通信インターフェイスおよび前記メモリに作動可能にカップリングされ、（ｉ）前記複数の配列リードを、各ファミリーが、前記鋳型ポリヌクレオチドのうち１種に由来する配列リードを含むファミリーへと群分けし、（ｉｉ）前記ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成し、（ｉｉｉ）前記ゲノム遺伝子座の中の所与のゲノム遺伝子座において前記コンセンサス配列をコールし、（ｉｖ）前記所与のゲノム遺伝子座において、前記コールの中の遺伝的バリアント、前記コールの中の遺伝子変更の頻度、コールの総数および前記コールの中の変更の総数のいずれかを検出するようにプログラムされたコンピュータプロセッサと
を含み、前記ゲノム遺伝子座が、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される複数の遺伝子に対応する
システム。
（項目６８）
ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される少なくとも５種の遺伝子に選択的にハイブリダイズする、オリゴヌクレオチド分子のセット。
（項目６９）
前記オリゴヌクレオチド分子が、１０～２００塩基の長さである、項目６８に記載のセット。
（項目７０）
前記オリゴヌクレオチド分子が、前記少なくとも５種の遺伝子のエクソン領域に選択的にハイブリダイズする、項目６８に記載のキット。
（項目７１）
前記オリゴヌクレオチド分子が、前記少なくとも５種の遺伝子における少なくとも３０種のエクソンに選択的にハイブリダイズする、項目７０に記載のキット。
（項目７２）
複数のオリゴヌクレオチド分子が、前記少なくとも３０種のエクソンのそれぞれに選択的にハイブリダイズする、項目７１に記載のキット。
（項目７３）
各エクソンにハイブリダイズする前記オリゴヌクレオチド分子が、少なくとも１種の他のオリゴヌクレオチド分子と重複する配列を有する、項目７２に記載のキット。
（項目７４）
それぞれ異なる分子バーコードを有する複数のライブラリーアダプタを含有する第１の容器と、
複数の配列決定アダプタを含有する第２の容器であって、各配列決定アダプタが、シーケンサーモチーフの少なくとも一部分および任意選択で試料バーコードを含む第２の容器と
を含むキット。
（項目７５）
前記配列決定アダプタが、前記試料バーコードを含む、項目７４に記載のキット。
（項目７６）
無細胞ＤＮＡ試料における配列バリアントを検出するための方法であって、９９．９％を超える特異性で、１％未満の濃度の稀なＤＮＡを検出するステップを含む、方法。
（項目７７）
（ａ）二本鎖ポリヌクレオチド分子のセットを含む試料を用意するステップであって、各二本鎖ポリヌクレオチド分子が、第１および第２の相補鎖を含むステップと、
（ｂ）前記二本鎖ポリヌクレオチド分子に二重鎖タグのセットをタグ付けするステップであって、各二重鎖タグが、前記セットにおける二本鎖ポリヌクレオチド分子の前記第１および第２の相補鎖を異なってタグ付けするステップと、
（ｃ）前記タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップと、
（ｄ）配列リードの前記セットにおける冗長性を低下および／または追跡するステップと、
（ｅ）配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、（ｉ）各ペア形成されたリードが、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第１のタグ付けされた鎖および第２の異なってタグ付けされた相補鎖から生成された配列リードに対応し、（ｉｉ）各ペア形成されないリードが、配列リードの前記セットにおける前記配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第２の異なってタグ付けされた相補鎖を持たない第１のタグ付けされた鎖を表すステップと、
（ｆ）１種または複数の遺伝子座のそれぞれにマッピングする（ｉ）前記ペア形成されたリードおよび（ｉｉ）前記ペア形成されないリードの定量的尺度を決定するステップと、（ｇ）プログラムされたコンピュータプロセッサにより、各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの前記定量的尺度に基づき、前記１種または複数の遺伝子座のそれぞれにマッピングする前記セットにおける総二本鎖ポリヌクレオチド分子の定量的尺度を推定するステップと
を含む方法。
（項目７８）
（ｈ）前記１種または複数の遺伝子座のそれぞれにおけるステップ（ｇ）において決定された正規化された総定量的尺度を決定し、前記正規化された尺度に基づきコピー数バリエーションを決定することにより、前記試料におけるコピー数バリエーションを検出するステップをさらに含む、項目７７に記載の方法。
（項目７９）
前記試料が、無細胞核酸から実質的に供給される二本鎖ポリヌクレオチド分子を含む、項目７７に記載の方法。
（項目８０）
前記二重鎖タグが、配列決定アダプタではない、項目７７に記載の方法。
（項目８１）
配列リードの前記セットにおける冗長性を低下させるステップが、前記試料における本来のポリヌクレオチド分子の増幅された産物から産生された配列リードを、前記本来のポリヌクレオチド分子に戻るよう崩壊させるステップを含む、項目７７に記載の方法。
（項目８２）
前記本来のポリヌクレオチド分子のコンセンサス配列を決定するステップをさらに含む、項目８１に記載の方法。
（項目８３）
配列バリアントを含む１種または複数の遺伝子座におけるポリヌクレオチド分子を同定するステップをさらに含む、項目８２に記載の方法。
（項目８４）
遺伝子座にマッピングするペア形成されたリードの定量的尺度を決定するステップであって、前記ペアの両方の鎖が、配列バリアントを含むステップをさらに含む、項目８２に記載の方法。
（項目８５）
ペア形成された分子の定量的尺度を決定するステップであって、前記ペアの一方のメンバーのみが配列バリアントを有するステップ、および／または配列バリアントを有するペア形成されない分子の定量的尺度を決定するステップをさらに含む、項目８４に記載の方法。
（項目８６）
（ａ）シーケンサーからメモリへと、二重鎖タグをタグ付けされたポリヌクレオチドの配列リードのセットを受け取るステップと、
（ｂ）配列リードの前記セットにおける冗長性を低下および／または追跡するステップと、
（ｃ）配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、（ｉ）各ペア形成されたリードが、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第１のタグ付けされた鎖および第２の異なってタグ付けされた相補鎖から生成された配列リードに対応し、（ｉｉ）各ペア形成されないリードが、配列リードの前記セットにおける前記配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第２の異なってタグ付けされた相補鎖を持たない第１のタグ付けされた鎖を表すステップと、
（ｄ）１種または複数の遺伝子座のそれぞれにマッピングする（ｉ）前記ペア形成されたリードおよび（ｉｉ）前記ペア形成されないリードの定量的尺度を決定するステップと、（ｅ）各遺伝子座にマッピングするペア形成されたリードおよびペア形成されないリードの前記定量的尺度に基づき、前記１種または複数の遺伝子座のそれぞれにマッピングする前記セットにおける総二本鎖ポリヌクレオチド分子の定量的尺度を推定するステップと
を含む方法。
（項目８７）
（ａ）二本鎖ポリヌクレオチド分子のセットを含む試料を用意するステップであって、各二本鎖ポリヌクレオチド分子が、第１および第２の相補鎖を含むステップと、
（ｂ）前記二本鎖ポリヌクレオチド分子に二重鎖タグのセットをタグ付けするステップであって、各二重鎖タグが、前記セットにおける二本鎖ポリヌクレオチド分子の前記第１および第２の相補鎖を異なってタグ付けするステップと、
（ｃ）前記タグ付けされた鎖の少なくとも一部を配列決定して、配列リードのセットを産生するステップと、
（ｄ）配列リードの前記セットにおける冗長性を低下および／または追跡するステップと、
（ｅ）配列リードをペア形成されたリードおよびペア形成されないリードへと選別するステップであって、（ｉ）各ペア形成されたリードが、前記セットにおける二本鎖ポリヌクレオチド分子に由来する第１のタグ付けされた鎖および第２の異なってタグ付けされた相補鎖から生成された配列リードに対応し、（ｉｉ）各ペア形成されないリードが、配列リードの前記セットにおける前記配列リードの中に表される二本鎖ポリヌクレオチド分子に由来する第２の異なってタグ付けされた相補鎖を持たない第１のタグ付けされた鎖を表すステップと、
（ｆ）（ｉ）前記ペア形成されたリード、（ｉｉ）１種または複数の遺伝子座のそれぞれにマッピングする前記ペア形成されないリード、（ｉｉｉ）前記ペア形成されたリードのリード深度および（ｉｖ）ペア形成されないリードのリード深度のうち少なくとも２種の定量的尺度を決定するステップと
を含む方法。
（項目８８）
（ａ）対照親ポリヌクレオチドに第１のタグセットをタグ付けして、タグ付けされた対照親ポリヌクレオチドを産生するステップであって、前記第１のタグセットが、複数のタグを含み、前記第１のタグセットにおける各タグが、同じ対照タグおよび同定タグを含み、前記タグセットが、複数の異なる同定タグを含むステップと、
（ｂ）被験親ポリヌクレオチドに第２のタグセットをタグ付けして、タグ付けされた被験親ポリヌクレオチドを産生するステップであって、前記第２のタグセットが、複数のタグを含み、前記第２のタグセットにおける各タグが、前記対照タグおよび同定タグから識別可能な同じ被験タグを含み、前記第２のタグセットが、複数の異なる同定タグを含むステップと、
（ｃ）タグ付けされた対照親ポリヌクレオチドをタグ付けされた被験親ポリヌクレオチドと混合して、プールを形成するステップと、
（ｄ）前記プールにおけるタグ付けされた親ポリヌクレオチドを増幅して、増幅されたタグ付けされたポリヌクレオチドのプールを形成するステップと、
（ｅ）前記増幅されたプールにおける増幅されたタグ付けされたポリヌクレオチドを配列決定して、複数の配列リードを産生するステップと、
（ｆ）配列リードをファミリーへと群分けするステップであって、各ファミリーが、同じ親ポリヌクレオチドから生成された配列リードを含み、この群分けが、任意選択で、同定タグおよび前記親ポリヌクレオチドの開始／終了配列由来の情報に基づくステップと、任意選択で、群における前記複数の配列リード由来の複数の親ポリヌクレオチドのそれぞれのコンセンサス配列を決定するステップと、
（ｇ）被験タグまたは対照タグを有することに基づき、対照親ポリヌクレオチドまたは被験親ポリヌクレオチドとして各ファミリーまたはコンセンサス配列を分類するステップと、
（ｈ）少なくとも２種の遺伝子座のそれぞれにマッピングする対照親ポリヌクレオチドおよび対照被験ポリヌクレオチドの定量的尺度を決定するステップと、
（ｉ）少なくとも１種の遺伝子座にマッピングする被験親ポリヌクレオチドおよび対照親ポリヌクレオチドの相対的分量に基づき、前記少なくとも１種の遺伝子座における前記被験親ポリヌクレオチドにおけるコピー数バリエーションを決定するステップと
を含む方法。
（項目８９）
（ａ）複数の鋳型ポリヌクレオチドから複数の配列リードを生成するステップであって、各ポリヌクレオチドが、ゲノム遺伝子座にマッピングされるステップと、
（ｂ）前記配列リードをファミリーへと群分けするステップであって、各ファミリーが、前記鋳型ポリヌクレオチドのうち１種から生成された配列リードを含むステップと、
（ｃ）前記ファミリーのそれぞれに対し前記ゲノム遺伝子座においてヌクレオチド塩基または配列をコールするステップと、
（ｄ）前記ゲノム遺伝子座において、
ｉ．前記コールの中のゲノム変更、
ｉｉ．前記コールの中の遺伝子変更の頻度、
ｉｉｉ．コールの総数、
ｉｖ．前記コールの中の変更の総数
のいずれかを検出するステップと
を含む方法。
（項目９０）
コールが、系統発生解析、投票、秤量、ファミリーにおける前記遺伝子座における各リードへの確率の割り当ておよび最高確率での前記ヌクレオチド塩基のコールのいずれかを含む、項目８９に記載の方法。
（項目９１）
２種の遺伝子座において行われ、前記遺伝子座のそれぞれにおける計数に基づき、前記遺伝子座のうち１種におけるＣＮＶを決定するステップを含む、項目８９に記載の方法。
（項目９２）
（ａ）二本鎖デオキシリボ核酸（ＤＮＡ）ポリヌクレオチド由来の挿入物を含み、４～百万種の間の異なるタグを有するタグ付けされたライブラリーを産生するように、アダプタを前記二本鎖ＤＮＡポリヌクレオチドにライゲーションするステップであって、ライゲーションが、単一の反応容器内で行われ、前記アダプタが、分子バーコードを含むステップと、
（ｂ）前記タグ付けされたライブラリーにおける前記二本鎖ＤＮＡポリヌクレオチドのそれぞれの複数の配列リードを生成するステップと、
（ｃ）タグにおける情報および前記挿入物の末端における情報に基づき、配列リードをファミリーへと群分けするステップであって、各ファミリーが、前記二本鎖ＤＮＡポリヌクレオチドの中の単一ＤＮＡポリヌクレオチドから生成された配列リードを含むステップと、
（ｄ）ファミリーのメンバーにおける位置におけるヌクレオチド塩基に基づき、前記二本鎖ＤＮＡ分子における前記各位置におけるヌクレオチド塩基をコールするステップと
を含む方法。
（項目９３）
（ｄ）が、前記配列リードの少なくともサブセット由来の複数の連続的塩基をコールして、前記二本鎖ＤＮＡ分子における単一ヌクレオチドバリエーション（ＳＮＶ）を同定するステップを含む、項目９３に記載の方法。

本開示の追加的な態様および利点は、当業者であれば、本開示の例示的な実施形態のみが示され記載されている次の詳細な説明から容易に明らかとなるであろう。了解される通り、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、様々な明らかな観点における修正が可能であり、全て本開示から逸脱することはない。したがって、図面および記載は、制限的ではなく例示的な性質として考慮するべきである。
参照による援用

本明細書に言及されているあらゆる刊行物、特許および特許出願は、あたかも個々の刊行物、特許または特許出願のそれぞれが、参照により本明細書に組み込まれると具体的にかつ個々に示されているのと同じ程度まで、参照により本明細書に組み込まれる。

本発明の新規特色を添付の特許請求の範囲において詳細に表記する。本発明の特色および利点のより十分な理解は、本発明の原理が利用される例示的な実施形態を表記する次の詳細な説明および次の添付の図面（本明細書において同様に、図（「ｆｉｇｕｒｅ」および「ＦＩＧ．」））を参照することにより得られるであろう。

図１は、コピー数バリエーション（ＣＮＶ）を決定するための本開示の方法のフローチャート表示である。

図２は、ゲノムにおける遺伝子座Ａおよび遺伝子座Ｂへのペアおよびシングレットのマッピングを描写する。

図３は、遺伝子座Ａをコードする参照配列を示す。

図４Ａ～図４Ｃは、増幅、配列決定、冗長性低下および相補的分子のペア形成を示す。図４Ａ～図４Ｃは、増幅、配列決定、冗長性低下および相補的分子のペア形成を示す。図４Ａ～図４Ｃは、増幅、配列決定、冗長性低下および相補的分子のペア形成を示す。

図５は、ワトソンおよびクリック鎖由来のリードをペア形成することによる、配列バリアントの検出における信頼度増加を示す。

図６は、本開示の様々な方法を実施するようにプログラムされたまたは他の仕方で構成されたコンピュータシステムを示す。

図７は、シーケンサー；例えば、ハンドヘルド装置またはデスクトップコンピュータによる報告解析のためのバイオインフォマティクスソフトウェアおよびインターネット接続を含む、ユーザー由来の核酸を含む試料を解析するためのシステムの模式的表示である。

図８は、プールされた被験および対照プールを使用してＣＮＶを決定するための本発明の方法のフローチャート表示である。

図９Ａ～図９Ｃは、ポリヌクレオチド分子にライブラリーアダプタおよびその後に配列決定アダプタをタグ付けするための方法を模式的に図解する。

本発明の様々な実施形態を本明細書において示し、記載してきたが、当業者には、かかる実施形態が単なる一例として提供されていることが明らかであろう。当業者であれば、本発明から逸脱することなく多数のバリエーション、変化および置換を思いつくことができる。本明細書に記載されている本発明の実施形態の様々な代替を用いることができることを理解されたい。

用語「遺伝的バリアント」は、本明細書において一般に、対象の核酸試料またはゲノムにおける変更、バリアントまたは多型を指す。かかる変更、バリアントまたは多型は、参照ゲノムに関するものとなることができ、これは、対象または他の個体の参照ゲノムとなることができる。一塩基多型（ＳＮＰ）は、多型の一形態である。一部の例において、１個または複数の多型は、１個または複数の単一ヌクレオチドバリエーション（ＳＮＶ）、挿入、欠失、反復、小型の挿入、小型の欠失、小型の反復、構造バリアントジャンクション、可変長タンデム反復および／またはフランキング配列を含む。コピー数バリアント（ＣＮＶ）、トランスバージョンおよび他の再編成も、遺伝的バリエーションの形態である。ゲノム変更（alternation）は、塩基変化、挿入、欠失、反復、コピー数バリエーショ
ンまたはトランスバージョンとなり得る。

用語「ポリヌクレオチド」は、本明細書において一般に、１個または複数の核酸サブユニットを含む分子を指す。ポリヌクレオチドは、アデノシン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、チミン（Ｔ）およびウラシル（Ｕ）またはこれらのバリアントから選択される１個または複数のサブユニットを含むことができる。ヌクレオチドは、Ａ、Ｃ、Ｇ、ＴもしくはＵまたはこれらのバリアントを含むことができる。ヌクレオチドは、成長中の核酸鎖に取り込まれることができるいずれかのサブユニットを含むことができる。かかるサブユニットは、Ａ、Ｃ、Ｇ、ＴまたはＵ、あるいは１個もしくは複数の相補的Ａ、Ｃ、Ｇ、ＴもしくはＵに特異的な、またはプリン（すなわち、ＡもしくはＧまたはこれらのバリアント）もしくはピリミジン（すなわち、Ｃ、ＴもしくはＵまたはこれらのバリアント）に相補的な他のいずれかのサブユニットとなることができる。サブユニットは、個々の核酸塩基または塩基の群（例えば、ＡＡ、ＴＡ、ＡＴ、ＧＣ、ＣＧ、ＣＴ、ＴＣ、ＧＴ、ＴＧ、ＡＣ、ＣＡまたはこれらのウラシル対応物）を分解させることができる。一部の例において、ポリヌクレオチドは、デオキシリボ核酸（ＤＮＡ）もしくはリボ核酸（ＲＮＡ）またはこれらの誘導体である。ポリヌクレオチドは、一本鎖または二本鎖となり得る。

用語「対象」は、本明細書において一般に、哺乳動物種（例えば、ヒト）もしくは鳥類（例えば、トリ）種等の動物または植物等の他の生物を指す。より具体的には、対象は、脊椎動物、哺乳動物、マウス、霊長類、サルまたはヒトとなり得る。動物として、家畜、競技用動物およびペットが挙げられるがこれらに限定されない。対象は、健康個体、疾患であるもしくは疾患が疑われるもしくは疾患の素因がある個体、または治療法の必要があるもしくは治療法の必要があると疑われる個体となり得る。対象は、患者となり得る。

用語「ゲノム」は一般に、生物の遺伝的な情報の全体を指す。ゲノムは、ＤＮＡまたはＲＮＡのいずれかにおいてコードされ得る。ゲノムは、タンパク質をコードするコード領域と共に非コード領域を含むことができる。ゲノムは、生物における全染色体の配列を一体に含むことができる。例えば、ヒトゲノムは、合計４６本の染色体を有する。これら全ての配列は一体に、ヒトゲノムを構成する。

用語「アダプタ（複数可）」、「アダプター（複数可）」および「タグ（複数可）」は、本明細書を通して同義的に使用される。ライゲーション、ハイブリダイゼーションまたは他のアプローチを含むいずれかのアプローチにより、アダプタまたはタグをポリヌクレオチド配列にカップリングして、「タグ付け」することができる。

用語「ライブラリーアダプタ」または「ライブラリーアダプター」は、本明細書において一般に、その同一性（例えば、配列）を使用して生物学的試料（本明細書において同様に「試料」）におけるポリヌクレオチドを区別することができる分子（例えば、ポリヌクレオチド）を指す。

用語「配列決定アダプタ」は、本明細書において一般に、配列決定を可能にするための標的ポリヌクレオチドとの相互作用による等、配列決定機器に標的ポリヌクレオチドを配列決定させるように適応された分子（例えば、ポリヌクレオチド）を指す。配列決定アダプタは、配列決定機器による標的ポリヌクレオチドの配列決定を可能にする。一例において、配列決定アダプタは、フローセル等、配列決定システムの固体支持体に取り付けられた捕捉ポリヌクレオチドにハイブリダイズまたは結合するヌクレオチド配列を含む。別の例において、配列決定アダプタは、ポリヌクレオチドにハイブリダイズまたは結合して、配列決定システムによる標的ポリヌクレオチドの配列決定を可能にするヘアピンループを生成するヌクレオチド配列を含む。配列決定アダプタは、他の分子（例えば、ポリヌクレオチド）のフローセル配列に相補的であり、標的ポリヌクレオチドを配列決定するために配列決定システムによって使用可能であるヌクレオチド配列となり得るシーケンサーモチーフを含むことができる。シーケンサーモチーフは、合成による配列決定等、配列決定における使用のためのプライマー配列を含むこともできる。シーケンサーモチーフは、配列決定システムへのライブラリーアダプタのカップリングおよび標的ポリヌクレオチドの配列決定に必要とされる配列（複数可）を含むことができる。

本明細書において、用語「少なくとも」、「多くても」または「約」は、数列に先行する場合、他に同定されていなければ、該数列の各メンバーを指す。

参照数値に関する用語「約」およびその文法的均等は、該値から最大プラス・マイナス１０％の値の範囲を含むことができる。例えば、量「約１０」は、９～１１の量を含むことができる。他の実施形態において、参照数値に関する用語「約」は、該値からプラス・マイナス１０％、９％、８％、７％、６％、５％、４％、３％、２％または１％の値の範囲を含むことができる。

参照数値に関する用語「少なくとも」およびその文法的均等は、該参照数値および該値を超えるものを含むことができる。例えば、量「少なくとも１０」は、値１０、ならびに１１、１００および１，０００等、１０を上回るいずれかの数値を含むことができる。

参照数値に関する用語「多くても」およびその文法的均等は、該参照数値および該値未満を含むことができる。例えば、量「多くても１０」は、値１０、ならびに９、８、５、１、０．５および０．１等、１０を下回るいずれかの数値を含むことができる。

１．核酸試料を処理および／または解析するための方法

本開示の態様は、対象の核酸試料におけるゲノム変更を決定するための方法を提供する。図１は、コピー数バリエーション（ＣＮＶ）を決定する方法を示す。本方法は、ＳＮＶ等、他のゲノム変更を決定するために実施することができる。

Ａ．ポリヌクレオチド単離

本明細書に開示されている方法は、１種または複数のポリヌクレオチドを単離するステップを含むことができる。ポリヌクレオチドは、いずれかの種類の核酸、例えば、ゲノム核酸の配列または人工配列（例えば、ゲノム核酸には存在しない配列）を含むことができる。例えば、人工配列は、非天然ヌクレオチドを含有することができる。また、ポリヌクレオチドは、いずれかの部分においてゲノム核酸および人工配列の両方を含むことができる。例えば、ポリヌクレオチドは、１～９９％のゲノム核酸および９９％～１％の人工配列を含むことができ、その合計は最大１００％となる。よって、パーセンテージの分数も企図される。例えば、９９．１％対０．９％の比が企図される。

ポリヌクレオチドは、ＤＮＡおよび／またはＲＮＡ等、いずれかの種類の核酸を含むことができる。例えば、ポリヌクレオチドがＤＮＡである場合、これは、ゲノムＤＮＡ、相補的ＤＮＡ（ｃＤＮＡ）または他のいずれかのデオキシリボ核酸となり得る。ポリヌクレオチドは、無細胞ＤＮＡ（ｃｆＤＮＡ）となることもできる。例えば、ポリヌクレオチドは、循環ＤＮＡとなり得る。循環ＤＮＡは、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むことができる。ポリヌクレオチドは、二本鎖または一本鎖となり得る。あるいは、ポリヌクレオチドは、二本鎖部分および一本鎖部分の組合せを含むことができる。

ポリヌクレオチドは、無細胞である必要はない。一部の事例において、ポリヌクレオチドは、試料から単離することができる。例えば、ステップ（１０２）において（図１）、二本鎖ポリヌクレオチドは、試料から単離される。試料は、対象から単離されるいずれかの生物学的試料となり得る。例えば、試料は、体液、全血、血小板、血清、血漿、糞便、赤血球細胞、白血球細胞もしくは白血球、内皮細胞、組織生検、滑液、リンパ液、腹水、間質もしくは細胞外液、歯肉溝滲出液を含む細胞間間隙の液、骨髄、脳脊髄液、唾液、粘液、痰、精液、汗、尿または他のいずれかの体液を限定することなく含むことができる。体液は、唾液、血液または血清を含むことができる。例えば、ポリヌクレオチドは、体液、例えば、血液または血清から単離される無細胞ＤＮＡとなり得る。試料は、静脈穿刺、排泄、射精、マッサージ、生検、針穿刺吸引、洗浄、擦過、外科的切開もしくは介入または他のアプローチ等が挙げられるがこれらに限定されない、様々なアプローチによって対象から得ることができる腫瘍試料となることもできる。

試料は、ゲノム当量を含有する核酸の様々な量を含むことができる。例えば、約３０ｎｇＤＮＡの試料は、約１０，０００（１０^４）の一倍体ヒトゲノム当量を含有することができ、ｃｆＤＮＡの場合、約２千億（２×１０^１１）個の個々のポリヌクレオチド分子を含有することができる。同様に、約１００ｎｇのＤＮＡの試料は、約３０，０００の一倍体ヒトゲノム当量を含有することができ、ｃｆＤＮＡの場合、約６千億個の個々の分子を含有することができる。

試料は、異なる供給源由来の核酸を含むことができる。例えば、試料は、生殖系列ＤＮＡまたは体細胞ＤＮＡを含むことができる。試料は、突然変異を保有する核酸を含むことができる。例えば、試料は、生殖系列突然変異および／または体細胞突然変異を保有するＤＮＡを含むことができる。試料は、がん関連突然変異（例えば、がん関連体細胞突然変異）を保有するＤＮＡを含むこともできる。

Ｂ．タグ付け

本明細書に開示されているポリヌクレオチドは、タグ付けすることができる。例えば、ステップ（１０４）（図１）において、二本鎖ポリヌクレオチドは、二重鎖タグ、二本鎖分子の相補鎖（すなわち、「ワトソン」および「クリック」鎖）を異なって標識するタグをタグ付けされる。一実施形態において、二重鎖タグは、相補的および非相補的部分を有するポリヌクレオチドである。

タグは、核酸、化学化合物、蛍光（florescent）プローブまたは放射性プローブ等が挙げられるがこれらに限定されない、ポリヌクレオチドに取り付けられるいずれかの種類の分子となり得る。タグは、オリゴヌクレオチド（例えば、ＤＮＡまたはＲＮＡ）であってもよい。タグは、公知配列、未知配列またはその両方を含むことができる。タグは、ランダム配列、既定の配列またはその両方を含むことができる。タグは、二本鎖または一本鎖となり得る。二本鎖タグは、二重鎖タグとなり得る。二本鎖タグは、２本の相補鎖を含むことができる。あるいは、二本鎖タグは、ハイブリダイズした部分およびハイブリダイズしていない部分を含むことができる。二本鎖タグは、Ｙ字形となることができ、例えば、ハイブリダイズした部分が、タグの一末端に存在し、ハイブリダイズしていない部分が、タグの反対側の末端に存在する。かかる例の１つは、Ｉｌｌｕｍｉｎａ配列決定において使用される「Ｙアダプター」である。他の例として、ヘアピン形アダプターまたはバブル形アダプターが挙げられる。バブル形アダプターは、両サイドにおいて相補的配列に挟まれた非相補的配列を有する。

本明細書に開示されているタグ付けは、いずれかの方法を使用して行うことができる。ポリヌクレオチドは、ハイブリダイゼーションによりアダプタをタグ付けすることができる。例えば、アダプタは、ポリヌクレオチドの配列の少なくとも一部分に相補的なヌクレオチド配列を有することができる。代替として、ポリヌクレオチドは、ライゲーションによりアダプタをタグ付けすることができる。

例えば、タグ付けは、１種または複数の酵素の使用を含むことができる。酵素は、リガーゼとなり得る。リガーゼは、ＤＮＡリガーゼとなり得る。例えば、ＤＮＡリガーゼは、Ｔ４ＤＮＡリガーゼ、Ｅ．ｃｏｌｉＤＮＡリガーゼおよび／または哺乳動物リガーゼとなり得る。哺乳動物リガーゼは、ＤＮＡリガーゼＩ、ＤＮＡリガーゼＩＩＩまたはＤＮＡリガーゼＩＶとなり得る。リガーゼは、熱安定性リガーゼであってもよい。タグは、ポリヌクレオチドの平滑末端にライゲーションすることができる（平滑末端ライゲーション）。あるいは、タグは、ポリヌクレオチドの粘着末端にライゲーションすることができる（粘着末端ライゲーション）。ライゲーションの効率は、様々な条件を最適化することにより増加され得る。ライゲーションの効率は、ライゲーションの反応時間を最適化することにより増加され得る。例えば、ライゲーションの反応時間は、１２時間未満、例えば、１時間未満、２時間未満、３時間未満、４時間未満、５時間未満、６時間未満、７時間未満、８時間未満、９時間未満、１０時間未満、１１時間未満、１２時間未満、１３時間未満、１４時間未満、１５時間未満、１６時間未満、１７時間未満、１８時間未満、１９時間未満または２０時間未満となり得る。特定の例において、ライゲーションの反応時間は、２０時間未満である。ライゲーションの効率は、反応におけるリガーゼ濃度を最適化することにより増加され得る。例えば、リガーゼ濃度は、少なくとも１０、少なくとも５０、少なくとも１００、少なくとも１５０、少なくとも２００、少なくとも２５０、少なくとも３００、少なくとも４００、少なくとも５００または少なくとも６００ユニット／マイクロリットルとなり得る。効率は、ライゲーションに適した酵素、酵素補因子もしくは他の添加物を添加することによりまたはその濃度を変動させることにより、および／または酵素を有する溶液の温度を最適化することにより最適化することもできる。効率は、反応の様々な構成成分の添加順を変動させることにより最適化することもできる。タグ配列の末端は、ライゲーション効率を増加させるためのジヌクレオチドを含むことができる。タグが、非相補的部分を含む場合（例えば、Ｙ字形アダプタ）、タグアダプタの相補的部分における配列は、ライゲーション効率を促進する１種または複数の選択された配列を含むことができる。好ましくは、かかる配列は、タグの末端に位置する。かかる配列は、１、２、３、４、５または６末端塩基を含むことができる。高い粘性（例えば、低いレイノルズ数）を有する反応溶液を使用して、ライゲーション効率を増加させることもできる。例えば、溶液は、３０００未満、２０００未満、１０００未満、９００未満、８００未満、７００未満、６００未満、５００未満、４００未満、３００未満、２００未満、１００未満、５０未満、２５未満または１０未満のレイノルズ数を有することができる。断片の大まかに統一された分布（例えば、緊密な標準偏差）を使用して、ライゲーション効率を増加させることができることも企図される。例えば、断片サイズにおけるバリエーションは、２０％未満、１５％未満、１０％未満、５％未満または１％未満変動し得る。タグ付けは、例えば、ポリメラーゼ連鎖反応（ＰＣＲ）によるプライマー伸長を含むこともできる。タグ付けは、ライゲーションに基づくＰＣＲ、マルチプレックスＰＣＲ、一本鎖ライゲーションまたは一本鎖環状化のいずれかを含むこともできる。

一部の事例において、本明細書におけるタグは、分子バーコードを含む。かかる分子バーコードを使用して、試料におけるポリヌクレオチドを区別することができる。好ましくは、分子バーコード同士は、互いに異なる。例えば、分子バーコード同士は、既定の編集距離またはハミング距離によって特徴付けることができる差を互いの間に有することができる。一部の事例において、本明細書における分子バーコードは、１、２、３、４、５、６、７、８、９または１０の最小編集距離を有する。タグ付けされていない分子からタグ付けされた分子への変換（例えば、タグ付け）の効率をさらに改善するために、好ましくは、短いタグを利用する。例えば、一部の実施形態において、ライブラリーアダプタータグは、最大６５、６０、５５、５０、４５、４０または３５ヌクレオチド塩基の長さとなり得る。かかる短いライブラリーバーコードのコレクションは、好ましくは、１、２、３またはそれを超える最小編集距離で、多数の異なる分子バーコード、例えば、少なくとも２、４、６、８、１０、１２、１４、１６、１８または２０種の異なるバーコードを含む。

よって、分子のコレクションは、１種または複数のタグを含むことができる。一部の事例において、コレクションにおける一部の分子は、コレクションにおける他のいずれかの分子によって共有されない分子バーコード等、同定タグ（「識別子」）を含むことができる。例えば、分子のコレクションの一部の事例において、コレクションにおける分子の少なくとも５０％、少なくとも５１％、少なくとも５２％、少なくとも５３％、少なくとも５４％、少なくとも５５％、少なくとも５６％、少なくとも５７％、少なくとも５８％、少なくとも５９％、少なくとも６０％、少なくとも６１％、少なくとも６２％、少なくとも６３％、少なくとも６４％、少なくとも６５％、少なくとも６６％、少なくとも６７％、少なくとも６８％、少なくとも６９％、少なくとも７０％、少なくとも７１％、少なくとも７２％、少なくとも７３％、少なくとも７４％、少なくとも７５％、少なくとも７６％、少なくとも７７％、少なくとも７８％、少なくとも７９％、少なくとも８０％、少なくとも８１％、少なくとも８２％、少なくとも８３％、少なくとも８４％、少なくとも８５％、少なくとも８６％、少なくとも８７％、少なくとも８８％、少なくとも８９％、少なくとも９０％、少なくとも９１％、少なくとも９２％、少なくとも９３％、少なくとも９４％、少なくとも９５％、少なくとも９６％、少なくとも９７％、少なくとも９８％、少なくとも９９％または１００％は、コレクションにおける他のいずれかの分子によって共有されない識別子または分子バーコードを含むことができる。本明細書において、コレクションにおける分子の少なくとも９５％のそれぞれが、コレクションにおける他のいずれかの分子によって共有されない識別子（「特有タグ」または「特有識別子」）を有する場合、分子のコレクションは、「特有にタグ付け」されたと考慮される。コレクションにおける分子の少なくとも１％、少なくとも５％、少なくとも１０％、少なくとも１５％、少なくとも２０％、少なくとも２５％、少なくとも３０％、少なくとも３５％、少なくとも４０％、少なくとも４５％、または少なくとも５０％もしくは約５０％のそれぞれが、コレクションにおける少なくとも１種の他の分子によって共有される同定タグまたは分子バーコード（「非特有タグ」または「非特有識別子」）を有する場合、分子のコレクションは、「非特有にタグ付け」されたと考慮される。したがって、非特有にタグ付けされた集団において、分子の１％以下が、特有にタグ付けされている。例えば、非特有にタグ付けされた集団において、分子の１％、５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％または５０％以下が、特有にタグ付けされ得る。

試料における分子の推定される数に基づき、多数の異なるタグを使用することができる。一部のタグ付け方法において、異なるタグの数は、試料における分子の推定される数と少なくとも同じものとなり得る。他のタグ付け方法において、異なるタグの数は、試料における分子の推定される数の少なくとも２、３、４、５、６、７、８、９、１０、１００または１０００倍の多さとなり得る。特有のタグ付けにおいて、試料における分子の推定される数の少なくとも２倍（またはそれを超える）の多さの異なるタグを使用することができる。

試料における分子は、非特有にタグ付けすることができる。かかる事例において、試料におけるタグ付けするべき分子の数よりも（then）少ない数のタグまたは分子バーコードが使用される。例えば、１００、５０、４０、３０、２０または１０種以下の特有タグまたは分子バーコードが、多くのより異なる断片を有する無細胞ＤＮＡ試料等、複合試料のタグ付けに使用される。

タグ付けするべきポリヌクレオチドは、天然に、あるいは例えば剪断等の他のアプローチを使用して断片化することができる。ポリヌクレオチドは、機械的剪断、試料のシリンジ通過、超音波処理、熱処理（例えば、３０分間９０℃）および／またはヌクレアーゼ処理（例えば、ＤＮａｓｅ、ＲＮａｓｅ、エンドヌクレアーゼ、エキソヌクレアーゼおよび／または制限酵素の使用）等が挙げられるがこれらに限定されない、ある特定の方法によって断片化することができる。

ポリヌクレオチド断片（タグ付けに先立つ）は、いずれかの長さの配列を含むことができる。例えば、ポリヌクレオチド断片（タグ付けに先立つ）は、少なくとも５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、１０５、１１０、１１５、１２０、１２５、１３０、１３５、１４０、１４５、１５０、１５５、１６０、１６５、１７０、１７５、１８０、１８５、１９０、１９５、２００、２０５、２１０、２１５、２２０、２２５、２３０、２３５、２４０、２４５、２５０、２５５、２６０、２６５、２７０、２７５、２８０、２８５、２９０、２９５、３００、４００、５００、６００、７００、８００、９００、１０００、１１００、１２００、１３００、１４００、１５００、１６００、１７００、１８００、１９００、２０００またはそれを超えるヌクレオチドの長さを含むことができる。ポリヌクレオチド断片は、好ましくは、無細胞ＤＮＡの約平均の長さである。例えば、ポリヌクレオチド断片は、約１６０塩基の長さを含むことができる。ポリヌクレオチド断片は、より大型の断片からより小型の断片に、約１６０塩基の長さに断片化することもできる。

タグ付けされたポリヌクレオチドは、がんに関連する配列を含むことができる。がん関連配列は、単一ヌクレオチドバリエーション（ＳＮＶ）、コピー数バリエーション（ＣＮＶ）、挿入、欠失および／または再編成を含むことができる。

ポリヌクレオチドは、急性リンパ芽球性白血病（ＡＬＬ）、急性骨髄性白血病（ＡＭＬ）、副腎皮質癌、カポジ肉腫、肛門がん、基底細胞癌、胆管がん、膀胱がん、骨がん、骨肉腫、悪性線維性組織球腫、脳幹神経膠腫、脳腫瘍、頭蓋咽頭腫、上衣芽細胞腫、上衣腫、髄芽腫、髄上皮腫（medulloeptithelioma）、松果体実質腫瘍、乳がん、気管支腫瘍、
バーキットリンパ腫、非ホジキンリンパ腫、カルチノイド腫瘍、子宮頸部がん、脊索腫、慢性リンパ球性白血病（ＣＬＬ）、慢性骨髄性白血病（ＣＭＬ）、結腸がん、結腸直腸がん、皮膚Ｔ細胞リンパ腫、腺管上皮内癌、子宮内膜がん、食道がん、ユーイング肉腫、眼がん、眼球内黒色腫、網膜芽細胞腫、線維性組織球腫、胆嚢がん、胃がん、神経膠腫、ヘアリー細胞白血病、頭頸部がん、心臓がん、肝細胞（肝臓）がん、ホジキンリンパ腫、下咽頭がん、腎臓がん、喉頭がん、口唇がん、口腔がん、肺がん、非小細胞癌、小細胞癌、メラノーマ、口腔内がん、骨髄異形成症候群、多発性骨髄腫、髄芽腫、鼻腔がん、副鼻腔がん、神経芽細胞腫、鼻咽頭がん、口内（oral）がん、中咽頭がん、骨肉腫、卵巣がん、膵がん、乳頭腫、傍神経節腫、副甲状腺がん、陰茎がん、咽頭がん、下垂体腫瘍、形質細胞新生物、前立腺がん、直腸がん、腎細胞がん、横紋筋肉腫、唾液腺がん、セザリー症候群、皮膚がん、非メラノーマ、小腸がん、軟部組織肉腫、扁平上皮癌、精巣がん、咽頭がん、胸腺腫、甲状腺がん、尿道がん、子宮がん、子宮肉腫、腟がん、外陰部がん、ワルデンストレーム高ガンマグロブリン血症および／またはウィルムス腫瘍等、がんに関連する配列を含むことができる。

一倍体ヒトゲノム当量は、約３ピコグラムのＤＮＡを有する。約１マイクログラムのＤＮＡの試料は、約３００，０００一倍体ヒトゲノム当量を含有する。重複または同族ポリヌクレオチドの少なくとも一部が、互いに対して特有の識別子を有する、すなわち、異なるタグを有する限りにおいて、配列決定における改善を達成することができる。しかし、ある特定の実施形態において、使用されるタグの数は、いずれか１つの位置において開始する全重複分子が特有の識別子を有する少なくとも９５％確率が存在し得るように選択される。例えば、断片化ゲノムＤＮＡ、例えば、ｃｆＤＮＡの約１０，０００一倍体ヒトゲノム当量を含む試料において、ｚは、２～８の間であると予想される。かかる集団は、約１０～１００種の間の異なる識別子、例えば、約２種の識別子、約４種の識別子、約９種の識別子、約１６種の識別子、約２５種の識別子、約３６種の異なる識別子、約４９種の異なる識別子、約６４種の異なる識別子、約８１種の異なる識別子または約１００種の異なる識別子をタグ付けすることができる。

分子バーコードを含む同定可能な配列を有する核酸バーコードをタグ付けのために使用することができる。例えば、複数のＤＮＡバーコードは、様々な数のヌクレオチド配列を含むことができる。２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０種またはそれを超える同定可能なヌクレオチド配列を有する複数のＤＮＡバーコードを使用することができる。ポリヌクレオチドの一端のみに取り付けられる場合、複数のＤＮＡバーコードは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０種またはそれを超える異なる識別子を産生することができる。あるいは、ポリヌクレオチドの両端に取り付けられる場合、複数のＤＮＡバーコードは、４、９、１６、２５、３６、４９、６４、８１、１００、１２１、１４４、１６９、１９６、２２５、２５６、２８９、３２４、３６１、４００種またはそれを超える異なる識別子（これは、ＤＮＡバーコードがポリヌクレオチドの１端のみに取り付けられる場合の＾２である）を産生することができる。一例において、６、７、８、９または１０種の同定可能なヌクレオチド配列を有する複数のＤＮＡバーコードを使用することができる。ポリヌクレオチドの両端に取り付けられる場合、これらは、それぞれ３６、４９、６４、８１または１００種の可能な異なる識別子を産生する。特定の例において、複数のＤＮＡバーコードは、８種の同定可能なヌクレオチド配列を含むことができる。ポリヌクレオチドの一端のみに取り付けられる場合、複数のＤＮＡバーコードは、８種の異なる識別子を産生することができる。あるいは、ポリヌクレオチドの両端に取り付けられる場合、複数のＤＮＡバーコードは、６４種の異なる識別子を産生することができる。かかる仕方でタグ付けされる試料は、約１０ｎｇから約１００ｎｇ、約１μｇ、約１０μｇのいずれかまでの範囲の断片化ポリヌクレオチド、例えば、ゲノムＤＮＡ、例えば、ｃｆＤＮＡを有する試料となり得る。

ポリヌクレオチドは、様々な仕方で特有に同定することができる。ポリヌクレオチドは、特有のＤＮＡバーコードにより特有に同定することができる。例えば、試料におけるいずれか２種のポリヌクレオチドは、２種の異なるＤＮＡバーコードに取り付けられる。あるいは、ポリヌクレオチドは、ＤＮＡバーコードおよびポリヌクレオチドの１種または複数の内在性配列の組合せにより特有に同定することができる。例えば、試料におけるいずれか２種のポリヌクレオチドは、同じＤＮＡバーコードに取り付けることができるが、この２種のポリヌクレオチドは、異なる内在性配列により依然として同定することができる。内在性配列は、ポリヌクレオチドの末端に存在し得る。例えば、内在性配列は、取り付けられたＤＮＡバーコードに隣接（例えば、その間の塩基）することができる。一部の事例において、内在性配列は、少なくとも２、４、６、８、１０、２０、３０、４０、５０、６０、７０、８０、９０または１００塩基の長さとなり得る。好ましくは、内在性配列は、解析しようとする断片／ポリヌクレオチドの末端配列である。内在性配列は、配列の長さとなり得る。例えば、８種の異なるＤＮＡバーコードを含む複数のＤＮＡバーコードは、試料における各ポリヌクレオチドの両端に取り付けることができる。試料における各ポリヌクレオチドは、ＤＮＡバーコードおよびポリヌクレオチドの末端における約１０塩基対の内在性配列の組合せにより同定することができる。理論に制約されることなく、ポリヌクレオチドの内在性配列は、ポリヌクレオチド配列全体となることもできる。

タグ付けされたポリヌクレオチドの組成物も本明細書に開示されている。タグ付けされたポリヌクレオチドは、一本鎖となり得る。あるいは、タグ付けされたポリヌクレオチドは、二本鎖となり得る（例えば、二重鎖タグ付けされたポリヌクレオチド）。したがって、本発明は、二重鎖タグ付けされたポリヌクレオチドの組成物も提供する。ポリヌクレオチドは、いずれかの種類の核酸（ＤＮＡおよび／またはＲＮＡ）を含むことができる。ポリヌクレオチドは、本明細書に開示されているいずれかの種類のＤＮＡを含む。例えば、ポリヌクレオチドは、ＤＮＡ、例えば、断片化ＤＮＡまたはｃｆＤＮＡを含むことができる。ゲノム内のマッピング可能な塩基位置にマッピングされる組成物におけるポリヌクレオチドのセットは、非特有にタグ付けされ得る、すなわち、異なる識別子の数は、少なくとも２かつマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数未満となり得る。異なる識別子の数は、少なくとも３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５かつマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数未満となることもできる。

一部の事例において、組成物が、約１ｎｇから約１０μｇまたはより多くなるにつれて、異なる分子バーコードのより大型のセットを使用することができる。例えば、５～１００種の間の異なるライブラリーアダプタを使用して、ｃｆＤＮＡ試料におけるポリヌクレオチドにタグ付けすることができる。

本明細書に開示されているシステムおよび方法は、分子バーコードの割り当てに関与する適用において使用することができる。分子バーコードは、本発明において開示されているいずれかの種類のポリヌクレオチドに割り当てることができる。例えば、分子バーコードは、無細胞ポリヌクレオチド（例えば、ｃｆＤＮＡ）に割り当てることができる。多くの場合、本明細書に開示されている識別子は、ポリヌクレオチドのタグ付けに使用されるバーコードオリゴヌクレオチドとなり得る。バーコード識別子は、核酸オリゴヌクレオチド（例えば、ＤＮＡオリゴヌクレオチド）となり得る。バーコード識別子は、一本鎖となり得る。あるいは、バーコード識別子は、二本鎖となり得る。バーコード識別子は、本明細書に開示されているいずれかの方法を使用してポリヌクレオチドに取り付けることができる。例えば、バーコード識別子は、酵素を使用したライゲーションによりポリヌクレオチドに取り付けることができる。バーコード識別子は、ＰＣＲによりポリヌクレオチドに取り込むこともできる。他の事例において、反応は、分析物への直接的な、あるいは同位体で標識したプローブによる、金属同位体の添加を含むことができる。一般に、本開示の反応物における特有または非特有識別子または分子バーコードの割り当ては、例えば、これらそれぞれ、参照により本明細書に全体的に組み込まれる米国特許出願公開第２００１／００５３５１９号、同第２００３／０１５２４９０号、同第２０１１／０１６００７８号および米国特許第６，５８２，９０８号に記載されている方法およびシステムに従うことができる。

本明細書において使用されている識別子または分子バーコードは、完全に内在性となることができ、これにより、個々の断片の環状ライゲーションを行い、続いてランダム剪断または標的化増幅を行うことができる。この場合、分子の新たな開始および停止点ならびに本来の分子内ライゲーション点の組合せは、特異的識別子を形成することができる。

本明細書において使用されている識別子または分子バーコードは、いずれかの種類のオリゴヌクレオチドを含むことができる。一部の事例において、識別子は、既定の、ランダムまたはセミランダム配列オリゴヌクレオチドとなり得る。識別子は、バーコードとなり得る。例えば、バーコードが、複数内で必ずしも互いに特有でないように、複数のバーコードを使用することができる。あるいは、各バーコードが、複数内の他のいずれかのバーコードに特有となるように、複数のバーコードを使用することができる。バーコードは、個々に追跡され得る特異的な配列（例えば、既定の配列）を含むことができる。さらに、バーコードおよびこれがライゲーションされ得る配列の組合せが、個々に追跡され得る特異的な配列を作製するように、バーコードは、個々の分子に取り付けることができる（例えば、ライゲーションにより）。本明細書に記載されている通り、配列リードの始まり（開始）および／または終わり（停止）部分の配列データと組み合わせたバーコードの検出は、特定の分子への特有の同一性の割り当てを可能にすることができる。個々の配列リードの塩基対の長さまたは数を使用して、かかる分子に特有の同一性を割り当てることもできる。本明細書に記載されている通り、特有の同一性を割り当てられた核酸の一本鎖由来の断片は、これにより、親鎖由来の断片のその後の同定を可能にすることができる。このようにして、試料におけるポリヌクレオチドは、特有にまたは実質的に特有にタグ付けすることができる。二重鎖タグは、縮重またはセミ縮重ヌクレオチド配列、例えば、ランダム縮重配列を含むことができる。ヌクレオチド配列は、いずれかの数のヌクレオチドを含むことができる。例えば、ヌクレオチド配列は、１（非天然ヌクレオチドを使用する場合）、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０個またはそれを超えるヌクレオチドを含むことができる。特定の例において、配列は、７ヌクレオチドを含むことができる。別の例において、配列は、８ヌクレオチドを含むことができる。配列は、９ヌクレオチドを含むこともできる。配列は、１０ヌクレオチドを含むことができる。

バーコードは、近接または非近接配列を含むことができる。４ヌクレオチドが、他のいずれかのヌクレオチドによって中断されていない場合、少なくとも１、２、３、４、５個またはそれを超えるヌクレオチドを含むバーコードは、近接配列または非近接配列である。例えば、バーコードが、配列ＴＴＧＣを含む場合、バーコードがＴＴＧＣであればバーコードは近接している。他方では、バーコードがＴＴＸＧＣ（式中、Ｘは核酸塩基である）である場合、バーコードは非近接である。

識別子または分子バーコードは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０またはそれを超えるヌクレオチドの長さとなり得るｎ－ｍｅｒ配列を有することができる。本明細書におけるタグは、いずれかの範囲のヌクレオチドの長さを含むことができる。例えば、配列は、２～１００、１０～９０、２０～８０、３０～７０、４０～６０の間または約５０ヌクレオチドの長さとなり得る。

タグは、識別子または分子バーコードの下流に二本鎖の固定された参照配列を含むことができる。あるいは、タグは、識別子または分子バーコードの上流または下流に二本鎖の固定された参照配列を含むことができる。二本鎖の固定された参照配列の各鎖は、例えば、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０ヌクレオチドの長さとなり得る。

Ｃ．アダプタ

ポリヌクレオチド分子のライブラリーは、配列決定における使用のために合成することができる。例えば、それぞれ、１００、９０、８０、７０、６０、５０、４５、４０または３５核酸（またはヌクレオチド）塩基未満またはそれに等しい長さの複数のポリヌクレオチド分子を含むポリヌクレオチドのライブラリーを作製することができる。複数のポリヌクレオチド分子はそれぞれ、３５核酸塩基未満またはそれに等しい長さとなり得る。複数のポリヌクレオチド分子はそれぞれ、３０核酸塩基未満またはそれに等しい長さとなり得る。複数のポリヌクレオチド分子は、２５０、２００、１５０、１００もしくは５０核酸塩基未満またはそれに等しくなることもできる。その上、複数のポリヌクレオチド分子は、１００、９９、９８、９７、９６、９５、９４、９３、９２、９１、９０、８９、８８、８７、８６、８５、８４、８３、８２、８１、８０、７９、７８、７７、７６、７５、７４、７３、７２、７１、７０、６９、６８、６７、６６、６５、６４、６３、６２、６１、６０、５９、５８、５７、５６、５５、５４、５３、５２、５１、５０、４９、４８、４７、４６、４５、４４、４３、４２、４１、４０、３９、３８、３７、３６、３５、３４、３３、３２、３１、３０、２９、２８、２７、２６、２５、２４、２３、２２、２１、２０、１９、１８、１７、１６、１５、１４、１３、１２、１１もしくは１０核酸塩基未満またはそれに等しくなることもできる。

複数のポリヌクレオチド分子を含むポリヌクレオチドのライブラリーは、少なくとも４核酸塩基に関して別個の（互いに関して）分子バーコード配列（または分子バーコード）を有することもできる。分子バーコード（本明細書において同様に、「バーコード」または「識別子」）配列は、あるポリヌクレオチドを別のポリヌクレオチドから識別するヌクレオチド配列である。他の実施形態において、ポリヌクレオチド分子は、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０またはそれを超える核酸塩基に関して異なるバーコード配列を有することもできる。

複数のポリヌクレオチド分子を含むポリヌクレオチドのライブラリーは、複数の異なるバーコード配列を有することもできる。例えば、複数のポリヌクレオチド分子は、少なくとも４種の異なる分子バーコード配列を有することができる。一部の事例において、複数のポリヌクレオチド分子は、２～１００、４～５０、４～３０、４～２０または４～１０種の異なる分子バーコード配列を有する。複数のポリヌクレオチド分子は、１～４、２～５、３～６、４～７、５～８、６～９、７～１０、８～１１、９～１２、１０～１３、１１～１４、１２～１５、１３～１６、１４～１７、１５～１８、１６～１９、１７～２０、１８～２１、１９～２２、２０～２３、２１～２４または２２～２５種の異なるバーコード配列等、他の範囲の異なるバーコード配列を有することもできる。他の事例において、複数のポリヌクレオチド分子は、少なくとも２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００種またはそれを超える（more）異なるバーコード配列を有することができる。特定の例において、複数のライブラリーアダプターは、少なくとも８種の異なる配列を含む。

異なるバーコード配列の位置は、複数のポリヌクレオチド内で変動し得る。例えば、異なるバーコード配列は、複数のポリヌクレオチド分子のうちそれぞれ１種の末端から２０、１５、１０、９、８、７、６、５、４、３または２核酸塩基以内となり得る。一例において、複数のポリヌクレオチド分子は、末端から１０核酸塩基以内にある別個のバーコード配列を有する。別の例において、複数のポリヌクレオチド分子は、末端から５または１核酸塩基以内にある別個のバーコード配列を有する。他の事例において、別個のバーコード配列は、複数のポリヌクレオチド分子のうちそれぞれ１種の末端に存在することができる。他のバリエーションは、別個の分子バーコード配列が、複数のポリヌクレオチド分子のうちそれぞれ１種の末端から２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９または４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９、１００、１０１、１０２、１０３、１０４、１０５、１０６、１０７、１０８、１０９、１１０、１１１、１１２、１１３、１１４、１１５、１１６、１１７、１１８、１１９、１２０、１２１、１２２、１２３、１２４、１２５、１２６、１２７、１２８、１２９、１３０、１３１、１３２、１３３、１３４、１３５、１３６、１３７、１３８、１３９、１４０、１４１、１４２、１４３、１４４、１４５、１４６、１４７、１４８、１４９、１５０、１５１、１５２、１５３、１５４、１５５、１５６、１５７、１５８、１５９、１６０、１６１、１６２、１６３、１６４、１６５、１６６、１６７、１６８、１６９、１７０、１７１、１７２、１７３、１７４、１７５、１７６、１７７、１７８、１７９、１８０、１８１、１８２、１８３、１８４、１８５、１８６、１８７、１８８、１８９、１９０、１９１、１９２、１９３、１９４、１９５、１９６、１９７、１９８、１９９、２００またはそれを超える核酸塩基以内に存在し得る分子を含む。

複数のポリヌクレオチド分子の末端は、標的核酸分子へのライゲーションに適応させることができる。例えば、末端は、平滑末端となり得る。他の一部の事例において、末端は、標的核酸分子の相補的配列へのハイブリダイゼーションに適応される。

複数のポリヌクレオチド分子を含むポリヌクレオチドのライブラリーは、少なくとも１の編集距離を有することもできる。一部の事例において、編集距離は、複数のポリヌクレオチド分子の個々の塩基に関する。他の事例において、複数のポリヌクレオチド分子は、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０またはそれを超える編集距離を有することができる。編集距離は、ハミング距離となり得る。

一部の事例において、複数のポリヌクレオチドは、配列決定アダプタを含有しない。配列アダプタは、１種または複数の配列決定アダプタまたはプライマーにハイブリダイズする配列を含むポリヌクレオチドとなり得る。配列決定アダプタは、固体支持体、例えば、フローセル配列にハイブリダイズする配列をさらに含むことができる。用語「フローセル配列」およびその文法的均等は、本明細書において、例えば、基板に取り付けられたプライマーにより基板へのハイブリダイゼーションを可能にする配列を指す。基板は、ビーズまたは平面状の表面となり得る。一部の実施形態において、フローセル配列は、フローセルまたは表面（例えば、ビーズの表面、例えば、Ｉｌｌｕｍｉｎａフローセル）へのポリヌクレオチドの取り付けを可能にし得る。

複数のポリヌクレオチド分子が、配列決定アダプタまたはプライマーを含有しない場合、該複数のうち各ポリヌクレオチド分子は、Ｉｌｌｕｍｉｎａ、ＳＯＬｉＤ、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ、ＧｅｎｅＲｅａｄｅｒ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅ、ＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓ、Ｇｎｕ－Ｂｉｏ、ＩｏｎＴｏｒｒｅｎｔ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅまたはＧｅｎｉａ等、所与の配列決定アプローチによる標的核酸分子の配列決定を可能にするように適応された核酸配列または他の部分を含有しない。一部の例において、複数のポリヌクレオチド分子が、配列決定アダプタまたはプライマーを含有しない場合、複数のポリヌクレオチド分子は、フローセル配列を含有しない。例えば、複数のポリヌクレオチド分子は、Ｉｌｌｕｍｉｎａフローセルシーケンサーにおいて使用されるもの等、フローセルに結合できない。しかし、これらのフローセル配列は、必要に応じて、ＰＣＲ増幅またはライゲーション等の方法によって複数のポリヌクレオチド分子に付加することができる。現時点では、Ｉｌｌｕｍｉｎａフローセルシーケンサーを使用することができる。あるいは、複数のポリヌクレオチド分子が、配列決定アダプタまたはプライマーを含有しない場合、複数のポリヌクレオチド分子は、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅＳＭＲＴｂｅｌｌ（商標）アダプタ等、ヘアピン形アダプタまたは標的核酸分子においてヘアピンループを生成するためのアダプタを含有しない。しかし、このようなヘアピン形アダプタは、必要に応じて、ＰＣＲ増幅またはライゲーション等、方法により複数のポリヌクレオチド分子に付加することができる。複数のポリヌクレオチド分子は、環状または直鎖状となり得る。

複数のポリヌクレオチド分子は、二本鎖となり得る。一部の事例において、複数のポリヌクレオチド分子は、一本鎖となり得る、あるいはハイブリダイズされたおよびハイブリダイズされていない領域を含むことができる。複数のポリヌクレオチド分子は、非天然起源のポリヌクレオチド分子となり得る。

アダプタは、ポリヌクレオチド分子となり得る。ポリヌクレオチド分子は、Ｙ字形、バブル形またはヘアピン形となり得る。ヘアピンアダプタは、制限部位（複数可）またはウラシル含有塩基を含有することができる。アダプタは、相補的部分および非相補的部分を含むことができる。非相補的部分は、編集距離（例えば、ハミング距離）を有することができる。例えば、編集距離は、少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、少なくとも２５、少なくとも２６、少なくとも２７、少なくとも２８、少なくとも２９または少なくとも３０となり得る。アダプタの相補的部分は、ポリヌクレオチドへのライゲーションを可能にするおよび／または促進するために選択される配列、例えば、高収率でのポリヌクレオチドへのライゲーションを可能にするおよび／または促進する配列を含むことができる。

本明細書に開示されている複数のポリヌクレオチド分子は、精製することができる。一部の事例において、本明細書に開示されている複数のポリヌクレオチド分子は、単離されたポリヌクレオチド分子となり得る。他の事例において、本明細書に開示されている複数のポリヌクレオチド分子は、精製および単離されたポリヌクレオチド分子となり得る。

ある特定の態様において、複数のポリヌクレオチド分子のそれぞれは、Ｙ字形またはヘアピン形である。複数のポリヌクレオチド分子のそれぞれは、異なるバーコードを含むことができる。異なるバーコードは、Ｙ字形またはヘアピン形アダプタの相補的部分（例えば、二本鎖部分）におけるランダマーとなり得る。あるいは、異なるバーコードは、非相補的部分（例えば、Ｙ字形アームの１本）の１本の鎖に存在し得る。上に記す通り、異なるバーコードは、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５またはそれを超える（または本願を通して記載されているいずれかの長さの）核酸塩基、例えば、７塩基となり得る。バーコードは、上述の通り、近接または非近接配列となり得る。複数のポリヌクレオチド分子は、１０核酸塩基～３５核酸塩基の長さ（または上述のいずれかの長さ）である。さらに、複数のポリヌクレオチド分子は、ハミング距離である編集距離（上述）を含むことができる。複数のポリヌクレオチド分子は、末端から１０核酸塩基以内の別個のバーコード配列を有することができる。

別の態様において、複数のポリヌクレオチド分子は、配列決定アダプタとなり得る。配列決定アダプタは、１種または複数の配列決定プライマーにハイブリダイズする配列を含むことができる。配列決定アダプタは、固体支持体にハイブリダイズする配列、例えば、フローセル配列をさらに含むことができる。例えば、配列決定アダプタは、フローセルアダプタとなり得る。配列決定アダプタは、ポリヌクレオチド断片の一端または両端に取り付けることができる。別の例において、配列決定アダプタは、ヘアピン形となり得る。例えば、ヘアピン形アダプタは、相補的二本鎖部分およびループ部分を含むことができ、二本鎖部分は、二本鎖ポリヌクレオチドに取り付ける（例えば、ライゲーションする）ことができる。ヘアピン形配列決定アダプタは、ポリヌクレオチド断片の両端に取り付けて、複数回配列決定することができる環状分子を生成することができる。配列決定アダプタは、末端から末端まで、最大１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９、１００またはそれを超える塩基となり得る。例えば、配列決定アダプタは、末端から末端まで最大７０塩基となり得る。配列決定アダプタは、末端から末端まで２０～３０、２０～４０、３０～５０、３０～６０、４０～６０、４０～７０、５０～６０、５０～７０塩基を含むことができる。特定の例において、配列決定アダプタは、末端から末端まで２０～３０塩基を含むことができる。別の例において、配列決定アダプタは、末端から末端まで５０～６０塩基を含むことができる。配列決定アダプタは、１種または複数のバーコードを含むことができる。例えば、配列決定アダプタは、試料バーコードを含むことができる。試料バーコードは、既定の配列を含むことができる。試料バーコードを使用して、ポリヌクレオチドの供給源を同定することができる。試料バーコードは、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５またはそれを超える（または本願を通して記載されているいずれかの長さの）核酸塩基、例えば、少なくとも８塩基となり得る。バーコードは、上述の通り、近接または非近接配列となり得る。

本明細書に記載されている複数のポリヌクレオチド分子は、アダプタとして使用することができる。アダプタは、１種または複数の識別子を含むことができる。アダプタは、ランダム配列を有する識別子を含むことができる。あるいは、アダプタは、既定の配列を有する識別子を含むことができる。一部のアダプタは、ランダム配列を有する識別子および既定の配列を有する別の識別子を含むことができる。識別子を含むアダプタは、二本鎖または一本鎖アダプタとなり得る。識別子を含むアダプタは、Ｙ字形アダプタとなり得る。Ｙ字形アダプタは、ランダム配列を有する１種または複数の識別子を含むことができる。１種または複数の識別子は、Ｙ字形アダプタのハイブリダイズされる（hybrid）部分および／またはハイブリダイズされない部分に存在し得る。Ｙ字形アダプタは、既定の配列を有する１種または複数の識別子を含むことができる。既定の配列を有する１種または複数の識別子は、Ｙ字形アダプタのハイブリダイズされる部分および／またはハイブリダイズされない部分に存在し得る。Ｙ字形アダプタは、ランダム配列を有する１種または複数の識別子および既定の配列を有する１種または複数の識別子を含むことができる。例えば、ランダム配列を有する１種または複数の識別子は、Ｙ字形アダプタのハイブリダイズされる部分および／またはＹ字形アダプタのハイブリダイズされない部分に存在し得る。既定の配列を有する１種または複数の識別子は、Ｙ字形アダプタのハイブリダイズされる部分および／またはＹ字形アダプタのハイブリダイズされない部分に存在し得る。特定の例において、Ｙ字形アダプタは、そのハイブリダイズされる部分にランダム配列を有する識別子を含み、そのハイブリダイズされない部分に既定の配列を有する識別子を含むことができる。識別子は、本明細書に開示されているいずれかの長さとなり得る。例えば、Ｙ字形アダプタは、そのハイブリダイズされる部分に７ヌクレオチドのランダム配列を有する識別子を含み、そのハイブリダイズされない部分に８ヌクレオチドの既定の配列を有する識別子を含むことができる。

アダプタは、分子バーコードを有する二本鎖部分および少なくとも１または２個の一本鎖部分を含むことができる。例えば、アダプタは、Ｙ字形となり、二本鎖部分および２個の一本鎖部分を含むことができる。一本鎖部分は、互いに相補的ではない配列を含むことができる。

アダプタは、アダプタがポリヌクレオチドに効率的に（例えば、少なくとも約２０％、３０％、４０％、５０％の効率で）ライゲーションされるまたは他の仕方でカップリングされることを可能にするように選択される配列を有する末端を含むことができる。一部の例において、アダプタの二本鎖部分における末端ヌクレオチドは、効率的ライゲーションをもたらすためのプリンおよびピリミジンの組合せから選択される。

一部の例において、ライブラリーアダプタのセットは、分子バーコードを有する複数のポリヌクレオチド分子（ライブラリーアダプタ）を含む。ライブラリーアダプタは、８０、７０、６０、５０、４５または４０ヌクレオチド塩基未満またはそれに等しい長さである。分子バーコードは、少なくとも４ヌクレオチド塩基の長さとなり得るが、４～２０ヌクレオチド塩基の長さとなり得る。分子バーコードは、互いに異なり、互いの間に少なくとも１、２、３、４または５の編集距離を有することができる。分子バーコードは、それぞれのライブラリーアダプタの末端から少なくとも１、２、３、４、５、１０または２０ヌクレオチド塩基離れて位置する。一部の事例において、少なくとも１末端塩基は、全ライブラリーアダプタにおいて同一である。

ライブラリーアダプタは、分子バーコードを除いて同一となり得る。例えば、ライブラリーアダプタは、同一配列を有することができるが、分子バーコードのヌクレオチド配列に関してのみ異なる。

ライブラリーアダプタのそれぞれは、二本鎖部分および少なくとも１個の一本鎖部分を有することができる。「一本鎖部分」とは、非相補性またはオーバーハングの区域を意味する。一部の事例において、ライブラリーアダプタのそれぞれは、二本鎖部分および２個の一本鎖部分を有する。二本鎖部分は、分子バーコードを有することができる。一部の事例において、分子バーコードは、ランダマーである。ライブラリーアダプタのそれぞれは、一本鎖部分に鎖同定バーコードをさらに含むことができる。鎖同定バーコードは、少なくとも４ヌクレオチド塩基、一部の事例において、４～２０ヌクレオチド塩基を含むことができる。

一部の例において、ライブラリーアダプタのそれぞれは、分子バーコードを有する二本鎖部分および２個の一本鎖部分を有する。一本鎖部分は、互いにハイブリダイズしなくてよい。一本鎖部分は、互いに完全に相補的でなくてよい。

ライブラリーアダプタは、同じである二本鎖部分に末端ヌクレオチドの配列を有することができる。末端ヌクレオチドの配列は、少なくとも２、３、４、５または６ヌクレオチド塩基の長さとなり得る。例えば、ライブラリーアダプタの二本鎖部分の一方の鎖は、末端に配列ＡＣＴＴ、ＴＣＧＣまたはＴＡＣＣを有することができる一方、他方の鎖は、相補的配列を有することができる。一部の事例において、かかる配列は、ライブラリーアダプタが標的ポリヌクレオチドにライゲーションする効率を最適化するように選択される。かかる配列は、ライブラリーアダプタの末端および標的ポリヌクレオチドの間の結合相互作用を最適化するように選択することができる。

一部の事例において、ライブラリーアダプタのいずれも、試料同定モチーフ（または試料分子バーコード）を含有しない。かかる試料同定モチーフは、配列決定アダプタによりもたらすことができる。試料同定モチーフは、所与の試料由来のポリヌクレオチド分子の、他の試料由来のポリヌクレオチド分子からの同定を可能にする少なくとも４、５、６、７、８、９、１０、２０、３０または４０ヌクレオチド塩基のシーケンサーを含むことができる。例えば、これは、２名の対象由来のポリヌクレオチド分子が同じプールにおいて配列決定され、該対象の配列リードがその後に同定されることを可能にし得る。

シーケンサーモチーフは、配列決定システムへのライブラリーアダプタのカップリングおよびライブラリーアダプタにカップリングされた標的ポリヌクレオチドの配列決定に必要とされるヌクレオチド配列（複数可）を含む。シーケンサーモチーフは、フローセル配列に相補的な配列および配列決定における使用のためのプライマー（またはプライミング配列）に選択的にハイブリダイズ可能な配列（配列決定開始配列）を含むことができる。例えば、かかる配列決定開始配列は、合成による配列決定（例えば、Ｉｌｌｕｍｉｎａ）における使用に用いられるプライマーに相補的となり得る。かかるプライマーは、配列決定アダプタに含まれ得る。配列決定開始配列は、プライマーハイブリダイゼーション部位となり得る。

一部の事例において、ライブラリーアダプタのいずれも、完全シーケンサーモチーフを含有しない。ライブラリーアダプタは、部分的シーケンサーモチーフを含有することができる、またはシーケンサーモチーフを含有しない。一部の事例において、ライブラリーアダプタは、配列決定開始配列を含む。ライブラリーアダプタは、配列決定開始配列を含むことができるが、フローセル配列を含まない。配列決定開始配列は、配列決定のためのプライマーに相補的となり得る。プライマーは、配列特異的プライマーまたはユニバーサルプライマーとなり得る。かかる配列決定開始配列は、ライブラリーアダプタの一本鎖部分に位置し得る。代替として、かかる配列決定開始配列は、配列決定の際にポリメラーゼがライブラリーアダプタにカップリングすることを可能にするためのプライミング部位（例えば、ねじれ（kink）またはニック）となり得る。

一部の事例において、部分的または完全シーケンサーモチーフは、配列決定アダプタによってもたらされる。配列決定アダプタは、試料分子バーコードおよびシーケンサーモチーフを含むことができる。配列決定アダプタは、ライブラリーアダプタから離間したセットにおいて提供することができる。所与のセットにおける配列決定アダプタは、同一のものとなり得る－すなわち、同じ試料バーコードおよびシーケンサーモチーフを含有する。

配列決定アダプタは、試料同定モチーフおよびシーケンサーモチーフを含むことができる。シーケンサーモチーフは、配列決定開始配列に相補的なプライマーを含むことができる。一部の事例において、シーケンサーモチーフは、ポリヌクレオチドが、ポリヌクレオチドをシーケンサーによって配列決定させる様式で構成または配置されることを可能にする、フローセル配列または他の配列も含む。

ライブラリーアダプタおよび配列決定アダプタはそれぞれ、部分的アダプタとなることができる、すなわち、配列決定プラットフォームによる配列決定を可能にするために必要な配列の一部を含有するが、その全てを含有する訳ではない。これらは一体になって完全アダプタをもたらす。例えば、ライブラリーアダプタは、部分的シーケンサーモチーフを含むことができる、またはシーケンサーモチーフを含まないが、かかるシーケンサーモチーフは、配列決定アダプタによってもたらされる。

図９Ａ～図９Ｃは、標的ポリヌクレオチド分子にライブラリーアダプタをタグ付けするための方法を模式的に図解する。図９Ａは、鎖の一方にプライマーハイブリダイゼーション部位および別の末端に向かって分子バーコードを含有する部分的アダプタとしてライブラリーアダプタを示す。プライマーハイブリダイゼーション部位は、その後の配列決定のための配列決定開始配列となり得る。ライブラリーアダプタは、８０ヌクレオチド塩基未満またはそれに等しい長さである。図９Ｂにおいて、ライブラリーアダプタは、標的ポリヌクレオチド分子の両端においてライゲーションされて、タグ付けされた標的ポリヌクレオチド分子をもたらす。タグ付けされた標的ポリヌクレオチド分子を核酸増幅に供して、標的のコピーを生成することができる。次に、図９Ｃにおいて、シーケンサーモチーフを含有する配列決定アダプタが提供され、タグ付けされた標的ポリヌクレオチド分子にハイブリダイズされる。配列決定アダプタは、試料同定モチーフを含有する。配列決定アダプタは、所与のシーケンサーによるタグ付けされた標的の配列決定を可能にするための配列を含有することができる。

Ｄ．配列決定

タグ付けされたポリヌクレオチドを配列決定して、配列リードを生成することができる（例えば、ステップ（１０６）、図１に示す通り）。例えば、タグ付けされた二重鎖ポリヌクレオチドを配列決定することができる。配列リードは、タグ付けされた二重鎖ポリヌクレオチドの一方の鎖のみから生成することができる。あるいは、タグ付けされた二重鎖ポリヌクレオチドの両方の鎖が、配列リードを生成することができる。タグ付けされた二重鎖ポリヌクレオチドの２本の鎖は、同じタグを含むことができる。あるいは、タグ付けされた二重鎖ポリヌクレオチドの２本の鎖は、異なるタグを含むことができる。タグ付けされた二重鎖ポリヌクレオチドの２本の鎖が、異なってタグ付けされた場合、一方の鎖（例えば、ワトソン鎖）から生成された配列リードは、他方の鎖（例えば、クリック鎖）から生成された配列リードから識別することができる。配列決定は、分子毎に複数の配列リードの生成に関与することができる。これは、例えば、配列決定プロセスにおける、例えば、ＰＣＲによる個々のポリヌクレオチド鎖の増幅の結果生じる。

本明細書に開示されている方法は、ポリヌクレオチドの増幅を含むことができる。ポリヌクレオチド増幅は、核酸分子またはプライマーへのヌクレオチドの取り込みをもたらし、これにより、鋳型核酸に相補的な新たな核酸分子を形成することができる。新たに形成されたポリヌクレオチド分子およびその鋳型は、追加的なポリヌクレオチドを合成するための鋳型として使用することができる。増幅されているポリヌクレオチドは、ゲノムＤＮＡ、ｃＤＮＡ（相補的ＤＮＡ）、ｃｆＤＮＡおよび循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むいずれかの核酸、例えば、デオキシリボ核酸となり得る。増幅されているポリヌクレオチドは、ＲＮＡとなることもできる。本明細書において、１回の増幅反応は、ＤＮＡ複製の多くのラウンドを含むことができる。ＤＮＡ増幅反応は、例えば、ポリメラーゼ連鎖反応（ＰＣＲ）を含むことができる。１回のＰＣＲ反応は、ＤＮＡ分子の２～１００「サイクル」の変性、アニーリングおよび合成を含むことができる。例えば、増幅ステップにおいて２～７、５～１０、６～１１、７～１２、８～１３、９～１４、１０～１５、１１～１６、１２～１７、１３～１８、１４～１９または１５～２０サイクルを行うことができる。ＰＣＲ条件は、プライマーを含む配列のＧＣ含量に基づき最適化することができる。

本明細書に記載されているアッセイと共に、核酸増幅技法を使用することができる。一部の増幅技法は、ＰＣＲ方法論であり、その例として、溶液ＰＣＲおよびｉｎｓｉｔｕ
ＰＣＲを挙げることができるがこれらに限定されない。例えば、増幅は、ＰＣＲに基づく増幅を含むことができる。あるいは、増幅は、ＰＣＲに基づかない増幅を含むことができる。鋳型核酸の増幅は、１種または複数のポリメラーゼの使用を含むことができる。例えば、ポリメラーゼは、ＤＮＡポリメラーゼまたはＲＮＡポリメラーゼとなり得る。一部の事例において、高忠実度ポリメラーゼ（例えば、Ｐｈｕｓｉｏｎ（登録商標）高忠実度ＤＮＡポリメラーゼ）またはＰＣＲプロトコールの使用による等、高忠実度増幅が行われる。一部の事例において、ポリメラーゼは、高忠実度ポリメラーゼとなり得る。例えば、ポリメラーゼは、ＫＡＰＡＨｉＦｉＤＮＡポリメラーゼとなり得る。ポリメラーゼは、ＰｈｕｓｉｏｎＤＮＡポリメラーゼとなることもできる。ポリメラーゼは、例えば、断片長、ＧＣ含量等による増幅バイアスを低下または最小化する反応条件下で使用することができる。

ＰＣＲによるポリヌクレオチドの一本鎖の増幅は、かかる鎖およびその相補体の両方のコピーを生成するであろう。配列決定の際に、鎖およびその相補体の両方が、配列リードを生成するであろう。しかし、例えば、ワトソン鎖の相補体から生成された配列リードは、本来のワトソン鎖にタグ付けされた二重鎖タグの部分の相補体を有するため、そのように同定することができる。対照的に、クリック鎖またはその増幅産物から生成された配列リードは、本来のクリック鎖にタグ付けされた二重鎖タグの部分を有するであろう。このようにして、ワトソン鎖の相補体の増幅された産物から生成された配列リードは、本来の分子のクリック鎖の増幅産物から生成された相補体配列リードから識別することができる。

増幅されたポリヌクレオチドは全て、配列決定のために配列決定装置に提出することができる。あるいは、増幅されたポリヌクレオチドの全てのサンプリング、またはサブセットは、配列決定のために配列決定装置に提出される。いずれか本来の二本鎖ポリヌクレオチドに関して、配列決定に関して３通りの結果が存在し得る。第１に、配列リードは、本来の分子の両方の相補鎖から（すなわち、ワトソン鎖およびクリック鎖の両方から）生成することができる。第２に、配列リードは、２本の相補鎖のうち１本のみから（すなわち、ワトソン鎖またはクリック鎖のいずれかからであって、両方からではない）生成することができる。第３に、配列リードは、２本の相補鎖のいずれから生成することもできない。結果的に、ある遺伝子座にマッピングされる特有の配列リードの計数は、この遺伝子座にマッピングされる本来の試料における二本鎖ポリヌクレオチドの数を過小評価するであろう。未観測および未計数のポリヌクレオチドを推定する方法が、本明細書に記載されている。

配列決定方法は、大規模並列配列決定となり得る、すなわち、少なくとも１００、１０００、１０，０００、１００，０００、１００万、１千万、１億または１０億ポリヌクレオチド分子のいずれかを同時に（または素早く連続して）配列決定する。配列決定方法として、ハイスループット配列決定、ピロシーケンス、合成による配列決定、単一分子配列決定、ナノポア配列決定、半導体配列決定、ライゲーションによる配列決定、ハイブリダイゼーションによる配列決定、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、次世代配列決定、合成による単一分子配列決定（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、大規模並列配列決定、クローナル単一分子アレイ（Ｓｏｌｅｘａ）、ショットガン配列決定、マクサム・ギルバートまたはサンガー配列決定、プライマーウォーキング、ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔまたはナノポアプラットフォームを使用した配列決定、および本技術分野で公知の他のいずれかの配列決定方法を挙げることができるがこれらに限定されない。

例えば、二重鎖タグ付けされたポリヌクレオチドは、例えばＰＣＲにより増幅することができる（例えば、図４Ａを参照；二重鎖タグ付けされたポリヌクレオチドは、ｍｍ’およびｎｎ’と称される）。図４Ａにおいて、配列ｍを含む二重鎖ポリヌクレオチドの鎖は、配列タグｗおよびｙを有する一方、配列ｍ’を含む二重鎖ポリヌクレオチドの鎖は、配列タグｘおよびｚを有する。同様に、配列ｎを含む二重鎖ポリヌクレオチドの鎖は、配列タグａおよびｃを有する一方、配列ｎ’を含む二重鎖ポリヌクレオチドの鎖は、配列タグｂおよびｄを有する。増幅において、各鎖は、それ自身およびその相補的配列を産生する。しかし、例えば、本来の鎖ｍの後代は、配列５’－ｙ’ｍ’ｗ’－３’を有し、本来のｍ’鎖１本鎖の後代は、配列５’－ｚｍ’ｘ－３’を有するため、相補的配列ｍ’を含む本来の鎖ｍの増幅後代は、本来の鎖ｍ’の増幅後代から識別可能である。図４Ｂは、増幅をより詳細に示す。増幅において、ドットによって表されるエラーが、増幅後代に導入され得る。あらゆる鎖が、配列リードを産生するわけではなくなるように、適用後代を配列決定のためにサンプリングし、示されている配列リードをもたらす。配列リードは、鎖またはその相補体のいずれかに起因し得るため、配列および相補体配列の両方が、配列リードのセットに含まれるであろう。ポリヌクレオチドが、各末端に同じタグを有することが可能であることに留意されたい。よって、タグ「ａ」およびポリヌクレオチド「ｍ」に関して、第１の鎖は、ａ－ｍ－ａ’とタグ付けされ、相補体は、ａ－ｍ’－ａとタグ付けされ得る。

Ｅ．コンセンサス配列リードの決定

本明細書に開示されている方法は、冗長性を低下または追跡することによる等、配列リードにおけるコンセンサス配列リードを決定するステップを含むことができる（例えば、ステップ（１０８）、図１に示す通り）。増幅されたポリヌクレオチドの配列決定は、「冗長リード」と称される、同じ本来のポリヌクレオチド由来の数種類の増幅産物のリードを産生することができる。冗長リードを同定することにより、本来の試料における特有の分子を決定することができる。試料における分子が、特有にタグ付けされる場合、単一の特有の本来の分子の増幅から生成されたリードは、それらの別個のバーコードに基づき同定することができる。バーコードを無視すると、特有の本来の分子由来のリードは、任意選択で、リードの長さと組み合わせて、リードの始まりおよび終わりにおける配列に基づき決定することができる。しかし、ある特定の事例において、試料は、同じ開始停止配列および同じ長さを有する複数の本来の分子を有すると予想され得る。バーコーディングなしでは、これらの分子は、互いの識別が困難である。しかし、ポリヌクレオチドのコレクションが、非特有にタグ付けされる場合（すなわち、本来の分子が、少なくとも１種の他の本来の分子と同じ識別子を共有する場合）、開始／停止配列および／またはポリヌクレオチド長と、バーコード由来の情報との組合せは、いずれかの配列リードを本来のポリヌクレオチドへとトレースできる確率を有意に増加させる。これは一部には、特有のタグ付けがなくても、同じ開始／停止配列および長さを有するいずれか２種の本来のポリヌクレオチドが同様に、同じ識別子をタグ付けされる可能性が低いことが理由である。

Ｆ．崩壊

崩壊は、プロセスの各ステップにおいて生成されるノイズ（すなわち、バックグラウンド）の低下を可能にする。本明細書に開示されている方法は、コンセンサス配列を崩壊、例えば、複数の配列リードを比較することによりこれを生成するステップを含むことができる。例えば、単一の本来のポリヌクレオチドから生成された配列リードを使用して、かかる本来のポリヌクレオチドのコンセンサス配列を生成することができる。増幅の反復的ラウンドは、後代ポリヌクレオチドにエラーを導入し得る。また、配列決定は、典型的に、完全な忠実度で行われなくてもよいため、配列決定エラーが、同様にこのステージで導入される。しかし、配列バリアントを有する分子を含む、単一の本来の分子に由来する分子の配列リードの比較は、本来のまたは「コンセンサス」配列を決定できるように解析することができる。これは、系統発生的に行うことができる。コンセンサス配列は、種々の方法のいずれかにより配列リードのファミリーから生成することができる。かかる方法は、例えば、デジタルコミュニケーション理論、情報理論またはバイオインフォマティクスに由来するコンセンサス配列構築（投票（例えば、偏った投票）、平均化、統計的、最大事後もしくは最大尤度検出、動的プログラミング、ベイジアン、隠れマルコフまたはサポートベクターマシン方法等）の線形または非線形方法を含む。例えば、本来の分子へと追跡する配列リードの全てまたは大部分が、同じ配列バリアントを有する場合、このバリアントは、本来の分子におそらく存在した。他方では、配列バリアントが、冗長配列リードのサブセットに存在する場合、このバリアントは、増幅／配列決定において導入された可能性があり、本来は存在しないアーチファクトを表す。さらに、本来のポリヌクレオチドのワトソンまたはクリック鎖に由来する配列リードのみが、バリアントを含有する場合、バリアントは、片面の（single-sided）ＤＮＡ損傷、第１のサイクルのＰＣＲエラーまたは異なる試料から増幅されたポリヌクレオチドの混入により導入された可能性がある。

断片が増幅され、増幅された断片の配列が読み取られて整列された後に、断片は、塩基コーリングに供される、例えば、遺伝子座毎に、最も可能性の高いヌクレオチドを決定する。しかし、増幅された断片および未観測の増幅された断片（例えば、その配列を読み取られていない断片；増幅エラー、配列決定読み取りエラー、長過ぎる、短過ぎる、削られている等、非常に多くの理由が考えられ得る）の数のバリエーションは、塩基コーリングにおいてエラーを導入し得る。観察された増幅された断片（実際に読み取られている増幅された断片）に対してあまりにも多くの未観測の増幅された断片が存在する場合、塩基コーリングの信頼性は、縮小され得る。

したがって、塩基コーリングにおける未観測断片の数を補正する方法が、本明細書に開示されている。例えば、遺伝子座Ａ（任意の遺伝子座）の塩基コーリングの場合、Ｎ個の増幅された断片が存在することが先ず想定される。配列リードアウトは、２種類の断片に由来し得る：二本鎖断片および一本鎖断片。したがって、それぞれ二本鎖、一本鎖および未観測断片の数としてＮ１、Ｎ２およびＮ３を割り当てる。よって、Ｎ＝Ｎ１＋Ｎ２＋Ｎ３（Ｎ１およびＮ２は、配列リードアウトから公知であり、ＮおよびＮ３は未知である）。式が、Ｎ（またはＮ３）に関して解かれる場合、Ｎ３（またはＮ）が推測される。

確率が使用されて、Ｎを推定する。例えば、一本鎖の配列リードアウトにおける遺伝子座Ａのヌクレオチドを検出した（または読み取った）確率になるように「ｐ」を割り当てる。

二本鎖由来の配列リードアウトに関して、二本鎖の増幅された断片からのヌクレオチドコールは、ｐ＊ｐ＝ｐ＾２の確率を有し、全Ｎ１個の二本鎖の観測は、次の方程式を有する：Ｎ１＝Ｎ＊（ｐ＾２）。

一本鎖由来の配列リードアウトに関する。２本の鎖のうち１本が観測され、他方が未観測であることを想定すると、１本の鎖の観測の確率は「ｐ」であるが、他方の鎖を見失う確率は（１－ｐ）である。さらに、５－プライマー起源および３－プライマー起源の一本鎖を識別しないことにより、因数２が存在する。したがって、一本鎖の増幅された断片由来のヌクレオチドコールは、確率２×ｐ×（１－ｐ）を有する。よって、全Ｎ２個の一本鎖の観測は、次の方程式を有する：Ｎ２＝Ｎ×２×ｐ×（１－ｐ）。

「ｐ」も未知である。ｐを解くために、Ｎ１対Ｎ２の比を使用して、「ｐ」を解く：

「ｐ」が求められたら、Ｎを求めることができる。Ｎが求められた後に、Ｎ３＝Ｎ－Ｎ１－Ｎ２を求めることができる。

ペア化対非ペア化鎖の比に加えて（崩壊後の尺度）、各遺伝子座における崩壊前リード深度における有用な情報が存在する。この情報を使用して、総分子数のコールをさらに改善するおよび／またはバリアントコールの信頼度を増加させることができる。

例えば、図４Ｃは、相補的配列が補正された配列リードを実証する。本来のワトソン鎖または本来のクリック鎖から生成された配列は、それらの二重鎖タグに基づいて区別することができる。同じ本来の鎖から生成された配列を群分けすることができる。配列の検査は、本来の鎖の配列（「コンセンサス配列」）の推測を可能にし得る。この場合、例えば、ｎｎ’分子における配列バリアントは、全配列リードに含まれるため、コンセンサス配列に含まれるが、他のバリアントは、迷走エラーであると観測される。配列の崩壊後に、それらの相補的配列および二重鎖タグに基づき、本来のポリヌクレオチドペアを同定することができる。

図５は、ワトソンおよびクリック鎖由来のリードをペア形成することによる、配列バリアントの検出における信頼度増加を実証する。配列ｎｎ’は、ドットによって示される配列バリアントを含むことができる。一部の事例において、配列ｐｐ’は、配列バリアントを含まない。増幅、配列決定、冗長性低下およびペア形成は、配列バリアントを含む同じ本来の分子のワトソンおよびクリック鎖の両方をもたらすことができる。対照的に、増幅および配列決定におけるサンプリングの際に導入されたエラーの結果、ワトソン鎖ｐのコンセンサス配列は、配列バリアントを含有することができる一方、クリック鎖ｐ’のコンセンサス配列は、これを含有しない。増幅および配列決定が、二重鎖の両方の鎖（ｎｎ’配列）に同じバリアントを導入する可能性は、一方の鎖（ｐｐ’配列）よりも低い。したがって、ｐｐ’配列におけるバリアントは、アーチファクトである可能性が高く、ｎｎ’配列におけるバリアントは、本来の分子に存在する可能性が高い。

本明細書に開示されている方法を使用して、実験、例えば、ＰＣＲ、増幅および／または配列決定に起因するエラーを補正することができる。例えば、かかる方法は、二本鎖ポリヌクレオチドの両端に１種または複数の二本鎖アダプタを取り付け、これにより、タグ付けされた二本鎖ポリヌクレオチドを用意するステップと、二本鎖タグ付けされたポリヌクレオチドを増幅するステップと、タグ付けされたポリヌクレオチドの両方の鎖を配列決定するステップと、一方の鎖とその相補体との配列を比較して、配列決定の際に導入されたいずれかのエラーを決定するステップと、（ｄ）に基づき配列におけるエラーを補正するステップとを含むことができる。本方法において使用されるアダプタは、本明細書に開示されているいずれかのアダプタ、例えば、Ｙ字形アダプタとなり得る。アダプタは、本明細書に開示されているいずれかのバーコード（例えば、別個のバーコード）を含むことができる。

Ｇ．マッピング

配列リードまたはコンセンサス配列は、１種または複数の選択された遺伝子座にマッピングすることができる（例えば、ステップ（１１０）、図１に示す通り）。遺伝子座は、例えば、ゲノム内の特異的なヌクレオチド位置、ヌクレオチドの配列（例えば、オープンリーディングフレーム）、染色体の断片、染色体全体またはゲノム全体となり得る。遺伝子座は、多型遺伝子座となり得る。多型遺伝子座は、配列バリエーションが、集団に存する、および／または対象および／または試料に存する遺伝子座となり得る。多型遺伝子座は、ゲノムの同じ位置に共存する２種またはそれを超える別個の配列によって生成することができる。別個の配列は、いずれかの数のヌクレオチド、一般に、とりわけ５０、４５、４０、３５、３０、２５、２４、２３、２２、２１、２０、１９、１８、１７、１６、１５、１４、１３、１２、１１、１０、９、８、７、６、５、４、３、２または１ヌクレオチド（複数可）未満等、相対的に少数のヌクレオチドの１個または複数のヌクレオチド置換、欠失／挿入および／または重複により、互いに異なることができる。多型遺伝子座は、集団内で変動する単一ヌクレオチド位置により作製することができ、例えば、単一ヌクレオチドバリエーション（ＳＮＶ）または一塩基多型（ＳＮＰ）である。

マッピングのための参照ゲノムは、目的のいずれかの種のゲノムを含むことができる。参照として有用なヒトゲノム配列は、ｈｇ１９アセンブリまたはいずれかの以前のもしくは利用できるｈｇアセンブリを含むことができる。かかる配列は、genome.ucsc.edu/index.htmlにて利用できるゲノムブラウザを使用して照合することができる。他の種のゲノムは、例えば、ＰａｎＴｒｏ２（チンパンジー）およびｍｍ９（マウス）を含む。

本明細書に開示されている方法において、崩壊は、マッピングの前または後に行うことができる。一部の態様において、崩壊は、マッピング前に行うことができる。例えば、配列リードは、リードがゲノム内にマッピングされる位置を考慮することなく、それらのタグおよび１種または複数の内在性配列に基づき、ファミリーへと群分けすることができる。次に、ファミリーのメンバーは、コンセンサス配列へと崩壊させることができる。コンセンサス配列は、本明細書に開示されているいずれかの崩壊方法を使用して生成することができる。次に、コンセンサス配列は、ゲノム内の位置にマッピングすることができる。遺伝子座にマッピングされたリードは、定量化（例えば、計数）することができる。遺伝子座に突然変異を保有するリードのパーセンテージを決定することもできる。あるいは、崩壊は、マッピング後に行うことができる。例えば、あらゆるリードは、先ず、ゲノムにマッピングすることができる。次に、リードは、それらのタグおよび１種または複数の内在性配列に基づき、ファミリーへと群分けすることができる。リードが、ゲノムにマッピングされたら、各遺伝子座におけるファミリー毎にコンセンサス塩基を決定することができる。他の態様において、コンセンサス配列は、ＤＮＡ分子の一方の鎖（例えば、ワトソン鎖またはクリック鎖）のために生成することができる。マッピングは、ＤＮＡ分子の一方の鎖のコンセンサス配列が決定される前または後に行うことができる。ダブレットおよびシングレットの数を決定することができる。これらの数を使用して、未観測分子を計算することができる。例えば、未観測分子は、次の方程式を使用して計算することができる：Ｎ＝Ｄ＋Ｓ＋Ｕ；Ｄ＝Ｎｐ（２）、Ｓ＝Ｎ２ｐｑ（式中、ｐ＝１－ｑ、ｐは、観測の確率であり；ｑは、鎖を見失う確率である）。

Ｈ．群分け

本明細書に開示されている方法は、配列リードを群分けするステップを含むこともできる。配列リードは、様々な種類の配列、例えば、オリゴヌクレオチドタグ（例えば、バーコード）の配列、ポリヌクレオチド断片の配列またはいずれかの組合せに基づき群分けすることができる。例えば、ステップ（１１２）（図１）に示す通り、配列リードは、次の通りに群分けすることができる：試料における二本鎖ポリヌクレオチドの「ワトソン」鎖から生成された配列リードおよび「クリック」鎖から生成された配列リードは、これらが有する二重鎖タグに基づき同定可能である。このようにして、二重鎖ポリヌクレオチドのワトソン鎖由来の配列リードまたはコンセンサス配列は、その相補的クリック鎖由来の配列リードまたはコンセンサス配列とペア形成することができる。ペア形成された配列リードは、「ペア」と称される。

相補鎖に対応する配列リードが配列リードの中に見出されない配列リードは、「シングレット」と命名される。

２本の相補鎖のどちらの配列リードも生成されなかった二本鎖ポリヌクレオチドは、「未観測」分子と称される。

Ｉ．定量化

本明細書に開示されている方法は、配列リードを定量化するステップも含む。例えば、ステップ（１１４）（図１）に示す通り、選択された遺伝子座または複数の選択された遺伝子座のそれぞれにマッピングするペアおよびシングレットは、定量化される、例えば、計数される。

定量化は、試料におけるポリヌクレオチド（例えば、ペアポリヌクレオチド、シングレットポリヌクレオチドまたは未観測ポリヌクレオチド）の数の推定を含むことができる。例えば、ステップ（１１６）（図１）に示す通り、配列リードが生成されなかった試料における二本鎖ポリヌクレオチド（「未観測」ポリヌクレオチド）の数が推定される。二本鎖ポリヌクレオチドが配列リードを生成しない確率は、いずれかの遺伝子座におけるペアおよびシングレットの相対数に基づき決定することができる。この確率を使用して、未観測ポリヌクレオチドの数を推定することができる。

ステップ（１１８）において、選択された遺伝子座にマッピングする試料における二本鎖ポリヌクレオチドの総数の推定は、遺伝子座にマッピングするペアの数、シングレットの数および未観測分子の数の和である。

試料における未観測の本来の分子の数は、ペアおよびシングレットの相対数に基づき推定することができる（図２）。図２を参照すると、一例として、特定のゲノム遺伝子座、遺伝子座Ａの計数が記録され、それによると、１０００分子がペア形成され、１０００分子がペア形成されない。変換後のプロセスを為すために個々のワトソンまたはクリック鎖に対し均一確率、ｐを想定すると、プロセスを為すことができない（未観測）分子の比率を次の通りに計算することができる：Ｒ＝ペア形成対ペア形成されない分子の比＝１とすると、Ｒ＝１＝ｐ^２／（２ｐ（１－ｐ））。これは、ｐ＝２／３であることと、失われた分子の分量が、（１－ｐ）^２＝１／９に等しいことを意味する。よって、この例において、変換された分子のおよそ１１％が、失われ、検出されない。同じ試料における別のゲノム遺伝子座、遺伝子座Ｂを考慮し、これによると、１４４０分子がペア形成され、７２０がペア形成されない。同じ方法を使用して、失われた分子の数が僅か４％であることを推測することができる。この２区域を比較すると、遺伝子座Ｂにおける２１６０分子と比較して、遺伝子座Ａが、２０００個の特有の分子を有したことを想定することができる－
ほぼ８％の差。しかし、各領域における失われた分子において正確に加えることにより、遺伝子座Ａに２０００／（８／９）＝２２５０分子、遺伝子座Ｂに２１６０／０．９６＝２２５０分子が存在すると推測する。したがって、両方の領域における計数は、実際に等しい。この補正と、したがって、さらにより高い感度は、本来の二本鎖核酸分子を変換し、プロセスの終わりにペア形成されるおよびペア形成されない全分子をバイオインフォマティクスにより追跡維持することにより達成可能である。同様に、同じ手順を使用して、観察された特有の分子の類似の計数を有すると思われる領域における真のコピー数バリエーションを推測することができる。２種またはそれを超える領域における未観測分子の数を考慮に入れることにより、コピー数バリエーションは明らかになる。

二項分布の使用に加えて、未観測分子の数を推定する他の方法は、観察された配列リードの冗長性に基づく指数関数的、ベータ、ガンマまたは経験的分布を含む。後者の場合、ペア形成されたおよびペア形成されない分子のリード計数の分布は、特定の遺伝子座における本来のポリヌクレオチド分子の根底にある分布を推測するために、かかる冗長性に由来し得る。これは多くの場合、未観測分子の数のより優れた推定をもたらし得る。

Ｊ．ＣＮＶ検出

本明細書に開示されている方法は、ＣＮＶを検出するステップも含む。例えば、ステップ（１２０）（図１）に示す通り、遺伝子座にマッピングするポリヌクレオチドの総数が決定されたら、該遺伝子座におけるＣＮＶを決定する標準方法において、この数を使用することができる。定量的尺度は、標準に対し正規化することができる。標準は、いずれかのポリヌクレオチドの量となり得る。一方法において、被験遺伝子座における定量的尺度は、公知のコピー数の遺伝子等、ゲノムにおける対照遺伝子座にマッピングするポリヌクレオチドの定量的尺度に対し標準化することができる。定量的尺度は、本明細書に開示されているいずれかの試料における核酸の量に対し比較することができる。例えば、別の方法において、定量的尺度は、本来の試料における核酸の量に対し比較することができる。例えば、本来の試料が、１０，０００一倍体遺伝子当量を含有した場合、定量的尺度は、二倍性に予想される尺度に対し比較することができる。別の方法において、定量的尺度は、対照試料由来の尺度に対し正規化することができ、異なる遺伝子座における正規化された尺度を比較することができる。

コピー数バリエーション解析が望まれる一部の事例において、配列データは：１）参照ゲノムと整列することができ；２）フィルターをかけマッピングすることができ；３）配列のウィンドウまたはビンへとパーティションで区切ることができ；４）ウィンドウ毎に計数される被覆リードとなることができ；５）次に、確率論的または統計的モデリングアルゴリズムを使用して、被覆リードを正規化することができ；６）ゲノム内の様々な位置における別々のコピー数状態を反映する出力ファイルを生成することができる。稀な突然変異解析が望まれる他の事例において、配列データは、１）参照ゲノムと整列することができ；２）フィルターをかけマッピングすることができ；３）バリアント塩基の頻度を、この特異的塩基の被覆リードに基づき計算することができ；４）確率論的、統計的または確率的モデリングアルゴリズムを使用してバリアント塩基頻度を正規化することができ；５）ゲノム内の様々な位置における突然変異状態を反映する出力ファイルを生成することができる。

配列リード被覆比が決定されたら、確率論的モデリングアルゴリズムを任意選択で適用して、ウィンドウ領域毎の正規化された比を別々のコピー数状態に変換することができる。一部の事例において、このアルゴリズムは、隠れマルコフモデルを含むことができる。他の事例において、確率論的モデルは、動的プログラミング、サポートベクターマシン、ベイジアンモデリング、確率的モデリング、トレリスデコーディング、ビタビデコーディング、期待値最大化、カルマンフィルタリング方法論またはニューラル・ネットワークを含むことができる。

本明細書に開示されている方法は、ゲノム内の特異的領域におけるＳＮＶ、ＣＮＶ、挿入、欠失および／または再編成を検出するステップを含むことができる。特異的ゲノム領域は、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡまたはＮＴＲＫ１等、遺伝子における配列を含むことができる。

一部の事例において、本方法は、１種または複数の遺伝子のエクソンを含むパネルを使用する。パネルは、１種または複数の遺伝子のイントロンも同様に含むことができる。パネルは、１種または複数の遺伝子のエクソンおよびイントロンを含むこともできる。１種または複数の遺伝子は、上に開示されている遺伝子となり得る。パネルは、遺伝子のパネルを網羅する約８０，０００塩基を含むことができる。パネルは、約１０００、２０００、３０００、４０００、５０００、１００００、１５０００、２００００、２５０００、３００００、３５０００、４００００、４５０００、５００００、５５０００、６００００、６５０００、７００００、７５０００、８００００、８５０００、９００００、９５０００、１０００００、１０５０００、１１００００、１１５０００、１２００００、１２５０００またはそれを超える塩基を含むことができる。

一部の態様において、遺伝子のコピー数は、試料における遺伝子の遺伝的形態の頻度において反映され得る。例えば、健康個体において、コピー数バリエーションは、試料における検出される分子の約５０％において検出される、１本の染色体内の遺伝子におけるバリアントにおいて反映されない（例えば、ヘテロ接合性）。また、健康個体において、バリアントを有する遺伝子の重複は、試料における検出される分子の約６６％において検出されるバリアントにおいて反映され得る。したがって、ＤＮＡ試料における腫瘍負荷が、１０％である場合、ＣＮＶなしで、がん細胞の１本の染色体内の遺伝子における体細胞突然変異の頻度は、約５％となり得る。異数性の場合、逆も真となり得る。

本明細書に開示されている方法を使用して、配列バリアントが、生殖系列レベルに存在するかまたは例えばがん細胞における体細胞突然変異に起因する可能性がより高いか決定することができる。例えば、生殖系列におけるヘテロ接合性とほぼ間違いなく一貫したレベルで検出される遺伝子における配列バリアントは、該遺伝子においてＣＮＶも検出される場合、体細胞突然変異の産物である可能性がより高い。一部の事例において、生殖系列における遺伝子重複が、遺伝子量と一貫したバリアントを有することが予想される程度まで（例えば、遺伝子座におけるトリソミーに関する６６％）、この予想される量から有意に逸脱する配列バリアント用量による遺伝子増幅検出は、ＣＮＶが、体細胞突然変異の結果として存在する可能性がより高いことを示す。

本明細書に開示されている方法を使用して、２種の遺伝子における配列バリアントが異なる頻度で検出される状況における腫瘍異種性を推測することもできる。例えば、２種の遺伝子が異なる頻度で検出されるが、それらのコピー数が相対的に等しい場合、腫瘍異種性を推測することができる。あるいは、２種の配列バリアント間の頻度における差が、該２遺伝子のコピー数における差と一貫した場合、腫瘍均一性を推測することができる。よって、例えば、ＥＧＦＲバリアントが１１％で検出され、ＫＲＡＳバリアントが５％で検出され、これらの遺伝子においてＣＮＶが検出されない場合、頻度における差は、腫瘍異種性を反映する可能性がある（例えば、全腫瘍細胞が、ＥＧＦＲ突然変異体を保有し、腫瘍細胞の半分が、ＫＲＡＳ突然変異体も保有する）。あるいは、突然変異体を保有するＥＧＦＲ遺伝子が、２倍正常コピー数で検出される場合、解釈の１つは、腫瘍細胞の同種集団であり、各細胞が、ＥＧＦＲおよびＫＲＡＳ遺伝子に突然変異体を保有するが、このＫＲＡＳ遺伝子は重複している。

化学療法に応答して、優位な腫瘍型は、がんを治療レジメンに対し無応答性にする突然変異体を保有するがん細胞へとダーウィン淘汰により最終的に取って代わられ得る。これらの抵抗性突然変異体の出現は、本発明の方法により遅延させることができる。本方法の一実施形態において、対象は、１回または複数のパルス治療サイクルに供され、各パルス治療サイクルは、薬物が第１の量で投与される第１の期間と、該薬物が第２の低下した量で投与される第２のサイクルとを含む。第１の期間は、第１の臨床レベルを上回って検出される腫瘍負荷によって特徴付けることができる。第２の期間は、第２の臨床レベルを下回って検出される腫瘍負荷によって特徴付けることができる。第１および第２の臨床レベルは、異なるパルス治療サイクルにおいて異なることができる。例えば、第１の臨床レベルは、後続サイクルにおいてより低くなることができる。複数のサイクルは、少なくとも２、３、４、５、６、７、８またはそれを超えるサイクルを含むことができる。例えば、ＢＲＡＦ突然変異体Ｖ６００Ｅは、ｃｆＤＮＡにおける５％の腫瘍負荷を示す量で疾患細胞のポリヌクレオチドにおいて検出することができる。化学療法は、ダブラフェニブと共に開始することができる。その後の検査は、ｃｆＤＮＡにおけるＢＲＡＦ突然変異体の量が、０．５％を下回って下落するまたは検出不能レベルとなることを示すことができる。この時点で、ダブラフェニブ療法は、停止するまたは有意に短縮させることができる。さらに、その後の検査は、ＢＲＡＦ突然変異を有するＤＮＡが、ｃｆＤＮＡにおけるポリヌクレオチドの２．５％に上昇したことを見出すことができる。この時点で、例えば、初期処置と同じレベルで、ダブラフェニブ療法を再開することができる。その後の検査は、ＢＲＡＦ突然変異を有するＤＮＡが、ｃｆＤＮＡにおけるポリヌクレオチドの０．５％まで減少したことを見出すことができる。再度、ダブラフェニブ療法を停止または低下させることができる。サイクルを多数回反復することができる。

治療介入は、本来の薬物に対し抵抗性の突然変異体型の上昇の検出により変化させることもできる。例えば、ＥＧＦＲ突然変異Ｌ８５８Ｒを有するがんは、エルロチニブによる治療法に応答する。しかし、ＥＧＦＲ突然変異Ｔ７９０Ｍを有するがんは、エルロチニブに対し抵抗性である。しかし、これは、ルキソリチニブに対し応答性である。本発明の方法は、腫瘍プロファイルの変化をモニタリングするステップと、薬物抵抗性に関連する遺伝的バリアントが、既定の臨床レベルまで上昇する場合、治療介入を変化させるステップとに関与する。

本発明に開示されている方法は、体細胞および疾患細胞由来のポリヌクレオチドを含む試料から疾患細胞異種性を検出する方法であって、ａ）複数の遺伝子座のそれぞれに配列バリアントを有する試料におけるポリヌクレオチドを定量化するステップと、ｂ）複数の遺伝子座のそれぞれにおけるＣＮＶ、遺伝子座における疾患分子の異なる相対量を決定するステップであって、ＣＮＶが、疾患細胞ポリヌクレオチドにおける遺伝子座の遺伝子量を示すステップと、ｃ）複数の遺伝子座のそれぞれの遺伝子座における遺伝子量当たりの遺伝子座に配列バリアントを有するポリヌクレオチドの分量の相対的尺度を決定するステップと、ｄ）複数の遺伝子座のそれぞれにおける相対的尺度を比較するステップであって、異なる相対的尺度が、腫瘍異種性を示すステップとを含む方法を含むことができる。本明細書に開示されている方法において、遺伝子量は、総分子基盤で決定することができる。例えば、第１の遺伝子座に１×総分子が存在し、第２の遺伝子座にマッピングされた１．２×分子が存在する場合、遺伝子量は１．２である。この遺伝子座におけるバリアントは、１．２で割ることができる。一部の態様において、本明細書に開示されている方法を使用して、いずれかの疾患細胞異種性、例えば、腫瘍細胞異種性を検出することができる。本方法を使用して、いずれかの種類のポリヌクレオチド、例えば、ｃｆＤＮＡ、ゲノムＤＮＡ、ｃＤＮＡまたはｃｔＤＮＡを含む試料から疾患細胞異種性を検出することができる。本方法において、定量化は、例えば、ポリヌクレオチドの数または相対量の決定を含むことができる。ＣＮＶの決定は、遺伝子座に対する異なる相対量の総分子のマッピングおよび正規化を含むことができる。

別の態様において、化学療法に応答して、優位な腫瘍型は、がんを治療レジメンに対し無応答性にする突然変異体を保有するがん細胞へとダーウィン淘汰により最終的に取って代わられ得る。これらの抵抗性突然変異体の出現は、本明細書を通して開示されている方法により遅延させることができる。本明細書に開示されている方法は、ａ）各パルス治療サイクルが、（ｉ）薬物が第１の量で投与される第１の期間および（ｉｉ）薬物が第２の低下した量で投与される第２の期間を含む、対象を１回または複数のパルス治療サイクルに供するステップであって、（Ａ）第１の期間が、第１の臨床レベルを上回って検出される腫瘍負荷によって特徴付けられ、（Ｂ）第２の期間が、第２の臨床レベルを下回って検出される腫瘍負荷によって特徴付けられるステップを含む方法を含むことができる。

Ｋ．配列バリアント検出

本明細書に開示されているシステムおよび方法を使用して、配列バリアント、例えば、ＳＮＶを検出することができる。例えば、配列バリアントは、複数の配列リード、例えば、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、少なくとも２５、少なくとも２６、少なくとも２７、少なくとも２８、少なくとも２９、少なくとも３０、少なくとも３１、少なくとも３２、少なくとも３３、少なくとも３４、少なくとも３５、少なくとも３６、少なくとも３７、少なくとも３８、少なくとも３９、少なくとも４０、少なくとも４１、少なくとも４２、少なくとも４３、少なくとも４４、少なくとも４５、少なくとも４６、少なくとも４７、少なくとも４８、少なくとも４９、少なくとも５０、少なくとも５１、少なくとも５２、少なくとも５３、少なくとも５４、少なくとも５５、少なくとも５６、少なくとも５７、少なくとも５８、少なくとも５９、少なくとも６０、少なくとも６１、少なくとも６２、少なくとも６３、少なくとも６４、少なくとも６５、少なくとも６６、少なくとも６７、少なくとも６８、少なくとも６９、少なくとも７０、少なくとも７１、少なくとも７２、少なくとも７３、少なくとも７４、少なくとも７５、少なくとも７６、少なくとも７７、少なくとも７８、少なくとも７９、少なくとも８０、少なくとも８１、少なくとも８２、少なくとも８３、少なくとも８４、少なくとも８５、少なくとも８６、少なくとも８７、少なくとも８８、少なくとも８９、少なくとも９０、少なくとも９１、少なくとも９２、少なくとも９３、少なくとも９４、少なくとも９５、少なくとも９６、少なくとも９７、少なくとも９８、少なくとも９９、少なくとも１００、少なくとも２００、少なくとも３００、少なくとも４００、少なくとも５００、少なくとも６００、少なくとも７００、少なくとも８００、少なくとも９００、少なくとも１０００、少なくとも２０００、少なくとも３０００、少なくとも４０００、少なくとも５０００、少なくとも６０００、少なくとも７０００、少なくとも８０００、少なくとも９０００、少なくとも１００００種またはそれを超える配列リード由来のコンセンサス配列から検出することができる。コンセンサス配列は、一本鎖ポリヌクレオチドの配列リードに由来し得る。コンセンサス配列は、二本鎖ポリヌクレオチドの一方の鎖の配列リードに由来することもできる（例えば、リードのペア形成）。例示的な方法において、リードのペア形成は、増加した信頼度での、分子における配列バリアントの存在の同定を可能にする。例えば、ペアの両方の鎖が、同じバリアントを含む場合、増幅／配列決定において同じバリアントが両方の鎖に導入される確率は、稀なため、バリアントが、本来の分子に存在したと合理的に確信することができる。対照的に、ペアの一方の鎖のみが、配列バリアントを含む場合、これは、アーチファクトである可能性がより高い。同様に、増幅／配列決定においてバリアントが１回導入され得る確率は、２回よりも高いため、配列バリアントを有するシングレットが、本来の分子に存在した信頼度は、バリアントが二重鎖に存在する場合の信頼度に満たない。

コピー数バリエーション検出および配列バリアント検出の他の方法は、参照により本明細書に全体的に組み込まれるＰＣＴ／ＵＳ２０１３／０５８０６１に記載されている。

配列リードを崩壊させて、コンセンサス配列を生成することができ、これを参照配列にマッピングして、ＣＮＶまたはＳＮＶ等、遺伝的バリアントを同定することができる。代替として、配列リードは、先にマッピングされる、またはマッピングなしであってもよい。このような場合、配列リードを個々に参照にマッピングして、ＣＮＶまたはＳＮＶを同定することができる。

図３は、遺伝子座Ａをコードする参照配列を示す。図３におけるポリヌクレオチドは、Ｙ字形となり得る、またはヘアピン等の他の形状を有する。

一部の事例において、ＳＮＶまたは複数ヌクレオチドバリアント（ＭＮＶ）は、遺伝子座に対応する配列リードを整列することにより、所与の遺伝子座（例えば、ヌクレオチド塩基）における複数の配列リードにわたり決定することができる。次に、配列リードの少なくともサブセット由来の複数の連続的ヌクレオチド塩基は、参照にマッピングされて、該リードに対応するポリヌクレオチド分子またはその部分におけるＳＮＶまたはＭＮＶを決定する。複数の連続的ヌクレオチド塩基は、ＳＮＶまたはＭＮＶの実際の、推測されるまたは疑われる位置にまたがることができる。複数の連続的ヌクレオチド塩基は、少なくとも３、４、５、６、７、８、９または１０ヌクレオチド塩基にまたがることができる。

Ｌ．核酸の検出／定量化

本願を通して記載されている方法を使用して、極めて高効率でデオキシリボ核酸（ＤＮＡ）等の核酸断片をタグ付けすることができる。この効率的なタグ付けは、本来のＤＮＡ断片の不均一集団（ｃｆＤＮＡ等）における稀なＤＮＡの効率的かつ正確な検出を可能にする。稀なポリヌクレオチド（例えば、稀なＤＮＡ）は、１０％、５％、４％、３％、２％、１％または０．１％未満の頻度でポリヌクレオチドの集団に生じる遺伝的バリアントを含むポリヌクレオチドとなり得る。稀なＤＮＡは、５０％、２５％、１０％、５％、１％または０．１％未満の濃度で検出可能な特性を有するポリヌクレオチドとなり得る。

タグ付けは、単一の反応において起こり得る。一部の事例において、２回またはそれを超える反応を共に実行およびプールすることができる。単一の反応における本来のＤＮＡ断片それぞれのタグ付けは、本来のＤＮＡ断片の５０％超（例えば、６０％、７０％、８０％、９０％、９５％または９９％）が、分子バーコードを含むタグを両端にタグ付けされるようなタグ付けをもたらし、これにより、タグ付けされたＤＮＡ断片を用意することができる。タグ付けは、分子バーコードを含むタグを両端にタグ付けされた、本来のＤＮＡ断片の３０％、３５％、４０％、４５％、５０％、５１％、５２％、５３％、５４％、５５％、５６％、５７％、５８％、５９％、６０％、６１％、６２％、６３％、６４％、６５％、６６％、６７％、６８％、６９％、７０％、７１％、７２％、７３％、７４％、７５％、７６％、７７％、７８％、７９％、８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％または９９％超をもたらすこともできる。タグ付けは、分子バーコードを含むタグを両端にタグ付けされた、本来のＤＮＡ断片の１００％をもたらすこともできる。タグ付けは、単一末端タグ付けをもたらすこともできる。

タグ付けは、本来のＤＮＡ断片と比較して過剰量のタグを使用することにより起こることもできる。例えば、過剰は、少なくとも５倍過剰となり得る。他の事例において、過剰は、少なくとも１．２５、１．５、１．７５、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００倍またはそれを超えて過剰となり得る。タグ付けは、平滑末端または粘着末端への取り付けを含むことができる。タグ付けは、ハイブリダイゼーションＰＣＲによって行うこともできる。タグ付けは、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００ピコおよび／またはマイクロリットル等、少ない反応容量で行うこともできる。

本方法は、タグ付けされたＤＮＡ断片において高忠実度増幅を行うステップを含むこともできる。いかなる高忠実度ＤＮＡポリメラーゼを使用してもよい。例えば、ポリメラーゼは、ＫＡＰＡＨｉＦｉＤＮＡポリメラーゼまたはＰｈｕｓｉｏｎＤＮＡポリメラーゼとなり得る。

さらに、本方法は、タグ付けされたＤＮＡ断片のサブセットを選択的に濃縮するステップを含むことができる。例えば、選択的濃縮は、ハイブリダイゼーションまたは増幅技法によって行うことができる。選択的濃縮は、固体支持体（例えば、ビーズ）を使用して行うことができる。固体支持体（例えば、ビーズ）は、プローブ（例えば、ある特定の配列に特異的にハイブリダイズするオリゴヌクレオチド）を含むことができる。例えば、プローブは、ある特定のゲノム領域、例えば、遺伝子とハイブリダイズすることができる。一部の事例において、ゲノム領域、例えば、遺伝子は、疾患、例えば、がんに関連する領域となり得る。濃縮後に、選択された断片は、本発明に開示されているいずれかの配列決定アダプタを取り付けることができる。例えば、配列アダプタは、フローセル配列、試料バーコードまたはその両方を含むことができる。別の例において、配列アダプタは、ヘアピン形アダプタとなり得る、および／または試料バーコードを含む。さらに、得られた断片を増幅および配列決定することができる。一部の事例において、アダプタは、配列決定プライマー領域を含まない。

本方法は、ＤＮＡ断片の一方または両方の鎖を配列決定するステップを含むことができる。一事例において、ＤＮＡ断片の両方の鎖は、独立的に配列決定される。タグ付け、増幅および／または選択的に濃縮されたＤＮＡ断片を配列決定して、分子バーコードおよび本来のＤＮＡ断片の少なくとも一部分の配列情報を含む配列リードを得る。

本方法は、配列リードにおける冗長性（上述の通り）を低下または追跡して、本来のＤＮＡ断片の一本鎖の代表となるコンセンサスリードを決定するステップを含むことができる。例えば、冗長性を低下または追跡するために、本方法は、同じまたは類似の分子バーコードおよび同じまたは類似の断片配列の末端を有する配列リードを比較するステップを含むことができる。本方法は、同じまたは類似の分子バーコードを有する配列リードにおいて系統発生解析を行うステップを含むことができる。分子バーコードは、変動する編集距離（本願を通して記載されているいずれかの編集距離を含む）、例えば、最大３の編集距離を有するバーコードを有することができる。断片配列の末端は、変動する距離（本願を通して記載されているいずれかの編集距離を含む）、例えば、最大３の編集距離を有する編集距離を有する断片配列を含むことができる。

本方法は、分子バーコードおよび配列情報に従って配列リードをビニングするステップを含むことができる。例えば、分子バーコードおよび配列情報に従った配列リードのビニングは、本来のＤＮＡ断片のそれぞれの少なくとも一端から行って、一本鎖リードのビンを作製することができる。本方法は、各ビンにおいて、配列リードを解析することにより、本来のＤＮＡ断片の中の所与の本来のＤＮＡ断片の配列を決定するステップをさらに含むことができる。

一部の事例において、各ビンにおける配列リードをコンセンサス配列へと崩壊させ、その後、ゲノムにマッピングすることができる。代替として、配列リードをビニングに先立ちゲノムにマッピングし、その後、コンセンサス配列へと崩壊させることができる。

本方法は、配列リードを、ペア形成されたリードおよびペア形成されないリードへと選別するステップを含むこともできる。選別後に、１種または複数の遺伝子座のそれぞれにマッピングするペア形成されたリードおよびペア形成されないリードの数を定量化することができる。

本方法は、コンセンサスリードを定量化して、本願を通して記載されている稀なＤＮＡを検出および／または定量化するステップを含むことができる。本方法は、タグ付け、増幅および／または濃縮されたＤＮＡ断片によって表されるゲノムの各位置において各塩基が生じる回数を比較することにより、稀なＤＮＡを検出および／または定量化するステップを含むことができる。

本方法は、タグのライブラリーを使用して、単一の反応において本来のＤＮＡ断片にタグ付けするステップを含むことができる。ライブラリーは、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも５０、少なくとも１００、少なくとも５００、少なくとも１０００、少なくとも５０００、少なくとも１００００種またはいずれかの数の本願を通して開示されているタグを含むことができる。例えば、タグのライブラリーは、少なくとも８種のタグを含むことができる。タグのライブラリーは、８種のタグを含むことができる（これは、６４種の異なる可能な組合せを生成することができる）。本方法は、高パーセンテージの断片、例えば、５０％超（または本願を通して記載されているいずれかのパーセンテージ）が両端にタグ付けされるように行うことができ、タグのそれぞれは、分子バーコードを含む。

Ｍ．核酸の処理および／または解析

本願を通して記載されている方法は、対象の核酸試料を処理および／または解析するために使用することができる。本方法は、複数のポリヌクレオチド分子への核酸試料のポリヌクレオチド断片を曝露して、タグ付けされたポリヌクレオチド断片を得るステップを含むことができる。使用することができる複数のポリヌクレオチド分子は、本願を通して記載されている。

例えば、複数のポリヌクレオチド分子はそれぞれ、４０核酸塩基未満またはそれに等しい長さとなることができ、少なくとも４核酸塩基に関して別個のバーコード配列および少なくとも１の編集距離を有し、別個のバーコード配列のそれぞれは、複数のポリヌクレオチド分子のうちそれぞれ１種の末端から２０核酸塩基以内であり、複数のポリヌクレオチド分子は、配列決定アダプタではない。

タグ付けされたポリヌクレオチド断片は、タグ付けされたポリヌクレオチド断片の増幅産物として増幅されたポリヌクレオチド断片を生じる条件下で核酸増幅反応に供することができる。増幅後に、増幅されたタグ付けされたポリヌクレオチド断片のヌクレオチド配列が決定される。一部の事例において、増幅されたタグ付けされたポリヌクレオチド断片のヌクレオチド配列は、ポリメラーゼ連鎖反応（ＰＣＲ）を使用せずに決定される。

本方法は、プログラムされたコンピュータプロセッサによりヌクレオチド配列を解析して、対象のヌクレオチド試料における１種または複数の遺伝的バリアントを同定するステップを含むことができる。塩基変化（複数可）、挿入（複数可）、反復（複数可）、欠失（複数可）、コピー数バリエーション（複数可）、エピジェネティック修飾（複数可）、ヌクレオソーム結合部位（複数可）、複製起点（複数可）によるコピー数変化（複数可）およびトランスバージョン（複数可）等が挙げられるがこれらに限定されない、いかなる遺伝子変更を同定することもできる。他の遺伝子変更として、１種または複数の腫瘍関連遺伝子変更を挙げることができるがこれらに限定されない。

本方法の対象は、疾患であると疑われ得る。例えば、対象は、がんであると疑われ得る。本方法は、対象から核酸試料を収集するステップを含むことができる。核酸試料は、血液、血漿、血清、尿、唾液、粘膜排泄、痰、糞便、脳脊髄液、皮膚、毛髪、汗および／または涙から収集することができる。核酸試料は、無細胞核酸試料となり得る。一部の事例において、核酸試料は、対象の１００ナノグラム（ｎｇ）以下の二本鎖ポリヌクレオチド分子から収集される。

ポリヌクレオチド断片は、二本鎖ポリヌクレオチド分子を含むことができる。一部の事例において、複数のポリヌクレオチド分子は、平滑末端ライゲーション、粘着末端ライゲーション、分子逆位プローブ、ポリメラーゼ連鎖反応（ＰＣＲ）、ライゲーションに基づくＰＣＲ、マルチプレックスＰＣＲ、一本鎖ライゲーションまたは一本鎖環状化によりポリヌクレオチド断片にカップリングされる。

本明細書に記載されている方法は、核酸の高効率タグ付けをもたらす。例えば、複数のポリヌクレオチド分子への核酸試料のポリヌクレオチド断片の曝露は、少なくとも３０％、例えば、少なくとも５０％（例えば、６０％、７０％、８０％、９０％、９５％または９９％）の変換効率で、タグ付けされたポリヌクレオチド断片を生じる。少なくとも３０％、３５％、４０％、４５％、５０％、５１％、５２％、５３％、５４％、５５％、５６％、５７％、５８％、５９％、６０％、６１％、６２％、６３％、６４％、６５％、６６％、６７％、６８％、６９％、７０％、７１％、７２％、７３％、７４％、７５％、７６％、７７％、７８％、７９％、８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％または９９％の変換効率を達成することができる。

本方法は、共通ポリヌクレオチド分子を共有するタグ付けされたポリヌクレオチド断片をもたらすことができる。例えば、タグ付けされたポリヌクレオチド断片の少なくとも５％、６％、７％、８％、９％、１０％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％または１００％のいずれかは、共通ポリヌクレオチド分子を共有する。本方法は、核酸試料からポリヌクレオチド断片を生成するステップを含むことができる。

一部の事例において、本方法の供するステップは、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される複数の遺伝子に対応するプライマーの存在下で、タグ付けされたポリヌクレオチド断片を増幅するステップを含む。その上、これらの遺伝子のいずれかの組合せを増幅することができる。例えば、これらの遺伝子のうち１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３種または全５４種を増幅することができる。

本明細書に記載されている方法は、複数のポリヌクレオチド分子から複数の配列リードを生成するステップを含むことができる。複数のポリヌクレオチド分子は、標的ゲノムのゲノム遺伝子座を網羅することができる。例えば、ゲノム遺伝子座は、上に収載されている複数の遺伝子に対応することができる。さらに、ゲノム遺伝子座は、これらの遺伝子のいずれかの組合せとなり得る。いずれか所与のゲノム遺伝子座は、少なくとも２個の核酸塩基を含むことができる。いずれか所与のゲノム遺伝子座は、複数の核酸塩基、例えば、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０個またはそれを超える核酸塩基を含むこともできる。

本方法は、コンピュータプロセッサにより、複数の配列リードをファミリーへと群分けするステップを含むことができる。ファミリーのそれぞれは、鋳型ポリヌクレオチドのうち１種に由来する配列リードを含むことができる。各ファミリーは、鋳型ポリヌクレオチドのうち１種のみに由来する配列リードを含むことができる。ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成することができる。群分けするステップは、（ｉ）複数のポリヌクレオチド分子にカップリングされた別個の分子バーコードおよび（ｉｉ）複数の配列リード間の類似性を同定することにより、複数の配列リードをファミリーへと分類するステップを含むことができ、各ファミリーは、分子バーコードおよび類似または同一の配列リードの別個の組合せに関連する複数の核酸配列を含む。

統合したら、コンセンサス配列をゲノム遺伝子座の中の所与のゲノム遺伝子座においてコールすることができる。いずれか所与のゲノム遺伝子座において、次のうちいずれかを決定することができる：ｉ）コールの中の遺伝的バリアント；ｉｉ）コールの中の遺伝子変更の頻度；ｉｉｉ）コールの総数；およびｉｖ）コールの中の変更の総数。コールは、所与のゲノム遺伝子座における少なくとも１個の核酸塩基のコールを含むことができる。コールは、所与のゲノム遺伝子座における複数の核酸塩基のコールを含むことができる。一部の事例において、コールは、系統発生解析、投票（例えば、偏った投票）、秤量、ファミリーにおける遺伝子座における各リードへの確率の割り当て、または最高確率による塩基のコールを含むことができる。コンセンサス配列は、配列リードのそれぞれの定量的尺度または統計的有意性レベルを評価することにより生成することができる。定量的尺度が行われる場合、本方法は、二項分布、指数関数的分布、ベータ分布または経験的分布の使用を含むことができる。しかし、特定の位置における塩基の頻度は、コールするために使用することもでき、例えば、リードの５１％またはそれ超が、この位置において「Ａ」である場合、塩基は、該特定の位置において「Ａ」とコールすることができる。本方法は、コンセンサス配列を標的ゲノムにマッピングするステップをさらに含むことができる。

本方法は、ゲノム遺伝子座の中の追加的なゲノム遺伝子座においてコンセンサスコールを行うステップをさらに含むことができる。本方法は、所与のゲノム遺伝子座および追加的なゲノム遺伝子座における計数に基づき、所与のゲノム遺伝子座および追加的なゲノム遺伝子座のうち１種におけるコピー数のバリエーションを決定するステップを含むことができる。

本明細書に記載されている方法は、反応容器に鋳型ポリヌクレオチド分子およびアダプタポリヌクレオチド分子のライブラリーを用意するステップを含むことができる。アダプタポリヌクレオチド分子は、２～１，０００種の異なるバーコード配列を有することができ、一部の事例において、配列決定アダプタではない。アダプタポリヌクレオチド分子の他のバリエーションは、本願を通して記載されており、本方法においてこれを使用することもできる。

アダプタのポリヌクレオチド分子は、同じ試料タグを有することができる。アダプタポリヌクレオチド分子は、鋳型ポリヌクレオチド分子の両端にカップリングすることができる。本方法は、少なくとも３０％、例えば、少なくとも５０％（例えば、６０％、７０％、８０％、９０％、９５％または９９％）の効率で、アダプタポリヌクレオチド分子を鋳型ポリヌクレオチド分子にカップリングし、これにより、４～１，０００，０００種の異なるタグ付け組合せの中のタグ付け組合せを各鋳型ポリヌクレオチドにタグ付けして、タグ付けされたポリヌクレオチド分子を産生するステップを含むことができる。一部の事例において、反応は、単一の反応容器内で起こることができる。カップリング効率は、少なくとも３０％、３５％、４０％、４５％、５０％、５１％、５２％、５３％、５４％、５５％、５６％、５７％、５８％、５９％、６０％、６１％、６２％、６３％、６４％、６５％、６６％、６７％、６８％、６９％、７０％、７１％、７２％、７３％、７４％、７５％、７６％、７７％、７８％、７９％、８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％または９９％となることもできる。タグ付けは、非特有タグ付けとなり得る。

次に、タグ付けされたポリヌクレオチド分子は、タグ付けされたポリヌクレオチド分子の増幅産物として増幅されたポリヌクレオチド分子を生じる条件下で、増幅反応に供することができる。鋳型ポリヌクレオチド分子は、二本鎖となり得る。さらに、鋳型ポリヌクレオチド分子は、平滑末端となり得る。一部の事例において、増幅反応は、タグ付けされたポリヌクレオチド分子を非特異的に増幅するステップを含む。増幅反応は、タグ付けされたポリヌクレオチド分子のそれぞれを増幅するためにプライミング部位を使用するステップを含むこともできる。プライミング部位は、プライマー、例えば、ユニバーサルプライマーとなり得る。プライミング部位は、ニックとなることもできる。

本方法は、増幅されたポリヌクレオチド分子を配列決定するステップを含むこともできる。配列決定するステップは、（ｉ）増幅されたポリヌクレオチド分子の増幅産物として追加的な増幅されたポリヌクレオチド分子を生じる条件下で、増幅されたポリヌクレオチド分子を追加的な増幅反応に供するステップおよび／または（ｉｉ）追加的な増幅されたポリヌクレオチド分子を配列決定するステップを含むことができる。追加的な増幅は、フローセルに結合することができるポリヌクレオチド分子を産生するフローセル配列を含むプライマーの存在下で行うことができる。追加的な増幅は、ヘアピン形アダプタのための配列を含むプライマーの存在下で行うこともできる。ヘアピン形アダプタをポリヌクレオチド断片の両端に取り付けて、複数回配列決定することができる環状分子を生成することができる。本方法は、増幅されたポリヌクレオチド分子の配列決定の際に遺伝的バリアントを同定するステップをさらに含むことができる。

本方法は、増幅されたポリヌクレオチド分子から、１種または複数の所与の配列を含むポリヌクレオチド分子を分離して、濃縮されたポリヌクレオチド分子を産生するステップをさらに含むことができる。本方法は、フローセル配列を含むプライマーにより、濃縮されたポリヌクレオチド分子を増幅するステップを含むこともできる。フローセル配列を含むプライマーによるこの増幅は、フローセルに結合することができるポリヌクレオチド分子を産生するであろう。増幅は、ヘアピン形アダプタのための配列を含むプライマーの存在下で行うこともできる。ヘアピン形アダプタをポリヌクレオチド断片の両端に取り付けて、複数回配列決定することができる環状分子を生成することができる。

フローセル配列またはヘアピン形アダプタは、かかる配列のライゲーション等、非増幅方法により付加することができる。ハイブリダイゼーション方法等の他の技法、例えば、ヌクレオチドオーバーハングを使用することができる。

本方法は、タグ付けされたポリヌクレオチド分子をアリコートにすることなく行うことができる。例えば、タグ付けされたポリヌクレオチド分子を作製したら、増幅および配列決定は、さらに調製することなく、同じチューブ内で起こることができる。

本明細書に記載されている方法は、単一ヌクレオチドバリエーション（ＳＮＶ）、コピー数バリエーション（ＣＮＶ）、挿入、欠失および／または再編成の検出において有用となり得る。一部の事例において、ＳＮＶ、ＣＮＶ、挿入、欠失および／または再編成は、疾患、例えば、がんに関連することができる。

Ｎ．患者の状態のモニタリング

本明細書に開示されている方法を使用して、患者の疾患状態をモニタリングすることもできる。対象の疾患を経時的にモニタリングして、疾患の進行（例えば、退縮）を決定することができる。疾患を示すマーカーは、無細胞ＤＮＡ試料等、対象の生物学的試料においてモニタリングすることができる。

例えば、対象のがん状態のモニタリングは、（ａ）１種もしくは複数のＳＮＶの量または複数の遺伝子（例えば、エクソンにおける）のコピー数の決定、（ｂ）異なる時点におけるかかる決定の反復、ならびに（ｃ）（ａ）および（ｂ）の間でＳＮＶの数、ＳＮＶのレベル、ゲノム再編成の数もしくはレベルまたはコピー数に差があるかに関する決定を含むことができる。遺伝子は、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択され得る。遺伝子は、この群における遺伝子のうちいずれか５、１０、１５、２０、３０、４０、５０種または全種から選択することができる。

Ｏ．感度および特異性

本明細書に開示されている方法を使用して、高度な一致で、例えば、高感度および／または特異性で、試料におけるがんポリヌクレオチドおよび対象におけるがんを検出することができる。例えば、かかる方法は、少なくとも９９％、９９．９％、９９．９９％、９９．９９９％、９９．９９９９％または９９．９９９９９％の特異性で、５％、１％、０．５％、０．１％、０．０５％または０．０１％未満の濃度で、試料におけるがんポリヌクレオチド（例えば、稀なＤＮＡ）を検出することができる。かかるポリヌクレオチドは、がんまたは他の疾患を示すことができる。さらに、かかる方法は、少なくとも９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、９９．９％、９９．９９％、９９．９９９％または９９．９９９９％の陽性的中率で、試料におけるがんポリヌクレオチドを検出することができる。

現実に陽性である、検査で陽性として同定される対象は、真陽性（ＴＰ）と称される。現実には陰性である、検査で陽性として同定される対象は、偽陽性（ＦＰ）と称される。現実に陰性である、検査で陰性として同定される対象は、真陰性（ＴＮ）と称される。現実には陽性である、検査で陰性として同定される対象は、偽陰性（ＦＮ）と称される。感度は、検査で陽性として同定される実際の陽性のパーセンテージである。これは、例えば、がん遺伝的バリアントを見出すべきおよび見出した事例を含む（感度＝ＴＰ／（ＴＰ＋ＦＮ））。特異性は、検査で陰性として同定される実際の陰性のパーセンテージである。これは、例えば、がん遺伝的バリアントを見出すべきでないおよび見出さなかった事例を含む。特異性は、次の方程式を使用して計算することができる：特異性＝ＴＮ／（ＴＮ＋ＦＰ）。陽性的中率（ＰＰＶ）は、真陽性である、検査陽性の対象のパーセンテージによって測定することができる。ＰＰＶは、次の方程式を使用して計算することができる：ＰＰＶ＝ＴＰ／（ＴＰ＋ＦＰ）。感度（例えば、検出される実際の陽性の確率）および／または特異性（例えば、実際の陰性を陽性と間違えない確率）を増加させることにより、陽性的中率を増加させることができる。

ポリヌクレオチドからアダプタタグ付けされたポリヌクレオチドへの低変換率は、稀なポリヌクレオチド標的を変換、したがって、検出する確率を減少させるため、感度を損ない得る。検査におけるノイズは、検査において検出される偽陽性の数を増加させるため、特異性を損ない得る。低変換率およびノイズの両方は、真陽性のパーセンテージを減少させ、偽陽性のパーセンテージを増加させるため、陽性的中率を損なう。

本明細書に開示されている方法は、高レベルの一致、例えば、感度および特異性を達成することができ、高い陽性的中率をもたらす。感度を増加させる方法は、試料におけるポリヌクレオチドからアダプタタグ付けされたポリヌクレオチドへの高効率変換を含む。特異性を増加させる方法は、例えば、分子追跡により配列決定エラーを低下させるステップを含む。

本開示の方法を使用して、少なくとも９９％、９９．９％、９９．９９％、９９．９９９％、９９．９９９９％または９９．９９９９９％の特異性で、５％、１％、０．５％、０．１％、０．０５％または０．０１％未満の濃度で、非特有にタグ付けされた初期出発遺伝的材料における遺伝的バリエーション（例えば、稀なＤＮＡ）を検出することができる。一部の態様において、本方法は、少なくとも１０％、少なくとも２０％、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％または少なくとも９０％の効率で、初期出発材料におけるポリヌクレオチドを変換するステップをさらに含むことができる。タグ付けされたポリヌクレオチドの配列リードをその後追跡して、２％、１％、０．１％または０．０１％以下のエラー率で、ポリヌクレオチドのコンセンサス配列を生成することができる。

２．プール方法

被験試料における１種または複数の遺伝子座におけるコピー数バリエーションおよび／または配列バリアントを検出する方法が本明細書に開示されている。図８に一実施形態を示す。典型的には、コピー数バリエーションの検出は、被験試料のゲノムにおける目的の遺伝子座にマッピングされるポリヌクレオチドの定量的尺度（例えば、絶対または相対数）の決定と、対照試料における該遺伝子座にマッピングされるポリヌクレオチドの定量的尺度に対するこの数の比較とに関与する。ある特定の方法において、定量的尺度は、目的の遺伝子座にマッピングされる被験試料における分子の数と、参照配列、例えば、野生型の倍数性で存在することが予想される配列にマッピングされる被験試料における分子の数とを比較することにより決定される。一部の例において、参照配列は、ＨＧ１９、ｂｕｉｌｄ３７またはｂｕｉｌｄ３８である。比較は、例えば、比の決定に関与し得る。次に、この尺度は、対照試料において決定される類似の尺度と比較される。そこで、例えば、被験試料が、目的の遺伝子座対参照遺伝子座に関して１．５：１の比を有し、対照試料が、同遺伝子座に関して１：１の比を有する場合、被験試料が、目的の遺伝子座において倍数性を示すと結論することができる。

被験試料および対照試料が、別々に解析される場合、ワークフローは、対照および被験試料における最終的な数の間に歪みを導入し得る。

本明細書に開示されている一方法において（例えば、フローチャート８００）、ポリヌクレオチドが、被験および対照試料から用意される（８０２）。被験試料におけるポリヌクレオチドおよび対照試料におけるポリヌクレオチドは、被験または対照試料に起源をもつとポリヌクレオチドを同定するタグ（供給源タグ）をタグ付けされる（８０４）。タグは、例えば、供給源を明確に同定するポリヌクレオチド配列またはバーコードとなり得る。

対照および被験試料のそれぞれにおけるポリヌクレオチドは、ポリヌクレオチドのあらゆる増幅後代によって保有される識別子タグをタグ付けすることもできる。ポリヌクレオチドの開始および終止配列ならびに識別子タグからの情報は、本来の親分子から増幅されたポリヌクレオチドから配列リードを同定することができる。各分子は、試料における他の分子と比較して、特有にタグ付けすることができる。あるいは、各分子は、試料における他の分子と比較して、特有にタグ付けする必要はない。すなわち、異なる識別子配列の数は、試料における分子の数よりも少なくなることができる。識別子情報を開始／停止配列情報と組み合わせることにより、同じ開始／停止配列を有する２分子を混同する確率は、有意に縮小される。

核酸（例えば、ｃｆＤＮＡ）のタグ付けに使用される異なる識別子の数は、異なる一倍体ゲノム当量の数に依存し得る。異なる識別子を使用して、少なくとも２、少なくとも１０、少なくとも１００、少なくとも２００、少なくとも３００、少なくとも４００、少なくとも５００、少なくとも６００、少なくとも７００、少なくとも８００、少なくとも９００、少なくとも１，０００、少なくとも２，０００、少なくとも３，０００、少なくとも４，０００、少なくとも５，０００、少なくとも６，０００、少なくとも７，０００、少なくとも８，０００、少なくとも９，０００、少なくとも１０，０００種またはそれを超える異なる一倍体ゲノム当量にタグ付けすることができる。したがって、５００～１０，０００種の異なる一倍体ゲノム当量の核酸試料、例えば、無細胞ＤＮＡのタグ付けに使用される異なる識別子の数は、１、２、３、４および５と、１００、９０、８０、７０、６０、５０、４０または３０以下のいずれかの間となり得る。例えば、５００～１０，０００種の異なる一倍体ゲノム当量の核酸試料のタグ付けに使用される異なる識別子の数は、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９、１００またはそれに満たなくてよい。

ポリヌクレオチドは、増幅前に、タグまたは識別子を含むアダプタのライゲーションによってタグ付けすることができる。ライゲーションは、酵素、例えば、リガーゼを使用して行うことができる。例えば、タグ付けは、ＤＮＡリガーゼを使用して行うことができる。ＤＮＡリガーゼは、Ｔ４ＤＮＡリガーゼ、Ｅ．ｃｏｌｉＤＮＡリガーゼおよび／または哺乳動物リガーゼとなり得る。哺乳動物リガーゼは、ＤＮＡリガーゼＩ、ＤＮＡリガーゼＩＩＩまたはＤＮＡリガーゼＩＶとなり得る。リガーゼは、熱安定性リガーゼとなることもできる。タグは、ポリヌクレオチドの平滑末端にライゲーションすることができる（平滑末端ライゲーション）。あるいは、タグは、ポリヌクレオチドの粘着末端にライゲーションすることができる（粘着末端ライゲーション）。ポリヌクレオチドは、アダプタ（例えば、フォーク形末端を有するアダプタ）を使用した平滑末端ライゲーションによりタグ付けすることができる。高効率のライゲーションは、大過剰のアダプタ（例えば、１．５×超、２×超、３×超、４×超、５×超、６×超、７×超、８×超、９×超、１０×超、１１×超、１２×超、１３×超、１４×超、１５×超、２０×超、２５×超、３０×超、３５×超、４０×超、４５×超、５０×超、５５×超、６０×超、６５×超、７０×超、７５×超、８０×超、８５×超、９０×超、９５×超または１００超）を使用して達成することができる。

ポリヌクレオチドの供給源を同定するタグをタグ付けしたら、異なる供給源（例えば、異なる試料）由来のポリヌクレオチドをプールすることができる。プール後に、異なる供給源（例えば、異なる試料）由来のポリヌクレオチドは、定量的測定のいずれかのプロセスを含む、タグを使用したいずれかの測定により識別することができる。例えば、（８０６）に示す通り（図８）、対照試料および被験試料由来のポリヌクレオチドをプールすることができる。プールされた分子は、配列決定（８０８）およびバイオインフォマティクスワークフローに供することができる。両者を、プロセスにおける同じバリエーションに供し、したがって、いかなる差次的バイアスも低下される。対照および被験試料に起源をもつ分子は、異なってタグ付けされるため、定量的測定のいずれかのプロセスにおいて識別することができる。

プールされた対照および被験試料の相対量は、変動し得る。対照試料の量は、被験試料の量と同じになることができる。対照試料の量は、被験試料の量よりも多くなることもできる。あるいは、対照試料の量は、被験試料の量よりも少なくてよい。総計に対し１試料の相対量が少ないほど、本来のタグ付けプロセスにおいて必要とされる同定タグ数は少なくなる。数値は、同じ開始／終了配列を有する２種の親分子が、同じ同定タグを有する確率を許容されるレベルまで低下させるように選択することができる。この確率は、１０％未満、１％未満、０．１％未満または０．０１％未満となり得る。確率は、２５％、２４％、２３％、２２％、２１％、２０％、１９％、１８％、１７％、１６％、１５％、１４％、１３％、１２％、１１％、１０％、９％、８％、７％、６％、５％、４％、３％、２％または１％未満となり得る。

本明細書に開示されている方法は、配列リードを群分けするステップを含むこともできる。例えば、バイオインフォマティクスワークフローは、（８１０）に示す通り（図８）、単一の親分子の後代から産生された配列リードの群分けを含むことができる。これは、本明細書に記載されている冗長性低下方法のいずれかに関与し得る。被験および対照試料から供給された分子は、それらが保有する供給源タグに基づき区別することができる（８１２）。標的遺伝子座にマッピングされる分子は、被験供給および対照供給分子の両方のために定量化される（８１２）。これは、例えば、標的遺伝子座における数が、参照遺伝子座における数に対し正規化される、本明細書に記されている正規化方法を含むことができる。

被験および対照試料由来の標的遺伝子座における正規化された（または未加工の）分量を比較して、コピー数バリエーションの存在を決定する（８１４）。

３．コンピュータ制御システム

本開示は、本開示の方法を実施するようにプログラムされたコンピュータ制御システムを提供する。図６は、本開示の方法を実施するようにプログラムまたは他の仕方で構成されたコンピュータシステム１５０１を示す。コンピュータシステム１５０１は、試料調製、配列決定および／または解析の様々な態様を調節することができる。一部の例において、コンピュータシステム１５０１は、核酸配列決定を含む試料調製および試料解析を行うように構成されている。コンピュータシステム１５０１は、ユーザーの電子装置または該電子装置に対して遠隔に位置するコンピュータシステムとなり得る。電子装置は、モバイル電子装置となり得る。

コンピュータシステム１５０１は、シングルコアもしくはマルチコアプロセッサまたは並列処理のための複数のプロセッサとなり得る中央処理装置（ＣＰＵ、本明細書において同様に、「プロセッサ」および「コンピュータプロセッサ」）１５０５を含む。コンピュータシステム１５０１は、メモリまたはメモリ場所１５１０（例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ）と、電子記憶ユニット１５１５（例えば、ハードディスク）と、１個または複数の他のシステムと連絡するための通信インターフェイス１５２０（例えば、ネットワークアダプター）と、キャッシュ、他のメモリ、データ記憶および／または電子表示アダプター等の周辺装置１５２５も含む。メモリ１５１０、記憶ユニット１５１５、インターフェイス１５２０および周辺装置１５２５は、マザーボード等、コミュニケーションバス（実線）を介してＣＰＵ１５０５と連絡している。記憶ユニット１５１５は、データを記憶するためのデータ記憶ユニット（またはデータリポジトリ）となり得る。コンピュータシステム１５０１は、通信インターフェイス１５２０の助けにより、コンピュータネットワーク（「ネットワーク」）１５３０に作動可能にカップリングすることができる。ネットワーク１５３０は、インターネット、インターネットおよび／またはエクストラネット、あるいはインターネットと連絡したイントラネットおよび／またはエクストラネットとなり得る。ネットワーク１５３０は、一部の事例において、遠隔通信および／またはデータネットワークである。ネットワーク１５３０は、クラウドコンピューティング等、分散コンピューティングを可能にし得る１個または複数のコンピュータサーバーを含むことができる。ネットワーク１５３０は、一部の事例において、コンピュータシステム１５０１の助けにより、コンピュータシステム１５０１にカップリングされた装置が、クライアントまたはサーバーとして挙動することを可能にし得る、ピアツーピアネットワークを実施することができる。

ＣＰＵ１５０５は、プログラムまたはソフトウェアにおいて具体化され得る機械可読命令のシーケンスを実行することができる。命令は、メモリ１５１０等、メモリ場所において記憶され得る。命令は、ＣＰＵ１５０５に向けることができ、これはその後、本開示の方法を実施するようにＣＰＵ１５０５をプログラムまたは他の仕方で構成することができる。ＣＰＵ１５０５によって行われる演算の例として、フェッチ、デコード、実行およびライトバックを挙げることができる。

ＣＰＵ１５０５は、集積回路等、回路の一部となり得る。システム１５０１の１種または複数の他の構成成分は、回路に含まれていてよい。一部の事例において、回路は、特定用途向け集積回路（ＡＳＩＣ）である。

記憶ユニット１５１５は、ドライバ、ライブラリーおよびセーブされたプログラム等、ファイルを記憶することができる。記憶ユニット１５１５は、ユーザーデータ、例えば、ユーザー選択およびユーザープログラムを記憶することができる。コンピュータシステム１５０１は、一部の事例において、イントラネットまたはインターネットを介してコンピュータシステム１５０１と連絡した遠隔サーバーに位置する等、コンピュータシステム１５０１に対し外部である、１個または複数の追加的なデータ記憶ユニットを含むことができる。

コンピュータシステム１５０１は、ネットワーク１５３０を介して１個または複数の遠隔コンピュータシステムと連絡することができる。例えば、コンピュータシステム１５０１は、ユーザー（例えば、オペレーター）の遠隔コンピュータシステムと連絡することができる。遠隔コンピュータシステムの例として、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレート（slate）もしくはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（Smart phone）（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ対応装置、Ｂｌａｃｋｂｅｒｒｙ（登録商標））またはパーソナルデジタルアシスタントが挙げられる。ユーザーは、ネットワーク１５３０を介してコンピュータシステム１５０１にアクセスすることができる。

本明細書に記載されている方法は、例えば、メモリ１５１０または電子記憶ユニット１５１５等のコンピュータシステム１５０１の電子記憶場所に記憶された機械（例えば、コンピュータプロセッサ）実行可能コードによって実施することができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供することができる。使用の際に、コードは、プロセッサ１５０５によって実行され得る。一部の事例において、コードは、記憶ユニット１５１５から検索され、プロセッサ１５０５による即時アクセスのためにメモリ１５１０に記憶され得る。一部の状況において、電子記憶ユニット１５１５が妨げられる場合があり、機械実行可能命令は、メモリ１５１０に記憶される。

コードは、コードの実行に適応されたプロセッサを有する機械による使用のために事前にコンパイルおよび構成され得る、あるいはランタイムにおいてコンパイルされ得る。コードは、事前にコンパイルされたまたはアズコンパイルされた（as-compiled）様式での
コードの実行を可能にするために選択され得るプログラミング言語で供給され得る。

コンピュータシステム１５０１等、本明細書に提供されているシステムおよび方法の態様は、プログラミングにおいて具体化することができる。技術の様々な態様は、典型的に、ある種類の機械可読媒体において保有または具体化される機械（またはプロセッサ）実行可能コードおよび／または関連するデータの形態の「産物」または「製造品」であると考えることができる。機械実行可能コードは、メモリ（例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスク等、電子記憶ユニットに記憶され得る。「記憶」型の媒体は、ソフトウェアプログラミングのいずれかの時点で非一過性記憶を提供できる、様々な半導体メモリ、テープドライブ、ディスクドライブその他等、コンピュータ、プロセッサその他の有形的メモリ、またはその関連するモジュールのいずれかまたは全てを含むことができる。ソフトウェアの全体または部分は、時に、インターネットまたは様々な他の遠隔通信ネットワークを介して連絡することができる。かかる連絡は、例えば、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへのソフトウェアのローディングを可能にし得る。よって、ソフトウェアエレメントを有することができる別の種類の媒体は、ローカル装置間の物理インターフェイスを通して使用される、有線および光固定電話回線ネットワークを介する、ならびに様々なエアリンクを通す等、光、電気および電磁波を含む。有線または無線リンク、光リンクその他等、かかる波を保有する物理的エレメントも、ソフトウェアを有する媒体として考慮することができる。本明細書において、非一過性、有形的「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」等の用語は、実行のためのプロセッサへの命令の提供に関与するいずれかの媒体を指す。

したがって、コンピュータ実行可能コード等、機械可読媒体は、有形的記憶媒体、搬送波媒体または物理的伝送媒体等が挙げられるがこれらに限定されない、多くの形態を採ることができる。不揮発性記憶媒体は、図面に示されている、データベース等の実施に使用できる等、いずれかのコンピュータ（複数可）その他における記憶装置のいずれか等、例えば、光または磁気ディスクを含む。揮発性記憶媒体は、かかるコンピュータプラットフォームのメインメモリ等、動的メモリを含む。有形的伝送媒体は、コンピュータシステム内のバスを含むワイヤーを含む、同軸ケーブル；銅線および光ファイバーを含む。搬送波伝送媒体は、電気もしくは電磁シグナル、またはラジオ周波数（ＲＦ）および赤外線（ＩＲ）データコミュニケーションにおいて生成されるもの等、音波もしくは光波の形態を採ることができる。したがって、コンピュータ可読媒体の一般的な形態は、例えば：フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、他のいずれかの磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤもしくはＤＶＤ－ＲＯＭ、他のいずれかの光媒体、パンチカード紙テープ、孔のパターンによる他のいずれかの物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、他のいずれかのメモリチップもしくはカートリッジ、データもしくは命令を輸送する搬送波、かかる搬送波を輸送するケーブルもしくはリンク、またはコンピュータが、プログラミングコードおよび／またはデータを読み取ることができる他のいずれかの媒体を含む。コンピュータ可読媒体のこれらの形態のうち多くは、実行のためのプロセッサへの１種または複数の命令の１種または複数のシーケンスの保有に関与し得る。

コンピュータシステム１５０１は、ユーザーインターフェイス（ＵＩ）１５４０を含む電子表示１５３５を含む、またはこれと連絡することができる。ＵＩは、ユーザーに、本明細書に記載されている方法のための様々な条件、例えば、ＰＣＲまたは配列決定条件を設定させることができる。ＵＩの例として、グラフィカルユーザーインターフェイス（ＧＵＩ）およびウェブに基づくユーザーインターフェイスを限定することなく挙げられる。

本開示の方法およびシステムは、１種または複数のアルゴリズムによって実施することができる。アルゴリズムは、中央処理装置１５０５による実行により、ソフトウェアによって実施することができる。アルゴリズムは、例えば、リードを処理して、結果的に配列を生成することができる。

図７は、対象由来の核酸を含む試料を解析するための別のシステムを模式的に図解する。本システムは、シーケンサーと、バイオインフォマティクスソフトウェアと、例えば、ハンドヘルド装置またはデスクトップコンピュータによる報告解析のためのインターネット接続とを含む。

対象の標的核酸分子を解析するためのシステムであって、標的ゲノムのゲノム遺伝子座を網羅する複数のポリヌクレオチド分子の核酸配列リードを受け取る通信インターフェイスと、通信インターフェイスによって受け取られた複数のポリヌクレオチド分子の核酸配列リードを記憶するコンピュータメモリと、通信インターフェイスおよびメモリに作動可能にカップリングされ、（ｉ）複数の配列リードを、各ファミリーが、鋳型ポリヌクレオチドのうち１種に由来する配列リードを含むファミリーへと群分けし、（ｉｉ）ファミリーのそれぞれに対し、配列リードを統合して、コンセンサス配列を生成し、（ｉｉｉ）ゲノム遺伝子座の中の所与のゲノム遺伝子座においてコンセンサス配列をコールし、（ｉｖ）所与のゲノム遺伝子座において、コールの中の遺伝的バリアント、コールの中の遺伝子変更の頻度、コールの総数およびコールの中の変更の総数のいずれかを検出するようにプログラムされたコンピュータプロセッサとを含み、ゲノム遺伝子座が、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される複数の遺伝子に対応するシステムが本明細書に開示されている。本システムの各構成成分の異なるバリエーションは、方法および組成物内の開示を通して記載されている。これらの個々の構成成分およびそのバリエーションも、本システムにおいて適用できる。

４．キット

本明細書に記載されている組成物を含むキット。キットは、本明細書に記載されている方法の実施において有用となり得る。ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡ、およびＮＴＲＫ１からなる群から選択される少なくとも（least）５、６、７、８、９、１０、２０、３０、４０種または全遺
伝子に選択的にハイブリダイズする複数のオリゴヌクレオチドプローブを含むキットが本明細書に開示されている。オリゴヌクレオチドプローブが選択的にハイブリダイズできる遺伝子の数は、変動し得る。例えば、遺伝子の数は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３または５４を含むことができる。キットは、複数のオリゴヌクレオチドプローブを含む容器と、本明細書に記載されている方法のいずれかを行うための説明書とを含むことができる。

オリゴヌクレオチドプローブは、遺伝子、例えば、少なくとも５種の遺伝子のエクソン領域に選択的にハイブリダイズすることができる。一部の事例において、オリゴヌクレオチドプローブは、遺伝子、例えば、少なくとも５種の遺伝子の少なくとも３０種のエクソンに選択的にハイブリダイズすることができる。一部の事例において、複数のプローブは、少なくとも３０種のエクソンのそれぞれに選択的にハイブリダイズすることができる。各エクソンにハイブリダイズするプローブは、少なくとも１種の他のプローブと重複する配列を有することができる。一部の実施形態において、オリゴプローブは、本明細書に開示されている遺伝子の非コード領域、例えば、遺伝子のイントロン領域に選択的にハイブリダイズすることができる。オリゴプローブは、本明細書に開示されている遺伝子のエクソンおよびイントロン領域の両方を含む遺伝子の領域に選択的にハイブリダイズすることもできる。

オリゴヌクレオチドプローブによっていずれかの数のエクソンを標的とすることができる。例えば、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、１０５、１１０、１１５、１２０、１２５、１３０、１３５、１４０、１４５、１５０、１５５、１６０、１６５、１７０、１７５、１８０、１８５、１９０、１９５、２００、２０５、２１０、２１５、２２０、２２５、２３０、２３５、２４０、２４５、２５０、２５５、２６０、２６５、２７０、２７５、２８０、２８５、２９０、２９５、３００、４００、５００、６００、７００、８００、９００、１，０００種またはそれを超えるエクソンを標的とすることができる。

キットは、別個の分子バーコードおよび同一の試料バーコードを有する、少なくとも４、５、６、７または８種の異なるライブラリーアダプタを含むことができる。ライブラリーアダプタは、配列決定アダプタであるでなくてもよい。例えば、ライブラリーアダプタは、フローセル配列または配列決定のためのヘアピンループの形成を可能にする配列を含まない。分子バーコードおよび試料バーコードの異なるバリエーションおよび組合せは、本願を通して記載されており、キットに適用できる。さらに、一部の事例において、アダプタは、配列決定アダプタではない。その上、キットにより提供されるアダプタは、配列決定アダプタを含むこともできる。配列決定アダプタは、１種または複数の配列決定プライマーにハイブリダイズする配列を含むことができる。配列決定アダプタは、固体支持体にハイブリダイズする配列、例えば、フローセル配列をさらに含むことができる。例えば、配列決定アダプタは、フローセルアダプタとなり得る。配列決定アダプタは、ポリヌクレオチド断片の一端または両端に取り付けることができる。一部の事例において、キットは、別個の分子バーコードおよび同一の試料バーコードを有する、少なくとも８種の異なるライブラリーアダプタを含むことができる。ライブラリーアダプタは、配列決定アダプタであるでなくてもよい。キットは、ライブラリーアダプタに選択的にハイブリダイズする第１の配列およびフローセル配列に選択的にハイブリダイズする第２の配列を有する配列決定アダプタをさらに含むことができる。別の例において、配列決定アダプタは、ヘアピン形となり得る。例えば、ヘアピン形アダプタは、相補的二本鎖部分およびループ部分を含むことができ、二本鎖部分は、二本鎖ポリヌクレオチドに取り付ける（例えば、ライゲーションする）ことができる。ヘアピン形配列決定アダプタは、ポリヌクレオチド断片の両端に取り付けて、複数回配列決定することができる環状分子を生成することができる。配列決定アダプタは、末端から末端まで最大１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９、１００個またはそれを超える塩基となり得る。配列決定アダプタは、末端から末端まで２０～３０、２０～４０、３０～５０、３０～６０、４０～６０、４０～７０、５０～６０、５０～７０塩基を含むことができる。特定の例において、配列決定アダプタは、末端から末端まで２０～３０塩基を含むことができる。別の例において、配列決定アダプタは、末端から末端まで５０～６０塩基を含むことができる。配列決定アダプタは、１種または複数のバーコードを含むことができる。例えば、配列決定アダプタは、試料バーコードを含むことができる。試料バーコードは、既定の配列を含むことができる。試料バーコードを使用して、ポリヌクレオチドの供給源を同定することができる。試料バーコードは、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５個またはそれを超える（または本願を通して記載されているいずれかの長さの）核酸塩基、例えば、少なくとも８塩基となり得る。バーコードは、上述の通り、近接または非近接配列となり得る。

ライブラリーアダプタは、平滑末端およびＹ字形となることができ、４０核酸塩基未満またはそれに等しい長さとなり得る。他のバリエーションは、本願を通して見出すことができ、キットに適用できる。

（実施例１）
コピー数バリエーション検出のための方法

採血

１０～３０ｍＬ血液試料を室温で収集する。試料を遠心分離して、細胞を除去する。遠心分離後に血漿を収集する。

ｃｆＤＮＡ抽出

試料をプロテイナーゼＫ消化に供する。イソプロパノールでＤＮＡを沈殿させる。ＤＮＡ精製カラム（例えば、ＱＩＡａｍｐＤＮＡＢｌｏｏｄＭｉｎｉＫｉｔ）においてＤＮＡを捕捉し、１００μｌ溶液中に溶出させる。ＡｍｐｕｒｅＳＰＲＩ磁気ビーズ捕捉（ＰＥＧ／塩）により、５００ｂｐを下回るＤＮＡを選択する。その結果得られた生産物を３０μｌＨ_２Ｏに懸濁する。サイズ分布をチェックし（主ピーク＝１６６ヌクレオチド；小ピーク＝３３０ヌクレオチド）、定量化する。５ｎｇの抽出されたＤＮＡは、およそ１７００一倍体ゲノム当量（「ＨＧＥ」）を含有する。ＤＮＡの量およびＨＧＥの間の一般的相関を次に示す：３ｐｇＤＮＡ＝１ＨＧＥ；３ｎｇＤＮＡ＝１ＫＨＧＥ；３μｇＤＮＡ＝１ＭＨＧＥ；１０ｐｇＤＮＡ＝３ＨＥ；１０ｎｇＤＮＡ＝３ＫＨＧＥ；１０μｇＤＮＡ＝３ＭＨＧＥ。

「単一分子」ライブラリープレップ

平滑末端修復およびオーバーロードされたヘアピンアダプタを有する８種の異なる八量体（octomer）（すなわち、６４通りの組合せ）とのライゲーションにより、高効率ＤＮ
Ａタグ付け（＞８０％）を行う。２．５ｎｇＤＮＡ（すなわち、およそ８００ＨＧＥ）を出発材料として使用する。各ヘアピンアダプタは、その非相補的部分にランダム配列を含む。各ＤＮＡ断片の両端に、ヘアピンアダプタを取り付ける。各タグ付けされた断片は、ヘアピンアダプタにおけるランダム配列および断片における１０ｐ内在性配列によって同定することができる。

タグ付けされたＤＮＡを１０サイクルのＰＣＲによって増幅して、出発材料における８００ＨＧＥのそれぞれのおよそ５００コピーを含有する約１～７μｇＤＮＡを産生する。

バッファー最適化、ポリメラーゼ最適化およびサイクル低下を行って、ＰＣＲ反応を最適化することができる。増幅バイアス、例えば、非特異的バイアス、ＧＣバイアスおよび／またはサイズバイアスも最適化によって低下される。ノイズ（複数可）（例えば、ポリメラーゼ導入のエラー）は、高忠実度ポリメラーゼを使用することにより低下される。

ライブラリーは、ＶｅｒｎｉａｔａまたはＳｅｑｕｅｎｏｍ方法を使用して調製することができる。

配列を次の通りに濃縮することができる：目的の領域（ＲＯＩ）を有するＤＮＡは、ＲＯＩに対するプローブによるビオチン標識ビーズを使用して捕捉する。１２サイクルのＰＣＲによりＲＯＩを増幅して、２０００倍増幅を生成する。次に、その結果得られたＤＮＡを変性させ、８ｐＭとなるよう希釈し、Ｉｌｌｕｍｉｎａシーケンサーにロードする。

大規模並列配列決定

試料の０．１～１％（およそ１００ｐｇ）を配列決定のために使用する。

デジタルバイオインフォマティクス

配列リードを、各ファミリーが約１０種の配列リードを有するファミリーへと群分けする。ファミリーにおける各位置の投票（例えば、偏った投票）により、ファミリーをコンセンサス配列へと崩壊させる。８または９メンバーが一致する場合、塩基をコンセンサス配列に対しコールする。メンバーの６０％以下が一致する場合、塩基をコンセンサス配列に対しコールしない。

その結果得られたコンセンサス配列を参照ゲノムにマッピングする。コンセンサス配列における各塩基は、約３０００種の異なるファミリーによって網羅される。配列毎の品質スコアを計算し、それらの品質スコアに基づき配列にフィルターをかける。

各遺伝子座における塩基の分布を計数することにより、配列バリエーションを検出する。リードの９８％が同じ塩基を有し（ホモ接合性）、２％が異なる塩基を有する場合、遺伝子座は、おそらくがんＤＮＡ由来の配列バリアントを有する可能性がある。

遺伝子座にマッピングする配列（塩基）の総数を計数し、対照遺伝子座と比較することにより、ＣＮＶを検出する。ＣＮＶ検出を増加させるために、ＡＬＫ、ＡＰＣ、ＢＲＡＦ、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＢＸＷ７、ＫＲＡＳ、ＭＹＣ、ＮＯＴＣＨ１、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＲＢ１、ＴＰ５３、ＭＥＴ、ＡＲ、ＡＢＬ１、ＡＫＴ１、ＡＴＭ、ＣＤＨ１、ＣＳＦ１Ｒ、ＣＴＮＮＢ１、ＥＲＢＢ４、ＥＺＨ２、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＬＴ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＤＲ、ＫＩＴ、ＭＬＨ１、ＭＰＬ、ＮＰＭ１、ＰＤＧＦＲＡ、ＰＲＯＣ、ＰＴＰＮ１１、ＲＥＴ、ＳＭＡＤ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＶＨＬ、ＴＥＲＴ、ＣＣＮＤ１、ＣＤＫ４、ＣＤＫＮ２Ｂ、ＲＡＦ１、ＢＲＣＡ１、ＣＣＮＤ２、ＣＤＫ６、ＮＦ１、ＴＰ５３、ＡＲＩＤ１Ａ、ＢＲＣＡ２、ＣＣＮＥ１、ＥＳＲ１、ＲＩＴ１、ＧＡＴＡ３、ＭＡＰ２Ｋ１、ＲＨＥＢ、ＲＯＳ１、ＡＲＡＦ、ＭＡＰ２Ｋ２、ＮＦＥ２Ｌ２、ＲＨＯＡまたはＮＴＲＫ１遺伝子における領域を含む、特異的な領域においてＣＮＶ解析を行う。

（実施例２）
試料における未観測分子の総数を決定することにより塩基コーリングを補正するための方法

断片を増幅し、増幅された断片の配列を読み取り整列した後に、断片を塩基コーリングに供する。増幅された断片および未観測の増幅された断片の数におけるバリエーションは、塩基コーリングにエラーを導入し得る。このようなバリエーションは、未観測の増幅された断片の数を計算することにより補正される。

遺伝子座Ａ（任意の遺伝子座）の塩基コーリングの場合、Ｎ個の増幅された断片が存在することが先ず想定される。配列リードアウトは、２種類の断片に由来し得る：二本鎖断片および一本鎖断片。次に、試料における未観測分子の総数計算の理論上の例を示す。

Ｎは、試料における分子の総数である。
１０００が、検出された二重鎖の数であると想定する。
５００が、検出された一本鎖分子の数であると想定する。
Ｐは、鎖を観測する確率である。
Ｑは、鎖を検出しない確率である。

Ｑ＝１－Ｐであるため、
１０００＝ＮＰ（２）
５００＝Ｎ２ＰＱ
１０００／Ｐ（２）＝Ｎ
５００÷２ＰＱ＝Ｎ
１０００／Ｐ（２）＝５００÷２ＰＱ
１０００＊２ＰＱ＝５００Ｐ（２）
２０００ＰＱ＝５００Ｐ（２）
２０００Ｑ＝５００Ｐ
２０００（１－Ｐ）＝５００Ｐ
２０００－２０００Ｐ＝５００Ｐ
２０００＝５００Ｐ＋２０００Ｐ
２０００＝２５００Ｐ
２０００÷２５００＝Ｐ
０．８＝Ｐ
１０００／Ｐ（２）＝Ｎ
１０００÷０．６４＝Ｎ
１５６２＝Ｎ
未観測断片の数＝６２。

（実施例３）
患者におけるがん関連体細胞バリアントにおける遺伝的バリアントの同定

アッセイを使用して遺伝子のパネルを解析して、高感度でがん関連体細胞バリアントにおける遺伝的バリアントを同定する。

患者の血漿から無細胞ＤＮＡを抽出し、ＰＣＲによって増幅する。増幅された標的遺伝子の大規模並列配列決定により、遺伝的バリアントを解析する。ある１セットの遺伝子に対し、全エクソンを配列決定するが、これは、かかる配列決定被覆が、臨床的有用性を有することを示したためである（表１）。別のセットの遺伝子に対し、配列決定被覆は、以前に報告された体細胞突然変異を有するエクソンを含んだ（表２）。最小検出可能突然変異体アレル（検出限界）は、患者試料の無細胞ＤＮＡ濃度に依存し、これは、末梢血１ｍＬ当たり１０未満から１，０００超のゲノム当量へと変動した。より少量の無細胞ＤＮＡおよび／または低レベル遺伝子コピー増幅では、増幅は、試料において検出されない場合がある。低い試料品質または不適切な収集等、ある特定の試料またはバリアント特徴は、分析感度低下をもたらした。

血液中を循環する無細胞ＤＮＡにおいて見出される遺伝的バリアントのパーセンテージは、この患者の特有の腫瘍生物学に関連する。血液中の循環無細胞ＤＮＡにおいて検出される遺伝的バリアントの量／パーセンテージに影響した要因は、腫瘍成長、ターンオーバー、サイズ、異種性、血管新生、疾患進行または処置を含む。表３は、この患者において検出される変更された循環無細胞ＤＮＡのパーセンテージまたはアレル頻度（％ｃｆＤＮＡ）をアノテートする。検出された遺伝的バリアントの一部を％ｃｆＤＮＡにより降順で収載する。

遺伝的バリアントは、この患者の血液検体から単離された循環無細胞ＤＮＡにおいて検出される。これらの遺伝的バリアントは、がん関連体細胞バリアントであり、その一部は、特異的な処置に対する臨床応答の増加または低下のいずれかに関連付けられてきた。「軽微な変更」は、「大幅な変更」のアレル頻度の１０％未満において検出される変更として定義される。これらの変更の検出されたアレル頻度（表３）およびこの患者のための関連する処置をアノテートする。

表１および２に収載されているあらゆる遺伝子は、Ｇｕａｒｄａｎｔ３６０（商標）検査の一部として解析する。この患者の血液検体から単離された循環無細胞ＤＮＡにおいて、ＥＲＢＢ２、ＥＧＦＲまたはＭＥＴの増幅は検出されない。

遺伝的バリアントを含む患者検査結果を表４に収載する。

（実施例４）
Ｇｕａｒｄａｎｔ３６０（商標）アッセイによって解析される遺伝子の患者特異的検出限界の決定

実施例３の方法を使用して、患者の無細胞ＤＮＡにおける遺伝子変更を検出する。これらの遺伝子の配列リードは、エクソンおよび／またはイントロン配列を含む。

検査の検出限界を表５に示す。検出限界値は、無細胞ＤＮＡ濃度および遺伝子毎の配列決定被覆に依存する。

（実施例５）
ワトソンおよびクリック配列を比較した配列エラーの補正

患者の血漿から二本鎖無細胞ＤＮＡを単離する。特有のバーコードをそれぞれ含む１６種の異なるバブル含有アダプタを使用して、無細胞ＤＮＡ断片にタグ付けする。ライゲーションにより、各無細胞ＤＮＡ断片の両端にバブル含有アダプタを取り付ける。ライゲーション後に、無細胞ＤＮＡ断片のそれぞれは、別個のバーコードの配列および無細胞ＤＮＡ断片の各末端における２個の２０ｂｐ内在性配列により別個に同定することができる。

タグ付けされた無細胞ＤＮＡ断片をＰＣＲにより増幅する。がん関連遺伝子の群に特異的に結合するオリゴヌクレオチドプローブを含むビーズを使用して、増幅された断片を濃縮する。したがって、がん関連遺伝子の群由来の無細胞ＤＮＡ断片が、選択的に濃縮される。

配列決定プライマー結合部位、試料バーコードおよびフローセル（cell-flow）配列をそれぞれ含む配列決定アダプタを、濃縮されたＤＮＡ分子に取り付ける。その結果得られた分子をＰＣＲによって増幅する。

増幅された断片の両方の鎖を配列決定する。各バブル含有アダプタは、非相補的部分（例えば、バブル）を含むため、バブル含有アダプタの一方の鎖の配列は、他方の鎖（相補体）の配列とは異なる。したがって、本来の無細胞ＤＮＡのワトソン鎖に由来するアンプリコンの配列リードは、取り付けられたバブル含有アダプタ配列によって、本来の無細胞ＤＮＡのクリック鎖由来のアンプリコンから識別することができる。

本来の無細胞ＤＮＡ断片の鎖由来の配列リードを、本来の無細胞ＤＮＡ断片の他方の鎖由来の配列リードと比較する。バリアントが、本来の無細胞ＤＮＡ断片の一方の鎖由来の配列リードのみに生じるが、他方の鎖には生じない場合、このバリアントは、真の遺伝的バリアントではなくエラー（例えば、ＰＣＲおよび／または増幅に起因する）として同定されるであろう。

配列リードをファミリーへと群分けする。配列リードにおけるエラーを補正する。各ファミリーのコンセンサス配列を崩壊により生成する。

本発明の好まれる実施形態を本明細書に示し、記載してきたが、かかる実施形態が単なる一例として提示されていることは、当業者には明らかであろう。本発明が、本明細書内に提示されている具体例によって限定されることは意図されていない。上述の明細書を参照しつつ本発明を記載してきたが、本明細書における実施形態の記載および図解は、限定的な意味で解釈されることを意味しない。そこで、当業者であれば、本発明から逸脱することなく、多数のバリエーション、変化および置換を思い付くことができよう。さらに、本発明のあらゆる態様が、種々の条件および変数に依存する本明細書に表記されている特異的な描写、構成または相対的比率に限定されないことが理解できよう。本明細書に記載されている本発明の実施形態の様々な代替を本発明の実施において用いてよいことを理解されたい。したがって、本発明が、いかなるかかる代替、修正、バリエーションまたは均等も網羅することが企図される。次の特許請求の範囲が、本発明の範囲を定義すること、また、特許請求の範囲およびその均等の範囲内の方法および構造が、これにより網羅されることが意図される。

Claims

明細書に記載の装置。