JP7046097B2

JP7046097B2 - 試料核酸にアダプターを付着する方法

Info

Publication number: JP7046097B2
Application number: JP2019555645A
Authority: JP
Inventors: アンドリューケネディ，; ステファニーアンウォードモーティマー，
Original assignee: ガーダントヘルス，インコーポレイテッド
Priority date: 2017-04-14
Filing date: 2018-04-13
Publication date: 2022-04-01
Anticipated expiration: 2038-04-13
Also published as: EP3610032A4; ES2962223T3; EP3885445A1; EP3885445C0; EP3610032A2; JP2020516281A; US20200283839A1; CN110546272A; US20200131567A1; WO2018191702A2; JP2022048389A; WO2018191702A3; EP3610032B1; EP3885445B1; PL3885445T3; ES2868074T3; CA3057163A1; HUE063675T2; AU2018252018A1; JP7514263B2

Description

相互参照
この国際特許出願は、２０１７年４月１４日に出願された米国仮特許出願番号第６２／４８５，７６９号、２０１７年４月１８日に出願された第６２／４８６，６６３号、および２０１７年６月８日に出願された第６２／５１７，１４５号の優先日の利益を主張しており、そしてまた２０１７年４月１４日に出願された国際特許出願第ＰＣＴ／ＵＳ２０１７／０２７８０９号の優先日の利益を主張しており、各々は、すべての目的のためにその全体が参考として援用される。

配列表
本出願は、２０１８年４月１０日作成の１キロバイトのテキストファイル５１２８３７－ＳＴ２５内の配列を含み、前記テキストファイルは参照により組み込まれる。

がんは、個体の正常細胞内での遺伝的変異の蓄積によって引き起こされることがあり、そのうち少なくとも一部は、不適切に調節された細胞分裂をもたらす。このような変異は、一般に、コピー数変異（ＣＮＶ）、単一ヌクレオチド変異（ＳＮＶ）、遺伝子融合、挿入および／または欠失（挿入欠失）を含み、エピジェネティック変異は、シトシンの５－メチル化（５－メチルシトシン）ならびにＤＮＡのクロマチンおよび転写因子との会合を含む。

がんは、腫瘍の生検と、それに続く細胞、マーカーまたは細胞から抽出されたＤＮＡの解析によって検出されることが多い。しかしより最近では、がんはまた、血液または尿などの体液中の無細胞核酸から検出できるということが提案されている（例えば、Ｓｉｒａｖｅｇｎａｅｔａｌ．，ＮａｔｕｒｅＲｅｖｉｅｗｓ２０１７を参照）。このような試験は、非侵襲的であり、生検において疑わしいがん細胞を同定することなく実施できる利点を有する。しかし、体液中の核酸の量は非常に低い。したがって、そのような分析は、体液中の天然の無細胞ＤＮＡを、分析を受け入れられる形態に変換する効率的な方法を必要とする。
分析のために患者試料からＤＮＡ分子を調製することは、一般に、まず一本鎖オーバーハングを修復して増幅およびシーケンシングのためにアダプターへのライゲーションを可能にすることを含む。修復は、オーバーハング鎖を消化するまたは反対鎖を伸長して平滑末端を生成し、続いて５’末端をリン酸化して平滑末端をアダプターにライゲーションすることにより達成可能である。あるいは、平滑末端化の後、平滑末端はＴａｑポリメラーゼを用いてＡ尾部付加することが可能である。Ａ尾部付加断片はアニールされ、３’末端に単一ヌクレオチドＴ尾部を含むアダプターとライゲーションされる。この立体配置は所望のアダプター－ＤＮＡ分子ライゲーションに有利であるが、シーケンシングをすることができる分子への試料中のＤＮＡ分子の全体変換効率は、利用可能である核酸の量がごく少量である試料についてはそれでも容認しがたいほど低いことがある。

Ｓｉｒａｖｅｇｎａｅｔａｌ．，ＮａｔｕｒｅＲｅｖｉｅｗｓ２０１７

要旨
本発明は、分析のために核酸を調製する方法であって、
（ａ）５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を提供する１つまたは複数の酵素ならびに４つの標準ヌクレオチドタイプの作用により試料中の一本鎖オーバーハングを有する二本鎖核酸を平滑末端とするステップであって、５’末端を有する一本鎖オーバーハングが、ポリメラーゼ活性による相補鎖の伸長のための鋳型として働き、３’末端を有する一本鎖オーバーハングが、プルーフリーディング活性により消化されて平滑末端化核酸を生じる、ステップと；（ｂ）平滑末端化核酸を試料の他の成分から分離せずに、３’－５’プルーフリーディング機能のないポリメラーゼの作用により平滑末端化核酸の末端に尾部を付加するステップであって、これにより平滑末端化核酸の３’末端へのヌクレオチドの非鋳型特異的付加が実施され、Ａが優先的に、次にＧが優先的に、次にＣまたはＴが付加される、ステップと；（ｃ）ステップ（ｃ）の核酸を３’末端に単一ヌクレオチドＴまたはＣオーバーハングを有する少なくとも部分的に二本鎖のアダプターにアニールするステップと；（ｄ）核酸をアダプターにライゲーションするステップとを含む、方法を提供する。必要に応じて、方法は、ステップ（ａ）の後、１つまたは複数の酵素を変性させるステップをさらに含む。必要に応じて、方法は、試料を、１つまたは複数の酵素、４つの標準ヌクレオチドタイプおよび３’－５’プルーフリーディング機能のないポリメラーゼと接触させるステップをさらに含む。必要に応じて、試料を、１つまたは複数の酵素、４つの標準ヌクレオチドタイプおよび３’－５’プルーフリーディング機能のないポリメラーゼと一緒に接触させる。必要に応じて、ステップ（ｂ）は、ステップ（ａ）よりも高い温度で実施される。必要に応じて、ステップ（ａ）は、周囲温度で実施され、ステップ（ｂ）は、６０℃を超える温度で実施される。必要に応じて、１つまたは複数の酵素は、５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を有するポリメラーゼである。必要に応じて、３’－５’プルーフリーディング機能のないポリメラーゼは、熱安定性ポリメラーゼであり、方法は、ステップ（ａ）の後、試料の温度を上げて、５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を有するポリメラーゼを不活化するステップをさらに含む。必要に応じて、方法は、（ｅ）アダプターにライゲーションされた核酸を増幅するステップと；（ｆ）核酸を分析するステップとをさらに含む。

必要に応じて、方法は、試料を、ライゲーションするステップでの３’末端へのヌクレオチドの非鋳型特異的付加を受けなかった平滑末端化二本鎖核酸とライゲーションする少なくとも部分的に二本鎖の平滑末端化アダプターと接触させるステップをさらに含む。必要に応じて、第１のポリメラーゼは、Ｔ４ポリメラーゼまたはクレノウ大断片である。必要に応じて、第２のポリメラーゼは、Ｔａｑポリメラーゼである。必要に応じて、少なくともステップ（ａ）～（ｅ）は、単一チューブで実施される。必要に応じて、ステップ（ａ）～（ｆ）または（ａ）～（ｇ）は、単一チューブで実施される。必要に応じて、単一ヌクレオチドＴを有する少なくとも部分的に二本鎖のアダプターの単一ヌクレオチドＣを有するものに対するモル比は、４：１～２：１、好ましくは３：１である。必要に応じて、平滑末端化アダプターの尾部付加アダプターに対するモル比は、１：５～１：５００、好ましくは１：１０～１：１００である。必要に応じて、試料中の二本鎖核酸の少なくとも７０％は、アダプターにつながっている。必要に応じて、試料中の利用可能な二本鎖核酸の少なくとも７０％は分析される。必要に応じて、ステップ（ｆ）は、アダプターにライゲーションされている核酸をシーケンシングすることを含む。必要に応じて、シーケンシングすることで、ステップ（ｃ）または（ｄ）においてオーバーハングを形成したヌクレオチドをシーケンシングする。

本発明は、二本鎖ＤＮＡをアダプタータグ付きＤＮＡに変換する方法であって、（ａ）二本鎖ＤＮＡ分子の集団を少なくとも部分的に二本鎖のアダプターの集団と接触させるステップであって、（ｉ）二本鎖ＤＮＡ分子の集団は、単一ヌクレオチドＡオーバーハングを含むＤＮＡ分子および単一ヌクレオチドＧオーバーハングを含むＤＮＡ分子を含み、単一ヌクレオチドＡオーバーハングは、集団中で単一ヌクレオチドＧオーバーハングよりも豊富であり（例えば、１０倍、１００倍、１０００倍）、（ｉｉ）少なくとも部分的に二本鎖のアダプターの集団は、単一ヌクレオチドＴオーバーハングを含むアダプターおよび単一ヌクレオチドＣオーバーハングを含むアダプターを含む、ステップ、ならびに（ｂ）アダプターをＤＮＡ分子にライゲーションするステップであって、これによりアダプタータグ付きＤＮＡを生成するステップとを含む、方法をさらに提供する。

必要に応じて、（ｉ）二本鎖ＤＮＡ分子の集団は、単一ヌクレオチドＣオーバーハングを含むＤＮＡ分子、単一ヌクレオチドＴオーバーハングを含むＤＮＡ分子および平滑末端のうちの少なくとも１つをさらに含み、（ｉｉ）少なくとも部分的に二本鎖のアダプターの集団は、単一ヌクレオチドＧオーバーハングを含むアダプター、単一ヌクレオチドＡオーバーハングを含むアダプターおよび平滑末端のうちの少なくとも１つをさらに含む。必要に応じて、少なくとも部分的に二本鎖のアダプターは、ＮＧＳ（「次世代シーケンシング」）プライマー結合部位およびＤＮＡバーコードを含む。必要に応じて、少なくとも部分的に二本鎖のアダプターの集団は、複数の異なるＤＮＡバーコードを含む。必要に応じて、二本鎖ＤＮＡ分子の両末端に付着可能なバーコード組合せの数は、集団中で二本鎖ＤＮＡ分子の数よりも少なく、例えば、５～１０，０００の間の異なる組合せである。必要に応じて、方法は、（ｃ）試料インデックスバーコードを含む増幅プライマーおよびフローセル支持体に固定されたオリゴヌクレオチドにハイブリダイズするように適合されたヌクレオチド配列を使用してアダプタータグ付きＤＮＡを増幅するステップをさらに含む。必要に応じて、アダプターは、Ｙ型アダプターである。必要に応じて、試料は、全血、血清、または血漿などの体液試料である。必要に応じて、核酸集団は、無細胞核酸集団である。必要に応じて、試料は、がんを有すると疑われている対象由来である。必要に応じて、分析するステップは、体細胞または生殖細胞系変異、コピー数変異、単一ヌクレオチド変異（ＳＮＶ）、およびインデルまたは遺伝子融合を検出する。

本発明は、前記請求項のいずれかの方法により生成される適合された核酸の集団であって、複数の核酸分子を含み、そのそれぞれが、核酸断片とアダプターの間にＡ／ＴまたはＧ／Ｃ塩基対を有するバーコードを含むアダプターが両側に隣接している核酸断片を含む、集団をさらに提供する。必要に応じて、複数の核酸分子は、少なくとも１００，０００分子である。必要に応じて、Ａ／Ｔ塩基対のＧ／Ｃ塩基対に対する比は、２：１～４：１の間である。必要に応じて、集団中の核酸分子の少なくとも９９％は、異なるバーコードを有するアダプターが隣接している核酸断片を有する。

本開示は、それぞれＴおよびＣ単一ヌクレオチド３’ 尾部を有する少なくとも部分的に二本鎖のアダプターであって、尾部を除いて互いに同一であるアダプターの対を含むキットをさらに提供する。必要に応じて、アダプターは、配列番号１および２、ならびに３および２のオリゴヌクレオチドを含むＹ型アダプターである。必要に応じて、キットは、Ｔ４ポリメラーゼまたはクレノウ大断片、およびＴａｑポリメラーゼ、ならびに４つの標準ヌクレオチドタイプをさらに含む。

図１は、平滑末端化、末端尾部付加ならびに試料ＤＮＡの－Ｔおよび－Ｃ尾部付加Ｙ型アダプターへの結合を示している。

定義
対象とは、哺乳動物種（好ましくはヒト）もしくはトリ（例えば、鳥）種などの動物、または植物などの他の生物のことである。さらに具体的には、対象は脊椎動物、例えば、マウス、霊長類、サルまたはヒトなどの哺乳動物が可能である。動物は、家畜、スポーツ動物、およびペットを含む。対象は、健康な個体、疾患もしくは疾患の素因を有するもしくはこれを有すると疑われている個体、または治療を必要とするもしくは治療を必要とすると疑われている個体が可能である。

遺伝子バリアントとは、対象の核酸試料またはゲノムにおける変更、バリアントまたは多型のことである。そのような変更、バリアントまたは多型は参照ゲノムに関するものであり得、参照ゲノムは対象のまたは他の個体の参照ゲノムでもよい。変異（ｖａｒｉａｔｉｏｎ）は、１つまたは複数の単一ヌクレオチド変異（ＳＮＶ）、挿入、欠失、反復、小挿入、小欠失、小反復、構造多型接合部、可変長縦列反復、および／または隣接配列を含み、コピー数変異体（ＣＮＶ）、塩基転換および他の再編成も遺伝子変異の形態である。変異は、塩基変化、挿入、欠失、反復、コピー数変異、塩基転換、またはその組合せが可能である。

がんマーカーは、がんの存在またはがんを発症するリスクに関連する遺伝子バリアントである。がんマーカーは、対象ががんを有するまたは同じ種の年齢および性が適合する対象よりもがんを発症する高いリスクを有する徴候を提供することが可能である。がんマーカーは、がんの原因となるものでもそうでなくてもよい。

核酸タグは、試料核酸に標識して核酸を、異なるタイプの、または異なる処理を受けている異なる試料（例えば、試料インデックスを表す）と区別するのに使用される、通常は人工的配列のおよび通常はＤＮＡの短い核酸（例えば、１００、５０または１０ヌクレオチド長未満）である。タグは一本鎖でも二本鎖でも可能である。核酸タグは解読すれば、核酸の起源、形態または処理の試料などの情報を明らかにすることが可能である。タグを使用すれば、異なるタグを保有する複数の核酸のプール化および並行処理が可能になり、核酸はそれに続いてタグを読むことによりデコンボリューションされる。タグは分子識別子またはバーコードと呼ぶことも可能である。

アダプターは、試料核酸分子のどちらかのまたは両方の末端への連結のために通常少なくとも部分的に二本鎖である短い核酸（例えば、５００、１００または５０ヌクレオチド長未満および典型的にはＤＮＡ）である。アダプターは、両末端でアダプターが隣接している試料核酸分子の増幅を可能にするプライマー結合部位、および／または次世代シーケンシングのためのプライマー結合部位を含む、シーケンシングプライマー結合部位を含むことが可能である。アダプターは、フローセル支持体に付着しているオリゴヌクレオチドなどの、捕捉プローブのための結合部位も含むことが可能である。アダプターは、上記のタグも含むことが可能である。タグは好ましくは、タグが試料核酸のアンプリコンおよびシーケンシング読み取りデータに含まれるように、プライマーおよびシーケンシングプライマー結合部位に関連する位置にある。同じまたは異なるアダプターを試料分子のそれぞれの末端に連結させることが可能である。同じアダプターが、タグが異なること以外それぞれの末端に連結されることもある。好ましいアダプターはＹ型アダプターであり、そこでは、試料核酸につなげるために、１つの末端が本明細書に記載されるように平滑末端とされまたは尾部を付加されており、この試料核酸も平滑末端とされているまたは相補的ヌクレオチドで尾部を付加されている。別の好ましいアダプターは、ベル型アダプターであり、同様に分析する核酸につなげるために平滑末端または尾部付加末端を有する。

４つの標準ヌクレオチドタイプとは、デオキシリボヌクレオチドでは、Ａ、Ｃ、Ｇ、Ｔ、リボヌクレオチドではＡ、Ｃ、ＴおよびＵのことである。
詳細な説明
１．概要

新世代シーケンシングプラットフォームのための試料調製は多くの場合類似するプロトコールに従う。試料は典型的には一本鎖オーバーハングを有する二本鎖核酸断片を含有する。そのような断片は平滑末端とされてアダプターに直接ライゲーションすることが可能である。しかし、そのようなライゲーションは、アダプターまたは断片がコンカテマーを形成する副産物も生じる。そのような副産物の形成は、平滑末端化断片がＡ尾部付加されＴ尾部付加アダプターにライゲーションされる代替手法により低減することが可能である。単一のチューブで末端修復および尾部付加を実施する市販のキットは使用が簡便で迅速であり、市販のアダプター（例えば、ＮＥＢＮｅｘｔＵｌｔｒａＩＩ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ、Ｉｐｓｗｉｃｈ、ＭＡ．））と一緒に使用可能である。しかし、Ａ尾部付加について最適化されていないキットを使用すると、Ｇ、ＴおよびＣなどの他のヌクレオチドで尾部を付加することがある。効率の悪い尾部付加の結果、アダプターのライゲーション効率は悪くなりライブラリーの複雑度は低くなる。

本発明は、増幅およびそれに続く分析、特にシーケンシングのために、一本鎖オーバーハングを有する二本鎖核酸（好ましくはＤＮＡ）を調製する改良された方法を提供する。平滑末端化二本鎖核酸を４つの標準ヌクレオチドタイプすべての存在下でＴａｑと接触させると核酸の３’末端への単一ヌクレオチドの非鋳型特異的付加が起き、その結果、Ａが最も頻繁に、続いてＧ、続いてＣおよびＴが付加されることが見出された。追加の核酸分子が含まれるとオフターゲット副反応の可能性が増えるが、単一Ｇ尾部付加の割合は単一Ａ尾部付加と比べて十分に高いので、アダプターへの試料中の核酸分子のライゲーションの効率は、Ｔでだけ（先の方法においてのように）でなくＣでも尾部を付加されたアダプターのカスタマイズされた混合物を含めることにより著しく増加させることが可能であり、それらのアダプターは、ＡおよびＧで尾部を付加されたＤＮＡ分子の３’末端にそれぞれアニールすることが見出された。ライゲーション効率は、いかなるヌクレオチドとも尾部付加を受けることができなかった試料中の平滑末端化核酸分子にライゲーションする平滑末端化アダプター（すなわち、いかなるヌクレオチドでも尾部を付加されていない）も含めることによりさらに増加させることが可能である。
２．試料

試料は対象から単離されたいかなる生体試料でも可能である。試料は、身体試料であり得る。試料として、既知または疑われる固形腫瘍、全血、血小板、血清、血漿、便、赤血球、白血球（ｗｈｉｔｅｂｌｏｏｄｃｅｌｌ）または白血球（ｌｅｕｃｏｃｙｔｅ）、内皮細胞、組織生検、脳脊髄液滑液、リンパ液、腹水、間質性または細胞外液、歯肉溝滲出液を含む細胞間空間中の流体、骨髄、胸水、脳脊髄液、唾液、粘液、痰、精液、汗、尿などの体組織を挙げることができる。試料は、体液、特に、血液およびその画分ならびに尿が好ましい。試料は、対象から元々単離された形態であってもよく、あるいは細胞などの成分を除去もしくは付加するために、またはある成分を別のものに対して濃縮するためにさらなる処理に付されていてもよい。したがって、分析に好ましい体液は、無細胞核酸を含有する血漿または血清である。

血漿の体積は、シーケンシングされる領域の所望の読み取りデータ深度に応じて変わり得る。例示的体積は、０．４～４０ｍｌ、５～２０ｍｌ、１０～２０ｍｌである。例えば、体積は、０．５ｍＬ、１ｍＬ、５ｍＬ１０ｍＬ、２０ｍＬ、３０ｍＬまたは４０ｍＬであり得る。試料採取される血漿の体積は、例えば、５～２０ｍＬであり得る。

試料は、ゲノム等価物を含有する種々の量の核酸を含むことが可能である。例えば、約３０ｎｇのＤＮＡの試料は、約１０，０００の一倍体ヒトゲノム等価物を、無細胞ＤＮＡの場合は、約２０００億の個々の核酸分子を含有することが可能である。同様に、約１００ｎｇのＤＮＡの試料は、約３０，０００の一倍体ヒトゲノム等価物を、無細胞ＤＮＡの場合は、約６０００億の個々の分子を含有することが可能である。一部の試料は、１～５００、２～１００、５～１５０ｎｇの無細胞ＤＮＡ、例えば、５～３０ｎｇ、または１０～１５０ｎｇの無細胞ＤＮＡを含有する。

試料は、異なる供給源由来の核酸を含むことが可能である。例えば、試料は生殖系列ＤＮＡまたは体細胞ＤＮＡを含むことが可能である。試料は、突然変異を保有する核酸を含むことが可能である。例えば、試料は、生殖系列突然変異および／または体細胞突然変異を保有するＤＮＡを含むことが可能である。試料は、がん関連突然変異（例えば、がん関連体細胞突然変異）を保有するＤＮＡも含むことが可能である。

増幅前の試料中の無細胞核酸の例示的量は、約１ｆｇ～約１μｇ、例えば、１ｐｇ～２００ｎｇ、１ｎｇ～１００ｎｇ、１０ｎｇ～１０００ｎｇの範囲である。例えば、量は、最大約６００ｎｇ、最大約５００ｎｇ、最大約４００ｎｇ、最大約３００ｎｇ、最大約２００ｎｇ、最大約１００ｎｇ、最大約５０ｎｇまたは最大約２０ｎｇの無細胞核酸分子であり得る。量は、少なくとも１ｆｇ、少なくとも１０ｆｇ、少なくとも１００ｆｇ、少なくとも１ｐｇ、少なくとも１０ｐｇ、少なくとも１００ｐｇ、少なくとも１ｎｇ、少なくとも１０ｎｇ、少なくとも１００ｎｇ、少なくとも１５０ｎｇまたは少なくとも２００ｎｇの無細胞核酸分子であり得る。量は、最大１フェムトグラム（ｆｇ）、１０ｆｇ、１００ｆｇ、１ピコグラム（ｐｇ）、１０ｐｇ、１００ｐｇ、１ｎｇ、１０ｎｇ、１００ｎｇ、１５０ｎｇまたは２００ｎｇの無細胞核酸分子であり得る。方法は、１フェムトグラム（ｆｇ）～２００ｎｇを得るステップを含み得る。

例示的試料は５～１０ｍｌの全血、血漿または血清であり、これは約３０ｎｇのＤＮＡまたは約１０，０００の一倍体ゲノム等価物を含む。

無細胞核酸は、細胞内に含有されない、もしくはそうでなければ細胞に結合されない核酸、または言い換えれば、無傷の細胞を除去した試料中に残存している核酸である。無細胞核酸は、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、ｓｉＲＮＡ、ｍｉＲＮＡ、循環ＲＮＡ（ｃＲＮＡ）、ｔＲＮＡ、ｒＲＮＡ、核小体低分子ＲＮＡ（ｓｎｏＲＮＡ）、Ｐｉｗｉ相互作用ＲＮＡ（ｐｉＲＮＡ）、長鎖ノンコーディングＲＮＡ（ｌｏｎｇｎｃＲＮＡ）またはこれらのいずれかの断片を含む、ＤＮＡ、ＲＮＡおよびそのハイブリッドを含む。少なくともその一部が一本鎖オーバーハングを有する二本鎖ＤＮＡ分子は、本明細書に開示されるいかなる方法についても無細胞ＤＮＡの好ましい形態である。無細胞核酸は、二本鎖、一本鎖またはそのハイブリッドであり得る。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞壊死およびアポトーシスによって体液中に放出され得る。いくつかの無細胞核酸、例えば、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）が、がん細胞から体液中に放出される。その他のものは、健康な細胞から放出される。

無細胞核酸は１つまたは複数のエピジェネティック修飾を有することが可能であり、例えば、無細胞核酸は、アセチル化、メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、および／またはシトルリン化することが可能である。

無細胞核酸は、約１００～５００ヌクレオチド、特に１１０～約２３０ヌクレオチドのサイズ分布を有し、約１６８ヌクレオチドの最頻値を有し、２４０～４４０ヌクレオチドの間の範囲に第２のわずかなピークを有する。

無細胞核酸は、溶液中に見られるような無細胞核酸が、無傷の細胞および体液のその他の非可溶性成分から分離される分画または分割ステップによって体液から単離できる。分割は、遠心分離または濾過などの技術を含み得る。あるいは、体液中の細胞を溶解し、無細胞および細胞性核酸を一緒に処理してもよい。一般的に、バッファーの添加および洗浄ステップ後、核酸をアルコールを用いて沈殿させることができる。シリカベースのカラムなどのさらなる精製ステップを使用して、夾雑物または塩を除去してもよい。非特異的バルク担体核酸は、例えば、収率などの手順のある特定の態様を最適化するために反応中ずっと添加してもよい。

このような処理後、試料は、二本鎖ＤＮＡ、一本鎖ＤＮＡおよび一本鎖ＲＮＡを含む種々の形態の核酸を含み得る。必要に応じて、一本鎖ＤＮＡおよびＲＮＡは、二本鎖形態に変換され、したがって、それらは、その後の処理および解析ステップに含まれ得る。
３．試料核酸分子をアダプターに連結する

上記の先の処理ありまたはなしで試料中に存在する核酸は、典型的には分子のかなりの分子を、一本鎖オーバーハングを有する部分的に二本鎖の分子の形態で含有する。そのような分子は、図１上に示される４つの標準ヌクレオチドタイプすべての存在下で、５’－３’ポリメラーゼおよび３’－５’エキソヌクレアーゼ（またはプルーフリーディング機能）を提供する１つまたは複数の酵素で処理することにより平滑末端化二本鎖分子に変換することが可能である。活性のそのような組合せは陥凹３’末端のある鎖を伸長することが可能なので、鎖は反対鎖の５’末端と平滑で終了する（言い換えると、平滑末端を生み出す）、または３’オーバーハングのある鎖を消化することが可能なので、鎖は同様に反対鎖の５’末端と平滑になる。両活性は、必要に応じて、単一ポリメラーゼが与えることが可能である。ポリメラーゼは、温度を上げた場合にその活性を終結させることができるように、好ましくは熱感受性である。クレノウ大断片およびＴ４ポリメラーゼは適切なポリメラーゼの例である。

５’－３’ポリメラーゼおよび３’－５’エキソヌクレアーゼ活性を与える１つまたは複数の酵素は好ましくは、温度を上げることによりまたは他の方法で変性される。例えば、変性は温度を、例えば、７５℃～８０℃まで上げることにより達成することが可能である。次に、試料にはプルーフリーディング機能を欠くポリメラーゼが作用する（図１中央）。このポリメラーゼは、好ましくは、高温度でも依然活性があるなどの熱安定性である。Ｔａｑ、Ｂｓｔ大断片およびＴｔｈポリメラーゼはそのようなポリメラーゼの例である。第２のポリメラーゼは、平滑末端化核酸の３’末端への単一ヌクレオチドの非鋳型付加を達成する。反応混合物は典型的には、先のステップ由来の４つの標準ヌクレオチドタイプのそれぞれの等モル量を含有しているが、４つのヌクレオチドタイプは等しい割合で３’末端に付加されない。むしろ、Ａが最も頻繁に、続いてＧ、続いてＣおよびＴが付加される。

試料分子の尾部付加の後、および尾部付加試料分子のそれに続く精製ありまたはなしで、尾部付加試料分子はアダプターの１つの末端に相補的ＴおよびＣヌクレオチドで尾部を付加したアダプターと接触させる（図１下）。アダプターは典型的には、そのそれぞれの鎖の個別の合成およびアニーリングにより形成される。したがって、追加のＴおよびＣ尾部を鎖のうちの１つの合成において余分なヌクレオチドとして付加することが可能である。典型的には、ＧおよびＡで尾部を付加されたアダプターは含まれない。なぜならば、これらのアダプターはそれぞれＣおよびＴで尾部を付加された試料分子とアニールする場合があるが、他のアダプターともアニールすると考えられるからである。その３’末端に相補的ヌクレオチド（すなわち、Ｔ－ＡおよびＣ－Ｇ）を保有するアダプター分子と試料分子はアニールし、互いにライゲーションすることが可能である。Ｔ尾部付加アダプターと比べたＣ尾部付加アダプターのパーセントは、モルで約５～４０％、例えば、１０～３５％、１５～２５％、２０～３５％、２５～３５％または約３０％の範囲に及ぶ。試料分子の３’末端への単一ヌクレオチドの非鋳型特異的付加は完了まで進まないので、試料は尾部付加なしのいくつかの平滑末端化試料分子も含有する。これらの分子は、１つ好ましくは１つだけ平滑末端を有するアダプターを試料に供給することによっても回収することが可能である。平滑末端アダプターは通常、ＴおよびＣ尾部付加アダプターを有するアダプターの０．２～２０％、または０．５～１５％または１～１０％のモル比で供給される。平滑末端化アダプターは、ＴおよびＣ尾部付加アダプターと同時に、その前にまたはその後で提供することが可能である。平滑末端化アダプターは平滑末端化試料分子とライゲーションして、再びアダプターが両側に隣接している試料分子を生じた。これらの分子は、尾部付加試料分子が尾部付加アダプターにライゲーションされると、存在する試料とアダプターの間にＡ－Ｔヌクレオチド対もＣ－Ｇヌクレオチド対も欠く。

これらの反応で使用されるアダプターは好ましくは、アダプターが試料分子と１つの配向だけでライゲーションすることができるように、ＴもしくはＣで尾部を付加された唯一の末端または唯一の平滑末端を有する。アダプターは、例えば、一方の末端に尾部が付加されているまたは平滑であり、もう一方の末端が２つの単一鎖を有する、Ｙ型アダプターが可能である。例示的Ｙ型アダプターは次の通りの配列を有し、（６塩基）がタグを示している。上のオリゴヌクレオチドは単一塩基Ｔ尾部を含む。

ユニバーサルアダプター：
５’ＡＡＴＧＡＴＡＣＧＧＣＧＡＣＣＡＣＣＧＡＧＡＴＣＴＡＣＡＣＴＣＴＴＴＣＣＣＴＡＣＡＣＧＡＣＧＣＴＣＴＴＣＣＧＡＴＣＴ（配列番号１）

アダプター、インデックス１～１２：５’ＧＡＴＣＧＧＡＡＧＡＧＣＡＣＡＣＧＴＣＴＧＡＡＣＴＣＣＡＧＴＣＡＣ（６塩基）ＡＴＣＴＣＧＴＡＴＧＣＣＧＴＣＴＴＣＴＧＣＴＴＧ（配列番号２）

Ｃ尾部を有する別のＹ型アダプターは、以下の配列を有する：

５’ＡＡＴＧＡＴＡＣＧＧＣＧＡＣＣＡＣＣＧＡＧＡＴＣＴＡＣＡＣＴＣＴＴＴＣＣＣＴＡＣＡＣＧＡＣＧＣＴＣＴＴＣＣＧＡＴＣＣ（配列番号３）およびアダプター、インデックス１～１２：５’ＧＡＴＣＧＧＡＡＧＡＧＣＡＣＡＣＧＴＣＴＧＡＡＣＴＣＣＡＧＴＣＡＣ（６塩基）ＡＴＣＴＣＧＴＡＴＧＣＣＧＴＣＴＴＣＴＧＣＴＴＧ（配列番号２）

ＴとＣ尾部の両方を有するオリゴヌクレオチドを含むそのようなオリゴヌクレオチドのカスタマイズされた組合せは、本方法において使用するために合成することが可能である。

これらのアダプター配列の末端切断型は、Ｒｏｈｌａｎｄら、ＧｅｎｏｍｅＲｅｓ．２０１２年５月；２２巻（５号）：９３９～９４６頁により記載されている。

アダプターは、末端が１つだけのベル型も可能であり、この末端は尾部が付加されているまたは平滑である。アダプターは、増幅のためのプライマー結合部位、シーケンシングプライマーのための結合部位、および／または識別を目的とする核酸タグを含むことが可能である。同じまたは異なるアダプターは単一反応において使用可能である。

アダプターが識別タグを含み、試料中の核酸がそれぞれの末端でアダプターに付着している場合、識別子の潜在的組合せの数は、供給される独自のタグの数に従って指数関数的に増加する（すなわち、ｎ^ｎの組合せであり、ｎは、独自の識別タグの数である）。一部の方法では、独自のタグの組合せの数が十分なので、試料中の異なる二本鎖ＤＮＡ分子のすべてまたは実質的にすべて（例えば、少なくとも９０％）がタグの異なる組合せを受けることは統計的に見込みがある。一部の方法では、識別子タグの独自の組合せの数は、試料中の独自の二本鎖ＤＮＡ分子の数よりも少ない（例えば、５～１０，０００の異なるタグ組合せ）。

上記方法を実施するのに適した酵素を提供するキットは、ＮＥＢＮｅｘｔ（登録商標）Ｕｌｔｒａ（商標）ＩＩＤＮＡＬｉｂｒａｒｙＰｒｅｐＫｉｔｆｏｒＩｌｌｕｍｉｎａ（登録商標）である。キットは以下の試薬を提供する。

ＮＥＢＮｅｘｔＵｌｔｒａＩＩＥｎｄＰｒｅｐＥｎｚｙｍｅＭｉｘ、ＮＥＢＮｅｘｔＵｌｔｒａＩＩＥｎｄＰｒｅｐＲｅａｃｔｉｏｎＢｕｆｆｅｒ、ＮＥＢＮｅｘｔＬｉｇａｔｉｏｎＥｎｈａｎｃｅｒ、ＮＥＢＮｅｘｔＵｌｔｒａＩＩＬｉｇａｔｉｏｎＭａｓｔｅｒＭｉｘ－２０、ＮＥＢＮｅｘｔ（登録商標）ＵｌｔｒａＩＩＱ５（登録商標）ＭａｓｔｅｒＭｉｘ。

試料核酸の平滑末端化および尾部付加は、単一チューブで実施することが可能である。平滑末端化核酸は、尾部付加反応が起こる前に平滑末端化を実施する酵素（複数可）から分離する必要はない。必要に応じて、すべての酵素、ヌクレオチドおよび他の試薬は、平滑末端化反応が起こる前に一緒に供給される。一緒に供給するとは、平滑末端化が行われるために試料インキュベーションが生じるときにすべてが存在しているように、時間が十分接近してすべてが試料中に導入されることを意味する。必要に応じて、酵素、ヌクレオチドおよび他の試薬を供給した後、少なくとも平滑末端化と末端尾部付加インキュベーションの両方が完了するまで試料から何も除去されない。多くの場合、末端尾部付加反応は、平滑末端化反応よりも高い温度で実施される。例えば、平滑末端化反応は、５’－３’ポリメラーゼおよび３’－５’エキソヌクレアーゼが活性であり、熱安定性ポリメラーゼが不活性であるまたは活性が最小限である、周囲温度で実施することが可能であり、末端尾部付加反応は、５’－３’ポリメラーゼおよび３’－５’エキソヌクレアーゼが不活性であり、熱安定性ポリメラーゼが活性である、６０℃を超えるなどの高温で実施することが可能である。

記載されているＴおよびＣ尾部付加アダプターの付着により、適合された核酸の集団であって、複数の核酸分子を含み、そのそれぞれが、核酸断片とアダプターの間にＡ／ＴまたはＧ／Ｃ塩基対を有するバーコードを含むアダプターが両側に隣接している核酸断片を含む、集団がもたらされる。複数の核酸分子は、少なくとも１０，０００、１００，０００または１，０００，０００分子が可能である。断片と隣接するアダプターの間の接合領域でのＡ／Ｔ塩基対のＧ／Ｃ塩基対に対する比は、Ｔ尾部付加アダプターのＣ尾部付加アダプターに対する比に依存し、例えば、２：１～４：１の間である。集団中の大半の核酸は、異なるバーコードを有するアダプターが隣接している（例えば、少なくとも９９％）。平滑末端化アダプターも含まれる場合、核酸断片で核酸分子を含む集団は、どちらかまたは両方の末端でアダプターに直接つなげられる（すなわち、介在するＡ／Ｔ対もＧ／Ｃ対もない）。

４．増幅

アダプターが隣接している試料核酸は、ＰＣＲ、および増幅される核酸に隣接するアダプター中のプライマー結合部位に結合するプライマーから典型的にはプライミングされる他の増幅方法により増幅させることが可能である。増幅方法は、熱サイクリングから生じる伸長、変性およびアニーリングのサイクルを含むことが可能であり、または転写媒介増幅の場合のように等温であることが可能である。他の増幅方法は、リガーゼ連鎖反応、鎖置換増幅、核酸配列ベースの増幅、および自家持続性配列ベース複製を含む。

好ましくは、本方法は、試料中の少なくとも７５、８０、８５、９０または９５％の二本鎖核酸がアダプターに連結されることになる。好ましくは、ＴおよびＣ尾部付加を使用すれば、Ｔ尾部付加アダプター単独で実施した対照方法と比べると、少なくとも１、２、３、４、５、６、７、８、９または１０％（７５％から８０％の収率の増加は５％の増加と見なされる）アダプターに連結された試料中の二本鎖核酸のパーセントが増加する。好ましくは、平滑末端化アダプターと組み合わせてＴおよびＣ尾部付加を使用すれば、アダプターに連結した二本鎖核酸のパーセントは少なくとも５、１０、１５、２０または２５％増加する。アダプターに連結された核酸のパーセントは、原試料とアダプターへの連結が完了した後の処理された試料の比較ゲル電気泳動により決定することが可能である。

好ましくは、本方法は、試料中の少なくとも７５、８０、８５、９０または９５％の利用可能な二本鎖分子がシーケンシングされることになる。好ましくは、ＴおよびＣ尾部付加を使用すれば、Ｔ尾部付加アダプター単独で実施した対照方法と比べると、シーケンシングされる試料中の二本鎖核酸のパーセントが少なくとも１、２、３、４、５、６、７、８、９または１０％増加する。好ましくは、平滑末端化アダプターと組み合わせてＴおよびＣ尾部付加を使用すれば、Ｔ尾部付加アダプター単独で実施した対照方法と比べると、シーケンシングされる試料中の二本鎖核酸のパーセントが少なくとも５、１０、１５、２０または２５％増加する。シーケンシングされる核酸のパーセントは、入力核酸およびシーケンシングするために標的にされたゲノムの領域に基づいてシーケンシングすることができたと考えられる数に基づいて実際にシーケンシングされた分子の数を比べることにより決定することが可能である。
５．タグ

分子識別子またはバーコードを提供するタグは、ライゲーション、他の方法の中でもオーバーラップ伸長ＰＣＲによりアダプター内に取り込むまたは他の方法でこれにつなぐことが可能である。一般に、反応における独特または非独特識別子または分子バーコードの割り当ては、米国特許出願第２００１００５３５１９号、第２００３０１５２４９０号、第２０１１０１６００７８号、ならびに米国特許第６，５８２，９０８号によって記載される方法およびシステムに従う。

いくつかの場合には、それらを、独特の識別子のマイクロウェルに対する予測される比で導入する。例えば、ゲノム試料１種あたり約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００または１，０００，０００，０００より多い独特の識別子がロードされるように、独特の識別子をロードしてもよい。いくつかの場合には、ゲノム試料１種あたり約２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００または１，０００，０００，０００未満の独特の識別子がロードされるように、独特の識別子をロードしてもよい。いくつかの場合には、試料ゲノム１種あたりロードされる独特の識別子の平均数は、ゲノム試料１種あたり約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００もしくは１，０００，０００，０００未満または約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００もしくは１，０００，０００，０００より多い独特の識別子である。

いくつかの場合には、独特の識別子は、予め決定された、またはランダムまたは半ランダムな配列のオリゴヌクレオチドであり得る。その他の場合には、複数のバーコードを使用してもよく、その結果、バーコードは必ずしも複数において互いに独特ではない。この例では、バーコードを個々の分子にライゲーションしてもよく、その結果、バーコードおよびライゲーションされ得る配列の組合せが、独特の配列を作り出し、これを個別に追跡してもよい。本明細書において記載されるように、配列読み取りデータの始まり（開始）および終了（停止）部分の配列データと組み合わせた非独特バーコードの検出によって、独特の同一性を特定の分子に割り当てることが可能となり得る。個々の配列読み取りデータの塩基対の長さまたは数も、このような分子に独特の同一性を割り当てるために使用してもよい。本明細書において記載されるように、独特の同一性が割り当てられている核酸の一本鎖に由来する断片は、それによって、親の鎖に由来する断片のその後の同定を可能にし得る。

試料中のポリヌクレオチドは、特定のゲノム領域にマッピングされるすべてのポリヌクレオチドが異なる識別タグを保有する（領域内の分子は実質的に独自のタグ付けがされている）確率が高くなる（例えば、少なくとも９０％、少なくとも９５％、少なくとも９８％、少なくとも９９％、少なくとも９９．９％、または少なくとも９９．９９％）ように、十分な数の異なるタグでタグ付けすることが可能である。ポリヌクレオチドがマッピングされるゲノム領域は、例えば、（１）シーケンシングされている遺伝子の全パネル、（２）単一の遺伝子、エクソンもしくはイントロン内のマッピングなどのそのパネルの一部の部分、（３）単一ヌクレオチド座標（例えば、ポリヌクレオチド中の少なくとも１つのヌクレオチドは、座標、例えば、開始位置、停止位置、中心点またはその間の任意の場所にマッピングされる）または（４）開始／停止（始まり／終わり）ヌクレオチド座標の特定の対が可能である。実質的に独自のタグポリヌクレオチドに必要な異なる識別子の数（タグカウント）は、試料中のどれくらいの数の最初のポリヌクレオチド分子が領域にマッピングされているかの関数である。これは、次に、いくつかの要因の関数である。１つの要因は、アッセイに含まれる一倍体ゲノム等価物の総数である。別の要因は、ポリヌクレオチド分子の平均サイズである。別の要因は、領域にまたがる分子の分布である。これは、次に、切断パターンの関数が可能であり、ヌクレオソーム間よりもヌクレオソーム位置にまたがってマッピングされるポリヌクレオチドが多くなるように、切断は主にヌクレオソーム間で起きると予想してもよい。別の要因は、１つのバーコード対別のバーコードの有効濃度の違いを潜在的に引き起こす、プール中のバーコードの分布および個々のバーコードのライゲーション効率である。別の要因は、独自のタグ付けがされる分子が限定される領域（例えば、同じ開始／停止または同じエクソン）のサイズである。

識別子は、分子の１末端に付着している単一バーコード、またそれぞれが分子の異なる末端に付着している２つのバーコードが可能である。分子の両末端に独立してバーコードを付着させると、考えられる識別子の数が２乗で増加する。この場合、異なるバーコードの数は、特定のポリヌクレオチドのそれぞれの末端のバーコードの組合せが、同じ選択されたゲノム領域にマッピングされている他のポリヌクレオチドに関して独自である確率が高くなるように、選択される。

ある特定の実施形態では、使用される異なる識別子またはバーコード組合せの数（タグカウント）は、少なくとも６４、１００、４００、９００、１４００、２５００、５６２５、１０，０００、１４，４００、２２，５００または４０，０００のいずれかおよび９０，０００、４０，０００、２２，５００、１４，４００または１０，０００のいずれか以下が可能である。例えば、識別子またはバーコード組合せの数は、６４～９０，０００の間、４００～２２，５００の間、４００～１４，４００の間または９００～１４，４００の間が可能である。

複数のゲノム由来の断片化されたゲノムＤＮＡ、例えば、無細胞ＤＮＡ（ｃｆＤＮＡ）を含む試料では、異なるゲノム由来の１つよりも多いポリヌクレオチドが同じ開始および停止位置を有する（「重複」または「同族」）可能性が多少ある。任意の位置で開始する重複の推定数は、試料中の一倍体ゲノム等価物の数および断片サイズの分布の関数である。例えば、ｃｆＤＮＡは約１６０ヌクレオチドに断片のピークがあり、このピークの断片の大半は約１４０ヌクレオチド～１８０ヌクレオチドの範囲に及ぶ。したがって、約３０億塩基のゲノム（例えば、ヒトゲノム）由来のｃｆＤＮＡは、ほぼ２０００万（２×１０^７）のポリヌクレオチド断片から構成されている可能性がある。約３０ｎｇのＤＮＡの試料は、約１０，０００の一倍体ヒトゲノム等価物を含有することが可能である（同様に、約１００ｎｇのＤＮＡの試料は、約３０，０００の一倍体ヒトゲノム等価物を含有することが可能である）。そのようなＤＮＡの約１０，０００（１０^４）の一倍体ゲノム等価物を含有する試料は、約２０００億（２×１０^１１）の個々のポリヌクレオチド分子を有することが可能である。ヒトＤＮＡの約１０，０００の一倍体ゲノム等価物の試料には、任意の所与の位置で開始する約３重複ポリヌクレオチドが存在すると経験的に決定されてきた。したがって、そのような収集物は、多様な約６×１０^１０～８×１０^１０（約６００億～８００億、例えば、約７００億（７×１０^１０））の別々にシーケンシングされるポリヌクレオチド分子を含有することが可能である。

分子を正しく識別する確率は、ゲノム等価物の最初の数、シーケンシングされた分子の長さ分布、配列均一性およびタグの数に依存している。数はポアソン分布を使用して計算することが可能である。タグカウントが１に等しい場合、それは独自のタグがないまたはタグ付けがないことに等しい。下の表１は、上の通り典型的な無細胞サイズ分布を想定して、分子を独自であると正しく識別する確率を収載している。

この場合、ゲノムＤＮＡをシーケンシングすると、どの配列読み取りデータがどの親分子由来なのかを決定することが可能ではない場合がある。この問題は、２つの重複分子、すなわち、同じ開始および停止位置を有する分子が異なる独自の識別子を保有し、そのため配列読み取りデータが特定の親分子にさかのぼって突き止められる可能性があるように、十分な数の独自の識別子（例えば、タグカウント）で親分子にタグ付けすることにより減らすことが可能である。この問題への１つのアプローチは、試料中のすべての、またはほぼすべての異なる親分子を独自にタグ付けすることである。しかし、試料中の一倍体遺伝子等価物の数および断片サイズの分布に応じて、これは数十億の異なる独自の識別子が必要になる可能性がある。

この方法は扱いにくく高価になることがある。一部の態様では、断片化されたゲノムＤＮＡの試料中のポリヌクレオチドの集団が、ｎ個の異なる独自の識別子でタグ付けされ、ｎは、少なくとも２および１００，０００^＊ｚ以下であり、ｚは、同じ開始および停止位置を有する重複分子の予想される数の中心傾向（例えば、平均、中央値、最頻値）の尺度である、方法および組成物が本明細書で提供される。ある特定の実施形態では、ｎは、２^＊ｚ、３^＊ｚ、４^＊ｚ、５^＊ｚ、６^＊ｚ、７^＊ｚ、８^＊ｚ、９^＊ｚ、１０^＊ｚ、１１^＊ｚ、１２^＊ｚ、１３^＊ｚ、１４^＊ｚ、１５^＊ｚ、１６^＊ｚ、１７^＊ｚ、１８^＊ｚ、１９^＊ｚ、２０^＊ｚまたは１００^＊ｚの少なくともいずれかである（例えば、下限値）。他の実施形態では、ｎは、１００，０００^＊ｚ、１０，０００^＊ｚ、２０００^＊ｚ、１０００^＊ｚ、５００^＊ｚまたは１００^＊ｚ以下である（例えば、上限値）。したがって、ｎは、これら下限値と上限値の任意の組合せの間の範囲に及ぶことが可能である。ある特定の実施形態では、ｎは、１００^＊ｚ～１０００^＊ｚの間、５^＊ｚ～１５^＊ｚの間、８^＊ｚ～１２^＊ｚの間、または約１０^＊ｚである。例えば、一倍体ヒトゲノム等価物は、約３ピコグラムのＤＮＡを有する。約１マイクログラムのＤＮＡの試料は、約３００，０００の一倍体ヒトゲノム等価物を含有する。数ｎは、１５～４５の間、２４～３６の間、６４～２５００の間、６２５～３１，０００の間、または約９００～４０００の間が可能である。シーケンシングの改良は、重複または同族ポリヌクレオチドの少なくとも一部が独自の識別子を保有する、すなわち、異なるタグを保有するかぎり、達成可能である。しかし、ある特定の実施形態では、使用されるタグの数は、いずれか１つの位置で開始するすべての重複分子が独自の識別子を保有する機会が少なくとも９５％あるように選択される。例えば、ｃｆＤＮＡの約１０，０００の一倍体ヒトゲノム等価物を含む試料は、約３６の独自の識別子でタグ付けすることが可能である。独自の識別子は、６つの独自のＤＮＡバーコードを含むことが可能である。ポリヌクレオチドの両末端に付着させれば、考えられる３６の独自の識別子が作成される。そのようにしてタグ付けされる試料は、断片化されたポリヌクレオチド、例えば、ゲノムＤＮＡ、例えば、ｃｆＤＮＡの約１０ｎｇから約１００ｎｇ、約１μｇ、約１０μｇのいずれかまでの範囲を有する試料が可能である。

したがって、本開示は、タグ付きポリヌクレオチドの組成物も提供する。ポリヌクレオチドは、断片化されたＤＮＡ、例えば、ｃｆＤＮＡを含むことが可能である。ゲノム中でマッピング可能な塩基位置にマッピングされる組成物中のポリヌクレオチドのセットは、非独自にタグ付けが可能であり、すなわち、異なる識別子の数は少なくとも２であり、マッピング可能な塩基位置にマッピングされるポリヌクレオチドの数より少ないことが可能である。約１０ｎｇ～約１０μｇの間（例えば、約１０ｎｇ～１μｇ、約１０ｎｇ～１００ｎｇ、約１００ｎｇ～１０μｇ、約１００ｎｇ～１μｇ、約１μｇ～１０μｇのいずれか）の組成物は、２、５、１０、５０または１００のいずれかから１００、１０００、１０，０００または１００，０００のいずれかの間の異なる識別子を保有することが可能である。例えば、５～１００の間または１００～４０００の間の異なる識別子を使用すればそのような組成物中のポリヌクレオチドにタグ付けすることが可能になる。

異なる分子が同じ座標にマッピングされており（この場合、同じ開始／停止位置を有する）、異なるタグではなく同じタグを保有するイベントは「分子衝突」と呼ばれる。ある特定の例では、分子衝突の実際の数は、例えば、上記のように計算された理論的衝突の数よりも大きくてもよい。これは、座標を横切る分子の不均等分布、バーコード間のライゲーションの効率の違いおよび他の要因の関数である可能性がある。この場合は、経験的方法を使用すれば、理論的衝突数に近づくのに必要なバーコードの数を決定することが可能である。一実施形態では、シーケンシングされた分子の長さ分布および配列均一性に基づいて所与の一倍体ゲノム等価物についてのバーコード衝突を減らすのに必要なバーコードの数を決定する方法が本明細書に提供される。方法は、核酸分子の複数のプールを創り出すステップと；それぞれのプールを徐々に増加する数のバーコードでタグ付けするステップと；バーコード衝突の数を理論的なレベルにまで低減するバーコードの最適数を決定するステップとを含み、例えば、それは、プール化およびライゲーション効率の違いに起因する有効バーコード濃度の違いに起因する可能性がある。

一実施形態では、領域にマッピングされているポリヌクレオチドを実質的に独自にタグ付けするのに必要な識別子の数は、経験的に決定することが可能である。例えば、選択された数の異なる識別子を試料中の分子に付着させることが可能であり、領域にマッピングされている分子についての異なる識別子の数は計数することが可能である。使用される識別子の数が不十分である場合、領域にマッピングされている一部のポリヌクレオチドは同じ識別子を保有することになる。その場合、計数される識別子の数は試料中の最初の分子の数よりも少なくなる。使用される異なる識別子の数は、新しい最初の分子を表す追加の識別子が検出されなくなるまで、試料タイプについて反復的に増加させることが可能である。例えば、第１の反復では、５つの異なる識別子が計数されて、少なくとも５つの異なる最初の分子を表す場合がある。第２の反復では、さらに多くのバーコードを使用して、７つの異なる識別子が計数されて、少なくとも７つの異なる最初の分子を表す。第３の反復では、さらに多くのバーコードを使用して、１０の異なる識別子が計数され、少なくとも１０の異なる最初の分子を表す。第４の反復では、さらに多くのバーコードを使用して、１０の異なる識別子が再び計数される。この時点で、さらに多くのバーコードを加えても検出される最初の分子の数を増やす可能性は低い。

６．シーケンシング
先行する増幅を伴ってまたは伴わずに、アダプターに隣接する試料核酸をシーケンシングに付すことができる。シーケンシング方法として、例えば、サンガー（Ｓａｎｇｅｒ）シーケンシング、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、デジタル遺伝子発現（Ｈｅｌｉｃｏｓ）、次世代シーケンシング（ＮＧＳ）、合成による単一分子シーケンシング（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、大量並列シーケンシング、クローナル単一分子アレイ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、ＩｏｎＴｏｒｒｅｎｔ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅ、ＲｏｃｈｅＧｅｎｉａ、マキシム－ギルバート（Ｍａｘｉｍ－Ｇｉｌｂｅｒｔ）シーケンシング、プライマーウォーキング、ＰａｃＢｉｏを使用するシーケンシング、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔまたはＮａｎｏｐｏｒｅプラットフォームが挙げられる。シーケンシング反応は、複数のレーン、複数のチャネル、複数のウェルまたは複数の試料セットを実質的に同時に処理するその他の手段であり得る種々の試料処理ユニットで実施できる。試料処理ユニットはまた、複数の実施を同時に処理可能にする複数の試料チャンバーを含み得る。

シーケンシング反応は、がんまたは他の疾患のマーカーを含有することが分かっている１つまたは複数の断片タイプで実施することが可能である。シーケンシング反応はまた、試料中に存在する任意の核酸断片で実施できる。シーケンシング反応は、少なくとも５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％のゲノムの配列カバー度を提供し得る。その他の場合には、ゲノムの配列カバー度は、５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％未満であり得る。

同時シーケンシング反応は、マルチプレックスシーケンシングを使用して実施してもよい。いくつかの場合には、少なくとも１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００のシーケンシング反応を用いて無細胞核酸をシーケンシングしてもよい。その他の場合には、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００未満のシーケンシング反応を用いて無細胞ポリヌクレオチドをシーケンシングしてもよい。シーケンシング反応は、逐次実施しても、同時に実施してもよい。その後のデータ解析は、シーケンシング反応のすべてで実施しても、一部で実施してもよい。いくつかの場合には、データ解析は、少なくとも１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００のシーケンシング反応で実施してもよい。その他の場合には、データ解析を１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００未満のシーケンシング反応で実施してもよい。

シーケンシング方法は、大規模並列シーケンシング、すなわち、少なくとも１００、１０００、１０，０００、１００，０００、１００万、１０００万、１億、または１０億の核酸分子のいずれかを同時に（または立て続けに）シーケンシングすることが可能である。

７．解析
本方法を使用して、状態を特徴付ける（例えば、がんをステージ分類する、またはがんの不均一性を決定する）ため、状態の処置に対する応答をモニタリングするため、状態を発生する、または状態のその後の経過の有効な予後リスクのために、対象における状態、特に、がんの存在を診断できる。

本方法を使用して種々のがんを検出してもよい。がん細胞は、大半の細胞のように、古い細胞が死に、もっと新しい細胞により置き換えられる代謝回転速度により特徴付けることが可能である。一般的に、死細胞は、所与の対象において脈管構造と接触すると、ＤＮＡまたはＤＮＡの断片を血流中に放出する場合がある。これは、疾患の種々の段階中のがん細胞にも当てはまる。がん細胞は、疾患の段階に応じて、コピー数変異ならびに稀な突然変異などの種々の遺伝子異常により特徴付けてもよい。この現象を使用して、本明細書に記載される方法およびシステムを使用してがんの個体の存在または非存在を検出してもよい。

検出され得るがんの種類および数は、血液がん、脳がん、肺がん、皮膚がん、鼻がん、咽頭がん、肝臓がん、骨がん、リンパ腫、膵臓がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、固体状態腫瘍、不均一腫瘍、均一腫瘍などを含み得る。

がんは、突然変異、希少突然変異、挿入欠失、コピー数変異、トランスバージョン、転位置、反転、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体構造の変化、遺伝子融合、染色体融合、遺伝子末端切断、遺伝子増幅、遺伝子重複、染色体病変、ＤＮＡ病変、核酸の化学修飾における異常な変化、エピジェネティックパターンにおける異常な変化および核酸メチル化感染症およびがんにおける異常な変化を含む遺伝的変異から検出され得る。

遺伝子データはまた、特定の形態のがんを特徴付けるために使用できる。がんは、組成およびステージ分類の両方において不均一であることが多い。遺伝子プロファイルデータは、その特定の亜種の診断または処置において重要であり得る、がんの特定の亜種を特徴付けることを可能にし得る。この情報はまた、対象または施術者に特定の種類のがんの予後に関する手がかりを提供し、対象または施術者のいずれかが、疾患の進行に従って処置選択肢を適合させることを可能にし得る。いくつかのがんは、より攻撃的に、遺伝子的に不安定になるように進行する。その他のがんは、良性で、不活性または休止状態のままであり得る。本開示のシステムおよび方法は、疾患進行の決定において有用であり得る。

本解析はまた、特定の処置選択肢の有効性の決定において有用である。処置が成功する場合には、より多くのがんが死滅し、ＤＮＡを流し出す可能性があるので、成功する処置選択肢は、対象の血液において検出されるコピー数変異または希少突然変異の量を増大させ得る。その他の例では、これは、起こらない可能性がある。別の例では、おそらくある特定の処置選択肢は、経時的にがんの遺伝子プロファイルと相関し得る。この相関は、療法の選択において有用であり得る。さらに、がんが、処置後に緩解状態にあると観察される場合には、本方法を使用して、残存する疾患または疾患の再発をモニタリングできる。

本方法はまた、がん以外の状態において遺伝的変異を検出するために使用できる。Ｂ細胞などの免疫細胞は、ある特定の疾患の存在時に迅速なクローン性増殖を起こし得る。クローン性増殖は、コピー数変異検出を使用してモニタリングしてもよく、ある特定の免疫状態をモニタリングしてもよい。この例では、コピー数変異解析を経時的に実施して、特定の疾患がどのように進行し得るのかのプロファイルを作成してもよい。コピー数変異またはさらには希少突然変異検出を使用して、病原体の集団が、どのように感染の過程の間に変化するかを決定してもよい。これは、ＨＩＶ／ＡＩＤＳまたは肝炎感染症などの慢性感染の際に特に重要であり得、それによって、ウイルスが、感染の過程の間に、生活環状態を変化させ、および／またはより病原性の形態に突然変異し得る。本方法を、免疫細胞が移植組織を破壊しようとする際の、宿主身体の拒絶活性を決定する、またはプロファイルして、移植組織の状態をモニタリングし、ならびに処置の過程を変更するまたは拒絶を予防するために使用してもよい。

さらに、本開示の方法であって、対象における細胞外ポリヌクレオチドの遺伝子プロファイルを作成するステップを含み、遺伝子プロファイルが、コピー数変異および稀な突然変異分析から生じる複数のデータを含む、方法を使用して、対象における異常な状態の不均一性を特徴付けてもよい。がんを含むがこれに限定されない、一部の場合、疾患は不均一でもよい。疾患細胞は同一でなくてもよい。がんの例では、一部の腫瘍は、異なるタイプの腫瘍細胞、がんの異なる段階の一部の細胞を含むことが分かっている。その他の例では、不均一性は、複数の病巣を含み得る。やはり、がんの例では、おそらくは、１つまたは複数の病巣が、原発部位から広がった転移の結果である複数の腫瘍病巣がある場合がある。

本方法は、不均一疾患中の異なる細胞に由来する遺伝情報の総和である、フィンガープリントまたはデータのセットを作成する、またはプロファイルするために使用してもよい。このデータのセットは、コピー数変異および珍しい突然変異解析を単独または組み合わせて含み得る。

本方法を使用すれば、胎児起源のがんまたは他の疾患を診断する、予後する、モニタリングするまたは観察することが可能になる。すなわち、これらの方法論を妊娠対象で用いて、そのＤＮＡおよび他の核酸が母体の分子と同時循環している場合がある、まだ生まれていない対象においてがんまたは他の疾患を診断する、予後する、モニタリングするまたは観察してもよい。

９．キット
本開示は、上記方法のいずれかの実行のためのキットも提供する。例示的キットは、それぞれＴおよびＣ単一ヌクレオチド３’尾部を有する少なくとも部分的に二本鎖のアダプターの対を含む。好ましくは、対合したオリゴヌクレオチドは、ＴおよびＣ尾部を除いて同一である。必要に応じて、キットは、ＡおよびＧ単一ヌクレオチド３’尾部を有する少なくとも部分的に二本鎖のアダプターがない。好ましくは、アダプターは、配列番号１および２、ならびに３および２のオリゴヌクレオチドを含むアダプターなどのＹ型である。キットは、Ｔ４ポリメラーゼもしくはクレノウ大断片、および／またはＴａｑポリメラーゼなどの方法の実行のための酵素、ならびに必要に応じて、４つの標準ヌクレオチドタイプも含むことが可能である。キットは、特許請求される方法の実行のための説明書を提供するパッケージング、リーフレット、またはＣＤなども含むことが可能である。

ＣおよびＴ尾部付加アダプターの使用は、試料中のより多くの分子を捕捉することにより感度を高めるのに寄与した。Ｃ－アダプターは、下の表２に示すように、Ｔアダプターに対して０から１対２．７５（３６％）に変動する比で試験した。

Ｃ尾部付加アダプターが存在したすべての試料は、Ｃ尾部が存在しない試料よりもアダプターにライゲーションされた核酸の高い収率（％ライゲーション）を示した。最良の収率はＣ尾部付加プライマーがＴ尾部付加プライマーに対して１対３．２５（約３０％）の比であるが、改良された収率は、０．５対３．２５（約１５％）～１対２．７５（３６％）の比で得られた。

増幅されたＤＮＡのシーケンシング後、調製ごとに多様性を計算した。多様性は、（ｂｐでの平均ＤＮＡ分子サイズ）^＊（シーケンシングされた独自の分子の＃）／（ｂｐでの標的にされた領域サイズ）により計算される、シーケンシングされた分子の数である。多様性は、Ｃ尾部付加アダプターが存在する試料中でのほうが一般的に大きかった。シーケンシングは、組み込まれたＴ尾部付加アダプターのＣ尾部付加アダプターに対する割合が約１０％であることも示した。

上または下に引用されるすべての特許申請、ウェブサイト、他の出版物、および受託番号などは、あたかもそれぞれ個々の項目が参照によりそのように組み込まれることが明確におよび個別に示されている場合と同じ程度にあらゆる目的のためにその全体が参照により組み込まれる。配列の異なるバージョンが異なる時期の受託番号に関連している場合、本出願の有効出願日にその受託番号に関連しているバージョンを意味する。有効出願日とは、実際の出願日よりも早期、または該当する場合、受託番号に言及する優先権出願の出願日を意味する。同様に、出版物、またはウェブサイトなどの異なるバージョンが異なる時期に公表される場合、他の方法で示されていなければ、出願の有効出願日の直近に公表されたバージョンを意味する。本発明のいかなる特長、ステップ、要素、実施形態、または態様も、明確に他の方法で示されていなければ、他のいずれとも組み合わせて使用することが可能である。本発明は、明快さおよび理解を目的に図表および実施例によりある程度詳細に説明してきたが、添付の特許請求の範囲内で、ある特定の変更および改変を実行してもよいことは明らかである。
本発明は、例えば、以下の項目を提供する。
(項目１)
分析のために核酸を調製する方法であって、
（ａ）５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を提供する１つまたは複数の酵素ならびに４つの標準ヌクレオチドタイプの作用により試料中の一本鎖オーバーハングを有する二本鎖核酸を平滑末端とするステップであって、５’末端を有する一本鎖オーバーハングが、前記ポリメラーゼ活性による相補鎖の伸長のための鋳型として働き、３’末端を有する一本鎖オーバーハングが、前記プルーフリーディング活性により消化されて平滑末端化核酸を生じる、ステップと、
（ｂ）前記平滑末端化核酸を前記試料の他の成分から分離せずに、３’－５’プルーフリーディング機能のないポリメラーゼの作用により前記平滑末端化核酸の末端に尾部を付加するステップであって、これにより平滑末端化核酸の３’末端へのヌクレオチドの非鋳型特異的付加が実施され、Ａが優先的に、次にＧが優先的に、次にＣまたはＴが付加される、ステップと；
（ｃ）ステップ（ｃ）の前記核酸を３’末端に単一ヌクレオチドＴまたはＣオーバーハングを有する少なくとも部分的に二本鎖のアダプターにアニールするステップと；
（ｄ）前記核酸を前記アダプターにライゲーションするステップと
を含む、方法。
(項目２)
ステップ（ａ）の後、前記１つまたは複数の酵素を変性させるステップをさらに含む、項目１に記載の方法。
(項目３)
前記試料を、前記１つまたは複数の酵素、前記４つの標準ヌクレオチドタイプおよび３’－５’プルーフリーディング機能のない前記ポリメラーゼと接触させるステップをさらに含む、項目１または２に記載の方法。
(項目４)
前記試料を、前記１つまたは複数の酵素、前記４つの標準ヌクレオチドタイプおよび３’－５’プルーフリーディング機能のない前記ポリメラーゼと一緒に接触させる、項目３に記載の方法。
(項目５)
ステップ（ｂ）が、ステップ（ａ）よりも高い温度で実施される、前記項目のいずれかに記載の方法。
(項目６)
ステップ（ａ）が、周囲温度で実施され、ステップ（ｂ）が、６０℃を超える温度で実施される、項目５に記載の方法。
(項目７)
前記１つまたは複数の酵素が、５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を有するポリメラーゼである、前記項目のいずれかに記載の方法。
(項目８)
３’－５’プルーフリーディング機能のない前記ポリメラーゼが、熱安定性ポリメラーゼであり、前記方法が、ステップ（ａ）の後、前記試料の温度を上げるステップであって、５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を有する前記ポリメラーゼを不活化するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目９)
（ｅ）前記アダプターにライゲーションされた前記核酸を増幅するステップと；（ｆ）前記核酸を分析するステップとをさらに含む、前記項目のいずれかに記載の方法。
(項目１０)
前記試料を、前記ライゲーションするステップでの前記３’末端へのヌクレオチドの非鋳型特異的付加を受けなかった平滑末端化二本鎖核酸とライゲーションする少なくとも部分的に二本鎖の平滑末端化アダプターと接触させるステップをさらに含む、前記項目のいずれかに記載の方法。
(項目１１)
５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を有する前記ポリメラーゼが、Ｔ４ポリメラーゼまたはクレノウ大断片である、項目７に記載の方法。
(項目１２)
３’－５’プルーフリーディング機能のない前記ポリメラーゼが、Ｔａｑポリメラーゼである、前記項目のいずれかに記載の方法。
(項目１３)
少なくともステップ（ａ）～（ｄ）が、単一チューブで実施される、前記項目のいずれかに記載の方法。
(項目１４)
少なくともステップ（ａ）～（ｄ）では、前記試料から成分が除去されない、前記項目のいずれかに記載の方法。
(項目１５)
ステップ（ａ）～（ｅ）が、単一チューブで実施される、項目９に記載の方法。
(項目１６)
単一ヌクレオチドＴを有する少なくとも部分的に二本鎖のアダプターの単一ヌクレオチドＣを有するものに対するモル比が、４：１～２：１である、前記項目のいずれかに記載の方法。
(項目１７)
平滑末端化アダプターの尾部付加アダプターに対するモル比が、１：５～１：５００である、項目１６に記載の方法。
(項目１８)
前記試料中の前記二本鎖核酸の少なくとも７０％が、アダプターにつながっている、前記項目のいずれかに記載の方法。
(項目１９)
前記試料中の利用可能な二本鎖核酸の少なくとも７０％が分析される、項目９に記載の方法。
(項目２０)
ステップ（ｆ）が、前記アダプターにライゲーションされている前記核酸をシーケンシングすることを含む、項目９に記載の方法。
(項目２１)
前記シーケンシングすることで、ステップ（ｃ）または（ｄ）においてオーバーハングを形成したヌクレオチドをシーケンシングする、項目２０に記載の方法。
(項目２２)
二本鎖ＤＮＡをアダプタータグ付きＤＮＡに変換する方法であって、
（ａ）二本鎖ＤＮＡ分子の集団を少なくとも部分的に二本鎖のアダプターの集団と接触させるステップであって、
（ｉ）二本鎖ＤＮＡ分子の前記集団が、単一ヌクレオチドＡオーバーハングを含むＤＮＡ分子および単一ヌクレオチドＧオーバーハングを含むＤＮＡ分子を含み、単一ヌクレオチドＡオーバーハングは、前記集団中で単一ヌクレオチドＧオーバーハングよりも豊富であり（例えば、１０倍、１００倍、１０００倍）、
（ｉｉ）少なくとも部分的に二本鎖のアダプターの前記集団が、単一ヌクレオチドＴオーバーハングを含むアダプターおよび単一ヌクレオチドＣオーバーハングを含むアダプターを含む、ステップと；
（ｂ）前記アダプターを前記ＤＮＡ分子にライゲーションするステップであって、これによりアダプタータグ付きＤＮＡを生成するステップと
を含む、方法。
(項目２３)
（ｉ）二本鎖ＤＮＡ分子の前記集団が、単一ヌクレオチドＣオーバーハングを含むＤＮＡ分子、単一ヌクレオチドＴオーバーハングを含むＤＮＡ分子および平滑末端のうちの少なくとも１つをさらに含み、
（ｉｉ）少なくとも部分的に二本鎖のアダプターの前記集団が、単一ヌクレオチドＧオーバーハングを含むアダプター、単一ヌクレオチドＡオーバーハングを含むアダプターおよび平滑末端のうちの少なくとも１つをさらに含む、項目２２に記載の方法。
(項目２４)
前記少なくとも部分的に二本鎖のアダプターが、ＮＧＳ（「次世代シーケンシング」）プライマー結合部位およびＤＮＡバーコードを含む、項目２２または２３に記載の方法。
(項目２５)
前記少なくとも部分的に二本鎖のアダプターの前記集団が、複数の異なるＤＮＡバーコードを含む、項目２２から２５のいずれか一項に記載の方法。
(項目２６)
二本鎖ＤＮＡ分子の両末端に付着可能なバーコード組合せの数が、前記集団中で二本鎖ＤＮＡ分子の数よりも少なく、例えば、５～１０，０００の間の異なる組合せである、項目２５に記載の方法。
(項目２７)
試料インデックスバーコードを含む増幅プライマーおよびフローセル支持体に固定されたオリゴヌクレオチドにハイブリダイズするように適合されたヌクレオチド配列を使用して前記アダプタータグ付きＤＮＡを増幅するステップ
をさらに含む、項目２４に記載の方法。
(項目２８)
前記アダプターが、Ｙ型アダプターである、項目２２から２７のいずれか一項に記載の方法。
(項目２９)
前記試料が、体液試料である、前記項目のいずれかに記載の方法。
(項目３０)
前記試料が、全血、血清、または血漿である、項目２９に記載の方法。
(項目３１)
核酸集団が、無細胞核酸集団、好ましくは無細胞ＤＮＡである、項目２２から３０のいずれか一項に記載の方法。
(項目３２)
前記試料が、がんを有すると疑われる対象由来である、前記項目のいずれかに記載の方法。
(項目３３)
前記分析するステップが、体細胞または生殖系列バリアントを検出する、項目９に記載の方法。
(項目３４)
前記分析するステップが、コピー数変異を検出する、項目９に記載の方法。
(項目３５)
前記分析するステップが、単一ヌクレオチド変異（ＳＮＶ）を検出する、項目９に記載の方法。
(項目３６)
前記項目のいずれかに記載の方法により生成される適合された核酸の集団であって、複数の核酸分子を含み、そのそれぞれが、核酸断片とアダプターの間にＡ／ＴまたはＧ／Ｃ塩基対を有するバーコードを含むアダプターが両側に隣接している前記核酸断片を含む、集団。
(項目３７)
前記複数の核酸分子が、少なくとも１００，０００分子である、項目３６に記載の集団。
(項目３８)
Ａ／Ｔ塩基対のＧ／Ｃ塩基対に対する比が、２：１～４：１の間である、項目３６または３７に記載の集団。
(項目３９)
前記集団中の核酸分子の少なくとも９９％が、異なるバーコードを有するアダプターが隣接している核酸断片を有する、項目３６から３８のいずれか一項に記載の集団。
(項目４０)
それぞれＴおよびＣ単一ヌクレオチド３’尾部を有する少なくとも部分的に二本鎖のアダプターであって、前記尾部を除いて互いに同一であるアダプターの対を含むキット。
(項目４１)
前記アダプターが、配列番号１および２、ならびに３および２のオリゴヌクレオチドを含むＹ型アダプターである、項目４０に記載のキット。
(項目４２)
Ｔ４ポリメラーゼまたはクレノウ大断片、およびＴａｑポリメラーゼ、ならびに４つの標準ヌクレオチドタイプをさらに含む、項目４０または４１に記載のキット。

Claims

分析のために核酸を調製する方法であって、
（ａ）５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を提供する１つまたは複数の酵素ならびに４つの標準ヌクレオチドタイプの作用により試料中の一本鎖オーバーハングを有する二本鎖核酸を平滑末端とするステップであって、５’末端を有する一本鎖オーバーハングが、前記ポリメラーゼ活性による相補鎖の伸長のための鋳型として働き、３’末端を有する一本鎖オーバーハングが、前記プルーフリーディング活性により消化されて平滑末端化核酸を生じる、ステップと、
（ｂ）前記平滑末端化核酸を前記試料の他の成分から分離せずに、３’－５’プルーフリーディング機能のないポリメラーゼの作用により前記平滑末端化核酸の末端に尾部を付加するステップであって、これにより平滑末端化核酸の３’末端へのヌクレオチドの非鋳型特異的付加が実施され、Ａが優先的に、次にＧが優先的に、次にＣまたはＴが付加される、ステップと；
（ｃ）ステップ（ｂ）の前記核酸を３’末端に単一ヌクレオチドＴオーバーハングを有する少なくとも部分的に二本鎖のアダプターおよび３’末端に単一ヌクレオチドＣオーバーハングを有する少なくとも部分的に二本鎖のアダプターにライゲーションするステップと；
を含む、方法。
ステップ（ａ）の後、前記１つまたは複数の酵素を変性させるステップをさらに含む、請求項１に記載の方法。
前記試料を、前記１つまたは複数の酵素、前記４つの標準ヌクレオチドタイプおよび３’－５’プルーフリーディング機能のない前記ポリメラーゼと接触させるステップをさらに含み、前記試料を、前記１つまたは複数の酵素、前記４つの標準ヌクレオチドタイプおよび３’－５’プルーフリーディング機能のない前記ポリメラーゼと一緒に接触させる、請求項１または２に記載の方法。
ステップ（ｂ）が、ステップ（ａ）よりも高い温度で実施され、ステップ（ａ）が、周囲温度で実施され、ステップ（ｂ）が、６０℃を超える温度で実施される、請求項１から３のいずれか一項に記載の方法。
（ｉ）前記１つまたは複数の酵素が、５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を有するポリメラーゼであり、５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を有する前記ポリメラーゼが、Ｔ４ポリメラーゼまたはクレノウ大断片であり、および／または
（ｉｉ）３’－５’プルーフリーディング機能のない前記ポリメラーゼが、熱安定性ポリメラーゼであり、前記方法が、ステップ（ａ）の後、前記試料の温度を上げるステップであって、５’－３’ポリメラーゼ活性および３’－５’プルーフリーディング活性を提供する前記１つまたは複数の酵素を不活化するステップをさらに含む、
請求項１から４のいずれか一項に記載の方法。
（ｄ）前記アダプターにライゲーションされた前記核酸を増幅するステップと；（ｅ）前記核酸を分析するステップとをさらに含み、
（ｉ）ステップ（ａ）～（ｄ）が、単一チューブで実施されるか、
（ｉｉ）前記試料中の利用可能な二本鎖核酸の少なくとも７０％が分析されるか、
（ｉｉｉ）ステップ（ｅ）が、前記アダプターにライゲーションされている前記核酸をシーケンシングすることを含み、前記シーケンシングすることで、ステップ（ｃ）においてオーバーハングを形成したヌクレオチドをシーケンシングするか、
（ｉｖ）前記分析するステップが、体細胞または生殖系列バリアントを検出するか、
（ｖ）前記分析するステップが、コピー数変異を検出するか、または
（ｖｉ）前記分析するステップが、単一ヌクレオチド変異（ＳＮＶ）を検出する、
請求項１から５のいずれか一項に記載の方法。
前記試料を、前記ステップ（ｂ）での前記３’末端へのヌクレオチドの非鋳型特異的付加を受けなかった平滑末端化二本鎖核酸とライゲーションする少なくとも部分的に二本鎖の平滑末端化アダプターと接触させるステップをさらに含む、請求項１から６のいずれか一項に記載の方法。
（ｉ）３’－５’プルーフリーディング機能のない前記ポリメラーゼが、Ｔａｑポリメラーゼであるか、
（ｉｉ）少なくともステップ（ａ）～（ｃ）が、単一チューブで実施されるか、
（ｉｉｉ）少なくともステップ（ａ）～（ｃ）では、前記試料から成分が除去されないか、
（ｉｖ）単一ヌクレオチドＴを有する少なくとも部分的に二本鎖のアダプターの単一ヌクレオチドＣを有するものに対するモル比が、４：１～２：１であり、平滑末端化アダプターの尾部付加アダプターに対するモル比が、１：５～１：５００であるか、および／または
（ｖ）前記試料中の前記二本鎖核酸の少なくとも７０％が、アダプターにつながっている、
請求項１から７のいずれか一項に記載の方法。
二本鎖ＤＮＡをアダプタータグ付きＤＮＡに変換する方法であって、
（ａ）二本鎖ＤＮＡ分子の集団を少なくとも部分的に二本鎖のアダプターの集団と接触させるステップであって、
（ｉ）二本鎖ＤＮＡ分子の前記集団が、単一ヌクレオチドＡオーバーハングを含むＤＮＡ分子および単一ヌクレオチドＧオーバーハングを含むＤＮＡ分子を含み、単一ヌクレオチドＡオーバーハングは、前記集団中で単一ヌクレオチドＧオーバーハングよりも豊富であり（例えば、１０倍、１００倍、１０００倍）、
（ｉｉ）少なくとも部分的に二本鎖のアダプターの前記集団が、単一ヌクレオチドＴオーバーハングを含むアダプターおよび単一ヌクレオチドＣオーバーハングを含むアダプターを含む、ステップと；
（ｂ）前記アダプターを前記ＤＮＡ分子にライゲーションするステップであって、これによりアダプタータグ付きＤＮＡを生成するステップと
を含む、方法。
（ｉ）二本鎖ＤＮＡ分子の前記集団が、単一ヌクレオチドＣオーバーハングを含むＤＮＡ分子、単一ヌクレオチドＴオーバーハングを含むＤＮＡ分子および平滑末端のうちの少なくとも１つをさらに含み、
（ｉｉ）少なくとも部分的に二本鎖のアダプターの前記集団が、単一ヌクレオチドＧオーバーハングを含むアダプター、単一ヌクレオチドＡオーバーハングを含むアダプターおよび平滑末端のうちの少なくとも１つをさらに含む、請求項９に記載の方法。
前記少なくとも部分的に二本鎖のアダプターが、ＮＧＳ（「次世代シーケンシング」）プライマー結合部位およびＤＮＡバーコードを含み、
試料インデックスバーコードを含む増幅プライマーおよびフローセル支持体に固定されたオリゴヌクレオチドにハイブリダイズするように適合されたヌクレオチド配列を使用して前記アダプタータグ付きＤＮＡを増幅するステップ
をさらに含む、請求項９または１０に記載の方法。
前記少なくとも部分的に二本鎖のアダプターの前記集団が、複数の異なるＤＮＡバーコードを含み、二本鎖ＤＮＡ分子の両末端に付着可能なバーコード組合せの数が、前記集団中で二本鎖ＤＮＡ分子の数よりも少なく、例えば、５～１０，０００の間の異なる組合せである、請求項９から１１のいずれか一項に記載の方法。
（ｉ）前記アダプターが、Ｙ型アダプターであるか、および／または
（ｉｉ）二本鎖ＤＮＡ分子の前記集団が、無細胞核酸集団、好ましくは無細胞ＤＮＡである、
請求項９から１２のいずれか一項に記載の方法。
前記試料が、体液試料であり、前記試料が、全血、血清、または血漿である、請求項１から１３のいずれか一項に記載の方法。
前記試料が、がんを有すると疑われる対象由来である、請求項１から１４のいずれか一項に記載の方法。