JP2023535636A

JP2023535636A - 核酸解析のための組成物および方法

Info

Publication number: JP2023535636A
Application number: JP2023506164A
Authority: JP
Inventors: シャンカーバラスブラマニアン，; イェンスフルグレイブ，; ワルラジシンゴサル，; ジョアンナドーンホルブルック，; シドンリウ，; デイビッドモーリー，; オリバーネントウィッチ，; トビアスオスト，; マイケルスチュワード，; アルバートビレラ，; ニコラスジェイムズウォーカー，; シロンユー，; ヘレンレイチェルビグネル，; リタサントサン－ベント，
Original assignee: ケンブリッジエピジェネティックスリミテッド
Priority date: 2020-07-30
Filing date: 2021-07-29
Publication date: 2023-08-18
Also published as: WO2022023753A1; US20220298551A1; US20220290215A1; IL300238A; US11608518B2; KR20230083269A; AU2021319150A1; EP4083231A1; CN116323977A; CA3187549A1; MX2023001142A; EP4034676A1; US20240076720A1

Abstract

ポリヌクレオチドにおける塩基を決定するための方法、システム、および組成物が本明細書において提供される。様々な態様では、本明細書において示される方法、システム、および組成物は、例えば、液体生検試料に由来するか、または塩基が低頻度突然変異であるポリヌクレオチド分子の４塩基、５塩基、または６塩基シーケンシングを実施するのに有用である。本明細書は、既存の技術に対して核酸シーケンシングの効率と精度の両方を有意に増加させ得る方法、システム、および組成物を開示する。

Description

相互参照
本出願は、２０２０年７月３０日に出願された米国仮出願第６３／０５８，７１２号、２０２０年８月４日に出願された米国仮特許出願第６３／０６１，０９３号、２０２０年１０月２６日に出願された米国仮特許出願第６３／１０５，８６０号、２０２０年１０月２８日に出願された米国仮特許出願第６３／１０６，５６６号、２０２１年２月２４日に出願された米国仮特許出願第６３／１５２，９７６号、２０２１年４月２２日に出願された米国仮特許出願第６３／１７８，３８６号、２０２１年６月１５日に出願された米国仮特許出願第６３／２１０，９２７号、２０２１年６月１８日に出願された米国仮特許出願第６３／２１２，５００号、２０２１年６月２２日に出願された米国仮特許出願第６３／２１３，６２６号、２０２１年６月２８日に出願された米国仮特許出願第６３／２１５，７５２号に関連し、これらの出願はそれぞれ参照によりすべての目的で本明細書に組み込まれる。

要旨
様々な実施形態では、方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、シーケンシングを使用して、フォワードポリヌクレオチドの座位（ｌｏｃｕｓ）における第１の塩基の第１のアイデンティティーおよび同族ポリヌクレオチドの対応する座位における、またはその近位にある第２の塩基の第２のアイデンティティーを決定するステップと、実行された場合に、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーに少なくとも部分的に基づいて、フォワードポリヌクレオチドの座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップとを含む。一部の場合には、第２の塩基は、同族ポリヌクレオチドの対応する座位にある。一部の場合には、第２の塩基は、同族ポリヌクレオチドの対応する座位の近位にある。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは連結されている。方法の一部の実施形態では、シーケンシング前のいずれの時点でも、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、（ｉ）ヘアピンによって共有結合により連結されているか、（ｉｉ）ワトソン－クリック型の塩基対合によって二本鎖ポリヌクレオチドとして連結されているか、（ｉｉｉ）それぞれバーコードに連結されているか、または（ｉｖ）これらの任意の組合せである。一部の場合には、フォワードポリヌクレオチドは、相補的デオキシリボ核酸（ｃＤＮＡ）分子またはそのアンプリコンを含む。一部の場合には、方法は、ＲＮＡヌクレオチドを、逆転写酵素、その生物学的に活性な断片、またはその誘導体と接触させて、フォワードポリヌクレオチドを生成するステップをさらに含む。一部の場合には、元のポリヌクレオチドは、対象から得られた試料から単離されたデオキシリボ核酸（ＤＮＡ）ポリヌクレオチドを含む。一部の場合には、元のポリヌクレオチドは、無細胞ＤＮＡ（ｃｆＤＮＡ）ポリヌクレオチドを含む。一部の場合には、フォワードポリヌクレオチドは、元のポリヌクレオチドまたはその一部である。一部の場合には、フォワードポリヌクレオチドは、元のポリヌクレオチドのアンプリコンコピーである。第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびチミン、チミンおよびシトシン、チミンおよびグアニン、またはチミンおよびチミンのいずれかであると決定された場合、真の塩基の値はミスコールであると決定される。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、真の塩基の値はアデニンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、真の塩基の値はシトシンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、グアニンおよびシトシンであると決定された場合、真の塩基の値はグアニンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、真の塩基の値はチミンである。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１，０００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１０，０００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１００，０００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１，０００，０００分の１以下である。一部の場合には、第２の塩基の第２のアイデンティティーを決定するステップは、リードポリヌクレオチドをシーケンシングすることを含み、リードポリヌクレオチドは同族ポリヌクレオチドの同族アンプリコンである。一部の場合には、参照核酸配列、シーケンシング中に生じたデータをアラインする前に、真の塩基の値が決定される。一部の場合には、試料が得られた対象を含む集団において０．１％以下の頻度を有する突然変異は、４５０倍以下、５００倍以下、７００倍以下、または１０００倍以下の座位カバレッジを使用して、少なくとも９０％の感度で元のポリヌクレオチドの座位において検出される。一部の場合には、本方法は、元のポリヌクレオチドまたはその誘導体に関して１つまたは複数の化学反応または酵素反応を行うことによって、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む。一部の場合には、本方法は、脱アミノ化反応を行うことによって、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む。一部の場合には、脱アミノ化反応は、デアミナーゼを用いて行われる。一部の場合には、デアミナーゼは、ＡＰＯＢＥＣまたはその断片である。一部の場合には、脱アミノ化反応は、ヘリカーゼまたはその断片の存在下で行われる。

様々な実施形態では、方法は、（ａ）フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、（ｂ）フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドをバイサルファイトと接触させるステップと、（ｃ）シーケンシングを使用して、フォワードポリヌクレオチドの座位における第１の塩基の第１のアイデンティティーおよび同族ポリヌクレオチドの対応する座位における、またはその近位にある第２の塩基の第２のアイデンティティーを決定するステップと、（ｄ）実行された場合に、第１の塩基のアイデンティティーおよび第２の塩基のアイデンティティーに少なくとも部分的に基づいて、フォワードポリヌクレオチドの座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップとを含む。一部の場合には、第２の塩基は、同族ポリヌクレオチドの対応する座位にある。一部の場合には、第２の塩基は、同族ポリヌクレオチドの対応する座位の近位にある。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップは、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドをバイサルファイトと接触させるステップの前に実施される。一部の場合には、ＤＮＡメチルトランスフェラーゼ活性を有する実体は、ＤＮＡ（シトシン－５）－メチルトランスフェラーゼ１（ＤＮＭＴ１）またはＤＮＭＴ５である。一部の場合には、フォワードポリヌクレオチドは、５－メチルシトシン、５－ヒドロキシメチルシトシン、または両方を含む。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、ワトソン－クリック型の塩基対合によって連結されている。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、ヘアピン、バーコード、または両方によってさらに連結されている。一部の場合には、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップの後に、同族ポリヌクレオチドは、必要に応じて５－メチルシトシンを含む。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびシトシン、チミンおよびシトシン、またはチミンおよびチミンのいずれかであると決定された場合、真の塩基の値はミスコールであると決定される。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、真の塩基の値はアデニンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、真の塩基の値はシトシンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、真の塩基の値はグアニンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、真の塩基の値はチミンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、真の塩基の値はメチル化されたシトシンである。一部の場合には、参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、真の塩基の値が決定される。一部の場合には、本方法は、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを使用して、化学または酵素反応を行うステップをさらに含む。

様々な実施形態では、方法は、（ａ）フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、（ｂ）フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップと、（ｃ）シーケンシングを使用して、フォワードポリヌクレオチドの座位における第１の塩基の第１のアイデンティティーおよび同族ポリヌクレオチドの対応する座位における、またはその近位にある第２の塩基の第２のアイデンティティーを決定するステップと、（ｄ）実行された場合に、第１の塩基のアイデンティティーおよび第２の塩基のアイデンティティーに少なくとも部分的に基づいて、フォワードポリヌクレオチドの座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップとを含む。一部の場合には、第２の塩基は、同族ポリヌクレオチドの対応する座位にある。一部の場合には、第２の塩基は、同族ポリヌクレオチドの対応する座位の近位にある。一部の場合には、酸化剤は金属酸化物である。一部の場合には、酸化剤はルテニウム酸塩である。一部の場合には、酸化剤はルテニウム酸カリウムである。一部の場合には、酸化剤はメチルシトシンジオキシゲナーゼである。一部の場合には、フォワードポリヌクレオチドは、５－メチルシトシン、５－ヒドロキシメチルシトシン、または両方を含む。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、ワトソン－クリック型の塩基対合によって連結されている。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、ヘアピン、バーコード、または両方によってさらに連結されている。一部の場合には、方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む。一部の場合には、ＤＮＡメチルトランスフェラーゼ活性を有する実体は、ＤＮＡ（シトシン－５）－メチルトランスフェラーゼ１（ＤＮＭＴ１）またはＤＮＡ（シトシン－５）－メチルトランスフェラーゼ５（ＤＮＭＴ５）から選択される。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップを含み、このステップは、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップの後に実施される。一部の場合には、本方法は、フォワードポリヌクレオチドおよび必要に応じて同族ポリヌクレオチドを脱アミノ化剤と接触させるステップをさらに含む。一部の場合には、脱アミノ化剤はデアミナーゼである。一部の場合には、デアミナーゼは、ＡＰＯＢＥＣ、またはその断片である。一部の場合には、本方法は、フォワードポリヌクレオチドおよび必要に応じて同族ポリヌクレオチドをヘリカーゼと接触させるステップをさらに含む。一部の場合には、脱アミノ化剤はバイサルファイトである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびシトシン、チミンおよびシトシン、またはチミンおよびチミンのいずれかであると決定された場合、真の塩基の値はミスコールであると決定される。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、真の塩基の値はアデニンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、真の塩基の値はシトシンまたは５－ヒドロキシメチルシトシン（５ｈｍＣ）である。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、真の塩基の値はグアニンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、真の塩基の値はチミンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、真の塩基の値は５－メチルシトシン（５ｍＣ）である。一部の場合には、参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、真の塩基の値が決定される。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１，０００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１０，０００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１００，０００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１，０００，０００分の１以下である。一部の場合には、本方法は、元のポリヌクレオチドまたはその誘導体に関して１つまたは複数の化学反応または酵素反応を行うことによって、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップを含む。

様々な実施形態では、方法は、（ａ）フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、（ｂ）フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを、５－ヒドロキシメチルシトシン（５ｈｍＣ）を特異的にグリコシル化する薬剤と接触させるステップと、（ｃ）シーケンシングを使用して、フォワードポリヌクレオチドの座位における第１の塩基の第１のアイデンティティーおよび同族ポリヌクレオチドの対応する座位における、またはその近位にある第２の塩基の第２のアイデンティティーを決定するステップと、（ｄ）実行された場合に、第１の塩基のアイデンティティーおよび第２の塩基のアイデンティティーに少なくとも部分的に基づいて、フォワードポリヌクレオチドの座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップとを含む。一部の場合には、第２の塩基は、同族ポリヌクレオチドの対応する座位にある。一部の場合には、第２の塩基は、同族ポリヌクレオチドの対応する座位の近位にある。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む。一部の場合には、ＤＮＡメチルトランスフェラーゼ活性を有する実体は、ＤＮＡ（シトシン－５）－メチルトランスフェラーゼ１（ＤＮＭＴ１）またはＤＮＡ（シトシン－５）－メチルトランスフェラーゼ５（ＤＮＭＴ５）から選択される。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップは、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを、５－ヒドロキシメチルシトシン（５ｈｍＣ）を特異的にグリコシル化する薬剤と接触させるステップの後に実施される。一部の場合には、本方法は、フォワードポリヌクレオチドおよび必要に応じて同族ポリヌクレオチドを脱アミノ化剤と接触させるステップをさらに含む。一部の場合には、脱アミノ化剤はデアミナーゼである。一部の場合には、脱アミノ化剤は、ＡＰＯＢＥＣ、またはその断片である。一部の場合には、本方法は、フォワードポリヌクレオチドおよび必要に応じて同族ポリヌクレオチドをヘリカーゼと接触させるステップをさらに含む。一部の場合には、脱アミノ化剤はバイサルファイトである。一部の場合には、本方法は、フォワードポリヌクレオチドおよび必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップをさらに含む。一部の場合には、酸化剤はメチルシトシンジオキシゲナーゼである。一部の場合には、メチルシトシンジオキシゲナーゼは、テンイレブントランスロケーション（ＴＥＴ）酵素、またはその誘導体である。一部の場合には、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップは、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップの後に実施される。一部の場合には、ＤＮＡメチルトランスフェラーゼ活性を有する実体は、ＤＮＡ（シトシン－５）－メチルトランスフェラーゼ１（ＤＮＭＴ１）またはＤＮＡ（シトシン－５）－メチルトランスフェラーゼ５（ＤＮＭＴ５）から選択される。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを５－ヒドロキシメチルシトシン（５ｈｍＣ）を特異的にグリコシル化する薬剤と接触させるステップをさらに含む。一部の場合には、５ｈｍＣを特異的にグリコシル化する薬剤は、β－グルコシルトランスフェラーゼである。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、５ｈｍＣを特異的にグリコシル化する薬剤と接触させるステップは、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップの後に実施される。一部の場合には、本方法は、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドをデアミナーゼと接触させるステップをさらに含む。一部の場合には、デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素（ＡＰＯＢＥＣ）、二本鎖ＤＮＡデアミナーゼ、またはこれらの断片から選択される。一部の場合には、本方法は、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドをＡＰＯＢＥＣと前記接触させるステップの前に、フォワードポリヌクレオチドおよび同族ポリヌクレオチドの１つまたは複数の座位が連結されないようにフォワードポリヌクレオチドおよび同族ポリヌクレオチドを処理するステップを含む。一部の場合には、処理するステップは、第１のポリヌクレオチドまたはその一部を、第２のポリヌクレオチドまたはその一部から分離することを含む。一部の場合には、前記分離することは、フォワードポリヌクレオチドおよび同族ポリヌクレオチドをヘリカーゼと接触させることを含む。一部の場合には、前記処理するステップは、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを一本鎖ＤＮＡ結合タンパク質（ＳＳＢ）と接触させることを含む。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、チミンおよびシトシン、チミンおよびチミン、それぞれ、シトシンおよびグアニンに先行されない場合のグアニンおよびシトシン、グアニンおよびシトシンが後続しない場合のシトシンおよびグアニン、またはそれぞれグアニンおよびチミンが後続しない場合のシトシンおよびグアニンのいずれかであると決定された場合、真の塩基の値はミスコールであると決定される。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、真の塩基の値はアデニンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、真の塩基の値はシトシンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、真の塩基の値はグアニンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、真の塩基の値はチミンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーが、ＣｐＧコンテキストの、それぞれグアニンおよびシトシンが後続するシトシンおよびグアニンであると決定された場合、真の塩基の値は５－メチルシトシン（５ｍＣ）である。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、ＣｐＧコンテキストの、それぞれグアニンおよびチミンが後続するシトシンおよびグアニンであると決定された場合、真の塩基の値は５－ヒドロキシメチルシトシン（５ｈｍＣ）である。一部の場合には、参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、真の塩基の値が決定される。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを還元剤と接触させるステップをさらに含む。一部の場合には、前記還元剤は、ボランまたはボランの誘導体である。一部の場合には、前記還元剤は、ピリジンボラン、２－ピコリンボラン（ｐｉｃ－ボラン）、ボラン、ジボラン、ｔｅｒｔ－ブチルアミンボラン、アンモニアボラン、水素化ホウ素ナトリウム（ＮａＢＨ_４）、シアノ水素化ホウ素ナトリウム（ＮａＢＨ_３ＣＮ）、エチレンジアミンボラン、ジメチルアミンボラン、トリアセトキシ水素化ホウ素ナトリウム、モルホリンボラン、４－メチルモルホリンボラン、トリメチルアミンボラン、ジシクロヘキシルアミンボラン、もしくは水素化ホウ素リチウム（ＬｉＢＨ_４）、またはそれらの塩から選択される。一部の場合には、前記還元剤はピリジンボランである。一部の場合には、前記還元剤は、水素化アルミニウムリチウム、ナトリウムアマルガム、アマルガム、二酸化硫黄、ジチオン酸塩、チオ硫酸塩、ヨウ化物、過酸化水素、ヒドラジン、水素化ジイソブチルアルミニウム、シュウ酸、一酸化炭素、シアン化物、アスコルビン酸、ギ酸、ジチオトレイトール、ベータ－メルカプトエタノール、またはこれらの任意の組合せを含む。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、チミンおよびシトシン、チミンおよびチミン、それぞれ、チミンおよびグアニンに先行されない場合のグアニンおよびチミン、グアニンおよびシトシンが後続しない場合のチミンおよびグアニン、またはそれぞれグアニンおよびチミンが後続しない場合のチミンおよびグアニンのいずれかであると決定された場合、真の塩基の値はミスコールであると決定される。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、真の塩基の値はアデニンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、真の塩基の値はシトシンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、真の塩基の値はグアニンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、真の塩基の値はチミンである。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーが、ＣｐＧコンテキストの、それぞれグアニンおよびシトシンが後続するシトシンおよびグアニンであると決定された場合、真の塩基の値は５－メチルシトシン（５ｍＣ）である。一部の場合には、第１の塩基の第１のアイデンティティーおよび第２の塩基の第２のアイデンティティーがそれぞれ、ＣｐＧコンテキストの、それぞれグアニンおよびチミンが後続するシトシンおよびグアニンであると決定された場合、真の塩基の値は５－ヒドロキシメチルシトシン（５ｈｍＣ）である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１，０００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１０，０００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１００，０００分の１以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、１，０００，０００分の１以下である。一部の場合には、本方法は、（ａ）の前に、元のポリヌクレオチドまたはその誘導体に関して１つまたは複数の化学反応または酵素反応を行

うことによって、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む。一部の場合には、シーケンシング前のいずれの時点でも、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、（ｉ）ヘアピンによって共有結合により連結されているか、（ｉｉ）ワトソン－クリック型の塩基対合によって二本鎖ポリヌクレオチドとして連結されているか、（ｉｉｉ）それぞれバーコードに連結されているか、または（ｉｖ）これらの任意の組合せである。一部の場合には、本方法は、座位における真の塩基のバリアントの値に少なくとも部分的に基づいて、対象における状態を診断するステップをさらに含む。一部の場合には、状態はがんである。一部の場合には、がんは、肉腫、神経膠腫、腺腫、白血病、膀胱がん、乳がん、結腸直腸がん、子宮内膜がん、腎臓がん、肝臓がん、肺がん、黒色腫、非ホジキンリンパ腫、膵臓がん、前立腺がん、甲状腺がんから選択される。一部の場合には、状態は神経変性状態である。一部の場合には、神経変性状態は、アルツハイマー病、前頭側頭型認知症、筋萎縮性側索硬化症、パーキンソン病、脊髄小脳変性症、脊髄性筋萎縮症、レビー小体型認知症、またはハンチントン病から選択される。一部の場合には、シーケンシングは、マクサムギルバートシーケンシング、サンガーシーケンシング、またはハイスループットシーケンシングを含む。一部の場合には、ハイスループットシーケンシングは、次世代シーケンシングまたは第三世代シーケンシングを含む。一部の場合には、第三世代シーケンシングはロングリードシーケンシングである。

様々な実施形態では、方法は、（ａ）ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基を脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、（ｂ）前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、（ｃ）前記シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で前記シトシン塩基を同定するステップとを含む。一部の場合には、前記シーケンシングするステップは、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％の精度で前記シトシン塩基を同定するステップを含む。一部の場合には、脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の場合には、前記デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、もしくはその断片と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、もしくは少なくとも約９９％相同であるアミノ酸配列、またはその断片を含む。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。一部の場合には、本方法は、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得るステップを含む。一部の場合には、本方法は、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。一部の場合には、本方法は、前記フォワード鎖を前記リバース鎖から分離するステップをさらに含む。一部の場合には、本方法は、核酸伸長反応において前記フォワード鎖を使用して、前記二本鎖ポリヌクレオチドを生成するステップをさらに含む。一部の場合には、前記脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の場合には、前記デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、もしくはその断片と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、もしくは少なくとも約９９％相同であるアミノ酸配列、またはその断片を含む。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。一部の場合には、前記シトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である。一部の場合には、本方法は、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、前記その二本鎖の誘導体の少なくとも一部をシーケンシングし、前記シーケンシングデータを得るステップと、前記シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で前記シトシン塩基をシトシン塩基として同定するステップとを含む。一部の場合には、前記フォワード鎖はメチル化されたシトシン塩基を含み、前記方法は、（ｉ）前記メチル化されたシトシン塩基を含む前記フォワード鎖および（ｉｉ）前記シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応において前記フォワード鎖を使用するステップをさらに含む。一部の場合には、本方法は、前記メチル化されたシトシン塩基をグルコシル化されたヒドロキシメチルシトシン（hydroxymethylcystosine）に変換するステップをさらに含む。一部の場合には、前記メチル化されたシトシン塩基はメチルシトシン塩基であり、前記変換するステップは、前記メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の場合には、前記メチル化されたシトシン塩基はヒドロキシメチルシトシン（hydoxymethylcytosine）であり、前記変換するステップは、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の場合には、前記脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の場合には、前記デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含む。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。一部の場合には、本方法は、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得るステップを含む。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で前記メチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップを含む。

様々な実施形態では、方法は、（ａ）ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基を、デアミナーゼを用いて脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、（ｂ）前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、（ｃ）前記シーケンシングデータを処理して、前記シトシン塩基を同定するステップを含む。一部の場合には、本方法は、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングするステップをさらに含む。一部の場合には、前記デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片と少なくとも９０％相同であるアミノ酸配列を含む。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。一部の場合には、本方法は、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。一部の場合には、本方法は、前記フォワード鎖を前記リバース鎖から分離するステップをさらに含む。一部の場合には、前記分離するステップは、前記フォワード鎖を、前記二本鎖ポリヌクレオチドを生成する核酸伸長反応に供することを含む。一部の場合には、前記デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含む。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。一部の場合には、前記シトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である。一部の場合には、本方法は、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップを含み、前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得るステップを含む。一部の場合には、前記フォワード鎖はメチル化されたシトシン塩基を含み、前記分離するステップは、（ｉ）前記メチル化されたシトシン塩基を含む前記フォワード鎖および（ｉｉ）前記シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応において前記フォワード鎖を使用することを含む。一部の場合には、本方法は、前記メチル化されたシトシン塩基をグルコシル化されたヒドロキシメチルシトシンに変換するステップをさらに含む。一部の場合には、前記メチル化されたシトシン塩基はメチルシトシン塩基であり、前記変換するステップは、前記メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の場合には、前記メチル化されたシトシン塩基はヒドロキシメチルシトシンであり、前記変換するステップは、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の場合には、前記デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含む。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。一部の場合には、本方法は、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得るステップを含む。

様々な実施形態では、デアミナーゼ、ヘリカーゼ、およびパッケージ、およびその中の、前記キットを使用するための命令を含むキットが本明細書において提供される。一部の場合には、前記デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の場合には、キットは、メチルシトシンジオキシゲナーゼをさらに含む。一部の場合には、前記メチルシトシンジオキシゲナーゼは、テンイレブントランスロケーション（ＴＥＴ）酵素またはその断片を含む。一部の場合には、キットは、デオキシリボ核酸（ＤＮＡ）グルコシルトランスフェラーゼをさらに含む。一部の場合には、前記ＤＮＡグルコシルトランスフェラーゼは、ＤＮＡベータ－グルコシルトランスフェラーゼを含む。一部の場合には、キットは、ＤＮＡメチルトランスフェラーゼをさらに含む。一部の場合には、前記ＤＮＡメチルトランスフェラーゼは、ＤＮＡメチルトランスフェラーゼ１（ＤＮＭＴ１）を含む。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含む。一部の場合には、前記ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。

様々な実施形態では、方法は、（ａ）塩基（例えば、シトシン塩基）を含むポリヌクレオチドを、前記塩基を前記塩基に由来する変更された塩基に集合的に転換する１つまたは複数の試薬と接触させ、それによって、前記変更された塩基を含む修飾されたポリヌクレオチドを生成するステップと、（ｂ）前記変更された塩基を含む前記修飾されたポリヌクレオチドまたはその誘導体の少なくとも一部をシーケンシングして、３０倍以下、２５倍以下、２０倍以下、１５倍以下、または１０倍以下、５倍以下、または２倍以下のカバレッジを有するシーケンシングデータを得るステップと、（ｃ）前記シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で前記塩基を同定するステップを含む。一部の場合には、前記修飾されたポリヌクレオチドまたはその誘導体は、二本鎖ポリヌクレオチドである。一部の場合には、前記シーケンシングするステップは、前記二本鎖ポリヌクレオチドの両鎖の少なくとも一部をシーケンシングすることを含む。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で前記塩基を同定するステップを含む。一部の場合には、前記シトシン塩基はメチル化されたシトシン塩基である。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で前記メチル化された塩基をシトシンとして同定するステップをさらに含む。一部の場合には、前記１つまたは複数の試薬は、酸化剤を含む。一部の場合には、前記１つまたは複数の試薬はＤＮＡ－グルコシルトランスフェラーゼを含む。一部の場合には、前記１つまたは複数の試薬はデアミナーゼを含む。一部の場合には、前記１つまたは複数の試薬はヘリカーゼを含む。一部の場合には、前記１つまたは複数の試薬はＤＮＡメチルトランスフェラーゼを含む。一部の場合には、本方法は、前記ポリヌクレオチドを含むフォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。一部の場合には、本方法は、前記フォワード鎖を前記リバース鎖から分離するステップをさらに含む。一部の場合には、前記分離するステップは、前記フォワード鎖を、前記ポリヌクレオチドを含む二本鎖ポリヌクレオチドを生成する核酸伸長反応において使用することを含む。一部の場合には、前記メチル化された塩基はメチル化されたシトシン塩基である。一部の場合には、前記１つまたは複数の試薬はデアミナーゼおよびヘリカーゼを含む。一部の場合には、前記シーケンシングするステップは、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で前記メチル化されたシトシン塩基をシトシンとして同定するステップをさらに含む。一部の実施形態では、ポリヌクレオチドはポリヌクレオチドの集団に由来し、ここで、ポリヌクレオチドの集団におけるメチル化されたシトシン塩基の塩基頻度は、所与の座位において、７５％未満であるかもしくはそれに等しく、７０％未満であるかもしくはそれに等しく、６５％未満であるかもしくはそれに等しく、６０％未満であるかもしくはそれに等しく、５５％未満であるかもしくはそれに等しく、５０％未満であるかもしくはそれに等しく、４５％未満であるかもしくはそれに等しく、４０％未満であるかもしくはそれに等しく、３５％未満であるかもしくはそれに等しく、３０％未満であるかもしくはそれに等しく、２５％未満であるかもしくはそれに等しく、２０％未満であるかもしくはそれに等しく、１５％未満であるかもしくはそれに等しく、１０％未満であるかもしくはそれに等しく、７％未満であるかもしくはそれに等しく、５％未満であるかもしくはそれに等しく、３％未満であるかもしくはそれに等しく、または１％未満であるかもしくはそれに等しい、またはそれ未満である。

一部の場合には、前記メチル化されたシトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基を含む。一部の場合には、前記メチル化されたシトシン塩基はメチルシトシン塩基を含み、前記１つまたは複数の試薬は、酸化剤、ＤＮＡグルコシルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む。一部の場合には、前記メチル化されたシトシン塩基はヒドロキシメチルシトシン塩基を含み、前記１つまたは複数の試薬は、酸化剤、ＤＮＡグルコシルトランスフェラーゼ、メチルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む。一部の場合には、前記シーケンシングするステップは、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で前記メチル化されたシトシン塩基をメチルシトシンまたはヒドロキシメチルシトシンとして同定するステップをさらに含む。一部の場合には、前記ポリヌクレオチドは、ヘアピンによって共有結合により連結した鎖を含む二本鎖ポリヌクレオチドである。一部の場合には、前記フォワード鎖および前記リバース鎖は、ヘアピンによって共有結合により連結されている。

様々な実施形態では、方法は、（ａ）フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、（ｂ）フォワードポリヌクレオチドおよび同族ポリヌクレオチドをＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップと、（ｃ）フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップと、（ｄ）シーケンシングを使用して、フォワードポリヌクレオチドの座位における第１の塩基のバリアントのアイデンティティーおよび同族ポリヌクレオチドの対応する座位における第２の塩基のバリアントのアイデンティティーを決定するステップと、（ｅ）実行された場合に、第１の塩基のバリアントのアイデンティティーおよび第２の塩基のバリアントのアイデンティティーに少なくとも部分的に基づいて、フォワードポリヌクレオチドの座位に対応する元のポリヌクレオチドの座位における真の塩基のバリアントの値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップとを含む。一部の場合には、本方法は、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップを含み、このステップは、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップの後に実施される。一部の場合には、ＤＮＡメチルトランスフェラーゼ活性を有する実体は、ＤＮＭＴ１またはＤＮＭＴ５である。一部の場合には、前記酸化剤は、テンイレブントランスロケーション（ＴＥＴ）酵素である。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを還元剤と接触させるステップを含む。一部の場合には、前記還元剤は、ボランまたはボランの誘導体である。一部の場合には、前記還元剤は、ピリジンボラン、２－ピコリンボラン（ｐｉｃ－ボラン）、ボラン、ジボラン、ｔｅｒｔ－ブチルアミンボラン、アンモニアボラン、水素化ホウ素ナトリウム（ＮａＢＨ_４）、シアノ水素化ホウ素ナトリウム（ＮａＢＨ_３ＣＮ）、エチレンジアミンボラン、ジメチルアミンボラン、トリアセトキシ水素化ホウ素ナトリウム、モルホリンボラン、４－メチルモルホリンボラン、トリメチルアミンボラン、ジシクロヘキシルアミンボラン、もしくは水素化ホウ素リチウム（ＬｉＢＨ_４）、またはそれらの塩から選択される。一部の場合には、前記還元剤はピリジンボランである。一部の場合には、前記還元剤は、水素化アルミニウムリチウム、ナトリウムアマルガム、アマルガム、二酸化硫黄、ジチオン酸塩、チオ硫酸塩、ヨウ化物、過酸化水素、ヒドラジン、水素化ジイソブチルアルミニウム、シュウ酸、一酸化炭素、シアン化物、アスコルビン酸、ギ酸、ジチオトレイトール、ベータ－メルカプトエタノール、またはこれらの任意の組合せを含む。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップの前に、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップを含む。一部の場合には、酸化剤はルテニウム酸塩である。一部の場合には、酸化剤はルテニウム酸カリウムである。一部の場合には、第１の塩基および第２の塩基の決定されたアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、チミンおよびシトシン、チミンおよびチミン、それぞれ、チミンおよびグアニンに先行されない場合のグアニンおよびチミン、それぞれ、グアニンおよびシトシン、またはグアニンおよびチミンが後続しない場合のチミンおよびグアニンのいずれかである場合、真の塩基のバリアントの値はミスコールであると決定される。一部の場合には、第１および第２の塩基のバリアントのアイデンティティーがそれぞれアデニンおよびチミンである場合、真の塩基のバリアントの値はアデニンである。一部の場合には、第１および第２の塩基のバリアントのアイデンティティーがそれぞれシトシンおよびグアニンである場合、真の塩基のバリアントの値はシトシンである。一部の場合には、第１および第２の塩基のバリアントのアイデンティティーがそれぞれグアニンおよびシトシンである場合、真の塩基のバリアントの値はグアニンである。一部の場合には、第１および第２の塩基のバリアントのアイデンティティーがそれぞれチミンおよびアデニンである場合、真の塩基のバリアントの値はチミンである。一部の場合には、第１および第２の塩基のバリアントのアイデンティティーが、ＣｐＧコンテキストの、それぞれグアニンおよびチミンが後続するチミンおよびグアニンである場合、真の塩基のバリアントの値は５－メチルシトシン（５ｍＣ）である。一部の場合には、第１および第２の塩基のバリアントのアイデンティティーがそれぞれ、ＣｐＧコンテキストの、それぞれグアニンおよびシトシンが後続するチミンおよびグアニンである場合、真の塩基のバリアントの値は５－ヒドロキシメチルシトシン（５ｈｍＣ）である。一部の場合には、本方法は、座位における真の塩基のバリアントの値に少なくとも部分的に基づいて、対象における状態を診断するステップを含む。一部の場合には、状態はがんである。一部の場合には、がんは、肉腫、神経膠腫、腺腫、白血病、膀胱がん、乳がん、結腸直腸がん、子宮内膜がん、腎臓がん、肝臓がん、肺がん、黒色腫、非ホジキンリンパ腫、膵臓がん、前立腺がん、甲状腺がんから選択される。一部の場合には、状態は神経変性状態である。一部の場合には、神経変性状態は、アルツハイマー病、前頭側頭型認知症、筋萎縮性側索硬化症、パーキンソン病、脊髄小脳変性症、脊髄性筋萎縮症、レビー小体型認知症、またはハンチントン病から選択される。一部の場合には、シーケンシングは、マクサムギルバートシーケンシング、サンガーシーケンシング、またはハイスループットシーケンシングを含む。一部の場合には、ハイスループットシーケンシングは、次世代シーケンシングまたは第三世代シーケンシングを含む。一部の場合には、第三世代シーケンシングはロングリードシーケンシングである。

本開示の追加の態様および利点は、本開示の例示的な実施形態のみが示され、記載される以下の詳細な説明から当業者にとって容易に明らかになるであろう。理解されるように、本開示は、他の異なる実施形態についても可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な自明な点での修正が可能である。したがって、図面および明細書は、本質的に例示とみなされ、限定とみなされるべきではない。
参照による組込み

本明細書において言及されるすべての刊行物、特許、および特許出願は、それぞれ個々の刊行物、特許、または特許出願が参照により組み込まれることが具体的かつ個別に示された場合と同じ程度に参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が本明細書に含まれる本開示と矛盾する限り、本明細書が、任意のこのような矛盾する資料に対して優先するおよび／または上位にあることが意図される。

組成物および方法の新規特色は、添付の特許請求の範囲において詳細に示されている。本組成物および方法の特色および利点のより十分な理解は、組成物および方法の原理が利用されている説明的な実施形態を示す次の詳細な説明と、下に説明する添付の図面（本明細書において同様に「図（figure／FIG.）」）を参照することにより得られるであろう。

図１Ａおよび図１Ｂは、実施形態に従った、デオキシリボ核酸（ＤＮＡ）配列におけるシトシン、５－メチルシトシン（ｍＣ）および５－ヒドロキシメチルシトシン（ｈｍＣ）を区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化および脱アミノ化を用いることができる。図１Ａおよび図１Ｂは、実施形態に従った、デオキシリボ核酸（ＤＮＡ）配列におけるシトシン、５－メチルシトシン（ｍＣ）および５－ヒドロキシメチルシトシン（ｈｍＣ）を区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化および脱アミノ化を用いることができる。

図２Ａ、図２Ｂ、図２Ｃおよび図２Ｄは、実施形態に従った、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化、酸化、脱アミノ化、還元剤による処置、メチルトランスフェラーゼ（ＭＴ）による処置および／またはＳ－アデノシルメチオニン（ＳＡＭ）アナログによる処置を用いることができる。図２Ａ、図２Ｂ、図２Ｃおよび図２Ｄは、実施形態に従った、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化、酸化、脱アミノ化、還元剤による処置、メチルトランスフェラーゼ（ＭＴ）による処置および／またはＳ－アデノシルメチオニン（ＳＡＭ）アナログによる処置を用いることができる。図２Ａ、図２Ｂ、図２Ｃおよび図２Ｄは、実施形態に従った、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化、酸化、脱アミノ化、還元剤による処置、メチルトランスフェラーゼ（ＭＴ）による処置および／またはＳ－アデノシルメチオニン（ＳＡＭ）アナログによる処置を用いることができる。

図２Ａ、図２Ｂ、図２Ｃおよび図２Ｄは、実施形態に従った、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化、酸化、脱アミノ化、還元剤による処置、メチルトランスフェラーゼ（ＭＴ）による処置および／またはＳ－アデノシルメチオニン（ＳＡＭ）アナログによる処置を用いることができる。

図３は、実施形態に従った、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、酸化（例えば、ＫＲｕＯ_４酸化）、メチル化、例えば、オキシダーゼ（例えば、ＴＥＴ酵素）またはその断片を使用した酵素による修飾、および還元部分、例えば、ボラン（例えば、ピコリンボラン、ｐｉｃ－ボラン、２－ピコリン－ボラン、ｐｉｃ－ＢＨ_３）を用いることができる。

図４は、実施形態に従った、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、メチル化、例えば、オキシダーゼ（例えば、ＴＥＴ酵素）またはその断片を使用した酵素による修飾、および還元部分、例えば、ボラン（例えば、ピコリンボラン、ｐｉｃ－ボラン、２－ピコリン－ボラン、ｐｉｃ－ＢＨ_３）を用いることができる。

図５は、とりわけ、実施形態に従った、シーケンシングのためにＤＮＡ配列を調製するための方法を描写する。

図６は、とりわけ、実施形態に従った、シトシン、ｍＣまたはｈｍＣを含むポリヌクレオチドの標的化された捕捉およびその後の処理を含む方法を描写する。

図７Ａは、とりわけ、実施形態に従った、２塩基シーケンシング解析および６文字シーケンシング解析と適合性である、シトシン（白い丸）、５－メチルシトシン（黒い丸）または５－ヒドロキシメチルシトシン（赤い丸）を含むポリヌクレオチドの標的化された捕捉およびその後の処理を描写する。図７Ｂは、とりわけ、実施形態に従った、ＩＩｓ型制限部位を有するビオチン化プローブを使用するための方法を描写する。

図８は、とりわけ、実施形態に従った、ビオチン化プローブを使用して、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別または同定するための改変された方法を描写する。

図９は、とりわけ、実施形態に従った、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための改変された方法、ならびに実験データセットを描写する。

図１０は、とりわけ、実施形態に従った、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法にタグメンテーションを組み込むための方法の例を描写する。

図１１は、とりわけ、実施形態に従った、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法にタグメンテーションを組み込むための方法の例を描写する。

図１２は、とりわけ、実施形態に従った、ローリングサークル増幅を使用したロングリードシーケンシングのための、ＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法の適応例を描写する。

図１３は、とりわけ、本明細書に提供されるＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法のための平均塩基コール精度のための計算を描写する。

図１４は、とりわけ、本明細書に提供されるＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法のための実験データおよび塩基コーリング精度を描写する。

図１５は、とりわけ、本明細書に提供されるＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法を使用して、ヒト小脳ゲノムＤＮＡ全ゲノム試料において同定された、塩基およびメチル化された塩基の出現パーセントを描写する。

図１６は、とりわけ、ＤＮＡ修飾の独立したおよび同時発生的な測定の技術的可変性の間の関係性を描写する。

図１７は、とりわけ、実施形態に従った、本明細書に提供されるＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法のためのＰＣＲを用いないワークフローを描写する。

図１８は、とりわけ、本明細書に提供されるＤＮＡ配列におけるシトシン、ｍＣおよびｈｍＣを区別および同定するための方法に先立つヘアピンライゲーション後に、プライマーが４塩基ゲノムにアニールすることを可能にし得る、単純な標的化を用いる方法を描写する。

図１９Ａ～図１９Ｅは、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。図１９Ａ～図１９Ｅは、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。図１９Ａ～図１９Ｅは、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。図１９Ａ～図１９Ｅは、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。

図２０Ａ～図２０Ｆは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。図２０Ａ～図２０Ｆは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。図２０Ａ～図２０Ｆは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。図２０Ａ～図２０Ｆは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。

図２０Ａ～図２０Ｆは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。

図２１は、実施形態に従った、ポリヌクレオチドの塩基の値の決定において作成された実験データを示す。

図２２は、実施形態に従った、特有の分子識別子（ＵＭＩ）の使用を含む、ポリヌクレオチドの塩基の値を決定する方法を示す。

図２３は、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。

図２４は、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。

図２５は、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。

図２６は、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。

図２７は、２塩基シーケンシング読み出し操作におけるハイスループットシーケンシングおよびその後の塩基コーリングの際に起こり得る置換エラーを描写する。

図２８は、ＮＡ２４３８５およびＮＡ２４６３１参照試料から得られ、バリアントコーリングのために使用される、シーケンシングデータの詳細を描写する。

図２９は、ＮＡ２４３８５およびＮＡ２４６３１参照試料由来のバリアントコーリングを評価するための性能測定基準例を描写する。

図３０は、ＮＡ２４３８５およびＮＡ２４６３１参照試料由来のバリアントコーリングの品質を評価するための性能測定基準例を描写する。

図３１は、ＮＡ２４３８５およびＮＡ２４６３１参照試料由来のバリアントコーリング結果を比較する性能測定基準例を描写する。

図３２は、ＮＡ２４３８５およびＮＡ２４６３１参照試料由来のバリアントコーリング結果を比較する性能測定基準例を描写する。

図３３Ａは、とりわけ、ＮＡ２４６３１およびＮＡ２４３８５参照試料について作成された、シーケンシングレーン構成、およびシーケンシングリードチャンク（１千万個のリード対からそれぞれなる）の数を描写する。図３３Ｂは、とりわけ、ＮＡ２４３８５およびＮＡ２４６３１参照試料の混合からのミックスイン（mix-in）試料の生成を描写する。

図３４は、とりわけ、ダウンサンプリングされた（down sampled）ＮＡ２４３８５試料から得られるシーケンシングデータのための性能測定基準例を描写する。

図３５は、とりわけ、ダウンサンプリングされたＮＡ２４３８５試料から得られるシーケンシングデータのための性能測定基準例を描写する。

図３６Ａは、ＮＡ２４３８５／ＮＡ２４６３１ミックスイン試料のシーケンシングから得られる偽陽性コールを描写する。図３６Ｂは、ＮＡ２４３８５およびＮＡ２４６３１試料のシーケンシングから得られるシングルトンエラーコールを描写する。

図３７は、２塩基シーケンシング塩基コーリング方法のエラー抑制態様を示す。

図３８は、ＡＰＯＢＥＣまたはその断片単独で脱アミノ化された正常対照ペアエンドライブラリーまたは２塩基シーケンシングライブラリーにおける偽陽性メチル化コーリングの率を示す。

図３９は、ＡＰＯＢＥＣ３Ａおよびヘリカーゼまたはそれらの断片の組合せを使用して脱アミノ化された２塩基シーケンシングライブラリーにおける偽陽性メチル化コールの抑制を示す。

図４０は、ＡＰＯＢＥＣ３Ａおよびヘリカーゼまたはそれらの断片の組合せを使用して脱アミノ化された２塩基シーケンシングライブラリーにおける偽陽性メチル化コールの抑制を示す。

図４１Ａは、ヘアピンアダプター（ウリジンを含有）にニックを生成するための、ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）およびＤＮＡグリコシラーゼ・リアーゼエンドヌクレアーゼＶＩＩＩの使用が関与するワークフロー例を描写する。図４１Ｂは、ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）およびＤＮＡグリコシラーゼ・リアーゼエンドヌクレアーゼＶＩＩＩの使用、ならびにウリジンを欠如する（ただし３’リン酸を有する）ヘアピンアダプターおよび５’リン酸を欠如する鋳型ＤＮＡの使用が関与しないワークフロー例を描写する。

図４２Ａは、ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）およびＤＮＡグリコシラーゼ・リアーゼエンドヌクレアーゼＶＩＩＩを用いたワークフロー（条件ａ）を使用して調製された試料からのライブラリー収量例を、これらが関与しないワークフロー（条件ｂ～ｄ）と比較して描写する。図４２Ｂは、ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）およびＤＮＡグリコシラーゼ・リアーゼエンドヌクレアーゼＶＩＩＩを用いたワークフロー（条件ａ）を使用して調製された試料からのライブラリー収量（塩基対単位）のサイズ例を、これらが関与しないワークフロー（条件ｂ～ｄ）と比較して描写する。

図４３は、シーケンシング前にＰＣＲ（１２サイクルのＰＣＲ）において回収されたライブラリーサイズ例を描写する。

図４４は、シーケンシング前にＰＣＲ（８サイクルのＰＣＲ）において回収されたライブラリーサイズ例を描写する。

図４５Ａ～図４５Ｃは、試料ゲノムにおける鎖レベルでのメチル化情報の同定および定量化に関与する操作の概観を描写する。図４５Ａは、参照ゲノムとのアライメントの第１の操作を示す。図４５Ｂは、エピジェネティックコード情報を含有する中間表現ファイルの生成が関与する次の操作を示す。図４５Ｃは、中間表現ファイルに含有されるエピジェネティック情報の定量化が関与する次の操作を示す。

図４６Ａ～図４６Ｃは、試料ゲノムにおける鎖レベルでのメチル化情報の同定および定量化に関与するさらなるワークフローを提供する。図４６Ａは、参照ゲノムと試料シーケンシングリードのアライメントファイルを生成するためのワークフローを示す。図４６Ｂは、エピジェネティックコード情報および鎖情報を含有する中間表現ファイルの生成における操作について詳述する。図４６Ｃは、中間表現ファイルに含有されるエピジェネティック情報の定量化のための詳細なワークフローを提供する。

図４７は、中間表現ファイルにおけるエピジェネティックコードおよび鎖情報の表現を描写する。

図４８は、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報の測定のためのワークフロー例の表現を描写する。

図４９は、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報の測定のためのワークフロー例の表現を描写する。

図５０は、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報の測定のためのワークフロー例の表現を描写する。

詳細な説明
組成物および方法の様々な実施形態が本明細書において示され、説明されてきたが、このような実施形態が例示としてのみ提供されることは、当業者にとって自明である。多数の変形、変更、および置換について、本組成物および方法から逸脱することなく、当業者は想到し得る。本明細書に記載の実施形態に対する様々な代替案が採用され得ることが理解されるべきである。

既存の技術に対して核酸シーケンシングの効率と精度の両方を有意に増加させ得る方法、システム、および組成物が本明細書に開示されている。例えば、本明細書に開示される２塩基シーケンシング方法およびシステムによって、（例えば、現在の技術を使用して、シーケンシングした塩基１，０００ごとに約１塩基の割合で生じ得る高品質置換エラーによって）シーケンシング中に導入されたエラーを回避することができる。対照的に、本明細書に開示される方法およびシステムは、例えば、２塩基シーケンシング方法およびシステムの内部論理比較を活用することによって、およそ１０，０００塩基のうち１塩基の割合の偽陽性率をもたらし得る。多くの場合には、例えば、参照ゲノムに対する個々のリードのアライメントの前に、シーケンシングリードにおけるミスコールされた塩基をスクリーニングする能力は、シーケンシングリードにおいて突然変異としてコールされる塩基が真の突然変異である（例えば、置換エラーなどから生じるミスコールと対照的に）という信頼度とリードのシーケンシング後解析の効率の両方を激しく増加させ得る。本明細書において示されている方法およびシステムから得られるこれらの利益は、核酸シーケンシングを用いる適用の全範囲に当てはまる。例えば、低頻度突然変異（例えば、０．１％またはそれより低い出現率を有する突然変異）の解析は、臨床、基礎科学、または応用科学の設定において既存の技術よりも１桁少ないリードカバレッジで同一感度にて完了し、コストと技術的複雑さを劇的に低減することができる。多くの場合には、本明細書において示されている２塩基シーケンシング方法およびシステムによって、例えば、シーケンシングエラー（例えば、シーケンシングから生じる置換エラー）が結果（例えば、一部の実施形態では、ミスコールの値を割り当てることができるエラーコード（例えば、図２０Ａ～２０Ｆに示されている）の形態で）からスクリーニングされるため、突然変異の検出力が改善される。多くの場合には、シーケンシングの稀な突然変異（例えば、（例えば、試料の元のポリヌクレオチドにおいて）突然変異の信頼度の高い同定を得るために必要とされる集団において０．０１％未満の割合で生じる突然変異）におけるカバレッジ深度は、本明細書において示されている２塩基シーケンシング方法およびシステムを使用して大いに低減され得る。したがって、コピー数の少ない試料供給源（例えば、臨床または前臨床末梢血試料などの液体生検）における稀な遺伝子突然変異の信頼度の高い解析が、本明細書に開示される方法およびシステムを使用して可能である。

一部の場合には、本明細書に開示される方法およびシステムは、５００倍以下のカバレッジ～５，０００倍のカバレッジで０．１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、５倍以下のカバレッジ～２５倍のカバレッジ、１０倍のカバレッジ～５０倍のカバレッジ、１００倍のカバレッジ～５００倍のカバレッジ、５００倍のカバレッジ～１，０００倍のカバレッジ、５００倍のカバレッジ～２，５００倍のカバレッジ、５００倍のカバレッジ～４，０００倍のカバレッジ、５００倍のカバレッジ～５，０００倍のカバレッジ、１，０００倍のカバレッジ～２，５００倍のカバレッジ、１，０００倍のカバレッジ～４，０００倍のカバレッジ、１，０００倍のカバレッジ～５，０００倍のカバレッジ、２，５００倍のカバレッジ～４，０００倍のカバレッジ、２，５００倍のカバレッジ～５，０００倍のカバレッジ、または４，０００倍のカバレッジ～５，０００倍のカバレッジで０．１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、５倍以下のカバレッジ、１０倍以下のカバレッジ、２５倍以下のカバレッジ、５０倍以下のカバレッジ、７５倍以下のカバレッジ、１００倍以下のカバレッジ、２００倍以下のカバレッジ、３００倍以下のカバレッジ、４００倍以下のカバレッジ、５００倍以下のカバレッジ、７５０倍以下のカバレッジ、１，０００倍以下のカバレッジ、２，５００倍以下のカバレッジ、４，０００倍以下のカバレッジ、または５，０００倍以下のカバレッジで０．１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。

一部の場合には、本明細書に開示される方法およびシステムは、５００倍以下のカバレッジ～５，０００倍のカバレッジで０．０１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、５倍以下のカバレッジ～２５倍のカバレッジ、１０倍のカバレッジ～５０倍のカバレッジ、１００倍のカバレッジ～５００倍のカバレッジ、５００倍のカバレッジ～１，０００倍のカバレッジ、５００倍のカバレッジ～２，５００倍のカバレッジ、５００倍のカバレッジ～４，０００倍のカバレッジ、５００倍のカバレッジ～５，０００倍のカバレッジ、１，０００倍のカバレッジ～２，５００倍のカバレッジ、１，０００倍のカバレッジ～４，０００倍のカバレッジ、１，０００倍のカバレッジ～５，０００倍のカバレッジ、２，５００倍のカバレッジ～４，０００倍のカバレッジ、２，５００倍のカバレッジ～５，０００倍のカバレッジ、または４，０００倍のカバレッジ～５，０００倍のカバレッジで０．０１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、５倍以下のカバレッジ、１０倍以下のカバレッジ、２５倍以下のカバレッジ、５０倍以下のカバレッジ、７５倍以下のカバレッジ、１００倍以下のカバレッジ、２００倍以下のカバレッジ、３００倍以下のカバレッジ、４００倍以下のカバレッジ、５００倍以下のカバレッジ、７５０倍以下のカバレッジ、１，０００倍以下のカバレッジ、２，５００倍以下のカバレッジ、４，０００倍以下のカバレッジ、または５，０００倍以下のカバレッジで０．０１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。

一部の場合には、本明細書に開示される方法およびシステムは、５００倍以下のカバレッジ～５，０００倍のカバレッジで０．００１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、５倍以下のカバレッジ～２５倍のカバレッジ、１０倍のカバレッジ～５０倍のカバレッジ、１００倍のカバレッジ～５００倍のカバレッジ、５００倍のカバレッジ～１，０００倍のカバレッジ、５００倍のカバレッジ～２，５００倍のカバレッジ、５００倍のカバレッジ～４，０００倍のカバレッジ、５００倍のカバレッジ～５，０００倍のカバレッジ、１，０００倍のカバレッジ～２，５００倍のカバレッジ、１，０００倍のカバレッジ～４，０００倍のカバレッジ、１，０００倍のカバレッジ～５，０００倍のカバレッジ、２，５００倍のカバレッジ～４，０００倍のカバレッジ、２，５００倍のカバレッジ～５，０００倍のカバレッジ、または４，０００倍のカバレッジ～５，０００倍のカバレッジで０．００１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、５倍以下のカバレッジ、１０倍以下のカバレッジ、２５倍以下のカバレッジ、５０倍以下のカバレッジ、７５倍以下のカバレッジ、１００倍以下のカバレッジ、２００倍以下のカバレッジ、３００倍以下のカバレッジ、４００倍以下のカバレッジ、５００倍以下のカバレッジ、７５０倍以下のカバレッジ、１，０００倍以下のカバレッジ、２，５００倍以下のカバレッジ、４，０００倍以下のカバレッジ、または５，０００倍以下のカバレッジで０．００１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。

一部の場合には、本明細書に開示される方法およびシステムは、５００倍以下のカバレッジ～５，０００倍のカバレッジで０．０００１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、５倍以下のカバレッジ～２５倍のカバレッジ、１０倍のカバレッジ～５０倍のカバレッジ、１００倍のカバレッジ～５００倍のカバレッジ、５００倍のカバレッジ～１，０００倍のカバレッジ、５００倍のカバレッジ～２，５００倍のカバレッジ、５００倍のカバレッジ～４，０００倍のカバレッジ、５００倍のカバレッジ～５，０００倍のカバレッジ、１，０００倍のカバレッジ～２，５００倍のカバレッジ、１，０００倍のカバレッジ～４，０００倍のカバレッジ、１，０００倍のカバレッジ～５，０００倍のカバレッジ、２，５００倍のカバレッジ～４，０００倍のカバレッジ、２，５００倍のカバレッジ～５，０００倍のカバレッジ、または４，０００倍のカバレッジ～５，０００倍のカバレッジで０．０００１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、５倍以下のカバレッジ、１０倍以下のカバレッジ、２５倍以下のカバレッジ、５０倍以下のカバレッジ、７５倍以下のカバレッジ、１００倍以下のカバレッジ、２００倍以下のカバレッジ、３００倍以下のカバレッジ、４００倍以下のカバレッジ、５００倍以下のカバレッジ、７５０倍以下のカバレッジ、１，０００倍以下のカバレッジ、２，５００倍以下のカバレッジ、４，０００倍以下のカバレッジ、または５，０００倍以下のカバレッジで０．０００１％以下の出現率を有する突然変異に対して、少なくとも９０％（または少なくとも９５％、または少なくとも９７％、または少なくとも９９％または少なくとも９９．９％、または少なくとも９９．９９％、または少なくとも９９．９９９％）の感度を実現することができる。

一部の場合には、本明細書に開示される方法およびシステムは、１，０００分の１以下～１０，０００分の１以下、１００分の１以下～１０，０００分の１以下、１，０００分の１以下～１００，０００分の１以下、または１００分の１以下～１，０００，０００分の１以下の偽陽性率を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、１，０００分の１以下～２，０００分の１以下、１，０００分の１以下～５，０００分の１以下、１，０００分の１以下～１０，０００分の１以下、２，０００分の１以下～５，０００分の１以下、２，０００分の１以下～１０，０００分の１以下、または５，０００分の１以下～１０，０００分の１以下の偽陽性率を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは１００分の１以下、５００分の１以下、１，０００分の１以下、２，０００分の１以下、５，０００分の１以下、１０，０００分の１以下、５０，０００分の１以下、１００，０００分の１以下、５００，０００分の１以下、１，０００，０００分の１以下またはそれより低い偽陽性率を実現することができる。

２塩基シーケンシングのフレームワークを利用することができる本明細書において示されているシステムおよび方法はまた、４塩基ゲノムコンテキスト（例えば、４つ以下の古典的核酸塩基：シトシン（Ｃ）、グアニン（Ｇ）、アデニン（Ａ）、およびチミン（Ｔ）を含む解析）と拡大された５および６塩基ゲノムコンテキスト（例えば、修飾された塩基（例えば、メチル化されたシトシン）を修飾されていない塩基（例えば、メチル化されていないシトシン）と鑑別することが可能な５塩基解析；異なる修飾された塩基および修飾されていない塩基を互いに鑑別する、例えば、シトシン、５－メチルシトシン（５ｍＣ）および５－ヒドロキシメチルシトシン（５ｈｍＣ）を互いに鑑別することが可能な６塩基解析）との両方において有用性を示す。これまで、６つの塩基（例えば、Ｃ、Ｇ、Ａ、Ｔ、５ｍＣ、および５ｈｍＣ）すべてを鑑別する実用システムは達成しがたいことが判明している。したがって、本明細書に開示される方法およびシステムは、ポリヌクレオチド試料におけるエピジェネティックな修飾（例えば、メチル化されたシトシン）の有無の解析に新たな手段を与える。５塩基解析では、修飾された塩基は、メチル化されたシトシン（ｍＣ）または５－ヒドロキシメチルシトシン（５ｈｍＣ）であってもよい。

ＤＮＡメチル化は、遺伝子発現を調節する際に役割を果たし得るエピジェネティックな修飾である可能性があり、結果として、種々の生物学的プロセスおよび疾患に影響を及ぼし得る。ポリヌクレオチドのヌクレオチドに存在する塩基に対する、例えば、シトシン残基の５’位におけるメチル基の付加は、遺伝子発現、クロマチン構造調節、または両方における機序である場合がある。遺伝子プロモーターにおけるこのメチル化されたヌクレオチド、例えば５ｍＣ（５－メチルシトシン）の機能的存在は、一部の場合には、構造的クロマチン変更に起因する転写抑制に関連する場合があるが、５ｍＣの非存在は転写活性に関連する場合がある。

５－メチルシトシン（５ｍＣまたはｍＣ）を形成するシトシン、例えばグアニン残基が後続するシトシン（例えば、シトシン－リン酸－グアニンモチーフ、またはＣｐＧ）のメチル化は、哺乳動物の発生および組織特異性、ゲノムインプリンティング、および環境応答において重要な役割をもつエピジェネティックなマークであり得る。５ｍＣの調節不全は異常な遺伝子発現をもたらす可能性があり、一部の場合には、がんのリスク、進行または処置応答に影響を及ぼし得る。５－ヒドロキシメチルシトシン（５ｈｍＣまたはｈｍＣ）は、遺伝子発現および発癌に影響を及ぼす組織特異的分布を有する細胞の活性ＤＮＡ脱メチル化経路における中間体であり得る。

第１のポリヌクレオチドの塩基（例えば、シトシンまたはグアニン）は、例えば、ＣｐＧコンテキストの第２のポリヌクレオチドの塩基（例えば、それぞれグアニンまたはシトシン）の近位にあってもよく、例えば、ここで、第１および第２のポリヌクレオチドはハイブリダイズされている（例えば、二本鎖ＤＮＡポリヌクレオチドにおいて）。一部の場合には、第２の塩基の近位にある第１の塩基は第２の塩基に近接していてもよく（例えば、それに接していてもよく）、例えば、ここで、２つの塩基はＣｐＧコンテキスト内にある。一部の場合には、同族ポリヌクレオチドの第２の塩基は、フォワードポリヌクレオチドの第１の塩基に対応する座位（例えば、塩基対合部位）にある塩基の近位にあってもよい（例えば、それに近接していても、それに接していてもよい）。多くの場合には、第１のポリヌクレオチドの第１の塩基は、第１および第２の塩基がワトソン－クリック型の塩基対合を実現することができる場合（例えば、アデニン－チミン、シトシン－グアニン、５ｈｍＣ－グアニン、または５ｍＣ－グアニン）、例えば、第１および第２のポリヌクレオチドが、例えば、二本鎖ＤＮＡポリヌクレオチドにおいてハイブリダイズされている場合、第２のポリヌクレオチドの第２の塩基と対合していると言うことができる。

遺伝子本体のＤＮＡメチル化（本明細書で使用される場合、メチル化は、核酸の塩基におけるメチル基の付加またはその存在を意味する場合があり、メチル基は酸化状態であっても酸化状態でなくてもよく、酸化されていないメチル基は、例えばメチルであってもよく、酸化されたメチル基は、ヒドロキシメチル、ホルミル基、カルボン酸基、またはカルボン酸の塩であってもよい）は、反復性のＤＮＡエレメントのサイレンシングおよび選択的スプライシングにおいて役割を果たすことができる。ＤＮＡメチル化は、ゲノムインプリンティング、トランスポゾン不活性化、幹細胞分化、転写抑制、および炎症などのいくつかの生物学的プロセスに関連する場合がある。ＤＮＡメチル化プロファイルは、一部の場合には、細胞分裂を通して、時には世代を通して遺伝性であり得る。メチルマークは、生理学的状態と病理学的状態の両方において非常に意味のある役割を果たし得るため、ＤＮＡのメチル化をプロファイリングして生物学の疑問に答えるための重要な適用であり得る。さらに、ＤＮＡメチル化ゲノム領域を発見することは、メチル部位が薬理学的介入によって修飾可能である場合があるため、トランスレーショナル研究にとって魅力的となる可能性がある。
２塩基シーケンシング方法およびシステム

本明細書において示されている２塩基シーケンシング方法およびシステムを使用して、例えば、参照ゲノム（または参照核酸配列）に対するアライメントを必要とせずに、塩基リードの内部検証を含む方法を提供することによって、ポリヌクレオチド（例えば、元のＤＮＡポリヌクレオチド）の配列決定における不確実性および全体的誤り率を低下させることができる。一部の実施形態では、これは、第１のポリヌクレオチド（例えば、フォワードポリヌクレオチド）の座位において決定された第１の塩基の値と同族ポリヌクレオチド（第１のポリヌクレオチドの同族アンプリコンであってもよい）または同族ポリヌクレオチドのアンプリコン（例えば、同族ポリヌクレオチドの同族アンプリコンであってもよいリードポリヌクレオチド）などの第２の（例えば、関連する）ポリヌクレオチドにおいて決定された第２の塩基の値とを比較することによって達成することができる。よって、第１の決定された塩基の値と第２の決定された塩基の値の間のミスマッチ（例えば、ワトソン－クリック型の塩基対合論理を使用して評価した場合）は、多くの実施形態では、ポリメラーゼ置換エラーを示す可能性がある。このような実施形態では、偽陽性の可能性のある全塩基コールの４分の３より多くは、第１のポリヌクレオチドの座位におけるポリメラーゼエラーと第２のポリヌクレオチドの対応する座位における第２のポリメラーゼエラーに起因する可能性があり、第２のポリメラーゼエラーは偽陽性塩基コールをもたらす逆の塩基変化である可能性があり、これは、まずありえない連続事象である。例えば、第１のポリヌクレオチドからの同族ポリヌクレオチドの生成におけるシトシンからアデニンへのポリメラーゼ置換エラーには、リードポリヌクレオチド（例えば、リードポリヌクレオチドは同族ポリヌクレオチドの同族アンプリコンである）の生成におけるチミンからグアニンへのポリメラーゼ置換エラー（他の置換エラーはない）が必要とされ、このような実施形態では、偽陽性の可能性のあるすべての塩基コールの４分の３より多くにおいて偽陽性塩基コールが生じ得る。一部の場合には、単一の（例えば、ポリメラーゼ）置換エラーが本明細書において示されている２塩基シーケンシング方法およびシステムにおいて偽陽性塩基コールをもたらす可能性がある残りのシナリオ（例えば、アデニンからグアニンまたはグアニンからアデニンへの置換）は、多くの実施形態では、１０，０００分の１または１０，０００分の１未満の発生率を有する可能性のある２つの特異的置換エラーから生じ得る。実際に、アデニンからグアニンおよびグアニンからアデニンへの置換は、多くの場合には、他のポリメラーゼ置換より低い割合で生じる。

多くの実施形態では、２つの決定された塩基の値が互いに一致する場合（例えば、ワトソン－クリック型の塩基対合論理を適用することによって評価された場合に）、第１の塩基の決定された値が、対応する座位における元のポリヌクレオチドの塩基の真のアイデンティティーについて正確であることを高い確実性をもって結論付けることができる（例えば、第１および第２のポリヌクレオチドのリードにおける置換エラーの最大の原因が、１０，０００塩基のうち１塩基のオーダーの割合で生じ得るポリメラーゼ忠実度によって決定されるためである）。多くの実施形態では、２つの決定された塩基の値が互いに一致しない場合（例えば、ワトソン－クリック型の塩基対合論理を適用することによって評価された場合に）、第１の塩基の決定された値が誤っていることを高い確実性をもって結論付けることができ、塩基コールにより、エラーであると決定され得る。有利には、本明細書において示されている２塩基シーケンシング方法およびシステムを使用して、関連するポリヌクレオチド（例えば、フォワードポリヌクレオチドおよび同族ポリヌクレオチドまたはフォワードポリヌクレオチドおよび同族ポリヌクレオチドのアンプリコン）由来の２つの関連する塩基コールを比較することにより、例えば、置換エラーが生じたかどうかを決定するために、所与の塩基コールを、他の独立して生成およびシーケンシングされたポリヌクレオチドに対して、ならびに参照ゲノムに対して検証する（例えば、アライメントによって）必要性を避けることによって、シーケンシング中に導入される置換エラーの問題を効果的に回避することができる。これは、偽陽性率に対する有意な低下（例えば、既存の技術と比較して）をもたらし得る。

対照的に、既存のシーケンシング技術は、例えば、高い割合（例えば、約５０塩基のうち１塩基）で導入され得る、シーケンシング中に導入される置換エラーにより生じる有意なエラーおよび不確実性によって限定される場合がある。結果として、ポリメラーゼ置換エラーに対する対象でもある、既存の技術を用いて得られたシーケンシングリードの塩基コールが検証され得る。既存のシーケンシング技術を使用する特定の座位における塩基コールの検証は、シーケンシングしたポリヌクレオチドのバーコード化（例えば、一意の分子識別子、ＵＭＩによる）と、その後の塩基コールの参照配列（例えば、参照ゲノム）ならびに他の独立して生成およびシーケンシングされたポリヌクレオチドからのリードの塩基コールとのアライメントに依拠し、これは、シーケンシング法から生じる置換エラーを含んでも含まなくてもよい。結果として、所与の塩基コールと同じ座位における参照ゲノムの値と間のミスマッチが、シーケンシングされたポリヌクレオチドにおける真の突然変異を表すが、シーケンシングプロセスから生じる置換エラーを表さないという信頼度を実現するためには、高いシーケンシング深度が必要とされる。例えば、既存のシーケンシング技術を使用すると、集団において０．１％の出現率を有する突然変異に対して９１％の感度を実現するために、５，０００倍のカバレッジが必要とされる可能性がある。

本明細書において示されている２塩基シーケンシング方法を使用して、元のポリヌクレオチドの塩基（例えば、元のポリヌクレオチドの真の塩基）の値（例えば、アイデンティティー）を決定することができる。一部の場合には、元のポリヌクレオチドの塩基の値を決定することは、元のポリヌクレオチドにおける突然変異を決定することを含む。例えば、本明細書に開示されるいくつかの２塩基シーケンシング方法は、対象から得られた液体生検試料に由来する腫瘍ＤＮＡ分子またはその断片などの試料ポリヌクレオチドにおいて、非常に正確かつ効率的な突然変異の同定をもたらすことができる。塩基を検出することができるか、それ以外の場合には決定することができる。塩基（例えば、フォワードポリヌクレオチドなどの第１のポリヌクレオチドの第１の塩基、または同族ポリヌクレオチドなどの第２のポリヌクレオチドの第２の塩基）の値（例えば、アイデンティティー）は、シーケンシングによって決定することができる。一部の場合には、塩基（例えば、元のポリヌクレオチドの真の塩基）の値（例えば、アイデンティティー）は、コンピュータープログラム（例えば、シーケンシングデータの解析および／または６文字、５文字、または４文字シーケンシングなどの本明細書において示されている方法の１つまたは複数の操作を実施するための命令を含む）を使用して決定することができる。一部の場合には、このようなコンピュータープログラムは、コンピューターのメモリーに記憶され得る。一部の場合には、コンピューターは、シーケンサーを操作するおよび／またはポリメラーゼ連鎖反応（ＰＣＲ）を実施することが可能なデバイス（例えば、プログラム可能なサーモサイクラー（thermocycler））を操作するための命令を含むことができる。

多くの場合には、２塩基シーケンシングは、第１のポリヌクレオチド（例えば、フォワードポリヌクレオチドまたはリバースポリヌクレオチド）の第１の塩基のアイデンティティーおよび第２のポリヌクレオチド（例えば、同族ポリヌクレオチドまたは同族ポリヌクレオチドのアンプリコン）の第２の塩基のアイデンティティーに基づいて、元のポリヌクレオチドの塩基（例えば、真の塩基）の値（例えば、アイデンティティー）を決定することを含む。塩基の値（例えば、アイデンティティー）は核酸塩基であり得る。例えば、塩基の値（例えば、アイデンティティー）は、アデニン、グアニン、チミン、シトシン、５－メチルシトシン、または５－ヒドロキシメチルシトシンであることが決定され得る。一部の場合には、塩基の値は、メチル化されたシトシンであることが決定され得る。例えば、一部の場合には、メチル化されたシトシンであることが決定された塩基の値は、５－メチルシトシンまたは５－ヒドロキシメチルシトシンのいずれかであり得る（そして例えば、アデニン、グアニン、チミン、およびシトシンと鑑別され得る）。一部の場合には、塩基の値は、シトシンまたは５－ヒドロキシメチルシトシンのいずれかである（そして例えば、アデニン、グアニン、チミン、および５－メチルシトシンと鑑別される）ことが決定され得る。一部の場合には、本明細書において示されている方法およびシステムを使用して、６つの異なる塩基間を鑑別することができる（例えば、６文字シーケンシング）。例えば、本明細書において示されているいくつかの方法およびシステムを使用して、塩基間：アデニン、グアニン、チミン、シトシン、５－メチルシトシン、および５－ヒドロキシメチルシトシンを鑑別することができる。一部の場合には、本明細書において示されている方法およびシステムを使用して、５つの異なる塩基の群を鑑別することができる（例えば、５文字シーケンシング）。例えば、酸化バイサルファイト処理（ｏｘｉｄａｔｉｖｅｂｉｓｕｌｆｉｔｅｐｒｏｃｅｓｓｉｎｇ）（例えば、第１のポリヌクレオチド、および一部の場合には第２のポリヌクレオチド、例えば、第１のポリヌクレオチドの同族ポリヌクレオチドの、ルテニウム酸カリウムなどのルテニウム酸塩への曝露を含む場合がある）を含む本明細書において示されている方法およびシステムの一部の実施形態は、アデニン、グアニン、およびチミン間、またはこれらの塩基のいずれかとシトシンおよび５－ヒドロキシメチルシトシンのうちの一方とを鑑別することが可能である。一部の場合には、本明細書において示されているいくつかの方法およびシステムを使用して、アデニン、グアニン、チミン、シトシン、およびメチル化されたシトシンを鑑別することができる（例えば、ここで、アデニン、グアニン、チミン、シトシンは互いに、および５－メチルシトシンまたは５－ヒドロキシメチルシトシンなどのメチル化されたシトシンと鑑別され得る）。一部の場合には、本明細書において示されている方法およびシステムを使用して、４つの塩基間を鑑別することができる（例えば、４文字シーケンシング）。例えば、本明細書において示されているいくつかの方法およびシステムを使用して、アデニン、グアニン、チミン、およびシトシンを鑑別することができる。一部の場合には、第１の塩基（例えば、第１のポリヌクレオチドのもの）および第２の塩基（例えば、第２のポリヌクレオチドのもの）の決定された値は生物学的に不可能な組合せであり、置換エラー（例えば、シーケンシングから）を示唆する可能性がある。エラーコードには、決定された第１および第２の塩基が不可能な組合せを形成する（例えば、図２０Ａ～２０Ｆに示されている）塩基（例えば、元のポリヌクレオチドのもの）に関する値を割り当てることができる。一部の場合には、真の塩基（例えば、元のポリヌクレオチドのもの）の値は、第１の塩基および第２の塩基の決定されたアイデンティティーが、ワトソン－クリック型の塩基対合によって予測されていないか、または化学的または酵素的転換が実施されたとしても予測通りではない場合に、ミスコールであると決定される。例えば、本明細書において示されている２塩基シーケンシング方法を使用する４文字シーケンシングでは、以下の組合せの：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびシトシン、チミンおよびシトシン、またはチミンおよびチミンのいずれかがエラーとして同定される場合がある。

多くの場合には、塩基（例えば、元のポリヌクレオチドのもの）のアイデンティティー（例えば、値）は、第１のポリヌクレオチド、第２のポリヌクレオチド、リードポリヌクレオチド、および／または元のポリヌクレオチドの決定された（例えば、検出された）配列が参照核酸配列（例えば、参照ゲノムまたはその一部）とアラインされる前に決定される。多くの場合には、第１および第２の核酸配列は、例えば、第２のポリヌクレオチドに対する第１のポリヌクレオチドの塩基対合およびＣｐＧコンテキストの領域を決定するために、塩基（例えば、元のポリヌクレオチドのもの）のアイデンティティー（例えば、値）を決定する前に、互いにアラインされる。一部の場合には、本明細書において示されている方法およびシステムは、１つまたは複数の塩基が決定される前に、第１のポリヌクレオチドの核酸配列（またはその一部）、第２のポリヌクレオチドの核酸配列（またはその一部）、またはリードポリヌクレオチドの核酸配列（またはその一部）のうちの１つまたは複数をアラインすることを含み得る。
試薬および方法

本明細書において示されている方法およびシステムは、二本鎖（例えば、二重鎖）ＤＮＡポリヌクレオチドを提供することおよび／または（例えば、化学的に）処理することを含んでもよい。二本鎖ＤＮＡポリヌクレオチドは、本明細書に記載の第１のポリヌクレオチドを含んでもよい。二本鎖ＤＮＡは、第２のポリヌクレオチドを含んでもよい。一部の場合には、第１のポリヌクレオチドは、二本鎖ＤＮＡの第２のポリヌクレオチドに連結されている（例えば、ハイブリダイズされている）。

一部の場合には、第１のポリヌクレオチドは、元のポリヌクレオチド、またはその一部である。一部の場合には、第１のポリヌクレオチドは、元のポリヌクレオチドの増幅生成物、またはその一部である。一部の場合には、第１のポリヌクレオチドは、元のポリヌクレオチドのアンプリコンコピー、またはその一部である。例えば、第１のポリヌクレオチドは、それらの各５－プライム（５’）および３－プライム（３’）末端に対して同じ配列方向を有する元のポリヌクレオチド（またはその一部）のコピーであってもよい。元のポリヌクレオチドおよびそのアンプリコン（例えば、第１のポリヌクレオチド）の１つまたは複数は、例えば、メチル化マークをアンプリコンに転移させるために、メチルトランスフェラーゼ（例えば、ＤＮＭＴ１またはＤＮＭＴ５）と接触させることができる。一部の場合には、第１のポリヌクレオチドは、二本鎖（例えば、二重鎖）ＤＮＡ分子のフォワード鎖（例えば、フォワードポリヌクレオチド）である。一部の場合には、第１のポリヌクレオチドは、二本鎖（例えば、二重鎖）ＤＮＡ分子のリバース鎖（例えば、リバースポリヌクレオチド）である。第２のポリヌクレオチドは、第１のポリヌクレオチドの増幅生成物（例えば、アンプリコン）またはその一部であってもよい。多くの場合には、第２のポリヌクレオチドは同族ポリヌクレオチドである。第２のポリヌクレオチド（例えば、同族ポリヌクレオチド）は、第１のポリヌクレオチドの核酸配列のすべてまたは一部に対して相補的な核酸配列を有してもよい。多くの場合には、第２のポリヌクレオチド（例えば、同族ポリヌクレオチド）は、例えば、第１のポリヌクレオチドの一部または第１のポリヌクレオチドの末端（例えば、３’末端）にライゲーションされたヘアピンポリヌクレオチド（例えば、ビオチンタグを含んでも含まなくてもよい）にハイブリダイズすることが可能な核酸プライマー（例えば、ビオチンタグを含んでも含まなくてもよい）を使用して、第１のポリヌクレオチド（例えば、フォワードポリヌクレオチド）のすべてまたは一部に関してポリメラーゼ連鎖反応を実施することによって提供され得る。

第１のポリヌクレオチドは、元のポリヌクレオチドまたはその断片を含んでもよい。一部の場合には、元のポリヌクレオチドは人工分子である。一部の場合には、元のポリヌクレオチドは対象に由来する。一部の場合には、元のポリヌクレオチドはゲノムＤＮＡを含む。一部の場合には、元のポリヌクレオチドは、無細胞ＤＮＡ、例えば、液体生検試料（例えば、対象から得られた）由来の無細胞ＤＮＡを含む。一部の場合には、無細胞ＤＮＡは、試料中に存在する１つまたは複数のＤＮＡポリヌクレオチド、封入されていないＤＮＡ分子またはその断片を含んでもよい。例えば、無細胞ＤＮＡを含む元のポリヌクレオチドは、試料（例えば、血液試料などの液体生検試料）から得られたＤＮＡポリヌクレオチドまたはその断片を含んでもよく、ここで、試料中のＤＮＡポリヌクレオチドまたは断片は細胞内にない。一部の場合には、元のポリヌクレオチドは、腫瘍ＤＮＡ分子またはその断片（例えば、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）などの無細胞腫瘍ＤＮＡ）を含む。一部の場合には、元のポリヌクレオチドは、細胞から得られた（例えば、細胞から抽出された）ゲノムＤＮＡ分子またはその断片である。一部の場合には、元のポリヌクレオチドの塩基を決定する方法は、単一細胞に由来する出発材料（例えば、元のポリヌクレオチド）を使用して実施することができる。

一部の場合には、元のポリヌクレオチドは、１０塩基対（ｂｐ）～１０，０００ｂｐの長さである。一部の場合には、元のポリヌクレオチドは、１００ｂｐ～１，０００ｂｐの長さである。一部の場合には、元のポリヌクレオチドは、１５０ｂｐ～２５０ｂｐの長さである。一部の場合には、元のポリヌクレオチドは、長さが１０，０００ｂｐより大きい。一部の場合には、第１のポリヌクレオチドは、１０塩基対（ｂｐ）～１０，０００ｂｐの長さである。一部の場合には、第１のポリヌクレオチドは、１００ｂｐ～１，０００ｂｐの長さである。一部の場合には、第１のポリヌクレオチドは、１５０ｂｐ～２５０ｂｐの長さである。一部の場合には、元のポリヌクレオチドは、長さが１０，０００ｂｐより大きい。

ヌクレオチドのメチル化されていない塩基、ヌクレオチドのメチル化された塩基およびヌクレオチドのヒドロキシメチル化された塩基、例えば、ＤＮＡ鎖におけるシトシン、５ｍＣ、および５ｈｍＣを区別および同定するために使用することができる方法、システム、技法、キット、組成物、および試薬が本明細書において提供される。本明細書における方法はシーケンシングを使用し得る。例えば、方法は、二本鎖ＤＮＡポリヌクレオチドに関して実施され得る。一部の場合には、方法は、一本鎖ＤＮＡポリヌクレオチドに関して実施され得る。これらの残基は、本明細書において提供される１つまたは複数の方法を使用して、例えば、単一塩基対分解能で同定することができる。ヌクレオチド、例えばシトシン、およびそれらのまたはその修飾形態は、本明細書において実施される任意の方法の一部として互いに異なるように化学的または酵素的に変更され得る。一部の実施形態では、これは、さらにいくらかの追加情報を得るために第２のポリヌクレオチド（例えば、二本鎖ＤＮＡポリヌクレオチドのもの）だけでなく第１のポリヌクレオチドに関しても実施され得る。一部のこのような場合には、第２のポリヌクレオチドは、修飾されていない核酸塩基、例えばシトシンを有するものとして開始し得るが、第１のポリヌクレオチドは、例えば、解析される試料中に見られるように、修飾された核酸塩基、例えば修飾されたシトシンを含んでもよい。一部の実施形態では、シーケンシングされた産物（第１のポリヌクレオチド、第２のポリヌクレオチド、または両方）を解読またはデコンボリューションして、元のポリヌクレオチド（例えば、第１のポリヌクレオチドであってもよい）のシトシン残基のメチル化状態を決定することができる。一部の事例では、解読は二進法によるものであってもよい。例えば、ＤＮＡの二本鎖を解析する場合、チミンとして読み取られた両方の鎖の互いに近位にある２つの塩基の存在は、元のポリヌクレオチドにおけるシトシンの存在を示す可能性がある。一部の事例では、ＤＮＡの二本鎖を解析する場合、シトシンとして読み取られた両方の鎖の互いに近位にある２つの塩基の存在は、元のポリヌクレオチドにおけるシトシンの存在を示す可能性がある。一部の事例では、ＤＮＡの二本鎖を解析する場合、チミンとして読み取られた両方の鎖の互いに近位にある２つの塩基の存在は、元のポリヌクレオチドにおける５ｍＣの存在を示す可能性がある。一部の事例では、ＤＮＡの二本鎖を解析する場合、シトシンとして読み取られた両方の鎖の互いに近位にある２つの塩基の存在は、元のポリヌクレオチドにおける５ｍＣの存在を示す可能性がある。一部の事例では、ＤＮＡの二本鎖を解析する場合、１つのシトシンおよび１つのチミンとして読み取られた両方の鎖の２つの塩基が互いに近位にあることは、元のポリヌクレオチドにおける５ｈｍＣの存在を示す可能性がある。

図１Ａおよび１Ｂは、シトシン、５ｍＣ、および５ｈｍＣを修飾（例えば、元のポリヌクレオチドであってもよい第１のポリヌクレオチドにおいて）およびシーケンシングして、元のポリヌクレオチドにおけるシトシン、５ｍＣ、および５ｈｍＣ残基を区別および同定することができる方法の例を示す。このような区別および同定は、単一塩基分解能におけるものであってもよい。このような方法は、１つまたは複数のヘアピンを二本鎖ＤＮＡ（例えば、第１のポリヌクレオチドおよび第２のポリヌクレオチドを含む）にライゲーションし、第１および第２のポリヌクレオチドを脱アニーリングする（例えば、融解させる）ことによって開始することができる。一部の場合には、ヘアピン分子の次のライゲーションを可能にする分子または部分を二本鎖ＤＮＡにライゲーションすることができる。例えば、ベータ－グルコシルトランスフェラーゼ（ＢＧＴ）およびウリジン二リン酸グルコース（ＵＤＰＧ）を使用することによる第１のポリヌクレオチドの５ｈｍＣのグルコシル化を実施し、第１のポリヌクレオチドの５ｈｍＣをグルコシル化して、５－グルコシルヒドロキシメチルシトシン（５ｇｈｍＣまたはｇｈｍＣ）を得ることができる。このようなグルコシル化は、本明細書に開示される方法およびシステムにおいて使用されるものなどの他の薬剤のいくつかの化学的活性から５ｈｍＣを保護することができる。一部の場合には、メチルトランスフェラーゼ（例えば、ＤＮＡ（シトシン－５）－メチルトランスフェラーゼ１（ＤＮＭＴ１）またはＤＮＭＴ５）を使用して、第２のポリヌクレオチドの、例えばシトシン塩基をメチル化することができ、ここで、このメチル化は第１のポリヌクレオチドのメチル化された塩基、例えばｍＣによって少なくとも部分的に導かれる。多くのメチルトランスフェラーゼ（ＤＮＴＭ１およびＤＮＭＴ５）は、メチル化されたシトシン（例えば、５－メチルシトシン（５ｍＣ）または５－ヒドロキシメチルシトシン（５ｈｍＣ））に対応する（例えば、それと塩基対合する）第１の塩基の近位にある（例えば、これに近接する）二本鎖ＤＮＡポリヌクレオチドの第２のポリヌクレオチドの第２の塩基（例えば、シトシン）に作用する。一部の場合には、例えば、第１のポリヌクレオチドの第１の塩基（例えば、メチル化されたシトシン、例えば５ｍＣまたは５ｈｍＣ）が第１のポリヌクレオチドのグアニンに近接しており（例えば、シトシン－リン酸－グアニン）、これが、第２のポリヌクレオチドの（例えば、メチル化されていない）シトシンと塩基対合している（例えば、メチルトランスフェラーゼまたはその生物学的に活性な断片は、第１の塩基のものと適合する５－メチルまたは５－ヒドロキシメチルタグを有するように修飾することができる）ため、第１の塩基および第２の塩基は、ＣｐＧコンテキスト内にあると言われる。第１のポリヌクレオチド（例えば、５’末端で標識されている）の図１Ａ～１Ｂ、２Ａ～２Ｄ、３、４、６、９、１２、１７、１９Ｃ、および１９Ｅに示されているメチル化されていないシトシン塩基およびメチル化されたシトシン塩基（および関連するチミン、ｇｈｍＣ、ホルミルシトシン（ｆＣ）、およびｄｈＵ塩基修飾）が、これらの図の第２のポリヌクレオチドにおいて示されている対応する塩基の近位に（例えば、それと共にＣｐＧコンテキスト内に）ある可能性があることに留意されたい。ＣｐＧの関係を示す様々なイメージにおける塩基対合したグアニンは、一部の場合には、図面の視覚的明瞭性および解釈の容易さを改善するために省略されている。本明細書において示されているいくつかの方法およびシステムは、第１のポリヌクレオチドおよび／または第２のポリヌクレオチドを脱アミノ化剤に曝露させることを含む。脱アミノ化（例えば、バイサルファイトまたはデアミナーゼ酵素での処理によって）を実施して、第１のポリヌクレオチドおよび第２のポリヌクレオチドにおいて非メチル化シトシン残基の代わりに脱アミノ化された塩基、例えばウラシルを得ることができ、両鎖をシーケンシングすることができる。脱アミノ化された塩基は、シーケンサーにおいて脱アミノ化された塩基として読み取ることができる。一部の実施形態では、ウラシルは、シーケンサーによってチミンとして読み取ることができる。処理前の第１のポリヌクレオチドが非メチル化シトシン残基（例えば、ＣｐＧ部分のコンテキスト内で）を含有するところに、シーケンシング中に、２本の別々の鎖の物理的近位にある２つのチミン残基を読み取ることができる。処理前の第１のポリヌクレオチドが５ｍＣ残基を含有するところに、シーケンシング中に、２本の別々の鎖の物理的近位において、２つのシトシン残基を読み取ることができる。シーケンシング前の第１のポリヌクレオチドが５ｈｍＣ残基を含有するところに、シーケンシング中に、シトシン（例えば、第１のポリヌクレオチドの）およびチミン（第２のポリヌクレオチド）を読み取ることができる。方法は、バイサルファイトシーケンシングまたは酸化バイサルファイト（ｏｘ－ＢＳ）シーケンシングを含む方法よりも優れている可能性のある結果を生じ得る。酸化バイサルファイト（ｏｘ－ＢＳ）シーケンシングおよび酸化バイサルファイトシーケンシングによって生じたデータの分析を実施するのに有用な方法は、国際特許公開番号ＷＯ２０１３０１７８５３号に記載されている。メチル化されたシトシン（例えば、５－ヒドロキシメチルシトシン）、例えばルテニウム酸塩（例えば、ルテニウム酸カリウム）を酸化することが可能な薬剤を、酸化バイサルファイトシーケンシングを含む方法において酸化剤として使用することができる。

一部の場合には、１つまたは複数のシーケンシングアダプターは、例えば、図１Ｂに示されているように、化学的処理操作（例えば、メチルトランスフェラーゼ活性を有する実体と接触させること、酸化剤と接触させること、還元剤と接触させること、バイサルファイトと接触させること、脱アミノ化剤と接触させること）の後に、二本鎖ＤＮＡ分子の１つまたは複数の末端（例えば、５’末端および／または３’末端）に連結される（例えば、ライゲーションされる）。一部の場合には、１つまたは複数のシーケンシングアダプターは、例えば、図１Ｂに示されているように、化学的処理操作（例えば、メチルトランスフェラーゼ活性を有する実体と接触させること、酸化剤と接触させること、還元剤と接触させること、バイサルファイトと接触させること、脱アミノ化剤と接触させること）の前に、二本鎖ＤＮＡ分子の１つまたは複数の末端（例えば、５’末端および／または３’末端）に連結される（例えば、ライゲーションされる）。１つまたは複数のシーケンシングアダプターの、二本鎖ＤＮＡポリヌクレオチドの第１および／または第２のポリヌクレオチドのうちの１つまたは複数への連結は、一部の場合には、本明細書において示されている方法の操作間に実施することができることが企図される。

図２Ａ～２Ｄは、シトシン、５ｍＣ、および５ｈｍＣを修飾およびシーケンシングして、第１のポリヌクレオチドにおけるシトシン、５ｍＣ、および５ｈｍＣを区別および同定する方法を示す。このような区別および同定は、単一塩基分解能におけるものであってもよい。様々な実施形態では、バイサルファイト処理は必須ではない。一部の実施形態では、このようにバイサルファイトを欠くことによって、シーケンシングされるＤＮＡを分解または損傷から保護することが可能である。図２Ａでは、例えば、ＢＧＴおよびＵＤＰＧを使用することによる第１のポリヌクレオチドの５ｈｍＣのグルコシル化を実施し、第１のポリヌクレオチドの５ｈｍＣをグルコシル化して、５－グルコシルヒドロキシメチルシトシン（５ｇｈｍＣまたはｇｈｍＣ）を得ることができる。このようなグルコシル化によって、５ｈｍＣをいくつかの化学的転換から保護することができる。一部の場合には、ＤＮＭＴ１を使用して、第２のポリヌクレオチドの、例えばシトシン塩基をメチル化することができ、ここで、このメチル化は第１のポリヌクレオチドのメチル化された塩基、例えばｍＣによって少なくとも部分的に導かれる。一部の実施形態では、ウラシルは、シーケンサーによってチミンとして読み取ることができる。次いで、酸化およびグルコシル化を実施して（例えば、それぞれ、テンイレブントランスロケーションメチルシトシンジオキシゲナーゼ酵素（ＴＥＴ）およびＢＧＴを使用して）、５ｍＣを５ｇｈｍＣに変換することができる。例えば、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ－例えばＡＰＯＢＥＣ３Ａなど）酵素およびヘリカーゼ、またはその断片を使用することによって、チミンを得るためのシトシンの脱アミノ化を実施することができ、両方の鎖をシーケンシングすることができる。得られたシーケンシングデータを解読し、どの塩基がシトシン、５ｍＣおよび５ｈｍＣであるかを決定することができる。一部の実施形態では、ヘリカーゼの代わりにまたはヘリカーゼに加えて、別の試薬を使用して、一本鎖ＤＮＡを得ることができる。このような試薬の例には、例えば、ホルムアミドまたは水酸化ナトリウム（ＮａＯＨ）が含まれ得る。処理前の第１のポリヌクレオチドが非メチル化シトシン残基を含有するところに、例えばＣｐＧコンテキスト内で、シーケンシング中に、第１および第２のポリヌクレオチドの物理的近位にある２つのチミン残基を読み取ることができる。処理前の第１のポリヌクレオチドが５ｍＣ残基を含有するところに、例えばＣｐＧコンテキスト内で、シーケンシング中に、２本の鎖（例えば、第１および第２のポリヌクレオチド）の物理的近位にある２つのシトシン残基を読み取ることができる。シーケンシング前の第１のポリヌクレオチドが５ｈｍＣ残基を含有するところに、例えばＣｐＧコンテキスト内で、シーケンシング中に、２本の鎖（例えば、第１および第２のポリヌクレオチド）の物理的近位にあるシトシン（第１のポリヌクレオチド）およびチミン（第２のポリヌクレオチド）を読み取ることができる。方法は、バイサルファイトシーケンシングまたはｏｘ－ＢＳシーケンシングを含む方法よりも優れている可能性のある結果を生じ得る。

図２Ｂでは、第１のポリヌクレオチドをメチルトランスフェラーゼ（ＭＴ）およびＳ－アデノシルメチオニン（ＳＡＭ）アナログで前処理し、非メチル化シトシンの代わりにメチル誘導体基が付加されたシトシンを得ることができる。一部の場合には、ＤＮＭＴ１を使用して、第２のポリヌクレオチドの、例えばシトシン塩基をメチル化することができ、ここで、このメチル化は第１のポリヌクレオチドのメチル化された塩基、例えば５ｍＣによって少なくとも部分的に導かれる。一部の実施形態では、ウラシルは、シーケンサーによってチミンとして読み取ることができる。例えば、ＢＧＴおよびＵＤＰＧを使用することによる第１のポリヌクレオチドの５ｈｍＣのグルコシル化を実施し、第１のポリヌクレオチドの５ｈｍＣをグルコシル化して、５－グルコシルヒドロキシメチルシトシン（５ｇｈｍＣまたはｇｈｍＣ）を得ることができる。このようなグルコシル化によって、５ｈｍＣをいくつかの化学的転換、例えばメチルトランスフェラーゼ（例えば、ＤＮＭＴ１またはＤＮＭＴ５）活性から保護することができる。次いで、第１のポリヌクレオチドおよび第２のポリヌクレオチドをＭＴおよびＳＡＭアナログで処理し、非メチル化シトシンの代わりにＳＡＭアナログが付加されたシトシンを再度得ることができる。核酸塩基、例えばシトシンの脱アミノ化は、例えば、ＡＰＯＢＥＣ３Ａまたはその断片もしくは突然変異体を使用し、例えば、ヘリカーゼ（例えば、ＡＰＯＢＥＣ３Ａに媒介される脱アミノ化のために第１および第２のポリヌクレオチド鎖を分離するために使用することができる）、一本鎖ＤＮＡ結合タンパク質（ＳＳＢ）を使用して、第１および第２のポリヌクレオチドの少なくとも一部を分離することによって実施することができる。一部の場合には、第１および第２のポリヌクレオチドが分離される必要がない場合のある二本鎖デアミナーゼ（例えば、ＤｄｄＡ、例えば、参照によりその全体が本明細書に組み込まれる、Mok, B.Y., de Moraes, M.H., Zeng, J. et al. A bacterial cytidine deaminase toxin enables CRISPR-free mitochondrial base editing. Nature 583, 631-637 (2020)を参照されたい）を使用することができ、第１および第２のポリヌクレオチドをシーケンシングすることができる。一部の場合には、二本鎖ＤＮＡポリヌクレオチドの第１および第２のポリヌクレオチドを分離することは、二本鎖ＤＮＡポリヌクレオチドを挿入剤（例えば、エチジウムブロマイド）と接触させ、例えば、二本鎖ＤＮＡポリヌクレオチドの融解温度を低下させることを含んでもよい。一部の場合には、二本鎖ＤＮＡポリヌクレオチドの第１および第２のポリヌクレオチドを分離することは、第１および／または第２のポリヌクレオチドを（例えば、ＮａＯＨで）化学的に処理することを含んでもよい。第１のポリヌクレオチドの第２のポリヌクレオチドからの分離を助けるこのような方法は、二本鎖ポリヌクレオチドの対合した塩基間でのワトソン－クリックミスマッチが予測されない場合に（例えば、本明細書において示されているように、２塩基シーケンシング解析を使用する４文字シーケンシングの一部の例において）特に有用である。脱アミノ化されたシトシンは、シーケンサーを使用してチミンとして読み取ることができる。処理前の第１のポリヌクレオチドが非メチル化シトシン残基を含有するところに、例えばＣｐＧコンテキスト内で、シーケンシング中に、２本の別々の鎖（例えば、第１および第２のポリヌクレオチド）の物理的近位において、２つのシトシン残基を読み取ることができる。処理前の第１のポリヌクレオチドが５ｍＣ残基を含有するところに、例えばＣｐＧコンテキスト内で、シーケンシング中に、２本の別々の鎖の物理的近位において、２本の別々の鎖の物理的近位にある２つのチミン残基を読み取ることができる。シーケンシング前の第１のポリヌクレオチドが５ｈｍＣ残基を含有するところに、例えばＣｐＧコンテキスト内で、シーケンシング中に、シトシン（第１のポリヌクレオチド）およびチミン（第２のポリヌクレオチド、例えば同族ポリヌクレオチド）を読み取ることができる。方法は、バイサルファイトシーケンシングまたはｏｘ－ＢＳシーケンシングを含む方法よりも優れている可能性のある結果を生じ得る。

二本鎖ＤＮＡポリヌクレオチドの第１のポリヌクレオチドおよび第２のポリヌクレオチド（例えば、図１Ａ～１２、および１７～１９Ｅに示されている）は、連結されていてもよい（例えば、互いに）。一部の場合には、二本鎖ＤＮＡポリヌクレオチドの第１のポリヌクレオチドおよび二本鎖ＤＮＡポリヌクレオチドの第２のポリヌクレオチドは、ヘアピン（例えば、ヘアピンポリヌクレオチド）によって連結されている。一部の場合には、二本鎖ＤＮＡポリヌクレオチドの第１のポリヌクレオチドおよび二本鎖ＤＮＡポリヌクレオチドの第２のポリヌクレオチドは、ワトソン－クリック型の塩基対合（例えば、核酸ハイブリダイゼーション）によって連結されている。一部の場合には、二本鎖ＤＮＡポリヌクレオチドの第１のポリヌクレオチドおよび二本鎖ＤＮＡポリヌクレオチドの第２のポリヌクレオチドは、第１および／または第２のポリヌクレオチドに関する情報（例えば、第１のポリヌクレオチド、第２のポリヌクレオチド、または両方の１つまたは複数の末端にライゲーションまたは結合した１つまたは複数のバーコード（例えば、固有のバーコードまたはＵＭＩ）の形態の）を介して連結されている。一部の場合には、二本鎖ＤＮＡポリヌクレオチドの第１のポリヌクレオチドおよび二本鎖ＤＮＡポリヌクレオチドの第２のポリヌクレオチドは、第１および第２のポリヌクレオチドを連結するための他の方法の組合せによって連結されている。図１Ａ～１２、および１７～１９Ｅは、本明細書に開示される方法、システム、および組成物の所与の実施形態または実施形態のセットについて、二本鎖ポリヌクレオチドの第１および第２のポリヌクレオチドを連結させることの一例を示している場合があるが、第１および第２のポリヌクレオチドを連結させることは、各実施形態について本明細書において示されている例のいずれかによって実現することができることに留意されたい。例えば、ヘアピンポリヌクレオチドは図２Ａ～２Ｄ、３、または４には示されていないが、これらの図において示されている方法およびシステムおよび組成物において使用される第１および第２のポリヌクレオチドは、ヘアピンポリヌクレオチドによって連結されていてもよい。

図３は、シトシン、５ｍＣ、および５ｈｍＣを修飾およびシーケンシングして、図３に示される第１のポリヌクレオチドにおけるシトシン、５ｍＣ、および５ｈｍＣを区別および同定することができる追加の方法を示す。このような区別および同定は、単一塩基分解能におけるものであってもよい。ＫＲｕＯ_４を使用して、第１のポリヌクレオチドにおけるヒドロキシメチル化された核酸塩基、例えば５ｈｍＣを酸化させて、ホルミル核酸塩基、例えば５－ホルミルシトシン（５ｆＣまたはｆＣ）を得ることができる。一部の場合には、ＤＮＭＴ１を使用して、第２のポリヌクレオチドの、例えばシトシン塩基をメチル化することができ、ここで、このメチル化は第１のポリヌクレオチドのメチル化された塩基、例えばｍＣによって少なくとも部分的に導かれる。次いで、酸化を実施し（例えば、オキシダーゼまたはその生物学的に活性な部分、例えばＴＥＴを使用して）、５ｍＣを５－カルボキシルシトシン（５ｃａＣまたはｃａＣ）に変換することができる。ポリヌクレオチド（例えば、第１のポリヌクレオチド、第２のポリヌクレオチド、または二本鎖ＤＮＡポリヌクレオチド）のすべてまたは一部の酸化を含む本明細書において示される方法およびシステムの操作にはオキシダーゼを用いることができ、オキシダーゼは５－メチルシトシン、５－ヒドロキシメチルシトシン、および／または５－ホルミルシトシンを酸化するが、ＴＥＴは酸化剤の例として本明細書において使用されることが多いことに留意されたい。次いで、ｐｉｃ－ボランを使用して、シーケンシングのために５ｃａＣをＤＨＵ残基に変換することができ、両鎖をシーケンシングすることができる（例えば、ここで、ＤＨＵはチミンとして読み取られる）。処理前の第１のポリヌクレオチドが非メチル化シトシン残基を含有するところに、例えばＣｐＧコンテキスト内で、シーケンシング中に、２本の別々の鎖（例えば、第１および第２のポリヌクレオチド）の物理的近位において、２つのシトシン残基を読み取ることができる。処理前の元の鎖が５ｍＣ残基を含有するところに、例えばＣｐＧコンテキスト内で、シーケンシング中に、２本の別々の鎖の物理的近位において２つのチミン残基を読み取ることができる。シーケンシング前の元の鎖が５ｈｍＣ残基を含有するところに、例えばＣｐＧコンテキスト内で、シーケンシング中に、個々の鎖（例えば、第１のポリヌクレオチドおよび／または第２のポリヌクレオチド）の物理的近位において、チミン（第１のポリヌクレオチド）およびシトシン（第２のポリヌクレオチド）を決定することができる。方法は、バイサルファイトシーケンシングまたはｏｘ－ＢＳシーケンシングを含む方法よりも優れている可能性のある結果を生じ得る。

一部の実施形態では、例えば、５ｃａＣをチミン残基に変換するために様々な試薬を使用することができる。このような様々な試薬は、例えばｐｉｃ－ボランの代わりに使用することができる。一部の実施形態では、様々な試薬は、ボラン、ボランの誘導体、またはｐｉｃ－ボランの誘導体もしくは前駆体であってもよい。一部の実施形態では、様々な試薬は、ｐｉｃ－ボランに対する構造的または化学的類似性を含んでもよい。一部の実施形態では、例えば、このような試薬（例えば、還元剤）は、ピリジンボラン、２－ピコリンボラン（ｐｉｃ－ＢＨ_３またはｐｉｃ－ボラン）、ボラン、ｔｅｒｔ－ブチルアミンボラン、アンモニアボラン、水素化ホウ素ナトリウム、エチレンジアミンボラン、ジメチルアミンボラン、トリアセトキシ水素化ホウ素ナトリウム、モルホリンボラン、４－メチルモルホリンボラン、トリメチルアミンボラン、ジシクロヘキシルアミンボラン、またはそれらの塩を含んでもよい。一部の実施形態では、５ｃａＣのチミンへの変換は、例えば、参照によりその全体が本明細書に組み込まれるＷＯ２０１９／１３６１３Ａ１において提示されているように実施することができる。一部の実施形態では、このような還元操作において使用される試薬は、以上に提示される還元剤と組み合わせてまたはその代わりに、異なる還元剤を含んでもよい。還元剤は、水素化ホウ素ナトリウム（ＮａＢＨ_４）、シアノ水素化ホウ素ナトリウム（ＮａＢＨ_３ＣＮ）、ＮａＣＮＢＥＥ、または水素化ホウ素リチウム（ＬｉＢＨ_４）を含んでもよい。還元剤は、水素化アルミニウムリチウム、ナトリウムアマルガム、アマルガム、ジボラン、水素化ホウ素ナトリウム、二酸化硫黄、ジチオン酸塩、チオ硫酸塩、ヨウ化物、過酸化水素、ヒドラジン、水素化ジイソブチルアルミニウム、シュウ酸、一酸化炭素、シアン化物、アスコルビン酸、ギ酸、ジチオトレイトール、ベータ－メルカプトエタノール、またはこれらの任意の組合せを含んでもよい。還元剤は、５ｃａＣをチミン残基に選択的に還元するか、またはその選択的還元を改善し得る。

一部の実施形態では、ｃａＣ（例えば、５ｃａＣ）は、例えば、本明細書において提示される方法においてウラシル（Ｕ）またはジヒドロウラシル（ＤＨＵ）に還元され得る。これは、例えば、本明細書において提示される方法におけるｃａＣのチミン残基への変換の代わりに実施される場合がある。一部のこのような実施形態では、これは、例えば、参照によりその全体が本明細書に組み込まれる、（Schuler P, Miller AK. Sequencing the sixth base (5-hydroxymethylcytosine): selective DNA oxidation enables base-pair resolution. Angew Chem Int Ed Engl. 2012;51(43):10704-10707. doi:10.1002/anie.201204768）に記載されているように実施することができる。

２塩基シーケンシング方法の一部の実施形態では、第１のポリヌクレオチド（および／または第２のポリヌクレオチド）は、例えば、第１のポリヌクレオチドおよび第２のポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する薬剤と接触させる前に、ベータ－グルコトランスフェラーゼ（beta-glucotransferase）（ｂＧＴ）と接触しない。例えば、６つの核酸塩基を鑑別することが可能な２塩基シーケンシング方法（例えば、アデニン、グアニン、チミン、シトシン、５－メチルシトシン、および５－ヒドロキシメチルシトシンがすべて、互いに鑑別され得る６文字シーケンシング）は、一部の場合には、第１のポリヌクレオチド（および／または第２のポリヌクレオチド）をｂＧＴと接触させることを含まない場合がある（例えば、図４に示されている）。一部の場合には、第１のポリヌクレオチドおよび第２のポリヌクレオチドは、メチル化タグを、第１のポリヌクレオチドの５－メチルシトシン塩基から第２のポリヌクレオチドのシトシン（例えば、第１のポリヌクレオチドの５－メチルシトシンのものに対応する座位の近位にある（例えば、それに近接する）第２のポリヌクレオチドのシトシン）に転移させるのに十分な特異性を有するＤＮＡメチルトランスフェラーゼ活性を有する分子と接触させる。例えば、ＤＮＡメチルトランスフェラーゼ－５（ＤＮＭＴ５）またはＤＮＭＴ１を使用して、例えば、５－メチルシトシン（５ｍＣ）タグを第２のポリヌクレオチドのシトシンに転移させるために、５－メチルシトシン塩基および／または５－ヒドロキシメチルシトシン（５ｈｍＣ）塩基を含む第１のポリヌクレオチド（例えば、ここで、第１のポリヌクレオチドは、例えば、ワトソン－クリック型の塩基対合および／またはヘアピンポリヌクレオチドによって連結されている）を接触させることができ、ここで、５ｍＣおよびシトシンはＣｐＧコンテキスト内にある。一部の場合には、例えば、ＤＮＭＴ１またはＤＮＭＴ５メチルトランスフェラーゼ活性の塩基特異性により、ＤＮＭＴ５またはＤＮＭＴ１と接触した場合に、同一の第１のポリヌクレオチドの保護されていない５ｈｍＣ塩基は第２のポリヌクレオチドのシトシンに転移しないことになる（例えば、第１のポリヌクレオチドの５ｈｍＣを含む（例えば、その近位にある）ＣｐＧコンテキスト内に第２のポリヌクレオチドのマークされていないシトシンが存在する場合であっても）。一部の場合には、メチルトランスフェラーゼは、メチル化タグを、第１のポリヌクレオチドの５－メチルシトシン塩基から（例えば、連結した）第２のポリヌクレオチドのシトシン（例えば、第１のポリヌクレオチドの５－メチルシトシンのものに対応する座位の近位にある（例えば、それに近接する）第２のポリヌクレオチドのシトシン）に転移させるのに特異的でなくてもよく、５－ヒドロキシメチルシトシンは、修飾によって、例えば（例えば、酵素的な）グリコシル化によって、非特異的メチルトランスフェラーゼ活性から保護されてもよい。第１および第２のポリヌクレオチドをＤＮＡメチルトランスフェラーゼと接触させた後、第１および第２のポリヌクレオチドを、例えば、第１のポリヌクレオチドおよび／または第１および第２のポリヌクレオチドに存在する５ｍＣおよび５ｈｍＣ塩基を５－カルボキシルシトシン（例えば、図４に示されている「５ｃａＣ」または「ｃａＣ」）に変換するために、酸化剤（例えば、ＴＥＴ、ＴＥＴ誘導体、またはその生物学的に活性な断片）と接触させることができる。第１および第２のポリヌクレオチドは、例えば、ｃａＣ塩基をＤＨＵ残基に変換するために、還元剤（例えば、ボランなどの本明細書において提示される還元剤）と接触させることができる。還元剤と接触させた後に、第１および／または第２のポリヌクレオチドを弱塩基、または一部の場合には、弱酸で処理することができる。一部の場合には、第１および第２のポリヌクレオチドは、リードポリヌクレオチドが本明細書に記載されているように（例えば、ＰＣＲを使用して）生成される前に分離される（例えば、ヘリカーゼ、一本鎖ＤＮＡ結合タンパク質、鎖置換ポリメラーゼ、または温度上昇を使用することによって）。本明細書に記載されているように、第１のポリヌクレオチドおよびリードポリヌクレオチドはシーケンシングされてもよく、元のポリヌクレオチド（これは、一部の場合には、第１のポリヌクレオチドである）の真の塩基の値は、本明細書において提示される２塩基シーケンシングを使用して決定することができる。例えば、元のポリヌクレオチド（これは、第１のポリヌクレオチドであってもよい）の真の塩基の値は、第１のポリヌクレオチドの第１の塩基および第２のポリヌクレオチドの第２の塩基のアイデンティティーに基づいて決定することができ、例えば、ここで、第２の塩基は第１の塩基と対合しているか（例えば、真の塩基の値がアデニン、グアニン、またはチミンであると決定される場合のようにワトソン－クリック型の塩基対合しているか）、または第２の塩基はその近位にある（例えば、真の塩基の値が５ｍＣまたは５ｈｍＣであると決定される場合のように、それを含むＣｐＧコンテキスト内にある）。

図５および７Ａは、本明細書において提供される方法においてＤＮＡをシーケンシングするために適用され得る方法を示す。無細胞ＤＮＡ（ｃｆＤＮＡ）または断片化されたＤＮＡは両末端から捕捉され、フォークヘッドおよびヘアピンを既に含有する配列を得ることができる。このＤＮＡは、１つまたは複数の（例えば、２つの）標的化配列を含んでもよい。一部の場合には、捕捉ＤＮＡ（例えば、ヘアピンおよび標的化配列を含む）は、１つの標的化配列を含んでもよい。一部の場合には、捕捉ＤＮＡは、２つの標的化配列を含む。一部の場合には、標的化配列は、１０～２００ｂｐの長さであってもよい。一部の場合には、標的化配列は、２０～１００ｂｐの長さであってもよい。一部の場合には、標的化配列は、２５～５０ｂｐの長さであってもよい。例えば、ＤＮＡは、およそ５０塩基対（ｂｐ）の長さの２つの標的化配列を含んでもよい（例えば、捕捉されたｃｆＤＮＡは約１６６塩基対を含んでもよい）。一部の場合には、ｃｆＤＮＡは、１６６を超える塩基対または１６６未満の塩基対を含む場合がある。ギャップは、必要に応じて、ＳｕｌｆｏｌｏｂｕｓのＤＮＡポリメラーゼＩＶでフィリングされてもよい。一部の実施形態では、ＳｕｌｆｏｌｏｂｕｓのＤＮＡポリメラーゼＩＶの代わりにまたはそれに加えて非鎖置換の任意の方法を使用することができる。一部の場合には、このようなプロセスは鎖置換をもたらさない。コピーされた配列に修飾がないことは有益である場合があり、ボトム鎖の新たな配列を調査することができる。一部の場合には、フォークヘッド付近のセクションは、シーケンシングされてもよく、非修飾ＣｐＧとして出現し得る。これらは、真の非修飾ＣｐＧであってもそうでなくてもよい。一部の場合には、修飾が検出されると、真の標的配列であることの確認を確認することができる。図７Ａによって例証されるように、方法は、第１のポリヌクレオチド（例えば、ここで、第１のポリヌクレオチドは、シトシン、ｍＣ、および／またはｈｍＣを含む）を提供するステップと、第１のポリヌクレオチドをその相補鎖から分離するステップと、ヘアピンポリヌクレオチド（例えば、ヘアピンプローブ）およびアダプターポリヌクレオチド（例えば、シーケンシングアダプターを含んでもよいアダプタープローブ）を使用して標的の第１のポリヌクレオチドを捕捉するステップと、ライゲーションする前に第１のポリヌクレオチドからヘアピンおよびアダプターまでをギャップフィリングするステップと、本明細書において提示される４、５、または６文字シーケンシングを実施するステップ（例えば、第１および／または第２の鎖をｂＧＴ、ＤＮＭＴ１、および脱アミノ化剤と接触させることを含む）とを含んでもよい。

図６は、配列を、ＢＧＴおよびＤＮＭＴ１を使用して修飾し、ＢＳ変換／ＰＣＲおよびシーケンシングに供することができる方法を示す。一部の実施形態では、このような方法は、図５において提供されるような方法の続きであってもよい。このような方法は、平滑末端ライゲーションがないこと、またはウラシルもしくはデオキシウラシルが存在した場所に単一のヌクレオチドギャップを生じる酵素の混合物、例えばＵｒａｃｉｌＤＮＡＧｌｙｃｏｓｙｌａｓｅ（ＵＤＧ）およびＥｎｄｏｎｕｃｌｅａｓｅＶＩＩＩの混合物による消化を特徴とする場合があり、低収率の原因を低減または排除することができる。一部の実施形態では、このような方法は、効率的な付着末端ライゲーションをもたらすことができ、例えば、ハイブリダイゼーションおよび伸長は、５５摂氏度またはおよそ５５摂氏度で実施することができる。一部の実施形態では、ハイブリダイゼーションおよび伸長は、約４０摂氏度、約４５摂氏度、約５０摂氏度、約５５摂氏度、約６０摂氏度、約６５摂氏度、約７０摂氏度、またはいずれか２つの前述の値の間の範囲で実施することができる。一部の実施形態では、長い捕捉配列から非常に長い捕捉配列は、オフターゲット捕捉を低減または排除し得る。一部の実施形態では、標的化は、ネイティブＤＮＡ（例えば、Ｃ、Ｇ、Ａ、Ｔなどの４塩基コードを有する）において実施することができる。一部の実施形態では、柔軟な標的化配列は、可変性のリンカー長を有するｃｆＤＮＡの捕捉を可能する場合がある。一部の実施形態では、このような方法は、例えば、超音波処理されたＤＮＡではランダムな断片がより多いために、ｃｆＤＮＡと比較して超音波処理されたＤＮＡのあまり効率的ではない捕捉を呈する場合がある。一部の実施形態では、ＢＳ変換は、ｃｆＤＮＡに関する収率に影響を及ぼす可能性のある物的損失をもたらす場合があり、一部の実施形態では、担体ＤＮＡを使用して、このような物的損失から保護することができる。一部の実施形態では、ｃｆＤＮＡは点状のパターンを有さない場合があり（例えば、ヌクレオソームの）、これは、単一のプローブを使用して捕捉する場合の物的損失に関連する可能性があり、一部の実施形態では、プローブタイリングを使用して、このような物的損失から保護することができる。

図７Ｂは、ターゲットシーケンシングのための方法を示す。このような方法は、単一の捕捉を特徴とし得る。一部の実施形態では、方法を、ｃｆＤＮＡおよび他の断片化されたＤＮＡ、例えば超音波処理されたＤＮＡに適用することができる。一部の実施形態では、一意の分子識別子（ＵＭＩ）を、例えば重複排除のためにプローブに組み込んでもよい。一部の実施形態では、ビオチン化されたプローブ／ｓｔｒｅｐビーズを清浄化のために使用することができ、このようなプローブまたはビーズを用いない場合よりも低いバックグラウンドをもたらすことができる。このような方法は簡便かつ迅速である可能性があり、一部の場合には、１日のワークフローをもたらすことができる。一部の実施形態では、このような方法は、シングルエンドＴ／Ａライゲーションを呈し得る。３－塩基Ｐ５特異的ＰＣＲプライマーを使用することができ、このような方法は、２セットのプライマーまたは４文字塩基の判別に使用される方法（例えば、４文字シーケンシング）よりも長いオリゴヌクレオチドを使用することができる。

図８は、ＩＩ型制限部位を含むビオチン化されたプローブを使用する方法を示す（一部は稀である場合があり、例えば、合成生物学の方法において使用することができる）。このような方法は、一般的なＩＩ型制限部位と適合し得る。一部の場合には、このような方法は、変換されたＤＮＡにアニーリングするすべてのプローブを排除し得る。最初のアダプターは、ＴＡクローニングまたは他のライゲーション方法によってライゲーションされ得るが、ヘアピンアダプターのライゲーションは、効率的な４塩基オーバーハングおよびライゲーションであってもよい。

図９は、ビオチン化されたプローブを使用する改変されたアプローチを示す。このスキームは以下のうちの１つまたは複数に関与してもよい：１）少なくとも１つのヘアピンのための条件、２）ビオチン化されたプローブ－このプローブはエキソヌクレアーゼから保護され得る、３）このような方法は最後のＰＣＲにおいてｐ５およびｐ７アダプターを使用してもよく、一部の場合には、代わりに制限部位がこの配列において使用されてもよく；一部の場合には、図８に例示されているように、追加のライゲーション事象と共にこれを実施してもよい、ならびに４）ギャップフィリング操作では、ＡＰＯＢＥＣまたはＢＳ不応性のｄＮＴＰが使用されてもよい。一部の実施形態では、このような方法は、個々の第１のポリヌクレオチド（ＯＳ）および第２のポリヌクレオチド（ＣＳ）の情報を維持しようとしない場合があるが、むしろ高深度のカバレッジに依拠し、例えば、標的部位のｍＣおよびｈｍＣをデコンボリューションすることができる。一部の実施形態では、このような方法は、単一のヘアピンライゲーションを含まない場合がある。

例えば、図１８に示されているように、プライマーを４塩基ゲノムにアニーリングさせることができる（例えば、変換前に）簡便な標的化のための方法も本明細書において提供される。一部の実施形態では、単一標的化のための方法は、本明細書において提供されるＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法に組み込まれてもよい。このような方法は、例えば、（１）末端修復、（２）ヘアピンライゲーション、（３）ウラシルもしくはデオキシウラシルが存在した場所に単一のヌクレオチドギャップを生じる酵素の混合物、例えばＵｒａｃｉｌＤＮＡＧｌｙｃｏｓｙｌａｓｅ（ＵＤＧ）およびＥｎｄｏｎｕｃｌｅａｓｅＶＩＩＩという酵素などの混合物による消化；ならびに変性、（４）シーケンシングアダプターを含む標的プローブのビオチン化、（５）第２のポリヌクレオチドの伸長および第２のポリヌクレオチドのヘアピンへのライゲーション、（６）例えば、ｓｓＤＮＡ３’－５’エキソヌクレアーゼを使用する第１のポリヌクレオチドからのオーバーハング（例えば、３’オーバーハング）の除去、（７）第２のアダプターによるプロービングおよびそのライゲーション、ならびに（８）プルダウンのうちの１つまたは複数を含んでもよい。一部の実施形態では、このワークフローには、本明細書において提供される方法、例えば、ＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法を続けてもよい。オーバーハングの除去を実施することができるエキソヌクレアーゼ活性の非限定的な例は、参照によりその全体が本明細書に組み込まれる（Runnberg, R., Narayanan, S., Itriago, H. et al. Either Rap1 or Cdc13 can protect telomeric single-stranded 3' overhangs from degradation in vitro. Sci Rep 9, 19181 (2019). https://doi.org/10.1038/s41598-019-55482-3）において提供される。

図９は、第１のポリヌクレオチドおよび第２のポリヌクレオチドの相対的な物理的配置と無関係であってもよい別の改変されたアプローチを示す。一部の実施形態では、この方法は、カバレッジが高くてもよく、一本鎖（単一分子レベル）の５ｍＣおよび５ｈｍＣをデコンボリューションするのではなく、むしろ標的領域の「全体的な」像を与えるものであってよい。このような方法はまた、一部の実施形態では、個々の鎖（例えば、ポリヌクレオチド）情報を獲得するためにＵＭＩに依拠してもよい。一部の実施形態では、このような方法は、断片情報を維持してもよい。例えば、本明細書の方法におけるカバレッジの高い第１のポリヌクレオチド（ＯＳ）および第２のポリヌクレオチド（ＣＳ）のリードは、図９の右パネルに示されている。個々の鎖情報は、カバレッジが高い場合、維持されていても維持されていなくてもよい。一部の場合には、このような方法は、個々のＯＳおよびＣＳの情報を維持しようとしない場合があるが、むしろ高深度のカバレッジに依拠し、例えば、標的部位のｍＣおよびｈｍＣをデコンボリューションすることができる。

一部の実施形態では、本明細書において提供される方法は、タグメンテーションを組み込むことができる。一部の実施形態では、タグメンテーションは、ＤＮＡ（例えば、二本鎖ＤＮＡ）を切断およびタグ付けすることができるプロセス（例えば、ＤＮＡの分析において使用するため）であってもよい。一部の実施形態では、タグメンテーションは、ＤＮＡ試料の断片化およびそれに関して実施されるアダプターライゲーション操作を含んでもよい。これは、例えば、トランスポソーム（これは、トランスポザーゼと複合体を形成したトランスポゾンであってもよい）を使用して実施することができる。トランスポソームによって、ＤＮＡのカットが起こり（例えば、トランスポザーゼ活性）、トランスポソームの一部であり得るＤＮＡ配列（例えば、トランスポゾン配列）をＤＮＡに挿入することができる（例えば、トランスポゾン活性）。一部の実施形態では、トランスポゾン配列などのＤＮＡに挿入された配列は、アダプター配列を含んでもよい。一部の実施形態では、トランスポソームは、ＤＮＡを切断し、挿入することができる。一部の実施形態では、ＤＮＡをカットすることができ、同時または本質的に同時にトランスポゾン配列を実施することができる。一部の実施形態では、ＤＮＡをカットした後に、トランスポゾン配列を挿入することができる。トランスポゾン配列の挿入は、一部の場合には、ＰＣＲ増幅を含んでもよいクリーンアップ操作後に行われてもよい。このようなクリーンアップ操作は、ＤＮＡに結合したトランスポソームを除去し、後の操作への妨害を防止することができる。一部の実施形態では、タグメンテーションを含む方法は、ＤＮＡ断片の末端修復またはアダプターライゲーション調製を必要としない場合がある。タグメンテーションは、例えば、試料の細胞状況を特徴付けるために使用されてもよい。タグメンテーションの組込みおよびその方法の非限定的な例は、参照によりその全体が本明細書に組み込まれる、（Chen C, Xing D, Tan L, et al. Single-cell whole-genome analyses by Linear Amplification via Transposon Insertion (LIANTI). Science. 2017;356(6334):189-194. doi:10.1126/science.aak9787）および（Raine A, Manlig E, Wahlberg P, Syvanen AC, Nordlund J. SPlinted Ligation Adapter Tagging (SPLAT), a novel library preparation method for whole genome bisulphite sequencing. Nucleic Acids Res. 2017;45(6):e36. doi:10.1093/nar/gkw1110）に記載されている。

タグメンテーションを本明細書において提供される方法、例えば、ＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法に組み込むことができる例が図１０において例示されている。この例では、それぞれがトランスポザーゼならびにヘアピン配列およびトランスポザーゼ結合部位を含み得るＤＮＡ鎖を含む２つのサブユニットを含むトランスポソーム二量体をゲノムＤＮＡに適用することができる。トランスポソームはゲノムＤＮＡをカットすることができ、トランスポソームＤＮＡはカットゲノムＤＮＡにアニーリングされ得る。描写されているように、鎖変性およびｐ５プローブのライゲーションと、それに続いて別の鎖変性操作およびｐ７プローブのアニーリングが実施され得る。この後に、２回目のポリヌクレオチド伸長（例えば、鎖置換ネガティブ）およびライゲーションが続き、第１のポリヌクレオチド（ＯＳ）および第２のポリヌクレオチドを含むＤＮＡ分子を得ることができる。

タグメンテーションを本明細書において提供される方法、例えば、ＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法に組み込むことができる別の例が図１１において例示されている。この例では、２つのＴｎ５トランスポザーゼならびにそれぞれがヘアピン配列およびトランスポゾン結合部位（例えば、転位酵素（transpose）結合部位）を含む２つの核酸分子を組み合わせて、トランスポソーム二量体を得ることができる。このトランスポソーム二量体は、ＤＮＡ（例えば、ゲノムＤＮＡ、ｇＤＮＡ）に適用され、よって、ＤＮＡをタグメンテーションし、トランスポゾン結合部位とヘアピン配列に挟まれたゲノムＤＮＡを得ることができる。このタグメンテーションされたＤＮＡに関してギャップ修復を実施することができ、得られたＤＮＡ分子を本明細書において提供される方法、例えば、ＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法に供することができる。

一部の実施形態では、本明細書に記載の方法は、ゲノムにおいて目的の領域を標的化するためのアダプターの使用を含んでもよい。一部の場合には、アダプターはＰＣＲアダプターである。一部の場合には、アダプターは、ゲノムにおいて目的の領域の５’または３’末端を標的化するように設計され得る。一部の場合には、ＰＣＲアダプターは、目的の領域の５’または３’末端にアニーリングする標的化領域を含んでもよい。一部の場合には、標的ＰＣＲアダプターの第２の対を使用して、目的の領域の５’または３’末端を標的化してもよい。一部の場合には、標的ＰＣＲアダプターを使用して、次世代シーケンシングアダプターを目的の領域の５’または３’末端に付加してもよい。一部の場合には、標的ＰＣＲアダプターは、目的の領域にアニーリングする標的化領域に加えて次世代シーケンシングアダプターを含有してもよい。一部の場合には、複数のアダプターまたは標的化プローブを、ゲノムにおける複数の目的の領域を標的化するために使用してもよい。一部の場合には、第３のプローブを、目的の領域を標的化するために使用してもよい。一部の場合には、第４のプローブを使用してもよい。一部の場合には、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、５０、５６、６０、６４、６８、７２、７６、８０、８４、８８、９０、９４、９６、または１００個のアダプターまたは標的化プローブが使用される。

一部の場合には、アダプターまたはプローブはバーコードを含んでもよい。一部の場合には、アダプター（例えば、ＰＣＲアダプター）または標的化プローブは脱アミノ化から保護される。一部の場合には、アダプターの保護は、ｍＣ、５ｈｍＣ、ｆＣまたはｃａＣヌクレオチドの組込みによって実現することができ、一部の場合には、ＰＣＲアダプターは、ＡＰＯＢＥＣ３Ａ耐性ヌクレオチド（ｇｈｍＣ、ｆＣまたはｃａＣ）に変換されるヌクレオチドを含有する。一部の場合には、アダプター（例えば、ＰＣＲアダプター）は、ＡＰＯＢＥＣ３Ａによる脱アミノ化から保護されるインデックスを含有してもよい。一部の場合には、標的化プローブは、非鎖置換酵素と共に使用されてもよい。一部の場合には、非鎖置換酵素はＴ４である。一部の場合には、ｓｓＤＮＡエキソヌクレアーゼを使用して、ギャップフィリング後にオーバーハングを除去する。一部の場合には、ギャップフィリングは、ＡＰＯＢＥＣ３Ａ耐性ヌクレオチドにより拡張される。一部の場合には、鎖置換ネガティブポリメラーゼは、ＰＣＲ中にギャップフィリングに強制的に使用される。一部の場合には、ギャップフィリングに続いてライゲーションが行われる。一部の場合には、アダプターは、脱アミノ化から保護される。一部の場合には、ヘアピンは、脱アミノ化から保護される修飾された塩基を含んでもよい。一部の場合には、アダプターの保護は、ｍＣ、５ｈｍＣ、ｆＣまたはｃａＣヌクレオチドの組込みによって実現することができ、一部の場合には、ＰＣＲアダプターは、ＡＰＯＢＥＣ３Ａ耐性ヌクレオチド（ｇｈｍＣ、ｆＣまたはｃａＣ）に変換されるヌクレオチドを含有する。一部の場合には、ヘアピンの保護は、例えば、ｍＣ、５ｈｍＣ、ｆＣまたはｃａＣによって実現することができ、これは、これらがＡＰＯＢＥＣ３Ａ耐性ヌクレオチド（ｇｈｍＣ、ｆＣまたはｃａＣ）への変換を受けることになるためである。一部の場合には、ヘアピンはカスタムインデックスバーコードを含んでもよい。

一部の場合には、プローブは、プルダウンに好適な分子アタッチメント（ｍｏｌｅｃｕｌａｒａｔｔａｃｈｍｅｎｔ）を含有してもよい。一部の場合には、アタッチメントは親和性プローブである。一部の場合には、親和性プローブはビオチン分子である。一部の場合には、親和性プローブはアプタマーである。一部の場合には、親和性プローブはペプチドである。一部の場合には、シーケンシングは、ヘアピンのシーケンシングに関与してもよい。一部の場合には、Ｉｌｌｕｍｉｎａプラットフォームのロングリードシーケンシングのためのアダプターが設計され得る。一部の場合には、シーケンシングは、ヘアピンのシーケンシングに関与してもよい。一部の場合には、Ｉｌｌｕｍｉｎａプラットフォームのショートリードシーケンシングのためのアダプターが設計され得る。一部の場合には、アダプターは、４塩基プローブである。一部の場合には、アダプターは、３塩基標的化のために設計される。一部の場合には、アダプターは、５ｂｐの長さである。一部の場合には、アダプターは、６ｂｐの長さである。アダプターは、７ｂｐの長さである。一部の場合には、アダプターは、８ｂｐの長さである。一部の場合には、アダプターは、９ｂｐの長さである。一部の場合には、アダプターは、１０ｂｐの長さである。

一部の場合には、ＤＮＡ出発材料は変性される（例えば、温度変性を使用する）。一部の場合には、目的の領域（ＲＯＩ）を標的とするために、標的化プライマーが使用される。一部の場合には、標的化プライマーは、４塩基のプローブであるよう設計される。一部の場合には、標的化プローブは、目的の領域の５’末端を標的とするよう設計される。一部の場合には、標的化プローブは、目的の領域の３’末端を標的とするよう設計される。一部の場合には、標的化プライマーは、捕捉された鎖を個々にインデックス付けするためのＩｌｌｕｍｉｎａのカスタムインデックスを含有してもよい。一部の場合には、標的化プローブの第２の対を使用して、ＲＯＩの５’末端を標的とする。一部の場合には、第２の標的化プローブは、３塩基のプローブであってもよい。一部の場合には、プローブの対の使用は、ＰＣＲハンドルを作出するために使用される。一部の場合には、ＰＣＲアダプターは、スタッガード二重鎖（ｓｔａｇｇｅｒｅｄｄｕｐｌｅｘ）である。一部の場合には、アダプターは、インデックスを含んでもよい。一部の場合には、ＰＣＲアダプターは、ＲＯＩの５’末端をプライミングする標的化配列を有する。一部の例では、ｓｓＤＮＡの５’および３’末端のＲＯＩをプライミングした後、「ギャップ」を、鎖置換ネガティブポリメラーゼ（例えば、Ｔ４など）を使用してフィリングし、それに続いてライゲーションすることができる（例えば、Ｔ４リガーゼ）。一部の場合には、エピジェネティックな塩基であるｍＣは、元の鎖からコピーされた鎖までにわたりコピーされ得る。一部の場合には、５ｈｍＣは、ｂＧＴ酵素による処理によって脱アミノ化から保護され得る。一部の場合には、構築物をＴＥＴで処理し（ｂＧＴの存在下または非存在下で）、ｍＣをｆＣ、ｃａＣまたはｇｈｍＣに変換する。一部の場合には、ＡＰＯＢＥＣ３ＡとヘリカーゼＵｖｒＤ（図４８、実施例１８においてさらに説明される）、またはその断片との組合せを使用してヘアピンが広げられる。複数の目的の領域を標的化する場合、本方法は、大規模な多重化ＰＣＲなどの別の方法と組み合わせて使用することができる。

一部の場合には、ＤＮＡ出発材料は最初に変性される（例えば、温度変性を使用する）。一部の場合には、アダプターまたはプライマーオリゴヌクレオチドは、目的の領域（ＲＯＩ）を標的とするよう設計される。一部の場合には、アダプターは、ＰＣＲ増幅のためのさらなる配列を含有する。一部の場合には、アダプターは、４塩基プローブである。一部の場合には、アダプターは、インデックスを含んでもよいさらなる配列を含んでもよい。一部の場合には、アダプターは、Ｉｌｌｕｍｉｎａシーケンシングアダプターを含んでもよい。一部の場合には、アダプターを使用して、後のＰＣＲ操作においてＩｌｌｕｍｉｎａシーケンシングアダプターを付加してもよい。一部の場合には、アダプターは、脱アミノ化から保護される。一部の場合には、アダプターは、例えば、ＡＰＯＢＥＣ３Ａ耐性塩基（例えば、ｈｍＣ、ｆＣまたはｃａＣ）を含有することによって、ＡＰＯＢＥＣ３Ａからの脱アミノ化から保護される。一部の場合には、アニーリングされたプライマーまたはアダプターは、Ｋｌｅｎｏｗポリメラーゼにより伸長される。一部の場合には、ヘアピンは、先ずＡテイルによって付加され、次いで、Ｔ－オーバーハングを有するヘアピンを使用し、ヘアピンを構築物にライゲーションして、２塩基シーケンシングのための構築物を生成する。一部の例では、エピジェネティックな修飾（例えば、メチル化）は、元の鎖からコピーされた鎖にわたってコピーされる。一部の場合には、５ｈｍＣは、ｂＧＴ酵素による処理によって脱アミノ化から保護され得る。一部の場合には、構築物をＴＥＴで処理し（ｂＧＴの存在下または非存在下で）、ｍＣをｆＣ、ｃａＣまたはｇｈｍＣへと酸化させる。そして一部の場合には、ＡＰＯＢＥＣ３ＡとヘリカーゼＵｖｒＤ、またはその断片との組合せを使用してヘアピンが処理される。一部の場合には、ＰＣＲハンドルを使用して、第２の標的化オリゴヌクレオチドと組み合わせてＲＯＩを増幅させることができる（図４９、実施例１８においてさらに説明される）。一部の場合には、第２の標的化ヌクレオチドは、３塩基のプローブである。一部の場合には、複数の目的の領域を標的化するために本方法を使用することができる。一部の場合には、本方法は、大規模な多重化ＰＣＲなどの別の方法と組み合わせて使用することができる。

一部の例では、二本鎖の出発ＤＮＡは末端修復されている。一部の例では、二本鎖の出発ＤＮＡはＡテイル付加されている。一部の場合には、出発ＤＮＡは、「ＴＡ」ライゲーションを使用し、それによって、ヘアピンが、ＤＮＡの両側でヘアピンをプライミングし、ライゲーションするために使用されるＴオーバーハングを含有することによって、ヘアピンと適合される。一部の場合には、ヘアピンはＵを含有し、よって、ウラシルまたはデオキシウラシルが存在した場所に単一のヌクレオチドギャップを生成する酵素の混合物、例えば、ＵｒａｃｉｌＤＮＡＧｌｙｃｏｓｙｌａｓｅ（ＵＤＧ）およびＥｎｄｏｎｕｃｌｅａｓｅＶＩＩＩという酵素などの混合物を使用してカットされ得る。一部の場合には、プローブを使用して、前記ＤＮＡ構築物の３’末端をプライミングし、その結果、ＤＮＡ構築物はここで、ＲＯＩの反対側でヘアピンに隣接する。一部の場合には、プローブは４塩基である。一部の場合には、オリゴはＡＰＯＢＥＣ３Ａ脱アミノ化から保護される。一部の場合には、オリゴヌクレオチドまたはアダプターは、例えば、ＡＰＯＢＥＣ３Ａ耐性塩基（例えば、ｈｍＣ、ｆＣまたはｃａＣ）を含有することによって、ＡＰＯＢＥＣ３Ａ脱アミノ化から保護される。一部の場合には、オリゴヌクレオチド／アダプターの５’末端は、修飾された塩基（例えば、ホスホロチオエート誘導体）を含有することによってエキソヌクレアーゼ耐性である。一部の場合には、ＩｌｌｕｍｉｎａシーケンシングアダプターがさらなるＰＣＲ処理においてアダプターに付加される。一部の場合には、元のＰＣＲアダプターは、ＰＣＲハンドル配列およびＩｌｌｕｍｉｎａアダプターを含有する伸長したプライマーを含有する。一部の場合には、オリゴヌクレオチドまたはアダプターは、インデックスを含有してもよい。一部の場合には、オリゴヌクレオチドまたはアダプターは、プライミングされ、ヘアピンを置換しない鎖置換ネガティブポリメラーゼにより伸長される。一部の場合には、次いで、コピー鎖はヘアピンにライゲーションされる。一部の場合には、３’末端における潜在的ミスマッチはｓｓＤＮＡ特異的エキソヌクレアーゼによりトリミングされ、ｆＣまたはｃａＣなどのＡＰＯＢＥＣ３Ａ耐性塩基を使用して、ポリメラーゼにより相補配列が構築され得る。一部の場合には、エピジェネティックな塩基であるｍＣは、元の鎖からコピーされた鎖までにわたりコピーされ得る。一部の場合には、５ｈｍＣは、ｂＧＴ酵素による処理によって脱アミノ化から保護され得る。一部の場合には、構築物をＴＥＴで処理し（ｂＧＴの存在下または非存在下で）、ｍＣをｆＣ、ｃａＣまたはｇｈｍＣへと酸化させる。一部の場合には、ＡＰＯＢＥＣ３ＡとヘリカーゼＵｖｒＤの組合せを使用してヘアピンが広げられる。一部の場合には、ＲＯＩはここで、脱アミノ化耐性ＰＣＲハンドルを使用して増幅することができる（図５０、実施例１８においてさらに記載される）。一部の場合には、複数の目的の領域を標的化するために本方法を使用することができる。一部の場合には、本方法は、大規模な多重化ＰＣＲなどの別の方法と組み合わせて使用することができる。

一部の実施形態では、ロングリード技術は、本明細書において提供される方法、例えば、ＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法に組み込まれてもよい。例えば、第三世代シーケンシング（例えば、ロングリードシーケンシング）を使用して、合成ロングリードを生成するか（例えば、ｄｅｎｏｖｏアセンブリーおよびゲノムフィニッシングに適用するため）、難解なゲノム（例えば、高度反復エレメントのストレッチを含有するもの）をシーケンシングするか、または全ゲノムフェージング（例えば、共に受け継がれる対立遺伝子、ハプロタイプ情報、またはｄｅｎｏｖｏ相突然変異を同定するために）を実施することができる。一部の実施形態では、例えば、ロングリード技術はローリングサークル増幅（ＲＣＡ）を組み込むことができる。ローリングサークル増幅は、ＤＮＡまたはＲＮＡの複数のコピーを迅速に合成することができる一方向の核酸複製プロセスであってもよい。一部の実施形態では、ＲＣＡは少量から極少量の出発材料からＤＮＡを増幅することができる。ＲＣＡは、ポリメラーゼによって、環状鋳型にアニーリングされたプライマーに単一のヌクレオチドが連続的に付加され得る等温核酸増幅技法であってもよい。一部の実施形態では、ＲＣＡは、数十から数百のタンデムリピートを含む可能性のある長いコンカテマー一本鎖ＤＮＡ分子（ｓｓＤＮＡ）をもたらし得る。このようなタンデムリピートは環状鋳型に対して相補的であってもよい。ＲＣＡ反応において使用される構成成分には、ＤＮＡポリメラーゼ、ポリメラーゼと適合する好適な緩衝剤、短いＤＮＡまたはＲＮＡプライマー、環状ＤＮＡ鋳型およびデオキシヌクレオチド三リン酸（ｄＮＴＰ）が含まれてもよい。ＲＣＡは、（１）鋳型媒介性酵素ライゲーション（例えば、Ｔ４ＤＮＡリガーゼ）または特別なＤＮＡリガーゼ（例えば、ＣｉｒｃＬｉｇａｓｅ）を使用する鋳型を含まないライゲーションによって行われ得る環状鋳型ライゲーション、（２）プライマー誘導型一本鎖ＤＮＡ伸長、および（３）方法における増幅産物の使用を含むことができる１つまたは複数の操作を含んでもよい。本明細書において、ＲＣＡを用いて循環遊離ＤＮＡ（ｃｆＤＮＡ）を増幅することができるため、これはロングリードで読むことができ、同じｃｆＤＮＡ断片の複数のリードを可能にし得る。一部の実施形態では、これにより、極度のエラー補正が可能になり得る。このようなＲＣＡ法の使用の非限定的な例は、参照によりその全体が本明細書に組み込まれる、（Wilson BD, Eisenstein M, Soh HT. High-Fidelity Nanopore Sequencing of Ultra-Short DNA Targets. Anal Chem. 2019;91(10):6783-6789. doi:10.1021/acs.analchem.9b00856）において提供されている。

本明細書において、核酸分子は、ヌクレオチド鎖である可能性のある分子であってもよい。本明細書に記載の核酸分子は、リボ核酸（ＲＮＡ）を含んでもよい。本明細書に記載の核酸分子は、デオキシリボ核酸（ＤＮＡ）を含んでもよい。

ロングリード技術を、ＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法に組み込むためにＲＣＡを使用することができる方法の例は、図１２において提供される。一部の実施形態では、図１２に示されているように、ＲＣＡは、ＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法の後に実施することができる。一部の実施形態では、本方法は、ＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定することの一部として、またはＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法のうちのいずれか２つの操作の間にＲＣＡを実施するステップを含む。例えば、循環プライマーまたはパドロックプローブは、シーケンシングされるＤＮＡ鎖の５’末端および３’末端にアニーリングすることができるように適用され得る。ＲＣＡは、第１および第２のポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドの第１のポリヌクレオチド（例えば、フォワードまたはリバースポリヌクレオチド）および第２のポリヌクレオチド（例えば、同族ポリヌクレオチド）のｎ個のコピーを含む長いＤＮＡ配列を得るために実施することができる（例えば、ｐｓｉ２９または別のポリメラーゼなどの任意の許容されるポリメラーゼを使用して）。一部の実施形態では、ｎは、少なくとも約２、少なくとも約５、少なくとも約１０、少なくとも約２０、少なくとも約３０、少なくとも約４０、少なくとも約５０、少なくとも約１００、少なくとも約５００、または少なくとも約１０００であってもよい。一部の実施形態では、ｎは、約５以下、約１０以下、約２０以下、約３０以下、約４０以下、約５０以下、約１００以下、約５００以下、または約１０００以下であってもよい。一部の実施形態では、ｎは、約２、約５、約１０、約２０、約３０、約４０、約５０、約１００、約５００、約１０００、またはいずれか２つの前述の値の間の範囲であってもよい。

一部の実施形態では、本明細書において提供されるＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法は、代替の方法とほぼ同じくらい良好であるかまたはそれよりも良好である変換率を生じ得る。変換率に関する計算は、例えば、図１３の表に示されているようなものであってもよく、この表は、本明細書において提供されるＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定する方法を使用する実験において、小脳ゲノムＤＮＡと並んだ１６６ヌクレオチドのスパイクイン対照からのデータを使用して埋めた。注目すべきことに、一部の実施形態では、Ａに関するコールの精度パーセントは少なくとも約９７．５％であってもよく、Ｃに関するコールの精度パーセントは少なくとも約９５．６％であってもよく、Ｇに関するコールの精度パーセントは少なくとも約９７．１％であってもよく、Ｔに関するコールの精度パーセントは少なくとも約９８．４％であってもよく、ｍＣに関するコールの精度パーセントは少なくとも約８０．８％であってもよく、ｈｍＣに関するコールの精度パーセントは少なくとも約８４．５％であってもよく、非ＣｐＧコンテキスト内のメチル化に関するコールの精度パーセントは少なくとも約８３．４％であってもよい。一部の実施形態では、Ａに関するコールの精度パーセントは少なくとも約８０％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、またはそれよりも高いパーセントであってもよく；Ｃに関するコールの精度パーセントは少なくとも約８０％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、またはそれよりも高いパーセントであってもよく；Ｇに関するコールの精度パーセントは少なくとも約８０％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９７．５％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、またはそれよりも高いパーセントであってもよく；Ｔに関するコールの精度パーセントは少なくとも約８０％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９８．５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、またはそれよりも高いパーセントであってもよく；ｍＣに関するコールの精度パーセントは少なくとも約８０％、少なくとも約８２．５％、少なくとも約８５％、少なくとも約８７％、少なくとも約８９％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、またはそれよりも高いパーセントであってもよく；ｈｍＣに関するコールの精度パーセントは少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、またはそれよりも高いパーセントであってもよく；非ＣｐＧコンテキスト内のメチル化に関するコールの精度パーセントは少なくとも約８０％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、またはそれよりも高いパーセントであってもよい。一部の実施形態では、スパイクイン合成では不正確さが疑われる場合がある。一部の実施形態では、本方法は、上記に提示される１つまたは複数のコールの種類に対してより高い精度パーセントを得るためにさらに最適化され得る。

図１４は、本明細書において提供されるＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法に供されるＤＮＡ分子の第１のポリヌクレオチドおよび第２のポリヌクレオチドからのシーケンシングデータを示す。ここで、塩基コール精度の平均値および測定値を、７６を超える異なるライブラリー調製物において報告する。ここで、ＣｐＧ（ｎ＝７６）に関する塩基コーリング精度は約８５．２％（９９％）であり、ｍＣ（ｎ＝７６）に関する塩基コール精度は約８８．３％（９４％）であり、ｈｍＣ（ｎ＝７６）に関する塩基コーリング精度は約８７．８％（９３％）であった。図１４に示されている全ゲノム小脳およびゲノムＤＮＡ（ｇＤＮＡ）実験におけるスパイクインに関する塩基コーリング精度は、５－メチルシトシン（ｍＣ）に関して９０．５％の精度、５－ヒドロキシメチルシトシン（ｈｍＣ）に関して８９．３％の精度、（例えばメチル化されていない）シトシンに関して９７．２％の精度を反映した。一部の場合には、ｍＣに関する塩基コール精度は、８５％を超えるか、８７％を超えるか、または９０％を超えていてもよい。一部の場合には、ｈｍＣに関する塩基コール精度は、８５％を超えるか、８７％を超えるか、８９％を超えるか、または９０％を超えていてもよい。括弧内のラムダファージ（対照）に関する精度の平均値のパーセンテージと共に、ＤＮＡ試料に関する精度の平均値に関するパーセンテージを報告する。ラムダファージのｍＣ変換率は約９３．５％であった。一部の実施形態では、合成プローブ内のエラーの低減はｍＣ変換率を改善し得る。

図２７は、シーケンシング中を含む、本明細書に記載の実施形態において抑制されないミスコールをもたらす可能性のある増幅（例えば、ＰＣＲ）またはシーケンシング中のＧ→ＡおよびＡ→Ｇエラーの例を示す。図２７において示される例では、上のライン（標識された参照ゲノム）は真の塩基を示す。次の２つのライン（列挙されたゲノムヘアピン）は変換化学（例えば、バイサルファイト処理、ＡＰＯＢＥＣ＋ヘリカーゼ）後の真の塩基に由来するヘアピンの塩基を示す。下のライン（標識されたコール）は、ヘアピンがシーケンシングされ、ペアエンドリードが分解された後に（例えば、いずれかのゲノムアライメントの前に）ヘアピンからコールされる塩基を示す。

ヘアピンのラインでは：真の塩基、例えば、Ａに対して、正しい対合（例えば、Ａ／Ｔ）が示され（白丸で）、それに続いて、ヘアピンのいずれかの鎖の鎖コピー、増幅（例えばＰＣＲ）またはシーケンシング（黄色の丸）中に導入され得るあらゆる一塩基エラーの可能性（例えば、Ａ／ＴはＣ／ＴＧ／Ｔ、Ｔ／Ｔ、Ａ／Ａ、Ａ／Ｃ、Ａ／Ｇに様々に変化する）が示されている。この例では、一塩基エラーがヘアピンに導入される可能性のある２４の場合のうちの１９によって、存在しない塩基対（例えば、Ａ／Ａ）がもたらされ、エラーとコールされる。一塩基エラーの可能性のある２４個のうちの４個が、正しい塩基が別の塩基とコールされるミスコールをもたらす。これらのうちの２つはＡをＧに変更するエラーの結果であり、他の２つはＧをＡに変更するエラーである。これらは、真のＡ塩基がＧとコールされるか、真のＧ塩基がＡとミスコールされるか、真のＣ塩基がＴとミスコールされるか、または真のＴ塩基がＣとミスコールされるかのいずれかをもたらす。２４の可能性のうちの１つはＴをＣに変更するエラーであり、真の塩基である修飾されていないＣが修飾されたＣとコールされる結果となり得る。任意の他の種類のミスコール（例えば、Ａ→Ｃ）は、ヘアピンに導入された２つのエラー（例えば、Ａ／Ｔ→Ｔ／Ｇ）に起因する可能性がある。

一部の実施形態では、塩基またはメチル化された塩基の出現パーセントは、本明細書において提供されるＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法のインプリメンテーション後に計算することができる。例えば（例えば、図１５において提示されている実験データによって実証されているように）、全ゲノムｇＤＮＡは、参照によりその全体が本明細書に組み込まれる、（Field SF, Beraldi D, Bachman M, Stewart SK, Beck S, Balasubramanian S. Accurate measurement of 5-methylcytosine and 5-hydroxymethylcytosine in human cerebellum DNA by oxidative bisulfite on an array (OxBS-array). PLoS One. 2015;10(2):e0118202. Published 2015 Feb 23. doi:10.1371/journal.pone.0118202）に記載されているようにヒト小脳試料から調製され、本明細書において提供されるＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するための方法に供された。対照として、ｇＤＮＡは質量分析による全体的な測定にも供される。この試料では、塩基の２８．５％がＡとして同定され、塩基の２８．２％がＴとして同定され、塩基の１９．６９％がＧとして同定され、塩基の１７．８３％がＣとして同定され、塩基の０．９３％がｍＣとして同定され、塩基の０．３３％がｈｍＣとして同定され、４．５２の塩基が他の塩基として同定された。ここで、質量分析法によって、試料中のシトシンの４．９％がｍＣとして、試料中のシトシンの１．１４％がｈｍＣとして同定されたが、本明細書において提供される方法では、試料中のシトシンの５．２％がｍＣとして、試料中のシトシンの１．８％がｈｍＣとして同定された。一部の実施形態では、データは、対照におけるスパイクをフィルタリングして取り除くことによってさらに補正することができる（例えば、スパイクイン対照の存在に起因する過大評価に対して）。

一部の実施形態では、ＤＮＡ修飾を独立して測定することによって、サンプリングまたは技術的エラー／変動性の管理の増加がもたらされ得る。独立した実験は、一部の場合には、メチル化レベルの一貫しない推定をもたらした（例えば、デュアルワークフロー）。本明細書において提供される方法は、別の方法と比較して、同様のシーケンシング体積に対するサンプリングまたは技術的変動性を低下させることができる。例えば、デュアルワークフロー方法を使用することによって、５ｈｍＣの推定から＋／－０．１２（ＩＱＲ０．２）の標準偏差がもたらされる場合があるが、本明細書において提供される方法では、同じ試料に関して、５ｈｍＣの推定に対して＋／－０．０６（ＩＱＲ０．０７）の標準偏差がもたらされる場合がある。このデータは図１６に示されており、左のパネルにおいてデュアル方法のシミュレーションに関するデータが示され、右のパネルにおいて本明細書において提供される方法のシミュレーションに関するデータが示されている。デュアル方法のシミュレーションは、ＢｅｔａＢｉｎｏｍｉａｌ分布による技術的変動性と組み合わされたＯｘＢＳおよびＷＧＢＳサンプリングのシミュレーションを含んだ。本明細書において提供される方法のシミュレーションは、本明細書において提供される方法およびＤｉｒｉｃｈｌｅｔの多項分布による技術的変動性のシミュレーションを含んだ。シミュレーションにおけるシトシン残基の真のレベルは、５ｍＣ＝－．７、５ｈｍＣ＝０．１、およびＣ＝０．２であった。技術的変動性は、両アッセイに関して同じであると仮定した。プロットの箱ひげ図は、５および９５パーセンタイルを示す。

一部の実施形態では、１つまたは複数のバーコード（例えば、１つまたは複数の一意の分子識別子、ＵＭＩ）を含む１つまたは複数のポリヌクレオチドを本明細書において提示される方法およびシステム（例えば、２塩基シーケンシングを含む）において使用することができる。例えば、１つまたは複数の一意のバーコードを第１のポリヌクレオチドに結合させ、１つまたは複数の一意のバーコードを第２のポリヌクレオチド（および／またはリードポリヌクレオチド）に結合させることができる。一部の場合には、例えば、第１および第２のポリヌクレオチド（そして例えば、リードポリヌクレオチド）にバーコードをタグ付けした場合（例えば、バーコードをポリヌクレオチドにライゲーションすることによって）、本明細書に開示される方法（例えば、２塩基シーケンシング方法）は、第１および第２のポリヌクレオチドをヘアピンなどの別の構造と連結させることなく実施することができる。一部の場合には、シーケンシングアダプター（またはヘアピンポリヌクレオチド）はバーコード（例えば、ＵＭＩ）を含んでもよい。一部の場合には、バーコードは、ヘアピンポリヌクレオチド（または他のポリヌクレオチド構造）をライゲーションし、次いで、バーコードを含まないヘアピンまたは他のポリヌクレオチド構造の一部を除去（例えば、酵素的に）することによって、第１、第２、および／またはリードポリヌクレオチドに設置することができる。

一部の場合には、第１のポリヌクレオチドと第２のポリヌクレオチドの間の連結は、例えば、バーコード化の形態の（例えば、図２２に示されているように）情報の連結を含んでもよい。一部の場合には、バーコード（例えば、一意の分子識別子、ＵＭＩ）を含む１つまたは複数のヘアピンポリヌクレオチドをフォワードポリヌクレオチドおよび／またはリバースポリヌクレオチドにライゲーションすることができる（例えば、ここで、フォワードおよび／またはリバースポリヌクレオチドは、試料から得ることができる元のポリヌクレオチドであってもよい）。図２２に示されているように、５’末端に第１のＵＭＩ核酸配列および３’末端に第２のＵＭＩ核酸配列を含むヘアピンポリヌクレオチドは、フォワードおよびリバースポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドにライゲーションすることができる。一部の場合には、ヘアピンポリヌクレオチドは、アダプターポリヌクレオチド配列をさらに含む（例えば、図２２に示されているように、ここで、ヘアピンポリヌクレオチドはヘアピンの３’末端にｐ７アダプター配列を含む）。ヘアピンポリヌクレオチドは、ヘアピンポリヌクレオチドの５’末端とそれに含まれるアダプター配列（例えば、図２２に示されているｐ７アダプター）の５’末端の間にウラシル残基をさらに含んでもよい。一部の場合には、ヘアピンポリヌクレオチドは切断されてもよい（例えば、ウラシルまたはデオキシウラシルが存在した場所に単一のヌクレオチドギャップを生成する酵素の混合物、例えば、ＵｒａｃｉｌＤＮＡＧｌｙｃｏｓｙｌａｓｅ（ＵＤＧ）およびＥｎｄｏｎｕｃｌｅａｓｅＶＩＩＩという酵素などの混合物によるヘアピンポリヌクレオチドのウラシル残基の消化によって酵素的に）。ヘアピンポリヌクレオチドの切断によって、フォワードおよびリバースポリヌクレオチドの３’および５’末端においてバーコード（例えば、ＵＭＩ）を含む二本鎖ＤＮＡポリヌクレオチドのフォワードポリヌクレオチドおよびリバースポリヌクレオチドがもたらされる可能性があり、ここで、フォワードおよびリバースポリヌクレオチドはヘアピンポリヌクレオチドによってもはや繋がれ（例えば、連結され）ていない。フォワードおよび／またはリバースポリヌクレオチドのアダプター配列（例えば、ｐ７アダプター配列）を認識するプライマー（例えば、ｐ７Ｒ配列を含むオリゴヌクレオチド）をアダプター配列にハイブリダイズし、フォワードおよび／またはリバースポリヌクレオチドのアンプリコン（例えば、第２のポリヌクレオチド）の作成に使用することができる（例えば、鎖置換ＰＣＲ技法を使用して）。一部の場合には、アンプリコン（例えば、第２のポリヌクレオチド）は、例えば、鋳型としてフォワードまたはリバースポリヌクレオチドを使用するＰＣＲ伸長の結果として、バーコード（例えば、ＵＭＩ）を含むことができる（例えば、ここで、フォワードまたはリバースポリヌクレオチドは、例えば、フォワードおよび／またはリバースポリヌクレオチドの５’および／または３’末端に１つまたは複数のバーコードを含む）。一部の場合には、第１のポリヌクレオチド（例えば、フォワードおよび／またはリバースポリヌクレオチド）のバーコードは保護されたバーコード（例えば、図２２に示されている保護されたＵＭＩ）である。一部の場合には、フォワードおよび／またはリバースポリヌクレオチド（例えば、第２のポリヌクレオチド）のアンプリコンのバーコードは保護されていない。一部の場合には、フォワードおよび／またはリバースポリヌクレオチド（例えば、第１のポリヌクレオチド）およびフォワードおよび／またはリバースポリヌクレオチド（例えば、第２のポリヌクレオチド）のアンプリコンを第１および第２のポリヌクレオチドを処理するために本明細書において提示される方法および／または方法の個々の操作に供することができる（例えば、ここで、方法および／または方法の個々の操作は、本明細書において提示される５または６文字シーケンシング技法にとって有用である）。一部の場合には、シーケンシングアダプタープローブ（例えば、図２２に示されている、それぞれ第１または第２のポリヌクレオチドの一部にハイブリダイズすることが可能なｐ５またはｐ５Ｒシーケンシングアダプター）を使用して、アダプタープローブを伸長させることができる（例えば、ＰＣＲによって）。一部の場合には、追加の回のＰＣＲまたは追加のコピー操作が実施され、例えば、ここで、生成されたアンプリコンはｐ５アダプター配列を含み、これはコピー鎖の変換されたＵＭＩ（例えば、保護されていないＵＭＩで実施される処理操作中に変換され得る）を用いてシーケンシングされ得る。第１および第２のポリヌクレオチドならびに／またはコピー鎖（例えば、リードポリヌクレオチドを含んでもよい）のバーコード（ＵＭＩ）は対合されてもよい。一部の場合には、断片化パターン（例えば、フォワードおよび／またはリバースポリヌクレオチドの）をＵＭＩバーコードと一緒に使用して、解析されたポリヌクレオチド鎖に情報に基づいて連結および／または対合させることができる。一部の場合には、比較的少ない数のバーコード（ＵＭＩ）を使用して、例えば本明細書に記載されているように、情報に基づいてポリヌクレオチドを適切に連結させる。

本明細書において提示される２塩基シーケンシング方法、システム、およびワークフローには、例えば、ＲＮＡシーケンシングアッセイにおける精度および効率の改善を達成するために、ＲＮＡ解析を組み込むことができる。多くの場合には、ＲＮＡ分子（例えば、液体生検または細胞溶解物試料など、患者からの試料に由来する）を逆転写酵素（またはその生物学的に活性な断片もしくは誘導体）と接触させて、ＤＮＡ分子（例えば、ｃＤＮＡ分子）を生成することによって、第１のポリヌクレオチドを生成することができる。一部の場合には、本明細書において提供される方法、システム、および組成物におけるＲＮＡの使用によって、遺伝子発現、対象または組織の様々な生理学的状況（例えば、状態）におけるＤＮＡスプライシング（例えば、疾患状況における選択的ＤＮＡスプライシング、特に突然変異を含むもの）への情報などの、ＤＮＡ解析によって提供されない可能性のある遺伝子および分子の詳細への洞察が可能になる可能性がある。

一部の場合には、Ｐｈｒｅｄ品質スコアを計算して、本明細書において提供される方法およびシステムの使用中に塩基同定の質を評価することができる。一部の場合には、Ｐｈｒｅｄ品質スコアの計算は、２塩基シーケンシング中に生じた２つのＰｈｒｅｄ品質スコアを解明することに関与する。

本明細書において提示される方法およびシステムは、多くの種類のシーケンシングと適合し、その精度および効率に対して大きな利益をもたらす。例えば、マクサムギルバートシーケンシング、サンガーシーケンシング、またはハイスループットシーケンシング（例えば、次世代シーケンシング（ＮＧＳ）／第二世代シーケンシング（例えば、ショートリードシーケンシング）または第三世代シーケンシング（例えば、ロングリードシーケンシング）を本明細書に開示される方法およびシステムと併せて使用することができる。

本明細書において提示される方法およびシステム（２塩基シーケンシングを含む）は、対象由来の試料のポリヌクレオチドにおける突然変異を正確に決定する（例えば、同定する）のに有用であり得る。本明細書に記載されるように、突然変異を決定することは、例えば、シーケンシング方法を使用して、塩基（例えば、アデニン、シトシン、チミン、グアニン、５－メチルシトシン、５－ヒドロキシメチルシトシン、メチル化されたシトシン（例えば、アデニン、チミン、グアニン、またはメチル化されていないシトシンとは対照的に））のアイデンティティーを決定することを含んでもよい。多くの場合には、対象の状態（例えば、生理学的状態、例えば、病態（例えば、疾患状況））は、本明細書において提示される方法、システム、組成物を使用して決定される塩基の値（例えば、アイデンティティー）に少なくとも部分的に基づいて決定（例えば、診断）することができる。一部の場合には、対象の状態は、本明細書において提示される方法、システム、および／または組成物を使用して決定されるポリヌクレオチド（例えば、対象から得られた試料に由来する）の塩基の値（例えば、アイデンティティー）に少なくとも部分的に基づいて決定される突然変異に基づいて決定（例えば、診断）される。

一部の場合には、対象の状態は、神経変性疾患のもの（例えば、有無）（または神経変性疾患に関するリスクの増減）である。一部の実施形態では、神経変性状態は、アルツハイマー病、前頭側頭型認知症、筋萎縮性側索硬化症、パーキンソン病、脊髄小脳変性症、脊髄性筋萎縮症、レビー小体型認知症、またはハンチントン病から選択されてもよい。

一部の場合には、対象の状態は、がんまたは腫瘍（例えば、その有無）である。一部の場合には、状態は、肉腫、神経膠腫、腺腫、白血病、膀胱がん、乳がん、結腸直腸がん、子宮内膜がん、腎臓がん、肝臓がん、肺がん、黒色腫、非ホジキンリンパ腫、膵臓がん、前立腺がん、甲状腺がんから選択される。一部の場合には、状態は以下から選択される：腺癌、副腎皮質癌、副腎神経芽細胞腫、肛門扁平上皮癌、虫垂腺癌、膀胱尿路上皮癌、胆管腺癌、膀胱癌、膀胱尿路上皮癌、骨脊索腫、リンパ球性慢性骨髄白血病、非リンパ球性急性骨髄球性骨髄白血病、骨髄リンパ増殖性疾患、骨髄多発性骨髄腫、骨肉腫、脳星細胞腫、脳神経膠芽腫、脳髄芽腫、脳髄膜腫、脳乏突起膠腫、乳房腺様嚢胞癌、乳癌、非浸潤性乳管癌、乳房浸潤性乳管癌、乳房浸潤性小葉癌、乳房化生性癌、子宮頸部神経内分泌癌、子宮頸部扁平上皮癌、結腸腺癌、結腸カルチノイド腫瘍、十二指腸腺癌、子宮内膜性腫瘍、食道腺癌、食道および胃癌、眼内黒色腫、眼内扁平上皮癌、眼涙管癌、ファロピウス管漿液性癌、胆嚢腺癌、胆嚢グロムス腫瘍、胃食道接合部腺癌、頭頸部腺様嚢胞癌、頭頸部癌、頭頸部神経芽細胞腫、頭頸部扁平上皮癌、腎臓色素嫌性癌、腎髄様癌、腎細胞癌、腎乳頭癌、腎肉腫様癌、腎尿路上皮癌、腎癌、リンパ球性白血病、慢性リンパ球性白血病、肝臓胆管癌、肝細胞癌、肝癌、肺腺癌、肺腺扁平上皮癌、肺非定型カルチノイド、肺癌肉腫、肺大細胞神経内分泌癌、肺非小細胞肺癌、肺肉腫、肺肉腫様癌、肺小細胞癌、肺小細胞未分化癌、肺扁平上皮癌、上気道消化管扁平上皮癌、上気道消化管癌、びまん性大細胞型Ｂ細胞リンパ節リンパ腫、リンパ節リンパ腫濾胞性リンパ腫、縦隔Ｂ細胞リンパ節リンパ腫、リンパ節リンパ腫形質芽球性肺腺癌、リンパ腫濾胞性リンパ腫、リンパ腫、非ホジキン、上咽頭および副鼻腔未分化癌、卵巣癌、卵巣癌肉腫、卵巣明細胞癌、卵巣上皮癌、卵巣顆粒膜細胞腫瘍、卵巣漿液性癌、膵臓癌、膵管腺癌、膵臓神経内分泌癌、腹膜中皮腫、腹膜漿液性癌、胎盤絨毛癌、胸膜中皮腫、前立腺腺房腺癌、前立腺癌、直腸腺癌、直腸扁平上皮癌、皮膚付属器癌、皮膚基底細胞癌、皮膚黒色腫、皮膚メルケル細胞癌、皮膚扁平上皮癌、小腸腺癌、小腸消化管間質腫瘍（ＧＩＳＴ）、大腸／結腸癌、大腸腺癌、軟組織血管肉腫、軟組織ユーイング肉腫、軟組織血管内皮腫、軟組織炎症性筋線維芽細胞腫瘍、軟組織平滑筋肉腫、軟組織脂肪肉腫、軟組織神経芽細胞腫、軟組織傍神経節腫、軟組織血管周囲類上皮細胞腫瘍、軟組織肉腫、軟組織滑膜肉腫、胃腺癌、びまん型胃腺癌、腸型胃腺癌、胃平滑筋肉腫、胸腺癌、リンパ球性胸腺腫、甲状腺乳頭癌、原発不明腺癌、原発不明癌、原発不明悪性新生物、リンパ様新生物、原発不明黒色腫、原発不明肉腫様癌、原発不明扁平上皮癌、未知未分化神経内分泌癌、原発不明未分化小細胞癌、子宮癌肉腫、子宮内膜腺癌、類内膜性子宮内膜腺癌、乳頭漿液性子宮内膜腺癌、および子宮平滑筋肉腫。

ＰＣＲを含まないワークフローを含む方法も本明細書において提供される。このような方法は、ＤＮＡ配列におけるシトシン、ｍＣ、およびｈｍＣを区別および同定するために用いられてもよい。ＰＣＲを含まない方法を、組み込むことができるかまたは本明細書において提供される方法と組み合わせることができるワークフローに組み込むことの非限定的な例は、参照によりその全体が本明細書に組み込まれ、図１７の左のパネルにおいて例示されている（McInroy GR, Beraldi D, Raiber E-A, Modrzynska K, van Delft P, Billker O, et al. (2016) Enhanced Methylation Analysis by Recovery of Unsequenceable Fragments. PLoS ONE 11(3): e0152322. https://doi.org/10.1371/journal.pone.0152322）に記載されている。このような方法は、ビオチンタグの使用を採用してもよく、図１７の右のパネルに示されているように、本明細書において提供される方法の操作後にＤＮＡ鎖の変性を含んでもよい。

ここで、ＤＮＡなどの核酸分子は、グアニン（Ｇ）、アデニン（Ａ）、チミン（Ｔ）、ウラシル（Ｕ）、シトシン（Ｃ）、または相補的ヌクレオチドと確実に塩基対合することが可能である塩基を含んでもよい。このような塩基の例は、７－デアザ－アデニン、７－デアザ－グアニン、アデニン、グアニン、シトシン、チミン、ウラシル、２－デアザ－２－チオ－グアノシン、２－チオ－７－デアザ－グアノシン、２－チオ－アデニン、２－チオ－７－デアザ－アデニン、イソグアニン、７－デアザ－グアニン、５，６－ジヒドロウリジン、５，６－ジヒドロチミン、キサンチン、７－デアザ－キサンチン、ヒポキサンチン、７－デアザ－キサンチン、２，６ジアミノ－７－デアザプリン、５－メチル－シトシン、５－ヒドロキシメチルシトシン、５－プロピニル－ウリジン、５－プロピニル－シチジン、２－チオ－チミンまたは２－チオ－ウリジンである。オリゴヌクレオチドは、例えば、ＬＮＡ、ＰＮＡ、ＵＮＡ、またはモルホリノオリゴマーを含んでもよい。本明細書において使用されるオリゴヌクレオチドは、天然または非天然のヌクレオチドまたは連結を含有してもよい。

ある態様では、本開示は、シトシン塩基を同定するための方法を提供する。本方法は、ａ）ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基を脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、ｂ）脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、ｃ）シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度でシトシン塩基を同定するステップとを含む。一部の実施形態では、シーケンシングするステップは、二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。

一部の実施形態では、脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の実施形態では、デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。

一部の実施形態では、本方法は、脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、その二本鎖の誘導体を生成するステップをさらに含み、ここで、（ｃ）は、その二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得ることを含む。一部の実施形態では、本方法は、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。

一部の実施形態では、本方法は、フォワード鎖をリバース鎖から分離するステップをさらに含む。一部の実施形態では、本方法は、核酸伸長反応においてフォワード鎖を使用して、二本鎖ポリヌクレオチドを生成するステップをさらに含む。一部の実施形態では、脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の実施形態では、デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、少なくとも約９９％相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。

一部の実施形態では、シトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である。一部の実施形態では、本方法は、脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、その二本鎖の誘導体を生成するステップをさらに含み、ここで、（ｃ）は、その二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得ることを含む。一部の実施形態では、（ｃ）は、シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度でシトシン塩基をシトシン塩基として同定することを含む。

一部の実施形態では、フォワード鎖はメチル化されたシトシン塩基を含み、本方法は、（ｉ）メチル化されたシトシン塩基を含むフォワード鎖および（ｉｉ）シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応においてフォワード鎖を使用することをさらに含む。一部の実施形態では、本方法は、メチル化されたシトシン塩基をグルコシル化されたヒドロキシメチルシトシンに変換するステップをさらに含む。

一部の実施形態では、メチル化されたシトシン塩基はメチルシトシン塩基であり、変換するステップは、メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、ヒドロキシメチルシトシン塩基をグルコシル化条件に供してグルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の実施形態では、メチル化されたシトシン塩基はヒドロキシメチルシトシンであり、変換するステップは、ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、グルコシル化されたヒドロキシメチルシトシンを生成することを含む。

一部の実施形態では、本方法は、脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、その二本鎖の誘導体を生成するステップをさらに含み、ここで、（ｃ）は、その二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得ることを含む。一部の実施形態では、本方法は、シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度でメチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップをさらに含む。

別の態様では、本開示は、シトシン塩基を同定するための方法を提供する。本方法は、ａ）ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基を、デアミナーゼを用いて脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、ｂ）脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、ｃ）シーケンシングデータを処理して、シトシン塩基を同定するステップとを含む。

一部の実施形態では、シーケンシングするステップは、二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。一部の実施形態では、デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。

一部の実施形態では、本方法は、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。一部の実施形態では、本方法は、フォワード鎖をリバース鎖から分離するステップをさらに含む。一部の実施形態では、分離するステップは、フォワード鎖を、二本鎖ポリヌクレオチドを生成する核酸伸長反応に供することを含む。一部の実施形態では、デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。

一部の実施形態では、シトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である。一部の実施形態では、本方法は、脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、その二本鎖の誘導体を生成するステップをさらに含み、ここで、（ｃ）は、その二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得ることを含む。一部の場合には、フォワード鎖はメチル化されたシトシン塩基を含み、分離するステップは、（ｉ）メチル化されたシトシン塩基を含むフォワード鎖および（ｉｉ）シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応においてフォワード鎖を使用することを含む。一部の実施形態では、本方法は、メチル化されたシトシン塩基をグルコシル化されたヒドロキシメチルシトシンに変換するステップをさらに含む。一部の実施形態では、メチル化されたシトシン塩基はメチルシトシン塩基であり、変換するステップは、メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、ヒドロキシメチルシトシン塩基をグルコシル化条件に供してグルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の実施形態では、メチル化されたシトシン塩基はヒドロキシメチルシトシンであり、変換するステップは、ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、グルコシル化されたヒドロキシメチルシトシンを生成することを含む。

一部の実施形態では、デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同なアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。一部の実施形態では、本方法は、脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、その二本鎖の誘導体を生成するステップをさらに含み、ここで、（ｃ）は、その二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得ることを含む。

本開示のさらなる態様はキットを提供する。キットは、デアミナーゼ、ヘリカーゼ、およびパッケージ、およびその中の、キットを使用するための命令を含んでもよい。一部の実施形態では、デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の実施形態では、キットは、メチルシトシンジオキシゲナーゼをさらに含む。一部の実施形態では、メチルシトシンジオキシゲナーゼは、テンイレブントランスロケーション（ＴＥＴ）酵素またはその断片を含む。一部の実施形態では、ＴＥＴ酵素は、ＴＥＴ１、ＴＥＴ２またはＴＥＴ３である。一部の実施形態では、キットは、デオキシリボ核酸（ＤＮＡ）グルコシルトランスフェラーゼをさらに含む。一部の実施形態では、ＤＮＡグルコシルトランスフェラーゼは、ＤＮＡベータ－グルコシルトランスフェラーゼを含む。一部の実施形態では、キットは、ＤＮＡメチルトランスフェラーゼをさらに含む。一部の実施形態では、ＤＮＡメチルトランスフェラーゼは、ＤＮＡメチルトランスフェラーゼ１（ＤＮＭＴ１）を含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。

別の態様では、本開示は、シトシン塩基を同定するための方法を提供する。本方法は、ａ）シトシン塩基を含むポリヌクレオチドを、シトシン塩基をシトシン塩基に由来する変更された塩基に集合的に転換する１つまたは複数の試薬と接触させ、それによって、変更された塩基を含む修飾されたポリヌクレオチドを生成するステップと、ｂ）変更された塩基を含む修飾されたポリヌクレオチドまたはその誘導体の少なくとも一部をシーケンシングして、３０倍以下、２５倍以下、２０倍以下、１５倍以下、または１０倍以下、５倍以下、または２倍以下のカバレッジを有するシーケンシングデータを得るステップと、（ｃ）シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度でシトシン塩基をシトシンとして同定するステップとを含む。

一部の実施形態では、修飾されたポリヌクレオチドまたはその誘導体は、二本鎖ポリヌクレオチドである。一部の実施形態では、シーケンシングするステップは、二本鎖ポリヌクレオチドの両鎖の少なくとも一部をシーケンシングすることを含む。一部の実施形態では、シトシン塩基はメチル化されたシトシン塩基である。一部の実施形態では、本方法は、シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度でメチル化された塩基をシトシンとして同定するステップをさらに含む。

一部の実施形態では、１つまたは複数の試薬は、酸化剤を含む。一部の実施形態では、酸化剤は、テンイレブントランスロケーション（ＴＥＴ）酵素またはその断片を含む。一部の実施形態では、ＴＥＴ酵素は、ＴＥＴ１、ＴＥＴ２またはＴＥＴ３である。一部の実施形態では、１つまたは複数の試薬は、ＤＮＡ－グルコシルトランスフェラーゼを含む。一部の実施形態では、１つまたは複数の試薬はデアミナーゼを含む。一部の実施形態では、デアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である。一部の実施形態では、１つまたは複数の試薬はヘリカーゼを含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。一部の実施形態では、１つまたは複数の試薬は、ＤＮＡメチルトランスフェラーゼを含む。

一部の実施形態では、本方法は、ポリヌクレオチドを含むフォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。一部の実施形態では、本方法は、フォワード鎖をリバース鎖から分離するステップをさらに含む。一部の実施形態では、分離するステップは、フォワード鎖を、ポリヌクレオチドを含む二本鎖ポリヌクレオチドを生成する核酸伸長反応において使用することを含む。

一部の実施形態では、メチル化された塩基はメチル化されたシトシン塩基である。一部の実施形態では、１つまたは複数の試薬はデアミナーゼおよびヘリカーゼを含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。

一部の実施形態では、シーケンシングするステップは、二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。一部の実施形態では、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度でメチル化されたシトシン塩基をシトシンとして同定するためのシーケンシングデータ。

一部の実施形態では、ポリヌクレオチドはポリヌクレオチドの集団に由来し、ここで、ポリヌクレオチドの集団におけるメチル化されたシトシン塩基の塩基頻度は、所与の座位において、７５％未満であるかもしくはそれに等しく、７０％未満であるかもしくはそれに等しく、６５％未満であるかもしくはそれに等しく、６０％未満であるかもしくはそれに等しく、５５％未満であるかもしくはそれに等しく、５０％未満であるかもしくはそれに等しく、４５％未満であるかもしくはそれに等しく、４０％未満であるかもしくはそれに等しく、３５％未満であるかもしくはそれに等しく、３０％未満であるかもしくはそれに等しく、２５％未満であるかもしくはそれに等しく、２０％未満であるかもしくはそれに等しく、１５％未満であるかもしくはそれに等しく、１０％未満であるかもしくはそれに等しく、７％未満であるかもしくはそれに等しく、５％未満であるかもしくはそれに等しく、３％未満であるかもしくはそれに等しく、または１％未満であるかもしくはそれに等しい、またはそれ未満である。

一部の実施形態では、メチル化されたシトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基を含む。一部の実施形態では、メチル化されたシトシン塩基はメチルシトシン塩基を含み、１つまたは複数の試薬は、本明細書の他の箇所に提供されるような試薬の例を含め、酸化剤、ＤＮＡグルコシルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む。一部の実施形態では、メチル化されたシトシン塩基はヒドロキシメチルシトシン塩基を含み、１つまたは複数の試薬は、本明細書の他の箇所に提供されるような試薬の例を含め、酸化剤、ＤＮＡグルコシルトランスフェラーゼ、メチルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む。一部の実施形態では、シーケンシングするステップは、二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。

一部の実施形態では、シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度でメチル化されたシトシン塩基をメチルシトシンまたはヒドロキシメチルシトシンとして同定する。一部の実施形態では、本方法は、シーケンシングデータを処理して、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度でメチル化されたシトシン塩基をメチルシトシンまたはヒドロキシメチルシトシンとして同定するステップをさらに含む。

本明細書に記載の組成物を本明細書に記載の方法において利用して、所与の座位における塩基を検出および同定し、塩基のメチル化または他の修飾状況も検出および同定することができる。例えば、本明細書に記載の方法は、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で、所与の座位における塩基を同定するために実行することができる。さらに、本明細書に記載の方法は、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で、メチル化された（例えば、メチル化されたシトシン、例えば、メチルシトシン、ヒドロキシメチルシトシン）またはメチル化されたかもしくは他の方法で修飾された他の修飾された塩基を同定するために実行することができる。

本明細書に記載の組成物を本明細書に記載の方法において利用して、３０倍以下、２５倍以下、２０倍以下、１５倍以下、または１０倍以下、５倍以下、または２倍以下のシーケンシングカバレッジで、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で、塩基のメチル化または他の修飾状況を検出および同定することができる。

本明細書の他の箇所に記載されているように、記載された方法および組成物は、高い精度で核酸集団の座位において比較的低頻度の修飾された（例えば、メチルシトシンおよびヒドロキシメチルシトシンを含むメチル化されたシトシン塩基）塩基を検出する際に有用である場合がある。このようなメチル化された塩基は、所与の座位において比較的稀な頻度で出現し得る。一部の実施形態では、検出および同定された修飾された塩基は、ポリヌクレオチドの集団の所与の座位において、７５％未満であるかもしくはそれに等しい、７０％未満であるかもしくはそれに等しい、６５％未満であるかもしくはそれに等しい、６０％未満であるかもしくはそれに等しい、５５％未満であるかもしくはそれに等しい、５０％未満であるかもしくはそれに等しい、４５％未満であるかもしくはそれに等しい、４０％未満であるかもしくはそれに等しい、３５％未満であるかもしくはそれに等しい、３０％未満であるかもしくはそれに等しい、２５％未満であるかもしくはそれに等しい、２０％未満であるかもしくはそれに等しい、１５％未満であるかもしくはそれに等しい、１０％未満であるかもしくはそれに等しい、７％未満であるかもしくはそれに等しい、５％未満であるかもしくはそれに等しい、３％未満であるかもしくはそれに等しい、または１％未満であるかもしくはそれに等しい、またはそれ未満である塩基頻度を有する。このような修飾された塩基は、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９９％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、少なくとも約９９．９９９９％の精度で、またはそれより高い精度で検出および同定され得る。

本明細書に記載の方法は、脱アミノ化操作においてデアミナーゼとの組合せを含めて、ヘリカーゼを用いることができる。このようなヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９３％、少なくとも約９５％、少なくとも約９７％、または少なくとも約９９％相同であるアミノ酸配列を含んでもよい。一部の実施形態では、ヘリカーゼは、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片である。

本明細書に記載の方法ではデアミナーゼが用いられてもよい。一部の場合には、デアミナーゼはシチジンデアミナーゼである。シトシンデアミナーゼは、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素（例えば、ＡＰＯＢＥＣ３Ａ）、またはその断片であってもよい。

（実施例１）
２塩基シーケンシングのためのポリヌクレオチドの調製
本実施例は、ヘアピン二本鎖ＤＮＡ構築物を使用して、シーケンシングのためにポリヌクレオチドを調製する方法を示す。無細胞ＤＮＡ（ｃｆＤＮＡ）の解析のため、末梢血の１０ミリリットル（ｍｌ）試料を患者から採取し、２０００×ｇで１５分間遠心分離し、ｃｆＤＮＡを含む血漿画分を収集する。目的のｃｆＤＮＡポリヌクレオチド（例えば、第１のポリヌクレオチド）の３’末端に相補的な５０ｂｐ標的化配列を含むヘアピンポリヌクレオチド、および目的のｃｆＤＮＡポリヌクレオチドの５’末端に相補的な５０ｂｐ標的化配列を含む３’シーケンシングアダプターを、収集されたｃｆＤＮＡと混合し、ｃｆＤＮＡポリヌクレオチドの捕捉に使用する。５’シーケンシングアダプターを、ｃｆＤＮＡの５’末端にオーバーハングする３’シーケンシングアダプターの一部分にハイブリダイズさせ、ＳｕｌｆｏｌｏｂｕｓＤＮＡポリメラーゼＩＶを使用して、５’シーケンシングアダプターおよびｃｆＤＮＡポリヌクレオチドの間のギャップをフィリングする。プライマーとしてのヘアピンポリヌクレオチドの３’末端およびｃｆＤＮＡポリヌクレオチド（例えば、鋳型としての第１のポリヌクレオチド）を使用して、ＤＮＡポリメラーゼを使用して、第２のポリヌクレオチドを創出する（例えば、図５に示す通り）。

ゲノムＤＮＡが使用される場合、二本鎖ＤＮＡポリヌクレオチド（フォワードポリヌクレオチドおよびリバースポリヌクレオチドを含む）を細胞試料から抽出し、断片化する。Ｔｎ５トランスポザーゼならびにヘアピンの５’および３’末端にＴｎ５トランスポザーゼ結合部位を含むヘアピンポリヌクレオチドを使用して、ゲノムＤＮＡのタグメンテーションを行って、２つのヘアピンポリヌクレオチドおよび２つの第１のポリヌクレオチド（例えば、フォワードポリヌクレオチドおよびリバースポリヌクレオチド）を含む二本鎖ＤＮＡポリヌクレオチドを形成する（例えば、図１０に示す通り）。あるいは、ヘアピンポリヌクレオチドを、ハイブリダイズされた第１のポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドに直接的にライゲーションして、２つのヘアピンポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドを形成する（例えば、図１９Ａ、または図１９Ｂの操作１００１および１００２に示す通り）。

ヘアピンポリヌクレオチドの３’末端において二本鎖ポリヌクレオチドを酵素により切断して、第１のポリヌクレオチド（例えば、それぞれフォワードポリヌクレオチドおよびリバースポリヌクレオチド）およびヘアピンポリヌクレオチドを含む２つのポリヌクレオチドを得る（例えば、図１９Ａ、または図１９Ｂの操作１００３、または図１９Ｃの操作１に示す通り）。プライマーとしてのヘアピンポリヌクレオチドの遊離３’末端および鋳型としての第１のポリヌクレオチドを使用したポリメラーゼ連鎖反応を行うことにより、第２のポリヌクレオチド（例えば、同族ポリヌクレオチド）を生成する（例えば、図１９Ａ、図１９Ｂの操作１００４、および図１９Ｃの操作１に示す通り）。次に、化学的処理の前に、シーケンシングアダプターを第１のポリヌクレオチドの５’末端および第２のポリヌクレオチドの３’末端にライゲーションする（例えば、実施例３～１１、図１Ｂ、ならびに図１９Ｂの操作１００５および１００６に提示する通り）。あるいは、化学的処理の後に、シーケンシングアダプターを第１のポリヌクレオチドの５’末端および第２のポリヌクレオチドの３’末端にライゲーションする（例えば、実施例３～１１、図１Ａ、図１９Ｂの操作１００５および１００６、ならびに図１９Ｃの操作２～４に提示する通り）。

ヘアピンポリヌクレオチド、第１のポリヌクレオチド（例えば、フォワードまたはリバースポリヌクレオチド）、第２のポリヌクレオチド（例えば、同族ポリヌクレオチド）、ならびに５’および３’シーケンシングアダプターを含む二本鎖ポリヌクレオチドは、融解によって開くことができる。一部の場合には、二本鎖ポリヌクレオチド（例えば、ヘアピンポリヌクレオチドありまたはなしの）の第１のポリヌクレオチドは、酵素により、例えば、ヘリカーゼを使用して分離することができる。第１および第２のポリヌクレオチドは、開かれた構築物においてポリメラーゼ連鎖反応に供して、第２のポリヌクレオチドに相補的なポリヌクレオチド（例えば、リードポリヌクレオチド）を含むポリヌクレオチドを生成することができる（例えば、図１９Ｄに示す通り）。第１のポリヌクレオチド（例えば、リード１）およびリードポリヌクレオチド（例えば、リード２）をシーケンシングして、第１のポリヌクレオチドの座位における第１の塩基のためおよび第２のポリヌクレオチドの対応する座位におけるまたはその近位にある（例えば、ポリヌクレオチドの配列における、それに対して近接する位置における）第２の塩基に関する値（例えば、アイデンティティー）を決定する。決定された第１および第２の塩基に基づくコンピュータープログラムを使用して、座位におけるｃｆＤＮＡまたはゲノムＤＮＡに存在する真の塩基に関する値を決定する（例えば、図２０Ａ～図２０Ｆに示す表のうち１つを使用して）。
（実施例２）
４文字塩基判別による２塩基シーケンシング

本実施例は、４文字塩基判別シーケンシングアッセイを使用した、ｃｆＤＮＡ分子の塩基の評価を含む２塩基シーケンシングの使用を示す。

次世代シーケンシングを使用して、第１のポリヌクレオチド（無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ならびに第１および第２のポリヌクレオチドの５’および３’末端にライゲーションされたアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドをシーケンシングする。

あるいは、第１のポリヌクレオチド（例えば、無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドは、実施例１に記載されている通りに提供される。二本鎖ＤＮＡポリヌクレオチドをその融解温度まで加熱することにより開き、第１のポリヌクレオチドおよび第２のポリヌクレオチドをシーケンシングする。二本鎖ＤＮＡポリヌクレオチドの第１および第２のポリヌクレオチドの分離は、二本鎖ＤＮＡポリヌクレオチドの加熱に加えてまたはその代わりに、二本鎖ＤＮＡポリヌクレオチドを挿入剤、一本鎖ＤＮＡ結合タンパク質および／またはヘリカーゼと接触させることにより改善することができる。

第１のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図２０Ａに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「Ｆ鎖」および「Ｆ」値は、座位における第１のポリヌクレオチドの塩基の決定された値を表し、「Ｆ’鎖」および「Ｆ’」値は、第２のポリヌクレオチドにおける対応する座位における第２のポリヌクレオチドの塩基の決定された値を表す。
（実施例３）
バイサルファイト処置を含む５文字塩基判別による２塩基シーケンシング

本実施例は、５文字塩基判別（アデニン、グアニン、チミン、シトシンおよびメチル化されたシトシン塩基）シーケンシングアッセイおよびバイサルファイト変換を使用した、ｃｆＤＮＡ分子の塩基の評価を含む２塩基シーケンシングの使用を示す。

第１のポリヌクレオチド（例えば、無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドは、実施例１に記載されている通りに提供される。二本鎖ＤＮＡポリヌクレオチドを、その融解温度まで加熱することにより開く前に、バイサルファイトで処置し、第１のポリヌクレオチドおよび第２のポリヌクレオチドをシーケンシングする。

第１のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図２０Ｂに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「Ｆ鎖」および「Ｆ」値は、座位における第１のポリヌクレオチドの塩基の決定された値を表し、「Ｆ’鎖」および「Ｆ’」値は、第２のポリヌクレオチドにおける対応する座位における第２のポリヌクレオチドの塩基の決定された値を表す。
（実施例４）
酸化的バイサルファイト処置を含む２塩基シーケンシング

本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、２塩基シーケンシングにおける酸化的バイサルファイト処置の使用を示す。

第１のポリヌクレオチド（例えば、無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドは、実施例１に記載されている通りに提供される。提供される二本鎖ＤＮＡポリヌクレオチド（第１および第２のポリヌクレオチドを含む）の集団を２つの群に分ける：第１の群は、酸化剤ルテニウム酸カリウムに曝露され、第２の群は、酸化剤に曝露されない。次に、バイサルファイトシーケンシングを使用して、両方の群の二本鎖ＤＮＡポリヌクレオチドをシーケンシングする。

図２０Ｃに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して、アライメントに先立ちデータをエラーについてスクリーニングし、図中、「Ｆ鎖」および「Ｆ」値は、座位における第１のポリヌクレオチドの塩基の決定された値を表し、「Ｆ’鎖」および「Ｆ’」値は、第２のポリヌクレオチドにおける対応する座位における第２のポリヌクレオチドの塩基の決定された値を表し、第１のポリヌクレオチドの座位における塩基に関する決定された値における、酸化的バイサルファイトシーケンシングよりも高い信頼度を得る。酸化的バイサルファイトシーケンシング方法を使用して、第１のポリヌクレオチドの座位における真の塩基に関する値を決定する（例えば、第１の群および第２の群由来のリードの差次的解析を使用して、５－ヒドロキシメチルシトシンの存在を判定し、第２の群由来のシーケンシングデータを使用して、５－メチルシトシンの存在を判定する）。

あるいは、二本鎖ＤＮＡポリヌクレオチドの集団は、群に分けられず、全ての二本鎖ＤＮＡが、バイサルファイトシーケンシングに供される前に、酸化剤（ルテニウム酸カリウム）と接触させられる。図２０Ｃに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して、アライメントに先立ちデータをエラーについてスクリーニングし、図中、５－メチルシトシン、アデニン、グアニンおよびチミンは、互いと、かつ、シトシンまたは５－ヒドロキシメチルシトシンであり得る第５の群の塩基と鑑別される（例えば、５文字シーケンシング）。
（実施例５）
ルテニウム酸カリウムによる処置を含む６文字塩基判別による２塩基シーケンシング

本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、２塩基シーケンシングにおけるルテニウム酸カリウム処置の使用を示す。

第１のポリヌクレオチド（例えば、無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドは、実施例１に記載されている通りに提供される。二本鎖ＤＮＡポリヌクレオチド（第１および第２のポリヌクレオチドを含む）を、酸化剤ルテニウム酸カリウムに曝露する（例えば、図２Ｄに示す通り）。次に、二本鎖ＤＮＡを還元剤ピリジンボランに曝露する。次に、二本鎖ＤＮＡをＤＮＭＴ１に曝露する。一部の場合には、この操作においてＤＮＭＴ５がＤＮＭＴ１の代わりとなる。二本鎖ＤＮＡを、操作されたＤＮＡメチルトランスフェラーゼおよびＳＡＭアナログを含む溶液に曝露する。次に、二本鎖ＤＮＡを、ヘリカーゼ（または一本鎖ＤＮＡ結合タンパク質）を使用して分離し、ＡＰＯＢＥＣ３Ａを使用して脱アミノ化する。二本鎖ＤＮＡが分離される間に、ＰＣＲを使用してリードポリヌクレオチドを生成し、第１のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。ヘリカーゼがもはや存在しない／活性がない場合、鎖置換ＰＣＲ試薬および／または加熱を使用して、第１および第２のポリヌクレオチドを分離して、ＰＣＲを行うことができる。

第１のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図２０Ｄに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「Ｆ鎖」および「Ｆ」値は、座位における第１のポリヌクレオチドの塩基の決定された値を表し、「Ｆ’鎖」および「Ｆ’」値は、第２のポリヌクレオチドにおける対応する座位における第２のポリヌクレオチドの塩基の決定された値を表す。
（実施例６）
ＴＥＴ処置を含む６文字塩基判別による２塩基シーケンシング

本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、２塩基シーケンシングにおけるＴＥＴ処置の使用を含む代替方法を示す。

第１のポリヌクレオチド（例えば、無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドは、実施例１に記載されている通りに提供される。二本鎖ＤＮＡポリヌクレオチド（第１および第２のポリヌクレオチドを含む）を、酸化剤ルテニウム酸カリウムに曝露する（例えば、図３に示す通り）。次に、二本鎖ＤＮＡをＤＮＭＴ１に曝露する。二本鎖ＤＮＡを、酸化剤ＴＥＴを含む溶液に曝露する。一部の場合には、ＴＥＴの生物学的に活性な断片を使用することができる。次に、ヘアピンポリヌクレオチドが融解される前に、二本鎖ＤＮＡをｐｉｃ－ボランに曝露し、ＰＣＲを使用してリードポリヌクレオチドを生成し、第１のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。

第１のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図２０Ｄに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「Ｆ鎖」および「Ｆ」値は、座位における第１のポリヌクレオチドの塩基の決定された値を表し、「Ｆ’鎖」および「Ｆ’」値は、第２のポリヌクレオチドにおける対応する座位における第２のポリヌクレオチドの塩基の決定された値を表す。
（実施例７）
ＴＥＴ処置を含む６文字塩基判別による２塩基シーケンシングのための代替方法

本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、グリコシル化剤およびメチルトランスフェラーゼによる処置を含む２塩基シーケンシングの使用を示す。

第１のポリヌクレオチド（例えば、無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドは、実施例１に記載されている通りに提供される。二本鎖ＤＮＡポリヌクレオチド（第１および第２のポリヌクレオチドを含む）を、ＤＮＡメチルトランスフェラーゼ－５（ＤＮＭＴ５）（例えば、図４に示す通り）またはＤＮＭＴ１に曝露する。５－ヒドロキシメチルシトシンからの５－メチルシトシンの鑑別におけるさらなる感度が適用可能である場合、二本鎖ＤＮＡポリヌクレオチドをＤＮＡメチルトランスフェラーゼと接触させる前に、第１のポリヌクレオチドをｂ－グルコシルトランスフェラーゼと接触させることができる。ｂ－グルコシルトランスフェラーゼが使用される場合、ＤＮＭＴ１またはＤＮＭＴ５をメチルトランスフェラーゼとして使用することができる。二本鎖ＤＮＡポリヌクレオチドをメチルトランスフェラーゼと接触させた後に、二本鎖ＤＮＡポリヌクレオチドを、酸化剤ＴＥＴを含む溶液に曝露する。一部の場合には、ＴＥＴの生物学的に活性な断片を使用することができる。次に、弱酸（あるいは、弱塩基を使用することができる）による処置の前に、二本鎖ＤＮＡポリヌクレオチドをボランに曝露して、ｃａＣ残基を化学的に還元する。次に、ヘアピンポリヌクレオチドを融解し、ＰＣＲを使用してリードポリヌクレオチドを生成し、第１のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。

第１のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図２０Ｄに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「Ｆ鎖」および「Ｆ」値は、座位における第１のポリヌクレオチドの塩基の決定された値を表し、「Ｆ’鎖」および「Ｆ’」値は、第２のポリヌクレオチドにおける対応する座位における第２のポリヌクレオチドの塩基の決定された値を表す。
（実施例８）
β－グルコシルトランスフェラーゼ処置を含む６文字塩基判別による２塩基シーケンシング

第１のポリヌクレオチド（例えば、無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドは、実施例１に記載されている通りに提供される。二本鎖ＤＮＡを、図１Ｂに示す通り（あるいは、図１Ａに示す通り）、β－グルコシルトランスフェラーゼに曝露する。次に、二本鎖ＤＮＡポリヌクレオチドをＤＮＭＴ１に曝露して、無保護５－メチルシトシンタグを、第２のポリヌクレオチドにおける対応する座位の近位にあるシトシンへと転移する。次に、ヘアピンを融解する前に、バイサルファイトへの曝露によって二本鎖ＤＮＡを脱アミノ化し、ＰＣＲを使用してリードポリヌクレオチドを生成し、第１のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。

第１のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図２０Ｅに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「Ｆ鎖」および「Ｆ」値は、座位における第１のポリヌクレオチドの塩基の決定された値を表し、「Ｆ’鎖」および「Ｆ’」値は、第２のポリヌクレオチドにおける対応する座位における第２のポリヌクレオチドの塩基の決定された値を表す。

代わりに、真の塩基に関する値は、図２０Ｆに見出される表に従って決定され、図中、「ｒ１」は、第１のポリヌクレオチドにおける検出された塩基値を表し、「ｒ２」は、リードポリヌクレオチドにおける検出された塩基値を表し、「ｒ２ｃ」は、第２のポリヌクレオチドにおける塩基値を表し、「ｒ１／ｒ２」は、第１のポリヌクレオチドおよびリードポリヌクレオチドに関する検出された塩基値の組合せを表し、「ｒ１／ｒ２ｃ」は、第１のポリヌクレオチドおよび第２のポリヌクレオチドに関する塩基値の組合せを表し、「Ａ」は、アデニンを表し、「Ｇ」は、グアニンを表し、「Ｔ」は、チミンを表し、「Ｃ」は、シトシンを表し、数０～９は、個々のエラーコールを表す。本方法を使用した実験データは、図２１に見ることができる。紫色で示されているものは、エラーコールをもたらしたシーケンシング事象であり（例えば、ミスコールとして同定されたシーケンシングエラー）；赤色で示されているものは、真の低頻度突然変異として同定された塩基ミスマッチである。メチル化レベル（例えば、ヒドロキシメチル化レベルは、図２１の表において定量化される）。
（実施例９）
β－グルコシルトランスフェラーゼ処置を含む６文字塩基判別による２塩基シーケンシングの代替方法

第１のポリヌクレオチド（例えば、無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドは、実施例１に記載されている通りに提供される。二本鎖ＤＮＡをβ－グルコシルトランスフェラーゼ（ｂＧＴ）に曝露する（例えば、図２Ａに示す通り）。次に、二本鎖ＤＮＡポリヌクレオチドをＤＮＭＴ１に曝露して、無保護５－メチルシトシンタグを、第２のポリヌクレオチドにおける対応する座位の近位にあるシトシンへと転移する。次に、二本鎖ＤＮＡポリヌクレオチドをＴＥＴで酸化し、２回目にｂＧＴに曝露する。一部の場合には、第１および第２のポリヌクレオチドを、酸化剤（例えば、ＴＥＴ）およびｂＧＴを含む溶液と接触させることが都合よい場合がある；しかし、第１および第２のポリヌクレオチドは、ＴＥＴ、次いでｂＧＴに連続的に曝露させることができる。次に、二本鎖ＤＮＡを、ヘリカーゼ（または一本鎖ＤＮＡ結合タンパク質）を使用して分離し、ＡＰＯＢＥＣ３Ａまたはその断片を使用して脱アミノ化する。二本鎖ＤＮＡが分離される間に、ＰＣＲを使用してリードポリヌクレオチドを生成し、第１のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする（例えば、図１９Ｅに示す通り）。ヘリカーゼがもはや存在しない／活性がない場合、鎖置換ＰＣＲ試薬および／または加熱を使用して、第１および第２のポリヌクレオチドを分離して、ＰＣＲを行うことができる。

代わりに、真の塩基に関する値は、図２０Ｆに見出される表に従って決定され、図中、「ｒ１」は、第１のポリヌクレオチドにおける検出された塩基値を表し、「ｒ２」は、リードポリヌクレオチドにおける検出された塩基値を表し、「ｒ２ｃ」は、第２のポリヌクレオチドにおける塩基値を表し、「ｒ１／ｒ２」は、第１のポリヌクレオチドおよびリードポリヌクレオチドに関する検出された塩基値の組合せを表し、「ｒ１／ｒ２ｃ」は、第１のポリヌクレオチドおよび第２のポリヌクレオチドに関する塩基値の組合せを表し、「Ａ」は、アデニンを表し、「Ｇ」は、グアニンを表し、「Ｔ」は、チミンを表し、「Ｃ」は、シトシンを表し、数０～９は、個々のエラーコールを表す。
（実施例１０）
β－グルコシルトランスフェラーゼおよびＳＡＭアナログ処置を含む６文字塩基判別による２塩基シーケンシング

第１のポリヌクレオチド（例えば、無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドは、実施例１に記載されている通りに提供される。二本鎖ＤＮＡをβ－グルコシルトランスフェラーゼ（ｂＧＴ）に曝露する（例えば、図２Ｃに示す通り）。次に、二本鎖ＤＮＡポリヌクレオチドをＤＮＭＴ１に曝露して、無保護５－メチルシトシンタグを、第２のポリヌクレオチドにおける対応する座位の近位にあるシトシンへと転移する。次に、二本鎖ＤＮＡポリヌクレオチドを、Ｓ－アデノシルメチオニン（ＳＡＭ）アナログおよびＤＮＡメチルトランスフェラーゼを含む溶液に曝露する。次に、二本鎖ＤＮＡを、ヘリカーゼ（または一本鎖ＤＮＡ結合タンパク質）を使用して分離し、ＡＰＯＢＥＣ３Ａまたはその断片を使用して脱アミノ化する。二本鎖ＤＮＡが分離される間に、ＰＣＲを使用してリードポリヌクレオチドを生成し、ＰＣＲを使用してリードポリヌクレオチドを生成し、第１のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。ヘリカーゼがもはや存在しない／活性がない場合、鎖置換ＰＣＲ試薬および／または加熱を使用して、第１および第２のポリヌクレオチドを分離して、ＰＣＲを行うことができる。

代わりに、真の塩基に関する値は、図２０Ｆに見出される表に従って決定され、図中、「ｒ１」は、第１のポリヌクレオチドにおける検出された塩基値を表し、「ｒ２」は、リードポリヌクレオチドにおける検出された塩基値を表し、「ｒ２ｃ」は、第２のポリヌクレオチドにおける塩基値を表し、「ｒ１／ｒ２」は、第１のポリヌクレオチドおよびリードポリヌクレオチドに関する検出された塩基値の組合せを表し、「ｒ１／ｒ２ｃ」は、第１のポリヌクレオチドおよび第２のポリヌクレオチドに関する塩基値の組合せを表し、「Ａ」は、アデニンを表し、「Ｇ」は、グアニンを表し、「Ｔ」は、チミンを表し、「Ｃ」は、シトシンを表し、数０～９は、個々のエラーコールを表す。
（実施例１１）
β－グルコシルトランスフェラーゼおよびＳＡＭアナログ処置を含む６文字塩基判別による２塩基シーケンシング

第１のポリヌクレオチド（例えば、無細胞ＤＮＡの元のポリヌクレオチドを含む）、第２のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖ＤＮＡポリヌクレオチドは、実施例１に記載されている通りに提供される。二本鎖ＤＮＡポリヌクレオチドをＤＮＭＴ１に曝露して、無保護５－メチルシトシンタグを、第２のポリヌクレオチドにおける対応する座位の近位にあるシトシンへと転移する（例えば、図２Ｂに示す通り）。次に、二本鎖ＤＮＡをβ－グルコシルトランスフェラーゼ（ｂＧＴ）に曝露する。次に、二本鎖ＤＮＡポリヌクレオチドを、Ｓ－アデノシルメチオニン（ＳＡＭ）アナログおよびＤＮＡメチルトランスフェラーゼを含む溶液に曝露する。次に、二本鎖ＤＮＡを、ヘリカーゼ（または一本鎖ＤＮＡ結合タンパク質）を使用して分離し、ＡＰＯＢＥＣ３Ａまたはその断片を使用して脱アミノ化する。二本鎖ＤＮＡが分離される間に、ＰＣＲを使用してリードポリヌクレオチドを生成し、ＰＣＲを使用してリードポリヌクレオチドを生成し、第１のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。ヘリカーゼがもはや存在しない／活性がない場合、鎖置換ＰＣＲ試薬および／または加熱を使用して、第１および第２のポリヌクレオチドを分離して、ＰＣＲを行うことができる。

第１のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図２Ｂに従って、シーケンシングデータを処理するためのコンピューターを使用して決定される。
（実施例１２）
ＴＥＴ処置およびβ－グルコシルトランスフェラーゼ処置を含む５文字塩基判別による２塩基シーケンシング

本実施例は、核酸分子における修飾された（例えば、メチル化された）塩基を同定するための、酸化剤（例えば、ＴＥＴ酵素）、グリコシル化剤（例えば、例えば、β－グルコシルトランスフェラーゼ等のグルコシルトランスフェラーゼ）、脱アミノ化剤（デアミナーゼ）およびヘリカーゼによる二本鎖核酸の処理について記載する。特に、本実施例は、メチル化されていないシトシン塩基からメチル化されたシトシン塩基（例えば、５－メチルシトシンを含むメチルシトシン；５－ヒドロキシメチルシトシンを含むヒドロキシメチルシトシン）を区別および同定する。そのような区別および同定は、単一塩基分解能で為され得る。

一部の場合には、図２３に描写される通り、第１の鎖および第２の鎖を含む２つの二本鎖ポリヌクレオチド（例えば、二本鎖ＤＮＡ）は、一体にハイブリダイズされており、かつ、別々に一体に連結されている（例えば、１個または複数のヘアピンアダプターを介して）。一部の場合には、第１の鎖は、第１の鎖の３’末端においてヘアピンアダプターに連結され、ヘアピンアダプターは、第２の鎖の５’末端において第２の鎖に連結されている（図２３の左半分を参照）。一部の場合には、第１の鎖は、第１の鎖の５’末端においてヘアピンアダプターに連結され、ヘアピンアダプターは、第２の鎖の３’末端において第２の鎖に連結されている（図２３の右半分を参照）。元の二本鎖ポリヌクレオチドを含む元のポリヌクレオチドからハイブリダイズされ連結された鎖を有するそのような二本鎖ポリヌクレオチドを生成するための例は、実施例１、図１Ａ、図１Ｂ、図１９Ａおよび図１９Ｂに関する箇所を含む本明細書の他の箇所に記載されている。図２３の操作１も、そのような二本鎖ポリヌクレオチドを生成するための操作例を提供する。後述する処理操作が行われる前に、その間にまたはその後に、シーケンシングアダプターを付加することができる。本実施例において、図２３に描写される通り、提供される二本鎖ポリヌクレオチド（第１は図２３の左に示されており、第２は図２３の右に示されている）は、メチルシトシン（図２３におけるｍＣ、例えば、５－メチルシトシン）およびヒドロキシメチルシトシン（図２３におけるｈｍＣ、例えば、５－ヒドロキシメチルシトシン）塩基、ならびに当該ポリヌクレオチドが派生された元の二本鎖ポリヌクレオチドのうち一方の元の鎖を含む。メチル化された塩基は、元の鎖にある。

図２３を参照すると、二本鎖ポリヌクレオチドは、例えば、ＴＥＴ酵素等のオキシダーゼであり得る酸化剤に曝露される。一部の場合には、オキシダーゼ（例えば、ＴＥＴ）の生物学的に活性な断片が使用される。酸化剤は、メチルシトシン塩基をヒドロキシメチルシトシンへと変換する。

酸化剤による処置の前に、それと同時にまたはその後に、二本鎖ポリヌクレオチドは、グルコース源（例えば、ウリジン二リン酸グルコース（ＵＤＰＧ））の存在下で、ヒドロキシメチルシトシン（hydroymethylcytosine）をグリコシルヒドロキシメチルシトシン（図２３におけるｇｈｍＣ）へとグリコシル化することができるグリコシル化剤（例えば、図２３の操作２に示す通り、β－グルコシルトランスフェラーゼ（ｂＧＴ））に曝露される。このようなグリコシル化は、後述する脱アミノ化剤を含む他の薬剤の活性からヒドロキシメチルシトシン（hydroxmethylcytosine）を保護することができる。酸化剤によるヒドロキシメチルシトシンへの転換後に、メチルシトシン塩基をグリコシル化することができる。

次に、二本鎖ポリヌクレオチドは、図２３の操作３の通り、脱アミノ化剤およびヘリカーゼに曝露される。本実施例において、脱アミノ化剤は、例えば、ＡＰＯＢＥＣ（例えば、図２３の通りＡＰＯＢＥＣ３Ａ）またはその断片等のデアミナーゼ（例えば、シトシンデアミナーゼ）である。ヘリカーゼは、二本鎖ポリヌクレオチドの鎖の少なくとも一部分を互いに分離し、デアミナーゼは、グリコシル化されていないシトシン塩基（例えば、本来グリコシル化されているシトシン塩基は、メチルシトシンまたはヒドロキシメチルシトシンであった）からアミン基を除去する。そのような脱アミノ化シトシン塩基は、ウラシルへと転換され、グリコシル化シトシン塩基は、グリコシル化シトシンのままとなる。

次に、処理された二本鎖ポリヌクレオチドを処置して、シーケンシングアダプターを付加することができ（以前に既に付加されていない場合）、次いでシーケンシングすることができる。一部の場合には、シーケンシングに先立ち、例えば、増幅に供される等の処理の後に、処理された二本鎖ポリヌクレオチドをさらに処理する。

シーケンシングにおいて、また、図２５に描写される例として、一方の鎖における、かつ他方の鎖におけるグアニンコールに対応する（例えば、物理的に近位にあることにより）、コールされたシトシン塩基を使用して、処置された二本鎖ポリヌクレオチドが派生された元の二本鎖ポリヌクレオチドにおけるメチル化された（例えば、メチルシトシンまたはヒドロキシメチルシトシンのいずれかであった）シトシン塩基を同定する。さらに、一方の鎖における、かつ他方の鎖におけるグアニンに対応する（例えば、物理的に近位にあることにより）、生成されたウラシル塩基（一部の場合には、二本鎖ポリヌクレオチドの処理後の増幅の結果として、シーケンシングにおいてチミンとコールされる）を使用して、処置された二本鎖ポリヌクレオチドが派生された元の二本鎖ポリヌクレオチドにおけるメチル化されなかったシトシン塩基を同定する。アデニン、チミンおよびグアニン塩基コールに関する、鎖間の他の塩基コーリング対形成も、シーケンシングエラーを表す対形成と共に、図２５に示す。本明細書の他の箇所に記載されている通り、コールの対形成は、シーケンシングコールの精度を改善することができ、また、そのような改善された精度の達成に必要とされるシーケンシング深度を低減させることができる。コンピューターは、塩基コールを作製するためのシーケンシングデータの解析に役立つように使用することができる。
（実施例１３）
ＡＰＯＢＥＣおよびヘリカーゼ処置を含む４文字塩基判別による２塩基シーケンシング

本実施例は、核酸分子における塩基を同定するための、脱アミノ化剤（デアミナーゼ）およびヘリカーゼによる二本鎖核酸の処理について記載する。他の塩基からの塩基の同定および塩基の区別は、単一塩基分解能で為され得る。

処理に先立ち、また、図２４に描写される通り、第１の鎖および第２の鎖を含む２つの二本鎖ポリヌクレオチド（例えば、二本鎖ＤＮＡ）は、一体にハイブリダイズされており、かつ、別々に一体に連結されている（例えば、１個または複数のヘアピンアダプターを介して）。一部の場合には、第１の鎖は、第１の鎖の３’末端においてヘアピンアダプターに連結され、ヘアピンアダプターは、第２の鎖の５’末端において第２の鎖に連結されている（図２４の左半分を参照）。一部の場合には、第１の鎖は、第１の鎖の５’末端においてヘアピンアダプターに連結され、ヘアピンアダプターは、第２の鎖の３’末端において第２の鎖に連結されている（図２４の右半分を参照）。元の二本鎖ポリヌクレオチドを含む元のポリヌクレオチドからハイブリダイズされ連結された鎖を有するそのような二本鎖ポリヌクレオチドを生成するための例は、実施例１、図１Ａ、図１Ｂ、図１９Ａおよび図１９Ｂに関する箇所を含む本明細書の他の箇所に記載されている。図２４の操作１も、そのような二本鎖ポリヌクレオチドを生成するための操作例を提供する。後述する処理操作が行われる前に、その間にまたはその後に、シーケンシングアダプターを付加することができる。本実施例において、図２４に描写される通り、提供される二本鎖ポリヌクレオチド（第１は図２４の左に示し、第２は図２３の右に示す）は、メチルシトシン（図２４におけるｍＣ、例えば、５－メチルシトシン）およびヒドロキシメチルシトシン（図２４におけるｈｍＣ、例えば、５－ヒドロキシメチルシトシン）塩基、ならびに当該ポリヌクレオチドが派生された元の二本鎖ポリヌクレオチドの一方の元の鎖を含む。

図２４を参照すると、二本鎖ポリヌクレオチドは、図２４の操作２の通り、脱アミノ化剤およびヘリカーゼに曝露される。本実施例において、脱アミノ化剤は、例えば、ＡＰＯＢＥＣ（例えば、図２４の通りＡＰＯＢＥＣ３Ａ）またはその断片等のデアミナーゼ（例えば、シトシンデアミナーゼ）である。ヘリカーゼは、二本鎖ポリヌクレオチドの鎖の少なくとも一部分を互いに分離し、デアミナーゼは、メチル化されたシトシン塩基を含むシトシン塩基からアミン基を除去する。そのような脱アミノ化シトシン塩基は、ウラシルへと転換される。

次に、処理された二本鎖ポリヌクレオチドを処置して、シーケンシングアダプターを付加することができ（以前に既に付加されていない場合）、次いでシーケンシングすることができる。一部の場合には、シーケンシングに先立ち、例えば、増幅に供される等の処理の後に、処理された二本鎖ポリヌクレオチドをさらに処理する。メチル化された塩基が図２４に示されているが、図２４の例は、メチル化されていないシトシン塩基（複数可）およびその検出に等しく適用することができる。

シーケンシングにおいて、また、図２６に描写されている例として、一方の鎖における、かつ他方の鎖におけるグアニンに対応する（例えば、物理的に近位にあることにより）、生成されたウラシル塩基（一部の場合には、二本鎖ポリヌクレオチドの処理後の増幅の結果として、シーケンシングにおいてチミンとしてコールされる）を使用して、処置された二本鎖ポリヌクレオチドが派生された元の二本鎖ポリヌクレオチドにおけるメチル化されたシトシン塩基を含むシトシン塩基を同定する。アデニン、チミンおよびグアニン塩基コールに関する、鎖間の他の塩基コーリング対形成も、シーケンシングエラーを表す対形成と共に、図２６に示されている。本明細書の他の箇所に記載されている通り、コールの対形成は、シーケンシングコールの精度を改善することができ、また、そのような改善された精度の達成に必要とされるシーケンシング深度を低減させることができる。コンピューターは、塩基コールを作製するためのシーケンシングデータの解析に役立つように使用することができる。
（実施例１４）
改善されたゲノムバリアントコーリングのための２塩基シーケンシング方法を使用したシーケンシングエラー抑制

ＮＡ２４３８５（アシュケナージ系ユダヤ人の子供）およびＮＡ２４６３１（漢民族中国人の子供）細胞系試料をハイスループットシーケンシングのために調製し、ＮｏｖａＳｅｑＩｌｌｕｍｉｎａシーケンシングプラットフォームにおいてほぼ８０×（ＮＡ２４３８５）およびほぼ９０×（ＮＡ２４６３１）のシーケンシング深度までシーケンシングした（図２８）。実施例２に記載されている４文字塩基コーリング方法を使用して、短いシングルエンドリードを生成し（ＮＡ２４３８５およびＮＡ２４６３１試料の両方に関してほぼ１１１ｂｐの長さ）、それによると、第１のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図２０Ａに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「Ｆ鎖」および「Ｆ」値は、座位における第１のポリヌクレオチドの塩基の決定された値を表し、「Ｆ’鎖」および「Ｆ’」値は、第２のポリヌクレオチドにおける対応する座位における第２のポリヌクレオチドの塩基の決定された値を表す。

シングルエンドリードのための処理パイプラインを実行して、シーケンシング読み出しデータからゲノムバリアントをコールした。先ず、シーケンシング実験から得た未加工のペアエンドリードの品質をＦａｓｔＱＣによってチェックし、低品質リードをｆａｓｔｐによって除去した。次に、実施例２に記載されている４文字塩基コーリングアプローチを使用して、シングルエンドリードを作成した。シングルエンドリード（ＮＡ２４３８５試料に関しておよそ２２億個のリードおよびＮＡ２４６３１試料に関して２４億個）を、ＢＷＡ－ｍｅｍｖ０．７．１５によって参照ゲノムＧＲＣｈ３８ＤＨにマッピングした（図２８）。アラインされたリードをＢＡＭファイルへと変換し、Ｐｉｃａｒｄモジュールを使用して重複をマークした後に、ゲノム位置に基づき選別した。２０１８バリアントコーリングパイプライン標準（https://doi.org/10.1038/s41467-018-06159-4）によって推奨される通り、Ｑ１０、Ｑ２０、Ｑ３０およびＱ４０において起こる品質スコアのビニングを除いてデフォルトパラメーターを使用して、ＢａｓｅＱｕａｌｉｔｙＳｃｏｒｅＲｅｃａｌｉｂｒａｔｉｏｎ（ＢＱＳＲ）によって未加工のＢＡＭファイルを精緻化した。重複排除後に、ＮＡ２４３８５およびＮＡ２４６３１試料の両方が、ほぼ３０×カバレッジのリード深度を示した（図２８）。ＧＡＴＫのＨａｐｌｏｔｙｐｅＣａｌｌｅｒモジュール（バージョン４．１．９．０）により生殖系列バリアントコーリング（ＳＮＰおよびインデル）を行った。ＧＡＴＫハードフィルタリングアプローチを使用して、バリアントをフィルターにかけた。次のフィルター式：「ＱＤ＜２．０｜｜ＦＳ＞３０．０｜｜ＳＯＲ＞３．０｜｜ＭＱ＜４０．０｜｜ＭＱＲａｎｋＳｕｍ＜－３．０｜｜ＲｅａｄＰｏｓＲａｎｋＳｕｍ＜－３．０」を使用して、設定された閾値を上回るまたは下回るアノテーション値を有するバリアントをフィルタリングして取り除いた。シーケンシング結果のさらなる測定基準は、図２８に提示されている。

ＮＡ２４３８５およびＮＡ２４６３１試料においておよそ３３０万個のＳＮＰが検出された。それぞれＮＡ２４３８５およびＮＡ２４６３１試料における検出されたＳＮＰの９７．１％および９７．２％が、ｄｂＳＮＰデータベースに存在した（図２９）。ＳＮＰ検出のためのバリアントコーリングパイプラインの性能を、新規ＳＮＰ（それぞれＮＡ２４３８５およびＮＡ２４６３１試料に関して１．９３および２．１０）および公知ＳＮＰ（それぞれＮＡ２４３８５およびＮＡ２４６３１試料に関して２．０７４および２．０６９）の移行（Ｔｉ）およびトランスバージョン（Ｔｖ）変換比に基づき評価した（図２９）。ゲノムワイドレベルでＳＮＰを考慮する場合、Ｔｉ／Ｔｖ比は、ほぼ２～２．１であることが予想される。

バリアントコーリングパイプラインによっておよそ６４０，０００個のインデルが検出され、そのうち、ＮＡ２４３８５において検出されたインデルの９３．９％およびＮＡ２４６３１試料において検出されたインデルの約９４．２％が、ｄｂＳＮＰデータベースにおけるインデルと共通であった（図２９）。公知インデルに関する挿入／欠失の比は、ＮＡ２４３８５およびＮＡ２４６３１試料の両方に関してほぼ０．９であり、ほぼ１における比の予想される値とマッチした。新規インデルに関する挿入／欠失の比は、ＮＡ２４３８５で０．９３およびＮＡ２４６３１試料で０．９６であり、これは、ほぼ１における予想される比に密接にマッチし、得られたシーケンシングデータの品質をさらに検証した（図２９）。

同定されたＳＮＰおよびインデルを、ＮＩＳＴデータセットにおいて定義される絶対的基準バリアントと比較することにより、シーケンシング実験の結果を評価した（図３０）。簡潔に説明すると、ＮＩＳＴデータベースにおけるヘテロ接合体ＳＮＰバリアントは、それぞれＮＡ２４３８５およびＮＡ２４６３１試料において９１．９％および９４．２％感度で検出された（図３０）。ＮＩＳＴデータベースにおけるホモ接合体ＳＮＰバリアントは、それぞれＮＡ２４３８５およびＮＡ２４６３１試料において９２．０％および９４．７％感度で検出された（図３０）。ヘテロ接合体およびホモ接合体ＳＮＰバリアントの検出に関するＰＰＶは、ＮＡ２４３８５試料においてそれぞれ９９％および９９．９％であった（図３０）。ヘテロ接合体およびホモ接合体ＳＮＰバリアントの検出に関するＰＰＶは、それぞれＮＡ２４６３１試料において９８．９％および９９．９％であった（図３０）。検出されたＳＮＰに関する遺伝子型一致は、ＮＡ２４３８５およびＮＡ２４６３１試料の両方で９９．９％であった。非参照遺伝子型一致は、それぞれＮＡ２４３８５およびＮＡ２４６３１試料に関して９１．４％および９３．８％において測定された（図３０）。

比較すると、ＮＩＳＴデータベースにおけるヘテロ接合体インデルは、それぞれＮＡ２４３８５およびＮＡ２４６３１試料において８４．９％感度および８８．６％で検出された（図３０）。ＮＩＳＴデータベースにおけるホモ接合体インデルバリアントは、それぞれＮＡ２４３８５およびＮＡ２４６３１試料において８４．３％感度および９０．２％感度で検出された（図３０）。ホモ接合体インデルの検出に関するＰＰＶは、それぞれＮＡ２４３８５およびＮＡ２４６３１試料において９９．４％および９９．３％であった。ヘテロ接合体インデルの検出に関するＰＰＶは、それぞれＮＡ２４３８５およびＮＡ２４６３１試料において９６．７％および９７．４％であった。インデル検出に関する遺伝子型一致は、ＮＡ２４３８５およびＮＡ２４６３１試料の両方で９９．９％であった。非参照インデル遺伝子型一致は、それぞれＮＡ２４３８５およびＮＡ２４６３１試料に関して８２．５％および８７．５％において測定され、ホモ接合体代替およびヘテロ接合性遺伝子型を効果的に捕捉する本明細書における２塩基シーケンシング方法の能力を特に強調した（図３０）。

ＳＮＰ検出のためのバリアントコーリングパイプラインの性能を、ヘテロ接合性（Ｈｅｔ）およびホモ接合性（Ｈｏｍ）検出、新規および公知ＳＮＰの両方の移行（Ｔｉ）およびトランスバージョン（Ｔｖ）変換、ならびに検査および「絶対的基準」ＮＩＳＴデータセットが共通であることに基づくＳＮＰに関する遺伝子型一致に基づきさらに評価した。ヘテロ接合性およびホモ接合性バリアントの検出のための感度測定基準（真陽性（ＴＰ）／（真陽性（ＴＰ）＋偽陰性（ＦＮ））および陽性適中率（ＰＰＶ）（真陽性（ＴＰ）／（真陽性（ＴＰ）＋偽陽性（ＦＰ））を計算した。Ｈｅｔ／Ｈｏｍ検出のための感度測定基準およびＴｉ／Ｔｖ比は、Wang et al., 2014によって記載される通りに計算した。ＴＰは、ＮＩＳＴデータセットに存在し、パイプラインによっても検出される、真陽性バリアントとして定義される；ＦＰは、ＮＩＳＴデータセットに存在せず、パイプラインによって検出される、偽陽性バリアントである；ＦＮは、ＮＩＳＴデータセットに存在し、パイプラインによって検出されない、偽陰性バリアントである。シーケンシングされ、所与の参照塩基位置においてアラインされた塩基の総数であるカバレッジの深度は、ＰｉｃａｒｄモジュールＲａｗＷｇｓＭｅｔｒｉｃｓによって計算された。「検査」および「真実」データセットが共通であることである遺伝子型（対立遺伝子）一致は、ＰｉｃａｒｄのＧｅｎｏｔｙｐｅＣｏｎｃｏｒｄａｎｃｅモジュールによって決定された。ＧＡＴＫバージョン４．１．９．０において実行されるＰｉｃａｒｄツールを使用して、Ｐｉｃａｒｄモジュールを稼働した。非参照遺伝子型一致を捕捉するパイプラインの能力、例えば、ホモ接合体代替およびヘテロ接合性遺伝子型を捕捉する能力も計算した。

次に、シーケンシング実験の結果を、同じ試料における公開されている（Ｉｌｌｕｍｉｎａシーケンシング）データ（ＮＩＳＴと表示）と比較した。ｄｂＳＮＰデータベースにおける以前に公知となったインデルおよび新規インデルに関して、Ｉｎｓ／Ｄｅｌ比を計算した（挿入の数の欠失の数に対する比を表し、１を下回ると予想される）。検出されたインデルの総数（ＮＡ２４３８５およびＮＡ２４６３１試料で６４２Ｋおよび６３９Ｋ）は、Ｉｌｌｕｍｉｎａデータベースに存在するインデルの数（それぞれＮＩＳＴＮＡ２４３８５およびＮＩＳＴＮＡ２４６３１で１２５万および１１２万）に満たなかったが、標準公開データと比較して、本明細書の２塩基方法によって検出されたインデルのより高いパーセンテージが、ｄｂＳＮＰデータベースに存在するインデルと共通であった（図３１）（ＮＡ２４３８５試料で９３．９％ｖｓ４７．５％、およびＮＡ２４６３１試料において９４．２％ｖｓ５１．６％）。ＮＩＳＴＮＡ２４３８５およびＮＩＳＴＮＡ２４６３１試料に関して、新規インデルのＩｎｓ／Ｄｅｌ比は、はるかにより高く、本明細書における２塩基シーケンシング方法を使用してＮＡ２４３８５およびＮＡ２４６３１試料において得られたシーケンシング結果が、ＮＩＳＴから入手可能な標準Ｉｌｌｕｍｉｎａデータよりも優れていたことを示唆する（図３１）。

さらに、シーケンシング実験からの遺伝子型一致測定基準と、同じ試料における公開されているデータ（標準Ｉｌｌｕｍｉｎａデータ）との比較は、２塩基シーケンシング方法を使用したＮＡ２４３８５およびＮＡ２４６３１試料におけるシーケンシング結果が、ＮＩＳＴから入手可能な標準Ｉｌｌｕｍｉｎａデータよりも優れていたことを示した。例えば、ＮＩＳＴデータベースにおけるＮＡ２４３８５試料に関する非参照ＳＮＰの８２．２％の遺伝子型一致と比較して、本明細書における２塩基シーケンシングシステムを使用して得られた非参照ＳＮＰの遺伝子型一致は、ＮＡ２４３８５試料において９１．４％であった（図３２）。同様に、ＮＩＳＴデータベースにおけるＮＡ２４３８５試料に関する非参照インデルの３８．３％の遺伝子型一致と比較して、本明細書における２塩基シーケンシングシステムを使用してＮＡ２４３８５試料において得られた非参照インデルの遺伝子型一致は、８２．５％であった（図３２）。

本明細書における２塩基シーケンシング方法およびシステムの低いカバレッジ性能を査定するために、Ｃｏｉｒｅｌｌ維持ＮＩＳＴ参照材料ＤＮＡ試料ＮＡ２４３８５およびＮＡ２４６３１を、実施例８に例証されているワークフローおよびＩｌｌｕｍｉｎａＮｏｖａＳｅｑ６０００システムを使用してシーケンシングされた全ゲノムを使用して調製した。未加工のシーケンシングデータを得た後に、品質管理を実行し、リードをｈｇ３８参照ゲノムにマッピングした。Ｐｉｃａｒｄを使用して重複したリードを除去した後に、ＮＡ２４３８５およびＮＡ２４６３１の平均深度は、それぞれ３０．１×および２９．６×であった（図２８）。ＮＡ２４３８５ｂａｍファイルを、６×カバレッジへとダウンサンプリングし、ＧＡＴＫのＨａｐｌｏｔｙｐｅＣａｌｌｅｒモジュールを使用して生殖系列バリアントをコールした。ダウンサンプリングされたｂａｍファイルにおける解析を、重複マーキングあり（５×）およびなし（６×）の両方で実行し（図３４）、バリアントコーリング解析の詳細な情報は、図３５に示されている。重複排除された（５×）試料に関して、ＳＮＰの９６．３％およびインデルの９５．７％は、ｄｂＳＮＰデータベースに見出される公知バリアントであった。

低い対立遺伝子分率バリアントを検出する２塩基シーケンシング方法の能力を調査するために、１％バリアント対立遺伝子分率を有する「ミックスイン」試料を創出した。特に、ＮＡ２４３８５をほぼ１×カバレッジ（１千万個のリード対それぞれの３個の「チャンク」に対応）へとサブサンプリングし、完全深度ＮＡ２４６３１試料と統合して、９２．３×のカバレッジを有するミックスイン試料を創出した（図３３Ａおよび図３３Ｂ）。ミックスイン試料を「腫瘍」試料として、ＮＡ２４６３１を「正常」試料として指定することにより、ＧＡＴＫのＭｕｔｅｃｔ２モジュールを使用して、体細胞変異体コーリングパイプラインを稼働した。ミックスイン試料において為されたバリアントコールを、感度（完全ＮＡ２４３８５に対して為されたコールとオーバーラップするが、完全ＮＡ２４６３１において為されたコールとオーバーラップしない、為されたコールの数）および特異度（完全ＮＡ２４３８５とＮＡ２４６３１のどちらに対して為されたコールともオーバーラップしない為されたコールの数に関係する）について査定した。完全ＮＡ２４３８５において為された４，４６４，４２９個の総バリアントコールが存在し、そのうち、２，６８７，７７３個のバリアントコールが、ＮＡ２４６３１に存在した（１，７７６，６５６個は存在しなかった）。１％ミックスイン試料に関して１２．３％の感度が観察され、この場合、ＮＡ２４３８５に特有の総計１，７７６，６５６個のバリアントのうち、その２１８，５７４個が、ミックスイン試料においてコールされた。ＮＡ２４３８５とＮＡ２４６３１のいずれにおいてもいかなるリード証拠を有しなかったミックスインにおいて為された１９，１６１個の総体細胞コールが存在し、９９．９９９％を超える特異度を提供する。

（１）ＮＡ２４３８５またはＮＡ２４６３１においていかなるリード証拠も有しなかったミックスイン試料由来のミスコール（図３６Ａ）ならびに（２）ＮＡ２４３８５およびＮＡ２４６３１シーケンシングリード由来のシングルトンエラー（図３６Ｂ）の解析は、Ａ⇔ＧおよびＣ⇔Ｔ偽陽性が、いかなる他の型のエラーよりも高頻度であったことを示した。シングルトンエラーは、ｈｇ３８参照対立遺伝子を保有する少なくとも２０個のリードおよび代替対立遺伝子を有する正確に１個のリードのカバレッジを有するゲノム部位として定義された。２塩基シーケンシング解析方法を使用して解析されたシーケンシングリードのＡ⇔ＧおよびＣ⇔Ｔエラーが、一塩基ミスコールにより起こり得るが、他の型のシーケンシングエラーが、２塩基ミスコールにより起こり得ると仮定すると、ミスコールおよびシングルトンエラー型におけるバイアスが予想される。例えば、本明細書の２塩基シーケンシング方法によって分解されたＡ塩基は、元の鎖におけるＡおよびコピー鎖におけるＴによって得られる。本明細書の２塩基シーケンシング方法によって分解されたＴ塩基は、元の鎖におけるＴおよびコピー鎖におけるＡによって得られる。したがって、ＴとしてミスコールされることになるＡに関して、元の鎖において、Ａは、Ｔとしてミスコールされ得る一方、同時に、コピー鎖におけるＴをＡとしてミスコールする。他方では、他のミスコールに関して、例えば、Ａ→ＧまたはＣ→Ｔが、１個のシーケンシングエラーにより起こり得る。例として、本明細書の２塩基シーケンシング方法によって分解されたＡ塩基は、元の鎖におけるＡおよびコピー鎖におけるＴによって得られる。２塩基シーケンシング方法によって分解されたＧ塩基は、元の鎖におけるＧおよびコピー鎖におけるＴによって得られる。したがって、ＧとしてミスコールされることになるＡに関して、元の鎖において、Ａが、Ｇとしてミスコールされたことを意味する。しかし、コピー鎖におけるＴは、既にＴであるため、単一シーケンシングエラーは、Ａ→Ｇミスコールをもたらし得る（図２７および図３７）。
（実施例１５）
ＡＰＯＢＥＣ３Ａおよびヘリカーゼの組合せを使用した脱アミノ化の効率増加は、シーケンシングエラーの低減をもたらす

２塩基シーケンシング方法（およびバイサルファイトシーケンシング）におけるメチル化コールの偽陽性率は、ＡＰＯＢＥＣ酵素による不完全脱アミノ化に起因し得る変換されていないシトシンの割合によって部分的に決定することができる。ＡＰＯＢＥＣ３Ａ脱アミノ化は、ライブラリーを一本鎖にするように機能し、分子間または分子内ｄｓＤＮＡの存在によって阻害され得、正常ペアエンドライブラリーおよび２塩基シーケンシングの両方において適用することができる。ＡＰＯＢＥＣ３Ａによる偽陽性率が、文献において報告されるもの（例えば、Sun, Z. et.al, 2021の通り、０．２５％のＦＰ率）と同様であることを確認するために、少量（０．５％）のメチル化されていないｐＵＣ１９およびメチル化されたラムダファージＤＮＡ（ラムダファージＤＮＡのＣｐＧコンテキストは、酵素Ｍ．ＳｓｓＩを使用してメチル化された）を含有する１００ｎｇのヒト小脳ｇＤＮＡから対照正常ペアエンドライブラリーを調製した。ＮＧＳアダプターがライゲーションされた後に、ライブラリーを、ＴＥＴで処置し、その後、熱およびホルムアミド処置を使用して、ライブラリーを変性し、続いて、ＡＰＯＢＥＣ３Ａ処置を３時間３７℃で行った。ＰＣＲ、ＮＧＳシーケンシング、マッピングおよび重複排除の後に、シトシンおよびチミンリードを、シーケンシングライブラリーの元のフォワード鎖において分解した。ＭｅｔｈｙｌＤａｃｋｅｌソフトウェアを使用して、シーケンシングリードを、ＣｐＧ、ＣＨＨまたはＣＨＧコンテキストに基づき解釈した（Ｃ＝非ＣｐＧコンテキストにおける失敗した脱アミノ化、一方で、Ｃ＝ＣｐＧコンテキストにおけるメチル化されたシトシン）。シーケンシングの結果は、対照試料におけるメチル化コーリングの偽陽性率が、記録された文献、例えば、ＥＭ－ＳＥＱ方法（Sun, Z. et.al, 2021の通り、０．２５％のＦＰ率）、バイサルファイトシーケンシング（Holmes. et.al, 2014の通り、１．７％～０．６％のＦＰ率）またはＴｅｔ支援ピリジン－ボランシーケンシング（Liu, Y. et. al, 2019の通り、０．２３％のＦＰ率）における偽陽性率と同等である（例えば、ＣｐＧコンテキストにおけるシトシンコールは、ほぼ０．８％、図３８）ことを示した（図３８）。

２塩基シーケンシングにおいて起こり得るｄｅ－ｎｏｖｏメチル化の率を査定するために、上に言及される通りにライブラリーを調製した（０．５％ｐＵＣ１９およびメチル化されたラムダｇＤＮＡを含有する５００ｎｇ小脳ｇＤＮＡの、ほぼ２５０ｂｐのサイズへの機械的剪断によってライブラリーを調製した）。ＡＰＯＢＥＣ３Ａがライブラリーを脱アミノ化することができるよりも速く、このようなライブラリーにおける同族鎖が元へ戻ってヘアピンを形成することができると仮定すると、ＡＰＯＢＥＣ３Ａまたはその断片と組み合わせてヘリカーゼを使用することができる。

ヘリカーゼとＡＰＯＢＥＣ３Ａとの組合せを使用して、ヘアピンにより繋がれた対形成した元の鎖およびコピー鎖を有するシーケンシングライブラリーを回収することができる。ヘリカーゼをまたはヘリカーゼおよびＡＰＯＢＥＣ３Ａの両方を除外した後に、ライゲーションされたヘアピンを有しない正常ペアエンドライブラリーを増幅することができる。両方の付加後に、元の脱アミノ化鎖（stand）と、ヘアピンにより連結されたその対応する脱アミノ化コピー鎖を含有する、より長いライブラリーを回収することができる（シーケンシングによって確認される通り）（図４３）。元の鎖がコピー鎖に連結されている、より長い脱アミノ化ライブラリーの回収は、ＡＰＯＢＥＣ３Ａが連結された二重鎖を脱アミノ化することを可能にするヘリカーゼによるＡＴＰのターンオーバーが関与する能動的なプロセスであり得る。ＡＴＰの非存在下で、正常ペアエンドライブラリー（少数で存在する）を増幅することができる（図４４）。

２塩基シーケンシングを実行するために、また、脱アミノ化失敗による偽陽性率を測定することができるように、ヘアピンを適応させ、続いてコピー鎖合成し、続いてＴＥＴおよびβＧＴ処置を行った。ヘリカーゼ（例えば、ＵｖｒＤ、ＰｃｒＡまたはＢａｄヘリカーゼヌクレアーゼ不活型（dead）であり、この場合、例えば、Ｅ．ｃｏｌｉＵｖｒＤヘリカーゼは、ＤＮＡに対して１００倍モル過剰で存在する）およびＡＰＯＢＥＣ３Ａの組合せを、２．５ｍＭＡＴＰの存在下で３時間３７℃にて使用した。マッピングおよび重複排除の後に、シトシンおよびチミンリードを、２塩基シーケンシングのために調製されたシーケンシングライブラリーの元のフォワード鎖において分解した。ＭｅｔｈｙｌＤａｃｋｅｌソフトウェアを使用して、シーケンシングリードを、ＣｐＧ、ＣＨＨまたはＣＨＧコンテキストに基づき解釈した（Ｃ＝非ＣｐＧコンテキストにおける失敗した脱アミノ化、一方で、Ｃ＝ＣｐＧコンテキストにおけるメチル化されたシトシン）。シーケンシングの結果は、対照試料（ＡＰＯＢＥＣ３Ａ単独で処置された２塩基シーケンシングライブラリー、またはＡＰＯＢＥＣ３Ａ単独で処置された正常ペアエンドライブラリー）におけるメチル化コーリングの偽陽性率が、他の方法のために測定された脱アミノ化率よりも有意に高いことを示した（例えば、ＣｐＧコンテキストにおいて、脱アミノ化による偽陽性率は、ほぼ０．０６２％である）（図３９）。したがって、ヘリカーゼは、ＡＰＯＢＥＣ３Ａと併せて働いて、脱アミノ化率を増加させ、これにより、バイオインフォマティクスフィルタリングにより達成されるレベル（その全体を本明細書に組み込むSchutsky et. al, 2018に示す通り）よりも下にメチル化コールの偽陽性率を減少させる。ヘリカーゼの非存在下で、ＡＰＯＢＥＣ３Ａは、ヘアピンライブラリーを脱アミノ化することができない。

６塩基判別のための２塩基シーケンシングライブラリーの調製において（例えば、５－ヒドロキシメチルシトシンから５－メチルシトシンを鑑別する２塩基シーケンシング、例えば、この場合、ＤＮＭＴ１が、元の鎖におけるメチル化された塩基の反対側にある同族鎖における塩基にメチル化マークを付加する）、ＤＮＭＴ１酵素処理操作の使用において異なるシーケンシングライブラリーを、本明細書における２塩基シーケンシングライブラリー調製方法を使用して調製した（例えば、この場合、ヘアピンを使用して、ライブラリー調製の際に元のフォワード鎖および同族鎖を連結する）。ＴＥＴおよびβＧＴ処置の前に、ＤＮＭＴ１の存在下でライブラリーを調製した。マッピングおよび重複排除の後に、シトシンおよびチミンリードを、２塩基シーケンシングのために調製されたシーケンシングライブラリーの元のフォワード鎖において分解した。ＭｅｔｈｙｌＤａｃｋｅｌソフトウェアを使用して、脱アミノ化率を決定した。本明細書において、ＣＨＨおよびＣＨＧにおける脱アミノ化率は、図３８の結果等、他の非ヘリカーゼ／ＡＰＯＢＥＣ３Ａ方法を超えるが、ＣｐＧにおける脱アミノ化は下落する（図４０）。
（実施例１６）
ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）およびＤＮＡグリコシラーゼ・リアーゼエンドヌクレアーゼＶＩＩＩを利用しない２塩基シーケンシングのためのライブラリーの生成のためのワークフロー

本ワークフローにおいて、次の様式で、ライブラリー調製のためにゲノムＤＮＡ（ｇＤＮＡ）試料を調製した。先ず、ＣｏｖａｒｉｓＭ２２０を使用して、低ＴＥ緩衝剤（１０ｍＭＴｒｉｓ－ＨＣｌ、０．１ｍＭＥＤＴＡ）中でマイクロチューブ－５０において、超音波処理によってｇＤＮＡ（０．５％ｐＵＣ１９およびメチル化されたラムダｇＤＮＡを含有）を２５０ｂｐへと断片化した。ｄｓＤＮＡＱｕｂｉｔによってｇＤＮＡを定量化し、ＢｉｏａｎａｌｙｚｅｒまたはＴａｐｅｓｔａｔｉｏｎを使用してサイズ分布をチェックした。合成対照（８０ｂｐおよび１６６ｂｐ）をインプットＤＮＡの量の０．５％でスパイクインした。条件ａ＋ｂのため（図４２Ａ～図４２Ｂ）、ＤＮＡの５’末端が５’リン酸化され、ライゲーションに利用可能となるように、ｇＤＮＡを末端修復およびＡテイル付加した。条件ｃ＋ｄのため（図４２Ａ～図４２Ｂ）、５’リン酸を欠如し、よってその５’末端におけるライゲーションができなくなるように、ｇＤＮＡ試料を修飾した。これは、２種の異なる方法によって為された；ｃ）Ｔ４ポリヌクレオチドキナーゼ（Ｔ４ＰＮＫ）を使用して、断片化ｇＤＮＡの５’リン酸およびＡＤＰの間のリン酸基の交換を触媒し（交換反応）、５’リン酸を欠如するｇＤＮＡ試料を生成した、またはｄ）ｒＳＡＰホスファターゼを使用して、ＤＮＡの末端からいかなるリン酸も能動的に除去した。次に、条件ｃ＋ｄ（図４２Ａ～図４２Ｂ）は、それぞれＴ４ＤＮＡポリメラーゼおよびＴａｑを使用して末端修復およびＡテイル付加した。次に、全試料を、ヘアピンアダプターライゲーションに進めた。ヘアピンアダプターライゲーション反応物を、末端修復およびＡテイル付加反応物と同じチューブにおいてアセンブルした。条件ｂ～ｄのため（図４２Ａ～図４２Ｂ）、３’リン酸を含有するヘアピンを使用し（図４１Ｂ）、それと比較して、条件ａ（図４２Ａ～図４２Ｂ）は、切断のためにウラシルを含有する３’ＯＨヘアピンをライゲーションした（図４１Ａ）。断片化ｇＤＮＡ試料の５’末端へのヘアピンの３’末端のライゲーションをヘアピンの３’リン酸によって遮断し（条件ｂ～ｄ、図４２Ａ～図４２Ｂ）、条件ｃ～ｄのため（図４２Ａ～図４２Ｂ）、これは、ゲノムＤＮＡにおける５’ＯＨによっても為された（図４１Ｂ）。ヘアピンの３’末端へのライゲーションは、条件ｂ～ｄのために遮断されたため（図４２Ａ～図４２Ｂ）、ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）およびＤＮＡグリコシラーゼ・リアーゼエンドヌクレアーゼＶＩＩＩは、ヘアピンアダプターにおけるニックの生成に使用されず、この反応のその後のクリーンアップも行われなかった。ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）およびＤＮＡグリコシラーゼ・リアーゼエンドヌクレアーゼＶＩＩＩならびに付随するクリーンアップ操作の排除は、より単純なワークフローを可能にすることができ、また、全体的なより速いライブラリー調製をもたらすこともできる（図４１Ａおよび図４１Ｂ）。

コピー鎖合成に進む前に、ヘアピンライゲーションされたＤＮＡ混合物を、磁気ビーズを使用してクリーンアップし、ＤＮＡを熱変性して、２つのゲノム鎖を分離した。コピー鎖合成操作において、ヘアピンアダプターにおける３’リン酸ブロックを除去し、反応緩衝剤におけるＰＮＫ酵素の作用によってｇＤＮＡの５’末端を５’リン酸化した。さらに、本ワークフローにおいて、ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）およびＤＮＡグリコシラーゼ・リアーゼエンドヌクレアーゼＶＩＩＩの作用によるステムの短縮がないため、ヘアピンアダプターの長い方のステムからコピー鎖を伸長する（図４１Ｂ）。

コピー鎖合成後に、磁気ビーズを使用してＤＮＡ混合物をクリーンアップし、シーケンシングのためにＩｌｌｕｍｉｎａアダプターをライゲーションし、次いで、磁気ビーズを使用してＤＮＡ試料を精製した。

次に、アダプターライゲーションされたＤＮＡを次いで、ＴＥＴ酵素で処置した。その結果生じるＤＮＡ試料を、酸化酵素と共に希釈Ｆｅ（ＩＩ）溶液と組み合わせ、サーモサイクラーにおいて３７℃で１時間インキュベートし、その後、停止試薬を添加した。脱アミノ化操作に進む前に、磁気ビーズを使用してＴＥＴ変換ＤＮＡをクリーンアップした。脱アミノ化反応において、ＡＰＯＢＥＣおよびＵｖｒＤヘリカーゼを含有する反応混合物においてＤＮＡ混合物をインキュベートした。磁気ビーズを使用して脱アミノ化ＤＮＡをクリーンアップした。ライブラリー調製のために脱アミノ化ＤＮＡにおいてＰＣＲ増幅を行い、磁気ビーズを使用してライブラリーＤＮＡを精製した。
（実施例１７）
ゲノムにおけるフォワードおよびリバース鎖におけるメチル化の定量化および塩基コーリング

図４５Ａ～図４５Ｃは、４塩基アライメントによる６塩基コーリング（Ａ、Ｔ、Ｇ、Ｃ、プラスメチル化およびヒドロキシメチル化）のための操作の概観を提示する。第１の操作において、（Ａ）参照ゲノムに対するゲノムシーケンシングリードのアライメントが実行され、続いて（Ｂ）ＣｐＧ部位位置におけるエピジェネティックコード情報のデコード（ここでは黄色ボックスによって示されるＣｐＧ部位例）および（Ｃ）本明細書に記載されている操作において評価されるエピジェネティックリードの定量化（例えば、メチル化またはヒドロキシメチル化）が為される。

図４６Ａ～図４６Ｃは、試料ゲノムにおけるメチル化情報の鎖のコーリング（stranded calling）に関与する操作に関するさらなる詳細を提示する。第１の操作において、試料ゲノム由来のシーケンシングリードを、参照ゲノム（ＨＧ３８）に対してアラインした。参照ゲノムに対するリードのアライメントの配向性を使用して、リードが得られる試料ゲノムの鎖（フォワードまたはリバース）を確かめた。例えば、フォワード配向性で参照ゲノムをアラインし、リードが参照ゲノムと同じ配向性でアラインされた場合、これはフォワード鎖として分類され、一方、リードがリバース相補的配向性でアラインされた場合、リードをゲノムのリバース鎖から得られるものとして分類した。参照ゲノムに対するアライメントの位置を含有する（が、参照ゲノム配列を記憶しない）ＢＡＭファイルを創出した。ＣｐＧ部位および非ＣｐＧ部位に関してＢＡＭアライメントファイルにフィルターをかけた（図４６Ａ）。「ＣｐＧ」部位の場所を見出すために、リードの開始および終了座標を使用して、当該配列におけるＣｐＧの位置を返すデータ構造である「区間ツリー（interval tree）」に照会した。次に、フィルターをかけたＢＡＭファイルをゲノム座標によって選別し、処理されたＢＡＭファイルをもたらした（図４６Ａ）。

本明細書に記載されている操作において同定されたＣｐＧ部位をさらに解析して、試料ゲノムにおいて塩基レベルでエピジェネティックコードを同定した（図４６Ｂ）。この操作におけるバイオインフォマティクスワークフローは、中間表現ファイルへと、シーケンシングリードにおける塩基に対応するエピジェネティック（メチル化またはヒドロキシメチル化）情報を抽出し、次いで中間表現ファイルを処理して、対応する塩基位置におけるエピジェネティック情報を定量化した。例えば、図４５Ａ～図４５Ｂにおいて、位置３１，９０３，１５０ｂｐ前後のボックスは、メチル化情報のさらなる解析のためのＣｐＧ部位の位置例をマークする。処理されたＢＡＭファイルをｓｓＣＡＬＬプログラムによって処理して、全リードにおける全ＣｐＧ部位のエピジェネティックコードを抽出した。その結果生じるｔｓｖファイルを再びゲノム座標によって選別して、中間表現ｔｓｖファイルを生成した（図４６Ｂ）。中間表現ファイルにおけるエピジェネティックコードにおける列は、配列ＩＤ、開始位置、位置に対応するエピジェネティックコード、およびリード識別子に関係する情報を含有した。中間表現ファイルはまた、参照ゲノムに対する試料配列読み取りデータのアライメントの配向性から確かめられた鎖情報に関係する情報を含有した。フォワード鎖は、（＋）によって指名され、リバース鎖は、（－）によって指名される（図４７）。

中間表現ファイルにおけるその結果生じるエピジェネティックコードファイルを、ゲノムの塩基位置におけるエピジェネティック状態のカウントを含有する定量化ファイルへと転換し、これにより、ゲノムにわたるエピジェネティック状態の頻度の測定を可能にする（図４６Ｃ）。メチル化されていない、メチル化されたまたはヒドロキシメチル化された状態を含有するとデコードされるカウントの割合を使用して、目的のゲノムの位置または染色体セグメントにおけるこれらのエピジェネティック状態の線形頻度マップを生成した（図４６Ｃ）。
（実施例１８）
１個または複数の標的化された目的のゲノム領域におけるエピジェネティック情報の測定

ある実施形態では、本明細書に記載されている方法および組成物を使用して、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報を測定することができる（図４８）。例えば、そのような実施形態では、出発ＤＮＡ材料（二本鎖ＤＮＡ）は先ず変性される（例えば、温度変性を使用して）。目的の領域（ＲＯＩ）を標的化するために、４塩基オリゴは、ＲＯＩの３’末端を標的化するように設計される。４ｂオリゴを、個々に捕捉された鎖にインデックス付けをすることができるＩｌｌｕｍｉｎａカスタムインデックスに取り付ける。標的化オリゴの第２の対は、ＲＯＩの５’末端を標的化するように設計され、これにより、構築物が脱アミノ化される後の操作における使用のためのＰＣＲハンドルを創出する。オリゴは、スタッガード二重鎖であり、インデックスを含有するように設計され、ＲＯＩの５’末端をプライムする標的化配列を有する。ｓｓＤＮＡの５’および３’末端においてＲＯＩをプライムしたら、鎖置換陰性ポリメラーゼ（例えば、Ｔ４等）を使用して「ギャップ」をフィリングし、続いてライゲーション（例えば、Ｔ４リガーゼ）し、これにより、次の操作において２塩基配列のための鋳型として使用されるヘアピンまたはＰＣＲハンドルを置換することなく、コピー鎖を創出する。エピジェネティックな塩基であるｍＣは、元の鎖からコピーされた鎖へとコピーされ、５ｈｍＣは、ｂＧＴ酵素による処置によって脱アミノ化から保護される。構築物をＴＥＴで処置して（ｂＧＴの存在または非存在下で）、ｍＣを、ｆＣ、ｃａＣまたはｇｈｍＣ（脱アミノ化に対して抵抗性の塩基）へと変換させる。ＡＰＯＢＥＣ３ＡおよびヘリカーゼＵｖｒＤの組合せを使用してヘアピンを開く。ＰＣＲハンドルを使用して、ＲＯＩを増幅する。複数の領域を標的化する場合、方法は、大規模な多重ＰＣＲと組み合わせることができる。一例において、方法は、ＩｌｌｕｍｉｎａシーケンシングアダプターがＰＣＲハンドルに付加される追加のＰＣＲ操作を含むように適応される。異なる例において、元のＰＣＲ操作は、ＰＣＲハンドルおよび同様にＩｌｌｕｍｉｎａアダプターを含有する伸長されたプライマーを含有するように修飾される。

第２の実施形態では、本明細書に記載されている方法および組成物を使用して、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報を測定することができる。本実施形態では（図４９）、出発ＤＮＡ材料は先ず変性される（例えば、温度変性を使用して）。目的の領域（ＲＯＩ）を標的化するために、ＰＣＲ操作において使用されることになる追加の配列、例えば、インデックスを含有する、４塩基オリゴプライマーが設計される。アニールされた４塩基プライマーは、例えば、ＡＰＯＢＥＣ３Ａ抵抗性塩基（例えば、ｈｍＣ、ｆＣまたはｃａＣ）の使用により、脱アミノ化から保護される。アニールされた４塩基プライマーは、ポリメラーゼ（例えば、クレノウポリメラーゼ）により伸長される。２塩基シーケンシングのための構築物を生成するために、先ずＡテイル付加によって、次いでＴ－オーバーハングを有するヘアピンを使用し、ヘアピンを構築物にライゲーションすることにより、ヘアピンが付加される。エピジェネティックな塩基であるｍＣは、元の鎖からコピーされた鎖へとコピーされ、５ｈｍＣは、ｂＧＴ酵素による処置によって脱アミノ化から保護される。構築物をＴＥＴで処置して（ｂＧＴの存在または非存在下で）、ｍＣをｆＣ、ｃａＣまたはｇｈｍＣ（脱アミノ化に対して抵抗性の塩基）へと酸化する。ＡＰＯＢＥＣ３ＡおよびヘリカーゼＵｖｒＤの組合せを使用してヘアピンを開く。ＡＰＯＢＥＣ３ＡＰＣＲハンドルを使用して、３塩基（Ａ、ＴおよびＧ）標的化オリゴ（ＣｐＧ領域の外側にあるＲＯＩは、ワークフローのこのステージにおいて脱アミノ化され得るため、３塩基標的化オリゴを使用して、ＲＯＩを標的化する）と組み合わせてＲＯＩを増幅する。複数の領域を標的化する場合、方法は、大規模な多重ＰＣＲと組み合わせることができる。一例において、方法は、ＩｌｌｕｍｉｎａシーケンシングアダプターがＰＣＲハンドルに付加される追加のＰＣＲ操作を含むように適応される。異なる例において、元のＰＣＲ操作は、ＰＣＲハンドルおよびＩｌｌｕｍｉｎａアダプターを含有する伸長されたプライマーを含有するように修飾される。

第３の実施形態では、本明細書に記載されている方法および組成物を使用して、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報を測定することができる。本実施形態では（図５０）、出発ＤＮＡ材料（二本鎖ＤＮＡ）は先ず末端修復およびＡテイル付加される。この材料は、「ＴＡ」ライゲーションを使用してヘアピンにより適応され、それによって、ヘアピンは、プライムし、ＤＮＡのいずれかの側におけるヘアピンのライゲーションに使用されるＴ－オーバーハングを含有する。ヘアピンは、消化酵素（例えば、酵素ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）およびエンドヌクレアーゼＶＩＩＩを使用することができる）を使用してカットすることができるＵを含有する。プローブ（４塩基オリゴ）を使用して、ＲＯＩの反対側のヘアピンに隣接するように、前記ＤＮＡ構築物の３’末端へとプライムする。オリゴは、例えば、ＡＰＯＢＥＣ３Ａ抵抗性塩基（例えば、ｈｍＣ、ｆＣまたはｃａＣ）を含有することにより、ＡＰＯＢＥＣ３Ａ脱アミノ化から保護される。オリゴの５’末端は、修飾された塩基（例えば、ホスホロチオエート誘導体）を含有することによりエキソヌクレアーゼ抵抗性となる。一実施形態では、オリゴは、インデックスを含有することができる。プライミングオリゴは、ヘアピンを置換しない鎖置換陰性ポリメラーゼにより伸長される。次に、コピー鎖は、ヘアピンにライゲーションされる。３’末端における潜在的なミスマッチは、ｓｓＤＮＡ特異的エキソヌクレアーゼによりトリミングされ、相補配列は、ｆＣまたはｃａＣ等のＡＰＯＢＥＣ３Ａ抵抗性塩基を使用してポリメラーゼにより構築されて、２塩基シーケンシングのための構築物が生成される。エピジェネティックな塩基であるｍＣは次いで、元の鎖からコピーされた鎖へとコピーすることができ、５ｈｍＣは、ｂＧＴ酵素による処置によって脱アミノ化から保護することができる。構築物をＴＥＴで処置して（ｂＧＴの存在または非存在下で）、ｍＣを酸化して、脱アミノ化に対して抵抗性のｆＣ、ｃａＣまたはｇｈｍＣを生成する。ＡＰＯＢＥＣ３ＡおよびヘリカーゼＵｖｒＤの組合せを使用してヘアピンを開く。ＲＯＩは次いで、脱アミノ化抵抗性ＰＣＲハンドルを使用して増幅することができる。複数の領域を標的化する場合、方法は、複数のプライマーが使用される大規模な多重ＰＣＲと組み合わせることができる。一例において、方法は、ＩｌｌｕｍｉｎａシーケンシングアダプターがＰＣＲハンドルに付加される追加のＰＣＲ操作を含むように適応される。異なる例において、元のＰＣＲ操作は、ＰＣＲハンドルおよびＩｌｌｕｍｉｎａアダプターを含有する伸長されたプライマーを含有するように修飾される。

本発明に係る組成物および方法の好まれる実施形態が本明細書に示され記載されているが、当業者には、そのような実施形態が、単なる一例として提供されていることが明らかであろう。本発明に係る組成物および方法が、本明細書内に提供される具体例によって限定されることは意図されない。本発明に係る組成物および方法は、上述の明細書を参照しつつ記載されてきたが、本明細書における実施形態の記載および説明は、限定の意味で解釈されることを意味するものではない。そこで、当業者であれば、本発明に係る組成物および方法から逸脱することなく、多数の変形、変化および置換に気が付くであろう。さらに、本発明に係る組成物および方法のあらゆる態様が、本明細書に示される具体的な描写、構成または相対的割合に限定されず、これらは種々の条件および変数に依存することが理解される。本明細書に記載されている本発明に係る組成物および方法の実施形態の様々な代替を、本発明に係る組成物および方法の実施において用いることができることを理解されたい。したがって、本発明に係る組成物および方法が、いかなるそのような代替、修正、変形または均等物も網羅することが企図される。次の特許請求の範囲が、本発明に係る組成物および方法の範囲を定義し、このような特許請求の範囲の範囲内の方法および構造ならびにそれらの均等物が、これにより網羅されることが意図される。

Claims

（ａ）フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、
（ｂ）シーケンシングを使用して、前記フォワードポリヌクレオチドの座位における第１の塩基の第１のアイデンティティーおよび前記同族ポリヌクレオチドの対応する座位における、またはその近位にある第２の塩基の第２のアイデンティティーを決定するステップと、
（ｃ）実行された場合に、前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーに少なくとも部分的に基づいて、前記フォワードポリヌクレオチドの前記座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップと
を含む方法。
前記第２の塩基が、前記同族ポリヌクレオチドの前記対応する座位にある、請求項１に記載の方法。
前記第２の塩基が、前記同族ポリヌクレオチドの前記対応する座位の近位にある、請求項１に記載の方法。
前記フォワードポリヌクレオチドおよび同族ポリヌクレオチドが連結されている、請求項１から３のいずれか一項に記載の方法。
シーケンシング前のいずれの時点でも、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、（ｉ）ヘアピンによって共有結合により連結されているか、（ｉｉ）ワトソン－クリック型の塩基対合によって二本鎖ポリヌクレオチドとして連結されているか、（ｉｉｉ）それぞれバーコードに連結されているか、または（ｉｖ）これらの任意の組合せである、請求項１から４のいずれか一項に記載の方法。
前記フォワードポリヌクレオチドが、相補的デオキシリボ核酸（ｃＤＮＡ）分子またはそのアンプリコンを含む、請求項１に記載の方法。
ＲＮＡヌクレオチドを、逆転写酵素、その生物学的に活性な断片、またはその誘導体と接触させて、前記フォワードポリヌクレオチドを生成するステップをさらに含む、請求項１に記載の方法。
前記元のポリヌクレオチドが、対象から得られた試料から単離されたデオキシリボ核酸（ＤＮＡ）ポリヌクレオチドを含む、請求項１から７のいずれか一項に記載の方法。
前記元のポリヌクレオチドが、無細胞ＤＮＡ（ｃｆＤＮＡ）ポリヌクレオチドを含む、請求項１から８のいずれか一項に記載の方法。
前記フォワードポリヌクレオチドが、前記元のポリヌクレオチドまたはその一部である、請求項１から５または８から９のいずれか一項に記載の方法。
前記フォワードポリヌクレオチドが、前記元のポリヌクレオチドのアンプリコンコピーである、請求項１から３または６のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびチミン、チミンおよびシトシン、チミンおよびグアニン、またはチミンおよびチミンのいずれかであると決定された場合、前記真の塩基の前記値がミスコールであると決定される、請求項１から１１のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、前記真の塩基の前記値がアデニンである、請求項１から１２のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、前記真の塩基の前記値がシトシンである、請求項１から１３のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、グアニンおよびシトシンであると決定された場合、前記真の塩基の前記値がグアニンである、請求項１から１４のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、前記真の塩基の前記値がチミンである、請求項１から１５のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１００分の１以下である、請求項１から１６のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１，０００分の１以下である、請求項１から１７のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１０，０００分の１以下である、請求項１から１７のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１００，０００分の１以下である、請求項１から１７のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１，０００，０００分の１以下である、請求項１から１７のいずれか一項に記載の方法。
前記第２の塩基の前記第２のアイデンティティーを決定するステップが、リードポリヌクレオチドをシーケンシングすることを含み、前記リードポリヌクレオチドが、前記同族ポリヌクレオチドの同族アンプリコンである、請求項１から２１のいずれか一項に記載の方法。
参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、前記真の塩基の前記値が決定される、請求項１から２２のいずれか一項に記載の方法。
試料が得られた対象を含む集団において０．１％以下の頻度を有する突然変異が、４５０倍以下の座位カバレッジを使用して、少なくとも９０％の感度で前記元のポリヌクレオチドの前記座位において検出される、請求項１から２３のいずれか一項に記載の方法。
（ａ）の前に、前記元のポリヌクレオチドまたはその誘導体に関して１つまたは複数の化学反応または酵素反応を行うことによって、前記フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む、請求項１から２４のいずれか一項に記載の方法。
（ａ）の前に、脱アミノ化反応を行うことによって、前記フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む、請求項２５に記載の方法。
前記脱アミノ化反応が、デアミナーゼを用いて行われる、請求項２６に記載の方法。
前記デアミナーゼが、ＡＰＯＢＥＣまたはその断片である、請求項２７に記載の方法。
前記脱アミノ化反応が、ヘリカーゼまたはその断片の存在下で行われる、請求項２６から２８のいずれか一項に記載の方法。
（ａ）フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、
（ｂ）前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをバイサルファイトと接触させるステップと、
（ｃ）シーケンシングを使用して、前記フォワードポリヌクレオチドの座位における第１の塩基の第１のアイデンティティーおよび前記同族ポリヌクレオチドの対応する座位における、またはその近位にある第２の塩基の第２のアイデンティティーを決定するステップと、
（ｄ）実行された場合に、前記第１の塩基の前記アイデンティティーおよび前記第２の塩基の前記アイデンティティーに少なくとも部分的に基づいて、前記フォワードポリヌクレオチドの前記座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップと
を含む方法。
前記第２の塩基が、前記同族ポリヌクレオチドの前記対応する座位にある、請求項３０に記載の方法。
前記第２の塩基が、前記同族ポリヌクレオチドの前記対応する座位の近位にある、請求項３０に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む、請求項３０に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップが、前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをバイサルファイトと接触させるステップの前に実施される、請求項２３に記載の方法。
ＤＮＡメチルトランスフェラーゼ活性を有する前記実体が、ＤＮＡ（シトシン－５）－メチルトランスフェラーゼ１（ＤＮＭＴ１）またはＤＮＭＴ５である、請求項２３または請求項３４に記載の方法。
前記フォワードポリヌクレオチドが、５－メチルシトシン、５－ヒドロキシメチルシトシン、または両方を含む、請求項３０から３５のいずれか一項に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、ワトソン－クリック型の塩基対合によって連結されている、請求項３０から３６のいずれか一項に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、ヘアピン、バーコード、または両方によってさらに連結されている、請求項３０から３７のいずれか一項に記載の方法。
ＤＮＡメチルトランスフェラーゼ活性を有する前記実体と前記接触させるステップの後に、前記同族ポリヌクレオチドが、必要に応じて５－メチルシトシンを含む、請求項３３から３８のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびシトシン、チミンおよびシトシン、またはチミンおよびチミンのいずれかであると決定された場合、前記真の塩基の前記値がミスコールであると決定される、請求項３０から３９のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、前記真の塩基の前記値がアデニンである、請求項３０から４０のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、前記真の塩基の前記値がシトシンである、請求項３０から４１のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、前記真の塩基の前記値がグアニンである、請求項３０から４２のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、前記真の塩基の前記値がチミンである、請求項３０から４３のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、前記真の塩基の前記値がメチル化されたシトシンである、請求項３０から４４のいずれか一項に記載の方法。
参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、前記真の塩基の前記値が決定される、請求項３０から４５のいずれか一項に記載の方法。
（ｂ）の前または後に、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを使用して、化学または酵素反応を行うステップをさらに含む、請求項３０から４６のいずれか一項に記載の方法。
（ａ）フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、
（ｂ）前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを酸化剤と接触させるステップと、
（ｃ）シーケンシングを使用して、前記フォワードポリヌクレオチドの座位における第１の塩基の第１のアイデンティティーおよび前記同族ポリヌクレオチドの対応する座位における、またはその近位にある第２の塩基の第２のアイデンティティーを決定するステップと、
（ｄ）実行された場合に、前記第１の塩基の前記アイデンティティーおよび前記第２の塩基の前記アイデンティティーに少なくとも部分的に基づいて、前記フォワードポリヌクレオチドの前記座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップと
を含む方法。
前記第２の塩基が、前記同族ポリヌクレオチドの前記対応する座位にある、請求項４８に記載の方法。
前記第２の塩基が、前記同族ポリヌクレオチドの前記対応する座位の近位にある、請求項４８に記載の方法。
前記酸化剤が金属酸化物である、請求項４８に記載の方法。
前記酸化剤がルテニウム酸塩である、請求項４８に記載の方法。
前記酸化剤がルテニウム酸カリウムである、請求項５２に記載の方法。
前記酸化剤がメチルシトシンジオキシゲナーゼである、請求項４８に記載の方法。
前記メチルシトシンジオキシゲナーゼが、テンイレブントランスロケーション（ＴＥＴ）酵素、またはその誘導体である、請求項５４に記載の方法。
前記フォワードポリヌクレオチドが、５－メチルシトシン、５－ヒドロキシメチルシトシン、または両方を含む、請求項３６から５５のいずれか一項に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、ワトソン－クリック型の塩基対合によって連結されている、請求項４８から５６のいずれか一項に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、ヘアピン、バーコード、または両方によってさらに連結されている、請求項４８から５７のいずれか一項に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む、請求項４８から５８のいずれか一項に記載の方法。
ＤＮＡメチルトランスフェラーゼ活性を有する前記実体が、ＤＮＡ（シトシン－５）－メチルトランスフェラーゼ１（ＤＮＭＴ１）またはＤＮＡ（シトシン－５）－メチルトランスフェラーゼ５（ＤＮＭＴ５）から選択される、請求項５９に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と前記接触させるステップが、前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを前記酸化剤と前記接触させるステップの後に実施される、請求項５９または請求項６０に記載の方法。
前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを脱アミノ化剤と接触させるステップをさらに含む、請求項４８から６１のいずれか一項に記載の方法。
前記脱アミノ化剤がデアミナーゼである、請求項６２に記載の方法。
前記デアミナーゼが、ＡＰＯＢＥＣまたはその断片である、請求項６３に記載の方法。
前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをヘリカーゼと接触させるステップをさらに含む、請求項６２に記載の方法。
前記脱アミノ化剤がバイサルファイトである、請求項６２に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびシトシン、チミンおよびシトシン、またはチミンおよびチミンのいずれかであると決定された場合、前記真の塩基の前記値がミスコールであると決定される、請求項４８から６６のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、前記真の塩基の前記値がアデニンである、請求項４８から６７のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、前記真の塩基の前記値がシトシンまたは５－ヒドロキシメチルシトシン（５ｈｍＣ）である、請求項４８から６８のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、前記真の塩基の前記値がグアニンである、請求項４８から６９のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、前記真の塩基の前記値がチミンである、請求項４８から７０のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、前記真の塩基の前記値が５－メチルシトシン（５ｍＣ）である、請求項４８から７１のいずれか一項に記載の方法。
参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、前記真の塩基の前記値が決定される、請求項４８から７２のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１００分の１以下である、請求項４８から７３のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１，０００分の１以下である、請求項４８から７３のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１０，０００分の１以下である、請求項４８から７３のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１００，０００分の１以下である、請求項４８から７３のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１，０００，０００分の１以下である、請求項４８から７３のいずれか一項に記載の方法。
（ａ）の前に、前記元のポリヌクレオチドまたはその誘導体に関して１つまたは複数の化学反応または酵素反応を行うことによって、前記フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む、請求項４８から７８のいずれか一項に記載の方法。
（ａ）フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、
（ｂ）前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを、５－ヒドロキシメチルシトシン（５ｈｍＣ）を特異的にグリコシル化する薬剤と接触させるステップと、
（ｃ）シーケンシングを使用して、前記フォワードポリヌクレオチドの座位における第１の塩基の第１のアイデンティティーおよび前記同族ポリヌクレオチドの対応する座位における、またはその近位にある第２の塩基の第２のアイデンティティーを決定するステップと、
（ｄ）実行された場合に、前記第１の塩基の前記アイデンティティーおよび前記第２の塩基の前記アイデンティティーに少なくとも部分的に基づいて、前記フォワードポリヌクレオチドの前記座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップと
を含む方法。
前記第２の塩基が、前記同族ポリヌクレオチドの前記対応する座位にある、請求項８０に記載の方法。
前記第２の塩基が、前記同族ポリヌクレオチドの前記対応する座位の近位にある、請求項８０に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む、請求項８０に記載の方法。
ＤＮＡメチルトランスフェラーゼ活性を有する前記実体が、ＤＮＡ（シトシン－５）－メチルトランスフェラーゼ１（ＤＮＭＴ１）またはＤＮＡ（シトシン－５）－メチルトランスフェラーゼ５（ＤＮＭＴ５）から選択される、請求項８３に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する前記実体と前記接触させるステップが、前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを、５－ヒドロキシメチルシトシン（５ｈｍＣ）を特異的にグリコシル化する薬剤と前記接触させるステップの後に実施される、請求項８３または請求項８４に記載の方法。
前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを脱アミノ化剤と接触させるステップをさらに含む、請求項８０から８５のいずれか一項に記載の方法。
前記脱アミノ化剤がデアミナーゼである、請求項８６に記載の方法。
前記脱アミノ化剤が、ＡＰＯＢＥＣ、またはその断片である、請求項８７に記載の方法。
前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをヘリカーゼと接触させるステップをさらに含む、請求項８６に記載の方法。
前記脱アミノ化剤がバイサルファイトである、請求項８６に記載の方法。
前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを酸化剤と接触させるステップをさらに含む、請求項８０から９０のいずれか一項に記載の方法。
前記酸化剤がメチルシトシンジオキシゲナーゼである、請求項９１に記載の方法。
前記メチルシトシンジオキシゲナーゼが、テンイレブントランスロケーション（ＴＥＴ）酵素、またはその誘導体である、請求項９１に記載の方法。
前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを前記酸化剤と前記接触させるステップが、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、ＤＮＡメチルトランスフェラーゼ活性を有する前記実体と前記接触させるステップの後に実施される、請求項９１から９３のいずれか一項に記載の方法。
ＤＮＡメチルトランスフェラーゼ活性を有する前記実体が、ＤＮＡ（シトシン－５）－メチルトランスフェラーゼ１（ＤＮＭＴ１）またはＤＮＡ（シトシン－５）－メチルトランスフェラーゼ５（ＤＮＭＴ５）から選択される、請求項９４に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、５－ヒドロキシメチルシトシン（５ｈｍＣ）を特異的にグリコシル化する前記薬剤と接触させるステップをさらに含む、請求項８０から９５のいずれか一項に記載の方法。
５ｈｍＣを特異的にグリコシル化する前記薬剤が、β－グルコシルトランスフェラーゼである、請求項９６に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、５ｈｍＣを特異的にグリコシル化する前記薬剤と前記接触させるステップが、前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを前記酸化剤と前記接触させるステップの後に実施される、請求項９７に記載の方法。
前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをデアミナーゼと接触させるステップをさらに含む、請求項８０から９８のいずれか一項に記載の方法。
前記デアミナーゼが、アポリポタンパク質ＢｍＲＮＡ編集酵素（ＡＰＯＢＥＣ）、二本鎖ＤＮＡデアミナーゼ、またはそれらの断片から選択される、請求項９９に記載の方法。
前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをＡＰＯＢＥＣと前記接触させるステップの前に、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドの１つまたは複数の座位が連結されないように前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを処理する、請求項１００に記載の方法。
前記処理することが、前記第１のポリヌクレオチドまたはその一部を、前記第２のポリヌクレオチドまたはその一部から分離することを含む、請求項１０１に記載の方法。
前記分離することが、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドをヘリカーゼと接触させることを含む、請求項１０２に記載の方法。
前記処理することが、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを一本鎖ＤＮＡ結合タンパク質（ＳＳＢ）と接触させることを含む、請求項１０１または請求項１０２に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、チミンおよびシトシン、チミンおよびチミン、それぞれ、シトシンおよびグアニンに先行されない場合のグアニンおよびシトシン、グアニンおよびシトシンが後続しない場合のシトシンおよびグアニン、またはそれぞれグアニンおよびチミンが後続しない場合のシトシンおよびグアニンのいずれかであると決定された場合、前記真の塩基の前記値がミスコールであると決定される、請求項８０から１０４のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、前記真の塩基の前記値がアデニンである、請求項８０から１０５のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、前記真の塩基の前記値がシトシンである、請求項８０から１０６のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、前記真の塩基の前記値がグアニンである、請求項８０から１０７のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、前記真の塩基の前記値がチミンである、請求項８０から１０８のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーが、ＣｐＧコンテキストの、それぞれグアニンおよびシトシンが後続するシトシンおよびグアニンであると決定された場合、前記真の塩基の前記値が５－メチルシトシン（５ｍＣ）である、請求項８０から１０９のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、ＣｐＧコンテキストの、それぞれグアニンおよびチミンが後続するシトシンおよびグアニンであると決定された場合、前記真の塩基の前記値が５－ヒドロキシメチルシトシン（５ｈｍＣ）である、請求項８０から１１０のいずれか一項に記載の方法。
参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、前記真の塩基の前記値が決定される、請求項８０から１１１のいずれか一項に記載の方法。
前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを還元剤と接触させるステップをさらに含む、請求項９１から９５のいずれか一項に記載の方法。
前記還元剤が、ボランまたはボランの誘導体である、請求項１１３に記載の方法。
前記還元剤が、ピリジンボラン、２－ピコリンボラン（ｐｉｃ－ボラン）、ボラン、ジボラン、ｔｅｒｔ－ブチルアミンボラン、アンモニアボラン、水素化ホウ素ナトリウム（ＮａＢＨ_４）、シアノ水素化ホウ素ナトリウム（ＮａＢＨ_３ＣＮ）、エチレンジアミンボラン、ジメチルアミンボラン、トリアセトキシ水素化ホウ素ナトリウム、モルホリンボラン、４－メチルモルホリンボラン、トリメチルアミンボラン、ジシクロヘキシルアミンボラン、もしくは水素化ホウ素リチウム（ＬｉＢＨ_４）、またはそれらの塩から選択される、請求項１１３または請求項１１４に記載の方法。
前記還元剤がピリジンボランである、請求項１１５に記載の方法。
前記還元剤が、水素化アルミニウムリチウム、ナトリウムアマルガム、アマルガム、二酸化硫黄、ジチオン酸塩、チオ硫酸塩、ヨウ化物、過酸化水素、ヒドラジン、水素化ジイソブチルアルミニウム、シュウ酸、一酸化炭素、シアン化物、アスコルビン酸、ギ酸、ジチオトレイトール、ベータ－メルカプトエタノール、またはこれらの任意の組合せを含む、請求項１１３に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、以下の組合せ：アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、チミンおよびシトシン、チミンおよびチミン、それぞれ、チミンおよびグアニンに先行されない場合のグアニンおよびチミン、グアニンおよびシトシンが後続しない場合のチミンおよびグアニン、またはそれぞれグアニンおよびチミンが後続しない場合のチミンおよびグアニンのいずれかであると決定された場合、前記真の塩基の前記値がミスコールであると決定される、請求項１１３から１１７のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、前記真の塩基の前記値がアデニンである、請求項１１３から１１８のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、前記真の塩基の前記値がシトシンである、請求項１１３から１１９のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、前記真の塩基の前記値がグアニンである、請求項１１３から１２０のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、前記真の塩基の前記値がチミンである、請求項１１３から１２１のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーが、ＣｐＧコンテキストの、それぞれグアニンおよびシトシンが後続するシトシンおよびグアニンであると決定された場合、前記真の塩基の前記値が５－メチルシトシン（５ｍＣ）である、請求項１１３から１２２のいずれか一項に記載の方法。
前記第１の塩基の前記第１のアイデンティティーおよび前記第２の塩基の前記第２のアイデンティティーが、それぞれ、ＣｐＧコンテキストの、それぞれグアニンおよびチミンが後続するシトシンおよびグアニンであると決定された場合、前記真の塩基の前記値が５－ヒドロキシメチルシトシン（５ｈｍＣ）である、請求項１１３から１２３のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１００分の１以下である、請求項８０から１２４のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１，０００分の１以下である、請求項８０から１２４のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１０，０００分の１以下である、請求項８０から１２４のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１００，０００分の１以下である、請求項８０から１２４のいずれか一項に記載の方法。
前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、１，０００，０００分の１以下である、請求項８０から１２４のいずれか一項に記載の方法。
（ａ）の前に、前記元のポリヌクレオチドまたはその誘導体に関して１つまたは複数の化学反応または酵素反応を行うことによって、前記フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む、請求項８０から１２９のいずれか一項に記載の方法。
シーケンシング前のいずれの時点でも、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、（ｉ）ヘアピンによって共有結合により連結されているか、（ｉｉ）ワトソン－クリック型の塩基対合によって二本鎖ポリヌクレオチドとして連結されているか、（ｉｉｉ）それぞれバーコードに連結されているか、または（ｉｖ）これらの任意の組合せである、請求項８０から１３０のいずれか一項に記載の方法。
前記座位における真の塩基のバリアントの値に少なくとも部分的に基づいて、前記対象における状態を診断するステップをさらに含む、請求項１から１３１のいずれか一項に記載の方法。
前記状態ががんである、請求項１３２に記載の方法。
前記がんが、肉腫、神経膠腫、腺腫、白血病、膀胱がん、乳がん、結腸直腸がん、子宮内膜がん、腎臓がん、肝臓がん、肺がん、黒色腫、非ホジキンリンパ腫、膵臓がん、前立腺がん、甲状腺がんから選択される、請求項１３３に記載の方法。
前記状態が神経変性状態である、請求項１３２に記載の方法。
前記神経変性状態が、アルツハイマー病、前頭側頭型認知症、筋萎縮性側索硬化症、パーキンソン病、脊髄小脳変性症、脊髄性筋萎縮症、レビー小体型認知症、またはハンチントン病から選択される、請求項１３５に記載の方法。
前記シーケンシングが、マクサムギルバートシーケンシング、サンガーシーケンシング、またはハイスループットシーケンシングを含む、請求項１から１３６のいずれか一項に記載の方法。
前記ハイスループットシーケンシングが、次世代シーケンシングまたは第三世代シーケンシングを含む、請求項１３７に記載の方法。
前記第三世代シーケンシングが、ロングリードシーケンシングである、請求項１３８に記載の方法。
（ａ）ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基を脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、
（ｂ）前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、
（ｃ）前記シーケンシングデータを処理して、少なくとも約８０％の精度で前記シトシン塩基を同定するステップと
を含む方法。
前記シーケンシングするステップが、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む、請求項１４０に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９０％の精度で前記シトシン塩基を同定するステップをさらに含む、請求項１４１に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９５％の精度で前記シトシン塩基を同定するステップをさらに含む、請求項１４２に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９９％の精度で前記シトシン塩基を同定するステップをさらに含む、請求項１４３に記載の方法。
前記脱アミノ化するステップが、デアミナーゼを用いて実施される、請求項１４０に記載の方法。
前記デアミナーゼが、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である、請求項１４５に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、もしくはそれらの断片と少なくとも９０％相同であるアミノ酸配列、またはその断片を含む、請求項１４０に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片である、請求項１４７に記載の方法。
（ｂ）の前に、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、（ｃ）が前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得ることを含む、請求項１４０に記載の方法。
（ａ）の前に、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む、請求項１４０に記載の方法。
（ａ）の前に、前記リバース鎖から前記フォワード鎖を分離するステップをさらに含む、請求項１５０に記載の方法。
核酸伸長反応において前記フォワード鎖を使用して、前記二本鎖ポリヌクレオチドを生成するステップをさらに含む、請求項１５１に記載の方法。
前記脱アミノ化するステップが、デアミナーゼを用いて実施される、請求項１５２に記載の方法。
前記デアミナーゼが、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である、請求項１５３に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、もしくはそれらの断片と少なくとも９０％相同であるアミノ酸配列、またはその断片を含む、請求項１５４に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片である、請求項１５５に記載の方法。
前記シトシン塩基が、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である、請求項１５５に記載の方法。
（ｂ）の前に、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、（ｃ）が前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得ることを含む、請求項１５７に記載の方法。
（ｃ）が、前記シーケンシングデータを処理して、少なくとも約９０％の精度で前記シトシン塩基をシトシン塩基として同定することを含む、請求項１５８に記載の方法。
（ｃ）が、前記シーケンシングデータを処理して、少なくとも約９５％の精度で前記シトシン塩基をシトシン塩基として同定することを含む、請求項１５９に記載の方法。
（ｃ）が、前記シーケンシングデータを処理して、少なくとも約９９％の精度で前記シトシン塩基をシトシン塩基として同定することを含む、請求項１６０に記載の方法。
前記フォワード鎖がメチル化されたシトシン塩基を含み、（ｉ）前記メチル化されたシトシン塩基を含む前記フォワード鎖および（ｉｉ）前記シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応において前記フォワード鎖を使用するステップをさらに含む、請求項１６１に記載の方法。
（ａ）の前に、前記メチル化されたシトシン塩基を、グルコシル化されたヒドロキシメチルシトシンに変換するステップをさらに含む、請求項１６２に記載の方法。
前記メチル化されたシトシン塩基がメチルシトシン塩基であり、前記変換するステップが、前記メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む、請求項１６３に記載の方法。
前記メチル化されたシトシン塩基がヒドロキシメチルシトシンであり、前記変換するステップが、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む、請求項１６３に記載の方法。
前記脱アミノ化するステップが、デアミナーゼを用いて実施される、請求項１６３に記載の方法。
前記デアミナーゼが、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である、請求項１６６に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片と少なくとも９０％相同であるアミノ酸配列を含む、請求項１６７に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片である、請求項１６８に記載の方法。
（ｂ）の前に、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、（ｃ）が前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得ることを含む、請求項１６９に記載の方法。
前記シーケンシングデータを処理して、少なくとも約８０％の精度で前記メチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップをさらに含む、請求項１７０に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９０％の精度で前記メチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップをさらに含む、請求項１７１に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９５％の精度で前記メチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップをさらに含む、請求項１７２に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９９％の精度で前記メチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップをさらに含む、請求項１７３に記載の方法。
（ａ）ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基をデアミナーゼを用いて脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、
（ｂ）前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、
（ｃ）前記シーケンシングデータを処理して、前記シトシン塩基を同定するステップと
を含む方法。
前記シーケンシングするステップが、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む、請求項１７５に記載の方法。
前記デアミナーゼが、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である、請求項１７５に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片と少なくとも９０％相同であるアミノ酸配列を含む、請求項１７５に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片である、請求項１７８に記載の方法。
（ａ）の前に、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む、請求項１７５に記載の方法。
（ａ）の前に、前記リバース鎖から前記フォワード鎖を分離するステップをさらに含む、請求項１８０に記載の方法。
前記分離するステップが、前記フォワード鎖を、前記二本鎖ポリヌクレオチドを生成する核酸伸長反応に供することを含む、請求項１８１に記載の方法。
前記デアミナーゼが、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である、請求項１８２に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片と少なくとも９０％相同であるアミノ酸配列を含む、請求項１８３に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片である、請求項１８４に記載の方法。
前記シトシン塩基が、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である、請求項１８５に記載の方法。
（ｂ）の前に、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、（ｃ）が前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得ることを含む、請求項１８６に記載の方法。
前記フォワード鎖がメチル化されたシトシン塩基を含み、前記分離するステップが、（ｉ）前記メチル化されたシトシン塩基を含む前記フォワード鎖および（ｉｉ）前記シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応において前記フォワード鎖を使用することを含む、請求項１８１に記載の方法。
（ａ）の前に、前記メチル化されたシトシン塩基を、グルコシル化されたヒドロキシメチルシトシンに変換するステップをさらに含む、請求項１８８に記載の方法。
前記メチル化されたシトシン塩基がメチルシトシン塩基であり、前記変換するステップが、前記メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む、請求項１８９に記載の方法。
前記メチル化されたシトシン塩基がヒドロキシメチルシトシンであり、前記変換するステップが、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む、請求項１８９に記載の方法。
前記デアミナーゼが、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である、請求項１８９に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片と少なくとも９０％相同であるアミノ酸配列を含む、請求項１９２に記載の方法。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片である、請求項１９３に記載の方法。
（ｂ）の前に、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを１つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、（ｃ）が前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得ることを含む、請求項１９４に記載の方法。
デアミナーゼ、
ヘリカーゼ、ならびに
パッケージ、およびその中の、前記キットを使用するための命令
を含むキット。
前記デアミナーゼが、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒ポリペプチド様（ＡＰＯＢＥＣ）酵素、またはその断片である、請求項１９６に記載のキット。
メチルシトシンジオキシゲナーゼをさらに含む、請求項１９６に記載のキット。
前記メチルシトシンジオキシゲナーゼが、テンイレブントランスロケーション（ＴＥＴ）酵素またはその断片を含む、請求項１９８に記載のキット。
デオキシリボ核酸（ＤＮＡ）グルコシルトランスフェラーゼをさらに含む、請求項１９６に記載のキット。
前記ＤＮＡグルコシルトランスフェラーゼが、ＤＮＡベータ－グルコシルトランスフェラーゼを含む、請求項２００に記載のキット。
ＤＮＡメチルトランスフェラーゼをさらに含む、請求項１９６に記載のキット。
前記ＤＮＡメチルトランスフェラーゼが、ＤＮＡメチルトランスフェラーゼ１（ＤＮＭＴ１）を含む、請求項２０２に記載のキット。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはその断片と少なくとも９０％相同であるアミノ酸配列を含む、請求項１９６に記載のキット。
前記ヘリカーゼが、ＵｖｒＤヘリカーゼ、ＧｅｏｂａｃｉｌｌｕｓｓｔｅｒｏｔｈｅｒｍｏｐｈｉｌｕｓＢａｄタンパク質、ＰｃｒＡヘリカーゼ、またはそれらの断片である、請求項２０４に記載のキット。
（ａ）塩基を含むポリヌクレオチドを、前記塩基を前記塩基に由来する変更された塩基に集合的に形質転換する１つまたは複数の試薬と接触させ、それによって、前記変更された塩基を含む修飾されたポリヌクレオチドを生成するステップと、
（ｂ）前記変更された塩基を含む前記修飾されたポリヌクレオチドまたはその誘導体の少なくとも一部をシーケンシングして、１０倍以下のカバレッジを有するシーケンシングデータを得るステップと、
（ｃ）前記シーケンシングデータを処理して、少なくとも約９０％の精度で前記塩基を同定するステップと
を含む方法。
前記修飾されたポリヌクレオチドまたはその誘導体が、二本鎖ポリヌクレオチドである、請求項２０６に記載の方法。
前記シーケンシングするステップが、前記二本鎖ポリヌクレオチドの両鎖の少なくとも一部をシーケンシングすることを含む、請求項２０７に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９５％の精度で前記塩基を同定するステップをさらに含む、請求項２０６に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９９％の精度で前記塩基を同定するステップをさらに含む、請求項２０９に記載の方法。
前記塩基がシトシン塩基であり、（ｃ）が、前記シーケンシングデータを処理して、少なくとも約９０％の前記精度で前記シトシン塩基をシトシンとして同定することを含む、請求項２０６に記載の方法。
前記シトシン塩基が、メチル化されたシトシン塩基である、請求項２１１に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９５％の精度で前記メチル化された塩基をシトシンとして同定するステップをさらに含む、請求項２１２に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９９％の精度で前記メチル化された塩基をシトシンとして同定するステップをさらに含む、請求項２１３に記載の方法。
前記１つまたは複数の試薬が酸化剤を含む、請求項２０６に記載の方法。
前記１つまたは複数の試薬がＤＮＡグルコシルトランスフェラーゼを含む、請求項２０６に記載の方法。
前記１つまたは複数の試薬がデアミナーゼを含む、請求項２０６に記載の方法。
前記１つまたは複数の試薬がヘリカーゼを含む、請求項２０６に記載の方法。
前記１つまたは複数の試薬がＤＮＡメチルトランスフェラーゼを含む、請求項２０６に記載の方法。
（ａ）の前に、前記ポリヌクレオチドを含むフォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む、請求項２０６に記載の方法。
（ａ）の前に、前記リバース鎖から前記フォワード鎖を分離するステップをさらに含む、請求項２２０に記載の方法。
前記分離するステップが、前記フォワード鎖を、前記ポリヌクレオチドを含む二本鎖ポリヌクレオチドを生成する核酸伸長反応において使用することを含む、請求項２２１に記載の方法。
前記メチル化された塩基がメチル化されたシトシン塩基である、請求項２２２に記載の方法。
前記１つまたは複数の試薬がデアミナーゼおよびヘリカーゼを含む、請求項２２３に記載の方法。
前記シーケンシングするステップが、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む、請求項２２４に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９５％の精度で前記メチル化されたシトシン塩基をシトシンとして同定するステップをさらに含む、請求項２２５に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９９％の精度で前記メチル化されたシトシン塩基をシトシンとして同定するステップをさらに含む、請求項２２６に記載の方法。
前記ポリヌクレオチドがポリヌクレオチドの集団に由来し、ポリヌクレオチドの前記集団における前記メチル化されたシトシン塩基の塩基頻度が、所与の座位において５０％未満であるかまたはそれに等しい、請求項２２１に記載の方法。
前記メチル化されたシトシン塩基が、メチルシトシン塩基またはヒドロキシメチルシトシン塩基を含む、請求項２２３に記載の方法。
前記メチル化されたシトシン塩基がメチルシトシン塩基を含み、前記１つまたは複数の試薬が、酸化剤、ＤＮＡグルコシルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む、請求項２２９に記載の方法。
前記メチル化されたシトシン塩基がヒドロキシメチルシトシン塩基を含み、前記１つまたは複数の試薬が、酸化剤、ＤＮＡグルコシルトランスフェラーゼ、メチルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む、請求項２２９に記載の方法。
前記シーケンシングするステップが、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む、請求項２２９に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９５％の精度で前記メチル化されたシトシン塩基をメチルシトシンまたはヒドロキシメチルシトシンとして同定するステップをさらに含む、請求項２３２に記載の方法。
前記シーケンシングデータを処理して、少なくとも約９９％の精度で前記メチル化されたシトシン塩基をメチルシトシンまたはヒドロキシメチルシトシンとして同定するステップをさらに含む、請求項２３３に記載の方法。
前記ポリヌクレオチドが、ヘアピンによって共有結合により連結した鎖を含む二本鎖ポリヌクレオチドである、請求項２０８に記載の方法。
前記フォワード鎖および前記リバース鎖が、ヘアピンによって共有結合により連結されている、請求項２２０に記載の方法。