JP7369492B2

JP7369492B2 - 核酸の塩基修飾の決定

Info

Publication number: JP7369492B2
Application number: JP2023062223A
Authority: JP
Inventors: ユク－ミンデニスロー; ロッサワイクンチウ; クワンチーチャン; ペイヨンチアン; スクハンチョン; ウェンレイポン; オンイェーツェ
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2019-08-16
Filing date: 2023-04-06
Publication date: 2023-10-26
Anticipated expiration: 2040-08-17
Also published as: GB2590573A; TWI832482B; GB2619217B; AU2022231719A1; CN112752853B; KR20210068396A; TWI783821B; US20230193360A1; EP3827092A1; GB202201821D0; GB202102808D0; GB2606945B; KR20220109494A; GB2619466A; GB2620069B; NZ796185A; AU2020323958A1; MX2021000931A; TW202321463A; JP7462993B2

Description

関連出願の相互参照
本出願は、２０２０年７月１３日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第６３／０５１，２１０号、２０２０年５月４日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第６３／０１９，７９０号、２０２０年３月１９日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第６２／９９１，８９１号、２０２０年２月５日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第６２／９７０，５８６号、および、２０１９年８月１６日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第６２／８８７，９８７号に対する優先権の利益を主張する。これらすべての内容は、すべての目的のために参照により本明細書に援用される。

核酸の塩基修飾の存在は、ウイルス、細菌、植物、真菌、線虫、昆虫、および脊椎動物（例えば、ヒト）などを含む、様々な生物で異なる。最も一般的な塩基修飾は、異なる位置における異なるＤＮＡ塩基へのメチル基の付加、いわゆるメチル化である。メチル化は、５ｍＣ（５－メチルシトシン）、４ｍＣ（Ｎ４－メチルシトシン）、５ｈｍＣ（５－ヒドロキシメチルシトシン）、５ｆＣ（５－ホルミルシトシン）、５ｃａＣ（５－カルボキシルシトシン）、１ｍＡ（Ｎ１－メチルアデニン）、３ｍＡ（Ｎ３－メチルアデニン）、７ｍＡ（Ｎ７－メチルアデニン）、３ｍＣ（Ｎ３－メチルシトシン）、２ｍＧ（Ｎ２－メチルグアニン）、６ｍＧ（Ｏ６－メチルグアニン）、７ｍＧ（Ｎ７－メチルグアニン）、３ｍＴ（Ｎ３－メチルチミン）、および４ｍＴ（Ｏ４－メチルチミン）などのシトシン、アデニン、チミン、グアニンで見出されている。脊椎動物のゲノムでは、５ｍＣが最も一般的なタイプの塩基メチル化であり、グアニンのメチル化がそれに続く（すなわち、ＣｐＧの文脈で）。

ＤＮＡメチル化は哺乳動物の発生に不可欠であり、遺伝子発現およびサイレンシング、胚発生、転写、クロマチン構造、Ｘ染色体不活性化、反復要素の活性に対する保護、有糸分裂中のゲノム安定性の維持、ならびに親起源のゲノムインプリンティングの調節において注目すべき役割を果たす。

ＤＮＡメチル化は、プロモーターおよびエンハンサーのサイレンシングにおいて、協調的な様式で多くの重要な役割を果たす（Ｒｏｂｅｒｔｓｏｎ，２００５、ＳｍｉｔｈａｎｄＭｅｉｓｓｎｅｒ，２０１３）。多くのヒトの疾患は、ＤＮＡメチル化の異常に関連することが見出されており、限定されないが、発癌のプロセス、インプリンティング障害（例えば、ベックウィズ・ウィーデマン症候群およびプラダー・ウィリー症候群）、反復不安定性疾患（例えば、脆弱Ｘ症候群）、自己免疫障害（例えば、全身性紅斑性狼瘡）、代謝障害（例えば、Ｉ型およびＩＩ型糖尿病）、神経障害、加齢などを含む。

ＤＮＡ分子のメチロミックな修飾を正確に測定することは、多くの臨床的意味を有する。ＤＮＡメチル化を測定するために広く使用されている１つの方法は、バイサルファイト配列決定（ＢＳ－ｓｅｑ）を使用することである（Ｌｉｓｔｅｒｅｔａｌ．，２００９、Ｆｒｏｍｍｅｒｅｔａｌ．，１９９２）。このアプローチでは、ＤＮＡ試料を、最初にバイサルファイトで処理して、非メチル化シトシン（すなわち、Ｃ）をウラシルに変換する。対照的に、メチル化シトシンは、変化せずに残る。次いで、バイサルファイト修飾ＤＮＡを、ＤＮＡ配列決定によって分析する。別のアプローチでは、バイサルファイト変換に続いて、修飾ＤＮＡは、次いで異なるメチル化プロファイルのバイサルファイト変換ＤＮＡを区別できるプライマーを使用して、ポリメラーゼ連鎖反応（ＰＣＲ）増幅にかけられる（Ｈｅｒｍａｎｅｔａｌ．，１９９６）。この後者のアプローチは、メチル化特異的ＰＣＲと呼ばれる。

このようなバイサルファイトに基づくアプローチの１つの欠点は、バイサルファイト変換ステップで、処理されたＤＮＡの大部分が著しく分解されることが報告されていることである（Ｇｒｕｎａｕ，２００１）。別の欠点は、バイサルファイト変換ステップによって強いＣＧバイアスが生成され（Ｏｌｏｖａｅｔａｌ．，２０１８）、典型的には、不均一なメチル化状態を有するＤＮＡ混合物に対して信号対雑音比が低下することである。さらに、バイサルファイト配列決定では、バイサルファイト処理中にＤＮＡが分解されるため、長鎖ＤＮＡ分子を配列決定することができない。したがって、事前の化学処理（例えば、バイサルファイト変換）および核酸増幅（例えば、ＰＣＲの使用）なしに、核酸の塩基の修飾を決定する必要がある。

本発明者らは、一実施形態では、酵素的および／または化学的変換、あるいはタンパク質および／または抗体結合などの鋳型ＤＮＡの前処理なしで、核酸中の５ｍＣなどの塩基修飾の決定を可能にする新しい方法を開発した。そのような鋳型ＤＮＡの前処理は、塩基修飾の決定に必要ではないが、示される実施例において、特定の前処理（例えば、制限酵素による消化）は、本発明の態様を強化するのに役立つ可能性がある（例えば、分析のためのＣｐＧ部位の濃縮を可能にする）。本開示に存在する実施形態は、例えば、限定されないが、４ｍＣ、５ｈｍＣ、５ｆＣ、および５ｃａＣ、１ｍＡ、３ｍＡ、７ｍＡ、３ｍＣ、２ｍＧ、６ｍＧ、７ｍＧ、３ｍＴおよび４ｍＴなどを含む、異なるタイプの塩基修飾を検出するために使用され得る。そのような実施形態は、様々な塩基修飾によって影響を受ける動態特徴などの配列決定に由来する特徴、ならびにメチル化状態が決定される標的位置周囲のウィンドウにおけるヌクレオチドの識別（ｉｄｅｎｔｉｔｙ）を利用することができる。

本発明の実施形態は、限定されないが、単一分子配列決定に使用することができる。単一分子配列決定の１つのタイプは、単一ＤＮＡ分子の配列決定の進行状況をリアルタイムで監視する単一分子リアルタイム配列決定である。単一分子リアルタイム配列決定の１つのタイプは、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓによって、単一分子リアルタイム（ＳＭＲＴ）システムを使用して商品化されたものである。方法は、塩基または近傍の塩基の修飾を検出するために、配列決定塩基からの信号のパルス幅、塩基のパルス間隔（ｉｎｔｅｒｐｕｌｓｅｄｕｒａｔｉｏｎ、ＩＰＤ）、および塩基の識別（ｉｄｅｎｔｉｔｙ）を使用することができる。別の単一分子システムは、ナノポア配列決定に基づくシステムである。ナノポア配列決定システムの一例は、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓによって、商品化されたものである。

本発明者らが開発した方法は、生体試料の塩基修飾を検出して、限定されないが、研究や診断の目的を含む様々な目的で、試料のメチル化プロファイルを評価するためのツールとして役立つ。検出されたメチル化プロファイルは、異なる分析に使用することができる。メチル化プロファイルは、ＤＮＡの起源を検出するために使用することができる（例えば、母体または胎児、組織、細菌、あるいは癌患者の血液から濃縮された腫瘍細胞から取得されたＤＮＡ）。組織における異常なメチル化プロファイルの検出は、個人の発達障害の特定、腫瘍または悪性腫瘍の特定および予測に役立つ。

本発明の実施形態は、生物のハプロタイプの相対的なメチル化レベルを分析することを含み得る。２つのハプロタイプ間のメチル化レベルの不均衡は、障害の分類を決定するために使用され得る。より大きな不均衡は、障害の存在、またはより重度の障害を示している可能性がある。障害には、癌が含まれ得る。

単一分子のメチル化パターンにより、キメラおよびハイブリッドＤＮＡを特定することができる。キメラおよびハイブリッド分子は、２つの異なる遺伝子、染色体、細胞小器官（例えば、ミトコンドリア、核、葉緑体）、生物（哺乳動物、細菌、ウイルスなど）、および／または種からの配列を含み得る。キメラまたはハイブリッドＤＮＡ分子の接合部を検出することで、癌、出生前障害または先天性障害を含む様々な障害または疾患の遺伝子融合を検出することが可能になり得る。

本発明の実施形態の性質および利点に関するより良好な理解は、以下の詳細な説明および添付の図面を参照して得ることができる。

本発明の実施形態による、塩基修飾を有する分子のＳＭＲＴ配列決定を示す。本発明の実施形態による、メチル化および非メチル化ＣｐＧ部位を有する分子のＳＭＲＴ配列決定を示す。本発明の実施形態による、パルス間隔およびパルス幅を示す。本発明の実施形態による、塩基修飾を検出するための、ＤＮＡのワトソン鎖の測定ウィンドウの一例を示す。本発明の実施形態による、塩基修飾を検出するためのＤＮＡのクリック鎖の測定ウィンドウの一例を示す。本発明の実施形態による、任意の塩基修飾を検出するための、ＤＮＡのワトソン鎖およびその相補的なクリック鎖からのデータを組み合わせることによる測定ウィンドウの一例を示す。本発明の実施形態による、任意の塩基修飾を検出するための、ＤＮＡのワトソン鎖およびその近くの領域のクリック鎖からのデータを組み合わせることによる測定ウィンドウの一例を示す。本発明の実施形態による、ＣｐＧ部位のメチル化状態を決定するためのワトソン鎖、クリック鎖、および両鎖の測定ウィンドウの一例を示す。本発明の実施形態による、塩基修飾を分類するための分析的、計算的、数学的、または統計モデルを構築する一般的な手順を示す。本発明の実施形態による、塩基修飾の分類の一般的な手順を示す。本発明の実施形態による、ワトソン鎖の既知のメチル化状態を有する試料を使用して、ＣｐＧ部位のメチル化状態を分類するための分析的、計算的、数学的、または統計モデルを構築する一般的な手順を示す。本発明の実施形態による、未知の試料のワトソン鎖のメチル化状態を分類する一般的な手順を示す。本発明の実施形態による、クリック鎖の既知のメチル化状態を有する試料を使用して、ＣｐＧ部位でのメチル化状態を分類するための分析的、計算的、数学的、または統計モデルを構築する一般的な手順を示す。本発明の実施形態による、未知の試料のクリック鎖のメチル化状態を分類する一般的な手順を示す。本発明の実施形態による、ワトソン鎖およびクリック鎖の両方からの既知のメチル化状態を有する試料を使用して、ＣｐＧ部位のメチル化状態を分類するための統計モデルを構築する一般的な手順を示す。本発明の実施形態による、ワトソン鎖およびクリック鎖からの未知の試料のメチル化状態を分類する一般的な手順を示す。本発明の実施形態による、メチル化を決定するための訓練データセットおよび試験データセットの性能を示す。同上。本発明の実施形態による、メチル化を決定するための訓練データセットおよび試験データセットの性能を示す。同上。本発明の実施形態による、メチル化を決定するための異なる配列決定深度での訓練データセットおよび試験データセットの性能を示す。同上。本発明の実施形態による、メチル化を決定するための異なる鎖の訓練データセットおよび試験データセットの性能を示す。同上。本発明の実施形態による、メチル化を決定するための異なる測定ウィンドウの訓練データセットおよび試験データセットの性能を示す。同上。本発明の実施形態による、メチル化を決定するためにのみ下流の塩基を使用する異なる測定ウィンドウについての訓練データセットおよび試験データセットの性能を示す。同上。本発明の実施形態による、メチル化を決定するためにのみ上流の塩基を使用する異なる測定ウィンドウについての訓練データセットおよび試験データセットの性能を示す。同上。本発明の実施形態による、訓練データセットにおける非対称隣接サイズを使用する下流および上流の塩基に関連する動態パターンを使用するメチル化分析の性能を示す。本発明の実施形態による、試験データセットにおける非対称隣接サイズを使用する下流および上流の塩基に関連する動態パターンを使用するメチル化分析の性能を示す。本発明の実施形態による、ＣｐＧ部位のメチル化状態の分類に関する特徴の相対的重要性を示す。本発明の実施形態による、パルス幅信号を使用しないメチル化検出のためのモチーフベースのＩＰＤ分析の性能を示す。本発明の実施形態による、メチル化分析にかけられるシトシンの上流の２ｎｔおよび下流の６ｎｔを使用した主成分分析技術のグラフである。本発明の実施形態による、主成分分析を使用した方法と畳み込みニューラルネットワークを使用した方法との性能比較のグラフである。本発明の実施形態による、メチル化を決定するためにのみ上流の塩基を使用する、異なる分析的、計算的、数学的、または統計モデルの訓練データセットおよび試験データセットの性能を示す。同上。本発明の実施形態による、全ゲノム増幅により、非メチル化アデニンを有する分子を生成するための１つのアプローチの一例を示す。本発明の実施形態による、全ゲノム増幅により、メチル化アデニンを有する分子を生成するための１つのアプローチの一例を示す。本発明の実施形態による、非メチル化データセットとメチル化データセットとの間のワトソン鎖の鋳型ＤＮＡにおける配列決定されたＡ塩基にわたるパルス間隔（ＩＰＤ）値を示す。同上。本発明の実施形態による、ワトソン鎖のメチル化を決定するための受信者操作特性曲線を示す。本発明の実施形態による、非メチル化データセットとメチル化データセットとの間のクリック鎖の鋳型ＤＮＡにおける配列決定されたＡ塩基にわたるパルス間隔（ＩＰＤ）値を示す。同上。本発明の実施形態による、クリック鎖のメチル化を決定するための受信者操作特性曲線を示す。本発明の実施形態による、ワトソン鎖の６ｍＡの決定を示す。本発明の実施形態による、クリック鎖の６ｍＡの決定を示す。本発明の実施形態による、測定ウィンドウベースの畳み込みニューラルネットワークモデルを使用して、ｕＡデータセットとｍＡデータセットとの間のワトソン鎖の配列決定されたＡ塩基についてのメチル化される決定された確率を示す。同上。本発明の実施形態による、ワトソン鎖の配列決定されたＡ塩基の測定ウィンドウベースのＣＮＮモデルを使用して６ｍＡを検出するためのＲＯＣ曲線を示す。本発明の実施形態による、ＩＰＤメトリックベースの６ｍＡ検出と測定ウィンドウベースの６ｍＡ検出との間の性能比較を示す。本発明の実施形態による、測定ウィンドウベースのＣＮＮモデルを使用して、ｕＡデータセットとｍＡデータセットとの間のクリック鎖のそれらの配列決定されたＡ塩基についてメチル化される決定された確率を示す。同上。本発明の実施形態による、クリック鎖の配列決定されたＡ塩基についての測定ウィンドウベースのＣＮＮモデルを使用した６ｍＡ検出の性能を示す。本発明の実施形態による、ワトソン鎖およびクリック鎖を含む分子のＡ塩基にわたるメチル化状態の例を示す。本発明の実施形態による、その１０パーセンタイル超のＩＰＤ値を有するｍＡデータセットのＡ塩基を選択的に使用することによる強化訓練の一例を示す。本発明の実施形態による、各ウェルにおけるサブリードの数に対するｍＡデータセットにおける非メチル化アデニンのパーセンテージのグラフである。本発明の実施形態による、試験データセットにおける二本鎖ＤＮＡ分子のワトソン鎖とクリック鎖との間のメチルアデニンのパターンを示す。本発明の実施形態による、訓練データセットおよび試験データセットにおける、完全非メチル化分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンパターンを有する分子のパーセンテージを示す表である。本発明の実施形態による、アデニン部位に関する完全非メチル化分子を有する分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンパターンを有する分子の代表的な例を示す。本発明の実施形態による、ＣｐＧアイランド（黄色の網掛け）を有する長いリード（６，２６５ｂｐ）の一例を示す。本発明の実施形態による、９つのＤＮＡ分子がＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳＭＲＴ配列決定によって配列決定され、それらがインプリント領域と重複していることを示す表である。本発明の実施形態による、ゲノムインプリンティングの一例を示す。本発明の実施形態による、インプリント領域におけるメチル化パターンの決定の一例を示す。本発明の実施形態による、新しいアプローチと従来のバイサルファイト配列決定との間で推定されたメチル化レベルの比較を示す。本発明の実施形態による、血漿ＤＮＡのメチル化の検出の性能を示す。（Ａ）メチル化の予測確率とバイサルファイト配列決定によって定量されたメチル化レベルの範囲との関係。（Ｂ）本開示に存在する実施形態による、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ（ＰａｃＢｉｏ）配列決定によって決定されたメチル化レベル（ｙ軸）と、１０Ｍｂ分解能でのバイサルファイト配列決定によって定量されたメチル化レベル（ｘ軸）との間の相関関係。同上。本発明の実施形態による、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳＭＲＴ配列決定とＢＳ－ｓｅｑとの間のＹ染色体のゲノム表現（ＧＲ）の相関を示す。本発明の実施形態による、各々が一連のＣｐＧ部位を有するＣｐＧブロックを使用したメチル化のＣｐＧブロックベースの検出の一例を示す。５ｍＣ：メチル化、Ｃ：非メチル化。本発明の実施形態による、ＣｐＧブロックベースのアプローチを使用したヒトＤＮＡ分子のメチル化の判定（ｍｅｔｈｙｌａｔｉｏｎｃａｌｌｉｎｇ）の訓練および試験を示す。（Ａ）訓練データセットの性能。（Ｂ）独立した試験データセットの性能。同上。本発明の実施形態による、腫瘍組織におけるコピー数変化を示す。同上。本発明の実施形態による、腫瘍組織におけるコピー数変化を示す。同上。本発明の実施形態による、推定されたメチル化レベルを使用する、妊婦の血漿からの血漿ＤＮＡ組織マッピングの概略図を示す。本発明の実施形態による、推定された母体血漿ＤＮＡへの胎盤の寄与と、Ｙ染色体リードによって推定された胎児ＤＮＡ画分との間の相関を示す。本発明の実施形態による、異なるヒト組織ＤＮＡ試料からの配列決定データを要約した表を示す。本発明の実施形態による、メチル化パターンを分析する様々な方法の図を示す。本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって定量された全ゲノムレベルでのメチル化密度の比較を示す。同上。本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって定量された全体的なメチル化レベルの異なる相関を示す。同上。同上。本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたメチル化レベルとともに、肝細胞癌（ＨＣＣ）細胞株および健康な対照の対象由来のバフィーコート試料についてのメチル化パターンを、１Ｍｎｔの分解能で示す。同上。ＨＣＣ細胞株（ＨｅｐＧ２）および健康な対照の対象由来のバフィーコート試料について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された１Ｍｎｔの分解能でのメチル化レベルの散布図を示す。同上。ＨＣＣ細胞株（ＨｅｐＧ２）および健康な対照の対象由来のバフィーコート試料について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された１００ｋｎｔの分解能でのメチル化レベルの散布図を示す。同上。本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたメチル化レベルとともに、ＨＣＣ腫瘍組織および隣接する正常組織についてのメチル化パターンを、１Ｍｎｔの分解能で示す。同上。ＨＣＣ腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された１Ｍｎｔの分解能でのメチル化レベルの散布図を示す。同上。ＨＣＣ腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された１００ｋｎｔの分解能でのメチル化レベルの散布図を示す。同上。本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたメチル化レベルとともに、ＨＣＣ腫瘍組織および隣接する正常組織についてのメチル化パターンを、１Ｍｎｔの分解能で示す。同上。ＨＣＣ腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された１Ｍｎｔの分解能でのメチル化レベルの散布図を示す。同上。ＨＣＣ腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された１００ｋｎｔの分解能でのメチル化レベルの散布図を示す。同上。本発明の実施形態による、腫瘍抑制遺伝子ＣＤＫＮ２Ａの近くのメチル化の異常なパターンの一例を示す。本発明の実施形態による、単一分子リアルタイム配列決定によって検出された可変メチル化領域を示す。同上。本発明の実施形態による、単一分子リアルタイム配列決定を使用した、ＨＣＣ組織と隣接する非腫瘍組織との間のＢ型肝炎ウイルスＤＮＡのメチル化パターンを示す。本発明の実施形態による、バイサルファイト配列決定を使用した、肝硬変を有するがＨＣＣを有しない患者由来の肝臓組織におけるＢ型肝炎ウイルスＤＮＡのメチル化レベルを示す。本発明の実施形態による、バイサルファイト配列決定を使用した、ＨＣＣ組織におけるＢ型肝炎ウイルスＤＮＡのメチル化レベルを示す。本発明の実施形態による、メチル化ハプロタイプ分析を示す。本発明の実施形態による、コンセンサス配列から決定された配列決定された分子のサイズ分布を示す。本発明の実施形態による、インプリント領域におけるアレルメチル化パターンの例を示す。同上。同上。同上。本発明の実施形態による、非インプリント領域におけるアレルメチル化パターンの例を示す。同上。同上。同上。本発明の実施形態による、アレル特異的断片のメチル化レベルの表を示す。本発明の実施形態による、メチル化プロファイルを使用して、妊娠中の血漿ＤＮＡの胎盤起源を決定する一例を示す。本発明の実施形態による、胎児特異的ＤＮＡメチル化の分析を示す。本発明の実施形態による、ＳＭＲＴ－ｓｅｑのための異なる試薬キットにわたる、異なる測定ウィンドウサイズの性能を示す。同上。同上。本発明の実施形態による、ＳＭＲＴ－ｓｅｑのための異なる試薬キットにわたる、異なる測定ウィンドウサイズの性能を示す。同上。同上。本発明の実施形態による、バイサルファイト配列決定およびＳＭＲＴ－ｓｅｑ（ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０）によって定量された全体的なメチル化レベルの相関を示す。同上。同上。本発明の実施形態による、様々な腫瘍組織と、ペアの隣接する非腫瘍組織との間の全体的なメチル化レベルの比較を示す。同上。本発明の実施形態による、循環コンセンサス配列（ｃｉｒｃｕｌａｒｃｏｎｓｅｎｓｕｓｓｅｑｕｅｎｃｅ、ＣＣＳ）から決定された配列文脈を使用してメチル化状態を決定することを示す。本発明の実施形態による、ＣＣＳから決定された配列文脈を使用したメチル化されたＣｐＧ部位の検出についてのＲＯＣ曲線を示す。本発明の実施形態による、ＣＣＳ情報を用いず、かつ参照ゲノムへの事前の整列を用いないメチル化ＣｐＧ部位の検出についてのＲＯＣ曲線を示す。本発明の実施形態による、単一分子リアルタイム配列決定のための分子の調製の一例を示す。本発明の実施形態による、ＣＲＩＳＰＲ／Ｃａｓ９システムの図を示す。本発明の実施形態による、目的の末端ブロックされた分子にまたがる２つの切断を導入するためのＣａｓ９複合体の一例を示す。本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたＡｌｕ領域のメチル化分布を示す。本発明の実施形態による、単一分子リアルタイム配列決定の結果を使用したモデルによって決定された、Ａｌｕ領域のメチル化レベルの分布を示す。本発明の実施形態による、組織および組織中のＡｌｕ領域のメチル化レベルの表を示す。本発明の実施形態による、Ａｌｕ反復配列に関連するメチル化信号を使用した異なる癌のタイプのクラスター分析を示す。本発明の実施形態による、全ゲノム増幅およびＭ．ＳｓｓｓＩ処理に関与した試験データセットにおける全体的なメチル化レベルの定量に対するリード深度の影響を示す。同上。本発明の実施形態による、異なるサブリード深度カットオフを使用した、ＳＭＲＴ－ｓｅｑ（ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０）およびＢＳ－ｓｅｑによって決定された全体的なメチル化レベル間の比較を示す。本発明の実施形態による、ＳＭＲＴ－ｓｅｑ（ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０）およびＢＳ－ｓｅｑによる２つの測定値間のメチル化レベルの相関に対するサブリード深度の影響を示す表である。本発明の実施形態による、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０によって生成されたデータにおける断片サイズに関するサブリード深度分布を示す。本発明の実施形態による、核酸分子のヌクレオチドの修飾を検出する方法を示す。本発明の実施形態による、核酸分子のヌクレオチドの修飾を検出する方法を示す。本発明の実施形態による、相対的なハプロタイプに基づくメチル化不均衡分析を示す。本発明の実施形態による、ケースＴＢＲ３０３３の隣接する非腫瘍組織ＤＮＡと比較した、腫瘍ＤＮＡにおけるハプロタイプＩ（ＨａｐＩ）とハプロタイプＩＩ（ＨａｐＩＩ）との間の異なるメチル化レベルを示すハプロタイプブロックの表である。同上。本発明の実施形態による、ケースＴＢＲ３０３２の隣接する正常組織ＤＮＡと比較した、腫瘍ＤＮＡにおけるＨａｐＩとＨａｐＩＩとの間の異なるメチル化レベルを示すハプロタイプブロックの表である。本発明の実施形態による、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０によって生成されたデータに基づく、腫瘍と隣接する非腫瘍組織との間の２つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。本発明の実施形態による、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０によって生成されたデータに基づく、異なる腫瘍病期の腫瘍組織における２つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。本発明の実施形態による、相対的なハプロタイプに基づくメチル化不均衡分析を示す。本発明の実施形態による、第１のハプロタイプおよび第２のハプロタイプを有する生物における障害を分類する方法を示す。本発明の実施形態による、ヒト部分はメチル化されているが、マウス部分はメチル化されていない、ヒト－マウスハイブリッド断片の作成を示す。本発明の実施形態による、ヒト部分はメチル化されていないが、マウス部分はメチル化されている、ヒト－マウスハイブリッド断片の作成を示す。本発明の実施形態による、連結後のＤＮＡ混合物（試料ＭＩＸ０１）中のＤＮＡ分子の鎖長分布を示す。本発明の実施形態による、第１のＤＮＡ（Ａ）および第２のＤＮＡ（Ｂ）がともに結合する接合領域を示す。本発明の実施形態による、ＤＮＡ混合物のメチル化分析を示す。本発明の実施形態による、試料ＭＩＸ０１のＣｐＧ部位についてメチル化される確率の箱ひげ図を示す。本発明の実施形態による、試料ＭＩＸ０２の交差連結後のＤＮＡ混合物中のＤＮＡ分子の鎖長分布を示す。本発明の実施形態による、試料ＭＩＸ０２のＣｐＧ部位についてメチル化される確率の箱ひげ図を示す。本発明の実施形態による、ＭＩＸ０１のバイサルファイト配列決定およびＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定されたメチル化を比較した表である。本発明の実施形態による、ＭＩＸ０２のバイサルファイト配列決定およびＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定されたメチル化を比較した表である。本発明の実施形態による、ＭＩＸ０１およびＭＩＸ０２についての、ヒトのみのＤＮＡおよびマウスのみのＤＮＡの５Ｍｂビンでのメチル化レベルを示す。同上。本発明の実施形態による、ＭＩＸ０１およびＭＩＸ０２についての、ヒト－マウスハイブリッドＤＮＡ断片のヒト部分およびマウス部分の５Ｍｂビンでのメチル化レベルを示す。同上。本発明の実施形態による、単一のヒト－マウスハイブリッド分子におけるメチル化状態を示す代表的なグラフである。同上。本発明の実施形態による、生体試料においてキメラ分子を検出する方法を示す。本発明の実施形態による、測定システムを示す。本発明の実施形態による、システムおよび方法とともに使用可能な例示的なコンピュータシステムのブロック図を示す。本発明の実施形態による、ＤＮＡ末端修復およびＡテーリングを使用したＭｓｐＩベースの標的化単一分子リアルタイム配列決定を示す。本発明の実施形態による、ＭｓｐＩ消化断片のサイズ分布を示す。同上。本発明の実施形態による、特定の選択されたサイズ範囲についてのＤＮＡ分子の数の表を示す。本発明の実施形態による、制限酵素消化後の、ＣｐＧアイランド内のＣｐＧ部位のパーセントカバレッジ対ＤＮＡ断片のサイズのグラフである。本発明の実施形態による、ＤＮＡ末端修復およびＡテーリングを使用しないＭｓｐＩベースの標的化単一分子リアルタイム配列決定を示す。本発明の実施形態による、アダプターの自己連結の確率が低減された、ＭｓｐＩベースの標的化単一分子リアルタイム配列決定を示す。本発明の実施形態による、ＭｓｐＩベースの標的化単一分子リアルタイム配列決定によって決定された胎盤とバフィーＤＮＡ試料との間の全体的なメチル化レベルのグラフである。本発明の実施形態による、ＭｓｐＩベースの標的化単一分子リアルタイム配列決定により決定されたＤＮＡメチル化プロファイルを使用した胎盤およびバフィーコート試料のクラスター分析を示す。

用語
「組織」は、機能単位としてともにグループ化する細胞のグループに対応する。２つ以上のタイプの細胞が、単一の組織内に見出され得る。異なるタイプの組織は、異なるタイプの細胞（例えば、肝細胞、肺胞細胞、または血球細胞）から構成されてもよく、異なる生物（母体対胎児、移植を受けた対象の組織、微生物またはウイルスに感染した生物の組織）由来の組織あるいは健康な細胞対腫瘍細胞に対応してもよい。「参照組織」は、組織特異的メチル化レベルを決定するために使用される組織に対応する。異なる個体由来の同じ組織タイプの複数の試料を使用して、その組織タイプの組織特異的メチル化レベルを決定することができる。

「生体試料」とは、ヒト対象から採取された任意の試料を指す。生体試料は、組織生検、穿刺吸引物、または血球であり得る。試料はまた、例えば、妊婦からの血漿または血清または尿であり得る。便試料もまた使用され得る。様々な実施形態では、無細胞ＤＮＡについて濃縮された妊婦からの生体試料（例えば、遠心分離プロトコルを介して取得された血漿試料）におけるＤＮＡの大部分は、無細胞であり得、例えば、５０％超、６０％超、７０％超、８０％超、９０％超、９５％超、または９９％超のＤＮＡは無細胞であり得る。遠心分離プロトコルは、例えば、３，０００ｇ×１０分で流体部分を取得することと、残留細胞を除去するために３０，０００ｇでさらに１０分間再遠心分離することと、を含み得る。特定の実施形態では、３，０００ｇの遠心分離ステップに続いて、流体部分の濾過を行うことができる（例えば、直径５μｍ以下の孔径のフィルターを使用）。

「配列リード」は、核酸分子の任意の部分または全部から配列決定されるヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定された短鎖ヌクレオチド（例えば、約２０～１５０個）、核酸断片の片端もしくは両端の短鎖ヌクレオチド、または生体試料中に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技術を使用した、またはプローブを使用した種々の方法で、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブで、または単一プライマーもしくは等温増幅を使用した、ポリメラーゼ連鎖反応（ＰＣＲ）もしくは線形増幅などの増幅技術で、取得することができる。

「サブリード」は、環状化ＤＮＡ鋳型の１つの鎖のすべての塩基から生成された配列であり、ＤＮＡポリメラーゼによって１つの連続した鎖にコピーされている。例えば、サブリードは、環状化ＤＮＡ鋳型のＤＮＡの１つの鎖に対応し得る。このような例では、環状化後、１つの二本鎖ＤＮＡ分子には、２つのサブリードがある（各配列決定パスについて１つ）。一部の実施形態では、生成された配列は、例えば、配列決定エラーが存在するため、１つの鎖のすべての塩基のサブセットを含み得る。

「部位」（「ゲノム部位」とも呼ばれる）は、単一の塩基位置、または相関する塩基位置のグループ、例えば、ＣｐＧ部位、または相関する塩基位置のより大きいグループであり得る、単一の部位に対応する。「遺伝子座」は、複数の部位を含む領域に対応し得る。遺伝子座は、遺伝子座をその文脈における部位と等価にするであろうただ１つの部位を含むことができる。

「メチル化状態」とは、所与の部位でのメチル化の状態を指す。例えば、ある部位は、メチル化されているか、メチル化されていないか、または場合によっては未決定であるかのいずれかである。

各ゲノム部位（例えば、ＣｐＧ部位）に対する「メチル化指数」は、その部位におけるメチル化を、その部位をカバーするリード数の合計にわたって示す、（例えば、配列リードまたはプローブから決定されるような）ＤＮＡ断片の割合を指し得る。「リード」は、ＤＮＡ断片から取得された情報（例えば、部位のメチル化状態）に対応することができる。リードは、１つ以上の部位における特定のメチル化状態のＤＮＡ断片と優先的にハイブリダイズする試薬（例えば、プライマーまたはプローブ）を使用して、取得することができる。典型的には、このような試薬は、それらのメチル化状態に応じて、ＤＮＡ分子を示差的に修飾するかまたは認識するプロセス、例えば、バイサルファイト変換、またはメチル化感受性制限酵素、またはメチル化結合タンパク質、または抗メチルシトシン抗体、あるいはメチルシトシンおよびヒドロキシメチルシトシンを認識する単一分子配列決定技術（例えば、単一分子リアルタイム配列決定およびナノポア配列決定（例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓから））で処理した後で適用される。

領域の「メチル化密度」は、この領域における部位をカバーするリード数の合計で割ったメチル化を示す、領域内の部位におけるリード数を指し得る。この部位は、具体的な特徴を有し得、例えば、ＣｐＧ部位であり得る。したがって、領域の「ＣｐＧメチル化密度」は、この領域におけるＣｐＧ部位（例えば、特定のＣｐＧ部位、ＣｐＧアイランド内またはそれより大きな領域のＣｐＧ部位）をカバーするリード数の合計で割ったＣｐＧメチル化を示すリード数を指す。例えば、ヒトゲノム中の各１００ｋｂビンのメチル化密度は、１００ｋｂ領域へマップされた配列リードによってカバーされたすべてのＣｐＧ部位の割合として、ＣｐＧ部位の（メチル化されたシトシンに対応する）バイサルファイト処理後に変換されていないシトシンの総数から判定することができる。この分析はまた、５００ｂｐ、５ｋｂ、１０ｋｂ、５０ｋｂ、もしくは１Ｍｂなどの他のビンサイズに対して実施することができる。領域は、全ゲノム、または染色体、または染色体の一部（例えば、染色体腕）であり得る。ＣｐＧ部位のメチル化指数は、領域がそのＣｐＧ部位のみを含む場合、その領域のメチル化密度と同じである。「メチル化シトシンの比率」は、この領域における分析されたシトシン残基の総数、すなわちＣｐＧの文脈外のシトシンを含む、メチル化されている（例えば、バイサルファイト変換後に変換されていない）ことが示されているシトシン部位「Ｃ」の数を指すことができる。「メチル化レベル」の例としては、メチル化指数、メチル化密度、１つ以上の部位でメチル化された分子の数、および１つ以上の部位でメチル化された分子（例えば、シトシン）の割合がある。バイサルファイト変換とは別に、当業者に既知の他のプロセスを使用してＤＮＡ分子のメチル化状態を調べることができ、限定されないが、メチル化状態に感受性の酵素（例えば、メチル化感受性制限酵素）、メチル化結合タンパク質、メチル化状態に感受性のプラットフォームを使用した単一分子配列決定（例えば、ナノポア配列決定（Ｓｃｈｒｅｉｂｅｒｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉ２０１３；１１０：１８９１０－１８９１５）および単一分子リアルタイム配列決定（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓによる）（Ｆｌｕｓｂｅｒｇｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ２０１０；７：４６１－４６５））が含まれる。

「メチローム」は、ゲノムにおける複数の部位または遺伝子座のＤＮＡメチル化の量の尺度を提供する。メチロームは、ゲノムの全部、ゲノムの実質的な部分、またはゲノムの比較的わずかな箇所（複数可）に対応し得る。

「妊婦血漿メチローム」は、妊娠した動物（例えば、ヒト）の血漿または血清から決定されたメチロームである。妊婦血漿メチロームは、血漿および血清が無細胞ＤＮＡを含むため、無細胞メチロームの一例である。妊婦血漿メチロームは、体内の異なる器官または組織または細胞に由来するＤＮＡの混合物であるため、混合メチロームの一例でもある。一実施形態では、このような細胞は、赤血球（すなわち、赤色細胞）系譜、骨髄系譜（例えば、好中球およびこれらの前駆体）および巨核球系譜の細胞を含むが、これらに限定されない造血細胞である。妊娠中、血漿メチロームは胎児および母親からのメチローム情報を含有することがある。「細胞性メチローム」は、患者の細胞（例えば、血球）から決定されるメチロームに対応する。血球のメチロームは、血球メチローム（または血中メチローム）と呼ばれる。

「メチル化プロファイル」には、複数の部位または領域のＤＮＡまたはＲＮＡのメチル化に関連する情報が含まれる。ＤＮＡメチル化に関連する情報は、ＣｐＧ部位のメチル化指数、領域中のＣｐＧ部位のメチル化密度（略称ＭＤ）、連続した領域にわたるＣｐＧ部位の分布、２つ以上のＣｐＧ部位を含有する領域内の各個々のＣｐＧ部位のメチル化のパターンまたはレベル、および非ＣｐＧメチル化を含み得るが、これらに限定されない。一実施形態では、メチル化プロファイルは、２つ以上のタイプの塩基（例えば、シトシンまたはアデニン）のメチル化または非メチル化のパターンを含み得る。ゲノムの実質的な部分のメチル化プロファイルは、メチロームと等価とみなすことができる。哺乳動物ゲノムにおける「ＤＮＡメチル化」とは、典型的には、ＣｐＧジヌクレオチド間でシトシン残基の５’炭素へのメチル基の付加（すなわち、５－メチルシトシン）を指す。ＤＮＡメチル化は、他の文脈、例えば、ＣＨＧおよびＣＨＨにおいてシトシンで生じ得、ここで、Ｈは、アデニン、シトシン、またはチミンである。シトシンのメチル化は、５－ヒドロキシメチルシトシンの形態でもあり得る。Ｎ^６－メチルアデニンなどの非シトシンメチル化もまた、報告されている。

「メチル化パターン」とは、メチル化塩基と非メチル化塩基の順序を指す。例えば、メチル化パターンは、単一のＤＮＡ鎖、単一の二本鎖ＤＮＡ分子、または別のタイプの核酸分子上のメチル化塩基の順序であり得る。一例として、３つの連続するＣｐＧ部位は、以下のメチル化パターン：ＵＵＵ、ＭＭＭ、ＵＭＭ、ＵＭＵ、ＵＵＭ、ＭＵＭ、ＭＵＵ、またはＭＭＵ、のいずれかを有し得る。ここで、「Ｕ」は非メチル化部位を示し、「Ｍ」はメチル化部位を示す。限定されないが、この概念をメチル化を含む塩基修飾に拡張する場合、修飾塩基と非修飾塩基の順序を指す「修飾パターン」という用語を使用するであろう。例えば、修飾パターンは、単一のＤＮＡ鎖、単一の二本鎖ＤＮＡ分子、または別のタイプの核酸分子上の修飾された塩基の順序であり得る。一例として、３つの連続する潜在的に修飾可能な部位は、以下の修飾パターン：ＵＵＵ、ＭＭＭ、ＵＭＭ、ＵＭＵ、ＵＵＭ、ＭＵＭ、ＭＵＵ、またはＭＭＵ、のいずれかを有し得る。ここで、「Ｕ」は非修飾部位を示し、「Ｍ」は修飾部位を示す。メチル化に基づかない塩基修飾の一例は、８－オキソグアニンなどの酸化的変化である。

「高メチル化」および「低メチル化」という用語は、その単一分子のメチル化レベルによって測定される単一のＤＮＡ分子のメチル化密度、例えば、その分子内のメチル化された塩基またはヌクレオチドの数を、その分子内のメチル化可能な塩基またはヌクレオチドの総数で割ったものを指し得る。高メチル化分子は、単一分子のメチル化レベルが閾値以上である分子であり、用途ごとに定義され得る。この閾値は、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、または９５％であり得る。低メチル化分子は、単一分子のメチル化レベルが閾値以下である分子であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、または９５％であり得る。

「高メチル化」および「低メチル化」という用語はまた、これらの分子の複数の分子のメチル化レベルによって測定される、ＤＮＡ分子の集団のメチル化レベルを指してもよい。分子の高メチル化集団は、複数の分子のメチル化レベルが閾値以上である集団であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、または９５％であり得る。分子の低メチル化集団は、複数の分子のメチル化レベルが閾値以下である集団であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、または９５％であり得る。一実施形態では、分子の集団は、１つ以上の選択されたゲノム領域に整列され得る。一実施形態では、選択されたゲノム領域（複数可）は、癌、遺伝障害、インプリンティング障害、代謝障害、または神経障害などの疾患に関連し得る。選択されたゲノム領域（複数可）は、５０ヌクレオチド（ｎｔ）、１００ｎｔ、２００ｎｔ、３００ｎｔ、５００ｎｔ、１０００ｎｔ、２ｋｎｔ、５ｋｎｔ、１０ｋｎｔ、２０ｋｎｔ、３０ｋｎｔ、４０ｋｎｔ、５０ｋｎｔ、６０ｋｎｔ、７０ｋｎｔ、８０ｋｎｔ、９０ｋｎｔ、１００ｋｎｔ、２００ｋｎｔ、３００ｋｎｔ、４００ｋｎｔ、５００ｋｎｔ、または１Ｍｎｔの鎖長を有し得る。

「配列決定深度」という用語は、遺伝子座が、その遺伝子座に整列された配列リードによってカバーされる回数を指す。遺伝子座は、ヌクレオチドの小ささ、または染色体アームの大きさ、またはゲノム全体の大きさであってもよい。配列決定深度は、５０ｘ、１００ｘなどと表され、「ｘ」は、遺伝子座が配列リードでカバーされる回数を指す。また、配列決定深度は、複数の遺伝子座またはゲノム全体に適用することもでき、この場合、×はそれぞれ、遺伝子座もしくはハプロイドゲノムまたはゲノム全体が配列決定される平均回数を指し得る。ウルトラディープ配列決定は、少なくとも１００ｘの配列決定深度を指し得る。

本明細書で使用される「分類」という用語は、試料の特定の特性と関係した任意の数（複数可）または他の特徴（複数可）を指す。例えば、「＋」という記号（または「陽性」という語）は、試料が欠失または増幅を有するものとして分類されることを意味し得る。分類は、二項（例えば、陽性または陰性）であるか、またはより多くのレベルの分類（例えば、１～１０または０～１のスケール）を有することができる。

「カットオフ」および「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを超えると断片が除外されるサイズを指すことができる。閾値は、特定の分類が要求しているものを上回るまたは下回る値であり得る。これらの用語のいずれも、これらの文脈のいずれにおいても使用することができる。カットオフまたは閾値は、「参照値」であり得るか、または特定の分類を表すか、または２つ以上の分類間を区別する参照値から導出され得る。そのような参照値は、当業者によって理解されるように、様々な方法で決定することができる。例えば、異なる既知の分類を有する対象の２つの異なるコホートについて、メトリックを決定することができ、参照値を１つの分類（例えば、平均）の代表として、またはメトリックの２つのクラスター間の値（例えば、所望の感度と特異度を取得するために選択される）として選択し得る。別の例として、参照値は、統計分析または試料のシミュレーションに基づいて決定することができる。

「癌のレベル」という用語は、癌が存在するかどうか（すなわち、存在または不在）、癌の病期、腫瘍のサイズ、転移があるかどうか、身体の総腫瘍負荷、治療に対する癌の応答、および／または癌の重症度の他の尺度（例えば、癌の再発）を指し得る。癌のレベルは、記号、アルファベット文字、および色などの数または他のしるしであり得る。レベルは、ゼロであり得る。癌のレベルには、前悪性病態または前癌性病態（状態）も含まれ得る。癌のレベルは、様々な方法で使用することができる。例えば、スクリーニングにより、癌が有することを今まで知らなかった人物において癌が存在するかどうかをチェックすることができる。評価は、癌と診断されている人物を調べて、癌の進行を経時的に監視し、療法の有効性を研究し、または予後を決定することができる。一実施形態では、予後は、患者が癌で死亡する可能性、または特定の持続時間または特定の時間の後、癌が進行する可能性、または癌が転移する可能性もしくは程度として表すことができる。検出は、「スクリーニング」を意味することができ、または癌の示唆的な特徴（例えば、症状または他の陽性検査）を有する人物が癌を有するかどうかをチェックすることを意味し得る。

「病理のレベル」（または障害のレベル）とは、生物に関連する病理の量、程度、重症度を指し得、そのレベルは、癌について上で説明したとおりであり得る。病理の別の例は、移植された臓器の拒絶反応である。他の病理の例としては、遺伝子インプリンティング障害、自己免疫発作（例えば、腎臓を損傷するループス腎炎損傷または多発性硬化症）、炎症性疾患（例えば、肝炎）、線維化プロセス（例えば、肝硬変）、脂肪浸潤（例えば、脂肪肝疾患）、変性プロセス（例えば、アルツハイマー病）、および虚血性組織損傷（例えば、心筋梗塞または脳卒中）が含まれ得る。対象の健康な状態は、病理のない分類とみなすことができる。

「妊娠関連障害」には、母体および／または胎児組織における遺伝子の異常な相対的発現レベルを特徴とする任意の障害が含まれる。これらの障害には、子癇前症、子宮内胎児発育遅延、侵襲性胎盤形成、早産、新生児溶血性疾患、胎盤機能不全、胎児水腫、胎児奇形、ＨＥＬＬＰ症候群、全身性紅斑性狼瘡、およびその他の母親の免疫疾患が含まれるが、これらに限定されない。

略語「ｂｐ」は、塩基対を指す。場合によっては、「ｂｐ」は、ＤＮＡ断片が一本鎖であり、塩基対を含まない場合でも、ＤＮＡ断片の鎖長を示すために使用され得る。一本鎖ＤＮＡの文脈では、「ｂｐ」は、ヌクレオチドの鎖長を提供すると解釈される場合がある。

略語「ｎｔ」は、ヌクレオチドを指す。場合によっては、「ｎｔ」を使用して、塩基単位で一本鎖ＤＮＡの長さを示すことができる。また、「ｎｔ」は、分析される遺伝子座の上流または下流などの相対位置を示すために使用され得る。技術的概念化、データ表示、処理、および分析に関する一部の文脈では、「ｎｔ」と「ｂｐ」は互換的に使用される場合がある。

「配列文脈」という用語は、ＤＮＡのストレッチにおける塩基組成（Ａ、Ｃ、Ｇ、またはＴ）および塩基順序を指し得る。このようなＤＮＡのストレッチは、塩基修飾分析にかけられる塩基または標的となる塩基を取り巻いている可能性がある。例えば、配列文脈は、塩基修飾分析にかけられる塩基の上流および／または下流の塩基を指し得る。

「動態特徴」という用語は、単一分子リアルタイム配列決定を含む、配列決定に由来する特徴を指し得る。このような特徴は、塩基修飾分析に使用することができる。動態特徴の例には、上流および下流の配列文脈、鎖情報、パルス間隔、パルス幅、およびパルス強度が含まれる。単一分子リアルタイム配列決定では、ＤＮＡ鋳型に対するポリメラーゼの活性の影響を継続的に監視している。したがって、このような配列決定から生成された測定値は、動態特徴、例えば、ヌクレオチド配列とみなすことができる。

「機械学習モデル」という用語には、試料データ（例えば、訓練データ）を使用して試験データを予測することに基づくモデルが含まれる場合があり、したがって、教師あり学習が含まれ得る。機械学習モデルは、しばしば、コンピュータまたはプロセッサを使用して開発される。機械学習モデルには、統計モデルが含まれ得る。

「データ分析フレームワーク」という用語は、データを入力として受け取り、次に予測結果を出力することができるアルゴリズムおよび／またはモデルを含み得る。「データ分析フレームワーク」の例には、統計モデル、数学的モデル、機械学習モデル、その他の人工知能モデル、およびそれらの組み合わせが含まれる。

「リアルタイム配列決定」という用語は、配列決定に関与する反応の進行中にデータ収集または監視を伴う技術を指す場合がある。例えば、リアルタイム配列決定は、新しい塩基を組み込むＤＮＡポリメラーゼの光学的監視または撮影を伴う場合がある。

「約」または「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定または決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当技術分野の慣例により、１以内または１を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大２０％、最大１０％、最大５％、または最大１％の範囲を意味し得る。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、値の１桁以内、５倍以内、より好ましくは２倍以内を意味し得る。本出願および特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は、±１０％を指し得る。「約」という用語は、±５％を指し得る。

メチル化された塩基を含む、バイサルファイトを含まない塩基修飾の決定を達成することは、様々な研究努力の対象であるが、商業的に実行可能であることが示されているものはない。最近、５ｍＣおよび５ｈｍＣの塩基変換に穏やかな条件を使用して、５ｍＣおよび５ｈｍＣを検出するためのバイサルファイトを使用しない方法が公開された（Ｙ．Ｌｉｕｅｔａｌ．，２０１９）。この方法には、テンイレブントランスロケーション（ＴＥＴ）酸化、ピリジンボラン還元、およびＰＣＲを含む、酵素反応および化学反応の複数のステップが含まれる。変換反応の各ステップの効率ならびにＰＣＲバイアスは、５ｍＣ分析の最終的な精度に悪影響を及ぼす。例えば、５ｍＣの変換率は約９６％であり、偽陰性率は約３％であると報告されている。このような性能は、ゲノムにおけるメチル化の特定のわずかな変化を検出する能力を制限する可能性がある。一方、酵素変換は、ゲノム全体では同等にうまく機能し得ないだろう。例えば、５ｈｍＣの変換率は、５ｍＣの変換率よりも８．２％低く、非ＣｐＧに対する変換率は、ＣｐＧ文脈に対する変換率よりも１１．４％低かった（Ｙ．Ｌｉｕｅｔａｌ．，２０１９）。したがって、理想的な状況は、事前の変換（化学的または酵素的、またはそれらの組み合わせ）ステップを用いずに、さらには増幅ステップを用いずに、天然ＤＮＡ分子の塩基修飾を測定するためのアプローチを開発することである。

いくつかの概念実証研究があり（Ｑ．Ｌｉｕｅｔａｌ．，２０１９、Ｎｉｅｔａｌ．，２０１９）、ロングリード（ｌｏｎｇ－ｒｅａｄ）ナノポア配列決定アプローチ（例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓによって開発されたシステムを使用）によって生成された電気信号により、深層学習法を使用してメチル化状態を検出することができるようになった。ＯｘｆｏｒｄＮａｎｏｐｏｒｅに加えて、ロングリードを可能にする他の単一分子配列決定アプローチがある。一例は、単一分子リアルタイム配列決定である。単一分子リアルタイム配列決定の一例は、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳＭＲＴシステムとして商品化されたものである。単一分子の原理として、リアルタイム配列決定（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳＭＲＴシステム）は、非光学ベースのナノポアシステム（例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ）のものとは異なり、このような非光学ベースのナノポアシステム用に開発された塩基修飾検出のアプローチは、単一分子リアルタイム配列決定には使用することができない。例えば、非光学ナノポアシステムは、固定化ＤＮＡポリメラーゼベースのＤＮＡ合成（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳＭＲＴシステムなどの単一分子リアルタイム配列決定で採用）によって生成される蛍光信号のパターンを捕捉するようには設計されていない。さらなる例として、オックスフォードナノポア配列決定プラットフォームでは、測定された各電気事象は、ｋ－ｍｅｒ（例えば、５－ｍｅｒ）に関連付けられている（Ｑ．Ｌｉｕｅｔａｌ．，２０１９）。しかしながら、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳＭＲＴ配列決定プラットフォームでは、各蛍光事象は、一般に、単一の組み込まれた塩基に関連付けられている。さらに、単一のＤＮＡ分子は、ワトソン鎖およびクリック鎖を含むＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳＭＲＴ配列決定で複数回配列決定される。逆に、ＯｘｆｏｒｄＮａｎｏｐｏｒｅロングリード配列決定アプローチの場合、配列の読み出しは、ワトソン鎖とクリック鎖の各々に対して１回実施される。

ポリメラーゼの動態は、大腸菌の配列のメチル化状態によって影響を受けることが報告されている（Ｆｌｕｓｂｅｒｇｅｔａｌ．，２０１０）。以前の研究では、６ｍＡ、４ｍＣ、５ｈｍＣ、および８－オキソグアニンの検出と比較した場合、単一分子中の特定のＣｐＧのメチル化状態（５ｍＣ対Ｃ）を推定するために単一分子リアルタイム配列決定のポリメラーゼ動態を使用することは、より困難であることが示された。その理由は、メチル基が小さく、主溝に配向しており、塩基対形成には関与せず、５ｍＣに起因する動態において非常にわずかな中断しか得られないためである（Ｃｌａｒｋｅｔａｌ．，２０１３）。したがって、単一分子レベルでシトシンのメチル化状態を決定するためのアプローチが不足している。

Ｓｕｚｕｋｉらは、アルゴリズムを開発し、近傍のＣｐＧ部位のパルス間隔（ＩＰＤ）比を組み合わせて、それらの部位のメチル化状態を特定する際の信頼性を高めようと試みた（Ｓｕｚｕｋｉｅｔａｌ．，２０１６）。しかしながら、このアルゴリズムは、完全にメチル化されているゲノム領域、または全くメチル化されていないゲノム領域を予測することしかできず、中間のメチル化パターンを決定する能力がなかった。

単一分子リアルタイム配列決定に関して、現在のアプローチでは、１つまたは２つのパラメータのみを個別に使用しており、５－メチルシトシンとシトシンとの間の測定値の違いから５ｍＣを検出する精度が非常に限られている。例えば、Ｆｌｕｓｂｅｒｇらは、Ｎ６－メチルアデノシン、５－メチルシトシン、および５－ヒドロキシメチルシトシンを含む塩基修飾において、ＩＰＤが変化することを実証した。しかしながら、配列決定動態のパルス幅（ＰＷ）に重要な効果があることが見出されていなかった。したがって、彼らが塩基修飾を予測するために使用した方法では、Ｎ６－メチルアデノシンの検出を使用して、一例として、ＰＷではなくＩＰＤのみが使用された。

同じグループによるフォローアップ刊行物（Ｃｌａｒｋｅｔａｌ．，２０１２、Ｃｌａｒｋｅｔａｌ．２０１３）では、５－メチルシトシンを検出するアルゴリズムに、ＰＷではなくＩＰＤが、組み込まれた。Ｃｌａｒｋら（２０１２）において、５－メチルシトシンに変換しない５－メチルシトシンの検出率は、１．９％～４．３％の範囲であった。さらに、Ｃｌａｒｋら（．２０１３）において、著者らは、５－メチルシトシンの動態特性（ｋｉｎｅｔｉｃｓｉｇｎａｔｕｒｅ）の微妙さをさらに再確認した。Ｃｌａｒｋらは、５－メチルシトシンの検出感度の低さを克服するために、テンイレブントランスロケーション（Ｔｅｔ）タンパク質を使用して５－メチルシトシンを５－カルボキシルメチルシトシンに変換することで、５－メチルシトシンの感度を改善する方法をさらに開発した（Ｃｌａｒｋｅｔａｌ．２０１３）。これは、５－カルボキシルシトシンに起因するＩＰＤの変化が、５－メチルシトシンよりもはるかに大きいためであった。

Ｂｌｏｗらによる最近の報告では、Ｆｌｕｓｂｅｒｇらによって以前に記載されたＩＰＤ比率ベースの方法を使用して、生物あたり１３０倍のリードカバレッジで２１７種類の細菌種と１３種類の古細菌種の塩基修飾を検出した（Ｂｌｏｗｅｔａｌ．，２０１６）。彼らが特定したすべての塩基修飾の中で、５－メチルシトシンが関与したのはわずか５％であった。彼らは、５－メチルシトシンのこの低い検出率は、５－メチルシトシンを検出するための単一分子リアルタイム配列決定の感度が低いことに起因すると考えた。ほとんどの細菌では、一連の配列モチーフは、ゲノムにおけるこれらのモチーフのほぼすべてで、ＤＮＡメチルトランスフェラーゼ（ＭＴａｓｅ）によるメチル化の標的になっており（例えば、大腸菌におけるＤａｍによる５’－ＧｍＡＴＣ－３’またはＤｃｍによる５’－ＣｍＣＷＧＧ－３’）、これらのモチーフ部位のごく一部のみが非メチル化のままであった（Ｂｅａｕｌａｕｒｉｅｒｅｔａｌ．２０１９）。さらに、ＩＰＤベースの方法を使用して５’－ＣＣＷＧＧ－３’モチーフの２番目のＣのメチル化状態を分類し、Ｔｅｔタンパク質で処理した場合と使用しない場合で、５－メチルシトシンの検出率は、それぞれ９５．２％および１．９％であった（Ｃｌａｒｋｅｔａｌ．２０１３）。全体として、事前の塩基変換を用いないＩＰＤの方法（例えば、Ｔｅｔタンパク質を使用）は、５－メチルシトシンの大部分を見逃した。

上述の研究（Ｃｌａｒｋｅｔａｌ．，２０１２、Ｃｌａｒｋｅｔａｌ．，２０１３、Ｂｌｏｗｅｔａｌ．，２０１６）では、候補塩基修飾が位置する配列文脈を考慮せずに、ＩＰＤベースのアルゴリズムが使用された。他のグループは、塩基修飾の検出のために、ヌクレオチドの配列文脈を考慮しようと試みた。例えば、Ｆｅｎｇらは、階層モデルを使用して、それぞれの配列文脈で４－メチルシトシンおよび６－メチルアデノシンを検出するために、ＩＰＤを分析した（Ｆｅｎｇｅｔａｌ．２０１３）。しかしながら、彼らの方法では、目的の塩基およびその塩基に隣接する配列文脈におけるＩＰＤのみを考慮し、目的の塩基に隣接するすべての近傍の塩基のＩＰＤ情報を使用しなかった。さらに、ＰＷがアルゴリズムで考慮されておらず、５－メチルシトシンの検出に関するデータも提示されていなかった。

別の研究では、Ｓｃｈａｄｔらは、条件付き確率場と呼ばれる統計方法を開発し、目的の塩基および近傍の塩基のＩＰＤ情報を分析して、目的の塩基が５－メチルシトシンであるかどうかを決定した（Ｓｃｈａｄｔｅｔａｌ．，２０１２）。この研究では、それらの塩基間のＩＰＤ相互作用を、それらを方程式に入力することによって、考慮した。しかしながら彼らは、彼らの方程式にヌクレオチド配列、すなわちＡ、Ｔ、Ｇ、またはＣを入力しなかった。彼らがこの方法を適用して、Ｍ．Ｓａｕ３ＡＩプラスミドのメチル化状態を決定したとき、ＲＯＣ曲線下面積は、プラスミド配列の８００倍の配列カバレッジでさえ、０．５に近かった。さらに、彼らの方法では、彼らは、分析においてＰＷを考慮していなかった。

Ｂｅｃｋｍａｎらによるさらに別の研究では、標的細菌ゲノムと完全非メチル化ゲノムとの間で、ゲノム内の同じ４ｎｔまたは６ｎｔモチーフを共有するすべての配列のＩＰＤを比較した（例えば、全ゲノム増幅を通して取得）（Ｂｅｃｋｍａｎｅｔａｌ．２０１４）。このような分析の目的は、塩基修飾によってより頻繁に影響を受けるモチーフを特定することだけであった。この研究では、彼らは潜在的に修飾された塩基のＩＰＤのみを考慮したが、近傍の塩基またはＰＷのＩＰＤは考慮しなかった。彼らの方法は、個々のヌクレオチドのメチル化状態について有益ではなかった。

要約すると、これらの以前の試み、ＩＰＤのみを利用するか、またはデータをグループ化するために近傍のヌクレオチドの配列情報をＩＰＤと組み合わせて利用する試みは、有意義なまたは実用的な精度で５－メチルシトシンの塩基修飾を決定することができなかった。Ｇｏｕｉｌらによる最近のレビューでは、著者らは、信号対雑音比が低いため、単一分子リアルタイム配列決定を使用した単一分子における５－メチルシトシンの検出は不正確であると結論付けた（Ｇｏｕｉｌｅｔａｌ．，２０１９）。これらの以前の研究では、全ゲノムメチロミック分析、特にヒトゲノム、癌ゲノム、胎児ゲノムなどの複雑なゲノムに動態特徴を使用することが実行可能かどうかについては不明なままである。

以前の研究とは対照的に、本開示に記載の方法の一部の実施形態は、測定ウィンドウ内のすべての塩基について、ＩＰＤ、ＰＷ、および配列文脈を測定することおよび利用することに基づいている。本発明者らは、例えば、上流および下流の配列文脈、鎖情報、ＩＰＤ、パルス幅、ならびにパルス強度を含む特徴を同時に利用するなど、複数のメトリックを組み合わせて使用することができれば、単一塩基の分解能で、塩基修飾（例えば、ｍＣ検出）の正確な測定を実現できるであろうと考えた。配列文脈とは、ＤＮＡのストレッチにおける塩基組成（Ａ、Ｃ、Ｇ、またはＴ）および塩基の順序を指す。このようなＤＮＡのストレッチは、塩基修飾分析にかけられる塩基または標的となる塩基を取り巻いている可能性がある。一実施形態では、ＤＮＡのストレッチは、塩基修飾分析にかけられる塩基の近位にあり得る。別の実施形態では、ＤＮＡのストレッチは、塩基修飾分析にかけられる塩基から遠く離れている可能性がある。ＤＮＡのストレッチは、塩基修飾分析にかけられる塩基の上流および／または下流にある可能性がある。

一実施形態では、塩基修飾分析に使用される、上流および下流の配列文脈、鎖情報、ＩＰＤ、パルス幅、ならびにパルス強度の特徴は、動態特徴と呼ばれる。

本開示に存在する実施形態は、限定されないが、細胞株、生物からの試料（例えば、固形臓器、固形組織、内視鏡検査を介して取得された試料、血液、または妊婦の血漿もしくは血清もしくは尿、絨毛膜絨毛生検など）、環境から取得された試料（例えば、細菌、細胞夾雑物）、食品（例えば、肉）から取得されたＤＮＡについて使用することができる。一部の実施形態では、本開示に存在する方法はまた、例えばハイブリダイゼーションプローブ（Ａｌｂｅｒｔｅｔａｌ．，２００７、Ｏｋｏｕｅｔａｌ．，２００７、Ｌｅｅｅｔａｌ．，２０１１）、または物理的分離（サイズなどに基づく）に基づくもしくは制限酵素消化（例えば、ＭｓｐＩ）に続くアプローチ、またはＣａｓ９ベースの濃縮（Ｗａｔｓｏｎｅｔａｌ．，２０１９）を使用して、ゲノムの一部が最初に濃縮されるステップの後で適用され得る。酵素的または化学的変換は、本発明が機能するのに必要ではないが、特定の実施形態では、そのような変換ステップが、本発明の性能をさらに高めるために含まれていてもよい。

本開示の実施形態は、塩基修飾の検出または修飾レベルの測定における改善された精度または実用性または利便性を可能にする。修飾は、直接検出され得る。実施形態は、検出のためにすべての修飾情報が保たれない可能性がある酵素的または化学的変換を回避することができる。さらに、特定の酵素的または化学的変換は、特定のタイプの修飾と互換性がない場合がある。本開示の実施形態はまた、塩基修飾情報をＰＣＲ産物に伝達しない可能性があるＰＣＲによる増幅を回避し得る。さらに、ＤＮＡの両方の鎖を一緒に配列決定することができ、それによって、一方の鎖からの配列と、他方の鎖に相補的な配列との対形成が可能になる。対照的に、ＰＣＲ増幅は二本鎖ＤＮＡの２つの鎖を分割するため、このような配列の対形成は困難である。

酵素的または化学的変換の有無にかかわらず、決定されたメチル化プロファイルは、生体試料の分析に使用することができる。一実施形態では、メチル化プロファイルを使用して、細胞ＤＮＡの起源（例えば、母体または胎児、組織、ウイルス、または腫瘍）を検出することができる。組織における異常なメチル化プロファイルの検出は、個人における発達障害の特定、ならびに腫瘍や悪性腫瘍の特定および予測に役立つ。ハプロタイプ間のメチル化レベルの不均衡は、癌を含む障害を検出するために使用することができる。単一分子のメチル化パターンは、キメラＤＮＡ（例えば、ウイルスとヒト間）およびハイブリッドＤＮＡ（例えば、天然ゲノムでは通常融合されない２つの遺伝子間）または２つの種間（例えば、遺伝子またはゲノム操作による）を特定することができる。

メチル化分析は、訓練セットで使用されるデータを絞り込むことを含む、強化訓練によって改善される可能性がある。特定の領域が、分析の標的となる場合がある。実施形態では、そのような標的化は、単独で、または他の試薬（複数可）と組み合わせて、その配列に基づいてＤＮＡ配列またはゲノムを切断し得る酵素を含み得る。一部の実施形態では、酵素は、特定のＤＮＡ配列（複数可）を認識して切断する制限酵素である。他の実施形態では、異なる認識配列を有する２つ以上の制限酵素を、組み合わせて使用することができる。一部の実施形態では、制限酵素は、認識配列のメチル化状態に基づいて、切断するかまたは切断しない場合がある。一部の実施形態では、酵素は、ＣＲＩＳＰＲ／Ｃａｓファミリー内の酵素である。例えば、目的のゲノム領域は、ＣＲＩＳＰＲ／Ｃａｓ９システムまたはガイドＲＮＡに基づく他のシステム（すなわち、相補的な標的ＤＮＡ配列に結合し、そのプロセスで酵素を標的ゲノム位置に誘導して作用させる短いＲＮＡ配列）を使用して標的化することができる。場合によっては、参照ゲノムに整列しなくてもメチル化分析が可能な場合がある。

Ｉ．単一分子リアルタイム配列決定によるメチル化検出
本開示の実施形態は、酵素的または化学的変換なしに、塩基修飾を直接検出することを可能にする。単一分子リアルタイム配列決定を通して取得された動態特徴（例えば、配列文脈、ＩＰＤ、ＰＷ）を、機械学習で分析して、修飾を検出するまたは修飾の不在を検出するモデルを開発することができる。修飾レベルは、ＤＮＡ分子の起源または障害の存在もしくはレベルを決定するために使用することができる。

説明のために、単一分子リアルタイム配列決定の一例としてのＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳＭＲＴ配列決定を使用して、ＤＮＡポリメラーゼ分子を、ゼロモード導波（ｚｅｒｏ－ｍｏｄｅｗａｖｅｇｕｉｄｅ、ＺＭＷ）として機能するウェルの底に配置する。ＺＭＷは、光を小さな観察ボリュームに閉じ込めるためのナノフォトニックデバイスである。これは、直径が非常に小さな穴であり、検出に使用される波長範囲の光の伝搬を許容せず、固定化されたポリメラーゼによって組み込まれた色素標識ヌクレオチドからの光信号の発光のみが、低い一定のバックグラウンド信号に対して検出可能である（Ｅｉｄｅｔａｌ．，２００９）。ＤＮＡポリメラーゼは、蛍光標識ヌクレオチドの、相補的な核酸鎖への取り込みを触媒する。

図１は、単一分子の循環コンセンサス配列決定によって配列決定された塩基修飾を有する分子の例を示す。分子１０２、１０４、および１０６は、塩基修飾を有する。ＤＮＡ分子（例えば、分子１０６）は、ヘアピンアダプターと連結されて、連結された分子１０８を形成し得る。次いで、連結された分子１０８は、環状化された分子１１０を形成することができる。環状化された分子は、固定化されたＤＮＡポリメラーゼに結合し、ＤＮＡ合成を開始することができる。塩基修飾を有しない分子も配列決定することができる。

図２は、単一分子リアルタイム配列決定によって配列決定されたメチル化および／または非メチル化ＣｐＧ部位を有する分子の一例を示す。最初に、ＤＮＡ分子がヘアピンアダプターに連結されて、環状化された分子が形成され、これが固定化されたＤＮＡポリメラーゼに結合し、ＤＮＡ合成が開始されるであろう。図２では、ＤＮＡ分子２０２は、ヘアピンアダプターと連結されて、連結された分子２０４を形成する。次いで、連結された分子２０４は、環状化された分子２０６を形成する。ＣｐＧ部位がない分子も配列決定することができる。環状分子２０６は、非メチル化ＣｐＧ部位２０８を含み、これも依然として配列決定され得る。

ＤＮＡ合成が開始すると、蛍光色素標識ヌクレオチドが、環状ＤＮＡ鋳型に基づいて固定化されたポリメラーゼによって新しく合成された鎖に組み込まれ、光信号の放出につながる。ＤＮＡ鋳型は環状化されているため、環状ＤＮＡ鋳型全体が、ポリメラーゼを複数回通過する（すなわち、ＤＮＡ鋳型の１つのヌクレオチドが複数回配列決定される）。環状化ＤＮＡ鋳型のすべての塩基が、完全にＤＮＡポリメラーゼを通過するプロセスから生成された配列は、サブリードと呼ばれる。ポリメラーゼは環状ＤＮＡ鋳型全体を複数回継続できるため、ＺＭＷ内の１つの分子は、複数のサブリードを生成する。一実施形態では、サブリードは、一実施形態では、配列決定エラーの存在のために、環状ＤＮＡ鋳型の配列、塩基修飾または他の分子情報のサブセットのみを含有し得る。

図３に示されるように、得られた蛍光パルスの到着時間および持続時間は、ポリメラーゼ動態を測定することを可能にするであろう。パルス間隔（ＩＰＤ）は、２つの放出パルス間の期間の長さについてのメトリックであり、各々は、新生鎖に組み込まれた蛍光標識ヌクレオチドを示唆するであろう（図３）。図３に示されるように、パルス幅（ＰＷ）は、ベースコールに関連するパルスの持続時間に関連して、ポリメラーゼ動態を反映する別のメトリックである。ＰＷは、信号ピークの高さの０％でのパルスの持続時間（すなわち、組み込まれた色素標識ヌクレオチドの蛍光強度）である可能性がある。一実施形態では、ＰＷは、例えば、限定されないが、信号ピークの高さの５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％または９０％でのパルスの持続時間によって定義され得る。一部の実施形態では、ＰＷは、ピーク下面積を信号ピークの高さで割ったものでもよい。

ＩＰＤなどのこのようなポリメラーゼ動態は、合成および微生物配列（例えば、Ｅ．ｃｏｌｉ）におけるＮ６－メチルアデニン（６ｍＡ）、５－メチルシトシン（５ｍＣ）、および５－ヒドロキシメチルシトシン（５ｈｍＣ）などの塩基修飾の影響を受けることが示されている（Ｆｌｕｓｂｅｒｇｅｔａｌ．，２０１０）。Ｆｌｕｓｂｅｒｇら（．２０１０）は、修飾を検出するための独立した入力として配列文脈およびＩＰＤを使用しなかったため、実質的に意味のある検出の精度を欠くモデルとなった。Ｆｌｕｓｂｅｒｇらは、配列文脈のみを使用して、ＧＡＴＣで６ｍＡが生じたことを確認した。Ｆｌｕｓｂｅｒｇらは、メチル化状態を検出するための入力として、ＩＰＤと組み合わせて配列文脈を使用することには言及していない。

相補鎖の５－メチルシトシンへの新しい塩基の取り込みに対して与えられた弱い中断は、メチル化モチーフＣ^ｍＣＷＧＧの検出がほんの１．９％～４．３％の範囲であると報告されているため（Ｃｌａｒｋｅｔａｌ．，２０１３）、ＩＰＤ信号のみを使用する場合、比較的単純な微生物ゲノムでさえ、メチル化の判定を非常に困難にさせる。例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓが提供する分析ソフトウェアパッケージ（ＳＭＲＴＬｉｎｋｖ６．０．０）は、５ｍＣの分析を実施することができない。さらに、以前のバージョンのＳＭＲＴＬｉｎｋｖ５．１．０では、メチル化分析の前に、Ｔｅｔ１酵素を使用して５ｍＣを５－カルボキシルシトシン（５ｃａＣ）に変換する必要があった。これは、５ｃａＣに関連するＩＰＤ信号が強化されるためである（Ｃｌａｒｋｅｔａｌ．，２０１３）。したがって、単一分子リアルタイム配列決定を使用して、ヒトゲノムのゲノム全体の様式で天然ＤＮＡを分析することの実現可能性を示す研究がないことは驚くべきことではない。

ＩＩ．測定ウィンドウパターンと機械学習モデル
修飾および／または塩基を酵素的または化学的に変換することなく、塩基の修飾を検出する技術が望まれている。本明細書に記載されるように、標的塩基の修飾は、標的塩基を取り巻く塩基の単一分子リアルタイム配列決定から取得された動態特徴データを使用して、検出され得る。動態特徴には、パルス間隔、パルス幅、および配列文脈が含まれ得る。これらの動態特徴は、標的塩基の上流および下流の特定の数のヌクレオチドの測定ウィンドウについて取得することができる。これらの機能（例えば、測定ウィンドウの特定の場所）を使用して、機械学習モデルを訓練することができる。試料調製の一例として、ＤＮＡ分子の２本の鎖は、ヘアピンアダプターによって結合され得、それにより、環状ＤＮＡ分子が形成される。環状ＤＮＡ分子により、ワトソン鎖およびクリック鎖のいずれかまたは両方の動態特徴を取得することができる。データ分析フレームワークは、測定ウィンドウの動態特徴に基づいて開発され得る。次いで、このデータ分析フレームワークを使用して、メチル化を含む修飾を検出することができる。このセクションでは、修飾を検出するための様々な技術について説明する。

Ａ．一本鎖の使用
図４に示すように、一例として、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳＭＲＴ配列決定からワトソン鎖のサブリードを取得して、塩基修飾の状態に関する１つの特定の塩基を分析した。図４では、塩基修飾分析にかけられた塩基の各側からの３つの塩基は、測定ウィンドウ４００として定義されるであろう。一実施形態では、これらの７つの塩基（すなわち、３ヌクレオチド（ｎｔ）上流および下流の配列ならびに塩基修飾分析のための１ヌクレオチド）についての配列文脈、ＩＰＤ、およびＰＷは、測定ウィンドウとして２次元（すなわち、２－Ｄ）マトリックスにコンパイルされた。示されている例では、測定ウィンドウ４００は、ワトソン鎖の１つのサブリード用である。他の変形が本明細書に記載されている。

マトリックスの最初の行４０２は、調査された配列を示している。マトリックスの２行目４０４では、０の位置は、塩基修飾分析のための塩基を表した。－１、－２、および－３の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の１ｎｔ、２ｎｔ、および３ｎｔ上流の位置を示した。＋１、＋２、および＋３の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の１ｎｔ、２ｎｔ、および３ｎｔ下流の位置を示した。各位置には、対応するＩＰＤ値およびＰＷ値を含有する２つの列が含まれている。次の４行（行４０８、４１２、４１６、および４２０）は、それぞれ、鎖（例えば、ワトソン鎖）の４種類のヌクレオチド（Ａ、Ｃ、Ｇ、およびＴ）に対応した。マトリックス内に存在するＩＰＤ値およびＰＷ値は、どの対応するヌクレオチドの種類が特定の位置で配列決定されたかに依存した。図４に示すように、相対位置０で、ＩＰＤ値およびＰＷ値がワトソン鎖の「Ｇ」を示す行に表示され、その位置での配列結果において、グアニンが呼び出されたことを示している。配列決定された塩基に対応しなかった列の他のグリッドは、「０」としてコード化される。一例として、２Ｄデジタルマトリックス（図４）に対応する配列情報は、ワトソン鎖について５’－ＧＡＴＧＡＣＴ－３’である。

図５に図示された一実施形態で示されるように、測定ウィンドウは、クリック鎖からのデータに適用され得る。塩基修飾の状態に関して１つの特定の塩基を分析するために、単一分子リアルタイム配列決定からクリック鎖のサブリードを取得した。図５では、塩基修飾分析にかけられた塩基の各側からの３つの塩基、および塩基修飾分析にかけられた塩基は、測定ウィンドウとして定義されるであろう。一実施形態では、これらの７つの塩基（すなわち、３ヌクレオチド（ｎｔ）上流および下流の配列ならびに塩基修飾分析のための１ヌクレオチド）についての配列文脈、ＩＰＤ、ＰＷは、測定ウィンドウとして２次元（すなわち、２－Ｄ）マトリックスにコンパイルされた。マトリックスの最初の行は、調査された配列を示している。マトリックスの２行目では、０の位置は、塩基修飾分析の塩基を表している。－１、－２、および－３の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の１ｎｔ、２ｎｔ、および３ｎｔ上流の位置を示した。＋１、＋２、および＋３の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の１ｎｔ、２ｎｔ、および３ｎｔ下流の位置を示した。各位置には、対応するＩＰＤ値およびＰＷ値を含有する２つの列が含まれている。次の４行は、この鎖（例えば、クリック鎖）の４種類のヌクレオチド（Ａ、Ｃ、Ｇ、Ｔ）に対応している。マトリックス内に存在するＩＰＤ値およびＰＷ値は、どの対応するヌクレオチドの種類が特定の位置で配列決定されたかに依存した。図５に示すように、相対位置０で、ＩＰＤ値およびＰＷ値がクリック鎖の「Ｔ」を示す行に表示され、その位置での配列結果において、チミンが呼び出されたことを示している。配列決定された塩基に対応しなかった列の他のグリッドは、「０」としてコード化される。一例として、２Ｄデジタルマトリックス（図５）に対応する配列情報は、クリック鎖について５’－ＡＣＴＴＡＧＣ－３’である。

Ｂ．ワトソン鎖およびクリック鎖の両方の使用
図６は、ワトソン鎖およびその相補的なクリック鎖からのデータを組み合わせることができる方法で、測定ウィンドウが実装され得る実施形態を示す。図６に示すように、ワトソン鎖およびクリック鎖のサブリードを単一分子リアルタイム配列決定から取得して、１つの特定の塩基の修飾について分析した。一実施形態では、環状ＤＮＡ鋳型のクリック鎖からの測定ウィンドウは、塩基修飾分析にかけられたワトソン鎖からの測定ウィンドウと相補的であった。図６では、塩基修飾分析にかけられたワトソン鎖の第１の塩基の各側からの３つの塩基および第１の塩基は、第１の測定ウィンドウとして定義されるであろう。クリック鎖の第２の塩基の各側からの３つの塩基および第２の塩基は、第２の測定ウィンドウとして定義されるであろう。第２の塩基は、第１の塩基と相補的であった。一実施形態では、ワトソンおよびクリック鎖からのこれらの７つの塩基（すなわち、３ヌクレオチド（ｎｔ）上流および下流の配列ならびに塩基修飾分析のための１ヌクレオチド）についての配列文脈、ＩＰＤ、ＰＷは、２次元（すなわち、２－Ｄ）マトリックスにコンパイルされた。ワトソン鎖とクリック鎖からのこれらの測定ウィンドウは、それぞれ、第１の測定ウィンドウおよび第２の測定ウィンドウとみなされた。

ワトソン鎖とクリック鎖のマトリックスの最初の行は、調査された配列を示している。ワトソン鎖のマトリックスの２行目では、０の位置は、塩基修飾分析の最初の塩基を表している。クリック鎖のマトリックスの２行目に示されている０の位置は、第１の塩基と相補的な第２の塩基を表している。－１、－２、および－３の相対位置は、それぞれ、第１の塩基および第２の塩基の１ｎｔ、２ｎｔ、および３ｎｔ上流の位置を示した。＋１、＋２、および＋３の相対位置は、それぞれ、第１の塩基および第２の塩基の１ｎｔ、２ｎｔ、および３ｎｔ下流の位置を示した。ワトソン鎖およびクリック鎖に由来する各位置は、対応するＩＰＤ値およびＰＷ値を含有する２つの列に対応するであろう。ワトソン鎖およびクリック鎖のマトリックスの次の４行は、それぞれ、特定の鎖（例えば、クリック鎖）の４種類のヌクレオチド（Ａ、Ｃ、Ｇ、およびＴ）に対応していた。マトリックス内に存在するＩＰＤ値およびＰＷ値は、どの対応するヌクレオチドの種類が特定の位置で配列決定されたかに依存した。

図６に示すように、相対位置の０では、ＩＰＤ値およびＰＷ値が、ワトソン鎖の「Ａ」およびクリック鎖の「Ｔ」を示す行に示され、ワトソン鎖およびクリック鎖のその位置での配列結果において、それぞれ、アデニンとチミンが呼び出されたことを示している。配列決定された塩基に対応しなかった列の他のグリッドは、「０」としてコード化される。一例として、ワトソン鎖の２Ｄデジタルマトリックス（図６）に対応する配列情報は、５’－ＡＴＡＡＧＴＴ－３’であろう。クリック鎖の２Ｄデジタルマトリックス（図６）に対応する配列情報は、５’－ＡＡＣＴＴＡＴ－３’であろう。

この例で示されるように、ワトソン鎖およびクリック鎖からのデータを組み合わせて新しいマトリックスを形成することができ、これを、測定ウィンドウとみなすこともできる。この新しいマトリックスは、機械学習モデルを訓練するために使用される単一の試料として使用することができる。したがって、２Ｄマトリックスの特定の配置は、畳み込みニューラルネットワーク（ＣＮＮ）が使用される場合など、影響がある可能性があるが、新しいマトリックスのすべての値を別個の特徴として扱うことができる。異なる鎖の様々な位置での配列文脈は、マトリックスのゼロ以外のエントリを介して伝達できる。

図７は、ワトソン鎖およびクリック鎖からのデータが互いに正確に相補的な位置ではない方法で、測定ウィンドウを実装できることを示す。図７に示されるように、第１の測定ウィンドウは５’－ＡＴＡＡＧＴＴ－３’であり、第２の測定ウィンドウは５’－ＧＴＡＡＣＧＣ－３’であった。一部の実施形態では、ワトソン鎖およびクリック鎖は、位置が相補的でないように互いにシフトしてもよい。

図８は、測定ウィンドウを使用して、ＣｐＧ部位のメチル化状態を分析できることを示している。０の位置はＣｐＧ部位のシトシンに対応し、したがって２つの鎖間で位置が１つだけシフトするため、両方の鎖について、Ｃが０の位置になる。したがって、ワトソン鎖およびクリック鎖からの測定ウィンドウに含まれる配列の一部のみが、互いに相補的である。他の実施形態では、ワトソン鎖およびクリック鎖からの測定ウィンドウのすべての配列は、互いに相補的であり得る。さらに他の実施形態では、ワトソン鎖およびクリック鎖からの測定ウィンドウの配列のいずれも、互いに相補的ではない。

一実施形態では、測定ウィンドウについて、塩基修飾分析にかけられた塩基を取り巻くＤＮＡストレッチの長さは、非対称であり得る。例えば、その塩基のＸ－ｎｔ上流およびＹ－ｎｔ下流を、塩基修飾分析に使用することができる。Ｘは、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、１００、１５０、２００、３００、４００、５００、１０００、２０００、４０００、５０００、および１００００を含み得るが、これらに限定されない。Ｙは、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、１００、１５０、２００、３００、４００、５００、１０００、２０００、４０００、５０００、および１００００を含み得るが、これらに限定されない。

Ｃ．モデルの訓練および修飾の検出
図９は、測定ウィンドウを使用して任意の塩基修飾を決定する方法に関する一般的な手順を示す。非修飾および修飾が既知のＤＮＡ試料を、単一分子リアルタイム配列決定にかけた。修飾されたＤＮＡ（例えば、修飾分子９０２）は、塩基（例えば、塩基９０４）がその部位に修飾（例えば、メチル化）を有することを意味する。修飾されていないＤＮＡ（例えば、非修飾分子９０６）は、塩基（例えば、塩基９０８）がその部位に修飾を有しないことを意味する。ＤＮＡの両方のセットを、人工的に作成または処理して、修飾／非修飾ＤＮＡを形成することができる。

ステージ９１０で、試料は、次いで単一分子リアルタイム配列決定を経ることができる。ＳＭＲＴ配列決定の一部として、固定化ＤＮＡポリメラーゼを繰り返し通過させることによって、環状分子を複数回配列決定することができる。毎回取得される配列情報は、サブリードとみなされる。これにより、１つの環状ＤＮＡ鋳型は、複数のサブリードを生成する。配列決定サブリードは、例えば、限定されないが、ＢＬＡＳＲ（ＭａｒｋＪＣｈａｉｓｓｏｎｅｔａｌ，ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１２；１３：２３８）を使用して、参照ゲノムに整列することができる。様々な他の実施形態では、ＢＬＡＳＴ（ＡｌｔｓｃｈｕｌＳＦｅｔａｌ，ＪＭｏｌＢｉｏｌ．１９９０；２１５（３）：４０３－４１０）、ＢＬＡＴ（ＫｅｎｔＷＪ，ＧｅｎｏｍｅＲｅｓ．２００２；１２（４）：６５６－６６４）、ＢＷＡ（ＬｉＨｅｔａｌ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０；２６（５）：５８９－５９５）、ＮＧＭＬＲ（ＳｅｄｌａｚｅｃｋＦＪｅｔａｌ，ＮａｔＭｅｔｈｏｄｓ．２０１８；１５（６）：４６１－４６８）、ＬＡＳＴ（ＫｉｅｌｂａｓａＳＭｅｔａｌ、ＧｅｎｏｍｅＲｅｓ．２０１１；２１（３）：４８７－４９３）およびＭｉｎｉｍａｐ２（ＬｉＨ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１８；３４（１８）：３０９４－３１００）は、サブリードを参照ゲノムに整列するために使用することができる。整列により、同じ位置の各サブリードのデータを特定できるため、複数のサブリードからのデータを組み合わせることができる（例えば、平均化）。

ステージ９１２では、整列結果から、塩基修飾分析にかけられた塩基を取り巻くＩＰＤ、ＰＷ、および配列文脈が取得された。ステージ９１４では、ＩＰＤ、ＰＷ、および配列文脈は、特定の構造、例えば、限定されないが、図９に示されるような２Ｄマトリックスに記録された。

ステージ９１６では、既知の塩基修飾を有する参照動態パターン由来の分子を含有するいくつかの２Ｄマトリックスを使用して、分析的、計算的、数学的、または統計モデル（複数可）を訓練した。ステージ９１８では、訓練から得られる統計モデルが開発される。簡単に、図９は、訓練によって開発された統計モデルのみを示しているが、任意のモデルまたはデータ分析フレームワークを開発することができる。データ分析フレームワークの例としては、機械学習モデル、統計モデル、数学的モデルが挙げられる。統計モデルには、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク（例えば、長短期記憶、ＬＳＴＭ）、ベイズ分類器、隠れマルコフモデル（ＨＭＭ）、線形判別分析（ＬＤＡ）、ｋ平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング（ＤＢＳＣＡＮ）、ランダムフォレストアルゴリズム、およびサポートベクトルマシン（ＳＶＭ）が含まれるが、これらに限定されない。塩基修飾分析にかけられた塩基を取り巻くＤＮＡストレッチは、その塩基のＸ－ｎｔ上流とＹ－ｎｔ下流、つまり「測定ウィンドウ」であり得る。

正しい出力（すなわち、修飾状態）が既知であるため、データ構造を訓練プロセスで使用することができる。例えば、ワトソン鎖および／またはクリック鎖（複数可）からの塩基の３ｎｔ上流および下流に対応するＩＰＤ、ＰＷ、および配列文脈を、塩基修飾を分類するための統計モデル（複数可）を訓練するのに使用される２Ｄマトリックスを構築するために使用することができる。このようにして、訓練は、以前の既知の状態を有する核酸の位置での塩基修飾を分類することができるモデルを提供することができる。

図１０は、塩基修飾の既知の状態を有するＤＮＡ試料から学習された統計モデル（複数可）がどのように塩基修飾を検出することができるかに関する一般的な手順を示す。塩基修飾の状態が未知の試料をＳＭＲＴ配列決定にかけた。配列決定サブリードを、例えば、上述の技術を使用して、参照ゲノムに整列した。それに加えて、またはその代わりに、サブリードを互いに整列させることができる。さらに他の実施形態は、整列が実施されないように、ただ１つのサブリードを使用するか、またはそれらを独立して分析することができる。

塩基修飾分析にかけられた塩基については、訓練ステップ（図９）で使用されたような同等の測定ウィンドウを使用して、整列結果のワトソン鎖および／またはクリック鎖（複数可）から、ＩＰＤ、ＰＷ、および配列文脈を取得し、その塩基と関連付けた。別の実施形態では、訓練手順と試験手順との間の測定ウィンドウは異なるであろう。例えば、訓練手順と試験手順の間の測定ウィンドウのサイズが異なる場合がある。これらのＩＰＤ、ＰＷ、および配列文脈は、２Ｄマトリックスに変換される。試験試料のこのような２Ｄマトリックスは、塩基修飾を決定するために参照動態特徴と比較されるであろう。例えば、試験試料の２Ｄマトリックスは、訓練試料から学習した統計モデル（複数可）を通して参照動態特徴と比較できるため、試験試料の核酸分子の部位での塩基修飾を決定することができるようになる。統計モデルには、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク（例えば、長短期記憶、ＬＳＴＭ）、ベイズ分類器、隠れマルコフモデル（ＨＭＭ）、線形判別分析（ＬＤＡ）、ｋ平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング（ＤＢＳＣＡＮ）、ランダムフォレストアルゴリズム、およびサポートベクトルマシン（ＳＶＭ）が含まれるが、これらに限定されない。

図１１は、ＣｐＧ部位でのメチル化状態を分類するための方法をどのように作成することができるかに関する一般的な手順を示す。ＣｐＧ部位で非メチル化およびメチル化が既知のＤＮＡ試料を、単一分子リアルタイム配列決定にかけた。配列決定サブリードを、参照ゲノムに整列した。ワトソン鎖のデータを使用した。

整列の結果から、メチル化分析にかけられたＣｐＧ部位でシトシンを取り巻くＩＰＤ、ＰＷ、および配列文脈が取得され、特定の構造、例えば、限定されないが、図１１に示されるような２Ｄマトリックスに記録された。既知のメチル化状態を有する分子に由来する参照動態パターンを含有するいくつかの２Ｄマトリックスを使用して、統計モデル（複数可）を訓練した。調査中の塩基を取り巻くＤＮＡのストレッチは、その塩基のＸ－ｎｔ上流とＹ－ｎｔ下流、つまり「測定ウィンドウ」であり得る。Ｘは、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、１００、１５０、２００、３００、４００、５００、１０００、２０００、４０００、５０００、および１００００を含み得るが、これらに限定されない。Ｙは、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、１００、１５０、２００、３００、４００、５００、１０００、２０００、４０００、５０００、および１００００を含み得るが、これらに限定されない。一実施形態では、ワトソン鎖からの塩基の３ｎｔ上流および下流に対応するＩＰＤ、ＰＷ、および配列文脈を、塩基修飾を分類するための統計モデル（複数可）を訓練するのに使用される２Ｄマトリックスを構築するために使用することができる。

図１２は、未知の試料のメチル化状態を分類する一般的な手順を示す。メチル化状態が未知の試料を、単一分子リアルタイム配列決定にかけた。配列決定サブリードを、参照ゲノムに整列した。

整列結果のＣＧ部位のシトシンについて、訓練ステップ（図１１）で適用された同等の測定ウィンドウを使用して、ワトソン鎖からＩＰＤ、ＰＷ、および配列文脈を取得して、修飾を調査中の塩基と関連付けた。これらのＩＰＤ、ＰＷ、および配列文脈は、２Ｄマトリックスに変換され得る。試験試料のそのような２Ｄマトリックスは、メチル化状態を決定するために、図１１に示される参照動態パターンと比較されるであろう。Ｘ１１

図１３および図１４は、ワトソン鎖を用いた手順と同様に、クリック鎖からの動態特徴が、上で詳述したように、訓練手順および試験手順のために使用され得ることを示す。統計モデル（複数可）は、同じモデルでも、異なるモデルでもよい。異なるモデルの場合、それらを使用して独立した分類を取得することができ、これらを比較することができて、例えば、それらが一致している場合、修飾状態が特定される。次いで、それらが一致していない場合、未分類の状態が特定され得る。それらが同じモデルである場合、データは、単一のデータ構造、例えば、図６のマトリックスに組み合わせることができる。

図１５および図１６は、ワトソン鎖およびクリック鎖の両方からの動態特徴が、上で詳述したように、訓練手順および試験手順のために使用され得ることを示す。ＣｐＧ部位で非メチル化およびメチル化が既知のＤＮＡ試料を、単一分子リアルタイム配列決定にかけた。配列決定のサブリードを、参照ゲノムに整列したが、サブリードを相互に整列することも可能であり、本明細書に記載の他の方法で行うことができる。

整列結果のサブリードについて、メチル化分析にかけられたＣｐＧ部位のシトシンを取り巻くＩＰＤ、ＰＷ、および配列文脈が取得された。ＤＮＡ分子は２つのヘアピンアダプターの使用を通して環状化されているため（例えば、ＳＭＲＴＢｅｌｌ鋳型調製プロトコルに従う）、環状分子を２回以上配列決定することができ、それによって、分子の複数のサブリードが生成される。サブリードは、循環コンセンサス配列（ＣＣＳ）リードを生成するために使用することができる。一般に、本明細書に記載のすべての方法で、１つのＺＭＷは複数のサブリードを生成することができるが、１つのＣＣＳリードのみに対応する。

一部の実施形態では、完全非メチル化データセットは、ヒトＤＮＡ断片に対するＰＣＲによって作成され得る。例えば、完全メチル化データセットは、すべてのＣｐＧ部位がメチル化されていると想定されるＣｐＧメチルトランスフェラーゼＭ．ＳｓｓＩで処理されたヒトＤＮＡ断片を介して生成することができる。他の例では、Ｍ．ＭｐｅＩなどの別のＣｐＧメチルトランスフェラーゼを使用することができる。他の実施形態では、既知のメチル化状態を有する合成配列または異なるメチル化レベルを有する既存のＤＮＡ試料、あるいはメチル化および非メチル化ＤＮＡ分子の制限酵素切断とその後の連結（これによって、キメラのメチル化／非メチル化ＤＮＡ分子の割合が生じる）によって作成されるハイブリッドのメチル化状態は、メチル化の予測モデルまたは分類器の訓練のために使用することができる。

配列文脈、ＩＰＤ、およびパルス幅（ＰＷ）を含む動態パターンの変換は、図１５に示すように、ＣＧ部位のメチル化状態を分析するためのワトソン鎖およびクリック鎖からの特徴を含む２Ｄマトリックスにすることができる。このアプローチにより、メチル化シトシンならびにその近くの配列文脈に起因するわずかな動態変化を正確にとらえることができた。本明細書に記載の様々な方法のいずれかと同様に、サブリードに存在する各ＣｐＧについて、測定ウィンドウ（例えば、ＣｐＧ部位のシトシンの３塩基上流および下流）をその後の分析に使用することができ、したがって、合計７つのヌクレオチド（ＣｐＧ部位のシトシンを含む）が、一緒に分析される。それら７つのヌクレオチド間の各塩基について、ＩＰＤおよびＰＷを計算することができる。動態変化に起因する配列文脈をとらえるために、ＩＰＤおよびＰＷ信号は、図１５に示すように、特定のベースコール、相対配列決定位置、および鎖情報にコンパイルされ得る。このようなデータ構造を、簡単に、動態の２Ｄデジタルマトリックスと呼ぶ。

このような２Ｄデジタルマトリックスは、「２Ｄデジタル画像」に類似している。例えば、２Ｄデジタルマトリックスの最初の行には、メチル化分析にかけられたＣｐＧ遺伝子座のシトシンを取り巻く相対位置とともにそのシトシン部位の３ｎｔ上流および下流が含有された。０の位置は、メチル化が決定されるシトシン部位を表している。－１および－２の相対位置は、問題のシトシンの１ｎｔ上流および２ｎｔ上流を示していた。＋１および＋２の相対位置は、使用されるシトシンの１ｎｔ下流および２ｎｔ下流を示している。各位置は、対応するＩＰＤ値およびＰＷ値を含有する２つの列に対応するであろう。各行は、ワトソン鎖およびクリック鎖の４種類のヌクレオチド（Ａ、Ｃ、Ｇ、およびＴ）に対応していた。マトリックス内のＩＰＤ値およびＰＷ値の入力は、特定の位置で配列結果（すなわち、サブリード）に事前設定された対応するヌクレオチドの種類によって異なる。

図１５に示すように、０の相対位置では、ＩＰＤ値およびＰＷ値がワトソン鎖の「Ｃ」の行に示され、シトシンがその位置で呼び出されたことを示唆している。配列決定された塩基に対応しなかった列の他のグリッドは、「０」としてコード化される。一例として、２Ｄデジタルマトリックス（図１５）に対応する配列情報は、ワトソン鎖およびクリック鎖について、それぞれ、５’－ＡＴＡＣＧＴＴ－３’および５’－ＴＡＡＣＧＴＡ－３’である。この文脈では、ワトソン鎖およびクリック鎖のＣｐＧ部位のシトシンに隣接する上流および下流の配列は異なる。ＣｐＧ部位でのメチル化はワトソン鎖とクリック鎖の間で対称的であるため（Ｌｉｓｔｅｒｅｔａｌ．，２００９）、１つの好ましい実施形態では、両方の鎖の動態を使用して、メチル化予測モデルを訓練した。別の実施形態では、ワトソン鎖およびクリック鎖は、メチル化予測モデルを訓練するために別々に使用され得る。

単一分子リアルタイム配列決定の高いデータスループットを考慮すると、一実施形態では、深層学習アルゴリズム（畳み込みニューラルネットワーク（ＣＮＮ））（ＬｅＣｕｎｅｔａｌ．，１９８９）は、メチル化ＣｐＧを非メチル化ＣｐＧから区別するのに好適であり得る。他のアルゴリズムも、追加的または代替的に使用することができ、例えば、限定されないが、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク（例えば、長期短期記憶、ＬＳＴＭ）、ベイズ分類器、隠れマルコフモデル（ＨＭＭ）、線形判別分析（ＬＤＡ）、ｋ－平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング（ＤＢＳＣＡＮ）、ランダムフォレストアルゴリズム、サポートベクトルマシン（ＳＶＭ）などがある。図６～８に記載されているように、訓練では、ワトソン鎖およびクリック鎖を別々に使用するか、または組み合わせた新しいマトリックスにおいて使用することができる。

動態パターンの別の変換は、Ｎ次元マトリックスであり得る。Ｎは、例えば、１、３、４、５、６、および７であり得る。例えば、３Ｄマトリックスは、分析対象のＤＮＡストレッチのタンデムＣＧ部位の数に従って階層化された２Ｄマトリックスの積み重ねであり、第３の次元は、そのＤＮＡストレッチのタンデムＣＧ部位の数になる。一部の実施形態では、パルス強度またはパルスの大きさ（例えば、パルスのピークの高さによって、またはパルス信号下面積によって測定される）も、マトリックスに組み込まれることがある。パルス強度（パルスピークの振幅のメトリック、図３）は、元の２Ｄマトリックスの上のＰＷ値およびＩＰＤ値に関連する列に隣接する追加の列に加えられるか、または第３の次元に加えられるかのいずれかで、３Ｄマトリックスを形成することができる。

さらなる例として、８（行）ｘ２１（列）の２Ｄマトリックスは、１６８個の要素を含む１Ｄマトリックス（すなわち、ベクトル）に変換することができる。また、この１Ｄマトリックスをスキャンして、例えば、ＣＮＮおよびその他のモデリングを実施することができる。別の例として、方法は、８ｘ２１の２Ｄマトリックスを、複数の小さなマトリックス、例えば、２つの４ｘ２１の２Ｄマトリックスに分割することできる。これらの２つの小さなマトリックスを垂直方向に組み合わせると、３Ｄマトリックス（すなわち、ｘ＝２１、ｙ＝４、ｚ＝２）が得られる。方法は、第１の２Ｄマトリックスをスキャンし、次いで第２の２Ｄマトリックスをスキャンして、機械学習のためのデータ表示を形成することができる。データをさらに分割して、より高次元のマトリックスを形成することができる。さらに、二次構造情報を、データ構造に追加することができ、例えば、２Ｄマトリックスの上に追加のマトリックス（１Ｄマトリックス）を加えることができる。このような追加のマトリックスは、測定ウィンドウ内の各塩基が二次構造（例えば、ステム・ループ構造）に関与するかどうかをコード化することができる。例えば、「ステム」に関与する塩基は、０としてコード化され、「ループ」に関与する塩基は、１としてコード化される。

一実施形態では、単一のＤＮＡ分子内のＣｐＧ部位のメチル化状態は、「メチル化」または「非メチル化」の定性的な結果を与えるのではなく、統計モデルに基づいてメチル化される確率として表すことができる。１の確率は、統計モデルに基づいて、ＣｐＧ部位がメチル化されているとみなされ得ることを示す。０の確率は、統計モデルに基づいて、ＣｐＧ部位がメチル化されていないとみなされ得ることを示す。その後の下流分析では、カットオフ値を使用して、確率に基づいて、特定のＣｐＧ部位が「メチル化」または「非メチル化」に分類されるかどうか、分類することができる。カットオフの可能な値には、５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、または９５％が含まれる。ＣｐＧ部位についてメチル化される確率が所定のカットオフよりも大きいものは、「メチル化」として分類され、ＣｐＧ部位についてメチル化される確率が所定のカットオフよりも大きくないものは、「非メチル化」として分類される。所望のカットオフは、例えば、受信者操作特性（ＲＯＣ）曲線分析を使用して、訓練データセットから取得され得る。

図１６は、ワトソン鎖およびクリック鎖からの未知の試料のメチル化状態を分類する一般的な手順を示している。メチル化状態が未知の試料は、単一分子リアルタイム配列決定にかけられた。配列決定サブリードは、他の方法と同様に、参照ゲノムまたは互いに整列して、所与の位置のコンセンサス値（平均値、中央値、モード、またはその他の統計値）を決定することができる。示されるように、２本の鎖についての測定値を、単一の２Ｄマトリックスに組み合わせることができる。

整列結果のＣＧ部位のシトシンについて、異なるサイズのウィンドウを使用することができるが、修飾を調査中のその塩基に関連する訓練ステップにおいて適用されるように（図１６）同等の測定ウィンドウ（ＣｐＧ部位のシトシンの３ｎｔ上流および下流）を使用して、ワトソン鎖からＩＰＤ、ＰＷ、および配列文脈が取得され得る。試験試料のこのような２Ｄマトリックスは、メチル化状態を決定するために、図１６に示される参照動態パターンと比較することができる。

ＩＩＩ．メチル化を検出するための例示的なモデル訓練
提案されたアプローチの実現可能性および妥当性を試験するために、単一分子リアルタイム配列決定の前に、Ｍ．ＳｓｓＩ処理（メチル化ライブラリ）およびＰＣＲ増幅（非メチル化ライブラリ）を用いて、胎盤ＤＮＡライブラリを調製した。それぞれ、４２１，６１４および４４６，２８５の循環コンセンサス配列（ＣＣＳ）に対応する、メチル化および非メチル化ライブラリの４４，７９９，７３６および４３，５８０，４５２のサブリードを取得した。その結果、各分子は、メチル化ライブラリおよび非メチル化ライブラリにおいて、３４倍および３２倍の中央値で配列決定された。データセットは、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳｅｑｕｅｌＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０によって調製されたＤＮＡから生成された。このキットは、最初のＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳｅｑｕｅｌシーケンサーを使用するために開発された。本明細書では、Ｓｅｑｕｅｌをその後継であるＳｅｑｕｅｌＩＩと区別するために、最初のＳｅｑｕｅｌをＳｅｑｕｅｌＩと呼ぶ。したがって、本明細書では、ＳｅｑｕｅｌＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０をＳｅｑｕｅｌＩＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０と呼ぶ。ＳｅｑｕｅｌＩＩシーケンサー用に設計された配列決定キットには、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０およびＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０が含まれ、これらも本開示に記載されている。

メチル化ライブラリおよび非メチル化ライブラリから生成された配列決定分子の５０％を使用して、統計モデルを訓練した（残りの５０％は検証用に使用した）。この場合、畳み込みニューラルネットワーク（ＣＮＮ）モデルである。一例として、ＣＮＮモデルは、１つ以上の畳み込み層（例えば、１Ｄまたは２Ｄ層）を有し得る。畳み込み層は、１つ以上の異なるフィルターを使用することができ、各フィルターは、特定のマトリックス要素に対してローカルな（例えば、近傍のまたは周囲の）マトリックス値を操作するカーネルを使用し、それによって、特定のマトリックス要素に新しい値を提供する。１つの実装では、２つの１Ｄ畳み込み層を使用した（それぞれ、カーネルサイズが４の１００個のフィルターがある）。フィルターは、個別に適用してから組み合わせることができる（例えば、加重平均で）。得られたマトリックスは、入力マトリックスよりも小さくすることができる。

畳み込み層の後に、ＲｅＬＵ（正規化線形ユニット）層が続き、その後にドロップアウト率が０．５のドロップアウト層が続く。ＲｅＬＵは、個々の値を操作して畳み込み層（複数可）から新しいマトリックス（画像）を得る活性化関数の例である。他の活性化関数（例えば、シグモイド、ソフトマックスなど）も使用することができる。このような層のうちの１つ以上を使用することができる。ドロップアウト層は、ＲｅＬＵ層または最大プーリング層で使用することができ、過剰適合を防ぐための正則化として機能する。ドロップアウト層を、訓練プロセス中に使用して、訓練の一部として実施される最適化プロセスの様々な反復中に異なる（例えば、ランダムな）値を無視することができる（例えば、コスト／損失関数を減らすため）。

ＲｅＬＵ層の後に、最大プーリング層（例えば、プールサイズ２）を使用することができる。最大プーリング層は、畳み込み層と同様に機能するが、入力とカーネルとの間の内積を得る代わりに、カーネルと重なる入力からの領域の最大値を得ることができる。さらなる畳み込み層（複数可）を使用することができる。例えば、プーリング層からのデータは、別の２つの１Ｄ畳み込み層（例えば、各々、カーネルサイズが２の１２８個のフィルターとそれに続くＲｅＬＵ層を有する）に入力することができ、さらに、ドロップアウト率が０．５のドロップアウト層を使用することができる。プールサイズが２の最大プーリング層を使用した。最後に、全結合層（例えば、１０個のニューロンとそれに続くＲｅＬＵ層を有する）を使用することができる。１つのニューロンを有する出力層の後にシグモイド層を続けることができるため、メチル化の確率が得られる。層、フィルター、カーネルサイズの様々な設定を調整することができる。この訓練データセットでは、メチル化ライブラリおよび非メチル化ライブラリの４６８，５９６および４３２，７６１個のＣｐＧ部位を使用した。

Ａ．訓練データセットおよび試験データセットの結果
図１７Ａは、訓練データセット中の各単一ＤＮＡ分子の各ＣｐＧ部位について、メチル化される確率を示す。メチル化の確率は、非メチル化ライブラリよりもメチル化ライブラリの方がはるかに高かった。メチル化される確率のカットオフが０．５の場合、非メチル化ＣｐＧ部位の９４．７％が非メチル化であると正しく予測され、メチル化ＣｐＧの８４．７％がメチル化であると正しく予測された。

図１７Ｂは、試験データセットの性能を示す。訓練データセットによって訓練されたモデルを使用して、メチル化ライブラリおよび非メチル化ライブラリからの独立した試験データセット中の４６９，７２９および４３２，０２４個のＣｐＧ部位のメチル化状態を予測した。メチル化される確率のカットオフが０．５の場合、非メチル化ＣｐＧ部位の９４．０％が非メチル化であると正しく予測され、メチル化されたＣｐＧの８４．１％がメチル化であると正しく予測された。これらの結果は、配列文脈と組み合わせた動態の新しい変換の使用が、ＤＮＡ（例えば、ヒトの対象から）のメチル化状態の決定を可能にし得ることを示唆した。

特徴のサブセットをモデルに含めることによって、ＣｐＧのメチル化状態を予測する際に、各特徴（配列文脈、ＩＰＤ、およびＰＷ）の能力を評価した。訓練データセットでは、（ｉ）配列文脈のみ、（ｉｉ）ＩＰＤのみ、および（ｉｉｉ）ＰＷのみのモデルは、それぞれ、０．５、０．７４、および０．８６の曲線下面積（ＡＵＣ）値を与えた。ＩＰＤと配列文脈を組み合わせると、ＡＵＣが０．８６と性能が改善した。配列文脈（「Ｓｅｑ」）、ＩＰＤ、およびＰＷの複合分析は、ＡＵＣが０．９４と性能が大幅に改善した（図１８Ａ）。独立した試験データセットの性能は、訓練データセットと同等であった（図１８Ｂ）。

ＣｐＧ部位のサブリード深度を、その部位とその周囲の１０ｂｐをカバーするサブリードの平均数として定義した。図１９Ａおよび図１９Ｂに示されるように、ＣｐＧ部位のサブリード深度が高いほど、達成されるメチル化の検出の精度が高くなる。例えば、試験データセット（図１９Ｂ）に示されるように、各ＣｐＧ部位の深度が少なくとも１０の場合、メチル化状態を予測するＡＵＣは０．９３になる。しかしながら、各ＣｐＧ部位のサブリード深度が少なくとも３００の場合、メチル化状態を予測するＡＵＣは０．９８である。一方、深度が１の場合でさえ、ＡＵＣが０．９を達成した。これは、本発明者らのアプローチが、低い配列決定深度の使用で、メチル化の予測が達成されることを示している。

メチル化分析の性能に対する鎖情報の効果を試験するために、ワトソン鎖およびクリック鎖に由来する配列文脈、ＩＰＤおよびＰＷを使用して、それぞれ、本開示に存在する実施形態に従って訓練した。図２０Ａおよび図２０Ｂは、訓練データセットおよび試験データセットにおいてＡＵＣが最大０．９１および０．８７を達成できるので、訓練および試験のために、単一の鎖、すなわちワトソンまたはクリック鎖のいずれかを使用することが実行可能であることを示した。ワトソン鎖およびクリック鎖を含む両方の鎖（例えば、図６～８で説明）を使用すると、最高の性能が得られ（ＡＵＣ：訓練データセットおよび試験データセットでそれぞれ０．９４および０．９０）、鎖情報が最適な性能を達成するために重要であることを示唆している。

本開示で開発された本開示に存在する実施形態に従って、このパラメータが性能にどのように影響するかを研究するために、ＣｐＧ部位の上流および下流の異なる数のヌクレオチドを、さらに試験した。図２１Ａおよび図２１Ｂは、ＣｐＧの文脈におけるシトシンの上流および下流のヌクレオチドの数が、メチル化の予測の精度に影響を与えることを示す。例えば、例示的な目的として、調査されるシトシンの、限定されないが２ヌクレオチド（ｎｔ）、３ｎｔ、４ｎｔ、６ｎｔ、８ｎｔ、１０ｎｔ、１５ｎｔ、および２０ｎｔ上流と下流を考慮すると、調査されるシトシンの２ｎｔ上流と下流を使用する方法のＡＵＣは、訓練データセットおよび試験データセットの両方でわずか０．５０であるが、調査されるシトシンの１５ｎｔ上流と下流を使用する方法のＡＵＣは、０．９５と０．９２に増加する。これらの結果は、分析されるシトシンに隣接する上流領域および下流領域の長さを変えることにより、最適な性能を見出すことが可能になることを示唆した。一実施形態では、図２１Ｂに示されるように、シトシンの３ｎｔ上流および下流を使用して、メチル化状態を決定し、０．８９のＡＵＣを達成することができる。

一実施形態では、本開示に存在する実施形態による分析を実施するために、調査されるシトシンに隣接する非対称配列を使用することができる。例えば、シトシンの１ｎｔ、３ｎｔ、４ｎｔ、５ｎｔ、６ｎｔ、７ｎｔ、８ｎｔ、９ｎｔ、１０ｎｔ、１１ｎｔ、１２ｎｔ、１３ｎｔ、１４ｎｔ、１５ｎｔ、１６ｎｔ、１７ｎｔ、１８ｎｔ、１９ｎｔ、２０ｎｔ、２５ｎｔ、３０ｎｔ、３５ｎｔ、および４０ｎｔ下流と組み合わせて、２ｎｔ上流を使用することができ、シトシンの１ｎｔ、２ｎｔ、４ｎｔ、５ｎｔ、６ｎｔ、７ｎｔ、８ｎｔ、９ｎｔ、１０ｎｔ、１１ｎｔ、１２ｎｔ、１３ｎｔ、１４ｎｔ、１５ｎｔ、１６ｎｔ、１７ｎｔ、１８ｎｔ、１９ｎｔ、２０ｎｔ、２５ｎｔ、３０ｎｔ、３５ｎｔ、および４０ｎｔ下流と組み合わせて、３ｎｔ上流を使用することができ、シトシンの１ｎｔ、２ｎｔ、３ｎｔ、５ｎｔ、６ｎｔ、７ｎｔ、８ｎｔ、９ｎｔ、１０ｎｔ、１１ｎｔ、１２ｎｔ、１３ｎｔ、１４ｎｔ、１５ｎｔ、１６ｎｔ、１７ｎｔ、１８ｎｔ、１９ｎｔ、２０ｎｔ、２５ｎｔ、３０ｎｔ、３５ｎｔ、および４０ｎｔ下流と組み合わせて、４ｎｔ上流を使用することができる。別の例として、シトシンの１ｎｔ、３ｎｔ、４ｎｔ、５ｎｔ、６ｎｔ、７ｎｔ、８ｎｔ、９ｎｔ、１０ｎｔ、１１ｎｔ、１２ｎｔ、１３ｎｔ、１４ｎｔ、１５ｎｔ、１６ｎｔ、１７ｎｔ、１８ｎｔ、１９ｎｔ、２０ｎｔ、２５ｎｔ、３０ｎｔ、３５ｎｔ、および４０ｎｔ上流と組み合わせて、２ｎｔ下流を使用することができ、シトシンの１ｎｔ、２ｎｔ、４ｎｔ、５ｎｔ、６ｎｔ、７ｎｔ、８ｎｔ、９ｎｔ、１０ｎｔ、１１ｎｔ、１２ｎｔ、１３ｎｔ、１４ｎｔ、１５ｎｔ、１６ｎｔ、１７ｎｔ、１８ｎｔ、１９ｎｔ、２０ｎｔ、２５ｎｔ、３０ｎｔ、３５ｎｔ、および４０ｎｔ上流と組み合わせて、３ｎｔ下流を使用することができ、シトシンの１ｎｔ、２ｎｔ、３ｎｔ、５ｎｔ、６ｎｔ、７ｎｔ、８ｎｔ、９ｎｔ、１０ｎｔ、１１ｎｔ、１２ｎｔ、１３ｎｔ、１４ｎｔ、１５ｎｔ、１６ｎｔ、１７ｎｔ、１８ｎｔ、１９ｎｔ、２０ｎｔ、２５ｎｔ、３０ｎｔ、３５ｎｔ、および４０ｎｔ上流と組み合わせて、４ｎｔ下流を使用することができる。シトシンのｎ－ｎｔ上流およびｍ－ｎｔ下流に関連するＩＰＤ、ＰＷ、鎖情報、および配列文脈を利用することによって、特定の実施形態においてメチル化状態を決定する際に、改善された精度を提供することができる。このような異なる測定ウィンドウは、５ｈｍＣ、６ｍＡ、４ｍＣ、およびｏｘｏＧなど、または本明細書に開示される任意の修飾の、他のタイプの塩基修飾分析に適用することができる。このような異なる測定ウィンドウには、グアニン四重鎖およびステム・ループ構造などのＤＮＡ二次構造分析が含まれ得る。このような例は上で説明されている。このような二次構造の情報は、マトリックスの別の列として追加することもできる。

図２２Ａおよび図２２Ｂは、少なくとも３塩基の下流塩基のみに関連する動態パターンを使用してメチル化状態を決定することが実行可能であることを示す。本開示に存在する実施形態によれば、シトシンおよびその下流の３、４、６、８、および１０塩基に関連する特徴を使用して、訓練データセットにおけるメチル化状態の決定では、ＡＵＣが、それぞれ０．９１、０．９２、０．９４、０．９４、および０．９４であり、試験データセットでは、ＡＵＣが、それぞれ０．８７、０．８８、０．９０、０．９０、および０．９０であった。

しかしながら、図２３Ａおよび図２３Ｂは、上流塩基に関連する特徴のみを使用する場合、メチル化状態を識別する能力が減少しているように見えることを示す。訓練データセットおよび試験データセットにおいて、ＡＵＣは、２～１０上流塩基についてすべて０．５０であった。

図２４および図２５は、上流および下流塩基の異なる組み合わせが、メチル化状態を決定する際に、最適な分類を達成することを可能にすることを示す。例えば、シトシンの８塩基上流および８塩基下流に関連する特徴は、このデータセットにおいて最高の性能を達成し、訓練データセットおよび試験データセットのＡＵＣは、それぞれ、０．９４および０．９１であった。

図２６は、ＣｐＧ部位でのメチル化状態の分類に関する特徴の相対的重要性を示す。括弧内の「Ｗ」と「Ｃ」は、鎖情報を示し、「Ｗ」はワトソン鎖を示し、「Ｃ」はクリック鎖を示す。配列文脈、ＩＰＤ、およびＰＷを含む各特徴の重要度は、ランダムフォレストを使用して決定された。ランダムフォレストツリー分析は、ＩＰＤおよびＰＷの特徴の重要度が、調査中のシトシンの下流でピークに達したことを示し、分類力への主な寄与が、調査中のシトシンの下流のＩＰＤおよびＰＷであることを明らかにした。

ランダムフォレストは、複数の決定木で構成された。決定木の構築中に、ジニ不純度を使用して、決定ノードのどの決定論理を用いるかを決定した。最終的な分類結果により大きな影響を与える重要な特徴は、決定木のルートにより近いノードにある可能性が高く、一方、最終的な分類結果に余り影響を与えない重要でない特徴は、ルートから離れたノードにある可能性が高い。そのため、特徴の重要度は、ランダムフォレストのすべての決定木のルートに対する平均距離を計算することによって推定することができる。

一部の実施形態では、ワトソン鎖とクリック鎖との間のＣｐＧ部位でのメチル化コール（ｍｅｔｈｙｌａｔｉｏｎｃａｌｌｓ）のコンセンサスは、特異性を改善するためにさらに使用され得る。例えば、メチル化を示す両方の鎖をメチル化状態と呼び、非メチル化を示す両方の鎖を非メチル化状態と呼ぶ必要がある。ＣｐＧ部位でのメチル化は、典型的に対称的であることが知られているため、各鎖からの確認により、特異性を改善させることができる。

様々な実施形態では、分子全体からの全体的な動態特徴は、メチル化状態の決定のために使用され得る。例えば、分子全体のメチル化は、単一分子リアルタイム配列決定中に、分子全体の動態に影響を与える。ＩＰＤ、ＰＷ、断片サイズ、鎖情報、および配列文脈を含む鋳型ＤＮＡ分子全体の配列決定動態をモデル化することにより、分子がメチル化されているかどうかに関する分類の精度を改善させることができる。一例として、測定ウィンドウは、鋳型分子全体であり得る。分子全体のメチル化を決定するために、ＩＰＤ、ＰＷ、またはその他の動態特徴の統計値（例えば、平均、中央値、モード、パーセンタイルなど）を使用することができる。

Ｂ．他の分析技術の制限
特定の配列モチーフにおける特定のＣのＩＰＤに基づくメチル化の検出は非常に低く、例えば、感度がわずか１．９％であると報告された（Ｃｌａｒｋｅｔａｌ．，２０１３）。また、本発明者らは、ＰＷメトリックを使用せずに、かつ本明細書に記載されるデータ構造ではなく、ＩＰＤのカットオフのみを使用して、異なる配列モチーフをＩＰＤと組み合わせることによって、このような分析を再現しようとした。例えば、調査されるＣｐＧに隣接する３ｎｔ上流および下流を抽出した。そのＣｐＧのＩＰＤを、そのＣｐＧを中心とした６ｎｔの隣接配列（すなわち、それぞれ上流および下流の３ｎｔ）の文脈に応じて、異なるグループ（６つの位置について４０９６グループ）に階層化した。同じ配列モチーフ内のメチル化ＣｐＧと非メチル化ＣｐＧとの間のＩＰＤは、ＲＯＣを使用して研究した。例えば、非メチル化「ＡＡＴＣＧＧＡＣ」モチーフおよびメチル化「ＡＡＴ^ｍＣＧＧＡＣ」モチーフにおけるＣｐＧのＩＰＤを比較すると、ＡＵＣが０．４８であった。したがって、特定の配列グループにおけるカットオフを使用すると、様々なものを使用する実施形態と比較して、うまく機能しなかった

図２７は、パルス幅信号を使用せずにメチル化を検出するための、上記のモチーフベースのＩＰＤ分析の性能を示す（Ｂｅｃｋｍａｎｎｅｔａｌ．ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１４）。垂直の棒グラフは、調査されるＣｐＧ部位に隣接する異なるｋ－ｍｅｒモチーフにわたる平均ＡＵＣ（すなわち、調査されるＣｐＧ部位を取り巻く塩基の数）を表している。図２７は、異なるｋ－ｍｅｒモチーフ（例えば、問題のＣｐＧ部位を取り巻く２－ｍｅｒ、３－ｍｅｒ、４－ｍｅｒ、６－ｍｅｒ、８－ｍｅｒ、１０－ｍｅｒ、１５－ｍｅｒ、２０－ｍｅｒ）にわたるメチル化シトシンと非メチル化シトシンとの間のＩＰＤベースの識別力の平均ＡＵＣが、６０％未満であることがわかったことを示す。これらの結果は、近傍のヌクレオチドのＩＰＤを考慮せずに、所与のモチーフ文脈における候補ヌクレオチドのＩＰＤを考慮することが（Ｆｌｕｓｂｅｒｇｅｔａｌ．，２０１０）、ＣｐＧメチル化の決定について本明細書に開示される方法よりも劣っていることを示唆した。

本発明者らはまた、Ｆｌｕｓｂｅｒｇらの研究（Ｆｌｕｓｂｅｒｇｅｔａｌ．，２０１０）に存在する方法を試験した。メチル化分析にかけられたシトシンの上流２ｎｔおよび下流６ｎｔの、合計５，９４８，３４８個のＤＮＡセグメントを分析した。メチル化された２，８２８，８４８セグメント、および非メチル化された３，１１９，５００セグメントがあった。図２８に示すように、ＩＰＤおよびＰＷを使用した主成分分析から推定された信号は、メチル化シトシン（ｍＣ）および非メチル化シトシン（Ｃ）を有する断片間で大きく重複していることが見出され、Ｆｌｕｓｂｅｒｇらによって説明された方法は、実際的に意味のある正確さを欠いていることを示唆している。これらの結果は、Ｆｌｕｓｂｅｒｇらの研究（Ｆｌｕｓｂｅｒｇｅｔａｌ．，２０１０）で使用されているように、塩基および近傍の塩基でＰＷ値とＩＰＤ値を線形結合した主成分分析では、５－メチルシトシンおよび非メチル化シトシンを信頼的にまたは有意義に区別できないことを示唆した。

図２９は、ＩＰＤおよびＰＷを含むＦｌｕｓｂｅｒｇらの研究（Ｆｌｕｓｂｅｒｇｅｔａｌ．，２０１０）で２つの主成分が使用された主成分分析に基づく方法のＡＵＣが（ＡＵＣ：０．５５）、ＩＰＤおよびＰＷを含む畳み込みニューラルネットワークに基づくアプローチ、ならびに本発明者らの開示に示される配列文脈に基づくアプローチ（ＡＵＣ：０．９４）よりもはるかに精度が低いことを示す。

Ｃ．他の数学／統計モデル
別の実施形態では、例えば、限定されないが、ランダムフォレストおよびロジスティック回帰を含む他の数学的／統計モデルは、上記の開発された特徴を適応することによって訓練することができる。ＣＮＮモデルに関して、訓練データセットおよび試験データセットは、ランダムフォレストを訓練するのに使用されたＭ．ＳｓｓＩ処理（メチル化）およびＰＣＲ増幅（非メチル化）を用いて、ＤＮＡから構築された（Ｂｒｅｉｍａｎ，２００１）。このランダムフォレスト分析では、６つの特徴：ＩＰＤ、ＰＷ、および塩基識別（ｂａｓｅｉｄｅｎｔｉｔｙ）をコードする４成分のバイナリベクトルを用いて、各ヌクレオチドについて説明した。このようなバイナリベクトルでは、Ａ、Ｃ、Ｇ、およびＴは、それぞれ、［１，０，０，０］、［０，１，０，０］、［０，０，１，０］、および［０，０，０，１］でコードされる。本発明者らは、分析される各ＣｐＧ部位について、両方の鎖のその１０ｎｔ上流と下流の情報を組み込んで、各特徴が１つの次元を表す２５２次元（２５２Ｄ）のベクトルを形成した。２５２Ｄベクトルを有する上に記載の訓練データセットを使用して、ランダムフォレストモデルならびにロジスティック回帰モデルを訓練した。訓練されたモデルは、独立した試験データセットのメチル化状態を予測するために使用された。ランダムフォレストは、１００本の決定木で構成された。ツリーの構築中に、ブートストラップ試料が使用された。各決定木のノードを分割する際、最適な分割を決定するためにジニ不純度を使用し、各分割で、最大１５の特徴が考慮される。また、決定木の各リーフには、少なくとも６０試料を含有する必要があった。

図３０Ａおよび図３０Ｂは、メチル化予測について、ランダムフォレストおよびロジスティック回帰を使用する方法の性能を示す。図３０Ａは、ＣＮＮ、ランダムフォレスト、およびロジスティック回帰の訓練データセットのＡＵＣ値を示す。図３０Ｂは、ＣＮＮ、ランダムフォレスト、およびロジスティック回帰の試験データセットのＡＵＣ値を示す。ランダムフォレストを使用する方法では、ＡＵＣが、訓練データセットおよび試験データセットで、それぞれ０．９３および０．８６を達成した。

同じ２５２Ｄベクトルを用いて記載された訓練データセットを使用して、ロジスティック回帰モデルを訓練した。訓練されたモデルは、独立した試験データセットのメチル化状態を予測するために使用された。Ｌ２正則化を用いたロジスティック回帰モデル（ＮｇａｎｄＹ．，２００４）が、訓練データセットに適合した。図３０Ａおよび図３０Ｂに示されるように、ロジスティック回帰を使用する方法では、訓練データセットおよび試験データセットにおいて、それぞれ、０．８７および０．８３のＡＵＣが達成される。

したがって、これらの結果は、本開示で開発された特徴および分析プロトコルを使用して、ＣＮＮ以外の特定のモデル（例えば、限定されないが、ランダムフォレストおよびロジスティック回帰）を、メチル化分析に使用することができることを示唆した。これらの結果はまた、本開示の実施形態に従って実装されたＣＮＮは、試験データセットにおいてＡＵＣが０．９０であり（図３０Ｂ）、ランダムフォレスト（ＡＵＣ：０．８６）およびロジスティック回帰（ＡＵＣ：０．８３）の両方よりも優れていることを示唆した。

Ｄ．核酸の６ｍＡ修飾の決定
メチル化ＣｐＧに加えて、本明細書に記載の方法はまた、他のＤＮＡ塩基修飾を検出することができる。例えば、６ｍＡの形態を含むメチル化アデニンを検出することができる。

１．動態特徴および配列文脈を使用した６ｍＡの検出
核酸の塩基修飾の決定のための開示された実施形態の性能および有用性を評価するために、本発明者らは、さらにＮ６－アデニンメチル化（６ｍＡ）を分析した。一実施形態では、約１ｎｇのヒトＤＮＡ（例えば、胎盤組織から抽出された）を増幅して、非メチル化アデニン（ｕＡ）、非メチル化シトシン（Ｃ）、非メチル化グアニン（Ｇ）、および非メチル化チミン（Ｔ）を用いた全ゲノム増幅を通して、１００ｎｇのＤＮＡ産物を取得した。

図３１Ａは、全ゲノム増幅によって非メチル化アデニンを有する分子を生成するための１つのアプローチの一例を示す。この図では、「ｕＡ」は非メチル化アデニンを示し、「ｍＡ」はメチル化アデニンを示す。全ゲノム増幅は、プライマーとしてエキソヌクレアーゼ耐性チオリン酸修飾ランダムヘキサマーを使用して実施され、プライマーは、ゲノム上でランダムに結合し、ポリメラーゼ（例えば、Ｐｈｉ２９ＤＮＡポリメラーゼ）がＤＮＡを増幅できるようにする（例えば、等温線形増幅）。ステージ３１０２では、二本鎖ＤＮＡが変性する。ステージ３１０６では、増幅反応は、いくつかのランダムヘキサマー（例えば、３１１０）が、変性した鋳型ＤＮＡ（すなわち、一本鎖ＤＮＡ）にアニーリングしたときに開始される。３１１４に示すように、鎖３１１８のヘキサマーを介したＤＮＡ合成が５’から３’の方向に進み、次のヘキサマーを介したＤＮＡ合成部位に到達すると、ポリメラーゼは、新しく合成されたＤＮＡ鎖（３１２２）を置換し、鎖の伸長を継続した。置換された鎖は、一本鎖ＤＮＡ鋳型になって、ランダムヘキサマーが再び結合し、新しいＤＮＡ合成を開始し得る。等温プロセスでヘキサマーのアニーリングおよび鎖置換を繰り返すと、増幅されたＤＮＡ産物が高収率で得られる。ここで説明される増幅は、多置換増幅（ＭＤＡ）の技術に該当し得る。

増幅されたＤＮＡ産物は、例えば、限定されないが、１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、５ｋｂ、１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、または他の所望のサイズ範囲のサイズを有する断片にさらに断片化された。断片化プロセスは、酵素消化、噴霧、流体力学的剪断、超音波処理などを含んでもよい。結果として、６ｍＡなどの元の塩基修飾は、非メチル化Ａ（ｕＡ）による全ゲノム増幅によってほぼ排除され得る。図３１Ａは、ＤＮＡ産物の可能な断片（３１２６、３１３０、および３１３４）を示しており、両方の鎖には、非メチル化Ａがある。ｍＡを含まないこのような全ゲノム増幅ＤＮＡ産物は、単一分子のリアルタイム配列にかけられ、ｕＡデータセットが生成された。

図３１Ｂは、全ゲノム増幅によってメチル化アデニンを有する分子を生成するための１つのアプローチの一例を示す。この図では、「ｕＡ」は非メチル化アデニンを示し、「ｍＡ」はメチル化アデニンを示す。約１ｎｇのヒトＤＮＡを増幅して、６ｍＡおよび非メチル化Ｃ、Ｇ、およびＴを用いた全ゲノム増幅を通して、１０ｎｇのＤＮＡ産物を取得した。メチル化アデニンは、一連の化学反応を通して生成され得る（ＪＤＥｎｇｅｌｅｔａｌ．ＪＢｉｏｌＣｈｅｍ．１９７８；２５３：９２７－３４）。図３１Ｂに示されるように、全ゲノム増幅は、プライマーとしてエキソヌクレアーゼ耐性チオリン酸修飾ランダムヘキサマーを使用して実施され、これは、図３１Ａと同様に、ゲノム上でランダムに結合し、ポリメラーゼ（例えば、Ｐｈｉ２９ＤＮＡポリメラーゼ）がＤＮＡを増幅できるようにする（例えば、等温線形増幅による）。エキソヌクレアーゼ耐性チオリン酸修飾ランダムヘキサマーは、プルーフリーディングＤＮＡポリメラーゼの３’→５’エキソヌクレアーゼ活性に耐性がある。したがって、増幅中、ランダムヘキサマーは分解から保護される。

いくつかのランダムなヘキサマーが変性した鋳型ＤＮＡ（すなわち、一本鎖ＤＮＡ）にアニーリングしたときに、増幅反応が開始された。ヘキサマーを介したＤＮＡ合成が５’から３’の方向に進み、次のヘキサマーを介したＤＮＡ合成部位に到達すると、ポリメラーゼは新しく合成されたＤＮＡ鎖を置換し、鎖の伸長を継続する。置換された鎖は、一本鎖ＤＮＡ鋳型になって、ランダムヘキサマーが再び結合し、新しいＤＮＡ合成を開始する。等温プロセスでヘキサマーのアニーリングおよび鎖置換を繰り返すと、増幅されたＤＮＡ産物が高収率で得られる。

増幅されたＤＮＡ産物は、長さが、例えば、限定されないが、１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、５ｋｂ、１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、または他の組み合わせにさらに断片化された。図３１Ｂに示されるように、増幅されたＤＮＡ産物は、各鎖のアデニン部位にわたって異なる形態のメチル化パターンを含むであろう。例えば、二本鎖分子の両方の鎖は、アデニン（分子Ｉ）に関してメチル化されている可能性があり、２本の鎖が全ゲノム増幅中のＤＮＡ合成に由来する場合に生成される。

別の例として、二本鎖分子の一方の鎖は、アデニン部位にわたってインターレースのメチル化パターンを含有し得る（分子ＩＩ）。インターレースのメチル化パターンは、ＤＮＡ鎖に存在するメチル化塩基および非メチル化塩基の混合物を含むものとして定義される。次の例では、ＤＮＡ鎖に存在するメチル化アデニンおよび非メチル化アデニンの混合物を含むインターレースのアデニンのメチル化パターンを使用する。このタイプの二本鎖分子（分子ＩＩ）は、非メチル化アデニンを含有する非メチル化ヘキサマーがＤＮＡ鎖に結合し、ＤＮＡ伸長を開始したために、生成される可能性がある。非メチル化アデニンを有するヘキサマーを含有するそのような増幅されたＤＮＡ産物は、配列決定されるであろう。あるいは、このタイプの二本鎖分子（分子ＩＩ）は、非メチル化アデニンを含有する元の鋳型ＤＮＡからの断片化されたＤＮＡによって開始され、それは、このような断片化されたＤＮＡがプライマーとしてＤＮＡ鎖に結合する可能性があるためである。鎖に非メチル化アデニンを有する元のＤＮＡの一部を含有するそのような増幅されたＤＮＡ産物は、配列決定されるであろう。非メチル化ヘキサマープライマーは、得られたＤＮＡ鎖のごくわずかな箇所であるため、断片の大部分には６ｍＡがなお含有されている。

別の例として、二本鎖ＤＮＡ分子の一方の鎖はアデニン部位にわたってメチル化されている可能性があるが、他方の鎖は非メチル化の可能性がある（分子ＩＩＩ）。このタイプの二本鎖分子は、メチル化アデニンを有しない元のＤＮＡ鎖が、メチル化アデニンを有する新しい鎖を生成するための鋳型ＤＮＡ分子として提供される場合に、生成される可能性がある。

両方の鎖は非メチル化の可能性がある（分子ＩＶ）。このタイプの二本鎖分子は、メチル化アデニンを有しない２本の元のＤＮＡ鎖が再度アニーリングすることによる可能性がある。

断片化プロセスには、酵素消化、噴霧、流体力学的剪断、および超音波処理などが含まれ得る。そのような全ゲノム増幅ＤＮＡ産物は、主にＡ部位に関してメチル化され得る。ｍＡを有するこのＤＮＡは、ｍＡデータセットを生成するために、単一分子リアルタイム配列決定にかけられた。

ｕＡデータセットの場合、単一分子リアルタイム配列決定を使用して、長さが中央値で９６４ｂｐの２６２，６０８分子を配列決定した。サブリード深度の中央値は、１０３倍であった。サブリードのうちの４８％は、ＢＷＡアライナを使用してヒト参照ゲノムに整列することができた（ＬｉＨｅｔａｌ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５：１７５４－６０）。一例として、ＳｅｑｕｅｌＩＩシステム（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を使用して、単一分子リアルタイム配列決定を実行することができる。断片化されたＤＮＡ分子は、ＳＭＲＴｂｅｌｌＥｘｐｒｅｓｓＴｅｍｐｌａｔｅＰｒｅｐＫｉｔ２．０（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を使用して、単一分子リアルタイム（ＳＭＲＴ）配列決定の鋳型の構築にかけられた。配列決定プライマーのアニーリングおよびポリメラーゼ結合の条件は、ＳＭＲＴＬｉｎｋｖ８．０ソフトウェア（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を使用して計算した。簡単に、配列決定プライマーｖ２を配列決定鋳型にアニーリングし、次いでＳｅｑｕｅｌＩＩＢｉｎｄｉｎｇａｎｄＩｎｔｅｒｎａｌＣｏｎｔｒｏｌＫｉｔ２．０（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を使用して、ポリメラーゼを鋳型に結合させた。配列決定は、ＳｅｑｕｅｌＩＩＳＭＲＴＣｅｌｌ８Ｍで実施した。配列決定の動画は、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を用いて、ＳｅｑｕｅｌＩＩシステムで３０時間収集した。

ｍＡデータセットの場合、単一分子のリアルタイム配列を使用して、長さが中央値で８２６ｂｐの８０４，４６９分子を配列決定した。サブリード深度の中央値は、３４倍であった。サブリードのうちの２７％は、ＢＷＡアライナを使用してヒト参照ゲノムに整列することができた（ＬｉＨｅｔａｌ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５：１７５４－６０）。

一実施形態では、限定されないが、ＩＰＤおよびＰＷを含む動態特性が、鎖特異的な様式で分析された。ワトソン鎖に由来する配列結果では、ｕＡデータセットからランダムに選択されたメチル化を含まない６４４，３１８個のＡ部位と、ｍＡデータセットからランダムに選択されたメチル化を含む７１８，５８６個のＡ部位を使用して、訓練データセットを構成した。このような訓練データセットを使用して、メチル化アデニンおよび非メチル化アデニン間を区別するための分類モデルおよび／または閾値を確立した。試験データセットは、メチル化を含まない６３９，７０２個のＡ部位とメチル化を含む７２３，３２０個のＡ部位から構成された。このような試験データセットを使用して、訓練データセットから推定されたモデル／閾値の性能を検証した。

ワトソン鎖に由来する配列結果を分析した。図３２Ａは、ｕＡデータセットおよびｍＡデータセットの訓練データセットにわたるパルス間隔（ＩＰＤ）値を示す。訓練データセットの場合、配列決定されたＡ部位全体のＩＰＤ値は、ｍＡデータセット（中央値：１．０９、範囲：０～９．５２）の方がｕＡデータセット（中央値：０．２０、範囲：０～９．５２）よりも高いことが観察された（Ｐ値＜０．０００１、マンホイットニのＵ検定）。

図３２Ｂは、ｕＡデータセットおよびｍＡデータセットの試験データセットのＩＰＤを示す。試験データセットの配列決定されたＡ部位全体のＩＰＤ値を調べたところ、ｍＡデータセットのＩＰＤ値は、ｕＡデータセットよりも高いことが観察された（中央値１．１０対０．１９、Ｐ値＜０．０００１、マンホイットニのＵ検定）。

図３２Ｃは、ＩＰＤカットオフを使用した受信者操作特性（ＲＯＣ）曲線下面積を示す。真陽性率はｙ軸にあり、偽陽性率はｘ軸にある。対応するＩＰＤ値を使用してメチル化がある場合とない場合の鋳型ＤＮＡ分子の配列Ａ塩基を区別する際の受信者操作特性曲線（ＡＵＣ）下面積は、訓練データセットと試験データセットの両方で０．８６であった。

ワトソン鎖からの結果に加えて、クリック鎖に由来する配列結果を分析した。図３３Ａは、ｕＡおよびｍＡデータセットの訓練データセット全体のＩＰＤ値を示す。訓練データセットの場合、配列決定されたＡ部位全体のＩＰＤ値は、ｍＡデータセット（中央値：１．１０、範囲０～９．５２）の方がｕＡデータセット（中央値：０．１９、範囲：０～９．５２）よりも高いことが観察された（Ｐ値＜０．０００１、マンホイットニのＵ検定）。

図３４Ｂは、ｕＡデータセットおよびｍＡデータセットの試験データセットのＩＰＤ値を示す。ｕＡデータセットと比較して、配列決定されたＡ部位全体でより高いＩＰＤ値が試験データセットのｍＡデータセットでも観察された（中央値１．１０対０．１９、Ｐ値＜０．０００１、マンホイットニのＵ検定）。

図３３Ｃは、ＲＯＣ曲線下面積を示す。真陽性率はｙ軸にあり、偽陽性率はｘ軸にある。対応するＩＰＤ値を使用してメチル化がある場合とない場合の鋳型ＤＮＡ分子の配列決定されたＡ塩基を区別する際のＲＯＣ曲線下面積（ＡＵＣ）値は、訓練データセットと試験データセットについて、それぞれ０．８６と０．８７であった。

図３４は、本発明の実施形態による、測定ウィンドウを使用したワトソン鎖の６ｍＡ決定の図を示す。このような測定ウィンドウには、ＩＰＤおよびＰＷなどの動態特徴と近くの配列文脈が含まれ得る。６ｍＡの決定は、メチル化ＣｐＧの決定と同様に行うことができる。

図３５は、本発明の実施形態による、測定ウィンドウを使用したクリック鎖の６ｍＡ決定の図を示す。このような測定ウィンドウには、ＩＰＤおよびＰＷなどの動態特徴と近くの配列文脈が含まれ得る。

一例として、調査されていた鋳型ＤＮＡの配列決定されたＡ塩基の各側からの１０塩基を使用して、測定ウィンドウを構築した。ＩＰＤ、ＰＷ、および配列文脈を含む特徴値を使用して、本明細書に開示される方法に従って畳み込みニューラルネットワーク（ＣＮＮ）を使用して、モデルを訓練した。他の実施形態では、統計モデルには、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク（例えば、長期短期記憶、ＬＳＴＭ）、ベイズ分類器、隠れマルコフモデル（ＨＭＭ）、線形判別分析（ＬＤＡ）、ｋ平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング（ＤＢＳＣＡＮ）、ランダムフォレストアルゴリズム、サポートベクトルマシン（ＳＶＭ）などを含み得るが、これらに限定されない。

図３６Ａおよび図３６Ｂは、測定ウィンドウベースのＣＮＮモデルを使用して、ｕＡデータセットとｍＡデータセットの間のワトソン鎖の配列決定されたＡ塩基についてメチル化される決定された確率を示す。図３６Ａは、ＣＮＮモデルが訓練データセットから学習されたことを示す。一例として、ＣＮＮモデルは、２つの１Ｄ畳み込み層（各々、カーネルサイズが４の６４個のフィルターとそれに続くＲｅＬＵ層（正規化線形ユニット）を有する）を利用し、その後ドロップアウト率が０．５のドロップアウト層を利用した。プールサイズが２の最大プーリング層を使用した。次に、２つの１Ｄ畳み込み層（各々がカーネルサイズ２の１２８個のフィルターとそれに続くＲｅＬＵ層）に流れ込み、さらにドロップアウト率が０．５のドロップアウト層を使用した。プールサイズが２の最大プーリング層を使用した。最後に、１０個のニューロンを含む全結合層、それに続く１個のニューロンを含む出力層を有するＲｅＬＵ層、それに続くシグモイド層により、メチル化の確率が得られた。層、フィルター、カーネルサイズの他の設定は、例えば、他のメチル化（例えば、ＣｐＧ）について本明細書に記載のように適合させることができる。ワトソン鎖の配列決定結果に関するこの訓練データセットでは、非メチル化ライブラリとメチル化ライブラリからの６４４，３１８および７１８，５８６個のＡ塩基を使用した。

ＣＮＮモデルに基づいて、ワトソン鎖関連データの場合、ｍＡデータベースからの鋳型ＤＮＡ分子の配列決定されたＡ塩基は、ｕＡに存在するそれらのＡ塩基と比較して、訓練データセットと試験データセットの両方で、メチル化の確率がはるかに高くなった（Ｐ値＜０．０００１、マンホイットニのＵ検定）。訓練データセットの場合、ｕＡデータセットのＡ部位でのメチル化の確率の中央値は０．１３（四分位範囲、ＩＱＲ：０．０９～０．１５）であったが、ｍＡデータセットの値は１．０００（ＩＱＲ：０．９９８～１．０００）であった。

図３６Ａは、試験データセットについて決定されたメチル化の確率を示す。試験データセットの場合、ｕＡデータセットのＡ部位でのメチル化の確率の中央値は０．１３（ＩＱＲ：０．１０～０．１５）であったが、ｍＡデータセットの値は１．０００（ＩＱＲ：０．９９７～１．０００）であった。図３６Ａおよび３６Ｂは、測定ウィンドウベースのＣＮＮモデルが、試験データセットにおいてメチル化を検出するように訓練され得ることを示す。

図３７は、ワトソン鎖の配列決定されたＡ塩基についての測定ウィンドウベースのＣＮＮモデルを使用した、６ｍＡを検出するためのＲＯＣ曲線である。真陽性率はｙ軸にあり、偽陽性率はｘ軸にある。この図は、ＣＮＮモデルを使用してメチル化がある場合とない場合の配列決定されたＡ部位を区別する際のＡＵＣ値が、ワトソン鎖の配列決定結果で構成される訓練データセットと試験データセットについて、それぞれ０．９４と０．９３であることを示している。ワトソン鎖のデータを使用してＡ部位のメチル化状態を決定するために本明細書の開示を使用することが実行可能であることが示唆された。決定されたメチル化の確率０．５をカットオフとして使用すると、６ｍＡの検出について９９．３％の特異度と８２．６％の感度を達成することができる。図３７は、測定ウィンドウベースのＣＮＮモデルを使用して、高い特異度と感度で６ｍＡを検出することができることを示している。モデルの精度は、ＩＰＤメトリックのみを使用する技術と比較することができる。

図３８は、ＩＰＤメトリックベースの６ｍＡ検出および測定ウィンドウベースの６ｍＡ検出の性能比較を示している。感度はｙ軸にプロットされ、特異度はｘ軸にプロットされる。図３８は、本明細書の開示による測定ウィンドウベースの６ｍＡ分類を使用した性能（ＡＵＣ：０．９４）が、ＩＰＤメトリックのみを使用した従来の方法（ＡＵＣ：０．８７）よりも優れていたことを示す（Ｐ値＜０．０００１、デロングの検定）。測定ウィンドウベースのＣＮＮモデルは、ＩＰＤメトリックベースの検出を上回った。

図３９Ａおよび３９Ｂは、測定ウィンドウベースのＣＮＮモデルを使用して、ｕＡデータセットおよびｍＡデータセット間のクリック鎖のそれらの配列決定されたＡ塩基についてメチル化される決定された確率を示す。図３９Ａは訓練データセットを示し、図３９Ｂは試験データセットを示している。両方の図は、メチル化の確率をｙ軸にプロットしている。図３９Ａおよび３９Ｂは、ＣＮＮモデルに基づいて、クリック鎖関連データについて、ｍＡデータベースからの鋳型ＤＮＡ分子の配列決定されたＡ塩基が、ｕＡデータベースに存在するそれらのＡ塩基と比較して、訓練データセットと試験データセットの両方で、メチル化の確率がはるかに高いことを示している（Ｐ値＜０．０００１、マンホイットニのＵ検定）。

図４０は、クリック鎖の配列決定されたＡ塩基に対して測定ウィンドウベースのＣＮＮモデルを使用した６ｍＡ検出の性能を示している。真陽性率はｙ軸にある。偽陽性率はｘ軸にある。図４０は、ＣＮＮモデルを使用してメチル化がある場合とない場合の配列決定されたＡ部位を区別する際のＡＵＣ値が、クリック鎖配列決定結果で構成される訓練データセットと試験データセットについて、それぞれ０．９５と０．９４であることを示している。本明細書に開示されるＣＮＮアプローチ（ＡＵＣ：０．９４）を使用した性能は、ＩＰＤメトリック（０．８７）のみを使用した性能よりも優れていることも示された（Ｐ値＜０．０００１）。この結果は、本明細書の開示を使用して、クリック鎖のデータを使用してＡ部位のメチル化状態を決定することが実行可能であることを示唆した。決定されたメチル化の確率０．５をカットオフとして使用すると、６ｍＡの検出について９９．３％の特異度と８３．０％の感度を達成することができる。図４０は、測定ウィンドウベースのＣＮＮモデルを使用して、高い特異性および感度で６ｍＡを検出できることを示す。

図４１は、ワトソン鎖とクリック鎖を含む分子のＡ塩基全体のメチル化状態の例を示している。白い点は、非メチル化アデニンを表している。黒い点は、メチル化アデニンを表している。点のある水平線は、二本鎖ＤＮＡ分子の鎖を表している。分子１は、ワトソン鎖とクリック鎖の両方が、Ａ塩基全体でメチル化されていると決定されていることを示している。分子２は、ワトソン鎖がほぼすべてメチル化されていなかったのに対して、クリック鎖がほぼすべてメチル化されていたことを示している。分子３は、ワトソン鎖とクリック鎖の両方がＡ塩基全体でほぼすべてメチル化されていると決定されたことを示している。

２．選択的データセットを使用した強化訓練
図３６Ａ、３６Ｂ、３９Ａ、および３９Ｂに示されるように、ｍＡデータセットにおける鋳型ＤＮＡ分子の配列決定されたＡ塩基にわたって、メチル化の確率の二峰分布があった。言い換えれば、ｍＡデータセットには、ｕＡ信号を有する一部の分子が存在した。これは、ｍＡデータセットにおける完全非メチル化分子とヘミメチル化分子の存在によってさらに証明された（図４１）。考えられる理由の１つは、６ｍＡを含む分子が全ゲノム増幅ステップ中にＤＮＡの増幅効率を低下させるため、ＤＮＡ鋳型にｕＡを含む分子が、全ゲノム増幅後もなお、ｍＡデータセットのかなりの箇所を占めていることである。この説明は、６ｍＡで増幅された１ｎｇのゲノムＤＮＡが１０ｎｇのＤＮＡ産物しか生成しないのに対して、非メチル化Ａで増幅された１ｎｇのゲノムＤＮＡは、同じ増幅条件下で１００ｎｇのＤＮＡ産物を生成するという事実によって裏付けられた。したがって、ｍＡデータセットの場合、アデニンが通常メチル化されていない（例えば、０．０５１％）元の鋳型ＤＮＡ分子（ＸｉａｏＣＬｅｔａｌ．Ｍｏｌ２０１８；７１：３０６－３１８）は、総アデニンの約１０％を占めるであろう。

一実施形態では、ｍＡとｕＡ間を区別するためにＣＮＮモデルを訓練しようとするとき、ｍＡデータセットで比較的高いＩＰＤ値を有するそれらのＡ塩基を選択的に使用することで、ｍＡ検出のためのモデルの訓練に対するｕＡデータの影響を低減させる。特定のカットオフ値を超えるＩＰＤ値を有するＡ塩基のみを使用することができる。カットオフ値は、パーセンタイルに対応し得る。一実施形態では、１０パーセンタイルでの値よりも大きなＩＰＤ値を有するｍＡデータセットのそれらのＡ塩基を使用するであろう。一部の実施形態では、１、５、１５、２０、３０、４０、５０、６０、７０、８０、９０または９５パーセンタイルでの値よりも大きいＩＰＤ値を有するそれらのＡを使用するであろう。パーセンタイルは、参照試料または複数の参照試料内のすべての核酸分子からのデータに基づいてもよい。

図４２は、１０パーセンタイルよりも大きいＩＰＤ値を有するｍＡデータセットのＡ塩基を選択的に使用することによる強化訓練での性能を示す。図４２は、ｙ軸に真陽性率を示し、ｘ軸に偽陽性率を示す。ＣＮＮモデルを訓練するのに、１０パーセンタイルよりも大きいＩＰＤ値を有するｍＡのデータセットにおけるＡ塩基を使用すると、ｍＡとｕＡ塩基間の区別におけるＡＵＣが０．９８に増加し、訓練前のＩＰＤ値による選択なしのデータによって訓練されたモデル（ＡＵＣ：０．９４）よりも優れていたことを、図は示している。訓練データセットを作成するのにＩＰＤ値を使用してｍＡ部位を選択すると、識別力の改善に役立つことが示唆された。

ｍＡデータセットのｕＡ塩基を有する分子の存在をさらに確認するために、本発明者らは、分子内に存在する６ｍＡが、６ｍＡを含まない分子と比較して、新しい鎖の生成時にポリメラーゼの伸長を遅くするため、より多くのサブリードを有するウェルでｍＡデータセットのｕＡのパーセンテージが増加すると仮定した。

図４３は、ｍＡデータセットの非メチル化アデニンのパーセンテージに対する各ウェルのサブリードの数のグラフを示す。ｙ軸は、ｍＡデータセットのｕＡのパーセンテージを示す。ｘ軸は、各ウェルのサブリードの数を示す。ＩＰＤ値が１０パーセンタイルを下回っていたＡ部位を除去した後、ｍＡ部位を使用することによって訓練された強化モデルを使用して、試験データセットを再分析した。ウェルあたりのサブリードの数が増加するにつれて（配列決定ウェルあたりのサブリードが１個から１０個に、ウェルあたりのサブリードが１０個から２０個に、ウェルあたりのサブリードが４０個から５０個に、ウェルあたりのサブリードが６０個から７０個に、および７０個超に、を含む）、ｕＡが徐々に増加することが観察された（すなわち、１４．６％から５５．０５％に上昇）。したがって、サブリードの数が多いウェルは、ｍＡが低くなる傾向がある。Ａのメチル化は、配列決定の反応の進行を遅らせる可能性がある。したがって、サブリードの深度が大きい配列決定ウェルは、Ａに関してメチル化されない可能性がより高くなる。この挙動は、分子に関連付けられたサブリードの数のカットオフ値を使用して、非メチル化分子を検出するために利用することができ、例えば、サブリードが７０個を超えると、大部分が非メチル化として特定され得る。

図４４は、試験データセットの二本鎖ＤＮＡ分子のワトソン鎖およびクリック鎖間のメチルアデニンのパターンを示している。Ａのメチル化は非対称であるため、２つの鎖間で挙動が異なる。ほとんどの分子はｍＡの取り込みによりメチル化され、一部に非メチル化Ａが残存する。ｙ軸はクリック鎖のメチルアデニンのレベルを示す。ｘ軸は、ワトソン鎖のメチルアデニンのレベルを示す。各点は、二本鎖分子を表す。選択されたｍＡ部位によって訓練された強化モデルを使用して、二本鎖分子は、以下のように各鎖のメチル化レベルに従って異なるグループに分類され得る。
（ａ）二本鎖ＤＮＡ分子の場合、ワトソン鎖とクリック鎖のメチルアデニンのレベルは、両方とも０．８よりも大きかった。このような二本鎖分子は、アデニン部位に関して完全メチル化分子として定義された（図４４、領域Ａ）。鎖のメチルアデニンのレベルは、その鎖の全Ａ部位の中でメチル化されていると決定されたＡ部位のパーセンテージとして定義された。
（ｂ）二本鎖ＤＮＡ分子の場合、一方の鎖のメチルアデニンのレベルは０．８を超えていたが、もう一方の鎖は０．２未満であった。このような分子は、アデニン部位に関してヘミメチル化分子として定義された（図４４、領域Ｂ１およびＢ２）。
（ｃ）二本鎖ＤＮＡ分子の場合、ワトソン鎖とクリック鎖のメチルアデニンのレベルは、両方とも０．２未満であった。このような二本鎖分子は、アデニン部位に関して完全非メチル化分子として定義された（図４４、領域Ｃ）。
（ｄ）二本鎖ＤＮＡ分子の場合、ワトソン鎖とクリック鎖のメチルアデニンのレベルは、グループａ、ｂ、ｃに属していなかった。このような二本鎖分子は、アデニン部位に関してインターレースのメチル化パターンを有する分子として定義された（図４４、領域Ｄ）。インターレースのメチル化パターンは、ＤＮＡ鎖に存在するメチル化アデニンと非メチル化アデニンの混合物として定義された。

一部の他の実施形態では、非メチル化鎖を定義するためのメチルアデニンのレベルのカットオフは、限定されないが、０．０１、０．０５、０．１、０．２、０．３、０．４、および０．５未満であり得る。メチル化鎖を定義するためのメチルアデニンのレベルのカットオフは、限定されないが、０．５、０．６、０．７、０．８、０．９、０．９５、および０．９９を超える。

図４５は、訓練データセットおよび試験データセットにおける完全非メチル化分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンのパターンを有する分子のパーセンテージを示す表である。試験データセットの分子は、アデニン部位に関して、完全非メチル化分子（７．０％）、ヘミメチル化分子（９．８％）、完全メチル化分子（７９．４％）、およびインターレースのメチルアデニンのパターンを有する分子（３．７％）に分類され得る。これらの結果は、訓練データセットに示される結果と同等であり、アデニン部位に関して、完全非メチル化分子（７．０％）、ヘミメチル化分子（１０．０％）、完全メチル化分子（７９．４％）、およびインターレースのメチルアデニンのパターンを有する分子（３．６％）が存在した。

図４６は、アデニン部位に関して、完全非メチル化分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンのパターンを有する分子の代表的な分子の例を示す。白い点は、非メチル化アデニンを表す。黒い点は、メチル化アデニンを表している。点のある水平線は、二本鎖ＤＮＡ分子の鎖を表している。

実施形態では、ＣＮＮモデルを訓練するために使用された６ｍＡ塩基の純度を高めることによって、メチル化アデニンと非メチル化アデニン間を区別する際の性能を改善することができる。この目的のために、ＤＮＡ増幅反応の持続時間を長くして、新しく生成されたＤＮＡ産物を増やすと、元のＤＮＡ鋳型から寄与された非メチル化アデニンの効果を弱めることができる。他の実施形態では、６ｍＡを用いたＤＮＡ増幅中にビオチン化塩基を組み込むことができる。新たに生成された６ｍＡを含むＤＮＡ産物を、ストレプトアビジンでコーティングした磁気ビーズを使用して、プルダウンおよび濃縮することができる。

３．６ｍＡメチル化プロファイルの使用
ＤＮＡの６ｍＡ修飾は、細菌、古細菌、原生生物、真菌のゲノムに存在する（ＤｉｄｉｅｒＷｅｔａｌ．ＮａｔＲｅｖＭｉｃｏｒｂｉｏｌ．２００９；４：１８３－１９２）。ヒトゲノムには６ｍＡが存在し、アデニン全体の０．０５１％を占めることも報告されている（ＸｉａｏＣＬｅｔａｌ．ＭｏｌＣｅｌｌ．２０１８；７１：３０６－３１８）。ヒトゲノムで６ｍＡの含有量が少ないことを考慮すると、一実施形態では、全ゲノム増幅のステップで、ｄＮＴＰミックス（Ｎは未修飾のＡ、Ｃ、Ｇ、およびＴを表す）中の６ｍＡの比率を調整することによって、訓練データセットを作成することができる。例えば、６ｍＡとｄＮＴＰの比率として、１：１０、１：１００、１：１０００、１：１００００、１：１０００００、または１：１００００００を使用することができる。別の実施形態では、アデニンＤＮＡメチルトランスフェラーゼＭ．ＥｃｏＧＩＩを使用して、６ｍＡの訓練データセットを作成することができる。

６ｍＡの量は、胃癌および肝臓癌の組織でより低く、この６ｍＡのダウンレギュレーションは、腫瘍形成の増加と相関していた（ＸｉａｏＣＬｅｔａｌ．ＭｏｌＣｅｌｌ．２０１８；７１：３０６－３１８）。一方、膠芽腫では、高レベルの６ｍＡが存在することが報告されている（Ｘｉｅｅｔａｌ．Ｃｅｌｌ．２０１８；１７５：１２２８－１２４３）。したがって、本明細書に開示されるような６ｍＡのアプローチは、癌ゲノミクスを研究するために有用であろう（ＸｉａｏＣＬｅｔａｌ．ＭｏｌＣｅｌｌ．２０１８；７１：３０６－３１８；Ｘｉｅｅｔａｌ．Ｃｅｌｌ．２０１８；１７５：１２２８－１２４３）。さらに、６ｍＡは、哺乳動物のミトコンドリアＤＮＡでより一般的かつ豊富であることがわかり、低酸素症と関連していることが示された（ＨａｏＺｅｔａｌ．ＭｏｌＣｅｌｌ．２０２０；ｄｏｉ：１０．１０１６／ｊ．ｍｏｌｃｅｌ．２０２０．０２．０１８）。したがって、本開示における６ｍＡ検出のためのアプローチは、妊娠、癌、および自己免疫疾患などの異なる臨床条件下でのミトコンドリアストレス応答を研究するために有用であろう。

ＩＶ．結果と用途
Ａ．メチル化の検出
上記の方法を使用したＣｐＧ部位でのメチル化の検出は、様々な生体試料およびゲノム領域に対して実施された。一例として、バイサルファイト配列決定を使用したメチル化の決定に対して、単一分子リアルタイム配列決定を使用した妊婦の血漿中の無細胞ＤＮＡを用いたメチル化の決定が検証された。メチル化の結果は、コピー数の決定や障害の診断を含む、異なる用途に使用することができる。以下に記載される方法は、ＣｐＧ部位に限定されず、本明細書に記載の任意の修飾にも適用され得る。

１．胎盤組織における長鎖ＤＮＡ分子のメチル化の検出
単一分子リアルタイム配列決定は、キロ塩基長のＤＮＡ分子を配列決定することができる（Ｎａｔｔｅｓｔａｄｅｔａｌ．，２０１８）。単一分子リアルタイム配列決定のロングリード情報を相乗的に利用することによって、本明細書に記載の本発明を使用したＣｐＧ部位のメチル化状態の解読により、メチル化状態のハプロタイプ情報を推測することが可能になる。ロングリードのメチル化状態ならびにそのハプロタイプ情報を推測することの実行可能性を実証するために、２８，９１３，８３８個のサブリードでカバーされた４７８，７３９個の分子を用いて、胎盤組織ＤＮＡの配列を決定した。サイズが５ｋｂ超の７つの分子があった。各々は、平均で、３つのサブリードでカバーされていた。

図４７は、サイズが６，２６５ｂｐの長鎖ＤＮＡ分子（すなわち、ハプロタイプブロック）に沿ったメチル化状態を示している。これは、ＺＭＷホール番号ｍ５４２７６＿１８０６２６＿１６２２４０／４０７６３５０３のＺＭＷにおいて配列決定され、ヒトゲノムにおけるｃｈｒ１：１１３２４６５４６－１１３２５２８１１のゲノム位置にマッピングされた。「－」は、非ＣｐＧヌクレオチドを表す。「Ｕ」は、ＣｐＧ部位の非メチル化状態を表す。「Ｍ」は、ＣｐＧ部位のメチル化状態を表す。黄色で強調表示された領域４７１０は、一般に、メチル化されていないことが知られているＣｐＧアイランド領域を示している（図４７）。そのＣｐＧアイランドのＣｐＧ部位の大部分は、非メチル化と推定された（９６％）。対照的に、ＣｐＧアイランド外のＣｐＧ部位の７５％が、非メチル化と推定された。これらの結果は、ＣｐＧアイランドの外側（例えば、ＣｐＧアイランドのショア／シェルフ）のメチル化レベルが、ＣｐＧアイランドのメチル化レベルよりも高いことを示唆している。そのＣｐＧアイランドの外側の領域でのハプロタイプ配置におけるメチル化状態と非メチル化状態の混合は、メチル化パターンの可変性を示す。このような観察は、一般的に現在の理解と一致していた（Ｚｈａｎｇｅｔａｌ．，２０１５；ＦｅｉｎｂｅｒｇａｎｄＩｒｉｚａｒｒｙ，２０１０）。したがって、この開示は、メチル化状態および非メチル化状態を含む長鎖分子に沿って異なるメチル化状態を呼び出すことを可能にし、メチル化状態のハプロタイプ情報が段階的である可能性があることを意味する。ハプロタイプ情報とは、ＤＮＡの連続したストレッチへのＣｐＧ部位のメチル化状態との関連付けを指す。

一実施形態では、本明細書では、ハプロタイプに沿ったメチル化状態を分析して、インプリント領域を検出および分析するために、このアプローチを使用することができる。インプリント領域は、親起源の様式でメチル化状態を引き起こすエピジェネティックな調節を受ける。例えば、１つの重要なインプリント領域は、ヒト染色体１１ｐ１５．５に位置し、胎児の成長の強力な調節因子であるインプリント遺伝子ＩＧＦ２、Ｈ１９、およびＣＤＫＮ１Ｃ（Ｐ５７^ｋｉｐ２）を含有する（Ｂｒｉｏｕｄｅｅｔａｌ，ＮａｔＲｅｖＥｎｄｏｃｒｉｎｏｌ．２０１８；１４：２２９－２４９）。インプリント領域の遺伝的およびエピジェネティックな異常は、疾患に関連しているであろう。ベックウィズ・ウィーデマン症候群（ＢＷＳ）は、過成長症候群であり、患者はしばしば巨舌、腹壁欠損、半側肥大、腹部臓器の肥大、および幼児期の胎児性腫瘍のリスク増加を伴う。ＢＷＳは、１１ｐ１５．５領域内の遺伝的またはエピジェネティックな欠陥に起因すると考えられている（Ｂｒｉｏｕｄｅｅｔａｌ，ＮａｔＲｅｖＥｎｄｏｃｒｉｎｏｌ．２０１８；１４：２２９－２４９）。Ｈ１９とＩＧＦ２との間に位置するＩＣＲ１（インプリント制御領域１）と呼ばれる領域は、父方のアレル上で可変的にメチル化されている。ＩＣＲ１は、ＩＧＦ２の親起源特異的発現を誘導する。したがって、ＩＣＲ１の遺伝的およびエピジェネティックな異常は、ＢＷＳを引き起こす可能性がある理由の１つであるＩＧＦ２の異常な発現につながる。したがって、インプリント領域に沿ったメチル化状態の検出は、臨床的に重要である。

本発明者らは、現在報告されているインプリント遺伝子を精選する公開データベース（ｈｔｔｐ：／／ｗｗｗ．ｇｅｎｅｉｍｐｒｉｎｔ．ｏｒｇ／）から９２個のインプリント遺伝子のデータをダウンロードした。これらのインプリント遺伝子の５ｋｂ上流および下流の領域をさらなる分析に使用した。これらの領域の中で、１６０箇所のＣｐＧアイランドが、これらのインプリント遺伝子に関連している。本発明者らは、胎盤試料から３２４，２４８個の循環コンセンサス配列を取得した。低品質の循環コンセンサス配列およびＣｐＧアイランドと重複する短い領域（例えば、関連するＣｐＧアイランドの長さの５０％未満）を除去した後、８つのインプリント遺伝子に対応する９つのＣｐＧアイランドと重複する９つの循環コンセンサス配列を取得した。

図４８は、単一分子リアルタイム配列決定によって、９つのＤＮＡ分子の配列が決定され、Ｈ１９、ＷＴ１－ＡＳ、ＷＴ１、ＤＬＫ１、ＭＥＧ３、ＡＴＰ１０Ａ、ＬＲＲＴＭ１、およびＭＡＧＩ２を含むインプリント領域と重複することを示す表である。６番目の列には、インプリント領域を含むＣｐＧアイランドと重複するＤＮＡストレッチが含有されていた。「Ｕ」は、ＣｐＧ文脈での非メチル化シトシンを表す。「Ｍ」は、ＣｐＧ文脈でのメチル化シトシンを表す。「＊」は、配列決定結果でカバーされなかったＣｐＧ部位を表す。「－」は、非ＣｐＧ部位からのヌクレオチドを表す。分子が一塩基多型（ＳＮＰ）と重複する場合、遺伝子型を括弧内に示す。７番目の列は、分子全体のメチル化状態を示している。本開示に存在する実施形態に従って、ＣｐＧ部位の大部分（例えば、５０％超）がメチル化されていることが示された場合、分子はメチル化されていると呼ばれ得る。それ以外の場合は、非メチル化されていると呼ばれる。

９つのＤＮＡ分子のうち、５つのＤＮＡ分子（５５．６％）はメチル化と呼ばれ、５０％のＤＮＡ分子がメチル化されるという予想から大きく逸脱していなかった。図４８の表の６番目の列に示されるように、ＣｐＧ部位の大部分は、協調して（すなわち、メチル化ハプロタイプとして）メチル化または非メチル化されていることが示された。一実施形態は、本開示に存在する実施形態に従って、ＣｐＧ部位の大部分（例えば、５０％超）がメチル化されていることが示された場合、分子はメチル化されていると呼ばれ得る。そうでない場合は、非メチル化されていると呼ばれる。分子がメチル化されているかどうかを決定するための他のカットオフを使用することができ、限定されないが、分析された分子におけるＣｐＧ部位の少なくとも１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、および１００％が、メチル化されているとみなされる。

別の実施形態では、少なくとも１つのＳＮＰの分析および少なくとも１つのＣｐＧ部位の分析を同時に含む分子を使用して、領域がインプリント領域に関連するかどうか、または既知のインプリント遺伝子が異常であるかどうか（例えば、インプリントの喪失）を決定することができる。例示の目的で、図４９は、インプリンティング領域由来の第１の分子がアレル「Ａ」を有し、そのインプリンティング領域由来の第２の分子がアレル「Ｇ」を有した。インプリンティング領域が父方でインプリントされたと仮定すると、母方のハプロタイプからの第１の分子は、完全非メチル化であり、父方のハプロタイプからの第２の分子は、完全メチル化であった。一実施形態では、そのような仮定は、メチル化状態のグラウンドトゥルースを提供し、本開示に存在する実施形態による塩基修飾検出の性能を試験することを可能にする。

図４９は、インプリント領域におけるメチル化パターンの決定の一例を示す。生体試料中のＤＮＡを抽出し、ヘアピンアダプターと連結して環状ＤＮＡ分子を形成した。これらの環状ＤＮＡ分子に関する配列情報および塩基修飾（例えば、ＣｐＧ部位のメチル化状態）は不明であった。それらの環状ＤＮＡ分子は、単一分子リアルタイム配列決定にかけられた。サブリードが参照ゲノムにマッピングされた後、それらの環状ＤＮＡ分子に由来する各サブリードの塩基について、ＩＰＤ、ＰＷ、および配列文脈が決定された。さらに、それらの分子の遺伝子型が決定された。ＣＧ部位に関連する測定ウィンドウのＩＰＤ、ＰＷ、および配列文脈は、各ＣｐＧのメチル化状態を決定するために、本開示に存在する実施形態による参照動態パターンと比較されるであろう。アレルが異なる２つの分子が、一方が完全非メチル化で、他方が完全メチル化であるような異なるメチル化パターンを示した場合、これら２つの分子に関連するゲノム領域はインプリント領域であろう。一実施形態では、例えば、図４９に示されるように、そのようなゲノム領域がたまたま既知のインプリント領域であった場合、これらの２つの分子のメチル化パターンは、通常の状況で予想されるメチル化パターン（すなわち、グラウンドトゥルース）と一致した。それは、本開示に存在する実施形態による、メチル化状態の分類のための方法の正確さを示唆し得る。一実施形態では、本開示に存在する実施形態による、測定されたメチル化パターンと予想されるメチル化パターンとの間の導出は、インプリンティングの異常、例えば、インプリンティングの喪失を示すであろう。

図５０は、インプリント領域におけるメチル化パターンの決定の一例を示す。一実施形態では、インプリンティングパターンは、特定の家系図にわたるその領域のメチル化パターンを分析することを通して、さらに決定することができる。例えば、父方、母方のゲノム、および子孫全体のメチル化パターンとアレル情報の分析を行うことができる。そのような家系図は、父方または母方の祖父、父方または母方の祖母のゲノムもしくは他の関連するゲノムをさらに含み得る。別の実施形態では、そのような分析は、特定の集団における家族トリオ（母親、父親および子供）データセットに拡張することができ、例えば、本明細書に存在する実施形態に従って、各個体のメチル化および遺伝子型情報を取得する。

分類後に示されているように、遺伝子型（ボックス内のアレル）とメチル化状態の両方を決定することができる。各々の分子について、分子がどの親から受け継がれているかを特定するために、各部位のメチル化パターンを提供することができる（例えば、すべてメチル化またはすべて非メチル化）。または、メチル化密度を決定することができ、１つ以上のカットオフにより、分子が高メチル化されているか（例えば、＞８０％または他の％、一方の親から）、低メチル化されているか（例えば、＜２０％または他の％、他方の親から）分類することができる。

２．ｃｆＤＮＡ分子のメチル化の検出
別の例として、無細胞ＤＮＡ（ｃｆＤＮＡ）のメチル化も、非侵襲的な出生前検査の重要な分子信号としてますます認識されている。例えば、組織特異的なメチル化を有する領域のｃｆＤＮＡ分子を使用して、妊婦の血漿中の好中球、Ｔ細胞、Ｂ細胞、肝臓、胎盤などの異なる組織からの比例的な寄与を決定できることを示した（Ｓｕｎｅｔａｌ．，２０１５）。２１番染色体トリソミーを検出するために妊婦の血漿ＤＮＡメチル化を使用することの実行可能性も実証されている（Ｌｕｎｅｔａｌ．，２０１３）。母体血漿中のｃｆＤＮＡ分子は、中央値１６６ｂｐのサイズに断片化された。これは、サイズが約５００ｂｐである人工的に断片化された大腸菌ＤＮＡよりもはるかに短いものである。ｃｆＤＮＡはランダムに断片化されていないことが報告されている。例えば、胎盤由来などの組織起源に関連する血漿ＤＮＡの末端モチーフである。無細胞ＤＮＡのこのような特徴的な特性は、人工的に断片化された大腸菌ＤＮＡとは非常に異なる配列文脈を提供する。したがって、そのようなポリメラーゼの動態が、典型的には無細胞ＤＮＡ分子のメチル化レベルを定量的に推定することを可能にするかどうかは不明のままである。この特許出願における開示は、例えば、限定されないが、上記の組織ＤＮＡ分子から訓練されたメチル化予測モデルを使用することによって、妊婦の血漿中の無細胞ＤＮＡをメチル化分析することに適用可能である。

単一分子リアルタイム配列決定を使用して、男性胎児を有する妊婦の６つの血漿ＤＮＡ試料を配列決定し、中央値が１１１，８３４個のＣＣＳ（範囲：６１，０１０～５０３，５８２個）に対応する中央値が３０，７３８，３９９個のサブリード（範囲：１，４３１，２１５～１０５，８３５，８４６個）を有した。各血漿ＤＮＡは、中央値２６２回（範囲：１７３～３２０回）配列決定された。データセットは、ＳｅｑｕｅｌＩＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０によって調製されたＤＮＡから生成された。

ｃｆＤＮＡ分子のメチル化の検出を評価するために、本発明者らは、バイサルファイト配列決定（Ｊｉａｎｇｅｔａｌ．，２０１４）を使用して、妊婦の上記の６つの血漿ＤＮＡ試料のメチル化を分析した。中央値が６６００万個のペアエンドリードを取得した（５８００万～８２００万個のペアエンドリード）。全体的なメチル化の中央値は６９．６％（６７．１％～７２．０％）であることがわかった。

図５１は、新しいアプローチと従来のバイサルファイト配列決定によって推定されたメチル化レベルの比較を示している。ｙ軸は、この特許出願に存在する実施形態に従って予測されるメチル化レベルである。ｘ軸は、バイサルファイト配列決定によって推定されたメチル化レベルである。単一分子リアルタイム配列決定から生成された血漿ＤＮＡの結果について、中央値が３１４，６７５個のＣｐＧ部位（範囲：１４４，５４６～１，３８２，５６８個）を分析した。メチル化されると予測されたＣｐＧ部位の割合の中央値は６４．７％（範囲：６０．８～６８．５％）であり、バイサルファイト配列決定から推定された結果と同等であるように見えた。図５１に示されるように、このメチル化予測アプローチによる単一分子リアルタイム配列決定によって推定された全体的なメチル化レベルと、バイサルファイト配列決定との間には、良好な相関（ｒ：０．９６、ｐ値＝０．００２３）があった。

バイサルファイト配列決定の深度が浅いため、ヒトゲノムの各ＣｐＧのメチル化レベル（すなわち、メチル化されている配列決定されたＣｐＧの割合）を推定するには頑強ではない可能性がある。代わりに、本発明者らは、任意の２つの連続するＣｐＧ部位が５０ｎｔ以内にあり、かつＣｐＧ部位の数が少なくとも１０個であるゲノム領域のＣｐＧ部位をカバーするリード信号を集約することにより、複数のＣｐＧ部位を有する一部の領域のメチル化レベルを計算した。ある領域のＣｐＧ部位全体の配列決定されたシトシンとチミンの合計に占める配列決定されたシトシンのパーセンテージは、その領域のメチル化レベルを示していた。領域は、領域のメチル化レベルに応じて、異なるグループに分けられた。以前の訓練データセット（すなわち、組織ＤＮＡ）から学習したモデルによって予測されたメチル化の確率は、メチル化レベルが増加するにつれて上昇した（図５２Ａ）。これらの結果はさらに、妊婦のｃｆＤＮＡ分子のメチル化状態を予測するために単一分子リアルタイム配列決定を使用することの実行可能性と妥当性を示唆した。図５２Ｂは、本開示に存在する実施形態による単一分子リアルタイム配列決定を使用して推定された１０Ｍｂゲノムウィンドウにおけるメチル化レベルが、バイサルファイト配列決定によるもので十分に補正されたことを示した（ｒ＝０．７４、ｐ値＜０．０００１）。

図５３は、単一分子リアルタイム配列決定によって測定された妊婦の母体血漿中のＹ染色体のゲノム表現（ＧＲ）が、ＢＳ－ｓｅｑによって測定されたものとよく相関していることを示した（ｒ＝０．９７、Ｐ値＝０．００７）。これらの結果は、単一分子リアルタイム配列決定により、胎盤などの非造血組織（一般に、寄与するＤＮＡが少数）に由来するＤＮＡ分子の正確な定量も可能になることを示唆した。言い換えれば、本開示は、配列決定の前に、塩基変換および増幅なしに、天然分子のコピー数異常およびメチル化状態を同時に分析するための実行可能性を実証した。

３．ＣｐＧブロックベースの方法
一部の実施形態は、例えば、限定されないが、２、３、４、５、１０、２０、３０、４０、５０、１００個のＣｐＧ部位などを含む複数のＣｐＧ部位を有するいくつかのゲノム領域でメチル化分析を行うことができる。このようなゲノム領域のサイズは、例えば、限定されないが、５０、１００、２００、３００、および５００ｎｔなどであり得る。この領域のＣｐＧ部位間の距離は、例えば、限定されないが、１０、２０、３０、４０、５０、１００、２００、３００ｎｔなどであり得る。一実施形態では、５０ｎｔ内の任意の２つの連続するＣｐＧ部位を重ね合わせて、このブロック内のＣｐＧ部位の数が１１個以上であるようにＣｐＧブロックを形成し得る。このようなブロックベースの方法では、複数の領域を単一のマトリックスとして表される１つのウィンドウに組み合わせて、領域を効果的に一緒に処理できる。

一例として、図５４に示すように、ＣｐＧブロックに関連するすべてのサブリードの動態を、メチル化分析に使用した。そのブロック内の各ＣｐＧに隣接する上流および下流の１０ｎｔ隣接部の予測ＩＰＤプロファイルを、ＣｐＧ部位に対して人為的に整列させて、平均ＩＰＤプロファイルを計算した（図５４）。「投影された」という言葉は、サブリードの動態信号を、問題の対応する各ＣｐＧ部位に整列されることを意味する。ＣｐＧブロックの平均ＩＰＤプロファイルは、各ブロックのメチル化状態を特定するためのモデルを訓練するために使用された（例えば、人工ニューラルネットワーク、略してＡＮＮ）。ＡＮＮ分析には、入力層、２つの隠れ層、および出力層が含まれた。各ＣｐＧブロックは、ＡＮＮに入力される２１個のＩＰＤ値の特徴ベクトルによって特徴付けられた。最初の隠れ層には、活性化関数としてＲｅＬｕを有する１０個のニューロンが含まれた。２番目の隠れ層には、活性化関数としてＲｅＬｕを有する５個のニューロンが含まれた。最後に、出力層には、メチル化の確率を出力する活性化関数としてシグモイドを有する１つのニューロンが含まれた。メチル化の確率が０．５を超えるＣｐＧ部位は、メチル化とみなされ、それ以外の場合は、非メチル化とみなされた。平均ＩＰＤプロファイルは、分子全体のメチル化状態を分析するために使用することができる。閾値を超える特定の数の部位（例えば、０、１、２、３など）がメチル化されている場合、または分子が特定のメチル化密度を有する場合、分子全体がメチル化されているとみなされ得る。

非メチル化ライブラリおよびメチル化ライブラリには９，６７８個および９，０２０個のＣｐＧブロックがあり、各々に少なくとも１０個のＣｐＧ部位が含まれた。これらのＣｐＧブロックは、非メチル化ライブラリおよびメチル化ライブラリの１７６，０４８個および１６２，９４３個のＣｐＧ部位をカバーした。図５５Ａおよび図５５Ｂに示すように、訓練データセットと試験データセットの両方でメチル化状態を予測する際に、９０％を超える全体的な精度を達成することができた。しかしながら、ＣｐＧブロックに依存するそのような実施形態は、評価することができるＣｐＧの数を大幅に減らすであろう。定義上、最小数のＣｐＧ部位の要件は、メチル化分析を特定のゲノム領域に制限する（例えば、ＣｐＧアイランドの分析）。

Ｂ．起源または障害の決定
メチル化プロファイルは、組織の起源を検出したり、障害の分類を決定したりするために使用することができる。メチル化プロファイル分析は、イメージング、従来の血液パネル、およびその他の医療診断情報を含む他の臨床データと組み合わせて使用することができる。メチル化プロファイルは、本明細書に記載の任意の方法を使用して決定することができる。

１．コピー数異常の決定
このセクションでは、ＳＭＲＴがコピー数を決定するのに正確であり、したがって、メチル化プロファイルおよびコピー数プロファイルを、同時に分析できることを示す。

コピー数の異常は、腫瘍組織の配列決定によって明らかになることが示されている（Ｃｈａｎ（２０１３））。ここで、本発明者らは、癌に関連するコピー数異常が、単一分子リアルタイム配列決定を使用した腫瘍組織の配列決定によって特定できることを示す。例えば、ケースＴＢＲ３０３３の場合、腫瘍ＤＮＡおよびそのペアの隣接する非腫瘍肝組織ＤＮＡについて、それぞれ５８９，４３５個および１，４９５，２２５個のコンセンサス配列（各コンセンサス配列の構築に使用されるサブリードの最小要件は５個）を取得した。データセットは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０によって調製されたＤＮＡから生成された。一実施形態では、ゲノムを、インシリコで、２Ｍｂウィンドウに分割した。各ウィンドウにマッピングされているコンセンサス配列のパーセンテージを計算し、２Ｍｂの解像度でゲノム表現（ＧＲ）が得られた。ＧＲは、ある位置でのリードの数によって決定でき、ゲノム全体の全配列リードによって正規化された。

図５６Ａは、単一分子リアルタイム配列決定を使用した、腫瘍ＤＮＡとそのペアの隣接する非腫瘍組織ＤＮＡとの間のＧＲの比率を示す。腫瘍ＤＮＡおよびそのペアの隣接する正常組織ＤＮＡのコピー数の比率をｙ軸に示し、染色体１～２２を含む各２Ｍｂウィンドウのゲノムビン指数をｘ軸に示す。この図では、すべての２Ｍｂウィンドウの５パーセンタイル未満のＧＲの比率を有する領域で、コピー数の減少があると分類されたのに対して、すべての２Ｍｂウィンドウの９５パーセンタイル超のＧＲの比率を有する領域では、コピー数の増加があると分類された。１３番染色体ではコピー数の減少が見られ、一方、２０番染色体ではコピー数の増加が見られた。このような増加と減少は、正しい結果である。

図５６Ｂは、バイサルファイト配列決定を使用した、腫瘍とそのペアの隣接する非腫瘍組織との間のＧＲの比率を示す。腫瘍ＤＮＡおよびそのペアの隣接する正常組織ＤＮＡのコピー数の比率をｙ軸に示し、染色体１～２２を含む各２Ｍｂウィンドウのゲノムビン指数をｘ軸に示す。図５６Ａの単一分子リアルタイム配列決定によって特定されたコピー数の変化は、図５６Ｂの一致したバイサルファイト配列決定の結果で検証された。

ケースＴＢＲ３０３２の場合、腫瘍ＤＮＡおよびそのペアの隣接する非腫瘍組織ＤＮＡについて、それぞれ４１３，９８２個および２，３９６，０５４個のコンセンサス配列（各コンセンサス配列の構築に使用されるサブリードの最小要件は５個）を取得した。一実施形態では、ゲノムを、インシリコで、２Ｍｂウィンドウに分割した。各ウィンドウにマッピングされているコンセンサス配列のパーセンテージ、つまり、２Ｍｂゲノム表現（ＧＲ）、を計算した。

図５７Ａは、単一分子リアルタイム配列決定を使用した、腫瘍ＤＮＡとそのペアの隣接する非腫瘍組織ＤＮＡとの間のＧＲの比率を示す。腫瘍ＤＮＡおよびそのペアの隣接する正常組織ＤＮＡのコピー数の比率をｙ軸に示し、染色体１～２２を含む各２Ｍｂウィンドウのゲノムビン指数をｘ軸に示す。この図では、すべての２Ｍｂウィンドウの５パーセンタイル未満のＧＲの比率を有する領域で、コピー数の減少があると分類されたのに対して、すべての２Ｍｂウィンドウの９５パーセンタイル超のＧＲの比率を有する領域では、コピー数の増加があると分類された。４番染色体、６番染色体、１１番染色体、１３番染色体、１６番染色体、および１７番染色体にはコピー数の減少がみられ、５番染色体および７番染色体にはコピー数の増加が見られた。

図５７Ｂは、バイサルファイト配列決定を使用した、腫瘍とそのペアの隣接する非腫瘍組織との間のＧＲの比率を示す。腫瘍ＤＮＡおよびそのペアの隣接する正常組織ＤＮＡのコピー数の比率をｙ軸に示し、染色体１～２２を含む各２Ｍｂウィンドウのゲノムビン指数をｘ軸に示す。図５７Ａの単一分子リアルタイム配列決定によって特定されたコピー数の変化は、図５７Ｂの一致したバイサルファイト配列決定の結果で検証された。

したがって、メチル化プロファイルおよびコピー数プロファイルを同時に分析することができる。この実施例では、腫瘍組織の腫瘍純度が、一般に、いつも１００％であるとは限らないため、増幅された領域は、腫瘍ＤＮＡの寄与を比較的増加させ、欠損した領域は、腫瘍ＤＮＡの寄与を比較的減少させる。腫瘍ゲノムは全体的な低メチル化を特徴としているため、増幅された領域は、欠損した領域と比較して、メチル化レベルをさらに低下させる。実例として、ケースＴＢＲ３０３３の場合、本発明を使用して測定された２２番染色体のメチル化レベル（コピー数の増加）は４８．２％であり、３番染色体（コピー数の減少）のメチル化レベル（メチル化レベル：５４．０％）よりも低かった。ケースＴＢＲ３０３２の場合、本発明を使用して測定した染色体５ｐアームのメチル化レベル（コピー数の増加）は４６．５％であり、染色体５ｑアームのメチル化レベル（コピー数の減少）（メチル化レベル：５４．９％）よりも低かった。

２．妊婦の血漿ＤＮＡ組織マッピング
図５８に示されるように、メチル化分析の精度により、妊婦の血漿ＤＮＡメチル化プロファイルを、異なる参照組織（例えば、肝臓、好中球、リンパ球、胎盤、Ｔ細胞、Ｂ細胞、心臓、脳など）のメチル化プロファイルと比較できると考えた。したがって、異なる細胞型からの妊婦の血漿ＤＮＡプールにおけるＤＮＡの寄与は、以下の手順を使用して推定することができる。本開示に存在する実施形態に従って決定されたＤＮＡ混合物（例えば、血漿ＤＮＡ）のＣｐＧメチル化レベルを、ベクター（Ｘ）に記録し、異なる組織にわたって検索された参照メチル化レベルを、定量（限定されないが、バイサルファイト配列決定）することができるマトリックス（Ｍ）に記録した。異なる組織からＤＮＡ混合物への比例的な寄与（ｐｒｏｐｏｒｔｉｏｎａｌｃｏｎｔｒｉｂｕｔｉｏｎ、ｐ）は、限定されないが、二次計画法によって解くことができる。ここでは、数学的な方程式を使用してＤＮＡ混合物への異なる臓器の比例的な寄与の推定を説明する。ＤＮＡ混合物中の異なる部位のメチル化密度と、異なる組織中の対応する部位のメチル化密度との間の数学的関係を以下のように表すことができる。

式中、

は、ＤＮＡ混合物中のＣｐＧ部位ｉのメチル化密度を表し、ｐ_ｋは、ＤＮＡ混合物に対する細胞型ｋの比例的な寄与を表し、Ｍ_ｉｋは、細胞型ｋのＣｐＧ部位ｉのメチル化密度を表す。部位の数が臓器の数と同じかそれより多い場合、個々のｐ_ｋ値を決定することができる。有益性を改善するため、ＣｐＧ部位で、すべての参照組織型にわたってメチル化レベルが小さな変動を示すものを除外した。一実施形態では、特定のＣｐＧ部位のセットを使用して、分析を実施した。例えば、様々な組織にわたるメチル化レベルの変動係数（ＣＶ）が３０％を超えていること、および組織間の最大メチル化レベルと最小メチル化レベルとの間の差が２５％を超えていることによって、それらのＣｐＧ部位を特徴付けた。一部の他の実施形態では、５％、１０％、２０％、３０％、４０％、５０％、６０％、８０％、９０％、１００％、１１０％、２００％、３００％などのＣＶも使用することができ、５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、１００％などを超える組織間の最大メチル化レベルと最小メチル化レベルとの間の差を使用することができる。

追加の基準を、精度を改善するためのアルゴリズムに含めることができる。例えば、すべての細胞型の集約された寄与が１００％になるように制約され得る。すなわち、
Σ_ｋｐ_ｋ＝１００％
さらに、すべての臓器の寄与は、非負値である必要がある。
Ｐ_ｋ≧０、∀ｋ

生物学的変化により、観察された全体的なメチル化パターンは、組織のメチル化から推定されたメチル化パターンと完全に同一でなくてもよい。そのような状況では、個々の組織の最も可能性の高い比例的な寄与を決定するために数学的な分析が必要とされる。これに関して、ＤＮＡにおいて観察されたメチル化パターンと組織から推定されたメチル化パターンとの間の差は、Ｗで示される。

各ｐ_ｋの最もありそうな値は、観察されたメチル化パターンと推定されたメチル化パターンとの間の差であるＷを最小化することによって決定することができる。この方程式は、数学的アルゴリズムを使用して解くことができ、例えば、限定されないが、二次計画法、線形／非線形回帰、期待値最大化（ＥＭ）アルゴリズム、最尤推定アルゴリズム、最大事後確率推定、および最小二乗法を使用することができる。

図５９に示すように、図５８に示す血漿ＤＮＡ組織マッピングの方法を使用して、男性の胎児を有する妊婦の母体血漿への胎盤ＤＮＡの寄与が、Ｙ染色体リードにより推定された胎児ＤＮＡ画分とよく相関していることが観察された。この結果は、妊婦の血漿ＤＮＡの起源の組織を追跡するために動態を使用する実行可能性を示唆した。

３．領域のメチル化レベルの定量
このセクションでは、選択したゲノム領域のメチル化の代表的なレベルを決定するための技術について説明する。これは、比較的低レベルの配列決定を使用して実行され得る。メチル化レベルは、メチル化部位の数とメチル化部位の総数とを使用して、鎖ごと、分子ごと、または領域ごとに決定され得る。様々な組織のメチル化レベルも分析される。

１１個のヒト組織ＤＮＡ試料を、試料あたり中央値が３，０７０万個のサブリード（範囲：９．１～８，８６０万個）に配列決定し、ヒト参照ゲノム（ｈｇ１９）に整列され得る。各試料のサブリードは、中央値が３８０万個のＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳｉｎｇｌｅＭｏｌｅｃｕｌａｒＲｅａｌ－Ｔｉｍｅ（ＳＭＲＴ）配列決定ウェル（範囲：１１０～１１５０万個）から生成され、各ウェルには、ヒト参照ゲノムに整列し得るサブリードが、少なくとも１つ含有された。平均して、ＳＭＲＴウェル内の各分子は、平均９．９回配列決定された（範囲：６．５～１３．４回）。ヒト組織のＤＮＡ試料には、妊娠中の対象の母体バフィーコート試料が１つ、胎盤試料が１つ、肝細胞癌（ＨＣＣ）腫瘍組織が２つ、前述の２つのＨＣＣ組織とペアの隣接する非腫瘍組織が２つ、健康な対照の対象のバフィーコート試料が４つ（Ｍ１およびＭ２は男性対象から、Ｆ１およびＦ２は女性対象から）、ＨＣＣ細胞株（ＨｅｐＧ２）が１つ、含まれていた。配列決定データの要約の詳細を、図６０に示す。

図６０は、最初の列に異なる組織グループを示し、２番目の列に試料名を示している。「総サブリード」は、ワトソン鎖およびクリック鎖からのものを含む、ＳＭＲＴウェルから生成された配列の総数を示す。「マッピングされたサブリード」は、ヒト参照ゲノムに整列することができたサブリードの数を列挙する。「サブリードマッピング可能性」とは、ヒト参照ゲノムに整列できたサブリードの割合を指す。「ＳＭＲＴウェルあたりの平均サブリード深度」は、各ＳＭＲＴウェルから生成されたサブリードの平均数を示す。「ＳＭＲＴウェルの数」とは、検出可能なサブリードを生成したＳＭＲＴウェルの数を指す。「マッピング可能なウェル」は、少なくとも１つの整列可能なサブリードを含有するウェルの数を示す。「マッピング可能なウェルの比率（％）」は、少なくとも１つの整列可能なサブリードを含有するウェルのパーセンテージである。

ａ）メチル化レベルおよびパターン分析技術
一実施形態では、単一の核酸鎖（例えば、ＤＮＡまたはＲＮＡ）のメチル化密度を測定することができ、鎖内のメチル化塩基の数をその鎖内のメチル化可能な塩基の総数で割ったものとして定義される。この測定値は、「一本鎖メチル化レベル」とも呼ばれる。単一分子リアルタイム配列決定プラットフォームは、二本鎖ＤＮＡ分子の２本の鎖の各々から配列決定情報を取得できるので、この一本鎖測定は、本開示の文脈において特に実行可能である。これは、配列決定ライブラリを調製する際にヘアピンアダプターを使用することで容易になり、二本鎖ＤＮＡ分子のワトソン鎖およびクリック鎖が環状の形態で結合されて、一緒に配列決定されるようになる。実際、この構造により、同じ二本鎖ＤＮＡ分子のパートナーとなるワトソン鎖とクリック鎖を、同じ反応で配列決定することができるため、任意の二本鎖ＤＮＡ分子のワトソン鎖とクリック鎖の対応する相補部位のメチル化状態を、個別に決定し、直接比較することができる（例えば、図２０Ａおよび２０Ｂ）。

これらの鎖ベースのメチル化分析は、他の技術では容易に達成することができなかった。この出願に開示されている直接的なメチル化分析法を使用しなければ、例えば、バイサルファイト変換によってメチル化塩基を非メチル化塩基から区別するために、別の手段を適用する必要がある。バイサルファイト変換では、メチル化シトシンと非メチル化シトシンをそれぞれシトシンとチミンとして区別できるように、ＤＮＡを亜硫酸水素ナトリウムで処理する必要がある。多くのバイサルファイト変換プロトコルの変性条件下では、二本鎖ＤＮＡ分子の２本の鎖が互いに解離する。多くの配列決定の用途では、例えば、Ｉｌｌｕｍｉｎａプラットフォームを使用して、バイサルファイトで変換されたＤＮＡが、次いでポリメラーゼ連鎖反応（ＰＣＲ）によって増幅され、二本鎖ＤＮＡの一本鎖への解離を伴う。

イルミナ配列決定では、バイサルファイト変換の前に、メチル化アダプターを使用して、ＰＣＲを使わずに配列決定ライブラリを調製することができる。この戦略を使用しても、二本鎖ＤＮＡ分子の各ＤＮＡ鎖は、フローセルでのブリッジ増幅のためにランダムに選択される。配列決定のランダムな性質により、同じＤＮＡ分子由来の各鎖が同じ反応で配列決定される可能性はほとんどない。同じ遺伝子座から読み取られた２つ以上の配列が同じ実行で分析されたとしても、２つのリードが１つの二本鎖ＤＮＡ分子のパートナーのワトソン鎖とクリック鎖の各々からのものか、または２つの異なる二本鎖ＤＮＡ分子からのものかを決定する簡単な手段はない。本発明の特定の実施形態では、二本鎖ＤＮＡ分子の２本の鎖が異なるメチル化パターンを示す可能性があるため、このような考慮が重要である。複数の核酸鎖（例えば、ＤＮＡまたはＲＮＡ）の一本鎖メチル化密度が測定される場合、図６１の「目的のゲノム領域のメチル化レベル」に関する概念および式に基づいて「多鎖メチル化レベル」を決定することもできる。

図６１は、メチル化パターンを分析する様々な方法を示している。配列およびメチル化情報が未知の二本鎖ＤＮＡ分子（Ｘ）は、アダプターと連結され、一例では、ヘアピン・ループ構造を形成する。その結果、この例では、ワトソン鎖Ｘ（ａ）とクリック鎖Ｘ（ｂ）の両方を含む、ＤＮＡ分子の２つの一本鎖が、環状に物理的に結合される。ワトソン鎖とクリック鎖の両方の部位のメチル化状態は、本開示に記載の方法を使用して取得することができる（例えば、動態、電子、電磁気、光信号、またはシーケンサーからの他の種類の物理的信号を使用する）。環状化ＤＮＡ分子のワトソン鎖およびクリック鎖は、同じ反応で調べることができる。配列決定後、アダプター配列は除かれる。

分析から、異なるメチル化レベルが決定され得る。図６１の（Ｉ）では、Ｘ（ａ）またはＸ（ｂ）のいずれかなど、一本鎖分子のみのメチル化パターンを分析することができる。この分析は、一本鎖メチル化パターン分析と呼ぶことができる。分析には、限定されないが、部位のメチル化状態またはメチル化パターンの決定が含まれ得る。図６１では、一本鎖分子Ｘ（ａ）は、メチル化パターン５’－ＵＭＭＵＵ－３’を示し、「Ｕ」は、非メチル化部位を示し、「Ｍ」は、メチル化部位を示し、一方、その相補的な一本鎖分子Ｘ（ｂ）は、はメチル化パターン３’－ＵＭＵＵＵ－５’を示す。したがって、Ｘ（ｂ）は、Ｘ（ａ）とは異なるメチル化パターンを有する。Ｘ（ａ）およびＸ（ｂ）の対応する一本鎖メチル化レベルは、それぞれ４０％および２０％である。

対照的に、（ＩＩ）に示すように、単一の二本鎖ＤＮＡ分子レベルでメチル化パターンを分析することができる（すなわち、ワトソン鎖およびクリック鎖の両方のメチル化パターンを考慮する）。この分析は、単一分子二本鎖ＤＮＡのメチル化パターン分析と呼ぶことができる。この例示的な分子Ｘの単一分子二本鎖ＤＮＡのメチル化レベルは、３０％である。この分析の１つのバリアントである、ワトソン鎖とクリック鎖の両方からの動態信号を組み合わせて、修飾を分析する。特に、ＣｐＧ部位のメチル化は、一般に対称的であるため、部位のメチル化状態を決定する前に、ワトソン鎖およびクリック鎖からの動態信号を、部位について組み合わせることができる。状況によっては、分子のワトソン鎖およびクリック鎖からの組み合わされた動態信号を使用して塩基修飾を決定する性能は、一本鎖の動態信号を独立して使用する性能よりも優れている。例えば、図２０Ｂに示されるように、ワトソン鎖およびクリック鎖を含む両方の鎖からの動態信号を組み合わせて使用することで、一本鎖を独立して使用するのと比較して（ＡＵＣ：０．８５）、試験データセットにおいてより大きなＡＵＣ（０．９０）を与える。

図６１の（ＩＩＩ）では、目的のゲノム領域のメチル化レベルが決定され、異なる分子サイズおよび異なる数のメチル化可能部位（例えば、ＣｐＧ部位）を有する異なるＤＮＡ分子が、目的のゲノム領域に寄与し得る。この分析は、多鎖メチル化レベル分析と呼ばれることがある。「多鎖」という用語は、複数の一本鎖ＤＮＡ分子、または複数の二本鎖ＤＮＡ分子、またはそれらの任意の組み合わせを指し得る。この例では、目的のゲノム領域をカバーする３つの二本鎖ＤＮＡ分子：分子「Ｘ」、分子「Ｙ」、および分子「Ｚ」があり、各々は、「ａ」鎖および「ｂ」鎖を有する。この領域の対応するメチル化レベルは、９／２８、すなわち、３２％である。分析されるゲノム領域のサイズは、１ｎｔ、１０ｎｔ、２０ｎｔ、３０ｎｔ、４０ｎｔ、５０ｎｔ、１００ｎｔ、１ｋｎｔ（キロヌクレオチド、すなわち、１０００ヌクレオチド）、２ｋｎｔ、３ｋｎｔ、４ｋｎｔ、５ｋｎｔ、１０ｋｎｔ、２０ｋｎｔ、３０ｋｎｔ、４０ｋｎｔ、５０ｋｎｔ、１００ｋｎｔ、２００ｋｎｔ、３００ｋｎｔ、４００ｋｎｔ、５００ｋｎｔ、１Ｍｎｔ（メガヌクレオチド、すなわち、１００万ヌクレオチド）、２Ｍｎｔ、３Ｍｎｔ、４Ｍｎｔ、５Ｍｎｔ、１０Ｍｎｔ、２０Ｍｎｔ、３０Ｍｎｔ、４０Ｍｎｔ、５０Ｍｎｔ、１００Ｍｎｔ、または２００Ｍｎｔのサイズを有し得る。ゲノム領域は、染色体アームまたは全ゲノムであり得る。

メチル化パターンは、分子内の部位のメチル化状態を決定した後に決定することもできる。例えば、単一の二本鎖ＤＮＡ分子上に３つの連続したＣｐＧ部位があるシナリオでは、ワトソン鎖とクリック鎖の各々のメチル化パターンは、３つの部位について、メチル化（Ｍ）、非メチル化（Ｎ）、およびメチル化（Ｍ）が明らかにされ得る。このパターン、例えば、ワトソン鎖についてＭＮＭは、この領域のワトソン鎖の「メチル化ハプロタイプ」と呼ぶことができる。ＤＮＡのメチル化維持活性が存在するため、二本鎖ＤＮＡ分子のワトソン鎖およびクリック鎖のメチル化パターンは、互いに相補的であり得る。例えば、ワトソン鎖のＣｐＧ部位がメチル化されている場合、クリック鎖の相補的なＣｐＧ部位もメチル化されている可能性がある。同様に、ワトソン鎖の非メチル化ＣｐＧ部位は、クリック鎖の非メチル化ＣｐＧ部位と相補的である可能性がある。

一実施形態では、単一のＤＮＡ分子のメチル化レベルを測定することができ、これは、分子内のメチル化された塩基またはヌクレオチドの数を、その分子内のメチル化可能な塩基またはヌクレオチドの総数で割ったものとして定義される。この測定値は、「単一分子メチル化レベル」とも呼ばれる。この単一分子測定は、単一分子リアルタイム配列決定プラットフォームで可能なロングリードの鎖長のために、本開示の文脈において特に有用であり得る。複数のＤＮＡ分子の単一分子のメチル化レベルを測定する場合、図６１の概念および式に基づいて、「複数分子のメチル化レベル」を決定することもできる。例えば、「複数分子のメチル化レベル」は、単一分子のメチル化レベルの平均または中央値であり得る。

一部の実施形態では、１つ以上の遺伝的多型（例えば、一塩基多型（ＳＮＰ））を、分子上の部位のメチル化状態とともにＤＮＡ分子に対して分析することができ、したがって、その分子の遺伝的およびエピジェネティックな情報の両方が明らかになる。このような分析により、分析されたＤＮＡ分子の「段階的メチル化ハプロタイプ」が明らかになる。段階的メチル化ハプロタイプ分析は、例えば、母体血漿中のゲノムインプリンティングおよび無細胞核酸（母体および胎児の遺伝的およびエピジェネティックな特性を有する無細胞ＤＮＡ分子の混合物を含有する）の研究に有用である。

ｂ）メチル化結果の比較
図６０の表の組織の全ゲノムレベルでのメチル化密度は、本開示に記載されるように、バイサルファイト配列決定および単一分子リアルタイム配列決定を使用して決定される。図６２Ａは、ｙ軸にバイサルファイト配列決定によって定量されたメチル化密度を示し、ｘ軸に組織型を示す。図６２Ｂは、本開示に記載されている単一分子リアルタイム配列決定により定量したメチル化密度をｙ軸に示し、組織型をｘ軸に示す。

図６２Ａは、バイサルファイト配列決定を使用した異なる組織にわたるメチル化密度を示し（すなわち、試料はバイサルファイト変換され、次いでイルミナ配列決定にかけられた）（Ｌｉｓｔｅｒｅｔａｌ．Ｎａｔｕｒｅ．２００９；４６２：３１５－３２２）、ＨｅｐＧ２、ＨＣＣ腫瘍組織、一致するＨＣＣ腫瘍に隣接した正常な肝臓組織（すなわち、隣接する正常組織）、胎盤組織、およびバフィーコート試料を含んだ。ＨｅｐＧ２は、メチル化レベルが４０．４％であり、最低のメチル化レベルを示した。バフィーコート試料は、メチル化レベルが７６．５％であり、最高のメチル化レベルを示した。ＨＣＣ腫瘍組織の平均メチル化密度（５１．２％）は、一致する隣接する正常組織の平均メチル化密度（７１．０％）よりも低いことがわかった。これは、ＨＣＣの腫瘍が、隣接する正常組織と比較して、ゲノム全体のレベルで低メチル化されているという予想と一致している（Ｒｏｓｓｅｔａｌ．Ｅｐｉｇｅｎｏｍｉｃｓ．２０１０；２：２４５－６９）。データセットは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０によって調製されたＤＮＡから生成された。

同じ組織の一部を、単一分子リアルタイム配列決定、および本開示による方法を使用してメチル化分析にかけた。結果を図６２Ｂに示す。本開示の単一分子リアルタイム配列決定法を使用するメチル化分析から、ＨｅｐＧ２細胞株が最も低メチル化され、続いて分析されたＨＣＣ腫瘍組織、さらに続いて胎盤組織が低メチル化されていることを示すことができた。隣接する非腫瘍性肝臓組織試料は、ＨＣＣおよび胎盤組織を含む他の組織よりもメチル化されており、バフィーコートで最も高メチル化されていた。

図６３Ａ、６３Ｂ、および６３Ｃは、本明細書に記載の方法による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって定量された全体的なメチル化レベルの相関を示す。図６３Ａは、ｘ軸に、バイサルファイト配列決定によって定量されたメチル化レベル、およびｙ軸に、本明細書に記載の方法を使用した単一分子リアルタイム配列決定によって定量されたメチル化レベルを示す。黒の実線は、近似した回帰直線である。破線は、２つの測定値が等しい箇所である。

バイサルファイト配列決定と本明細書に開示された本発明による単一分子リアルタイム配列決定との間のメチル化レベルには、非常に高い相関があった（ｒ＝０．９９、Ｐ値＜０．０００１）。これらのデータは、本明細書に開示される単一分子リアルタイム配列決定法を使用するメチル化分析が、組織間のメチル化レベルを決定するために効果的な手段であり、これらの組織間のメチル化状態とメチル化プロファイルとの比較を可能にしたことを示した。メチル化レベルの２つの測定値について、図６３Ａの回帰直線の傾きが１からずれていることに注目した。これらの結果は、２つの測定値間に偏差があり（一部の文脈では、この偏差はバイアスと呼ばれることがある）、従来の超並列バイサルファイト配列決定と比較して、本開示による単一分子リアルタイム配列決定を使用したメチル化レベルの決定に存在する可能性があることを示唆した。

一実施形態では、線形またはＬＯＥＳＳ（局所的に重み付けされた平滑化）回帰を使用して、バイアスを定量することができる。一例として、超並列バイサルファイト配列決定（イルミナ）を参照とみなした場合、本開示に従って単一分子リアルタイム配列決定で決定された結果は、回帰係数を使用して変換することができ、異なるプラットフォーム間で読み出しを調整することができる。図６３Ａでは、線形回帰式はＹ＝ａＸ＋ｂであり、式中、「Ｙ」は、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを表した、「Ｘ」は、バイサルファイト配列決定によって決定されたメチル化レベルを表し、「ａ」は、回帰直線の傾きを表し（例えば、ａ＝０．６２）、「ｂ」は、ｙ軸の切片を表した（例えば、ｂ＝１７．７２）。この場合、単一分子リアルタイム配列決定によって決定される調整済みメチル化値は、（Ｙ－ｂ）／ａによって計算される。別の実施形態では、２つの測定値の偏差（ΔＭ）と２つの測定値の対応する平均

との間の関係を使用することができ、以下の式（１）および（２）によって定義された。

式中、「Ｓ」は、本発明による単一分子リアルタイム配列決定によって決定されるメチル化レベルを表し、「バイサルファイトベースのメチル化」は、バイサルファイト配列決定によって決定されるメチル化レベルを表す。

図６３Ｂは、ΔＭと

との間の関係を示す。２つの測定値の平均

は、ｘ軸にプロットされ、２つの測定値間の偏差（ΔＭ）は、ｙ軸にプロットされる。破線は、水平にゼロを横切る線を表し、データポイントは、２つの測定値間に差がないことを示唆している。これらの結果は、平均値に応じて偏差が異なることを示唆した。２つの測定値の平均が高いほど、偏差の大きさが大きくなる。ΔＭ値の中央値は－８．５％（範囲：－１２．６％～＋２．５％）であり、方法間に不一致が存在することを示唆している。

図６３Ｃは、２つの測定値の平均

をｘ軸に、相対偏差（ＲＤ）をｙ軸に示す。相対偏差は、以下の式によって定義される。

破線は、水平にゼロを横切る線を表し、データポイントは、２つの測定値間に差がないことを示唆している。これらの結果は、相対偏差が平均値に応じて異なることを示唆した。２つの測定値の平均が大きいほど、相対偏差の大きさが大きくなる。ＲＤ値の中央値は、－１２．５％であった（範囲：－１８．１％～＋６．０％）。

従来の全ゲノムバイサルファイト配列決定（Ｉｌｌｕｍｉｎａ）は、特定のゲノム領域では、方法間でメチル化レベルの定量にかなりの変動があり、著しくバイアスのある配列出力と過大評価された全体的なメチル化を導入することが報告された（Ｏｌｏｖａｅｔａｌ．ＧｅｎｏｍｅＢｉｏｌ．２０１８；１９：３３）。本明細書に開示される方法は、ＤＮＡを劇的に分解するバイサルファイト変換を用いずに実施することができ、プロセスを複雑にするか、またはメチル化レベルの決定に追加のエラーを導入する可能性があるＰＣＲ増幅を用いずに実施することができる。

図６４Ａおよび６４Ｂは、１Ｍｂの分解能でのメチル化パターンを示す。図６４Ａは、ＨＣＣ細胞株（ＨｅｐＧ２）のメチル化パターンを示す。図６４Ｂは、健康な対照の対象からのバフィーコート試料のメチル化パターンを示す。染色体イデオグラム（各図の最も外側のリング）は、時計回りにｐ末端からｑ末端に編成されている。外側から２番目のリング（中央のリングとも呼ばれる）は、バイサルファイト配列決定によって決定されたメチル化レベルを示している。最も内側のリングは、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを示している。メチル化レベルは、５つのグレード、つまり、０～２０％（薄緑）、２０～４０％（緑）、４０～６０％（青）、６０～８０％（薄赤）、および８０～１００％（赤）に分類される。図６４Ａおよび６４Ｂに示されるように、１Ｍｂの分解能でのメチル化プロファイルは、バイサルファイト配列決定（中央のトラック）と本開示による単一分子リアルタイム配列決定（最も内側のトラック）との間で一貫していた。母体バフィーコート試料のメチル化レベルは、ＨＣＣ細胞株（ＨｅｐＧ２）よりも高いことが示された。

図６５Ａおよび６５Ｂは、１Ｍｂの分解能で測定されたメチル化レベルの散布図を示す。図６５Ａは、ＨＣＣ細胞株（ＨｅｐＧ２）のメチル化レベルを示す。図６５Ｂは、健康な対照の対象からのバフィーコート試料のメチル化レベルを示す。図６５Ａおよび図６５Ｂの両方について、バイサルファイト配列決定によって定量されたメチル化レベルは、ｘ軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはｙ軸にある。実線は、近似した回帰直線である。破線は、２つの測定技術が等しい箇所である。ＨＣＣ細胞株の場合、１Ｍｂの分解能での単一分子リアルタイム配列決定によって決定されたメチル化レベルは、バイサルファイト配列決定によって測定されたものとよく相関していた（ｒ＝０．９９、Ｐ＜０．０００１）（図６５Ａ）。バフィーコート試料からのデータについても、相関が観察された（ｒ＝０．８７、Ｐ＜０．０００１）（図６５Ｂ）。

図６６Ａおよび６６Ｂは、１００ｋｂの分解能で測定されたメチル化レベルの散布図を示す。図６６Ａは、ＨＣＣ細胞株（ＨｅｐＧ２）のメチル化レベルを示す。図６６Ｂは、健康な対照の対象からのバフィーコート試料のメチル化レベルを示す。図６６Ａおよび図６６の両方について、バイサルファイト配列決定によって定量されたメチル化レベルはｘ軸上にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはｙ軸上にある。実線は、近似した回帰直線である。破線は、２つの測定技術が等しい箇所である。分析の分解能が１００ｋｂ（または１００ｋｎｔ）ウィンドウごとに増加した場合、１Ｍｂ（または１Ｍｎｔ）の分解能での２つの方法間のメチル化定量測定値間で、高度な相関も観察された。これらすべてのデータは、本開示の単一分子のリアルタイムアプローチが、異なる程度の分解能、例えば、１Ｍｂ（または１Ｍｎｔ）または１００ｋｂ（または１００ｋｎｔ）で変動するゲノム領域内のメチル化レベルまたはメチル化密度を定量するための効果的なツールであることを示している。データはまた、本発明が、領域間または試料間のメチル化プロファイルまたはメチル化パターンを評価するための効果的なツールであることを示す。

図６７Ａおよび６７Ｂは、１Ｍｂの分解能でのメチル化パターンを示す。図６７Ａは、ＨＣＣ腫瘍組織（ＴＢＲ３０３３Ｔ）のメチル化パターンを示す。図６７Ｂは、隣接する正常組織（ＴＢＲ３０３３Ｎ）のメチル化パターンを示す。染色体イデオグラム（各図の最も外側のリング）は、時計回りにｐ末端からｑ末端に編成されている。外側から２番目のリング（中央のリングとも呼ばれる）は、バイサルファイト配列決定によって決定されたメチル化レベルを示している。最も内側のリングは、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを示している。メチル化レベルは、５つのグレード、つまり、０～２０％（薄緑）、２０～４０％（緑）、４０～６０％（青）、６０～８０％（薄赤）、および８０～１００％（赤）に分類される。図６７Ａに示されるように、ＨＣＣ腫瘍組織ＤＮＡ（ＴＢＲ３０３３Ｔ）における低メチル化を検出することができ、図６７Ｂの隣接する正常な肝臓組織ＤＮＡ（ＴＢＲ３０３３Ｎ）と区別することができる。バイサルファイト配列決定（中央のトラック）および本開示による単一分子リアルタイム配列決定（最も内側のトラック）によって決定されたメチル化レベルおよびメチル化パターンは一貫していた。隣接する正常組織ＤＮＡのメチル化レベルは、ＨＣＣ腫瘍組織ＤＮＡのメチル化レベルよりも高いことが示された。

図６８Ａおよび６８Ｂは、１Ｍｂの分解能で測定されたメチル化レベルの散布図を示す。図６８Ａは、ＨＣＣ腫瘍組織（ＴＢＲ３０３３Ｔ）のメチル化レベルを示す。図６８Ｂは、隣接する正常組織のメチル化レベルを示す。図６８Ａおよび図６８Ｂの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはｘ軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはｙ軸にある。実線は、近似した回帰直線である。破線は、２つの測定技術が等しい箇所である。ＨＣＣ腫瘍組織ＤＮＡの場合、１Ｍｂの分解能での単一分子リアルタイム配列決定によって測定されたメチル化レベルは、バイサルファイト配列決定によって決定されたものとよく相関していた（ｒ＝０．９６、Ｐ値＜０．０００１）（図６８Ａ）。隣接する正常な肝臓組織試料からのデータも相関していた（ｒ＝０．８３、Ｐ値＜０．０００１）（図６８Ｂ）。

図６９Ａおよび６９Ｂは、１００ｋｂの分解能で測定されたメチル化レベルの散布図を示す。図６９Ａは、ＨＣＣ腫瘍組織（ＴＢＲ３０３３Ｔ）のメチル化レベルを示す。図６９Ｂは、隣接する正常組織（ＴＢＲ３０３３Ｎ）のメチル化レベルを示す。図６９Ａおよび図６９Ｂの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはｘ軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはｙ軸にある。実線は、近似した回帰直線である。破線は、２つの測定技術が等しい箇所である。１Ｍｂの分解能での２つの方法間のメチル化定量データのこのような高度な相関は、メチル化レベルの測定がより高い分解能、例えば、１００ｋｂウィンドウで、実施された場合でも観察された。

図７０Ａおよび７０Ｂは、他の腫瘍組織および正常組織の１Ｍｂ分解能でのメチル化パターンを示す。図７０Ａは、ＨＣＣ腫瘍組織（ＴＢＲ３０３２Ｔ）のメチル化パターンを示す。図７０Ｂは、隣接する正常組織（ＴＢＲ３０３２Ｎ）のメチル化パターンを示す。染色体イデオグラム（各図の最も外側のリング）は、時計回りにｐ末端からｑ末端に編成されている。外側から２番目のリング（中央のリングとも呼ばれる）は、バイサルファイト配列決定によって決定されたメチル化レベルを示している。最も内側のリングは、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを示している。メチル化レベルは、５つのグレード、つまり、０～２０％（薄緑）、２０～４０％（緑）、４０～６０％（青）、６０～８０％（薄赤）、および８０～１００％（赤）に分類される。図７０Ａに示されるように、本発明者らは、ＨＣＣ腫瘍組織ＤＮＡ（ＴＢＲ３０３２Ｔ）における低メチル化を検出することができ、図７０Ｂの隣接する正常な肝臓組織ＤＮＡ（ＴＢＲ３０３２Ｎ）と区別することができた。バイサルファイト配列決定（中央のトラック）および本発明を使用した単一分子リアルタイム配列決定（最も内側のトラック）によって決定されたメチル化レベルおよびメチル化パターンは一貫していた。隣接する正常組織ＤＮＡのメチル化レベルは、ＨＣＣ腫瘍組織ＤＮＡのメチル化レベルよりも高いことが示された。

図７１Ａおよび７１Ｂは、１Ｍｂの分解能で測定されたメチル化レベルの散布図を示す。図７１Ａは、ＨＣＣ腫瘍組織（ＴＢＲ３０３２Ｔ）のメチル化レベルを示す。図７１Ｂは、隣接する正常組織のメチル化レベルを示す。図７１Ａおよび図７１Ｂの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはｘ軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはｙ軸にある。実線は、近似した回帰直線である。破線は、２つの測定技術が等しい箇所である。ＨＣＣ腫瘍組織ＤＮＡの場合、１Ｍｂの分解能での単一分子リアルタイム配列決定によって測定されたメチル化レベルは、バイサルファイト配列決定によって決定されたものとよく相関していた（ｒ＝０．９８、Ｐ＜０．０００１）（図７１Ａ）。隣接する正常な肝臓組織試料からのデータも相関していた（ｒ＝０．８７、Ｐ＜０．０００１）（図７１Ｂ）。

図７２Ａおよび７２Ｂは、１００ｋｂの分解能で測定されたメチル化レベルの散布図を示す。図７２Ａは、ＨＣＣ腫瘍組織（ＴＢＲ３０３２Ｔ）のメチル化レベルを示す。図７２Ｂは、隣接する正常組織（ＴＢＲ３０３２Ｎ）のメチル化レベルを示す。図７２Ａおよび図７２Ｂの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはｘ軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはｙ軸にある。実線は、近似した回帰直線である。破線は、２つの測定技術が等しい箇所である。１Ｍｂの分解能での２つの方法間のメチル化定量データのこのような高度な相関は、メチル化レベルの測定がより高い分解能、例えば、１００ｋｂウィンドウで、実施された場合でも観察された。

４．腫瘍と隣接する正常組織との間の可変メチル化領域
メチロミック異常は、癌ゲノムの領域でよく見られる。このような異常の一例は、選択されたゲノム領域の低メチル化および高メチル化である（Ｃａｄｉｅｕｘｅｔａｌ．ＣａｎｃｅｒＲｅｓ．２００６；６６：８４６９－７６、Ｇｒａｆｆｅｔａｌ．ＣａｎｃｅｒＲｅｓ．１９９５；５５：５１９５－９、Ｃｏｓｔｅｌｌｏｅｔａｌ．ＮａｔＧｅｎｅｔ．２０００；２４：１３２－８）。別の例は、選択されたゲノム領域におけるメチル化塩基および非メチル化塩基の異常なパターンである。このセクションでは、メチル化を決定する技術が、腫瘍を分析する際に、定量分析と診断の実施に使用され得ることを示す。

図７３は、腫瘍抑制遺伝子ＣＤＫＮ２Ａの近くのメチル化の異常なパターンの一例を示す。座標は青で強調表示され、下線はＣｐＧアイランドを示している。黒く塗りつぶされた点は、メチル化された部位を示す。塗りつぶされていない点は、非メチル化部位を示す。点の付いた各水平線の右側の括弧内の数字は、断片のサイズ、単一分子のメチル化密度、およびＣｐＧ部位の数を示す。例えば、（３．３ｋｂ、ＭＤ：１７．９％、ＣＧ：３９）は、断片のサイズが３．３ｋｂであり、断片のメチル化レベルが１７．９％であり、ＣｐＧ部位の数が３９箇所であることを意味する。ＭＤは、メチル化密度を表す。

図７３に示されるように、ＣＤＫＮ２Ａ（サイクリン依存性キナーゼ阻害因子２Ａ）遺伝子は、腫瘍抑制因子として作用する、ＩＮＫ４Ａ（ｐ１６）およびＡＲＦ（ｐ１４）を含む２つのタンパク質をコードする。腫瘍組織に隣接する非腫瘍組織のＣＤＫＮ２Ａ遺伝子と重複する領域をカバーする２つの分子（分子７３０１と分子７３０２）があった。分子７３０１および分子７３０２の単一二本鎖ＤＮＡ分子のメチル化レベルは、それぞれ１７．９％および７．６％であることが示された。対照的に、腫瘍組織に存在する分子７３０３の単一二本鎖ＤＮＡ分子のメチル化レベルは９３．９％であることがわかり、これはペアの隣接する非腫瘍組織に存在する分子のメチル化レベルよりもはるかに高かった。一方、腫瘍組織に隣接する非腫瘍組織に存在する分子７３０１および７３０２を使用して、多鎖メチル化レベルを計算することもできる。その結果、多鎖メチル化レベルは９．７％であり、これは、腫瘍組織のメチル化レベル（９３．９％）よりも低かった。異なるメチル化レベルは、一本鎖分子のメチル化レベルおよび／または多鎖メチル化レベルを使用して、癌などの疾患を検出または監視できることを示唆している。

図７４Ａおよび図７４Ｂは、本発明の実施形態による、単一分子リアルタイム配列決定によって検出された可変メチル化領域を示す。図７４Ａは、癌ゲノムにおける低メチル化を示す。図７４Ｂは、癌ゲノムにおける高メチル化を示す。ｘ軸は、ＣｐＧ部位の座標を示す。座標は青で強調表示され、下線はＣｐＧアイランドを示している。黒く塗りつぶされた点は、メチル化された部位を示す。塗りつぶされていない点は、非メチル化部位を示す。点が付いた各水平線の右側の括弧内の数字は、断片のサイズ、断片レベルのメチル化密度、およびＣｐＧ部位の数を示している。例えば、（３．１ｋｂ、ＭＤ：８８．９％、ＣＧ：１８０）は、断片のサイズが３．１ｋｂであり、断片のメチル化密度が８８．９％であり、ＣｐＧ部位の数が１８０箇所であることを意味する。

図７４Ａは、隣接する正常な肝臓組織と比較して、ＨＣＣ腫瘍組織においてより多くの低メチル化断片を示すＧＮＡＳ遺伝子に近い領域を示す。図７４Ｂは、ＨＣＣ組織において高メチル化断片を表示するＥＳＲ１遺伝子に近い領域を示すが、対応する領域に整列するベアの隣接する非腫瘍組織からのＤＮＡ断片は、代わりに低メチル化を示した。図７４Ｂに示すように、個々のＤＮＡ分子のメチル化プロファイルまたはメチル化ハプロタイプは、癌試料を非癌試料と比較した場合、これらのゲノム領域、つまりＧＮＡＳおよびＥＳＲ１、の異常なメチル化状態を明らかにするのに十分であった。

これらのデータは、本明細書に開示される単一分子リアルタイム配列決定のメチル化分析が、個々のＤＮＡ断片上の各ＣｐＧ部位（メチル化または非メチル化）でのメチル化状態を決定することができることを示している。単一分子リアルタイム配列決定のリード長は、典型的には、リードあたり１００～３００ｎｔの鎖長に及ぶ可能性があるイルミナ配列決定の場合よりもはるかに長くなる（キロベースのオーダー）（ＤｅＭａｉｏｅｔａｌ．ＭｉｃｏｂＧｅｎｏｍ．２０１９；５（９））。単一分子リアルタイム配列決定のロングリード長の特性を、本明細書に開示されるメチル化分析法と組み合わせることで、任意の単一ＤＮＡ分子に沿って存在する複数のＣｐＧ部位のメチル化ハプロタイプを容易に決定することができる。メチル化プロファイルとは、ＤＮＡの連続したストレッチ内（例えば、同じ染色体上、または細菌プラスミド内、またはウイルス内の単一のＤＮＡストレッチ内）のゲノムのある座標から別の座標までのＣｐＧ部位のメチル化状態を指す。

単一分子リアルタイム配列決定は、事前の増幅を必要とせずに各ＤＮＡ分子を個別に分析するため、個々のＤＮＡ分子について決定されたメチル化プロファイルは、実際にはメチル化ハプロタイプであり、同じＤＮＡ分子のある末端から別の末端までのＣｐＧ部位のメチル化状態を意味する。１つ以上の分子が同じゲノム領域から配列決定された場合、ゲノム領域内の配列決定されたすべてのＣｐＧ部位にわたる各ＣｐＧ部位のメチル化％（つまり、メチル化レベルまたはメチル化密度）は、図６１に示されるように、同じ式を使用して複数のＤＮＡ断片のデータから集約され得る。各ＣｐＧ部位のメチル化％は、配列決定されたすべてのＣｐＧ部位について報告され、配列決定されたゲノム領域のメチル化プロファイルを提供する。あるいは、配列決定されたゲノム領域内のすべてのリードおよびすべての部位からのデータを集約して、つまり、１Ｍｂまたは１ｋｂ領域のメチル化レベルが図６４～７２に示されるように計算された同じ様式で、領域の１％メチル化値を提供することもできる。

５．ウイルスＤＮＡのメチル化分析
このセクションは、本開示のメチル化技術を使用して、ウイルスＤＮＡのメチル化レベルを正確に決定することができることを示している。

図７５は、単一分子リアルタイム配列決定を使用した、２対のＨＣＣ組織試料と隣接する非腫瘍組織試料との間のＢ型肝炎ウイルスＤＮＡのメチル化パターンを示す。各矢印は、ＨＢＶゲノムの遺伝子注釈を表す。「Ｐ」、「Ｓ」、「Ｘ」、および「Ｃ」を有する矢印は、ＨＢＶゲノムに関する遺伝子注釈を示し、それぞれ、ポリメラーゼ、表面抗原、Ｘタンパク質、およびコアタンパク質をコードしている。本発明者らは、隣接する非腫瘍組織に由来するサイズが１，１８３ｂｐの１つの断片（分子Ｉ、破線の長方形で強調表示された２，２７８～３，１４１にまたがるＨＢＶゲノム）を特定し、１２％のメチル化レベルを示した。また、腫瘍組織に由来する３，２１５ｂｐ、２，９６１ｂｐ、および３，１０５ｂｐの３つの断片（分子ＩＩ、分子ＩＩＩ、および分子ＩＶ）も特定した。それらの中で、ＨＣＣ腫瘍の２つの断片（分子ＩＩＩおよび分子ＩＶ）は、非腫瘍組織の分子ＩがまたがるＨＢＶゲノム領域と重複していた。破線の長方形で強調表示されたＨＢＶ領域の低メチル化レベル（１２％）（ＨＢＶゲノム位置：２，２７８～３，１４１）とは対照的に、メチル化レベルは、ＨＣＣ組織のそれらの断片（分子ＩＩＩおよび分子ＩＶ）でより高かった（すなわち、２４％および３０％）。これらの結果は、単一分子リアルタイム配列決定を使用したアプローチが、ウイルスゲノムのメチル化パターンを決定するために実行可能であり、ＨＣＣ組織と非ＨＣＣ組織との間のＨＢＶの可変メチル化領域（ＤＭＲ）を特定できることを示唆した。したがって、本開示による単一分子リアルタイム配列決定を使用したウイルスゲノム全体のメチル化状態の決定は、組織生検を使用して臨床的関連性を研究するための新しいツールを提供するであろう。

このＤＭＲ領域は、たまたま遺伝子Ｐ、Ｃ、およびＳと重複していた。この領域は、ＨＢＶ感染はある癌がない肝臓組織と比較して、ＨＣＣ組織でも高メチル化されていることが報告された（Ｊａｉｎｅｔａｌ．ＳｃｉＲｅｐ．２０１５；５：１０４７８、Ｆｅｒｎａｎｄｅｚｅｔａｌ．ＧｅｎｏｍｅＲｅｓ．２００９；１９：４３８－５１）。

本発明者らは、肝硬変はあるがＨＣＣがない４人の患者の肝臓組織のバイサルファイト配列決定結果をプールし、メチル化分析用に１，１５６個のＨＢＶ断片を取得した。図７６Ａは、肝硬変はあるがＨＣＣがない患者からの肝臓組織におけるＢ型肝炎ウイルスＤＮＡのメチル化レベルを示す。さらに、１５人の患者からのＨＣＣ腫瘍組織のバイサルファイト配列決定結果をプールし、メチル化分析用に７３６個のＨＢＶ断片を取得した。図７６Ｂは、ＨＣＣ腫瘍組織におけるＢ型肝炎ウイルスＤＮＡのメチル化レベルを示す。図７６Ａおよび図７６Ｂに示すように、超並列バイサルファイト配列決定により、肝硬変の肝臓組織よりもＨＣＣ組織のメチル化レベルが高いＨＢＶのＤＭＲ領域（ＨＢＶゲノム位置：１，９８２～２，４３５）も観察された。これらの結果は、ウイルスゲノムのメチル化状態を決定するためのアプローチが有効であることを示唆した。

６．バリアント関連メチル化分析
異なるアレルは、異なるメチル化プロファイルに関連付けることができる。例えば、インプリント遺伝子は、他のアレルよりもメチル化レベルが高い１つのアレルを有する場合がある。このセクションでは、メチル化プロファイルを使用して、特定のゲノム領域のアレルを識別することができることを示す。

単一のＤＮＡ鋳型を含有する１つの単一分子リアルタイム配列決定ウェルは、いくつかのサブリードを生成する。サブリードには、動態特徴［例えば、パルス間隔（ＩＰＤ）およびパルス幅（ＰＷ）］およびヌクレオチド組成が含まれる。一実施形態では、１つの単一分子リアルタイム配列決定ウェルからのサブリードを使用して、配列決定エラー（例えば、ミスマッチ、挿入または欠失）を劇的に低減させ得るコンセンサス配列（循環コンセンサス配列、ＣＣＳとも呼ばれる）を生成することができる。ＣＣＳの詳細について、本明細書で説明する。一実施形態では、コンセンサス配列は、ヒト参照ゲノムに整列されたそれらのサブリードを使用して、構築することができる。別の実施形態では、コンセンサス配列は、サブリードを、同じ単一分子リアルタイム配列決定ウェル内の最長のサブリードにマッピングすることによって構築することができる。

図７７は、段階的メチル化ハプロタイプ分析の原理を示す。塗りつぶされたロリポップは、メチル化として分類されるＣｐＧ部位を表す。塗りつぶされていないロリポップは、非メチル化として分類されるＣｐＧ部位を表す。

図７７の一実施形態に示されるように、サブリードは、ヒト参照ゲノムに整列された。１つの単一分子リアルタイム配列決定ウェルからの整列されたサブリードは、コンセンサス配列を形成するためにまとめられた。コンセンサス配列は、一般に、各整列位置全体のサブリード存在する最も頻度の高いヌクレオチドを使用して決定され得る。したがって、限定されないが、一塩基多型、挿入、および欠失を含むがヌクレオチドバリアントは、コンセンサス配列から特定することができた。ヌクレオチドバリアントによってタグ付けされた同じ分子内の平均化されたＩＰＤおよびＰＷを使用して、本開示に従って、メチル化パターンを決定することができる。したがって、バリアント関連メチル化パターンをさらに決定することができる。同じ分子のメチル化状態は、メチル化ハプロタイプとみなすことができる。メチル化ハプロタイプは、２つ以上の断片化された短鎖ＤＮＡ分子が元の単一分子に由来するかどうか、または２つ以上の異なる元の分子が寄与するかどうかを区別可能な分子マーカーが存在しないことから、２つ以上の短鎖ＤＮＡ分子から容易にかつ直接的に構築し得ない場合がある。合成ロングリード技術（１０ＸＧｅｎｏｍｉｃｓによって開発されたリンクリード配列など）は、単一の長鎖ＤＮＡ分子を分割（液滴など）に分配し、同じ分子バーコード配列を有するその長鎖ＤＮＡ分子に由来する短鎖ＤＮＡ分子にタグを付ける可能性を提供する。しかしながら、このバーコードステップには、元のメチル化状態が保持されないＰＣＲ増幅が含まれる。

さらに、バイサルファイトを使用して長鎖ＤＮＡ分子を処理しようとするとき、バイサルファイトが特定の化学的条件では一本鎖ＤＮＡ分子にしか作用しないため、バイサルファイト処理の前の最初のステップでは、二本鎖ＤＮＡを一本鎖ＤＮＡに変化させる破壊的な条件下でのＤＮＡ変性が含まれる。このＤＮＡ変性ステップでは、長鎖ＤＮＡ分子が短い断片に分解され、元のメチル化ハプロタイプ情報が失われる。バイサルファイトベースのメチル化分析の第２の欠点は、バイサルファイト変換ステップで、二本鎖ＤＮＡが一本鎖ＤＮＡ、つまりワトソン鎖とクリック鎖に変性することである。一分子について、ワトソン鎖を配列決定する可能性は５０％であり、クリック鎖を配列決定する可能性は５０％である。数百万のワトソン鎖とクリック鎖の中で、分子のワトソン鎖とクリック鎖の両方を同時に配列決定する可能性は非常に低い。分子のワトソン鎖とクリック鎖の両方が配列決定されると想定しても、そのようなワトソン鎖とクリック鎖が元の単一断片に由来するのかどうか、または２つ以上の異なる元の断片が寄与するのかどうかを確実に決定することは依然として不可能である。Ｌｉｕらは、最近、テンイレブントランスロケーション（ＴＥＴ）酵素ベースの変換を使用して、ＤＮＡの分解を低減させる穏やかな条件下で、メチル化シトシンおよびヒドロキシメチルシトシンを検出するためのバイサルファイトフリーの配列決定法を導入した（Ｌｉｕｅｔａｌ．ＮａｔＢｉｏｔｅｃｈｎｏｌ．２０１９；３７：４２４－４２９）。しかしながら、酵素反応には、２つの連続したステップが含まれる。酵素反応のいずれかのステップの変換率が低いと、全体的な変換率に劇的な影響を及ぼす。さらに、メチル化シトシンを検出するためのこのバイサルファイトフリーの配列決定法でさえ、配列決定の結果から、分子のワトソン鎖とクリック鎖を区別することは依然として困難である。

対照的に、本発明の実施形態では、分子のワトソン鎖およびクリック鎖は、ベル型アダプターを介して共有結合的に連結されて、環状ＤＮＡ分子を形成する。その結果、分子のワトソン鎖とクリック鎖の両方が同じ反応ウェルで配列決定され、各鎖のメチル化状態が決定され得る。

本発明の実施形態の１つの利点は、長鎖の連続したＤＮＡ分子（長さがエキロベースまたはキロヌクレオチド）に関するメチル化および遺伝的（すなわち配列）情報を確認する能力である。ショートリード配列決定テクノロジーを使用してこのような情報を生成することはより困難である。ショートリード配列決定テクノロジーの場合、メチル化と遺伝情報の長いストレッチを推定できるようにするには、遺伝的またはエピジェネティックな特性の足がかりを使用して、複数のショートリードに関する配列決定情報を組み合わせる必要がある。しかしながら、これは、そのような遺伝的またはエピジェネティックなアンカー間の距離のために、多くのシナリオでは困難であることが判明するであろう。例えば、平均でＳＮＰは１ｋｂあたり１つあるが、現在のショートリード配列決定テクノロジーは、典型的に、リードあたり最大で３００ｎｔの配列を決定することができ、ペアエンド形式であっても６００ｎｔである。

一実施形態では、バリアント関連メチル化ハプロタイプ分析を使用して、インプリント遺伝子のメチル化パターンを研究することができる。インプリント領域は、親起源の様式で、エピジェネティックな調節（例えば、ＣｐＧメチル化）を受ける。例えば、図６０の表では、１つのバフィーコートのＤＮＡ試料（Ｍ２）を配列決定して、約１億５２００万個のサブリードを取得した。この試料では、５３％の単一分子リアルタイム配列決定ウェルで、ヒト参照ゲノムと整列され得る少なくとも１つのサブリードが生成された。各ＳＭＲＴウェルの平均サブリード深度は、７．７倍であった。合計で、約３００万のコンセンサス配列が取得された。参照ゲノムの約９１％は、少なくとも１回はコンセンサス配列でカバーされていた。カバーされた領域について、配列決定深度は、７．９倍であった。データセットは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０によって調製されたＤＮＡから生成された。

図７８は、コンセンサス配列から決定された配列決定された分子のサイズ分布を示しており、サイズの中央値は６，２８９ｂｐ（範囲：６６～１９８，１０９ｂｐ）である。断片サイズ（ｂｐ）をｘ軸に示し、断片サイズに関連付けられた頻度（％）をｙ軸に示す。

図７９Ａ、７９Ｂ、７９Ｃ、および７９Ｄは、インプリント領域におけるアレルのメチル化パターンの例を示す。ｘ軸は、ＣｐＧ部位の座標を示す。座標は青で強調表示され、下線はＣｐＧアイランドを示している。黒く塗りつぶされた点は、メチル化されたＣｐＧ部位を示す。塗りつぶされていない点は、非メチル化ＣｐＧ部位を示す。各水平方向の一連の塗りつぶされた点と塗りつぶされていない点の（すなわち、ＣｐＧ部位）の間に埋め込まれたアルファベットは、ＳＮＰ部位のアレルを示す。各水平方向の一連の点の右側にある括弧内の数字は、断片のサイズ、断片レベルのメチル化密度、およびＣｐＧ部位の数を示す。例えば、（１０．０ｋｂ、ＭＤ：７９．１％、ＣＧ：１３９）は、対応する断片のサイズが１０．０ｋｂであり、断片のメチル化密度が７９．１％であり、ＣｐＧ部位の数が１３９箇所であることを示唆する。破線の長方形は、各遺伝子内で最も可変メチル化領域の輪郭を示す。

図７９Ａは、ＳＮＵＲＦ遺伝子に由来する、中央値が１１．２ｋｂ（範囲：１．３～２５ｋｂ）のサイズを有する１１個の配列決定された断片を示す。ＳＮＵＲＦ遺伝子は、母方にインプリントされ、つまり、個人が母親から受け継いだ遺伝子のコピーはメチル化されており、転写的にサイレントである。図７９Ａに示されるように、破線の長方形において、Ｃアレルに関連する断片は高度にメチル化されていたが、Ｔアレルに関連する断片は高度に非メチル化されていた。高度なメチル化は、部位の７０％、８０％、９０％、９５％、または９９％以上のメチル化を示す。アレル特異的メチル化パターンは、ＰＬＡＧＬ１（図７９Ｂ）、ＮＡＰ１Ｌ５（図７９Ｃ）、およびＺＩＭ２（図７９Ｄ）を含む他のインプリント遺伝子で観察することができた。図７９Ｂは、ＰＬＡＧＬ１の場合、Ｔアレルに関連する断片が高度に非メチル化されていたのに対して、Ｃアレルに関連する断片は高度にメチル化されていたことを示す。図７９Ｃは、ＮＡＰ１Ｌ５の場合、Ｃアレルに関連する断片が高度に非メチル化されていたのに対して、Ｔアレルに関連する断片は高度にメチル化されていたことを示す。図７９Ｄは、ＺＩＭ２の場合、Ｃアレルに関連する断片が高度に非メチル化されていたのに対して、Ｔアレルに関連する断片は高度にメチル化されていたことを示す。

図８０Ａ、８０Ｂ、８０Ｃ、および８０Ｄは、非インプリント領域におけるアレルのメチル化パターンの例を示す。ｘ軸は、ＣｐＧ部位の座標を示す。座標は青で強調表示され、下線はＣｐＧアイランドを示している。黒く塗りつぶされた点は、メチル化されたＣｐＧ部位を示す。塗りつぶされていない点は、非メチル化ＣｐＧ部位を示す。各水平方向の一連の塗りつぶされた点と塗りつぶされていない点の（すなわち、ＣｐＧ部位）の間に埋め込まれたアルファベットは、一塩基多型（ＳＮＰ部位のアレルを示す。各水平方向の一連の点の右側にある括弧内の数字は、断片のサイズ、断片レベルのメチル化密度、およびＣｐＧ部位の数を示す。破線の長方形は、括弧内に報告されているメチル化密度を計算するために、ランダムに選択された領域を示す。図７９Ａ～７９Ｄの結果とは対照的に、非インプリント遺伝子には、そのような観察可能なアレルのメチル化パターンは存在しなかった。図８０Ａは、ｃｈｒ７領域において、アレルのメチル化パターンに違いがないことを示す。図８０Ｂは、ｃｈｒ１２領域において、アレルのメチル化パターンに違いがないことを示す。図８０Ｃは、ｃｈｒ１領域において、アレルのメチル化パターンに違いがないことを示す。図８０Ｄは、別のｃｈｒ１領域において、アレルのメチル化パターンに違いがないことを示す。

図８１は、アレル特異的断片のメチル化レベルの表を示す。最初の列は、「インプリント遺伝子」と「ランダムに選択された領域」のカテゴリーを列挙している。２番目の列は、特定の遺伝子を列挙している。３番目の列は、遺伝子のＳＮＰの最初のアレルを列挙している。４番目の列は、遺伝子のＳＮＰの２番目のアレルを列挙している。５番目の列は、最初のアレルにリンクされた断片のメチル化レベルを示す。６番目の列は、２番目のアレルにリンクされた断片のメチル化レベルを示す。アレル２にリンクされた断片のメチル化レベル（平均：８８．６％、範囲８４．６～９１．１％）は、それらのインプリント遺伝子のアレル１にリンクされたそれらの断片（平均：１２．２％、範囲７．６～１５．７％）よりもはるかに高く（Ｐ値＝０．０３）、アレル特異的メチル化の存在を示す。対照的に、それらのランダムに選択された領域間でメチル化レベルに有意な変化はなく（Ｐ値＝１）、アレル特異的なメチル化がないことを示唆している。

７．妊娠中の無細胞ＤＮＡ分析
この例示では、本明細書に開示される方法は、少なくとも１人の胎児の妊婦から取得された血漿または血清中の無細胞核酸の分析に適用可能であることを実証する。妊娠中、胎盤細胞からの無細胞ＤＮＡ分子および無細胞ＲＮＡ分子が、母体循環中に見られる。このような胎盤由来の無細胞核酸分子は、母体血漿中の無細胞胎児核酸または循環無細胞胎児核酸とも呼ばれる。無細胞胎児核酸は、母体の無細胞核酸の背景の中で母体血漿中に存在する。例えば、循環無細胞胎児ＤＮＡ分子は、母体の血漿および血清中の無細胞の母体ＤＮＡの背景の中で、希少種として存在する。

母体血漿または血清中の無細胞胎児ＤＮＡを無細胞母体ＤＮＡと区別するために、遺伝的またはエピジェネティックな手段またはその組み合わせが使用され得ることが知られている。遺伝的に、胎児ゲノムは、父方の受け継がれた胎児特異的ＳＮＰアレル、父性遺伝の変異、またはデノボ変異によって、母体ゲノムと異なる可能性がある。エピジェネティックに、胎盤メチロームは、一般に母体血球のメチロームと比較して低メチル化されている（Ｌｕｎｅｔａｌ．ＣｌｉｎＣｈｅｍ．２０１３；５９：１５８３－９４）。胎盤は無細胞胎児ＤＮＡの主な寄与因子であり、一方、母体血球は母体循環（血漿または血清）における無細胞母体ＤＮＡの主な寄与因子であるため、無細胞胎児ＤＮＡ分子は、一般に、血漿または血清中の無細胞母体ＤＮＡと比較して低メチル化されている。母体の血球と比較して胎盤が高メチル化されている特定のゲノム遺伝子座がある。例えば、ＲＡＳＳＦ１Ａのプロモーターおよびエクソン１領域は、母体の血球よりも胎盤でメチル化されている（Ｃｈｉｕｅｔａｌ．ＡｍＪＰａｔｈｏｌ．２００７；１７０：９４１－９５０）。したがって、このＲＡＳＳＦ１Ａ遺伝子座に由来する循環無細胞胎児ＤＮＡは、同じ遺伝子座に由来する循環無細胞母体ＤＮＡと比較して、高メチル化されている。

実施形態では、無細胞胎児ＤＮＡは、循環核酸の２つのプール間の異なるメチル化状態に基づいて、無細胞母体ＤＮＡ分子から識別され得る。例えば、無細胞ＤＮＡ分子に沿ったＣｐＧ部位は、ほとんど非メチル化されていることがわかり、この分子は胎児に由来している可能性がある。無細胞ＤＮＡ分子に沿ったＣｐＧ部位がほとんどメチル化されていることがわかった場合、この分子は母親からのものである可能性が高い。そのような分子が実際に胎児または母親からのものであるかどうかを確認するために、当業者に既知のいくつかの方法がある。１つのアプローチは、配列決定された分子のメチル化パターンを、胎盤または母体の血球の対応する遺伝子座の既知のメチル化プロファイルと比較することである。

図８２は、メチル化プロファイルを使用して、妊娠中の血漿ＤＮＡの胎盤起源を決定するための一例を示す。座標は青で強調表示され、下線はＣｐＧアイランドを示している。黒く塗りつぶされた点は、メチル化された部位を示す。塗りつぶされていない点は、非メチル化部位を示す。点の付いた各水平線の近くの括弧内の数字は、断片のサイズ、単一分子のメチル化密度、およびＣｐＧ部位の数を示す。

図８２に示されるように、母体血漿無細胞ＤＮＡ分子が、ＲＡＳＳＦ１Ａのプロモーター領域（胎盤組織で特異的にメチル化されることが知られている領域）に整列し、かつ本発明の方法を使用して生成された配列決定データが高メチル化される場合、分子はおそらく胎児または胎盤に由来する。対照的に、低メチル化を示す分子は、母体の背景ＤＮＡ（主に造血起源）に由来可能している性が高い。

図８３は、胎児特異的メチル化分析のアプローチを示す。このアプローチには、胎児特異的ＳＮＰアレルまたは胎児特異的変異（例えば、父性遺伝または本質的にデノボ）を含有する配列決定された分子の利用が含まれる。そのような胎児特有の遺伝的特徴が特定される場合、同じ無細胞ＤＮＡ分子に存在する塩基のメチル化状態は、無細胞胎児ＤＮＡまたは胎盤メチロームのメチル化プロファイルを反映する。血漿無細胞ＤＮＡ配列決定で、母体ゲノムに存在しないアレルまたは変異が明らかになる場合（例えば、母体ゲノムＤＮＡの分析による）、または父方ＤＮＡの分析によってもしくは家族性で伝達されることが既知の場合（例えば、発端者由来のＤＮＡの分析による）、胎児特異的な遺伝的特徴が明らかにされ得る。

胎児特異的ＤＮＡ分子のメチル化は、母体ゲノムのホモ接合性アレルとは異なるアレルを有するそれらのＤＮＡ断片を分析することによって決定することができる。胎児のＤＮＡ分子のメチル化は、母体のＤＮＡ分子のメチル化よりも低いと予想され得る。

一例として、１人の妊婦のバフィーコートＤＮＡとそれに対応する胎盤ＤＮＡを配列決定して、それぞれ、５９倍と５８倍のハプロイドのゲノムカバレッジを取得した。本発明者らは、母親がホモ接合で胎児がヘテロ接合である、合計８２２，４０９個の有益なＳＮＰを特定した。単一分子リアルタイム配列決定を通して、母体血漿（Ｍ１３１６０）で、２，６５２個の胎児特異的断片と２４，８３７個の共有断片（すなわち、共有アレルを有する断片、主に母体由来）を見出した。胎児のＤＮＡ画分は、１９．３％であった。本開示に従って、これらの胎児特異的断片および共有断片のメチル化プロファイルが推定された。その結果、胎児特異的断片のメチル化レベルが５７．４％であったのに対し、共有断片のメチル化レベルは６９．９％であることがわかった。この発見は、胎児ＤＮＡのメチル化レベルが妊婦の血漿中の母体ＤＮＡよりも低いという現在の知見と一致していた（Ｌｕｎｅｔａｌ．，ＣｌｉｎＣｈｅｍ．２０１３；５９：１５８３－９４）。

メチル化パターンは、診断または監視の目的で使用することができる。例えば、母体の血漿試料のメチル化プロファイルは、妊娠期間を決定するために使用されている（ｈｔｔｐｓ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｕｂｍｅｄ／２７９７９９５９）。１つの用途は、品質管理ステップである。別の潜在的な用途は、妊娠の「生物年齢」と「暦年齢」を監視することである。この用途は、早産の検出またはリスク評価に使用することができる。他の実施形態は、母体血中の胎児細胞の分析に使用することができる。さらに他の実施形態では、このような胎児細胞は、抗体ベースのアプローチによって、または細胞マーカーを使用する選択的染色によって（例えば、細胞表面または細胞質内で）特定され得るか、あるいはフローサイトメトリーまたはマイクロマニピュレーションまたはマイクロダイセクションまたは物理的方法（例えば、チャンバー、表面または容器を通る差動流）によって濃縮され得る。

Ｃ．異なる試薬を使用したメチル化検出
このセクションでは、メチル化技術が特定の試薬システムに限定されないことを示す。

メチル化分析は、異なる試薬システムを使用して実施され、技術が適用され得ることを確認した。一例として、ＳｅｑｕｅｌＩＩシステム（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を使用して、ＳＭＲＴ－ｓｅｑを実施し、単一分子リアルタイム配列決定を実行した。剪断されたＤＮＡ分子は、ＳＭＲＴｂｅｌｌＥｘｐｒｅｓｓＴｅｍｐｌａｔｅＰｒｅｐＫｉｔ２．０（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を使用して、単一分子リアルタイム（ＳＭＲＴ）配列決定の鋳型の構築にかけられた。配列決定プライマーのアニーリングとポリメラーゼ結合の条件は、ＳＭＲＴＬｉｎｋｖ８．０ソフトウェア（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を使用して計算した。簡単に、配列決定プライマーｖ２を配列決定鋳型にアニーリングし、次いでＳｅｑｕｅｌＩＩＢｉｎｄｉｎｇａｎｄＩｎｔｅｒｎａｌＣｏｎｔｒｏｌＫｉｔ２．０（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を使用して、ポリメラーゼを鋳型に結合させた。配列決定は、ＳｅｑｕｅｌＩＩＳＭＲＴＣｅｌｌ８Ｍで行った。配列決定の動画は、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を使用して、ＳｅｑｕｅｌＩＩシステムで３０時間収集した。他の実施形態では、他の化学試薬および反応緩衝液がＳＭＲＴ－ｓｅｑに使用されるであろう。一実施形態では、ポリメラーゼは、そのメチル化状態に応じて、ＤＮＡ鋳型鎖に沿ってヌクレオチドを組み込む異なる動態特徴を有するであろう（Ｈｕｂｅｒｅｔａｌ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２０１６；４４：９８８１－９８９０）。本開示において、結果は、特に断らない限り、配列決定プライマーｖ１を使用して生成される。

異なる試薬を使用して本明細書に記載の本開示における本発明の使用を実証するために、本発明者らは、限定されないが、ＳｅｑｕｅｌＩＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０、ＲＳＩＩ、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０およびＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０を含む異なる配列決定キットに基づいて生成されたＳＭＲＴ－ｓｅｑデータを分析した。ＲＳＩＩには、ＳＭＲＴセルあたり１５０，０００ＺＭＷが含まれる。Ｓｅｑｕｅｌは、ＳＭＲＴセルあたり１，０００，０００ＺＭＷを使用する。ＳｅｑｕｅｌＩＩは、２つの配列決定キット（１．０および２．０）を用いて、ＳＭＲＴセルあたり８００万ＺＭＷを使用する。この分析には、２つのデータセットが含まれていた。最初のデータセットは、全ゲノム増幅後のＤＮＡに基づいて調製され、非メチル化状態を表している。２番目の種類のデータセットは、Ｍ．ＳｓｓｓＩメチルトランスフェラーゼ処理後のＤＮＡに基づいて調製され、メチル化状態を表している。これらのデータは、Ｓｅｑｕｅｌシーケンサーの場合、ＳｅｑｕｅｌＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０を使用して生成され、ＳｅｑｕｅｌＩＩシーケンサーの場合、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０およびＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０を使用して生成された。したがって、本発明者らは、異なる試薬（例えば、ポリメラーゼ）で生成された動態プロファイルを有する３つのデータセットを取得した。各データセットは、本開示によるＣＮＮモデルを使用して性能を評価するために、訓練データセットと試験データセットに分割された。

１．測定ウィンドウ
図８４Ａ、８４Ｂ、および８４Ｃは、全ゲノム増幅データ（非メチル化ＣｐＧ部位）およびＭ．ＳｓｓｓＩ処理データ（メチル化ＣｐＧ部位）を含む訓練データセットにおけるＳＭＲＴ－ｓｅｑ用の異なる試薬キットにわたる異なる測定ウィンドウのサイズの性能を示している。真陽性率はｙ軸にプロットされ、偽陽性率はｘ軸にプロットされている。図８４Ａは、ＳｅｑｕｅｌＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０に基づいて生成されたＳＭＲＴ－ｓｅｑデータを示す。図８４Ｂは、ＳｅｑｕｅｌＩＩｓｅｑｕｅｎｃｉｎｇＫｉｔ１．０に基づいて生成されたＳＭＲＴ－ｓｅｑデータを示す。図８４Ｃは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０に基づいて生成されたＳＭＲＴ－ｓｅｑデータを示す。図中、分析されるＣｐＧシトシン部位の上流信号を、「－」で示した。分析されるＣｐＧシトシン部位の下流信号を、「＋」で示した。例えば、「－６ｎｔ」は、分析されるＣｐＧシトシン部位の６ｎｔ上流信号を表す。「＋６ｎｔ」は、分析されるＣｐＧシトシン部位の６ｎｔ下流信号を表す。「±６ｎｔ」は、分析されるＣｐＧシトシン部位の６ｎｔ上流信号と６ｎｔ下流信号の両方を含むことを示した（すなわち、ＣｐＧシトシン部位に隣接する合計１２ｎｔの配列）。

図８４Ａに示されるように、分析されるＣｐＧシトシンの信号およびそのシトシンの６ｎｔ上流（－６ｎｔで示される）信号（例えば、ＩＰＤ、ＰＷ、相対位置、配列組成）を含む測定ウィンドウを使用した、ＳｅｑｕｅｌＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０に基づく訓練データセットの場合、０．５０のＡＵＣ値は、メチル化ＣｐＧシトシンを非メチル化シトシンから区別する際の識別力がないことを示唆した。しかしながら、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０および２．０に基づく訓練データセットの場合、対応するＡＵＣ値は、０．６２（図８４Ｂ）および０．７５（図８４Ｃ）であった。これらのデータは、ＳＭＲＴ－ｓｅｑで使用される異なる試薬に固有の異なる動態プロファイルがあることを示している。これらのデータは、本明細書に開示される方法が、異なる試薬の使用に容易に適合されることを示す。さらに、塩基修飾を検出する精度は、試薬のさらなる開発、例えば、異なるポリメラーゼの使用および他の化学により、潜在的に改善され得る。

別の例として、図８４Ａに示すように、ＣｐＧシトシン部位の１０ｂｐ上流（－１０ｎｔと表示）の信号を含む測定ウィンドウを使用して、ＳｅｑｕｅｌＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０に基づく訓練データセットの場合、０．５０のＡＵＣ値により、メチル化されたＣｐＧシトシンを非メチル化シトシンと区別する識別力はないことが示唆された。しかしながら、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０および２．０に基づく訓練データセットの場合、対応するＡＵＣ値は０．６６（図８４Ｂ）および０．７９（図８４Ｃ）であり、６ｎｔ上流信号を含む測定ウィンドウと比較して、改善されていることが示された。これらのデータは、ＳＭＲＴ－ｓｅｑに使用された異なる試薬に固有の異なる動態プロファイルがあることを確認した。これらのデータは、本明細書に開示される方法が、異なる試薬の使用に容易に適合されることを示す。

上流信号を有する測定ウィンドウとは対照的に、下流信号を有する測定ウィンドウは、分類性能の大幅な改善につながる可能性がある。例えば、図８４Ａに示されるように、ＣｐＧシトシン部位の６ｎｔ下流信号（＋６ｎｔ）を含む測定ウィンドウを使用したＳｅｑｕｅｌＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０に基づく訓練データセットの場合、ＡＵＣ値が０．９４であり、６ｎｔ上流信号を使用した場合（ＡＵＣ：０．５）よりもはるかに大きかった。ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０および２．０に基づく訓練データセットの場合、対応するＡＵＣ値は、それぞれ０．９５（図８４Ｂ）および０．９２（図８４Ｃ）であり、６ｎｔ上流を含む測定ウィンドウと比較して、改善を示している。これらのデータは、配列文脈にリンクした動態特徴が、限定されないがＣＮＮモデルを使用した分類力を改善することを示唆している。これらのデータはまた、本明細書の開示が、測定ウィンドウを調整することを通して、異なる試薬および異なる配列決定条件（例えば、異なるポリメラーゼ、他の化学試薬、それらの濃度および配列決定の反応パラメータ（例えば、持続時間））によって生成されるデータセットに適用可能であることを示唆した。同様の結論は、ＣｐＧシトシン部位の１０ｎｔ下流信号を含む測定ウィンドウを使用した分析から導き出される（図８４Ａ、８４Ｂ、および８４Ｃ）。

別の実施形態では、分析されるシトシン上の信号、およびそのシトシンの上流および下流の両方の信号を含む測定ウィンドウを使用することができる。例えば、図８４Ａ、８４Ｂ、および８４Ｃに示されるように、６ｎｔ上流信号と６ｎｔ下流信号（±６ｎｔで示される）を含む測定ウィンドウを使用すると、ＡＵＣ値は、ＳｅｑｕｅｌＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０および２．０に基づく訓練データセットについて、それぞれ０．９４、０．９５、および０．９２であることがわかった。１０ｎｔ上流信号と１０ｎｔ下流信号（±１０ｎｔで示される）を含む測定ウィンドウを使用すると、ＡＵＣ値は、ＳｅｑｕｅｌＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０および２．０に基づく訓練データセットについて、それぞれ０．９４、０．９５、および０．９４であることがわかった。これらのデータは、本明細書の開示が、異なる試薬および異なる配列決定の反応パラメータによって生成されたデータセットに広く適用可能であることを示唆した。

訓練データセットで訓練されたＣＮＮモデルを適用した場合、異なる配列キット全体で異なる測定ウィンドウを用いた試験データセットから取得された結果を、図８５Ａ、８５Ｂ、および８５Ｃに示した。真陽性率はｙ軸にプロットされ、偽陽性率はｘ軸にプロットされている。凡例のラベリングは、図８４Ａ、８４Ｂ、および８４Ｃで使用されたラベリングと同等である。図８５Ａは、ＳｅｑｕｅｌＳｅｑｕｅｎｃｉｎｇＫｉｔ３．０に基づいて生成されたＳＭＲＴ－ｓｅｑデータを示す。図８５Ｂは、ＳｅｑｕｅｌＩＩｓｅｑｕｅｎｃｉｎｇＫｉｔ１．０に基づいて生成されたＳＭＲＴ－ｓｅｑデータを示す。図８５Ｃは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０に基づいて生成されたＳＭＲＴ－ｓｅｑを示す。訓練データセットで導き出されたすべての結論は、訓練プロセスに関与しなかったこれらの独立した試験データセットで検証され得る。さらに、３つの独立した試験データセットの中で、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０および２．０を含む２つのデータセット（２／３）の分析では、１０ｎｔ上流および１０ｎｔ下流信号（±１０ｎｔで示される）を含む測定ウィンドウの使用が、他のデータセットよりも優れていることが示された。

２．バイサルファイト配列決定との比較
図８６Ａ、８６Ｂ、および８６Ｃは、バイサルファイト配列決定およびＳＭＲＴ－ｓｅｑ（ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０）によって定量された全体的なメチル化レベルの相関を示す。図８６Ａでは、ＳＭＲＴ－ｓｅｑによって定量されたパーセンテージとしてのメチル化レベルを、ｙ軸に示す。図８６Ｂでは、バイサルファイト配列決定によって定量されたパーセンテージとしてのメチル化レベルを、ｘ軸に示す。黒い線は、近似した回帰直線である。破線は、２つの尺度が等しい対角線である。図８６Ｂは、ブランド・アルトマンプロットを示す。ｘ軸は、本開示によるＳＭＲＴ－ｓｅｑおよびバイサルファイト配列決定によって定量されたメチル化レベルの平均を示す。ｙ軸は、本開示によるＳＭＲＴ－ｓｅｑとバイサルファイト配列決定（すなわち、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓメチル化－バイサルファイトベースのメチル化）との間のメチル化レベルの違いを示す。破線は、２つの尺度間で差がないゼロを横切る水平線に対応する。破線から外れたデータポイントは、尺度間に偏差が存在することを示している。図８６Ｃは、バイサルファイト配列決定によって定量された値に対するパーセンテージ変化を示す。ｘ軸は、本開示によるＳＭＲＴ－ｓｅｑおよびバイサルファイト配列決定によって定量されたメチル化レベルの平均を示す。ｙ軸は、メチル化レベルの平均に対する２つの尺度間のメチル化レベルの差のパーセンテージを示す。破線は、２つの尺度間に差がないゼロを横切る水平線に対応する。破線から外れたデータポイントは、尺度間に偏差が存在することを示している。

図８６Ａに関して、線形回帰式はＹ＝ａＸ＋ｂであり、式中、「Ｙ」は、本開示によるＳＭＲＴ－ｓｅｑによって決定されたメチル化レベルを表し、「Ｘ」は、バイサルファイト配列決定によって決定されたメチル化レベルを表し、「ａ」は、回帰直線の傾きを表し（例えば、ａ＝１．４５）、「ｂ」は、ｙ軸の切片を表す（例えば、ｂ＝－２０．９８）。この場合、ＳＭＲＴ－ｓｅｑによって決定されるメチル化値は、（Ｙ－ｂ）／ａによって計算される。このグラフは、ＳＭＲＴ－ｓｅｑによって決定されたメチル化レベルが、バイサルファイト配列決定によって決定されたメチル化レベルに変換され得ることを示し、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０と同様にＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０について逆も然りである。

図８６Ｂは、本開示によるＳＭＲＴ－ｓｅｑとバイサルファイト配列決定との間のメチル化の定量のバイアスを示すブランド・アルトマンプロットであり、ｘ軸は、本開示によるＳＭＲＴ－ｓｅｑおよびバイサルファイト配列決定によって定量されたメチル化レベルの平均を示し、ｙ軸は、本開示によるＳＭＲＴ－ｓｅｑおよびバイサルファイト配列決定によって定量されたメチル化レベルの差を示す。２つの測定値間の中央値の差は、－６．８５％（範囲：－１０．１～１．７％）であった。バイサルファイト配列決定による値に対して、本開示によって定量されたメチル化レベルのパーセンテージ変化の中央値は、－９．９６％（範囲：－１４，７６～３．２１％）であった。この差は、平均値に応じて異なる。２つの尺度の平均が大きいほど、バイアスが大きくなる。

図８６Ｃは、図８６Ｂと同じデータを示しているが、メチル化レベルの差は、２つのメチル化レベルの平均で割ったものである。図８６Ｃはまた、２つの測定値の平均が大きいほど、バイアスが大きくなることを示す。

エラーはバイサルファイト配列決定にある可能性があり、ＳＭＲＴ－ｓｅｑを使用した方法とは関係ない。従来の全ゲノムバイサルファイト配列決定（Ｉｌｌｕｍｉｎａ）は、特定のゲノム領域では、方法間でメチル化レベルの定量にかなりの変動があり、著しくバイアスのある配列出力および過大評価された全体的なメチル化を導入することが報告された（Ｏｌｏｖａｅｔａｌ．ＧｅｎｏｍｅＢｉｏｌ．２０１８；１９：３３）。本明細書に開示される実施形態は、いくつかの例示的な利点を有し、ＤＮＡを劇的に分解するバイサルファイト変換なしで実施することができ、ＰＣＲ増幅なしで実施することができる。

３．組織起源
本開示の実施形態に従って、単一分子リアルタイム配列決定（ＳＭＲＴ－ｓｅｑ、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を使用して、様々な癌のタイプにわたるメチル化分析を実施した。ＳＭＲＴ－ｓｅｑに使用される癌のタイプには、大腸癌（ｎ＝３）、食道癌（ｎ＝２）、乳癌（ｎ＝２）、腎細胞癌（ｎ＝２）、肺癌（ｎ＝２）、卵巣癌（ｎ＝２）、前立腺癌（ｎ＝２）、胃癌（ｎ＝２）、および膵臓癌（ｎ＝１）が含まれるが、これらに限定されない。それらの一致する隣接する非腫瘍組織も、ＳＭＲＴ－ｓｅｑに含まれた。データセットは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０によって調製されたＤＮＡから生成された。

図８７Ａおよび８７Ｂは、様々な腫瘍組織とペアの隣接する非腫瘍組織との間の全体的なメチル化レベルの比較を示す。メチル化レベルは、パーセンテージとしてｙ軸にある。図８７Ａでは、ＳＭＲＴ－ｓｅｑによって、メチル化レベルが定量されている。図８７Ｂでは、バイサルファイト配列決定によって、メチル化レベルが定量されている。組織のタイプ（すなわち、腫瘍組織または隣接する非腫瘍組織）は、ｘ軸にある。異なるシンボルは、異なる起源の組織を表す。

図８７Ａは、乳癌、大腸癌、食道癌、肝臓癌、肺癌、卵巣癌、膵臓癌、腎細胞癌、および胃癌を含む腫瘍組織の全体的なメチル化レベルが、対応する非－腫瘍組織（それぞれ、乳房、結腸、食道、肝臓、肺、卵巣、膵臓、前立腺、腎臓、および胃を含む）よりも有意に低かった（Ｐ値＝０．００６、対応のある標本のウィルコクソンの符号順位検定）。腫瘍とペアの非腫瘍組織との間のメチル化レベルの差の中央値は、－２．７％であった（ＩＱＲ：－６．４～－０．８％）。

図８４Ｂは、腫瘍組織におけるより低いメチル化レベルを確認する。したがって、これらの結果は、様々な癌のタイプおよび組織にわたるメチル化パターンが、本開示によるＳＭＲＴ－ｓｅｑによって正確に決定できることを示唆し、組織生検の基礎となる癌の早期発見、予後、診断および治療のための本開示の幅広い用途を意味している。様々な腫瘍のタイプにわたるメチル化レベルの低下の程度の違いは、メチル化パターンが癌のタイプに関連していることを示唆している可能性があり、癌の起源の組織を決定することができる。

Ｄ．強化検出および他の技術
一部の実施形態では、塩基修飾（例えば、メチル化）の分析は、次のパラメータ：配列文脈、ＩＰＤおよびＰＷ、のうちの１つ以上を使用して実施され得る。ＩＰＤとＰＷは、参照ゲノムに整列することなく、配列決定反応から決定することができる。単一分子リアルタイム配列決定アプローチの態様により、配列文脈、ＩＰＤ、およびＰＷを決定する精度がさらに強化され得る。１つの態様は、配列鋳型の特定の箇所を複数回測定し得る循環コンセンサス配列の性能であり、これにより、これらの複数のリードによる値の平均または分布に基づいて、配列文脈、ＩＰＤ、およびＰＷを測定することが可能になる。特定の実施形態では、整列プロセスを伴わない塩基修飾の分析は、計算効率を高め、所用時間を短縮し、分析のコストを削減し得る。実施形態は、整列プロセスなしで実施することができる。さらに他の実施形態では、整列プロセスを使用することができ、また、それが好ましい場合があり、例えば、整列プロセスを使用して、検出された塩基修飾の臨床的または生物学的意味を確認する場合（例えば、腫瘍抑制因子は高メチル化されている場合）、または、整列プロセスを使用して、さらなる分析のために目的の特定のゲノム領域に対応する配列決定データのサブセットを選択する場合である。選択されたゲノム領域からのデータが望まれる実施形態の場合、これらの実施形態は、ゲノム内の目的の領域、例えば、制限酵素またはＣＲＩＳＰＲ－Ｃａｓ９システムで切断することができる１つ以上の酵素または酵素ベースの方法論を使用して、そのような領域を標的化することを伴い得る。ＰＣＲ増幅は、典型的には、ＤＮＡの塩基修飾に関する情報が保存されないため、ＣＲＩＳＰＲ－Ｃａｓ９システムはＰＣＲベースの方法よりも好ましい場合がある。そのような選択された（生物情報学的に〔例えば、整列を介して〕またはＣＲＩＳＰＲ－Ｃａｓ９などの方法を介して）領域のメチル化レベルを分析して、組織起源、胎児障害、妊娠障害、および癌に関する情報を提供することができる。

１．参照ゲノムに整列せずにサブリードを使用したメチル化分析
実施形態では、メチル化分析は、参照ゲノムへの整列なしで、サブリードからの動態特徴および配列文脈を含む測定ウィンドウを使用して実施され得る。図８８に示されるように、ゼロモード導波（ＺＭＷ）に由来するサブリードを使用して、コンセンサス配列８８０２（循環コンセンサス配列（ＣＣＳ）としても知られている）を構築した。限定されないがＰＷおよびＩＰＤ値を含むＣＣＳの各位置での平均動態値を計算した。ＣｐＧ部位を取り巻く配列文脈は、そのＣｐＧ部位の上流および下流配列に基づいてＣＣＳから決定された。したがって、本開示で定義される測定ウィンドウは、訓練のために構築され、測定ウィンドウには、ＣＣＳに関連する動態特徴を有するサブリードに従う、ＰＷ、ＩＰＤ値、および配列文脈が含まれる。この手順により、サブリードを参照ゲノムに整列することが不要になる。

図８８に示される原理を試験するために、全ゲノム増幅ＤＮＡに由来する６０１，９４２個の非メチル化ＣｐＧ部位と、ＣｐＧメチルトランスフェラーゼ（例えば、Ｍ．ＳｓｓＩ）処理ＤＮＡに由来する１６３，５２７個のメチル化ＣｐＧ部位とを使用して、訓練データセットを作成した。全ゲノム増幅ＤＮＡに由来する５４６，３９３個の非メチル化ＣｐＧ部位と、ＣｐＧメチルトランスフェラーゼ（例えば、Ｍ．ＳｓｓＩ）処理ＤＮＡに由来する１９３，６４１個のメチル化ＣｐＧ部位を使用して、試験データセットを作成した。データセットは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０によって調製されたＤＮＡから生成された。

図８９に示されるように、一実施形態では、サブリードおよびＣＣＳに関連する動態特徴および配列文脈を使用して、メチル化を決定するための畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練すると、試験データセットおよび訓練データセットにおいて、メチル化ＣｐＧ部位と非メチル化ＣｐＧ部位を区別するＡＵＣ値が、それぞれ０．９４および０．９５を達成することができる。他の実施形態では、他のニューラルネットワークモデル、深層学習アルゴリズム、人工知能、および／または機械学習アルゴリズムを使用することができる。

メチル化の確率のカットオフを０．２設定すると、メチル化ＣｐＧ部位の検出において、８２．４％の感度と９１．７％の特異度を取得することができる。これらの結果は、参照ゲノムへの事前の整列なしで、動態特徴を伴うサブリードを使用して、メチル化ＣｐＧ部位と非メチル化ＣｐＧ部位を区別することができることを示している。

別の実施形態では、ＣｐＧ部位全体のメチル化状態を決定するために、ＣＣＳ情報なしで、かつ参照ゲノムへの事前の整列なしで、サブリードから直接配列文脈とともに動態特徴を使用することもできる。メチル化状態を決定するためのＣＮＮモデルを訓練するために、サブリードに存在するＣｐＧの２０ｎｔ上流と２０ｎｔ下流にまたがる位置でのＰＷおよびＩＰＤ値を含む動態特徴を使用した。図９０に示されるように、本開示の実施形態による、サブリードに関連する動態特徴を使用するＲＯＣ曲線のＡＵＣは、訓練および試験データセットにおいてメチル化ＣｐＧ部位を検出するために、それぞれ０．７０および０．６９であった。これらのデータは、本開示の実施形態を使用して、サブリードに関連する動態特徴を使用するが、コンセンサス配列の事前の整列および構築なしで、ＤＮＡ分子のメチル化パターンを推測することが実行可能であることを示唆した。しかしながら、この実施形態でメチル化を決定する性能は、本開示に記載されるように、整列情報またはコンセンサス配列を組み合わせて利用する実施形態よりも劣っていた。サブリードと動態値を生成する際の精度の強化により、サブリードとそれに関連する動態特徴を使用して塩基修飾を決定する性能が改善すると考えられる。

２．標的化単一分子リアルタイム配列決定を使用した、欠失領域のメチル化分析
本明細書に記載の方法はまた、１つ以上の選択されたゲノム領域を分析するために適用され得る。一実施形態では、目的の領域（複数可）は、最初に、目的の領域（複数可）由来のＤＮＡ分子が相補的配列を有する合成オリゴヌクレオチドにハイブリダイズすることを可能にするハイブリダイゼーション法によって濃縮され得る。本明細書に記載の方法を使用した塩基修飾の分析では、元のＤＮＡ分子の塩基修飾情報がＰＣＲ産物に伝達されないため、配列決定にかける前に、標的ＤＮＡ分子をＰＣＲで増幅することができない。ＰＣＲ増幅を行わずにこれらの標的領域を濃縮するために、いくつかの方法が開発されている。

別の実施形態では、標的領域（複数可）は、ＣＲＩＳＰＲ－Ｃａｓ９システムの使用を通して濃縮することができる（Ｓｔｅｖｅｎｓｅｔａｌ．ＰＬＯＳＯｎｅ２０１９；１４（４）：ｅ０２１５４４１、Ｗａｔｓｏｎｅｔａｌ．ＬａｂＩｎｖｅｓｔ２０２０；１００：１３５－１４６）。一実施形態では、ＤＮＡ試料中のＤＮＡ分子の末端を最初に脱リン酸化することで、それらが配列決定アダプターに直接連結されないようにする。次いで、目的の領域（複数可）は、ガイドＲＮＡ（ｃｒＲＮＡ）を伴うＣａｓ９タンパク質によって誘導されて、二本鎖切断を作成する。次いで、二本鎖切断と隣接する両側の目的の領域（複数可）を、選択した配列決定プラットフォームによって指定された配列決定アダプターに連結する。別の実施形態では、Ｃａｓ９タンパク質と結合していないＤＮＡ分子が分解されるように、ＤＮＡをエキソヌクレアーゼで処理することができる（Ｓｔｅｖｅｎｓｅｔａｌ．ＰＬＯＳＯｎｅ２０１９；１４（４）：ｅ０２１５４４１）。これらの方法は、ＰＣＲ増幅を伴わないため、塩基修飾を含む元のＤＮＡ分子の配列を決定し、塩基修飾を決定することができる。一実施形態では、この方法を使用して、相同配列を共有する多数の領域、例えば、長鎖散在反復配列（ＬＩＮＥ）を標的にすることができる。一実施例では、そのような分析は、胎児の異数性の検出のために、母体血漿中の循環無細胞ＤＮＡの分析に使用することができる（Ｋｉｎｄｅｅｔａｌ．ＰＬＯＳＯｎｅ２０１２；７（７）：ｅ４１１６２）。

図９１に示されるように、ＣＲＩＳＰＲ（クラスター化して規則的な配置の短い回文配列リピート）／Ｃａｓ９（ＣＲＩＳＰＲ関連タンパク質９）システムを使用して、標的化単一分子リアルタイム配列決定を実装することができる。５’ホスホリル基（すなわち、５’－Ｐ）および３’ヒドロキシル基（すなわち、３’－ＯＨ）を有するＤＮＡ断片（例えば、分子９１０２）は、５’－Ｐを除去し、３’－ＯＨをジデオキシヌクレオチド（すなわち、ｄｄＮＴＰ）と連結することで、末端ブロックプロセスにかけた。したがって、末端が修飾された得られた分子（例えば、分子９１０４）は、その後のＤＮＡライブラリ調製のためのアダプターと連結できなかった。しかしながら、末端ブロックされた分子は、ＣＲＩＳＰＲ／Ｃａｓ９システムによって媒介される標的特異的切断にかけられ、目的の分子に５’－Ｐおよび３’－ＯＨ末端を導入した。５’－Ｐおよび３’－ＯＨ末端を有するそのような新たに切断されたＤＮＡ分子（例えば、分子９１０６）は、ヘアピンアダプターと連結して、環状分子９１０８を形成することができるようになった。連結されていないアダプター、直鎖ＤＮＡ、および１つの切断のみを有する分子を、エキソヌクレアーゼＩＩＩおよびＶＩＩによる消化にかけた。その結果、２つのヘアピンアダプターで連結された分子が濃縮され、単一分子リアルタイム配列決定にかけられた。これらの標的分子は、本開示に存在する実施形態による塩基修飾分析（すなわち、標的化単一分子リアルタイム配列決定）に適していた。

図９２に示されるように、ＣＲＩＳＰＲ／Ｃａｓ９システムのＣａｓ９タンパク質は、ＣＲＩＳＰＲＲＮＡ（ｃｒＲＮＡ、ＤＮＡ標的化に関与）およびトランス活性化ｃｒＲＮＡ（ｔｒａｃｒＲＮＡ、Ｃａｓ９との複合体の形成に関与）を含むガイドＲＮＡ（すなわち、ｇＲＮＡ）と相互作用した（Ｐｉｃｋａｒ－Ｏｌｉｖｅｒｅｔａｌ．ＮａｔＲｅｖＭｏｌＣｅｌｌｂｉｏｌ．２０１９；２０：４９０－５０７）。曲線状の形は、Ｃａｓ９タンパク質を表している。これは、ＣＲＩＳＰＲ配列をガイドとして使用して、ＣＲＩＳＰＲ配列の一部に相補的なＤＮＡの特定の鎖を認識して切断する酵素である。ｃｒＲＮＡは、ｔｒａｃｒＲＮＡにアニーリングされた。一実施形態では、合成単一ＲＮＡ配列は、シングルガイドＲＮＡ（ｓｇＲＮＡ）と呼ばれるｃｒＲＮＡおよびｔｒａｃｒＲＮＡ配列の両方を含有していた。スペーサー配列と呼ばれるｃｒＲＮＡのセグメントは、Ｃａｓ９タンパク質が、標的領域への相補的な塩基対形成を通して、二本鎖ＤＮＡ（ｄｓＤＮＡ）の特定の鎖を認識して切断するように導く。一実施形態では、スペーサー配列と標的ｄｓＤＮＡとの間の相補性に関与するミスマッチはなかった。別の実施形態では、スペーサー配列と標的ｄｓＤＮＡとの間の相補的な塩基対形成は、ミスマッチを可能にするであろう。例えば、ミスマッチの数は、限定されないが、１、２、３、４、５、６、７、８などである。一実施形態では、ＣＲＩＳＰＲ配列は、切断効率、特異性、感度、および異なるＣＲＩＳＰＲ／Ｃａｓ複合体の設計の多重化の能力に応じて、プログラム可能である。

図９３に示されるように、本発明者らは、ヒトゲノムのＡｌｕエレメントにまたがる２つの切断を標的とするＣＲＩＳＰＲ／Ｃａｓ９複合体のペアを設計した。「ＸＸＸ」は、Ｃａｓ９ヌクレアーゼ切断部位に隣接する３つのヌクレオチドを示す。「ＹＹＹ」は、「ＸＸＸ」に相補的な３つの対応するヌクレオチドを示す。５’－ＮＧＧは、プロトスペーサー隣接モチーフ（ＰＡＭ）配列を表す。他のＣＲＩＳＰＲ／Ｃａｓシステムでは、ＰＡＭ配列が異なる場合があり、Ｃａｓヌクレアーゼ切断部位に隣接する配列が異なり得る。この図では、Ａｌｕ領域のサイズは、２２３ｂｐであった。１，１７５，３２９個のＡｌｕ領域があり、各々がヒトゲノム内のこのようなＡｌｕエレメントのホモログを含有していた。中央値として５つのＣｐＧ部位が、このＡｌｕエレメントに位置していた（範囲：０～３４）。一例として、この設計には、２０ｎｔのスペーサー配列を含有する３６ｎｔのｃｒＲＮＡが含有された。詳細なｇＲＮＡの配列情報は、以下のとおりである。

最初の切断を導入するための第１のＣＲＩＳＰＲ／Ｃａｓ９複合体：（５’から３’までのすべての配列）
ｃｒＲＮＡ：ＧＣＣＵＧＵＡＡＵＣＣＣＡＧＣＡＣＵＵＵＧＵＵＵＵＡＧＡＧＣＵＡＵＧＣＵ
ｔｒａｃｒＲＮＡ：ＡＧＣＡＵＡＧＣＡＡＧＵＵＡＡＡＡＵＡＡＧＧＣＵＡＧＵＣＣＧＵＵＡＵＣＡＡＣＵＵＧＡＡＡＡＡＧＵＧＧＣＡＣＣＧＡＧＵＣＧＧＵＧＣＵＵＵ

２番目の切断を導入するための第２のＣＲＩＳＰＲ／Ｃａｓ９複合体：
ｃｒＲＮＡ：ＡＧＧＧＵＣＵＣＧＣＵＣＵＧＵＣＧＣＣＣＧＵＵＵＵＡＧＡＧＣＵＡＵＧＣＵ
ｔｒａｃｒＲＮＡ：ＡＧＣＡＵＡＧＣＡＡＧＵＵＡＡＡＡＵＡＡＧＧＣＵＡＧＵＣＣＧＵＵＡＵＣＡＡＣＵＵＧＡＡＡＡＡＧＵＧＧＣＡＣＣＧＡＧＵＣＧＧＵＧＣＵＵＵ

ｃｒＲＮＡ分子をｔｒａｃｒＲＮＡ（例えば、６７ｎｔ）にアニーリングして、ｇＲＮＡの骨格を形成した。設計されたｇＲＮＡを含むＣａｓ９ヌクレアーゼは、特定のレベルの特異性で、標的切断部位を有する末端ブロックされた分子の両方の鎖を切断することができる。ヒトゲノムには、設計されたＣＲＩＳＰＲ／Ｃａｓ９複合体によって切断されると想定された目的のＡｌｕ領域が１１６，１８４箇所あった。したがって、Ｃａｓ９複合体による標的切断後、これらのＡｌｕ領域をヘアピンアダプターに連結することができる。ヘアピンアダプターに連結されたこれらの分子は、単一分子リアルタイム配列決定によって配列決定され得る。これらのＡｌｕ領域のメチル化パターンは、標的化の様式で決定することができる。一実施形態では、２つのＣａｓ９複合体からのスペーサー配列は、二本鎖ＤＮＡ基質の同じ鎖（例えば、ワトソン鎖またはクリック鎖）と、塩基対を形成することができる。一実施形態では、２つのＣａｓ９複合体由来のｇＲＮＡのスペーサー配列は、二本鎖ＤＮＡ基質の異なる鎖と塩基対を形成することができる。例えば、Ｃａｓ９複合体の一方のスペーサー配列は、二本鎖ＤＮＡ基質のワトソン鎖に相補的であり、かつＣａｓ９複合体の他方のスペーサー配列は、二本鎖ＤＮＡ基質のクリック鎖に相補的であり、その逆も同様であった。

一実施形態では、ヘアピンアダプターに連結されたＤＮＡ分子は、エキソヌクレアーゼ消化に耐性がある環状形態であった。したがって、アダプターに連結されたＤＮＡ産物を、エキソヌクレアーゼ（例えば、エキソヌクレアーゼＩＩＩおよびＶＩＩ）で処理して、直鎖ＤＮＡ（例えば、オフターゲットＤＮＡ分子）を除去することができる。エキソヌクレアーゼを使用するこのステップは、標的分子をさらに濃縮することができる。配列決定される標的分子のサイズは、１つ以上のＣａｓ９ヌクレアーゼによって導入される２つの切断部位間のスパンサイズ（例えば、１０ｂｐ、２０ｂｐ、３０ｂｐ、４０ｂｐ、５０ｂｐ、１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、１０００ｂｐ、２０００ｂｐ、３０００ｂｐ、４０００ｂｐ、５０００ｂｐ、１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、１００ｋｂ、２００ｋｂ、３００ｋｂ、５００ｋｂ、および１Ｍｂを含むが、これらに限定されない）に依存した。

一例として、Ａｌｕ領域を標的とするｇＲＮＡを含むＣａｓ９を使用して、本発明者らは、単一分子リアルタイム配列決定を使用して、ヒト肝細胞癌（ＨＣＣ）腫瘍組織試料から１８７，０１０分子を配列決定した。それらの中で、１１３，４９１個の分子が、標的切断を有していた（すなわち、オンターゲット切断率は分子の約６０．７％であった）。データセットは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０によって調製されたＤＮＡから生成された。言い換えれば、この実施例では、Ｃａｓ９複合体によって目的の分子に導入された切断部位の特異度は６０．７％であった。他の実施形態では、Ｃａｓ９または他のＣａｓ複合体によって目的の分子に導入される切断部位の特異度は変化し、限定されないが、１％、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、および１００％を含むであろう。Ａｌｕ配列のＣｐＧ部位でのメチル化状態を決定するために、参照ゲノムに整列せずにＣＣＳおよびサブリードに由来するＩＰＤ値、ＰＷ値、および配列文脈を使用した。

図９４に示されるように、バイサルファイト配列決定および本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベル間で、同様のメチル化の分布が観察された。図９４は、バイサルファイト配列決定および単一分子リアルタイム配列決定（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）のメチル化密度（パーセント）のヒストグラムを示す。ｙ軸は、ｘ軸に示されている特定のメチル化密度を有する試料内の分子の割合を示す。この結果は、Ｃａｓ９を介した標的化単一分子リアルタイム配列決定を使用して、メチル化パターンを決定することが実行可能であることを示唆した。この結果はまた、参照ゲノムに整列することなく、ＰＷ値およびＩＰＤ値を含むサブリードに関連する動態特徴を使用して、メチル化を決定できることも示唆した。図９４に示すように、低メチル化を示すかなりの量のＡｌｕ領域が観察され、これは、Ａｌｕリピート領域で癌ゲノムが脱メチル化されるという以前の知見と一致していた（Ｒｏｄｒｉｇｕｅｚｅｔａｌ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２００８；３６：７７０－７８４）。

図９５は、ｙ軸に、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルの分布を示し、ｘ軸に、バイサルファイト配列決定によって決定されたメチル化密度を示す。図９５に示されるように、Ａｌｕ領域のメチル化レベルは、バイサルファイト配列決定の結果に従って、５つのカテゴリー、つまり０～２０％、２０～４０％、４０～６０％、６０～８０％、および８０～１００％に分類された。同じセットのＡｌｕ領域のメチル化レベルは、Ａｌｕ領域の各カテゴリーの動態特徴および配列文脈（ｙ軸）を含む測定ウィンドウを使用して、モデルによってさらに決定された。本発明者らのモデルによって決定されたメチル化レベルの分布は、ビン分けされたカテゴリー全体のメチル化レベルの昇順に従って、徐々に増加した。繰り返すが、これらの結果は、Ｃａｓ９を介した標的化単一分子リアルタイム配列決定を使用して、メチル化パターンを決定することが可能であることを示唆している。参照ゲノムに整列することなく、ＰＷ値およびＩＰＤ値を含むサブリードに関連する動態特徴を使用して、メチル化を決定することができる。

さらに別の実施形態では、他のタイプのＣＲＩＳＰＲ／Ｃａｓシステム、例えば、限定されないが、Ｃａｓ１２ａ、Ｃａｓ３、および他のオーソログ（例えば、ＳｔａｐｈｙｌｏｃｏｃｃｕｓａｕｒｅｕｓＣａｓ９）または改変されたＣａｓタンパク質（強化されたＡｃｉｄａｍｉｎｏｃｏｃｃｕｓｓｐｐＣａｓ１２ａ）を使用して、標的化単一分子リアルタイム配列決定を行うことができる。

一実施形態では、ヌクレアーゼ活性のない非活性化Ｃａｓ９（ｄＣａｓ９）を使用して、切断することなく、標的分子を濃縮することができる。例えば、標的ＤＮＡ分子は、ビオチン化ｄＣａｓ９および標的配列特異的ｇＲＮＡを含む複合体と結合した。ｄＣａｓ９はヌクレアーゼを欠損しているため、このような標的ＤＮＡ分子は、ｄＣａｓ９によって切断されない可能性がある。ストレプトアビジンでコーティングされた磁気ビーズの使用を通して、標的ＤＮＡ分子を濃縮することができる。

一実施形態では、Ｃａｓタンパク質とインキュベートした後、エキソヌクレアーゼを使用して、ＤＮＡ混合物を消化することができる。エキソヌクレアーゼは、Ｃａｓタンパク質非結合ＤＮＡ分子を分解する可能性がある一方で、エキソヌクレアーゼは、Ｃａｓタンパク質結合ＤＮＡ分子を分解しないか、または分解の効率が大幅に低下する可能性がある。したがって、Ｃａｓタンパク質が結合した標的分子に関する情報は、最終的な配列決定結果において、さらに濃縮され得る。

図９６は、組織および組織内のＡｌｕ領域のメチル化レベルの表を示す。多くの組織は、８８％～９２％の範囲を含む、８５～９２％の範囲のメチル化レベルを示す。ＨＣＣ腫瘍組織および胎盤組織は、８０％未満のメチル化レベルを示した。図９６に見られるように、ＨＣＣ腫瘍は、本発明者らの設計によって標的とされたＡｌｕ領域において、頻繁に低メチル化されていることが示された。したがって、本開示に存在するＡｌｕ領域のメチル化決定は、腫瘍生検または他の組織もしくは細胞から抽出されたＤＮＡを使用して、腫瘍の進行中または腫瘍の治療中の癌の検出、病期分類、および監視に使用することができる。

Ａｌｕ領域全体の胎盤組織の低メチル化は、妊婦の血漿ＤＮＡを使用して非侵襲的な出生前検査を行うために使用することができる。例えば、低メチル化の程度が高い場合は、妊婦の胎児ＤＮＡ画分が高いことを示している可能性がある。別の例では、女性が染色体異数性の胎児を妊娠している場合、このアプローチによって検出された影響を受けた染色体に由来するＡｌｕ断片の数は、正倍数性の胎児を妊娠している女性とは量的に異なる（すなわち、増加または減少のいずれか）可能性がある。したがって、胎児が２１番染色体トリソミーを有する場合、このアプローチによって検出される２１番染色体に由来するＡｌｕ断片の数は、正倍数性の胎児を妊娠している女性と比較した場合、増加している可能性がある。一方、胎児が一染色体性の染色体を有する場合、正倍数性の胎児を妊娠している女性と比較した場合、このアプローチによって検出されたその染色体に由来するＡｌｕ断片の数は、減少している可能性がある。影響を受けていない染色体と比較して、血漿中の影響を受けた染色体（１３、１８、または２１）の余分な低メチル化の提示の決定は、正常な胎児と異常な胎児を妊娠している女性を区別するための分子指標として使用することができる。

３．異なるタイプの癌についてのＣａｓ９複合体の標的となるＡｌｕ領域のメチル化分析
標的のＡｌｕリピートは異なる組織で高度にメチル化されていたが、本発明者らは、異なるタイプの癌がそれらのＡｌｕリピート全体で異なる脱メチル化パターンを有していると仮定した。一実施形態では、Ｃａｓ９ベースの標的化単一分子リアルタイム配列決定を使用して、メチル化パターンを分析し、本明細書に存在する開示に従って異なる癌のタイプを決定することができる。

図９７は、異なるタイプの癌のＡｌｕリピートに関連するメチル化信号のクラスター分析を示す。ＴＣＧＡデータベース（ｗｗｗ．ｃａｎｃｅｒ．ｇｏｖ／ａｂｏｕｔ－ｎｃｉ／ｏｒｇａｎｉｚａｔｉｏｎ／ｃｃｇ／ｒｅｓｅａｒｃｈ／ｓｔｒｕｃｔｕｒａｌ－ｇｅｎｏｍｉｃｓ／ｔｃｇａ）からの癌対象は、マイクロアレイ技術（ＩｎｆｉｎｉｕｍＨｕｍａｎＭｅｔｈｙｌａｔｉｏｎ４５０ＢｅａｄＣｈｉｐ、ＩｌｌｕｍｉｎａＩｎｃ）を使用して分析されたＣｐＧ部位において、メチル化状態を有した。マイクロアレイチップに存在し、ＣＲＩＳＰＲ／Ｃａｓ９複合体の標的となるＡｌｕ領域と重複する３，０２４個のＣｐＧ部位にわたるメチル化状態を分析した。患者の目的のＡｌｕ領域に由来するＣｐＧがいくつかある。各ＣｐＧのメチル化レベルは、マイクロアレイによって定量した（メチル化指数またはベータ値とも呼ばれる）。患者全体のそれらのＣｐＧ部位でのメチル化レベルの数に基づいて階層的クラスター分析を行った。したがって、それらのＣｐＧ部位で同様のメチル化レベルのパターンを有する患者は、一緒にまとめられてクレードを形成する。異なる患者全体のメチル化パターンの類似性は、クラスタリング樹状図の高さの値によって示される。この例では、高さはユークリッド距離に従って計算された。他の実施形態では、他の距離メトリックが使用され、限定されないが、ミンコフスキー、チェビシェフ、マハラノビス、マンハッタン、コサイン、相関、スピアマン、ハミング、ジャッカード距離などを含む。本明細書で使用される高さは、クラスター間の距離メトリックの値を表し、クラスター間の関連性を反映している。例えば、２つのクラスターが高さｘで重なり合うのを観察した場合、それらのクラスター間の距離はｘ（例えば、すべてのクラスター間患者間の平均距離）であることが示唆された。

ＣｐＧ部位のメチル化状態を使用して、クラスター分析の結果で、患者は癌のタイプに応じて異なる別個のグループにクラスター化された。癌のタイプとしては、膀胱尿路上皮癌（ＢＬＣＡ）、浸潤性乳癌肉腫（ＢＲＣＡ）、卵巣漿液性嚢胞腺癌（ＯＶ）、膵臓腺癌（ＰＡＡＤ）、ＨＣＣ、肺腺癌（ＬＵＡＤ）、胃腺癌（ＳＴＡＤ）、皮膚黒色腫（ＳＫＣＭ）、および子宮癌肉腫（ＵＣＳ）が含まれる。図中の癌のタイプの後の数字は、患者を示している。したがって、クラスタリングは、本発明者らが選択したＡｌｕリピートのメチル化信号が、図９７に示されていない癌のタイプを含む癌のタイプを分類するために有益であったことを示唆している。一実施形態では、組織生検におけるメチル化パターンに基づいて、原発性腫瘍と続発性腫瘍を区別することができる。

４．サブリードの深度とサイズカットオフ
このセクションは、サブリードの深度および／またはサイズカットオフを使用して、メチル化検出の精度および／または効率を改善できることを示す。特定のサブリードの深度またはサイズを試験するために、ライブラリ調製を変更する場合がある。

ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０に基づいて、全ゲノム増幅またはＭ．ＳｓｓｓＩ処理後の試料から生成された試験データセットの全体的なメチル化レベルの定量に対するリード深度の影響を分析した。少なくとも特定のカットオフを有するサブリードでカバーされているゲノム部位を、例えば、限定されないが、１倍、１０倍、２０倍、３０倍、４０倍、５０倍、６０倍、７０倍、８０倍、９０倍、１００倍などで調査した。

図９８Ａは、全ゲノム増幅に関与した試験データセットにおける全体的なメチル化レベルの定量に対するリード深度の影響を示す。図９８Ｂは、Ｍ．ＳｓｓｓＩ処理に関与した試験データセットにおける全体的なメチル化レベルの定量に対するリード深度の影響を示す。ｙ軸は、全体的なメチル化レベルをパーセンテージで示している。倍軸は、サブリード深度を示す。破線は、全体的なメチル化レベルの期待値を示している。

図９８Ａに示されるように、全ゲノム増幅を含むデータセットの場合、全体的なメチル化は、５．７％から５．２％の範囲で、１倍、１０倍、２０倍、４０倍、５０倍などの最初のいくつかのカットオフで低下した。メチル化レベルは、５０倍以上のカットオフで、約５％で徐々に安定した。

一方、図９８Ｂでは、Ｍ．ＳｓｓｓＩ処理後の試料から生成されたデータセットの場合、全体的なメチル化は、７０％から８３％の範囲で、１倍、１０倍、２０倍、４０倍、５０倍などの最初のいくつかのカットオフで増加した。メチル化レベルは、５０倍以上のカットオフで、約８３％で徐々に安定した。

一実施形態では、サブリード深度カットオフを調整して、塩基修飾分析の性能を異なる用途にわたって受け入れられるようにすることができる。他の実施形態では、やや緩和したサブリード深度カットオフを使用すると、下流分析に好適なより多くのＺＭＷ（すなわち、分子の数）を取得することができる。さらに別の実施形態では、本開示によるＳＭＲＴ－ｓｅｑによって決定されたメチル化レベルの読み出しを、第２の測定で較正することができる（例えば、限定されないが、ＢＳ－ｓｅｑ、デジタルドロップレットＰＣＲ（バイサルファイト変換試料で）、メチル化特異的ＰＣＲ、またはメチル化シトシン結合抗体もしくは他のタンパク質）。別の実施形態では、第２の測定値は、５ｍＣに保持された全ゲノム増幅後のＤＮＡ分子をＢＳ－ｓｅｑ、デジタルドロップレットＰＣＲ（バイサルファイト変換試料上）、メチル化特異的ＰＣＲ、またはメチルＣｐＧ結合ドメイン（ＭＢＤ）タンパク質濃縮ゲノム配列決定（ＭＢＤ－ｓｅｑ）にかけることによって取得される。一例として、５ｍＣ保持全ゲノム増幅は、ＤＮＡプライマーゼＴｔｈＰｒｉｍＰｏｌ、ポリメラーゼｐｈｉ２９、およびＤＮＭＴ１（ＤＮＡメチルトランスフェラーゼ１）によって媒介される可能性がある。

異なるサブリード深度について、様々なタイプの癌および非腫瘍組織にわたるメチル化レベルを分析した。本開示によるＳＭＲＴ－ｓｅｑによって決定されたメチル化レベルも、ＢＳ－ｓｅｑ配列決定の結果と比較された。ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０を使用して、中央値が４，３００万個のサブリード（四分位範囲（ＩＱＲ）：３，０００～５，２００万個）を取得し、これにより、中央値が４６０万個の循環コンセンサス配列（ＣＣＳ）の生成が可能となり、ヒト参照ゲノム（ＩＱＲ：２８０～５８０万個）と整列した。これらの試料のうち、２２の試料は、メチル化パターンを決定するための確立された超並列バイサルファイト配列決定（ＢＳ－ｓｅｑ）にもかけられ、メチル化レベルを比較するための第２の測定値を提供する。

図９９は、本開示によるＳＭＲＴ－ｓｅｑ（ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０）によって決定された全体的なメチル化レベルと、異なるサブリード深度カットオフを使用したＢＳ－ｓｅｑとの間の比較を示す。ＳＭＲＴ－ｓｅｑによって決定されたパーセンテージとしてのメチル化レベルは、ｙ軸に示される。バイサルファイト配列決定によって決定されたパーセンテージとしてのメチル化レベルは、ｘ軸にある。記号は、１倍、１０倍、および３０倍の異なるサブリードの深度を示す。３本の対角線は、異なるサブリード深度に近似した線を示す。

図９９は、サブリードによって少なくとも１回カバーされたゲノム部位を分析すると（すなわち、サブリード深度カットオフが１倍以上）、本開示によるＳＭＲＴ－ｓｅｑによって決定されたＣｐＧ部位のメチル化レベルが、ＢＳ－ｓｅｑによって決定されたものとよく相関していることを示した（ｒ＝０．８、Ｐ値＜０．０００１）。これらの結果は、本開示に存在する実施形態が、限定されないが、大腸癌、結腸直腸組織、食道癌、食道組織、乳癌、非癌性乳房組織、腎細胞癌、腎臓組織、肺癌、および肺組織を含む異なる組織型のメチル化レベルを測定するために使用され得ることを示唆した。また、本発明者らは、サブリード深度のカットオフを、それぞれ１０倍および３０倍に増加すると、これら２つの測定値間の相関が、０．８７（Ｐ値＜０．０００１）および０．９５（Ｐ値＜０．０００１）に改善することも観察した。一部の実施形態では、サブリード深度の増加、またはより多くのサブリードをカバーするゲノム領域の選択により、本開示によるＳＭＲＴ－ｓｅｑベースのメチル化決定の性能が改善するであろう。

図１００は、ＳＭＲＴ－ｓｅｑ（ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０）およびＢＳ－ｓｅｑによる２つの測定値間のメチル化レベルの相関に対するサブリード深度の影響を示す表である。最初の列は、サブリード深度のカットオフを示す。２番目の列は、相関係数であるピアソンのｒを示す。３番目の列は、カットオフに関連付けられたＣｐＧ部位の数を、括弧内の部位の数の範囲とともに示す。

図１００に示されるように、ＳＭＲＴ－ｓｅｑとＢＳ－ｓｅｑによる２つの測定値間のメチル化レベルの相関は、異なるサブリード深度カットオフに応じて変化した。一実施形態では、メチル化シトシンを非メチル化シトシンから区別するためのサブリード深度の最適なカットオフを決定するために、サブリード深度カットオフと２つの測定値間の相関係数（例えば、ピアソンの相関係数）との間の関係を利用することができる。図１００は、サブリード深度カットオフが３０倍（すなわち、３０倍以上）では、本開示によるＳＭＲＴ－ｓｅｑによって測定されたメチル化レベルは、ＢＳ－ｓｅｑによって生成された結果と最も高い相関を示した（ピアソンのｒ＝０．９５２）。他の実施形態では、限定されないが、１倍、１０倍、３０倍、４０倍、５０倍、６０倍、７０倍、８０倍、９００倍、１００倍、２００倍、３００倍、４００倍、５００倍、６００倍、７００倍、８００倍などのサブリード深度カットオフを使用することができる。

メチル化分析に使用されるＣｐＧ部位の数は、図１００に示されるように、サブリード深度のカットオフの増加とともに減少する。サブリード深度カットオフが１００倍では、３０倍のサブリード深度カットオフ（ピアソンのｒ＝０．９５２）と比較して、メチル化レベルの２つの測定値間により低い相関（ピアソンのｒ＝０．８７５）が観察された。より高いサブリードカットオフで相関が低いことは、より厳しいサブリード深度カットオフを満たすＣｐＧ部位の数がより少ないことに起因している可能性がある。一実施形態では、サブリード深度の要件とメチル化分析に使用され得る分子の数との間で、トレードオフを考慮することができる。例えば、メチル化パターンについてゲノム全体をスキャンすることを目的とした場合、より多くの分子が望ましいことがある。標的ＳＭＲＴ－ｓｅｑを使用して特定の領域に焦点を合わせた場合、その領域のメチル化パターンを取得するには、より高いサブリード深度が望ましいことがある。

図１０１は、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０によって生成されたデータの断片サイズに関するサブリード深度分布を示している。ｙ軸に、サブリードの深度を示し、ｘ軸に、ＤＮＡ分子の鎖長を示す。ＤＮＡ分子の鎖長は、循環コンセンサス配列（ＣＣＳ）のサイズから推定された。

サブリード深度は、ＳＭＲＴ－ｓｅｑデータを使用したメチル化決定の性能に影響を与える可能性があり、サブリード深度は、配列決定されるＤＮＡ分子の鎖長の関数であるため、ＤＮＡ分子のサイズは、試料のメチル化パターン分析に最適なサブリード深度を取得するために重要な場合がある。図１０１に示されるように、ＤＮＡが長いほど、サブリードの深度が浅くなる。例えば、サイズが１ｋｂの分子の集団の場合、サブリード深度の中央値は５０倍であった。サイズが１０ｋｂの分子の集団の場合、サブリード深度の中央値は１５倍であった。

一実施形態では、図１００に示されるように、サブリード深度の最適なカットオフは、少なくとも３０倍であり得、最高の相関係数をもたらす。３０倍の最適なサブリード深度カットオフを満たす分子のスループットをさらに改善するために、サブリード深度とＤＮＡ鋳型分子の鎖長との関係を利用することができる。例えば、図１０１では、３０倍は、約４ｋｂの鎖長を有する分子のサブリード深度の中央値である。したがって、ＳＭＲＴ－ｓｅｑライブラリを調製する前に、４ｋｂのＤＮＡ分子を分画し、配列決定を４ｋｂのＤＮＡ分子に制限することができる。他の実施形態では、ＤＮＡ分子の分画用に他のサイズのカットオフを使用することができ、限定されないが、１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、２ｋｂ、３ｋｂ、４ｋｂ、５ｋｂ、６ｋｂ、７ｋｂ、９ｋｂ、１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、５００ｋｂ、１Ｍｂ、またはサイズカットオフが異なる組み合わせを含む。

５．制限酵素ベースの標的化単一分子リアルタイム配列決定
このセクションでは、制限酵素を使用して、修飾の検出の実用性および／またはスループットおよび／または費用対効果を改善することを説明する。制限酵素で生成されたＤＮＡ断片は、試料の起源を特定するために使用することができる。

ａ）制限酵素を使用してＤＮＡ分子を消化する
実施形態では、単一分子リアルタイム配列決定（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓｓｙｓｔｅｍを使用）の前に、１つ以上の制限酵素を使用して、ＤＮＡ分子を消化することができる。制限酵素の認識部位の分布は、ヒトゲノムに不均一に存在するため、制限酵素によって消化されたＤＮＡは、歪んだサイズ分布を生成する可能性がある。制限酵素の認識部位がより多いゲノム領域は、より小さな断片に消化され、一方、制限酵素の認識部位が少ないゲノム領域は、より長い断片に消化され得る。実施形態では、サイズ範囲によって、１つ以上の制限酵素の同様の切断パターンを有する１つ以上の領域に由来するＤＮＡ分子を選択的に取得することができる。サイズ選択に必要なサイズ範囲は、１つ以上の制限酵素のインシリコの切断分析によって決定することができる。コンピュータプログラムを使用して、参照ゲノム（例えば、ヒト参照ゲノム）における目的の制限酵素の認識部位の数を決定することができる。このような参照ゲノムは、目的のゲノム領域のサイズ情報を提供するそれらの認識サイトに従って、インシリコで断片に剪断された。

図１２６は、ＤＮＡ末端修復およびＡテーリングを使用したＭｓｐＩベースの標的化単一分子リアルタイム配列決定の方法を示す。実施形態では、図１２６に示されるように、５’Ｃ＾ＣＧＧ３’部位を認識するＭｓｐＩを使用して、生物のＤＮＡ試料、例えば、限定されないが、ヒトＤＮＡ試料を消化することができる。５’ＣＧオーバーハングを有する消化されたＤＮＡ断片を、サイズ選択にかけ、ＣｐＧアイランドに由来するＤＮＡ分子を濃縮した。ＧおよびＣ残基（ＧＣ含量とも呼ばれる）が濃縮されたゲノム領域は、より短い断片を生成する場合がある。したがって、目的の領域のＧＣ含量に基づいて選択を行う断片サイズの範囲を決定することができる。様々なＤＮＡ断片サイズ選択ツールが当業者に利用可能であり、限定されないが、ゲル電気泳動、サイズ排除電気泳動、キャピラリー電気泳動、クロマトグラフィー、質量分析、濾過アプローチ、沈殿ベースのアプローチ、マイクロフルイディクス、およびナノフルイディクスを含む。サイズ分画されたＤＮＡ分子は、ＤＮＡ末端修復およびＡテーリングにかけられ、所望のＤＮＡ産物が、５’Ｔオーバーハングを有するヘアピンアダプターと連結され、環状ＤＮＡ鋳型が形成された。

例えば、限定されないが、エキソヌクレアーゼ（エキソヌクレアーゼＩＩＩおよびＶＩＩ）を使用して、連結されていないアダプター、直鎖ＤＮＡ、および不完全な環状ＤＮＡを除去した後、ヘアピンアダプターに連結されたＤＮＡ分子を、単一分子リアルタイム配列決定に使用して、本明細書に開示されるメチル化プロファイルを決定する際のＩＰＤ、ＰＷ、および配列文脈を決定することができる。ＣｐＧで濃縮されたゲノム領域を分析することによって、異なる組織または異なる疾患および／もしくは生理学的状態を有する組織あるいは生体試料から取得されたＤＮＡを、本開示の配列決定データ分析方法によって決定されるそれらのメチル化プロファイルによって区別および分類することができる。

実施形態では、図１２６のサイズ選択を含むステップの場合、所望のサイズ範囲は、ＭｓｐＩのインシリコ切断分析によって決定することができる。ヒト参照において、合計２，２８６，５４１箇所のＭｓｐＩ切断部位を決定した。ヒト参照ゲノムは、それらのＭｓｐＩ切断部位に従って、インシリコで断片に剪断された。合計２，２８６，５６５個の断片を取得した。個々の断片サイズは、その断片のヌクレオチドの総数によって決定された。

図１２７Ａおよび１２７Ｂは、ＭｓｐＩで消化された断片のサイズ分布を示す。これらの図のｙ軸は、特定のサイズの断片の頻度（パーセント）である。図１２７Ａは、５０から５００，０００ｂｐの範囲のｘ軸について対数目盛を有する。図１２７Ｂは、５０から１，０００ｂｐの範囲のｘ軸について線形目盛を有する。

図１２７Ａおよび１２７Ｂに示されるように、ＭｓｐＩで消化されたＤＮＡ分子は、歪んだサイズ分布を有する。ＭｓｐＩで消化された断片のサイズの中央値は、４０４ｂｐ（ＩＱＲ：９８～１，４１１ｂｐ）であった。それらのＭｓｐＩで消化された断片の約５３％は、１ｋｂ未満であった。サイズプロファイルには、反復エレメントに起因する可能性がある一連のスパイクピークがあった。特定のリピート要素は、ＭｓｐＩ切断部位の同様のパターンを共有する可能性があり、同様の断片サイズを有するＭｓｐＩ消化に由来する分子のセットにつながる。例えば、最も高い頻度（すなわち、合計４９，０７９）のスパイクピークは、６４ｂｐのサイズに対応した。それらの中で、４５，８９４（９４％）は、Ａｌｕリピートと重複していた。サイズが６４ｂｐのＤＮＡ分子を選択して、Ａｌｕリピートに由来するＤＮＡ分子を濃縮することができる。データは、サイズ選択を使用して、本開示による下流のメチル化分析のために所望のＤＮＡ分子を濃縮できることを示唆している。

図１２８は、特定の選択されたサイズ範囲のＤＮＡ分子の数の表を示す。最初の列は、塩基対のサイズ範囲を示す。２番目の列は、すべての断片に対するサイズ範囲内の分子のパーセンテージを示す。３番目の列は、ＣｐＧアイランドと重複するサイズ範囲内の分子の数を示す。４番目の列は、ＣｐＧアイランドと重複するサイズ範囲内の分子のパーセンテージを示す。５番目の列は、配列決定されるＣｐＧ部位の数を示す。６番目の列は、ＣｐＧアイランド内にあるＣｐＧ部位の数を示す。７番目の列は、サイズ選択の対象であり、ＣｐＧアイランド内にあるＣｐＧ部位のパーセンテージを示す。図１２８に示されるように、ＭｓｐＩ消化にかけられたヒトゲノムから生成されたＤＮＡ分子の量は、問題の異なるサイズ範囲に従って変化した。ＣｐＧアイランドと重複するＤＮＡ分子の数は、サイズ範囲によって異なる。

ＣＣＧＧモチーフは、ＣｐＧアイランドで優先的に発生するため、特定のカットオフ未満のサイズの分子を選択して、ＣｐＧアイランドに由来するＤＮＡ分子の濃縮を可能にすることができる。例えば、５０～２００ｂｐのサイズ範囲の場合、分子の数は５２６，５４３個であり、ＭｓｐＩ消化にかけられたヒトゲノムに由来するＤＮＡ断片全体の２３．０３％を占めている。５２６，５４３個のＤＮＡ分子のうち、１０４，０７９個（１９．７６％）がＣｐＧアイランドと重複していた。６００～８００ｂｐのサイズ範囲では、分子の数は１３３，９２７個であり、ＭｓｐＩ消化にかけられたヒトゲノムに由来するＤＮＡ断片全体の５．８６％を占めていた。１３３，９２７分子のうち、３，６７３（２．７４％）分子が、ＣｐＧアイランドと重複していた。一例として、５０～２００ｂｐのサイズを選択して、ＣｐＧアイランドに由来するＤＮＡ断片を濃縮することができる。

ＭｓｐＩベースの標的単一分子リアルタイム配列決定を介してＣｐＧアイランドと重複するＣｐＧ部位の濃縮度を計算するために、超音波処理によって剪断されたＤＮＡのシミュレーションを行い、正規分布に基づく標準偏差が２０ｂｐ、平均サイズが２００ｂｐのＺＭＷから生成された５２６，５４３断片をシミュレートした。ＣｐＧアイランドと重複するＤＮＡ分子は、わずか０．８８％であった。合計７１，４９５のＣｐＧ部位が、ＣｐＧアイランドと重複していた。図１２８に示されるように、５０～２００ｂｐの範囲のＭｓｐＩ消化断片を選択すると、１９．８％の断片がＣｐＧアイランドと重複する。したがって、これらのデータは、ＭｓｐＩ消化によって調製されたＤＮＡは、超音波処理によって調製されたＤＮＡと比較して、ＣｐＧアイランドに由来するＤＮＡ断片が２２．５倍濃縮されている可能性があることを示唆している。さらに、ＭｓｐＩ消化を通してＣｐＧアイランドで濃縮されているＣｐＧ部位を分析した。５０～２００ｂｐの範囲のＭｓｐＩ消化断片の選択により、ＣｐＧアイランドと重複する８８５，０４１箇所のＣｐＧ部位が生じる可能性があり、そのサイズ範囲内の配列決定された断片からの総ＣｐＧ部位の３７．５％を占める。超音波処理によって調製されたＤＮＡと比較して、ＣｐＧアイランドと重複するＣｐＧ部位が、１２．３倍（すなわち、８８５，０４１／７１，４９５）濃縮されていた。図１２８に示される情報に基づいて、好適なサイズ範囲を選択して、ＣｐＧ部位の所望の数およびＣｐＧアイランド内のＣｐＧ部位の所望の濃縮倍率を含むことができる。

図１２９は、制限酵素消化後のＤＮＡ断片のサイズに対する、ＣｐＧアイランド内のＣｐＧ部位のパーセントカバレッジのグラフである。ｙ軸は、所与のサイズを有する断片によってカバーされたＣｐＧアイランド内のＣｐＧ部位のパーセンテージを示す。ｘ軸は、制限酵素消化後のＤＮＡ断片のサイズ範囲の上限を示している。図１２９は、サイズ選択範囲を広げることによってカバーされるＣｐＧアイランド内のＣｐＧ部位のパーセンテージを示す。図１２９では、サイズ範囲は、５０ｂｐからｘ軸に示されるサイズまでである。他の実施形態では、サイズ範囲の下限をカスタマイズすることができ、例えば、限定されないが、６０ｂｐ、７０ｂｐ、８０ｂｐ、９０ｂｐ、１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、および５００ｂｐであり得る。上限を大きくすることでサイズ範囲が広がると、ＣｐＧアイランド内のＣｐＧ部位のパーセントカバレッジが徐々に増加し、６５％で横ばいになっていることがわかる。一部のＣｐＧ部位は、５０ｂｐ未満のＤＮＡ断片内にあるか、または非常に長い分子（例えば、＞１００，０００ｂｐ）内の断片内にあるため、カバーされていない。

一部の実施形態では、ＤＮＡ試料を、２つ以上の異なる制限酵素（異なる制限部位を有する）を使用して分析することができるため、ＣｐＧアイランド内のＣｐＧ部位のカバレッジを増加させることができる。異なる酵素によるＤＮＡ試料の消化は、各反応に１種類の制限酵素のみが存在するように、個々の反応で実行することができる。例えば、ＣＧ＾ＣＧ部位を認識するＡｃｃＩＩを使用して、ＣｐＧアイランドを優先的に切断することができる。他の実施形態では、認識部位の一部としてＣＧジヌクレオチドを含む他の制限酵素を使用することができる。ヒトゲノム内には、６７８，６６９個のＡｃｃＩＩ切断部位があった。ＡｃｃＩＩ制限を使用して、ヒト参照ゲノムのインシリコ切断を実施し、合計６７８，６９３個の断片を取得した。次いで、本発明者らは、これらの断片のインシリコでのサイズ選択を行い、ＭｓｐＩ消化について上に記載の方法に従って、ＣｐＧアイランド内のＣｐＧ部位のパーセントカバレッジを計算した。サイズ選択範囲の拡大に伴って、ＣｐＧ部位のパーセントカバレッジが徐々に増加していることがわかる。パーセントカバレッジは、約５０％で横ばいになる。ＣｐＧ部位のカバレッジは、２種類の酵素の消化実験（つまり、ＭｓｐＩ消化とＡｃｃＩＩ消化）からのデータを組み合わせることで、さらに増加する。ＣｐＧアイランド内のＣｐＧ部位の８０％は、サイズが５０ｂｐ～４００ｂｐのＤＮＡ断片を選択することでカバーされる。このパーセンテージは、この２種類の酵素のいずれかのみによる消化実験についての、それぞれの数値よりも高くなっている。他の制限酵素を使用してＤＮＡ試料を分析することを通して、カバレッジをさらに高めることができる。ＤＮＡ試料が２つのアリコートに分割されている場合、一方のアリコートをＭｓｐＩで消化し、他方アリコートをＡｃｃＩＩで消化する。２つの消化されたＤＮＡ試料を、等モル濃度で混合し、５００万ＺＭＷによる単一分子リアルタイム配列決定を使用して、配列を決定する。インシリコ分析に基づいて、ＣｐＧアイランド内のＣｐＧ部位の８３％（すなわち、１，７３４，３４５箇所）は、循環コンセンサス配列に関して少なくとも４回配列決定される。

図１３０は、ＤＮＡ末端修復およびＡテーリングを用いない、ＭｓｐＩベースの標的化単一分子リアルタイム配列決定を示す。実施形態では、消化されたＤＮＡ分子とヘアピンアダプターとの間の連結は、ＤＮＡ末端修復およびＡテーリングのプロセスなしで実施され得る。５’ＣＧオーバーハングを有する消化されたＤＮＡ分子を、５’ＣＧオーバーハングを有するヘアピンアダプターと直接連結して、単一分子リアルタイム配列決定用の環状ＤＮＡ鋳型を形成することができる。連結されていないアダプターおよび自己連結したアダプターダイマーをクリーンアップした後、一部の実施形態では、連結されていないアダプター、直鎖ＤＮＡ、および不完全な環状ＤＮＡを除去した後、ヘアピンアダプターと連結されたＤＮＡ分子は、単一分子リアルタイム配列決定に好適で、ＩＰＤ、ＰＷ、および配列文脈を取得することができる。単一分子のメチル化プロファイルは、本開示に従って、ＩＰＤ、ＰＷおよび配列文脈を使用して決定されるであろう。

図１３１は、アダプターの自己連結の可能性が低い、ＭｓｐＩベースの標的化単一分子リアルタイム配列決定を示す。基礎となるシトシン塩基は、５’リン酸基のない塩基を示す。一部の実施形態では、アダプター連結のプロセス中に起こり得る自己連結アダプターダイマーの形成の可能性を最小限にするために、脱リン酸化ヘアピンアダプターを使用して、それらのＭｓｐＩ消化ＤＮＡ分子とアダプター連結を行うことができる。これらの脱リン酸化ヘアピンアダプターは、５’リン酸基がないため、自己連結アダプターダイマーを形成することができない。連結後、その産物をアダプタークリーンアップのステップにかけ、ヘアピンアダプターと連結されたＤＮＡ分子を精製する。ニックを有する可能性のあるヘアピンアダプターと連結されたＤＮＡ分子は、さらにリン酸化（例えば、Ｔ４ポリヌクレオチドキナーゼ）およびＤＮＡリガーゼ（例えば、Ｔ４ＤＮＡリガーゼ）によるニックシーリングにかけた。実施形態では、連結されていないアダプター、直鎖ＤＮＡ、および不完全な環状ＤＮＡの除去をさらに行うことができる。ヘアピンアダプターと連結されたＤＮＡ分子は、ＩＰＤ、ＰＷ、および配列文脈を取得するための単一分子のリアルタイム配列に好適である。単一分子のメチル化プロファイルは、本開示に従って、ＩＰＤ、ＰＷおよび配列文脈を使用して決定されるであろう。

ＭｓｐＩに加えて、認識部位ＣＣＣＧＧＧを含むＳｍａＩなどの他の制限酵素も使用することができる。

一部の実施形態では、所望のサイズ選択プロセスは、ＤＮＡ末端修復ステップの後に行うことができる。一部の実施形態では、サイズ選択の結果に対するヘアピンアダプターの効果が決定された場合、ヘアピンアダプターを連結した後、所望のサイズ選択プロセスを行うことができる。これらおよび他の実施形態では、ＭｓｐＩベースの標的化単一分子リアルタイム配列決定に関わる手順的なステップの順序は、実験状況に応じて変化し得る。

実施形態では、サイズ選択は、ゲル電気泳動ベースの方法および／または磁気ビーズベースの方法を使用して行われる。実施形態では、制限酵素としては、限定されないが、ＢｇＩＩＩ、ＥｃｏＲＩ、ＥｃｏＲＩＩ、ＢａｍＨＩ、ＨｉｎｄＩＩＩ、ＴａｑＩ、ＮｏｔＩ、ＨｉｎＦＩ、ＰｖｕＩＩ、Ｓａｕ３ＡＩ、ＳｍａＩ、ＨａｅＩＩＩ、ＨｇａＩ、ＨｐａＩＩ、ＡｌｕＩ、ＥｃｏＲＶ、ＥｃｏＰ１５Ｉ、ＫｐｎＩ、ＰｓｔＩ、ＳａｃＩ、ＳａｌＩ、ＳｃａＩ、ＳｐｅＩ、ＳｐｈＩ、ＳｔｕＩ、ＸｂａＩ、およびそれらの組み合わせが挙げられる。

ｂ）メチル化による生体試料の種類の区別
このセクションでは、制限酵素消化によって生成された断片を使用して決定されたメチル化プロファイルを使用して、異なる生体試料間を識別しやすくする方法について説明する。

本開示の実施形態による、ＭｓｐＩベースの単一分子リアルタイム配列決定によって決定されたメチル化プロファイルを使用して、生体試料間のメチル化プロファイルの違いを評価した。一例として、胎盤組織ＤＮＡとバフィーコートＤＮＡ試料を取り上げた。ＭｓｐＩベースの標的化単一分子リアルタイム配列決定に基づいて、胎盤とバフィーコートのＤＮＡ試料に関するデータを生成するためのコンピュータシミュレーションを行った。シミュレーションは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０を使用して、全ゲノムカバレッジで胎盤組織ＤＮＡおよびバフィーコートＤＮＡをＳＭＲＴ配列決定することによって以前に生成された各ヌクレオチドのＩＰＤおよびＰＷを含む動態値に基づいていた。次いで、胎盤ＤＮＡとバフィーコートＤＮＡ試料をＭｓｐＩ消化にかけ、その後、５０～２００ｂｐのサイズ範囲を使用してゲルベースのサイズ選択する条件をシミュレートした。選択したＤＮＡ分子をヘアピンアダプターで連結して、環状ＤＮＡ鋳型を形成した。環状ＤＮＡ鋳型は、ＩＰＤ、ＰＷ、および配列文脈に関する情報を取得するために、単一分子のリアルタイム配列にかけられた。

ＳＭＲＴ配列決定サブリードを生成するＺＭＷが５００，０００個あると仮定すると、これらのサブリードは、表１に示されるように、５０～２００ｂｐのサイズ範囲内のＭｓｐＩ消化断片のゲノム分布に従った。サブリード深度は、胎盤とバフィーコートの両方のＤＮＡ試料について、３０倍と想定された。胎盤ＤＮＡ試料およびバフィーコートＤＮＡ試料について、それぞれシミュレーションを１０回繰り返した。したがって、ＭｓｐＩ消化標的化単一分子リアルタイム配列決定によってインシリコで生成されたデータセットは、合計１０個の胎盤ＤＮＡ試料を含み、かつ１０個のバフィーコートＤＮＡ試料を取得した。データセットを、ＣＮＮによってさらに分析し、本開示に従って各試料のメチル化プロファイルを決定した。中央値が９，１９８箇所のＣｐＧアイランドからのＣｐＧ部位（範囲：５，４９７～１３，９２８箇所）を取得し、配列決定されたＣｐＧ部位全体（範囲：４５，３０４～９０，７６２箇所）の１３．６％を占めていた。各分子の各ＣｐＧ部位のメチル化状態は、本開示に従ってＣＮＮモデルによって決定した。

図１３２は、ＭｓｐＩベースの標的化単一分子リアルタイム配列決定によって決定された胎盤およびバフィーＤＮＡ試料間の全体的なメチル化レベルのグラフである。ｙ軸は、パーセントとしてのメチル化レベルである。ｘ軸に、試料の種類を列挙した。図１３２は、全体的なメチル化レベルが、バフィーコート試料（中央値：６９．５％；範囲：６８．９％～７０．４％）と比較して、胎盤試料（中央値：５７．６％；範囲：５６．９％～５９．１％）で低かったことを示している（Ｐ値＜０．０００１、マンホイットニのＵ検定）。これらの結果は、ＭｓｐＩベースの単一分子リアルタイム配列決定によって決定されたメチル化プロファイルを、メチル化の違いに基づいて組織試料または生体試料を区別するために使用することができることを示唆した。これらのデータは、ＭｓｐＩベースの単一分子リアルタイム配列決定によって検出されたメチル化の違いにより、胎盤由来のＤＮＡを、バフィーコートＤＮＡから識別できることを示していることから、この方法を、母体血漿中の胎児ＤＮＡ画分の測定に適用することができる。母体血漿中または母体血清中の胎児ＤＮＡは胎盤に由来し、一方、試料中の残りのＤＮＡ分子は主に母体バフィーコート細胞に由来するため、メチル化を使用して胎児ＤＮＡ画分を測定することができる。実施形態では、この技術は、異なる組織、または異なる疾患および／もしくは生理学的状態を有する組織、あるいは生体試料を区別するための有用なツールである。

ＣｐＧアイランドのメチル化プロファイルを使用して胎盤ＤＮＡ試料とバフィーコートＤＮＡ試料との間のクラスター分析を行うために、ＣｐＧアイランドのすべてのＣｐＧ部位の中でメチル化として分類されたＣｐＧ部位の割合を使用して、ＣｐＧアイランドのＤＮＡメチル化レベルを計算した。例示の目的で、ＣｐＧアイランド領域のメチル化レベルを使用してクラスター分析を行った。

図１３３は、ＭｓｐＩベースの標的単一分子リアルタイム配列決定によって決定されたＤＮＡメチル化プロファイルを使用した胎盤およびバフィーコートの試料のクラスター分析を示している。異なる患者にわたるＣｐＧアイランドからのメチル化パターンの類似性は、クラスタリング樹状図の高さの値によって示される。この例では、高さはユークリッド距離に従って計算される。一実施形態では、高さカットオフ１００を使用して、クラスタリングツリーを２つのグループに分割し、１００％の感度および特異度で、胎盤試料およびバフィーコート試料を区別することができる。他の実施形態では、他の高さカットオフを使用することができ、限定されないが、５０、６０、７０、８０、９０、１２０、１３０、１４０、および１５０などが含まれる。図１３３は、１０個の胎盤ＤＮＡ試料および１０個のバフィーコートＤＮＡ試料が、本開示によるＭｓｐＩベースの単一分子リアルタイム配列決定によって決定されたＣｐＧアイランドのメチル化プロファイルを使用して、別々の２つのグループに明確にクラスター化された。

Ｖ．訓練と検出の方法
このセクションでは、塩基修飾を検出するために機械学習モデルを訓練する方法、および機械学習モデルを使用して塩基修飾を検出する方法の例を示す。

Ａ．モデル訓練
図１０２は、核酸分子中のヌクレオチドの修飾を検出する例示的な方法１０２０を示す。例示的な方法１０２０は、修飾を検出するためにモデルを訓練する方法であり得る。修飾には、メチル化が含まれ得る。メチル化は、本明細書に記載の任意のメチル化を含み得る。修飾は、メチル化および非メチル化などの個別の状態を有することができ、メチル化の種類を指定する可能性がある。したがって、ヌクレオチドには、３つ以上の状態（分類）が存在してもよい。

ブロック１０２２では、複数の第１のデータ構造が受信される。データ構造の様々な例が、ここに、例えば、図４～１６に記載されている。第１の複数の第１のデータ構造の各第１のデータ構造は、複数の第１の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し得る。第１の複数のデータ構造に関連する各ウィンドウは、４つ以上の連続したヌクレオチドを含んでもよく、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１またはそれ以上の連続したヌクレオチドが含まれる。各ウィンドウには、同じ数の連続したヌクレオチドが含まれ得る。ウィンドウは、重複している場合がある。各ウィンドウは、第１の核酸分子の第１の鎖上のヌクレオチドおよび第１の核酸分子の第２の鎖上のヌクレオチドを含み得る。第１のデータ構造はまた、ウィンドウ内の各ヌクレオチドについて、鎖特性の値を含み得る。鎖特性は、存在するヌクレオチドか、または第１の鎖もしくは第２の鎖のいずれかを示し得る。ウィンドウは、第１の鎖の対応する位置のヌクレオチドに相補的ではない第２の鎖のヌクレオチドを含み得る。一部の実施形態では、第２の鎖上のすべてのヌクレオチドは、第１の鎖のヌクレオチドに相補的である。一部の実施形態では、各ウィンドウは、第１の核酸分子の１つの鎖のみのヌクレオチドを含み得る。

第１の核酸分子は、環状ＤＮＡ分子であり得る。環状ＤＮＡ分子は、二本鎖ＤＮＡ分子を切断することによって形成することができ、Ｃａｓ９複合体を使用して、切断された二本鎖ＤＮＡ分子を形成する。ヘアピンアダプターは、切断された二本鎖ＤＮＡ分子の末端に連結することができる。実施形態では、二本鎖ＤＮＡ分子の両端を切断して連結することができる。例えば、切断、連結、およびその後の分析は、図９１に記載されているように進めてもよい。

第１の複数の第１のデータ構造は、５，０００～１０，０００、１０，０００～５０，０００、５０，０００～１００，０００、１００，０００～２００，０００、２００，０００～５００，０００、５００，０００～１，０００，０００、または１，０００，０００以上の第１のデータ構造を含み得る。複数の第１の核酸分子は、少なくとも１，０００、１０，０００、５０，０００、１００，０００、５００，０００、１，０００，０００、５，０００，０００、またはそれ以上の核酸分子を含み得る。さらなる例として、少なくとも１０，０００または５０，０００または１００，０００または５００，０００または１，０００，０００または５，０００，０００の配列リードを生成することができる。

第１の核酸分子の各々は、ヌクレオチドに対応する信号のパルスを測定することによって配列決定される。信号は、蛍光信号、または他の種類の光信号（例えば、化学発光、測光）であり得る。信号は、ヌクレオチドまたはヌクレオチドと結合したタグに起因する場合がある。

修飾は、各第１の核酸分子の各ウィンドウの標的位置のヌクレオチドの既知の第１の状態を有する。第１の状態は、修飾がヌクレオチドに存在しないか、または修飾がヌクレオチドに存在するかであり得る。修飾は、第１の核酸分子に存在しないことが既知の場合があり、または第１の核酸分子は、修飾が存在しないように処理を受ける場合がある。修飾は、第１の核酸分子に存在することが既知の場合があり、または第１の核酸分子は、修飾が存在するように処理を受ける場合がある。第１の状態が、修飾が存在しない状態である場合、修飾は、各第１の核酸分子の各ウィンドウに存在せず、標的位置にだけ存在する場合がある。既知の第１の状態は、第１のデータ構造の第１の箇所のメチル化状態と、第１のデータ構造の第２の箇所の非メチル化状態とを含み得る。

標的位置は、それぞれのウィンドウの中心であり得る。遇数のヌクレオチドにまたがるウィンドウの場合、標的位置は、ウィンドウの中心のすぐ上流またはすぐ下流の位置であり得る。一部の実施形態では、標的位置は、第１の位置または最後の位置を含む、それぞれのウィンドウの他の任意の位置にあってもよい。例えば、ウィンドウが、一方の鎖のｎヌクレオチド、１番目の位置からｎ番目の位置（上流または下流のいずれか）にまたがる場合、標的位置は、１番目の位置からｎ番目の位置までの任意の位置にあってもよい。

各第１のデータ構造には、ウィンドウ内の特性についての値が含まれる。特性は、ウィンドウ内の各ヌクレオチドについてのものであり得る。特性は、ヌクレオチドの識別（ｉｄｅｎｔｉｔｙ）を含み得る。識別（ｉｄｅｎｔｉｔｙ）は、塩基（例えば、Ａ、Ｔ、Ｃ、またはＧ）を含み得る。特性はまた、それぞれのウィンドウ内の標的位置に対するヌクレオチドの位置を含み得る。例えば、位置は、標的位置に対するヌクレオチドの距離であり得る。ヌクレオチドが標的位置からある方向へ１ヌクレオチド離れている場合、位置は＋１であり得、ヌクレオチドが標的位置から反対方向へ１ヌクレオチド離れている場合、位置は－１であり得る。

特性は、ヌクレオチドに対応するパルスの幅を含み得る。パルスの幅は、パルスの最大値の半分でのパルスの幅であり得る。特性は、ヌクレオチドに対応するパルスと近傍のヌクレオチドに対応するパルスとの間の時間を表すパルス間隔（ＩＰＤ）をさらに含み得る。パルス間隔は、ヌクレオチドに関連するパルスの最大値と近傍のヌクレオチドに関連するパルスの最大値との間の時間であり得る。近傍のヌクレオチドは、隣接するヌクレオチドであり得る。特性は、ウィンドウ内の各ヌクレオチドに対応するパルスの高さも含み得る。特性は、ヌクレオチドが第１の核酸分子の第１の鎖または第２の鎖のどちらに存在するかを示す鎖特性の値をさらに含み得る。鎖の表示は、図６に示されるマトリックスと同様であり得る。

複数の第１のデータ構造の各データ構造は、ＩＰＤまたはカットオフ値未満の幅を有する第１の核酸分子を除外し得る。１０パーセンタイル（または１、５、１５、２０、３０、４０、５０、６０、７０、８０、９０、または９５パーセンタイル）より大きいＩＰＤ値を有する第１の核酸分子のみを使用することができる。パーセンタイルは、参照試料または参照試料内のすべての核酸分子からのデータに基づいてもよい。幅のカットオフ値も、パーセンタイルに対応する場合がある。

ブロック１０２４では、複数の第１の訓練試料が記憶される。各第１の訓練試料は、第１の複数の第１のデータ構造のうちの１つと、標的位置のヌクレオチドの修飾についての第１の状態を示す第１のラベルとを含む。

ブロック１０２６では、第２の複数の第２のデータ構造が受信される。ブロック１０２６は、任意選択的であり得る。第２の複数の第２のデータ構造の各第２のデータ構造は、複数の第２の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応する。第２の複数の核酸分子は、複数の第１の核酸分子と同じであっても異なっていてもよい。修飾は、各第２の核酸分子の各ウィンドウ内の標的位置にあるヌクレオチドの既知の第２の状態を有する。第２の状態は、最初の状態とは異なる状態である。例えば、最初の状態に修飾が存在する場合、第２の状態には修飾が存在せず、その逆も同様である。各第２のデータ構造は、第１の複数の第１のデータ構造と同じ特性についての値を含む。

複数の第１の訓練試料は、多置換増幅（ＭＤＡ）を使用して生成することができる。一部の実施形態では、複数の第１の訓練試料は、ヌクレオチドのセットを使用して、第１の複数の核酸分子を増幅することによって生成され得る。ヌクレオチドのセットは、特定の比率で第１のタイプのメチル化（例えば、６ｍＡまたは任意の他のメチル化［例えば、ＣｐＧ］）を含み得る。指定された比率は、非メチル化ヌクレオチドに対して、１：１０、１：１００、１：１０００、１：１００００、１：１０００００、または１：１００００００を含み得る。複数の第２の核酸分子は、第１のタイプの非メチル化ヌクレオチドを用いた多置換増幅を使用して生成され得る。

ブロック１０２８では、複数の第２の訓練試料が記憶される。ブロック１０２８は、任意選択的であり得る。各第２の訓練試料は、第２の複数の第２のデータ構造のうちの１つと、標的位置のヌクレオチドの修飾についての第２の状態を示す第２のラベルとを含む。

ブロック１０２９では、モデルは、複数の第１の訓練試料、および任意選択的に複数の第２の訓練試料を使用して訓練される。訓練は、第１の複数の第１のデータ構造および任意選択的に第２の複数の第２のデータ構造がモデルに入力される場合、第１のラベルおよび任意選択的に第２のラベルの対応するラベルに一致するまたは一致しないモデルの出力に基づいて、モデルのパラメータを最適化することによって行われる。モデルの出力は、それぞれのウィンドウにおける標的位置のヌクレオチドが修飾を有するかどうかを指定する。モデルが外れ値を第１の状態とは異なる状態であると特定する可能性があるため、この方法は、複数の第１の訓練試料のみを含み得る。モデルは、機械学習モデルとも呼ばれる、統計モデルであり得る。

一部の実施形態では、モデルの出力は、複数の状態の各々における確率を含み得る。確率が最も高い状態を、その状態とみなすことができる。

モデルには、畳み込みニューラルネットワーク（ＣＮＮ）が含まれ得る。ＣＮＮは、第１の複数のデータ構造および任意選択的に第２の複数のデータ構造をフィルタリングするように構成された畳み込みフィルターのセットを含み得る。フィルターは、本明細書に記載の任意のフィルターであり得る。各層のフィルターの数は、１０～２０、２０～３０、３０～４０、４０～５０、５０～６０、６０～７０、７０～８０、８０～９０、９０～１００、１００～１５０、１５０～２００、またはそれ以上であり得る。フィルターのカーネルサイズは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１５～２０、２０～３０、３０～４０、またはそれ以上であり得る。ＣＮＮは、フィルタリングされた第１の複数のデータ構造、および任意選択的にフィルタリングされた第２の複数のデータ構造を受信するように構成された入力層を含み得る。ＣＮＮはまた、複数のノードを含む複数の隠れ層を含み得る。入力層には、複数の隠れ層の第１の層が結合した。ＣＮＮは、複数の隠れ層の最後の層に結合され、出力データ構造を出力するように構成された出力層をさらに含み得る。出力データ構造には、特性が含まれ得る。

モデルには、教師あり学習モデルが含まれ得る。教師あり学習モデルには、異なるアプローチおよびアルゴリズムが含まれてもよく、分析的学習、人工ニューラルネットワーク、誤差逆伝播、ブースティング（メタアルゴリズム）、ベイズ統計、事例ベース推論、決定木学習、帰納論理プログラミング、ガウス過程回帰、遺伝的プログラミング、データ処理のグループ法、カーネル推定器、学習オートマトン、学習分類器システム、最小メッセージ長（決定木、決定グラフなど）、多重線形部分空間学習、ナイーブベイズ分類器、最大エントロピー分類器、条件付き確率場、最近傍アルゴリズム、確率的で近似的に正しい学習（ＰＡＣ）学習、リップルダウンルール、知識獲得法論、シンボリック機械学習アルゴリズム、サブシンボリック機械学習アルゴリズム、サポートベクトルマシン、最小複雑性マシン（ＭＣＭ）、ランダムフォレスト、分類器のアンサンブル、通常分類、データ事前処理、不均衡データセットの処理、統計的関係学習、またはＰｒｏａｆｔｎ、多基準分類アルゴリズムが含まれる。モデルは、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク（例えば、長期短期メモリ、ＬＳＴＭ）、ベイズ分類器、隠れマルコフモデル（ＨＭＭ）、線形判別分析（ＬＤＡ）、ｋ平均クラスタリング、ノイズを伴うアプリケーションの密度ベースの空間クラスタリング（ＤＢＳＣＡＮ）、ランダムフォレストアルゴリズム、サポートベクトルマシン（ＳＶＭ）、または本明細書に記載の任意のモデルであってもよい。

機械学習モデルの訓練の一環として、機械学習モデルのパラメータ（重み、閾値など、例えば、ニューラルネットワークの活性化関数に使用することができるもの）を訓練試料（訓練セット）に基づいて最適化して、標的位置のヌクレオチドの修飾を分類する際に最適化された精度を提供する。様々な形式の最適化を行うことができ、例えば、誤差逆伝播、経験的リスク最小化、および構造的リスク最小化などである。試料の検証セット（データ構造とラベル）を使用して、モデルの精度を検証することができる。交差検証は、訓練と検証のために訓練セットの様々な箇所を使用して行うことができる。モデルは、複数のサブモデルを含むことができ、それによって、アンサンブルモデルを提供する。サブモデルは、より弱いモデルであり得るが、組み合わせると、より正確な最終モデルを提供する。

一部の実施形態では、キメラまたはハイブリッド核酸分子は、モデルを検証するために使用することができる。複数の第１の核酸分子の少なくともいくつかは、各々、第１の参照配列に対応する第１の箇所および第２の参照配列に対応する第２の箇所を含む。第１の参照配列は、第２の参照配列とは異なる染色体、組織（例えば、腫瘍または非腫瘍）、生物、または種に由来し得る。第１の参照配列はヒトであり得、第２の参照配列は異なる動物からのものであり得る。各キメラ核酸分子は、第１の参照配列に対応する第１の箇所および第２の参照配列に対応する第２の箇所を含み得る。第１の箇所は、第１のメチル化パターンを有し得、第２の箇所は、第２のメチル化パターンを有し得る。第１の箇所は、メチラーゼで処理することができる。第２の箇所は、メチラーゼで処理され得ず、第２の参照配列の非メチル化箇所に対応し得る。

Ｂ．修飾の検出
図１０３は、核酸分子中のヌクレオチドの修飾を検出するための方法１０３０を示す。修飾は、図１０２の方法１０２０で説明される任意の修飾であり得る。

ブロック１０３２では、入力データ構造が受信される。入力データ構造は、試料核酸分子で配列決定されたヌクレオチドのウィンドウに対応し得る。試料核酸分子は、ヌクレオチドに対応する光信号のパルスを測定することによって配列決定することができる。ウィンドウは、図１０２のブロック１０２２で説明されている任意のウィンドウであり得、配列決定は、図１０２のブロック１０２２で説明されている任意の配列決定であり得る。入力データ構造は、図１０２のブロック１０２２で説明されているものと同じ特性についての値を含むことができる。方法１０３０は、試料核酸分子の配列決定を含み得る。

ウィンドウ内のヌクレオチドは、参照ゲノムに整列される場合と整列されない場合がある。ウィンドウ内のヌクレオチドは、配列決定されたヌクレオチドを参照ゲノムに整列させることなく、循環コンセンサス配列（ＣＣＳ）を使用して決定することができる。各ウィンドウのヌクレオチドは、参照ゲノムに整列するのではなく、ＣＣＳによって特定される場合がある。一部の実施形態では、ウィンドウは、ＣＣＳを用いずに、かつ配列決定されたヌクレオチドの参照ゲノムに整列させることなく、決定され得る。

ウィンドウ内のヌクレオチドは、濃縮またはフィルタリングすることができる。濃縮は、Ｃａｓ９を含むアプローチによる場合がある。Ｃａｓ９アプローチは、図９１と同様に、Ｃａｓ９複合体を使用して二本鎖ＤＮＡ分子を切断して、切断された二本鎖ＤＮＡ分子を形成し、ヘアピンアダプターを切断された二本鎖ＤＮＡ分子の末端に連結することを含み得る。フィルタリングは、サイズ範囲内のサイズを有する二本鎖ＤＮＡ分子を選択することによるものであり得る。ヌクレオチドは、これらの二本鎖ＤＮＡ分子に由来する場合がある。分子のメチル化状態を維持する他の方法を使用することができる（例えば、メチル結合タンパク質）。

ブロック１０３４において、入力データ構造が、モデルに入力される。モデルは、図１０２の方法１０２０によって訓練され得る。

一部の実施形態では、キメラ核酸分子は、モデルを検証するために使用され得る。複数の第１の核酸分子の少なくともいくつかは、各々、第１の参照配列に対応する第１の箇所と、第１の参照配列とは異なる第２の参照配列に対応する第２の箇所とを含む。第１の参照配列は、第２の参照配列とは異なる染色体、組織（例えば、腫瘍または非腫瘍）、細胞小器官（例えば、ミトコンドリア、核、葉緑体）、生物（哺乳動物、ウイルス、細菌など）、または種に由来し得る。第１の参照配列はヒトであり得、第２の参照配列は異なる動物からのものであり得る。各キメラ核酸分子は、第１の参照配列に対応する第１の箇所および第２の参照配列に対応する第２の箇所を含み得る。第１の箇所は、第１のメチル化パターンを有し得、第２の箇所は、第２のメチル化パターンを有し得る。第１の箇所は、メチラーゼで処理することができる。第２の箇所は、メチラーゼで処理され得ず、第２の参照配列の非メチル化箇所に対応し得る。

ブロック１０３６において、修飾が、入力データ構造のウィンドウ内の標的位置のヌクレオチドに存在するかどうかは、モデルを使用して決定される。

入力データ構造は、複数の入力データ構造のうちの１つの入力データ構造であり得る。各入力データ構造は、複数の試料核酸分子のそれぞれの試料核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し得る。複数の試料核酸分子は、対象の生体試料から取得することができる。生体試料は、本明細書に記載の任意の生体試料であり得る。方法１０３０は、入力データ構造ごとに繰り返すことができる。この方法は、複数の入力データ構造を受信することを含み得る。複数の入力データ構造を、モデルに入力することができる。修飾が、各入力データ構造のそれぞれのウィンドウ内の標的位置のヌクレオチドに修飾が存在するかどうかは、モデルを使用して決定することができる。

複数の試料核酸分子の各試料核酸分子は、カットオフサイズよりも大きいサイズを有し得る。例えば、カットオフサイズは、１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、２ｋｂ、３ｋｂ、４ｋｂ、５ｋｂ、６ｋｂ、７ｋｂ、９ｋｂ、１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、５００ｋｂ、または１Ｍｂであり得る。サイズカットオフがあると、サブリード深度が高くなる可能性があり、どちらの場合も、修飾検出の精度が増加する可能性がある。一部の実施形態では、この方法は、ＤＮＡ分子を配列決定する前に、特定のサイズについてＤＮＡ分子を分画することを含み得る。

複数の試料核酸分子は、複数のゲノム領域に整列し得る。複数のゲノム領域の各ゲノム領域について、いくつかの試料核酸分子をゲノム領域に整列させることができる。試料核酸分子の数は、カットオフ数よりも多い場合がある。カットオフ数は、サブリード深度のカットオフであり得る。サブリード深度のカットオフ数は、１倍、１０倍、３０倍、４０倍、５０倍、６０倍、７０倍、８０倍、９００倍、１００倍、２００倍、３００倍、４００倍、５００倍、６００倍、７００倍、または８００倍であり得る。サブリード深度のカットオフ数は、精度を改善または最適化するために決定することができる。サブリード深度のカットオフ数は、複数のゲノム領域の数に関連している場合がある。例えば、サブリード深度のカットオフ数がより高いほど、複数のゲノム領域の数はより少ない。

修飾は、１つ以上のヌクレオチドに存在していると決定され得る。障害の分類は、１つ以上のヌクレオチドの修飾の存在を使用して、決定することができる。障害の分類は、修飾の数を使用することを含み得る。修飾の数は、閾値と比較され得る。代替的または追加的に、分類は、１つ以上の修飾の位置を含み得る。１つ以上の修飾の位置は、核酸分子の配列リードを参照ゲノムに整列することによって、決定することができる。障害と相関していることが知られている特定の位置に修飾があることが示された場合、障害を決定することができる。例えば、メチル化部位のパターンを、障害の参照パターンと比較することができ、その比較に基づいて、障害を決定することができる。参照パターンとの一致または参照パターンとの実質的な一致（例えば、８０％、９０％、または９５％以上）は、障害または障害の可能性が高いことを示している場合がある。障害は、癌または本明細書に記載の任意の障害（例えば、妊娠関連障害、自己免疫疾患）であり得る。

統計的に有意な数の核酸分子を分析して、障害、組織起源、または臨床関連ＤＮＡ画分を正確に決定することができる。一部の実施形態では、少なくとも１，０００個の核酸分子が分析される。他の実施形態では、少なくとも１０，０００または５０，０００または１００，０００または５００，０００または１，０００，０００または５，０００，０００、またはそれ以上の核酸分子を分析することができる。さらなる例として、少なくとも１０，０００または５０，０００または１００，０００または５００，０００または１，０００，０００または５，０００，０００の配列リードを生成することができる。

本方法は、障害の分類は、対象が障害を有すると決定することを含み得る。分類は、修飾の数および／または修飾の部位を使用して、障害のレベルを含み得る。

臨床関連のＤＮＡ画分、胎児のメチル化プロファイル、母体のメチル化プロファイル、インプリント遺伝子領域の存在、または起源組織（例えば、異なる細胞型の混合物を含有する試料から）は、１つ以上のヌクレオチドの修飾の存在を使用して、決定することができる。臨床関連のＤＮＡ画分としては、限定されないが、胎児ＤＮＡ画分、腫瘍ＤＮＡ画分（例えば、腫瘍細胞と非腫瘍細胞の混合物を含有する試料から）、および移植物ＤＮＡ画分（例えば、ドナー細胞とレシピエント細胞の混合物を含有する試料から）が含まれる。

本方法は、障害の治療をさらに含み得る。治療は、決定された障害のレベル、特定された修飾、および／または起源の組織（例えば、癌患者の循環から単離された腫瘍細胞の）に従って、提供することができる。例えば、特定された修飾は、特定の薬物または化学療法を用いて標的化することができる。起源の組織を使用して、手術または任意の他の形態の治療を誘導することができる。また、障害のレベルを使用して、任意のタイプの治療に対してどれほど侵襲性であるかを判断することができる。

実施形態は、患者における障害のレベルを決定した後に、患者における障害を治療することを含み得る。治療には、本明細書で言及される参考文献に記載される任意の治療を含む、任意の好適な療法、薬物、化学療法、放射線照射、または手術が含まれ得る。参考文献における治療に関する情報は、参照により本明細書に組み込まれる。

ＶＩ．ハプロタイプ分析
２つのハプロタイプ間のメチル化プロファイルの違いは、腫瘍組織の試料で見つかった。したがって、ハプロタイプ間のメチル化不均衡を使用して、癌または他の障害のレベルの分類を決定することができる。ハプロタイプの不均衡はまた、胎児によるハプロタイプの遺伝を特定するために使用され得る。また、胎児の障害は、ハプロタイプ間のメチル化不均衡を分析することを通して特定することもできる。細胞ＤＮＡは、ハプロタイプのメチル化レベルを分析するために使用することができる。

Ａ．ハプロタイプ関連のメチル化分析
単一分子リアルタイム配列決定技術により、個々のＳＮＰを特定することが可能になる。単一分子リアルタイム配列決定ウェルから生成された長いリード（例えば、最大数キロベース）は、各コンセンサスリードに存在するハプロタイプ情報を活用することによって、ゲノムのバリアントを段階化する（ｐｈａｓｉｎｇ）ことができる（Ｅｄｇｅｅｔａｌ．ＧｅｎｏｍｅＲｅｓ．２０１７；２７：８０１－８１２、Ｗｅｎｇｅｒｅｔａｌ．ＮａｔＢｉｏｔｅｃｈｎｏｌ．２０１９；３７：１１５５－１１６２）。ハプロタイプのメチル化プロファイルは、図７７に示すように、ＣＣＳによってそれぞれのハプロタイプのアレルにリンクされたＣｐＧ部位のメチル化レベルから分析することができる。この段階的なメチル化ハプロタイプ分析は、相同染色体の２つのコピーが、癌などの異なる臨床関連状態で類似するまたは異なるメチル化パターンを共有するかどうかに関する疑問を解決するために使用することができる。一実施形態では、ハプロタイプのメチル化は、そのハプロタイプに割り当てられたいくつかのＤＮＡ断片が寄与する集約されたメチル化レベルであろう。ハプロタイプは、異なるサイズのブロックであり得、限定されないが、５０ｎｔ、１００ｎｔ、２００ｎｔ、３００ｎｔ、４００ｎｔ、５００ｎｔ、１ｋｎｔ、２ｋｎｔ、３ｋｎｔ、４ｋｎｔ、５ｋｎｔ、１０ｋｎｔ、２０ｋｎｔ、３０ｋｎｔ、４０ｋｎｔ、５０ｋｎｔ、１００ｋｎｔ、２００ｋｎｔ、３００ｋｎｔ、４００ｋｎｔ、５００ｋｎｔ、１Ｍｎｔ、２Ｍｎｔ、および３Ｍｎｔを含む。

Ｂ．相対的なハプロタイプベースのメチル化不均衡分析
図１０４は、相対的なハプロタイプベースのメチル化不均衡分析を示す。ハプロタイプ（すなわち、ＨａｐＩおよびＨａｐＩＩ）は、単一分子リアルタイム配列決定の結果を分析することによって決定された。各ハプロタイプにリンクされたメチル化パターンは、図７７に記載されたアプローチに従ってメチル化プロファイルが決定されたハプロタイプ関連の断片を使用して決定することができる。それによって、ＨａｐＩとＨａｐＩＩの間のメチル化パターンを比較することができる。

ＨａｐＩとＨａｐＩＩの間のメチル化の違いを定量するために、ＨａｐＩとＨａｐＩＩの間のメチル化レベルの違い（ΔＦ）を計算した。違いΔＦは次のように計算される。
ΔＦ＝Ｍ_ＨａｐＩ－Ｍ_{ＨａｐＩＩ}
ここで、ΔＦはＨａｐＩとＨａｐＩＩの間のメチル化レベルの差を表し、Ｍ_ＨａｐＩとＭ_{ＨａｐＩＩ}は、それぞれ、ＨａｐＩとＨａｐＩＩのメチル化レベルを表す。ΔＦの正の値は、ＨａｐＩＩと比較して、ＨａｐＩのＤＮＡのメチル化レベルがより高いことを示唆している。

Ｃ．ＨＣＣ腫瘍ＤＮＡの相対的ハプロタイプベースのメチル化不均衡分析
一実施形態では、ハプロタイプメチル化分析は、癌ゲノムにおけるメチル化異常を検出するのに有用であり得る。例えば、ゲノム領域内の２つのハプロタイプ間のメチル化の変化が分析される。ゲノム領域内のハプロタイプは、ハプロタイプブロックとして定義される。ハプロタイプブロックは、段階化された染色体上のアレルのセットとみなすことができる。一部の実施形態では、ハプロタイプブロックは、染色体上に物理的にリンクした２つのアレルを支持する配列情報のセットに従って、可能な限り長く延長される。ケース３０３３の場合、隣接する正常組織ＤＮＡの配列決定の結果から９７，４７５個のハプロタイプブロックを取得した。ハプロタイプブロックのサイズの中央値は、２．８ｋｂであった。ハプロタイプブロックの２５％は、サイズが８．２ｋｂを超えていた。ハプロタイプブロックの最大サイズは、２８２．２ｋｂであった。データセットは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０によって調製されたＤＮＡから生成された。

説明のために、いくつかの基準を使用して、隣接する非腫瘍組織ＤＮＡと比較して、腫瘍ＤＮＡのＨａｐＩとＨａｐＩＩとの間で異なるメチル化を示した潜在的なハプロタイプブロックを特定した。基準は次のとおりであった。（１）分析されるハプロタイプブロックには、３つの配列決定ウェルからそれぞれ生成された少なくとも３つの３つのＣＣＳ配列が含有されていた。（２）隣接する非腫瘍組織ＤＮＡにおけるＨａｐＩとＨａｐＩＩとの間のメチル化レベルの絶対差は５％未満であった。（３）腫瘍組織ＤＮＡにおけるＨａｐＩとＨａｐＩＩとの間のメチル化レベルの絶対差は３０％を超えていた。上記の基準を満たす７３のハプロタイプブロックを特定した。

図１０５Ａおよび１０５Ｂは、ケースＴＢＲ３０３３の隣接する非腫瘍組織ＤＮＡと比較した、ＨＣＣ腫瘍ＤＮＡにおけるＨａｐＩとＨａｐＩＩとの間の異なるメチル化レベルを示す７３個のハプロタイプブロックの表である。最初の列は、ハプロタイプブロックに関連する染色体を示す。２番目の列は、染色体内のハプロタイプブロックの開始座標を示す。３番目の列は、ハプロタイプブロックの終止座標を示す。４番目の列は、ハプロタイプブロックの長さを示す。４番目の列は、ハプロタイプブロックのＩＤを列挙している。５番目の列は、腫瘍組織に隣接する非腫瘍組織におけるＨａｐＩのメチル化レベルを示す。６番目の列は、非腫瘍組織におけるＨａｐＩＩのメチル化レベルを示す。７番目の列は、腫瘍組織におけるＨａｐＩのメチル化レベルを示す。８番目の列は、腫瘍組織におけるＨａｐＩＩのメチル化レベルを示す。

腫瘍組織ＤＮＡのハプロタイプ間でメチル化レベルに３０％を超える差を示す７３のハプロタイプブロックとは対照的に、非腫瘍組織ＤＮＡでは３０％を超える差を示したが、腫瘍組織ＤＮＡでは５％未満の差を示したハプロタイプブロックは１つだけであった。一部の実施形態では、別の一連の基準を使用して、異なるメチル化を示すハプロタイプブロックを特定することができる。他の最大および最小の閾値の差を使用することができる。例えば、最小の閾値の差は、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、またはそれ以上であり得る。例として、最大の閾値の差は、１％、５％、１０％、１５％、２０％、または３０％である。これらの結果は、ハプロタイプ間のメチル化の違いの変動が、癌の診断、検出、監視、予後診断、および治療のためのガイダンスのための新しいバイオマーカーとして役立つ可能性があることを示唆した。

一部の実施形態では、メチル化パターンを研究する場合、長いハプロタイプブロックは、インシリコで、より小さなブロックに分割される。

ケース３０３２の場合、隣接する非腫瘍組織ＤＮＡの配列決定の結果から６１，９５８個のハプロタイプブロックを取得した。ハプロタイプブロックのサイズの中央値は、９．３ｋｂであった。ハプロタイプブロックの２５％は、サイズが２７．６ｋｂを超えていた。ハプロタイプブロックの最大サイズは、７１７．８ｋｂであった。例として、上記と同じ３つの基準を使用して、隣接する正常組織ＤＮＡと比較して、腫瘍ＤＮＡのＨａｐＩとＨａｐＩＩとの間で異なるメチル化を示した潜在的なハプロタイプブロックを特定した。上記の基準を満たす２０のハプロタイプブロックを特定した。データセットは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０によって調製されたＤＮＡから生成された。

図１０６は、ケースＴＢＲ３０３２の隣接する正常組織ＤＮＡと比較して、腫瘍ＤＮＡにおけるＨａｐＩとＨａｐＩＩとの間の異なるメチル化レベルを示す２０個のハプロタイプブロックの表である。最初の列は、ハプロタイプブロックに関連する染色体を示す。２番目の列は、染色体内のハプロタイプブロックの開始座標を示す。３番目の列は、ハプロタイプブロックの終止座標を示す。４番目の列は、ハプロタイプブロックの長さを示す。４番目の列は、ハプロタイプブロックのＩＤを列挙している。５番目の列は、腫瘍組織に隣接する非腫瘍組織におけるＨａｐＩのメチル化レベルを示す。６番目の列は、非腫瘍組織におけるＨａｐＩＩのメチル化レベルを示す。７番目の列は、腫瘍組織におけるＨａｐＩのメチル化レベルを示す。８番目の列は、腫瘍組織におけるＨａｐＩＩのメチル化レベルを示す。

図１０６のＨＣＣ腫瘍組織の違いを示す２０個のハプロタイプブロックとは対照的に、１つのハプロタイプブロックのみが、非腫瘍組織で３０％超の違いを示し、しかし、腫瘍組織では５％未満の違いを示した。これらの結果はさらに、ハプロタイプ間のメチル化の違いの変動が、癌の診断、検出、監視、予後診断、および治療のためのガイダンスのための新しいバイオマーカーとして役立つ可能性があることを示唆している。他の実施形態では、他の基準を使用して、異なるメチル化を示すハプロタイプブロックを特定することができる。

Ｄ．他の腫瘍タイプからのＤＮＡの相対的ハプロタイプベースのメチル化不均衡分析
上述のように、ハプロタイプ間のメチル化レベルの分析は、ＨＣＣ腫瘍組織が、ペアの隣接する非腫瘍組織と比較して、メチル化の不均衡を示すより多くのハプロタイプブロックを有していたことを明らかにした。一例として、腫瘍組織でメチル化不均衡を示すハプロタイプブロックの基準は、次のとおりであった。（１）分析されるハプロタイプブロックには、３つの配列決定ウェルから生成された少なくとも３つのＣＣＳ配列が含有されていた。（２）過去のデータに基づく隣接する非腫瘍組織ＤＮＡまたは正常組織ＤＮＡにおけるＨａｐＩとＨａｐＩＩとの間のメチル化レベルの絶対差は５％未満であった。（３）腫瘍組織ＤＮＡにおけるＨａｐＩとＨａｐＩＩとの間のメチル化レベルの絶対差は３０％を超えていた。メチル化レベルでハプロタイプ不均衡を示す非腫瘍／正常組織は、腫瘍領域ではなくインプリント領域を示している可能性があるため、基準（２）が含まれた。非腫瘍組織におけるメチル化不均衡を示すハプロタイプブロックの基準は、次のとおりであった。（１）分析されるハプロタイプブロックには、３つの配列決定ウェルから生成された少なくとも３つのＣＣＳ配列が含有されていた。（２）過去のデータに基づく隣接する非腫瘍組織ＤＮＡまたは正常組織ＤＮＡにおけるＨａｐＩとＨａｐＩＩとの間のメチル化レベルの絶対差は３０％を超えていた。（３）腫瘍組織ＤＮＡにおけるＨａｐＩとＨａｐＩＩとの間のメチル化レベルの絶対差は５％未満であった。

他の実施形態では、他の規準を使用することができる。例えば、不均衡なハプロタイプＩの癌ゲノムを特定するために、非腫瘍組織では、ＨａｐＩとＨａｐＩＩとの間のメチル化レベルの差が、１％、５％、１０％、２０％、４０％、５０％、または６０％未満などであってもよく、腫瘍組織では、ＨａｐＩとＨａｐＩＩとの間のメチル化レベルの差が、１％、５％、１０％、２０％、４０％、５０％、または６０％超などであってもよい。不均衡なハプロタイプＩの非癌ゲノムを特定するために、非腫瘍組織では、ＨａｐＩとＨａｐＩＩとの間のメチル化レベルの差が、１％、５％、１０％、２０％、４０％、５０％、または６０％超などであってもよく、一方、腫瘍組織では、ＨａｐＩとＨａｐＩＩとの間のメチル化レベルの差が、１％、５％、１０％、２０％、４０％、５０％、または６０％未満などであってもよい。

図１０７Ａは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０によって生成されたデータに基づいて、腫瘍と隣接する非腫瘍組織との間の２つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。最初の列は、組織型を列挙している。２番目の列は、腫瘍組織における２つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数を列挙している。３番目の列は、ペアの隣接する非腫瘍組織における２つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数を列挙している。これらの行は、ペアの隣接する非腫瘍組織よりも腫瘍組織で、２つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックがより多いことを示している。

この分析に含まれたハプロタイプブロックの長さの中央値は１５．７ｋｂ（ＩＱＲ：１０．３～２６．１ｋｂ）であった。肝臓のＨＣＣの結果を含めて、これらのデータは、７つの組織型で、腫瘍組織がメチル化不均衡を伴うより多くのハプロタイプブロックを有することを示している。肝臓に加えて、他の組織には、結腸、乳房、腎臓、肺、前立腺、および胃の組織が含まれる。したがって、一部の実施形態では、メチル化不均衡を有するハプロタイプブロックの数を使用して、患者が、腫瘍または癌を有しているかどうかを検出することができる。

図１０７Ｂは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ２．０によって生成されたデータに基づいて、異なる腫瘍病期の腫瘍組織における２つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。最初の列は、腫瘍を伴う組織型を示す。２番目の列は、腫瘍組織における２つのハプロタイプ間のメチル化不均衡を有するハプロタイプブロックの数を示す。３番目の列は、悪性腫瘍のＴＮＭ分類を使用した腫瘍病期分類情報を列挙している。Ｔ３とＴ３ａは、Ｔ２よりも大きなサイズの腫瘍である。

この表は、乳房と腎臓の両方で、腫瘍がより大きいほど、メチル化不均衡を示すハプロタイプブロックがより多いことを示している。例えば、乳房組織の場合、腫瘍グレードＴ３（ＴＮＭ病期分類）、ＥＲ陽性、およびＥＲＢＢ２増幅を示すとして分類された組織は、腫瘍グレードＴ２（ＴＮＭ病期分類）、ＰＲ（プロゲステロン受容体）／ＥＲ（エストロゲン受容体）陽性、ＥＲＢＢ２増幅なしとして分類された組織のハプロタイプブロック（１８）よりもメチル化不均衡を示すハプロタイプブロック（５７）が多かった。腎臓組織の場合、腫瘍グレードＴ３ａに分類された組織は、腫瘍グレードＴ２に分類された組織のハプロタイプブロック（０）よりも、メチル化不均衡を示すハプロタイプブロック（６８）が多かった。

一部の実施形態では、腫瘍の分類のために、およびそれらの臨床的挙動（例えば、進行、予後、または治療応答）と相関させるために、メチル化不均衡を示すハプロタイプブロックを利用することができる。これらのデータは、ハプロタイプベースのメチル化不均衡の程度が、腫瘍の分類子として役立つ可能性があり、臨床研究または治験または最終的な臨床サービスに組み込まれ得ることを示唆した。腫瘍の分類には、サイズと重症度が含まれ得る。

Ｅ．母体血漿無細胞ＤＮＡのハプロタイプベースのメチル化分析
両方の親またはいずれかの親のハプロタイプを決定することができる。ハプロタイピング法には、ロングリード単一分子配列決定、リンクされたショートリード配列決定（例えば、１０ｘゲノミクス）、長距離単一分子ＰＣＲ、または母集団推論が含まれる。父方のハプロタイプがわかっている場合、父方のハプロタイプに沿って存在する少なくとも１つの父方特異的ＳＮＰアレルをそれぞれ含有する複数の無細胞ＤＮＡ分子のメチル化プロファイルをリンクすることによって、無細胞胎児ＤＮＡメチロームを構築することができる。言い換えれば、父方のハプロタイプは、胎児特異的リード配列をリンクするための足場として使用される。

図１０８は、相対的なメチル化不均衡についてのハプロタイプの分析を示す。母方のハプロタイプがわかっている場合、２つのハプロタイプ（すなわち、ＨａｐＩとＨａｐＩＩ）間のメチル化不均衡を使用して、胎児に遺伝した母方のハプロタイプを決定することができる。図１０８に示されるように、妊婦由来の血漿ＤＮＡ分子は、単一分子リアルタイム配列決定技術を使用して配列決定される。メチル化およびアレル情報は、本明細書の開示に従って決定することができる。一実施形態では、疾患を引き起こす遺伝子に関連するＳＮＰは、ＨａｐＩとして割り当てられる。胎児がＨａｐＩを受け継いだ場合、ＨａｐＩのアレルを有する断片は、ＨａｐＩＩのアレルを有するものと比較して、母体血漿中により多く存在する。胎児に由来するＤＮＡ断片の低メチル化は、ＨａｐＩＩのメチル化レベルと比較して、ＨａｐＩのメチル化レベルを低下させる。その結果、ＨａｐＩのメチル化がＨａｐＩＩよりも低いメチル化レベルを示す場合、胎児は母方のＨａｐＩを受け継ぐ可能性がより高くなる。そうでない場合、胎児は、母方のＨａｐＩＩを受け継ぐ可能性がより高くなる。臨床試験では、ハプロタイプベースのメチル化不均衡分析を使用して、胎児が、例えば、限定されないが、脆弱Ｘ症候群、筋ジストロフィー、ハンチントン病またはβサラセミアなどの遺伝性障害に関連する母方のハプロタイプを受け継いでいるかどうかを決定することができる。

Ｆ．障害の分類方法の実施例
図１０９は、第１のハプロタイプおよび第２のハプロタイプを有する生物における障害を分類する、例示的な方法１０９０を示す。方法１０９０は、２つのハプロタイプ間の相対的なメチル化レベルを比較することを含む。

ブロック１０９１では、生体試料由来のＤＮＡ分子を分析して、生物に対応する参照ゲノムにおけるそれらの位置を特定する。ＤＮＡ分子は、細胞のＤＮＡ分子であり得る。例えば、ＤＮＡ分子を配列決定して、配列リードを取得することができ、配列リードを参照ゲノムにマッピングする（整列させる）ことができる。生物がヒトの場合、参照ゲノムは、潜在的には特定の亜集団からの参照ヒトゲノムである。別の例として、ＤＮＡ分子を（例えば、ＰＣＲまたは他の増幅の後に）異なるプローブで分析することができ、各プローブは、以下に説明するように、ヘテロ接合の１つ以上のＣｐＧ部位を網羅し得るゲノム位置に対応する。

さらに、ＤＮＡ分子を分析して、ＤＮＡ分子のそれぞれのアレルを決定することができる。例えば、ＤＮＡ分子のアレルは、配列決定から取得された配列リードから、またはＤＮＡ分子にハイブリダイズする特定のプローブから決定することができ、両方の技術は、配列リードを提供することができる（例えば、ハイブリダイズする場合、プローブを配列リードとして扱うことができる）。ＤＮＡ分子について、１つ以上の部位（例えば、ＣｐＧ部位）の各々におけるメチル化状態を決定することができる。

ブロック１０９２では、第１の染色体領域の第１の箇所の１つ以上のヘテロ接合遺伝子座が特定される。各ヘテロ接合遺伝子座は、第１のハプロタイプの対応する第１のアレルおよび第２のハプロタイプの対応する第２のアレルを含むことができる。１つ以上のヘテロ接合遺伝子座は、第１の複数のヘテロ接合遺伝子座であってもよく、第２の複数のヘテロ接合遺伝子座は、異なる染色体領域に対応し得る。

ブロック１０９３では、複数のＤＮＡ分子の第１のセットが特定される。複数のＤＮＡ分子の各々は、ブロック１０９６からのヘテロ接合遺伝子座のうちのいずれか１つに位置し、対応する第１のアレルを含むため、ＤＮＡ分子は、第１のハプロタイプに対応するものとして特定され得る。ＤＮＡ分子が２つ以上のヘテロ接合遺伝子座に位置する可能性があるが、典型的には、リードには、１つのヘテロ接合遺伝子座のみが含まれる。また、ＤＮＡ分子の第１のセットの各々には、Ｎ個のゲノム部位のうちの少なくとも１つが含まれ、ゲノム部位は、メチル化レベルを測定するために使用される。Ｎは整数であり、例えば、１、２、３、４、５、１０、２０、５０、１００、２００、５００、１，０００、２，０００、または５，０００以上である。したがって、ＤＮＡ分子のリードは、１部位、２部位などのカバレッジを示すことができる。１ゲノム部位は、ＣｐＧヌクレオチドが存在する部位を含み得る。

ブロック１０９４では、第１のハプロタイプの第１の箇所の第１のメチル化レベルが、複数のＤＮＡ分子の第１のセットを使用して決定される。第１のメチル化レベルは、本明細書に記載の任意の方法によって決定することができる。第１の箇所は、単一の部位に対応していても、多くの部位を含んでいてもよい。第１のハプロタイプの第１の箇所は、１ｋｂ以上であり得る。例えば、第１のハプロタイプの第１の箇所は、１ｋｂ、５ｋｂ、１０ｋｂ、１５ｋｂ、または２０ｋｂ以上であってもよい。メチル化データは、細胞ＤＮＡからのデータであってもよい。

一部の実施形態では、複数の第１のメチル化レベルは、第１のハプロタイプの複数の箇所について決定され得る。各箇所は、５ｋｂ以上の鎖長、または第１のハプロタイプの第１の箇所について本明細書に開示される任意のサイズを有し得る。

ブロック１０９５では、複数ＤＮＡ分子の第２のセットが特定される。複数のＤＮＡ分子の各々は、ブロック１０９６からのヘテロ接合遺伝子座のうちのいずれか１つに位置し、対応する第２のアレルを含むため、ＤＮＡ分子は、第２のハプロタイプに対応するものとして特定され得る。また、ＤＮＡ分子の第２のセットの各々には、Ｎ個のゲノム部位のうちの少なくとも１つが含まれ、ゲノム部位は、メチル化レベルを測定するために使用される。

ブロック１０９６では、第２のハプロタイプの第１の箇所の第２のメチル化レベルが、複数のＤＮＡ分子の第２のセットを使用して決定される第２のメチル化レベルは、本明細書に記載の任意の方法によって決定することができる。第２のハプロタイプの第１の箇所は、１ｋｂ以上または第１のハプロタイプの第１の箇所の任意のサイズよりも長くてもよい。第１のハプロタイプの第１の箇所は、第２のハプロタイプの第１の箇所と相補的であり得る。第１のハプロタイプの第１の箇所および第２のハプロタイプの第１の箇所は、環状ＤＮＡ分子を形成し得る。第１のハプロタイプの第１の箇所の第１のメチル化レベルは、環状ＤＮＡ分子からのデータを使用して決定され得る。例えば、環状ＤＮＡの分析は、図１、図２、図４、図５、図６、図７、図８、図５０、または図６１で説明される分析を含み得る。

環状ＤＮＡ分子は、二本鎖ＤＮＡ分子を切断することによって形成することができ、Ｃａｓ９複合体を使用して、切断された二本鎖ＤＮＡ分子を形成する。ヘアピンアダプターは、切断された二本鎖ＤＮＡ分子の末端に連結することができる。実施形態では、二本鎖ＤＮＡ分子の両端を切断して連結することができる。例えば、切断、連結、およびその後の分析は、図９１に記載されているように進めてもよい。

一部の実施形態では、複数の第２のメチル化レベルは、第２のハプロタイプの複数の箇所について決定され得る。第２のハプロタイプの複数の箇所の各箇所は、第１のハプロタイプの複数の箇所の一箇所に相補的であり得る。

ブロック１０９７では、パラメータの値は、第１のメチル化レベルおよび第２のメチル化レベルを使用して計算される。このパラメータは、分離値による場合がある。分離値は、２つのメチル化レベル間の差、または２つのメチル化レベルの比率であってもよい。

第２のハプロタイプの複数の箇所を使用する場合、第２のハプロタイプの複数の箇所の各箇所について、分離値は、第２のハプロタイプの箇所の第２のメチル化レベル、および第１のハプロタイプの相補的な箇所を使用した第１のメチル化レベルを使用して計算され得る。分離値は、カットオフ値と比較され得る。

カットオフ値は、障害を有さない組織から決定することができる。パラメータは、分離値がカットオフ値を超える第２のハプロタイプの箇所の数であってもよい。例えば、分離値がカットオフ値を超える第２のハプロタイプの箇所の数は、図１０５Ａ、図１０５Ｂ、および図１０６において３０％を超える差を有することが示されている領域の数と同様であり得る。図１０５Ａ、図１０５Ｂ、および図１０６では、分離値は比率であり、カットオフ値は３０％である。一部の実施形態では、カットオフ値は、障害を有する組織から決定され得る。

別の実施例では、各箇所の分離値は、集計する（例えば、合計する）ことができ、これは、それぞれの分離値の加重合計または関数の合計によって行うことができる。このような集計により、パラメータの値を提供することができる。

ブロック１０９８では、パラメータの値を参照値と比較する。参照値は、障害のない参照組織を使用して決定することができる。参照値は、分離値であってもよい。例えば、参照値は、２つのハプロタイプのメチル化レベル間に有意差があってはならないことを表す場合がある。例えば、参照値は、０の統計的差異または約１の比率であり得る。複数の箇所が使用される場合、参照値は、２つのハプロタイプがカットオフ値を超える分離値を示すような、健康な生物における箇所の数であり得る。一部の実施形態では、参照値は、障害を伴う参照組織を使用して決定することができる。

ブロック１０９９において、生物における障害の分類は、パラメータの値と参照値との比較を使用して決定される。パラメータの値が参照値を超える場合、障害が存在するか、より可能性が高いと判断される場合がある。障害には、癌が含まれ得る。癌は、本明細書に記載の任意の癌であり得る。障害の分類は、障害の可能性であり得る。障害の分類には、障害の重症度が含まれ得る。例えば、ハプロタイプの不均衡を伴う箇所の数がより多いことを示すより大きなパラメータ値は、より重篤な形態の癌を示し得る。

図１０９で説明されている方法は障害の分類を含むが、同様の方法を使用して、ハプロタイプ間のメチル化レベルの不均衡から生じる得る任意の状態または特性を決定することができる。例えば、胎児ＤＮＡからのハプロタイプのメチル化レベルは、母体ＤＮＡからのハプロタイプのメチル化よりも低い可能性がある。メチル化レベルは、核酸を母体または胎児として分類するために使用することができる。

障害が癌である場合、腫瘍の異なる染色体領域は、メチル化のそのような違いを示す可能性がある。影響を受ける領域に応じて、異なる治療が提供され得る。さらに、メチル化のそのような違いを示す異なる領域を有する対象は、異なる予後を有する可能性がある。

十分な分離を有する（例えば、カットオフ値より大きい）染色体領域（箇所）は、異常である（または異常な分離がある）と特定することができる。異常領域のパターン（ハプロタイプが他よりも高い可能性があることを説明する）は、参照パターンと比較することができる（例えば、癌を有する対象、潜在的に特定の種類の癌、または健康な対象から決定される）。２つのパターンが、特定の分類を有する参照パターンよりも閾値内で同じである場合（例えば、異なる領域／箇所の指定された数未満）、対象は、障害についてその分類を有すると特定され得る。そのような分類は、例えば、本明細書に記載されるように、インプリント障害を含み得る。

ＶＩＩ．ハイブリッド分子の単一分子メチル化分析
核酸の塩基修飾の決定に関して本明細書に開示される実施形態の性能および有用性をさらに評価するために、ヒト部分がメチル化され、マウス部分が非メチル化された、またはその逆であるヒトおよびマウスのハイブリッドＤＮＡ断片を人工的に作成した。ハイブリッドまたはキメラＤＮＡ分子の接合部を決定することにより、癌を含む様々な障害または疾患の遺伝子融合を検出できる可能性がある。

Ａ．ヒトとマウスのハイブリッドＤＮＡ断片を作成する方法
このセクションでは、ハイブリッドＤＮＡ断片の作成、次いで断片のメチル化プロファイルを決定する手順について説明する。

一実施形態では、ヒトＤＮＡは、全ゲノム増幅によって増幅され、その結果、全ゲノム増幅ではメチル化状態が保存されないため、ヒトゲノムの元のメチル化特性が排除される。全ゲノム増幅は、ゲノム上でランダムに結合し得るプライマーとしてのエキソヌクレアーゼ耐性チオリン酸修飾縮重ヘキサマーを使用して行うことができ、ポリメラーゼ（例えば、Ｐｈｉ２９ＤＮＡポリメラーゼ）が熱サイクルなしでＤＮＡを増幅することが可能になる。増幅されたＤＮＡ産物は、メチル化されていない。増幅されたヒトＤＮＡ分子は、ＣｐＧメチルトランスフェラーゼであるＭ．ＳｓｓＩでさらに処理された。これは、理論上、二本鎖ＤＮＡ、非メチル化ＤＮＡ、またはヘミメチル化ＤＮＡにおいて、ＣｐＧ文脈でのすべてのシトシンを完全にメチル化する。したがって、Ｍ．ＳｓｓＩによって処理されたこのような増幅ヒトＤＮＡは、メチル化されたＤＮＡ分子になる。

対照的に、非メチル化マウスＤＮＡ断片が生成されるように、マウスＤＮＡを、全ゲノム増幅にかけた。

図１１０は、マウス部分が非メチル化され、ヒト部分がメチル化されているヒト－マウスハイブリッドＤＮＡ断片の作成を示す。塗りつぶされたロリポップは、メチル化されたＣｐＧ部位を表す。塗りつぶされていないロリポップは、非メチル化ＣｐＧ部位を表す。斜めの縞模様の太い棒１１０１０は、メチル化されたヒト部分を表す。縦縞の太い棒１１０２０は、非メチル化マウス部分を表している。

ハイブリッドヒト－マウスＤＮＡ分子の生成のために、一実施形態では、全ゲノム増幅およびＭ．ＳｓｓＩ処理ＤＮＡ分子をＨｉｎｄＩＩＩおよびＮｃｏＩでさらに消化して、下流の連結を容易にするための粘着末端を生成した。一実施形態では、メチル化されたヒトＤＮＡ断片は、等モル比で非メチル化マウスＤＮＡ断片とさらに混合された。そのようなヒト－マウスＤＮＡ混合物は、一実施形態では、２０℃で１５分間のＤＮＡリガーゼによって媒介される連結プロセスにかけられた。図１１０に示されるように、この連結反応により、ヒト－マウスハイブリッドＤＮＡ分子（ａ：ヒト－マウスハイブリッド断片）、ヒトのみのＤＮＡ分子（ｂ：ヒト－ヒト連結、およびｃ：連結されていないヒトＤＮＡ）、およびマウスのみのＤＮＡ分子（ｄ：マウス－マウス連結、およびｅ：連結されていないマウスＤＮＡ）を含む、３種類の結果としての分子が生成される。連結後のＤＮＡ産物は、単一分子リアルタイム配列決定にかけられた。配列決定の結果は、メチル化状態を決定するために本明細書に提供される開示に従って分析された。

図１１１は、ヒト部分が非メチル化され、マウス部分がメチル化されているヒト－マウスハイブリッドＤＮＡ断片の作成を示す。塗りつぶされたロリポップは、メチル化されたＣｐＧ部位を表す。塗りつぶされていないロリポップは、非メチル化ＣｐＧ部位を表す。斜めの縞模様の太い棒１１１１０は、メチル化されたマウス部分を表している。縦縞の太い棒１１１２０は、非メチル化ヒト部分を表している。

図１１１の実施形態では、マウスゲノムの元のメチル化が排除されるように、マウスＤＮＡ分子が全ゲノム増幅を介して増幅された。増幅されたＤＮＡ産物は、メチル化されていない。増幅されたマウスＤＮＡは、さらにＭ．ＳｓｓＩで処理される。したがって、Ｍ．ＳｓｓＩによって処理されたそのような増幅されたマウスＤＮＡは、メチル化されたＤＮＡ分子になる。対照的に、非メチル化ヒト断片が取得されるように、ヒトＤＮＡ断片を全ゲノム増幅にかけた。一実施形態では、メチル化されたヒト断片は、等モル比で非メチル化断片とさらに混合された。このようなヒト－マウスＤＮＡ混合物を、ＤＮＡリガーゼによって媒介される連結プロセスにかけた。図１１１に示すように、この連結反応により、ヒト－マウスハイブリッドＤＮＡ分子（ａ：ヒト－マウスハイブリッド断片）、ヒトのみのＤＮＡ分子（ｂ：ヒト－ヒト連結、およびｃ：連結されてないヒトＤＮＡ）、およびマウスのみのＤＮＡ分子（ｄ：マウス－マウス連結、およびｅ：連結されてないマウスＤＮＡ）を含む、３種類の結果としての分子が生成される。連結後のＤＮＡ産物は、単一分子リアルタイム配列決定にかけられた。配列決定の結果は、メチル化状態を決定するために本明細書に提供される開示に従って分析された。

図１１０に示される実施形態によれば、本発明者らは、人工ＤＮＡ混合物（試料ＭＩＸ０１と命名）を調製し、ヒト－マウスハイブリッドＤＮＡ分子、ヒトのみのＤＮＡ、およびマウスのみのＤＮＡが含まれ、ヒトに関連するＤＮＡ分子がメチル化され、マウスＤＮＡ分子はメチル化されていなかった。試料ＭＩＸ０１の場合、ヒトもしくはマウスの参照ゲノム、または部分的にヒトゲノムおよび部分的にマウスゲノムのいずれかに整列され得る１億６６００万個のサブリードを取得した。これらのサブリードは、約５００万のＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ単一分子リアルタイム（ＳＭＲＴ）配列決定ウェルから生成された。単一分子リアルタイム配列決定ウェルの各分子は、平均３２回（範囲：１～８８１回）配列決定された。

ハイブリッド断片のヒトＤＮＡ部分およびマウスＤＮＡ部分を決定するために、まず、ウェル内のすべての関連するサブリードからのヌクレオチド情報を組み合わせることによって、コンセンサス配列を構築した。合計で、試料ＭＩＸ０１について、３，４３５，６５７個のコンセンサス配列が取得された。データセットは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０によって調製されたＤＮＡから生成された。

コンセンサス配列は、ヒト参照とマウス参照の両方を含む参照ゲノムに整列された。３２０万の整列したコンセンサス配列を取得した。それらの中で、それらの３９．６％が、ヒトのみのＤＮＡ型として分類され、それらの２６．５％が、マウスのみのＤＮＡ型として分類され、それらの３０．２％が、ヒト－マウスハイブリッドＤＮＡとして分類された。

図１１２は、連結後のＤＮＡ混合物中のＤＮＡ分子の鎖長分布を示す（試料ＭＩＸ０１）。ｘ軸は、ＤＮＡ分子の鎖長を示す。ｙ軸は、ＤＮＡ分子の鎖長に関連する頻度を示す。図１１２に示されるように、ヒト－マウスハイブリッドＤＮＡ分子は、より長い鎖長分布を有し、それらが少なくとも２つの種類の分子の組み合わせであるという事実と一致していた。

図１１３は、第１のＤＮＡ（Ａ）および第２のＤＮＡ（Ｂ）が一緒に結合される接合領域を示す。ＤＮＡ（Ａ）およびＤＮＡ（Ｂ）は、制限酵素で消化することができる。一実施形態では、付着末端を使用する連結の効率を改善するために、連結のステップの前に、制限酵素ＨｉｎｄＩＩＩおよびＮｃｏＩ（それぞれＡ＾ＡＧＣＴＴおよびＣ＾ＣＡＴＧＧ部位を認識する）を使用して、ヒトおよびマウスのＤＮＡを消化した。次に、ＤＮＡ（Ａ）およびＤＮＡ（Ｂ）を連結することができる。接合領域を有する６９８，４９２個のヒト－マウスハイブリッドＤＮＡ分子の中で、Ａ＾ＡＧＣＴＴおよびＣ＾ＣＡＴＧＧの酵素認識部位を有するヒト－マウスハイブリッドＤＮＡ分子の８８％が見つかり、さらにヒトとマウスのＤＮＡ断片間の連結が起きたことを示唆している。当該接合領域は、第１のＤＮＡ断片および第２のＤＮＡ断片が物理的に一緒に結合された領域または部位として定義される。接合部にはＤＮＡ（Ａ）とＤＮＡ（Ｂ）の両方に共通の配列が含まれているため、接合部に対応する１つの鎖の箇所は、配列だけではＤＮＡ（Ａ）またはＤＮＡ（Ｂ）の一部であると判断することができない。接合部に対応する１つの鎖の箇所のメチル化パターンまたは密度を分析することは、その箇所がＤＮＡ（Ａ）またはＤＮＡ（Ｂ）からのものであるかどうかを決定するために使用され得る。一例として、ＤＮＡ（Ａ）はウイルスＤＮＡであり得、ＤＮＡ（Ｂ）はヒトＤＮＡであり得る。正確な接合部の決定は、そのような統合されたＤＮＡが、タンパク質の構造を破壊するかどうか、およびどのように破壊するかを知らせることができる。

図１１４は、ＤＮＡ混合物のメチル化分析を示している。斜めの縞模様のある棒１１４１０は、連結前の制限酵素処理によって導入されるであろう整列分析で観察された接合領域を示す。「ＲＥ部位」は、制限酵素（ＲＥ）認識部位を表す。

図１１４に示されるように、一実施形態では、整列されたコンセンサス配列は、以下のように３つのカテゴリーにグループ化された。

（１）配列決定されたＤＮＡは、１つ以上の整列基準を参照して、ヒト参照ゲノムにのみ整列され、マウス参照ゲノムには整列されなかった。一実施形態では、１つの整列基準は、限定されないが、配列決定されたＤＮＡの連続したヌクレオチドの１００％、９５％、９０％、８０％、７０％、６０％、５０％、４０％、３０％、または２０％がヒト参照に整列され得るものとして定義され得る。一実施形態では、１つの整列基準は、ヒト参照に整列しなかった配列決定された断片の残りの部分が、マウス参照ゲノムに整列し得ないことである。一実施形態では、１つの整列基準は、配列決定されたＤＮＡが参照ヒトゲノムの単一の領域に整列され得ることであった。一実施形態では、整列は完全であり得る。さらに他の実施形態では、整列は、挿入、ミスマッチ、および欠失を含むヌクレオチドの不一致に対応可能であり、ただし、そのような不一致は特定の閾値未満であり、限定されないが、整列された配列の長さの１％、２％、３％、４％、５％、１０％、２０％、または３０％などである。別の実施形態では、整列されたものは、参照ゲノムの２つ以上の位置にあり得る。さらに他の実施形態では、参照ゲノムの１つ以上の部位への整列は、確率的な様式で記述され（例えば、誤った整列の可能性を示す）、確率の測定は、その後の処理で使用され得る。

（２）配列決定されたＤＮＡは、１つ以上の整列基準を参照して、マウス参照ゲノムにのみ整列されたが、ヒト参照ゲノムには整列されなかった。一実施形態では、１つの整列基準は、限定されないが、配列決定されたＤＮＡの連続したヌクレオチドの１００％、９５％、９０％、８０％、７０％、６０％、５０％、４０％、３０％、または２０％がマウス参照に整列され得るものとして定義され得る。一実施形態では、１つの整列基準は、残りの部分がヒト参照ゲノムに整列し得ないことである。一実施形態では、１つの整列基準は、配列決定されたＤＮＡが参照マウスゲノムの単一の領域に整列され得ることであった。一実施形態では、整列は完全であり得る。さらに他の実施形態では、整列は、挿入、ミスマッチ、および欠失を含むヌクレオチドの不一致に対応可能であり、ただし、そのような不一致は特定の閾値未満であり、限定されないが、整列された配列の長さの１％、２％、３％、４％、５％、１０％、２０％、または３０％などである。別の実施形態では、整列されたものは、参照ゲノムの２つ以上の位置にあり得る。さらに他の実施形態では、参照ゲノムの１つ以上の部位への整列は、確率的な様式で記述され（例えば、誤った整列の可能性を示す）、確率の測定は、その後の処理で使用され得る。

（３）配列決定されたＤＮＡの一部分は、ヒト参照ゲノムと一意的に整列されたが、別の部分は、マウスの参照ゲノムと一意的に整列された。一実施形態では、連結の前に制限酵素を使用した場合、整列分析で、制限酵素切断部位に対応する接合領域が観察されるであろう。一部の実施形態では、ヒトとマウスのＤＮＡ部分の間の接合領域は、配列決定エラーおよび整列エラーのために、特定の領域内でのみ、おおよそ決定することができた。一部の実施形態では、制限酵素の切断なしに分子の連結が見られた場合（例えば、平滑末端の連結があった場合）、ヒト－マウスハイブリッドＤＮＡ断片の接合領域において、制限酵素認識部位は観察されない。

パルス間隔（ＩＰＤ）、パルス幅（ＰＷ）、およびＣｐＧ部位を取り巻く配列文脈は、コンセンサス配列に対応するそれらのサブリードから取得された。それによって、ヒトのみＤＮＡ、マウスのみＤＮＡ、およびヒト－マウスハイブリッドＤＮＡを含む各ＤＮＡ分子のメチル化は、本開示に存在する実施形態に従って決定することができた。

Ｂ．メチル化の結果
このセクションでは、ハイブリッドＤＮＡ断片のメチル化の結果について説明する。メチル化密度は、ハイブリッドＤＮＡ断片の様々な部分の起源を特定するために使用することができる。

図１１５は、試料ＭＩＸ０１のＣｐＧ部位がメチル化される確率の箱ひげ図を示す。ｘ軸は、試料ＭＩＸ０１に存在する３つの異なる分子：ヒトのみのＤＮＡ、マウスのみのＤＮＡ、およびヒトとマウスのハイブリッドＤＮＡ（ヒト部分とマウス部分の両方を含む）を示す。ｙ軸は、特定の単一ＤＮＡ分子のＣｐＧ部位がメチル化されている確率を示す。このアッセイは、ヒトＤＮＡがよりメチル化され、マウスＤＮＡがより非メチル化されるような方法で行われた。

図１１５に示されるように、ヒトのみのＤＮＡにおいてＣｐＧ部位がメチル化されている確率（中央値：０．６６、範囲：０～１）は、マウスのみのＤＮＡの確率（中央値：０．０６、範囲：０～１）よりも有意に高かった（Ｐ値＜０．０００１）。これらの結果は、アッセイ設計と一致していた。つまり、ヒトＤＮＡは、ＣｐＧメチルトランスフェラーゼＭ．ＳｓｓＩの処理のために、よりメチル化されていたが、マウスＤＮＡは、全ゲノム増幅中にメチル化が維持されないために、より非メチル化されていた。さらに、ヒト－マウスハイブリッドＤＮＡ分子のヒトＤＮＡ部分内のＣｐＧ部位（中央値：０．０６、範囲：０～１）は、マウスＤＮＡ部分内のＣｐＧ部位（中央値：０．６９、範囲：０～１）と比較してメチル化されている確率が高かった（Ｐ値＜０．０００１）。これらのデータは、開示された方法が、ＤＮＡ分子ならびにＤＮＡ分子内のセグメントのメチル化状態を正確に決定できることを示している。

メチル化の確率は、使用される統計モデルに基づいた、単一分子内の特定のＣｐＧ部位の推定確率を指す。確率１は、統計モデルに基づいて、測定されたパラメータ（ＩＰＤ、ＰＷ、および配列文脈を含む）を使用して、ＣｐＧ部位の１００％がメチル化されていることを示す。確率０は、統計モデルに基づいて、測定されたパラメータ（ＩＰＤ、ＰＷ、および配列文脈を含む）を使用して、ＣｐＧ部位の０％がメチル化されていることを示す。言い換えると、測定されたパラメータを使用して、すべてのＣｐＧ部位はメチル化されていない。図１１５は、メチル化の確率の分布を示しており、ヒトのみのＤＮＡの分布およびヒト部分の分布は、マウスの対応物よりも広くなっている。バイサルファイト配列決定を使用して、類似の試料のメチル化を測定し、メチル化が完了していないことを確認する。結果を以下に示す。図１１５は、ヒトＤＮＡ対マウスＤＮＡにおけるメチル化間の有意差を示す。

図１１１に示される実施形態によれば、本発明者らは、人工ＤＮＡ混合物（試料ＭＩＸ０２と命名）を調製し、ヒト－マウスハイブリッドＤＮＡ分子、ヒトのみのＤＮＡ、およびマウスのみのＤＮＡが含まれ、ヒト部分が非メチル化され、マウス部分がメチル化されていた。試料ＭＩＸ０２の場合、ヒトもしくはマウスの参照ゲノム、または部分的にヒトゲノムおよび部分的にマウスゲノムのいずれかに整列され得る１億４０００万個のサブリードを取得した。これらのサブリードは、約５００万のＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｅｓ単一分子リアルタイム（ＳＭＲＴ）配列決定ウェルから生成された。単一分子リアルタイム配列決定ウェルの各分子は、平均２７回（範囲：１～１０２８回）配列決定された。

本発明者らはまた、ウェル内のすべての関連するサブリードからのヌクレオチド情報を組み合わせることによって、コンセンサス配列を構築した。合計で、試料ＭＩＸ０２について、３，２６５，４８７個のコンセンサス配列が取得された。このコンセンサス配列を、ＢＷＡを使用して、ヒト参照とマウス参照の両方を含む参照ゲノムに整列させた（ＬｉＨｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０；２６（５）：５８９－５９５）。３００万個の整列されたコンセンサス配列を取得した。それらの中で、３０．５％が、ヒトのみのＤＮＡ型として分類され、３２．２％が、マウスのみのＤＮＡ型として分類され、３３．８％が、ヒト－マウスハイブリッドＤＮＡとして分類された。データセットは、ＳｅｑｕｅｌＩＩＳｅｑｕｅｎｃｉｎｇＫｉｔ１．０によって調製されたＤＮＡから生成された。

図１１６は、試料ＭＩＸ０２の交差連結後のＤＮＡ混合物中のＤＮＡ分子の鎖長分布を示す。ｘ軸は、ＤＮＡ分子の鎖長を示す。ｙ軸は、ＤＮＡ分子の鎖長に関連する頻度を示す。図１１６に示されるように、ヒト－マウスハイブリッドＤＮＡ分子は、より長い鎖長分布を有しており、それらが２つ以上の分子の連結によって生成されたという事実と一致している。

図１１７は、試料ＭＩＸ０２において、ＣｐＧ部位がメチル化されている確率の箱ひげ図を示す。メチル化状態は、本明細書に記載の方法に従って決定された。ｘ軸は、試料ＭＩＸ０１に存在する３つの異なる分子：ヒトのみのＤＮＡ、マウスのみのＤＮＡ、およびヒトとマウスのハイブリッドＤＮＡ（ヒト部分とマウス部分の両方を含む）を示す。ｙ軸は、ＣｐＧ部位がメチル化されている確率を示している。このアッセイは、ヒトＤＮＡが非メチル化され、マウスＤＮＡがメチル化されるような方法で行われた。

図１１７に示されるように、ヒトのみのＤＮＡにおけるＣｐＧ部位でメチル化される確率は（中央値：０．０６、範囲：０～１）、マウスのみのＤＮＡの確率（中央値：０．９３；範囲：０～１）よりも有意に低かった（Ｐ値＜０．０００１）。これらの結果は、アッセイ設計と一致していた。つまり、ヒトＤＮＡは、全ゲノム増幅中にメチル化が維持され得ないため、より非メチル化されていたのに対して、マウスＤＮＡでは、ＣｐＧメチルトランスフェラーゼＭ．ＳｓｓＩの処理のために、よりメチル化されていた。さらに、ヒト－マウスハイブリッドＤＮＡ分子のヒトＤＮＡ部分内のＣｐＧ部位（中央値：０．９３、範囲：０～１）は、マウスＤＮＡ部分内のＣｐＧ部位（中央値：０．０７、範囲：０～１）と比較してメチル化される確率が低かった（Ｐ値＜０．０００１）。これらのデータは、開示された方法が、ＤＮＡ分子ならびにＤＮＡ分子内のセグメントのメチル化状態を正確に決定できることを示している。

バイサルファイト配列決定を使用して、本開示の実施形態による単一分子リアルタイム配列決定によってメチル化パターンが決定されたヒト－マウスハイブリッド断片のメチル化を測定した。試料ＭＩＸ０１（ヒトＤＮＡがメチル化され、マウスＤＮＡが非メチル化された）および試料ＭＩＸ０２（ヒトＤＮＡが非メチル化され、マウスＤＮＡがメチル化された）を超音波処理を介して剪断し、中央値が１９６ｂｐのＤＮＡ断片サイズの混合物を得た（四分位範囲：１６１～２６８）。次いで、リード長３００ｂｐｘ２のＭｉＳｅｑプラットフォーム（Ｉｌｌｕｍｉｎａ）を用いて、ペアエンドバイサルファイト配列決定（ＢＳ－Ｓｅｑ）を行った。ＭＩＸ０１およびＭＩＸ０２について、それぞれ３７０万個と２９０万個の配列断片を取得し、ヒトまたはマウスの参照ゲノム、あるいは部分的にヒトゲノムおよび部分的にマウスゲノムと整列した。ＭＩＸ０１の場合、整列した断片の４１．６％がヒトのみのＤＮＡ、５６．６％がマウスのみのＤＮＡ、１．８％がヒト－マウスハイブリッドＤＮＡとして分類された。ＭＩＸ０２の場合、整列した断片の６１．８％がヒトのみのＤＮＡ、３６．３％がマウスのみのＤＮＡ、１．９％がヒト－マウスハイブリッドＤＮＡとして分類された。ＢＳ－Ｓｅｑでヒト－マウスハイブリッドＤＮＡであると決定された配列決定された断片のパーセンテージ（＜２％）は、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列結果で観察されたパーセンテージ（＞３０％）よりもはるかに低かった。特に、長鎖断片（中央値が約２ｋｂ）は、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって配列決定されたが、長鎖断片は、ＭｉＳｅｑに好適な短鎖断片（中央値が約１９６ｂｐ）に共有された。このような剪断プロセスは、ヒト－マウスハイブリッド断片を大幅に希釈する。

図１１８は、ＭＩＸ０１のバイサルファイト配列決定およびＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定されたメチル化を比較した表を示す。表の左端のセクションは、ＤＮＡのタイプ：１）ヒトのみ、２）マウスのみ、および３）ヒトとマウスのハイブリッド（ヒト部分とマウス部分に分けられる）を示す。表の中央のセクションには、ＣＧ部位の数およびメチル化密度を含む、バイサルファイト配列決定からの詳細が示されている。表の右端のセクションには、ＣＧ部位の数およびメチル化密度を含む、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定からの詳細が示されている。

図１１８に示されるように、バイサルファイト配列決定とＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定の両方の結果では、ＭＩＸ０１のヒトのみのＤＮＡは、マウスのみのＤＮＡよりも一貫して高いメチル化密度を示した。ヒト－マウスハイブリッド断片の場合、バイサルファイト配列決定の結果では、ヒト部分とマウス部分のメチル化レベルが、それぞれ４６．８％と２．３％であると決定された。これらの結果は、本開示によるＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定されるように、メチル化密度が、マウス部分と比較して、ヒト部分でより高いことが確認された。ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定では、ヒト部分で５７．４％のメチル化密度が観察され、マウス部分で１２．１％のより低いメチル化密度が観察された。これらの結果は、本開示によるＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定されたメチル化が、実行可能であり得ることを示唆している。特に、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定を使用して、別のセクションよりもメチル化密度が高いセクションを有するＤＮＡを含めて、異なるメチル化密度を決定することができる。本開示によるＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定されたメチル化密度は、バイサルファイト配列決定と比較して、より高いことが観察された。このような推定を、これら２つの技術によって決定された結果間の差を使用して調整することで、技術全体で結果を比較することができる。

図１１９は、ＭＩＸ０２のバイサルファイト配列決定とＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定されたメチル化を比較した表を示す。表の左端のセクションは、ＤＮＡのタイプ：１）ヒトのみ、２）マウスのみ、および３）ヒトとマウスのハイブリッド（ヒト部分とマウス部分に分けられる）を示す。表の中央のセクションには、ＣＧ部位の数およびメチル化密度を含む、バイサルファイト配列決定からの詳細が示されている。表の右端のセクションには、ＣＧ部位の数およびメチル化密度を含む、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定からの詳細が示されている。

図１１９に示されるように、バイサルファイト配列決定とＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定の両方の結果では、ＭＩＸ０２のヒトのみのＤＮＡは、マウスのみのＤＮＡよりも一貫して低いメチル化密度を示した。ヒト－マウスハイブリッド断片の場合、バイサルファイト配列決定の結果では、ヒト部分とマウス部分のメチル化レベルが、それぞれ１．８％と６７．４％であると決定された。これらの結果は、本開示によるＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定されるように、メチル化密度が、マウス部分と比較して、ヒト部分でより低いことがさらに確認された。ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定では、本開示によるＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定されるように、ヒト部分で１３．１％のメチル化密度が観察され、マウス部分で７２．２％のより高いメチル化密度が観察された。また、本開示によるＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によってメチル化を決定することが、実行可能であることも示唆した。特に、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定を使用して、別のセクションよりもメチル化密度が低いセクションを有するＤＮＡを含めて、異なるメチル化密度を決定することができる。また、本開示によるＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定されたメチル化密度は、バイサルファイト配列決定と比較して、より高いことも観察された。このような推定を、これら２つの技術によって決定された結果間の差を使用して調整することで、技術全体で結果を比較することができる。

図１２０Ａは、ＭＩＸ０１について、ヒトのみのＤＮＡおよびマウスのみのＤＮＡの５Ｍｂビンでのメチル化レベルを示す。図１２０Ｂは、ＭＩＸ０２について、ヒトのみのＤＮＡおよびマウスのみのＤＮＡの５Ｍｂビンでのメチル化レベルを示す。両方の図では、ｙ軸に、メチル化レベルがパーセントで示されている。ｘ軸に、ヒトのみのＤＮＡおよびマウスのみのＤＮＡの各々についてのバイサルファイト配列決定およびＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定が示されている。

図１２０Ａおよび図１２０Ｂでは、試料ＭＩＸ０１およびＭＩＸ０２の両方のビンにわたって、本開示によるＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によって決定された結果が、全体的に高いことが見出された。

図１２１Ａは、ＭＩＸ０１について、ヒト－マウスハイブリッドＤＮＡ断片のヒト部分およびマウス部分の５Ｍｂビンでのメチル化レベルを示す。図１２１Ｂは、ＭＩＸ０２について、ヒト－マウスハイブリッドＤＮＡ断片のヒト部分およびマウス部分の５Ｍｂビンでのメチル化レベルを示す。両方の図では、ｙ軸に、メチル化レベルがパーセントで示されている。ｘ軸に、ヒト部分のＤＮＡおよびマウス部分のＤＮＡの各々についてのバイサルファイト配列決定およびＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定が示されている。

図１２１Ａおよび図１２１Ｂの両方で、バイサルファイト配列決定と比較して、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定を使用した場合に、メチル化レベルの増加が示された。この増加は、図１２０Ａおよび図１２０ＢにおいてヒトのみのＤＮＡおよびマウスのみのＤＮＡで見られたＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ配列決定によるメチル化レベルの増加と類似している。ハイブリッド断片のバイサルファイト配列決定の結果に存在する５Ｍｂビンにわたるメチル化レベルの可変性の増加は、分析に使用されたＣｐＧ部位の数が少なかったためである可能性が高い。

図１２２Ａおよび１２２Ｂは、単一のヒト－マウスハイブリッド分子におけるメチル化状態を示す代表的なグラフである。図１２２Ａは、試料ＭＩＸ０１内のヒト－マウスハイブリッド断片を示す。図１２２Ｂは、試料ＭＩＸ０２内のヒト－マウスハイブリッド断片を示す。塗りつぶされた丸はメチル化部位を示し、塗りつぶされていない丸は非メチル化部位を示す。これらの断片のメチル化状態は、本明細書に記載の実施形態に従って決定された。

図１２２Ａに示されるように、試料ＭＩＸ０１からのハイブリッド分子のヒト部分は、よりメチル化されていると決定された。対照的に、マウスＤＮＡ部分は、より低メチル化されていると決定された。対照的に、図１２２Ｂは、試料ＭＩＸ０２からのハイブリッド分子のヒト部分がより低メチル化されていると決定されたのに対し、マウスＤＮＡ部分はよりメチル化されていると決定されたことを示す。

これらの結果は、本開示に存在する実施形態が、分子の異なる部分で異なるメチル化パターンを有する単一のＤＮＡ分子において、メチル化の変化を決定することを可能にしたことを実証した。一実施形態では、遺伝子またはゲノム領域の異なる部分が異なるメチル化状態を示すであろう遺伝子または他のゲノム領域のメチル化状態（例えば、プロモーター対遺伝子本体）を測定することができる。別の実施形態では、本明細書に提示される方法は、ヒト－マウスハイブリッド断片を検出することができ、参照ゲノムに関して連続していない断片（すなわち、キメラ分子）を含有するＤＮＡ分子を検出し、それらのメチル化状態を分析するための一般的なアプローチを提供する。例えば、このアプローチを使用して、限定されないが、遺伝子融合、ゲノム再編成、翻訳、逆位、重複、構造変化、ウイルスＤＮＡ組込み、減数分裂組換えなどを分析することができる。

一部の実施形態では、これらのハイブリッド断片は、プローブベースのハイブリダイゼーション法またはＣＲＩＳＰＲ－Ｃａｓシステムまたは標的ＤＮＡ濃縮のためのそれらのバリアントのアプローチを使用して、配列決定の前に濃縮され得る。最近、シアノバクテリアＳｃｙｔｏｎｅｍａｈｏｆｍａｎｎｉ由来のＣＲＩＳＰＲ関連トランスポザーゼが、目的の標的部位の近くの領域にＤＮＡセグメントを挿入できることが報告された（Ｓｔｒｅｃｋｅｒｅｔａｌ．Ｓｃｉｅｎｃｅ．２０１９；３６５：４８－５３）。ＣＲＩＳＰＲ関連トランスポザーゼは、Ｔｎ７を介した転位のように機能する可能性がある。一実施形態では、本発明者らは、このＣＲＩＳＰＲ関連トランスポザーゼを、例えば、ビオチンで標識されたコメント配列を、ｇＲＮＡによって誘導される１つ以上の目的のゲノム領域に挿入するように適合させることができる。例えば、ストレプトアビジンでコーティングされた磁気ビーズを使用してコメント配列を捕捉し、それによって、本開示の実施形態による配列決定およびメチル化分析のために、標的ＤＮＡ配列を同時にプルダウンすることができる。

一部の実施形態では、断片は、本明細書に開示される任意の制限酵素を含み得る制限酵素を使用することによって濃縮され得る。

Ｃ．キメラ分子の検出方法の例
図１２３は、生体試料中のキメラ分子を検出する方法１２３０を示す。キメラ分子は、２つの異なる遺伝子、染色体、細胞小器官（例えば、ミトコンドリア、核、葉緑体）、生物（哺乳動物、細菌、ウイルスなど）、および／または種からの配列を含み得る。方法１２３０は、生体試料からの複数のＤＮＡ分子の各々に適用され得る。一部の実施形態では、複数のＤＮＡ分子は、細胞ＤＮＡであり得る。他の実施形態では、複数のＤＮＡ分子は、妊婦の血漿由来の無細胞ＤＮＡ分子であり得る。

ブロック１２３２で、ＤＮＡ分子の単一分子配列決定を実施し、Ｎ部位の各々におけるメチル化状態を提供する配列リードを取得することができる。Ｎは、５以上であり、５～１０、１０～１５、１５～２０、または２０超を含む。配列リードのメチル化状態は、メチル化パターンを形成し得る。ＤＮＡ分子は、複数のＤＮＡ分子のうちの１つのＤＮＡ分子であり得、方法１２３０が、複数のＤＮＡ分子に対して実施され得る。メチル化パターンは、様々な形態をとることができる。例えば、パターンは、Ｎ個（例えば、２、３、４など）のメチル化部位と、それに続くＮ個の非メチル化部位、またはその逆であり得る。このようなメチル化の変化は、接合部を示している場合がある。メチル化されている連続した部位の数は、非メチル化されている連続した部位の数とは異なる場合がある。

ブロック１２３４では、メチル化パターンは、参照ヒトゲノムの２つの部分（ｐａｒｔ）からの２つの箇所（ｐｏｒｔｉｏｎ）を有するキメラ分子に対応する１つ以上の参照パターン上をスライドさせてもよい。参照パターンは、接合部を示す一致するパターンを特定するためのフィルターとして機能し得る。参照パターンに一致する部位の数を追跡して、一致する部位の最大数に対応する一致する位置（すなわち、メチル化状態が参照パターンに一致する数）を追跡することができる。参照ヒトゲノムの２つの部分は、参照ヒトゲノムの不連続部分であり得る。参照ヒトゲノムの２つの部分は、１ｋｂ、５ｋｂ、１０ｋｂ、１００ｋｂ、１Ｍｂ、５Ｍｂ、または１０Ｍｂ以上離れている場合がある。２つの部分は、２つの異なる染色体アームまたは染色体に由来する場合がある。１つ以上の参照パターンは、メチル化状態と非メチル化状態との間の変化を含み得る。

ブロック１２３６では、一致する位置は、メチル化パターンと１つ以上の参照パターンの第１の参照パターンとの間で特定され得る。一致する位置は、配列リードにおける参照ヒトゲノムの２つの部分間の接合部を特定することができる。一致した位置は、参照パターンとメチル化パターンとの間の重複関数の最大値に対応し得る。重複関数は、複数の参照パターンを使用することができる。出力は、集計関数の最大値（すなわち、各参照パターンが出力値に寄与する）または参照パターンにわたって特定される単一の最大値である可能性がある。

ブロック１２３８では、接合部は、キメラ分子における遺伝子融合の位置として出力され得る。遺伝子融合の位置は、癌を含む様々な障害または疾患の遺伝子融合の参照位置と比較することができる。生体試料が取得される生物は、障害または疾患の治療を受けることができる。

一致する位置は、整列関数に出力することができる。遺伝子融合の位置は、精密化され得る。遺伝子融合の位置を精密化することは、配列リードの第１の箇所を参照ヒトゲノムの第１の部分に整列させることを含み得る。第１の箇所は、接合部の前にある可能性がある。遺伝子融合の位置を精密化することは、配列リードの第２の箇所を参照ヒトゲノムの第２の部分に整列させることを含み得る。第２の箇所は、接合部の後にある可能性がある。参照ヒトゲノムの第１の部分は、ヒト参照ゲノムの第２の部分から少なくとも１ｋｂ離れていてもよい。例えば、参照ヒトゲノムの第１の部分およびヒト参照ゲノムの第２の部分は、１．０～１．５ｋｂ、１．５～２．０ｋｂ、２．０～２．５ｋｂ、２．５～３．０ｋｂ、３～５ｋｂ、または５ｋｂ以上離れている場合がある。

複数のキメラ分子の接合部を互いに比較して、遺伝子融合の位置を確認することができる。

ＶＩＩＩ．結論
本発明者らは、核酸の塩基修飾（例えば、メチル化）のレベルを、単一塩基の解像度で予測するための効率的なアプローチを開発した。この新しいアプローチは、調査される塩基、配列文脈、および鎖情報を取り巻くポリメラーゼ動態を同時に捕捉するための新しいスキームを実装する。動態のそのような新しい変換は、動態パルスで発生するわずかな中断を特定し、モデル化することを可能にした。ＩＰＤのみを使用した以前の方法と比較して、この特許出願に存在する新しいアプローチにより、メチル化分析の分解能および精度が大幅に改善した。この新しいスキームは、他の目的、例えば、５ｈｍＣ（５－ヒドロキシメチルシトシン）、５ｆＣ（５－ホルミルシトシン）、５ｃａＣ（５－カルボキシルシトシン）、４ｍＣ（４－メチルシトシン）、６ｍＡ（Ｎ６－メチルアデニン）、８ｏｘｏＧ（７，８－ジヒドロ－８－オキソグアニン）、８ｏｘｏＡ（７，８－ジヒドロ－８－オキソアデニン）および他の形態の塩基修飾ならびにＤＮＡ損傷の検出に容易に拡張することができる。別の実施形態では、この新しいスキーム（例えば、この用途に存在する２Ｄデジタルマトリックスに類似した動態変換）は、ナノポア配列決定システムを使用する塩基修飾分析に使用することができる。

メチル化の検出のこの実装は、異なる供給源からの核酸試料、例えば、細胞の核酸、環境試料採取からの核酸（例えば、細胞混入物）、病原体からの核酸（例えば、細菌、および菌類）、および妊婦の血漿中のｃｆＤＮＡに対して使用することができる。これは、非侵襲的な出生前検査、癌検出、移植の監視など、ゲノム研究や分子診断に多くの新しい可能性を開くであろう。ｃｆＤＮＡベースの非侵襲的出生前診断の場合、この新しい発明により、ＰＣＲおよび配列決定前の実験的変換をすることなく、診断で、各分子のコピー数異常、サイズ、変異、断片末端、および塩基修飾を同時に使用することができるようになり、したがって、感度が向上した。ハプロタイプ間のメチル化レベルの不均衡は、本明細書に記載の方法を使用して検出することができる。このような不均衡は、ＤＮＡ分子（例えば、癌患者の血液から単離された癌細胞など、障害から抽出された）または障害の起源を示し得る。

ＩＸ．実施例システム
図１２４は、本発明の一実施形態による測定システム１２４００を示す。示されたシステムは、試料ホルダ１２４１０内のＤＮＡ分子などの試料１２４０５を含み、試料１２４０５をアッセイ１２４０８と接触させて、物理的特徴１２４１５の信号を提供することができる。試料ホルダの例は、アッセイのプローブおよび／もしくはプライマー、または液滴が（アッセイを含む液滴とともに）移動するチューブを含む、フローセルであり得る。試料からの物理的特徴１２４１５（例えば、蛍光強度、電圧、または電流）は、検出器１２４２０によって検出される。検出器１２４０２は、データ信号を構成するデータポイントを取得するために、間隔（例えば、周期的な間隔）を空けて測定を行うことができる。一実施形態では、アナログ－デジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。試料ホルダ１２４０１および検出器１２４０２は、アッセイデバイス、例えば、本明細書に記載される実施形態に従って配列決定を行う配列決定デバイスを形成することができる。データ信号１２４２５は、検出器１２４０２から論理システム１２４０３へ送信される。データ信号１２４２５は、ローカルメモリ１２４３５、外部メモリ１２４０４、またはストレージデバイス１２４４５に記憶され得る。

論理システム１２４０３は、コンピュータシステム、ＡＳＩＣ、マイクロプロセッサなどであってもよいか、またはそれらを含んでもよい。それはまた、ディスプレイ（例えば、モニタ、ＬＥＤディスプレイなど）、およびユーザ入力デバイス（例えば、マウス、キーボード、ボタンなど）を含み得るか、またはそれらに連結され得る。論理システム１２４０３および他の構成要素は、スタンドアローンもしくはネットワーク接続されたコンピュータシステムの一部であってもよく、または検出器１２４０２および／もしくは試料ホルダ１２４０１を含むデバイス（例えば、配列決定デバイス）に直接取り付けられても組み込まれてもよい。論理システム１２４０３はまた、プロセッサ１２４０５において実行するソフトウェアを含み得る。論理システム１２４０３は、本明細書に記載される方法のいずれかを行うようにシステム１２４００を制御するための指示を記憶するコンピュータ可読媒体を含み得る。例えば、論理システム１２４０３は、配列決定または他の物理的操作が行われるように、試料ホルダ１２４０１を含むシステムにコマンドを提供することができる。そのような物理的操作は、特定の順序で、例えば、試薬が特定の順序で追加および除去されるように、行うことができる。そのような物理的操作は、試料を取得してアッセイを実施するために使用され得るように、例えば、ロボットアームを含む、ロボットシステムによって行われ得る。

本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用してもよい。このようなサブシステムの例をコンピュータシステム１０の図１２５に示す。一部の実施形態では、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピュータ装置を含むことができる。コンピュータシステムは、デスクトップコンピュータおよびラップトップコンピュータ、タブレット、携帯電話、ならびにクラウドベースのシステムを含み得る。

図１２５に示されるサブシステムは、システムバス７５を介して相互接続される。プリンタ７４、キーボード７８、記憶装置（複数可）７９、ディスプレイアダプター８２に接続されたモニタ７６（（例えば、ＬＥＤなどのディスプレイスクリーン）、およびその他などの追加のサブシステムが示されている。Ｉ／Ｏコントローラ７１に結合する周辺機器および入力／出力（Ｉ／Ｏ）デバイスは、入力／出力（Ｉ／Ｏ）ポート７７（例えば、ＵＳＢ、ＦｉｒｅＷｉｒｅ（登録商標））などの当技術分野において既知である任意の数の手段によって、コンピュータシステムに接続され得る。例えば、Ｉ／Ｏポート７７または外部インターフェース８１（例えば、Ｅｔｈｅｒｎｅｔ、Ｗｉ－Ｆｉなど）を使用して、Ｉｎｔｅｒｎｅｔなどの広域ネットワーク、マウス入力デバイス、またはスキャナに、コンピュータシステム１０を接続することができる。システムバス７５を介した相互接続は、中央プロセッサ７３が、各サブシステムと通信し、システムメモリ７２または記憶デバイス（複数可）７９（例えば、ハードドライブまたは光ディスクなどの固定ディスク）からの複数の命令の実行、およびサブシステム間の情報交換を制御することを可能にする。システムメモリ７２および／または記憶装置（複数可）７９は、コンピュータ可読媒体を具現化してもよい。別のサブシステムは、カメラ、マイクロホン、および加速度計、ならびにこれらに類するものなどのデータ収集装置８５である。本明細書に言及されるデータのうちのいずれも、１つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。

コンピュータシステムは、例えば、外部インターフェース８１によって、内部インターフェースによって、または１つの構成要素から別の構成要素に接続され得る、もしくは取り外され得る記憶装置を介して、ともに接続された、複数の同じ構成要素またはサブシステムを含むことができる。一部の実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信することができる。そのような例において、１つのコンピュータをクライアント、別のコンピュータをサーバとみなすことができ、各々が、同じコンピュータシステムの一部であり得る。クライアントおよびサーバは各々、複数のシステム、サブシステム、または構成要素を含むことができる。

実施形態の態様は、制御ロジックの形態で、ハードウェア回路（例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ）を使用して、および／またはモジュール式もしくは集積様態で汎用プログラマブルプロセッサを有するコンピュータソフトウェアを使用して、実装することができる。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一の回路基板もしくはネットワーク化された上の複数の処理ユニット、ならびに専用のハードウェアを含むことができる。本開示および本明細書に提供される教示に基づいて、当業者は、ハードウェア、およびハードウェアとソフトウェアとの組み合わせを使用して、本発明の実施形態を実装するための他の方法および／または方法を認識および理解するであろう。

本出願で説明されるソフトウェア構成要素または関数のうちのいずれも、例えば、ＪＡＶＡ（登録商標）、Ｃ、Ｃ＋＋、Ｃ＃、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｓｗｉｆｔなどの任意の好適なコンピュータ言語、または、例えば、従来の技術もしくはオブジェクト指向の技術を使用するＰｅｒｌもしくはＰｙｔｈｏｎなどのスクリプト言語を使用する、処理デバイスによって実行されるソフトウェアコードとして実装されてもよい。ソフトウェアコードは、記憶および／または伝送のためのコンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、磁気媒体（ハードドライブもしくはフロッピーディスクなど）、または光学媒体（コンパクトディスク（ＣＤ）もしくはＤＶＤ（デジタル多用途ディスク）など）、またはブルーレイディスクおよびフラッシュメモリなどを含むことができる。コンピュータ可読媒体は、そのような記憶または送信デバイスの任意の組み合わせであってもよい。

そのようなプログラムはまた、コード化され、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、および／または無線ネットワークを介した送信に適合した搬送波信号を使用して送信されてもよい。したがって、コンピュータ可読媒体は、そのようなプログラムでコード化されたデータ信号を使用して作成されてもよい。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されていてもよく、または（例えば、インターネットダウンロードを介して）他のデバイスとは別個に提供されてもよい。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品（例えば、ハードドライブ、ＣＤ、もしくはコンピュータシステム全体）上もしくはその内部に存在してもよく、システムまたはネットワーク内の異なるコンピュータ製品上もしくはその内部に存在してもよい。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載の結果のうちのいずれかをユーザへ提供するための他の好適なディスプレイを含み得る。

本明細書記載の方法のうちのいずれも、ステップを実施するように構成することができる１つ以上のプロセッサを含むコンピュータシステムを用いて全体的または部分的に実施することができる。したがって、実施形態は、本明細書に説明される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップまたはそれぞれのステップのグループを実施する。番号付けされたステップとして提示されるが、本明細書の方法のステップは、同時にもしくは異なる時間に、または異なる順序で実施することができる。加えて、これらのステップの部分は、他の方法からの他のステップの部分と併用することができる。また、あるステップのすべてまたは部分は、任意選択的であってもよい。加えて、本方法のうちのいずれかのステップのうちのいずれかを、これらのステップを実施するためのシステムのモジュール、ユニット、回路、または他の手段を用いて実施することができる。

特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨および範囲から逸脱することなく、任意の好適な様態で組み合わせることができる。しかしながら、本発明の他の実施形態は、各個々の態様、またはこれらの個々の態様の具体的な組み合わせに関する具体的な実施形態を対象とし得る。

本開示の例示的実施形態の上の説明は、例示および説明の目的で提示されている。包括的であること、または本開示を説明された正確な形態に限定することは意図されず、多くの修正および変更が、先の教示に鑑みて可能である。

「ａ」、「ａｎ」、または「ｔｈｅ」の記述は、それとは反対に具体的に示されない限り、「１つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「排他的なまたは」ではなく「包含的なまたは」を意味することが意図される。「第１」の構成要素への言及は、第２の構成要素が提供されることを必ずしも必要としない。さらに、「第１」または「第２」の構成要素への言及は、明示的に述べられていない限り、言及される構成要素を特定の場所に限定するものではない。「～に基づいて」という用語は、「少なくとも一部に基づいて」を意味することを意図している。

本明細書において言及されるすべての特許、特許出願、刊行物、および明細書は、すべての目的に対して参照によりそれらの全体が組み込まれる。いかなるものも、先行技術であるとは認められていない。
参考文献
Ａｌｂｅｒｔ，Ｔ．Ｊ．ｅｔａｌ．（２００７）Ｄｉｒｅｃｔｓｅｌｅｃｔｉｏｎｏｆｈｕｍａｎｇｅｎｏｍｉｃｌｏｃｉｂｙｍｉｃｒｏａｒｒａｙｈｙｂｒｉｄｉｚａｔｉｏｎ．Ｎａｔ．Ｍｅｔｈｏｄｓ，４，９０３－９０５．
Ｂｅｃｋｍａｎｎｅｔａｌ．（２０１４）Ｄｅｔｅｃｔｉｎｇｅｐｉｇｅｎｅｔｉｃｍｏｔｉｆｓｉｎｌｏｗｃｏｖｅｒａｇｅａｎｄｍｅｔａｇｅｎｏｍｉｃｓｓｅｔｔｉｎｇｓ．ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ，１５（Ｓｕｐｐｌ９）：Ｓ１６．
Ｂｅａｕｌａｕｒｉｅｒ，Ｊ．ｅｔａｌ．（２０１９）Ｄｅｃｉｐｈｅｒｉｎｇｂａｃｔｅｒｉａｌｅｐｉｇｅｎｏｍｅｓｕｓｉｎｇｍｏｄｅｒｎｓｅｑｕｅｎｃｉｎｇｔｅｃｈｎｏｌｏｇｉｅｓ．ＮａｔｕｒｅＲｅｖｉｅｗｓＧｅｎｅｔｉｃｓ，２０：１５７－１７２．
Ｂｌｏｗ，Ｍ．Ｊ．ｅｔａｌ．（２０１６）ＴｈｅＥｐｉｇｅｎｏｍｉｃＬａｎｄｓｃａｐｅｏｆＰｒｏｋａｒｙｏｔｅｓ．ＰＬＯＳＧｅｎｅｔ．，１２，ｅ１００５８５４．
Ｂｒｅｉｍａｎ，Ｌ．（２００１）ＲａｎｄｏｍＦｏｒｅｓｔｓ．Ｍａｃｈ．Ｌｅａｒｎ．，４５，５－３２．
Ｃｈａｎ，Ｋ．Ｃ．Ａ．ｅｔａｌ．（２０１３）Ｎｏｎｉｎｖａｓｉｖｅｄｅｔｅｃｔｉｏｎｏｆｃａｎｃｅｒ－ａｓｓｏｃｉａｔｅｄｇｅｎｏｍｅ－ｗｉｄｅｈｙｐｏｍｅｔｈｙｌａｔｉｏｎａｎｄｃｏｐｙｎｕｍｂｅｒａｂｅｒｒａｔｉｏｎｓｂｙｐｌａｓｍａＤＮＡｂｉｓｕｌｆｉｔｅｓｅｑｕｅｎｃｉｎｇ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．Ｕ．Ｓ．Ａ．，１１０，１８７６１－８．
Ｃｌａｒｋ，Ｔ．Ａ．ｅｔａｌ．（２０１３）Ｅｎｈａｎｃｅｄ５－ｍｅｔｈｙｌｃｙｔｏｓｉｎｅｄｅｔｅｃｔｉｏｎｉｎｓｉｎｇｌｅ－ｍｏｌｅｃｕｌｅ，ｒｅａｌ－ｔｉｍｅｓｅｑｕｅｎｃｉｎｇｖｉａＴｅｔ１ｏｘｉｄａｔｉｏｎ．ＢＭＣＢｉｏｌ．，１１，４．
Ｃｌａｒｋ，Ｔ．Ａ．ｅｔａｌ．（２０１２）ＣｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆＤＮＡｍｅｔｈｙｌｔｒａｎｓｆｅｒａｓｅｓｐｅｃｉｆｉｃｉｔｉｅｓｕｓｉｎｇｓｉｎｇｌｅ－ｍｏｌｅｃｕｌｅ，ｒｅａｌ－ｔｉｍｅＤＮＡｓｅｑｕｅｎｃｉｎｇ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．，４０：ｅ２９．
Ｅｉｄ，Ｊ．ｅｔａｌ．（２００９）Ｒｅａｌ－ＴｉｍｅＤＮＡＳｅｑｕｅｎｃｉｎｇｆｒｏｍＳｉｎｇｌｅＰｏｌｙｍｅｒａｓｅＭｏｌｅｃｕｌｅｓ．Ｓｃｉｅｎｃｅ３２３，１３３－１３８．
Ｆｅｉｎｂｅｒｇ，Ａ．Ｐ．ａｎｄＩｒｉｚａｒｒｙ，Ｒ．Ａ．（２０１０）Ｓｔｏｃｈａｓｔｉｃｅｐｉｇｅｎｅｔｉｃｖａｒｉａｔｉｏｎａｓａｄｒｉｖｉｎｇｆｏｒｃｅｏｆｄｅｖｅｌｏｐｍｅｎｔ，ｅｖｏｌｕｔｉｏｎａｒｙａｄａｐｔａｔｉｏｎ，ａｎｄｄｉｓｅａｓｅ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．，１０７，１７５７－１７６４．
Ｆｅｎｇ，Ｚ．ｅｔａｌ．（２０１３）ＤｅｔｅｃｔｉｎｇＤＮＡｍｏｄｉｆｉｃａｔｉｏｎｓｆｒｏｍＳＭＲＴｓｅｑｕｅｎｃｉｎｇｄａｔａｂｙｍｏｄｅｌｉｎｇｓｅｑｕｅｎｃｅｃｏｎｔｅｘｔｄｅｐｅｎｄｅｎｃｅｏｆｐｏｌｙｍｅｒａｓｅｋｉｎｅｔｉｃ．ＰＬｏＳＣｏｍｐｕｔＢｉｏｌ．，９：ｅ１００２９３５．
Ｆｌｕｓｂｅｒｇ，Ｂ．Ａ．ｅｔａｌ．（２０１０）ＤｉｒｅｃｔｄｅｔｅｃｔｉｏｎｏｆＤＮＡｍｅｔｈｙｌａｔｉｏｎｄｕｒｉｎｇｓｉｎｇｌｅ－ｍｏｌｅｃｕｌｅ，ｒｅａｌ－ｔｉｍｅｓｅｑｕｅｎｃｉｎｇ．Ｎａｔ．Ｍｅｔｈｏｄｓ，７，４６１－４６５．
Ｆｒｏｍｍｅｒ，Ｍ．ｅｔａｌ．（１９９２）Ａｇｅｎｏｍｉｃｓｅｑｕｅｎｃｉｎｇｐｒｏｔｏｃｏｌｔｈａｔｙｉｅｌｄｓａｐｏｓｉｔｉｖｅｄｉｓｐｌａｙｏｆ５－ｍｅｔｈｙｌｃｙｔｏｓｉｎｅｒｅｓｉｄｕｅｓｉｎｉｎｄｉｖｉｄｕａｌＤＮＡｓｔｒａｎｄｓ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．，８９，１８２７－１８３１．
Ｇａｉ，Ｗ．ｅｔａｌ．（２０１８）Ｌｉｖｅｒ－ａｎｄｃｏｌｏｎ－ｓｐｅｃｉｆｉｃＤＮＡｍｅｔｈｙｌａｔｉｏｎｍａｒｋｅｒｓｉｎｐｌａｓｍａｆｏｒｉｎｖｅｓｔｉｇａｔｉｏｎｏｆｃｏｌｏｒｅｃｔａｌｃａｎｃｅｒｓｗｉｔｈｏｒｗｉｔｈｏｕｔｌｉｖｅｒｍｅｔａｓｔａｓｅｓ．Ｃｌｉｎ．Ｃｈｅｍ．，６４，１２３９－１２４９．
Ｇｏｕｉｌ，Ｑ．ｅｔａｌ．（２０１９）ＬａｔｅｓｔｔｅｃｈｎｉｑｕｅｓｔｏｓｔｕｄｙＤＮＡｍｅｔｈｙｌａｔｉｏｎ．ＥｓｓａｙｓＢｉｏｃｈｅｍ．６３（６）：６３９－６４８．
Ｇｒｕｎａｕ，Ｃ．（２００１）Ｂｉｓｕｌｆｉｔｅｇｅｎｏｍｉｃｓｅｑｕｅｎｃｉｎｇ：ｓｙｓｔｅｍａｔｉｃｉｎｖｅｓｔｉｇａｔｉｏｎｏｆｃｒｉｔｉｃａｌｅｘｐｅｒｉｍｅｎｔａｌｐａｒａｍｅｔｅｒｓ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．，２９，６５ｅ－６５．
Ｈｅｒｍａｎ，Ｊ．Ｇ．ｅｔａｌ．（１９９６）Ｍｅｔｈｙｌａｔｉｏｎ－ｓｐｅｃｉｆｉｃＰＣＲ：ａｎｏｖｅｌＰＣＲａｓｓａｙｆｏｒｍｅｔｈｙｌａｔｉｏｎｓｔａｔｕｓｏｆＣｐＧｉｓｌａｎｄｓ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．Ｕ．Ｓ．Ａ．，９３，９８２１－９８２６．
Ｊｉａｎｇ，Ｐ．ｅｔａｌ．（２０１４）Ｍｅｔｈｙ－Ｐｉｐｅ：ＡｎＩｎｔｅｇｒａｔｅｄＢｉｏｉｎｆｏｒｍａｔｉｃｓＰｉｐｅｌｉｎｅｆｏｒＷｈｏｌｅＧｅｎｏｍｅＢｉｓｕｌｆｉｔｅＳｅｑｕｅｎｃｉｎｇＤａｔａＡｎａｌｙｓｉｓ．ＰＬｏＳＯｎｅ，９，ｅ１００３６０．
ＬｅＣｕｎ，Ｙ．ｅｔａｌ．（１９８９）ＢａｃｋｐｒｏｐａｇａｔｉｏｎＡｐｐｌｉｅｄｔｏＨａｎｄｗｒｉｔｔｅｎＺｉｐＣｏｄｅＲｅｃｏｇｎｉｔｉｏｎ．ＮｅｕｒａｌＣｏｍｐｕｔ．，１，５４１－５５１．
Ｌｅｅ，Ｅ．－Ｊ．ｅｔａｌ．（２０１１）Ｔａｒｇｅｔｅｄｂｉｓｕｌｆｉｔｅｓｅｑｕｅｎｃｉｎｇｂｙｓｏｌｕｔｉｏｎｈｙｂｒｉｄｓｅｌｅｃｔｉｏｎａｎｄｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｓｅｑｕｅｎｃｉｎｇ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．，３９，ｅ１２７－ｅ１２７．
Ｌｅｈｍａｎｎ－Ｗｅｒｍａｎ，Ｒ．ｅｔａｌ．（２０１６）Ｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｔｉｓｓｕｅ－ｓｐｅｃｉｆｉｃｃｅｌｌｄｅａｔｈｕｓｉｎｇｍｅｔｈｙｌａｔｉｏｎｐａｔｔｅｒｎｓｏｆｃｉｒｃｕｌａｔｉｎｇＤＮＡ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．，１１３，Ｅ１８２６－Ｅ１８３４．
Ｌｉｓｔｅｒ，Ｒ．ｅｔａｌ．（２００９）ＨｕｍａｎＤＮＡｍｅｔｈｙｌｏｍｅｓａｔｂａｓｅｒｅｓｏｌｕｔｉｏｎｓｈｏｗｗｉｄｅｓｐｒｅａｄｅｐｉｇｅｎｏｍｉｃｄｉｆｆｅｒｅｎｃｅｓ．Ｎａｔｕｒｅ，４６２，３１５－３２２．
Ｌｉｕ，Ｑ．ｅｔａｌ．（２０１９）ＤｅｔｅｃｔｉｏｎｏｆＤＮＡｂａｓｅｍｏｄｉｆｉｃａｔｉｏｎｓｂｙｄｅｅｐｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｏｎＯｘｆｏｒｄＮａｎｏｐｏｒｅｓｅｑｕｅｎｃｉｎｇｄａｔａ．ＮａｔｕｒｅＣｏｍｍｕｎ．，１０，２４４９．
Ｌｉｕ，Ｙ．ｅｔａｌ．（２０１９）Ｂｉｓｕｌｆｉｔｅ－ｆｒｅｅｄｉｒｅｃｔｄｅｔｅｃｔｉｏｎｏｆ５－ｍｅｔｈｙｌｃｙｔｏｓｉｎｅａｎｄ５－ｈｙｄｒｏｘｙｍｅｔｈｙｌｃｙｔｏｓｉｎｅａｔｂａｓｅｒｅｓｏｌｕｔｉｏｎ．Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．，３７，４２４－４２９．
Ｌｕｎ，Ｆ．Ｍ．Ｆ．ｅｔａｌ．（２０１３）ＮｏｎｉｎｖａｓｉｖｅｐｒｅｎａｔａｌｍｅｔｈｙｌｏｍｉｃａｎａｌｙｓｉｓｂｙｇｅｎｏｍｅｗｉｄｅｂｉｓｕｌｆｉｔｅｓｅｑｕｅｎｃｉｎｇｏｆｍａｔｅｒｎａｌｐｌａｓｍａＤＮＡ．Ｃｌｉｎ．Ｃｈｅｍ．，５９，１５８３－１５９４．
Ｎａｔｔｅｓｔａｄ，Ｍ．ｅｔａｌ．（２０１８）Ｃｏｍｐｌｅｘｒｅａｒｒａｎｇｅｍｅｎｔｓａｎｄｏｎｃｏｇｅｎｅａｍｐｌｉｆｉｃａｔｉｏｎｓｒｅｖｅａｌｅｄｂｙｌｏｎｇ－ｒｅａｄＤＮＡａｎｄＲＮＡｓｅｑｕｅｎｃｉｎｇｏｆａｂｒｅａｓｔｃａｎｃｅｒｃｅｌｌｌｉｎｅ．ＧｅｎｏｍｅＲｅｓ．，２８，１１２６－１１３５．
Ｎｇ，Ａ．Ｙ．（２００４）Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ，Ｌ _１ｖｓ．Ｌ _２ｒｅｇｕｌａｒｉｚａｔｉｏｎ，ａｎｄｒｏｔａｔｉｏｎａｌｉｎｖａｒｉａｎｃｅ．Ｉｎ，Ｔｗｅｎｔｙ－ｆｉｒｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ－ＩＣＭＬ ’０４．ＡＣＭＰｒｅｓｓ，ＮｅｗＹｏｒｋ，ＮｅｗＹｏｒｋ，ＵＳＡ，ｐ．７８．
Ｎｉ，Ｐ．ｅｔａｌ．（２０１９）ＤｅｅｐＳｉｇｎａｌ：ｄｅｔｅｃｔｉｎｇＤＮＡｍｅｔｈｙｌａｔｉｏｎｓｔａｔｅｆｒｏｍＮａｎｏｐｏｒｅｓｅｑｕｅｎｃｉｎｇｒｅａｄｓｕｓｉｎｇｄｅｅｐ－ｌｅａｒｎｉｎｇ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，３５，４５８６－４５９５
Ｏｋｏｕ，Ｄ．Ｔ．ｅｔａｌ．（２００７）Ｍｉｃｒｏａｒｒａｙ－ｂａｓｅｄｇｅｎｏｍｉｃｓｅｌｅｃｔｉｏｎｆｏｒｈｉｇｈ－ｔｈｒｏｕｇｈｐｕｔｒｅｓｅｑｕｅｎｃｉｎｇ．Ｎａｔ．Ｍｅｔｈｏｄｓ，４，９０７－９０９．
Ｏｌｏｖａ，Ｎ．ｅｔａｌ．（２０１８）Ｃｏｍｐａｒｉｓｏｎｏｆｗｈｏｌｅ－ｇｅｎｏｍｅｂｉｓｕｌｆｉｔｅｓｅｑｕｅｎｃｉｎｇｌｉｂｒａｒｙｐｒｅｐａｒａｔｉｏｎｓｔｒａｔｅｇｉｅｓｉｄｅｎｔｉｆｉｅｓｓｏｕｒｃｅｓｏｆｂｉａｓｅｓａｆｆｅｃｔｉｎｇＤＮＡｍｅｔｈｙｌａｔｉｏｎｄａｔａ．ＧｅｎｏｍｅＢｉｏｌ．，１９，３３．
Ｒｏｂｅｒｔｓｏｎ，Ｋ．Ｄ．（２００５）ＤＮＡｍｅｔｈｙｌａｔｉｏｎａｎｄｈｕｍａｎｄｉｓｅａｓｅ．Ｎａｔ．Ｒｅｖ．Ｇｅｎｅｔ．，６，５９７－６１０．
Ｓｍｉｔｈ，Ｚ．Ｄ．ａｎｄＭｅｉｓｓｎｅｒ，Ａ．（２０１３）ＤＮＡｍｅｔｈｙｌａｔｉｏｎ：ｒｏｌｅｓｉｎｍａｍｍａｌｉａｎｄｅｖｅｌｏｐｍｅｎｔ．Ｎａｔ．Ｒｅｖ．Ｇｅｎｅｔ．，１４，２０４－２０．
Ｓｃｈａｄｔ，Ｅ．Ｅ．ｅｔａｌ．（２０１３）ＭｏｄｅｌｉｎｇｋｉｎｅｔｉｃｒａｔｅｖａｒｉａｔｉｏｎｉｎｔｈｉｒｄｇｅｎｅｒａｔｉｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇｄａｔａｔｏｄｅｔｅｃｔｐｕｔａｔｉｖｅｍｏｄｉｆｉｃａｔｉｏｎｓｔｏＤＮＡｂａｓｅｓ．ＧｅｎｏｍｅＲｅｓ．，２３（１）：１２９－４１．
Ｓｕｎ，Ｋ．ｅｔａｌ．（２０１５）ＰｌａｓｍａＤＮＡｔｉｓｓｕｅｍａｐｐｉｎｇｂｙｇｅｎｏｍｅ－ｗｉｄｅｍｅｔｈｙｌａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｆｏｒｎｏｎｉｎｖａｓｉｖｅｐｒｅｎａｔａｌ，ｃａｎｃｅｒ，ａｎｄｔｒａｎｓｐｌａｎｔａｔｉｏｎａｓｓｅｓｓｍｅｎｔｓ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．，１１２，Ｅ５５０３－Ｅ５５１２．
Ｓｕｚｕｋｉ，Ｙ．ｅｔａｌ．（２０１６）ＡｇＩｎ：ｍｅａｓｕｒｉｎｇｔｈｅｌａｎｄｓｃａｐｅｏｆＣｐＧｍｅｔｈｙｌａｔｉｏｎｏｆｉｎｄｉｖｉｄｕａｌｒｅｐｅｔｉｔｉｖｅｅｌｅｍｅｎｔｓ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，３２，２９１１－２９１９．
Ｗａｔｓｏｎ，Ｃ．Ｍ．ｅｔａｌ．（２０１９）Ｃａｓ９－ｂａｓｅｄｅｎｒｉｃｈｍｅｎｔａｎｄｓｉｎｇｌｅ－ｍｏｌｅｃｕｌｅｓｅｑｕｅｎｃｉｎｇｆｏｒｐｒｅｃｉｓｅｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｇｅｎｏｍｉｃｄｕｐｌｉｃａｔｉｏｎｓ．Ｌａｂ．Ｉｎｖｅｓｔｉｇ，１００，１３５－１４６．
Ｚｈａｎｇ，Ｗ．ｅｔａｌ．（２０１５）Ｐｒｅｄｉｃｔｉｎｇｇｅｎｏｍｅ－ｗｉｄｅＤＮＡｍｅｔｈｙｌａｔｉｏｎｕｓｉｎｇｍｅｔｈｙｌａｔｉｏｎｍａｒｋｓ，ｇｅｎｏｍｉｃｐｏｓｉｔｉｏｎ，ａｎｄＤＮＡｒｅｇｕｌａｔｏｒｙｅｌｅｍｅｎｔｓ．ＧｅｎｏｍｅＢｉｏｌ．，１６，１４．

Claims

核酸分子におけるシトシンのメチル化を検出するための方法であって、
（ａ）ヌクレオチドに対応する光信号のパルスを測定することによって試料核酸分子の配列決定により得られるデータを受信し、前記データから、以下の特性：
各ヌクレオチドについての
前記ヌクレオチドの識別、
前記試料核酸分子内の前記ヌクレオチドの位置、
前記ヌクレオチドに対応する前記パルスの幅、および
前記ヌクレオチドに対応する前記パルスと近傍のヌクレオチドに対応するパルスとの間の時間を表すパルス間隔、
についての値を得ること；
（ｂ）入力データ構造を作成することであって、入力データ構造は前記試料核酸分子で配列決定された前記ヌクレオチドのウィンドウを含み、ここで前記入力データ構造が、前記ウィンドウ内の各ヌクレオチドについての、以下の特性：
前記ヌクレオチドの前記識別、
前記ウィンドウ内の標的位置に対する前記ヌクレオチドの位置、
前記ヌクレオチドに対応する前記パルスの幅、および
前記パルス間隔、
を含む、作成することと；
（ｃ）前記入力データ構造をモデルに入力することであって、前記モデルは、
第１の複数の第１のデータ構造を受信することであって、前記第１の複数の第１のデータ構造の各第１のデータ構造が、複数の第１の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し、前記第１の核酸分子の各々は、前記ヌクレオチドに対応する前記光信号のパルスを測定することによって配列決定され、前記メチル化は、各第１の核酸分子の各ウィンドウにおける標的位置のシトシンの既知の第１の状態を有し、各第１のデータ構造が、前記入力データ構造と同じ特性についての値を含む、受信すること、
複数の第１の訓練試料を記憶することであって、各々が、前記第１の複数の第１のデータ構造のうちの１つと、前記標的位置の前記シトシンの前記第１の状態を示す第１のラベルとを含む、記憶すること、および、
前記第１の複数の第１のデータ構造が前記モデルに入力されたとき、前記複数の第１の訓練試料を使用して、前記第１のラベルの対応するラベルに一致するかまたは一致しない前記モデルの出力に基づいて前記モデルのパラメータを最適化することであって、前記モデルの出力は、前記それぞれのウィンドウにおける前記標的位置の前記シトシンが前記メチル化を有するかどうかを指定する、最適化すること、によって訓練される、入力することと；
（ｄ）前記モデルを使用して、前記入力データ構造の前記ウィンドウ内の前記標的位置の前記シトシンに前記メチル化が存在するかどうかを決定することと、を含む、方法。
前記メチル化が、５ｍＣ（５－メチルシトシン）である、請求項１に記載の方法。
核酸分子におけるシトシンのメチル化を検出するための方法であって、
（ａ）ヌクレオチドに対応する光信号のパルスを測定することによって試料核酸分子の配列決定により得られるデータを受信し、前記データから、以下の特性：
各ヌクレオチドについての
前記ヌクレオチドの識別、
前記試料核酸分子内の前記ヌクレオチドの位置、
前記ヌクレオチドに対応する前記パルスの幅、および
前記ヌクレオチドに対応する前記パルスと近傍のヌクレオチドに対応するパルスとの間の時間を表すパルス間隔、
についての値を得ること；
（ｂ）入力データ構造を作成することであって、入力データ構造は前記試料核酸分子で配列決定された前記ヌクレオチドのウィンドウを含み、ここで前記ウィンドウが、前記ウィンドウ内の標的位置のヌクレオチドの上流の６個の連続するヌクレオチドと、前記標的位置のヌクレオチドの下流の６個の連続するヌクレオチドを含み、ここで前記入力データ構造が、前記ウィンドウ内の各ヌクレオチドについての、以下の特性：
前記ヌクレオチドの前記識別、
前記標的位置に対する前記ヌクレオチドの位置、
前記ヌクレオチドに対応する前記パルスの幅、および
前記パルス間隔、
を含む、作成することと；
（ｃ）前記入力データ構造をモデルに入力することであって、前記モデルは、
第１の複数の第１のデータ構造を受信することであって、前記第１の複数の第１のデータ構造の各第１のデータ構造が、複数の第１の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し、前記第１の核酸分子の各々は、前記ヌクレオチドに対応する前記光信号のパルスを測定することによって配列決定され、前記メチル化は、各第１の核酸分子の各ウィンドウにおける標的位置のシトシンの既知の第１の状態を有し、前記メチル化は５ｍＣ（５－メチルシトシン）であり、各第１のデータ構造が、前記入力データ構造と同じ特性についての値を含む、受信すること、
複数の第１の訓練試料を記憶することであって、各々が、前記第１の複数の第１のデータ構造のうちの１つと、前記標的位置の前記シトシンの前記第１の状態を示す第１のラベルとを含む、記憶すること、および、
前記第１の複数の第１のデータ構造が前記モデルに入力されたとき、前記複数の第１の訓練試料を使用して、前記第１のラベルの対応するラベルに一致するかまたは一致しない前記モデルの出力に基づいて前記モデルのパラメータを最適化することであって、前記モデルの出力は、前記それぞれのウィンドウにおける前記標的位置の前記シトシンが前記メチル化を有するかどうかを指定する、最適化すること、によって訓練される、入力することと；
（ｄ）前記モデルを使用して、前記入力データ構造の前記ウィンドウ内の前記標的位置の前記シトシンに前記５ｍＣメチル化が存在するかどうかを決定することと、を含む、方法。
前記入力データ構造は、複数の入力データ構造のうちの１つの入力データ構造であり、
前記試料核酸分子は、複数の試料核酸分子のうちの１つの試料核酸分子であり、
前記複数の試料核酸分子は、対象の生体試料から取得され、
各入力データ構造は、前記複数の試料核酸分子のそれぞれの試料核酸分子における配列決定されたヌクレオチドのそれぞれのウィンドウに対応し、
前記方法が、
前記複数の入力データ構造を受信することと、
前記複数の入力データ構造を前記モデルに入力することと、
前記モデルを使用して、各入力データ構造の前記それぞれのウィンドウにおける標的位置のシトシンに前記メチル化が存在するかどうかを決定することと、をさらに含む、請求項１～３のいずれか一項に記載の方法。
前記複数の試料核酸分子の各試料核酸分子が、カットオフサイズよりも大きいサイズを有する、請求項４に記載の方法。
前記複数の試料核酸分子が、複数のゲノム領域に整列し、
前記複数のゲノム領域の各ゲノム領域について
いくつかの試料核酸分子が、前記ゲノム領域に整列され、
試料核酸分子の数がカットオフ数よりも大きい、請求項４に記載の方法。
前記入力データ構造に対応するヌクレオチドの前記ウィンドウは、前記試料核酸分子の第１の鎖上のヌクレオチドおよび前記試料核酸分子の第２の鎖上のヌクレオチドを含み、
前記入力データ構造は、前記ウィンドウ内の各ヌクレオチドについて、鎖特性の値をさらに含み、前記鎖特性は、前記ヌクレオチドが前記第１の鎖または前記第２の鎖のいずれかに存在することを示す、請求項１～３のいずれか一項に記載の方法。
前記ウィンドウ内の各ヌクレオチドが、濃縮またはフィルタリングされる、請求項１～３のいずれか１項に記載の方法。
前記ウィンドウ内の前記ヌクレオチドが、循環コンセンサス配列を使用することなく、かつ前記配列決定されたヌクレオチドを参照ゲノムに整列させることなく決定される、請求項１～３のいずれか一項に記載の方法。
前記複数の第１の核酸分子のうちの少なくともいくつかは、各々、第１の参照配列に対応する第１の箇所と、前記第１の参照配列とは異なる第２の参照配列に対応する第２の箇所とを含む、請求項１～３のいずれか一項に記載の方法。
複数の核酸分子を使用して前記モデルを検証することであって、各々が、第１の参照配列に対応する第１の箇所及び第２の参照配列に対応する第２の箇所を含み、ここで前記第１の箇所が第１のメチル化パターンを有し、前記第２の箇所が第２のメチル化パターンを有する、検証すること、
をさらに含む、請求項１～３のいずれか一項に記載の方法。
前記第１の箇所は、メチラーゼで処理される、請求項１１に記載の方法。
前記第２の箇所は、前記第２の参照配列の非メチル化箇所に対応する、請求項１２に記載の方法。
前記モデルには、機械学習モデル、主成分分析、畳み込みニューラルネットワーク、またはロジスティック回帰が含まれる、請求項１～１３のいずれか一項に記載の方法。
前記入力データ構造のウィンドウが、前記標的位置のヌクレオチドの下流の連続するヌクレオチドの数と異なる、前記標的位置のヌクレオチドの上流の連続するヌクレオチドの数を有する、請求項１～１４のいずれか一項に記載の方法。
前記入力データ構造のウィンドウが、前記標的位置のヌクレオチドの上流の１０個の連続するヌクレオチド及び前記標的位置のヌクレオチドの下流の１０個の連続するヌクレオチドを含む、請求項１～１４のいずれか一項に記載の方法。
前記第１の複数の第１のデータ構造に関連する各ウィンドウが、各第１の核酸分子の第１の鎖上の１３個の連続するヌクレオチドを含む、請求項１～１４のいずれか一項に記載の方法。
前記標的位置のヌクレオチドの上流の２１個の連続するヌクレオチド及び前記標的位置のヌクレオチドの下流の２１個の連続するヌクレオチドを含む、請求項１～１４のいずれか一項に記載の方法。
前記光信号が、色素標識ヌクレオチドからの蛍光信号である、請求項１～１８のいずれか一項に記載の方法。
前記ウィンドウ内の前記ヌクレオチドが、循環コンセンサス配列を使用して、前記配列決定されたヌクレオチドを参照ゲノムに整列させることなく決定される、請求項１～３のいずれか一項に記載の方法。
前記試料核酸分子の配列決定をさらに含む、請求項１～２０のいずれか一項に記載の方法。
配列決定が、前記試料核酸分子中のヌクレオチドに対応する前記光信号のパルスを測定することを含む、請求項２１に記載の方法。
コンピュータ製品であって、複数の命令を記憶する非一時的コンピュータ可読媒体を含み、実行されると、コンピュータシステムを制御して、請求項１～２０のいずれか一項に記載の方法を実施する、コンピュータ製品。
請求項２３に記載のコンピュータ製品と、
前記コンピュータ可読媒体に記憶された命令を実行するための１つ以上のプロセッサと、を備える、システム。