JP2023514851A

JP2023514851A - 癌の病態を判別または示すメチル化パターンの同定

Info

Publication number: JP2023514851A
Application number: JP2022550238A
Authority: JP
Inventors: メルトンコリン; ハッベルアール; クロードヴェンオリバー
Original assignee: グレイルエルエルシー
Priority date: 2020-02-28
Filing date: 2021-02-26
Publication date: 2023-04-11
Also published as: CA3169488A1; US20210292845A1; CN115443507A; EP4111457A1; AU2021228737A1; WO2021174072A1

Abstract

癌状態を識別または示すメチル化パターンを同定するシステムおよび方法が提供される。第１および第２のデータセットが得られる。各データセットは、対象の第１または第２のセットから得られ、対応する複数のCpG部位における各CpG部位のメチル化状態を含む核酸のメチル化配列決定によって決定される複数の断片メチル化パターンを含む。複数対象の各々は、癌状態の各第１または第２の状態を有する。第１および第２の間隔マップは、各データセットごとに生成され、それぞれは、開始メチル化部位、終了メチル化部位、各異なる断片メチル化パターンの表現および断片のカウントを特徴とする複数のノードを含む。第１および第２の間隔マップは、CpG部位の所定の範囲における適格なメチル化パターンについてスキャンされ、１または複数の選択基準を満たし、それによって癌状態を識別するメチル化パターンを同定する。

Description

関連出願の相互参照
本出願は、参照により本明細書に組み込まれる、２０２０年２月２８日に出願された「癌状態を識別または指示するメチル化パターンの同定」と題する米国仮特許出願第６２／９８３，４４３号の優先権を主張する。

本明細書は、一般に、癌状態を識別または示すメチル化パターンを同定するために、生物学的試料においてメチル化パターンを使用することに関する。

がんの早期発見は、がんの転帰を改善する最も人間的な方法の１つである。現状の治療－固形腫瘍に対する手術、化学療法と放射線の組み合わせ、または液状腫瘍に対する化学療法と骨髄移植－には、生存率が不十分であるなどの欠点がある。治療はしばしば患者を疼痛のままにし、一方で生存期間の不十分な量を提供する。新しい免疫療法にも欠点がある。患者は集中治療室で治療されなければならず、しばしば致死的な副作用がある。このような治療法はいずれも、がんが早期に発見されれば、より効果的である。
より良い治療法と癌診断法を開発するために、癌の単一突然変異の探索に資源が投入されてきた。この方法は「精度腫瘍学」として知られる一般的な医学的取り組みに発展してきた。この取り組みでは、細胞の制御不能な成長の原因となる重要な薬剤感受性変異を同定するために、腫瘍の塩基配列を決定する。例えば、米国国立がん研究所が主導する臨床試験イニシアチブ「治療選択のための分子解析」（MATCH）は、２０１５年に開始された。この試験には３０以上の治療群がある。この試験で検査されたより一般的な腫瘍の中で、既存の薬物で対処可能な「実行可能である」突然変異が、せいぜい１５％の症例で発見された。もっと大きな失望は、突然変異を薬剤と対合させても結果が保証されなかったことである－適合した患者の３分の１のみが治療に反応し、その反応の半分は６カ月以内に消失した。精度の高い腫瘍学の追求が進行中であるが、現在までの結果は、ほとんどのがんはこのような縮小主義的アプローチで対処するにはあまりにも複雑すぎることを示している。

実際、ほとんどの一般的な癌ははるかに交絡因子であり、臨床試験中の癌治療薬の９５％までが米食品医薬品局（FDA）の承認を得られない。他の５％では、多くの患者が数カ月しか生存率を改善せず、治療を受けた患者の一部で生存率が改善する。
上記の欠点はまた、早期発見の必要性を強調する。しかし、現在のスクリーニング検査は不十分である。マンモグラフィー、大腸内視鏡検査、Papスミアおよび前立腺特異抗原（PSA）の検査などの監視方法が数十年にわたって使用されてきたが、すべてが一様に成功しているわけではない。癌の中には、進行が非常に遅いために他の何かで死亡する可能性が高いものもあれば、治癒するには遅すぎるまで発見患者ない危険な腫瘍もある。さらに、現在までのところ、肺がんを含む多数の癌に対して十分なスクリーニング検査は利用できない。

このようなスクリーニング検査を開発するためには、癌細胞の「バイオマーカー」を定義する必要がある。これらは、がん細胞が放出する遺伝物質の鎖など、ほとんど何でもあります。米国国立癌研究所は、このようなバイオマーカーが癌の最も初期の足跡を提供するだけでなく、進行性腫瘍と寿命を脅かさない腫瘍を分離するのに役立つことを期待して、大規模なイニシアチブを支援している。生体分子配列決定の進歩は、特に核酸試料に関して、細胞および分子生物学の分野に革命をもたらし、上記バイオマーカーを発見するための有望な技術を提供する。自動配列決定システムの開発により促進され、現在では全ゲノムの配列決定が可能となっている。

バイオマーカーを見つけるための１つの特別なアプローチは、異常なDNAメチル化パターンを同定するためにこのような配列決定を用いることである。DNAメチル化は遺伝子発現の調節に重要な役割を果たしている。異常なDNAメチル化は、癌を含む多くの疾患過程に関与しており、メチル化の比パターンは、特定の癌状態と関連することが決定されている。例えば、Jones、２００２、Oncogene ２１：５３５８－５３６０; Paska and Hudler、２０１５、Biochemia Medica ２５（２）：１６１－１７６、およびDu et al.、２０１０、BMC Bioinformatics １１：５８７、doi：１０．１１８６／１４７１－２１０５－１１－５８７を参照されたい。さらに、メチル化パターンは、対象における癌状態（例えば、癌のタイプ、癌の段階、癌の有無）を分類するために用いることができる。メチル化配列決定（例えば、全ゲノム亜硫酸水素配列決定（WGBS））を用いたDNAメチル化プロファイリングは、癌の検出、診断、および／またはモニタリングのための有用な診断ツールとしてますます認識されている。例えば、差次的にメチル化された領域および／または対立遺伝子特異的メチル化パターンの特異的パターンは、循環無細胞DNAを用いた非侵襲的診断のための分子マーカーとして有用であり得る。例えば、Warton and Sami、２０１５、Front Mol Biosci、２（１３) doi: １０．３３８９／fmolb．２０１５．０００１３を参照のこと。

新たな配列決定技術により、メチル化シークエンシングを含む大規模なシークエンシングが可能になったが、これらの新たな配列決定技術により、シークエンシングされているゲノムの数と複雑さが相応に増加している。大量の高忠実度核酸配列が現在得られるが、これらの配列を利用して生物学的洞察を得、疾患の検出および診断に情報を与えるには、多くの問題が残っている。

上記の背景を考慮すると、ますます複雑で大規模な核酸配列決定データを使用してバイオマーカーを同定するための改良されたアプローチが当技術分野において必要とされている。さらに、このようなバイオマーカーを用いて、ゲノムにわたる複雑な生体情報パターンおよび非線形性をモデル化および推論し、したがって癌などの疾患の検出、診断、および／またはモニタリングのための試験を開発する改良された方法が、当技術分野において必要とされている。

本開示は、核酸試料を用いて被験体から得られた生体試料中の癌状態（例えば、複数の適格なメチル化パターン、所定数のCpG部位である長さ、またはCpG数範囲）を識別または発明複数の適格なメチル化パターンを同定するためのロバストな技術を提供することによって、背景技術において同定された欠点に対処する。全ゲノム、または標的ゲノム、シーケンシングデータとメチル化データとの組み合わせ、および特定のゲノム領域に対応するメチル化パターンを表すためのノードを含む間隔地図の使用は、従来の同定方法を超える追加の診断および分析能力を提供する。

癌状態を識別または示すメチル化パターンを同定することにより、上記で同定された問題に対処するための技術的解決策（例えば、コンピューティングシステム、方法、および非一時的コンピュータ可読記憶媒体）が、本開示において提供される。

以下に、本発明のいくつかの態様の基本的な理解を提供するために、本発明の概要を示す。この発明の概要は、本発明の広い概観ではない。本発明の重要／重要な要素を特定すること、または本発明の範囲を明確にすることは意図されていない。その唯一の目的は、本発明の概念のいくつかを、後に提示されるより詳細な説明の前置きとして、簡略化された形態で提示することである。

本開示の一態様は、１つまたは複数のプロセッサを有するコンピュータシステムにおいて、癌状態を識別または発明複数の適格なメチル化パターンを同定する方法、および１つまたは複数のプロセッサによる実行のための１つまたは複数のプログラムを記憶するメモリを提供する。この方法は、第１のデータセットを電子形式で取得することを含み、ここで、第１のデータセットは、第１の複数のフラグメント中の各フラグメントの対応するフラグメントメチル化パターンを含む。それぞれのフラグメントの対応するフラグメントメチル化パターンは、１つ以上の対象の第１のセット中の対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。いくつかの実施形態において、第１の複数のフラグメントは、１００を超えるフラグメント、５００を超えるフラグメント、１０００を超えるフラグメント、１０，０００を超えるフラグメント、１００，０００を超えるフラグメント、５００，０００を超えるフラグメント、１００万を超えるフラグメント、１０００万を超えるフラグメント、または１億を超えるフラグメントを含む。

本方法は、第２のデータセットを電子形式で取得することをさらに含み、第２のデータセットは、第２の複数の断片中の各断片の対応する断片メチル化パターンを含む。それぞれのフラグメントの対応するフラグメントメチル化パターンは、対象の第２のセット中の対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。１人以上の被験体の第１セットの各被験体は、癌状態の第１の状態を有し、第２セットの被験体の各被験体は、癌状態の第２の状態を有する。いくつかの実施態様において、第２の複数のフラグメントは、１００を超えるフラグメント、５００を超えるフラグメント、１０００を超えるフラグメント、１０，０００を超えるフラグメント、１００，０００を超えるフラグメント、５００，０００を超えるフラグメント、１００万を超えるフラグメント、１０００万を超えるフラグメント、又は１億を超えるフラグメントを含む。

この方法は、第１のデータセットを使用して、１つ以上の対応するゲノム領域について１つ以上の第１の状態間隔地図を生成することをさらに含む。１つ以上の第１の状態間隔地図内の各第１の状態間隔地図は、対応する独立した複数のノードを備える。いくつかの実施形態では、対応する独立した複数のノードは、５０個以上のノード、１００個以上のノード、５００個以上のノード、１０００個以上のノード、１０，０００個以上のノード、１００，０００個以上のノード、１００万個以上のノード、または１００万個以上のノードを含む。１つまたは複数の第１の状態区間地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第１のデータセット内の第１の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンに関して、異なる断片メチル化パターンの表現、および第１のデータセット内の断片のカウントであって、断片メチル化パターンが対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なる断片メチル化パターンを有する断片のカウントを特徴とする。

この方法は、第２のデータセットを使用して、１つまたは複数の対応するゲノム領域について１つまたは複数の第２の状態間隔地図を生成することをさらに含む。１つ以上の第２の状態間隔マップ内の各第２の状態間隔マップは、対応する独立した複数のノードを備える。いくつかの実施形態では、対応する独立した複数のノードは、５０個以上のノード、１００個以上のノード、５００個以上のノード、１０００個以上のノード、１０，０００個以上のノード、１００，０００個以上のノード、１００万個以上のノード、または１００万個以上のノードを含む。１つまたは複数の第２の状態区間地図内のそれぞれの対応する独立した複数のノード内のそれぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第２のデータセット内の第２の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンに関して、異なるフラグメントメチル化パターンの表現、および第２のデータセット内のフラグメントメチル化パターンのカウントであって、フラグメントメチル化パターンが対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有するフラグメントのカウントを特徴とする。

この方法はさらに、複数の適格なメチル化パターン（またはQMP）について、１つ以上の第１の間隔地図および１つ以上の第２の間隔地図をスキャンすることを含み、このようなメチル化パターンの各々は、所定のCpG部位数範囲（例えば、５の長さは、５つのCpG部位を指し、好ましくは、同一の核酸断片上に隣接する；本明細書に開示される典型的な適格なメチル化パターンは、５つのCpG部位と２０のCpG部位との間を含む）にある長さを有する。このようなメチル化パターンは、１つ以上の第１の間隔地図および１つ以上の第２の間隔地図の断片メチル化パターン内にある。いくつかの実施形態において、所定のCpG部位数範囲は、異なる長さの適格なメチル化パターン（またはQMP）のセットを含み、例えば、セット内の長さは、３つのCpG部位と５０のCpG部位との間、４つのCpG部位と３０のCpG部位との間、または５つのCpG部位と２５のCpG部位との間を含むことができる。いくつかの態様において、所定のCpG部位数範囲は、単一のCpG数（例えば、l、対応する初期CpG部位と対応する最終CpG部位との間のCpG間隔lの長さ、しばしば初期CpG部位で始まり、最終CpG部位で終わるCpG部位の数であり得る）である。いくつかの態様において、複数の適格性メチル化パターンにおける各適格性メチル化パターンは、対応する初期CpG部位と対応する最終CpG部位との間の対応する長さlに及ぶ。このようにして、癌状態を識別または示す複数の適格なメチル化パターンが同定される。いくつかの実施形態において、複数の適格性メチル化パターンは、（例えば、長さ要件に加えて）１つまたは複数の選択基準をさらに満たす。

いくつかの実施形態では、１つまたは複数の選択基準は、メチル化パターンが、第１の周波数閾値を満たす第１の周波数を有する１つまたは複数の第１の間隔地図内に表され、第１の状態深さ閾値を満たすカバレッジを有する１つまたは複数の第１の間隔地図内に表され、第２の周波数閾値を満たす第２の周波数を有する１つまたは複数の第２の間隔地図内に表されることを指定する。

いくつかの上記実施形態では、メチル化パターンは、１つまたは複数の第１の間隔地図内のメチル化パターンの周波数が第１の周波数閾値を超える場合に第１の周波数閾値を満たす第１の周波数を有する１つまたは複数の第１の間隔地図内に表され、メチル化パターンは、１つまたは複数の第１の間隔地図内のメチル化パターンの被覆率が第１の状態深さ閾値を超える場合に第１の状態深さ閾値を満たす被覆率を有する１つまたは複数の第１の間隔地図内に表され、メチル化パターンは、１つまたは複数の第２の間隔地図内のメチル化パターンの周波数が第２の周波数閾値を下回る場合に第２の周波数閾値を満たす第２の周波数を有する１つまたは複数の第２の間隔地図内に表される。

このようないくつかの実施形態では、第１の周波数閾値は０．２であり、第１の状態深さ閾値は１０であり、第２の周波数閾値は０．００１である。
いくつかの実施形態において、それぞれのメチル化パターンは、式の際に、１つまたは複数の選択基準を満たす：

メチル化パターンについては、３、４、５または６を超え、ここで、第２のカウントは、１つまたは複数の第２の状態間隔地図におけるそれぞれのメチル化パターンのカウントであり、第２の状態深さは、１つまたは複数の第２の状態間隔地図におけるそれぞれのメチル化パターンによって表されるゲノムの領域における第２のデータセットによるカバレッジである。

いくつかの実施形態において、本方法は、第１および第２のデータセット中の複数の適格性メチル化パターンに関連するメチル化パターン情報を用いて、癌状態の状態を識別または示す分類器を訓練することをさらに含む。いくつかの上記実施形態では、訓練は、無細胞核酸メチル化データから生殖細胞系変異をスクリーニングするために腫瘍生検に個々に適合された、個々の被験体（各々が第１または第２の状態を有する）からの無細胞核酸メチル化データなどの追加のデータセットを使用することを含むことができる。他の実施形態では、訓練は、個々の被験体からの無細胞核酸メチル化データのような、第１または第２の状態を各有する追加のデータセットを含むことができ、これらのデータセットは、腫瘍生検に個々にマッチングされておらず、したがって、生殖細胞系突然変異は、腫瘍のマッチングに基づいてスクリーニングされていない。

いくつかの実施形態において、本方法は、第１および第２のデータセット中の複数の適格性メチル化パターンに関連するメチル化パターン情報を用いて、癌状態の状態を識別するための分類器を訓練することをさらに含む。
いくつかの上記実施形態では、分類器はロジスティック回帰である。いくつかの実施形態では、分類器は、ニューラルネットワークアルゴリズム、支持、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。

いくつかの実施形態において、本方法は、第３のデータセットを電子形態で取得することをさらに含み、第３のデータセットは、第３の複数の断片中のそれぞれの断片の対応する断片メチル化パターンを含む。それぞれのフラグメントの対応するフラグメントメチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、それぞれのフラグメント中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態を含む。この方法は、さらに、第３のデータセット中の第３の複数の断片中のそれぞれの断片の断片メチル化パターンを、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応する、断片メチル化パターンを分類器に適用することを含み、それによって、試験対象における癌状態の状態を決定する。

いくつかの実施形態において、癌状態の状態は、腫瘍分画であり、癌状態の第１の状態は、腫瘍分画の第１の範囲であり、癌状態の第２の状態は、腫瘍分画の第２の範囲である。

いくつかの上記実施形態では、第１の範囲は０．００１より大きく、第２の範囲は０．００１未満である。

いくつかの代替的な実施形態では、がん状態の状態は腫瘍分率であり；第３のデータセットを取得および適用することは、経時的に繰り返し行われる。

いくつかの実施形態において、癌状態は、癌の非存在または存在である。いくつかの実施形態では、癌状態は癌の病期である。
開示された実施形態のいくつかにおいて、がんは、副腎臓がん、胆道がん、膀胱がん、骨／骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道のがん、胃がん、頭頸部がん、肝胆道がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、白血病、またはこれらの組み合わせである。
いくつかの実施形態において、被験体から得られる生物学的試料は、液体生物学的試料である。いくつかの上記態様において、第３の複数の断片は、無細胞核酸である。

いくつかの実施形態において、第１および第２の複数の断片は、無細胞核酸である。

いくつかの実施形態では、１つまたは複数の第１の状態間隔地図は、単一の第１の状態間隔地図から構成され、１つまたは複数の第２の状態間隔地図は、単一の第２の状態間隔地図から構成される。
いくつかの実施形態において、１つまたは複数の第１の状態間隔地図は、複数の第１の状態間隔地図を含むか、またはそれらであり；１つまたは複数の第２の状態間隔地図は、複数の第２の状態間隔地図を含むか、またはそれらであり；１つまたは複数の対応するゲノム領域は、複数のゲノム領域を含むか、またはそれらである。例えば、複数のゲノム領域内のそれぞれのゲノム領域は、第１の複数の区間地図内の第１の状態区間地図および第２の複数の区間地図内の第２の状態区間地図によって表される。いくつかの実施形態において、複数のゲノム領域は、１０～３０である。いくつかの実施形態において、複数のゲノム領域の各ゲノム領域は、異なるヒト染色体である。いくつかの実施形態において、複数のゲノム領域は、２～１０００のゲノム領域、５００～５０００のゲノム領域、１０００～２０，０００のゲノム領域、または５０００～５０，０００のゲノム領域からなる。いくつかの実施形態において、第１のデータセットを得ることおよび第２のデータセットを得ることのメチル化配列決定は、複数のプローブを用いた標的配列決定であり、複数のゲノム領域内の各ゲノム領域は、複数のプローブ内のプローブに関連付けられる。

いくつかの実施形態では、１つまたは複数の第１の区間地図内のそれぞれの区間地図の対応する独立した複数のノードは、１つまたは複数の対応するゲノム領域内の対応する領域を表す対応するツリーとして配置され、それぞれの区間地図に対する対応する独立した複数のノード内のそれぞれのノードは、対応するゲノム領域のサブ領域を表す。

いくつかのこのような実施形態では、対応する各ツリーは、対応する複数のリーフのそれぞれのリーフの親ノードが１つ以上の子ノードを参照する対応する複数のリーフに対応する複数のノードを配置し、走査は複数のクエリを生成し、複数のクエリ内のそれぞれのクエリは、長さlの異なる候補の解釈パターンのために使用され、複数のクエリ内のそれぞれのクエリは、対応するツリーの対応する独立した複数のノード内のそれぞれのノードでそれぞれのクエリとのマッチメーキングを実行し、さらに、それぞれのクエリをそれぞれのノードの子ノードに対してさらにマッチメーキングするために、それぞれのノードの子ノードにクエリを伝播し、それぞれのマッチメーキングの結果をそれぞれのノードの親ノードに配信する。いくつかの上記実施形態では、木は、ランダム化表面積発見的を有するKd木の一次元版である。いくつかの上記実施形態では、長さlの各可能なメチル化パターンは、複数のクエリによってサンプリングされる。

いくつかの実施形態において、所定のCpG部位数範囲は、単一の所定数のCpG部位である。いくつかの実施形態において、CpG部位の単一の所定数は、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、３０、４０、または５０個までのCpG部位である。いくつかの実施形態において、所定のCpG部位数範囲は、隣接するCpG部位に関するものである。いくつかの態様において、所定のCpG部位数範囲は、単一の所定数の連続するCpG部位である。いくつかの実施形態では、所定数の連続するCpG部位は、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、３０、４０、または５０以上の連続するCpG部位である。いくつかの実施形態において、所定のCpG部位数範囲は、ヒト参照ゲノム中の２～１００の連続するCpG部位である。

いくつかの実施形態において、１つまたは複数の対象の第１のセットにおける対応する対象からのそれぞれの生物学的試料のメチル化配列決定は、第１のデータセットに含まれるメチル化パターンについて評価される、１０億個以上、２０億個以上、３０億個以上、４０億個以上、５０億個以上、６０億個以上、７０億個以上、８０億個以上、９０億個以上、または１００億個以上のフラグメントを生成する。いくつかの実施形態において、１つ以上の対象の第１のセットにおける対応する対象からのそれぞれの生物学的試料のメチル化配列決定は、第１のデータセットに含まれるメチル化パターンについて評価される１０億未満のフラグメントまたは１０，０００未満のフラグメントを生成する。

いくつかの実施形態において、１０，０００を超えるCpG部位、２５，０００を超えるCpG部位、５０，０００を超えるCpG部位、８０，０００を超えるCpG部位、１００，０００を超えるCpG部位、１５０，０００を超えるCpG部位、２００，０００を超えるCpG部位、３００，０００を超えるCpG部位、４００，０００を超えるCpG部位、５００，０００を超えるCpG部位、６００，０００を超えるCpG部位、７００，０００を超えるCpG部位、８００，０００を超えるCpG部位、９００，０００を超えるCpG部位、１，０００，０００を超えるCpG部位、１，２００，０００を超えるCpG部位、１，８００，０００を超えるCpG部位、１，８００，０００を超えるCpG部位、または２，０００，０００を超えるCpG部位が１つ以上の対応するゲノム領域にわたって存在する。いくつかの実施形態では、１以上の対応するゲノム領域にわたって、１０，０００未満のCpG部位、２５，０００未満のCpG部位、５０，０００未満のCpG部位、８０，０００未満のCpG部位、１００，０００未満のCpG部位、１５０，０００未満のCpG部位、２０万未満のCpG部位、２００，０００未満のCpG部位、３００，０００未満のCpG部位、４００，０００未満のCpG部位、５００，０００未満のCpG部位、７００，０００未満のCpG部位、８００，０００未満のCpG部位、９００，０００未満のCpG部位、１，０００，０００未満のCpG部位、１，２００，０００未満のCpG部位、１，５００，０００未満のCpG部位、１，８００，０００未満のCpG部位、または２，０００，０００未満のCpG部位が存在する。
いくつかの実施形態において、対応する複数の配列読み取りの平均配列読み取り長は、それぞれの断片についてのメチル化配列決定によって得られた１００～３００ヌクレオチド、例えば１４０～２８０ヌクレオチドである。

いくつかの実施形態において、１以上の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の５００塩基対から１０，０００塩基対の間を表す。いくつかの実施形態において、１以上の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の５００塩基対から２０００塩基対の間を表す。いくつかの実施形態において、１以上の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の異なる部分を表す。いくつかの実施形態において、１つまたは複数の対応するゲノム領域は、ヒトゲノム参照配列の最大１００万塩基対（Mb）、２Mb、３Mb、５Mb、８Mb、１０Mb、１２Mb、１５Mb、２０Mb、２５Mb、３０Mb、４０Mb、または５０Mbを集合的に含む。

いくつかの態様において、対応する複数のCpG部位におけるCpG部位のメチル化状態は、CpG部位がメチル化されるメチル化配列決定によって決定されるときにメチル化され、CpG部位がメチル化されないメチル化配列決定によって決定されるときに非メチル化される。いくつかの態様において、メチル化配列決定は、複数の核酸プローブを用いた全ゲノムメチル化配列決定または標的DNAメチル化配列決定である。いくつかの態様において、メチル化配列決定は、それぞれのフラグメント中の１つ以上の５－メチルシトシン（５mC）および／または５－ヒドロキシメチルシトシン（５hmC）を検出する。いくつかの態様において、メチル化配列決定は、１つ以上の非メチル化シトシンまたは１つ以上のメチル化シトシンの対応する１つ以上のウラシルへの変換を含む。いくつかの実施形態において、１つまたは複数のウラシルは、メチル化配列決定の間に、１つまたは複数の対応するチミンとして検出される。いくつかの態様において、１つ以上の非メチル化シトシンまたは１つ以上のメチル化シトシンの変換は、化成処理、酵素変換、またはそれらの組み合わせを含む。

いくつかの態様において、それぞれの生物学的試料は、血液試料である。いくつかの態様において、それぞれの生物学的試料は、血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む。

いくつかの実施形態において、がん条件は、被験体中の腫瘍分率であり、第１の被験体セットは、被験体から成り、がん条件の第１の状態は、被験体中の腫瘍分率であり、がん条件の第２の状態は、がんの非存在であり、およびがん被験体の第２のセットは、複数のがんを有さない被験体である。いくつかの実施形態において、本方法は、複数の適格なメチル化パターンを使用して、試験対象における腫瘍分率を決定することをさらに含む。いくつかの実施形態において、本方法は、さらに、試験対象について決定された腫瘍分率に基づいて、試験対象を処置することを含む。いくつかの実施形態において、本方法は、さらに、試験対象について決定された腫瘍分率に基づいて、試験対象の進行中の治療計画を調整することを含む。

いくつかの実施形態において、がん状態の第１の状態は被験体に特有であり、第１のセットの被験体は被験体から成り、がん状態の第２の状態はがんの非存在であり、そして第２のセットのがん被験体は複数のがんのない被験体である。いくつかの実施形態において、本方法は、複数の適格性メチル化パターンを用いて、被験者におけるがん状態の第１の状態を定量することをさらに含む。いくつかの実施形態において、本方法は、さらに、被験者におけるがん状態の第１の状態の定量に基づいて、被験者を治療することを含む。いくつかの実施形態において、方法は、被験者におけるがん状態の第１の状態の定量に基づいて、被験者の進行中の治療計画を調整することをさらに含む。いくつかの実施形態において、被験体は、副腎臓がん、胆道がん、膀胱がん、骨／骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道のがん、胃がん、頭頸部がん、肝胆道がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、または白血病を有する。

いくつかの実施形態において、癌状態は、癌の有無であり、対象の第１のセットは、第１の複数の対象を含み、癌状態の第１の状態は、癌の存在であり、癌状態の第２の状態は、癌の非存在であり、癌対象の第２のセットは、第２の複数の癌対象である。いくつかの態様において、がんは、副腎臓がん、胆道がん、膀胱がん、骨／骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道のがん、胃がん、頭頸部がん、肝胆道がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、または白血病である。

いくつかの実施形態において、癌状態は癌の起源であり、第１の被験体セットは第１の複数被験者を含み、癌状態の第１の状態は癌の第１の起源であり、癌状態の第２の状態は癌の第２の起源であり、癌被験体の第２のセットは第２の複数の癌被験体である。いくつかの実施形態では、第１の起源は、副腎、胆道、骨／骨髄、脳、大腸、食道、頭頸部、肝臓、卵巣、肝臓、腎盂、胸膜、前立腺、腎臓、胃、胸腺、甲状腺、子宮、リンパ腫、黒色腫、または白血病のうちの１つであり、第２の起源は、副腎、胆道、ブラダー、骨／骨髄、脳、乳房、大腸、食道、頭頸部、肝臓、肝臓、肺、卵巣、膵臓、骨盤、胸膜、腎臓、胃、精巣、甲状腺、甲状腺、子宮、黒色腫、多発性骨髄腫のうちの１つであるまたは白血病。

いくつかの実施形態において、がんの状態はがんの病期であり、第１の被験体セットは第１の複数被験者を含み、がんの状態の第１の状態は第１のがんの第１の病期であり、がんの状態の第２の状態は第１のがんの第２の病期であり、がんの被験体の第２のセットは第２の複数のがん被験体である。いくつかの実施形態において、がんは、副腎がん、胆道がん、膀胱がん、骨／骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆道がん、腎がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、黒色腫、多発性骨髄腫、または白血病であり、第１段階はがんのI期、II期、III期、またはIV期であり、第２段階はがんの第１段階以外であり、第１段階、第２段階、第２段階、第３段階

本開示の別の態様は、癌状態を識別または発明複数の適格なメチル化パターンを同定するためのコンピュータシステムを提供し、該コンピュータシステムは、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを記憶するメモリとを含み、該少なくとも１つのプログラムは、癌状態を識別または発明複数の適格なメチル化パターンを同定するための命令を含む。いくつかの実施形態では、少なくとも１つのプログラムは、コンピュータによって実行されるように構成される。いくつかの実施形態では、少なくとも１つのプログラムは、本明細書に開示された方法および実施形態のいずれか、および／または当業者に明らかなそれらの任意の組み合わせを実行するための命令を含む。
本開示の別の態様は、プロセッサによって実行されると、癌状態を識別または発明複数の適格なメチル化パターンを識別するための方法をプロセッサに実行させるプログラムコード命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。ある実施形態では、プログラムコード命令は、コンピュータによって実行されるように構成される。いくつかの実施形態では、プログラムコード命令は、本明細書に開示された方法および実施形態のいずれか、および／または当業者に明らかなそれらの任意の組み合わせを実行するための命令を含む。

添付の特許請求の範囲の範囲内のシステム、方法及び装置の様々な実施形態は、それぞれいくつかの態様を有し、そのうちの単一の態様は、本明細書に記載される望ましい属性にのみ責任を負うものではない。添付の特許請求の範囲を限定することなく、いくつかの顕著な特徴が本明細書に記載される。この議論を考察した後、特に「詳細な説明」と題されたセクションを読んだ後に、様々な実施形態の特徴がどのように使用されるかを理解するであろう。

リファレンスによる企業
本明細書において言及されるすべての刊行物、特許、および特許出願は、個々の刊行物、特許、または特許出願のそれぞれが、参照により組み込まれることが具体的かつ個々に示されているのと同程度に、参照により本明細書に組み込まれる。
本明細書に開示される実施形態は、限定するものではなく、一例として、添付図面の図に示されている。同様の参照番号は、図面のいくつかの図の全体を通じて対応する部分を指す。

図１は、本開示のいくつかの実施形態による、コンピューティング装置を示す例示的なブロック図を示す。図２A、２B、２C、２D、２E、および２Fは、本開示のいくつかの実施形態による、破線のボックスが任意のステップを表す癌状態を識別または示すメチル化パターンを同定する方法の例のフローチャートをまとめて示す。図３は、本開示のいくつかの実施形態による、単一の実施例参加者についての特定のフラグメントメチル化パターンの程度に対する、フラグメントメチル化パターンの数（例えば、５つのCpG部位を含有するもの）を示すプロットを示す。図４は、本開示のいくつかの実施形態による、非癌cfDNA集合体altカウント（変形例カウント）＋１対非癌cfDNA集合体深さ＋２の機能として、複数のメチル化部位における騒音レベルの密度プロットを示す。図５は、本開示のいくつかの実施形態に従った、騒音レベルおよびメチル化された画分の機能としての、フラグメントの統計（例えば、変異体の数、総CpG部位、非癌アルト数中央値、非癌深さ中央値）を示すプロットを示す。図６は、本開示のいくつかの実施形態による、生検試料のQMP分率とcfDNA試料の変異対立遺伝子分率との間の相関を示すプロットを示す。図７は、本開示のいくつかの実施形態に従って配列決定するための核酸試料を調製するための方法のフローチャートを示す。図８は、本開示のいくつかの実施形態による、核酸フラグメントを得るためのプロセスのグラフ表示を示す。図９は、本開示のいくつかの実施形態に従って、試験対象における癌状態のスクリーニングを目的としてメチル化情報を得るための方法の例のフローチャートを示す。図１０A、１０B、１０C、１０D、および１０Eは、本開示のいくつかの実施形態に従って、統合ゲノムビューア（IGV）を使用して、非癌cfDNA試料、腫瘍生検試料、およびマッチしたcfDNA試料について、選択された間隔でCpG部位におけるメチル化状態の可視化を示す。図１１は、本開示のいくつかの実施形態に従って、メチル化（例えば、亜硫酸水素塩）配列決定を使用して計算されたメチル化腫瘍分率推定値と、cfDNAおよび腫瘍試料の標的化および全ゲノム配列決定を使用して計算された腫瘍分率推定値との比較を示す。図１２は、本開示のいくつかの実施形態による、間隔地図を生成するための例示的な方法を示す。図１３Aおよび１３Bは、本開示のいくつかの実施形態による、小さな変形に基づくアプローチ例を示す。図１４Aおよび１４Bは、小さな変異体の代わりに、選択されたメチル化パターン（実施例えば、適格なメチル化パターンまたはQMP）が、実施例えば、本開示に従って、小さな変異体の同定が亜硫酸水素塩転換などの因子によって損なわれた場合に、メチル化シーケンシングデータに基づいて腫瘍分率を推定するための基礎として使用されるWGBSの実施例を示す。図１５Aおよび１５Bは、小さな変異体の代わりに、選択されたメチル化パターン（例えば、適格なメチル化パターンまたはQMP）が、特に、小さな変異体の同定が、本開示に従って、亜硫酸水素変換などの因子によって損なわれる場合に、メチル化シーケンシングデータに基づいて腫瘍分率を推定するための基礎として使用されるTM配列決定例を示す。図１６は、本開示の一実施形態による、適合腫瘍生検に対する推定cfDNA腫瘍分率を示す。

ここで、添付の図面に例示されている実施形態を詳細に参照する。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の特定の詳細が記載されている。しかしながら、当業者には、本開示がこれらの特定詳細なしに実施され得ることが明らかであろう。他の例では、実施形態の態様を不必要に不明瞭にしないように、公知の方法、手順、成分、回路、およびネットワークは詳細に説明されていない。

本明細書に記載の実施は、癌状態を識別または示す適格なメチル化パターンを同定するための様々な技術的解決策を提供する。具体的には、第１のデータセットおよび第２のデータセットが（例えば、電子形式で）取得される。それぞれのデータセットは、それぞれの第１または第２の複数の断片中のそれぞれの断片に対する対応する断片メチル化パターンを含む。それぞれのフラグメントの対応するメチル化パターンは、対象のそれぞれの第１または第２のセットから得られた核酸のメチル化配列決定によって決定され、対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態を含む。それぞれの複数被験者は、それぞれの癌状態の第１または第２の状態を有する。第１の区間地図および第２の区間地図は、それぞれのデータセットごとに生成され、複数のノードは、開始メチル化部位、端部メチル化部位、それぞれの異なるフラグメントメチル化パターンの表現およびフラグメントのカウントを特徴とする。第１および第２の間隔地図は、所定のCpG部位数範囲の適格なフラグメントメチル化パターンについてスキャンされ、１つまたは複数の選択基準を満たし、それによって、癌状態を識別または示すフラグメントメチル化パターンを同定する。

定義
本明細書で使用されるように、「約」および「およそ」という用語は、当業者によって決定される特定の値に対する許容可能な誤差範囲内を意味し、これは、部分的には、値がどのように測定または決定されるか、例えば、測定システムの制限に依存する。例えば、いくつかの実施形態において、「約」は、当該技術分野における実施当たり、１以上の標準偏差内を意味する。いくつかの実施形態において、「約」は、所与の値の±２０％、±１０％、±５％、または±１％の範囲を意味する。いくつかの実施形態において、「約」または「およそ」という用語は、１桁以内、５倍以内、または２倍以内の値を意味する。特定の値が出願及び特許請求の範囲に記載されている場合、別段の記載がない限り、特定の値について許容可能な誤差範囲内での「約」の意味という用語を想定することができる。用語「約」は、当業者によって一般的に理解されるような意味を有することができる。いくつかの実施形態において、用語「約」は、±１０％を指す。いくつかの実施形態において、用語「約」は、±５％を指す。

本明細書で使用される用語「アッセイ」は、物質、例えば、核酸、タンパク質、電池、組織、または器官の特性を決定するための技術を指す。アッセイ（例えば、第１のアッセイまたは第２のアッセイ）は、試料中の核酸のコピー数変動、試料中の核酸のメチル化状況、試料中の核酸のフラグメントサイズ分布、試料中の核酸の突然変異状況、または試料中の核酸のフラグメンテーションパターンを決定するための技術を含むことができる。任意のアッセイを用いて、本明細書中に記載される核酸の特性のいずれかを検出することができる。核酸の特性は、配列、ゲノムアイデンティティ、コピー数、１つ以上のヌクレオチド位置でのメチル化状態、核酸のサイズ、１つ以上のヌクレオチド位置での核酸における突然変異の有無、および核酸の断片化のパターン（例えば、核酸断片が存在するヌクレオチド位置）を含むことができる。アッセイまたは方法は、特定の感度および／または特異性を有することができ、診断ツールとしてのそれらの相対的有用性は、ROC－AUC統計量を用いて測定することができる。

本明細書に開示されるように、「生物学的試料」という用語は、対象に関連する生物学的状態を反映することができ、無細胞DNAを含む、対象から採取された任意の試料を指す。生物学的試料の例としては、血液、全血、血漿、プラズマ、尿、脳脊髄液、糞便、唾液、汗、涙液、胸水、心嚢液、または対象の腹膜液が挙げられるが、これらに限定されない。生物学的試料は、生体または死体に由来する任意の組織または物質を含むことができる。生物学的試料は、無細胞試料であり得る。生物学的試料は、核酸（例えば、DNAまたはRNA）またはそのフラグメントを含むことができる。「核酸」という用語は、デオキシリボ核酸（DNA）、リボ核酸（RNA）またはその任意のハイブリッドもしくは断片を指すことができる。試料中の核酸は、無細胞核酸であり得る。試料は、液体試料または固体試料（例えば、細胞または組織試料）であり得る。生物学的試料は、血液、血漿、血清、尿、膣液、水瘤（例えば、精巣の）からの液、膣液、胸水、腹水液、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳頭からの排出液、体の異なる部分（例えば、甲状腺、乳房）からの吸引液などの体液であり得る。生物学的試料は、糞便試料とすることができる。様々な実施形態において、無細胞DNAについて濃縮された生物学的試料（例えば、遠心分離プロトコルを介して得られた血漿試料）中のDNAの大部分は、無細胞であり得る（例えば、DNAの５０％超、６０％、７０％、８０％、９０％、９５％、または９９％超は、無細胞であり得る）。生物学的試料は、組織または細胞構造（例えば、遠心分離および／または細胞溶解）を物理的に破壊するように処理することができ、したがって、分析のために試料を調製するために使用することができる酵素、緩衝液、塩、界面活性剤などをさらに含有することができる溶液中に細胞内成分を放出する。

本明細書に開示されるように、「核酸」および「核酸分子」という用語は、互換的に使用される。用語は、デオキシリボ核酸（DNA、例えば相補的DNA (cDNA)、ゲノムDNA (gDNA)など）、リボ核酸（RNA、例えば、メッセージRNA (mRNA)、短い阻害性RNA (siRNA)、リボソームRNA (rRNA)、トランスファーRNA (tRNA)、胎児または胎盤によって高度に発現されるマイクロRNAなど）、および／またはDNAもしくはRNA類似体（例えば、塩基類似体、糖類似体および／または非天然骨格などを含有する）、RNA／DNAハイブリッドおよびポリアミド核酸（PNA）などの任意の組成形態の核酸を指し、これらはすべて一本鎖または二本鎖形態であり得る。特に限定されない限り、核酸は、天然ヌクレオチドの公知のアナログを含むことができ、そのいくつかは、天然に存在するヌクレオチドと同様の様式で機能することができる。核酸は、本明細書中のプロセス（例えば、直鎖状、円形、超らせん状、一本鎖状、二本鎖状など）を伝導するのに有用な任意の形態であり得る。いくつかの実施形態における核酸は、単一の染色体またはその断片からのものであり得る（例えば、核酸試料は、二倍体生物から得られた試料の１つの染色体からのものであり得る）。特定の実施形態では、核酸は、ヌクレオソーム、ヌクレオソームフラグメントまたはヌクレオソーム様構造の一部を含む。核酸は、時にタンパク質（例えば、ヒストン、DNA結合タンパク質など）を含む。本明細書に記載されるプロセスによって分析される核酸は、ときに、実質的に単離され、タンパク質または他の分子と実質的に会合しない。核酸はまた、一本鎖（「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム）および二本鎖ポリヌクレオチドから合成、複製または増幅されたRNAまたはDNAの誘導体、変異体およびアナログを含む。デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、およびデオキシチミジンが含まれる。RNAの場合、塩基のシトシンはウラシルに置き換えられ、糖の２′位にはヒドロキシル部分が含まれる。核酸は、鋳型として被験体から得られた核酸を用いて調製することができる。

本明細書に開示されるように、用語「無細胞核酸」、「無細胞DNA」、および「cfDNA」は、交換可能に、対象の体内（例えば、血流などの体液内）を循環し、１つ以上の健康な細胞および／または１つ以上の癌細胞から上記核酸断片を指す。cfDNAは、被験体の血液、全血、血漿、プラズマ、尿、脳脊髄液、糞便、唾液、汗、汗、涙液、胸水、心嚢液、または腹膜液などの体液から回収することができる。無細胞核酸は循環核酸と互換的に使用される。無細胞核酸の実施例としては、RNA、ミトコンドリアDNA、またはゲノムDNAが挙げられるが、これらに限定されない。

本明細書に開示されるように、用語「循環腫瘍DNA」または「ctDNA」は、死にかけている細胞のアポトーシスまたは壊死などの生物学的プロセスの結果として被験体の血流に放出され得る、または生存腫瘍細胞によって能動的に放出され得る、腫瘍または他のタイプの癌の細胞などの異常組織に由来する核酸断片を指す。

本明細書に開示されるように、用語「参照ゲノム」は、対象からの同定された配列を参照するために使用され得る任意の生物またはウイルスの、部分的であるか完全であるかを問わず、任意の特定の既知の、配列決定された、または特徴付けられたゲノムを指す。ヒト対象および多くの他の生物に使用される例示的参照ゲノムは、National Center for Biotechnology Information (「NCBI」）またはUniversity of California、Santa Cruz (UCSC)が主催するオンラインゲノムブラウザに提供される。「ゲノム」とは、核酸配列において発現される、生物またはウイルスの完全な遺伝情報を意味する。本明細書で使用される場合、参照配列または参照ゲノムは、しばしば、個体または複数個体由来の組み立てられたまたは部分的に組み立てられたゲノム配列である。いくつかの実施形態において、参照ゲノムは、１つまたは複数のヒト個体由来の組み立てられたまたは部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子セットの代表的な例とみなすことができる。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒト参照ゲノムとしては、NCBI構築物３４（UCSC等価物: hg１６）、NCBI構築物３５（UCSC等価物: hg１７）、NCBI構築物３６．１（UCSC等価物: hg１８）、GRCh３７（UCSC等価物: hg１９）、およびGRCh３８（UCSC等価物: hg３８）が挙げられるが、これらに限定されない。
本明細書に開示されるように、用語「参照ゲノムの領域」、「ゲノム領域」、または「染色体領域」は、参照ゲノムの任意の部分、隣接または非隣接を指す。これは、例えば、ビン、パーティション、ゲノム部分、参照ゲノムの一部、染色体の一部などと呼ぶこともできる。いくつかの実施形態において、ゲノム部は、ゲノム配列の特定の長さに基づく。いくつかの実施形態において、方法は、複数のゲノム領域への複数のマッピングされた配列読み取りの分析を含むことができる。ゲノム領域はほぼ同じ長さであってもよいし、ゲノム部は異なる長さであってもよい。いくつかの実施形態において、ゲノム領域は、約等しい長さである。いくつかの実施形態において、異なる長さのゲノム領域は、調整または加重される。いくつかの実施形態において、ゲノム領域は、約１０キロベース（kb）～約５００kb、約２０kb～約４００kb、約３０kb～約３００kb、約４０kb～約２００kb、およびときに約５０kb～約１００kbである。いくつかの実施形態において、ゲノム領域は、約１００kb～約２００kbである。ゲノム領域は、連続した配列の走行に限定されない。したがって、ゲノム領域は、隣接配列および／または非隣接配列から構成することができる。ゲノム領域は単一の染色体に限定されない。いくつかの実施形態において、ゲノム領域は、１つの染色体の全部または一部、または２つ以上の染色体の全部または一部を含む。いくつかの態様において、ゲノム領域は、１、２、またはそれ以上の染色体全体に及ぶことができる。さらに、ゲノム領域は、複数の染色体の継手部分または分離部分に及ぶことがある。

本明細書で使用される「フラグメント」および「核酸フラグメント」という用語は、本明細書では交換可能に使用され、少なくとも３つの連続するヌクレオチドのポリヌクレオチド配列のすべてまたは一部を指す。生物学的試料中に見出される核酸断片の配列決定の文脈において、用語「断片」は、生物学的試料中に見出される核酸分子（例えば、DNAフラグメント）またはその表現（例えば、配列の電子的表現）を指す。ユニークなフラグメント（例えば、無細胞核酸）からのシーケンシングデータ（例えば、全ゲノム配列決定、標的化配列決定などからの原料または修正された配列読み取り）は、フラグメントの核酸フラグメント配列および／またはメチル化パターンを決定するために使用される。このような配列読み取りは、実際には、元のフラグメントのPCR複製の配列決定から得ることができ、したがって、フラグメント配列を「表す」または「支持する」ことができる。生物学的試料中の特定の断片（例えば、PCR複製物）をそれぞれ表すか、または支持する複数の配列読み取りがあり得るが、特定の断片について、１つの断片配列、および１つの断片メチル化パターンがあり得る。いくつかの実施形態において、元の断片について生成された重複配列読取り値は、組み合わされるか、または除去される（例えば、単一配列、例えば、核酸断片配列に折りたたまれる）。したがって、各々が特定の遺伝子座を包含する試料中のフラグメントの集団に関する測定基準（例えば、遺伝子座の存在量値、またはフラグメント長さの分布の特性に基づく測定基準）を決定する場合、支持配列読み取り（例えば、集団中の核酸フラグメントのPCR複製から生成され得る）ではなく、フラグメントの集団に関する核酸フラグメント配列を使用して、測定基準を決定することができる。なぜなら、上記実施形態では、配列の１つのコピーが、元の（例えば、固有の）フラグメント（例えば、固有の核酸分子）を表すために使用されるからである。フラグメントの集団のためのフラグメントは、同一または異なるフラグメントメチル化パターンを有するいくつかの同一の配列を含むことができ、それらの各々は、同一の元のフラグメントの複製ではなく、異なる元のフラグメントを表すことに留意されたい。いくつかの実施形態において、無細胞核酸は、フラグメントとみなされる。

本明細書で互換的に使用される「配列読取り」または「読取り」という用語は、本明細書に記載されるか、または当技術分野で公知の任意の配列決定プロセスによって生成されるヌクレオチド配列を指す。読み取りは、核酸断片の一方の末端から生成され得（「シングルエンド読み取り」）、時には、核酸の両端から生成される（例えば、ペアエンド読み取り、ダブルエンド読み取り）。いくつかの実施形態において、配列読み取り（例えば、単端部または対端部読み取り）は、標的化核酸フラグメントの一方または両方の鎖から生成され得る。読み取られた配列の長さは、しばしば、特定の配列決定技術と関連している。例えば、ハイスループット法は、数十から数百塩基対（bp）の大きさで変化し得る配列読み取りを提供する。いくつかの実施形態では、配列リードは、約１５bp～９００bpの長さのメジアン、中央またはメジアン（例えば、約２０bp、約２５bp、約３０bp、約３５bp、約４０bp、約４５bp、約５０bp、約５５bp、約６０bp、約６５bp、約７０bp、約７５bp、約８０bp、約８５bp、約９０bp、約９５bp、約１００bp、約１１０bp、約１２０bp、約１３０、約１４０bp、約１５０bp、約２００bp、約２５０bp、約３００bp、約３５０bp、約４００bp、約４５０bp、または約５００bpの長さである。いくつかの実施形態において、配列読み取りは、約１０００bp、２０００bp、５０００bp、１０，０００bp、または５０，０００bp以上の平均、中央値または平均長である。例えば、ナノポア配列決定は、数十～数百～数千塩基対の大きさで変化し得る配列読み取りを提供することができる。Illumina 平行なシーケンシングは、あまり変化しないシークエンス読み取りを提供することができる。例えば、シークエンス読み取りのほとんどは２００bp より小さくすることができる。配列読み取り（または配列決定読み取り）は、核酸分子（例えば、ヌクレオチドの文字列）に対応する配列情報を指すことができる。例えば、読み取られる配列は、核酸断片の一部からのヌクレオチドの文字列（例えば、約２０～約１５０）に対応することができ、核酸断片の一方または両端のヌクレオチドの文字列に対応することができ、または核酸断片全体のヌクレオチドに対応することができる。配列の読み取りは、例えば、配列決定技術を使用するか、または、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブにおけるプローブを使用するか、またはポリメラーゼ連鎖反応（PCR）のような増幅技術、または単一のプライマーもしくは等温増幅を使用する線形増幅技術を使用するなど、様々な方法で得ることができる。

本明細書に開示されるように、本明細書で使用される用語「配列決定」、「配列決定」などは、一般に、核酸またはタンパク質などの生物学的高分子の順序を決定するために使用され得る任意のおよびすべての生化学的プロセスを指す。例えば、シーケンシングデータは、DNAフラグメントのような核酸分子中のヌクレオチド塩基の全部または一部を含むことができる。

「配列決定深さ」、「カバレッジ」および「カバレッジ率」という用語は、遺伝子座に整列された固有の核酸標的分子（「核酸フラグメント」）に対応するコンセンサス配列読取りにより遺伝子座がカバーされる回数を指すために本明細書では互換的に使用され、例えば、配列決定深さは、遺伝子座をカバーする固有の核酸標的フラグメント（PCR配列決定複製を除く）の数に等しい。遺伝子座はヌクレオチドと同じくらい小さいものもあれば、染色体腕と同じくらい大きいものもあり、ゲノム全体と同じくらい大きいものもある。頻度は、「YX」として表すことができる。例えば、５０X、１００X等である。ここで、「Y」は、核酸標的に対応する順序で座位がカバーされる回数、例えば、特定の座位をカバーする独立した配列情報入手される回数をいう。いくつかの実施形態において、配列決定の深さは、配列決定されたゲノムの数に対応する。シークエンシングの深さは、複数の遺伝子座、または全ゲノムにも適用することができ、この場合、Yは、それぞれ、遺伝子座または単数体ゲノム、または全ゲノムがシークエンスされる平均または平均回数を参照することができる。平均深度が引用符で囲まれている場合、データセットに含まれる異なる軌跡の実際の深度は、値域にわたることがある。超深層シークエンシングは、軌跡上のシークエンシング深さの少なくとも１００倍に言及することができる。

本明細書に開示されるように、用語「一塩基変形例」または「SNV」は、核酸配列の位置（例えば、部位）における１つのヌクレオチドの異なるヌクレオチドへの置換、例えば、個体から読み取られた配列を指す。第１の核酸塩基Xから第２の核酸塩基Yへの置換は、「X＞Y」と表記することができ、例えば、シトシンからチミンSNVへの置換は、「C＞T」と表記することができる

本明細書で使用されるように、用語「メチル化」は、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、５－メチルシトシンを形成するデオキシリボ核酸（DNA）の修飾を指す。特に、メチル化は、本明細書では「CpG部位」と呼ばれるシトシンおよびグアニンのジヌクレオチドで起こる傾向がある。他の例では、メチル化はCpG部位の一部ではなくシトシン、あるいはシトシンではない別のヌクレオチドで起こることがあるが、これらはまれにしか起こらない。本開示において、メチル化は、明瞭さのためにCpG部位に関して論じられる。異常なcfDNAメチル化は、高メチル化または低メチル化として同定することができ、どちらも癌の状態を示す可能性がある。当技術分野で周知のように、DNAメチル化異常（健康な対照と比較して）は、異なる効果を引き起こす可能性があり、これは癌に寄与する可能性がある。

異常にメチル化されたcfDNAフラグメントの同定には様々な課題がある。まず、被験体のcfDNAが異常にメチル化されていると決定することは、制御被験体群と比較して重量を保持するだけであり、その結果、制御群の数が少なければ、その決定は、小制御群との信頼性を失う。さらに、対照被験体群の中で、被験体のcfDNAが異常にメチル化されていると決定する場合に説明することが困難であり得るメチル化状態が変化し得る。別の注目すべき点として、CpG部位におけるシトシンのメチル化は、それに続くCpG部位におけるメチル化に因果的に影響を及ぼす。

本明細書に記載の原理は、非シトシンメチル化を含む非CpG文脈におけるメチル化の検出にも同様に適用可能である。さらに、メチル化状態ベクトルは、一般に、メチル化が起こっているかまたは起こっていない部位のベクトルであるエレメントを含有してもよい（これらの部位が特異的にCpG部位でなくても）。その置換により、本明細書に記載されるプロセスの残りの部分は同じであり、したがって、本明細書に記載される本発明の概念は、メチル化のそれらの他の形態にも適用可能である。

本明細書で使用されるように、用語「メチル化プロフィール」（メチル化状態とも呼ばれる）は、領域に対するDNAメチル化に関連する情報を含むことができる。DNAメチル化に関連する情報には、CpG部位のメチル化インデックス、領域内のCpG部位のメチル化密度、隣接領域上のCpG部位の分布、複数のCpG部位を含む領域内の個々のCpG部位に対するメチル化のパターンまたはレベル、および非CpGメチル化が含まれ得る。ゲノムのかなりの部分のメチル化プロフィールは、メチルオームと同等であると考えることができる。哺乳動物ゲノム中の「DNAメチル化」は、CpGジヌクレオチド中のシトシンの複素環環の５位へのメチル基の付加（例えば、５－メチルシトシンを生成するため）を指すことができる。シトシンのメチル化は、他の配列コンテキスト、例えば５´－CHG－３´および５´－CHH－３´においてシトシン中で起こることができ、ここでHはアデニン、シトシンまたはチミンである。シトシンメチル化は５－ヒドロキシメチルシトシンの形成でもよい。DNAのメチル化は、N６－メチルアデニンのような非シトシンヌクレオチドのメチル化を含むことができる。

本明細書で使用される場合、「メチルオーム」は、ゲノム中の複数の部位または遺伝子座におけるDNAメチル化の量の測定値であり得る。メチロームは、ゲノムのすべて、ゲノムのかなりの部分、あるいはゲノムの比較的小さな部分に対応することができる。「腫瘍メチローム」は、被験者（例えば、ヒト）の腫瘍のメチロームであり得る。腫瘍メチロームは、腫瘍組織または血漿中の無細胞腫瘍DNAを用いて決定することができる。腫瘍メチロームは、関心のあるメチロームの一例であり得る。目的のメチロームは、核酸、例えばDNAを体液（例えば、脳細胞、骨、肺、心臓、筋肉、腎臓などのメチローム）に寄与し得る臓器のメチロームであり得る。臓器は移植された臓器であり得る。

本明細書中で使用されるように、各ゲノム部位（例えば、CpG部位、シトシンヌクレオチドがその後に５´→ ３´方向に沿った塩基の直鎖配列中のグアニンヌクレオチドが続くDNAの領域）についての「メチル化指数」という語は、その部位をカバーする全読み取り回数にわたってその部位でメチル化を示す配列読み取りの割合を指すことができる。領域の「メチル化密度」は、メチル化を示す領域内の部位における読み取りの数を、その領域内の部位をカバーする読み取りの総数で割ったものであり得る。部位は特異的な特徴を有することができる（例えば、部位はCpG部位であり得る）。領域の「CpGメチル化密度」は、CpGメチル化を示す読み取りの数を、領域内のCpG部位（例えば、特定のCpG部位、CpGアイランド内のCpG部位、またはより大きな領域）をカバーする読み取りの総数で割ったものであり得る。例えば、ヒトゲノム中の各１００kbのbinに対するメチル化密度は、１００－kb領域にマップされた配列リードによってカバーされる全CpG部位の割合として、CpG部位における未変換シトシン（メチル化シトシンに対応できる）の総数から決定することができる。いくつかの実施形態において、この分析は、他のビンサイズ、例えば、５０kbまたは１Mbなどについて実施される。いくつかの態様において、領域は、ゲノム全体、または染色体もしくは染色体の一部（例えば、染色体腕）である。CpG部位のメチル化指数は、そのCpG部位のみを含む領域のメチル化密度と同じである。「メチル化シトシンの割合」は、分析されたシトシン残基の総数にわたってメチル化される（例えば、亜硫酸水素換算後に変換されない）ことが示されている、シトシン部位の数、「C」を意味し得る（例えば、CpGコンテクストの外側のシトシンを含む）。メチル化インデックス、メチル化密度およびメチル化シトシンの割合は、「メチル化レベル」の実施例である。

本明細書で使用される場合、「プラズマメチルオーム」は、動物（例えば、ヒト）のプラズマまたは血清から決定されるメチルオームであり得る。形質と血清は無細胞DNAを含むことができるので、血漿メチロームは無細胞メチロームの一例である。プラズマメチロームは、腫瘍／患者のメチロームの混合物であり得るので、混合メチロームの一例であり得る。「セルラメチローム」は、被験体、例えば患者の細胞（例えば、血液細胞または腫瘍細胞）から決定されるメチロームであり得る。血液細胞のメチロームは、血液細胞のメチローム（または血液のメチローム）と呼ばれる。

本明細書で使用される場合、用語「相対的存在量」は、特定の特性（例えば、特定の長さ、１つ以上の特定の座標／終了位置で終了する、ゲノムの特定の領域に整列する、または特定のメチル化状態を有する）を有する核酸断片の第１の量と、特定の特性（例えば、特定の長さ、１つ以上の特定の座標／終了位置で終了する、またはゲノムの特定の領域に整列する）を有する核酸断片の第２の量との比を指すことができる。一例において、相対的存在量は、ゲノム位置の第１のセットで終わるDNAフラグメント数と、ゲノム位置の第２のセットで終わるDNAフラグメント数との比を意味することができる。いくつかの局面において、「相対的存在量」は、ゲノム位置の１つの窓内で終わる無細胞DNA分子の量（１つの値）と、ゲノム位置の別の窓内で終わる無細胞DNA分子の量（他の値）とを関連付ける分離値の一種であり得る。２つの窓はオーバーラップできるが、サイズは異なる。他の実施形態では、２つの窓はオーバーラップできない。さらに、いくつかの実施形態において、窓は、１つのヌクレオチドの幅であり、したがって、１つのゲノム位置と等価である。

本明細書で使用される用語「メチル化パターン」は、１つ以上のCpG部位に対するメチル化状態の配列を指す。メチル化状態としては、メチル化（例えば、「M」として表される）および非メチル化（例えば、「U」として表される）が挙げられるが、これらに限定されない。例えば、５つのCpG部位に及ぶメチル化パターンは、「MMMMM」または「UUUU」として表され得、ここで、各個別の記号は、単一のCpG部位におけるメチル化状態を表す。メチル化パターンは、参照ゲノム中の特定のゲノム位置および／または特定の１つもしくは複数のCpG部位に対応していてもよく、対応していなくてもよい。

本明細書で使用される場合、用語「フラグメントメチル化パターン」は、フラグメント（例えば、核酸試料の）またはフラグメントの一部のメチル化パターンを指す。開示において、用語「フラグメントメチル化パターン」は、特に断らない限り、用語「FMP」と交換可能に使用される。フラグメントメチル化パターンは、それぞれの核酸試料のメチル化配列決定により得ることができる。いくつかの実施形態において、核酸試料から得られた１つまたは複数のフラグメントは、それぞれのフラグメントメチル化パターンが１つまたは複数のCpG部位（例えば、CpG部位のスパンまたは間隔）を含むように、参照ゲノムに整列され、ここで、それぞれのCpG部位はそれぞれのメチル化状態を含み、参照ゲノム中の特定部位にインデックスされる。したがって、それぞれのフラグメントメチル化パターンにおける１つ以上のCpG部位は、参照ゲノムにおける特定の位置に対応し、フラグメントメチル化パターンは、参照ゲノムにおける特定の位置に対応する１つ以上のCpG部位に対するメチル化状態の配列を指す。いくつかの実施形態において、複数の断片中の各断片は、対応する断片メチル化パターンを有する。フラグメントメチル化パターンは、メチル化状態の配列の表現（例えば、「MMMMM」または「UUUU」）によって表すことができる。いくつかの実施形態において、それぞれの複数のフラグメントに対する複数のフラグメントメチル化パターンは、それぞれの複数のフラグメントに対する複数のフラグメントメチル化パターンにおける各フラグメントメチル化パターン（例えば、ノード）の表現を含む間隔地図によって表される。

本明細書で使用される場合、用語「問い合わせメチル化パターン」は、所定のCpG部位数範囲にあるメチル化状態の配列を指す。問い合わせメチル化パターンは、メチル化パターンの表現（例えば、間隔地図によって表される複数のフラグメントメチル化パターン）を問い合わせするために使用されるメチル化状態の配列（例えば、「MMMMM」または「UUUU」）の表現であり得る。いくつかの実施形態において、問い合わせメチル化パターンは、参照ゲノム中のそれぞれの１つまたは複数の特定部位にインデックス付けされた１つまたは複数のCpG部位（例えば、CpG部位のスパンまたは間隔）に対応する。いくつかの実施形態において、問い合わせメチル化パターンは、参照ゲノム内の特定のCpG部位または特定の位置のいずれにも対応しない（例えば、問い合わせメチル化パターンは、ゲノム領域および／または参照ゲノム内のすべての位置にわたって問い合わせされるメチル化状態の配列の表現である）。いくつかの例では、所定のCpGサイト数範囲は、ユーザ定義である（例えば、範囲５のCpGサイトから２０のCpGサイト）。いくつかの例では、所定のCpG部位数の範囲は単一の数であり、このような例では、問い合わせメチル化パターンは固定されたCpG数の長さ（例えば、５つのCpG部位）であることを意味する。いくつかの実施形態において、フラグメントメチル化パターン／FMPまたはその一部を問い合わせメチル化パターンとして使用することができる。いくつかの実施形態では、以前に生成された問い合わせライブラリーからの問い合わせメチル化パターンを使用することができる。いくつかの実施形態では、特定の種類の癌などの特定の疾患状態について、１つまたは複数の問い合わせライブラリを生成することができる。

本明細書中で使用される用語「適格なメチル化パターン」は、所定のCpG部位数範囲にあり、１つ以上の選択基準を満たすメチル化パターンを指す。開示において、用語「適格なメチル化パターン」は、特に明記しない限り、用語「QMP」と交換可能に使用される。いくつかの態様において、適格なメチル化パターンは、参照ゲノム中のそれぞれの１つまたは複数の特定部位にインデックス付けされた１つまたは複数のCpG部位（例えば、CpG部位のスパンまたは間隔）に対応する。例えば、適格性メチル化パターンが、参照ゲノムに整列された複数のフラグメント中のそれぞれの１つ以上のフラグメントにおいて同定される場合、適格性メチル化パターンは、１つ以上のCpG部位を含み、ここで、それぞれのCpG部位は、それぞれのメチル化状態を含み、参照ゲノム中の特定部位にインデックス付けされる。したがって、いくつかのそのような態様において、適格なメチル化パターンは、１つ以上の選択基準を満たす参照ゲノム中の特定の位置におけるメチル化状態の特定の配列を指す。適格なメチル化パターン（例えば、「MMMMM」または「UUUU」などの適格なメチル化パターンのためのメチル化状態のそれぞれの配列の表現）は、参照ゲノムに整列された複数のフラグメント中のそれぞれの１つまたは複数のフラグメントにおいて同定され得、ここで、複数のフラグメントに対するそれぞれのフラグメントメチル化パターンは、間隔地図によって表され、クエリーメチル化パターンを間隔地図中の各ノード中の各フラグメントメチル化パターンの表現にマッチングし、マッチしたメチル化パターンが１つまたは複数の選択基準を満たすかどうかを決定することによって、同定され得る。いくつかの実施形態において、適格性メチル化パターンは、参照ゲノム中の特定のCpG部位または特定の位置のいずれにも対応しない（例えば、適格性メチル化中の１つまたは複数のCpG部位のゲノム位置が不明である場合、および／または適格性メチル化パターン中のメチル化状態の配列が参照ゲノム全体にわたって複数の位置で生じる場合）。

本明細書に開示されるように、用語「対象」は、ヒト（例えば、男性、女性、ヒト、胎児、妊娠女性、子供など）、非ヒト動物、植物、細菌、真菌または原生生物を含むが、これらに限定されない、任意の生きたまたは非生きた生物を指す。ヒトまたはヒト以外の動物は、哺乳動物、絨毛、鳥類、両生類、魚類、有蹄動物、反芻動物、ウシ（例、ウマ）、ヤギおよびヒツジ（例、ヒツジ、ヤギ）、ブタ（例、ブタ）、ラクダ（例、ラクダ、ラマ、アルパカ）、サル、アペ（例、ゴリラ、チンパンジー）、ウルシド（例、クマ）、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラ、およびサメを含むが、これらに限定されない。「対象」および「患者」という用語は、本明細書において互換的に使用され、例えば癌などの医学的状態または疾患を有することが知られているか、または潜在的に有するヒトまたは非ヒト動物を指す。いくつかの実施形態において、対象は、任意の段階（例えば、男性、女性または子供）の男性または女性である。

試料が採取されるか、または本明細書に記載される方法もしくは組成物のいずれかによって治療される被験体は、任意の年齢であり得、成人、乳児または小児であり得る。場合によっては、患者は、０、１、２、５、６、７、１２、１３、１４、１８、２３、２５、２６、２７、２８、３１、３０、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４５、４６、４７、４８、５０、５１、５２、５５、５６、５７、５９、６０、６２、６３、６４、６７、６８、６９、７０、７１、７２、７３、７５、７６、７８、７８、７８、８０、８２、８３、８５、８８、８９、９０、９１、９５、９６、９８、または９９歳であるまたはその中の範囲内（例えば、約２～約２０歳、約２０～約４０歳、または約４０～約９０歳）。特定のクラスの対象、例えば、本開示の方法から利益を得ることができる患者は、対象、例えば４０歳を超える患者である。

別の特定のクラスの被験体、例えば、本開示の方法から利益を得ることができる患者は、慢性心臓症状のより高いリスクを有し得る小児患者である。さらに、被験体、例えば、試料が採取されるか、または本明細書に記載の方法もしくは組成物のいずれかによって治療される患者は、男性であっても女性であってもよい。

用語「正規化」は、本明細書で使用される場合、比較目的のために、値または値のセットを共通の基準フレームに変換することを意味する。例えば、診断用ctDNAレベルが基準ctDNAレベルで「標準化」される場合、診断用ctDNAレベルは基準ctDNAレベルと比較され、その結果、診断用ctDNAレベルが基準ctDNAレベルと異なる量を決定することができる。

本明細書で使用される「癌」または「腫瘍」という用語は、腫瘤の成長が正常組織の成長と協調していない、超過した組織の異常な質量を指す。癌または腫瘍は、形態および機能性、成長速度、局所浸潤および転移を含む細胞分化の程度に応じて、「良性」または「悪性」と定義され得る。「良性」腫瘍は高分化型であり、悪性腫瘍よりも成長が遅く、原発部位に限局したままであるのが特徴的である。さらに、場合によっては、良性腫瘍には遠隔部位への浸潤、浸潤または転移する能力がない。「悪性」腫瘍は、低分化（退形成）であり得、特徴的に、周辺組織の進行性浸潤、浸潤、および破壊を伴う急速な成長を有する。さらに、悪性腫瘍は、遠隔部位に転移する能力を有し得る。

本明細書で使用される用語「癌状態」は、癌に関する試料の状態を意味し、ここで、該状態のそれぞれの電位特性および／または尺度は、癌状態の「状態」を意味する。例えば、試料は、「癌」または「非癌」である癌状態を有することができ、さらに、癌状態は、癌状態に影響を及ぼすことが知られている特定の突然変異の有無、喫煙／非喫煙、年齢、性別、および／または造血状態などの、癌の予後に影響を及ぼす状態であることができる。あるいは、癌状態は、健康な乳房、肺、前立腺、結腸直腸、腎、子宮、膵臓、食道、リンパ、頭頸部、卵巣、肝臓、子宮頸部、表皮、甲状腺、膀胱、胃、またはそれらの組み合わせ、または乳癌、肺がん、前立腺癌、結腸直腸癌、腎臓癌、子宮癌、膵臓癌、食道の癌、リンパ腫、頭頸部癌、卵巣癌、肝胆道癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱がん、胃癌、またはそれらの組み合わせのような原発部位または原発組織であり得る。癌状態は、副腎皮質癌、小児副腎皮質癌の腫瘍、カポジ肉腫、肛門癌に関連する腫瘍、星状細胞腫、小児（脳）腫瘍、非定型奇形腫様／ラブドイド腫瘍、中枢神経系（脳癌）腫瘍、皮膚の基底細胞癌、膀胱癌腫瘍、小児膀胱癌腫瘍、骨癌（例えば、ユーイング肉腫および悪性線維性組織球腫）組織、脳腫瘍、小児乳癌組織、気管支腫瘍、バーキットリンパ腫組織、カルチノイド腫瘍、原発不明癌原発不明の小児がん、小児心臓腫瘍、中枢神経系腫瘍（例、小児非定型奇形腫様／ラブドイド）腫瘍、小児胚細胞腫瘍、子宮頸癌組織、胆管癌組織、慢性骨髄増殖性腫瘍、小児大腸癌腫瘍、小児頭蓋咽頭腫組織、非浸潤性乳管癌（DCIS）、小児胎児性腫瘍（子宮体癌）組織、小児食道癌組織、感覚神経芽腫（頭頸部癌）組織、小児頭蓋外胚細胞腫瘍、眼球癌組織、網膜芽細胞腫、卵管癌組織、胃（胃）癌組織小児胃（胃）がん組織、消化管間質腫瘍（GIST）、小児消化管間質腫瘍、胚細胞腫瘍（小児中枢神経系胚細胞腫瘍、小児頭蓋外胚細胞腫瘍、性腺外胚細胞など）小児心臓腫瘍、肝細胞腫瘍（HCC）組織、膵神経内分泌腫瘍、肝臓または腎細胞癌（RCC）組織、喉頭癌組織、肝臓癌組織、肺癌（非小細胞および小細胞）組織、小児肺癌組織、骨および骨肉腫の悪性線維性組織球腫、黒色腫、小児眼内黒色腫、メルケル細胞癌、悪性中皮腫、転移性癌組織、原発不明の転移性扁平上皮性頸部癌、NUT遺伝子変化を伴う正中線路癌（頭頸部癌）組織、多発性内分泌腫瘍症候群多発性骨髄腫／形質細胞腫瘍、骨髄異形成／骨髄増殖性腫瘍、慢性骨髄増殖性腫瘍、鼻腔および副鼻腔がん組織、鼻咽頭がん（NPC）組織、神経芽細胞腫口腔がん組織、口腔がん組織、口腔がんおよび口腔がん組織、骨肉腫および悪性線維性組織球腫、卵巣がん組織、小児膵がん組織、乳頭腫（小児喉頭）組織、傍神経節腫組織、副鼻腔および鼻腔がん組織、陰茎がん組織、咽頭がん組織、褐色細胞腫組織、下垂体腫瘍、形質細胞腫瘍／多発性骨髄腫、原発性中枢神経系（CNS）リンパ腫、原発性腹膜がん組織、直腸がん組織、網膜芽細胞腫、小児横紋筋肉腫、唾液腺がん組織肉腫（小児血管腫瘍、骨肉腫、子宮肉腫など）、皮膚がん組織、小児肺がん組織、小腸がん組織、皮膚扁平上皮がん、原発不明の扁平上皮性頸部がん、皮膚t細胞リンパ腫、精巣腫瘍組織、小児精巣腫瘍組織、咽頭がん（例えば、上咽頭がん、中咽頭がん、下咽頭がん）組織、胸腺腫または胸腺がん、甲状腺がん組織、腎盂および尿管組織の移行上皮がん、原発不明がん組織、尿管または腎盂組織、移行上皮がん（腎（腎細胞）がん組織、尿道がん組織、子宮内膜がん組織、子宮肉腫組織、膣がん組織、小児膣がん組織、血管腫瘍、外陰がん組織、ウィルムス腫瘍またはその他の小児腎腫瘍。がんの状態とは、乳がんの病期、肺がんの病期、前立腺がんの病期、大腸がんの病期、腎がんの病期、子宮がんの病期、膵がんの病期、食道がんの病期、リンパ腫の病期、頭頸部がんの病期、卵巣がんの病期、肝胆道がんの病期、黒色腫の病期、子宮頸がんの病期、多発性骨髄腫の病期、白血病の病期、甲状腺がんの病期、膀胱がんの病期、胃がんの病期のことができる。１人の被験者から複数のサンプルを採取すると、異なるがんの状態または同じがんの状態になることがある。複数の被験者が異なるがんの病態または同じがんの病態を有する可能性がある。

「癌負荷」、「腫瘍負荷」、「癌負荷」、「腫瘍負荷」、「腫瘍負荷」、または「腫瘍分率」という用語は、本明細書において、腫瘍由来の試験試料中の核酸の分率を指すために、交換可能に使用される。例えば、無細胞核酸の場合、「腫瘍画分」は、腫瘍由来の無細胞核酸の画分を指すことができる。したがって、「癌負荷」、「腫瘍負荷」、「癌負荷」、「腫瘍負荷」、および「腫瘍分率」という用語は、生物学的試料中の細胞源分率の非限定的な例である。

本明細書で使用される用語「組織」は、機能単位として一緒にグループ化する細胞のグループに対応する。１つの組織に複数の種類の細胞が認められる。異なる種類の組織は、異なる種類の細胞（例えば、肝細胞、肺胞細胞または血液細胞）からなることがあるが、異なる生物由来の組織（母体対胎児）または健康な細胞対腫瘍細胞に対応することもできる。用語「組織」は、一般的に、人体に見出される任意の細胞群（例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、口腔咽頭組織）を指すことができる。いくつかの局面において、用語「組織」または「組織型」は、無細胞核酸が由来する組織を指すために使用することができる。一例において、ウイルス核酸フラグメントは、血液組織から誘導され得る。別の実施例では、ウイルス核酸フラグメントは、腫瘍組織から誘導され得る。

本明細書で使用されるように、用語「非拘束分級」は、標的データセット上で訓練されていない分級を指す。したがって、いくつかの実施形態では、「分類器を訓練する」とは、非訓練分類器を訓練するプロセスを指す。例えば、メチル化状態ベクトルの第１の正準集合および後述するメチル化状態ベクトルの第２の正準集合の場合を考える。メチル化状態ベクトルのそれぞれの正準集合は、メチル化状態ベクトルの第１の正準集合（以下「一次訓練データセット」という）によって表されるそれぞれの参照対象の細胞源と共に、未訓練分級への集合的入力として適用され、それによって、訓練された分級が得られる。さらに、用語「非訓練分級」は、伝達学習技術が非訓練分級のそのような訓練において使用される可能性を除外しないことが理解されるであろう。例えば、Fernandes et al.、２０１７、"Transfer Learning with Partial Observability Applied to Cervical Cancer Screening"、Pattern Recognition and Image Analysis: ８ ^th Iberian Conference Proceedings、２４３－２５０（参照により本明細書に組み込まれる）は、上記トランス転送学習が使用される場合には、上述の非拘束分級は、一次訓練データセットのデータを越えて、かつ、それを越えて、追加のデータを提供される。すなわち、伝達学習実施形態の非限定的な例では、非訓練分級は、（i）メチル化状態ベクトルの正準集合、およびメチル化状態ベクトルの正準集合（「一次訓練データセット」）によって表される参照被験者の各々の細胞源標識、および（ii）追加データを受け取る。典型的には、この追加データは、別の補助訓練データセットから学習された係数（例えば、回帰係数）の形態である。さらに、単一の補助訓練データセットの説明が開示されているが、本開示において、訓練されていない分類器を訓練する際に、一次訓練データセットを補完するために使用され得る補助訓練データセットの数に上限はないことが理解されるであろう。例えば、いくつかの実施形態では、２つ以上の補助トレーニングデータセット、３つ以上の補助トレーニングデータセット、４つ以上の補助トレーニングデータセットまたは５つ以上の補助トレーニングデータセットを使用して、各補助データセットが一次トレーニングデータセットとは異なるトランスファー学習を通じて一次トレーニングデータセットを補完する。上記実施形態では、任意の方法の移転学習を使用することができる。例えば、一次訓練データセットに加えて、第１の補助訓練データセットと第２の補助訓練データセットがある場合を考える。（第１の補助訓練データセットへの回帰のような分類器の適用によって）第１の補助訓練データセットから学習された係数は、転送学習技術（例えば、上述の２次元行列乗算）を使用して第２の補助訓練データセットに適用され得、それは、次に、その係数が一次訓練データセットに適用される訓練された中間分類器をもたらし得、これは、一次訓練データセット自体と共に、非訓練分類器に適用される。あるいは、（第１の補助訓練データセットへの回帰のような分類器の適用によって）第１の補助訓練データセットから学習された第１の係数セットと、（第２の補助訓練データセットへの回帰のような分類器の適用によって）第２の補助訓練データセットから学習された第２の係数セットとは、それぞれ個別に、第１の訓練データセットの別個のインスタンスに適用され（例えば、別個の独立行列乗算によって）、係数の上記適用の両方が、第１の訓練データセット自体と関連して、第１の訓練データセットのインスタンスを分離するために、（または、第１の訓練データセットから学習された主成分または回帰係数のような、いくつかの低減された形態の一次訓練データセットの）非訓練分類器に適用され、非訓練分類器を訓練することができる。いずれの実施例においても、第１および第２の補助訓練データセットから派生した細胞源（実施例えば、癌型など）に関する知識は、細胞源標識された一次訓練データセットと併せて、非訓練分級を訓練するために使用される。

用語「分類」は、試料の特定の特性に関連する任意の数字または他の文字を指すことができる。例えば、「＋」記号（または「正」という語）は、試料が欠失または増幅を有するものとして分類されることを意味し得る。別の実施例において、用語「分類」は、対象および／または試料中の腫瘍組織の量、対象および／または試料中の腫瘍のサイズ、対象中の腫瘍の段階、対象および／または試料中の腫瘍負荷、および対象中の腫瘍転移の存在を指す。いくつかの実施形態において、分類は、２値（例えば、正または負）であるか、または分類のより多くのレベル（例えば、１～１０または０～１のスケール）を有する。いくつかの実施形態において、「カットオフ」および「閾値」という用語は、動作において使用される所定の数字を指す。一例では、カットオフサイズは、フラグメントが除外されるサイズを上回るサイズを指す。いくつかの実施形態において、閾値は、特定の分類が適用される値を上回るか下回る値である。これらの用語のどちらも、これらの文脈のどちらでも使用できる。

本明細書中で使用される、用語「癌関連変化」または「癌特異的変化」は、癌由来突然変異（単一ヌクレオチド突然変異、ヌクレオチドの欠失または挿入、遺伝的または染色体セグメントの欠失、転座、逆位を含む）、遺伝子の増幅、ウイルス関連配列（例えば、ウイルスエピソーム、ウイルス挿入、電池に侵入し（例えば、ウイルス感染を介して）、その後電池によって放出され、循環または無電池ウイルスDNA）、異常なメチル化プロファイルまたは腫瘍特異的メチル化署名、異常な無電池核酸（例えば、DNA）サイズプロファイル、異常なヒストン修飾痕および他のエピジェネティック修飾、および癌関連または癌特異的である無電池DNA断片の末端の位置を含み得る。

本明細書で使用されるように、用語「制御」、「制御基準サンプル」、「参照試料」、「正常」および「正常試料」は、特定条件を有さない、またはそうでなければ健康である対象由来の試料を記載する。一例において、本明細書に開示されるような方法は、腫瘍を有する被験体に対して実施することができ、ここで、基準サンプルは、被験体の健常組織から採取された試料である。基準サンプルは、被験体から、またはデータベースから得ることができる。参照は、例えば、対象からの試料の配列決定から得られた配列読み取りをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生物学的試料から配列が読み取られ、構成的試料が整列され、比較され得る一倍体または二倍体ゲノムを指すことができる。構成的試料の一例は、被験体から得られた白血球のDNAであり得る。一倍体ゲノムについては、各遺伝子座に１つのヌクレオチドしか存在できない。二倍体ゲノムについては、ヘテロ接合性の遺伝子座を同定できる。それぞれのヘテロ接合性の遺伝子座は２つの対立遺伝子をもつことができ、どちらの対立遺伝子も遺伝子座へのアラインメントのためのマッチングを可能にできる。

本明細書で使用される用語は、特定の場合のみを説明するためのものであり、限定することを意図するものではない。本明細書で使用されるように、単数形「a」、「an」および「the」は、文脈上明らかに別段の指示がない限り、同様に複数形を含むものとする。さらに、用語「含む」、「含む」、「有する」、「一緒に」、またはそれらの変形例が、詳細な説明および／または特許請求の範囲のいずれかにおいて使用される限りにおいて、そのような用語は、用語「含む」と同様の方法で包括的であることが意図される。

いくつかの態様は、説明のための説明的用途を参照して以下に記載される。本明細書に記載の特徴を完全に理解するために、多数の特定の詳細、関係、および方法が記載されていることを理解されたい。しかしながら、当業者であれば、本明細書に記載される特徴は、１つ以上の特定の詳細なしに、または他の方法とともに実施することができることを容易に認識するであろう。本明細書に記載される特徴は、行為または事象の図示された順序付けによって限定されるものではなく、何らかの行為は、異なる順序で、および／または他の行為または事象と同時に起こり得る。さらに、本明細書に記載された特徴に従って方法論を実施するために、すべての例示された行為または事象が必要とされるわけではない。

例示的なシステム実施形態
次に、例示的なシステムの詳細を図１と併せて説明する。図１は、いくつかの実施によるシステム１００を示すブロック図である。いくつかの実施形態におけるシステム１００は、１つ以上の処理ユニット１０２（プロセッサまたは処理コアとも呼ばれる）、１つ以上のネットワークインタフェース１０４、表示装置１０８および入力モジュール１１０を含むユーザインタフェース１０６、非永続的記憶部１１１、永続的記憶部１１２、およびこれらの構成要素を相互接続するための１つ以上の通信バス１１４を含む。１つ以上の通信バス１１４は、オプションとして、システム構成要素間の通信を相互接続し制御する回路（チップセットと呼ばれることもある）を含む。非永続的メモリ１１１は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含むが、永続的メモリ１１２は、典型的には、CD－ROM、デジタル多用途ディスク（DVD）またはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、またはその他の不揮発性ソリッドステート記憶装置を含む。永続メモリ１１２は、オプションとして、CPU１０２から遠隔に配置された１つ以上の記憶装置を含む。永続的メモリ１１２と、非永続的メモリ１１２内の不揮発性メモリデバイスは、一時的でないコンピュータ読み取り可能な記憶媒体を備える。いくつかの実装では、非永続的記憶部１１１またはその代わりに一時的でないコンピュータ可読記憶媒体は、時には永続的記憶部１１２と関連して、以下のプログラム、モジュール、およびデータ構造、またはそれらのサブセットを記憶する：
・任意のオペレーティング・各種１１６に関連する任意の命令、プログラム、データ、または情報。これには、様々な基本各種・サービスを処理するための手順、およびハードウェア依存タスクを実行するための手順が含まれる；
・システム１００を他の装置、または通信ネットワークに接続するための任意のネットワーク通信モジュール（または命令）１１８に関連する任意の命令、プログラム、データ、または情報；
・命令、プログラム、データ、または複数のデータセット（例えば、データセット１および２）１２０－１および１２０－２に関連付けられた情報であって、各データセットが備える、データセット：
・複数の被験者１２２－１－１、・・・、１２２－１-J (ここで、Jは正の整数である）における各被験者に関する命令、プログラム、データ、または記録１２２に関連する情報であって、各被験者は、対応する被験者から得られたそれぞれの生体試料中の１つまたは複数の核酸試料からの複数のフラグメントメチル化パターン１２４－１－１－１、・・・、１２４－１－１-K (ここで、Kは正の整数である）を含み、各フラグメントメチル化パターンは、１つまたは複数の核酸試料のメチル化配列決定によって決定され、それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位についてのメチル化状態１２６－１－１－１－１、・・・、１２６－１－１－１－１－L（ここで、Lは正の整数である；
・それぞれのデータセットについて、１つ以上のゲノム領域１２８－１－１、…、１２８－１－M（Mは正の整数）に関連する命令、プログラム、データ、または情報。
・各状態間隔地図は、対応する複数のノード１３２－１－１、…、１３２－１－１－１、…、１３２－１－１-P (ここで、Pは正の整数）を含み、複数のノード内の各ノードは、対応するスタート・メチレーション・部位１３４－１－１－１－１、対応するエンド・メチレーション・部位１３６－１－１－１－１、対応するスタート・メチレーション・部位１３６－１－１－１、および対応するスタート・メチレーション・部位と各ノードの対応するエンド・メチレーション・部位との間で観測される各情報フラグメント・メチレーション・パターンについて、情報フラグメント・メチレーション・パターン１３８－１－１－１-Q (ここでQは正の整数）の表現各データセット全体で観測されたカウント１４０－１－１－１、．．．、１４０－１－１－１－１-R (R は正の整数）のフラグメントのうち、フラグメントのメチレーションパターンが対応する開始メチレーション部位で開始し、対応する端部メチレーション部位で端部し、情報フラグメントのメチレーションパターンを持つもの。

いくつかの実施形態では、上述の識別された元素の１つ以上が、前述のメモリデバイスの１つ以上に記憶され、上述の機能を実行するための命令のセットに対応する。上述の識別されたモジュール、データ、またはプログラム（例えば、命令のセット）は、別個のソフトウェアプログラム、プロシージャ、データセット、またはモジュールとして実装されてはならず、したがって、これらのモジュールおよびデータの各種サブセットは、さまざまな実装において、結合されるか、または別の方法で再配置されてもよい。一部の実施では、非永続メモリ１１１は、上記で識別されたモジュールおよびデータ構造のサブセットを任意に記憶する。さらに、いくつかの実施形態では、メモリは、上述されていない追加のモジュールおよびデータ構造を記憶する。いくつかの実施形態では、システム１００がそのようなデータの全部または一部を取り出すことができるように、システム１００によってアドレス指定可能な、システム１００のもの以外の、上記で識別された元素の１つまたは複数が、コンピュータシステム内に記憶される。

図１は「システム１００」を示すが、図は、本明細書に記載される実装の構造的概略図としてよりも、コンピュータ・システム内に存在し得る様々な特徴の機能的説明として意図される。実際には、そして当業者によって認識されるように、別々に示された項目を組み合わせることができ、いくつかの項目を分離することができる。さらに、図１は、非永続的記憶部１１１内の特定のデータおよびモジュールを示すが、これらのデータおよびモジュールの一部または全部は、永続的記憶部１１２内にあってもよい。

本開示の特定の実施形態
図１を参照して本開示に準じたシステムが開示されているが、現在の開示に準じた方法は、図２を参照して詳細に開示されている。開示された方法のいずれもが、２０１７年１０月２５日出願の米国特許出願第１５／７９３，８３０号、国際特許公開第WO ２０１８／０８１１３０号「火災検出の方法およびシステム」と題する、および／または米国特許公開第２０２０－０３８５８１３号A１号「メタライゼーション情報を用いた細胞源分断の推定のためのシステムおよび方法」と題する、いずれかのものを全面的に参照して、対象にがんの状態があるか、または、対象ががんの状態にある可能性があるかを判定するために利用することができる。例えば、開示された方法のいずれかは、２０１７年１０月２５日に出願された米国特許出願第１５／７９３，８３０号、国際特許公開第２０１８／０８１１３０号、米国特許公開第２０２０－０３８５８１３号A１号、および／または２０１８年１２月１８日に出願された「メチル化情報を使用して細胞源分率を推定するためのシステムおよび方法」と題する米国仮特許出願第６２／７８１，５４９号に開示された方法またはアルゴリズムのいずれかと関連して作用することができる。

図２を参照すると、本開示の一態様は、癌状態を識別または示す複数のメチル化パターンを同定する方法を提供する（ブロック２０２）。

データセットの取得。
図２Aのブロック２０４を参照すると、本開示は、癌状態を識別または示す複数の適格なメチル化パターンを同定するためのシステム、方法、およびコンピュータ可読媒体を提供する。上記実施形態では、第１のデータセットが（例えば、電子形態で）取得される。第１のデータセットは、第１の複数のフラグメント中の各フラグメントの対応するフラグメントメチル化パターンを含む。いくつかの実施形態において、それぞれのフラグメント（i）の対応するフラグメントメチル化パターンは、１つ以上の対象の第１のセット中の対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。いくつかの実施形態において、第１の複数の断片は、１００以上の無細胞核酸断片、１０００以上の無細胞核酸断片、１０，０００以上の無細胞核酸断片、１００，０００以上の無細胞核酸断片、１，０００，０００以上の無細胞核酸断片、または１０，０００，０００以上の核酸断片を含む。

１つ以上の被験者の最初のセットの被験者数は、申請に依存する。例えば、癌状態が起源の組織である場合（例えば、癌状態の起源を識別するのに助剤適格なメチル化パターンを同定すること）、１人以上の対象の最初のセットにおける対象の数は、典型的には、癌の特定の起源を有する複数の癌対象である（例えば、それらはすべて肺がんを有し、それらはすべて肝臓がんを有するなど）。いくつかの上記実施形態において、複数のがん被験体は、特定のがんの起源を有する５以上の被験体、１０以上の被験体、２０以上の被験体、３０以上の被験体、４０以上の被験体、５０以上の被験体、１００以上の被験体、２００以上の被験体、５００以上の被験体、１０００以上の被験体、１０～１０，０００の被験体、または２５，０００未満の被験体である。いくつかの上記態様において、複数被験者はすべて、同じステージの癌を有する。別の実施形態では、複数被験者は、癌の様々な病期を有する。いくつかの実施形態において、複数被験者は、転移した癌を有する。いくつかの実施形態において、複数被験者は、転移していない癌を有する。

別の実施例として、癌状態が癌の非存在または存在である場合（実施例えば、癌状態の有無を決定するのに助剤適格なメチル化パターンを同定すること）、１つまたは複数の対象の最初のセットにおける対象の数は、典型的には、癌を有する複数の癌対象である（実施例えば、全て癌を有する、全て試験中の特定の癌を有する、など）。いくつかの上記実施形態において、複数のがん被験体は、５以上の被験体、１０以上の被験体、２０以上の被験体、３０以上の被験体、４０以上の被験体、５０以上の被験体、１００以上の被験体、２００以上の被験体、５００以上の被験体、１０００以上の被験体、１０～１０，０００の被験体、または２５，０００未満の被験体である。いくつかの上記態様において、複数被験者はすべて、同じステージの癌を有する。別の実施形態では、複数被験者は、癌の様々な病期を有する。いくつかの実施形態において、複数被験者は、転移した癌を有する。いくつかの実施形態において、複数被験者は、転移していない癌を有する。

さらに別の例として、癌状態が特定の癌の病期である場合（例えば、対象が特定の癌状態の特定の病期を有するかどうかを決定するのに助剤適格なメチル化パターンを同定すること）、さらにまた、１つまたは複数の対象の第１のセット中の対象の数は、典型的には、癌状態の病期を有する複数の癌対象である（例えば、全てがII期の乳癌などを有する）。

一方、がんの状態が特定の被験者のがんの状態にプライベート（ユニーク）なフラグメントメチル化パターンを生成するという予想がある場合、１人以上の被験者の最初のセットの被験者数は、１人の被験者である。癌状態が特定の被験体の癌状態にプライベート（ユニーク）であるフラグメントメチル化パターンを生成するという予想が、癌状態が腫瘍分画である場合である非限定的な例。癌状態が特定の被験体の癌状態にプライベート（ユニーク）であるフラグメントメチル化パターンを生成すると予想する別の非限定的な例は、癌状態が特定の被験体の造血状態に影響される場合である。癌の状態が、特定の被験体の癌の状態に個人的な（独特の）フラグメントメチル化パターンを生成するという予想がある場合、１人以上の被験体の第１のセットは、試験中の単一被験体であり、後にさらに詳細に議論される１人以上の被験体の第２のセットは、健康な被験体のコホートのような参照集団である。
いくつかの実施形態では、第１の被験体セットは単一の被験体であり、第２の被験体セットは複数被験者であり、開示された方法を使用して同定されるQMPは、下流側のがん状態分級を検査または評価するために使用される。例えば、癌に罹患している被験体は、第１の被験体セットを構成し得、第２の被験体セットは、癌状態を有さない被験体であり得、開示された方法を用いて同定されたQMPの寄与は、下流側の分級において検査され得る。例えば、分類器は、特定されたQMPの一部または全部を含むか、または含まないように再構築（再訓練）することができ、その性能は、癌状態を有し、有しない被験者の訓練コホートを用いて評価される。

試験対象
いくつかの実施形態において、試験中の各対象は、上記で定義された対象の例のいずれかである（定義を参照のこと）。いくつかの態様において、被験体はヒトである。いくつかの実施形態では、被験者の第２のセットは、研究グループであり、１つ以上の被験者の第１のセットは、研究グループ内の複数の参加者の参加者でもある単一の被験者である。例えば、いくつかの実施形態において、第２の被験者セットは、CCGA研究からの各参加者である複数の被験者である（例えば、以下の実施例１を参照）。

生物学的試料
いくつかの態様において、本開示において使用される生物学的試料は、上記で定義された生物学的試料の例のいずれかである（「定義」を参照のこと）。例えば、いくつかの態様において、生物学的試料は、組織（例えば、腫瘍生検）である。図２Aのブロック２０６～２１０を参照すると、いくつかの実施形態において、被験体（例えば、被験体）から得られる生物学的試料は、液体生物学的試料である。例えば、いくつかの態様において、それぞれの生物学的試料は、血液試料（例えば、形質、無細胞DNA、および／または白血球）である。いくつかの態様において、それぞれの生物学的試料は、血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む。いくつかの態様において、生物学的試料は、細胞源に由来する。いくつかの上記実施形態では、セルソースは、実施例（例えば、以下の実施例７を参照）に詳細に記載される例示的なセルソースのうちのいずれか１つである。

いくつかの態様において、生物学的試料は、癌を有する被験体（例えば、被験体）または健康な（例えば、非癌）被験体から得られる。いくつかの態様において、生物学的試料は、腫瘍組織（例えば、癌）または健康な組織（例えば、非癌）から得られる。いくつかの態様において、生物学的試料は、保管された試料（例えば、凍結、乾燥、または代替的に保管された組織生検もしくは血液試料）から得られる。

いくつかの態様において、生物学的試料は、複数の生物学的試料（例えば、複数の試料を含むプールされた試料）である。複数の生物学的試料は、第１のデータセットを得る前の任意の時点でプールすることができる。例えば、いくつかの態様において、複数の生物学的試料をプールすることは、核酸抽出前（例えば、複数の組織および／または液体の生物学的試料をプールすること）、核酸抽出後であるがメチル化配列決定前（例えば、複数の核酸試料をプールすること）、またはメチル化配列決定後（例えば、複数の配列決定アッセイからシーケンシングデータをプールすること）に生じる。図７および９は、本開示のいくつかの実施形態（例えば、以下の実施例２および３を参照）に従って、生物学的試料から配列決定およびメチル化シーケンシングデータを得るための核酸試料を調製するための方法の例示的フローチャートを示す。

メチル化配列決定から得られたデータ
いくつかの実施形態において、データセット１２０は、任意のサイズであり得、使用される方法、カバー被覆率、およびメチル化配列決定の深さに応じて、複数のフラグメント中の各フラグメントおよび／または複数のフラグメント中の任意の数のフラグメントについて、任意の数の対応するフラグメントメチル化パターン１２４を含む。例えば、ブロック２１２を参照すると、いくつかの実施例において、第１組の対象からのそれぞれの生物試料の（第１組の物質群が複数の物質群から構成される場合）の、それぞれの生物試料の分子のメタル化の順序付けは、第１組のデータセットに含まれることによって、５億以上、１０億以上、２０億以上、３０億以上、４０億以上、５０億以上、６０億以上、７０億以上、８０億以上、９０億以上、１００億以上の核酸断片が、第１組のデータセットに含まれることによって、メタル化パターンが評価される。いくつかの代替的な実施形態において、第１の被験体セット中の対応する被験体からのそれぞれの生物学的試料のメチル化配列決定は、第１のデータセット（データセット１２０）に含めることによってメチル化パターンについて評価される１０億未満のフラグメントまたは１０，０００未満のフラグメントを生成する。

いくつかの実施形態において、それぞれのフラグメントの対応するフラグメントメチル化パターンは、メチル化配列決定によって決定され、メチル化配列決定は、それぞれのフラグメントに対応する１つ以上の配列読み取りを生成する。いくつかの実施形態において、複数の断片は、無細胞核酸である。いくつかの実施形態において、それぞれのフラグメントに対応する１つ以上の配列読み取りは、対末端配列読み取りである。いくつかの実施形態において、それぞれのフラグメントに対応する１つ以上の配列読み取りは、シングルエンド配列読み取りである。

図２Aのブロック２１４を参照すると、いくつかの実施形態において、メチル化配列決定によって得られる対応する複数の配列読み取りの平均配列読み取り長は、１４０～２８０ヌクレオチドである。

ブロック２１６を参照すると、いくつかの実施形態において、メチル化配列決定は、i）全ゲノムメチル化配列決定、またはii）複数の核酸プローブを使用する標的化DNAメチル化配列決定である。いくつかの態様において、メチル化配列決定は、全ゲノム亜硫酸水素配列決定（WGBS）である。
ブロック２１８～２２４を参照すると、いくつかの態様において、メチル化配列決定は、それぞれのフラグメント中の１つ以上の５－メチルシトシン（５mC）および／または５－ヒドロキシメチルシトシン（５hmC）を検出する。いくつかの態様において、メチル化配列決定は、１つ以上の非メチル化シトシンまたは１つ以上のメチル化シトシンの対応する１つ以上のウラシルへの変換を含む。いくつかの上記態様において、１つ以上のウラシルは、メチル化配列決定の間に、１つ以上の対応するチミンとして検出される。いくつかのそのような態様において、１つ以上の非メチル化シトシンまたは１つ以上のメチル化シトシンの変換は、化成処理、酵素変換、またはそれらの組合せを含む。

図２Aのブロック２２６を参照すると、いくつかの実施形態において、対応する複数のCpG部位におけるCpG部位のメチル化状態は、CpG部位がメチル化されるメチル化配列決定によって決定されるときにメチル化され、CpG部位がメチル化されないメチル化配列決定によって決定されるときに非メチル化される。いくつかの態様において、メチル化状態は「M」として表され、非メチル化状態は「U」として表される。例えば、いくつかの実施形態において、メチル化状態は、非メチル化、メチル化、あいまい（例えば、基礎となるCpGが、配列読取りのペアにおける任意の読取りによってカバーされないことを意味する）、変異体（例えば、読取りが、参照配列に基づいてその期待される位置で生じるCpGと一致せず、部位での実際の変異体または配列エラーによって引き起こされ得ることを意味する）、または競合（例えば、２つの読取りが両方ともCpGと重複するが、一致しない場合）を含むことができるが、これらに限定されない。例えば、その全体が参照により本明細書に組み込まれている、２０２０年１２月１１日出願の「パッチ畳み込みニューラルネットワークを使用した癌分類」と題する米国特許出願公開第１７／１１９，６０６号を参照されたい。

いくつかの態様において、メチル化配列決定（例えば、WGBS）は、試験対象のゲノムの全部または一部にわたって、少なくとも１x、２x、３x、４x、５x、６x、７x、８x、９x、１０x、少なくとも２０x、少なくとも３０x、または少なくとも４０xの被覆率（例えば、配列決定深さ）を生じる。

いくつかの実施形態において、メチル化配列決定（例えば、WGBS）は、複数の断片にわたって少なくとも１x、２x、３x、４x、５x、６x、７x、８x、９x、１０x、少なくとも２０x、少なくとも３０x、または少なくとも４０xの平均被覆率（例えば、配列決定深さ）を生成する。いくつかの実施形態において、メチル化配列決定（例えば、WGBS）は、データセット１２０中に表されるフラグメントにわたって、少なくとも１x、２x、３x、４x、５x、６x、７x、８x、９x、１０x、少なくとも２０x、少なくとも３０x、または少なくとも４０xの平均被覆率（例えば、配列決定深さ）を生成する。
いくつかの実施態様において、メチル化配列決定（例えば、標的メチル化またはTM配列決定）は、最大１，０００x、２，０００x、３，０００x、５，０００、１０，０００x、１５，０００x、２０，０００x、または約３０，０００xを含むが、これらに限定されない範囲を有する。

いくつかの実施形態においては、メタル化配列決定（例えば、ターゲット・メタル化またはTM・セグメンテーション）は、複数の断片にわたって、最大１，０００x、２，０００x、３，０００x、５，０００x、１０，０００x、１５，０００x、２０，０００x、または約３０，０００xを含むが、これらに限定されない平均カバー範囲を有する。いくつかの実施形態においては、メタル化配列決定（例えば、WGBS）は、データセット１２０に表されるフラグメントにわたり、最大１，０００x、２，０００x、３，０００x、５，０００x、１０，０００x、１５，０００x、２０，０００x、または約３０，０００xの平均被覆率（例、シークエンジング深さ）を生成する。

いくつかの実施形態においては、メタル化配列決定は、３０，０００xより大きいカバレッジ、例えば、少なくとも４０，０００xまたは５０，０００xを有する。Ziller et al.、２０１５、"Coverage recommendations for methylation analysis by with the whole-genome bisulfite sequencing," Nature Methodsを参照のこと。１２(３):２３０－２３２, doi：１０．１０３８／nmeth．３１５２、and Masser et al.、２０１５、"Targeted DNA Methylation Analysis by Next-generation Sequencing," J。Vis．試験(９６), e５２４８８、その全体が参照により本明細書に組み込まれているdoi：１０．３７９１／５２４８８

いくつかの実施形態において、メチル化配列決定は、対末端配列決定または単一末端配列決定である。

いくつかの実施形態において、メチル化シーケンシングは２値である。いくつかの態様において、メチル化配列決定はセミバイナリーである。本明細書で使用される場合、バイナリーメチル化配列決定とは、メチル化部位および非メチル化部位の両方に特異的なハイブリダイゼーションプローブを用いて、完全にメチル化および／または完全にメチル化されていないCpG部位を配列決定することを指す。あるいは、本明細書で使用する場合、セミバイナリーメチル化配列決定とは、メチル化または非メチル化部位のいずれかに特異的なハイブリダイゼーションプローブを用いて、メチル化または非メチル化のいずれかであるCpG部位を配列決定することを指す。

バイナリープローブを用いて実施されるメチル化配列決定は、被覆率の深さを改善し、メチル化配列決定データセットにおけるバイアスを低減することができる。したがって、いくつかの実施形態では、WGBSは、二元プローブを使用して実施される。いくつかの代替実施では、標的化メチル化（TM）配列決定は、二成分および／または半二成分プローブを使用して行われる。いくつかのそのような実施形態では、データセットから、セミバイナリプローブによって標的化される任意のフラグメントの対応するフラグメントメチル化パターンを除去する（例えば、フィルタリングする）ことによって、全体的なカバー被覆率の深さが改善される（例えば、セミバイナリプローブを使用して配列決定されたフラグメントに対応する配列決定読み取りがフィルタリングされる）。あるいは、いくつかの実施形態では、セミバイナリプローブを用いて配列決定された１つまたは複数のフラグメントは、データセットから除去されず、深さカットオフは、深さカットオフより下の配列決定深さを有する領域（例えば、参照ゲノムの）に重なる任意のフラグメントの対応するフラグメントメチル化パターンがデータセットから除去されるように、第１のデータセットに適用される。例えば、二元シーケンシングがより高い被覆率の深さを提供し、セミ二元シーケンシングがより低い被覆率の深さを提供する場合、深さカットオフを適用することは、データセット内の任意の残りの領域が少なくとも最小の被覆率の深さを含むことを効率的に保証し、それによって、データセット内の全体的なバイアスを低減する。いくつかの実施形態では、深さカットオフは、二値シークエンシングによって提供される最小被覆率深さの推定値、および／または半二値シークエンシングによって提供される最大被覆率深さの推定値である。

いくつかの実施形態において、メチル化配列決定（例えば、WGBSおよび／またはTM配列決定）は、組織（例えば、腫瘍生検）または血液試料（例えば、形質、無細胞DNA、および／または白血球）を用いて実施される。
いくつかの実施形態において、複数のフラグメントに対する複数のフラグメントメチル化パターンは、対象の設定中の対応する対象から得られたそれぞれの生物学的試料からの核酸の複数のメチル化配列決定によって決定される。例えば、いくつかのそのような態様において、複数のフラグメントメチル化パターンは、WGBSおよび標的DNAメチル化配列決定の両方を使用して、それぞれの生物学的試料から得られる。

いくつかの実施形態において、本方法は、複数の断片中のそれぞれの断片についてのデータを配列決定することを含むデータセットを得ることをさらに含み、シーケンシングデータは、対応する対象から得られたそれぞれの生物学的試料からの核酸の１つ以上の配列決定アッセイ（例えば、WGS、標的化配列決定）によって決定される。例えば、いくつかの上記実施形態において、１つ以上のフラグメントメチル化パターンおよび１つ以上の配列決定データセットは、例えば、WGBS、標的化メチル化（TM）配列決定、WGS、標的化配列決定、および／またはそれらの任意の組み合わせを使用して、それぞれの生物学的試料から得られる。複数の配列決定および／またはメチル化配列決定データセットの比較を、実施例５および図１１に以下に記載する。

メチル化配列決定（例えば、WGBSおよび／または標的化メチル化配列決定）に関するさらなる詳細については、例えば、２０１９年３月１３日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許公開第２０１９－０２８７６５２ A１号、および「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開第２０２０－０３８５８１３A１号を参照されたい。メチル化配列決定のための他の方法（本明細書に開示されているものおよび／またはその任意の修飾、置換、もしくは組み合わせを含む）は、当業者に明らかなように、フラグメントメチル化パターンを得るために使用することができる。

フラグメント
いくつかの態様において、複数の断片中のそれぞれの断片は、本明細書に開示されるメチル化配列決定方法のいずれかによって決定されるように、開始位置、終了位置、および開始位置と終了位置との間のそれぞれの断片内に位置する１つ以上のメチル化部位（例えば、CpG部位）を含む。いくつかの態様において、開始位置および／または端位置は、メチル化部位または参照ゲノム中の位置である。いくつかの態様において、複数の断片中のそれぞれの断片は、参照ゲノムに整列される。したがって、いくつかのそのような実施形態では、複数のフラグメント中の各フラグメント中の各メチル化部位は、参照ゲノム中の特定の部位にインデックス付けされる。同様に、複数の断片中のそれぞれの断片がメチル化部位である開始位置および／または終了位置、および／または開始位置と終了位置との間のそれぞれの断片内に位置する１つ以上のメチル化部位を含む場合、それぞれの断片中のそれぞれのメチル化部位は、参照ゲノム中の特定の部位にインデックス化することができる。

いくつかの実施形態において、固有の断片は、それぞれの断片の１以上のメチル化部位のそれぞれの開始位置および終了位置および／またはメチル化状態の配列（例えば、断片メチル化パターン）によって決定される。例えば、いくつかの実施形態において、異なる開始位置および終了位置を有する２つのフラグメントは、フラグメントメチル化パターンが同一であるかまたは異なるかにかかわらず、固有であるとみなされる。いくつかの実施形態において、２つのフラグメントは、開始位置または端位置のうちの１つが２つのフラグメントの間で共有されている場合であっても（例えば、２つのフラグメントが異なる長さであるように、同じ開始位置であるが異なる端位置を有する２つのフラグメント）、ユニークであると見なすことができる。いくつかの代替実施では、同一の開始位置および終了位置を有するが、異なるフラグメントメチル化パターンを有する２つのフラグメントは、ユニークであるとみなされる（例えば、「MMMMM」および「UMM」のような、CpG部位のスパン内の１つまたは複数のCpG部位に対して異なるメチル化状態を有するが、参照ゲノムの同一領域に配列された２つのフラグメント）。

いくつかの実施形態において、それぞれのフラグメントの対応するフラグメントメチル化パターンは、それぞれのフラグメント中の対応する複数のCpG部位のうちのすべてより少ないCpG部位のメチル化状態を含み、ここで、それぞれの１つ以上のフラグメント中の１つ以上のCpG部位は、「信頼性がない」と考えられる。例えば、いくつかの実施形態において、「信頼性がない」CpG部位は、変形例、あいまいな、または矛盾したメチル化状態を有するCpG部位、および／またはメチル化配列決定出力不良をもたらすことが知られているCpG部位を含む。いくつかの上記実施形態において、それぞれの１つまたは複数の信頼性のないCpG部位は、その後のすべての分析およびプロセスのために、複数の断片から除去される（例えば、欠失される）。例えば、いくつかの態様において、欠失は、それぞれのデータセット中のそれぞれの複数のフラグメント中のそれぞれのフラグメントの対応するフラグメントメチル化パターンから、（それぞれの１つまたは複数のCpG部位のそれぞれの１つまたは複数のメチル化状態によって表されるようである）それぞれの１つまたは複数のCpG部位を除去することによって行われる。いくつかの代替的な実施形態では、それぞれの１つまたは複数の信頼性のないCpG部位は、複数の断片から除去されず、そうでなければ、その後のすべての分析およびプロセスのためにバイパスされる。例えば、いくつかの実施形態では、バイパスは、それぞれの信頼性のないCpG部位ごとに、それぞれのデータセット内のそれぞれの複数の断片におけるそれぞれの断片の対応する断片メチル化パターンにおいて、それぞれのCpG部位におけるメチル化状態表現の代わりにプレースホルダーまたは置換表現を挿入することによって行われる。いくつかの実施形態において、プレースホルダまたは代替表現は、例えば、ワイルドカードまたはヌル文字である。

いくつかの実施形態において、複数のフラグメントは、フィルタリングされる。いくつかの実施形態では、複数のフラグメントは、例えば、深さ、最小マッピング品質（MAPQ）、重複フラグメント、未解決フラグメント、未変換フラグメント、曖昧呼び出し、変形例呼び出し、競合呼び出し、および／またはp値についてフィルタリングされる。

いくつかの実施形態において、複数の断片は、重複するCpG部位を含む断片について濾過される。いくつかの実施形態では、複数のフラグメントは、代替配列決定方法と読み取り支持を共有するフラグメントについてフィルタリングされる。例えば、１つ以上のメチル化配列決定データセットおよび１つ以上の配列決定データセットが、例えば、WGBS、TM配列決定、WGS、および／または標的化配列決定を使用してそれぞれの生物学的試料から取得されるいくつかの実施形態では、それぞれのデータセットが比較され、１つ以上のメチル化配列決定データセットが、１つ以上の配列決定データセットを使用して決定されるように、小さな変異体、既知のバイオマーカー、および／または癌状態に関連する領域も含まないフラグメントを除去するためにフィルタリングされる。

最初と２番目のデータセット。
図２Bのブロック２２８を参照すると、いくつかの実施形態では、第２のデータセットが電子形式で取得される。第２のデータセットは、第２の複数の断片中の各断片の対応する断片メチル化パターンを含む。それぞれのフラグメント（i）の対応するフラグメントメチル化パターンは、第２の対象セット中の対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、そして（ii）それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。典型的な実施形態では、第２の被写体セットは、複数の被写体（例えば、２以上の被写体、３以上の被写体、５以上の被写体、５０以上の被写体、１００以上の被写体、５００以上の被写体または１０００以上の被写体）を含む。いくつかの実施形態において、第２の複数の断片は、１００以上の無細胞核酸断片、１０００以上の無細胞核酸断片、１０，０００以上の無細胞核酸断片、１００，０００以上の無細胞核酸断片、１，０００，０００以上の無細胞核酸断片、または１０，０００，０００以上の核酸断片を含む。
いくつかの実施形態において、第２のデータセットは、本明細書に開示された方法のいずれかを使用して（例えば、第１のデータセットについて記載された方法および／または実施形態のいずれかを使用して）取得される。図２Bのブロック２３０を参照すると、いくつかの実施形態において、第１の複数の断片（第１のデータセットの）および第２の複数の断片（第２のデータセットの）は、無細胞核酸である。

再び図２Bのブロック２２８を参照すると、いくつかの実施形態において、（第１のデータセットの）第１の被験体セットの各被験体は、癌状態の第１の状態を有し、（第２のデータセットの）第２の被験体セットの各被験体は、癌状態の第２の状態を有する。上記で定義したように、様々な実施形態では、がん状態の状態は、適用に依存する。いくつかの実施形態において、癌状態は、対象に癌が存在するか否か（例えば、存在するか否か）である。いくつかの実施形態において、癌状態は、癌の病期、腫瘍の大きさ、転移の有無、身体の総腫瘍量（例えば、腫瘍分率）、および／または癌の重症度（例えば、癌の再発）の別の測定値である。いくつかの実施形態において、癌状態の第１の状態は、試料状態（例えば、がん性試料）であり、癌状態の第２の状態は、参照試料（例えば、健康な試料）である。いくつかの実施形態において、癌状態の第１の状態および癌状態の第２の状態は、それぞれ、生物学的試料が収集された初期時点および後時間である。いくつかの実施形態では、癌状態は、試験対象の腫瘍分率（例えば、１つ以上の対象の第１のセットの対象。いくつかの実施形態では、癌状態は、癌起点（例えば、肺、大腸、乳房など）である）である。

状態間隔地図の生成
図２Cのブロック２３２を参照すると、いくつかの実施形態では、第１のデータセットを使用して、１つまたは複数の対応するゲノム領域について、１つまたは複数の第１の状態間隔地図が生成される。１つ以上の第１の状態間隔地図内の各第１の状態間隔地図は、対応する独立した複数のノードを備える。いくつかの実施形態では、対象の第１のセットについて１つの状態間隔地図のみが存在し、この状態間隔地図は、試験中のゲノムの領域の全体（例えば、ゲノムの全部または一部）を表す。他の実施形態では、１つ以上の被写体の第１のセットについて、いくつかの状態間隔地図が存在する。このような場合、典型的には、それぞれの状態間隔地図は、ゲノムの異なる領域を表す。例えば、いくつかの実施形態では、各状態間隔地図は、異なる染色体を表す。いくつかの実施形態では、２、３、４、５、６、７、８、９、１０、２～３０、または３０を超える状態間隔地図が、第１のデータセット中のメチル化データを使用して生成される。典型的な実施形態では、上記各状態間隔地図は、参照ゲノムの異なる部分を表す。例えば、いくつかの実施形態では、上記各状態間隔地図は、異なる染色体を表す。
生成された単一の状態間隔地図または複数の状態間隔地図があるかどうかにかかわらず、１つまたは複数の第１の状態間隔地図内の各対応する複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する終了メチル化部位との間の第１のデータセット内の第１の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンによって特徴づけられる、（i）異なる断片メチル化パターンの表現、および（ii）対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第１のデータセット内の断片のカウント。

間隔地図で表されるゲノム領域。
いくつかの実施形態において、１つまたは複数の第１の状態間隔地図内のそれぞれの間隔地図は、（例えば、参照ゲノム内の）ゲノム領域に対応する。したがって、それぞれのゲノム領域に対応するそれぞれの間隔地図について、それぞれの間隔地図で表されるフラグメントメチル化パターンを有する第１のデータセット中の第１の複数のフラグメント中のそれぞれのフラグメントは、同じそれぞれのゲノム領域にも対応する（例えば、フラグメントは、間隔地図に対応する参照ゲノムの同じ領域に整列される）。

いくつかの実施形態において、１つまたは複数の第１の状態区間地図は、１つまたは複数の固有のゲノム領域および／または１つまたは複数の重複ゲノム領域に対応する。いくつかの実施形態において、１つまたは複数の第１の状態間隔地図は、同じゲノム領域に対応する。いくつかの実施形態において、１つまたは複数の第１の状態間隔地図は、複数の第１の状態間隔地図であり、１つまたは複数の対応するゲノム領域は、複数のゲノム領域であり、複数のゲノム領域内のそれぞれのゲノム領域は、複数の第１の状態間隔地図内の第１の状態間隔地図によって表される。いくつかの実施形態において、複数のゲノム領域は、１０～３０である。いくつかの上記実施形態では、複数のゲノム領域は、２～１０００のゲノム領域、５００～５０００のゲノム領域、１０００～２０，０００のゲノム領域、または５０００～５０，０００のゲノム領域からなる。

いくつかの実施形態において、１つまたは複数の第１の状態間隔地図は、同じサイズまたは異なるサイズ、数または量（例えば、数のCpG部位および／または数の塩基対である長さとして表される）のゲノム領域に対応する。例えば、ブロック２３４～２３８を参照すると、いくつかの実施形態では、１以上の対応するゲノム領域にわたって１０，０００を超えるCpG部位、２５，０００を超えるCpG部位、５０，０００を超えるCpG部位、または８０，０００を超えるCpG部位が存在する。いくつかの代替実施では、１以上の対応するゲノム領域にわたって、１０，０００未満のCpG部位、２５，０００未満のCpG部位、５０，０００未満のCpG部位、または８０，０００未満のCpG部位が存在する。いくつかの実施形態において、１以上の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の５００塩基対から１０，０００塩基対の間を表す。いくつかの実施形態では、間隔地図は、参照ゲノムの所定の領域内のすべての既知のCpG部位を表す。いくつかの実施形態において、間隔地図は、参照ゲノムの所定の領域における既知のCpG部位のサブセットのみを表す。いくつかの実施形態において、特定の間隔地図に対する１つ以上の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の５００塩基対から２０００塩基対の間を表す。いくつかの代替実施では、特定のインターバルマップに対する１つ以上の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の５００塩基対未満または１０，０００塩基対超を表す。

図２Cのブロック２４０を参照すると、いくつかの実施形態では、特定の間隔地図に対する１つ以上の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の異なる部分を表す。例えば、いくつかの上記実施形態では、特定の区間地図に対する１つ以上の対応するゲノム領域内の各ゲノム領域は、異なるヒト染色体である。いくつかの実施形態において、ヒトゲノム参照配列の各部分は、それぞれの１つ以上の間隔地図によって表される。

ノード構築
上述のように、１つ以上の第１の状態間隔地図内の各第１の状態間隔地図は、独立した複数のノードを含む。それぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、およびそれぞれのノードのそれぞれの開始および端部メチル化部位で開始および端部する第１のデータセット内の複数のフラグメントにおけるそれぞれの異なるフラグメントメチル化パターンの表示およびカウントによって特徴付けられる。いくつかの実施形態では、独立した複数のノードは、２つ以上のノード、３つ以上のノード、４つ以上のノード、５つ以上のノード、１０つ以上のノード、２０つ以上のノード、５０つ以上のノード、または１００つ以上のノードを含む。

いくつかの実施形態では、独立した複数のノード内の各ノードの比開始および終了メチル化部位は、参照ゲノム内の位置（例えば、ゲノム領域および／またはCpG部位内の位置）に索引付けされる。したがって、いくつかの好ましい実施形態では、それぞれの第１の状態間隔地図内のそれぞれのノードは、それぞれの１つ以上のフラグメントの開始および端部メチル化部位に基づいて、第１のデータセット内の複数のフラグメント内の１つ以上のフラグメントをグループ化することによって構築され（例えば、フラグメントが参照ゲノムに整列され、各フラグメント参照ゲノム内の位置にインデックスされる開始および端部メチル化部位を含み、各フラグメントノード内に完全に含まれるように）、

いくつかの好ましい態様において、それぞれのノードの開始および端部メチル化部位に対応する開始および端部メチル化部位を含まないフラグメント（例えば、それぞれのノード内に部分的に含有されるか、またはそれぞれのノードと重複するフラグメント、および／またはそれぞれのノードより小さいか、または大きいフラグメント）は、それぞれのノードにおいて表されない。

したがって、本明細書に記載されるようなそのような実施において、フラグメントは、例えば、CpG部位のインデックスにおけるそれらのゲノム座標または位置によって同定される、CpG部位の配列を含むフラグメントレベルのノードに変換される。

いくつかの実施形態において、「ユニーク」と考えられる（例えば、異なる開始および終了メチル化部位および／または異なるメチル化パターンを有する）フラグメントは、異なるそれぞれのノードに配置される。
いくつかの実施形態において、それぞれのノード中の各断片中の各CpG部位（例えば、メチル化：「M」、非メチル化：「U」）の状態は、さらに、それぞれのノード中に含まれる１つまたは複数の異なる断片メチル化パターンによって表される。いくつかの好ましい実装形態では、各ノードに表される各異なるフラグメントメチル化パターンは、ノード内のそれぞれの１つまたは複数のフラグメントのフラグメントメチル化パターン全体に対応する（例えば、各断片がノードの開始位置および終了位置で開始および終了し、対応するフラグメントメチル化パターンがノード内に完全に含まれる）。

いくつかの実施形態において、ノードは、それぞれのノードにおけるそれぞれのフラグメントのフラグメントメチル化パターンに基づいて１つまたは複数のフラグメントをグループ化することによって構築される。

いくつかの実施形態において、ノードは、対応する開始メチル化部位と、対応するノードの末端メチル化部位との間および／またはそれらを含む同一のフラグメントメチル化パターンを有する１つ以上のフラグメントをグループ化することによって構築される。例えば、いくつかの実施形態において、参照ゲノム中の特定の開始位置および終了位置に対応する第１の開始メチル化部位および第１の終了メチル化部位をそれぞれ含む第１のフラグメントセットは、第１のノードにグループ化される。いくつかのそのような実施形態では、第２の複数のフラグメントのフラグメントメチル化パターンがCpG部位の配列中の１つ以上のCpG部位における第１の複数のフラグメントのフラグメントメチル化パターンと異なる場合、第１の開始メチル化部位および第１の端部メチル化部位とそれぞれ参照ゲノム中の同じ位置に対応する第２の開始メチル化部位および第２の端部メチル化部位を含む第２の複数のフラグメントは、それにもかかわらず、第２のノードにグループ化される。したがって、いくつかの上記実施形態では、それぞれのノードの開始メチル化部位および端部メチル化部位で開始および端部し、かつ特異的フラグメントメチル化パターンを含むフラグメントのみが、ノードに充填される。

いくつかの態様において、ノードは、対応する開始メチル化部位とそれぞれのノードの対応する末端メチル化部位との間および／またはそれらを含む異なるフラグメントメチル化パターンを有する１つ以上のフラグメントをグループ化することによって構築される。いくつかの上記態様において、ノードは、１、２、３、４、５、６、７、８、９、１０、または１０を超えるCpG部位状態（例えば、１つまたは複数のCpG部位で異なるメチル化状態を有する）だけ異なる１つまたは複数の断片をグループ化することによって構築される。いくつかのそのような態様において、ノードは、それぞれの１つ以上のフラグメントメチル化パターンが１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、または１００％異なる１つ以上のフラグメントをグループ化することによって構築される。

いくつかの実施形態において、ノードは、１つまたは複数のCpG部位において異なるCpG状態を有する１つまたは複数の断片をグループ化することによって構築され、ここで、それぞれの１つまたは複数のCpG部位は、それぞれの１つまたは複数の断片にわたって対応しない位置に位置する。いくつかの代替的な実施形態では、ノードは、CpG状態が１つ以上のCpG部位で異なる１つ以上のフラグメントをグループ化することによって構築され、ここで、それぞれの１つ以上のCpG部位は、それぞれの１つ以上のフラグメントにわたる対応する位置に位置する。例えば、いくつかの上記実施形態では、例えば、第１のCpG部位におけるメチル化状態にかかわらず、１つ以上のフラグメントをノードに含めることができ、一方、残りのすべてのCpG部位におけるメチル化状態は同一でなければならない。いくつかの上記実施形態では、すべてのフラグメントにわたって異なることが許可されるCpG部位は、間隔地図内のプレースホルダまたは代替表現（例えば、ワイルドカードまたはヌル文字）によって表される。

いくつかの実施形態において、それぞれの第１の状態間隔地図に対する独立した複数のノードは、それぞれの第１の状態間隔地図のそれぞれの対応するゲノム領域にも対応する。いくつかの上記実施形態では、それぞれの第１の状態間隔地図に対するそれぞれの独立した複数のノードは、それぞれの独立した複数のノードの特性（例えば、開始および終了メチル化部位および／または表されたフラグメントメチル化パターン）によって決定されるように、任意の他の第１の状態間隔地図に対する任意の他の独立した複数のノードから固有である（例えば、独立している）。

いくつかの実施形態において、ノードは、１つ以上のCpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態において、ノードは、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０または２０を超えるCpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態において、ノードは、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０または２０を超える隣接CpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態において、ノードは、ヒト参照ゲノム中の２～１００個の隣接するCpG部位を含む対応するゲノム領域またはサブ領域を表す。

図１２は、本開示のいくつかの実施形態による、２つの例示的ノードを含むそれぞれの間隔地図を示す。図１２では、４つの独立したフラグメントが２つのノードに編成されている。各ノードは、開始メチル化部位および終了メチル化部位（例えば、ノード１：位置０～４、ノード２：位置０～５）と、各フラグメントの開始位置と端位置との間のデータセットにおいて観察される各メチル化パターンの表現（例えば、ノード１: UMMU、UMMU；ノード２: UMMUM、UMUU）とを含む。この実施例では、開始および端部メチル化部位を示す位置は間隔［開始、端部］として表され、ここで、開いたブラケットは包括性を示し、閉じたブラケットは排他性を示す。したがって、図１２に示すように、位置［０，４］にまたがるノードは、位置０、１、２、および３に位置するCpG部位を含み、位置０、１、２、および３のそれぞれは、対応するゲノム位置を有する。同様に、位置［０，５］にまたがるノードは、位置０、１、２、３、および４に位置するCpG部位を含み、位置０、１、２、３、および４のそれぞれは、対応するゲノム位置を有する。いくつかの実施形態において、ノード内のゲノム位置は、隣接するCpG部位の位置に対応する。

ノード１の各断片は、同一の開始および終了メチル化部位（例えば、位置０および位置３に位置する）を含む。ノード２の各断片はまた、同じ開始および終了メチル化部位（例えば、位置０および位置４に位置する）を含む。ノード１の各断片は、いくつかの実施形態に従って同じフラグメントメチル化パターン（例えば、UMMU）を含むが、ノード２の各断片は、本開示のいくつかの代替実施形態に従って、異なるフラグメントメチル化パターン（例えば、UMMUMおよびUMUU）を含む。

各ノードは、ノード内に存在する各異なるフラグメントメチル化パターンを含むフラグメントのカウントをさらに含む。例えば、ノード１は、それぞれが同じフラグメントメチル化パターン（例えば、状態: UMMU、カウント：２）を含む２つのフラグメントを含み、ノード２は、それぞれが固有のフラグメントメチル化パターン（例えば、状態: UMMUM、カウント：１；状態: UMUU、カウント：１）を含む２つのフラグメントを含む。したがって、区間地図内の各ノードは、データセット内のメチル化配列情報を簡略化された容易に検索可能なフォーマットで効率的に提示する。

いくつかの実施形態において、第１のデータセット中の第１の複数のフラグメント中の各断片は、１つまたは複数の第１の状態間隔地図中のノード中で（例えば、それぞれのフラグメントのフラグメントメチル化パターンの表現として）表される。

いくつかの上記実施形態では、１つまたは複数の間隔地図は、したがって、データセット内の複数のフラグメント内のすべてのフラグメントのメチル化状態に関して無損失であるデータセット（例えば、メチル化シークエンシングデータセット）の低減された表現を提供する。いくつかの好ましい実施形態では、１つまたは複数の間隔地図は、計算的に処理可能な方法（例えば、テキストマッチング）で、リソース発見のための大規模データセットを照会するために使用される、低減された表現を提供する。

間隔地図の生成方法
上記では、メチル化シークエンシングデータセットからのフラグメントデータを用いて間隔マップのためのノードを構築する説明を提供するが、間隔マップを生成するための複数の実装が可能である。

例えば、いくつかの実施形態では、１つまたは複数の第１の状態間隔地図内のそれぞれの間隔地図の対応する独立した複数のノードは、１つまたは複数の対応するゲノム領域内の対応する領域を表す対応するツリーとして配置される。それぞれの区間地図に対する対応する独立した複数のノード内のそれぞれのノードは、対応するゲノム領域のサブ領域を表す。

いくつかの実施形態では、各対応する木は、対応する独立した複数のノードを対応する複数のリーフに配置し、対応する複数のリーフ内の各リーフの親ノードは、１つ以上の子ノードを参照する。

いくつかの実施形態では、それぞれの間隔地図の独立した複数のノードは、マスターノードと複数のワーカーノードと、属性値をDHT鍵にマッピングすることによってオブジェクト記憶およびルックアップを管理するために分散ハッシュテーブル（DHT）を利用する、構造化または非構造化ピアツーピアリソース発見骨格（例えば、MAAN、SWORD、Mercury、Brunet、Chord、CAN、および／またはPastry）と、を含むクライアント／サーバリソース発見骨格を使用して構築される。

いくつかの好ましい実施形態では、木は、ランダム化表面積発見的を有するKd木の一次元版である。例えば、その全体が参照により本明細書に組み込まれているWald、２００７、"On Fast Construction of SAH-based Bounding Volume Hierarchies"、IEEE、doi：１０．１１０９／RT．２００７．４３４２５８８を参照されたい。ある実施形態では、木は自己組織化再帰的分割マルチキャスト木である。

いくつかの実施形態では、木は、マッチ木を使用して作成される。MatchTreeは、分散問合せ処理（例えば、メチル化状態パターンを含む間隔とゲノム配列および／または配列決定データセットとのテキストマッチング）および結果の集約（例えば、問合せられたメチル化状態パターンを含む間隔の同定）のための自己組織化木を作成する、構造化されていないP２Pベースのリソース発見フレームワークである。木構造は、高い管理コスト、スケーラビリティの制限、およびマスターノードの障害に起因するリソースへのアクセスの損失を被る代替方法の障害を最小限に抑える。MatchTreeはさらに、複雑なクエリ、部分文字列（例えば、部分文字列）マッチング、および／または正規表現マッチング（例えば、ワイルドカード）、問い合わせの完全性（例えば、利用可能なすべての資源の完全な検索）を保証することによって、構造化P２Pフレームワークよりも利点を提供する。例えば、Lee et al.、２０１３、"MatchTree: Flexible、scalable、and fault-tolerant wide-area resource discovery with distributed matchmaking and aggregation"、Fut Gen Comp Sys ２９、１５９６－１６１０を参照されたい。これらは。

いくつかの実施形態では、間隔地図は、当業者に明らかなように、本明細書に記載される方法および実施形態のいずれか、またはそれらの任意の修正、置換、または組合せを使用して生成される。注目すべきことに、メチル化パターンの同定のための間隔地図の使用は、メチル化パターン同定の感度（例えば、問い合わせ完全性）および精度（例えば、照合）の両方を改善することによって、従来の方法よりも利点を提供する。さらに、計算負荷を減らすことによって（例えば、MatchTreeが代替フレームワーク上でより少ないメモリを必要とする場合）、間隔地図は、効率を改善し、メチル化パターンの探索および識別の間の待ち時間を減らすことができ、したがって、（例えば、WGSおよび／またはWGBSによって生成された大規模なシークエンシングまたはメチル化シークエンシングデータセットを使用する場合に）大規模なデータセットを取り扱う際に、重大な利益を提供する。

間隔地図（例えば、MatchTree）を使用したクエリの伝播および結果の集約は、本開示の後のセクションで詳細に論じられ、例えば、その全体が参照により本明細書に組み込まれる、Leeら、２０１３、「MatchTree: Flexible、scalable、およびフォールトトレラントな、分散マッチメーキングおよび集約を伴う広域リソース発見」、Fut Gen Comp Sys ２９、１５９６－１６１０に記載されている。

第１および第２の状態間隔地図
図２Dのブロック２４２を参照すると、いくつかの実施形態では、第２のデータセットを使用して、１つまたは複数の対応するゲノム領域について、１つまたは複数の第２の状態間隔地図が生成される。１つ以上の第２の状態間隔マップ内の各第２の状態間隔マップは、対応する独立した複数のノードを備える。１つまたは複数の第２の状態区間地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第２のデータセット内の第２の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンによって特徴づけられる、（i）異なるフラグメントメチル化パターンの表現、および（ii）対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有する第２のデータセット内のフラグメントのカウント。

いくつかの実施形態では、１つまたは複数の第２の状態間隔地図は、本明細書に開示される方法のいずれかを使用して（例えば、１つまたは複数の第１の状態間隔地図について説明される方法および／または実施形態のいずれかを使用して）生成される。

いくつかの実施形態において、１つまたは複数の第１の状態間隔地図および／または１つまたは複数の第２の状態間隔地図は、それぞれのデータセットからのそれぞれの複数のフラグメントにおける１つまたは複数のフラグメントメチル化パターンを表し、ここで、それぞれのデータセットは、癌サンプルから取得される（例えば、１つまたは複数の第１および／または第２の間隔地図は、癌データセットを使用して生成される）。いくつかの実施形態において、１つまたは複数の第１の状態区間地図および／または１つまたは複数の第２の状態区間地図は、それぞれのデータセットからのそれぞれの複数のフラグメントにおける１つまたは複数のフラグメントメチル化パターンを表し、ここで、それぞれのデータセットは、非癌サンプルから取得される（例えば、１つまたは複数の第１および／または第２の区間地図は、非癌データセットを使用して生成される）。

いくつかの実施形態において、１つまたは複数の第１の状態間隔地図は、癌データセットを使用して生成され、１つまたは複数の第２の状態間隔地図は、非癌データセットを使用して生成される。あるいは、いくつかの実施形態では、１つまたは複数の第１の状態間隔地図は、非癌データセットを使用して生成され、１つまたは複数の第２の状態間隔地図は、癌データセットを使用して生成される。いくつかの実施形態において、第１の癌状態（例えば、癌／非癌、癌サブタイプ、癌の病期、および／または起源組織）のためのデータセットを用いて１つ以上の第１状態間隔地図が生成され、第１の癌状態とは異なる第２の癌状態のためのデータセットを用いて１つ以上の第２状態間隔地図が生成される。

いくつかの実施形態において、それぞれの生物学的試料は、それぞれの１つ以上の間隔地図によって表される。いくつかの実施形態において、各試験対象は、それぞれの１つ以上の間隔地図によって表される。いくつかの代替的な実施形態では、複数の生物学的試料および／または試験対象のセットは、それぞれの１つ以上の間隔地図によって表される（例えば、研究グループ内の複数の生物学的試料および／または試験対象のセットがプールされる場合）。

例えば、ブロック２４４を参照すると、いくつかの実施形態では、１つ以上の第１の状態間隔地図は、１つの第１の状態間隔地図から構成され、１つ以上の第２の状態間隔地図は、１つの第２の状態間隔地図から構成される。
ブロック２４６を参照すると、いくつかの好ましい実施形態では、１つまたは複数の第１の状態間隔地図は、複数の第１の状態間隔地図である。さらに、１つ以上の第２の状態間隔地図は、複数の第２の状態間隔地図である。さらに、１つ以上の対応するゲノム領域は、複数のゲノム領域である。複数のゲノム領域内のそれぞれのゲノム領域は、第１の複数の区間地図内の第１の状態区間地図および第２の複数の区間地図内の第２の状態区間地図によって表される。

図２Dのブロック２４８～２５２を参照すると、いくつかの上記実施形態では、複数のゲノム領域は、１０～３０のゲノム領域である。いくつかの上記態様において、複数のゲノム領域中の各ゲノム領域は、異なるヒト染色体である。いくつかの上記実施形態では、複数のゲノム領域は、２～１０００のゲノム領域、５００～５０００のゲノム領域、１０００～２０，０００のゲノム領域、または５０００～５０，０００のゲノム領域からなる。
いくつかの実施形態において、複数の第１および／または第２の状態間隔地図に対応する複数のゲノム領域は、本明細書に開示されるメチル化配列決定のための方法のいずれかを使用して取得される。例えば、図２Dのブロック２５４を参照すると、いくつかの好ましい実施形態では、第１のデータセットを取得し、第２のデータセットを取得するメチル化配列決定は、複数のプローブを使用して標的配列決定され、複数のゲノム領域内の各ゲノム領域は、複数のプローブ内のプローブに関連付けられる。

適格なメチル化パターンの同定
ブロック２５６を参照すると、いくつかの実施形態では、１つまたは複数の第１の間隔地図および１つまたは複数の第２の間隔地図は、複数の適格なメチル化パターンについてスキャンされる。複数の適格性メチル化パターンにおける上記適格性メチル化パターンの各々は、（i）所定のCpG部位数範囲にある長さを有し、１つ以上の第１の間隔地図および１つ以上の第２の間隔地図のフラグメントメチル化パターン内にあり、（ii）１つ以上の選択基準を満たし、（iii）対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lに及ぶ。このスキャンの結果、癌状態を識別または示す複数の適格なメチル化パターンが同定される。選択基準、問い合わせメチル化パターン、および癌状態を識別または示す同定されたメチル化パターンに対する間隔地図を用いて、適格なメチル化パターンを同定するための詳細な実施形態を以下に記載する。

メチル化パターンの適格性確認のための選択基準
いくつかの実施形態において、がん状態（例えば、がん状態の第１の状態とがん状態の第２の状態とを識別する）を識別または示す複数の適格なメチル化パターンの同定は、第１のがん状態と第２のがん状態との間で差異的に存在する１つ以上のメチル化パターンを同定することを含む。言い換えれば、いくつかの実施形態において、適格性メチル化パターンは、CpG部位の配列中の１つ以上のCpG部位が第一および第二の癌状態の間で異なるメチル化状態を有する、特定のゲノム領域またはサブ領域に対応するCpG部位の配列を含む。いくつかの上記実施形態において、メチル化パターンが第一および第二の癌状態（例えば、選択基準）の間で差次的に存在する程度は、メチル化パターンが適格なメチル化パターンであるかどうかを決定する。

例えば、図２Eのブロック２５８を参照すると、いくつかの実施形態において、１つまたは複数の選択基準は、メチル化パターン（i）が、第１の周波数閾値を満たす第１の周波数を有する１つまたは複数の第１の間隔地図において表され、（ii）第１の状態深さを満たすカバレッジを有する１つまたは複数の第１の間隔地図において表され、（iii）第２の周波数閾値を満たす第２の周波数を有する１つまたは複数の第２の間隔地図において表されることを指定する。

具体的には、ブロック２６０を参照すると、いくつかの上記実施形態では、（i）メチル化パターンは、１つまたは複数の第１の間隔地図内のメチル化パターンの周波数が第１の周波数閾値を超える場合に、第１の周波数閾値を満たす第１の周波数を有する１つまたは複数の第１の間隔地図内で表される。さらに、（ii）メチル化パターンは、１つまたは複数の第１の間隔地図中のメチル化パターンを包含する配列読み取りの被覆率が第１の状態深さを超えるときに、第１の状態深さを満たす被覆率を有する１つまたは複数の第１の間隔地図中で表される。最後に、（iii）メチル化パターンは、１つまたは複数の第２の間隔地図内のメチル化パターンの周波数が第２の周波数閾値未満である場合に、第２の周波数閾値を満たす第２の周波数を有する１つまたは複数の第２の間隔地図内に表される。

例えば、いくつかの上記実施形態では、メチル化パターンは、所与の第１の閾値を上回る頻度で、第１のデータセットの第１の複数のフラグメント（例えば、１つ以上の第１の間隔地図によって表されるようである）中に存在しなければならず、ここで、それぞれのメチル化パターンに対応するゲノム領域における第１のデータセットの被覆率深さ（例えば、配列決定深さ）は、（例えば、それぞれのメチル化パターンのそれぞれの１つ以上のCpG部位にわたって）所与の深さを上回っている。逆に、同じメチル化パターンが、所与の第２の閾値を下回る周波数で、第２のデータセットの第２の複数のフラグメント（例えば、１つ以上の第２の間隔地図によって表されるようである）中に存在しなければならない。これらの制約を満たすメチル化パターンは、いくつかの実施形態では、適格なメチル化パターンとみなされる。

いくつかの実施形態において、頻度は、それぞれのメチル化パターンを含む複数のフラグメント中のフラグメントの数（例えば、それぞれのメチル化パターンに対応するゲノム領域における被覆率深さ）によって正規化された、それぞれのデータセット中の複数のフラグメント中でメチル化パターンが観察される周波数である。いくつかの実施形態において、メチル化パターンの頻度および／またはメチル化パターンが各データセット中で観察される回数は、各対応するゲノム領域中の各CpG部位に識別子を割り当てることによって集計される。

特定の例示的な実施形態では、上記の計算は、選択基準に対する制約を定義するために使用される。例えば、ブロック２６２を参照すると、いくつかの実施形態では、第１の周波数閾値は０．２であり、第１の状態深さは１０であり、第２の周波数閾値は０．００１である。

いくつかの実施形態において、第１の周波数閾値は、０．０５と０．４０との間の値（例えば、０．０５、０．０６、０．０７、０．０８、０．０９、１０．１１、０．１２、０．１３、０．１４、０．１５、０．１６、０．１７、０．１８、０．１９、０．２０、０．２１、０．２２、０．２３、０．２４、０．２５、０．２６、０．２７、０．２８、０．２９、０．３０、０．３１、０．３２、０．３３、０．３４、０．３５、０．３６、０．３７、０．３９、または０．４０）であり、第１の状態深さは２と１００との間であり、第２の周波数閾値は、０．０５未満（例えば、０．０５、０．

いくつかの実施形態において、それぞれの第１および／または第２のデータセットにおける第１および／または第２の複数のフラグメントの被覆率深さは、既知である。いくつかの実施形態では、それぞれの第１および／または第２のデータセット内の第１および／または第２の複数のフラグメントは、正の整数である被覆率深さを有する。
いくつかの実施形態では、ブロック２６４を参照すると、いくつかの実施形態では、それぞれのメチル化パターンは、式のときに選択基準を満たす：

メチル化パターンについては、３、４、５または６を超え、ここで、第２のカウントは、１つまたは複数の第２の状態間隔地図におけるそれぞれのメチル化パターンのカウントであり、第２の状態深さは、１つまたは複数の第２の状態間隔地図におけるそれぞれのメチル化パターンによって表されるゲノムの領域または領域における第２のデータセットによるカバレッジである。

対応する初期CpG部位および対応する最終CpG部位によって境界付けされたゲノムの単一領域を表す単一の第２の状態間隔地図が存在する場合、第２のカウントは、単一の第２の状態間隔地図におけるそれぞれのメチル化パターンのカウントであり、第２の状態深さは、対応する初期CpG部位および単一の第２の状態間隔地図の対応する最終CpG部位にまたがる第２のデータセットにおけるフラグメントの総数である。

複数の第２の状態間隔地図があり、それぞれが対応する最初のCpG部位と対応する最終CpG部位とによって境界付けられたゲノムの対応する領域を表す場合、第２のカウントは、複数の単一の第２の状態間隔地図にわたるそれぞれのメチル化パターンのカウントの合計である。さらに、第２の状態深度は、複数の第２の状態間隔地図内の任意の第２の状態間隔地図に関連する対応する初期CpG部位および対応する最終CpG部位に及ぶ第２のデータセット内のフラグメントの総数である。

いくつかの実施形態では、単一の状態間隔地図が存在する。いくつかの実施形態では、２つから１００の間の状態間隔地図が存在する。いくつかの実施形態では、異なる染色体ごとに異なる状態間隔地図が存在する。
いくつかの実施形態では、例えば、第１および／または第２のデータセットが、１つ以上のプールされたメチル化配列決定データセットおよび／または固定された、またはそうでなければ非限定的な被覆率深さを有する確立された制御データセットを含む場合、被覆率深さは、選択基準を満たすためにメチル化パターンの深さ閾値を超える必要はない。

適格なメチル化パターンの他の特徴
いくつかの実施形態において、適格なメチル化パターンは、特定のゲノム領域またはサブ領域（例えば、参照ゲノム中）に対応する非隣接CpG部位の差次的にメチル化された配列である。いくつかの態様において、適格なメチル化パターンは、特定のゲノム領域またはサブ領域に対応する連続するCpG部位の差次的にメチル化された配列である。

いくつかの態様において、適格なメチル化パターンは、変形例対立遺伝子の等価物とみなされる。例えば、いくつかの実施形態では、特定のゲノム領域またはサブ領域に対応するCpG部位の規定された長さlの間隔は、１つ以上のデータセットにおいて複数の別個メチル化パターンを有することができる。いくつかの上記実施形態において、変形例対立遺伝子は、それぞれの間隔（例えば、特定の遺伝子座における）についての第２のメチル化パターンとは異なる、CpG間隔lについての第１のメチル化パターンである。いくつかの上記実施形態において、CpG間隔lに対する第１のメチル化パターンは、参照対立遺伝子として定義され、第１のメチル化パターンとは異なる、同じCpG間隔lに対する第２のメチル化パターンは、変異対立遺伝子として定義される。

いくつかの実施形態では、３つ以上の別個メチル化パターン（例えば、複数の変異対立遺伝子）が、第１および／または第２のデータセットにわたってそれぞれのCpG間隔lについて観察される。いくつかの上記実施形態では、それぞれのCpG間隔lについて３つ以上のメチル化パターンが観察される場合、選択基準のストリンジェンシーは、それぞれのCpG間隔（例えば、「まれな変形例」）において１つの適格なメチル化パターンのみについて選択するように調整される。いくつかの態様において、選択基準の厳密性は調整されず、複数の適格なメチル化パターン中の各メチル化パターンが選択基準を満たす場合、複数の適格なメチル化パターンが、それぞれのCpG間隔について対応するゲノム領域において同定される。

いくつかの代替的な実施形態では、複数のメチル化パターンは、メチル化パターンが、（i）第１の速度閾値を満たす第１の速度を有する１つまたは複数の第１の間隔地図で表され、（ii）第１の状態深さ閾値を満たすカバレッジを有する１つまたは複数の第１の間隔地図で表され、（iii）第２の速度閾値を満たす第２の速度を有する１つまたは複数の第２の間隔地図で表され、ここで、速度は、カバレッジ深さ、プルダウンバイアス、推定腫瘍分率、および特定の座位におけるCpG間隔の位置（例えば、ポアソン速度）によって正規化される、選択基準を満たす。

メチル化パターンの照会
いくつかの実施形態では、１つまたは複数の第１の間隔地図および１つまたは複数の第２の間隔地図を複数の適格なメチル化パターンについてスキャンすることは、それぞれが所定のCpG部位数範囲にある長さを有する複数の問い合わせメチル化パターンについてスキャンすることと、１つまたは複数の問い合わせメチル化パターンが１つまたは複数の選択基準を満たすかどうかを決定することとを含む。いくつかの実施形態において、所定のCpG部位数範囲は、５つのCpG部位と２０のCpG部位との間である。いくつかの実施形態において、所定のCpG部位数範囲は、単一のCpG数（例えば、５個のCpG部位）である。複数の問い合わせメチル化パターンにおける各問い合わせメチル化パターンは、所定のCpG部位数範囲内のメチル化状態の配列を含み、複数の問い合わせメチル化パターンに対する１つ以上の第１の間隔地図および１つ以上の第２の間隔地図をスキャンすることは、問い合わせメチル化パターンに一致する、それぞれの１つ以上のゲノム領域またはサブ領域（例えば、特定の遺伝子座または遺伝子座）におけるメチル化パターンを同定することを含む。

いくつかの実施形態において、問い合わせメチル化パターンは、１つ以上のメチル化状態の表現を含む。例えば、いくつかの実施形態において、長さl = ５の問い合わせメチル化パターンは、５つのメチル化部位（例えば、５つのCpG部位）の全長を構成する５つのメチル化部位についてのMおよびUメチル化状態の任意の組合せにおけるMMM、MMUMMまたはM／Uであり得る。概して、長さlのメチル化パターン（ここで、lは、メチル化パターンにおける独特のメチル化部位（例えば、CpG）の数を表す正の整数であり、メチル化（M）対メチル化（U）のみが、そのようなメチル化部位の各々について考慮される場合、２つの考えられるメチル化パターンが^l。したがって、たとえば８つのメチル化部位（たとえばCpG）のメチル化パターンには、２×２×２×２×２×２×２×２または２５６種類のメチル化パターンがある。
いくつかの好ましい実施形態では、１つまたは複数の第１の間隔地図および１つまたは複数の第２の間隔地図をスキャンすることは、対応する複数のノードに表される複数のフラグメントメチル化パターンに完全に含まれる１つまたは複数の問い合わせメチル化パターンについてスキャンすることを含む。いくつかの実施形態において、それぞれの問い合わせメチル化パターンは、対応するノードにおけるそれぞれのフラグメントメチル化パターンの一部を含む。いくつかの実施形態において、それぞれの問い合わせメチル化パターンは、対応するノードにおけるそれぞれのフラグメントメチル化パターンからなる。

いくつかの代替実施形態では、複数の問い合わせ・メチレーション・パターンの中の各問い合わせ・メチレーション・パターンは、長さlの一組のメチレーション状態を含む。ここで、lは、CpGサイトの数を示す正の整数であり、１つ以上の第１の状態間隔・地図を走査し、複数の問い合わせ・メチレーション・パターンのための１つ以上の第２の状態間隔・地図は、メチレーション状態の問い合わせ・セットに一致する一組のメチレーション状態を識別することを含む。いくつかの上記実施形態では、それぞれの１つ以上のゲノム領域またはサブ領域（例えば、特定の遺伝子座または遺伝子座）におけるメチル化状態のセットは、問い合わせメチル化パターンにおけるメチル化状態のセットと比較して、連続的、非連続的、配列内、または配列外である。

いくつかの実施形態では、１つまたは複数の第１の状態間隔地図および１つまたは複数の第２の状態間隔地図をスキャンすることは、対応する問い合わせメチル化パターンに一致するそれぞれのゲノム領域またはサブ領域で適格メチル化パターンを同定し、ここで、適格メチル化パターン中の１つまたは複数のメチル化状態は、問い合わせメチル化パターン中のそれぞれの１つまたは複数のメチル化状態とは異なる。いくつかの上記実施形態では、適格なメチル化パターンにおける少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、または１０を超えるメチル化状態は、問い合わせメチル化パターンとは異なる。

いくつかの実施形態において、問い合わせメチル化パターンとは異なる適格メチル化パターンにおける少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、または１０を超えるメチル化状態は、問い合わせメチル化パターンの開始位置または終了位置に位置する（例えば、かつら）。いくつかの実施形態において、問い合わせメチル化パターンとは異なる、適格なメチル化パターンにおける少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、または１０を超えるメチル化状態は、問い合わせ配列内の特定の位置に位置する（例えば、ワイルドカード）。例えば、特定の位置は、記号（例えば、「＊」、「／」）を用いて問い合わせメチル化パターンにおいて予め決定され得る。いくつかの実施形態において、１つ以上の比CpG部位（例えば、１つ以上の信頼性のないCpG部位）は、問い合わせメチル化パターンにおいてCpG部位の配列から除去される。いくつかの実施形態において、１つ以上の比CpG部位は、それぞれの問い合わせメチル化パターン（例えば、「＊」、「／」）におけるメチル化状態の配列にプレースホルダーまたは置換表現を挿入することによって、問い合わせメチル化パターンにおけるCpG部位の配列においてバイパスされる。
いくつかの実施形態では、複数の問い合わせメチル化パターンは、１つまたは複数の問い合わせメチル化パターン間の１つまたは複数の組み合わせ、連結、空間的および／または構造的関係を含む。例えば、いくつかの上記実施形態では、１つまたは複数の第１の状態間隔地図をスキャンし、１つまたは複数の第２の状態間隔地図は、１つまたは複数の問い合わせメチル化パターンおよび／またはそれらの任意の組み合わせを検索する（例えば、ブール検索を使用する）。いくつかの実施形態において、問い合わせメチル化パターンは、問い合わせメチル化パターンの正規表現を含む。

いくつかの実施形態では、１つまたは複数の第１の状態間隔地図および１つまたは複数の第２の状態間隔地図を複数の適格性メチル化パターンについてスキャンすることは、所定数のCpG部位（または所定のCpG部位数範囲）についてメチル化状態のすべての可能な組み合わせを含む複数の問い合わせメチル化状態を検索する。例えば、いくつかの実施形態では、所定のCpG部位数範囲は、単一の数－CpG長さlであり、長さl = ３の複数のすべての可能な問い合わせメチル化パターンは、MMM、MMU、MUM、MUU、UMM、UMU、UMU、UMM、およびUUUを含む。いくつかの実施形態において、複数の可能な問い合わせメチル化パターンは、メチル化、非メチル化、曖昧性、変異体、および／または矛盾する表現を含むメチル化状態の組合せをさらに含む。いくつかの実施形態において、不明瞭、変異体、および／または矛盾したメチル化部位は、ワイルドカード部位として扱われる。すなわち、候補パターンが適格であるが、あいまい、変異、および／または矛盾したメチル化部位については、候補パターンは適格であるとみなされる。

いくつかの実施形態では、複数の問い合わせメチル化パターンは、問い合わせメチル化パターンの所定のセットを含む。いくつかの上記実施形態において、複数の問い合わせメチル化パターンは、第１の状態および／または第２の状態（例えば、１つ以上の癌状態に対するバイオマーカー）に関連するメチル化パターンを含む。いくつかの実施形態において、問い合わせメチル化パターンの所定のセットは、メチル化データベース（例えば、MethHC、MethHC ２．０、MethDB、PubMeth、IMETHYLなど）、実験例知見、および／または刊行物から得られる既知のメチル化パターンを含む。例えば、Huangら、２０２１年、「MethHC ２．０：ヒトがんにおけるDNAメチル化および細胞発現の情報リポジトリー」、核酸研究４９（D１）、D１２６８－D１２７５; Grunauら、２００１年、「DNAメチル化データのためのMethDB－a公開データベース」、核酸研究２９（１）、２７０－２７４; Ongentら、「PubMeth：テキストマイニングおよび専門家の注釈を組み合わせたメチル化データベース」、核酸研究: doi:１０．１０９３／nar／gm７８８；およびHachiyaら、２０１７年、「個々に可変なDNAメチル化部位のゲノムワイド識別は、エピ遺伝的アソシエーション研究の有効性を改善する」、NPJ Genom Medを参照されたい。２０１７.２:１１, その各々は、参照により本明細書に組み込まれる。いくつかの実施形態において、複数のメチル化パターンをスキャンすることは、特定の所定の遺伝子座（例えば、参照ゲノム中の特定の位置にインデックス付けされた特定の１以上のCpG部位）において、所定のセットのメチル化状態を検索する。いくつかの実施形態において、所定の問い合わせメチル化パターンのセットおよび／または所定の１つ以上の遺伝子座が、それぞれの１つ以上の間隔地図が生成される、それぞれの被験者および／またはそれぞれのそれぞれの生物学的試料について取得される。いくつかの実施形態では、問い合わせメチル化パターンおよび／または所定の１つ以上の遺伝子座の単一の所定のセットが、複数の被験体および／または生物学的試料にわたる複数の間隔地図をスキャンするために使用される。

いくつかの実施形態では、第２の１つ以上の問い合わせメチル化パターンに対する類似性閾値を満たす１つ以上の問い合わせメチル化パターンを除去するために、複数の問い合わせメチル化パターンがフィルタリングされる。このようなフィルタリングは、各パターンがある程度の一意性を持つことを保証する。例えば、いくつかの実施形態において、上記フィルタリングは、複数のメチル化パターンにおける第２の１つ以上の問い合わせメチル化パターンに類似する、５０パーセント、６０パーセント、７０パーセント、８０パーセント、９０パーセント、または９５パーセントを超えるメチル化パターンを除去する。実施例えば、類似度閾値が７０％であるメチル化パターンMMMおよびMMUMMの実施例を考えると、２つのパターンにおけるメチル化部位の少なくとも７０％が同じである場合、類似度閾値が満たされているとみなされる。この実施例では、２つのメチル化パターンは、６つのメチル化部位のうち５つで同じメチル化値を有するため、５／６または８３％の類似性を有する。したがって、この実施例では、２つのメチル化パターンのうちの１つが問い合わせ化パターンから除去される。

ブロック２６６～２７０を参照すると、いくつかの実施形態では、長さlのメチル化部位のそれぞれの可能なメチル化パターンが、複数の照会によってサンプリングされる。ある態様において、lは、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０個のCpG部位である。いくつかの実施形態において、CpG部位数範囲は、l個の隣接するCpG部位である。いくつかの実施形態において、lは、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０の隣接するCpG部位である。いくつかの実施形態において、所定のCpG数範囲は、ヒト参照ゲノム中の２～１００個の連続するCpG部位である。

いくつかの実施形態において、CpG部位の所定の数は、適応性である。いくつかの態様において、所定数のCpG部位は、規定数のCpG部位からの＋／Aの範囲であり、ここで整数（例えば、１、２、３、４、５など）である。

スキャン間隔地図
いくつかの実施形態では、１つ以上の第１の間隔地図および／または１つ以上の第２の間隔地図は、対応するゲノム領域および／またはサブ領域を除去し、それによって走査および同定の計算負荷を低減するために、走査の前にフィルタリングされる。いくつかの実施形態において、フィルタリングは、除外されるゲノム領域（例えば、ブラックリストに登録された領域および／または識別不良領域）を除去する。いくつかの実施形態において、フィルタリングは、高いノイズレベルを有するゲノム領域を除去する。例えば、いくつかの実施形態では、ノイズが高い領域は、腫瘍分率推定値に人為的に下限を課すことによって結果をスキューすることができる（例えば、メチル化状態間隔におけるノイズの計算および分析に関するさらなる議論については、下記の実施例４を参照されたい）。

ブロック２７２を参照して、いくつかの実施形態において、対応する独立した各区間地図の各区間地図の１つ以上の複数の節点が対応するツリーとして配置され（例えば、Wald、２００７年「SAHに基づく結合体積木の高速建設について」、IEEE、doi：１０．１１０９／RT．２００７．４３４２５８８に記載されているようにランダム化された表面積ヒューリスティックなKdツリーの１次元版、Leeら、２０１３年「マッチメーキングおよび凝集を伴うMatchTree: Flexible、scalable、および耐故障広域資源発見」、Fut Gen Comp Sys ２９、１５９６－１６１０; doi:１０．１０１６／j．future．２０１２．０８．００９など）、対応する１以上のゲノム領域における対応領域を表す。それぞれの区間地図に対する対応する独立した複数のノード内のそれぞれのノードは、対応するゲノム領域のサブ領域を表す。

図２Fのブロック２７４を参照すると、いくつかの上記実施形態では、各対応する木は、対応する独立した複数のノードを、対応する複数のリーフ内の各リーフの親ノードが１つ以上の子ノードを参照する、対応する複数のリーフ内に配置する。１つ以上の第１の間隔地図および１つ以上の第２の間隔地図を走査することは、複数のクエリを生成し、ここで、複数のクエリ内のそれぞれのクエリは、長さlの異なる候補メチレーションパターンに対するものである。さらに、複数のクエリ内の各クエリは、（i）対応する木の対応する独立した複数のノード内の各ノードにおいて、それぞれのクエリとのマッチメーキングを実行し、（ii）それぞれのクエリをそれぞれのノードの子ノードとさらにマッチメーキングするために、それぞれのノードの子ノードにクエリをさらに伝播し、（iii）それぞれのマッチメーキングの結果をそれぞれのノードの親ノードに配信するために使用される。

例えば、図１２を参照すると、CpG部位位置０，１，２（例えば、［０，３］）におけるメチル化状態「UMM」の配列を含む問い合わせメチル化パターンについて間隔地図をスキャンすると、問い合わせメチル化パターンを構成する１つ以上のフラグメントを含むすべてのノードが返される。したがって、問い合わせは各ノードでマッチメーキングを実行し、結果を伝播する（たとえば、ノード１と２を返す）。照会されたメチル化パターンの周波数は、照会メチル化パターンを含むフラグメントメチル化パターンを有する各ノード中のフラグメントのカウントを用いて、伝播された結果から計算される。例えば、ノード１および２におけるCpG部位０、１、２におけるメチル化パターンUMMの周波数は、７５％として計算される（図１２に示すように、ノード１および２を横切る位置０、１および２でカウントされた４つのパターンのうち、合計３つのUMMカウントについて、ノード１におけるUMMの２カウント、ノード２におけるUMMの１カウント、および位置０、１および２に対するノード２におけるUMUの１カウント）。

いくつかの実施形態では、問い合わせ・メチレーション・パターンのためにインターバル・地図を走査すると、ノード内の任意の可能な開始メチレーション位置において、問い合わせ・メチレーション・パターンのために各ノードが走査される。例えば、いくつかのそのような実施形態では、問い合わせは、問い合わせmylationパターンがノードの最初のmethylation部位で開始しない場合であっても、ノードを返す。例えば、図１２を参照すると、ノード１において、いくつかの実施形態では、検索クエリがMMUである場合、ノード１および２は、それぞれのノード１および２の最初のメチル化部位でパターンが始まらないにもかかわらず、両方とも識別される。同様に、いくつかの実施形態では、問い合わせ・メチレーション・パターンのためにインターバル・地図を走査することは、ノードの開始、中間、および／または端部を走査する。いくつかの実施形態において、問い合わせメチル化パターンについて間隔地図を走査することは、メチル化、非メチル化、あいまい、変異、および／または矛盾した状態を含む問い合わせメチル化パターンについて各ノードを走査する。

ブロック２７６を参照すると、いくつかの実施形態では、ノード内の長さlのそれぞれの可能なメチル化パターンが、複数のクエリによってサンプリングされる。したがって、例えば、図１２のノード１のフラグメントUMMUの場合、およびUMの検索クエリ（および検索がノードの最初のメチル化部位で開始するパターンを必要としない場合）を考える。この実施例では、検索照会は、UMMU の位置１と２で検索照会UM への一致を調べ、UMMU の位置２と３で検索照会UM への一致を調べ、UMMU の位置３と４で検索照会への一致を調べる。

ブロック２７８を参照すると、いくつかの好ましい実施形態では、木は、ランダム化表面積発見的を有するK寸法木の一寸法版である。例えば、その全体が参照により本明細書に組み込まれているWald、２００７、"On Fast Construction of SAH-based Bounding Volume Hierarchies"、IEEE、doi：１０．１１０９／RT．２００７．４３４２５８８を参照されたい。いくつかの代替実施形態では、木は自己組織化再帰的分割マルチキャスト木である。いくつかの上記実施形態では、間隔地図の走査は、マッチツリーを使用して実行される。

いくつかの上記実施形態では、マッチメーキングの結果を対応するツリー内の親ノードに配信することは、再帰的に行われ、それによって、すべての子ノードから親ノードへの結果を集約する。いくつかの上記実施形態では、一致させる問い合わせは、リソース要件として、MatchTreeアルゴリズムによって取得される。いくつかの実装形態では、結果（例えば、最良適合、正確な一致、被覆率深さ、最小または最大VAF、開始位置、終了位置、および／またはソートまたはフィルタリングを決定する他の値）を返すために必要な追加のパラメータが、ランク基準として取得される。リソース要件を満たすノードは、ランク付け基準によってランク付けされ、指定された所望回数kの結果（例えば、ノード）が与えられると、MatchTreeは、ランク付け基準によってランク付けされた上位k個のノードを返す。

いくつかの実施形態では、計算負荷を低減するために、ツリーに含まれる応答ノードの数を推定することによって、クエリ応答時間を定義し、および／または生成された応答の量に上限を設定するために、ヒューリスティックを使用してクエリを修正する。例えば、いくつかの上記実施形態では、走査の以前の実装からのキャッシュされた結果分布は、所望のリソース（例えば、メチル化パターン）を含む可能性のある結果（例えば、ノード）を予測するために使用される。

いくつかの実施形態では、問い合わせは、タイムアウト値（例えば、凝集進行を伴う動的タイムアウト、自律的タイムアウト、および／またはユーザ入力を伴う静的タイムアウト）および／または冗長トポロジーを使用して、ネットワーク障害を回避し、一貫性のあるパフォーマンスを提供することを含む。例えば、いくつかのこのような実施形態では、ファーストフィットリソース発見は、すべての可能な結果が集約された後ではなく、所望回数kの結果が満たされたときに、子ノードから親ノードに集約された結果を返すことによって、待ち時間を改善する。さらに、いくつかの実施形態では、ノード障害の場合に問合せの完全性を保証するために、前方方向と後方方向の両方で問合せと集約結果を伝播するために冗長トポロジが使用される。
例えば、Leeら、２０１３、「MatchTree：分散マッチメーキングおよび凝集によるフレキシブル、スケーラブル、フォールトトレラントな広域資源発見」、Fut Gen Comp Sys ２９、１５９６－１６１０; doi:１０．１０１６／j．future．２０１２．０８．００９、およびWangら、２０１５、「短文の構文ベースのディープマッチング」、arXiv：１５０３．０２４２７v６［cs．CL］、を参照することにより、それぞれが本明細書に組み込まれる。

いくつかの代替的な実施形態では、間隔地図以外の方法が、癌状態を識別または示す複数の適格なメチル化パターンを同定するために使用される。いくつかの実施形態において、複数の適格なメチル化パターンを同定することは、本明細書に記載される方法および実施形態のいずれか（例えば、走査間隔地図）、または当業者に明白であるような任意の修正、置換、代替もしくはそれらの組み合わせを使用して行われる。
がんの状態の識別。

いくつかの実施形態において、スキャンは、第１の癌状態（例えば、癌／非癌、癌サブタイプ、癌の病期、および／または起源の組織）と第１の癌状態とは異なる第２の癌状態とを識別する複数の適格なメチル化パターンを同定する。例えば、いくつかの実施形態において、複数の適格性メチル化パターンは、癌を非癌（例えば、健康な対照）、癌サブタイプおよび／または起源組織（例えば、肺癌特異的バイオマーカー）、および／または癌の病期と識別するメチル化パターンのライブラリーを含む。いくつかの実施形態において、複数の適格性メチル化パターンは、特定の癌状態（例えば、癌／非癌、癌サブタイプ、癌の病期、および／または起源組織）の存在／非存在の肯定的検証を行うために使用される。

いくつかの実施形態において、複数の適格なメチル化パターンは、組織試料および／または血液試料（例えば、cfDNA）を用いて同定される。いくつかの実施形態では、それぞれの１つまたは複数の被験体について、組織サンプルを用いて同定された複数の適格メチル化パターンと、血液サンプルを用いて同定された複数の適格メチル化パターンとは、同じである。いくつかの実施形態において、複数の適格性メチル化パターンは、血液試料を用いて同定され、腫瘍分率推定値は、腫瘍頻度と腫瘍由来cfDNAとの間の正の相関に基づいて計算される。cfDNAおよび組織試料を用いて実施される腫瘍分率推定値の間の一致に関するさらなる考察については、例えば、下記の実施例４を参照されたい。

いくつかの実施形態において、複数の適格性メチル化パターンは、単一のそれぞれの試験対象からの１つまたは複数の生物学的試料から得られた第１および第２のデータセットを用いて同定される。例えば、いくつかの上記実施形態では、第１の複数の適格性メチル化パターンは、第１の被験者について腫瘍と健常組織とを識別し、第２の複数の適格性メチル化パターンは、第１の複数の適格性メチル化パターンと第２の複数の適格性メチル化パターンとが異なる、第２の被験者について腫瘍と健常組織とを識別する。いくつかの上記実施形態では、それぞれの複数の適格なメチル化パターンを用いて、特定の期間にわたって、それぞれの被験者について、癌治療前後の腫瘍分率（例えば、最小残存病変および／または再発監視）を監視する。
いくつかの実施形態において、複数の適格性メチル化パターンは、単一のそれぞれの被験者からの１つまたは複数の生物学的試料から得られた第１のデータセット、および１つまたは複数の対照被験者（例えば、対照健康コホート）からの１つまたは複数の生物学的試料から得られた第２のデータセットを用いて同定される。

いくつかの実施形態において、複数の適格性メチル化パターンは、１つまたは複数の被験者（例えば、試験コホート）からの１つまたは複数の生物学的試料から得られた第１のデータセット、および１つまたは複数の対照被験者（例えば、対照健康コホート）からの１つまたは複数の生物学的試料から得られた第２のデータセットを用いて同定される。

いくつかの実施形態において、複数の適格性メチル化パターンは、第１の１つ以上の被験体（例えば、第１の試験コホート）から得られた１つ以上の生物学的試料から得られた第１のデータセット、および第２の１つ以上の被験体（例えば、第２の試験コホート）から得られた１つ以上の生物学的試料から得られた第２のデータセットを用いて同定される。そのようないくつかの実施形態において、第１および第２の試験コホートを用いて同定されたメチル化パターンの適格性確認は、患者間または大規模な研究グループ内の共通性に関する情報を提供するために使用されるか、または２つ以上のがん状態を識別する適格なメチル化パターンの層別化特徴を同定するために使用され得る。

いくつかの実施形態において、複数の適格性メチル化パターンは、第１の１つ以上の試験対象（例えば、試験コホート）から得られた１つ以上の生物学的試料から得られた第１のデータセットから構築された第１の間隔地図と、選択基準を満たす第２の間隔地図の領域を示す第２の間隔地図の表現とを用いて識別される。いくつかのそのような態様において、複数のメチル化パターンは、第１の被験体セット中の対応する被験体からのそれぞれの生物学的試料から得られた第２のデータセットを使用せずに同定される。むしろ、いくつかの上記実施形態では、選択基準を満たすことが知られているかまたは推定されている複数の問い合わせメチル化パターンを使用して、第１の間隔地図のみをスキャンすることによって、選択基準を満たすことができる。例えば、第２の癌状態（例えば、実験または事前知識により）ではあまり表現されないことが知られているかまたは推定されているメチル化状態間隔のパネルを使用して、第２の間隔地図をスキャンする必要なしに、フラグメントメチル化パターン、カウント（例えば、周波数）、および第１のデータセットの被覆率深さを含む第１の間隔地図をスキャンすることができる。あるいは、いくつかの実施形態において、第一の癌状態における外れ値フラグメントメチル化パターンの存在を第二の癌状態と比較して仮定する（例えば、変異対立遺伝子が非癌試料よりも腫瘍試料に濃縮されていると仮定される）選択基準が定義される。例えば、いくつかの上記実施形態では、選択基準は、第１の（例えば、腫瘍）がん状態において予め定義されたしきい値（例えば、０．５を超える）を超えるメチル化パターン頻度（例えば、変異対立遺伝子頻度とも呼ばれることもある）として定義され得る。いくつかの実施形態において、予め定義された閾値は、実験的知見または事前知識によって決定される。いくつかの実施形態では、事前定義されたしきい値は、ユーザまたは実施者によって設定される。

いくつかの態様において、複数の適格なメチル化パターンは、ゲノムの２つ以上の別個の領域における２つ以上のメチル化パターンである。いくつかの実施形態において、複数の適格なメチル化パターンは、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、または２０を超えるメチル化パターンであり、ここで、各々のかかるメチル化パターンは、参照ゲノムの独特な部分にマップされ、したがって、独特なメチル化部位のセットを表す。いくつかの態様において、複数の適格なメチル化パターンは、３０、４０、５０、６０、７０、８０、９０、１００、１１０、１２０、１３０、１４０、１５０、１６０、１７０、１８０、１９０、２００、またはそれ以上のメチル化パターンであり、ここで、各々のそのようなメチル化パターンは、参照ゲノムの独特な部分にマップされ、したがって、独特なメチル化部位のセットを表す。いくつかの実施形態においては、国際特許公開第WO２０２０１５４６８２A３に記載されているゲノム領域に、参照文献により組み込まれている、「がん、がんの組織または原産地またはがんの種類の検出」と題された、各メタル化パターンがマッピングされる（この中には、参照文献に記載されているシークエンス・リストが含まれる）。いくつかの実施形態においては、国際特許公開第WO２０２０／０６９３５０A１号に記されているゲノム領域に固有にマップされる、「メタ配列マーカー及び標的メタル化プローブパネル」と題され、本書では、その中で言及されるシークエンス・リストを含めて、参照して組み込まれている。いくつかの実施形態においては、国際特許公開第WO２０１９／１９５２６８A２号に記されているゲノム領域に固有にマップされる、「メタ系標的メタル化マーカーおよび標的メタル化プローブパネル」と題され、本書では、その中で言及されるシークエンス・リストを含めて、参照して組み込まれている。

いくつかの実施形態において、複数の適格性メチル化パターンは、FreeBayes、VarDict、MuTect、MuTect２、MuSE、FreeBayes、VarDict、および／またはMuTectなどの変形例呼び出し者アルゴリズムによって同定されるメチル化パターンを除去するためにフィルタリングされる（Bian、２０１８、"Comparing the performance of selected variant callers using synthetic data and genome segmentation"、BMC Bioinformatics １９：４２９（参照により本明細書に組み込まれる）を参照のこと）

いくつかの実施形態において、複数の適格性メチル化パターンは、対象のコホート（例えば、健康な対象のコホート）から得られた生物学的試料のメチル化配列決定における参照において少なくとも２回（例えば、２つの異なる断片において）出現するメチル化パターンを除去するために濾過される。いくつかの実施形態において、対象のコホート内の各対象は、第１のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第２のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第１または第２のデータセットによって表されない。

いくつかの実施形態において、複数の適格性メチル化パターンは、対象の参照コホート（例えば、健康な対象のコホート）の固有の試験フラグメントにわたって最小頻度よりも高い頻度で現れるメチル化パターンを除去するためにフィルタリングされる。例えば、いくつかの実施形態において、対象のコホート（例えば、健康な対象のコホート）からのそれぞれの適格メチル化パターンに関連するゲノム領域にマッピングされる核酸断片の少なくとも２０％において生じるそれぞれの適格メチル化パターンは、複数の適格メチル化パターンからそれぞれの適格メチル化パターンを除去するための基礎として役立つ。いくつかの実施形態においては、コホートからの核酸フラグメントの少なくとも２０％の閾値（閾値）を課すのではなく、少なくとも３％、最低５％、最低１０％、最低１５％、最低２５％、最低３０％、最低３５％、最低４０％、最低４５％、または最低５０％が、それぞれの適格なマルチクリテーションパターン（適格な銘柄パターンのゲノム領域）を、複数の適格な多様化パターンから、それぞれの適格なマルチクリテーションパターンを除去するための基礎となる。いくつかの実施形態において、対象のコホート内の各対象は、第１のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第２のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第１または第２のデータセットによって表されない。

いくつかの実施形態において、複数の適格性メチル化パターンは、対象の参照コホート（例えば、特定の癌状態を有する対象のコホート）の固有の試験フラグメントにわたって最小頻度未満で現れるメチル化パターンを除去するためにフィルタリングされる。例えば、いくつかの実施形態では、特定の癌状態を有する対象のコホートからのそれぞれの適格なメチル化パターンに関連するゲノム領域にマッピングされる核酸断片の２０％未満で生じるそれぞれのメチル化パターンが除去される。いくつかの実施形態では、コホート由来の核酸断片の２０％未満、８％未満、１５％未満、２０％未満、３０％未満、４０％未満、５０％未満、６０％未満、７０％未満、または８０％未満の閾値を課すのではなく、それぞれの適格メチル化パターン（適格メチル化パターンのゲノム領域において）が、複数の適格メチル化パターンからそれぞれの適格メチル化パターンを除去するための基礎として役立つ条件（閾値）。いくつかの実施形態において、対象のコホート内の各対象は、第１のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第２のデータセットによって表される。いくつかの実施形態において、対象のコホート内の各対象は、第１または第２のデータセットによって表されない。

いくつかの実施形態では、複数の適格なメチル化パターンをフィルタリングして、gnomADおよびdbDNPデータベースなどの公的データベースに見られる対立遺伝子（メチル化パターン）を除去する。上記データセットに関する情報については、Karczewskiら、２０１９年、「１４１，４５６のヒトエキソームおよびゲノムにわたる変異により、ヒトタンパク質をコードする遺伝子にわたる機能喪失不耐性のスペクトルが明らかになる」、bioRxiv doi.org/１０．１１０１／５３１２１０およびSherryら、２０１１年、「dbSNP：遺伝的変異のNCBIデータベース」、Nucを参照のこと。酸。Res。２９、３０８－３１１．

使用方法
いくつかの実施形態において、本開示において提供される方法は、下流用途に入力するための癌状態を識別または示す適格なメチル化パターンを同定するために使用される。メチル化パターンを適格とするための使用には、腫瘍分率の推定、プロービング分類器の挙動、別の特徴の調査、疾患（例えば、癌の状態）の分類、および／または微小残存疾患の決定が含まれるが、これらに限定されない。

分級
いくつかの実施形態において、本方法は、第１および第２のデータセットを用いて同定された複数の適格化メチル化パターンに関連する少なくともメチル化パターン情報を用いて、癌状態の状態を識別または示す分類器を訓練することをさらに含む。

例えば、いくつかの実施形態では、本明細書に開示される間隔地図を生成および走査する方法を使用して識別される癌状態を識別または示す１つまたは複数の適格なメチル化パターンを含むトレーニングセット上で、非トレーニング分級がトレーニングされる。いくつかの実施形態において、非訓練分級は、インターバルマッピング以外の任意の代替方法を用いて同定された癌状態を識別または示す１つ以上の適格メチル化パターンを含む訓練セット上で訓練される。

いくつかの実施形態において、分類器は、ロジスティック回帰である。いくつかの実施形態では、分類器は、ニューラルネットワークアルゴリズム、支持、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。

分類子は、例えば、２０２０年１２月１１日に出願された「パッチ畳み込みニューラルネットワークを使用した癌分類」と題する米国特許出願公開第１７／１１９，６０６号、および２０１９年１２月１８日に出願された「メチル化情報を使用した細胞源分率の推定のためのシステムおよび方法」と題する米国特許出願公開第２０２０－０３８５８１３ A１号にさらに詳細に記載されており、それらの各々は、その全体が参照により本明細書に組み込まれる。

いくつかの実施形態では、がん状態を識別または表示する１つまたは複数の適格なメチル化パターンについて訓練された訓練された分級が、第１および／または第２のデータセットのがん状態の状態を分類することによって訓練を検証するために使用される。いくつかの代替的な実施形態では、がん状態を識別または示す１つまたは複数の適格なメチル化パターンについて訓練された訓練された分類器をさらに使用して、適格なメチル化パターンが同定されたそれぞれのゲノム領域またはサブ領域における第３のデータセットのメチル化状態を評価することによって、第３のデータセット（例えば、未知サンプルまたは被験者の）のがん状態を分類する。

したがって、いくつかの実施形態において、第３のデータセットは、電子形態で得られ、ここで、第３のデータセットは、第３の複数の断片中のそれぞれの断片の対応する断片メチル化パターンを含む。それぞれのフラグメント（i）の対応するフラグメントメチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。この方法は、さらに、第３のデータセット中の第３の複数の断片中のそれぞれの断片の断片メチル化パターンを、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応する、断片メチル化パターンを分類器に適用することを含み、それによって、試験対象における癌状態の状態を決定する。したがって、例えば、複数の適格性メチル化パターンが２０個の異なるゲノム領域にマッピングされる２０個の特定のメチル化パターンのセットである場合を考える。この例では、生物学的試料からの核酸のメチル化配列決定からのこれらの２０の異なるゲノム領域において試験対象によって示されるメチル化パターンは、上記実施形態において分類器に入力され、試験対象の癌状態の状態を確認する。これらの２０の異なるゲノム領域におけるメチル化パターンは、均質なパターンではないことが理解されるであろう。事実、被験体についてのシーケンシングデータは、２０の適格なメチル化パターンに関連する２０の異なるゲノム領域においていくつかの異なるメチル化パターンが存在することを示し得る。いくつかの上記実施形態において、２０の異なるゲノム領域で試験対象について観察されたメチル化パターンは、分類器に入力される。例えば、複数の適格性メチル化パターンにおける第１の適格性メチル化パターンに関連するゲノム領域について、試験対象についてのメチル化配列決定が、メチル化パターンAを有するゲノム領域にマッピングする３５個の断片およびメチル化パターンBを有するゲノム領域にマッピングする７０個の断片を生成する非限定的な例を考えると、この例では、メチル化パターンAおよびBの両方の指示が、第１のゲノム位置にマッピングする断片の３５／１０５の中でメチル化パターンAが観察され、第１のゲノム位置にマッピングする断片の７０／１０５の中でメチル化パターンBが観察されたという指示とともに、分類器に入力される。他の実施形態では、分類器は、複数の適格なメチル化パターンがマッピングするゲノム領域におけるパターンの割合を考慮せず、むしろ、メチル化パターンを有するフラグメントの閾値数がゲノム位置（例えば、少なくとも２つのフラグメントなど）で見出されたかどうかについての単なる２進表示を考慮する。他の実施形態では、分類器は、複数の適格なメチル化パターンがマッピングするゲノム領域におけるパターンの割合を考慮せず、むしろ、閾値数の断片（各々が閾値カバレッジで配列決定され、メチル化パターンを有する）がゲノム位置（例えば、各々が少なくとも二元０の閾値カバレッジを有する少なくとも二元つの断片など）で見出されたかどうかについての単なる二元進表示を考慮する。

いくつかの実施形態において、第３のデータセットは、本明細書に開示される方法のいずれかを使用して（例えば、第１および第２のデータセットについて記載される方法および／または実施形態のいずれかを使用して）取得される。

いくつかの実施形態において、生物学的試料および／または被験体は、本明細書に開示される方法のいずれかを使用して（例えば、第１および第２のデータセットについて記載される方法および／または実施形態のいずれかを使用して）得られる。

いくつかの実施形態において、被験体から得られる生物学的試料は、液体生物学的試料（例えば、血液および／またはcfDNA）である。いくつかの態様において、生物学的試料は、組織生物学的試料（例えば、腫瘍試料）である。

いくつかの実施形態において、第３の複数の断片は、無細胞核酸である。例えば、いくつかの好ましい実施形態では、被験者におけるがん状態を判定するために第３のデータセットを取得することは、組織サンプル（例えば、生検サンプル）を取得することを必要としない。いくつかの実施形態において、試験対象由来の第３の複数の断片は、１００個以上の無細胞核酸断片、１０００個以上の無細胞核酸断片、１０，０００個以上の無細胞核酸断片、１００，０００個以上の無細胞核酸断片、１，０００，０００個以上の無細胞核酸断片、または１０，０００，０００個以上の核酸断片を含む。

いくつかの上記実施形態では、方法は、第１および第２のデータセットに加えて、複数のデータセットを取得することをさらに含み、複数のデータセット内のそれぞれのデータセットは、それぞれの複数のフラグメント内のそれぞれのフラグメントの対応するフラグメントメチル化パターンを含む。それぞれのフラグメント（i）の対応するフラグメントメチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）それぞれのフラグメント中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。この方法は、さらに、複数の適格性メチル化パターン中の適格性メチル化パターンを包含するか、またはそれに対応する、それぞれのデータセット中のそれぞれの複数のフラグメント中のそれぞれのフラグメントのフラグメントメチル化パターンを分類器に適用し、それによって、試験対象における癌状態の状態を決定することを含む。

いくつかのそのような実施形態では、複数のデータセット内のそれぞれのデータセットは、ある期間にわたって単一の被験者から連続的に取得される。いくつかの実施形態において、それぞれの複数の断片は、無細胞核酸である。例えば、いくつかの好ましい実施形態において、試験対象における癌状態の状態を決定するために複数のデータセット内のそれぞれのデータセットを取得することは、組織サンプル（例えば、生検サンプル）を取得することを必要としない。

いくつかの実施形態において、癌状態は、癌の非存在または存在である。いくつかの実施形態では、癌状態は癌の病期である。いくつかの実施形態では、がん状態は、がんサブタイプまたはがんの組織起点である。例えば、いくつかの実施形態において、がんは、副腎がん、胆道がん、膀胱がん、骨／骨髄がん、脳がん、乳がん、子宮頸がん、食道のがん、胃がん、頭頸部がん、肝胆道がん、腎がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、白血病、またはこれらの組み合わせである。

腫瘍分率の推定
いくつかの実施形態において、癌状態は、腫瘍分率である。例えば、いくつかの実施形態では、血液中の１つ以上のメチル化状態パターン（例えば、cfDNAおよび／または血漿）が腫瘍由来であり、そのような腫瘍由来変異対立遺伝子の周波数が、正常細胞に対する癌細胞の画分（例えば、腫瘍画分）に正比例するという仮定に基づいて、腫瘍画分推定値が計算される。いくつかの実施形態において、腫瘍分率推定のための方法は、WGBS、標的化メチル化配列決定（TM配列決定）、WGS、および／または標的化配列決定（例えば、小さな変形例を使用）からのシーケンシングデータを使用して実施される。図１３Aおよび１３Bは、小さな変形例に基づくいくつかのアプローチを示す。図１４および１５は、これらの小さな変形例ベースの方法に対する代替方法を示す２つの実施例を示す。上記実施形態では、小さな変異体の代わりに、選択されたメチル化パターン（例えば、適格なメチル化パターンまたはQMP）が、特に小さな変異体の同定が亜硫酸水素塩変換などの因子によって損なわれる場合に、メチル化シーケンシングデータに基づいて腫瘍分率を推定するための基礎として使用される。QMPベースの方法は、WGBS (例えば、図１４Aおよび１４B）およびTM配列決定データ（例えば、図１５Aおよび１５B）の両方に適用することができる。

例えば、いくつかの実施形態において、第１の範囲は０．００１より大きく、第２の範囲は０．００１より小さい。
いくつかの実施形態において、腫瘍分画推定値は、（例えば、分類器を使用して）癌の確率をプロットするために使用される。

いくつかの態様において、癌の確率は、検出の限界を決定するために使用される。いくつかの上記態様において、検出限界は０．１％である。
いくつかの実施形態において、腫瘍分率は、複数の適格なメチル化パターン（QMP；例えば、図１４および１５の開示を参照されたい）から計算される。一実施形態では、それぞれの適格性メチル化パターンに対応するそれぞれのゲノム領域における適格性メチル化パターンを含まないフラグメント（例えば、それぞれの変異体部位をカバーする変異体一致および非一致フラグメント）の数を用いて、適格性メチル化パターンを含むフラグメントの数および適格性メチル化パターンを含まないフラグメントの数を用いて、後部腫瘍画分推定値を生成する。

標的化メチル化配列決定が使用されるいくつかの上記実施形態では、部位ごと（例えば、それぞれの適格メチル化パターン「QMPゲノム部位」に対応するゲノム部位ごと）のポアソン尤度モデルが使用される。いくつかの実施形態において、このポアソン尤度モデルは、腫瘍画分、引張りバイアス（QMPゲノム部位における代替の対立遺伝子パターンの除外に表される特定の対立遺伝子パターンを有するプローブの使用によって導入される引張りバイアスを補正するため）、推定された全配列決定深さ、および暗騒音速度の機能として速度定数を計算する。

例えば、いくつかの実施形態では、腫瘍分率推定値は、後方尤度計算から計算される：

いくつかの実施形態において、引張りバイアスは、QMPゲノム部位i（バイアス_i）毎に推定され、ここで、（バイアス_i）は、以下のように引張りバイアスである：

この上述の引張りバイアスは、WGBS制御データおよびTM制御データを用いて、QMPゲノム部位iにおける標的化メチル化配列決定における引張りバイアスを補正する。特に、上記制御データは、アルファを計算するために使用される。すなわち、αを計算するために、WGBS制御からの複数のQMPゲノム部位（検討中）における各部位の異常数を求める（「制御（WGBS数）異常数」）。このように、WGBS制御を用いて得られた異なるQMPゲノム部位ごとに、複数のWGBS異常カウントが存在する。このWGBSコントロールの癌状態については特に要件はない。言い換えれば、WGBS制御は特定の癌状態を有しているか、特定の癌状態を有していない可能性がある。いくつかの実施形態において、WGBS対照は、WGBSを用いて配列決定される所定の既知割合のメチル化ゲノムDNAを有する、制御された細胞株である。いくつかの実施形態において、WGBS制御は、所定の組成（例えば、０％および１００％メチル化ゲノムDNAの５０／５０または４０／６０または３０／７０混合物）での０％メチル化および１００％メチル化ゲノムDNAの混合物である。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位の異常カウントが得られる（「TM制御（TMカウント）異常カウント」）。典型的な実施形態では、TM制御のためのDNAの供給源は、WGBS制御の場合と同じであり、唯一の相違点は、TM制御の場合、制御DNAは、WGBSによってではなく、TMにおいて使用される引張りを用いた標的化配列決定を用いて配列決定されることである。このような実施形態における量αは、制御（WGBSカウント）異常カウント/ TM制御（TMカウント）異常カウントの散布図に当てはめられた線の傾きを表す。散布図の各ポイントは、検討の複数のQMPゲノム部位における異なるQMPゲノム部位jについてであり、各ポイントのx座標はゲノム部位jにおける（WGBS数）異常数であり、各ポイントのy座標はゲノム部位jにおける（TM数）異常数である。さらに、アルファに関する式に示されるように、典型的な実施形態では、WGBS制御（WGBS数）異常計数の７５^th分位点からのデータのみ、およびTM制御（TM数）の７５^th分位点からのデータのみが、アルファが計算される散布図に使用される。量アルファは、散布図データに当てはめられた線の傾きである。７５^th分位点の使用は例示的なものであり、アプリケーション依存事項において上方（例えば、８５^th分位点）または下方（例えば、６５^th分位点）に調整することができることが理解されよう。たとえば、下流側の分類子の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、分位点カットを行うのではなく、散布図を使用してアルファを計算する前に、外れ値を除去するための他の方法を代わりに使用することができる。

さらに、上記のアプローチは、第２のデータセット（癌状態の第２の状態（例えば、非癌）を有する）におけるQMP（E）の所与のQMPゲノム部位iにおける推定雑音速度の計算を必要とする。いくつかの実施形態では、以下のように推定される：

ベータを計算するために、第２癌状態を有する１人以上の被験者における複数のQMPゲノム部位（研究中）の各部位での異常でないカウントが得られる（「WGBS第２状態(WGBS SS)カウントが異常ではない」）。したがって、第２のデータセットを用いて得られた異なるQMPゲノム部位ごとに、異常な数ではない複数のWGBSが存在する。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位での異常なカウントは得られない（「TM第２の状態(TM SS)は異常なカウントではない」）。典型的な実施形態では、TM第２の状態のためのDNAの供給源は、WGBS制御の場合と同じであり（および典型的には、第２のデータセットに寄与し、および／または第２の癌状態を有する対象からのものである）、唯一の相違点は、TM SSの場合、WGBSによってではなく、TMにおいて使用される引張りを用いて標的化配列決定を用いてDNAを配列決定することである。量βは、上記実施形態では、「TM第２の状態(TM SS)の異常なカウントではない」／「異常なカウントではない」の散布図に当てはめられた線の傾きを表す。散布図の各点は、検討中の複数のQMPゲノム部位における異なるQMPゲノム部位jに関するものであり、ここで、それぞれの点に関するx座標は、ゲノム部位jにおける異常なカウントではないTM第２の状態(TM SS)であり、そしてそれぞれの点に関するy座標は、ゲノム部位jにおける異常なカウントではないWGBS SS (WGBS NC)である。さらに、ベータについての式に示されるように、典型的な実施形態では、TM第２状態(TM SS)の７５^th分位点からのデータのみが異常カウントではなく、ベータが計算される散布図では、WGBS第２状態(WGBS SS)の７５^th分位点からのデータのみが異常カウントではない。量ベータは、この散布図データに当てはめられた線の傾きである。７５^th分位点の使用は、アルファの場合と同様に、例示的であり、アプリケーション依存事項において、上方（例えば８５^th分位点）または下方（例えば６５^th分位点）に調整することができることが理解されるであろう。たとえば、下流側の分類子の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、分位点カットを行うのではなく、散布図を使用してベータを計算する前に、外れ値を除去するための他の方法を代わりに使用することができる。

いくつかの実施形態では、推定深さ（mm）は、次のように計算される：

ガンマを計算するために、第２癌状態を有する１人以上の被験者において、複数のQMPゲノム部位（試験中）の各部位で異常でないカウントが得られる（「WGBS第２状態(WGBS SS)で異常なカウントではない」）。したがって、第２のデータセットを用いて得られた異なるQMPゲノム部位ごとに、異常な数ではない複数のWGBSが存在する。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位での異常カウントは得られない（「TM第一状態(TM FS)は異常カウントではない」）。典型的な実施形態では、TM FSのためのDNAの供給源は、第１のデータセットに寄与し、および／または第１の癌状態を有する１つ以上の対象からのものである。典型的な実施形態では、WGBS SSのためのDNAの供給源は、第２のデータセットに寄与し、および／または第２の癌状態を有する１つ以上の対象からのものである。量ガンマは、上記実施形態では、「異常カウントではないTM第１状態(TM FS)」／「異常カウントではないWGBS第２状態(WGBS SS)」の散布図に当てはめられた線の傾きを表し、散布図における各点は、検討中の複数のQMPゲノム部位における異なるQMPゲノム部位jに関するものであり、ここで、各点に関するx座標は、ゲノム部位jにおける異常カウントではないTM第１状態(TM FS)であり、各点に関するy座標は、ゲノム部位jにおける異常カウントではないWGBS第２状態(WGBS SS)である。さらに、ガンマに関する式に示されるように、典型的な実施形態では、TM第１状態(TM FS)の７５^th分位点からのデータのみが異常カウントではなく、WGBS第２状態(WGBS SS)の７５^th分位点からのデータのみが、ガンマが計算される散布図において使用される。量ガンマは、この散布図データに当てはめられた線の傾きである。７５^th分位点の使用は、アルファの場合と同様に、例示的であり、アプリケーション依存事項において、上方（例えば８５^th分位点）または下方（例えば６５^th分位点）に調整することができることが理解されるであろう。たとえば、下流側の分類子の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、ガンマを計算するために散布図を使用する前に、分位点カットを行うのではなく、外れ値を除去するための他の方法を代わりに使用することができる。

いくつかの実施形態では、TM配列決定アッセイにおいて、異常にメチル化されたフラグメントはプローブによって濃縮され、したがって、上記フラグメント内のQMPに基づいて計算された腫瘍画分はバイアスされる可能性が高いため、非癌騒音速度、アッセイタイプ間のバイアス（例えば、WGBS対TM）などの因子を説明するために、様々な騒音またはバイアスモデルを生成することができる。いくつかの実施形態において、複数の適格なメチル化パターンは、腫瘍分率推定の前に濾過され、０％または１００％のメチル化CpG部位を有するメチル化パターンを有するものを含む。いくつかの代替的な実施形態において、複数の適格性メチル化パターンは、所定の組成物（例えば、０％および１００％メチル化ゲノムDNAの５０／５０または４０／６０または３０／７０混合物）で０％メチル化および１００％メチル化ゲノムDNAの混合物を用いた対照実験において、標的化メチル化アッセイによって効果的にプルダウンされたものを含むように、腫瘍分率推定の前に濾過される。例えば、０％および１００％メチル化ゲノムDNAの５０／５０の混合物は、知覚される配列決定深さに対する濃縮プローブの効果を評価するために、並行WGBSおよびTM分析にかけることができる。いくつかの代替的な実施形態では、複数の適格性メチル化パターンは、腫瘍分率推定の前に濾過され、適格性メチル化パターンの重複しないセットを形成し、それによって二重計数を緩和するものを含む。

いくつかの上記態様において、後部腫瘍分率推定値は、合成希釈を用いてさらに最適化され、検証される。いくつかの実施形態では、後部腫瘍分率推定値は、マッチした試料から生成された推定値との比較を使用してさらに最適化される（例えば、腫瘍生検WGBS試料からの腫瘍分率推定値は、患者がマッチしたcfDNA WGBS試料からの腫瘍分率推定値と比較される）。
腫瘍分率推定値の算出のための別の方法および実施形態は、例えば、参照により本明細書に組み込まれる２０１９年１２月１８日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開第２０２０－０３８５８１３ A１号および下記実施例４に詳細に記載されている。

最小残存疾患およびその他の用途のモニタリング。
いくつかの実施形態では、がん状態の状態は腫瘍分率であり、第３のデータセットを取得し、第３のデータセットのフラグメントメチル化パターンを分類器に適用することは、経時的に繰り返し行われる。例えば、いくつかの実施形態では、再発基準での適用は、最小限の残存病変および再発監視のために実施される。いくつかの上記実施形態では、第３のデータセットの取得および適用は、癌治療の有効性を評価するために、癌治療の前後に実施される（例えば、第３のデータセットが、癌治療の前後の試験対象からの生物学的試料から取得される場合）。

いくつかの上記態様において、腫瘍分率の判定は、対象に対する癌治療の有効性を評価するために、癌治療の前に得られた第１の試料および癌治療の後に得られた第２の試料から実施される。
いくつかの実施形態では、本方法は、エポックにわたる複数の時点において、それぞれの時点における試験対象についての腫瘍分率推定値の推定を繰り返し、したがって、それぞれの時点における試験対象について、複数の腫瘍分率推定値において、対応する腫瘍分率推定値を得る。いくつかの実施形態において、この複数の腫瘍分率推定値は、エポック中の被験者における疾患状態の状態または進行を、エポックにわたる腫瘍分率の増加または減少の形態で決定するために使用される。

いくつかの実施形態において、各エポックは、月の期間であり、複数の時点における各時点は、月の期間における異なる時点である。いくつかの実施形態において、月の期間は、４ヶ月未満である。いくつかの実施形態において、各エポックは、１ヶ月長である。いくつかの実施形態において、各エポックは、２ヶ月長である。いくつかの実施形態において、各エポックは、３ヶ月長である。いくつかの実施形態において、各エポックは、４ヶ月長である。いくつかの実施形態では、各エポックは、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、または２４ヶ月の長さである。

いくつかの実施形態では、エポックは、年の期間であり、複数の時点における各時点は、年の期間における異なる時点である。いくつかの実施形態において、年の期間は、１年から１０年の間である。いくつかの実施形態において、期間は、１年、２年、３年、４年、５年、６年、７年、８年、９年、又は１０年である。いくつかの実施形態において、エポックは、１～３０年である。いくつかの実施形態では、エポックは時間の期間であり、複数の時点における各時点は、時間の期間における異なる時点である。いくつかの実施形態では、時間は１時間から２４時間の間である。いくつかの態様において、時間の期間は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、または２４時間である。

いくつかの実施形態において、本方法は、さらに、対象の腫瘍分率推定値（またはクローン拡大推定値）が、エポックにわたって閾値量だけ変化することが観察されるときに、対象の診断を変更することを含む。例えば、いくつかの実施形態では、診断は、癌を有することから寛解中であることに変更される。

別の例として、いくつかの実施形態では、診断は、がんを有さないことからがんを有することに変更される。別の例として、いくつかの実施形態では、診断は、癌の第１段階を有することから癌の第２段階を有することに変更される。別の例として、いくつかの実施形態では、診断は、癌の第２段階を有することから癌の第３段階を有することに変更される。さらに別の例として、いくつかの実施形態では、診断は、癌の第３の病期を有することから癌の第４の病期を有することに変更される。さらに別の例として、いくつかの実施形態では、診断は、転移していない癌を有することから、転移している癌を有することに変更される。

いくつかの実施形態において、被験者の腫瘍分率推定値がエポックにわたって閾値量だけ変化することが観察されるとき、被験者の予後は変化する。例えば、いくつかの実施形態では、予後は、余命を含み、予後は、第１の余命から第２の余命に変更され、ここで、第１および第２の余命は、いくつかの実施形態では、それらの持続時間が異なる。いくつかの実施形態において、予後の変化は、対象の平均余命を増加させる。いくつかの実施形態において、予後の変化は、対象の平均余命を減少させる。

いくつかの実施形態において、被験者の腫瘍分率推定値が、そのエポックにわたって閾値量だけ変化することが観察されるときに、被験者の治療が変更される。いくつかの実施形態において、治療の変更は、癌投薬を開始すること、癌投薬の投薬量を増加すること、癌投薬を中止すること、または癌投薬の投薬量を減少することを含む。いくつかの実施形態において、治療の変更は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス４価（型６、１１、１６、および１８）ワクチン、ペツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物による被験体の治療の開始または終了を含む。いくつかの実施形態において、治療の変更は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス４価（型６、１１、１６、および１８）ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的な同等物を対象に投与することを含む。いくつかの実施形態では、閾値は、１０％超、２０％超、３０％超、４０％超、５０％超、２倍超、３倍超、または５倍超である。

いくつかの実施形態において、被験者の腫瘍分率推定値は０．００３～１．０である。いくつかの実施形態において、被験者の腫瘍分率推定値は０．００５～０．８０である。いくつかの実施形態において、被験者の腫瘍分率推定値は０．０１～０．７０である。いくつかの実施形態において、被験者の腫瘍分率推定値は０．０５～０．６０である。

いくつかの実施形態において、本方法は、少なくとも部分的に、試験対象についての腫瘍分率推定値（またはクローン拡大推定値）の値に基づいて、試験対象に治療計画を適用することをさらに含む。いくつかの実施形態において、治療レジメンは、がんのための薬剤を被験体に適用することを含む。いくつかの態様において、癌のための薬剤は、ホルモン、免疫療法、放射線撮影、または癌薬物である。いくつかの実施形態において、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス４価（型６、１１、１６、および１８）ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物である。

いくつかの実施形態において、試験対象は、癌のための薬剤で治療されており、方法は、癌のための薬剤に対する対象の応答を評価するために、試験対象のための腫瘍分率推定値を使用することをさらに含む。いくつかの態様において、癌のための薬剤は、ホルモン、免疫療法、放射線撮影、または癌薬物である。いくつかの実施形態において、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス４価（型６、１１、１６、および１８）ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物である。

いくつかの態様において、試験対象は、癌のための薬剤で治療され、試験対象のための腫瘍分率推定値は、試験対象における癌のための薬剤を強化するかまたは中止するかを決定するために使用される。例えば、いくつかの実施形態において、少なくとも腫瘍分率推定値（例えば、０．０５、０．１０、０．１５、０．２０、０．２５、または０．３０を超えるなど）の観察は、被験者におけるがんに対する薬剤の増強（例えば、線量の増加、放射線治療における放射線レベルの増加）の基礎として使用される。いくつかの実施形態において、閾値未満の腫瘍分率推定値（例えば、０．０５、０．１０、０．１５、０．２０、０．２５、または０．３０未満など）の観察は、試験対象における癌のための薬剤の使用を中止するための基礎として使用される。
いくつかの実施形態において、試験対象は、癌に対処するために外科的介入を受けており、方法は、外科的介入に応答して試験対象の状態を評価するために、試験対象についての腫瘍分率推定値を使用することをさらに含む。いくつかの実施形態において、状態は、本開示において提供される方法を用いた腫瘍分率推定に基づくメトリックである。

いくつかの実施形態において、癌状態を識別または示すメチル化パターンは、cfDNAから得られたフラグメントを標識するために使用される。例えば、いくつかの上記実施形態では、癌状態（例えば、腫瘍）に関連する同定されたメチル化パターンに一致する１つ以上のメチル化パターンを含む１つ以上のフラグメントが単離され、他の特徴を特徴付けるために検査される。いくつかの上記態様において、上記代替的特性の調査は、腫瘍由来核酸断片を定義し、および／またはそれに関連する特性に対するさらなる洞察などのさらなる使用を提供することができる。

いくつかの実施形態において、腫瘍分率推定の精度は、１つ以上の合成希釈物を使用して検証される。例えば、いくつかの実施形態において、高腫瘍画分を含む試料は、非癌cfDNAに合成希釈される。各連続希釈について腫瘍分率の推定値を計算し、一致性について予測される腫瘍分率の推定値と比較する。

いくつかの態様において、希釈は、癌信号（例えば、配列決定読出しデータ）を非癌信号にシリコで希釈することによって行われる。いくつかの態様において、癌cfDNA試料を非癌cfDNA試料に希釈することによって、ウェット実験室希釈を行う。いくつかの実施形態において、希釈は、配列決定の前に、第１の被験体からの癌cfDNA試料を第２の被験体からの非癌cfDNAに希釈することによって行われる。

いくつかの実施形態において、希釈は、プールされた被験体を用いて実施される。いくつかの実施形態において、希釈は、第１の癌状態（例えば、癌／非癌、癌型／サブ型、病期、および／または起源組織）から得られた試料を、第１の癌状態とは異なる第２の癌状態から得られた試料に希釈することによって行われる。

いくつかの実施形態において、腫瘍分率推定値の合成希釈（例えば、メチル化パターンを用いて計算）によるバリデーションを実施して、分類器の性能を評価し、および／または分類器の挙動を調査することができる。

開示のその他の側面

本開示の別の態様は、癌状態を識別または発明複数のメチル化パターンを同定するためのコンピュータシステムを提供する。この態様では、コンピュータシステムは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを記憶するメモリとを備える。いくつかの実施形態では、少なくとも１つのプログラムは、当業者に明らかなように、本明細書に記載される方法および実施形態のいずれか、および／またはそれらの任意の組み合わせもしくは代替物を実行するための命令を含む。

本開示の別の態様は、プロセッサによって実行されると、癌状態を識別または発明複数のメチル化パターンを識別するための方法をプロセッサに実行させるプログラムコード命令を記憶する非一時的コンピュータ可読記憶媒体を提供する。いくつかの実施形態では、プログラムコード命令は、当業者に明らかなように、プロセッサに、本明細書に記載される方法および実施形態のいずれか、および／またはそれらの任意の組み合わせもしくは代替を実行させる。

実施例
実施例１－無細胞ゲノムアトラス検討（CCGA）
本開示の実施例では、CCGA [NCT０２８８９９７８］からの対象を使用した。
CCGAは、プロスペクティブ、多施設共同、観察的cfDNAに基づく早期がん検出研究であり、１４１の施設で１５，２５４人の人口統計学的に均衡のとれた参加者が登録されている。新たに治療歴のない癌と診断された被験者（C、症例）および登録時に定義された癌と診断されていない参加者（非癌［NC］、制御）から、登録参加者１５，２５４例（癌５６％、非癌４４％）から血液検体を採取した。

第１コホート（事前に規定したサブスタディ) (CCGA１）では、CCGAおよびSTRIVE参加者３５８３人（CCGA：癌参加者１５３０人および非癌参加者８８４人; STRIVE１１６９人の非癌参加者）からプラズマcfDNA抽出物を得た。STRIVE検討は、スクリーニングマンモグラフィーを受ける女性（参加者９９，２５９例）を登録した多施設プロスペクティブコホート研究である。プラズマcfDNA抽出のために、新たに診断された未処理癌（２０腫瘍型、全ステージ）の９８４名のCCGA参加者と癌診断のない７４９名の参加者（制御）から血液を採取した（n＝１７８５）。この事前に計画されたサブスタディには、２０種類の腫瘍タイプおよび全ての臨床病期にわたる８７８例の症例、５８０例の制御、および１６９例のアッセイ制御（n＝１６２７）が含まれた。

各参加者から引き出された血液に対して、１）ペアになったcfDNAと白血球（WBC）を標的とした配列決定（６０，０００X，５０７遺伝子パネル）を単核核核核酸塩の変種／インデックス（ART配列決定アッセイアッセイ）、ジョイント・コーラーがWBC由来の体質変種と残留技術ノイズを除去した、２）ペアになったcfDNAとWBC全体ゲノム配列決定（WGS；３５X）をコピーナンバーバリエーションのために行い、新しい機械学習アルゴリズムに関連したシグナルスコアを生成した、ジョイント分析は共通事象を確認した、３) cfDNA全体ゲノムサルファイト配列決定（WGBS；３４X）を、満足化のために、異常に満足したフラグメントを用いて生成した。さらに、比較のために腫瘍変異体の同定のためにペア腫瘍およびWBC gDNAについて４）全ゲノム配列決定（WGS；３０X）を実施するように、組織サンプルを癌のみの参加者から得た。

CCGA‐１検討の文脈の中で、cfDNA試料の腫瘍分率を推定するためのいくつかの方法が開発された。国際特許公開第WO／２０１９／２０４３６０号、「細胞を含まない核酸における腫瘍破砕を判定するためのシステムおよび方法」、国際特許公開第WO ２０２０／１３２１４８号、「方法情報を用いた細胞源破砕を推定するためのシステムおよび方法」、および米国特許公開第US ２０２０－０３４００６４ A１号、「小変形例からの腫瘍破砕推定のためのシステムおよび方法」を参照されたい。例えば、アプローチの１つは、図１３Aにおいて方法１３００として示された。このアプローチでは、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織（例えば、１３０４）からの核酸試料、および適合患者（例えば、１３０６）からの白血球（WBC）からの核酸試料を、全ゲノム配列決定（WGS）によって配列決定した。シーケンシングデータに基づいて同定された体細胞変異体（例えば、１３０８）を、同一患者（例えば、１３１０）からの一致するcfDNAシーケンシングデータに対して分析し、腫瘍分率推定値（例えば、１３１２）を決定した。

あらかじめ規定された第２のサブスタディ（CCGA－２）では、全ゲノムではなく標的化した亜硫酸水素配列決定法を用いて、標的化メチル化（TM）配列決定法に基づいて、癌対非癌および起源組織の分級を開発した。CCGA２については、研修参加者３１３３人と検証用試料１３５４人（癌患者７７５人；登録時に癌であると判定されていない５７９人、癌であるか非癌であるかの確認前）を用いた。固有のメチル化データベースおよび以前のプロトタイプ全ゲノムおよび標的化配列決定アッセイから同定されたように、プラズマcfDNAを、メチルオームの最も有益な領域を標的とする亜硫酸水素シークエンシングアッセイ（COMPASSアッセイ）に供し、癌および組織を規定するメチル化シグナルを同定した。訓練用に残された元３１３３点のサンプルのうち、わずか１３０８点のサンプルが臨床的に評価可能であり、分析可能であるとみなされた。分析対象は、主要分析対象集団n = ９２７（癌６５４例、非癌２７３例）、副次分析対象集団n＝１０２７（癌６５９例、非癌３７３例）とした。最後に、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織および腫瘍から単離された細胞由来のゲノムDNAを全ゲノム亜硫酸水素配列決定（WGBS）にかけ、パネルデザインおよび性能を最適化するためのトレーニングに使用するための癌定義メチル化信号の大規模データベースを生成した。

例えば、Klein et al.、２０１８、"Development of a completive cell-free DNA (cfDNA) assay for early detection of multiple tumor types: The Circulating Cell-free Genome Atlas (Oncology ３６（１５）、１２０２１－１２０２１、およびLiu et al.、２０１９、"Genome-wide cell-free DNA (cfDNA) methylation signatures and Effect on tissue of origin (TOO) performance,"Oncology ３７（１５）、３０４９－３０４９であり、その各々は参照によりその全体が本明細書に組み込まれる。

実施例２－複数のシーケンス・リードの取得
図７は、１つの実施形態による配列決定のための核酸サンプルを調製するための方法７００のフローチャートである。方法７００は、以下のステップを含むが、これらに限定されない。例えば、方法７００の任意のステップは、品質管理のための定量サブステップまたは当業者に公知の他の研究所アッセイ手順を含むことができる。

ブロック７０２では、対象から核酸試料（DNAまたはRNA）を抽出する。試料は、全ゲノムを含むヒトゲノムの任意のサブセットであってよい。試料は、癌を有することが知られているかまたは癌を有することが疑われる被験体から抽出され得る。試料は、血液、血漿、血清、尿、糞便、唾液、他のタイプの体液、またはそれらの任意の組合せを含むことができる。いくつかの実施形態では、血液試料（例えば、シリンジまたは指刺し）を採取するための方法は、手術を必要とし得る組織生検を得るための手順よりも侵襲性が低い場合がある。抽出試料は、cfDNAおよび／またはctDNAを含むことができる。健常者にとって、人体はcfDNAや他の細胞破片を自然に除去することができる。対象が癌または疾患を有する場合、抽出された試料中のctDNAは、診断のために検出可能なレベルで存在し得る。

ブロック７０４では、配列決定ライブラリーが準備される。ライブラリーの調製中に、ユニークな分子識別子（UMI）がアダプター連結によって核酸分子（例えばDNA分子）に付加される。UMIは、アダプター連結中にDNAフラグメントの端部に付加される短い核酸配列（例えば、４～１０塩基対）である。いくつかの態様において、UMIは、特異的DNA断片に由来する配列読み取りを同定するために使用することができるユニークなタグとして働く縮重塩基対である。アダプター連結後のPCR増幅の間、UMIは、結合したDNAフラグメントと共に複製される。これにより、下流の分析で同じ元のフラグメントから得られたシークエンス読み取りを識別する方法が提供される。
ブロック７０６では、標的DNA配列がライブラリーから濃縮される。濃縮の間、ハイブリダイゼーションプローブ（本明細書では「プローブ」とも呼ばれる）は、癌（または疾患）、癌状態、または癌分類（例えば、癌クラスまたは起源組織）の有無に関して有益な核酸フラグメントを標的化し、引き下げるために使用される。所定のワークフローに関して、プローブは、DNAの標的（相補的）鎖にアニーリング（またはハイブリダイズ）するように設計され得る。標的ストランドは、「プラス」ストランド（例えば、mRNAに転写され、続いてタンパク質に翻訳されるストランド）または相補的な「マイナス」ストランドであってもよい。プローブの長さは、塩基対の１０s、１００s、または１０００sの範囲とすることができる。一実施形態では、プローブはメチル化部位パネルに基づいて設計される。一実施形態では、プローブは、特定の癌または他のタイプの疾患に対応すると疑われるゲノム（例えば、ヒトまたは他の生物の）の特定の突然変異または標的領域を分析するために、標的遺伝子のパネルに基づいて設計される。さらに、プローブは、標的領域の重なり合う部分を覆うことができる。ブロック７０８では、これらのプローブは、核酸試料の一般的な配列読み取りに使用される。

図８は、一実施形態による配列読み取りを得るためのプロセスのグラフィック表現である。図８は、試料由来の核酸セグメント８００の一例を示す。核酸セグメント８００は、一本鎖核酸セグメントであり得る。いくつかの実施形態において、核酸セグメント８００は、二本鎖cfDNAセグメントである。図示された例は、異なるプローブによって標的を定めることができる核酸セグメントの３つの領域８０５A、８０５B、および８０５Cを示している。具体的には、３つの領域８０５A、８０５B、および８０５Cのそれぞれに核酸セグメント８００上の重複位置が含まれる。重複する位置の実施例は、シトシン（「C」）ヌクレオチド塩基８０２として図８に示されている。シトシン核酸ベース８０２は、領域８０５Aの第一端近辺、領域８０５Bの中心部、及び領域８０５Cの第二端近辺に位置する。

いくつかの態様において、プローブの１つ以上（またはすべて）は、特定の癌または他のタイプの疾患に対応すると疑われるゲノム（例えば、ヒトまたは他の生物の）の特定の突然変異または標的領域を分析するために、遺伝子パネルまたはメチル化部位パネルに基づいて設計される。「全体エクソーム配列決定」としても知られる、ゲノムの全体ての発現された遺伝子を配列決定するのではなく、標的遺伝子パネルまたはメチル化部位パネルを用いることにより、方法８００を用いて、標的領域の配列決定の深さを増大させることができ、ここで、深さは、試料内の所定の標的配列が配列決定された回数のカウントを意味する。配列決定の深さを増大させることは、核酸試料の必要な入力量を減少させる。

１つ以上のプローブを用いた核酸試料８００のハイブリダイゼーションは、標的配列８７０の理解をもたらす。図８に示すように、標的配列８７０は、ハイブリダイゼーションプローブによって標的化される領域８０５のヌクレオチド塩基配列である。標的配列８７０は、ハイブリダイズ核酸フラグメントとも呼ばれ得る。例えば、標的シークエンス８７０Aは、第１ハイブリッド化プローブによって標的とされる領域８０５Aに相当し、標的シークエンス８７０Bは、第２ハイブリッド化プローブによって標的とされる領域８０５Bに相当し、標的シークエンス８７０Cは、第３ハイブリッド化プローブによって標的とされる領域８０５Cに相当する。シトシン配列ベース８０２は、ハイブリダイゼーションプローブによって標的とされる各領域８０５A－C内の異なる場所に位置していることを考慮すると、各標的シークエンス８７０は、標的シークエンス８７０の特定の場所でのシトシン配列塩ベース８０２に対応する配列塩ベースを含む。

ハイブリダイゼーション工程の後、ハイブリダイズした核酸断片を捕捉し、PCRを用いて増幅することもできる。例えば、標的配列８７０を濃縮して、その後に配列決定することができる濃縮配列８８０を得ることができる。いくつかの実施形態において、各濃縮配列８８０は、標的配列８７０から複製される。標的配列８７０Aおよび８７０Cからそれぞれ増幅される濃縮配列８８０Aおよび８８０Cは、また、各配列リード８８０Aまたは８８０Cの末端近くに位置するチミン核酸塩を含む。以後使用されるように、参照対立遺伝子（例えば、シトシンヌクレオチド塩基８０２）に関連して変異した、濃縮配列８８０中の変異ヌクレオチド塩基（例えば、チミンヌクレオチド塩基）は、代替対立遺伝子とみなされる。さらに、標的配列８７０Bから増幅された各濃縮配列８８０Bは、各濃縮配列８８０Bの近傍または中央に位置するシトシンヌクレオチド塩基を含む。

ブロック７０８では、配列読取りは、濃縮されたDNA配列、例えば、図８に示される濃縮された配列８８０から生成され、シーケンシングデータは、当技術分野で公知の手段によって、濃縮されたDNA配列から取得され得る。例えば、方法８００は、合成技術（Illumina）、ピロシークエンシング（４５４ライフサイエンス）、イオン半導体技術(Ion Torrent配列決定）、単一分子リアルタイム配列決定(Pacific Biosciences)、連結による配列決定（SOLiD配列決定）、ナノポア配列決定(Oxford Nanopore Technologies)、または対端部配列決定を含む次世代配列決定（NGS）技術を含み得る。いくつかの実施形態において、大規模並列配列決定は、可逆的色素停止剤を有する合成による配列決定を使用して行われる。

いくつかの実施形態において、配列読み取りは、アラインメント位置情報を決定するために、当技術分野において公知方法を使用して、参照ゲノムにアラインされ得る。アラインメント位置情報は、与えられた配列の開始ヌクレオチド塩基および末端ヌクレオチド塩基に相当する参照ゲノム中の領域の開始位置および末端位置を示すことができる。また、位置合わせ位置情報は、開始位置および終了位置から決定することができる配列読み取り長を含むことができる。参照ゲノム中の領域は、遺伝子または遺伝子のセグメントと関連していてもよい。

様々な実施形態において、読取配列は、として示される読取一対から構成される。例えば、第１の読み取りは核酸フラグメントの第１の端部から配列決定されてもよいが、第２の読み取りは核酸フラグメントの第２の端部から配列決定されてもよい。したがって、第１の読取りおよび第２の読取りのヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と一貫して（例えば、反対方向に）並んでいてもよい。読取り一対から導かれ、第１の読取り（例えば）の末端に一対応する参照ゲノム内の開始位置、および第２の読取り（例えば、）の末端に一対応する参照ゲノム内の末端位置を含むことができる、位置合わせ位置情報。言い換えれば、参照ゲノムにおける開始位置および終了位置は、核酸フラグメントが対応する参照ゲノム内の可能性のある位置を表すことができる。SAM (シークエンスアラインメントマップ）フォーマットまたはBAM (バイナリ）フォーマットを有する出力ファイルが生成され、さらに詳しい分析のために出力され得る。

実施例３－メチル化状態ベクトルの生成
図９は、本開示による一実施形態による、メチル化状態ベクトルを得るためにcfDNAの断片を配列決定する処理９００を説明するフローチャートである。

工程９０２を参照すると、cfDNAフラグメントは、生物学的試料から得られる（例えば、実施例２と併せて上記で論じたように）。工程９２０を参照すると、cfDNAフラグメントを処理して、非メチル化シトシンをウラシルに変換する。一実施形態では、DNAは、メチル化シトシンを変換することなく、cfDNAのフラグメントの非メチル化シトシンをウラシルに変換する重亜硫酸処理に付される。例えば、EZ DNAMethylation^TM－ゴールド、EZ DNAMethylation^TM－直接またはEZ DNAMethylation^TM－Lightningキット（ザイモリサーチ社（カリフォルニア州アーバイン）から入手可能）などの市販キットが、いくつかの実施形態において、亜硫酸水素塩変換のために使用される。他の実施形態において、非メチル化シトシンのウラシルへの変換は、酵素反応を用いて達成される。例えば、変換は、非メチル化シトシンをウラシルに変換するための市販のキット、例えばAPOBEC-Seq (NEBiolabs、Ipswich、MA）を使用することができる。

変換されたcfDNAフラグメントから、配列決定ライブラリーを調製する（ステップ９３０）。任意に、配列決定ライブラリーは、複数のハイブリダイゼーションプローブを用いて癌状態に有益であるcfDNAフラグメントまたはゲノム領域について９３５に富化される。ハイブリダイゼーションプローブは、特に特定されたcfDNAフラグメントまたは標的領域にハイブリダイズし、その後の配列決定および分析のためにこれらのフラグメントまたは領域を濃縮することができる短いオリゴヌクレオチドである。ハイブリダイゼーションプローブを用いて、研究者が関心を有する特定のCpG部位のセットの標的化された高深さ分析を行うことができる。一旦調製されると、配列決定ライブラリーまたはその一部を配列決定して、複数の配列読み取り（９４０）を得ることができる。配列読取りは、コンピュータソフトウェアによる処理および解釈のために、コンピュータ読取り可能なデジタルフォーマットであってもよい。

配列読み取りから、参照ゲノム（９５０）への配列読み取りのアラインメントに基づいて、各CpG部位の位置およびメチル化状態が決定される。参照ゲノム中の断片の位置（例えば、各断片中の最初のCpG部位の位置、または別の同様の測定基準によって特定される）、断片中の多数のCpG部位、および断片中の各CpG部位のメチル化状態を特定する、各断片についてのメチル化状態ベクトル（９６０）。

WGBSに関する詳細については、例えば、「Anomalous Fragment Detection and Classification」と題する米国特許公開第２０１９－０２８７６５２ A１号、および「Systems and Methods for Estimating Cell Source Fractions Using Methods Using Methylation Information」と題する米国特許公開第２０２０－０３８５８１３ A１号を参照されたい。

実施例４－高腫瘍分率を有するテストケース
CCGA検討から、高い腫瘍分率を有する試料（標的化配列決定（ART）推定腫瘍分率：１５％；参加者ID ２７３７）を用いてテストケースを得た。概念実証目的のために、高腫瘍分率は、腫瘍由来の組織（例えば、腫瘍）試料およびcfDNA試料の両方において比較的多数の核酸断片を提供した。さらに、このテストケースはcfDNAからの標的メチル化データを含んでいた。対照非癌データセットは、特異性閾値９９％で非癌と分類されたすべてのフラグメントを用いてCCGAデータから選択した。See、Liu et al.、２０１９、"Genome-wide cell-free DNA (cfDNA) methylation signatures and effect on tissue of origin (TOO) performance," J。Clin．Oncology ３７（１５）、３０４９－３０４９は、その全体が参照により本明細書に組み込まれている。フラグメントは、最小マッピング品質（MAPQ）、ならびに重複、未解決、および未変換フラグメントに対してフィルタリングされた。フラグメントはp値フィルタリングされなかった。以下のパラメータを用いて、開示された方法の例示的な実施形態を用いて、参加者２７３７および対照非癌データセットからの腫瘍試料について、異なるメチル化状態間隔の同定を行った：腫瘍試料についての被覆率の最小深さ＝１０、腫瘍試料の最小変異対立遺伝子分率（VAF）＝０．２、非癌試料についての被覆率の最小深さ＝０、非癌試料の最大VAF＝０．００１、間隔におけるCpGの数＝５。本明細書に開示されるように、VAFは、適格なメチル化パターンについて、対応する遺伝子座（または遺伝子座）で観察されるフラグメントメチル化パターンの総数にわたって、１つまたは複数の適格なメチル化パターン（QMP）の画分を指すことができる。

異なるメチル化状態間隔の特性
高腫瘍分率テストケース試料から得られたシーケンシングデータに基づいて、可能性のある適格性メチル化パターン（QMP）を、各適格性メチル化パターンがメチル化された程度に基づいて評価した（図３）。ここでは、可能なQMPを、テストケース試料のメチル化シーケンシングデータによって支持される５つの連続したCpG部位のメチル化状態の配列として定義する。図は、メチル化分率が低い可能性のあるQMPがほとんどないことを示しており（例えば、テストケースにおける可能性のあるQMPの大部分は高度にメチル化されている）、QMPの同定のためのメチル化パターンの高電位機能性を強調している。

非癌試料を評価して、さらなる分析のための適切な間隔（例えば、５つのCpG部位を含む）を同定した。例えば、図４は、それぞれの候補間隔における被覆率の深さ（「非癌cfDNA凝集体深さ＋２」）に対する凝集QMPカウント（「非癌cfDNA凝集体Altカウント＋１」）を示す、非癌被験者由来のcfDNA由来の非癌核酸断片に含まれるすべての間隔の密度プロットを示す。濃度は、変形例カウントと被覆率の深さとの交点の各領域における間隔の数を示し、一方、各候補区間におけるノイズのレベルは、色のレジェンドによって表される（例えば、薄いグレー：高ノイズ；ブラック：低騒音）。雑音は、以下の式を用いて、対照非癌データセットに基づく頻度として計算される：雑音= (alt_counts + １)/ (depth_coverage + ２）。ここで、「alt＿counts」は、間隔で異なったメチル化パターンを有するフラグメントの数であり、「depth＿coverage」は、間隔をカバーするフラグメントの数である。上記で定義された異なるメチル化パターンの同定のためのパラメータを使用すると、テストケースにおけるさらなる分析のための好ましい間隔は、高い深さ値および低いalt (バリアント）カウント値を有するものを含む。例えば、制御条件の安定性が高い間隔では、試験条件のばらつきは容易に明らかになる(x: cpgはQMP部位にまたがり、yは最終QMPに一致するパターンを含むフラグメントを表す）。

テストケース試料を評価し、異なるメチル化の識別子（例えば、バイオマーカー）としての成分間隔の適否を検証した。例えば、図５は、メチル化された分率対騒音レベルによってプロットされたテストケース対立遺伝子を示す。さらに、各交差領域における成分間隔について、テストケースデータと対照データの統計を比較した。各候補区間の非がん制御データセットにおけるカバー範囲の深さは遮光（明るい灰色：高い被覆率；ブラック：低いカバー率）として表され、区間の各群について提示された追加統計には以下が含まれる：検査症例試料に対する変異対立遺伝子数（「vars」）、CpGsの総数（「cpgs」）、非がん制御試料における変異対立遺伝子数のメジアン、および非がん制御試料におけるカバー範囲の深さのメジアン（各グリッドにおける数値で表される）。図５は、非癌対照試料ではノイズが低く、被覆率の深さが高く、テストケース試料ではメチル化の割合が高い選択された間隔を強調している。

特に、騒音レベル計算のための方法は、カバー被覆率の深さが低いために、制御データセットに変異対立遺伝子がないにもかかわらず、いくつかの間隔に高い雑音値を割り当てる結果となる。したがって、いくつかの実施形態では、特定のCpG部位の被覆率の深さは、メチル化パターンを同定するためのノイズレベルよりも、より大きな適合性の表示を提供する。いくつかの実施形態において、被覆率の深さは、配列読み取りの取得中に使用されるシークエンシングプローブのタイプによって決定される。例えば、二元配列決定（例えば、メチル化および非メチル化CpG部位の両方の増幅）のために設計されたプローブは、セミ二元配列決定（例えば、メチル化または非メチル化CpG部位のいずれかの増幅）のために設計されたプローブよりも低い雑音、より少ないバイアス、およびより大きな被覆率深さを示すことができる。
cfDNAと生検組織の間のQMP分率は相関している。

図６は、テストケース試料からのcfDNA由来核酸断片または組織生検（例えば、腫瘍）由来核酸断片のいずれかを用いて計算されたQMPの画分の比較を示す。グラフ上の各点は、検討中の差次的にメチル化された間隔を表している。間隔を騒音速度＜１０^-4に対して事前フィルタリングし、深さ層をpmin(floor(normal_depth / １０００００) * １０００００、３０００００）と決定した。x軸は生検QMP分率（深さ被覆率にわたるQMPカウント）を示し、y軸はcfDNA QMP分率を示す。２つの標本タイプ間の相関は、グラフ内の点間の線形関係として示される。例えば、腫瘍において頻繁に観察される差次的メチル化領域は、cfDNAのいくつかの割合が腫瘍由来であるcfDNAにおいて相関した頻度で観察される。傾き（この文脈において腫瘍分率に等しい）は、非癌対照サンプル（例えば、二元プローブによって増幅された領域）において、より高い被覆率深さおよび低騒音を有する間隔を利用して、線形フィットで安定化する。

cfDNA QMP分画が腫瘍生検QMP分画をスケールするという観察は、cfDNA由来核酸サンプルが変異対立遺伝子分画を決定するために使用上記いうエビデンスを提供する（その後、例えば、腫瘍分画推定値の計算、疾患進行のモニタリング、および／または最小残存病変の決定などの下流への適用を支持する）。これは、癌などの疾患の検出、診断、および／または治療のための侵襲性の低い手段を提供する。腫瘍分率推定値の計算は、例えば、「メチル化情報を用いた細胞源分率の推定のためのシステムおよび方法」と題する米国特許公開第２０２０－０３８５８１３ A１号；「細胞を含まない核酸における腫瘍分率の決定のためのシステムおよび方法」と題する国際特許公開第WO／２０１９／２０４３６０号；「方法情報を用いた細胞源分率の推定のためのシステムおよび方法」と題する国際特許公開第WO ２０２０／１３２１４８号；およびそれぞれ参照により本明細書に組み入れられる「小変形例からの腫瘍分率のためのシステムおよび方法」と題する米国特許公開第２０２０－０３４００６４ A１号に詳細に記載されている。

差次的メチル化状態の検証
図１０A、１０B、１０C、１０D、および１０Eは、対照非癌試料と比較して、高腫瘍分率テストケース試料から得られた核酸断片中の多数のCpG部位での異なるメチル化を示す。差次的メチル化状態間隔は、上記で定義したパラメータを用いて決定した：腫瘍試料に対する最小被覆率深さ＝１０、腫瘍試料の最小変異対立遺伝子分率（VAF）＝０．２、非癌試料に対する最小被覆率深さ＝０、非癌試料の最大VAF＝０．００１、及び区間におけるCpG数＝５。本明細書に開示されるように、VAFは、適格なメチル化パターン（QMP）の分率値を参照するための省略形として使用される。

対照非癌試料（標的メチル化（COMPASS）試料を含む）、テストケース腫瘍生検試料、及び腫瘍生検試料に一致したテストケースcfDNA試料を用いて、示差メチル化状態を比較した。要約表には、間隔の開始位置と終了位置（「browser＿range」）、定義されたメチル化状態（「states」、例えばMMMMM、MUMMMなど）、それぞれの間隔での組織生検試料の変異対立遺伝子数（「tumor＿alt」）、それぞれの間隔での組織生検試料の被覆率の深さ（「tumor＿depth」）、それぞれの間隔での対照非癌試料の変異対立遺伝子数（「normal＿alt」）、それぞれの間隔での対照非癌試料の被覆率の深さ（「normal＿depth」）、一致した試験ケースcfDNA試料の変異対立遺伝子数（「sample＿alt」）、および一致した試験ケースcfDNA試料の被覆率の深さ（「sample＿depth」）を含む、各間隔の統計がリストされている。例えば、図１０Aにおいて、組織生検試料は、定義されたメチル化状態MMMMMの６つのインスタンスと、可能性のある１３のインスタンスのうちの代替のメチル化状態の７つのインスタンスとを含み、一方、対照非癌試料は、可能性のある８２，５８１のインスタンスのうちの定義されたメチル化状態の２つのインスタンスを含む。したがって、生検試料の変異型対立遺伝子分率は、対照非癌試料の変異型対立遺伝子分率と比較して実質的に高い。

Interactive Genomics Viewer (IGV)は、メチル化パターンを含むがこれらに限定されないゲノムデータ（例えば、BAMファイル）を閲覧するためのツールを提供する。例えば、図１０Aの各パネルは、試験腫瘍生検試料（「生検」）または試験cfDNA試料（「一致cfDNA」）からの５つの連続するCpG部位を含むゲノム領域に対応する。各行は、核酸フラグメントに一対する読み取り一対（例えば、前後進ストランド）を表す。各パネルの上部に集まった棒で表されるような各カラムは、ゲノム中のヌクレオチド塩基である。CpG部位が順方位ストランドのC－G、逆方位ストランドのG－Cとして読み取られるように、核酸配列は順方位ストランドの方位で左から右に提示される。灰色と黒色の線は、読まれた１一対の各鎖について、それぞれメチル化シトシンとメチル化されていないシトシンを表している。灰色の線は非シトシン（例：適用できない）塩基を示し、褐色の線は一塩基多型（メタゲノム）を示す。各パネルの上部にある集合バーは、すべてのフラグメントのすべての読み取りに対するすべての呼び出し（メチル化シトシン、非メチル化シトシン、およびその他／非該当）の合計を表している。特に、被覆率深さに応じて、所与のヌクレオチドの集合表現は、複数の核酸断片間のメチル化および／またはメチル化されていないシトシンの存在、ならびに交互の読み取りにおける相補的グアニンの存在による、１、２または３つの呼び出しを含むことができる。

図１０A、１０B、１０C、１０D、および１０Eに図示されたIGVパネルは、種々のCpG間隔についての変形例メチル化パターンを明らかにし、ここで、試験腫瘍生検および一致試験cfDNAの両方が、非癌cfDNAコントロールサンプルと同様に異なる。これらの実施例は、いくつかの実施形態に従って、開示された方法を使用して同定されたCpG間隔が、下流側の同定および／または分類目的のためにさらに使用され得る、試験サンプルと対照サンプルとの間の差次的メチル化状態を含むことを示す。

実施例５－メチル化と当業者腫瘍分率推定値の比較
組織および白血球試料（ART）の標的シーケンシングデータ、ならびに組織およびcfDNA (メチル化）の全ゲノム亜硫酸水素シーケンシングデータを、CCGA研究からの複数の参加者試料から得た。当業者シーケンシングデータを用いて小さな変形例を同定し、これを次に腫瘍分率推定値の算出に用いた。その高い被覆率深さ（例えば、各小変形例での２０００－３０００Xまで）に特性があるため、当業者腫瘍分の推定値を用いて、その後の比較のための基準を設定した。

メチル化データを同様に用いて、９５％信頼区間を伴うメジアン事後推定値を用いて、各参加者の腫瘍分率推定値を算出した。具体的には、組織WGBSデータを用いて、差次的にメチル化された部位を同定し、呼びかけたが、cfDNA WGBSデータを用いて、各部位におけるメチル化状態を評価し、腫瘍分率推定値を決定した。

腫瘍分率推定値の算出のためのシステムおよび方法は、例えば、参照により本明細書に組み込まれる「メチル化情報を用いた細胞源分率の推定のためのシステムおよび方法」と題する米国特許公開第２０２０－０３８５８１３号に詳細に記載されている。簡単に述べると、腫瘍分率推定値は、各試料について得られた配列読み取りにおいて観察された変異体頻度から計算される。試料中のすべての変異部位にわたる変形例カウントデータをモデル化し、腫瘍分率の事後推定値を提供する。

図１１は、ART腫瘍分率推定値（x軸）に対するメチル化腫瘍分率推定値（y軸）のプロットを示しており、ここで、個々の参加者試料はプロット内の各点によって示され、個々の参加者の腫瘍分率推定値は、上記のように、それぞれの参加者試料に含まれるすべての変形例部位を用いて決定された。標的（ART）シークエンシングアッセイにおいて小さな変異体の読み取りエビデンスを示す参加者のみがプロットに含まれた。この制限は、腫瘍分率推定値の真偽を確認し、小規模な変異体のエビデンスが不足しているにもかかわらず、腫瘍分率推定値が事後分布によって決定された参加者を除外するために含めた。

このプロットは、２つの推定値の間に線形関係を示し、標的化配列決定またはメチル化配列決定のいずれかの方法からのデータを用いる場合、腫瘍分率推定の間の一致を明らかにする。この一致は推定した腫よう分率で１０^-4と低く観察され、この相関はロバストであることを示唆した。したがって、メチル化配列決定は、腫瘍分率推定および小変形例の標的配列決定としてのその後の下流側応用のための正確で信頼できるファンデーションを提供すると結論づけることができる。

実施例６－cfDNA画分の機能としての癌を検出する能力
本明細書に記載されるスコア分級は、非同義変異の標的化配列解析に基づく腫瘍突然変異負荷の分級である。例えば、分類スコア（例えば、「Aスコア」）は、腫瘍突然変異負荷データについてのロジスティック回帰を使用して計算することができ、そこでは、各個体についての腫瘍突然変異負荷の推定値が、標的cfDNAアッセイから取得される。いくつかの実施形態において、腫瘍突然変異負荷は、cfDNA中の候補変異体として呼ばれ、騒音モデリングおよび継手コーリングを通過し、および／または変異体と重複する任意の遺伝子アノテーション中で非同義であると見出される、個体当たりの変異体の総数として推定され得る。トレーニングセットの腫瘍突然変異負荷数は、クロスバリデーションを用いて９５％の特異性が達成されるカットオフを決定するために、ペナリゼーションロジスティック回帰分級に与えられる。Aスコアに関するさらなる詳細は、例えば、Chaudharyら、２０１７、Journal of Clinical Oncology、３５（５）、suppl．e１４５２９、pre-print online publicationにおいて見出すことができ、これらはその全体が参照により本明細書に組み込まれる。

Bスコア分級は、参照により本明細書に組み込まれる「高次元のデータを選択、管理、および分析するための方法およびシステム」と題する米国特許公開第２０１９－０２８７６４９号A１に記載されている。Bスコア法に従って、健常被験者の参照群における健常被験者からの核酸試料の配列読み取りの第１のセットを、変動性の低い領域について分析する。したがって、各健康な被験体からの核酸サンプルの配列読み取りの第１のセットにおいて読み取られた各配列は、参照ゲノム内の領域に整列され得る。このことから、トレーニンググループ内の被験者からの核酸サンプルの配列読み取りからの配列読み取りの訓練セットを選択することができる。トレーニングセットで読まれた各配列は、参照セットから同定された参照ゲノムのばらつきが低い領域の領域に整列する。訓練セットには、健常被験者からの核酸試料の配列読み取り、ならびにがんを有することが知られている罹患被験者からの核酸試料の配列読み取りが含まれる。訓練グループからの核酸試料は、健常被験者の参照グループからの核酸試料のものと同一または類似のタイプである。このことから、トレーニングセットの配列読み取りから得られる量を用いて、健常被験者からの核酸試料の配列読み取りと、トレーニンググループ内の罹患被験者からの核酸試料の配列読み取りとの間の差異を反映する１つ以上のパラメータを決定する。次に、がんに関する状態が不明である被験者からのcfDNAフラグメントを含む核酸試料に関連する配列読み取りのテストセットを受け取り、その１つ以上のパラメータに基づいて、がんを有する被験者の可能性を判定する。

Mスコア分級は、２０１９年３月１３日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許公開第２０１９－０２８７６５２ A１号、および「Systems and Methods for Estimating Cell Source Fractions using Methods Using Methylation Information」と題する米国特許公開第２０２０－０３８５８１３ A１号に記載されている。

実施例７－腫瘍分率の推定方法の例
非メチル化シーケンシングデータのために、cfDNA試料の腫瘍分率を推定するためのいくつかの方法が開発された。国際特許公開第WO／２０１９／２０４３６０号「細胞を含まない核酸における腫瘍破砕を判定するためのシステムおよび方法」と題する国際特許公開第WO ２０２０／１３２１４８号、「方法情報を用いて細胞源破砕を推定するためのシステムおよび方法」と題する米国特許公開第２０２０－０３４００６４ A１号、「SMALL VARIANTSからの腫瘍破砕推定のためのシステムおよび方法」を参照されたい。例えば、アプローチの１つは、図１３Aにおいて方法１３００として示された。このアプローチでは、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織（例えば、１３０４）からの核酸試料、および適合患者（例えば、１３０６）からの白血球（WBC）からの核酸試料を、全ゲノム配列決定（WGS）によって配列決定した。シーケンシングデータに基づいて同定された体細胞変異体（例えば、１３０８）を、同一患者（例えば、１３１０）からの一致するcfDNAシーケンシングデータに対して分析し、腫瘍分率推定値（例えば、１３１２）を決定した。

メチル化シーケンシングデータについては、メチル化データ（標的化メチル化またはWGBSにより得られた）に基づいてcfDNA試料の腫瘍画分を推定するための複数の方法が開発された。「方法情報を用いた細胞源分率の推定のためのシステムおよび方法」と題された国際特許公開第WO ２０２０／１３２１４８号、米国特許公開第US ２０２０－０３４００６４ A１号、「小変形例からの腫瘍分率推定のためのシステムおよび方法」と題された。例えば、これらのアプローチの１つは、図１３Bの方法１３０２として例示されている。このアプローチでは、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織（例えば、１３１４）からの核酸試料を、全ゲノム亜硫酸水素配列決定（WGBS）により分析した。シーケンシングデータに基づいて同定された体細胞変異体（例えば、１３１６）を、同一患者（例えば、１３１８）からの一致するcfDNA WGBSシーケンシングデータに対して分析し、腫瘍分率推定値（例えば、１３２０）を決定した。
亜硫酸水素変換のような手順は、メチル化シーケンシングデータに基づく変形例識別をより困難にする。そのため、メチル化シーケンシングデータに基づいて腫瘍分率を推定するためには、変形例に基づく方法の代替法が必要である。WGBSシーケンシングデータに基づく腫瘍分画分析の実施例をこの実施例で詳述する。

図１４および１５は、適格なメチル化パターン（QMP）を使用する２つの方法を示す。これらの例において、QMPは、SNPおよび／またはSNVのような従来の変形例変形例の代わりに、腫瘍由来核酸を定量するために使用される。

これら２実施例では、CCGAデータを活用して、腫瘍DNAメチル化パターンを含むcfDNA、TF、および癌分類性能の間の関係を調べた。CCGA分級は、癌対非癌を検出するために、全ゲノム亜硫酸水素配列決定（WGBS）と標的メチル化（TM）シーケンシングデータについて訓練した。８２２試料が生検WGBSを実施され、そのうち２３１試料はcfDNA標的メチル化（TM）およびcfDNA全ゲノム配列決定（WGS）も有していた。生検WGBSでは、体細胞単一ヌクレオチド変形例（SNV）および適格性確認メチル化パターン（QMP；生検で一般的に観察されるが、非がん制御のcfDNAではまれに［＜１／１０，０００］に観察される配列決定されたDNAフラグメントにおけるメチル化パターンとして定義される［n＝８９８］）が同定された。本開示における特定の例において、QMPは「メチル化変形例」またはMVとも呼ばれた。観察された腫瘍断片数（WGSにおけるSNV；TMにおけるQMPs）をTFに依存する速度を有するPoisson処理としてモデル化した。TFおよび検出の分級限界（LOD）は、各ベイジアンロジスティック回帰を用いて評価した。
結果。生検サンプル全体では、メジアン２６３５のQMPがゲノム全体に分布しており、メジアン８６．８％が≧１名の参加者と共有され、メジアン６９．３％がTMアッセイの標的であった。QMPからのTF LODは０．０００５０（９５％信頼区間［CI］：０．０００４１～０．０００６１）であり、QMPとSNV推定値は一致した(Spearman´s Rho: ０．８２０）。QMPs TFは、説明された分類器性能(Spearman´s Rho: ０．８５６）を推定し、分類器検出限界の判定を可能にした（０．０００８２［９５% CI: ０．０００５７～０．００１１５］）。
結論。これらのデータは、がんに罹患していない個々にはほとんどみられない腫瘍由来cfDNAフラグメントにメチル化パターンが存在することを実証している；その存在量はTFを直接測定し、分類性能に影響する主要な因子であった。最後に、低分級LOD（～０．１％）は、癌検出のためのメチル化に基づくアッセイのさらなる臨床開発を動機づけている。
図１４Aは、例えば、WGBSシーケンシングデータに基づいて腫瘍由来核酸の存在量レベルを推定するためにQMPを使用する例示的なプロセス１４００を示す。この図および図１５Aでは、データは楕円ブロック（例えば、１４０２、１４０４、および１４１０）で表され、分析結果は矩形ブロック（例えば、１４０６、および１４２０）で表される。特に、癌被験体x由来の生検核酸試料（例えば、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織由来）は、全ゲノム亜硫酸水素配列決定（WGBS）を用いて配列決定される。シーケンシングデータは、一組のQMP（例えば、１４０６）を同定するために、参照データセット（例えば、非癌対照群からのプラズマcfDNA試料の１４０４、WGBSデータ）と比較される。この特定の例では、１４０４のデータセットは８９８の非癌サンプルを含んでいた。いくつかの代替実施において、WGBSデータではなく、１４０４は、非癌対照群のプラズマcfDNAの標的化メチル化データであり得る。いくつかの実施形態では、工程１４１０において、同じ癌対象xからの別の試料（例えば、cfDNA試料）が、新しいWGBSデータセットを生成するために使用される。いくつかの実施形態において、１４１０の試料は、例えば、対象を癌状態の治療で治療した後に、工程１４０２の試料と比較して後の時点で対象から収集される。以前に同定された各QMPの存在量レベルは、この新しいWGBSデータセットに基づいて決定される。いくつかの実施形態において、存在量レベルは、腫瘍分率推定値を計算するために使用され得る。いくつかの代替実施では、工程１４０２および１４１０の両方で、同じ癌試料が使用される。

任意の１４０８として示されるいくつかの実施形態では、１４０６でのQMP識別を容易にするために、１４１０からのWGBSデータセットを１４０２からのWGBSデータと組み合わせて使用することができる。
図１４Bは、同定されたQMPのセットの各々の存在量レベルを適格化するための例示的な方法１４３０を示す。工程１４４０では、複数のフラグメントメチル化パターン（FMP）が、癌対象の生検試料（例えば、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織からの）からのメチル化シーケンシングデータ（例えば、WGBSに基づく）に基づいて取得される。いくつかの実施形態において、FMPは、完全な核酸断片またはその一部におけるCpG部位のメチル化状態を表す。例えば、７個のCpG部位（例えば、FMPの所定の長さ）を含有する核酸断片のFMPは、MUMUUであってもよく、ここで、各Mはメチル化CpG部位を示し、Uは非メチル化CpG部位を示し、MまたはUによって示される各CpGは対応するゲノム座標を有する。いくつかの実施形態において、FMPの所定の長さは、核酸フラグメント中のCpG部位の総数よりも短く、６個または５個に変更することができる。このように、核酸断片は複数のFMPに対応することができる。所定の長さが６の場合、核酸断片は、MUMU (断片中のCpG部位１～６に対応）またはUMUU (断片中のCpG部位２～７に対応）に対応し得る。所定の長さが５の場合、核酸断片は、MUM (断片中のCpG部位１～５に対応）、UMU (断片中のCpG部位２～６に対応）、またはMUU (断片中のCpG部位３～７に対応）に対応し得る。フラグメント中のCpG部位の総数がFMPの所定の長さよりもはるかに大きい場合、単一の核酸フラグメントに基づいて複数の「見かけ上同一の」FMPを誘導することが可能であることに留意されたい。たとえば、１１個のCpG部位（MMUMMUMM）を含むフラグメントの場合、これは当てはまる。FMPの所定の長さが５である場合、MMUMM (フラグメント中のCpG部位１～５に対応）、MMUMM (フラグメント中のCpG部位４～８に対応）、およびMMUMM (フラグメント中のCpG部位７～１１に対応）の少なくとも３つの見かけ上同一であることが可能である。これら３つの異なるCpG部位のメチル化状態の配列は同一であるが、それぞれに含まれるCpG部位は異なるゲノム座標に対応しているので、これらは３つの異なるFMPを表すことができる。いくつかの実施形態では、所定の長さについて、FMPの回収を、癌対象のメチル化配列決定データセットに基づいて、すべての核酸断片について同定することができる。いくつかの実施形態では、FMPの複数のコレクションを、それぞれ所定の長さについて識別することができる。

いくつかの実施形態において、FMPの収集は、WGBSデータから派生する。
工程１４４５では、癌対象に対する適格性メチル化パターン（QMP）が、参照データセット（例えば、非癌対象のグループからのWGBSシーケンシングデータに基づく；例えば、陰性対照）を用いて、前の工程で同定されたFMPに基づいて同定される。QMPを同定する方法は、図２に記載されているものとすることができる。

いくつかの実施形態において、QMPは、癌対象にのみ存在し、対照非癌対象には存在しないFMPとして同定される。いくつかの実施形態（図２に記載されているものなど）では、複数のがん被験者のAMPセットを同定するために、複数のがん被験者からのFMPを、非キャナー制御のメチル化シーケンシングデータと比較することができる。いくつかの実施形態において、非癌患者由来のcfDNAは、１４０４の参照WGBSメチル化データを確立するために使用される。

工程１４５０で、追加のメチル化シーケンシングデータ（例えば、同じ癌対象からの一致するcfDNA試料のWGBSデータ１４１０）を用いて、腫瘍分率を推定することができる。

任意の工程１４５２で、追加のメチル化シーケンシングデータ（例えば、同じ癌対象からの一致するcfDNA試料のWGBSデータ１４１０）を、工程１４３０からの一致する生検メチル化シーケンシングデータと組み合わせて使用して、癌対象に対するQMPの同定を容易にすることができる。
一組のQMPが癌被験体について同定されると、工程１４５０からのメチル化シーケンシングデータに基づいて、同定された各QMPの存在量レベルを決定することができる。例えば、特定のQMPを有するユニークな核酸断片の数は、その存在量レベルの指標として数えることができる。いくつかの実施形態において、同定されたQMPセットにおける各QMPの存在量レベルは、式（１）を用いる方法を含むが、これらに限定されない適用可能な方法に基づいて、癌対象に対する腫瘍分率を推定するために使用され得る。

いくつかの実施形態において、図１４Aおよび１４Bに示されるプロセスは、がん対象のグループに適用され得る。いくつかの実施形態では、がん対象のグループは、特定のがん型に基づいて細分化され得る。これらの細分化されたグループから抽出された特徴は、異なる癌タイプにわたる腫瘍分率を計算するための全体モデルにおいて組み合わせることができる。あるいは、異なる癌タイプについて別々の腫瘍分率モデルを決定することができる。

図１５Aおよび１５Bは、標的化メチル化（TM）データを使用して腫瘍分率を推定するためのQMPに基づく方法を示す。図１５Aに示されるように、全体セットアップ１５００は、一般に、図１４Aに示されるものと同様である（例えば、１５０２、１５０４、および１５０６参照）。さらに、標的化メチル化配列決定からの影響に対処するために、さらなるステップが必要である：例えば、i）癌対象からのTMシーケンシングデータが使用され（例えば、１５１０）、ii）非癌試料からのさらなるTMシーケンシングデータが使用され（例えば、１５１２）、iii）選択された領域が、被覆率または配列決定深さに影響を及ぼす濃縮される。したがって、TMシーケンシングデータのためのシークエンシング深さは、腫瘍分率（例えば、１５２０）を推定するために使用される前に、それに応じて（例えば、１５１５に基づいて）較正されなければならない。例えば、０％および１００％メチル化ゲノムDNAの５０／５０の混合物は、知覚される配列決定深さに対する濃縮プローブの効果を評価するために、並行WGBSおよびTM分析にかけることができる。

図１５Bは、図１５Aに対応する方法ステップを示す。全体的な方法論は、図１４Bに示されているものと類似している。例えば、工程１５４０において、工程１４４０と同様に、FMPは、癌対象の腫瘍組織に由来する核酸試料の生検WGBSデータに基づいて得られる。

工程１５４５では、前段階で得られた生検WGBSデータおよび非癌被験者由来のWGBS cfDNAデータに基づいて、一組のQMPが同定される。ここでは、非癌被験者のシーケンシングデータを陰性対照として、例えば、特定のフラグメントメチル化パターンまたはFMPを除外またはブラックリスト化するために使用する。さらに、生検由来の核酸およびcfDNA試料からのWGBSデータに比較的豊富に存在するFMPは、癌分類、特に起源組織分析にあまり有用ではない傾向があり、したがって、これらは、いくつかの実施形態において同様に除外することができる。

工程１５５０では、前の工程で同定されたQMPは、腫瘍分率推定、癌または起源組織分類の評価などを含むが、これらに限定されない多くの用途に使用される前に、さらに洗練され、較正され得る。いくつかの実施形態では、工程１５５０－１において、標的化メチル化（TM）シーケンシングデータが、同じ被験体からの適合するcfDNA試料から得られる。例えば、工程１５４５からのcfDNA試料の亜硫酸水素調製物は、２つの部分に分割することができる：一方をWGBS配列決定において使用し、他方を、濃縮された試料が洗浄され、溶出され、PCRによって増幅され、正規化され、プールされ、メチル化配列解析に供される前に標的化濃縮（例えば、核酸プローブに対するハイブリダイゼーションの１つ以上のラウンドによって）することができる。１５５０－１からのデータセットは、例えばTFを推定するための基礎として使用される。１５５０－２として示されるいくつかの実施形態では、非癌被験者からのcfDNA試料の別のTM配列決定データセットを使用して、QMPの最終セットからFMPを除外またはブラックリストにすることができる。工程１５５０の後、精密化された一組のQMPをその後の分析のために得ることができる。

ゲノムのある領域は濃縮されているので、濃縮された領域のカバレッジまたは深さは、それらの実際の値よりも大きく、したがって、較正されるべきである（例えば、１５５０－３）。いくつかの実施形態において、既知の較正試料は、濃縮の有無にかかわらず、配列決定することができる。例えば、出発物質は、完全にメチル化された核酸を完全にメチル化されていない核酸と混合することによって作り出すことができる。その後、２つのサンプルが作成され、その核酸含有量は互いに較正される；例えば、第１のサンプルは出発原料と同じであり、第２のサンプルは、TM配列決定アッセイのために設計されたプローブを使用して濃縮されている。次いで、両方のサンプルをメチル化配列解析にかける。次いで、プルダウンバイアスを低減するために、２つの試料のシーケンシングデータを用いて、特定のCpG部位の被覆率および深さを比較する。

工程１５５５で、精製されたQMPのセットにおける各QMPの存在量レベルを、腫瘍分率を推定するために使用される前に、１５５０－１からのTMメチル化データに基づいて評価することができる。

実施例８－QMPに基づく標的メチル化画分の推定
メチル化変形例（y軸、詳細は後述）対短い遺伝的変形例に対する腫瘍生検特徴排出速度から推定されるcfDNA腫瘍分率が、この実施例で開示される。２３１の訓練セット参加者について、配列決定誤差および集団変異をモデリングした後に、FFPE腫瘍生検サンプルの３０x全ゲノム亜硫酸水素配列決定から変形例を同定した（補助的な方法を参照）。参加者のcfDNA腫瘍分率の推定値は黒丸で表され、９５％の信頼区間は水平または垂直の灰色の線で示される。対角の灰色線は、２つの方法の間の完全な一致を表す。

また、メチル化パターンから腫瘍分率を以下のように算出した。メチル化変異体は、腫瘍生検WGBSデータ標本（≧０．２変異対立遺伝子分率、≧部位に及ぶフラグメントの合計深さ１０倍）で生じ、凝集した非癌cfDNA WGBSデータ（≦０．００１変異対立遺伝子分率）ではまれに生じた５つの連続したCpGとそれらのメチル化状態（例えば、CpG₁₀ －CpG₁₄ MMMMM）のセットとして定義した。適合生検試料で同定されたメチル化変異体を、（１）０％または１００％メチル化CpGs、（２）０％メチル化および１００％メチル化ゲノムDNAの混合物を所定の組成（例えば、５０／５０、４０／６０、３０／７０、２０／８０、または１０／９０比）での対照実験において、本発明者らの標的化メチル化アッセイにより効果的にプルダウンされたもの、および（３）重複しないセットを形成したもの（二重計数を緩和するため）に濾過した。プルダウンバイアスを種々の制御データを用いてサイト毎に推定した。後部腫瘍分率推定値は、各変異体部位をカバーする変異体一致および非一致フラグメントの数を用いて作成した。腫瘍分画、プルダウンバイアス、推定総シークエンシング深さ、および暗騒音率の機能として速度定数を計算するPoisson尤度モデルを用いた。この方法を厳密に開発し、合成希釈法を用いて検証し、cfDNAの患者適合WGBS（調製中の原稿）から得られた推定値と比較した。

cfDNAに腫ようの特徴を有するフラグメントの観察計数から腫よう分率を推定した。腫瘍組織生検のWGBSから、遺伝的小ヌクレオチド変異体およびメチル化変異体腫瘍の特徴を決定した。参加者２３１人のサブセットは、トレーニングセットで腫瘍生検とcfDNAシークエンシングが一致し、腫瘍分率の推定に用いられた。この組の参加者は、生検が標的選択に用いられた参加者を除外した。

より具体的には、SNVから腫瘍－分画を算出するために、腫瘍組織のWGBSおよびcfDNAのWGSの共同分析を実施し、腫瘍関連体細胞性小ヌクレオチド変異体を同定した。例えば、参照により本明細書に組み込まれる、２０２０年２月２８日出願の「Systems and Methods for Calling Variants Using Methods Using Methylation Sequencing Data」という名称の米国仮特許出願第６２／９８３，４０４号を参照されたい。このプロセスは、鎖特異的ピレップとベイジアン遺伝子型モデルを用いて亜硫酸水素への変換（非メチル化CからTへの変換）の影響を説明するカスタム変形例呼び出し元を用いて、WGBS組織内のSNVを呼び出すことから始まった。いったんSNVの候補リストが生成されると、体細胞変異体を濃縮するために一連のフィルタリング工程が実施された。なぜなら、これらの個体についての適合正常参照を用いたフィルタリングは利用できなかったからである。これらのフィルターには、最小値や最大値変異型対立遺伝子頻度（VAF）、最小深度、既知の騒音部位のカスタムブラックリスト、試料適合WGS cfDNA内の自由ベイによりマークされた個人に対してプライベートな生殖系列細胞変異体の除去、およびgnomADおよびdbSNPを用いた既知の生殖系列細胞変異体のブラックリストが含まれた。対応するcfDNA試料のマッチさせたWGS配列決定から、各変形例を支持し、支持しないフラグメントの数を生成した。後部腫瘍分率推定値は、腫瘍分率に対するグリッドサーチを用いて計算し、二項尤度の混合物として定義された変形例ごとの尤度を用いた。混合成分は、（１）腫瘍排泄によるフラグメントの観察、ならびに（２）生殖細胞系変異体および誤って変異体と呼ばれる種々の誤りモードを説明した。各参加者の腫瘍分率について、中央値および９５％信頼区間を算出した。

実施例９－セルソースの実施例
いくつかの実施形態において、本開示のいずれかの実施形態の細胞源（第１、第２、または第３の被験体セット、または標的被験体中の対応する被験体から得られるそれぞれの生物学的試料）は、共通の原発部位の第１の癌である。いくつかの実施形態において、第１の癌は、乳癌、肺がん、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道の癌、リンパ腫、頭頸部癌、卵巣癌、肝胆道癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱がん、胃癌、またはそれらの組合せである。

いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、特定の癌型の腫瘍、またはその画分である。いくつかの実施形態において、腫瘍は、副腎皮質がん、小児副腎皮質がん、カポジ肉腫、肛門がんに関連する腫瘍、星細胞腫、小児（脳がん）腫瘍、非定型奇形腫様／ラブドイド腫瘍、中枢神経系（脳がん）腫瘍、皮膚の基底細胞がん、膀胱がん腫瘍、骨がん（例えば、翅肉腫および骨肉腫）組織、脳腫瘍、小児乳がん組織、気管支腫瘍、バーキットリンパ腫組織、カルチノイド腫瘍（消化管）、原発不明がん、小児心臓（心臓）腫瘍である。小児胚芽腫である中枢神経系腫瘍（例、小児非定型奇形腫様／ラブドイド腫瘍）、小児胚細胞腫瘍、子宮頸がん組織、胆管細胞腫瘍、小児大腸がん組織、慢性骨髄増殖性腫瘍、小児大腸がん腫瘍、小児頭蓋咽頭腫組織、非浸潤性乳管がん（DCIS）、小児胎児性腫瘍（子宮がん）組織、小児食道がん組織、感覚神経芽腫（頭頸部がん）組織、小児頭蓋外胚細胞腫瘍、眼球がん組織、眼球内黒色腫、網膜芽細胞腫、胆■がん組織、胃（胃）がん組織、消化管カルチノイド消化管間質腫瘍（GIST）、小児消化管間質腫瘍、胚細胞腫瘍（小児中枢神経系胚細胞腫瘍、小児頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、卵巣胚細胞腫瘍、精巣腫瘍組織など）、頭頸部小児心臓腫瘍、肝細胞腫瘍（HCC）組織、膵神経内分泌腫瘍、腎細胞がん（RCC）組織、白血病、肝がん組織、肺がん組織、小児肺がん組織、骨および骨肉腫の悪性線維性組織球腫、黒色腫、小児眼内黒色腫、メルケル細胞がん、悪性中皮腫、転移性がん組織、原発不明の転移性扁平上皮性頸部がん、NUT遺伝子変化を伴う正中線路がん（頭頸部がん）組織、多発性内分泌腫瘍症候群組織、多発性骨髄腫／形質細胞腫瘍、骨髄異形成／骨髄増殖性腫瘍慢性骨髄増殖性腫瘍、鼻腔および副鼻腔がん組織、鼻咽頭がん（NPC）組織、神経芽細胞腫組織、非小細胞肺がん組織、口唇および口腔空洞がんおよび中咽頭がん組織、骨肉腫および悪性線維性組織球腫、小児卵巣がん組織、膵がん組織、乳頭腫（小児喉頭）組織、傍神経節腫組織、副鼻腔および鼻腔がん組織、陰茎がん組織、褐色細胞腫組織、小児褐色細胞腫組織、下垂体腫瘍、胸膜肺芽腫、原発性中枢神経系（CNS）リンパ腫、原発性腹膜がん組織、直腸がん組織、網膜芽細胞腫、小児横紋筋肉腫、唾液腺がん組織、肉腫（小児血管腫瘍、骨肉腫など）子宮がん組織、皮膚がん組織、小細胞肺がん組織、小腸がん組織、皮膚扁平上皮がん、原発不明の頸部扁平上皮がん、皮膚t細胞リンパ腫、精巣腫瘍小児精巣腫瘍組織、咽頭がん（例えば、上咽頭がん、中咽頭がん、下咽頭がん）組織、胸腺腫または胸腺がん、甲状腺がん組織、腎盂および尿管組織の移行上皮がん、原発不明がん組織、尿管または腎盂組織、移行上皮がん（腎（腎細胞）がん組織、尿道がん組織、子宮内膜がん組織、子宮肉腫組織、膣がん組織、小児膣がん組織、血管腫瘍、外陰がん組織、ウィルムス腫瘍またはその他の小児腎腫瘍。

いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、第一の癌である。上記実施態様の中には、第１のがんは、乳がんの病期、肺がんの病期、前立腺がんの病期、大腸がんの病期、腎がんの病期、子宮がんの病期、膵がんの病期、食道がんの病期、リンパ腫の病期、頭頸部がんの病期、卵巣がんの病期、肝胆道がんの病期、黒色腫の病期、子宮頸がんの病期、多発性骨髄腫の病期、白血病の病期、甲状腺がんの病期、膀胱がんの病期、または胃がんの病期である。

いくつかの実施形態において、本開示の任意の実施形態の細胞源は、乳癌の所定の段階、前立腺癌の所定の段階、前立腺癌の所定の段階、大腸癌の所定の段階、腎癌の所定の段階、子宮癌の所定の段階、膵臓癌の所定の段階、食道の所定の段階、リンパ腫の所定の段階、頭頸部癌の所定の段階、卵巣癌の所定の段階、肝胆道癌の所定の段階、黒色腫の所定の段階、子宮頸癌の所定の段階、多発性骨髄腫の所定の段階、白血病の所定の段階、甲状腺がんの所定の段階、膀胱癌の所定の段階、または胃癌の所定の段階である。

いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、非癌性組織由来である。いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、健康な組織に由来する細胞に由来する。いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、乳房、肺、前立腺、結腸直腸、腎臓、子宮、膵臓、食道、リンパ液、卵巣、子宮頸部、表皮、甲状腺、ブラダー、胃、またはそれらの組み合わせなどの健康な組織からのものである。

いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、１つの組織型に由来する。いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、２つ以上の組織型に由来する。いくつかの実施形態において、組織型は、１つ以上の細胞型（例えば、健康な非癌性細胞および癌性細胞の組み合わせ）を含む。いくつかの実施形態において、組織型は、１つの細胞型（例えば、がん性または健康な非がん性細胞のいずれか）を含む。

いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、１つの細胞型、２つの細胞型、３つの細胞型、４つの細胞型、５つの細胞型、６つの細胞型、７つの細胞型、８つの細胞型、９つの細胞型、１０つの細胞型、または１０を超える細胞型を構成する。

いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、肝細胞である。いくつかの上記態様において、細胞源は、肝細胞、肝星状脂肪記憶細胞（ITO細胞）、クッパー細胞、類洞内皮細胞、またはそれらの任意の組合せである。

いくつかの実施態様において、本開示のいずれかの実施態様の細胞源は、胃細胞である。いくつかのそのような態様において、第１の細胞源は壁細胞である。

いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、１つ以上のタイプのヒト細胞である。このような或る実施態様では、細胞源は、適応性NK細胞、脂肪細胞、アルツハイマー型星状細胞、アマクリン細胞、B細胞、好塩基球活性化細胞、ベットツ細胞、ビストライト化細胞、心筋細胞、CD４+ T細胞、セメント芽細胞、小脳顆粒細胞、胆嚢細胞、クロム親和性細胞、クラブ細胞、細胞傷害性T細胞、樹状細胞、腸クロム親和性細胞、好酸球、糸球体外メサンギウム細胞、ファゴット細胞、胃主細胞、ゴブレット細胞、肝星状細胞、過分葉好中球、糸球体メサンギウム細胞である糸球体傍細胞、ケラチノサイト、クッパー細胞、ラクトトロピック細胞、マクロファージ、緻密斑細胞、巨核球、メラノサイト、ミクロフォールド細胞、単球、ナチュラルキラーT細胞、グリター細胞、好中球、骨芽細胞、破骨細胞、好酸球（上皮小体）、パネル細胞、傍濾胞細胞、傍濾胞主細胞、傍細胞、壁細胞、ペグ細胞、ペグ細胞、尿細管周囲筋様細胞、血小板、足細胞、調節性T細胞、網状赤血球、網膜双極細胞、網膜水平細胞、網膜神経節細胞、網膜前駆細胞、センチネル細胞、セルトリ細胞、ソマトトロピック細胞、ソマトトロピック細胞、星状細胞、触角細胞、T細胞、ヘルパーT細胞、テロサイト、腱細胞、甲状腺刺激細胞、移行性B細胞、トリコサイト（ヒト）、房状細胞、単極刷子細胞、白血球、ゼルバレンス、またはこれらの任意の組合せ。いくつかのそのような態様において、第１の細胞源のそのような細胞は、健康である。別の実施形態では、第１の細胞源のそのような細胞は、癌に苦しむ。

いくつかの実施形態において、本開示のいずれかの実施形態の細胞源は、細胞型の任意の組合せであり、ただし、そのような細胞型が単一の器官に由来することを条件とする。いくつかの上記実施形態において、この単一臓器は、乳房、肺、前立腺、結腸／直腸、腎臓、子宮、膵臓、食道、血液、頭部／頸部、卵巣、肝臓、子宮頸部、甲状腺、ブラダー、または胃である。いくつかの実施形態において、この単一の器官は、健康である。別の実施形態では、この単一の臓器は、単一の臓器に由来する癌に罹患している。さらに別の実施形態では、この単一の臓器は、単一の臓器以外の臓器に由来し、単一の臓器に転移する癌に罹患している。

いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞型の任意の組み合わせであり、ただし、そのような細胞型は、所定の器官セットから生じたものである。いくつかの上記実施形態において、この所定の器官セットは、セットの乳房、肺、前立腺、結腸／直腸、腎臓、子宮、膵臓、食道、血液、頭部／頸部、卵巣、肝臓、子宮頸部、甲状腺、ブラダー、および胃における任意の２つの器官である。いくつかの実施形態において、この所定の器官セットは、健康である。別の実施形態では、この所定の臓器セットは、所定の臓器セット内の１つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の臓器セットは、所定の臓器セット以外の臓器に由来し、所定の臓器セットに転移する癌に罹患する。

いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞型の任意の組み合わせであり、ただし、そのような細胞型は、所定の器官セットから生じたものである。いくつかの上記実施形態において、この所定の器官セットは、セットの乳房、肺、前立腺、結腸／直腸、腎臓、子宮、膵臓、食道、血液、頭部／頸部、卵巣、肝臓、子宮頸部、甲状腺、ブラダー、および胃における任意の３つの器官である。いくつかの実施形態において、この所定の器官セットは、健康である。別の実施形態では、この所定の臓器セットは、所定の臓器セット内の１つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の臓器セットは、所定の臓器セット以外の臓器に由来し、所定の臓器セットに転移する癌に罹患する。

いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞型の任意の組み合わせであり、ただし、そのような細胞型は、所定の器官セットから生じたものである。いくつかの上記実施形態において、器官のこの所定のセットは、設定された乳房、肺、前立腺、結腸／直腸、腎臓、子宮、膵臓、食道、血液、頭部／頸部、卵巣、肝臓、子宮頸部、甲状腺、ブラダー、および胃における任意の４つの器官、５つの器官、６つの器官、または７つの器官である。いくつかの実施形態において、この所定の器官セットは、健康である。別の実施形態では、この所定の臓器セットは、所定の臓器セット内の１つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の臓器セットは、所定の臓器セット以外の臓器に由来し、所定の臓器セットに転移する癌に罹患する。

いくつかの具体的な実施形態において、本開示のいずれかの実施形態の細胞源は、白血球である。いくつかの上記態様において、細胞源は、好中球、好酸球、好塩基球、リンパ球、Bリンパ球、Tリンパ球、細胞傷害性T細胞、単球、またはそれらの任意の組合せである。

結論
複数の例は、単一の例として本明細書に記載される成分、動作または構造のために提供されてもよい。最後に、様々な構成要素、動作、およびデータストア間の境界は、幾分任意であり、特定操作は、特定の例示的な構成の文脈で示される。他の機能の割当ても想定されており、実施の範囲内に入る可能性がある。一般に、実施例の構成において別個の構成要素として提示される構造及び機能は、結合された構造又は構成要素として実施することができる。同様に、単一の構成要素として提示される構造および機能は、別個の構成要素として実装されてもよい。これらおよびその他の変更、修正、添加、および改善は、実装の範囲内に含まれる。

また、第１、第２などの用語は、本明細書では、様々な要素を説明するために使用され得るが、これらの要素は、これらの用語によって限定されるべきではないことが理解されるであろう。これらの用語は、ある元素と別の元素を区別するためにのみ使用される。例えば、第１の主題は、第２の主題と呼ぶことができ、同様に、第２の主題は、本開示の範囲から逸脱することなく、第１の主題と呼ぶことができる。最初の被写体と２番目の被写体は両方の被写体であるが、同じ被写体ではない。

本開示で使用される用語は、特定の実施形態のみを説明するためのものであり、本発明を限定することを意図するものではない。本発明の説明及び添付の特許請求の範囲において使用されるように、単数形の「a」、「an」及び「the」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。また、本明細書で使用される「および／または」という用語は、関連する列挙されたアイテムのうちの１つまたは複数の可能な任意のおよびすべての組み合わせを指し、包含することが理解されるであろう。用語「備える」および／または「備える」は、本明細書において使用される場合、記載された特徴、整数、工程、動作、元素、および／または構成元素の存在を指定するが、１つまたは複数の他の特徴、整数、工程、動作、元素、構成元素、および／または他のグループの存在または追加を排除しないことがさらに理解されるであろう。

本明細書で使用されるように、用語「if」は、文脈に応じて、「いつ」または「上」または「決定に応答して」または「検出に応答して」を意味すると解釈され得る。同様に、「決定された場合」または「［記載された状態または事象］が検出された場合」という語句は、状況に応じて、「決定された場合」または「決定された場合」または「検出された場合」（記載された状態または事象）または「検出された場合」（記載された状態または事象）を意味すると解釈することができる。

前述の説明は、例示的な実装を実施するシステム、方法、技術、命令シーケンス、およびコンピューティング・機械・プログラムプロダクトの例を含んだ。説明のために、発明の主題の様々な実装の理解を提供するために、多数の特定の詳細が記載された。しかしながら、当業者には、本発明の主題の実施がこれらの特定詳細なしに実施され得ることは明白であろう。一般に、既知の命令インスタンス、プロトコル、構造、および技術は、詳細には示されていない。

上記の説明は、説明のために、特定の実装を参照して説明されてきた。しかしながら、上記の例示的な議論は、網羅的であること、または実装を開示された厳密な形態に限定することを意図するものではない。上記の教示を考慮すると、多くの修正および変形が可能である。実施形態は、原理およびそれらの実用的用途を最も良く説明するために選択され、説明され、それにより、当業者が、意図される特定の用途に適しているように、様々な変更を伴う実施形態および様々な実施形態を最も良く利用することを可能にした。

本明細書は、該して、癌状態を識別または示すメチル化パターンを同定するために、生物学的試料においてメチル化パターンを使用することに関する。

癌の早期発見は、癌の転帰を改善する最も人間的な方法の１つである。現状の治療－固形腫瘍に対する手術、化学療法と放射線の組み合わせ、または液状腫瘍に対する化学療法と骨髄移植－には、生存率が不十分であるなどの欠点がある。治療はしばしば患者を疼痛のままにし、一方で生存期間の不十分な量を提供する。新しい免疫療法にも欠点がある。患者は集中治療室で治療されなければならず、しばしば致死的な副作用がある。このような治療法はいずれも、癌が早期に発見されれば、より効果的である。

より良い治療法と癌診断法を開発するために、癌の単一突然変異の探索に資源が投入されてきた。この方法は「精度腫瘍学」として知られる一般的な医学的取り組みに発展してきた。この取り組みでは、細胞のコントロール不能な成長の原因となる重要な薬剤感受性変異を同定するために、腫瘍の塩基配列を決定する。例えば、米国国立癌研究所が主導する臨床試験イニシアチブ「治療選択のための分子解析」（MATCH）は、２０１５年に開始された。この試験には３０以上の治療群がある。この試験で検査されたより一般的な腫瘍の中で、既存の薬物で対処可能な「実行可能である」突然変異が、せいぜい１５％の症例で発見された。もっと大きな失望は、突然変異を薬剤と対合させても結果が保証されなかったことである－適合した患者の３分の１のみが治療に反応し、その反応の半分は６カ月以内に消失した。精度の高い腫瘍学の追求が進行中であるが、現在までの結果は、ほとんどの癌はこのような縮小主義的アプローチで対処するにはあまりにも複雑すぎることを示している。

実際、ほとんどの一般的な癌ははるかに交絡因子であり、臨床試験中の癌治療薬の９５％までが米食品医薬品局（FDA）の承認を得られない。他の５％では、残りの５％の多くは、生存率がわずか数か月しか改善せず、治療を受けた症例の一部にすぎない。

上記の欠点はまた、早期発見の必要性を強調する。しかしながら、現在のスクリーニング検査は不十分である。マンモグラフィー、大腸内視鏡検査、Papスミアおよび前立腺特異抗原（PSA）の検査などのモニタリング方法が数十年にわたって使用されてきたが、すべてが一様に成功しているわけではない。一部の癌は進行が非常に遅いため、患者は他の原因で死亡する可能性が高くなり、一部の危険な腫瘍は、治療するには手遅れになるまで検出できない。さらに、現在までのところ、肺癌を含む多数の癌に対して十分なスクリーニング検査は利用できない。

このようなスクリーニング検査を開発するためには、癌細胞の「バイオマーカー」を定義する必要がある。これらは、癌細胞が放出する遺伝物質の鎖など、ほとんど何にでもある。米国国立癌研究所は、このようなバイオマーカーが癌の最も初期の足跡を提供するだけでなく、進行性腫瘍と寿命を脅かさない腫瘍を分離するのに役立つことを期待して、大規模なイニシアチブを支援している。生体分子配列決定の進歩は、特に核酸試料に関して、細胞および分子生物学の分野に革命をもたらし、上記バイオマーカーを発見するための有望な技術を提供する。自動配列決定システムの開発により促進され、現在では全ゲノムの配列決定が可能となっている。

バイオマーカーを見つけるための１つの特別なアプローチは、異常なDNAメチル化パターンを同定するためにこのような配列決定を用いることである。DNAメチル化は遺伝子発現の調節に重要な役割を果たしている。異常なDNAメチル化は、癌を含む多くの疾患過程に関与しており、メチル化の特定のパターンは、特定の癌状態と関連することが決定されている。例えば、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる、Jones, 2002, Oncogene 21:5358-5360; Paska and Hudler, 2015, Biochemia Medica 25(2):161-176, および Du et al., 2010, BMC Bioinformatics 11:587, doi:10.1186/1471-2105-11-587を参照されたい。さらに、メチル化パターンは、対象における癌状態（例えば、癌のタイプ、癌の段階、癌の有無）を分類するために用いることができる。メチル化配列決定（例えば、全ゲノム亜硫酸水素配列決定（WGBS））を用いたDNAメチル化プロファイリングは、癌の検出、診断、および／またはモニタリングのための有用な診断ツールとしてますます認識されている。例えば、差次的にメチル化された領域および／または対立遺伝子特異的メチル化パターンの特異的パターンは、循環無細胞DNAを用いた非侵襲的診断のための分子マーカーとして有用であり得る。例えば、Warton and Samimi, 2015, Front Mol Biosci, 2(13) doi: 10.3389/fmolb.2015.00013を参照のこと。

新たな配列決定技術により、メチル化配列決定を含む大規模な配列決定が可能になったが、これらの新たな配列決定技術により、配列決定されているゲノムの数と複雑さが相応に増加している。大量の高精度核酸配列が現在得られるが、これらの配列を利用して生物学的洞察を得、疾患の検出および診断に情報を与えるには、多くの問題が残っている。

上記の背景を考慮すると、ますます複雑で大規模な核酸配列決定データを使用してバイオマーカーを同定するための改良されたアプローチが当技術分野において必要とされている。さらに、このようなバイオマーカーを用いて、ゲノムにわたる複雑な生体情報パターンおよび非線形性をモデル化および推論し、そして、癌などの疾患の検出、診断、および／またはモニタリングのための試験を開発する改良された方法が、当技術分野において必要とされている。

本開示は、核酸試料を用いて試験対象から得られた生体試料中の癌状態（例えば、１以上の選択基準を満たす、複数の適格なメチル化パターン、所定数のCpG部位である長さ、またはCpG数範囲）を識別または示す、複数の適格なメチル化パターンを同定するための強固な技術を提供することによって、背景技術において同定された欠点に対処する。全ゲノム、または標的ゲノム、シーケンシングデータとメチル化データとの組み合わせ、および特定のゲノム領域に対応するメチル化パターンを表すためのノードを含む間隔マップの使用は、従来の同定方法を超える追加の診断および分析能力を提供する。

以下に、本発明のいくつかの態様の基本的な理解を提供するために、本発明の概要を示す。この発明の概要は、本発明の広い概観ではない。本発明の重要／クリティカルな要素を特定すること、または本発明の範囲を明確にすることは意図されていない。その唯一の目的は、本発明の概念のいくつかを、後に提示されるより詳細な説明の前置きとして、簡略化された形態で提示することである。

本開示の一態様は、１または複数のプロセッサを有するコンピュータシステムにおいて、癌状態を識別または示す複数の適格なメチル化パターンを同定する方法、および１または複数のプロセッサによる実行のための１または複数のプログラムを記憶するメモリを提供する。この方法は、第１のデータセットを電子形式で取得することを含み、ここで、第１のデータセットは、第１の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片の対応する断片メチル化パターンは、１または複数の対象の第１のセット中の対応する対象から得られた各生物学的試料からの核酸のメチル化配列決定によって決定され、各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。いくつかの実施形態では、第１の複数の断片は、１００を超える断片、５００を超える断片、１０００を超える断片、１０，０００を超える断片、１００，０００を超える断片、５００，０００を超える断片、１００万を超える断片、１０００万を超える断片、または１億を超える断片を含む。

本方法は、第２のデータセットを電子形式で取得することをさらに含み、第２のデータセットは、第２の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片の対応する断片メチル化パターンは、対象の第２のセット中の対応する対象から得られた各生物学的試料からの核酸のメチル化配列決定によって決定され、各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。１以上の対象の第１セットの各対象は、癌状態の第１の状態を有し、第２セットの対象の各対象は、癌状態の第２の状態を有する。いくつかの実施形態では、第２の複数の断片は、１００を超える断片、５００を超える断片、１０００を超える断片、１０，０００を超える断片、１００，０００を超える断片、５００，０００を超える断片、１００万を超える断片、１０００万を超える断片、または１億を超える断片を含む。

この方法は、第１のデータセットを使用して、１または複数の対応するゲノム領域について１または複数の第１の状態間隔マップを生成することをさらに含む。１または複数の第１の状態間隔マップ内の各第１の状態間隔マップは、対応する独立した複数のノードを備える。いくつかの実施形態では、対応する独立した複数のノードは、５０個以上のノード、１００個以上のノード、５００個以上のノード、１０００個以上のノード、１０，０００個以上のノード、１００，０００個以上のノード、１００万個以上のノード、または１００万個以上のノードを含む。１または複数の第１の状態間隔マップ内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および各ノードの対応する開始メチル化部位と対応する終了メチル化部位との間の第１のデータセット内の第１の複数の断片にわたって観察される各異なる断片メチル化パターンに関して、異なる断片メチル化パターンの表現および第１のデータセット内の断片のカウントであって、断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する断片のカウントを特徴とする。

この方法は、第２のデータセットを使用して、１または複数の対応するゲノム領域について１または複数の第２の状態間隔マップを生成することをさらに含む。１または複数の第２の状態間隔マップ内の各第２の状態間隔マップは、対応する独立した複数のノードを備える。いくつかの実施形態では、対応する独立した複数のノードは、５０個以上のノード、１００個以上のノード、５００個以上のノード、１０００個以上のノード、１０，０００個以上のノード、１００，０００個以上のノード、１００万個以上のノード、または１００万個以上のノードを含む。１または複数の第２の状態間隔マップ内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位と各ノードの対応する終了メチル化部位との間の第２のデータセット内の第２の複数の断片にわたって観察される各異なる断片メチル化パターンに関して、異なる断片メチル化パターンの表現、および第２のデータセット内の断片のカウントであって、断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で端部し、異なる断片メチル化パターンを有する、断片のカウントを特徴とする。

この方法はさらに、複数の適格なメチル化パターン（またはQMP）について、１または複数の第１の間隔マップおよび１または複数の第２の間隔マップをスキャンすることを含み、このようなメチル化パターンの各々は、所定のCpG部位数範囲（例えば、５の長さは、５つのCpG部位を指し、好ましくは、同一の核酸断片上に隣接する；本明細書に開示される典型的な適格なメチル化パターンは、５つのCpG部位～２０のCpG部位の間を含む）にある長さを有する。このようなメチル化パターンは、１または複数の第１の間隔マップおよび１または複数の第２の間隔マップの断片メチル化パターン内にある。いくつかの実施形態では、所定のCpG部位数範囲は、異なる長さの適格なメチル化パターン（またはQMP）のセットを含み、例えば、セットでの長さは、３つのCpG部位～５０のCpG部位の間、４つのCpG部位～３０のCpG部位の間、または５つのCpG部位～２５のCpG部位の間を含むことができる。いくつかの実施形態では、所定のCpG部位数範囲は、単一のCpG数（例えば、l、対応する開始（初期）CpG部位と対応する終了（最終）CpG部位との間のCpG間隔ｌの長さ、しばしば開始CpG部位で始まり、終了CpG部位で終わるCpG部位の数であり得る）である。いくつかの実施形態では、複数の適格なメチル化パターンにおける各適格なメチル化パターンは、対応する開始CpG部位と対応する終了CpG部位との間の対応する長さｌに及ぶ。このようにして、癌状態を識別または示す複数の適格なメチル化パターンが同定される。いくつかの実施形態では、複数の適格なメチル化パターンは、（例えば、長さ要件に加えて）１または複数の選択基準をさらに満たす。

いくつかの実施形態では、１または複数の選択基準は、メチル化パターンが、第１の頻度閾値を満たす第１の頻度を有する１または複数の第１の間隔マップ内に表され、第１の状態深さ閾値を満たすカバレッジを有する１または複数の第１の間隔マップ内に表され、第２の頻度閾値を満たす第２の頻度を有する１または複数の第２の間隔マップ内に表されることを指定する。

いくつかの上記実施形態では、メチル化パターンは、１または複数の第１の間隔マップ内のメチル化パターンの頻度が第１の頻度閾値を超える場合に第１の頻度閾値を満たす第１の頻度を有する１または複数の第１の間隔マップ内に表され、メチル化パターンは、１または複数の第１の間隔マップ内のメチル化パターンのカバレッジが第１の状態深さ閾値を超える場合に第１の状態深さ閾値を満たすカバレッジを有する１または複数の第１の間隔マップ内に表され、メチル化パターンは、１または複数の第２の間隔マップ内のメチル化パターンの頻度が第２の頻度閾値を下回る場合に第２の頻度閾値を満たす第２の頻度を有する１または複数の第２の間隔マップ内に表される。

このようないくつかの実施形態では、第１の頻度閾値は０．２であり、第１の状態深さ閾値は１０であり、第２の頻度閾値は０．００１である。

いくつかの実施形態では、各メチル化パターンは、式：

の際に、１または複数の選択基準を満たし、
メチル化パターンについては、３、４、５または６を超え、ここで、第２のカウントは、１または複数の第２の状態間隔マップにおける各メチル化パターンのカウントであり、第２の状態深さは、１または複数の第２の状態間隔マップにおける各メチル化パターンによって表されるゲノムの領域における第２のデータセットによるカバレッジである。

いくつかの実施形態では、本方法は、第１および第２のデータセット中の複数の適格なメチル化パターンに関連するメチル化パターン情報を用いて、癌状態の状態を識別または示す分類指標をトレーニングすることをさらに含む。いくつかの上記実施形態では、トレーニングは、無細胞核酸メチル化データから生殖細胞系変異をスクリーニングするために腫瘍生検（バイオプシー）に個々に適合された、個々の試験対象（各々が第１または第２の状態を有する）からの無細胞核酸メチル化データなどの追加のデータセットを使用することを含むことができる。他の実施形態では、トレーニングは、個々の試験対象からの、第１または第２の状態をそれぞれ有する、無細胞核酸メチル化データのような、追加のデータセットを含むことができ、これらのデータセットは、腫瘍生検に個々にマッチングされておらず、したがって、生殖細胞系突然変異は、腫瘍のマッチングに基づいてスクリーニングされていない。

いくつかの実施形態では、本方法は、第１および第２のデータセット中の複数の適格なメチル化パターンに関連するメチル化パターン情報を用いて、癌状態の状態を識別するための分類指標をトレーニングすることをさらに含む。

いくつかの上記実施形態では、分類指標はロジスティック回帰である。いくつかの実施形態では、分類指標は、ニューラルネットワークアルゴリズム、サポートベクターマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。

いくつかの実施形態では、本方法は、第３のデータセットを電子形態で取得することをさらに含み、第３のデータセットは、第３の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片の対応する断片メチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、各断片中の対応する複数のCpG部位における各CpG部位のメチル化状態を含む。この方法は、さらに、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応する、第３のデータセット中の第３の複数の断片中の各断片の断片メチル化パターンを分類指標に適用することを含み、それによって、試験対象における癌状態の状態を決定する。

いくつかの実施形態では、癌状態の状態は、腫瘍フラクション（腫瘍分率、腫瘍分画／腫瘍割合）であり、癌状態の第１の状態は、第１の範囲の腫瘍フラクションであり、癌状態の第２の状態は、第２の範囲の腫瘍フラクションである。

いくつかの代替的な実施形態では、癌状態の状態は腫瘍フラクションであり、使用する第３のデータセットを取得および適用することは、経時的に繰り返し行われる。

いくつかの実施形態では、癌状態は、癌の非存在または存在である。いくつかの実施形態では、癌状態は癌の病期（ステージ）である。

開示された実施形態のいくつかにおいて、癌は、副腎臓癌、胆道癌、膀胱癌、骨／骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃（gastic）癌、頭頸部癌、肝胆道癌、腎臓癌、肝臓癌、肺癌、卵巣癌、膵癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃（stomach）癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、白血病、またはこれらの組み合わせである。

いくつかの実施形態では、試験対象から得られる生物学的試料は、液体生物学的試料である。いくつかの上記態様において、第３の複数の断片は、無細胞核酸である。

いくつかの実施形態では、第１および第２の複数の断片は、無細胞核酸である。

いくつかの実施形態では、１または複数の第１の状態間隔マップは、単一の第１の状態間隔マップから構成され、１または複数の第２の状態間隔マップは、単一の第２の状態間隔マップから構成される。

いくつかの実施形態では、１または複数の第１の状態間隔マップは、複数の第１の状態間隔マップを含むか、またはそれらであり；１または複数の第２の状態間隔マップは、複数の第２の状態間隔マップを含むか、またはそれらであり；１または複数の対応するゲノム領域は、複数のゲノム領域を含むか、またはそれらである。例えば、複数のゲノム領域内の各ゲノム領域は、第１の複数の間隔マップ内の第１の状態間隔マップおよび第２の複数の間隔マップ内の第２の状態間隔マップによって表される。いくつかの実施形態では、複数のゲノム領域は、１０～３０である。いくつかの実施形態では、複数のゲノム領域の各ゲノム領域は、異なるヒト染色体である。いくつかの実施形態では、複数のゲノム領域は、２～１０００のゲノム領域、５００～５０００のゲノム領域、１０００～２０，０００のゲノム領域、または５０００～５０，０００のゲノム領域からなる。いくつかの実施形態では、第１のデータセットを得ることおよび第２のデータセットを得ることのメチル化配列決定は、複数のプローブを用いた標的配列決定であり、複数のゲノム領域内の各ゲノム領域は、複数のプローブ内のプローブに関連付けられる。

いくつかの実施形態では、１または複数の第１の間隔マップ内の各間隔マップの対応する独立した複数のノードは、１または複数の対応するゲノム領域内の対応する領域を表す対応するツリーとして配置され、各間隔マップに対する対応する独立した複数のノード内の各ノードは、対応するゲノム領域のサブ領域を表す。

いくつかのこのような実施形態では、対応する各ツリーは、対応する複数のリーフの各リーフの親ノードが１または複数の子ノードを参照する対応する複数のリーフに対応する複数のノードを配置し、スキャニングは複数のクエリを生成し、複数のクエリ内の各クエリは、長さｌの異なる候補メチル化パターンについてであり、複数のクエリ内の各クエリは対応するツリーの対応する独立した複数のノード内の各ノードで各クエリとのマッチメーキングを実行するために使用され、さらに、各クエリを各ノードの子ノードに対してさらにマッチメーキングするために、各ノードの子ノードにクエリを伝播し、各マッチメーキングの結果を各ノードの親ノードに配信する。いくつかの上記実施形態では、ツリーは、ランダム化表面積ヒューリスティックを有するKdツリーの一次元（one dimensional）バージョンである。いくつかの上記実施形態では、長さｌの各可能なメチル化パターンは、複数のクエリによってサンプリングされる。

いくつかの実施形態では、所定のCpG部位数範囲は、単一の所定数のCpG部位である。いくつかの実施形態では、CpG部位の単一の所定数は、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、３０、４０、または５０個までのCpG部位である。いくつかの実施形態では、所定のCpG部位数範囲は、隣接するCpG部位に関するものである。いくつかの態様において、所定のCpG部位数範囲は、単一の所定数の連続するCpG部位である。いくつかの実施形態では、所定数の連続するCpG部位は、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、３０、４０、または５０以上の連続するCpG部位である。いくつかの実施形態では、所定のCpG部位数範囲は、ヒト参照ゲノム中の２～１００の連続するCpG部位である。

いくつかの実施形態では、１または複数の対象の第１のセットにおける対応する対象からの各生物学的試料のメチル化配列決定は、第１のデータセットに含まれるメチル化パターンについて評価される、１０億個以上、２０億個以上、３０億個以上、４０億個以上、５０億個以上、６０億個以上、７０億個以上、８０億個以上、９０億個以上、または１００億個以上の断片を生成する。いくつかの実施形態では、１または複数の対象の第１のセットにおける対応する対象からの各生物学的試料のメチル化配列決定は、第１のデータセットに含まれるメチル化パターンについて評価される１０億未満の断片または１０，０００未満の断片を生成する。

いくつかの実施形態では、10,000を超えるCpG部位、25,000を超えるCpG部位、50,000を超えるCpG部位、80,000を超えるCpG部位、100,000を超えるCpG部位、150,000を超えるCpG部位、200,000を超えるCpG部位、300,000を超えるCpG部位、400,000を超えるCpG部位、500,000を超えるCpG部位、600,000を超えるCpG部位、700,000を超えるCpG部位、800,000を超えるCpG部位、900,000を超えるCpG部位、1,000,000を超えるCpG部位、1,200,000を超えるCpG部位、1,800,000を超えるCpG部位、1,800,000を超えるCpG部位、または2,000,000を超えるCpG部位が1または複数の対応するケ゛ノム領域にわたって存在する。いくつかの実施形態では、1または複数の対応するケ゛ノム領域にわたって、10,000未満のCpG部位、25,000未満のCpG部位、50,000未満のCpG部位、80,000未満のCpG部位、100,000未満のCpG部位、150,000未満のCpG部位、200,000未満のCpG部位、300,000未満のCpG部位、400,000未満のCpG部位、500,000未満のCpG部位、700,000未満のCpG部位、800,000未満のCpG部位、900,000未満のCpG部位、1,000,000未満のCpG部位、1,200,000未満のCpG部位、1,500,000未満のCpG部位、1,800,000未満のCpG部位、または2,000,000未満のCpG部位が存在する。

いくつかの実施形態では、対応する複数の配列読み取りの平均配列読み取り長は、各断片についてのメチル化配列決定によって得られた１００～３００ヌクレオチド、例えば１４０～２８０ヌクレオチドである。

いくつかの実施形態では、１または複数の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の５００塩基対から１０，０００塩基対の間を表す。いくつかの実施形態では、１または複数の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の５００塩基対から２０００塩基対の間を表す。いくつかの実施形態では、１または複数の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の異なる部分を表す。いくつかの実施形態では、１または複数の対応するゲノム領域は、ヒトゲノム参照配列の最大１００万塩基対（Mb）、２Mb、３Mb、５Mb、８Mb、１０Mb、１２Mb、１５Mb、２０Mb、２５Mb、３０Mb、４０Mb、または５０Mbを集合的に含む。

いくつかの実施形態において、対応する複数のCpG部位におけるCpG部位のメチル化状態は、CpG部位がメチル化されるメチル化配列決定によって決定されるときにメチル化され、CpG部位がメチル化されないメチル化配列決定によって決定されるときに非メチル化される。いくつかの実施形態において、メチル化配列決定は、複数の核酸プローブを用いた全ゲノムメチル化配列決定または標的DNAメチル化配列決定である。いくつかの実施形態において、メチル化配列決定は、各断片中の１または複数の５－メチルシトシン（５mC）および／または５－ヒドロキシメチルシトシン（５hmC）を検出する。いくつかの実施形態において、メチル化配列決定は、１または複数の非メチル化シトシンまたは１または複数のメチル化シトシンの対応する１または複数のウラシルへの変換を含む。いくつかの実施形態では、１または複数のウラシルは、メチル化配列決定の間に、１または複数の対応するチミンとして検出される。いくつかの実施形態では、１または複数の非メチル化シトシンまたは１または複数のメチル化シトシンの変換は、化成処理（化学変換）、酵素変換、またはそれらの組み合わせを含む。

いくつかの実施形態では、各生物学的試料は、血液試料である。いくつかの実施形態では、各生物学的試料は、血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む。

いくつかの実施形態では、癌状態は、試験対象中の腫瘍フラクションであり、対象の第１のセットは、試験対象から成り、癌状態の第１の状態は、試験対象中の腫瘍フラクションであり、癌状態の第２の状態は、癌の非存在であり、および癌対象の第２のセットは、複数の、癌を有さない試験対象である。いくつかの実施形態では、本方法は、複数の適格なメチル化パターンを使用して、試験対象における腫瘍フラクションを決定することをさらに含む。いくつかの実施形態では、本方法は、さらに、試験対象について決定された腫瘍フラクションに基づいて、試験対象を処置することを含む。いくつかの実施形態では、本方法は、さらに、試験対象について決定された腫瘍フラクションに基づいて、試験対象の進行中の治療計画を調整することを含む。

いくつかの実施形態では、癌状態の第１の状態は試験対象に特有であり、対象の第１のセットは試験対象からなり、癌状態の第２の状態は癌の非存在であり、そして癌対象の第２のセットは癌のない複数の試験対象である。いくつかの実施形態では、本方法は、複数の適格なメチル化パターンを用いて、試験対象における癌状態の第１の状態を定量することをさらに含む。いくつかの実施形態では、本方法は、さらに、対象における癌状態の第１の状態の定量に基づいて、対象を治療することを含む。いくつかの実施形態では、方法は、対象における癌状態の第１の状態の定量に基づいて、対象の進行中の治療計画を調整することをさらに含む。いくつかの実施形態では、試験対象は、副腎臓癌、胆道癌、膀胱癌、骨／骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃（gastric）癌、頭頸部癌、肝胆道癌、腎臓癌、肝臓癌、肺癌、卵巣癌、膵癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃（stomach）癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、または白血病を有する。

いくつかの実施形態では、癌状態は、癌の有無であり、対象の第１のセットは、第１の複数の対象を含み、癌状態の第１の状態は、癌の存在であり、癌状態の第２の状態は、癌の非存在であり、癌対象の第２のセットは、第２の複数の癌対象である。いくつかの実施形態において、癌は、副腎臓癌、胆道癌、膀胱癌、骨／骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃（gastric）癌、頭頸部癌、肝胆道癌、腎臓癌、肝臓癌、肺癌、卵巣癌、膵癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃（stomach）癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、または白血病である。

いくつかの実施形態では、癌状態は癌の起源であり、対象の第１のセット（第１の対象セット）は第１の複数の対象を含み、癌状態の第１の状態（第１の癌状態）は癌の第１の起源であり、癌状態の第２の状態（第２の癌状態）は癌の第２の起源であり、癌対象の第２のセット（癌の第２の対象セット）は第２の複数の癌対象である。いくつかの実施形態では、第１の起源は、副腎、胆汁、膀胱、骨／骨髄、脳、乳房、子宮頸部、結腸直腸、食道、胃（gastric）、頭／頸部、肝胆道、腎臓、肝臓、肺、卵巣、膵臓、骨盤、胸膜、前立腺、腎臓、表皮、胃（stomach）、精巣、胸腺、甲状腺、子宮、リンパ腫、メラノーマ、多発性骨髄腫、または白血病のうちの１つであり、第２の起源は、第１の起源以外のものであって、副腎、胆汁、膀胱、骨／骨髄、脳、乳房、子宮頸部、結腸直腸、食道、胃（gastric）、頭／頸部、肝胆道、腎臓、肝臓、肺、卵巣、膵臓、骨盤、胸膜、前立腺、腎臓、表皮、胃（stomach）、精巣、胸腺、甲状腺、子宮、リンパ腫、メラノーマ、多発性骨髄腫、または白血病のうちの１つである。

いくつかの実施形態では、癌状態は癌の病期であり、対象の第１のセットは第１の複数の対象を含み、癌状態の第１の状態は第１の癌の第１の病期（ステージ）であり、癌状態の第２の状態は第１の癌の第２の病期であり、癌対象の第２のセットは第２の複数の癌対象である。いくつかの実施形態では、癌は副腎臓癌、胆道癌、膀胱癌、骨／骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃（gastric）癌、頭頸部癌、肝胆道癌、腎臓癌、肝臓癌、肺癌、卵巣癌、膵癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃（stomach）癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、または白血病であり、第１の病期は癌のI期、II期、III期、またはIV期であり、第２の病期は癌の第１の病期以外の病期であり、癌のI期、II期、III期、またはIV期である。

本開示の別の態様は、癌状態を識別または示す複数の適格なメチル化パターンを同定するためのコンピュータシステムを提供し、該コンピュータシステムは、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを記憶するメモリとを含み、該少なくとも１つのプログラムは、癌状態を識別または示す複数の適格なメチル化パターンを同定するための命令を含む。いくつかの実施形態では、少なくとも１つのプログラムは、コンピュータによって実行されるように構成される。いくつかの実施形態では、少なくとも１つのプログラムは、本明細書に開示された方法および実施形態のいずれか、および／または当業者に明らかなそれらの任意の組み合わせを実行するための命令を含む。

本開示の別の態様は、プロセッサによって実行されると、癌状態を識別または示す複数の適格なメチル化パターンを識別するための方法をプロセッサに実行させるプログラムコード命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。ある実施形態では、プログラムコード命令は、コンピュータによって実行されるように構成される。いくつかの実施形態では、プログラムコード命令は、本明細書に開示された方法および実施形態のいずれか、および／または当業者に明らかなそれらの任意の組み合わせを実行するための命令を含む。

添付の特許請求の範囲の範囲内のシステム、方法および装置の様々な実施形態は、それぞれいくつかの態様を有し、そのうちの単一の態様は、本明細書に記載される望ましい属性にのみ責任を負うものではない。添付の特許請求の範囲を限定することなく、いくつかの顕著な特徴が本明細書に記載される。この議論を考察した後、特に「詳細な説明」と題されたセクションを読んだ後に、様々な実施形態の特徴がどのように使用されるかを理解するであろう。

参照による援用
本明細書において言及されるすべての刊行物、特許、および特許出願は、個々の刊行物、特許、または特許出願のそれぞれが、参照により組み込まれることが具体的かつ個々に示されているのと同程度に、参照により本明細書に組み込まれる。

本明細書に開示される実施形態は、限定するものではなく、一例として、添付図面の図に示されている。同様の参照番号は、図面のいくつかの図の全体を通じて対応する部分を指す。

図１は、本開示のいくつかの実施形態による、コンピューティング装置を示す例示的なブロック図を示す。図２Aは、本開示のいくつかの実施形態による、破線のボックスが任意のステップを表す癌状態を識別または示すメチル化パターンを同定する方法の例のフローチャートをまとめて示す。図２Bは、本開示のいくつかの実施形態による、破線のボックスが任意のステップを表す癌状態を識別または示すメチル化パターンを同定する方法の例のフローチャートをまとめて示す。図２Cは、本開示のいくつかの実施形態による、破線のボックスが任意のステップを表す癌状態を識別または示すメチル化パターンを同定する方法の例のフローチャートをまとめて示す。図２Dは、本開示のいくつかの実施形態による、破線のボックスが任意のステップを表す癌状態を識別または示すメチル化パターンを同定する方法の例のフローチャートをまとめて示す。図２Eは、本開示のいくつかの実施形態による、破線のボックスが任意のステップを表す癌状態を識別または示すメチル化パターンを同定する方法の例のフローチャートをまとめて示す。図２Fは、本開示のいくつかの実施形態による、破線のボックスが任意のステップを表す癌状態を識別または示すメチル化パターンを同定する方法の例のフローチャートをまとめて示す。図３は、本開示のいくつかの実施形態による、単一の実施例メンバーについての特定の断片メチル化パターンの程度に対する、断片メチル化パターンの数（例えば、５つのCpG部位を含有するもの）を示すプロットを示す。図４は、本開示のいくつかの実施形態による、非癌cfDNA集合体altカウント（変形例カウント）＋１対非癌cfDNA集合体深さ＋２の機能として、複数のメチル化部位におけるノイズレベルの密度プロットを示す。図５は、本開示のいくつかの実施形態に従った、ノイズレベルおよびメチル化されたフラクションの機能としての、断片の統計（例えば、変異体（バリアント）の数、総CpG部位、非癌アルト数中央値、非癌深さ中央値）を示すプロットを示す。図６は、本開示のいくつかの実施形態による、生検試料のQMPフラクション（分率）とcfDNA試料の変異対立遺伝子フラクション（分率）との間の相関を示すプロットを示す。図７は、本開示のいくつかの実施形態に従って配列決定するための核酸試料を調製するための方法のフローチャートを示す。図８は、本開示のいくつかの実施形態による、核酸断片を得るためのプロセスのグラフ表示を示す。図９は、本開示のいくつかの実施形態に従って、試験対象における癌状態のスクリーニングを目的としてメチル化情報を得るための方法の例のフローチャートを示す。図１０Aは、本開示のいくつかの実施形態に従って、統合ゲノムビューア（IGV）を使用して、非癌cfDNA試料、腫瘍生検試料、およびマッチしたcfDNA試料について、選択された間隔でのCpG部位におけるメチル化状態の可視化を示す。図１０Bは、本開示のいくつかの実施形態に従って、統合ゲノムビューア（IGV）を使用して、非癌cfDNA試料、腫瘍生検試料、およびマッチしたcfDNA試料について、選択された間隔でのCpG部位におけるメチル化状態の可視化を示す。図１０Cは、本開示のいくつかの実施形態に従って、統合ゲノムビューア（IGV）を使用して、非癌cfDNA試料、腫瘍生検試料、およびマッチしたcfDNA試料について、選択された間隔でのCpG部位におけるメチル化状態の可視化を示す。図１０Dは、本開示のいくつかの実施形態に従って、統合ゲノムビューア（IGV）を使用して、非癌cfDNA試料、腫瘍生検試料、およびマッチしたcfDNA試料について、選択された間隔でのCpG部位におけるメチル化状態の可視化を示す。図１０Eは、本開示のいくつかの実施形態に従って、統合ゲノムビューア（IGV）を使用して、非癌cfDNA試料、腫瘍生検試料、およびマッチしたcfDNA試料について、選択された間隔でのCpG部位におけるメチル化状態の可視化を示す。図１１は、本開示のいくつかの実施形態に従って、メチル化（例えば、亜硫酸水素塩）配列決定を使用して計算されたメチル化腫瘍フラクション推定値と、cfDNAおよび腫瘍試料の標的化および全ゲノム配列決定を使用して計算された腫瘍フラクション推定値との比較を示す。図１２は、本開示のいくつかの実施形態による、間隔マップを生成するための例示的な方法を示す。図１３Aおよび１３Bは、本開示のいくつかの実施形態による、小さな変異体に基づくアプローチ例を示す。図１４Aおよび図１４Bは、小さな変異体の代わりに、選択されたメチル化パターン（例えば、適格なメチル化パターンまたはQMP）が、例えば、本開示に従って、小さな変異体の同定が亜硫酸水素塩転換などの因子によって損なわれた場合に、メチル化配列決定データに基づいて腫瘍フラクションを推定するための基礎として使用されるWGBSの実施例を示す。図１５Aは、小さな変異体の代わりに、選択されたメチル化パターン（例えば、適格なメチル化パターンまたはQMP）が、特に、小さな変異体の同定が、本開示に従って、亜硫酸水素変換などの因子によって損なわれる場合に、メチル化シ配列決定データに基づいて腫瘍フラクションを推定するための基礎として使用されるTM配列決定例を示す。図１５Bは、小さな変異体の代わりに、選択されたメチル化パターン（例えば、適格なメチル化パターンまたはQMP）が、特に、小さな変異体の同定が、本開示に従って、亜硫酸水素変換などの因子によって損なわれる場合に、メチル化シ配列決定データに基づいて腫瘍フラクションを推定するための基礎として使用されるTM配列決定例を示す。図１６は、本開示の一実施形態による、適合腫瘍生検に対する推定cfDNA腫瘍フラクションを示す。

本明細書に記載の実施は、癌状態を識別または示す適格なメチル化パターンを同定するための様々な技術的解決策を提供する。具体的には、第１のデータセットおよび第２のデータセットが（例えば、電子形式で）取得される。各データセットは、各第１または第２の複数の断片中の各断片に対する対応する断片メチル化パターンを含む。各断片の対応するメチル化パターンは、対象の各第１または第２のセットから得られた核酸のメチル化配列決定によって決定され、対応する複数のCpG部位における各CpG部位のメチル化状態を含む。複数の対象のそれぞれは、癌状態の第１または第２の状態のそれぞれを有する。第１の間隔マップおよび第２の間隔マップは、各データセットごとに生成され、開始メチル化部位、終了メチル化部位、各異なる断片メチル化パターンの表現および断片のカウントを特徴とする複数のノードを含む。第１および第２の間隔マップは、所定のCpG部位数範囲の適格な断片メチル化パターンについてスキャンされ、１または複数の選択基準を満たし、それによって、癌状態を識別または示す断片メチル化パターンを同定する。

定義
本明細書で使用されるように、「約」および「およそ」という用語は、当業者によって決定される特定の値に対する許容可能な誤差範囲内を意味し、これは、部分的には、値がどのように測定または決定されるか、例えば、測定システムの制限に依存する。例えば、いくつかの実施形態では、「約」は、当該技術分野における実施当たり、１以内または１超の標準偏差を意味する。いくつかの実施形態では、「約」は、所与の値の±２０％、±１０％、±５％、または±１％の範囲を意味する。いくつかの実施形態では、「約」または「およそ」という用語は、１桁以内、５倍以内、または２倍以内の値を意味する。特定の値が出願および特許請求の範囲に記載されている場合、別段の記載がない限り、特定の値について許容可能な誤差範囲内での「約」の意味という用語を想定することができる。用語「約」は、当業者によって一般的に理解されるような意味を有することができる。いくつかの実施形態では、用語「約」は、±１０％を指す。いくつかの実施形態では、用語「約」は、±５％を指す。

本明細書で使用される用語「アッセイ」は、物質、例えば、核酸、タンパク質、細胞、組織、または器官の特性を決定するための技術を指す。アッセイ（例えば、第１のアッセイまたは第２のアッセイ）は、試料中の核酸のコピー数変動、試料中の核酸のメチル化状態、試料中の核酸の断片サイズ分布、試料中の核酸の突然変異状況、または試料中の核酸の断片化（フラグメンテーション）パターンを決定するための技術を含むことができる。任意のアッセイを用いて、本明細書中に記載される核酸の特性のいずれかを検出することができる。核酸の特性は、配列、ゲノムアイデンティティ、コピー数、１または複数のヌクレオチド位置でのメチル化状態、核酸のサイズ、１または複数のヌクレオチド位置での核酸における突然変異の有無、および核酸の断片化のパターン（例えば、核酸断片が存在するヌクレオチド位置）を含むことができる。アッセイまたは方法は、特定の感度および／または特異性を有することができ、診断ツールとしてのそれらの相対的有用性は、ROC－AUC統計量を用いて測定することができる。

本明細書に開示されるように、「生物学的試料」という用語は、対象に関連する生物学的状態を反映することができ、無細胞DNAを含む、対象から採取された任意の試料を指す。生物学的試料の例としては、対象の血液、全血、血漿、プラズマ、尿、脳脊髄液、糞便、唾液、汗、涙液、胸水、心嚢液、または腹膜液が挙げられるが、これらに限定されない。生物学的試料は、生体または死体に由来する任意の組織または物質を含むことができる。生物学的試料は、無細胞試料であり得る。生物学的試料は、核酸（例えば、DNAまたはRNA）またはその断片を含むことができる。「核酸」という用語は、デオキシリボ核酸（DNA）、リボ核酸（RNA）またはその任意のハイブリッドもしくは断片を指すことができる。試料中の核酸は、無細胞核酸であり得る。試料は、液体試料または固体試料（例えば、細胞または組織試料）であり得る。生物学的試料は、血液、血漿、血清、尿、膣液、水瘤（例えば、精巣の）からの液、膣液、胸水、腹水液、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳頭からの排出液、体の異なる部分（例えば、甲状腺、乳房）からの吸引液などの体液であり得る。生物学的試料は、糞便試料とすることができる。様々な実施形態において、無細胞DNAについて濃縮された生物学的試料（例えば、遠心分離プロトコルを介して得られた血漿試料）中のDNAの大部分は、無細胞であり得る（例えば、DNAの５０％超、６０％、７０％、８０％、９０％、９５％、または９９％超は、無細胞であり得る）。生物学的試料は、組織または細胞構造（例えば、遠心分離および／または細胞溶解）を物理的に破壊するように処理することができ、したがって、分析のために試料を調製するために使用することができる酵素、緩衝液、塩、界面活性剤などをさらに含有することができる溶液中に細胞内成分を放出する。

本明細書に開示されるように、「核酸」および「核酸分子」という用語は、互換的に使用される。用語は、デオキシリボ核酸（DNA、例えば相補的DNA（cDNA）、ゲノムDNA（gDNA）など）、リボ核酸（RNA、例えば、メッセージRNA（mRNA）、短い阻害性RNA（siRNA）、リボソームRNA（rRNA）、トランスファーRNA（tRNA）、マイクロRNA、胎児または胎盤によって高度に発現されるRNAなど）、および／またはDNAもしくはRNA類似体（例えば、塩基類似体、糖類似体および／または非天然骨格などを含有する）、RNA／DNAハイブリッドおよびポリアミド核酸（PNA）などの任意の組成形態の核酸を指し、これらはすべて一本鎖または二本鎖形態であり得る。特に限定されない限り、核酸は、天然ヌクレオチドの公知のアナログを含むことができ、そのいくつかは、天然に存在するヌクレオチドと同様の様式で機能することができる。核酸は、本明細書中のプロセス（例えば、直鎖状、円形、超らせん状、一本鎖状、二本鎖状など）を行うのに有用な任意の形態であり得る。いくつかの実施形態における核酸は、単一の染色体またはその断片からのものであり得る（例えば、核酸試料は、二倍体生物から得られた試料の１つの染色体からのものであり得る）。特定の実施形態では、核酸は、ヌクレオソーム、ヌクレオソーム断片またはヌクレオソーム様構造の一部を含む。核酸は、時にタンパク質（例えば、ヒストン、DNA結合タンパク質など）を含む。本明細書に記載されるプロセスによって分析される核酸は、ときに、実質的に単離され、タンパク質または他の分子と実質的に会合しない。核酸はまた、一本鎖（「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム）および二本鎖ポリヌクレオチドから合成、複製または増幅されたRNAまたはDNAの誘導体、変異体（バリアント）およびアナログを含む。デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、およびデオキシチミジンが含まれる。RNAの場合、塩基のシトシンはウラシルに置き換えられ、糖の２’位にはヒドロキシル部分が含まれる。核酸は、鋳型として対象から得られた核酸を用いて調製することができる。

本明細書に開示されるように、用語「無細胞核酸」、「無細胞DNA」、および「cfDNA」は、交換可能に、対象の体内（例えば、血流などの体液内）を循環し、１または複数の健康な細胞および／または１または複数の癌細胞に由来する核酸断片を指す。cfDNAは、対象の血液、全血、血漿、プラズマ、尿、脳脊髄液、糞便、唾液、汗、汗、涙液、胸水、心嚢液、または腹膜液などの体液から回収することができる。無細胞核酸は循環核酸と互換的に使用される。無細胞核酸の実施例としては、RNA、ミトコンドリアDNA、またはゲノムDNAが挙げられるが、これらに限定されない。

本明細書に開示されるように、用語「循環腫瘍DNA」または「ctDNA」は、死にかけている細胞のアポトーシスまたは壊死などの生物学的プロセスの結果として対象の血流に放出され得る、または生存腫瘍細胞によって能動的に放出され得る、腫瘍または他のタイプの癌の細胞などの異常組織に由来する核酸断片を指す。

本明細書に開示されるように、用語「参照ゲノム」は、対象からの同定された配列を参照するために使用され得る任意の生物またはウイルスの、部分的であるか完全であるかを問わず、任意の特定の既知の、配列決定された、または特徴付けられたゲノムを指す。ヒト対象および多くの他の生物に使用される例示的参照（リファレンス）ゲノムは、国立バイオテクノロジー情報センター（National Center for Biotechnology Information）（「NCBI」）またはカリフォルニア大学サンタクルーズ校（University of California、Santa Cruz）（UCSC）が主催するオンラインゲノムブラウザに提供される。「ゲノム」とは、核酸配列において発現される、生物またはウイルスの完全な遺伝情報を意味する。本明細書で使用される場合、参照配列または参照ゲノムは、しばしば、個体または複数個体由来の組み立てられたまたは部分的に組み立てられたゲノム配列である。いくつかの実施形態では、参照ゲノムは、１または複数のヒト個体由来の組み立てられたまたは部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子セットの代表的な例とみなすことができる。いくつかの実施形態では、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒト参照ゲノムとしては、NCBI構築物３４（UCSC等価物: hg１６）、NCBI構築物３５（UCSC等価物: hg１７）、NCBI構築物３６．１（UCSC等価物: hg１８）、GRCh３７（UCSC等価物: hg１９）、およびGRCh３８（UCSC等価物: hg３８）が挙げられるが、これらに限定されない。

本明細書に開示されるように、用語「参照ゲノムの領域」、「ゲノム領域」、または「染色体領域」は、参照ゲノムの任意の部分、隣接または非隣接を指す。これは、例えば、ビン、パーティション、ゲノム部分、参照ゲノムの一部、染色体の一部などと呼ぶこともできる。いくつかの実施形態では、ゲノム部分は、ゲノム配列の特定の長さに基づく。いくつかの実施形態では、方法は、複数のゲノム領域への複数のマッピングされた配列読み取りの分析を含むことができる。ゲノム領域はほぼ同じ長さであってもよいし、ゲノム部は異なる長さであってもよい。いくつかの実施形態では、ゲノム領域は、約等しい長さである。いくつかの実施形態では、異なる長さのゲノム領域は、調整または加重される。いくつかの実施形態では、ゲノム領域は、約１０キロベース（kb）～約５００kb、約２０kb～約４００kb、約３０kb～約３００kb、約４０kb～約２００kb、およびときに約５０kb～約１００kbである。いくつかの実施形態では、ゲノム領域は、約１００kb～約２００kbである。ゲノム領域は、連続した配列の走行に限定されない。したがって、ゲノム領域は、連続（隣接）配列および／または非連続配列から構成することができる。ゲノム領域は単一の染色体に限定されない。いくつかの実施形態では、ゲノム領域は、１つの染色体の全部または一部、または２つ以上の染色体の全部または一部を含む。いくつかの実施形態において、ゲノム領域は、１、２、またはそれ以上の染色体全体に及ぶことができる。さらに、ゲノム領域は、複数の染色体の継手部分（ジョイント／joint）または分離部分（disjointed portion）に及ぶことがある。

本明細書で使用される「断片（フラグメント）」および「核酸断片」という用語は、本明細書では交換可能に使用され、少なくとも３つの連続するヌクレオチドのポリヌクレオチド配列のすべてまたは一部を指す。生物学的試料中に見出される核酸断片の配列決定の文脈において、用語「断片」は、生物学的試料中に見出される核酸分子（例えば、DNA断片）またはその表現（representation）（例えば、配列の電子的表現）を指す。ユニークな断片（例えば、無細胞核酸）からのシーケンシングデータ（例えば、全ゲノム配列決定、標的化配列決定などからの生または修正された配列読み取り）は、断片の核酸断片配列および／またはメチル化パターンを決定するために使用される。このような配列読み取りは、実際には、元の断片のPCR複製の配列決定から得ることができ、したがって、断片配列を「表す」または「支持する」ことができる。生物学的試料中の特定の断片（例えば、PCR複製物）をそれぞれ表すか、または支持する複数の配列読み取りがあり得るが、特定の断片について、１つの断片配列、および１つの断片メチル化パターンがあり得る。いくつかの実施形態では、元の断片について生成された重複配列読み取り値は、組み合わされるか、または除去される（例えば、単一配列、例えば、核酸断片配列に折りたたまれる）。したがって、各々が特定の遺伝子座を包含する試料中の断片の集団に関する測定基準（例えば、遺伝子座の存在量値、または断片長さの分布の特性に基づく測定基準）を決定する場合、サポート（支持）配列読み取り（例えば、集団中の核酸断片のPCR複製から生成され得る）ではなく、断片の集団に関する核酸断片配列を使用して、測定基準を決定することができる。なぜなら、上記実施形態では、配列の１つのコピーが、元の（例えば、固有の）断片（例えば、固有の核酸分子）を表すために使用されるからである。断片の集団のための断片は、同一または異なる断片メチル化パターンを有するいくつかの同一の配列を含むことができ、それらの各々は、同一の元の断片の複製ではなく、異なる元の断片を表すことに留意されたい。いくつかの実施形態では、無細胞核酸は、断片とみなされる。

本明細書で互換的に使用される「配列読み取り」または「読み取り（リード）」という用語は、本明細書に記載されるか、または当技術分野で公知の任意の配列決定プロセスによって生成されるヌクレオチド配列を指す。読み取りは、核酸断片の一方の末端から生成され得（「シングルエンド（単端部）読み取り」）、時には、核酸の両端から生成される（例えば、ペアエンド読み取り、ダブルエンド（対端部）読み取り）。いくつかの実施形態では、配列読み取り（例えば、シングルエンドまたはダブルエンド読み取り）は、標的化核酸断片の一方または両方の鎖から生成され得る。読み取られた配列の長さは、しばしば、特定の配列決定技術と関連している。例えば、ハイスループット法は、数十から数百塩基対（bp）の大きさで変化し得る配列読み取りを提供する。いくつかの実施形態では、配列読み取りは、約１５bp～９００bp（例えば、約２０bp、約２５bp、約３０bp、約３５bp、約４０bp、約４５bp、約５０bp、約５５bp、約６０bp、約６５bp、約７０bp、約７５bp、約８０bp、約８５bp、約９０bp、約９５bp、約１００bp、約１１０bp、約１２０bp、約１３０、約１４０bp、約１５０bp、約２００bp、約２５０bp、約３００bp、約３５０bp、約４００bp、約４５０bp、または約５００bpの長さの平均値（mean）、中央値または中間値（average）である。いくつかの実施形態では、配列読み取りは、約１０００bp、２０００bp、５０００bp、１０，０００bp、または５０，０００bp以上の長さの平均値（mean）、中央値または中間値（average）である。例えば、ナノポア配列決定は、数十～数百～数千の塩基対の大きさで変化し得る配列読み取りを提供することができる。イルミナ（Illumina）パラレルシーケンシングは、あまり変化しない配列読み取りを提供することができ、例えば、配列読み取りのほとんどは２００bpより小さくなり得る。配列読み取り（または配列決定読み取り）は、核酸分子（例えば、ヌクレオチドの文字列）に対応する配列情報を指すことができる。例えば、配列読み取り、核酸断片の一部からのヌクレオチドの文字列（例えば、約２０～約１５０）に対応し得、核酸断片の一方または両端のヌクレオチドの文字列に対応し得、または核酸断片全体のヌクレオチドに対応することができる。配列読み取りは、例えば、配列決定技術を使用するか、または、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブにおけるプローブを使用するか、またはポリメラーゼ連鎖反応（PCR）のような増幅技術、または単一プライマーもしくは等温増幅を使用する線形増幅技術を使用するなど、様々な方法で得ることができる。

本明細書に開示されるように、本明細書で使用される用語「配列決定（シーケンシング）」、「配列の決定」などは、一般に、核酸またはタンパク質などの生物学的高分子の順序を決定するために使用され得る任意のおよびすべての生化学的プロセスを指す。例えば、シーケンシングデータは、DNA断片のような核酸分子中のヌクレオチド塩基の全部または一部を含むことができる。

「配列決定深さ」、「カバレッジ」および「カバレッジ率」という用語は、遺伝子座に整列された固有の核酸標的分子（「核酸断片」）に対応するコンセンサス配列読み取りにより遺伝子座がカバーされる回数を指すために本明細書では互換的に使用され、例えば、配列決定深さは、遺伝子座をカバーする固有の核酸標的断片（PCR配列決定複製を除く）の数に等しい。遺伝子座はヌクレオチドと同じくらい小さいものもあれば、染色体アームと同じくらい大きいものもあり、ゲノム全体と同じくらい大きいものもある。配列決定深さは、「YX」として表すことができる。例えば、５０X、１００X等であり、ここで、「Y」は、核酸標的に対応する配列で遺伝子座がカバーされる回数、例えば、特定の遺伝子座をカバーする独立した配列情報が得られる回数をいう。いくつかの実施形態では、配列決定の深さは、配列決定されたゲノムの数に対応する。配列決定の深さは、複数の遺伝子座、または全ゲノムにも適用することができ、この場合、Yは、それぞれ、遺伝子座または単相体（ハプロイド）ゲノム、または全ゲノムがシークエンスされる平均または平均回数を参照することができる。平均深さ（深度）が引用される場合、データセットに含まれる異なる遺伝子座の実際の深さは、広い範囲の値にわたることがある。超深層配列決定は、遺伝子座での配列決定深さにおいて少なくとも１００倍に言及し得る。

本明細書に開示されるように、用語「一塩基変異体」または「SNV」は、核酸配列の位置（例えば、部位）における１つのヌクレオチドの異なるヌクレオチドへの置換、例えば、個体からの配列読み取りを指す。第１の核酸塩基Xから第２の核酸塩基Yへの置換は、「X＞Y」と表記することができる。例えば、シトシンからチミンSNVへの置換は、「C＞T」と表記することができる。

本明細書で使用されるように、用語「メチル化」は、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、５－メチルシトシンを形成するデオキシリボ核酸（DNA）の修飾を指す。特に、メチル化は、本明細書では「CpG部位」と呼ばれるシトシンおよびグアニンのジヌクレオチドで起こる傾向がある。他の例では、メチル化はCpG部位の一部ではなくシトシン、あるいはシトシンではない別のヌクレオチドで起こることがあるが、これらはまれにしか起こらない。本開示において、メチル化は、明瞭さのためにCpG部位に関して論じられる。異常なcfDNAメチル化は、高メチル化または低メチル化として同定することができ、どちらも癌状態を示す可能性がある。当技術分野で周知のように、DNAメチル化異常（健康な対照と比較して）は、異なる効果を引き起こす可能性があり、これは癌に寄与する可能性がある。

異常にメチル化されたcfDNA断片の同定には様々な課題がある。まず、対象のcfDNAが異常にメチル化されていると決定することは、対照の対象群と比較して重みを保持するだけであり、対照群の数が少ない場合、小さな対照群では判定の信頼性が失われる。さらに、対象のcfDNAが異常にメチル化されていると判断する際に、対照の対象群のメチル化状態が異なる可能性があり、これを説明するのが難しい場合がある。別の注目すべき点として、CpG部位におけるシトシンのメチル化は、それに続くCpG部位におけるメチル化に因果的に影響を及ぼす。

本明細書に記載の原理は、非シトシンメチル化を含む非CpG文脈におけるメチル化の検出にも同様に適用可能である。さらに、メチル化状態ベクターは、一般に、メチル化が起こっているかまたは起こっていない部位のベクターであるエレメントを含有してもよい（これらの部位が特異的にCpG部位でなくても）。その置換により、本明細書に記載されるプロセスの残りの部分は同じであり、したがって、本明細書に記載される本発明の概念は、メチル化のそれらの他の形態にも適用可能である。

本明細書で使用されるように、用語「メチル化プロファイル」（メチル化状態とも呼ばれる）は、領域に対するDNAメチル化に関連する情報を含むことができる。DNAメチル化に関連する情報には、CpG部位のメチル化インデックス、領域内のCpG部位のメチル化密度、隣接領域上のCpG部位の分布、複数のCpG部位を含む領域内の個々のCpG部位に対するメチル化のパターンまたはレベル、および非CpGメチル化が含まれ得る。ゲノムのかなりの部分のメチル化プロファイルは、メチローム（methylome）と同等であると考えることができる。哺乳動物ゲノム中の「DNAメチル化」は、CpGジヌクレオチド中のシトシンの複素環環の５位へのメチル基の付加（例えば、５－メチルシトシンを生成するため）を指すことができる。シトシンのメチル化は、他の配列コンテキスト、例えば５’－CHG－３’および５’－CHH－３’においてシトシン中で起こることができ、ここでHはアデニン、シトシンまたはチミンである。シトシンメチル化は５－ヒドロキシメチルシトシンの形成でもよい。DNAのメチル化は、N６－メチルアデニンのような非シトシンヌクレオチドのメチル化を含むことができる。

本明細書で使用される場合、「メチローム」は、ゲノム中の複数の部位または遺伝子座におけるDNAメチル化の量の測定値であり得る。メチロームは、ゲノムのすべて、ゲノムのかなりの部分、あるいはゲノムの比較的小さな部分に対応することができる。「腫瘍メチローム」は、対象（例えば、ヒト）の腫瘍のメチロームであり得る。腫瘍メチロームは、腫瘍組織または血漿中の無細胞腫瘍DNAを用いて決定することができる。腫瘍メチロームは、関心のあるメチロームの一例であり得る。目的のメチロームは、体液中でDNAのような核酸に寄与し得る臓器のメチローム（例えば、脳細胞、骨、肺、心臓、筋肉、腎臓などのメチローム）であり得る。臓器は移植された臓器であり得る。

本明細書中で使用されるように、各ゲノム部位（例えば、CpG部位、シトシンヌクレオチドがその後に５’→３’方向に沿った塩基の直鎖配列中のグアニンヌクレオチドが続くDNAの領域）についての「メチル化指数」という語は、その部位をカバーする全読み取り回数にわたってその部位でメチル化を示す配列読み取りの割合を指すことができる。領域の「メチル化密度」は、メチル化を示す領域内の部位における読み取りの数を、その領域内の部位をカバーする読み取りの総数で割ったものであり得る。部位は特異的な特徴を有することができる（例えば、部位はCpG部位であり得る）。領域の「CpGメチル化密度」は、CpGメチル化を示す読み取りの数を、領域内のCpG部位（例えば、特定のCpG部位、CpGアイランド内のCpG部位、またはより大きな領域）をカバーする読み取りの総数で割ったものであり得る。例えば、ヒトゲノム中の各１００kbのbinに対するメチル化密度は、１００－kb領域にマップされた配列読み取りによってカバーされる全CpG部位の割合として、CpG部位における未変換シトシン（メチル化シトシンに対応できる）の総数から決定することができる。いくつかの実施形態では、この分析は、他のビンサイズ、例えば、５０kbまたは１Mbなどについて実施される。いくつかの実施形態において、領域は、ゲノム全体、または染色体もしくは染色体の一部（例えば、染色体アーム）である。CpG部位のメチル化指数は、そのCpG部位のみを含む領域のメチル化密度と同じである。「メチル化シトシンの割合」は、例えば、領域における、CpGコンテクストの外側のシトシンを含む、分析されたシトシン残基の総数にわたってメチル化される（例えば、亜硫酸水素変換後に変換されない）ことが示されている、シトシン部位、「C」、の数を意味し得る。メチル化インデックス、メチル化密度およびメチル化シトシンの割合は、「メチル化レベル」の実施例である。

本明細書で使用される場合、「プラズマメチローム」は、動物（例えば、ヒト）のプラズマまたは血清から決定されるメチロームであり得る。プラズマと血清は無細胞DNAを含むことができるので、血漿メチロームは無細胞メチロームの一例である。プラズマメチロームは、腫瘍／患者のメチロームの混合物であり得るので、混合メチロームの一例であり得る。「細胞メチローム」は、対象、例えば患者の細胞（例えば、血液細胞または腫瘍細胞）から決定されるメチロームであり得る。血液細胞のメチロームは、血液細胞のメチローム（または血液のメチローム）と呼ばれる。

本明細書で使用される場合、用語「相対的存在量」は、特定の特性（例えば、特定の長さ、１または複数の特定の座標／終了位置で終了する、ゲノムの特定の領域に整列する、または特定のメチル化状態を有する）を有する核酸断片の第１の量と、特定の特性（例えば、特定の長さ、１または複数の特定の座標／終了位置で終了する、またはゲノムの特定の領域に整列する）を有する核酸断片の第２の量との比を指すことができる。一例において、相対的存在量は、ゲノム位置の第１のセットで終わるDNA断片数と、ゲノム位置の第２のセットで終わるDNA断片数との比を意味することができる。いくつかの態様において、「相対的存在量」は、ゲノム位置の１つのウインドウ（窓）内で終わる無細胞DNA分子の量（１つの値）と、ゲノム位置の別のウインドウ内で終わる無細胞DNA分子の量（他の値）とを関連付ける分離値の一種であり得る。２つのウインドウはオーバーラップできるが、サイズは異なる。他の実施形態では、２つのウインドウはオーバーラップできない。さらに、いくつかの実施形態では、ウインドウは、１つのヌクレオチドの幅であり、したがって、１つのゲノム位置と等価である。

本明細書で使用される用語「メチル化パターン」は、１または複数のCpG部位に対するメチル化状態の配列を指す。メチル化状態としては、メチル化（例えば、「M」として表される）および非メチル化（例えば、「U」として表される）が挙げられるが、これらに限定されない。例えば、５つのCpG部位に及ぶメチル化パターンは、「MMMMM」または「UUUUU」として表され得、ここで、各個別の記号は、単一のCpG部位におけるメチル化状態を表す。メチル化パターンは、参照ゲノム中の特定のゲノム位置および／または特定の１つもしくは複数のCpG部位に対応していてもよく、対応していなくてもよい。

本明細書で使用される場合、用語「断片メチル化パターン」は、断片（例えば、核酸試料の）または断片の一部のメチル化パターンを指す。本開示において、用語「断片メチル化パターン」は、特に断らない限り、用語「FMP」と交換可能に使用される。断片メチル化パターンは、各核酸試料のメチル化配列決定により得ることができる。いくつかの実施形態では、核酸試料から得られた１または複数の断片は、各断片メチル化パターンが１または複数のCpG部位（例えば、CpG部位のスパンまたは間隔）を含むように、参照ゲノムに整列され、ここで、各CpG部位は各メチル化状態を含み、参照ゲノム中の特定部位にインデックスされる。したがって、各断片メチル化パターンにおける１または複数のCpG部位は、参照ゲノムにおける特定の位置に対応し、断片メチル化パターンは、参照ゲノムにおける特定の位置に対応する１または複数のCpG部位に対するメチル化状態の配列を指す。いくつかの実施形態では、複数の断片中の各断片は、対応する断片メチル化パターンを有する。断片メチル化パターンは、メチル化状態の配列の表現（例えば、「MMMMM」または「UUUUU」）によって表すことができる。いくつかの実施形態では、各複数の断片に対する複数の断片メチル化パターンは、各複数の断片に対する複数の断片メチル化パターンにおける各断片メチル化パターン（例えば、ノード）の表現を含む間隔マップによって表される。

本明細書で使用される場合、用語「クエリメチル化パターン」は、所定のCpG部位数範囲にあるメチル化状態の配列を指す。クエリメチル化パターンは、メチル化パターンの表現（例えば、間隔マップによって表される複数の断片メチル化パターン）をクエリするために使用されるメチル化状態の配列（例えば、「MMMMM」または「UUUUU」）の表現であり得る。いくつかの実施形態では、クエリメチル化パターンは、参照ゲノム中の各１または複数の特定部位にインデックス付けされた１または複数のCpG部位（例えば、CpG部位のスパンまたは間隔）に対応する。いくつかの実施形態では、クエリメチル化パターンは、参照ゲノム内の特定のCpG部位または特定の位置のいずれにも対応しない（例えば、クエリメチル化パターンは、ゲノム領域および／または参照ゲノム内のすべての位置にわたってクエリされるメチル化状態の配列の表現である）。いくつかの例では、所定のCpG部位（サイト）数範囲は、ユーザ定義である（例えば、範囲５のCpG部位から２０のCpG部位）。いくつかの例では、所定のCpG部位数の範囲は単一の数であり、このような例では、クエリメチル化パターンは固定されたCpG数の長さ（例えば、５つのCpG部位）であることを意味する。いくつかの実施形態では、断片メチル化パターン／FMPまたはその一部をクエリメチル化パターンとして使用することができる。いくつかの実施形態では、以前に生成されたクエリライブラリーからのクエリメチル化パターンを使用することができる。いくつかの実施形態では、特定の種類の癌などの特定の疾患状態について、１または複数のクエリライブラリを生成することができる。

本明細書中で使用される用語「適格なメチル化パターン」は、所定のCpG部位数範囲にあり、１または複数の選択基準を満たすメチル化パターンを指す。本開示において、用語「適格なメチル化パターン」は、特に明記しない限り、用語「QMP」と交換可能に使用される。いくつかの実施形態において、適格なメチル化パターンは、参照ゲノム中の各１または複数の特定部位にインデックス付けされた１または複数のCpG部位（例えば、CpG部位のスパンまたは間隔）に対応する。例えば、適格なメチル化パターンが、参照ゲノムに整列された複数の断片中の各１または複数の断片において同定される場合、適格なメチル化パターンは、１または複数のCpG部位を含み、ここで、各CpG部位は、各メチル化状態を含み、参照ゲノム中の特定部位にインデックス付けされる。したがって、いくつかのそのような態様において、適格なメチル化パターンは、１または複数の選択基準を満たす参照ゲノム中の特定の位置におけるメチル化状態の特定の配列を指す。適格なメチル化パターン（例えば、「MMMMM」または「UUUUU」などの適格なメチル化パターンのためのメチル化状態の各配列の表現）は、参照ゲノムに整列された複数の断片中の各１または複数の断片において同定され得、ここで、複数の断片に対する各断片メチル化パターンは、間隔マップによって表され、クエリーメチル化パターンを間隔マップ中の各ノード中の各断片メチル化パターンの表現にマッチングし、マッチしたメチル化パターンが１または複数の選択基準を満たすかどうかを決定することによって、同定され得る。いくつかの実施形態では、適格なメチル化パターンは、参照ゲノム中の特定のCpG部位または特定の位置のいずれにも対応しない（例えば、適格性メチル化中の１または複数のCpG部位のゲノム位置が不明である場合、および／または適格なメチル化パターン中のメチル化状態の配列が参照ゲノム全体にわたって複数の位置で生じる場合）。

本明細書に開示されるように、用語「対象」は、ヒト（例えば、男性、女性、ヒト、胎児、妊娠女性、子供など）、非ヒト動物、植物、細菌、真菌または原生生物を含むが、これらに限定されない、任意の生物または非生物を指す。ヒトまたはヒト以外の動物は、哺乳動物、は虫類、鳥類、両生類、魚類、有蹄動物、反芻動物、ウシ（例えば、畜牛）、ヤギおよびヒツジ（例、ヒツジ、ヤギ）、ブタ（例、ピッグ）、ラクダ類（例、ラクダ、ラマ、アルパカ）、サル、エイプ（例、ゴリラ、チンパンジー）、クマ科（ursid）（例、クマ）、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラ、およびサメを含むが、これらに限定されない対象として使用され得る。「対象」および「患者」という用語は、本明細書において互換的に使用され、例えば癌などの医学的状態または疾患を有することが知られているか、または潜在的に有するヒトまたは非ヒト動物を指す。いくつかの実施形態では、対象は、任意の段階（例えば、男性、女性または子供）の男性または女性である。

試料が採取されるか、または本明細書に記載される方法もしくは組成物のいずれかによって治療される対象は、任意の年齢であり得、成人、乳児または小児であり得る。場合によっては、対象、例えば、患者は、０、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、または９９歳である、またはその中の範囲内（例えば、約２～約２０歳、約２０～約４０歳、または約４０～約９０歳）である。特定のクラスの対象、例えば、本開示の方法から利益を得ることができる患者は、対象、例えば４０歳を超える患者である。

別の特定のクラスの対象、例えば、本開示の方法から利益を得ることができる患者は、慢性心臓症状のより高いリスクを有し得る小児患者である。さらに、対象、例えば、患者は、試料が採取されるか、または本明細書に記載の方法もしくは組成物のいずれかによって治療される、男性であっても女性であってもよい。

用語「正規化」は、本明細書で使用される場合、比較目的のために、値または値のセットを共通の基準フレームに変換することを意味する。例えば、診断用ctDNAレベルが基準（ベースライン）ctDNAレベルで「標準化」される場合、診断用ctDNAレベルは基準ctDNAレベルと比較され、その結果、診断用ctDNAレベルが基準ctDNAレベルと異なる量を決定することができる。

本明細書で使用される「癌（がん）」または「腫瘍」という用語は、腫瘤の成長が正常組織の成長と協調していない、超過した組織の異常な質量を指す。癌または腫瘍は、形態および機能性、成長速度、局所浸潤および転移を含む細胞分化の程度に応じて、「良性」または「悪性」と定義され得る。「良性」腫瘍は高分化型であり、悪性腫瘍よりも成長が遅く、原発部位に限局したままであるのが特徴的である。さらに、場合によっては、良性腫瘍には遠隔部位への浸潤、侵入または転移する能力がない。「悪性」腫瘍は、低分化（退形成）であり得、特徴的に、周辺組織の進行性浸潤、侵入、および破壊を伴う急速な成長を有する。さらに、悪性腫瘍は、遠隔部位に転移する能力を有し得る。

本明細書で使用される用語「癌状態（癌病態）」は、癌に関する試料の状態を意味し、ここで、該状態の各ポテンシャル特性および／または尺度は、癌状態（condition／病態／コンディション）の「状態（state／様子）」を意味する。例えば、試料は、「癌」または「非癌」である癌状態を有することができる。さらに、癌状態は、癌状態に影響を与えることが知られている特定の変異の有無、喫煙／非喫煙、年齢、性別、および／または造血状態などの共変量など、癌の予後に影響を与える状態であり得る。あるいは、癌状態は、原発部位または原発組織、例えば、健康な乳房、肺、肺、前立腺、結腸直腸、腎臓、子宮、膵臓、食道、リンパ、頭頸部、卵巣、肝臓、頸部、表皮、甲状腺、膀胱、胃、またはそれらの組み合わせ、または、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、リンパ腫、頭頸部癌、卵巣癌、肝胆道癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱癌、胃癌、またはその組み合わせであり得る。癌の状態は、癌の種類、特定の癌の種類の腫瘍、またはその一部、例えば、副腎皮質癌、小児副腎皮質癌、AIDS関連癌の腫瘍、肛門癌に関連する腫瘍であるカポジ肉腫、虫垂癌に関連する腫瘍、星細胞腫、小児（脳腫瘍）腫瘍、非定型奇形腫様/ラブドイド腫瘍、中枢神経系（脳腫瘍）の腫瘍、皮膚の基底細胞癌、胆管癌に関連する腫瘍、膀胱癌の腫瘍、小児膀胱癌の腫瘍、骨癌（例えば、ユーイング肉腫、骨肉腫、悪性線維性組織球腫）組織、脳腫瘍、乳癌組織、小児乳癌組織、小児気管支腫瘍、バーキットリンパ腫組織、カルチノイド腫瘍（胃腸）、小児カルチノイド腫瘍、原発不明の癌腫、原発不明の小児癌、小児心臓（心臓）腫瘍、中枢神経系（例えば、小児非定型奇形腫様/ラブドイド様などの脳腫瘍）腫瘍、小児胚性腫瘍、小児胚細胞腫瘍、子宮頸癌組織、小児子宮頸癌組織、胆管癌組織、小児脊索腫組織、慢性骨髄増殖性腫瘍、結腸直腸癌腫瘍、小児結腸直腸癌腫瘍、小児頭蓋咽頭腫組織、非浸潤性乳管癌（DCIS）、小児胚性腫瘍、子宮内膜癌（子宮癌）組織、小児上衣腫組織、食道癌組織、小児食道癌組織、エステーション神経芽細胞腫(頭頸部癌)組織、小児頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、眼の癌組織、眼内黒色腫、網膜芽細胞腫、卵管癌組織、胆嚢癌組織、胃（gastric）（胃（stomach））癌組織、小児胃（gastric）（胃（stomach））癌組織、消化管カルチノイド腫瘍、消化管間質腫瘍（GIST）、小児の消化管間質腫瘍、胚細胞腫瘍（例えば、小児中枢神経系胚細胞腫瘍、小児頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、卵巣胚細胞腫瘍、または精巣癌組織)、頭頸部癌組織、小児心臓腫瘍、肝細胞癌(HCC)組織、膵島細胞腫瘍（膵神経内分泌腫瘍）、腎臓または腎細胞癌（RCC）組織、喉頭癌組織、白血病、肝臓癌組織、肺癌（非小細胞および小細胞）組織、小児肺癌組織、男性乳癌組織、骨の悪性線維性組織球腫および骨肉腫、メラノーマ、小児メラノーマ、眼内黒色腫、小児眼内黒色腫、メルケル細胞癌、悪性中皮腫、小児中皮腫、転移性癌組織、潜在的な原発組織を伴う転移性頸部扁平上皮癌、NUT遺伝子の変化を伴う正中線癌、口腔癌（頭頸部癌）組織、多発性内分泌腫瘍症候群組織、多発性骨髄腫/形質細胞腫瘍、骨髄異形成症候群組織、骨髄異形成/骨髄増殖性新生物、慢性骨髄増殖性腫瘍、鼻腔および副鼻腔癌組織、上咽頭癌(NPC)組織、神経芽細胞腫組織、非小細胞肺癌組織、口腔癌組織、口唇および口腔癌および中咽頭癌組織、骨肉腫および骨組織の悪性線維性組織球腫、卵巣癌組織、小児卵巣癌組織、膵臓癌組織、小児膵臓癌組織、乳頭腫症（小児喉頭）組織、傍神経節腫組織、小児傍神経節腫組織、副鼻腔および鼻腔癌組織、副甲状腺癌組織、陰茎癌組織、咽頭癌組織、褐色細胞腫組織、小児褐色細胞腫組織、下垂体腫瘍、形質細胞腫瘍/多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系 (CNS) リンパ腫、原発性腹膜癌組織、前立腺癌組織、直腸癌組織、網膜芽細胞腫、小児横紋筋肉腫、唾液腺癌組織、肉腫（例えば、小児血管腫瘍、骨肉腫、子宮肉腫など）、セザリー症候群（リンパ腫）組織、皮膚癌組織、小児皮膚癌組織、小細胞肺癌組織、小腸癌組織、皮膚の扁平上皮癌、原発不明の扁平上皮頸部癌、皮膚T細胞リンパ腫、精巣癌組織、小児精巣癌組織、咽頭癌（例えば、上咽頭癌、中咽頭癌、下咽頭癌）組織、胸腺腫または胸腺癌、甲状腺癌組織、腎盂および尿管組織の移行上皮癌、未知の原発性癌組織、尿管または腎盂組織、移行上皮癌（腎臓（腎細胞）癌組織、尿道癌組織、子宮内膜癌組織、子宮肉腫組織、膣癌組織、小児膣癌組織、血管腫瘍、外陰癌組織、ウィルムス腫瘍またはその他の小児腎腫瘍であり得る。癌状態とは、癌の病期（ステージ）であり、例えば、乳癌の病期、肺癌の病期、前立腺癌の病期、大腸癌の病期、腎癌の病期、子宮癌の病期、膵癌の病期、食道癌の病期、リンパ腫の病期、頭頸部癌の病期、卵巣癌の病期、肝胆道癌の病期、黒色腫の病期、子宮頸癌の病期、多発性骨髄腫の病期、白血病の病期、甲状腺癌の病期、膀胱癌の病期、胃癌の病期であり得る。１人の対象から複数のサンプルを採取すると、異なる癌状態または同じ癌状態になることがある。複数の対象が異なる癌の病態または同じ癌の病態を有する可能性がある。

「癌負荷（load）」、「腫瘍負荷」、「癌重荷（burden）」、「腫瘍重荷」、または「腫瘍フラクション（腫瘍画分）」という用語は、本明細書において、腫瘍由来の試験試料中の核酸のフラクション（分率）を指すために、交換可能に使用される。例えば、無細胞核酸の場合、「腫瘍フラクション」は、腫瘍由来の無細胞核酸の画分を指すことができる。したがって、「癌負荷」、「腫瘍負荷」、「癌重荷」、「腫瘍重荷」、および「腫瘍フラクション」という用語は、生物学的試料中の細胞源分率（細胞ソースフラクション）の非限定的な例である。

本明細書で使用される用語「組織」は、機能単位として一緒にグループ化する細胞のグループに対応する。１つの組織に複数の種類の細胞が認められる。異なる種類の組織は、異なる種類の細胞（例えば、肝細胞、肺胞細胞または血液細胞）からなることがあるが、異なる生物由来の組織（母体対胎児）または健康な細胞対腫瘍細胞に対応することもできる。用語「組織」は、一般的に、人体に見出される任意の細胞群（例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、口腔咽頭組織）を指すことができる。いくつかの態様において、用語「組織」または「組織型」は、無細胞核酸が由来する組織を指すために使用することができる。一例において、ウイルス核酸断片は、血液組織から誘導され得る。別の実施例では、ウイルス核酸断片は、腫瘍組織から誘導され得る。

本明細書で使用される場合、用語「非トレーニング（拘束）分類指標（untrained classifier）」は、標的データセット上でトレーニングされていない分類指標を指す。したがって、いくつかの実施形態では、「分類指標をトレーニングする」とは、非トレーニング分類指標をトレーニングするプロセスを指す。例えば、後述する、メチル化状態ベクターの第１の基準のセット（canonical set）およびメチル化状態ベクターの第２の基準のセット（正準集合）の場合を考える。メチル化状態ベクターの各基準のセットは、メチル化状態ベクターの第１基準のセット（以下「プライマリ（一次）トレーニングデータセット」という）によって表される各参照対象の細胞源と共に、未トレーニング分類指標への集合的入力として適用され、それによって、トレーニングされた分類指標が得られる。さらに、用語「非トレーニング分類指標」は、伝達学習技術が非トレーニング分類指標のそのようなトレーニングにおいて使用される可能性を除外しないことが理解されるであろう。例えば、Fernandes et al., 2017, “Transfer Learning with Partial Observability Applied to Cervical Cancer Screening,” Pattern Recognition and Image Analysis: 8^thIberian Conference Proceedings, 243-250は、参照により本明細書に組み込まれ、そのような転移学習の非限定的な例を提供する。上記トランス転送学習が使用される場合には、上述の非トレーニング分類指標は、プライマリトレーニングデータセットのデータを上回り、かつ、それを越えて、追加のデータを提供される。すなわち、伝達学習実施形態の非限定的な例では、非トレーニング分類指標は、（i）メチル化状態ベクターの基準のセット、およびメチル化状態ベクターの基準のセット（プライマリトレーニングデータセット」）によって表される参照対象の各々の細胞源標識、および（ii）追加データを受け取る。典型的には、この追加データは、別の補助トレーニングデータセットから学習された係数（例えば、回帰係数）の形態である。さらに、単一の補助トレーニングデータセットの説明が開示されているが、本開示において、トレーニングされていない分類指標をトレーニングする際に、プライマリトレーニングデータセットを補完するために使用され得る補助トレーニングデータセットの数に上限はないことが理解されるであろう。例えば、いくつかの実施形態では、２つ以上の補助トレーニングデータセット、３つ以上の補助トレーニングデータセット、４つ以上の補助トレーニングデータセットまたは５つ以上の補助トレーニングデータセットを使用して、各補助データセットがプライマリトレーニングデータセットとは異なるトランスファー学習を通じてプライマリトレーニングデータセットを補完する。上記実施形態では、任意の方法の移転学習を使用することができる。例えば、プライマリトレーニングデータセットに加えて、第１の補助トレーニングデータセットと第２の補助トレーニングデータセットがある場合を考える。（第１の補助トレーニングデータセットへの回帰のような分類指標の適用によって）第１の補助トレーニングデータセットから学習された係数は、転送学習技術（例えば、上述の２次元行列乗算）を使用して第２の補助トレーニングデータセットに適用され得、それは、次に、その係数が一次トレーニングデータセットに適用されるトレーニングされた中間分類指標をもたらし得、これは、プライマリ次トレーニングデータセット自体と共に、非トレーニング分類指標に適用される。あるいは、（第１の補助トレーニングデータセットへの回帰のような分類指標の適用によって）第１の補助トレーニングデータセットから学習された第１の係数セットと、（第２の補助トレーニングデータセットへの回帰のような分類指標の適用によって）第２の補助トレーニングデータセットから学習された第２の係数セットとは、それぞれ個別に、プライマリトレーニングデータセットの別個のインスタンスに適用され（例えば、別個の独立行列乗算によって）、係数の上記適用の両方が、プライマリトレーニングデータセット自体と関連して、プライマリトレーニングデータセットのインスタンスを分離するために、（または、プライマリトレーニングデータセットから学習された主成分または回帰係数のような、いくつかの低減された形態のプライマリトレーニングデータセットの）非トレーニング分類指標に適用され、非トレーニング分類指標をトレーニングすることができる。いずれの実施例においても、第１および第２の補助トレーニングデータセットから派生した細胞源（細胞ソース）（例えば、癌型など）に関する知識は、細胞源標識されたプライマリトレーニングデータセットと併せて、非トレーニング分類指標をトレーニングするために使用される。

用語「分類」は、試料の特定の特性に関連する任意の数字または他の文字を指すことができる。例えば、「＋」記号（または「正」という語）は、試料が欠失または増幅を有するものとして分類されることを意味し得る。別の実施例において、用語「分類」は、対象および／または試料中の腫瘍組織の量、対象および／または試料中の腫瘍のサイズ、対象中の腫瘍の段階、対象および／または試料中の腫瘍負荷、および対象中の腫瘍転移の存在を指す。いくつかの実施形態では、分類は、２値（バイナリ）（例えば、正または負）であるか、または分類のより多くのレベル（例えば、１～１０または０～１のスケール）を有する。いくつかの実施形態では、「カットオフ」および「閾値」という用語は、動作において使用される所定の数字を指す。一例では、カットオフサイズは、断片が除外されるサイズを上回るサイズを指す。いくつかの実施形態では、閾値は、特定の分類が適用される値を上回るか下回る値である。これらの用語のどちらも、これらの文脈のいずれでも使用できる。

本明細書中で使用される、用語「癌関連変化」または「癌特異的変化」は、癌由来突然変異（単一ヌクレオチド突然変異、ヌクレオチドの欠失または挿入、遺伝的または染色体セグメントの欠失、転座、逆位を含む）、遺伝子の増幅、ウイルス関連配列（例えば、ウイルスエピソーム、ウイルス挿入、細胞に侵入し（例えば、ウイルス感染を介して）、その後細胞によって放出されたウイルスDNA、循環または無細胞ウイルスDNA、異常なメチル化プロファイルまたは腫瘍特異的メチル化サイン、異常な無細胞核酸（例えば、DNA）サイズプロファイル、異常なヒストン修飾痕および他のエピジェネティック修飾、および癌関連または癌特異的である無細胞DNA断片の末端の位置を含み得る。

本明細書で使用されるように、用語「コントロール」、「コントロールサンプル（試料）」、「基準（参照）」、「基準サンプル」、「正常」および「正常サンプル」は、特定条件を有さない、またはそうでなければ健康である対象由来の試料を記載する。一例において、本明細書に開示されるような方法は、腫瘍を有する対象に対して実施することができ、ここで、基準サンプルは、対象の健常組織から採取された試料である。基準は、対象から、またはデータベースから得ることができる。基準は、例えば、対象からの試料の配列決定から得られた配列読み取りをマッピングするために使用される基準ゲノムであり得る。基準ゲノムは、生物学的試料から配列が読み取られ、構成的試料が整列され、比較され得る一倍体または二倍体ゲノムを指すことができる。構成的試料の一例は、対象から得られた白血球のDNAであり得る。一倍体ゲノムについては、各遺伝子座に１つのヌクレオチドしか存在できない。二倍体ゲノムについては、ヘテロ接合性の遺伝子座を同定でき、各ヘテロ接合性の遺伝子座は２つの対立遺伝子をもつことができ、どちらの対立遺伝子も遺伝子座へのアラインメントのためのマッチングを可能にできる。

本明細書で使用される用語は、特定の場合のみを説明するためのものであり、限定することを意図するものではない。本明細書で使用されるように、単数形「１つの（a）」、「１つの（an）」および「前記（the）」は、文脈上明らかに別段の指示がない限り、同様に複数形を含むものとする。さらに、用語「含んでいる」、「含む」、「有している」、「有する」、「一緒に」、またはそれらの変形例が、詳細な説明および／または特許請求の範囲のいずれかにおいて使用される限りにおいて、そのような用語は、用語「備える」と同様の方法で包括的であることが意図される。

いくつかの態様は、説明のための例示的用途を参照して以下に記載される。本明細書に記載の特徴を完全に理解するために、多数の特定の詳細、関係、および方法が記載されていることを理解されたい。しかしながら、当業者であれば、本明細書に記載される特徴は、１または複数の特定の詳細なしに、または他の方法とともに実施することができることを容易に認識するであろう。本明細書に記載される特徴は、行為または事象の図示された順序付けによって限定されるものではなく、何らかの行為は、異なる順序で、および／または他の行為または事象と同時に起こり得る。さらに、本明細書に記載された特徴に従って方法論を実施するために、すべての例示された行為または事象が必要とされるわけではない。

例示的なシステム実施形態
次に、例示的なシステムの詳細を図１と併せて説明する。図１は、いくつかの実施によるシステム１００を示すブロック図である。いくつかの実施形態におけるシステム１００は、１または複数の処理ユニットCPU１０２（プロセッサまたは処理コアとも呼ばれる）、１または複数のネットワークインタフェース１０４、表示装置（ディスプレイ）１０８および入力モジュール１１０を含むユーザインタフェース１０６、非永続的記憶部１１１、永続的記憶部１１２、およびこれらの構成要素を相互接続するための１または複数の通信バス１１４を含む。１または複数の通信バス１１４は、任意に、システム構成要素間の通信を相互接続しコントロールする回路（チップセットと呼ばれることもある）を含む。非永続的メモリ（非永続的記憶部）１１１は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含むが、永続的メモリ（永続的記憶部）１１２は、典型的には、CD－ROM、デジタル多用途ディスク（DVD）またはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、またはその他の不揮発性ソリッドステート記憶装置を含む。永続メモリ１１２は、任意に、CPU１０２から遠隔に配置された１または複数の記憶装置を含む。永続的メモリ１１２と、非永続的メモリ１１１内の不揮発性メモリデバイスは、一時的でないコンピュータ読み取り可能な記憶媒体を備える。いくつかの実装では、非永続的メモリ１１１またはその代わりに一時的でないコンピュータ可読記憶媒体は、時には永続的メモリ１１２と関連して、以下のプログラム、モジュール、およびデータ構造、またはそれらのサブセットを記憶する：
・任意のオペレーティング・各種１１６に関連する任意の命令、プログラム、データ、または情報であって、これには、様々な基本システムサービスを処理するための手順、およびハードウェア依存タスクを実行するための手順が含まれる、任意の命令、プログラム、データ、または情報；
・システム１００を他の装置、または通信ネットワークに接続するための任意のネットワーク通信モジュール（または命令）１１８に関連する任意の命令、プログラム、データ、または情報；
・命令、プログラム、データ、または複数のデータセット（例えば、データセット１および２）１２０－１および１２０－２に関連付けられた情報であって、各データセットが以下を備える：
・複数の対象１２２－１－１、・・・、１２２－１－J（ここで、Jは正の整数である）における各対象のための、記録１２２に関連する命令、プログラム、データ、または情報であって、各試験対象は、対応する対象から得られた各生体試料中の１または複数の核酸試料からの複数の断片メチル化パターン１２４－１－１－１、・・・、１２４－１－１－K（ここで、Kは正の整数である）を含み、ここで、各断片メチル化パターンは、１または複数の核酸サンプルのメチル化配列決定によって決定され、各断片中の対応する複数のCpG部位中の各CpG部位についてのメチル化状態１２６－１－１－１－１、・・・、１２６－１－１－１－１－L（ここで、Lは正の整数である）を含む、命令、プログラム、データ、または情報；
・各データセットについて、１または複数のゲノム領域１２８－１－１、・・・、１２８－１－M（ここで、Mは正の整数である）に関連する命令、プログラム、データ、または情報；
・それぞれのデータセットを使用して、１つまたは複数の対応するゲノム領域の１つまたは複数の状態間隔マップ１３０－１－１、１３０－１－２、・・・、１３０－１－N（ここで、Nは正の整数である）、ここで、各状態間隔マップは、対応する独立した複数のノード１３２－１－１－１、・・・、１３２－１－１－P（ここで、Pは正の整数である）を含み、複数のノードにおけるそれぞれのノードは、対応する開始メチル化部位１３４－１－１－１－１、対応する終了メチル化部位１３６－１－１－１－１、および、それぞれのノードの対応する開始メチル化部位と対応する終了メチル化部位との間のそれぞれのデータセット全体で観察される、それぞれ異なるフラグメントメチル化パターンについて、それぞれのデータセットで観察された異なるフラグメントメチル化パターン１３８－１－１－１－１、・・・、１３８－１－１－１－Q（ここで、Qは正の整数である）の表現とフラグメントのカウント１４０－１－１－１－１、・・・、１４０－１－１－１－R（ここで、Rは正の整数である）により特徴づけられ、そのフラグメントメチル化パターンは、対応する開始メチル化部位で始まり、対応する終了メチル化部位で終わり、異なるフラグメントメチル化パターンを有するもの、に関連する命令、プログラム、データ、または情報。

いくつかの実施形態では、上述の識別された元素の１つ以上が、前述のメモリデバイスの１つ以上に記憶され、上述の機能を実行するための命令のセットに対応する。上述の識別されたモジュール、データ、またはプログラム（例えば、命令のセット）は、別個のソフトウェアプログラム、プロシージャ、データセット、またはモジュールとして実装されず、したがって、これらのモジュールおよびデータの各種サブセットは、さまざまな実装において、結合されるか、または別の方法で再アレンジ（配置）されてもよい。一部の実施では、非永続メモリ１１１は、上記で識別されたモジュールおよびデータ構造のサブセットを任意に記憶する。さらに、いくつかの実施形態では、メモリは、上述されていない追加のモジュールおよびデータ構造を記憶する。いくつかの実施形態では、システム１００がそのようなデータの全部または一部を取り出すことができるように、システム１００によってアドレス指定可能な、システム１００のもの以外の、上記で識別された元素の１つまたは複数が、コンピュータシステム内に記憶される。

図１は「システム１００」を示すが、図は、本明細書に記載される実装の構造的概略図としてよりも、コンピュータシステム内に存在し得る様々な特徴の機能的説明として意図される。実際には、そして当業者によって認識されるように、別々に示されたアイテムを組み合わせることができ、いくつかの項目を分離することができる。さらに、図１は、非永続的記憶部１１１内の特定のデータおよびモジュールを示すが、これらのデータおよびモジュールの一部または全部は、永続的記憶部１１２内にあってもよい。

本開示の具体的な実施形態
図１を参照して本開示に準じたシステムが開示されているが、現在の開示に準じた方法は、図２を参照して詳細に開示されている。開示された方法のいずれもが、試験対象における癌状態、または対象が癌状態を有する可能性を決定するために、それらのそれぞれが参照によりその全体が本明細書に組み込まれる、2017年10月25日に出願された米国特許出願番号15/793,830、国際特許公開番号WO2018/081130、表題「Methods and Systems for Tumor Detection」、および／または米国特許公開第2020-0385813A1、「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」に開示されたアッセイまたはアルゴリズムのいずれかと関連して利用することができる。例えば、開示された方法のいずれかは、2017年10月25日に出願された米国特許出願番号15/793,830、国際特許公開番号WO2018/081130、米国特許公開第2020-0385813A1、および／または2018年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国仮特許出願第62/781,549号に開示された方法またはアルゴリズムのいずれかと関連して作用することができる。

データセットの取得
図２Aのブロック２０４を参照すると、本開示は、癌状態を識別または示す複数の適格なメチル化パターンを同定するためのシステム、方法、およびコンピュータ可読媒体を提供する。上記実施形態では、第１のデータセットが（例えば、電子形態で）取得される。第１のデータセットは、第１の複数の断片中の各断片の対応する断片メチル化パターンを含む。いくつかの実施形態では、各断片（i）の対応する断片メチル化パターンは、１または複数の対象の第１のセット中の対応する対象から得られた各生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。いくつかの実施形態では、第１の複数の断片は、１００以上の無細胞核酸断片、１０００以上の無細胞核酸断片、１０，０００以上の無細胞核酸断片、１００，０００以上の無細胞核酸断片、１，０００，０００以上の無細胞核酸断片、または１０，０００，０００以上の核酸断片を含む。

１または複数の対象の第１のセットの対象数は、アプリケーションに依存する。例えば、癌状態が起源の組織である場合（例えば、癌状態の起源を識別するのを助ける適格なメチル化パターンを同定すること）、１以上の対象の第１のセットにおける対象の数は、典型的には、癌の特定の起源を有する複数の癌対象である（例えば、それらはすべて肺癌を有し、それらはすべて肝臓癌を有するなど）。いくつかの上記実施形態において、複数の癌試験対象（対象）は、特定の癌の起源を有する５以上の試験対象、１０以上の試験対象、２０以上の試験対象、３０以上の試験対象、４０以上の試験対象、５０以上の試験対象、１００以上の試験対象、２００以上の試験対象、５００以上の試験対象、１０００以上の試験対象、１０～１０，０００の試験対象、または２５，０００未満の試験対象である。いくつかの上記態様において、複数対象はすべて、同じステージの癌を有する。別の実施形態では、複数の対象は、癌の様々な病期（ステージ）を有する。いくつかの実施形態では、複数の対象は、転移した癌を有する。いくつかの実施形態では、複数対象は、転移していない癌を有する。

別の実施例として、癌状態が癌の非存在または存在である場合（例えば、癌状態の有無を決定するのを助ける適格なメチル化パターンを同定すること）、１または複数の対象の第１のセットにおける対象の数は、典型的には、癌を有する複数の癌対象である（例えば、それらは全て癌を有する、それらは全て試験中の特定の癌を有する、など）。いくつかの上記実施形態において、複数の癌試験対象は、５以上の試験対象、１０以上の試験対象、２０以上の試験対象、３０以上の試験対象、４０以上の試験対象、５０以上の試験対象、１００以上の試験対象、２００以上の試験対象、５００以上の試験対象、１０００以上の試験対象、１０～１０，０００の試験対象、または２５，０００未満の試験対象である。いくつかの上記実施形態において、複数対象はすべて、同じ病期の癌を有する。別の実施形態では、複数の対象は、癌の様々な病期を有する。いくつかの実施形態では、複数の対象は、転移した癌を有する。いくつかの実施形態では、複数の対象は、転移していない癌を有する。

さらに別の例として、癌状態が特定の癌の病期である場合（例えば、対象が特定の癌状態の特定の病期を有するかどうかを決定するのを助ける適格なメチル化パターンを同定すること）、さらにまた、１または複数の対象の第１のセット中の対象の数は、典型的には、癌状態の病期を有する複数の癌対象である（例えば、全てがII期の乳癌などを有する）。

一方、癌状態が特定の対象の癌状態にプライベート（ユニーク）な断片メチル化パターンを生成するという予想がある場合、１または複数の対象の第１のセットの対象の数は、１の対象である。癌状態が特定の対象の癌状態にプライベート（ユニーク）である断片メチル化パターンを生成すると予想する非限定的な例は、癌状態が腫瘍フラクションである場合である。癌状態が特定の対象の癌状態にプライベート（ユニーク）である断片メチル化パターンを生成すると予想する別の非限定的な例は、癌状態が特定の対象の造血状態に影響される場合である。例えば、癌状態が、特定の対象の癌状態に個人的な（独特の）断片メチル化パターンを生成するという予想がある場合、１または複数の対象の第１のセットは、試験中の単一の対象であり、後にさらに詳細に議論される１または複数の対象の第２のセットは、健康な試験対象のコホートのような参照集団である。

いくつかの実施形態では、対象の第１のセットは単一の対象であり、対象の第２のセットは複数の対象であり、開示された方法を使用して同定されるQMPは、下流側の癌状態分類指標を検査または評価するために使用される。例えば、癌に罹患している対象は、対象の第１のセットを構成し得、対象の第２のセットは、癌状態を有さない対象であり得、開示された方法を用いて同定されたQMPの寄与は、下流側の分類指標において検査され得る。例えば、分類指標は、特定されたQMPの一部または全部を含むか、または含まないように再構築（再トレーニング）することができ、その性能は、癌状態を有する対象および有しない対象のトレーニングコホートを用いて評価される。

試験対象
いくつかの実施形態では、試験中の各対象は、上記で定義された対象の例のいずれかである（定義を参照のこと）。いくつかの実施形態では、対象はヒトである。いくつかの実施形態では、対象の第２のセットは、研究グループであり、１または複数の対象の第１のセットは、研究グループ内の複数の参加者の参加者でもある単一の対象である。例えば、いくつかの実施形態では、第２の対象セットは、CCGA研究からの各参加者である複数の対象である（例えば、以下の実施例１を参照）。

生物学的試料
いくつかの実施形態では、本開示において使用される生物学的試料は、上記で定義された生物学的試料の例のいずれかである（「定義」を参照のこと）。例えば、いくつかの態様において、生物学的試料は、組織（例えば、腫瘍生検）である。図２Aのブロック２０６～２１０を参照すると、いくつかの実施形態では、対象（例えば、試験対象）から得られる生物学的試料は、液体生物学的試料である。例えば、いくつかの実施形態において、各生物学的試料は、血液試料（例えば、プラズマ、無細胞DNA、および／または白血球）である。いくつかの実施形態では、各生物学的試料は、血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む。いくつかの実施形態では、生物学的試料は、細胞源（セルソース）に由来する。いくつかの上記実施形態では、細胞源は、実施例（例えば、以下の実施例７を参照）に詳細に記載される例示的なセルソースのうちのいずれか１つである。

いくつかの実施形態では、生物学的試料は、癌を有する試験対象（例えば、試験対象）または健康な（例えば、非癌）対象から得られる。いくつかの実施形態では、生物学的試料は、腫瘍組織（例えば、癌）または健康な組織（例えば、非癌）から得られる。いくつかの実施形態では、生物学的試料は、保管された試料（例えば、凍結、乾燥、または代替的に保管された組織生検もしくは血液試料）から得られる。

いくつかの実施形態では、生物学的試料は、複数の生物学的試料（例えば、複数の試料を含むプールされた試料）である。複数の生物学的試料は、第１のデータセットを得る前の任意の時点でプールすることができる。例えば、いくつかの実施形態では、複数の生物学的試料をプールすることは、核酸抽出前（例えば、複数の組織および／または液体の生物学的試料をプールすること）、核酸抽出後であるがメチル化配列決定前（例えば、複数の核酸試料をプールすること）、またはメチル化配列決定後（例えば、複数の配列決定アッセイからシーケンシングデータをプールすること）に生じる。図７および９は、本開示のいくつかの実施形態（例えば、以下の実施例２および３を参照）に従って、生物学的試料から配列決定およびメチル化シーケンシングデータを得るための核酸試料を調製するための方法の例示的フローチャートを示す。

メチル化配列決定から得られたデータ
いくつかの実施形態では、データセット１２０は、任意のサイズであり得、使用される方法、カバレッジ、およびメチル化配列決定の深さに応じて、複数の断片中の各断片および／または複数の断片中の任意の数の断片について、任意の数の対応する断片メチル化パターン１２４を含む。例えば、ブロック２１２を参照すると、いくつかの実施例において、対象の第１のセット（対象の第１のセットが単一の対象からなるか、または複数の対象を含む）における対応する対象からのそれぞれの生物学的サンプルのメチル化配列決定は、第１のデータセットに含めることによってメチル化パターンについて評価される５億以上、10億以上、20億以上、30億以上、40億以上、50億以上、60億以上、70億以上、80億以上、90億以上、または、100億以上の核酸フラグメントを生成する。いくつかの代替的な実施形態において、対象の第１のセット中の対応する試験対象からの各生物学的試料のメチル化配列決定は、第１のデータセット（データセット１２０）に含めることによってメチル化パターンについて評価される10億未満の断片または10,000未満の断片を生成する。

いくつかの実施形態では、各断片の対応する断片メチル化パターンは、メチル化配列決定によって決定され、メチル化配列決定は、各断片に対応する１または複数の配列読み取りを生成する。いくつかの実施形態では、複数の断片は、無細胞核酸である。いくつかの実施形態では、各断片に対応する１または複数の配列読み取りは、対末端（ペアエンド／paired-end）配列読み取りである。いくつかの実施形態では、各断片に対応する１または複数の配列読み取りは、シングルエンド配列読み取りである。

図２Aのブロック２１４を参照すると、いくつかの実施形態では、メチル化配列決定によって得られる対応する複数の配列読み取りの平均配列読み取り長は、１４０～２８０ヌクレオチドである。

ブロック２１６を参照すると、いくつかの実施形態では、メチル化配列決定は、i）全ゲノムメチル化配列決定、またはii）複数の核酸プローブを使用する標的化DNAメチル化配列決定である。いくつかの実施形態では、メチル化配列決定は、全ゲノム亜硫酸水素配列決定（WGBS）である。

ブロック２１８～２２４を参照すると、いくつかの実施形態では、メチル化配列決定は、各断片中の１または複数の５－メチルシトシン（５mC）および／または５－ヒドロキシメチルシトシン（５hmC）を検出する。いくつかの実施形態では、メチル化配列決定は、１または複数の非メチル化シトシンまたは１または複数のメチル化シトシンの対応する１または複数のウラシルへの変換を含む。いくつかの上記実施形態では、１または複数のウラシルは、メチル化配列決定の間に、１または複数の対応するチミンとして検出される。いくつかのそのような実施形態では、１または複数の非メチル化シトシンまたは１または複数のメチル化シトシンの変換は、化成処理、酵素変換、またはそれらの組合せを含む。

図２Aのブロック２２６を参照すると、いくつかの実施形態では、対応する複数のCpG部位におけるCpG部位のメチル化状態は、CpG部位がメチル化されるメチル化配列決定によって決定されるときにメチル化され、CpG部位がメチル化されないメチル化配列決定によって決定されるときに非メチル化される。いくつかの実施形態では、メチル化状態は「M」として表され、非メチル化状態は「U」として表される。例えば、いくつかの実施形態では、メチル化状態は、非メチル化、メチル化、曖昧（ambiguous）（例えば、基礎となるCpGが、配列読み取りのペアにおける任意の読み取りによってカバーされないことを意味する）、変異体（例えば、読み取りが、参照配列に基づいてその期待される位置で生じるCpGと一致せず、部位での実際の変異体または配列エラーによって引き起こされ得ることを意味する）、またはコンフリクト（競合）（例えば、２つの読み取りが両方ともCpGと重複するが、一致しない場合）を含むことができるが、これらに限定されない。例えば、その全体が参照により本明細書に組み込まれている、２０２０年１２月１１日出願の「Cancer classification using patch convolutional neural networks」と題する米国特許出願公開第１７／１１９，６０６号を参照されたい。

いくつかの実施形態では、メチル化配列決定（例えば、WGBS）は、試験対象のゲノムの全部または一部にわたって、少なくとも１x、２x、３x、４x、５x、６x、７x、８x、９x、１０x、少なくとも２０x、少なくとも３０x、または少なくとも４０xのカバレッジ（例えば、配列決定深さ）を生じる。

いくつかの実施形態では、メチル化配列決定（例えば、WGBS）は、複数の断片にわたって少なくとも１x、２x、３x、４x、５x、６x、７x、８x、９x、１０x、少なくとも２０x、少なくとも３０x、または少なくとも４０xの平均カバレッジ（例えば、配列決定深さ）を生成する。いくつかの実施形態では、メチル化配列決定（例えば、WGBS）は、データセット１２０中に表される断片にわたって、少なくとも１x、２x、３x、４x、５x、６x、７x、８x、９x、１０x、少なくとも２０x、少なくとも３０x、または少なくとも４０xの平均カバレッジ（例えば、配列決定深さ）を生成する。

いくつかの実施形態では、メチル化配列決定（例えば、標的メチル化またはTM配列決定）は、最大１，０００x、２，０００x、３，０００x、５，０００、１０，０００x、１５，０００x、２０，０００x、または約３０，０００xを含むが、これらに限定されないカバレッジ（coverage）を有する。

いくつかの実施形態では、メチル化配列決定（例えば、標的化メチル化またはTMシーケンシング）は、複数の断片にわたって、最大１，０００x、２，０００x、３，０００x、５，０００x、１０，０００x、１５，０００x、２０，０００x、または約３０，０００xを含むが、これらに限定されない平均カバレッジ（カバー範囲）を有する。いくつかの実施形態では、メチル化配列決定（例えば、WGBS）は、データセット１２０に表される断片にわたり、最大１，０００x、２，０００x、３，０００x、５，０００x、１０，０００x、１５，０００x、２０，０００x、または約３０，０００xの平均カバレッジ（例、配列決定深さ）を生成する。

いくつかの実施形態では、メチル化配列決定は、３０，０００xより大きいカバレッジ、例えば、少なくとも４０，０００xまたは５０，０００xを有する。その全体が参照により本明細書に組み込まれている、Ziller et al., 2015, “Coverage recommendations for methylation analysis by whole-genome bisulfite sequencing,” Nature Methods. 12(3):230-232, doi:10.1038/nmeth.3152, and Masser et al., 2015, “Targeted DNA Methylation Analysis by Next-generation Sequencing,”J. Vis. Exp. (96), e52488, doi:10.3791/52488を参照のこと。

いくつかの実施形態では、メチル化配列決定は、対末端配列決定または単一末端配列決定である。

いくつかの実施形態では、メチル化配列決定は２値（バイナリ）である。いくつかの実施形態では、メチル化配列決定はセミバイナリである。本明細書で使用される場合、バイナリメチル化配列決定とは、メチル化部位および非メチル化部位の両方に特異的なハイブリダイゼーションプローブを用いて、完全にメチル化および／または完全にメチル化されていないCpG部位を配列決定することを指す。あるいは、本明細書で使用する場合、セミバイナリメチル化配列決定とは、メチル化または非メチル化部位のいずれかに特異的なハイブリダイゼーションプローブを用いて、メチル化または非メチル化のいずれかであるCpG部位を配列決定することを指す。

バイナリプローブを用いて実施されるメチル化配列決定は、カバレッジの深さを改善し、メチル化配列決定データセットにおけるバイアスを低減することができる。したがって、いくつかの実施形態では、WGBSは、バイナリ（二元）プローブを使用して実施される。いくつかの代替的実施形態では、標的化メチル化（TM）配列決定は、バイナリおよび／またはセミバイナリ（半二成分）プローブを使用して行われる。いくつかのそのような実施形態では、データセットから、セミバイナリプローブによって標的化される任意の断片の対応する断片メチル化パターンを除去する（例えば、フィルタリングする）ことによって、全体的なカバーカバレッジの深さが改善される（例えば、セミバイナリプローブを使用して配列決定された断片に対応する配列決定読み取りがフィルタリングされる）。あるいは、いくつかの実施形態では、セミバイナリプローブを用いて配列決定された１または複数の断片は、データセットから除去されず、深さカットオフは、深さカットオフより下の配列決定深さを有する領域（例えば、参照ゲノムの）に重なる任意の断片の対応する断片メチル化パターンがデータセットから除去されるように、第１のデータセットに適用される。例えば、バイナリシーケンシングがより高いカバレッジの深さを提供し、セミバイナリシーケンシングがより低いカバレッジの深さを提供する場合、深さカットオフを適用することは、データセット内の任意の残りの領域が少なくとも最小のカバレッジの深さを含むことを効率的に保証し、それによって、データセット内の全体的なバイアスを低減する。いくつかの実施形態では、深さカットオフは、バイナリ配列決定によって提供される最小カバレッジ深さの推定値、および／またはセミバイナリ配列決定によって提供される最大カバレッジ深さの推定値である。

いくつかの実施形態では、メチル化配列決定（例えば、WGBSおよび／またはTM配列決定）は、組織（例えば、腫瘍生検）または血液試料（例えば、形質、無細胞DNA、および／または白血球）を用いて実施される。

いくつかの実施形態では、複数の断片に対する複数の断片メチル化パターンは、対象のセットにおける対応する対象から得られた各生物学的試料からの核酸の複数のメチル化配列決定によって決定される。例えば、いくつかのそのような実施形態では、複数の断片メチル化パターンは、WGBSおよび標的DNAメチル化配列決定の両方を使用して、各生物学的試料から得られる。

いくつかの実施形態では、本方法は、複数の断片中の各断片についての配列決定データを含むデータセットを得ることをさらに含み、配列決定データは、対応する対象から得られた各生物学的試料からの核酸の１または複数の配列決定アッセイ（例えば、WGS、標的化配列決定）によって決定される。例えば、いくつかの上記実施形態において、１または複数の断片メチル化パターンおよび１または複数の配列決定データセットは、例えば、WGBS、標的化メチル化（TM）配列決定、WGS、標的化配列決定、および／またはそれらの任意の組み合わせを使用して、各生物学的試料から得られる。複数の配列決定および／またはメチル化配列決定データセットの比較を、実施例５および図１１に以下に記載する。

メチル化配列決定（例えば、WGBSおよび／または標的化メチル化配列決定）に関するさらなる詳細については、これらのぞれぞれが参照により本明細書に組み込まれる、例えば、２０１９年３月１３日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許公開2019-0287652A1、および「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開2020-0385813 A1を参照されたい。本明細書に開示されているものおよび／またはその任意の変更、置換、もしくは組み合わせを含む、メチル化配列決定のための他の方法は、当業者に明らかなように、断片メチル化パターンを得るために使用することができる。

断片（フラグメント）
いくつかの実施形態では、複数の断片中の各断片は、本明細書に開示されるメチル化配列決定方法のいずれかによって決定されるように、開始位置、終了位置、および開始位置と終了位置との間の各断片内に位置する１または複数のメチル化部位（例えば、CpG部位）を含む。いくつかの実施形態では、開始位置および／または端位置は、メチル化部位または参照（リファレンス）ゲノム中の位置である。いくつかの実施形態では、複数の断片中の各断片は、参照ゲノムに整列される。したがって、いくつかのそのような実施形態では、複数の断片中の各断片中の各メチル化部位は、参照ゲノム中の特定の部位にインデックス付けされる。同様に、複数の断片中の各断片がメチル化部位である開始位置および／または終了位置、および／または開始位置と終了位置との間の各断片内に位置する１または複数のメチル化部位を含む場合、各断片中の各メチル化部位は、参照ゲノム中の特定の部位にインデックス化することができる。

いくつかの実施形態では、固有の断片は、各断片の１または複数のメチル化部位の各開始位置および終了位置および／またはメチル化状態の配列（例えば、断片メチル化パターン）によって決定される。例えば、いくつかの実施形態では、異なる開始位置および終了位置を有する２つの断片は、断片メチル化パターンが同一であるかまたは異なるかにかかわらず、固有であるとみなされる。いくつかの実施形態では、２つの断片は、開始位置または端位置のうちの１つが２つの断片の間で共有されている場合であっても（例えば、２つの断片が異なる長さであるように、同じ開始位置であるが異なる端位置を有する２つの断片）、ユニークであると見なすことができる。いくつかの代替実施形態では、同一の開始位置および終了位置を有するが、異なる断片メチル化パターンを有する２つの断片は、ユニークであるとみなされる（例えば、「MMMMM」および「UMMMM」のような、CpG部位のスパン内の１または複数のCpG部位に対して異なるメチル化状態を有するが、参照ゲノムの同一領域に配列された２つの断片）。

いくつかの実施形態では、各断片の対応する断片メチル化パターンは、各断片中の対応する複数のCpG部位のうちのすべてより少ないCpG部位のメチル化状態を含み、ここで、各１または複数の断片中の１または複数のCpG部位は、「信頼性がない」と考えられる。例えば、いくつかの実施形態では、「信頼性がない」CpG部位は、変形例、あいまいな、または矛盾したメチル化状態を有するCpG部位、および／またはメチル化配列決定出力不良をもたらすことが知られているCpG部位を含む。いくつかの上記実施形態において、各１または複数の信頼性のないCpG部位は、その後のすべての分析およびプロセスのために、複数の断片から除去される（例えば、欠失される）。例えば、いくつかの実施形態では、欠失は、各データセット中の各複数の断片中の各断片の対応する断片メチル化パターンから、（各１または複数のCpG部位の各１または複数のメチル化状態によって表されるようである）各１または複数のCpG部位を除去することによって行われる。いくつかの代替的な実施形態では、各１または複数の信頼性のないCpG部位は、複数の断片から除去されず、そうでなければ、その後のすべての分析およびプロセスのためにバイパスされる。例えば、いくつかの実施形態では、バイパスは、各信頼性のないCpG部位ごとに、各データセット内の各複数の断片における各断片の対応する断片メチル化パターンにおいて、各CpG部位におけるメチル化状態表現の代わりにプレースホルダーまたは置換表現（substitute representation／代替表現）を挿入することによって行われる。いくつかの実施形態では、プレースホルダまたは置換表現は、例えば、ワイルドカードまたはヌル文字である。

いくつかの実施形態では、複数の断片は、フィルタリングされる。いくつかの実施形態では、複数の断片は、例えば、深さ、最小マッピング品質（MAPQ）、重複断片、未解決断片、未変換断片、多義的（ambiguous）コール（call／呼び出し）、変形例コール、競合コール、および／またはp値についてフィルタリングされる。

いくつかの実施形態では、複数の断片は、重複するCpG部位を含む断片についてフィルタリングされる。いくつかの実施形態では、複数の断片は、代替配列決定方法と読み取りサポート（支持）を共有する断片についてフィルタリングされる。例えば、１または複数のメチル化配列決定データセットおよび１または複数の配列決定データセットが、例えば、WGBS、TM配列決定、WGS、および／または標的化配列決定を使用して各生物学的試料から取得されるいくつかの実施形態では、各データセットが比較され、１または複数のメチル化配列決定データセットが、１または複数の配列決定データセットを使用して決定されるように、小さな変異体、既知のバイオマーカー、および／または癌状態に関連する領域も含まない断片を除去するためにフィルタリングされる。

第１および第２のデータセット
図２Bのブロック２２８を参照すると、いくつかの実施形態では、第２のデータセットが電子形式で取得される。第２のデータセットは、第２の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片（i）の対応する断片メチル化パターンは、第２の対象セット中の対応する対象から得られた各生物学的試料からの核酸のメチル化配列決定によって決定され、そして（ii）各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。典型的な実施形態では、対象の第２のセットは、複数の対象（例えば、２以上の対象、３以上の対象、５以上の対象、５０以上の対象、１００以上の対象、５００以上の対象または１０００以上の対象）を含む。いくつかの実施形態では、第２の複数の断片は、１００以上の無細胞核酸断片、１０００以上の無細胞核酸断片、１０，０００以上の無細胞核酸断片、１００，０００以上の無細胞核酸断片、１，０００，０００以上の無細胞核酸断片、または１０，０００，０００以上の核酸断片を含む。

いくつかの実施形態では、第２のデータセットは、本明細書に開示された方法のいずれかを使用して（例えば、第１のデータセットについて記載された方法および／または実施形態のいずれかを使用して）取得される。図２Bのブロック２３０を参照すると、いくつかの実施形態では、第１の複数の断片（第１のデータセットの）および第２の複数の断片（第２のデータセットの）は、無細胞核酸である。

再び図２Bのブロック２２８を参照すると、いくつかの実施形態では、（第１のデータセットの）対象の第１のセットの各対象は、癌状態の第１の状態を有し、（第２のデータセットの）対象の第２のセットの各対象は、癌状態の第２の状態を有する。上記で定義したように、様々な実施形態では、癌状態の状態は、適用に依存する。いくつかの実施形態では、癌状態は、対象に癌が存在するか否か（例えば、存在するか否か）である。いくつかの実施形態では、癌状態は、癌の病期、腫瘍の大きさ、転移の有無、身体の総腫瘍量（例えば、腫瘍フラクション）、および／または癌の重症度（例えば、癌の再発）の別の測定値である。いくつかの実施形態では、癌状態の第１の状態は、試料状態（例えば、癌性試料）であり、癌状態の第２の状態は、参照試料（例えば、健康な試料）である。いくつかの実施形態では、癌状態の第１の状態および癌状態の第２の状態は、それぞれ、生物学的試料が収集された初期の時点および後の時点である。いくつかの実施形態では、癌状態は、試験対象の腫瘍フラクション（例えば、１または複数の対象の第１のセットの対象。いくつかの実施形態では、癌状態は、癌起点（例えば、肺、大腸、乳房など）である）である。

状態間隔マップの生成
図２Cのブロック２３２を参照すると、いくつかの実施形態では、第１のデータセットを使用して、１または複数の対応するゲノム領域について、１または複数の第１の状態間隔マップが生成される。１または複数の第１の状態間隔マップ内の各第１の状態間隔マップは、対応する独立した複数のノードを備える。いくつかの実施形態では、対象の第１のセットについて１つの状態間隔マップのみが存在し、この状態間隔マップは、試験中のゲノムの領域の全体（例えば、ゲノムの全部または一部）を表す。他の実施形態では、１または複数の対象の第１のセットについて、いくつかの状態間隔マップが存在する。このような場合、典型的には、各状態間隔マップは、ゲノムの異なる領域を表す。例えば、いくつかの実施形態では、各状態間隔マップは、異なる染色体を表す。いくつかの実施形態では、２、３、４、５、６、７、８、９、１０、２～３０、または３０を超える状態間隔マップが、第１のデータセット中のメチル化データを使用して生成される。典型的な実施形態では、上記各状態間隔マップは、参照ゲノムの異なる部分を表す。例えば、いくつかの実施形態では、上記各状態間隔マップは、異なる染色体を表す。

生成された単一の状態間隔マップまたは複数の状態間隔マップがあるかどうかにかかわらず、１または複数の第１の状態間隔マップ内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および各ノードの対応する開始メチル化部位と対応する終了メチル化部位との間の第１のデータセット内の第１の複数の断片にわたって観察される各異なる断片メチル化パターンによって特徴づけられ、（i）異なる断片メチル化パターンの表現（representation）、および（ii）断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第１のデータセット内の断片のカウント。

間隔マップで表されるゲノム領域。
いくつかの実施形態では、１または複数の第１の状態間隔マップ内の各間隔マップは、（例えば、参照ゲノム内の）ゲノム領域に対応する。したがって、各ゲノム領域に対応する各間隔マップについて、各間隔マップで表される断片メチル化パターンを有する第１のデータセット中の第１の複数の断片中の各断片は、同じ各ゲノム領域にも対応する（例えば、断片は、間隔マップに対応する参照ゲノムの同じ領域に整列される）。

いくつかの実施形態では、１または複数の第１の状態間隔マップは、１または複数の固有のゲノム領域および／または１または複数の重複ゲノム領域に対応する。いくつかの実施形態では、１または複数の第１の状態間隔マップは、同じゲノム領域に対応する。いくつかの実施形態では、１または複数の第１の状態間隔マップは、複数の第１の状態間隔マップであり、１または複数の対応するゲノム領域は、複数のゲノム領域であり、複数のゲノム領域内の各ゲノム領域は、複数の第１の状態間隔マップ内の第１の状態間隔マップによって表される。いくつかの実施形態では、複数のゲノム領域は、１０～３０である。いくつかの上記実施形態では、複数のゲノム領域は、２～１０００のゲノム領域、５００～５０００のゲノム領域、１０００～２０，０００のゲノム領域、または５０００～５０，０００のゲノム領域からなる。

いくつかの実施形態では、１または複数の第１の状態間隔マップは、同じサイズまたは異なるサイズ、数または量（例えば、CpG部位の数および／または塩基対の数である長さとして表される）のゲノム領域に対応する。例えば、ブロック２３４～２３８を参照すると、いくつかの実施形態では、１または複数の対応するゲノム領域にわたって１０，０００を超えるCpG部位、２５，０００を超えるCpG部位、５０，０００を超えるCpG部位、または８０，０００を超えるCpG部位が存在する。いくつかの代替的実施形態では、１または複数の対応するゲノム領域にわたって、１０，０００未満のCpG部位、２５，０００未満のCpG部位、５０，０００未満のCpG部位、または８０，０００未満のCpG部位が存在する。いくつかの実施形態では、１または複数の対応するゲノム領域の各ゲノム領域は、ヒトゲノム参照配列の５００塩基対から１０，０００塩基対の間を表す。いくつかの実施形態では、間隔マップは、参照ゲノムの所定の領域内のすべての既知のCpG部位を表す。いくつかの実施形態では、間隔マップは、参照ゲノムの所定の領域における既知のCpG部位のサブセットのみを表す。いくつかの実施形態では、特定の間隔マップに対する１または複数の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の５００塩基対から２０００塩基対の間を表す。いくつかの代替的実施形態では、特定の間隔マップに対する１または複数の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の５００塩基対未満または１０，０００塩基対超を表す。

図２Cのブロック２４０を参照すると、いくつかの実施形態では、特定の間隔マップに対する１または複数の対応するゲノム領域内の各ゲノム領域は、ヒトゲノム参照配列の異なる部分を表す。例えば、いくつかの上記実施形態では、特定の間隔マップに対する１または複数の対応するゲノム領域内の各ゲノム領域は、異なるヒト染色体である。いくつかの実施形態では、ヒトゲノム参照配列の各部分は、各１または複数の間隔マップによって表される。

ノード構築物（Node Construction）
上述のように、１または複数の第１の状態間隔マップ内の各第１の状態間隔マップは、独立した複数のノードを含む。各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および各ノードの各開始および終了メチル化部位で開始および終了する第１のデータセット内の複数の断片における各異なる断片メチル化パターンの表示およびカウントによってそれぞれ特徴付けられる。いくつかの実施形態では、独立した複数のノードは、２つ以上のノード、３つ以上のノード、４つ以上のノード、５つ以上のノード、１０つ以上のノード、２０つ以上のノード、５０つ以上のノード、または１００つ以上のノードを含む。

いくつかの実施形態では、独立した複数のノード内の各ノードの具体的な開始および終了メチル化部位は、参照ゲノム内の位置（例えば、ゲノム領域および／またはCpG部位内の位置）に索引付けされる。したがって、いくつかの好ましい実施形態では、各第１の状態間隔マップ内の各ノードは、各１または複数の断片の開始および終了メチル化部位に基づいて、第１のデータセット内の複数の断片内の１または複数の断片をグループ化することによって構築され（例えば、断片が参照ゲノムに整列され、各断片参照ゲノム内の位置にインデックスされる開始および終了メチル化部位を含む）、各ノードに含まれる各断片はノード内に完全に含まれる。

いくつかの好ましい実施形態において、各ノードの開始および終了メチル化部位に対応する開始および終了メチル化部位を含まない断片（例えば、各ノード内に部分的に含有されるか、または各ノードと重複する断片、および／または各ノードより小さいか、または大きい断片）は、各ノードにおいて表されない。

したがって、本明細書に記載されるようなそのような実施において、断片は、例えば、CpG部位のインデックスにおけるそれらのゲノム座標または位置によって同定される、CpG部位の配列を含む断片レベルのノードに変換される。

いくつかの実施形態では、「ユニーク（unique）」と考えられる（例えば、異なる開始および終了メチル化部位および／または異なるメチル化パターンを有する）断片は、異なる各ノードに配置される。

いくつかの実施形態では、各ノード中の各断片中の各CpG部位（例えば、メチル化：「M」、非メチル化：「U」）の状態は、さらに、各ノード中に含まれる１または複数の異なる断片メチル化パターンによって表される。いくつかの好ましい実装形態では、各ノードに表される各異なる断片メチル化パターンは、ノード内の各１または複数の断片の断片メチル化パターン全体に対応する（例えば、各断片がノードの開始位置および終了位置で開始および終了し、対応する断片メチル化パターンがノード内に完全に含まれる）。

いくつかの実施形態では、ノードは、各ノードにおける各断片の断片メチル化パターンに基づいて１または複数の断片をグループ化することによって構築される。

いくつかの実施形態では、ノードは、対応する開始メチル化部位と、各ノードの対応する終了メチル化部位との間および／またはそれらを含む同一の断片メチル化パターンを有する１または複数の断片をグループ化することによって構築される。例えば、いくつかの実施形態では、参照ゲノム中の特定の開始位置および終了位置に対応する第１の開始メチル化部位および第１の終了メチル化部位をそれぞれ含む第１の断片セットは、第１のノードにグループ化される。いくつかのそのような実施形態では、第２の複数の断片の断片メチル化パターンがCpG部位の配列中の１または複数のCpG部位における第１の複数の断片の断片メチル化パターンと異なる場合、第１の開始メチル化部位および第１の終了メチル化部位とそれぞれ参照ゲノム中の同じ位置に対応する第２の開始メチル化部位および第２の終了メチル化部位を含む第２の複数の断片は、それにもかかわらず、第２のノードにグループ化される。したがって、いくつかの上記実施形態では、各ノードの開始メチル化部位および終了メチル化部位で開始および終了し、かつ特異的断片メチル化パターンを含む断片のみが、ノードに充填される。

いくつかの実施形態では、ノードは、各ノードの対応する開始メチル化部位と対応する終了メチル化部位との間および／またはそれらを含む異なる断片メチル化パターンを有する１または複数の断片をグループ化することによって構築される。いくつかの上記実施形態において、ノードは、１、２、３、４、５、６、７、８、９、１０、または１０を超えるCpG部位状態（例えば、１または複数のCpG部位で異なるメチル化状態を有する）だけ異なる１または複数の断片をグループ化することによって構築される。いくつかのそのような実施形態において、ノードは、各１または複数の断片メチル化パターンが１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、または１００％異なる１または複数の断片をグループ化することによって構築される。

いくつかの実施形態では、ノードは、１または複数のCpG部位において異なるCpG状態を有する１または複数の断片をグループ化することによって構築され、ここで、各１または複数のCpG部位は、各１または複数の断片にわたって対応しない位置に位置する。いくつかの代替的な実施形態では、ノードは、CpG状態が１または複数のCpG部位で異なる１または複数の断片をグループ化することによって構築され、ここで、各１または複数のCpG部位は、各１または複数の断片にわたる対応する位置に位置する。例えば、いくつかの上記実施形態では、例えば、第１のCpG部位におけるメチル化状態にかかわらず、１または複数の断片をノードに含めることができ、一方、残りのすべてのCpG部位におけるメチル化状態は同一でなければならない。いくつかの上記実施形態では、すべての断片にわたって異なることが許可されるCpG部位は、間隔マップ内のプレースホルダまたは代替表現（例えば、ワイルドカードまたはヌル文字）によって表される。

いくつかの実施形態では、各第１の状態間隔マップに対する独立した複数のノードは、各第１の状態間隔マップの各対応するゲノム領域にも対応する。いくつかの上記実施形態では、各第１の状態間隔マップに対する各独立した複数のノードは、各独立した複数のノードの特性（例えば、開始および終了メチル化部位および／または表された断片メチル化パターン）によって決定されるように、任意の他の第１の状態間隔マップに対する任意の他の独立した複数のノードから固有である（例えば、独立している）。

いくつかの実施形態では、ノードは、１または複数のCpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態では、ノードは、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０または２０を超えるCpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態では、ノードは、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０または２０を超える隣接CpG部位を含む対応するゲノム領域またはサブ領域を表す。いくつかの実施形態では、ノードは、ヒト参照ゲノム中の２～１００個の隣接するCpG部位を含む対応するゲノム領域またはサブ領域を表す。

図１２は、本開示のいくつかの実施形態による、２つの例示的ノードを含む各間隔マップを示す。図１２では、４つの独立した断片が２つのノードに編成されている。各ノードは、開始メチル化部位および終了メチル化部位（例えば、ノード１：位置０～４、ノード２：位置０～５）と、各断片の開始位置と端位置との間のデータセットにおいて観察される各メチル化パターンの表現（例えば、ノード１：UMMU、UMMU、ノード２：UMMUM、UMUUU）とを含む。この実施例では、開始および終了メチル化部位を示す位置は間隔［開始、端部）として表され、ここで、オープン（開）ブラケットは包括性を示し、クローズド（閉）ブラケットは排他性を示す。したがって、図１２に示すように、位置［０，４）にまたがるノードは、位置０、１、２、および３に位置するCpG部位を含み、位置０、１、２、および３のそれぞれは、対応するゲノム位置を有する。同様に、位置［０，５）にまたがるノードは、位置０、１、２、３、および４に位置するCpG部位を含み、位置０、１、２、３、および４のそれぞれは、対応するゲノム位置を有する。いくつかの実施形態では、ノード内のゲノム位置は、隣接するCpG部位の位置に対応する。

ノード１の各断片は、同一の開始および終了メチル化部位（例えば、位置０および位置３に位置する）を含む。ノード２の各断片はまた、同じ開始および終了メチル化部位（例えば、位置０および位置４に位置する）を含む。ノード１の各断片は、いくつかの実施形態に従って同じ断片メチル化パターン（例えば、UMMU）を含むが、ノード２の各断片は、本開示のいくつかの代替実施形態に従って、異なる断片メチル化パターン（例えば、UMMUMおよびUMUUU）を含む。

各ノードは、ノード内に存在する各異なる断片メチル化パターンを含む断片のカウントをさらに含む。例えば、ノード１は、それぞれが同じ断片メチル化パターン（例えば、状態: UMMU、カウント：２）を含む２つの断片を含み、ノード２は、それぞれが固有の断片メチル化パターン（例えば、状態：UMMUM、カウント：１、状態：UMUUU、カウント：１）を含む２つの断片を含む。したがって、間隔マップ内の各ノードは、データセット内のメチル化配列情報を簡略化された容易に検索可能なフォーマットで効率的に提示する。

いくつかの実施形態では、第１のデータセット中の第１の複数の断片中の各断片は、１または複数の第１の状態間隔マップ中のノード中で（例えば、各断片の断片メチル化パターンの表現として）表される。

いくつかの上記実施形態では、１または複数の間隔マップは、したがって、データセット内の複数の断片内のすべての断片のメチル化状態に関して無損失であるデータセット（例えば、メチル化配列決定データセット）の低減された表現を提供する。いくつかの好ましい実施形態では、１または複数の間隔マップは、計算的に処理可能な方法（例えば、テキストマッチング）で、リソース発見のための大規模データセットを照会するために使用される、低減された表現を提供する。

間隔マップの生成方法
上記では、メチル化配列決定データセットからの断片データを用いて間隔マップのためのノードを構築する説明を提供するが、間隔マップを生成するための複数の実装が可能である。

例えば、いくつかの実施形態では、１または複数の第１の状態間隔マップ内の各間隔マップの対応する独立した複数のノードは、１または複数の対応するゲノム領域内の対応する領域を表す対応するツリーとして配置される。各間隔マップに対する対応する独立した複数のノード内の各ノードは、対応するゲノム領域のサブ領域を表す。

いくつかの実施形態では、各対応するツリーは、対応する独立した複数のノードを対応する複数のリーフに配置し、対応する複数のリーフ内の各リーフの親ノードは、１または複数の子ノードを参照する。

いくつかの実施形態では、各間隔マップの独立した複数のノードは、マスターノードおよび複数のワーカーノード、および／または属性値（attribute value）をDHTキー（鍵）にマッピングすることによってオブジェクト記憶およびルックアップを管理するために分散ハッシュテーブル（DHT）を利用する、構造化または非構造化ピアツーピア（Peer-to-Peer）リソース発見骨格（ディスカバリーフレームワーク）（例えば、MAAN、SWORD、Mercury、Brunet、Chord、CAN、および／またはPastry）と、を含むクライアント／サーバリソース発見骨格を使用して構築される。

いくつかの好ましい実施形態では、ツリーは、ランダム化表面積ヒューリスティックを有するKdツリーの一次元版である。例えば、その全体が参照により本明細書に組み込まれている、Wald, 2007, “On Fast Construction of SAH-based Bounding Volume Hierarchies,” IEEE, doi:10.1109/RT.2007.4342588を参照されたい。いくつかの実施形態では、ツリーは自己組織化再帰的分割マルチキャストツリー（self-organizing recursive-partitioning multicast tree）である。

いくつかの実施形態では、ツリーは、MatchTree（マッチツリー）を使用して作成される。MatchTreeは、分散問合せ処理（例えば、メチル化状態パターンを含む間隔（インターバル）とゲノム配列および／または配列決定データセットとのテキストマッチング）および結果の集約（例えば、問合せられた（クエリ―）メチル化状態パターンを含む間隔の同定）のための自己組織化ツリーを作成する、構造化されていないP２Pベースのリソース発見フレームワークである。ツリー構造は、高い管理コスト、スケーラビリティの制限、およびマスターノードの障害に起因するリソースへのアクセスの損失を被る代替方法の障害を最小限に抑える。MatchTreeはさらに、複雑なクエリ、部分文字列（ストリング）（例えば、部分文字列）マッチング、および／または正規表現マッチング（例えば、ワイルドカード）、クエリの完全性（例えば、利用可能なすべての資源の完全な検索）を保証（サポート）することによって、構造化P２Pフレームワークよりも利点を提供する。例えば、その全体が参照により本明細書に組み込まれているLee et al., 2013, “MatchTree: Flexible, scalable, and fault-tolerant wide-area resource discovery with distributed matchmaking and aggregation,” Fut Gen Comp Sys 29, 1596-1610を参照されたい。

いくつかの実施形態では、間隔マップは、当業者に明らかなように、本明細書に記載される方法および実施形態のいずれか、またはそれらの任意の修正、置換、または組合せを使用して生成される。注目すべきことに、メチル化パターンの同定のための間隔マップの使用は、メチル化パターン同定の感度（例えば、クエリ完全性）および精度（例えば、照合）の両方を改善することによって、従来の方法よりも利点を提供する。さらに、計算負荷を減らすことによって（例えば、MatchTreeが代替フレームワーク上でより少ないメモリを必要とする場合）、間隔マップは、メチル化パターンの探索および識別の間の待ち時間（latency）を減らし、効率を改善することができ、したがって、（例えば、WGSおよび／またはWGBSによって生成された大規模な配列決定またはメチル化配列決定データセットを使用する場合に）大規模なデータセットを取り扱う際に、重大な利益を提供する。

間隔マップ（例えば、MatchTree）を使用したクエリの伝播および結果の集約は、本開示の後のセクションで詳細に論じられ、例えば、その全体が参照により本明細書に組み込まれる、Lee et al., 2013, “MatchTree: Flexible, scalable, and fault-tolerant wide-area resource discovery with distributed matchmaking and aggregation,” Fut Gen Comp Sys 29, 1596-1610に記載されている。

第１および第２の状態間隔マップ
図２Dのブロック２４２を参照すると、いくつかの実施形態では、第２のデータセットを使用して、１または複数の対応するゲノム領域について、１または複数の第２の状態間隔マップが生成される。１または複数の第２の状態間隔マップ内の各第２の状態間隔マップは、対応する独立した複数のノードを備える。１または複数の第２の状態間隔マップ内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位と各ノードの対応する終了メチル化部位との間の第２のデータセット内の第２の複数の断片にわたって観察される各異なる断片メチル化パターン、（i）異なる断片メチル化パターンの表現、および（ii）対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第２のデータセット内の断片のカウントによって特徴づけられる。

いくつかの実施形態では、１または複数の第２の状態間隔マップは、本明細書に開示される方法のいずれかを使用して（例えば、１または複数の第１の状態間隔マップについて説明される方法および／または実施形態のいずれかを使用して）生成される。

いくつかの実施形態では、１または複数の第１の状態間隔マップおよび／または１または複数の第２の状態間隔マップは、各データセットからの各複数の断片における１または複数の断片メチル化パターンを表し、ここで、各データセットは、癌サンプルから取得される（例えば、１または複数の第１および／または第２の間隔マップは、癌データセットを使用して生成される）。いくつかの実施形態では、１または複数の第１の状態間隔マップおよび／または１または複数の第２の状態間隔マップは、各データセットからの各複数の断片における１または複数の断片メチル化パターンを表し、ここで、各データセットは、非癌サンプルから取得される（例えば、１または複数の第１および／または第２の間隔マップは、非癌データセットを使用して生成される）。

いくつかの実施形態では、１または複数の第１の状態間隔マップは、癌データセットを使用して生成され、１または複数の第２の状態間隔マップは、非癌データセットを使用して生成される。あるいは、いくつかの実施形態では、１または複数の第１の状態間隔マップは、非癌データセットを使用して生成され、１または複数の第２の状態間隔マップは、癌データセットを使用して生成される。いくつかの実施形態では、第１の癌状態（例えば、癌／非癌、癌サブタイプ、癌の病期、および／または起源組織）のためのデータセットを用いて１または複数の第１状態間隔マップが生成され、第１の癌状態とは異なる第２の癌状態のためのデータセットを用いて１または複数の第２状態間隔マップが生成される。

いくつかの実施形態では、各生物学的試料は、各１または複数の間隔マップによって表される。いくつかの実施形態では、各試験対象は、各１または複数の間隔マップによって表される。いくつかの代替的な実施形態では、複数の生物学的試料および／または試験対象のセットは、各１または複数の間隔マップによって表される（例えば、研究グループ内の複数の生物学的試料および／または試験対象のセットがプールされる場合）。

例えば、ブロック２４４を参照すると、いくつかの実施形態では、１または複数の第１の状態間隔マップは、１つの第１の状態間隔マップから構成され、１または複数の第２の状態間隔マップは、１つの第２の状態間隔マップから構成される。

ブロック２４６を参照すると、いくつかの好ましい実施形態では、１または複数の第１の状態間隔マップは、複数の第１の状態間隔マップである。さらに、１または複数の第２の状態間隔マップは、複数の第２の状態間隔マップである。さらに、１または複数の対応するゲノム領域は、複数のゲノム領域である。複数のゲノム領域内の各ゲノム領域は、第１の複数の間隔マップ内の第１の状態間隔マップおよび第２の複数の間隔マップ内の第２の状態間隔マップによって表される。

図２Dのブロック２４８～２５２を参照すると、いくつかの上記実施形態では、複数のゲノム領域は、１０～３０のゲノム領域である。いくつかの上記態様において、複数のゲノム領域中の各ゲノム領域は、異なるヒト染色体である。いくつかの上記実施形態では、複数のゲノム領域は、２～１０００のゲノム領域、５００～５０００のゲノム領域、１０００～２０，０００のゲノム領域、または５０００～５０，０００のゲノム領域からなる。

いくつかの実施形態では、複数の第１および／または第２の状態間隔マップに対応する複数のゲノム領域は、本明細書に開示されるメチル化配列決定のための方法のいずれかを使用して取得される。例えば、図２Dのブロック２５４を参照すると、いくつかの好ましい実施形態では、第１のデータセットを取得し、第２のデータセットを取得するメチル化配列決定は、複数のプローブを使用して標的配列決定され、複数のゲノム領域内の各ゲノム領域は、複数のプローブ内のプローブに関連付けられる。

適格なメチル化パターンの同定
ブロック２５６を参照すると、いくつかの実施形態では、１または複数の第１の間隔マップおよび１または複数の第２の間隔マップは、複数の適格なメチル化パターンについてスキャンされる。複数の適格なメチル化パターンにおける上記適格なメチル化パターンの各々は、（i）所定のCpG部位数範囲にある長さを有し、１または複数の第１の間隔マップおよび１または複数の第２の間隔マップの断片メチル化パターン内にあり、（ii）１または複数の選択基準を満たし、（iii）対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lに及ぶ。このスキャンの結果、癌状態を識別または示す複数の適格なメチル化パターンが同定される。選択基準、クエリメチル化パターン、および癌状態を識別または示す同定されたメチル化パターンに対する間隔マップを用いて、適格なメチル化パターンを同定するための詳細な実施形態を以下に記載する。

メチル化パターンの適格性確認（適格なメチル化パターン）のための選択基準
いくつかの実施形態では、癌状態（例えば、癌状態の第１の状態と癌状態の第２の状態とを識別する）を識別または示す複数の適格なメチル化パターンの同定は、第１の癌状態と第２の癌状態との間で差異的に存在する１または複数のメチル化パターンを同定することを含む。言い換えれば、いくつかの実施形態では、適格なメチル化パターンは、CpG部位の配列中の１または複数のCpG部位が第一および第２の癌状態の間で異なるメチル化状態を有する、特定のゲノム領域またはサブ領域に対応するCpG部位の配列を含む。いくつかの上記実施形態において、メチル化パターンが第１および第２の癌状態（例えば、選択基準）の間で差次的に存在する程度が、メチル化パターンが適格なメチル化パターンであるかどうかを決定する。

例えば、図２Eのブロック２５８を参照すると、いくつかの実施形態では、１または複数の選択基準は、メチル化パターン（i）が、第１の頻度閾値を満たす第１の頻度を有する１または複数の第１の間隔マップにおいて表され、（ii）第１の状態深さを満たすカバレッジを有する１または複数の第１の間隔マップにおいて表され、（iii）第２の頻度閾値を満たす第２の頻度を有する１または複数の第２の間隔マップにおいて表されることを特定する。

具体的には、ブロック２６０を参照すると、いくつかの上記実施形態では、（i）メチル化パターンは、１または複数の第１の間隔マップ内のメチル化パターンの頻度が第１の頻度閾値を超える場合に、第１の頻度閾値を満たす第１の頻度を有する１または複数の第１の間隔マップ内で表される。さらに、（ii）メチル化パターンは、１または複数の第１の間隔マップ中のメチル化パターンを包含する配列読み取りのカバレッジが第１の状態深さを超えるときに、第１の状態深さを満たすカバレッジを有する１または複数の第１の間隔マップ中で表される。最後に、（iii）メチル化パターンは、１または複数の第２の間隔マップ内のメチル化パターンの頻度が第２の頻度閾値未満である場合に、第２の頻度閾値を満たす第２の頻度を有する１または複数の第２の間隔マップ内に表される。

例えば、いくつかの上記実施形態では、メチル化パターンは、所与の第１の閾値を上回る頻度で、第１のデータセットの第１の複数の断片（例えば、１または複数の第１の間隔マップによって表されるようである）中に存在しなければならず、ここで、各メチル化パターンに対応するゲノム領域における第１のデータセットのカバレッジ深さ（例えば、配列決定深さ）は、（例えば、各メチル化パターンの各１または複数のCpG部位にわたって）所与の深さを上回っている。逆に、同じメチル化パターンが、所与の第２の閾値を下回る頻度で、第２のデータセットの第２の複数の断片（例えば、１または複数の第２の間隔マップによって表されるようである）中に存在しなければならない。これらの制約を満たすメチル化パターンは、いくつかの実施形態では、適格なメチル化パターンとみなされる。

いくつかの実施形態では、頻度は、各メチル化パターンを含む複数の断片中の断片の数（例えば、各メチル化パターンに対応するゲノム領域におけるカバレッジ深さ）によって正規化された、各データセット中の複数の断片中でメチル化パターンが観察される数（頻度）である。いくつかの実施形態では、メチル化パターンの頻度および／またはメチル化パターンが各データセット中で観察される回数は、各対応するゲノム領域中の各CpG部位に識別子を割り当てることによって集計される。

特定の例示的な実施形態では、上記の計算は、選択基準に対する制約を定義するために使用される。例えば、ブロック２６２を参照すると、いくつかの実施形態では、第１の頻度閾値は０．２であり、第１の状態深さは１０であり、第２の頻度閾値は０．００１である。

いくつかの実施形態では、第１の頻度閾値は、０．０５と０．４０との間の値（例えば、０．０５、０．０６、０．０７、０．０８、０．０９、０．１０、０．１１、０．１２、０．１３、０．１４、０．１５、０．１６、０．１７、０．１８、０．１９、０．２０、０．２１、０．２２、０．２３、０．２４、０．２５、０．２６、０．２７、０．２８、０．２９、０．３０、０．３１、０．３２、０．３３、０．３４、０．３５、０．３６、０．３７、０．３９、または０．４０）であり、第１の状態深さは２と１００との間であり、第２の頻度閾値は、０．０５未満（例えば、０．０５、０．０４、０．０３、０．０２、０．０１、０．００５、０．００４、０．００１、０．０００１等）である。

いくつかの実施形態では、各第１および／または第２のデータセットにおける第１および／または第２の複数の断片のカバレッジ深さは、既知である。いくつかの実施形態では、各第１および／または第２のデータセット内の第１および／または第２の複数の断片は、正の整数であるカバレッジ深さを有する。

いくつかの実施形態では、ブロック２６４を参照すると、いくつかの実施形態では、各メチル化パターンは、３、４、５または６を超えるメチル化パターンについて、式：

のときに選択基準を満たし、ここで、第２のカウントは、１または複数の第２の状態間隔マップにおける各メチル化パターンのカウントであり、第２の状態深さは、１または複数の第２の状態間隔マップにおける各メチル化パターンによって表されるゲノムの１の領域または複数の領域における第２のデータセットによるカバレッジである。

対応する初期CpG部位および対応する最終CpG部位によって境界付けされたゲノムの単一領域を表す単一の第２の状態間隔マップが存在する場合、第２のカウントは、単一の第２の状態間隔マップにおける各メチル化パターンのカウントであり、第２の状態深さは、単一の第２の状態間隔マップの対応する初期CpG部位および対応する最終CpG部位にまたがる第２のデータセットにおける断片の総数である。

複数の第２の状態間隔マップがあり、それぞれが対応する初期（initial）CpG部位と対応する最終（final）CpG部位とによって境界付けられたゲノムの対応する領域を表す場合、第２のカウントは、複数の単一の第２の状態間隔マップにわたる各メチル化パターンのカウントの合計である。さらに、第２の状態深度は、複数の第２の状態間隔マップ内の任意の第２の状態間隔マップに関連する対応する初期CpG部位および対応する最終CpG部位に及ぶ第２のデータセット内の断片の総数である。

いくつかの実施形態では、単一の状態間隔マップが存在する。いくつかの実施形態では、２つから１００の間の状態間隔マップが存在する。いくつかの実施形態では、異なる染色体ごとに異なる状態間隔マップが存在する。

いくつかの実施形態では、例えば、第１および／または第２のデータセットが、１または複数のプールされたメチル化配列決定データセットおよび／または固定された、またはそうでなければ非限定的なカバレッジ深さを有する確立されたコントロールデータセットを含む場合、カバレッジ深さは、選択基準を満たすためにメチル化パターンの深さ閾値（深さしきい値）を超える必要はない。

適格なメチル化パターンの他の特徴
いくつかの実施形態では、適格なメチル化パターンは、特定のゲノム領域またはサブ領域（例えば、参照ゲノム中）に対応する非隣接CpG部位の差次的にメチル化された配列である。いくつかの実施形態では、適格なメチル化パターンは、特定のゲノム領域またはサブ領域に対応する連続するCpG部位の差次的にメチル化された配列である。

いくつかの実施形態では、適格なメチル化パターンは、変形例対立遺伝子の等価物とみなされる。例えば、いくつかの実施形態では、特定のゲノム領域またはサブ領域に対応するCpG部位の規定された長さlの間隔は、１または複数のデータセットにおいて複数の別個メチル化パターンを有することができる。いくつかの上記実施形態において、変形例対立遺伝子は、各間隔（例えば、特定の遺伝子座における）についての第２のメチル化パターンとは異なる、CpG間隔lについての第１のメチル化パターンである。いくつかの上記実施形態において、CpG間隔lに対する第１のメチル化パターンは、参照対立遺伝子として定義され、第１のメチル化パターンとは異なる、同じCpG間隔lに対する第２のメチル化パターンは、変異対立遺伝子として定義される。

いくつかの実施形態では、３つ以上の別個メチル化パターン（例えば、複数の変異対立遺伝子）が、第１および／または第２のデータセットにわたって各CpG間隔lについて観察される。いくつかの上記実施形態では、各CpG間隔lについて３つ以上のメチル化パターンが観察される場合、選択基準のストリンジェンシーは、各CpG間隔（例えば、「まれな変形例」）において１つの適格なメチル化パターンのみについて選択するように調整される。いくつかの実施形態では、選択基準の厳密性は調整されず、複数の適格なメチル化パターン中の各メチル化パターンが選択基準を満たす場合、複数の適格なメチル化パターンが、各CpG間隔について対応するゲノム領域において同定される。

いくつかの代替的な実施形態では、複数のメチル化パターンは、メチル化パターンが、（i）第１の速度閾値（しきい値）を満たす第１の速度を有する１または複数の第１の間隔マップで表され、（ii）第１の状態深さ閾値を満たすカバレッジを有する１または複数の第１の間隔マップで表され、（iii）第２の速度閾値を満たす第２の速度を有する１または複数の第２の間隔マップで表され、ここで、速度は、カバレッジ深さ、プルダウンバイアス、推定腫瘍フラクション、および特定の座位におけるCpG間隔の位置（例えば、ポアソン速度）によって正規化される、選択基準を満たす。

メチル化パターンの照会
いくつかの実施形態では、１または複数の第１の間隔マップおよび１または複数の第２の間隔マップを複数の適格なメチル化パターンについてスキャンすることは、それぞれが所定のCpG部位数範囲にある長さを有する複数のクエリメチル化パターンについてスキャンすることと、１または複数のクエリメチル化パターンが１または複数の選択基準を満たすかどうかを決定することとを含む。いくつかの実施形態では、所定のCpG部位数範囲は、５つのCpG部位と２０のCpG部位との間である。いくつかの実施形態では、所定のCpG部位数範囲は、単一のCpG数（例えば、５個のCpG部位）である。複数のクエリメチル化パターンにおける各クエリメチル化パターンは、所定のCpG部位数範囲内のメチル化状態の配列を含み、複数のクエリメチル化パターンに対する１または複数の第１の間隔マップおよび１または複数の第２の間隔マップをスキャンすることは、クエリメチル化パターンにマッチ（一致）する、各１または複数のゲノム領域またはサブ領域（例えば、特定の１の遺伝子座または複数の遺伝子座）におけるメチル化パターンを同定することを含む。

いくつかの実施形態では、クエリメチル化パターンは、１または複数のメチル化状態の表現を含む。例えば、いくつかの実施形態では、長さl = ５のクエリメチル化パターンは、５つのメチル化部位（例えば、５つのCpG部位）の全長を構成する５つのメチル化部位についてのMおよびUメチル化状態の任意の組合せにおけるMMMMM、MMUMMまたはM／Uであり得る。概して、長さlのメチル化パターン（ここで、lは、メチル化パターンにおける独特のメチル化部位（例えば、CpG）の数を表す正の整数であり、メチル化（M）対メチル化（U）のみが、そのようなメチル化部位の各々について考慮される場合、２^lの考えられるメチル化パターンがある。したがって、たとえば８つのメチル化部位（たとえばCpG）のメチル化パターンには、２×２×２×２×２×２×２×２または２５６種類のメチル化パターンがある。

いくつかの好ましい実施形態では、１または複数の第１の間隔マップおよび１または複数の第２の間隔マップをスキャンすることは、対応する複数のノードに表される複数の断片メチル化パターンに完全に含まれる１または複数のクエリメチル化パターンについてスキャンすることを含む。いくつかの実施形態では、各クエリメチル化パターンは、対応するノードにおける各断片メチル化パターンの一部を含む。いくつかの実施形態では、各クエリメチル化パターンは、対応するノードにおける各断片メチル化パターンからなる。

いくつかの代替実施形態では、複数のクエリメチル化パターンの中の各クエリメチル化パターンは、長さlの一組のメチレーション状態を含む。ここで、lは、CpGサイトの数を示す正の整数であり、複数のクエリメチル化パターンについての１または複数の第１の状態間隔マップおよび１または複数の第２の状態間隔マップをスキャンすることは、メチル化状態のクエリセットにマッチするメチル化状態のセットを識別することを含む。いくつかの上記実施形態では、各１または複数のゲノム領域またはサブ領域（例えば、特定の１の遺伝子座または複数の遺伝子座）におけるメチル化状態のセットは、クエリメチル化パターンにおけるメチル化状態のセットと比較して、連続的、非連続的、配列内、または配列外である。

いくつかの実施形態では、１または複数の第１の状態間隔マップおよび１または複数の第２の状態間隔マップをスキャンすることは、対応するクエリメチル化パターンにマッチ（一致）する各ゲノム領域またはサブ領域で適格メチル化パターンを同定し、ここで、適格メチル化パターン中の１または複数のメチル化状態は、クエリメチル化パターン中の各１または複数のメチル化状態とは異なる。いくつかの上記実施形態では、適格なメチル化パターンにおける少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、または１０を超えるメチル化状態は、クエリメチル化パターンとは異なる。

いくつかの実施形態では、クエリメチル化パターンとは異なる適格メチル化パターンにおける少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、または１０を超えるメチル化状態は、クエリメチル化パターンの開始位置または終了位置に位置する（例えば、ウィグル（wiggle））。いくつかの実施形態では、クエリメチル化パターンとは異なる、適格なメチル化パターンにおける少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、または１０を超えるメチル化状態は、クエリ配列内の特定の位置に位置する（例えば、ワイルドカード）。例えば、特定の位置は、記号（例えば、「＊」、「／」）を用いてクエリメチル化パターンにおいて予め決定され得る。いくつかの実施形態では、１または複数の特定のCpG部位（例えば、１または複数の信頼性のないCpG部位）は、クエリメチル化パターンにおいてCpG部位の配列から除去される。いくつかの実施形態では、１または複数の特定のCpG部位は、各クエリメチル化パターン（例えば、「＊」、「／」）におけるメチル化状態の配列にプレースホルダーまたは置換表現を挿入することによって、クエリメチル化パターンにおけるCpG部位の配列においてバイパスされる。

いくつかの実施形態では、複数のクエリメチル化パターンは、１または複数のクエリメチル化パターン間の１または複数の組み合わせ、連結、空間的および／または構造的関係を含む。例えば、いくつかの上記実施形態では、１または複数の第１の状態間隔マップをスキャンし、１または複数の第２の状態間隔マップは、１または複数のクエリメチル化パターンおよび／またはそれらの任意の組み合わせを検索する（例えば、ブール（Boolean）検索を使用する）。いくつかの実施形態では、クエリメチル化パターンは、クエリメチル化パターンの正規表現を含む。

いくつかの実施形態では、１または複数の第１の状態間隔マップおよび１または複数の第２の状態間隔マップを複数の適格なメチル化パターンについてスキャンすることは、所定数のCpG部位（または所定のCpG部位数範囲）についてメチル化状態のすべての可能な組み合わせを含む複数のクエリメチル化状態を検索する。例えば、いくつかの実施形態では、所定のCpG部位数範囲は、単一の数－CpG長さlであり、長さl = ３の複数のすべての可能なクエリメチル化パターンは、MMM、MMU、MUM、MUU、UMM、UMU、UMM、およびUUUを含む。いくつかの実施形態では、複数の可能なクエリメチル化パターンは、メチル化、非メチル化、曖昧性、変異体、および／またはコンフリクト（矛盾したもの）を含むメチル化状態の組合せをさらに含む。いくつかの実施形態では、曖昧、変異体、および／または矛盾した（conflicted）メチル化部位は、ワイルドカード部位として扱われる。すなわち、候補パターンが適格であるが、曖昧、変異、および／または矛盾したメチル化部位については、候補パターンは適格であるとみなされる。

いくつかの実施形態では、複数のクエリメチル化パターンは、クエリメチル化パターンの所定のセットを含む。いくつかの上記実施形態において、複数のクエリメチル化パターンは、第１の状態および／または第２の状態（例えば、１または複数の癌状態に対するバイオマーカー）に関連するメチル化パターンを含む。いくつかの実施形態では、クエリメチル化パターンの所定のセットは、メチル化データベース（例えば、MethHC、MethHC 2.0、MethDB、PubMeth、IMETHYLなど）、実験例知見、および／または刊行物から得られる既知のメチル化パターンを含む。例えば、その各々が参照により本明細書に組み込まれる、Huang et al., 2021, “MethHC 2.0: information repository of DNA methylation and gene expression in human cancer,” Nucleic Acids Research 49(D1), D1268-D1275; Grunau et al., 2001, “MethDB-a public database for DNA methylation data,” Nucleic Acids Research 29(1), 270-274; Ongenaert et al., “PubMeth: a cancer methylation database combining text-mining and expert annotation,” Nucleic Acids Research: doi:10.1093/nar/gkm788; および Hachiya et al., 2017, “Genome-wide identification of inter-individually variable DNA methylation sites improves the efficacy of epigenetic association studies,” NPJ Genom Med. 2017. 2:11を参照されたい。いくつかの実施形態では、複数のメチル化パターンをスキャンすることは、特定の所定の遺伝子座（例えば、参照ゲノム中の特定の位置にインデックス付けされた特定の１または複数のCpG部位）において、所定のセットのメチル化状態を検索する。いくつかの実施形態では、所定のクエリメチル化パターンのセットおよび／または所定の１または複数の遺伝子座が、各１または複数の間隔マップが生成される、各試験対象および／または各生物学的試料のそれぞれについて取得される。いくつかの実施形態では、クエリメチル化パターンおよび／または所定の１または複数の遺伝子座の単一の所定のセットが、複数の試験対象および／または生物学的試料にわたる複数の間隔マップをスキャンするために使用される。

いくつかの実施形態では、第２の１または複数のクエリメチル化パターンに対する類似性閾値（しきい値）を満たす１または複数のクエリメチル化パターンを除去するために、複数のクエリメチル化パターンがフィルタリングされる。このようなフィルタリングは、各パターンがある程度の一意性を持つことを保証する。例えば、いくつかの実施形態では、上記フィルタリングは、複数のメチル化パターンにおける第２の１または複数のクエリメチル化パターンに類似する、５０パーセント、６０パーセント、７０パーセント、８０パーセント、９０パーセント、または９５パーセントを超えるメチル化パターンを除去する。例えば、類似度閾値が７０％であるメチル化パターンMMMMMおよびMMUMMの例を考えると、２つのパターンにおけるメチル化部位の少なくとも７０％が同じである場合、類似度閾値が満たされているとみなされることを意味する。この実施例では、２つのメチル化パターンは、６つのメチル化部位のうち５つで同じメチル化値を有するため、５／６または８３％の類似性を有する。したがって、この実施例では、２つのメチル化パターンのうちの１つがクエリメチル化パターンから除去される。

ブロック２６６～２７０を参照すると、いくつかの実施形態では、長さlのメチル化部位の各可能なメチル化パターンが、複数のクエリによってサンプリングされる。いくつかの実施形態では、lは、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０個のCpG部位である。いくつかの実施形態では、CpG部位数範囲は、l個の隣接するCpG部位である。いくつかの実施形態では、lは、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０の隣接するCpG部位である。いくつかの実施形態では、所定のCpG数範囲は、ヒト参照ゲノム中の２～１００個の連続するCpG部位である。

いくつかの実施形態では、CpG部位の所定の数は、適応性である。いくつかの実施形態では、所定数のCpG部位は、規定数のCpG部位からの＋／－Aの範囲であり、ここで整数（例えば、１、２、３、４、５など）である。

スキャン間隔マップ
いくつかの実施形態では、１または複数の第１の間隔マップおよび／または１または複数の第２の間隔マップは、対応するゲノム領域および／またはサブ領域を除去し、それによって走査および同定の計算負荷を低減するために、走査の前にフィルタリングされる。いくつかの実施形態では、フィルタリングは、除外されるゲノム領域（例えば、ブラックリストに登録された領域および／または識別不良領域）を除去する。いくつかの実施形態では、フィルタリングは、高いノイズレベルを有するゲノム領域を除去する。例えば、いくつかの実施形態では、ノイズが高い領域は、腫瘍フラクション推定値に人為的に下限を課すことによって結果をスキューする（skew／曲解する）ことができる（例えば、メチル化状態間隔におけるノイズの計算および分析に関するさらなる議論については、下記の実施例４を参照されたい）。

ブロック２７２を参照して、いくつかの実施形態では、１または複数の第１の間隔マップにおける各間隔マップのそれぞれの対応する独立した複数のノードが、１または複数の対応するゲノム領域における対応する領域を表す対応するツリーとして配置される（例えば、Wald, 2007, “On Fast Construction of SAH-based Bounding Volume Hierarchies,” IEEE, doi:10.1109/RT.2007.4342588, a tree that is created using MatchTree as described in Lee et al., 2013, “MatchTree: Flexible, scalable, and fault-tolerant wide-area resource discovery with distributed matchmaking and aggregation,” Fut Gen Comp Sys 29, 1596-1610; doi:10.1016/j.future.2012.08.009 等に記載される、ランダム化された表面積ヒューリスティックを有するKdツリーの一次元バージョン）。各間隔マップに対する対応する独立した複数のノード内の各ノードは、対応するゲノム領域のサブ領域を表す。

図２Fのブロック２７４を参照すると、いくつかの上記実施形態では、各対応するツリーは、対応する独立した複数のノードを、対応する複数のリーフ内の各リーフの親ノードが１または複数の子ノードを参照する、対応する複数のリーフ内に配置する。１または複数の第１の間隔マップおよび１または複数の第２の間隔マップを走査（スキャン）することは、複数のクエリを生成し、ここで、複数のクエリ内の各クエリは、長さlの異なる候補メチル化パターンに対するものである。さらに、複数のクエリ内の各クエリは、（i）対応するツリーの対応する独立した複数のノード内の各ノードにおいて、各クエリとのマッチメーキングを実行し、（ii）各クエリを各ノードの子ノードとさらにマッチメーキングするために、各ノードの子ノードにクエリをさらに伝播し、（iii）各マッチメーキングの結果を各ノードの親ノードに配信するために使用される。

例えば、図１２を参照すると、CpG部位位置０，１，２（例えば、［０，３］）におけるメチル化状態「UMM」の配列を含むクエリメチル化パターンについて間隔マップをスキャンすると、クエリメチル化パターンを構成する１または複数の断片を含むすべてのノードが返される。したがって、クエリは各ノードでマッチメーキングを実行し、結果を伝播する（例えば、ノード１と２を返す）。クエリされたメチル化パターンの頻度は、クエリメチル化パターンを含む断片メチル化パターンを有する各ノード中の断片のカウントを用いて、伝播された結果から計算される。例えば、ノード１および２におけるCpG部位０、１、２におけるメチル化パターンUMMの頻度は、７５％として計算される（図１２に示すように、位置０、１、および２のについて、ノード１でのUMMの２カウント、ノード２でのUMMの１カウント、およびノード２でのUMUの１カウント、ノード１と２にわたる位置０、１、および２でカウントされた４つのパターンのうち、UMMの合計３カウント）。

いくつかの実施形態では、クエリメチル化パターンのために間隔マップをスキャンすると、ノード内の任意の可能な開始メチル化位置において、クエリメチル化パターンのために各ノードがスキャンされる。例えば、いくつかのそのような実施形態では、クエリは、クエリメチル化パターンがノードの第１のメチル化部位で開始しない場合であっても、ノードを返す。例えば、図１２を参照すると、ノード１において、いくつかの実施形態では、検索クエリがMMUである場合、ノード１および２は、各ノード１および２の第１のメチル化部位でパターンが始まらないにもかかわらず、両方とも識別される。同様に、いくつかの実施形態では、クエリメチル化パターンのために間隔マップをスキャンすることは、ノードの開始、中間、および／または終了をスキャンする。いくつかの実施形態では、クエリメチル化パターンについて間隔マップをスキャンすることは、メチル化、非メチル化、曖昧、変異、および／または矛盾した状態を含むクエリメチル化パターンについて各ノードをスキャンする。

ブロック２７６を参照すると、いくつかの実施形態では、ノード内の長さlの各可能なメチル化パターンが、複数のクエリによってサンプリングされる。したがって、例えば、図１２のノード１の断片UMMUの場合、およびUMのサーチクエリ（および検索がノードの第１のメチル化部位で開始するパターンを必要としない場合）を考える。この実施例では、サーチクエリ（検索照会）は、UMMUの位置１と２でサーチクエリUMへの一致を調べ、UMMUの位置２と３でサーチクエリUMへの一致を調べ、UMMUの位置３と４でサーチクエリへの一致を調べる。

ブロック２７８を参照すると、いくつかの好ましい実施形態では、ツリーは、ランダム化表面積ヒューリスティックを有するKdツリー（k-dimensional tree）の一次元版である。例えば、その全体が参照により本明細書に組み込まれているWald, 2007, “On Fast Construction of SAH-based Bounding Volume Hierarchies,” IEEE, doi:10.1109/RT.2007.4342588を参照されたい。いくつかの代替実施形態では、ツリーは自己組織化再帰的分割マルチキャストツリーである。いくつかの上記実施形態では、間隔マップのスキャンは、マッチツリーを使用して実行される。

いくつかの上記実施形態では、マッチメーキングの結果を対応するツリー内の親ノードに配信することは、再帰的に行われ、それによって、すべての子ノードから親ノードへの結果を集約する。いくつかの上記実施形態では、マッチされるクエリは、リソース要件として、MatchTreeアルゴリズムによって取得される。いくつかの実装形態では、結果（例えば、最良適合、正確な一致、カバレッジ深さ、最小または最大VAF、開始位置、終了位置、および／またはソートまたはフィルタリングを決定する他の値）を返すために必要な追加のパラメータが、ランク基準として取得される。リソース要件を満たすノードは、ランク付け基準によってランク付けされ、指定された所望回数kの結果（例えば、ノード）が与えられると、MatchTreeは、ランク付け基準によってランク付けされた上位k個のノードを返す。

いくつかの実施形態では、計算負荷を低減するために、ツリーに含まれる応答ノードの数を推定することによって、クエリ応答時間を定義し、および／または生成された応答の量に上限を設定するために、ヒューリスティックを使用してクエリを修正する。例えば、いくつかの上記実施形態では、スキャンの以前の実装からのキャッシュされた結果分布は、所望のリソース（例えば、メチル化パターン）を含む可能性のある結果（例えば、ノード）を予測するために使用される。

いくつかの実施形態では、クエリは、タイムアウト値（例えば、凝集進行（aggregation progress）を伴う動的タイムアウト、自律的タイムアウト、および／またはユーザ入力を伴う静的タイムアウト）および／または冗長トポロジーを使用して、ネットワーク障害を回避し、一貫性のあるパフォーマンスを提供することを含む。例えば、いくつかのこのような実施形態では、ファーストフィットリソースディスカバリは、すべての可能性のある結果が集約された後ではなく、閾値所望数kの結果が満たされたときに、子ノードから親ノードに集約された結果を返すことによって、待ち時間を改善する。さらに、いくつかの実施形態では、ノード障害の場合にクエリ完全性を保証するために、前方方向と後方方向の両方でクエリと集約結果を伝播するために冗長トポロジが使用される。

例えば、Lee et al., 2013, “MatchTree: Flexible, scalable, and fault-tolerant wide-area resource discovery with distributed matchmaking and aggregation,” Fut Gen Comp Sys 29, 1596-1610; doi:10.1016/j.future.2012.08.009, およびWang et al., 2015, “Syntax-based Deep Matching of Short Texts,” arXiv: 1503.02427v6[cs.CL]を参照することにより、それぞれが本明細書に組み込まれる。

いくつかの代替的な実施形態では、間隔マップ以外の方法が、癌状態を識別または示す複数の適格なメチル化パターンを同定するために使用される。いくつかの実施形態では、複数の適格なメチル化パターンを同定することは、本明細書に記載される方法および実施形態のいずれか（例えば、間隔マップをスキャンする）、または当業者に明白であるような任意の修正、置換、代替もしくはそれらの組み合わせを使用して行われる。

癌状態の識別
いくつかの実施形態では、スキャニングは、第１の癌状態（例えば、がん/非がん、がんのサブタイプ、がんの病期、および/または起源組織）と第１の癌状態とは異なる第２の癌状態とを区別する複数の適格なメチル化パターンを識別する。例えば、いくつかの実施形態では、複数の適格なメチル化パターンは、癌を非癌（例えば、健康な対照）、癌サブタイプおよび／または起源組織（例えば、肺癌特異的バイオマーカー）、および／または癌の病期と識別するメチル化パターンのライブラリーを含む。いくつかの実施形態では、複数の適格なメチル化パターンは、特定の癌状態（例えば、癌／非癌、癌サブタイプ、癌の病期、および／または起源組織）の存在／非存在の肯定的検証を行うために使用される。

いくつかの実施形態では、複数の適格なメチル化パターンは、組織試料および／または血液試料（例えば、cfDNA）を用いて同定される。いくつかの実施形態では、各１または複数の試験対象について、組織サンプルを用いて同定された複数の適格メチル化パターンと、血液サンプルを用いて同定された複数の適格メチル化パターンとは、同じである。いくつかの実施形態では、複数の適格なメチル化パターンは、血液試料を用いて同定され、腫瘍フラクション推定値は、腫瘍頻度と腫瘍由来cfDNAとの間の正の相関に基づいて計算される。cfDNAおよび組織試料を用いて実施される腫瘍フラクション推定値の間の一致に関するさらなる考察については、例えば、下記の実施例４を参照されたい。

いくつかの実施形態では、複数の適格なメチル化パターンは、単一の各試験対象からの１または複数の生物学的試料から得られた第１および第２のデータセットを用いて同定される。例えば、いくつかの上記実施形態では、第１の複数の適格なメチル化パターンは、第１の試験対象について腫瘍と健常組織とを識別し、第２の複数の適格なメチル化パターンは、第１の複数の適格なメチル化パターンと第２の複数の適格なメチル化パターンとが異なる、第２の試験対象について腫瘍と健常組織とを識別する。いくつかの上記実施形態では、各複数の適格なメチル化パターンを用いて、特定の期間にわたって、各試験対象について、癌治療前後の腫瘍フラクションを監視する（例えば、最小残存病変および／または再発監視）。

いくつかの実施形態では、複数の適格なメチル化パターンは、単一の各試験対象からの１または複数の生物学的試料から得られた第１のデータセット、および１または複数の対照試験対象（例えば、対照健康コホート）からの１または複数の生物学的試料から得られた第２のデータセットを用いて同定される。

いくつかの実施形態では、複数の適格なメチル化パターンは、１または複数の試験対象（例えば、試験コホート）からの１または複数の生物学的試料から得られた第１のデータセット、および１または複数の対照対象（例えば、対照健康コホート）からの１または複数の生物学的試料から得られた第２のデータセットを用いて同定される。

いくつかの実施形態では、複数の適格なメチル化パターンは、第１の１または複数の試験対象（例えば、第１の試験コホート）から得られた１または複数の生物学的試料から得られた第１のデータセット、および第２の１または複数の試験対象（例えば、第２の試験コホート）から得られた１または複数の生物学的試料から得られた第２のデータセットを用いて同定される。そのようないくつかの実施形態では、第１および第２の試験コホートを用いて同定された適格なメチル化パターンは、患者間または大規模な研究グループ内の共通性に関する情報を提供するために使用されるか、または２つ以上の癌状態を識別する適格なメチル化パターンの層別化特徴を同定するために使用され得る。

いくつかの実施形態では、複数の適格なメチル化パターンは、第１の１または複数の試験対象（例えば、試験コホート）から得られた１または複数の生物学的試料から得られた第１のデータセットから構築された第１の間隔マップと、選択基準を満たす第２の間隔マップの領域を示す第２の間隔マップの表現とを用いて識別される。いくつかのそのような態様において、複数のメチル化パターンは、第１の対象セット中の対応する対象からの各生物学的試料から得られた第２のデータセットを使用せずに同定される。むしろ、いくつかの上記実施形態では、選択基準を満たすことが知られているかまたは推定されている複数のクエリメチル化パターンを使用して、第１の間隔マップのみをスキャンすることによって、選択基準を満たすことができる。例えば、第２の癌状態（例えば、実験または事前知識により）ではあまり表現されないことが知られているかまたは推定されているメチル化状態間隔のパネルを使用して、第２の間隔マップをスキャンする必要なしに、断片メチル化パターン、カウント（例えば、頻度）、および第１のデータセットのカバレッジ深さを含む第１の間隔マップをスキャンすることができる。あるいは、いくつかの実施形態では、第１の癌状態における外れ値断片メチル化パターンの存在を第２の癌状態と比較して仮定する（例えば、変異対立遺伝子が非癌試料よりも腫瘍試料に濃縮されていると仮定される）選択基準が定義される。例えば、いくつかの上記実施形態では、選択基準は、第１の（例えば、腫瘍）癌状態において予め定義された閾値（例えば、０．５を超える）を超えるメチル化パターン頻度（例えば、変異対立遺伝子頻度とも呼ばれることもある）として定義され得る。いくつかの実施形態では、予め定義された閾値は、実験的知見または事前知識によって決定される。いくつかの実施形態では、事前定義された閾値は、ユーザまたは実施者によって設定される。

いくつかの実施形態では、複数の適格なメチル化パターンは、ゲノムの２つ以上の別個の領域における２つ以上のメチル化パターンである。いくつかの実施形態では、複数の適格なメチル化パターンは、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、または２０を超えるメチル化パターンであり、ここで、各々のかかるメチル化パターンは、参照ゲノムの独特な部分にマップされ、したがって、独特なメチル化部位のセットを表す。いくつかの実施形態では、複数の適格なメチル化パターンは、３０、４０、５０、６０、７０、８０、９０、１００、１１０、１２０、１３０、１４０、１５０、１６０、１７０、１８０、１９０、２００、またはそれ以上のメチル化パターンであり、ここで、各々のそのようなメチル化パターンは、参照ゲノムの独特な部分にマップされ、したがって、独特なメチル化部位のセットを表す。いくつかの実施形態では、参照により本明細書に組み込まれている、「Detecting Cancer, Cancer Tissue or Origin, or Cancer Type」と題された、その中に参照される配列表を含む、国際特許公開第WO2020154682A3に記載されているゲノム領域に、各メチル化パターンがマッピングされる。いくつかの実施形態では、メチル化パターンの一部またはすべては、参照により本明細書に組み込まれている、「Methylated Markers and Targeted Methylation Probe Panel」と題された、その中に参照される配列表を含む、国際特許公開第WO2020/069350A1号に記されているゲノム領域に固有にマップされる。いくつかの実施形態では、メチル化パターンの一部またはすべては、参照により本明細書に組み込まれている、「Methylated Markers and Targeted Methylation Probe Panels」と題された、その中に参照される配列表を含む、国際特許公開第WO2019/195268A2号に記されているゲノム領域に固有にマップされる。

いくつかの実施形態では、複数の適格なメチル化パターンは、FreeBayes、VarDict、MuTect、MuTect２、MuSE、FreeBayes、VarDict、および／またはMuTectなどの変異コール（variant caller）アルゴリズムによって同定されるメチル化パターンを除去するためにフィルタリングされる（参照により本明細書に組み込まれる、Bian, 2018, “Comparing the performance of selected variant callers using synthetic data and genome segmentation,” BMC Bioinformatics 19:429を参照のこと）メチル化パターンを生殖系列バリアントとして識別する。

いくつかの実施形態では、複数の適格なメチル化パターンは、対象のコホート（例えば、健康な対象のコホート）から得られた生物学的試料のメチル化配列決定における参照において少なくとも２回（例えば、２つの異なる断片において）出現するメチル化パターンを除去するためにフィルタリングされる。いくつかの実施形態では、対象のコホート内の各対象は、第１のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第２のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第１または第２のデータセットによって表されない。

いくつかの実施形態では、複数の適格なメチル化パターンは、対象の参照コホート（例えば、健康な対象のコホート）の固有の試験断片にわたって最小頻度よりも高い頻度で現れるメチル化パターンを除去するためにフィルタリングされる。例えば、いくつかの実施形態では、対象のコホート（例えば、健康な対象のコホート）からの各適格なメチル化パターンに関連するゲノム領域にマッピングされる核酸断片の少なくとも２０％において生じる各適格なメチル化パターンは、複数の適格メチル化パターンから各適格メチル化パターンを除去するための基礎として役立つ。いくつかの実施形態では、２０％の閾値を課すのではなく、コホートからの核酸フラグメントの少なくとも３％、少なくとも５％、少なくとも１０％、少なくとも１５％、少なくとも２５％、少なくとも３０％、少なくとも３５％、少なくとも４０％、少なくとも４５％、または少なくとも５０％がそれぞれの適格なメチル化パターン（修飾メチル化パターンのゲノム領域で）を有する条件（閾値）は、複数の適格なメチル化パターンからそれぞれの適格なメチル化パターンを除去するための基礎として役立つ。いくつかの実施形態では、対象のコホート内の各対象は、第１のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第２のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第１または第２のデータセットによって表されない。

いくつかの実施形態では、複数の適格なメチル化パターンは、対象の参照コホート（例えば、特定の癌状態を有する対象のコホート）の固有の試験断片にわたって最小頻度未満で現れるメチル化パターンを除去するためにフィルタリングされる。例えば、いくつかの実施形態では、特定の癌状態を有する対象のコホートからの各適格なメチル化パターンに関連するゲノム領域にマッピングされる核酸断片の２０％未満で生じる各メチル化パターンが除去される。いくつかの実施形態では、いくつかの実施形態では、２０％の閾値を課すのではなく、コホートからの核酸フラグメントの８％未満、１５％未満、２０％未満、３０％未満、４０％未満、５０％未満、６０％未満、７０％未満、または８０％未満がそれぞれの適格なメチル化パターン（修飾メチル化パターンのゲノム領域で）を有する条件（閾値）は、複数の適格なメチル化パターンからそれぞれの適格なメチル化パターンを除去するための基礎として役立つ。いくつかの実施形態では、対象のコホート内の各対象は、第１のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第２のデータセットによって表される。いくつかの実施形態では、対象のコホート内の各対象は、第１または第２のデータセットによって表されない。

いくつかの実施形態では、複数の適格なメチル化パターンをフィルタリングして、gnomADおよびdbDNPデータベースなどの公的データベースに見られる対立遺伝子（メチル化パターン）を除去する。上記データセットに関する情報については、Karczewski et al., 2019, “Variation across 141,456 human exomes and genomes reveals the spectrum of loss-of-function intolerance across human protein-coding genes,” bioRxiv doi.org/10.1101/531210 and Sherry et al., 2011, “dbSNP: the NCBI database of genetic variation” Nuc. Acids. Res. 29, 308-311を参照のこと。

使用方法
いくつかの実施形態では、本開示において提供される方法は、ダウンストリームアプリケーション（下流用途）に入力するための癌状態を識別または示す適格なメチル化パターンを同定するために使用される。メチル化パターンを適格とするための使用には、腫瘍フラクションの推定、プロービング分類指標の挙動、別の特徴の調査、疾患（例えば、癌状態）の分類、および／または微小残存疾患の決定が含まれるが、これらに限定されない。

分類指標
いくつかの実施形態では、本方法は、第１および第２のデータセットを用いて同定された複数の適格化メチル化パターンに関連する少なくともメチル化パターン情報を用いて、癌状態の状態を識別または示す分類指標をトレーニングすることをさらに含む。

例えば、いくつかの実施形態では、本明細書に開示される間隔マップを生成および走査する方法を使用して識別される癌状態を識別または示す１または複数の適格なメチル化パターンを含むトレーニングセット上で、非トレーニング分類指標がトレーニングされる。いくつかの実施形態では、非トレーニング分類指標は、インターバルマッピング以外の任意の代替方法を用いて同定された癌状態を識別または示す１または複数の適格メチル化パターンを含むトレーニングセット上でトレーニングされる。

いくつかの実施形態では、分類指標は、ロジスティック回帰である。いくつかの実施形態では、分類指標は、ニューラルネットワークアルゴリズム、サポートベクターマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。

分類指標は、例えば、２０２０年１２月１１日に出願された「Cancer classification using patch convolutional neural networks」と題する米国特許出願公開第17/119,606号、および２０１９年１２月１８日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許出願公開2020-0385813 A1にさらに詳細に記載されており、それらの各々は、その全体が参照により本明細書に組み込まれる。

いくつかの実施形態では、癌状態を識別または表示する１または複数の適格なメチル化パターンについてトレーニングされたトレーニング分類指標が、第１および／または第２のデータセットの癌状態の状態を分類することによってトレーニングを検証するために使用される。いくつかの代替的な実施形態では、癌状態を識別または示す１または複数の適格なメチル化パターンについてトレーニングされたトレーニング分類指標をさらに使用して、適格なメチル化パターンが同定された各ゲノム領域またはサブ領域における第３のデータセットのメチル化状態を評価することによって、（例えば、未知サンプルまたは試験対象の）第３のデータセットの癌状態を分類する。

したがって、いくつかの実施形態では、第３のデータセットは、電子形態で得られ、ここで、第３のデータセットは、第３の複数の断片中の各断片の対応する断片メチル化パターンを含む。各断片（i）の対応する断片メチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。この方法は、さらに、、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応する、第３のデータセット中の第３の複数の断片中の各断片の断片メチル化パターンを分類指標に適用することを含み、それによって、試験対象における癌状態の状態を決定する。したがって、例えば、複数の適格なメチル化パターンが２０個の異なるゲノム領域にマッピングされる２０個の特定のメチル化パターンのセットである場合を考える。この例では、生物学的試料からの核酸のメチル化配列決定からのこれらの２０の異なるゲノム領域において試験対象によって示されるメチル化パターンは、上記実施形態において分類指標に入力され、試験対象の癌状態の状態を確認する。これらの２０の異なるゲノム領域におけるメチル化パターンは、均質なパターンではないことが理解されるであろう。事実、試験対象についてのシーケンシングデータは、２０の適格なメチル化パターンに関連する２０の異なるゲノム領域においていくつかの異なるメチル化パターンが存在することを示し得る。いくつかの上記実施形態において、２０の異なるゲノム領域で試験対象について観察されたメチル化パターンは、分類指標に入力される。例えば、複数の適格なメチル化パターンにおける第１の適格なメチル化パターンに関連するゲノム領域について、試験対象についてのメチル化配列決定が、メチル化パターンAを有するゲノム領域にマッピングする３５個の断片およびメチル化パターンBを有するゲノム領域にマッピングする７０個の断片を生成する非限定的な例を考えると、この例では、メチル化パターンAおよびBの両方の指示が、第１のゲノム位置にマッピングする断片の３５／１０５の中でメチル化パターンAが観察され、第１のゲノム位置にマッピングする断片の７０／１０５の中でメチル化パターンBが観察されたという指示とともに、分類指標に入力される。他の実施形態では、分類指標は、複数の適格なメチル化パターンがマッピングするゲノム領域におけるパターンの割合を考慮せず、むしろ、メチル化パターンを有する断片の閾値数がゲノム位置（例えば、少なくとも２つの断片など）で見出されたかどうかについての単なる２進（バイナリ）表示を考慮する。他の実施形態では、分類指標は、複数の適格なメチル化パターンがマッピングするゲノム領域におけるパターンの割合を考慮せず、むしろ、閾値数の断片（各々が閾値カバレッジで配列決定され、メチル化パターンを有する）がゲノム位置（例えば、各々が少なくとも２０の閾値カバレッジを有する少なくとも２つの断片など）で見出されたかどうかについての単なるバイナリ表示を考慮する。

いくつかの実施形態では、第３のデータセットは、本明細書に開示される方法のいずれかを使用して（例えば、第１および第２のデータセットについて記載される方法および／または実施形態のいずれかを使用して）取得される。

いくつかの実施形態では、生物学的試料および／または試験対象は、本明細書に開示される方法のいずれかを使用して（例えば、第１および第２のデータセットについて記載される方法および／または実施形態のいずれかを使用して）得られる。

いくつかの実施形態では、試験対象から得られる生物学的試料は、液体生物学的試料（例えば、血液および／またはcfDNA）である。いくつかの実施形態では、生物学的試料は、組織生物学的試料（例えば、腫瘍試料）である。

いくつかの実施形態では、第３の複数の断片は、無細胞核酸である。例えば、いくつかの好ましい実施形態では、対象における癌状態を判定するために第３のデータセットを取得することは、組織サンプル（例えば、生検サンプル）を取得することを必要としない。いくつかの実施形態では、試験対象由来の第３の複数の断片は、１００以上の無細胞核酸断片、１０００以上の無細胞核酸断片、１０，０００以上の無細胞核酸断片、１００，０００以上の無細胞核酸断片、１，０００，０００以上の無細胞核酸断片、または１０，０００，０００以上の核酸断片を含む。

いくつかの上記実施形態では、方法は、第１および第２のデータセットに加えて、複数のデータセットを取得することをさらに含み、複数のデータセット内の各データセットは、各複数の断片内の各断片の対応する断片メチル化パターンを含む。各断片（i）の対応する断片メチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）各断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む。この方法は、さらに、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応する、各データセット中の各複数の断片中の各断片の断片メチル化パターンを分類指標に適用し、それによって、試験対象における癌状態の状態を決定することを含む。

いくつかのそのような実施形態では、複数のデータセット内の各データセットは、ある期間にわたって単一の対象から連続的に取得される。いくつかの実施形態では、各複数の断片は、無細胞核酸である。例えば、いくつかの好ましい実施形態において、試験対象における癌状態の状態を決定するために複数のデータセット内の各データセットを取得することは、組織サンプル（例えば、生検サンプル）を取得することを必要としない。

いくつかの実施形態では、癌状態は、癌の非存在または存在である。いくつかの実施形態では、癌状態は癌の病期である。いくつかの実施形態では、癌状態は、癌サブタイプまたは癌の組織起点である。例えば、いくつかの実施形態では、癌は、副腎癌、胆道癌、膀胱癌、骨／骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃癌（gastric cancer）、頭頸部癌、肝胆道癌、腎癌、肝臓癌、肺癌、卵巣癌、膵癌、骨盤癌、胸膜癌、前立腺癌、腎癌、皮膚癌、胃癌（stomach cancer）、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、白血病、またはこれらの組み合わせである。

腫瘍フラクションの推定
いくつかの実施形態では、癌状態は、腫瘍フラクションである。例えば、血液中の１または複数のメチル化状態パターン（例えば、cfDNAおよび／または血漿）が腫瘍由来であり、そのような腫瘍由来変異対立遺伝子の頻度が、正常細胞に対する癌細胞の画分（例えば、腫瘍フラクション）に正比例するという仮定に基づくいくつかの実施形態において、腫瘍フラクション推定値が計算される。いくつかの実施形態では、腫瘍フラクション推定のための方法は、WGBS、標的化メチル化配列決定（TM配列決定）、WGS、および／または標的化配列決定（例えば、小さな変異体を使用）からのシーケンシングデータを使用して実施される。図１３Aおよび１３Bは、小さな変異体に基づくいくつかのアプローチを示す。図１４および１５は、これらの小さな変異体ベースの方法に対する代替方法を示す２つの実施例を示す。上記実施形態では、小さな変異体の代わりに、選択されたメチル化パターン（例えば、適格なメチル化パターンまたはQMP）が、特に小さな変異体の同定が亜硫酸水素塩変換などの因子によって損なわれる場合に、メチル化配列決定データに基づいて腫瘍フラクションを推定するための基礎として使用される。QMPベースの方法は、WGBS（例えば、図１４Aおよび１４B）およびTM配列決定データ（例えば、図１５Aおよび１５B）の両方に適用することができる。

いくつかの実施形態では、癌状態の状態は、腫瘍フラクションであり、癌状態の第１の状態は、腫瘍フラクションの第１の範囲であり、癌状態の第２の状態は、腫瘍フラクションの第２の範囲である。

例えば、いくつかの実施形態では、第１の範囲は０．００１より大きく、第２の範囲は０．００１より小さい。

いくつかの実施形態では、腫瘍フラクション推定値は、（例えば、分類指標を使用して）癌の確率をプロットするために使用される。

いくつかの実施形態では、癌の確率は、検出の限界を決定するために使用される。いくつかの上記態様において、検出限界は０．１％である。

いくつかの実施形態では、腫瘍フラクションは、複数の適格なメチル化パターン（QMP、例えば、図１４および１５の開示を参照されたい）から計算される。一実施形態では、各適格なメチル化パターンに対応する各ゲノム領域における（例えば、各変異体部位をカバーする変異体一致および非一致断片）、適格なメチル化パターンを含む断片の数および適格なメチル化パターンを含まない断片の数を用いて、事後（posterior）腫瘍フラクション推定値を生成する。

標的化メチル化配列決定が使用されるいくつかの上記実施形態では、部位ごと（例えば、各適格メチル化パターン「QMPゲノム部位」に対応するゲノム部位ごと）のポアソン尤度モデルが使用される。いくつかの実施形態では、このポアソン尤度モデルは、腫瘍フラクション、プルダウン（引張り）バイアス（QMPゲノム部位における代替の対立遺伝子パターンの除外に表される特定の対立遺伝子パターンを有するプローブの使用によって導入されるプルダウン（pull-down）バイアスを補正するため）、推定された全配列決定深さ、およびバックグラウンドノイズ率の機能として速度定数（rate constant）を計算する。

例えば、いくつかの実施形態では、腫瘍フラクション推定値は、事後尤度計算（posterior likelihood calculation）から計算される：

いくつかの実施形態では、プルダウンバイアスは、QMPゲノム部位i（bias_i）毎に推定され、ここで、（bias_i）は、以下のようにプルダウンバイアスである：

この上述のプルダウンバイアスは、WGBSコントロール（対照）データおよびTMコントロールデータを用いて、QMPゲノム部位iにおける標的化メチル化配列決定におけるプルダウンバイアスを補正する。特に、上記コントロールデータは、「アルファ」を計算するために使用される。すなわち、「アルファ」を計算するために、WGBSコントロールからの複数のQMPゲノム部位（検討中）における各部位の異常カウント（数）を求める（「コントロール（WGBS数）異常カウント」）。このように、WGBSコントロールを用いて得られた異なるQMPゲノム部位ごとに、複数のWGBS異常カウントが存在する。このWGBSコントロールの癌状態については特に要件はない。言い換えれば、WGBSコントロールは特定の癌状態を有しているか、特定の癌状態を有していない可能性がある。いくつかの実施形態では、WGBSコントロールは、WGBSを用いて配列決定される所定の既知割合のメチル化ゲノムDNAを有する、操作された細胞株である。いくつかの実施形態では、WGBSコントロールは、所定の組成（例えば、０％および１００％メチル化ゲノムDNAの５０／５０または４０／６０または３０／７０混合物）での０％メチル化および１００％メチル化ゲノムDNAの混合物である。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位の異常カウントが得られる（「TMコントロール（TMカウント）異常カウント」）。典型的な実施形態では、TMコントロールのためのDNAの供給源は、WGBSコントロールの場合と同じであり、唯一の相違点は、TMコントロールの場合、コントロールDNAは、WGBSによってではなく、TMにおいて使用されるプルダウンプローブを用いた標的化配列決定を用いて配列決定されることである。このような実施形態における量「アルファ」は、コントロール（WGBSカウント）異常カウント／TMコントロール（TMカウント）異常カウントの散布図に当てはめられた線の傾きを表す。散布図の各ポイントは、研究下にある複数のQMPゲノム部位における異なるQMPゲノム部位jについてであり、各ポイントのx座標はゲノム部位jにおける（WGBS数）異常数であり、各ポイントのy座標はゲノム部位jにおける（TM数）異常数である。さらに、「アルファ」に関する式に示されるように、典型的な実施形態では、WGBSコントロール（WGBSカウント）異常計数の７５番目（７５^th）分位点からのデータのみ、およびTMコントロール（TM数）の７５^th分位点からのデータのみが、アルファが計算される散布図（散布点）に使用される。量「アルファ」は、散布図データに当てはめられた線の傾きである。７５^th分位点の使用は例示的なものであり、アプリケーション依存事項において上方（例えば、８５^th分位点）または下方（例えば、６５^th分位点）に調整することができることが理解されよう。例えば、下流側の分類子の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、分位点カットを行うのではなく、散布図を使用して「アルファ」を計算する前に、外れ値を除去するための他の方法を代わりに使用することができる。

さらに、上記のアプローチは、第２のデータセット（癌状態の第２の状態（例えば、非癌）を有する）におけるQMP（x_i,TMct）の所与のQMPゲノム部位iにおける推定ノイズ比の計算を必要とする。いくつかの実施形態では、x_i,TMctは、以下のように推定される：

「ベータ」を計算するために、第２の癌状態を有する１人以上の対象における複数のQMPゲノム部位（研究下にある）の各部位での非異常カウントが得られる（「WGBS第２の状態（WGBS SS）非異常カウント」）。したがって、第２のデータセットを用いて得られた異なるQMPゲノム部位ごとに、非異常カウントの複数のWGBSが存在する。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位での非異常カウントが得られる（「TM第２の状態（TM SS）非異常カウント」）。典型的な実施形態では、TM第２の状態のためのDNAの供給源は、WGBSコントロールの場合と同じであり（および典型的には、第２のデータセットに寄与し、および／または第２の癌状態を有する対象からのものである）、唯一の相違点は、TM SSの場合、WGBSによってではなく、TMにおいて使用されるプルダウンプローブを用いて標的化配列決定を用いてDNAを配列決定されることである。量「ベータ」は、上記実施形態では、「TM第２の状態（TM SS）非異常カウント」／「WGBS第２の状態（WGBS SS）非異常カウント」の散布図に当てはめられた線の傾きを表す。散布図の各点は、研究下にある複数のQMPゲノム部位における異なるQMPゲノム部位jに関するものであり、ここで、各点に関するx座標は、ゲノム部位jにおけるTM第２の状態（TM SS）非異常カウントであり、そして各点に関するy座標は、ゲノム部位jにおけるWGBS SS（WGBS NC）非異常カウントである。さらに、「ベータ」についての式に示されるように、典型的な実施形態では、TM第２の状態（TM SS）非異常カウントの７５^th分位点からのデータのみ、および、WGBS第２の状態（WGBS SS）非異常カウントの７５^th分位点からのデータのみが、「ベータ」が計算される散布図で使用される。量「ベータ」は、この散布図データに当てはめられた線の傾きである。７５^th分位点の使用は、「アルファ」の場合と同様に、例示的であり、アプリケーション依存マターにおいて、上方（例えば８５^th分位点）または下方（例えば６５^th分位点）に調整することができることが理解されるであろう。例えば、下流側の分類指標（分類子）の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、分位点カットを行うのではなく、散布図を使用して「ベータ」を計算する前に、外れ値を除去するための他の方法を代わりに使用することができる。

いくつかの実施形態では、推定深さ：

は、次のように計算される。

「ガンマ」を計算するために、第２の癌状態を有する１人以上の対象において、複数のQMPゲノム部位（研究下）の各部位で非異常カウントが得られる（「WGBS第２の状態（WGBS SS）非異常カウント」）。したがって、第２のデータセットを用いて得られた異なるQMPゲノム部位ごとに、複数のWGBS非異常カウントが存在する。さらに、標的化されたメチル化配列決定からの複数のQMPゲノム部位における各部位での非異常カウントが得られる（「TM第１の状態（TM FS）非異常カウント」）。典型的な実施形態では、TM FSのためのDNAの供給源は、第１のデータセットに寄与し、および／または第１の癌状態を有する１または複数の対象からのものである。典型的な実施形態では、WGBS SSのためのDNAの供給源は、第２のデータセットに寄与し、および／または第２の癌状態を有する１または複数の対象からのものである。量「ガンマ」は、上記実施形態では、「TM第１の状態（TM FS）非異常カウント」／「WGBS第２の状態（WGBS SS）非異常カウント」の散布図に当てはめられた線の傾きを表す。散布図における各点は、研究下の複数のQMPゲノム部位における異なるQMPゲノム部位jに関するものであり、ここで、各点に関するx座標は、ゲノム部位jにおけるTM第１の状態（TM FS）非異常カウントであり、各点に関するy座標は、ゲノム部位jにおけるWGBS第２の状態（WGBS SS）非異常カウントである。さらに、「ガンマ」に関する式に示されるように、典型的な実施形態では、TM第１の状態（TM FS）非異常カウントの７５^th分位点からのデータのみ、および、WGBS第２の状態（WGBS SS）非異常カウントの７５^th分位点からのデータのみが、「ガンマ」が計算される散布図において使用される。量「ガンマ」は、この散布図データに当てはめられた線の傾きである。７５^th分位点の使用は、「アルファ」の場合と同様に、例示的であり、アプリケーション依存マターにおいて、上方（例えば８５^th分位点）または下方（例えば６５^th分位点）に調整することができることが理解されるであろう。例えば、下流側の分類指標の最適化の一部として最適化されたハイパーパラメータとして扱うことができる。さらに、「ガンマ」を計算するために散布図を使用する前に、分位点カットを行うのではなく、外れ値を除去するための他の方法を代わりに使用することができる。

いくつかの実施形態では、TM配列決定アッセイにおいて、異常にメチル化された断片はプローブによって濃縮され、したがって、上記断片内のQMPに基づいて計算された腫瘍フラクションはバイアスされる可能性が高いため、非癌ノイズ率、アッセイタイプ間のバイアス（例えば、WGBS対TM）などの因子を説明するために、様々なノイズまたはバイアスモデルを生成することができる。いくつかの実施形態では、複数の適格なメチル化パターンは、腫瘍フラクション推定の前にフィルタリングされ、０％または１００％のメチル化CpG部位を有するメチル化パターンを有するものを含む。いくつかの代替的な実施形態において、複数の適格なメチル化パターンは、所定の組成物（例えば、０％および１００％メチル化ゲノムDNAの５０／５０または４０／６０または３０／７０混合物）で０％メチル化および１００％メチル化ゲノムDNAの混合物を用いた対照実験において、標的化メチル化アッセイによって効果的にプルダウンされたものを含むように、腫瘍フラクション推定の前にフィルタリングされる。例えば、０％および１００％メチル化ゲノムDNAの５０／５０の混合物は、知覚される配列決定深さに対する濃縮プローブの効果を評価するために、パラレルWGBSおよびTM分析にかけることができる。いくつかの代替的な実施形態では、複数の適格なメチル化パターンは、腫瘍フラクション推定の前にフィルタリングされ、適格なメチル化パターンの重複しないセットを形成し、それによって二重計数を緩和するものを含む。

いくつかの上記実施形態において、後部腫瘍フラクション推定値は、合成希釈を用いてさらに最適化され、検証される。いくつかの実施形態では、後部腫瘍フラクション推定値は、マッチした試料から生成された推定値との比較を使用してさらに最適化される（例えば、腫瘍生検WGBS試料からの腫瘍フラクション推定値は、患者がマッチしたcfDNA WGBS試料からの腫瘍フラクション推定値と比較される）。

腫瘍フラクション推定値の算出のための代替的な方法および実施形態は、例えば、参照により本明細書に組み込まれる２０１９年１２月１８日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開第2020-0385813 A1号および下記実施例４に詳細に記載されている。

最小残存疾患およびその他の用途のモニタリング。
いくつかの実施形態では、癌状態の状態は腫瘍フラクションであり、第３のデータセットを取得し、第３のデータセットの断片メチル化パターンを分類指標に適用することは、経時的に繰り返し行われる。例えば、いくつかの実施形態では、再発基準での適用は、最小限の残存病変および再発監視のために実施される。いくつかの上記実施形態では、第３のデータセットの取得および適用は、癌治療の有効性を評価するために、癌治療の前後に実施される（例えば、第３のデータセットが、癌治療の前後の試験対象からの生物学的試料から取得される場合）。

いくつかの上記実施形態において、腫瘍フラクションの判定は、対象に対する癌治療の有効性を評価するために、癌治療の前に得られた第１の試料および癌治療の後に得られた第２の試料から実施される。

いくつかの実施形態では、本方法は、エポックにわたる複数の時点において、各時点における試験対象についての腫瘍フラクション推定値の推定を繰り返し、したがって、各時点における試験対象について、複数の腫瘍フラクション推定値において、対応する腫瘍フラクション推定値を得る。いくつかの実施形態では、この複数の腫瘍フラクション推定値は、エポック中の試験対象における疾患状態の状態または進行を、エポックにわたる腫瘍フラクションの増加または減少の形態で決定するために使用される。

いくつかの実施形態では、各エポックは、月の期間であり、複数の時点における各時点は、月の期間における異なる時点である。いくつかの実施形態では、月の期間は、４ヶ月未満である。いくつかの実施形態では、各エポックは、１ヶ月長である。いくつかの実施形態では、各エポックは、２ヶ月長である。いくつかの実施形態では、各エポックは、３ヶ月長である。いくつかの実施形態では、各エポックは、４ヶ月長である。いくつかの実施形態では、各エポックは、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、または２４ヶ月の長さである。

いくつかの実施形態では、エポックは、年の期間であり、複数の時点における各時点は、年の期間における異なる時点である。いくつかの実施形態では、年の期間は、１年から１０年の間である。いくつかの実施形態では、期間は、１年、２年、３年、４年、５年、６年、７年、８年、９年、または１０年である。いくつかの実施形態では、エポックは、１～３０年である。いくつかの実施形態では、エポックは時間の期間であり、複数の時点における各時点は、時間の期間における異なる時点である。いくつかの実施形態では、時間は１時間から２４時間の間である。いくつかの実施形態では、時間の期間は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、または２４時間である。

いくつかの実施形態では、本方法は、さらに、対象の腫瘍フラクション推定値（またはクローン拡大推定値）が、エポックにわたって閾値量だけ変化することが観察されるときに、対象の診断を変更することを含む。例えば、いくつかの実施形態では、診断は、癌を有することから寛解中であることに変更される。

別の例として、いくつかの実施形態では、診断は、癌を有さないことから癌を有することに変更される。別の例として、いくつかの実施形態では、診断は、癌の第１段階を有することから癌の第２段階を有することに変更される。別の例として、いくつかの実施形態では、診断は、癌の第２段階を有することから癌の第３段階を有することに変更される。さらに別の例として、いくつかの実施形態では、診断は、癌の第３の病期を有することから癌の第４の病期を有することに変更される。さらに別の例として、いくつかの実施形態では、診断は、転移していない癌を有することから、転移している癌を有することに変更される。

いくつかの実施形態では、対象の腫瘍フラクション推定値がエポックにわたって閾値量だけ変化することが観察されるとき、試験対象の予後は変化する。例えば、いくつかの実施形態では、予後は、余命を含み、予後は、第１の余命から第２の余命に変更され、ここで、第１および第２の余命は、いくつかの実施形態において、それらの持続時間が異なる。いくつかの実施形態では、予後の変化は、対象の平均余命を増加させる。いくつかの実施形態では、予後の変化は、対象の平均余命を減少させる。

いくつかの実施形態では、対象の腫瘍フラクション推定値が、そのエポックにわたって閾値量だけ変化することが観察されるときに、試験対象の治療が変更される。いくつかの実施形態では、治療の変更は、癌投薬を開始すること、癌投薬の投薬量を増加すること、癌投薬を中止すること、または癌投薬の投薬量を減少することを含む。いくつかの実施形態では、治療の変更は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス４価（型６、１１、１６、および１８）ワクチン、ペツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物による対象の治療の開始または終了を含む。いくつかの実施形態では、治療の変更は、増加または減少させた用量のレナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス４価（型６、１１、１６、および１８）ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的な同等物を対象に投与することを含む。いくつかの実施形態では、閾値は、１０％超、２０％超、３０％超、４０％超、５０％超、２倍超、３倍超、または５倍超である。

いくつかの実施形態では、試験対象の腫瘍フラクション推定値は０．００３～１．０である。いくつかの実施形態では、対象の腫瘍フラクション推定値は０．００５～０．８０である。いくつかの実施形態では、対象の腫瘍フラクション推定値は０．０１～０．７０である。いくつかの実施形態では、対象の腫瘍フラクション推定値は０．０５～０．６０である。

いくつかの実施形態では、本方法は、少なくとも部分的に、試験対象についての腫瘍フラクション推定値（またはクローン拡大推定値）の値に基づいて、試験対象に治療計画を適用することをさらに含む。いくつかの実施形態では、治療レジメンは、癌のための薬剤を試験対象に適用することを含む。いくつかの実施形態では、癌のための薬剤は、ホルモン、免疫療法、放射線撮影、または癌薬物である。いくつかの実施形態では、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス４価（型６、１１、１６、および１８）ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物である。

いくつかの実施形態では、試験対象は、癌のための薬剤で治療されており、方法は、癌のための薬剤に対する対象の応答を評価するために、試験対象のための腫瘍フラクション推定値を使用することをさらに含む。いくつかの実施形態では、癌のための薬剤は、ホルモン、免疫療法、放射線撮影、または癌薬物である。いくつかの実施形態では、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス４価（型６、１１、１６、および１８）ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ、またはこれらの一般的同等物である。

いくつかの実施形態では、試験対象は、癌のための薬剤で治療され、試験対象のための腫瘍フラクション推定値は、試験対象における癌のための薬剤を強化するかまたは中止するかを決定するために使用される。例えば、いくつかの実施形態では、少なくとも腫瘍フラクション推定値（例えば、０．０５、０．１０、０．１５、０．２０、０．２５、または０．３０を超えるなど）の観察は、対象における癌に対する薬剤の増強（例えば、線量の増加、放射線治療における放射線レベルの増加）の基礎として使用される。いくつかの実施形態では、閾値未満の腫瘍フラクション推定値（例えば、０．０５、０．１０、０．１５、０．２０、０．２５、または０．３０未満など）の観察は、試験対象における癌のための薬剤の使用を中止するための基礎として使用される。

いくつかの実施形態では、試験対象は、癌に対処するために外科的介入を受けており、方法は、外科的介入に応答して試験対象の状態を評価するために、試験対象についての腫瘍フラクション推定値を使用することをさらに含む。いくつかの実施形態では、状態は、本開示において提供される方法を用いた腫瘍フラクション推定に基づくメトリックである。

いくつかの実施形態では、癌状態を識別または示すメチル化パターンは、cfDNAから得られた断片を標識するために使用される。例えば、いくつかの上記実施形態では、癌状態（例えば、腫瘍）に関連する同定されたメチル化パターンに一致する１または複数のメチル化パターンを含む１または複数の断片が単離され、他の特徴を特徴付けるために検査される。いくつかの上記実施形態では、上記代替的特性の調査は、腫瘍由来核酸断片を定義し、および／またはそれに関連する特性に対するさらなる洞察などのさらなる使用を提供することができる。

いくつかの実施形態では、腫瘍フラクション推定の精度は、１または複数の合成希釈物を使用して検証される。例えば、いくつかの実施形態では、高腫瘍フラクションを含む試料は、非癌cfDNAに合成希釈される。各連続希釈について腫瘍フラクションの推定値を計算し、一致性について予測される腫瘍フラクションの推定値と比較する。

いくつかの実施形態では、希釈は、癌信号（例えば、配列決定読出しデータ）を非癌信号にin silicoで希釈することによって行われる。いくつかの実施形態では、癌cfDNA試料を非癌cfDNA試料に希釈することによって、ウェット－ラボ希釈を行う。いくつかの実施形態では、希釈は、配列決定の前に、第１の試験対象からの癌cfDNA試料を第２の試験対象からの非癌cfDNAに希釈することによって行われる。

いくつかの実施形態では、希釈は、プールされた試験対象を用いて実施される。いくつかの実施形態では、希釈は、第１の癌状態（例えば、癌／非癌、癌タイプ／サブタイプ、病期、および／または起源組織）から得られた試料を、第１の癌状態とは異なる第２の癌状態から得られた試料に希釈することによって行われる。

いくつかの実施形態では、腫瘍フラクション推定値の合成希釈（例えば、メチル化パターンを用いて計算）によるバリデーションを実施して、分類指標の性能を評価し、および／または分類指標の挙動を調査することができる。

本開示のその他の態様

本開示の別の態様は、癌状態を識別するまたは示す複数のメチル化パターンを同定するためのコンピュータシステムを提供する。この態様では、コンピュータシステムは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを記憶するメモリとを備える。いくつかの実施形態では、少なくとも１つのプログラムは、当業者に明らかなように、本明細書に記載される方法および実施形態のいずれか、および／またはそれらの任意の組み合わせもしくは代替物を実行するための命令を含む。

本開示の別の態様は、プロセッサによって実行されると、癌状態を識別または示す複数のメチル化パターンを識別するための方法をプロセッサに実行させるプログラムコード命令を記憶する非一時的コンピュータ可読記憶媒体を提供する。いくつかの実施形態では、プログラムコード命令は、当業者に明らかなように、プロセッサに、本明細書に記載される方法および実施形態のいずれか、および／またはそれらの任意の組み合わせもしくは代替を実行させる。

実施例
実施例１－無細胞ゲノムアトラス検討（CCGA）
本開示の実施例では、CCGA［NCT０２８８９９７８］からの対象を使用した。
CCGAは、プロスペクティブ、多施設共同、観察的cfDNAに基づく早期癌検出研究であり、１４１の施設で１５，２５４人の人口統計学的に均衡のとれた参加者が登録されている。新たに治療歴のない癌と診断された対象（C、症例）および登録時に定義された癌と診断されていない参加者（非癌［NC］、コントロール）から、登録参加者１５，２５４例（癌５６％、非癌４４％）から血液検体を採取した。

第１コホート（事前に規定したサブスタディ）（CCGA１）では、CCGAおよびSTRIVE参加者３５８３人（CCGA：癌参加者１５３０人および非癌参加者８８４人、STRIVE１１６９人の非癌参加者）からプラズマcfDNA抽出物を得た。STRIVEは、スクリーニングマンモグラフィーを受ける女性（登録参加者９９，２５９例）を登録した多施設プロスペクティブコホート研究である。プラズマcfDNA抽出のために、新たに診断された未処理癌（２０腫瘍型、全ステージ）の９８４名のCCGA参加者と癌診断のない７４９名の参加者（コントロール）から血液を採取した（n＝１７８５）。この事前に計画されたサブスタディには、２０種類の腫瘍タイプおよび全ての臨床病期にわたる８７８例の症例、５８０例のコントロール、および１６９例のアッセイコントロール（n＝１６２７）が含まれた。

各参加者から採取された血液に対して、３つの配列決定アッセイ、
１）ペアのcfDNAと白血球（WBC）ターゲットシーケンス（６０，０００Ｘ、５０７遺伝子パネル）による単一ヌクレオチドバリアント／インデル（ARTシーケンスアッセイ）；共同呼び出し元（joint caller／ジョイントコーラー）は、ＷＢＣ由来の体細胞バリアントと残留テクニカルノイズを削除した；
２）ペアのcfDNAとWBC全ゲノムシーケンス（WGS；３５Ｘ）によるコピー数の変動；新しい機械学習アルゴリズムは、がん関連の信号スコアを生成しました。共同分析により、共有されたイベントが特定された；および
３）メチル化のためのcfDNA全ゲノム重亜硫酸塩シーケンス（WGBS；３４Ｘ）；正規化されたスコアは、異常にメチル化されたフラグメントを使用して生成された；
が行われた。さらに、比較のために腫瘍変異体の同定のためにペア腫瘍およびWBC gDNAについて４）全ゲノム配列決定（WGS；３０X）を実施するように、組織サンプルを癌のみの参加者から得た。

CCGA‐１検討の文脈の中で、cfDNA試料の腫瘍フラクションを推定するためのいくつかの方法が開発された。これらのそれぞれが、参照により本明細書に組み込まれる、国際特許公開WO/2019/204360、「SYSTEMS AND METHODS FOR DETERMINING TUMOR FRACTION IN CELL-FREE NUCLEIC ACID」、国際特許公開WO 2020/132148号、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」、および米国特許公開US 2020-0340064 A1、「SYSTEMS AND METHODS FOR TUMOR FRACTION ESTIMATION FROM SMALL VARIANTS」を参照されたい。例えば、アプローチの１つは、図１３Aにおいて方法１３００として示された。このアプローチでは、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織（例えば、１３０４）からの核酸試料、および適合患者（例えば、１３０６）からの白血球（WBC）からの核酸試料を、全ゲノム配列決定（WGS）によって配列決定した。シーケンシングデータに基づいて同定された体細胞変異体（例えば、１３０８）を、同一患者（例えば、１３１０）からの一致するcfDNAシーケンシングデータに対して分析し、腫瘍フラクション推定値（例えば、１３１２）を決定した。

あらかじめ規定された第２のサブスタディ（CCGA－２）では、全ゲノムではなく標的化した亜硫酸水素配列決定アッセイを用いて、標的化メチル化（TM）配列決定アプローチに基づいて、癌対非癌および起源組織の分類指標を開発した。CCGA２については、研修参加者３１３３人と検証用試料１３５４人（癌患者７７５人；登録時に癌であると判定されていない５７９人、癌であるか非癌であるかの確認前）を用いた。固有のメチル化データベースおよび以前のプロトタイプ全ゲノムおよび標的化配列決定アッセイから同定されたように、プラズマcfDNAを、メチロームの最も有益な領域を標的とする亜硫酸水素配列決定アッセイ（COMPASSアッセイ）に供し、癌および組織を規定するメチル化シグナルを同定した。トレーニング用に残されたオリジナルの３１３３点のサンプルのうち、わずか１３０８点のサンプルが臨床的に評価可能であり、分析可能であるとみなされた。分析は、主要分析対象集団n＝９２７（癌６５４例、非癌２７３例）、副次分析対象集団n＝１０２７（癌６５９例、非癌３７３例）に対して実施された。最後に、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織および腫瘍から単離された細胞由来のゲノムDNAを全ゲノム亜硫酸水素配列決定（WGBS）にかけ、パネルデザインおよび性能を最適化するためのトレーニングに使用するための癌定義メチル化信号の大規模データベースを生成した。

例えば、その各々が参照によりその全体が本明細書に組み込まれる、Klein et al., 2018, “Development of a comprehensive cell-free DNA (cfDNA) assay for early detection of multiple tumor types: The Circulating Cell-free Genome Atlas (CCGA) study,” J. Clin. Oncology 36(15), 12021-12021, および Liu et al., 2019, “Genome-wide cell-free DNA (cfDNA) methylation signatures and effect on tissue of origin (TOO) performance,” J. Clin. Oncology 37(15), 3049-3049を参照されたい。

実施例２－複数の配列読み取り（シーケンスリード）の取得
図７は、１つの実施形態による配列決定のための核酸サンプルを調製するための方法７００のフローチャートである。方法７００は、以下のステップを含むが、これらに限定されない。例えば、方法７００の任意のステップは、品質管理のための定量サブステップまたは当業者に公知の他のラボラトリーアッセイ手順を含むことができる。

ブロック７０２では、対象から核酸試料（DNAまたはRNA）を抽出する。試料は、全ゲノムを含むヒトゲノムの任意のサブセットであってよい。試料は、癌を有することが知られているかまたは癌を有することが疑われる試験対象から抽出され得る。試料は、血液、血漿、血清、尿、糞便、唾液、他のタイプの体液、またはそれらの任意の組合せを含むことができる。いくつかの実施形態では、血液試料（例えば、シリンジまたは指刺し）を採取するための方法は、手術を必要とし得る組織生検を得るための手順よりも侵襲性が低いものであり得る。抽出試料は、cfDNAおよび／またはctDNAを含むことができる。健常者にとって、人体はcfDNAや他の細胞破片を自然に除去することができる。対象が癌または疾患を有する場合、抽出された試料中のctDNAは、診断のために検出可能なレベルで存在し得る。

ブロック７０４では、配列決定ライブラリーが準備される。ライブラリーの調製中に、ユニークな分子識別子（UMI）がアダプター連結によって核酸分子（例えばDNA分子）に付加される。UMIは、アダプターライゲーション（連結）中にDNA断片の端部に付加される短い核酸配列（例えば、４～１０塩基対）である。いくつかの実施形態では、UMIは、特異的DNA断片に由来する配列読み取りを同定するために使用することができるユニークなタグとして働く縮重（degenerate）塩基対である。アダプターライゲーション後のPCR増幅の間、UMIは、結合したDNA断片と共に複製される。これにより、下流の分析で同じ元の断片から得られたシークエンス読み取りを識別する方法が提供される。

ブロック７０６では、標的DNA配列がライブラリーから濃縮される。濃縮の間、ハイブリダイゼーションプローブ（本明細書では「プローブ」とも呼ばれる）は、癌（または疾患）、癌状態、または癌分類（例えば、癌クラスまたは起源組織）の有無に関して有益な核酸断片を標的化し、引き下げるために使用される。所定のワークフローに関して、プローブは、DNAの標的（相補的）鎖にアニーリング（またはハイブリダイズ）するように設計され得る。標的鎖（ストランド）は、「ポジティブ（陽）」鎖（例えば、mRNAに転写され、続いてタンパク質に翻訳される鎖）または相補的な「ネガティブ（陰）」鎖であってもよい。プローブの長さは、塩基対の１０s、１００s、または１０００sの範囲とすることができる。一実施形態では、プローブはメチル化部位パネルに基づいて設計される。一実施形態では、プローブは、特定の癌または他のタイプの疾患に対応すると疑われるゲノム（例えば、ヒトまたは他の生物の）の特定の突然変異または標的領域を分析するために、標的遺伝子のパネルに基づいて設計される。さらに、プローブは、標的領域の重なり合う部分を覆うことができる。ブロック７０８では、これらのプローブは、核酸試料の一般的な配列読み取りに使用される。

図８は、一実施形態による配列読み取りを得るためのプロセスのグラフィック表現である。図８は、試料由来の核酸セグメント８００の一例を示す。核酸セグメント８００は、一本鎖核酸セグメントであり得る。いくつかの実施形態では、核酸セグメント８００は、二本鎖cfDNAセグメントである。図示された例は、異なるプローブによって標的を定めることができる核酸セグメントの３つの領域８０５A、８０５B、および８０５Cを示している。具体的には、３つの領域８０５A、８０５B、および８０５Cのそれぞれに核酸セグメント８００上の重複位置が含まれる。重複する位置の実施例は、シトシン（「C」）ヌクレオチド塩基８０２として図８に示されている。シトシン核酸ベース８０２は、領域８０５Aの第一端近辺、領域８０５Bの中心部、および領域８０５Cの第二端近辺に位置する。

いくつかの実施形態では、プローブの１つ以上（またはすべて）は、特定の癌または他のタイプの疾患に対応すると疑われるゲノム（例えば、ヒトまたは他の生物の）の特定の突然変異または標的領域を分析するために、遺伝子パネルまたはメチル化部位パネルに基づいて設計される。「全体エクソーム配列決定」としても知られる、ゲノムの全体ての発現された遺伝子を配列決定するのではなく、標的遺伝子パネルまたはメチル化部位パネルを用いることにより、方法８００を用いて、標的領域の配列決定の深さを増大させることができ、ここで、深さは、試料内の所定の標的配列が配列決定された回数のカウントを意味する。配列決定の深さを増大させることは、核酸試料の必要な入力量を減少させる。

１または複数のプローブを用いた核酸試料８００のハイブリダイゼーションは、標的配列８７０の理解をもたらす。図８に示すように、標的配列８７０は、ハイブリダイゼーションプローブによって標的化される領域８０５のヌクレオチド塩基配列である。標的配列８７０は、ハイブリダイズ核酸断片とも呼ばれ得る。例えば、標的配列８７０Aは、第１ハイブリダイゼーションプローブによって標的とされる領域８０５Aに対応（相当）し、標的配列８７０Bは、第２ハイブリダイゼーションプローブによって標的とされる領域８０５Bに対応し、標的配列８７０Cは、第３ハイブリダイゼーションプローブによって標的とされる領域８０５Cに対応する。シトシン配列ベース８０２は、ハイブリダイゼーションプローブによって標的とされる各領域８０５A－C内の異なる場所に位置していることを考慮すると、各標的配列８７０は、標的配列８７０の特定の場所でのシトシンヌクレオチド塩基８０２に対応するヌクレオチド塩基を含む。

ハイブリダイゼーションステップの後、ハイブリダイズした核酸断片を捕捉し、PCRを用いて増幅することもできる。例えば、標的配列８７０を濃縮して、その後に配列決定することができる濃縮配列８８０を得ることができる。いくつかの実施形態では、各濃縮配列８８０は、標的配列８７０から複製される。標的配列８７０Aおよび８７０Cからそれぞれ増幅される濃縮配列８８０Aおよび８８０Cは、また、各配列読み取り（リード）８８０Aまたは８８０Cの末端近くに位置するチミンヌクレオチド塩基を含む。以後使用されるように、参照対立遺伝子（例えば、シトシンヌクレオチド塩基８０２）に関連して変異した、濃縮配列８８０中の変異ヌクレオチド塩基（例えば、チミンヌクレオチド塩基）は、代替対立遺伝子とみなされる。さらに、標的配列８７０Bから増幅された各濃縮配列８８０Bは、各濃縮配列８８０Bの近傍または中央に位置するシトシンヌクレオチド塩基を含む。

ブロック７０８では、配列読み取りは、濃縮されたDNA配列、例えば、図８に示される濃縮された配列８８０から生成され、シーケンシングデータは、当技術分野で公知の手段によって、濃縮されたDNA配列から取得され得る。例えば、方法８００は、合成技術（Illumina）、ピロシーケンス（パイロシーケンシング）（454 Life Sciences）、イオン半導体技術（Ion Torrent配列決定）、単一分子リアルタイム配列決定（Pacific Biosciences）、ライゲーションによる配列決定（SOLiD配列決定）、ナノポア配列決定（Oxford Nanopore Technologies）、または対端部配列決定を含む次世代配列決定（NGS）技術を含み得る。いくつかの実施形態では、大規模並列配列決定は、可逆的色素停止剤を有する合成による配列決定を使用して行われる。

いくつかの実施形態では、配列読み取りは、アラインメント位置情報を決定するために、当技術分野において公知方法を使用して、参照ゲノムにアラインされ得る。アラインメント位置情報は、与えられた配列の開始ヌクレオチド塩基および末端ヌクレオチド塩基に相当する参照ゲノム中の領域の開始位置および末端位置を示すことができる。また、位置合わせ位置情報は、開始位置および終了位置から決定することができる配列読み取り長を含むことができる。参照ゲノム中の領域は、遺伝子または遺伝子のセグメントと関連していてもよい。

様々な実施形態において、配列読み取りは、R_１およびR_２として示される読み取り一対から構成される。例えば、第１の読み取りR_１は核酸断片の第１の端部から配列決定されてもよいが、第２の読み取りR_２は核酸断片の第２の端部から配列決定されてもよい。したがって、第１の読み取りR_１および第２の読み取りR_２のヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と一貫して（例えば、反対方向に）並んでいてもよい。読み取り一対R_１およびR_２から導かれるアラインメント位置情報、第１の読み取り（例えば、R_１）の末端に対応する参照ゲノム内の開始位置、および第２の読み取り（例えば、R_２）の末端に対応する参照ゲノム内の末端位置を含むことができる。言い換えれば、参照ゲノムにおける開始位置および終了位置は、核酸断片が対応する参照ゲノム内の可能性のある位置を表すことができる。SAM（配列アラインメントマップ）フォーマットまたはBAM（バイナリ）フォーマットを有する出力ファイルが生成され、メチル化状態決定のようなさらに詳しい分析のために出力され得る。

実施例３－メチル化状態ベクターの生成
図９は、本開示による一実施形態による、メチル化状態ベクターを得るためにcfDNAの断片を配列決定するプロセス９００を説明するフローチャートである。

ステップ９０２を参照すると、cfDNA断片は、生物学的試料から得られる（例えば、実施例２と併せて上記で論じたように）。ステップ９２０を参照すると、cfDNA断片を処理して、非メチル化シトシンをウラシルに変換する。一実施形態では、DNAは、メチル化シトシンを変換することなく、cfDNAの断片の非メチル化シトシンをウラシルに変換する重亜硫酸処理に付される。例えば、EZ DNAMethylation（商標）－Gold、EZ DNAMethylation^TM－DirectまたはEZ DNA Methylation（商標）－Lightningキット（Zymo Research Corp（Irvine, CA）から入手可能）などの市販キットが、いくつかの実施形態では、亜硫酸水素塩変換のために使用される。他の実施形態において、非メチル化シトシンのウラシルへの変換は、酵素反応を用いて達成される。例えば、変換は、非メチル化シトシンをウラシルに変換するための市販のキット、例えば、APOBEC-Seq（NEBiolabs, Ipswich, MA）を使用することができる。

変換されたcfDNA断片から、配列決定ライブラリーを調製する（ステップ９３０）。任意に、配列決定ライブラリーは、複数のハイブリダイゼーションプローブを用いて癌状態に有益であるcfDNA断片またはゲノム領域について９３５に富化される。ハイブリダイゼーションプローブは、具体的に特定されたcfDNA断片または標的領域にハイブリダイズし、その後の配列決定および分析のためにこれらの断片または領域を濃縮することができる短いオリゴヌクレオチドである。ハイブリダイゼーションプローブを用いて、研究者が関心を有する特定のCpG部位のセットの標的化された高‐深さ分析を行うことができる。いったん調製されると、配列決定ライブラリーまたはその一部を配列決定して、複数の配列読み取り（９４０）を得ることができる。配列読み取りは、コンピュータソフトウェアによる処理および解釈（判断）のために、コンピュータ読み取り可能なデジタルフォーマットであってもよい。

配列読み取りから、参照ゲノムへの配列読み取りのアラインメントに基づいて、各CpG部位の位置およびメチル化状態が決定される（９５０）。参照ゲノム中の断片の位置（例えば、各断片中の第１のCpG部位の位置、または別の同様の測定基準によって特定される）、断片中の複数のCpG部位、および断片中の各CpG部位のメチル化状態を特定する、各断片についてのメチル化状態ベクター（９６０）。

WGBSに関する詳細については、例えば、そのそれぞれが参照により本明細書に組み込まれている、「Anomalous Fragment Detection and Classification」と題する米国特許公開2019-0287652 A1、および「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開2020-0385813 A1を参照されたい。

実施例４－高腫瘍フラクションを有するテストケース
CCGA検討から、高腫瘍フラクションを有する試料（標的化配列決定（ART）推定腫瘍フラクション：１５％；参加者ID ２７３７）を用いてテストケースを得た。概念実証目的のために、高腫瘍フラクションは、腫瘍由来の組織（例えば、腫瘍）試料およびcfDNA試料の両方において比較的多数の核酸断片を提供した。さらに、このテストケースはcfDNAからの標的メチル化データを含んでいた。対照非癌データセットは、特異性閾値９９％で非癌と分類されたすべての断片を用いてCCGAデータから選択した。その全体が参照により本明細書に組み込まれている、「Liu et al., 2019, “Genome-wide cell-free DNA (cfDNA) methylation signatures and effect on tissue of origin (TOO) performance,” J. Clin. Oncology 37(15), 3049-3049」を参照されたい。断片は、最小マッピング品質（MAPQ）、ならびに重複、未コール（uncalled）、および未変換断片に対してフィルタリングされた。断片はp値フィルタリングされなかった。以下のパラメータを用いて、開示された方法の例示的な実施形態を用いて、参加者２７３７および対照非癌データセットからの腫瘍試料について、異なるメチル化状態間隔（インターバル）の同定を行った：腫瘍試料についてのカバレッジの最小深さ＝１０、腫瘍試料の最小変異対立遺伝子フラクション（VAF）＝０．２、非癌試料についてのカバレッジの最小深さ＝０、非癌試料の最大VAF＝０．００１、間隔におけるCpGの数＝５。本明細書に開示されるように、VAFは、適格なメチル化パターンについて、対応する１の遺伝子座（または複数の遺伝子座）で観察される断片メチル化パターンの総数にわたって、１または複数の適格なメチル化パターン（QMP）のフラクションを指すことができる。

異なるメチル化状態間隔の特性
高腫瘍フラクションテストケース試料から得られたシーケンシングデータに基づいて、可能性のある適格なメチル化パターン（QMP）を、可能性のある各適格なメチル化パターンがメチル化された程度に基づいて評価した（図３）。ここでは、可能性のあるQMPを、テストケース試料のメチル化シーケンシングデータによって支持される５つの連続したCpG部位のメチル化状態の配列として定義する。図は、メチル化フラクションが低い可能性のあるQMPがほとんどないことを示しており（例えば、テストケースにおける可能性のあるQMPの大部分は高度にメチル化されている）、QMPの同定のためのメチル化パターンの高いポテンシャル機能性を強調している。

非癌試料を評価して、さらなる分析のための適切な間隔（例えば、５つのCpG部位を含む）を同定した。例えば、図４は、各候補間隔におけるカバレッジの深さ（「非癌cfDNA凝集体深さ＋２」）に対する凝集QMPカウント（「非癌cfDNA凝集体Altカウント＋１」）を示す、非癌対象由来のcfDNA由来の非癌核酸断片に含まれるすべての間隔の密度プロットを示す。密度（density）は、変異体カウントとカバレッジの深さとの交点の各領域における間隔の数を示し、一方、各候補区間におけるノイズのレベルは、色のレジェンドによって表される（例えば、薄いグレー：高ノイズ；ブラック：低ノイズ）。ノイズは、以下の式：ノイズ＝（alt_counts＋１）／（depth_coverage＋２）
を用いて、対照非癌データセットに基づく頻度として計算される。ここで、「alt_counts」は、当該間隔での変異体メチル化パターンを有する断片の数であり、「depth_coverage」は、当該間隔をカバーする断片の数である。上記で定義された異なるメチル化パターンの同定のためのパラメータを使用すると、テストケースにおけるさらなる分析のための好ましい間隔は、高い深さ値および低いalt（バリアント）カウント値を有するものを含む。例えば、コントロール条件の安定性が高い間隔では、試験条件のばらつきは容易に明らかになる（x: cpgはQMP部位にまたがり、yは最終QMPに一致するパターンを含む断片を表す）。

テストケース試料を評価し、異なるメチル化の識別子（例えば、バイオマーカー）としての成分間隔の適否を検証した。例えば、図５は、メチル化されたフラクション対ノイズレベルによってプロットされたテストケース対立遺伝子を示す。さらに、各交差領域におけるコンポーネント間隔について、テストケースデータと対照データの統計を比較した。各候補間隔の非癌コントロールデータセットにおけるカバレッジの深さはシェーディング（明るいグレー：高いカバレッジ；黒：低いカバレッジ）として表され、間隔（区間）の各群について提示された追加の統計には以下が含まれる：テストケース試料に対する変異対立遺伝子数（「vars」）、CpGsの総数（「cpgs」）、非癌コントロール試料における変異対立遺伝子数のメジアン（median）、および非癌対照試料におけるカバレッジ（カバー範囲）の深さのメジアン（中央値）（各グリッドにおけるカッコ内の数値で表される）。図５は、非癌対照試料ではノイズが低く、カバレッジの深さが高く、テストケース試料ではメチル化のフラクション（割合）が高い選択された間隔を強調している。

特に、ノイズレベル計算のための方法は、カバレッジの深さが低いために、コントロールデータセットに変異対立遺伝子がないにもかかわらず、いくつかの間隔に高いノイズ値を割り当てる結果となる。したがって、いくつかの実施形態では、特定のCpG部位のカバレッジの深さは、メチル化パターンを同定するためのノイズレベルよりも、より大きな適合性の表示を提供する。いくつかの実施形態では、カバレッジの深さは、配列読み取りの取得中に使用される配列決定プローブのタイプによって決定される。例えば、バイナリ（二元）配列決定（例えば、メチル化および非メチル化CpG部位の両方の増幅）のために設計されたプローブは、セミバイナリ配列決定（例えば、メチル化または非メチル化CpG部位のいずれかの増幅）のために設計されたプローブよりも低いノイズ、より少ないバイアス、およびより大きなカバレッジ深さを示すことができる。
cfDNAと生検組織の間のQMPフラクション（分率）は相関している。

図６は、テストケース試料からのcfDNA由来核酸断片または組織生検（例えば、腫瘍）由来核酸断片のいずれかを用いて計算されたQMPのフラクションの比較を示す。グラフ上の各点は、検討中の差次的にメチル化された間隔を表している。間隔をノイズレート＜１０^-4に対してプレフィルタリングし、深さ層（tier、段）をpmin（floor（normal_depth／100000) * 100000，300000）と決定した。x軸は生検QMPフラクション（深さカバレッジにわたるQMPカウント）を示し、y軸はcfDNA QMPフラクションを示す。２つの試料タイプ間の相関は、グラフ内の点間の線形関係として示される。例えば、腫瘍において頻繁に観察される差次的メチル化領域は、cfDNAのいくつかの割合が腫瘍由来であるcfDNAにおいて相関した頻度で観察される。スロープ（この文脈において腫瘍フラクションに等しい）は、非癌対照サンプル（例えば、バイナリプローブによって増幅された領域）において、より高いカバレッジ深さおよび低ノイズを有する間隔を利用して、線形フィットで安定化する。

cfDNA QMPフラクションが腫瘍生検QMPフラクションをスケールするという観察は、cfDNA由来核酸サンプルが変異対立遺伝子フラクションを決定するために使用できるいうエビデンスを提供する（その後、例えば、腫瘍フラクション推定値の計算、疾患進行のモニタリング、および／または最小残存病変の決定などの下流への適用を支持する）。これは、癌などの疾患の検出、診断、および／または治療のための侵襲性の低い手段を提供する。腫瘍フラクション推定値の計算は、例えば、それぞれ参照により本明細書に組み入れられる、「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開2020-0385813 A1、「SYSTEMS AND METHODS FOR DETERMINING TUMOR FRACTION IN CELL-FREE NUCLEIC ACID」と題する国際特許公開第WO/2019/204360、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」と題する国際特許公開WO 2020/132148、および「SYSTEMS AND METHODS FOR TUMOR FRACTION ESTIMATION FROM SMALL VARIANTS」と題する米国特許公開2020-0340064 A1に詳細に記載されている。

差次的メチル化状態の検証
図１０A、１０B、１０C、１０D、および１０Eは、対照非癌試料と比較して、高腫瘍フラクションテストケース試料から得られた核酸断片中の多数のCpG部位での異なるメチル化を示す。差次的メチル化状態間隔は、上記で定義したパラメータを用いて決定した：腫瘍試料に対する最小カバレッジ深さ＝１０、腫瘍試料の最小変異対立遺伝子フラクション（VAF）＝０．２、非癌試料に対する最小カバレッジ深さ＝０、非癌試料の最大VAF＝０．００１、および間隔におけるCpG数＝５。本明細書に開示されるように、VAFは、適格なメチル化パターン（QMP）のフラクション値を参照するための省略形として使用される。

対照非癌試料（標的メチル化（COMPASS）試料を含む）、テストケース腫瘍生検試料、および腫瘍生検試料に一致したテストケースcfDNA試料を用いて、異なる（示差）メチル化状態を比較した。サマリ表には、間隔の開始位置と終了位置（「browser_range」）、定義されたメチル化状態（「states」、例えばMMMMM、MUMMMなど）、各間隔での組織生検試料の変異対立遺伝子数（「tumor_alt」）、各間隔での組織生検試料のカバレッジ深さ（「tumor_depth」）、各間隔での対照非癌試料の変異対立遺伝子数（「normal_alt」）、各間隔での対照非癌試料のカバレッジの深さ（「normal_depth」）、一致（マッチ）した試験ケースcfDNA試料の変異対立遺伝子数（「sample_alt」）、および一致した試験ケースcfDNA試料のカバレッジ深さ（「sample_depth」）を含む、各間隔の統計がリストされている。例えば、図１０Aにおいて、組織生検試料は、可能性のある１３のインスタンスのうち、定義されたメチル化状態MMMMMの６つのインスタンスと、代替のメチル化状態の７つのインスタンスとを含み、一方、対照非癌試料は、可能性のある８２，５８１のインスタンスのうちの定義されたメチル化状態の２つのインスタンスを含む。したがって、生検試料の変異型対立遺伝子フラクションは、対照非癌試料の変異型対立遺伝子分率と比較して実質的に高い。

インタラクティブゲノミクスビューア（Interactive Genomics Viewer）（IGV）は、メチル化パターンを含むがこれらに限定されないゲノムデータ（例えば、BAMファイル）を閲覧するためのツールを提供する。例えば、図１０Aの各パネルは、試験ケース腫瘍生検試料（「生検」）または試験cfDNA試料（「一致cfDNA」）からの５つの連続するCpG部位を含むゲノム領域に対応する。各行は、核酸断片に一対する読み取り一対（例えば、前後進ストランド）を表す。各パネルの上部に集まった棒で表されるような各カラムは、ゲノム中のヌクレオチド塩基である。CpG部位が、各パネルの順方位ストランドのC－G、逆方位ストランドのG－Cとして読み取られるように、核酸配列は順方位ストランドの方位で左から右に提示される。灰色と黒色の線は、読み取られた一対の各鎖について、それぞれメチル化シトシンとメチル化されていないシトシンを表している。灰色の線は非シトシン（例：適用できない）塩基を示し、褐色の線は一塩基多型（SNP）を示す。各パネルの上部にある集合バーは、すべての断片のすべての読み取りに対するすべてのコール（呼び出し）（メチル化シトシン、非メチル化シトシン、およびその他／非該当）の合計を表している。特に、カバレッジ深さに応じて、所与のヌクレオチドの集合表現は、複数の核酸断片間のメチル化および／またはメチル化されていないシトシンの存在、ならびに交互の読み取りにおける相補的グアニンの存在による、１、２または３つのコールを含むことができる。

図１０A、１０B、１０C、１０D、および１０Eに図示されたIGVパネルは、種々のCpG間隔についての変異メチル化パターンを明らかにし、ここで、試験ケース腫瘍生検および一致した試験cfDNAの両方が、同様に、非癌cfDNAコントロールサンプルとは異なる。これらの実施例は、いくつかの実施形態に従って、開示された方法を使用して同定されたCpG間隔が、下流側の同定および／または分類目的のためにさらに使用され得る、試験サンプルと対照サンプルとの間の差次的メチル化状態を含むことを示す。

実施例５－メチル化と当業者腫瘍フラクション推定値の比較
組織および白血球試料（ART）の標的配列決定データ、ならびに組織およびcfDNA（メチル化）の全ゲノム亜硫酸水素配列決定データを、CCGA研究からの複数の参加者試料から得た。ART配列決定データを用いて小さな変異体を同定し、これを次に腫瘍フラクション推定値の算出に用いた。その高いカバレッジ深さ（例えば、各小変異体での2000‐3000Xまで）に特性があるため、ART腫瘍フラクションの推定値を用いて、その後の比較のための基準（ベースライン）を設定した。

メチル化データを同様に用いて、９５％信頼区間を伴うメジアン事後推定値を用いて、各参加者の腫瘍フラクション推定値を算出した。具体的には、組織WGBSデータを用いて、差次的にメチル化された部位を同定し、呼びかけ（コールし）、一方、cfDNA WGBSデータを用いて、各部位におけるメチル化状態を評価し、腫瘍フラクション推定値を決定した。

腫瘍フラクション推定値の算出のためのシステムおよび方法は、例えば、参照により本明細書に組み込まれる「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開第2020‐0385813号に詳細に記載されている。簡単に述べると、腫瘍フラクション推定値は、各試料について得られた配列読み取りにおいて観察された変異体頻度から計算される。試料中のすべての変異体部位にわたる変異体カウントデータをモデル化し、腫瘍フラクションの事後推定値を提供する。

図１１は、ART腫瘍フラクション推定値（x軸）に対するメチル化腫瘍フラクション推定値（y軸）のプロットを示しており、ここで、個々の参加者試料はプロット内の各点によって示され、個々の参加者の腫瘍フラクション推定値は、上記のように、各参加者試料に含まれるすべての変異体部位を用いて決定された。標的（ART）配列決定アッセイにおいて小さな変異体の読み取りエビデンスを示す参加者のみがプロットに含まれた。この制限は、腫瘍フラクション推定値の真偽を確認し、小規模な変異体のエビデンスが不足しているにもかかわらず、腫瘍フラクション推定値が事後分布によって決定された参加者を除外するために含めた。

このプロットは、２つの推定値の間に線形関係を示し、標的化配列決定またはメチル化配列決定のいずれかの方法からのデータを用いる場合、腫瘍フラクション推定値の間の一致を明らかにする。この一致は推定した腫瘍フラクションで１０^-4と低く観察され、この相関はロバストであることを示唆した。したがって、メチル化配列決定は、腫瘍フラクション推定および小変異体の標的配列決定としてのその後の下流側応用のための正確で信頼できるファンデーションを提供すると結論づけることができる。

実施例６－cfDNAフラクションの機能としての癌を検出する能力
本明細書に記載されるスコア分類指標は、非同義変異の標的化配列解析に基づく腫瘍突然変異負荷の分類指標である。例えば、分類スコア（例えば、「Aスコア」）は、腫瘍突然変異負荷データについてのロジスティック回帰を使用して計算することができ、そこでは、各個体についての腫瘍突然変異負荷の推定値が、標的cfDNAアッセイから取得される。いくつかの実施形態では、腫瘍突然変異負荷は、cfDNA中の候補変異体として呼ばれ、ノイズモデリングおよび継手コーリングを通過し、および／または変異体と重複する任意の遺伝子アノテーション中で非同義であると見出される、個体当たりの変異体の総数として推定され得る。トレーニングセットの腫瘍突然変異負荷数は、クロスバリデーションを用いて９５％の特異性が達成されるカットオフを決定するために、罰金付き（penalized）ロジスティック回帰分類指標に与えられる。Aスコアに関するさらなる詳細は、例えば、Chaudhary et al., 2017, Journal of Clinical Oncology, 35(5), suppl.e14529において見出すことができ、これはその全体が参照により本明細書に組み込まれる。

Bスコア分類指標は、参照により本明細書に組み込まれる「Method and System for Selecting, Managing, and Analyzing Data of High Dimensionality」と題する米国特許公開US2019-0287649A1に記載されている。Bスコア法に従って、健常対象の参照群における健常対象からの核酸試料の配列読み取りの第１のセットを、変動性の低い領域について分析する。したがって、各健康な試験対象からの核酸サンプルの配列読み取りの第１のセットにおける各配列読み取りは、参照ゲノム内の領域に整列され得る。このことから、トレーニンググループ内の対象からの核酸サンプルの配列読み取りからの配列読み取りのトレーニングセットを選択することができる。トレーニングセットにおける各配列読み取りは、参照セットから同定された参照ゲノムのばらつきが低い領域の領域に整列する。トレーニングセットには、健常対象からの核酸試料の配列読み取り、ならびに癌を有することが知られている罹患対象からの核酸試料の配列読み取りが含まれる。トレーニンググループからの核酸試料は、健常対象の参照グループからの核酸試料のものと同一または類似のタイプである。このことから、トレーニングセットの配列読み取りから得られる量を用いて、健常対象からの核酸試料の配列読み取りと、トレーニンググループ内の罹患対象からの核酸試料の配列読み取りとの間の差異を反映する１または複数のパラメータを決定する。次に、癌に関する状態が不明である対象からのcfDNA断片を含む核酸試料に関連する配列読み取りのテストセットを受け取り、その１または複数のパラメータに基づいて、癌を有する対象の可能性を判定する。

Mスコア分類指標は、それぞれが参照により本明細書に組み込まれる、２０１９年３月１３日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許公開US2019-0287652 A1、および「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許公開US2020-0385813 A1に記載されている。

実施例７－腫瘍フラクションの推定方法の実施例
非メチル化シーケンシングデータのために、cfDNA試料の腫瘍フラクションを推定するためのいくつかの方法が開発された。それぞれが参照により本明細書に組み込まれる、国際特許公開WO/2019/204360「SYSTEMS AND METHODS FOR DETERMINING TUMOR FRACTION IN CELL-FREE NUCLEIC ACID」と題する国際特許公開WO 2020/132148、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」と題する米国特許公開US2020-0340064 A1、「SYSTEMS AND METHODS FOR TUMOR FRACTION ESTIMATION FROM SMALL VARIANTS」を参照されたい。例えば、アプローチの１つは、図１３Aにおいて方法１３００として示された。このアプローチでは、ホルマリン固定、パラフィン包埋（FFPE）腫瘍組織（例えば、１３０４）からの核酸試料、および適合患者（例えば、１３０６）からの白血球（WBC）からの核酸試料を、全ゲノム配列決定（WGS）によって配列決定した。シーケンシングデータに基づいて同定された体細胞変異体（例えば、１３０８）を、同一患者（例えば、１３１０）からの一致するcfDNAシーケンシングデータに対して分析し、腫瘍フラクション推定値（例えば、１３１２）を決定した。

メチル化シーケンシングデータについては、メチル化データ（標的化メチル化またはWGBSにより得られた）に基づいてcfDNA試料の腫瘍フラクションを推定するための複数の方法が開発された。それぞれが参照により本明細書に組み込まれる、「SYSTEMS AND METHODS FOR ESTIMATING CELL SOURCE FRACTIONS USING METHYLATION INFORMATION」と題された国際特許公開WO2020/132148、「SYSTEMS AND METHODS FOR TUMOR FRACTION ESTIMATION FROM SMALL VARIANTS」と題された米国特許公開US2020-0340064A1を参照されたい。例えば、これらのアプローチの１つは、図１３Bの方法１３０２として例示されている。このアプローチでは、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織（例えば、１３１４）からの核酸試料を、全ゲノム亜硫酸水素配列決定（WGBS）により分析した。シーケンシングデータに基づいて同定された体細胞変異体（例えば、１３１６）を、同一患者からの一致するcfDNA WGBSシーケンシングデータに対して分析し（例えば、１３１８）、腫瘍フラクション推定値を決定した（例えば、１３２０）。

亜硫酸水素変換のような手順は、メチル化シーケンシングデータに基づく変異体識別をより困難にする。そのため、メチル化シーケンシングデータに基づいて腫瘍フラクションを推定するためには、変異体に基づく方法の代替法が必要である。WGBSシーケンシングデータに基づく腫瘍フラクション分析の実施例をこの実施例で詳述する。

図１４および１５は、適格なメチル化パターン（QMP）を使用する２つの方法を示す。これらの例において、QMPは、SNPおよび／またはSNVのような従来の変異体突然変異の代わりに、腫瘍由来核酸を定量するために使用される。

これら２実施例では、CCGAデータを活用して、腫瘍DNAメチル化パターンを含むcfDNA、TF、および癌分類性能の間の関係を調べた。CCGA分類指標は、癌対非癌を検出するために、全ゲノム亜硫酸水素配列決定（WGBS）と標的メチル化（TM）シーケンシングデータについてトレーニングした。８２２試料が生検WGBSを実施され、そのうち２３１試料はcfDNA標的メチル化（TM）およびcfDNA全ゲノム配列決定（WGS）も有していた。生検WGBSでは、体細胞単一ヌクレオチド変形例（SNV）および適格性確認メチル化パターン（QMP；生検で一般的に観察されるが、非癌コントロールのcfDNAではまれに［＜１／１０，０００］に観察される配列決定されたDNA断片におけるメチル化パターンとして定義される［n＝８９８］）が同定された。本開示における特定の例において、QMPは「メチル化変形例」またはMVとも呼ばれた。観察された腫瘍断片数（WGSにおけるSNV；TMにおけるQMPs）をTFに依存する速度を有するPoisson処理としてモデル化した。TFおよび検出の分類指標限界（LOD）は、各ベイジアンロジスティック回帰を用いて評価した。

結果。生検サンプル全体では、メジアン２６３５のQMPがゲノム全体に分布しており、メジアン８６．８％が≧１名の参加者と共有され、メジアン６９．３％がTMアッセイの標的であった。QMPからのTF LODは０．０００５０（９５％信頼区間［CI］：０．０００４１～０．０００６１）であり、QMPとSNV推定値は一致した（Spearman's Rho: ０．８２０）。QMP TFは、説明された分類指標パフォーマンス（Spearman's Rho: ０．８５６）を推定し、分類指標LODの判定を可能にした（０．０００８２［９５% CI: ０．０００５７～０．００１１５］）。

結論。これらのデータは、癌に罹患していない個々にはほとんどみられない腫瘍由来cfDNA断片にメチル化パターンが存在することを実証している；その存在量はTFを直接測定し、分類性能に影響する主要な因子であった。最後に、低分類指標LOD（～０．１％）は、癌検出のためのメチル化に基づくアッセイのさらなる臨床開発を動機づけている。

図１４Aは、例えば、WGBSシーケンシングデータに基づいて腫瘍由来核酸の存在量レベルを推定するためにQMPを使用する例示的なプロセス１４００を示す。この図および図１５Aでは、データは楕円ブロック（例えば、１４０２、１４０４、および１４１０）で表され、分析結果は矩形ブロック（例えば、１４０６、および１４２０）で表される。特に、癌試験対象x由来の生検核酸試料（例えば、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織由来）は、全ゲノム亜硫酸水素配列決定（WGBS）を用いて配列決定される。シーケンシングデータは、一組のQMP（例えば、１４０６）を同定するために、参照データセット（例えば、非癌対照群からのプラズマcfDNA試料の１４０４、WGBSデータ）と比較される。この特定の例では、１４０４のデータセットは８９８の非癌サンプルを含んでいた。いくつかの代替実施形態において、WGBSデータではなく、１４０４は、非癌対照群のプラズマcfDNAの標的化メチル化データであり得る。いくつかの実施形態では、ステップ１４１０において、同じ癌対象xからの別の試料（例えば、cfDNA試料）が、新しいWGBSデータセットを生成するために使用される。いくつかの実施形態では、１４１０の試料は、例えば、対象を癌状態の治療で治療した後に、ステップ１４０２の試料と比較して後の時点で対象から収集される。以前に同定された各QMPの存在量レベルは、この新しいWGBSデータセットに基づいて決定される。いくつかの実施形態では、存在量レベルは、腫瘍フラクション推定値を計算するために使用され得る。いくつかの代替実施では、ステップ１４０２および１４１０の両方で、同じ癌試料が使用される。

任意の１４０８として示されるいくつかの実施形態では、１４０６でのQMP識別を容易にするために、１４１０からのWGBSデータセットを１４０２からのWGBSデータと組み合わせて使用することができる。

図１４Bは、同定されたQMPのセットの各々の存在量レベルを適格化するための例示的な方法１４３０を示す。ステップ１４４０では、複数の断片メチル化パターン（FMP）が、癌対象の生検試料（例えば、ホルマリン固定パラフィン包埋（FFPE）腫瘍組織からの）からのメチル化シーケンシングデータ（例えば、WGBSに基づく）に基づいて取得される。いくつかの実施形態では、FMPは、完全な核酸断片またはその一部におけるCpG部位のメチル化状態を表す。例えば、７個のCpG部位（例えば、FMPの所定の長さ）を含有する核酸断片のFMPは、MUMUMUUであってもよく、ここで、各Mはメチル化CpG部位を示し、Uは非メチル化CpG部位を示し、MまたはUによって示される各CpGは対応するゲノム座標を有する。いくつかの実施形態では、FMPの所定の長さは、核酸断片中のCpG部位の総数よりも短く、６個または５個に変更することができる。このように、核酸断片は複数のFMPに対応することができる。所定の長さが６の場合、核酸断片は、MUMUMU（断片中のCpG部位１～６に対応）またはUMUMUU（断片中のCpG部位２～７に対応）に対応し得る。所定の長さが５の場合、核酸断片は、MUMUM（断片中のCpG部位１～５に対応）、UMUMU（断片中のCpG部位２～６に対応）、またはMUMUU（断片中のCpG部位３～７に対応）に対応し得る。断片中のCpG部位の総数がFMPの所定の長さよりもはるかに大きい場合、単一の核酸断片に基づいて複数の「見かけ上同一の」FMPを誘導することが可能であることに留意されたい。例えば、１１個のCpG部位（MMUMMUMMUMM）を含む断片の場合、これは当てはまる。FMPの所定の長さが５である場合、MMUMM（断片中のCpG部位１～５に対応）、MMUMM（断片中のCpG部位４～８に対応）、およびMMUMM（断片中のCpG部位７～１１に対応）の少なくとも３つの見かけ上同一であることが可能である。これら３つの異なるCpG部位のメチル化状態の配列は同一であるが、それぞれに含まれるCpG部位は異なるゲノム座標に対応しているので、これらは３つの異なるFMPを表すことができる。いくつかの実施形態では、所定の長さについて、FMPの回収を、癌対象のメチル化配列決定データセットに基づいて、すべての核酸断片について同定することができる。いくつかの実施形態では、FMPの複数のコレクションを、それぞれ所定の長さについて識別することができる。

いくつかの実施形態では、FMPの収集は、WGBSデータから派生する。

ステップ１４４５では、癌対象に対する適格なメチル化パターン（QMP）が、参照データセット（例えば、非癌対象のグループからのWGBSシーケンシングデータに基づく；例えば、陰性対照）を用いて、前のステップで同定されたFMPに基づいて同定される。QMPを同定する方法は、図２に記載されているものとすることができる。

いくつかの実施形態では、QMPは、癌対象にのみ存在し、対照非癌対象には存在しないFMPとして同定される。いくつかの実施形態（図２に記載されているものなど）では、複数の癌対象のAMPセットを同定するために、複数の癌対象からのFMPを、対照非癌のメチル化シーケンシングデータと比較することができる。いくつかの実施形態では、非癌患者由来のcfDNAは、１４０４の参照WGBSメチル化データを確立するために使用される。

ステップ１４５０で、追加のメチル化シーケンシングデータ（例えば、同じ癌対象からの一致するcfDNA試料のWGBSデータ１４１０）を用いて、腫瘍フラクションを推定することができる。

任意のステップ１４５２で、追加のメチル化シーケンシングデータ（例えば、同じ癌対象からの一致するcfDNA試料のWGBSデータ１４１０）を、ステップ１４３０からの一致する生検メチル化シーケンシングデータと組み合わせて使用して、癌対象に対するQMPの同定を容易にすることができる。

一組のQMPが癌試験対象について同定されると、ステップ１４５０からのメチル化シーケンシングデータに基づいて、同定された各QMPの存在量レベルを決定することができる。例えば、特定のQMPを有するユニークな核酸断片の数は、その存在量レベルの指標として数えることができる。いくつかの実施形態では、同定されたQMPセットにおける各QMPの存在量レベルは、式（１）を用いる方法を含むが、これらに限定されない適用可能な方法に基づいて、癌対象に対する腫瘍フラクションを推定するために使用され得る。

いくつかの実施形態では、図１４Aおよび１４Bに示されるプロセスは、癌対象のグループに適用され得る。いくつかの実施形態では、癌対象のグループは、特定の癌型に基づいて細分化され得る。これらの細分化されたグループから抽出された特徴は、異なる癌タイプにわたる腫瘍フラクションを計算するための全体モデルにおいて組み合わせることができる。あるいは、異なる癌タイプについて別々の腫瘍フラクションモデルを決定することができる。

図１５Aおよび１５Bは、標的化メチル化（TM）データを使用して腫瘍フラクションを推定するためのQMPに基づく方法を示す。図１５Aに示されるように、全体セットアップ１５００は、一般に、図１４Aに示されるものと同様である（例えば、１５０２、１５０４、および１５０６参照）。さらに、標的化メチル化配列決定からの影響に対処するために、さらなるステップが必要である：例えば、i）癌対象からのTMシーケンシングデータが使用され（例えば、１５１０）、ii）非癌試料からのさらなるTMシーケンシングデータが使用され（例えば、１５１２）、iii）選択された領域が、カバレッジまたは配列決定深さに影響を及ぼす濃縮される。したがって、TMシーケンシングデータのための配列決定深さは、腫瘍フラクション（例えば、１５２０）を推定するために使用される前に、それに応じて（例えば、１５１５に基づいて）較正されなければならない。例えば、０％および１００％メチル化ゲノムDNAの５０／５０の混合物は、知覚される配列決定深さに対する濃縮プローブの効果を評価するために、並行WGBSおよびTM分析にかけることができる。

図１５Bは、図１５Aに対応する方法ステップを示す。全体的な方法論は、図１４Bに示されているものと類似している。例えば、ステップ１５４０において、ステップ１４４０と同様に、FMPは、癌対象の腫瘍組織に由来する核酸試料の生検WGBSデータに基づいて得られる。

ステップ１５４５では、前段階で得られた生検WGBSデータおよび非癌対象由来のWGBS cfDNAデータに基づいて、一組のQMPが同定される。ここでは、非癌対象のシーケンシングデータを陰性対照として、例えば、特定の断片メチル化パターンまたはFMPを除外またはブラックリスト化するために使用する。さらに、生検由来の核酸およびcfDNA試料からのWGBSデータに比較的豊富に存在するFMPは、癌分類、特に起源組織分析にあまり有用ではない傾向があり、したがって、これらは、いくつかの実施形態において同様に除外することができる。

ステップ１５５０では、前のステップで同定されたQMPは、腫瘍フラクション推定、癌または起源組織分類の評価などを含むが、これらに限定されない多くの用途に使用される前に、さらに洗練され、較正され得る。いくつかの実施形態では、ステップ１５５０－１において、標的化メチル化（TM）シーケンシングデータが、同じ試験対象からの適合するcfDNA試料から得られる。例えば、ステップ１５４５からのcfDNA試料の亜硫酸水素調製物は、２つの部分に分割することができる：一方をWGBS配列決定において使用し、他方を、濃縮された試料が洗浄され、溶出され、PCRによって増幅され、正規化され、プールされ、メチル化配列解析に供される前に標的化濃縮（例えば、核酸プローブに対するハイブリダイゼーションの１または複数のラウンドによって）することができる。１５５０－１からのデータセットは、例えばTFを推定するための基礎として使用される。１５５０－２として示されるいくつかの実施形態では、非癌対象からのcfDNA試料の別のTM配列決定データセットを使用して、QMPの最終セットからFMPを除外またはブラックリストにすることができる。ステップ１５５０の後、精密化（リファイン）された一組のQMPをその後の分析のために得ることができる。

ゲノムのある領域は濃縮されているので、濃縮された領域のカバレッジまたは深さは、それらの実際の値よりも大きく、したがって、較正されるべきである（例えば、１５５０－３）。いくつかの実施形態では、既知の較正試料は、濃縮の有無にかかわらず、配列決定することができる。例えば、出発物質は、完全にメチル化された核酸を完全にメチル化されていない核酸と混合することによって作り出すことができる。その後、２つのサンプルが作成され、その核酸含有量は互いに較正され；例えば、第１のサンプルは出発原料と同じであり、第２のサンプルは、TM配列決定アッセイのために設計されたプローブを使用して濃縮されている。次いで、両方のサンプルをメチル化配列解析にかける。次いで、プルダウンバイアスを低減するために、２つの試料のシーケンシングデータを用いて、特定のCpG部位のカバレッジおよび深さを比較する。

ステップ１５５５で、精製されたQMPのセットにおける各QMPの存在量レベルを、腫瘍フラクションを推定するために使用される前に、１５５０－１からのTMメチル化データに基づいて評価することができる。

実施例８－QMPに基づく標的メチル化画分の推定
メチル化変異体（y軸、詳細は後述）対短い遺伝的変異体について腫瘍生検特徴脱落（shedding）率から推定されるcfDNA腫瘍フラクションが、この実施例で開示される。２３１のトレーニングセット参加者について、配列決定エラーおよび集団変異体をモデリングした後に、FFPE腫瘍生検サンプルの３０x全ゲノム亜硫酸水素配列決定から変異体を同定した（「補助的な方法（Supplementary Methods）」を参照）。参加者のcfDNA腫瘍フラクションの推定値は黒丸で表され、９５％の信頼区間は水平または垂直の灰色の線で示される。対角の灰色線は、２つの方法の間の完全な一致を表す。

また、メチル化パターンから腫瘍フラクションを以下のように算出した。メチル化変異体は、腫瘍生検WGBSデータ標本（≧０．２変異対立遺伝子分率、≧１０X 部位に及ぶ断片の合計深さ）で生じ、凝集した非癌cfDNA WGBSデータ（≦０．００１変異対立遺伝子フラクション）ではまれに生じた５つの連続したCpGとそれらのメチル化状態（例えば、CpG₁₀ －CpG₁₄ MMMMM）のセットとして定義した。適合生検試料で同定されたメチル化変異体を、（１）０％または１００％メチル化CpGs、（２）０％メチル化および１００％メチル化ゲノムDNAの混合物を所定の組成（例えば、５０／５０、４０／６０、３０／７０、２０／８０、または１０／９０比）での対照実験において、本発明者らの標的化メチル化アッセイにより効果的にプルダウンされたもの、および（３）重複しないセットを形成したもの（二重計数を緩和するため）にフィルタリングした。プルダウンバイアスを種々のコントロールデータを用いてサイト毎に推定した。後部腫瘍フラクション推定値は、各変異体部位をカバーする変異体一致および非一致フラクションの数を用いて作成した。部位ごとのポアソン尤度モデルを採用し、速度定数（rate constant）を腫瘍フラクション、プルダウンバイアス、推定総配列決定深さ、およびバックグラウンドノイズ率の関数として計算した。この方法は、合成希釈を使用して厳密に開発および検証され、cfDNAのの患者適合WGBSから生成された推定値と比較した(マニュスクリプト準備中)。

cfDNA中の腫瘍の特徴を有する断片の観察計数から腫瘍分率を推定した。腫瘍組織生検のWGBSから、遺伝的小ヌクレオチド変異体およびメチル化変異体腫瘍の特徴を決定した。参加者２３１人のサブセットは、トレーニングセットで腫瘍生検とcfDNA配列決定が一致し、腫瘍フラクションの推定に用いられた。この参加者のセットは、生検が標的選択に用いられた参加者を除外した。

より具体的には、SNVから腫瘍－フラクションを算出するために、腫瘍組織のWGBSおよびcfDNAのWGSの共同分析を実施し、腫瘍関連体細胞性小ヌクレオチド変異体を同定した。例えば、参照により本明細書に組み込まれる、２０２０年２月２８日出願の「Systems and Methods for Calling Variants Using Methods Using Methylation Sequencing Data」と題された米国仮特許出願第62/983,404号を参照されたい。このプロセスは、鎖特異的ピレップとBayesian（ベイジアン）遺伝子型モデルを用いて亜硫酸水素への変換（非メチル化CからTへの変換）の影響を説明するカスタム変異体呼び出し元（caller）を用いて、WGBS組織内のSNVを呼び出すことから始まった。いったんSNVの候補リストが生成されると、体細胞変異体を濃縮するために一連のフィルタリングステップが実施された。なぜなら、これらの個体についての適合正常参照を用いたフィルタリングは利用できなかったからである。これらのフィルターには、最小値や最大値変異型対立遺伝子頻度（VAF）、最小深さ、既知のノイズ部位のカスタムブラックリスト、試料適合WGS cfDNA内のフリーベイ（freebay）によりマークされた個人に対してプライベートな生殖系列細胞変異体の除去、およびgnomADおよびdbSNPを用いた既知の生殖系列細胞変異体のブラックリストが含まれた。各変異体をサポートするフラグメントとサポートしないフラグメントの数は、対応するcfDNAサンプルの一致したWGSシーケンスから生成された。事後腫瘍フラクション推定値は、腫瘍フラクションに対するグリッド検索を使用し、二項尤度の混合として定義される変異体ごとの尤度を使用して計算された。混合成分は、（１）腫瘍排泄による断片の観察、ならびに、（２）生殖細胞系変異体および誤ってコールされた変異体（falsely called variant）を含む種々のエラーモードを説明した。各参加者の腫瘍フラクションについて、中央値および９５％信頼区間を算出した。

実施例９－セルソースの実施例
いくつかの実施形態では、本開示のいずれかの実施形態の細胞源（対象の第１、第２、または第３のセットにおける対応する対象、または標的対象から得られたそれぞれの生物学的サンプル）は、共通の原発部位の第１の癌である。いくつかの実施形態では、第１の癌は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道の癌、リンパ腫、頭頸部癌、卵巣癌、肝胆道癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱癌、胃癌、またはそれらの組合せである。

いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、特定の癌タイプの腫瘍、またはそのフラクションである。いくつかの実施形態では、腫瘍は、副腎皮質癌、小児副腎皮質癌、AIDS関連癌の腫瘍、カポジ肉腫、肛門癌に関連する腫瘍、虫垂癌に関連する腫瘍、星細胞腫、小児（脳癌）腫瘍、非定型奇形腫様／ラブドイド腫瘍、中枢神経系（脳癌）腫瘍、皮膚の基底細胞癌、胆管癌に関連する腫瘍、膀胱癌腫瘍、小児膀胱がんの腫瘍、骨癌（例えば、ユーイング肉腫、骨肉腫、悪性線維性組織球腫）組織、脳腫瘍、乳癌組織、小児乳癌組織、小児気管支腫瘍、バーキットリンパ腫組織、カルチノイド腫瘍（消化管）、小児カルチノイド腫瘍、原発不明癌、小児原発不明癌、小児心臓（心臓）腫瘍、中枢神経系（例えば、小児非定型奇形腫様/ラブドイド様などの脳腫瘍）腫瘍、小児胚性腫瘍、小児胚細胞腫瘍、子宮頸癌組織、小児子宮頸癌組織、胆管癌組織、小児脊索腫組織、慢性骨髄増殖性腫瘍、結腸直腸癌腫瘍、小児結腸直腸癌腫瘍、小児頭蓋咽頭腫組織、非浸潤性乳管癌（DCIS）、小児胚性腫瘍、子宮内膜癌（子宮癌）組織、小児上衣腫組織、食道癌組織、小児食道癌組織、鼻腔神経芽細胞腫(頭頸部癌)組織、小児頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、眼の癌組織、眼内黒色腫、網膜芽細胞腫、卵管癌組織、胆嚢癌組織、胃（stomach）癌組織、小児胃（stomach）癌組織、消化管カルチノイド腫瘍、消化管間質腫瘍（GIST）、小児の消化管間質腫瘍、胚細胞腫瘍（例えば、小児中枢神経系胚細胞腫瘍、小児頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、卵巣胚細胞腫瘍、または精巣癌組織)、頭頸部癌組織、小児心臓腫瘍、肝細胞癌（HCC）組織、膵島細胞腫瘍（膵神経内分泌腫瘍）、腎臓または腎細胞癌（RCC）組織、喉頭癌組織、白血病、肝臓癌組織、肺癌（非小細胞および小細胞）組織、小児肺癌組織、男性乳癌組織、骨の悪性線維性組織球腫および骨肉腫、黒色腫、小児黒色腫、眼内黒色腫、小児眼内黒色腫、メルケル細胞癌、悪性中皮腫、小児中皮腫、転移性癌組織、潜在的な原発組織を伴う転移性頸部扁平上皮癌、NUT遺伝子の変化を伴う正中線癌、口腔癌（頭頸部癌）組織、多発性内分泌腫瘍症候群組織、多発性骨髄腫/形質細胞腫瘍、骨髄異形成症候群組織、骨髄異形成/骨髄増殖性新生物、慢性骨髄増殖性腫瘍、鼻腔および副鼻腔癌組織、上咽頭癌（NPC）組織、神経芽腫組織、非小細胞肺癌組織、口腔癌組織、口唇および口腔癌および中咽頭癌組織、骨肉腫および骨組織の悪性線維性組織球腫、卵巣癌組織、小児卵巣癌組織、膵臓癌組織、小児膵臓癌組織、乳頭腫症（小児喉頭）組織、傍神経節腫組織、小児傍神経節腫組織、副鼻腔および鼻腔癌組織、副甲状腺癌組織、陰茎癌組織、咽頭癌組織、褐色細胞腫組織、小児褐色細胞腫組織、下垂体腫瘍、形質細胞腫瘍／多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系（CNS）リンパ腫、原発性腹膜癌組織、前立腺癌組織、直腸癌組織、網膜芽細胞腫、小児横紋筋肉腫、唾液腺癌組織、肉腫（例えば、小児血管腫瘍、骨肉腫、子宮肉腫など）、セザリー症候群（リンパ腫）組織、皮膚癌組織、小児皮膚癌組織、小細胞肺癌組織、小腸癌組織、皮膚の扁平上皮癌、原発不明の扁平上皮頸部癌、皮膚T細胞リンパ腫、精巣癌組織、小児精巣癌組織、咽喉癌（例えば、上咽頭癌、中咽頭癌、下咽頭癌）組織、胸腺腫または胸腺癌、甲状腺癌組織、腎盂および尿管組織の移行上皮癌、未知の原発性癌組織、尿管または腎盂組織、移行上皮癌（腎臓（腎細胞）癌組織、尿道癌組織、子宮内膜癌組織、子宮肉腫組織、膣癌組織、小児膣癌組織、血管腫瘍、外陰癌組織、ウィルムス腫瘍またはその他の小児腎腫瘍である。

いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、第１の癌である。上記実施態様では、第１の癌は、乳癌の病期（ステージ）、肺癌の病期、前立腺癌の病期、大腸癌の病期、腎癌の病期、子宮癌の病期、膵癌の病期、食道癌の病期、リンパ腫の病期、頭頸部癌の病期、卵巣癌の病期、肝胆道癌の病期、黒色腫の病期、子宮頸癌の病期、多発性骨髄腫の病期、白血病の病期、甲状腺癌の病期、膀胱癌の病期、または胃癌の病期である。

いくつかの実施形態では、本開示の任意の実施形態の細胞源は、乳癌の所定の段階（ステージ）、肺癌の所定の段階、前立腺癌の所定の段階、大腸癌の所定の段階、腎癌の所定の段階、子宮癌の所定の段階、膵臓癌の所定の段階、食道の所定の段階、リンパ腫の所定の段階、頭頸部癌の所定の段階、卵巣癌の所定の段階、肝胆道癌の所定の段階、黒色腫の所定の段階、子宮頸癌の所定の段階、多発性骨髄腫の所定の段階、白血病の所定の段階、甲状腺癌の所定の段階、膀胱癌の所定の段階、または胃癌の所定の段階である。

いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、非癌性組織由来である。いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、健康な組織に由来する細胞に由来する。いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、乳房、肺、前立腺、結腸直腸、腎臓、子宮、膵臓、食道、リンパ液、卵巣、子宮頸部、表皮、甲状腺、膀胱、胃、またはそれらの組み合わせなどの健康な組織からのものである。

いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、１つの組織型（組織タイプ）に由来する。いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、２つ以上の組織型に由来する。いくつかの実施形態では、組織型は、１または複数の細胞型（例えば、健康な非癌性細胞および癌性細胞の組み合わせ）を含む。いくつかの実施形態では、組織型は、１つの細胞型（例えば、癌性または健康な非癌性細胞のいずれか）を含む。

いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、１つの細胞型（細胞タイプ）、２つの細胞型、３つの細胞型、４つの細胞型、５つの細胞型、６つの細胞型、７つの細胞型、８つの細胞型、９つの細胞型、１０つの細胞型、または１０を超える細胞型を構成する。

いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、肝細胞である。いくつかの上記実施形態において、細胞源は、肝細胞、肝星状脂肪記憶細胞（ITO細胞）、クッパー細胞、類洞内皮細胞、またはそれらの任意の組合せである。

いくつかの実施形態では、本開示のいずれかの実施態様の細胞源は、胃細胞である。いくつかのそのような態様において、第１の細胞源は壁細胞である。

いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、１または複数のタイプのヒト細胞である。このような或る実施態様では、細胞源は、適応性NK細胞、脂肪細胞、アルツハイマーII型星状細胞、アマクリン細胞、B細胞、好塩基球、好塩基球活性化細胞、好塩基球、ベッツ細胞、二層化細胞、ベッチャー細胞、心筋細胞、CD4+ T細胞、セメント芽細胞、小脳顆粒細胞、胆管細胞、胆嚢細胞、クロム親和性細胞、シガー細胞、クラブ細胞、オルティコトロピック細胞、細胞傷害性T細胞、樹状細胞、腸クロム親和性細胞、腸クロム親和性細胞、好酸球、糸球体外メサンギウム細胞、ファゴット細胞、脂肪パッド細胞、胃主細胞、杯細胞、ゴナドトロピック細胞、肝星細胞、肝細胞、過分節好中球、糸球体内メサンギウム細胞、傍糸球体細胞、角化細胞、腎臓近位尿細管刷子縁細胞、クッパー細胞、ラクトトロピック細胞、ライディッヒ細胞、マクロファージ、黄斑細胞、マスト細胞、巨核球、メラノサイト、マイクロフォールド細胞、単球、ナチュラルキラー細胞、ナチュラルキラーT細胞、グリッター細胞、好中球、骨芽細胞、破骨細胞、骨細胞、好酸性細胞（副甲状腺）、パネート細胞、パラフォリキュラー細胞、パラソル細胞、副甲状腺主細胞、壁細胞、小細胞性神経分泌細胞、ペグ細胞、周皮細胞、尿細管周囲筋様細胞、血小板、ポドサイト、制御性T細胞、網状赤血球、網膜双極細胞、網膜水平細胞、網膜神経節細胞、網膜前駆細胞、
センチネル細胞、セルトリ細胞、体性乳腺刺激細胞、ソマトトロピック細胞、星細胞、支持細胞、T細胞、Tヘルパー細胞、テロサイト、腱細胞、甲状腺刺激細胞、移行B細胞、毛髪細胞（ヒト）、タフト細胞、単極ブラシ細胞、白血球、ゼルバレン、またはそれらの任意の組み合わせである。いくつかのそのような実施形態では、第１の細胞源のそのような細胞は健康である。別の実施形態では、第１の細胞源のそのような細胞は癌に罹患している。

いくつかの実施形態では、本開示のいずれかの実施形態の細胞源は、細胞タイプの任意の組合せであり、ただし、そのような細胞タイプが単一の器官に由来することを条件とする。いくつかの上記実施形態において、この単一臓器は、乳房、肺、前立腺、結腸／直腸、腎臓、子宮、膵臓、食道、血液、頭部／頸部、卵巣、肝臓、子宮頸部、甲状腺、膀胱、または胃である。いくつかの実施形態では、この単一の器官は、健康である。別の実施形態では、この単一の臓器は、単一の臓器に由来する癌に罹患している。さらに別の実施形態では、この単一の臓器は、単一の臓器以外の臓器に由来し、かつ、単一の臓器に転移する、癌に罹患している。

いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞タイプの任意の組み合わせであり、ただし、そのような細胞タイプは、所定の器官セットから生じたものである。いくつかの上記実施形態において、この所定の器官セットは、乳房、肺、前立腺、結腸／直腸、腎臓、子宮、膵臓、食道、血液、頭部／頸部、卵巣、肝臓、子宮頸部、甲状腺、膀胱、および胃における任意の２つの器官（臓器）のセットである。いくつかの実施形態では、この所定の器官セットは、健康である。別の実施形態では、この所定の器官セットは、所定の器官セット内の１つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の器官セットは、所定の器官セット以外の器官に由来し、所定の器官セットに転移する癌に罹患する。

いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞タイプの任意の組み合わせであり、ただし、そのような細胞タイプは、所定の器官セットから生じたものである。いくつかの上記実施形態において、この所定の器官セットは、乳房、肺、前立腺、結腸／直腸、腎臓、子宮、膵臓、食道、血液、頭部／頸部、卵巣、肝臓、子宮頸部、甲状腺、膀胱、および胃における任意の３つの器官のセットである。いくつかの実施形態では、この所定の器官セットは、健康である。別の実施形態では、この所定の臓器セットは、所定の臓器セット内の１つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の臓器セットは、所定の臓器セット以外の臓器に由来し、かつ、所定の臓器セットに転移する癌に罹患する。

いくつかの実施形態では、本開示の任意の実施形態の細胞源は、細胞タイプの任意の組み合わせであり、ただし、そのような細胞タイプは、所定の器官のセットから生じたものである。いくつかの上記実施形態において、器官のこの所定のセットは、乳房、肺、前立腺、結腸／直腸、腎臓、子宮、膵臓、食道、血液、頭部／頸部、卵巣、肝臓、子宮頸部、甲状腺、膀胱、および胃における任意の４つの器官、５つの器官、６つの器官、または７つの器官のセットである。いくつかの実施形態では、この所定の器官のセットは、健康である。別の実施形態では、この所定の臓器セットは、所定の臓器セット内の１つの臓器に由来する癌に罹患する。さらに別の実施形態では、所定の臓器セットは、所定の臓器セット以外の臓器に由来し、かつ、所定の臓器セットに転移する癌に罹患する。

いくつかの具体的な実施形態において、本開示のいずれかの実施形態の細胞源は、白血球である。いくつかの上記実施形態において、細胞源は、好中球、好酸球、好塩基球、リンパ球、Bリンパ球、Tリンパ球、細胞傷害性T細胞、単球、またはそれらの任意の組合せである。

結論
複数の例は、単一の例として本明細書に記載される成分、動作または構造のために提供されてもよい。最後に、様々な構成要素、動作、およびデータストア間の境界は、幾分任意であり、特定操作は、特定の例示的な構成の文脈で示される。他の機能の割当ても想定されており、実施の範囲内に入る可能性がある。一般に、実施例の構成において別個の構成要素として提示される構造および機能は、結合された構造または構成要素として実施することができる。同様に、単一の構成要素として提示される構造および機能は、別個の構成要素として実装されてもよい。これらおよびその他の変更、修正、追加、および改善は、実装の範囲内に含まれる。

また、第１、第２などの用語は、本明細書では、様々な要素を説明するために使用され得るが、これらの要素は、これらの用語によって限定されるべきではないことが理解されるであろう。これらの用語は、ある元素と別の元素を区別するためにのみ使用される。例えば、第１の主題は、第２の主題とすることができ、同様に、第２の主題は、本開示の範囲から逸脱することなく、第１の主題とすることができる。第１の対象と２番目の対象は両方対象であるが、同じ対象ではない。

本開示で使用される用語は、特定の実施形態のみを説明するためのものであり、本発明を限定することを意図するものではない。本発明の説明および添付の特許請求の範囲において使用されるように、単数形の「１つの（a）」、「１つの（an）」および「前記（the）」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。また、本明細書で使用される「および／または」という用語は、関連する列挙されたアイテムのうちの１または複数の可能な任意のおよびすべての組み合わせを指し、包含することが理解されるであろう。用語「含む」および／または「含むこと」は、本明細書において使用される場合、記載された特徴、整数、ステップ、動作、エレメント、および／またはコンポーネントの存在を特定するが、１または複数の他の特徴、整数、ステップ、動作、エレメント、コンポーネント、および／またはそれらのグループの存在または追加を排除しないことがさらに理解されるであろう。

本明細書で使用されるように、用語「～の場合（if）」は、文脈に応じて、「～するとき」または「～の時」または「決定に応答して」または「検出に応答して」を意味すると解釈され得る。同様に、「決定された場合」または「［記載された状態または事象］が検出された場合」という語句は、状況に応じて、「決定されたとき」または「決定に応答して」または「（記載された状態または事象）を検出した場合」または「（記載された状態または事象）の検出に応答して」を意味すると解釈することができる。

前述の説明は、例示的な実装を実施するシステム、方法、技術、命令シーケンス、およびコンピューティングマシンプログラムプロダクトの例を含んだ。説明のために、発明の主題の様々な実装の理解を提供するために、多数の特定の詳細が記載された。しかしながら、当業者には、本発明の主題の実施がこれらの特定詳細なしに実施され得ることは明白であろう。一般に、既知の命令インスタンス、プロトコル、構造、および技術は、詳細には示されていない。

Claims

癌状態を識別または示す複数の資格を有するメチル化パターンを同定する方法であって、前記方法は、以下を含む、方法：
A）第一のデータセットを電子形態で取得することであって、第一のデータセットは、第一の複数の断片における各断片の対応する断片メチル化パターンを含み、各断片の対応する断片メチル化パターン（i）は、第一の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）それぞれの断片における対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第一の複数の断片は、１０００を超える断片を含む；
B）第２のデータセットを取得することは、電子形態では、第２のデータセットを含み、第２のデータセットは、第２の複数のフラグメントにおける各フラグメントの対応するフラグメントメチル化パターンを含み、各フラグメントの対応するフラグメントメチル化パターンは、（i）第２の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）それぞれのフラグメントにおける対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第１の対象セットにおける各対象は、癌状態の第１の状態を有し、第２の対象セットにおける各対象は、癌状態の第２の状態を有し、第２の複数のフラグメントは、１０００を超えるフラグメントを含む；
C）第１のデータセットを使用して１つ以上の対応するゲノム領域について１つ以上の第１の状態間隔地図を生成する工程、ここで、：
１つまたは複数の第１の状態間隔地図内の各第１の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、５０を超えるノードを備える
１つまたは複数の第一の状態間隔地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する終了メチル化部位との間の第一のデータセット内の第一の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンについて、（i）異なる断片メチル化パターンの表現、および（ii）断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第一のデータセット内の断片のカウントを特徴とする；
D）第２のデータセットを使用して１つまたは複数の対応するゲノム領域について１つまたは複数の第２の状態間隔地図を生成する工程、ここで、：
１つまたは複数の第２の状態間隔地図内の各第２の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、５０を超えるノードを備える
１つまたは複数の第２の状態区間地図内の各対応する独立した複数のノード内のそれぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第２のデータセット内の第２の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンについて、（i）異なるフラグメントメチル化パターンの表現、および（ii）対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有する第２のデータセット内のフラグメントのカウントを特徴とする；
E）前記１つまたは複数の第１の間隔地図および前記１つまたは複数の第２の間隔地図を複数の適格性メチル化パターンについてスキャンすることであって、前記複数の適格性メチル化パターンにおける各適格性メチル化パターン：
（i）所定のCpG部位数の範囲内にある長さを有し、前記１つ以上の第１の間隔地図および前記１つ以上の第２の間隔地図のフラグメントメチル化パターン内に、
（ii）１つ以上の選択基準を満たし、
（iii）対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lにわたって、
これにより、がんの状態を識別または示す複数の適格なメチル化パターンが同定される。
前記１つまたは複数の選択基準は、メチル化パターンを指定する、請求項１に記載の方法：
（i）第１の周波数しきい値を満たす第１の周波数を持つ１つ以上の第１の区間地図で表され、
（ii）は、第１の状態深さしきい値を満たすカバレッジを有する１つ以上の第１の間隔地図において表され、
（iii）第２の周波数しきい値を満たす第２の周波数を有する１つ以上の第２の間隔地図で表される。
請求項２に記載の方法：
（i）メチル化パターンは、１つまたは複数の第１の間隔地図内のメチル化パターンの周波数が第１の周波数閾値を超える場合に第１の周波数閾値を満たす第１の周波数を有する１つまたは複数の第１の間隔地図内で表され、
（ii）メチル化パターンは、１つ以上の第１の区間地図で表される
１つまたは複数の第１の間隔地図におけるメチル化パターンの被覆率が第１の状態深さ閾値を超えたときに第１の状態深さ閾値を満たす被覆率、および
（iii）メチル化パターンは、１つまたは複数の第２の間隔地図内のメチル化パターンの周波数が第２の周波数閾値未満である場合に、第２の周波数閾値を満たす第２の周波数を有する１つまたは複数の第２の間隔地図内で表される。
請求項３に記載の方法：
第１の周波数閾値は０．２であり、
最初の状態の深さしきい値は１０で、
第２の周波数閾値は０．００１である。
それぞれのメチル化パターンが、発現時に前記１つ以上の選択基準を満たす、請求項１に記載の方法：

メチル化パターンについては、３、４、５または６を超え、ここで：
second count = １つまたは複数の第２の状態間隔地図内のそれぞれのメチル化パターンのカウント、および
第２の状態深さ＝１つ以上の第２の状態間隔地図中のそれぞれのメチル化パターンによって表されるゲノム領域中の第２のデータセットによる被覆率。
さらに含む、請求項１－５のいずれか一項に記載の方法：
F）第１および第２のデータセットにおける複数の適格なメチル化パターンに関連するメチル化パターン情報を用いて癌状態の状態を識別するための分類器を訓練すること。
前記分級がロジスティック回帰である、請求項６に記載の方法。
前記分級は、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである、請求項６に記載の方法。
前記方法がさらに含む、請求項６－８のいずれか一項に記載の方法：
G）第３のデータセットを電子形態で取得すること、ここで、第３のデータセットは、第３の複数のフラグメント中の各フラグメントの対応するフラグメントメチル化パターンを含み、ここで、各フラグメント（i）の対応するフラグメントメチル化パターンは、試験対象から得られた生物学的試料からの核酸のメチル化配列決定によって決定され、そして（ii）各フラグメント中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含む；
H）第３のデータセット中の第３の複数のフラグメント中のそれぞれのフラグメントのフラグメントメチル化パターンを適用して、複数の適格なメチル化パターン中の適格なメチル化パターンを包含するか、またはそれに対応して、分類器に適用し、それによって、試験対象における癌状態の状態を決定する。
請求項６－９のいずれか一項記載の方法：
癌の状態は腫瘍分率であり、
癌状態の最初の状態は、最初の範囲の腫瘍分率であり
癌状態の第２の状態は、第２の範囲の腫瘍分率である。
前記第１の範囲が０．００１より大きく、前記第２の範囲が０．００１より小さい、請求項１０に記載の方法。
請求項９に記載の方法：
癌の状態は腫瘍分率である；
G）の取得とH）の適用は、経時的に繰り返し行われる。
癌状態の状態が癌の非存在または存在である、請求項６～９のいずれか一項記載の方法。
癌状態が癌の病期である、請求項６～９のいずれか一項記載の方法。
癌が副腎癌、胆道癌、膀胱癌、骨／骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃癌、頭／頸部癌、肝胆道癌、腎癌、肝臓がん、肺がん、卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、多発性骨髄腫、白血病、またはこれらの組合せである、請求項１３または１４記載の方法。
前記被験体から得られる生物学的試料が液体生物学的試料である、請求項９に記載の方法。
前記第３の複数の断片が、無細胞核酸である、請求項１６に記載の方法。
前記第１および第２の複数の断片が、無細胞核酸である、請求項１～１７のいずれか一項記載の方法。
請求項１－１８のいずれか一項記載の方法：
１つ以上の第１の状態間隔地図は、単一の第１の状態間隔地図で構成される。
１つ以上の第２の状態間隔地図は、単一の第２の状態間隔地図で構成される。
請求項１－１８のいずれか一項記載の方法：
１つまたは複数の第１の状態間隔地図は、複数の第１の状態間隔地図である；
１つまたは複数の第２の状態間隔地図は、複数の第２の状態間隔地図である；
１以上の対応するゲノム領域が複数のゲノム領域である；および
複数のゲノム領域内のそれぞれのゲノム領域は、第１の複数の区間地図および第２の複数の区間地図内の第１の状態区間地図によって表される。
前記複数のゲノム領域が１０～３０である、請求項２０に記載の方法。
前記複数のゲノム領域の各ゲノム領域が、異なるヒト染色体である、請求項２０に記載の方法。
前記複数のゲノム領域が、２～１０００のゲノム領域、５００～５０００のゲノム領域、１０００～２０，０００のゲノム領域、または５０００～５０，０００のゲノム領域からなる、請求項２０に記載の方法。
前記A）取得およびB）取得のメチル化配列決定が、複数のプローブを用いた標的配列決定であり、前記複数のゲノム領域内の各ゲノム領域が、前記複数のプローブ内のプローブに関連する、請求項２０に記載の方法。
請求項１－２４のいずれか一項記載の方法：
１つまたは複数の第一の区間地図内のそれぞれのそれぞれの区間地図の対応する独立した複数のノードは、１つまたは複数の対応するゲノム領域内の対応する領域を表す対応するツリーとして配置され、
それぞれの区間地図に対する対応する独立した複数のノード内のそれぞれのノードは、対応するゲノム領域のサブ領域を表す。
請求項２５に記載の方法：
各対応する木は、対応する独立した複数のノードを対応する複数のリーフに配置し、対応する複数のリーフ内の各リーフの親ノードは、１つ以上の子ノードを参照し、
E）スキャンは、複数のクエリを生成し、
複数の問い合わせにおけるそれぞれの問い合わせは、長さlの異なる候補のメチレーションパターンに対するものであり、
複数のクエリ内のそれぞれのクエリは、（i）対応する独立した複数のノード内のそれぞれのノードにおいてそれぞれのクエリとのマッチメーキングを実行し、（ii）それぞれのクエリをそれぞれのノードの子ノードに対してさらにマッチメーキングするために、それぞれのノードの子ノードにクエリをさらに伝播し、（iii）それぞれのマッチメーキングの結果をそれぞれのノードの親ノードに配信するために使用される。
前記木は、ランダム化表面積発見的を有するk寸法木の１寸法版であり、ここで、kは２以上の正の整数である、請求項２６に記載の方法。
長さlの各可能なメチル化パターンが、前記複数のクエリによってサンプリングされる、請求項２６に記載の方法。
lが、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０個のCpG部位である、請求項２８に記載の方法。
前記CpG部位数範囲が、l個の隣接するCpG部位である、請求項１～２９のいずれか一項記載の方法。
lが、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０の連続するCpG部位である、請求項３０に記載の方法。
前記所定のCpG数範囲が、ヒト参照ゲノム中の２～１００個の連続するCpG部位である、請求項１に記載の方法。
対象の第１のセットにおける対応する対象からのそれぞれの生物学的試料のメチル化配列決定が、第１のデータセットに含まれるメチル化パターンについて評価される１０億個以上、２０億個以上、３０億個以上、４０億個以上、５０億個以上、６０億個以上、７０億個以上、８０億個以上、９０億個以上、または１００億個以上のフラグメントを生成する、請求項１～３２のいずれか一項記載の方法。
第１の対象セット中の対応する対象からのそれぞれの生物学的試料のメチル化配列決定が、第１のデータセット中に含まれるメチル化パターンについて評価される１０億未満のフラグメントまたは１０，０００未満のフラグメントを生成する、請求項１～３２のいずれか一項記載の方法。
１０，０００を超えるCpG部位、２５，０００を超えるCpG部位、５０，０００を超えるCpG部位、または１以上の対応するゲノム領域にわたる８０，０００を超えるCpG部位が存在する、請求項１～３４のいずれか一項記載の方法。
１０，０００未満のCpG部位、２５，０００未満のCpG部位、５０，０００未満のCpG部位、または１以上の対応するゲノム領域にわたる８０，０００未満のCpG部位が存在する、請求項１～３４のいずれか一項記載の方法。
対応する複数の配列読み取りの平均配列読み取り長が、それぞれのフラグメントのメチル化配列決定によって得られた、１４０～２８０ヌクレオチドである、請求項１～３６のいずれか一項記載の方法。
前記１つ以上の対応するゲノム領域内の各ゲノム領域が、ヒトゲノム参照配列の５００塩基対から１０，０００塩基対の間を表す、請求項１～３７のいずれか一項記載の方法。
前記１つ以上の対応するゲノム領域の各ゲノム領域が、ヒトゲノム参照配列の５００塩基対から２０００塩基対の間を表す、請求項１～３７のいずれか一項記載の方法。
前記１つ以上の対応するゲノム領域内の各ゲノム領域が、ヒトゲノム参照配列の異なる部分を表す、請求項１～３７のいずれか一項記載の方法。
前記対応する複数のCpG部位におけるCpG部位のメチル化状態が、である、請求項１－４０のいずれか一項に記載の方法：
メチル化シークエンシングによってCpG部位がメチル化されているとメチル化され
メチル化配列決定によってCpG部位がメチル化されないことが決定されると、非メチル化される。
メチル化配列決定が、i）全ゲノムメチル化配列決定、またはii）複数の核酸プローブを用いた標的化DNAメチル化配列決定である、請求項１～４１のいずれか一項記載の方法。
メチル化配列決定が、それぞれのフラグメント中の１つ以上の５－メチルシトシン（５mC）および／または５－ヒドロキシメチルシトシン（５hmC）を検出する、請求項１～４２のいずれか一項記載の方法。
メチル化配列決定が、１つ以上の非メチル化シトシンまたは１つ以上のメチル化シトシンの対応する１つ以上のウラシルへの変換を含む、請求項１～４２のいずれか一項記載の方法。
前記１つ以上のウラシルが、前記メチル化配列決定の間に、１つ以上の対応するチミンとして検出される、請求項４４に記載の方法。
１つ以上の非メチル化シトシンまたは１つ以上のメチル化シトシンの変換が、化成処理、酵素変換、またはそれらの組み合わせを含む、請求項４４記載の方法。
それぞれの生物学的試料が血液試料である、請求項１～４６のいずれか一項記載の方法。
それぞれの生物学的試料が、血液、全血、血漿、プラズマ、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心嚢液、または腹膜液を含む、請求項１～４６のいずれか一項記載の方法。
前記所定のCpG部位数範囲が、５つのCpG部位と２０のCpG部位との間である、請求項１～４８のいずれか一項記載の方法。
前記所定のCpG部位数範囲が単一のCpG数である、請求項１～４８のいずれか一項記載の方法。
単一のCpG数がlである、請求項５０記載の方法。
請求項１に記載の方法：
癌の状態は被験体中の腫瘍画分であり、
被験者の最初のセットは被験者から構成され、
癌状態の最初の状態は、被験体中の腫瘍画分であり、
癌状態の第２の状態は癌がないことであり
第２の癌被験体セットは、複数の癌を有さない被験体である。
前記複数の適格なメチル化パターンを使用して、前記試験対象における前記腫瘍分率を決定することをさらに含む、請求項５２に記載の方法。
前記被験体について決定された前記腫瘍分率に基づいて前記被験体を治療することをさらに含む、請求項５３に記載の方法。
前記被験体について決定された前記腫瘍分率に基づいて、前記被験体の進行中の治療計画を調整することをさらに含む、請求項５３に記載の方法。
請求項１に記載の方法：
癌状態の最初の状態は被験者に特有であり、
被験者の最初のセットは被験者から構成され、
癌状態の第２の状態は癌がないことであり
第２の癌被験体セットは、複数の癌を有さない被験体である。
前記複数の適格性メチル化パターンを使用して、前記被験者における前記がん状態の前記第１の状態を定量化することをさらに含む、請求項５６に記載の方法。
前記被験体における前記癌状態の前記第１の状態の定量に基づいて、前記被験体を治療することをさらに含む、請求項５７に記載の方法。
前記被験体における前記癌状態の前記第１の状態の定量化に基づいて、前記被験体の進行中の治療計画を調整することをさらに含む、請求項５７に記載の方法。
被験体が、副腎癌、胆道癌、膀胱癌、骨／骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道の癌、胃癌、頭部／頸部癌、肝胆道癌、腎癌、肝臓がん、肺がん、卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、多発性骨髄腫、または白血病を有する、請求項５６記載の方法。
請求項１に記載の方法：
癌の状態は癌の有無であり、
第１の複数被験者を含む第１の被験体セットは、
癌状態の最初の状態は癌の存在であり、
癌状態の第２の状態は癌が存在しないことであり
第２の癌被験体セットは、第２の複数の癌被験体である。
癌が、副腎癌、胆道癌、膀胱癌、骨／骨髄癌、脳癌、乳癌、子宮頚癌、大腸癌、食道の癌、胃癌、頭部／頸部癌、肝胆道癌、腎癌、肝臓がん、肺がん、卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、多発性骨髄腫、または白血病である、請求項６１記載の方法。
請求項１に記載の方法：
癌状態は癌の起源であり、
第１の複数被験者を含む第１の被験体セットは、
癌状態の最初の状態は癌の最初の起源であり、
癌状態の第２の状態は癌の第２の起源であり
第２の癌被験体セットは、第２の複数の癌被験体である。
請求項６３に記載の方法：
最初の起源は、副腎、胆汁、ブラダー、骨／骨髄、脳、乳房、子宮頸部、結腸直腸、食道、胃、頭／頸部、肝胆道、腎臓、肝臓、肺、卵巣、膵臓、骨盤、胸膜、前立腺、腎臓、表皮、胃、精巣、胸腺、甲状腺、子宮、リンパ腫、黒色腫、多発性骨髄腫、または白血病のいずれかであり
第２の起源は第１の起源以外であり、副腎、胆汁、ブラダー、骨／骨髄、脳、乳房、頸部、結腸直腸、食道、胃、頭／頸部、肝胆道、腎臓、肝臓、肺、卵巣、膵臓、骨盤、胸膜、前立腺、腎臓、表皮、胃、精巣、胸腺、甲状腺、子宮、リンパ腫、多発性骨髄腫、または白血病のいずれかである。
請求項１に記載の方法：
癌の状態は癌の病期であり、
第１の複数被験者を含む第１の被験体セットは、
癌の状態の第１段階は第１癌の第１段階であり、
がんの第２の状態は、第１がんの第２の段階であり
第２の癌被験体セットは、第２の複数の癌被験体である。
請求項６５記載の方法：
がんは副腎臓がん、胆道がん、膀胱がん、骨髄がん、脳がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆道がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、多発性骨髄腫、白血病であり、
最初の病期は、I期、II期、III期、IV期のがんで
第２期は第１期以外で、がんのI期、II期、III期、IV期となる。
前記A）を得るステップ、前記B）を得るステップ、前記C）を生成するステップ、および前記D）を生成するステップは、前記１つまたは複数のプロセッサによって実行されるための１つまたは複数のプログラムを記憶する１つまたは複数のプロセッサおよびメモリを有するコンピュータシステムにおいて実行される、請求項１～６６のいずれか一項に記載の方法。
癌状態を識別または指示する複数の資格を有するメチル化パターンを識別するためのコンピュータシステムであって、前記コンピュータシステムは、以下を備える、コンピュータシステム：
少なくとも１つのプロセッサ；
少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを記憶するメモリであって、前記少なくとも１つのプログラムは、命令を含む、メモリ：
A）第一のデータセットを電子形態で取得することであって、第一のデータセットは、第一の複数の断片における各断片の対応する断片メチル化パターンを含み、各断片の対応する断片メチル化パターン（i）は、第一の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）それぞれの断片における対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第一の複数の断片は、１０００を超える断片を含む；
B）第２のデータセットを取得することは、電子形態では、第２のデータセットを含み、第２のデータセットは、第２の複数のフラグメントにおける各フラグメントの対応するフラグメントメチル化パターンを含み、各フラグメントの対応するフラグメントメチル化パターンは、（i）第２の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）それぞれのフラグメントにおける対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第１の対象セットにおける各対象は、癌状態の第１の状態を有し、第２の対象セットにおける各対象は、癌状態の第２の状態を有し、第２の複数のフラグメントは、１０００を超えるフラグメントを含む；
C）第１のデータセットを使用して１つ以上の対応するゲノム領域について１つ以上の第１の状態間隔地図を生成する工程、ここで、：
１つまたは複数の第１の状態間隔地図内の各第１の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、５０を超えるノードを備える
１つまたは複数の第一の状態間隔地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する終了メチル化部位との間の第一のデータセット内の第一の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンについて、（i）異なる断片メチル化パターンの表現、および（ii）断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第一のデータセット内の断片のカウントを特徴とする；
D）第２のデータセットを使用して１つまたは複数の対応するゲノム領域について１つまたは複数の第２の状態間隔地図を生成する工程、ここで、：
１つまたは複数の第２の状態間隔地図内の各第２の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、５０を超えるノードを備える
１つまたは複数の第２の状態区間地図内の各対応する独立した複数のノード内のそれぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第２のデータセット内の第２の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンについて、（i）異なるフラグメントメチル化パターンの表現、および（ii）対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有する第２のデータセット内のフラグメントのカウントを特徴とする；
E）前記１つまたは複数の第１の間隔地図および前記１つまたは複数の第２の間隔地図を複数の適格性メチル化パターンについてスキャンすることであって、前記複数の適格性メチル化パターンにおける各適格性メチル化パターン：
（i）所定のCpG部位数の範囲内にある長さを有し、前記１つ以上の第１の間隔地図および前記１つ以上の第２の間隔地図のフラグメントメチル化パターン内に、
（ii）１つ以上の選択基準を満たし、
（iii）対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lにわたって、
これにより、がんの状態を識別または示す複数の適格なメチル化パターンが同定される。
プロセッサによって実行されると、癌状態を識別または示す複数の適格性メチル化パターンを識別するための方法をプロセッサに実行させる、プログラムコード命令をその上に記憶した非一時的コンピュータ可読記憶媒体であって、前記方法は、以下を含む、非一時的コンピュータ可読記憶媒体：
A）第一のデータセットを電子形態で取得することであって、第一のデータセットは、第一の複数の断片における各断片の対応する断片メチル化パターンを含み、各断片の対応する断片メチル化パターン（i）は、第一の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）それぞれの断片における対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第一の複数の断片は、１０００を超える断片を含む；
B）第２のデータセットを取得することは、電子形態では、第２のデータセットを含み、第２のデータセットは、第２の複数のフラグメントにおける各フラグメントの対応するフラグメントメチル化パターンを含み、各フラグメントの対応するフラグメントメチル化パターンは、（i）第２の対象セットにおける対応する対象から得られたそれぞれの生物学的試料からの核酸のメチル化配列決定によって決定され、（ii）それぞれのフラグメントにおける対応する複数のCpG部位における各CpG部位のメチル化状態を含み、第１の対象セットにおける各対象は、癌状態の第１の状態を有し、第２の対象セットにおける各対象は、癌状態の第２の状態を有し、第２の複数のフラグメントは、１０００を超えるフラグメントを含む；
C）第１のデータセットを使用して１つ以上の対応するゲノム領域について１つ以上の第１の状態間隔地図を生成する工程、ここで、：
１つまたは複数の第１の状態間隔地図内の各第１の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、５０を超えるノードを備える
１つまたは複数の第一の状態間隔地図内の各対応する独立した複数のノード内の各ノードは、対応する開始メチル化部位、対応する終了メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する終了メチル化部位との間の第一のデータセット内の第一の複数の断片にわたって観察されるそれぞれの異なる断片メチル化パターンについて、（i）異なる断片メチル化パターンの表現、および（ii）断片メチル化パターンが対応する開始メチル化部位で開始し、対応する終了メチル化部位で終了し、異なる断片メチル化パターンを有する第一のデータセット内の断片のカウントを特徴とする；
D）第２のデータセットを使用して１つまたは複数の対応するゲノム領域について１つまたは複数の第２の状態間隔地図を生成する工程、ここで、：
１つまたは複数の第２の状態間隔地図内の各第２の状態間隔地図は、対応する独立した複数のノードを備え、対応する独立した複数のノードは、５０を超えるノードを備える
１つまたは複数の第２の状態区間地図内の各対応する独立した複数のノード内のそれぞれのノードは、対応する開始メチル化部位、対応する端部メチル化部位、および対応する開始メチル化部位とそれぞれのノードの対応する端部メチル化部位との間の第２のデータセット内の第２の複数のフラグメントにわたって観察されるそれぞれの異なるフラグメントメチル化パターンについて、（i）異なるフラグメントメチル化パターンの表現、および（ii）対応する開始メチル化部位で開始し、対応する端部メチル化部位で端部し、異なるフラグメントメチル化パターンを有する第２のデータセット内のフラグメントのカウントを特徴とする；
E）前記１つまたは複数の第１の間隔地図および前記１つまたは複数の第２の間隔地図を複数の適格性メチル化パターンについてスキャンすることであって、前記複数の適格性メチル化パターンにおける各適格性メチル化パターン：
（i）所定のCpG部位数の範囲内にある長さを有し、前記１つ以上の第１の間隔地図および前記１つ以上の第２の間隔地図のフラグメントメチル化パターン内に、
（ii）１つ以上の選択基準を満たし、
（iii）対応する初期CpG部位と対応する最終CpG部位との間の対応するCpG間隔lにわたって、
これにより、がんの状態を識別または示す複数の適格なメチル化パターンが同定される。