JP2023540221A

JP2023540221A - バリアントの起源を予測するための方法およびシステム

Info

Publication number: JP2023540221A
Application number: JP2023513344A
Authority: JP
Inventors: ロスキーティングエプラー，
Original assignee: ガーダントヘルス，インコーポレイテッド
Priority date: 2020-08-25
Filing date: 2021-08-25
Publication date: 2023-09-22
Also published as: EP4205126A1; WO2022046947A1; US20240021271A1

Abstract

コンピュータを少なくとも部分的に使用して、試験対象から得られた試験試料中の腫瘍起源核酸バリアントと非腫瘍（例えば、未確定の潜在能をもつクローン性造血（ＣＨＩＰ））起源核酸バリアントとを互いに差別化するための方法が、本明細書で提供される。他の態様は、対象における疾患を処置する方法を対象とする。さらに他の態様は、腫瘍起源核酸バリアントと非腫瘍起源核酸バリアントとを互いに差別化するために使用される関連システムおよびコンピュータ可読媒体を含む。

Description

関連する特許出願への相互参照
本願は、２０２０年８月２５日に出願した米国仮出願第６３／０７０，１８２号に基づく優先権を主張するものであり、前記仮出願は、これによりその全体が参照により本明細書に組み込まれる。

背景
液体生検次世代シークエンシング（ＮＧＳ）アッセイでは、白血球が起源である核酸バリアントからの交絡ゲノムシグナルが見られることは公知である。骨髄における幹細胞である「白血球」は、分裂して新しい血液細胞を産生し、細胞分裂のたびに、ＤＮＡ複製の間違いが発生し得る可能性がある。幹細胞における高い細胞分裂率は変異の蓄積を可能にし、その結果、これらの変異を共有する娘血液細胞が、たとえこれらの細胞が非がん性であったとしても、産生される。血液細胞の変異の蓄積は、未確定の潜在能をもつクローン性造血（ＣＨＩＰ）と呼ばれる。遺伝子の特定のサブセットに見られるバリアントが交絡ＣＨＩＰシグナルの大半を提供することは十分に理解されているが、今のところ、これらの遺伝子に見られるバリアントが白血球から生じるのか、腫瘍から生じるのかを判定することは困難である。

したがって、腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントとを互いに差別化する方法が必要である。

要旨
試料が、がん起源のものであるのか非がん起源のものであるのかを予測または決定する方法が開示される。

複数のゲノム領域に関連する複数の配列断片の配列データを決定するステップであって、配列データが、複数の配列リードを含み、複数の配列リードが、複数の試料からの複数の配列断片からシークエンシングされ、複数の試料のうちの各試料が、腫瘍由来または非腫瘍由来とラベルされる、ステップ；複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップ；配列データの少なくとも一部分、およびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、予測モデルのための複数の特徴を決定するステップ；配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第１の部分に基づいて、複数の特徴に従って予測モデルを訓練するステップ；配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第２の部分に基づいて、予測モデルを試験するステップ；ならびに試験するステップに基づいて、予測モデルを出力するステップを含む方法が、開示される。

対象について、複数のゲノム領域に関連する複数の配列断片の配列データを決定するステップであって、配列データが、複数の配列リードを含み、複数の配列リードが、対象からの試料からの複数の配列断片からシークエンシングされる、ステップ；複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップ；訓練された予測モデルに、配列データの少なくとも一部分、およびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分を提供するステップ；ならびに予測モデルに基づいて、試料が腫瘍由来または非腫瘍由来であることを決定するステップを含む方法が、開示される。

コンピュータを少なくとも部分的に使用して、試験対象から得られた試験試料中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントとを互いに差別化する方法であって、コンピュータにより、標的ゲノム領域のセットの中の試験核酸バリアントを、試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ；コンピュータにより、同定された試験核酸バリアントのセットの中の複数の同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、試験試料中の核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせるステップ；コンピュータにより、試験核酸バリアント－エピジェネティックシグネチャー群のセットの中の所与の試験核酸バリアント－エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントに対応する参照核酸バリアント－エピジェネティックシグネチャー群と、またはＣＨＩＰ起源核酸バリアントに対応する参照核酸バリアント－エピジェネティックシグネチャー群とマッチさせ、それによって、試験対象から得られた試験試料中の腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントとを互いに差別化するステップを含む方法が、開示される。

試験対象におけるがんを処置する方法であって、コンピュータにより、標的ゲノム領域のセットの中の核酸バリアントを、試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ；コンピュータにより、同定された試験核酸バリアントのセットの中の複数の同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、試験試料中の核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせるステップ；コンピュータにより、少なくとも１つの訓練された分類器を使用して、試験核酸バリアント－エピジェネティックシグネチャー群のセット中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントとを互いに差別化して、試験試料中に存在する差別化された腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントのセットを生じさせるステップ；および試験試料中に存在する差別化された腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントのセットの中の差別化された腫瘍起源核酸バリアントの１つまたは複数に基づいて、試験対象に少なくとも１つの療法を投与し、それによって試験対象におけるがんを処置するステップを含む方法が、開示される。

試験対象におけるがんを処置する方法であって、試験試料中に存在する差別化された腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントのセットの中の１つまたは複数の差別化された腫瘍起源核酸バリアントに基づいて、試験対象に少なくとも１つの療法を投与するステップを含み、差別化された腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントのセットが、コンピュータにより、標的ゲノム領域のセットの中の核酸バリアントを、試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせること；コンピュータにより、同定された試験核酸バリアントのセットの中の複数の同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、試験試料中の核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせること；およびコンピュータにより、少なくとも１つの訓練された分類器を使用して、試験核酸バリアント－エピジェネティックシグネチャー群のセット中の腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントとを互いに差別化することにより生じる、方法が、開示される。

訓練された分類器を、コンピュータを少なくとも部分的に使用して生成する方法であって、コンピュータにより、標的ゲノム領域の少なくとも１セットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ；コンピュータにより、同定された参照核酸バリアントのセットの中の複数の同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、参照試料中の核酸から得られたエピジェネティック情報から同定して、参照核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせるステップ；ならびにコンピュータにより、参照核酸バリアント－エピジェネティックシグネチャー群のセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、１つまたは複数の試験核酸バリアント－エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントおよび／または未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントを含むものとして分類するように構成されている、少なくとも１つの訓練された分類器を作出するステップを含む方法が、開示される。

訓練された分類器を、コンピュータを少なくとも部分的に使用して生成する方法であって、コンピュータにより、標的ゲノム領域の少なくとも１セットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ；コンピュータにより、同定された参照核酸バリアントのセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、標的ゲノム領域のセットの中の核酸バリアントを試験試料中の核酸から得られた配列情報から分類するように構成されている少なくとも第１のモデルを作出して、同定された試験核酸バリアントのセットを生じさせるステップ；コンピュータにより、同定された参照核酸バリアントのセットの中の複数の同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、参照試料中の核酸から得られたエピジェネティック情報から同定して、参照エピジェネティックシグネチャーのセットを生じさせるステップ；コンピュータにより、参照エピジェネティックシグネチャーのセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、試験核酸バリアント－エピジェネティックシグネチャー群のセットの中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントとを互いに差別化するように構成されている少なくとも第２のモデルを作出して、同定された試験核酸バリアントのセットを生じさせ、それによって訓練された分類器を生成するステップを含む方法が、開示される。

一部の実施形態では、本明細書で開示されるシステムおよび方法の結果は、レポートを生成するための入力データとして使用される。レポートは、紙または電子形式のものであり得る。例えば、バリアントおよび／または試料が腫瘍由来であるのか、非腫瘍由来であるのかの決定は、本明細書で開示される方法またはシステムによって決定された場合、そのようなレポートで直接表示することができる。

本明細書で開示される方法の様々なステップ、または本明細書で開示されるシステムにより実行されるステップは、同じもしくは異なる時点で、同じもしくは異なる地理的位置、例えば国において、および／または同じもしくは異なる人物により、実行され得る。

本出願に組み込まれ、その一部を構成する添付の図面は、ある特定の実施形態を例示し、本明細書の記載と共に、本明細書で開示される方法、コンピュータ可読媒体、およびシステムのある特定の原理を説明するように機能する。本明細書で提供される記載は、限定としてではなく例として含められる添付の図面と併せて読むと、より良く理解される。文脈が他を示さない限り、同様の参照数字は、これらの図面を通じて同様の構成要素を特定すると理解される。また、図面の一部または全ては、例示を目的とした概略表示であり得、示された要素の実際の相対的なサイズまたは位置を必ずしも示さないことが理解される。

図１は、一部の実施形態に従う、腫瘍由来核酸バリアントと非腫瘍由来核酸バリアントとを差別化する、例示的な方法ステップを概略的に示すフローチャートである。

図２は、本開示のある実施形態に従うエピジェネティック構成要素およびフラグメントミクス構成要素を含むシステムの例を示す。

図３は、無細胞（ｃｆ）ＤＮＡの断片をシークエンシングしてメチル化状態ベクトルを得るプロセスを示す。

図４は、末端モチーフを決定するための例となる方法を示す。

図５は、５’オーバーハングの程度を評価するための例となる方法を示す。

図６は、メチル化レベルを決定するための例となる方法を示す。

図７は、オーバーハングインデックスを決定するための例となる方法を示す。

図８は、予測モデルを生成するための例となるブロック図である。

図９は、例となる訓練方法を示すフローチャートである。

図１０は、機械学習に基づく分類器を使用するための例示的なプロセスの流れの図である。

図１１は、例となる方法を示す。

図１２は、例となる方法を示す。

図１３は、例となる方法を示す。

図１４は、例となる方法を示す。

図１５は、例となる方法を示す。

定義
本開示をより容易に理解することができるように、ある特定の用語が最初に下で定義される。以下の用語および他の用語についてのさらなる定義は、本明細書を通じて示され得る。下で示される用語の定義が、参照により組み込まれる特許出願または交付済み特許における定義と矛盾する場合には、本願で示される定義を、用語の意味を理解するために使用されたい。

本明細書および添付の特許請求の範囲で使用される場合、単数形「１つの（ａ）」、「１つの（ａｎ）」および「その（ｔｈｅ）」は、文脈による別段の明白な指図がない限り、複数の言及対象を含む。したがって、例えば、「方法（ａｍｅｔｈｏｄ）」への言及は、本明細書に記載されるタイプの、および／または本開示などを読むことで当業者には明らかになるタイプの、１つまたは複数の方法および／またはステップを含む。本明細で論じられる温度、濃度、時間、塩基または塩基対の数、カバレッジなどの前に暗黙の「約」があり、したがって、ほんのわずかな、非実質的な同等のものは、本開示の範囲内であることも、理解されるであろう。本願では、単数形の使用は、別段の具体的な記述がない限り複数形を含む。また、「含む（ｃｏｍｐｒｉｓｅ）」、「含む（ｃｏｍｐｒｉｓｅｓ）」、「含むこと（ｃｏｍｐｒｉｓｉｎｇ）」、「含有する（ｃｏｎｔａｉｎ）」、「含有する（ｃｏｎｔａｉｎｓ）」、「含有すること（ｃｏｎｔａｉｎｉｎｇ）」、「含む（ｉｎｃｌｕｄｅ）」、「含む（ｉｎｃｌｕｄｅｓ）」、および「含むこと（ｉｎｃｌｕｄｉｎｇ）」は、制限となるように意図されたものではない。

本明細書において使用される用語法が特定の実施形態の説明を目的にしたものに過ぎず、限定となるように意図されたものでないことも、理解されたい。さらに、別段の定義がない限り、本明細書で使用される全ての専門および科学用語は、本開示が属する技術分野の当業者によって一般に理解されているのと同じ意味を有する。方法、コンピュータ可読媒体、およびシステムについての記述、および特許請求の範囲への記載には、以下の用語法、およびその文法上の異表記が、下で示される定義に従って使用されることになる。

約：本明細書で使用される場合、目的の１つまたは複数の値または要素に適用される場合の「約」または「おおよそ」は、述べられている参照値または要素と同様である値または要素を指す。ある特定の実施形態では、用語「約」または「おおよそ」は、別段の記述がない限り、または文脈からそうでないことが明らかでない限り、述べられている参照値または要素の（それを超えるまたはそれに満たない）両方向に２５％、２０％、１９％、１８％、１７％、１６％、１５％、１４％、１３％、１２％、１１％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、またはそれ未満の％内に入る、値または要素の範囲を指す（ただし、そのような数が可能な値または要素の１００％を超える場合を除く）。

アダプター：本明細書で使用される場合、「アダプター」は、通常は少なくとも部分的に二本鎖であり、かつ所与の試料核酸分子のどちらかまたは両方の末端に連結させるために使用される、短い核酸（例えば、長さ約５００ヌクレオチド未満、約１００ヌクレオチド未満、または約５０ヌクレオチド未満）を指す。アダプターは、両末端がアダプターと隣接している核酸分子の増幅を可能にするための核酸プライマー結合部位、および／または様々な次世代シークエンシング（ＮＧＳ）応用などのシークエンシング応用のためのプライマー結合部位をはじめとするシークエンシングプライマー結合部位を含み得る。アダプターは、フローセル支持体またはこれに類するものに結合されたオリゴヌクレオチドなどの、捕捉用プローブのための結合部位も含み得る。アダプターは、本明細書に記載の核酸タグも含み得る。核酸タグは、核酸タグが所与の核酸分子のアンプリコンおよびシークエンシングリードに含まれるように、増幅プライマーおよびシークエンシングプライマー結合部位に対して通常は位置する。同じまたは異なる配列のアダプターを、核酸分子のそれぞれの末端に連結させることができる。ある特定の実施形態では、核酸タグがその配列の点で異なることを除いて、同じアダプターが、核酸分子のそれぞれの末端に連結される。一部の実施形態では、アダプターは、一方の末端が本明細書に記載されるように平滑末端化されているかまたは尾部を有するＹ型アダプターであって、同じく平滑末端化されている核酸分子に、または１つもしくは複数の相補的ヌクレオチドを伴う尾部を有する核酸分子に結合させるための、Ｙ型アダプターである。さらに他の例示的な実施形態では、アダプターは、分析されることになる核酸に結合させるための平滑末端または尾部を有する末端を含む、釣り鐘型アダプターである。他の例示的なアダプターとしては、Ｔを尾部に有するアダプターおよびＣを尾部に有するアダプターが挙げられる。

投与する：本明細書で使用される場合、治療剤（例えば、免疫学的治療剤、ＤＮＡ損傷応答（ＤＤＲ）阻害剤（例えば、ポリ（ＡＤＰ－リボース）ポリメラーゼ（ＰＡＲＰ）阻害剤（ＰＡＲＰｉ））など）を対象に「投与する」または「投与すること」は、組成物を対象に与えること、適用すること、または対象と接触させることを意味する。投与は、例えば、局所、経口、皮下、筋肉内、腹腔内、静脈内、髄腔内および皮内経路をはじめとする、いくつかの経路のいずれかによって遂行され得る。

アラインする：本明細書で使用される場合、核酸の文脈での「アラインする」、「アラインメント」、および「アラインすること」は、類似性の領域を同定するためにＤＮＡまたはＲＮＡの配列を並べることを指す。類似性は、配列間の機能的、構造的および／または進化的関係に関するものであり得る。ＤＮＡ配列のアラインメントは、１つの配列のゲノムＤＮＡと少なくとも１つの他の配列のゲノムＤＮＡのアラインメントを含む。そのようなアラインメントは、非ゲノムＤＮＡ、例えば、分子バーコード、パディング塩基、およびこれらに類するものを除外し得る。例えば、配列リードのゲノムＤＮＡは、配列リードに結合され得るあらゆる分子タグを除外して、参照ＤＮＡ配列のゲノムＤＮＡにアラインされ得る。

アレル：本明細書で使用される場合、「アレル」または「アレルバリアント」は、定義された遺伝子位置またはゲノム座位における特定の遺伝的バリアントを指す。アレルバリアントは、通常、アレルがヘテロ接合性であるのか、ホモ接合性であるのかに依存して５０％（０．５）または１００％の頻度で示される。例えば、生殖細胞系バリアントは遺伝され、通常、０．５または１の頻度を有する。しかし、体細胞バリアントは、後天的バリアントであり、通常は、＜０．５の頻度を有する。遺伝子座位のメジャーおよびマイナーアレルは、参照配列のヌクレオチドおよび参照配列とは異なるバリアントヌクレオチドによってそれぞれ占められている座位を持つ核酸を指す。遺伝子座位における測定値は、アレルが試料中に見られる頻度の測度となるアレル割合（ＡＦ）の形をとり得る。

増幅する：本明細書で使用される場合、核酸の文脈での「増幅する」または「増幅」は、少量のポリヌクレオチド（例えば、単一ポリヌクレオチド分子）から通常は始まる、ポリヌクレオチドの、またはポリヌクレオチドの一部分の、複数のコピーの産生を指し、増幅産物またはアンプリコンは、一般に検出可能である。ポリヌクレオチドの増幅は、様々な化学的および酵素的プロセスを包含する。

バーコード：本明細書で使用される場合、核酸の文脈での「バーコード」は、分子の識別子（分子バーコード）、パーティションの識別子（パーティションバーコード）または試料の識別子（試料バーコードまたは試料インデックス）としての機能を果たすことができる配列を有する核酸分子を指す。例えば、個々の「バーコード」配列は、通常は、最終データ分析の前に各リードを識別および選別することができるように、次世代シークエンシング（ＮＧＳ）ライブラリー調製中にＤＮＡ断片に付加される。

切断点：本明細書で使用される場合、核酸融合分子または対応するシークエンシングリードの文脈での「切断点」は、核酸融合体の融合した部分配列間の接合部における末端ヌクレオチド位置、または対応するシークエンシングリードで表される末端ヌクレオチド位置を指す。例えば、所与の分割配列リードは、その分割配列リードにおける第２の部分配列と連続しており、かつ第２の部分配列の５’側にある、第１の部分配列を含み、この第１の部分配列は、参照配列における第１の遺伝子座位に位置し、この第１の遺伝子座位は、第２の部分配列が位置するその参照配列内の第２の遺伝子座位と不連続である。この例では、分割配列リードの第１の部分配列は、３’末端ヌクレオチドに切断点を含むが、分割配列リードの第２の部分配列は、５’末端ヌクレオチドに切断点を含む。ある特定の応用では、切断点、例えばこれらの切断点は、「切断点対」と呼ばれる。

がん型：本明細書で使用される場合、「がん」、「がん型」または「腫瘍型」は、例えば病理組織診断により定義される、がんのタイプまたはサブタイプを指す。がん型は、任意の従来の基準により、例えば、所与の組織における存在（例えば、血液がん、中枢神経系（ＣＮＳ）、脳がん、肺がん（小細胞および非小細胞）、皮膚がん、鼻のがん、咽頭がん、肝臓がん、骨がん、リンパ腫、膵臓がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、乳がん、前立腺がん、卵巣がん、肺がん、腸管がん、軟部組織がん、神経内分泌がん、胃食道がん、頭頸部がん、婦人科がん、大腸がん、尿路上皮がん、固体がん、異種がん、同種がん）、原因不明、およびこれらに類するものに、ならびに／または同じ細胞系列（例えば、癌腫、肉腫、リンパ腫、胆管癌、白血病、中皮腫、黒色腫、もしくは膠芽細胞腫）に、ならびに／またはがんマーカー、例えば、Ｈｅｒ２、ＣＡ１５－３、ＣＡ１９－９、ＣＡ－１２５、ＣＥＡ、ＡＦＰ、ＰＳＡ、ＨＣＧ、ＫＲＡＳ、ＢＲＡＦ、ＮＲＡＳ、ホルモン受容体およびＮＭＰ－２２、を提示するがんに基づいて、定義され得る。がんはまた、ステージ（例えば、ステージ１、２、３または４）によって、および一次性であるのか、二次性であるのかによって、分類され得る。

無細胞核酸：本明細書で使用される場合、「無細胞核酸」は、細胞内に含有されておらず、別様に細胞に結合してもいない、核酸を指す。一部の実施形態では、「無細胞核酸」は、対象からの単離の時点で、細胞内に含有されておらず、別様に細胞に結合してもいない、核酸を指す。無細胞核酸は、例えば、対象からの体液（例えば、血液、血漿、血清、尿、脳脊髄液（ＣＳＦ）など）から供給される全ての非カプセル化核酸を含み得る。無細胞核酸は、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、循環ＤＮＡ、ｓｉＲＮＡ、ｍｉＲＮＡ、循環ＲＮＡ（ｃＲＮＡ）、ｔＲＮＡ、ｒＲＮＡ、核小体低分子ＲＮＡ（ｓｎｏＲＮＡ）、Ｐｉｗｉ結合ＲＮＡ（ｐｉＲＮＡ）、長鎖ノンコーディングＲＮＡ（長鎖ｎｃＲＮＡ）、および／またはこれらのいずれかの断片を含む、ＤＮＡ（ｃｆＤＮＡ）、ＲＮＡ（ｃｆＲＮＡ）およびこれらのハイブリッドを含む。無細胞核酸は、二本鎖のもの、一本鎖のもの、またはこれらのハイブリッドであり得る。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞壊死、アポトーシス、またはそれに類するプロセスによって、体液に放出され得る。がん細胞から体液に放出される無細胞核酸、例えば、循環腫瘍ＤＮＡ、（ｃｔＤＮＡ）もある。健康な細胞から放出されるものもある。ｃｔＤＮＡは、非カプセル化腫瘍由来断片化ＤＮＡであり得る。無細胞核酸の別の例は、母体血流中を自由に循環している胎児ＤＮＡであり、これは、無細胞胎児ＤＮＡ（ｃｆｆＤＮＡ）とも呼ばれる。無細胞核酸は、１つまたは複数のエピジェネティック改変を有することがあり、例えば、無細胞核酸は、アセチル化、５－メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化および／またはシトルリン化されていることがある。

細胞起源：本明細書で使用される場合、無細胞核酸の文脈での「細胞起源」は、所与の無細胞核酸分子が由来するまたは別様に生じる（例えば、アポトーシスプロセス、壊死プロセス、またはこれらに類することによって）、細胞型を意味する。ある特定の実施形態では、例えば、所与の無細胞核酸分子は、腫瘍細胞（例えば、がん性肺細胞など）が起源であることもあり、または非腫瘍細胞もしくは正常な細胞（例えば、非がん性肺細胞など）が起源であることもある。

分類器：本明細書で使用される場合、「分類器」は、試験データを入力データとして受信し、１つまたは別のクラス（例えば、ＤＮＡ損傷修復欠損（ＤＤＲＤ）を有するまたはＤＤＲＤを有さない、腫瘍ＤＮＡまたは非腫瘍ＤＮＡ）に属するものとしての入力データの分類を出力データとして生じさせる、アルゴリズムコンピュータコードを一般に指す。

未確定の潜在能をもつクローン性造血：本明細書で使用される場合、「未確定の潜在能をもつクローン性造血」または「ＣＨＩＰ」は、１つまたは複数の体細胞変異（例えば、血液がん関連変異および／または非がん関連変異）を含むが、それ以外の点では悪性血液疾患の診断基準、例えば、異形成の明確な形態的証拠を欠く、造血幹細胞の拡大増殖を含む個体における造血を指す。ＣＨＩＰは、造血幹細胞が血液細胞の遺伝的に異なる亜集団の形成に寄与する一般的な加齢関連現象である。

連続する配列：本明細書で使用される場合、「連続する配列」または「コンティグ」は、核酸のコンセンサス領域を一緒に表す、オーバーラップ核酸セグメントのセットを指す。

コピー数バリアント：本明細書で使用される場合、「コピー数バリアント」、「ＣＮＶ」、または「コピー数多様性」は、ゲノムの区画が反復されてゲノム内のリピート数が考慮中の集団内の個体間で異なる現象を指す。

カバレッジ：本明細書で使用される場合、用語「カバレッジ」、「総分子計数値」または「総アレル計数値」は、同義で使用される。これらの用語は、所与の試料中の特定のゲノム位置におけるＤＮＡ分子の総数を指す。

デオキシリボ核酸またはリボ核酸：本明細書で使用される場合、「デオキシリボ核酸」または「ＤＮＡ」は、糖部分の２’位に水素基を有する、天然または改変ヌクレオチドを指す。典型的に、ＤＮＡは、４つのタイプの核酸塩基、すなわち、アデニン（Ａ）、チミン（Ｔ）、シトシン（Ｃ）およびグアニン（Ｇ）、のうちの１つを含むデオキシリボヌクレオシドを含むヌクレオチド鎖を指す。本明細書で使用される場合、「リボ核酸」または「ＲＮＡ」は、糖部分の２’位にヒドロキシル基を有する、天然または改変ヌクレオチドを指す。典型的に、ＲＮＡは、４つのタイプの核酸塩基、すなわち、Ａ、ウラシル（Ｕ）、ＧおよびＣ、のうちの１つを含むリボヌクレオシドを含むヌクレオチド鎖を指す。本明細書で使用される場合、用語「ヌクレオチド」は、天然ヌクレオチドまたは改変ヌクレオチドを指す。ある特定のヌクレオチド対は、相補的な形で互いに特異的に結合する（これは、相補的塩基対合と呼ばれる）。ＤＮＡでは、アデニン（Ａ）は、チミン（Ｔ）と対合し、シトシン（Ｃ）は、グアニン（Ｇ）と対合する。ＲＮＡでは、アデニン（Ａ）は、ウラシル（Ｕ）と対合し、シトシン（Ｃ）は、グアニン（Ｇ）と対合する。第１の核酸鎖が、第１の鎖内のものと相補的であるヌクレオチドで構成されている第２の核酸鎖に結合する場合、これら２本の鎖は、二重鎖を形成するように結合する。本明細書で使用される場合、「核酸シークエンシングデータ」、「核酸シークエンシング情報」、「配列情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、または「断片配列」、または「核酸シークエンシングリード」は、ＤＮＡまたはＲＮＡなどの核酸の分子（例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片）中のヌクレオチド塩基（例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル）の順序および同一性を示す任意の情報またはデータを意味する。本教示が、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的ヌクレオチド同定システム、パイロシークエンシング、イオンまたはｐＨに基づく検出ステム、および電子署名に基づくシステムを含むがこれらに限定されない、あらゆる利用可能な種類の技法、プラットフォームまたは技術を使用して得られる配列情報を企図していることを、理解されたい。

検出する：本明細書で使用される場合、「検出する」、「検出すること」、または「検出」は、試料中の１つまたは複数の標的核酸（例えば、標的変異または他のマーカーを有する核酸）の存在（ｅｘｉｓｔｅｎｃｅ）または存在（ｐｒｅｓｅｎｃｅ）を決定する行為を指す。

濃縮試料：本明細書で使用される場合、「濃縮試料」は、目的の特定の領域が濃縮された試料を指す。目的の領域を増幅することにより、または目的の核酸分子にハイブリダイズすることができる一本鎖ＤＮＡ／ＲＮＡプローブもしくは二本鎖ＤＮＡプローブ（例えば、ＳｕｒｅＳｅｌｅｃｔ（登録商標）プローブ、ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）を使用することにより、試料を濃縮することができる。一部の実施形態では、濃縮試料は、濃縮される処理された試料のサブセットまたは一部分を指し、濃縮される処理された試料のこのサブセットまたは一部分は、無細胞ポリヌクレオチドの試料またはポリヌクレオチドの試料からの核酸分子を含有する。

エピジェネティック情報：本明細書で使用される場合、ＤＮＡポリマーの文脈での「エピジェネティック情報」は、そのポリマーにおいて示される１つまたは複数のエピジェネティックパターンまたはシグネチャーを意味する。

エピジェネティック座位：本明細書で使用される場合、「エピジェネティック座位」または「エピジェネティック部位」は、ヌクレオチド配列の変化または変更を伴わない異なる状態またはステータスを示す染色体上の定位置を意味する。誤解を避けるために、所与のエピジェネティック座位は、遺伝的または配列多様性（例えば、変異）も示す所与のヌクレオチド位置またはゲノム領域と一致し得る。例えば、所与のエピジェネティック座位は、アセチル化、メチル化（例えば、５－メチルシトシン（５ｍＣ）で改変、５－ヒドロキシメチルシトシン（５ｈｍＣ）で改変、および／または同様に改変）、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、シトルリン化されていることもあり、またはされていないこともあり、ヒストン翻訳後改変もしくは他のヒストン多様性、および／またはこれらに類することを有することもあり、有さないこともある。

エピジェネティック率：本明細書で使用される場合、「エピジェネティック率」は、ＤＮＡ分子中の所与のエピジェネティック特徴についての確率、尤度、またはパーセンテージを指す。例えば、エピジェネティック特徴が、メチル化である場合には、エピジェネティック率は、ＤＮＡ分子上の所与の塩基（例えば、ＣｐＧ中のシトシン残基）がメチル化される確率、尤度、またはパーセンテージを指す。一部の実施形態では、エピジェネティック率は、ＤＮＡ分子中の所与のエピジェネティック特徴を有する残基（例えば、ＣｐＧ残基）のパーセンテージを指す。一部の実施形態では、エピジェネティック率は、特定のゲノム位置またはゲノム領域にアラインされた分子中の所与のエピジェネティック特徴を有する残基（例えば、ＣｐＧ残基）のパーセンテージを指す。

エピジェネティック率閾値：本明細書で使用される場合、「エピジェネティック率閾値」は、試料中の腫瘍ＤＮＡの存在を決定するために使用される、エピジェネティック率の所定の閾値を指す。例えば、特定のゲノム領域が、腫瘍内で高メチル化されている場合、したがって特定のゲノム領域におけるエピジェネティック率が、エピジェネティック率閾値より高い場合には、患者は、がんを有すると分類される。別の例では、特定のゲノム領域が、腫瘍内で低メチル化されている場合、したがって特定のゲノム領域におけるエピジェネティック率が、エピジェネティック率閾値より低い場合には、患者は、がんを有すると分類される。エピジェネティック率閾値を、腫瘍内の低メチル化ゲノム領域および腫瘍内の高メチル化ゲノム領域を含む実施形態に対応するように設定することができる。エピジェネティック率閾値を、既知腫瘍割合を有する訓練試料（健康なドナーおよびがん患者または人為的な試料）のセットに基づいて決定することができる。一部の実施形態では、エピジェネティック率閾値は、複数のゲノム領域のうちの１つまたは複数についてのエピジェネティック率に適用される。

エピジェネティックシグネチャー：本明細書で使用される場合、「エピジェネティックシグネチャー」は、所与のＤＮＡ分子における１つまたは複数のエピジェネティック座位により示されるエピジェネティック状態またはステータスを意味する。例えば、所与のゲノム領域または座位（例えば、ＣＴＣＦ結合領域など）を含むＤＮＡ分子またはｃｆＤＮＡ断片は、これらのＤＮＡ分子の一部が、メチル化されているある特定の数のエピジェネティック座位を含む、エピジェネティックパターンを示すこともあるが、他の事例では、同じゲノム領域を含む他のＤＮＡ分子またはｃｆＤＮＡ断片における対応するエピジェネティック座位がメチル化されていない。「メチル化シグネチャー」は、所与のＤＮＡ分子における１つまたは複数のエピジェネティック座位により示されるメチル化状態またはステータスに関連するエピジェネティックシグネチャーを意味する。

融合事象：本明細書で使用される場合、「融合事象」は、特定の位置における少なくとも２つの別々の遺伝子間の融合を指す。融合事象の原因例としては、転座、中間部欠失、または染色体逆位事象が挙げられる。

遺伝子：本明細書で使用される場合、「遺伝子」は、生物学的機能に関連するＤＮＡの任意のセグメントを指す。したがって、遺伝子は、コード配列、および必要に応じて、それらの発現に必要な調節配列を含む。遺伝子はまた、必要に応じて、例えば他のタンパク質の認識配列を形成する、非発現ＤＮＡセグメントを含む。

ゲノム領域：本明細書で使用される場合、「ゲノム領域」は、遺伝子またはゲノムマーカーの位置などの、染色体上の定位置または区画を意味する。例示的なゲノムマーカーとしては、転写因子結合領域（例えば、ＣＴＣＦ結合領域など）、遠位調節エレメント（ＤＲＥ）、反復エレメント（例えば、マイクロサテライトなど）、イントロン－エクソンまたはエクソン－イントロン接合部、転写開始部位（ＴＳＳ）、およびこれらに類するものが挙げられる。

生殖細胞系変異：本明細書で使用される場合、「生殖細胞系変異」は、生殖細胞における変異、したがって、子孫に継代され得る変異を意味する。

ホモ接合型欠失：本明細書で使用される場合、「ホモ接合型欠失」または「両アレル性不活性化」は、所与の遺伝子の両方のアレルの喪失をもたらす、変異または核酸バリアントを指す。

半接合型欠失：本明細書で使用される場合、「半接合型欠失」または「片アレル性不活性化」は、所与の遺伝子の２つのアレルの一方の喪失をもたらす、変異または核酸バリアントを指す。「ヘテロ接合型欠失」は、所与の遺伝子の本来のまたは初期の２つのアレルが互いに異なる、半接合型欠失である。

インデル：本明細書で使用される場合、「インデル」は、対象のゲノムにおけるヌクレオチド位置の挿入または欠失を含む変異を指す。

機械学習アルゴリズム：本明細書で使用される場合、「機械学習アルゴリズム」は、コンピュータにより実行されるアルゴリズムであって、分析モデル構築、例えば、クラスタリング、分類またはパターン認識を自動化するアルゴリズムを一般に指す。機械学習アルゴリズムは、教師ありであることもあり、または教師なしであることもある。学習アルゴリズムとしては、例えば、人工ニューラルネットワーク（例えば、誤差逆伝播ネットワーク）、判別分析（例えば、ベイズ分類器またはフィッシャー分析）、サポートベクターマシン、決定木（例えば、再帰分割プロセス、例えば、ＣＡＲＴ分類および回帰木、またはランダムフォレスト）、線形分類器（例えば、線形重回帰（ＭＬＲ）、部分最小二乗（ＰＬＳ）回帰、および主成分回帰）、階層的クラスタリング、およびクラスター分析が挙げられる。機械学習アルゴリズムが学習するデータセットは、「訓練データ」と呼ばれ得る。

マッチ：本明細書で使用される場合、「マッチ」は、少なくとも第１の値またはエレメントが、少なくとも第２の値またはエレメントと少なくともほぼ等しいことを意味する。ある特定の実施形態では、例えば、ｃｆＤＮＡ試料からのＤＮＡ分子の少なくともサブセットの細胞起源は、ｃｆＤＮＡ断片特性の試験試料分布とｃｆＤＮＡ断片特性の参照試料分布との間に少なくとも実質的または近似的なマッチが存在するときに決定される。

マイナーアレル頻度：本明細書で使用される場合、「マイナーアレル頻度」は、マイナーアレル（例えば、最も頻度の高いアレルではない）が、対象から得られた試料などの所与の核酸集団に存在する頻度を指す。低いマイナーアレル頻度の遺伝的バリアントは、通常は、試料中の存在頻度が相対的に低い。

変異型アレル割合：本明細書で使用される場合、「変異型アレル割合」または「ＭＡＦ」は、所与の試料中の所与のゲノム位置における参照に対してアレル変更または変異を内部に持つ核酸分子の割合を指す。ＭＡＦは、一般に、割合またはパーセンテージとして表される。例えば、ＭＡＦは、通常は、所与の座位に存在する全ての体細胞バリアントまたはアレルの約０．５、０．１、０．０５、または０．０１未満（すなわち、約５０％、１０％、５％、または１％未満）である。

最大変異型アレル割合：本明細書で使用される場合、「最大変異型アレル割合」、「最大ＭＡＦ」、または「ＭＡＸＭＡＦ」は、所与の試料に存在するまたは見られる全ての体細胞バリアントの最大または最も大きいＭＡＦを指す。

変異：本明細書で使用される場合、「変異」、「核酸バリアント」、「バリアント」、または「遺伝子異常」は、既知の参照配列からの変動を指し、例えば、一塩基バリアント（ＳＮＶ）、コピー数バリアントまたは多様性（ＣＮＶ）／異常、挿入または欠失（インデル）、短縮化、遺伝子融合、トランスバージョン、転座、フレームシフト、重複、リピート伸長、およびエピジェネティックバリアントなどの、変異を含む。変異は、生殖細胞系または体細胞変異であり得る。一部の実施形態では、比較目的の参照配列は、試験試料を提供する対象の種の野生型ゲノム配列、通常はヒトゲノムである。ある特定の場合には、変異またはバリアントは、腫瘍形成を引き起こす、または腫瘍形成に少なくとも寄与する、「腫瘍関連遺伝的バリアント」である。

次世代シークエンシング：本明細書で使用される場合、「次世代シークエンシング」または「ＮＧＳ」は、旧来のサンガーおよびキャピラリー電気泳動に基づく手法と比較してスループットが増大した、例えば、何十万もの比較的短い配列リードを同時に生成する能力がある、シークエンシング技術を指す。次世代シークエンシング技法の一部の例としては、一塩基合成法、ライゲーションによるシークエンシング、およびハイブリダイゼーションによるシークエンシングが挙げられるが、これらに限定されない。

核酸タグ：本明細書で使用される場合、「核酸タグ」は、短い核酸（例えば、長さ約５００、約１００、約５０または約１０ヌクレオチド未満）であって、異なるタイプの、もしくは異なる処理を経た、異なる試料からの核酸を区別するために核酸分子を標識するために使用される核酸（例えば、試料インデックスを表す）、または異なるタイプの、もしくは異なる処理を経た、同じ試料中の異なる核酸分子を区別するために核酸分子を標識するために使用される核酸（例えば、分子タグを表す）を指す。核酸タグは、一本鎖状、二本鎖状、または少なくとも部分的に二本鎖状であることがある。核酸タグは、必要に応じて、同じ長さまたは多様な長さを有する。核酸タグは、１つもしくは複数の平滑末端を有する二本鎖分子を含むこともあり、５’もしくは３’一本鎖領域（例えば、オーバーハング）を含むこともあり、および／または１つもしくは複数の他の一本鎖領域を所与の分子内の他の位置に含むこともある。核酸タグを、他の核酸（例えば、増幅および／またはシークエンシングされることになる試料核酸）の一方の末端または両末端に結合させることができる。核酸タグを解読して、所与の核酸の起源試料、形態または処理などの情報を明らかにすることができる。核酸タグを使用して、異なる核酸タグおよび／または試料インデックスを有する核酸を含む複数の試料のプールおよび／または並行処理を可能にすることもでき、これらの核酸は、その後、核酸タグを読み取ることによりデコンボリューションされる。核酸タグは、分子識別子もしくはタグ、試料識別子、インデックスタグ、および／またはバーコードと呼ばれることもある。加えてまたは代替的に、核酸タグを使用して同じ試料中の異なる分子を区別することができる。これは、例えば、所与の試料中の異なる核酸分子に一意的にタグ付けすること、またはそのような分子に非一意的にタグ付けすることを含む。非一意なタグ付け応用の場合には、限定数の異なる配列を有するタグを使用して、核酸分子にタグ付けすることができ、したがって、異なる分子を、例えば、それらが少なくとも１つの核酸タグとの組合せで選択された参照ゲノムに位置する開始および／または停止位置に基づいて、区別することできる。通常は、異なる核酸タグの十分な数が使用され、したがって、任意の２つの分子が、同じ開始／停止位置を有することになり、かつ同じ核酸タグも有することになる確率は低い（例えば、約１０％未満、約５％未満、約１％未満、または約０．１％未満の機会）。一部の核酸タグは、試料、試料の中の核酸分子の形態、ならびに同じ開始および停止位置を有する形態の中の核酸分子を標識するために、複数の分子識別子を含む。大文字の文字が、試料タイプを示し、アラビア数字が、試料の中の分子の形態を示し、小文字のローマ数字が、ある形態の中の分子を示す、例示的な形態「Ａ１ｉ」を使用して、そのような核酸タグを参照することができる。

核酸バリアント－エピジェネティックシグネチャー群：本明細書で使用される場合、「核酸バリアント－エピジェネティックシグネチャー群」は、互いに相関する核酸バリアントとエピジェネティックシグネチャー（例えば、核酸バリアントを含むゲノム領域に見られるエピジェネティックシグネチャー、またはこれに類するもの）を指す。

ポリヌクレオチド：本明細書で使用される場合、「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間連結により結合されたヌクレオシドの直鎖状ポリマー（デオキシリボヌクレオシド、リボヌクレオシド、またはこれらのアナログ）を指す。通常は、ポリヌクレオチドは、少なくとも３つのヌクレオシドを含む。オリゴヌクレオチドは、多くの場合、少数のモノマー単位、例えば３～４から、数百のモノマー単位まで、サイズに幅がある。ポリヌクレオチドが、「ＡＴＧＣＣＴＧ」などの文字の配列によって表される場合は常に、別段の断り書きがない限り、ヌクレオチドが左から右へ５’→３’の順序であること、およびＤＮＡの場合、「Ａ」がデオキシアデノシンを示し、「Ｃ」がデオキシシチジンを示し、「Ｇ」がデオキシグアノシンを示し、「Ｔ」がデオキシチミジンを示すことは、理解されるであろう。文字Ａ、Ｃ、ＧおよびＴは、当技術分野では一般的であるように、塩基自体を指すために使用されることもあり、ヌクレオシドを指すために使用されることもあり、または塩基を含むヌクレオチドを指すために使用されることもある。

保有率(ｐｒｅｖａｌｅｎｃｅ)：本明細書で使用される場合、核酸バリアントの文脈での「保有率」は、所与の核酸バリアントが、所与の試料（例えば、所与の体液試料、所与の非体液試料など）または他の集団（例えば、体液試料の所与の集団、非体液試料の所与の集団、など）に見られるまたは見られた程度、広汎性、または頻度を指す。

参照試料：本明細書で使用される場合、「参照試料」または「参照ｃｆＤＮＡ試料」は、分析手順の精度を評価するために試験試料と一緒に分析されるまたは試験試料と比較される、既知組成の、および／または特定の特性（例えば、既知核酸バリアント、既知細胞起源、既知腫瘍割合、既知カバレッジ、および／またはこれらに類すること）を有する、または有することもしくは欠いていることが分かっている、試料を指す。参照試料データセットは、通常は、少なくとも約２５～少なくとも約３０，０００またはそれより多くの参照試料を含む。一部の実施形態では、参照試料データセットは、約５０、７５、１００、１５０、２００、３００、４００、５００、６００、７００、８００、９００、１，０００、２，５００、５，０００、７，５００、１０，０００、１５，０００、２０，０００、２５，０００、５０，０００、１００，０００、１，０００，０００、またはそれより多くの参照試料を含む。

参照配列：本明細書で使用される場合、「参照配列」または「参照ゲノム」は、実験的に決定された配列と比較する目的で使用される既知配列を指す。例えば、既知配列は、全ゲノム、染色体、またはこれらの任意のセグメントであり得る。参照配列は、通常は、少なくとも約２０、少なくとも約５０、少なくとも約１００、少なくとも約２００、少なくとも約２５０、少なくとも約３００、少なくとも約３５０、少なくとも約４００、少なくとも約４５０、少なくとも約５００、少なくとも約１０００、少なくとも約１０，０００、少なくとも約１００，０００、少なくとも約１，０００，０００、少なくとも約１０，０００，０００、少なくとも約１００，０００，０００、少なくとも約１，０００，０００，０００、またはそれより多くのヌクレオチドを含む。参照配列をゲノムもしくは染色体の単一の連続する配列とアラインすることができ、または参照配列は、ゲノムもしくは染色体の異なる領域とアラインする不連続なセグメントを含み得る。例示的な参照配列としては、例えば、ヒトゲノム、例えば、ｈＧ１９およびｈＧ３８が挙げられる。

試料：本明細書で使用される場合、「試料」は、本明細書で開示される方法および／またはシステムにより分析することができる任意の生体試料を意味する。本開示のある特定の態様では、試料は、体液試料、例えば、無細胞（細胞内に含有されても、別様に細胞に結合されてもいない、循環）核酸が供給される体液のタイプの中でも特に、全血もしくはその画分、リンパ液、尿、および／または脳脊髄液である。ある特定のインプリメンテーションでは、体液試料は、血漿試料であり、これは、赤血球および白血球などの細胞を除く、全血の流体部分である。一部のインプリメンテーションでは、体液試料は、血清試料、すなわち、フィブリノゲンを欠いている血漿である。本開示の一部の態様では、試料は、「非体液試料」または「非血漿試料」、すなわち、「体液試料」以外の生体試料、例えば、無細胞核酸以外の核酸が供給される細胞および／または組織試料のような生体試料である。

感度：本明細書で使用される場合、所与のアッセイまたは方法の文脈での「感度」は、標的（例えば、核酸バリアント）分析物および非標的分析物を検出するならびにこれらを区別する、アッセイまたは方法の能力を指す。

配列断片：本明細書で使用される場合、「配列断片」は、長さが様々であり得、核酸分子の配列情報（または配列データ）を保有し得る、核酸分子またはその一部分を指す。配列情報は、配列断片のシークエンシングから得られるシークエンシングリードから導出され得る。

配列リード：本明細書で使用される場合、「配列リード」は、配列断片の全てまたは一部に対応するヌクレオチドの配列を指し、シーケンサー（例えば、これに限定されるものではないがＩｌｌｕｍｉｎａシーケンサーのような、次世代シーケンサー）により生成される。

シークエンシング：本明細書で使用される場合、「シークエンシング」は、生体分子、例えば、ＤＮＡまたはＲＮＡなどの核酸、の配列（例えば、同一性、およびモノマー単位の順序）を決定するために使用されるいくつかの技術のいずれかを指す。例示的なシークエンシング方法としては、標的シークエンシング、単一分子リアルタイムシークエンシング、エクソンまたはエクソームシークエンシング、イントロンシークエンシング、電子顕微鏡法に基づくシークエンシング、パネルシークエンシング、トランジスタ媒介シークエンシング、ダイレクトシークエンシング、ランダムショットガンシークエンシング、サンガージデオキシターミネーションシークエンシング、全ゲノムシークエンシング、ハイブリダイゼーションによるシークエンシング、パイロシークエンシング、キャピラリー電気泳動、デュプレックスシークエンシング、サイクルシークエンシング、一塩基伸長シークエンシング、固相シークエンシング、ハイスループットシークエンシング、大規模並列シグネチャーシークエンシング、エマルジョンＰＣＲ、より低い変性温度での共増幅－ＰＣＲ（ＣＯＬＤ－ＰＣＲ）、マルチプレックスＰＣＲ、可逆的ダイターミネーターによるシークエンシング、ペアエンドシークエンシング、ニアタームシークエンシング、エクソヌクレアーゼシークエンシング、ライゲーションによるシークエンシング、ショートリードシークエンシング、単一分子シークエンシング、一塩基合成法、リアルタイムシークエンシング、リバースターミネーターシークエンシング、ナノポアシークエンシング、４５４シークエンシング、ＳｏｌｅｘａＧｅｎｏｍｅＡｎａｌｙｚｅｒシークエンシング、ＳＯＬｉＤ（商標）シークエンシング、ＭＳ－ＰＥＴシークエンシング、およびこれらの組合せが挙げられるが、それらに限定されない。一部の実施形態では、シークエンシングは、例えば、数ある中でも特に、Ｉｌｌｕｍｉｎａ，Ｉｎｃ．、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ，Ｉｎｃ．、またはＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ／ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃから市販されている遺伝子分析装置などの、遺伝子分析装置により行うことができる。

配列情報：本明細書で使用される場合、核酸ポリマーの文脈での「配列情報」は、そのポリマー中のモノマー単位（例えば、ヌクレオチドなど）の順序および／または同一性を意味する。

配列モチーフ：本明細書で使用される場合、「配列モチーフ」は、ＤＮＡ断片（例えば、無細胞ＤＮＡ断片）中の塩基の短い、反復パターンを指し得る。配列モチーフは、断片の末端に存在し得、したがって、終了配列の一部であり得るかまたはそれを含み得る。「末端モチーフ」は、潜在的には特定の型の組織の、ＤＮＡ断片の末端に優先的に存在する終了配列の配列モチーフを指すことができる。末端モチーフは、断片の末端のすぐ前またはすぐ後ろに存在することによって終了配列になお対応することもある。ヌクレアーゼは、特定の末端モチーフに対する特異的な切断選好性はもちろん、第２の末端モチーフに対する２番目に選好度が高い切断選好性も有することがある。

一塩基バリアント：本明細書で使用される場合、「一塩基バリアント」または「ＳＮＶ」は、ゲノム内の特定の位置に存在する単一ヌクレオチドの変異または多様性を意味する。

体細胞変異：本明細書で使用される場合、「体細胞変異」は、受胎後に起こる所与のゲノムの変異を意味する。体細胞変異は、生殖細胞を除く身体のあらゆる細胞で起こるものであり得、したがって、子孫に継代されない。

特異度：本明細書で使用される場合、診断分析またはアッセイの文脈での「特異度」は、分析またはアッセイが所与の試料の他の成分を除外して意図された標的分析物を検出する程度を指す。

ステータス：本明細書で使用される場合、対象の文脈での「ステータス」は、所与の対象の１つまたは複数の状態、例えば、対象ががんを有するか否かを指す。

対象：本明細書で使用される場合、「対象」または「試験対象」は、動物、例えば、哺乳類種（例えば、ヒト）もしくはトリ（例えば、鳥）種、または他の生物、例えば植物を指す。より具体的には、対象は、脊椎動物、例えば、哺乳動物、例えばマウス、霊長類、サルまたはヒトであり得る。動物は、家畜（例えば、生産牛、乳牛、家禽、馬、豚、およびこれらに類するもの）、競技動物、および伴侶動物（例えば、ペットまたは支援動物）を含む。対象は、健康な個体、疾患もしくは疾患素因がある、もしくはある疑いがある個体、または療法を必要としている、もしくは療法を必要とする疑いがある個体であり得る。用語「個体」または「患者」は、「対象」と同義であるように意図されている。一部の実施形態では、対象は、がんを有する、または有する疑いがある、ヒトである。例えば、対象は、がんを有すると診断された個体、がん療法を受けることになる個体、および／または少なくとも１つのがん療法を受けたことがある個体であり得る。対象は、がんの寛解期にあることもある。別の例として、対象は、自己免疫疾患を有すると診断される個体であり得る。別の例では、対象は、疾患、例えば、がん、自己免疫疾患を有すると、もしくは有する疑いがあると診断されたことがあり得る妊娠している女性個体、または妊娠を計画している女性個体であり得る。「参照個体」は、特定の特性（例えば、既知がんもしくは疾患ステータス、既知核酸バリアント、既知細胞起源、既知腫瘍割合、既知カバレッジ、および／またはこれらに類すること）を有することまたは欠いていることが分かっている対象を指す。

閾値：本明細書で使用される場合、「閾値（ｔｈｒｅｓｈｏｌｄ）」は、実験的に決定された値を特徴付けるまたは分類するために使用される、別々に決定された値を指す。ある特定の実施形態では、例えば、「閾値（ｔｈｒｅｓｈｏｌｄｖａｌｕｅ）」は、所与の標的核酸バリアントが所与の遺伝子座位に非存在であることを決定するために定量値が比較される、選択された値を指す。

腫瘍割合：本明細書で使用される場合、「腫瘍割合」は、所与の試料中の腫瘍に由来する核酸分子の割合の推定値を指す。例えば、試料の腫瘍割合は、試料の最大変異型アレル頻度（ＭＡＸＭＡＦ）、または試料のカバレッジ、または試料中のｃｆＤＮＡ断片の長さ、エピジェネティック状態、もしくは他の特性、または試料の任意の他の選択された特徴から導出される測度であり得る。用語「ＭＡＸＭＡＦ」は、所与の試料中に存在する全ての体細胞バリアントの最大または最も大きいＭＡＦを指す。一部の実施形態では、試料の腫瘍割合は、試料のＭＡＸＭＡＦに等しい。

値：本明細書で使用される場合、「値」または「スコア」は、一般に、値が指す特徴を特徴付けるあらゆるものであり得るデータセット内の登録事項を指す。これは、数、語または句、記号（例えば、＋もしくは－）または程度を含むが、これらに限定されない。
詳細な説明
Ｉ．序論

試験対象から得られた核酸試料中の腫瘍および非腫瘍起源核酸バリアントを差別化または分類するための方法およびシステムが、本明細書で提供される。一部の態様では、方法およびシステムは、体細胞配列データ（例えば、体細胞ゲノムデータ）をエピジェネティックデータと結びつける。一部の態様では、方法およびシステムは、配列データをフラグメントミクスデータと結びつける。一部の態様では、方法およびシステムは、配列データをエピジェネティックデータおよびフラグメントミクスデータと結びつける。エピジェネティックデータおよび／またはフラグメントミクスデータは、配列データにおけるバリアントの起源（例えば、腫瘍または非腫瘍）の決定を助けるための追加のゲノムシグナルを提供し得る。例えば、バリアントは、未確定の潜在能をもつクローン性造血（ＣＨＩＰ）の結果であり得る。一部の態様では、核酸試料は、これらに限定されるものではないが、無細胞核酸（ｃｆＮＡ）、ゲノムＤＮＡ、またはＲＮＡであり得る。

ある特定の実施形態では、遺伝子における既知メチル化部位、またはＣＨＩＰ干渉が起こる可能性が高い他のエピジェネティック部位（例えば、ＤＮＭＴ３Ａ、ＴＰ５３、ＬＲＰ１Ｂ、ＫＲＡＳなど）を調査する標的ハイブリダイゼーションパネルの組込みを使用して、体細胞ゲノムデータにおけるバリアントの起源の決定に寄与することができる。

本開示の方法および関連態様を使用して、本質的に任意の数の遺伝子を必要に応じて評価することができる。一部の実施形態では、例えば、本明細書に記載の、分析の対象となる遺伝子のセットは、少なくとも約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、４０、５０、１００、１，０００、１０，０００、またはそれより多くの遺伝子を含む。遺伝子の非網羅的リストが表１で提供され、必要に応じて、これらの遺伝子のうちの１つまたは複数が、本明細書で開示される方法および関連態様を使用する評価に選択される。

特定の標的療法の候補者である患者を同定するために本明細書に記載されるように評価することができる遺伝子の例示的なセットが、表２に収載される。

図１は、試験対象から得られた無細胞核酸（ｃｆＤＮＡ）試料における腫瘍起源核酸バリアントと非腫瘍起源核酸バリアントの差別化または分類用に構成された分類器を生成するための、例となる人工知能（例えば、機械学習）技法を概略的に示すフローチャートである。示されているように、方法１００は、ステップ１０２において、データを、例えば、複数の対象の無細胞核酸（ｃｆＤＮＡ）試料からがん（例えば、腫瘍）起源および非がん起源配列データの形で得ることを含み得る。方法１００は、配列データに関連するまたは別様に由来するエピジェネティックデータおよび／またはフラグメントミクスデータを得ることも含み得る。配列データ、エピジェネティックデータ、およびフラグメントミクスデータは全て、ｃｆＤＮＡ試料中のゲノム領域から決定され得る。エピジェネティックデータは、例えば、ＤＮＡメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、タンパク質結合、またはヌクレオチド塩基配列のみから突き止められない分析される核酸断片に反映される他の分子の状態、例えば、所与の塩基もしくはセット塩基のメチル化状態に関する情報を含み得る。フラグメントミクスデータは、例えば、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置および／または断片の終点を示す任意の値に関する情報を含み得る。ある実施形態では、配列データにおける配列断片および／またはバリアントの起源もまた、配列データ、エピジェネティックデータ、および／またはフラグメントミクスデータに関連し得る。例えば、腫瘍由来であることが既知の配列断片および／またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、腫瘍由来とラベルすることができ、非腫瘍由来であることが既知の配列断片および／またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、非腫瘍由来とラベルすることができる。その上、さらなるラベル、例えば、がん型、組織型およびこれらに類するものを、割り当てることができる。

一部の実施形態では、本明細書で開示される方法、ならびに関連システムおよびコンピュータ可読媒体インプリメンテーションは、所与のセットの各メンバーｃｆＤＮＡ断片が互いに共通のゲノム領域を含む、ｃｆＤＮＡ試料からのＤＮＡ分子またはｃｆＤＮＡ断片のセットを同定することを含む。所与のゲノム領域を含むｃｆＤＮＡ断片が、少なくとも２つの細胞または組織型間で異なる特性（例えば、ｃｆＤＮＡ断片長、ｃｆＤＮＡ断片に含まれるゲノム領域の中点に対してのｃｆＤＮＡ断片の中点のオフセット、エピジェネティック状態、および／またはこれらに類すること）を示すのであれば、本質的に任意のゲノム領域を使用することができる。ある特定の実施形態では、例えば、ゲノム領域は、少なくとも２つの細胞または組織型間で差次的なクロマチン構成の領域を含む。より具体的には、ｃｆＤＮＡ試料中のＤＮＡ分子の断片化パターンは、ｃｆＤＮＡ断片の起源である細胞または組織のクロマチン構成についての情報を保有する。特に、血流に放出されるＤＮＡ断片は、多くの場合、起始細胞または原発組織中のヌクレオソームおよび／または他のＤＮＡ結合タンパク質の周囲で断片化または切断される。さらに、ヌクレオソームの配置およびＤＮＡ結合タンパク質の位置は、非常に組織特異的であり、それ故、ｃｆＤＮＡ断片の起源である細胞または組織（例えば、腫瘍細胞はもちろん、腫瘍微小環境にある細胞、および免疫応答に関与する細胞も）から来たシグナルを増幅するために本明細書では使用される。ある特定の実施形態では、ゲノム領域は、転写因子結合領域、遠位調節エレメント（ＤＲＥ）、反復エレメント、イントロン－エクソンもしくはエクソン－イントロン接合部（スプライスジャンクション）、転写開始部位（ＴＳＳ）、および／またはこれらに類するものを含む。

転写因子（または配列特異的ＤＮＡ結合因子）は、特定のＤＮＡ認識配列に結合することによってＤＮＡからメッセンジャーＲＮＡへの遺伝子情報の転写率を調節するタンパク質である。転写因子は、多くの場合、転写調節以外の他の細胞プロセスにも関与する。ヒトゲノムにはおよそ２６００の転写因子があると考えられている。転写因子は、それが調節する遺伝子に隣接したＤＮＡの特定の認識配列に結合する少なくとも１つのＤＮＡ結合ドメイン（ＤＢＤ）を含む。転写因子の非限定的な例としては、ＣＣＣＴＣ結合因子（ＣＴＣＦまたは１１－ジンクフィンガータンパク質）（認識配列：５’－ＣＣＧＣＧＮＧＧＮＧＧＣＡＧ－３’（配列番号１））、ＳＰ１（認識配列：５’－ＧＧＧＣＧＧ－３’）、Ｃ／ＥＢＰ（認識配列：５’－ＡＴＴＧＣＧＣＡＡＴ－３’（配列番号２））、ＡＰ－１（認識配列：５’－ＴＧＡ（Ｇ／Ｃ）ＴＣＡ－３’）、ｃ－Ｍｙｃ（認識配列：５’－ＣＡＣＧＴＧ－３’）、ＡＴＦ／ＣＲＥＢ（認識配列：５’－ＴＧＡＣＧＴＣＡ－３’）、およびＯｃｔ－１（認識配列：５’－ＡＴＧＣＡＡＡＴ－３’）が挙げられる。本明細書に記載される方法において使用されるゲノム領域は、必要に応じて、これらのまたは任意の他の転写因子認識配列または結合部位のうちの１つまたは複数を含む。転写因子および関連認識配列に関するさらなる詳細は、例えば、Latchman,"Transcription factors: an overview," The International Journal of Biochemistry & Cell Biology, 29(12):1305-12 (1997)およびPtashne et al., "Transcriptional activation by recruitment," Nature, 386(6625):569-77に記載されており、これらの参考文献は、参照により本明細書に組み込まれる。

さらに例を挙げて説明すると、ＣＴＣＦは、転写調節およびクロマチン構成を含むがこれらに限定されない、多くの細胞プロセスに関与する転写因子（転写受容体ＣＴＣＦ、１１－ジンクフィンガータンパク質、またはＣＣＣＴＣ結合因子としても公知）である。ＣＴＣＦへの結合は、組織特異的であり得、ＣＴＣＦ結合部位の上流および下流で強いヌクレオソーム構成を誘導し得る。それ故、例えばがん患者の血漿ｃｆＤＮＡに特有の組織の寄与に起因するそのようなヌクレオソーム構成の摂動を、これらの部位（ＣＴＣＦ結合領域）内のおよびその周囲のｃｆＤＮＡ断片を分析すること（フラグメントミクス）によって検出することができ、明らかにすることができる。ＣＴＣＦ結合部位などのゲノム領域の推論、および本明細書に記載される方法を行う際の使用に適応される関連態様に関するさらなる詳細は、２０１８年６月２９日に出願された米国仮特許出願第６２／６９２，４９５号において開示されており、この参考特許文献は、参照により本明細書に組み込まれる。

遠位調節エレメント（ＤＲＥ）は、転写調節に関与し、座位制御領域、エンハンサー、インシュレーター、およびサイレンシングエレメントを含む。ＤＲＥに関する結合部位は、本明細書に記載される方法において、必要に応じてゲノム領域として使用される。ＤＲＥに関するさらなる詳細は、例えば、Heintzman et al., "Finding distal regulatory elements in the human genome," Curr Opin Genet Dev, Dec; 19(6):541-549 (2009)に記載されており、この参考文献は、参照により本明細書に組み込まれる。

反復エレメントは、所与のゲノムおよび／またはゲノム集団の至る所に複数のコピーで存在するヌクレオチドの反復パターンである。反復エレメントの非限定的な例としては、マイクロサテライト、末端リピート、タンデムリピート、ミニサテライト、サテライトＤＮＡ、散在リピート、転位因子（例えば、ＤＮＡトランスポゾン、レトロトランスポゾン（例えば、ＬＴＲ型レトロトランスポゾン（ＨＥＲＶ）およびＬＴＲ型レトロトランスポゾン（ＨＥＲＶ））など）、クラスター化して規則的な配置の短い回文配列リピート（ＣＲＩＳＰＲ）、ダイレクトリピート、逆方向リピート、ミラーリピート、および反転リピートが挙げられる。本明細書に記載される方法において使用されるゲノム領域は、必要に応じて、１つまたは複数の反復エレメントを含む。反復エレメントに関するさらなる詳細は、例えば、de Koning et al., "Repetitive elements may comprise over two-thirds of the human genome," PLoS Genet 7.12 (2011)に記載されており、この参考文献は、参照により本明細書に組み込まれる。

エクソン／イントロンまたはイントロン／エクソン接合部（スプライスジャンクション）は、典型的に、ゲノム内の特異的な二重配列パターンを含み、ｍＲＮＡのＲＮＡスプライシングに関与する。これらの配列は、本明細書に記載される方法において、必要に応じてゲノム領域として使用される。エクソン／イントロンまたはイントロン／エクソン接合部および関連配列に関するさらなる詳細は、例えば、Mount, "A catalogue of splice junction sequences," Nucleic Acids Research, 10(2):459-472 (1982)に記載されており、この参考文献は、参照により本明細書に組み込まれる。

転写開始部位（ＴＳＳ）は、所与の遺伝子の５’末端の第１のＤＮＡヌクレオチドがＲＮＡに転写される位置である。ＴＳＳ配列は、本明細書に記載される方法において、必要に応じてゲノム領域として使用される。ＴＳＳに関するさらなる詳細は、例えば、Farman et al., "Nucleosomes positioning around transcriptional start site of tumor suppressor (Rbl2/p130) gene in breast cancer," Molecular Biology Reports, 45(2):185-194 (2018)に記載されており、この参考文献は、参照により本明細書に組み込まれる。

一部の実施形態では、本明細書で開示される方法、ならびに関連システムおよびコンピュータ可読媒体インプリメンテーションは、ｃｆＤＮＡ試料からのＤＮＡ分子の細胞起源を、これらのＤＮＡ分子の特性、例えば、これらの分子または断片により示されるエピジェネティックパターンを使用して、決定することを含む。本明細書において説明されるように、ゲノム領域のエピジェネティック変化は、多くの場合、これらのゲノム領域内のクロマチン構成およびヌクレオソーム位置の変化に付随して起こる。したがって、本開示の方法および関連態様は、これらのシグナル源を併用して、ｃｆＤＮＡ試料中の標的細胞（例えば、罹病細胞、例えば、腫瘍細胞またはこれに類するもの、胎児細胞、移植ドナー細胞、およびこれらに類するもの）の存在を検出する能力を増大する。

少なくとも２つの細胞または組織型間で差次的な改変（例えば、複製後改変またはこれに類するもの）を示す任意のエピジェネティック部位または座位を使用して、本開示の方法および関連態様を行うことができる。そのような部位の例としては、メチル化部位、アセチル化部位、ユビキチン化部位、リン酸化部位、ＳＵＭＯ化部位、リボシル化部位、シトルリン化部位、ヒストン翻訳後改変部位、ヒストンバリアント部位、および／またはこれらに類するものが挙げられる。複製後改変の例としては、数ある中でも特に、５－メチル－シトシン、５－ヒドロキシメチル－シトシン、５－カルボキシル－シトシン、および５－ホルミル－シトシンが挙げられる。エピジェネティック部位または座位に関するさらなる詳細は、例えば、Jin et al., "DNA Methylation: Superior or Subordinate in the Epigenetic Hierarchy?," Genes Cancer, 2(6):607-617 (2011)、Javaid et al., "Acetylation- and Methylation-Related Epigenetic Proteins in the Context of Their Target," Genes (Basel), 8(8):196 (2017)、Cao et al., "Histone Ubiquitination and Deubiquitination in Transcription, DNA Damage Response, and Cancer," Front Oncol, 2:26 (2012)、Rossetto et al., "Histone phosphorylation: A chromatin modification involved in diverse nuclear event," Epigenetics, 7(10):1098-1108 (2012)、Vranych et al., "SUMOylation and deimination of proteins: two epigenetic modifications involved in Giardia encystation," Biochim Biophys Acta, 1843(9):1805-17 (2014)、Sadakierska-Chudy et al., "A Comprehensive View of the Epigenetic Landscape. Part II: Histone Post-translational Modification, Nucleosome Level, and Chromatin Regulation by ncRNAs," Neurotox Res, 27:172-197 (2015)、Fuhrmann et al., "Protein Arginine Methylation and Citrullination in Epigenetic Regulation," ACS Chem Biol, 11(3):654-668 (2016)、Fan et al., "Metabolic regulation of histone post-translational modifications," ACS Chem Biol, 10(1):95-108 (2015)、およびHenikoff et al., "Histone Variants and Epigenetics," Cold Spring Harb Perspect Biol, 7(1) (2015)に記載されており、これらの参考文献は、参照により本明細書に組み込まれる。

エピジェネティック情報は、当業者に公知の任意の技法を使用してｃｆＤＮＡ断片から得ることができる。一部の実施形態では、例えば、所与のｃｆＤＮＡ試料からのＤＮＡ分子は、パーティションを生成するために物理的に分画（例えば、様々なメチル化度またはこれに類するものにｃｆＤＮＡ断片を階層化するためのメチル結合ドメインタンパク質（「ＭＢＤ」）ビーズでの分画）される。これらの実施形態では、分子タグ付きパーティションを生成するために、差次的分子タグおよびＮＧＳ利用可能なアダプターが、２つまたはそれより多くのパーティションの各々に適用される。加えて、これらの実施形態は、分子タグ付きパーティションをＮＧＳ機器でアッセイして、試料を差次的にパーティショニングされた分子にデコンボリューションするための配列データを生成して、エピジェネティック情報を生成することも含む。一部の実施形態では、バイサルファイトシークエンシング技法も、ｃｆＤＮＡ試料からエピジェネティック情報を生成するために使用される。本明細書で開示される方法を行う際の使用に必要に応じて適応されるエピジェネティック改変の分析に関するさらなる詳細は、例えば、２０１７年１２月２２日に出願されたＷＯ２０１８／１１９４５２に記載されており、この参考特許文献は、参照により本明細書に組み込まれる。

一部の実施形態では、本明細書で開示される方法ならびに関連システムおよびコンピュータ可読媒体インプリメンテーションは、核酸試料、例えばｃｆＤＮＡ試料からのＤＮＡ分子の細胞起源を、シークエンシングプロセスによって突き止められる配列（例えば、配列断片／リード）の特性、例えば、それらの分子または断片により示されるフラグメントミクスパターンを使用して、決定することを含む。ヒト血漿ＤＮＡは、異なるサイズのＤＮＡ断片の混合物を含み、したがって、配列断片のサイズは、フラグメントミクスシグネチャーの一部を形成し得る。サイズ最頻値は、おおよそ１６６塩基対（ｂｐ）であり、ヌクレオソーム構造に関係し得る。がん患者の血漿中の無細胞腫瘍由来ＤＮＡは、おおよそ１４３ｂｐのより短いサイズ最頻値を有する。ｃｔＤＮＡのサイズプロファイルは、がんを有さない対象よりがんを有する対象におけるほうが、短い長さ中央値を有し得、可変性が高いものであり得る。加えて、無細胞ＤＮＡサイズピークのパターンを使用して、腫瘍配列断片と非腫瘍配列断片とを区別することができる。

無細胞腫瘍由来ＤＮＡは、無細胞非腫瘍由来ＤＮＡと比較したとき異なる末端を示し得、したがって、末端モチーフはフラグメントミクスシグネチャーの一部を形成し得る。終了配列は、様々なヌクレオチドを特徴とし得るある特定のモチーフ、例えば、２－ヌクレオチドオリゴマー（２－ｍｅｒ）または４－ｍｅｒモチーフの過剰提示を明示する。多くのヒトがんは、ＤＮＡＳＥ１Ｌ３の発現の下方調節を示し、この下方調節は、ＤＮＡＳＥ１Ｌ３関連末端モチーフを有する血漿ＤＮＡの低減をもたらす。血漿ＤＮＡ末端モチーフは、それらの最大診断力を、比較的少数のＤＮＡ分子を分析することで得ることができることで、利点を実証する。例えば、コンピュータシミュレーションに基づいて、１０％の腫瘍ＤＮＡ割合で、それは、肝細胞癌を有する患者と有さない患者を差別化するために５０，０００個の血漿ＤＮＡ分子（各細胞のＤＮＡ含有量が、約２０，０００，０００個の無細胞ＤＮＡ分子に分画される）しか必要としないことになるが、少なくとも７，５００，０００のＤＮＡ分子が、１メガ塩基（Ｍｂ）のコピー数異常を検出するために必要とされることになる。血漿ＤＮＡにおける腫瘍由来一塩基バリアントの検出は、はるかに大きいシークエンシング深度（例えば、半数体ヒトゲノムカバレッジの＞２００倍）を必要とすることが示されている。

二本鎖無細胞ＤＮＡは、平滑末端またはジャギド末端を有することがあり、したがって、ジャギド末端の存在および／または程度は、フラグメントミクスシグネチャーの一部を形成し得る。突出またはジャギド末端を有する切断二本鎖ＤＮＡの生成に対する平滑末端を有する切断二本鎖ＤＮＡの生成への選好性は、ヌクレアーゼによって異なる。ジャギド末端は、メチル化シトシンまたは非メチル化シトシンのどちらかで修復され得、したがってジャギド末端の存在量は、ゲノムのものからのメチル化レベルの変化により測定され得る。ジャギド末端の頻度は、がん患者のｃｔＤＮＡにおいて増加されることが判明している。ジャギド末端の頻度をＤＮＡＳＥ１とＤＮＡＳＥ１Ｌ３との間の相対活性に関係付けることができ、前者はジャギド末端の頻度を増加させ、後者はジャギド末端の頻度を低下させる。

血漿ＤＮＡ断片化は、ある特定のゲノム領域が、「好ましい末端部位」と呼ばれる血漿ＤＮＡ断片の末端で切断されるおよび見いだされる傾向がより高い、非無作為プロセスであり、したがって、そのような部位は、フラグメントミクスシグネチャーの一部を形成し得る。これらの部位は、組織源の異なるＤＮＡ分子では異なり得る。無細胞ＤＮＡがヒトゲノムにアラインされたとき、それらの末端は、遺伝子位置（好ましい末端部位）でクラスタリングする傾向があり、この傾向は、ＤＮＡ分子間でそれらの起源組織によって異なり得る。所与のウイドウサイズ内の断片終点の数を引いた完全断片の数として計算され得るウインドウ保護スコアは、消化からのＤＮＡ保護についての情報を伝えることができ、これを使用してヌクレオソームの配置を推論することができる。無細胞ＤＮＡ終了位置－すなわち、上流側末端または下流側末端－のゲノムカバレッジおよび方向性情報は、原発組織のクロマチン構造（例えば、ＴＦ、転写因子）を反映している。

ｃｆＤＮＡに寄与する組織内のヒトゲノムにわたるヌクレオソームの主要な局所位置を、１つまたは複数の参照マップとのアラインされた断片終点の分布の比較またはその数学的変換により、推論することができる。フラグメントミクス分析に使用され得る値の例は、ＰＣＴ出願ＷＯ２０１６／０１５０５８に記載されているようなウインドウ化保護スコア（ＷｉｎｄｏｗｅｄＰｒｏｔｅｃｔｉｏｎＳｃｏｒｅ）（「ＷＰＳ」）であり、これはそのような配置を表すために開発されたものであり、したがって、フラグメントミクスシグネチャーの一部を形成し得る。具体的には、ｃｆＤＮＡ断片終点は、ヌクレオソームの境界に隣接してクラスタリングし、それと同時にヌクレオソーム自体でも枯渇されるはずであると予想される。ＷＰＳの値は、ｉｎｖｉｔｒｏ法または古代ＤＮＡを用いて他のグループによりマッピングされたように、強固に配置されたアレイ内のヌクレオソームの位置と相関する。他の部位で、ＷＰＳは、ゲノム特徴、例えば、ＤＮａｓｅＩ高感受性（ＤＨＳ）部位（例えば、遠位調節エレメントに隣接しているヌクレオソームの再配置と一致する）と相関する。フラグメントミクス分析は、典型的には、特定の遺伝子位置（１塩基またはそれより多い）に位置する断片終点の数に基づく値（単数または複数）を、その遺伝子位置におけるまたはその付近における配列データの量に正規化して、決定することを含み、したがって、フラグメントミクス値を、健康な個体と罹患した個体とを比較するためのモデルに入力して、試験対象における疾患の存在または非存在の可能性を決定することができる。例えば、１００００の対合末端リードが、５００ｂｐゲノム領域内に位置する末端を有し、１００の末端が、その５００ｂｐ領域内の単一塩基位置に位置する場合には、１００／１０００の値が、その単一塩基位置についてのフラグメントミクス値となり得る。理論により拘束されないが、フラグメントミクス値は、照合されるゲノム領域に結合されたタンパク質、例えばヒストンまたは転写因子の存在または非存在を示すように思われる。そのような結合されたタンパク質の存在または非存在は、結合されたタンパク質により保護されたＤＮＡへのヌクレアーゼの接近可能性に影響を与えると考えられる。

ある実施形態では、特徴エンジニアリングステップ１０４で、機械学習ステップ用の入力特徴が、例えば、配列データ、エピジェネティックデータ、フラグメントミクスデータ、これらの組合せ、およびそれらに類するものを分析することにより作出され得る。追加のまたは他のデータタイプを、必要に応じて、特徴エンジニアリングステップに使用することができる。方法１００はまた、データ正規化ステップ１０６において１つまたは複数の変換および／またはクリーンアップ、例えば、試料保有率のクリーンアップ（例えば、所与の核酸バリアント数が少ない試料、試料数が少ない試料などを調整する）プロセスを含むことができ、対数変換（例えば、Ｌｏｇ（ｘ＋１）またはＮｐ．ｌｏｇ１ｐ）を行うことができ、正規化（例えば、Ｙｅｏ－Ｊｏｈｎｓｏｎ正規化、ミニマックス正規化、ｚスコア正規化、および／またはこれらに類する正規化）を行うことができる（ステップ１０８）。

方法１００は、ステップ１０２で得られたデータから（例えば、訓練データセットの作出によって）生成された訓練データセットおよびステップ１０４からの入力特徴に従って、機械学習モデル（例えば、分類器）を生成する機械学習ステップ１０８を含み得る。機械学習モデルは、試験試料に存在する所与の核酸バリアントの起源が腫瘍または非腫瘍である１つまたは複数の可能性を提供、分類、予測または別様に決定するように構成され得る。機械学習ステップ１０８は、任意の機械学習技法、例えば、ロジスティック回帰または深層学習技法を使用し得る。訓練および分類に使用され得る例示的なモデルは、これらに限定されないが、ロジスティック回帰、プロビット回帰、決定木、ランダムフォレスト、勾配ブースティング、サポートベクターマシン、ｋ最近傍法、ニューラルネットワーク、またはこれらの方法の１つより多くのアンサンブルのうちの１つまたは複数を含み得る。アンサンブル法は、いくつかの機械学習技法を、分散を減少させるために（バギング）、バイアスを減少させるために（ブースティング）または予測を改善するために（スタッキング）、１つの予測モデルに統合する、メタアルゴリズムである。大部分のアンサンブル法は、均一なアンサンブルをもたらす均一な基本学習器、すなわち同じタイプの学習器を産生するために、単一の基本学習アルゴリズムを使用する。不均一なアンサンブルをもたらすために不均一な学習器、すなわち異なるタイプの学習器を使用する一部の方法もある。アンサンブル法がその個々のどのメンバーよりも高精度になるために、基本学習器は、できる限り正確でなければならず、できる限り多様でなければならない。

方法１００は、ステップ１１０において、バリアントに関連する配列データ、エピジェネティックデータおよび／またはフラグメントミクスデータが提供されたとき、バリアントの起源を分類または別様に予測するように構成されている機械学習モデル／分類器を出力し得る。

機械学習モデル／分類器を使用して、試験試料における新たに提示された配列断片および／またはバリアントの起源を決定することができる。起源は、腫瘍由来であることもあり、または非腫瘍由来であることもある。機械学習モデル／分類器により導出された、腫瘍として分類された配列断片および／またはバリアントを使用して、対象の処置を方向付けることができる。対象が疾患を有するかどうかが事前に不明であることもあり、対象が疾患を有することが既知であることもある。疾患は、がんであり得る。方法は、疾患を処置するために対象に１つまたは複数の療法を投与するステップを含み得る。療法は、化学療法を投与すること、放射線療法を投与すること、または腫瘍の全てもしくは一部分を切除するために外科手術を行うことを含み得る。方法は、腫瘍由来であるとの起源の決定を試験試料に関連する対象に通信することを支援するステップを含み得る。
ＩＩ．例示的なシステムおよび方法

図２は、本開示の実施形態に従って、試験対象２１１のバリアントの起源を決定するためのシステム２００の一例を示す。システム２００は、対象２１１からの１つまたは複数の試料２０１を処理して、バリアント検出およびバリアント起源決定のための配列リードを生成することができる。システム２００は、研究室システム２０２、コンピュータシステム２１０、および／または他の構成要素を含み得る。研究室システム２０２およびコンピュータシステム２１０が、互いに遠く離れたところにあり得、コンピュータネットワーク（図示されていない）によって互いに接続され得ることに留意されたい。研究所システム２０２は、試料収集および調製パイプライン２０３、シークエンシングパイプライン２０５、配列リードデータストア２０９、および／または他の構成要素を含み得る。シークエンシングパイプライン２０５は、１つまたは複数のシークエンシングデバイス２０７（図２にシークエンシングデバイス２０７ａ．．．ｎとして図示されている）を含み得る。

本開示の方法は、無細胞核酸の操作、調製、同定、定量化および／または分析において多種多様に使用することができる。図２に示されているように、試料収集および調製パイプライン２０３は、１つまたは複数の参照対象からｃｆＤＮＡ参照試料２０１を、および試験対象からｃｆＤＮＡ試験試料２１１を得ることを含み得る。本明細書に記載されるように、ポリヌクレオチドは、ＤＮＡおよび／またはＲＮＡなどの、任意のタイプの核酸を含み得る。例えば、ポリヌクレオチドがＤＮＡである場合、それは、ゲノムＤＮＡ、相補的ＤＮＡ（ｃＤＮＡ）、または任意の他のデオキシリボ核酸であり得る。ポリヌクレオチドはまた、無細胞核酸、例えば、無細胞ＤＮＡ（ｃｆＤＮＡ）であり得る。例えば、ポリヌクレオチドは、循環ｃｆＤＮＡであり得る。循環ｃｆＤＮＡは、アポトーシスまたは壊死によって体の細胞から排出されるＤＮＡを含み得る。アポトーシスまたは壊死によって排出されるｃｆＤＮＡは、正常な（例えば、健康な）体の細胞が起源であり得る。異常な組織増殖、例えば、がんのための異常な組織増殖がある場合、腫瘍ＤＮＡが排出され得る。循環ｃｆＤＮＡは、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含み得る。
ａ．試料

様々な技法を使用して試料を収集することによって、無細胞ポリヌクレオチドの単離および抽出を行うことができる。試料は、対象から単離された任意の生体試料であり得る。試料は、体内組織、全血、血小板、血清、血漿、糞便、赤血球、白血球またはロイコサイト、内皮細胞、組織生検材料（例えば、既知のまたは疑わしい固形腫瘍からの生検材料）、脳脊髄液、滑液、リンパ液、腹水、間質または細胞外液（例えば、間質腔からの流体）、歯肉滲出液、歯肉溝滲出液、骨髄、胸水、脳脊髄液、唾液、粘液、痰、精液、汗、尿を含み得る。試料は、好ましくは、体液、特に、血液およびその画分ならびに尿である。そのような試料は、腫瘍から排出された核酸を含む。核酸は、ＤＮＡおよびＲＮＡを含み得、二本鎖形態または一本鎖形態であり得る。試料は、対象から最初に単離された形態であることもあり、あるいは細胞などの成分を除去もしくは追加するための、ある成分を別の成分と比べて濃縮するための、または核酸のある形態を別の形態に、例えば、ＲＮＡをＤＮＡに、もしくは一本鎖核酸を二本鎖核酸に、変換するための、さらなる処理に付されたものであることもある。したがって、例えば、分析のための体液試料は、無細胞核酸、例えば無細胞ＤＮＡ（ｃｆＤＮＡ）、を含有する血漿または血清である。

一部の実施形態では、対象から採取される体液の試料体積は、シークエンシングされる領域についての所望の読み取り深度に依存する。例示的な体積は、約０．４～４０ｍｌ、約５～２０ｍｌ、約１０～２０ｍｌである。例えば、体積は、約０．５ｍｌ、約１ｍｌ、約５ｍｌ、約１０ｍｌ、約２０ｍｌ、約３０ｍｌ、約４０ｍｌ、またはそれを超えるミリリットルである。試料採取される血漿の体積は、通常は、約５ｍｌ～約２０ｍｌの間である。

試料は、様々な量の核酸を含み得る。通常は、所与の試料中の核酸の量は、複数のゲノム等価物と同等とみなされる。例えば、約３０ｎｇのＤＮＡの試料は、約１０，０００（１０^４）半数体ヒトゲノム等価物、およびｃｆＤＮＡの場合は約２００，０００，０００，０００（２×１０^１１）の個々のポリヌクレオチド分子を含有し得る。同様に、約１００ｎｇのＤＮＡの試料は、約３０，０００の半数体ヒトゲノム等価物、およびｃｆＤＮＡの場合は約６００，０００，０００，０００の個々の分子を含有し得る。

一部の実施形態では、試料は、異なる供給源からの、例えば、細胞からの、および無細胞源（例えば、血液試料など）からの、核酸を含む。通常は、試料は、変異を保有する核酸を含む。例えば、試料は、必要に応じて、生殖細胞系変異および／または体細胞変異を保有するＤＮＡを含む。通常は、試料は、がん関連変異（例えば、がん関連体細胞変異）を保有するＤＮＡを含む。本開示の一部の実施形態では、対象における無細胞核酸は、腫瘍に由来し得る。例えば、試料から単離された無細胞ＤＮＡは、ｃｔＤＮＡを含み得る。

増幅前の試料中の無細胞核酸の例示的な量は、通常は、約１フェムトグラム（ｆｇ）～約１マイクログラム（μｇ）、例えば、約１ピコグラム（ｐｇ）～約２００ナノグラム（ｎｇ）、約１ｎｇ～約１００ｎｇ、約１０ｎｇ～約１０００ｎｇの範囲である。一部の実施形態では、試料は、約６００ｎｇ以下、約５００ｎｇ以下、約４００ｎｇ以下、約３００ｎｇ以下、約２００ｎｇ以下、約１００ｎｇ以下、約５０ｎｇ以下、または約２０ｎｇ以下の無細胞核酸分子を含む。必要に応じて、量は、無細胞核酸分子少なくとも約１ｆｇ、少なくとも約１０ｆｇ、少なくとも約１００ｆｇ、少なくとも約１ｐｇ、少なくとも約１０ｐｇ、少なくとも約１００ｐｇ、少なくとも約１ｎｇ、少なくとも約１０ｎｇ、少なくとも約１００ｎｇ、少なくとも約１５０ｎｇ、または少なくとも約２００ｎｇである。ある特定の実施形態では、量は、無細胞核酸分子約１ｆｇ、約１０ｆｇ、約１００ｆｇ、約１ｐｇ、約１０ｐｇ、約１００ｐｇ、約１ｎｇ、約１０ｎｇ、約１００ｎｇ、約１５０ｎｇ、または約２００ｎｇ以下である。一部の実施形態では、方法は、試料から約１ｆｇ～約２００ｎｇの無細胞核酸分子を得るステップを含む。

無細胞核酸は、通常は、長さ約１００ヌクレオチド～長さ約５００ヌクレオチドの間のサイズ分布を有し、長さ約１１０ヌクレオチド～長さ約２３０ヌクレオチドの分子が試料中の分子の約９０％に相当し、最頻値は、約１６８ヌクレオチド長であり、第二の微小ピークが、長さ約２４０～約４４０ヌクレオチドの間の範囲にある。ある特定の実施形態では、無細胞核酸は、長さ約１６０～約１８０ヌクレオチド、または長さ約３２０～約３６０ヌクレオチド、または長さ約４４０～約４８０ヌクレオチドである。

一部の実施形態では、無細胞核酸は、分別ステップによって体液から単離され、このステップで、溶液中に見られる場合の無細胞核酸は、無傷細胞、および体液中の他の不溶性成分から分離される。これらのうちの一部の実施形態では、分別は、遠心分離または濾過などの技法を含む。あるいは、体液中の細胞は溶解され、無細胞核酸と細胞核酸が一緒に処理される。一般に、緩衝剤の添加および洗浄ステップ後、無細胞核酸は、例えばアルコールで、沈殿される。ある特定の実施形態では、夾雑物または塩を除去するためのシリカに基づくカラムなどの、追加の清浄化ステップが、使用される。例えば、非特異的バルク担体核酸が、収率などの例示的な手順のある特定の態様を最適化するために、反応を通じて、必要に応じて、添加される。そのような処理後、試料は、二本鎖ＤＮＡ、一本鎖ＤＮＡおよび／または一本鎖ＲＮＡをはじめとする、様々な形態の核酸を典型的に含む。必要に応じて、一本鎖ＤＮＡおよび／または一本鎖ＲＮＡは、後続の処理および分析ステップにそれらを含めるために、二本鎖形態に変換される。ｃｆＤＮＡ分別、および本明細書で開示される方法を行う際の使用に必要に応じて適応されるエピジェネティック改変の関連分析に関するさらなる詳細は、例えば、２０１７年１２月２２日に出願されたＷＯ２０１８／１１９４５２に記載されており、この参考特許文献は、参照により本明細書に組み込まれる。
ｂ．パーティショニング；エピジェネティック特徴の分析

本明細書に記載される、ある特定の実施形態では、異なる形態の核酸（例えば、対象からの試料中の高メチル化および低メチル化ＤＮＡ、例えば、タグ付きＤＮＡまたはそのアリコート）の集団を、分析、例えば、シークエンシング、またはタグ付けおよびシークエンシングの前に、核酸の１つまたは複数の特徴に基づいて物理的にパーティショニングすることができる。この手法を使用して、例えば、高メチル化可変エピジェネティック標的領域が、腫瘍細胞の高メチル化特徴を示すのか、もしくは低メチル化可変エピジェネティック標的領域が、腫瘍細胞の低メチル化特徴を示すのか、または疾患の存在を別様に示すのかを判定することができる。加えて、不均一な核酸集団をパーティショニングすることにより、稀なシグナルを、例えば、その集団の１画分（またはパーティション）においてより多く見られる稀な核酸分子を濃縮することにより、増加させることができる。例えば、高メチル化ＤＮＡに存在するが低メチル化ＤＮＡにはあまり（または全く）存在しない遺伝的多様性を、試料を高メチル化核酸分子と低メチル化核酸分子にパーティショニングすることによってより容易に検出することができる。試料の複数の画分を分析することにより、ゲノムの単一遺伝子座位または核酸の種の多次元分析を行うことができ、それ故、より高い感度を達成することができる。

一部の実施形態では、パーティションは、差次的にタグ付けされ、次いで、組み換えられた後、試料が第１のアリコートと第２のアリコートに分けられ、それに本明細書に記載される方法の後続のステップが続く。一部の実施形態では、第１のアリコートと第２のアリコートに分けられる試料は、低メチル化パーティションなどのパーティションであり、第２のアリコートは、方法の濃縮および／または他のステップに付される前に、高メチル化パーティションなどの少なくとも１つの他のパーティションと併せられる。

一部の事例では、不均一な核酸試料は、２つまたはそれより多くのパーティション（例えば、少なくとも３、４、５、６または７つのパーティション）にパーティショニングされる。一部の実施形態では、各パーティションは、差次的にタグ付けされる。次いで、タグ付けされたパーティションは、集団試料調製および／またはシークエンシングのために一緒にプールされ得る。パーティショニング－タグ付け－プールステップを１回より多く行うことができ、各パーティショニングラウンドは、異なる特徴（本明細書で提供される例）に基づいて、ならびに他のパーティションおよびパーティショニング手段と区別される差次的なタグを使用してタグ付けされて、行われる。

パーティショニングに使用され得る特徴の例としては、配列長、メチル化レベル、ヌクレオソーム結合、配列ミスマッチ、免疫沈降、および／またはＤＮＡに結合するタンパク質が挙げられる。結果として得られるパーティションは、次の核酸形態のうちの１つまたは複数を含み得る：一本鎖ＤＮＡ（ｓｓＤＮＡ）、二本鎖ＤＮＡ（ｄｓＤＮＡ）、より短いＤＮＡ断片、およびより長いＤＮＡ断片。一部の実施形態では、核酸の不均一集団は、１つまたは複数のエピジェネティック改変を有する核酸と、１つまたは複数のエピジェネティック改変を有さない核酸とにパーティショニングされる。エピジェネティック改変の例としては、メチル化の存在または非存在；メチル化レベル；メチル化のタイプ（例えば、他のタイプのメチル化、例えばアデニンメチル化および／またはシトシンヒドロキシメチル化に対する、５－メチルシトシン）；ならびにヒストンなどの１つまたは複数のタンパク質との会合および会合レベルが挙げられる。あるいは、または加えて、核酸の不均一集団を、ヌクレオソームを伴う核酸分子と、ヌクレオソームを欠いている核酸分子とにパーティショニングすることができる。あるいは、または加えて、核酸の不均一集団を、一本鎖ＤＮＡ（ｓｓＤＮＡ）と二本鎖ＤＮＡ（ｄｓＤＮＡ）とにパーティショニングすることができる。あるいは、または加えて、核酸の不均一集団を、核酸長（例えば、１６０ｂｐ以下の分子、および１６０ｂｐを超える長さを有する分子）に基づいてパーティショニングすることができる。

一部の事例では、各パーティション（異なる核酸形態を代表するもの）は、差次的に標識され、それらのパーティションは、シークエンシングの前に一緒にプールされる。他の事例では、異なる形態は、別々にシークエンシングされる。

試料は、ヌクレオチドへの複製後改変および１つまたは複数のタンパク質への結合、通常は非共有結合を含む、改変の点で異なる核酸を含み得る。

ある実施形態では、核酸の集団は、新生物、腫瘍もしくはがんを有する疑いがある対象または以前に新生物、腫瘍もしくはがんと診断された対象からの血清、血漿または血液試料から得られたものである。核酸の集団は、様々なレベルのメチル化を有する核酸を含む。メチル化は、任意の１つまたは複数の複製後または転写後改変から生じ得る。複製後改変は、ヌクレオチドシトシンの改変、特に、この核酸塩基の５位における改変、例えば、５－メチルシトシン、５－ヒドロキシメチルシトシン、５－ホルミルシトシンおよび５－カルボキシルシトシンを含む。

一部の実施形態では、元の集団における核酸は、一本鎖状および／または二本鎖状であり得る。核酸の二本鎖性に対する一本鎖性に基づくパーティショニングを、例えば、ｓｓＤＮＡをパーティショニングするために標識された捕捉用プローブを使用すること、およびｄｓＤＮＡをパーティショニングするために二本鎖アダプターを使用することにより、果たすことができる。

親和性剤は、所望の特異性を有する抗体、それらの天然の結合パートナーもしくはバリアント（Bock et al., Nat Biotech 28: 1106-1114 (2010)；Song et al., Nat Biotech 29: 68-72 (2011)）であることもあり、または例えば、ファージディスプレイにより所与の標的に対する特異性を有するように選択された、人工ペプチドであることもある。

本明細書で企図される捕捉用部分の例としては、本明細書に記載のメチル結合ドメイン（ＭＢＤ）およびメチル結合タンパク質（ＭＢＰ）が挙げられる。

同様に、異なる形態の核酸のパーティショニングを、ヒストンに結合した核酸を遊離もしくは未結合核酸から分離することができるヒストン結合タンパク質を使用して行うことができる。本明細書で開示される方法において使用され得るヒストン結合タンパク質の例としては、ＲＢＢＰ４（ＲｂＡｐ４８）およびＳＡＮＴドメインペプチドが挙げられる。

一部の親和性剤および改変物について、その薬剤への結合は、核酸が改変を有するかどうかに依存して、本質的に悉無律的に起こり得るが、分離は、度合いについてのものであり得る。そのような事例では、改変物において過剰提示される核酸は、その改変物において過少提示される核酸より大きな程度で薬剤に結合する。あるいは、改変を有する核酸は、全か無か的に結合し得る。とは言え、様々なレベルの改変物を、結合剤から逐次的に溶離することができる。

例えば、一部の実施形態では、パーティショニングは、バイナリであり得るか、または改変度／レベルに基づき得る。例えば、メチル結合ドメインタンパク質（例えば、ＭｅｔｈｙｌＭｉｎｅｒＭｅｔｈｙｌａｔｅｄＤＮＡＥｎｒｉｃｈｍｅｎｔＫｉｔ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ））を使用して、全てのメチル化断片を非メチル化断片からパーティショニングすることができる。その後、さらなるパーティショニングは、メチル結合ドメインと結合した断片とを有する溶液中の塩濃度を調整することにより、異なるメチル化レベルを有する断片を溶離することを含み得る。塩濃度が上昇するにつれて、より高いメチル化レベルを有する断片が溶離される。

一部の事例では、最終的なパーティションは、改変の程度が異なる核酸を代表するもの（改変の過剰代表または過少代表）である。過剰提示および過少提示を、集団における１鎖当たりの改変数中央値に対する核酸が有する改変数によって定義することができる。例えば、試料における核酸中の５－メチルシトシン残基数の中央値が２である場合、２つより多くの５－メチルシトシン残基を含む核酸は、この改変では過剰提示され、１またはゼロ個の５－メチルシトシン残基を有する核酸は、過少提示される。親和性分離の効果は、結合相での改変で過剰提示される核酸および未結合相で（すなわち、溶解状態で）の改変で過少提示される核酸を濃縮することである。結合相における核酸をその後の処理の前に溶離することができる。

ＭｅｔｈｙｌＭｉｎｅｒＭｅｔｈｙｌａｔｅｄＤＮＡＥｎｒｉｃｈｍｅｎｔＫｉｔ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ）を使用する場合、逐次的溶離を使用して様々なメチル化レベルをパーティショニングすることができる。例えば、磁気ビーズに結合されているキットからのＭＢＤと核酸集団を接触させることにより、低メチル化パーティション（例えば、無メチル化）をメチル化パーティションから分離することができる。ビーズは、メチル化核酸を非メチル化核酸から分離除去するために使用される。その後、メチル化レベルが異なる核酸を溶離するために、１つまたは複数の溶離ステップが逐次的に行われる。例えば、メチル化核酸の第１のセットを、１６０ｍＭまたはそれより高い、例えば、少なくとも２００ｍＭ、３００ｍＭ、４００ｍＭ、５００ｍＭ、６００ｍＭ、７００ｍＭ、８００ｍＭ、９００ｍＭ、１０００ｍＭ、または２０００ｍＭの塩濃度で溶離することができる。そのようなメチル化核酸が溶離された後、メチル化レベルがより高い核酸をメチル化レベルがより低いものから分離するために磁気分離がもう一度使用される。溶離および磁気分離ステップそれら自体が反復して、様々なパーティション、例えば、低メチル化パーティション（例えば、無メチル化を代表するもの）、メチル化パーティション（低メチル化レベルを代表するもの）、および高メチル化パーティション（高メチル化レベルを代表するもの）を作出することができる。

一部の方法では、親和性分離に使用される薬剤に結合した核酸は、洗浄ステップに付される。洗浄ステップは、親和性剤に弱く結合している核酸を洗浄除去する。そのような核酸では、改変を有する核酸が平均値または中央値（すなわち、試料と薬剤の最初の接触時に固相に結合したままの核酸と固相に結合していない核酸との中間）に近い程度に濃縮され得る。

親和性分離の結果として、改変の程度が異なる核酸の少なくとも２つのパーティションが得られ、３つまたはそれより多くのパーティションが得られることもある。パーティションは、さらに分離されるが、少なくとも１つの、通常は２つまたは３つの（またはそれより多くの）パーティションの核酸は、アダプターの成分として通常は提供される核酸タグに連結され、異なるパーティションの中の核酸には異なるタグが与えられ、それによって、あるパーティションのメンバーが、別のパーティションのメンバーと区別される。同じパーティションの核酸分子に連結されるタグは、互いに同じまたは異なることがある。しかし、互いに異なっていたとしても、それらのタグにはそれらのコードに共通している部分があり、したがって、それらが特定のパーティションのものであるときに結合されている分子を同定することができる。

メチル化などの特徴に基づく核酸試料のポーショニングに関するさらなる詳細については、ＷＯ２０１８／１１９４５２を参照されたく、この参考特許文献は、参照により本明細書に組み込まれる。

一部の実施形態では、特定のタンパク質またはその断片に結合している核酸分子、およびその特定のタンパク質またはその断片に結合していない核酸分子に基づいて、核酸分子を異なるパーティションに分画することができる。

核酸分子を、ＤＮＡ－タンパク質結合に基づいて分画することができる。タンパク質－ＤＮＡ複合体を、タンパク質の特定の特性に基づいて分画することができる。そのような特性の例としては、様々なエピトープ、改変（例えば、ヒストンメチル化またはアセチル化）または酵素活性が挙げられる。ＤＮＡに結合し得るおよび分画のための基礎として役立ち得るタンパク質の例としては、これらに限定されないが、プロテインＡおよびプロテインＧを挙げることができる。任意の好適な方法を使用して、タンパク質結合領域に基づいて核酸分子を分画することができる。タンパク質結合領域に基づいて核酸分子を分画するために使用される方法の例としては、これらに限定されないが、ＳＤＳ－ＰＡＧＥ、クロマチン免疫沈降（ＣｈＩＰ）、ヘパリンクロマトグラフィー、および非対称フィールドフローフラクショネーション（ＡＦ４）が挙げられる。

一部の実施形態では、核酸のパーティショニングは、核酸をメチル化結合タンパク質（「ＭＢＰ」）のメチル化結合ドメイン（「ＭＢＤ」）と接触させることにより行われる。ＭＢＤは、５－メチルシトシン（５ｍＣ）に結合する。ＭＢＤは、Ｄｙｎａｂｅａｄｓ（登録商標）Ｍ－２８０Ｓｔｒｅｐｔａｖｉｄｉｎなどの常磁性ビーズにビオチンリンカーを介して連結されている。メチル化の程度が異なる画分へのパーティショニングは、ＮａＣｌ濃度を上昇させることによって画分を溶離することにより行うことができる。

本明細書で企図されるＭＢＰの例としては、これらに限定されないが、以下のものが挙げられる：
（ａ）ＭｅＣＰ２は、未改変シトシンより５－メチル－シトシンに優先的に結合するタンパク質である。
（ｂ）ＲＰＬ２６、ＰＲＰ８およびＤＮＡミスマッチ修復タンパク質ＭＨＳ６は、未改変シトシンより５－ヒドロキシメチル－シトシンに優先的に結合する。
（ｃ）ＦＯＸＫ１、ＦＯＸＫ２、ＦＯＸＰ１、ＦＯＸＰ４およびＦＯＸＩ３は、未改変シトシンより５－ホルミル－シトシンに好んで結合する（Iurlaro et al., Genome Biol. 14: R119 (2013)）。
（ｄ）１つまたは複数のメチル化ヌクレオチド塩基に特異的な抗体。

一般に、溶離は、１分子当たりのメチル化部位の数と相関関係にあり、メチル化度が高い分子ほど、高い塩濃度下で溶離する。メチル化の程度に基づいてＤＮＡを別個の集団に溶離するために、漸増ＮａＣｌ濃度の一連の溶離緩衝剤を使用することができる。塩濃度は、約１００ｍＭ～約２５００ｍＭＮａＣｌの範囲であり得る。一実施形態では、このプロセスの結果として３つのパーティションが得られる。分子を、第１の塩濃度を有する溶液であって、メチル結合ドメインを含む分子を含み、この分子がストレプトアビジンなどの捕捉用部分に結合され得るものである溶液と、接触させる。第１の塩濃度で、分子のある集団は、ＭＢＤと結合することになり、ある集団は、未結合のままとなる。未結合集団を「低メチル化」集団として分離することができる。例えば、低メチル化形態のＤＮＡを代表する第１のパーティションは、低い塩濃度、例えば、１００ｍＭまたは１６０ｍＭで未結合のままであるパーティションである。中メチル化ＤＮＡを代表する第２のパーティションは、中等度の塩濃度、例えば、１００ｍＭ～２０００ｍＭの間の濃度を使用して溶離される。これも試料から分離される。高メチル化形態のＤＮＡを代表する第３のパーティションは、高い塩濃度、例えば、少なくとも約２０００ｍＭを使用して溶離される。

一部の実施形態では、例えば、エピジェネティック標的領域セットが捕捉される場合、試料ＤＮＡ（例えば、１～３００ｎｇの間のものについて）は、適切な量のメチル結合ドメイン（ＭＢＤ）緩衝剤（ＭＢＤ緩衝剤の量は、使用されるＤＮＡの量に依存する）、およびＭＢＤタンパク質とコンジュゲートした磁気ビーズと混合され、一晩、インキュベートされる。メチル化ＤＮＡ（高メチル化ＤＮＡ）は、このインキュベーション中に磁気ビーズ上のＭＢＤタンパク質に結合する。非メチル化（低メチル化ＤＮＡ）または然程メチル化されていないＤＮＡ（中メチル化ＤＮＡ）は、漸増濃度の塩を含有する緩衝剤でビーズから洗い流される。例えば、非メチル化、低メチル化および／または中メチル化ＤＮＡを含有する１つ、２つまたはそれより多くの画分を、そのような洗浄から得ることができる。最後に、高塩緩衝剤が、重度にメチル化されたＤＮＡ（高メチル化ＤＮＡ）をＭＢＤタンパク質から溶離するために使用される。一部の実施形態では、これらの洗浄の結果として、漸増メチル化レベルを有するＤＮＡの３つのパーティション（低メチル化パーティション、中メチル化画分、および高メチル化パーティション）が得られる。

一部の実施形態では、ＤＮＡのこれら３つのパーティションは、ライブラリー調製の酵素的ステップのための調製中に脱塩され、濃縮される。

一部の実施形態では、分子のメチル化シグネチャーを、ＭｅＤＩＰ－ｓｅｑ、ＭＢＤ－ｓｅｑ、ＢＳ－ｓｅｑ、Ｏｘ－ＢＳ－ｓｅｑ、ＴＡＰ－ｓｅｑ、ＡＣＥ－ｓｅｑ、ｈｍＣ－ｓｅａｌ、およびＴＡＢ－ｓｅｑなどの方法により決定することができる。例えば、Schutsky, E.K. et al. Nondestructive, base-resolution sequencing of 5-hydroxymethylcytosine using a DNA deaminase. Nature Biotech, 2018; doi.10.1038/nbt.4204 (ACE-Seq)；Yu, Miao et al. Base-resolution analysis of 5-hydroxymethylcytosine in the Mammalian Genome. Cell, 2012; 149(6):1368-80 (TAB-Seq)；Han, D. A highly sensitive and robust method for genome-wide 5hmC profiling of rare cell populations. Mol Cell. 2016; 63(4):711-719 (5hmC-Seal)；Shen, S.Y. et al. Sensitive tumour detection and classification using plasma cell-free DNA methylomes. Nature. 2018; 563(7732):579-583 (cfMeDIP)；Nair, SS et al. Comparison of methyl-DNA immunoprecipitation (MeDIP) and methyl-CpG binding domain (MBD) protein capture for genome-wide DNA. Epigenetics. 2011; 6(1):34-44を参照されたい。一部の実施形態では、分子のメチル化シグネチャーを、１つまたは複数のメチル化感受性制限酵素（ＭＳＲＥ）および／またはメチル化依存性制限酵素（ＭＤＲＥ）で試料を処理することにより決定することができる。一部の実施形態では、上記方法のいずれかを単独でまたは組み合わせて使用して、分子のメチル化シグネチャーを決定することができる。
ｃ．核酸タグ

一部の実施形態では、核酸分子（ポリヌクレオチドの試料からの）に試料インデックスおよび／または分子バーコード（一般に「タグ」と呼ばれる）でタグ付けすることができる。数ある方法の中でも特に、化学合成、ライゲーション（例えば、平滑末端ライゲーションまたは付着末端ライゲーション）、またはオーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）によって、タグをアダプターに組み込むことまたは別様に結合させることができる。そのようなアダプターを、最終的に、標的核酸分子に結合させることができる。他の実施形態では、従来の核酸増幅法を使用して核酸分子に試料インデックスを導入するために、１または複数ラウンドの増幅サイクル（例えば、ＰＣＲ増幅）が一般に適用される。増幅を１つまたは複数の反応混合物（例えば、アレイ状の複数のマイクロウェル）で行うことができる。分子バーコードおよび／または試料インデックスを同時にまたは任意の順番で導入することができる。一部の実施形態では、分子バーコードおよび／または試料インデックスは、配列捕捉ステップが行われる前に、および／または行われた後に導入される。一部の実施形態では、分子バーコードのみがプローブ捕捉の前に導入され、試料インデックスは、配列捕捉ステップが行われた後に導入される。一部の実施形態では、分子バーコードと試料インデックスの両方が、プローブに基づく捕捉ステップを行う前に導入される。一部の実施形態では、試料インデックスは、配列捕捉ステップが行われた後に導入される。一部の実施形態では、分子バーコードは、ライゲーション（例えば、平滑末端ライゲーションまたは付着末端ライゲーション）によってアダプターを介して試料中の核酸分子（例えば、ｃｆＤＮＡ分子）に組み込まれる。一部の実施形態では、試料インデックスは、オーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）によって試料中の核酸分子（例えば、ｃｆＤＮＡ分子）に組み込まれる。典型的には、配列捕捉プロトコールは、標的核酸配列、例えばゲノム領域のコード配列に相補的な一本鎖核酸分子を導入することを含み、そのような領域の変異は、がん型に関連している。

一部の実施形態では、タグは、試料核酸分子の一方の末端に位置することもあり、または両方の末端に位置することもある。一部の実施形態では、タグは、所定の配列、無作為配列または半無作為配列のオリゴヌクレオチドである。一部の実施形態では、タグは、長さ約５００、２００、１００、５０、２０、１０、９、８、７、６、５、４、３、２または１ヌクレオチド未満であり得る。タグは、試料核酸に無作為に連結されることもあり、または作為的に連結されることもある。

一部の実施形態では、各試料は、試料インデックス、または試料インデックスの組合せで、一意的にタグ付けされる。一部の実施形態では、試料または二次試料の各核酸分子は、分子バーコード、または分子バーコードの組合せで、一意的にタグ付けされる。他の実施形態では、複数の分子バーコードの中の分子バーコードが互いに必ずしも一意でないような複数のバーコード（例えば、非一意の分子バーコード）が使用され得る。これらの実施形態では、分子バーコードは、一般に、個々の分子に（例えば、ライゲーションにより）結合され、その結果、分子バーコードとそれに結合され得る配列の組合せによって、個々に追跡することができる一意の配列が作出される。内因性配列情報（例えば、試料中の元の核酸分子の配列に対応する最初の（開始）および／もしくは最後の（停止）遺伝子位置／ゲノム位置、試料中の元の核酸分子の配列に対応する開始および停止ゲノム位置、参照配列にマッピングされる配列リードの最初の（開始）および／もしくは最後の（停止）遺伝子位置／ゲノム位置、参照配列にマッピングされる配列リードの開始および停止遺伝子位置、配列リードの一方もしくは両方の末端における部分配列、配列リードの長さ、ならびに／または試料中の元の核酸分子の長さ）と組み合わせて非一意の分子バーコードを検出することにより、典型的には、特定の分子に一意の同一性を割り当てることが可能になる。一部の実施形態では、最初の領域は、参照配列にアラインするシークエンシングリードの５’末端の最初の１、最初の２、最初の５、最初の１０、最初の１５、最初の２０、最初の２５、最初の３０、または少なくとも最初の３０塩基位置を含む。一部の実施形態では、最後の領域は、参照配列にアラインするシークエンシングリードの３’末端の最後の１、最後の２、最後の５、最後の１０、最後の１５、最後の２０、最後の２５、最後の３０、または少なくとも最後の３０塩基位置を含む。個々の配列リードの長さまたは塩基対の数も、必要に応じて、所与の分子に一意の同一性を割り当てるために使用される。本明細書で説明されるように、それによって、一意の同一性が割り当てられた核酸の一本鎖からの断片により、親鎖および／または相補鎖からの断片のその後の同定が可能になり得る。

ある特定の実施形態では、あるクラスの中の分子の数、ｚ、を一意に識別するために使用される異なるタグの数は、２×ｚ、３×ｚ、４×ｚ、５×ｚ、６×ｚ、７×ｚ、８×ｚ、９×ｚ、１０×ｚ、１１×ｚ、１２×ｚ、１３×ｚ、１４×ｚ、１５×ｚ、１６×ｚ、１７×ｚ、１８×ｚ、１９×ｚ、２０×ｚまたは１００×ｚのいずれか（例えば、下限）～１００，０００×ｚ、１０，０００×ｚ、１０００×ｚまたは１００×ｚのいずれか（例えば、上限）の間の数であり得る。一部の実施形態では、分子バーコードは、識別子のセット（例えば、一意または非一意の分子バーコードの組合せ）の、試料中の分子に対する予想比で導入される。１つの例示的な形式は、標的分子の両方の末端にライゲーションされた、約２～約１，０００，０００の異なる分子バーコード配列、または約５～約１５０の異なる分子バーコード配列、または約２０～約５０の異なる分子バーコード配列を使用する。あるいは、約２５～約１，０００，０００の異なる分子バーコード配列が使用され得る。例えば、２０～５０×２０～５０の分子バーコード配列（すなわち、２０～５０の異なる分子バーコード配列のうちの１つが標的分子の各末端に結合され得る）が使用され得る。典型的には、そのような識別子数は、同じ開始点および停止点を有する異なる分子が、識別子の異なる組合せを受け取る確率が高くなる（例えば、少なくとも９４％、９９．５％、９９．９９％、または９９．９９９％）のに十分な数である。一部の実施形態では、分子の約８０％、約９０％、約９５％、または約９９％は、分子バーコードの同じ組合せを有する。

一部の実施形態では、反応における一意または非一意の分子バーコードの割り当ては、例えば、米国特許出願公開第２００１００５３５１９号、同第２００３０１５２４９０号、および同第２０１１０１６００７８号、ならびに米国特許第６，５８２，９０８号、同第７，５３７，８９８号、同第９，５９８，７３１号、および同第９，９０２，９９２号に記載されている方法およびシステムを使用して行われ、これらの参考特許文献の各々は、これによりその全体が参照により本明細書に組み込まれる。あるいは、一部の実施形態では、内因性配列情報（例えば、開始および／もしくは停止位置、配列の一方もしくは両方の末端の部分配列、ならびに／または長さ）のみを使用して、試料の異なる核酸分子を同定することができる。

本明細書に記載されるある特定の実施形態では、異なる形態の核酸（例えば、試料中の高メチル化および低メチル化ＤＮＡ）の集団を、分析、例えば、シークエンシング、またはタグ付けおよびシークエンシングの前に、物理的にパーティショニングすることができる。この手法を使用して、例えば、高メチル化可変エピジェネティック標的領域が、腫瘍細胞の高メチル化特徴を示すのか、または低メチル化可変エピジェネティック標的領域が、腫瘍細胞の低メチル化特徴を示すのかを判定することができる。加えて、不均一な核酸集団をパーティショニングすることにより、稀なシグナルを、例えば、その集団の１画分（またはパーティション）においてより多く見られる稀な核酸分子を濃縮することにより、増加させることができる。例えば、高メチル化ＤＮＡに存在するが低メチル化ＤＮＡにはあまり（または全く）存在しない遺伝的多様性を、試料を高メチル化核酸分子と低メチル化核酸分子にパーティショニングすることによってより容易に検出することができる。試料の複数の画分を分析することにより、ゲノムの単一遺伝子座または核酸の種の多次元分析を行うことができ、それ故、より高い感度を達成することができる。

一部の事例では、不均一な核酸試料は、２つまたはそれより多くのパーティション（例えば、少なくとも３、４、５、６または７つのパーティション）にパーティショニングされる。一部の実施形態では、各パーティションは、差次的にタグ付けされる－すなわち、各パーティションは、分子バーコードの異なるセットを有し得る。次いで、タグ付けされたパーティションは、集団試料調製および／またはシークエンシングのために一緒にプールされ得る。パーティショニング－タグ付け－プールステップを１回より多く行うことができ、各パーティショニングラウンドは、異なる特徴（本明細書で提供される例）に基づいて、ならびに他のパーティションおよびパーティショニング手段と区別される差次的なタグを使用してタグ付けされて、行われる。

パーティショニングに使用され得る特徴の例としては、配列長、メチル化レベル、ヌクレオソーム結合、配列ミスマッチ、免疫沈降、および／またはＤＮＡに結合するタンパク質が挙げられる。結果として得られるパーティションは、次の核酸形態のうちの１つまたは複数を含み得る：一本鎖ＤＮＡ（ｓｓＤＮＡ）、二本鎖ＤＮＡ（ｄｓＤＮＡ）、より短いＤＮＡ断片、およびより長いＤＮＡ断片。一部の実施形態では、核酸の不均一集団は、１つまたは複数のエピジェネティック改変を有する核酸と、１つまたは複数のエピジェネティック改変を有さない核酸にパーティショニングされる。エピジェネティック改変の例としては、メチル化の存在または非存在；メチル化レベル；メチル化のタイプ（例えば、他のタイプのメチル化、例えばアデニンメチル化および／またはシトシンヒドロキシメチル化に対する、５－メチルシトシン）；ならびにヒストンなどの１つまたは複数のタンパク質との会合および会合レベルが挙げられる。あるいは、または加えて、核酸の不均一集団を、ヌクレオソームを伴う核酸分子と、ヌクレオソームを欠いている核酸分子にパーティショニングすることができる。あるいは、または加えて、核酸の不均一集団を、一本鎖ＤＮＡ（ｓｓＤＮＡ）と二本鎖ＤＮＡ（ｄｓＤＮＡ）にパーティショニングすることができる。あるいは、または加えて、核酸の不均一集団を、核酸長（例えば、１６０ｂｐ以下の分子、および１６０ｂｐを超える長さを有する分子）に基づいてパーティショニングすることができる。

一部の事例では、各パーティション（異なる核酸形態を代表するもの）は、分子バーコードで差次的にタグ付けされ、それらのパーティションは、シークエンシングの前に一緒にプールされる。他の事例では、異なる形態は、別々にシークエンシングされる。一部の実施形態では、特定のパーティションを標識するために単一のタグが使用され得る。一部の実施形態では、特定のパーティションを標識するために複数の異なるタグが使用され得る。特定のパーティションを標識するために複数の異なるタグを利用する実施形態では、１つのパーティションを標識するために使用されるタグのセットを、他のパーティションを標識するために使用されるタグのセットと容易に差別化することができる。一部の実施形態では、タグは、多機能性であり得る－すなわち、それは、同時に分子識別子（すなわち、分子バーコード）、パーティション識別子（すなわち、パーティションタグ）および試料識別子（すなわち、試料インデックス）として機能することができる。例えば、４つのＤＮＡ試料があり、各ＤＮＡ試料が３つのパーティションにパーティショニングされる場合には、１２のパーティション（すなわち、４つのＤＮＡ試料について合計で１２のパーティション）の各々におけるＤＮＡ分子に、ＤＮＡ分子に結合されたタグ配列によってＤＮＡ分子の同一性、それが属するパーティション、およびその起源である試料が明らかになるように、タグの別々のセットでタグ付けすることができる。一部の実施形態では、タグを分子バーコードとしてもパーティションタグとしても使用することができる。例えば、ＤＮＡ試料が、３つのパーティションにパーティショニングされる場合には、各パーティションの中のＤＮＡ分子は、ＤＮＡ分子に結合されたタグ配列によってＤＮＡ分子の同一性、およびそれが属するパーティションが明らかになるように、タグの別々のセットでタグ付けされる。一部の実施形態では、タグを分子バーコードとしても試料インデックスとしても使用することができる。例えば、４つのＤＮＡ試料がある場合には、各試料中のＤＮＡ分子は、ＤＮＡ分子に結合されたタグ配列が、分子識別子として、および試料識別子としての機能を果たすように、各試料と区別可能であり得るタグの別々のセットでタグ付けされることになる。

一実施形態では、パーティションのタグ付けは、パーティションタグで各パーティションの中の分子にダグ付けすることを含む。パーティションとシークエンシング分子を組み合わせ直した後、パーティションタグによって供給源パーティションが同定される。別の実施形態では、例えば一対のバーコードで構成されている、分子タグの異なるセットで、異なるパーティションにタグ付けされる。このように、各分子バーコードは、パーティション内の分子を区別するのに有用であるばかりでなく、供給源パーティションも示す。例えば、３５のバーコードの第１のセットを使用して第１のパーティションの中の分子にタグ付けすることができ、その一方で３５のバーコードの第２のセットを使用して第２のパーティションの中の分子にタグ付けすることができる。

一部の実施形態では、パーティショニング、およびパーティションタグでのタグ付けの後、単回実行でのシークエンシングのために分子をプールすることができる。一部の実施形態では、試料タグは、例えば、パーティションタグを付加するステップおよびプールするステップの後のステップで、分子に付加される。試料タグは、複数の試料から生成された材料を単回シークエンシング実行でのシークエンシングのためにプールすることを容易にし得る。

あるいは、一部の実施形態では、パーティションタグをパーティションばかりでなく試料とも相関させることができる。簡単な例として、第１のタグは、第１の試料の第１のパーティションを示すことができ、第２のタグは、第１の試料の第２のパーティションを示すことができ、第３のタグは、第２の試料の第１のパーティションを示すことができ、第４のタグは、第２の試料の第２のパーティションを示すことができる。

１つまたは複数のエピジェネティック特徴に基づいて既にパーティショニングされた分子にタグを結合させることができるが、ライブラリー中の最終タグ付き分子は、もはやそのエピジェネティック特徴を有さないことがある。例えば、一本鎖ＤＮＡ分子をパーティショニングし、タグ付けすることができるが、ライブラリー中の最終タグ付き分子は、二本鎖である可能性が高い。同様に、ＤＮＡを異なるメチル化レベルに基づいてパーティショニングに付すことができるが、最終ライブラリーの中のこれらの分子に由来するタグ付き分子は、メチル化されない可能性が高い。したがって、ライブラリー中の分子に結合されたタグは、典型的には、「親分子」の特徴を示し、最終的なタグ付き分子はこの親分子に由来するが、親分子自体は必ずしもそのタグ付き分子の特徴を示さない。

一例として、バーコード１、２、３、４などは、第１のパーティションの中の分子にタグ付けおよび標識するために使用され、バーコードＡ、Ｂ、Ｃ、Ｄなどは、第２のパーティションの中の分子にタグ付および標識するために使用され、バーコードａ、ｂ、ｃ、ｄなどは、第３のパーティションの中の分子にタグ付けおよび標識するために使用される。差次的にタグ付けされたパーティションをシークエンシングの前にプールすることができる。差次的にタグ付けされたパーティションを、別々にシークエンシングすることができ、または並行して一緒に、例えば、Ｉｌｌｕｍｉｎａシーケンサーの同じフローセルで、シークエンシングすることができる。

一部の実施形態では、タグは、期待される識別子（例えば、一意および／または非一意のバーコードの組合せ）比でマイクロウェルに導入される。例えば、約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００または１，０００，０００，０００より多くの識別子がゲノム試料ごとに負荷されるように、識別子を負荷することができる。一部の実施形態では、識別子は、約２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００または１，０００，０００，０００未満の識別子がゲノム試料ごとに負荷されるように、負荷される。ある特定の実施形態では、試料ゲノムあたりの負荷される識別子の平均数は、ゲノム試料あたり識別子約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００もしくは１，０００，０００，０００未満であるか、またはそれを超える。識別子は、一般に、一意および／または非一意である。

１つの例示的な形式は、標的核酸分子の両末端にライゲーションされた約２～約１，０００，０００の異なるタグ、または約５～約１５０の異なるタグ、または約２０～約５０の異なるタグを使用する。２０～５０×２０～５０のタグの場合、合計４００～２５００のタグが作出される。通常は、そのようなタグ数は、同じ開始点および停止点を有する異なる分子が、タグの異なる組合せを受け取る確率が高くなる（例えば、少なくとも９４％、９９．５％、９９．９９％、９９．９９９％）のに十分な数である。

シークエンシング後、遺伝的バリアントを検出するためのリードの分析を、パーティションごとのレベルで、および全核酸集団レベルで、行うことができる。タグは、異なるパーティションからのリードを選別するために使用される。分析は、配列情報、ゲノム座標長さ、カバレッジおよび／またはコピー数を使用して遺伝的およびエピジェネティック多様性（メチル化、クロマチン構造などのうちの１つまたは複数）を決定するためのｉｎｓｉｌｉｃｏ分析を含み得る。一部の実施形態では、より高いカバレッジは、ゲノム領域におけるより高いヌクレオソーム占有率と相関し得、その一方で、より低いカバレッジは、より低いヌクレオソーム占有率またはヌクレオソーム枯渇領域（ＮＤＲ）と相関し得る。
ｄ．核酸増幅

アダプターと隣接している試料核酸は、通常は、試料収集および調製パイプライン２０３の一部として、増幅されることになるＤＮＡ分子に隣接しているアダプターの中のプライマー結合部位への核酸プライマーの結合を使用して、ＰＣＲおよび他の増幅方法により増幅される。一部の実施形態では、増幅方法は、熱循環の結果として生じる伸長、変性およびアニーリングのサイクルを含み、または例えば、転写媒介増幅の場合のように、等温性であることもある。必要に応じて利用される他の例示的な増幅方法としては、数ある手法の中でも特に、リガーゼ連鎖反応、鎖置換増幅、核酸配列ベース増幅、および自家持続配列ベース複製が挙げられる。

従来の核酸増幅法を使用して核酸分子に分子タグおよび／または試料インデックス／タグを導入するために、１または複数ラウンドの増幅サイクルが一般に適用される。増幅は、通常は、１つまたは複数の反応混合物で行われる。分子タグおよび試料インデックス／タグは、必要に応じて、同時にまたは任意の順序で導入される。一部の実施形態では、分子タグおよび試料インデックス／タグは、配列捕捉ステップが行われる前におよび／または後に導入される。一部の実施形態では、分子タグのみがプローブ捕捉の前に導入され、試料インデックス／タグは、配列捕捉ステップが行われた後に導入される。ある特定の実施形態では、分子タグと試料インデックス／タグの両方が、プローブに基づく捕捉ステップを行う前に導入される。一部の実施形態では、試料インデックス／タグは、配列捕捉ステップが行われた後に導入される。通常は、配列捕捉プロトコールは、標的核酸配列、例えば、ゲノム領域のコード配列、およびがん型に関連するそのような領域の変異のコード配列、に相補的な一本鎖核酸分子を導入することを含む。通常は、増幅反応は、約２００ヌクレオチド（ｎｔ）～約７００ｎｔ、２５０ｎｔ～約３５０ｎｔ、または約３２０ｎｔ～約５５０ｎｔの範囲のサイズの、分子タグおよび試料インデックス／タグで非一意的にまたは一意的にタグ付けされた複数の核酸アンプリコンを生成する。一部の実施形態では、アンプリコンは、約３００ｎｔのサイズを有する。一部の実施形態では、アンプリコンは、約５００ｎｔのサイズを有する。
ｅ．核酸濃縮

一部の実施形態では、配列は、試料収集および調製パイプライン２０３の一部として、核酸をシークエンシングする前に濃縮される。濃縮は、必要に応じて、特定の標的領域に行われるか、または非特異的に（「標的配列」に）行われる。一部の実施形態では、目的の標的領域を、差次的タイリングおよび捕捉スキームを使用して１つまたは複数のベイトセットパネルに選択された核酸捕捉用プローブ（「ベイト」）を用いて濃縮することができる。差次的タイリングおよび捕捉スキームは、一般に、異なる相対濃度のベイトセットを使用して、ベイトに関連するゲノム領域にわたって差次的に（例えば、異なる「解像度」で）タイリングし、一連の制約（例えば、シーケンサーの制約、例えば、シークエンシング負荷、各ベイトの利用、など）をかけ、下流のシーケンシングに所望されるレベルで標的核酸を捕捉する。目的のこれらの標的ゲノム領域は、必要に応じて、核酸構築物の天然または合成ヌクレオチド配列を含む。一部の実施形態では、目的の１つまたは複数の区画にプローブを有するビオチン標識ビーズを使用して、標的配列を捕捉することができ、必要に応じて、続いてそれらの区画の増幅を行って、目的領域について濃縮することができる。

配列捕捉は、通常は、標的核酸配列にハイブリダイズするオリゴヌクレオチドプローブの使用を含む。ある特定の実施形態では、プローブセット戦略は、目的の区画にわたってプローブをタイリングすることを含む。そのようなプローブは、例えば、長さ約６０～約１２０ヌクレオチドであり得る。このセットは、約２倍、３倍、４倍、５倍、６倍、８倍、９倍、１０倍、１５倍、２０倍、５０倍またはそれを超える深度を有し得る。一般に、配列捕捉の有効性は、一部は、プローブの配列と相補的（またはほぼ相補的）である標的分子内の配列の長さに依存する。
ｆ．核酸シークエンシング

図２に示されているように、試料収集および調製パイプライン２０３による試料からのｃｆＤＮＡの抽出および単離の後、１つまたは複数のシークエンシングデバイス２０７を含むシークエンシングパイプライン２０５によって、ｃｆＤＮＡをシークエンシングすることができる。事前に増幅されたまたはされていない、必要に応じてアダプターと隣接している、試料核酸が、一般に、シークエンシングに付される。必要に応じて利用されるシークエンシング方法または市販の形式としては、例えば、サンガーシークエンシング、ハイスループットシークエンシング、バイサルファイトシークエンシング、パイロシークエンシング、一塩基合成法、単一分子シークエンシング、ナノポアベースのシークエンシング、半導体シークエンシング、ライゲーションによるシークエンシング、ハイブリダイゼーションによるシークエンシング、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、次世代シークエンシング（ＮＧＳ）、ＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇｂｙＳｙｎｔｈｅｓｉｓ（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、大規模並列シークエンシング、ＣｌｏｎａｌＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ）、ショットガンシークエンシング、ＩｏｎＴｏｒｒｅｎｔ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅ、ＲｏｃｈｅＧｅｎｉａ、Ｍａｘｉｍ－Ｇｉｌｂｅｒｔシークエンシング、プライマーウォーキング；ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔまたはナノポアプラットフォームを使用するシークエンシングが、挙げられる。複数のレーン、複数のチャネル、複数のウェル、または実質的に同時に複数の試料セットを処理する他の手段を含み得る、様々な試料処理ユニットで、シークエンシング反応を行うことができる。試料処理ユニットは、複数の実行を同時に処理することを可能にするための複数の試料チャンバーも含み得る。

シークエンシング反応を、がんのまたは他の疾患のマーカーを含有することが分かっている１つまたは複数の核酸断片型または区画に関して行うことができる。シークエンシング反応を、試料中に存在する任意の核酸断片に関して行うこともできる。シークエンシング反応は、ゲノムの少なくとも約５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％である、ゲノムの配列カバレッジを提供することができる。他の場合には、ゲノムの配列カバレッジは、ゲノムの約５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％未満であり得る。

マルチプレックスシークエンシング技法を使用して、同時シークエンシング反応を行うことができる。一部の実施形態では、無細胞ポリヌクレオチドは、少なくとも約１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００または１００，０００のシークエンシング反応でシークエンシングされる。他の実施形態では、無細胞ポリヌクレオチドは、約１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００または１００，０００未満のシークエンシング反応でシークエンシングされる。シークエンシング反応は、通常は、逐次的にまたは同時に行われる。後続のデータ分析は、一般に、シークエンシング反応の全てまたは一部に関して行われる。一部の実施形態では、データ分析は、少なくとも約１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００または１００，０００のシークエンシング反応に関して行われる。他の実施形態では、データ分析は、約１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００または１００，０００未満のシークエンシング反応に関して行われ得る。例示的な読み取り深度は、１座位（塩基位置）あたり約１０００～約５００００リードである。

一部の実施形態では、核酸集団は、シークエンシングのために、一方または両方の末端に一本鎖オーバーハングを有する二本鎖核酸に平滑末端を酵素的に形成することにより調製される。これらの実施形態では、集団は、ヌクレオチド（例えば、Ａ、Ｃ、ＧおよびＴまたはＵ）の存在下で、５’－３’ＤＮＡポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有する酵素で通常は処理される。必要に応じて使用される例示的な酵素またはその触媒性断片としては、クレノウ大断片およびＴ４ポリメラーゼが挙げられる。５’オーバーハングでは、通常は、酵素は、反対の鎖上の陥凹３’末端を、その３’末端が５’末端とぴったり重なって平滑末端を生成するまで伸長する。３’オーバーハングでは、酵素は、反対の鎖の３’末端から５’末端までを一般に消化し、５’末端を超えて消化することもある。この消化が、反対の鎖の５’末端を超えて進行した場合、５’オーバーハングに使用されるのと同じポリメラーゼ活性を有する酵素が、そのギャップを埋めることができる。二本鎖核酸上の平滑末端の形成は、例えば、アダプターの結合およびその後の増幅を助長する。

一部の実施形態では、核酸集団は、追加の処理、例えば、一本鎖核酸の二本鎖核酸への変換、および／またはＲＮＡのＤＮＡへの変換に付される。核酸のこれらの形態も、必要に応じて、アダプターに連結され、増幅される。

事前に増幅されたまたはされていない、上記の平滑末端形成プロセスに付される核酸、および必要に応じて試料中の他の核酸をシークエンシングして、シークエンシングされた核酸を生じさせることができる。シークエンシングされた核酸は、核酸の配列（すなわち、配列情報）を指すこともあり、または配列が決定された核酸を指すこともある。シークエンシングを行って、試料中の個々の核酸分子の配列データを、試料中の個々の核酸分子の増幅産物のコンセンサス配列から、直接または間接的に得ることができる。

一部の実施形態では、試料中の一本鎖オーバーハングを有する二本鎖核酸は、平滑末端形成後、両末端が、バーコードを含むアダプターに連結され、シークエンシングによって、核酸配列はもちろん、アダプターにより誘導されたインラインバーコードも決定される。平滑末端ＤＮＡ分子は、少なくとも部分的に二本鎖のアダプター（例えば、Ｙ型または釣り鐘型）の平滑末端に、必要に応じてライゲーションされる。あるいは、試料核酸およびアダプターの平滑末端に、ライゲーション（例えば、付着末端ライゲーション）を助長するために相補的ヌクレオチドの尾部をつけることができる。

通常は、核酸試料を十分な数のアダプターと接触させ、したがって、同じ核酸の任意の２つのコピーが、両末端に連結されたアダプターからアダプターバーコードの同じ組合せを受け取る確率は低い（例えば、＜１または０．１％）。このようにアダプターを使用することよって、参照核酸上の同じ開始および停止点を有し、かつバーコードの同じ組合せに連結されている、核酸配列のファミリーの同定が可能になる。そのようなファミリーは、増幅前の試料中の核酸の増幅産物の配列を示す。平滑末端形成およびアダプター結合により改変された場合、ファミリーメンバーの配列をコンパイルして、元の試料中の核酸分子のコンセンサスヌクレオチドまたは完全コンセンサス配列を導出することができる。言い換えると、試料中の核酸の特定位置を占めるヌクレオチドは、ファミリーメンバー配列中の対応する位置を占めるヌクレオチドのコンセンサスであると判定される。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含み得る。ファミリーのメンバーが、二本鎖核酸からの両方の鎖の配列を含む場合、一方の鎖の配列は、コンセンサスヌクレオチドまたは配列を導出するために全ての配列をコンパイルすることを目的として、それらの相補鎖に変換される。一部のファミリーは、単一のメンバー配列のみを含む。この場合、この配列を増幅前の試料中の核酸の配列と考えることができる。あるいは、単一のメンバー配列のみを有するファミリーを後続の分析から除外することができる。

本明細書に記載される形式および応用を含む、核酸シークエンシングに関する追加の詳細は、例えば、Levy et al., Annual Review of Genomics and Human Genetics, 17: 95-115 (2016)、Liu et al., J. of Biomedicine and Biotechnology, Volume 2012, Article ID 251364:1-11 (2012)、Voelkerding et al., Clinical Chem., 55: 641-658 (2009)、MacLean et al., Nature Rev. Microbiol., 7: 287-296 (2009)、Astier et al., J Am Chem Soc., 128(5):1705-10 (2006)、米国特許第６，２１０，８９１号、米国特許第６，２５８，５６８号、米国特許第６，８３３，２４６号、米国特許第７，１１５，４００号、米国特許第６，９６９，４８８号、米国特許第５，９１２，１４８号、米国特許第６，１３０，０７３号、米国特許第７，１６９，５６０号、米国特許第７，２８２，３３７号、米国特許第７，４８２，１２０号、米国特許第７，５０１，２４５号、米国特許第６，８１８，３９５号、米国特許第６，９１１，３４５号、米国特許第７，５０１，２４５号、米国特許第７，３２９，４９２号、米国特許第７，１７０，０５０号、米国特許第７，３０２，１４６号、米国特許第７，３１３，３０８号、および米国特許第７，４７６，５０３号においても提供されており、これらの参考文献は、各々、それら全体が参照により本明細書に組み込まれる。
ｉ．シークエンシングパネル

目的のゲノム領域を検出する尤度、および必要に応じて、変異を示す腫瘍を検出する尤度を高めるために、シークエンシングされるＤＮＡの区画は、既知のゲノム領域を含む遺伝子またはゲノム区画のパネルを含み得る。限られた区画（例えば、限られたパネル）をシークエンシングに選択することによって、必要とされる全シークエンシング（例えば、シークエンシングされるヌクレオチドの総量）は低減され得る。シークエンシングパネルは、複数の異なる遺伝子または領域を、例えば、単一のがん、がんのセット、または全てのがんを検出するための標的とすることができる。あるいは、全ゲノムシークエンシング（ＷＧＳ）、または他の不偏の（ｕｎｂｉａｓｅｄ）シークエンシング方法によって、シークエンシングパネルを使用せずにＤＮＡをシークエンシングすることができる。好適なパネルおよびパネルにおける使用のための標的の例は、２０２０年１月３１日に出願された国際出願ＷＯ２０２０１６０４１４に記載されているエピジェネティック標的において見つけることができ、前記参考特許文献は、その全体が参照により本明細書に組み込まれる。

一部の態様では、がんを有する対象の所定の比率が、パネル内の１つまたは複数の異なる遺伝子において遺伝的バリアントまたは腫瘍マーカーを示すように、複数の異なる遺伝子またはゲノム領域（例えば、ＣＨＩＰ遺伝子、転写因子結合領域、遠位調節エレメント（ＤＲＥ）、反復エレメント、イントロン－エクソン連結部、転写開始部位（ＴＳＳ）、および／またはこれらに類するもの）を標的とするパネルが選択される。パネルは、シークエンシングする領域を固定数の塩基対に限定するように選択され得る。パネルは、ＤＮＡの所望の量をシークエンシングするように選択され得る。パネルは、さらに、所望の配列読み取り深度を達成するように選択され得る。パネルは、シークエンシングされる塩基対の量について所望される配列読み取り深度または配列読み取りカバレッジを達成するように選択され得る。パネルは、試料中の１つまたは複数の遺伝的バリアントの検出についての理論感度、理論特異度、および／または理論精度を達成するように選択され得る。

このパネルに含まれる遺伝子は、ＡＴＭ、ＡＴＲ、ＢＡＰ１、ＢＡＲＤ１、ＢＲＣＡ１、ＢＲＣＡ２、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＡ、ＦＡＮＣＬ、ＨＤＡＣ２、ＭＲＥ１１、ＮＢＮ、ＰＡＬＢ２、ＲＡＤ５０、ＲＡＤ５１、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、ＲＡＤ５４Ｌ、ＸＲＣＣ２、ＸＲＣＣ３、ＤＮＭＴ３Ａ、ＴＰ５３、ＬＲＰ１Ｂ、ＫＲＡＳ、ＭＡＲＣＨ１１、ＴＡＣ１、ＴＣＦ２１、ＳＨＯＸ２、ｐ１６、Ｃａｓｐ８、ＣＤＨ１３、ＭＧＭＴ、ＭＬＨ１、ＭＳＨ２、ＴＳＬＣ１、ＡＰＣ、ＤＫＫ１、ＤＫＫ３、ＬＫＢ１、ＷＩＦ１、ＲＵＮＸ３、ＧＡＴＡ４、ＧＡＴＡ５、ＰＡＸ５、Ｅ－カドヘリン、Ｈ－カドヘリン、ＶＩＭ、ＳＥＰＴ９、ＣＹＣＤ２、ＴＦＰＩ２、ＧＡＴＡ４、ＲＡＲＢ２、ｐ１６ＩＮＫ４ａ、ＡＰＣ、ＮＤＲＧ４、ＨＬＴＦ、ＨＰＰ１、ｈＭＬＨ１、ＲＡＳＳＦ１Ａ、ＩＧＦＢＰ３、ＩＴＧＡ４、ＰＩＫ３ＣＡ、ＥＲＢＢ２（ＨＥＲ２）、ＢＲＣＡ１／２、ＮＴＲＫ１／２／３、ＭＳＩ－Ｈｉｇｈ、ＥＳＲ１、ＡＴＭ、ＨＲＲ、ＦＧＦＲ２／３、ＩＤＨ１、ＫＲＡＳ、ＮＲＡＳ、ＢＲＡＦ、ＫＩＴ、ＰＤＧＦＲＡ、ＥＧＦＲ、ＡＬＫ、ＲＯＳ１、ＭＥＴ、ＴＭＢ、またはＲＥＴのうちの１つまたは複数を含み得る。

領域のパネルを検出するためのプローブは、目的のゲノム領域（ホットスポット領域）を検出するためのものはもちろん、ヌクレオソーム認識プローブ（例えば、ＫＲＡＳコドン１２および１３）も含むことができ、そのようなプローブを、ヌクレオソーム結合パターンおよびＧＣ配列組成による影響を受けるｃｆＤＮＡカバレッジおよび断片サイズの変動についての分析に基づいて捕捉を最適化するように設計することができる。この場合に使用される領域は、ヌクレオソーム位置およびＧＣモデルに基づいて最適化された非ホットスポット領域も含み得る。パネルは、原発組織を同定するためのサブパネル（例えば、組織にわたって最も多様な転写プロファイルを有する遺伝子（必ずしもプロモーターとは限らない）を代表する５０～１００のベイトを定義するための公開文献の使用）、全ゲノム足場を同定するためのサブパネル（例えば、超保存的ゲノムコンテンツを同定し、コピー数ベースライニングを目的として少数のプローブを用いて染色体全体にわたって疎にタイリングするための）、転写開始部位（ＴＳＳ）／ＣｐＧアイランドを同定するためのサブパネル（例えば、差次的なメチル化領域（例えば、可変メチル化領域（ＤＭＲ））を、例えば、腫瘍抑制遺伝子（例えば、大腸がんにおけるＳＥＰＴ９／ＶＩＭ）のプロモーターにおいて、捕捉するための）をはじめとする、複数のサブパネルを含み得る。一部の実施形態では、原発組織のためのマーカーは、組織特異的な後成的マーカーである。

目的の遺伝子位置のリストの一部の例を表３および表４で見つけることができる。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表３の遺伝子のうちの少なくとも５つ、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも２５、少なくとも３０、少なくとも３５、少なくとも４０、少なくとも４５、少なくとも５０、少なくとも５５、少なくとも６０、少なくとも６５、少なくとも７０、少なくとも７５、少なくとも８０、少なくとも８５、少なくとも９０、少なくとも９５、または９７の少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表３のＳＮＶのうちの少なくとも５つ、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも２５、少なくとも３０、少なくとも３５、少なくとも４０、少なくとも４５、少なくとも５０、少なくとも５５、少なくとも６０、少なくとも６５、または７０を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表３のＣＮＶのうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、少なくとも４つ、少なくとも５つ、少なくとも６つ、少なくとも７つ、少なくとも８つ、少なくとも９つ、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、または１８を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表３の融合体のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、少なくとも４つ、少なくとも５つ、または６つを含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表３のインデルのうちの少なくとも１つ、少なくとも２つ、または３つの少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表４の遺伝子のうちの少なくとも５つ、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも２５、少なくとも３０、少なくとも３５、少なくとも４０、少なくとも４５、少なくとも５０、少なくとも５５、少なくとも６０、少なくとも６５、少なくとも７０、少なくとも７５、少なくとも８０、少なくとも８５、少なくとも９０、少なくとも９５、少なくとも１００、少なくとも１０５、少なくとも１１０、または１１５の少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表４のＳＮＶのうちの少なくとも５つ、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも２５、少なくとも３０、少なくとも３５、少なくとも４０、少なくとも４５、少なくとも５０、少なくとも５５、少なくとも６０、少なくとも６５、少なくとも７０、または７３を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表４のＣＮＶのうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、少なくとも４つ、少なくとも５つ、少なくとも６つ、少なくとも７つ、少なくとも８つ、少なくとも９つ、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、または１８を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表４の融合体のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、少なくとも４つ、少なくとも５つ、または６つを含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表４のインデルのうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、少なくとも４つ、少なくとも５つ、少なくとも６つ、少なくとも７つ、少なくとも８つ、少なくとも９つ、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、または１８の少なくとも一部分を含む。目的のこれらの遺伝子位置の各々を、所与のベイトセットパネルについての骨格領域またはホットスポット領域として同定することができる。目的のホットスポット遺伝子位置のリストの一例を表５で見つけることができる。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表５の遺伝子のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、少なくとも４つ、少なくとも５つ、少なくとも６つ、少なくとも７つ、少なくとも８つ、少なくとも９つ、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、または少なくとも２０の少なくとも一部分を含む。各ホットスポット遺伝子位置は、関連遺伝子、それが存在する染色体、遺伝子の座位を表すゲノムの開始および停止位置、塩基対での遺伝子の座位の長さ、遺伝子によりカバーされるエクソン、ならびに目的の所与の遺伝子位置が獲得しようとし得る極めて重要な特徴（例えば、変異のタイプ）をはじめとする、いくつかの特徴と共に収載される。

一部の実施形態では、パネル内の１つまたは複数の領域は、外科手術後の残存がんを検出するために１つまたは複数の遺伝子からの１つまたは複数の座位を含む。この検出は、既存のがん検出方法が可能であるものより早期であり得る。一部の実施形態では、パネル内の１つまたは複数の遺伝子位置は、高リスク患者集団においてがんを検出するために１つまたは複数の遺伝子からの１つまたは複数の座位を含む。例えば、喫煙者は、一般集団よりはるかに高い肺がん率を有する。さらに、喫煙者は、肺における不規則な小結節の発症などの、がんの検出をより困難にする他の肺の状態を発症し得る。一部の実施形態では、本明細書に記載される方法は、高リスク患者におけるがんを、既存のがん検出方法が可能であるものより早期に検出することができる。

シークエンシングパネルに含めるための遺伝子位置を、腫瘍マーカーがその遺伝子または領域にあるがんを有する対象の数に基づいて選択することができる。シークエンシングパネルに含めるための遺伝子位置を、がんおよび腫瘍マーカーがその遺伝子に存在するがんを有する対象の有病率に基づいて選択することができる。領域内の腫瘍マーカーの存在は、がんを有する対象を示し得る。

一部の事例では、１つまたは複数のデータベースからの情報を使用して、パネルを選択することができる。がんに関する情報は、がん腫瘍生検またはｃｆＤＮＡアッセイから導出され得る。データベースは、シークエンシングされた腫瘍試料の集団を記述する情報を含み得る。データベースは、腫瘍試料におけるｍＲＮＡ発現についての情報を含み得る。データベースは、腫瘍試料における調節エレメントまたはゲノム領域についての情報を含み得る。シークエンシングされた腫瘍試料に関する情報は、様々な遺伝的バリアントの頻度を含み得、遺伝的バリアントが存在する遺伝子または領域を記述するものであり得る。遺伝的バリアントは、腫瘍マーカーであり得る。そのようなデータベースの非限定的な例は、ＣＯＳＭＩＣである。ＣＯＳＭＩＣは、様々ながんに見られる体細胞変異のカタログである。特定のがんについて、ＣＯＳＭＩＣは、変異の頻度に基づいて遺伝子をランク付けしている。所与の遺伝子の中での変異頻度が高いことから、パネルに含めるための遺伝子を選択することができる。例えば、ＣＯＳＭＩＣは、シークエンシングされた乳がん試料の集団の３３％がＴＰ５３の変異を有し、試料採取された乳がんの集団の２２％がＫＲＡＳの変異を有することを示す。ＡＰＣをはじめとする、他のランク付けされた遺伝子は、シークエンシングされた乳がん試料の集団の約４％にしか見られない変異を有する。ＴＰ５３およびＫＲＡＳを、試料採取された乳がんの中で（例えば、約４％の頻度で存在するＡＰＣと比較して）頻度が相対的に高いことに基づいてシークエンシングパネルに含めることができる。ＣＯＳＭＩＣを非限定的な例として提供するが、がんを遺伝子または遺伝領域に位置する腫瘍マーカーと関連付ける任意のデータベースまたは情報セットを使用することができる。別の例では、ＣＯＳＭＩＣにより提供されているように、１１５６の胆道がん試料のうちの３８０の試料（３３％）は、ＴＰ５３の変異を保有する。ＡＰＣなどの、いくつかの他の遺伝子は、全試料の４～８％に変異を有する。したがって、ＴＰ５３を、胆道がん試料の集団における相対的に高い頻度に基づいてパネルに含めるために選択することができる。

遺伝子またはゲノム区画は、腫瘍マーカーの頻度が、試料採取された腫瘍組織または循環腫瘍ＤＮＡにおいて所与のバックグラウンド集団に見られる頻度より有意に高い場合、パネルに選択することができる。がんを有する対象の少なくとも大多数が、パネル内の遺伝子位置または遺伝子の少なくとも１つに存在する腫瘍マーカーまたはゲノム領域を有するような、遺伝子位置の組合せを、パネルに含めるために選択することができる。特定のがんまたはがんのセットについて、対象の大多数が、選択された領域の１つまたは複数に１つまたは複数の腫瘍マーカーを有することを示すデータに基づいて、遺伝子位置の組合せを選択することができる。例えば、がん１を検出するために、がん１を有する対象の９０％がパネルの領域Ａ、Ｂ、Ｃおよび／またはＤに腫瘍マーカーを有することを示すデータに基づいて、領域Ａ、Ｂ、Ｃおよび／またはＤを含むパネルを選択することができる。あるいは、腫瘍マーカーは、がんを有する対象の２つまたはそれより多くの領域に独立して存在することが示されることがあり、したがって、併せると、２つまたはそれより多くの領域における腫瘍マーカーが、がんを有する対象の集団の大部分に存在する。例えば、がん２を検出するために、対象の９０％が１つまたは複数の領域に腫瘍マーカーを有すること、ならびにそのような対象の３０％では、腫瘍マーカーが領域Ｘにおいてのみ検出されるが、腫瘍マーカーが検出された対象の残部については腫瘍マーカーが領域Ｙおよび／またはＺにおいてのみ検出されることを示すデータに基づいて、領域Ｘ、ＹおよびＺを含むパネルを選択することができる。１つまたは複数のがんに関連することが以前に証明された１つまたは複数の遺伝子位置に存在する腫瘍マーカーは、腫瘍マーカーがそのときの５０％またはそれより多くの領域の１つまたは複数で検出された場合、対象ががんを有することを示すことまたは予測することができる。１つまたは複数の領域内の腫瘍マーカーのセットについてのがんの頻度から判断してがんを検出する条件付き確率を利用するモデルなどの、計算論的手法を使用して、どの領域が、単独でまたは組合せで、がんを予測し得るのかを予測することができる。パネル選択のための他の手法は、大パネルでの腫瘍の包括的ゲノムプロファイリングおよび／または全ゲノムシークエンシング（ＷＧＳ、ＲＮＡ－ｓｅｑ、Ｃｈｉｐ－ｓｅｑ、バイサルファイトシークエンシング、ＡＴＡＣ－ｓｅｑなど）を用いる研究からの情報を記述するデータベースの使用を含む。文献から集められた情報には、ある特定のがんの場合に一般に影響を受け、変異する経路も、記述されていることがある。遺伝子情報を記述するオントロジーの使用によって、パネル選択のさらなる情報を得ることができる。

シークエンシングのためのパネルに含まれる遺伝子は、完全転写領域、プロモーター領域、エンハンサー領域、調節エレメント、および／または下流の配列を含み得る。変異を示す腫瘍を検出する尤度をさらに高めるために、エクソンのみをパネルに含めることができる。パネルは、選択された遺伝子の全てのエクソンを含むこともあり、または選択された遺伝子のエクソンのうちの１つだけもしくは複数を含むこともある。パネルは、複数の異なる遺伝子の各々からのエクソンを含むことがある。パネルは、複数の異なる遺伝子の各々からの少なくとも１つのエクソンを含むこともある。

一部の態様では、複数の異なる遺伝子の各々からのエクソンのパネルは、がんを有する対象の所定の比率が、エクソンのパネル内の少なくとも１つのエクソンにおける遺伝的バリアントを示すように選択される。

遺伝子のパネル内の異なる遺伝子各々からの少なくとも１つの全エクソンをシークエンシングすることができる。シークエンシングされるパネルは、複数の遺伝子からのエクソンを含み得る。パネルは、２～１００の異なる遺伝子、２～７０の遺伝子、２～５０の遺伝子、２～３０の遺伝子、２～１５の遺伝子、または２～１０の遺伝子からのエクソンを含み得る。

選択されるパネルは、様々な数のエクソンを含み得る。パネルは、２～３０００のエクソンを含み得る。パネルは、２～１０００のエクソンを含み得る。パネルは、２～５００のエクソンを含み得る。パネルは、２～１００のエクソンを含み得る。パネルは、２～５０のエクソンを含み得る。パネルは、３００以下のエクソンを含み得る。パネルは、２００以下のエクソンを含み得る。パネルは、１００以下のエクソンを含み得る。パネルは、５０以下のエクソンを含み得る。パネルは、４０以下のエクソンを含み得る。パネルは、３０以下のエクソンを含み得る。パネルは、２５以下のエクソンを含み得る。パネルは、２０以下のエクソンを含み得る。パネルは、１５以下のエクソンを含み得る。パネルは、１０以下のエクソンを含み得る。パネルは、９以下のエクソンを含み得る。パネルは、８以下のエクソンを含み得る。パネルは、７以下のエクソンを含み得る。

パネルは、複数の異なる遺伝子からの１つまたは複数のエクソンを含み得る。パネルは、複数の異なる遺伝子のある比率の各々からの１つまたは複数のエクソンを含み得る。パネルは、異なる遺伝子の少なくとも２５％、５０％、７５％または９０％の各々からの少なくとも２つのエクソンを含み得る。パネルは、異なる遺伝子の少なくとも２５％、５０％、７５％または９０％の各々からの少なくとも３つのエクソンを含み得る。パネルは、異なる遺伝子の少なくとも２５％、５０％、７５％または９０％の各々からの少なくとも４つのエクソンを含み得る。

シークエンシングパネルのサイズは、様々であり得る。例えば、シークエンシングされるヌクレオチドの総量、またはパネル内の特定の領域についてシークエンシングされる一意の分子の数を含む、いくつかの因子に依存して、シークエンシングパネルを（ヌクレオチドサイズに関して）より大きくまたはより小さくすることができる。シークエンシングパネルを５ｋｂ～５０ｋｂサイズにすることができる。シークエンシングパネルを１０ｋｂ～３０ｋｂサイズにすることができる。シークエンシングパネルを１２ｋｂ～２０ｋｂサイズにすることができる。シークエンシングパネルを１２ｋｂ～６０ｋｂサイズにすることができる。シークエンシングパネルは、少なくとも１０ｋｂ、１２ｋｂ、１５ｋｂ、２０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、４５ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、１１０ｋｂ、１２０ｋｂ、１３０ｋｂ、１４０ｋｂ、または１５０ｋｂのサイズであり得る。シークエンシングパネルは、１００ｋｂ、９０ｋｂ、８０ｋｂ、７０ｋｂ、６０ｋｂ、または５０ｋｂ未満のサイズであり得る。

シークエンシングに選択されるパネルは、少なくとも１、５、１０、１５、２０、２５、３０、４０、５０、６０、８０、または１００の遺伝子位置（例えば、各々が目的のゲノム領域を含む）を含み得る。一部の場合には、位置のサイズが相対的に小さい、パネル内の遺伝子位置が、選択される。一部の場合には、パネル内の領域は、約１０ｋｂもしくはそれ未満、約８ｋｂもしくはそれ未満、約６ｋｂもしくはそれ未満、約５ｋｂもしくはそれ未満、約４ｋｂもしくはそれ未満、約３ｋｂもしくはそれ未満、約２．５ｋｂもしくはそれ未満、約２ｋｂもしくはそれ未満、約１．５ｋｂもしくはそれ未満、または約１ｋｂもしくはそれ未満またはそれ未満のサイズを有する。一部の場合には、パネル内の遺伝子位置は、約０．５ｋｂ～約１０ｋｂ、約０．５ｋｂ～約６ｋｂ、約１ｋｂ～約１１ｋｂ、約１ｋｂ～約１５ｋｂ、約１ｋｂ～約２０ｋｂ、約０．１ｋｂ～約１０ｋｂ、または約０．２ｋｂ～約１ｋｂのサイズを有する。例えば、パネル内の領域は、約０．１ｋｂ～約５ｋｂのサイズを有し得る。

本明細書で選択されるパネルは、低頻度の遺伝的バリアント（例えば、試料から得られた無細胞核酸分子中の）を検出するのに十分である深いシークエンシングを可能にし得る。試料中の遺伝的バリアントの量は、所与の遺伝的バリアントについてのマイナーアレル頻度の点から言及されることがある。マイナーアレル頻度は、マイナーアレル（例えば、最も頻度の高いアレルではない）が、試料などの所与の核酸集団に存在する頻度を指し得る。低いマイナーアレル頻度の遺伝的バリアントは、試料中の存在頻度が相対的に低いものであり得る。一部の場合には、パネルは、少なくとも０．０００１％、０．００１％、０．００５％、０．０１％、０．０５％、０．１％、または０．５％のマイナーアレル頻度の遺伝的バリアントの検出を可能にする。パネルは、０．００１％またはそれより大きいマイナーアレル頻度の遺伝的バリアントの検出を可能にし得る。パネルは、０．０１％またはそれより大きいマイナーアレル頻度の遺伝的バリアントの検出を可能にし得る。パネルは、０．０００１％、０．００１％、０．００５％、０．０１％、０．０２５％、０．０５％、０．０７５％、０．１％、０．２５％、０．５％、０．７５％、または１．０％ほども低い頻度で試料中に存在する遺伝的バリアントの検出を可能にする。パネルは、少なくとも０．０００１％、０．００１％、０．００５％、０．０１％、０．０２５％、０．０５％、０．０７５％、０．１％、０．２５％、０．５％、０．７５％、または１．０％の頻度で試料中に存在する腫瘍マーカーの検出を可能にする。パネルは、試料中の１．０％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．７５％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．５％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．２５％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．１％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．０７５％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．０５％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．０２５％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．０１％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．００５％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．００１％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．０００１％ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の１．０％～０．０００１％ほども低い頻度のシークエンシングされたｃｆＤＮＡ中の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の０．０１％～０．０００１％ほども低い頻度のシークエンシングされたｃｆＤＮＡ中の腫瘍マーカーの検出を可能にし得る。

遺伝的バリアントを、疾患（例えば、がん）を有する対象の集団のパーセンテージで示すことができる。一部の場合には、がんを有する集団の少なくとも１％、２％、３％、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、または９９％は、パネル内の領域のうちの少なくとも１つの領域における１つまたは複数の遺伝的バリアントを示す。例えば、がんを有する集団の少なくとも８０％は、パネル内のゲノム位置のうちの少なくとも１つのゲノム位置における１つまたは複数の遺伝的バリアントを示し得る。

パネルは、１つまたは複数の遺伝子の各々からの目的のゲノム領域を含む１つまたは複数の位置を含み得る。一部の場合には、パネルは、少なくとも１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、４０、５０、または８０の遺伝子の各々からの目的のゲノム領域を含む１つまたは複数の位置を含み得る。一部の場合には、パネルは、多くても１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、４０、５０、または８０の遺伝子の各々からの目的のゲノム領域を含む１つまたは複数の位置を含み得る。一部の場合には、パネルは、約１～約８０、１～約５０、約３～約４０、５～約３０、１０～約２０の異なる遺伝子の各々からの目的のゲノム領域を含む１つまたは複数の位置を含み得る。

１つまたは複数のエピジェネティックに改変された領域が検出されるように、パネル内のゲノム領域を含む位置を選択することができる。１つまたは複数のエピジェネティックに改変された領域は、アセチル化、メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、および／またはシトルリン化されていることがある。例えば、１つまたは複数のメチル化領域が検出されるように、パネル内の領域を選択することができる。一部の実施形態では、パネルのゲノム領域は、次の遺伝子のうちの１つまたは複数を含み得る：ＤＮＭＴ３Ａ、ＴＰ５３、ＬＲＰ１Ｂ、ＫＲＡＳ、ＭＡＲＣＨ１１、ＴＡＣ１、ＴＣＦ２１、ＳＨＯＸ２、ｐ１６、Ｃａｓｐ８、ＣＤＨ１３、ＭＧＭＴ、ＭＬＨ１、ＭＳＨ２、ＴＳＬＣ１、ＡＰＣ、ＤＫＫ１、ＤＫＫ３、ＬＫＢ１、ＷＩＦ１、ＲＵＮＸ３、ＧＡＴＡ４、ＧＡＴＡ５、ＰＡＸ５、Ｅ－カドヘリン、Ｈ－カドヘリン、ＶＩＭ、ＳＥＰＴ９、ＣＹＣＤ２、ＴＦＰＩ２、ＧＡＴＡ４、ＲＡＲＢ２、ｐ１６ＩＮＫ４ａ、ＡＰＣ、ＮＤＲＧ４、ＨＬＴＦ、ＨＰＰ１、ｈＭＬＨ１、ＲＡＳＳＦ１Ａ、ＩＧＦＢＰ３、ＩＴＧＡ４、ＰＩＫ３ＣＡ、ＥＲＢＢ２（ＨＥＲ２）、ＢＲＣＡ１／２、ＮＴＲＫ１／２／３、ＭＳＩ－Ｈｉｇｈ、ＥＳＲ１、ＡＴＭ、ＨＲＲ、ＦＧＦＲ２／３、ＩＤＨ１、ＫＲＡＳ、ＮＲＡＳ、ＢＲＡＦ、ＫＩＴ、ＰＤＧＦＲＡ、ＥＧＦＲ、ＡＬＫ、ＲＯＳ１、ＭＥＴ、ＴＭＢ、またはＲＥＴ。

パネル内の領域を、それらが１つまたは複数の組織にわたって差次的に転写された配列を含むように選択することができる。一部の場合には、ゲノム領域を含む位置は、ある特定の組織に他の組織と比較して高いレベルで転写された配列を含み得る。例えば、ゲノム領域を含む位置は、転写された配列をある特定の組織に含み得るが、他の組織には含み得ない。

パネル内の遺伝子位置は、コードおよび／または非コード配列を含み得る。例えば、パネル内の遺伝子位置は、エクソン、イントロン、３’非翻訳領域、５’非翻訳領域、調節エレメント、転写開始部位、および／またはスプライス部位における１つまたは複数の配列を含み得る。一部の場合には、パネル内の領域は、偽遺伝子、反復配列、トランスポゾン、ウイルスエレメント、およびテロメアをはじめとする、他の非コード配列を含み得る。一部の場合には、パネル内の遺伝子位置は、非コードＲＮＡ、例えば、リボソームＲＮＡ、トランスファーＲＮＡ、Ｐｉｗｉ結合ＲＮＡ、およびマイクロＲＮＡ内の配列を含み得る。

パネル内の遺伝子位置を、所望の感度レベルで（例えば、１つまたは複数の遺伝的バリアントの検出によって）がんを検出（診断）するように選択することができる。例えば、パネル内の領域を、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度で（例えば、１つまたは複数の遺伝的バリアントの検出によって）がんを検出するように選択することができる。パネル内の遺伝子位置を、１００％の感度でがんを検出するように選択することができる。

パネル内の遺伝子位置を、所望の特異度レベルで（例えば、１つまたは複数の遺伝的バリアントの検出によって）がんを検出（診断）するように選択することができる。例えば、パネル内の遺伝子位置を、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の特異度で（例えば、１つまたは複数の遺伝的バリアントの検出によって）がんを検出するように選択することができる。パネル内の遺伝子位置を、１００％の特異度で１つまたは複数の遺伝的バリアントを検出するように選択することができる。

パネル内の遺伝子位置を、所望の陽性予測値でがんを検出（診断）するように選択することができる。感度（実際の陽性が検出される機会）および／または特異度（実際の陰性を陽性と間違えない機会）を高めることによって、陽性予測値を上昇させることができる。非限定的な例として、パネル内の遺伝子位置を、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の陽性予測値で１つまたは複数の遺伝的バリアントを検出するように選択することができる。パネル内の領域を、１００％の陽性予測値を有する１つまたは複数の遺伝的バリアントを検出するように選択することができる。

パネル内の遺伝子位置を、所望の精度でがんを検出（診断）するように選択することができる。本明細書で使用される場合、用語「精度」は、疾患状態（例えば、がん）と健康な状態とを弁別する試験の能力を指す。精度は、感度および特異度、予測値、尤度比、ＲＯＣ曲線下面積、ヨーデン指標および／または診断オッズ比などの尺度を使用して定量化することができる。

精度は、パーセンテージとして提示することができ、このパーセンテージは、正しい結果を与える試験の数と行われた試験の総数との比を指す。パネル内の領域を、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の精度でがんを検出するように選択することができる。パネル内の遺伝子位置を、１００％の精度でがんを検出するように選択することができる。

高感度になるように、および低頻度の遺伝的バリアントを検出するように、パネルを選択することができる。例えば、試料中に０．０１％、０．０５％、または０．００１％ほども低い頻度で存在する遺伝的バリアントまたは腫瘍マーカーを少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度で検出することができるように、パネルを選択することができる。パネル内の遺伝子位置を、試料中に１％またはそれ未満の頻度で存在する腫瘍マーカーを７０％またはそれより高い感度で検出するように選択することができる。試料中の０．１％ほども低い頻度の腫瘍マーカーを少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度で検出するように、パネルを選択することができる。試料中の０．０１％ほども低い頻度の腫瘍マーカーを少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度で検出するように、パネルを選択することができる。試料中の０．００１％ほども低い頻度の腫瘍マーカーを少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度で検出するように、パネルを選択することができる。

高い特異度になるように、および低頻度の遺伝的バリアントを検出するように、パネルを選択することができる。例えば、試料中に０．０１％、０．０５％、または０．００１％ほども低い頻度で存在する遺伝的バリアントまたは腫瘍マーカーを少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の特異度で検出することができるように、パネルを選択することができる。パネル内の遺伝子位置を、試料中に１％またはそれ未満の頻度で存在する腫瘍マーカーを７０％またはそれより高い特異度で検出するように選択することができる。試料中の０．１％ほども低い頻度の腫瘍マーカーを少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の特異度で検出するように、パネルを選択することができる。試料中の０．０１％ほども低い頻度の腫瘍マーカーを少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の特異度で検出するように、パネルを選択することができる。試料中の０．００１％ほども低い頻度の腫瘍マーカーを少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の特異度で検出するように、パネルを選択することができる。

高精度になるように、および低頻度の遺伝的バリアントを検出するように、パネルを選択することができる。試料中に０．０１％、０．０５％、または０．００１％ほども低い頻度で存在する遺伝的バリアントまたは腫瘍マーカーを少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の精度で検出することができるように、パネルを選択することができる。パネル内の遺伝子位置を、試料中に１％またはそれ未満の頻度で存在する腫瘍マーカーを７０％またはそれより高い精度で検出するように選択することができる。試料中の０．１％ほども低い頻度の腫瘍マーカーを少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の精度で検出するように、パネルを選択することができる。試料中の０．０１％ほども低い頻度の腫瘍マーカーを少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の精度で検出するように、パネルを選択することができる。試料中の０．００１％ほども低い頻度の腫瘍マーカーを少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の精度で検出するように、パネルを選択することができる。

高度に予測するように、および低頻度の遺伝的バリアントを検出するように、パネルを選択することができる。試料中に０．０１％、０．０５％、または０．００１％ほども低い頻度で存在する遺伝的バリアントまたは腫瘍マーカーが少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の陽性予測値を有することができるように、パネルを選択することができる。

パネルに使用されるプローブまたはベイトの濃度を、試料中のより多くの核酸分子を捕捉するために（２から６ｎｇ／μＬに）上昇させることができる。パネルに使用されるプローブまたはベイトの濃度は、少なくとも２ｎｇ／μＬ、３ｎｇ／μＬ、４ｎｇ／μＬ、５ｎｇ／μＬ、６ｎｇ／μＬ、またはそれより高い濃度であり得る。プローブの濃度は、約２ｎｇ／μＬ～約３ｎｇ／μＬ、約２ｎｇ／μＬ～約４ｎｇ／μＬ、約２ｎｇ／μＬ～約５ｎｇ／μＬ、約２ｎｇ／μＬ～約６ｎｇ／μＬであり得る。パネルに使用されるプローブまたはベイトの濃度は、２ｎｇ／μＬまたはそれより高い濃度～６ｎｇ／μＬまたはそれ未満の濃度であり得る。一部の事例では、これは、生物製剤中のより多くの分子を分析することを可能にし、それによって、より低頻度のアレルを検出することが可能になる。

ある実施形態では、シークエンシングパイプライン２０５を利用して、パネルを、ゲノムワイドなメチル化パターンを調べる全ゲノムバイサルファイトシークエンシング（ＷＧＢＳ）；全ゲノムシークエンシング（ＷＧＳ）；ならびに／またはコピー数バリアント（ＣＮＶ）および一塩基バリアント（ＳＮＶ）を調べる標的シークエンシング手法のうちの１つまたは複数に付すことができる。

対象のＤＮＡから得られた遺伝子および／またはエピジェネティック情報を組み合わせて、対象ががんを有するかどうかまたは対象ががんを有する尤度を決定することができる。がんに関連する遺伝的バリアントとエピジェネティックバリアントの両方について無細胞ヒトＤＮＡを分析する方法の詳細な説明は、米国仮特許出願第６２／７９９６３７号で見つけることができ、この参考特許文献は、その全体が参照により本明細書に組み込まれる。がんを検出するために無細胞ＤＮＡを分析するためのさらなるガイダンスは、数ある場所の中でも特に、米国特許第９８３４８２２号、ＰＣＴ出願ＷＯ２０１８０６４６２９Ａ１、およびＰＣＴ出願ＷＯ２０１７１０６７６８Ａ１において見つけることができる。

様々な実施形態は、がんに関連する遺伝子の遺伝的バリアントを検出する目的でＤＮＡ（例えば、ｃｆＤＮＡ）をシークエンシングするステップを含む。様々な実施形態は、がんに関連する遺伝子のエピジェネティックバリアントを検出する目的でＤＮＡ（例えば、ｃｆＤＮＡ）をシークエンシングするステップも含み、例えば、これらに限定されないが、がん性および非がん性細胞において差次的にメチル化されるＤＮＡ配列ならびにヌクレオソーム断片化パターン、例えば、米国特許出願公開第２０１７／０２１１１４３号に記載されているものを含む。

一部の実施形態では、核酸、例えば、ＤＮＡ（例えば、ｃｆＤＮＡ）を含む核酸、の捕捉されたセットが提供される。開示される方法に関して、ＤＮＡの捕捉されたセットは、例えば、本明細書に記載の捕捉および／または分離ステップ後に、提供され得る。捕捉されたセットは、配列可変標的領域セットおよびエピジェネティック標的領域セットの一方または両方に対応するＤＮＡを含み得る。一部の実施形態では、捕捉されたセットは、配列可変標的領域セットおよびエピジェネティック標的領域セットに対応するＤＮＡを含む。配列可変標的領域セットおよびエピジェネティック標的領域セットを含む、本明細書に記載される全ての実施形態において、配列可変標的領域セットは、エピジェネティック標的領域セットに存在しない領域を含み、逆にエピジェネティック標的領域セットは、配列可変標的領域セットに存在しない領域を含むが、一部の事例では、これらの領域の何分の１かは、オーバーラップしている場合がある（例えば、ゲノム位置の何分の１かは、両方の標的領域セットにおいて示され得る）。

メチル化標的領域セット

一部の実施形態では、エピジェネティック標的領域セットが捕捉される。エピジェネティック標的領域セットは、ＤＮＡと、新生物（例えば、腫瘍またはがん）細胞とを、および健康な細胞、例えば、非新生物循環細胞とを、差別化する可能性が高い、１つまたは複数のタイプの標的領域を含み得る。標的内の特定のヌクレオチドの配列決定の高い精度に依存しない方法を含む、様々な方法で、エピジェネティック標的領域セットを分析することができる。そのような領域の例示的なタイプは、本明細書において詳細に論じられる。一部の実施形態では、本開示による方法は、エピジェネティック標的領域セットに対応するｃｆＤＮＡ分子が、がん関連エピジェネティック改変（例えば、１つもしくは複数の高メチル化可変標的領域における高メチル化；ＣＴＣＦ結合の１つもしくは複数の摂動；および／または転写開始部位の１つもしくは複数の摂動）および／またはコピー数多様性（例えば、局所増幅）を含むまたは示すかどうかを判定するステップを含む。そのような分析は、シークエンシングにより行うことができ、配列変異、例えば、塩基置換、挿入または欠失の存在または非存在を決定するより少ないデータ（例えば、配列リード数、またはシークエンシングカバレッジの深度）を必要とし得る。エピジェネティック標的領域セットは、例えば本明細書に記載されるような、１つまたは複数の対照領域も含み得る。

一部の実施形態では、エピジェネティック標的領域セットは、少なくとも１００ｋｂ、例えば、少なくとも２００ｋｂ、少なくとも３００ｋｂ、または少なくとも４００ｋｂのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、１００～１０００ｋｂ、例えば、１００～２００ｋｂ、２００～３００ｋｂ、３００～４００ｋｂ、４００～５００ｋｂ、５００～６００ｋｂ、６００～７００ｋｂ、７００～８００ｋｂ、８００～９００ｋｂ、および９００～１，０００ｋｂの範囲のフットプリントを有する。

高メチル化可変標的領域

一部の実施形態では、エピジェネティック標的領域セットは、１つまたは複数の高メチル化可変標的領域を含む。一般に、高メチル化可変標的領域は、観察メチル化レベルの上昇が、試料（例えば、ｃｆＤＮＡ）が腫瘍またはがん細胞などの新生物細胞により産生されたＤＮＡを含有する尤度の上昇を示す、領域を指す。例えば、腫瘍抑制遺伝子のプロモーターの高メチル化が繰り返し観察されている。例えば、Kang et al., Genome Biol. 18:53 (2017)およびそこに引用されている参考文献を参照されたい。

大腸がんにおけるメチル化可変標的領域の広範にわたる論述が、Lam et al., Biochim Biophys Acta. 1866:106-20 (2016)において提供されている。これらは、ＶＩＭ、ＳＥＰＴ９、ＩＴＧＡ４、ＯＳＭ４、ＧＡＴＡ４およびＮＤＲＧ４を含む。大腸がん（ＣＲＣ）研究に基づく遺伝子またはそれらの部分を含む高メチル化可変標的領域の例示的なセットは、表６で提供される。これらの遺伝子の多くは、大腸がん以外のがんと関連性がある可能性が高く、例えば、ＴＰ５３は、非常に重要な腫瘍サプレッサーとして広く認知されており、この遺伝子の高メチル化に基づく不活性化は、一般的な発がん機構であり得る。

一部の実施形態では、高メチル化可変標的領域は、表６に収載されている複数の遺伝子またはそれらの部分、例えば、表６に収載されている遺伝子またはそれらの部分の少なくとも１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、または１００％を含む。例えば、標的領域に含まれる各座位には、遺伝子の転写開始部位と停止コドン（代替的にスプライシングされる遺伝子の最後の停止コドン）との間に結合するハイブリダイゼーション部位を有する１つまたは複数のプローブがあり得る。一部の実施形態では、１つまたは複数のプローブは、表６に収載されている遺伝子またはそれらの部分の上流および／または下流３００ｂｐ以内、例えば、２００ｂｐまたは１００ｂｐ以内に結合する。

様々なタイプの肺がんにおけるメチル化可変標的領域が、例えば、Ooki et al., Clin. Cancer Res. 23:7141-52 (2017)；Belinksy, Annu. Rev. Physiol. 77:453-74 (2015)；Hulbert et al., Clin. Cancer Res. 23:1998-2005 (2017)；Shi et al., BMC Genomics 18:901 (2017)；Schneider et al., BMC Cancer. 11:102 (2011)；Lissa et al., Transl Lung Cancer Res 5(5):492-504 (2016)；Skvortsova et al., Br. J. Cancer. 94(10):1492-1495 (2006)；Kim et al., Cancer Res. 61:3419-3424 (2001)；Furonaka et al., Pathology International 55:303-309 (2005)；Gomes et al., Rev. Port. Pneumol. 20:20-30 (2014)；Kim et al., Oncogene. 20:1765-70 (2001)；Hopkins-Donaldson et al., Cell Death Differ. 10:356-64 (2003)；Kikuchi et al., Clin. Cancer Res. 11:2954-61 (2005)；Heller et al., Oncogene 25:959-968 (2006)；Licchesi et al., Carcinogenesis. 29:895-904 (2008)；Guo et al., Clin. Cancer Res. 10:7917-24 (2004)；Palmisano et al., Cancer Res. 63:4620-4625 (2003)；およびToyooka et al., Cancer Res. 61:4556-4560, (2001)において詳細に論じられている。

肺がん研究に基づく遺伝子またはそれらの部分を含む高メチル化可変標的領域の例示的なセットは、表７で提供される。これらの遺伝子の多くは、肺がん以外のがんと関連性がある可能性が高く、例えば、Ｃａｓｐ８（カスパーゼ８）は、プログラム細胞死における肝要な酵素であり、この遺伝子の高メチル化に基づく不活性化は、肺がんに限定されない一般的な発がん機構であり得る。加えて、いくつかの遺伝子が、一般概念を示す表６および７の両方に掲載されている。

表２で特定される標的領域に関する上述の実施形態のいずれかを、表１で特定される標的領域に関する上記の実施形態のいずれかと組み合わせてもよい。一部の実施形態では、高メチル化可変標的領域は、表１または表２に収載されている複数の遺伝子またはそれらの部分、例えば、表１または表２に収載されている遺伝子またはそれらの部分の少なくとも１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、または１００％を含む。

さらなる高メチル化標的領域を、例えば、Cancer Genome Atlasから、得ることができる。Kang et al., Genome Biology 18:53 (2017)には、乳房、結腸、腎臓、肝臓および肺からの高メチル化標的領域を使用するＣａｎｃｅｒＬｏｃａｔｏｒと呼ばれる確率論的方法の構築が記載されている。一部の実施形態では、高メチル化標的領域は、１つまたは複数の種類のがんに特異的であり得る。したがって、一部の実施形態では、高メチル化標的領域は、乳がん、結腸がん、腎臓がん、肝臓がんおよび肺がんのうちの１つ、２つ、３つ、４つまたは５つにおいて高メチル化を集団で示す、高メチル化標的領域の１つ、２つ、３つ、４つまたは５つのサブセットを含む。

低メチル化可変標的領域

全体的低メチル化は、様々ながんによく見られる現象である。例えば、Hon et al., Genome Res. 22:246-258 (2012)（乳がん）；Ehrlich, Epigenomics 1:239-259 (2009)（結腸、卵巣、前立腺、白血病、肝細胞および子宮頸部がんにおける低メチル化の観察を記述している総説論文）を参照されたい。例えば、反復エレメント、例えば、ＬＩＮＥ１エレメント、Ａｌｕエレメント、セントロメアタンデムリピート、ペリセントロメアタンデムリピート、およびサテライトＤＮＡなどの領域、ならびに健康な細胞において通常メチル化される遺伝子間領域は、腫瘍細胞においてメチル化の低減を示し得る。したがって、一部の実施形態では、エピジェネティック標的領域セットは、観察メチル化レベルの低下が、試料（例えば、ｃｆＤＮＡの）が腫瘍またはがん細胞などの新生物細胞により産生されたＤＮＡを含有する尤度の上昇を示す、低メチル化可変標的領域を含む。

一部の実施形態では、低メチル化可変標的領域は、反復エレメントおよび／または遺伝子間領域を含む。一部の実施形態では、反復エレメントは、ＬＩＮＥ１エレメント、Ａｌｕエレメント、セントロメアタンデムリピート、ペリセントロメアタンデムリピート、および／またはサテライトＤＮＡのうちの１つ、２つ、３つ、４つ、または５つを含む。

がん関連低メチル化を示す例示的な特定のゲノム領域としては、例えばｈｇ１９またはｈｇ３８ヒトゲノムコンストラクトによる、ヒト第１染色体のヌクレオチド８４０３５６５～８９５３７０８および１５１１０４７０１～１５１１０６０３５を含む。一部の実施形態では、低メチル化可変標的領域は、これの領域の一方もしくは両方とオーバーラップするか、または一方もしくは両方を含む。

ＣＴＣＦ結合領域

ＣＴＣＦは、クロマチン構成に寄与するＤＮＡ結合タンパク質であり、多くの場合、コヒーシンと共局在する。ＣＴＣＦ結合部位の摂動が様々な異なるがんにおいて報告されている。例えば、Katainen et al., Nature Genetics, doi:10.1038/ng.3335、２０１５年６月８日にオンラインで発表；Guo et al., Nat. Commun. 9:1520 (2018)を参照されたい。ＣＴＣＦ結合は、ｃｆＤＮＡにおいて認識可能なパターンを生じさせる結果となり、これらのパターンをシークエンシングにより、例えば、断片長分析によって、検出することができる。例えば、シークエンシングに基づく断片長分析に関する詳細は、Snyder et al., Cell 164:57-68 (2016)；ＷＯ２０１８／００９７２３；および米国特許出願公開第２０１７０２１１１４３Ａ１号において提供されており、これらの参考文献の各々は、参照により本明細書に組み込まれる。

結果として、ＣＴＣＦ結合の摂動は、ｃｆＤＮＡの断片化パターンの変動をもたらす。しかるが故に、ＣＴＣＦ結合部位は、ある種の断片化可変標的領域を代表するものである。

多くの公知ＣＴＣＦ結合部位がある。例えば、ＣＴＣＦＢＳＤＢ（ＣＴＣＦＢｉｎｄｉｎｇＳｉｔｅＤａｔａｂａｓｅ）、インターネットでinsulatordb.uthsc.edu/において利用可能；Cuddapah et al., Genome Res. 19:24-32 (2009)；Martin et al., Nat. Struct. Mol. Biol. 18:708-14 (2011)；Rhee et al., Cell. 147:1408-19 (2011)を参照されたく、これらの各々が参照により本明細書に組み込まれる。例示的なＣＴＣＦ結合部位は、例えば、ｈｇ１９またはｈｇ３８ヒトゲノムコンストラクトによる、第８染色体上のヌクレオチド５６０１４９５５～５６０１６１６１および第１３染色体上のヌクレオチド９５３５９１６９～９５３６０４７３にある。

したがって、一部の実施形態では、エピジェネティック標的領域セットは、ＣＴＣＦ結合領域を含む。一部の実施形態では、ＣＴＣＦ結合領域は、少なくとも１０、２０、５０、１００、２００もしくは５００のＣＴＣＦ結合領域、または１０～２０、２０～５０、５０～１００、１００～２００、２００～５００、もしくは５００～１０００のＣＴＣＦ結合領域、例えば、上記のＣＴＣＦ結合領域、あるいは上記で引用されたＣＴＣＦＢＳＤＢまたはCuddapah et al.、Martin et al.、もしくはRhee et al.の論文の１つまたは複数に記載されているＣＴＣＦ結合領域などを含む。

一部の実施形態では、ＣＴＣＦ部位の少なくとも一部は、メチル化されていてもよくまたはメチル化されていなくてもよく、このメチル化状態は、細胞ががん細胞であるか否かと相関する。一部の実施形態では、エピジェネティック標的領域セットは、ＣＴＣＦ結合部位の少なくとも１００ｂｐ、少なくとも２００ｂｐ、少なくとも３００ｂｐ、少なくとも４００ｂｐ、少なくとも５００ｂｐ、少なくとも７５０ｂｐ、少なくとも１０００ｂｐ上流および／または下流領域を含む。

転写開始部位

転写開始部位もまた新生物細胞において摂動を示し得る。例えば、造血系統の健康な細胞における様々な転写開始部位でのヌクレオソーム構成－これは、健康な個体におけるｃｆＤＮＡに大きく寄与する－は、新生物細胞におけるそれらの転写開始部位でのヌクレオソーム構成と異なり得る。この結果として、例えば、Snyder et al., Cell 164:57-68 (2016)；ＷＯ２０１８／００９７２３；および米国特許出願公開第２０１７０２１１１４３Ａ１号において一般に論じられているように、シークエンシングにより検出され得る異なるｃｆＤＮＡパターンが生じることになる。

結果として、転写開始部位の摂動も、ｃｆＤＮＡの断片化パターンの変動をもたらす。しかるが故に、転写開始部位もまた、ある種の断片化可変標的領域を代表するものである。

ヒト転写開始部位は、インターネットでdbtss.hgc.jpにおいて利用可能なＤＢＴＳＳ（ＤａｔａＢａｓｅｏｆＨｕｍａｎＴｒａｎｓｃｉｐｔｉｏｎＳｔａｒｔＳｉｔｅｓ）から入手可能であり、参照により本明細書に組み込まれるYamashita et al., Nucleic Acids Res. 34(Database issue): D86-D89 (2006)に記載されている。

したがって、一部の実施形態では、エピジェネティック標的領域セットは、転写開始部位を含む。一部の実施形態では、転写開始部位は、少なくとも１０、２０、５０、１００、２００もしくは５００の転写開始部位、または１０～２０、２０～５０、５０～１００、１００～２００、２００～５００、もしくは５００～１０００の転写開始部位、例えば、ＤＢＴＳＳに収載されている転写開始部位などを含む。一部の実施形態では、転写開始部位の少なくとも一部は、メチル化されていてもよくまたはメチル化されていなくてもよく、このメチル化状態は、細胞ががん細胞であるか否かと相関する。一部の実施形態では、エピジェネティック標的領域セットは、転写開始部位の少なくとも１００ｂｐ、少なくとも２００ｂｐ、少なくとも３００ｂｐ、少なくとも４００ｂｐ、少なくとも５００ｂｐ、少なくとも７５０ｂｐ、少なくとも１０００ｂｐ上流および／または下流領域を含む。

メチル化対照領域

データ検証を容易にするために対照領域を含めることは有用であり得る。一部の実施形態では、エピジェネティック標的領域セットは、ＤＮＡが、がん細胞に由来するのか、正常な細胞に由来するのかを問わず、本質的に全ての試料においてメチル化されているまたはメチル化されていないと予想される対照領域を含む。一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において低メチル化されていると予想される対照低メチル化領域を含む。

一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において高メチル化されていると予想される対照高メチル化領域を含む。

コピー数多様性；局所増幅

局所増幅などのコピー数多様性は体細胞変異であるが、それらを、メチル化の変化などのある特定のエピジェネティック変化を検出するための手法に類似した方法でシークエンシングによって読み取り頻度に基づいて検出することができる。しかるが故に、がんにおいて局所増幅などのコピー数多様性を示し得る領域をエピジェネティック標的領域セットに含めることができ、これらの領域は、ＡＲ、ＢＲＡＦ、ＣＣＮＤ１、ＣＣＮＤ２、ＣＣＮＥ１、ＣＤＫ４、ＣＤＫ６、ＥＧＦＲ、ＥＲＢＢ２、ＦＧＦＲ１、ＦＧＦＲ２、ＫＩＴ、ＫＲＡＳ、ＭＥＴ、ＭＹＣ、ＰＤＧＦＲＡ、ＰＩＫ３ＣＡ、およびＲＡＦ１のうちの１つまたは複数を含み得る。例えば、一部の実施形態では、エピジェネティック標的領域セットは、前述の標的のうちの少なくとも２つ、３つ、４つ、５つ、６つ、７つ、８つ、９つ、１０、１１、１２、１３、１４、１５、１６、１７または１８を含む。

ｇ．配列分析パイプライン

ある実施形態では、シークエンシング後、配列リードおよび任意の関連データを、配列データストア２０９に記憶させることができる。配列リードを、任意の形式で記憶させることができる。配列データストア２０９は、シークエンシングが行われる位置に対してローカルおよび／または遠隔にあり得る。図２に示されているように、記憶されたリードは、配列分析パイプライン２１２に供され得る。
ｉ．配列品質管理

配列分析パイプライン２１２は、研究室システム１０２からの配列断片／リードをフィルタリングすることができる配列品質管理（ＱＣ）構成要素２１３を含み得る。配列ＱＣ構成要素２１３は、１つまたは複数の配列断片／リードに品質スコアを割り当てることができる。品質スコアは、配列断片／リードの表示であって、それらの配列断片／リードが閾値に基づいて後続の分析に有用であり得るかどうかを示す表示であり得る。一部の場合には、一部の配列断片／リードは、後続のマッピングステップを行うのに十分な品質のものでも長さのものでもない。品質スコア少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％を有する配列断片／リードをフィルタリングして配列断片／リードのデータセットから除去することができる。他の場合には、品質スコア少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％が割り当てられた配列断片／リードをフィルタリングしてデータセットから除去することができる。

特定品質スコア閾値を満たす配列断片／リードを配列ＱＣ構成要素２１３により参照ゲノムにマッピングすることができる。マッピングアラインメント後、配列断片／リードにマッピングスコアを割り当てることができる。マッピングスコアは、各位置が一意的にマッピング可能であるか否かを示す、参照配列にマッピングし直された配列断片／リードの表示であり得る。マッピングスコア少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％を有する配列断片／リードをフィルタリングしてデータセットから除去することができる。他の場合には、９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％未満のマッピングスコアが割り当てられたシークエンシング断片／リードをフィルタリングしてデータセットから除去することができる。
ｉｉ．エピジェネティック構成要素

ある実施形態では、エピジェネティック構成要素２１４は、配列断片／リード分析してエピジェネティックデータを決定することができる。エピジェネティックデータは、例えば、ＤＮＡメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、タンパク質結合、またはヌクレオチド塩基配列のみから突き止められない分析される核酸断片に反映される他の分子の状態、例えば、所与の塩基もしくはセット塩基のメチル化ステータスに関する情報を含み得る。エピジェネティックデータを、エピジェネティックシグネチャーとして使用することができる。エピジェネティックデータを、当技術分野において公知の任意の手段により決定することができる。エピジェネティックデータを、分析データストア２１８に記憶させることができる。

本明細書に従って、試料２０１および／または対象２１１からのｃｆＤＮＡ断片を、試料収集および調製パイプライン２０３において、例えば、非メチル化シトシンをウラシルに変換することにより処置し、シークエンシングパイプライン２０５に従ってシークエンシングすることができ、配列断片／リードをエピジェネティック構成要素２１４により参照ゲノムと比較して、配列断片／リード内の特定のＣｐＧ部位におけるメチル化状態を同定することができる。各ＣｐＧ部位は、メチル化されていてもよくまたはメチル化されていなくてもよい。健康な個体と比較して異常にメチル化された断片を同定することは、対象のがんステータスを理解する上での手掛かりとなる。ＤＮＡメチル化異常（健康な対照と比較して）は、がんの一因となり得る種々の効果を引き起こし得る。メチル化は、典型的に、デオキシリボ核酸（ＤＮＡ）において、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、５－メチルシトシンを形成したときに起こる。特に、メチル化は、本明細書では「ＣｐＧ部位」と呼ばれる、シトシンおよびグアニンのジヌクレオチドで起こる傾向がある。異常なＤＮＡメチル化を高メチル化または低メチル化として同定することができ、これらの両方ががんステータスを示し得る。本開示を通して、高メチル化および低メチル化は、配列断片／リードが、閾値パーセンテージより多くのＣｐＧ部位がメチル化されているまたはメチル化されていないＣｐＧ部位を閾値より多く含む場合、配列断片／リードについて特徴付けられ得る。ＣｐＧ部位の数の例となる閾値としては、３、４、５、６、７、８、９、１０などより大きい値が挙げられる。メチル化または非メチル化についての例となるパーセンテージ閾値としては、８０％、８５％、９０％もしくは９５％を超える％、または５０％～１００％の範囲内の任意の他のパーセンテージが挙げられる。本明細書に記載される原理が、非シトシンメチル化をはじめとする非ＣｐＧコンテキストでのメチル化の検出に同様に適用可能であることは、当業者には理解されるであろう。

ある実施形態では、エピジェネティック構成要素２１４は、参照ゲノムへのアラインメントに基づいてＣｐＧ部位ごとに位置およびメチル化状態を決定するように構成され得る。エピジェネティック構成要素２１４は、参照ゲノムにおける断片の位置（例えば、各断片における最初のＣｐＧ部位の位置、または別の同様のメトリクスにより特定されるような）、断片中のＣｐＧ部位の数、および断片中の各ＣｐＧ部位のメチル化状態、メチル化されている（例えば、Ｍと示される）か、非メチル化である（例えば、Ｕと示される）か、または未確定である（例えば、Ｉと示される）かを特定する、メチル化状態ベクトルを断片ごとに生成することができる。観察される状態は、メチル化状態または非メチル化状態であり、その一方で、観察されない状態は、未確定である。未確定メチル化状態は、ＤＮＡ断片の相補鎖のメチル化状態間のシークエンシングエラーおよび／または不一致から生じ得る。メチル化状態ベクトルをその後の使用および処理のために分析データストア２１８に記憶させることができる。さらに、エピジェネティック構成要素２１４は、単一の試料から重複リードまたは重複メチル化状態ベクトルを除去することができる。エピジェネティック構成要素２１４は、１つまたは複数のＣｐＧ部位を有するある特定の断片が、閾値数またはパーセンテージを超える未確定メチル化ステータスを有することを決定することができ、そのような断片を除外することができる。

図３は、メチル化状態ベクトルを得るためにｃｆＤＮＡ分子をシークエンシングするための方法３００の説明図である。一例として、研究室システム２０２は、ｃｆＤＮＡ分子３０１を受け取り、ｃｆＤＮＡ分子３０１は、この例では３つのＣｐＧ部位を含有する。示されているように、ｃｆＤＮＡ分子３０１の第１および第３のＣｐＧ部位は、メチル化されたもの３０２である。試料収集および調製パイプライン２０３の一部として、ｃｆＤＮＡ分子３０１は変換されて、変換されたｃｆＤＮＡ分子３０３を生成する。メチル化されていなかった第２のＣｐＧ部位は、ウラシルに変換されたそのシトシンを有するが、第１および第３のＣｐＧ部位は、変換されなかった。

変換後、シークエンシングパイプライン２０５は、配列断片／リード３０４を生成するために使用される。エピジェネティック構成要素２１４は、配列断片／リード３０４を参照ゲノム３０５にアラインするように構成され得る。参照ゲノム３０５は、ヒトゲノム内のどの位置が断片ｃｆＤＮＡの起源であるのかについてのコンテキストを提供する。この単純化された例では、エピジェネティック構成要素２１４は、３つのＣｐＧ部位がＣｐＧ部位１、２および３と相関するように配列リード３０４をアラインする。したがって、エピジェネティック構成要素２１４は、ｃｆＤＮＡ分子３０１上の全てのＣｐＧ部位のメチル化ステータスとＣｐＧ部位が位置するヒトゲノム内の位置の両方に関する情報を生成する。示されているように、メチル化された配列リード３０４上のＣｐＧ部位は、シトシンとして読み取られる。この例では、シトシンは、配列リード３０４の第１および第３のＣｐＧ部位のみに現れ、このことにより、元のｃｆＤＮＡ分子中の第１および第３のＣｐＧ部位がメチル化されたと推論することができる。その一方で、第２のＣｐＧ部位は、チミンとして読み取られ（Ｕが、シークエンシングプロセスの間にＴに変換される）、それ故、元のｃｆＤＮＡ分子中の第２のＣｐＧ部位がメチル化されていないと推論することができる。これら２つの情報、メチル化ステータスおよび位置を用いて、エピジェネティック構成要素２１４は、断片ｃｆＤＮＡ３０１についてのメチル化状態ベクトル３０６を生成する。この例において、得られるメチル化状態ベクトル３０６は、＜Ｍ１、Ｕ２、Ｍ３＞であり、ここで、Ｍは、メチル化ＣｐＧ部位に対応し、Ｕは、非メチル化ＣｐＧ部位に対応し、下付き数字は、参照ゲノム中の各ＣｐＧ部位の位置に対応する。

別の実施形態では、シークエンシングおよびアラインメント後、個々のＣｐＧ部位のメチル化ステータスを、ＣｐＧコンテキストのシトシン残基におけるメチル化配列リード「Ｍ」（メチル化されている）の計数値および非メチル化配列リード「Ｕ」（メチル化されていない）の計数値から推論することができる。血漿中の特定の座位の平均メチル化ＣｐＧ密度（メチル化密度ｍとも呼ばれる）を、方程式：ｍ＝Ｍ／（Ｍ＋Ｕ）を使用して計算することができ、この式中、Ｍは、遺伝子座位内のＣｐＧ部位におけるメチル化リードの計数値であり、Ｕは、遺伝子座位内のＣｐＧ部位における非メチル化リードの計数値である。座位内に１つより多くのＣｐＧ部位がある場合には、ＭおよびＵは、その部位にわたっての計数値に対応する。

シークエンシングに加えて、他の技法を使用してＤＮＡメチル化に関する情報を判定することができる。一実施形態では、メチル化プロファイリングを、メチル化特異的ＰＣＲ、またはメチル化感受性制限酵素消化に続いてのＰＣＲ、またはリガーゼ連鎖反応に続いてのＰＣＲにより行うことができる。さらに他の実施形態では、ＰＣＲは、一分子またはデジタルＰＣＲの形態である（B. Vogelstein et al. 1999 Proc Natl Acad Sci USA; 96: 9236-9241）。さらに他の実施形態では、ＰＣＲは、リアルタイムＰＣＲであり得る。他の実施形態では、ＰＣＲは、マルチプレックスＰＣＲであり得る。
ｉｉｉ．フラグメントミクス構成要素

図２に戻って、ある実施形態では、フラグメントミクス構成要素２１５は、配列断片／リードを分析してフラグメントミクスデータを決定することができる。フラグメントミクスデータは、例えば、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、および／または断片の終点を示す任意の値に関する情報を含み得る。フラグメントミクス構成要素２１５を、配列断片／リードを分析して、断片サイズ、末端モチーフ頻度、ジャギド末端長、好ましい末端座標、中心点座標、配向末端密度、モチーフ密度スコア、ウインドウ保護スコア、ｃｆＤＮＡ完全性、ヌクレオソームフットプリンティング、これらの組合せ、およびそれらに類するもののうちの１つまたは複数を決定するように、構成することができる。フラグメントミクスデータをフラグメントミクスシグネチャーとして使用することができる。フラグメントミクスデータを、当技術分野において公知の任意の手段により決定することができる。フラグメントミクスデータを、分析データストア２１８に記憶させることができる。

ある実施形態では、フラグメントミクス構成要素２１５は、特定のサイズを有する無細胞ＤＮＡ断片の量を決定するように構成され得る。特定のサイズは、範囲であり得る。例えば、サイズ範囲は、サイズカットオフ、例えば１００ｂｐ、１５０ｂｐまたは２００ｂｐより大きいこともあり、それ未満であることもある。他の例では、サイズ範囲は、最大および最小サイズ、例えば、５０～８０、５０～１００、５０～１５０、１００～１５０、１００～２００、１５０～２００、１５０～２３０、２００～３００、または３００～４００塩基、ならびに他の範囲により特定され得る。サイズ範囲の幅は、例えば５０、１００、１５０、または２００塩基になるように、変動し得る。例として、量は、生の計数値であることもあり、または例えば、分析される配列リードまたはＤＮＡ断片の総数を使用して頻度として、正規化されることもある。

ある実施形態では、フラグメントミクス構成要素２１５を、配列断片／リードの末端モチーフを決定するように、および末端モチーフ頻度を決定するように、構成することができる。末端モチーフは、無細胞ＤＮＡ断片の終了配列、例えば、断片の両端のＫ塩基についての配列に関するものである。終了配列は、様々な塩基数、例えば、１、２、３、４、５、６、７などを有する、ｋ－ｍｅｒであり得る。末端モチーフ（または「配列モチーフ」）は、参照ゲノム内の特定の位置とは対照的に配列自体に関するものである。したがって、同じ末端モチーフが参照ゲノム全体にわたって非常に多くの位置に存在し得る。参照ゲノムを使用して末端モチーフを決定して、例えば、開始位置の直前または末端位置の直後の塩基を同定することができる。そのような塩基は、例えば、断片の終了配列に基づいて同定されるので、やはり無細胞ＤＮＡ断片の末端に対応することになる。

図４は、本開示の実施形態による末端モチーフについての例を示す。図４は、分析すべき４－ｍｅｒ末端モチーフを定義するための技法を示す。技法４０４では、４－ｍｅｒ末端モチーフは、血漿ＤＮＡ分子の各末端の最初の４ｂｐ配列から直接構築される。例えば、配列断片の最初の４ヌクレオチドまたは最後の４ヌクレオチドが使用され得る。技法４０９では、これらの４－ｍｅｒ末端モチーフは、断片のシークエンシングされた末端からの２－ｍｅｒ配列とその断片の末端に隣接したゲノム領域からの他の２－ｍｅｒ配列とを使用することによって一緒に構築される。他の実施形態では、他のタイプのモチーフ、例えば、１－ｍｅｒ、２－ｍｅｒ、３－ｍｅｒ、５－ｍｅｒ、６－ｍｅｒ、７－ｍｅｒ末端モチーフが使用され得る。

図４に示されているように、方法４００は、研究室システム２０２と試料収集および調製パイプライン２０３とを経由して（例えば、血液試料に関して、例えば遠心分離による、精製プロセスを使用して）ステップ４０１で無細胞ＤＮＡ断片を得ることで始まり得る。血漿ＤＮＡ断片に加えて、他のタイプの無細胞ＤＮＡ分子、例えば、血清、尿、唾液、および本明細書で言及される他の試料からのものを使用することができる。一実施形態では、ＤＮＡ断片は、平滑末端化され得る。

ステップ４０２で、ＤＮＡ断片は、シークエンシングパイプライン２０５経由でペアエンドシークエンシングに付される。一部の実施形態では、ペアエンドシークエンシングは、ＤＮＡ断片の２つの末端から２つの配列リード、例えば、配列リードあたり３０～１２０塩基対を、生成することができる。これら２つの配列リードは、各配列リードがＤＮＡ断片のそれぞれの末端の終了配列を含む、ＤＮＡ断片（分子）のリードペアを形成し得る。他の実施形態では、ＤＮＡ断片全体をシークエンシングすることができ、それによって、ＤＮＡ断片の両末端の終了配列を含む単一の配列リードが得られる。両末端の２つの終了配列を、たとえそれらが１回のシークエンシング操作から一緒に生成されたとしても、やはりペアの配列リードと見なすことができる。

ステップ４０３で、フラグメントミクス構成要素２１５は、配列リードを参照ゲノムにアラインし得る。このようなアラインメントは、配列モチーフの異なる定義方法を例証するためのものであり、一部の実施形態では使用されないことがある。例えば、断片の末端における配列を、参照ゲノムにアラインする必要なく、直接使用することができる。しかし、対象における多様性（例えばＳＮＰ）に依存しない、終了配列の均一性を有するように、アラインメントを設計することが望まれ得る。例えば、終了塩基は、多様性またはシークエンシングエラーに起因して参照ゲノムとは異なり得るが、参照における塩基は、計数されたものであり得る。あるいは、配列リードの末端の塩基を、個体に合わせるように使用することができる。様々なソフトウェアパッケージ、例えば（これらに限定されるものではないが）ＢＬＡＳＴ、ＦＡＳＴＡ、Ｂｏｗｔｉｅ、ＢＷＡ、ＢＦＡＳＴ、ＳＨＲｉＭＰ、ＳＳＡＨＡ２、ＮｏｖｏＡｌｉｇｎ、およびＳＯＡＰを使用して、アラインメント手順を行うことができる。

方法４００が進行して、技法４０４および／または技法４０９を利用して末端モチーフをさらに評価することができる。技法４０４は、ゲノム４０８へのアラインメントを用いて、配列断片４０５の配列リードを示す。５’末端を開始部と見なすと、第１の末端モチーフ４０６（ＣＣＣＡ）は、配列断片４０５の開始部にある。第２の末端モチーフ４０７（ＴＣＧＡ）は、配列断片４０５の尾部にある。ｃｆＤＮＡ断片の末端優位性を分析するとき、この配列リードは、５’末端のＣ末端計数値に寄与することになる。このような末端モチーフは、一実施形態では、酵素がＣＣＣＡを認識し、ひいては第１のＣの直前で切断した場合に生じ得る。その場合には、ＣＣＣＡは、優先的に血漿ＤＮＡ断片の末端に存在することになる。ＴＣＧＡについては、酵素は、それを認識し、ひいてはＡの後で切断し得る。Ａについての計数値を決定するとき、この配列リードは、Ａ末端計数値に寄与することになる。

技法４０９は、ゲノム４１３へのアラインメントを用いて、シークエンシングされた断片４１０の配列リードを示す。５’末端を開始部と見なすと、第１の末端モチーフ４１１（ＣＧＣＣ）は、配列断片４１０の配列の開始部の直前に存在する第１の部分（ＣＧ）、およびシークエンシングされた断片４１０の開始部の終了配列の一部である第２の部分（ＣＣ）を有する。第２の末端モチーフ４１２（ＣＣＧＡ）は、シークエンシングされた断片４１０の尾部の直後に存在する第１の部分（ＧＡ）、およびシークエンシングされた断片４１０の尾部の終了配列の一部である第２の部分（ＣＣ）を有する。このような末端モチーフは、一実施形態では、酵素がＣＧＣＣを認識し、ひいてはＧおよびＣの直前で切断した場合に生じ得る。その場合には、ＣＣは、優先的に血漿ＤＮＡ断片の末端にあり、その直前にＣＧが存在し、それによって末端モチーフＣＧＣＣが得られることになる。第２の末端モチーフ１６４（ＣＣＧＡ）に関しては、酵素がＣとＧとの間で切断し得る。その場合には、ＣＣは、優先的に血漿ＤＮＡ断片の末端に存在することになる。技法４０９については、隣接ゲノム領域およびシークエンシングされた血漿ＤＮＡ断片からの塩基の数は、様々であり得、必ずしも固定比に限定されず、例えば、２：２ではなく、比は、２：３、３：２、４：４、２：４などであることがある。

ゲノム内に正確な配置で整列した６つの塩基を有する確率は、ゲノム内に正確な配置で整列した２つの塩基を有する確率より低いため、無細胞ＤＮＡ末端シグネチャーに含まれているヌクレオチドの数が多いほど、モチーフの特異度が高くなる。それ故、末端モチーフの長さの選択は、意図された用途に必要な感度および／または特異度に左右され得る。

終了配列は、配列リードを参照ゲノムにアラインするために使用されるので、いずれの配列モチーフも終了配列から決定され、または直前／後もやはり終了配列から決定される。したがって、技法４０９は、終了配列を他の塩基に関連付け、参照が、それを関連付ける機序として使用される。技法４０４と４０９の差異は、２つの末端モチーフのどちらに特定のＤＮＡ断片が割り当てられるかということであり、これは、相対頻度の特定の値に影響を与える。しかし、全般的な結果（例えば、遺伝性障害の検出、投薬量の有効性の決定、ヌクレアーゼの活性のモニタリングなど）は、例えば、機械学習モデルを使用して行われ得るような、参照値を決定するためのいずれの訓練データについても、一貫した技法が使用されるのであれば、ＤＮＡ断片を末端モチーフに割り当てる方法による影響を受けないであろう。

特定の末端モチーフ（例えば、特定の塩基）に対応する終了配列を有するＤＮＡ断片の数の計数値が、特定の末端モチーフの量を決定するために計数（例えば、メモリにアレイで記憶）され得る。生の計数値または頻度などの量を、様々な方法で測定することができ、その量が正規化される。正規化は、ＤＮＡ断片の総数を使用して（例えば、それで割って）行われることもあり、またはＤＮＡ断片（例えば、特定サイズを有する、または１つもしくは複数の特定末端モチーフを有する、特定領域からの）の特定群における数を使用して行われることもある。遺伝性障害が存在する場合、および抗凝固薬の有効用量が投与された場合、ならびにヌクレアーゼの活性が変化（例えば、増加または減少）した場合、末端モチーフの量の差異が検出されている。

ある実施形態では、フラグメントミクス構成要素２１５は、ジャギド末端（例えば、オーバーハング）の存在、および関連定量値を決定するように構成され得る。図５は、無細胞ＤＮＡ分子のオーバーハングの程度（すなわち、オーバーハングインデックス）を決定し得る方法を示す一例を示す。図５０１、５０２および５０３は、メチル化ＣｐＧ部位を表す黒丸、および非メチル化ＣｐＧ部位を表す白抜きの丸を含む。図５０２および５０３は、新たに充填されたヌクレオチドを表す破線を含む。図５０３は、シークエンシング結果における第１のリード（リード１）を示す矢印、および第２のリード（リード２）を示す矢印を含む。グラフ５０４は、５’から３’へリード１およびリード２におけるメチル化レベルのグラフ、およびオーバーハングインデックス２５０

を示し、このオーバーハングインデックスは、次の変数を含む：リード１のメチル化レベルとしてのＲ１、およびリード２のメチル化レベルとしてのＲ２。

図６は、ヒト参照ゲノムへのマッピング後のＤＮＡ分子に沿ったメチル化レベルの計算の説明図である。ワトソン－クリック鎖からの全てのＤＮＡ分子を、ヒト参照ゲノムへのマッピング後に相対位置および配向に従ってそれぞれスタックすることができる。スタックされた分子を、図６に示されているようにアラインメント結果における５’末端に対する位置に従って総合オーバーハングインデックスを計算するために、使用することができる。

最近端（すなわち、リード１については５’末端）に対する特定の位置ｉでのメチル化レベル（ＭＤ）は、ＣとＴの総数に対するＣの数の比：

により定量され得る。第１のリード（５’末端を有するもの、すなわち、リード１）は、第２のリード（３’末端を有するもの、すなわち、リード２）より高い平均のメチル化レベルを有し得る。なぜなら、第２のリードの３’ギャップは、非メチル化Ｃで充填されることになり、その非メチル化Ｃは、バイサルファイトシークエンシング結果ではＴに変換されることになるからである。総合オーバーハングインデックスは、次の式に従って決定され得る：

図７は、オーバーハングインデックスを決定するための方法７００を示す。生体試料は、複数の核酸分子を含み得る。複数の核酸分子は、無細胞であり得る。複数の核酸分子の各核酸分子は、第１の部分を有する第１の鎖と第２の鎖とを有する二本鎖状であり得る。複数の核酸分子の少なくとも一部の第１の鎖の第１の部分は、第２の鎖にオーバーハングしていることがあり、第２の鎖とハイブリダイズしていないことがあり、第１の鎖の第１の末端にあることがある。

ステップ７０１で、１つまたは複数の鎖の１つまたは複数の部位のメチル化ステータスが決定され得る。１つまたは複数のヌクレオチドを含む第１の化合物は、複数の核酸分子の各核酸分子についての第１の鎖の第１の部分とハイブリダイズしていることがある。第１の化合物が第２の鎖の第１の末端に結合されて、第１の化合物を含む第１の末端を有する伸長された第２の鎖を形成し得る。第１の化合物は、第２の鎖に接触していない第１の末端を含み得る。１つまたは複数のヌクレオチドは、メチル化されていなくてもよい。他のインプリメンテーションでは、ある特定のヌクレオチド（例えば、シトシン）は、全てメチル化されており、他のヌクレオチドはメチル化されていない。第１の化合物は、第１の部分と１度に１ヌクレオチドずつハイブリダイズし得る。

第１の鎖は、複数の核酸分子の各核酸分子の伸長された第２の鎖から分離され得る。伸長された第２の鎖の１つまたは複数の第１の部位の各々についての第１のメチル化状態が、複数の核酸分子の各核酸分子について決定され得る。１つまたは複数の第１の部位は、伸長された第２の鎖の第１の末端にあり得る。伸長された第２の鎖の１つまたは複数の第２の部位の各々についての第２のメチル化ステータスが、必要に応じて、複数の核酸分子の各核酸分子について決定され得る。１つまたは複数の第２の部位は、伸長された第２の鎖の第２の末端にあり得る。１つまたは複数の第２の部位は、伸長された第２の鎖の第２の末端の最も外側の部位を含み得る。一部の例では、第２の部位についてのメチル化ステータスを決定する必要がないことがあり、その代わりに、そのメチル化ステータスは、平均メチル化ステータスであると仮定され得る。平均メチル化ステータスを、ゲノムの特定の領域におけるメチル化ＣｐＧ部位の既知の頻度から、知ることができる。一部の事例では、平均メチル化ステータスは、生体試料が得られる同じ個体から採取されるおよび／または他の個体から採取される参照試料から、決定され得る。

ステップ７０２で、第１のメチル化レベルが、複数の伸長された第２の鎖についての１つまたは複数の第１の部位での第１のメチル化ステータスを使用して決定され得る。第１のメチル化レベルは、第１のメチル化ステータスの平均値または中央値であり得る。

ステップ７０３で、第２のメチル化レベルが、必要に応じて、複数の伸長された第２の鎖についての１つまたは複数の第２の部位での第２のメチル化ステータスを使用して計算され得る。第２のメチル化レベルは、第２のメチル化ステータスの平均値または中央値であり得る。一部の実施形態では、第２のメチル化レベルは、平均メチル化レベルであると仮定され得る。平均メチル化レベルは、ゲノムの特定の領域におけるメチル化ＣｐＧ部位の既知の頻度に基づき得る。一部の事例では、平均メチル化レベルは、生体試料が得られる同じ個体から採取されるおよび／または他の個体から採取される参照試料から、決定され得る。例えば、第２のメチル化レベルは、７０％～８０％の値であると仮定され得る。

ステップ７０４で、第１のメチル化レベルおよび第２のメチル化レベルを使用して、オーバーハングインデックスが決定され得る。第１のメチル化レベルと第２のメチル化レベルとの差は、第２の鎖にオーバーハングする第１の鎖の平均長に比例し得る。オーバーハングインデックスの計算は、第１のメチル化レベルと第２のメチル化レベルとの差を計算し、その差を第１のメチル化レベルで割ることにより得る（例えば、図６の総合オーバーハングインデックス）。

ある実施形態では、フラグメントミクス構成要素２１５は、断片終点の遺伝子位置を決定するように構成され得る。フラグメントミクス構成要素２１５は、ＤＮＡ分子の２つの物理的末端についての情報を判定することができる。両方のリードが同じ染色体にアラインした、およびそれらのリードが反対の配向を有する、対合末端データの両方の外側アラインメント座標が、リード出発点として使用され得る。対合末端データをアダプタートリミングにより単一リードデータに変換した場合、単一リードアラインメントの両方の末端座標をリード出発点として使用することができる。カバレッジについては、２つの（推論）分子末端間の全ての位置が、これらの末端位置を含めて、考慮され得る。ｃｆＤＮＡ断片終点は、ヌクレオソームの境界に隣接してクラスタリングし、それと同時にヌクレオソーム自体でも枯渇されるはずであると予想される。このことを定量化するために、ウインドウサイズｋのウインドウ化保護スコア（ＷＰＳ）を、ウインドウにより包含される任意の塩基で開始する分子の数を引いた、ウインドウにわたる分子の数と定義することができる。決定されたＷＰＳをウインドウの中心に割り当てることができる。３５～８０ｂｐ範囲の分子（短い部分）には、例えば、１６のウインドウサイズを使用することができ、１２０～１８０ｂｐの分子（長い部分）には、例えば、１２０のウインドウサイズを使用することができる。高いＷＰＳ値は、消化からのＤＮＡの保護の増大を示し、低い値は、ＤＮＡが未保護であることを示す。ピークコールによって、連続したＷＰＳ上昇領域が同定される。

図２に戻って、エピジェネティック構成要素２１４およびフラグメントミクス構成要素２１５により決定された結果を、そのような結果を生成するために使用された配列データにおける配列断片および／またはバリアントと関連付けることができる。そして、既知の試料２０１から得られる配列データの場合、配列断片および／またはバリアントの起源を、配列データ、エピジェネティックデータ、および／またはフラグメントミクスデータと関連付けることもできる。例えば、腫瘍由来であることが既知の配列断片および／またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、腫瘍由来とラベルすることができ、非腫瘍由来であることが既知の配列断片および／またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、非腫瘍由来とラベルすることができる。その上、さらなるラベル、例えば、がん型、組織型およびこれらに類するものを、割り当てることができる。
ｉｖ．コピー数構成要素

コピー数構成要素２１６は、配列断片／リードを使用して染色体のカバレッジ領域を生成することができる。コピー数構成要素２１６は、その染色体領域を可変長のウインドウまたはビンに分割することができる。ウインドウまたはビンは、少なくとも５ｋｂ、１０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７５ｋｂ、１００ｋｂ、１５０ｋｂ、２００ｋｂ、５００ｋｂ、または１０００ｋｂであり得る。ウインドウまたはビンはまた、５ｋｂ、１０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７５ｋｂ、１００ｋｂ、１５０ｋｂ、２００ｋｂ、５００ｋｂ、または１０００ｋｂ以下の塩基を有し得る。ウインドウまたはビンはまた、約５ｋｂ、１０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７５ｋｂ、１００ｋｂ、１５０ｋｂ、２００ｋｂ、５００ｋｂ、または１０００ｋｂであり得る。

コピー数構成要素２１６は、ウインドウまたはビンにほぼ同数のマッピング可能な塩基を含有させることにより、カバレッジを正規化することができる。一部の場合には、染色体領域内の各ウインドウまたはビンは、ちょうど同数のマッピング可能な塩基を含有することがある。他の場合には、各ウインドウまたはビンは、異なる数のマッピング可能な塩基を含有することもある。加えて、各ウインドウまたはビンは、隣接するウインドウともビンともオーバーラップしていないことがある。他の場合には、ウインドウまたはビンは、別の隣接するウインドウまたはビンとオーバーラップしていることもある。一部の場合には、ウインドウまたはビンは、少なくとも１ｂｐ、２ｂｐ、３ｂｐ、４ｂｐ、５ｂｐ、１０ｂｐ、２０ｂｐ、２５ｂｐ、５０ｂｐ、１００ｂｐ、２００ｂｐ、２５０ｂｐ、５００ｂｐ、または１０００ｂｐオーバーラップしていることがある。他の場合には、ウインドウまたはビンは、１ｂｐ、２ｂｐ、３ｂｐ、４ｂｐ、５ｂｐ、１０ｂｐ、２０ｂｐ、２５ｂｐ、５０ｂｐ、１００ｂｐ、２００ｂｐ、２５０ｂｐ、５００ｂｐ、または１０００ｂｐ以下オーバーラップしていることがある。一部の場合には、ウインドウまたはビンは、約１ｂｐ、２ｂｐ、３ｂｐ、４ｂｐ、５ｂｐ、１０ｂｐ、２０ｂｐ、２５ｂｐ、５０ｂｐ、１００ｂｐ、２００ｂｐ、２５０ｂｐ、５００ｂｐ、または１０００ｂｐオーバーラップしていることがある。

一部の場合には、ウインドウ領域の各々は、指定されたサイズを有することができ、そのため、それらは、ほぼ同数の一意的にマッピング可能な塩基を含有する。ウインドウ領域を構成する各塩基のマッピング可能性が決定され、マッピング可能性ファイルを生成するために使用され、このマッピング可能性ファイルは、各ファイルの参照にマッピングし直される参照からの断片／リードの表示を含有する。マッピング可能性ファイルは、位置ごとに一行を含有し、これによって各位置が一意にマッピング可能であるか否かが示される。

加えて、ゲノム全体にわたってシークエンシングが困難であることまたはかなり高いＧＣバイアスを含有することが分かっている、事前に定義されたウインドウを、データセットからフィルタリングすることができる。例えば、染色体のセントロメア（すなわち、セントロメアＤＮＡ）付近にあることが分かっている領域は、偽陽性結果を生じさせ得る高反復配列を含有することが分かっている。これらの領域をフィルタリングして除去することができる。ゲノムの他の領域、例えば、マイクロサテライトＤＮＡなどの異常に高濃度の他の高反復配列を含有する領域を、データセットからフィルタリングすることができる。

分析されるウインドウの数も、様々であり得る。一部の場合には、少なくとも１０、２０、３０、４０、５０、１００、２００、５００、１０００、２０００、５，０００、１０，０００、２０，０００、５０，０００または１００，０００のウインドウが分析される。他の場合には、分析されるウインドウの数は、１０、２０、３０、４０、５０、１００、２００、５００、１０００、２０００、５，０００、１０，０００、２０，０００、５０，０００または１００，０００以下であり、これらのウインドウが分析される。

コピー数構成要素２１６は、ウインドウ／ビン領域ごとにリードカバレッジを決定することができる。この決定を、バーコードを伴う断片／リード、またはバーコードを伴わない断片／リードのどちらかを使用して行うことができる。バーコードを伴わない場合、前のマッピングステップは、異なる塩基位置のカバレッジを提供することになる。十分なマッピングおよび品質スコアを有する配列断片／リードであって、フィルタリングされない染色体ウインドウ内に入る配列断片／リードが、計数され得る。カバレッジ断片／リードの数に、各マッピング可能な位置ごとにスコアが割り当てられ得る。

ある実施形態では、シークエンシングリードカバレッジに関する定量的測度は、遺伝子座位に対応するＤＮＡ分子に由来する断片／リード（例えば、参照ゲノムからの特定の位置、塩基、領域、遺伝子または染色体）の数を示す測度である。断片／リードを遺伝子座位と関連付けるために、断片／リードを参照にマッピングまたはアラインすることができる。マッピングまたはアライニングを行うためのソフトウェア（例えば、Ｂｏｗｔｉｅ、ＢＷＡ、ｍｒｓＦＡＳＴ、ＢＬＡＳＴ、ＢＬＡＴ）は、シークエンシングリードを遺伝子座位と関連付けることができる。マッピングプロセス中に、特定のパラメーターを最適化することができる。マッピング処理の最適化の非限定的な例としては、反復領域のマスキング；マッピング品質（例えば、ＭＡＰＱ）スコアカットオフの利用；アラインメントを生成するための異なるシード長の使用；およびゲノム位置間の編集距離の制限を挙げることができる。

シークエンシングリードカバレッジに関連する定量的測度は、遺伝子座位に関連付けられた断片／リードの計数値を含み得る。一部の場合には、これらの計数値は、異なるシークエンシング深度、ライブラリーの複雑度、または遺伝子座位のサイズの効果を和らげるために、新たなメトリクスに変換される。例示的なメトリクスは、１００万リードあたりのキロベースあたりのリード（ＲＰＫＭ：ＲｅａｄＰｅｒＫｉｌｏｂａｓｅｐｅｒＭｉｌｌｉｏｎ）、１００万断片あたりのキロベースあたりの断片（ＦＰＫＭ：ＦｒａｇｍｅｎｔｓＰｅｒＫｉｌｏｂａｓｅｐｅｒＭｉｌｌｉｏｎ）、Ｍ値のトリム平均（ＴＭＭ：ＴｒｉｍｍｅｄＭｅａｎｏｆＭｖａｌｕｅｓ）、分散安定化された生の計数値、およびｌｏｇ変換された生の計数値である。他の変換も、当業者には公知であり、それらを特定の応用に使用することができる。

リードファミリーまたは折り畳まれたリードの各々が初期鋳型ＤＮＡ分子に対応する、断片／リードファミリーまたは折り畳まれた断片／リードの数を使用して、定量的測度を決定することができる。リードファミリーを折り畳むためのおよび定量化するための方法は、ＰＣＴ／ＵＳ２０１３／０５８０６１およびＰＣＴ／ＵＳ２０１４／００００４８において見つけることができ、これらの参考特許文献の各々は、その全体が参照により本明細書に組み込まれる。特に、参照配列にマッピングされたときに各ファミリーがバーコード配列とシークエンシングリード配列および／または同じゲノム座標の少なくとも一部分とを共有するように、シークエンシングリードからのバーコードおよび配列情報を使用して断片／リードをファミリーに選別する、リードファミリーの定量化および／または折り畳み方法を、用いることができる。したがって、ファミリーの大部分について、各ファミリーは、単一の初期鋳型ＤＮＡ分子に由来する。ファミリーからの配列のマッピングから導出される計数値を、「一意の分子計数値」（ＵＭＣ）と呼ぶことができる。一部の場合には、シークエンシングリードカバレッジに関連する定量的測度を決定することは、ライブラリーサイズに関連するメトリクスによりＵＭＣを正規化して、正規化されたＵＭＣ（「正規化ＵＭＣ」）を得ることを含む。例示的な方法は、遺伝子座位のＵＭＣを全てのＵＭＣの合計で割ること；遺伝子座位のＵＭＣを全ての常染色体ＵＭＣの合計で割ることである。複数のシークエンシングリードデータセットを比較する場合、ＵＭＣを、例えば、２つのシークエンシングリードデータセットの遺伝子座位のＵＭＣ中央値によって正規化することができる。一部の場合には、シークエンシングリードカバレッジに関連する定量的測度は、以下のようにさらに正規化される、正規化ＵＭＣであり得る：（ｉ）訓練試料から導出されたシークエンシング断片／リードからの対応する遺伝子座位について、正規化ＵＭＣを決定する；（ｉｉ）各遺伝子座位について、試料の正規化ＵＭＣを対応する座位における訓練試料の正規化ＵＭＣの中央値により正規化し、それによって、遺伝子座位の相対存在量（ＲＡ）を得る。

コンセンサス配列を、それらの配列に基づいて、例えば、最初の５、１０、１５、２０または２５塩基の中の同一配列に基づいてシークエンシング断片／リードを折り畳むことにより、同定することができる。一部の場合には、折り畳みは、他の点では同一である断片／リードにおける１つの差異、２つの差異、３つの差異、４つの差異、または５つの差異を許容する。一部の場合には、折り畳みは、リードのマッピング位置、例えば、シークエンシングリードの初期の塩基のマッピング位置を使用する。一部の場合には、折り畳みは、バーコードを使用し、バーコード配列を共有するシークエンシング断片／リードがコンセンサス配列に折り畳まれる。一部の場合には、折り畳みは、バーコードと初期鋳型分子の配列を両方とも使用する。例えば、バーコードを共有し、参照ゲノム内の同じ位置にマッピングされる全ての断片／リードを、折り畳むことができる。別の例では、バーコードと初期鋳型分子の配列（または初期鋳型分子の配列に対する同一性パーセンテージ）とを共有する全ての断片／リードを折り畳むことができる。

一部の場合には、シークエンシングリードカバレッジの定量的測度は、ゲノムの特定の小領域について決定される。領域は、ビン、目的の遺伝子、エクソン、配列プローブに対応する領域、プライマー増幅産物に対応する領域、またはプライマー結合部位に対応する領域であり得る。一部の場合には、ゲノム小領域は、配列捕捉用プローブに対応する領域である。リードは、リードの少なくとも一部分が、配列捕捉用プローブに対応する領域の少なくとも一部分をマッピングする場合、配列捕捉用プローブに対応する領域に位置し得る。リードは、リードの少なくとも一部分が、配列捕捉用プローブに対応する領域の大部分に位置する場合、配列捕捉用プローブに対応する領域に位置し得る。リードは、リードの少なくとも一部分が、配列捕捉用プローブに対応する領域の中心点を横断して位置する場合、配列捕捉用プローブに対応する領域に位置し得る。

バーコードを含む別の実施形態では、同じバーコード、物理的特性、またはこれら２つの組合せを有する全ての配列を、それら全てが試料親分子に由来する場合、１つのリードに折り畳んで、増幅中に導入された可能性があるバイアスを低減させることができる。例えば、ある分子は１０回増幅されるが、別の分子は１０００回増幅される場合、各分子が折り畳み後に１回だけ提示されることによって、不均一な増幅の効果が打ち消される。一意のバーコードを有する断片／リードのみが、マッピング可能な位置ごとに計数され得、割り当てられるスコアに影響を与え得る。

コンセンサス配列を、配列断片／リードのファミリーから当技術分野において公知の任意の方法により生成することができる。そのような方法としては、例えば、デジタル通信理論、情報理論、またはバイオインフォマティクスから導出された、コンセンサス配列の線形または非線形構築方法（例えば、投票、平均化、統計的、最大事後もしくは最大尤度検出、ダイナミックプログラミング、ベイジアン、隠れマルコフまたはサポートベクターマシン方法など）が挙げられる。

配列リードカバレッジを決定した後、確率論的モデリングアルゴリズムを適用して、各ウインドウ／ビン領域についての正規化核酸配列リードカバレッジを別々のコピー数状態に変換することができる。一部の場合には、このアルゴリズムは、次のうちの１つまたは複数を含み得る：隠れマルコフモデル、ダイナミックプログラミング、サポートベクターマシン、ベイジアンネットワーク、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリング方法論およびニューラルネットワーク。各ウインドウ領域の別々のコピー数状態を利用して、染色体領域におけるコピー数多様性を同定することができる。一部の場合には、同じコピー数を有する全ての隣接ウインドウ／ビン領域をマージしてセグメントにして、コピー数多様性状態の存在または非存在を報告することができる。一部の場合には、様々なウインドウ／ビンを、それらを他のセグメントとマージする前にフィルタリングすることができる。コピー数多様性を、分析データストア２１８に記憶させることができ、および／またはゲノム内の様々な位置とそれぞれの位置各々でのコピー数多様性の対応する増加もしくは減少もしくは維持とを示すグラフとして報告することができる。加えて、コピー数多様性を使用して、どの程度の疾患材料（またはコピー数多様性を有する核酸）が無細胞ポリヌクレオチド試料中に存在するのかを示すパーセンテージスコアを報告することができる。
ｖ．バリアントコーラー構成要素

バリアントコーラー２１７は、分析データストア２１８からデータを取り込む／受信することができる。例えば、バリアントコーラー２１７は、複数の配列断片／リードを表すデータを取り込む／受信することができる。複数の配列断片／リードを分析して１つまたは複数のバリアントを決定することができる。バリアントは、例えば、一塩基バリアント（ＳＮＶ）、インデル、融合、およびコピー数多様性を含み得る。バリアントコーリングのための任意の公知の技法を使用することができる。ある実施形態では、シークエンシングされた核酸におけるヌクレオチドの多様性を、シークエンシングされた核酸を参照配列と比較することにより決定することができる。参照配列は、多くの場合、既知の配列、例えば、対象からの既知の全または部分ゲノム配列（例えば、ヒト対象からの全ゲノム配列）である。参照配列は、例えば、ｈＧ１９またはｈＧ３８であり得る。シークエンシングされた核酸は、上で説明されたとおり、試料中の核酸について直接決定された配列を表すこともあり、またはそのような核酸の増副産物の配列のコンセンサスであることもある。参照配列上の１つまたは複数の指定位置で比較を行うことができる。それぞれの配列を最大限にアラインしたときに参照配列の指定位置に対応する位置を含む、シークエンシングされた核酸のサブセットを同定することができる。そのようなサブセットの中で、もしあれば、シークエンシングされたどの核酸が、指定位置にヌクレオチドの多様性を含むのか；その終点（すなわち、その５’および３’末端ヌクレオチド）が参照配列に位置する場合、ｃｆＤＮＡ断片内のゲノム領域の中点からの所与のｃｆＤＮＡ断片の中点のオフセットに基づいて、所与のｃｆＤＮＡ断片の長さ；および必要に応じて、もしあれば、どれが、参照ヌクレオチド（すなわち、参照配列内のものと同じもの）を含むのかを、決定することができる。ヌクレオチドバリアントを含むサブセット中のシークエンシングされた核酸の数が、選択された閾値を超えると、バリアントヌクレオチドは、指定位置でコールされ得る。閾値は、ヌクレオチドバリアントを含むサブセット内のシークエンシングされた核酸少なくとも１、２、３、４、５、６、７、９もしくは１０などの単純な数であり得、または閾値は、数ある可能性の中でも特に、ヌクレオチドバリアントを含むサブセット内のシークエンシングされた核酸の少なくとも０．５、１、２、３、４、５、１０、１５もしくは２０などの比であり得る。参照配列中の目的の任意の指定位置について比較を繰り返すことができる。ときには、参照配列上の少なくとも約２０、１００、２００または３００の連続する位置、例えば、約２０～５００、または約５０～３００の連続する位置を占める指定位置について、比較を行うことができる。

配列分析パイプライン２１２により分析、決定および／または出力された任意のデータを、分析データストア２１８に記憶させることができる。一般的に言えば、プロセッサー２２０は、配列分析パイプライン２１２の様々な構成要素、例えば、配列品質管理構成要素２１３、エピジェネティック構成要素２１４、フラグメントミクス構成要素２１５、コピー数構成要素２１６、バリアントコーラー２１７、および／または他の構成要素を実装し得る（そのような要素によってプログラムされ得る）。あるいは、配列分析パイプライン２１２のこれらの構成要素は、ハードウェアモジュールを含み得ることに留意されたい。便宜上、別々に図示されているが、配列品質管理構成要素２１３、エピジェネティック構成要素２１１４、フラグメントミクス構成要素２１５、コピー数構成要素２１６、および／またはバリアントコーラー２１７などの、様々な構成要素または命令の１つまたは複数を、互いに統合することができる。

コンピュータシステム２１０は、ネットワーク２２３を使用してコンピュータシステム２２４とデータをやりとりすることができる。例えば、コンピュータシステム２２４は、分析データストア２１８からデータを取り込むことができる。コンピュータシステム２２４は、予測モデル（例えば、分類器）を生成するために、ならびに／または予測モデルを利用して配列断片および／もしくはバリアントの起源を決定するために構成され得る。
ｈ．予測モデル

次に図８を参照して、予測モデル（例えば、分類器）を生成するためのさらなる方法が説明される。記載される方法は、訓練するために、訓練モジュール８２０による１つまたは複数の訓練データセット８１０の分析に基づく機械学習（「ＭＬ」）技法であって、少なくとも１つのＭＬモジュール８３０が、血漿中の配列断片および／またはバリアントを、腫瘍起源、またはクローン性造血もしくは生物学的ノイズからのものであり得る非腫瘍起源に分類するように構成されている、技法を使用し得る。

訓練データセット８１０は、腫瘍由来および非腫瘍由来（例えば、がん／非がん）体液（例えば、血液、血漿、血清、脳脊髄液、尿）試料データを含み得る。試料データは、１つまたは複数の配列断片／リードおよび／またはバリアントについての配列情報を含み得る、配列データを含み得る。試料データは、エピジェネティックデータを含み得る。エピジェネティックデータは、例えば、ＤＮＡメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、タンパク質結合、またはヌクレオチド塩基配列のみから突き止められない分析される核酸断片に反映される他の分子の状態、例えば、所与の塩基もしくはセット塩基のメチル化状態に関する情報を含み得る。試料データは、フラグメントミクスデータを含み得る。フラグメントミクスデータは、例えば、断片がマッピングされた開始および停止の位置（ヌクレオソーム位置と相関する）、断片長ならびに関連ヌクレオソーム占有率に関する情報を含み得る。ある実施形態では、配列データにおける配列断片／リードおよび／またはバリアントの起源（腫瘍由来および非腫瘍由来）もまた、配列データ、エピジェネティックデータ、および／またはフラグメントミクスデータに関連し得る。例えば、腫瘍由来であることが既知の配列断片／リードおよび／またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、腫瘍由来とラベルすることができ、非腫瘍由来であることが既知の配列断片および／またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、非腫瘍由来とラベルすることができる。その上、さらなるラベル、例えば、がん型、組織型およびこれらに類するものを、割り当てることができる。

腫瘍由来／非腫瘍由来試料データのサブセットを、訓練データセット８１０に、または試験データセットに、無作為に割り当てることができる。一部のインプリメンテーションでは、訓練データセットまたは試験データセットへのデータの割り当ては、完全には無作為でないことがある。この場合、１つまたは複数の基準が割り当て中に使用され得る。一般に、任意の好適な方法を使用して、データ分布が訓練データセットと試験データセットで多少類似していることを確認しながら、データを訓練または試験データセットに割り当てることができる。

訓練モジュール８２０は、１つまたは複数の特徴選択技法に従って訓練データセット８１０における腫瘍由来／非腫瘍由来試料データから特徴セットを抽出することにより、ＭＬモジュール８３０を訓練することができる。訓練モジュール８２０は、統計的に有意な特徴を含む訓練データセット８１０から特徴セットを抽出することにより、ＭＬモジュール８３０を訓練することができる。

訓練モジュール８２０は、訓練データセット８１０から特徴セットを様々な方法で抽出することができる。訓練モジュール８２０は、毎回、異なる特徴抽出技法を使用して、複数回、特徴抽出を行うことができる。ある例では、異なる技法を使用して生成された特徴セットを各々使用して、機械学習に基づく異なる分類モデル８４０を生成することができる。例えば、品質メトリクスが最も高い特徴セットを、訓練における使用に選択することができる。訓練モジュール８２０は、特徴セットを使用して、新たなバリアント（例えば、起源が未知である）について起源を腫瘍または非腫瘍に分類するように構成されている１つまたは複数の機械学習に基づく分類モデル８４０Ａ～８４０Ｎを構築することができる。

訓練データセット８１０を分析して、訓練データセット８１０における特徴と実験パラメーターとの間の任意の依存性、関連性および／または相関を決定することができる。同定された相関は、特徴のリストの形態を有し得る。用語「特徴」は、本明細書で使用される場合、データの項目が１つまたは複数の特定のカテゴリーに入るかどうかを決定するために使用され得る、データの項目の任意の特性を指し得る。例として、本明細書に記載される特徴は、悪性血液疾患を含む特定のがん型の試料間の遺伝的バリアントの観察頻度；血漿、腫瘍組織または白血球におけるバリアントの保有率；メチル化状態ベクトル；メチル化密度；断片サイズ；断片サイズ分布；末端モチーフ；末端モチーフ頻度；ジャギド末端の存在；オーバーハングインデックス；断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片の終点を示す任意の値；ウインドウ化保護スコア；これらの組合せ、およびそれらに類するものを含む、本明細書に記載される任意のデータおよび／または計算値を含み得る。

特徴選択技法は、１つまたは複数の特徴選択規則を含み得る。１つまたは複数の特徴選択規則は、特徴出現規則を含み得る。特徴出現規則は、訓練データセット８１０におけるどの特徴が閾値回数を超えて出現するのかを決定すること、および特徴としての閾値を満たす特徴を同定することを含み得る。

単一の特徴選択規則を適用して特徴を選択することができ、または複数の特徴選択規則を適用して特徴を選択することができる。特徴選択規則が特定の順序で適用され、かつ前の規則の結果に適用される、カスケード方式で、特徴選択規則を適用することができる。例えば、特徴出現規則を訓練データセット８１０に適用して、特徴の第１のリストを生成することができる。特徴の最終リストをさらなる特徴選択技法に従って分析して、１つまたは複数の特徴群（例えば、配列断片／リードおよび／またはバリアントを腫瘍由来または非腫瘍由来に分類するために使用され得る特徴の群）を決定することができる。フィルター、ラッパーおよび／または埋め込み法などの任意の特徴選択技法を使用する任意の好適なコンピュータによる技法を使用して、特徴群を同定することができる。１つまたは複数の特徴群をフィルター法に従って選択することができる。フィルター法は、例えば、ピアソン相関、線形判別分析、分散分析（ＡＮＯＶＡ）、カイ二乗、これらの組合せ、およびそれらに類するものを含む。フィルター法による特徴の選択は、いずれの機械学習アルゴリズムにも依存しない。その代わりに、特徴を、結果変数とのそれらの相関についての様々な統計的試験におけるスコアのバイアスに基づいて選択することができる。

別の例として、１つまたは複数の特徴群をラッパー法に従って選択することができる。ラッパー法は、特徴のサブセットを使用するように、および特徴のサブセットを使用して機械学習モデルを訓練するように、構成され得る。前のモデルから引き出した推論に基づいて、特徴をサブセットから追加および／または削除することができる。ラッパー法は、例えば、前方特徴選択、後方特徴除去、再帰的特徴除去、これらの組合せ、およびそれらに類するものを含む。一例として、前方特徴選択を使用して、１つまたは複数の特徴群を同定することができる。前方特徴選択は、機械学習モデルに特徴を含めずに始まる反復法である。新たな変数の追加が機械学習モデルのパフォーマンスを向上させなくなるまで、各反復の際に、モデルを最も向上させる特徴が追加される。一例として、後方除去を使用して、１つまたは複数の特徴群を同定することができる。後方除去は、機械学習モデルに全ての特徴を含めて始まる反復法である。特徴除去時に向上が観察されなくなるまで、各反復の際に、有意性が最も低い特徴が除去される。再帰的特徴除去を使用して、１つまたは複数の特徴群を同定することができる。再帰的特徴除去は、最良のパフォーマンスを示す特徴のサブセットを見つけることを目的とする欲張り最適化アルゴリズムである。再帰的特徴除去は、モデルを繰り返し作出し、各反復時に最良のパフォーマンスまたは最悪のパフォーマンスを示す特徴を取って置く。再帰的特徴除去は、全ての特徴が使い果たされるまで、残存する特徴を用いて次のモデルを構築する。したがって、再帰的特徴除去は、それらの除去の順序に基づいて特徴をランク付けする。

さらなる例として、１つまたは複数の特徴群を埋め込み法に従って選択することができる。埋め込み法は、フィルター法の質とラッパー法の質を併せ持つ。埋め込み法は、例えば、過剰学習を減少させるためにペナルティ関数を実行する、最小絶対収縮および選択演算子（ＬＡＳＳＯ）およびリッジ回帰を含む。例えば、ＬＡＳＳＯ回帰は、係数の大きさの絶対値に相当するペナルティを加えるＬ１正則化を行い、リッジ回帰は、係数の大きさの二乗に相当するペナルティを加えるＬ２正則化を行う。

訓練モジュール８２０が特徴セットを生成した後、訓練モジュール８２０は、特徴セットに基づいて機械学習に基づく分類モデル８４０を生成し得る。機械学習に基づく分類モデルは、機械学習技法を使用して生成されるデータ分類用の複雑な数学モデルを指し得る。一例では、機械学習に基づく分類モデル８４０は、境界特徴を表すサポートベクターのマップを含み得る。例として、境界特徴は、特徴セットから選択され得る、および／または特徴セットの中の最高ランクの特徴を表し得る。

訓練モジュール８２０は、訓練データセット８１０から決定または抽出された特徴セットを使用して、機械学習に基づく分類モデル８４０Ａ～８４０Ｎを構築することができる。一部の例では、機械学習に基づく分類モデル８４０Ａ～８４０Ｎを組み合わせて、単一の機械学習に基づく分類モデル８４０にすることができる。同様に、ＭＬモジュール８３０は、単一もしくは複数の機械学習に基づく分類モデル８４０を含有する単一の分類器、および／または単一もしくは複数の機械学習に基づく分類モデル８４０を含有する複数の分類器を表し得る。

機械学習手法、例えば、判別分析；決定木；最近傍（ＮＮ）アルゴリズム（例えば、ｋ－ＮＮモデル、レプリケーターＮＮモデルなど）；統計アルゴリズム（例えば、ベイジアンネットワークなど）；クラスタリングアルゴリズム（例えば、ｋ平均法、ミーンシフト法など）；ニューラルネットワーク（例えば、リザバーネットワーク、人工ニューラルネットワークなど）；サポートベクターマシン（ＳＶＭ）；ロジスティック回帰アルゴリズム；線形回帰アルゴリズム；マルコフモデルもしくはチェーン；主成分分析（ＰＣＡ）（例えば、線形モデルのための）；多層パーセプトロン（ＭＬＰ）ＡＮＮ（例えば、非線形モデルのための）；複製リザバーネットワーク（例えば、非線形モデルのための、典型的には時系列についての）；ランダムフォレスト分類；これらの組合せおよび／またはそれらに類するもの、を使用して訓練された分類モデルに、特徴を組み込むことができる。結果として得られるＭＬモジュール８３０は、バリアントの腫瘍／非腫瘍起源を決定するための各特徴の決定則またはマッピングを含み得る。

ある実施形態では、訓練モジュール８２０は、機械学習に基づく分類モデル８４０を畳み込みニューラルネットワーク（ＣＮＮ）として訓練することができる。ＣＮＮは、最終分類層（ソフトマックス）に至る、少なくとも１つの畳み込み特徴層および３つの全結合層を含む。最終分類層は、当技術分野において公知であるようにソフトマックス関数を使用して全結合層の出力を組み合わせるために最後に適用され得る。

特徴およびＭＬモジュール８３０を使用して、試験データセットにおける配列断片／リードおよび／またはバリアントの腫瘍由来または非腫瘍由来起源を予測することができる。一例では、各配列断片／リードおよび／またはバリアントについての予測結果は、試験データセットにおける配列断片／リードおよび／またはバリアントが腫瘍起源または非腫瘍起源に関連する尤度または確率に対応する信頼レベルを含み得る。信頼レベルは、０～１の間の値であり得る。一例では、２つのステータス（例えば、腫瘍起源および非腫瘍起源）がある場合、信頼レベルは、特定のバリアントが第１のステータス（例えば、腫瘍起源）に属する尤度を指す値ｐに対応し得る。この場合、値１－ｐは、特定のバリアントが第２のステータス（例えば、非腫瘍起源）に属する尤度を指し得る。一般に、複数の信頼レベルが、試験データセットの各バリアントに、および２つより多くのステータスがある場合には各特徴に、提供され得る。各試験バリアントについて得られた結果を、各試験バリアントについての既知の腫瘍／非腫瘍起源と比較することにより、最高のパフォーマンスを示す特徴を決定することができる。一般に、最高のパフォーマンスを示す特徴は、既知の腫瘍／非腫瘍起源ステータスと厳密にマッチする結果を有することになる。最高のパフォーマンスを示す特徴を使用して、所与のバリアントの腫瘍／非腫瘍起源ステータスを予測／分類することができる。

図９は、訓練モジュール８２０を使用してＭＬモジュール８３０を生成するための例となる訓練方法９００を示すフローチャートである。訓練モジュール８２０は、教師あり、教師なし、および／または半教師あり（例えば、強化に基づく）機械学習に基づく分類モジュール８４０を実施することができる。図９に示されている方法９００は、教師あり学習方法の一例であり、訓練方法のこの例の変型形態は、下で論じられるが、他の訓練方法を類似的に実施して教師なしおよび／または半教師あり機械学習モデルを訓練することができる。

訓練方法９００は、ステップ９１０でデータを決定する（例えば、データにアクセスする、データを受信する、データを取り込む、など）ことができる。データは、腫瘍由来／非腫瘍由来体液試料データを含み得る。データは、各配列断片／リードおよび／またはバリアントが、割り当てられた腫瘍起源または非腫瘍由来起源ステータスを有する、１つまたは複数の配列断片リードおよび／またはバリアントについての、配列データ、エピジェネティックデータ、および／またはフラグメントミクスデータを含み得る。

訓練方法９００は、ステップ９２０で、訓練データセットおよび試験データセットを生成することができる。訓練データセットおよび試験データセットは、データを、訓練データセットまたは試験データセットのどちらかに無作為に割り当てることにより生成され得る。一部のインプリメンテーションでは、訓練または試験データとしての計算パラメーターおよび関連実験パラメーターの割り当ては、完全には無作為でないことがある。一例として、計算パラメーターおよび関連実験パラメーターの大半は、訓練データセットを生成するために使用され得る。例えば、計算パラメーターおよび関連実験パラメーターの７５％は、訓練データを生成するために使用され得、２５％は、試験データセットを生成するために使用され得る。別の例では、計算パラメーターおよび関連実験パラメーターの８０％は、訓練データを生成するために使用され得、２０％は、試験データセットを生成するために使用され得る。

訓練方法９００は、ステップ９３０で、例えば、分類器による腫瘍由来のステータスの非腫瘍由来のステータスに対する異なる分類間での差別化に使用され得る１つまたは複数の特徴を決定する（例えば、抽出する、選択する、など）ことができる。一例として、訓練方法９００は、特徴のセットを、腫瘍由来／非腫瘍由来体液試料データから決定することができる。さらなる例では、特徴のセットを、訓練データセットまたは試験データセットのどちらかにおける腫瘍由来／非腫瘍由来体液試料データとは異なるデータから決定することができる。そのような他のデータを使用して特徴の最初のセットを決定することができ、そのセットを、訓練データセットを使用してさらに低減させることができる。

訓練方法９００は、ステップ９４０で１つまたは複数の特徴を使用して１つまたは複数の機械学習モデルを訓練することができる。一例では、機械学習モデルを、教師あり学習を使用して訓練することができる。別の例では、教師なし学習および半教師ありをはじめとする他の機械学習技法を利用することができる。９４０で訓練された機械学習モデルを、解決すべき問題、および／または訓練データセットにおいて利用可能なデータに依存して、異なる基準に基づいて選択することができる。例えば、機械学習分類器にはバイアスの程度が異なるという欠点があることがある。したがって、１つより多くの機械学習モデルを９４０で訓練し、最適化し、改善し、ステップ９５０で交差検証することができる。

訓練方法９００は、９６０で、１つまたは複数の機械学習モデルを選択して予測モデルを構築することができる。予測モデルを、試験データセットを使用して評価することができる。予測モデルは、ステップ９７０で、試験データセットを分析し、予測腫瘍／非腫瘍起源ステータスを生成することができる。予測された腫瘍／非腫瘍起源をステップ９８０で評価して、そのような値が所望の精度レベルを達成したかどうかを決定することができる。予測モデルのパフォーマンスを、予測モデルにより示される複数のデータ点の真陽性、擬陽性、真陰性および／または偽陰性分類の数に基づいて、いくつかの方法で評価することができる。

例えば、予測モデルの擬陽性は、予測モデルが、実際には非腫瘍起源であった配列断片／リードおよび／またはバリアントを腫瘍基源と誤って分類した回数を指し得る。逆に、予測モデルの偽陰性は、機械学習モデルが、実際には配列断片／リードおよび／またはバリアントが腫瘍起源であったときに配列断片／リードおよび／またはバリアントを非腫瘍起源と分類した回数を指し得る。真陰性および真陽性は、予測モデルが１つまたは複数の配列断片／リードおよび／またはバリアントを正しく分類した回数を指し得る。再現率および適合率の概念は、これらの測定結果に関係している。一般に、再現率は、真陽性と偽陰性の合計に対する真陽性の比を指し、これによって予測モデルの感度が定量化される。同様に、適合率は、真陽性と偽陽性の合計に対する真陽性の比を指す。そのような所望の精度レベルが達成されたとき、訓練相は終了し、予測モデル（例えば、ＭＬモジュール８３０）は、ステップ９９０で出力され得るが、所望の精度レベルが達成されなかったときには、例えばより大規模なデータ収集を考慮することなどの変更を加えてステップ９１０で開始して、訓練方法９００のその後の反復が行われ得る。

図１０は、機械学習に基づく分類器を使用して配列断片／リードおよび／またはバリアントを腫瘍起源または非腫瘍起源に分類するための例示的なプロセスの流れの図である。図１０に示されているように、未分類の配列断片／リードおよび／またはバリアント１０１０についての配列データ、エピジェネティックデータ、および／またはフラグメントミクスデータが、ＭＬモジュール８３０に入力として提供され得る。ＭＬモジュール８３０は、機械学習に基づく分類器を使用して未分類の配列断片／リードおよび／またはバリアント１０１０についての配列データ、エピジェネティックデータ、および／またはフラグメントミクスデータを処理して、予測結果１０２０に達することができる。予測結果１０２０によって、未分類の配列断片／リードおよび／またはバリアント１０１０についての配列データ、エピジェネティックデータ、および／またはフラグメントミクスデータの１つまたは複数の特徴が同定され得る。例えば、分類結果１０２０によって、配列断片／リードおよび／またはバリアント１０１０の起源ステータス（例えば、配列断片／リードおよび／またはバリアントが、腫瘍起源であるのか、非腫瘍起源であるのか）が同定され得る。したがって、ある実施形態では、１または複数台のプロセッサーと、ネットワークインターフェースと、１つまたは複数のメモリとを含む、ネットワークベースのコンピュータシステムを使用して実施される方法であって、コンピュータシステムにより、腫瘍由来起源または非腫瘍由来起源ステータスを示した配列データ、エピジェネティックデータおよび／またはフラグメントミクスデータを取り込むステップと、１または複数台のプロセッサーにより、機械学習モデルを、１つまたは複数のモデルの配列データ、エピジェネティックデータおよび／またはフラグメントミクスデータへのフィッティングによって訓練するステップとを含み、１つまたは複数のモデルの各々が、個体の配列データ、エピジェネティックデータおよび／またはフラグメントミクスデータを入力配列データとして受け取り、個体の腫瘍罹患または発症の予測を出力として提供するように構成されている、方法が開示される。
ｉ．例となる方法

一部の態様では、本開示は、腫瘍を確定的にコールするためのまたは既知ＣＨＩＰ遺伝子におけるバックグラウンド未確定の潜在能をもつクローン性造血（ＣＨＩＰ）バリアントについてのバイオインフォマティクスによる除外を助けるための追加のゲノムシグナルを提供するエピジェネティックシグネチャー（例えば、メチル化プロファイル、フラグメントミクスなど）と体細胞ゲノム情報を結びつける方法を提供する。一部の実施形態では、ＣＨＩＰを示す正常な白血球のメチル化および断片化プロファイルは、それらの病原性腫瘍対応物と異なる。ある特定の実施形態では、既知メチル化部位、またはＣＨＩＰ干渉が起こる可能性が高い遺伝子の他のエピジェネティック部位（例えば、ＤＮＭＴ３Ａ、ＴＰ５３、ＬＲＰ１Ｂ、ＫＲＡＳなど）を調査する標的ハイブリダイゼーションパネルをＮＧＳワークフローに組み込むことによって、ＣＨＩＰを判定するための直交情報が得られる。同様に、高いＣＨＩＰ保有率を示すことが既知の遺伝子のｃｔＤＮＡ断片分布を分析するバイオインフォマティクスモジュールの組込みが、一部の実施形態でのＣＨＩＰ判定コーラーを生成するための直交情報として使用される。ＣＨＩＰ保有率が既知である遺伝子または他のゲノム領域とエピジェネティックプロファイル（例えば、メチル化プロファイル、ｃｔＤＮＡ断片分布（例えば、フラグメントミクス）、バイサルファイド（bi-sulfide）シークエンシング、および／またはこれらに類するもの）を組み合わせることによって、診断の有効性を向上させるための技術的な解決策が得られる。

例を挙げて説明すると、図１１は、本発明の一部の実施形態に従ってコンピュータを使用して試験対象から得られた試験試料中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントを互いに差別化する例示的な方法ステップを概略的に示すフローチャートである。示されているように、方法１１００は、標的ゲノム領域のセットの中の核酸バリアントを、試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ（ステップ１１０１）を含む。方法は、同定された試験核酸バリアントのセットの中の複数の同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、試験試料中の核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせるステップ（ステップ１１０２）も含む。一部の実施形態では、エピジェネティックシグネチャー、例えばメチル化シグネチャーは、ＰＣＴ出願番号ＰＣＴ／ＵＳ２０２１／０２５２０１において開示されている方法およびシステムに基づいて決定され得る。方法は、試験核酸バリアント－エピジェネティックシグネチャー群のセットの中の所与の試験核酸バリアント－エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントに対応する参照核酸バリアント－エピジェネティックシグネチャー群と、またはＣＨＩＰ起源核酸バリアントに対応する参照核酸バリアント－エピジェネティックシグネチャー群とマッチさせ、それによって、試験対象から得られた試験試料中の腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントとを互いに差別化するステップ（ステップ１１０３）も含む。一部の実施形態では、方法１１００は、少なくとも１つの訓練された分類器を使用して、試験核酸バリアント－エピジェネティックシグネチャー群のセット中の腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントとを互いに差別化して、試験試料中に存在する差別化された腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントのセットを生じさせるステップも含む。一部の実施形態では、方法は、試験試料中に存在する差別化された腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントのセットの中の差別化された腫瘍起源核酸バリアントの１つまたは複数に基づいて、試験対象に少なくとも１つの療法を投与するステップであって、それによって試験対象におけるがんを処置するステップも含む。

例を挙げて説明すると、図１２は、本発明の一部の実施形態に従ってコンピュータを使用して訓練された分類器を生成する例示的な方法ステップを概略的に示すフローチャートである。示されているように、方法１２００は、標的ゲノム領域の少なくとも１つのセットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ（ステップ１２０１）を含む。方法１２００は、同定された参照核酸バリアントのセットの中の複数の同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、参照試料中の核酸から得られたエピジェネティック情報から同定して、参照核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせるステップ（ステップ１２０２）も含む。方法１２００は、参照核酸バリアント－エピジェネティックシグネチャー群のセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、１つまたは複数の試験核酸バリアント－エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントおよび／または未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントを含むものとして分類するように構成されている、少なくとも１つの訓練された分類器を作出するステップ（ステップ１２０３）も含む。

さらに例を挙げて説明すると、図１３は、本発明の一部の実施形態に従ってコンピュータを使用して訓練された分類器を生成する例示的な方法ステップを概略的に示すフローチャートである。示されているように、方法１３００は、標的ゲノム領域の少なくとも１つのセットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ（ステップ１３０１）を含む。方法１３００は、同定された参照核酸バリアントのセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、標的ゲノム領域のセットの中の核酸バリアントを試験試料中の核酸から得られた配列情報から分類するように構成されている少なくとも第１のモデルを作出して、同定された試験核酸バリアントのセットを生じさせるステップ（ステップ１３０２）も含む。方法１３００は、同定された参照核酸バリアントのセットの中の複数の同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、参照試料中の核酸から得られたエピジェネティック情報から同定して、参照エピジェネティックシグネチャーのセットを生じさせるステップ（ステップ１３０３）も含む。方法１３００は、参照エピジェネティックシグネチャーのセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、試験核酸バリアント－エピジェネティックシグネチャー群のセットの中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントとを互いに差別化するように構成されている少なくとも第２のモデルを作出して、同定された試験核酸バリアントのセットを生じさせるステップ（ステップ１３０４）も含む。

一部の実施形態では、試験核酸バリアント－エピジェネティックシグネチャー群のセットは、同一の核酸バリアントおよび異なる対応するエピジェネティックシグネチャーを含む、少なくとも第１および第２のメンバーを含む。これらの実施形態のうちの一部では、異なる対応するエピジェネティックシグネチャーは、所与の標的ゲノム領域の中の１つまたは複数エピジェネティック座位により示される異なるエピジェネティック状態またはステータスを含む。これらの実施形態のうちの一部では、異なる対応するエピジェネティックシグネチャーは、異なる無細胞核酸（ｃｆＮＡ）断片長、位置、および／または終点密度分布を含む。一部の実施形態では、試験核酸バリアント－エピジェネティックシグネチャー群のセットは、異なる核酸バリアントおよび同一の対応するエピジェネティックシグネチャーを含む、少なくとも第１および第２のメンバーを含む。

一部の実施形態では、マッチさせるステップは、少なくとも１つの訓練された分類器を使用して、試験対象から得られた試験試料中の腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントとを互いに差別化するステップを含む。一部の実施形態では、同定された核酸バリアントのセットは、体細胞核酸バリアントを含む。一部の実施形態では、所与の標的ゲノム領域は、２つまたはそれより多くの核酸バリアント座位を含む。一部の実施形態では、試験核酸バリアント－エピジェネティックシグネチャー群のセットは、標的ゲノム領域のセットの中の異なるゲノム領域からのものである１つまたは複数の核酸バリアントおよび１つまたは複数の対応するエピジェネティックシグネチャーを含む少なくとも１つのメンバーを含む。一部の実施形態では、試験核酸バリアント－エピジェネティックシグネチャー群のセットは、標的ゲノム領域のセットの中の同一のゲノム領域内のものである１つまたは複数の核酸バリアントおよび１つまたは複数の対応するエピジェネティックシグネチャーを含む少なくとも１つのメンバーを含む。一部の実施形態では、複数の標的ゲノム領域は、ＤＮＭＴ３Ａ、ＴＰ５３、ＬＲＰ１Ｂ、ＫＲＡＳ、ＭＡＲＣＨ１１、ＴＡＣ１、ＴＣＦ２１、ＳＨＯＸ２、ｐ１６、Ｃａｓｐ８、ＣＤＨ１３、ＭＧＭＴ、ＭＬＨ１、ＭＳＨ２、ＴＳＬＣ１、ＡＰＣ、ＤＫＫ１、ＤＫＫ３、ＬＫＢ１、ＷＩＦ１、ＲＵＮＸ３、ＧＡＴＡ４、ＧＡＴＡ５、ＰＡＸ５、Ｅ－カドヘリン、Ｈ－カドヘリン、ＶＩＭ、ＳＥＰＴ９、ＣＹＣＤ２、ＴＦＰＩ２、ＧＡＴＡ４、ＲＡＲＢ２、ｐ１６ＩＮＫ４ａ、ＡＰＣ、ＮＤＲＧ４、ＨＬＴＦ、ＨＰＰ１、ｈＭＬＨ１、ＲＡＳＳＦ１Ａ、ＩＧＦＢＰ３、ＩＴＧＡ４、ＰＩＫ３ＣＡ、ＥＲＢＢ２（ＨＥＲ２）、ＢＲＣＡ１／２、ＮＴＲＫ１／２／３、ＭＳＩ－Ｈｉｇｈ、ＥＳＲ１、ＡＴＭ、ＨＲＲ、ＦＧＦＲ２／３、ＩＤＨ１、ＫＲＡＳ、ＮＲＡＳ、ＢＲＡＦ、ＫＩＴ、ＰＤＧＦＲＡ、ＥＧＦＲ、ＡＬＫ、ＲＯＳ１、ＭＥＴ、ＴＭＢ、またはＲＥＴからなる群から選択される、１つまたは複数の遺伝子を含む。一部の実施形態では、試料中の核酸は、試料中の１つまたは複数の組織または細胞から得られた無細胞核酸（ｃｆＮＡ）断片および／または核酸分子を含む。一部の実施形態では、エピジェネティックシグネチャーは、ｃｆＮＡ断片長、位置、および／または終点密度分布を含む。

一部の実施形態では、エピジェネティックシグネチャーは、所与の標的ゲノム領域の中の１つまたは複数エピジェネティック座位により示されるエピジェネティック状態またはステータスを含む。一部の実施形態では、エピジェネティック状態またはステータスは、メチル化、ヒドロキシメチル化、アセチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、シトルリン化、および／またはヒストン翻訳後改変もしくは他のヒストン多様性の存在または非存在を含む。一部の実施形態では、方法は、差別化されたＣＨＩＰ起源核酸バリアントをさらなる分析から排除するステップをさらに含む。一部の実施形態では、方法は、試験試料中の互いに差別化された腫瘍起源核酸バリアントおよびＣＨＩＰ起源核酸バリアントを収載する少なくとも１つのレポートを生成するステップをさらに含む。

一部の実施形態では、方法は、差別化された腫瘍起源核酸バリアントに関連する少なくとも１つのがん型を同定するステップをさらに含む。一部の実施形態では、方法は、同定されたがん型を処置するために試験対象に少なくとも１つの療法を投与するステップをさらに含む。一部の実施形態では、方法は、差別化された腫瘍起源核酸バリアントの１つまたは複数に基づいて、試験対象に少なくとも１つの療法を投与するステップをさらに含む。一部の実施形態では、１つまたは複数の細胞は、試験試料中の核酸を含む。

一部の実施形態では、方法は、コンピュータにより、標的ゲノム領域のセットの中の核酸バリアントを、試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ；コンピュータにより、同定された試験核酸バリアントのセットの中の複数の同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、試験試料中の核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせるステップ；および訓練された分類器を使用して、試験対象から得られた試験試料中の試験核酸バリアント－エピジェネティックシグネチャー群のセットの中の腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントとを互いに差別化するステップをさらに含む。一部の実施形態では、第２のモデルは、第１のモデルのさらに訓練されたバージョンである。一部の実施形態では、参照核酸バリアント－エピジェネティックシグネチャー群のセットは、同定された参照核酸バリアントのセットの中の所与の核酸バリアントに対応するエピジェネティックシグネチャーについての保有率データを含む。

一部の実施形態では、所与の核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを同定するステップは、所与の核酸バリアントに対応するエピジェネティック率を決定するステップであって、少なくとも第１のエピジェネティック率が、所与の対象から第１の時点で得られた第１の試料から生成され、少なくとも第２のエピジェネティック率が、所与の対象から第１の時点とは異なる第２の時点で得られた第２の試料から生成される、ステップ；少なくとも第１のエピジェネティック率に基づいて少なくとも１つのエピジェネティック率閾値を調整して、調整されたエピジェネティック率閾値を生じさせるステップ；および調整されたエピジェネティック率閾値を使用して、エピジェネティックシグネチャーを同定するステップを含む。一部の実施形態では、第１および第２の試料は、試験試料を含む。一部の実施形態では、第１および第２の試料は、参照試料を含む。一部の実施形態では、第１の試料は、腫瘍組織試料を含む。一部の実施形態では、第２の試料は、体液試料を含む。一部の実施形態は、エピジェネティック率を使用して試料中の腫瘍割合を同定することを含む。ある特定の実施形態は、必要に応じて、第１の試料の複数のゲノム領域についての複数のエピジェネティック率を決定するステップ；第２の試料の複数のゲノム領域のエピジェネティック率の所定のセット、複数のゲノム領域にマッピングされた第２の試料中の無細胞ポリヌクレオチドのセットについてのエピジェネティック特徴のセット、および第１の試料の複数のゲノム領域のエピジェネティック率に基づいて、第２の試料における複数のゲノム領域の１つまたは複数についての腫瘍割合の尤度を決定するステップ；複数のゲノム領域の１つまたは複数についての複数の尤度を組み合わせて、対象にがんが存在する全事後確率を決定するステップ；ならびに対象にがんが存在する全事後確率を所定の閾値と比較するステップを含む。これらの実施形態の一部は、対象を、（ａ）対象にがんが存在する全事後確率が所定の閾値より高いもしくは等しい場合、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）について陽性と、または（ｂ）対象にがんが存在する全事後確率が所定の閾値より低い場合、ｃｔＤＮＡについて陰性と分類するステップも含む。一部の実施形態では、エピジェネティックステータスを分析するために使用される方法およびシステムを、２０２０年６月１日に出願された、発明の名称が「ＭＥＴＨＯＤＳＡＮＤＳＹＳＴＥＭＳＦＯＲＩＭＰＲＯＶＩＮＧＰＡＴＩＥＮＴＭＯＮＩＴＯＲＩＮＧＡＦＴＥＲＳＵＲＧＥＲＹ」である、国際特許出願番号ＰＣＴ／ＵＳ２０２０／０３５６０５において見つけることができ、この参考特許文献は、参照により本明細書に組み込まれる。

ある実施形態では、図１４に示されているように、予測モデルを生成するための方法１４００が、開示される。ある実施形態では、配列ＱＣ構成要素１１３、エピジェネティック構成要素２１４、フラグメントミクス構成要素２１５、コピー数構成要素２１６、バリアントコーラー２１７、示されていない追加の構成要素（例えば、コンピュータシステム２２４の構成要素）を単独でおよび／またはこれらを組み合わせて、配列データストア２０９および／または分析データストア２１８にアクセスして方法１４００の全部および／または一部を行うように構成することができる。方法１４００の全部または一部を、単一のコンピュータデバイス、複数のコンピュータデバイス、およびこれらに類するものによって行うことができる。方法１４００は、１４０１において配列データを決定するステップを含み得る。方法１４００は、１４０２においてエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップを含み得る。方法１４００は、１４０３において予測モデルのための複数の特徴を決定するステップを含み得る。方法１４００は、１４０４において複数の特徴に従って予測モデルを訓練および／または試験するステップを含み得る。方法１４００は、１４０５において予測モデルを出力するステップを含み得る。

複数のゲノム領域は、ＤＮＭＴ３Ａ、ＴＰ５３、ＬＲＰ１Ｂ、ＫＲＡＳ、ＭＡＲＣＨ１１、ＴＡＣ１、ＴＣＦ２１、ＳＨＯＸ２、ｐ１６、Ｃａｓｐ８、ＣＤＨ１３、ＭＧＭＴ、ＭＬＨ１、ＭＳＨ２、ＴＳＬＣ１、ＡＰＣ、ＤＫＫ１、ＤＫＫ３、ＬＫＢ１、ＷＩＦ１、ＲＵＮＸ３、ＧＡＴＡ４、ＧＡＴＡ５、ＰＡＸ５、Ｅ－カドヘリン、Ｈ－カドヘリン、ＶＩＭ、ＳＥＰＴ９、ＣＹＣＤ２、ＴＦＰＩ２、ＧＡＴＡ４、ＲＡＲＢ２、ｐ１６ＩＮＫ４ａ、ＡＰＣ、ＮＤＲＧ４、ＨＬＴＦ、ＨＰＰ１、ｈＭＬＨ１、ＲＡＳＳＦ１Ａ、ＩＧＦＢＰ３、ＩＴＧＡ４、ＰＩＫ３ＣＡ、ＥＲＢＢ２（ＨＥＲ２）、ＢＲＣＡ１／２、ＮＴＲＫ１／２／３、ＭＳＩ－Ｈｉｇｈ、ＥＳＲ１、ＡＴＭ、ＨＲＲ、ＦＧＦＲ２／３、ＩＤＨ１、ＫＲＡＳ、ＮＲＡＳ、ＢＲＡＦ、ＫＩＴ、ＰＤＧＦＲＡ、ＥＧＦＲ、ＡＬＫ、ＲＯＳ１、ＭＥＴ、ＴＭＢ、またはＲＥＴのうちの少なくとも１つを含み得る。配列データを決定するステップは、複数の対象から複数の試料を得るステップを含み得、複数の試料は、複数の無細胞核酸を含む。複数のゲノム領域は、がん型に関連することが公知のゲノム領域、公知のメチル化ステータスに関連するゲノム領域、低メチル化に関連することが公知のゲノム領域、または治療応答に関連することが公知のゲノム領域のうちの少なくとも１つを含み得る。

エピジェネティックデータは、ＤＮＡメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、タンパク質結合、またはヌクレオチド塩基配列のみから突き止められない分析される核酸断片に反映される他の分子の状態、例えば、所与の塩基もしくはセット塩基のメチル化状態に関する情報の少なくとも１つを含み得る。複数の配列断片に関連するエピジェネティックデータを決定するステップは、複数の配列断片のメチル化状態を決定するステップを含む。

複数の配列断片のメチル化状態を決定するステップは、メチル化状態ベクトルまたはメチル化ＣｐＧ密度の少なくとも一方を決定するステップを含み得る。メチル化状態ベクトルを決定するステップは、複数の配列リードを参照配列にアラインするステップ；アラインするステップに基づいて、複数の配列リードのうちの配列リードにおける１つまたは複数のＣｐＧ部位のメチル化ステータス、および１つまたは複数のＣｐＧ部位の位置を決定するステップ；ならびに１つまたは複数のＣｐＧ部位のメチル化ステータス、および１つまたは複数のＣｐＧ部位の位置をベクトル化して、複数の配列リードのうちの配列リードのメチル化状態ベクトルを生成するステップを含み得る。メチル化ＣｐＧ密度を決定するステップは、複数の配列リードを参照配列にアラインするステップ；アラインするステップに基づいて、複数の配列リードのうちの配列リードにおける１つまたは複数のＣｐＧ部位のメチル化ステータスを決定するステップ；配列リードにおける１つまたは複数のＣｐＧ部位のメチル化ステータスに基づいて、配列リードがメチル化されているまたはメチル化されていないことを決定するステップ；複数の配列リードについて、メチル化配列リードの計数値、および非メチル化配列リードの計数値を決定するステップ；およびメチル化配列リードの計数値および非メチル化配列リードの計数値に基づいて、メチル化ＣｐＧ密度を決定するステップを含み得る。

フラグメントミクスデータは、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置および／または断片の終点を示す任意の値に関する情報の少なくとも１つを含み得る。複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の断片のうちの配列断片のサイズを決定するステップ、または特定のサイズを有する複数の配列断片の量を決定するステップの少なくとも一方を含み得る。特定のサイズは、範囲であり得る。範囲は、５０～８０、５０～１００、５０～１５０、１００～１５０、１００～２００、１５０～２００、１５０～２３０、２００～３００、または３００～４００塩基のうちの少なくとも１つであり得る。

複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の配列断片の末端モチーフを決定するステップを含み得、末端モチーフは、配列断片の終了配列に関するものである。複数の配列断片の末端モチーフを決定するステップは、複数の配列断片からシークエンシングされた複数の配列リードを参照配列にアラインするステップ；およびアラインするステップに基づいて、複数の配列断片のうちの配列断片の各末端の末端モチーフを決定するステップを含み得る。終了配列は、いくつかの塩基を含み得、いくつかの塩基は、１～６個の間の塩基である。終了配列は、配列断片を越えて伸長するいくつかの塩基を含み得、いくつかの塩基は、１～６個の間の塩基である。方法１４００は、複数の配列断片内の末端モチーフの出現頻度を決定するステップをさらに含み得る。方法１４００は、末端モチーフの末端塩基を決定するステップ、および末端モチーフの末端塩基の出現頻度を決定するステップをさらに含み得る。複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の配列断片のうちの配列断片のジャギド末端を決定するステップを含み得る。複数の配列断片のうちの配列断片のジャギド末端を決定するステップは、オーバーハングインデックスを決定するステップを含み得る。配列断片は、第１の部分を有する第１の鎖と第２の鎖とを有する二本鎖状であり得、オーバーハングインデックスを決定するステップは、第２の鎖にオーバーハングしている第１の鎖の長さに比例する第１の鎖または第２の鎖のメチル化ステータスを決定するステップ；およびメチル化ステータスに基づいて、オーバーハングインデックスを決定するステップであって、オーバーハングインデックスが、ある鎖が別の鎖にオーバーハングしている測度を提供する、ステップを含み得る。

複数の配列断片に関連するフラグメントミクスデータを決定するステップは、断片終点の遺伝子位置を決定するステップを含み得る。断片終点の遺伝子位置を決定するステップは、ウインドウ化保護スコア（ＷＰＳ）を決定するステップを含み得る。ＷＰＳを決定するステップは、ウインドウにわたる配列断片の数を決定するステップ；およびウインドウ内で開始する任意の配列断片に基づいて、ウインドウにわたる配列断片の数を調整するステップを含み得る。

方法１４００は、配列断片の起源を決定するステップ、および配列断片の起源を、配列断片に関連する配列データ、エピジェネティックデータおよびフラグメントミクスデータに割り当てるステップをさらに含み得る。起源は、腫瘍由来もしくは非腫瘍由来であり得るか、起源は、組織型であるか、または起源は、がん型である。

配列データの少なくとも一部分、およびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、予測モデルのための複数の特徴を決定するステップは、メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、断片の終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも１つを決定するステップ；およびメチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、断片の終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも１つのどれが、単独で、または組合せで、配列断片の起源に関連する予測値を有するのかを決定するステップを含み得る。

配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第１の部分に基づいて、複数の特徴に従って予測モデルを訓練するステップは、機械学習手法に従って予測モデルを訓練するステップを含み得る。機械学習手法は、判別分析、決定木、最近傍（ＮＮ）アルゴリズム、ベイジアンネットワーク、クラスタリングアルゴリズム、ニューラルネットワーク、サポートベクターマシン（ＳＶＭ）、ロジスティック回帰アルゴリズム、線形回帰アルゴリズム、マルコフモデル、または主成分分析（ＰＣＡ）のうちの少なくとも１つを含み得る。配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第２の部分に基づいて、予測モデルを試験するステップは、予測モデルを再訓練させるステップを含み得る。

方法１４００は、対象について、複数のゲノム領域に関連する複数の配列断片を含む試験配列データを決定するステップであって、複数の配列断片が、対象からの試料からシークエンシングされる、ステップ；複数の配列断片に関連する試験エピジェネティックデータまたは試験フラグメントミクスデータの少なくとも一方を決定するステップ；予測モデルに、対象の試験配列データ、試験エピジェネティックデータ、および試験フラグメントミクスデータを提供するステップ；ならびに対象の試験配列データ、試験エピジェネティックデータ、および試験フラグメントミクスデータに基づいて、配列データ中の少なくとも１つの配列断片の起源を決定するステップをさらに含み得る。起源は、腫瘍由来または非腫瘍由来の一方であり得る。

方法１４００は、腫瘍に由来する起源に基づいて、対象に１つまたは複数の療法を投与するステップをさらに含み得る。療法は、化学療法を投与すること、放射線療法を投与すること、または腫瘍の全てもしくは一部分を切除するために外科手術を行うことを含み得る。療法は、ＡＬＥＣＥＮＳＡ（登録商標）、ＡＬＵＮＢＲＩＧ（登録商標）、ＢＲＡＦＴＯＶＩ（登録商標）、ＥＲＢＩＴＵＸ（登録商標）、ＧＡＶＲＥＴＯ（商標）、ＧＩＬＯＴＲＩＦ（登録商標）、ＨＥＲＣＥＰＴＩＮ（登録商標）、ＩＲＥＳＳＡ（登録商標）、ＫＡＤＣＹＬＡ（登録商標）、ＫＥＹＴＲＵＤＡ（登録商標）、ＬＯＲＢＲＥＮＡ（登録商標）、ＬＵＭＡＫＲＡＳ（商標）、ＬＹＮＰＡＲＺＡ（登録商標）、ＭＥＫＩＮＩＳＴ（登録商標）、ＯＰＤＩＶＯ（登録商標）、ＰＥＲＪＥＴＡ（登録商標）、ＰＩＱＲＡＹ（登録商標）、ＲＥＴＥＶＭＯ（商標）、ＲＯＺＬＹＴＲＥＫ（商標）、ＲＵＢＲＡＣＡ（登録商標）、ＴＡＢＲＥＣＴＡ（商標）、ＴＡＦＩＮＬＡＲ（登録商標）、ＴＡＧＲＩＳＳＯ（登録商標）、ＴＡＬＺＥＮＮＡ（登録商標）、ＴＡＲＣＥＶＡ（登録商標）、ＴＥＰＭＥＴＫＯ（商標）、ＴＹＫＥＲＢ（登録商標）、ＶＩＴＲＡＫＶＩ（登録商標）、ＶＩＺＩＭＰＲＯ（登録商標）、ＸＡＬＫＯＲＩ（登録商標）、ＹＢＲＥＶＡＮＴ（商標）、ＹＥＲＶＯＹ（登録商標）、またはＺＹＫＡＤＩＡ（登録商標）のうちの少なくとも１つを投与することを含み得る。

図１５に示されている、ある実施形態では、試料の起源を決定するための方法１５００が、開示される。ある実施形態では、配列ＱＣ構成要素１１３、エピジェネティック構成要素２１４、フラグメントミクス構成要素２１５、コピー数構成要素２１６、バリアントコーラー２１７、示されていない追加の構成要素（例えば、コンピュータシステム２２４の構成要素）を単独でおよび／またはこれらを組み合わせて、配列データストア２０９および／または分析データストア２１８にアクセスして方法１５００の全部および／または一部を行うように構成することができる。方法１５００の全部または一部を、単一のコンピュータデバイス、複数のコンピュータデバイス、およびこれらに類するものによって行うことができる。方法１５００は、１５０１において対象の試料についての配列データを決定するステップを含み得る。方法１５００は、１５０２においてエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップを含み得る。方法１５００は、配列データとエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方とを予測モデルに提供するステップを含み得る。方法１５００は、予測モデルに基づいて、試料が腫瘍由来または非腫瘍由来であることを決定するステップを含み得る。方法１５００は、予測モデルを生成するステップをさらに含み得る。予測モデルを生成するステップは、複数のゲノム領域に関連する複数の配列断片の配列データを決定するステップであって、配列データが、複数の配列リードを含み、複数の配列リードが、複数の試料からの複数の配列断片からシークエンシングされ、複数の試料のうちの各試料が、腫瘍由来または非腫瘍由来とラベルされる、ステップ；複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップ；配列データの少なくとも一部分、およびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、予測モデルのための複数の特徴を決定するステップ；配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第１の部分に基づいて、複数の特徴に従って予測モデルを訓練するステップ；配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第２の部分に基づいて、予測モデルを試験するステップ；ならびに試験するステップに基づいて、予測モデルを出力するステップを含み得る。

複数のゲノム領域は、ＤＮＭＴ３Ａ、ＴＰ５３、ＬＲＰ１Ｂ、ＫＲＡＳ、ＭＡＲＣＨ１１、ＴＡＣ１、ＴＣＦ２１、ＳＨＯＸ２、ｐ１６、Ｃａｓｐ８、ＣＤＨ１３、ＭＧＭＴ、ＭＬＨ１、ＭＳＨ２、ＴＳＬＣ１、ＡＰＣ、ＤＫＫ１、ＤＫＫ３、ＬＫＢ１、ＷＩＦ１、ＲＵＮＸ３、ＧＡＴＡ４、ＧＡＴＡ５、ＰＡＸ５、Ｅ－カドヘリン、Ｈ－カドヘリン、ＶＩＭ、ＳＥＰＴ９、ＣＹＣＤ２、ＴＦＰＩ２、ＧＡＴＡ４、ＲＡＲＢ２、ｐ１６ＩＮＫ４ａ、ＡＰＣ、ＮＤＲＧ４、ＨＬＴＦ、ＨＰＰ１、ｈＭＬＨ１、ＲＡＳＳＦ１Ａ、ＩＧＦＢＰ３、ＩＴＧＡ４、ＰＩＫ３ＣＡ、ＥＲＢＢ２（ＨＥＲ２）、ＢＲＣＡ１／２、ＮＴＲＫ１／２／３、ＭＳＩ－Ｈｉｇｈ、ＥＳＲ１、ＡＴＭ、ＨＲＲ、ＦＧＦＲ２／３、ＩＤＨ１、ＫＲＡＳ、ＮＲＡＳ、ＢＲＡＦ、ＫＩＴ、ＰＤＧＦＲＡ、ＥＧＦＲ、ＡＬＫ、ＲＯＳ１、ＭＥＴ、ＴＭＢ、またはＲＥＴのうちの少なくとも１つを含み得る。

配列データを決定するステップは、複数の対象から複数の試料を得るステップを含み得、複数の試料は、複数の無細胞核酸を含む。複数のゲノム領域は、がん型に関連することが公知のゲノム領域、公知のメチル化ステータスに関連するゲノム領域、低メチル化に関連することが公知のゲノム領域、または治療応答に関連することが公知のゲノム領域のうちの少なくとも１つを含み得る。

エピジェネティックデータは、ＤＮＡメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、タンパク質結合、またはヌクレオチド塩基配列のみから突き止められない分析される核酸断片に反映される他の分子の状態、例えば、所与の塩基もしくはセット塩基のメチル化状態に関する情報の少なくとも１つを含み得る。複数の配列断片に関連するエピジェネティックデータを決定するステップは、複数の配列断片のメチル化状態を決定するステップを含み得る。複数の配列断片のメチル化状態を決定するステップは、メチル化状態ベクトルまたはメチル化ＣｐＧ密度の少なくとも一方を決定するステップを含み得る。メチル化状態ベクトルを決定するステップは、複数の配列リードを参照配列にアラインするステップ；アラインするステップに基づいて、複数の配列リードのうちの配列リードにおける１つまたは複数のＣｐＧ部位のメチル化ステータス、および１つまたは複数のＣｐＧ部位の位置を決定するステップ；ならびに１つまたは複数のＣｐＧ部位のメチル化ステータス、および１つまたは複数のＣｐＧ部位の位置をベクトル化して、複数の配列リードのうちの配列リードのメチル化状態ベクトルを生成するステップを含み得る。メチル化ＣｐＧ密度を決定するステップは、複数の配列リードを参照配列にアラインするステップ；アラインするステップに基づいて、複数の配列リードのうちの配列リードにおける１つまたは複数のＣｐＧ部位のメチル化ステータスを決定するステップ；配列リードにおける１つまたは複数のＣｐＧ部位のメチル化ステータスに基づいて、配列リードがメチル化されているまたはメチル化されていないことを決定するステップ；複数の配列リードについて、メチル化配列リードの計数値、および非メチル化配列リードの計数値を決定するステップ；ならびにメチル化配列リードの計数値および非メチル化配列リードの計数値に基づいて、メチル化ＣｐＧ密度を決定するステップを含み得る。

フラグメントミクスデータは、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置および／または断片の終点を示す任意の値に関する情報の少なくとも１つを含み得る。複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の断片のうちの配列断片のサイズを決定するステップ、または特定のサイズを有する複数の配列断片の量を決定するステップの少なくとも一方を含み得る。特定のサイズは、範囲であり得る。範囲は、５０～８０、５０～１００、５０～１５０、１００～１５０、１００～２００、１５０～２００、１５０～２３０、２００～３００、または３００～４００塩基のうちの少なくとも１つであり得る。複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の配列断片の末端モチーフを決定するステップを含み得、末端モチーフは、配列断片の終了配列に関するものである。複数の配列断片の末端モチーフを決定するステップは、複数の配列断片からシークエンシングされた複数の配列リードを参照配列にアラインするステップ；およびアラインするステップに基づいて、複数の配列断片のうちの配列断片の各末端の末端モチーフを決定するステップを含み得る。終了配列は、いくつかの塩基を含み得る。いくつかの塩基は、１～６個の間の塩基であり得る。終了配列は、配列断片を越えて伸長するいくつかの塩基を含み、いくつかの塩基は、１～６個の間の塩基である。方法１５００は、複数の配列断片内の末端モチーフの出現頻度を決定するステップをさらに含み得る。方法１５００は、末端モチーフの末端塩基を決定するステップ、および末端モチーフの末端塩基の出現頻度を決定するステップをさらに含み得る。

複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の配列断片のうちの配列断片のジャギド末端を決定するステップを含む。複数の配列断片のうちの配列断片のジャギド末端を決定するステップは、オーバーハングインデックスを決定するステップを含む。配列断片は、第１の部分を有する第１の鎖と第２の鎖とを有する二本鎖状であり得、オーバーハングインデックスを決定するステップは、第２の鎖にオーバーハングしている第１の鎖の長さに比例する第１の鎖または第２の鎖のメチル化ステータスを決定するステップ；およびメチル化ステータスに基づいて、オーバーハングインデックスを決定するステップであって、オーバーハングインデックスが、ある鎖が別の鎖にオーバーハングしている測度を提供する、ステップを含み得る。

方法１５００は、配列断片の起源を決定するステップ、および配列断片の起源を、配列断片に関連する配列データ、エピジェネティックデータおよびフラグメントミクスデータに割り当てるステップをさらに含み得る。起源は、腫瘍由来もしくは非腫瘍由来であり得るか、起源は、組織型であるか、または起源は、がん型である。

配列データの少なくとも一部分、およびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、予測モデルのための複数の特徴を決定するステップは、メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、断片の終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも１つを決定するステップ；およびメチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、断片の終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも１つのどれが、単独で、または組合せで、配列断片の起源に関連する予測値を有するのかを決定するステップを含む。

方法１５００は、腫瘍由来である試料に基づいて、腫瘍由来である起源に基づいて、対象に１つまたは複数の療法を投与するステップをさらに含み得る。療法は、化学療法を投与すること、放射線療法を投与すること、または腫瘍の全てもしくは一部分を切除するために外科手術を行うことを含み得る。療法は、ＡＬＥＣＥＮＳＡ（登録商標）、ＡＬＵＮＢＲＩＧ（登録商標）、ＢＲＡＦＴＯＶＩ（登録商標）、ＥＲＢＩＴＵＸ（登録商標）、ＧＡＶＲＥＴＯ（商標）、ＧＩＬＯＴＲＩＦ（登録商標）、ＨＥＲＣＥＰＴＩＮ（登録商標）、ＩＲＥＳＳＡ（登録商標）、ＫＡＤＣＹＬＡ（登録商標）、ＫＥＹＴＲＵＤＡ（登録商標）、ＬＯＲＢＲＥＮＡ（登録商標）、ＬＵＭＡＫＲＡＳ（商標）、ＬＹＮＰＡＲＺＡ（登録商標）、ＭＥＫＩＮＩＳＴ（登録商標）、ＯＰＤＩＶＯ（登録商標）、ＰＥＲＪＥＴＡ（登録商標）、ＰＩＱＲＡＹ（登録商標）、ＲＥＴＥＶＭＯ（商標）、ＲＯＺＬＹＴＲＥＫ（商標）、ＲＵＢＲＡＣＡ（登録商標）、ＴＡＢＲＥＣＴＡ（商標）、ＴＡＦＩＮＬＡＲ（登録商標）、ＴＡＧＲＩＳＳＯ（登録商標）、ＴＡＬＺＥＮＮＡ（登録商標）、ＴＡＲＣＥＶＡ（登録商標）、ＴＥＰＭＥＴＫＯ（商標）、ＴＹＫＥＲＢ（登録商標）、ＶＩＴＲＡＫＶＩ（登録商標）、ＶＩＺＩＭＰＲＯ（登録商標）、ＸＡＬＫＯＲＩ（登録商標）、ＹＢＲＥＶＡＮＴ（商標）、ＹＥＲＶＯＹ（登録商標）、またはＺＹＫＡＤＩＡ（登録商標）のうちの少なくとも１つを投与することを含み得る。
ＩＩＩ．がんおよび他の疾患

本方法は、対象の状態、特にがんの存在または非存在を診断して、状態を特徴付ける（例えば、がんをステージ分類すること、またはがんの不均一性を決定すること）ために、状態のための処置を選択するために、状態の処置に対する応答をモニターするために、状態を発症するリスクまたは状態のその後の経過の予後判定を行うために、使用され得る。

様々ながんが、本発明の方法を使用して検出され得る。がん細胞は、ほとんどの細胞と同様、古い細胞が死に、新しい細胞によって置き換えられる、ターンオーバーの速度によって特徴付けられ得る。一般に、所与の対象において脈管構造と接触している死細胞は、ＤＮＡまたはＤＮＡの断片を血流中に放出し得る。これは、様々な疾患ステージのがん細胞にも当てはまる。がん細胞は、疾患のステージに依存して、様々な遺伝子異常、例えば、コピー数多様性および稀な変異によっても特徴付けられ得る。この現象は、本明細書に記載される方法およびシステムを使用して個体におけるがんの存在または非存在を検出するために使用され得る。

ある特定の実施形態では、本明細書で開示される方法および態様は、患者における所与の疾患、障害または状態を診断するために使用される。典型的に、考慮されている疾患は、ある型のがんである。そのようながんの非限定的な例としては、胆道がん、膀胱がん、移行上皮癌、尿路上皮癌、脳がん、神経膠腫、星細胞腫、乳癌、化生性癌、子宮頸部がん、子宮頸部扁平上皮癌、直腸がん、大腸癌、結腸がん、遺伝性非ポリポーシス大腸がん、結腸直腸腺癌、消化管間質腫瘍（ＧＩＳＴ）、子宮内膜癌、子宮内膜間質肉腫、食道がん、食道扁平上皮癌、食道腺癌、眼黒色腫、ブドウ膜黒色腫、胆嚢癌、胆嚢腺癌、腎細胞癌、淡明細胞型腎細胞癌、移行上皮癌、尿路上皮癌、ウィルムス腫瘍、白血病、急性リンパ球性白血病（ＡＬＬ）、急性骨髄性白血病（ＡＭＬ）、慢性リンパ球性（ＣＬＬ）、慢性骨髄性（ＣＭＬ）、慢性骨髄単球性（ＣＭＭＬ）、肝臓がん、肝臓癌、ヘパトーマ、肝細胞癌、胆管細胞癌、肝芽腫、肺がん、非小細胞肺がん（ＮＳＣＬＣ）、中皮腫、Ｂ細胞リンパ腫、非ホジキンリンパ腫、びまん性大細胞型Ｂ細胞リンパ腫、マントル細胞リンパ腫、Ｔ細胞リンパ腫、非ホジキンリンパ腫、前駆Ｔリンパ芽球性リンパ腫／白血病、末梢性Ｔ細胞リンパ腫、多発性骨髄腫、鼻咽頭癌（ＮＰＣ）、神経芽腫、中咽頭がん、口腔扁平上皮癌、骨肉腫、卵巣癌、膵がん、膵管腺癌、偽乳頭状新生物、腺房細胞癌、前立腺がん、前立腺腺癌、皮膚がん、黒色腫、悪性黒色腫、皮膚黒色腫、小腸癌、胃がん、胃癌、消化管間質腫瘍（ＧＩＳＴ）、子宮がん、または子宮肉腫が挙げられる。

本明細書で開示される方法およびシステムを使用して評価され得る他の遺伝子ベースの疾患、障害、または状態の非限定的な例としては、ＤＮＡ損傷修復欠損、軟骨無形成症、アルファ－１アンチトリプシン欠損症、抗リン脂質抗体症候群、自閉症、常染色体優性多発性嚢胞腎、シャルコー－マリー－トゥース（ＣＭＴ）、ネコ鳴き、クローン病、嚢胞性線維症、ダーカム病、ダウン症候群、デュアン症候群、デュシェンヌ型筋ジストロフィー、第Ｖ因子ライデン血栓性素因、家族性高コレステロール血症、家族性地中海熱、脆弱Ｘ症候群、ゴーシェ病、ヘモクロマトーシス、血友病、全前脳胞症、ハンチントン病、クラインフェルター症候群、マルファン症候群、筋強直性ジストロフィー、神経線維腫症、ヌーナン症候群、骨形成不全症、パーキンソン病、フェニルケトン尿症、ポーランド症候群、ポルフィリン症、早老症、網膜色素変性症、重症複合免疫不全症（ｓｃｉｄ）、鎌状赤血球症、脊髄性筋萎縮症、テイ－サックス、サラセミア、トリメチルアミン尿症、ターナー症候群、口蓋心臓顔面症候群、ＷＡＧＲ症候群、ウィルソン病、またはこれらに類するものが挙げられる。

がんは、変異、稀な変異、インデル、コピー数多様性、トランスバージョン、転座、逆位、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造変更、遺伝子融合、染色体融合、遺伝子短縮、遺伝子増幅、遺伝子重複、染色体病変、ＤＮＡ病変、核酸の化学的改変における異常な変化、エピジェネティックパターンにおける異常な変化が含まれる遺伝的多様性から検出され得る。

配列データ、エピジェネティックデータ、および／またはフラグメントミクスデータは、がんの特定の形態を特徴付けるためにも使用され得る。がんは、多くの場合、組成の点でもステージ分類の点でも不均一である。遺伝子プロファイルデータは、その特定のサブタイプの診断または処置において重要であり得るがんの特定のサブタイプの特徴付けを可能にし得る。この情報はまた、対象または実務者に、特定の型のがんの予後に関する手がかりを提供し得、対象または実務者のいずれかが疾患の進行に合わせて処置選択を適応させることを可能にし得る。一部のがんは、進行すると、より高悪性度になり、遺伝的に不安定になる。他のがんは、良性、不活性または休止状態のままであり得る。本開示のシステムおよび方法は、疾患進行を決定する際に有用であり得る。

さらに、本開示の方法は、対象における異常な状態の不均一性を特徴付けるために使用され得、この方法は、対象における細胞外ポリヌクレオチドの遺伝子プロファイルを生成するステップを含み、この遺伝子プロファイルは、コピー数多様性および稀な変異の分析から得られた複数のデータを含む。がんを含むがこれに限定されるものではない一部の症例では、疾患は、不均一であり得る。疾患細胞は、同一でないことがある。がんの例では、一部の腫瘍は、異なる型の腫瘍細胞を含むことが公知であり、一部の細胞は、がんの異なるステージにあることが公知である。他の例では、不均一性は、疾患の複数の病巣を含み得る。重ねて、がんの例では、複数の腫瘍病巣が存在し得、おそらくは、この場合、１つまたは複数の病巣は、原発部位から広がった転移の結果である。
ＩＶ．例示的な精密処置

改善されたコンピュータシステム２１０および／または２２４により提供される精密診断法は、精密処置計画を生じ得、これは、コンピュータシステム２１０および／または２２４により同定され得る（および／または医療専門家によってキュレートされ得る）。例えば、精密診断および処置の１つの型は、特定のがん型に影響を及ぼすことが公知の経路における遺伝子に関連し得る。

試料中のバリアントヌクレオチドの数および型は、処置、すなわち治療介入に対する、試料を提供する対象の適性の指標を提供し得る。例えば、様々なポリＡＤＰリボースポリメラーゼ（ＰＡＲＰ）阻害剤は、ＢＲＣＡ１またはＢＲＣＡ２遺伝子の遺伝性変異によって引き起こされる乳がん、卵巣がんおよび前立腺がんからの腫瘍の成長を停止させることが示されている。

本発明の分析は、特定の処置選択の有効性を決定する際にも有用である。処置が成功した場合、より多くのがんが死に、ＤＮＡを排出し得るので、処置選択の成功は、対象の血液において検出されるコピー数多様性または稀な変異の量を増加させ得る。他の例では、これが起こらないことがある。別の例では、おそらく、ある特定の処置選択は、がんの遺伝子プロファイルと経時的に相関し得る。この相関は、療法を選択する際に有用であり得る。さらに、がんが処置後に寛解状態にあることが観察された場合、本発明の方法を使用して、残存疾患または疾患の再発をモニタリングすることができる。

一部の実施形態では、本明細書で開示される方法は、所与の疾患、障害または状態を有する患者を同定すること、およびその患者に療法を投与することに関する。本質的に、あらゆるがん療法（例えば、外科的療法、放射線療法、化学療法、および／またはこれらに類するもの）が、これらの方法の一部として含まれる。典型的に、療法は、少なくとも１つの免疫療法（または免疫療法剤）を含む。免疫療法は、一般に、所与のがん型に対する免疫応答を増強する方法を指す。ある実施形態では、免疫療法は、腫瘍またはがんに対するＴ細胞応答を増強する方法を指す。

一部の実施形態では、免疫療法または免疫療法剤は、免疫チェックポイント分子を標的とする。ある特定の腫瘍は、免疫チェックポイント経路を選出することにより免疫系から逃れることができる。それ故、免疫系から逃れる腫瘍の能力に対抗するための、およびある特定のがんに対する抗腫瘍免疫を活性化するための有効な手法として、免疫チェックポイントの標的化が浮上している。Pardoll, Nature Reviews Cancer, 2012, 12:252-264。

ある特定の実施形態では、免疫チェックポイント分子は、抗原に対するＴ細胞応答に関与するシグナルを低減させる阻害分子である。例えば、ＣＴＬＡ４は、Ｔ細胞上に発現され、抗原提示細胞上のＣＤ８０（別名Ｂ７．１）またはＣＤ８６（別名Ｂ７．２）に結合することによりＴ細胞活性化の下方調節に関与する。ＰＤ－１は、Ｔ細胞上に発現されるもう１つの阻害性チェックポイント分子である。ＰＤ－１は、炎症反応中の末梢組織におけるＴ細胞の活性を制限する。加えて、ＰＤ－１のリガンド（ＰＤ－Ｌ１またはＰＤ－Ｌ２）は、一般的に、多くの異なる腫瘍の表面で上方調節され、その結果として腫瘍微小環境において抗腫瘍免疫応答の下方調節が生じることになる。ある特定の実施形態では、阻害性免疫チェックポイント分子は、ＣＴＬＡ４またはＰＤ－１である。他の実施形態では、阻害性免疫チェックポイント分子は、ＰＤ－１のリガンド、例えば、ＰＤ－Ｌ１またはＰＤ－Ｌ２である。他の実施形態では、阻害性免疫チェックポイント分子は、ＣＴＬＡ４のリガンド、例えば、ＣＤ８０またはＣＤ８６である。他の実施形態では、阻害性免疫チェックポイント分子は、リンパ球活性化遺伝子３（ＬＡＧ３）、キラー細胞免疫グロブリン様受容体（ＫＩＲ）、Ｔ細胞膜タンパク質３（ＴＩＭ３）、ガレクチン９（ＧＡＬ９）、またはアデノシンＡ２ａ受容体（Ａ２ａＲ）である。

これらの免疫チェックポイント分子を標的とするアンタゴニストを使用して、ある特定のがんに対する抗原特異的Ｔ細胞応答を増強することができる。したがって、ある特定の実施形態では、免疫療法または免疫療法剤は、阻害性免疫チェックポイント分子のアンタゴニストである。ある特定の実施形態では、阻害性免疫チェックポイント分子は、ＰＤ－１である。ある特定の実施形態では、阻害性免疫チェックポイント分子は、ＰＤ－Ｌ１である。ある特定の実施形態では、阻害性免疫チェックポイント分子のアンタゴニストは、抗体（例えば、モノクローナル抗体）である。ある特定の実施形態では、抗体またはモノクローナル抗体は、抗ＣＴＬＡ４、抗ＰＤ－１、抗ＰＤ－Ｌ１、または抗ＰＤ－Ｌ２抗体である。ある特定の実施形態では、抗体は、モノクローナル抗ＰＤ－１抗体である。ある特定の実施形態では、抗体は、モノクローナル抗ＰＤ－Ｌ１抗体である。ある特定の実施形態では、モノクローナル抗体は、抗ＣＴＬＡ４抗体と抗ＰＤ－１抗体の組合せ、抗ＣＴＬＡ４抗体と抗ＰＤ－Ｌ１抗体の組合せ、または抗ＰＤ－Ｌ１抗体と抗ＰＤ－１抗体の組合せである。ある特定の実施形態では、抗ＰＤ－１抗体は、ペムブロリズマブ（Ｋｅｙｔｒｕｄａ（登録商標））またはニボルマブ（Ｏｐｄｉｖｏ（登録商標））のうちの１つまたは複数である。ある特定の実施形態では、抗ＣＴＬＡ４抗体は、イピリムマブ（Ｙｅｒｖｏｙ（登録商標））である。ある特定の実施形態では、抗ＰＤ－Ｌ１抗体は、アテゾリズマブ（Ｔｅｃｅｎｔｒｉｑ（登録商標））、アベルマブ（Ｂａｖｅｎｃｉｏ（登録商標））、またはデュルバルマブ（Ｉｍｆｉｎｚｉ（登録商標））のうちの１つまたは複数である。

ある特定の実施形態では、免疫療法または免疫療法剤は、ＣＤ８０、ＣＤ８６、ＬＡＧ３、ＫＩＲ、ＴＩＭ３、ＧＡＬ９またはＡ２ａＲに対するアンタゴニスト（例えば、抗体）である。他の実施形態では、アンタゴニストは、阻害性免疫チェックポイント分子の細胞外ドメインと抗体のＦｃドメインとを含む可溶性融合タンパク質などの、阻害性免疫チェックポイント分子の可溶性バージョンである。ある特定の実施形態では、可溶性融合タンパク質は、ＣＴＬＡ４、ＰＤ－１、ＰＤ－Ｌ１またはＰＤ－Ｌ２の細胞外ドメインを含む。ある特定の実施形態では、可溶性融合タンパク質は、ＣＤ８０、ＣＤ８６、ＬＡＧ３、ＫＩＲ、ＴＩＭ３、ＧＡＬ９またはＡ２ａＲの細胞外ドメインを含む。一実施形態では、可溶性融合タンパク質は、ＰＤ－Ｌ２またはＬＡＧ３の細胞外ドメインを含む。

ある特定の実施形態では、免疫チェックポイント分子は、抗原に対するＴ細胞応答に関与するシグナルを増幅する共刺激分子である。例えば、ＣＤ２８は、Ｔ細胞上に発現される共刺激受容体である。Ｔ細胞がそのＴ細胞受容体を介して抗原に結合すると、ＣＤ２８は、抗原提示細胞上のＣＤ８０（別名Ｂ７．１）またはＣＤ８６（別名Ｂ７．２）に結合して、Ｔ細胞受容体シグナル伝達を増幅し、Ｔ細胞活性化を促進する。ＣＤ２８は、ＣＴＬＡ４と同じリガンド（ＣＤ８０およびＣＤ８６）に結合するため、ＣＴＬＡ４は、ＣＤ２８により媒介される共刺激シグナル伝達を弱めることまたは調節することができる。ある特定の実施形態では、免疫チェックポイント分子は、ＣＤ２８、誘導性Ｔ細胞共刺激因子（ＩＣＯＳ）、ＣＤ１３７、ＯＸ４０またはＣＤ２７から選択される共刺激分子である。他の実施形態では、免疫チェックポイント分子は、例えば、ＣＤ８０、ＣＤ８６、Ｂ７ＲＰ１、Ｂ７－Ｈ３、Ｂ７－Ｈ４、ＣＤ１３７Ｌ、ＯＸ４０ＬまたはＣＤ７０をはじめとする、共刺激分子のリガンドである。

これらの共刺激チェックポイント分子を標的とするアゴニストを使用して、ある特定のがんに対する抗原特異的Ｔ細胞応答を増強することができる。したがって、ある特定の実施形態では、免疫療法または免疫療法剤は、共刺激チェックポイント分子のアゴニストである。ある特定の実施形態では、共刺激チェックポイント分子のアゴニストは、アゴニスト抗体であり、好ましくはモノクローナル抗体である。ある特定の実施形態では、アゴニスト抗体またはモノクローナル抗体は、抗ＣＤ２８抗体である。他の実施形態では、アゴニスト抗体またはモノクローナル抗体は、抗ＩＣＯＳ、抗ＣＤ１３７、抗ＯＸ４０または抗ＣＤ２７抗体である。他の実施形態では、アゴニスト抗体またはモノクローナル抗体は、抗ＣＤ８０、抗ＣＤ８６、抗Ｂ７ＲＰ１、抗Ｂ７－Ｈ３、抗Ｂ７－Ｈ４、抗ＣＤ１３７Ｌ、抗ＯＸ４０Ｌまたは抗ＣＤ７０抗体である。

がん以外の特定の遺伝子ベースの疾患、障害または状態を処置するための処置選択肢は、一般に当業者に周知であり、考慮している特定の疾患、障害または状態を考えればすぐに分かるであろう。

ある特定の実施形態では、本明細書に記載されるカスタマイズされた療法は、通常は非経口（例えば、静脈内または皮下）投与される。免疫療法剤を含有する医薬組成物は、典型的には静脈内投与される。ある特定の治療剤は、経口投与される。しかし、カスタマイズされた療法（例えば、免疫療法剤など）を、例えば、頬側、舌下、直腸、膣、尿道内、局所、眼内、鼻腔内および／または耳介内のものを含む、当技術分野において公知の任意の方法により投与することもでき、これらの投与は、錠剤、カプセル、顆粒、水性懸濁液、ゲル、スプレー剤、座剤、固めの軟膏、柔らかい軟膏、またはこれらに類するものを含み得る。
Ｖ．システムおよびコンピュータ可読媒体

図面に示される種々の処理操作および／または方法は、本明細書に詳細に記載されるシステム構成要素の一部または全てを使用して達成され得、一部のインプリメンテーションでは、種々の操作は異なるシーケンスで行われ得、種々の操作は割愛され得る。さらなる操作が、示されたフローダイヤグラム中に示される操作の一部または全てと共に行われ得る。１つまたは複数の操作は、同時に行われ得る。したがって、例示される（本明細書にさらに詳細に記載される）操作は、例として提供されており、したがって、限定とみなすべきではない。

湿式化学ステップ以外の、本明細書および添付の特許請求の範囲に記載された任意のまたは全ての操作が、適切なプログラミングされたコンピュータで行われ得るように、本発明の方法は、コンピュータで実施され得る。コンピュータは、メインフレーム、パーソナルコンピュータ、タブレット、スマートフォン、クラウド、オンラインデータストレージ、リモートデータストレージなどであり得る。コンピュータは、１つまたは複数の場所で操作され得る。

本発明の方法の種々の操作は、コンピュータ可読媒体（例えば、ハードドライブ、補助メモリ、外部メモリ、サーバー；データベース、ポータブルメモリデバイス（例えば、ＣＤ－Ｒ、ＤＶＤ、ＺＩＰディスク、フラッシュメモリカード）など上に記憶された情報および／またはプログラムを利用でき、および／または結果を生成することができる。

本開示は、実行された場合に本発明の方法のステップを実施する１つまたは複数のプログラムを含有する機械可読媒体を含む、核酸集団を分析するための製造品もまた含む。

本開示は、ハードウェアおよび／またはソフトウェアにおいて実施され得る。例えば、本開示の異なる態様は、クライアント側の論理回路またはサーバー側の論理回路のいずれかにおいて実施され得る。本開示またはその構成要素は、適切に構成されたコンピュータデバイス中にロードされた場合に、そのデバイスに本開示に従って遂行させる論理命令および／またはデータを含有する固定媒体プログラム構成要素で具体化され得る。論理命令を含有する固定媒体は、視聴者のコンピュータ中に物理的にロードするための固定媒体上で視聴者に届けられ得、または論理命令を含有する固定媒体は、プログラム構成要素をダウンロードするために通信媒体を介して視聴者がアクセスするリモートサーバー上に存在し得る。

本開示は、本開示の方法を実施するようにプログラミングされるコンピュータ制御システムを提供する。図２に戻って、プロセッサー２２０は、シングルコアもしくはマルチコアプロセッサー、または並列処理のための複数のプロセッサーを含み得る。ストレージデバイス２２２は、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ、ハードディスク、および／または他のタイプのストレージをみ得る。コンピュータシステム２１０は、１つまたは複数の他のシステムおよび周辺デバイス、例えば、キャッシュ、他のメモリ、データストレージおよび／または電子ディスプレイアダプターと通信するための通信インターフェース（例えば、ネットワークアダプター）を含み得る。コンピュータシステム２１０の構成要素は、内部通信バス、例えばマザーボードを介して互いに通信することができる。ストレージデバイス２２２は、データを記憶するためのデータストレージユニット（またはデータリポジトリ）であり得る。コンピュータシステム２１０を、通信インターフェースを活用してネットワーク２２３（「ネットワーク」）に動作可能に連結させることができる。ネットワーク２２３は、Ｉｎｔｅｒｎｅｔ、インターネットおよび／もしくはエクストラネット、またはＩｎｔｅｒｎｅｔと通信しているイントラネットおよび／もしくはエクストラネットであり得る。ネットワーク２２３は、一部の場合には、電気通信および／またはデータネットワークである。ネットワーク２２３は、ローカルエリアネットワークを含み得る。ネットワーク２３は、分散コンピューティング、例えばクラウドコンピューティングを可能にし得る１つまたは複数のコンピュータサーバーを含み得る。ネットワーク２２３は、一部の場合にはコンピュータシステム２１０を活用して、ピアツーピアネットワークを実施することができ、これにより、コンピュータシステム２２０に連結されているデバイスは、クライアントまたはサーバーとして動作することが可能になり得る。コンピュータシステム２１０は、ネットワーク２２３を使用してデータをコンピュータシステム２２４とやりとりすることができる。例えば、コンピュータシステム２２４は、分析データストア２１８からデータを取り込むことができる。

プロセッサー２２０は、プログラムまたはソフトウェアで具体化され得る機械可読命令のシーケンスを実行し得る。命令は、メモリ場所、例えば、ストレージデバイス２２２中に記憶され得る。命令をプロセッサー２２０に向けることができ、それによって、その後、プロセッサー２２０は、本開示の方法を実施するようにプログラムまたは別様に構成され得る。プロセッサー２２０により行われる動作の例としては、フェッチ、デコード、実行、およびライトバックを挙げることができる。

プロセッサー２２０は、回路、例えば集積回路の一部であり得る。システム２００の１つまたは複数の他の構成要素を回路に含めることができる。一部の場合には、回路は、特定用途向け集積回路（ＡＳＩＣ）を含み得る。

ストレージデバイス２２２は、ファイル、例えば、ドライバー、ライブラリーおよび保存されたプログラムを記憶することができる。ストレージデバイス２２２は、ユーザーデータ、例えば、ユーザー選好およびユーザープログラムを記憶することができる。コンピュータシステム２１０は、一部の場合には、イントラネットまたはＩｎｔｅｒｎｅｔを介してコンピュータシステム２１０と通信しているリモートサーバー上に位置するものなどの、コンピュータシステム２１０の外部にある１つまたは複数の追加のデータストレージユニットを含み得る。

コンピュータシステム２１０は、ネットワークを介して１つまたは複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム２１０は、ユーザーのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例としては、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートもしくはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、アンドロイド（登録商標）対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が挙げられる。ユーザーは、ネットワーク経由でコンピュータシステム１１０にアクセスすることができる。

本明細書に記載の方法を、例えばストレージデバイス２２２上などの、コンピュータシステム２１０の電子ストレージ場所上に記憶された機械（例えば、コンピュータプロセッサー）実行可能コードによって実施することができる。機械実行可能または機械可読コードをソフトウェア（例えば、コンピュータ可読媒体）の形態で提供することができる。使用中に、コードは、プロセッサー２２０により実行され得る。一部の場合には、コードをストレージデバイス２２２から読み出すことができ、プロセッサー２２０がすぐにアクセスできるようにストレージデバイス２２２上に記憶させることができる。

コードは、コードを実行するように適合されたプロセッサーを有する機械との使用のために、プリコンパイルおよび構成され得、またはランタイムの間にコンパイルされ得る。コードは、プリコンパイルまたはアズコンパイルされた（ａｓ－ｃｏｍｐｉｌｅｄ）様式でのコードの実行を可能にするために選択され得るプログラミング言語で供給され得る。

本明細書で提供されるシステムおよび方法の態様、例えば、コンピュータシステム２１０は、プログラミングで具体化され得る。技術の種々の態様は、典型的には、ある型の機械可読媒体上で運搬されるまたはある型の機械可読媒体で具体化される機械（またはプロセッサー）実行可能コードおよび／または関連データの形態の、「製品」または「製造品」と考えられ得る。機械実行可能コードは、電子ストレージユニット、例えば、メモリ（例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスク上に記憶され得る。

「ストレージ」型媒体は、ソフトウェアプログラミングのための非一時的なストレージをいつでも提供し得る、任意のまたは全ての、コンピュータの有形メモリ、プロセッサーなど、またはその関連のモジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどを含み得る。ソフトウェアの全てまたは部分は、インターネットまたは種々の他の遠隔通信ネットワークを介して、折に触れ通信され得る。かかる通信は、例えば、１つのコンピュータまたはプロセッサーから別のコンピュータまたはプロセッサーへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへの、ソフトウェアのローディングを可能にし得る。したがって、ソフトウェアエレメントを保有し得る別の型の媒体には、ローカルデバイス間の物理的インターフェースを横断して、有線のおよび光学的固定電話回線ネットワークを介して、および種々のエアリンク（ａｉｒ－ｌｉｎｋ）を通じて使用されるものなどの、光波、電波および電磁波が含まれる。かかる波を搬送する物理的エレメント、例えば、有線または無線リンク、光学リンクなどもまた、ソフトウェアを保有する媒体とみなされ得る。本明細書で使用される場合、非一時的な有形ストレージ媒体に限定されない限り、「媒体」は、他の型の（無形）媒体を含み得る。

「ストレージ」媒体、コンピュータまたは機械「可読媒体」などの用語は、実行のために命令をプロセッサーに提供することに関与する任意の有形の（例えば、物理的な）非一時的な媒体を指す。

したがって、機械可読媒体、例えば、コンピュータ実行可能コードは、有形ストレージ媒体、搬送波媒体または物理的伝送媒体が含まれるがこれらに限定されない多くの形態を取り得る。非揮発性ストレージ媒体には、例えば、光学または磁気ディスク、例えば、図面中に示されるデータベースなどを実施するために使用され得るものなどの、任意のコンピュータ中のストレージデバイスのいずれかなどが含まれる。揮発性ストレージ媒体には、ダイナミックメモリ、例えば、かかるコンピュータプラットフォームのメインメモリが含まれる。有形伝送媒体には、同軸ケーブル；コンピュータシステム内のバスを含むワイヤを含む銅ワイヤおよび光ファイバーが含まれる。搬送波伝送媒体は、無線周波数（ＲＦ）および赤外線（ＩＲ）データ通信の間に生成されるものなどの、電気的もしくは電磁気信号、または音波もしくは光波の形態を取り得る。したがって、コンピュータ可読媒体の一般的な形態には、例えば、以下が含まれる：フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤもしくはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的ストレージ媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を輸送する搬送波、かかる搬送波を輸送するケーブルもしくはリンク、またはコンピュータがそこからプログラミングコードおよび／もしくはデータを読み取り得る任意の他の媒体。これらの形態のコンピュータ可読媒体の多くは、１つまたは複数の命令の１つまたは複数のシーケンスを実行のためにプロセッサーに搬送することに関与し得る。

コンピュータシステム２１０は、例えばレポートを提供するためのユーザーインターフェース（ＵＩ）を含む電子ディスプレイ９３５を含むことがあり、またはそれと通信していることがある。ＵＩの例としては、これらに限定されないが、グラフィカルユーザーインターフェース（ＧＵＩ）およびウェブベースのユーザーインターフェースが挙げられる。

本開示の方法およびシステムは、１つまたは複数のアルゴリズムによって実施され得る。アルゴリズムは、プロセッサー２２０による実行時にソフトウェアによって実施され得る。

上または下で引用された全ての特許出願、ウェブサイト、他の刊行物、受託番号などは、各個々の項目がそのように参照により組み込まれると具体的かつ個々に示されるのと同程度まで、全ての目的のためにそれらの全体が参照により組み込まれる。異なる時点において異なるバージョンの配列が受託番号に関連付けられている場合、本出願の有効出願日の時点でその受託番号に関連付けられたバージョンを意味する。有効出願日とは、該当する場合、実際の出願日またはその受託番号に言及する優先出願の出願日のいずれか早い方を意味する。同様に、異なる時点において異なるバージョンの刊行物、ウェブサイトなどが公開されている場合、他が示されない限り、本出願の有効出願日の時点で一番最近公開されたバージョンを意味する。本開示の任意の特色、ステップ、要素、実施形態、または態様は、具体的に他が示されない限り、任意の他の特色、ステップ、要素、実施形態、または態様と組み合わせて使用され得る。本開示は、明確さおよび理解を目的として、例示および例を目的としていくらか詳細に記載されてきたが、ある特定の変化および改変が添付の特許請求の範囲内で実施され得ることは明らかである。

Claims

複数のゲノム領域に関連する複数の配列断片の配列データを決定するステップであって、前記配列データが、複数の配列リードを含み、前記複数の配列リードが、複数の試料からの前記複数の配列断片からシークエンシングされ、前記複数の試料のうちの各試料が、腫瘍由来または非腫瘍由来とラベルされる、ステップ；
前記複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップ；
前記配列データの少なくとも一部分、および前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、予測モデルのための複数の特徴を決定するステップ；
前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第１の部分に基づいて、前記複数の特徴に従って前記予測モデルを訓練するステップ；
前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第２の部分に基づいて、前記予測モデルを試験するステップ；ならびに
前記試験するステップに基づいて、前記予測モデルを出力するステップ
を含む方法。
前記複数のゲノム領域が、ＤＮＭＴ３Ａ、ＴＰ５３、ＬＲＰ１Ｂ、ＫＲＡＳ、ＭＡＲＣＨ１１、ＴＡＣ１、ＴＣＦ２１、ＳＨＯＸ２、ｐ１６、Ｃａｓｐ８、ＣＤＨ１３、ＭＧＭＴ、ＭＬＨ１、ＭＳＨ２、ＴＳＬＣ１、ＡＰＣ、ＤＫＫ１、ＤＫＫ３、ＬＫＢ１、ＷＩＦ１、ＲＵＮＸ３、ＧＡＴＡ４、ＧＡＴＡ５、ＰＡＸ５、Ｅ－カドヘリン、Ｈ－カドヘリン、ＶＩＭ、ＳＥＰＴ９、ＣＹＣＤ２、ＴＦＰＩ２、ＧＡＴＡ４、ＲＡＲＢ２、ｐ１６ＩＮＫ４ａ、ＡＰＣ、ＮＤＲＧ４、ＨＬＴＦ、ＨＰＰ１、ｈＭＬＨ１、ＲＡＳＳＦ１Ａ、ＩＧＦＢＰ３、ＩＴＧＡ４、ＰＩＫ３ＣＡ、ＥＲＢＢ２（ＨＥＲ２）、ＢＲＣＡ１／２、ＮＴＲＫ１／２／３、ＭＳＩ－Ｈｉｇｈ、ＥＳＲ１、ＡＴＭ、ＨＲＲ、ＦＧＦＲ２／３、ＩＤＨ１、ＫＲＡＳ、ＮＲＡＳ、ＢＲＡＦ、ＫＩＴ、ＰＤＧＦＲＡ、ＥＧＦＲ、ＡＬＫ、ＲＯＳ１、ＭＥＴ、ＴＭＢ、またはＲＥＴのうちの少なくとも１つを含む、請求項１に記載の方法。
配列データを決定するステップが、複数の対象から複数の試料を得ることを含み、前記複数の試料が、複数の無細胞核酸を含む、請求項１に記載の方法。
前記複数のゲノム領域が、がん型に関連することが公知のゲノム領域、公知のメチル化ステータスに関連するゲノム領域、低メチル化に関連することが公知のゲノム領域、または治療応答に関連することが公知のゲノム領域のうちの少なくとも１つを含む、請求項１から３のいずれか一項に記載の方法。
前記エピジェネティックデータが、ＤＮＡメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、またはタンパク質結合に関する情報のうちの少なくとも１つを含む、請求項１から４のいずれか一項に記載の方法。
前記複数の配列断片に関連する前記エピジェネティックデータを決定するステップが、前記複数の配列断片のメチル化状態を決定することを含む、請求項１から５のいずれか一項に記載の方法。
前記複数の配列断片の前記メチル化状態を決定するステップが、メチル化状態ベクトルまたはメチル化ＣｐＧ密度の少なくとも一方を決定することを含む、請求項５に記載の方法。
前記メチル化状態ベクトルを決定するステップが、
前記複数の配列リードを参照配列にアラインすること；
前記アラインするステップに基づいて、前記複数の配列リードのうちの配列リードにおける１つまたは複数のＣｐＧ部位のメチル化ステータス、および前記１つまたは複数のＣｐＧ部位の位置を決定すること；ならびに
前記１つまたは複数のＣｐＧ部位の前記メチル化ステータス、および前記１つまたは複数のＣｐＧ部位の前記位置をベクトル化して、前記複数の配列リードのうちの前記配列リードの前記メチル化状態ベクトルを生成すること
を含む、請求項７に記載の方法。
前記メチル化ＣｐＧ密度を決定するステップが、
前記複数の配列リードを参照配列にアラインすること；
前記アラインするステップに基づいて、前記複数の配列リードのうちの配列リードにおける１つまたは複数のＣｐＧ部位のメチル化ステータスを決定すること；
前記配列リードにおける前記１つまたは複数のＣｐＧ部位の前記メチル化ステータスに基づいて、前記配列リードがメチル化されているまたはメチル化されていないことを決定すること；
前記複数の配列リードについて、メチル化配列リードの計数値、および非メチル化配列リードの計数値を決定すること；ならびに
メチル化配列リードの前記計数値および非メチル化配列リードの前記計数値に基づいて、前記メチル化ＣｐＧ密度を決定すること
を含む、請求項７に記載の方法。
前記フラグメントミクスデータが、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置および／または前記断片の前記終点を示す任意の値に関する情報のうちの少なくとも１つを含む、請求項１から９のいずれか一項に記載の方法。
前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の断片の配列断片のサイズを決定すること、または特定のサイズを有する前記複数の配列断片の量を決定することのうちの少なくとも一方を含む、請求項１から１０のいずれか一項に記載の方法。
前記特定のサイズが、範囲である、請求項１１に記載の方法。
前記範囲が、５０～８０、５０～１００、５０～１５０、１００～１５０、１００～２００、１５０～２００、１５０～２３０、２００～３００、または３００～４００塩基のうちの少なくとも１つである、請求項１２に記載の方法。
前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の配列断片の末端モチーフを決定することを含み、前記末端モチーフが、配列断片の終了配列に関するものである、請求項１から１３のいずれか一項に記載の方法。
前記複数の配列断片の前記末端モチーフを決定するステップが、
前記複数の配列断片からシークエンシングされた前記複数の配列リードを参照配列にアラインすること；および
前記アラインするステップに基づいて、前記複数の配列断片のうちの配列断片の各末端の末端モチーフを決定すること
を含む、請求項１４に記載の方法。
前記終了配列が、いくつかの塩基を含み、前記いくつかの塩基が、１～６個の間の塩基である、請求項１４に記載の方法。
前記終了配列が、前記配列断片を越えて伸長するいくつかの塩基を含み、前記いくつかの塩基が、１～６個の間の塩基である、請求項１４に記載の方法。
前記複数の配列断片内の前記末端モチーフの出現頻度を決定するステップをさらに含む、請求項１５から１７のいずれか一項に記載の方法。
前記末端モチーフの末端塩基を決定するステップ、および前記末端モチーフの前記末端塩基の出現頻度を決定するステップをさらに含む、請求項１５から１８のいずれか一項に記載の方法。
前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の配列断片のうちの配列断片のジャギド末端を決定することを含む、請求項１から１９のいずれか一項に記載の方法。
前記複数の配列断片のうちの前記配列断片の前記ジャギド末端を決定するステップが、オーバーハングインデックスを決定することを含む、請求項２０に記載の方法。
前記配列断片が、第１の部分を有する第１の鎖と第２の鎖とを有する二本鎖状であり、前記オーバーハングインデックスを決定することが、
前記第２の鎖にオーバーハングしている前記第１の鎖の長さに比例する前記第１の鎖または前記第２の鎖のメチル化ステータスを決定すること；および
前記メチル化ステータスに基づいて、前記オーバーハングインデックスを決定するステップであって、前記オーバーハングインデックスが、ある鎖が別の鎖にオーバーハングしている測度を提供する、こと
を含む、請求項２１に記載の方法。
前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、断片終点の遺伝子位置を決定することを含む、請求項１から２２のいずれか一項に記載の方法。
断片終点の前記遺伝子位置を決定するステップが、ウインドウ化保護スコア（ＷＰＳ）を決定することを含む、請求項２３に記載の方法。
前記ＷＰＳを決定するステップが、
ウインドウにわたる配列断片の数を決定すること；および
前記ウインドウ内で開始する任意の配列断片に基づいて、前記ウインドウにわたる配列断片の前記数を調整すること
を含む、請求項２４に記載の方法。
配列断片の起源を決定するステップ、ならびに前記配列断片の前記起源を、前記配列断片に関連する前記配列データ、前記エピジェネティックデータおよび前記フラグメントミクスデータに割り当てるステップをさらに含む、請求項１から２５のいずれか一項に記載の方法。
前記起源が腫瘍由来もしくは非腫瘍由来であるか、前記起源が組織型であるか、または前記起源ががん型であるかの少なくとも１つである、請求項２６に記載の方法。
前記配列データの前記少なくとも一部分、および前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記少なくとも一部分に基づいて、前記予測モデルのための前記複数の特徴を決定するステップが、
メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、前記断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、前記断片の前記終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも１つを決定すること；および
メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、前記断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、前記断片の前記終点を示す任意の値、またはウインドウ化保護スコアのうちの前記少なくとも１つのどれが、単独で、または組合せで、配列断片の起源に関連する予測値を有するのかを決定すること
を含む、請求項１から２７のいずれか一項に記載の方法。
前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記第１の部分に基づいて、前記複数の特徴に従って前記予測モデルを訓練するステップが、機械学習手法に従って前記予測モデルを訓練することを含む、請求項１から２８のいずれか一項に記載の方法。
前記機械学習手法が、判別分析、決定木、最近傍（ＮＮ）アルゴリズム、ベイジアンネットワーク、クラスタリングアルゴリズム、ニューラルネットワーク、サポートベクターマシン（ＳＶＭ）、ロジスティック回帰アルゴリズム、線形回帰アルゴリズム、マルコフモデル、または主成分分析（ＰＣＡ）のうちの少なくとも１つを含む、請求項２９に記載の方法。
前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記第２の部分に基づいて、前記予測モデルを試験するステップが、前記予測モデルを再訓練させることを含む、請求項１から３０のいずれか一項に記載の方法。
対象について、前記複数のゲノム領域に関連する複数の配列断片を含む試験配列データを決定するステップであって、前記複数の配列断片が、前記対象からの試料からシークエンシングされるステップ；
前記複数の配列断片に関連する試験エピジェネティックデータまたは試験フラグメントミクスデータの少なくとも一方を決定するステップ；
前記予測モデルに、前記対象の試験配列データ、試験エピジェネティックデータ、および試験フラグメントミクスデータを提供するステップ；ならびに
前記対象の前記試験配列データ、前記試験エピジェネティックデータ、および前記試験フラグメントミクスデータに基づいて、前記配列データにおける少なくとも１つの配列断片の起源を決定するステップ
をさらに含む、請求項１から３０のいずれか一項に記載の方法。
前記起源が、腫瘍由来または非腫瘍由来の一方である、請求項３２に記載の方法。
腫瘍由来である前記起源に基づいて、前記対象に１つまたは複数の療法を投与するステップをさらに含む、請求項３３に記載の方法。
前記療法が、化学療法を投与すること、放射線療法を投与すること、または腫瘍の全てもしくは一部分を切除するために外科手術を行うことを含む、請求項３４に記載の方法。
前記療法が、ＡＬＥＣＥＮＳＡ（登録商標）、ＡＬＵＮＢＲＩＧ（登録商標）、ＢＲＡＦＴＯＶＩ（登録商標）、ＥＲＢＩＴＵＸ（登録商標）、ＧＡＶＲＥＴＯ（商標）、ＧＩＬＯＴＲＩＦ（登録商標）、ＨＥＲＣＥＰＴＩＮ（登録商標）、ＩＲＥＳＳＡ（登録商標）、ＫＡＤＣＹＬＡ（登録商標）、ＫＥＹＴＲＵＤＡ（登録商標）、ＬＯＲＢＲＥＮＡ（登録商標）、ＬＵＭＡＫＲＡＳ（商標）、ＬＹＮＰＡＲＺＡ（登録商標）、ＭＥＫＩＮＩＳＴ（登録商標）、ＯＰＤＩＶＯ（登録商標）、ＰＥＲＪＥＴＡ（登録商標）、ＰＩＱＲＡＹ（登録商標）、ＲＥＴＥＶＭＯ（商標）、ＲＯＺＬＹＴＲＥＫ（商標）、ＲＵＢＲＡＣＡ（登録商標）、ＴＡＢＲＥＣＴＡ（商標）、ＴＡＦＩＮＬＡＲ（登録商標）、ＴＡＧＲＩＳＳＯ（登録商標）、ＴＡＬＺＥＮＮＡ（登録商標）、ＴＡＲＣＥＶＡ（登録商標）、ＴＥＰＭＥＴＫＯ（商標）、ＴＹＫＥＲＢ（登録商標）、ＶＩＴＲＡＫＶＩ（登録商標）、ＶＩＺＩＭＰＲＯ（登録商標）、ＸＡＬＫＯＲＩ（登録商標）、ＹＢＲＥＶＡＮＴ（商標）、ＹＥＲＶＯＹ（登録商標）、またはＺＹＫＡＤＩＡ（登録商標）のうちの少なくとも１つを投与することを含む、請求項３４に記載の方法。
対象について、複数のゲノム領域に関連する複数の配列断片の配列データを決定するステップであって、前記配列データが、複数の配列リードを含み、前記複数の配列リードが、前記対象からの試料からの前記複数の配列断片からシークエンシングされる、ステップ；
前記複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップ；
訓練された予測モデルに、前記配列データの少なくとも一部分、および前記エピジェネティックデータまたは前記フラグメントミクスデータの少なくとも一方の少なくとも一部分を提供するステップ；ならびに
前記予測モデルに基づいて、前記試料が腫瘍由来または非腫瘍由来であることを決定するステップ
を含む、方法。
前記予測モデルを生成するステップをさらに含む、請求項３７に記載の方法。
前記予測モデルを生成するステップが、
複数のゲノム領域に関連する複数の配列断片の配列データを決定することであって、前記配列データが、複数の配列リードを含み、前記複数の配列リードが、複数の試料からの前記複数の配列断片からシークエンシングされ、前記複数の試料のうちの各試料が、腫瘍由来または非腫瘍由来とラベルされること；
前記複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定すること；
前記配列データの少なくとも一部分、および前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、前記予測モデルのための複数の特徴を決定すること；
前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第１の部分に基づいて、前記複数の特徴に従って前記予測モデルを訓練すること；
前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第２の部分に基づいて、前記予測モデルを試験すること；ならびに
前記試験するステップに基づいて、前記予測モデルを出力すること
を含む、請求項３８に記載の方法。
前記複数のゲノム領域が、ＤＮＭＴ３Ａ、ＴＰ５３、ＬＲＰ１Ｂ、ＫＲＡＳ、ＭＡＲＣＨ１１、ＴＡＣ１、ＴＣＦ２１、ＳＨＯＸ２、ｐ１６、Ｃａｓｐ８、ＣＤＨ１３、ＭＧＭＴ、ＭＬＨ１、ＭＳＨ２、ＴＳＬＣ１、ＡＰＣ、ＤＫＫ１、ＤＫＫ３、ＬＫＢ１、ＷＩＦ１、ＲＵＮＸ３、ＧＡＴＡ４、ＧＡＴＡ５、ＰＡＸ５、Ｅ－カドヘリン、Ｈ－カドヘリン、ＶＩＭ、ＳＥＰＴ９、ＣＹＣＤ２、ＴＦＰＩ２、ＧＡＴＡ４、ＲＡＲＢ２、ｐ１６ＩＮＫ４ａ、ＡＰＣ、ＮＤＲＧ４、ＨＬＴＦ、ＨＰＰ１、ｈＭＬＨ１、ＲＡＳＳＦ１Ａ、ＩＧＦＢＰ３、ＩＴＧＡ４、ＰＩＫ３ＣＡ、ＥＲＢＢ２（ＨＥＲ２）、ＢＲＣＡ１／２、ＮＴＲＫ１／２／３、ＭＳＩ－Ｈｉｇｈ、ＥＳＲ１、ＡＴＭ、ＨＲＲ、ＦＧＦＲ２／３、ＩＤＨ１、ＫＲＡＳ、ＮＲＡＳ、ＢＲＡＦ、ＫＩＴ、ＰＤＧＦＲＡ、ＥＧＦＲ、ＡＬＫ、ＲＯＳ１、ＭＥＴ、ＴＭＢ、またはＲＥＴのうちの少なくとも１つを含む、請求項３７から３９のいずれか一項に記載の方法。
配列データを決定するステップが、複数の対象から複数の試料を得ることを含み、前記複数の試料が、複数の無細胞核酸を含む、請求項３９から４０のいずれか一項に記載の方法。
前記複数のゲノム領域が、がん型に関連することが公知のゲノム領域、公知のメチル化ステータスに関連するゲノム領域、低メチル化に関連することが公知のゲノム領域、または治療応答に関連することが公知のゲノム領域のうちの少なくとも１つを含む、請求項３７から４１のいずれか一項に記載の方法。
前記エピジェネティックデータが、ＤＮＡメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、またはタンパク質結合に関する情報のうちの少なくとも１つを含む、請求項３７から４２のいずれか一項に記載の方法。
前記複数の配列断片に関連する前記エピジェネティックデータを決定するステップが、前記複数の配列断片のメチル化状態を決定することを含む、請求項３７から４３のいずれか一項に記載の方法。
前記複数の配列断片の前記メチル化状態を決定するステップが、メチル化状態ベクトルまたはメチル化ＣｐＧ密度の少なくとも一方を決定することを含む、請求項４４に記載の方法。
前記メチル化状態ベクトルを決定するステップが、
前記複数の配列リードを参照配列にアラインすること；
前記アラインするステップに基づいて、前記複数の配列リードのうちの配列リードにおける１つまたは複数のＣｐＧ部位のメチル化ステータス、および前記１つまたは複数のＣｐＧ部位の位置を決定すること；ならびに
前記１つまたは複数のＣｐＧ部位の前記メチル化ステータス、および前記１つまたは複数のＣｐＧ部位の前記位置をベクトル化して、前記複数の配列リードのうちの前記配列リードのメチル化状態ベクトルを生成すること
を含む、請求４５に記載の方法。
前記メチル化ＣｐＧ密度を決定するステップが、
前記複数の配列リードを参照配列にアラインすること；
前記アラインするステップに基づいて、前記複数の配列リードのうちの配列リードにおける１つまたは複数のＣｐＧ部位のメチル化ステータスを決定すること；
前記配列リードにおける前記１つまたは複数のＣｐＧ部位の前記メチル化ステータスに基づいて、前記配列リードがメチル化されているまたはメチル化されていないことを決定すること；
前記複数の配列リードについて、メチル化配列リードの計数値、および非メチル化配列リードの計数値を決定すること；ならびに
メチル化配列リードの前記計数値および非メチル化配列リードの前記計数値に基づいて、前記メチル化ＣｐＧ密度を決定すること
を含む、請求項４７に記載の方法。
前記フラグメントミクスデータが、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置および／または前記断片の前記終点を示す任意の値に関する情報のうちの少なくとも１つを含む、請求項３７から４７のいずれか一項に記載の方法。
前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の断片の配列断片のサイズを決定すること、または特定のサイズを有する前記複数の配列断片の量を決定することのうちの少なくとも一方を含む、請求項３７から４８のいずれか一項に記載の方法。
前記特定のサイズが、範囲である、請求項４９に記載の方法。
前記範囲が、５０～８０、５０～１００、５０～１５０、１００～１５０、１００～２００、１５０～２００、１５０～２３０、２００～３００、または３００～４００塩基のうちの少なくとも１つである、請求項５０に記載の方法。
前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の配列断片の末端モチーフを決定することを含み、前記末端モチーフが、配列断片の終了配列に関するものである、請求項３７から５１のいずれか一項に記載の方法。
前記複数の配列断片の前記末端モチーフを決定するステップが、
前記複数の配列断片からシークエンシングされた前記複数の配列リードを参照配列にアラインすること；および
前記アラインするステップに基づいて、前記複数の配列断片のうちの配列断片の各末端の末端モチーフを決定すること
を含む、請求項５２に記載の方法。
前記終了配列が、いくつかの塩基を含み、前記いくつかの塩基が、１～６個の間の塩基である、請求項５２に記載の方法。
前記終了配列が、前記配列断片を越えて伸長するいくつかの塩基を含み、前記いくつかの塩基が、１～６個の間の塩基である、請求項５２に記載の方法。
前記複数の配列断片内の前記末端モチーフの出現頻度を決定するステップをさらに含む、請求項５３から５５のいずれか一項に記載の方法。
前記末端モチーフの末端塩基を決定するステップ、および前記末端モチーフの前記末端塩基の出現頻度を決定するステップをさらに含む、請求項５３から５６のいずれか一項に記載の方法。
前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の配列断片のうちの配列断片のジャギド末端を決定することを含む、請求項３７から５７のいずれか一項に記載の方法。
前記複数の配列断片のうちの前記配列断片の前記ジャギド末端を決定するステップが、オーバーハングインデックスを決定することを含む、請求項５８に記載の方法。
前記配列断片が、第１の部分を有する第１の鎖と第２の鎖とを有する二本鎖状であり、前記オーバーハングインデックスを決定するステップが、
前記第２の鎖にオーバーハングしている前記第１の鎖の長さに比例する前記第１の鎖または前記第２の鎖のメチル化ステータスを決定すること；および
前記メチル化ステータスに基づいて、前記オーバーハングインデックスを決定することであって、前記オーバーハングインデックスが、ある鎖が別の鎖にオーバーハングしている測度を提供すること
を含む、請求項５９に記載の方法。
前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、断片終点の遺伝子位置を決定することを含む、請求項３７から６０のいずれか一項に記載の方法。
断片終点の前記遺伝子位置を決定するステップが、ウインドウ化保護スコア（ＷＰＳ）を決定することを含む、請求項６１に記載の方法。
前記ＷＰＳを決定するステップが、
ウインドウにわたる配列断片の数を決定すること；および
前記ウインドウ内で開始する任意の配列断片に基づいて、前記ウインドウにわたる配列断片の数を調整すること
を含む、請求項６２に記載の方法。
配列断片の起源を決定するステップ、ならびに前記配列断片の前記起源を、前記配列断片に関連する前記配列データ、前記エピジェネティックデータおよび前記フラグメントミクスデータに割り当てるステップをさらに含む、請求項３７から６３のいずれか一項に記載の方法。
前記起源が腫瘍由来もしくは非腫瘍由来であるか、前記起源が組織型であるか、または前記起源ががん型であるかの少なくとも１つである、請求項６４に記載の方法。
前記配列データの前記少なくとも一部分、および前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記少なくとも一部分に基づいて、前記予測モデルのための前記複数の特徴を決定するステップが、
メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、前記断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、前記断片の前記終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも１つを決定すること；および
メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、前記断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、前記断片の前記終点を示す任意の値、またはウインドウ化保護スコアのうちの前記少なくとも１つのどれが、単独で、または組合せで、配列断片の起源に関連する予測値を有するのかを決定すること
を含む、請求項３９から６５のいずれか一項に記載の方法。
前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記第１の部分に基づいて、前記複数の特徴に従って前記予測モデルを訓練するステップが、機械学習手法に従って前記予測モデルを訓練することを含む、請求項３９から６６のいずれか一項に記載の方法。
前記機械学習手法が、判別分析、決定木、最近傍（ＮＮ）アルゴリズム、ベイジアンネットワーク、クラスタリングアルゴリズム、ニューラルネットワーク、サポートベクターマシン（ＳＶＭ）、ロジスティック回帰アルゴリズム、線形回帰アルゴリズム、マルコフモデル、または主成分分析（ＰＣＡ）のうちの少なくとも１つを含む、請求項６７に記載の方法。
前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記第２の部分に基づいて、前記予測モデルを試験するステップが、前記予測モデルを再訓練させることを含む、請求項３９から６８のいずれか一項に記載の方法。
腫瘍由来である前記試料に基づいて、腫瘍由来である前記起源に基づいて前記対象に１つまたは複数の療法を投与するステップをさらに含む、請求項３７から６８のいずれか一項に記載の方法。
前記療法が、化学療法を投与すること、放射線療法を投与すること、または腫瘍の全てもしくは一部分を切除するために外科手術を行うことを含む、請求項７０に記載の方法。
前記療法が、ＡＬＥＣＥＮＳＡ（登録商標）、ＡＬＵＮＢＲＩＧ（登録商標）、ＢＲＡＦＴＯＶＩ（登録商標）、ＥＲＢＩＴＵＸ（登録商標）、ＧＡＶＲＥＴＯ（商標）、ＧＩＬＯＴＲＩＦ（登録商標）、ＨＥＲＣＥＰＴＩＮ（登録商標）、ＩＲＥＳＳＡ（登録商標）、ＫＡＤＣＹＬＡ（登録商標）、ＫＥＹＴＲＵＤＡ（登録商標）、ＬＯＲＢＲＥＮＡ（登録商標）、ＬＵＭＡＫＲＡＳ（商標）、ＬＹＮＰＡＲＺＡ（登録商標）、ＭＥＫＩＮＩＳＴ（登録商標）、ＯＰＤＩＶＯ（登録商標）、ＰＥＲＪＥＴＡ（登録商標）、ＰＩＱＲＡＹ（登録商標）、ＲＥＴＥＶＭＯ（商標）、ＲＯＺＬＹＴＲＥＫ（商標）、ＲＵＢＲＡＣＡ（登録商標）、ＴＡＢＲＥＣＴＡ（商標）、ＴＡＦＩＮＬＡＲ（登録商標）、ＴＡＧＲＩＳＳＯ（登録商標）、ＴＡＬＺＥＮＮＡ（登録商標）、ＴＡＲＣＥＶＡ（登録商標）、ＴＥＰＭＥＴＫＯ（商標）、ＴＹＫＥＲＢ（登録商標）、ＶＩＴＲＡＫＶＩ（登録商標）、ＶＩＺＩＭＰＲＯ（登録商標）、ＸＡＬＫＯＲＩ（登録商標）、ＹＢＲＥＶＡＮＴ（商標）、ＹＥＲＶＯＹ（登録商標）、またはＺＹＫＡＤＩＡ（登録商標）のうちの少なくとも１つを投与することを含む、請求項７０に記載の方法。
コンピュータを少なくとも部分的に使用して、試験対象から得られた試験試料中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントとを互いに差別化する方法であって、
前記コンピュータにより、標的ゲノム領域のセットの中の試験核酸バリアントを、前記試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ；
前記コンピュータにより、同定された試験核酸バリアントの前記セットの中の複数の前記同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、前記試験試料中の前記核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせるステップ；
前記コンピュータにより、試験核酸バリアント－エピジェネティックシグネチャー群の前記セットの中の所与の試験核酸バリアント－エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントに対応する参照核酸バリアント－エピジェネティックシグネチャー群と、またはＣＨＩＰ起源核酸バリアントに対応する参照核酸バリアント－エピジェネティックシグネチャー群とマッチさせ、それによって、前記試験対象から得られた前記試験試料中の前記腫瘍起源核酸バリアントと前記ＣＨＩＰ起源核酸バリアントとを互いに差別化するステップ
を含む、方法。
試験対象におけるがんを処置する方法であって、
コンピュータにより、標的ゲノム領域のセットの中の核酸バリアントを、前記試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ；
前記コンピュータにより、同定された試験核酸バリアントの前記セットの中の複数の前記同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、前記試験試料中の前記核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせるステップ；
前記コンピュータにより、少なくとも１つの訓練された分類器を使用して、試験核酸バリアント－エピジェネティックシグネチャー群の前記セット中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントとを互いに差別化して、前記試験試料中に存在する差別化された腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントのセットを生じさせるステップ；および
前記試験試料中に存在する差別化された腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントの前記セットの中の前記差別化された腫瘍起源核酸バリアントの１つまたは複数に基づいて、前記試験対象に少なくとも１つの療法を投与し、それによって前記試験対象におけるがんを処置するステップ
を含む、方法。
試験対象におけるがんを処置する方法であって、試験試料中に存在する差別化された腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントのセットの中の１つまたは複数の差別化された腫瘍起源核酸バリアントに基づいて、前記試験対象に少なくとも１つの療法を投与するステップを含み、差別化された腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントの前記セットが、
コンピュータにより、標的ゲノム領域のセットの中の核酸バリアントを、前記試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせること；
前記コンピュータにより、同定された試験核酸バリアントの前記セットの中の複数の前記同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、前記試験試料中の前記核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせること；および
前記コンピュータにより、少なくとも１つの訓練された分類器を使用して、試験核酸バリアント－エピジェネティックシグネチャー群の前記セット中の腫瘍起源核酸バリアントとＣＨＩＰ起源核酸バリアントとを互いに差別化すること
により生じる、方法。
訓練された分類器を、コンピュータを少なくとも部分的に使用して生成する方法であって、
前記コンピュータにより、標的ゲノム領域の少なくとも１セットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ；
前記コンピュータにより、同定された参照核酸バリアントの前記セットの中の複数の前記同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、前記参照試料中の前記核酸から得られたエピジェネティック情報から同定して、参照核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせるステップ；ならびに
前記コンピュータにより、参照核酸バリアント－エピジェネティックシグネチャー群の前記セットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、１つまたは複数の試験核酸バリアント－エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントおよび／または未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントを含むものとして分類するように構成されている、少なくとも１つの訓練された分類器を作出するステップ
を含む方法。
訓練された分類器を、コンピュータを少なくとも部分的に使用して生成する方法であって、
前記コンピュータにより、標的ゲノム領域の少なくとも１セットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ；
前記コンピュータにより、同定された参照核酸バリアントの前記セットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、標的ゲノム領域の前記セットの中の核酸バリアントを試験試料中の核酸から得られた配列情報から分類するように構成されている少なくとも第１のモデルを作出して、同定された試験核酸バリアントのセットを生じさせるステップ；
前記コンピュータにより、同定された参照核酸バリアントの前記セットの中の複数の前記同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、前記参照試料中の前記核酸から得られたエピジェネティック情報から同定して、参照エピジェネティックシグネチャーのセットを生じさせるステップ；
前記コンピュータにより、参照エピジェネティックシグネチャーの前記セットの少なくとも一部分を使用して前記機械学習アルゴリズムを訓練して、試験核酸バリアント－エピジェネティックシグネチャー群のセットの中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血（ＣＨＩＰ）起源核酸バリアントとを互いに差別化するように構成されている少なくとも第２のモデルを作出して、同定された試験核酸バリアントのセットを生じさせ、それによって前記訓練された分類器を生成するステップ
を含む方法。
試験核酸バリアント－エピジェネティックシグネチャー群の前記セットが、同一の核酸バリアントおよび異なる対応するエピジェネティックシグネチャーを含む少なくとも第１および第２のメンバーを含む、前記請求項のいずれか一項に記載の方法。
前記異なる対応するエピジェネティックシグネチャーが、所与の標的ゲノム領域の中の１つまたは複数のエピジェネティック座位により示される異なるエピジェネティック状態またはステータスを含む、請求項７８に記載の方法。
前記異なる対応するエピジェネティックシグネチャーが、異なる無細胞核酸（ｃｆＮＡ）断片長、位置、および／または終点密度分布を含む、請求項７８に記載の方法。
試験核酸バリアント－エピジェネティックシグネチャー群の前記セットが、異なる核酸バリアントおよび同一の対応するエピジェネティックシグネチャーを含む少なくとも第１および第２のメンバーを含む、前記請求項のいずれか一項に記載の方法。
前記マッチさせるステップが、少なくとも１つの訓練された分類器を使用して、前記試験対象から得られた前記試験試料中の前記腫瘍起源核酸バリアントと前記ＣＨＩＰ起源核酸バリアントとを互いに差別化することを含む、前記請求項のいずれか一項に記載の方法。
同定された核酸バリアントの前記セットが、体細胞核酸バリアントを含む、前記請求項のいずれか一項に記載の方法。
所与の標的ゲノム領域が、２つまたはそれより多くの核酸バリアント座位を含む、前記請求項のいずれか一項に記載の方法。
試験核酸バリアント－エピジェネティックシグネチャー群の前記セットが、標的ゲノム領域の前記セットの中の異なるゲノム領域からのものである１つまたは複数の核酸バリアントおよび１つまたは複数の対応するエピジェネティックシグネチャーを含む少なくとも１つのメンバーを含む、前記請求項のいずれか一項に記載の方法。
試験核酸バリアント－エピジェネティックシグネチャー群の前記セットが、標的ゲノム領域の前記セットの中の同一のゲノム領域内のものである１つまたは複数の核酸バリアントおよび１つまたは複数の対応するエピジェネティックシグネチャーを含む少なくとも１つのメンバーを含む、前記請求項のいずれか一項に記載の方法。
複数の標的ゲノム領域が、ＤＮＭＴ３Ａ、ＴＰ５３、ＬＲＰ１Ｂ、ＫＲＡＳ、ＭＡＲＣＨ１１、ＴＡＣ１、ＴＣＦ２１、ＳＨＯＸ２、ｐ１６、Ｃａｓｐ８、ＣＤＨ１３、ＭＧＭＴ、ＭＬＨ１、ＭＳＨ２、ＴＳＬＣ１、ＡＰＣ、ＤＫＫ１、ＤＫＫ３、ＬＫＢ１、ＷＩＦ１、ＲＵＮＸ３、ＧＡＴＡ４、ＧＡＴＡ５、ＰＡＸ５、Ｅ－カドヘリン、Ｈ－カドヘリン、ＶＩＭ、ＳＥＰＴ９、ＣＹＣＤ２、ＴＦＰＩ２、ＧＡＴＡ４、ＲＡＲＢ２、ｐ１６ＩＮＫ４ａ、ＡＰＣ、ＮＤＲＧ４、ＨＬＴＦ、ＨＰＰ１、ｈＭＬＨ１、ＲＡＳＳＦ１Ａ、ＩＧＦＢＰ３、ＩＴＧＡ４、ＰＩＫ３ＣＡ、ＥＲＢＢ２（ＨＥＲ２）、ＢＲＣＡ１／２、ＮＴＲＫ１／２／３、ＭＳＩ－Ｈｉｇｈ、ＥＳＲ１、ＡＴＭ、ＨＲＲ、ＦＧＦＲ２／３、ＩＤＨ１、ＫＲＡＳ、ＮＲＡＳ、ＢＲＡＦ、ＫＩＴ、ＰＤＧＦＲＡ、ＥＧＦＲ、ＡＬＫ、ＲＯＳ１、ＭＥＴ、ＴＭＢ、およびＲＥＴからなる群から選択される１つまたは複数の遺伝子を含む、前記請求項のいずれか一項に記載の方法。
前記試料中の前記核酸が、前記試料中の１つまたは複数の組織または細胞から得られた無細胞核酸（ｃｆＮＡ）断片および／または核酸分子を含む、前記請求項のいずれか一項に記載の方法。
前記エピジェネティックシグネチャーが、ｃｆＮＡ断片長、位置、および／または終点密度分布を含む、前記請求項のいずれか一項に記載の方法。
前記エピジェネティックシグネチャーが、所与の標的ゲノム領域の中の１つまたは複数のエピジェネティック座位により示されるエピジェネティック状態またはステータスを含む、前記請求項のいずれか一項に記載の方法。
前記エピジェネティック状態またはステータスが、メチル化、ヒドロキシメチル化、アセチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、シトルリン化、および／またはヒストン翻訳後改変もしくは他のヒストン多様性の存在または非存在を含む、請求項９０に記載の方法。
差別化されたＣＨＩＰ起源核酸バリアントをさらなる分析から排除するステップをさらに含む、前記請求項のいずれか一項に記載の方法。
前記試験試料中の互いに差別化された腫瘍起源核酸バリアントおよびＣＨＩＰ起源核酸バリアントを収載する少なくとも１つのレポートを生成するステップをさらに含む、前記請求項のいずれか一項に記載の方法。
前記差別化された腫瘍起源核酸バリアントに関連する少なくとも１つのがん型を同定するステップをさらに含む、前記請求項のいずれか一項に記載の方法。
前記同定されたがん型を処置するために前記試験対象に少なくとも１つの療法を投与するステップをさらに含む、前記請求項のいずれか一項に記載の方法。
前記差別化された腫瘍起源核酸バリアントの１つまたは複数に基づいて、前記試験対象に少なくとも１つの療法を投与するステップをさらに含む、前記請求項のいずれか一項に記載の方法。
１つまたは複数の細胞が、前記試験試料中の前記核酸を含む、前記請求項のいずれか一項に記載の方法。
１つまたは複数の組織が、前記細胞を含む、請求項９７に記載の方法。
前記請求項のいずれか一項に記載の方法により生成される訓練された分類器。
前記コンピュータにより、標的ゲノム領域の前記セットの中の核酸バリアントを、試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ；
前記コンピュータにより、同定された試験核酸バリアントの前記セットの中の複数の前記同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも１つのエピジェネティックシグネチャーを、前記試験試料中の前記核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント－エピジェネティックシグネチャー群のセットを生じさせるステップ；および
前記訓練された分類器を使用して、前記試験対象から得られた前記試験試料中の試験核酸バリアント－エピジェネティックシグネチャー群の前記セットの中の前記腫瘍起源核酸バリアントと前記ＣＨＩＰ起源核酸バリアントとを互いに差別化するステップ
をさらに含む、前記請求項のいずれか一項に記載の方法。
前記第２のモデルが、前記第１のモデルのさらに訓練されたバージョンである、前記請求項のいずれか一項に記載の方法。
参照核酸バリアント－エピジェネティックシグネチャー群の前記セットが、同定された参照核酸バリアントの前記セットの中の所与の核酸バリアントに対応するエピジェネティックシグネチャーについての保有率データを含む、前記請求項のいずれか一項に記載の方法。
所与の核酸バリアントに対応する前記少なくとも１つのエピジェネティックシグネチャーを同定するステップが、
前記所与の核酸バリアントに対応するエピジェネティック率を決定するステップであって、少なくとも第１のエピジェネティック率が、所与の対象から第１の時点で得られた第１の試料から生成され、少なくとも第２のエピジェネティック率が、前記所与の対象から前記第１の時点とは異なる第２の時点で得られた第２の試料から生成されること；
少なくとも前記第１のエピジェネティック率に基づいて少なくとも１つのエピジェネティック率閾値を調整して、調整されたエピジェネティック率閾値を生じさせること；および
前記調整されたエピジェネティック率閾値を使用して、前記エピジェネティックシグネチャーを同定すること
を含む、前記請求項のいずれか一項に記載の方法。
前記第１および第２の試料が、試験試料を含む、前記請求項のいずれか一項に記載の方法。
前記第１および第２の試料が、参照試料を含む、前記請求項のいずれか一項に記載の方法。
前記第１の試料が、腫瘍組織試料を含む、前記請求項のいずれか一項に記載の方法。
前記第２の試料が、体液試料を含む、前記請求項のいずれか一項に記載の方法。
プロセッサーによる実行時に請求項１から３６のいずれかに記載の方法を前記プロセッサーに行わせるプロセッサー実行可能命令を自体が記憶している、１つまたは複数の非一時的なコンピュータ可読媒体。
請求項１から３６のいずれかに記載の方法を行うように構成されたコンピュータデバイスと、
前記予測モデルを出力するように構成された出力デバイスと
を含むシステム。
１または複数台のプロセッサーと、
前記１または複数台のプロセッサーによる実行時に請求項１から３６のいずれかに記載の方法を装置に行わせるプロセッサー実行可能命令を記憶しているメモリと
を含む装置。
プロセッサーによる実行時に請求項３７から７２のいずれかに記載の方法を前記プロセッサーに行わせるプロセッサー実行可能命令を自体が記憶している、１つまたは複数の非一時的なコンピュータ可読媒体。
請求項３７から７２のいずれかに記載の方法を行うように構成されたコンピュータデバイスと、
前記試料が腫瘍由来または非腫瘍由来であるという表示を出力するように構成された出力デバイスと
を含むシステム。
１または複数台のプロセッサーと、
前記１または複数台のプロセッサーによる実行時に請求項３７から７２のいずれかに記載の方法を装置に行わせるプロセッサー実行可能命令を記憶しているメモリと
を含む装置。
プロセッサーによる実行時に請求項７３から１０７のいずれかに記載の方法を前記プロセッサーに行わせるプロセッサー実行可能命令を自体が記憶している、１つまたは複数の非一時的なコンピュータ可読媒体。
請求項７３から１０７のいずれかに記載の方法を行うように構成されたコンピュータデバイスと、
前記試料が腫瘍由来または非腫瘍由来であるという表示を出力するように構成された出力デバイスと
を含むシステム。
１または複数台のプロセッサーと、
前記１または複数台のプロセッサーによる実行時に請求項７３から１０７のいずれかに記載の方法を装置に行わせるプロセッサー実行可能命令を記憶しているメモリと
を含む装置。