JP2023524627A

JP2023524627A - 核酸のメチル化分析による結腸直腸癌を検出するための方法およびシステム

Info

Publication number: JP2023524627A
Application number: JP2022559477A
Authority: JP
Inventors: エスティー．ジョン，ジョン; ケーテン－ヒル，スティーブン; ヤン，ルイ; ドレイク，アダム
Original assignee: フリーノムホールディングス，インク．
Priority date: 2020-03-31
Filing date: 2021-03-29
Publication date: 2023-06-13
Also published as: CA3178302A1; US20230101485A1; KR20230017169A; AU2021245992A1; US20230220492A1; WO2021202351A1; EP4127215A1; CN115667554A

Abstract

本開示は、結腸直腸癌または以下の結腸直腸疾患の進行をスクリーニングまたは検出するための、無細胞ＤＮＡなどの無細胞核酸に適用され得る方法およびシステムを提供する。この方法は、入力特徴として同定されたゲノム領域における単一シーケンシングリード内のメチル化シグナルの検出を使用して、機械学習モデルをトレーニングし、個体の集団を階層化するのに有用な分類子を生成することができる。この方法は、対象から得られた無細胞試料からＤＮＡを抽出すること、ＤＮＡをメチル化シーケンシングのために変換すること、シーケンシングリードを生成すること、およびシーケンシング情報中の結腸増殖性細胞障害関連シグナルを検出すること、および機械学習モデルをトレーニングして対象集団において、健康、癌などの群を識別するか、または疾患のサブタイプもしくはステージを識別することができる識別子を提供することを含み得る。この方法は、例えば、治療に対する応答、腫瘍負荷、再発または結腸直腸癌発症について予測、予後判定および／またはモニタリングするために使用され得る。【選択図】図１

Description

関連出願の相互参照
本出願は、２０２０年３月３１日に出願された米国仮特許出願第６３／００２，８７８号の利益を主張し、その内容は参照によりその全体が本明細書に組み込まれる。

本開示は、一般に、癌の検出および疾患のモニタリングに関する。より詳細には、本分野は、早期結腸直腸癌（ＣＲＣ）における癌関連ＤＮＡメチル化検出および疾患モニタリングに関する。癌のスクリーニングおよびモニタリングは、早期検出により癌が広がる前に除去され得るため、より良好な転帰をもたらすことから、過去数十年にわたって転帰の改善の助けになっている可能性がある。例えば、ＣＲＣの場合、大腸内視鏡検査の使用は、早期診断を向上させる役割を果たし得る。残念なことに、推奨される規則性において適切ではないスクリーニングを含む患者のコンプライアンスに起因して生じる課題が存在し得る。

任意のスクリーニングツールの主な問題は、不必要な調査につながる偽陽性結果と、無効性である偽陰性結果（または特異性と感度）との間の妥協であり得る。理想的な検査は、不必要な調査を最小限に抑えるが、大部分の癌を検出する、高い陽性的中率（ＰＰＶ）を有する検査であり得る。別の重要な要素は、検査感度と区別するための、いわゆる「検出感度」であり得、それは腫瘍の大きさに関する検出の下限である。残念ながら、腫瘍が検出に必要なレベルで循環腫瘍マーカーを放出するのに十分な大きさに成長するのを待つことは、治療が最も効果的である段階で腫瘍を治療するための早期検出の要件と矛盾する可能性がある。したがって、循環分析物に基づく早期ＣＲＣの効果的な血液ベースのスクリーニングが必要とされている。

循環腫瘍ＤＮＡの検出は、非侵襲的な方法で腫瘍の検出および有益な調査を可能にする、実行可能な「液体生検」としてますます認識されている。場合によっては、腫瘍特異的変異の同定を使用して、これらの技術が結腸癌、乳癌および前立腺癌に適用されている。循環中に存在する正常な（例えば、非腫瘍由来）ＤＮＡのバックグラウンドが高いため、これらの技術は感度が制限され得る。

血液中の腫瘍特異的メチル化の検出は、突然変異の検出を上回る明確な利点を提供し得る。いくつかの単一または複数のメチル化バイオマーカーが、肺癌、結腸癌および乳癌を含む癌において評価され得る。これらは、腫瘍において十分に行き渡っていない可能性があるため、低感度を欠点とし得る。

再発における早期または低腫瘍負荷の結腸直腸癌腫瘍シグナルを検出するための、より高感度かつ特異的なスクリーニングツール、およびリスク集団における一次スクリーニングが依然として必要とされている。

本開示は、結腸直腸癌の検出および疾患の進行に関連する遺伝子のメチル化プロファイリングに関する方法およびシステムを提供する。

一態様では、本開示は、結腸細胞増殖性障害の特徴的なメチル化シグネチャパネルであって、表１１からなる群から選択される１つまたは複数のメチル化ゲノム領域を含み、１つまたは複数の領域が、結腸細胞増殖性障害または結腸細胞増殖性障害サブタイプを有する個体からの生物学的試料においてメチル化の程度が高く、結腸細胞増殖性障害を有しない個体における正常組織および正常血球においてメチル化の程度が低い、メチル化シグネチャパネルを提供する。

いくつかの実施形態では、生物学的試料は、核酸、ＤＮＡ、リボ核酸（ＲＮＡ）、または無細胞核酸（例えば、ｃｆＤＮＡまたはｃｆＲＮＡ）である。

いくつかの実施形態では、ゲノム領域は、非コーディング領域、コーディング領域、または非転写もしくは調節領域である。

いくつかの実施形態では、シグネチャパネルは、表１１からなる群より選択される２つ以上のゲノム領域におけるメチル化の増加を含む。

いくつかの実施形態では、対象から得られる生物学的試料は、無細胞ＤＮＡ、無細胞ＲＮＡ、体液、便、結腸排出物、尿、血漿、血清、全血、単離血液細胞、血液から単離された細胞、およびそれらの組み合わせからなる群から選択される。

いくつかの実施形態において、結腸細胞増殖性障害は、腺腫（腺腫様ポリープ）、無茎性鋸歯状腺腫（ＳＳＡ）、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍（ＧＩＳＴ）、リンパ腫および肉腫からなる群より選択される。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。

いくつかの実施形態では、結腸細胞増殖性障害は、ステージ１結腸直腸癌、ステージ２結腸直腸癌、ステージ３結腸直腸癌、またはステージ４結腸直腸癌からなる群から選択される。

いくつかの実施形態では、シグネチャパネルは、表１～１１の２つ以上のメチル化ゲノム領域、表１～１１の３つ以上のメチル化ゲノム領域、表１～１１の４つ以上のメチル化ゲノム領域、表１～１１の５つ以上のメチル化ゲノム領域、表１～１１の６つ以上のメチル化ゲノム領域、表１～１１の７つ以上のメチル化ゲノム領域、表１～１１の８つ以上のメチル化ゲノム領域、表１～１１の９つ以上のメチル化ゲノム領域、表１～１１の１０個以上のメチル化ゲノム領域、表１～１１の１１個以上のメチル化ゲノム領域、表１～１１の１２個以上のメチル化ゲノム領域、または表１～１１の１３個以上のメチル化ゲノム領域を含む。

いくつかの実施形態では、シグネチャパネルは、ＩＴＧＡ４、ＥＭＢＰ１、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯおよびＺＮＦ５４３からなる群から選択される１つまたは複数のゲノム領域中のメチル化領域を含む、結腸直腸癌でメチル化されたゲノム領域を含む。

いくつかの実施形態では、結腸直腸癌でメチル化された領域は、ＩＴＧＡ４およびＥＭＢＰ１ゲノム領域の両方におけるメチル化領域を含む。

いくつかの実施形態では、結腸直腸癌でメチル化された領域は、ＩＴＧＡ４、ＥＭＢＰ１、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ、ＺＮＦ５４３、ＣＨＳＴ１０、ＣＣＮＡ１、ＢＥＮＤ４、ＫＲＢＡ１、Ｓ１ＰＲ１およびＰＰＰ１Ｒ１６Ｂからなる群から選択される１つまたは複数のゲノム領域中のメチル化領域を含む。

いくつかの実施形態において、シグネチャパネルは、表１、表２、表３、表４、表５、表６、表７、表８、表９、表１０および表１１からなる群より選択されるメチル化ゲノム領域を含む。

別の態様では、本開示は、結腸細胞増殖性障害の特徴的なメチル化シグネチャパネルであって、表１～１１の２つ以上のメチル化ゲノム領域を含み、２つ以上の領域が、結腸細胞増殖性障害または結腸細胞増殖性障害サブタイプを有する個体からの生物学的試料においてメチル化の程度が高く、結腸細胞増殖性障害を有しない個体における正常組織および正常血球においてメチル化の程度が低い、メチル化シグネチャパネルを提供する。

いくつかの実施形態では、生物学的試料は、核酸、ＤＮＡ、リボ核酸（ＲＮＡ）または無細胞核酸（ｃｆＤＮＡまたはｃｆＲＮＡ）である。

いくつかの実施形態では、シグネチャパネルは、表１～１１の６個以上、または１２個以上のゲノム領域におけるメチル化の増加を含む。

いくつかの実施形態では、シグネチャパネルは、表１～１１の３つ以上のメチル化ゲノム領域、表１～１１の４つ以上のメチル化ゲノム領域、表１～１１の５つ以上のメチル化ゲノム領域、表１～１１の６つ以上のメチル化ゲノム領域、表１～１１の７つ以上のメチル化ゲノム領域、表１～１１の８つ以上のメチル化ゲノム領域、表１～１１の９つ以上のメチル化ゲノム領域、表１～１１の１０個以上のメチル化ゲノム領域、表１～１１の１１個以上のメチル化ゲノム領域、表１～１１の１２個以上のメチル化ゲノム領域、または表１～１１の１３個以上のメチル化ゲノム領域を含む。

いくつかの実施形態において、シグネチャパネルは、表１、表２、表３、表４、表５、表６、表７、表８、表９、表１０および表１１からなる群より選択されるメチル化領域を含む。

別の態様では、本開示は、結腸細胞増殖性障害を有する個体から健康な個体の集団を識別することができる分類子（例えば、機械学習分類子）を提供し、分類子は、ａ）差次的にメチル化されたゲノム領域を表す測定値であって、健康な対象および結腸細胞増殖性障害を有する対象からのメチル化シーケンシングデータから得られる測定値のセットを含み、ｂ）測定値を使用して、差次的にメチル化されたゲノム領域の特性に対応する特徴のセットを生成し、特徴が機械学習モデルまたは統計モデルに入力され、ｃ）モデルが、健康な個体の集団を結腸細胞増殖性障害を有する個体から識別することができる分類子として有用な特徴ベクトルを提供する。

いくつかの実施形態では、測定値のセットは、ＣｐＧ、ＣＨＧ、ＣＨＨについてのベースワイズ（ｂａｓｅｗｉｓｅ）メチル化率、領域内のメチル化ＣｐＧの異なるカウントまたは割合を有する断片を観察するカウントまたは割合、変換効率（１００－ＣＨＨについての平均メチル化率）、低メチル化ブロック、メチル化レベル（ＣＰＧ、ＣＨＨ、ＣＨＧの全体平均メチル化、断片長、断片中間点、および１つ以上のゲノム領域、例えばｃｈｒＭ、ＬＩＮＥ１、またはＡＬＵにおけるメチル化レベル）、断片あたりのメチル化ＣｐＧ数、断片あたりの総ＣｐＧに対するＣｐＧメチル化の割合、領域あたりの総ＣｐＧに対するＣｐＧメチル化の割合、パネル内の総ＣｐＧに対するＣｐＧメチル化の割合、ジヌクレオチドのカバレッジ（ジヌクレオチドの正規化されたカバレッジ）、カバレッジの均一性（ｌｘおよび１０ｘの平均ゲノムカバレッジ（Ｓ４ランについて）での固有のＣｐＧ部位、全体的な平均ＣｐＧカバレッジ（深度）、ならびにＣｐＧアイランド、ＣＧＩシェルフおよびＣＧＩショアでの平均カバレッジからなる群から選択されるメチル化領域の特徴を説明する。

いくつかの実施形態では、分類子を含む機械学習モデルは、コンピュータシステムのメモリにロードされ、機械学習モデルは、トレーニング生物学的試料、結腸細胞増殖性障害を有すると同定されたトレーニング生物学的試料の第１のサブセット、および結腸細胞増殖性障害を有さないと同定されたトレーニング生物学的試料の第２のサブセットから得られたトレーニングベクトルを使用してトレーニングされる。

いくつかの実施形態では、分類子は、ａ）メチル化シグネチャパネルに基づいて、結腸細胞増殖性障害を有するものとして、または結腸細胞増殖性障害を有しないものとして対象を分類するように操作可能な分類子を含むコンピュータ可読媒体、およびｂ）コンピュータ可読媒体に記憶された命令を実行するための１つまたは複数のプロセッサを含む、結腸細胞増殖性障害を検出するためのシステムにおいて提供される。

いくつかの実施形態では、システムは、深層学習分類子、ニューラルネットワーク分類子、線形判別分析（ＬＤＡ）分類子、二次判別分析（ＱＤＡ）分類子、サポートベクターマシン（ＳＶＭ）分類子、ランダムフォレスト（ＲＦ）分類子、線形カーネルサポートベクターマシン分類子、一次または二次多項式カーネルサポートベクターマシン分類子、リッジ回帰分類子、弾性ネットアルゴリズム分類子、逐次最小問題最適化アルゴリズム分類子、ナイーブベイズアルゴリズム分類子、および主成分分析分類子からなる群から選択される機械学習分類子として構成される分類回路を備える。

いくつかの実施形態では、コンピュータ可読媒体は、１つまたは複数のコンピュータプロセッサによって実行されると、上記または本明細書の他の場所の方法のいずれかを実施する機械実行可能コードを含む非一時的なコンピュータ可読媒体である。

いくつかの実施形態では、システムは、１つまたは複数のコンピュータプロセッサと、それに接続されたコンピュータメモリとを備える。コンピュータメモリは、１つまたは複数のコンピュータプロセッサによって実行されると、本明細書に記載の方法のいずれかを実施する機械実行可能コードを含む。

別の態様では、本開示は、個体からの無細胞デオキシリボ核酸（ｃｆＤＮＡ）試料のメチル化プロファイルを決定する方法であって、ａ）ｃｆＤＮＡ試料の核酸分子において非メチル化シトシンをウラシルに変換することができる条件を提供して、複数の変換された核酸を生成すること、ｂ）複数の変換された核酸を、表１～１１からなる群から選択される少なくとも２つの差次的にメチル化された領域の予め特定されたメチル化シグネチャパネルに相補的な核酸プローブと接触させて、シグネチャパネルに対応する配列を富化すること、ｃ）複数の変換された核酸分子の核酸配列を決定すること、およびｄ）複数の変換された核酸分子の核酸配列を参照核酸配列にアラインメントし、それにより個体のメチル化プロファイルを決定することを含む、方法を提供する。

いくつかの実施形態において、核酸シーケンシングライブラリーは、増幅の前に調製される。いくつかの実施形態では、方法は、複数の変換された核酸を増幅することをさらに含む。いくつかの実施形態では、増幅はポリメラーゼ連鎖反応（ＰＣＲ）を含む。いくつかの実施形態では、方法は、１０００ｘ超、２０００ｘ超、３０００ｘ超、４０００ｘ超または５０００ｘ超の深度で変換された核酸分子の核酸配列を決定することをさらに含む。いくつかの実施形態において、参照核酸配列は、ヒト参照ゲノムの少なくとも一部である。いくつかの実施形態において、ヒト参照ゲノムは、ｈｇ１８である。

いくつかの実施形態では、メチル化プロファイルは、結腸細胞増殖性障害に関連し、結腸細胞増殖性障害を有する対象の分類を提供する。

いくつかの実施形態では、固有の分子識別子を含む核酸アダプターは、ａ）の前にｃｆＤＮＡ試料中の未変換核酸にライゲーションされる。

いくつかの実施形態では、核酸分子は、化学的方法、酵素的方法、またはそれらの組み合わせを使用して、シトシンからウラシルへの変換条件に供される。

いくつかの実施形態では、生物学的試料中のｃｆＤＮＡを、重亜硫酸塩、亜硫酸水素塩、二亜硫酸塩、およびそれらの組み合わせからなる群から選択される試薬で処理する。

いくつかの実施形態において、方法は、対象由来の測定されたメチル化シグネチャパネルを、正常な対象由来の測定されたメチル化シグネチャパネルの、コンピュータシステムに保存されているデータベースに対して適用すること、メチルシグネチャパネルのメチル化状態において、正常な対象からのメチル化状態と比較して少なくとも１％、少なくとも２％、少なくとも３％、少なくとも４％、少なくとも５％、少なくとも６％、少なくとも７％、少なくとも８％、少なくとも９％、少なくとも１０％、少なくとも１１％、少なくとも１２％、少なくとも１３％、少なくとも１４％、少なくとも１５％、少なくとも１６％、少なくとも１７％、少なくとも１８％、少なくとも１９％、または少なくとも２０％の変化を測定することによって、対象の結腸細胞増殖性障害を有するリスクの増加を判定すること。

いくつかの実施形態では、予め同定されたメチル化シグネチャパネルは、表１～１１の３つ以上のメチル化ゲノム領域、表１～１１の４つ以上のメチル化ゲノム領域、表１～１１の５つ以上のメチル化ゲノム領域、表１～１１の６つ以上のメチル化ゲノム領域、表１～１１の７つ以上のメチル化ゲノム領域、表１～１１の８つ以上のメチル化ゲノム領域、表１～１１の９つ以上のメチル化ゲノム領域、表１～１１の１０個以上のメチル化ゲノム領域、表１～１１の１１個以上のメチル化ゲノム領域、表１～１１の１２個以上のメチル化ゲノム領域、または表１～１１の１３個以上のメチル化ゲノム領域を含む。いくつかの実施形態において、予め同定されたメチル化シグネチャパネルは、表１１における１つ以上のメチル化ゲノム領域、表１１における２つ以上のメチル化ゲノム領域、または表１１における３つのメチル化ゲノム領域を含む。いくつかの実施形態では、メチル化プロファイルは、個体における結腸細胞増殖性障害の存在または非存在を示す。

いくつかの実施形態では、結腸細胞増殖性障害は、ステージ１結腸直腸癌、ステージ２結腸直腸癌、ステージ３結腸直腸癌、およびステージ４結腸直腸癌からなる群から選択される。

別の態様では、本開示は、対象における結腸細胞増殖性障害の存在または非存在を検出する方法であって、ａ）対象から得られた、または由来する生物学的試料の核酸分子において非メチル化シトシンをウラシルに変換することができる条件を提供して、複数の変換された核酸を生成すること、ｂ）複数の変換された核酸を、表１～１１からなる群から選択される少なくとも２つの差次的にメチル化された領域の予め同定されたメチル化シグネチャパネルに相補的な核酸プローブと接触させて、シグネチャパネルに対応する配列を富化すること、ｃ）複数の変換された核酸分子の核酸配列を決定すること、ｄ）複数の変換された核酸分子の核酸配列を参照核酸配列にアラインメントし、それにより個体のメチル化プロファイルを決定すること、およびｅ）トレーニングされた機械学習モデルをメチル化プロファイルに適用することを含む方法を提供し、機械学習モデルは、健康な個体と結腸細胞増殖性障害を有する個体とを識別して、結腸細胞増殖性障害の存在に関連する出力値を提供し、それによって対象における結腸細胞増殖性障害の存在または非存在を検出することができるようにトレーニングされている。

いくつかの実施形態では、予め同定されたメチル化シグネチャパネルは、表１～１１の３つ以上のメチル化ゲノム領域、表１～１１の４つ以上のメチル化ゲノム領域、表１～１１の５つ以上のメチル化ゲノム領域、表１～１１の６つ以上のメチル化ゲノム領域、表１～１１の７つ以上のメチル化ゲノム領域、表１～１１の８つ以上のメチル化ゲノム領域、表１～１１の９つ以上のメチル化ゲノム領域、表１～１１の１０個以上のメチル化ゲノム領域、表１～１１の１１個以上のメチル化ゲノム領域、表１～１１の１２個以上のメチル化ゲノム領域、または表１～１１の１３個以上のメチル化ゲノム領域を含む。いくつかの実施形態において、予め同定されたメチル化シグネチャパネルは、表１１における１つ以上のメチル化ゲノム領域、表１１における２つ以上のメチル化ゲノム領域、または表１１における３つのメチル化ゲノム領域を含む。いくつかの実施形態では、メチル化プロファイルは、個体における結腸細胞増殖性障害の存在または非存在を示す。いくつかの実施形態では、方法は、個体における結腸細胞増殖性障害の存在の検出に基づいて、結腸細胞増殖性障害の治療を個体に投与することをさらに含む。

いくつかの実施形態では、トレーニングされた機械学習分類子は、深層学習分類子、ニューラルネットワーク分類子、線形判別分析（ＬＤＡ）分類子、二次判別分析（ＱＤＡ）分類子、サポートベクターマシン（ＳＶＭ）分類子、ランダムフォレスト（ＲＦ）分類子、線形カーネルサポートベクターマシン分類子、一次または二次多項式カーネルサポートベクターマシン分類子、リッジ回帰分類子、弾性ネットアルゴリズム分類子、逐次最小問題最適化アルゴリズム分類子、ナイーブベイズアルゴリズム分類子、および主成分分析分類子からなる群から選択される機械学習分類子として構成される分類回路を備える。

別の態様では、本開示は、疾患について過去に治療された対象における微小残存病変をモニタリングする方法であって、ベースラインメチル化状態として本明細書に記載のメチル化プロファイルを決定することと、分析を繰り返して、１つまたは複数の所定の時点でのメチル化プロファイルを決定することとを含む方法を提供し、ここでベースラインからの変化は、対象のベースラインにおける微小残存病変の変化を示す。

いくつかの実施形態では、微小残存病変は、治療に対する応答、腫瘍負荷、術後残存腫瘍、再発、二次スクリーニング、一次スクリーニングおよび癌進行からなる群から選択される。

別の態様では、治療に対する応答を決定するための方法が提供される。

別の態様では、腫瘍負荷をモニタリングするための方法が提供される。

別の態様では、術後の残存腫瘍を検出する方法が提供される。

別の態様では、再発を検出するための方法が提供される。

別の態様では、二次スクリーニングとして使用するための方法が提供される。

別の態様では、一次スクリーニングとして使用するための方法が提供される。

別の態様では、癌の進行をモニタリングするための方法が提供される。

いくつかの実施形態では、データセットは、少なくとも約８０％の感度で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約９０％の感度で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約９５％の感度で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約７０％の陽性的中率（ＰＰＶ）で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約８０％の陽性的中率（ＰＰＶ）で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約９０％の陽性的中率（ＰＰＶ）で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約９５％の陽性的中率（ＰＰＶ）で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約９９％の陽性的中率（ＰＰＶ）で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約８０％の陰性的中率（ＮＰＶ）で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約９０％の陰性的中率（ＮＰＶ）で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約９５％の陰性的中率（ＮＰＶ）で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約９９％の陰性的中率（ＮＰＶ）で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、トレーニングされたアルゴリズムが、少なくとも約０．９０の曲線下面積（ＡＵＣ）で対象の結腸直腸癌の存在または罹病性を判定する。いくつかの実施形態では、トレーニングされたアルゴリズムが、少なくとも約０．９５の曲線下面積（ＡＵＣ）で対象の結腸直腸癌の存在または罹病性を判定する。いくつかの実施形態では、トレーニングされたアルゴリズムが、少なくとも約０．９９の曲線下面積（ＡＵＣ）で対象の結腸直腸癌の存在または罹病性を判定する。

いくつかの実施形態では、方法は、ユーザの電子デバイスのグラフィカルユーザインターフェースにレポートを提示することをさらに含む。いくつかの実施形態では、ユーザは、対象、個体または患者である。

いくつかの実施形態では、方法は、対象、個体または患者における結腸直腸癌の存在または罹病性の判定の尤度を測定することをさらに含む。例えば、尤度は、０％～１００％の確率値であってもよい。

いくつかの実施形態では、トレーニングされたアルゴリズム（例えば、機械学習モデルまたは分類子）は、教師あり機械学習アルゴリズムを含む。いくつかの実施形態では、教師あり機械学習アルゴリズムは、深層学習アルゴリズム、サポートベクターマシン（ＳＶＭ）、ニューラルネットワーク、またはランダムフォレストを含む。

いくつかの実施形態において、方法は、少なくとも部分的にメチル化プロファイルまたは分析に基づく治療的介入、例えば、結腸直腸癌を有する患者を治療するための治療的介入（例えば、化学療法、放射線療法、免疫療法または外科手術）を前記対象に提供することをさらに含む。

いくつかの実施形態では、方法は、結腸直腸癌の存在または罹病性をモニタリングすることをさらに含み、前記モニタリングは、複数の時点での前記対象の結腸直腸癌の存在または罹病性を評価することを含み、評価することは、複数の時点のそれぞれで決定された結腸直腸癌の存在または罹病性に少なくとも基づく。

いくつかの実施形態では、対象の結腸直腸癌の存在または罹病性の複数の時点間での評価の差は、（ｉ）対象の結腸直腸癌の存在または罹病性の診断、（ｉｉ）対象の結腸直腸癌の存在または罹病性の予後、および（ｉｉｉ）対象の結腸直腸癌の存在または罹病性を治療するための治療過程の有効性または非有効性からなる群から選択される１つまたは複数の臨床的指標を示す。

いくつかの実施形態では、方法は、トレーニングされたアルゴリズムを使用して、結腸直腸癌の複数の異なるサブタイプまたはステージの中から対象の結腸直腸癌のサブタイプを決定することによって、対象の結腸直腸癌を階層化することをさらに含む。

本開示の別の態様は、１つまたは複数のコンピュータプロセッサによって実行されると、上記または本明細書の他の場所の方法のいずれかを実施する機械実行可能コードを含む非一時的なコンピュータ可読媒体を提供する。

本開示の別の態様は、１つまたは複数のコンピュータプロセッサと、それに接続されたコンピュータメモリとを備えるシステムを提供する。コンピュータメモリは、１つまたは複数のコンピュータプロセッサによって実行されると、本明細書の上記または他の場所の方法のいずれかを実施する機械実行可能コードを含む。

本開示のさらなる態様および利点は、本開示の例示的に過ぎない実施形態が示され説明される以下の詳細な説明から、当業者には容易に明らかになるであろう。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な明白な観点で修正が可能である。したがって、図面および説明は、本質的に例示とみなされるべきであり、限定とみなされるべきではない。

参照による組み込み
本明細書で言及されるすべての刊行物、特許、および特許出願は、あたかも各個々の刊行物、特許、または特許出願が参照により組み込まれることが具体的かつ個別に示されているのと同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が本明細書に含まれる開示と矛盾する範囲において、本明細書は、そのような矛盾する資料を更新、および／またはそれに優先することを意図している。

ここで、本開示の例を、添付の図面を参照して、単なる例として説明する。本発明の新規な特徴は、添付の特許請求の範囲に詳細に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を示す以下の詳細な説明、および添付の図面（本明細書ではさらに「図（Ｆｉｇｕｒｅ）」および「図（ＦＩＧ．）」）を参照することによって得られるであろう。

本明細書で提供される方法を実施するために機械学習モデルおよび分類子でプログラムまたは構成された、コンピュータシステムの概略図を提供する。表１の領域でトレーニングされたモデルの４倍クロスバリデーションのための曲線下面積（ＡＵＣ）曲線を提供する。分類モデルでトレーニングされたＣＲＣの様々なステージにおける試料の一連の曲線下面積（ＡＵＣ）曲線を提供する。図３Ａは、ステージ１を有する患者における、ＣＲＣを検出し、早期癌を識別するこれらの示差的メチル化領域（ＤＭＲ）の能力を示すＲＯＣ結果を示す。分類モデルでトレーニングされたＣＲＣの様々なステージにおける試料の一連の曲線下面積（ＡＵＣ）曲線を提供する。図３Ｂは、ステージ２を有する患者における、ＣＲＣを検出し、早期癌を識別するこれらの示差的メチル化領域（ＤＭＲ）の能力を示すＲＯＣ結果を示す。分類モデルでトレーニングされたＣＲＣの様々なステージにおける試料の一連の曲線下面積（ＡＵＣ）曲線を提供する。図３Ｃは、ステージ３を有する患者における、ＣＲＣを検出し、早期癌を識別するこれらの示差的メチル化領域（ＤＭＲ）の能力を示すＲＯＣ結果を示す。分類モデルでトレーニングされたＣＲＣの様々なステージにおける試料の一連の曲線下面積（ＡＵＣ）曲線を提供する。図３Ｄは、ステージ４を有する患者における、ＣＲＣを検出し、早期癌を識別するこれらの示差的メチル化領域（ＤＭＲ）の能力を示すＲＯＣ結果を示す。分類モデルでトレーニングされたＣＲＣの様々なステージにおける試料の一連の曲線下面積（ＡＵＣ）曲線を提供する。図３Ｅは、欠落（ｍｉｓｓｉｎｇ）ステージを有する患者における、ＣＲＣを検出し、早期癌を識別するこれらの示差的メチル化領域（ＤＭＲ）の能力を示すＲＯＣ結果を示す。分類モデルでトレーニングされたＣＲＣの様々なステージにおける試料の一連の曲線下面積（ＡＵＣ）曲線を提供する。図３Ｆは、全試料における、ＣＲＣを検出し、早期癌を識別するこれらの示差的メチル化領域（ＤＭＲ）の能力を示すＲＯＣ結果を示す。

本発明の様々な実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。当業者であれば、本発明から逸脱することなく、多数の変形、変更、および置換を行うことができる。本明細書に記載の本発明の実施形態に対する様々な代替形態が使用され得ることを理解されたい。

本開示は、一般に、癌の検出および疾患のモニタリングに関する。より詳細には、本分野は、早期結腸直腸癌における癌関連ＤＮＡメチル化検出および疾患モニタリングに関する。癌のスクリーニングおよびモニタリングは、早期検出により癌が広がる前に除去され得るため、より良好な転帰をもたらすことから、過去数十年にわたって転帰の改善の助けになっている可能性がある。例えば、結腸直腸癌の場合、大腸内視鏡検査の使用は、早期診断を向上させる役割を果たし得る。残念なことに、推奨される規則性において適切ではないスクリーニングを含む患者のコンプライアンスに起因して生じる課題が存在し得る。

任意のスクリーニングツールの主な問題は、不必要な調査につながる偽陽性結果と、無効性である偽陰性結果（または特異性と感度）との間の妥協であり得る。理想的な検査は、不必要な調査を最小限に抑えるが、大部分の癌を検出する、高い陽性的中率（ＰＰＶ）を有する検査であり得る。別の重要な要素は、検査感度と区別するための、いわゆる「検出感度」であり得、それは腫瘍の大きさに関する検出の下限である。残念ながら、腫瘍が検出に必要なレベルで循環腫瘍マーカーを放出するのに十分な大きさに成長するのを待つことは、治療が最も効果的である段階で腫瘍を治療するための早期検出の要件と矛盾する可能性がある。したがって、循環分析物に基づく早期結腸直腸癌の効果的な血液ベースのスクリーニングが必要とされている。

一態様では、本開示は、領域または遺伝子内のメチル化の分析に有用なメチル化領域のパネルを使用する方法を提供し、他の態様は、領域、遺伝子および遺伝子産物の新規な使用、ならびに結腸細胞増殖性障害の検出、区別および識別に関する方法、アッセイおよびキットを提供する。本明細書で提供される方法および核酸は、腺癌、腺腫、ポリープ、扁平上皮癌、カルチノイド腫瘍、肉腫およびリンパ腫からなる群から選択される結腸細胞増殖性障害の分析に使用され得る。

いくつかの実施形態では、方法は、メチル化領域からなる群より選択される１つまたは複数の遺伝子の、結腸細胞増殖性障害の識別、検出および区別のためのマーカーとしての使用を含む。遺伝子の使用は、本明細書に記載のメチル化領域およびそれらのプロモーターまたは調節エレメントから選択される１つまたは複数の遺伝子のメチル化状態の分析によって可能になり得る。

本開示の方法およびシステムは、本明細書に記載のメチル化領域による配列およびそれに相補的な配列の１つまたは複数におけるＣｐＧジヌクレオチドのメチル化状態の分析を含み得る。

Ｉ．定義
本明細書および特許請求の範囲で使用される場合、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈上他に明確に指示されない限り、複数の言及を含む。例えば、「核酸」という用語は、それらの混合物を含む複数の核酸を含む。

本明細書で使用される場合、「対象」という用語は、一般に、試験可能または検出可能な遺伝情報を有する実体または媒体を指す。対象は、人、個体、または患者であり得る。対象は、例えば哺乳動物などの脊椎動物であり得る。哺乳動物の非限定的な例としては、ヒト、サル、家畜、スポーツ動物、げっ歯動物およびペットが挙げられる。対象は、癌を有するかまたは癌を有すると疑われる人物であり得る。対象は、対象の健康または生理学的状態または状況、例えば、対象の癌または他の疾患、障害または状態を示す症候を呈する場合がある。代替として、対象は、そのような健康または生理学的な状態または状況に関して無症候であり得る。

本明細書で使用される場合、「試料」という用語は、一般に、１人以上の対象から得られるか、またはそれに由来する生物学的試料を指す。生物学的試料は、無細胞生物学的試料もしくは実質的に無細胞生物学的試料であり得るか、または処理もしくは分画化して無細胞生物学的試料を作製してもよい。例えば、無細胞生物学的試料は、無細胞リボ核酸（ｃｆＲＮＡ）、無細胞デオキシリボ核酸（ｃｆＤＮＡ）、無細胞胎児ＤＮＡ（ｃｆｆＤＮＡ）、血漿、血清、尿、唾液、羊水、およびそれらの誘導体を含み得る。無細胞生物学的試料は、エチレンジアミン四酢酸（ＥＤＴＡ）コレクションチューブ、無細胞ＲＮＡコレクションチューブ（例えば、Ｓｔｒｅｃｋ（登録商標））、または無細胞ＤＮＡコレクションチューブ（例えば、Ｓｔｒｅｃｋ（登録商標））を使用して対象から得るか、または対象に由来してもよい。無細胞生物学的試料は、分画（例えば、細胞成分および無細胞成分への遠心分離）によって全血試料から誘導され得る。生物学的試料またはその誘導体は、細胞を含有し得る。例えば、生物学的試料は、血液試料またはその誘導体（例えば、コレクションチューブによって収集された血液または血液滴）であり得る。

本明細書で使用される場合、「核酸」という用語は、一般に、デオキシリボヌクレオチド（ｄＮＴＰ）またはリボヌクレオチド（ｒＮＴＰ）、またはそれらの類似体のいずれかの、任意の長さのヌクレオチドのポリマー形態を指す。核酸は、任意の三次元構造を有することができ、既知または未知の任意の機能を果たすことができる。核酸の非限定的な例としては、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、遺伝子または遺伝子断片のコーディング領域または非コーディング領域、連鎖解析から定義される遺伝子座（１つの遺伝子座）、エクソン、イントロン、メッセンジャーＲＮＡ（ｍＲＮＡ）、トランスファーＲＮＡ、リボソームＲＮＡ、短鎖干渉ＲＮＡ（ｓｉＲＮＡ）、短鎖ヘアピンＲＮＡ（ｓｈＲＮＡ）、マイクロＲＮＡ（ｍｉＲＮＡ）、リボザイム、ｃＤＮＡ、組換え核酸、分岐核酸、プラスミド、ベクター、任意の配列の単離ＤＮＡ、任意の配列の単離ＲＮＡ、核酸プローブおよびプライマーが挙げられる。核酸は、１つまたは複数の修飾ヌクレオチド、例えばメチル化ヌクレオチドおよびヌクレオチド類似体を含み得る。存在する場合、ヌクレオチド構造に対する修飾は、核酸の構築の前または後に行われ得る。核酸のヌクレオチドの配列は、非ヌクレオチド成分によって中断され得る。核酸は、重合後に、例えばレポーター剤とのコンジュゲーションまたは結合によってさらに修飾され得る。

本明細書で使用される場合、「標的核酸」という用語は、一般に、その存在、量、および／もしくは配列、またはこれらの１つ以上の変化が決定されることが望ましいヌクレオチド配列を有する核酸分子の出発集団中の核酸分子を指す。標的核酸は、ＤＮＡ、ＲＮＡおよびそれらの類似体を含む任意のタイプの核酸であり得る。本明細書で使用される場合、「標的リボ核酸（ＲＮＡ）」は、一般に、ＲＮＡである標的核酸を指す。本明細書で使用される場合、「標的デオキシリボ核酸（ＤＮＡ）」は、一般に、ＤＮＡである標的核酸を指す。

本明細書で使用される場合、「増幅する」および「増幅」という用語は、一般に、核酸分子のサイズまたは量を増加させることを指す。核酸分子は、一本鎖または二本鎖であり得る。増幅は、核酸分子の１つ以上のコピーまたは「増幅産物」を生成することを含み得る。増幅は、例えば、伸長（例えば、プライマー伸長）またはライゲーションによって行われ得る。増幅は、プライマー伸長反応を実施して、一本鎖核酸分子に相補的な鎖を生成すること、および場合によっては、鎖および／または一本鎖核酸分子の１つまたは複数のコピーを生成することを含み得る。「ＤＮＡ増幅」という用語は、一般に、ＤＮＡ分子または「増幅ＤＮＡ産物」の１つまたは複数のコピーを生成することを指す。「逆転写増幅」という用語は、一般に、逆転写酵素の作用によるリボ核酸（ＲＮＡ）鋳型からのデオキシリボ核酸（ＤＮＡ）の生成を指す。

本明細書で使用される場合「無細胞核酸（ｃｆＮＡ）」という用語は、一般に、細胞に含まれない生物学的試料中の核酸（無細胞ＲＮＡ（「ｃｆＲＮＡ」）または無細胞ＤＮＡ（「ｃｆＤＮＡ」）など）を指す。ｃｆＤＮＡは、体液、例えば血流中で自由に循環することができる。

本明細書で使用される「無細胞試料」という用語は、一般に、インタクトな細胞を実質的に含まない生物学的試料を指す。これは、それ自体が細胞を実質的に含まない生物学的試料に由来し得るか、または細胞が除去された試料に由来し得る。無細胞試料の例は、血液由来のもの、例えば血清または血漿、尿、または他のソースに由来する試料、例えば、精液、痰、糞便、管滲出液、リンパ液、または回収された洗浄液を含む。

本明細書で使用される「循環腫瘍ＤＮＡ」という用語は、一般に、腫瘍に由来するｃｆＤＮＡを指す。

本明細書で使用される「ゲノム領域」という用語は、一般に、染色体中の位置によって同定される核酸の同定された領域を指す。いくつかの例において、ゲノム領域は、遺伝子名によって示され、核酸のその物理的領域に関連するコーディング領域および非コーディング領域を包含する。本明細書で使用される場合、遺伝子は、コーディング領域（エクソン）、非コーディング領域（イントロン）、転写制御または他の調節領域、およびプロモーターを含む。別の例では、ゲノム領域は、指定された遺伝子内にイントロンまたはエクソンまたはイントロン／エクソン境界を組み込んでもよい。

本明細書で使用される「ＣｐＧアイランド」という用語は、一般に、以下の基準を満たすゲノムＤＮＡの連続領域を指す。（１）約０．６を超える「観測／期待比」に対応するＣｐＧジヌクレオチドの頻度を有する、および（２）約０．５を超える「ＧＣ含量」を有する。ＣｐＧアイランドは、常にではないが、典型的には、約０．２～約３キロベース（ｋｂ）の長さであり、高い頻度のＣｐＧ部位を有する。ＣｐＧアイランドは、哺乳動物遺伝子の約４０％のプロモーターにおいて、またはその近傍に見出される。ＣｐＧアイランドは、哺乳動物遺伝子の外側にも見出される。いくつかの例では、ＣｐＧアイランドは、エクソン、イントロン、プロモーター、エンハンサー、阻害剤、および転写調節エレメントに見られる。ＣｐＧアイランドは、いわゆる「ハウスキーピング遺伝子」の上流に発生する傾向があり得る。ＣｐＧアイランドは、統計的に予想されるものの少なくとも約６０％のＣｐＧジヌクレオチド含量を有すると言われ得る。遺伝子の５’末端またはその上流におけるＣｐＧアイランドの発生は、転写の調節における役割を反映することができ、遺伝子のプロモーター内のＣｐＧ部位のメチル化は、サイレンシングをもたらすことができる。同様に、メチル化による腫瘍抑制因子のサイレンシングは、多くのヒト癌の顕著な特徴である。

本明細書で使用される「ＣｐＧショア」という用語は、一般に、メチル化も起こり得るＣｐＧアイランドから短距離に広がる領域を指す。ＣｐＧショアは、ＣｐＧアイランドの上流および下流の約０～２ｋｂの領域に見られ得る。

本明細書で使用される「ＣｐＧシェルフ」という用語は、一般に、メチル化も起こり得るＣｐＧショアから短距離に広がる領域を指す。ＣｐＧシェルフは、一般に、ＣｐＧアイランドの上流および下流の約２ｋｂ～４ｋｂの領域に見られ得る（例えば、ＣｐＧショアからさらに２ｋｂ延出する）。

本明細書で使用される「結腸細胞増殖性障害」という用語は、一般に、結腸または直腸内の細胞の無秩序または異常な増殖を含む障害または疾患を指す。いくつかの例において、結腸細胞増殖性障害は、腺腫（腺腫様ポリープ）、無茎性鋸歯状腺腫（ＳＳＡ）、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍（ＧＩＳＴ）、リンパ腫および肉腫からなる群より選択される。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。

本明細書で使用される「エピジェネティックパラメータ」という用語は、一般にシトシンメチル化を指す。さらなるエピジェネティックパラメータには、例えば、ヒストンのアセチル化が含まれ、これは、記載された方法を使用して直接分析することはできないが、順にＤＮＡメチル化と相関する。

本明細書で使用される「遺伝的パラメータ」という用語は、一般に、遺伝子および配列の、それらの調節にさらに必要とされる変異および多型を指す。変異の例としては、挿入、欠失、点変異、逆位、およびＳＮＰ（一塩基多型）などの多型が挙げられる。

本明細書で使用される「半メチル化」または「ヘミメチル化」という用語は、一般に、回文ＣｐＧメチル化部位のメチル化状態を指し、そこでは回文ＣｐＧメチル化部位の２つのＣｐＧジヌクレオチド配列の１つの中の単一のシトシンのみがメチル化されている（例えば、５’－ＣＣ^ＭＧＧ－３’（上の鎖）：３’－ＧＧＣＣ－５’（下の鎖））。

本明細書で使用される「高メチル化」という用語は、一般に、正常な対照ＤＮＡ試料内の対応するＣｐＧジヌクレオチドに見られる５－ｍＣの量と比較して、試験ＤＮＡ試料のＤＮＡ配列内の１つまたは複数のＣｐＧジヌクレオチドにおける５－ｍＣの存在の増加に対応する平均メチル化状態を指す。いくつかの実施形態では、試験ＤＮＡ試料は、結腸細胞増殖性障害を有する個体に由来する。

本明細書で使用される「低メチル化」という用語は、一般に、正常な対照ＤＮＡ試料内の対応するＣｐＧジヌクレオチドに見られる５－ｍＣの量と比較して、試験ＤＮＡ試料のＤＮＡ配列内の１つまたは複数のＣｐＧジヌクレオチドにおける５－ｍＣの存在の減少に対応する平均メチル化状態を指す。いくつかの実施形態では、試験ＤＮＡ試料は、結腸細胞増殖性障害を有する個体に由来する。

本明細書で使用される「メチル化状態」または「メチル化状況」という用語は、一般に、ＤＮＡ配列内の１つまたは複数のＣｐＧジヌクレオチドにおける５－メチルシトシン（「５－ｍＣ」）の存在または非存在を指す。ＤＮＡ配列内の１つまたは複数の特定の回文ＣｐＧメチル化部位（それぞれ２つのＣｐＧジヌクレオチド配列を有する）におけるメチル化状態には、「非メチル化」、「完全メチル化」および「半メチル化」が含まれる。

本明細書で使用される「メチル化シトシン」という用語は、一般に、５’位にメチルまたはヒドロキシメチル官能基を含む核酸塩基シトシンの任意のメチル化形態を指す。メチル化シトシンは、ゲノムＤＮＡにおける遺伝子転写の調節因子であることが知られている。この用語は、５－メチルシトシンおよび５－ヒドロキシメチルシトシンを含み得る。

本明細書で使用される「メチル化アッセイ」という用語は、一般に、ＤＮＡの配列内の１つ以上のＣｐＧジヌクレオチド配列のメチル化状態を決定するための任意のアッセイを指す。

本明細書で使用される「微小残存病変」または「ＭＲＤ」という用語は、一般に、癌治療後の体内の癌細胞の少ない数を指す。ＭＲＤ試験を実施して、癌治療が有効であるかどうかを判定し、さらなる治療計画を導くことができる。

本明細書で使用される「ＭＳＰ」（メチル化特異的ポリメラーゼ連鎖反応（ＰＣＲ））という用語は、一般にメチル化アッセイ、例えば、Ｈｅｒｍａｎｅｔａｌ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９３：９８２１－９８２６，１９９６、および米国特許第５，７８６，１４６号（各々の内容は、参照により本明細書に組み込まれる）に記載されるものを指す。

本明細書で使用される「メチル化変換された」または「変換された」核酸という用語は、一般に、メチル化シーケンシング用にＤＮＡを変換するために使用されるプロセスを受けた、例えばＤＮＡなどの核酸を指す。変換プロセスの例としては、試薬ベース（亜硫酸水素塩など）変換、酵素変換、または組み合わせ変換（ＴＥＴ支援ピリジンボランシーケンシング（ＴＡＰＳ）変換など）が挙げられ、非メチル化シトシンは、ＰＣＲ増幅またはシーケンシングの前にウラシルに変換される。変換プロセスをメチルシーケンシング法において使用して、メチル化シトシン塩基と非メチル化シトシン塩基とを識別することができる。

本明細書で使用される「癌においてメチル化された領域」という用語は、一般にメチル化部位（ＣｐＧジヌクレオチド）を含むゲノムのセグメントを指し、そのメチル化は悪性細胞状態に関連する。ある領域のメチル化は、２つ以上の異なるタイプの癌、または１つのタイプの癌と特異的に関連し得る。さらに、ある領域のメチル化は、２つ以上の癌サブタイプ、または１つの癌サブタイプと特異的に関連し得る。

癌「タイプ」および「サブタイプ」という用語は、一般に、乳癌などの癌の１つの「タイプ」が、例えば、ステージ、形態、組織学、遺伝子発現、受容体プロファイル、変異プロファイル、侵攻性、予後、悪性特性などに基づく「サブタイプ」であり得るように、本明細書では相対的に使用される。同様に、「タイプ」および「サブタイプ」を、より細かいレベルで適用して、例えば変異プロファイルまたは遺伝子発現に従って定義される、例えば１つの組織学的「タイプ」を「サブタイプ」に分化することができる。癌「ステージ」はまた、疾患進行に関する組織学的および病理学的特徴に基づく癌タイプの分類に言及するために使用される。

ＩＩ．試料のアッセイ
無細胞生物学的試料は、ヒト対象から得ても、またはそれに由来してもよい。無細胞生物学的試料は、処理前に様々な保存条件、例えば、異なる温度（例えば、室温、冷蔵または冷凍条件下、２５°Ｃ、４°Ｃ、－１８°Ｃ、－２０°Ｃ、または－８０°Ｃ）で、または異なる懸濁液（例えば、ＥＤＴＡコレクションチューブ、無細胞ＲＮＡコレクションチューブ、または無細胞ＤＮＡコレクションチューブ）で保存することができる。

無細胞生物学的試料は、癌を有する対象から、癌を有すると疑われる対象から、または癌を有しないもしくは有すると疑われない対象から得られ得る。

無細胞生物学的試料は、癌を有する対象の治療の前および／または後に採取され得る。無細胞生物学的試料は、治療または治療レジメン中の対象から得ることができる。複数の無細胞生物学的試料を対象から入手して、治療の効果を経時的にモニタリングすることができる。無細胞生物学的試料は、臨床試験によって確定的な陽性または陰性診断が利用できない癌を有することが知られているか、または疑われる対象から採取され得る。試料は、癌を有する疑いのある対象から採取され得る。無細胞生物学的試料は、疲労、吐き気、体重減少、疼きおよび疼痛、衰弱、または出血などの説明できない症状を経験している対象から採取され得る。無細胞生物学的試料は、説明された症状を有する対象から採取され得る。無細胞生物学的試料は、因子、例えば家族歴、年齢、高血圧症または前高血圧症、糖尿病または前糖尿病、過体重または肥満、環境曝露、生活習慣リスク因子（例えば、喫煙、アルコール摂取、または薬物使用）、または他のリスク因子の存在に起因して癌を発症するリスクがある対象から採取され得る。

無細胞生物学的試料は、アッセイされ得る１つまたは複数の分析物、例えば、アッセイしてトランスクリプトミクスデータを生成するのに適した無細胞リボ核酸（ｃｆＲＮＡ）分子、アッセイしてゲノムデータを生成するのに適した無細胞デオキシリボ核酸（ｃｆＤＮＡ）分子、またはそれらの混合物または組み合わせを含み得る。１つまたは複数のそのような分析物（例えば、ｃｆＲＮＡ分子および／またはｃｆＤＮＡ分子）は、１つまたは複数の適切なアッセイを使用する下流アッセイのために、対象の１つまたは複数の無細胞生物学的試料から単離または抽出され得る。

対象から無細胞生物学的試料を得た後、無細胞生物学的試料を処理して、対象の癌を示すデータセットを生成することができる。例えば、癌関連ゲノム遺伝子座のパネルにおける無細胞生物学的試料の核酸分子の存在、非存在または定量的評価（例えば、癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）。いくつかの実施形態では、対象から得られた無細胞生物学的試料を処理することは、（ｉ）無細胞生物学的試料を、複数の核酸分子を単離、富化または抽出するのに十分な条件に供すること、および（ｉｉ）複数の核酸分子をアッセイしてデータセットを生成することを含み得る。

いくつかの実施形態において、複数の核酸分子は、無細胞生物学的試料から抽出され、シーケンシングに供されて複数のシーケンシングリードが生成される。核酸分子は、リボ核酸（ＲＮＡ）またはデオキシリボ核酸（ＤＮＡ）を含み得る。核酸分子（例えば、ＲＮＡまたはＤＮＡ）は、様々な方法、例えば、ＭＰＢｉｏｍｅｄｉｃａｌｓ（登録商標）製のＦａｓｔＤＮＡ（登録商標）Ｋｉｔプロトコル、Ｑｉａｇｅｎ（登録商標）製のＱＩＡａｍｐ（登録商標）ＤＮＡ無細胞生物学的ミニキット、またはＮｏｒｇｅｎＢｉｏｔｅｋ（登録商標）製の無細胞生物学的ＤＮＡ単離キットプロトコルによって無細胞生物学的試料から抽出され得る。抽出方法は、試料からすべてのＲＮＡまたはＤＮＡ分子を抽出することができる。あるいは、抽出方法は、試料からＲＮＡまたはＤＮＡ分子の一部を選択的に抽出することができる。試料から抽出されたＲＮＡ分子は、逆転写（ＲＴ）によってＤＮＡ分子に変換され得る。

シーケンシングは、任意の適切なシーケンシング法、例えば大規模並列シーケンシング（ＭＰＳ）、ペアエンドシーケンシング、ハイスループットシーケンシング、次世代シーケンシング（ＮＧＳ）、ショットガンシーケンシング、単一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、パイロシーケンシング、合成によるシーケンシング（ＳＢＳ）、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、およびＲＮＡ－Ｓｅｑ（登録商標）（Ｉｌｌｕｍｉｎａ（登録商標））によって実施され得る。

シーケンシングは、（例えば、ＲＮＡまたはＤＮＡ分子の）核酸増幅を含み得る。いくつかの実施形態では、核酸増幅はポリメラーゼ連鎖反応（ＰＣＲ）である。適切な回数のＰＣＲ（例えば、ＰＣＲ、ｑＰＣＲ、逆転写酵素ＰＣＲ、デジタルＰＣＲなど）を実施して、初期量の核酸（例えば、ＲＮＡまたはＤＮＡ）をその後のシーケンシングのための所望の入力量まで十分に増幅することができる。いくつかのケースでは、ＰＣＲは、標的核酸の全体的な増幅に使用され得る。これは、最初に異なる分子にライゲーションされ得るアダプター配列を使用すること、続いてユニバーサルプライマーを使用してＰＣＲ増幅することを含み得る。ＰＣＲは、例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ（登録商標）、Ａｆｆｙｍｅｔｒｉｘ（登録商標）、Ｐｒｏｍｅｇａ（登録商標）、Ｑｉａｇｅｎ（登録商標）などによって提供される多くの市販のキットのいずれかを使用して行うことができる。他のケースでは、核酸の集団内の特定の標的核酸のみが増幅され得る。特異的プライマーは、おそらくはアダプターライゲーションと組み合わせて使用して、下流シーケンシングのために特定の標的を選択的に増幅することができる。ＰＣＲは、癌に関連するゲノム遺伝子座などの１つまたは複数のゲノム遺伝子座の標的化された増幅を含み得る。シーケンシングは、同時逆転写（ＲＴ）およびポリメラーゼ連鎖反応（ＰＣＲ）、例えばＱｉａｇｅｎ（登録商標）、ＮＥＢ（登録商標）、ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ（登録商標）またはＢｉｏ－Ｒａｄ（登録商標）によるＯｎｅＳｔｅｐＲＴ－ＰＣＲキットプロトコルの使用を含み得る。

無細胞生物学的試料から単離または抽出されたＲＮＡまたはＤＮＡ分子は、例えば識別可能なタグでタグ付けされ、複数の試料の多重化を可能にすることができる。任意の数のＲＮＡまたはＤＮＡ試料を多重化することができる。例えば、多重化反応は、少なくとも約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、または１００を超える最初の無細胞生物学的試料からのＲＮＡまたはＤＮＡを含有し得る。例えば、複数の無細胞生物学的試料は、各ＤＮＡ分子が、ＤＮＡ分子の起源となった試料（および対象）まで遡ることができるように、試料バーコードでタグ付けされ得る。そのようなタグは、ライゲーションまたはプライマーを用いたＰＣＲ増幅によってＲＮＡまたはＤＮＡ分子に結合され得る。

核酸分子をシーケンシングに供した後、適切なバイオインフォマティクスプロセスを配列リードに対して実行して、癌の存在、非存在、または相対評価を示すデータを生成することができる。例えば、配列リードは、１つまたは複数の参照ゲノム（例えば、１つまたは複数の種のゲノム、例えばヒトゲノム、例えばｈｇ１９）にアラインメントされ得る。アライメントされた配列リードを１つまたは複数のゲノム遺伝子座で定量して、癌を示すデータセットを生成することができる。例えば、癌に関連する複数のゲノム遺伝子座に対応する配列の定量化は、癌を示すデータセットを生成し得る。

無細胞生物学的試料は、核酸抽出を行わずに処理してもよい。例えば、癌は、複数の癌関連ゲノム遺伝子座に対応する核酸（例えば、ＲＮＡまたはＤＮＡ）分子を選択的に富化するように構成されたプローブを使用することによって、対象において特定またはモニタリングされ得る。プローブは核酸プライマーであり得る。プローブは、複数の癌関連ゲノム遺伝子座またはゲノム領域のうちの１つ以上からの核酸配列との配列相補性を有し得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも約２５、少なくとも約３０、少なくとも約３５、少なくとも約４０、少なくとも約４５、少なくとも約５０、少なくとも約５５、少なくとも約６０、少なくとも約６５、少なくとも約７０、少なくとも約７５、少なくとも約８０、少なくとも約８５、少なくとも約９０、少なくとも約９５、少なくとも約１００、またはそれ以上の異なる癌関連ゲノム遺伝子座またはゲノム領域を含み得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、表１～１１に列挙される群から選択される１つ以上のメンバー（例えば、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、約２５、約３０、約３５、約４０、約４５、約５０、約５５、約６０、約６５、約７０、約７５、約８０、またはそれ以上）を含み得る。癌関連ゲノム遺伝子座またはゲノム領域は、癌の様々なステージまたはサブタイプ（例えば、結腸直腸癌）に関連し得る。

プローブは、１つまたは複数のゲノム遺伝子座（例えば、癌関連ゲノム遺伝子座）の核酸配列（例えば、ＲＮＡまたはＤＮＡ）と配列相補性を有する核酸分子（例えば、ＲＮＡまたはＤＮＡ）であり得る。これらの核酸分子は、プライマーまたは富化配列であり得る。１つまたは複数のゲノム遺伝子座（例えば、癌関連ゲノム遺伝子座）に選択的なプローブを使用した無細胞生物学的試料のアッセイは、アレイハイブリダイゼーション（例えば、マイクロアレイベース）、ポリメラーゼ連鎖反応（ＰＣＲ）または核酸シーケンシング（例えば、ＲＮＡシーケンシングまたはＤＮＡシーケンシング）の使用を含み得る。いくつかの実施形態では、ＤＮＡまたはＲＮＡは、等温ＤＮＡ／ＲＮＡ増幅法（例えば、ループ媒介等温増幅（ＬＡＭＰ）、ヘリカーゼ依存性増幅（ＨＤＡ）、ローリングサークル増幅（ＲＣＡ）、リコンビナーゼポリメラーゼ増幅（ＲＰＡ））、イムノアッセイ、電気化学アッセイ、表面増強ラマン分光法（ＳＥＲＳ）、量子ドット（ＱＤ）ベースのアッセイ、分子反転プローブ、液滴デジタルＰＣＲ（ｄｄＰＣＲ）、ＣＲＩＳＰＲ／Ｃａｓベースの検出（例えば、ＣＲＩＳＰＲタイピングＰＣＲ（ｃｔＰＣＲ）、特異的高感度酵素的レポーターアンロッキング（ＳＨＥＲＬＯＣＫ）、ＤＮＡエンドヌクレアーゼ標的化ＣＲＩＳＰＲトランスレポーター（ＤＥＴＥＣＴＲ）およびＣＲＩＳＰＲ媒介性アナログマルチイベント記録装置（ＣＡＭＥＲＡ））、およびレーザー透過分光法（ＬＴＳ）のうちの１つまたは複数によってアッセイされ得る。

アッセイの読み出しを１つまたは複数のゲノム遺伝子座（例えば、癌関連ゲノム遺伝子座）で定量して、癌を示すデータを生成することができる。例えば、複数のゲノム遺伝子座（例えば、癌関連ゲノム遺伝子座）に対応するアレイハイブリダイゼーションまたはポリメラーゼ連鎖反応（ＰＣＲ）の定量化は、癌を示すデータを生成し得る。アッセイ読み出しは、定量ＰＣＲ（ｑＰＣＲ）値、デジタルＰＣＲ（ｄＰＣＲ）値、デジタル液滴ＰＣＲ（ｄｄＰＣＲ）値、蛍光値、他、またはそれらの正規化された値を含み得る。アッセイは、家庭環境で行われるように構成されたホームユーステストであり得る。

いくつかの実施形態では、複数のアッセイを使用して、対象の無細胞生物学的試料を同時に処理することができる。例えば、第１のアッセイを使用して、対象から得られた、または対象に由来する第１の無細胞生物学的試料を処理して、癌を示す第１のデータセットを生成することができる。第１のアッセイとは異なる第２のアッセイを使用して、対象から得られた、または対象に由来する第２の無細胞生物試料を処理して、癌を示す第２のデータセットを生成することができる。次いで、第１のデータセットおよび第２のデータセットのいずれかまたはすべてを分析して、対象の癌を評価することができる。例えば、第１のデータセットと第２のデータセットとの組み合わせに基づいて、単一の診断指標または診断スコアを生成することができる。別の例として、第１のデータセットおよび第２のデータセットに基づいて、別個の診断指標または診断スコアを生成することができる。

無細胞生物学的試料は、メチル化特異的アッセイを使用して処理することができる。例えば、メチル化特異的アッセイを使用して、対象の無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれのメチル化の定量的測定値（例えば、存在、非存在、または相対量の表示）を特定することができる。メチル化特異的アッセイは、対象の血液試料または尿試料（またはそれらの誘導体）などの無細胞生物学的試料を処理するように構成され得る。無細胞生物学的試料中の癌関連ゲノム遺伝子座のメチル化の定量的測定値（例えば、存在、非存在、または相対量の表示）は、１つ以上の癌を示し得る。メチル化特異的アッセイを使用して、対象の無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれのメチル化の定量的測定値（例えば、存在、非存在、または相対量の表示）を示すデータセットを生成することができる。

メチル化特異的アッセイは、例えば、メチル化認識シーケンシング（例えば、亜硫酸水素塩処理を使用する）、パイロシーケンシング、メチル化感受性一本鎖配座解析（ＭＳ－ＳＳＣＡ）、高分解像度融解分析（ＨＲＭ）、メチル化感受性一本鎖プライマー伸長（ＭＳ－ＳｎｕＰＥ）、塩基特異的切断／ＭＡＬＤＩ－ＴＯＦ、マイクロアレイベースのメチル化アッセイ、メチル化特異的ＰＣＲ、標的亜硫酸水素塩シーケンシング、酸化亜硫酸水素塩シーケンシング、質量分析に基づく亜硫酸水素塩シーケンシング、または縮小表現（ｒｅｄｕｃｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ）亜硫酸水素塩シーケンシング（ＲＲＢＳ）のうちの１つまたは複数を含み得る。

ＩＩＩ．シグネチャパネル
本開示は、生物学的試料を分析して、結腸細胞増殖性障害の発症に関連する試料中のＤＮＡ中の高メチル化領域の組み合わせから測定可能な特徴を得て、領域のシグネチャパネルを同定する方法およびシステムを提供する。シグネチャパネルからの特徴を、トレーニングされたアルゴリズム（例えば、機械学習モデル）を使用して処理して、結腸細胞増殖性障害を有する個体の集団を階層化するように構成された分類子を作成することができる。方法は、シーケンシングの前に同定された領域内のメチル化ＣｐＧジヌクレオチドと非メチル化ＣｐＧジヌクレオチドとを識別することができる試薬または一連の試薬と接触させられる、シグネチャパネルに記載されるメチル化領域を有する１つ以上の核酸を使用することを特徴とする。

本明細書に記載のシグネチャパネルは、一般に、無細胞核酸試料で特定され、結腸細胞増殖性障害に関連する試料中のシトシン塩基でのメチル化の増加を示すゲノムＤＮＡの標的領域の集合を指す。シグネチャパネルの形成は、結腸細胞増殖性障害に関連する特定のメチル化領域の迅速かつ特異的な分析を可能にする。本明細書の方法において記載され、使用されるシグネチャパネルは、結腸細胞増殖性障害の診断、予後、治療選択およびモニタリング（例えば、治療モニタリング）の改善に使用され得る。

本開示のシグネチャパネルおよび方法は、全血、血漿または血清などの体液試料から初期結腸細胞増殖性障害を検出するために使用されるマーカーまたはシグネチャパネルの必要性への対処において、現在のアプローチを超える有意な改善を提供し得る。結腸細胞増殖性障害を検出および診断するために使用される現在の方法には、大腸内視鏡検査、Ｓ状結腸鏡検査、および便潜血結腸癌が含まれる。これらの方法と比較して、本明細書で提供される方法は、大腸内視鏡検査よりもはるかに侵襲性が低く、感度はＳ状結腸鏡検査、便免疫化学検査（ＦＩＴ）、および便潜血検査（ＦＯＢＴ）よりも少なくとも同等であるか、またはより高い可能性がある。これらのマーカーの現在の使用と比較して、本明細書で提供される方法は、遺伝子パネルおよび高感度アッセイ技術を使用する有利な組み合わせによって、感度および特異性に関して有意な利点を提供し得る。

いくつかの実施形態では、癌においてメチル化された領域は、ＣｐＧアイランドを含む。いくつかの実施形態では、癌においてメチル化された領域は、ＣｐＧショアを含む。いくつかの実施形態では、癌においてメチル化された領域は、ＣｐＧシェルフを含む。いくつかの実施形態では、癌においてメチル化された領域は、ＣｐＧアイランドおよびＣｐＧショアを含む。いくつかの実施形態では、癌においてメチル化された領域は、ＣｐＧアイランド、ＣｐＧショアおよびＣｐＧシェルフを含む。

いくつかの実施形態では、癌においてメチル化された領域は、ＣｐＧアイランド、ならびに約０～４キロベース（ｋｂ）上流および下流の配列を含む。癌においてメチル化された領域はまた、ＣｐＧアイランドならびに約０～３ｋｂ上流および下流、約０～２ｋｂ上流および下流、約０～１ｋｂ上流および下流、約０～５００塩基対（ｂｐ）上流および下流、約０～４００ｂｐ上流および下流、約０～３００ｂｐ上流および下流、約０～２００ｂｐ上流および下流、または約０～１００ｂｐ上流および下流の配列を含み得る。

いくつかの例によれば、癌において高メチル化された領域の選択において、いくつかの設計パラメータが考慮され得る。ある特定の例において、メチル化領域は、約２００ｂｐ、約３００ｂｐ、約４００ｂｐまたは約５００ｂｐの長さである。この選択プロセス用のデータは、様々なソース、例えば、広範囲の癌のための、例えばＩｌｌｕｍｉｎａ（登録商標）ＩｎｆｉｎｉｕｍＨｕｍａｎＭｅｔｈｙｌａｔｉｏｎ４５０ＢｅａｄＣｈｉｐの使用によって誘導されるＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）（ｃａｎｃｅｒｇｅｎｏｍｅ．ｎｉｈ．ｇｏｖ）から、または例えば亜硫酸水素塩全ゲノムシーケンシングもしくは他の方法論に基づく他のソースから得ることができる。いくつかの実施形態では、（同様に約－０．５～０．５の範囲のベータ値に由来する、ＴＣＧＡレベル３のメチル化データに由来し得る）「メチル化値」を使用して領域を選択することができる。いくつかの実施形態において、増幅は、正常供給物において約－０．３未満のメチル化値を有する少なくとも１つのメチル化部位を増幅するように設計されたプライマーセットを用いて行われる。これは、複数の、例えば約４個の正常組織試料において確立され得る。メチル化値は、約－０．１、約－０．２、約－０．３、約－０．４、約－０．５、約－０．６、約－０．７、約－０．８、約－０．９または約－１．０であるか、またはそれら未満であり得る。

いくつかの実施形態において、プライマーセットは、癌における平均メチル化値と正常組織における平均メチル化値との差が所定の閾値、例えば、約０．３を超える、少なくとも１つのメチル化部位を増幅するように設計される。いくつかの実施形態において、差は、約０．１、約０．２、約０．３、約０．４、約０．５、約０．６、約０．７、約０．８、約０．９または約１．０を超えてもよい。この要件を満たす他のメチル化部位の近接性もまた、いくつかの例では、領域の選択において役割を果たし得る。いくつかの実施形態において、プライマーセットは、約２００ｂｐ以内に少なくとも１つのメチル化部位を有する少なくとも１つのメチル化部位を増幅するプライマー対を含み、ここでも、正常供給物において約－０．３未満のメチル化値を有し、癌における平均メチル化値と正常組織における平均メチル化値との差が約０．３を超える。

いくつかの例において、ある領域におけるメチル化が、１人以上の健康な個体（例えば、癌を有さない個体）から得られる試料の同じ領域におけるメチル化よりも大きい場合、標的領域が選択される。そのような選択は、手動でまたは計算的に実行されてもよい。特定の例では、領域は、健康な個体からの試料よりも少なくとも約５％、約１０％、約１５％、約２０％、約３０％、約４０％、約５０％、約５５％、約６０％、約６５％、約７０％、約７５％、約８０％、約８５％、約９０％、約９５％、約１００％、または約１００％超、多いメチル化を有する場合に選択され得る。別の例では、所定の閾値メチル化ＣｐＧカウントで疾患試料中の領域にマッピングされたリードの数が、健康な個体試料中の同じ領域についての同じ所定の閾値メチル化ＣｐＧカウントを超える場合、領域が選択され得る。健康な試料においてベースライン閾値として使用されるメチル化ＣｐＧカウントは、所与の領域で変化し得るが、その領域にマッピングするリードの数が、健康な試料におけるその領域についてのメチル化ＣｐＧカウントのベースライン閾値を超えることは、閾値ＣｐＧカウントの変動に関係なく重要な領域を示し得る。

いくつかの例において、標的領域は、その部位においてメチル化を有するバリデーションセットにおける試料数に基づいて、増幅のために選択され得る。例えば、領域は、健康な個体からの試料と比較して、疾患個体からの試験された試料の少なくとも約５％、約１０％、約１５％、約２０％、約２５％、約３０％、約３５％、約４０％、約４５％、約５０％、約５５％、約６０％、約６５％、約７０％、約７５％、約８０％、約８５％、約９０％、約９５％、約９６％、約９７％、約９８％、または約９９％においてメチル化の程度が高い場合に選択され得る。例えば、領域は、特定のサブタイプ内を含めて、試験された腫瘍の少なくとも約７５％においてメチル化されている場合に選択され得る。いくつかのバリデーションのために、腫瘍由来細胞株を試験に使用することができる。

本開示は、本明細書に記載のシグネチャパネルならびにそれらのプロモーターおよび調節エレメントからなる群から選択される１つまたは複数の遺伝子の、遺伝的および／またはエピジェネティックパラメータを確認するためのアッセイを行う方法をさらに提供する。いくつかの実施形態では、以下の方法によるアッセイは、本明細書に記載されるシグネチャパネルからなる群から選択される１つまたは複数の遺伝子内のメチル化を検出するために使用され、前記メチル化核酸は、過剰のバックグラウンドＤＮＡをさらに含む溶液中に存在し、バックグラウンドＤＮＡは、検出されるＤＮＡの濃度の約１００～１０００倍、約１００～１００００倍、約１００～１０００００倍、約１０００～１００００倍、約１０００～１０００００倍、または約１００００～１０００００倍で存在する。いくつかの実施形態において、検出されるＤＮＡの濃度は、バックグラウンドＤＮＡ濃度の約１０００００倍より高い。いくつかの実施形態では、方法は、対象から得られた核酸試料を少なくとも１つの試薬または一連の試薬（例えば、標的核酸内のメチル化ＣｐＧジヌクレオチドと非メチル化ＣｐＧジヌクレオチドとを識別する）と接触させることを含む。

本明細書に記載される場合、腫瘍または直腸細胞増殖性障害は、結腸細胞増殖性障害は、腺腫（腺腫様ポリープ）、無茎性鋸歯状腺腫（ＳＳＡ）、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍（ＧＩＳＴ）、リンパ腫および肉腫からなる群より選択され得る。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。

情報を提供するメチル化領域を含むシグネチャパネルは、意図されるアッセイの目的に従って選択され得る。標的化された方法のために、プライマー対を意図された標的領域のセットに基づいて設計することができる。いくつかの実施形態では、領域のセットは、表１に列挙された領域のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上を含む。いくつかの実施形態では、領域のセットは、表１に列挙されたすべての領域を含む。

いくつかの実施形態では、結腸直腸癌に関連するメチル領域のセットは、表１から選択される。

いくつかの実施形態では、癌パネルは、ＩＴＧＡ４、ＥＭＢＰ１、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ１、ＺＮＦ５４３、ＳＦＭＢＴ２、ＣＨＳＴ１０、ＣＣＮＡ１、ＢＥＮＤ４、ＫＲＢＡ１、Ｓ１ＰＲ１、ＰＰＰ１Ｒ１６Ｂ、ＩＫＺＦ１、ＬＯＮＲＦ２、ＺＦＰ８２、およびＦＬＴ３のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される領域を含む（例えば、腫瘍は結腸直腸癌である）。いくつかの実施形態では、癌パネルは、表１に列挙されたすべての領域を含む。いくつかの実施形態では、プローブは、ＩＴＧＡ４、ＥＭＢＰ１、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ１、ＺＮＦ５４３、ＳＦＭＢＴ２、ＣＨＳＴ１０、ＣＣＮＡ１、ＢＥＮＤ４、ＫＲＢＡ１、Ｓ１ＰＲ１、ＰＰＰ１Ｒ１６Ｂ、ＩＫＺＦ１、ＬＯＮＲＦ２、ＺＦＰ８２、およびＦＬＴ３のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される配列を対象とする。

いくつかの実施形態では、方法は、メチル化シグナルを定量することをさらに含み、所定の閾値を超える数は、結腸細胞増殖性障害を示す。いくつかの実施形態では、定量および比較することは、結腸細胞増殖性障害においてメチル化された部位の各々について独立して行われる。したがって、陽性腫瘍シグナルのカウントを各部位について確立することができる。いくつかの実施形態では、方法は、腫瘍シグナルを含有するシーケンシングリードの割合を決定することをさらに含み、閾値を超える割合は結腸細胞増殖性障害を示す。いくつかの実施形態では、決定することは、結腸細胞増殖性障害においてメチル化された部位の各々について独立して行われる。

本明細書で使用される「閾値」という用語は、一般に、２つの対象集団を区別、分離、または識別するために選択される値を指す。いくつかの実施形態において、閾値は、疾患（例えば、悪性）状態と非疾患（例えば、健康）状態との間でメチル化状態を区別する。いくつかの実施形態では、閾値は、疾患のステージ（例えば、ステージ１、ステージ２、ステージ３、またはステージ４）を区別する。閾値は、問題の疾患に従って設定されてもよく、例えばトレーニングセットの以前の分析に基づいてもよく、または既知の特徴（例えば、健康、疾患または疾患のステージ）を有する入力のセットに対して計算的に決定されてもよい。特定部位のメチル化の予測値に応じて、遺伝子領域に閾値を設定してもよい。閾値はメチル化部位ごとに異なっていてもよく、複数の部位からのデータが最終分析において組み合わされてもよい。

前述の方法のいくつかの実施形態では、癌パネルは、ＩＴＧＡ４、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ１、ＺＮＦ５４３、ＣＨＳＴ１０、ＣＣＮＡ１、ＢＥＮＤ４、ＫＲＢＡ１、Ｓ１ＰＲ１およびＰＰＰ１Ｒ１６Ｂの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される領域を含む（例えば、腫瘍は結腸直腸癌である）いくつかの実施形態では、癌パネルは、表２に列挙された１つ以上の領域を含む。いくつかの実施形態では、プローブは、ＩＴＧＡ４、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ１、ＺＮＦ５４３、ＣＨＳＴ１０、ＣＣＮＡ１、ＢＥＮＤ４、ＫＲＢＡ１、Ｓ１ＰＲ１、およびＰＰＰ１Ｒ１６Ｂのうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される配列を対象とする。

いくつかの実施形態では、癌パネルは、ＥＭＢＰ１、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ１、ＺＮＦ５４３、ＣＨＳＴ１０、ＣＣＮＡ１、ＢＥＮＤ４、ＫＲＢＡ１、Ｓ１ＰＲ１およびＰＰＰ１Ｒ１６Ｂの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される領域を含む（例えば、腫瘍は結腸直腸癌である）。いくつかの実施形態では、癌パネルは、表３に列挙された１つ以上の領域を含む。いくつかの実施形態では、プローブは、ＥＭＢＰ１、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ１、ＺＮＦ５４３、ＣＨＳＴ１０、ＣＣＮＡ１、ＢＥＮＤ４、ＫＲＢＡ１、Ｓ１ＰＲ１、およびＰＰＰ１Ｒ１６Ｂのうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される配列を対象とする。

いくつかの実施形態では、癌パネルは、ＩＴＧＡ４、ＥＭＢＰ１、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ１、ＺＮＦ５４３、ＣＨＳＴ１０、ＣＣＮＡ１、ＢＥＮＤ４、ＫＲＢＡ１、およびＳ１ＰＲ１の少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される領域を含み、腫瘍は結腸直腸癌である。いくつかの実施形態では、癌パネルは、表４に列挙された１つ以上の領域を含む。いくつかの実施形態では、プローブは、ＩＴＧＡ４、ＥＭＢＰ１、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ１、ＺＮＦ５４３、ＣＨＳＴ１０、ＣＣＮＡ１、ＢＥＮＤ４、ＫＲＢＡ１、およびＳ１ＰＲ１のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される配列を対象とする。

いくつかの実施形態では、癌パネルは、ＩＴＧＡ４、ＥＭＢＰ１、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ１、およびＺＮＦ５４３の少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される領域を含み、腫瘍は結腸直腸癌である。いくつかの実施形態では、癌パネルは、表５に列挙されたすべての領域を含む。いくつかの実施形態では、プローブは、ＩＴＧＡ４、ＥＭＢＰ１、ＴＭＥＭ１６３、ＳＦＭＢＴ２、ＥＬＭＯ１、およびＺＮＦ５４３１のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される配列を対象とする。

いくつかの実施形態では、癌パネルは、領域ＩＴＧＡ４およびＥＭＢＰ１の１つまたは複数を含む（例えば、腫瘍は結腸直腸癌である）。いくつかの実施形態では、癌パネルは、表６に列挙された１つ以上の領域を含む。いくつかの実施形態において、プローブは、ＩＴＧＡ４およびＥＭＢＰ１を含む配列を対象とする。

前述の方法のいくつかの実施形態では、癌パネルは、ＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢ、ＦＬＩ１、ＣＬＩＰ４、ＥＬＯＶＬ５、ＦＡＭ７２Ｂ、ＳＴ３ＧＡＬ１、ＺＥＢ２ＮＲ３Ｃ１、ＩＴＧＡ４、ＧＡＬＮＴ１４、ＣＨＳＴ１１、ＰＰＰ１Ｒ１６Ｂ、ＭＧＡＴ３、ＺＮＦ２６４、ＢＥＮＤ４、ＩＲＦ４、ＬＯＣ１００１３０９９２、ＣＨＳＴ１１、ＣＨＳＴ１５、ＲＡＳＳＦ２、ＥＭＩＬＩＮ２、ＴＭＥＭ１６３、ＣＨＳＴ１０、およびＨＣＫのうちの少なくとも１つ、少なくとも２、少なくとも３つ、または３つ以上から選択される領域を含む（例えば、腫瘍は結腸直腸癌である）。いくつかの実施形態では、癌パネルは、表７に列挙された１つ以上の領域を含む。いくつかの実施形態では、プローブは、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢ、ＦＬＩ１、ＣＬＩＰ４、ＥＬＯＶＬ５、ＦＡＭ７２Ｂ、ＳＴ３ＧＡＬ１、ＺＥＢ２ＮＲ３Ｃ１、ＩＴＧＡ４、ＧＡＬＮＴ１４、ＣＨＳＴ１１、ＰＰＰ１Ｒ１６Ｂ、ＭＧＡＴ３、ＺＮＦ２６４、ＢＥＮＤ４、ＩＲＦ４、ＬＯＣ１００１３０９９２、ＣＨＳＴ１１、ＣＨＳＴ１５、ＲＡＳＳＦ２、ＥＭＩＬＩＮ２、ＴＭＥＭ１６３、ＣＨＳＴ１０、およびＨＣＫのうちの少なくとも１つ、少なくとも２、少なくとも３つ、または３つ以上から選択される配列を対象とする。

前述の方法のいくつかの実施形態では、癌パネルは、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢ、ＦＬＩ１、ＣＬＩＰ４、ＥＬＯＶＬ５、ＦＡＭ７２Ｂ、ＳＴ３ＧＡＬ１、ＺＥＢ２ＮＲ３Ｃ１、ＩＴＧＡ４、ＧＡＬＮＴ１４、ＣＨＳＴ１１、ＰＰＰ１Ｒ１６Ｂ、ＭＧＡＴ３、ＺＮＦ２６４、ＢＥＮＤ４、およびＩＲＦ４のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される領域を含む（例えば、腫瘍は結腸直腸癌である）。いくつかの実施形態では、癌パネルは、表８に列挙された１つ以上の領域を含む。いくつかの実施形態では、プローブは、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢ、ＦＬＩ１、ＣＬＩＰ４、ＥＬＯＶＬ５、ＦＡＭ７２Ｂ、ＳＴ３ＧＡＬ１、ＺＥＢ２ＮＲ３Ｃ１、ＩＴＧＡ４、ＧＡＬＮＴ１４、ＣＨＳＴ１１、ＰＰＰ１Ｒ１６Ｂ、ＭＧＡＴ３、ＺＮＦ２６４、ＢＥＮＤ４、およびＩＲＦ４のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される配列を対象とする。

前述の方法のいくつかの実施形態では、癌パネルは、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢ、ＦＬＩ１、ＣＬＩＰ４、ＥＬＯＶＬ５、ＦＡＭ７２Ｂ、およびＳＴ３ＧＡＬ１のうちの少なくとも１つ、少なくとも２、少なくとも３つ、または３つ以上から選択される領域を含む（例えば、腫瘍は結腸直腸癌である）。いくつかの実施形態では、癌パネルは、表９に列挙された１つ以上の領域を含む。いくつかの実施形態では、プローブは、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢ、ＦＬＩ１、ＣＬＩＰ４、ＥＬＯＶＬ５、ＦＡＭ７２Ｂ、およびＳＴ３ＧＡＬ１のうちの少なくとも１つ、少なくとも２、少なくとも３つ、または３つ以上から選択される配列を対象とする。

前述の方法のいくつかの実施形態では、癌パネルは、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢ、およびＦＬＩ１のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される領域を含む（例えば、腫瘍は結腸直腸癌である）。いくつかの実施形態では、癌パネルは、表１０に列挙された１つ以上の領域を含む。いくつかの実施形態では、プローブは、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢ、およびＦＬＩ１のうちの少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ以上から選択される配列を対象とする。

前述の方法のいくつかの実施形態では、癌パネルは、ＩＫＺＦ１、ＫＣＮＱ５、およびＥＬＭＯ１のうちの少なくとも１つ、少なくとも２つ、または少なくとも３つから選択される領域を含む（例えば、腫瘍は結腸直腸癌である）。いくつかの実施形態では、癌パネルは、表１１に列挙された１つ以上の領域を含む。いくつかの実施形態では、プローブは、ＩＫＺＦ１、ＫＣＮＱ５、およびＥＬＭＯ１のうちの少なくとも１つ、少なくとも２つ、または少なくとも３つから選択される配列を対象とする。

一態様において、本開示は、生物学的特徴を示すメチル化シグネチャを特定するための方法を提供し、方法は、ゲノムメチル化データセットであって、結腸細胞増殖性障害状態に関連し、各々が対応する試料についての生物学的情報に関連する複数のゲノムメチル化データセットを含む集団についてのデータを得ること、メチル化データセットを、生物学的特徴を有する１つの組織または細胞型に対応する第１の群と、生物学的特徴を有しない複数の組織または細胞型に対応する第２の群とに分離すること、第１の群からのメチル化データを第２の群からのメチル化データと部位ごとにマッチングすること、第１の群と第２の群との間で差次的メチル化を確立するための所定の閾値を満たすＣｐＧ部位のセットを、ゲノム全体で部位ごとに特定すること、ＣｐＧ部位のセットを用いて、所定の基準を満たす約３０～３００ｂｐ以内の差次的メチル化ＣｐＧを少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つ超含む標的ゲノム領域を特定して、結腸細胞増殖性障害の存在に関連する生物学的特徴を示すメチル化シグネチャを提供する差次的メチル化ゲノム領域を特定すること、を含む。

いくつかの例において、標的ゲノム領域は、約３０～１５０ｂｐ、約４０～１５０ｂｐ、約５０～１５０ｂｐ、約７５～１５０ｂｐ、約１００～１５０ｂｐ、約１５０～３００ｂｐ、約１５０～２５０ｂｐ、約１５０～２００ｂｐ、約２００～３００ｂｐまたは約２５０～３００ｂｐの長さを有する領域内に少なくとも１つ、少なくとも２つ、少なくとも３つまたは３つを超える差次的メチル化ＣｐＧ部位を含む。

いくつかの例において、標的ゲノム領域は、少なくとも４つの差次的にメチル化されたＣｐＧ部位、少なくとも４つの差次的にメチル化されたＣｐＧ部位、少なくとも５つの差次的にメチル化されたＣｐＧ部位、少なくとも６つの差次的にメチル化されたＣｐＧ部位、少なくとも７つの差次的にメチル化されたＣｐＧ部位、少なくとも８つの差次的にメチル化されたＣｐＧ部位、少なくとも９つの差次的にメチル化されたＣｐＧ部位、少なくとも１０個の差次的にメチル化されたＣｐＧ部位、少なくとも１２個の差次的にメチル化されたＣｐＧ部位、または少なくとも１５個の差次的にメチル化されたＣｐＧ部位を含む。

いくつかの実施形態において、方法は、生物学的形質を有する少なくとも１つの独立した試料由来のＤＮＡ、および生物学的試料を有さない少なくとも１つの独立した試料由来のＤＮＡを使用して、伸長された標的ゲノム領域内の差次的メチル化について試験することによって、伸長された標的ゲノム領域をバリデーションすることをさらに含む。

いくつかの実施形態では、特定することは、ＣｐＧ部位のセットを、参照または対照試料からの末梢血単核細胞との差次的メチル化をさらに示すＣｐＧ部位に限定することをさらに含む。

いくつかの実施形態において、所定の閾値は、第１の群における少なくとも約５０％のメチル化である。

いくつかの実施形態において、所定の閾値は、少なくとも約０．３の、第１の群と第２の群との間の平均メチル化の差である。

いくつかの実施形態では、生物学的形質は悪性腫瘍を含む。

いくつかの実施形態では、生物学的形質は癌タイプを含む。

いくつかの実施形態では、生物学的形質は癌ステージを含む。

いくつかの実施形態では、生物学的形質は癌分類を含む。

いくつかの実施形態では、癌分類は癌等級を含む。

いくつかの実施形態では、癌分類は組織学的分類を含む。

いくつかの実施形態では、生物学的形質は、代謝プロファイルを含む。

いくつかの実施形態では、生物学的形質は変異を含む。

いくつかの実施形態では、変異は疾患関連変異である。

いくつかの実施形態では、生物学的形質は臨床転帰を含む。

いくつかの実施形態では、生物学的形質は薬物応答を含む。

いくつかの実施形態において、方法は、伸長された標的ゲノム領域の部分を増幅するように複数のＰＣＲプライマー対を設計することをさらに含み、部分の各々は、少なくとも１つの差次的にメチル化されたＣｐＧ部位を含む。

いくつかの実施形態において、複数のプライマー対を設計することは、非メチル化シトシンをウラシルに変換して、シトシンからウラシルへの変換をシミュレートすること、および変換された配列を使用してプライマー対を設計することを含む。

いくつかの実施形態において、プライマー対は、メチル化バイアスを有するように設計される。

いくつかの実施形態において、プライマー対は、メチル化特異的である。

いくつかの実施形態において、プライマー対は、メチル化状態を優先しないそれらの中にＣｐＧ残基を有さない。

一態様において、本開示は、メチル化シグネチャに特異的なプライマー対を合成するための方法を提供し、方法は、本開示の方法を実施すること、および設計されたプライマー対を合成することを含む。

ＩＶ．核酸変換およびメチル化シーケンシング
Ａ．核酸処理
核酸配列中のメチル化シトシンと非メチル化シトシンとを識別するための核酸塩基の化学ベースおよび酵素ベースの変換を含む、メチル化シーケンシングのための様々な方法が利用可能である。これらのアッセイは、ＤＮＡ配列内の１つまたは複数のＣｐＧジヌクレオチド（例えば、ＣｐＧアイランド）のメチル化状態の決定を可能にする。そのようなアッセイは、数ある技術の中でも、亜硫酸水素塩処理ＤＮＡまたは酵素処理ＤＮＡのＤＮＡシーケンシング、ポリメラーゼ連鎖反応（ＰＣＲ）（配列特異的増幅用）、定量的ＰＣＲ（ｑＰＣＲ）またはデジタル液滴ＰＣＲ（ｄｄＰＣＲ）、サザンブロット分析を含み得る。様々な例において、生物学的試料中のＤＮＡは、５’位でメチル化されていないシトシン塩基が、ウラシル、チミン、またはハイブリダイゼーション挙動に関してシトシンとは異なる別の塩基に変換されるように処理される。これは、「変換」と呼ばれ得る。

いくつかの実施形態では、試薬は、５’位でメチル化されていないシトシン塩基を、ウラシル、チミン、またはハイブリダイゼーション挙動に関してシトシンとは異なる別の塩基に変換する。

ＤＮＡの亜硫酸水素塩修飾は、一般に、ＣｐＧメチル化状態を評価するために使用されるツールを指す。５－メチルシトシン（５－ｍＣ）の存在についてＤＮＡを分析するために頻繁に使用される方法は、亜硫酸水素塩とシトシンとの反応に基づいており、それにより、その後のアルカリ脱スルホン化の際に、シトシンは、その塩基対形成挙動においてチミンに対応するウラシルに変換される。例えば、ゲノムシーケンシングは、亜硫酸水素塩処理を使用することによるＤＮＡメチル化パターンおよび５－メチルシトシン分布の分析に適合されている（例えば、Ｆｒｏｍｍｅｒｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８９：１８２７－１８３１，１９９２に記載され、その内容は参照により本明細書に組み込まれる）。しかしながら、重要なことに、５－メチルシトシンは、これらの条件下で修飾されないままである。その結果、元のＤＮＡは、元々そのハイブリダイゼーション挙動によってシトシンと区別することができなかったメチルシトシン（メチル－Ｃ）が、様々な分子生物学的技術を使用して、例えば、増幅およびハイブリダイゼーションによって、またはシーケンシングによって、唯一残存するシトシンとして検出され得るように変換される。様々な例において、他の試薬は、メチル化シーケンシングに有用な亜硫酸水素塩修飾と同じ結果に作用し得る。

頻繁に使用される直接シーケンシング法の１つは、全ゲノム亜硫酸水素塩シーケンシング（ＷＧＢＳ）または標的亜硫酸水素塩シーケンシングに有用なＰＣＲを用いて増幅された亜硫酸水素塩処理ＤＮＡを使用する。

標的亜硫酸水素塩シーケンシングは、部位特異的ＤＮＡメチル化変化を評価するために使用される市販のＮＧＳ法を指すことができる。プローブは、鎖特異的および亜硫酸水素塩特異的であるように設計される。メチル化配列および非メチル化配列の両方が増幅される。このプロセスはパイロシーケンシングに類似しているが、全体的にはるかに高いスループットを提供する。いくつかの実施形態において、次世代シーケンシングプラットフォームを使用して、大量の有用なＤＮＡメチル化情報を送達する（例えば、ＥＰＩＧＥＮＴＥＫ，Ｆａｒｍｉｎｇｄａｌｅ，ＮＹ、およびＺＹＭＯＲＥＳＥＡＲＣＨ，Ｉｒｖｉｎｅ，ＣＡ）。ＤＮＡ中の個々のシトシンの一塩基解像度でのメチル化分析は、ＤＮＡの亜硫酸水素塩処理、その後の標的領域のＰＣＲ増幅、ライブラリー構築、およびアンプリコン領域のシーケンシングによって促進され得る。特定のプライマーを目的の領域のために設計することができ、シトシンメチル化変化がその領域内で評価される。目的の各ＤＮＡメチル化部位は、正確な、定量的な単一塩基解像度データ出力のために、高いシーケンシングカバレッジ深度で評価され得る。

酵素的メチルシーケンシング（ＥＭ－ｓｅｑ）は、メチローム解析のための核酸の酵素的変換に依存し得る。データは、ＥＭ－ｓｅｑライブラリーを生成するプロセスが、亜硫酸水素塩シーケンシングと同じ方法でＤＮＡを損傷しないことを示唆し得る。ＥＭ－ｓｅｑライブラリーは、全ＤＮＡ入力量に対して使用するＰＣＲサイクルを減らしたにもかかわらず、より高いＰＣＲ収率をもたらすことができ、全ゲノム亜硫酸水素塩シーケンシング（ＷＧＢＳ）と比較して、酵素処理およびライブラリー調製中に失われるＤＮＡが少ないことを示している。次に、減少したＰＣＲサイクルは、シーケンシング中により複雑なライブラリーおよびより少ないＰＣＲ複製物に変換することができる。ＥＭ－ｓｅｑライブラリーはまた、ＷＧＢＳよりも大きい平均インサートサイズを有し得、ＤＮＡがインタクトなままであるという事実をさらに裏付ける。ＥＭ－ｓｅｑワークフローでは、ＴＥＴ２は５－ｍＣおよび５－ｈｍＣを酸化し、次の操作でＡＰＯＢＥＣによる脱アミノ化から保護する。対照的に、非修飾シトシンは、ウラシルへと脱アミノ化される。いくつかの実施形態では、標的化された方法は、核酸の酵素的変換（ＴＥＭ－ｓｅｑ）を含む。いくつかの実施形態において、メチル化シーケンシング方法は、５ｍＣおよび５ｈｍＣの同定に有用なＮＥＢＮＥＸＴ（登録商標）ＥｎｚｙｍａｔｉｃＭｅｔｈｙｌ－ｓｅｑ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ、Ｉｐｓｗｉｃｈ、ＭＡ）を用いて達成される。

別の例では、５ｈｍＣはまた、ＴＥＴ支援亜硫酸水素塩シーケンシング（ＴＡＢ－ｓｅｑ）（ＷｉｓｅＧｅｎｅ；Ｉｌｌｕｍｉｎａ（登録商標））を使用して検出され得る（例えば、Ｙｕ，Ｍ．，ｅｔａｌ．（２０１２）Ｎａｔ．Ｐｒｏｔｏｃ．７，２１５９－２１７０に記載されており、その内容は参照により本明細書に組み込まれる）。断片化ＤＮＡは、亜硫酸水素ナトリウムを添加する前に、Ｔ４ファージβ－グルコシルトランスフェラーゼ（Ｔ４－ＢＧＴ）処理、次いでテン－イレブン転座（ＴＥＴ）ジオキシゲナーゼ処理を順次使用して酵素的に修飾され得る。Ｔ４－ＢＧＴは５ｈｍＣをグルコシル化してβ－グルコシル－５－ヒドロキシメチルシトシン（５ｇｈｍＣ）を形成し、次いでＴＥＴを使用して５ｍＣを５ｃａＣへと酸化する。５ｇｈｍＣのみがその後の亜硫酸水素ナトリウムによる脱アミノ化から保護され、これにより、５ｈｍＣをシーケンシングによって５ｍＣと識別することが可能になる。

酸化亜硫酸水素塩シーケンシング（ｏｘＢＳ）は、５ｍＣと５ｈｍＣとを識別するための別の方法を提供する（例えば、Ｂｏｏｔｈ，Ｍ．Ｊ．，ｅｔａｌ．，２０１２Ｓｃｉｅｎｃｅ３３６：９３４－９３７に記載されており、その内容は参照により本明細書に組み込まれる）。酸化試薬の過ルテニウム酸カリウムで５ｈｍＣを５－ホルミルシトシン（５ｆＣ）に変換し、その後の亜硫酸水素ナトリウム処理で５ｆＣをウラシルに脱アミノ化する。５ｍＣは変化しないまま残るので、この方法を使用して同定され得る。

ＡＰＯＢＥＣ結合エピジェネティックシーケンシング（ＡＣＥ－ｓｅｑ）は亜硫酸水素塩変換を完全に排除し、酵素変換に依存して５ｈｍＣを検出する（例えば、Ｓｃｈｕｔｓｋｙ，Ｅ．Ｋ．，ｅｔａｌ．，Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．，２０１８Ｏｃｔ８に記載され、その内容は参照により本明細書に組み込まれる）。この方法により、Ｔ４－ＢＧＴは５ｈｍＣを５ｇｈｍＣへとグルコシル化し、それを、アポリポタンパク質ＢｍＲＮＡ編集酵素サブユニット３Ａ（ＡＰＯＢＥＣ３Ａ）による脱アミノ化から保護する。シトシンおよび５ｍＣをＡＰＯＢＥＣ３Ａによって脱アミノ化し、チミンとしてシーケンシングする。

別の例では、亜硫酸水素塩を含まない塩基レベル解像度シーケンシング法、ＴＥＴ支援ピリジンボランシークエンシング（ＴＡＰＳ）を５ｍＣおよび５ｈｍＣの検出に使用することができる。ＴＡＰＳは、５ｍＣおよび５ｈｍＣの５－カルボキシルシトシン（５ｃａＣ）へのテン－イレブン転座（ＴＥＴ）酸化と、５ｃａＣのジヒドロウラシル（ＤＨＵ）へのピリジンボラン還元とを組み合わせる。その後のＰＣＲはＤＨＵをチミンに変換し、５ｍＣおよび５ｈｍＣのＣからＴへの転位を可能にする。ＴＡＰＳは、未修飾シトシンに影響を及ぼすことなく、高い感度および特異性で修飾を直接検出する（例えば、Ｌｉｕ，Ｙ．，ｅｔａｌ．ＮａｔＢｉｏｔｅｃｈｎｏｌ．２０１９Ａｐｒ；３７（４）：４２４－４２９に記載され、その内容は参照により本明細書に組み込まれる）。

ＴＥＴ支援５－メチルシトシンシーケンシング（ＴＡｍＣ－ｓｅｑ）は、５ｍＣ遺伝子座を富化し、２つの連続酵素反応とそれに続くアフィニティープルダウンを利用する（例えば、Ｚｈａｎｇ，Ｌ．２０１３，ＮａｔＣｏｍｍｕｎ４：１５１７に記載され、その内容は参照により本明細書に組み込まれる）。断片化ＤＮＡを、グルコシル化によって５ｈｍＣを保護するＴ４－ＢＧＴで処理する。次いで、酵素ｍＴＥＴ１を使用して５ｍＣを５ｈｍＣへと酸化し、Ｔ４－ＢＧＴは、修飾グルコース部分（６－Ｎ３－グルコース）を使用して新たに形成された５ｈｍＣを標識する。クリックケミストリーを使用して、検出およびゲノムワイドプロファイリングのための５ｍＣ含有ＤＮＡ断片の富化を可能にするビオチンタグを導入する。

Ｂ．次世代シーケンシング
いくつかの実施形態では、シーケンシングリードの生成は次世代シーケンシングによって行われる。これにより、所与の領域に対して高深度のリードを達成することが可能になり得る。これらは、例えば、Ｉｌｌｕｍｉｎａ（登録商標）（Ｓｏｌｅｘａ）シーケンシング、ＤＮＢ－ＳｅｑｕｅｎｃｅｒＴ７（ＤＮＢＳＥＱ（登録商標））またはＧ４００（ＭＧＩＴｅｃｈＣｏ．，Ｌｔｄ）、ＧｅｎａｐＳｙｓ（登録商標）シーケンシング（ＧｅｎａｐＳｙｓ，Ｉｎｃ．）、Ｒｏｃｈｅ４５４シーケンシング（ＲｏｃｈｅＳｅｑｕｅｎｃｉｎｇＳｏｌｕｔｉｏｎｓ，Ｉｎｃ．）、ＩｏｎＴｏｒｒｅｎｔシーケンシング（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ）、およびＳＯＬｉＤシーケンシング（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ（登録商標））を含むハイスループット法であり得る。シーケンシングリードの数は、ＤＮＡ投入量および分析に必要なデータの深度に応じて調整することができる。

いくつかの実施形態において、シーケンシングリードの生成は、複数の患者から得られた試料に対して同時に行われ、無細胞核酸断片は、各患者についてバーコード化される。これにより、１回のシーケンシングランで複数の患者の並列分析が可能になる。

別の態様では、本開示は、前述の方法を実施するための試薬、および腫瘍シグナルを検出するための説明書を含む、腫瘍を検出するためのキットを提供する。試薬は、例えば、プライマーセット、ＰＣＲ反応構成要素、および／またはシーケンシング試薬を含み得る。

Ｃ．標的シーケンシング
標的メチル化シーケンシングアプローチでは、標的遺伝子配列のメチル化状態を決定するために、ｃｆＤＮＡなどの生物学的試料中の標的領域が分析される。いくつかの実施形態では、標的領域は、目的の標的領域の連続するヌクレオチド、例えば目的の標的領域の少なくとも約１６個の連続するヌクレオチドを含むか、またはストリンジェントな条件下それらにハイブリダイズする。異なる例では、標的シーケンシングは、ハイブリダイゼーション捕捉およびアンプリコンシーケンシングアプローチを使用して達成され得る。

Ｄ．ハイブリダイゼーション捕捉
本明細書で提供されるハイブリダイゼーション方法は、核酸ハイブリダイゼーションの様々な形式、例えば、溶液中ハイブリダイゼーションおよび固体支持体上でのハイブリダイゼーション（例えば、膜、マイクロアレイおよび細胞／組織スライド上でのノーザンハイブリダイゼーション、サザンハイブリダイゼーションおよびインサイチュハイブリダイゼーション）で使用され得る。特に、方法は、標的化次世代シーケンシングに使用される特定のタイプのゲノムＤＮＡ配列（例えば、エクソン）の標的富化のための溶液中ハイブリッド捕捉に適している。ハイブリッド捕捉アプローチのために、無細胞核酸試料をライブラリー調製に供する。本明細書で使用される場合、「ライブラリー調製」は、その後のＤＮＡシーケンシングを可能にするために無細胞ＤＮＡに対して行われる末端修復、Ａテーリング、アダプターライゲーション、または任意の他の調製を含む。ある特定の例において、調製された無細胞核酸ライブラリー配列は、無細胞核酸試料分子上にライゲーションされるアダプター、配列タグ、インデックスバーコードを含む。次世代シーケンシングアプローチ用のライブラリー調製を容易にするための、様々な市販のキットが利用可能である。次世代シーケンシングライブラリーの構築は、調整された一連の酵素反応を使用して核酸標的を調製し、ハイスループットシーケンシングのための、特定のサイズのＤＮＡ断片のランダムな集合を生成することを含み得る。様々なライブラリー調製技術の進歩および開発により、次世代シーケンシングのトランスクリプトミクスおよびエピジェネティクスなどの分野への応用が拡大している。

シーケンシング技術の改善は、ライブラリー調製への変更および改善をもたらした。Ａｇｉｌｅｎｔ（登録商標）、ＢｉｏｏＳｃｉｅｎｔｉｆｉｃ（登録商標）、ＫａｐａＢｉｏｓｙｓｔｅｍｓ（登録商標）、ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（登録商標）、Ｉｌｌｕｍｉｎａ（登録商標）、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ（登録商標）、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ（登録商標）およびＲｏｃｈｅ（登録商標）などの企業によって開発された次世代シーケンシングライブラリー調製キットは、様々な分子生物学反応に一貫性および再現性を提供し、最新のＮＧＳ機器技術との互換性を確保する。

標的捕捉遺伝子パネルのための様々な例において、様々なライブラリー調製キットは、ＮｅｘｔｅｒａＦｌｅｘ（Ｉｌｌｕｍｉｎａ（登録商標））、Ｉｌｌｕｍｉｎａ（登録商標）ＤＮＡＰｒｅｐ（Ｉｌｌｕｍｉｎａ（登録商標））、ＩｏｎＡｍｐｌｉＳｅｑ（登録商標）（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ（登録商標））、ＧｅｎｅＸｕｓ（登録商標）（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ（登録商標））、ＡｇｉｌｅｎｔＣｌｅａｒＳｅｑ（Ｉｌｌｕｍｉｎａ（登録商標））、Ａｇｉｌｅｎｔ（登録商標）ＳｕｒｅＳｅｌｅｃｔ（登録商標）Ｃａｐｔｕｒｅ（Ｉｌｌｕｍｉｎａ（登録商標））、Ａｒｃｈｅｒ（登録商標）ＦｕｓｉｏｎＰｌｅｘ（登録商標）（Ｉｌｌｕｍｉｎａ（登録商標））、ＢｉｏｏＳｃｉｅｎｔｉｆｉｃ（登録商標）ＮＥＸＴｆｌｅｘ（登録商標）（Ｉｌｌｕｍｉｎａ（登録商標））、ＩＤＴ（登録商標）ｘＧｅｎ（Ｉｌｌｕｍｉｎａ（登録商標））、Ｉｌｌｕｍｉｎａ（登録商標）ＴｒｕＳｉｇｈｔ（登録商標）（Ｉｌｌｕｍｉｎａ（登録商標））、ＮｉｍｂｌｅＧｅｎ（登録商標）ＳｅｑＣａｐ（登録商標）（Ｉｌｌｕｍｉｎａ（登録商標））、およびＱｉａｇｅｎ（登録商標）ＧｅｎｅＲｅａｄ（登録商標）（Ｉｌｌｕｍｉｎａ（登録商標））からなる群から選択され得る。

いくつかの実施形態において、ハイブリッド捕捉法は、特異的プローブを使用して、調製されたライブラリー配列に対して行われる。いくつかの実施形態では、本明細書で使用される「特異的プローブ」という用語は、一般に、既知のメチル化部位に特異的なプローブを指す。いくつかの実施形態では、特異的プローブは、ヒトゲノムを参照配列として使用すること、およびメチル化部位を有することが知られた特定のゲノム領域を標的配列として使用することに基づいて設計される。具体的には、メチル化部位を有することが知られているゲノム領域は、プロモーター領域、ＣｐＧアイランド領域、ＣＧＩショア領域、およびインプリント遺伝子領域のうちの少なくとも１つを含み得る。したがって、いくつかの実施形態の特異的プローブを用いてハイブリッド捕捉を行う場合、標的配列、例えばメチル化部位を有することが知られている試料ゲノム中の領域（本明細書では「特定のゲノム領域」とも呼ばれる）と相補的な試料ゲノム中の配列を効率的に捕捉することができる。

一例によれば、本明細書に記載のメチル化領域は、特異的プローブを設計するために使用される。いくつかの実施形態では、特異的プローブは、例えばｅＡｒｒａｙシステムなどの市販の方法を使用して設計される。プローブの長さは、目的のメチル化領域に十分な特異性でハイブリダイズするのに十分であり得る。様々な例において、プローブは、１０ｍｅｒ、１１ｍｅｒ、１２ｍｅｒ、１３ｍｅｒ、１４ｍｅｒ、１５ｍｅｒ、１６ｍｅｒ、１７ｍｅｒ、１８ｍｅｒ、１９ｍｅｒまたは２０ｍｅｒである。

上記の表１～１１に列挙された領域は、データベースリソース（遺伝子存在論など）を利用することによって選別される。相補的塩基対合の原理によれば、一本鎖捕捉プローブを一本鎖標的配列と相補的に組み合わせて、標的領域をうまく捕捉することができる。いくつかの実施形態では、設計されたプローブは、固体捕捉チップ（プローブが固体支持体上に固定化されている）として設計されてもよく、または液体捕捉チップ（プローブが液体中に遊離している）として設計されてもよいが、様々な要因、例えばプローブ長さ、プローブ密度、および高コスト、その他によって制限され、固体捕捉チップはほとんど使用されず、一方で液体捕捉チップはより頻繁に使用される。

いくつかの実施形態では、核酸中のＧＣに富む配列（ＧＣ塩基の含有量が６０％超）は、正常な配列（Ａ、Ｔ、ＣおよびＧ塩基の平均含有量がそれぞれ２５％）と比較して、ＣおよびＧ塩基の分子構造に起因する捕捉効率の低下をもたらし得る。重要な研究領域、例えばＣＧＩ領域（ＣｐＧアイランド）については、増量したプローブを設計して、十分かつ正確なＣＧＩデータを得ることが推奨され得る。

Ｅ．アンプリコンベースのシーケンシング
変換されたＤＮＡの断片は増幅され得る。いくつかの実施形態では、増幅することは、その中に少なくとも１つのメチル化部位を有する、メチル化変換された標的配列にアニーリングするように設計されたプライマーを用いて行われる。メチル化シーケンシング変換により、非メチル化シトシンがウラシルに変換されるが、５－メチルシトシンは影響を受けない。したがって、「変換された標的配列」は、メチル化部位であることが知られているシトシンが「Ｃ」（シトシン）として固定されている一方で、メチル化されていないことが知られているシトシンが「Ｕ」（ウラシル；プライマー設計目的のために「Ｔ」（チミン）として扱ってもよい）として固定されている配列であると理解される。

様々な例において、ＤＮＡのソースは、全血、血漿、血清からの無細胞ＤＮＡ、または細胞もしくは組織から抽出されたゲノムＤＮＡである。いくつかの実施形態において、増幅断片のサイズは、約１００～２００塩基対の長さである。いくつかの実施形態では、ＤＮＡソースは、細胞ソース（例えば、組織、生検、細胞株）から抽出され、増幅断片は、約１００～３５０塩基対の長さである。いくつかの実施形態において、増幅断片は、少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つを超えるＣｐＧジヌクレオチドを含む少なくとも１つの２０塩基対配列を含む。増幅は、本開示によるプライマーオリゴヌクレオチドのセットを使用して実施することができ、熱安定性ポリメラーゼを使用することができる。いくつかのＤＮＡセグメントの増幅は、１つの同じ反応容器で同時に行うことができる。いくつかの実施形態において、２つ以上の断片が同時に増幅される。例えば、ポリメラーゼ連鎖反応（ＰＣＲ）を用いて増幅を行ってもよい。

そのような配列を標的とするように設計されたプライマーは、変換されたメチル化配列に対してある程度のバイアスを示し得る。いくつかの実施形態では、ＰＣＲプライマーは、標的メチル化シーケンシング用途のためにメチル化特異的であるように設計される。これにより、いくつかの用途において向上した感度が可能になり得る。例えば、プライマーは、例えばＰＣＲ用途において、最適な識別を達成するように配置された（亜硫酸水素塩変換後のメチル化配列に特異的な）区別的なヌクレオチドを含むように設計され得る。区別は、３’最終位置または最後から２番目の位置に配置され得る。

いくつかの実施形態では、プライマーは、長さ７５～３５０ｂｐのＤＮＡ断片を増幅するように設計される。これは、循環ＤＮＡに知られている一般的なサイズ範囲であり、標的サイズを考慮してプライマー設計を最適化することにより、本例による方法の感度を高めることができる。プライマーは、長さが約５０～２００、約７５～１５０、または約１００または１２５ｂｐの領域を増幅するように設計され得る。

本明細書に記載される方法のいくつかの実施形態では、核酸配列内の予め選択されたＣｐＧ位置のメチル化状態は、メチル化特異的プライマーオリゴヌクレオチドを使用するアンプリコンベースのアプローチによって検出され得る。亜硫酸水素塩処理ＤＮＡの増幅のためのメチル化状態特異的プライマーの使用は、メチル化核酸と非メチル化核酸との間の識別を可能にする。ＭＳＰプライマー対は、変換されたＣｐＧジヌクレオチドにハイブリダイズする少なくとも１つのプライマーを含む。したがって、前記プライマーの配列は、少なくとも１つのＣｐＧ、ＴｐＧまたはＣｐＡジヌクレオチドを含む。非メチル化ＤＮＡに特異的なＭＳＰプライマーは、ＣｐＧ中のＣの３’位に「Ｔ」を含有する。したがって、前記プライマーの塩基配列は、前処理された核酸配列にハイブリダイズする少なくとも１８ヌクレオチドの長さを有する配列、およびそれに相補的な配列を含む必要があり得、前記オリゴマーの塩基配列は、少なくとも１つのＣｐＧ、ＴｐＧまたはＣｐＡジヌクレオチドを含む。いくつかの実施形態では、ＭＳＰプライマーは、２～５個のＣｐＧ、ＴｐＧまたはＣｐＡジヌクレオチドを含む。いくつかの実施形態において、ジヌクレオチドは、プライマーの３’半分内に位置し、例えば、１８塩基長であるプライマーの場合、特異的ジヌクレオチドは、分子の３’末端から最初の９塩基内に位置する。ＣｐＧ、ＴｐＧまたはＣｐＡジヌクレオチドに加えて、プライマーは、いくつかのメチル変換された塩基（例えば、チミンに変換されたシトシン、またはハイブリダイズ鎖上で、アデノシンに変換されたグアニン）をさらに含み得る。いくつかの実施形態では、プライマーは、２個以下のシトシンまたはグアニン塩基を含むように設計される。

いくつかの実施形態では、領域の各々は、複数のプライマー対を使用してセクションで増幅される。いくつかの実施形態では、これらのセクションは重ならない。セクションは、直接隣接していても、離間していてもよい（例えば、１０、２０、３０、４０または５０ｂｐまで離間している）。標的領域（ＣｐＧアイランド、ＣｐＧショア、および／またはＣｐＧシェルフを含む）は通常７５から１５０ｂｐよりも長いので、この例は、所与の標的領域のより多くの（またはすべての）部位にわたってメチル化状態を評価することを可能にする。

プライマーは、プライマー３、プライマー３Ｐｌｕｓ、プライマー－ＢＬＡＳＴなどの適切なツールを使用して標的領域用に設計することができる。検討されるように、亜硫酸水素塩変換は、シトシンのウラシルへの変換および５’－メチル－シトシンのチミンへの変換をもたらす。したがって、プライマーの配置または標的化は、必要とされるメチル化特異性の程度に応じて、亜硫酸水素塩変換されたメチル化配列を利用し得る。

増幅用の標的領域は、少なくとも１０個のＣｐＧジヌクレオチドメチル化部位を有するように設計される。しかしながら、いくつかの例では、１０個を超えるＣｐＧメチル化部位を有する領域を増幅することが有利であり得る。例えば、３００ｂｐ長の配列リードは、結腸細胞増殖性障害に関連する核酸試料においてメチル化されている約１０、２０、３０、４０または５０個のＣｐＧメチル化部位を有し得る。様々な例において、表１～１１において特定されるメチル化領域は、結腸細胞増殖性障害に関連する核酸試料においてメチル化されている少なくとも２５、５０、１００、２００、３００、４００または５００個のＣｐＧメチル化部位を有し得る。いくつかの実施形態では、プライマーは、標的領域において３～２０個のＣｐＧメチル化部位を含むＤＮＡ断片を増幅するように設計される。全体として、このアプローチは、単一のシーケンシングリード内でより多くのメチル化部位が照会されることを可能にし、複数の一致するメチル化が単一のシーケンシングリード内で検出され得るので、さらなる確実性（偽陽性の排除）を提供する。いくつかの実施形態では、腫瘍シグナルは、表１～１１から選択される３つ以上のメチル化領域を含む。この例における複数の腫瘍シグナルの検出は、腫瘍検出の信頼性を高めることができる。そのようなシグナルは、同じ部位または異なる部位に存在し得る。いくつかの実施形態では、同じ領域における２つ以上の腫瘍シグナルの検出は腫瘍を示す。

いくつかの実施形態では、特定されたメチル化領域内のＣｐＧ部位の数は、結腸細胞増殖性障害の異なる特性を有する２つの集団間でモデル化されて、メチル化閾値を特定することができ、閾値を超える領域内のＣｐＧ部位の数は、結腸細胞増殖性障害を示す。

様々な例では、結腸直腸癌を示す特定されたメチル化領域内のＣｐＧ部位の数は、少なくとも２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、または１８であり、この特定された数を超えるメチル化ＣｐＧの存在は、結腸直腸癌を示し、分類子として使用される機械学習モデルへの入力特徴として使用され、集団を健康な個体と結腸直腸癌を有する個体とに階層化することができる。

この例では、ゲノムの同じ部位でのメチル化を示す複数の腫瘍シグナルの検出は、腫瘍検出の信頼性を高めることができる。ゲノムの隣接部位におけるメチル化の検出はまた、シグナルが異なるシーケンシングリードに由来する場合であっても、腫瘍検出の信頼性を高めることができる。これは、別のタイプのシグナル一致を反映する。いくつかの実施形態では、少なくとも２つの異なるシーケンシングリードにわたって隣接または重複する腫瘍シグナルの検出は、腫瘍を示す。いくつかの実施形態では、隣接または重複する腫瘍シグナルは、同じＣｐＧアイランド内にある。いくつかの実施形態では、無細胞ＤＮＡ断片中の３～３４個の近位メチル化部位の検出は、腫瘍を示す。いくつかの実施形態では、断片中の３～３４個のメチル化ＣｐＧ部位の検出を使用して、特徴（例えば、健康、疾患または疾患のステージ）を有する個体の集団を区別するための閾値を特定する。いくつかの実施形態において、リード断片中の約４～１０、約４～１５、約１０～２０、約１５～２０、約１５～２５、約２０～２５、約２０～３４、約２５～３４または約３０～３４個のメチル化近位ＣｐＧ部位の検出を使用して、特徴（例えば、健康、疾患または疾患のステージ）を有する個体の集団を区別するための閾値を特定する。本明細書で使用される場合、「近位ＣｐＧ部位」という用語は、互いに隣接するか、または約２～１０個のＣｐＧ部位の範囲内にあり、無細胞核酸試料中の同じ核酸断片上にあるＣｐＧ部位を指す。

いくつかの実施形態において、増幅は、１００を超えるプライマー対を用いて行われる。増幅は、約１０個、約２０個、約３０個、約４０個、約５０個、約６０個、約７０個、約８０個、約９０個、約１００個、約１１０個、約１２０個、約１３０個、約１４０個、約１５０個、またはそれを超えるプライマー対を用いて行われ得る。いくつかの実施形態では、増幅は多重増幅である。多重増幅によって、ＤＮＡが一般に豊富ではないｃｆＤＮＡ試料からでさえ、ゲノム内の多くの標的領域から並行して大量のメチル化情報を収集することができる。多重化は、例えば最大約２４，０００個のアンプリコンが同時に照会され得る、ＩｏｎＡｍｐｌｉＳｅｑ（登録商標）などのプラットフォームにスケールアップしてもよい。いくつかの実施形態では、増幅は入れ子式増幅である。入れ子式増幅は、感度および特異性を改善し得る。

さらに、同時標的メチル化シーケンシング（ｓＴＭ－Ｓｅｑ）と呼ばれる複数のメチル化配列の並列試験ための別の迅速かつ堅牢なプロトコル。この技術の重要な特徴には、大量の高分子量ＤＮＡの必要性の排除、ならびに５－メチルシトシン（５ｍＣ）および５－ヒドロキシメチルシトシン（５ｈｍＣ）両方のヌクレオチド特異的な特質が含まれる。さらに、ｓＴＭ－Ｓｅｑはスケーラブルであり、１回のシーケンシングラン内の数十の試料中の複数の遺伝子座を調査するために使用され得る。多目的バーコード化、ライブラリー調製、および特注シーケンシングのための自由に利用できるウェブベースのソフトウェアおよびユニバーサルプライマーにより、ｓＴＭ－Ｓｅｑは手頃な価格、効率的、かつ広範囲に適用可能になる（例えば、Ａｓｍｕｓ，Ｎ．ｅｔａｌ．，ＣｕｒｒＰｒｏｔｏｃＨｕｍＧｅｎｅｔ．２０１９Ａｐｒ；１０１（１）に記載され、その内容は参照により本明細書に組み込まれる）。

一般に、本明細書で提供される方法およびシステムは、下流の適用シーケンシング反応への無細胞ポリヌクレオチド配列の調製に有用である。いくつかの実施形態では、シーケンシング法は古典的サンガーシーケンシングである。シーケンシング法には、限定するものではないが、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ（登録商標））、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ（登録商標））、次世代シーケンシング、ＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇｂｙＳｙｎｔｈｅｓｉｓ（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ（登録商標））、大規模並列シーケンシング、ＣｌｏｎａｌＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、マクサム－ギルバートシーケンシング、プライマーウォーキング、および任意の他のシーケンシング法が含まれ得る。

パイロシーケンシングは、ヌクレオチド取り込み時のピロホスフェート放出のルミノメトリック検出に基づくリアルタイムシーケンシング技術を指し得、それは、いくつかのＣｐＧ位置のメチル化程度の同時分析および定量化に適している。ゲノムＤＮＡの変換後、関心領域は、ビオチン化されている２つのプライマーのうちの１つを用いてポリメラーゼ連鎖反応（ＰＣＲ）によって増幅される。ＰＣＲ生成された鋳型を一本鎖にし、パイロシーケンシングプライマーをアニーリングしてＣｐＧ位置を定量的に分析する。亜硫酸水素塩処理およびＰＣＲの後、配列中の各ＣｐＧ位置における各メチル化の程度は、元の配列中の各ＣｐＧ部位における非メチル化シトシンとメチル化シトシンとの割合を反映するＴシグナルとＣシグナルとの比から決定される。

Ｖ．分類子、機械学習モデル、およびシステム
様々な例において、メチル化シーケンシング特徴を、トレーニングされたアルゴリズム（例えば、機械学習モデルまたは分類子）への入力データセットとして使用して、配列組成と患者群との間の相関を見出す。そのような患者群の例としては、疾患または状態の存在、ステージ、サブタイプ、応答者対非応答者、および発症者対非発症者が挙げられる。様々な例では、特徴行列を生成して、既知の状態または特徴を有する個体から得られた試料を比較する。いくつかの実施形態では、試料は、健康な個体、または既知の指標のいずれも有さない個体から、および癌を有することが知られている患者からの試料から得られる。

機械学習およびパターン認識に関連して本明細書で使用される場合、「特徴」という用語は、一般に、観察されている現象の個々の測定可能な特性または特徴を指す。「特徴」の概念は、統計的手法、例えば、これらに限定されないが、線形回帰およびロジスティック回帰に用いられる説明変数のものに関連する。特徴は通常数値であるが、構文パターン認識では文字列やグラフなどの構造的特徴が用いられる。

本明細書で使用される「入力特徴」（または「特徴」）という用語は、一般に、トレーニングされたアルゴリズム（例えば、モデルまたは分類子）によって使用され、試料の出力分類（標識）、例えば、状態、配列内容（例えば、変異）、提案されたデータ収集操作、または提案された治療などを予測する変数を指す。変数の値は、試料について決定され、分類を決定するために使用され得る。

様々な例において、遺伝子データの入力特徴としては、配列データ（例えば、配列リード）のゲノムへのアラインメントに関するアラインメント変数、および例えば配列リードの配列含有量、タンパク質もしくは自己抗体の測定値、またはゲノム領域での平均メチル化レベルに関する非アラインメント変数が挙げられる。入力特徴は、Ｖプロット測定値、ＦＲＥＥ－Ｃデコンボリューション、クロマチンアクセシビリティ、および転写開始部位にわたるｃｆＤＮＡ測定値などの遺伝子特徴であり得る。メチル化分析に使用され得る測定基準は、これらに限定されないが、ＣｐＧ、ＣＨＧ、ＣＨＨについてのベースワイズ（ｂａｓｅｗｉｓｅ）メチル化率、変換効率（１００－ＣＨＨについての平均メチル化率）、低メチル化ブロック、メチル化レベル（ＣＰＧ、ＣＨＨ、ＣＨＧの全体平均メチル化、断片長、断片中間点、および１つ以上のゲノム領域、例えばｃｈｒＭ、ＬＩＮＥ１、またはＡＬＵにおけるメチル化レベル）、断片あたりのメチル化ＣｐＧ数、断片あたりの総ＣｐＧに対するＣｐＧメチル化の割合、領域あたりの総ＣｐＧに対するＣｐＧメチル化の割合、パネル内の総ＣｐＧに対するＣｐＧメチル化の割合、ジヌクレオチドのカバレッジ（ジヌクレオチドの正規化されたカバレッジ）、カバレッジの均一性（ｌｘおよび１０ｘの平均ゲノムカバレッジ（Ｓ４ランについて）での固有のＣｐＧ部位、全体的な平均ＣｐＧカバレッジ（深度）、ならびにＣｐＧアイランド、ＣＧＩシェルフ、ＣＧＩショアでの平均カバレッジを含む。これらの測定基準は、機械学習方法およびモデルのための特徴入力として使用することができる。

複数のアッセイでは、システムは、特徴セットを識別して、トレーニングされたアルゴリズム（例えば、機械学習モデルまたは分類子）に入力する。システムは、各分子クラスに対してアッセイを実行し、測定値から特徴ベクトルを形成する。システムは、特徴ベクトルを機械学習モデルに入力し、生物学的試料が指定された特性を有するかどうかの出力分類を取得する。

いくつかの実施形態では、機械学習モデルは、個体の集団または集団の特徴における、個体または特徴の２つ以上の群またはクラスを区別することができる分類子を出力する。いくつかの実施形態では、分類子はトレーニングされた機械学習分類子である。

いくつかの実施形態では、癌組織におけるバイオマーカーの、情報量の多い遺伝子座または特徴がアッセイされて、プロファイルを形成する。受信者操作特性（ＲＯＣ）曲線は、２つの集団（例えば、治療剤に応答する個体および応答しない個体）を区別する際に特定の特徴（例えば、本明細書に記載のバイオマーカーのいずれか、および／または追加の生物医学情報の任意の項目）の性能をプロットすることによって生成することができる。いくつかの実施形態では、母集団全体にわたる特徴データ（例えば、事例および対照）は、単一の特徴の値に基づいて昇順にソートされる。

様々な例において、特定の特性は、健康対癌、疾患サブタイプ、疾患ステージ、発症者対非発症者、および応答者対非応答者から選択される。

Ａ．データ解析
いくつかの例では、本開示は、ソフトウェアアプリケーション、コンピューティングハードウェア、またはその両方で実現されるデータ分析を有するシステム、方法、またはキットを提供する。様々な例において、分析アプリケーションまたはシステムは、少なくともデータ受信モジュール、データ前処理モジュール、データ分析モジュール（１つまたは複数のタイプのゲノムデータに対して操作することができる）、データ解釈モジュール、またはデータ視覚化モジュールを含む。いくつかの実施形態では、データ受信モジュールは、実験室ハードウェアまたは計装を、実験室データを処理するコンピュータシステムと接続するコンピュータシステムを含むことができる。いくつかの実施形態では、データ前処理モジュールは、分析の準備中のデータに対して操作を実行するハードウェアシステムまたはコンピュータソフトウェアを備えることができる。前処理モジュール内のデータに適用され得る操作の例は、アフィン変換、ノイズ除去操作、データクリーニング、リフォーマット、またはサブサンプリングを含む。１つ以上のゲノム材料からのゲノムデータを分析するために特殊化され得るデータ分析モジュールは、例えば、集合したゲノム配列を取得し、確率的および統計的分析を実施して、疾患、病態、状態、リスク、状態または表現型に関連する異常パターンを識別することができる。データ解釈モジュールは、例えば統計学、数学、または生物学から引き出された分析方法を使用して、識別された異常パターンと健康状態、機能的状態、予後、またはリスクとの間の関係の理解を裏付けることができる。データ視覚化モジュールは、数学的モデリング、コンピュータグラフィックス、またはレンダリングの方法を使用して、結果の理解または解釈を容易にすることができるデータの視覚的表現を作成することができる。

様々な例において、機械学習法を適用して、試料の集団内において試料を識別する。いくつかの実施形態では、機械学習法を適用して、健康な試料と進行した疾患（例えば、腺腫）試料とを識別する。

いくつかの実施形態では、予測エンジンをトレーニングするために使用される１つまたは複数の機械学習操作は、一般化線形モデル、一般化加法モデル、ノンパラメトリック回帰操作、ランダムフォレスト分類子、空間回帰操作、ベイズ回帰モデル、時系列分析、ベイジアンネットワーク、ガウスネットワーク、決定木学習操作、人工ニューラルネットワーク、回帰型ニューラルネットワーク、畳み込みニューラルネットワーク、強化学習操作、線形または非線形回帰動作、サポートベクターマシン、クラスタリング操作、および遺伝的アルゴリズム操作のうちの１つまたは複数を含む。

様々な例では、コンピュータ処理方法は、ロジスティック回帰、多重線形回帰（ＭＬＲ）、次元削減、部分最小二乗（ＰＬＳ）回帰、主成分回帰、オートエンコーダ、変分オートエンコーダ、特異値分解、フーリエ基底、ウェーブレット、判別分析、サポートベクターマシン、決定木、分類および回帰木（ＣＡＲＴ）、木ベースの方法、ランダムフォレスト、勾配ブースティング木、ロジスティック回帰、行列因数分解、多次元スケーリング（ＭＤＳ）、次元削減方法、ｔ分布確率的近傍埋め込み（ｔ－ＳＮＥ）、多層パーセプトロン（ＭＬＰ）、ネットワーククラスタリング、ニューロファジー、および人工ニューラルネットワークからなる群から選択される。

いくつかの例では、本明細書に開示される方法は、個体または複数の個体からの試料の核酸シーケンシングデータに対する計算分析を含み得る。

Ｂ．分類子生成
一態様では、開示されるシステムおよび方法は、ｃｆＤＮＡの生物学的試料からのメチル化配列分析に由来する特徴情報に基づいて生成された分類子を提供する。分類子は、ｃｆＤＮＡなどの生物学的試料で特定された配列特徴に基づいて集団内の群を区別するための予測エンジンの一部を形成する。

いくつかの実施形態では、分類子は、配列情報の類似部分を統一フォーマットおよび統一スケールにフォーマットすることによって配列情報を正規化すること、正規化配列情報を円柱状データベースに保存すること、特定の集団について１つまたは複数の特徴の組み合わせをマッピングする予測エンジンを、保存された正規化された配列情報に１つまたは複数の一機械学習操作を適用することによってトレーニングすること、アクセスされたフィールド情報に予測エンジンを適用して、群に関連付けられる個体を特定すること、および個体を群に分類することによって作成される

いくつかの実施形態では、階層は、配列情報の類似部分を統一フォーマットおよび統一スケールにフォーマットすることによって配列情報を正規化すること、正規化配列情報を円柱状データベースに保存すること、特定の集団について１つまたは複数の特徴の組み合わせをマッピングする予測エンジンを、保存された正規化された配列情報に１つまたは複数の一機械学習操作を適用することによってトレーニングすること、アクセスされたフィールド情報に予測エンジンを適用して、群に関連付けられる個体を特定すること、および個体を群に分類することによって作成される

本明細書で使用される場合、特異性は、一般に、「疾患を有さない者のうちの陰性の検査結果の確率」を指す。これは、陰性を示した疾患のない者の数を疾患のない者の総数で割ることによって計算することができる。

様々な例において、モデル、分類子または予測試験は、少なくとも４０％、少なくとも４５％、少なくとも５０％、少なくとも５５％、少なくとも６０％、少なくとも６５％、少なくとも７０％、少なくとも７５％、少なくとも８０％、少なくとも８５％、少なくとも９０％、少なくとも９５％、または少なくとも９９％の特異性を有する。

本明細書で使用される場合、「感度」は、一般に、「疾患を有する者のうちの陽性の検査結果の確率」を指す。これは、陽性を示した疾患のある個体の数を疾患のある個体の総数で割ることによって計算することができる。

様々な例において、モデル、分類子または予測試験は、少なくとも４０％、少なくとも４５％、少なくとも５０％、少なくとも５５％、少なくとも６０％、少なくとも６５％、少なくとも７０％、少なくとも７５％、少なくとも８０％、少なくとも８５％、少なくとも９０％、少なくとも９５％、または少なくとも９９％の感度を有する。

本明細書で使用される場合、陽性的中率は、一般に、「陽性の検査結果が正確である確率」を指す。それは、真の陽性試験結果の数を陽性試験結果の総数で割ることによって計算することができる。

様々な例において、モデル、分類子または予測試験は、少なくとも４０％、少なくとも４５％、少なくとも５０％、少なくとも５５％、少なくとも６０％、少なくとも６５％、少なくとも７０％、少なくとも７５％、少なくとも８０％、少なくとも８５％、少なくとも９０％、少なくとも９５％、または少なくとも９９％の陽性的中率を有する。

本明細書で使用される場合、陰性的中率は、一般に、「陰性の検査結果が正確である確率」を指す。それは、真の陰性試験結果の数を陰性試験結果の総数で割ることによって計算することができる。

様々な例において、モデル、分類子または予測試験は、少なくとも４０％、少なくとも４５％、少なくとも５０％、少なくとも５５％、少なくとも６０％、少なくとも６５％、少なくとも７０％、少なくとも７５％、少なくとも８０％、少なくとも８５％、少なくとも９０％、少なくとも９５％、または少なくとも９９％の陰性的中率を有する。

Ｃ．デジタル処理デバイス
いくつかの例では、本明細書に記載の主題は、デジタル処理デバイスまたはその使用を含むことができる。いくつかの例では、デジタル処理デバイスは、デバイスの機能を実行する１つまたは複数のハードウェアセントラルプロセシングユニット（ＣＰＵ）、グラフィックスプロセシングユニット（ＧＰＵ）、またはテンソルプロセシングユニット（ＴＰＵ）を含むことができる。いくつかの例では、デジタル処理デバイスは、実行可能命令を実行するように構成されたオペレーティングシステムを含むことができる。

いくつかの例では、デジタル処理デバイスは、任意選択的にコンピュータネットワークに接続することができる。いくつかの例では、デジタル処理デバイスは、任意選択的にインターネットに接続することができる。いくつかの例では、デジタル処理デバイスは、任意選択的にクラウドコンピューティングインフラストラクチャに接続することができる。いくつかの例では、デジタル処理デバイスは、任意選択的にイントラネットに接続することができる。いくつかの例では、デジタル処理デバイスは、任意選択的にデータ記憶デバイスに接続することができる。

適切なデジタル処理デバイスの非限定的な例には、サーバコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、サブノートブックコンピュータ、ネットブックコンピュータ、ネットパッドコンピュータ、セットトップコンピュータ、ハンドヘルドコンピュータ、インターネットアプライアンス、モバイルスマートフォン、およびタブレットコンピュータが含まれる。適切なタブレットコンピュータは、例えば、ブックレット、スレート、およびコンバーチブル構成を有するものを含むことができる。

いくつかの例では、デジタル処理デバイスは、実行可能命令を実行するように構成されたオペレーティングシステムを含むことができる。例えば、オペレーティングシステムは、デバイスのハードウェアを管理し、アプリケーションの実行のためのサービスを提供する、プログラムおよびデータを含むソフトウェアを含むことができる。オペレーティングシステムの非限定的な例には、Ｕｂｕｎｔｕ、ＦｒｅｅＢＳＤ、ＯｐｅｎＢＳＤ、ＮｅｔＢＳＤ（登録商標）、Ｌｉｎｕｘ、Ａｐｐｌｅ（登録商標）ＭａｃＯＳＸＳｅｒｖｅｒ（登録商標）、Ｏｒａｃｌｅ（登録商標）Ｓｏｌａｒｉｓ（登録商標）、ＷｉｎｄｏｗｓＳｅｒｖｅｒ（登録商標）、およびＮｏｖｅｌｌ（登録商標）ＮｅｔＷａｒｅ（登録商標）が含まれる。適切なパーソナルコンピュータオペレーティングシステムの非限定的な例には、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｉｎｄｏｗｓ（登録商標）、Ａｐｐｌｅ（登録商標）ＭａｃＯＳＸ（登録商標）、ＵＮＩＸ（登録商標）、およびＧＮＵ／Ｌｉｎｕｘ（登録商標）などのＵＮＩＸ系オペレーティングシステムが含まれる。いくつかの例では、オペレーティングシステムはクラウドコンピューティングによって提供されてもよく、クラウドコンピューティングリソースは１つまたは複数のサービスプロバイダによって提供されてもよい。

いくつかの例では、デバイスは、記憶および／またはメモリデバイスを含むことができる。記憶および／またはメモリデバイスは、一時的または永続的にデータまたはプログラムを記憶するために使用される１つまたは複数の物理装置であってもよい。いくつかの例では、デバイスは揮発性メモリであり、記憶された情報を維持するために電力を必要とする場合がある。いくつかの例では、デバイスは不揮発性メモリであり、デジタル処理デバイスに電力が供給されない場合に記憶された情報を保持することができる。いくつかの例では、不揮発性メモリはフラッシュメモリを含むことができる。いくつかの例では、不揮発性メモリは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）を含むことができる。いくつかの例では、不揮発性メモリは、強誘電体ランダムアクセスメモリ（ＦＲＡＭ）を含むことができる。いくつかの例では、不揮発性メモリは、相変化ランダムアクセスメモリ（ＰＲＡＭ）を含むことができる。

いくつかの例では、デバイスは、例えば、ＣＤ－ＲＯＭ、ＤＶＤ、フラッシュメモリデバイス、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、およびクラウドコンピューティングベースのストレージを含む記憶デバイスであってもよい。いくつかの例では、記憶および／またはメモリデバイスは、本明細書に開示されているものなどのデバイスの組み合わせであってもよい。いくつかの例では、デジタル処理デバイスは、視覚情報をユーザに送信するためのディスプレイを含むことができる。いくつかの例では、ディスプレイは、陰極線管（ＣＲＴ）であってもよい。いくつかの例では、ディスプレイは液晶ディスプレイ（ＬＣＤ）であってもよい。いくつかの例では、ディスプレイは薄膜トランジスタ液晶ディスプレイ（ＴＦＴ－ＬＣＤ）であってもよい。いくつかの例では、ディスプレイは有機発光ダイオード（ＯＬＥＤ）ディスプレイであってもよい。いくつかの例では、ＯＬＥＤディスプレイは、パッシブマトリクスＯＬＥＤ（ＰＭＯＬＥＤ）またはアクティブマトリクスＯＬＥＤ（ＡＭＯＬＥＤ）ディスプレイであってもよい。いくつかの例では、ディスプレイは、プラズマディスプレイであってもよい。いくつかの例では、ディスプレイは、ビデオプロジェクタであってもよい。いくつかの例では、ディスプレイは、本明細書に開示されているものなどのデバイスの組み合わせであってもよい。

いくつかの例では、デジタル処理デバイスは、ユーザから情報を受信するための入力デバイスを含むことができる。いくつかの例では、入力デバイスはキーボードであってもよい。いくつかの例では、入力デバイスは、例えば、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラ、またはスタイラスを含むポインティングデバイスであってもよい。いくつかの例では、入力デバイスはタッチスクリーンまたはマルチタッチスクリーンであってもよい。いくつかの例では、入力デバイスは、音声または他の音入力を取り込むためのマイクロフォンであってもよい。いくつかの例では、入力デバイスは、動作または視覚入力を取り込むためのビデオカメラであってもよい。いくつかの例では、入力デバイスは、本明細書に開示されているものなどのデバイスの組み合わせであってもよい。

Ｄ．非一時的コンピュータ可読記憶媒体
いくつかの例では、本明細書に開示される主題は、場合によりネットワーク化されたデジタル処理デバイスのオペレーティングシステムによって実行可能な命令を含むプログラムで符号化された、１つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。いくつかの例では、コンピュータ可読記憶媒体は、デジタル処理デバイスの有形の構成要素であってもよい。いくつかの例では、コンピュータ可読記憶媒体は、場合によりデジタル処理デバイスから取り外し可能であってもよい。いくつかの例では、コンピュータ可読記憶媒体は、例えば、ＣＤ－ＲＯＭ、ＤＶＤ、フラッシュメモリデバイス、ソリッドステートメモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどを含むことができる。いくつかの例では、プログラムおよび命令は、媒体上に永続的に、実質的に永続的に、半永続的に、または非一時的に符号化されてもよい。

Ｅ．コンピュータシステム
本開示は、本明細書に記載の方法を実施するようにプログラムされたコンピュータシステムを提供する。図１は、患者データ、生物学的データ、生物学的配列、および参照配列を記憶、処理、識別、または解釈するようにプログラムされた、またはそうでなければ構成されたコンピュータシステム（１０１）を示す。コンピュータシステム（１０１）は、本開示の患者データ、生物学的データ、生物学的配列、または参照配列の様々な態様を処理することができる。コンピュータシステム（１０１）は、ユーザの電子デバイス、または電子デバイスに対して遠隔に配置されたコンピュータシステムであってもよい。電子デバイスは、モバイル電子デバイスであってもよい。

コンピュータシステム（１０１）は、セントラルプロセシングユニット（１０５）（ＣＰＵ、本明細書では「プロセッサ」および「コンピュータプロセッサ」）を備え、それは、シングルコアもしくはマルチコアプロセッサ、または並列処理のための複数のプロセッサであってもよい。コンピュータシステム（１０１）はまた、メモリまたはメモリ位置（１１０）（例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ）と、電子記憶ユニット（１１５）（例えば、ハードディスク）と、１つまたは複数の他のシステムと通信するための通信インターフェース（１２０）（例えば、ネットワークアダプタ）と、キャッシュ、他のメモリ、データ記憶および／または電子ディスプレイアダプタなどの周辺デバイス（１２５）とを備える。メモリ（１１０）、記憶ユニット（１１５）、インターフェース（１２０）および周辺デバイス（１２５）は、マザーボードなどの通信バス（実線）を介してＣＰＵ（１０５）と通信する。記憶ユニット（１１５）は、データを記憶するためのデータ記憶ユニット（またはデータ保管所）であってもよい。コンピュータシステム（１０１）は、通信インターフェース（１２０）の援助でコンピュータネットワーク（「ネットワーク」）（１３０）に操作可能に接続され得る。ネットワーク（１３０）は、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信するイントラネットおよび／もしくはエクストラネットとすることができる。ネットワーク（１３０）は、いくつかの例では、電気通信および／またはデータネットワークである。ネットワーク（１３０）は、１つまたは複数のコンピュータサーバを含むことができ、それにより、クラウドコンピューティングなどの分散コンピューティングが可能になり得る。ネットワーク（１３０）は、いくつかの例では、コンピュータシステム（１０１）の助けを借りてピアツーピアネットワークを実装することができ、これにより、コンピュータシステム（１０１）に接続されたデバイスは、クライアントまたはサーバとして機能することが可能になり得る。

ＣＰＵ（１０５）は、一連の機械可読命令を実行することができ、プログラムまたはソフトウェアに組み込まれてもよい。命令は、メモリ（１１０）などのメモリ位置に記憶され得る。命令は、ＣＰＵ（１０５）に向けることができ、その後、本開示の方法を実施するようにＣＰＵ（１０５）をプログラムするか、さもなければ構成することができる。ＣＰＵ（１０５）によって実行される操作の例は、フェッチ、復号化、実行、およびライトバックを含むことができる。

ＣＰＵ（１０５）は、集積回路などの回路の一部であってもよい。システム（１０１）の１つまたは複数の他の構成要素が回路に含まれてもよい。いくつかの例では、回路は特定用途向け集積回路（ＡＳＩＣ）である。

記憶ユニット（１１５）は、ドライバ、ライブラリーおよび保存されたプログラムなどのファイルを記憶することができる。記憶ユニット（１１５）は、ユーザデータ、例えば、ユーザプレファレンスおよびユーザプログラムを記憶することができる。いくつかの例におけるコンピュータシステム（１０１）は、コンピュータシステム（１０１）の外部にある、例えば、イントラネットまたはインターネットを介してコンピュータシステム（１０１）と通信する遠隔サーバ上に位置する１つまたは複数の追加のデータ記憶ユニットを含むことができる。

コンピュータシステム（１０１）は、ネットワーク（１３０）を介して１つまたは複数の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム（１０１）は、ユーザの遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例には、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートもしくはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ、Ａｎｄｒｏｉｄ対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、またはパーソナル情報端末が含まれる。ユーザは、ネットワーク（１３０）を介してコンピュータシステム（１０１）にアクセスすることができる。

本明細書に記載の方法は、コンピュータシステム（１０１）の電子記憶位置、例えばメモリ（１１０）または電子記憶ユニット（１１５）に記憶された機械（例えば、コンピュータプロセッサ）実行可能コードによって実施することができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供されてもよい。使用中、コードはプロセッサ（１０５）によって実行されてもよい。いくつかの例では、コードは、記憶ユニット（１１５）から取得され、プロセッサ（１０５）による容易なアクセスのためにメモリ（１１０）に記憶されてもよい。いくつかの例では、電子記憶ユニット（１１５）は除外されてもよく、機械実行可能命令はメモリ（１１０）に記憶される。

コードは、コードを実行するように適合されたプロセッサを有する機械で使用するために事前コンパイルおよび構成されてもよく、または実行時に解釈もしくはコンパイルされてもよい。コードは、コードが事前コンパイルされた、解釈された、またはコンパイルされたような様式で実行できるように選択され得るプログラミング言語で供給され得る。

コンピュータシステム（１０１）など、本明細書で提供されるシステムおよび方法の態様は、プログラミングにおいて具現化され得る。この技術の様々な態様は、典型的には機械（またはプロセッサ）実行可能コード、および／またはある種の機械可読媒体上に載せられるかまたはそこに具現化される関連データの形態の「製品」または「製造品」と考えることができる。機械実行可能コードは、電子記憶ユニット、例えばメモリ（例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスクに記憶され得る。「記憶」型媒体は、コンピュータ、プロセッサなどの有形メモリ、またはそれらの関連モジュール、例えば多様な半導体メモリ、テープドライブ、ディスクドライブなどのいずれか、またはすべてを含むことができ、ソフトウェアプログラミングのためにいつでも非一時的記憶を提供することができる。ソフトウェアの全部または一部は、インターネットまたは様々な他の電気通信ネットワークを介して通信されることがある。そのような通信は、例えば、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへの、例えば管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのローディングを可能にすることができる。したがって、ソフトウェア要素を運ぶことができる別のタイプの媒体は、光波、電気波、および電磁波を含み、例えば、有線および光固定電話ネットワークを介して、様々な空中リンク（ａｉｒ－ｌｉｎｋ）を超えて、ローカルデバイス間の物理インターフェースにわたって使用される。そのような波を伝達する物理的要素、例えば有線または無線リンク、光リンクなどもまた、ソフトウェアを運ぶ媒体と考えることができる。本明細書で使用される場合、非一時的な有形「記憶」媒体に限定されない限り、コンピュータまたは機械の「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。

したがって、コンピュータ実行可能コードなどの機械可読媒体は、これらに限定されないが、有形記憶媒体、搬送波媒体、または物理伝送媒体を含む多くの形態をとることができる。不揮発性記憶媒体は、例えば、光学または磁気ディスク、例えば任意のコンピュータ等における記憶デバイスのいずれかを含み、例えば図面に示されるデータベースなどを実装するために使用され得る。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリを含む。有形伝達媒体は、同軸ケーブル、コンピュータシステム内のバスを含むワイヤを含む、銅ワイヤおよびファイバオプティクスを含む。搬送波伝達媒体は、電気もしくは電磁信号、または無線周波数（ＲＦ）および赤外線（ＩＲ）データ通信中に生成されるような音波もしくは光波の形態をとることができる。したがって、コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤまたはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を搬送する搬送波、そのような搬送波を搬送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／もしくはデータを読み取ることができる任意の他の媒体を含む。これらの形態のコンピュータ可読媒体の多くは、１つまたは複数の命令の１つまたは複数のシーケンスを、実行のためにプロセッサに搬送することに関与することができる。

コンピュータシステム（１０１）は、例えば、核酸配列、富化核酸試料、メチル化プロファイル、発現プロファイル、およびメチル化または発現プロファイルの分析を提供するためのユーザインターフェース（ＵＩ）（１４０）を含む電子ディスプレイ（１３５）を含むか、またはそれと通信することができる。ＵＩの例には、グラフィカルユーザインターフェース（ＧＵＩ）およびウェブベースのユーザインターフェースが含まれるが、これらに限定されない。

本開示の方法およびシステムは、１つまたは複数のアルゴリズムによって実施することができる。アルゴリズムは、セントラルプロセシングユニット（１０５）による実行時にソフトウェアによって実施されてもよい。アルゴリズムは、例えば、患者データ、生物学的データ、生物学的配列、および参照配列を記憶、処理、特定、または解釈することができる。

方法およびシステムの特定の例が本明細書に示され説明されているが、当業者は、これらが例としてのみ提供され、本明細書内で限定することを意図するものではないことを理解するであろう。本明細書に記載の範囲から逸脱することなく、ここで当業者には多数の変形、変更、および置換が思い浮かぶであろう。さらに、記載される方法およびシステムのすべての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されず、説明は、そのような代替形態、修正形態、変形形態または均等物を含むことが意図されることを理解されたい。

いくつかの例では、本明細書に開示される主題は、少なくとも１つのコンピュータプログラムまたはその使用を含むことができる。コンピュータプログラムは、指定されたタスクを実行するように書き込まれた、デジタル処理デバイスのＣＰＵ、ＧＰＵ、またはＴＰＵで実行可能な命令のシーケンスであり得る。コンピュータ可読命令は、プログラムモジュール、例えば特定のタスクを実行する、または特定の抽象データ型を実現する、関数、オブジェクト、アプリケーションプログラミングインターフェース（ＡＰＩ）、データ構造などとして実装されてもよい。本明細書で提供される開示に照らして、コンピュータプログラムは、様々な言語の様々なバージョンで書かれてもよい。

コンピュータ可読命令の機能は、様々な環境における所望に応じて組み合わされ、または分配されてもよい。いくつかの例では、コンピュータプログラムは１つの命令シーケンスを含むことができる。いくつかの例では、コンピュータプログラムは複数の命令シーケンスを含むことができる。いくつかの例では、コンピュータプログラムは１つの場所から提供されてもよい。いくつかの例では、コンピュータプログラムは複数の場所から提供されてもよい。いくつかの例では、コンピュータプログラムは、１つまたは複数のソフトウェアモジュールを含むことができる。いくつかの例では、コンピュータプログラムは、１つまたは複数のウェブアプリケーション、１つまたは複数のモバイルアプリケーション、１つまたは複数のスタンドアロンアプリケーション、１つまたは複数のウェブブラウザプラグイン、拡張機能、アドイン、またはアドオン、またはそれらの組み合わせを部分的または全体的に含むことができる。

いくつかの例では、コンピュータ処理は、統計学、数学、生物学、またはそれらの任意の組み合わせの方法であり得る。いくつかの例では、コンピュータ処理方法は、例えば、ロジスティック回帰、次元削減、主成分分析、オートエンコーダ、特異値分解、フーリエ基底、特異値分解、ウェーブレット、判別分析、サポートベクターマシン、木ベースの方法、ランダムフォレスト、勾配ブースティング木、ロジスティック回帰、行列因数分解、ネットワーククラスタリング、およびニューラルネットワークを含む次元削減方法を含む。

いくつかの例では、コンピュータ処理方法は、例えば、回帰、サポートベクターマシン、木ベースの方法、およびネットワークを含む教師あり機械学習方法である。

いくつかの例では、コンピュータ処理方法は、例えば、クラスタリング、ネットワーク、主成分分析、および行列因数分解を含む教師なし機械学習方法である。

Ｆ．データベース
いくつかの例では、本明細書に開示される主題は、患者データ、生物学的データ、生物学的配列、または参照配列を記憶するための１つまたは複数のデータベース、またはその使用を含むことができる。参照配列は、データベースから導出され得る。本明細書中に提供される開示を考慮すると、多くのデータベースが配列情報の保存および読み出しに適している場合がある。いくつかの例では、適切なデータベースは、例えば、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、実体関連モデルデータベース、連想データベース、およびＸＭＬデータベースを含むことができる。いくつかの例では、データベースはインターネットベースであってもよい。いくつかの例では、データベースはウェブベースであってもよい。いくつかの例では、データベースはクラウドコンピューティングベースであってもよい。いくつかの例では、データベースは、１つまたは複数のローカルコンピュータ記憶デバイスに基づくことができる。

一態様では、本開示は、本明細書に開示された方法を実行するようにプロセッサに指示する命令を含む、非一時的コンピュータ可読媒体を提供する。

一態様では、本開示は、コンピュータ可読媒体を備える計算デバイスを提供する。

別の態様では、本開示は、生物学的試料の分類を実行するためのシステムであって、ａ）複数のトレーニング試料を受信する受信器であって、複数のトレーニング試料の各々が複数の分子クラスを有し、複数のトレーニング試料の各々が１つまたは複数の既知の標識を含む、受信器と、ｂ）複数のトレーニング試料の各々について機械学習モデルに入力されるように動作可能な、アッセイに対応する特徴のセットを識別するための特徴モジュールであって、特徴のセットが複数のトレーニング試料中の分子の特性に対応し、複数のトレーニング試料の各々について、システムが、トレーニング試料中の複数の分子クラスを複数の異なるアッセイに供して測定値のセットを取得するように動作可能であり、測定値の各セットが、トレーニング試料中の分子クラスに適用される１つのアッセイからであり、複数の測定値のセットが、複数のトレーニング試料について取得される、特徴モジュールと、ｃ）測定値のセットを分析してトレーニング試料についてのトレーニングベクトルを得るための分析モジュールであって、トレーニングベクトルが、対応するアッセイの特徴のＮ個のセットの特徴値を含み、各特徴値が、特徴に対応し、１つまたは複数の測定値を含み、トレーニングベクトルが、複数の異なるアッセイの第１のサブセットに対応するＮ個の特徴のセットのうちの少なくとも２つからの少なくとも１つの特徴を使用して形成される、分析モジュールと、ｄ）機械学習モデルのパラメータを用いてトレーニングベクトルの情報をシステムに提供して、複数のトレーニング試料についての出力標識を得るための、標識モジュールと、ｅ）出力標識をトレーニング試料の既知の標識と比較するための比較器モジュールと、ｆ）出力標識をトレーニング試料の既知の標識と比較することに基づいて、パラメータの最適値を機械学習モデルの一部として反復的に検索するためのトレーニングモジュールと、ｇ）機械学習モデルのパラメータおよび機械学習モデルの特徴のセットを提供するための出力モジュールとを含む、システムを提供する。

ＶＩ．集団における対象の分類方法
開示される方法は、対象におけるｃｆＤＮＡの分析を介して、結腸細胞増殖障害に関連するゲノムＤＮＡの遺伝的および／またはエピジェネティックパラメータを確認することに関する。方法は、結腸細胞増殖性障害の、より具体的には、前記障害のステージまたはサブクラスおよび前記障害に対する遺伝的素因の特定、およびそれらの識別の改善を可能にすることによって改善された診断、治療およびモニタリングにおいて使用するためのものである。

いくつかの実施形態では、方法は、ＣｐＧアイランド、ＣｐＧショア、またはＣｐＧシェルフのメチル化状態を分析することを含む。

いくつかの実施形態では、方法は、生物学的試料中の無細胞核酸のメチル化状態、半メチル化状態、高メチル化状態または低メチル化状態を分析することを含む。

一態様では、本開示は、無細胞試料に適用され得る結腸細胞増殖性障害を検出する方法を提供して、例えば、無細胞循環結腸細胞増殖性障害ＤＮＡを検出する。方法は、基本的な「陽性」結腸細胞増殖性障害シグナルとして、単一シーケンシングリード内のメチル化シグナルの検出を利用する。

一態様では、本開示は、結腸細胞増殖性障害を検出する方法であって、対象から得られた無細胞試料からＤＮＡを抽出すること、ＤＮＡの少なくとも一部をメチルシーケンシング用に変換すること、変換されたＤＮＡから癌においてメチル化された領域を増幅すること、増幅された領域からシーケンシングリードを生成すること、および癌パネル内の少なくとも１つ、少なくとも２つ、少なくとも３つ、または３つを超えるメチル化領域を含む結腸細胞増殖性障害シグナルを検出して、２つの対象群（例えば、健康対癌、疾患ステージ、進行腺腫対癌）を識別することができる分類子を得るために機械学習モデルに入力される入力特徴を得ることを含む方法を提供する。

本明細書に記載のトレーニングされた機械学習方法、モデル、および識別分類子は、癌検出、診断、および治療応答性を含む様々な医療用途に適用することができる。モデルが個々のメタデータおよび分析物由来の特徴でトレーニングされ得るので、適用は、集団内の個体を階層化し、それに応じて治療決定を導くように調整することができる。

診断
本明細書で提供される方法およびシステムは、人工知能ベースのアプローチを使用する予測分析を実行して、対象（患者）から取得されたデータを分析し、癌（例えば、結腸直腸癌）を有する対象の診断の出力を生成することができる。例えば、アプリケーションは、取得されたデータに予測アルゴリズムを適用して、癌を有する対象の診断を生成することができる。予測アルゴリズムは、人工知能ベースの予測子、例えば取得データを処理して、癌を有する対象の診断を生成するように構成された機械学習ベースの予測子を含み得る。

機械学習予測子は、データセット、例えば、入力として癌を有する患者のコホートの１つまたは複数のセットからの個体の生物学的試料に対して、本明細書に記載のシグネチャパネルを使用するメチル化アッセイを実行することによって生成されたデータセット、および機械学習予測子への出力として対象の既知の診断（例えば、ステージングおよび／または腫瘍分画）結果を使用してトレーニングされ得る。

トレーニングデータセット（例えば、本明細書中に記載されるシグネチャパネルを使用するメチル化アッセイを個体の生物学的試料に対して行うことによって生成されるデータセット）は、例えば、共通の特徴（特徴）および結果（標識）を有する対象の１つまたは複数のセットから生成することができる。トレーニングデータセットは、特徴および診断に関連する特徴に対応する標識のセットを含むことができる。特徴は、例えば、ｃｆＤＮＡアッセイ測定値の特定の範囲またはカテゴリ、例えば参照ゲノムのビンのセット（ゲノムウィンドウ）のそれぞれに重複するかまたは含まれる、健康な試料および疾患試料から得られた生物学的試料中のｃｆＤＮＡ断片のカウントなどの特徴を含み得る。例えば、所与の時点で所与の対象から収集された特徴のセットは、所与の時点での対象の特定された癌を示すことができる診断シグネチャとして集合的に機能することができる。特徴はまた、１つまたは複数の癌などの、対象の診断結果を示す標識を含み得る。

標識は、結果、例えば、対象の既知の診断（例えば、ステージングおよび／または腫瘍分画）結果を含み得る。結果には、対象の癌に関連する特徴が含まれ得る。例えば、特徴は、対象が１つまたは複数の癌を有することを示し得る。

トレーニングセット（例えば、トレーニングデータセット）は、１つまたは複数の対象セットに対応するデータセット（例えば、１つまたは複数の癌を有する、または有さない患者の遡及的および／または予定されるコホート）のランダムサンプリングによって選択することができる。あるいは、トレーニングセット（例えば、トレーニングデータセット）は、１つまたは複数の対象セットに対応するデータセット（例えば、１つまたは複数の癌を有する、または有さない患者の遡及的および／または予定されるコホート）の比例サンプリングによって選択することができる。トレーニングセットは、対象の１つまたは複数のセット（例えば、異なる臨床現場または試験の患者）に対応するデータセットにわたってバランスをとることができる。機械学習予測子は、診断精度測定値に対応する最低限所望される値を有するなど、精度または性能について一定の所定の条件が満たされるまでトレーニングすることができる。例えば、診断精度測定値は、対象における１つまたは複数の癌の診断、ステージング、または腫瘍分画の予測に対応し得る。

診断精度測定値の例には、感度、特異性、陽性的中率（ＰＰＶ）、陰性的中率（ＮＰＶ）、精度、および癌（例えば、結腸直腸癌）を検出または予測する診断精度に対応する受信者操作特性（ＲＯＣ）曲線の曲線下面積（ＡＵＣ）が含まれ得る。

一態様では、本開示は、個体の集団を識別することができる分類子を使用する方法であって、ａ）生物学的試料中の複数の分子クラスのアッセイであって、複数の分子クラスを表す複数の測定値セットを提供するアッセイを行う工程、ｂ）機械学習または統計モデルに入力されるべき複数の分子クラスの各々の特性に対応する特徴のセットを同定する工程、ｃ）複数の測定値セットの各々から特徴値の特徴ベクトルを調製する工程であって、各特徴値が特徴セットの特徴に対応し、１つまたは複数の測定値を含み、特徴ベクトルが、複数の測定値セットの各セットを使用して取得された少なくとも１つの特徴値を含む、工程、ｄ）分類子を含むトレーニングされた機械学習モデルをコンピュータシステムのメモリにロードする工程であって、トレーニングされた機械学習モデルが、トレーニング生物学的試料から得られたトレーニングベクトルを使用してトレーニングされ、トレーニングされた生物学的試料の第１のサブセットは、指定された特性を有すると特定され、トレーニングされた生物学的試料の第２のサブセットは、指定された特性を有さないと特定される、工程、ｅ）トレーニングされた機械学習モデルを特徴ベクトルに適用して、生物学的試料が指定された特性を有するかどうかの出力分類を取得し、それによって指定された特性を有する個体の集団を識別する工程、を含む方法を提供する。

一態様では、本開示は、個体の集団を識別することができる階層を使用する方法であって、ａ）生物学的試料中の複数の分子クラスのアッセイであって、複数の分子クラスを表す複数の測定値セットを提供するアッセイを行う工程、ｂ）機械学習または統計モデルに入力されるべき複数の分子クラスの各々の特性に対応する特徴のセットを同定する工程、ｃ）複数の測定値セットの各々から特徴値の特徴ベクトルを調製する工程であって、各特徴値が特徴セットの特徴に対応し、１つまたは複数の測定値を含み、特徴ベクトルが、複数の測定値セットの各セットを使用して取得された少なくとも１つの特徴値を含む、工程、ｄ）分類子を含むトレーニングされた機械学習モデルをコンピュータシステムのメモリにロードする工程であって、トレーニングされた機械学習モデルが、トレーニング生物学的試料から得られたトレーニングベクトルを使用してトレーニングされ、トレーニングされた生物学的試料の第１のサブセットは、指定された特性を有すると特定され、トレーニングされた生物学的試料の第２のサブセットは、指定された特性を有さないと特定される、工程、ｅ）トレーニングされた機械学習モデルを特徴ベクトルに適用して、生物学的試料が指定された特性を有するかどうかの出力分類を取得し、それによって指定された特性を有する個体の集団を識別する工程、を含む方法を提供する。

一態様において、本開示は、個体の集団を識別することができる階層を使用する方法であって、ａ）１つまたは複数の第１の患者試料中の予め選択されたゲノム領域の単一シーケンシングリード内のメチル化シグナルを検出すること、ｂ）データ出力の階層に影響を及ぼして機械学習モデルに影響を及ぼすメチル化シグナル、およびｃ）影響を受けた階層を使用してメチル化シグナルを検出する第２の患者試料を含む方法を提供する。

いくつかの実施形態では、予め選択されたゲノム領域は、表１～１１の２つ以上のメチル化ゲノム領域、表１～１１の３つ以上のメチル化ゲノム領域、表１～１１の４つ以上のメチル化ゲノム領域、表１～１１の５つ以上のメチル化ゲノム領域、表１～１１の６つ以上のメチル化ゲノム領域、表１～１１の７つ以上のメチル化ゲノム領域、表１～１１の８つ以上のメチル化ゲノム領域、表１～１１の９つ以上のメチル化ゲノム領域、表１～１１の１０個以上のメチル化ゲノム領域、表１～１１の１１個以上のメチル化ゲノム領域、表１～１１の１２個以上のメチル化ゲノム領域、または表１～１１の１３個以上のメチル化ゲノム領域から選択される。

別の態様では、本開示は、対象の癌を同定する方法であって、ａ）対象からの無細胞核酸（ｃｆＮＡ）分子を含む生物学的試料を提供する工程、ｂ）メチル変換し、前記対象からの前記ｃｆＮＡ分子をシーケンシングして、複数のｃｆＮＡシーケンシングリードを生成する工程、ｃ）前記複数のｃｆＮＡシーケンシングリードを参照ゲノムにアライメントする工程、ｄ）前記参照ゲノムの第１の複数のゲノム領域の各々において前記複数のｃｆＮＡシーケンシングリードの定量的測定値を生成して、第１のｃｆＮＡ特徴セットを生成する工程であって、前記参照ゲノムの前記第１の複数のゲノム領域が少なくとも約１０個の別個の領域を含み、前記少なくとも約１０個の別個の領域の各々が、本明細書中に記載されるシグネチャパネルにおけるメチル化領域からなる群から選択される遺伝子の少なくとも一部を含む、工程、およびｅ）トレーニングされたアルゴリズムを前記第１のｃｆＮＡ特徴セットに適用して、前記対象が前記癌を有する尤度を生成する工程を含む方法を提供する。

いくつかの例では、前記少なくとも約１０個の別個の領域は、少なくとも約２０個の別個の領域を含み、前記少なくとも約２０個の別個の領域の各々は、表１～１１に特定されるメチル化領域の少なくとも一部を含む。いくつかの例では、前記少なくとも約１０個の別個の領域は、少なくとも約３０個の別個の領域を含み、前記少なくとも約３０個の別個の領域の各々は、表１～１１に特定されるメチル化領域の少なくとも一部を含む。

別の例として、そのような所定の条件は、結腸細胞増殖性障害を予測する特異性が、例えば、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、または少なくとも約９９％の値を含むことであり得る。

別の例として、そのような所定の条件は、結腸細胞増殖性障害を予測する陽性的中率（ＰＰＶ）が、例えば、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、または少なくとも約９９％の値を含むことであり得る。

別の例として、そのような所定の条件は、結腸細胞増殖性障害を予測する陰性的中率（ＮＰＶ）が、例えば、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、または少なくとも約９９％の値を含むことであり得る。

別の例として、そのような所定の条件は、結腸細胞増殖性障害を予測する受信者操作特性（ＲＯＣ）曲線の曲線下面積（ＡＵＣ）が、少なくとも約０．５０、少なくとも約０．５５、少なくとも約０．６０、少なくとも約０．６５、少なくとも約０．７０、少なくとも約０．７５、少なくとも約０．８０、少なくとも約０．８５、少なくとも約０．９０、少なくとも約０．９５、少なくとも約０．９６、少なくとも約０．９７、少なくとも約０．９８、または少なくとも約０．９９の値を含むことであり得る。

治療応答性
本明細書に記載の予測分類子、システム、および方法は、いくつかの臨床用途のための個体の集団の分類に適用することができる（例えば、本明細書中に記載されるシグネチャパネルを使用するメチル化アッセイの、個体の生物学的試料に対する実施に基づく）。そのような臨床用途の例としては、早期癌の検出、癌の診断、癌の特定のステージへの分類、癌治療用の治療剤に対する応答性または耐性の決定が挙げられる。

本明細書に記載の方法およびシステムは、結腸細胞増殖性障害の特徴、例えば等級およびステージに適用され得る。したがって、分析物とアッセイとの組み合わせを本システムおよび方法で使用して、様々な組織の様々な癌タイプにわたる癌治療薬の応答性を予測し、治療応答性に基づいて個体を分類することができる。いくつかの実施形態では、本明細書に記載の分類子は、個体の群を治療応答者と非応答者に階層化することができる。

本開示はまた、目的の状態または疾患の薬物標的（例えば、特定のクラスに関連するかまたは重要である遺伝子）を決定する方法であって、個体から得られた試料を少なくとも１つの遺伝子の遺伝子発現レベルについて評価すること、および近傍分析ルーチンを使用して、試料の分類に関連する遺伝子を決定し、それによって分類に関連する１つ以上の薬物標的を確認することを含む方法を提供する。

本開示はまた、疾患クラスを治療するように設計された薬物の有効性を決定するための方法であって、疾患クラスを有する個体から試料を得ること、試料を薬物に供すること、少なくとも１つの遺伝子の遺伝子発現レベルについて薬物曝露試料を評価すること、および重み付け投票スキームで構築されたコンピュータモデルを使用して、モデルの遺伝子発現レベルに対する試料の相対遺伝子発現レベルの関数として、疾患のクラスに薬物曝露試料を分類することを含む方法を提供する。

本開示はまた、疾患クラスを治療するように設計された薬物の有効性を決定するための方法であって、個体が薬物を受けており、薬物を受けた個体から試料を得ること、少なくとも１つの遺伝子の遺伝子発現レベルについて試料を評価すること、重み付け投票スキームで構築されたモデルを使用して、試料の遺伝子発現レベルをモデルの遺伝子発現レベルと比較して評価することを含む、試料を疾患のクラスに分類することを含む方法を提供する。

本開示はまた、個体が表現型クラス（例えば、知能、治療への応答、寿命、ウイルス感染の尤度または肥満）に属するかどうかを決定する方法であって、個体から試料を得ること、少なくとも１つの遺伝子の遺伝子発現レベルについて試料を評価すること、重み付け投票スキームで構築されたモデルを使用して、試料の遺伝子発現レベルをモデルの遺伝子発現レベルと比較して評価することを含む、試料を疾患のクラスに分類することを含む方法を提供する。

一態様では、治療応答性に基づいて集団を分類することに関する本明細書に記載のシステムおよび方法は、これらのクラスに限定されないが、ＤＮＡ損傷剤、ＤＮＡ修復標的療法、ＤＮＡ損傷シグナル伝達の阻害剤、ＤＮＡ損傷誘導性細胞周期停止の阻害剤、およびＤＮＡ損傷を間接的にもたらすプロセスの阻害のクラスの化学療法剤で治療される癌に言及する。これらの化学療法剤のそれぞれは、その用語が本明細書で使用される場合、「ＤＮＡ損傷治療剤」とみなされ得る。

患者の分析物データに基づいて、患者は、臨床的再発のリスクが高いまたは低い患者などの高リスクおよび低リスクの患者群に分類することができ、結果を使用して治療方針を決定することができる。例えば、高リスク患者であると判定された患者は、手術後に補助的化学療法で治療することができる。低リスク患者とみなされる患者については、手術後の補助的化学療法を控えてもよい。したがって、本開示は、特定の態様では、再発のリスクを示す結腸癌腫瘍の遺伝子発現プロファイルを調製する方法を提供する。

様々な例では、本明細書に記載の分類子は、個体の集団を治療に対する応答者と非応答者との間で階層化することができる。

別の態様では、本明細書に開示される方法は、癌の検出またはモニタリングを含む臨床用途に適用され得る。

いくつかの実施形態では、本明細書に開示される方法を適用して、治療に対する応答を決定および／または予測することができる。

いくつかの実施形態では、本明細書に開示される方法を適用して、腫瘍負荷をモニタリングおよび／または予測することができる。

いくつかの実施形態では、本明細書に開示される方法を適用して、術後の残存腫瘍を検出および／または予測することができる。

いくつかの実施形態では、本明細書に開示される方法を適用して、治療後の微小残存病変を検出および／または予測することができる。

いくつかの実施形態では、本明細書に開示される方法を適用して、再発を検出および／または予測することができる。

一態様では、本明細書に開示される方法は、二次スクリーニングとして適用され得る。

一態様では、本明細書に開示される方法は、一次スクリーニングとして適用され得る。

一態様では、本明細書に開示される方法を適用して、癌の発症をモニタリングすることができる。

一態様では、本明細書に開示される方法を適用して、癌のリスクをモニタリングおよび／または予測することができる。

ＶＩＩ．結腸直腸癌の特定またはモニタリング
トレーニングされたアルゴリズムを使用してデータセットを処理した後、対象において結腸直腸癌を特定またはモニタリングすることができる。特定は、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）に少なくとも部分的に基づき得る。

結腸直腸癌は、対象において、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれを超える精度で特定され得る。トレーニングされたアルゴリズムによって結腸直腸癌を特定する精度は、結腸直腸癌を有するかまたは有さないか正しく特定または分類された独立した試験試料（例えば、結腸直腸癌を有することが知られた対象、または結腸直腸癌について陰性の臨床試験結果を有する対象）の割合として計算され得る。

結腸直腸癌は、対象において少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれを超える陽性的中率（ＰＰＶ）で特定され得る。トレーニングされたアルゴリズムを使用する結腸直腸癌特定のＰＰＶは、結腸直腸癌を有すると特定または分類された無細胞生物学的試料の、結腸直腸癌を真に有する対象に対応するパーセンテージとして計算され得る。

結腸直腸癌は、対象において少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれを超える陰性的中率（ＮＰＶ）で特定され得る。トレーニングされたアルゴリズムを使用する結腸直腸癌特定のＮＰＶは、結腸直腸癌を有さないと特定または分類された無細胞生物学的試料の、結腸直腸癌を真に有さない対象に対応するパーセンテージとして計算され得る。

結腸直腸癌は、対象において少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．１％、少なくとも約９９．２％、少なくとも約９９．３％、少なくとも約９９．４％、少なくとも約９９．５％、少なくとも約９９．６％、少なくとも約９９．７％、少なくとも約９９．８％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、またはそれを超える臨床感度で特定され得る。トレーニングされたアルゴリズムを使用して結腸直腸癌を特定する臨床的感度は、結腸直腸癌を有すると正確に特定または分類される、結腸直腸癌の存在に関連する独立した試験試料（例えば、結腸直腸癌を有することが知られた対象）の割合として計算され得る。

結腸直腸癌は、対象において少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．１％、少なくとも約９９．２％、少なくとも約９９．３％、少なくとも約９９．４％、少なくとも約９９．５％、少なくとも約９９．６％、少なくとも約９９．７％、少なくとも約９９．８％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、またはそれを超える臨床特異性で特定され得る。トレーニングされたアルゴリズムを使用して結腸直腸癌を特定する臨床的特異性は、結腸直腸癌を有さないと正確に特定または分類される、結腸直腸癌の非存在に関連する独立した試験試料（例えば、結腸直腸癌について陰性の臨床試験結果を有する対象）の割合として計算され得る。

いくつかの実施形態では、トレーニングされたアルゴリズムは、対象が少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれを超える結腸直腸癌のリスクにあることを決定し得る。

トレーニングされたアルゴリズムは、対象が少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．１％、少なくとも約９９．２％、少なくとも約９９．３％、少なくとも約９９．４％、少なくとも約９９．５％、少なくとも約９９．６％、少なくとも約９９．７％、少なくとも約９９．８％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％またはそれを超える精度で結腸直腸癌のリスクにあることを決定し得る。

対象が結腸直腸癌を有すると特定されると、対象に治療的介入（例えば、対象の結腸直腸癌を治療するための適切な治療過程を処方または投与すること）を提供することができる。治療的介入は、有効量の薬物の処方、結腸直腸癌のさらなる試験もしくは評価、結腸直腸癌のさらなるモニタリング、またはそれらの組み合わせを含み得る。対象が現在、治療の過程で結腸直腸癌を治療されている場合、治療的介入は、その後の異なる治療の過程（例えば、現行の治療の過程の非有効性によって、治療有効性を増加させるための）を含み得る。治療的介入は、例えば、その内容が参照により本明細書に組み込まれる、「ＷＨＯｌｉｓｔｏｆｐｒｉｏｒｉｔｙｍｅｄｉｃａｌｄｅｖｉｃｅｓｆｏｒｃａｎｃｅｒｍａｎａｇｅｍｅｎｔ，ＷＨＯＭｅｄｉｃａｌｄｅｖｉｃｅｔｅｃｈｎｉｃａｌｓｅｒｉｅｓ」、世界保健機構、ＩＳＢＮ：９７８－９２－４－１５６５４６－２，Ｇｅｎｅｖａ，２０１７に記載され得る。治療的介入は、例えば、その内容が参照により本明細書に組み込まれる、Ｗｏｌｐｉｎｅｔａｌ．，「ＳｙｓｔｅｍｉｃＴｒｅａｔｍｅｎｔｏｆＣｏｌｏｒｅｃｔａｌＣａｎｃｅｒ」、Ｇａｓｔｒｏｅｎｔｅｒｏｌｏｇｙ，Ｖｏｌ．１３４，Ｉｓｓｕｅ５，２００８，ｐｐ．１２９６－１３１０．ｅ１によって記載され得る。

治療的介入は、結腸直腸癌の診断を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影（ＣＴ）スキャン、磁気共鳴画像化（ＭＲＩ）スキャン、超音波スキャン、胸部Ｘ線、陽電子放射断層撮影（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、無細胞生物学的細胞学、便免疫化学試験（ＦＩＴ）、便潜血試験（ＦＯＢＴ）、またはそれらの任意の組み合わせを含み得る。

結腸直腸癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）は、患者（例えば、結腸直腸癌を有するか、または結腸直腸癌について治療されている対象）をモニタリングするために、ある期間にわたって評価され得る。そのような場合、患者のデータセットの定量的測定値は、治療の過程中に変化し得る。例えば、有効な治療によって結腸直腸癌のリスクが低下している患者のデータセットの定量的測定値は、健康な対象（例えば、結腸直腸癌を有しない対象）のプロファイルまたは分布へとシフトし得る。逆に、例えば、無効な治療によって結腸直腸癌のリスクが増加している患者のデータセットの定量的測定値は、結腸直腸癌のより高いリスク、または結腸直腸癌のより進行した等級もしくはステージを有する対象のプロファイルまたは分布へとシフトし得る。

対象の結腸直腸癌は、対象の結腸直腸癌を治療するための治療の過程をモニタリングすることによってモニタリングされ得る。モニタリングは、２つ以上の時点で対象の結腸直腸癌を評価することを含み得る。評価は、２つ以上の時点のそれぞれにおいて決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）に少なくとも基づき得る。

いくつかの実施形態では、結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）における、２つ以上の時点間で決定された差は、１つまたは複数の臨床的指標、例えば、（ｉ）対象の結腸直腸癌の診断、（ｉｉ）対象の結腸直腸癌の予後、（ｉｉｉ）対象の結腸直腸癌のリスクの増加、（ｉｖ）対象の結腸直腸癌のリスクの低下、（ｖ）対象の結腸直腸癌を治療するための治療過程の有効性、および（ｖｉ）対象の結腸直腸癌を治療するための治療過程の非有効性を示し得る。

いくつかの実施形態では、２つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）の差は、対象の結腸直腸癌の診断を示し得る。例えば、結腸直腸癌が先の時点で対象において検出されなかったが、後の時点で対象において検出された場合、その差は、対象の結腸直腸癌の診断を示す。臨床的行為または決定、例えば、対象への新たな治療的介入の処方または投与は、対象の結腸直腸癌の診断のこの指標に基づいて行われ得る。臨床的行為または決定は、結腸直腸癌の診断を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影（ＣＴ）スキャン、磁気共鳴画像化（ＭＲＩ）スキャン、超音波スキャン、胸部Ｘ線、陽電子放射断層撮影（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、無細胞生物学的細胞学、便免疫化学試験（ＦＩＴ）、便潜血試験（ＦＯＢＴ）、またはそれらの任意の組み合わせを含み得る。

いくつかの実施形態では、２つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）の差は、対象の結腸直腸癌の予後を示し得る。

いくつかの実施形態では、２つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）の差は、対象が結腸直腸癌の高いリスクを有することを示し得る。例えば、結腸直腸癌が先の時点および後の時点の両方で対象において検出された場合、および差がプラスの差である（例えば、結腸直腸癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）が、先の時点から後の時点で増加した）場合、差は、対象の結腸直腸癌のリスクが増加したことを示し得る。臨床的行為または決定、例えば、対象への新たな治療的介入の処方もしくは投与、または治療的介入の切り替え（例えば、現行の治療を終了し、新たな治療を処方または投与すること）は、結腸直腸癌のリスク増加のこの指標に基づいて行われ得る。臨床的行為または決定は、結腸直腸癌のリスクの増加を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影（ＣＴ）スキャン、磁気共鳴画像化（ＭＲＩ）スキャン、超音波スキャン、胸部Ｘ線、陽電子放射断層撮影（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、無細胞生物学的細胞学、便免疫化学試験（ＦＩＴ）、便潜血試験（ＦＯＢＴ）、またはそれらの任意の組み合わせを含み得る。

いくつかの実施形態では、２つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）の差は、対象が結腸直腸癌の低下したリスクを有することを示し得る。例えば、結腸直腸癌が先の時点および後の時点の両方で対象において検出された場合、および差がマイナスの差である（例えば、結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）が、先の時点から後の時点で減少した）場合、差は、対象の結腸直腸癌のリスクが低下したことを示し得る。臨床的行為または決定（例えば、現行の治療的介入の継続または終了）は、対象の結腸直腸癌のリスク低下のこの指標に基づいて行われ得る。臨床的行為または決定は、結腸直腸癌のリスクの低下を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影（ＣＴ）スキャン、磁気共鳴画像化（ＭＲＩ）スキャン、超音波スキャン、胸部Ｘ線、陽電子放射断層撮影（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、無細胞生物学的細胞学、便免疫化学試験（ＦＩＴ）、便潜血試験（ＦＯＢＴ）、またはそれらの任意の組み合わせを含み得る。

いくつかの実施形態では、２つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）の差は、対象の結腸直腸癌を治療するための治療過程の有効性を示し得る。例えば、結腸直腸癌が先の時点で対象において検出されたが、後の時点で対象において検出されなかった場合、その差は、対象の結腸直腸癌を治療するための治療過程の有効性を示し得る。臨床的行為または決定、例えば、対象への現行の治療的介入の継続または終了は、結腸直腸癌を治療するための治療過程の有効性のこの指標に基づいて行われ得る。臨床的行為または決定は、結腸直腸癌を治療するための治療過程の有効性を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影（ＣＴ）スキャン、磁気共鳴画像化（ＭＲＩ）スキャン、超音波スキャン、胸部Ｘ線、陽電子放射断層撮影（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、無細胞生物学的細胞学、便免疫化学試験（ＦＩＴ）、便潜血試験（ＦＯＢＴ）、またはそれらの任意の組み合わせを含み得る。

いくつかの実施形態では、２つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）の差は、対象の結腸直腸癌を治療するための治療過程の非有効性を示し得る。例えば、結腸直腸癌が先の時点および後の時点の両方で対象において検出された場合、および差がプラスまたはゼロの異である（例えば、結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的測定値（例えば、結腸直腸癌関連ゲノム遺伝子座におけるＲＮＡ転写物またはＤＮＡの定量的測定値）が、先の時点から後の時点で増加したか、または一定レベル維持された）場合、差は、対象の結腸直腸癌を治療するための治療過程の非有効性を示し得る。臨床的行為または決定、例えば、対象における現行の治療的介入の終了および／または他の新たな治療的介入への切り替え（例えば、処方または投与）は、対象の結腸直腸癌を治療するための治療過程の非有効性のこの指標に基づいて行われ得る。臨床的行為または決定は、結腸直腸癌を治療するための治療過程の非有効性を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影（ＣＴ）スキャン、磁気共鳴画像化（ＭＲＩ）スキャン、超音波スキャン、胸部Ｘ線、陽電子放射断層撮影（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、無細胞生物学的細胞学、便免疫化学試験（ＦＩＴ）、便潜血試験（ＦＯＢＴ）、またはそれらの任意の組み合わせを含み得る。

ＶＩＩＩ．キット
本開示は、対象の癌を特定またはモニタリングするためのキットを提供する。キットは、対象の無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれにおける配列の定量的測定値（例えば、存在、非存在、または相対量の表示）を特定するためのプローブを含み得る。無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測定値（例えば、存在、非存在、または相対量の表示）は、１つ以上の癌を示し得る。プローブは、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座における配列に対して選択的であり得る。キットは、プローブを使用して無細胞生物学的試料を処理し、対象の無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれにおける配列の定量的測定値（例えば、存在、非存在、または相対量を示す）を示すデータセットを生成するための説明書を含み得る。

キット中のプローブは、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座における配列に対して選択的であり得る。キット中のプローブは、複数の癌関連ゲノム遺伝子座に対応する核酸（例えば、ＲＮＡまたはＤＮＡ）分子を選択的に富化するように構成され得る。キット中のプローブは核酸プライマーであり得る。キット中のプローブは、複数の癌関連ゲノム遺伝子座またはゲノム領域のうちの１つ以上からの核酸配列との配列相補性を有し得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、少なくとも２個、少なくとも３個、少なくとも４個、少なくとも５個、少なくとも６個、少なくとも７個、少なくとも８個、少なくとも９個、少なくとも１０個、少なくとも１１個、少なくとも１２個、少なくとも１３個、少なくとも１４個、少なくとも１５個、少なくとも１６個、少なくとも１７個、少なくとも１８個、少なくとも１９個、少なくとも２０個、またはそれ以上の別個の癌関連ゲノム遺伝子座またはゲノム領域を含み得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、表１～１１に列挙された領域からなる群から選択される１つ以上のメンバーを含み得る。

キット中の説明書は、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座における配列に対して選択的であるプローブを使用して無細胞生物学的試料をアッセイするための説明書を含み得る。これらのプローブは、複数のゲノム遺伝子座のうちの１つ以上からの核酸配列（例えば、ＲＮＡまたはＤＮＡ）と配列相補性を有する核酸分子（例えば、ＲＮＡまたはＤＮＡ）であり得る。これらの核酸分子は、プライマーまたは富化配列であり得る。無細胞生物学的試料をアッセイするための説明書は、アレイハイブリダイゼーション、ポリメラーゼ連鎖反応（ＰＣＲ）、または核酸配シーケンシング（例えば、ＤＮＡシーケンシングまたはＲＮＡシーケンシング）を実施して無細胞生物学的試料を処理して、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれにおける配列の定量的測定値（例えば、存在、非存在、または相対量を示す）を示すデータセットを生成するための導入を含み得る。無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測定値（例えば、存在、非存在、または相対量の表示）は、１つ以上の癌を示し得る。

キット中の説明書は、アッセイ読み出しを測定および解釈するための説明書を含み得、それは複数の癌関連ゲノム遺伝子座の１つ以上において定量化されて、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれにおける配列の定量的測定値（例えば、存在、非存在、または相対量を示す）を示すデータセットを生成することができる。例えば、複数の癌関連ゲノム遺伝子座に対応するアレイハイブリダイゼーションまたはポリメラーゼ連鎖反応（ＰＣＲ）の定量化は、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれにおける配列の定量的測定値（例えば、存在、非存在、または相対量を示す）を示すデータセットを生成することができる。アッセイ読み出しは、定量ＰＣＲ（ｑＰＣＲ）値、デジタルＰＣＲ（ｄＰＣＲ）値、デジタル液滴ＰＣＲ（ｄｄＰＣＲ）値、蛍光値、他、またはそれらの正規化された値を含み得る。

実施例１：結腸直腸癌検出のためのメチル化領域の選択
結腸直腸癌について、本開示のシステムおよび方法を使用して、腫瘍において高度にメチル化されているが、複数の正常組織がこれらの領域のメチル化を示さないゲノム内の２０個の領域を特定した。これらの領域を、バックグラウンドシグナルがほとんどまたは全くない、腫瘍の存在についての高度に特異的なマーカーとして使用した。

表１２において、「開始位置－終了位置」は、ヒトゲノム参照配列のｈｇ１８ビルド中の標的領域の座標を意味する。遺伝子ＩＤおよび染色体フィールドは、番号付けされた領域に関連する遺伝子および染色体番号を指す。近くの遺伝子と比較したこれらの配列の検査は、それらが上流、５’プロモーター、５’エンハンサー、イントロン、エクソン、遠位プロモーター、コーディング領域、または遺伝子間領域に見出されたことを示す。

無細胞ＤＮＡを、ＭａｇＭＡＸ（登録商標）Ｃｅｌｌ－ＦｒｅｅＤＮＡＩｓｏｌａｔｉｏｎＫｉｔ（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ（登録商標））を製造者の説明書に従って使用して、２５０マイクロリットル（μＬ）の血漿から抽出した（試料追跡のために固有の合成二本鎖ＤＮＡ（ｄｓＤＮＡ）断片でスパイクした）。ポリメラーゼ連鎖反応（ＰＣＲ）増幅および固有の分子識別子（ＵＭＩ）を含むＮＥＢＮｅｘｔ（登録商標）ＵｌｔｒａＩＩＤＮＡＬｉｂｒａｒｙＰｒｅｐＫｉｔ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（登録商標））を使用してペアエンドシーケンシングライブラリーを調製し、Ｉｌｌｕｍｉｎａ（登録商標）ＮｏｖａＳｅｑ６０００ＳｅｑｕｅｎｃｉｎｇＳｙｓｔｅｍを使用して、複数のＳ２またはＳ４フローセルにわたって２×５ｌ塩基対で最低４億個のリードまでシーケンシングした（中央値＝６億３６００万個のリード）。

結腸直腸癌用のプローブ
ＴＯＧＡデータベースからの複数の結腸直腸癌試料において広範なメチル化を示すが、複数の正常組織および血球（末梢血単核細胞など）においてメチル化がないかまたは最小限であることが示されたゲノム中の様々な領域に対して、ＰＣＲプライマー対を開発した。

次いで、これらのプライマーを使用して、結腸直腸癌のリスクがある個体の血漿試料から変換ＤＮＡを増幅した。シーケンシングアダプターをＤＮＡにライゲーションし、次世代シーケンシングを行った。次いで、シーケンシングリードを領域によって分離し、ＢｉＱＡｎａｌｙｚｅｒＨＴプログラムなどのツールを使用して配列リードを分析した。

得られたシーケンシングリードを、逆多重化し、アダプタートリミングし、ＢｕｒｒｏｗｓＷｈｅｅｌｅｒアライナ（ＢＷＡ－ＭＥＭ０．７．１５）を使用して、ヒト参照ゲノム（デコイ、ａｌｔコンティグおよびＨＬＡコンティグを有するＧＲＣｈ３８）にアライメントした。存在する場合、断片エンドポイントおよび／またはＵＭＩを使用してＰＣＲ複製断片を除去した。

ゲノムの推定上のタンパク質コーディング領域それぞれにアライメントした断片の数を数えることによって、各試料についてのｃｆＤＮＡ「プロファイル」を作成した。このタイプのデータ表示は、可変ヌクレオソーム保護によるｃｆＤＮＡのエピジェネティック変化を示し、その結果、カバレッジの変化、および対照と比較してメチル化が増加した断片が観察される。

推定的タンパク質コーディング遺伝子領域（イントロンとエクソンの両方を含むゲノム座標範囲を有する）を含むヒトゲノムの機能領域のセットを、シーケンシングデータにおいてアノテーションした。タンパク質コーディング遺伝子領域（「遺伝子」領域）のアノテーションは、ＣｏｍｐｒｅｈｅｎｓｉｖｅＨｕｍａｎＥｘｐｒｅｓｓｅｄＳｅｑｕｅｎｃｅＳ（ＣＨＥＳＳ）プロジェクト（ｖ１．０）から得た。

結果は以下のようにして得られた。

表１２は、結腸直腸癌を有する個体からの試料において、高メチル化されているとして無細胞核酸試料において特定されたゲノム領域の集合を提供する。各領域について、その領域内のメチル化ＣｐＧ部位の例示的な数が閾値として提供され、健康な個体とＣＲＣを有する個体とを識別する。

ここでの議論では、例えばＩＴＧＡ４、ＴＭＥＭ１６３、およびＳＦＭＢＴ２などの遺伝子への言及は、当該遺伝子自体を示すのではなく、むしろシグネチャパネルに記載されている関連メチル化領域を示すことができる。

合計で５０個の領域がＣＲＣに関連して高メチル化であることが分かった。健康な個体とＣＲＣを有する個体とを区別するために、すべての領域を分類モデルに含める必要はなかった。したがって、いくつかの領域は、一般に、評価された様々な種類の癌を示すように見える。他の領域は、これらのサブグループにおいてメチル化されているが、他は癌に特異的である。このアッセイおよび検査される癌の種類の文脈では、特定の領域は、「結腸直腸癌で特異的にメチル化」されていると記載され、試料配列が予測モデルでトレーニングされた場合、シグネチャにおいてより高い重みを有する。ＣＲＣに関連するこれらのより重み付けされたメチル化領域は、個体の集団を健康とＣＲＣとの間で識別するようにトレーニングされた特定のモデルにおいて使用される。

実施例２：結腸直腸癌を有する個体の集団を区別するための分類モデルの構築およびトレーニング
本開示のシステムおよび方法を使用して、機械学習分類モデルを構築し、人工知能ベースのアプローチを使用してトレーニングして、対象から取得されたｃｆＤＮＡデータを分析した（結腸直腸癌を有する対象の診断の出力を生成した）。

ＣＲＣと診断された４９人の患者から、予定されるヒト血漿試料を取得した。さらに、９２個の対照試料のセットを、現在癌の診断を受けていない（ただし、潜在的に他の併存症または未診断の癌を有する）患者から取得した。すべての試料を非特定化した。

各患者の年齢、性別、および癌ステージ（利用可能な場合）を各試料について得た。各患者から収集した血漿試料を－８０°Ｃで保存し、使用前に解凍した。研究コホートの説明を表１３に提供し、これはＣＲＣ実験に使用された健康な試料および癌試料の数を示す（ステージ、性別、および年齢ごとによる）。

本明細書に記載の方法、特に実施例１に記載の方法に従って試料を処理およびシーケンシングした。表１２のメチル化領域を特異的に標的とし、健康な個体と結腸直腸癌を有する個体との間のメチル化ＣｐＧ状態を決定した。表１２の列１に列挙した各領域について、列２に示すＣｐＧ部位の閾値数を使用して、分析用のメチル化断片を定義した。残りの断片は、それらが閾値を超える数のＣｐＧ部位を有する場合、メチル化されているとして分類され、そうでなければ、断片はメチル化されていないとしてカテゴリ化された。表１２に列挙した領域と重複する試料あたりのメチル化断片の数によって与えられる、試料あたりの生スコアを計算するために、これらのカウントを各試料の領域にわたって集約した。各試料の生スコアを正規化して、試料のそれぞれにおけるカバレッジ差を説明した。各試料の生スコアに、試料の合計を予め指定された目標カバレッジレベルで割ることで得られた、試料固有のスケール因子を掛けた。これらの正規化され、スケーリングされたメチル化率を、試料あたりのスコアとして出力した。閾値スコアは、トレーニングセットからの所望の特異性目標に基づいて選択した。試料を、それらのスコアがこの閾値を超えたかどうかに基づいて陽性または陰性として分類した。このスコアを有する試料の順位を考慮するか、または閾値を考慮することによって、ＲＯＣ曲線を生成した。

機械学習分類モデルは上記のようにトレーニングされ、パラメータは試料の独立したホールドアウトセットで選択された。表１３に記載の試料に対して、機械学習分類モデルを適用した。最大規模の高メチル化断片カウントを有する健康な試料を、新しい試料を陽性または陰性として分類するためのカットオフとして選択した。正規化された高メチル化断片カウントによって誘導された順位を使用して、ＲＯＣ曲線下面積（ＡＵＣ）を上記のトレーニングセットに基づいて計算した。選択したカットオフを用いて感度および特異性を計算した。感度および特異性の信頼区間は、Ｃｌｏｐｐｅｒ－Ｐｅａｒｓｏｎ信頼区間を用いて計算し、ＡＵＣの信頼区間は、その内容が参照により本明細書に組み込まれる、Ｆａｙ，Ｍ．ａｎｄＭａｌｉｎｏｖｓｋｙ，Ｙ．，ＳｔａｔｉｓｔｉｃｓｉｎＭｅｄｉｃｉｎｅ３７（２７）：３９９１－４００６（２０１８）に記載されている方法を用いて計算した。

この方法は、０．９４８８（０．８７～０．９８）の平均曲線下面積（ＡＵＣ）を達成し、ＩＵ試料の９２％％特異性（０．８６～０．９６）で７０％（０．４９～０．８７）の平均感度を有した（図２）。

実施例３：無細胞試料の試験および個体の分類
本開示のシステムおよび方法を使用して、人工知能ベースのアプローチを使用して予測分析を実行して、対象から取得されたｃｆＤＮＡデータを分析して結腸直腸癌を有する対象の診断の出力を生成した。

無症候性患者のための、癌を有するかまたは発症するリスクの増加を予測する方法が本明細書で提供され、実施例１で提供されるプロセスにおいてシグネチャパネルからトレーニングされたモデルをバイオマーカーの測定パネルに適用し、年齢および性別の臨床因子を使用して、結腸直腸癌を有するかまたは発症するリスクが増加した患者を特定した。実施形態では、この方法および本分類子モデルは、正常な臨床範囲内にある測定されたバイオマーカーの入力変数を使用し、結腸直腸癌分類子モデルは、第１の分類子モデルの出力が領域内のメチル化ＣｐＧ部位の数に基づく計算閾値を超える場合、年齢および患者からのバイオマーカーのパネルの測定値の入力変数を使用して、患者をリスク増加カテゴリに分類する。

強い差次的メチル化（β差、例えばメチル化特異的プローブとメチル化非特異的プローブとの差、およびｐ値）、予測力（ＡＵＣ）および遺伝子発現への影響（遺伝子発現からのｐ値）を有するマーカー遺伝子およびＣｐＧ部位を選択することを目的として、実施例１に従って遺伝子を選択した。

この選択により、健康な試料とＣＲＣ試料とを識別することができるメチル化領域を含む、本明細書に提供されるシグネチャパネルが得られた。領域の第１のサブセットは、１８個の遺伝子（多くの遺伝子が多くのＣｐＧ部位によって表される）にマッピングされる少なくとも４～１８個のＣｐＧ部位でメチル化が増加した２０個の領域を含んでいた。

入力ｃｆＤＮＡのｃｆＤＮＡＣｐＧカウントプロファイル表示は、血液中の利用可能なメチル化シグナルの不偏表示として役立つことができ、腫瘍からの直接シグナル、ならびに循環免疫系または腫瘍微小環境などの非腫瘍源からのシグナルの両方の捕捉を可能にする。

これらの遺伝子に基づく教師なしクラスタリングは、健康またはＣＲＣ表現型と相関するメチル化の明確なパターンを示した。

ＣＲＣの早期検出のためのメチル化領域の精度を評価するために、シグネチャパネルにおける領域の受信者操作特性（ＲＯＣ）曲線およびＲＯＣ曲線下面積（ＡＵＣ）を計算した。図３Ａ～図３Ｆは、ステージ１（図３Ａ）、ステージ２（図３Ｂ）、ステージ３（図３Ｃ）、ステージ４（図３Ｄ）、欠落（ｍｉｓｓｉｎｇ）ステージ（図３Ｅ）を有する患者、および全試料（図３Ｆ）を含む、ＣＲＣを検出し、早期癌を識別するこれらの示差的メチル化領域（ＤＭＲ）の能力を示すＲＯＣ結果を示す。全体として、メチル化の増加に関連する８０の遺伝子領域が特定された。平均メチル化レベルを有するメチル化領域は、対照に対して徐々に増加したか、またはＣＲＣの早期を後期から識別するために使用され得る。例えば、表１２に関連するメチル化領域は、ＣＲＣを検出する高い能力を有する［ＣＲＣ対対照のＡＵＣ＝０．９２４（９５％ＣＩ：０．７５２～０．９５４）］。

表１４に要約するように、結果は、血液からの早期癌検出（例えば、ステージＩおよびＩＩの１３個の試料のセットにおいて）が優れた性能を有することを実証した。

本発明の好ましい実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。本発明が本明細書内で提供される特定の実施例によって限定されることを意図しない。本発明を前述の明細書を参照して説明してきたが、本明細書の実施形態の説明および例示は、限定的な意味で解釈されることを意味しない。本発明から逸脱することなく、当業者には多数の変形、変更、および置換が思い浮かぶであろう。さらに、本発明のすべての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことを理解されたい。本明細書に記載の本発明の実施形態に対する様々な代替形態が、本発明を実施する際に使用され得ることを理解されたい。したがって、本発明は、そのような代替形態、修正形態、変形形態または均等物のいずれも包含すると考えられる。以下の特許請求の範囲が本発明の範囲を定義し、これらの特許請求の範囲内の方法および構造ならびにそれらの均等物がそれによって包含されることが意図される。

Claims

結腸細胞増殖性障害に特徴的なメチル化シグネチャパネルであって、
表１１からなる群から選択される１つまたは複数のメチル化ゲノム領域を含み、前記１つまたは複数の領域が、結腸細胞増殖性障害または結腸細胞増殖性障害サブタイプを有する個体からの生物学的試料においてメチル化の程度が高く、結腸細胞増殖性障害を有しない個体における正常組織および正常血球においてメチル化の程度が低い、メチル化シグネチャパネル。
前記生物学的試料が、核酸、ＤＮＡ、ＲＮＡまたは無細胞核酸（ｃｆＤＮＡまたはｃｆＲＮＡ）である、請求項１記載のメチル化シグネチャパネル。
前記シグネチャパネルが、表１１からなる群より選択される２つ以上のゲノム領域におけるメチル化の増加を含む、請求項１記載のメチル化シグネチャパネル。
前記結腸細胞増殖性障害が、腺腫（腺腫様ポリープ）、無茎性鋸歯状腺腫（ＳＳＡ）、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍（ＧＩＳＴ）、リンパ腫および肉腫からなる群より選択される、請求項１記載のメチル化シグネチャパネル。
前記結腸細胞増殖性障害が、ステージ１結腸直腸癌、ステージ２結腸直腸癌、ステージ３結腸直腸癌、およびステージ４結腸直腸癌からなる群から選択される、請求項１記載のメチル化シグネチャパネル。
前記シグネチャパネルが、表１～１１の２つ以上のメチル化ゲノム領域、表１～１１の３つ以上のメチル化ゲノム領域、表１～１１の４つ以上のメチル化ゲノム領域、表１～１１の５つ以上のメチル化ゲノム領域、表１～１１の６つ以上のメチル化ゲノム領域、表１～１１の７つ以上のメチル化ゲノム領域、表１～１１の８つ以上のメチル化ゲノム領域、表１～１１の９つ以上のメチル化ゲノム領域、表１～１１の１０個以上のメチル化ゲノム領域、表１～１１の１１個以上のメチル化ゲノム領域、表１～１１の１２個以上のメチル化ゲノム領域、または表１～１１の１３個以上のメチル化ゲノム領域を含む、請求項１記載のメチル化シグネチャパネル。
前記シグネチャパネルが、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢおよびＦＬＩ１からなる群から選択される１つまたは複数のゲノム領域中のメチル化領域を含む、結腸直腸癌でメチル化されたゲノム領域を含む、請求項１記載のメチル化シグネチャパネル。
結腸直腸癌でメチル化された前記領域が、ＩＫＺＦ１、ＫＣＮＱ５およびＥＬＭＯ１ゲノム領域からなる群から選択されるメチル化領域を含む、請求項１記載のメチル化シグネチャパネル。
結腸直腸癌でメチル化された前記領域が、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢ、ＦＬＩ１、ＣＬＩＰ４、ＥＬＯＶＬ５、ＦＡＭ７２ＢおよびＳＴ３ＧＡＬ１からなる群から選択される１つまたは複数のゲノム領域のメチル化領域を含む、請求項１記載のメチル化シグネチャパネル。
前記シグネチャパネルが、表１、表２、表３、表４、表５、表６、表７、表８、表９、表１０および表１１からなる群より選択されるメチル化ゲノム領域を含む、請求項１記載のメチル化シグネチャパネル。
結腸細胞増殖性障害に特徴的なメチル化シグネチャパネルであって、
表１～１１からなる群から選択される２つ以上のメチル化ゲノム領域を含み、前記２つ以上の領域が、結腸細胞増殖性障害または結腸細胞増殖性障害サブタイプを有する個体からの生物学的試料においてメチル化の程度が高く、結腸細胞増殖性障害を有しない個体における正常組織および正常血球においてメチル化の程度が低い、メチル化シグネチャパネル。
前記生物学的試料が、核酸、ＤＮＡ、ＲＮＡまたは無細胞核酸である、請求項１１記載のメチル化シグネチャパネル。
前記シグネチャパネルが、表１～１１からなる群より選択される６つ以上のゲノム領域におけるメチル化の増加を含む、請求項１１記載のメチル化シグネチャパネル。
前記結腸細胞増殖性障害が、腺腫（腺腫様ポリープ）、無茎性鋸歯状腺腫（ＳＳＡ）、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍（ＧＩＳＴ）、リンパ腫および肉腫からなる群より選択される、請求項１１記載のメチル化シグネチャパネル。
前記結腸細胞増殖性障害が、ステージ１結腸直腸癌、ステージ２結腸直腸癌、ステージ３結腸直腸癌、およびステージ４結腸直腸癌からなる群から選択される、請求項１１記載のメチル化シグネチャパネル。
前記シグネチャパネルが、表１～１１の３つ以上のメチル化ゲノム領域、表１～１１の４つ以上のメチル化ゲノム領域、表１～１１の５つ以上のメチル化ゲノム領域、表１～１１の６つ以上のメチル化ゲノム領域、表１～１１の７つ以上のメチル化ゲノム領域、表１～１１の８つ以上のメチル化ゲノム領域、表１～１１の９つ以上のメチル化ゲノム領域、表１～１１の１０個以上のメチル化ゲノム領域、表１～１１の１１個以上のメチル化ゲノム領域、表１～１１の１２個以上のメチル化ゲノム領域、または表１～１１の１３個以上のメチル化ゲノム領域を含む、請求項１１記載のメチル化シグネチャパネル。
前記シグネチャパネルが、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢおよびＦＬＩ１からなる群から選択される１つまたは複数のゲノム領域中のメチル化領域を含む、結腸直腸癌でメチル化されたゲノム領域を含む、請求項１１記載のメチル化シグネチャパネル。
結腸直腸癌でメチル化された前記領域が、ＩＫＺＦ１、ＫＣＮＱ５およびＥＬＭＯ１ゲノム領域からなる群から選択されるメチル化領域を含む、請求項１１記載のメチル化シグネチャパネル。
結腸直腸癌でメチル化された前記領域が、ＩＫＺＦ１、ＫＣＮＱ５、ＥＬＭＯ１、ＣＨＳＴ２、ＰＲＫＣＢ、ＦＬＩ１、ＣＬＩＰ４、ＥＬＯＶＬ５、ＦＡＭ７２ＢおよびＳＴ３ＧＡＬ１からなる群から選択される１つまたは複数のゲノム領域のメチル化領域を含む、請求項１１記載のメチル化シグネチャパネル。
前記シグネチャパネルが、表１、表２、表３、表４、表５、表６、表７、表８、表９、表１０および表１１からなる群より選択されるメチル化ゲノム領域を含む、請求項１１記載のメチル化シグネチャパネル。
結腸細胞増殖性障害を有する個体から健康な個体の集団を識別することができる機械学習分類子であって、
ａ）請求項１記載の差次的にメチル化されたゲノム領域を表す測定値のセットを含み、前記測定値が、健康な対象および結腸細胞増殖性障害を有する対象からのメチル化シーケンシングデータから得られ、
ｂ）前記測定値が、前記差次的にメチル化されたゲノム領域の特性に対応する特徴のセットを生成するために使用され、そこで前記特徴が機械学習モデルまたは統計モデルに入力され、
ｃ）前記モデルが、健康な個体の集団を結腸細胞増殖性障害を有する個体から識別することができる分類子として有用な特徴ベクトルを提供する、機械学習分類子。
前記測定値のセットが、ＣｐＧ、ＣＨＧ、ＣＨＨについてのベースワイズ（ｂａｓｅｗｉｓｅ）メチル化率、領域内のメチル化ＣｐＧの異なるカウントまたは割合を有する断片を観察するカウントまたは割合、変換効率（１００－ＣＨＨについての平均メチル化率）、低メチル化ブロック、メチル化レベル（ＣＰＧ、ＣＨＨ、ＣＨＧの全体平均メチル化、断片長、断片中間点、断片あたりのメチル化ＣｐＧ数、断片あたりの総ＣｐＧに対するＣｐＧメチル化の割合、領域あたりの総ＣｐＧに対するＣｐＧメチル化の割合、パネル内の総ＣｐＧに対するＣｐＧメチル化の割合、ジヌクレオチドカバレッジ（ジヌクレオチドの正規化されたカバレッジ）、カバレッジの均一性（１ｘおよび１０ｘの平均ゲノムカバレッジ（Ｓ４ランについて）での固有のＣｐＧ部位、全体的な平均ＣｐＧカバレッジ（深度）、ならびにＣｐＧアイランド、ＣＧＩシェルフおよびＣＧＩショアでの平均カバレッジからなる群から選択されるメチル化領域の特徴を説明する、請求項２１記載の分類子。
結腸細胞増殖性障害を検出するための機械学習モデル分類子を含むシステムであって、
ａ）メチル化シグネチャパネルに基づいて、前記結腸細胞増殖性障害を有するものとして、または前記結腸細胞増殖性障害を有しないものとして対象を分類するように操作可能な分類子を含むコンピュータ可読媒体、および
ｂ）前記コンピュータ可読媒体に記憶された命令を実行するための１つまたは複数のプロセッサを含む、システム。
コンピュータシステムのメモリにロードされた請求項２１に記載の分類子を含み、前記機械学習モデルが、トレーニング生物学的試料、結腸細胞増殖性障害を有すると同定された前記トレーニング生物学的試料の第１のサブセット、および結腸細胞増殖性障害を有さないと同定された前記トレーニング生物学的試料の第２のサブセットから得られたトレーニングベクトルを使用してトレーニングされる、請求項２３記載のシステム。
個体からの無細胞デオキシリボ核酸（ｃｆＤＮＡ）試料のメチル化プロファイルを決定する方法であって、
ａ）前記ｃｆＤＮＡ試料の核酸分子において非メチル化シトシンをウラシルに変換することができる条件を提供して、複数の変換された核酸を生成すること、
ｂ）前記複数の変換された核酸を、表１～１１からなる群から選択される少なくとも２つの差次的にメチル化された領域の予め同定されたメチル化シグネチャパネルに相補的な核酸プローブと接触させて、前記シグネチャパネルに対応する配列を富化すること、
ｃ）前記複数の変換された核酸分子の核酸配列を決定すること、および
ｄ）前記複数の変換された核酸分子の核酸配列を参照核酸配列にアラインメントし、それにより前記個体のメチル化プロファイルを決定することを含む、方法。
前記複数の変換された核酸を増幅することをさらに含む、請求項２５記載の方法。
前記増幅がポリメラーゼ連鎖反応（ＰＣＲ）を含む、請求項２６記載の方法。
前記変換された核酸分子の核酸配列を、１０００ｘ超、２０００ｘ超、３０００ｘ超、４０００ｘ超または５０００ｘ超の深度で決定することをさらに含む、請求項２５記載の方法。
前記参照核酸配列が、ヒト参照ゲノムの少なくとも一部である、請求項２５記載の方法。
前記ヒト参照ゲノムがｈｇ１８である、請求項２９記載の方法。
前記予め同定されたメチル化シグネチャパネルが、表１～１１の３つ以上のメチル化ゲノム領域、表１～１１の４つ以上のメチル化ゲノム領域、表１～１１の５つ以上のメチル化ゲノム領域、表１～１１の６つ以上のメチル化ゲノム領域、表１～１１の７つ以上のメチル化ゲノム領域、表１～１１の８つ以上のメチル化ゲノム領域、表１～１１の９つ以上のメチル化ゲノム領域、表１～１１の１０個以上のメチル化ゲノム領域、表１～１１の１１個以上のメチル化ゲノム領域、表１～１１の１２個以上のメチル化ゲノム領域、または表１～１１の１３個以上のメチル化ゲノム領域を含む、請求項２５記載の方法。
前記予め同定されたメチル化シグネチャパネルが、表１１における１つ以上のメチル化ゲノム領域、表１１における２つ以上のメチル化ゲノム領域、または表１１における３つのメチル化ゲノム領域を含む、請求項３１記載の方法。
前記メチル化プロファイルが、前記個体における結腸細胞増殖性障害の存在または非存在を示す、請求項２５記載の方法。
前記結腸細胞増殖性障害が、腺腫（腺腫様ポリープ）、無茎性鋸歯状腺腫（ＳＳＡ）、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍（ＧＩＳＴ）、リンパ腫および肉腫からなる群より選択される、請求項３３記載の方法。
前記結腸細胞増殖性障害が、ステージ１結腸直腸癌、ステージ２結腸直腸癌、ステージ３結腸直腸癌、またはステージ４結腸直腸癌からなる群から選択される、請求項３３記載の方法。
対象における結腸細胞増殖性障害の存在または非存在を検出する方法であって、
ａ）前記対象から得られた、または由来する生物学的試料の核酸分子において非メチル化シトシンをウラシルに変換することができる条件を提供して、複数の変換された核酸を生成すること、
ｂ）前記複数の変換された核酸を、表１～１１からなる群から選択される少なくとも２つの差次的にメチル化された領域の予め同定されたメチル化シグネチャパネルに相補的な核酸プローブと接触させて、前記シグネチャパネルに対応する配列を富化すること、
ｃ）前記変換された核酸分子の核酸配列を決定すること、
ｄ）前記複数の変換された核酸分子の核酸配列を参照核酸配列にアラインメントし、それにより前記個体のメチル化プロファイルを決定すること、および
ｅ）トレーニングされた機械学習分類子を前記メチル化プロファイルに適用することを含み、前記機械学習分類子が、健康な個体と結腸細胞増殖性障害を有する個体とを識別して、結腸細胞増殖性障害の存在に関連する出力値を提供し、それによって前記対象における前記結腸細胞増殖性障害の存在または非存在を検出することができるようにトレーニングされる、方法。
前記対象から得られる生物学的試料が、無細胞ＤＮＡ、無細胞ＲＮＡ、体液、便、結腸排出物、尿、血漿、血清、全血、単離血液細胞、血液から単離された細胞、およびそれらの組み合わせからなる群から選択される、請求項３６記載の方法。
前記複数の変換された核酸を増幅することをさらに含む、請求項３６記載の方法。
前記増幅がポリメラーゼ連鎖反応（ＰＣＲ）を含む、請求項３８記載の方法。
前記変換された核酸分子の核酸配列を、１０００ｘ超、２０００ｘ超、３０００ｘ超、４０００ｘ超または５０００ｘ超の深度で決定することをさらに含む、請求項３６記載の方法。
前記参照核酸配列が、ヒト参照ゲノムの少なくとも一部である、請求項３６記載の方法。
前記ヒト参照ゲノムがｈｇ１８である、請求項４１記載の方法。
前記予め同定されたメチル化シグネチャパネルが、表１～１１の３つ以上のメチル化ゲノム領域、表１～１１の４つ以上のメチル化ゲノム領域、表１～１１の５つ以上のメチル化ゲノム領域、表１～１１の６つ以上のメチル化ゲノム領域、表１～１１の７つ以上のメチル化ゲノム領域、表１～１１の８つ以上のメチル化ゲノム領域、表１～１１の９つ以上のメチル化ゲノム領域、表１～１１の１０個以上のメチル化ゲノム領域、表１～１１の１１個以上のメチル化ゲノム領域、表１～１１の１２個以上のメチル化ゲノム領域、または表１～１１の１３個以上のメチル化ゲノム領域を含む、請求項３６記載の方法。
前記予め同定されたメチル化シグネチャパネルが、表１１における１つ以上のメチル化ゲノム領域、表１１における２つ以上のメチル化ゲノム領域、または表１１における３つのメチル化ゲノム領域を含む、請求項４３記載の方法。
前記個体における前記結腸細胞増殖性障害の存在の検出に基づいて、前記結腸細胞増殖性障害の治療を前記個体に投与することをさらに含む、請求項３６記載の方法。
前記結腸細胞増殖性障害が、腺腫（腺腫様ポリープ）、無茎性鋸歯状腺腫（ＳＳＡ）、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍（ＧＩＳＴ）、リンパ腫および肉腫からなる群より選択される、請求項３６記載の方法。
前記結腸細胞増殖性障害が結腸直腸癌を含む、請求項３６記載の方法。
前記結腸細胞増殖性障害が、ステージ１結腸直腸癌、ステージ２結腸直腸癌、ステージ３結腸直腸癌、およびステージ４結腸直腸癌からなる群から選択される、請求項３６記載の方法。
前記トレーニングされた機械学習分類子が、深層学習分類子、ニューラルネットワーク分類子、線形判別分析（ＬＤＡ）分類子、二次判別分析（ＱＤＡ）分類子、サポートベクターマシン（ＳＶＭ）分類子、ランダムフォレスト（ＲＦ）分類子、線形カーネルサポートベクターマシン分類子、一次または二次多項式カーネルサポートベクターマシン分類子、リッジ回帰分類子、弾性ネットアルゴリズム分類子、逐次最小問題最適化アルゴリズム分類子、ナイーブベイズアルゴリズム分類子、および主成分分析分類子からなる群から選択される、請求項３６記載の方法。