JP2023521308A

JP2023521308A - 合成トレーニングサンプルによるがん分類

Info

Publication number: JP2023521308A
Application number: JP2022560061A
Authority: JP
Inventors: サイラスマヘルエム; エスグロスサミュエル; ニューマンジョシュア; ブレドノイョルグ; ニコリクオグンジェン
Original assignee: グレイルエルエルシー
Priority date: 2020-03-30
Filing date: 2021-03-29
Publication date: 2023-05-24
Also published as: WO2021202424A1; CA3170277A1; AU2021248502A1; CN115461472A; EP4127232A1; US20210310075A1

Abstract

がんを検出し、及び／又はがん発生組織を判定するための方法及びシステムが開示される。また、ｃｆＤＮＡフラグメントを包含する複数の生体サンプルと、生体サンプルから生成される少なくとも１つの合成トレーニングサンプルとを用いて訓練されるマルチクラスがん分類器も開示される。分析システムは、がんとしてラベルされたトレーニングサンプルからフラグメントをサンプリングし、非がんとしてラベルされた別のトレーニングサンプルからフラグメントをサンプリングすることによって、合成トレーニングサンプルを生成する。サンプリング確率は、例えば、検出限界に近接したがん腫瘍分画を有する合成トレーニングサンプルを生成するために、がん分類器の検出限界に基づいて決定される。【選択図】図３

Description

デオキシリボ核酸（ＤＮＡ）メチル化は、遺伝子発現の調節における重要な役割を果たす。ＤＮＡメチル化の変型は、がんを含む多くの疾患プロセスに関与しているとされる。メチル化シークエンシング（例えば、全ゲノムバイサルファイトシークエンシング（ＷＧＢＳ））を使用するＤＮＡメチル化プロファイリングは、がんの検出、診断、及び／又はモニタリングのための貴重な診断ツールとしてますます認識されつつある。例えば、異なるメチル化領域の特定のパターン及び／又は対立遺伝子特異的メチル化パターンは、循環無細胞（ｃｆ）ＤＮＡを使用する非侵襲的診断のための分子マーカーとして有用である場合がある。しかしながら、がんなどのような疾患の検出、診断、及び／又はモニタリングのために無細胞ＤＮＡからのメチル化シークエンシングデータを分析するための改善された方法に対する必要性が当技術分野において残っている。

本開示は、これらの上記課題の１つ以上に対処することに向けられている。本明細書で提供される背景の説明は、本開示の文脈を一般的に提示することを目的とするものである。本明細書に特に示されない限り、このセクションに記載された資料は、本願の請求項に対する先行技術ではなく、かつこのセクションに含めることによって、先行技術であること、又は先行技術の示唆であることを認めるものでもない。

被験者の疾患状態（がんなどのような）の早期発見は、早期治療を可能にし、かつそれ故に生存の可能性を高めることができるため重要である。無細胞（ｃｆ）ＤＮＡサンプル中のＤＮＡフラグメントのシークエンシングは、疾患の分類に使用できる特徴を同定するために使用することができる。例えば、がんの査定において、血液サンプルからの無細胞ＤＮＡに基づく特徴（体細胞変異、メチル化状態、又は他の遺伝子異常の有無などのような）は、被験者ががんに罹っているかもしれないという洞察、そしてさらに被験者がどんながんのタイプを有しているかもしれないという洞察を提供することができる。その目的に向けて、本明細書は、被験者が疾患を有する可能性を判定するための無細胞ＤＮＡシークエンシングデータを分析するためのシステム及び方法を含む。

本開示は、疾患状況を判別する分類器の性能を向上させるために、既存データの使用を行うために改良されたシステム及び方法を提供することによって、上記で特定された問題に対処する。一般に、開示されたシステム及び方法は、生物学的データセット、とりわけ、例えば、腫瘍サンプル、液体生検などの生物学的サンプルの核酸シークエンシングから抽出されたゲノムデータに基づくそれらのデータセットの合成拡張を可能にすることによって、これを達成する。いくつかの実施態様において、これは、生物学的サンプルから生成された１つ以上のデータ構造に基づく増強データ構造を生成することによって達成される。増強データ構造は、生物学的サンプルから直接生成された既存のデータ構造を補完するために使用され、拡張生物学的データセットを生成することができる。これらの拡張生物学的データセットは、生物学的サンプルから直接生成された元のデータ構造のみに対して訓練された疾患分類器よりも高い特異性及び／又は感度を有する疾患分類器の訓練を促進することができる。この改善は、いくつかの要因に起因することができる。例えば、より大きな（拡張された）トレーニングデータセットを使用することによって、分類器はデータの傾向をより良く一般化できるので、データのオーバーフィッティングの発生が減少する。加えて、増強データ構造中の疾患信号の量を制御することによって、分類器の検出レベル（ＬＯＤ）付近の疾患信号を有するデータ構造をより高いパーセンテージで包含するように、拡張データセットを構築することができる。これは、疾患信号が希薄になる特徴空間中でも同様により優れたモデルの訓練ができることになる。

分析システムは、複数のサンプル（例えば、複数のがん及び非がんサンプル）からの多数のシークエンシングデータを処理して、引き続き、がん分類に利用される特徴を特定する。分析システムは、得られた生体サンプルから少なくとも１つの合成トレーニングサンプルを生成する。分析システムは、がんとしてラベルされたトレーニングサンプルからフラグメントをサンプリングし、かつ非がんとしてラベルされた別のトレーニングサンプルからフラグメントをサンプリングすることによって、合成トレーニングサンプルを生成する。分析システムは、合成トレーニングサンプルを生成するために使用されるがんトレーニングサンプルに属する特定のがんタイプで合成トレーニングサンプルを更にラベルしてもよい。サンプリング確率は、例えば、検出限界に近接したがん腫瘍分画を有する合成トレーニングサンプルを生成するために、がん分類器の検出限界に基づいて決定される。シークエンシングデータを用いて、分析システムは、テストサンプルに対するがん予測を生成するためのがん分類器を訓練及び展開することができる。

がん分類器を訓練するためにどのトレーニングサンプルを使用するかを選択する際に、分析は、１つ以上のがんタイプを有すると既に同定及びラベルされたトレーニングサンプルと同様に、非がんとしてラベルされた健康な個人からのトレーニングサンプルも使用する。各トレーニングサンプルは、フラグメントのセットを含む。各トレーニングサンプルに対して、分析システムは、例えば、特定された特徴の各々にスコアを割り当てることによって、特徴ベクトルを生成する。分析システムは、がん分類器の反復訓練のために、トレーニングサンプルを１つ以上のトレーニングサンプルのセットにグループ化してもよい。分析システムは、特徴ベクトルの各セットをがん分類器に入力し、かつがん分類器の関数が、特徴ベクトル及び分類パラメータに基づいてセット中のトレーニングサンプルのラベルを予測する閾値を上回る精度を有するがん予測を閾値で計算するように、がん分類器内の分類パラメータを調整する。がん分類器は、トレーニングサンプルの各セットを通じて上記のステップを反復することによって、反復的に訓練される。

展開中、分析システムは、テストサンプルの各々に対する特徴ベクトル中の複数の特徴の各々にスコアを割り当てることによって、を例とする、トレーニングサンプルと同様の方法で、テストサンプルに対する特徴ベクトルを生成する。その後、分析システムは、テストサンプルに対する特徴ベクトルを、がん予測を返すがん分類器に入力する。一実施態様では、がん分類器は、がんを有するかの尤度のがん予測を返すバイナリ分類器として構成されてもよい。別の実施態様では、がん分類器は、複数のがんタイプの各々に対して予測値を有するがん予測を返すために、マルチクラス分類器として構成されてもよい。

１つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞（ｃｆ）ＤＮＡのフラグメントをシークエンシングするプロセスを説明する例示的なフローチャートである。１つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞（ｃｆ）ＤＮＡのフラグメントをシークエンシングする図１Ａのプロセスを説明する図である。１つ以上の実施態様による、サンプルから異常なメチル化フラグメントを判定するプロセスを説明する例示的なフローチャートである。１つ以上の実施態様による、サンプルから異常なメチル化フラグメントを判定するプロセスを説明する例示的なフローチャートである。１つ以上の実施態様による、合成トレーニングサンプルを生成する例示的なプロセスである。１つ以上の実施態様による、がん分類器を訓練するための合成トレーニングサンプルを生成するプロセスを説明する例示的なフローチャートである。１つ以上の実施態様による、増強データを生成し、かつオプションで分類器を訓練し、疾患状況を互いに判別するための例示的なワークフロー５００である。１つ以上の実施態様による、補完的データを生成するための例示的なワークフローである。１つ以上の実施態様による、がん分類器を訓練するプロセスを説明する例示的なフローチャートである。１つ以上の実施態様による、がん分類器を訓練するために使用される特徴ベクトルの例示的な生成を示す図である。図７Ａは、１つ以上の実施態様による、核酸サンプルをシークエンシングするためのデバイスの例示的なフローチャートである。図７Ｂは、１つ以上の実施態様による、分析システムの例示的なブロック図である。一例の実施態様による、様々ながんタイプに対するマルチクラスがん分類器のがん予測精度を示す例示的なグラフである。一例の実施態様による、バイナリがん分類器を最初に使用した後の様々ながんタイプに対するマルチクラスがん分類器のがん予測精度を示す例示的なグラフである。一例の実施態様による、訓練されたがん分類器の性能を論証する例示的な混同行列を示す図である。いくつかの例の実施態様による、合成トレーニングサンプルで訓練されたがん分類器の性能を比較する例示的な表である。１つ以上の実施態様による、がんの確率の例のグラフを示す図である。１つ以上の実施態様による、がんの確率の例のグラフを示す図である。１つ以上の実施態様による、がんの確率の例のグラフを示す図である。１つ以上の実施態様による、患者サンプル中の無細胞ＤＮＡのゲノム特性に基づきがんを検出するために訓練された２つの分類器の評価を示す図である。１つ以上の実施態様による、トレーニングセット感度対テストセット感度の例示的なグラフを示す図である。１つ以上の実施態様による、分類器で使用される特徴の数が拡大するにつれる、ある次元に沿って最大化又は最小化される特徴空間のパーセンテージの代表的な曲線の例示的なグラフを示す図である。

図は、例示のみを目的とした様々な実施態様を描いている。当業者は、以下の論議から、本明細書に説明される原理から逸脱することなく、本明細書に図示される構造及び方法の代替の実施態様が採用できることを容易に認識するであろう。

Ｉ．大要

Ｉ．Ａ．メチル化の大要

本明細書に従って、個体からのｃｆＤＮＡフラグメントを、例えば非メチル化シトシンをウラシルに変換することにより処理し、シークエンシングし、かつシークエンスリードを参照ゲノムと比較して、ＤＮＡフラグメント内の特定のＣｐＧ部位におけるメチル化状態を同定する。各ＣｐＧ部位は、メチル化されている場合、又はメチル化されていない場合がある。健康な個体と比較して、異常なメチル化フラグメントを同定することは、対象のがんの状態に対する識見を提供し得る。当技術分野でよく知られているように、ＤＮＡメチル化異常は（健康な対照と比較して）異なる影響を引き起こし、それががんの一因となる場合がある。様々な課題が、異常にメチル化されたｃｆＤＮＡフラグメントの同定に生じる。まず、ＤＮＡフラグメントが異常にメチル化されていると判定することは、対照生体個体のグループとの比較において重みを持つことができるが、対照グループの数が少ない場合などでは、対照グループ生体サンプルの小さいサイズ内での統計的変動により、判定が信頼性を失う。そのうえ、対照個体の中でもメチル化の状態は様々であり、対象のＤＮＡフラグメントが異常にメチル化されていると判定するときに、それを考慮することは困難である場合がある。もう一つ、あるＣｐＧ部位のシトシンのメチル化は、その後に続くＣｐＧ部位のメチル化に因果関係を持つ場合がある。この依存関係を封じ込めることは、それ自体、別の課題になり得る。

メチル化は、デオキシリボ核酸（ＤＮＡ）において、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、５－メチルシトシンを形成するときに典型的に起こり得る。とりわけ、メチル化は、本明細書で「ＣｐＧ部位」と呼ばれるシトシン及びグアニンのジヌクレオチドにおいて起こり得る。他の事例では、メチル化は、ＣｐＧ部位の一部ではないシトシン、又はシトシンではない別のヌクレオチドで起こり得るが、しかしながら、これらは稀にしか発生しない。本開示では、メチル化は、明確化のために、ＣｐＧ部位に関連して論じららる。異常なＤＮＡメチル化は、ハイパーメチル化又はハイポメチル化として同定することができ、その両方が、がんの状態を示すことがある。本開示を通じて、ＤＮＡフラグメントが、閾値より多くの数のＣｐＧ部位を備え、それらのＣｐＧ部位の閾値より多くの割合がメチル化又は非メチル化である場合、ハイパーメチル化及びハイポメチル化は、ＤＮＡフラグメントに対して特徴付けられることができる。

本明細書に説明される原理は、非シトシンメチル化を含む非ＣｐＧコンテキストにおけるメチル化の検出にも同様に適用可能である。そのような実施態様では、メチル化を検出するために使用される湿式実験室アッセイは、本明細書に説明されるものと異なる場合がある。さらに、本明細書で論じられるメチル化状態ベクトルは、一般にメチル化が起こった部位又は起こっていない部位である要素（それらの部位が特にＣｐＧ部位でないとしても）を包含することができる。その置換を用いて、本明細書に説明されるプロセスの残りは同じであり得、かつその結果、本明細書に説明される発明概念は、それらの他の形態のメチル化にも適用可能にすることができる。

Ｉ．Ｂ．定義

「無細胞核酸」又は「ｃｆＮＡ」という用語は、個体の体内（例えば、血液）を循環し、かつ１つ以上の健康な細胞及び／又は１つ以上の不健康な細胞（例えば、がん細胞）から由来する核酸フラグメントを指す。「無細胞ＤＮＡ」又は「ｃｆＤＮＡ」という用語は、個体の体内（例えば、血液）を循環するデオキシリボ核酸フラグメントを指す。そのうえ、個体の体内のｃｆＮＡ又はｃｆＤＮＡは、他の非ヒトの供給源からくる場合もある。

「ゲノム核酸」、「ゲノムＤＮＡ」、又は「ｇＤＮＡ」という用語は、１つ以上の細胞から得られた核酸分子又はデオキシリボ核酸分子を指す。様々な実施態様において、ｇＤＮＡは、健康な細胞（例えば、非腫瘍細胞）又は腫瘍細胞（例えば、生検サンプル）から抽出することができる。いくつかの実施態様において、ｇＤＮＡは、白血球などのような血球系に由来する細胞から抽出することができる。

「循環腫瘍ＤＮＡ」又は「ｃｔＤＮＡ」という用語は、腫瘍細胞又は他の種類のがん細胞に由来する核酸フラグメントであって、かつ瀕死細胞のアポトーシス又は壊死などのような生物学的プロセスの結果として、若しくは生存腫瘍細胞によって活発に放出される個体の体液（例えば、血液、汗、尿又は唾液）中に放出される核酸フラグメントを指す。

「ＤＮＡフラグメント」、「フラグメント」、又は「ＤＮＡ分子」という用語は、一般に、任意のデオキシリボ核酸フラグメント、すなわち、ｃｆＤＮＡ、ｇＤＮＡ、ｃｔＤＮＡなどを指す場合がある。

「異常なフラグメント」、「異常なメチル化フラグメント」、又は「異常なメチル化パターンを有するフラグメント」という用語は、ＣｐＧ部位の異常なメチル化を有するフラグメントを指す。フラグメントの異常なメチル化は、対照グループ中のフラグメントのメチル化パターンを観察することの意外性を同定するために、確率モデルを使用して判定する場合がある。

「極端にメチル化された普通ではないフラグメント」又は「ＵＦＸＭ」という用語は、ハイポメチル化フラグメント又はハイパーメチル化フラグメントを意味する。ハイポメチル化フラグメント及びハイパーメチル化フラグメントは、それぞれ、メチル化又は非メチル化のある閾値割合（例えば、９０％）を超えた少なくともある数のＣｐＧ部位（例えば、５）を有するフラグメントを意味する。

「異常スコア」という用語は、そのＣｐＧ部位に重なるサンプルからの異常なフラグメント（又は、いくつかの実施態様では、ＵＦＸＭ）の数に基づく、そのＣｐＧ部位のスコアを指す。異常スコアは、分類のためのサンプルの特徴付けの文脈で使用される。

本明細書で使用される場合、「約」又は「ほぼ」という用語は、当業者によって決定されるような特定の値に対する許容誤差範囲内を意味し得、これは、値が測定又は決定される方法、例えば、測定システムの限界に部分的に依存し得る。例えば、「約」は、当業者の慣例により、１標準偏差以上を意味し得る。「約」は、所与の値の±２０％、±１０％、±５％、又は±１％の範囲を意味し得る。「約」又は「ほぼ」という用語は、ある値の１桁以内、５倍以内、又は２倍以内を意味し得る。特定の値が本願及び特許請求の範囲に記載されているところは、特に断りのない限り、特定の値の許容誤差範囲内を意味する「約」という用語が想定されるべきである。「約」という用語は、当業者によって一般的に理解されるような意味を有し得る。「約」という用語は、±１０％を指し得る。「約」という用語は、±５％を指し得る。

本明細書で使用される場合、用語「生体サンプル」、「患者サンプル」、又は「サンプル」は、対象から採取された任意のサンプルを指し、対象に紐づく生体状態を反映し得、かつ無細胞ＤＮＡを含むものを指す。生体サンプルの例としては、対象の血液、全血液、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液を含むが、これらに限定されるものではない。生体サンプルは、生きている又は死んだ対象から抽出した任意の組織又は材料を含み得る。生体サンプルは、無細胞サンプルであり得る。生体サンプルは、核酸（例えば、ＤＮＡ又はＲＮＡ）若しくはそのフラグメントを備え得る。「核酸」という用語は、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、又はそれらのハイブリッド若しくはフラグメントを指し得る。サンプル中の核酸は、無細胞核酸であり得る。サンプルは、液体サンプル又は固体サンプル（例えば、細胞又は組織サンプル）であり得る。生体サンプルは、血液、血漿、血清、尿、膣液、（例えば、精巣の）水腫からの液体、膣洗浄液、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、体の異なる部分（例えば、甲状腺、乳房）からの吸引液などのような体液であり得る。生体サンプルは、便サンプルであり得る。様々な実施態様では、無細胞ＤＮＡについて濃縮された生体サンプル（例えば、遠心分離プロトコルを介して得られた血漿サンプル）中のＤＮＡの大部分は、無細胞であり得る（例えば、ＤＮＡの５０％、６０％、７０％、８０％、９０％、９５％、又は９９％より大きいものは、細胞を含まないものであり得る）。生体サンプルは、組織又は細胞構造を物理的に破壊するように処理することができ（例えば、遠心分離及び／又は細胞溶解）、このようにして、細胞内成分を、分析用のサンプルを調製するために使用できる酵素、緩衝液、塩、界面活性剤などを更に含むことができる溶液中に放出する。

本明細書で使用される場合、用語「対照」、「対照サンプル」、「参照」、「参照サンプル」、「正常」、及び「正常サンプル」は、特定の状態を有しない、又はその他の健康である対象からのサンプルを説明する。一例では、本明細書に開示されるような方法は、腫瘍を有する対象に対して行なわれ得、参照サンプルは、対象の健康な組織から採取されたサンプルである。参照サンプルは、対象、又はデータベースから得ることができる。参照は、例えば、対象からのサンプルのシークエンシングから得られた核酸フラグメントシークエンスをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生体サンプル及び構造サンプルからの核酸フラグメントシークエンスがアラインメントされ比較することができる、ハプロイド又はディプロイドゲノムを指し得る。構造サンプルの例としては、対象から得られた白血球のＤＮＡであり得る。ハプロイドゲノムについては、各遺伝子座において１つだけヌクレオチドが存在することができる。ディプロイドゲノムについては、ヘテロ接合性遺伝子座を同定することができ、各ヘテロ接合性遺伝子座は２つの対立遺伝子を有することができ、ここで、いずれかの対立遺伝子が遺伝子座へのアライメントのためのマッチングを可能にし得る。

本明細書で使用する場合、「がん」又は「腫瘍」という用語は、組織の異常な塊で、その塊の成長が正常な組織の成長を上回り、かつ調和できないものを指す。

本明細書で使用される場合、「健康な」という語句は、良好な健康状態を有している対象を指す。健康な対象は、いかなる悪性疾患又は非悪性疾患もないことを示し得る。「健康な個体」は、アッセイされている状況とは無関係な他の疾患又は状況を有し得、通常、「健康」とは見なされない。

本明細書で使用する場合、「メチル化」という用語は、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、５－メチルシトシンを形成するデオキシリボ核酸（ＤＮＡ）の変更を指す。とりわけ、メチル化は、本明細書では「ＣｐＧ部位」と呼ぶシトシン及びグアニンのジヌクレオチドで起こる傾向がある。他の実例では、メチル化はＣｐＧ部位以外のシトシン又はシトシンではない他のヌクレオチドで起こることがあるが、しかしながら、これはまれな現象である。異常なｃｆＤＮＡのメチル化は、ハイパーメチル化又はハイポメチル化として同定することができ、いずれもがんの状態を示す場合がある。ＤＮＡメチル化異常は（健康な対照と比較して）異なる作用を引き起こし、がんに寄与する場合がある。本明細書に説明される原理は、非シトシンメチル化を含むＣｐＧコンテキスト及び非ＣｐＧコンテキストでのメチル化の検出にも同様に適用可能である。さらに、メチル化状態ベクトルは、一般にメチル化が起こった部位又は起こらなかった部位のベクトルである要素を包含する場合がある（それらの部位が特にＣｐＧ部位でないとしても）。

本明細書で互換的に使用されるように、「メチル化フラグメント」又は「核酸メチル化フラグメント」という用語は、核酸（例えば、核酸分子及び／又は核酸フラグメント）のメチル化シークエンシングによって決定される複数のＣｐＧ部位中の各ＣｐＧ部位に対ｓｊｒｊメチル化状態のシークエンスを指す。メチル化フラグメントでは、核酸フラグメント中の各ＣｐＧ部位についての位置及びメチル化状態が、参照ゲノムに対するシークエンスリード（例えば、核酸のシークエンシングから得られたもの）のアラインメントに基づいて決定される。核酸メチル化フラグメントは、複数のＣｐＧ部位中の各ＣｐＧ部位のメチル化状態（例えば、メチル化状態ベクトル）を備え、参照ゲノム中の核酸フラグメントの位置（例えば、ＣｐＧインデックス、又は他の同様のメトリックを使用して核酸フラグメント中の最初のＣｐＧ部位の場所によって特定される）及び核酸フラグメント中のＣｐＧ部位数を特定する。シークエンスリードの参照ゲノムへのアライメントは、核酸分子のメチル化シークエンシングに基づいて、ＣｐＧインデックスを使用して行われ得る。本明細書で使用する場合、「ＣｐＧインデックス」という用語は、ヒト参照ゲノムなどのような参照ゲノム中の複数のＣｐＧ部位（例えば、ＣｐＧ１、ＣｐＧ２、ＣｐＧ３など）の各ＣｐＧ部位のリストを指し、電子フォームであることができる。ＣｐＧインデックスは、ＣｐＧインデックス中の各それぞれのＣｐＧ部位について、対応する参照ゲノム中の対応するゲノム位置を更に備える。このようにして、各それぞれの核酸メチル化フラグメント中の各ＣｐＧ部位は、それぞれの参照ゲノム中の特定の位置にインデックスされ、これは、ＣｐＧインデックスを使用して決定することができる。

本明細書で使用される場合、「真陽性」（ＴＰ）という用語は、状況を有する対象を指す。「真陽性」は、腫瘍、がん、前がん状況（例えば、前がん病変）、限局性又は転移性がん、若しくは非悪性疾患を有する対象を指し得る。「真陽性」は、状況を有する対象を指し得、かつ本開示のアッセイ又は方法によって状況を有するとして同定される。本明細書で使用される場合、「真性陰性」（ＴＮ）という用語は、状況を有さない、又は検出可能な状況を有さない対象を指す。真陰性は、腫瘍、がん、前がん状況（例えば、前がん病変）、限局性又は転移性がん、非悪性疾患、若しくはその他の健康である対象などのような疾患若しくは検出可能な疾患を有していない対象を指し得る。真陰性は、状況を有さない、検出可能な状況を有さない、若しくは本開示のアッセイ又は方法によって状況を有さないことが同定される対象を指し得る。

本明細書で使用される場合、「参照ゲノム」という用語は、部分的であるか完全であるかにかかわらず、対象からの同定されたシークエンスを参照するために使用される場合がある、任意の生物又はウイルスの任意の特定の既知のシークエンシング若しくは特徴付けられたゲノムを指す。ヒトの対象と同様に他の多くの生物にも使用される例示的な参照ゲノムは、国立生物工学情報センター（ＮＣＢＩ）又はカリフォルニア大学サンタクルーズ校（ＵＣＳＣ）がホストするオンラインゲノムブラウザで提供される。「ゲノム」は、核酸シークエンスで表現される、生物又はウイルスの完全な遺伝情報を指す。本明細書で使用される場合、参照シークエンス又は参照ゲノムは、多くの場合、個体又は多数の個体から組み立てられた若しくは部分的に組み立てられたゲノムシークエンスである。いくつかの実施態様において、参照ゲノムは、１つ以上のヒト個体からの組み立てられた又は部分的に組み立てられたゲノムシークエンスである。参照ゲノムは、種の遺伝子のセットの代表例として見ることができる。いくつかの実施態様において、参照ゲノムは、染色体に割り当てられたシークエンスを備える。例示的なヒト参照ゲノムには、ＮＣＢＩビルド３４（ＵＣＳＣ相当：ｈｇ１６）、ＮＣＢＩビルド３５（ＵＣＳＣ相当：ｈｇ１７）、ＮＣＢＩビルド３６．１（ＵＣＳＣ相当：ｈｇ１８）、ＧＲＣｈ３７（ＵＣＳＣ相当：ｈｇ１９）、及びＧＲＣｈ３８（ＵＣＳＣ相当：ｈｇ３８）を含むがこれらに限られるわけではない。

本明細書で使用される場合、用語「シークエンスリード」又は「リード」は、本明細書で説明する、又は当該技術分野で既知の任意のシークエンシングプロセスによって生成されるヌクレオチドシークエンスを指す。リードは、核酸フラグメントの一端から作り出すことができ（「シングルエンドリード」）、そして時には核酸の両端から生成される（例えば、ペアエンドリード、ダブルエンドリード）。いくつかの実施態様において、シークエンスリード（例えば、シングルエンドリード又はペアエンドリード）は、標的核酸フラグメントの片方の鎖又は両方の鎖から生成することができる。シークエンスリードの長さは、しばしば、特定のシークエンシング技術に紐づけられる。例えば、ハイスループット法は、数十から数百の塩基対（ｂｐ）の大きさで変化することができるシークエンスリードを提供する。いくつかの実施態様では、シークエンスリードは、約１５ｂｐ～約９００ｂｐの長さの平均、中央値又は平均長（例えば、約２０ｂｐ、約２５ｂｐ、約３０ｂｐ、約３５ｂｐ、約４０ｂｐ、約４５ｂｐ、約５０ｂｐ、約５５ｂｐ、約６０ｂｐ、約６５ｂｐ、約７０ｂｐ、約７５ｂｐ、約８０ｂｐ、約８５ｂｐ、約９０ｂｐ、約９５ｂｐ、約１００ｂｐ、約１１０ｂｐ、約１２０ｂｐ、約１３０、約１４０ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約３５０ｂｐ、約４００ｂｐ、約４５０ｂｐ、又は約５００ｂｐである。いくつかの実施態様では、シークエンスリードは、約１０００ｂｐ、２０００ｂｐ、５０００ｂｐ、１０，０００ｂｐ、又は５０，０００ｂｐ以上の平均、中央値、又は平均長である。ナノポアシークエンシングは、例えば、数十から数百、数千の塩基対の大きさで変化することができるシークエンスリードを提供することができる。イルミナパラレルシークエンスは、それほど変化しないシークエンスリードを提供することができ、例えば、シークエンスリードの大部分は２００ｂｐより小さくなり得る。シークエンスリード（又はシークエンシングリード）は、核酸分子（例えば、ヌクレオチドの列）に対応するシークエンス情報を指すことができる。例えば、シークエンスリードは、核酸フラグメントの一部からのヌクレオチドの列（例えば、約２０～約１５０）に対応することができ、核酸フラグメントの一端又は両端のヌクレオチドの列に対応することができ、若しくは核酸フラグメント全体のヌクレオチドに対応することができる。シークエンスリードは、例えば、シークエンシング技術を使用する、又は、例えば、ハイブリダイゼーションアレイ又はキャプチャプローブにおいて、若しくはポリメラーゼ連鎖反応（ＰＣＲ）若しくは単一のプライマー又は等温増幅を使用する線形増幅などのような増幅技術といったプローブを使用する様々な方法で、得ることができる。

本明細書で使用される「シークエンシング」等の用語は、核酸又はタンパク質などのような生体高分子の順序を決定するために使用される場合がある任意の及び全ての生化学的プロセスを一般に指す。例えば、シークエンシングデータは、ＤＮＡフラグメントなどのような核酸分子中のヌクレオチド塩基の全て又は一部を含むことができる。

本明細書で使用される場合、用語「シークエンス深度」は、用語「カバレッジ」と交換可能に使用され、かつ遺伝子座にアライメントされる固有の核酸標的分子に対応するコンセンサスシークエンスリードによって遺伝子座が覆われる回数を指し、例えば、シークエンス深度は、遺伝子座を覆う固有の核酸標的分子の数と同じである。遺伝子座は、ヌクレオチドと同じくらい小さくてもよく、染色体アームと同じくらい大きくてもよく、又はゲノム全体と同じくらい大きくてもよい。シークエンス深度は、「Ｙ倍」、例えば、５０倍、１００倍等として表すことができ、ここで、「Ｙ」は、核酸標的に対応するシークエンスで遺伝子座を覆う回数、例えば、特定の遺伝子座を覆う独立シークエンス情報が得られる回数を指す。いくつかの実施態様において、シークエンス深度は、シークエンシングされたゲノムの数に対応する。シークエンス深度は、多数の遺伝子座、又は全ゲノムに適用することもでき、その場合、Ｙは、遺伝子座又はハプロイドゲノム、若しくは全ゲノムがそれぞれシークエンシングされた回数の平均又は平均回数を指し得る。平均深度が引用されているとき、データセットに含まれる異なる遺伝子座の実際の深度は、値の範囲にまたがる可能性がある。超深度シークエンシングは、遺伝子座におけるシークエンス深度が少なくとも１００倍であることを指し得る。

本明細書で使用する場合、「感度」又は「真陽性率」（ＴＰＲ）という用語は、真陽性の数を真陽性及び偽陰性の数の合計によって除したものを指す。感度は、状況を真に有する集団の割合を正しく同定するアッセイ又は方法の能力を特徴付けることができる。例えば、感度は、がんを有する集団内の対象の数を正しく同定する方法の能力を特徴付けることができる。別の例では、感度は、がんを示す１つ以上のマーカーを正しく同定する方法の能力を特徴付けることができる。

本明細書で使用される場合、「特異度」又は「真陰性率」（ＴＮＲ）という用語は、真陰性の数を真陽性及び偽陽性の数の合計によって除したものを指す。特異性は、ある状態を本当に有していない集団の割合を正しく同定するアッセイ又は方法の能力を特徴付けることができる。例えば、特異性は、がんを持たない集団内の対象の数を正しく同定する方法の能力を特徴付けることができる。別の例では、特異性は、がんを示す１つ以上のマーカーを正しく同定する方法の能力を特徴付ける。

本明細書で使用する場合、用語「対象」は、ヒト（例えば、男性の人、女性の人、胎児、妊娠中の女性、又は子供など）、非ヒト動物、植物、細菌、真菌、又は原生生物を含むがこれらに限定されない、任意の生物若しくは非生物のことを指す。任意のヒト又は非ヒト動物は対象として扱うことができ、これには、哺乳類、爬虫類、鳥類、両生類、魚類、無蹄類、反芻動物、ウシ属（例えば、牛）、ウマ属（例えば、馬）、ヤギ亜科及びオビーン（例えば、羊、山羊）、ブタ亜種（例えば、豚）、ラクダ科（例えば、ラクダ、ラマ、アルパカ）、サル、類人猿（例えば、ゴリラ、チンパンジー）、クマ科（例えば、熊）、鶏、犬、猫、マウス、ラット、魚、イルカ、クジラ、及びサメを含むがこれらに限定されない。いくつかの実施態様において、対象は、任意のステージの男性又は女性（例えば、大人の男性、大人の女性、又は子供）である。サンプルが採取される、若しくは本明細書に記載の方法又は構成のいずれかによって取り扱われる対象は、任意の年齢であることができ、成人、乳児、又は子供とすることができる。

本明細書で使用される場合、用語「組織」は、機能単位として一緒にグループ化される細胞のグループに対応し得る。１つ以上のタイプの細胞が、単一の組織に見出され得る。異なるタイプの組織は、異なるタイプの細胞（例えば、肝細胞、肺胞細胞又は血球細胞）から構成される場合があるが、異なる生物（母親対胎児）からの組織又は健康な細胞対腫瘍細胞に対応することも可能である。「組織」という用語は、一般的に、人体に見られる任意の細胞群（例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、咽頭組織）を指すことができる。いくつかの態様において、用語「組織」又は「組織タイプ」は、無細胞核酸から発生する組織を指すために使用される場合がある。一例では、ウイルス核酸フラグメントは血液組織に由来する可能性がある。別の例では、ウイルス核酸フラグメントは、腫瘍組織に由来する可能性がある。

本明細書で使用する場合、「ゲノム」という用語は、生物のゲノムの特性を指す。ゲノム特性の例には、ゲノムの全部又は一部の一次核酸シークエンス（例えば、ヌクレオチド多型、インデル、シークエンス転位、変異頻度などの有無）に関するもの、ゲノム内の１つ以上の特定のヌクレオチドシークエンスのコピー数（例えば、コピー数、対立遺伝子頻度分率、単一染色体又はゲノム全体の倍率など）、ゲノムの全部又は一部のエピジェネティック状態（例えば、メチル化などのような共有結合核酸修飾、ヒストン修飾、ヌクレオソーム位置関係など）、生物のゲノムの発現プロファイル（例えば、遺伝子発現レベル、アイソタイプ発現レベル、遺伝子発現比率など）を含むが、これに限定されない。

本明細書で使用される用語は、特定の場合を説明する目的のみのものであり、限定することを意図するものではない。本明細書で使用される場合、単数形「a」、「an」及び「the」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される。さらに、「含んでいる」、「含む」、「有している」、「有する」、「有して」、又はその変形が詳細な説明及び／又は特許請求の範囲のいずれかで使用される限り、そのような用語は、用語「備える」と同様の方法で包含することを意図している。

ＩＩ．サンプル処理

ＩＩ．Ａ．ＤＮＡフラグメントのメチル化状態ベクトルの作製

図１Ａは、１つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞（ｃｆ）ＤＮＡのフラグメントをシークエンシングするプロセス１００を説明する例示的なフローチャートである。ＤＮＡメチル化を分析するために、分析システムは、まず、複数のｃｆＤＮＡ分子を含む個体からサンプルを得る（１１０）。一般に、サンプルは、健康な個体、がんを有することが知られている又はがんを有することが疑われる対象、若しくは事前に情報が知られていない対象からのものであってよい。テストサンプルは、血液、血漿、血清、尿、糞便、及び唾液サンプルからなる群から選択されるサンプルであってよい。代替的に、テストサンプルは、全血、血液画分（例えば、白血球（ＷＢＣ））、組織生検、胸水、心嚢液、脳脊髄液、及び腹膜液からなる群から選択されるサンプルを含んでいてもよい。追加の実施態様では、プロセス１００は、他のタイプのＤＮＡ分子のシークエンスが適用されてもよい。

サンプルから、分析システムは、各ｃｆＤＮＡ分子を単離することができる。ｃｆＤＮＡ分子は、非メチル化シトシンをウラシルに変換するように処理することができる。一実施態様では、本方法は、メチル化シトシンを変換することなく非メチル化シトシンをウラシルに変換するＤＮＡの重亜硫酸塩処理を使用する。例えば、EZ DNA Methylation^TM-Gold、EZ DNA Methylation^TM-Direct又はEZ DNA Methylation^TM-Lightningキット（Zymo Research Corp (Irvine, CA)から入手可能）などのような市販キットが、重亜硫酸塩変換のために使用される。別の実施態様では、非メチル化シトシンのウラシルへの変換は、酵素反応を使用して達成される。例えば、変換は、APOBEC-Seq（NEBiolabs, Ipswich, MA）などのような非メチル化シトシンのウラシルへの変換のための市販で利用可能なキットを使用することができる。

変換されたｃｆＤＮＡ分子から、シークエンシングライブラリーを調製することができる（１３０）。ライブラリー調製中、アダプターライゲーションを通じて、核酸分子（例えば、ＤＮＡ分子）に固有の分子識別子（ＵＭＩ）を付加することができる。ＵＭＩは、アダプターライゲーション中にＤＮＡフラグメントの末端（例えば、物理的剪断、酵素消化、及び／又は化学的フラグメント化によってフラグメント化されたＤＮＡ分子）に付加される短い核酸シークエンス（例えば、４～１０塩基対）とすることができる。ＵＭＩは、特定のＤＮＡフラグメントから発生するシークエンスリードを同定するために使用できる固有のタグとして役に立つ縮退塩基対とすることができる。アダプターライゲーションに続くＰＣＲ増幅中に、ＵＭＩは、付着したＤＮＡフラグメントとともに複製することが可能である。これは、下流の分析において、同じ元のフラグメントからくるシークエンスリードを同定する方法を提供し得る。

オプションで、シークエンシングライブラリーは、複数のハイブリダイゼーションプローブを使用するがんの状態に対する有益なｃｆＤＮＡ分子、又はゲノム領域について濃縮してもよい（１３５）。ハイブリダイゼーションプローブは、特に指定されたｃｆＤＮＡ分子、又は標的領域にハイブリダイズし、かつその後のシークエンシング及び分析のためにそれらのフラグメント又は領域を濃縮することができる短いオリゴヌクレオチドとすることができる。ハイブリダイゼーションプローブは、研究者が関心を持つ特定のＣｐＧ部位のセットを標的とした高深度分析を行うために使用することができる。ハイブリダイゼーションプローブは、１倍、２倍、３倍、４倍、５倍、６倍、７倍、８倍、９倍、１０倍、又は１０倍以上のカバレッジで１つ以上の標的シークエンスにわたって並べることができる。例えば、２倍のカバレッジで並べたハイブリダイゼーションプローブは、標的シークエンスの各部分が２つの独立したプローブとハイブリダイズするように、重なり合うプローブを備える。ハイブリダイゼーションプローブは、１倍未満のカバレッジで１つ以上の標的シークエンスにわたって並べることができる。

一実施態様において、ハイブリダイゼーションプローブは、非メチル化シトシンをウラシルに変換するために処理（例えば、重亜硫酸塩を使用）されたＤＮＡ分子を濃縮するように設計される。濃縮の間、ハイブリダイゼーションプローブ（本明細書では「プローブ」とも呼ばれる）は、がん（又は疾患）の有無、がんの状態、若しくはがんの分類について有益な（例えば、がんクラス又は発生組織）核酸フラグメントを標的にし、かつ引き落とすために使用することができる。プローブは、ＤＮＡの標的（相補的）鎖にアニーリング（又はハイブリダイズ）するように設計されてもよい。標的鎖は、「陽性」鎖（例えば、ｍＲＮＡに転写され、その後タンパク質に翻訳される鎖）、又は相補的な「陰性」鎖であってもよい。プローブの長さは、１０、１００、又は１０００塩基対の範囲としてもよい。プローブは、メチル化部位パネルに基づいて設計することができる。特定のがん又は他の種類の疾患に対応すると疑われる（例えば、ヒト又は他の生物の）特定の変異又はゲノムの標的領域を分析するために、標的遺伝子のパネルに基づいてプローブを設計することができる。くわえて、プローブは、標的領域の重なり合う部分をカバーしてもよい。

一旦調製されると、シークエンシングライブラリー又はその一部を、複数のシークエンスリードを得るためにシークエンシングすることができる。シークエンスリードは、コンピュータソフトウェアによる処理及び解釈のために、コンピュータ読み取り可能なデジタルフォーマットであってもよい。シークエンスリードは、アライメント位置情報を決定するために参照ゲノムにアライメントされてもよい。アラインメント位置情報は、所与のシークエンスリードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する参照ゲノム内の領域の開始位置及び終了位置を示してもよい。アラインメント位置情報はまた、開始位置及び終了位置から決定することができるシークエンスリードの長さを含んでもよい。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントに紐づいてもよい。シークエンスリードは、Ｒ_１及びＲ_２と表記されるリードペアで構成することができる。例えば、第１のリードＲ_１は核酸フラグメントの第１の末端からシークエンスされてもよく、一方で第２のリードＲ_２は核酸フラグメントの第２末端からシークエンスされてもよい。それゆえに、第１のリードＲ_１及び第２のリードＲ_２のヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と一貫して（例えば、反対の向きで）アライメントされる場合がある。リードペアＲ_１及びＲ_２に由来するアラインメント位置情報は、第１のリード（例えば、Ｒ_１）の末端に対応する参照ゲノム中の開始位置、及び第２のリード（例えば、Ｒ_２）の末端に対応する参照ゲノム中の終了位置を含んでもよい。言い換えれば、参照ゲノム中の開始位置及び終了位置は、核酸フラグメントが対応する参照ゲノム内の可能性の高い位置を表すことができる。ＳＡＭ（シークエンスアライメントマップ）形式又はＢＡＭ（バイナリ）形式を有する出力ファイルを生成し、メチル化状態決定などのようなさらなる分析のために出力してもよい。

分析システムは、シークエンスリードから、参照ゲノムとのアライメントに基づいて、各ＣｐＧ部位の位置及びメチル化状態を判定する（１５０）。分析システムは、各フラグメントに対して、参照ゲノム中のフラグメントの位置（各フラグメント中の第１のＣｐＧ部位の位置、又は別の同様の指標によって特定される）、フラグメント中のＣｐＧ部位の数、及びフラグメント中の各ＣｐＧ部位のメチル化（例えば、Ｍとして表記）、非メチル化（例えば、Ｕとして表記）又は不定（例えば、Ｉとして表記）を特定する各フラグメントのメチル化状態ベクトルを生成する（１６０）。観察された状態は、メチル化及び非メチル化の状態であり、一方、観察されない状態は、不確定である。不確定なメチル化状態は、シークエンシングエラー及び／又はＤＮＡフラグメントの相補鎖のメチル化状態間の不一致が元である場合がある。メチル化状態ベクトルは、後の使用及び処理のために、一時的又は持続的なコンピュータメモリに格納されてもよい。さらに、分析システムは、単一のサンプルから重複するリード又は重複するメチル化状態ベクトルを除去してもよい。分析システムは、１つ以上のＣｐＧ部位を有するあるフラグメントが、閾値の数又はパーセンテージを超える不確定なメチル化状態を有すると判定してもよく、かつそのようなフラグメントを除外、又はそのようなフラグメントを選択的に含むが、そのような不確定メチル化状態を考慮するモデルを構築してもよい。そのようなモデルの１つが図４と併せて以下に説明されることになる。

図１Ｂは、１つ以上の実施態様による、メチル化状態ベクトルを得るためにｃｆＤＮＡ分子をシークエンシングする図１Ａのプロセス１００の例示的な図である。一例として、分析システムは、この例では、３つのＣｐＧ部位を包含するｃｆＤＮＡ分子１１２を受信する。示すように、ｃｆＤＮＡ分子１１２の第１及び第３のＣｐＧ部位は、メチル化されている（１１４）。処理ステップ１２０の間、ｃｆＤＮＡ分子１１２は、変換されたｃｆＤＮＡ分子１２２を生成するために変換される。処理１２０の間、メチル化されていない第２のＣｐＧ部位は、そのシトシンがウラシルに変換される。しかしながら、第１及び第３のＣｐＧ部位は変換されなくてもよい。

変換後、シークエンスリード１４２を生成するために、シークエンシングライブラリー１３０を調製、及びシークエンシングを行なう（１４０）。分析システムは、シークエンスリード１４２を参照ゲノム１４４にアライメントする（１５０）。参照ゲノム１４４は、フラグメントｃｆＤＮＡがヒトゲノム中のどの場所を元としているかについての文脈を提供する。この単純化された例では、分析システムは、３つのＣｐＧ部位がＣｐＧ部位２３、２４、及び２５（説明の便宜のために使用される任意の参照識別子）に相関するようにシークエンスリード１４２をアライメントする。このようにして、分析システムは、ｃｆＤＮＡ分子１１２上の全てのＣｐＧ部位のメチル化状態、及びＣｐＧ部位がマッピングされるヒトゲノム中の位置の両方に関する情報を生成することができる。示すように、メチル化されたシークエンスリード１４２上のＣｐＧ部位は、シトシンとして読み取られる。この例では、シトシンはシークエンスリード１４２中の第１及び第３のＣｐＧ部位のみに現れており、これは、元のｃｆＤＮＡ分子中の第１及び第３のＣｐＧ部位がメチル化されると推測させられる。一方、第２のＣｐＧ部位はチミンとして読み取ることができ（Ｕはシークエンシングプロセス中にＴに変換される）、かつこのように、第２のＣｐＧ部位は元のｃｆＤＮＡ分子で非メチル化されると推論することができる。これら２つの情報、メチル化状態及び位置を用いて、分析システムは、フラグメントｃｆＤＮＡ１１２のメチル化状態ベクトル１５２を１６０生成する。この例では、結果として生じるメチル化状態ベクトル１５２は＜Ｍ２３、Ｕ２４、Ｍ２５＞であり、ここで、Ｍはメチル化されたＣｐＧ部位に対応し、Ｕは非メチル化されたＣｐＧ部位に対応し、かつ下付き数字は参照ゲノム中の各ＣｐＧ部位の場所に対応する。

生体サンプル中の核酸からシークエンスリードを得るために、１つ以上の代替的なシークエンシング方法を使用することができる。１つ以上のシークエンシング方法は、核酸（例えば、無細胞核酸）から測定されたシークエンスリードの数を得るために使用できる任意の形式のシークエンシングを備えることができ、これには、Roche454プラットフォーム、Applied Biosystems SOLIDプラットフォーム、Helicos True Single Molecule DNAシークエンシング技術、Affymetrix Incのシークエンシング－ハイブリッド化プラットフォーム、一分子、リアルタイム（ＳＭＲＴ）技術、454Life Sciencesのシーケンシングバイシンセシス（合成）プラットフォーム、イルミナ／Solexa及びHelicos Biosciences、並びにApplied Biosystemsのシーケンシングバイライゲーションプラットフォームなどのような高処理シークエンシングシステムを含むが、これに限定はされない。Life technologiesのION TORRENTテクノロジー、及びNanoporeシークエンシングもまた、生体サンプル中の核酸（例えば無細胞核酸）からシークエンスリードを得るために使用することができる。シーケンシングバイシンセシス及び可逆的ターミネーターベースのシーケンシング（例えば、イルミナのゲノムアナライザー、ゲノムアナライザーＩＩ、HISEQ2000、HISEQ2500（イルミナ、サンディエゴカリフォルニア））は、遺伝子型データセットを形成するために、訓練対象の生体サンプルから得られた無細胞核酸からシークエンスリードを得るために使用することができる。数百万の無細胞核酸（例えば、ＤＮＡ）フラグメントを並行してシークエンシングすることができる。このタイプのシークエンシング技術の一例として、表面上にオリゴヌクレオチドアンカー（例えば、アダプタープライマー）が結合された８つの個別レーンを有する光学的に透明なスライドを包含するフローセルが使用される。無細胞核酸サンプルは、検出を容易にする信号又はタグを含むことができる。生体サンプルから得られた無細胞核酸からのシークエンスリードの取得は、例えば、フローサイトメトリー、定量ポリメラーゼ連鎖反応（ｑＰＣＲ）、ゲル電気泳動、遺伝子チップ分析、マイクロアレイ、質量分析、サイトフルオロメトリック分析、蛍光顕微鏡、共焦点レーザー走査顕微鏡、レーザー走査サイトメトリ、アフィニティークロマトグラフィー、手動バッチモード分離、電界懸濁、シークエンシング、及びこれらの組み合わせなどのような様々な技法を介して信号又はタグの定量情報を得ることを含むことができる。

１つ以上のシークエンシング方法は、全ゲノムシークエンシングアッセイを備えることができる。全ゲノムシークエンスアッセイは、コピー数変動又はコピー数異常などのような大きな変動を決定するために使用することができる全ゲノム又は全ゲノムのかなりの部分についてシークエンスリードを生成する物理的アッセイを備えることができる。このような物理的アッセイは、全ゲノムシークエンス技術又は全エクソームシークエンス技術を採用してもよい。全ゲノムシークエンスアッセイは、テスト対象のゲノムに渡って少なくとも１倍、２倍、３倍、４倍、５倍、６倍、７倍、８倍、９倍、１０倍、少なくとも２０倍、少なくとも３０倍、又は少なくとも４０倍の平均シークエンス深度を有することができる。いくつかの実施態様では、シークエンス深度が、約３０，０００倍である。１つ以上のシークエンシング方法は、標的化パネルシークエンシングアッセイを備えることができる。標的化パネルシークエンスアッセイは、遺伝子の標的化パネルに対して、少なくとも５０，０００倍、少なくとも５５，０００倍、少なくとも６０，０００倍、又は少なくとも７０，０００倍の平均シークエンス深度を有することができる。遺伝子の標的化パネルは、４５０～５００個の間の遺伝子を含むことができる。遺伝子の標的化パネルは、５００±５遺伝子の範囲、５００±１０遺伝子の範囲、又は５００±２５遺伝子の範囲を含むことができる。

１つ以上のシークエンシング方法は、ペアエンドシークエンシングを備えることができる。１つ以上のシークエンシング方法は、複数のシークエンスリードを生成することができる。複数のシークエンスリードは、１０～６００の間、５０～４００の間、又は１００～３００の間の範囲の平均長さを有することができる。１つ以上のシークエンシング方法は、メチル化シークエンシングアッセイを備えることができる。メチル化シークエンシングは、ｉ）全ゲノムメチル化シークエンシング、又はｉｉ）複数の核酸プローブを使用した標的ＤＮＡメチル化シークエンシングとすることができる。例えば、メチル化シークエンシングは、全ゲノムビスルファイトシークエンシング（例えば、ＷＧＢＳ）である。メチル化シークエンシングは、メチロームの最も情報を与える領域、固有のメチル化データベース、並びに先行するプロトタイプの全ゲノム及び標的シークエンシングアッセイを標的とする複数の核酸プローブを使用した標的ＤＮＡメチル化シークエンシングとすることができる。

メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の１つ以上の５－メチルシトシン（５ｍＣ）及び／又は５－ヒドロキシメチルシトシン（５ｈｍＣ）を検出し得る。メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の１つ以上の非メチル化されたシトシン又は１つ以上のメチル化されたシトシンを、対応する１つ以上のウラシルに変換することを備えることができる。１つ以上のウラシルは、１つ以上の対応するチミンとして、メチル化シークエンシング中に検出することができる。１つ以上の非メチル化されたシトシン又は１つ以上のメチル化されたシトシンの変換は、化学的変換、酵素的変換、又はそれらの組み合わせを備えることができる。

例えば、重亜硫酸塩変換は、メチル化されたシトシン（例えば、５－メチルシトシン又は５－ｍＣ）をそのままにする一方で、シトシンをウラシルに変換することを伴う。いくつかのＤＮＡでは、約９５％のシトシンがＤＮＡ中でメチル化されていない場合があり、かつ結果として生じるＤＮＡフラグメントは、チミンによって表される多くのウラシルを含む場合がある。シークエンシング前の核酸の処理には、酵素変換プロセスを使用してもよく、これは様々な方法で行うことができる。ビスサルファイトフリー変換の一例は、非修飾シトシンに影響を与えずに５－メチルシトシン及び５－ヒドロキシメチルシトシンを破壊せずかつ直接検出するためのビスサルファイトフリー及び塩基分解能シークエンシング法、ＴＥＴ－アシストピリジンボランシークエンシング（ＴＡＰＳ）を備える。それぞれの核酸メチル化フラグメント中の対応する複数のＣｐＧ部位のメチル化状態を、メチル化シークエンスによってＣｐＧ部位がメチル化されていると判定されたときにメチル化とすることができ、メチル化シークエンスによってＣｐＧ部位がメチル化されていないと判定された場合には非メチル化とすることができる。

メチル化シークエンシングアッセイ（例えば、ＷＧＢＳ及び／又は標的メチル化シークエンシング）は、約１，０００倍、２，０００倍、３，０００倍、５，０００倍、１０，０００倍、１５，０００倍、２０，０００倍、又は３０，０００倍までを含むがこれに限定されない平均シークエンス深度を有することができる。メチル化シークエンシングは、３０，０００倍より大きい、例えば、少なくとも４０，０００倍又は５０，０００倍であるシークエンス深度を有することができる。全ゲノムバイサルファイトシークエンス法は、２０倍～５０倍の間の平均シークエンス深度を有することができ、かつ標的メチル化シークエンス法は、１００倍～１０００倍の間の平均有効深度を有し、有効深度は、標的メチル化シークエンスによって得られた同じ数のシークエンスリードを得るための等価全ゲノムバイサルファイトシークエンスカバレッジとすることができる。

メチル化シークエンシング（例えば、ＷＧＢＳ及び／又は標的メチル化シークエンシング）に関する更なる詳細については、例えば、２０１８年３月１３日に出願された「Methylation Fragment Anomaly Detection」と題する米国特許出願第６２／６４２，４８０号、及び２０１９年１２月１８日に出願された「Systems and Methods for Estimating Cell Source Fractions Using Methylation Information」と題する米国特許出願第１６／７１９，９０２号を参照してよく、その各々が参照によって本明細書に組み込まれる。本明細書に開示されたもの及び／又はその任意の改変、置換、若しくは組み合わせを含むメチル化シークエンシングのための他の方法は、フラグメントメチル化パターンを得るために使用することができる。メチル化シークエンシングは、例えば、２０１９年３月１３日に出願された「Anomalous Fragment Detection and Classification」と題する米国特許出願第１６／３５２，６０２号にされているように、又は２０２０年５月１３日に出願された「Model-Based Featureization and Classification」と題する米国特許出願第１５／９３１，０２２号に記載されているような技術のいずれかに従って１つ以上のメチル化状態ベクトルを特定するために使用することができ、これらの各々は参照によって本明細書に組み込まれる。

核酸のメチル化シークエンシング及び結果として生じる１つ以上のメチル化状態ベクトルは、複数の核酸メチル化フラグメントを得るために使用することができる。各対応する複数の核酸メチル化フラグメント（例えば、各それぞれの遺伝子型データセットについて）は、１００以上の核酸メチル化フラグメントを含むことができる。各対応する複数の核酸メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、１０００以上の核酸メチル化フラグメント、５０００以上の核酸メチル化フラグメント、１０，０００以上の核酸メチル化フラグメント、２０，０００以上の核酸メチル化フラグメント、又は３０，０００以上の核酸メチル化フラグメントを含むことができる。各対応する複数の核酸メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、１０，０００個の核酸メチル化フラグメントと５０，０００個の核酸メチル化フラグメントの間とすることができる。対応する複数の核酸メチル化フラグメントは、千以上、１万以上、１０万以上、１００万以上、１０００万以上、１億以上、５億以上、１０億以上、２０億以上、３０億以上、４０億以上、５０億以上、６０億以上、７０億以上、８０億以上、９０億以上、又は１００億以上の核酸メチル化フラグメントを含むことができる。対応する複数の核酸メチル化フラグメントの平均長さは、１４０～２８０ヌクレオチドであり得る。

核酸のシークエンシング方法及びメチル化シークエンシングデータに関する更なる詳細は、２０２０年３月４日に出願された「Systems and Methods for Cancer Condition Determination Using Autoencoders」と題する米国仮特許出願第６２／９８５，２５８号に開示されており、その全体が参照により本書に組み込まれる。

ＩＩ．Ｂ．異常なフラグメントを同定すること

分析システムは、サンプルのメチル化状態ベクトルを使用するサンプルについて異常なフラグメントを判定することができる。サンプル中の各フラグメントについて、分析システムは、フラグメントがフラグメントに対応するメチル化状態ベクトルを使用する異常なフラグメントであるかを判定することができる。いくつかの実施態様において、分析システムは、各メチル化状態ベクトルについて、健康な対照群中で更に可能性が低いメチル化状態ベクトル又は他のメチル化状態ベクトルが観察される確率を記述するｐ値スコアを計算する。ｐ値スコアを計算するプロセスは、後ほどセクションＩＩ．Ｂ．ｉ．Ｐ値フィルタリングで更に説明する。分析システムは、閾値ｐ値スコアを下回るｐ値を有するメチル化状態ベクトルを有しているフラグメントを異常なフラグメントとして判定してもよい。いくつかの実施態様では、分析システムは、ある閾値を超えるメチル化又は非メチル化のパーセンテージを有する少なくともある数のＣｐＧ部位を有するフラグメントを、それぞれハイパーメチル化フラグメント及びハイポメチル化フラグメントとして更にラベルする。ハイパーメチル化フラグメント又はハイポメチル化フラグメントは、極端なメチル化を有する異常なフラグメント（ＵＦＸＭ）とも呼ばれ得る。いくつかの実施態様において、分析システムは、異常なフラグメントを判定するための様々な他の確率的モデルを実装してもよい。他の確率モデルの例には、混合モデル、深層確率モデル等を含む。いくつかの実施態様では、分析システムは、異常なフラグメントを同定するために、以下に説明するプロセスの任意の組合せを使用してもよい。同定された異常なフラグメントを用いて、分析システムは、他のプロセス、例えば、がん分類器の訓練及び展開に使用するために、サンプルに対するメチル化状態ベクトルのセットをフィルタリングしてもよい。

ＩＩ．Ｂ．ｉ．Ｐ値フィルタリング

いくつかの実施態様では、分析システムは、健康な対照群中のフラグメントからのメチル化状態ベクトルと比較した各メチル化状態ベクトルに対するｐ値スコアを計算する。ｐ値スコアは、健康な対照群中で更に可能性が低いメチル化状態ベクトル又は他のメチル化状態ベクトルにマッチするメチル化状態を観察する確率を記述することができる。ＤＮＡフラグメントが異常にメチル化されていると判定するために、分析システムは、正常にメチル化されたフラグメントの大部分を有する健康な対照群を使用することができる。異常なフラグメントを判定するためにこの確率的分析を実施するとき、判定は、健康な対照群を構成する対照の対象群と比較して、重みを持つことができる。健常対照群中の頑健性を確保するために、分析システムは、ＤＮＡフラグメントを含むサンプルを提供するために、いくつかの閾値数の健康な個体を選択してもよい。図２Ａは、分析システムがｐ値スコアを計算し得る、健康な対照群のデータ構造を生成する方法を説明する。図２Ｂは、生成されたデータ構造を用いてｐ値スコアを計算する方法を説明する。

図２Ａは、一実施態様による、健康な対照群のデータ構造を生成するプロセス２００を説明するフローチャートである。健常対照群データ構造を生成するために、分析システムは、複数の健康な個体から複数のＤＮＡフラグメント（例えば、ｃｆＤＮＡ）を受信することができる。メチル化状態ベクトルは、例えばプロセス１００を介して、各フラグメントについて同定することができる。

各フラグメントのメチル化状態ベクトルを用いて、分析システムは、メチル化状態ベクトルをＣｐＧ部位の文字列に細分化することができる（２０５）。いくつかの実施態様では、分析システムは、結果として生じる文字列が全て所与の長さ未満であるように、メチル化状態ベクトルを細分化する（２０５）。例えば、長さ１１のメチル化状態ベクトルを長さ３以下の文字列に細分化してもよく、長さ３の文字列９個、長さ２の文字列１０個、及び長さ１の文字列１１個が結果として生じる。別の例では、長さ７のメチル化状態ベクトルを長さ４以下の文字列に細分化すると、長さ４の文字列４個、長さ３の文字列５個、長さ２の文字列６個、及び長さ１の文字列７個が結果として生じる。メチル化状態ベクトルが指定された文字列長より短い、又は同じ長さである場合、メチル化状態ベクトルは、ベクトルのすべてのＣｐＧ部位を包含する単一の文字列に変換してもよい。

分析システムは、ベクトル中の可能性のあるＣｐＧ部位及びメチル化状態の可能性各々について、指定されたＣｐＧ部位を文字列中の第１のＣｐＧ部位として有し、かつメチル化状態の可能性を有する対照群に存在する文字列の数を数えることによって文字列を集計する（２１０）。例えば、所与のＣｐＧ部位において、文字列の長さが３であると考えると、２＾３すなわち８通りの文字列構成の可能性がある。与えられたＣｐＧ部位において、８つの可能な文字列構成の各々について、分析システムは、各メチル化状態ベクトルの可能性が対照群で何回発生したかを集計する（２１０）。この例を続けると、これは、以下の数量< Mx, Mx+1, Mx+2 >, < Mx, Mx+1, Ux+2 >, . . ., < Ux, Ux+1, Ux+2 >を、参照ゲノム中の各開始ＣｐＧ部位ｘについて集計することを伴い得る。分析システムは、各開始ＣｐＧ部位と文字列の可能性について集計されたカウントを格納するデータ構造を作成する（２１５）。

文字列の長さに上限を設定することには、いくつかの利点がある。第１に、文字列の最大長に依存して、分析システムによって作成されるデータ構造のサイズが劇的に大きくなる可能性がある。例えば、最大長文字列が４ということは、すべてのＣｐＧ部位が、長さ４の文字列に対して、最低でも２＾４の数を集計することになる。最大文字列長が５に増加すると、すべてのＣｐＧ部位は、追加で２＾４又は１６の数を集計することになり、集計する数（及び必要なコンピュータメモリ）が、以前の文字列長と比較して２倍に増加することになる。文字列サイズを小さくすることは、データ構造の作成及び性能（例えば、後述のような後ほどアクセスするための使用）を、計算的及び格納の観点から、合理的に保つことができる。第２に、最大文字列長を制限するための統計的な配慮は、文字列カウントを使用する下流モデルのオーバーフィッティングを回避することを可能にする。ＣｐＧ部位の長い文字列が、生物学的に、成果に強い影響を与えない場合（例えば、がんの存在の予測である異常性の予測）、ＣｐＧ部位の大きな文字列に基づいて確率を計算することは、利用できない場合があるかなりの量のデータを使用する問題があり得、かつこのようにモデルを適切に行うには非常にまばらになり得る。例えば、重要な１００個のＣｐＧ部位を条件とする異常／がんの確率を計算すると、長さ１００のデータ構造中の文字列のカウントを使用することができ、理想的には重要な１００個のメチル化状態に正確にマッチするものがある。長さ１００の文字列のまばらなカウントが利用可能である場合、テストサンプル中の長さ１００の与えられた文字列が異常であるかを判定するためのデータが不十分であり得る。

図２Ｂは、一実施態様による、個体から異常なメチル化されたフラグメントを同定するためのプロセス２２０を説明するフローチャートである。プロセス２２０において、分析システムは、対象のｃｆＤＮＡフラグメントから１００個のメチル化状態ベクトルを生成する。分析システムは、各メチル化状態ベクトルを以下のように扱うことができる。

所与のメチル化状態ベクトルについて、分析システムは、メチル化状態ベクトル中の同じ開始ＣｐＧ部位及び同じ長さ（すなわち、ＣｐＧ部位のセット）を有するメチル化状態ベクトルの全ての可能性を列挙する（２３０）。各メチル化状態は一般にメチル化又は非メチル化のいずれかであるので、各ＣｐＧ部位において事実上２つの可能な状態があり得、かつこのように、メチル化状態ベクトルの異なる可能性のカウントは、長さｎのメチル化状態ベクトルがメチル化状態ベクトルの２^ｎの可能性に紐づけられるように、２のべき乗に依存し得る。メチル化状態ベクトルが１つ以上のＣｐＧ部位についての不確定な状態を含む場合には、分析システムは、観察された状態を有するＣｐＧ部位のみを考慮してメチル化状態ベクトルの可能性を列挙することができる（２３０）。

分析システムは、健康な対照群データ構造体にアクセスすることによって、同定された開始ＣｐＧ部位及びメチル化状態ベクトル長に対するメチル化状態ベクトルの各可能性を観察する確率を計算する（２４０）。いくつかの実施態様において、所与の可能性を観察する確率を計算することは、共同確率計算をモデル化するためにマルコフ連鎖確率を使用する。マルコフモデルは、少なくとも部分的に、対応する複数のＣｐＧ部位を有する健康な非がんコホートデータセット中のそれらの核酸メチル化フラグメントにわたる、それぞれのフラグメント（例えば、核酸メチル化フラグメント）の対応する複数のＣｐＧ部位中の各ＣｐＧ部位のメチル化状態の評価に基づいて訓練することができる。例えば、マルコフモデル（例えば、隠れマルコフモデル又はＨＭＭ）は、シークエンス中の各状態について、シークエンス中の次の状態を観察する可能性を判定する確率のセットを与えられた複数の核酸メチル化フラグメント中の核酸メチル化フラグメントに対してメチル化状態のシークエンス（例えば、「Ｍ」又は「Ｕ」を含む）を観察できる確率を決定するために使用される。確率のセットは、ＨＭＭを訓練することによって得ることができる。そのような訓練は、観察されたメチル化状態シークエンス（例えば、メチル化パターン）の初期トレーニングデータセットを与えられた統計的パラメータ（例えば、第１の状態が第２の状態に移行する確率（移行確率）及び／又は所与のメチル化状態がそれぞれのＣｐＧ部位について観察可能な確率（放出確率））の計算を伴うことができる。ＨＭＭは、教師付き訓練（例えば、観察された状態と同様に基礎となるシークエンスが既知であるサンプルを使用して）並びに／若しくは教師なし訓練（例えば、ビタビ学習、最尤推定、期待値最大化訓練、及び／又はバウム－ウェルチ訓練）を使用して訓練することができる。他の実施態様では、メチル化状態ベクトルの各可能性を観察する確率を決定するために、マルコフ連鎖確率以外の計算方法が使用される。例えば、そのような計算方法は、学習された表現を含むことができる。ｐ値閾値は、０．０１～０．１０の間、又は０．０３～０．０６の間とすることができる。ｐ値閾値は、０．０５とすることができる。ｐ値閾値は、０．０１未満、０．００１未満、又は０．０００１未満とすることができる。

分析システムは、各可能性について計算された確率を使用して、メチル化状態ベクトルのｐ値スコアを計算する（２５０）。いくつかの実施態様において、これは、問題のメチル化状態ベクトルにマッチする可能性に対応する計算された確率を特定することを含む。具体的には、これは、メチル化状態ベクトルと同じＣｐＧ部位のセット、又は同様に同じ開始ＣｐＧ部位及び長さを有する可能性であり得る。分析システムは、特定された確率以下の確率を有する任意の可能性の計算された確率を合計して、ｐ値スコアを生成することができる。

このｐ値は、健康な対照群中で、更に低い確率でフラグメントのメチル化状態ベクトル又は他のメチル化状態ベクトルが観察される確率を表すことができる。低いｐ値スコアは、それによって、一般に、健康な個体において稀なメチル化状態ベクトルに対応し、かつ健康な対照群と比較して、フラグメントが異常にメチル化されているとラベルすることができる。高いｐ値スコアは、一般に、健康な個体において相対的な意味で存在すると予想されるメチル化状態ベクトルに関連付けることができる。健康対照群が非がん群である場合、例えば、低いｐ値は、そのフラグメントが非がん群と比較して異常にメチル化されており、かつそれゆえに、テスト対象中にがんの存在を示唆する可能性があることを示し得る。

上記のように、分析システムは、各々がテストサンプル中のｃｆＤＮＡフラグメントを表す複数のメチル化状態ベクトルの各々について、ｐ値スコアを計算することができる。どのフラグメントが異常にメチル化されているかを同定するために、分析システムは、それらのｐ値スコアに基づいてメチル化状態ベクトルのセットをフィルタリングしてもよい（２６０）。いくつかの実施態様では、フィルタリングは、ｐ値スコアを閾値と比較し、かつ閾値を下回るフラグメントのみを残すことによって行う。この閾値ｐ値スコアは、０．１、０．０１、０．００１、０．０００１、又は同様のオーダーにすることができる。

プロセス２２０からの例示的な結果に従って、分析システムは、トレーニングにおいてがんを有さない参加者について異常なメチル化パターンを有する２，８００（１，５００～１２，０００）の中央値（範囲）のフラグメント、及びトレーニングにおいてがんを有する参加者について異常なメチル化パターンを有する３，０００（１，２００～２２０，０００）の中央値（範囲）のフラグメントを得ることができる。異常なメチル化パターンを有するフラグメントのこれらのフィルタリングされたセットは、セクションＩＩＩで後述するように下流分析に使用されてもよい。

いくつかの実施態様において、分析システムは、メチル化状態ベクトルの可能性を決定し、かつｐ値を計算するために、スライディングウィンドウを使用する（２５５）。可能性を列挙し、メチル化状態ベクトル全体に対してｐ値を計算するのではなく、分析システムは、可能性を列挙し、かつ連続するＣｐＧ部位のウィンドウのみについてｐ値を計算することができ、ここでウィンドウは、少なくともいくつかのフラグメントより（ＣｐＧ部位の）長さが短い（さもなければ、ウィンドウは目的を果たさないだろう）。ウィンドウの長さは、静的、ユーザーが決定したもの、動的、又はその他の方法で選択されてもよい。

ウィンドウより大きいメチル化状態ベクトルに対するｐ値を計算する際に、ウィンドウは、ベクトル中の最初のＣｐＧ部位から始まるウィンドウ内のベクトルからのＣｐＧ部位の連続したセットを同定し得る。分析システムは、第１のＣｐＧ部位を含むウィンドウに対してｐ値スコアを計算することができる。その後、分析システムは、ウィンドウをベクトル中の第２のＣｐＧ部位に「スライド」させ、かつ第２のウィンドウについて別のｐ値スコアを計算することができる。このように、ウィンドウサイズｌ及びメチル化ベクトル長ｍについて、各メチル化状態ベクトルは、ｍ－ｌ＋１個のｐ値スコアを生成することができる。ベクトルの各部分についてのｐ値計算を完了した後、全てのスライディングウィンドウからの最低ｐ値スコアを、メチル化状態ベクトルに対する全体的なｐ値スコアとして採用することができる。いくつかの実施態様において、分析システムは、メチル化状態ベクトルに対するｐ値スコアを集約して、全体的なｐ値スコアを生成する。

スライディングウィンドウを使用することは、メチル化状態ベクトルの列挙された可能性の数、及びそうでなければ行われる必要があるだろうそれらの対応する確率計算を減少させるのに役立てることができる。現実的な例を挙げると、フラグメントが５４個を超えるＣｐＧ部位を持つことがあり得る。単一のｐスコアを生成するために２＾５４（～１．８×１０＾１６）個の可能性について確率を計算する代わりに、分析システムは、そのフラグメントのメチル化状態ベクトルの５０個もウィンドウの各々について５０個のｐ値計算を生じるサイズ５のウィンドウ（例えば）を代わりに使用することができる。５０個の計算の各々は、メチル化状態ベクトルの２＾５（３２）の可能性を列挙することができ、合計で５０×２＾５（１．６×１０＾３）の確率計算を生じさせる。これは、異常なフラグメントの正確な同定に意味のないヒットで、行われる計算の膨大な減少を生じさせることができる。

不確定状態を有する実施態様において、分析システムは、フラグメントのメチル化状態ベクトル中の不確定状態を有するＣｐＧ部位を合計したｐ値スコアを計算してもよい。分析システムは、不確定状態を除くメチル化状態ベクトルの全てのメチル化状態と一致を有する全ての可能性を特定することができる。分析システムは、特定された可能性の確率の合計として、メチル化状態ベクトルに確率を割り当ててもよい。一例として、分析システムは、ＣｐＧ部位１及び３に対するメチル化状態が観測され、かつＣｐＧ部位１及び３におけるフラグメントのメチル化状態と一致することから、< M1, M2, U3 >及び< M1, U2, U3 >のメチル化状態ベクトルの可能性についての確率の合計のように< M1, I2, U3 >のメチル化状態ベクトルの可能性を算出することができる。不確定状態を有するＣｐＧ部位を合計するこの方法は、２＾ｉまでの可能性の確率の計算を使用することができ、ここでｉは、メチル化状態ベクトル中の不確定状態の数を意味する。追加の実施態様では、動的プログラミングアルゴリズムが、１つ以上の不確定状態を有するメチル化状態ベクトルの確率を計算するために実装されてもよい。有利には、動的プログラミングアルゴリズムは、線形計算時間で動作することができる。

いくつかの実施態様において、確率及び／又はｐ値スコアを計算する計算負担は、少なくともいくつかの計算をキャッシュすることによって更に低減される場合がある。例えば、分析システムは、メチル化状態ベクトル（又はそのウィンドウ）の可能性についての確率の計算を一時的又は持続的なメモリにキャッシュしてもよい。他のフラグメントが同じＣｐＧ部位を有する場合、可能性確率をキャッシュすることは、基礎となる可能性確率を再計算する必要なく、ｐ－スコア値を効率的に計算させることができる。同等に、分析システムは、ベクトル（又はそのウィンドウ）からのＣｐＧ部位のセットに紐づくメチル化状態ベクトルの可能性の各々についてｐ値スコアを計算してもよい。分析システムは、同じＣｐＧ部位を含む他のフラグメントのｐ値スコアを決定する際に使用するために、ｐ値スコアをキャッシュしてもよい。一般に、同じＣｐＧ部位を有するメチル化状態ベクトルの可能性のｐ値スコアは、ＣｐＧ部位の同じセットからの可能性の異なる１つのｐ値スコアを決定するために使用されてもよい。

領域モデル又はがん分類器を訓練する前に、１つ以上の核酸メチル化フラグメントをフィルタリングすることができる。核酸メチル化フラグメントをフィルタリングすることは、対応する複数の核酸メチル化フラグメントから、１つ以上の選択基準（例えば、１つの選択基準を下回る又は上回る）を満たすことができない各それぞれの核酸メチル化フラグメントを取り除くことを備えることができる。１つ以上の選択基準は、ｐ値閾値を含むことができる。それぞれの核酸メチル化フラグメントの出力ｐ値は、それぞれの核酸メチル化フラグメントの対応するメチル化パターンを、それぞれの核酸メチル化フラグメントの対応する複数のＣｐＧ部位を有する健康な非がんコホートデータセット中のそれらの核酸メチル化フラグメントのメチル化パターンの対応分布との比較に基づいて、少なくとも部分的に決定することができる。

複数の核酸メチル化フラグメントをフィルタリングすることは、ｐ値閾値を満たすことができない各それぞれの核酸メチル化フラグメントを除去することを備えることができる。フィルタは、第１の複数の核酸メチル化フラグメントにわたって観察されたメチル化パターンを使用する各それぞれの核酸メチル化フラグメントのメチル化パターンに適用することができる。各それぞれの核酸メチル化フラグメント（例えば、フラグメント１、．．．、フラグメントＮ）の各それぞれのメチル化パターンは、１及び０のシークエンスとして表されるメチル化部位識別子と対応するメチル化パターンとで同定される対応する１つ以上のメチル化部位（例えば、ＣｐＧ部位）を備えることができる。ここで、各「１」は、１つ以上のＣｐＧ部位中のメチル化されたＣｐＧ部位を表し、かつ各「０」は、１つ以上のＣｐＧ部位中の非メチル化されたＣｐＧ部位を表す。第１の複数の核酸メチル化フラグメントにわたって観察されたメチル化パターンは、第１の複数の核酸メチル化フラグメントによって集合的に表されるＣｐＧ部位状態（例えば、ＣｐＧ部位Ａ、ＣｐＧ部位Ｂ、・・・、ＣｐＧ部位ＺＺＺ）に対するメチル化状態分布を構築するために使用することができる。核酸メチル化フラグメントの処理に関する更なる詳細は、２０２０年３月４日に出願された「Systems and Methods for Cancer Condition Determination Using Autoencoders」と題する米国仮特許出願第６２／９８５，２５８号に開示されており、その全体が参照により本明細書に組み込まれる。

それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが異常メチル化スコア閾値未満である異常メチル化スコアを有するとき、１つ以上の選択基準中の選択基準を満たすことができない場合がある。この状況では、異常メチル化スコアを、混合モデルによって決定することができる。例えば、混合モデルは、同じ長さのかつ同じ対応するゲノム位置における可能なメチル化状態ベクトルの数に基づいて、それぞれの核酸メチル化フラグメントに対するメチル化状態ベクトル（例えば、メチル化パターン）の尤度を決定することによって、核酸メチル化フラグメント中の異常なメチル化パターンを検出することができる。これは、参照ゲノム中の各ゲノム位置において、指定された長さのベクトルについて複数の可能なメチル化状態を生成することによって実行することができる。複数の可能なメチル化状態を使用して、可能なメチル化状態の総数、及びそれに続いて、ゲノム位置における各予測されたメチル化状態の確率を決定することができる。その後、サンプル核酸メチル化フラグメントを予測された（例えば、可能性のある）メチル化状態にマッチさせ、かつ予測されたメチル化状態の計算された確率を取り出すことによって、参照ゲノム内のゲノム位置に対応するサンプル核酸の尤度を決定することができる。その後、異常なメチル化スコアを、サンプル核酸メチル化フラグメントの確率に基づいて計算することができる。

それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値未満の数の残基を有するとき、１つ以上の選択基準中の選択基準を満たすことができない場合がある。残基の閾値の数は、１０～５０の間、５０～１００の間、１００～１５０の間、又は１５０以上であり得る。閾値の残基数は、２０～９０の間の固定値であり得る。それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値未満の数のＣｐＧ部位を有するとき、１つ以上の選択基準中の選択基準を満たすことができない場合がある。ＣｐＧ部位の閾値の数は、４、５、６、７、８、９、又は１０であり得る。それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントのゲノム開始位置及びゲノム終了位置が、それぞれの核酸メチル化フラグメントがヒトゲノム参照シークエンス中の閾値数未満のヌクレオチドを表すことを示すとき、１つ以上の選択基準中の選択基準を満たすことができない場合がある。

フィルタリングは、対応する複数の核酸メチル化フラグメント中の別の核酸メチル化フラグメントと同じ対応するメチル化パターン並びに同じ対応するゲノム開始位置及びゲノム終了位置を有する核酸メチル化フラグメントを除去することができる。このフィルタリングステップは、いくつかの例において、ＰＣＲ重複を含む、完全な重複である冗長なフラグメントを除去することができる。フィルタリングは、対応する複数の核酸メチル化フラグメント中の別の核酸メチル化フラグメントと同じ対応するゲノム開始位置及びゲノム終了位置を有し、かつ異なるメチル化状態の閾値数未満である核酸メチル化フラグメントを除去することができる。核酸メチル化フラグメントの保持に使用される異なるメチル化状態の閾値の数は、１、２、３、４、５、又は５以上とすることができる。例えば、第２の核酸メチル化フラグメントと同じ対応するゲノム開始位置及び終了位置を有するが、それぞれのＣｐＧ部位（例えば、参照ゲノムにアライメントしたもの）において少なくとも１、少なくとも２、少なくとも３、少なくとも４、又は少なくとも５の異なるメチル化状態を有する第１の核酸メチル化フラグメントは、保持される。別の例として、同じメチル化状態ベクトル（例えば、メチル化パターン）を有するが、第２の核酸メチル化フラグメントとして異なる対応するゲノム開始位置及び終了位置を有する第１の核酸メチル化フラグメントもまた保持される。

フィルタリングは、複数の核酸メチル化フラグメント中のアッセイアーチファクトを除去することができる。アッセイアーチファクトの除去は、シークエンシングされたハイブリダイゼーションプローブから得られたシークエンスリード及び／又はバイサルファイト変換中に変換を受けることができなかったシークエンスから得られたシークエンスリードを除去することを備えることができる。フィルタリングは、汚染物質（例えば、シークエンシング、核酸単離、及び／又はサンプル調製に起因する）を除去することができる。

フィルタリングは、複数の訓練対象にわたるがん状態に対するそれぞれのメチル化フラグメントの相互情報フィルタリングに基づいて、複数のメチル化フラグメントからメチル化フラグメントのサブセットを除去することができる。例えば、相互情報は、同時にサンプリングされた２つの関心のある条件の間の相互依存性の尺度を提供することができる。相互情報は、１つ以上のデータセットからＣｐＧ部位の独立したセット（例えば、核酸メチル化フラグメントの全部内又は一部内）を選択し、かつ２つのサンプル群（例えば、遺伝子型データセット、生体サンプル及び／又は対象のサブセット並びに／若しくは群）間のＣｐＧ部位セットに対するメチル化状態の確率を比較することによって決定することができる。相互情報スコアは、スライディングウィンドウのそれぞれのフレーム中のそれぞれの領域において第１の条件対第２の条件のメチル化パターンの確率を表示することができ、このように、それぞれの領域の識別力を示すことができる。相互情報スコアは、選択されたＣｐＧ部位のセット及び／又は選択されたゲノム領域にわたって進行するようなスライディングウィンドウの各フレーム中の各領域について同様に計算することができる。相互情報フィルタリングに関する更なる詳細は、２０２０年１２月１１日に出願された「Cancer Classification using Patch Convolutional Neural Networks」と題する米国特許出願１７／１１９，６０６号に開示されており、その全体が参照により本明細書に組み込まれる。

ＩＩ．Ｂ．ｉｉ．ハイパーメチル化フラグメント及びハイポメチル化フラグメント

いくつかの実施態様において、分析システムは、閾値を超える数のＣｐＧ部位を有し、かつ閾値パーセンテージを超えるＣｐＧ部位がメチル化されている、又は閾値パーセンテージを超えるＣｐＧ部位が非メチル化されているかのいずれかを有するフラグメントとして異常なフラグメントを判定し、分析システムは、そのようなフラグメントを、ハイパーメチル化フラグメント又はハイポメチル化フラグメントとして同定する。フラグメント（又はＣｐＧ部位）の長さの閾値の例は、３より上、４より上、５より上、６より上、７より上、８より上、９より上、１０より上、等を含む。メチル化又は非メチル化のパーセンテージの閾値の例は、８０％より上、８５％より上、９０％より上、又は９５％より上、若しくは５０％～１００％の範囲内の他のパーセンテージを含む。

ＩＩ．Ｃ．分析システムの例

図７Ａは、１つ以上の実施態様による核酸サンプルをシークエンシングするためのデバイスの例示的なフローチャートである。この例示的なフローチャートは、シークエンサ７２０及び分析システム７００などのようなデバイスを含む。シークエンサ７２０及び分析システム７００は、図１Ａのプロセス１００、図２Ａのプロセス２００、図２Ｂのプロセス２２０、及び本明細書に記載の他のプロセスにおける１つ以上のステップを行うために連動して動いてもよい。

様々な実施態様において、シークエンサ７２０は、濃縮された核酸サンプル７１０を受け取る。図７Ａに示すように、シークエンサ７２０は、特定のタスク（例えば、シークエンシングの開始又はシークエンシングの終了）とのユーザー対話を可能にするグラフィカルユーザーインターフェース７２５と、また同様に濃縮フラグメントサンプルを含むシークエンシングカートリッジをロードするため、及び／又はシークエンシングアッセイを行うために必要なバッファーをロードするための１つ以上のロードステーション７３０と、を含むことができる。それゆえに、シークエンサ７２０のユーザーが必要な試薬及びシークエンシングカートリッジをシークエンサ７２０のロードステーション７３０に提供すると、ユーザーは、シークエンサ７２０のグラフィカルユーザーインターフェース７２５と対話することによってシークエンシングを開始することができる。一度開始されると、シークエンサ７２０は、シークエンシングを行い、核酸サンプル７１０からの濃縮フラグメントのシークエンスリードを出力する。

いくつかの実施態様では、シークエンサ７２０は、分析システム７００と通信可能に結合される。分析システム７００は、１つ以上のＣｐＧ部位におけるメチル化状態の評価、バリアントコール又は品質管理などのような様々な用途のためにシークエンスリードを処理するために使用されるいくつかの数のコンピューティングデバイスを含む。シークエンサ７２０は、ＢＡＭファイルフィーマットでシークエンスリードを分析システム７００に提供してもよい。分析システム７００は、無線、有線、又は無線及び有線の組み合わせの通信技術を通じてシークエンサ７２０に通信可能に結合することができる。一般に、分析システム７００は、プロセッサ、及びプロセッサによって実行されると、プロセッサにシークエンスリードを処理させる、若しくは本明細書に開示される方法又はプロセスのいずれかの１つ以上のステップを行うコンピュータ命令を格納する非一時的コンピュータ可読記憶媒体、を備えるように構成される。

いくつかの実施態様では、シークエンスリードを、例えば、図１Ａのプロセス１００のステップ１４０を介して、アライメント位置情報を決定するために、当該技術分野において既知の方法を使用する参照ゲノムにアライメントしてもよい。アラインメント位置は、一般に、所与のシークエンスリードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する参照ゲノム中の領域の開始位置及び終了位置を記載してもよい。メチル化シークエンシングに対応して、アライメント位置情報は、参照ゲノムへのアライメントに従ってシークエンスリード中に含まれる最初のＣｐＧ部位及び最後のＣｐＧ部位を示すように一般化されてもよい。アライメント位置情報は、所与のシークエンスリード中の全てのＣｐＧ部位のメチル化状態及び位置を更に示してもよい。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントに紐づいてもよく、そのようなものとして、分析システム７００は、シークエンスリードを、そのシークエンスリードにアライメントする１つ以上の遺伝子でラベルしてもよい。一実施態様において、フラグメントの長さ（又はサイズ）は、開始位置及び終了位置から決定される。

様々な実施態様において、例えばペアエンドシークエンスプロセスが使用されるとき、シークエンスリードは、Ｒ_１及びＲ_２として示されるリードペアで構成される。例えば、第１のリードＲ_１は、二本鎖ＤＮＡ（ｄｓＤＮＡ）分子の第１の端からシークエンシングされてもよく、一方、第２のリードＲ_２は、二本鎖ＤＮＡ（ｄｓＤＮＡ）の第２の端からシークエンシングされてもよい。それゆえに、第１のリードＲ_１及び第２のリードＲ_２のヌクレオチド塩基対を、参照ゲノムのヌクレオチド塩基と一貫して（例えば、反対の向きで）アライメントする場合がある。リードペアＲ_１及びＲ_２から得られるアラインメント位置情報は、第１のリード（例えば、Ｒ_１）の末端に対応する参照ゲノム内の開始位置、及び第２のリード（例えば、Ｒ_２）の末端に対応する参照ゲノム内の終了位置を含んでもよい。言い換えれば、参照ゲノム内の開始位置及び終了位置は、核酸フラグメントが対応する参照ゲノム内部の可能性の高い位置を表すことができる。ＳＡＭ（シークエンスアライメントマップ）形式又はＢＡＭ（バイナリ）形式を有する出力ファイルが生成され、かつさらなる解析のために出力されてもよい。

ここで図７Ｂを参照すると、図７Ｂは、一実施態様によるＤＮＡサンプルを処理するための分析システム７００のブロック図である。分析システムは、ＤＮＡサンプルの分析に使用するための１つ以上のコンピューティングデバイスを実装する。分析システム９００は、シークエンスプロセッサ７４０、シークエンスデータベース７４５、モデルデータベース７５５、モデル７５０、パラメータデータベース７６５、及びスコアエンジン７６０を含む。いくつかの実施態様において、分析システム７００は、図１Ａのプロセス１００及び図２のプロセス２００の一部又は全部を行う。

シークエンスプロセッサ７４０は、サンプルからのフラグメントに対するメチル化状態ベクトルを生成する。フラグメント上の各ＣｐＧ部位において、シークエンスプロセッサ７４０は、図１Ａのプロセス１００を介して、各フラグメントについて、参照ゲノム中のフラグメントの位置、フラグメント中のＣｐＧ部位の数、及びメチル化、非メチル化、又は不確定のいずれかであるフラグメント中の各ＣｐＧ部位のメチル化状態を特定するメチル化状態ベクトルを生成する。シークエンスプロセッサ７４０は、シークエンスデータベース７４５内のフラグメントに対するメチル化状態ベクトルを格納してもよい。シークエンスデータベース７４５内のデータは、サンプルからのメチル化状態ベクトルが互いに紐づくように編成されてもよい。

さらに、多数の異なるモデル７５０が、モデルデータベース７５５に格納されてもよく、又はテストサンプルと共に使用するために検索されてもよい。一例では、モデルは、異常なフラグメントに由来する特徴ベクトルを使用してテストサンプルに対するがん予測を同定するための訓練されたがん分類器である。がん分類器の訓練及び使用は、セクションＩＩＩ．がんを同定するためのがん分類器と併せて更に論じられるだろう。分析システム７００は、１つ以上のモデル７５０を訓練し、かつ様々な訓練されたパラメータをパラメータデータベース７６５に格納してもよい。分析システム７００は、モデル７５０をモデルデータベース７５５に関数とともに格納する。

推論中、スコアエンジン７６０は、１つ以上のモデル７５０を使用して、出力を返す。スコアエンジン７６０は、モデルデータベース７５５内のモデル７５０を、パラメータデータベース７６５からの訓練されたパラメータと共にアクセスする。各モデルに従って、スコアエンジンは、モデルのための適切な入力を受け取り、かつ受け取った入力、パラメータ、及び入力と出力とを関連付ける各モデルの関数に基づいて、出力を計算する。いくつかの使用例では、スコアエンジン７６０は、モデルからの計算された出力の信頼度に相関するメトリクスを更に計算する。他の使用例では、スコアエンジン７６０は、モデルで使用するための他の中間的な値を計算する。

ＩＩＩ．がんを同定するためのがん分類器

ＩＩＩ．Ａ．概要

がん分類器は、テストサンプルに対する特徴ベクトルを受け取り、かつテストサンプルが、がん、より具体的には、特定のがんタイプを有するテスト対象からのものであるかを判定するように訓練することができる。がん分類器は、複数の分類パラメータと、入力としての特徴ベクトルと、分類パラメータを有する入力特徴ベクトル上で動作する関数によって決定される出力としてのがん予測との間の関係を表す関数と、を備えることができる。いくつかの実施態様において、がん分類器に入力される特徴ベクトルは、テストサンプルから判定された異常なフラグメントのセットに基づく。異常なフラグメントは、図２Ｂのプロセス２２０を介して、又はより具体的には、プロセス２２０のステップ２７０を介して判定されるようなハイパーメチル化フラグメント及びハイポメチル化フラグメント、若しくはいくつかの他のプロセスに従って判定される異常なフラグメントであると判定されてもよい。がん分類器の展開の前に、分析システムは、がん分類器を訓練することができる。

ＩＩＩ．Ｂ．合成トレーニングサンプルの生成

図３は、１つ以上の実施態様による、合成トレーニングサンプルを生成する例示的なプロセスを図示する。分析システムは、既知のがん状態を有する個体から得られたトレーニングサンプルを使用して、１つ以上の合成トレーニングサンプルを生成することができる。分析システムは、合成トレーニングサンプルを含むトレーニングサンプルを使用して、がん分類器を訓練することができる。

分析システムは、合成トレーニングサンプル３３０を生成するために、がんトレーニングサンプル３１０及び非がんトレーニングサンプル３２０を取得する。がんトレーニングサンプル３１０は、がんを有しているという既知の状態を有する個体から得られる。非がんトレーニングサンプル３２０は、がんを有していない（「非がん」）という既知のステータスを有する個体から得られる。各トレーニングサンプルは、ヒトゲノム中の複数のゲノム領域のうちの少なくとも１つのゲノム領域と重なるｃｆＤＮＡフラグメントを含む。ゲノム領域がＮ個与えられると、非がんトレーニングサンプル３１０は、ゲノム領域１中のフラグメント３１２、ゲノム領域２中のフラグメント３１４、及びゲノム領域Ｎ中のフラグメント３１６までの各ゲノム領域のフラグメントを有する。ゲノム領域Ｎのフラグメント３２６までの各ゲノム領域のフラグメントを有する。同様に、非がんトレーニングサンプル３２０は、ゲノム領域１中のフラグメント３２２、ゲノム領域２中のフラグメント３２４、及びゲノム領域Ｎ中のフラグメント３２６までの各ゲノム領域のフラグメントを有する。

分析システムは、がんトレーニングサンプル３１０からフラグメントと、非がんトレーニングサンプル３２０からフラグメントとをサンプリングすることによって、合成トレーニングサンプル３３０を生成する。分析システムは、各ゲノム領域において、第１のサンプリング確率でがんトレーニングサンプル３１０からフラグメントのサブセットをサンプリングし、かつ第１のサンプリング確率に対して相補的な第２のサンプリング確率で非がんトレーニングサンプル３２０からフラグメントのサブセットをサンプリングする。図に示すように、第１のサンプリング確率はＡ％であり、かつ第２のサンプリング確率はＢ％である。このようにサンプリングすることによって、ゲノム領域１について、がんトレーニングサンプル３１０からのフラグメント３１２のＡ％、及び非がんトレーニングサンプル３２０からのフラグメント３２２のＢ％を含むように、合成トレーニングサンプル３３０が生成される。同様に、合成サンプル３３０は、ゲノム領域２について、がんトレーニングサンプル３１０からのフラグメント３１４のＡ％、及び非がんトレーニングサンプル３２０からのフラグメント３２４のＢ％を含むように生成される。これは、ゲノム領域Ｎまでゲノム領域を通じて継続し、合成サンプル３３０は、ゲノム領域Ｎにおいて、がんトレーニングサンプル３１０のフラグメント３１６のＡ％、及び非がんトレーニングサンプル３２０のフラグメント３２６のＢ％を含むように生成される。分析システムは、合成トレーニングサンプル３３０にがんのラベルをラベルする。ラベルは、がんトレーニングサンプル３１０内に存在する特定のがんタイプを更に含んでもよい。

サンプリング確率は、訓練されたがん分類器の性能に従って決定することができる。分析システムは、がん分類器を訓練し、かつその性能を評価してもよい。分類器の性能は、最小腫瘍分画、すなわち、がん信号を検出するために必要な腫瘍組織から排出されるｃｆＤＮＡフラグメントの最小パーセンテージでサンプル中のがんの存在を予測する検出限界値を含んでもよい。例えば、分類器は、サンプル中の１０００個のフラグメントあたりの腫瘍組織から流出した１個のフラグメントの検出限界を有してもよい。がんトレーニングサンプル３１０からサンプリングされたフラグメントのパーセンテージに対応する第１のサンプリング確率は、０．００１％（又はそのようなパーセンテージの周辺）に設定されてもよい。分析システムは、第２のサンプリング確率を第１のサンプリング確率の補数として決定してもよい。相補的なサンプリング確率は、１００％まで加算されるパーセンテージを有する。例えば、０．００１％の相補的なパーセンテージは０．９９９％であり、非がんトレーニングサンプル３２０からサンプリングされたフラグメントのパーセンテージに対応する第２のサンプリング確率として設定される。分析システムは、がんトレーニングサンプル３１０及び非がんトレーニングサンプル３２０のシークエンス深度に従って、サンプリング確率を更に調整してもよい。例えば、がんトレーニングサンプル３１０が非がんトレーニングサンプル３２０よりも小さいシークエンス深度を有する場合、第１のサンプリング確率を増加してもよい。分析システムは、がん分類器が合成トレーニングサンプルで漸進的に訓練されるにつれて、サンプリング確率を漸進的に調整してもよい。

図４は、１つ以上の実施態様による、がん分類器のトレーニングのための合成トレーニングサンプルを生成するプロセス４００を説明する例示的なフローチャートである。以下の説明は分析システムの考え方であるが、以下のプロセスは、図７Ｂに示される分析システム７００の構成要素のいずれかによって行われてもよい。

分析システムは、複数のトレーニングサンプルについてのシークエンシングデータを受信する（４１０）。分析システムは、がん又は非がんのラベルを有するトレーニングサンプルを各々受信することができる。がんのラベルを有するトレーニングサンプルは、特定のがんタイプのラベルを更に有してもよい。各トレーニングサンプルは、図２Ｂのプロセス２２０に従って異常にメチル化されていると判定される場合がある複数のｃｆＤＮＡフラグメントを含むことができる。

分析システムは、がんとしてラベルされた第１のトレーニングサンプル、及び非がんとしてラベルされた第２のトレーニングサンプルをサンプリングする（４２０）。第１のトレーニングサンプルは、複数のがんタイプのうちの特定のがんタイプのラベルを追加で有していてもよい。

分析システムは、第１のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第１のサブセット、及び第２のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第２のサブセットをサンプリングすることによって、がんとしてラベルされた第１の合成トレーニングサンプルを生成する（４３０）。図３に記載されるように、分析システムは、サンプリング確率によって、ゲノム領域に従って各トレーニングサンプルからフラグメントをサンプリングしてもよい。分析システムは、各ゲノム領域において、第１のサンプリング確率に従って第１のトレーニングサンプルに対するゲノム領域中のフラグメント、及び第２のサンプリング確率に従って第２のトレーニングサンプルに対するゲノム領域中のフラグメントをサンプリングすることができ、ここで、第２のサンプリング確率は、第１のサンプリング確率に対して相補的である。

分析システムは、ステップ４２０及び４３０を繰り返して、追加の合成トレーニングサンプルを生成してもよい。単一のがんトレーニングサンプルをがんとしてラベルされた複数の合成トレーニングサンプルを生成するために使用してもよい。

分析システムは、各トレーニングサンプルに対する特徴ベクトルを生成する（４４０）。トレーニングサンプルは、少なくとも第１の合成トレーニングサンプルと、生成された全ての合成トレーニングサンプルまでと、を含む。特徴ベクトルは、トレーニングサンプル中の異常なｃｆＤＮＡフラグメントに基づいて生成することができる。特徴づけの１つのアプローチは、セクションＩＩＩ．Ｃ．がん分類器の訓練で後述する。

分析システムは、特徴ベクトルとトレーニングサンプルのラベルとを用いて、がん分類器を訓練する（４５０）。分析システムは、トレーニングサンプルの特徴ベクトルを入力することによってがん分類器を訓練し、かつトレーニングサンプルのラベルのがん分類器の予測精度の最適化において、がん分類器のパラメータを調整する。がん分類器の訓練に関する更なる詳細は、セクションＩＩＩ．Ｃ．がん分類器の訓練で後述する。

生成された１つ以上の合成トレーニングサンプルを用いてがん分類器を訓練することにより、改善されたがん分類器の特異度及び感度を容易にする。この改善は、いくつかの要因に起因する。例えば、拡張されたトレーニングセットを使用することによって、分類器はデータのトレンドをより良く一般化できるため、データのオーバーフィッティングが減少する。追加で、サンプリング確率を決定することにより、生成された合成トレーニングサンプルは、分類器の検出限界に近いがん信号を有することができる。これは、ひいては、がん信号が少ない特徴空間においてがん分類器をより堅牢に訓練することをさせることができる。

図５Ａは、本開示の様々な実施態様に従って、増強データを生成し、オプションで疾患状態を互いに判別する分類器を訓練するための一例のワークフロー５００を示す。

いくつかの実施態様において、ワークフロー５００の第１のステップは、例えば、各トレーニングコホート中の対象が異なる疾患状態を有する１つ以上のトレーニングコホートからの基礎となる生物学的データの収集である（５０２）。生体サンプル（例えば、核酸を包含する）は、第１のコホート中の対象から収集され（５０４）、その各々は、第１の疾患状態、例えば、無細胞核酸が疾患状態の情報を与える特定のがんの状態又は心血管疾患を有する。図２に図示するように、生体サンプルは、１つ以上の追加のコホート中の対象から収集され（５０５）、その各々は、第１の疾患状況とは異なる第２の疾患状況を有する。例として、第１のコホート中の対象はがんを有しているが、第２のコホート中の対象はがんを有していない。本明細書に記載の方法で使用される各生物サンプルは、無細胞核酸、例えば、ｃｆＤＮＡを含むことができる。有利には、無細胞核酸は、対象からの最小侵襲性の少量採血によって、若しくは場合によっては唾液又は尿などのような他の体液の非侵襲性サンプリングから得ることができる。本明細書に記載されるシステム及び方法は、対象における疾患状況を検出するために使用することができる任意のタイプの生物学的データ、例えば、無細胞又は細胞ゲノムデータ、トランスクリプトームデータ、エピジェネティックデータ、プロテオームデータ、メタボロームデータ等を評価するために適し得る。生体サンプルは、対象についての生物学的情報を得るために処理することができる（５０６）。サンプル中の無細胞核酸（例えば、ｃｆＤＮＡ）は、ｃｆＤＮＡシークエンスリードを生成するためにシークエンシングすることができる。

ワークフロー５００は、生体サンプルを収集する（例えば、コホート１からｃｆＤＮＡサンプルを取得するステップ（５０４）及び他の任意のコホートからｃｆＤＮＡサンプルを取得するステップ（５０５））並びに生体特徴抽出（例えば、ｃｆＤＮＡのシークエンスリードを生成するステップ（５０６））の任意のステップを図示しているが、本明細書に記載の方法は、以前に抽出した生体特徴（例えば、シークエンスリード値、かつオプションでシークエンスリード値の特徴）を電子フォームで得ることによって開始することができる。

ワークフロー５００は、第１のコホート中の対象からの核酸サンプル、及びオプションで追加のコホート中の対象からの核酸サンプルに対して、核酸フラグメントシークエンスを取得するステップ（５０８）を含む。ワークフロー５００は、ステップ５０６において収集された生物学的情報に基づいて、コホート１中の対象の各々に対してデータ構成体を取得するステップ（５１０）を更に含む。データ構成体は、対象のゲノム特徴（又はゲノム特性）、疾患状況、及びオプションで個人的特徴を含むことができる。本明細書に記載の方法に有用なゲノム特徴の例には、生体サンプル中の特定のシークエンス（例えば、ゲノム又はエキソミック遺伝子座）の相対的存在量についての有益なリードカウント（例えば、ゲノムコピー数特性）、対象の種に対しての参照ゲノム（複数可）に関する対象のゲノム（例えば、生殖細胞系又は疾患組織のいずれか若しくは両方）中の差異に関する有益なバリアント対立遺伝子の存在（例えば、バリアント対立遺伝子特性）、テスト生物サンプル中の非バリアント対立遺伝子に対するバリアント対立遺伝子の相対的存在量についての有益なバリアント遺伝子頻度（例えば、対立遺伝子比特性）、及びテスト生物サンプル中の異なるゲノム領域のメチル化状態についての有益なメチル化状態（例えば、ゲノムメチル化特性）を含む。データ構成体に含まれる特定の特徴及びそのフォーマットは、ワークフロー５００のステップ５１６においてオプションで訓練された分類器によって規定することができる。ワークフロー５０２において、核酸フラグメントシークエンスデータは、一緒にマージされない場合がある。この状況では、ｃｆＤＮＡの供給源の同一性を維持することができ、かつ各補完的データ構成体は、コホートのうちの１つからの単一の対応するサンプルのｃｆＤＮＡから構築することができる。いくつかの代替実施態様において、コホートの２つ以上のサンプルからのｃｆＤＮＡは、単一の補完的データ構成体にマージされる。

ワークフロー５００は、ステップ５０６において収集された生物学的情報に基づいて、任意の追加のコホート中の対象の各々に対してデータ構成体を取得するステップ（５１２）オプションで含む。データ構成体は、上述のように、対象の遺伝子型特徴、疾患状況、及びオプションで個人的特徴を含むことができる。データ構成体が、追加のコホート中の対象の疾患状態を判別するために分類器を訓練するために使用されるとき、ステップ５１２において得られたデータ構成体中のゲノム特徴は、ステップ５１０において第１のコホートに対して得られたデータ構成体中の同じゲノム特徴であり得る。

ワークフロー５００はまた、第１のコホート中の少なくとも１つの対象について得られた核酸フラグメントシークエンスの確率的サンプリングに基づいて、ゲノム特徴について増強値を包含する補完的データ構成体を生成するステップ（５１４）を含む。補完的データ構成体の１つ以上は、訓練されている分類器の検出限界付近の疾患シグネチャを有するために模擬サンプルの状態を表すことができる。この状況では、所与の疾患状態を表す弱いデータ信号の例をより多く提示することによって、分類器の訓練を改善することができる。

図５Ｂは、ステップ５１４において補完的データ構成体を生成するための例示的なワークフローを図示する。図５Ｂに図示するように、第１のコホート中の１つ以上の対象（例えば、がんを有する）からの核酸フラグメントシークエンスデータ５２０は、確率的にサンプリングされ（５３０）、その後、より弱い疾患信号を有するデータを模擬できる全ての核酸フラグメントシークエンスのサブセットが選択される。例えば、０．２の腫瘍分画を有する液体生体サンプルから生成された核酸フラグメントシークエンスの正規化セットから開始するとき（すなわち、サンプル中の無細胞核酸の２０％ががん細胞からである）、核酸フラグメントシークエンスの各々に５０％の選択確率を適用すると、約半量のがん信号を有する対応する補完的データ構成体に対する核酸フラグメントシークエンスの選択セットが生じ、これは、０．１の腫瘍分画を有するサンプルに期待されるがん信号とおおよそ同等である。実際には、がんのない対象のコホート及びがん対象のコホートを用いて分類器を訓練することができ、コホート中のがんの対象は、腫瘍率に関して異なる。訓練された分類器の性能は、分類器の検出限界を決定するために評価することができる。訓練された分類器は、分類器の性能が実質的に低下し始めるか又は完全に失敗する腫瘍分画を決定するために評価することができる。

その後、この腫瘍分画を中心とする補完的データ構成体を生成するために方法５０２（図２）を使用することができる。例えば、がんコホート中の平均的ながん対象が０．４の腫瘍分画を有し、訓練された分類器が腫瘍分画０．２で失敗する場合を考える。この状況では、分類器は、十分な性能でがんを有するとして腫瘍率０．２以下を有する対象を同定できない場合がある。このような事例では、がんコホートから、コホート対象ごとに補完的データ構成体を生成することができる。各対象に対して、そのフラグメントシークエンスの各々を、対応する補完的データ構成体に含めるために、確率論的基準で選択することができる。分類器は０．２で失敗するので、分類器をよりよく訓練するために、腫瘍分画を有する補完的データ構成体は、０．２の近傍であることができる。そこで、がんコホート中の各それぞれの対象について、対応する補完的データ構成体に含めるために各核酸フラグメントを確率的にサンプリング（受け入れる）することによって、それぞれの対象に対してコホート中の核酸フラグメントデータを使用して構築された対応する補完的データ構成体に対して核酸フラグメントシークエンスのそれぞれを選択することが可能である。この例では、がんコホート中のそれぞれの対象に対して各核酸フラグメントに、０．５０の確率的サンプリングが適用される。このように、がんコホート中のそれぞれの対象に対して１０００個の核酸フラグメントがある場合、各核酸フラグメントは、５０％の確率で対応する補完的データ構成体に受け入れられることができる。有利なことに、参照対立遺伝子及び代替対立遺伝子を考慮することなく、又はどの対立遺伝子ががん信号を決定するのかを知ることさえなく、０．２の腫瘍分画を有する実際のコホートサンプルを模擬する対応する補完的データ構成体を生成するために、この確率的サンプリングの適用によって判別する代替的な対立遺伝子の生のカウントをおそらく半分にすることができる。このようにして生成された補完的データ構成体は、元のコホートデータと組み合わせて、今度はより多くのデータを用いて分類器をもう一度訓練することができ、かつ元のデータに対する分類器の性能をもう一度評価することができる。有利なことに、以下の例に示すように、このアプローチは、特に、元のコホートデータが少数の対象の数しか有しなかった低腫分画において、分類器の性能を向上させることができる。

オプションで、代替の実施態様では、図５Ｂにもまた図示するように、第２のコホート中の１人以上の対象（例えば、がんを有さない人）からの核酸フラグメントシークエンスデータ５２２は、全ての核酸フラグメントシークエンスのサブセットのみを選択するためにランダムにサンプリングすることができる（５３２）。このサンプリングされた核酸フラグメントシークエンスのサブセットは、例えば、第１のコホート中の対象からの核酸フラグメントシークエンスの元のセットよりも弱い疾患シグネチャ（例えば、疾患ががんであるとき、より低い腫瘍分画）を有する核酸フラグメントシークエンスの増強セットを生成するために、第１のコホート中の１人以上の対象からランダムにサンプリングした核酸フラグメントシークエンスと混合することができる（５４０）。サンプリングされた核酸フラグメントシークエンスの混合は、分類器を訓練するために使用されるゲノム特性の１つが、健康な核酸フラグメントシークエンスに対する疾患由来の核酸フラグメントシークエンスの比率に基づくときに使用することができる。例示すると、第１のコホート中の対象（例えば、がんを有する人）からの核酸フラグメントシークエンスデータ５２０は、対象からの全ての核酸フラグメントシークエンスのサブセットのみを選択するために、第１の確率（例えば、０．６）を使用して確率的にサンプリングすることができる（５３０）。また、第２のコホート中の対になる対象（例えば、がんを有さない人）からの核酸フラグメントシークエンスデータ５２２は、第２の確率（例えば、０．４）を使用して確率的にサンプリングし（５３０）、対になる対象からの全ての核酸フラグメントシークエンスのサブセットのみを選択することができる。コホート１からの１つとコホート２からの１つという、対になる対象からの核酸フラグメントシークエンスを組み合わせて、補完的データ構成体を形成することができる。コホート１中の２つ以上の対象及びコホート２中の単一の対象は、この方法で単一の補完的データ構成体に寄与し得る。コホート２中の２つ以上の対象及びコホート１中の単一の対象は、この方法で単一の補完的データ構成体に寄与し得る。コホート２中の２つ以上の対象及びコホート１中の２つ以上の対象は、この方法で単一の補完的データ構成体に寄与し得る。いくつかの実施態様において、第１のコホートからの対象内の核酸フラグメントシークエンスは、第１の確率でサンプリングされ、かつ第２のコホート中の対象内の核酸フラグメントシークエンスは、第１の確率及び第２の確率が同じ又は異なり、並びに第１の確率及び第２の確率の和が「１」にならない又はなる補完的データ構成体を形成するために第２の確率でサンプリングされる。

代替の実施態様では、疾患コホートからの核酸フラグメントシークエンスを非疾患コホートからの核酸フラグメントシークエンスで希釈するのとは対照的に、「欠損」核酸フラグメントシークエンスを非疾患状態として割り当てることによって、補完的データ構成体が構築される。例えば、第１のコホート（例えば、疾患コホート）中の対象からの核酸フラグメントシークエンスのセットが、所与のゲノム遺伝子座に対して１００個の核酸フラグメントシークエンスを含み、そのうち２０個が疾患細胞由来であると仮定する。核酸フラグメントシークエンスの５０％をランダムにサンプリングして、１０個の疾患細胞に由来する核酸フラグメントシークエンスと４０個の健康な細胞に由来する核酸フラグメントシークエンスとを選択した場合、増強セットの対立遺伝子比率は、開始サンプルと同じ２０％となり得る。しかしながら、核酸フラグメントシークエンスの増強セットは、依然として遺伝子座からの１００個の核酸フラグメントシークエンスを含み得、この場合、増強セットの対立遺伝子比は、核酸フラグメントシークエンスの元のセットの１０％又はその半分であると決定することができる。

図５Ｂに図示するように、いくつかの実施態様において、ランダムにサンプリングされた核酸フラグメントシークエンス（例えば、ステップ５３０において生成され、オプションで、ステップ５３２及び／又は５４０において生成される）は、その後、ステップ５１４の補完的データ構成体を形成する（５５０）ために使用される。

いくつかの実施態様では、図５Ａに示すように、ワークフロー５００は、対象の第１のコホートに紐づく第１の疾患状況と、対象の追加のコホートのうちの１つ以上に紐づく少なくとも１つの第２の疾患状況とを区別するために分類器を訓練するステップを含む。図５Ａに示すように、訓練は、第１のコホート中の対象、少なくとも１つの第２のコホート中の対象、並びに第１のコホート中の対象の少なくとも１つからランダムにサンプリングされた核酸フラグメントシークエンスから生成された増強されたデータ構成体に対して得られたデータ構成体（例えば、各対象又は増強された構成体についての疾患状態情報、例えば、各対象又は増強された構成体に対して得られた又は生成された生体データのゲノム特性を含む）を使用する。

確率サンプリングを使用してデータセットを人為的に拡張する方法は、異なる疾患状態をより良く判別するための分類器を訓練することに有用な複数の補完的データ構成体（例えば、増強された単一時点トレーニング構成体及び／又は増強された時系列トレーニング構成体）を生成することができる。異なる疾患状態をより良く判別するための例は、対象ががん又は心血管疾患などのような疾患を有するかを判定するため、疾患のタイプ（例えば、がんの種類、がんの発生元）を判定するため、疾患のステージ（例えば、がんのステージ）を判定するため、疾患の予後（例えば、治療を伴う及び／又は治療を伴わないがんの予後）を判定するため、などである。

本方法は、疾患状況の第１の状態を有する訓練対象の第１のコホート（例えば、訓練対象）に対する第１の複数のゲノムデータ構成体を含むトレーニングデータセット（例えば、単一時点トレーニングデータ）を、電子フォームで取得することを含むことができる。訓練対象の第１のコホートは、少なくとも５、１０、１００、１０～２５０００の間、又は１００未満の訓練対象を含むことができる。

第１の複数のゲノムデータ構成体は、訓練対象の第１のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値（例えば、核酸フラグメントシークエンスデータに対応する）を含むそれぞれのゲノムデータ構成体を含むことができる。その後、本方法は、複数の補完的データ構成体（例えば、増強された単一時点トレーニングデータ）を生成するためにトレーニングデータセットを使用することを含むことができ、複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、第１の複数のゲノムデータ構成体（例えば、単一時点トレーニングデータ）から少なくともそれぞれのゲノムデータ構成体に対応する（そこからサンプリングされる）。

複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、複数のゲノム特性中の各それぞれの遺伝子型特性に対して、第１の複数のゲノムデータ構成体から少なくともそれぞれのゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値（例えば。増強されたゲノムコピー数特性、増強されたバリアントアレル特性、増強されたアレル比特性、及び増強されたゲノムメチル化特性などのうちの１つ以上）を含むことができる。一例では、補完的遺伝子型データ構成体は、第１のコホート中の訓練対象のゲノムデータ構成体から、訓練対象中の各核酸フラグメントシークエンスのランダムサンプリングによって形成される。すなわち、第１のコホート中の訓練対象中の各核酸フラグメントシークエンスは、確率論的ベースで対応する補完的ゲノムデータ構成体に受け入れることができる。このようにして、補完的ゲノムデータ構成体は、第１のコホート中の訓練対象から確率論的ベースで対応する補完的ゲノムデータ構成体に受け入れられた核酸フラグメントシークエンスの同一性及び特性（例えば、ゲノムコピー数特性、変異アレル特性、対立遺伝子比特性、及びゲノムメチル化特性などの１以上）に基づいて、複数のゲノム特性中の各それぞれのゲノム特性についての増強値を獲得することができる。

複数のゲノム特性は、少なくとも１００、５００、１０００、５０００、１０，０００、５０，０００、１００，０００、又はそれ以上の遺伝子型特性を含むことができる。複数のゲノム特性は、単一のタイプの遺伝子型特性、例えば、ゲノムコピー数特性、バリアントアレル特性、対立遺伝子比特性、及びゲノムメチル化特性のうちの１つを含むことができる。いくつかの実施態様において、複数の遺伝子型特性は、少なくとも２つのタイプの遺伝子型特性、例えば、ゲノムコピー数特性、バリアントアレル特性、アリル比特性、及びゲノムメチル化特性のうちの２つ以上を含む。複数の遺伝子型特性は、少なくとも３つのタイプの遺伝子型特性、例えば、ゲノムコピー数特性、バリアントアレル特性、アリル比特性、及びゲノムメチル化特性のうちの３種類以上を含むことができる。対応する複数の核酸フラグメントの複数のゲノム特性の値は、複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用した全ゲノムシークエンシング、全ゲノムメチル化シークエンシング、標的シークエンシング（例えば、標的ＤＮＡメチル化シークエンシング）によって得ることができる。

１つ以上の単一時間点トレーニングデータセットをサンプリングして、対応する補完的データ構成体を形成することができる。この状況では、２つ以上の単一時点トレーニングデータセットからの核酸フラグメントシークエンスをランダムにサンプリングして、単一時点トレーニングデータセットで表される核酸フラグメントシークエンスと同量、又はそれより少ない核酸フラグメントシークエンスの代表的な補完的データ構成体を生成することができる。いくつかの実施態様では、少なくとも２つの単一時点トレーニングデータセットが一緒にサンプリングされる。他の実施態様では、少なくとも３、４、５、６、７、８、９、１０、２５、５０、１００、５００、１０００、又はそれ以上の単一時点トレーニングデータセットが一緒にサンプリングされて、単一の補完的データ構成体を形成する。

いくつかの実施態様において、第１の複数のゲノムデータ構成体は、第２の時間において訓練対象から得られた第２の生体サンプルに基づく、訓練対象の第１のコホート中の１つ以上の訓練対象についての少なくとも１つの第２のゲノムデータ構成体を含む。すなわち、この訓練対象に対して、第１の時間において訓練対象から得られた第１の生体サンプルを使用して得られた第１のゲノムデータ構成体と、第２の時間において訓練対象から得られた第２の生体サンプルを使用して得られた第２のゲノムデータ構成体とが存在し得る。例えば、第２のサンプルは、第１のサンプルの数日後、数週間後、数ヶ月後、又は数年後に取得される場合がある。このような状況では、経時的に対象から取得された生体サンプルを使用して訓練対象から得られる１つより多い遺伝子型データ構成体が存在し得、対象が経時的に所与のがんの後期ステージに進行している場合、データを増強する独自の機会が提供される。そのような実施態様では、増強された遺伝子型データ構成体を構築するために、対象から第１の時間において取得された第１のゲノムデータ構成体中の各核酸フラグメントを第１の確率を使用してランダムにサンプリングし、対象から第２の時間において取得された第２の遺伝子型データ構成体中の各核酸フラグメントを第２の確率を使用してランダムにサンプリングすることによって、増強された遺伝子型データ構成体を構築することができる。さらに、増強されたゲノムデータ構成体と第１のゲノム構成物との間の距離、及び増強されたゲノムデータ構成体と第２のゲノム構成体との間の距離を制御するように、第１の確率及び第２の確率を選択することができる。例えば、第２のゲノム構成体よりも第１のゲノム構成体に近い（遺伝子型特性の点で）増強されたゲノム型データ構成体を得るために、第１のゲノム構成体の核酸フラグメントシークエンスの各々は、第２のゲノム構成体の核酸フラグメントシークエンスの各々が増強されたゲノムデータ構成体に含めるためにサンプルされる確率よりも高い確率を使用してサンプルすることができる。

本方法は、１つ以上のトレーニングデータ構成体と対になったとき、疾患状態（例えば、がん）の進行又は退行のための生物学的シグネチャの代表的な時系列データを形成する複数の補完的データ構成体（例えば、増強された時系列訓練構成物）を生成することができる。時系列データは、異なる疾患状態をより良く判別するための分類器を訓練するために、例えば、対象ががん又は心血管疾患などのような疾患を有するかを判定するために、疾患のタイプ（例えば、がんタイプ、がんの発生元）を判定するために、疾患のステージ（例えば、がんのステージ）を判定するために、疾患の予後（（例えば、治療を伴う及び／又は治療を伴わないがんの予後）を判定するためになどで、有用となりうる。

時系列データを生成するために、本方法は、訓練対象の第１のコホートに対する第１の複数のゲノムデータ構成体を含む第１のトレーニングデータセット（例えば、時系列トレーニングデータ）を、電子フォーマットで取得することを含むことができる。第１の複数のゲノムデータ構成体は、訓練対象の第１のコホート中の各それぞれの訓練対象について、（ｉ）それぞれの第１の時点においてそれぞれの訓練対象から得られた対応する第１の生体サンプル（例えば、核酸フラグメントシークエンスデータに対応する）中の対応する第１の複数の核酸フラグメントの複数のゲノム特性についての値を備えるそれぞれの第１のゲノムデータ構成体を含むことができる。それぞれの訓練対象は、それぞれの第１の時点における疾患状況の第１の状態（例えば、がん又は心血管疾患などのような疾患が存在しない）を有することができ、（ｉｉ）１つ以上のスパイクイン対象のコホートに対する１つ以上のスパイクインゲノムデータ構成体のセットである。１つ以上のスパイクインゲノムデータ構成体のセットは、それぞれのスパイクイン対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれのスパイクイン遺伝子型データ構成体を含むことができ、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに、それぞれのスパイクイン対象が疾患状況の第２の状態を有する（例えば、疾患状態を有する、例えば、がんを有する）。疾患状況の第１の状態及び疾患状況の第２の状態は、疾患状況の進行によって関連付けることができる。例えば、訓練対象が疾患（例えば、がん又は心血管疾患）を有していない、又は疾患の初期ステージ（例えば、ステージ０又はステージ１のがん）を有し、かつスパイクイン対象から得られたサンプルが、それらが疾患状態の進行を受けた後、後の時点で訓練対象からのサンプルとして扱うことができるように、スパイクイン対象は疾患を有する、及び／又は疾患の進行ステージを有する。

その後、本方法は、第１のトレーニングデータセットを使用して、それぞれの第２の時点におけるそれぞれの訓練対象の代表となる複数のゲノム特性についての値を含むそれぞれの第１の増強されたゲノムデータ構成体（例えば、増強された時系列データ）を生成することを含むことができる。それぞれの第１の増強されたゲノムデータ構成体は、対応するゲノムデータ構成体の第１の対に対応することができる。ゲノムデータ構成体の第１の対は、（ｉ）それぞれの訓練対象に対するそれぞれの第２のゲノムデータ構成体と、（ｉｉ）１つ以上のスパイクイン遺伝子型データ構成体のセットからのそれぞれのスパイクインゲノムデータ構成体と、を含むことができる。それぞれの第１の増強されたゲノムデータ構成体は、対応する遺伝子型データ構成体の第１の対の各ゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの第１の確率サンプリングに由来する増強値を含むことができる。本方法は、それによって、訓練対象の第１のコホート中のそれぞれの訓練対象に対して、それぞれの第１のゲノムデータ構成体及びそれぞれの第１の増強されたゲノムデータ構成体を含むそれぞれの時系列データセットを生成することができる。ゲノム特性及び疾患状況の詳細は、本明細書の他の箇所に記載されている。

訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象について、それぞれの訓練対象は、それぞれの第１の時点においてがんに罹患していない場合がある。遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたとき、少なくともステージ２のがんに罹患している対応するスパイクイン対象から得られてもよい。

それぞれの第１の遺伝子型データ構成体及びそれぞれの第１の増強された遺伝子型データ構成体を含むそれぞれの時系列データセットは、訓練対象の第１のコホート中の各それぞれの訓練対象に対して生成することができる。したがって、それぞれの第１の増強されたゲノムデータ構成体は、ゲノムデータ構成体の対応する第１の対に対応することができる。ゲノムデータ構成体の第１の対は、（ｉ）それぞれの訓練対象についてのそれぞれの第２のゲノムデータ構成体、及び（ｉｉ）１つ以上のスパイクインゲノムデータ構成体のセットからのそれぞれのスパイクインゲノムデータ構成体を備えることができる。

スパイクイン対象は、例えば、訓練対象及びスパイクイン対象からのサンプルが同時に収集される場合、又は訓練対象が疾患状態を絶対に発症しない場合など、訓練対象とは異なる対象であり得る。このような場合、スパイクインサンプルからの疾患信号を、訓練対象から得られた第１のサンプルと直接混合して、訓練対象の第２の時点に対応するデータ構成体を形成することができる。したがって、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第２のゲノムデータ構成体は、それぞれの第１のゲノムデータ構成体とすることができる。しかしながら、第２のサンプルもまた訓練対象から得ることができ、かつ例えば、訓練対象がその後疾患を発症しない、又は疾患の実質的な進行を体験しない場合、第２の時点に対応するデータ構成体のバックグラウンドとして使用することができる。スパイクインサンプルからの疾患信号は、訓練対象からの第２のサンプルからのバックグラウンドと混合して、訓練対象についての第２の時点に対応するデータ構成体を形成することができる。したがって、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第２のゲノムデータ構成体は、第２の時点においてそれぞれの訓練対象から得られた対応する第２の生体サンプル中の対応する第２の複数の核酸フラグメント中の複数のゲノム特性についての値を含むことができる。遺伝子型データ構成体の対応する対中のそれぞれのスパイクイン遺伝子型データ構成体に対応するスパイクイン対象は、例えば、疾患の進行以外の要因に紐づく変動を説明するために、共有される個人的特徴に基づいてそれぞれの訓練対象にマッチさせることができる。

一例では、デバイス１００は、１つ以上の訓練構成体（例えば、５２０）から核酸フラグメントシークエンスデータをランダムにサンプリングし（５３０）、かつ１つ以上のスパイクインサンプル（例えば、５２２）は、核酸フラグメントシークエンスのサブセット（例えば、増強核酸フラグメントシークエンスデータ１５２－ｎ）を選択して、補完的データ構成体（５５０）を構築するために使用される。混合は、スパイクインサンプルからの生体疾患信号をトレーニングデータ構成体からのバックグラウンドで希釈し、訓練対象が疾患状態の進行を経験した後の第２の時間における訓練対象の代表となるデータ構成体を生成することと考えることができる。１つ以上の訓練構成体からの核酸フラグメントシークエンスデータは、第１の確率で単純ランダムサンプリングを使用してサンプリングすることができ、１つ以上のスパイクインサンプルからの核酸フラグメントシークエンスデータは、第２の確率で単純ランダムサンプリングを使用してサンプリングすることができ、ここで第１の確率は同じ又は異なっている。いくつかの実施態様では、第１の確率及び第２の確率は同じである。第１の確率は、最低で５％、１０％、１５％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、及びそれ以上とすることができる。第１の確率は、最大で９０％、８０％、７０％、６０％、５０％、４０％、３０％、２０％、１０％、又はそれ以下とすることができる。第２の確率は、最低で５％、１０％、１５％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％及びそれ以上とすることができる。第２の確率は、最大で９０％、８０％、７０％、６０％、５０％、４０％、３０％、２０％、１０％又はそれ以下とすることができる。第１の確率は、第２の確率と同じである、又は異なることができる。

追加の増強された時点はまた、例えば、スパイクインサンプルからの生体信号の異なる量をトレーニングサンプルからの生体信号と混合することによって、若しくは疾患の進行又は退行の時間経過を表す一連のスパイクインサンプルからの生体信号を混合することによって生成することができる。いくつかの実施態様において、時系列データは、少なくとも３つの時点、又は少なくとも４、５、６、７、８、９、１０、若しくはそれ以上の時点を含む。

トレーニングサンプルとスパイクインサンプルとの間の生体信号の混合は、疾患進行のモデルによって通知することができる。例えば、がんの進行モデルは、がんの所与の進行を再現するために、各時点においてどの程度の追加のがん信号（例えば、スパイクインサンプルによって提供される）をトレーニングサンプルに加えることができるかを決定するために使用される。したがって、確率サンプリングは、第１のそれぞれのゲノム構成体中の複数のゲノム特性についての値に寄与する複数の核酸フラグメントのそれぞれの第１の部分と、それぞれのスパイクインゲノムデータ構成体中の複数のゲノム特性についての値に寄与する複数の核酸フラグメントのそれぞれの第２の部分と、を選択することができる。核酸フラグメントのそれぞれの第１の部分及び核酸フラグメントのそれぞれの第２の部分の大きさは、少なくとも（ｉ）第１の時点と第２の時点との間の時間の長さと、（ｉｉ）疾患状況の第１の状態からの疾患状況の第２の状態の進展に関する時間的モデルと、に基づいて決定することができる。

疾患の進行又は退行のモデリングは、対象の１つ以上の個人的特性を考慮することができる。例えば、肺がんは、喫煙する対象は、喫煙しない対象よりも速く進行し得る。したがって、疾患状況の第１の状態からの疾患状況の第２の状態の進展に対する時間的モデルは、それぞれの対象の個人的特徴、例えば、性別、年齢、家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、疑似データ等のうちの１つ以上に少なくとも基づいている。疾患の進行又は退行のモデリングは、疾患の特定の形態、例えば、がんに特有であることができる。例えば、疾患状況はがんであり、かつ、がんの第１の状態からのがんの第２の状態の進展に対する時間的モデルは、少なくともがんのタイプに基づく。別の例では、疾患状況はがんとすることができ、がんの第１の状態からのがんの第２の状態の進展に対する時間的モデルは、がんが転移性であるか非転移性であるかに少なくとも基づくことができる。また別の例では、疾患状況はがんであり、がんの第１の状態からがんの第２の状態の進展に対する時間的モデルは、ステージに分けられる。

いくつかの実施態様において、各核酸フラグメントシークエンスは、補完的データ構成体に含めるために確率論的ベースでサンプリングすることができる。各核酸フラグメントシークエンスは、補完的データ構成体に含めるために確率論的ベースでサンプリングすることができ、ここで、含められる確率は、各核酸フラグメントシークエンスに対して同じ（例えば、５％～９５％の間、５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％）である。ランダムサンプリングのいくつかの実施態様において、各核酸フラグメントシークエンスは、補完的データ構成体に含めるために確率論的ベースでサンプリングすることができ、ここで、含まれる確率は、核酸フラグメントシークエンスに対応する複数のビン中のどのビンかに依存し、複数のビンの各ビンは、参照ゲノムの異なる部分を表わす。実際に使用される確率値は、アプリケーションに依存し得る（例えば、訓練された分類器の検出限界に基づく）。一例では、分類器の検出限界は、腫瘍分画のメトリックによって測定することができ、開示されたシステム及び方法を使用して、分類器の検出限界における腫瘍分画を表す増強されたデータセットを生成することができる。

疾患状況は、がんとすることができる。例えば、がんの第１の状態は、がんの存在であり、がんの第２の状態は、がんの非存在である。この状況では、分類器を、がんを有する患者の第１のコホートからの特徴、がんを有しない患者の第２のコホートからの特徴、及び、例えば、第１のコホートのものよりも一般的に弱いがん信号を有する、増強されたデータ構成体のセットからの模擬の特徴に対して訓練することができる。がんの第１の状態は、第１のタイプのがんとすることができ、がんの第２の状態は、がんの第２のタイプとすることができる。この状況では、分類器を、第１のタイプのがんを有する患者の第１のコホートからの特徴、第２のタイプのがんを有する患者の第２のコホートからの特徴、及び、例えば、第１のコホート及び／又は第２のコホートのものよりも一般的に弱い第１のタイプ及び／又はがんの第２のタイプのがん信号を有する増強されたデータ構成体のセットからの模擬の特徴に対して訓練することができる。がんの第１の状態は、指定されたがんの第１のステージとすることができ、がんの第２の状態は、指定されたがんの第２のステージとすることができる。この状況では、分類器を、同じ又は異なるタイプのがんの異なるステージ間、例えば、ステージ０、ステージ１、ステージ２、ステージ３、及びステージ４のがんの２つ以上の間を区別するように訓練することができる。がんの第１の状態は、がんの第１の予後とすることができ、がんの第２の状態は、がんの第２の予後とすることができる。この状況では、分類器を、治療なしの異なる生命予後、治療を伴う異なる生命予後、異なる予想寛解率、及び／又は特定の治療に対する異なる予想応答を区別するように訓練することができる。

いくつかの実施態様において、疾患状況は、心血管疾患である。心血管疾患の第１の状態は、心血管疾患の存在であることができ、心血管疾患の第２の状態は、心血管疾患の非存在であることができる。この状況では、分類器を、心血管疾患を有する患者の第１のコホートからの特徴、心血管疾患を有しない患者の第２のコホートからの特徴、及び、例えば、第１のコホートのものよりも一般的に弱い心血管疾患信号を有する増強されたデータ構成体のセットからの模擬の特徴に対して訓練することができる。心血管疾患の第１の状態は、心血管疾患に対する第１の予後とすることができ、心血管疾患の第２の状態は、心血管疾患に対する第２の予後とすることができる。この状況では、分類器を、治療なしの異なる生命予後、治療を伴う異なる生命予後、異なる予想寛解率、及び／又は特定の治療に対する異なる予想応答を区別するように訓練することができる。

いくつかの実施態様において、第２のコホート５２２中の１つ以上のデータ構成体からの生物学的データは、ランダムにサンプリングし、かつ第１のデータ構成体からのランダムにサンプリングしたデータと混合して、第１のコホート中の１人以上の対象から確率的にサンプリングした核酸フラグメントと第２のコホート中の１人以上の対象から確率的にサンプリングした核酸フラグメントの組み合わせから補完的データ構成体を形成することもできる。第２のコホート５２２中の単一のデータ構成体からの生物学的データをランダムにサンプリングし、かつ第１のデータ構成体からのランダムにサンプリングしたデータと混合して、第１のコホート中の単一の対象から確率的にサンプリングした核酸フラグメントと第２のコホートにおける単一の対象から確率的にサンプリングした核酸フラグメントとの組み合わせから補完的データ構成体を形成することもできる。第１のデータ構成体が特定の疾患状態を有する（例えば、がんを有する又は心血管疾患を有する）対象に対応し、第２のデータ構成体が特定の疾患状態を有しない（例えば、がんを有しない又は心血管疾患を有しない）対象に対応するとき、混合は、第１のデータ構成体からの生体疾患信号を第２のデータ構成体からのバックグラウンドで希釈すると考えることができる。したがって、トレーニングデータセットは、疾患状況の第１の状態とは異なる疾患状況の第２の状態を有する訓練対象の第２のコホートに対する第２の複数のゲノムデータ構成体を更に含むことができる。第２の複数のゲノムデータ構成体は、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれの遺伝子型データ構成体を含むことができる。サンプリングされたデータは、第１のデータ構成体から希釈されなくてもよい。サンプリングされたデータがバックグラウンド信号と混合されていない増強されたデータ構成体を用いて分類器を訓練すると、モデルがバックグラウンド信号と混合された同じサンプリングされた信号を使用して訓練されるときよりも優れた分類器を生成することができる。

データをランダムにサンプリングする方法は、単純ランダムサンプリング、層別ランダムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリング、及び多段ランダムサンプリングを含むことができる。単純ランダムサンプリングは、グループ内の各項目（ここでは、１つ以上のトレーニングコホート中の対象、又は複数の対象中の各核酸フラグメントシークエンス）が同じ確率で選択されることを含んでもよい。例えば、核酸フラグメントシークエンスのセットの単純ランダムサンプリングは、セット中の各核酸フラグメントシークエンスが、増強された核酸フラグメントシークエンスのセットに選択される機会を有することを規定する。層別サンプリング又はクラスターサンプリングと、単純なランダムサンプリングとの組み合わせを採用することができる。様々な考慮事項が、任意の特定のサンプリングイベントに使用される選択確率を規定してもよい。これらの考慮事項は、開始データ構成体中の疾患信号の量（例えば、がん患者に対応するデータ構成体の腫瘍分画及び／又は変異負担）、補完的データ構成体中の望まれる疾患信号の量、及び他の訓練データ構成体中の疾患信号の量を含むことができるが、これらに限定されない。

確率サンプリングは、複数のゲノム特性の値に寄与する複数の核酸フラグメントの所定の部分の重みランダムサンプリングを含むことができ、ここで、対応ゲノム特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に対する対応ゲノム特性に寄与する核酸フラグメントの存在量に比例している。確率サンプリングは、第１の複数のゲノムデータ構成体から、それぞれのデータ構成体中の複数のゲノム特性についての値に寄与する複数の核酸フラグメントのそれぞれの部分を選択することができる。核酸フラグメントのそれぞれの部分の大きさは、他の補完的データ構成体に対して選択された核酸フラグメントのそれぞれの部分の大きさとは独立して決定することができる。異なるトレーニングデータセットをサンプリングするために使用される方法論は、例えば、各データ構成体中の疾患信号の量などのような要因を考慮するために、独立して選択することができる。核酸フラグメントのそれぞれの部分の大きさは、それぞれの補完的データ構成体が、探索的分類器が遺伝子型データ構成体によって表される有益な核酸フラグメント分率の変化に対する閾値感度を満たす有益な核酸フラグメント分率の範囲内に入るように模擬核酸フラグメント割合を表すように選択でき、探索的分類器は、複数の遺伝子型特徴に基づいた疾患状況の状態を判別するために訓練される。補完的データ構成体は、その疾患信号（例えば、がん患者の場合の腫瘍分画）が、分類器に対して予測された検出レベル（ＬＯＤ）周辺の範囲内に入るように形成することができる。

有益な核酸フラグメント分率（例えば、腫瘍分画）の範囲は、複数の増強された探索ゲノムデータ構成体を生成するためにトレーニングデータセットを使用することによって決定することができる。複数の増強された探索ゲノムデータ構成体中の各それぞれの増強された探索ゲノムデータ構成体は、第１の複数のゲノムデータ構成体からの少なくともそれぞれのゲノムデータ構成体に対応することができる。複数の増強された探索ゲノムデータ構成体中の各それぞれの増強された探索ゲノムデータ構成体は、第１の複数のゲノムデータ構成体からの少なくともそれぞれのゲノムデータ構成体からのそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を含むことができる。複数の増強された探索ゲノムデータ構成体中の各それぞれの増強された探索ゲノムデータ構成体は、第１の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体によって表される有益な核酸フラグメント分率に基づく、模擬の有益な核酸フラグメント分率を表すことができる。複数の増強された探索ゲノムデータ構成体によって表される模擬の有益な核酸フラグメントの分布は、探索分類器に対する検出レベルを下回る第１の有益な核酸フラグメントから探索分類器に対する検出レベルを上回る第２の有益な核酸フラグメントにまたがることができる。模擬の有益な核酸フラグメント画分の分布は、検出レベルの約１％上から約１％下、検出レベルの約２％上から約２％下、検出レベルの約５％上から約５％下、検出レベルの約１０％上から約１０％下、検出レベルの約１５％上から約１５％下、又は検出レベルの約２０％上から約２０％下にまたがることができる。

有益な核酸フラグメント分率の範囲は、単一時点の訓練データの全て又はサブセットを使用して、例えば究極の分類器と同じタイプの予備的分類器を訓練することによって決定することができる。その後、複数の増強された探索的遺伝子型データ構成体を探索分類器に適用して、複数の模擬疾患状況確率を生成することができる。探索分類器は、少なくとも（１）それぞれの探索対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれのゲノムデータ構成体を含む、第１の複数の探索ゲノムデータ構成体、（２）それぞれの探索対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性に対する値を含むそれぞれのゲノムデータ構成体を含む、第２の複数の探索データ構成体、及び（３）第１及び第２の複数の探索ゲノムデータ構成体中のそれぞれのゲノムデータ構成体に対する、疾患状況の状態の指標、を使用して、疾患状況の状態を判別するように訓練することができる。有益な核酸フラグメント分率の範囲は、模擬疾患状況確率が、それぞれの増強された探索ゲノムデータ構成体によって表される有益な核酸フラグメント分率の変化に対して最も敏感である範囲を同定することができる。

複数の電子シークエンスからゲノム特徴／特性を抽出する方法は、例えば、米国特許出願広報第２０１９／０２８７６５２号にて見つけられ得、その内容は、あらゆる目的のために参照により本明細書に組み込まれ、複数のゲノム位置のメチル化状態を決定する方法が記載されている。同様に、米国特許出願第２０１９／０２８７６４９号は、その内容が、あらゆる目的のために参照により本明細書に組み込まれ、複数のゲノム位置の相対コピー数を決定するための方法が記載されている。

ゲノム特性は、複数の相対的なコピー数（例えば、ビンリードカウント）を含むことができ、複数の相対コピー数中のそれぞれの相対コピー数は、複数の遺伝子位置中の異なる遺伝子位置に対応する。相対コピー数は、複数のゲノム領域からのシークエンスリードの相対的な存在量を表すことができる。ゲノム領域は、同じサイズ又は異なるサイズを有することができる。ゲノム領域は、領域内部の核酸残基の数、又はその位置と領域内の核酸残基の数によって定義することができる。例えば、ゲノム領域は、１０ｋｂ以下、２０ｋｂ以下、３０ｋｂ以下、４０ｋｂ以下、５０ｋｂ以下、６０ｋｂ以下、７０ｋｂ以下、８０ｋｂ以下、９０ｋｂ以下、１００ｋｂ以下、１１０ｋｂ以下、１２０ｋｂ以下、１３０ｋｂ以下、１４０ｋｂ以下、１５０ｋｂ以下、１６０ｋｂ以下、１７０ｋｂ以下、１８０ｋｂ以下、１９０ｋｂ以下、ｘ２００ｋｂ以下、又は２５０ｋｂ以下を含むことができる。ゲノム領域は、対象の種の参照ゲノムを複数のセグメント（すなわち、ゲノム領域）に分割することによって定義することができる。例えば、参照ゲノムは、１，０００個の領域、２，０００個の領域、４，０００個の領域、６，０００個の領域、８，０００個の領域、１０，０００個の領域、１２，０００個の領域、１４，０００個の領域、１６，０００個の領域、１８，０００個の領域、２０，０００個の領域、２２，０００個の領域、２４，０００個の領域、２６，０００個の領域、２８，０００個の領域、３０，０００個の領域、３２，０００個の領域、３４，０００個の領域、３６，０００個の領域、３８，０００個の領域、４０，０００個の領域、４２，０００個の領域、４４，０００個の領域、４６，０００個の領域、４８，０００個の領域、５０，０００個の領域、５５，０００個の領域、６０，０００個の領域、６５，０００個の領域、７０，０００個の領域、８０，０００個の領域、９０，０００個の領域、又は最大１００，０００個の領域まで分割される。対象のシークエンスリードは、例えば、その内容が参照により本明細書に組み込まれる米国特許出願第２０１９／０２８７６４９号に記載されているように、対象の全ての染色体領域にわたる平均読み取りカウントに対して正規化することができる。コピー数データは、例えば、潜在的な交絡因子によって引き起こされるシークエンシングデータの分散を低減又は排除するために、更に正規化することができる。正規化は、サンプル内の中心傾向の指標を中心とすること、参照サンプル又はコホートからのデータを中心とすること、ＧＣ含量についての正規化、及び主成分分析（ＰＣＡ）補正のうちの１つ以上を伴うことができる。追加的又は代替的に、正規化は、米国特許出願第２０１９／０２８７６４９号に記載されているように、Ｂスコア処理を含んでもよい。

複数のゲノム特性は、複数のメチル化状態（例えば、領域メチル化状態）を含むことができ、複数のメチル化状態中の各メチル化状態は、複数の遺伝子位置のうちの異なる遺伝子位置に対応する。いくつかの実施態様において、各メチル化状態は、例えば、参照によりその全体が本明細書に組み込まれる米国特許出願第２０１９／０２８７６５２号に記載されるようなメチル化状態ベクトルによって表される。複数のメチル化状態は、複数のプローブを使用する標的ＤＮＡメチル化シークエンシングによって得ることができる。複数のプローブは、ヒトゲノム内の少なくとも１００の遺伝子座にハイブリダイズすることができる。他の実施態様では、複数のプローブは、ヒトゲノム内の少なくとも２５０、５００、７５０、１０００、２５００、５０００、１０，０００、２５，０００、５０，０００、１００，０００、又はそれ以上の遺伝子座にハイブリダイズする。疾患状況（例えば、がん）を分類するための有益なメチル化遺伝子座を同定する方法は、例えば、米国特許出願公開番号２０１９／０２８７６４９に記載されている。メチル化データは、例えば、潜在的な交絡因子によって引き起こされるシークエンシングデータの分散を低減又は排除するために、正規化することができる。いくつかの実施態様において、正規化は、サンプル内の中心傾向の指標を中心とすること、参照サンプル又はコホートからのデータを中心とすること、ＧＣ含量についての正規化、及び主成分分析（ＰＣＡ）補正のうちの１つ以上を伴うことができる。メチル化データの正規化に関するさらなる説明は、例えば、米国特許出願第２０１９／０２８７６５２号及び米国特許出願第２０１９／０２８７６４９号に含まれており、これら両出願の開示は、参照により本明細書に組み込まれる。

ゲノムデータ構成体（例えば、訓練、増強、及び／又はテスト遺伝子型データ構成体）中の複数のゲノム特性は、第１の複数のビン値（例えば、領域メチル化状態）を含むことができる。第１の複数のビン値中の各それぞれのビン値は、複数のビン中の対応するビンを表すことができる。第１の複数のビン値中の各それぞれのビン値は、複数のビン中の対応するビンにマッピングされる核酸フラグメントシークエンスの対応するセット（例えば、トレーニングセット、増強セット、又はテストセット）から特定される所定のメチル化パターンを有する固有の核酸フラグメントの数の代表とすることができる。複数のビン中の各ビンは、対象の種の参照ゲノムの非重複領域を表すことができる。

ＩＩＩ．Ｃ．がん分類器の訓練

図６Ａは、一実施態様による、がん分類器を訓練するプロセス６００を説明するフローチャートである。分析システムは、異常なフラグメントのセット及びがんタイプのラベルを各々有する複数のトレーニングサンプルを取得する（５１０）。複数のトレーニングサンプルは、「非がん」の一般的なラベルを有する健康な個人からのサンプル、「がん」の一般的なラベル又は特定のラベル（例えば、「乳がん」、「肺がん」等）を有する対象からのサンプルの任意の組合せを含むことができる。あるがんタイプの対象からのトレーニングサンプルは、そのがんタイプに対するコホート又はがんタイプコホートと称されてもよい。

分析システムは、各トレーニングサンプルに対して、トレーニングサンプルの異常なフラグメントのセットに基づく特徴ベクトルを決定する（５２０）。分析システムは、ＣｐＧ部位の初期セット中の各ＣｐＧ部位について異常スコアを計算することができる。ＣｐＧ部位の初期セットは、ヒトゲノム内の全てのＣｐＧ部位又はその一部であってよく、１０^４、１０^５、１０^６、１０^７、１０^８等のオーダーであってよい。一実施態様において、分析システムは、ＣｐＧ部位をくみこむ異常なフラグメントのセット中の異常なフラグメントが存在するかに基づいて、バイナリスコアで特徴ベクトルに対する異常スコアを定義する。別の実施態様では、分析システムは、ＣｐＧ部位に重なる異常なフラグメントのカウントに基づいて異常スコアを定義する。一例では、分析システムは、異常なフラグメントの存在の欠如に対して第１のスコア、少数の異常なフラグメントの存在に対して第２のスコア、及び少数より多い異常なフラグメントの存在に対して第３のスコアを割り当てる三元スコアリングを使用してもよい。例えば、分析システムは、ＣｐＧ部位と重なるサンプル中の異常なフラグメントを５つカウントし、５つのカウントに基づいて異常スコアを計算する。

トレーニングサンプルについて全ての異常スコアが決定されると、分析システムは、各要素に対して、初期セット中のＣｐＧ部位の１つに紐づく異常スコアの１つを含む要素のベクトルとして、特徴ベクトルを決定することができる。分析システムは、サンプルのカバレッジに基づいて、特徴ベクトルの異常スコアを正規化することができる。ここで、カバレッジは、分類器で使用されるＣｐＧ部位の初期セットによってカバーされる、又は所与のトレーニングサンプルに対する異常なフラグメントのセットに基づく全てのＣｐＧ部位にわたる中央値又は平均シークエンス深度を指すことができる。

一例として、ここで、訓練特徴ベクトルのマトリクス６２２を示す図６Ｂを参照する。この例では、分析システムは、がん分類器のための特徴ベクトルを生成する際に考慮すべきＣｐＧ部位［Ｋ］６２６を特定している。分析システムは、トレーニングサンプル［Ｎ］６２４を選択する。分析システムは、トレーニングサンプル［ｎ１］に対する特徴ベクトルで使用される第１の任意のＣｐＧ部位［ｋ１］に対して、第１の異常スコア６２８を決定する。分析システムは、異常なフラグメントのセット中の各異常なフラグメントをチェックする。分析システムが、第１のＣｐＧ部位を含む少なくとも１つの異常なフラグメントを同定する場合、分析システムは、図６Ｂに図示されるように、第１のＣｐＧ部位に対する第１の異常スコア６２８を１として決定する。第２の任意のＣｐＧ部位［ｋ２］を考慮すると、分析システムは、第２のＣｐＧ部位［ｋ２］を含む少なくとも１つに対して異常なフラグメントのセットを同様にチェックする。分析システムが、第２のＣｐＧ部位を含むそのような異常なフラグメントを発見しない場合、分析システムは、図６Ｂに図示されるように、第２のＣｐＧ部位［ｋ２］に対する第２の異常スコア６２９を０に決定する。分析システムがＣｐＧ部位の初期セットに対する全ての異常スコアを決定すると、分析システムは、第１のＣｐＧ部位［ｋ１］に対する１の第１の異常スコア６２８及び第２のＣｐＧ部位［ｋ２］に対する０の第２の異常スコア６２９とそれに続く異常スコアとを含む特徴ベクトルを有する異常スコアを含む第１のトレーニングサンプル［ｎ１］に対する特徴ベクトルを決定し、このように特徴ベクトル［１，０，．．．］を形成する。

サンプルの特徴付けに対する追加のアプローチは、「Model-Based Featurization and Classification」と題する米国出願第１５／９３１，０２２号、「Mixture Model for Targeted Sequencing」と題する米国出願第１６／５７９，８０５号、「Anomalous Fragment Detection and Classification」と題する米国出願第１６／３５２，６０２号、及び「Source of Origin Deconvolution Based on Methylation Fragments in Cell-Free DNA Samples」と題する米国出願第１６／７２３，７１６号に見つけられ得、これらは全て、参照によりその全体が組み込まれるものとする。

分析システムは、がん分類器の使用のために考慮されるＣｐＧ部位を更に制限してもよい。分析システムは、ＣｐＧ部位の初期セット中の各ＣｐＧ部位について、トレーニングサンプルの特徴ベクトルに基づく情報利得を計算する（５３０）。ステップ５２０から、各トレーニングサンプルは、ヒトゲノム内の全てのＣｐＧ部位まで含み得るＣｐＧ部位の初期セット中の全てのＣｐＧ部位の異常スコアを包含する場合のある特徴ベクトルを有する。しかしながら、ＣｐＧ部位の初期セット中のいくつかのＣｐＧ部位は、がんタイプを区別する上で他のＣｐＧ部位ほど有益でない場合があり、又は他のＣｐＧ部位と重複している場合がある。

一実施態様において、分析システムは、各がんタイプについて、情報利得を計算し（５３０）、かつ初期セット中の各ＣｐＧ部位について、そのＣｐＧ部位を分類器に含めるかを決定する。情報利得は、他の全てのサンプルと比較して、所与のがんタイプを有するトレーニングサンプルについて計算される。例えば、２つのランダム変数「異常なフラグメント」（「ＡＦ」）及び「がんタイプ」（「ＣＴ」）が使用される。一実施態様において、ＡＦは、上記の異常スコア／特徴ベクトル対して決定されたように、所与のサンプル中の所与のＣｐＧ部位に重なる異常なフラグメントが存在するか否かを示すバイナリ変数である。ＣＴは、がんが特定のタイプであるかを示すランダム変数である。分析システムは、ＡＦが与えられたＣＴに関する相互情報を計算する。すなわち、特定のＣｐＧ部位に重なる異常なフラグメントがあるかわかる場合、がんタイプについての情報が何ビット得られるかを計算する。実際には、第１のがんタイプについて、分析システムは、他の各がんにタイプに対するペアワイズ相互情報利得を計算し、他のすべてのがんにタイプにわたる相互情報利得の合計を計算する。

所与のがんタイプについて、分析システムは、ＣｐＧ部位がどの程度がんに特異的であるかに基づいてＣｐＧ部位をランク付けするために、この情報を使用することができる。この手順は、検討中であるすべてのがんタイプに対して繰り返すことができる。特定の領域が、所与のがんのトレーニングサンプルでは一般的に異常にメチル化されているが、他のがん型のトレーニングサンプル又は健康なトレーニングサンプルではそうでない場合、それらの異常なフラグメントによって重なるＣｐＧ部位は、所与のがんタイプに対して高い情報利得を有することができる。各がんタイプに対するランク付けされたＣｐＧ部位は、がん分類器において使用するために、そのランクに基づいて選択されたＣｐＧ部位のセットに積極的に追加（選択）することができる（５４０）。

追加の実施態様において、分析システムは、がん分類器で使用するための有益なｐＧ部位を選択するための他の選択基準を考慮してもよい。１つの選択基準は、選択されたＣｐＧ部位が他の選択されたＣｐＧ部位から閾値分離を超えるものであってもよい。例えば、選択されたＣｐＧ部位は、閾値分離内にあるＣｐＧ部位は、がん分類器において考慮するために両方選択されないように、任意の他の選択されたＣｐＧ部位から閾値の塩基対の数を超えて離れていること（例えば、１００塩基対）である。

一実施態様において、初期セットからの選択されたＣｐＧ部位のセットに従って、分析システムは、必要に応じて、トレーニングサンプルの特徴ベクトルを修正してもよい（５５０）。例えば、分析システムは、選択されたＣｐＧ部位のセット中にないＣｐＧ部位に対応する異常スコアを除去するために、特徴ベクトルを切り捨ててもよい。

トレーニングサンプルの特徴ベクトルを用いて、分析システムは、多数の方法のいずれかでがん分類器を訓練してもよい。特徴ベクトルは、ステップ５２０からのＣｐＧ部位の初期セット又はステップ５５０からの選択されたＣｐＧ部位のセットに対応してもよい。一実施態様において、分析システムは、トレーニングサンプルの特徴ベクトルに基づいて、がんと非がんとを区別するために、バイナリがん分類器を訓練する（５６０）。この態様では、分析システムは、健康な個体からの非がんサンプルと対象からのがんサンプルの両方を含むトレーニングサンプルを使用する。各トレーニングサンプルは、「がん」又は「非がん」の２つのラベルのうちの１つを有することができる。この実施態様では、分類器は、がんの存在又は非存在の可能性を示すがん予測を出力する。

別の実施態様において、分析システムは、多くのがんタイプ（発生組織（ＴＯＯ）ラベルとも呼ばれる）を区別するために、マルチクラスがん分類器を訓練する（４５０）。がんタイプは、１つ以上のがんを含むことができ、かつ非がんタイプを含んでもよい（さらに、任意の追加の他の疾患又は遺伝性疾患などもまた含んでもよい）。そのために、分析システムは、がんタイプのコホートを使用することができ、かつ非がんタイプのコホートを含んでもよく、又は含まなくてもよい。このマルチがんの実施態様では、がん分類器は、分類されているがんタイプの各々に対する予測値を備えるがん予測（または、より具体的には、ＴＯＯ予測）を決定するように訓練される。予測値は、所与のトレーニングサンプル（及び推論中、テストサンプル）ががんタイプの各々を有する尤度に対応してもよい。一実施態様において、予測値は０～１００の間でスコア化され、予測値の累積は１００に等しい。例えば、がん分類器は、乳がん、肺がん、及び非がんに対する予測値を含むがん予測を返す。例えば、分類器は、テストサンプルが乳がんの可能性６５％、肺がんの可能性２５％、及びがんでない可能性１０％であるというがん予測を返すことができる。分析システムは、更に予測値を評価して、サンプルにおける１つ以上のがんの存在の予測を生成してもよく、また、１つ以上のＴＯＯラベル、例えば、最も高い予測値を有する第１のＴＯＯラベル、２番目に高い予測値を有する第２のＴＯＯラベルなどを示すＴＯＯ予測として参照してもよい。上記の例を続け、パーセンテージが与えられると、この例では、システムは、乳がんが最も高い尤度を有することを考慮して、サンプルが乳がんを有すると決定してもよい。

両方の実施態様において、分析システムは、トレーニングサンプルのセットとともにその特徴ベクトルをがん分類器に入力し、かつ分類器の関数が訓練特徴ベクトルを対応するラベルに正確に関連付けるように分類パラメータを調整することによって、がん分類器を訓練する。分析システムは、がん分類器の反復バッチ訓練のために、トレーニングサンプルを１つ以上のトレーニングサンプルのセットにグループ化してもよい。それらの訓練特徴ベクトルを含むトレーニングサンプルのすべてのセットを入力し、かつ分類パラメータを調整した後、がん分類器を、いくつかの誤差の余地内でそれらの特徴ベクトルに従ってテストサンプルをラベル付けするように十分に訓練してもよい。分析システムは、多数の方法のうちのいずれか１つに従って、がん分類器を訓練することができる。一例として、バイナリがん分類器は、対数損失関数を用いて訓練されるＬ２正則化ロジスティック回帰分類器であってよい。別の例として、マルチがん分類器は、多項ロジスティック回帰であってもよい。実際には、いずれのタイプのがん分類器も、他の技法を使用して訓練してもよい。これらの技法は、カーネル法、ランダムフォレスト分類器、混合モデル、オートエンコーダモデル、多層ニューラルネットワークなどのような機械学習アルゴリズムの潜在的な使用を含む多数なものである。

いくつかの実施態様において、補完的データ構成体は、（例えば、ランダムサンプリングによって補完的データ構成体要素が導出された元のコホートデータと併せて）２つ以上の疾患状態を区別する分類器を訓練するために使用することができる。トレーニングデータセットは、疾患状況の第１の状態とは異なる疾患状況の第２の状態を有する訓練対象の第２のコホートに対する第２の複数のゲノムデータ構成体を更に含むことができる。第２の複数のゲノムデータ構成体は、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれのゲノムデータ構成体を含むことができる。本方法は、少なくとも（ｉ）第１の複数のゲノムデータ構成体、（ｉｉ）第２の複数のゲノムデータ構成体、（ｉｉｉ）複数の補完的ゲノムデータ構成体、並びに（ｉｖ）第１の複数の遺伝子型データ構成体、第２の複数のゲノムデータ構成体、及び複数の補完的ゲノムデータ構成体中の各それぞれのゲノムデータ構成体に対する疾患状況の状態の指標、を使用して疾患状況の状態を判別する分類器を訓練するステップを含むことができる。

訓練は、訓練対象の第３のコホートに対する第３の複数の遺伝子型データ構成体を追加で使用することができる。第３の複数のゲノムデータ構成体は、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を含む、それぞれのゲノムデータ構成体を含むことができる。第３のコホート中の各訓練対象は、疾患状況の第３の状態を有することができる。このような中で、分類器は、疾患状況の第１、第２、及び第３の状態を区別するように訓練することができる。訓練は、それぞれの訓練対象の１つ以上の個人的特徴を追加で使用することができる。例えば、性別、年齢、家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、擬人データ等のうちの１つ以上が使用される。

補完的ゲノムデータ構成体の１つ以上は、異なるコホート、例えば、疾患コホート及び健康コホートからのデータ構成体からランダムにサンプリングされた生物学的特性（例えば、核酸フラグメントシークエンス）の混合物から形成することができる。複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、対応するゲノムデータ構成体の対に対応することができる。ゲノムデータ構成体の対は、（ｉ）第１の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体（例えば、疾患対象に対応する）、及び（ｉｉ）第２の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体（例えば、健康な対象に対応する）を備えることができる。複数の補完的ゲノムデータ構成体中のそれぞれの補完的ゲノムデータ構成体は、対応するゲノムデータ構成体の対の各ゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率サンプリングに由来する増強値を含むことができる。

複数の補完的ゲノムデータ構成体中の少なくとも１つのそれぞれの補完的ゲノムデータ構成体に対して、第２の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体は、それぞれの補完的ゲノムデータ構成体の複数の遺伝子型特性に対する増強値を導出する前に増強することができる。複数のゲノム特性中の各それぞれのゲノム特性に対する増強値は、（ｉ）第１の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体からのそれぞれのゲノム特性の第１の重み寄与、及び（ｉｉ）第２の複数の遺伝子型データ構成体からのそれぞれのゲノムデータ構成体からのそれぞれのゲノム特性の第２の重み寄与から形成することができる。このような中で、各元データセットから寄与される疾患信号の割合を制御することにより、補完的データ構成体において有益な核酸画分（例えば、がんを考慮するときの腫瘍分画）を得ることができる。

同じコホート又は異なるコホート中の対象に由来する生物学的情報を混合するとき、データ構成体は、データ構成体に対応する対象の１つ以上の個人的特徴を、例えば、そのような個人的特徴によってもたらされる生物学的分散を説明するために、マッチさせることによって選択することができる。複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体に対して、（ｉ）第１の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体に対応するそれぞれの訓練対象、及び（ｉｉ）ゲノムデータ構成体の対に対応する、第２の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体に対応するそれぞれの訓練対象は、共有される個人的特徴に基づいてマッチさせることができる。

人工的に生成された時系列データセットは、２つ以上の疾患状態を区別するための分類器を訓練するために使用することができる。したがって、疾患状況の状態を判別するための時間的分類器を訓練することは、少なくとも（ｉ）訓練対象の第１のコホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット、（ｉｉ）訓練対象の第１のコホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット中の各それぞれのゲノムデータ構成体についてのそれぞれの時点、又はその派生物を含むそれぞれの複数の時点、及び（ｉｉｉ）訓練対象の第１のコホート中の各それぞれの訓練対象に対して、それぞれの複数の時点における少なくとも最も早いそれぞれの時点及び最も遅いそれぞれの時点に対する疾患状況の表示、を使用することができる。訓練は、それぞれの訓練対象の１つ以上の個人的特徴を使用することができる。例えば、性別、年齢、家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、疑似データ等のうちの１つ以上が挙げられる。分類器の詳細については、本明細書の他の箇所で記載されている。

がんの進行を模擬する時系列を表す人工的に作成されたデータを使用して時間的分類器を訓練する方法は、電子フォームで、トレーニングデータセットを得ることを含むことができ（例えば、時系列トレーニングデータ）、複数の訓練対象中のそれぞれの訓練対象に対して、（１）それぞれの訓練対象に対するそれぞれの第１のゲノムデータ構成体であって、それぞれの第１のゲノムデータ構成体は、それぞれの第１の時点（例えば、時系列トレーニングデータ点）におけるそれぞれの訓練対象から得られた第１の生体サンプル中の第１のそれぞれの複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれの第１のゲノムデータ構成体、（２）それぞれの訓練対象に対するそれぞれの第２のゲノムデータ構成体であって、それぞれの第２のゲノムデータ構成体は、それぞれの第１の時点の後に起こるそれぞれの第２の時点（例えば、増強された時系列データ点）におけるそれぞれの訓練対象の代表的な複数のゲノム特性についての値を含むそれぞれの第２のゲノムデータ構成体、（３）それぞれの第１の時点及びそれぞれの第２の時点、又はその派生物（例えば、第１及び第２のデータ点が対応する時間又は２つの時点間の時間量）、並びに（４）それぞれの訓練対象の、それぞれの第１の時点及びそれぞれの第２の時点における、疾患状況のセット中の疾患状況の表示、を含む。

本方法は、その後、各それぞれの訓練対象について、少なくとも（ａ）それぞれの第１のゲノムデータ構成体、（ｂ）それぞれの第２のゲノムデータ構成体、（ｃ）それぞれの第１の時点及びそれぞれの第２の時点、又はその派生物、並びに（ｄ）それぞれの第１の時点及びそれぞれの第２の時点における疾患状況の表示に対して、時間的分類アルゴリズムを訓練することを含むことができる。複数の訓練対象中の少なくとも１つのそれぞれの訓練対象について、それぞれの第２のゲノムデータ構成体は、それぞれの訓練対象から得られた第２の生体サンプルからのそれぞれの第２の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第３の複数の核酸フラグメントからの複数のゲノム特性についての値を含むことができる。

それぞれの第２のゲノムデータ構成体は、複数のゲノム特性中の各それぞれのゲノム特性に対して、（ｉ）第２の複数の核酸フラグメント中のそれぞれのゲノム特性の値に寄与する核酸フラグメント、及び（ｉｉ）第３の複数の核酸フラグメント中のそれぞれのゲノム特性の値に寄与する核酸フラグメント、の確率サンプリングに由来する増強値を含むことができる。サンプリングは、スパイクインサンプルからの生体疾患信号をトレーニングデータ構成体からのバックグラウンドで希釈し、訓練対象が疾患状態の進行を経験した後の第２の時間における訓練対象の代表的なデータ構成体を生成することとして考えることができる。

それぞれの第３のゲノムデータ構成体は、それぞれの第２の時点、それぞれの第３の時点、又はそれぞれの第２の時点及びそれぞれの第３の時点の派生物（例えば、時点間の期間）の後に起こるそれぞれの第３の時点における、それぞれの訓練対象の代表的な複数のゲノム特性についての値、並びにそれぞれの訓練対象の、それぞれの第３の時点における、疾患状況の状態のセット中の疾患状況の状態の指標を含むことができる。複数の訓練対象中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第３のゲノムデータ構成体は、それぞれの訓練対象から得られた第３の生体サンプルからのそれぞれの第４の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態を有するスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第５の複数の核酸フラグメントからの複数のゲノム特性に対する値を含むことができる。

それぞれの第２の複数の核酸フラグメント及びそれぞれの第４の複数の核酸フラグメントは、それぞれの訓練対象から得られた同一の生体サンプルからの同一の無細胞核酸であり得る。この状況では、第２のゲノムデータ構成体を形成するために使用される訓練対象からの同じバックグラウンドサンプルは、例えば、異なるスパイクインサンプルからの生体信号又は同じスパイクインサンプルからの異なる量の生体信号と混合することによって、第３の遺伝子型データ構成体を形成するために使用することができる。

それぞれの第３の複数の核酸フラグメント及びそれぞれの第５の複数の核酸フラグメントは、スパイクイン対象から得られた同一のスパイクイン生体サンプルからの同一の無細胞核酸であり得る。この状況では、第２の遺伝子型データ構成体を形成するために使用されるスパイクイン対象からの同じスパイクインサンプルは、例えば、第２の遺伝子型データ構成体を構築するために使用されるのと同じ又は異なるバックグラウンドサンプルである場合があるバックグラウンドサンプルからの生体信号と異なる割合で混合することによって、第３の遺伝子型データ構成体を形成するために使用することができる。それぞれの第２の遺伝子型データ構成体中の複数のゲノム特性についての値は、（ｉ）それぞれの第２の複数の核酸フラグメントの複数のゲノム特性についての値と、（ｉｉ）それぞれの第３の複数の核酸フラグメントの複数のゲノム特性についての値とのそれぞれの第１の重み混合物を含むことができる。それぞれの第３のゲノムデータ構成体中の複数のゲノム特性についての値は、（ｉ）それぞれの第２の複数の核酸フラグメントの複数のゲノム特性についての値と、（ｉｉ）それぞれの第３の複数の核酸フラグメントの複数のゲノム特性についての値とのそれぞれの第２の重み混合物を含むことができる。それぞれの第２の重み混合物は、それぞれの第１の重み混合物よりも、それぞれの第３の複数の核酸フラグメントの複数のゲノム特性についての値に対してより重く重み付けすることができる。

確率サンプリングは、複数の遺伝子型特性についての値に寄与するそれぞれの第２の複数の核酸フラグメントのそれぞれの第１の部分と、複数の遺伝子型特性についての値に寄与するそれぞれの第３の複数の核酸フラグメントのそれぞれの第２の部分とを選択することができ、かつ核酸フラグメントのそれぞれの第１の部分及び核酸フラグメントのそれぞれの第２の部分の大きさは、少なくとも（ｉ）第１の時点と第２の時点との間の時間の長さ、及び（ｉｉ）疾患状況の状態のセット中の、スパイクイン対象が罹患している疾患状況のそれぞれの状態の発展に対する時間モデルに基づいて、決定される。

それぞれの第２のゲノムデータ構成体は、第２の生体サンプルからの第２の複数の核酸フラグメントの第１の量とスパイクイン生体サンプルからの無細胞核酸の第２の量とを一緒に混合し、それによって無細胞核酸の混合物を形成し、無細胞核酸の混合物からの核酸フラグメントをシークエンシングし、かつシークエンシングに基づいて複数のゲノム特性についての値を決定することによって形成することができる。したがって、本方法は、それぞれの訓練対象について、少なくともそれぞれの第１のゲノムデータ構成体、それぞれの第２のゲノムデータ構成体、それぞれの第１の時点及びそれぞれの第２の時点又はその派生物、並びにそれぞれの第１の時点及びそれぞれの第２の時点における疾患状況の表示に対して時間的分類アルゴリズムを訓練することを含むことができる。いくつかの実施態様では、時間的分類アルゴリズムは、それぞれの第３のゲノムデータ構成体、それぞれの第３の時点、又はそれぞれの第２の時点及びそれぞれの第２の時点の導出物、並びにそれぞれの第３の時点におけるそれぞれの訓練対象の疾患状況の状態のセット中の疾患状況の状態の表示に対して更に訓練される。いくつかの実施態様では、訓練データ構成体は、少なくとも３、４、５、６、７、８、９、１０、又はそれ以上の時点を含む。

本方法は、例えば、上述のサンプリング方法に従って生成された滴定増強データセットを使用する訓練されたモデルを評価することを更に含むことができる。本方法は、テストゲノムデータ構成体（例えば、疾患分類器）を評価することによって、疾患状況を判別するように訓練された第１の分類器を得ることを含むことができ、ここで、テストゲノムデータ構成体は、テスト対象から得られた第１の対応する生体サンプル中の対応する第１の複数の核酸フラグメントの複数のゲノム特性についての値を含む。本方法は、その後、複数の増強されたゲノムデータ構成体（例えば、増強された単一時点データ又は増強された時系列データ）を含む増強された評価データセットを取得することを含むことができる。複数の増強されたゲノムデータ構成体中の各それぞれの増強されたゲノムデータ構成体は、疾患状況の複数の状態中の疾患状況のそれぞれの状態を有する対象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むことができる。増強された評価データセットは、複数の増強された遺伝子型データ構成体中の、疾患状況の複数の状態中の疾患状況の各それぞれの状態の代表的な、例えば、疾患なしから進行性疾患までまたがる範囲にわたる、それぞれの増強された遺伝子型データ構成体を含むことができる。本方法は、その後、拡張された評価データセット中の各それぞれの拡張ゲノムデータ構成体を分類器に独立して適用して、各それぞれの拡張ゲノムデータ構成体について疾患状態分類を生成し、それによって、複数の疾患状態分類を生成することを含むことができる。本方法は、その後、複数の疾患状態分類中の各それぞれの疾患状態分類を、対応する増強されたゲノムデータ構成体によって表される疾患状況のそれぞれの状態の関数として評価し、それによって、分類器の性能を査定することを含むことができる。

一般に、開示された方法は、集団内で表される場合がある疾患状態の範囲にわたって分類器を評価し、分類器がトレーニングデータにオーバーフィットしたか否かを判定するようにしてもよい。例えば、図１３は、患者サンプル中の無細胞ＤＮＡのゲノム特性に基づいてがんを検出するために訓練された２つの分類器の評価を図示する。増強された時系列データ構成体は、本明細書に記載された方法に従って、１２人のがん患者のサンプルからの生物学的がん信号を希釈し、腫瘍分画の希釈系列を０％まで形成し、例えば、がん細胞からの信号を完全に欠くように、調製されている。次に、希釈系列データを、２つの分類器に適用し、各データ構成体ががん患者のサンプルから生成された確率（曲線８０２及び８０４）を作り出している。図１３に見られるように、第１の分類器が使用されたとき（曲線８０２に対応する）、希釈系列のいくつかは、増強されたデータ構成体ががん信号を全く包含しないときでさえ（例えば、滴定＝０において）、がん患者に由来する非常に高い確率を有するものとして分類されている（個体１、２、９、及び１０を参照のこと）。これは、モデルがトレーニングデータにオーバーフィットしており、かつ許容できない数の偽陽性を作り出している可能性が高いことを示す。対照的に、第２の分類器を使用したとき（曲線８０４に対応）、モデルによって出力されたがん確率は、各増強された時系列に対してより緩やかに、かつより一貫して低下し、全ての個体について５０％に低下するか又はそれを下回り、モデルが第１の分類器よりもオーバーフィットでなかったことを示している。

いくつかの実施態様において、がんの複数の状態中の（例えば、複数の増強された遺伝子型データ構成体中の）各状態は、分類器に対する検出レベルより少なくとも２５％低い無細胞ＤＮＡ腫瘍分画のベースラインパーセンテージから分類器の検出レベルより少なくとも２５％高い無細胞ＤＮＡ腫瘍分画の上限パーセンテージに少なくともまたがる無細胞ＤＮＡ腫瘍分画の範囲中（６２４）の無細胞ＤＮＡ腫瘍分画のサブ範囲を含む。他の実施態様では、無細胞ＤＮＡ腫瘍分画のサブ範囲は、分類器に対する検出レベルの５％以内、若しくは分類器に対する検出レベルの１０％、１５％、２０％、２５％、３０％、４０％、又は５０％以内に収まる。

いくつかの実施態様において、複数の心血管疾患の状態中の（例えば、複数の増強された遺伝子型データ構成体中の）各状態は、分類器に対する検出レベルより少なくとも２５％低い無細胞ＤＮＡ心血管組織分率のベースラインパーセンテージから分類器に対する検出レベルより少なくとも２５％高い無細胞ＤＮＡ心血管組織分率の上限パーセンテージに少なくともまたがる無細胞ＤＮＡ腫瘍分画の範囲中（６２８）の、無細胞ＤＮＡ腫瘍分画のサブ範囲を含む。他の実施態様では、無細胞ＤＮＡ腫瘍分画のサブ範囲は、分類器に対する検出レベルの５％以内、若しくは分類器に対する検出レベルの１０％、１５％、２０％、２５％、３０％、４０％、又は５０％以内に収まる。

分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムを含むことができる。

いくつかの実施態様では、ハードネガティブマイニングの一形態が、分類器の性能を向上させるために使用される。例えば、本方法は、性能閾値に不足する性能を有する分類器の前駆体によって判別される第２の複数のゲノムデータ構成体からゲノムデータ構成体のサブセットを同定することによって複数の増強された偽陽性ゲノムデータ構成体を得ることと、ゲノムデータ構成体のサブセットを使用して複数の増強された偽陽性遺伝子型データ構成体を生成することと、を含む。各それぞれの増強された偽陽性ゲノムデータ構成体は、ゲノムデータ構成体のサブセットからの少なくともそれぞれのゲノムデータ構成体に対応し得、かつ複数の増強された偽陽性ゲノムデータ構成体中の各それぞれのゲノムデータ構成体は、ゲノムデータ構成体のサブセットからの少なくともそれぞれのゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を含むことができる。これらの実施態様では、分類器を、複数の増強された偽陽性ゲノムデータ構成体及び疾患状況の状態の表示に対して更に訓練することができる。

多くの異なるモデルが、対象の１つ以上の疾患状況（例えば、がん状態、冠動脈疾患状況など）を分類するために、生物学的特徴を評価することができる。例えば、米国特許出願第２０１９／０２８７６５２号は、対象のがん状態を分類するために、例えばｃｆＤＮＡサンプルを使用して、複数のゲノム遺伝子座にわたるメチル化状態を評価するモデルについて記載している。同様に、米国特許出願第２０１９／０２８７６４９号は、対象のがん状態を分類するために、例えばｃｆＤＮＡサンプルを使用して、複数のゲノム遺伝子座にわたる相対コピー数を評価するモデルについて記載している。そのうえ、対象のがんの状態を分類するために、バリアント対立遺伝子（例えば、一塩基変異、インデル、欠失、転座など）の存在を評価する様々なモデルが開発されてきた。他の好適なモデルは、２０１９年５月３１日に出願された「Convolutional Neural Network Systems and Methods for Data Classification」と題する米国特許出願第１６／４２８，５７５号に開示されている。一般に、対象の疾患状態の分類のために開発された任意のモデルは、本明細書に記載の増強データセットを使用して訓練され、かつ例えば、テスト対象の疾患状態を判定するために、本明細書に記載のシステム及び方法と組み合わせて使用されてもよい。

分類器は、対象中の疾患状態の存在を検出するため、例えば、対象中のがん又は冠状動脈疾患を検出するためにあることができる。本明細書で提供されるシステム及び方法は、患者データで訓練したモデルの検出限界に近い弱い疾患信号の多くの例を提供する追加の増強データを使用して訓練することができるので、既存の疾患モデルの感度及び特異性を改善するのに適し得る。トレーニングデータの収集に紐づく費用、及び患者データは疾患の初期ステージで収集されないことがよくあるため、トレーニングデータセットには、モデルの検出限界付近の疾患信号を有するデータ構成体があまり含まれない場合がある。むしろ、トレーニングセットは、進行した疾患状態を有する訓練対象からの強い疾患信号の多くの例と、疾患を持たない訓練対象からの疾患信号のない多くの例と、を有する場合がある。しかしながら、疾患の初期ステージを積極的に診断することは困難であるため、トレーニングデータセットには、分類器の感度及び特異性を向上させるために重要な中程度から弱い疾患信号はほとんど含まれない場合がある。

一般に、本明細書に記載されるシステム及び方法では、多くの異なる分類アルゴリズムが使用することができる。例えば、モデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、回帰アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムを含むことができる。増強されたデータ構成体の使用は、より深い学習ベースのモデル、例えば、ニューラルネットワークに対してより、分類器の性能を向上させるよりも、回帰ベースのモデルの性能を向上させることができる。回帰アルゴリズムは、ラッソ、Ｌ２、又はエラスティックネット正則化を有するロジスティック回帰とすることができる。いくつかの実施態様では、ロジスティック回帰は、個人特性、例えば、性別、年齢、家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、疑似データ等のうちの１つ以上を更に含む。

疾患状態モデルは、訓練中に調整される特徴に対する学習された重みを含むことができる。「重み」という用語は、ここでは、どの特定の機械学習技術が使用されるかにかかわらず、モデルの任意の所与の特徴に紐づく学習された量を表すために一般的に使用することができる。いくつかの実施態様において、がん指標スコアは、１つ以上のＤＮＡシークエンス（又はそのＤＮＡシークエンスリード値）に由来する特徴についての値を機械学習又は深層学習モデルに入力することによって決定される。いくつかの実施態様では、例えば、疾患クラス評価モデルがニューラルネットワーク（例えば、従来のニューラルネットワーク又は畳み込みニューラルネットワーク）であるとき、疾患分類器の出力は、分類、例えば、がん陽性又はがん陰性のいずれかである。しかしながら、分類ではなく、モデルの出力について連続的又は半連続的な値を提供するために、ニューラルネットワークの隠れ層、例えば、出力層の直前の隠れ層を分類モデルの出力として使用することができる。

したがって、モデルは、（ｉ）複数のゲノム特性が第１の次元数を含む複数のゲノム特性に対する値を受信するための入力層と、（ｉｉ）重みのセットを含む埋め込み層であって、埋め込み層が入力層の出力を直接的又は間接的に受信し、かつ埋め込み層の出力が第１の次元数よりも小さい第２の次元数を有するモデルスコアセットである、埋め込み層と、（ｉｉｉ）埋め込み層からモデルスコアセットを直接的又は間接的に受信する出力層と、を含むことができる。そのような実施態様において、第１のモデルスコアセットは、第１のゲノムデータ構成体を入力層に入力する際の埋め込み層のモデルスコアセットであり、第２のモデルスコアセットは、第２のゲノムデータ構成体を入力層に入力する際の埋め込み層のモデルスコアセットである。言い換えれば、モデルスコアセットは、埋め込み層と名付けられたニューラルネットワーク中の隠れ層に紐づくニューロンのセットの出力とすることができる。埋め込み層中のそのような各ニューロンは、重みと活性化関数とに紐づけることができ、かつモデルスコアセットは、そのような各活性化関数の出力から成る。埋め込み層中のニューロンの活性化関数は、整流線形ユニット（ＲｅＬＵ）、ｔａｎｈ関数、又はシグモイド活性化関数とすることができる。いくつかのそのような実施態様では、埋め込み層のニューロンは、入力層の入力の各々に完全に接続することができる。出力層の各ニューロンは、埋め込み層の各ニューロンに完全に接続することができる。出力層の各ニューロンは、ソフトマックス活性化関数と紐づけることができる。いくつかの実施態様では、埋め込み層及び出力層のうちの１つ以上は、完全に接続されていない。

ＩＩＩ．Ｄ．がん分類器の展開

がん分類器の使用中、分析システムは、不明ながんタイプの対象からテストサンプルを得ることができる。分析システムは、異常なフラグメントのセットに達するために、プロセス１００、２００、及び２２０の任意の組み合わせを用いてＤＮＡ分子からなるテストサンプルを処理してもよい。分析システムは、プロセス５００で論じられた同様の原理に従って、がん分類器によって使用するためのテスト特徴ベクトルを決定することができる。分析システムは、がん分類器によって使用される複数のＣｐＧ部位中の各ＣｐＧ部位に対して異常スコアを計算することができる。例えば、がん分類器は、１，０００個の選択されたＣｐＧ部位に対する異常スコアを含めて特徴ベクトルを入力として受信する。分析システムは、このように、異常なフラグメントのセットに基づいて、１，０００個の選択されたＣｐＧ部位に対する異常スコアを含めてテスト特徴ベクトルを決定することができる。分析システムは、トレーニングサンプルと同じやり方で異常スコアを計算することができる。いくつかの実施態様において、分析システムは、異常スコアを、ＣｐＧ部位をくみこむ異常なフラグメントのセット中のハイパーメチル化フラグメント又はハイポメチル化フラグメントが存在するかに基づく二値スコアとして定義する。

分析システムは、その後、テスト特徴ベクトルをがん分類器に入力することができる。がん分類器の機能は、次に、プロセス６００において訓練された分類パラメータ及びテスト特徴ベクトルに基づいて、がん予測を生成することができる。第１の態様では、がん予測は二値であり、かつ「がん」又は「非がん」からなるグループから選択することができる。第２の態様では、がん予測は多くのがんタイプ及び「非がん」からなるグループから選択される。追加の実施態様では、がん予測は、多くのがんタイプの各々について予測値を有する。さらに、分析システムは、テストサンプルががんタイプの１つである可能性が最も高いと判定してもよい。テストサンプルに対するがん予測が乳がんの可能性６５％、肺がんの可能性２５％、及び非がんの可能性１０％を有する上記の例に従うと、分析システムは、テストサンプルが乳がんを有する可能性が最も高いと判定してもよい。別の例では、がん予測が、がんでない可能性が６０％、がんの可能性が４０％という二値であるとき、分析システムは、テストサンプルががんでない可能性が最も高いと判定する。追加の実施態様において、最も高い尤度を有するがん予測は、テスト対象がそのがんタイプを有すると呼ぶために、やはり閾値（例えば、４０％、５０％、６０％、７０％）と比較されてもよい。最も高い尤度を有するがん予測がその閾値を超えない場合、分析システムは、決定的でない結果を返してもよい。

追加の実施態様において、分析システムは、プロセス６００のステップ５６０で訓練されたがん分類器を、ステップ５７０又はプロセス５００で訓練された別のがん分類器とつなげる。分析システムは、テスト特徴ベクトルを、プロセス６００のステップ５６０でバイナリ分類器として訓練されたがん分類器に入力することができる。分析システムは、がん予測の出力を受信することができる。がん予測は、テスト対象ががんを有する可能性が高いか、またはがんを有しない可能性が高いかについての二値であってもよい。他の実施態様において、がん予測は、がんの可能性及び非がんの可能性を記述する予測値を含む。例えば、がん予測は、８５％のがん予測値及び１５％の非がん予測値を有する。分析システムは、テスト対象ががんである可能性が高いと判定してもよい。分析システムは、テスト対象ががんを有する可能性が高いと判定すると、分析システムは、異なるがんタイプ間を区別するようにテスト特徴ベクトルを訓練されたマルチクラスがん分類器に入力してもよい。マルチクラスがん分類器は、テスト特徴ベクトルを受信し、かつ複数のがんタイプのがんタイプのがん予測を返すことができる。例えば、マルチクラスがん分類器は、テスト対象が卵巣がんである可能性が最も高いことを指定するがん予測を提供する。別の実施態様では、マルチクラスがん分類器は、複数のがんタイプの各がんタイプについて予測値を提供する。例えば、がん予測は、４０％の乳がんタイプ予測値、１５％の大腸がんタイプ予測値、及び４５％の肝臓がん予測値を含んでもよい。

二値がん分類の一般化された実施態様によれば、分析システムは、テストサンプルのシークエンシングデータ（例えば、メチル化シークエンシングデータ、ＳＮＰシークエンシングデータ、他のＤＮＡシークエンシングデータ、ＲＮＡシークエンシングデータなど）に基づいて、テストサンプルのがんスコアを決定することができる。分析システムは、テストサンプルががんを有する可能性が高いか否かを予測するための二値閾値カットオフに対して、テストサンプルのがんスコアを比較することができる。二値閾値カットオフは、１つ以上のＴＯＯサブタイプクラスに基づくＴＯＯ閾値を使用して調節することができる。分析システムは、１つ以上の可能性の高いがんタイプを示すがん予測を決定するために、マルチクラスがん分類器で使用するためのテストサンプルの特徴ベクトルを更に生成してもよい。

分類器は、テスト対象、例えば、疾患状況が不明である対象の疾患状態を判定するために使用されてもよい。本方法は、テスト対象から得られた生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性中の各ゲノム特性に対する値を含む、電子フォームのテストゲノムデータ構成体（例えば、単一時点テストデータ）を得ることを含むことができる。本方法は、その後、テストゲノムデータ構成体をテスト分類器に適用して、それによってテスト対象における疾患状況の状態を決定することを含むことができる。テスト対象は、以前に疾患状況を有すると診断されていない場合がある。

分類器は、少なくとも（ｉ）第１の時点においてテスト対象から取得した第１の生体サンプルから生成された第１のテストゲノムデータ構成体、及び（ｉｉ）第２の時点においてテスト対象から取得した第２の生体サンプルから生成された第２のテストゲノムデータ構成体を使用する時間的分類器とすることができる。

訓練された分類器は、テスト対象、例えば、疾患状況が不明である対象の疾患状態を判定するために使用することができる。この場合、本方法は、テスト対象について、電子フォームで、テスト時系列データセットを取得することを含むことができ、テスト時系列データセットは、複数の時点におけるそれぞれの時点に対して、それぞれの時点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を含む対応するテスト遺伝子型データ構成体と、複数の時点における連続する時点のそれぞれの対に対して、連続する時点の各それぞれの対間の時間の長さを示す表示と、を含む。本方法は、その後、テスト遺伝子型データ構成体をテスト分類器に適用して、それによってテスト対象における疾患状況の状態を決定することを含むことができる。テスト対象は、以前に疾患状況を有すると診断されたことがない場合がある。

ＩＶ．応用

いくつかの実施態様において、本発明の方法、分析システム、及び／又は分類器は、がんの存在を検出するため、がんの進行又は再発を監視するため、具体的な治療反応又は効果を監視するため、最小残存病変（ＭＲＤ）の存在を判定又は監視するため、若しくはそれらの任意の組合せに使用することができる。例えば、本明細書に記載されるように、分類器は、テスト特徴ベクトルががんを有する対象からのものである可能性を記述する確率スコア（例えば、０から１００まで）を生成するために使用することができる。いくつかの実施態様において、確率スコアは、対象ががんを有するか又は有さないかを判定するために閾値確率と比較される。他の実施態様では、尤度又は確率スコアを、疾患の進行を監視し、又は治療の有効性（例えば、具体的な治療効果）を監視するために、多数の異なる時点（例えば、治療の前又は後）で査定することができる。さらにまだ他の実施態様では、臨床的決定（例えば、がんの診断、治療選択、治療の有効性の評価など）をする、又は、臨床的決定に影響を与えるために、尤度スコア又は確率スコアを使用するができる。例えば、一実施態様では、確率スコアが閾値を超える場合、医師は適切な治療を処方することができる。

ＩＶ．Ａ．がんの早期検出

いくつかの実施態様において、本発明の方法及び／又は分類器は、がんを有することが疑われる対象におけるがんの存在又は不在を検出するために使用される。例えば、分類器（例えば、セクションＩＩＩで上述され、かつセクションＶで検討される）は、テスト特徴ベクトルががんを有する対象からのものである尤度を記述するがん予測を決定するために使用することができる。

一実施態様において、がん予測は、テストサンプルががんを有するかについての尤度（例えば、０～１００との間のスコア）である（すなわち、二値分類である）。このように、分析システムは、テスト対象ががんを有するか否かを判定するための閾値を決定してもよい。例えば、６０以上のがん予測は、テスト対象ががんを有することを示し得る。さらにまだ他の実施態様では、６５以上、７０以上、７５以上、８０以上、８５以上、９０以上、または９５以上のがん予測は、テスト対象ががんを有していることを示す。他の実施態様では、がん予測は、疾患の重篤度を示すことができる。例えば、８０のがん予測は、８０を下回るがん予測（例えば、７０の確率スコア）と比較して、より重篤の形態、又はより後のステージのがんを示すことができる。同様に、時間の経過に伴う癌の予測値の増加（例えば、２つ以上の時点において採取された同じ対象からの多数のサンプルからのテスト特徴ベクトルの分類によって決定される）は、疾患の進行を示すことができ、又は時間の経過に伴う癌の予測値の減少は、治療の成功を示すことができる。

別の実施態様において、がん予測は、多くの予測値を備え、分類されるための複数のがんタイプの各々（すなわち、マルチクラス分類）は、予測値（例えば、０～１００の間でスコア化される）を有する。予測値は、所与のトレーニングサンプル（及び推論中、トレーニングサンプル）ががんタイプの各々を有する尤度に対応してもよい。分析システムは、最も高い予測値を有するがんタイプを同定し、かつテスト対象がそのがんタイプを有する可能性が高いことを示してもよい。他の実施態様において、分析システムは、最高予測値を閾値（例えば、５０、５５、６０、６５、７０、７５、８０、８５など）と更に比較し、テスト対象がそのがんタイプを有する可能性が高いと判定する。他の実施態様では、予測値は、また疾患の重篤度を示すこともできる。例えば、８０より大きい予測値は、６０の予測値と比較して、より重篤ながんの形態、又はより後のステージを示してもよい。同様に、時間の経過に伴う予測値の増加（例えば、２つ以上の時点において採取された同じ対象からの多数のサンプルからのテスト特徴ベクトルを分類することによって決定される）は、疾患の進行を示すことができ、又は時間の経過に伴う予測値の減少は、治療の成功を示すことができる。

本発明の態様によれば、本発明の方法及びシステムは、多数のがんの適応症を検出又は分類するように訓練することができる。例えば、本発明の方法、システム及び分類器は、１つ以上、２つ以上、３つ以上、５つ以上、１０つ以上、１５つ以上、又は２０つ以上の異なるタイプのがんの存在を検出するために使用することができる。

本発明の方法、システム、及び分類器を使用して検出することができるがんの例は、がん腫、リンパ腫、芽腫、肉腫、及び白血病又はリンパ性悪性腫瘍を含む。そのようながんのより具体的な例としては、扁平上皮がん（例えば、上皮性扁平上皮がん）、皮膚がん、メラノーマ、小細胞肺がん、非小細胞肺がん（「ＮＳＣＬＣ」）、肺腺癌及び肺扁平上皮癌、腹膜のがん、胃腸がんを含む胃又は腹部がん、すい臓がん（例えば、。膵管腺がん）、子宮頸がん、卵巣がん（例えば、高悪性度漿液性卵巣がん）、肝がん（例えば、肝細胞がん（ＨＣＣ））、肝細胞がん、肝がん、膀胱がん（例えば。尿路上皮膀胱がん）、精巣（胚細胞腫瘍）がん、乳がん（例えば、ＨＥＲ２陽性、ＨＥＲ２陰性、及びトリプルネガティブ乳がん）、脳腫瘍（例えば、星細胞腫、グリオーマ（例えば、膠芽腫））、結腸がん、直腸がん、大腸がん、内膜又は子宮がん、唾液腺がん、腎臓がん（例えば、腎細胞がん、腎芽細胞腫又はウィルムス腫瘍）、前立腺がん、外陰がん、甲状腺がん、肛門がん、陰茎がん、頭頸部がん、食道がん、並びに鼻咽頭がん（ＮＰＣ）を含む。がんの追加の例としては、限定なしで、非ホジキンリンパ腫（ＮＨＬ）、多発性骨髄腫及び急性血液悪性腫瘍、子宮内膜症、線維肉腫、絨毛がん、喉頭がん、カポジ肉腫、シュワンノーマ、乏突起膠腫、神経芽腫、横紋筋肉腫、骨原性肉腫、平滑筋肉腫、及び尿路がんを含むが、これに限定されない網膜芽細胞腫、テコマ、アレノブラストーマ、血液悪性腫瘍を含む。

いくつかの実施態様において、がんは、肛門がん、膀胱がん、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆膵がん、白血病、肺がん、リンパ腫、メラノーマ、多発性骨髄腫、卵巣がん、すい臓がん、前立腺がん、腎臓がん、甲状腺がん、子宮がん又はこれらの任意の組み合わせの１つ以上である。

いくつかの実施態様において、１つ以上のがんは、肛門直腸がん、大腸がん、食道がん、頭頸部がん、肝胆膵がん、肺がん、卵巣がん、膵臓がん、並びにリンパ腫及び多発性骨髄腫などのような「高信号」がん（５年がん特異的死亡率が５０％を超えるがんとして定義）とすることができる。高信号のがんはより侵攻性の傾向があり、かつ通常、患者から得たテストサンプル中の無細胞核酸濃度は平均を超える。

ＩＶ．Ｂ．がん及び治療モニタリング

いくつかの実施態様において、がん予測は、疾患の進行を監視するため、又は治療の有効性（例えば、具体的な治療効果）を監視するために、多数の異なる時点（例えば、または治療の前または後）で評価することができる。例えば、本発明は、第１の時点でがん患者から第１のサンプル（例えば、第１の血漿ｃｆＤＮＡサンプル）を取得し、そこから第１のがん予測を決定し（本明細書に記載）、第２の時点でがん患者から第２のテストサンプル（例えば、第２の血漿ｃｆＤＮＡサンプル）を取得し、そこから第２のがん予測を決定すること（本明細書に記載）を伴う方法を含む。

特定の実施態様では、第１の時点は、がん治療の前（例えば、切除手術又は具体的な治療的介入の前）であり、第２の時点は、がん治療の後（例えば、切除手術又は具体的な治療的介入の後）であり、かつ分類器は、治療の有効性を監視するために利用される。例えば、第２のがん予測値が第１のがん予測値と比較して減少した場合、そのとき、治療は成功したとみなされる。しかしながら、第２のがん予測値が第１のがん予測値に比べて増加した場合、そのとき、治療は成功しなかったとみなされる。他の実施態様では、第１及び第２の時点の両方が、がん治療の前（例えば、切除手術又は具体的な治療的介入の前）である。さらにまだ他の実施態様では、第１の時点及び第２の時点の両方が、がん治療の後（例えば、切除手術又は具体的な治療的介入の後）である。さらにまだ他の実施態様では、ｃｆＤＮＡサンプルは、第１及び第２の時点においてがん患者から得られ、分析されてもよく、例えば、がんの進行を監視するため、がんが寛解しているか（例えば、治療後）を判断するため、残存疾患又は疾患の再発を監視若しくは検出するため、若しくは治療（例えば、具体的な治療）効果を監視するためである。

当業者であれば、患者におけるがんの状態を監視するために、任意の所望の時点のセットにわたってがん患者からテストサンプルを得て、本発明の方法に従って分析し得ることを容易に理解するであろう。いくつかの実施態様において、第１及び第２の時点は、約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、又は約２４時間など、若しくは例えば約１、２、３、４、５、１０、１５、２０、２５又は約３０日など、若しくは約１、２、３、４、５、６、７、８、９、１０、１１又は１２ヶ月など、若しくは約１、１．５、２、２．５、３、３．５、４、４．５、５、５．５、６、６．５、７、７．５、８、８．５、９、９．５、１０、１０．５、１１、１１．５、１２、１２．５、１３、１３．５、１４、１４．５、１５、１５．５、１６、１６．５、１７、１７．５、１８、１８．５、１９、１９．５、２０、２０．５、２１、２１．５、２２、２２．５、２３、２３．５、２４、２４．５、２５、２５．５、２６、２６．５、２７、２７．５、２８、２８．５、２９、２９．５又は約３０年などのような約１５分から約３０年までの範囲の時間の量によって分離される。他の実施態様では、テストサンプルは、少なくとも３ヶ月に１回、少なくとも６ヶ月に１回、少なくとも１年に１回、少なくとも２年に１回、少なくとも３年に１回、少なくとも４年に１回、又は少なくとも５年に１回、患者から取得することができる。

ＩＶ．Ｃ．治療

さらにまだ別の実施態様では、がん予測は、臨床的決定（例えば、がんの診断、治療選択、治療効果の評価など）をするため、又は、臨床的決定に影響を与えるために使用することができる。例えば、一実施態様において、がん予測（例えば、がんに対して、又は特定のがんタイプに対して）が閾値を超える場合、医師は適切な治療（例えば、切除手術、放射線療法、化学療法、及び／又は免疫療法）を処方することができる。

分類器（本明細書に記載）は、サンプル特徴ベクトルががんを有する対象からのものであるというがん予測を決定するために使用することができる。一実施態様では、がん予測が閾値を超えると、適切な治療（例えば、切除手術又は具体的な治療）が処方される。例えば、一実施態様では、がん予測値が６０以上である場合、１つ以上の適切な治療が処方される。別の実施態様では、がん予測値が６５以上、７０以上、７５以上、８０以上、８５以上、９０以上、又は９５以上である場合、１つ以上の適切な治療が処方される。他の実施態様では、がん予測は、疾患の重篤度を示すことができる。次いで、疾患の重篤度にマッチする適切な治療が処方されてもよい。

いくつかの実施態様において、治療は、化学療法剤、標的がん治療剤、分化誘導療法剤、ホルモン療法剤、及び免疫療法剤からなるグループから選択される１つ以上のがん治療剤である。例えば、治療は、アルキル化剤、代謝拮抗剤、アントラサイクリン、抗腫瘍抗生物質、細胞骨格破壊剤（タキサン）、トポイソメラーゼ阻害剤、分裂阻害剤、コルチコステロイド、キナーゼ阻害剤、核酸アナログ、プラチナ系薬剤及びそれらの任意の組み合わせからなるグループから選択される１つ以上の化学療法剤とすることができる。いくつかの実施態様において、治療は、信号伝達阻害剤（例えば、チロシンキナーゼ及び成長因子受容体阻害剤）、ヒストン脱アセチル化酵素（ＨＤＡＣ）阻害剤、レチノイン受容体作動薬、プロテオソーム阻害剤、血管新生阻害剤、及びモノクローナル抗体コンジュゲートからなるグループから選択される１以上の標的がん治療薬である。いくつかの実施態様において、治療は、トレチノイン、アリトレチノイン及びベキサロテンなどのようなレチノイドを含む１つ以上の分化療法剤である。いくつかの実施態様において、治療は、抗エストロゲン、アロマターゼ阻害剤、黄体ホルモン、エストロゲン、抗アンドロゲン、及びＧｎＲＨアゴニスト又はアナログからなるグループから選択される１つ以上のホルモン治療薬である。一実施態様において、治療は、リツキシマブ（ＲＩＴＵＸＡＮ）及びアレムツズマブ（ＣＡＭＰＡＴＨ）などのようなモノクローナル抗体療法、ＢＣＧ、インターロイキン２（ＩＬ－２）、及びインターフェロン－アルファなどのような非特異的免疫療法並びにアジュバンド、免疫調節薬、例えばサリドマイド及びレナリドミド（ＲＥＶＬＩＭＩＤ）を含むグループから選ばれた一つ以上の免疫療法薬である。腫瘍のタイプ、がんのステージ、がん治療又は具体的な治療剤への以前の発覚、及びがんの他の特性などの特徴に基づいて、適切ながん治療剤を選択することは、熟練の医師又は腫瘍学者の能力の範囲内である。

Ｖ．がん分類器の結果例

Ｖ．Ａ．サンプル収集と処理

研究デザインとサンプル：ＣＣＧＡ（ＮＣＴ０２８８９９７８）は、前向き、多施設、症例対照、観察研究であり、縦断的な追跡調査が行われている。本テストでは、１４２施設からの約１５，０００人の参加者から非識別化生物サンプルが収集された。サンプルはトレーニングセット（１，７８５人）とテストセット（１，０１５人）に分けられ、各コホートの部位間でがんタイプと非がんとが事前に指定した分布を確保するようにサンプルを選択し、がん及び非がんサンプルは性別によって頻度年齢をマッチさせた。

全ゲノムバイサルファイトシークエンス：ｃｆＤＮＡを血漿から分離し、ｃｆＤＮＡの解析には全ゲノムバイサルファイトシークエンス（ＷＧＢＳ、深度３０倍）を採用した。ｃｆＤＮＡは、改良型ＱＩＡａｍｐ循環核酸キット（Ｑｉａｇｅｎ、Ｇｅｒｍａｎｔｏｗｎ、ＭＤ）を使用して、患者ごとに２本の血漿チューブ（最大合計量１０ｍｌ）から抽出した。最大７５ｎｇの血漿ｃｆＤＮＡを、ＥＺ－９６ＤＮＡメチル化キット（ＺｙｍｏＲｅｓｅａｒｃｈ、Ｄ５００３）を使用して重亜硫酸塩変換に供した。変換されたｃｆＤＮＡは、Ａｃｃｅｌ－ＮＧＳＭｅｔｈｙｌ－ＳｅｑＤＮＡライブラリー調製キット（ＳｗｉｆｔＢｉｏＳｃｉｅｎｃｅｓ；ＡｎｎＡｒｂｏｒ，ＭＩ）を使用してデュアルインデックスシークエンシングライブラリを調製するために使用され、構築したライブラリーは、ＫＡＰＡＬｉｂｒａｒｙＱｕａｎｔｉｆｉｃａｔｉｏｎＫｉｔｆｏｒＩｌｌｕｍｉｎａＰｌａｔｆｏｒｍｓ（ＫａｐａＢｉｏｓｙｓｔｅｍｓ；Ｗｉｌｍｉｎｇｔｏｎ，ＭＡ）を使用して定量化した。４つのライブラリーと１０％のＰｈｉＸｖ３ライブラリー（Ｉｌｌｕｍｉｎａ、ＦＣ－１１０－３００１）をプールし、ＩｌｌｕｍｉｎａＮｏｖａＳｅｑ６０００Ｓ２フローセル上でクラスタリングした後、１５０ｂｐペアエンドシークエンス（３０倍）を実施した。

各サンプルについて、ＷＧＢＳフラグメントセットを、異常なメチル化パターンを有するフラグメントの小さなサブセットに縮小した。追加で、ハイパー又はハイポメチル化ｃｆＤＮＡフラグメントを選択した。異常なメチル化パターンを有し、ハイパー又はハイポメチル化、すなわち、ＵＦＸＭであるｃｆＤＮＡフラグメントを選択した。がんでない個体で高頻度に起こるフラグメント、又は不安定なメチル化を有するフラグメントは、がんの状態を分類するための識別性の高い特徴を作り出しにくいと考えられる。それゆえに、ＣＣＧＡ研究からがんでない非喫煙者１０８人（年齢：５８±１４歳、女性７９人［７３％］）の独立した参照セット（すなわち参照ゲノム）を使用して、統計モデル及び典型的なフラグメントのデータ構造体を作り出した。これらのサンプルは、セクションＩＩ．Ｂで上述したように、フラグメント内のＣｐＧメチル化状態の所与のシークエンスの尤度を見積もるマルコフチェーンモデル（次数３）を訓練するために使用した。このモデルは、正常なフラグメントの範囲（ｐ値＞０．００１）で較正されることが実証され、マルコフモデルからのｐ値が＞０．００１を有するフラグメントは、十分に異常でないとして拒否するために使用した。

上述のように、さらなるデータ削減ステップでは、少なくとも５つのＣｐＧがカバーされ、かつ平均メチル化が＞０．９（高メチル化）又は＜０．１（低メチル化）のいずれかのフラグメントのみを選択した。この手順により、訓練でがんでない参加者の２，８００（１，５００－１２，０００）のＵＦＸＭフラグメントの中央値（範囲）、及び訓練でがんを有する参加者の３，０００（１，２００－２２０，０００）のＵＦＸＭフラグメントの中央値（範囲）が結果として生じた。このデータ削減手順は、参照セットデータのみを使用したため、このステージは各サンプルに一度だけ適用する必要があった。

Ｖ．Ｂ．がんの分類

図８－１１は、例示的な実施態様による、訓練されたがん分類器のがん予測精度を示すグラフである。図８－１１に示される結果を作り出すために使用するがん分類器は、セクションＩＩＩに記載されたプロセスの例示的な実装、又はそれらのいくつかの組み合わせの例示的な実施態様に従って訓練される。

分析システムは、がん分類器において考慮されるべきＣｐＧ部位を選択する。情報利得は、他の全てのサンプルと比較して、所与のがんタイプを有するトレーニングサンプルに対して計算される。例えば、２つのランダム変数「異常なフラグメント」（「ＡＦ」）及び「がんタイプ」（「ＣＴ」）が使用される。ＣＴは、がんが特定のタイプであるかを示すランダム変数である。分析システムは、ＡＦが与えられたときのＣＴに関する相互情報量を計算する。つまり、特定のＣｐＧ部位に異常なフラグメントが重なっているか否かが分かる場合、がんタイプについて何ビットの情報が得られるかである。所与のがんタイプについて、分析システムは、この情報を使用して、ＣｐＧ部位をがん特異性がどれくらいかに基づいてランク付けする。この手順は、検討中のすべてのがんタイプについて繰り返される。各がんタイプのランク付けされたＣｐＧ部位は、がん分類器で使用するために積極的に追加される（例えば、約３０００のＣｐＧ部位に達するために）。

サンプルの特徴付けのために、分析システムは、異常なメチル化パターンを有する各サンプル中のフラグメント、かつ加えてさらにＵＦＸＭフラグメントを同定する。１つのサンプルについて、分析システムは、検討のために選択された各ＣｐＧ部位に対する異常スコアを計算する（～３，０００）。分析システムは、サンプルがＣｐＧ部位にくみこむＵＦＸＭフラグメントを有するか否かに基づいて、二値スコアリングで異常スコアを定義する。

図８は、例示的な実施態様による、様々ながんタイプに対するマルチクラスがん分類器のがん予測精度を示すグラフを示す。この例示的な実施例では、マルチクラスがん分類器は、乳がんタイプ、大腸がんタイプ、食道がんタイプ、頭頸部がんタイプ、肝胆膵がんタイプ、肺がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、膵臓がんタイプ、非がんタイプ、及び他のがんタイプという１１種類のがんタイプに従って特徴ベクトルを区別するように訓練されている。本実施例で使用したサンプルは、がんタイプの各々を有することが知られている対象からのものである。例えば、乳がんタイプのサンプルのコホートは、乳がんタイプを呼び出す際のがん分類器の精度を検証するために使用した。さらに、使用されたサンプルは、様々ながんのステージにある対象からのものである。

乳がんコホート、大腸がんコホート、及び肺がんコホートに対して、がん分類器は、その後に続くがんのステージにおいて、がんタイプを正確に予測する精度を徐々に高めている。頭頸コホート、卵巣コホート、及び膵臓コホートに対して、がん分類器は、後期ステージ、例えば、ステージＩＩＩ及び／又はステージＩＶになるにつれて、がん分類の精度が向上している。食道コホート及び肝胆膵のコホートに対して、がん分類器は、後期ステージ、例えば、ステージＩＩＩ及び／又はステージＩＶでの正確性もまた有している。非がんコホートでは、がん分類器は、非がんサンプルががんでない可能性の予測は完全な制度だった。最後に、リンパ腫コホートは、がんのステージＩＩのサンプルを正確に予測することに成功のピークがある様々なステージを通して成功した。

図９は、例示的な実施態様による、最初にバイナリがん分類器を使用した後の、様々ながんタイプに対するマルチクラスがん分類器のがん予測精度を示すグラフである。この例では、分析システムは、最初に、多くのがんタイプのコホートからサンプルをバイナリがん分類器に入力し、サンプルががんを有する可能性が高いか、又はがんを有しない可能性が高いかを判定する。その後、分析システムは、がんを有する可能性が高いと判定されたサンプルをマルチクラスがん分類器に入力し、それらのサンプルのがんタイプを予測する。考慮されるがんタイプは、乳がんタイプ、大腸がんタイプ、食道がんタイプ、頭頸部がんタイプ、肝胆膵がんタイプ、肺がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、膵臓がんタイプ、及びその他のがんタイプを含む。

図８の例と比較して、分析システムは、最初にバイナリがん分類器を使用し、その後マルチクラスがん分類器を使用したときに、精度の向上を示した。乳がんコホート、大腸がんコホート、肺がんコホート、及びリンパ腫がんコホートの中で、分析システムは、全体的に精度の向上を有した。とりわけ、分析システムは、がんの初期ステージ、すなわち、ステージＩ、ステージＩＩ、そしてステージＩＩＩでさえ、それらのがんタイプの各々について予測精度の顕著な向上を有していた。

図１０は、例示的な実施態様による、訓練されたがん分類器の性能を論証する混同行列を図示する。プロセス５００による訓練の一例では、リッジ回帰ペナルティを有するマルチクラスカーネルロジスティック回帰（ＫＬＲ）分類器が、重みに対するペナルティ、及び各がんタイプに対する二値項に対する固定ペナルティを有する導出された特徴ベクトル上で訓練されている。リッジ回帰ペナルティは、高関連部位の選択に使用されていないトレーニングデータの一部で最適化され（ログ損失を使用）、かつ最適なパラメータが見つかった時点で、ロジスティック分類器をローカルトレーニングフォールドの全セットで再訓練した。選択された高関連部位及び分類器の重みは、その後、新しいデータに適用した。ＣＣＧＡトレーニングセット内で、１つのフォールドを繰り返し保留し、９つのフォールドのうち８つのフォールドの関連部位を選択し、ＫＬＲ分類器のハイパーパラメータを９番目のセットで最適化し、ＫＬＲを１０フォールドのうち９フォールドで再トレーニングして、かつ保留したフォールドに適応させた。これをＣＣＧＡトレーニングセット内のＴＯＯを推定するために１０回繰り返した。ＣＣＧＡテストセットでは、関連部位をＣＣＧＡトレーニングの９／１０フォールドで選択し、ハイパーパラメータを１０フォールド目で最適化し、かつ全ＣＣＧＡトレーニングデータでＫＬＲ分類器を再トレーニングし、選択した部位及びＫＬＲ分類器をテストセットへ適用した。考慮したがんタイプは、多発性骨髄腫がんタイプ、大腸がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、肺頭頸部がんタイプ、膵臓がんタイプ、乳がんタイプ、肝胆膵がんタイプ、食道がんタイプ、その他がんタイプを含む。その他のがんタイプには、肛門がん、膀胱がん、原発不明がんＴＯＯ、子宮頸がん、胃がん、白血病、メラノーマ、前立腺がん、甲状腺腎がん、子宮がん、及びその他の追加がんなどのようなＣＣＧＡ内で収集したサンプルが５件未満のがんを含む。

混同行列は、既知のがんＴＯＯ（ｘ軸に沿って）と予測されたがんＴＯＯ（ｙ軸に沿って）を有するサンプルのがんタイプ間の一致を示す。訓練されたＫＬＲ分類器の性能を検証するために、各がんタイプのサンプルのコホート（各がんタイプのｙ軸に沿った括弧で示す）をＫＬＲ分類器で分類した。ｘ軸は、各コホートから何個のサンプルが各がんタイプの下に分類されたかを示す。例えば、既知の肺がんを有する２５のサンプルを有している肺がんのコホートでは、ＫＬＲ分類器は、１つのサンプルが卵巣がんを有する、１９のサンプルが肺がんを有する、２つのサンプルが頭頸部がんを有する、１つのサンプルが膵臓がんを有する、１つのサンプルが乳がんを有する、及び１つのサンプルが他のがんタイプとしてラベルするよう、予測した。特に、他のがんタイプを除くすべてのがんタイプに対して、ＫＬＲ分類器は、多発性骨髄腫（２／２、１００％）、大腸がん（１８／２０、９０％）、リンパ腫（８／９、８８．８％）、卵巣がん（４／５、８０％）、肺がん（１９／２５、７６％）、及び頭頸部がん（３／４、７５％）のがんタイプに対してとりわけ高い性格性を有する各コホートの半分より上となる正確な予測をした。これらの結果は、ＫＬＲ分類器の予測精度を論証する。

図１１は、いくつかの例示的な実施態様による、合成トレーニングサンプルで訓練されたがん分類器の性能を比較する表を図示する。分類器Ａは、図６Ｂに従って生成された特徴ベクトルを用いて訓練される。分類器Ｂは、「Mixture Model for Targeted Sequencing.」と題する米国出願第１６／５７９，８０５号に記載された方法論に従って生成された特徴ベクトルを用いて訓練される。分類器Ｂ＋は、追加された合成トレーニングサンプルを有する分類器Ｂと同様の特徴づけの実施を指す。様々に訓練された分類器は、９８％の特異度閾値でホールドアウトセットを用いて評価した。分類器Ｂ＋は，感度０．４８で、全体として最も良好な性能だった。がんの様々なステージにおいて、分類器Ｂ＋は、またステージＩのサンプルで０．１５の感度、ステージＩＩのサンプルで０．３８の感度、ステージＩＩＩのサンプルで０．７５の感度、及びステージＩＶのサンプルで０．９１の感度と，他の分類器よりも良好な性能だった。

以下の例で提示する解析に使用したデータは、ＣＣＧＡ臨床研究の一部として収集されたものである。ＣＣＧＡ［ＮＣＴ０２８８９９７８］は、前向き、多施設、観察的なｃｆＤＮＡベースの早期がん検出研究であり、１４０を超える施設において人口統計学的にバランスのとれた１５０００人を超える参加者が登録された。血液サンプルは、登録時に定義された、新規に診断された治療歴のないがん（Ｃ、ケース）及びがんと診断されていない参加者（非がん［ＮＣ］、コントロール）から収集された。

各参加者から採取された血液について、以下の３つのシークエンスアッセイが行われた。１）一塩基変異／インデルに対するｃｆＤＮＡ及び標的とされた白血球（ＷＢＣ）を対にしたシークエンス（６０，０００倍、５０７遺伝子パネル）（ＡＲＴシークエンスアッセイ）；ジョイントコーラーがＷＢＣ由来の体細胞変異と残存する技術ノイズを除去した。２）コピー数変化に対するｃｆＤＮＡ及びＷＢＣを対にしたホールゲノムシーケンス（ＷＧＳ、３５倍）；新規の機械学習アルゴリズムが、がん関連信号スコアの生成し、共同解析が共有イベントを同定した。３）メチル化に対するｃｆＤＮＡ全ゲノムバイサルファイトシーケンス（ＷＧＢＳ、３４倍）；異常メチル化フラグメントを使用して正規化スコアを生成した。追加で、４）比較のための腫瘍バリアントの同定のため、全ゲノムシークエンス決定（ＷＧＳ、３０倍）が、対になった腫瘍とＷＢＣｇＤＮＡに対して行われるように、組織サンプルは、がんを有する参加者のみから得た。

例１－非がん患者のデータへのがん信号のインシリコスパイキング

「インシリコ」データスパイキング実験は、異なる生物学的バックグラウンドに同量の様々ながん信号をスパイクする効果をテストするために設計された。この実験では、様々な種類のがんのタイプを有することが知られている対象からの複数のゲノム領域中のそれぞれのゲノム領域にマッピングされた核酸フラグメントシークエンスについてのビンカウントの増加パーセンテージを、非常に低い腫瘍分画を有する対象のサンプルの複数のゲノム領域にマッピングされた核酸フラグメントシークエンスに対して決定した対応するビンカウントに連続的にスパイクさせた。好都合にも、がん信号を隠す遺伝子座、又はこれらの遺伝子座の対立遺伝子が既知であるという要件はない。

このようにして、がんの時系列的な進展が、「インシリコ」で作成された。相対ビン値（図１２Ａ～１２Ｃ中の各プロットにおけるＹ軸）に対して訓練したがん分類器から得られるがんの確率によって報告されるようながん信号の発達を、各スパイクデータサンプルについて評価した。この実験で使用された分類器は、米国特許出願公開第２０１９／０２８７６４９号に記載されており、これは参照により本明細書に組み込まれる。

無細胞腫瘍分画の検出不可能なレベルを有する２２人のＣＣＧＡ低腫瘍分画対象を、異なる種類のがんを有することが知られており、各々が少なくとも１０％の無細胞ＤＮＡ腫瘍分画を有し、かつがん分類器ががんを有することの少なくとも９０％の確率を提供する２２人の高腫瘍分画対象とマッチさせ、ＣＣＧＡ研究データから選択した。高腫瘍分画対象の各々からのビンカウントの増加量を、低腫瘍分画対象の対応するビンカウントに加え、図１２Ａ～１２Ｃに示す各グラフのＸ軸にプロットしたように、ビンカウントの増加を伴う４８０セットのがんシリーズデータを形成した。このようなビンカウントは、特定のビンにマッピングされるサンプルで観察されるシークエンスの数を表し、各ビンは参照ヒトゲノムの一意の部分を表す。そのため、このようなビンカウントは、コピー数変動１３３の一形態と考えられる（図１Ｂ）。図示すると、図１２Ａ～１２ＣＣにおいて、個体２８１３は、２２人のＣＣＧＡ低腫瘍分画対象のうちの１人である。この個体について、図示されたグラフ中に２２本の線がある。グラフ中の各それぞれの線は、２２人の高腫瘍分画対象のセット中のそれぞれの高腫瘍分画対象の対応する対立遺伝子カウントのプログレッシブスパイク（Ｘ軸）を表す。例えば、線７０２は、第１の高腫瘍分画対象のビンカウントを有する低腫瘍分画対象２８１３のプログレッシブスパイクを表し、線７０４は、第２の高腫瘍分画対象のがんのビンカウントを有する低腫瘍分画対象２８１３のプログレッシブスパイクを表し、線７０６は、第３の高腫瘍分画対象とビンカウントを有する低腫瘍分画対象２８１３のプログレッシブスパイクを表す、などである。がん系列データの４８４セットの各々は、複数の２次元点（ｘ、ｙ）を含み、ｘ＝ｔａｒｇｅｔ＿ＴＦであり、ｙは、それぞれの点に対するビンカウントデータを訓練された分類器に入力した際に訓練された分類器によって返されるがんを有する確率であり、ビンカウントデータは、次のように計算された複数のビン中の各ビンｉのそれぞれのビンカウント（ｃｏｕｎｔｓ＿ｎｅｗ_ｉ）を含む。

counts_new_i
= (target_TF / actual_TF) * counts_highTF_i + (1 - target_TF / actual TF) * counts_low TF_i

ここで、ｃｏｕｎｔｓ_ｎｅｗ_ｉは、低腫瘍分画対象（例えば、個体１６）のビンｉについて、マッチした高腫瘍分画対象からのビンカウントでスパイクした際の調整されたカウントである。

ｔａｒｇｅｔ_ＴＦは、マッチした高腫瘍分画対象からのビンカウントでスパイクした際の、低腫瘍分画対象（例えば、個体２８１３）についての標的腫瘍分画（グラフのｘ軸）である。

ａｃｔｕａｌ_ＴＦは、マッチした高腫瘍分画対象からのビンカウントでスパイクする前の低腫瘍分画対象（例えば、個体２８１３）についての実際の腫瘍分画である。

ｃｏｕｎｔｓ_ｈｉｇｈＴＦ_ｉは、マッチした高腫瘍分画対象中のビンｉのビンカウントである。

ｃｏｕｎｔｓ_ｌｏｗＴＦ_ｉは、低腫瘍分画対象（例えば、個体２８１３）中のビンｉのビンカウントである。

このように、この方法で、図７Ｃのグラフの各線は、個体２８１３の核酸フラグメントシークエンスカウントへの異なる高腫瘍分画対象のプログレッシブスパイクを表し、かつこのように、腫瘍分画の進行性を表す。上で論じたように、サンプリングされた各腫瘍画分に対して、各がんについて、複合対立遺伝子カウント（例えば、マッチしたスパイク対立遺伝子カウントを有する個体２８１３の）を分類器にかけ、がん状態を有する確率を決定した（Ｙ軸）。言い換えれば、スパイクされたビンカウントの各インスタンス（図１２Ａ～１２ＣＣの各グラフの各ラインに対して）を、スパイクされたデータががんを有する対象から取得されたという確率（ｙ軸）を生成するために、がん分類器によって評価した。これらの確率は、図１２Ａ～１２Ｃに示されるグラフにおいて、腫瘍分画の関数としてプロットした。

図１２Ａ～１２Ｃのグラフで示されるように、所与の模擬サンプルに対して計算されたがんの確率は、（ｉ）模擬腫瘍分画、（ｉｉ）がんタイプ、及び（ｉｉｉ）参照対象（データががん信号でスパイクされた対象）によって提供されたバックグラウンド信号に依存している。例えば、図１２Ａ～１２Ｃに拡張されたプロットについて、参照個体２８１３を参照すると、２２人の高腫瘍分画対象によって表される異なるタイプのがんにわたって、同定されたがん確率のスパイクを生成するために必要な腫瘍分画に、ほぼ１０フォールドの差があることが分かる。例えば、最初のがんからの信号が参照個体の２８１３バックグラウンド（系列７０２で表される）にスパイクされたとき、０．００１（０．１％）をちょうど上回る模擬腫瘍分画において、同定されたがん確率の著しい増加が見られる。しかしながら、他の２つのがんからの信号がそれぞれ同じバックグラウンドに混入されたとき（それぞれ系列７０４及び７０６によって表される）、模擬腫瘍分画が０．０１（１％）を超えるまで、同定されたがん確率の増加は見られない。これは、計算されたがん確率のがんのタイプへの依存性を論証している。同様に、図１２Ａ～１２Ｃは、計算されたがん確率の個人のバックグラウンド信号への依存性がむしろ顕著であることを示す。例えば、ほとんどの参照バックグラウンドでは、ある特定のがんタイプについて、模擬サンプルの腫瘍分画が０．０１（１％）を超えるのに到達するまで、がん確率が計算されたスパイクインは観察されなかった。しかしながら、そのがんに対するがん信号を個体５１０のデータにスパイクすると、０．０１を大幅に下回る腫瘍分画においてがん確率のスパイクが観測された。実際、参照個体５１０の計算されたがん確率の検出可能なスパイクは、ほとんどすべての異なるがんタイプで、かなり早い時期に見られた。対照的に、そのがんタイプのがん信号が個体１３１４のデータにスパイクすると、腫瘍分画が０．０１（１％）より著しく高くなるまで、がん確率の増加は観察されなかった。実際、参照個体１３１４の計算されたがん確率の検出可能なスパイクは、ほとんどのがんタイプにおいて著しく遅れるようで見えた。

例２－ロジスティック回帰モデルのオーバーフィット

分類アルゴリズムがより複雑になり、より大きな特徴セットを使用するようになると、訓練に必要なトレーニング構成体の数も拡大する。とりわけ、疾患分類器に使用される特徴の数が増えると、異常値、例えば分類器の特徴空間を定義する超立方体の表面上に存在する少なくとも１つの特徴値を有しているトレーニング構成体の数もまた増える。これは、今度は、分類器のオーバーフィッティング及び感度の損失、特に分類器における所与の疾患信号に対する検出レベル（ＬＯＤ）付近の、をもたらす。例えば、図１５は、モデルを２０００（１００２）、５０００（１００４）、１０，０００（１００６）、２０，０００（１００８）、５０，０００（１０１０）、及び１００，０００（１０１２）のトレーニング構成体に対して訓練したとき、分類器で使用される特徴の数が拡大するにつれて、ある次元に沿って最大化又は最小化する特徴空間のパーセントを表す曲線を示す。点１０１４で示すように、２５００個の特徴を有する分類器を２０００個のサンプルのトレーニングセットで訓練すると、ハイパーキューブの体積のほぼ全てが特徴空間のかどで横になる結果を生じる。

上述のＣＣＧＡの研究から、数千の特徴で訓練した機械学習分類器はオーバーフィットしていることが観察された。ロジスティック回帰はより厳密なモデルであるため、より単純なロジスティック回帰モデルに切り替えることで問題を解決できると仮定された。しかしながら、同じ大きな特徴セットを使用し、ロジスティック回帰モデルを訓練したとき、同じようにオーバーフィットの問題が観察された。図１４に示すのは、ロジスティック回帰モデルの省略するクロスバリデーションの９フォールドの結果である。図１４に見られるように、モデルは、テストフォールド（０．６～０．７）よりもトレーニング部分（０．９～１．０）に対して著しく高い感度によって証明されるように、クロスバリデーションの１つのフォールド以外の全てに対して、オーバーフィットした。

ＶＩ．特許を請求可能な主題

一態様において、がんを検出するためのモデルを訓練する方法は、複数のトレーニングサンプルのシークエンシングデータを受信するステップであって、各トレーニングサンプルはがん及び非がんのうちの１つとしてラベルされ、かつ各トレーニングサンプルが複数の異常なｃｆＤＮＡフラグメントを備える、ステップと、がんとしてラベルされた第１のトレーニングサンプル及び非がんとしてラベルされた第２のトレーニングサンプルをサンプリングするステップと、第１のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第１のサブセット、及び第２のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第２のサブセットをサンプリングすることによって、第１の合成トレーニングサンプルを生成するステップであって、第１の合成トレーニングサンプルはがんとしてラベルされる、ステップと、各トレーニングサンプルの複数の異常なｃｆＤＮＡフラグメントに基づいて、第１の合成トレーニングサンプルを含むトレーニングサンプルの各々について特徴ベクトルを生成するステップと、特徴ベクトル及び第１の合成トレーニングサンプルを含むトレーニングサンプルのラベルを用いてモデルを訓練し、モデルは、テストサンプルのシークエンシングデータに基づいてテストサンプルについてがん予測を生成するように構成されている、ステップと、を備える。

別の態様では、がんを検出する方法は、複数の異常なｃｆＤＮＡフラグメントを含むテストサンプルのシークエンシングデータを受信するステップと、テストサンプルの異常なｃｆＤＮＡフラグメントに基づいて、テスト特徴ベクトルを生成するステップと、テスト特徴ベクトルを分類モデルに入力し、テストサンプルについてのがん予測を生成するステップであって、分類モデルは、複数のトレーニングサンプルのシークエンスデータを受信するステップであって、各トレーニングサンプルはがん及び非がんのうちの一つとしてラベルされ、各トレーニングサンプルは複数の異常なｃｆＤＮＡフラグメントを含むステップ、がんとしてラベルされた第１のトレーニングサンプルと非がんとしてラベルされた第２のトレーニングサンプルとをサンプリングするステップ、第１のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第１のサブセットを、第２のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第２のサブセットを、サンプリングすることによって、第１の合成トレーニングサンプルを生成するステップであって、第１の合成トレーニングサンプルはがんとしてラベルされるステップ、各トレーニングサンプルの複数の異常なｃｆＤＮＡフラグメントに基づいて、第１の合成トレーニングサンプルを含むトレーニングサンプルの各々に対して特徴ベクトルを生成するステップ、並びに特徴ベクトル及び第１の合成トレーニングサンプルを含むトレーニングサンプルのラベルを用いてモデルを訓練するステップ、によって訓練するステップと、を備えることができる。

別の態様において、本開示は、疾患状況の判定を容易にする複数の補完的データ構成体を生成する方法を提供する。本方法は、疾患状況の第１の状態を有する訓練対象の第１のコホートについての第１の複数のゲノムデータ構成体を含むトレーニングデータセットを、電子フォームで取得することを含むことができ、第１の複数のゲノムデータ構成体は、訓練対象の第１のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれのゲノムデータ構成体を含む。本方法は、その後、トレーニングデータセットを使用して、複数の補完的データ構成体を生成することを含むことができ、ここで、複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、第１の複数のゲノムデータ構成体からの少なくとも１つのそれぞれのゲノムデータ構成体に対応し、かつ複数の補完的ゲノムデータ構成体中のそれぞれの補完的ゲノムデータ構成体は、複数のゲノム特性中のそれぞれのゲノム特性に対して、第１の複数の遺伝子型データ構成体から少なくともそれぞれのゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を含む。

いくつかの実施態様において、トレーニングデータセットは、疾患状況の第１の状態とは異なる疾患状況の第２の状態を有する訓練対象の第２のコホートに対する第２の複数のゲノムデータ構成体を含む。第２の複数のゲノムデータ構成体は、訓練対象の第２のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を含むそれぞれのゲノムデータ構成体を含むことができる。いくつかの実施態様では、本方法は、少なくとも（ｉ）第１の複数のゲノムデータ構成体、（ｉｉ）第２の複数のゲノムデータ構成体、（ｉｉｉ）複数の補完的ゲノムデータ構成体、及び（ｉｖ）第１の複数のゲノムデータ構成体、第２の複数のゲノムデータ構成体、及び複数の補完的ゲノムデータ構成体中の各それぞれのゲノムデータ構成体に対する疾患状況の状態の指標、を使用して疾患状況の状態を判別するためにテスト分類器を訓練することを含む。

別の態様において、本開示は、テスト対象における疾患状況を判別するための方法を提供する。本方法は、電子フォームで、テストゲノムデータ構成体を取得することを含むことができる。テストゲノムデータ構成体は、テスト対象から得られた生体サンプル中の対応する複数の核酸フラグメントの複数のテストゲノム特性中の各ゲノム特性に対する値を含むことができる。本方法は、その後、テストゲノムデータ構成体を、上述のように訓練されたテスト分類器に適用し、それによって、テスト対象における疾患状況の状態を判定することを含むことができる。この方法において、複数のテストゲノム特性は、テスト分類器に対して訓練される複数の遺伝子型特性を含むことができる。

別の態様において、本開示は、疾患状況の判別を容易にする時系列データを生成する方法を提供する。本方法は、訓練対象の第１のコホートについての第１の複数のゲノムデータ構成体を含む第１のトレーニングデータセットを、電子フォームで取得することを含むことができる。本方法は、その後、第１のトレーニングデータセットを使用して、訓練対象の第１のコホート中の各それぞれの訓練対象について、それぞれの第２の時点におけるそれぞれの訓練対象の代表的な複数のゲノム特性についての値を含むそれぞれの第１の増強されたゲノムデータ構成体を生成することを含むことができる。それぞれの第１の増強されたゲノムデータ構成体は、ゲノムデータ構成体の対応する第１の対に対応し、ゲノムデータ構成体の第１の対は、（ｉ）それぞれの訓練対象についてのそれぞれの第１のゲノムデータ構成体、及び（ｉｉ）１つ以上のスパイクインゲノムデータ構成体のセットからのそれぞれのスパイクインゲノトタイプデータ構成体、を備える。それぞれの第１の増強されたゲノムデータ構成体は、複数のゲノム特性中のそれぞれのゲノム特性に対して、対応する第１のゲノムデータ構成体の対の各ゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの第１の確率サンプリングに由来する増強値を含むことができる。本方法は、それにより、訓練対象の第１のコホート中の各それぞれの訓練対象について、それぞれの第１のゲノムデータ構成体及びそれぞれの第１の増強されたゲノムデータ構成体を含むそれぞれの時系列データセットを生成する。

いくつかの実施態様において、本方法は、少なくとも（ｉ）訓練対象の第１のコホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット、（ｉｉ）訓練対象の第１のコホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット中の各それぞれのゲノムデータ構成体についてのそれぞれの時点を含むそれぞれの複数の時点、又はその派生物、並びに（ｉｉｉ）訓練対象の第１のコホート中の各それぞれの訓練対象に対して、それぞれの複数の時点中の少なくとも最も早いそれぞれの時点及び最も遅いそれぞれの時点における疾患状況の表示、を使用して疾患状況の状態を判定するために時間的分類器を訓練することもまた含む。

一態様では、本開示は、テスト対象の疾患状況の状態を、疾患状況の状態のセットの中から判別するための時間的分類アルゴリズムを訓練する方法を提供する。本方法は、複数の訓練対象中の各それぞれの訓練対象に対して、以下を含むトレーニングデータセットを、電子フォームで取得することを含む。（１）それぞれの訓練対象についてのそれぞれの第１のゲノムデータ構成体であって、それぞれの第１のゲノムデータ構成体は、それぞれの第１の時点においてそれぞれの訓練対象から得られた第１の生体サンプル中の第１のそれぞれの複数の核酸フラグメントの複数の遺伝子型特性についての値を含む、第１のゲノムデータ構成体、（２）それぞれの訓練対象についてのそれぞれの第２のゲノムデータ構成体であって、それぞれの第２のゲノムデータ構成体は、それぞれの第１の時点後に起こるそれぞれの第２の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性についての値を含む、それぞれの第２のゲノムデータ構成体、（３）それぞれの第１の時点及びそれぞれの第２の時点、又はその派生物、並びに（４）それぞれの第１の時点及びそれぞれの第２の時点における、それぞれの訓練対象の疾患状況のセット中の疾患状況の表示。本方法は、その後、それぞれの訓練対象に対して、少なくとも（ａ）それぞれの第１のゲノムデータ構成体、（ｂ）それぞれの第２のゲノムデータ構成体、（ｃ）それぞれの第１の時点及びそれぞれの第２の時点、又はその派生物、並びに（ｄ）それぞれの第１の時点及びそれぞれの第２の時点における疾患状況の表示、に対する時間的分類アルゴリズムを訓練することを含むことができる。複数の訓練対象中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第２のゲノムデータ構成体は、それぞれの訓練対象から得られた第２の生体サンプルからのそれぞれの第２の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第３の複数の核酸フラグメント、からの複数のゲノム特性についての値を含むことができる。

別の態様において、本開示は、対象中の疾患状況を判別するための方法を提供する。本方法は、テスト対象に対して、電子フォームで、テスト時系列データセットを取得することを含むことができる。テスト時系列データセットは、（ｉ）複数の時点における各それぞれの時点について、それぞれの時点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のテストゲノム特性についての値を含むそれぞれのテストゲノムデータ構成体、及び（ｉｉ）複数の時点中の各それぞれの連続する時点の対に対して、それぞれの連続する時点の対間の時間の長さの指標、を含むことができる。本方法は、その後、テスト時系列データセットを、上記のように訓練された分類器に適用し、それによって、テスト対象における疾患状況の状態を判定することを含むことができる。この方法において、複数のテストゲノム特性は、分類器がそれに対して訓練された複数のゲノム特性を含む。

一態様において、本開示は、テスト対象における疾患状況を判別するために訓練された分類器の性能を査定する方法を提供する。本方法は、テストゲノムデータ構成体を評価することによって、疾患状況を判別するように訓練された第１の分類器を得ることを含むことができ、テストゲノムデータ構成体は、テスト対象から得られた第１の対応する生体サンプル中の対応する第１の複数の核酸フラグメントの複数のゲノム特性についての値を含む。本方法は、その後、複数の増強されたゲノムデータ構成体を含む増強された査定データセットを得るすることを含むことができる。複数の増強された遺伝子型データ構成体中の各それぞれの増強された遺伝子型データ構成体は、疾患状況の複数の状態中の疾患状況のそれぞれの状態を有する対象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むことができる。増強された査定データセットは、複数の増強された遺伝子型データ構成体中で、複数の疾患状況の状態中の各それぞれの疾患状況の状態の代表的なそれぞれの増強された遺伝子型データ構成体を含むことができる。本方法は、増強された査定データセット中の各それぞれの増強されたゲノムデータ構成体を分類器に独立して適用して、各それぞれの増強された遺伝子型データ構成体に対して疾患状態分類を生成し、それによって複数の疾患状態分類を生成することを更に含むことができる。本方法は、その後、複数の疾患状態分類中の、各それぞれの疾患状態分類を、対応する増強されたゲノムデータ構成体によって表される疾患状況のそれぞれの状態の関数として評価し、それによって、分類器の性能を査定することを含むことができる。

本開示の別の態様は、疾患状況の判別を容易にする複数の補完的データ構成体を生成する方法を提供し、この方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも１つのプログラムが、以下のための命令を備えることを備える。Ａ）電子フォームで、疾患状況の第１の状態を有する訓練対象の第１のコホートに対する第１の複数の遺伝子型データ構成体を備えるトレーニングデータセットを取得するステップであって、第１の複数の遺伝子型データ構成体は、訓練対象の第１のコホート中の各それぞれの訓練対象に対して、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含む、ステップ；Ｂ）トレーニングデータセットを使用して、複数の補完的データ構成体を生成するステップであって、複数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体は、第１の複数の遺伝子型データ構成体からの少なくとも１つのそれぞれの遺伝子型データ構成体に対応し、かつ複数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、第１の複数の遺伝子型データ構成体からの少なくとも１つのそれぞれの遺伝子型データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの確率サンプリングに由来する増強値を備える、ステップ。

いくつかの実施態様では、トレーニングデータセットは、疾患状況の第１の状態とは異なる疾患状況の第２の状態を有する訓練対象の第２のコホートに対する第２の複数の遺伝子型データ構成体を更に備え、第２の複数の遺伝子型データ構成体は、訓練対象の第２のコホート中の各それぞれの訓練対象に対して、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含み、本方法は、Ｃ）少なくとも（ｉ）第１の複数の遺伝子型データ構成体、（ｉｉ）第２の複数の遺伝子型データ構成体、（ｉｉｉ）複数の補完的遺伝子型データ構成体、並びに（ｉｖ）第１の複数の遺伝子型データ構成体、第２の複数の遺伝子型データ構成体、及び複数の補完的遺伝子型データ構成体中の各それぞれの遺伝子型データ構成体に対する疾患状況の状態の指標、を使用して疾患状況の状態を判別するためにテスト分類器を訓練するステップ、を更に備える。

いくつかの実施態様では、訓練するステップＣ）は、訓練対象の第３のコホートに対して第３の複数の遺伝子型データ構成体を使用し、第３の複数の遺伝子型データ構成体は、訓練対象の第３のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から得られた対応する複数の生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含み、第３のコホート中の各訓練対象は、疾患状況の第３の状態を有する。

いくつかの実施態様では、訓練するステップＣ）は、それぞれの訓練対象の１つ以上の個人的特徴を使用する。

いくつかの実施態様において、疾患状況は、がんである。

いくつかの実施態様において、がんの第１の状態は、がんの存在であり、かつ、がんの第２の状態は、がんの非存在である。

いくつかの実施態様において、がんの第１の状態は、第１のタイプのがんであり、かつ、がんの第２の状態は、第２のタイプのがんである。

いくつかの実施態様において、がんの第１の状態は、特定のがんの第１のステージであり、かつ、がんの第２の状態は、特定のがんの第２のステージである。

いくつかの実施態様において、がんの第１の状態は、がんの第１の予後であり、かつ、がんの第２の状態は、がんの第２の予後である。

いくつかの実施態様において、疾患状況は、心血管疾患である。

いくつかの実施態様において、心血管疾患の第１の状態は、心血管疾患の存在であり、かつ心血管疾患の第２の状態は、心血管疾患の非存在である。

いくつかの実施態様において、心血管疾患の第１の状態は、心血管疾患の第１の予後であり、かつ心血管疾患の第２の状態は、心血管疾患の第２の予後である。

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置について、それぞれのゲノム位置のメチル化状態を備える。

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置について、バリアント対立遺伝子に対する支持を備える。

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置について、相対コピー数を備える。

いくつかの実施態様において、複数の遺伝子型特性は、少なくとも５０００個の遺伝子型特性を備える。

いくつかの実施態様において、複数の遺伝子型特性は、少なくとも５０，０００個の遺伝子型特性を備える。

いくつかの実施態様において、トレーニングデータセットは、２０，０００個未満の遺伝子型データ構成体を備える。

いくつかの実施態様において、トレーニングデータセットは、２０００個未満の遺伝子型データ構成体を備える。

いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、全ゲノムシークエンシングによって得られる。

いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって得られる。

いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、（ｉ）全ゲノムメチル化シークエンシング又は（ｉｉ）複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用する標的ＤＮＡメチル化シークエンシングによって得られる。

いくつかの実施態様において、各対応する生体サンプルは、液体生体サンプルである。

いくつかの実施態様において、液体生体サンプルは、血液サンプルである。

いくつかの実施態様において、対応する生体サンプル中の複数の核酸フラグメントは、無細胞ＤＮＡである。

いくつかの実施態様において、確率サンプリングは、単純ランダムサンプリング、層別ランダムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリング、又はマルチステージランダムサンプリングである。

いくつかの実施態様において、確率サンプリングは、複数の遺伝子型特性の値に寄与する複数の核酸フラグメントの所定の部分の重みランダムサンプリングを備え、対応する遺伝子型特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に関する対応する遺伝子型特性に寄与する核酸フラグメントの存在量に比例する。

いくつかの実施態様では、複数の補完的データ構成体中の各それぞれの補完的データ構成体に対して、確率サンプリングは、第１の複数の遺伝子型データ構成体から、それぞれのデータ構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメントのそれぞれの部分を選択し、かつ核酸フラグメントのそれぞれの部分の大きさは、他の補完的データ構成体に対して選択した核酸フラグメントのそれぞれの部分の大きさと独立して決定される。

いくつかの実施態様では、複数の補完的データ構成体中の各それぞれの補完的データ構成体に対して、確率サンプリングは、第１の複数の遺伝子型データ構成体から、それぞれのデータ構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメントのそれぞれの部分を選択し、かつ核酸フラグメントのそれぞれの部分の大きさは、それぞれの補完的データ構成体が、探索的分類器が遺伝子型データ構成体によって表される有益な核酸フラグメント分画の変化に対する閾値感度を満たす有益な核酸フラグメント分画の範囲内に入る模擬の有益な核酸フラグメント分画を表すように選択され、探索的分類器は、複数の遺伝子型特性に基づいて疾患状況の状態の判別するように訓練される。

いくつかの実施態様において、有益な核酸フラグメント分画の範囲は、ａ）トレーニングデータセットを使用して、複数の増強された探索的遺伝子型データ構成体を生成するステップであって、複数の増強された探索的遺伝子型データ構成体中の各それぞれの増強された探索的遺伝子型データ構成体は、第１の複数の遺伝子型データ構成体からの少なくともそれぞれの遺伝子型データ構成体に対応し、複数の増強された探索的遺伝子型データ構成体中の各それぞれの増強された探索的遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、第１の複数の遺伝子型データ構成体からの少なくともそれぞれの遺伝子型データ構成体からのそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を備え、複数の増強された探索的遺伝子型データ構成体中のそれぞれの増強された探索的遺伝子型データ構成体は、第１の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体によって表される有益な核酸フラグメント分画に基づく模擬の有益な核酸フラグメント割合を表すものであり、かつ複数の増強された探索的遺伝子型データ構成体によって表される模擬の有益な核酸フラグメント分画の分布は、探索的分類器の検出レベルを下回る第１の有益な核酸フラグメント分画から探索的分類器の検出レベルを上回る第２の情有益な核酸フラグメント分画にまたがる、ステップと、ｂ）複数の増強された探索的遺伝子型データ構成体を探索的分類器に適用して、複数の模擬疾患状況確率を生成するステップであって、探索的分類器は、少なくとも（１）疾患状況の第１の状態を有する探索対象の第１のコホート中の各それぞれの探索対象に対して、それぞれの探索対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含む第１の複数の探索的遺伝子型データ構成体、（２）第２の疾患状況の状態を有する探索対象のコホート中の各それぞれの探索対象に対して、それぞれの探索対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含む第２の複数の探索的データ構成体、並びに（３）第１及び第２の複数の探索的遺伝子型データ構成体中の各それぞれの遺伝子型データ構成体に対して、疾患状況の状態の表示、を使用して疾患状況の状態を判別するために訓練される、ステップと、ｃ）模擬疾患状況確率が、それぞれの増強された探索的遺伝子型データ構成体によって表される情報提供核酸フラグメント分画における変化に対して最も敏感である有益な核酸フラグメント分画の範囲を特定するステップと、によって決定される。

いくつかの実施態様では、探索対象の第１のコホート中の探索対象から得られた各それぞれの生体サンプルは、対象の疾患組織の固体のサンプルである。

いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体は、対応する遺伝子型構成体の対に対応し、遺伝子型構成体の対は、（ｉ）第１の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体及び（ｉｉ）第２の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体から構成され、かつ補完的複数の遺伝子型データ構成体中のそれぞれの補完的遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、対応する遺伝子型データ構成体の対の各遺伝子型構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの確率サンプリングに由来する増強値を備える。

いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の少なくとも１つのそれぞれの補完的遺伝子型データ構成体に対して、第２の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体は、それぞれの補完的遺伝子型データ構成体の複数の遺伝子型特性に対する増強値を導出する前に増強される。

いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体に対して、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対する増強値は、（ｉ）第１の複数の遺伝子型データ構成体からのそれぞれの遺伝子型特性の第１の重み寄与、及び（ｉｉ）第２の複数の遺伝子型データ構成体からのそれぞれの遺伝子型特性の第２の重み寄与、から形成される。

いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体に対して、遺伝子型データ構成体の対に対応する（ｉ）第１の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体に対応するそれぞれの訓練対象、及び（ｉｉ）第２の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体に対応するそれぞれの訓練対象は、共有される個人的特徴に基づいてマッチさせる。

いくつかの実施態様において、本方法は、以下の方法によって、複数の増強された偽陽性遺伝子型データ構成体を得るステップを更に備える：性能閾値を満たすことができない性能を有するテスト分類器に対する前駆体によって判別される第２の複数の遺伝子型データ構成体から遺伝子型データ構成体のサブセットを同定するステップ；遺伝子型データ構成体のサブセットを使用して、複数の増強された偽陽性遺伝子型データ構成体を生成するステップであって、複数の増強された偽陽性遺伝子型データ構成体中のそれぞれの増強された偽陽性遺伝子型データ構成体は、遺伝子型データ構成体のサブセットからの少なくともそれぞれの遺伝子型データ構成体に対応し、かつ複数の増強された偽陽性遺伝子型データ構成体中の各それぞれの遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、遺伝子型データ構成体のサブセットからの少なくともそれぞれの遺伝子型データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの確率サンプリングから得られる増強値を備える、ステップ。ここでテスト分類器を訓練するステップ（Ｃ）は、（ｖ）複数の増強された偽陽性遺伝子型データ構成体、及び（ｖｉ）複数の増強された偽陽性遺伝子型データ構成体中の各それぞれの遺伝子型データ構成体に対して、疾患状況の表示を使用する。

いくつかの実施態様において、テスト分類器は、ロジスティック回帰アルゴリズムである。

いくつかの実施態様において、テスト分類器は、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである。

いくつかの実施態様において、テスト分類器は、少なくとも（ｉ）第１の時点においてテスト対象から取得した第１の生体サンプルから生成された第１のテスト遺伝子型データ構成体と、（ｉｉ）第２の時点においてテスト対象から取得した第２の生体サンプルから生成された第２のテスト遺伝子型データ構成体とを必要とする時間的分類器である。

いくつかの実施態様において、本方法は、Ｄ）電子フォームで、テスト対象から得られる生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性中の各遺伝子型特性についての値を含むテスト遺伝子型データ構成体を得るステップと、Ｅ）テスト遺伝子型データ構成体をテスト分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップと、を更に備える。

いくつかの実施態様では、テスト対象は、適用するステップＥ）の前に、以前に疾患状況と診断されていない。

本開示の別の態様は、テスト対象における疾患状況を判別するための方法を提供し、この方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも１つのプログラムが、以下のための命令を備えることを備える。Ａ）電子フォームで、テスト対象から得られた生体サンプル中の対応する複数の核酸フラグメントの複数のテスト遺伝子型特性中の各遺伝子型特性についての値を含むテスト遺伝子型データ構成体を、取得するステップ；Ｂ）テスト遺伝子型データ構成体を請求項２～３９のいずれか１項に記載の方法に従って訓練したテスト分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップであって、複数のテスト遺伝子型特性はテスト分類器がこれに対して訓練された複数の遺伝子型特性を備える、ステップ。

いくつかの実施態様において、テスト対象から得られた生体サンプルは、液体生体サンプルである。

いくつかの実施態様において、テスト対象から得られた生体サンプル中の複数の核酸フラグメントは、無細胞ＤＮＡである。

本開示の別の態様は、疾患状況の判別を容易にする時系列データを生成する方法を提供し、この方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも１つのプログラムが、以下のための命令を備えることを備える。Ａ）電子フォームで、第１のトレーニングデータセットを取得するステップであって、第１のトレーニングデータセットが、訓練対象の第１のコホートに対する第１の複数の遺伝子型データ構成体であって、第１のトレーニングデータセットは、訓練対象の第１のコホート中の各それぞれの訓練対象について、それぞれの第１の遺伝子型データ構成体がそれぞれの第１の時点においてそれぞれの訓練対象から得られた対応する第１の生体サンプル中の対応する第１の複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、それぞれの訓練対象は、それぞれの第１の時点において疾患状況の第１の状態を有する、第１の複数の遺伝子型データ構成体と、１つ以上のスパイクイン対象のコホートに対する１つ以上のスパイクイン遺伝子型データ構成体のセットであって、１つ以上のスパイクイン遺伝子型データ構成体のセットが、そのセット又は１つ以上のスパイクイン対象中の各それぞれのスパイクイン対象について、それぞれのスパイクイン対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、それぞれのスパイクイン対象は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに第２の疾患状況の状態を有したものであり、かつ第１の疾患状況の状態及び第２の疾患状況の状態が、疾患状況の進行によって関連付けられる、１つ以上のスパイクイン遺伝子型データ構成体のセットと、を備えるステップ；Ｂ）第１のトレーニングデータセットを使用して、訓練対象の第１のコホート中の各それぞれの訓練対象について、それぞれの第２の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性についての値を備えるそれぞれの第１の増強された遺伝子型データ構成体を生成するステップであって、それぞれの第１の増強された遺伝子型データ構成体は、対応する第１の遺伝子型データ構成体の対に対応し、第１の遺伝子型データ構成体の対は、（ｉ）それぞれの訓練対象に対するそれぞれの第２の遺伝子型データ構成体と、（ｉｉ）１つ以上のスパイクイン遺伝子型データ構成体のセットからのそれぞれのスパイクイン遺伝子型データ構成体とから構成され、かつそれぞれの第１の増強された遺伝子型データ構成体は、複数の遺伝子型特性中のそれぞれの遺伝子型特性に対して、対応する第１の遺伝子型データ構成体の対の各遺伝子データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの第１の確率サンプリングに由来する増強値を備え、それによって、訓練対象の第１のコホート中の各それぞれの訓練対象に対して、それぞれの第１の遺伝子型データ構成体及びそれぞれの第１の増強された遺伝子型データ構成体を備えるそれぞれの時系列データセットを生成する、ステップ。

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第２の遺伝子型データ構成体は、それぞれの第１の遺伝子型データ構成体である。

いくつかの実施態様では、訓練対象の第１のコホートに中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第２の遺伝子型データ構成体は、第２の時点においてそれぞれの訓練対象から得られた対応する第２の生体サンプル中の対応する第２の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える。

いくつかの実施態様において、本方法は、第１のトレーニングデータセットを使用して、訓練対象中の第１のコホートにおけるそれぞれの訓練対象に対して、それぞれの第３の時点におけるそれぞれの訓練対象を代表的な複数の遺伝子型特性についての値を備えるそれぞれの第２の増強された遺伝子型データ構成体を生成するステップをさらに備え、ここで、それぞれの第２の増強された遺伝子型データ構成体は、（ｉ）それぞれの訓練対象についてのそれぞれの第３の遺伝子型データ構成体と、（ｉｉ）１つ以上のスパイクイン遺伝子型データ構成体のセットからのそれぞれのスパイクイン遺伝子型データ構成体とから構成される対応する第２の遺伝子型構成体の対に対応し、それぞれの第２の増強された遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、対応する第２の遺伝子型データ構成体の対の各遺伝子型データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの第２の確率サンプリングに由来する増強値を備え、それによって、訓練対象の第１のコホート中の各それぞれの訓練対象に対して、それぞれの第２の増強された遺伝子型データ構成体の包含によるそれぞれの時系列データセットを拡張する。

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第３の遺伝子型データ構成体は、それぞれの第１の遺伝子型データ構成体である。

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第２の遺伝子型データ構成体は、第２の時点においてそれぞれの訓練対象から得られた対応する第２の生体サンプル中の対応する第２の複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、かつそれぞれの第３の遺伝子型データ構成体は、それぞれの第２の遺伝子型データ構成体である。

いいくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第３の遺伝子型データ構成体は、第３の時点においてそれぞれの訓練対象から得られた対応する第３の生体サンプル中の対応する第３の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える。

いくつかの実施態様では、訓練対象の第１のコホート中のそれぞれの訓練対象に対して、それぞれの第１の時系列データセットは、第１の疾患状態から第２の疾患状態の発展をモデル化するためのものであり、第２の時点は、第１の時点の後の時点に対応し、第３の時点は、第２の時点の後の時点に対応し、核酸フラグメントの第２の確率サンプリングは、第１の確率サンプリングよりもそれぞれのスパイクイン遺伝子型データ構成体中の遺伝子型特性の値に寄与する核酸フラグメントの選択に向けてより大きく重み付けされる。

いくつかの実施態様において、本方法は、Ｃ）少なくとも（ｉ）訓練対象の第１のコホート中のそれぞれの訓練対象についてのそれぞれの時系列データセット、（ｉｉ）訓練対象の第１のコホート中のそれぞれの訓練対象に対して、それぞれの時系列データセット中の各それぞれの遺伝子型データ構成体についてのそれぞれの時点を備えるそれぞれの複数の時点、又はその派生物、及び（ｉｉｉ）訓練対象の第１のコホート中のそれぞれの訓練対象についてのそれぞれの複数の時点中の少なくとも最も早いそれぞれの時点及び最も遅いそれぞれの時点についての疾患状況の表示、を使用して疾患状況の状態を判別するためにテスト分類器を訓練するステップ、を更に備える。

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象について、それぞれの遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体は、第１の対応する時点の後である第４の対応する時点におけるそれぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、かつ第２の対応する時点は第１の対応する時点と第４の対応する時点との間である。

いくつかの実施態様では、訓練対象の第１のコホート中の各それぞれの訓練対象について、対応する遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体に対応するスパイクイン対象は、それぞれの訓練対象と異なる対象である。

いくつかの実施態様では、訓練対象の第１のコホート中の各それぞれの訓練対象について、対応する遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体に対応するスパイクイン対象は、共有される個人的特徴に基づいてそれぞれの訓練対象にマッチされる。

いくつかの実施態様において、疾患状況は、がんである。

いくつかの実施態様において、がんの第１の状態は、第１のがんのタイプであり、かつ、がんの第２の状態は、第２のがんのタイプである。

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象について、それぞれの訓練対象は、それぞれの第１の時点においてがんに罹患しておらず、かつ遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに少なくとも第２のステージのがんに罹患した対応するスパイクイン対象から得られたものである。

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象について、それぞれの訓練対象は、それぞれの第１の時点において心血管疾患に罹患しておらず、かつ遺伝型データ構成体の対中のそれぞれのスパイクイン遺伝型データ構成体は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに心血管疾患に罹患していた対応するスパイクイン対象から得られたものである。

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置に対して、それぞれのゲノム位置のメチル化状態を備える。

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置に対して、バリアント対立遺伝子に対する支持を備える。

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞれのゲノム位置に対して、相対コピー数を備える。

いくつかの実施態様では、複数の訓練対象中の各それぞれの訓練対象について、第１の対応する生体サンプルは、液体生体サンプルである。

いくつかの実施態様では、確率サンプリングは、各それぞれの遺伝子型データ構成体の対中の各遺伝子型データ構成体に対して、複数の遺伝子型特性の対応する値に寄与する対応する複数の核酸フラグメントの所定の部分の重みランダムサンプリングを備え、ここで、対応する遺伝子型特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に関する対応する遺伝子型特性に寄与する核酸フラグメントの存在量に比例する。

いくつかの実施態様では、訓練対象の第１のコホート中の各それぞれの訓練対象に対応する第２のそれぞれの遺伝子型データ構成体に対して、確率サンプリングは、第１のそれぞれの遺伝子型構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメントのそれぞれの第１の部分と、それぞれのスパイクイン遺伝子型データ構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメントのそれぞれの第２の部分とを選択し、かつ核酸フラグメントのそれぞれの第１の部分及び核酸フラグメントのそれぞれの第２の部分の大きさは、少なくとも（ｉ）第１の時点と第２の時点との間の時間の長さ、及び（ｉｉ）疾患状況の第１の状態から疾患状況の第２の状態の発展に対する時間的モデルに基づいて決定される。

いくつかの実施態様において、疾患状況の第１の状態から疾患状況の第２の状態の発展に対する時間的モデルは、それぞれの対象の個人的特徴に少なくとも基づく。

いくつかの実施態様において、疾患状況はがんであり、かつ、がんの第１の状態からのがんの第２の状態の発展に対する時間的モデルは、少なくともがんのタイプに基づく。

いくつかの実施態様において、疾患状況はがんであり、がんの第１の状態からのがんの第２の状態の発展に対する時間的モデルは、がんが転移性であるか又は非転移性であるかに少なくとも基づく。

いくつかの実施態様において、疾患状況はがんであり、かつ、がんの第１の状態からがんの第２の状態の発展に対する時間的モデルは、ステージに分離される。

いくつかの実施態様において、時間的分類器は、ロジスティック回帰アルゴリズムである。

いくつかの実施態様において、時間的分類器は、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである。

いくつかの実施態様において、時間的分類器は、リカレントニューラルネットワークである。

いくつかの実施態様において、本方法は、Ｄ）電子フォームで、テスト対象に対して、テスト時系列データセットを取得するステップであって、テスト時系列データセットが、複数の時点中の各それぞれの時点に対して、それぞれの時点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備える対応するテスト遺伝子型データ構成体と、複数の時点中の各それぞれの連続する時点の対に対して、それぞれの連続する時点の対の間の時間の長さの表示とを備える、ステップ、及びＥ）テスト時系列データセットを時間的分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップ、を更に備える。

本開示の別の態様は、テスト対象における疾患状況を判別する方法を提供し、この方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも１つのプログラムが、以下のための命令を備えることを備える。Ａ）電子フォームで、テスト対象に対するテスト時系列データセットを取得するステップであって、テスト時系列データセットが、複数の時点中の各それぞれの時点に対して、それぞれの時点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のテスト遺伝子型特性についての値を備えるそれぞれのテスト遺伝子型データ構成体と、複数の時点中の各それぞれの連続する時点の対に対して、それぞれの連続する時点の対の間の時間の長さの指標と、を備えるステップ、及びＢ）テスト時系列データセットを、訓練方法の１つに従って訓練された分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップであって、複数のテスト遺伝子型特性は、分類器がそれに対して訓練された複数の遺伝子型特性を備えるステップ。

いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプルは、液体生体サンプルである。

いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプル中の核酸フラグメントは、無細胞ＤＮＡである。

本開示の別の態様は、疾患状況の状態のセットの中から、テスト対象の疾患状況の状態を判別するための時間的分類アルゴリズムを訓練する方法を提供し、方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも１つのプログラムが、以下のための命令を備えることを備える。Ａ）電子フォームで、複数の訓練対象中の各それぞれの訓練対象に対して、（１）それぞれの訓練対象に対するそれぞれの第１の遺伝子型データ構成体であって、それぞれの第１の遺伝子型データ構成体は、それぞれの第１の時点においてそれぞれの訓練対象から得られた第１の生体サンプル中の第１のそれぞれの複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、第１の遺伝子型データ構成体、（２）それぞれの訓練対象に対するそれぞれの第２の遺伝子型データ構成体であって、それぞれの第２の遺伝子型データ構成体は、それぞれの第１の時点の後に起こるそれぞれの第２の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性についての値を備える、第２の遺伝子型データ構成体、（３）それぞれの第１の時点及びそれぞれの第２の時点、又はその派生物、並びに（４）それぞれの訓練対象のそれぞれの第１の時点及びそれぞれの第２の時点における疾患状況のセット中の疾患状況の表示、を備えるトレーニングデータセットを取得するステップ；Ｂ）それぞれの訓練対象に対して、少なくとも（ａ）それぞれの第１の遺伝子型データ構成体、（ｂ）それぞれの第２の遺伝子型データ構成体、（ｃ）それぞれの第１の時点及びそれぞれの第２の時点、又はその派生物、並びに（ｄ）それぞれの第１の時点及びそれぞれの第２の時点における、疾患状況の表示であって、複数の訓練対象中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第２の遺伝子型データ構成体が、それぞれの訓練対象から得られた第２の生体サンプルからのそれぞれの第２の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第３の複数の核酸フラグメント、からの複数の遺伝子型特性についての値を備える、疾患状況の表示、に対して、時間的分類アルゴリズムを訓練するステップ。

いくつかの実施態様では、訓練するステップＢ）は、それぞれの訓練対象の１つ以上の個人的特徴を使用する。

いくつかの実施態様では、トレーニングデータセットは、複数の訓練対象中の各それぞれの訓練対象に対して、以下を更に含む：（５）それぞれの第２の時点の後に起こるそれぞれの第３の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性についての値を備える、それぞれの訓練対象についてのそれぞれの第３の遺伝子型データ構成体、（６）それぞれの第３の時点、又はそれぞれの第２の時点とそれぞれの第３の時点との導出、並びに（７）それぞれの訓練対象の、それぞれの第３の時点における、疾患状況の状態のセット中の疾患状況の状態の表示；時間的分類アルゴリズムは、（ｂ１）それぞれの第３の遺伝子型データ構成体、（ｃ１）それぞれの第３の時点、又はそれぞれの第２の時点及びそれぞれの第２の時点の派生物、並びに（ｄ１）それぞれの第３の時点におけるそれぞれの訓練対象の疾患状況の状態のセット中の疾患状況の状態の表示に対して更に訓練され、かつ複数の訓練対象中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第３の遺伝子型データ構成体は、それぞれの訓練対象から得られた第３の生体サンプルからのそれぞれの第４の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態を有するスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第５の複数の核酸フラグメント、からの複数の遺伝子型特性についての値を備える。

いくつかの実施態様において、それぞれの第２の複数の核酸フラグメント及びそれぞれの第４の複数の核酸フラグメントは、それぞれの訓練対象から得られた同じ生体サンプルからの同じ無細胞核酸である。

いくつかの実施態様において、それぞれの第３の複数の核酸フラグメント及びそれぞれの第５の複数の核酸フラグメントは、スパイクイン対象から得られた同じスパイクイン生体サンプルからの同じ無細胞核酸である。

いくつかの実施態様において、それぞれの第３の複数の核酸フラグメント及びそれぞれの第５の複数の核酸フラグメントは、スパイクイン対象から得られた同じスパイクイン生体サンプルからの同じ無細胞核酸であり、それぞれの第２の遺伝子型データ構成体中の複数の遺伝子型特性についての値は、（ｉ）それぞれの第２の複数の核酸フラグメントの複数の遺伝子型特性についての値と（ｉｉ）それぞれの第３の複数の核酸フラグメントの複数の遺伝子型特性についての値とのそれぞれの第１の重み混合物を備え、それぞれの第３の遺伝子型データ構成体中の複数の遺伝子型特性についての値は、（ｉ）それぞれの第２の複数の核酸フラグメントの複数の遺伝子型特性についての値と（ｉｉ）それぞれの第３の複数の核酸フラグメントの複数の遺伝子型特性についての値とのそれぞれの第２の重み混合物を備え、かつそれぞれの第２の重み混合物は、それぞれの第１の重み混合物よりもそれぞれの第３の複数の核酸フラグメントの複数の遺伝子型特性についての値に向けてより大きく重み付けされる。

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象のそれぞれの訓練対象に対して、それぞれの第３の複数の核酸フラグメントは、それぞれの第２の時点の後に起こるそれぞれの第３の時点においてそれぞれの訓練対象から得られた生体サンプル中の無細胞核酸である。

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象のそれぞれの訓練対象に対して、スパイクイン対象は、それぞれの訓練対象とは異なる対象である。

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象のそれぞれの訓練対象に対して、スパイクイン対象は、共有される個人的特徴に基づいてそれぞれの訓練対象にマッチングされる。

いくつかの実施態様において、疾患状況は、がんである。

いくつかの実施態様において、がんの状態のセット中の第１の状態は、がんの存在であり、がんの状態のセット中の第２の状態は、がんの非存在である。

いくつかの実施態様において、がんの状態のセット中の第１の状態は、第１のがんのタイプであり、がんの状態の集セット中の第２の状態は、第２のがんのタイプである。

いくつかの実施態様において、がんの状態のセット中の第１の状態は、特定のがんの第１のステージであり、がんの状態のセット中の第２の状態は、特定のがんの第２のステージである。

いくつかの実施態様において、がんの状態のセット中の第１の状態は、がんの第１の予後であり、がんの状態のセット中の第２の状態は、がんの第２の予後である。

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象について、それぞれの訓練対象は、それぞれの第１の時点においてがんに罹患しておらず、それぞれの訓練対象についてのそれぞれの第２の遺伝子型データ構成体は、それぞれの第２の時点においてがんを有するそれぞれの訓練対象の代表であり、かつスパイクイン対象は、スパイクイン生体サンプルが得られたときに少なくとも第２のステージのがんに罹患している。

いくつかの実施態様において、心血管疾患の状態のセット中の第１の状態は、心血管疾患の存在であり、かつ心血管疾患のセット中の第２の状態は、心血管疾患の非存在である。

いくつかの実施態様において、心血管疾患の状態のセット中の第１の状態は、心血管疾患に対する第１の予後であり、かつ心血管疾患の状態のセット中の第２の状態は、心血管疾患に対する第２の予後である。

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象について、それぞれの訓練対象は、それぞれの第１の時点において心血管疾患に罹患しておらず、それぞれの訓練対象についてのそれぞれの第２の遺伝子型データ構成体は、それぞれの第２の時点における心血管疾患を有するそれぞれの訓練対象の代表であり、かつスパイクイン対象は、スパイクイン生体サンプルが得られたときに心血管疾患に罹患している。

いくつかの実施態様において、各生体サンプルは、液体生体サンプルである。

いくつかの実施態様では、対応する生体サンプル中の複数の核酸フラグメントは、無細胞ＤＮＡである。

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象について、それぞれの第２の遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対する、（ｉ）第２の複数の核酸フラグメント中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメント、及び（ｉｉ）第３の複数の核酸フラグメント中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメント、の確率サンプリングに由来する増強値を備える。

いくつかの実施態様において、確率サンプリングは、それぞれの第２の複数の核酸フラグメント及びそれぞれの第３の複数の核酸フラグメントの各々に対して、複数の遺伝子型特性の対応する値に寄与する対応する複数の核酸フラグメントの所定の部分の重みランダムサンプリングを備え、対応する遺伝子型特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に関する対応する遺伝子型特性に寄与する核酸フラグメントの存在量に比例する。

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象中の各それぞれの訓練対象に対応するそれぞれの第２の遺伝子型データ構成体について、確率サンプリングが、複数の遺伝子型特性についての値に寄与するそれぞれの第２の複数の核酸フラグメントのそれぞれの第１の部分と、複数の遺伝子型特性についての値に寄与するそれぞれの第３の複数の核酸フラグメントのそれぞれの第２の部分とを選択し、かつ核酸フラグメントのそれぞれの第１の部分及び核酸フラグメントのそれぞれの第２の部分の大きさは、少なくとも（ｉ）第１の時点と第２の時点との間の時間の長さ、及び（ｉｉ）疾患状況の状態のセット中の、スパイクイン対象が罹患している疾患状況のそれぞれの状態の発展に対する時間モデルに基づいて、決定される。

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象中の各それぞれの訓練対象に対して、それぞれの第２の遺伝子型データ構成体は、ｉ）第２の生体サンプルからの第２の複数の核酸フラグメントの第１の量と、スパイクイン生体サンプルからの無細胞核酸の第２の量とを一緒に混合し、それによって無細胞核酸の混合物を形成するステップ、ｉｉ）無細胞核酸の混合物からの核酸フラグメントをシークエンシングするステップ、及びｉｉｉ）シークエンシングするステップｉｉ）に基づいて複数のゲノム特性についての値を決定するステップ、によって形成される。

いくつかの実施態様において、第１の量及び第２の量は、少なくとも（ｉ）第１の時点と第２の時点との間の時間の長さ、及び（ｉｉ）疾患状況の状態のセット中の、スパイク対象が罹患している疾患状況のそれぞれの状態の発展に対する時間的モデル、に基づいて、決定される。

いくつかの実施態様において、疾患状況のそれぞれの第２の状態の発展に対する時間的モデルは、それぞれの訓練対象の個人的特徴に少なくとも基づく。

いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発展に対する時間的モデルは、少なくともがんのタイプに基づく。

いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発展に対する時間的モデルは、がんが転移性であるか又は非転移性であるかに少なくとも基づく。

いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発展に対する時間的モデルは、ステージに分離される。

いくつかの実施態様において、本方法は更に以下を備える：Ｃ）電子フォームで、テスト対象について、テスト時系列データセットを取得するステップであって、テスト時系列データセットが、複数の時点中の各それぞれの時点に対する、それぞれの時点におけるテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備える対応するテスト遺伝子型データ構成体と、複数の時点中の各それぞれの連続する時点の対に対する、それぞれの連続する時点の対の間の時間の長さの表示と、を備えるステップ；Ｄ）テスト時系列データセットを時間的分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップ。

いくつかの実施態様では、適用するステップＤ）の前に、テスト対象は、以前に疾患状況と診断されていない。

本開示の別の態様は、テスト対象における疾患状況を判別する方法を提供し、この方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも１つのプログラムが、以下のための命令を備えることを備える：Ａ）電子フォームで、テスト対象についてのテスト時系列データセットを取得するステップであって、テスト時系列データセットは、複数の時点中の各それぞれの時点に対する、それぞれの時点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備える対応するテスト遺伝子型データ構成体と、複数の時点中の各それぞれの連続する時点の対に対する、それぞれの連続する時点の対の間の時間の長さを示す表示と、を備えるステップ；Ｂ）テスト時系列データセットを、請求項９６～１３８のいずれか１項に記載の方法に従って訓練された分類器に適用して、それによってテスト対象における疾患状況の状態を判定するステップであって、複数のテスト遺伝子型特性は、分類器がそれに対して訓練された複数の遺伝子型特性を備える、ステップ。

いくつかの実施態様において、テスト対象から得られた各生体サンプル中の核酸フラグメントは、無細胞ＤＮＡである。

本開示の別の態様は、テスト対象における疾患状況を判別するために訓練された分類器の性能を査定する方法を提供し、本方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも１つのプログラムが、以下のための命令を備えることを備える：Ａ）テスト遺伝子型データ構成体を評価することによって、疾患状況を判別するように訓練された第１の分類器を得るステップであって、テスト遺伝子型データ構成体は、テスト対象から得られた第１の対応する生体サンプル中の対応する第１の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、ステップ；Ｂ）複数の増強された遺伝子型データ構成体を備える増強された評価データセットを取得するステップであって、複数の増強された遺伝子型データ構成体中の各それぞれの増強された遺伝子型データ構成体は、疾患状況の複数の状態中のそれぞれの疾患状況の状態を有する対象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、増強された評価データセットは、複数の増強された遺伝子型データ構成体中の複数の疾患状況の状態中の各それぞれの疾患状況の状態の代表的なそれぞれの増強された遺伝子型データ構成体を含む、ステップ；Ｃ）各それぞれの増強された遺伝子型データ構成体に対して疾患状態分類を生成するために、増強された評価データセット中の各それぞれの増強された遺伝子型データ構成体を分類器に独立して適用し、それによって複数の疾患状態分類を生成するステップ；Ｄ）複数の疾患状態分類中のそれぞれの疾患状態分類を、対応する増強された遺伝子型データ構成体によって表されるそれぞれの疾患状況の状態の関数として評価し、それによって分類器の性能を査定する、ステップ。

本開示の別の態様は、テスト対象における疾患状況を判別するために訓練された分類器の性能を査定する方法を提供し、本方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも１つのプログラムが、以下のための命令を備えることを備える：Ａ）テスト遺伝子型データ構成体を評価することによって、疾患状況を判別するように訓練された第１の分類器を得るステップであって、テスト遺伝子型データ構成体は、テスト対象から得られた第１の対応する生体サンプル中の対応する第１の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、ステップ；Ｂ）複数の増強された遺伝子型データ構成体を備える増強された査定データセットを得るステップであって、複数の増強された遺伝子型データ構成体中の各それぞれの増強された遺伝子型データ構成体は、複数の疾患状況の状態中のそれぞれの疾患状況の状態を有する対象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、増強された査定データセットは、複数の増強された遺伝子型データ構成体中の、複数の疾患状況の状態中の各それぞれの疾患状況の状態の代表であるそれぞれの増強された遺伝子型データ構成体を含み、増強された査定データセットは、先の方法のいずれかによる方法によって取得される、ステップ；Ｃ）それぞれの増強された遺伝子型データ構成体について疾患状態分類を生成するために、増強された評価データセット中の各それぞれの増強された遺伝子型データ構成体を分類器に独立して適用し、それによって複数の疾患状態分類を生成するステップ；Ｄ）複数の疾患状態分類中の各それぞれの疾患状態分類を、対応する増強された遺伝子型データ構成体によって表されるそれぞれの疾患状況の状態の関数として評価し、それによって分類器の性能を査定する、ステップ。

いくつかの実施態様において、分類器は、ロジスティック回帰アルゴリズムである。

いくつかの実施態様において、分類器は、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである。

いくつかの実施態様において、疾患状況は、がんである。

いくつかの実施態様において、がんの複数の状態中の各状態は、少なくとも、分類器の検出レベルより少なくとも２５％下回る無細胞ＤＮＡ腫瘍分画のベースラインパーセンテージから分類器の検出レベルより少なくとも２５％上回る無細胞ＤＮＡ腫瘍分画の上限パーセンテージにまたがる無細胞ＤＮＡ腫瘍分画の範囲内の、無細胞ＤＮＡ腫瘍分画のサブ範囲を備える。

いくつかの実施態様において、心血管疾患の複数の状態中の各状態は、少なくとも、分類器の検出レベルを少なくとも２５％下回る無細胞ＤＮＡ心血管組織画分のベースラインパーセンテージから分類器の検出レベルを少なくとも２５％上回る無細胞ＤＮＡ心血管組織分画の上限パーセンテージにまたがる無細胞ＤＮＡ心血管組織分画の範囲内の、無細胞ＤＮＡ心血管組織分画のサブ範囲を備える。

いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって、得られる。

いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメントの複数の遺伝子型特性についての値は、（ｉ）全ゲノムメチル化シークエンスシング又は（ｉｉ）複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するために複数の核酸プローブを使用する標的ＤＮＡメチル化シークエンシングによって、得られる。

ＶＩＩ．追加の考慮事項

前述の実施態様の詳細な説明は、本開示の特定の実施態様を示す添付の図面を参照したものである。異なる構造及び動作を有する他の実施態様は、本開示の範囲から逸脱しない。「本発明」等の用語は、本明細書で明らかにされた出願人の発明の多くの代替的な側面又は実施態様の特定の具体例を参照して使用され、その使用又はその欠落は、出願人の発明の範囲又は請求項の範囲を制限することを意図していない。

本発明の実施態様は、本明細書における操作を行うための装置に関するものであってもよい。この装置は、必要な目的のために特別に構成されてもよく、及び／又は、コンピュータに格納されたコンピュータプログラムによって選択的にアクティブ化又は在再構成される汎用のコンピューティングデバイスを備えてもよい。このようなコンピュータプログラムは、非一過性の有形のコンピュータ可読記憶媒体、又は電子命令を格納するのに適した任意のタイプの媒体に格納してもよく、この媒体はコンピュータシステムバスに結合されてもよい。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含んでもよく、又はコンピューティング能力を高めるためにマルチプルプロセッサ設計を採用したアーキテクチャであってもよい。

分析システムによって行われるものとして本明細書に記載されたステップ、操作、又はプロセスのいずれかが、単独で、若しくは他のコンピューティングデバイスと組み合わせて、装置の１つ以上のハードウェア又はソフトウェアモジュールで実施若しくは実装されてもよい。一実施態様において、ソフトウェアモジュールは、説明されたステップ、操作、又はプロセスのいずれか若しくはすべてを行うためにコンピュータプロセッサによって実行することができるコンピュータプログラムコードを包含するコンピュータ可読媒体を備えるコンピュータプログラム製品で実装される。

Claims

がんを検出するためのモデルを訓練する方法であって、該方法は：
複数のトレーニングサンプルのシークエンシングデータを受信するステップであって、各トレーニングサンプルはがん及び非がんのうちの１つとしてラベルされ、かつ各トレーニングサンプルは複数の異常なｃｆＤＮＡフラグメントを備える、ステップと；
がんとしてラベルされた第１のトレーニングサンプル及び非がんとしてラベルされた第２のトレーニングサンプルをサンプリングするステップと；
前記第１のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第１のサブセット、及び前記第２のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第２のサブセットをサンプリングすることによって、第１の合成トレーニングサンプルを生成するステップであって、前記第１の合成トレーニングサンプルはがんとしてラベルされる、ステップと；各トレーニングサンプルの前記複数の異常なｃｆＤＮＡフラグメントに基づいて、前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの各々について特徴ベクトルを生成するステップと；
前記特徴ベクトル及び前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの前記ラベルを用いて前記モデルを訓練するステップであって、前記モデルは、前記テストサンプルのシークエンシングデータに基づいてテストサンプルに対するがん予測を生成するように構成される、ステップと；
を備える、方法。
請求項１に記載の方法であって、前記第１の合成トレーニングサンプルを生成するステップは：
複数のゲノム領域の各ゲノム領域に対して、前記ゲノム領域に重なる前記第１のトレーニングサンプルから異常なｃｆＤＮＡフラグメントを第１のサンプリング確率でサンプリングし、かつ前記ゲノム領域に重なる前記第２のトレーニングサンプルから異常なｃｆＤＮＡフラグメントを前記第１のサンプリング確率に対して相補的である第２のサンプリング確率でサンプリングするステップ；
を備える、方法。
請求項２に記載の方法であって、前記第１のサンプリング確率及び前記第２のサンプリング確率は、前記訓練されたモデルの検出限界に従って設定される、方法。
請求項１に記載の方法であって、前記方法は：
非がんとしてラベルされた第３のトレーニングサンプルをサンプリングするステップと；
前記第１のサブセットとは異なる前記第１のトレーニングサンプルからの異常なｃｆＤＮＡフラグメントの第３のサブセット、及び前記第３のトレーニングサンプルからの異常なｃｆＤＮＡフラグメントの第４のサブセットをサンプリングすることによって、第２の合成トレーニングサンプルを生成するステップであって、前記第２の合成トレーニングサンプルはがんとしてラベルされる、ステップと；
前記第２の合成トレーニングサンプルの前記複数の異常なｃｆＤＮＡフラグメントに基づいて、前記第２の合成トレーニングサンプルに対する第２の特徴ベクトルを生成するステップと；
を更に備え、
前記モデルを、前記第２の特徴ベクトル及び前記第２の合成トレーニングサンプルの前記ラベルを用いて更に訓練する、
方法。
請求項１に記載の方法であって、前記方法は：
がんとしてラベルされた第３のトレーニングサンプル、及び非がんとしてラベルされた第４のトレーニングサンプルをサンプリングするステップと；
前記第３のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第３のサブセット、及び前記第４のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第４のサブセットをサンプリングすることによって、第２の合成トレーニングサンプルを生成するステップであって、前記第２の合成トレーニングサンプルはがんとしてラベルされる、ステップと；
前記第２の合成トレーニングサンプルの前記複数の異常なｃｆＤＮＡフラグメントに基づいて、前記第２の合成トレーニングサンプルに対する第２の特徴ベクトルを生成するステップと；
を更に備え、
前記モデルを、前記第２の特徴ベクトル及び前記第２の合成トレーニングサンプルのラベルを用いて更に訓練する、
方法。
請求項５に記載の方法であって、前記第１のトレーニングサンプル及び前記第１の合成トレーニングサンプルは、第１のがんタイプのラベルを有し、かつ前記第３のトレーニングサンプル及び前記第２の合成トレーニングサンプルは、第２のがんタイプのラベルを有する、方法。
請求項１に記載の方法であって、特徴ベクトルの各特徴は、複数のＣｐＧ部位のＣｐＧ部位に対応し、前記トレーニングサンプルの各々に対する特徴ベクトルを生成するステップは：
各異常なｃｆＤＮＡフラグメントに対して、前記異常なｃｆＤＮＡフラグメントの複数のＣｐＧ部位における複数のメチル化状態に確率モデルを適用することによって、異常なｃｆＤＮＡフラグメントががん生体サンプルに由来する尤度を決定するステップと；
前記特徴に対応する前記ＣｐＧ部位と重なり、かつ閾値尤度を上回る尤度を有する異常なｃｆＤＮＡフラグメントのカウントに従って、前記特徴ベクトルの各特徴を決定するステップと；
を備える方法、
請求項７に記載の方法であって、各特徴ベクトルは、前記トレーニングサンプルのシークエンス深度に従って正規化される、方法。
請求項１に記載の方法であって、前記方法は：
異常なフラグメントのセットを生成するために、ｐ値フィルタリングによる各トレーニングサンプルのｃｆＤＮＡフラグメントの初期セットをフィルタリングするステップであって、前記フィルタリングは、他のフラグメントに関して閾値を下回るｐ値を有するフラグメントを前記初期セットから除去し、異常なフラグメントの前記セットを作り出すことを備える、ステップ；
を更に備える、方法。
請求項１記載の方法であって、前記訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである、方法。
システムであって、該システムは：
コンピュータプロセッサと；
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項１～１０のいずれかの方法を行なわせる命令を格納する非一時的コンピュータ可読記憶媒体と；
を備える、システム。
がんを検出するための方法であって、該方法は：
複数の異常なｃｆＤＮＡフラグメントを含むテストサンプルのシークエンシングデータを受信するステップと；
前記テストサンプルの前記異常なｃｆＤＮＡフラグメントに基づいて、テスト特徴ベクトルを生成するステップと；
前記テスト特徴ベクトルを分類モデルに入力し、テストサンプルについてのがん予測を生成するステップであって、前記分類モデルを、
複数のトレーニングサンプルのシークエンシングデータを受信するステップであって、各トレーニングサンプルはがん及び非がんのうちの１つとしてラベルされ、各トレーニングサンプルは複数の異常なｃｆＤＮＡフラグメントを含む、ステップ、
がんとしてラベルされた第１のトレーニングサンプルと非がんとしてラベルされた第２のトレーニングサンプルとをサンプリングするステップ、
前記第１のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第１のサブセットと、前記第２のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第２のサブセットとをサンプリングすることによって、第１の合成トレーニングサンプルを生成するステップであって、前記第１の合成トレーニングサンプルはがんとしてラベルされる、ステップ、
各トレーニングサンプルの前記複数の異常なｃｆＤＮＡフラグメントに基づいて、前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの各々に対する特徴ベクトルを生成するステップ、並びに
前記特徴ベクトル、及び前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの前記ラベルを用いて、前記モデルを訓練するステップ、
によって訓練する、ステップと；
を備える、方法。
請求項１２に記載の方法であって、前記がん予測は、がんと非がんとの間の二値予測である、方法。
請求項１２に記載の方法であって、前記がん予測は、複数のがんタイプ間のマルチクラスがん予測である、方法。
請求項１２に記載の方法であって、特徴ベクトルの各特徴は、複数のＣｐＧ部位のＣｐＧ部位に対応し、かつ前記トレーニングサンプルの各々に対する特徴ベクトルを生成するステップは：
各異常なｃｆＤＮＡフラグメントに対して、前記異常なｃｆＤＮＡフラグメントの複数のＣｐＧ部位における複数のメチル化状態に確率モデルを適用することによって、前記異常なｃｆＤＮＡフラグメントががん生体サンプルに由来する尤度を決定するステップと；
前記特徴に対応する前記ＣｐＧ部位と重なり、かつ閾値尤度を上回る尤度を有する異常なｃｆＤＮＡフラグメントのカウントに従って、前記特徴ベクトルの各特徴を決定するステップと；
を備える、方法。
請求項１５に記載の方法であって、各特徴ベクトルは、前記トレーニングサンプルのシークエンス深度に従って正規化される、方法。
請求項１２に記載の方法であって、前記前記分類モデルを：
異常なフラグメントのセットを生成するために、ｐ値フィルタリングによる各トレーニングサンプルのｃｆＤＮＡフラグメントの初期セットをフィルタリングするステップであって、前記フィルタリングは、他のフラグメントに関して閾値を下回るｐ値を有するフラグメントを前記初期セットから除去して異常なフラグメントの前記セットを生成することを備える、ステップ；
によって更に訓練する、方法。
システムであって、該システムは：
コンピュータプロセッサと；
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項１２～１７のいずれかの方法を行なわせる命令を格納する非一時的コンピュータ可読記憶媒体と；
を備える、システム。