JP7448310B2

JP7448310B2 - セルフリー核酸のフラグメントームプロファイリングのための方法

Info

Publication number: JP7448310B2
Application number: JP2018568937A
Authority: JP
Inventors: ダイアナアブドゥエヴァ，
Original assignee: ガーダントヘルス，インコーポレイテッド
Priority date: 2016-07-06
Filing date: 2017-07-06
Publication date: 2024-03-12
Anticipated expiration: 2037-07-06
Also published as: EP3481966A1; EP4322168A2; JP2022025101A; KR102610098B1; SG11201811556RA; AU2017292854A1; AU2017292854B2; MX2019000037A; CA3030038A1; EP3481966A4; KR20190026837A; BR112019000296A2; JP2019531700A; WO2018009723A1; CN109689891A; EP3481966B1; ES2967443T3

Description

相互参照
本出願は、２０１６年７月６日に出願された米国仮出願番号第６２／３５９，１５１号、２０１６年１１月１０日に出願された米国仮出願番号第６２／４２０，１６７号、２０１６年１２月２１日に出願された米国仮出願番号第６２／４３７，１７２号、および２０１７年４月２４日に出願された米国仮出願番号第６２／４８９，３９９号に基づく優先権を主張しており、これら出願の各々は、参考として本明細書中に全体が援用される。

背景
セルフリー核酸（例えば、ＤＮＡまたはＲＮＡ）のがん診断アッセイに関する現行の方法は、一塩基バリアント（ＳＮＶ）、コピー数多様性（ＣＮＶ）、融合、およびインデル（すなわち、挿入または欠失）を含む腫瘍関連体細胞バリアントの検出に重点を置いており、これらは全てリキッドバイオプシーの主流の標的である。ヌクレオソームポジショニングの結果として生じる新しいタイプの構造バリアントを同定して、腫瘍関連情報に関して測定し、これを体細胞変異コールと組み合わせると、いずれかのアプローチ単独から得ることができる場合よりはるかに包括的な腫瘍ステータスの評価を生じることができるという証拠が増えつつある。クロマチン構成によって影響を受ける核酸断片分布の基礎となる非ランダムパターンを解析することによって、この一組の新規構造バリアントを、体細胞バリアントとは独立して試料中に観察することができ、実際に、体細胞バリアントが検出されない試料中でも観察することができる。

要旨
ヌクレオソームポジショニングは、遺伝子発現の後成的（ｅｐｉｇｅｎｅｔｉｃ）制御に寄与し、非常に組織特異性であり、様々な表現型の状況を示す重要なメカニズムである。本開示は、セルフリー核酸（例えば、ｃｆＤＮＡ）を使用してヌクレオソームプロファイリングを実施するための方法、システム、および組成物を記載する。これを使用して、新しいドライバー遺伝子を同定すること、コピー数多様性（ＣＮＶ）を決定すること、体細胞変異ならびに融合およびインデルなどの構造多様性を同定すること、ならびに上記の多様性のいずれかを検出するための多重アッセイにおいて使用できる領域を同定することができる。

本開示は、セルフリー核酸（例えば、ＤＮＡまたはＲＮＡ）の様々な使用を提供する。そのような使用は、疾患（例えば、がん）などの健康状態を有するまたは有することが疑われる対象を検出する、モニターする、および対象の処置を決定するステップを含む。本明細書に提供する方法は、起源組織、疾患、進行等を表すことができるフラグメントームプロファイルを評価するために、体細胞バリアント情報を伴うまたは伴うことなく、配列情報をマクロスケールで包括的に使用しうる。

一態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を決定するためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのＤＮＡ断片のマルチパラメトリック分布を構築するステップ、および（ｂ）対象の第１の座遺伝子座における遺伝子異常の存在または非存在を決定するために、第１の遺伝子座における各塩基位置の塩基同一性を考慮に入れることなく、マルチパラメトリック分布を使用するステップを含む方法を開示する。

一部の実施形態では、遺伝子異常は、配列異常を含む。一部の実施形態では、配列異常は、一塩基バリアント（ＳＮＶ）を含む。一部の実施形態では、配列異常は、挿入もしくは欠失（インデル）、または遺伝子融合を含む。一部の実施形態では、配列異常は、（ｉ）一塩基バリアント（ＳＮＶ）、（ｉｉ）挿入または欠失（インデル）、および（ｉｉｉ）遺伝子融合からなる群から選択される２つまたはそれより多くの異なるメンバーを含む。一部の実施形態では、遺伝子異常は、コピー数多様性（ＣＮＶ）を含む。

一部の実施形態では、マルチパラメトリック分布は、ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の長さを示すパラメータを含む。一部の実施形態では、マルチパラメトリック分布は、ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の数を示すパラメータを含む。一部の実施形態では、マルチパラメトリック分布は、ゲノムの複数の塩基位置の各々で開始または終止するＤＮＡ断片の数を示すパラメータを含む。一部の実施形態では、マルチパラメトリック分布は、（ｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止するＤＮＡ断片の数のうちの２つまたはそれより多くを示すパラメータを含む。一部の実施形態では、マルチパラメトリック分布は、（ｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止するＤＮＡ断片の数を示すパラメータを含む。

一部の実施形態では、上記分布を使用するステップは、コンピュータによって、マルチパラメトリック分布を、ゲノムの複数の塩基位置でのＤＮＡ断片の複数の他のマルチパラメトリック分布の入力を有する分類器に適用することであって、他のマルチパラメトリック分布が、（ａ）組織特異的がんを有する対象、（ｂ）特定のステージのがんを有する対象、（ｃ）炎症状態を有する対象、（ｄ）がんに対して無症候性であるが、がんへと進行する腫瘍を有する対象、および（ｅ）治療に対して陽性または陰性の応答を有する対象から選択される群から得られることを含む。

一部の実施形態では、分類器は、機械学習エンジンを含む。一部の実施形態では、分類器は、ゲノムの１つまたは複数の遺伝子座で一組の遺伝子バリアントの入力をさらに含む。一部の実施形態では、一組の遺伝子バリアントは、報告された腫瘍マーカーの１つまたは複数の遺伝子座を含む。

一部の実施形態では、方法は、分布スコアを決定するために、マルチパラメトリック分布を使用するステップをさらに含む。一部の実施形態では、分布スコアは、遺伝子異常の変異負荷を示している。一部の実施形態では、分布スコアは、ジヌクレオソーム保護を有するＤＮＡ断片の数、およびモノヌクレオソーム保護を有するＤＮＡ断片の数のうちの１つまたは複数を示す値を含む。

一部の実施形態では、方法は、マルチモーダル密度を推定するために、マルチパラメトリック分布を使用するステップ、および遺伝子異常の存在または非存在を決定するために、マルチモーダル密度を使用するステップをさらに含む。一部の実施形態では、マルチモーダル密度を使用するステップは、マルチモーダル密度から識別スコアを生成すること、および識別スコアをカットオフ値と比較して遺伝子異常の存在または非存在を決定することを含む。一部の実施形態では、方法は、残差密度推定値を計算することによって遺伝子異常に関連する遺伝子の発現を推定するステップをさらに含む。一部の実施形態では、方法は、モノヌクレオソームにおける残差密度を計算することによって遺伝子異常に関連する遺伝子のコピー数を推定するステップをさらに含む。

別の態様では、本明細書において、試験対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片を使用して、試験対象における遺伝子異常を決定するためのコンピュータ実行分類器であって、（ａ）複数の対象の各々から得た１つまたは複数のセルフリーＤＮＡ集団の各々に関する一組の分布スコアの入力であって、各々の分布スコアが、（ｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止するＤＮＡ断片の数のうちの少なくとも１つまたは複数に基づいて生成される、入力、ならびに（ｂ）試験対象における１つまたは複数の遺伝子異常の分類の出力を含む分類器を開示する。

一部の実施形態では、分類器は、機械学習エンジンをさらに含む。一部の実施形態では、分類器は、ゲノムの１つまたは複数の遺伝子座で一組の遺伝子バリアントの入力をさらに含む。一部の実施形態では、一組の遺伝子バリアントは、報告された腫瘍マーカーの１つまたは複数の遺伝子座を含む。

別の態様では、本明細書において、試験対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片を使用して試験対象における遺伝子異常を決定するためのコンピュータ実行方法であって、（ａ）試験対象から得たセルフリーＤＮＡからのＤＮＡ断片を使用して、試験対象における遺伝子異常を決定するように構成されているコンピュータ実行分類器を提供するステップであって、分類器が訓練セットを使用して訓練される、ステップ、（ｂ）試験対象に関する一組の分布スコアを、分類器に入力として提供するステップであって、各々の分布スコアが、（ｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止するＤＮＡ断片の数のうちの１つまたは複数を示す、ステップ、ならびに（ｃ）分類器を使用するステップであって、コンピュータによって、試験対象における遺伝子異常の分類を生成するステップを含む方法を開示する。

一部の実施形態では、方法は、（ａ）の前に、（ｉ）（１）複数の対照対象の各々からの１つまたは複数のセルフリーＤＮＡ集団の各々に関する一組の参照分布スコアであって、各々の参照分布スコアが、（ｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止するＤＮＡ断片の数のうちの１つまたは複数を示す、一組の参照分布スコア、（２）観察された表現型を有する複数の対象の各々からの１つまたは複数のセルフリーＤＮＡ集団の各々に関する一組の表現型分布スコアであって、各々の表現型分布スコアが、（ｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止するＤＮＡ断片の数のうちの１つまたは複数を示す、一組の表現型分布スコア、（３）対照対象から得たセルフリーＤＮＡ集団の各々に関する一組の参照分類、（４）観察された表現型を有する対象から得たセルフリーＤＮＡ集団の各々に関する一組の表現型分類を含む訓練セットを提供するステップ、ならびに（ｉｉ）コンピュータによって、訓練セットを使用して分類器を訓練するステップをさらに含む。

一部の実施形態では、対照対象は、無症候性の健康な個体を含む。一部の実施形態では、観察された表現型を有する対象は、（ａ）組織特異的がんを有する対象、（ｂ）特定のステージのがんを有する対象、（ｃ）炎症状態を有する対象、（ｄ）がんに対して無症候性であるが、がんへと進行する腫瘍を有する対象、または（ｅ）治療に対して陽性もしくは陰性の応答を有するがんを有する対象を含む。

別の態様では、本明細書において、対象に由来するセルフリーデオキシリボ核酸（ＤＮＡ）断片を解析するためのコンピュータ実行方法であって、セルフリーＤＮＡ断片を表す配列情報を得るステップ、およびセルフリーＤＮＡ断片を表すマルチパラメトリックモデルを生成するために、配列情報を使用して複数のデータセットについてマルチパラメトリック解析を実施するステップであって、マルチパラメトリックモデルが３つまたはそれより多くの次元を含む、ステップを含む方法を開示する。

一部の実施形態では、データセットは、（ａ）シークエンシングしたＤＮＡ断片の開始位置、（ｂ）シークエンシングしたＤＮＡ断片の終止位置、（ｃ）マッピング可能な位置をカバーするユニークなシークエンシングしたＤＮＡ断片の数、（ｄ）シークエンシングしたＤＮＡ断片の長さ、（ｅ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたＤＮＡ断片内に出現する尤度、（ｇ）シークエンシングしたＤＮＡ断片の配列モチーフ、（ｈ）ＧＣ含有量、（ｉ）シークエンシングしたＤＮＡ断片長の分布、および（ｊ）メチル化ステータスからなる群から選択される。一部の実施形態では、配列モチーフは、ＤＮＡ断片の末端に位置する長さ２～８塩基対の配列である。一部の実施形態では、マルチパラメトリック解析は、ゲノムの複数の塩基位置または領域の各々に、（ｉ）ゲノムにおけるマッピング可能な位置をカバーする配列を含むユニークなセルフリーＤＮＡ断片の数の分布、（ｉｉ）ＤＮＡ断片がゲノムにおけるマッピング可能な位置をカバーする配列を含むように、セルフリーＤＮＡ断片の少なくとも一部の各々の断片長の分布、および（ｉｉｉ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度の分布からなる群から選択される１つまたは複数の分布をマッピングするステップを含む。一部の実施形態では、ゲノムの複数の塩基位置または領域は、表１に記載の遺伝子のうちの１つまたは複数に関連する少なくとも１つの塩基位置または領域を含む。一部の実施形態では、ゲノムの複数の塩基位置または領域の各々は、長さが２～５００塩基対の間である。一部の実施形態では、ゲノムの複数の塩基位置または領域は、（ｉ）１つまたは複数のゲノム分割マップを提供するステップ、および（ｉｉ）ゲノム分割マップからゲノムの複数の塩基位置または領域を選択するステップであって、ゲノムの各々の塩基位置または領域が目的の遺伝子にマッピングする、ステップによって同定される。一部の実施形態では、マッピングするステップは、ゲノムの複数の塩基位置または領域の各々に、複数のデータセットの各々からの複数の値をマッピングすること１を含む。一部の実施形態では、複数の値のうちの少なくとも１つは、（ａ）シークエンシングしたＤＮＡ断片の開始位置、（ｂ）シークエンシングしたＤＮＡ断片の終止位置、（ｃ）マッピング可能な位置をカバーするユニークなシークエンシングしたＤＮＡ断片の数、（ｄ）シークエンシングしたＤＮＡ断片の長さ、（ｅ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたＤＮＡ断片内に出現する尤度、または（ｇ）シークエンシングしたＤＮＡ断片の配列モチーフからなる群から選択されるデータセットである。

一部の実施形態では、マルチパラメトリック解析は、マルチパラメトリックモデルを生成するために、コンピュータによって１つまたは複数の数学的変換を適用するステップを含む。一部の実施形態では、数学的変換は、分水嶺変換を含む。一部の実施形態では、マルチパラメトリックモデルは、（ａ）シークエンシングしたＤＮＡ断片の開始位置、（ｂ）シークエンシングしたＤＮＡ断片の終止位置、（ｃ）マッピング可能な位置をカバーするユニークなシークエンシングしたＤＮＡ断片の数、（ｄ）シークエンシングしたＤＮＡ断片の長さ、（ｅ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたＤＮＡ断片内に出現する尤度、および（ｇ）シークエンシングしたＤＮＡ断片の配列モチーフからなる群から選択される複数の変数の同時分布モデルである。

一部の実施形態では、方法は、マルチパラメトリックモデルにおいて１つまたは複数のピークを同定するステップであって、各々のピークがピーク分布幅およびピークカバレッジを有する、ステップをさらに含む。一部の実施形態では、方法は、対象に存在する生殖系列または体細胞一塩基多型によって誘導される多様性を組み込むステップをさらに含む。一部の実施形態では、方法は、セルフリーＤＮＡ断片を表すマルチパラメトリックモデルと、参照マルチパラメトリックモデルとの間の１つまたは複数の逸脱を検出するステップをさらに含む。一部の実施形態では、逸脱は、（ｉ）ヌクレオソーム領域外でのリード数の増加、（ｉｉ）ヌクレオソーム領域内でのリード数の増加、（ｉｉｉ）マッピング可能なゲノム位置と比較してより広いピーク分布、（ｉｖ）ピーク位置のシフト、（ｖ）新しいピークの同定、（ｖｉ）ピークのカバレッジ深度の変化、（ｖｉｉ）ピーク周囲の開始位置の変化、および（ｖｉｉｉ）ピークに関連する断片サイズの変化からなる群から選択される。一部の実施形態では、参照マルチパラメトリックモデルは、健康な無症候性の個体から導出される。一部の実施形態では、参照マルチパラメトリックモデルは、異なる時点の対象から導出される。

一部の実施形態では、参照マルチパラメトリックモデルは、対象の腫瘍周囲の微小環境の間質組織から獲得したＤＮＡから導出される。一部の実施形態では、参照マルチパラメトリックモデルは、健康な無症候性の個体の剪断ゲノムＤＮＡから導出される。一部の実施形態では、参照マルチパラメトリックモデルは、所定の組織タイプのヌクレオソーム占有プロファイルから導出される。一部の実施形態では、組織タイプは、乳房、結腸、肺、膵臓、前立腺、卵巣、皮膚、および肝臓からなる群から選択される正常組織である。一部の実施形態では、参照マルチパラメトリックモデルは、共有する特徴を有する個体のコホートから導出される。一部の実施形態では、共有する特徴は、腫瘍タイプ、炎症状態、アポトーシス状態、壊死状態、腫瘍の再発、および処置に対する抵抗性からなる群から選択される。一部の実施形態では、アポトーシス状態は、感染症および細胞代謝回転からなる群から選択される。一部の実施形態では、壊死状態は、心血管状態、敗血症、および壊疽からなる群から選択される。

一部の実施形態では、方法は、セルフリーＤＮＡの起源である細胞におけるアポトーシスプロセスに起因するマルチパラメトリックモデルの寄与を決定するステップをさらに含む。一部の実施形態では、方法は、セルフリーＤＮＡの起源である細胞における壊死プロセスに起因するマルチパラメトリックモデルの寄与を決定するステップをさらに含む。一部の実施形態では、方法は、対象の体試料について以下のアッセイ：（ｉ）起源組織解析、（ｉｉ）遺伝子発現解析、（ｉｉｉ）転写因子結合部位（ＴＦＢＳ）占有解析、（ｉｖ）メチル化ステータス解析、（ｖ）体細胞変異の検出、（ｖｉ）検出可能な体細胞変異レベルの測定、（ｖｉｉ）生殖系列変異の検出、および（ｖｉｉｉ）検出可能な生殖系列変異レベルの測定のうちの１つまたは複数を実施するステップをさらに含む。

一部の実施形態では、方法は、セルフリーＤＮＡ断片のＲＮＡ発現を測定するために、マルチパラメトリック解析を実施するステップをさらに含む。一部の実施形態では、方法は、セルフリーＤＮＡ断片の逆メチル化を測定するために、マルチパラメトリック解析を実施するステップをさらに含む。一部の実施形態では、方法は、セルフリーＤＮＡ断片の逆ヌクレオソームマッピングを測定するために、マルチパラメトリック解析を実施するステップをさらに含む。一部の実施形態では、方法は、セルフリーＤＮＡ断片における１つまたは複数の体細胞一塩基多型の存在を同定するために、マルチパラメトリック解析を実施するステップをさらに含む。一部の実施形態では、方法は、セルフリーＤＮＡ断片における１つまたは複数の生殖系列一塩基多型の存在を同定するために、マルチパラメトリック解析を実施するステップをさらに含む。一部の実施形態では、方法は、ジヌクレオソーム保護を有するＤＮＡ断片の数および／またはモノヌクレオソーム保護を有するＤＮＡ断片の数を示す値を含む分布スコアを生成するステップをさらに含む。一部の実施形態では、方法は、対象の変異負荷を推定するステップをさらに含む。一部の実施形態では、方法は、マルチモーダル密度を推定するステップ、およびセルフリーＤＮＡ断片における１つまたは複数の遺伝子異常の存在を同定するために、マルチモーダル密度を使用するステップをさらに含む。一部の実施形態では、方法は、標準的なヌクレオソーム構造をマッピングするステップをさらに含む。一部の実施形態では、マッピングするステップは、二変量混合正規分布の位置特異的モデリングを実施することを含む。

別の態様では、本明細書において、対象に由来するセルフリーデオキシリボ核酸（ＤＮＡ）断片を解析するためのコンピュータ実行方法であって、セルフリーＤＮＡ断片を表すマルチパラメトリックモデルを得るステップ、およびマルチパラメトリックモデルを、別個のコホートを表す１つまたは複数のヌクレオソーム占有プロファイルに関連していると分類するために、コンピュータによって統計分析を実施するステップを含む方法を開示する。

一部の実施形態では、統計分析は、さらなる解析のために目的の遺伝子を表す関連するゲノム範囲を記載する１つまたは複数のゲノム分割マップを提供するステップを含む。一部の実施形態では、統計分析は、ゲノム分割マップに基づいて一組の１つまたは複数の局在化ゲノム領域を選択するステップをさらに含む。一部の実施形態では、統計分析は、一組の１つまたは複数のヌクレオソームマップ破壊を得るために、その一組における１つまたは複数の局在化ゲノム領域を解析するステップをさらに含む。一部の実施形態では、統計分析は、パターン認識、深層学習、および教師なし学習のうちの１つまたは複数を含む。一部の実施形態では、ゲノム分割マップは、（ａ）コホートにおける２人またはそれより多くの対象のセルフリーＤＮＡ集団を提供するステップ、（ｂ）試料の各々に関するマルチパラメトリックモデルを生成するために、セルフリーＤＮＡ集団の各々のマルチパラメトリック解析を実施するステップ、および（ｃ）１つまたは複数の局在化ゲノム領域を同定するために、マルチパラメトリックモデルを解析するステップによって構築される。一部の実施形態では、ヌクレオソームマップ破壊の少なくとも１つはドライバー変異に関連し、ドライバー変異は、体細胞バリアント、生殖系列バリアント、およびＤＮＡメチル化からなる群から選択される。一部の実施形態では、ヌクレオソームマップ破壊の少なくとも１つは、マルチパラメトリックモデルを、別個のコホートを表す１つまたは複数のヌクレオソーム占有プロファイルに関連していると分類するために使用される。

一部の実施形態では、局在化ゲノム領域の少なくとも１つは、約２～約２００塩基対の範囲の短いＤＮＡ領域であり、この領域は、有意な構造多様性のパターンを含む。一部の実施形態では、局在化ゲノム領域の少なくとも１つは、約２～約２００塩基対の範囲の短いＤＮＡ領域であり、この領域は、有意な構造多様性のクラスタを含む。一部の実施形態では、構造多様性は、挿入、欠失、転遺伝子座、遺伝子再構成、メチル化ステータス、マイクロサテライト、コピー数多様性、コピー数関連構造多様性、または差異を示す他の任意の多様性からなる群から選択されるヌクレオソームポジショニングの多様性である。一部の実施形態では、クラスタは、局在化ゲノム領域内のホットスポット領域であり、ホットスポット領域は、１つまたは複数の有意な変動またはピークを含む。一部の実施形態では、局在化ゲノム領域の少なくとも１つは、約２～約２００塩基対の範囲の短いＤＮＡ領域であり、この領域は、有意な不安定性パターンを含む。一部の実施形態では、１つまたは複数の局在化ゲノム領域を解析するステップは、セルフリーＤＮＡ断片を表すマルチパラメトリックモデルと、（ｉ）健康な対照の１つまたは複数のコホートに関連する１つまたは複数の健康参照マルチパラメトリックモデル、および（ｉｉ）疾患を有する対象の１つまたは複数のコホートに関連する１つまたは複数の疾患参照マルチパラメトリックモデルから選択される１つまたは複数の参照マルチパラメトリックモデルとの間の１つまたは複数の逸脱を検出することを含む。

一部の実施形態では、方法は、一組の構造多様性の選択をさらに含み、構造多様性の選択は、（ｉ）１つまたは複数の健康参照マルチパラメトリックモデル、（ｉｉ）構造多様性を標的とする１つまたは複数のプローブの効率、および（ｉｉｉ）構造多様性の期待度数がゲノムにおける構造多様性の平均期待度数より高い、ゲノムの部分に関する先の情報のうちの１つまたは複数の関数である。

一部の実施形態では、ヌクレオソーム占有プロファイルの少なくとも１つは、腫瘍の指標、がんの早期検出、腫瘍タイプ、腫瘍の重症度、腫瘍の侵襲性、処置に対する腫瘍の抵抗性、腫瘍のクローン性、腫瘍のドラッガビリティ、腫瘍の進行、および血漿中調節異常スコアからなる群から選択される１つまたは複数の評価に関連する。一部の実施形態では、腫瘍のクローン性の評価は、試料中のセルフリーＤＮＡ断片におけるヌクレオソームマップ破壊の不均一性を観察することから決定される。一部の実施形態では、２つまたはそれより多くのクローンの各々の相対的寄与の評価を決定する。

一部の実施形態では、方法は、疾患の疾患スコアを決定するステップであって、疾患スコアが、（ｉ）疾患に関連する１つまたは複数のヌクレオソーム占有プロファイル、（ｉｉ）疾患を有しないコホートに関連する１つまたは複数の健康参照マルチパラメトリックモデル、および（ｉｉｉ）疾患を有するコホートに関連する１つまたは複数の疾患参照マルチパラメトリックモデルのうちの１つまたは複数の関数として決定される、ステップをさらに含む。

別の態様では、本明細書において、（ａ）複数の異なるクラスを提供するステップであって、各々のクラスが共有する特徴を有する一組の対象を表す、ステップ、（ｂ）クラスの各々から得た複数のセルフリーデオキシリボ核酸（ＤＮＡ）集団の各々に関して、セルフリーＤＮＡ集団からのセルフリーＤＮＡ断片を表すマルチパラメトリックモデルを提供するステップであって、それによって訓練データセットを提供するステップ、および（ｃ）コンピュータによって、１つまたは複数の訓練された分類器を作成するために、訓練データセットについて学習アルゴリズムを訓練するステップであって、各々の訓練された分類器が、試験対象のセルフリーＤＮＡの試験集団を複数の異なるクラスのうちの１つまたは複数に分類するように構成されている、ステップを含む、訓練された分類器を作成するためのコンピュータ実行方法を開示する。

一部の実施形態では、学習アルゴリズムは、ランダムフォレスト、ニューラルネットワーク、サポートベクターマシン、および線形分類器からなる群から選択される。一部の実施形態では、複数の異なるクラスの各々は、健康、乳がん、結腸がん、肺がん、膵臓がん、前立腺がん、卵巣がん、黒色腫、および肝臓がんからなる群から選択される。

一態様では、本明細書において、対象の試験試料を分類する方法であって、（ａ）対象のセルフリーデオキシリボ核酸（ＤＮＡ）の試験集団からのセルフリーＤＮＡ断片を表すマルチパラメトリックモデルを提供するステップ、および（ｂ）訓練された分類器を使用して、セルフリーＤＮＡの試験集団を分類するステップを含む方法を開示する。

一部の実施形態では、方法は、セルフリーＤＮＡ集団の分類に基づいて対象に治療介入を実施するステップをさらに含む。

別の態様では、本明細書において、（ａ）コンピュータによって、対象のセルフリーＤＮＡ断片からの配列情報を生成するステップ、（ｂ）コンピュータによって、配列情報に基づいてセルフリーＤＮＡ断片を参照ゲノムにマッピングするステップ、ならびに（ｃ）コンピュータによって、マッピングされたセルフリーＤＮＡ断片を解析するステップであって、参照ゲノムの複数の塩基位置の各々で、（ｉ）塩基位置にマッピングするセルフリーＤＮＡ断片の数、（ｉｉ）塩基位置にマッピングする各々のセルフリーＤＮＡ断片の長さ、（ｉｉｉ）セルフリーＤＮＡ断片の長さの関数としての、塩基位置にマッピングするセルフリーＤＮＡ断片の数、（ｉｖ）塩基位置で開始するセルフリーＤＮＡ断片の数、（ｖ）塩基位置で終止するセルフリーＤＮＡ断片の数、（ｖｉ）長さの関数としての塩基位置で開始するセルフリーＤＮＡ断片の数、および（ｖｉｉ）長さの関数としての塩基位置で終止するセルフリーＤＮＡ断片の数からなる群から選択される複数の測定値を決定するステップを含む、コンピュータ実行方法を開示する。一部の実施形態では、配列情報は、セルフリーＤＮＡ断片の完全なまたは部分配列である。

別の態様では、本明細書において、対象に由来するセルフリーＤＮＡ断片を解析するコンピュータ実行方法であって、（ａ）コンピュータによって、セルフリーＤＮＡ断片を表す配列情報を受信するステップ、ならびに（ｂ）マッピング可能な塩基位置またはゲノム位置毎に解析を実施するステップであって、（ｉ）塩基位置またはゲノム位置で開始または終止する配列断片の数、（ｉｉ）塩基位置またはゲノム位置での配列または断片の長さ、（ｉｉｉ）塩基位置またはゲノム位置での断片または配列のカバレッジ、および（ｉｖ）塩基位置またはゲノム位置での配列モチーフ分布のうちの複数を含むステップを含む方法を開示する。

一部の実施形態では、方法は、対象のセルフリーＤＮＡと、セルフリーＤＮＡの１つまたは複数の参照集団との間の逸脱を検出するステップであって、逸脱が、対象における状態または性向の存在を示す、ステップをさらに含む。一部の実施形態では、解析は、（ｉ）起源組織の解析、（ｉｉ）遺伝子発現の解析、（ｉｉｉ）転写因子結合部位（ＴＦＢＳ）占有の解析、（ｉｖ）メチル化ステータスの解析、（ｖ）体細胞変異の検出、（ｖｉ）検出可能な体細胞変異レベルの測定、（ｖｉｉ）生殖系列変異の検出、および（ｖｉｉｉ）検出可能な生殖系列変異レベルの測定からなる群における１つまたは複数を含む。

一部の実施形態では、状態または性向は、（ｉ）がんの存在、（ｉｉ）組織異常の存在、（ｉｉｉ）特定の組織特異的異常の存在、（ｉｖ）後成的調節または機能における多様性の存在、および（ｖ）後成的調節または機能における多様性の存在からなる群における１つまたは複数である。一部の実施形態では、解析は、（ｉ）一塩基バリアント、（ｉｉ）コピー数バリアント、（ｉｉｉ）挿入、（ｉｖ）欠失、（ｖ）遺伝子再構成、（ｖｉ）メチル化ステータス、および（ｖｉｉ）ヘテロ接合性の喪失からなる群における１つまたは複数の検出をさらに含む。

別の態様では、本明細書において、対象が臨床的に重要な１つまたは複数のクラスに属する尤度を決定するための分類器を生成する方法であって、ａ）臨床的に重要な１つまたは複数のクラスの各々に関して、臨床的に重要なクラスに属する種の複数の対象の各々からのセルフリーＤＮＡ集団、および臨床的に重要なクラスに属さない種の複数の対象の各々からのセルフリーＤＮＡ集団を含む訓練セットを提供するステップ、ｂ）複数のＤＮＡ配列を産生ＤＮＡ配列を生成するために、セルフリーＤＮＡ集団からのセルフリーＤＮＡ断片をシークエンシングするステップ、ｃ）各々のセルフリーＤＮＡ集団に関して、種の参照ゲノムの１つまたは複数のゲノム領域の各々に複数のＤＮＡ配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、ｄ）訓練セットを生じるために、複数の遺伝子座の各々に関して、（ｉ）遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）遺伝子座で開始するＤＮＡ配列、および（ｉｉｉ）遺伝子座で終止するＤＮＡ配列から選択される少なくとも１つの特徴の定量的測定値を示す値を含むデータセットを、各々のセルフリーＤＮＡ集団に関して提供するステップ、ならびにｅ）訓練セットについてコンピュータベースの機械学習システムを訓練するステップであって、それによって対象が臨床的に重要な１つまたは複数のクラスに属する尤度を決定するための分類器を生成するステップを含む方法を開示する。

一部の実施形態では、臨床的に重要なクラスは、１つまたは複数の遺伝子バリアントの存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、１つまたは複数のがんの存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、１つまたは複数の非がん疾患、障害、または異常な生物学的状況の存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、１つまたは複数の標準的なドライバー変異の存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、１つまたは複数のがんサブタイプの存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、がんの処置に対する応答の尤度を示す。一部の実施形態では、臨床的に重要なクラスは、コピー数多様性（ＣＮＶ）の存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、起源組織を示す。一部の実施形態では、定量的測定値は、選択された特徴を有するＤＮＡ配列のサイズ分布を含む。

別の態様では、本明細書において、対象における異常な生物学的状況を決定する方法であって、ａ）ＤＮＡ配列を産生ＤＮＡ配列を生成するために、対象のセルフリーＤＮＡからのセルフリーＤＮＡ断片をシークエンシングするステップ、ｂ）対象の種の参照ゲノムの１つまたは複数のゲノム領域の各々にＤＮＡ配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、ｃ）複数の遺伝子座の各々に関して、（ｉ）遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）遺伝子座で開始するＤＮＡ配列、および（ｉｉｉ）遺伝子座で終止するＤＮＡ配列から選択される少なくとも１つの特色の定量的測定値を示す値を含むデータセットを提供するステップ、ならびにｄ）データセットに基づいて、異常な生物学的状況の尤度を決定するステップを含む方法を開示する。

一部の実施形態では、参照ゲノムは、ヒトの参照ゲノムを含む。一部の実施形態では、定量的測定値は、選択された特色を有するＤＮＡ配列のサイズ分布を含む。一部の実施形態では、サイズ分布は、ジヌクレオソーム保護を有するＤＮＡ断片および／またはモノヌクレオソーム保護を有するＤＮＡ断片の数を示す値を含む。一部の実施形態では、定量的測定値は、選択された特色を有するＤＮＡ配列のサイズ分布の比率を含む。一部の実施形態では、データセットは、複数の遺伝子座に関して、イントロンまたはエクソンにおける位置を示す値をさらに含む。一部の実施形態では、定量的測定値は、正規化された測定値である。一部の実施形態では、異常な状況を決定するステップは、異常の程度を決定することを含む。一部の実施形態では、方法は、治療介入を施して異常な生物学的状況を処置するステップをさらに含む。

別の態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのセルフリーＤＮＡからのＤＮＡ断片の分布を構築するステップ、ならびに（ｂ）１つまたは複数の遺伝子座の各々に関して、コンピュータによって、（１）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有するＤＮＡ断片の数、および（２）遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の数の比率、またはその逆を示す定量的測定値を計算するステップ、ならびに（ｃ）１つまたは複数の遺伝子座の各々に関する定量的測定値を使用して、対象における１つまたは複数の遺伝子座における遺伝子異常の存在または非存在を示す前記出力を決定するステップを含む方法を開示する。一部の実施形態では、分布は、１つまたは複数のマルチパラメトリック分布を含む。

別の態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのセルフリーＤＮＡからのＤＮＡ断片の分布を構築するステップ、ならびに（ｂ）対象における遺伝子異常の存在または非存在を示す前記出力を決定するために、分布を使用するステップであって、存在または非存在が、（ｉ）ＤＮＡ断片の分布を、対象のゲノムに対して外部の起源からの参照分布と比較することなく、（ｉｉ）ＤＮＡ断片の分布に由来するパラメータを参照パラメータと比較することなく、および（ｉｉｉ）ＤＮＡ断片の分布を、対象の対照からの参照分布と比較することなく、決定される、ステップを含む方法を開示する。

一部の実施形態では、遺伝子異常は、コピー数多様性（ＣＮＶ）を含む。一部の実施形態では、遺伝子異常は、一塩基バリアント（ＳＮＶ）を含む。一部の実施形態では、分布は、１つまたは複数のマルチパラメトリック分布を含む。

別の態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片の分布をデコンボリューションするためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのセルフリーＤＮＡからのＤＮＡ断片のカバレッジの分布を構築するステップ、ならびに（ｂ）１つまたは複数の遺伝子座の各々に関して、コンピュータによって、カバレッジの分布をデコンボリューションするステップであって、それによってコピー数（ＣＮ）構成要素、細胞クリアランス構成要素、および遺伝子発現構成要素からなる群から選択される１つまたは複数のメンバーに関連する分画寄与度を生成するステップを含む方法を開示する。

一部の実施形態では、計算するステップは、コピー数（ＣＮ）構成要素、細胞クリアランス構成要素、および遺伝子発現構成要素からなる群から選択される２つまたはそれより多くのメンバーに関連するＤＮＡ断片カバレッジの分布の分画寄与度を計算することを含む。一部の実施形態では、計算するステップは、コピー数構成要素、クリアランス構成要素、および発現構成要素に関連するＤＮＡ断片カバレッジの分布の分画寄与度を計算することを含む。

一部の実施形態では、方法は、分画寄与度の一部に少なくとも基づいて遺伝子異常の存在または非存在を示す出力を生成するステップをさらに含む。一部の実施形態では、分布は、１つまたは複数のマルチパラメトリック分布を含む。

別の態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのセルフリーＤＮＡからのＤＮＡ断片の分布を構築するステップ、（ｂ）コンピュータによって、ＤＮＡ断片の分布における複数の塩基位置のうちの１つまたは複数の塩基位置で１つまたは複数のピークを同定するステップであって、各々のピークがピーク値およびピーク分布幅を含む、ステップ、ならびに（ｃ）コンピュータによって、（ｉ）１つまたは複数の塩基位置、（ｉｉ）ピーク値、および（ｉｉｉ）ピーク分布幅に少なくとも基づいて、対象における遺伝子異常の存在または非存在を決定するステップを含む方法を開示する。

一部の実施形態では、１つまたは複数のピークは、ジヌクレオソームピークまたはモノヌクレオソームピークを含む。一部の実施形態では、１つまたは複数のピークは、ジヌクレオソームピークおよびモノヌクレオソームピークを含む。一部の実施形態では、遺伝子異常の存在または非存在を示す前記出力は、ジヌクレオソームピークに関連する第１のピーク値と、モノヌクレオソームピークに関連する第２のピーク値の比率、またはその逆を示す定量的測定値に少なくとも基づいて決定される。一部の実施形態では、分布は、１つまたは複数のマルチパラメトリック分布を含む。

別の態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのセルフリーＤＮＡからのＤＮＡ断片の分布を構築するステップ、（ｂ）コンピュータによって、１つまたは複数の遺伝子座でＤＮＡ断片の分布を解析するステップであって、ＤＮＡ断片の分布と、（ｉ）健康な対照の１つまたは複数のコホートに関連する１つまたは複数の健康参照分布、および（ｉｉ）疾患を有する対象の１つまたは複数のコホートに関連する１つまたは複数の疾患参照分布から選択される複数の参照分布との間の逸脱を検出することを含むステップ、ならびに（ｃ）コンピュータによって、（ｂ）において検出された逸脱に少なくとも基づいて、対象における遺伝子異常の存在または非存在を示す前記出力を決定するステップを含む方法を開示する。

一部の実施形態では、分布は、１つまたは複数のマルチパラメトリック分布を含む。一部の実施形態では、解析するステップは、１つまたは複数のデルタシグナルを計算することであって、各々のデルタシグナルが、ＤＮＡ断片の分布と複数の参照分布の参照分布との間の差異を含むことを含む。

別の態様では、本明細書において、対象の生物試料を処理するための方法であって、（ａ）前記対象の前記生物試料を得るステップであって、前記生物試料がデオキシリボ核酸（ＤＮＡ）断片を含む、ステップ、（ｂ）前記生物試料をアッセイするステップであって、（ｉ）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および（ｉｉ）遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の存在または非存在を示すシグナルを生成するステップ、ならびに（ｃ）前記シグナルを使用するステップであって、（ｉ）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および（ｉｉ）遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の前記存在または非存在を示す出力を生成するステップを含む方法を開示する。

一部の実施形態では、アッセイするステップは、一組の１つまたは複数の遺伝子座のＤＮＡ断片に関して前記生物試料を濃縮することを含む。一部の実施形態では、アッセイするステップは、前記生物試料の前記ＤＮＡ断片をシークエンシングすることを含む。

別の態様では、本明細書において、対象に由来するセルフリーＤＮＡ断片を含む生物試料を分析するための方法であって、モノヌクレオソーム保護およびジヌクレオソーム保護の各々に対応する同じ遺伝子座からのＤＮＡ断片を検出するステップを含む方法を開示する。

別の態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を決定するためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのＤＮＡ断片のマルチパラメトリック分布を構築するステップ、および（ｂ）第１の遺伝子座における各塩基位置の塩基同一性を考慮に入れることなく、対象の第１の座遺伝子座における遺伝子異常の存在または非存在を決定するために、マルチパラメトリック分布を使用するステップを含む方法を開示する。

一部の実施形態では、遺伝子異常は、配列異常またはコピー数多様性（ＣＮＶ）を含み、配列異常は、（ｉ）一塩基バリアント（ＳＮＶ）、（ｉｉ）挿入または欠失（インデル）、および（ｉｉｉ）遺伝子融合からなる群から選択される。一部の実施形態では、マルチパラメトリック分布は、（ｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止するＤＮＡ断片の数のうちの１つまたは複数を示すパラメータを含む。一部の実施形態では、方法は、分布スコアを決定するために、マルチパラメトリック分布を使用するステップであって、分布スコアが、遺伝子異常の変異負荷を示す、ステップを含む。一部の実施形態では、分布スコアは、ジヌクレオソーム保護を有するＤＮＡ断片の数およびモノヌクレオソーム保護を有するＤＮＡ断片の数のうちの１つまたは複数を示す値を含む。

別の態様では、本明細書において、試験対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片を使用して試験対象における遺伝子異常を決定するためのコンピュータ実行方法であって、（ａ）試験対象から得たセルフリーＤＮＡからのＤＮＡ断片を使用して、試験対象における遺伝子異常を決定するように構成されているコンピュータ実行分類器を提供するステップであって、分類器が訓練セットを使用して訓練される、ステップ、（ｂ）試験対象に関する一組の分布スコアを、分類器に入力として提供するステップであって、各々の分布スコアが、（ｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止するＤＮＡ断片の数のうちの１つまたは複数を示す、ステップ、ならびに（ｃ）試験対象における遺伝子異常の分類を生成するために、コンピュータによって、分類器を使用するステップを含む方法を開示する。

一部の実施形態では、データセットは、（ａ）シークエンシングしたＤＮＡ断片の開始位置、（ｂ）シークエンシングしたＤＮＡ断片の終止位置、（ｃ）マッピング可能な位置をカバーするユニークなシークエンシングしたＤＮＡ断片の数、（ｄ）シークエンシングしたＤＮＡ断片の長さ、（ｅ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたＤＮＡ断片内に出現する尤度、（ｇ）シークエンシングしたＤＮＡ断片の配列モチーフ、（ｈ）ＧＣ含有量、（ｉ）シークエンシングしたＤＮＡ断片長の分布、および（ｊ）メチル化ステータスからなる群から選択される。一部の実施形態では、マルチパラメトリック解析は、ゲノムの複数の塩基位置または領域の各々に、（ｉ）ゲノムにおけるマッピング可能な位置をカバーする配列を含むユニークなセルフリーＤＮＡ断片の数の分布、（ｉｉ）ＤＮＡ断片がゲノムにおけるマッピング可能な位置をカバーする配列を含むように、セルフリーＤＮＡ断片の少なくとも一部の各々の断片長の分布、および（ｉｉｉ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度の分布からなる群から選択される１つまたは複数の分布をマッピングするステップを含む。一部の実施形態では、ゲノムの複数の塩基位置または領域は、表１に記載の遺伝子のうちの１つまたは複数に関連する少なくとも１つの塩基位置または領域を含む。一部の実施形態では、マッピングするステップは、ゲノムの複数の塩基位置または領域の各々に、複数のデータセットの各々からの複数の値をマッピングすることを含む。一部の実施形態では、複数の値のうちの少なくとも１つは、（ａ）シークエンシングしたＤＮＡ断片の開始位置、（ｂ）シークエンシングしたＤＮＡ断片の終止位置、（ｃ）マッピング可能な位置をカバーするユニークなシークエンシングしたＤＮＡ断片の数、（ｄ）シークエンシングしたＤＮＡ断片の長さ、（ｅ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたＤＮＡ断片内に出現する尤度、または（ｇ）シークエンシングしたＤＮＡ断片の配列モチーフからなる群から選択されるデータセットである。一部の実施形態では、マルチパラメトリック解析は、コンピュータによって１つまたは複数の数学的変換を適用してマルチパラメトリックモデルを生成するステップを含む。一部の実施形態では、マルチパラメトリックモデルは、（ａ）シークエンシングしたＤＮＡ断片の開始位置、（ｂ）シークエンシングしたＤＮＡ断片の終止位置、（ｃ）マッピング可能な位置をカバーするユニークなシークエンシングしたＤＮＡ断片の数、（ｄ）シークエンシングしたＤＮＡ断片の長さ、（ｅ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたＤＮＡ断片内に出現する尤度、および（ｇ）シークエンシングしたＤＮＡ断片の配列モチーフからなる群から選択される複数の変数の同時分布モデルである。

一部の実施形態では、方法は、マルチパラメトリックモデルにおいて１つまたは複数のピークを同定するステップであって、各々のピークがピーク分布幅およびピークカバレッジを有する、ステップをさらに含む。一部の実施形態では、方法は、セルフリーＤＮＡ断片を表すマルチパラメトリックモデルと、参照マルチパラメトリックモデルとの間の１つまたは複数の逸脱を検出するステップをさらに含む。一部の実施形態では、逸脱は、（ｉ）ヌクレオソーム領域外でのリード数の増加、（ｉｉ）ヌクレオソーム領域内でのリード数の増加、（ｉｉｉ）マッピング可能なゲノム位置と比較してより広いピーク分布、（ｉｖ）ピーク位置のシフト、（ｖ）新しいピークの同定、（ｖｉ）ピークのカバレッジ深度の変化、（ｖｉｉ）ピーク周囲の開始位置の変化、および（ｖｉｉｉ）ピークに関連する断片サイズの変化からなる群から選択される。

一部の実施形態では、方法は、（ｉ）セルフリーＤＮＡの起源である細胞におけるアポトーシスプロセス、または（ｉｉ）セルフリーＤＮＡの起源である細胞における壊死プロセスに起因するマルチパラメトリックモデルの寄与を決定するステップをさらに含む。一部の実施形態では、方法は、マルチパラメトリック解析を実施するステップであって、（ｉ）セルフリーＤＮＡ断片のＲＮＡ発現を測定する、（ｉｉ）セルフリーＤＮＡ断片のメチル化を測定する、（ｉｉｉ）セルフリーＤＮＡ断片のヌクレオソームマッピングを測定する、あるいは（ｉｖ）セルフリーＤＮＡ断片における１つもしくは複数の体細胞一塩基多型、またはセルフリーＤＮＡ断片における１つもしくは複数の生殖系列一塩基多型の存在を同定するステップをさらに含む。一部の実施形態では、方法は、ジヌクレオソーム保護を有するＤＮＡ断片の数、またはモノヌクレオソーム保護を有するＤＮＡ断片の数を示す値を含む分布スコアを生成するステップをさらに含む。一部の実施形態では、方法は、対象の変異負荷を推定するステップをさらに含む。

別の態様では、本明細書において、対象に由来するセルフリーデオキシリボ核酸（ＤＮＡ）断片を解析するためのコンピュータ実行方法であって、セルフリーＤＮＡ断片を表すマルチパラメトリックモデルを得るステップ、およびコンピュータによって統計分析を実施するステップであって、マルチパラメトリックモデルを、別個のコホートを表す１つまたは複数のヌクレオソーム占有プロファイルに関連していると分類するステップを含む方法を開示する。

別の態様では、本明細書において、（ａ）複数の異なるクラスを提供するステップであって、各々のクラスが共有する特徴を有する一組の対象を表す、ステップ、（ｂ）クラスの各々から得た複数のセルフリーデオキシリボ核酸（ＤＮＡ）集団の各々に関して、セルフリーＤＮＡ集団からのセルフリーＤＮＡ断片を表すマルチパラメトリックモデルを提供するステップであって、それによって訓練データセットを提供するステップ、および（ｃ）１つまたは複数の訓練された分類器を作成するために、コンピュータによって、訓練データセットについて学習アルゴリズムを訓練するステップであって、各々の訓練された分類器が、試験対象のセルフリーＤＮＡの試験集団を複数の異なるクラスのうちの１つまたは複数に分類するように構成されている、ステップを含む、訓練された分類器を作成するためのコンピュータ実行方法を開示する。

別の態様では、本明細書において、対象の試験試料を分類する方法であって、（ａ）対象のセルフリーデオキシリボ核酸（ＤＮＡ）の試験集団からのセルフリーＤＮＡ断片を表すマルチパラメトリックモデルを提供するステップ、および（ｂ）セルフリーＤＮＡの試験集団を分類するために、訓練された分類器を使用するステップを含む方法を開示する。

別の態様では、本明細書において、（ａ）コンピュータによって、対象のセルフリーＤＮＡ断片からの配列情報を生成するステップ、（ｂ）コンピュータによって、配列情報に基づいてセルフリーＤＮＡ断片を参照ゲノムにマッピングするステップ、ならびに（ｃ）コンピュータによって、マッピングされたセルフリーＤＮＡ断片を解析するステップであって、参照ゲノムの複数の塩基位置の各々で、（ｉ）塩基位置にマッピングするセルフリーＤＮＡ断片の数、（ｉｉ）塩基位置にマッピングする各々のセルフリーＤＮＡ断片の長さ、（ｉｉｉ）セルフリーＤＮＡ断片の長さの関数としての、塩基位置にマッピングするセルフリーＤＮＡ断片の数、（ｉｖ）塩基位置で開始するセルフリーＤＮＡ断片の数、（ｖ）塩基位置で終止するセルフリーＤＮＡ断片の数、（ｖｉ）長さの関数としての塩基位置で開始するセルフリーＤＮＡ断片の数、および（ｖｉｉ）長さの関数としての塩基位置で終止するセルフリーＤＮＡ断片の数からなる群から選択される複数の測定値を決定するステップを含む、コンピュータ実行方法を開示する。

別の態様では、本明細書において、対象に由来するセルフリーＤＮＡ断片を解析するコンピュータ実行方法であって、（ａ）コンピュータによって、セルフリーＤＮＡ断片を表す配列情報を受信するステップ、ならびに（ｂ）マッピング可能な塩基位置またはゲノム位置毎に解析を実施するステップであって、（ｉ）塩基位置またはゲノム位置で開始または終止する配列断片の数、（ｉｉ）塩基位置またはゲノム位置での配列または断片の長さ、（ｉｉｉ）塩基位置またはゲノム位置での断片または配列のカバレッジ、および（ｉｖ）塩基位置またはゲノム位置での配列モチーフ分布のうちの複数を含むステップを含む方法を開示する。別の態様では、本明細書において、対象が臨床的に重要な１つまたは複数のクラスに属する尤度を決定するための分類器を生成する方法であって、ａ）臨床的に重要な１つまたは複数のクラスの各々に関して、臨床的に重要なクラスに属する種の複数の対象の各々からのセルフリーＤＮＡ集団、および臨床的に重要なクラスに属さない種の複数の対象の各々からのセルフリーＤＮＡ集団を含む訓練セットを提供するステップ、ｂ）複数のＤＮＡ配列を産生ＤＮＡ配列を生成するために、セルフリーＤＮＡ集団からのセルフリーＤＮＡ断片をシークエンシングするステップ、ｃ）各々のセルフリーＤＮＡ集団に関して、種の参照ゲノムの１つまたは複数のゲノム領域の各々に複数のＤＮＡ配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、ｄ）訓練セットを生じるために、複数の遺伝子座の各々に関して、（ｉ）遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）遺伝子座で開始するＤＮＡ配列、および（ｉｉｉ）遺伝子座で終止するＤＮＡ配列から選択される少なくとも１つの特徴の定量的測定値を示す値を含むデータセットを、各々のセルフリーＤＮＡ集団に関して提供するステップ、ならびにｅ）訓練セットについてコンピュータベースの機械学習システムを訓練するステップであって、それによって対象が臨床的に重要な１つまたは複数のクラスに属する尤度を決定するための分類器を生成するステップを含む方法を開示する。

別の態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのセルフリーＤＮＡからのＤＮＡ断片の分布を構築するステップ、ならびに（ｂ）１つまたは複数の遺伝子座の各々に関して、コンピュータによって、（１）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有するＤＮＡ断片の数、および（２）遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の数の比率、またはその逆を示す定量的測定値を計算するステップ、ならびに（ｃ）１つまたは複数の遺伝子座の各々に関する定量的測定値を使用して、対象における１つまたは複数の遺伝子座における遺伝子異常の存在または非存在を示す前記出力を決定するステップを含む方法を開示する。

別の態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのセルフリーＤＮＡからのＤＮＡ断片の分布を構築するステップ、ならびに（ｂ）対象における遺伝子異常の存在または非存在を示す前記出力を決定するために、分布を使用するステップであって、存在または非存在が、（ｉ）ＤＮＡ断片の分布を、対象のゲノムに対して外部の起源からの参照分布と比較することなく、（ｉｉ）ＤＮＡ断片の分布に由来するパラメータを参照パラメータと比較することなく、および（ｉｉｉ）ＤＮＡ断片の分布を、対象の対照からの参照分布と比較することなく、決定される、ステップを含む方法を開示する。一部の実施形態では、遺伝子異常は、コピー数多様性（ＣＮＶ）または一塩基バリアント（ＳＮＶ）を含む。

別の態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片の分布をデコンボリューションするためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのセルフリーＤＮＡからのＤＮＡ断片のカバレッジの分布を構築するステップ、ならびに（ｂ）１つまたは複数の遺伝子座の各々に関して、コンピュータによって、カバレッジの分布をデコンボリューションするステップであって、それによってコピー数（ＣＮ）構成要素、細胞クリアランス構成要素、および遺伝子発現構成要素からなる群から選択される１つまたは複数のメンバーに関連する分画寄与度を生成するステップを含む方法を開示する。一部の実施形態では、方法は、分画寄与度の一部に少なくとも基づいて遺伝子異常の存在または非存在を示す出力を生成するステップをさらに含む。

一部の実施形態では、１つまたは複数のピークは、ジヌクレオソームピークまたはモノヌクレオソームピークを含む。一部の実施形態では、遺伝子異常の存在または非存在を示す前記出力は、ジヌクレオソームピークに関連する第１のピーク値、およびモノヌクレオソームピークに関連する第２のピーク値の比率またはその逆を示す定量的測定値に少なくとも基づいて決定される。

別の態様では、本明細書において、対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、（ａ）コンピュータによって、ゲノムの複数の塩基位置でのセルフリーＤＮＡからのＤＮＡ断片の分布を構築するステップ、（ｂ）コンピュータによって、１つまたは複数の遺伝子座でＤＮＡ断片の分布を解析するステップであって、ＤＮＡ断片の分布と、（ｉ）健康な対照の１つまたは複数のコホートに関連する１つまたは複数の健康参照分布、および（ｉｉ）疾患を有する対象の１つまたは複数のコホートに関連する１つまたは複数の疾患参照分布から選択される複数の参照分布との間の逸脱を検出することを含むステップ、ならびに（ｃ）コンピュータによって、（ｂ）において検出された逸脱に少なくとも基づいて、対象における遺伝子異常の存在または非存在を示す前記出力を決定するステップを含む方法を開示する。一部の実施形態では、解析するステップは、１つまたは複数のデルタシグナルを計算することであって、各々のデルタシグナルが、ＤＮＡ断片の分布と複数の参照分布の参照分布との間の差異を含むことを含む。

別の態様では、本明細書において、対象の生物試料を処理するための方法であって、（ａ）前記対象の前記生物試料を得るステップであって、前記生物試料がデオキシリボ核酸（ＤＮＡ）断片を含む、ステップ、（ｂ）前記生物試料をアッセイするステップであって、（ｉ）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および（ｉｉ）遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の存在または非存在を示すシグナルを生成するステップ、ならびに（ｃ）前記シグナルを使用するステップであって、（ｉ）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および（ｉｉ）遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の前記存在または非存在を示す出力を生成するステップを含む方法を開示する。一部の実施形態では、アッセイするステップは、（ｉ）一組の１つもしくは複数の遺伝子座のＤＮＡ断片に関して前記生物試料を濃縮すること、または（ｉｉ）前記生物試料の前記ＤＮＡ断片をシークエンシングすることを含む。

別の態様では、本明細書において、対象に由来するセルフリーＤＮＡ断片を含む生物試料を分析するための方法であって、モノヌクレオソーム保護およびジヌクレオソーム保護の各々に対応する同じ遺伝子座からＤＮＡ断片を検出するステップを含む方法を開示する。

別の態様では、本明細書において、対象に由来するセルフリーＤＮＡ断片を含む生物試料を分析するための方法であって、遺伝子座に関連するジヌクレオソーム保護を有するＤＮＡ断片を検出するステップを含む方法を開示する。一部の実施形態では、遺伝子座は、ＥＲＢＢ２、ＴＰ５３、またはＮＦ１を含む。一部の実施形態では、遺伝子座は、表１に記載の遺伝子を含む。

別の態様では、本開示は、対象が重要な１つまたは複数のクラスに属する尤度を決定するための分類器を生成する方法であって、ａ）臨床的に重要な１つまたは複数のクラスの各々に関して、臨床的に重要なクラスに属する種の複数の対象の各々の生物試料および臨床的に重要なクラスに属さない種の複数の対象の各々の生物試料を含む訓練セットを提供するステップ、ｂ）複数のデオキシリボ核酸（ＤＮＡ）配列を生成するために、生物試料からのセルフリーデオキシリボ核酸（ｃｆＤＮＡ）分子をシークエンシングするステップ、ｃ）各々の生物試料に関して、複数のＤＮＡ配列を、種の参照ゲノムの１つまたは複数のゲノム領域の各々にマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、ｄ）訓練セットを生じるために、複数の遺伝子座の各々に関して、（ｉ）遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）遺伝子座で開始するＤＮＡ配列、および（ｉｉｉ）遺伝子座で終止するＤＮＡ配列から選択される少なくとも１つの特徴の定量的測定値を示す値を含むデータセットを各々の試料に関して提供するステップ、ならびにｅ）訓練セットについてコンピュータベースの機械学習システムを訓練するステップであって、それによって対象が臨床的に重要な１つまたは複数のクラスに属する尤度を決定するための分類器を生成するステップを含む方法を提供する。一実施形態では、定量的測定値は、選択された特徴を有するＤＮＡ配列のサイズ分布を含む。

別の態様では、対象における異常な生物学的状況を決定する方法は、ａ）ＤＮＡ配列を産生ＤＮＡ配列を生成するために、対象の生物試料からのｃｆＤＮＡ分子をシークエンシングするステップ、ｂ）対象の種の参照ゲノムの１つまたは複数のゲノム領域の各々にＤＮＡ配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、ｃ）複数の遺伝子座の各々に関して、（ｉ）遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）遺伝子座で開始するＤＮＡ配列、および（ｉｉｉ）遺伝子座で終止するＤＮＡ配列から選択される少なくとも１つの特色の定量的測定値を示す値を含むデータセットを提供するステップ、ならびにｄ）データセットに基づいて、異常な生物学的状況の尤度を決定するステップを含む。一実施形態では、方法は、異常な生物学的状況を処置するために、治療介入を施すステップをさらに含む。このように、異常な生物学的状況を処置するために、治療介入を施す方法は、本明細書に開示するように、対象における異常な生物学的状況を決定するステップの後に、治療介入を施すステップを含みうる。

一実施形態では、定量的測定値は、選択した特色を有するＤＮＡ配列のサイズ分布を含む。一実施形態では、サイズ分布は、ジヌクレオソーム保護を有する断片および／またはモノヌクレオソーム保護を有する断片の数を示す値を含む。一実施形態では、定量的測定値は、選択された特色を有するＤＮＡ配列のサイズ分布の比率をさらに含む。一実施形態では、データセットは、複数の遺伝子座に関して、イントロンまたはエクソンにおける位置を示す値をさらに含む。

別の態様は、１つまたは複数のコンピュータプロセッサによって実行した場合に、入力データセットに基づいてデータセットの異常な状況のクラスの尤度を出力するための方法を実行する機械実行可能なコードを含むコンピュータ可読媒体であって、方法が、複数の遺伝子座の各々に関して、フラグメントームプロファイリングに由来し、（ｉ）遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）遺伝子座で開始するＤＮＡ配列、および（ｉｉｉ）遺伝子座で終止するＤＮＡ配列から選択される１つまたは複数の特色の定量的測定値を示す値を含む、コンピュータ可読媒体を提供する。

本開示の別の態様は、異常な生物学的状況を示すフラグメントームプロファイルを有すると特徴付けられた、異常な生物学的状況を有する対象に、異常な生物学的状況を処置するように設計された処置の有効量を投与するステップを含む方法を提供する。

本開示の別の態様は、異常な生物学的状況を示すフラグメントームプロファイルを有すると特徴付けられた、異常な生物学的状況を有するまたは有することが疑われる対象に、医薬品を投与するステップを含む方法において使用するための、異常な生物学的状況を処置するために有効である医薬品を提供する。

本開示はまた、異常な生物学的状況を有するまたは有することが疑われる対象を処置するための医薬の製造に使用するための、異常な生物学的状況を処置するために有効である医薬品であって、対象が、異常な生物学的状況を示すフラグメントームプロファイルを有すると特徴付けられている、医薬品も提供する。

別の態様では、本明細書において、第１のクラスの複数の対象および第２のクラスの複数の対象を含む複数の訓練対象（例えば、少なくとも５０人の訓練対象）の訓練データを提供するステップであって、訓練データが、各訓練対象の訓練試料からの、１つまたは複数の選択されたゲノム遺伝子座にマッピングするｃｆＤＮＡ分子のマルチパラメトリック分布を含む、ステップ、ならびに機械学習アルゴリズムを訓練するステップであって、選択されたゲノム遺伝子座にマッピングするｃｆＤＮＡ分子のマルチパラメトリック分布を含む、試験対象の試験試料からの試験データに基づいて、対象を、がんを有するまたはがんを有しないと分類する分類モデルを開発するステップを含む方法を提供する。一部の実施形態では、分類モデルは確率モデルである。

一部の実施形態では、第１および第２のクラスは、がんを有するおよびがんを有しない、治療に応答するおよび治療に応答しない、ならびにステージ１のがんおよびステージ２のがんから選択される。一部の実施形態では、マルチパラメトリック分布は、分子サイズ、分子開始位置および／または分子終止位置を含む。一部の実施形態では、選択されたゲノム遺伝子座は、複数の腫瘍遺伝子、例えば表１の目的の遺伝子の各々において少なくともジヌクレオソームの距離を含む。

別の態様では、本明細書において、１つまたは複数の選択されたゲノム遺伝子座にマッピングするｃｆＤＮＡ分子のマルチパラメトリック分布を含む、試験対象の試験試料からの試験データを提供するステップ、ならびに第１のクラスの複数の対象および第２のクラスの複数の対象を含む複数の訓練対象の訓練データに基づくコンピュータベースの分類モデルを使用するステップであって、訓練データが各々の訓練対象の訓練試料から、１つまたは複数の選択されたゲノム遺伝子座にマッピングするｃｆＤＮＡ分子のマルチパラメトリック分布を含む、ステップ、試験対象を第１のクラスまたは第２のクラスに属すると分類するステップを含む方法を提供する。一部の実施形態では、分類モデルは、少なくとも９０％、少なくとも９５％、少なくとも９８％、少なくとも９９％、または少なくとも９９．８％の陽性的中率を有するように選択される。

別の態様では、本明細書において、本明細書に記載の分類方法を使用して対象を、がんを有すると分類するステップ、およびそのように分類された対象に治療的処置を施すステップを含む方法を提供する。別の態様では、本明細書において、本明細書に記載の方法によってがんを有すると分類された対象に、治療的処置を施してがんを処置するステップを含む方法を提供する。

本開示の追加の態様および利点は、本開示のごく例示的な実施形態を示し、説明する以下の詳細な説明から、当業者に容易に明らかとなる。認識されるように、本開示は、他のおよび異なる実施形態を行うことができ、そのいくつかの詳細を、その全てが本開示から逸脱することなく、様々な明白な点では変更することができる。したがって、図面および説明は、本質的に説明的であり、制限的ではないとみなされるべきである。
参照による組込み

本明細書において言及した全ての刊行物、特許、および特許出願は、各々の個々の刊行物、特許、または特許出願が具体的におよび個別に参照により本明細書に組み込まれると示されているのと同じ程度に、参照により本明細書に組み込まれている。

本開示の新規特徴は、添付の特許請求の範囲に具体的に示されている。本開示の特徴および利点のより良好な理解は、本開示の原理が使用されている例示的な実施形態を示す以下の詳細な記載および添付の図面（本明細書中の図（Ｆｉｇｕｒｅ）および図（ＦＩＧ．）を含む）を参照することにより得られる。

図１Ａは、１つまたは複数の構成要素を有するフラグメントームシグナルの例を示す。

図１Ｂは、１つまたは複数の構成要素を有し、各構成要素がクリアランス係数により影響を受けるフラグメントームシグナルの例を示す。

図１Ｃは、悪性試料（後期肺がん）対正常試料での、ジヌクレオソーム複合体の存在により示される、転写開始部位（ＴＳＳ）の多様性を示す。

図１Ｄは、同じ領域中の限定的な分解能の単変量断片開始密度を示す。

図１Ｅは、臨床試料で観察されたセルフリーＤＮＡ（ｃｆＤＮＡ）の断片長分布を示す。

図２は、断片長およびゲノム位置にわたるｃｆＤＮＡ断片のヒートプロット、つまり三次元マルチパラメトリック解析の例を示す。

図３Ａ～３Ｄは、３つの異なるゲノム位置（ＰＩＫ３ＣＡから２か所およびＥＧＦＲから１か所）の血漿中異常発現計測値（ｄｅｒｅｇｕｌａｔｉｏｎｍｅｔｒｉｃ）を示す４つの変換マルチパラメトリックヒートマップの例を示す。図３Ａは、ＰＩＫ３ＣＡ｜２２３８ゲノム位置に対応するヒートマップを示し、エクソン正規化１０ｂｐ（塩基対）断片開始カバレッジ（ｘ軸）の値は、約０～約０．１０の範囲であり、中心化中央値１０ｂｐ断片サイズ（ｙ軸）の値は、約１４８ｂｐ～約１７２ｂｐの範囲である。図３Ｂは、ＰＩＫ３ＣＡ｜２２３８ゲノム位置に対応するヒートマップを示し、エクソン正規化１０ｂｐ断片開始カバレッジ（ｘ軸）の値は、約０．０１４～約０．０３５の範囲であり、中心化中央値１０ｂｐ断片サイズ（ｙ軸）の値は、約１５０ｂｐ～約１８５ｂｐの範囲である。図３Ｃは、ＰＩＫ３ＣＡ｜２６６３ゲノム位置に対応するヒートマップを示し、エクソン正規化１０ｂｐ断片開始カバレッジ（ｘ軸）の値は、約０．０２８～約０．０７５の範囲であり、中心化中央値１０ｂｐ断片サイズ（ｙ軸）の値は、約１５５ｂｐ～約１８５ｂｐの範囲である。図３Ｄは、ＥＧＦＲ｜６１０１ゲノム位置に対応するヒートマップを示し、エクソン正規化１０ｂｐ断片開始カバレッジ（ｘ軸）の値は、約０．０１～約０．０６１の範囲であり、中心化中央値１０ｂｐ断片サイズ（ｙ軸）の値は、約１４５ｂｐ～約１８６ｂｐの範囲である。各臨床試料は、以下のような塗りつぶした有色円で表されている：健康対照は暗緑色で示されており、がんを有する対象は、青色、青緑色、黄色、オレンジ色、および赤色の範囲の色で示されている（それぞれ、０．１％～９３％の最大変異体アレル割合（最大ＭＡＦ）値に対応する）。実際、青色円は、スペクトル（例えば、がんを有する対象のコホート全体の最大ＭＡＦ値の範囲）の最小値または最低値終点に対応する場合があり、赤色円は、スペクトル（例えば、がんを有する対象のコホート全体の最大ＭＡＦ値の範囲）の最大値または最高値終点に対応する場合がある。

図４は、所与の臨床試料のゲノム断片にわたって位置により変動する血漿中異常発現スコアの試料を示す（下段パネル）。上段パネルは、アッセイした関連遺伝子およびそれら遺伝子に見出されたあらゆる変更（ＳＮＶまたはＣＮＶ）のリストを示す。

図５は、各々が異なる非小細胞肺癌（ＮＳＣＬＣ）患者に由来する５，０００個の試料中の複数のゲノム領域にわたる血漿中異常発現スコアの教師なしクラスタリングにより生成されたヒートプロットを示す。Ｙ軸は、５，０００個の患者試料の各々を反映している。Ｘ軸は、一群の分析したゲノム位置を反映している。色は、各試料について各ゲノム位置の血漿中異常発現スコアを反映している。

図６は、ゲノム位置の小範囲、例えばＫＲＡＳ遺伝子にわたって生成されたヒートマップを示す。この場合、血漿中異常発現スコアは１０ｂｐの分解能を有し、例えば、血漿中異常発現スコアは、１０ｂｐ毎に算出されている。Ｙ軸は２，０００個の臨床試料に関する情報を提供する。Ｘ軸は、ＫＲＡＳ遺伝子全体の血漿中異常発現スコアを１０ｂｐの分解能で提供する。

図７は、塩基対間で二本鎖ＤＮＡを切断することができる酵素の例：小球菌ヌクレアーゼを示す。

図８は、マルチパラメトリックモデルの一側面、特に、ゲノムの範囲内にある各ゲノム位置での断片頻度のプロットを示す。

図９は、マルチパラメトリックモデルの一側面、特に、ゲノムの範囲内にある各ゲノム位置での断片頻度のプロットを示す。

図１０は、マルチパラメトリックモデルの２つの側面、特に、ゲノムの範囲内にある各ゲノム位置での正規化分子計数および正規化断片サイズ（つまり長さ）のプロットを示す。

図１１は、マルチパラメトリックモデルの２つの側面、特に、ゲノム範囲内にある各ゲノム位置での正規化分子計数および正規化断片サイズ（つまり長さ）のプロットを示す。

図１２は、マルチパラメトリックモデルの３つの側面、特に、ゲノム範囲内にある各ゲノム位置での正規化分子計数、正規化断片サイズ（つまり長さ）、および正規化二本鎖パーセントを示す。

図１３は、マルチパラメトリックモデルの１つの側面、特に、ゲノム範囲内にある各ゲノム位置（ｘ軸）でのリード計数（ｙ軸）を示す。

図１４は、マルチパラメトリック解析の一部として実施して、マルチパラメトリックモデルを生成することができる数学的変換の例を示す。

図１５は、所与のゲノム領域における、２つの異なる対象の２つのマルチパラメトリックモデルの例を示す。

図１６は、所与のゲノム領域における、２つの異なる対象の２つのマルチパラメトリックモデルの例を示す。

図１７は、所与のゲノム領域における、２つの異なる対象の２つのマルチパラメトリックモデルの例を示す。

図１８は、所与のゲノム領域における、ヌクレオソーム構成対ゲノム位置の例を示す。

図１９は、所与のゲノム領域における、ヌクレオソーム構成対ゲノム位置の例を示す。

図２０は、絶対コピー数（ＣＮ）を決定するためのプロセスの例を示す。

図２１Ａおよび２１Ｂは、フラグメントームプロファイリングを使用して、血漿ＤＮＡの全シークエンシングによりコピー数増幅遺伝子の活性化を推定する例を示す。図２１Ａは、２，０７６個の臨床試料での、ＥＲＢＢ２における正規化ジヌクレオソーム対モノヌクレオソーム計数比のプロットを示す。図２１Ｂは、図２１Ａのプロットの部分拡大図を示す。

図２２は、本明細書で提供された方法を実施するようにプログラムされているかまたはそうでなければ構成されているコンピュータシステムを示す。

図２３は、腫瘍タイプ全体の単一ヌクレオソーム分解能断片化パターン（例えば、フラグメントームプロファイリングまたは「フラグメントミクス」分析に由来する）を示す。

図２４は、後期肺腺癌を有する７６８人の患者を含むコホートのフラグメントームプロファイリング（「フラグメントミクス」）に由来する特徴の例を示す。

図２５は、フラグメントームシグナルを使用した異常検出に使用することができるＫ構成要素混合モデルの例を示す。

図２６Ａは、異常なｃｆＤＮＡフラグメントームシグナルを特定するために、二変量正規混合モデルにフィッティングされる楕円エンベロープの例を示す。

図２６Ｂは、５つの異なるコホート（結腸直腸がん手術後、結腸直腸がん手術前、肺がん手術後、肺がん手術前、および正常）全体のｃｆＤＮＡ試料のフラグメントーム分析により生成された異常発現スコアの分布の例を示す。

図２７Ａは、ＴＰ５３遺伝子、エクソン＃７に関連するゲノム領域における、対象の断片サイズ（例えば、断片長）およびゲノム位置を含むマルチパラメトリックモデルの例を示す。

図２７Ｂは、２０個の試料の４つの集計後期乳がんコホート（上から下へと示されている）における、ＥＲＢＢ２プロモーター領域の２Ｄ断片開始位置（ｘ軸）および断片長（ｙ軸）密度ヒートマップを示す：（ｉ）低変異負荷および近二倍体ＥＲＢＢ２コピー数（ＣＮ）を含むコホート、（ｉｉ）高変異負荷および近二倍体ＥＲＢＢ２コピー数（ＣＮ）を含むコホート、（ｉｉｉ）低変異負荷および高ＥＲＢＢ２コピー数（ＣＮ）（例えば、約４よりも大きな）を含むコホート、および（ｉｖ）高変異負荷および高ＥＲＢＢ２コピー数（ＣＮ）（例えば、約４よりも大きな）を含むコホート。

図２７Ｃは、２０個の試料の４つの集計後期乳がんコホート（上から下へと示されている）における、ＥＲＢＢ２エンハンサー領域の２Ｄ断片開始位置（ｘ軸）および断片長（ｙ軸）密度ヒートマップを示す：（ｉ）低変異負荷および近二倍体ＥＲＢＢ２コピー数（ＣＮ）を含むコホート、（ｉｉ）高変異負荷および近二倍体ＥＲＢＢ２コピー数（ＣＮ）を含むコホート、（ｉｉｉ）低変異負荷および高ＥＲＢＢ２コピー数（ＣＮ）（例えば、約４よりも大きな）を含むコホート、および（ｉｖ）高変異負荷および高ＥＲＢＢ２コピー数（ＣＮ）（例えば、約４よりも大きな）を含むコホート。

図２８Ａは、アラインした２Ｄ断片開始位置（ｘ軸）および断片長（ｙ軸）密度ヒートマップ（上から下へと示されている）を示す：（ｉ）単一の試料（ＥＲＢＢ２陽性対象に由来する）から生成されたＥＲＢＢ２エンハンサー領域のヒートマップ（右上）、（ｉｉ）複数の健康対照から生成された集計コホートヒートマップ、および（ｉｉｉ）複数の高ＥＲＢＢ２ＣＮおよび低変異負荷対象から生成された集計コホートヒートマップ。加えて、４つの異なるゲノム領域（例えば、ＴＰ５３、ＮＦ１、ＥＲＢＢ２、およびＢＲＣＡ１遺伝子に対応する）での、モノヌクレオソームおよびジヌクレオソーム計数（例えば、試験試料中で計数された、そのゲノム位置から開始する断片の数）のカバレッジプロットが示されている。

図２８Ｂは、アラインした２Ｄ断片開始位置（ｘ軸）および断片長（ｙ軸）密度ヒートマップ（上から下へと示されている）を示す：（ｉ）単一の試料（ＥＲＢＢ２陰性対象に由来する）から生成されたＥＲＢＢ２エンハンサー領域のヒートマップ（右上）、（ｉｉ）複数の健康対照から生成された集計コホートヒートマップ、および（ｉｉｉ）複数の高ＥＲＢＢ２ＣＮおよび低変異負荷対象から生成された集計コホートヒートマップ。加えて、４つの異なるゲノム領域（例えば、ＴＰ５３、ＮＦ１、ＥＲＢＢ２、およびＢＲＣＡ１遺伝子に対応する）での、モノヌクレオソームおよびジヌクレオソーム計数のカバレッジプロットが示されている。

図２９Ａおよび２９Ｂは、ＥＲＢＢ２およびＮＦ１エクソンドメイン（増幅なし）の２Ｄヌクレオソームマッピングのプロットを示す。各図の下段には、２Ｄ密度推定および画像処理が示されている。各図の上段には、３０例の近二倍体ＥＲＢＢ２臨床症例全体で観察された標準ドメインのヌクレオソームマスク（ｎｕｃｌｅｏｓｏｍａｌｍａｓｋ）が示されている。

図３０は、以前にリキッドバイオプシーアッセイにより最大ＭＡＦがアッセイされていた４つの異なるコホート全体の推定第１７染色体腫瘍量のプロットを示す：（ｉ）（０，０．５］の範囲の最大ＭＡＦを有するコホート、（ｉｉ）（０．５，５］の範囲の最大ＭＡＦを有するコホート、（ｉｉｉ）（５，２０］の範囲の最大ＭＡＦを有するコホート、および（ｉｖ）（２０，１００］の範囲の最大ＭＡＦを有するコホート。

図３１Ａは、ＥＲＢＢ２発現構成要素対ＥＲＢＢ２コピー数のプロットを示す。

図３１Ｂは、分散－共分散行列を構築し、分散－共分散行列を反転させ、楕円判別関数（ｅｌｌｉｐｓｅｄｉｓｃｒｉｍｉｎａｔｉｏｎｆｕｎｃｔｉｏｎ）を生成することにより実施されるＥＲＢＢ２陰性訓練セットを使用した２Ｄ閾値化のプロットを示す。

図３２Ａは、２３６０例の後期がん対象および４３例の健康対照全体の、ＭＰＬ遺伝子ドメインにおけるジヌクレオソーム断片の相対的濃縮のプロットを示す。

図３２Ｂおよび３２Ｃは、ＭＰＬ遺伝子の選択的転写物中の残差ジヌクレオソーム比シグナルのブレイクポイントの例を示す。図３２Ｃは、図３２Ｂのプロットの部分拡大図を示す。

詳細な説明
本発明の好ましい実施形態を本明細書において示し、説明するが、そのような実施形態は、単なる例として提供されることは当業者に明白である。多数の変更、変化、および置換が、本発明から逸脱することなく当業者にここで想起されるであろう。本明細書に記載の本発明の実施形態に対する様々な代替を、本発明を実践するために使用してもよいと理解すべきである。

本明細書において使用される用語「生物試料」は、一般的に、対象に由来する組織または液体試料を指す。生物試料は、対象から直接得てもよい。生物試料は、１つもしくは複数の核酸分子、例えばデオキシリボ核酸（ＤＮＡ）もしくはリボ核酸（ＲＮＡ）分子であってもよく、またはそれらを含んでもよい。生物試料は、任意の臓器、組織、または生物学的液体に由来しうる。生物試料は、例えば体液、または固形組織試料を含みうる。固形組織試料の例は、例えば固形腫瘍生検からの腫瘍試料である。体液は、例えば血液、血清、血漿、腫瘍細胞、唾液、尿、リンパ液、前立腺液、精液、乳、喀痰、便、涙液、およびこれらの誘導体を含む。

本明細書において使用される用語「対象」は、一般的に、任意の動物、哺乳動物、またはヒトを指す。対象は、がん、がんに関連する症状、がんに関して無症候性である、または診断されていない（例えば、がんに関して診断されていない）ことから選択される１つまたは複数の特徴を有しうる、おそらく有する、または有することが疑われうる。対象はがんを有してもよく、対象はがんに関連する症状を示してもよく、対象はがんに関連する症状を有しなくてもよく、または対象はがんと診断されていなくてもよい。一部の実施形態では、対象はヒトである。

本明細書において使用される用語「セルフリーＤＮＡ」（または「ｃｆＤＮＡ」）は、一般的に、対象の血流中を自由に循環するＤＮＡ断片を指す。セルフリーＤＮＡ断片は、ジヌクレオソーム保護（例えば、少なくとも２４０塩基対（「ｂｐ」）の断片サイズ）を有しうる。ジヌクレオソーム保護を有するこれらのｃｆＤＮＡ断片は、ヌクレオソーム間でおそらく切断されず、それによってより長い断片長（例えば、３３４ｂｐ付近を中心とする典型的なサイズ分布を伴う）をもたらした。セルフリーＤＮＡ断片は、モノヌクレオソーム保護（例えば、２４０塩基対（「ｂｐ」）未満の断片サイズ）を有してもよい。モノヌクレオソーム保護を有するこれらのｃｆＤＮＡ断片は、ヌクレオソーム間でおそらく切断され、それによってより短い断片長（例えば、１６７ｂｐ付近を中心とする典型的なサイズ分布を伴う）をもたらした。本明細書において考察するｃｆＤＮＡは、胎児起源を有しなくてもよく、対象は通常妊娠していなくてもよい。

本明細書において使用される用語「ＤＮＡ配列」は、一般的に、「未加工の配列リード」および／または「コンセンサス配列」を指す。未加工の配列リードは、ＤＮＡシークエンサーの出力であり、例えば増幅後に、典型的に同じ親分子の冗長な配列を含む。「コンセンサス配列」は、起源の親分子の配列を表すことが意図される親分子の冗長な配列に由来する配列である。コンセンサス配列は、投票（各々の大部分のヌクレオチド、例えば、配列における所定の塩基位置で最も一般的に観察されるヌクレオチドは、コンセンサスヌクレオチドである）または参照ゲノムと比較することなどの他のアプローチによって産生することができる。コンセンサス配列は、タグを追跡することにより、および／または配列リード内部情報を使用することにより子孫配列の追跡を可能にする（例えば、増幅後）ユニークまたは非ユニーク分子タグによって起源親分子をタグ付けすることによって産生することができる。タグ付けまたはバーコード化の例、およびタグまたはバーコードの使用は、例えばその全体が参照により本明細書に組み込まれている、米国特許出願公開第２０１５／０３６８７０８号、第２０１５／０２９９８１２号、第２０１６／００４０２２９号、および第２０１６／００４６９８６号に提供される。

シークエンシング方法は、第一世代シークエンシング方法、例えばマキサム－ギルバートもしくはサンガーシークエンシング、またはハイスループットシークエンシング（例えば、次世代シークエンシングまたはＮＧＳ）方法でありうる。ハイスループットシークエンシング方法は、少なくとも１０，０００、１００，０００、１００万個、１０００万個、１億個、１０億個、またはそれより多くのポリヌクレオチド分子を同時（または実質的に同時）にシークエンシングすることができる。シークエンシング方法には、パイロシークエンシング、合成によるシークエンシング、一分子シークエンシング、ナノポアシークエンシング、半導体シークエンシング、ライゲーションによるシークエンシング、ハイブリダイゼーションによるシークエンシング、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、超並列シークエンシング、例えばＨｅｌｉｃｏｓ、ＣｌｏｎａｌＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ／Ｉｌｌｕｍｉｎａ）、ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔ、またはＮａｎｏｐｏｒｅプラットフォームを使用するシークエンシングが挙げられうるがこれらに限定されるわけではない。

本明細書において使用される用語「参照ゲノム」（時に「アセンブリ」と呼ばれる）は、一般的に、遺伝子データから組み立てられ、種のゲノムを表すと意図される核酸配列データベースを指す。典型的に、参照ゲノムは半数体である。典型的に、参照ゲノムは、その種の単一の個体のゲノムを表すのではなく、むしろいくつかの個体のゲノムのモザイクである。参照ゲノムは、公開されているまたは私的な参照ゲノムでありうる。ヒト参照ゲノムは、例えばｈｇ１９もしくはＮＣＢＩＢｕｉｌｄ３７またはＢｕｉｌｄ３８を含む。

本明細書において使用される用語「参照配列」は、一般的に、それに対して対象のヌクレオチド配列を比較するヌクレオチド配列を指す。典型的に、参照配列は、参照ゲノムに由来する。

本明細書において使用される用語「マッピング」は、一般的に、配列相同性に基づいてＤＮＡ配列を参照配列と整列させることを指す。アライメントは、アライメントアルゴリズム、例えばＮｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈアルゴリズム（例えば、ＵＲＬｅｂｉ．ａｃ．ｕｋ／Ｔｏｏｌｓ／ｐｓａ／ｅｍｂｏｓｓ＿ｎｅｅｄｌｅ／ｎｕｃｌｅｏｔｉｄｅ．ｈｔｍｌで入手可能な、任意選択でデフォルト設定を使用するＥＭＢＯＳＳＮｅｅｄｌｅａｌｉｇｎｅｒを参照されたい）、ＢＬＡＳＴアルゴリズム（例えば、ＵＲＬｂｌａｓｔ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／Ｂｌａｓｔ．ｃｇｉで入手可能な、任意選択でデフォルト設定を使用するＢＬＡＳＴアライメントツールを参照されたい）、またはＳｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズム（例えば、ＵＲＬｅｂｉ．ａｃ．ｕｋ／Ｔｏｏｌｓ／ｐｓａ／ｅｍｂｏｓｓ＿ｗａｔｅｒ／ｎｕｃｌｅｏｔｉｄｅ．ｈｔｍｌで入手可能な、任意選択でデフォルト設定を使用するＥＭＢＯＳＳＷａｔｅｒａｌｉｇｎｅｒを参照されたい）を使用して実施することができる。最適なアライメントを、デフォルトパラメータを含む、選択したアルゴリズムの任意の適したパラメータを使用して評価することができる。

本明細書において使用される用語「ゲノム領域」は、一般的に、ゲノムの任意の領域（例えば、塩基対位置の範囲）、例えばゲノム全体、染色体、遺伝子、またはエクソンを指す。ゲノム領域は、連続または不連続領域であってもよい。「座」（または「遺伝子座」）は、ゲノム領域の一部または全体（例えば、遺伝子の一部、または遺伝子の単一のヌクレオチド）でありうる。

本明細書において使用される用語「定量的測定値」は、一般的に、絶対的または相対的測定値を指す。定量的測定値は、数、統計学的測定（例えば、度数、平均値、中央値、標準偏差、または分位数）、または程度もしくは相対量（例えば、高い、中等度、および低い）でありうるがこれらに限定されるわけではない。定量的測定値は、２つの定量的測定値の比率でありうる。定量的測定値は、定量的測定値の線形結合でありうる。定量的測定は、正規化測定値でありうる。

本明細書において使用される用語「異常な生物学的状況」は、一般的に、正常から何らかの程度逸脱している生物系の状況を指す。異常な状況は、生理レベルまたは分子レベルで起こりうる。例えば、限定されるわけではないが、異常な生理学的状況（疾患、病態）または遺伝子異常（変異、一塩基バリアント、コピー数バリアント、遺伝子融合、インデル等）。疾患状況は、がんまたは前がんでありうる。異常な生物学的状況は、異常性の程度（例えば、正常な状況から離れる距離を示す定量的測定値）に関連しうる。

本明細書において使用される用語「尤度」は、一般的に、確率、相対的確率、存在もしくは非存在、または程度を指す。

本明細書において使用される用語「機械学習アルゴリズム」は、一般的に、例えばクラスタリング、分類、またはパターン認識のための解析モデル構築を自動化する、コンピュータによって実行されるアルゴリズムを指す。機械学習アルゴリズムは、教師ありまたは教師なしでありうる。学習アルゴリズムには、例えば人工ニューラルネットワーク（例えば、誤差逆伝播ネットワーク）、判別分析（例えば、ベイズ分類器またはフィッシャー分析）、サポートベクターマシン、決定木（例えば、再帰分割プロセス、例えばＣＡＲＴ－分類回帰木、またはランダムフォレスト）、線形分類器（例えば、多重線形回帰（ＭＬＲ）、部分的最小二乗（ＰＬＳ）回帰、および主成分回帰）、階層クラスタリング、およびクラスタ分析が挙げられる。機械学習アルゴリズムがそれについて学習するデータセットを、「訓練データ」と呼ぶことができる。

本明細書において使用される用語「分類器」は、一般的に、試験データを入力として受信し、１つまたは別のクラスに属するとの入力データの分類を出力として産生するアルゴリズムコンピュータコードを指す。

本明細書において使用される用語「データセット」は、一般的に、システムの要素を特徴付ける値のコレクションを指す。システムは、例えば生物試料からのｃｆＤＮＡでありうる。そのようなシステムの要素は、遺伝子座でありうる。データセット（ｄａｔａｓｅｔ）（または「データセット（ｄａｔａｓｅｔ）」）の例は、（ｉ）遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）遺伝子座で開始するＤＮＡ配列、（ｉｉｉ）遺伝子座で終止するＤＮＡ配列、（ｉｖ）ＤＮＡ配列のジヌクレオソーム保護またはモノヌクレオソーム保護、（ｖ）参照ゲノムのイントロンまたはエクソンに位置するＤＮＡ配列、（ｖｉ）１つまたは複数の特徴を有するＤＮＡ配列のサイズ分布、および（ｖｉｉ）１つまたは複数の特徴を有するＤＮＡ配列の長さ分布等から選択される特徴の定量的測定値を示す値を含む。

本明細書において使用される用語「値」は、一般的に、値が指す特色を特徴付ける任意のものでありうるデータセットにおけるエントリーを指す。これには、数、言葉もしくは語句、記号（例えば、＋または－）、または程度が挙げられるがこれらに限定されるわけではない。

本明細書において使用される用語「リキッドバイオプシー」は、一般的に、非侵襲性または低侵襲性の臨床検査またはアッセイ（例えば、生物試料またはセルフリーＤＮＡの）を指す。そのような「リキッドバイオプシー」アッセイは、１つまたは複数の腫瘍関連マーカー遺伝子の測定値（例えば、マイナーアレル頻度、遺伝子発現、またはタンパク質発現）を報告することができる。そのようなリキッドバイオプシーアッセイは、市販の、例えばＧｕａｒｄａｎｔＨｅａｌｔｈの循環中の腫瘍ＤＮＡ試験、ＦｌｕｘｉｏｎＢｉｏｓｃｉｅｎｃｅｓのＳｐｏｔｌｉｇｈｔ５９腫瘍学パネル、ＡｇｅｎａＢｉｏｓｃｉｅｎｃｅのＵｌｔｒａＳＥＥＫ肺がんパネル、ＦｏｕｎｄａｔｉｏｎＭｅｄｉｃｉｎｅのＦｏｕｎｄａｔｉｏｎＡＣＴリキッドバイオプシーアッセイ、およびＰｅｒｓｏｎａｌＧｅｎｏｍｅＤｉａｇｎｏｓｔｉｃｓのＰｌａｓｍａＳＥＬＥＣＴアッセイでありうる。そのようなアッセイは、一組の遺伝子バリアント（例えば、ＳＮＶ、ＣＮＶ、インデル、および／または融合）の各々に関するマイナーアレル割合（ＭＡＦ）値の測定値を報告することができる。

本明細書において使用される用語「マルチモーダル密度」は、一般的に、複数のパラメータにおける密度または密度分布を指す。マルチモーダル密度は、多変量混合分布を含みうる。

緒言

がんの形成および進行は、デオキシリボ核酸（ＤＮＡ）の遺伝的および後成的（ｅｐｉｇｅｎｅｔｉｃ）修飾の両方から生じうる。本開示は、セルフリーＤＮＡ（ｃｆＤＮＡ）などのＤＮＡの後成的修飾の解析方法を提供する。そのような「フラグメントーム」解析を、単独でまたは既存の技術と組み合わせて使用して、疾患もしくは状態の存在もしくは非存在、診断された疾患もしくは状態の予後、診断された疾患もしくは状態の治療的処置、または疾患もしくは状態の予想される処置の転帰を決定することができる。

循環中のセルフリーＤＮＡ（ｃｆＤＮＡ）は、瀕死の組織細胞から末梢血（血漿または血清）などの体液に脱落した主に短いＤＮＡ断片（例えば、約１００～４００塩基対の長さを有し、最頻値は約１６５ｂｐである）でありうる。ｃｆＤＮＡの解析によって、がん関連遺伝子バリアントに加えて、瀕死の細胞の食細胞による除去の後成的フットプリントおよびシグネチャーが明らかとなり、それによって存在する悪性疾患（例えば、腫瘍）の集合ヌクレオソーム占有プロファイル、ならびにその微小環境構成要素がもたらされうる。

悪性の固形腫瘍は、腫瘍関連正常細胞、上皮細胞、および間質細胞、免疫細胞、ならびに血管細胞を含み、その全てのいずれかがｃｆＤＮＡ試料（例えば、対象の体液から得られうる）に寄与して表されうることから、（ｉ）細胞死のタイプおよびＤＮＡの解体の際の関連するクロマチン凝集事象、（ｉｉ）対象の免疫系によって調節される様々なタイプの貪食の仕組みを伴いうるクリアランス機構、ならびに（ｉｉｉ）循環中の細胞タイプの基礎となる組合せによって影響を受けうる血液組成の非悪性の多様性、（ｉｖ）所定のタイプの臓器または組織における非悪性の細胞死の複数の起源または原因、ならびに（ｖ）がん内部の細胞タイプの不均一性を含む、１つ、２つ、またはそれより多くの構成要素または要因が血漿中フラグメントームシグナル（例えば、ｃｆＤＮＡ断片の解析から得たシグナル）に寄与しうる。

ヒストン保護複合体の形態でのセルフリーＤＮＡは、好中球、マクロファージ、好酸球、ならびに腫瘍細胞を含む様々な宿主細胞によって放出されうる。循環中のＤＮＡは、典型的に短い半減期（例えば、約１０～１５分）を有し、肝臓は典型的に、循環中のＤＮＡ断片を血液循環から除去する主要な臓器である。循環中のｃｆＤＮＡの蓄積は、細胞死および／もしくは活性化の増加、ｃｆＤＮＡのクリアランス障害、ならびに／または内因性のＤＮアーゼ酵素レベルの減少に起因しうる。対象の血流中を循環するセルフリーＤＮＡ（ｃｆＤＮＡ）は、典型的に膜被覆構造（例えば、アポトーシス体）に充填されうるか、または生体高分子（例えば、ヒストンまたはＤＮＡ結合血漿タンパク質）と複合体を形成しうる。ＤＮＡ断片化およびその後の輸送のプロセスを、フラグメントーム解析によって検出されるセルフリーＤＮＡシグナルの特徴に及ぼすその効果に関して分析することができる。

細胞核（例えば、ヒトの）において、ＤＮＡは典型的に、コアヒストン八量体の周囲に巻き付いた約１４５塩基対（ｂｐ）のＤＮＡを含む構造に構築されるヌクレオソームに存在する。ＤＮＡとヒストン二量体の静電および水素結合相互作用によって、タンパク質表面上でエネルギー的に望ましくないＤＮＡの屈曲が起こりうる。そのような屈曲は、他のＤＮＡ結合タンパク質に対して立体的に妨害性でありえて、したがって細胞核のＤＮＡへのアクセスを調節する役割を有しうる。細胞におけるヌクレオソームポジショニングは、動的に変動しえて（例えば経時的にならびに様々な細胞の状況および状態において）、例えば自発的に部分的に巻きほどけて再度巻き付く。フラグメントームシグナルは、ヌクレオソーム単位によって影響を受ける配置を起源とするヒストン保護ＤＮＡ断片を反映しうることから、ヌクレオソームの安定性およびダイナミクスは、そのようなフラグメントームシグナルに影響を及ぼしうる。これらのヌクレオソームダイナミクスは、多様な要因、例えば、（ｉ）ＡＴＰ加水分解のエネルギーを使用してヌクレオソームをスライドさせ、クロマチン線維からヒストンを交換または除去しうるＡＴＰ依存的再構成複合体、（ｉｉ）標準的なヒストンの特性とは異なる特性を有し、クロマチン線維内で局在化特異的ドメインを作製しうるヒストンバリアント、（ｉｉｉ）遊離のヒストンの供給を制御し、ヒストンの蓄積および除去においてクロマチン再構成因子と協調しうるヒストンシャペロン、ならびに（ｉｖ）クロマチン構造に直接または間接的に影響を及ぼしうるヒストンの翻訳後修飾（ＰＴＭ）（例えば、アセチル化、メチル化、リン酸化、およびユビキチン化）に由来しうる。

したがって、ｃｆＤＮＡにおける断片化シグナルまたはパターンは、ゲノムにおけるクロマチン構成の不均一性に関連する複数の事象に由来する集合ｃｆＤＮＡシグナルを示しうる。そのようなクロマチン構成は、全体的な細胞の同一性、代謝状況、限局的調節状況、瀕死の細胞における局所遺伝子活性、およびＤＮＡクリアランス機構などの要因に応じて異なりうる。その上、セルフリーＤＮＡフラグメントームシグナルは、寄与する細胞の基礎となるクロマチン構造にごく部分的に起因しうる。そのようなｃｆＤＮＡフラグメントームシグナルは、細胞死の際のクロマチン圧縮のより複雑なフットプリントおよび酵素消化からのＤＮＡの保護を示しうる。したがって、所定の細胞タイプまたは細胞系列タイプに対して特異的なクロマチンマップは、細胞死の様々な段階でのヌクレオソーム安定性、コンフォメーション、および組成の変化、またはデブリの移動により、ＤＮＡアクセシビリティの固有の不均一性にごく部分的に寄与しうるに過ぎない。その結果、一部のヌクレオソームが、セルフリーＤＮＡに優先的に存在するようになる場合があり、または存在しなくなる場合があり（例えば、ｃｆＤＮＡクリアランスに影響を及ぼして血液循環に放出するフィルタリング機構が存在しうる）、これは、細胞死および死細胞クリアランスの様式および機構などの要因に依存しうる。

フラグメントームシグナルは、細胞において生成され、アポトーシスおよび壊死などの細胞プロセスの際に核ＤＮＡ断片化の結果として血液循環にｃｆＤＮＡとして放出されうる。そのような断片化は、異なるステージの細胞においてＤＮＡに作用する異なるヌクレアーゼ酵素の結果として産生され、それによって配列特異的ＤＮＡ切断パターンがもたらされ、これをｃｆＤＮＡフラグメントームシグナルにおいて解析することができる。そのようなクリアランスパターンを分類するステップは、細胞環境の臨床的に関連するマーカー（例えば、腫瘍微小環境、炎症、疾患状況、腫瘍形成等）でありうる。

フラグメントームシグナルは、それらが由来する異なるクロマチン状況に対応する別個の構成要素にｃｆＤＮＡ断片を分類することによって解析することができる。例えば、フラグメントームシグナルを、図１Ａに示すように、異なる基礎となるクロマチン状況を表す構成要素（例えば、良性の全身応答、腫瘍の全身応答、腫瘍微小環境、および腫瘍）の合計として表記してもよい。この「クロマチン状況のクリアランス」モデルは、各々のクロマチン状況が、異なる基礎となるクリアランス機構（例えば、組織タイプ、臓器タイプ、または腫瘍タイプに特異的）を有しうることから、構成要素にクリアランス係数を乗算することによって修飾されうる。図１Ｂに示すように、フラグメントームシグナルを、１つまたは複数の構成要素の合計としてモデル形成してもよく、各々の構成要素は、クリアランス係数によって影響を受ける（例えば、乗算される）。そのような構成要素およびクリアランス係数は、類似または同一のクロマチン状況の間を識別するために使用することができる非バリアントマーカーとなりうる。フラグメントーム解析は、そのような「クロマチン状況のクリアランス」モデルを使用して、クロマチン状況の１つもしくは複数、またはそのクリアランス機構の１つもしくは複数が、例えば遺伝子異常または疾患状況のマーカー指標として使用するために十分に異なる特定の領域（または特色）を同定することによって実施されうる。そのような遺伝子異常は、ＳＮＶ、ＣＮＶ、インデル、融合を含みうる。

フラグメントーム解析は、ゲノム異常および／またはＤＮＡにおける後成的変化の結果でありうるクロマチン構成または構造の標準的なまたは非標準的な多様性を明らかにしうる。そのような測定値は、例えば、（ｉ）がん特異的腫瘍微小環境、（ｉｉ）がん特異的である間質脱落特徴が起こる物理的ストレスに対する間質の応答、（ｉｉｉ）免疫学的に活性ながんの断片の非常に小さい存在に対する応答の血液細胞組成の変化、および／または（ｉｖ）出芽しつつある腫瘍ニッチ形成に関連する微細な組織免疫プロファイルの変動に対する血液組成の応答のうちの１つまたは複数を明らかにしうる。フラグメントーム解析によって測定または推定することができる遺伝子異常は、後成的バリアントまたは変化を含みうる。

限局的増幅および／または異数性を含む体細胞コピー数バリアント（ＣＮＶ）は、多くのがん、特に転移性がんにおいて一般的に観察される遺伝子異常の群を表す。典型的に、コピー数は、特定の遺伝子またはＤＮＡ配列の細胞１つ当たりのコピー数を指す。しかし、そのようなコピー数（ＣＮ）の解釈は、不均一なマルチクローナルな腫瘍環境をプロファイルする場合にはあまり正確ではない場合がある。そのような腫瘍細胞は、不均一な腫瘍細胞集団において広範囲のＣＮを有しうる。

欠失および複製などの体細胞から獲得した染色体再構成、特に限局的再構成によって、遺伝子の用量効果として公知の現象である遺伝子の発現レベルの変化が起こりうる。

マイクロアレイ技術、例えばアレイ比較ゲノムハイブリダイゼーション（アレイＣＧＨ）、および一塩基多型（ＳＮＰ）マイクロアレイは、ＣＮＶ検出において広く使用されている。従来のアレイＣＧＨにおいて、参照および試験ＤＮＡを蛍光標識し、アレイにハイブリダイズさせ、シグナル比をコピー数（ＣＮ）比の推定値として使用する。ＳＮＰマイクロアレイはまた、ハイブリダイゼーションに基づくが、各々のマイクロアレイにおいて単一の試料を処理し、強度の比は、試験中の試料の強度を、参照試料のコレクションまたは試験される他の全ての試料と比較することによって形成される。マイクロアレイ／遺伝子型判定アレイは、大きいＣＮＶ検出にとって効率的であるが、それらは、短い遺伝子またはＤＮＡ配列（例えば、約５０キロベース（ｋｂ）未満の長さを伴う）のＣＮＶを検出する場合にはより感度が低い。

ゲノムの塩基毎の検分を提供することによって、次世代シークエンシング（ＮＧＳ）は、アレイではなおも検出できない場合がある小さいまたは新規ＣＮＶを検出しうる。適したＮＧＳ方法の例には、全ゲノム（ＷＧＳ）、全エクソームシークエンシング（ＷＥＳ）、または標的化エクソームシークエンシング（ＴＥＳ）が挙げられうる。しかし、個々のシークエンシング試料からＣＮＶ（例えば、コピー数増幅（ＣＮＡ））を検出するための計算アルゴリズムの開発は、部分的に、ハイブリダイゼーションによって導入されるバイアスおよびゲノム全体を通してのまばらで不均一なカバレッジにより、なおも難題である。

腫瘍組織を獲得する（例えば、費用が高く侵襲性である生検技法を通して）難しさおよび関連する健康リスクは、低侵襲性の血液ベースアッセイを開発する動機付けとなっている。血液のプロファイリングは、試料獲得の性質が低侵襲性であること、試料採取プロトコールの標準化が比較的容易であること、および経時的に繰り返し試料を得ることができることを含む、いくつかの実践的な利点を提供しうる。これまでの研究から、異なるがんタイプを有する患者の血漿中に、マイクロサテライト変化および遺伝子変異を含むがん関連バリアントが同定されている。血漿中の大量の非腫瘍ＤＮＡの存在下でがんバリアントを検出することは、コピー数検出における新たな難題を表しうる。

その上、血漿由来セルフリーＤＮＡは、クロマチン構造のゲノムワイド解析（特に、ミクロコッカスヌクレアーゼシークエンシング、または「ＭＮアーゼ－ｓｅｑ」アッセイ）においてこれまでに認められた特徴、特にｃｆＤＮＡにおいて観察されたＤＮＡ断片化のパターンを調べることによって決定されるヒト組織の後成的背景に関連する特徴を保持している。図７は、塩基対間の二本鎖ＤＮＡを切断することができる酵素の例、ミクロコッカスヌクレアーゼ（ＭＮアーゼ）を説明する。ミクロコッカスヌクレアーゼの１：３希釈液は、特定の配列に対して特異性を有することなく、任意の塩基対の位置で切断することができる。ＭＮアーゼは、クロマチンを消化することができ、それによってＤＮＡ鎖に沿ったヌクレオソームの位置に関する情報を提供することができる。様々なモデル生物およびヒト細胞株の研究により、ＤＮＡ上のヌクレオソームのポジショニングは多様で組織特異的であり、従来のコピー数アプローチが、短いＣＮＶバリアントの血漿由来ＤＮＡコピー数検出に関して最適ではない参照シグナルに依存することが明らかとなっている。特に、ｃｆＤＮＡ断片コピー数は、基礎となる細胞または組織タイプのヌクレオソームポジショニング、細胞クリアランス、および／または遺伝子発現に依存しうるが、これらは、経時的に細胞状態によって変化しうる。セルフリーＤＮＡシグナルは、組織において観察されるヌクレオソームポジショニングに従って挙動することが観察されており、そのためヌクレオソームの枯渇は、活発に発現する遺伝子の転写開始部位（ＴＳＳ）で起こり、したがって、ＴＳＳ内のある特定のＤＮＡ断片の出現率は、造血細胞の発現シグネチャーを直接反映する。

ヌクレオソームは、遺伝子が活発に転写される（例えば、ＤＮＡポリメラーゼＩＩ（ＰｏｌＩＩ）によって）場合にも存在しうる。しかし、ヌクレオソームポジショニングはしばしば、細胞において経時的に変化し、一部のヌクレオソームは、転写が誘導されると失われうる。例えば、多くの真核細胞遺伝子において、ＰｏｌＩＩは、鋳型の最初の５０～１００ｂｐの転写後停止する。当初のヒストンは、ＤＮＡループ形成を伴う中等度レベルの転写の間はＤＮＡ上に留まりうるが、複数の転写複合体がヒストンを置換する集中的な転写の間では、より有意な再構成が起こりうる。その結果として、ＤＮＡ断片のモノヌクレオソームおよびジヌクレオソーム性質の識別は、例えば図１Ｃに示すように、断片開始カバレッジの単変量解析によってジヌクレオソーム複合体の存在が明らかとならない代替の転写開始部位（ＴＳＳ）プロモーターを使用する場合（例えば、図１Ｄに示すように代替の転写開始を示しうる）、ＴＳＳ周囲の基礎となる調節を同定および決定するために助けとなりうる。

セルフリーＤＮＡの起源の解明における最近の進歩にもかかわらず、ヌクレオソーム認識体細胞バリアント検出アルゴリズムがなおも必要である。ヌクレオソーム認識バリアント検出アプローチは、ヌクレオソームポジショニングがｃｆＤＮＡ断片パターンおよびシグナルにどのように影響を及ぼすかに関する本発明者らの理解を広げ、転写因子結合および転写開始部位外のセルフリーＤＮＡ断片化パターンのヌクレオソームベースの解析（フラグメントミクス（ｆｒａｇｍｅｎｔｏｍｉｃｓ））の拡大を重視しうる。

本開示は、血漿中異常発現スコアを決定するためのユニパラメトリックまたはマルチパラメトリック解析の使用を提供する。ユニパラメトリック解析は、１つの独立したパラメータによる分布関数の解析を含みうる。マルチパラメトリック解析は、２つまたはそれより多くの独立したパラメータによる分布関数の解析を含みうる。血漿中異常発現スコアは、ゲノムにおいて（例えば、ゲノム位置において）変化しうる。この変動は、例えば複数の塩基位置の各々の塩基位置と重複する断片の数に基づきうる。複数の塩基位置は、ゲノムの一部または全体から選択されうる。この変動は、例えばゲノムの一部または全体の各々の位置と重複する断片の長さの分布に基づきうる。

一態様では、血漿中異常発現スコアを決定するステップは、一組のゲノム位置の各々で特定の長さを有する試料中のｃｆＤＮＡ断片（例えば、ＮＧＳまたは他のシークエンシング方法によって検出される）の数をプロットするステップを含みうる。これは、マルチパラメトリック解析、例えば第１の軸がゲノムの１つまたは複数の領域と重複する複数のゲノム位置（例えば、複数の塩基対位置の連続するスパンまたは表１に記載の一組のゲノム領域）を表しうる三次元（３－Ｄ）プロットを作成することによって行うことができる。３－Ｄプロットの第２の軸は、試料中の一組の可能な断片の長さ（例えば、０ｂｐ～４００ｂｐ）の各々を表しうる。３－Ｄプロットの第３の軸は、断片の長さの各々でユニークなゲノム位置と重複する断片の数を表しうる。

データをそのような３－Ｄマトリックスにプロットすると、得られたマルチパラメトリック分布プロットを使用してスコアを決定することができる。このスコアは、本明細書において他所で記載される血漿中異常発現スコアでありうる。

別の態様では、血漿中異常発現スコアを決定するステップは、ユニパラメトリック解析、例えば第１の軸がゲノムの１つまたは複数の領域と重複する複数のゲノム位置を表しうる（例えば、複数の塩基対位置の連続するスパンまたは表１に記載の一組のゲノム領域）二次元（２－Ｄ）プロットを作成することを含みうる。２－Ｄプロットの第２の軸は、特定の長さを有し、複数のゲノム位置の各々と重複する試料中のｃｆＤＮＡ断片の数を表しうる。

フラグメントーム解析は、上記の１つまたは複数のユニパラメトリックまたはマルチパラメトリック解析を含みうる。フラグメントーム解析は、セルフリー核酸を使用するヌクレオソームプロファイリング、ヌクレオソームプロファイリングのパターンを疾患もしくは状態などの特異的表現型に関連させるステップ、または試料を１つもしくは複数の関連するクラスに分類するのを助けるために分類器を構成するステップを含みうる。例えば、分類器は、参照ゲノムにおけるイントロン－エクソン境界の位置を含むイントロン－エクソン境界情報、およびイントロンもしくはエクソンの位置またはイントロン－エクソン境界付近の位置を示す値を含むフラグメントーム情報（例えば、１つまたは複数のマルチパラメトリックまたはユニパラメトリックモデル）を使用する。そのようなイントロン－エクソン境界情報は、遺伝子バリアントまたは異常な生物学的状況の識別にとって有益でありうる。フラグメントーム解析を同様に使用して、例えば関連する表現型を検出するためにゲノムのユニーク部分を選択的に濃縮するために使用することができるプローブ、プライマー、およびベイトを同定することができる。
配列情報

本明細書におけるフラグメントームプロファイリングは、セルフリー核酸分子の試料に由来する配列情報を利用する。配列情報を決定する多数の方法が存在する。例には、ＨｉＳｅｑ（Ｉｌｌｕｍｉｎａ）またはＩｏｎＴｏｒｒｅｎｔ（ＴｈｅｒｍｏＦｉｓｈｅｒ）を使用するシークエンシングが挙げられる。特に、ペアエンドシークエンシングを使用して、血漿中の単一のＤＮＡ分子の連続性を測定してもよく、例えばクロマチンＤＮＡをヌクレオソーム間断片へと切断する内因性のエンドヌクレアーゼの活性化パターンを試験してもよい。ヌクレオソーム占有パターンのため、これらのｃｆＤＮＡ断片長を、図１Ｅに示すように分布として観察する。水平軸は、断片長（塩基対、「ｂｐ」として）であるが、垂直軸は、所定の断片長を有するｃｆＤＮＡ断片の数を示す。断片長分布のピークは、１６７ｂｐ付近で認められ、これはヒストン八量体コアの周囲に巻き付いた約１４７ｂｐのＤＮＡおよびリンカーＤＮＡのセグメントに対応する。より小さいピークもまた、３３４ｂｐ付近（例えば、１６７ｂｐの断片長の２倍）で認められ、これは、関連するリンカーＤＮＡと共に、ヒストン八量体コア周囲（例えば、単一のヒストン周囲に２回または２つの連続するヒストンの周囲）に２回巻き付いたＤＮＡに対応する。約１６７ｂｐの断片長分布のこのピークは、マルチパラメトリック解析において、マルチパラメトリックヒートプロットの１つまたは複数の軸に沿って約１６７ｂｐ離れた１つまたは複数の周期的ピークを観察することによって明白でありうる。

ｃｆＤＮＡシグナルにおいて観察されるアポトーシスＤＮＡ断片化の存在下で、ペアエンドシークエンシングにより、ＤＮＡ結合ヌクレオソームの位置および占有ならびに転写因子の両方の決定が可能となる。次に、このアプローチにより、異なるクロマチン構造プロファイルから生じる分子集団を、サブヌクレオソーム分解能であっても識別することができる。ｃｆＤＮＡ断片がゲノム開始空間と断片長空間との間でどのように異なるかを調べることによって、図２に説明するヒートプロット可視化がもたらされうる。

配列データをセルフリー核酸試料から獲得した後、配列データを整列させて、ユニーク分子リードに折り畳んでもよい。整列させるための方法は、ＣｌｕｓｔａｌＷ２、ＣｌｕｓｔａｌＯｍｅｇａ、およびＭＡＦＦＴを含む。

本明細書において導出したシークエンシング情報を任意選択で折り畳んで、ユニーク分子および／またはユニーク配列リードを決定することができる。ユニーク分子に折り畳むための方法は、例えば、ＰｏｐｕｌａｔｉｏｎＧｅｎｅｔｉｃｓのＶｅｒｉＴａｇ、およびＪｏｈｎｓＨｏｐｋｉｎｓＵｎｉｖｅｒｓｉｔｙのＳａｆｅＳｅｑＳによって記載されている。

ｃｆＤＮＡをシークエンシングして、参照ゲノムにマッピングするための技術は、当技術分野で公知であり、例えばＣｈａｎｄｒａｎａｎｄａら、（２０１５年）ＢＭＣＭｅｄｉｃａｌＧｅｎｏｍｉｃｓ８巻：２９頁を参照されたい。
ユニパラメータモデリング

本開示は、ユニパラメトリックモデリングのための方法を提供する。ユニパラメトリックモデルは、２－Ｄ分布、例えば断片計数分布での２－Ｄ解析を実施するステップを含みうる。ユニパラメトリックモデルは、一組のゲノムの位置を含みうる。ゲノムは、ヒトゲノムでありうる。ゲノムは、報告された腫瘍マーカーの１つまたは複数の遺伝子座を含みうる。２－Ｄ断片計数分布は、ゲノムにおける一組の位置、およびゲノムにおける一組の位置の各々の位置と整列する一組の断片の数を含みうる。そのようなモデリングを、本明細書により詳細に記載する分類器と共に使用して、状態もしくは状態の状況に関連するパターンもしくはシグネチャーを同定するため、または試験対象における遺伝子異常（例えば、ＳＮＶ、ＣＮＶ、融合、またはインデル）を決定することができる。ユニパラメトリックモデルの他の例には、２－Ｄ開始位置分布、２－Ｄ終止位置分布、または２－Ｄ断片長分布に関する２－Ｄ解析が挙げられるがこれらに限定されるわけではない。

２－Ｄ開始位置分布は、ゲノムにおける一組の位置、およびゲノムにおける一組の位置の各々の位置で開始する一組の断片の数を含みうる。

２－Ｄ終止位置分布は、ゲノムにおける一組の位置、およびゲノムにおける一組の位置の各々の位置で終止する一組の断片の数を含みうる。

第１の２－Ｄ断片長分布は、ゲノムにおける一組の位置、およびゲノムにおける一組の位置の各々の位置と重複する一組の断片の長さを含みうる。

第２の２－Ｄ断片長分布は、一組の長さ、および一組の長さにおいてある長さを有する一組の断片の数を含みうる（例えば、図１Ｅに示すように）。

一例では、ユニパラメトリックモデルを使用して、対象のセルフリーＤＮＡにおけるＳＮＶを検出する。第１に、セルフリーＤＮＡを、肺がんを有する対象の体液試料から得る。ｃｆＤＮＡ断片をシークエンシングして、断片の複数の配列リードを産生する。各々の配列リードを、ヒトゲノムからの一組の複数の参照配列にマッピングする。一組の参照配列における各々の塩基位置に関して、その塩基位置にマッピングする配列リードの数を計数し、それによって一組の参照配列に関する２－Ｄ断片計数分布を産生する。一組の参照配列において、２－Ｄ断片計数分布がその参照配列で異常に低い（組における他の参照配列と比較して）１つの参照配列を同定する。これは、アップレギュレートされた遺伝子発現を有する遺伝子座を含む参照配列であると生物学的に解釈される。この参照配列は、ＥＧＦＲＬ８５８Ｒ一塩基多型遺伝子座を含む。このように、ユニパラメトリックモデルは、参照配列における塩基位置の塩基同一性を使用することなく（すなわち、配列におけるヌクレオチド同一性の多様性を通してＳＮＶを直接検出することなく）、ＥＧＦＲＬ８５８ＲＳＮＶの存在の「バリアントフリーの」検出を実施した。次に、このＳＮＶ検出を使用して、臨床診断、予後、治療選択、治療予測、治療モニタリング等を決定してもよい。
マルチパラメトリックモデリング

試料からの配列データを生成した後、配列データのマルチパラメトリック解析を実施して、マルチパラメトリックモデルを生成しうる。マルチパラメトリック解析は、複数のパラメータ（データセット）を同時に利用する任意の解析を指す。例えば、マルチパラメトリック解析は、ｎが少なくとも２の整数であるｎ個の独立変数（値ｘ_１、ｘ_２、…、ｘ_ｎ）を有する分布関数（関数値ｙ）を含みうる。例えば、一例では、マルチパラメトリック解析は、マッピング可能な塩基毎の軸（例えば、ゲノムにおける複数のゲノム位置の各々において）において、その塩基にまたがるユニーク分子の数およびその塩基で開始するユニーク分子の数を示す分布プロットをゲノムに沿って生成するステップを含みうる。別の例として、マルチパラメトリック解析は、各々の入力ベクトル［値ｘ_１、ｘ_２、…、ｘ_ｎ］に関連する断片の数（例えば、関数値ｙ）の分布プロットを生成するステップであって、各々のｘ_ｉがシークエンシングリードデータにおける独立変数（複数のｎ個の独立変数の）である、ステップを含みうる。そのような入力ベクトルの例は、ｘ_１が、ｃｆＤＮＡ断片がまたがるマッピング可能な塩基位置（例えば、ゲノムにおけるそのような複数のゲノム位置での）であり、ｘ_２が、ｃｆＤＮＡ断片の塩基の長さ（例えば、「断片長」）であるベクトルでありうる。フラグメントーム解析は典型的に、断片の相対的分布（例えば、異なる対象、異なる時点で採取した試料、異なるゲノム位置、または遺伝子座等と比較した）の解析を含むことから、ＤＮＡ断片の数のカバレッジ値（例えば、計数）は、正規化されてもよく、または非正規化であってもよい。

パラメータは、（ｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列するＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止するＤＮＡ断片の数のうちの１つまたは複数を示しうる。マルチパラメトリックモデルは、２つまたはそれより多くのそのようなパラメータを含みうる。そのようなパラメータは、正規化値、または非正規化値でありうる。

マルチパラメトリックモデリングは、ユニパラメトリックモデリングと同様に、ゲノムの構造多様性または不安定性のクラスタまたは領域（例えば、ヌクレオソーム占有またはポジショニングの結果として）を示すパターンを生じることができる。

フラグメントームプロファイリングは、セルフリー核酸試料から１つまたは複数のマルチパラメトリックまたはユニパラメトリックモデルを生成し、それによってセルフリー核酸試料のフラグメントームプロファイルを生成することによって実施されうる。１つまたは複数のフラグメントームプロファイル（またはフラグメントームデータ）に、教師なしクラスタリングを行って、１つまたは複数のクラスの別個の異常な生物学的状況を明らかにしてもよい。１つまたは複数のフラグメントームプロファイル（またはフラグメントームデータ）を分類器に組み込んで、対象が臨床的に重要な１つまたは複数のクラスに属する尤度を決定してもよい（例えば、機械学習技術を使用して）。臨床的に重要なクラスは、例えば異常な生物学的状況または遺伝子バリアントを示すカテゴリーでありうる。臨床的に重要なクラスの例には、（ｉ）１つまたは複数の遺伝子バリアントの存在または非存在、（ｉｉ）１つまたは複数のがんの存在または非存在、（ｉｉｉ）１つまたは複数の標準的なドライバー変異の存在または非存在、（ｉｖ）１つまたは複数の疾患サブタイプの存在または非存在（例えば、肺がん分子サブタイプ）、（ｖ）がんまたは他の疾患、障害、もしくは異常な生物学的状況の処置に対する応答の尤度（例えば、薬物または治療）、（ｖｉ）コピー数多様性（ＣＮＶ）の存在または非存在（例えば、ＥＲＢＢ２増幅）、あるいは（ｖｉｉ）腫瘍微小環境に由来する情報（例えば、ｃｆＤＮＡ断片に対応する起源組織）が挙げられる。

１つまたは複数のフラグメントームプロファイル（またはフラグメントームデータ）を分類器に組み込んで、１つまたは複数の標準的なドライバー変異の存在または非存在の尤度を決定してもよい。ドライバー変異は、その生存または再生の増加のいずれかを通してその微小環境におけるクローンに対して選択的利点を与える変異でありうる。ドライバー変異は、がんまたは別の異常な生物学的状況に関連する体細胞変異でありうる。ドライバー変異の存在は、がんの診断、がんサブタイプを有する対象の階層化、腫瘍量、組織もしくは臓器の腫瘍、腫瘍の転移、処置の有効性、または処置に対する抵抗性を示しうる。標準的なドライバー変異は、当技術分野で周知の変異、例えばＣａｔａｌｏｇｕｅｏｆＳｏｍａｔｉｃＭｕｔａｔｉｏｎｓｉｎＣａｎｃｅｒ（ＣＯＳＭＩＣ）（ＵＲＬｃａｎｃｅｒ．ｓａｎｇｅｒ．ａｃ．ｕｋ／ｃｏｓｍｉｃで入手可能）に記載されている変異でありうる。標準的なドライバー変異の例には、肺がんにおける上皮増殖因子受容体（ＥＧＦＲ）エクソン１９欠失、ＥＧＦＲエクソン１９挿入、ＥＧＦＲＧ７１９Ｘ、ＥＧＦＲエクソン２０挿入、ＥＧＦＲＴ７９０Ｍ、ＥＧＦＲＬ８５８Ｒ、およびＥＧＦＲＬ８６１Ｑが挙げられる。１つまたは複数の標準的なドライバー変異の存在または非存在の尤度に関するそのような情報を使用して、対象を（例えば、肺がんと）診断してもよく、診断（例えば、肺がんの分子サブタイプ）を有する対象を階層化してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置（例えば、所定の用量での標的化処置などの薬物）を選択してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を中止してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を変更してもよく（例えば、第１の薬物から第２の薬物へ、または第１の用量から第２の用量へ）、または対象についてさらなる医学的検査（例えば、イメージングまたは生検）を実施してもよい。

１つまたは複数のフラグメントームプロファイル（またはフラグメントームデータ）を分類器に組み込んで、１つまたは複数の疾患サブタイプ（例えば、対象における肺がん分子サブタイプ）の存在または非存在の尤度を決定してもよい。例えば、ＥＧＦＲＴ７９０ＭおよびＥＧＦＲＬ８５８Ｒは、肺がんの２つの分子サブタイプである。１つまたは複数の疾患サブタイプの存在または非存在の尤度に関するそのような情報を使用して、対象を（例えば、肺がんと）診断してもよく、診断（例えば、肺がんの分子サブタイプ）を有する対象を階層化してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置（例えば、所定の用量での標的化処置などの薬物）を選択してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を中止してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を変更してもよく（例えば、第１の薬物から第２の薬物へ、または第１の用量から第２の用量へ）、または対象についてさらなる医学的検査（例えば、イメージングまたは生検）を実施してもよい。

１つまたは複数のフラグメントームプロファイル（またはフラグメントームデータ）を分類器に組み込んで、対象の処置（例えば、がん、または他の疾患、障害、もしくは異常な生物学的状況のための薬物または治療）に対する応答の尤度を決定してもよい。例えば、処置は、ＥＧＦＲ陽性肺がんを処置するために設計されたチロシンキナーゼ阻害剤（ＴＫＩ）などの標的化処置でありうる。ＴＫＩの例は、エルロチニブ（ｅｒｌｏｎｉｔｉｂ）およびゲフィチニブ（ｇｅｆｉｎｉｔｉｂ）である。対象の処置に対する応答の尤度に関するそのような情報を使用して、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置（例えば、所定の用量での標的化処置などの薬物）を選択してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を中止してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を変更してもよく（例えば、第１の薬物から第２の薬物へ、または第１の用量から第２の用量へ）、または対象についてさらなる医学的検査（例えば、イメージングまたは生検）を実施してもよい。

１つまたは複数のフラグメントームプロファイル（またはフラグメントームデータ）を分類器に組み込んで、腫瘍の微小環境に由来する情報（例えば、ｃｆＤＮＡ断片に対応する起源組織）の尤度を決定してもよい。フラグメントームプロファイルは、血液中を循環する核酸からの特徴的なシグナル（またはシグネチャー）を含みうることから、そのようなシグネチャーは、腫瘍細胞、白血球、および他のバックグラウンド細胞、ならびに腫瘍の微小環境からの集合シグナルを含みうる。腫瘍細胞の生物学および微小環境はいずれも、腫瘍の生物学および活性に影響を及ぼすために役割を果たしうる。このため、腫瘍の微小環境に由来する情報の尤度に関するそのような情報を使用して、起源組織（例えば、腫瘍活性が組織または臓器において優勢であること）を同定してもよい。そのような情報をデコンボリューションして、副次構成要素（例えば、炎症を有する臓器、白血球、腫瘍、正常なアポトーシス細胞）を同定してもよい。そのような副次構成要素情報を使用して、腫瘍が位置する組織および／または臓器を決定してもよい。

マルチパラメトリック解析は、その例を図２に示す２－Ｄ密度プロット（例えば、ヒートプロットまたはヒートマップ）によって表すことができる。水平軸は、第１の独立変数（例えば、ゲノムの複数のゲノム領域におけるゲノム位置）でありうる。垂直軸は、第２の独立変数（例えば、ｃｆＤＮＡ断片長）である。ヒートプロットは、分布関数値の範囲における分布関数値（例えば、関数値ｙ）の異なる分位数を表す複数の色を有する。例えば、ヒートプロットは、６つの色（青、シアン、緑、黄、オレンジ、および赤）の複数を含んでもよく、組における各々の連続する色はそれぞれ、分布関数値の範囲の第１、第２、第３、第４、第５、および第６分位数における分布関数値を表す。あるいは、ヒートプロットは、複数の個別の色（例えば、青、シアン、緑、黄、オレンジ、および赤）の連続する組合せを含んでもよく、各々の色は、分布関数値の範囲内の各々のヒートプロットポイントの関数値の相対的パーセンタイルに従って、複数の個別の色の線形加重組合せを表す。そのようなヒートプロットは、三次元（３－Ｄ）でありうる。しかし、多次元を生成するための他の多くのアプローチを使用してもよい。一部の例では、マルチパラメトリック解析は、同時に解析される２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、または２０より多くの次元を含む。

図２に認められるように、そのようなヒートプロットは、ｃｆＤＮＡ断片分布（図１Ｅ）の典型的なパターンの結果としてゲノム位置または断片長において周期性を明らかにしうる。この周期性は、ヒートプロットの水平軸または垂直軸のいずれかにおいて約１６７ｂｐでありうる。

１つのマルチパラメトリック解析は、一例としてヒートマップなどのマルチパラメトリックモデルを生成し、データマイニングツールを使用して、非ランダムの系統的パターンを同定することができる。そのようなパターンは、状態（例えば、心血管状態、感染症、炎症、自己免疫障害、がん、特定のタイプのがんの診断、特定のステージのがんの診断等）と診断されている対象などのコホートの表現型に関連するピーク高さまたはピーク幅の関連性を含みうる。

マルチパラメトリックヒートマップを生成後、例えば多変量機械学習技術または非悪性のコホートと比較した２－Ｄ密度プロットの残差変動の直接モデリングを使用して、この空間を複数の異なる方法の１つで変換してもよい（図３に示すように）。例えば、マルチパラメトリック解析において、所定のゲノム位置での断片量（ｘ_１）および断片長（ｘ_２）の関数として、血漿中異常発現（分布関数値ｙ）の計測値を確立することができる。そのような関数形は、（１）正規化カバレッジおよび断片長空間におけるＬ２ノルムとして単純にすることができ、または（２）陰性対照および／もしくは健康なドナー参照の組の二変量正規化近似として表すことができる。後者（２）の例として、血漿中異常発現計測値は、例えばロバストな多変量位置および高い破談点を有するスケール推定値（ＦａｓｔＭｉｎｉｍｕｍＣｏｖａｒｉａｎｃｅＤｅｔｅｒｍｉｎａｎｔｅｓｔｉｍａｔｏｒとしても公知）を使用して、データの第１のモーメントおよび第２のモーメントによって決定した確率等高線楕円を有する二変量正規密度の負の対数でありうる。

データ変換の実施形態を説明するために、図３Ａ～３Ｄは、ゲノム位置の３つの異なる組（２つはＰＩＫ３ＣＡに由来し、１つはＥＧＦＲに由来する）の血漿中異常発現計測値を示す、４つの異なる変換したマルチパラメトリックヒートマップの例を表す。各々のヒートマップは、断片開始および幅密度を、２０００例より多くの臨床試料において血漿中異常発現計測値に変換することによって生成した。水平軸は、エクソン正規化１０ｂｐ断片開始カバレッジを示しうる。垂直軸は、中心化中央値１０ｂｐ断片サイズを示しうる。各々の臨床試料を、塗りつぶした色の円で、以下のように示す：健康な対照を暗緑色で示し、がんを有する対象を青、シアン、黄、オレンジ、および赤（それぞれ、０．１％～９３％の最大変異体アレル割合（ＭＡＦ）値に対応する）の範囲の色で示す。実際に、青色の円は、スペクトルの最小値または最低値末端（例えば、がんを有する対象のコホートにおけるＭＡＦ最大値の範囲）に対応しうるが、赤色の円は、スペクトルの最大値または最高値末端（例えば、がんを有する対象のコホートにおけるＭＡＦ最大値の範囲）に対応しうる。

図３Ａおよび３Ｂから、本発明者らは、ゲノム位置のＰＩＫ３ＣＡ｜２２３８の組に関して、高い最大ＭＡＦを有するがんの対象（例えば、赤色の円で示す）は、健康な対照（例えば、緑色の円で示す）と比較して、中心化中央値１０ｂｐ断片サイズに関してより低い値を有する傾向があり、エクソン正規化１０ｂｐ断片開始カバレッジに関してより高い値を有する傾向があることを観察する。図３Ｃから、本発明者らはまた、ゲノム位置のＰＩＫ３ＣＡ｜２６６３の組に関して、高い最大ＭＡＦを有するがんの対象（例えば、赤色の円で示す）は、健康な対照（例えば、緑色の円で示す）と比較して、中心化中央値１０ｂｐ断片サイズに関してより高い値を有する傾向があり、エクソン正規化１０ｂｐ断片開始カバレッジに関してより低い値を有する傾向があることを観察する。図３Ｄから、本発明者らはまた、ゲノム位置のＥＧＦＲ｜６１０１の組に関して、高い最大ＭＡＦを有するがんの対象（例えば、赤色の円で示す）は、健康な対照（例えば、緑色の円で示す）と比較して、中心化中央値１０ｂｐ断片サイズに関してより高い値を有する傾向があり、エクソン正規化１０ｂｐ断片開始カバレッジに関してより高い値を有する傾向があることを観察する。ゲノム位置のこれらの３組の各々に関して、（１）中心化中央値１０ｂｐ断片サイズの分布および（２）エクソン正規化１０ｂｐ断片開始カバレッジの分布の両方のシフト（例えば、ｘ軸およびｙ軸両方のシフト）が、健康な対照と比較してがんの対象コホートにおいて観察される。がんのステータスの結果としてのマルチパラメトリック分布における分布シフトのこれらの観察は、配列リードデータ解析（例えば、バイオインフォマティクス解析）とは独立して明白であり、一塩基バリアント（ＳＮＶ）、コピー数多様性（ＣＮＶ）、挿入および欠失（インデル）または他の通常の遺伝子異常を同定するためのバイアス（例えば、単独で、または他の臨床的に観察されるデータと共に）として使用することができる。

一例では、マルチパラメトリックモデルを使用して、対象のセルフリーＤＮＡを解析することによってがんを検出する。第１に、セルフリーＤＮＡを、一組のがんを有する複数の対象およびがんを有しない対象の体液試料から得た。ｃｆＤＮＡ断片をシークエンシングして、断片の複数の配列リードを産生した。各々の配列リードを、ヒトゲノムの一組の複数の参照配列にマッピングした。マルチパラメトリックモデルを以下のように生成した：一組の中心化中央値１０ｂｐ断片サイズ値における各々の値（第１の変数）に関して、一組のエクソン正規化１０ｂｐ断片開始カバレッジ値における各々の値（第２の変数）に関して、およびゲノム位置のＰＩＫ３ＣＡ｜２６６３の組における各々のゲノム位置（第３の変数）に関して、がんを有しない各々の健康な対照対象のＭＡＦを緑色でプロットし、がんを有する各々の対象のＭＡＦを、ＭＡＦを表す色のスペクトル（例えば、青から黄、オレンジ、赤へと増加させる）でプロットした。このマルチパラメトリックモデルにおいて、高い最大ＭＡＦを有するがんの対象（例えば、赤色の円で示す）は、健康な対照（例えば、緑色の円で示す）と比較して、中心化中央値１０ｂｐ断片サイズに関してより高い値を有する傾向があり、エクソン正規化１０ｂｐ断片開始カバレッジに関してより低い値を有する傾向があることが観察された。次に、上記と同じ技法を、がんのステータスが未知である第１および第２の試験対象について繰り返した。第１の試験対象に関連する円が、健康な対照を表す範囲内（例えば、緑色の円のクラスタを有する領域）に入ったことから、第１の試験対象は、この試験に基づいてがんに関して陰性であると診断された。第２の試験対象に関連する円は、がんを有する対象を表す範囲内（例えば、赤色の円のクラスタを有する領域）に非常に高い９０％のＭＡＦで入ったことから、第２の試験対象は、この試験に基づいて、がんに関して陽性であると診断されたか、またはさらなる生検検査に回された。マルチパラメトリックモデルを、このように対象のｃｆＤＮＡ試料について実施して、これらの対象においてがんを検出した。

１つまたは複数の多数のフィルタリング技術を、計算された血漿中異常発現計測値に達する前、または血漿中異常発現計測値が確立された後のいずれかで、マルチパラメトリック分布データに適用してもよい。フィルタリング技術は、ノイズまたは他の微細な現象を除外しながら、一組のデータ（例えば、一組の精細データ）において重要な情報、傾向、またはパラメータを捕捉することを試みる近似関数を作成しうる。例えば、フィルタリング技術によって、一組のデータからより多くの情報を抽出することが可能となりうるか、またはフレキシブルもしくはロバストである解析が可能となりうる。試料のフィルタリング技術は、移動平均、グローバル多項式関数、スプライン、デジタル平滑化（例えば、バターワースフィルター、フーリエ平滑化等）、ウィグナー変換、連続ウェーブレット変換（ＣＷＴ）および不連続ウェーブレット変換（ＤＷＴ）を含む。フィルタリング技術はまた、アッセイのバイアス、例えば標的化捕捉に関連する濃縮関連バイアスに関連する既定の断片開始カバレッジの減算によりアッセイ特異的ノイズを除去するステップを伴いうる。均一な断片分布を表す不自然な試料をアッセイしてもよく、そのような不自然な試料において観察された断片長濃縮を使用して、臨床試料シグナルを補正してもよい（例えば、シグナルのアッセイ関連構成要素をフィットさせるおよび／または減算することにより）。あるいはまたはさらに、断片の計数をさらに正規化して、血漿ＤＮＡ分解によるバイアスを補正することができる。そのような分解は、例えば取り扱いおよび保存に由来しえて、それによって予想される断片長分布の変化および／または混入したゲノムＤＮＡの存在が起こりうる。

一例として、図４は、所定の臨床試料中のゲノム断片における位置によって変化する血漿中異常発現スコアの試料を示す（下のパネル）。上のパネルは、アッセイした関連遺伝子の一覧およびそれらの遺伝子において見出された任意の変化（ＳＮＶまたはＣＮＶ）を示す。血漿中異常発現スコアは、局在化ゲノム領域での血漿中異常発現を表す値でありうる。血漿中異常発現スコアは、健康な細胞を起源とするほとんどのＤＮＡフラグメントームシグナルが観察される標準的な包絡（例えば、マルチパラメトリック分布の領域（例えば、エリア））を示しうる。血漿中異常発現スコアは、非悪性の健康な対照対象（目的の疾患を有しない）の訓練セットを使用するステップ、および訓練セットの各々の対象のｃｆＤＮＡ試料についてマルチパラメトリック解析を実施するステップによって生成されうる。次に、コホートに対して断片が明記された度数（例えば、９０％、９５％、９６％、９７％、９８％、９９％、９９．９％、９９．９９％、９９．９９９％、または９９．９９５％）で観察される領域を同定してもよい。次に、これらの領域を隠してもよく、それによってこれらの領域外の密度が同定される。次に、これらの密度を集計（または合計）して、血漿中異常発現スコアを得てもよい。そのような血漿中異常発現スコアは、例えば変異負荷、腫瘍量、または疾患負荷を示しうる。

血漿中異常発現スコアの一例は、所定のゲノム領域または塩基位置をカバーするＤＮＡ断片の数を示すバリアントフリーカバレッジ（ＶＣＦ）スコアでありうる。低い値の血漿中異常発現スコアは、局在化ゲノム領域で比較的低レベルの血漿中異常発現を示しうる。高い値の血漿中異常発現スコアは、局在化ゲノム領域で比較的高レベルの血漿中異常発現を示しうる。血漿中異常発現スコアは、例えばユニパラメトリックヒートプロット（またはヒートマップ）またはマルチパラメトリックヒートプロット（またはヒートマップ）において認められるように、相対的な差を示すために、異なる色（例えば、血漿中異常発現スコアの範囲の複数の分位数における各々の異なる分位数に関して異なる色）で表されうる。

再び図４を参照すると、血漿中異常発現スコアにおいて複数の異なるピークを観察することができ、それらは複数の十分に確立されたがんマーカー遺伝子（例えば、ＰＩＫ３ＣＡ、ＭＹＣ、ＣＤＫＮ２Ａ、ＣＣＮＤ１、ＣＣＮＤ２、ＫＲＡＳ、ＣＤＫ４、ＲＢ１、およびＥＲＢＢ２）に対応する。血漿中異常発現スコアにおける異なるピークは、公知の腫瘍マーカー、例えばＣａｔａｌｏｇｕｅｏｆＳｏｍａｔｉｃＭｕｔａｔｉｏｎｓｉｎＣａｎｃｅｒ（ＣＯＳＭＩＣ）において報告された体細胞変異に関連しうる。

多数の（例えば、数百から数千、またはそれより多くの）臨床試料においてマルチパラメトリックモデルを生成することによって、そのようなマルチパラメトリックモデルは、特定のがんタイプに関連しうるか、または体細胞バリアントもしくは他のタイプのバリアントを発見するために解析することができる経験的な特色を含む計測値（例えば、血漿中異常発現スコア）を生じうる。次に、そのような情報を、バリアントフリーの体細胞バリアント分類器に組み込むことができる。一例として、５，０００例の非小細胞肺癌（ＮＳＣＬＣ）患者の試料中の複数のゲノム領域における血漿中異常発現スコアの教師なしクラスタリングを解析して、ヒートプロットとして可視化することができる。

例えば、図５は、各々が異なる非小細胞肺癌（ＮＳＣＬＣ）患者に由来する５，０００例の試料中の複数のゲノム領域における血漿中異常発現スコアの教師なしクラスタリングによって生成されたヒートプロットを示す。Ｙ軸は、５，０００例の患者試料の各々を反映する。Ｘ軸は、解析されるゲノム位置のパネルを反映する。色は、各試料の各々のゲノム位置に関する血漿中異常発現スコアを反映する。データセット全体を、教師なしクラスタリングアルゴリズムを使用してクラスタ化した。このヒートマップに基づいて、本発明者らは、このデータを使用して患者のバリアントフリーの分類に関するホットスポットとして使用することができる領域を同定することができる。そのような分類を使用して、臨床試験に含めるべき、ある特定の治療を施すべき、治療的処置をやめるべき等の患者を同定することができる。

水平軸（長軸）は、ゲノムの複数のゲノム位置におけるゲノム位置を示しうる。垂直軸（短軸）は、臨床試料を示しうる（例えば、各々の列は１つの臨床試料からのデータを表す）。そのようなヒートプロットは、比較的高い血漿中異常発現のエリア（例えば、赤、オレンジ、および黄色のエリア中）および比較的低い血漿中異常発現のエリア（例えば、青および緑色のエリア中）を示すことができる。

マルチパラメトリックモデルの別の例として、ヒートマップを、ゲノム位置（例えば、１０塩基対（「ｂｐ」）の解像度で）において生成し、図６（パートＡ）に示すように、多数の臨床試料（例えば、２０００例）において単一の遺伝子（例えば、ＫＲＡＳ）を可視化することができる。水平軸は、ゲノムの複数のゲノム位置（例えば、ＫＲＡＳ遺伝子にまたがる）におけるゲノム位置を示しうる。垂直軸は、臨床試料を示しうる（例えば、各々の列は１つの臨床試料からのデータを表す）。この解析において、少なくとも１つの報告されたバリアントを有するＫＲＡＳバリアントフリーカバレッジ値（ＶＦＣ）を、ヒートプロットにおいて可視化する（図６（パートＡ））。上部の高い変数ビンをゲノム順に配置して、これに転写物アイソフォームおよびｍＲＮＡプロファイルを重ねる（図６（パートＢ））。

多数の臨床試料における１つまたは複数のユニパラメトリックおよび／またはマルチパラメトリックモデルから生成された血漿中異常発現スコアの観察された特色を、周知の体細胞変異検出および定量方法アプローチの中に組み込んで、そのような体細胞変異検出および定量方法の検出感度を改善してもよい。例えば、ｃｆＤＮＡなどのセルフリー核酸におけるコピー数多様性（例えば、ＣＮＶ）を検出および定量するための現行の方法において、典型的なカバレッジ計測値（例えば、バリアントを含む分子の数の、バリアントを有しない分子の参照数に対して計算された比率）を、マルチパラメトリックモデルにおけるシフトに対応する計測値によって調節してもよく、または交換してもよい。

多数の臨床試料における１つまたは複数のユニパラメトリックおよび／またはマルチパラメトリックモデルから生成された血漿中異常発現スコアの観察された特色を、クラスタ化し、エンリッチメント解析を行って、基礎となる体細胞変化に関連する血漿中プロファイルを産生してもよい。このアプローチは、バリアントフリー血漿中異常発現スコアを使用することによって、一組の１つまたは複数の体細胞変異（例えば、公知の腫瘍マーカー）がｃｆＤＮＡ試料を得た患者に存在する確率的な尤度の計算または決定をもたらしうる。

対象のセルフリーＤＮＡ試料から生成された１つまたは複数のユニパラメトリックモデルを、前記試料を、一組の一塩基バリアント（ＳＮＶ）または他の遺伝子バリアントの各々を有するまたは有しないとして分類するように訓練された分類器（例えば、機械学習エンジン）に組み込んでもよい。これらのＳＮＶまたは他の遺伝子バリアントは、表１から選択される１つまたは複数の遺伝子において見出されうる。この分類器はバリアントフリー分類器であってもよい（例えば、体細胞変異の同定に基づいて分類しない）。この分類器は、バリアント認識分類器であってもよい（例えば、体細胞変異の同定に基づいて分類する）。

バリアントフリー分類器は、ゲノムの任意の遺伝子座またはサブ遺伝子座における複数の塩基位置の各々で塩基同一性を考慮に入れることなく、ゲノムの遺伝子座での配列異常の存在または非存在を決定することができ、前記複数の塩基同一性は、公知の体細胞変異を示す。サブ遺伝子座は、複数の連続する塩基位置でありえて、そのため、前記複数性はゲノムにおける遺伝子座のサブセットである。バリアントフリー分類器は、ユニパラメトリックまたはマルチパラメトリック解析を使用して、対象の遺伝子座における配列異常の存在または非存在を決定してもよい。この遺伝子座は、報告された腫瘍マーカーであってもよい。この遺伝子座は、これまでに報告されていない腫瘍マーカーであってもよい。

バリアント認識分類器は、ゲノムの１つまたは複数の遺伝子座またはサブ遺伝子座における複数の塩基位置の各々で塩基同一性を考慮に入れることによって、ゲノムの第１の遺伝子座での配列異常の存在または非存在を決定することができ、前記複数の塩基同一性は、公知の体細胞変異を示しており、第１の遺伝子座はゲノムの１つまたは複数の遺伝子座またはサブ遺伝子座に存在しない。言い換えれば、バリアント認識分類器は、ゲノムの他の任意の遺伝子座で検出される公知の体細胞変異に関する情報を組み込むことによって、所定の遺伝子座での配列異常を同定しうる。

あるいは、対象のセルフリーＤＮＡ試料から生成した１つまたは複数のマルチパラメトリックモデルを、一組の一塩基バリアント（ＳＮＶ）または他の遺伝子バリアントの各々を有するまたは有しないと前記試料を分類するように訓練された分類器（例えば、機械学習エンジン）に組み込んでもよい。これらのＳＮＶまたは他の遺伝子バリアントは、表１から選択してもよい。この分類器は、バリアントフリー分類器であってもよい（例えば、体細胞変異の同定に基づいて分類しない）。この分類器はバリアント認識分類器であってもよい（例えば、体細胞変異の同定に基づいて分類する）。マルチパラメトリックモデルは、１つまたは複数の遺伝子座に関連する任意の情報、例えば、（ｉ）遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）遺伝子座で開始するＤＮＡ配列、（ｉｉｉ）遺伝子座で終止するＤＮＡ配列、（ｉｖ）ＤＮＡ配列のジヌクレオソーム保護もしくはモノヌクレオソーム保護、（ｖ）参照ゲノムのイントロンもしくはエクソンに位置するＤＮＡ配列、（ｖｉ）１つもしくは複数の特徴を有するＤＮＡ配列のサイズ分布、（ｖｉｉ）１つもしくは複数の特徴を有するＤＮＡ配列の長さ分布、または（ｖｉｉｉ）その任意の組合せから選択される特徴の定量的測定値を示す値を含む１つまたは複数のデータセットを含みうる。

あるいは、対象のセルフリーＤＮＡ試料から生成した１つまたは複数のユニパラメトリックモデルおよび１つまたは複数のマルチパラメトリックモデルを、一組の一塩基バリアント（ＳＮＶ）または他の遺伝子バリアントの各々を有するまたは有しないと前記試料を分類するように訓練された分類器（例えば、機械学習エンジン）に組み込んでもよい。これらのＳＮＶまたは他の遺伝子バリアントは、表１から選択してもよい。この分類器は、バリアントフリー分類器であってもよい（例えば、体細胞変異の同定に基づいて分類しない）。この分類器はバリアント認識分類器であってもよい（例えば、体細胞変異の同定に基づいて分類する）。ユニパラメトリックモデルは、１つまたは複数の遺伝子座に関連する任意の情報、例えば、（ｉ）遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）遺伝子座で開始するＤＮＡ配列、（ｉｉｉ）遺伝子座で終止するＤＮＡ配列、（ｉｖ）ＤＮＡ配列のジヌクレオソーム保護もしくはモノヌクレオソーム保護、（ｖ）参照ゲノムのイントロンもしくはエクソンに位置するＤＮＡ配列、（ｖｉ）１つもしくは複数の特徴を有するＤＮＡ配列のサイズ分布、（ｖｉｉ）１つもしくは複数の特徴を有するＤＮＡ配列の長さ分布、または（ｖｉｉｉ）その任意の組合せから選択される特徴の定量的測定値を示す値を含む１つまたは複数のデータセットを含みうる。

血漿中異常発現スコアなどの計測値に加えて、マルチパラメトリック解析はまた、対象の腫瘍関連情報を明らかにしうる。一例では、ゲノムの任意の所定の位置でのリードの数は、セルフリー核酸試料を獲得した対象の腫瘍のステータスに対する洞察、例えば起源組織、腫瘍量、腫瘍の侵襲性、腫瘍のドラッガビリティ、腫瘍の進化およびクローン性、ならびに処置に対する腫瘍の抵抗性を生じうる。

別の例では、ゲノムの任意の所定の位置でのリードの数は、ゲノムにおけるその位置でのリードの長さによって干渉され、セルフリー核酸試料を獲得した対象の腫瘍のステータスに対する洞察、例えば起源組織、腫瘍量、腫瘍の侵襲性、腫瘍のドラッガビリティ、腫瘍の進化およびクローン性、ならびに処置に対する腫瘍の抵抗性を生じうる。

モデルにおけるパターン、例えばピークの高さ、ピークの幅、新しいピークの出現、ピークのシフト、および／またはスメアは、表現型の指標として役立ちうる。一部の例では、個体のヌクレオソームプロファイルを、参照マルチパラメトリックモデルまたはパターンと比較して、表現型または表現型の変化を決定する。

一態様では、本明細書において、対象から得たセルフリー試料（またはセルフリーデオキシリボ核酸（ＤＮＡ））からのＤＮＡ断片における遺伝子異常の存在または非存在を示す出力を生成するための方法を開示する。方法は、ゲノムの複数の塩基位置でのセルフリー試料（またはセルフリーＤＮＡ）からのＤＮＡ断片の分布を構築する（例えば、コンピュータによって）ステップを含みうる。次に、対象における遺伝子異常の存在または非存在を示す出力を、分布を使用して決定してもよい。存在または非存在は、（ｉ）ＤＮＡ断片の分布を、対象のゲノムに対して外部の起源からの参照分布と比較することなく、（ｉｉ）ＤＮＡ断片の分布に由来するパラメータを参照パラメータと比較することなく、および／または（ｉｉｉ）ＤＮＡ断片の分布を、対象の対照からの参照分布と比較することなく決定されうる。一部の実施形態では、遺伝子異常は、コピー数多様性（ＣＮＶ）および／または一塩基バリアント（ＳＮＶ）を含む。一部の実施形態では、分布は、１つまたは複数のマルチパラメトリック分布を含む。

一態様では、本明細書においてジヌクレオソーム保護を有するＤＮＡ断片、および／またはモノヌクレオソーム保護を有するＤＮＡ断片に関して対象の生物試料を処理するための方法を開示する。処理するステップは、対象の生物試料を得るステップを含みうる。生物試料は、デオキシリボ核酸（ＤＮＡ）断片を含みうる。アッセイするステップは、（ｉ）１つもしくは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有するＤＮＡ断片、および／または（ｉｉ）遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の存在または非存在を示すシグナルを生成するステップを含みうる。そのような生成されたシグナルを使用して、（ｉ）１つもしくは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有するＤＮＡ断片、および／または（ｉｉ）遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の存在または非存在を示す出力を生成してもよい。アッセイするステップは、一組の１つまたは複数の遺伝子座のＤＮＡ断片に関して生物試料を濃縮するステップを含みうる。そのような遺伝子座は、腫瘍関連遺伝子座および／または非腫瘍関連遺伝子座を含みうる。アッセイするステップは、生物試料のＤＮＡ断片をシークエンシングするステップを含みうる。

別の態様では、本明細書において、対象から得たセルフリー試料（またはセルフリーデオキシリボ核酸（ＤＮＡ））からのＤＮＡ断片における遺伝子異常の存在または非存在を示す出力を生成するための方法を開示する。生成するステップは、セルフリー試料（またはセルフリーＤＮＡ）からＤＮＡ断片の分布（例えば、ゲノムの複数の塩基位置での）を構築する（例えば、コンピュータによって）ステップを含みうる。次に、１つまたは複数の遺伝子座の各々に関して、（１）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有するＤＮＡ断片の数、および（２）遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の数の比率、またはその逆を示す定量的測定値を計算してもよい（例えば、コンピュータによって）。次に、対象における１つまたは複数の遺伝子座における遺伝子異常の存在または非存在を示す出力を生成してもよい。生成は、１つまたは複数の遺伝子座の各々に関する定量的測定値を使用してもよい。一部の実施形態では、分布は、１つまたは複数のマルチパラメトリック分布を含む。
参照モデル

参照マルチパラメトリックモデルは、異なる時点で同じ対象から得た異なる試料から導出されうる。そのような試料の一部または全ては、セルフリーＤＮＡを含みうる。あるいは、これらの試料のうちの１つまたは複数は、腫瘍から直接誘導することができる（例えば、生検または穿刺吸引液を介して）。そのような試料から導出したモデルを使用して、患者のがんをモニターする、がんにおけるクローン性を観察する、新規変異を検出する、および薬物抵抗性を検出することができる。

参照マルチパラメトリックモデルは、対象の腫瘍周囲の微小環境の間質組織から導出してもよい。そのようなモデルに使用するＤＮＡは、例えば生検の際に誘導することができる。間質組織から導出したモデルを使用して、ベースラインのマルチパラメトリックモデルを作成することができる。これによって、腫瘍由来セルフリーＤＮＡにおける新規多様性の早期観察が可能となりうる。

参照マルチパラメトリックモデルは、健康な無症候性の個体の剪断されたゲノム（非セルフリー）ＤＮＡから導出してもよい。剪断ＤＮＡを使用して、健康な個体のセルフリーＤＮＡ試料を模倣することができる。例えば、そのような剪断ＤＮＡ試料を、フラグメントームシグナルの正規化のために使用してもよい。例えば、剪断ＤＮＡを生成して実験に使用して、一組の１つまたは複数のプローブの捕捉効率を検証および最適化することができる（例えば、標的化アッセイにおいて）。

参照マルチパラメトリックモデルを、所定の組織タイプのフラグメントーム（例えば、ヌクレオソーム）プロファイルから導出してもよい。ヌクレオソーム占有プロファイリング技術の例には、Ｓｔａｔｈａｍら、ＧｅｎｏｍｉｃｓＤａｔａ、３巻、２０１５年３月、９４～９６頁（２０１５年）が挙げられる。

参照試料のマルチパラメトリックモデルを使用して、アポトーシスプロセスおよび壊死プロセスに関連するフラグメントーム（例えば、ヌクレオソーム）パターンまたはプロファイルを決定することができる。次に、そのようなパターンの検出を独立してまたは共に使用して、対象における状態をモニターすることができる。例えば、腫瘍が拡大すると、腫瘍の微小環境における壊死のアポトーシスに対する比率が変化しうる。壊死および／またはアポトーシスにおけるそのような変化は、フラグメントームプロファイリングを使用する本明細書に記載の方法を使用して検出することができる。

距離の関数は、（１）対象のユニパラメトリックまたはマルチパラメトリックモデルと、（２）参照ユニパラメトリックまたはマルチパラメトリックモデル（例えば、健康な集団に典型的な）の間の差異を計算することによってフラグメントームプロファイルから導出されうる。
フラグメントームシグネチャー

一例では、表現型を有する対象（例えば、無症候性の健康な個体または特定のタイプのがんを有する個体）のコホートは、そのフラグメントームプロファイルを本明細書における方法を使用してアッセイすることができる。コホートメンバーのフラグメントームプロファイルを解析し、コホートのフラグメントームシグネチャーを決定する。ｄｅｎｏｖｏで試験する対象は、２つまたはそれより多くのコホートのフラグメントームシグネチャーを使用して、そのプロファイルを、訓練された分類器（訓練されたデータベース）によって１つまたは複数のクラスに分類することができる。

個体のコホートは全て、共有する特徴を有しうる。この共有する特徴は、腫瘍のタイプ、炎症状態、アポトーシス状態、壊死状態、腫瘍の再発、および処置に対する抵抗性からなる群から選択されうる。アポトーシス状態は、例えば健康な対象と比較して壊死より高い尤度でアポトーシスによる細胞死を引き起こす疾患または状態でありうる。アポトーシス状態は、感染症および細胞の代謝回転からなる群から選択されうる。壊死状態は、例えば、健康な対象と比較してアポトーシスより高い尤度で壊死による細胞死を引き起こす疾患または状態でありうる。壊死状態は、心血管状態、敗血症、および壊疽からなる群から選択されうる。

一部の例では、コホートは、特定のタイプのがん（例えば、乳がん、結腸直腸がん、膵臓がん、前立腺がん、黒色腫、肺がんまたは肝臓がん）を有する個体を含む。そのようながんのヌクレオソームシグネチャーを得るために、各々のそのような個体は、血液試料を提供する。セルフリーＤＮＡを、そのような血液試料から得る。そのようなコホートのセルフリーＤＮＡをシークエンシングする（ゲノムの一組の領域の選択的濃縮を伴うまたは伴わずに）。シークエンシング反応からの配列リードの形態での配列情報をヒトゲノムにマッピングする。任意選択で、分子を、マッピング操作の前または後のいずれかにユニーク分子リードに折り畳む。

所定の試料中のセルフリーＤＮＡ断片は、そこからセルフリーＤＮＡが生じる細胞の混合物を表すことから、各々の細胞タイプからの異なるヌクレオソーム占有は、所定のセルフリーＤＮＡ試料を表す数学モデルに寄与しうる。例えば、断片長の分布は、異なる細胞タイプまたは腫瘍と非腫瘍細胞との比較において異なるヌクレオソーム保護により生じうる。この方法を使用して、配列データのユニパラメトリック、マルチパラメトリック、および／または統計分析に基づく一組の臨床的に有用な評価を開発してもよい。

モデルをパネルの構成で使用して、領域（例えば、フラグメントームプロファイル関連領域）を選択的に濃縮し、特定の変異にまたがる多数のリードを確保してもよく、また、転写開始部位（ＴＳＳ）、プロモーター領域、ジャンクション部位、およびイントロン領域のような重要なクロマチン中心事象を考慮してもよい。

例えば、フラグメントームプロファイルにおける差異は、イントロンとエクソンのジャンクション（または境界部）またはその付近で見出される。１つまたは複数の体細胞変異の同定を、１つまたは複数のマルチパラメトリックまたはユニパラメトリックモデルと相関させて、ｃｆＤＮＡ断片が分布するゲノム位置を示すことができる。この相関分析は、フラグメントームプロファイルの破壊が最も顕著である１つまたは複数のイントロン－エクソンジャンクションを明らかにしうる。例えば、フラグメントームプロファイルの破壊は、発現されるタンパク質の異なるアイソフォームが原因でありえて、結合部位の変化を引き起こし、それによってｃｆＤＮＡ断片のヌクレオソーム保護を変化させ、これは、イントロン－エクソンジャンクションの特定の位置がアイソフォームの開始に関連するイントロン－エクソンジャンクションでのｃｆＤＮＡ断片の異なるシグネチャーおよび分布として経験的に観察することができる。イントロン－エクソン境界部をパネルの構成に含めて、これらの領域を選択的に濃縮してもよく、これによって疾患または他の異常な生物学的状況のより良好な区別（例えば、異なる尤度の決定）がもたらされうる。このアプローチは、エクソン領域全体の代わりにまたはそれに加えてエクソン－イントロンジャンクションに重点を置くことによってパネルの設計を改善しうる。

フラグメントームプロファイルを、既存の体細胞変異パネルと組み合わせることができる。一部の例では、フラグメントームプロファイリングと組み合わせてＳＮＶ情報を使用すると、ＳＮＶコールの感度または精度を増加させることができる。例えば、ある特定のＳＮＶが、平均より短い（例えば、長さ１５５、１５４、１５３、１５２、１５１、１５０、１４９、または１４８ｂｐ未満）断片に主に存在する場合、ＳＮＶが体細胞変異である可能性はより高い。ＳＮＶが平均より長い（例えば、１５５、１５６、１５７、１５８、１５９、１６０、１６１、１６２、１６３、１６４、１６５、または１６６より長い）断片に主に見出される場合、ＳＮＶが生殖系列ＳＮＶである可能性はより高い。したがって、本開示のアッセイは、セルフリーＤＮＡ試料からのユニーク分子におけるＳＮＶならびに各々のユニーク分子の断片サイズを決定するステップ、およびＳＮＶを含むユニーク分子のサイズ分布に基づいて体細胞ＳＮＶコールの信頼スコアを調節するステップを伴いうる。

フラグメントームプロファイリング解析は、対象を表すセルフリーＤＮＡのユニパラメトリックまたはマルチパラメトリック解析を実施するステップを含みうる。所定の対象の配列データから、参照ゲノムの各々の塩基位置に関して１つまたは複数の期待分布を生成してもよく、各々の期待分布は、所定の位置にマッピングするリードの数、所定の位置にマッピングするセルフリーＤＮＡ断片長、所定の位置で開始するセルフリーＤＮＡ断片の数、および所定の位置で終止するセルフリーＤＮＡ断片の数のうちの１つまたは複数を説明する。

ゲノムの所定の遺伝子座で試料と参照の間の塩基対毎の比較を実施することによって、このパターンから何らかの逸脱（例えば、所定の塩基位置での期待値より増加もしくは減少したリード数、または分布のシフト）が観察されれば、腫瘍量、腫瘍タイプ、腫瘍のクローン性、または不均一性、腫瘍の侵襲性等などの腫瘍関連情報を示す。そのような逸脱は、ヌクレオソームポジショニングの多様性および細胞プロセスの下流の結果である。

例えば、感染症、炎症、ならびに腫瘍の成長および浸潤などの異常な細胞プロセスは、セルフリーＤＮＡ断片が循環して、リキッドバイオプシー応用のために血液試料の一部として収集される血流へのＤＮＡの脱落に対するアポトーシスおよび壊死経路の相対的寄与に影響を及ぼす。アポトーシスプロセスは、ヌクレオソームを切断することから、これらのプロセスはヌクレオソームが存在するより長いリード（例えば、より長い断片）を生じうる。ヌクレオソーム保護は、正常細胞より腫瘍細胞において異なることから、異なるデータパターンがコホートにおいて、例えばがんと正常の間、または２つの腫瘍タイプの間で観察されうる。

フラグメントームプロファイリング解析を実施するために、セルフリーＤＮＡ分子のコレクションを、対象から収集した血液試料から提供してもよい。セルフリーＤＮＡは、短い断片の形態（そのほとんどは長さ２００塩基対未満）でありうる。セルフリーＤＮＡにライブラリ調製およびハイスループットシークエンシングを行って、試料からセルフリーＤＮＡ分子を表す配列情報を生成してもよい。アライメント後、整列させた配列情報についてマルチパラメトリック解析を実施して、試料からのセルフリーＤＮＡ分子を表すマルチパラメトリックモデルを生成してもよい。

ユニパラメトリック解析を、前記配列情報を使用して一組の２つのデータセットについて実施して、試料からのセルフリーＤＮＡ分子を表す、二次元を有するユニパラメトリックモデルを生成してもよい。データセットは、定量的値のベクトルを含みうる。ユニパラメトリックモデルは、２つのデータセットを含んでもよく、例えば１つのデータセットがｙ軸を含み、１つのデータセットがｘ軸を含む。

マルチパラメトリック解析を、前記配列情報を使用して３つまたはそれより多くのデータセットの複数について実施して、試料からのセルフリーＤＮＡ分子を表す、３つまたはそれより多くの次元を有するマルチパラメトリックモデルを生成してもよい。マルチパラメトリックモデルは、３つのデータセットを含んでもよく、例えば１つのデータセットがｚ軸（または影をつけた色）を含み、１つのデータセットがｙ軸を含み、１つのデータセットがｘ軸を含む。

ユニパラメトリックまたはマルチパラメトリック解析のために選択するデータセットは、（ａ）シークエンシングした断片の開始位置、（ｂ）シークエンシングした断片の終止位置、（ｃ）マッピング可能な位置をカバーする、シークエンシングしたユニーク断片の数、（ｄ）断片長、（ｅ）マッピング可能な塩基対位置が、シークエンシングした断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングした断片内に出現する尤度、および（ｇ）シークエンシングした断片の配列モチーフからなる群から選択されうる。配列モチーフは、断片の末端に位置する長さ２～８塩基対の配列であり、これを使用して配列情報におけるパターンを同定してもよく、分類スキームに組み込んでもよい。

ユニパラメトリック解析は、ゲノムの２つまたはそれより多くの位置または領域の各々に１つのパラメータをマッピングするステップを含みうる。このパラメータは、（ａ）シークエンシングした断片の開始位置、（ｂ）シークエンシングした断片の終止位置、（ｃ）マッピング可能な位置をカバーする、シークエンシングしたユニーク断片の数、（ｄ）断片長、（ｅ）マッピング可能な塩基対位置が、シークエンシングした断片の末端に出現する尤度、および（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングした断片内に出現する尤度からなる群から選択されうる。ゲノムのこれらの２つまたはそれより多くの位置または領域は、表１に記載される目的の遺伝子のうちの１つまたは複数に関連する少なくとも１つの領域を含みうる。

マルチパラメトリック解析は、ゲノムの２つまたはそれより多くの位置または領域の各々に２つまたはそれより多くのパラメータをマッピングするステップを含みうる。これらのパラメータは、（ａ）シークエンシングした断片の開始位置、（ｂ）シークエンシングした断片の終止位置、（ｃ）マッピング可能な位置をカバーする、シークエンシングしたユニーク断片の数、（ｄ）断片長、（ｅ）マッピング可能な塩基対位置が、シークエンシングした断片の末端に出現する尤度、および（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングした断片内に出現する尤度からなる群から選択されうる。ゲノムのこれらの２つまたはそれより多くの位置または領域は、表１に記載される目的の遺伝子のうちの１つまたは複数に関連する少なくとも１つの領域を含みうる。

セルフリーＤＮＡは、その基礎となるクロマチン構成を表すフットプリントを含むことができ、これは発現を支配するヌクレオソーム占有、ＲＮＡポリメラーゼＩＩ休止、細胞死特異的ＤＮアーゼ過敏、および細胞死の際のクロマチン凝縮のうちの１つまたは複数を捕捉しうる。そのようなフットプリントは、細胞デブリのクリアランスおよび輸送のシグネチャー、例えばＤＮＡ断片化を有することができ、ＤＮＡ断片化は、アポトーシスにより瀕死の細胞ではカスパーゼ活性化ＤＮアーゼ（ＣＡＤ）によって実施されるが、また、瀕死の細胞が食作用を受けた後はリソソームＤＮアーゼＩＩによって実施され、それによって異なる切断マップがもたらされうる。ゲノム分割マップは、重要なウィンドウの目的の領域への集計を介して、クロマチンの上記の特性に関連する悪性状態と非悪性状態との比較における異なるクロマチン状況のゲノムワイドの同定によって構築することができる。そのような目的の領域は一般的に、ゲノム分割マップと呼ばれる。

ゲノムの２つまたはそれより多くの位置または領域は、（ｉ）１つまたは複数のゲノム分割マップを提供するステップ、および（ｉｉ）ゲノム分割マップからゲノムの位置または領域を選択するステップであって、ゲノムの各々のそのような位置または領域が目的の遺伝子にマッピングする、ステップによって同定されうる。ゲノムの２つまたはそれより多くの位置または領域は、長さが各々２～５００塩基対の間でありうる。ゲノムのこれらの位置または領域は、さらなる解析のために目的の遺伝子に関連する局在化ゲノム領域を表す。

マルチパラメトリック解析は、ゲノムの２つまたはそれより多くの領域のヒートマップを生成するステップを含みうる。このヒートマップは、２つまたはそれより多くのパラメータが、所定のゲノムの位置においてどのように変化するかに関する視覚的表示を与えうる。ゲノムの２つまたはそれより多くの領域は、表１に記載の遺伝子のうちの１つまたは複数から選択される少なくとも１つの領域を含みうる。コホート内またはコホートにわたる多数の対象（例えば、１００人より多く）を表すヒートマップを組み合わせて、対象が属する所定のコホートまたはコホートの群を表す１つまたは複数の参照ヒートマップを生成することができる。例えば、コホートは、特徴、例えば、診断された疾患（例えば、腫瘍タイプ）、共通の疾患状況（例えば、健康な対照）、または共通の疾患転帰（例えば、腫瘍の再発または処置に対する抵抗性）を共有する対象を含みうる。

マルチパラメトリック解析は、１つまたは複数の数学的変換を適用して、マルチパラメトリックモデルを生成するステップをさらに含みうる。マルチパラメトリックモデルは、（ａ）シークエンシングした断片の開始位置、（ｂ）シークエンシングした断片の終止位置、（ｃ）マッピング可能な位置をカバーするシークエンシングしたユニークな断片の数、（ｄ）断片長さ、（ｅ）マッピング可能な塩基対位置が、シークエンシングした断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングした断片内に出現する尤度、および（ｇ）配列モチーフからなる群から選択される２つまたはそれより多くの変数の同時分布モデルでありうる。マルチパラメトリックモデルから、１つまたは複数のピークを同定してもよい。各々のそのようなピークは、ピーク分布幅およびピークカバレッジを有しうる。

コホート内またはコホートにわたる多数（例えば、少なくとも５０、１００、２００、３００、５００、７００、１０００、２０００、３０００、５０００人またはそれより多く）の対象を表すユニパラメトリックまたはマルチパラメトリックモデルを組み合わせてそれぞれ、対象が属する所定のコホートまたはコホートの群を表す１つまたは複数の参照ユニパラメトリックまたはマルチパラメトリックモデルを生成してもよい。例えば、コホートは、共通の診断された疾患（例えば、腫瘍タイプ）、共通の疾患状況（例えば、健康な対照）または共通の疾患転帰（例えば、腫瘍の再発）を有する対象を含みうる。

ユニパラメトリックまたはマルチパラメトリック解析は、セルフリーＤＮＡ分子のＲＮＡ発現を測定するステップをさらに含みうる。ユニパラメトリックまたはマルチパラメトリック解析は、セルフリーＤＮＡ分子のメチル化を測定するステップをさらに含みうる。ユニパラメトリックまたはマルチパラメトリック解析は、セルフリーＤＮＡ分子のヌクレオソームマッピングを測定するステップをさらに含みうる。ヌクレオソーム占有は、シークエンシングした断片のグアニン－シトシン（ＧＣ）含有量に連鎖していることから、メチル化レベルは、例えばメチル化の抑制をヌクレオソーム占有から推論することができるＴＳＳエリアを調べることによって間接的に評価することができる。これらのエリアにおいて、ピークのカバレッジおよび／または幅の変化を、メチル化の結果として（例えば、ヒストン周囲の異なる巻き付きより）観察することができる。同様に、ｃｆＤＮＡ分子のヌクレオソームマッピングを間接的に評価してもよい。

ユニパラメトリックまたはマルチパラメトリック解析は、セルフリーＤＮＡ分子における１つまたは複数の体細胞一塩基バリアント（ＳＮＶ）の存在を同定するステップをさらに含みうる。ユニパラメトリックまたはマルチパラメトリック解析は、セルフリーＤＮＡ分子における１つまたは複数の生殖系列一塩基バリアント（ＳＮＶ）の存在を同定するステップをさらに含みうる。

１つのゲノムパラメータをユニパラメトリック解析に組み込んでもよい。１つまたは複数のゲノムパラメータをマルチパラメトリック解析に組み込んでもよい。ゲノムパラメータは、（ｉ）組織タイプ、（ｉｉ）遺伝子発現パターン、（ｉｉｉ）転写因子結合部位（ＴＦＢＳ）占有、（ｉｖ）メチル化部位、（ｖ）一組の検出可能な体細胞変異、（ｖｉ）検出可能な体細胞変異のレベル、（ｖｉｉ）一組の検出可能な生殖系列変異、および（ｖｉｉｉ）検出可能な生殖系列変異のレベルから選択されうる。

参照ユニパラメトリックまたはマルチパラメトリックモデルからの逸脱を検出してもよい。そのような逸脱は、（ｉ）ヌクレオソーム領域外でのリード数の増加、（ｉｉ）ヌクレオソーム領域内でのリード数の増加、（ｉｉｉ）マッピング可能なゲノム位置と比較してより広いピーク分布、（ｉｖ）ピーク位置のシフト、（ｖ）新しいピークの同定、（ｖｉ）ピークのカバレッジ深度の変化、（ｖｉｉ）ピーク周囲の開始位置の変化、および（ｖｉｉｉ）ピークに関連する断片サイズの変化を含みうる。これらの逸脱は、試料に由来するセルフリーＤＮＡを表すヌクレオソームマップ破壊を示しうる。

局在化ゲノム領域は、長さ約２～約２００塩基対の範囲でありうるゲノムの短い領域である。各々の局在化ゲノム領域は、有意な構造多様性または不安定性のパターンまたはクラスタを含みうる。ゲノム分割マップを提供して、関連する局在化ゲノム領域を同定してもよい。局在化ゲノム領域は、有意な構造多様性または構造不安定性のパターンまたはクラスタを含みうる。クラスタは、局在化ゲノム領域内のホットスポット領域である。ホットスポット領域は、１つまたは複数の有意な変動またはピークを含みうる。構造多様性は、ヌクレオソームポジショニングの多様性である。構造多様性は、挿入、欠失、転遺伝子座、遺伝子再構成、メチル化ステータス、マイクロサテライト、コピー数多様性、コピー数関連構造多様性、または差異を示す他の任意の多様性からなる群から選択されうる。

ゲノム分割マップは、（ａ）コホートにおける２人またはそれより多くの対象のセルフリーＤＮＡの試料を提供するステップ、（ｂ）セルフリーＤＮＡの試料の各々のマルチパラメトリック解析を実施して、前記試料の各々に関するマルチパラメトリックモデルを生成するステップ、および（ｃ）マルチパラメトリックモデルを解析して、その各々が有意な構造多様性または不安定性のパターンまたはクラスタを含む１つまたは複数の局在化ゲノム領域を同定するステップによって得ることができる。

対象に由来するセルフリーＤＮＡを含む試料を分析するための方法であって、試料からのセルフリーＤＮＡ分子を表す配列情報を得て、前記配列情報に関して統計分析を実施し、一組の１つまたは複数のユニパラメトリックモデルを、別個のコホートを表す１つまたは複数のヌクレオソーム占有プロファイルに関連していると分類する、方法を提供する。

対象に由来するセルフリーＤＮＡを含む試料を分析するための方法であって、試料からのセルフリーＤＮＡ分子を表す配列情報を得て、前記配列情報に関して統計分析を実施して、マルチパラメトリックモデルを、別個のコホートを表す１つまたは複数のヌクレオソーム占有プロファイルに関連していると分類する、方法を提供する。

統計分析は、さらなる解析のために目的の遺伝子を表す関連するゲノム範囲を記載する１つまたは複数のゲノム分割マップを提供するステップを含みうる。統計分析は、ゲノム分割マップに基づいて一組の１つまたは複数の局在化ゲノム領域を選択するステップをさらに含みうる。統計分析は、一組の１つまたは複数のヌクレオソームマップ破壊を得るために、その組における１つまたは複数の局在化ゲノム領域を解析するステップをさらに含みうる。統計分析は、パターン認識、深層学習、および教師なし学習のうちの１つまたは複数を含みうる。

ヌクレオソームマップ破壊は、生物学的に関連する情報に関して所定の局在化ゲノム領域を特徴付ける測定値である。ヌクレオソームマップ破壊は、野生型、体細胞バリアント、生殖系列バリアント、およびＤＮＡメチル化からなる群から選択されるドライバー変異に関連しうる。

１つまたは複数のヌクレオソームマップ破壊を使用して、ユニパラメトリックまたはマルチパラメトリックモデルを、別個のコホートを表す１つまたは複数のヌクレオソーム占有プロファイルに関連していると分類してもよい。これらのヌクレオソーム占有プロファイルは、１つまたは複数の評価に関連しうる。評価は、治療介入（例えば、処置の選択肢、処置の選択、生検および／またはイメージングによるさらなる評価）の一部として考慮してもよい。

評価は、指標、腫瘍タイプ、腫瘍の重症度、腫瘍の侵襲性、処置に対する腫瘍の抵抗性、および腫瘍のクローン性からなる群から選択されうる。腫瘍のクローン性の評価は、試料中のセルフリーＤＮＡ分子におけるヌクレオソームマップ破壊の不均一性を観察するステップから決定してもよい。２つまたは複数のクローンの各々の相対的寄与の評価を決定する。

疾患スコアは、セルフリーＤＮＡ試料を得る対象の健康ステータスの指標として決定することができる。この疾患スコアは、（ｉ）１つまたは複数の評価、（ｉｉ）疾患に関連する１つまたは複数の健康参照マルチパラメトリックモデル、および（ｉｉｉ）疾患に関連する１つまたは複数の疾患参照マルチパラメトリックモデルのうちの１つまたは複数の関数として決定されうる。

ゲノム分割マップを、一組の構造多様性の選択に適用してもよい。構造多様性の選択は、（ｉ）１つまたは複数の疾患に関連する１つまたは複数の参照マルチパラメトリックモデル、（ｉｉ）構造多様性を標的とする１つまたは複数のプローブの効率、および（ｉｉｉ）構造多様性の期待度数がゲノムにおける構造多様性の平均期待度数より高いゲノムの部分に関する先の情報のうちの１つまたは複数の関数でありうる。

１つまたは複数のセルフリーＤＮＡ試料を分析する方法を、マルチモジュラーパネルを構成するステップに適用してもよい。このマルチモジュラーパネルの構成は、（ｉ）１つまたは複数の体細胞変異、（ｉｉ）ヒトゲノムにおけるヌクレオソーム位置の分布の情報、ならびに（ｉｉｉ）正常組織または細胞タイプ、および体細胞変異を含む組織または細胞タイプを起源とするセルフリーＤＮＡ分子におけるカバレッジバイアスに関する先の情報のうちの１つまたは複数を解析するステップを含みうる。上記の解析後に、マルチモジュラーパネルの構成はまた、以下、（ｉ）その少なくとも１つが、セルフリーＤＮＡ試料を獲得した対象に１つまたは複数の疾患が存在する尤度の増加を示す、１つまたは複数の構造多様性、（ｉｉ）その少なくとも１つが、セルフリーＤＮＡ試料を獲得した対象に１つまたは複数の疾患が存在する尤度の増加を示す、１つまたは複数の体細胞変異、および（ｉｉｉ）１つまたは複数のクロマチン中心事象のうちの１つまたは複数を含む一組をマルチモジュラーパネルに含めるために選択するステップも含みうる。クロマチン中心事象は、転写開始部位、プロモーター領域、ジャンクション部位、およびイントロン領域のうちの１つまたは複数を含みうる。

１つまたは複数のセルフリーＤＮＡ試料を分析する方法を、状態を検出またはモニターするステップに適用してもよい。状態をそのように検出またはモニターするステップは、試料からセルフリーＤＮＡ分子を表す配列情報を得るステップ、および前記分子に関するマクロスケール情報（例えば、塩基同一性以外の情報）を使用して、前記状態を検出またはモニターするステップを含みうる。

１つまたは複数のセルフリーＤＮＡ試料を分析する方法を、マルチパラメトリックモデルに基づく絶対的コピー数（ＣＮ）関連構造多様性を検出するステップに適用してもよい。ＣＮ関連構造多様性は、ゲノム分割マップに基づくマルチパラメトリックモデルの比較的高いまたは低い逸脱のエリアを表す。ＣＮ関連構造多様性は、１つまたは複数の評価、例えば腫瘍量、または腫瘍タイプを決定するために１つまたは複数のヌクレオソームマップ破壊を表しうる。適切な健康参照ユニパラメトリックまたはマルチパラメトリックモデルおよび疾患参照ユニパラメトリックまたはマルチパラメトリックモデルによって、対象のユニパラメトリックまたはマルチパラメトリックモデルにおける逸脱は、ヌクレオソームマップ破壊として解釈されうる。これらのヌクレオソームマップ破壊の１つまたは複数を組み合わせて、１つまたは複数の評価、例えば腫瘍の不均一性を決定してもよい。
パネルの構成

本明細書に記載のフラグメントームプロファイリング技術を、モジュラーパネル構成のためにさらに使用することができる。そのようなモジュラーパネル構成によって、ヌクレオソームプロファイリングに関して適切であるゲノムの領域を選択的に濃縮する一組のプローブまたはベイトの設計が可能となる。この「フラグメントーム認識」または「ヌクレオソーム認識」を組み込むことによって、多くの個体からの配列データを収集して、モジュラーパネル構成の手順、例えば標的とすべきそのゲノム位置の決定およびこれらのゲノム位置に関するプローブの最適な濃度を最適化することができる。

例えば、クロマチン構造の変化、例えば転写開始部位（ＴＳＳ）でのヌクレオソーム再ポジショニング、または位相学的に関連するドメイン構造の破壊は、遺伝子転写の調節において肝要な役割を果たすことができ、疾患を含むヒトの健康の多くの態様に関連している。したがって、ゲノムワイドなクロマチンアクセシビリティを非悪性コホートと悪性コホートの間で比較するステップにより、疾患の発生を伴う有用な後成的変化の位置の同定が可能となりうる。例えば、非悪性症例および悪性症例（例えば、対象）の代表的なコホートにおける、ヌクレオソーム占有、クロマチンアクセシビリティ、転写因子結合部位、およびＤＮアーゼ感受性マップに関する公共の図譜の研究、ならびにｄｅｎｏｖｏの異なるクロマチン構造の直接発見（例えば、全ゲノムシークエンシング（ＷＧＳ）を介して）から、クロマチンマーカーに関して濃縮された集中的なフットプリントを産生することができる。そのようなクロマチンマーカーは、ある特定の組織、細胞タイプ、細胞死タイプ、および悪性タイプ（例えば、腫瘍タイプ）に対して特異的でありえて、標的化濃縮アッセイを介して十分な解像度およびカバレッジで標的とすることができる。

体細胞多様性ならびに構造多様性および不安定性の両方の知識を組み込むことによって、構造多様性または不安定性の公知のパターンまたはクラスタを有するゲノムの特定の部分（ホットスポット）を標的とするプローブ、ベイトまたはプライマーのパネルを構成することができる。例えば、配列データの統計分析により、一連の蓄積された体細胞事象および構造多様性が明らかとなり、それによってクローン進化試験が可能となる。データ解析は、コホート間での異なるカバレッジ、腫瘍のある特定のサブセットの存在を示すパターン、高い体細胞変異負荷を有する試料中の外来の構造事象、および血液細胞と腫瘍細胞との比較に起因する異なるカバレッジを含む、重要な生物学的洞察を示す。

別の例では、フラグメントームプロファイリングを、１つまたは複数の遺伝子に関する低マルチプレックスポリメラーゼ連鎖反応（ＰＣＲ）パネルを生成するステップに適用することができ、低マルチプレックスＰＣＲパネルは、（ａ）１つまたは複数のゲノム分割マップを提供するステップ、（ｂ）１つまたは複数のゲノム分割マップにおける１つまたは複数の局在化ゲノム領域をカバーする複数のプローブを提供するステップ、および（ｃ）複数のプローブから、最適なＰＣＲ成績を有する１つまたは複数のプローブを選択するステップであって、前記プローブの各々が遺伝子の各々に関連する所定の局在化ゲノム領域をカバーする、ステップによって生成されうる。

最適なＰＣＲ成績の評価は、遺伝子の各々に関連するプローブのカバレッジの最大深度によって測定される。このため、各遺伝子に関して、ＰＣＲパネルに含めるために、１つまたは複数の最適なプローブを選択してもよい。

一例では、低マルチプレックスＰＣＲパネルは、少なくとも１、２、３、４、５、または６個の遺伝子を含み、パネルの任意のサブセットを、シングルマルチプレックスＰＣＲアッセイに同時に組み合わせることができる。低マルチプレックスＰＣＲパネルを使用して、デジタルＰＣＲ、ドロップレットデジタルＰＣＲ、定量的ＰＣＲ、および逆転写ＰＣＲからなる群から選択されるアッセイを、セルフリーＤＮＡまたはセルフリーＲＮＡ分子について実施してもよい。低マルチプレックスＰＣＲアッセイは、目的の所定の遺伝子において複数のプローブおよびプライマーをタイリングする能力を有しないことから、そのような最適化パネルの使用によって、ＰＣＲパネルに含めるための最適な一組の少数のプローブが確実に選択されるであろう。
分類

本明細書における方法およびシステムを、分類器に適用することができる。分類器は、訓練してもよく、または訓練しなくてもよい。分類器を使用して、状態または状態の状況に関連するパターンを同定する。分類器は、コンピュータで実行されうる。

一態様では、分類器は、試験対象から得たセルフリー試料（またはセルフリーＤＮＡ）からのＤＮＡを使用して試験対象における遺伝子異常を決定してもよい。この分類器は、（ａ）対象の１つまたは複数の試料（またはセルフリーＤＮＡ）の各々に関する一組の分布スコアの入力であって、各々の分布スコアが、ゲノムの複数の位置の各々にマッピングする対象のセルフリー試料（またはセルフリーＤＮＡ）からのＤＮＡに存在する塩基の数を表す、入力、および（ｂ）１つまたは複数の遺伝子異常の分類の出力を含みうる。

分類器は、機械学習エンジンを含みうる。分布スコアは、塩基位置がマッピングされる各々の分子の長さを表しうる。分布スコアは、塩基位置と重複する各分子の計数を表しうる。分布スコアは、塩基位置で開始する各分子の計数を表しうる。分布スコアは、塩基位置で終止する各分子の計数を表しうる。

分類器を使用して、試験対象に関する一組の分布スコアを提供するステップ、および分類器を使用して試験対象の分類を生成するステップによって、試験対象から得たセルフリー試料（またはセルフリーＤＮＡ）からのＤＮＡを使用して、試験対象における遺伝子異常を決定してもよい。

分類器を訓練セットによって訓練してもよい。訓練セットは、対象の複数の試料の各々に関する一組の分布スコアおよび複数の試料の各々に関する一組の分類を含みうる。一組の分布スコアは、（ａ）対照対象の複数の試料の各々に関する一組の参照分布スコアであって、各々の参照分布スコアが、ゲノムの複数の位置の各々にマッピングする対照対象のセルフリー試料（またはセルフリーＤＮＡ）からのＤＮＡに存在する塩基の数を表す、スコア、または（ｂ）観察された表現型を有する対象の複数の試料の各々に関する一組の表現型分布スコアであって、各々の表現型分布スコアが、ゲノムの複数の位置の各々にマッピングする観察された表現型を有する対象のセルフリー試料（またはセルフリーＤＮＡ）からのＤＮＡに存在する塩基の数を表す、スコアを含みうる。一組の分類は、（ｃ）対照対象の複数の試料の各々に関する一組の参照分類、または（ｄ）観察された表現型を有する対象の複数の試料の各々に関する一組の表現型分類を含みうる。

一組の参照分布スコアまたは一組の参照分類に関連する対照対象は、無症候性の健康な個体でありうる。一組の表現型分布スコアまたは一組の表現型分類に関連する観察された表現型を有する対象は、（ａ）組織特異的がんを有する対象、（ｂ）特定のステージのがんを有する対象、（ｃ）炎症状態を有する対象、（ｄ）がんに対して無症候性であるが、がんへと進行する腫瘍を有する対象、または（ｅ）特定の薬物もしくは薬物レジメンに対して陽性もしくは陰性の応答を有するがんを有する対象を含みうる。

分類器は、ゲノムの１つまたは複数の遺伝子座で一組の遺伝子バリアントの入力をさらに含みうる。一組の遺伝子バリアントは、報告された腫瘍マーカー（例えば、ＣＯＳＭＩＣにおいて報告された腫瘍マーカー）の１つまたは複数の遺伝子座を含みうる。

訓練された分類器を作成するための方法であって、（ａ）複数の異なるクラスを提供するステップであって、各々のクラスが、共有する特徴を有する一組の対象（例えば１つまたは複数のコホートから）を表す、ステップ、（ｂ）クラスの各々に属する複数の試料の各々からのセルフリーＤＮＡ分子を表すユニパラメトリックまたはマルチパラメトリックモデルを提供し、それによって訓練データセットを提供するステップ、および（ｃ）訓練データセットについて学習アルゴリズムを訓練して１つまたは複数の訓練された分類器を作成するステップであって、各々の訓練された分類器が、試験試料を複数のクラスのうちの１つまたは複数に分類する、ステップを含む方法を提供する。

一例として、訓練された分類器は、ランダムフォレスト、ニューラルネットワーク、サポートベクターマシン、および線形分類器からなる群から選択される学習アルゴリズムを使用してもよい。複数の異なるクラスの各々は、健康、乳がん、結腸がん、肺がん、膵臓がん、前立腺がん、卵巣がん、黒色腫、および肝臓がんからなる群から選択されうる。

訓練された分類器を、対象の試料を分類する方法に適用してもよい。この分類する方法は、（ａ）対象の試験試料からのセルフリーＤＮＡ分子を表す一組の１つまたは複数のユニパラメトリックモデルを提供するステップ、および（ｂ）訓練された分類器を使用して試験試料を分類するステップを含みうる。試験試料を１つまたは複数のクラスに分類後、試料の分類に基づいて対象に治療介入を実施する。

訓練された分類器を、対象の試料を分類する方法に適用してもよい。この分類する方法は、（ａ）対象の試験試料からのセルフリーＤＮＡ分子を表すマルチパラメトリックモデルを提供するステップ、および（ｂ）訓練された分類器を使用して試験試料を分類するステップを含みうる。試験試料を１つまたは複数のクラスに分類後、試料の分類に基づいて対象に治療介入を実施する。

図８および９は各々、マルチパラメトリックモデル、特にゲノムの範囲内の各々のゲノム位置で断片度数のプロットに組み込まれうる一態様を説明する。各々の図において、断片度数は、異なるヌクレオソームポジショニングの結果としてゲノム位置によって変動する。図８において、半周期的な線は、ゲノム位置（ｘ軸）における平均断片度数（ｙ軸）を示し、異なるヌクレオソーム占有の結果としての多様なフラグメントームシグナルを説明する。図９において、２つの半周期的な線は、ゲノム位置（ｘ軸）にわたる、標準的な断片開始分布（ｙ軸）および所定の位置を起源とする断片の中央値腫瘍量（ｙ軸）をそれぞれ示し、異なるヌクレオソーム占有の結果としての多様なフラグメントームシグナル、およびより低い標準的な断片開始分布の位置での所定の位置を起源とする断片のより高い中央値腫瘍量の両方を説明する。

図１０および１１は、マルチパラメトリックモデルの２つの態様、特にゲノムの範囲内の各々のゲノム位置での正規化した分子計数（上のパネル）および正規化した断片サイズ（すなわち、長さ、下のパネル）のプロットを説明する。各々の図において、正規化した分子計数および正規化した断片サイズはいずれも、異なるヌクレオソームポジショニングの結果としてゲノム位置によって変動する。

図１２は、マルチパラメトリックモデルの３つの態様、特にゲノムの範囲内の各々のゲノム位置での正規化した分子計数、正規化した断片サイズ（すなわち、長さ）、および正規化した二本鎖の百分率を説明する。マルチパラメトリックモデルの３つ全ての態様が、異なるヌクレオソームポジショニングの結果としてゲノム位置によって変動する。特に、この変動は、マルチパラメトリックモデルにおいて何らかの周期性を示す。この周期性は、典型的に約１０．５塩基対である。

図１３は、マルチパラメトリックモデルの１つの態様、特にゲノムの範囲内での各々のゲノム位置（ｘ軸）でのリードの計数（ｙ軸）を説明する。ゲノムのこの範囲は、ＮＦ１、ＥＲＢＢ２、ＢＲＣＡ１、ＭＥＴ、ＳＭＯ、ＢＲＡＦ、ＥＧＦＲ、およびＣＯＫ６を含むいくつかの腫瘍関連遺伝子に対応する。

図１４は、マルチパラメトリックモデルを生成するためにマルチパラメトリック解析の一部として実施することができる数学的変換の例を説明する。特に、高速フーリエ変換（ＦＦＴ）を適用して、ゲノムの範囲内の各々のゲノム位置での開始位置毎のリードの計数のプロットを生成する。ゲノムのこの範囲は、ＮＦ１、ＥＲＢＢ２、ＢＲＣＡ１、およびＴＰ５３を含むいくつかの腫瘍関連遺伝子に対応する。示されるように、特にＥＲＢＢ２遺伝子は、示される他の遺伝子より有意に高い（約２倍またはそれより高い）リードの計数の値を示し、このことはＥＲＢＢ２変異がおそらく存在することを示す。

図１５は、ゲノムの所定の領域における２人の異なる対象の２つのマルチパラメトリックモデルの例を説明する。特に、ゲノムのこの領域は、腫瘍関連遺伝子ＴＰ５３に対応する。腫瘍を有する対象（下のパネル）に対応するマルチパラメトリックモデル（この場合、ヒートマップ）から、腫瘍を有しない対象（上のパネル）と比較して、特にエクソン９によって記されるエリア付近で逸脱を認めることができる。そのような逸脱は、ヒートマップのより滑らかでない位相およびより可変の領域（例えば、ピーク）の存在を含む。

図１６は、ゲノムの所定の領域における２人の異なる対象の２つのマルチパラメトリックモデルの例を説明する。特にゲノムのこの領域は、腫瘍関連遺伝子ＮＦ１に対応する。ＴＰ５３。腫瘍を有する対象（下のパネル）に対応するマルチパラメトリックモデル（この場合、ヒートマップ）から、腫瘍を有しない対象（上のパネル）と比較して逸脱を認めることができる。そのような逸脱は、ヒートマップのより滑らかでない位相およびより可変の領域（例えば、ピーク）の存在を含む。

図１７は、ゲノムの所定の領域における２人の異なる対象の２つのマルチパラメトリックモデルの例を説明する。特に、ゲノムのこの領域は、腫瘍関連遺伝子ＥＲＢＢ２に対応する。腫瘍を有する対象（下のパネル）に対応するマルチパラメトリックモデル（この場合、ヒートマップ）から、腫瘍を有しない対象（上のパネル）と比較して逸脱を認めることができる。そのような逸脱は、ヒートマップのより滑らかでない位相およびより可変の領域の存在（例えば、ピーク）を含む。

図１８および１９は、ゲノムの所定の領域におけるヌクレオソーム構成とゲノム位置の比較の例を説明する。特に、各々の図面は、異なる対象（ｙ軸）において測定した、異なるヒト染色体（図１８では第１９染色体、および図１９では第２０染色体）におけるゲノム位置（ｘ軸）に対するヌクレオソーム構成（カバレッジを影をつけた色によって示す）を説明する。図１８および１９は、これらのゲノム領域における塩基同一性にかかわらず、フラグメントームシグナルの類似のクラスタを、コホートの異なる対象において観察できることを説明する。

図２０は、絶対コピー数（ＣＮ）を決定するためのプロセスの例を説明する。第１に、ヌクレオソーム位置を特定して、それらを通常のコホートにおける期待値とマッチさせる。次に、ＦＧＦＲにおけるあらゆるヌクレオソームウィンドウに関して、超保存的非第１０染色体ヌクレオソーム部位のコレクションを決定し、超保存第１０染色体ヌクレオソーム部位のコレクションを決定する。最後に、ＦＧＦＲヌクレオソーム部位のインサートサイズ密度に対して位置上で積分する。

図２１Ａおよび２１Ｂは、血漿中ＤＮＡの全シークエンシングによってコピー数増幅遺伝子の活性化を推論するフラグメントームプロファイリングを使用する例を説明する。図２１Ａは、２，０７６例の臨床試料におけるＥＲＢＢ２における正規化したジヌクレオソームのモノヌクレオソームに対する計数比率のプロットを示す。このヒートマップの肉眼による検分により、高い増幅活性の領域（例えば、黄色２１０４および赤色２１０６で示す）を、正常から低い増幅活性（例えば、緑色２１０２で示す）のバックグラウンドに対して観察することができる。図２１Ｂは、図２１Ａのプロットの右側の拡大部分を示し、バックグラウンドの緑または青色２１１２に対して、高振幅のＣＮＶコール（例えば、黄色２１１４および赤色２１１６で示す）に関して濃縮されたクラスタを示す。図２１Ｂの下のパネルは、類似のフラグメントームシグナルによって共にクラスタ形成されているゲノム領域を示す（例えば、共通の遺伝子座に対応するゲノム領域の連続する部分の結果として）。

各々の臨床試料に関して、ＥＲＢＢ２断片（例えば、ＥＲＢＢ２遺伝子にマッピングするｃｆＤＮＡ断片）のみを切り出して、フラグメントームプロファイリングを行った。ＥＲＢＢ２は、ある特定のタイプのがん、例えば乳がんおよび胃がんのマーカーとして、ならびにがんを有する対象における処置に対する抵抗性のマーカーとして周知である。各々の臨床試料に関して、ジヌクレオソームのモノヌクレオソームに対する計数比率を、（１）ジヌクレオソーム保護を有する断片（例えば、少なくとも２４０塩基対（「ｂｐ」）の断片サイズ）の数を計数することによって、（２）モノヌクレオソーム保護を有する断片（例えば、２４０塩基対（「ｂｐ」）未満の断片サイズ）の数を計数することによって、（３）（１）と（２）の比率をとることによって、および（４）試料の中央値（例えば、試料におけるそのような比率の値の中央値）に対して比率を正規化することによって、ＥＲＢＢ２ゲノムドメイン（例えば、ゲノム領域）において決定した。次に、各々の臨床試料に関して、試料のジヌクレオソームのモノヌクレオソームに対する計数比率を、その試料に関連するＣＮＶ測定と共にプロットした（例えば、あらゆる増幅コールを紫色のドットとして示す、上のパネル）。

２，０７６例の臨床試料におけるこのデータプロットの教師なしクラスタリングにより、正常から低い増幅活性（例えば、緑色２１０２で示す）のバックグラウンドに対して高い増幅活性（リードの計数によって表記される最高のフラグメントームシグナルによって示される）（例えば、黄色２１０４および赤色２１０６で示す）を有する３つのクラスタの存在が明らかとなり、右側のクラスタは肉眼で最も顕著であった。このクラスタは高振幅のＣＮＶコールに富むが、他は、中央のクラスタではスメアとなり、右のクラスタではスメアの程度はより少ない。クラスタは、コピー数増幅遺伝子（例えば、ＥＲＢＢ２に関連する遺伝子）が、目に見えるクラスタ（例えば、赤色および黄色における）に関連する臨床試料に関して活性化されていることの指標として解釈されうる。このように、フラグメントームプロファイル（例えば、ＥＲＢＢ２における）を、増幅ステータスと相関させることができる。そのような観察は、関連する高振幅のＣＮＶコールがないゲノム領域（おそらく、ごく限定的な検出を可能にする、循環中の腫瘍ＤＮＡ（例えば、ｃｔＤＮＡ）の低い感度のために）に関しても行うことができる。これらの観察は、それらのゲノム領域が、フラグメントームをプロファイルした遺伝子（例えば、ＥＲＢＢ２）を活発に転写しているより高い尤度を示すと解釈されうる。そのようなフラグメントームプロファイリングは、感度および特異性を増加させるために既存のＣＮＶ検出方法（例えば、リキッドバイオプシーアッセイを実施することによる）に組み込むことができる。類似の解析を、複数の遺伝子において実施して、複数の遺伝子におけるコピー数増幅の比較的高いおよび低い活性化を観察してもよい。

図２１Ａおよび２１Ｂの結果は、ｃｆＤＮＡ断片が、断片サイズおよび断片位置の解析を含むフラグメントームプロファイリングを実施することによって、がん細胞の腫瘍微小環境に対する洞察を明らかにしうることを示している。この場合、腫瘍の微小環境において細胞から能動的に脱落したコピー数増幅遺伝子（例えば、ＥＲＢＢ２）の活性化は、高振幅のＣＮＶコールの実施とは独立して、ＥＲＢＢ２ジヌクレオソーム保護シグネチャーとして観察することができる。このアプローチは、典型的に循環中のアレル割合が低いことを考慮すれば、既存のＣＮＶ検出およびコーリングアプローチが、循環中の腫瘍ＤＮＡ（例えば、ｃｔＤＮＡ）において感度よく検出することが非常に難しいことから、それらに対して利点を有しうる。そのようなフラグメントームアプローチはまた、特に他の遺伝子バリアント、例えばＳＮＶ、インデル、および融合によって、観察可能な表現型の差がもたらされない場合には、そのような遺伝子バリアントの存在を測定および予測するために適切でありうる。共有する疾患を有するコホートの対象における、例えば正常な試料と比較した位置、断片長、または異なる次元（断片長、位置）における距離の関数と組み合わせたフラグメントームプロファイリングは、コホート内での分子サブタイプ（例えば、肺がん患者のコホート内での肺がんの異なる分子サブタイプ）を明らかにし、それによってコホートにおける対象を階層化しうる。

ヌクレオソーム断片長の差に関するアッセイ
本明細書には、対象の生物学的試料を処理するための方法であって、（ａ）前記対象の前記生物試料を得るステップであって、前記生物試料が、デオキシリボ核酸（ＤＮＡ）断片を含む、ステップ、（ｂ）前記生物試料をアッセイして、（ｉ）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および（ｉｉ）上記遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の存在または非存在を示すシグナルを生成するステップ、ならびに（Ｃ）前記シグナルを使用して、（ｉ）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および（ｉｉ）遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の前記存在または非存在を示す出力を生成するステップを含む方法が開示されている。

本方法は、一組の１つまたは複数の遺伝子座のＤＮＡ断片に関して生物学的試料を濃縮するステップを含んでいてもよい。

また、本明細書には、対象に由来するセルフリーＤＮＡ断片を含む生物学的試料を分析するための方法であって、モノヌクレオソーム保護およびジヌクレオソーム保護の各々に対応する、同じ遺伝子座からのＤＮＡ断片を検出するステップを含む方法が開示されている。

また、本明細書には、対象の生物学的試料を分析するための方法であって、（ｉ）試料中のｃｆＤＮＡ断片をシークエンシングして、ＤＮＡ配列を提供するステップ、（ｉｉ）（ｉ）で得られたＤＮＡ配列を、対象の種の参照ゲノムの１つまたは複数のゲノム領域にマッピングするステップ、および（ｉｉｉ）マッピングされたＤＮＡ配列を有する１つまたは複数のゲノム領域について、モノヌクレオソームに対応する配列の数、およびジヌクレオソームに対応する配列の数を算出するステップを含む方法が開示されている。（ｉｉｉ）で得られたモノ－およびジ－ヌクレオソーム配列の数は、比較することができる。

したがって、一般的な観点では、同じ遺伝子座（単数または複数）のモノヌクレオソームおよびジヌクレオソーム保護に対応するｃｆＤＮＡ断片は、別々にアッセイされる。本明細書で示されているように、これらの断片の測定レベルの変化は、対象内の生物学的状況の変化を示すことができる。例えば、図２７Ｂは、高ＥＲＢＢ２コピー数を有する乳がん患者試料でのジヌクレオソーム断片の増加を示す。したがって、本方法は、検出または算出されたシグナルを使用して（例えば、本明細書の他所で考察されているような分類器を使用して）、試料がそこから採取された対象の生物学的状況を評価する（例えば、疾患を診断する）さらなるステップを含んでいてもよい。特に、モノまたはジヌクレオソーム断片の量の変化を使用して、対象の生物学的状況を評価することができる。

断片は、種々の方法で、例えば、本明細書の他所で考察されているようにｃｆＤＮＡ断片をシークエンシングすることにより、またはｃｆＤＮＡ断片をサイズで分離し（例えば、アガロースゲルで）、それらを定量化することにより、アッセイすることができる。

これらの方法は、遺伝子座に見られるモノヌクレオソーム断片およびジヌクレオソーム断片の定量比（例えば、この比は、生物学的状況が変化すると共に変化する場合がある）、遺伝子座に見られる断片の量（例えば、たとえ比が依然として同じであっても、両タイプの断片のレベルは増加する場合がある）、または断片の出現もしくは消失（例えば、ジヌクレオソーム断片は、１つの生物学的状況では検出不能であるが、別の状況では検出可能であり得る）を考慮する。本方法では、これらのシグナルの各々を考慮することができる。

本方法は、例えば、生物学的状況に応じてモノヌクレオソームシグナルおよび／またはジヌクレオソームシグナルが変化を示すことが公知である特定の目的の遺伝子座（単数または複数）に着目することができる。しかしながら、他の実施形態では、本方法は、後に生物学的状況の変化と相関させることができるシグナルを検出してもよい。例えば、本明細書の他所で考察されているように、ｃｆＤＮＡをシークエンシングすることができ、配列を、参照ゲノムにマッピングすることができる。一部の実施形態では、モノヌクレオソームシグナルおよび／またはジヌクレオソームシグナルの変化が、生物学的状況と既に相関されている（例えば、疾患対非疾患、または変異体対野生型、または低コピー数対高コピー数など）遺伝子座の場合、これらの遺伝子座のシグナルを評価することができる（例えば、本明細書の他所で考察されているような分類器を使用して）。他の実施形態では、１つまたは複数の遺伝子座のモノ／ジヌクレオソームシグナルを、異なる生物学的状況を有する対象から採取された試料中の同じ遺伝子座のシグナルと比較することができ、任意の差を評価して（例えば、さらなる対象に由来する試料を使用して）、それらが生物学的状況の差と相関するか否かを確かめること、または本明細書の他所で考察されているような分類器を構築することができる。

したがって、本方法は、モノ／ジヌクレオソーム断片の量を、参照試料から得られた値と比較するステップを含んでいてもよい。そのような比較には、本明細書の他所に記載されているような分類器を使用することができる。

これらの方法で考慮される遺伝子座は、一般的には、単一遺伝子内に、または単一遺伝子のプロモーター領域内に存在していてもよい。

ジヌクレオソーム断片を考慮することに加えて、これらの方法は、加えて（または代わりに）、他のオリゴヌクレオソーム断片（トリ、テトラなど）を考慮することができるが、図１Ｅに示されているように、そのような断片は、それほど豊富でなく、したがって検出がそれほど容易ではない。オリゴヌクレオソーム断片（ジ、トリなど）は、個々に考慮してもよく、または集合的に考慮してもよい。

モノおよびオリゴヌクレオソームＤＮＡ断片のアッセイは、当技術分野で公知である。例えば、細胞死検出ＥＬＩＳＡ^ＰＬＵＳ製品が市販されており、血清中のｃｆＤＮＡに適用されているが（Ｈｏｌｄｅｎｒｉｅｄｅｒら、２００５年）、ＤＮＡ断片の長さ、または異なる遺伝子座の断片は区別されない。

コンピュータシステム
本開示は、本開示の方法を実施するようにプログラムされているコンピュータシステムを提供する。図２２は、対象に由来するセルフリー核酸を含む試料を分析するようにプログラムされているかまたはそうでなければ構成されているコンピュータシステム２２０１を示す。コンピュータシステム２２０１は、本開示の方法の種々の態様を制御することができる。コンピュータシステム２２０１は、電子デバイスに対して遠隔に位置するユーザまたはコンピュータシステムの電子デバイスであってもよい。電子デバイスは、移動式電子デバイスであってもよい。

コンピュータシステム２２０１は、中央処理ユニット（ＣＰＵ、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも呼ばれる）２２０５を含み、中央処理ユニットは、単一コアまたはマルチコアプロセッサであってもよく、または並列処理用の複数のプロセッサであってもよい。また、コンピュータシステム２２０１は、メモリまたはメモリ位置２２１０（例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ）、電子記憶ユニット２２１５（例えば、ハードディスク）、１つまたは複数の他のシステムと通信するための通信インターフェース２２２０（例えば、ネットワークアダプタ）、ならびにキャッシュ、他のメモリ、データ記憶、および／または電子表示装置アダプタなどの周辺デバイス２２２５を含む。メモリ２２１０、記憶ユニット２２１５、インターフェース２２２０、および周辺デバイス２２２５は、マザーボードなどの、通信バス（実線）を介してＣＰＵ２２０５と通信する。記憶ユニット２２１５は、データを記憶するためのデータ記憶ユニット（またはデータ保管場所）であってもよい。コンピュータシステム２２０１は、通信インターフェース２２２０の支援によりコンピュータネットワーク（「ネットワーク」）２２３０と作動可能に接続されていてもよい。ネットワーク２２３０は、インターネット（Ｉｎｔｅｒｎｅｔ）、インターネット（ｉｎｔｅｒｎｅｔ）および／もしくはエクストラネット、またはインターネット（Ｉｎｔｅｒｎｅｔ）と通信するイントラネットおよび／もしくはエクストラネットであってもよい。一部の場合、ネットワーク２２３０は、遠距離通信および／またはデータネットワークである。ネットワーク２２３０は、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる１つまたは複数のコンピュータサーバを含んでいてもよい。一部の場合、ネットワーク２２３０は、コンピュータシステム２２０１の支援により、コンピュータシステム２２０１に接続されているデバイスが、クライアントまたはサーバとして作動することを可能にすることができるピアツーピアネットワークを実装することができる。

ＣＰＵ２２０５は、プログラムまたはソフトウェアに具現化されていてもよい一連の機械読み取り可能な命令を実行することができる。命令は、メモリ２２１０などのメモリ位置に記憶されていてもよい。命令は、ＣＰＵ２２０５に向けることができ、それによりその後本開示の方法を実施するようにＣＰＵ２２０５をプログラムするかまたはそうでなければ構成することができる。ＣＰＵ２２０５により実施される作業の例としては、フェッチ、デコード、実行、およびライトバックを挙げることができる。

ＣＰＵ２２０５は、集積回路などの回路の一部であってもよい。回路には、システム２２０１の１つまたは複数の他の部品が含まれていてもよい。一部の場合、回路は、特定用途向け集積回路（ＡＳＩＣ）である。

記憶ユニット２２１５は、ドライバー、ライブラリ、および保存されたプログラムなどのファイルを記憶することができる。記憶ユニット２２１５は、ユーザのデータ、例えばユーザの設定、ユーザのプログラムを記憶することができる。一部の場合、コンピュータシステム２２０１は、イントラネットまたはインターネットを介してコンピュータシステム２２０１と通信する遠隔サーバなどに位置する、コンピュータシステム２２０１の外部にある１つまたは複数のさらなるデータ記憶ユニットを含んでいてもよい。

コンピュータシステム２２０１は、ネットワーク２２３０を介して１つまたは複数の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム２２０１は、ユーザの遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例としては、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、アンドロイド対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、またはパーソナルデジタルアシスタントが挙げられる。ユーザは、ネットワーク２２３０を介してコンピュータシステム２２０１にアクセスすることができる。

本明細書に記載されている方法は、例えば、メモリ２２１０または電子記憶ユニット２２１５などの、コンピュータシステム２２０１の電子記憶位置に記憶されている機械（例えば、コンピュータプロセッサ）実行可能なコードにより実施することができる。機械実行可能なまたは機械読み取り可能なコードは、ソフトウェアの形態で提供することができる。使用中、コードは、プロセッサ２２０５により実行することができる。一部の場合、コードを記憶ユニット２２１５から取り出し、プロセッサ２２０５によるアクセスの提供ができているメモリ２２１０に記憶することができる。一部の状況では、電子記憶ユニット２２１５は省くことができ、機械実行可能な命令は、メモリ２２１０に記憶されている。

コードは、コードを実行するように構成されているプロセッサ（ｐｒｏｃｅｓｓｅｒ）を有する機械で使用するために事前にコンパイルおよび適合されていてもよく、またはランタイム中にコンパイルしてもよい。コードは、事前コンパイルまたは同時コンパイルの様式でコードを実行することが可能なように選択することができるプログラミング言語で提供することができる。

コンピュータシステム２２０１などの、本明細書で提供されているシステムおよび方法の態様は、プログラミングで具現化することができる。この技術の種々の態様は、典型的には、一種の機械読み取り可能な媒体に保持されているかまたは具現化されている機械（またはプロセッサ）実行可能なコードおよび／または関連データの形態の「製品」または「製造品」であると考えることができる。機械実行可能なコードは、メモリ（例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスクなどの電子記憶ユニットに記憶することができる。「記憶」タイプの媒体は、コンピュータもしくはプロセッサなどの有形メモリ、またはソフトウェアプログラミングのために任意の時間の非一過性記憶を提供することができる、種々の半導体メモリ、テープドライブ、およびディスクドライブなどの、それらの関連モジュールのいずれかまたはすべてを含んでいてもよい。ソフトウェアの全部または部分は、インターネットまたは種々の他の遠距離通信ネットワークを介して適時に通信される。例えば、そのような通信は、１つのコンピュータまたはプロセッサから別のものへの、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのローディングを可能にすることができる。したがって、ソフトウェア要素を保持することができる別のタイプの媒体としては、有線および光地上通信ネットワークを介して、および種々の無線リンクにより、ローカルデバイス間の物理的インターフェースを介して使用されるものなど、光波動、電気的波動、および電磁波が挙げられる。有線もしくは無線リンクまたは光リンクなどの波動を伝播する物理的要素も、ソフトウェアを保持する媒体とみなすことができる。本明細書で使用される場合、非一過性の有形「記憶」媒体に限定されていない限り、コンピュータまたは機械「読み取り可能な媒体」などの用語は、実行用のプロセッサに命令を提供することに寄与するあらゆる媒体を指す。

したがって、コンピュータ実行可能なコードなどの機械読み取り可能な媒体は、これらに限定されないが、有形の記憶媒体、搬送波媒体、または物理的伝送媒体を含む、多数の形態をとることができる。不揮発性記憶媒体としては、例えば、図面に示されている、データベースなどを実装するために使用することができるものなど、任意のコンピュータなどの記憶デバイスのいずれかなどの、光または磁気ディスクが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどの、ダイナミックメモリが挙げられる。有形の伝送媒体としては、同軸ケーブル、コンピュータシステム内のバスを含む配線を含む銅線および光ファイバーが挙げられる。搬送波伝送媒体は、無線周波（ＲＦ）および赤外線（ＩＲ）データ通信中に生成されるものなど、電気的もしくは電磁気的シグナル、または音響波もしくは光波の形態を取っていてもよい。したがって、コンピュータ読み取り可能な媒体の一般的形態としては、例えば、フロッピーディスク（登録商標）、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤもしくはＤＶＤ－ＲＯＭ、任意の他の光媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、およびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を運搬する搬送波、そのような搬送波を運搬するケーブルもしくはリンク、またはコンピュータがそこからプログラミングコードおよび／もしくはデータを読み取ることができる任意の他の媒体が挙げられる。コンピュータ読み取り可能な媒体のこれらの形態の多くは、実行用のプロセッサに対する１つまたは複数の命令の１つまたは複数のシークエンスを保持することに関与することができる。

コンピュータシステム２２０１は、例えば、対象に由来するセルフリー核酸を含む試料の分析に関連する情報を提供するためのユーザインターフェース（ＵＩ）２２４０を含む電子表示装置２２３５を含んでいてもよく、または通信することができる。ＵＩの例としては、限定ではないが、グラフィカルユーザインターフェース（ＧＵＩ）およびウェブに基づくユーザインターフェースが挙げられる。

本開示の方法およびシステムは、１つまたは複数のアルゴリズムにより実施することができる。アルゴリズムは、中央処理ユニット２２０５による実行時にソフトウェアにより実施することができる。

本明細書には、本発明の好ましい実施形態が示され、記載されているが、当業者であれば、そのような実施形態は、例として提供されているに過ぎないことは明白である。本発明は、本明細書内で提供されている特定の例により限定されることは意図されていない。本発明は、上述の明細書を参照して記載されているが、本明細書中の実施形態の説明および図示は、限定という意味で解釈されることは意図されていない。今や、当業者であれば、本発明から逸脱しない多数の変更、変化、および置換を思いつくだろう。さらに、本発明の態様はすべて、本明細書に示されている特定の描写、構成、または相対的比率に限定されず、それらは、様々な条件および変数に依存することが理解されるものとする。本発明の実施には、本明細書に記載されている本発明の実施形態の種々の代替を用いることができることが理解されるべきである。したがって、本発明は、任意のそのような代替、改変、変更、または等価物も包含することが企図されるものとする。以下の特許請求の範囲が本発明の範囲を規定し、これらの特許請求の範囲内にある方法および構造ならびにそれらの等価物は、それにより包含されることが意図されている。

（実施例１）
セルフリーＤＮＡ断片化パターンは、原発腫瘍の体細胞変異に関連する変化を示し、体細胞バリアント検出の感度および特異性を向上させる。
循環血の血漿から単離されたセルフリーＤＮＡ（ｃｆＤＮＡ）は、瀕死細胞のクリアランスおよび血流輸送を生き延びたＤＮＡ断片を含む。がんにおいて、これらの断片は、腫瘍体細胞多様性ならびにそれらの微小環境の足跡を保持しており、臨床実践において非侵襲性の血漿に基づく腫瘍遺伝子型決定を可能にする。しかしながら、がん由来ＤＮＡの割合は、典型的には少なく、初期段階での正確な検出が困難であり、がん性状況に関連する統計的に独立した（ｏｒｔｈｏｇｏｎａｌ）体細胞バリアント非含有パターンの探索が促進される。ｃｆＤＮＡ断片のゲノム分布は、造血細胞におけるヌクレオソーム占有を反映することが示されているため、（ａ）患者腫瘍中の別個の変異と関連するがんのｃｆＤＮＡポジショニングの不均質なパターンを観察するための、および（ｂ）ｃｆＤＮＡポジショニングを、検出の感度および特異性の増加を可能にすることができる既存の分析手法に統合するための実験を実施した。

進行期臨床がんを有する１万５０００人よりも多くの患者のｃｆＤＮＡ断片長および位置の分布ならびに関連する体細胞ゲノムプロファイルを、７０個の遺伝子を標的とする非常に正確な深度カバレッジ（１５，０００×）ｃｔＤＮＡＮＧＳ試験により決定した。バリアント非含有フラグメントームプロファイリングの総合的分析を実施し、フラグメントームプロファイルを、統計的方法を使用して、検出された体細胞性変更との関連性について試験した。異なるクラスのフラグメントームサブタイプ（例えば、目視観察、クラスタリング、または他の手法により明らかにされた示差的フラグメントームプロファイルを有するサブタイプ）が、十分に特徴付けられたドライバー遺伝子変更（ｄｒｉｖｅｒａｌｔｅｒａｔｉｏｎ）およびゲノム分子サブタイプを有する試料では有意に濃縮されていることが観察された。ｃｆＤＮＡポジショニングのパターンとＨＥＲ２増幅との間で発見された関連性を確認するために、既知知のＨＥＲ２免疫組織化学的ステータスを有する試料の独立コホートを調査した。

全体として、フラグメントームプロファイリングは、腫瘍のＨＥＲ２免疫組織化学的（ＩＨＣ）ステータスと有意に関連していたＥＲＢＢ２（例えば、ＨＥＲ２）増幅固有特徴を示し、ＨＥＲ２増幅検出の感度の４２％増加、およびＨＥＲ２増幅検出の特異性の７％増加をもたらした。観察された肺腺癌フラグメントームサブタイプは、相互に排他的なゲノム変更と同時に起こり、肺がんの内因性分子サブタイプであると以前に記載した。まとめると、これらの結果は、ｃｆＤＮＡ断片化ランドスケープの総合的分析が、様々なヒト状態に関するｃｆＤＮＡに基づくバイオマーカーのさらなる開発を支援することができることを示唆する。したがって、フラグメントームプロファイリングは、がんｃｆＤＮＡの分類を可能にすることができ、観察された体細胞多様性およびその根底にある腫瘍微小環境の独立した証拠を提供することができ、バリアント検出のより高い感度および正確さに結び付く。これは、がんサブタイプの病因および療法選択が異なる臨床的に関連するクラスの統合的検出へと向かう道筋を示唆する。

（実施例２）
セルフリーＤＮＡ断片化パターン（フラグメントームプロファイリングまたは「フラグメントミクス」分析）は、腫瘍関連体細胞変異に関連する変化を示す。
循環血の血漿から単離されたセルフリーＤＮＡ（ｃｆＤＮＡ）は、瀕死細胞のクリアランスおよび血流輸送を生き延びたＤＮＡ断片を含む。がんにおいて、これらの断片は、腫瘍体細胞多様性ならびにそれらの微小環境の足跡を保持しており、臨床実践において非侵襲性の血漿に基づく遺伝子型決定を可能にする。しかしながら、がん由来ＤＮＡの割合は、典型的には少なく、初期段階での正確な検出が困難であり、がん性状況に関連する統計的に独立した体細胞バリアント非含有パターンの探索が促進される。ｃｆＤＮＡ断片のゲノム分布は、造血細胞におけるヌクレオソーム占有を反映することが示されているため、（ａ）患者腫瘍中の別個の変異と関連するがんのｃｆＤＮＡポジショニングの不均質なパターンを観察するための、および（ｂ）ｃｆＤＮＡポジショニングを、検出の感度および特異性の増加を可能にすることができる既存の分析手法に統合するための実験を実施した。

進行期臨床がんを有する１万５０００人よりも多くの患者のｃｆＤＮＡ断片長および位置の分布ならびに関連する体細胞ゲノムプロファイルを、７０個の遺伝子を標的とする非常に正確なディープカバレッジ（＞１５，０００×）ｃｔＤＮＡＮＧＳ試験により決定した。バリアント非含有フラグメントームプロファイリング（「フラグメントミクス」分析）の総合的分析を実施し、フラグメントームプロファイルを、統計的方法を使用して、検出された体細胞性変更との関連性について試験した。異なるクラスのフラグメントームサブタイプ（例えば、目視観察、クラスタリング、または他の手法により明らかにされた示差的フラグメントームプロファイルを有するサブタイプ）が、十分に特徴付けられたドライバー遺伝子変更およびゲノム分子サブタイプを有する試料では有意に濃縮されていることが観察された。

ＥＧＦＲ遺伝子について図２３に示されているように、ｃｆＤＮＡ断片化パターンのシグナルデコンボリューションを使用して、腫瘍タイプ全体の単一ヌクレオソーム分解能断片化パターンを生成した。部分ａに示されているように、ＥＧＦＲ遺伝子の複数のゲノム領域が、がん検出のための腫瘍関連マーカー（例えば、リキッドバイオプシーによりアッセイすることができる）を含む場合がある。部分ｂに示されているように、「無配列フラグメントミクス（ｓｅｑｕｅｎｃｅ－ｆｒｅｅｆｒａｇｍｅｎｔｏｍｉｃｓ）」分析は、良性バリアント、非体細胞バリアント、および体細胞バリアントを含む、ＥＧＦＲ遺伝子のゲノム領域全体のバリアントを明らかにする。部分ｃに示されているように、そのようなＥＧＦＲＤＮＡバリアントは、変異（ＳＮＶ）および増幅（例えば、ＣＮＶ）を含む場合がある。部分ｄに示されているように、総変異負荷は、フラグメントーム分析によるＳＮＶおよびＣＮＶを含むバリアントの検出から明らかになる。

フラグメントミクスプロファイルを評価し、ｃｆＤＮＡポジショニングのパターンと肺がん特異的ヌクレオソーム特徴との間で発見された関連性を確認するために、後期（進行期）肺腺癌を有する７６８人の患者の検証コホートに由来する試料の独立コホートを調査した。後期肺腺癌患者の検証コホートから生成されたフラグメントームプロファイルに対して、最小冗長性特徴選択（ｍｉｎｉｍｕｍｒｅｄｕｎｄａｎｃｙｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ）（例えば、Ｄｉｎｇら、ＪＢｉｏｉｎｆｏｒｍＣｏｍｐｕｔＢｉｏｌ、２００５年４月；３巻（２号）：１８５～２０５頁）を実施した。図２４に示されているように、この教師なしクラスタリング分析により、肺がん特異的特徴（ＥＧＦＲ、ＫＲＡＳ、ＦＧＦＲ２、ＡＬＫ、ＥＭＬ４、ＴＳＣ１、ＲＡＦ１、ＢＲＣＡ２、およびＫＩＴ遺伝子に関連する体細胞変異を含む）のサブセットが特定された。各行（ｙ軸）は、患者から採取された７６８個のｃｆＤＮＡ試料の１つを表し、各列（ｘ軸）は、異なる遺伝子に対応する異なるゲノム位置を示す。特に、フラグメントームパターンは、ＥＧＦＲ、ＫＲＡＳ、およびＦＧＦＲ２に体細胞変異（例えば、遺伝子型決定分析により、肺腺癌および他のタイプの肺がんを有する患者で一般的に観察される）の有意なクラスタを示した。したがって、フラグメントームプロファイル分析により、ｃｆＤＮＡポジショニングのパターン（フラグメントミクス）と肺がん特異的ヌクレオソーム特徴との間で発見された関連性が確認された。

（実施例３）
セルフリーＤＮＡ断片化パターン（フラグメントームプロファイリングまたは「フラグメントミクス」分析）は、異常検出のための密度としてモデル化することができる。
フラグメントームプロファイルは、特定の状態（例えば、悪性または非悪性、悪性状態は異常症例を示す）と関連する観察された断片化開始および長さの密度として３Ｄ遺伝子座標空間にモデル化することができる。そのようなフラグメントームプロファイルは、デジタルドロップレットポリメラーゼ連鎖反応（ｄｄＰＣＲ）、定量的ポリメラーゼ連鎖反応（ｑＰＣＲ）、およびアレイ比較ゲノムハイブリダイゼーション（ＣＧＨ）などの、様々なアッセイ法を使用して得ることができる。そのような「リキッドバイオプシー」アッセイは、例えば、ＧｕａｒｄａｎｔＨｅａｌｔｈの循環中腫瘍ＤＮＡ試験、ＦｌｕｘｉｏｎＢｉｏｓｃｉｅｎｃｅｓのＳｐｏｔｌｉｇｈｔ５９オンコロジーパネル、ＡｇｅｎａＢｉｏｓｃｉｅｎｃｅのＵｌｔｒａＳＥＥＫ肺がんパネル、ＦｏｕｎｄａｔｉｏｎＭｅｄｉｃｉｎｅのＦｏｕｎｄａｔｉｏｎＡＣＴリキッドバイオプシーアッセイ、ＰｅｒｓｏｎａｌＧｅｎｏｍｅＤｉａｇｎｏｓｔｉｃｓのＰｌａｓｍａＳＥＬＥＣＴアッセイなどが、商業的に入手可能であり得る。そのようなアッセイは、一組の遺伝子バリアント（例えば、ＳＮＶ、ＣＮＶ、インデル、および／または融合）の各々のマイナーアレル割合（ＭＡＦ）値の測定を報告することができる。

フラグメントームプロファイルを、異常検出アルゴリズムによる分析にかけて、異常な状態（例えば、対象中の悪性がん）を特定することができる。異常検出は、データマイニングに幅広く使用されており、混合モデルおよび期待値最大化（ＥＭ）アルゴリズムを使用して実施することができる。図２５に示されているように、異常検出は、混合モデリング、断片開始および長さの分布を、Ｋ－構成要素（Ｋ個の異なるクロマチン構成を表す）混合モデルとして形式的に記載することができる一般的な確率論的クラスタリング技法を含んでいてもよい。

上記モデルでは、ｃｆＤＮＡ開始位置（「開始」）および長さシグナル（例えば、複数のｃｆＤＮＡ断片の各々の開始および長さ）を処理して、特定のクロマチン単位に関連するＤＮＡ断片のサブセット（例えば、細胞死および細胞クリアランスを生き延びたもの）の非悪性観察の分布の等高線を画定する最先端を規定することができる。さらなる観察が、そのような最先端画定部分空間内に位置する場合、これらの観察点は、初期観察と同じ非悪性集団に由来するとみなされる。そうでなければ、最先端外に位置するさらなる観察は、異常な（例えば、悪性集団に由来する）細胞状態を示す場合がある。この異常性の徴候は、所与の信頼レベルで決定することができる。データ分析の種々の技法を、１クラスＳＶＭ（Ｏｎｅ－ＣｌａｓｓＳＶＭ）［Ｅｓｔｉｍａｔｉｎｇｔｈｅｓｕｐｐｏｒｔｏｆａｈｉｇｈ－ｄｉｍｅｎｓｉｏｎａｌｄｉｓｔｒｉｂｕｔｉｏｎ、Ｓｃｈｏｌｋｏｐｆ，Ｂｅｒｎｈａｒｄら、Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ１３巻、７号（２００１年）：１４４３～１４７１頁］楕円エンベロープのフィッティング［Ｒｏｕｓｓｅｅｕｗ，Ｐ．Ｊ．、ＶａｎＤｒｉｅｓｓｅｎ，Ｋ．「Ａｆａｓｔａｌｇｏｒｉｔｈｍｆｏｒｔｈｅｍｉｎｉｍｕｍｃｏｖａｒｉａｎｃｅｄｅｔｅｒｍｉｎａｎｔｅｓｔｉｍａｔｏｒ」、Ｔｅｃｈｎｏｍｅｔｒｉｃｓ、４１巻（３号）、２１２頁（１９９９年）］、ならびにアイソレーションフォーレスト（ＩｓｏｌａｔｉｏｎＦｏｒｅｓｔ）［Ｌｉｕ，ＦｅｉＴｏｎｙ、Ｔｉｎｇ，ＫａｉＭｉｎｇおよびＺｈｏｕ，Ｚｈｉ－Ｈｕａ．「Ｉｓｏｌａｔｉｏｎｆｏｒｅｓｔ．」ＤａｔａＭｉｎｉｎｇ、２００８年、ＩＣＤＭ‘０８．ＥｉｇｈｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ．］を含む混合モデルに適用して、不均質な一組の観察の部分集団をクラスタ化するために使用することができ、これら文献の各々は、参照により本明細書に組み込まれる。

楕円エンベロープフィッティング法を、上記で規定されている（および図２５に示されている）二変量正規混合に適用することができる。第１の作業は、同じヒストン保護ＤＮＡユニットから生じる断片に関連する等高線を確立することを含む。多変量正規化における等値線のそのような導出は、下記に記載されており、楕円としての等高線を確立する。一組の非悪性対照血漿試料を考慮すると、ゲノム空間を、非オーバーラップセグメントに細分化することができ、これらのセグメントは、ｃｆＤＮＡ断片の集団で観察される保護ＤＮＡのクラスタを規定する。次に、二変量正規または二変量ｔ分布モデルＰ（ｘ）を構築して、特定の断片が非悪性細胞に由来する確率を得る。確率ｐが閾値ε未満である場合、そのような断片は、異常であるとみなされる。異常断片の密度を全ゲノムセグメントにわたって総計することにより（染色体ＸおよびＹに適切な注意をはらって）、非悪性クロマチン構成の外部に由来するｃｆＤＮＡ断片（つまり、由来が異常であるｃｆＤＮＡ断片）の割合を表す、悪性負担（つまり、腫瘍量）の定量的尺度がもたらされる。生理学的に多様な一組のｃｆＤＮＡ試料を含む訓練セットが、複数の非悪性対照（例えば、健康対照対象）から得られれば、あらゆる検出された悪性寄与（例えば、検出された異常性）は、がん由来であることを示すことができる。そのような悪性負荷決定は、楕円エンベロープを、以下のように二変量正規混合にフィッティングすることにより実施することができる（図２６Ａに示されているように）。

（ｘ－μ）^ＴΣ^－１（ｘ－μ）＝ｃ

式中、Σは、共分散行列である。この数式は、楕円を表わす。μ＝（０，０）であり、Σが対角行列である単純な場合では、以下の数式が得られる。

（ｘ／σ_ｘ）^２＋（ｙ／σ_ｙ）^２＝ｃ

Σが対角行列ではない場合、対角化を実施して、同じ結果に到達することができる。対角化技法は、例えば［Ｈｙｎｄｍａｎ，Ｒ．Ｊ．（１９９６年）、Ｃｏｍｐｕｔｉｎｇａｎｄｇｒａｐｈｉｎｇｈｉｇｈｅｓｔｄｅｎｓｉｔｙｒｅｇｉｏｎｓ、ＴｈｅＡｍｅｒｉｃａｎＳｔａｔｉｓｔｉｃｉａｎ、５０巻（２号）、１２０～１２６頁］に記載されており、この文献は、参照により本明細書に組み込まれる。

以下のアルゴリズムを実施して、参照試料（例えば、健康対照）に由来するｃｆＤＮＡ集団を使用して二変量正規混合モデルを訓練および試験した。

まず、４０人の非悪性成人の血漿試料を含むデータセットを使用して、訓練を実施した。各ヒト染色体毎に、断片長を無視し、カーネル密度推定量を、統計ソフトウェアパッケージＲの「ｄｅｎｓｉｔｙ」機能を使用して算出した。アルゴリズム（１）では、経験的分布関数の一団を、少なくとも５０００点の規則的グリッドにわたって分散させ、その後（２）高速フーリエ変換を使用して、この近似を離散化型のカーネルでデコンボリューションし、その後（３）線形近似を使用して、指定の点での密度を評価する。例えば、カーネル密度推定法は、［Ｖｅｎａｂｌｅｓ，Ｗ．Ｎ．およびＲｉｐｌｅｙ，Ｂ．Ｄ．（２００２年）ＭｏｄｅｒｎＡｐｐｌｉｅｄＳｔａｔｉｓｔｉｃｓｗｉｔｈＳ．ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒ］に記載されており、この文献は、参照により本明細書に組み込まれる。

次に、クロマチン保護ユニットの境界を確立するために、算出された密度に谷部を確立した。谷部は、変化が生じた系列の最低値であると規定される。次に、規定されたセグメント毎に、２Ｄピニングカーネル密度推定量（２Ｄｂｉｎｎｅｄｋｅｒｎｅｌｄｅｎｓｉｔｙｅｓｔｉｍａｔｅ）を、統計ソフトウェアパッケージＲのＫｅｒｎＳｍｏｏｔｈパッケージを使用して算出した。ＫｅｒｎＳｍｏｏｔｈアルゴリズムは、［Ｗａｎｄ，Ｍ．Ｐ．（１９９４年）、ＦａｓｔＣｏｍｐｕｔａｔｉｏｎｏｆＭｕｌｔｉｖａｒｉａｔｅＫｅｒｎｅｌＥｓｔｉｍａｔｏｒｓ．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌａｎｄＧｒａｐｈｉｃａｌＳｔａｔｉｓｔｉｃｓ、３巻、４３３～４４５頁］に記載されており、この文献は、参照により本明細書に組み込まれる。次に、各遺伝子座標方向に一組のグリッド点を生成した（ｘ軸はゲノム位置であり、ｙ軸は断片長である）。次に、グリッド点により誘導されたメッシュにわたって、密度推定量の行列を算出した。

使用したカーネルは、標準的二変量正規密度だった。予め既定されたグリッドの各（ｘ１、ｘ２）対毎に、二変量ガウスカーネルをその位置で中央化し、各データ点での、帯域幅により基準化されたカーネルの最高値を合計する。グリッドは、必要に応じて散在的に規定してもよい（例えば、３ｂｐ、５ｂｐ毎など）。両方向に１５ｂｐのグリッドサイズを使用して、メモリ使用量を最小限に抑えた。帯域幅は、カーネル帯域幅平滑化パラメータを指し、より大きな値の帯域幅は推定値をより滑らかにし、より小さな値の帯域幅は推定値をあまり滑らかにしない。ヒューリスティックチューニング（ｈｅｕｒｉｓｔｉｃｔｕｎｉｎｇ）を、４００個よりも多くの強力にポジショニングされたヌクレオソームプロファイル（つまり、複数の組織、細胞系統、および生物にわたって同じヌクレオソーム構造を保存するプロファイル）を含む１２ｐ１１．１領域にて様々な帯域幅パフォーマンスを検査することにより、３０ｂｐの帯域幅で実施した。そのような強力にポジショニングされたヌクレオソームプロファイルは、例えば、Ｇａｆｆｎｅｙ，Ｄ．Ｊ．ら、Ｃｏｎｔｒｏｌｓｏｆｎｕｃｌｅｏｓｏｍｅｐｏｓｉｔｉｏｎｉｎｇｉｎｔｈｅｈｕｍａｎｇｅｎｏｍｅ．ＰＬｏＳＧｅｎｅｔ．、８巻、ｅ１００３０３６（２０１２年）に記載されており、この文献は、参照により本明細書に組み込まれる。あるいは、平均積分二乗誤差を最小限に抑えるために、形式的帯域幅評価（ＵＲＬｗｗｗ．ｓｓｃ．ｗｉｓｃ．ｅｄｕ／～ｂｈａｎｓｅｎ／７１８／ＮｏｎＰａｒａｍｅｔｒｉｃｓ１．ｐｄｆで利用可能）を使用してもよい。

次に、推定平均および共分散を使用して、９９．９９５％楕円エンベロープを、統計ソフトウェアパッケージＲのｍｖｔｎｏｒｍライブラリを使用して確立した。このアルゴリズムは、ｓｏｌｖｅ（）関数を使用して、分散－共分散行列を反転させ、ｅｌｌｉｐｓｅ（）関数を使用して、二変量正規密度の対数の負の値として高さメトリックを算出した。例えば、少なくとも６０％、少なくとも６５％、少なくとも７０％、少なくとも７５％、少なくとも８０％、少なくとも８５％、少なくとも９０％、少なくとも９５％、少なくとも９６％、少なくとも９７％、少なくとも９８％、少なくとも９９％、少なくとも９９．９％、少なくとも９９．９９％、少なくとも９９．９９９％、または少なくとも９９．９９９５％などの、楕円エンベロープの他の値を使用してもよい。

上記に記載されている訓練作業により、９９．９９５％の信頼性で、非悪性クラスタを表していた３Ｄ断片開始位置および長さ空間の領域を確立した。次に、二変量正規混合モデルの試験を、肺および結腸がん患者のコホートから得られたｃｆＤＮＡ試料を含むデータセットを使用して実施した。上記ｃｆＤＮＡ試料は、切除前および切除後の採取血液の両方に由来していた。訓練と同様に、アルゴリズムのテスト部分は、２Ｄカーネル密度推定量を算出することを含んでいた。次に、悪性負担（悪性負荷、腫瘍量、または腫瘍量）を、非悪性楕円エンベロープの外側の密度の加重和として算出した。加重は、非悪性訓練セットの２Ｄカーネル密度推定量の逆数として設定した。

図２６Ｂは、上記に記載されている二変量正規混合モデルを使用した、５つの異なるコホート（結腸直腸がん手術後、結腸直腸がん手術前、肺がん手術後、肺がん手術前、および正常）全体のｃｆＤＮＡ試料のフラグメントーム分析により生成された異常発現スコアの分布の例を示す。「手術後」は、そのｃｆＤＮＡが、外科的切除手術後になされた採取血液で分析された対象を指す。「手術前」は、そのｃｆＤＮＡが、外科的切除手術前になされた採取血液で分析された対象を指す。なお、結腸直腸がん手術後のコホートおよび肺がん手術後コホートの異常発現スコア（したがって、悪性負担）は、より低い値を示し、正常（例えば、健康）コホートの異常発現スコアと類似していた。対照的に、結腸直腸がん手術前および肺がん手術前コホートの異常発現スコア（したがって、悪性負担）は、正常（例えば、健康）コホートの異常発現スコアよりも有意に高い値を示した。さらに、結腸直腸がん手術前および肺がん手術前コホートの異常発現スコア（したがって、悪性負担）は、他の３つ（結腸直腸がん手術後、肺がん手術後、および正常対象）と比較して、これらコホート内で有意により高い変動を示した。

（実施例４）
セルフリーＤＮＡ断片化パターン（フラグメントームプロファイリングまたは「フラグメントミクス」分析）は、腫瘍関連コピー数多様性（ＣＮＶ）に関連する変化を示す。
循環血の血漿から単離されたセルフリーＤＮＡ（ｃｆＤＮＡ）は、瀕死細胞のクリアランスおよび血流輸送を生き延びたＤＮＡ断片を含む。がんにおいて、これらの断片は、腫瘍コピー数多様性ならびにそれらの微小環境の足跡を保持しており、臨床実践において非侵襲性の血漿に基づく腫瘍遺伝子型決定を可能にする。しかしながら、がん由来ＤＮＡの割合は、典型的には少なく、初期段階での正確な検出が困難であり、がん性状況に関連する統計的に独立したコピー数バリアント非含有パターンの探索が促進される。ｃｆＤＮＡ断片のゲノム分布は、造血細胞におけるヌクレオソーム占有を反映することが示されているため、実験を実施して、（ａ）患者腫瘍中の別個のＣＮＶと関連するがんのｃｆＤＮＡポジショニングの不均質なパターンを観察し、（ｂ）ｃｆＤＮＡポジショニングを既存の分析に統合した。このような手法は、検出の感度および特異性の増加を可能にすることができる。

リキッドバイオプシーアッセイを実施して後期標的エクソームのＭＡＦを測定することにより、ＥＲＢＢ２ヌクレオソーム動力学を研究した。ＤＮＡ断片サイズ対ＤＮＡ断片開始位置の２Ｄヒートマップを含むマルチパラメトリックモデル（例えば、３次元としてＤＮＡ断片カバレッジを有する）を使用して、線形ピニング、ＦＦＴによる離散性デコンボリューション、および二変量ガウスカーネルフィッティングにより、開始位置による断片計数の通常カーネル密度推定量に対するピニング近似値を導出した。その結果は、図２７Ａに示されている。

図２７Ａは、ＴＰ５３遺伝子、エクソン番号７に関連するゲノム領域における断片サイズ（例えば、断片長）（ｙ軸）および対象のゲノム位置（ｘ軸）を含むマルチパラメトリックモデルの例を示す（ｚ軸は断片計数であり、色の濃淡で表されている）。このマルチパラメトリックモデルを使用して、セルフリーヌクレオソームポジショニングの効果を視覚化することができる。腫瘍を有する対象に対応するマルチパラメトリックモデル（この場合は、ヒートマップ）から、約１８０塩基位置により隔てられている（例えば、位置に対応する横軸に沿って）２つのピークを観察することができる。加えて、モノヌクレオソーム保護に対応する３つのピークを観察することができる（例えば、約１６０～約１８０塩基位置（ｂｐ）の範囲の断片サイズに対応する）。加えて、ジヌクレオソーム保護に対応する３つのピークを観察することができる（例えば、約３２０～約３４０塩基位置（ｂｐ）の範囲の断片サイズに対応する）。これらピークの各々は、位置（例えば、横軸に沿ったピークの中心の）、断片サイズ（例えば、縦軸に沿ったピークの中心の）、およびピーク幅（例えば、軸の１つに沿った）を含んでいてもよい。

２０人のＥＲＢＢ２陰性およびＥＲＢＢ２陽性の後期乳がん患者のコホートにて、両調節エレメント（例えば、ＥＲＢＢ２遺伝子に関連するプロモーターおよびエンハンサー領域）を、全ゲノム分析により検査した。そのような研究は、図２７Ｂおよび２７Ｃに示されているように、ＥＲＢＢ２陽性症例のヌクレオソームクリアランスの予想クロマチン構造を有する十分な断片カバレッジ、ならびに発現に関連するジヌクレオソームクラスタの存在を示した。

低変異負荷および近二倍体ＥＲＢＢ２コピー数（ＣＮ）を含むコホートは、腫瘍量が低く、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが低い可能性が高い対象である。高変異負荷および近二倍体ＥＲＢＢ２コピー数（ＣＮ）を含むコホートは、腫瘍量は高いが、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが低い可能性が高い対象である。図２７Ｂの上段２つの行のヒートマップから分かるように、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが低い対象は、低変異負荷および高変異負荷症例の両方にわたって類似のフラグメントームプロファイルを示した。

低変異負荷および高ＥＲＢＢ２コピー数（ＣＮ）（例えば、約４よりも大きな）を含むコホートは、腫瘍負荷は低いが、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが高い可能性が高い対象である。高変異負荷および高ＥＲＢＢ２コピー数（ＣＮ）（例えば、約４よりも大きな）を含むコホートは、腫瘍負荷が高く、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが高い可能性が高い対象である。図２７Ｂの下段２つの行のヒートマップから分かるように、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが高い対象は、低変異負荷および高変異負荷症例の両方にわたって類似のフラグメントームプロファイルを示した。加えて、ＥＲＢＢ２遺伝子のＣＮＶが高い対象は、（ｉ）より多くのジヌクレオソームピークの出現（断片長に対応する縦軸に沿って、各行のヒートマップの上部分に位置する）および（ｉｉ）２つのピーク間の距離がより大きく、他のピークとの「スメア化」（例えば、より大きな幅を有し、したがって互いに合流し始める、より不明確なピーク）を示すフラグメントームプロファイルを示した。

低変異負荷および近二倍体ＥＲＢＢ２コピー数（ＣＮ）を含むコホートは、腫瘍負荷が低く、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが低い可能性が高い対象である。高変異負荷および近二倍体ＥＲＢＢ２コピー数（ＣＮ）を含むコホートは、腫瘍負荷は高いが、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが低い可能性が高い対象である。図２７Ｃの上段２つの行のヒートマップから分かるように、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが低い対象は、低変異負荷および高変異負荷症例の両方にわたって類似のフラグメントームプロファイルを示した。

低変異負荷および高ＥＲＢＢ２コピー数（ＣＮ）（例えば、約４よりも大きな）を含むコホートは、腫瘍量は低いが、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが高い可能性が高い対象である。高変異負荷および高ＥＲＢＢ２コピー数（ＣＮ）（例えば、約４よりも大きな）を含むコホートは、腫瘍量が高く、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが高い可能性が高い対象である。図２７Ｃの下段２つの行のヒートマップから分かるように、腫瘍のＥＲＢＢ２遺伝子のＣＮＶが高い対象は、低変異負荷および高変異負荷症例の両方にわたって類似のフラグメントームプロファイルを示した。加えて、ＥＲＢＢ２遺伝子のＣＮＶが高い対象は、より多くのジヌクレオソームピークの出現（断片長に対応する縦軸に沿って、各行のヒートマップの上部分に位置する）を示すフラグメントームプロファイルを示した。

図２８Ａおよび２８Ｂに示されているように、個々の対象試料のフラグメントーム分析により、リキッドバイオプシーアッセイなどの標的化アッセイを使用してクロマチン構造検出の実現可能性が確認された。

図２８Ａは、整列させた２Ｄ断片開始位置（ｘ軸）および断片長（ｙ軸）密度ヒートマップ（右側、上から下へと示されている）を示す：（ｉ）単一の試料（ＥＲＢＢ２陽性対象に由来する）から生成されたＥＲＢＢ２エンハンサー領域のヒートマップ（右上）、（ｉｉ）複数の健康対照から生成された集計コホートヒートマップ、および（ｉｉｉ）複数の高ＥＲＢＢ２ＣＮ／低変異負荷対象から生成された集計コホートヒートマップ。加えて、４つの異なるゲノム領域（例えば、ＴＰ５３、ＮＦ１、ＥＲＢＢ２、およびＢＲＣＡ１遺伝子に対応する）での、モノヌクレオソームおよびジヌクレオソーム計数（例えば、試験試料中で計数された、そのゲノム位置から開始する断片の数）のカバレッジプロットが示されている（左側）。試験試料は、健康対照のコホートよりも、高ＥＲＢＢ２ＣＮおよび低変異負荷コホートのフラグメントームプロファイル（例えば、ジヌクレオソーム断片のピークまたは「ジヌクレオソームピーク」の出現を示す）とより類似したフラグメントームプロファイルを示す（右）。加えて、試験試料は、他の３つの遺伝子（ＴＰ５３、ＮＦ１、およびＢＲＣＡ１）と比較して、両方ともＥＲＢＢ２遺伝子領域にて有意に上昇した（例えば、数倍）モノヌクレオソームおよびジヌクレオソーム計数のカバレッジプロットを示す（左）。したがって、試験試料のフラグメントームプロファイルおよびカバレッジプロットは両方とも、試験対象がＥＲＢＢ２陽性である可能性が高いことを示し、それを確認する。フラグメントームプロファイリングを実施することにより、ＥＲＢＢ２遺伝子の遺伝子座の各塩基位置の塩基同一性を考慮に入れずに、ＥＲＢＢ２遺伝子のＣＮ遺伝子異常の存在が測定および取得された。

図２８Ｂは、アラインした２Ｄ断片開始位置（ｘ軸）および断片長（ｙ軸）密度ヒートマップ（上から下へと示されている）を示す：（ｉ）単一の試料（ＥＲＢＢ２陰性対象に由来する）から生成されたＥＲＢＢ２エンハンサー領域のヒートマップ（右上）、（ｉｉ）複数の健康対照から生成された集計コホートヒートマップ、および（ｉｉｉ）複数の高ＥＲＢＢ２ＣＮ／低変異負荷対象から生成された集計コホートヒートマップ。加えて、４つの異なるゲノム領域（例えば、ＴＰ５３、ＮＦ１、ＥＲＢＢ２、およびＢＲＣＡ１遺伝子に対応する）での、モノヌクレオソームおよびジヌクレオソーム計数（例えば、試験試料中で計数された、そのゲノム位置から開始する断片の数）のカバレッジプロットが示されている。試験試料は、高ＥＲＢＢ２ＣＮおよび低変異負荷コホートよりも、健康対照のコホートのフラグメントームプロファイル（例えば、ジヌクレオソーム断片のピークまたは「ジヌクレオソームピーク」が存在しない）とより類似したフラグメントームプロファイルを示す（右）。加えて、試験試料は、他の３つの遺伝子（ＴＰ５３、ＮＦ１、およびＢＲＣＡ１）と比較して、ＥＲＢＢ２遺伝子領域にて上昇していないモノヌクレオソームおよびジヌクレオソーム計数のカバレッジプロットを示す（左）。したがって、試験試料のフラグメントームプロファイルおよびカバレッジプロットは両方とも、試験対象がＥＲＢＢ２陰性である可能性が高いことを示し、それを確認する。フラグメントームプロファイリングを実施することにより、ＥＲＢＢ２遺伝子の遺伝子座の各塩基位置の塩基同一性を考慮に入れずに、ＥＲＢＢ２遺伝子のＣＮ遺伝子異常の非存在が測定および取得された。

一態様では、対象から得られたセルフリー試料（またはセルフリーＤＮＡ）に由来するデオキシリボ核酸（ＤＮＡ）断片中の遺伝子異常の存在または非存在を示す出力を生成するための方法が本明細書で開示されている。本方法は、フラグメントームプロファイル（例えば、２Ｄヒートマッププロット）から１つまたは複数のピークを特定することを含んでいてもよい。そのような特定は、ゲノムの複数の塩基位置にわたって、セルフリー試料（またはセルフリーＤＮＡ）に由来するＤＮＡ断片の分布を構築することを含んでいてもよい。次に、ＤＮＡ断片の分布において、複数の塩基位置の１つまたは複数の塩基位置で１つまたは複数のピークを特定することができる。各々のそのようなピークは、ピーク値およびピーク分布幅を含んでいてもよい。次に、対象の遺伝子異常の存在または非存在を決定することができる。そのような決定は、少なくとも（ｉ）１つまたは複数の塩基位置、（ｉｉ）ピーク値、および／または（ｉｉｉ）ピーク分布幅に基づいていてもよい。一部の実施形態では、１つまたは複数のピークは、ジヌクレオソームピークおよび／またはモノヌクレオソームピークを含む。

一部の実施形態では、遺伝子異常の存在または非存在を示す出力は、少なくとも、ジヌクレオソームピークに関連する第１のピーク値およびモノヌクレオソームピークに関連する第２のピーク値の比またはその逆を示す定量的尺度に基づいて決定される。例えば、ジヌクレオソームピーク値（および／またはピーク分布幅（「ピーク幅」））の、モノヌクレオソームピーク値（および／またはピーク幅）に対する比を使用して、試験試料のフラグメントームプロファイルが、１つまたは複数の健康対照対象（またはコホート）および／または１つまたは複数の罹患対象（またはコホート）のフラグメントームプロファイル（類似のピーク位置、ピーク値、および／またはピーク幅を有する）と一致するパターンであり得るか否かを示すことができる。

マルチパラメトリック分布（例えば、２Ｄ密度プロットまたはヒートマップ）が生成されれば、マルチモーダル密度を推定することができる。しかしながら、そのような評価は、１次元の場合でさえ困難である場合がある。単峰型モデルの場合、密度形状は、多変量分布分析の周知の方法を使用して生成することができるパラメータ（例えば、歪度および尖度）により記載することができる。マルチモーダルモデルの場合、マルチモーダル密度分析（例えば、断片開始位置（「断片開始」）などのパラメータの）を実施して、最頻値の数および各々のそのような最頻値の位置を決定することができる。それは、最頻値が、クロマチンマークのエピジェネティックなｃａｐ分析遺伝子発現（ＣＡＧＥ）ピークを模倣する優性特徴であり、その根底にあるクロマチン構成の潜在的症候であり得るためである。

マルチモーダル密度分析は、マルチモーダル密度構成と一致する様式の一組の均質な構成要素へのサンプリング集団の分解を提供する混合モデルの使用を含んでいてもよい。種々の方法および手法を使用して、多変量正規混合、例えば機械学習アルゴリズムの最頻値挙動を決定することができる。一例として、マルチパラメトリック分布（例えば、フラグメントーム２Ｄ密度）に対して、地形図に好適な分水嶺変換（ｗａｔｅｒｓｈｅｄｔｒａｎｓｆｏｒｍａｔｉｏｎ）などの画像処理および画像分割アルゴリズムを実施してもよい。そのような分水嶺変換手法は、各地点の明るさがその高さを表わすフラグメントームプロファイルを表すことができ、したがってマルチモーダル密度分析は、そのよう分水嶺プロット（ｗａｔｅｒｓｈｅｄｐｌｏｔ）の尾根部の上部に沿って走る１つまたは複数の線を決定することを含んでいてもよい。図２９Ａに示されているように、そのような変換手法を使用して、フラグメントームプロファイルを分析し、二変量正規混合の地形図モデリングにより標準ヌクレオソームアーキテクチャをマッピングした。

図２９Ａは、ＥＲＢＢ２およびＮＦ１エクソンドメイン（増幅なし）の２Ｄヌクレオソームマッピングを示す。そのようなヌクレオソームマッピングは、例えば、第１７染色体のＥＲＢＢ２プロモーター領域および隣接する遺伝子ＮＦ１に関連するフラグメントームプロファイルの稜線再構成を実施することにより得ることができる。このプロセスでは、ヌクレオソームマスクを、フラグメントームプロファイルにフィッティングした。

ここで、シグナルは、ヌクレオソーム境界の等高線、およびそのような等高線の密度の変動を表わす。図の下段には、２Ｄ密度推定および画像処理が示されている。図の上段は、３０例の近二倍体ＥＲＢＢ２臨床事例（例えば、そのリキッドバイオプシーアッセイにより、ＣＮＶが低いかまたはないことを示すＭＡＦ値が報告された対象）全体で観察された標準ドメインのヌクレオソームマスクである。健康対象を検査し、フラグメントームプロファイリングに供し、ヌクレオソームが存在すると予想される等高線を決定した。そのような分析は、デルタシグナルを使用することを含んでおり、各デルタシグナルは、ＤＮＡ断片（例えば、試験試料の）の分布と、参照分布（例えば、健康対照の標準分布）との差を含む。健康対照に基づいてマスクを構築し、そのマスクを試験試料に適用した。得られたプロットは、この試験試料が、健康対照のコホートのフラグメントームプロファイルと非常に類似するフラグメントームプロファイルを有することを示す。

その後、ヌクレオソームマスキング手法を、第１７染色体（ｃｈｒ１７）の標的ドメイン全体に適用し、リキッドバイオプシーアッセイによりアッセイされ、４つの組織タイプ（前立腺、結腸、乳房、および肺）全体の進行がん患者を表していた７，０００試料のより大きな臨床コホートに拡張した。フラグメントームシグナルをデコンボリューションして、ＥＲＢＢ２、ＮＦ１、ＢＲＣＡ１、およびＴＰ５３の４つの遺伝子を含んでいたｃｈｒ１７標的ドメインの標準ヌクレオソームマスクを生成した。

次に、汎がん近二倍体ＥＲＢＢ２コピー数訓練セットから導出されたヌクレオソーム特異的特徴を使用して、腫瘍関連マイナーアレル頻度（ＭＡＦ）をアッセイした８１１個の進行期乳癌試料全体にわたってＥＲＢＢ２遺伝子の残差マスクを隣接遺伝子の残差マスクと対比させることにより、ＥＲＢＢ２発現構成要素および第１７染色体腫瘍量を推定した。具体的には、腫瘍量を、非ＥＲＢＢ２ドメイン全体の反復残差測定値として評価し、限局的増幅事象（ｆｏｃａｌａｍｐｌｉｆｉｃａｔｉｏｎｅｖｅｎｔ）に対してロバスト化し（図３０に示されているように）、ＥＲＢＢ２発現尺度を、８１１個の乳がん試料全体の、ＥＲＢＢ２ジヌクレオソーム対ＥＲＢＢ２発現のモノヌクレオソームチャネルの残差密度推定量対コピー数推定量として算出した（図３１Ａに示されているように）。ＥＲＢＢ２コピー数を、ＥＲＢＢ２モノヌクレオソームの残差密度として決定し、変異負荷について補正し、ＥＲＢＢ２境界の外部を評価した。

図２９Ｂは、ＥＲＢＢ２およびＮＦ１エクソンドメイン（増幅なし）の２Ｄヌクレオソームマッピングを示す。図の下段には、２Ｄ密度推定および画像処理が示されている。図の上段には、３０例のＥＲＢＢ２臨床症例全体で観察された標準ドメインのヌクレオソームマスクが示されている。このプロセスでは、試験試料プロファイルと標準健康プロファイルとの比較を使用してパターンマッチングを実施した（例えば、シグナルデコンボリューション、およびデコンボリューションされたシグナルのパターン認識を実施することにより）。この比較では、複数の手法を使用して、差を観察することができる。例えば、ｌｏｇ尤度を算出して、観察されたシグナルと、（ｉ）１つまたは複数の標準マスク（例えば、健康対照に由来する）、（ｉｉ）１つまたは複数の陽性異常プロファイル、または（ｉｉｉ）両方の組合せとの距離を測定することができる。別の例として、画像処理アルゴリズムを、フラグメントームプロファイル比較のために実施してもよい。その後、そのような距離またはデルタシグナルを比較して、所与の試験試料が、健康である可能性がより高いか、または罹患状況である可能性がより高い対象を示すフラグメントームプロファイルを有するか否かを決定することができる。複数の参照分布（例えば、１つまたは複数の健康個体および１つまたは複数の罹患個体）との比較が、単一の比較に組み込まれていてもよい。

図３０は、以前にリキッドバイオプシーアッセイにより最大ＭＡＦがアッセイされていた４つの異なるコホート全体の推定第１７染色体腫瘍量のプロットを示す：（ｉ）（０，０．５］の範囲の最大ＭＡＦを有するコホート、（ｉｉ）（０．５，５］の範囲の最大ＭＡＦを有するコホート、（ｉｉｉ）（５，２０］の範囲の最大ＭＡＦを有するコホート、および（ｉｖ）（２０，１００］の範囲の最大ＭＡＦを有するコホート。腫瘍の細胞クリアランス（例えば、細胞およびセルフリーＤＮＡを循環中へと流出させる腫瘍の傾向）は、ＮＦ１遺伝子または他の非がんマーカーの定量的尺度を算出することにより測定することができる。例えば、そのような定量的尺度は、ジヌクレオソーム保護を示す測定された断片の数の、モノヌクレオソーム保護を示す測定された断片の数に対する比であってもよい。対象から得られたセルフリー試料（またはセルフリーＤＮＡ）に由来するＤＮＡ断片の分布（例えば、マルチパラメトリック分布またはユニパラメトリック分布（ｕｎｉ－ｐａｒａｍｅｔｒｉｃｄｉｓｔｒｉｂｕｔｉｏｎ））を、遺伝子座の１つまたは複数の構成要素へとデコンボリューションしてもよい。そのような構成要素は、コピー数（ＣＮ）、細胞クリアランス、および遺伝子発現の１つ、２つ、３つを含んでいてもよい。デコンボリューションは、ゲノムの複数の塩基位置にわたって、セルフリー試料（またはセルフリーＤＮＡ）に由来するＤＮＡ断片のカバレッジの分布を構築することを含んでいてもよい。次に、デコンボリューションは、１つまたは複数の遺伝子座の各々について、カバレッジの分布をデコンボリューションし、それによりコピー数（ＣＮ）構成要素、細胞クリアランス構成要素、および／または遺伝子発現構成要素に関連する分画寄与度を生成することを含んでいてもよい。

図３１Ａは、ＥＲＢＢ２発現構成要素対ＥＲＢＢ２コピー数のプロットを示す。ここで、ＥＲＢＢ２発現測定値（ｙ軸）は、８１１個の乳がん試料全体のＥＲＢＢ２ジヌクレオソーム対モノヌクレオソームチャネルの残差密度推定量として算出した。ＥＲＢＢ２プロモーター領域を検査して、コピー数変化に関連するクロマチン再編成事象を観察した。コピー数変化は発現と関連しているため、フラグメントームシグナルから発現を推定することができる。ＦＩＳＨおよび／または免疫組織化学法（ＩＨＣ）によりＨＥＲ２陽性であると以前に確認されたＥＲＢＢ２ステータスを有する対象のコホートについて、このコホートのＥＲＢＢ２プロモーター領域のフラグメントームプロファイルを検査し、ＥＲＢＢ２陽性発現のマスクを特定した。同様に、ＥＲＢＢ２陰性コホート（この場合も、ＦＩＳＨおよび／またはＩＨＣにより臨床的に検証されていた）のマスクを生成して、ＥＲＢＢ２陰性発現のマスクを特定した。したがって、所与の試験試料について、関連するフラグメントームプロファイル（例えば、ＥＲＢＢ陽性プロファイルおよびＥＲＢＢ２陰性プロファイルの混合として）の分析は、ＥＲＢＢ２陽性またはＥＲＢＢ２陰性フラグメントームパターンのいずれかと一致する尤度（例えば、パターンマッチングに関連するｌｏｇ尤度）を示すことができる。コホート中の各対象について、関連するフラグメントームプロファイルのカバレッジ数から、ＥＲＢＢ２コピー数を測定した。

図３１Ｂは、分散－共分散行列を構築し、分散－共分散行列を反転させ、楕円判別関数を生成することにより実施される、ＥＲＢＢ２陰性訓練セットを使用した２Ｄ閾値化のプロットを示す。ＥＲＢＢ２発現およびコピー数の多変量正規分布を、平均ベクトルμおよび共分散行列Σでパラメメーター化し、判別スコアを生成するために使用した。この手順を使用して、試験試料が、ＥＲＢＢ２陰性訓練データに対する二変量正規近似により作成された楕円内に含まれるか否かについて試験した。楕円（図３１Ｂに示されているような）を、データの一次および二次モーメントにより決定した。ＥＲＢＢ２発現およびコピー数の多変量正規分布の分散－共分散行列を反転させることにより、判別スコアを生成した。この判別スコアは、二変量正規密度の負の対数として算出した。

表２は、増幅検出の概要が、公知のＨＥＲ２免疫組織化学的ステータスを有する５８個の試料をもたらすことを示す。これらの結果は、免疫組織化学法（ＩＨＣ）および蛍光ｉｎｓｉｔｕハイブリダイゼーション（ＦＩＳＨ）により検証したＥＲＢＢ２陽性およびＥＲＢＢ２陰性乳がん症例の独立試験セットの感度および特異性の概要を含む。これらの結果は、フラグメントミクス（フラグメントームプロファイルの分析）が、従来のＣＮＶ検出手法と比較して、より高い感度および特異性でＥＲＢＢ２陽性およびＥＲＢＢ２陰性乳がん症例の増幅検出を可能にしたことを示す。そのようなフラグメントミクス手法は、より高い感度およびより高い特異性でＣＮＶを検出するために、従来のＣＮＶ検出手法（例えば、１つまたは複数の遺伝子座の塩基位置の塩基同一性を考慮に入れる手法）と並行して実施してもよい。あるいは、そのようなフラグメントミクス手法は、いずれか１つの方法の場合よりも高い感度およびより高い特異性でＣＮＶを検出するために、従来のＣＮＶ検出手法（例えば、１つまたは複数の遺伝子座の塩基位置の塩基同一性を考慮に入れる手法）と組み合わせて実施してもよい。

（実施例５）
セルフリーＤＮＡ断片化パターン（フラグメントームプロファイリングまたは「フラグメントミクス」分析）は、がんに関連する免疫細胞タイプの存在を示す変化を示す。
ｃｈｒ１：４３８１４８９３～４３８１５０７２の単一連続伸長により表わされるＭＰＬ遺伝子（ＭＰＬプロトオンコジーン、トロンボポエチン受容体）の遺伝子座の断片開始分布を含む一組のフラグメントームプロファイルを、（ｉ）少なくとも６つの異なる組織にわたる一組の２，３６０例の後期悪性症例、および（ｉｉ）４３人の健康バイオバンク対照対象にわたって検査した。各フラグメントームプロファイルについて、モノヌクレオソーム断片（２４０ｂｐ未満の長さを有する）の数で除算した観察されたジヌクレオソーム断片（約２４０ｂｐ～約３６０ｂｐの範囲の長さを有する）の数として規定されるジヌクレオソーム比を、３０ｂｐ窓をずらして算出した。次に、各フラグメントームプロファイル毎に、健康対照対象全体の中央値プロファイルを減算することにより、そのようなジヌクレオソーム比の残差を得た。図３２Ａに示されているように、行は、試料に対応し、列は、１８０ｂｐのＭＰＬ標的ドメインにわたる個々の窓に対応し、ｙ軸は、リキッドバイオプシーアッセイで観察された最大変異アレル頻度（ＭＡＦ）が増加する方向であるヒートマップにより表されるような残差プロットを生成した。

高ＭＡＦ試料（約３０％より高い）（つまり、最も高い腫瘍量を有し、したがって比較的進行した転移性疾患を示す対象に由来するもの）は、健康対照対象と比較して、高腫瘍量がんの短距離（サブヌクレオソーム、約１８０ｂｐ未満）の示差的クロマチンアーキテクチャを示すジヌクレオソーム残差の濃縮を示した。標的ＭＰＬドメインのＥＮＳＥＭＢＬ転写構造の検査は、残差ジヌクレオソーム比シグナルのブレイクポイントを示した（図３２Ｂおよび３２Ｃに示されているように）、これは、高腫瘍量がん試料で断片が濃縮されている転写物構造多様性に関連し、ＭＰＬの選択的転写物の短縮エクソン使用頻度と一致していた。そのようなブレイクポイントは、ＭＰＬ遺伝子の選択的スプライシング事象を示し、２つの異なる転写物にわたるサブヌクレオソームフラグメントームシグナルを表わし、１つの転写物は、別の転写物の短縮型である。転写物（標準型）の短縮型は、上段に示されており、転写物の非標準型は、下段に示されている。

組織特異的選択的エクソン使用頻度とのブレイクポイント関連性をさらに検査することにより（図３２Ｃに示されているように）、典型的な膜貫通型Ｍｐｌバリアント、ＭＰＬＫ（全長）、およびＭＰＬＰ（短縮）の特定が明らかになる。ＭＰＬＰバリアントは、単球、Ｂ－リンパ球（ｌｙｍｐｏｃｙｔｅ）、およびＴ細胞集団で検出されたが、単球、Ｂ細胞、およびＴ細胞でのＭＰＬＫｍＲＮＡ発現は低かった。本発明者らは、ブレイクポイントが、より短い転写物の縁端と関連しており、より長い転写物と関連していた割合が少ない（つまり、シグナルがより低い）ことを観察した。より長い転写物が、免疫細胞タイプ集団で観察され、がん存在および／または侵襲性を示すことができる。これらの結果は、健康正常対照対象と比べて、高腫瘍量を有する対象は、ＭＰＬＰシグネチャーが濃縮されているさらなるセルフリーＤＮＡ負荷を保持することを示す。そのようなシグネチャーは、がん存在および侵襲性に関連する免疫細胞タイプ存在を示す（例えば、［Ｄｉｆｆｅｒｅｎｔｍｕｔａｔｉｏｎｓｏｆｔｈｅｈｕｍａｎｃ－ｍｐｌｇｅｎｅｉｎｄｉｃａｔｅｄｉｓｔｉｎｃｔｈｅｍａｔｏｐｏｉｅｔｉｃｄｉｓｅａｓｅｓ、ＸｉｎＨｅら、ＪｏｕｒｎａｌｏｆＨｅｍａｔｏｌｏｇｙ＆Ｏｎｃｏｌｏｇｙ２０１３６：１１］に記載されているように）。したがって、これらの結果は、フラグメントミクス（フラグメントームプロファイルの分析）が、その存在ががんと関連している免疫細胞タイプの存在または相対的増加量の検出および特定を可能にしたことを示す。
本発明は、例えば、以下の項目を提供する。
（項目１）
対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を決定するためのコンピュータ実行方法であって、
（ａ）コンピュータによって、ゲノムの複数の塩基位置での前記ＤＮＡ断片のマルチパラメトリック分布を構築するステップ、および
（ｂ）第１の遺伝子座における各々の塩基位置の塩基同一性を考慮に入れることなく、前記マルチパラメトリック分布を使用するステップであって、前記対象の前記第１の遺伝子座における前記遺伝子異常の前記存在または非存在を決定するステップ
を含む方法。
（項目２）
前記遺伝子異常が、配列異常またはコピー数多様性（ＣＮＶ）を含み、前記配列異常が、（ｉ）一塩基バリアント（ＳＮＶ）、（ｉｉ）挿入または欠失（インデル）、および（ｉｉｉ）遺伝子融合からなる群から選択される、項目１に記載の方法。
（項目３）
前記マルチパラメトリック分布が、（ｉ）前記ゲノムの前記複数の塩基位置の各々と整列する前記ＤＮＡ断片の長さ、（ｉｉ）前記ゲノムの前記複数の塩基位置の各々と整列する前記ＤＮＡ断片の数、および（ｉｉｉ）前記ゲノムの前記複数の塩基位置の各々で開始または終止する前記ＤＮＡ断片の数のうちの１つまたは複数を示すパラメータを含む、項目１に記載の方法。
（項目４）
分布スコアを決定するために、前記マルチパラメトリック分布を使用するステップであって、前記分布スコアが前記遺伝子異常の変異負荷を示すステップをさらに含む、項目１に記載の方法。
（項目５）
前記分布スコアが、ジヌクレオソーム保護を有する前記ＤＮＡ断片の数、およびモノヌクレオソーム保護を有する前記ＤＮＡ断片の数のうちの１つまたは複数を示す値を含む、項目４に記載の方法。
（項目６）
試験対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片を使用して前記試験対象における遺伝子異常を決定するためのコンピュータ実行分類器であって、
（ａ）複数の対象の各々から得た１つまたは複数のセルフリーＤＮＡ集団の各々に関する一組の分布スコアの入力であって、各々の分布スコアが、（ｉ）ゲノムの複数の塩基位置の各々と整列する前記ＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列する前記ＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止する前記ＤＮＡ断片の数のうちの少なくとも１つまたは複数に基づいて生成される、入力、ならびに
（ｂ）前記試験対象における１つまたは複数の遺伝子異常の分類の出力
を含む分類器。
（項目７）
試験対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片を使用して、前記試験対象における遺伝子異常を決定するためのコンピュータ実行方法であって、
（ａ）試験対象から得たセルフリーＤＮＡからのＤＮＡ断片を使用して、前記試験対象における遺伝子異常を決定するように構成されているコンピュータ実行分類器を提供するステップであって、前記分類器が訓練セットを使用して訓練される、ステップ、
（ｂ）前記試験対象に関する一組の分布スコアを、前記分類器に入力として提供するステップであって、各々の分布スコアが、（ｉ）ゲノムの複数の塩基位置の各々と整列する前記ＤＮＡ断片の長さ、（ｉｉ）ゲノムの複数の塩基位置の各々と整列する前記ＤＮＡ断片の数、および（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止する前記ＤＮＡ断片の数のうちの１つまたは複数を示す、ステップ、ならびに（ｃ）前記分類器を使用するステップであって、コンピュータによって、前記試験対象における遺伝子異常の分類を生成するステップ
を含む方法。
（項目８）
対象に由来するセルフリーデオキシリボ核酸（ＤＮＡ）断片を解析するためのコンピュータ実行方法であって、
前記セルフリーＤＮＡ断片を表す配列情報を得るステップ、および
前記セルフリーＤＮＡ断片を表すマルチパラメトリックモデルを生成するために、前記配列情報を使用して、複数のデータセットについてマルチパラメトリック解析を実施するステップであって、前記マルチパラメトリックモデルが３つまたはそれより多くの次元を含む、ステップ
を含む方法。
（項目９）
前記データセットが、（ａ）シークエンシングしたＤＮＡ断片の開始位置、（ｂ）シークエンシングしたＤＮＡ断片の終止位置、（ｃ）マッピング可能な位置をカバーするユニークなシークエンシングしたＤＮＡ断片の数、（ｄ）シークエンシングしたＤＮＡ断片の長さ、（ｅ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたＤＮＡ断片内に出現する尤度、（ｇ）シークエンシングしたＤＮＡ断片の配列モチーフ、（ｈ）ＧＣ含有量、（ｉ）シークエンシングしたＤＮＡ断片の長さの分布、および（ｊ）メチル化ステータスからなる群から選択される、項目８に記載の方法。
（項目１０）
前記マルチパラメトリック解析が、前記ゲノムの複数の塩基位置または領域の各々に、（ｉ）ゲノムにおけるマッピング可能な位置をカバーする配列を含むユニークなセルフリーＤＮＡ断片の数の分布、
（ｉｉ）前記ＤＮＡ断片が前記ゲノムにおける前記マッピング可能な位置をカバーする配列を含むように、前記セルフリーＤＮＡ断片の少なくとも一部の各々に関する断片長の分布、および
（ｉｉｉ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度の分布
からなる群から選択される１つまたは複数の分布をマッピングすることを含む、項目８に記載の方法。
（項目１１）
ゲノムの前記複数の塩基位置または領域が、表１に記載の遺伝子のうちの１つまたは複数に関連する少なくとも１つの塩基位置または領域を含む、項目１０に記載の方法。
（項目１２）
前記マッピングすることが、ゲノムの複数の塩基位置または領域の各々に、複数の前記データセットの各々からの複数の値をマッピングすることを含む、項目１０に記載の方法。
（項目１３）
前記複数の値のうちの少なくとも１つが、（ａ）シークエンシングしたＤＮＡ断片の開始位置、（ｂ）シークエンシングしたＤＮＡ断片の終止位置、（ｃ）マッピング可能な位置をカバーするユニークなシークエンシングしたＤＮＡ断片の数、（ｄ）シークエンシングしたＤＮＡ断片の長さ、（ｅ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたＤＮＡ断片内に出現する尤度、または（ｇ）シークエンシングしたＤＮＡ断片の配列モチーフからなる群から選択されるデータセットである、項目１２に記載の方法。
（項目１４）
前記マルチパラメトリック解析が、前記マルチパラメトリックモデルを生成するために、コンピュータによって１つまたは複数の数学的変換を適用することを含む、項目８に記載の方法。
（項目１５）
前記マルチパラメトリックモデルが、（ａ）シークエンシングしたＤＮＡ断片の開始位置、（ｂ）シークエンシングしたＤＮＡ断片の終止位置、（ｃ）マッピング可能な位置をカバーするユニークなシークエンシングしたＤＮＡ断片の数、（ｄ）シークエンシングしたＤＮＡ断片の長さ、（ｅ）マッピング可能な塩基対位置が、シークエンシングしたＤＮＡ断片の末端に出現する尤度、（ｆ）マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたＤＮＡ断片内に出現する尤度、および（ｇ）シークエンシングしたＤＮＡ断片の配列モチーフからなる群から選択される複数の変数の同時分布モデルである、項目８に記載の方法。
（項目１６）
前記マルチパラメトリックモデルにおいて１つまたは複数のピークを同定するステップであって、各々のピークがピーク分布幅およびピークカバレッジを有する、ステップをさらに含む、項目８に記載の方法。
（項目１７）
前記セルフリーＤＮＡ断片を表す前記マルチパラメトリックモデルと、参照マルチパラメトリックモデルとの間の１つまたは複数の逸脱を検出するステップをさらに含む、項目１６に記載の方法。
（項目１８）
前記逸脱が、
（ｉ）ヌクレオソーム領域外でのリード数の増加、
（ｉｉ）ヌクレオソーム領域内でのリード数の増加、
（ｉｉｉ）マッピング可能なゲノム位置と比較してより広いピーク分布、
（ｉｖ）ピーク位置のシフト、
（ｖ）新しいピークの同定、
（ｖｉ）ピークのカバレッジ深度の変化、
（ｖｉｉ）ピーク周囲の開始位置の変化、および
（ｖｉｉｉ）ピークに関連する断片サイズの変化
からなる群から選択される、項目１７に記載の方法。
（項目１９）
（ｉ）セルフリーＤＮＡの起源である細胞におけるアポトーシスプロセス、または（ｉｉ）前記セルフリーＤＮＡの起源である細胞における壊死プロセスに起因する前記マルチパラメトリックモデルの寄与を決定するステップをさらに含む、項目８に記載の方法。
（項目２０）
マルチパラメトリック解析を実施するステップであって、（ｉ）前記セルフリーＤＮＡ断片のＲＮＡ発現を測定する、（ｉｉ）前記セルフリーＤＮＡ断片のメチル化を測定する、（ｉｉｉ）前記セルフリーＤＮＡ断片のヌクレオソームマッピングを測定する、または（ｉｖ）前記セルフリーＤＮＡ断片における１つもしくは複数の体細胞一塩基多型または前記セルフリーＤＮＡ断片における１つもしくは複数の生殖系列一塩基多型の存在を同定するステップをさらに含む、項目８に記載の方法。
（項目２１）
ジヌクレオソーム保護を有する前記ＤＮＡ断片の数、またはモノヌクレオソーム保護を有する前記ＤＮＡ断片の数を示す値を含む分布スコアを生成するステップをさらに含む、項目８に記載の方法。
（項目２２）
前記対象の変異負荷を推定するステップをさらに含む、項目８に記載の方法。
（項目２３）
対象に由来するセルフリーデオキシリボ核酸（ＤＮＡ）断片を解析するためのコンピュータ実行方法であって、
前記セルフリーＤＮＡ断片を表すマルチパラメトリックモデルを得るステップ、および
コンピュータによって統計分析を実施して、前記マルチパラメトリックモデルを、別個のコホートを表す１つまたは複数のヌクレオソーム占有プロファイルに関連していると分類するステップ
を含む方法。
（項目２４）
訓練された分類器を作成するためのコンピュータ実行方法であって、
（ａ）複数の異なるクラスを提供するステップであって、各々のクラスが共有する特徴を有する一組の対象を表す、ステップ、
（ｂ）前記クラスの各々から得た複数のセルフリーデオキシリボ核酸（ＤＮＡ）集団の各々に関して、前記セルフリーＤＮＡ集団からのセルフリーデオキシリボ核酸（ＤＮＡ）断片を表すマルチパラメトリックモデルを提供するステップであって、それによって訓練データセットを提供するステップ、および
（ｃ）１つまたは複数の訓練された分類器を作成するために、コンピュータによって前記訓練データセットについて学習アルゴリズムを訓練するステップであって、各々の訓練された分類器が、試験対象のセルフリーＤＮＡの試験集団を前記複数の異なるクラスのうちの１つまたは複数に分類するように構成されている、ステップ
を含む方法。
（項目２５）
対象の試験試料を分類する方法であって、
（ａ）前記対象のセルフリーデオキシリボ核酸（ＤＮＡ）の試験集団からのセルフリーＤＮＡ断片を表すマルチパラメトリックモデルを提供するステップ、および
（ｂ）訓練された分類器を使用して、前記セルフリーＤＮＡの試験集団を分類するステップ
を含む方法。
（項目２６）
（ａ）コンピュータによって、対象のセルフリーＤＮＡ断片からの配列情報を生成するステップ、
（ｂ）コンピュータによって、前記配列情報に基づいて前記セルフリーＤＮＡ断片を参照ゲノムにマッピングするステップ、ならびに
（ｃ）コンピュータによって、前記マッピングされたセルフリーＤＮＡ断片を解析するステップであって、前記参照ゲノムの複数の塩基位置の各々で、
（ｉ）前記塩基位置にマッピングするセルフリーＤＮＡ断片の数、
（ｉｉ）前記塩基位置にマッピングする各々のセルフリーＤＮＡ断片の長さ、
（ｉｉｉ）セルフリーＤＮＡ断片の長さの関数としての、前記塩基位置にマッピングする前記セルフリーＤＮＡ断片の数、
（ｉｖ）前記塩基位置で開始するセルフリーＤＮＡ断片の数、
（ｖ）前記塩基位置で終止するセルフリーＤＮＡ断片の数、
（ｖｉ）長さの関数としての前記塩基位置で開始するセルフリーＤＮＡ断片の数、および
（ｖｉｉ）長さの関数としての前記塩基位置で終止するセルフリーＤＮＡ断片の数
からなる群から選択される複数の測定値を決定するステップ
を含む、コンピュータ実行方法。
（項目２７）
対象に由来するセルフリーＤＮＡ断片を解析するコンピュータ実行方法であって、
（ａ）コンピュータによって、前記セルフリーＤＮＡ断片を表す配列情報を受信するステップ、ならびに
（ｂ）マッピング可能な塩基位置またはゲノム位置毎に解析を実施するステップであって、
（ｉ）前記塩基位置またはゲノム位置で開始または終止する配列断片の数、
（ｉｉ）前記塩基位置またはゲノム位置での配列または断片の長さ、
（ｉｉｉ）前記塩基位置またはゲノム位置での断片または配列のカバレッジ、および
（ｉｖ）前記塩基位置またはゲノム位置での配列モチーフ分布
のうちの複数を含むステップ
を含む方法。
（項目２８）
対象が臨床的に重要な１つまたは複数のクラスに属する尤度を決定するための分類器を生成する方法であって、
ａ）前記臨床的に重要な１つまたは複数のクラスの各々に関して、臨床的に重要なクラスに属する種の複数の対象の各々のセルフリーＤＮＡ集団、および臨床的に重要なクラスに属さない種の複数の対象の各々のセルフリーＤＮＡ集団を含む訓練セットを提供するステップ、
ｂ）複数のＤＮＡ配列を生成するために、前記セルフリーＤＮＡ集団からのセルフリーＤＮＡ断片をシークエンシングするステップ、
ｃ）各々のセルフリーＤＮＡ集団に関して、前記種の参照ゲノムの１つまたは複数のゲノム領域の各々に前記複数のＤＮＡ配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、
ｄ）訓練セットを生じるために、前記複数の遺伝子座の各々に関して
（ｉ）前記遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）前記遺伝子座で開始するＤＮＡ配列、および（ｉｉｉ）前記遺伝子座で終止するＤＮＡ配列
から選択される少なくとも１つの特徴の定量的測定値を示す値を含むデータセットを、各々のセルフリーＤＮＡ集団に関して提供するステップ、ならびに
ｅ）前記訓練セットについてコンピュータベースの機械学習システムを訓練するステップであって、それによって前記対象が臨床的に重要な１つまたは複数のクラスに属する尤度を決定するための分類器を生成するステップ
を含む方法。
（項目２９）
対象における異常な生物学的状況を決定する方法であって、
ａ）ＤＮＡ配列を生成するために、前記対象のセルフリーＤＮＡからのセルフリーＤＮＡ断片をシークエンシングするステップ、
ｂ）前記対象の種の参照ゲノムの１つまたは複数のゲノム領域の各々に前記ＤＮＡ配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、
ｃ）前記複数の遺伝子座の各々に関して、
（ｉ）前記遺伝子座にマッピングするＤＮＡ配列、（ｉｉ）前記遺伝子座で開始するＤＮＡ配列、および（ｉｉｉ）前記遺伝子座で終止するＤＮＡ配列
から選択される少なくとも１つの特色の定量的測定値を示す値を含むデータセットを提供するステップ、ならびに
ｄ）前記データセットに基づいて、前記異常な生物学的状況の尤度を決定するステップ
を含む方法。
（項目３０）
対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、
（ａ）コンピュータによって、ゲノムの複数の塩基位置での前記セルフリーＤＮＡからの前記ＤＮＡ断片の分布を構築するステップ、ならびに
（ｂ）１つまたは複数の遺伝子座の各々に関して、コンピュータによって、（１）前記１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有する前記ＤＮＡ断片の数、および（２）前記遺伝子座に関連するモノヌクレオソーム保護を有する前記ＤＮＡ断片の数の比率、またはその逆を示す定量的測定値を計算するステップ、ならびに
（ｃ）前記１つまたは複数の遺伝子座の各々に関する前記定量的測定値を使用して、前記対象における前記１つまたは複数の遺伝子座における前記遺伝子異常の存在または非存在を示す前記出力を決定するステップ
を含む方法。
（項目３１）
対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、
（ａ）コンピュータによって、ゲノムの複数の塩基位置での前記セルフリーＤＮＡからの前記ＤＮＡ断片の分布を構築するステップ、ならびに
（ｂ）前記対象における前記遺伝子異常の存在または非存在を示す前記出力を決定するために、前記分布を使用するステップであって、前記存在または非存在が、（ｉ）前記ＤＮＡ断片の前記分布を、前記対象のゲノムに対して外部の起源からの参照分布と比較することなく、（ｉｉ）前記ＤＮＡ断片の前記分布に由来するパラメータを参照パラメータと比較することなく、および（ｉｉｉ）前記ＤＮＡ断片の前記分布を、前記対象の対照からの参照分布と比較することなく、決定される、ステップ
を含む方法。
（項目３２）
前記遺伝子異常が、コピー数多様性（ＣＮＶ）または一塩基バリアント（ＳＮＶ）を含む、項目３１に記載の方法。
（項目３３）
対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片の分布をデコンボリューションするためのコンピュータ実行方法であって、
（ａ）コンピュータによって、ゲノムの複数の塩基位置での前記セルフリーＤＮＡからの前記ＤＮＡ断片のカバレッジの分布を構築するステップ、ならびに
（ｂ）１つまたは複数の遺伝子座の各々に関して、コンピュータによって、前記カバレッジの前記分布をデコンボリューションするステップであって、それによってコピー数（ＣＮ）構成要素、細胞クリアランス構成要素、および遺伝子発現構成要素からなる群から選択される１つまたは複数のメンバーに関連する分画寄与度を生成するステップ
を含む方法。
（項目３４）
前記分画寄与度の一部に少なくとも基づいて遺伝子異常の存在または非存在を示す出力を生成するステップをさらに含む、項目３３に記載の方法。
（項目３５）
対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、
（ａ）コンピュータによって、ゲノムの複数の塩基位置での前記セルフリーＤＮＡからの前記ＤＮＡ断片の分布を構築するステップ、
（ｂ）コンピュータによって、前記ＤＮＡ断片の前記分布における前記複数の塩基位置のうちの１つまたは複数の塩基位置で１つまたは複数のピークを同定するステップであって、各々のピークがピーク値およびピーク分布幅を含むステップ、ならびに
（ｃ）コンピュータによって、（ｉ）前記１つまたは複数の塩基位置、（ｉｉ）前記ピーク値、および（ｉｉｉ）前記ピーク分布幅に少なくとも基づいて、前記対象における前記遺伝子異常の前記存在または非存在を決定するステップ
を含む方法。
（項目３６）
前記１つまたは複数のピークが、ジヌクレオソームピークまたはモノヌクレオソームピークを含む、項目３５に記載の方法。
（項目３７）
前記遺伝子異常の存在または非存在を示す前記出力が、前記ジヌクレオソームピークに関連する第１のピーク値と、前記モノヌクレオソームピークに関連する第２のピーク値の比率、またはその逆を示す定量的測定値に少なくとも基づいて決定される、項目３６に記載の方法。
（項目３８）
対象から得たセルフリーＤＮＡからのデオキシリボ核酸（ＤＮＡ）断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、
（ａ）コンピュータによって、ゲノムの複数の塩基位置での前記セルフリーＤＮＡからの前記ＤＮＡ断片の分布を構築するステップ、
（ｂ）コンピュータによって、１つまたは複数の遺伝子座での前記ＤＮＡ断片の前記分布を解析するステップであって、前記ＤＮＡ断片の前記分布と、（ｉ）健康な対照の１つまたは複数のコホートに関連する１つまたは複数の健康参照分布、および（ｉｉ）疾患を有する対象の１つまたは複数のコホートに関連する１つまたは複数の疾患参照分布から選択される複数の参照分布との間の逸脱を検出することを含むステップ、ならびに
（ｃ）コンピュータによって、（ｂ）において検出された前記逸脱に少なくとも基づいて、前記対象における前記遺伝子異常の存在または非存在を示す前記出力を決定するステップ
を含む方法。
（項目３９）
解析するステップが、１つまたは複数のデルタシグナルを計算することであって、各々のデルタシグナルが、前記ＤＮＡ断片の前記分布と前記複数の参照分布の参照分布との間の差異を含む、ことを含む、項目３８に記載の方法。
（項目４０）
対象の生物試料を処理するための方法であって、
（ａ）前記対象の前記生物試料を得るステップであって、前記生物試料がデオキシリボ核酸（ＤＮＡ）断片を含む、ステップ、
（ｂ）前記生物試料をアッセイするステップであって、（ｉ）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および（ｉｉ）前記遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の存在または非存在を示すシグナルを生成するステップ、ならびに
（ｃ）前記シグナルを使用するステップであって、（ｉ）１つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および（ｉｉ）前記遺伝子座に関連するモノヌクレオソーム保護を有するＤＮＡ断片の前記存在または非存在を示す出力を生成するステップ
を含む方法。
（項目４１）
アッセイするステップが、（ｉ）一組の１つもしくは複数の遺伝子座のＤＮＡ断片に関して前記生物試料を濃縮するステップ、または（ｉｉ）前記生物試料の前記ＤＮＡ断片をシークエンシングするステップを含む、項目４０に記載の方法。
（項目４２）
対象に由来するセルフリーＤＮＡ断片を含む生物試料を分析するための方法であって、モノヌクレオソーム保護およびジヌクレオソーム保護の各々に対応する同じ遺伝子座からのＤＮＡ断片を検出するステップを含む方法。
（項目４３）
対象に由来するセルフリーＤＮＡ断片を含む生物試料を分析するための方法であって、遺伝子座に関連するジヌクレオソーム保護を有するＤＮＡ断片を検出するステップを含む方法。
（項目４４）
前記遺伝子座が、ＥＲＢＢ２、ＴＰ５３、またはＮＦ１を含む、項目４３に記載の方法。

Claims

コンピュータで対象に由来するセルフリーデオキシリボ核酸（ｃｆＤＮＡ）断片を解析するための方法を実行するためのプログラムであって、
前記方法が、
（ａ）前記ｃｆＤＮＡ断片にライブラリ調製およびハイスループットシークエンシングを行うことにより生成された、前記対象由来の試料からのｃｆＤＮＡ断片を表すシークエンシング情報を、参照配列と整列させるステップであって、ここで
（ｉ）前記試料からの前記ｃｆＤＮＡ断片の各々が、ユニーク分子タグによって、タグ付けされ、
（ｉｉ）（ｉ）の前記タグ付けされたｃｆＤＮＡ断片が、増幅され、および
（ｉｉｉ）前記タグの追跡により子孫配列の追跡を可能にする、
ステップ、
（ｂ）前記整列させた配列情報のマルチパラメトリック解析を実施し、それによって前記ｃｆＤＮＡ断片を表すマルチパラメトリックモデルを生成するステップであって、ここで前記マルチパラメトリックモデルが（ｉ）ゲノムの複数の塩基位置の各々と整列する前記ｃｆＤＮＡ断片の長さ、ならびに（ｉｉ）ゲノムの複数の塩基位置の各々と整列する前記ｃｆＤＮＡ断片の数、および／または（ｉｉｉ）ゲノムの複数の塩基位置の各々で開始または終止する前記ｃｆＤＮＡ断片の数、を示すパラメータから選択される、２つまたはそれより多くのパラメータを含む、ステップ、ならびに
（ｃ）前記マルチパラメトリックモデルを、別個のコホートを表す１つまたは複数のヌクレオソーム占有プロファイルに関連していると分類するために、訓練された分類器で統計分析を前記コンピュータによって実施するステップであって、ここで前記ヌクレオソーム占有プロファイルのうちの少なくとも１つは、腫瘍の指標、がんの早期検出、腫瘍タイプ、腫瘍の重症度、腫瘍の侵襲性、処置に対する腫瘍の抵抗性、腫瘍のクローン性、腫瘍のドラッガビリティ、腫瘍の進行、および血漿中調節異常スコアからなる群から選択される１つまたは複数の評価に関連する、ステップ、
を含むプログラム。
前記統計分析が、さらなる解析のために、目的の遺伝子を表す複数のゲノム範囲へとゲノムを分割する１つまたは複数のゲノム分割マップを提供することを含む、請求項１に記載のプログラム。
前記統計分析が、前記ゲノム分割マップに基づいて、前記関連するゲノム範囲からの一組の１つまたは複数の局在化ゲノム領域を選択することをさらに含む、請求項２に記載のプログラム。
前記統計分析が、前記一組における１つまたは複数の局在化ゲノム領域を解析して、一組の１つまたは複数のヌクレオソームマップ破壊を得ることをさらに含み、前記ヌクレオソームマップ破壊が、生物学的に関連する情報に関して所定の局在化ゲノム領域を特徴付ける測定値である、請求項２または請求項３に記載のプログラム。
前記ヌクレオソームマップ破壊のうちの少なくとも１つが、前記マルチパラメトリックモデルを、別個のコホートを表す１つまたは複数のヌクレオソーム占有プロファイルに関連していると分類するために使用される、請求項４に記載のプログラム。
前記ゲノム分割マップが
ａ）コホートにおける２人またはそれより多くの対象のセルフリーＤＮＡ集団を提供すること、
ｂ）試料の各々に関するマルチパラメトリックモデルを生成するために、ｃｆＤＮＡ集団の各々のマルチパラメトリック解析を実施すること、および
ｃ）１つまたは複数の局在化ゲノム領域を同定するために、前記マルチパラメトリックモデルを解析すること、
によって構築される、請求項２から５のいずれか一項に記載のプログラム。
前記１つまたは複数の局在化ゲノム領域を解析することが、ｃｆＤＮＡ断片を表すマルチパラメトリックモデルと、
（ｉ）健康な対照の１つまたは複数のコホートに関連する１つまたは複数の健康参照マルチパラメトリックモデル、および
（ｉｉ）疾患を有する対象の１つまたは複数のコホートに関連する１つまたは複数の疾患参照マルチパラメトリックモデル
から選択される１つまたは複数の参照マルチパラメトリックモデルとの間の１つまたは複数の逸脱を検出するステップを含む、請求項３から６のいずれか一項に記載のプログラム。
前記局在化ゲノム領域の少なくとも１つは、約２～約２００塩基対の範囲の短いＤＮＡ領域であり、前記領域は、有意な構造多様性のパターンを含む、請求項３から７のいずれか一項に記載のプログラム。
前記方法が、疾患の疾患スコアを決定するステップであって、前記疾患スコアが、
（ｉ）前記疾患に関連する１つまたは複数のヌクレオソーム占有プロファイル、
（ｉｉ）前記疾患を有しないコホートに関連する１つまたは複数の健康参照マルチパラメトリックモデル、および
（ｉｉｉ）前記疾患を有するコホートに関連する１つまたは複数の疾患参照マルチパラメトリックモデル
のうちの１つまたは複数の関数として決定される、ステップをさらに含む、請求項１から８のいずれか一項に記載のプログラム。
前記試料が、前記対象からの血液試料である、請求項１から９のいずれか一項に記載のプログラム。
前記マルチパラメトリックモデルが、ヒートマップである、請求項１から１０のいずれか一項に記載のプログラム。
前記方法が、前記対象の処置を検出、モニター、および／または決定するために使用され、前記対象が、がんを有するまたは有することが疑われる、請求項１から１１のいずれか一項に記載のプログラム。